(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022162647
(43)【公開日】2022-10-25
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06Q 10/00 20120101AFI20221018BHJP
G06N 20/00 20190101ALI20221018BHJP
G06F 40/279 20200101ALI20221018BHJP
G06F 16/35 20190101ALI20221018BHJP
【FI】
G06Q10/00 300
G06N20/00
G06F40/279
G06F16/35
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021067546
(22)【出願日】2021-04-13
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(71)【出願人】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】110000486
【氏名又は名称】とこしえ特許業務法人
(72)【発明者】
【氏名】堀畑 友希
(72)【発明者】
【氏名】広瀬 悟
【テーマコード(参考)】
5B091
5B175
5L049
【Fターム(参考)】
5B091AA15
5B175DA01
5B175FA03
5B175HB03
5L049CC15
(57)【要約】 (修正有)
【課題】処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理する情報処理装置及び情報処理方法を提供する。
【解決手段】情報処理システム1は、第1データベース11、第2データベース12、第3データベース13、第4データベース14、通信装置15、表示装置16及び情報処理装置17を含む。情報処理装置17は、第1データベース11から取得した入力データを、第2データベース12から取得した学習データ、第3データベース13から取得した処理基準データ、及び第4データベース14から取得したコーパスデータを用いて処理し、表示装置16を用いて処理結果を利用者に通知する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力されたデータを、所定のデータから生成された第1規則に従って分類する第1分類部と、
前記入力されたデータを、学習データを用いた機械学習により学習された、前記第1規則と異なる第2規則に従って分類する第2分類部と、
前記入力されたデータと、前記所定のデータとの類似度を算出する第1類似度算出部と、
前記入力されたデータと、前記学習データとの類似度を算出する第2類似度算出部と、を備える情報処理装置において、
前記学習データは、過去に入力され、前記第1分類部又は前記第2分類部にて分類されたデータを含み、
前記第1類似度算出部にて算出された類似度の値が、前記第2類似度算出部にて算出された類似度の値以上である場合は、前記入力されたデータを、前記第1分類部にて分類した後に、前記第1分類部にて分類されたデータの一部を、前記第2分類部にて分類し、
前記第1類似度算出部にて算出された類似度の値が、前記第2類似度算出部にて算出された類似度の値未満である場合は、前記入力されたデータを、前記第2分類部にて分類した後に、前記第2分類部にて分類されたデータの一部を、前記第1分類部にて分類する、情報処理装置。
【請求項2】
前記入力されたデータ及び前記学習データのうち少なくとも一つは、自然言語で記載されたテキストデータを含む、請求項1に記載の情報処理装置。
【請求項3】
第1類似度算出部は、前記入力されたデータに出現する単語のうち、前記所定のデータに出現する単語と重複する単語の出現頻度を類似度として算出する、請求項1又は2に記載の情報処理装置。
【請求項4】
第2類似度算出部は、前記入力されたデータに出現する単語のうち、前記学習データに出現する単語と重複する単語の出現頻度を類似度として算出する、請求項1~3のいずれか一項に記載の情報処理装置。
【請求項5】
前記第1類似度算出部及び前記第2類似度算出部は、それぞれ、前記入力されたデータから生成された単語ベクトルを用いて前記類似度を算出する、請求項1~4のいずれか一項に記載の情報処理装置。
【請求項6】
前記第1類似度算出部及び前記第2類似度算出部のそれぞれは、Simpson-Jaccard係数を用いて前記類似度を算出する、請求項1~5のいずれか一項に記載の情報処理装置。
【請求項7】
前記第2規則は、共起ネットワークを用いた機械学習により学習された規則である、請求項1~6のいずれか一項に記載の情報処理装置。
【請求項8】
前記第1分類部及び前記第2分類部は、前記入力されたデータを少なくとも3つの群に分類する、請求項1~7のいずれか一項に記載の情報処理装置。
【請求項9】
前記入力されたデータは、車両の不具合の情報を含み、前記第1規則及び前記第2規則は、前記不具合の重要度に対応した分類をするための規則である、請求項1~8のいずれか一項に記載の情報処理装置。
【請求項10】
前記第1分類部による分類の結果、前記第2分類部による分類の結果、前記第1類似度算出部により算出された類似度、及び前記第2類似度算出部により算出された類似度のうち少なくとも一つを表示する表示装置をさらに備える、請求項1~9のいずれか一項に記載の情報処理装置。
【請求項11】
入力されたデータを、所定のデータから生成された第1規則と、学習データを用いた機械学習により学習された、前記第1規則と異なる第2規則とを用いて分類する情報処理方法において、
前記学習データは、前記第1規則と前記第2規則とを用いて分類された、過去に入力されたデータを含み、
前記入力されたデータと、前記所定のデータとの類似度である第1類似度を算出し、
前記入力されたデータと、前記学習データとの類似度である第2類似度を算出し、
前記第1類似度の値が前記第2類似度の値以上である場合は、前記入力されたデータを、前記第1規則に従って分類した後に、前記第1規則に従って分類されたデータの一部を、前記第2規則に従って分類し、
前記第1類似度の値が前記第2類似度の値未満である場合は、前記入力されたデータを、前記第2規則に従って分類した後に、前記第2規則に従って分類されたデータの一部を、前記第1規則に従って分類する、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各種データを処理するための情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
電力系統にて計測された電力、及び予め設定された、電力系統の電力需給に基づいて推定した系統状態と、推定された系統状態において電力系統に発生すると想定される事故の状態との情報を含む入力データに基づいて、電力系統の安定度を予測する方法が知られている(特許文献1)。
【0003】
特許文献1の方法では、入力データ、及び所定の評価モデルにより生成された、過去の入力データに基づく学習データを用いて、学習データの入力データに対する学習度を判定する。学習度が高い、つまり入力データと学習データの類似性が高い場合は、入力データと学習データに基づいて、所定の評価モデルにより電力系統の安定度を推定する一方、学習度が低い、つまり入力データと学習データの類似性が低い場合は、シミュレーションなどの予め設定された計算手法により入力データから電力系統の安定度を算出する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記従来技術では、学習度が高いと判定された場合は、電力系統の安定度を正確に推定できるが、学習度が低いと判定された場合は、電力系統の安定度を正確に推定できない。そのため、学習度が低いと判定され、シミュレーションなどの計算手法で電力系統の安定度を算出した場合は、入力データと算出された電力系統の安定度とを教示データとして、評価モデルについてニューラルネットワークによる学習を行う。
【0006】
しかしながら、入力データからシミュレーションなどの計算手法で電力系統の安定度を算出できるか否かは入力データの種類による。そのため、学習度が低いと判定された場合に、常に、系統安定度を算出できるとは限らない。電力系統の安定度が算出できない場合は、教示データが得られず、学習により評価モデルを変更することができないため、入力データを評価モデルで処理しても、電力系統の安定度を高い精度で予測することができない。
【0007】
本発明が解決しようとする課題は、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる情報処理装置及び情報処理方法を提供することである。
【課題を解決するための手段】
【0008】
本発明は、入力されたデータを、所定のデータから生成された第1規則と、学習データを用いた機械学習により学習された、第1規則と異なる第2規則とを用いて分類する場合に、第1規則と第2規則とを用いて分類された、過去に入力されたデータを含む学習データを用いることとし、入力されたデータと、所定のデータとの類似度である第1類似度、及び入力されたデータと、学習データとの類似度である第2類似度を算出し、第1類似度の値が第2類似度の値以上である場合は、入力されたデータを、第1規則に従って分類した後に、第1規則に従って分類されたデータの一部を、第2規則に従って分類し、第1類似度の値が第2類似度の値未満である場合は、入力されたデータを、第2規則に従って分類した後に、第2規則に従って分類されたデータの一部を、第1規則に従って分類することによって上記課題を解決する。
【発明の効果】
【0009】
本発明によれば、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明に係る情報処理装置を含む情報処理システムを示すブロック図である。
【
図2】
図1の表示装置に表示される画像の一例である。
【
図3】
図1の情報処理システムにおける処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態を図面に基づいて説明する。
【0012】
[情報処理システム]
図1は、本発明に係る情報処理システム1を示すブロック図である。
図1に示す情報処理システム1は、たとえば、ウェブサイトやソーシャル・ネットワーキング・サービス(SNS)に投稿された文章、社内イントラネットの電子掲示板への書込み、及び製品を販売した販売店から製造元に寄せられた製品の修理報告書などから、市場における製品の不具合情報を取得し、取得した情報をその重要度に応じて自動的に分類する場合に用いることができる。
【0013】
情報処理システム1は、少なくとも一つのデータベースと、入力されたデータを処理する電子計算機とを備えるシステムである。
図1に示すように、情報処理システム1は、第1データベース11、第2データベース12、第3データベース13、第4データベース14、通信装置15、表示装置16、及び情報処理装置17を含む。第1データベース11には、情報処理装置17に入力され、処理される入力データが格納され、第2データベース12には、情報処理装置17にて実行される機械学習に用いる学習データが格納され、第3データベース13には、情報処理装置17に入力されたデータを処理する(たとえば分類する)ための所定の基準を示す処理基準データが格納され、第4データベース14には、情報処理装置17における処理で用いるコーパスデータが格納されている。
【0014】
第1データベース11に格納された入力データは、自然言語で記載されたテキストデータであれば特に限定されない。テキストデータとしては、たとえば、ウェブサイトやSNSへの投稿文章、イントラネットの電子掲示板への書込み、社内システムへの入力情報、製品を販売した販売店から製造元に寄せられた製品の修理報告書などが挙げられる。本実施形態の入力データは、特に、車両を販売したディーラーから、車両を製造した自動車会社に送られる品質報告書(テクニカル・レポート)を含む。品質報告書には、少なくとも、販売した車両の市場における不具合の情報、たとえば、不具合の発生箇所、不具合の状態、不具合の発生原因と対策、不具合が発生した車両の整備状態と修理履歴、不具合発生日時と対応日時などが含まれている。
【0015】
第2データベース12に格納された学習データは、情報処理装置17にて実行される機械学習に用いることができるデータであれば特に限定されず、たとえば、国土交通省などから公開されている、車両や安全に関する法令、ガイドラインなどの文書を含むテキストデータである。また、学習データには、以前に情報処理装置17にて処理された入力データが含まれる。この場合に、学習データは、過去に入力され、情報処理装置17にて処理されたデータと、少なくともそのときの処理結果とを含み、これらの情報が関連付けられて第2データベース12に格納されている。たとえば、車両の不具合情報を含む入力データを、後述する分類基準に従って、又は情報処理装置17にて機械学習により学習された規則に従って分類した場合には、入力データと、不具合の重要度に応じた入力データの分類結果と、分類方法とが関連付けられ、学習データとして第2データベース12に格納されることになる。
【0016】
第3データベース13に格納された処理基準データは、情報処理装置17にて入力データを処理する際に用いる基準を規定するデータであり、たとえば、情報処理装置17に入力されたデータを分類するときに用いる分類基準を示すデータである。処理基準データは、自然言語で記載された文章、数学記号で記載された数式などのテキストデータであり、国土交通省などから公開されている、法令や安全基準などに関する文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き、製品の使用マニュアルなどが挙げられる。
【0017】
第4データベース14に格納されたコーパスデータは、情報処理装置17における処理、特に機械学習によって何らかの規則を学習する際に用いるコーパスのデータである。コーパスとは、入力データを分析する際の対象となる構造化された資料集であり、文字で記された資料や録音された言語資料の集合体である。コーパスの種類は特に限定されず、たとえば、単に文書を集めた生コーパス、様々な種類の文書をバランスよく取集した均衡コーパス、品詞や統語構造などを付与してあるタグ付きコーパス、ある言語のテキストとその翻訳テキストを対応させたパラレルコーパスなどが挙げられる。例として、入力データが日本語であれば、現代日本語書き言葉均衡コーパス(BCCWJ)、日本語話し言葉コーパス(CSJ)などを用いることができ、入力データが英語であれば、Corpus of Contemporary American English(COCA)などを用いることができる。
【0018】
第1データベース11は、有線又は無線LANなどの公知の手段により、入力装置11aとデータの授受が可能な状態で接続されており、情報処理システム1の利用者は、情報処理装置17で処理するデータを、入力装置11aを用いて第1データベース11に入力する。入力装置11aは、情報処理システム1の利用者が、情報処理装置17で処理するデータを第1データベース11に入力するための装置であり、たとえば、ディスプレイと接続されたキーボード、マイク、タッチパネルなどである。入力装置11aは、第1データベース11と共に設けられていてもよいし、情報処理システム1の利用者の便宜に応じて、第1データベース11及び/又は情報処理装置17から離れた場所に設けられていてもよい。
【0019】
また、
図1に示すように、第1データベース11は、有線又は無線LANなどの公知の通信手段よって通信装置15と接続しており、情報処理装置17は、通信装置15を介して、第1データベース11に格納された入力データを取得する。通信装置15は、情報処理装置17と外部の機器との間でデータを授受するための装置であり、インターネットなどのネットワークを介して他の機器との通信が可能な通信装置であれば特に限定されない。なお、
図1に示す通信装置15は一つであるが、通信装置15の数は特に限定されず、複数個の通信装置15を用いてもよい。複数個の通信装置15を用いる場合は、情報処理システム1に含まれる各機器と通信装置15との接続関係は特に限定されない。
【0020】
また、
図1の情報処理システム1では、第1データベース11と同様に、第2データベース12、第3データベース13及び第4データベース14も通信装置15と接続している。情報処理装置17は、通信装置15を介して、第2データベース12から学習データを取得し、第3データベース13から処理基準データを取得し、第4データベース14からコーパスデータを取得する。これらのデータベースは、情報処理装置17と共に設けられている必要はなく、第1データベース11、第2データベース12、第3データベース13及び第4データベース14のうち少なくとも一つは、たとえば
図2に示すサーバー12aのように、情報処理装置17から離れた場所に設けられていてもよい。
【0021】
さらに、情報処理装置17は、表示装置16とも接続しており、情報処理装置17にて行われた入力データの処理結果は、表示装置16に表示される。表示装置16は、情報処理装置17に入力されたデータの処理状況を利用者に通知するための装置であり、例として、液晶ディスプレイ、プロジェクターなどが挙げられる。
図1の表示装置16は、データの授受が可能な状態で情報処理装置17と接続しているが、接続方法は特に限定されず、有線又は無線LANなどの公知の通信手段を用いることができる。また、表示装置16は、情報処理装置17と共に設けられていてもよいし、情報処理システム1の利用者の便宜に応じて、通信装置15と接続し、情報処理装置17から離れた場所に設けられていてもよい。
【0022】
情報処理装置17は、第1データベース11から取得した入力データを、第2データベース12から取得した学習データ、第3データベース13から取得した処理基準データ、及び第4データベース14から取得したコーパスデータを用いて処理し、表示装置16を用いて処理結果を利用者に通知するための装置である。情報処理装置17は、入力されたデータの処理と、利用者への処理結果の通知を、プロセッサ18により実現する。プロセッサ18は、プログラムが格納されたROM(Read Only Memory)182と、ROM182に格納されたプログラムを実行することで、情報処理装置17として機能するための動作回路であるCPU(Central Processing Unit)181と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)183とを備える。
【0023】
[入力データ処理部]
本実施形態の情報処理装置17で用いるプログラムは、入力されたデータの処理と、利用者への処理結果の通知とを情報処理装置17によって実現するための機能ブロックである入力データ処理部2を含む。入力データ処理部2は、各データベース11~14から必要なデータを取得し、入力されたデータをある規則に従って分類し、分類結果を、表示装置16を介して利用者に通知する機能を有する。入力データ処理部2は、
図1に示すように、データ取得部21、出現単語抽出部22、共起語抽出部23、分類規則生成部24、類似度算出部25、入力データ分類部26、表示画像生成部27、及びデータ出力部28を備える。
図1には、各部を便宜的に抽出して示す。
【0024】
図1に示す情報処理装置17は上記の機能ブロックを全て備えるが、単一の情報処理装置17が全ての機能ブロックを備える必要はなく、上記の機能ブロックのうち一部のものを、情報処理システム1に含まれる他の機器、又は図示しない別の情報処理装置に設けてもよい。たとえば、
図1の情報処理システム1において、表示画像生成部27を表示装置16に設けてもよい。この場合には、表示装置16のCPU、ROM、及びRAMを用いて表示画像生成部27の機能が実行されることになる。
【0025】
また、各機能ブロックの処理の全てを単一の情報処理装置にて実行する必要はなく、データが授受できる状態で接続された複数の情報処理装置をまたいで、各機能ブロックの機能を実現してもよい。たとえば、
図1の情報処理システム1において、出現単語抽出部22にて実行される処理のうち、一部の処理をサーバー12aにて実行し、残りの処理を情報処理装置17にて実行するようにしてもよい。この場合には、サーバー12aのCPU、ROM、及びRAMを用いて、出現単語抽出部22の機能を実現するための処理の一部が行われることになる。また、ほかの例として、共起語抽出部23及び分類規則生成部24についても、各機能ブロックにて実行される処理のうち、一部の処理をサーバー12aにて実行し、残りの処理を情報処理装置17にて実行するようにしてもよい。
【0026】
以下、入力データ処理部2の各機能ブロックが果たす機能について説明する。
【0027】
データ取得部21は、第1データベース11に格納された入力データ、第2データベース12に格納された学習データ、第3データベース13に格納された処理基準データ、及び第4データベース14に格納されたコーパスデータを、必要に応じて取得する機能を有する。データ取得部21により取得されたデータは、以下に説明する他の機能ブロックにて用いられる。
【0028】
出現単語抽出部22は、データ取得部21により取得されたデータに出現する単語を抽出する機能を有する。出現単語抽出部22は、特に、第1データベース11の入力データ、第2データベース12の学習データ、第3データベース13の処理基準データ、及び第4データベース14のコーパスデータに含まれるテキストデータで使用されている単語を抽出する機能を有する。出現単語抽出部22にて処理するテキストデータが、英語、ドイツ語、フランス語などのように、単語と単語の間にスペース(空白)を入れて単語を区切るように記載する(分かち書きする)印欧語である場合は、出現単語抽出部22は、スペースで区切られた単語をそのまま抽出し、単語ごとに品詞などのタグを付す。
【0029】
出現単語抽出部22は、必要に応じて、抽出された単語についてステミングを行い、抽出された単語からストップワードを削除する。ステミングとは、ある単語とその派生語について、全て同一の素性とみなすための処理である。たとえば、英語の動詞"run"について、テキストデータにて"ran"、"running"などの変化形が出現した場合には、これらの変化形は全て"run"と同じ素性とみなす。ストップワードとは、どのような話題の文書にも出現する単語で、話題の種類と関連を持たないと考えられる単語のことである。例として、"the"、"is"、"have"、"take"、"get"などの基本単語が挙げられる。これらの処理は、たとえば、プログラミング言語"Python"にて" termextract"などのモジュールを用いることで実行できる。
【0030】
これに対して、出現単語抽出部22にて処理するテキストデータが、日本語、中国語、タイ語などのように、分かち書きをしない言語である場合には、出現単語抽出部22は、テキストデータについて形態素解析を行う。形態素とは、意味を持つ最小の言語単位であり、本実施形態において、形態素解析とは、テキストデータにおいて単語の区切りを判定し、区切られた単語ごとにその品詞などを判別することをいうものとする。たとえば、「エンジンから変な音がして動作しない。」という文であれば、形態素解析により、「エンジン/から/変/な/音/が/して/動作/し/ない/。」と区切ることができ、区切られた各単語について、その読み、原型、品詞、活用形などを判別する。これらの区切られた各単語から、必要に応じて、助詞や助動詞などのストップワードを削除してもよい。このような処理は、たとえば、" MeCab"、" JUMAN"、" ChaSen"などの形態素解析ツールを用いて実行できる。
【0031】
なお、形態素解析の代わりに、nグラムの手法を用いてもよい。nグラムとは、n文字(nは自然数)の単位で文字列を分解し、隣り合った文字の組み合わせから文字列を分析する手法である。
【0032】
また、出現単語抽出部22は、抽出された単語から複合語を検索する機能を有する。出現単語抽出部22は、たとえば、2~5単語を組み合わせて一語とした複合語を検出する。たとえば、「排気/ガス」という単語が抽出された場合には、「排気ガス」という複合語を検出し、「アダプティブ/クルーズ/コントロール」という単語が抽出された場合には、「アダプティブクルーズコントロール」(ACC)という複合語を検出する。
【0033】
そして、出現単語抽出部22は、入力データから抽出された単語、学習データから抽出された単語、処理基準データから抽出された単語、及びコーパスデータから抽出された単語を、それぞれ、RAM183などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。
【0034】
ここで、出現単語抽出部22にて処理した学習データが、以前に情報処理装置17にて処理された入力データである場合は、抽出された単語についても、入力データとその処理結果との関連付けは維持される。たとえば、学習データが、車両の不具合情報を含む入力データを、後述の分類基準に従って分類したものであった場合は、出現単語抽出部22にて抽出された単語についても、不具合の重要度に応じた分類結果、及び分類方法との関連付けは維持される。同様に、処理基準データを出現単語抽出部22にて処理した場合にも、抽出された単語と分類基準との関連付けは維持される。たとえば、処理基準データが車両などの製品の不具合を重要度に応じて分類するための作業手順書である場合は、抽出された単語と重要度との関連付けは維持される。なお、すでに構造化されたコーパスデータを用いる場合には、必要に応じて、出現単語抽出部22にてコーパスデータから出現単語を抽出する処理を省略できる。
【0035】
共起語抽出部23は、出現単語抽出部22にて抽出された各単語について、その単語と共によく出現する単語を抽出する機能を有する。共起語抽出部23では、出現単語抽出部22にて抽出された各単語について、同一のテキストデータにおいて、ある単語と共に出現する単語のうち出現頻度が高い単語を、その単語と共によく出現する単語として抽出する。出現頻度とは、抽出された単語の総数に対する、ある単語と共に出現する単語の出現回数の割合である。本明細書では、同一のテキストデータにおいて、ある単語と共によく出現する単語のことを「共起語」とも称する。
【0036】
出現単語抽出部22にて抽出された単語から共起語を抽出するときは、たとえば、共起ネットワークを生成する。共起ネットワークとは、ある単語とその共起語について、テキストデータにおける出現頻度、出現するときの互いの距離などを可視化した図である。ある単語とその共起語との距離とは、ある単語とその共起語とが何単語離れて出現しているかを意味する。このような共起ネットワークは、たとえば"KH Coder"、"Text Mining Studio"などのプログラムを用いて生成することができる。
【0037】
共起語抽出部23は、生成した共起ネットワークから共起語を抽出する場合に、ある単語と共ともに出現する単語のうち、出現頻度が所定値以上のものを共起語として抽出する。たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位5位~30位の単語を共起語として抽出する。これに代えて、又はこれに加えて、共起語抽出部23は、ある単語と共ともに出現する単語のうち、出現するときの互いの距離が所定距離以下のものを共起語として抽出する。たとえば、ある単語と共に出現する単語のうち、互いの距離が1単語~10単語の単語を共起語として抽出する。出現頻度の所定値と、所定距離とは、出現単語抽出部22にて単語の抽出処理をされたデータの種類と量に応じて、適宜の値を選択することができる。また、共起語抽出部23により抽出される共起語の数は、単語ごとに異なっていてもよく、異なる単語について、同一の単語を共起語として抽出してもよい。
【0038】
共起語抽出部23にて共起ネットワークを生成する場合は、テキストデータ以外の情報を用いてもよい。特に、出現単語抽出部22にて学習データから抽出された単語が、以前の処理結果と関連付けられている場合は、共起語抽出部23は、以前の処理結果に応じたグループごとに共起語を抽出することができる。たとえば、出現単語抽出部22にて学習データから抽出された単語が、車両の不具合の重要度に応じた分類と関連付けられていた場合には、共起語抽出部23は、不具合の重要度に応じた分類ごとに、共起語を抽出することができる。そして、共起語抽出部23は、出現単語抽出部22にて処理された元データに対応させて、入力データから抽出された共起語、学習データから抽出された共起語、処理基準データから抽出された共起語、及びコーパスデータから抽出された共起語を、それぞれ、RAM183などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。この際に、抽出された共起語は、単語ごとにリスト化されてもよい。
【0039】
分類規則生成部24は、出現単語抽出部22にて抽出された単語、及び共起語抽出部23にて抽出された共起語のうち少なくとも一方を用いて、入力データを処理する規則を生成する機能を有する。入力データを処理する規則とは、特に、入力されたデータを分類するための規則である。分類規則生成部24は、出現単語抽出部22にて抽出された単語、及び共起語抽出部23にて抽出された共起語のうち少なくとも一方を用いて、データ取得部21にて取得した入力データ、学習データ、処理基準データ、及びコーパスデータに含まれるテキストデータをベクトルで表現する。このベクトルで表現されたテキストデータが、情報処理装置17にて入力データを処理する際に用いる規則となる。
【0040】
分類規則生成部24は、入力データ、学習データ、処理基準データ、及びコーパスデータのうちどのデータを用いるか、また、出現単語抽出部22にて抽出された単語、及び共起語抽出部23にて抽出された共起語のどちらを用いるかを選択することで、複数の規則を生成することができる。これらの規則のうち、本実施形態では、特に、出現単語抽出部22にて抽出された単語を用いて、処理基準データをベクトルで表現したものを第1規則と呼び、共起語抽出部23にて抽出された、学習データの共起語を組み合わせ、得られた共起語の組み合わせをベクトルで表現したものを第2規則と呼ぶこととする。本実施形態では、第2規則の元データである学習データは、少なくとも、後述する第1分類部26a又は第2分類部26bにて分類された過去の入力データを含む。
【0041】
第1規則は、官公庁から公開されている文書、作業手順書、製品の注意書き又は使用マニュアルなど、予め決まっている所定の規則をベクトルで表現したものであるが、第2規則は、使用される学習データによって、生成されるベクトルが変化する。したがって、本実施形態の情報処理装置17にて入力データの処理を行い、処理した入力データを、処理結果と関連付けた上で学習データとしてフィードバックすることで、第2規則を自動的に改善し、第2規則を用いてより適切に入力データを処理できるようになる。つまり、第2規則は、学習データを用いた機械学習により学習された規則である。以下、第1規則及び第2規則をどのように生成するについて説明する。
【0042】
第1規則の元データとなる処理基準データは、官公庁から公開されている文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き又は使用マニュアルなどであり、予め決まっている所定の規則である。官公庁から公開されている文書としては、たとえば、国土交通省からデータベースとして公開されている、自動車のリコール・不具合情報などが挙げられる。作業手順書としては、たとえば、ディーラーから寄せられた車両の不具合の情報を、重要度高、重要度中及び重要度低の3つの重要度に応じて分類するための基準が挙げられる。このような作業手順書には、たとえば、報告された不具合が、「車両の全てのドアが内側から開かない」に該当すれば、不具合を「重要度高」に分類し、不具合が「車両の一部のドアが内側から開けられない、又は開錠できない」に該当すれば、不具合を「重要度中」に分類し、不具合が「車両の一部のドアが外側から開かない、又は開錠できない」に該当すれば、不具合を「重要度低」に分類する旨、記載されている。製品の注意書き又は使用マニュアルとは、たとえば、製品がガスを使用するヘアスプレーである場合は、スプレー缶に記載された「製品を火気の近くに置かないこと、爆発破損のおそれあり」などの記載が該当する。
【0043】
第1規則を生成するために、分類規則生成部24は、上述したような処理基準データから抽出された単語を出現単語抽出部22から取得する。本実施形態では、この段階で、出現単語抽出部22にてステミングの処理、ストップワードの削除、及び複合語の検索が実行されているものとする。抽出された単語は、テキストデータごと、又は文ごとにリスト化される。そして、抽出された単語を単語ラベルとして横方向に配置し、テキストデータ又は文ごとに、たとえば、出現した単語には1を、出現しない単語には0を付して、1行の行列を作成する。この単語ラベルが付された行列を単語ベクトルともいう。そして、この処理を各テキストデータ又は文ごとに行い、生成された各単語ベクトルを一つにまとめたものが第1規則となる。
【0044】
たとえば、上述した作業手順書であれば、「重要度高」に分類される「車両の全てのドアが内側から開かない」について、出現単語抽出部22の形態素解析の機能により、「車両/の/全て/の/ドア/が/内側/から/開か/ない」と区切り、単語を抽出できる。これらの抽出した単語から、助詞である「の」、「が」及び「から」をストップワードとして削除する。「ない」は助動詞であり、ストップワードに該当し得るが、削除せずに、「開か(原型:開く)/ない」を複合語「開かない」として抽出する。これにより、「車両の全てのドアが内側から開かない」という処理基準データから「車両/全て/ドア/内側/開かない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度高」に分類するための、下表1の「高」の行に示す単語ベクトルを生成する。
【0045】
同様に、「重要度中」に分類される「車両の一部のドアが内側から開けられない、又は開錠できない」について、出現単語抽出部22の形態素解析の機能により、「車両/の/一部/の/ドア/が/内側/から/開け/られ/ない/、/又は/開錠/でき/ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開け/られない」を複合語「開けられない」として、「開錠/でき/ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが内側から開けられない、又は開錠できない」という処理基準データから、「車両/一部/ドア/内側/開けられない/開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度中」に分類するための、下表1の「中」の行に示す単語ベクトルを生成する。
【0046】
同様に、「重要度低」に分類される「車両の一部のドアが外側から開かない、又は開錠できない」について、出現単語抽出部22の形態素解析の機能により、「車両/の/一部/の/ドア/が/外側/から/開か/ない/、/又は/開錠/でき/ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開か/ない」を複合語「開かない」として、「開錠/でき/ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが外側から開かない、又は開錠できない」という処理基準データから、「車両/一部/ドア/外側/開かない/開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度低」に分類するための、下表1の「低」の行に示す単語ベクトルを生成する。
【0047】
【0048】
このように、処理基準データを出現単語抽出部22にて処理した場合にも、抽出された単語と分類基準との関連付けは維持されるため、各単語ベクトルと分類基準とを対応させることができる。
【0049】
これに対して、第2規則を生成するために、分類規則生成部24は、学習データから抽出された共起語を共起語抽出部23から取得する。分類規則生成部24は、第2規則を生成する場合に、取得した共起語のリストから、共起関係の強い単語の組み合わせを抽出する。分類規則生成部24は、たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位5位以内の単語で、互いの距離が5単語以下の単語の組み合わせを抽出する。当該抽出の条件は、抽出される組み合わせの数が情報処理装置17の処理限界を超えない範囲内で、適宜の条件を設定できる。そして、抽出された単語を単語ラベルとして横方向に配置し、組み合わせとして抽出した単語には1を、それ以外の単語には0を付して、組み合わせごとに単語ベクトルを作成する。この処理を各組合せで行い、生成された各単語ベクトルを一つにまとめたものが第2規則となる。
【0050】
本実施形態では、抽出された共起語は単語ごとにリスト化されているものとし、取得した共起語は、以前の処理結果に応じたグループごとに抽出されるものとする。以前の処理結果に応じたグループごとに共起語を抽出することで、各単語ベクトルと処理結果とを対応させることができる。たとえば、第2規則を取得するために用いた共起語が、車両の不具合の重要度に応じたグループごと抽出されたものであれば、生成した単語ベクトルと、不具合の重要度とを対応させることができる。つまり、入力されたデータが、車両の不具合の情報を含む場合に、第2規則を、車両の不具合の重要度に対応した分類をするための規則とすることができる。
【0051】
たとえば、学習データに、過去に情報処理装置17に入力され、第1分類部又は第2分類部にて「重要度高」と分類されたデータが含まれている場合に、分類規則生成部24は、共起語抽出部23にて抽出された共起語から、「重要度高」に分類されたデータの共起語を取得する。「重要度高」に分類されたデータの共起語が(ドア、前、右側、左側、異音、全部、開かない)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「ドア、異音、全部、開かない」を抽出する。そして、この組み合わせに含まれる単語を単語ラベルとして横方向に配置し、組み合わせに含まれる単語には1を、それ以外の単語には0を付して、1行の行列を作成する。組み合わせが「ドア、前、異音、全部、開かない」であれば、下表2の「高」の行に示す1行の行列、つまり単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度高」に分類される。
【0052】
同様に、過去に、第1分類部又は第2分類部にて「重要度中」と分類されたデータが学習データに含まれている場合に、分類規則生成部24は、共起語抽出部23にて抽出された共起語から、「重要度中」に分類されたデータの共起語を取得する。「重要度中」に分類されたデータの共起語が(車両、両側、ドア、変な音、後ろ、開かない)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「車両、ドア、変な音、後ろ、開かない」を抽出する。そして、この組み合わせから、下表2の「中」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度中」に分類される。
【0053】
同様に、過去に、第1分類部又は第2分類部にて「重要度低」に分類されたデータが学習データに含まれている場合に、分類規則生成部24は、共起語抽出部23にて抽出された共起語から、「重要度低」に分類されたデータの共起語を取得する。「重要度低」に分類されたデータの共起語が(車両、ドア、開けにくい、前、異音、後ろ)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「ドア、開けにくい、異音、後ろ」を抽出する。そして、この組み合わせから、下表2の「低」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度低」に分類される。
【0054】
【0055】
このように、学習データの分類結果ごとに共起語を抽出するので、各単語ベクトルと分類基準とを対応させることができる。ここでは、入力されたデータが車両の不具合の情報を含む場合に、第1規則及び第2規則を、車両の不具合の重要度に対応した分類をするための規則にするときの処理を説明したが、分類基準は車両の不具合の重要度に限られず、車両の不具合が発生した場所、不具合が発生した車両の整備状態などでもよい。また、上記で説明した第1規則及び第2規則の生成方法は一例に過ぎず、他の方法を用いてもよい。
【0056】
類似度算出部25は、情報処理装置17に入力されたデータと、分類規則生成部24にて生成された規則(つまり、一又は複数の単語ベクトル)の元となるデータとの類似度を算出する機能を有する。特に、本実施形態の類似度算出部25は、入力データと、第1規則の元となる所定のデータ(つまり処理基準データ)との類似度である第1類似度を算出する第1類似度算出部と、入力データと、学習データとの類似度である第2類似度を算出する第2類似度算出部とを備える。第1類似度算出部及び第2類似度算出部における類似度の算出では、入力装置11aから入力されたデータから生成された単語ベクトルを用いることができる。入力データから単語ベクトルを生成する方法は、上述した、第1規則を生成する方法と同様である。たとえば、入力データが「車両の前側のドアが内側から開けられない。」と「全てのドアが外側から開かない。」であれば、形態素解析、ストップワードの削除、複合語の抽出を経て、下表3の単語ベクトルが生成される。
【0057】
【0058】
類似度算出部25にて算出される類似度とは、あるテキストデータと、ほかのテキストデータとがどの程度重複しているかを示す指標であり、たとえば0~1の範囲内の正の値をとる。類似度は、値が高いほど、比較対象のテキストデータ同士が類似し、値が低いほど、比較対象のテキストデータ同士が似ていないことを示す。たとえば、入力装置11aから入力されたデータに出現する単語のうち、所定の処理基準データに出現する単語と重複する単語の出現頻度を第1類似度として算出し、入力装置11aから入力されたデータに出現する単語のうち、学習データに出現する単語と重複する単語の出現頻度を第2類似度として算出する。このような重複する単語の出現頻度は、入力データから生成された単語ベクトルと、第1規則又は第2規則を構成する単語ベクトルとを比較することで算出できる。具体的には、入力データから生成された単語ベクトルの単語ラベルと、第1規則又は第2規則に付された単語ラベルとを比較し、重複する単語を抽出する。そして、抽出された重複する単語について、その出現頻度を類似度として算出する。
【0059】
これに代えて、入力データから生成された単語ベクトルと、第1規則又は第2規則の単語ベクトルとを比較し、単語ベクトルごとに類似度を算出してもよい。具体的には、入力データから生成された単語ベクトルと、第1規則又は第2規則の単語ベクトルとを比較し、単語ラベルの総数に対して、単語ベクトルの値(つまり0か1)が一致している数の割合を類似度として算出する。さらに、単語ベクトルごとの類似度の平均値を第1類似度又は第2類似度として算出してもよい。
【0060】
また、単語の意味を考慮して類似度を算出する場合には、単語の共起語同士を比較する。つまり、ある単語と、ほかの単語の意味が類似している場合には、ある単語の共起語と、ほかの単語の共起語も類似している。本実施形態では、コーパスデータから抽出された共起語リストを指標として用いることで、コーパスデータにおける、ある単語の共起語と、ほかの単語の共起語とを比較して、単語同士の意味の類似度を算出することができる。共起語同士の比較には、たとえば、Simpson-Jaccard係数を用いることができる。Simpson-Jaccard係数は、Jaccard係数とSimpson係数を相加平均した指標のことであり、下記の式(1)にて表される。
【0061】
【0062】
ここで、式(1)のw1及びw2は単語を表し、Jaccard(w1,w2)がJaccard係数であり、Simpson(w1,w2)がSimpson係数である。
【0063】
具体的には、入力データから生成された単語ベクトルの単語ラベルと、第1規則又は第2規則の単語ラベルとを比較し、重複する単語を抽出する。次に、抽出された重複する単語について、コーパスデータから抽出された共起語リストを取得する。当該共起語リストは、共起語抽出部23にて生成する。そして、重複する単語と、コーパスデータから抽出された共起語リストを用いて、Simpson-Jaccard係数を算出する。
【0064】
一例として、入力データから生成された単語ベクトルの単語ラベル[エンジン,変な音,動作しない]と、第1規則又は第2規則の単語ラベル[エンジン,異音,動かない]との類似度をSimpson-Jaccard係数として計算する。コーパスデータから抽出された共起語リストから、[変な音]と[異音]の類似度が0.75、[動作しない]と[動かない]の類似度が0.65であることが分かっているとすると、この場合のSimpson-Jaccard係数は、(1.0+0.75+0.65)/3=0.8となる。ここで、[エンジン]と[エンジン]は完全に一致するため、類似度を1として計算した。また、Simpson-Jaccard係数に代えて、コサイン類似度を用いて類似度を算出してもよい。
【0065】
入力データ分類部26は、入力装置11aにより入力されたデータを規則に従って分類する機能を有する。特に、本実施形態の入力データ分類部26は、入力されたデータを第1規則に従って分類する第1分類部26aと、入力されたデータを第2規則に従って分類する第2分類部26bとを備える。上述したように、第1規則では、単語ベクトルと分類基準が関連付けられており、第2規則では、単語ベクトルと以前の処理結果が関連付けられている。そのため、第1分類部26aでは、入力されたデータの単語ベクトルと、第1規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた分類基準に従い入力データ分類することができる。同様に、第2分類部26bでは、入力されたデータの単語ベクトルと、第2規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた以前の処理結果に従い入力データ分類することができる。
【0066】
本実施形態の入力データ分類部26は、第1類似度算出部25aにて算出された類似度の値が、第2類似度算出部25bにて算出された類似度の値以上である場合は、入力データを、第1分類部26aにて分類した後に、第1分類部26aにて分類されたデータの一部を、第2分類部26bにて分類する。これに対して、第1類似度算出部25aにて算出された類似度の値が、第2類似度算出部25bにて算出された類似度の値未満である場合は、入力データを、第2分類部26bにて分類した後に、第2分類部26bにて分類されたデータの一部を、第1分類部26aにて分類する。これにより、第1規則と第2規則で二重に分類する必要のない特徴的なデータ(たとえば重要度が高いデータ)について分類処理を簡略化でき、情報処理装置17における処理時間を短縮することができる。
【0067】
たとえば、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを3つ又はそれ以上の群(たとえば、重要度高、重要度中、重要度低の3グループ)に分類するときは、第1分類部26a及び第2分類部26bの一方にて重要度高又は重要度中に分類されたデータは、第1分類部26a及び第2分類部26bの他方で分類しなくともよい。この場合、第1分類部26a及び第2分類部26bの他方では、重要度低に分類されたデータのみについて分類処理が実行される。
【0068】
なお、本実施形態の入力データ分類部26では、第1類似度の値と第2類似度の値とを比較して、第1類似度の値が第2類似度の値以上である場合は、入力データを、第1分類部26a→第2分類部26bの順番で分類し、第1類似度の値が第2類似度の値未満である場合は、入力データを、第2分類部26b→第1分類部26aの順番で分類した、第1類似度の算出は本発明に必須の構成ではなく、必要に応じて省略することができる。たとえば、第2類似度の値を算出し、第2類似度の値が所定値以上である場合は、入力データを、第1分類部26a→第2分類部26bの順番で分類し、第2類似度の値が所定値未満である場合は、入力データを、第2分類部26b→第1分類部26aの順番で分類するようにしてもよい。類似度の当該所定値は、情報処理装置17において入力されたデータが適切に処理される範囲内で適宜の値を設定することができる。
【0069】
表示画像生成部27は、入力されたデータの処理状況について利用者に通知するために表示装置16に表示する画像を生成する機能を有する。表示画像生成部27にて生成される画像は、処理の進捗状況を示すものであっても、処理結果を示すものであってもよく、たとえば、第1分類部による分類の結果、第2分類部による分類の結果、第1類似度算出部により算出された類似度、及び第2類似度算出部により算出された類似度のうち少なくとも一つを含むものである。
【0070】
図2は、
図1の表示装置16に表示される画像の一例を示す図である。
図2に示す画像は、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを3つのグループ、すなわち、重要度高、重要度中、重要度低の3グループに分類したときに表示装置16に表示される画像である。
図2(A)は、分類処理の概要を示す第1表示画像3であり、
図2(B)は、分類処理の詳細を示す第2表示画像4である。
【0071】
図2(A)の第1表示画像3は、画像左上に表示の「重要度判定結果」のとおり、分類処理の結果として、判定された不具合の重要度を示す。第1表示画像3の左側には、「入力データ数」として「1000件」と表示されており、情報処理装置17に入力したデータの総数が表示されている。その下には、重要度高、重要度中及び重要度低の各グループについて、何件の入力データが該当したかが表示されている。
図2(A)の画像であれば、「重要度高」に「300件」のデータが該当し、「重要度中」に「300件」のデータが該当し、「重要度低」に「400件」のデータが該当したことを示している。
【0072】
一方、第1表示画像3の右上には、「判定手法」として「B.機械学習モデル→A.ルールベースモデル」と表示されている。この「判定手法」とは、第1分類部26aと第2分類部26bのどちらで先にデータの処理を行ったかを示しており、「B.機械学習モデル→A.ルールベースモデル」の場合は、第2分類部26bにて、機械学習により学習された第2規則に従って分類された後に、第1分類部26aにて、所定の第1規則に従って分類されたことを示している。これに対して、「A.ルールベースモデル→B.機械学習モデル」の場合は、第1分類部26aにて第1規則に従って分類された後に、第2分類部26bにて第2規則に従って分類されたことを示している。また、第1表示画像3の右下には画像切替ボタン31が表示されており、表示装置16がタッチパネルであれば、画像切替ボタン31にタッチすることで、表示画像が第1表示画像3から第2表示画像4に切り替わる。
【0073】
図2(B)の第2表示画像4は、画像上部に「判定手法」が表示されており、「B.機械学習モデル→A.ルールベースモデル」の順番でデータを分類した根拠となる情報が表示されている。第2表示画像4には、左から順に「学習データ」、「入力データ」、「作業手順書」の単語ラベルを表示する欄が設けられている。ここで、作業手順書とは所定の第1規則を生成するときに用いた元データである。中央の欄には、入力されたデータについて、出現単語抽出部22にて抽出された単語ラベルが、単語ベクトルごとに表示されている。単語ラベルのリストは上位30個程度を表示するものとし、表示部分をスクロールすることで全ての単語ラベルを確認できるようになっている。
【0074】
入力データの左側の欄には、使用された学習データについて、分類規則生成部24にて抽出された第2規則の単語ラベルが、単語ベクトルごとに表示されている。また、単語ベクトルごとに、入力データとの類似度が表示されており、入力データの欄の上部には、第2類似度として算出された類似度のうち最大の値が表示されている。
図2(B)の場合であれば、第2類似度の最大値は0.9である。一方、入力データの右側の欄には、作業手順書について、分類規則生成部24にて抽出された第1規則の単語ラベルが、単語ベクトルごとに表示されている。また、単語ベクトルごとに、入力データとの類似度が表示されており、入力データの欄の上部には、第1類似度として算出された類似度のうち最大の値が表示されている。
図2(B)の場合であれば、第1類似度の最大値は0.8である。したがって、
図2の場合では、第1類似度の値よりも第2類似度の値の方が大きいため、第2分類部26bにて先に入力データを処理していることが分かる。
【0075】
データ出力部28は、表示画像生成部27にて生成された画像データを、表示装置16に出力する機能を有する。これにより、表示装置16に画像を表示して、情報処理システム1の利用者に、入力データの処理状況を通知することができる。
【0076】
[情報処理システムにおける処理]
図3を参照して、情報処理装置17が情報を処理する際の手順を説明する。
図3は、本実施形態の情報処理システム1における情報の処理を示すフローチャートの一例である。以下に説明する処理は、情報処理装置17のプロセッサ18により所定の時間間隔で実行される。
【0077】
まず、ステップS1にて、データ取得部21の機能により、第1データベース11~第4データベース14の各データベースから必要なデータを取得する。続くステップS2にて、出現単語抽出部22の機能により、形態素解析のツールなどを用いて、データ取得部21にて取得したデータで使用されている単語を抽出する。たとえば、「全てのドアが内側から開かない」というデータから、形態素解析とストップワードの削除、複合語の抽出を経て、「車両/全て/ドア/内側/開かない」という単語を抽出する。続くステップS3にて、共起語抽出部23の機能により、特に学習データ、処理基準データ、及びコーパスデータから抽出された単語について、共起ネットワークを生成して共起語を抽出する。続くステップS4にて、分類規則生成部24の機能により、処理基準データから抽出された単語を用いて第1規則を生成し、学習データから抽出された共起語を用いて第2規則生成する。
【0078】
次に、ステップS5にて、類似度算出部25の機能により、入力されたデータと規則の単語ベクトルとの類似度を算出する。具体的には、第1類似度算出部25aにて、入力されたデータと、第1規則の元となる所定の処理基準データとの類似度である第1類似度を算出し、第2類似度算出部25bにて、入力されたデータと学習データとの類似度である第2類似度を算出する。続くステップS6にて、第1類似度と第2類似度とを比較し、第1類似度の値が第2類似度の値以上であるか否かを判定する。
【0079】
第1類似度の値が第2類似度の値以上であると判定された場合は、ステップS7aに進む。ステップS7aにて、第1分類部26aにより、入力されたデータを第1規則に従って分類し、続くステップS8aにて、第1分類部26aにて分類されたデータの一部を、第2分類部26bにより分類する。これに対して、第1類似度の値が第2類似度の値未満であると判定された場合は、ステップS7bに進む。ステップS7bにて、第2分類部26bにより、入力されたデータを第2規則に従って分類し、続くステップS8bにて、第2分類部26bにて分類されたデータの一部を、第1分類部26aにより分類する。
【0080】
これらの分類処理の結果は、続くステップS9にて処理され、表示画像生成部27の機能により、表示装置16に表示するための画像を生成する。生成された画像は、続くステップS10にて、データ出力部28の機能により、表示装置16に出力される。そして、ステップS11にて、データ出力部28から出力された画像を表示装置16に表示し、情報処理システム1の利用者に処理結果を通知する。
【0081】
[本発明の実施態様]
以上のとおり、本実施形態の情報処理装置17によれば、入力されたデータを、所定のデータから生成された第1規則に従って分類する第1分類部26aと、前記入力されたデータを、学習データを用いた機械学習により学習された、前記第1規則と異なる第2規則に従って分類する第2分類部26bと、前記入力されたデータと、前記所定のデータとの類似度を算出する第1類似度算出部25aと、前記入力されたデータと、前記学習データとの類似度を算出する第2類似度算出部25bと、を備える情報処理装置17において、前記学習データは、過去に入力され、前記第1分類部26a又は前記第2分類部26bにて分類されたデータを含み、前記第1類似度算出部25aにて算出された類似度の値が、前記第2類似度算出部25bにて算出された類似度の値以上である場合は、前記入力されたデータを、前記第1分類部26aにて分類した後に、前記第1分類部26aにて分類されたデータの一部を、前記第2分類部26bにて分類し、前記第1類似度算出部25aにて算出された類似度の値が、前記第2類似度算出部25bにて算出された類似度の値未満である場合は、前記入力されたデータを、前記第2分類部26bにて分類した後に、前記第2分類部26bにて分類されたデータの一部を、前記第1分類部26aにて分類する。これにより、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる。また、第1規則と第2規則で二重に分類する必要のない特徴的なデータ(たとえば重要度が高いデータ)について分類処理を簡略化でき、情報処理装置17における処理時間を短縮することができる。
【0082】
また、本実施形態の情報処理装置17によれば、前記入力されたデータ及び前記学習データのうち少なくとも一つは、自然言語で記載されたテキストデータを含む。これにより、シミュレーションなどの計算手法で直接的に処理することのできないデータを処理することができる。
【0083】
また、本実施形態の情報処理装置17によれば、第1類似度算出部25aは、前記入力されたデータに出現する単語のうち、前記所定のデータに出現する単語と重複する単語の出現頻度を類似度として算出する。これにより、第2規則で分類するデータ量を抑制でき、情報処理装置17における処理時間を短縮することができる。
【0084】
また、本実施形態の情報処理装置17によれば、第2類似度算出部25bは、前記入力されたデータに出現する単語のうち、前記学習データに出現する単語と重複する単語の出現頻度を類似度として算出する。これにより、第1規則で分類するデータ量を抑制でき、情報処理装置17における処理時間を短縮することができる。
【0085】
また、本実施形態の情報処理装置17によれば、前記第1類似度算出部25a及び前記第2類似度算出部25bは、それぞれ、前記入力されたデータから生成された単語ベクトルを用いて前記類似度を算出する。これにより、シミュレーションなどの計算手法で直接的に処理することのできない自然言語のデータを処理することができる。
【0086】
また、本実施形態の情報処理装置17によれば、前記第1類似度算出部25a及び前記第2類似度算出部25bのそれぞれは、Simpson-Jaccard係数を用いて前記類似度を算出する。これにより、類似度をより正確に算出できる。
【0087】
また、本実施形態の情報処理装置17によれば、前記第2規則は、共起ネットワークを用いた機械学習により学習された規則である。これにより、第2規則をより効果的に学習させることができる。
【0088】
また、本実施形態の情報処理装置17によれば、前記第1分類部及び前記第2分類部は、前記入力されたデータを少なくとも3つの群に分類する。これにより、入力データに則した分類を実現できる。
【0089】
また、本実施形態の情報処理装置17によれば、前記入力されたデータは、車両の不具合の情報を含み、前記第1規則及び前記第2規則は、前記不具合の重要度に対応した分類をするための規則である。これにより、不具合の重要度に応じて、入力データを分類できる。
【0090】
また、本実施形態の情報処理装置17によれば、前記第1分類部26aによる分類の結果、前記第2分類部26bによる分類の結果、前記第1類似度算出部25aにより算出された類似度、及び前記第2類似度算出部25bにより算出された類似度のうち少なくとも一つを表示する表示装置16をさらに備える。これにより、情報処理システム1の利用者に、入力データの処理状況を通知することができる。
【0091】
また、本実施形態の情報処理方法によれば、入力されたデータを、所定のデータから生成された第1規則と、学習データを用いた機械学習により学習された、前記第1規則と異なる第2規則とを用いて分類する場合に、前記学習データは、前記第1規則と前記第2規則とを用いて分類された、過去に入力されたデータを含み、前記入力されたデータと、前記所定のデータとの類似度である第1類似度を算出し、前記入力されたデータと、前記学習データとの類似度である第2類似度を算出し、前記第1類似度の値が前記第2類似度の値以上である場合は、前記入力されたデータを、前記第1規則に従って分類した後に、前記第1規則に従って分類されたデータの一部を、前記第2規則に従って分類し、前記第1類似度の値が前記第2類似度の値未満である場合は、前記入力されたデータを、前記第2規則に従って分類した後に、前記第2規則に従って分類されたデータの一部を、前記第1規則に従って分類する。これにより、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる。また、第1規則と第2規則で二重に分類する必要のない特徴的なデータ(たとえば重要度が高いデータ)について分類処理を簡略化でき、処理に要する時間を短縮することができる。
【符号の説明】
【0092】
1…情報処理システム
11…第1データベース(入力データ)
11a…入力装置
12…第2データベース(学習データ)
12a…サーバー
13…第3データベース(処理基準データ)
14…第4データベース(コーパスデータ)
15…通信装置
16…表示装置
17…情報処理装置
18…プロセッサ
181…CPU
182…ROM
183…RAM
2…入力データ処理部
21…データ取得部
22…出現単語抽出部
23…共起語抽出部
24…分類規則生成部
25…類似度算出部
25a…第1類似度算出部
25b…第2類似度算出部
26…入力データ分類部
26a…第1分類部
26b…第2分類部
27…表示画像生成部
28…データ出力部
3…第1表示画像
31…画像切替ボタン
4…第2表示画像