(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022162650
(43)【公開日】2022-10-25
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06Q 10/00 20120101AFI20221018BHJP
G06N 5/04 20060101ALI20221018BHJP
G06N 20/00 20190101ALI20221018BHJP
G06F 16/36 20190101ALI20221018BHJP
【FI】
G06Q10/00 300
G06N5/04
G06N20/00
G06F16/36
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021067550
(22)【出願日】2021-04-13
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(71)【出願人】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】110000486
【氏名又は名称】とこしえ特許業務法人
(72)【発明者】
【氏名】堀畑 友希
(72)【発明者】
【氏名】広瀬 悟
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB03
5L049CC15
(57)【要約】 (修正有)
【課題】入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制できる情報処理装置及び情報処理方法を提供する。
【解決手段】情報処理システム1は、少なくとも一つのデータベースと、入力されたデータを処理する電子計算機とを備える情報処理システム1であって、第1データベース11、第2データベース12、第3データベース13、第4データベース14、通信装置15、表示装置16及び情報処理装置17を含む。情報処理装置17は、第1データベース11から取得した入力データを、第2データベース12から取得した学習データ、第3データベース13から取得した処理基準データ及び第4データベース14から取得したコーパスデータを用いて処理し、表示装置16を用いて処理結果を利用者に通知する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力されたデータを分類するための第1規則を生成するときに用いる所定のデータと、前記第1規則を更新するための参照データとの類似度を算出する類似度算出部、
前記類似度算出部にて算出された前記類似度が所定値以上である前記参照データを用いて前記第1規則を更新する規則更新部、及び
前記入力されたデータを、更新された前記第1規則と、前記第1規則と異なる、学習データを用いた機械学習により学習された第2規則とを用いて分類する入力データ分類部を備える、情報処理装置。
【請求項2】
前記類似度は、前記所定のデータに含まれるテキストデータの文と、前記参照データに含まれるテキストデータの文との類似度、及び/又は前記所定のデータに含まれるテキストデータの単語と、前記参照データに含まれるテキストデータの単語との類似度である、請求項1に記載の情報処理装置。
【請求項3】
前記学習データは、過去に入力され、前記入力データ分類部にて分類されたデータを含む、請求項1又は2のいずれか一項に記載の情報処理装置。
【請求項4】
前記参照データは、前記入力されたデータ及び前記学習データのうち少なくとも一つを含む、請求項1~3のいずれか一項に記載の情報処理装置。
【請求項5】
前記規則更新部は、前記第2規則を、更新された前記第1規則に従って前記入力データ分類部により分類されたデータを用いて学習させる、請求項1~4のいずれか一項に記載の情報処理装置。
【請求項6】
更新された前記第1規則は、前記規則更新部にて、前記類似度が所定値以上である前記参照データを用いて生成された新たな規則を含む、請求項1~5のいずれか一項に記載の情報処理装置。
【請求項7】
更新された前記第1規則は、前記参照データから抽出された、前記第1規則に含まれる単語と共に所定頻度以上の頻度で出現する単語を用いて生成された新たな規則を含む、請求項1~6のいずれか一項に記載の情報処理装置。
【請求項8】
前記類似度、前記類似度が所定値以上である参照データ、更新された前記第1規則、及び更新された前記第1規則の更新された部分のうち少なくとも一つを表示する表示装置をさらに備える、請求項1~7のいずれか一項に記載の情報処理装置。
【請求項9】
入力されたデータを、所定のデータから生成された第1規則と、前記第1規則と異なる、学習データを用いた機械学習により学習された第2規則とを用いて分類する情報処理方法において、
前記所定のデータと、前記第1規則を更新するための参照データとの類似度を算出し、
前記類似度が所定値以上である前記参照データを用いて前記第1規則を更新し、
前記入力されたデータを、更新された前記第1規則と、前記第2規則とを用いて分類する、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各種データを処理するための情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
診断対象から得られた診断用データを予め定められたルールに従って診断し、これとは別に、診断用データを用いた機械学習により学習されたルールに従って診断用データを診断し、それぞれの診断結果を照合して不一致の結果を抽出し、抽出された不一致の診断結果を用いて、予め定められたルールを更新する診断システムが知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記従来技術では、診断結果が不一致の場合は、予め定められたルールによる診断結果と、機械学習により学習されたルールによる診断結果とを一致させるために、予め定められたルールを変更する。したがって、上記従来技術では、予め定められたルールによる診断結果は適切であるが、機械学習により学習されたルールによる診断結果が不適切である場合には、適切な診断結果が得られている予め定められたルールを、不適切な診断結果しか得られないものに変更してしまうおそれがある。これにより、診断システムのデータ処理精度が低下するという問題がある。
【0005】
本発明が解決しようとする課題は、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制できる情報処理装置及び情報処理方法を提供することである。
【課題を解決するための手段】
【0006】
本発明は、入力されたデータを、所定のデータから生成された第1規則と、第1規則と異なる、学習データを用いた機械学習により学習された第2規則とを用いて分類する場合に、所定のデータと、第1規則を更新するための参照データとの類似度を算出し、類似度が所定値以上である参照データを用いて第1規則を更新し、入力されたデータを、更新された第1規則と、第2規則とを用いて分類することによって上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明に係る情報処理装置を含む情報処理システムを示すブロック図である。
【
図2】
図1の表示装置に表示される画像の一例である。
【
図3】
図1の情報処理システムにおける処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を図面に基づいて説明する。
【0010】
[情報処理システム]
図1は、本発明に係る情報処理システム1を示すブロック図である。
図1に示す情報処理システム1は、たとえば、ウェブサイトやソーシャル・ネットワーキング・サービス(SNS)に投稿された文章、社内イントラネットの電子掲示板への書込み、及び製品を販売した販売店から製造元に寄せられた製品の修理報告書などから、市場における製品の不具合情報を取得し、取得した情報をその重要度に応じて自動的に分類する場合に用いることができる。
【0011】
情報処理システム1は、少なくとも一つのデータベースと、入力されたデータを処理する電子計算機とを備えるシステムである。
図1に示すように、情報処理システム1は、第1データベース11、第2データベース12、第3データベース13、第4データベース14、通信装置15、表示装置16、及び情報処理装置17を含む。第1データベース11には、情報処理装置17に入力され、処理される入力データが格納され、第2データベース12には、情報処理装置17にて実行される機械学習に用いる学習データが格納され、第3データベース13には、情報処理装置17に入力されたデータを処理する(たとえば分類する)ための所定の基準を示す処理基準データが格納され、第4データベース14には、情報処理装置17における処理で用いるコーパスデータが格納されている。
【0012】
第1データベース11に格納された入力データは、自然言語で記載されたテキストデータであれば特に限定されない。テキストデータとしては、たとえば、ウェブサイトやSNSへの投稿文章、イントラネットの電子掲示板への書込み、社内システムへの入力情報、製品を販売した販売店から製造元に寄せられた製品の修理報告書などが挙げられる。本実施形態の入力データは、特に、車両を販売したディーラーから、車両を製造した自動車会社に送られる品質報告書(テクニカル・レポート)を含む。品質報告書には、少なくとも、販売した車両の市場における不具合の情報、たとえば、不具合の発生箇所、不具合の状態、不具合の発生原因と対策、不具合が発生した車両の整備状態と修理履歴、不具合発生日時と対応日時などが含まれている。
【0013】
また、第1データベース11に格納されたデータには、後述する分類規則生成部24にて生成された規則を規則更新部26にて更新するための参照データも含まれる。参照データとは、後述する第1規則を更新するために用いることができるデータであり、過去に入力され、入力データ分類部27にて分類されたデータとその分類結果、本実施形態と同様の分類機能を有する別の情報処理装置にて分類されたデータ、重要度に応じた車両の不具合の分類について、日本の分類に対応する諸外国の分類基準などが該当する。
【0014】
第2データベース12に格納された学習データは、情報処理装置17にて実行される機械学習に用いることができるデータであれば特に限定されず、たとえば、国土交通省などから公開されている、車両や安全に関する法令、ガイドラインなどの文書を含むテキストデータである。また、学習データには、以前に情報処理装置17にて処理された入力データが含まれる。この場合に、学習データは、過去に入力され、情報処理装置17にて処理されたデータと、少なくともそのときの処理結果とを含み、これらの情報が関連付けられて第2データベース12に格納されている。たとえば、車両の不具合情報を含む入力データを、後述する分類基準に従って、又は情報処理装置17にて機械学習により学習された規則に従って分類した場合には、入力データと、不具合の重要度に応じた入力データの分類結果と、分類方法とが関連付けられ、学習データとして第2データベース12に格納されることになる。
【0015】
第3データベース13に格納された処理基準データは、情報処理装置17にて入力データを処理する際に用いる基準を規定するデータであり、たとえば、情報処理装置17に入力されたデータを分類するときに用いる分類基準を示すデータである。処理基準データは、自然言語で記載された文章、数学記号で記載された数式などのテキストデータであり、国土交通省などから公開されている、法令や安全基準などに関する文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き、製品の使用マニュアルなどが挙げられる。
【0016】
第4データベース14に格納されたコーパスデータは、情報処理装置17における処理、特に機械学習によって何らかの規則を学習する際に用いるコーパスのデータである。コーパスとは、入力データを分析する際の対象となる構造化された資料集であり、文字で記された資料や録音された言語資料の集合体である。コーパスの種類は特に限定されず、たとえば、単に文書を集めた生コーパス、様々な種類の文書をバランスよく取集した均衡コーパス、品詞や統語構造などを付与してあるタグ付きコーパス、ある言語のテキストとその翻訳テキストを対応させたパラレルコーパスなどが挙げられる。例として、入力データが日本語であれば、現代日本語書き言葉均衡コーパス(BCCWJ)、日本語話し言葉コーパス(CSJ)などを用いることができ、入力データが英語であれば、Corpus of Contemporary American English(COCA)などを用いることができる。
【0017】
第1データベース11は、有線又は無線LANなどの公知の手段により、入力装置11aとデータの授受が可能な状態で接続されており、情報処理システム1の利用者は、情報処理装置17で処理するデータを、入力装置11aを用いて第1データベース11に入力する。入力装置11aは、情報処理システム1の利用者が、情報処理装置17で処理するデータを第1データベース11に入力するための装置であり、たとえば、ディスプレイと接続されたキーボード、マイク、タッチパネルなどである。入力装置11aは、第1データベース11と共に設けられていてもよいし、情報処理システム1の利用者の便宜に応じて、第1データベース11及び/又は情報処理装置17から離れた場所に設けられていてもよい。
【0018】
また、
図1に示すように、第1データベース11は、有線又は無線LANなどの公知の通信手段よって通信装置15と接続しており、情報処理装置17は、通信装置15を介して、第1データベース11に格納された入力データを取得する。通信装置15は、情報処理装置17と外部の機器との間でデータを授受するための装置であり、インターネットなどのネットワークを介して他の機器との通信が可能な通信装置であれば特に限定されない。なお、
図1に示す通信装置15は一つであるが、通信装置15の数は特に限定されず、複数個の通信装置15を用いてもよい。複数個の通信装置15を用いる場合は、情報処理システム1に含まれる各機器と通信装置15との接続関係は特に限定されない。
【0019】
また、
図1の情報処理システム1では、第1データベース11と同様に、第2データベース12、第3データベース13及び第4データベース14も通信装置15と接続している。情報処理装置17は、通信装置15を介して、第2データベース12から学習データを取得し、第3データベース13から処理基準データを取得し、第4データベース14からコーパスデータを取得する。これらのデータベースは、情報処理装置17と共に設けられている必要はなく、第1データベース11、第2データベース12、第3データベース13及び第4データベース14のうち少なくとも一つは、たとえば
図2に示すサーバー12aのように、情報処理装置17から離れた場所に設けられていてもよい。
【0020】
さらに、情報処理装置17は、表示装置16とも接続しており、情報処理装置17にて行われた入力データの処理結果は、表示装置16に表示される。表示装置16は、情報処理装置17に入力されたデータの処理状況を利用者に通知するための装置であり、例として、液晶ディスプレイ、プロジェクターなどが挙げられる。
図1の表示装置16は、データの授受が可能な状態で情報処理装置17と接続しているが、接続方法は特に限定されず、有線又は無線LANなどの公知の通信手段を用いることができる。また、表示装置16は、情報処理装置17と共に設けられていてもよいし、情報処理システム1の利用者の便宜に応じて、通信装置15と接続し、情報処理装置17から離れた場所に設けられていてもよい。
【0021】
情報処理装置17は、第1データベース11から取得した入力データを、第2データベース12から取得した学習データ、第3データベース13から取得した処理基準データ、及び第4データベース14から取得したコーパスデータを用いて処理し、表示装置16を用いて処理結果を利用者に通知するための装置である。情報処理装置17は、入力されたデータの処理と、利用者への処理結果の通知を、プロセッサ18により実現する。プロセッサ18は、プログラムが格納されたROM(Read Only Memory)182と、ROM182に格納されたプログラムを実行することで、情報処理装置17として機能するための動作回路であるCPU(Central Processing Unit)181と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)183とを備える。
【0022】
[入力データ処理部]
本実施形態の情報処理装置17で用いるプログラムは、入力されたデータの処理と、利用者への処理結果の通知とを情報処理装置17によって実現するための機能ブロックである入力データ処理部2を含む。入力データ処理部2は、各データベース11~14から必要なデータを取得し、入力されたデータをある規則に従って分類し、分類結果を、表示装置16を介して利用者に通知する機能を有する。入力データ処理部2は、
図1に示すように、データ取得部21、出現単語抽出部22、共起語抽出部23、分類規則生成部24、類似度算出部25、規則更新部26、入力データ分類部27、表示画像生成部28、及びデータ出力部29を備える。
図1には、各部を便宜的に抽出して示す。
【0023】
図1に示す情報処理装置17は上記の機能ブロックを全て備えるが、単一の情報処理装置17が全ての機能ブロックを備える必要はなく、上記の機能ブロックのうち一部のものを、情報処理システム1に含まれる他の機器、又は図示しない別の情報処理装置に設けてもよい。たとえば、
図1の情報処理システム1において、表示画像生成部28を表示装置16に設けてもよい。この場合には、表示装置16のCPU、ROM、及びRAMを用いて表示画像生成部28の機能が実行されることになる。
【0024】
また、各機能ブロックの処理の全てを単一の情報処理装置にて実行する必要はなく、データが授受できる状態で接続された複数の情報処理装置をまたいで、各機能ブロックの機能を実現してもよい。たとえば、
図1の情報処理システム1において、出現単語抽出部22にて実行される処理のうち、一部の処理をサーバー12aにて実行し、残りの処理を情報処理装置17にて実行するようにしてもよい。この場合には、サーバー12aのCPU、ROM、及びRAMを用いて、出現単語抽出部22の機能を実現するための処理の一部が行われることになる。また、ほかの例として、共起語抽出部23及び分類規則生成部24についても、各機能ブロックにて実行される処理のうち、一部の処理をサーバー12aにて実行し、残りの処理を情報処理装置17にて実行するようにしてもよい。
【0025】
以下、入力データ処理部2の各機能ブロックが果たす機能について説明する。
【0026】
データ取得部21は、第1データベース11に格納された入力データ、第2データベース12に格納された学習データ、第3データベース13に格納された処理基準データ、及び第4データベース14に格納されたコーパスデータを、必要に応じて取得する機能を有する。また、本実施形態のデータ取得部21は、参照データとして第1データベース11に格納されたデータを取得する。データ取得部21により取得されたデータは、以下に説明する他の機能ブロックにて用いられる。
【0027】
出現単語抽出部22は、データ取得部21により取得されたデータに出現する単語を抽出する機能を有する。出現単語抽出部22は、特に、第1データベース11の入力データと参照データ、第2データベース12の学習データ、第3データベース13の処理基準データ、及び第4データベース14のコーパスデータに含まれるテキストデータで使用されている単語を抽出する機能を有する。出現単語抽出部22にて処理するテキストデータが、英語、ドイツ語、フランス語などのように、単語と単語の間にスペース(空白)を入れて単語を区切るように記載する(分かち書きする)印欧語である場合は、出現単語抽出部22は、スペースで区切られた単語をそのまま抽出し、単語ごとに品詞などのタグを付す。
【0028】
出現単語抽出部22は、必要に応じて、抽出された単語についてステミングを行い、抽出された単語からストップワードを削除する。ステミングとは、ある単語とその派生語について、全て同一の素性とみなすための処理である。たとえば、英語の動詞"run"について、テキストデータにて"ran"、"running"などの変化形が出現した場合には、これらの変化形は全て"run"と同じ素性とみなす。ストップワードとは、どのような話題の文書にも出現する単語で、話題の種類と関連を持たないと考えられる単語のことである。例として、"the"、"is"、"have"、"take"、"get"などの基本単語が挙げられる。これらの処理は、たとえば、プログラミング言語"Python"にて" termextract"などのモジュールを用いることで実行できる。
【0029】
これに対して、出現単語抽出部22にて処理するテキストデータが、日本語、中国語、タイ語などのように、分かち書きをしない言語である場合には、出現単語抽出部22は、テキストデータについて形態素解析を行う。形態素とは、意味を持つ最小の言語単位であり、本実施形態において、形態素解析とは、テキストデータにおいて単語の区切りを判定し、区切られた単語ごとにその品詞などを判別することをいうものとする。たとえば、「エンジンから変な音がして動作しない。」という文であれば、形態素解析により、「エンジン/から/変/な/音/が/して/動作/し/ない/。」と区切ることができ、区切られた各単語について、その読み、原型、品詞、活用形などを判別する。これらの区切られた各単語から、必要に応じて、助詞や助動詞などのストップワードを削除してもよい。このような処理は、たとえば、" MeCab"、" JUMAN"、" ChaSen"などの形態素解析ツールを用いて実行できる。
【0030】
なお、形態素解析の代わりに、nグラムの手法を用いてもよい。nグラムとは、n文字(nは自然数)の単位で文字列を分解し、隣り合った文字の組み合わせから文字列を分析する手法である。
【0031】
また、出現単語抽出部22は、抽出された単語から複合語を検索する機能を有する。出現単語抽出部22は、たとえば、2~5単語を組み合わせて一語とした複合語を検出する。たとえば、「排気/ガス」という単語が抽出された場合には、「排気ガス」という複合語を検出し、「アダプティブ/クルーズ/コントロール」という単語が抽出された場合には、「アダプティブクルーズコントロール」(ACC)という複合語を検出する。
【0032】
そして、出現単語抽出部22は、入力データから抽出された単語、学習データから抽出された単語、処理基準データから抽出された単語、及びコーパスデータから抽出された単語を、それぞれ、RAM183などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。
【0033】
ここで、出現単語抽出部22にて処理した学習データが、以前に情報処理装置17にて処理された入力データである場合は、抽出された単語についても、入力データとその処理結果との関連付けは維持される。たとえば、学習データが、車両の不具合情報を含む入力データを、後述の分類基準に従って分類したものであった場合は、出現単語抽出部22にて抽出された単語についても、不具合の重要度に応じた分類結果、及び分類方法との関連付けは維持される。同様に、処理基準データを出現単語抽出部22にて処理した場合にも、抽出された単語と分類基準との関連付けは維持される。たとえば、処理基準データが車両などの製品の不具合を重要度に応じて分類するための作業手順書である場合は、抽出された単語と重要度との関連付けは維持される。なお、すでに構造化されたコーパスデータを用いる場合には、必要に応じて、出現単語抽出部22にてコーパスデータから出現単語を抽出する処理を省略できる。
【0034】
共起語抽出部23は、出現単語抽出部22にて抽出された各単語について、その単語と共によく出現する単語を抽出する機能を有する。共起語抽出部23では、出現単語抽出部22にて抽出された各単語について、同一のテキストデータにおいて、ある単語と共に出現する単語のうち出現頻度が高い単語を、その単語と共によく出現する単語として抽出する。出現頻度とは、抽出された単語の総数に対する、ある単語と共に出現する単語の出現回数の割合である。本明細書では、同一のテキストデータにおいて、ある単語と共によく出現する単語のことを「共起語」とも称する。
【0035】
出現単語抽出部22にて抽出された単語から共起語を抽出するときは、たとえば、共起ネットワークを生成する。共起ネットワークとは、ある単語とその共起語について、テキストデータにおける出現頻度、出現するときの互いの距離などを可視化した図である。ある単語とその共起語との距離とは、ある単語とその共起語とが何単語離れて出現しているかを意味する。このような共起ネットワークは、たとえば"KH Coder"、"Text Mining Studio"などのプログラムを用いて生成することができる。
【0036】
共起語抽出部23は、生成した共起ネットワークから共起語を抽出する場合に、ある単語と共ともに出現する単語のうち、出現頻度が所定値以上のものを共起語として抽出する。たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位5位~30位の単語を共起語として抽出する。これに代えて、又はこれに加えて、共起語抽出部23は、ある単語と共ともに出現する単語のうち、出現するときの互いの距離が所定距離以下のものを共起語として抽出する。たとえば、ある単語と共に出現する単語のうち、互いの距離が1単語~10単語の単語を共起語として抽出する。出現頻度の所定値と、所定距離とは、出現単語抽出部22にて単語の抽出処理をされたデータの種類と量に応じて、適宜の値を選択することができる。また、共起語抽出部23により抽出される共起語の数は、単語ごとに異なっていてもよく、異なる単語について、同一の単語を共起語として抽出してもよい。
【0037】
共起語抽出部23にて共起ネットワークを生成する場合は、テキストデータ以外の情報を用いてもよい。特に、出現単語抽出部22にて学習データから抽出された単語が、以前の処理結果と関連付けられている場合は、共起語抽出部23は、以前の処理結果に応じたグループごとに共起語を抽出することができる。たとえば、出現単語抽出部22にて学習データから抽出された単語が、車両の不具合の重要度に応じた分類と関連付けられていた場合には、共起語抽出部23は、不具合の重要度に応じた分類ごとに、共起語を抽出することができる。そして、共起語抽出部23は、出現単語抽出部22にて処理された元データに対応させて、入力データから抽出された共起語、学習データから抽出された共起語、処理基準データから抽出された共起語、及びコーパスデータから抽出された共起語を、それぞれ、RAM183などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。この際に、抽出された共起語は、単語ごとにリスト化されてもよい。
【0038】
分類規則生成部24は、出現単語抽出部22にて抽出された単語、及び共起語抽出部23にて抽出された共起語のうち少なくとも一方を用いて、入力データを処理する規則を生成する機能を有する。入力データを処理する規則とは、特に、入力されたデータを分類するための規則である。分類規則生成部24は、出現単語抽出部22にて抽出された単語、及び共起語抽出部23にて抽出された共起語のうち少なくとも一方を用いて、データ取得部21にて取得した入力データ、学習データ、処理基準データ、及びコーパスデータに含まれるテキストデータをベクトルで表現する。このベクトルで表現されたテキストデータが、情報処理装置17にて入力データを処理する際に用いる規則となる。
【0039】
分類規則生成部24は、入力データ、学習データ、処理基準データ、及びコーパスデータのうちどのデータを用いるか、また、出現単語抽出部22にて抽出された単語、及び共起語抽出部23にて抽出された共起語のどちらを用いるかを選択することで、複数の規則を生成することができる。これらの規則のうち、本実施形態では、特に、出現単語抽出部22にて抽出された単語を用いて、処理基準データをベクトルで表現したものを第1規則と呼び、共起語抽出部23にて抽出された、学習データの共起語を組み合わせ、得られた共起語の組み合わせをベクトルで表現したものを第2規則と呼ぶこととする。本実施形態では、第2規則の元データである学習データは、少なくとも、後述する第1分類部27a又は第2分類部27bにて分類された過去の入力データを含む。
【0040】
第1規則は、官公庁から公開されている文書、作業手順書、製品の注意書き又は使用マニュアルなど、予め決まっている所定の規則をベクトルで表現したものであるが、第2規則は、使用される学習データによって、生成されるベクトルが変化する。したがって、本実施形態の情報処理装置17にて入力データの処理を行い、処理した入力データを、処理結果と関連付けた上で学習データとしてフィードバックすることで、第2規則を自動的に改善し、第2規則を用いてより適切に入力データを処理できるようになる。つまり、第2規則は、学習データを用いた機械学習により学習された規則である。以下、第1規則及び第2規則をどのように生成するについて説明する。
【0041】
第1規則の元データとなる処理基準データは、官公庁から公開されている文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き又は使用マニュアルなどであり、予め決まっている所定の規則である。官公庁から公開されている文書としては、たとえば、国土交通省からデータベースとして公開されている、自動車のリコール・不具合情報などが挙げられる。作業手順書としては、たとえば、ディーラーから寄せられた車両の不具合の情報を、重要度高、重要度中及び重要度低の3つの重要度に応じて分類するための基準が挙げられる。このような作業手順書には、たとえば、報告された不具合が、「車両の全てのドアが内側から開かない」に該当すれば、不具合を「重要度高」に分類し、不具合が「車両の一部のドアが内側から開けられない、又は開錠できない」に該当すれば、不具合を「重要度中」に分類し、不具合が「車両の一部のドアが外側から開かない、又は開錠できない」に該当すれば、不具合を「重要度低」に分類する旨、記載されている。製品の注意書き又は使用マニュアルとは、たとえば、製品がガスを使用するヘアスプレーである場合は、スプレー缶に記載された「製品を火気の近くに置かないこと、爆発破損のおそれあり」などの記載が該当する。
【0042】
第1規則を生成するために、分類規則生成部24は、上述したような処理基準データから抽出された単語を出現単語抽出部22から取得する。本実施形態では、この段階で、出現単語抽出部22にてステミングの処理、ストップワードの削除、及び複合語の検索が実行されているものとする。抽出された単語は、テキストデータごと、又は文ごとにリスト化される。そして、抽出された単語を単語ラベルとして横方向に配置し、テキストデータ又は文ごとに、たとえば、出現した単語には1を、出現しない単語には0を付して、1行の行列を作成する。この単語ラベルが付された行列を単語ベクトルともいう。そして、この処理を各テキストデータ又は文ごとに行い、生成された各単語ベクトルを一つにまとめたものが第1規則となる。
【0043】
たとえば、上述した作業手順書であれば、「重要度高」に分類される「車両の全てのドアが内側から開かない」について、出現単語抽出部22の形態素解析の機能により、「車両/の/全て/の/ドア/が/内側/から/開か/ない」と区切り、単語を抽出できる。これらの抽出した単語から、助詞である「の」、「が」及び「から」をストップワードとして削除する。「ない」は助動詞であり、ストップワードに該当し得るが、削除せずに、「開か(原型:開く)/ない」を複合語「開かない」として抽出する。これにより、「車両の全てのドアが内側から開かない」という処理基準データから「車両/全て/ドア/内側/開かない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度高」に分類するための、下表1の「高」の行に示す単語ベクトルを生成する。
【0044】
同様に、「重要度中」に分類される「車両の一部のドアが内側から開けられない、又は開錠できない」について、出現単語抽出部22の形態素解析の機能により、「車両/の/一部/の/ドア/が/内側/から/開け/られ/ない/、/又は/開錠/でき/ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開け/られない」を複合語「開けられない」として、「開錠/でき/ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが内側から開けられない、又は開錠できない」という処理基準データから、「車両/一部/ドア/内側/開けられない/開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度中」に分類するための、下表1の「中」の行に示す単語ベクトルを生成する。
【0045】
同様に、「重要度低」に分類される「車両の一部のドアが外側から開かない、又は開錠できない」について、出現単語抽出部22の形態素解析の機能により、「車両/の/一部/の/ドア/が/外側/から/開か/ない/、/又は/開錠/でき/ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開か/ない」を複合語「開かない」として、「開錠/でき/ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが外側から開かない、又は開錠できない」という処理基準データから、「車両/一部/ドア/外側/開かない/開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度低」に分類するための、下表1の「低」の行に示す単語ベクトルを生成する。
【0046】
【0047】
このように、処理基準データを出現単語抽出部22にて処理した場合にも、抽出された単語と分類基準との関連付けは維持されるため、各単語ベクトルと分類基準とを対応させることができる。
【0048】
これに対して、第2規則を生成するために、分類規則生成部24は、学習データから抽出された共起語を共起語抽出部23から取得する。分類規則生成部24は、第2規則を生成する場合に、取得した共起語のリストから、共起関係の強い単語の組み合わせを抽出する。分類規則生成部24は、たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位5位以内の単語で、互いの距離が5単語以下の単語の組み合わせを抽出する。当該抽出の条件は、抽出される組み合わせの数が情報処理装置17の処理限界を超えない範囲内で、適宜の条件を設定できる。そして、抽出された単語を単語ラベルとして横方向に配置し、組み合わせとして抽出した単語には1を、それ以外の単語には0を付して、組み合わせごとに単語ベクトルを作成する。この処理を各組合せで行い、生成された各単語ベクトルを一つにまとめたものが第2規則となる。
【0049】
本実施形態では、抽出された共起語は単語ごとにリスト化されているものとし、取得した共起語は、以前の処理結果に応じたグループごとに抽出されるものとする。以前の処理結果に応じたグループごとに共起語を抽出することで、各単語ベクトルと処理結果とを対応させることができる。たとえば、第2規則を取得するために用いた共起語が、車両の不具合の重要度に応じたグループごと抽出されたものであれば、生成した単語ベクトルと、不具合の重要度とを対応させることができる。つまり、入力されたデータが、車両の不具合の情報を含む場合に、第2規則を、車両の不具合の重要度に対応した分類をするための規則とすることができる。
【0050】
たとえば、学習データに、過去に情報処理装置17に入力され、第1分類部又は第2分類部にて「重要度高」と分類されたデータが含まれている場合に、分類規則生成部24は、共起語抽出部23にて抽出された共起語から、「重要度高」に分類されたデータの共起語を取得する。「重要度高」に分類されたデータの共起語が(ドア、前、右側、左側、異音、全部、開かない)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「ドア、異音、全部、開かない」を抽出する。そして、この組み合わせに含まれる単語を単語ラベルとして横方向に配置し、組み合わせに含まれる単語には1を、それ以外の単語には0を付して、1行の行列を作成する。組み合わせが「ドア、前、異音、全部、開かない」であれば、下表2の「高」の行に示す1行の行列、つまり単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度高」に分類される。
【0051】
同様に、過去に、第1分類部又は第2分類部にて「重要度中」と分類されたデータが学習データに含まれている場合に、分類規則生成部24は、共起語抽出部23にて抽出された共起語から、「重要度中」に分類されたデータの共起語を取得する。「重要度中」に分類されたデータの共起語が(車両、両側、ドア、変な音、後ろ、開かない)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「車両、ドア、変な音、後ろ、開かない」を抽出する。そして、この組み合わせから、下表2の「中」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度中」に分類される。
【0052】
同様に、過去に、第1分類部又は第2分類部にて「重要度低」に分類されたデータが学習データに含まれている場合に、分類規則生成部24は、共起語抽出部23にて抽出された共起語から、「重要度低」に分類されたデータの共起語を取得する。「重要度低」に分類されたデータの共起語が(車両、ドア、開けにくい、前、異音、後ろ)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「ドア、開けにくい、異音、後ろ」を抽出する。そして、この組み合わせから、下表2の「低」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度低」に分類される。
【0053】
【0054】
このように、学習データの分類結果ごとに共起語を抽出するので、各単語ベクトルと分類基準とを対応させることができる。ここでは、入力されたデータが車両の不具合の情報を含む場合に、第1規則及び第2規則を、車両の不具合の重要度に対応した分類をするための規則にするときの処理を説明したが、分類基準は車両の不具合の重要度に限られず、車両の不具合が発生した場所、不具合が発生した車両の整備状態などでもよい。また、上記で説明した第1規則及び第2規則の生成方法は一例に過ぎず、他の方法を用いてもよい。
【0055】
類似度算出部25は、分類規則生成部24にて生成された規則(つまり、一又は複数の単語ベクトル)の元となるデータと、分類規則生成部24にて生成された規則を規則更新部26にて更新するための参照データとの類似度を算出する機能を有する。特に、本実施形態の類似度算出部25は、第1規則の元となる所定のデータ(つまり処理基準データ)と、第1規則を更新するための参照データとの類似度を算出する機能を備える。参照データは、データ取得部21により第1データベース11から取得される。また、本実施形態では、参照データに、入力データ及び学習データのうち少なくとも一つが含まれてもよい。
【0056】
類似度算出部25にて算出される類似度とは、あるテキストデータと、ほかのテキストデータとがどの程度重複しているかを示す指標であり、たとえば0~1の範囲内の正の値をとる。類似度は、値が高いほど、比較対象のテキストデータ同士が類似し、値が低いほど、比較対象のテキストデータ同士が似ていないことを示す。たとえば、処理基準データに出現する単語のうち、参照データに出現する単語と重複する単語の出現頻度を類似度として算出する。このような重複する単語の出現頻度は、処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルとを比較することで算出できる。具体的には、処理基準データから生成された単語ベクトルの単語ラベルと、参照データに付された単語ラベルとを比較し、重複する単語を抽出する。そして、抽出された重複する単語について、その出現頻度を類似度として算出する。
【0057】
ここで、処理基準データから単語ベクトルを生成するときは、上述した第1規則の単語ベクトルを生成する方法と同じ方法を用いることができ、参照データから単語ベクトルを生成するときも、上述した第1規則の単語ベクトルを生成する方法と同じ方法を用いることができる。たとえば、参照データが、「車両の前側のドアが内側から開けられない。」と「全てのドアが外側から開かない。」という入力データを含む場合は、形態素解析、ストップワードの削除、複合語の抽出を経て、下表3のデータ1及びデータ2のような単語ベクトルが生成される。また、参照データに、学習データ又は本実施形態と同様の分類機能を有する別の情報処理装置にて分類されたデータが含まれている場合は、上述した第2規則の単語ベクトルを生成する方法と同様に、共起語抽出部23にて参照データから共起語を抽出し、抽出した共起語を用いて単語ベクトルを生成してもよい。たとえば、「重要度高」に分類されたデータの共起語が(車両、ドア、内側、開かない)である場合に、分類規則生成部24は、共起語の組み合わせの一例として「ドア、内側、開かない」を抽出し、この組み合わせから、下表3のデータ3のような単語ベクトルを生成する。
【0058】
【0059】
本実施形態の類似度は、たとえば、所定の処理基準データに含まれるテキストデータの文と、参照データに含まれるテキストデータの文との類似度である。当該類似度は、所定の処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルから算出する。具体的には、所定の処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルとを比較して、単語ベクトルの単語ラベルと、単語ラベルに対応した単語の出現を示す0又は1の入力値を対比する。次に、ある単語ラベルにおいて、対応する単語の出現を示す0又は1の入力値が、二つの単語ベクトルで相違するか一致するかを判定する。そして、入力値が一致する数又は相違する数を類似度として算出する。
【0060】
二つの単語ベクトルにおいて、単語ラベルに対する0又は1の入力値が相違する数が少なければ、二つの単語ベクトル、及びこれらに対応する文は類似することがわかる。これに対して、二つの単語ベクトルにおいて、単語ラベルに対する0又は1の入力値が相違する数が多ければ、二つの単語ベクトル対応する文は相違する箇所が多く、類似しないことがわかる。なお、所定の処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルとの類似度を算出する際に、単語ベクトル同士のコサイン類似度を算出してもよい。
【0061】
また、これに代えて又はこれに加えて、本実施形態の類似度は、所定の処理基準データに含まれるテキストデータの単語と、前記参照データに含まれるテキストデータの単語との類似度であってもよい。単語の意味を考慮する場合には、単語の共起語同士を比較する。つまり、ある単語と、ほかの単語の意味が類似している場合には、ある単語の共起語と、ほかの単語の共起語も類似している。本実施形態では、コーパスデータから抽出された共起語リストを指標として用いることで、コーパスデータにおける、ある単語の共起語と、ほかの単語の共起語とを比較して、単語同士の意味の類似度を算出することができる。共起語同士の比較には、たとえば、Simpson-Jaccard係数を用いることができる。Simpson-Jaccard係数は、Jaccard係数とSimpson係数を相加平均した指標のことであり、下記の式(1)にて表される。
【0062】
【0063】
ここで、式(1)のw1及びw2は単語を表し、Jaccard(w1,w2)がJaccard係数であり、Simpson(w1,w2)がSimpson係数である。
【0064】
具体的には、処理基準データから生成された単語ベクトルの単語ラベルと、参照データから生成された単語ベクトルの単語ラベルとを比較し、重複する単語を抽出する。次に、抽出された重複する単語について、コーパスデータから抽出された共起語リストを取得する。当該共起語リストは、共起語抽出部23にて生成する。そして、重複する単語と、コーパスデータから抽出された共起語リストを用いて、Simpson-Jaccard係数を算出する。
【0065】
一例として、処理基準データから生成された単語ベクトルの単語ラベル[一部,内側]と、参照データから生成された単語ベクトルの単語ラベル[左,車内]との類似度をSimpson-Jaccard係数として計算する。コーパスデータから抽出された共起語リストから、[一部]と[左]の類似度が0.7、[内側]と[車内]の類似度が0.9であることが分かっているとすると、この場合のSimpson-Jaccard係数は、(0.7+0.9)/2=0.8となり、平均類似度として0.8の類似度が算出される。なお、完全に一致する単語同士の類似度は1として計算するものとする。
【0066】
このように、単語ベクトルの入力値の類似度(つまりテキストデータの文同士の類似度)に加えて、単語ラベルの意味の類似度(つまり単語同士の類似度)を考慮することで、所定の処理基準データと参照データとの類似度をより正確に算出できる。たとえば、処理基準データから生成された単語ベクトルが[ドア、内側、開かない]であり、参照データから生成された単語ベクトルが[ドア、外側、開かない]であった場合、単語ベクトルの入力値の相違する数が1であるため、テキストデータの文としては、二つの単語ベクトルの類似度は高く算出される。しかし、単語ラベルの[内側]と[外側]は、互いに反対の意味を示すため、単語同士の意味も考慮すると、二つの単語ベクトルの類似度は低く算出される。
【0067】
また、類似度算出部25は、類似度算出の別の方法として、処理基準データから生成された単語ベクトルの単語ラベルと、参照データから生成された単語ベクトルの単語ラベルとを比較し、処理基準データのテキストデータに出現する全単語と、参照データのテキストデータに出現する全単語の単語間の類似度を算出してもよい。単語間の類似度は、上述のSimpson-Jaccard係数などを用いて算出する。またこの場合、類似度算出のために、処理基準データの単語ラベルと、参照データの単語ラベルとを用いて共起ネットワークを生成してもよい。共起ネットワークを用いて共起語を抽出することで、二つのテキストデータに出現する単語において、互いに類似度が高い単語を抽出することができる。
【0068】
さらに、類似度算出部25は、抽出した共起語に基づいて、参照データのテキストデータの文(つまり単語ベクトル)から、処理基準データの文(つまり単語ベクトル)に類似したものを抽出してもよい。加えて、抽出された参照データ単語ベクトルについて、処理基準データの単語ベクトルとの類似度を算出してもよい。これにより、参照データ又は処理基準データの少なくとも一方が複数のデータを含む場合に、類似度が高い単語ベクトルを効率よく抽出することができる。
【0069】
規則更新部26は、参照データを用いて、入力データ分類部27にて入力データを分類するための規則を更新する機能を有する。具体的に、規則更新部26は、類似度算出部25にて算出された類似度が所定値以上である参照データを用いて第1規則を更新する機能を有する。所定値は、類似度の算出方法に応じて、適宜の値を設定できる。たとえば、類似度として、処理基準データと単語ベクトルと、参照データの単語ベクトルの値(0又は1)が一致する数を算出した場合には、所定値を3と設定し、一致する数が3以上の参照データを用いる。これに代えて、類似度として、処理基準データと単語ベクトルと、参照データの単語ベクトルの値(0又は1)が相違する数を算出した場合には、たとえば、相違する数が3以下の参照データを用いてもよい。また、類似度として、処理基準データの単語ラベルと、参照データの単語ラベルのSimpson-Jaccard係数を算出した場合には、たとえば、所定値を0.6と設定し、類似度が0.6以上の参照データを用いる。
【0070】
また、類似度として、所定の処理基準データに含まれるテキストデータの文と、参照データに含まれるテキストデータの文との類似度、及び所定の処理基準データに含まれるテキストデータの単語と、参照データに含まれるテキストデータの単語との類似度が算出された場合は、いずれか一方の類似度が所定値以上の参照データを用いてもよいし、両方の類似度が所定値以上の参照データのみを用いてもよい。規則更新部26は、たとえば、処理基準データの単語ベクトルと、参照データの単語ベクトルの値(0又は1)が相違する数が3以下であって、処理基準データの単語ラベルと、参照データの単語ラベルのSimpson-Jaccard係数が0.6以上の参照データを用いるとしてもよい。
【0071】
参照データを用いて第1規則を更新するとは、たとえば、参照データの中から、第1規則の元となるデータである処理基準データと類似するものを抽出し、処理基準データに、抽出した参照データを関連付けて追加することをいう。具体的には、参照データの単語ベクトルと、処理基準データの単語ベクトルを比較し、参照データの単語ベクトルから、処理基準データの単語ベクトルと類似度が所定値以上であるものを抽出する。そして、第1規則において、処理基準データの単語ベクトルの下に、抽出した参照データの単語ベクトルを挿入する。
【0072】
たとえば、入力データを「重要度高」に分類する「車両の全てのドアが内側から開かない」という分類基準に対して、表1の「高」の行に示す単語ベクトルを生成されている場合に、参照データの単語ベクトルから、下表4に示す、データ「車両のドアが全て開けられない」に対応する単語ベクトルを抽出したとする。当該単語ベクトルには、不具合の重要度として、「重要度高」が関連付けられている。
【0073】
【0074】
この場合に、規則更新部26は、下表5に示すように、第1規則において、「高」の行の単語ベクトルの下に、表4に示す単語ベクトルを挿入する。挿入した単語ベクトルは、規則更新部26にて追加された単語ベクトルであり、「高」と関連つけされていることを示すため、たとえばカッコで括った「(高)」と付して挿入する。
【0075】
【0076】
このようにして、規則更新部26は、第1規則を構成する単語ベクトルを増やすことがで、これにより、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制しつつ、第1規則で分類できる入力データの数を増やすことができる。
また、規則更新部26は、必ずしも第1規則を構成する単語ベクトルを増やす必要はなく、たとえば、第1規則を構成する単語ベクトルを、所定値以上の類似度を有する、参照データの単語ベクトルで置き換えてもよい。
【0077】
また、規則更新部26は、第1規則だけでなく、更新された第1規則に従って、後述する第1分類部27aにて分類されたデータを用いて、第2規則を学習させる機能を有する。具体的には、第1分類部27aに入力されたデータと、その分類結果とを関連付けて、第2データベース12に学習データとして格納する。当該フィードバックにより、共起語抽出部23にて抽出される共起語が変化し、分類規則生成部24にて生成される第2規則が、所定の分類基準に従って分類をするように学習される。
【0078】
さらに、規則更新部26は、類似度が所定値以上である参照データの単語ベクトルを用いて、新たな規則を生成してもよい。特に、類似度が所定値以上である参照データから抽出された、第1規則に含まれる単語と共に所定頻度以上の頻度で出現する共起語を用いて、新たな規則を生成してもよい。具体的には、類似度算出部25にて、処理基準データの単語ラベルと、参照データの単語ラベルとを用いて共起ネットワークを生成し、共起語を抽出した場合に、共起語を組み合わせて、処理基準データの単語ベクトルと類似する単語ベクトルを生成する。これにより、第1規則の数をさらに増やすことができる。
【0079】
入力データ分類部27は、入力装置11aにより入力されたデータを規則に従って分類する機能を有する。特に、本実施形態の入力データ分類部27は、入力されたデータを、規則更新部26の機能により更新された第1規則に従って分類する第1分類部27aと、入力されたデータを第2規則に従って分類する第2分類部27bとを備える。上述したように、第1規則では、単語ベクトルと分類基準が関連付けられており、第2規則では、単語ベクトルと以前の処理結果が関連付けられている。そのため、第1分類部27aでは、入力されたデータの単語ベクトルと、第1規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた分類基準に従い入力データ分類することができる。同様に、第2分類部27bでは、入力されたデータの単語ベクトルと、第2規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた以前の処理結果に従い入力データ分類することができる。
【0080】
本実施形態の入力データ分類部27では、特に、入力されたデータの単語ベクトルの中に、第1規則を構成する単語ベクトルと一致するものがあれば、第1規則に従って分類する。これに対して、入力されたデータの単語ベクトルの中で、第1規則を構成する単語ベクトルと一致しないものは、第2規則に従って分類する。たとえば、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを3つ又はそれ以上の群(たとえば、重要度高、重要度中、重要度低の3グループ)に分類するときは、入力データの単語ベクトルが第1規則と一致するときは、第1分類部27aにて分類し、入力データの単語ベクトルが第1規則と一致しないときは、第2分類部27bで分類する。これにより、更新された第1規則と、第2規則とで二重にデータを分類することを回避し、情報処理装置17における処理時間を短縮することができる。
【0081】
表示画像生成部28は、入力されたデータの処理状況について利用者に通知するために表示装置16に表示する画像を生成する機能を有する。表示画像生成部28にて生成される画像は、処理の進捗状況を示すものであっても、処理結果を示すものであってもよく、たとえば、類似度算出部25にて算出された類似度、類似度が所定値以上である参照データ、更新された第1規則、及び更新された第1規則の更新された部分のうち少なくとも一つを含むものである。
【0082】
図2は、
図1の表示装置16に表示される画像の一例を示す図である。
図2に示す画像は、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを3つのグループ、すなわち、重要度高、重要度中、重要度低の3グループに分類したときに表示装置16に表示される画像である。
図2(A)は、入力されたデータの分類結果を示す第1表示画像3であり、
図2(B)は、第1規則の更新結果と類似度の算出結果を示す第2表示画像4であり、
図2(C)は、共起語を抽出した場合の結果と、抽出処理の概要を示す第3表示画像5である。
【0083】
分類結果を示す、
図2(A)の第1表示画像3では、画像左上に「入力データ」が表示されている。入力データは複数入力されてもよく、その場合は、入力データ右下に示す三角形のアイコンにより画面をスクロールすることで、全てのデータを確認できる。画像右上には、入力データの分類結果が表示されており、
図2(A)の入力データが「重要度中」に分類されたことが表示されている。画像左下には、「分類方法」として、第1分類部27aにて、更新された第1規則に従って分類されたことしめす「ルールベースモデル」が表示されており、画像右下には、適用された規則が表示されている。なお、第2分類部27bにて分類された場合には、画像左下に「機械学習モデル」と表示される。
【0084】
更新結果と類似度を示す、
図2(B)の第2表示画像4では、画像左上に抽出された「参照データ」が表示され、その下に、「抽出文章」として、抽出された文が表示されている。また、共起語を抽出した場合には、画像右上に「キーワードリスト」として共起語の組み合わせが表示される。「参照データ」と「キーワードリスト」について、三角形のアイコンにより画面をスクロールすることで、全てのデータを確認できる。画像下側には、「ルール更新結果」として、左下に入力データの分類結果が、その右隣りに適用された第1規則が表示される。そして、画像右下に、参照データから抽出された、適用された第1規則に類似する文が表示されている。
図2(B)の場合は、「左リアドアから変な音がする。」が「右フロントドアから変な音がする。」よりも類似度が高いため、「左リアドアから変な音がする。」を第1規則に追加する。
【0085】
共起語の抽出結果を示す、
図2(C)の第3表示画像5では、画像右側に「参照データ」が表示され、その下に、生成された共起ネットワークが表示されている。また、画像左側には、「キーワードリスト」として、抽出された共起語の組み合わせと、「抽出条件」が表示されている。「抽出条件」としては、単語の出現頻度を示す「単語出現回数」と、単語同士の距離を示す「共起度閾値」が表示されている。なお、表示される抽出条件は一例に過ぎず、必要に応じて他の条件を表示することができる。
【0086】
データ出力部29は、表示画像生成部28にて生成された画像データを、表示装置16に出力する機能を有する。これにより、表示装置16に画像を表示して、情報処理システム1の利用者に、入力データの処理状況を通知することができる。
【0087】
[情報処理システムにおける処理]
図3を参照して、情報処理装置17が情報を処理する際の手順を説明する。
図3は、本実施形態の情報処理システム1における情報の処理を示すフローチャートの一例である。以下に説明する処理は、情報処理装置17のプロセッサ18により所定の時間間隔で実行される。
【0088】
まず、ステップS1にて、データ取得部21の機能により、第1データベース11~第4データベース14の各データベースから必要なデータを取得する。続くステップS2にて、出現単語抽出部22の機能により、形態素解析のツールなどを用いて、データ取得部21にて取得したデータで使用されている単語を抽出する。たとえば、「全てのドアが内側から開かない」というデータから、形態素解析とストップワードの削除、複合語の抽出を経て、「車両/全て/ドア/内側/開かない」という単語を抽出する。続くステップS3にて、共起語抽出部23の機能により、特に学習データ、処理基準データ、及びコーパスデータから抽出された単語について、共起ネットワークを生成して共起語を抽出する。続くステップS4にて、分類規則生成部24の機能により、処理基準データから抽出された単語を用いて第1規則を生成し、学習データから抽出された共起語を用いて第2規則生成する。
【0089】
次に、ステップS5にて、類似度算出部25の機能により、第1規則の元となる所定のデータと、参照データとの類似度を算出する。具体的には、処理基準データの単語ベクトルと、参照データの単語ベクトルとを比較し、単語ベクトルの重複個数、単語ラベルに対応する単語の意味の類似度などを類似度として算出する。続くステップS6にて、規則更新部26の機能により、所定値以上の類似を有する参照データを用いて、第1規則を更新し、新たな規則を追加する。続くステップS7にて、入力されたデータが、更新された第1規則に従って分類できるか否かを判定する。
【0090】
入力データの単語ベクトルと、第1規則の単語ベクトルとが一致し、更新された第1規則に従って分類できると判定された場合は、ステップS8aに進み、第1分類部27aにて、更新された第1規則に従って分類される。これに対して、入力データの単語ベクトルと、第1規則の単語ベクトルとが一致せず、更新された第1規則に従って分類できないと判定された場合は、ステップS8bに進み、第2分類部27bにて、第2規則に従って分類される。
【0091】
これらの分類処理の結果は、続くステップS9にて処理され、表示画像生成部28の機能により、表示装置16に表示するための画像を生成する。生成された画像は、続くステップS10にて、データ出力部29の機能により、表示装置16に出力される。そして、データ出力部29から出力された画像が表示装置16に表示され、情報処理システム1の利用者に処理結果を通知する。さらに、ステップS11にて、規則更新部26の機能により、ステップS8aにおける第1分類部の分類結果を学習データにフィードバックし、第2規則を学習させる。
【0092】
[本発明の実施態様]
以上のとおり、本実施形態の情報処理装置17によれば、入力されたデータを分類するための第1規則を生成するときに用いる所定のデータと、前記第1規則を更新するための参照データとの類似度を算出する類似度算出部25、前記類似度算出部25にて算出された前記類似度が所定値以上である前記参照データを用いて前記第1規則を更新する規則更新部26、及び前記入力されたデータを、更新された前記第1規則と、前記第1規則と異なる、学習データを用いた機械学習により学習された第2規則とを用いて分類する入力データ分類部27を備える。これにより、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制しつつ、更新された第1規則と、第2規則とで二重にデータを分類することを回避し、情報処理装置17における処理時間を短縮することができる。
【0093】
また、本実施形態の情報処理装置17によれば、前記類似度は、前記所定のデータに含まれるテキストデータの文と、前記参照データに含まれるテキストデータの文との類似度、及び/又は前記所定のデータに含まれるテキストデータの単語と、前記参照データに含まれるテキストデータの単語との類似度である。これにより、所定の処理基準データと参照データとの類似度をより正確に算出できる。
【0094】
また、本実施形態の情報処理装置17によれば、前記学習データは、過去に入力され、前記入力データ分類部にて分類されたデータを含む。これにより、過去の入力データを用いて第1規則の更新と、第2規則の学習が実現でき、分類精度がより向上する。
【0095】
また、本実施形態の情報処理装置17によれば、前記参照データは、前記入力データ及び前記学習データのうち少なくとも一つを含む。これにより、入力データを用いて第1規則の更新と、第2規則の学習が実現でき、分類精度がより向上する。
【0096】
また、本実施形態の情報処理装置17によれば、前記規則更新部26は、前記第2規則を、更新された前記第1規則に従って前記入力データ分類部27により分類されたデータを用いて学習させる。これにより、第2規則の学習が促進される。
【0097】
また、本実施形態の情報処理装置17によれば、更新された前記第1規則は、前記規則更新部26にて、前記類似度が所定値以上である前記参照データを用いて生成された新たな規則を含む。これにより、第1規則の数をさらに増やすことができる。
【0098】
また、本実施形態の情報処理装置17によれば、更新された前記第1規則は、前記参照データから抽出された、前記第1規則に含まれる単語と共に所定頻度以上の頻度で出現する単語を用いて生成された新たな規則を含む。これにより、第1規則の数をさらに増やすことができる。
【0099】
また、本実施形態の情報処理装置17によれば、前記類似度、前記類似度が所定値以上である参照データ、更新された前記第1規則、及び更新された前記第1規則の更新された部分のうち少なくとも一つを表示する表示装置16をさらに備える。これにより、情報処理システム1の利用者に、入力データの処理状況を通知することができる。
【0100】
また、本実施形態の情報処理方法によれば、入力されたデータを、所定のデータから生成された第1規則と、前記第1規則と異なる、学習データを用いた機械学習により学習された第2規則とを用いて分類する場合に、前記所定のデータと、前記第1規則を更新するための参照データとの類似度を算出し、前記類似度が所定値以上である前記参照データを用いて前記第1規則を更新し、前記入力されたデータを、更新された前記第1規則と、前記第2規則とを用いて分類する。これにより、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制しつつ、更新された第1規則と、第2規則とで二重にデータを分類することを回避し、情報処理装置17における処理時間を短縮することができる。
【符号の説明】
【0101】
1…情報処理システム
11…第1データベース(入力データ)
11a…入力装置
12…第2データベース(学習データ)
12a…サーバー
13…第3データベース(処理基準データ)
14…第4データベース(コーパスデータ)
15…通信装置
16…表示装置
17…情報処理装置
18…プロセッサ
181…CPU
182…ROM
183…RAM
2…入力データ処理部
21…データ取得部
22…出現単語抽出部
23…共起語抽出部
24…分類規則生成部
25…類似度算出部
26…規則更新部
27…入力データ分類部
27a…第1分類部
27b…第2分類部
28…表示画像生成部
29…データ出力部
3…第1表示画像
4…第2表示画像
5…第3表示画像