特開2022-162647 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧 ▶ ルノー　エス．ア．エス．の特許一覧

特開2022-162647情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022162647

(43)【公開日】2022-10-25

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06Q 10/00 20120101AFI20221018BHJP

G06N 20/00 20190101ALI20221018BHJP

G06F 40/279 20200101ALI20221018BHJP

G06F 16/35 20190101ALI20221018BHJP

【ＦＩ】

G06Q10/00 300

G06N20/00

G06F40/279

G06F16/35

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021067546

(22)【出願日】2021-04-13

(71)【出願人】

【識別番号】000003997

【氏名又は名称】日産自動車株式会社

(71)【出願人】

【識別番号】507308902

【氏名又は名称】ルノーエス．ア．エス．

【氏名又は名称原語表記】ＲＥＮＡＵＬＴＳ．Ａ．Ｓ．

【住所又は居所原語表記】１２２－１２２ｂｉｓ，ａｖｅｎｕｅｄｕＧｅｎｅｒａｌＬｅｃｌｅｒｃ，９２１００Ｂｏｕｌｏｇｎｅ－Ｂｉｌｌａｎｃｏｕｒｔ，Ｆｒａｎｃｅ

(74)【代理人】

【識別番号】110000486

【氏名又は名称】とこしえ特許業務法人

(72)【発明者】

【氏名】堀畑友希

(72)【発明者】

【氏名】広瀬悟

【テーマコード（参考）】

5B091

5B175

5L049

【Ｆターム（参考）】

5B091AA15

5B175DA01

5B175FA03

5B175HB03

5L049CC15

(57)【要約】（修正有）

【課題】処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理する情報処理装置及び情報処理方法を提供する。
【解決手段】情報処理システム１は、第１データベース１１、第２データベース１２、第３データベース１３、第４データベース１４、通信装置１５、表示装置１６及び情報処理装置１７を含む。情報処理装置１７は、第１データベース１１から取得した入力データを、第２データベース１２から取得した学習データ、第３データベース１３から取得した処理基準データ、及び第４データベース１４から取得したコーパスデータを用いて処理し、表示装置１６を用いて処理結果を利用者に通知する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力されたデータを、所定のデータから生成された第１規則に従って分類する第１分類部と、
前記入力されたデータを、学習データを用いた機械学習により学習された、前記第１規則と異なる第２規則に従って分類する第２分類部と、
前記入力されたデータと、前記所定のデータとの類似度を算出する第１類似度算出部と、
前記入力されたデータと、前記学習データとの類似度を算出する第２類似度算出部と、を備える情報処理装置において、
前記学習データは、過去に入力され、前記第１分類部又は前記第２分類部にて分類されたデータを含み、
前記第１類似度算出部にて算出された類似度の値が、前記第２類似度算出部にて算出された類似度の値以上である場合は、前記入力されたデータを、前記第１分類部にて分類した後に、前記第１分類部にて分類されたデータの一部を、前記第２分類部にて分類し、
前記第１類似度算出部にて算出された類似度の値が、前記第２類似度算出部にて算出された類似度の値未満である場合は、前記入力されたデータを、前記第２分類部にて分類した後に、前記第２分類部にて分類されたデータの一部を、前記第１分類部にて分類する、情報処理装置。

【請求項2】

前記入力されたデータ及び前記学習データのうち少なくとも一つは、自然言語で記載されたテキストデータを含む、請求項１に記載の情報処理装置。

【請求項3】

第１類似度算出部は、前記入力されたデータに出現する単語のうち、前記所定のデータに出現する単語と重複する単語の出現頻度を類似度として算出する、請求項１又は２に記載の情報処理装置。

【請求項4】

第２類似度算出部は、前記入力されたデータに出現する単語のうち、前記学習データに出現する単語と重複する単語の出現頻度を類似度として算出する、請求項１～３のいずれか一項に記載の情報処理装置。

【請求項5】

前記第１類似度算出部及び前記第２類似度算出部は、それぞれ、前記入力されたデータから生成された単語ベクトルを用いて前記類似度を算出する、請求項１～４のいずれか一項に記載の情報処理装置。

【請求項6】

前記第１類似度算出部及び前記第２類似度算出部のそれぞれは、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を用いて前記類似度を算出する、請求項１～５のいずれか一項に記載の情報処理装置。

【請求項7】

前記第２規則は、共起ネットワークを用いた機械学習により学習された規則である、請求項１～６のいずれか一項に記載の情報処理装置。

【請求項8】

前記第１分類部及び前記第２分類部は、前記入力されたデータを少なくとも３つの群に分類する、請求項１～７のいずれか一項に記載の情報処理装置。

【請求項9】

前記入力されたデータは、車両の不具合の情報を含み、前記第１規則及び前記第２規則は、前記不具合の重要度に対応した分類をするための規則である、請求項１～８のいずれか一項に記載の情報処理装置。

【請求項10】

前記第１分類部による分類の結果、前記第２分類部による分類の結果、前記第１類似度算出部により算出された類似度、及び前記第２類似度算出部により算出された類似度のうち少なくとも一つを表示する表示装置をさらに備える、請求項１～９のいずれか一項に記載の情報処理装置。

【請求項11】

入力されたデータを、所定のデータから生成された第１規則と、学習データを用いた機械学習により学習された、前記第１規則と異なる第２規則とを用いて分類する情報処理方法において、
前記学習データは、前記第１規則と前記第２規則とを用いて分類された、過去に入力されたデータを含み、
前記入力されたデータと、前記所定のデータとの類似度である第１類似度を算出し、
前記入力されたデータと、前記学習データとの類似度である第２類似度を算出し、
前記第１類似度の値が前記第２類似度の値以上である場合は、前記入力されたデータを、前記第１規則に従って分類した後に、前記第１規則に従って分類されたデータの一部を、前記第２規則に従って分類し、
前記第１類似度の値が前記第２類似度の値未満である場合は、前記入力されたデータを、前記第２規則に従って分類した後に、前記第２規則に従って分類されたデータの一部を、前記第１規則に従って分類する、情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、各種データを処理するための情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

電力系統にて計測された電力、及び予め設定された、電力系統の電力需給に基づいて推定した系統状態と、推定された系統状態において電力系統に発生すると想定される事故の状態との情報を含む入力データに基づいて、電力系統の安定度を予測する方法が知られている（特許文献１）。

【0003】

特許文献１の方法では、入力データ、及び所定の評価モデルにより生成された、過去の入力データに基づく学習データを用いて、学習データの入力データに対する学習度を判定する。学習度が高い、つまり入力データと学習データの類似性が高い場合は、入力データと学習データに基づいて、所定の評価モデルにより電力系統の安定度を推定する一方、学習度が低い、つまり入力データと学習データの類似性が低い場合は、シミュレーションなどの予め設定された計算手法により入力データから電力系統の安定度を算出する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９－４７６９６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記従来技術では、学習度が高いと判定された場合は、電力系統の安定度を正確に推定できるが、学習度が低いと判定された場合は、電力系統の安定度を正確に推定できない。そのため、学習度が低いと判定され、シミュレーションなどの計算手法で電力系統の安定度を算出した場合は、入力データと算出された電力系統の安定度とを教示データとして、評価モデルについてニューラルネットワークによる学習を行う。

【0006】

しかしながら、入力データからシミュレーションなどの計算手法で電力系統の安定度を算出できるか否かは入力データの種類による。そのため、学習度が低いと判定された場合に、常に、系統安定度を算出できるとは限らない。電力系統の安定度が算出できない場合は、教示データが得られず、学習により評価モデルを変更することができないため、入力データを評価モデルで処理しても、電力系統の安定度を高い精度で予測することができない。

【0007】

本発明が解決しようとする課題は、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる情報処理装置及び情報処理方法を提供することである。

【課題を解決するための手段】

【0008】

本発明は、入力されたデータを、所定のデータから生成された第１規則と、学習データを用いた機械学習により学習された、第１規則と異なる第２規則とを用いて分類する場合に、第１規則と第２規則とを用いて分類された、過去に入力されたデータを含む学習データを用いることとし、入力されたデータと、所定のデータとの類似度である第１類似度、及び入力されたデータと、学習データとの類似度である第２類似度を算出し、第１類似度の値が第２類似度の値以上である場合は、入力されたデータを、第１規則に従って分類した後に、第１規則に従って分類されたデータの一部を、第２規則に従って分類し、第１類似度の値が第２類似度の値未満である場合は、入力されたデータを、第２規則に従って分類した後に、第２規則に従って分類されたデータの一部を、第１規則に従って分類することによって上記課題を解決する。

【発明の効果】

【0009】

本発明によれば、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる。

【図面の簡単な説明】

【0010】

【図1】本発明に係る情報処理装置を含む情報処理システムを示すブロック図である。

【図2】図１の表示装置に表示される画像の一例である。

【図3】図１の情報処理システムにおける処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本発明の実施形態を図面に基づいて説明する。

【0012】

［情報処理システム］
図１は、本発明に係る情報処理システム１を示すブロック図である。図１に示す情報処理システム１は、たとえば、ウェブサイトやソーシャル・ネットワーキング・サービス（ＳＮＳ）に投稿された文章、社内イントラネットの電子掲示板への書込み、及び製品を販売した販売店から製造元に寄せられた製品の修理報告書などから、市場における製品の不具合情報を取得し、取得した情報をその重要度に応じて自動的に分類する場合に用いることができる。

【0013】

情報処理システム１は、少なくとも一つのデータベースと、入力されたデータを処理する電子計算機とを備えるシステムである。図１に示すように、情報処理システム１は、第１データベース１１、第２データベース１２、第３データベース１３、第４データベース１４、通信装置１５、表示装置１６、及び情報処理装置１７を含む。第１データベース１１には、情報処理装置１７に入力され、処理される入力データが格納され、第２データベース１２には、情報処理装置１７にて実行される機械学習に用いる学習データが格納され、第３データベース１３には、情報処理装置１７に入力されたデータを処理する（たとえば分類する）ための所定の基準を示す処理基準データが格納され、第４データベース１４には、情報処理装置１７における処理で用いるコーパスデータが格納されている。

【0014】

第１データベース１１に格納された入力データは、自然言語で記載されたテキストデータであれば特に限定されない。テキストデータとしては、たとえば、ウェブサイトやＳＮＳへの投稿文章、イントラネットの電子掲示板への書込み、社内システムへの入力情報、製品を販売した販売店から製造元に寄せられた製品の修理報告書などが挙げられる。本実施形態の入力データは、特に、車両を販売したディーラーから、車両を製造した自動車会社に送られる品質報告書（テクニカル・レポート）を含む。品質報告書には、少なくとも、販売した車両の市場における不具合の情報、たとえば、不具合の発生箇所、不具合の状態、不具合の発生原因と対策、不具合が発生した車両の整備状態と修理履歴、不具合発生日時と対応日時などが含まれている。

【0015】

第２データベース１２に格納された学習データは、情報処理装置１７にて実行される機械学習に用いることができるデータであれば特に限定されず、たとえば、国土交通省などから公開されている、車両や安全に関する法令、ガイドラインなどの文書を含むテキストデータである。また、学習データには、以前に情報処理装置１７にて処理された入力データが含まれる。この場合に、学習データは、過去に入力され、情報処理装置１７にて処理されたデータと、少なくともそのときの処理結果とを含み、これらの情報が関連付けられて第２データベース１２に格納されている。たとえば、車両の不具合情報を含む入力データを、後述する分類基準に従って、又は情報処理装置１７にて機械学習により学習された規則に従って分類した場合には、入力データと、不具合の重要度に応じた入力データの分類結果と、分類方法とが関連付けられ、学習データとして第２データベース１２に格納されることになる。

【0016】

第３データベース１３に格納された処理基準データは、情報処理装置１７にて入力データを処理する際に用いる基準を規定するデータであり、たとえば、情報処理装置１７に入力されたデータを分類するときに用いる分類基準を示すデータである。処理基準データは、自然言語で記載された文章、数学記号で記載された数式などのテキストデータであり、国土交通省などから公開されている、法令や安全基準などに関する文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き、製品の使用マニュアルなどが挙げられる。

【0017】

第４データベース１４に格納されたコーパスデータは、情報処理装置１７における処理、特に機械学習によって何らかの規則を学習する際に用いるコーパスのデータである。コーパスとは、入力データを分析する際の対象となる構造化された資料集であり、文字で記された資料や録音された言語資料の集合体である。コーパスの種類は特に限定されず、たとえば、単に文書を集めた生コーパス、様々な種類の文書をバランスよく取集した均衡コーパス、品詞や統語構造などを付与してあるタグ付きコーパス、ある言語のテキストとその翻訳テキストを対応させたパラレルコーパスなどが挙げられる。例として、入力データが日本語であれば、現代日本語書き言葉均衡コーパス（ＢＣＣＷＪ）、日本語話し言葉コーパス（ＣＳＪ）などを用いることができ、入力データが英語であれば、Corpus of Contemporary American English（ＣＯＣＡ）などを用いることができる。

【0018】

第１データベース１１は、有線又は無線ＬＡＮなどの公知の手段により、入力装置１１ａとデータの授受が可能な状態で接続されており、情報処理システム１の利用者は、情報処理装置１７で処理するデータを、入力装置１１ａを用いて第１データベース１１に入力する。入力装置１１ａは、情報処理システム１の利用者が、情報処理装置１７で処理するデータを第１データベース１１に入力するための装置であり、たとえば、ディスプレイと接続されたキーボード、マイク、タッチパネルなどである。入力装置１１ａは、第１データベース１１と共に設けられていてもよいし、情報処理システム１の利用者の便宜に応じて、第１データベース１１及び／又は情報処理装置１７から離れた場所に設けられていてもよい。

【0019】

また、図１に示すように、第１データベース１１は、有線又は無線ＬＡＮなどの公知の通信手段よって通信装置１５と接続しており、情報処理装置１７は、通信装置１５を介して、第１データベース１１に格納された入力データを取得する。通信装置１５は、情報処理装置１７と外部の機器との間でデータを授受するための装置であり、インターネットなどのネットワークを介して他の機器との通信が可能な通信装置であれば特に限定されない。なお、図１に示す通信装置１５は一つであるが、通信装置１５の数は特に限定されず、複数個の通信装置１５を用いてもよい。複数個の通信装置１５を用いる場合は、情報処理システム１に含まれる各機器と通信装置１５との接続関係は特に限定されない。

【0020】

また、図１の情報処理システム１では、第１データベース１１と同様に、第２データベース１２、第３データベース１３及び第４データベース１４も通信装置１５と接続している。情報処理装置１７は、通信装置１５を介して、第２データベース１２から学習データを取得し、第３データベース１３から処理基準データを取得し、第４データベース１４からコーパスデータを取得する。これらのデータベースは、情報処理装置１７と共に設けられている必要はなく、第１データベース１１、第２データベース１２、第３データベース１３及び第４データベース１４のうち少なくとも一つは、たとえば図２に示すサーバー１２ａのように、情報処理装置１７から離れた場所に設けられていてもよい。

【0021】

さらに、情報処理装置１７は、表示装置１６とも接続しており、情報処理装置１７にて行われた入力データの処理結果は、表示装置１６に表示される。表示装置１６は、情報処理装置１７に入力されたデータの処理状況を利用者に通知するための装置であり、例として、液晶ディスプレイ、プロジェクターなどが挙げられる。図１の表示装置１６は、データの授受が可能な状態で情報処理装置１７と接続しているが、接続方法は特に限定されず、有線又は無線ＬＡＮなどの公知の通信手段を用いることができる。また、表示装置１６は、情報処理装置１７と共に設けられていてもよいし、情報処理システム１の利用者の便宜に応じて、通信装置１５と接続し、情報処理装置１７から離れた場所に設けられていてもよい。

【0022】

情報処理装置１７は、第１データベース１１から取得した入力データを、第２データベース１２から取得した学習データ、第３データベース１３から取得した処理基準データ、及び第４データベース１４から取得したコーパスデータを用いて処理し、表示装置１６を用いて処理結果を利用者に通知するための装置である。情報処理装置１７は、入力されたデータの処理と、利用者への処理結果の通知を、プロセッサ１８により実現する。プロセッサ１８は、プログラムが格納されたＲＯＭ（Read Only Memory）１８２と、ＲＯＭ１８２に格納されたプログラムを実行することで、情報処理装置１７として機能するための動作回路であるＣＰＵ（Central Processing Unit）１８１と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）１８３とを備える。

【0023】

［入力データ処理部］
本実施形態の情報処理装置１７で用いるプログラムは、入力されたデータの処理と、利用者への処理結果の通知とを情報処理装置１７によって実現するための機能ブロックである入力データ処理部２を含む。入力データ処理部２は、各データベース１１～１４から必要なデータを取得し、入力されたデータをある規則に従って分類し、分類結果を、表示装置１６を介して利用者に通知する機能を有する。入力データ処理部２は、図１に示すように、データ取得部２１、出現単語抽出部２２、共起語抽出部２３、分類規則生成部２４、類似度算出部２５、入力データ分類部２６、表示画像生成部２７、及びデータ出力部２８を備える。図１には、各部を便宜的に抽出して示す。

【0024】

図１に示す情報処理装置１７は上記の機能ブロックを全て備えるが、単一の情報処理装置１７が全ての機能ブロックを備える必要はなく、上記の機能ブロックのうち一部のものを、情報処理システム１に含まれる他の機器、又は図示しない別の情報処理装置に設けてもよい。たとえば、図１の情報処理システム１において、表示画像生成部２７を表示装置１６に設けてもよい。この場合には、表示装置１６のＣＰＵ、ＲＯＭ、及びＲＡＭを用いて表示画像生成部２７の機能が実行されることになる。

【0025】

また、各機能ブロックの処理の全てを単一の情報処理装置にて実行する必要はなく、データが授受できる状態で接続された複数の情報処理装置をまたいで、各機能ブロックの機能を実現してもよい。たとえば、図１の情報処理システム１において、出現単語抽出部２２にて実行される処理のうち、一部の処理をサーバー１２ａにて実行し、残りの処理を情報処理装置１７にて実行するようにしてもよい。この場合には、サーバー１２ａのＣＰＵ、ＲＯＭ、及びＲＡＭを用いて、出現単語抽出部２２の機能を実現するための処理の一部が行われることになる。また、ほかの例として、共起語抽出部２３及び分類規則生成部２４についても、各機能ブロックにて実行される処理のうち、一部の処理をサーバー１２ａにて実行し、残りの処理を情報処理装置１７にて実行するようにしてもよい。

【0026】

以下、入力データ処理部２の各機能ブロックが果たす機能について説明する。

【0027】

データ取得部２１は、第１データベース１１に格納された入力データ、第２データベース１２に格納された学習データ、第３データベース１３に格納された処理基準データ、及び第４データベース１４に格納されたコーパスデータを、必要に応じて取得する機能を有する。データ取得部２１により取得されたデータは、以下に説明する他の機能ブロックにて用いられる。

【0028】

出現単語抽出部２２は、データ取得部２１により取得されたデータに出現する単語を抽出する機能を有する。出現単語抽出部２２は、特に、第１データベース１１の入力データ、第２データベース１２の学習データ、第３データベース１３の処理基準データ、及び第４データベース１４のコーパスデータに含まれるテキストデータで使用されている単語を抽出する機能を有する。出現単語抽出部２２にて処理するテキストデータが、英語、ドイツ語、フランス語などのように、単語と単語の間にスペース（空白）を入れて単語を区切るように記載する（分かち書きする）印欧語である場合は、出現単語抽出部２２は、スペースで区切られた単語をそのまま抽出し、単語ごとに品詞などのタグを付す。

【0029】

出現単語抽出部２２は、必要に応じて、抽出された単語についてステミングを行い、抽出された単語からストップワードを削除する。ステミングとは、ある単語とその派生語について、全て同一の素性とみなすための処理である。たとえば、英語の動詞"run"について、テキストデータにて"ran"、"running"などの変化形が出現した場合には、これらの変化形は全て"run"と同じ素性とみなす。ストップワードとは、どのような話題の文書にも出現する単語で、話題の種類と関連を持たないと考えられる単語のことである。例として、"the"、"is"、"have"、"take"、"get"などの基本単語が挙げられる。これらの処理は、たとえば、プログラミング言語"Python"にて" termextract"などのモジュールを用いることで実行できる。

【0030】

これに対して、出現単語抽出部２２にて処理するテキストデータが、日本語、中国語、タイ語などのように、分かち書きをしない言語である場合には、出現単語抽出部２２は、テキストデータについて形態素解析を行う。形態素とは、意味を持つ最小の言語単位であり、本実施形態において、形態素解析とは、テキストデータにおいて単語の区切りを判定し、区切られた単語ごとにその品詞などを判別することをいうものとする。たとえば、「エンジンから変な音がして動作しない。」という文であれば、形態素解析により、「エンジン／から／変／な／音／が／して／動作／し／ない／。」と区切ることができ、区切られた各単語について、その読み、原型、品詞、活用形などを判別する。これらの区切られた各単語から、必要に応じて、助詞や助動詞などのストップワードを削除してもよい。このような処理は、たとえば、" MeCab"、" JUMAN"、" ChaSen"などの形態素解析ツールを用いて実行できる。

【0031】

なお、形態素解析の代わりに、ｎグラムの手法を用いてもよい。ｎグラムとは、ｎ文字（ｎは自然数）の単位で文字列を分解し、隣り合った文字の組み合わせから文字列を分析する手法である。

【0032】

また、出現単語抽出部２２は、抽出された単語から複合語を検索する機能を有する。出現単語抽出部２２は、たとえば、２～５単語を組み合わせて一語とした複合語を検出する。たとえば、「排気／ガス」という単語が抽出された場合には、「排気ガス」という複合語を検出し、「アダプティブ／クルーズ／コントロール」という単語が抽出された場合には、「アダプティブクルーズコントロール」（ＡＣＣ）という複合語を検出する。

【0033】

そして、出現単語抽出部２２は、入力データから抽出された単語、学習データから抽出された単語、処理基準データから抽出された単語、及びコーパスデータから抽出された単語を、それぞれ、ＲＡＭ１８３などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。

【0034】

ここで、出現単語抽出部２２にて処理した学習データが、以前に情報処理装置１７にて処理された入力データである場合は、抽出された単語についても、入力データとその処理結果との関連付けは維持される。たとえば、学習データが、車両の不具合情報を含む入力データを、後述の分類基準に従って分類したものであった場合は、出現単語抽出部２２にて抽出された単語についても、不具合の重要度に応じた分類結果、及び分類方法との関連付けは維持される。同様に、処理基準データを出現単語抽出部２２にて処理した場合にも、抽出された単語と分類基準との関連付けは維持される。たとえば、処理基準データが車両などの製品の不具合を重要度に応じて分類するための作業手順書である場合は、抽出された単語と重要度との関連付けは維持される。なお、すでに構造化されたコーパスデータを用いる場合には、必要に応じて、出現単語抽出部２２にてコーパスデータから出現単語を抽出する処理を省略できる。

【0035】

共起語抽出部２３は、出現単語抽出部２２にて抽出された各単語について、その単語と共によく出現する単語を抽出する機能を有する。共起語抽出部２３では、出現単語抽出部２２にて抽出された各単語について、同一のテキストデータにおいて、ある単語と共に出現する単語のうち出現頻度が高い単語を、その単語と共によく出現する単語として抽出する。出現頻度とは、抽出された単語の総数に対する、ある単語と共に出現する単語の出現回数の割合である。本明細書では、同一のテキストデータにおいて、ある単語と共によく出現する単語のことを「共起語」とも称する。

【0036】

出現単語抽出部２２にて抽出された単語から共起語を抽出するときは、たとえば、共起ネットワークを生成する。共起ネットワークとは、ある単語とその共起語について、テキストデータにおける出現頻度、出現するときの互いの距離などを可視化した図である。ある単語とその共起語との距離とは、ある単語とその共起語とが何単語離れて出現しているかを意味する。このような共起ネットワークは、たとえば"KH Coder"、"Text Mining Studio"などのプログラムを用いて生成することができる。

【0037】

共起語抽出部２３は、生成した共起ネットワークから共起語を抽出する場合に、ある単語と共ともに出現する単語のうち、出現頻度が所定値以上のものを共起語として抽出する。たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位５位～３０位の単語を共起語として抽出する。これに代えて、又はこれに加えて、共起語抽出部２３は、ある単語と共ともに出現する単語のうち、出現するときの互いの距離が所定距離以下のものを共起語として抽出する。たとえば、ある単語と共に出現する単語のうち、互いの距離が１単語～１０単語の単語を共起語として抽出する。出現頻度の所定値と、所定距離とは、出現単語抽出部２２にて単語の抽出処理をされたデータの種類と量に応じて、適宜の値を選択することができる。また、共起語抽出部２３により抽出される共起語の数は、単語ごとに異なっていてもよく、異なる単語について、同一の単語を共起語として抽出してもよい。

【0038】

共起語抽出部２３にて共起ネットワークを生成する場合は、テキストデータ以外の情報を用いてもよい。特に、出現単語抽出部２２にて学習データから抽出された単語が、以前の処理結果と関連付けられている場合は、共起語抽出部２３は、以前の処理結果に応じたグループごとに共起語を抽出することができる。たとえば、出現単語抽出部２２にて学習データから抽出された単語が、車両の不具合の重要度に応じた分類と関連付けられていた場合には、共起語抽出部２３は、不具合の重要度に応じた分類ごとに、共起語を抽出することができる。そして、共起語抽出部２３は、出現単語抽出部２２にて処理された元データに対応させて、入力データから抽出された共起語、学習データから抽出された共起語、処理基準データから抽出された共起語、及びコーパスデータから抽出された共起語を、それぞれ、ＲＡＭ１８３などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。この際に、抽出された共起語は、単語ごとにリスト化されてもよい。

【0039】

分類規則生成部２４は、出現単語抽出部２２にて抽出された単語、及び共起語抽出部２３にて抽出された共起語のうち少なくとも一方を用いて、入力データを処理する規則を生成する機能を有する。入力データを処理する規則とは、特に、入力されたデータを分類するための規則である。分類規則生成部２４は、出現単語抽出部２２にて抽出された単語、及び共起語抽出部２３にて抽出された共起語のうち少なくとも一方を用いて、データ取得部２１にて取得した入力データ、学習データ、処理基準データ、及びコーパスデータに含まれるテキストデータをベクトルで表現する。このベクトルで表現されたテキストデータが、情報処理装置１７にて入力データを処理する際に用いる規則となる。

【0040】

分類規則生成部２４は、入力データ、学習データ、処理基準データ、及びコーパスデータのうちどのデータを用いるか、また、出現単語抽出部２２にて抽出された単語、及び共起語抽出部２３にて抽出された共起語のどちらを用いるかを選択することで、複数の規則を生成することができる。これらの規則のうち、本実施形態では、特に、出現単語抽出部２２にて抽出された単語を用いて、処理基準データをベクトルで表現したものを第１規則と呼び、共起語抽出部２３にて抽出された、学習データの共起語を組み合わせ、得られた共起語の組み合わせをベクトルで表現したものを第２規則と呼ぶこととする。本実施形態では、第２規則の元データである学習データは、少なくとも、後述する第１分類部２６ａ又は第２分類部２６ｂにて分類された過去の入力データを含む。

【0041】

第１規則は、官公庁から公開されている文書、作業手順書、製品の注意書き又は使用マニュアルなど、予め決まっている所定の規則をベクトルで表現したものであるが、第２規則は、使用される学習データによって、生成されるベクトルが変化する。したがって、本実施形態の情報処理装置１７にて入力データの処理を行い、処理した入力データを、処理結果と関連付けた上で学習データとしてフィードバックすることで、第２規則を自動的に改善し、第２規則を用いてより適切に入力データを処理できるようになる。つまり、第２規則は、学習データを用いた機械学習により学習された規則である。以下、第１規則及び第２規則をどのように生成するについて説明する。

【0042】

第１規則の元データとなる処理基準データは、官公庁から公開されている文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き又は使用マニュアルなどであり、予め決まっている所定の規則である。官公庁から公開されている文書としては、たとえば、国土交通省からデータベースとして公開されている、自動車のリコール・不具合情報などが挙げられる。作業手順書としては、たとえば、ディーラーから寄せられた車両の不具合の情報を、重要度高、重要度中及び重要度低の３つの重要度に応じて分類するための基準が挙げられる。このような作業手順書には、たとえば、報告された不具合が、「車両の全てのドアが内側から開かない」に該当すれば、不具合を「重要度高」に分類し、不具合が「車両の一部のドアが内側から開けられない、又は開錠できない」に該当すれば、不具合を「重要度中」に分類し、不具合が「車両の一部のドアが外側から開かない、又は開錠できない」に該当すれば、不具合を「重要度低」に分類する旨、記載されている。製品の注意書き又は使用マニュアルとは、たとえば、製品がガスを使用するヘアスプレーである場合は、スプレー缶に記載された「製品を火気の近くに置かないこと、爆発破損のおそれあり」などの記載が該当する。

【0043】

第１規則を生成するために、分類規則生成部２４は、上述したような処理基準データから抽出された単語を出現単語抽出部２２から取得する。本実施形態では、この段階で、出現単語抽出部２２にてステミングの処理、ストップワードの削除、及び複合語の検索が実行されているものとする。抽出された単語は、テキストデータごと、又は文ごとにリスト化される。そして、抽出された単語を単語ラベルとして横方向に配置し、テキストデータ又は文ごとに、たとえば、出現した単語には１を、出現しない単語には０を付して、１行の行列を作成する。この単語ラベルが付された行列を単語ベクトルともいう。そして、この処理を各テキストデータ又は文ごとに行い、生成された各単語ベクトルを一つにまとめたものが第１規則となる。

【0044】

たとえば、上述した作業手順書であれば、「重要度高」に分類される「車両の全てのドアが内側から開かない」について、出現単語抽出部２２の形態素解析の機能により、「車両／の／全て／の／ドア／が／内側／から／開か／ない」と区切り、単語を抽出できる。これらの抽出した単語から、助詞である「の」、「が」及び「から」をストップワードとして削除する。「ない」は助動詞であり、ストップワードに該当し得るが、削除せずに、「開か（原型：開く）／ない」を複合語「開かない」として抽出する。これにより、「車両の全てのドアが内側から開かない」という処理基準データから「車両／全て／ドア／内側／開かない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度高」に分類するための、下表１の「高」の行に示す単語ベクトルを生成する。

【0045】

同様に、「重要度中」に分類される「車両の一部のドアが内側から開けられない、又は開錠できない」について、出現単語抽出部２２の形態素解析の機能により、「車両／の／一部／の／ドア／が／内側／から／開け／られ／ない／、／又は／開錠／でき／ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開け／られない」を複合語「開けられない」として、「開錠／でき／ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが内側から開けられない、又は開錠できない」という処理基準データから、「車両／一部／ドア／内側／開けられない／開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度中」に分類するための、下表１の「中」の行に示す単語ベクトルを生成する。

【0046】

同様に、「重要度低」に分類される「車両の一部のドアが外側から開かない、又は開錠できない」について、出現単語抽出部２２の形態素解析の機能により、「車両／の／一部／の／ドア／が／外側／から／開か／ない／、／又は／開錠／でき／ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開か／ない」を複合語「開かない」として、「開錠／でき／ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが外側から開かない、又は開錠できない」という処理基準データから、「車両／一部／ドア／外側／開かない／開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度低」に分類するための、下表１の「低」の行に示す単語ベクトルを生成する。

【0047】

【表1】

【0048】

このように、処理基準データを出現単語抽出部２２にて処理した場合にも、抽出された単語と分類基準との関連付けは維持されるため、各単語ベクトルと分類基準とを対応させることができる。

【0049】

これに対して、第２規則を生成するために、分類規則生成部２４は、学習データから抽出された共起語を共起語抽出部２３から取得する。分類規則生成部２４は、第２規則を生成する場合に、取得した共起語のリストから、共起関係の強い単語の組み合わせを抽出する。分類規則生成部２４は、たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位５位以内の単語で、互いの距離が５単語以下の単語の組み合わせを抽出する。当該抽出の条件は、抽出される組み合わせの数が情報処理装置１７の処理限界を超えない範囲内で、適宜の条件を設定できる。そして、抽出された単語を単語ラベルとして横方向に配置し、組み合わせとして抽出した単語には１を、それ以外の単語には０を付して、組み合わせごとに単語ベクトルを作成する。この処理を各組合せで行い、生成された各単語ベクトルを一つにまとめたものが第２規則となる。

【0050】

本実施形態では、抽出された共起語は単語ごとにリスト化されているものとし、取得した共起語は、以前の処理結果に応じたグループごとに抽出されるものとする。以前の処理結果に応じたグループごとに共起語を抽出することで、各単語ベクトルと処理結果とを対応させることができる。たとえば、第２規則を取得するために用いた共起語が、車両の不具合の重要度に応じたグループごと抽出されたものであれば、生成した単語ベクトルと、不具合の重要度とを対応させることができる。つまり、入力されたデータが、車両の不具合の情報を含む場合に、第２規則を、車両の不具合の重要度に対応した分類をするための規則とすることができる。

【0051】

たとえば、学習データに、過去に情報処理装置１７に入力され、第１分類部又は第２分類部にて「重要度高」と分類されたデータが含まれている場合に、分類規則生成部２４は、共起語抽出部２３にて抽出された共起語から、「重要度高」に分類されたデータの共起語を取得する。「重要度高」に分類されたデータの共起語が（ドア、前、右側、左側、異音、全部、開かない）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「ドア、異音、全部、開かない」を抽出する。そして、この組み合わせに含まれる単語を単語ラベルとして横方向に配置し、組み合わせに含まれる単語には１を、それ以外の単語には０を付して、１行の行列を作成する。組み合わせが「ドア、前、異音、全部、開かない」であれば、下表２の「高」の行に示す１行の行列、つまり単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度高」に分類される。

【0052】

同様に、過去に、第１分類部又は第２分類部にて「重要度中」と分類されたデータが学習データに含まれている場合に、分類規則生成部２４は、共起語抽出部２３にて抽出された共起語から、「重要度中」に分類されたデータの共起語を取得する。「重要度中」に分類されたデータの共起語が（車両、両側、ドア、変な音、後ろ、開かない）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「車両、ドア、変な音、後ろ、開かない」を抽出する。そして、この組み合わせから、下表２の「中」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度中」に分類される。

【0053】

同様に、過去に、第１分類部又は第２分類部にて「重要度低」に分類されたデータが学習データに含まれている場合に、分類規則生成部２４は、共起語抽出部２３にて抽出された共起語から、「重要度低」に分類されたデータの共起語を取得する。「重要度低」に分類されたデータの共起語が（車両、ドア、開けにくい、前、異音、後ろ）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「ドア、開けにくい、異音、後ろ」を抽出する。そして、この組み合わせから、下表２の「低」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度低」に分類される。

【0054】

【表2】

【0055】

このように、学習データの分類結果ごとに共起語を抽出するので、各単語ベクトルと分類基準とを対応させることができる。ここでは、入力されたデータが車両の不具合の情報を含む場合に、第１規則及び第２規則を、車両の不具合の重要度に対応した分類をするための規則にするときの処理を説明したが、分類基準は車両の不具合の重要度に限られず、車両の不具合が発生した場所、不具合が発生した車両の整備状態などでもよい。また、上記で説明した第１規則及び第２規則の生成方法は一例に過ぎず、他の方法を用いてもよい。

【0056】

類似度算出部２５は、情報処理装置１７に入力されたデータと、分類規則生成部２４にて生成された規則（つまり、一又は複数の単語ベクトル）の元となるデータとの類似度を算出する機能を有する。特に、本実施形態の類似度算出部２５は、入力データと、第１規則の元となる所定のデータ（つまり処理基準データ）との類似度である第１類似度を算出する第１類似度算出部と、入力データと、学習データとの類似度である第２類似度を算出する第２類似度算出部とを備える。第１類似度算出部及び第２類似度算出部における類似度の算出では、入力装置１１ａから入力されたデータから生成された単語ベクトルを用いることができる。入力データから単語ベクトルを生成する方法は、上述した、第１規則を生成する方法と同様である。たとえば、入力データが「車両の前側のドアが内側から開けられない。」と「全てのドアが外側から開かない。」であれば、形態素解析、ストップワードの削除、複合語の抽出を経て、下表３の単語ベクトルが生成される。

【0057】

【表3】

【0058】

類似度算出部２５にて算出される類似度とは、あるテキストデータと、ほかのテキストデータとがどの程度重複しているかを示す指標であり、たとえば０～１の範囲内の正の値をとる。類似度は、値が高いほど、比較対象のテキストデータ同士が類似し、値が低いほど、比較対象のテキストデータ同士が似ていないことを示す。たとえば、入力装置１１ａから入力されたデータに出現する単語のうち、所定の処理基準データに出現する単語と重複する単語の出現頻度を第１類似度として算出し、入力装置１１ａから入力されたデータに出現する単語のうち、学習データに出現する単語と重複する単語の出現頻度を第２類似度として算出する。このような重複する単語の出現頻度は、入力データから生成された単語ベクトルと、第１規則又は第２規則を構成する単語ベクトルとを比較することで算出できる。具体的には、入力データから生成された単語ベクトルの単語ラベルと、第１規則又は第２規則に付された単語ラベルとを比較し、重複する単語を抽出する。そして、抽出された重複する単語について、その出現頻度を類似度として算出する。

【0059】

これに代えて、入力データから生成された単語ベクトルと、第１規則又は第２規則の単語ベクトルとを比較し、単語ベクトルごとに類似度を算出してもよい。具体的には、入力データから生成された単語ベクトルと、第１規則又は第２規則の単語ベクトルとを比較し、単語ラベルの総数に対して、単語ベクトルの値（つまり０か１）が一致している数の割合を類似度として算出する。さらに、単語ベクトルごとの類似度の平均値を第１類似度又は第２類似度として算出してもよい。

【0060】

また、単語の意味を考慮して類似度を算出する場合には、単語の共起語同士を比較する。つまり、ある単語と、ほかの単語の意味が類似している場合には、ある単語の共起語と、ほかの単語の共起語も類似している。本実施形態では、コーパスデータから抽出された共起語リストを指標として用いることで、コーパスデータにおける、ある単語の共起語と、ほかの単語の共起語とを比較して、単語同士の意味の類似度を算出することができる。共起語同士の比較には、たとえば、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を用いることができる。Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数は、Ｊａｃｃａｒｄ係数とＳｉｍｐｓｏｎ係数を相加平均した指標のことであり、下記の式（１）にて表される。

【0061】

【数1】

【0062】

ここで、式（１）のｗ_１及びｗ_２は単語を表し、Ｊａｃｃａｒｄ（ｗ_１，ｗ_２）がＪａｃｃａｒｄ係数であり、Ｓｉｍｐｓｏｎ（ｗ_１，ｗ_２）がＳｉｍｐｓｏｎ係数である。

【0063】

具体的には、入力データから生成された単語ベクトルの単語ラベルと、第１規則又は第２規則の単語ラベルとを比較し、重複する単語を抽出する。次に、抽出された重複する単語について、コーパスデータから抽出された共起語リストを取得する。当該共起語リストは、共起語抽出部２３にて生成する。そして、重複する単語と、コーパスデータから抽出された共起語リストを用いて、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を算出する。

【0064】

一例として、入力データから生成された単語ベクトルの単語ラベル［エンジン，変な音，動作しない］と、第１規則又は第２規則の単語ラベル［エンジン，異音，動かない］との類似度をＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数として計算する。コーパスデータから抽出された共起語リストから、［変な音］と［異音］の類似度が０．７５、［動作しない］と［動かない］の類似度が０．６５であることが分かっているとすると、この場合のＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数は、（１．０＋０．７５＋０．６５）／３＝０．８となる。ここで、［エンジン］と［エンジン］は完全に一致するため、類似度を１として計算した。また、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数に代えて、コサイン類似度を用いて類似度を算出してもよい。

【0065】

入力データ分類部２６は、入力装置１１ａにより入力されたデータを規則に従って分類する機能を有する。特に、本実施形態の入力データ分類部２６は、入力されたデータを第１規則に従って分類する第１分類部２６ａと、入力されたデータを第２規則に従って分類する第２分類部２６ｂとを備える。上述したように、第１規則では、単語ベクトルと分類基準が関連付けられており、第２規則では、単語ベクトルと以前の処理結果が関連付けられている。そのため、第１分類部２６ａでは、入力されたデータの単語ベクトルと、第１規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた分類基準に従い入力データ分類することができる。同様に、第２分類部２６ｂでは、入力されたデータの単語ベクトルと、第２規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた以前の処理結果に従い入力データ分類することができる。

【0066】

本実施形態の入力データ分類部２６は、第１類似度算出部２５ａにて算出された類似度の値が、第２類似度算出部２５ｂにて算出された類似度の値以上である場合は、入力データを、第１分類部２６ａにて分類した後に、第１分類部２６ａにて分類されたデータの一部を、第２分類部２６ｂにて分類する。これに対して、第１類似度算出部２５ａにて算出された類似度の値が、第２類似度算出部２５ｂにて算出された類似度の値未満である場合は、入力データを、第２分類部２６ｂにて分類した後に、第２分類部２６ｂにて分類されたデータの一部を、第１分類部２６ａにて分類する。これにより、第１規則と第２規則で二重に分類する必要のない特徴的なデータ（たとえば重要度が高いデータ）について分類処理を簡略化でき、情報処理装置１７における処理時間を短縮することができる。

【0067】

たとえば、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを３つ又はそれ以上の群（たとえば、重要度高、重要度中、重要度低の３グループ）に分類するときは、第１分類部２６ａ及び第２分類部２６ｂの一方にて重要度高又は重要度中に分類されたデータは、第１分類部２６ａ及び第２分類部２６ｂの他方で分類しなくともよい。この場合、第１分類部２６ａ及び第２分類部２６ｂの他方では、重要度低に分類されたデータのみについて分類処理が実行される。

【0068】

なお、本実施形態の入力データ分類部２６では、第１類似度の値と第２類似度の値とを比較して、第１類似度の値が第２類似度の値以上である場合は、入力データを、第１分類部２６ａ→第２分類部２６ｂの順番で分類し、第１類似度の値が第２類似度の値未満である場合は、入力データを、第２分類部２６ｂ→第１分類部２６ａの順番で分類した、第１類似度の算出は本発明に必須の構成ではなく、必要に応じて省略することができる。たとえば、第２類似度の値を算出し、第２類似度の値が所定値以上である場合は、入力データを、第１分類部２６ａ→第２分類部２６ｂの順番で分類し、第２類似度の値が所定値未満である場合は、入力データを、第２分類部２６ｂ→第１分類部２６ａの順番で分類するようにしてもよい。類似度の当該所定値は、情報処理装置１７において入力されたデータが適切に処理される範囲内で適宜の値を設定することができる。

【0069】

表示画像生成部２７は、入力されたデータの処理状況について利用者に通知するために表示装置１６に表示する画像を生成する機能を有する。表示画像生成部２７にて生成される画像は、処理の進捗状況を示すものであっても、処理結果を示すものであってもよく、たとえば、第１分類部による分類の結果、第２分類部による分類の結果、第１類似度算出部により算出された類似度、及び第２類似度算出部により算出された類似度のうち少なくとも一つを含むものである。

【0070】

図２は、図１の表示装置１６に表示される画像の一例を示す図である。図２に示す画像は、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを３つのグループ、すなわち、重要度高、重要度中、重要度低の３グループに分類したときに表示装置１６に表示される画像である。図２（Ａ）は、分類処理の概要を示す第１表示画像３であり、図２（Ｂ）は、分類処理の詳細を示す第２表示画像４である。

【0071】

図２（Ａ）の第１表示画像３は、画像左上に表示の「重要度判定結果」のとおり、分類処理の結果として、判定された不具合の重要度を示す。第１表示画像３の左側には、「入力データ数」として「１０００件」と表示されており、情報処理装置１７に入力したデータの総数が表示されている。その下には、重要度高、重要度中及び重要度低の各グループについて、何件の入力データが該当したかが表示されている。図２（Ａ）の画像であれば、「重要度高」に「３００件」のデータが該当し、「重要度中」に「３００件」のデータが該当し、「重要度低」に「４００件」のデータが該当したことを示している。

【0072】

一方、第１表示画像３の右上には、「判定手法」として「Ｂ．機械学習モデル→Ａ．ルールベースモデル」と表示されている。この「判定手法」とは、第１分類部２６ａと第２分類部２６ｂのどちらで先にデータの処理を行ったかを示しており、「Ｂ．機械学習モデル→Ａ．ルールベースモデル」の場合は、第２分類部２６ｂにて、機械学習により学習された第２規則に従って分類された後に、第１分類部２６ａにて、所定の第１規則に従って分類されたことを示している。これに対して、「Ａ．ルールベースモデル→Ｂ．機械学習モデル」の場合は、第１分類部２６ａにて第１規則に従って分類された後に、第２分類部２６ｂにて第２規則に従って分類されたことを示している。また、第１表示画像３の右下には画像切替ボタン３１が表示されており、表示装置１６がタッチパネルであれば、画像切替ボタン３１にタッチすることで、表示画像が第１表示画像３から第２表示画像４に切り替わる。

【0073】

図２（Ｂ）の第２表示画像４は、画像上部に「判定手法」が表示されており、「Ｂ．機械学習モデル→Ａ．ルールベースモデル」の順番でデータを分類した根拠となる情報が表示されている。第２表示画像４には、左から順に「学習データ」、「入力データ」、「作業手順書」の単語ラベルを表示する欄が設けられている。ここで、作業手順書とは所定の第１規則を生成するときに用いた元データである。中央の欄には、入力されたデータについて、出現単語抽出部２２にて抽出された単語ラベルが、単語ベクトルごとに表示されている。単語ラベルのリストは上位３０個程度を表示するものとし、表示部分をスクロールすることで全ての単語ラベルを確認できるようになっている。

【0074】

入力データの左側の欄には、使用された学習データについて、分類規則生成部２４にて抽出された第２規則の単語ラベルが、単語ベクトルごとに表示されている。また、単語ベクトルごとに、入力データとの類似度が表示されており、入力データの欄の上部には、第２類似度として算出された類似度のうち最大の値が表示されている。図２（Ｂ）の場合であれば、第２類似度の最大値は０．９である。一方、入力データの右側の欄には、作業手順書について、分類規則生成部２４にて抽出された第１規則の単語ラベルが、単語ベクトルごとに表示されている。また、単語ベクトルごとに、入力データとの類似度が表示されており、入力データの欄の上部には、第１類似度として算出された類似度のうち最大の値が表示されている。図２（Ｂ）の場合であれば、第１類似度の最大値は０．８である。したがって、図２の場合では、第１類似度の値よりも第２類似度の値の方が大きいため、第２分類部２６ｂにて先に入力データを処理していることが分かる。

【0075】

データ出力部２８は、表示画像生成部２７にて生成された画像データを、表示装置１６に出力する機能を有する。これにより、表示装置１６に画像を表示して、情報処理システム１の利用者に、入力データの処理状況を通知することができる。

【0076】

［情報処理システムにおける処理］
図３を参照して、情報処理装置１７が情報を処理する際の手順を説明する。図３は、本実施形態の情報処理システム１における情報の処理を示すフローチャートの一例である。以下に説明する処理は、情報処理装置１７のプロセッサ１８により所定の時間間隔で実行される。

【0077】

まず、ステップＳ１にて、データ取得部２１の機能により、第１データベース１１～第４データベース１４の各データベースから必要なデータを取得する。続くステップＳ２にて、出現単語抽出部２２の機能により、形態素解析のツールなどを用いて、データ取得部２１にて取得したデータで使用されている単語を抽出する。たとえば、「全てのドアが内側から開かない」というデータから、形態素解析とストップワードの削除、複合語の抽出を経て、「車両／全て／ドア／内側／開かない」という単語を抽出する。続くステップＳ３にて、共起語抽出部２３の機能により、特に学習データ、処理基準データ、及びコーパスデータから抽出された単語について、共起ネットワークを生成して共起語を抽出する。続くステップＳ４にて、分類規則生成部２４の機能により、処理基準データから抽出された単語を用いて第１規則を生成し、学習データから抽出された共起語を用いて第２規則生成する。

【0078】

次に、ステップＳ５にて、類似度算出部２５の機能により、入力されたデータと規則の単語ベクトルとの類似度を算出する。具体的には、第１類似度算出部２５ａにて、入力されたデータと、第１規則の元となる所定の処理基準データとの類似度である第１類似度を算出し、第２類似度算出部２５ｂにて、入力されたデータと学習データとの類似度である第２類似度を算出する。続くステップＳ６にて、第１類似度と第２類似度とを比較し、第１類似度の値が第２類似度の値以上であるか否かを判定する。

【0079】

第１類似度の値が第２類似度の値以上であると判定された場合は、ステップＳ７ａに進む。ステップＳ７ａにて、第１分類部２６ａにより、入力されたデータを第１規則に従って分類し、続くステップＳ８ａにて、第１分類部２６ａにて分類されたデータの一部を、第２分類部２６ｂにより分類する。これに対して、第１類似度の値が第２類似度の値未満であると判定された場合は、ステップＳ７ｂに進む。ステップＳ７ｂにて、第２分類部２６ｂにより、入力されたデータを第２規則に従って分類し、続くステップＳ８ｂにて、第２分類部２６ｂにて分類されたデータの一部を、第１分類部２６ａにより分類する。

【0080】

これらの分類処理の結果は、続くステップＳ９にて処理され、表示画像生成部２７の機能により、表示装置１６に表示するための画像を生成する。生成された画像は、続くステップＳ１０にて、データ出力部２８の機能により、表示装置１６に出力される。そして、ステップＳ１１にて、データ出力部２８から出力された画像を表示装置１６に表示し、情報処理システム１の利用者に処理結果を通知する。

【0081】

［本発明の実施態様］
以上のとおり、本実施形態の情報処理装置１７によれば、入力されたデータを、所定のデータから生成された第１規則に従って分類する第１分類部２６ａと、前記入力されたデータを、学習データを用いた機械学習により学習された、前記第１規則と異なる第２規則に従って分類する第２分類部２６ｂと、前記入力されたデータと、前記所定のデータとの類似度を算出する第１類似度算出部２５ａと、前記入力されたデータと、前記学習データとの類似度を算出する第２類似度算出部２５ｂと、を備える情報処理装置１７において、前記学習データは、過去に入力され、前記第１分類部２６ａ又は前記第２分類部２６ｂにて分類されたデータを含み、前記第１類似度算出部２５ａにて算出された類似度の値が、前記第２類似度算出部２５ｂにて算出された類似度の値以上である場合は、前記入力されたデータを、前記第１分類部２６ａにて分類した後に、前記第１分類部２６ａにて分類されたデータの一部を、前記第２分類部２６ｂにて分類し、前記第１類似度算出部２５ａにて算出された類似度の値が、前記第２類似度算出部２５ｂにて算出された類似度の値未満である場合は、前記入力されたデータを、前記第２分類部２６ｂにて分類した後に、前記第２分類部２６ｂにて分類されたデータの一部を、前記第１分類部２６ａにて分類する。これにより、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる。また、第１規則と第２規則で二重に分類する必要のない特徴的なデータ（たとえば重要度が高いデータ）について分類処理を簡略化でき、情報処理装置１７における処理時間を短縮することができる。

【0082】

また、本実施形態の情報処理装置１７によれば、前記入力されたデータ及び前記学習データのうち少なくとも一つは、自然言語で記載されたテキストデータを含む。これにより、シミュレーションなどの計算手法で直接的に処理することのできないデータを処理することができる。

【0083】

また、本実施形態の情報処理装置１７によれば、第１類似度算出部２５ａは、前記入力されたデータに出現する単語のうち、前記所定のデータに出現する単語と重複する単語の出現頻度を類似度として算出する。これにより、第２規則で分類するデータ量を抑制でき、情報処理装置１７における処理時間を短縮することができる。

【0084】

また、本実施形態の情報処理装置１７によれば、第２類似度算出部２５ｂは、前記入力されたデータに出現する単語のうち、前記学習データに出現する単語と重複する単語の出現頻度を類似度として算出する。これにより、第１規則で分類するデータ量を抑制でき、情報処理装置１７における処理時間を短縮することができる。

【0085】

また、本実施形態の情報処理装置１７によれば、前記第１類似度算出部２５ａ及び前記第２類似度算出部２５ｂは、それぞれ、前記入力されたデータから生成された単語ベクトルを用いて前記類似度を算出する。これにより、シミュレーションなどの計算手法で直接的に処理することのできない自然言語のデータを処理することができる。

【0086】

また、本実施形態の情報処理装置１７によれば、前記第１類似度算出部２５ａ及び前記第２類似度算出部２５ｂのそれぞれは、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を用いて前記類似度を算出する。これにより、類似度をより正確に算出できる。

【0087】

また、本実施形態の情報処理装置１７によれば、前記第２規則は、共起ネットワークを用いた機械学習により学習された規則である。これにより、第２規則をより効果的に学習させることができる。

【0088】

また、本実施形態の情報処理装置１７によれば、前記第１分類部及び前記第２分類部は、前記入力されたデータを少なくとも３つの群に分類する。これにより、入力データに則した分類を実現できる。

【0089】

また、本実施形態の情報処理装置１７によれば、前記入力されたデータは、車両の不具合の情報を含み、前記第１規則及び前記第２規則は、前記不具合の重要度に対応した分類をするための規則である。これにより、不具合の重要度に応じて、入力データを分類できる。

【0090】

また、本実施形態の情報処理装置１７によれば、前記第１分類部２６ａによる分類の結果、前記第２分類部２６ｂによる分類の結果、前記第１類似度算出部２５ａにより算出された類似度、及び前記第２類似度算出部２５ｂにより算出された類似度のうち少なくとも一つを表示する表示装置１６をさらに備える。これにより、情報処理システム１の利用者に、入力データの処理状況を通知することができる。

【0091】

また、本実施形態の情報処理方法によれば、入力されたデータを、所定のデータから生成された第１規則と、学習データを用いた機械学習により学習された、前記第１規則と異なる第２規則とを用いて分類する場合に、前記学習データは、前記第１規則と前記第２規則とを用いて分類された、過去に入力されたデータを含み、前記入力されたデータと、前記所定のデータとの類似度である第１類似度を算出し、前記入力されたデータと、前記学習データとの類似度である第２類似度を算出し、前記第１類似度の値が前記第２類似度の値以上である場合は、前記入力されたデータを、前記第１規則に従って分類した後に、前記第１規則に従って分類されたデータの一部を、前記第２規則に従って分類し、前記第１類似度の値が前記第２類似度の値未満である場合は、前記入力されたデータを、前記第２規則に従って分類した後に、前記第２規則に従って分類されたデータの一部を、前記第１規則に従って分類する。これにより、処理する入力データが、過去の入力データと類似しない場合でも、入力データを適切に処理することができる。また、第１規則と第２規則で二重に分類する必要のない特徴的なデータ（たとえば重要度が高いデータ）について分類処理を簡略化でき、処理に要する時間を短縮することができる。

【符号の説明】

【0092】

１…情報処理システム
１１…第１データベース（入力データ）
１１ａ…入力装置
１２…第２データベース（学習データ）
１２ａ…サーバー
１３…第３データベース（処理基準データ）
１４…第４データベース（コーパスデータ）
１５…通信装置
１６…表示装置
１７…情報処理装置
１８…プロセッサ
１８１…ＣＰＵ
１８２…ＲＯＭ
１８３…ＲＡＭ
２…入力データ処理部
２１…データ取得部
２２…出現単語抽出部
２３…共起語抽出部
２４…分類規則生成部
２５…類似度算出部
２５ａ…第１類似度算出部
２５ｂ…第２類似度算出部
２６…入力データ分類部
２６ａ…第１分類部
２６ｂ…第２分類部
２７…表示画像生成部
２８…データ出力部
３…第１表示画像
３１…画像切替ボタン
４…第２表示画像

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版