特開2022-162650 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧 ▶ ルノー　エス．ア．エス．の特許一覧

特開2022-162650情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022162650

(43)【公開日】2022-10-25

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06Q 10/00 20120101AFI20221018BHJP

G06N 5/04 20060101ALI20221018BHJP

G06N 20/00 20190101ALI20221018BHJP

G06F 16/36 20190101ALI20221018BHJP

【ＦＩ】

G06Q10/00 300

G06N5/04

G06N20/00

G06F16/36

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021067550

(22)【出願日】2021-04-13

(71)【出願人】

【識別番号】000003997

【氏名又は名称】日産自動車株式会社

(71)【出願人】

【識別番号】507308902

【氏名又は名称】ルノーエス．ア．エス．

【氏名又は名称原語表記】ＲＥＮＡＵＬＴＳ．Ａ．Ｓ．

【住所又は居所原語表記】１２２－１２２ｂｉｓ，ａｖｅｎｕｅｄｕＧｅｎｅｒａｌＬｅｃｌｅｒｃ，９２１００Ｂｏｕｌｏｇｎｅ－Ｂｉｌｌａｎｃｏｕｒｔ，Ｆｒａｎｃｅ

(74)【代理人】

【識別番号】110000486

【氏名又は名称】とこしえ特許業務法人

(72)【発明者】

【氏名】堀畑友希

(72)【発明者】

【氏名】広瀬悟

【テーマコード（参考）】

5B175

5L049

【Ｆターム（参考）】

5B175DA01

5B175FA03

5B175HB03

5L049CC15

(57)【要約】（修正有）

【課題】入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制できる情報処理装置及び情報処理方法を提供する。
【解決手段】情報処理システム１は、少なくとも一つのデータベースと、入力されたデータを処理する電子計算機とを備える情報処理システム１であって、第１データベース１１、第２データベース１２、第３データベース１３、第４データベース１４、通信装置１５、表示装置１６及び情報処理装置１７を含む。情報処理装置１７は、第１データベース１１から取得した入力データを、第２データベース１２から取得した学習データ、第３データベース１３から取得した処理基準データ及び第４データベース１４から取得したコーパスデータを用いて処理し、表示装置１６を用いて処理結果を利用者に通知する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力されたデータを分類するための第１規則を生成するときに用いる所定のデータと、前記第１規則を更新するための参照データとの類似度を算出する類似度算出部、
前記類似度算出部にて算出された前記類似度が所定値以上である前記参照データを用いて前記第１規則を更新する規則更新部、及び
前記入力されたデータを、更新された前記第１規則と、前記第１規則と異なる、学習データを用いた機械学習により学習された第２規則とを用いて分類する入力データ分類部を備える、情報処理装置。

【請求項2】

前記類似度は、前記所定のデータに含まれるテキストデータの文と、前記参照データに含まれるテキストデータの文との類似度、及び／又は前記所定のデータに含まれるテキストデータの単語と、前記参照データに含まれるテキストデータの単語との類似度である、請求項１に記載の情報処理装置。

【請求項3】

前記学習データは、過去に入力され、前記入力データ分類部にて分類されたデータを含む、請求項１又は２のいずれか一項に記載の情報処理装置。

【請求項4】

前記参照データは、前記入力されたデータ及び前記学習データのうち少なくとも一つを含む、請求項１～３のいずれか一項に記載の情報処理装置。

【請求項5】

前記規則更新部は、前記第２規則を、更新された前記第１規則に従って前記入力データ分類部により分類されたデータを用いて学習させる、請求項１～４のいずれか一項に記載の情報処理装置。

【請求項6】

更新された前記第１規則は、前記規則更新部にて、前記類似度が所定値以上である前記参照データを用いて生成された新たな規則を含む、請求項１～５のいずれか一項に記載の情報処理装置。

【請求項7】

更新された前記第１規則は、前記参照データから抽出された、前記第１規則に含まれる単語と共に所定頻度以上の頻度で出現する単語を用いて生成された新たな規則を含む、請求項１～６のいずれか一項に記載の情報処理装置。

【請求項8】

前記類似度、前記類似度が所定値以上である参照データ、更新された前記第１規則、及び更新された前記第１規則の更新された部分のうち少なくとも一つを表示する表示装置をさらに備える、請求項１～７のいずれか一項に記載の情報処理装置。

【請求項9】

入力されたデータを、所定のデータから生成された第１規則と、前記第１規則と異なる、学習データを用いた機械学習により学習された第２規則とを用いて分類する情報処理方法において、
前記所定のデータと、前記第１規則を更新するための参照データとの類似度を算出し、
前記類似度が所定値以上である前記参照データを用いて前記第１規則を更新し、
前記入力されたデータを、更新された前記第１規則と、前記第２規則とを用いて分類する、情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、各種データを処理するための情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

診断対象から得られた診断用データを予め定められたルールに従って診断し、これとは別に、診断用データを用いた機械学習により学習されたルールに従って診断用データを診断し、それぞれの診断結果を照合して不一致の結果を抽出し、抽出された不一致の診断結果を用いて、予め定められたルールを更新する診断システムが知られている（特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２０１７／０８１９８４号

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記従来技術では、診断結果が不一致の場合は、予め定められたルールによる診断結果と、機械学習により学習されたルールによる診断結果とを一致させるために、予め定められたルールを変更する。したがって、上記従来技術では、予め定められたルールによる診断結果は適切であるが、機械学習により学習されたルールによる診断結果が不適切である場合には、適切な診断結果が得られている予め定められたルールを、不適切な診断結果しか得られないものに変更してしまうおそれがある。これにより、診断システムのデータ処理精度が低下するという問題がある。

【0005】

本発明が解決しようとする課題は、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制できる情報処理装置及び情報処理方法を提供することである。

【課題を解決するための手段】

【0006】

本発明は、入力されたデータを、所定のデータから生成された第１規則と、第１規則と異なる、学習データを用いた機械学習により学習された第２規則とを用いて分類する場合に、所定のデータと、第１規則を更新するための参照データとの類似度を算出し、類似度が所定値以上である参照データを用いて第１規則を更新し、入力されたデータを、更新された第１規則と、第２規則とを用いて分類することによって上記課題を解決する。

【発明の効果】

【0007】

本発明によれば、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制することができる。

【図面の簡単な説明】

【0008】

【図1】本発明に係る情報処理装置を含む情報処理システムを示すブロック図である。

【図2】図１の表示装置に表示される画像の一例である。

【図3】図１の情報処理システムにおける処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態を図面に基づいて説明する。

【0010】

［情報処理システム］
図１は、本発明に係る情報処理システム１を示すブロック図である。図１に示す情報処理システム１は、たとえば、ウェブサイトやソーシャル・ネットワーキング・サービス（ＳＮＳ）に投稿された文章、社内イントラネットの電子掲示板への書込み、及び製品を販売した販売店から製造元に寄せられた製品の修理報告書などから、市場における製品の不具合情報を取得し、取得した情報をその重要度に応じて自動的に分類する場合に用いることができる。

【0011】

情報処理システム１は、少なくとも一つのデータベースと、入力されたデータを処理する電子計算機とを備えるシステムである。図１に示すように、情報処理システム１は、第１データベース１１、第２データベース１２、第３データベース１３、第４データベース１４、通信装置１５、表示装置１６、及び情報処理装置１７を含む。第１データベース１１には、情報処理装置１７に入力され、処理される入力データが格納され、第２データベース１２には、情報処理装置１７にて実行される機械学習に用いる学習データが格納され、第３データベース１３には、情報処理装置１７に入力されたデータを処理する（たとえば分類する）ための所定の基準を示す処理基準データが格納され、第４データベース１４には、情報処理装置１７における処理で用いるコーパスデータが格納されている。

【0012】

第１データベース１１に格納された入力データは、自然言語で記載されたテキストデータであれば特に限定されない。テキストデータとしては、たとえば、ウェブサイトやＳＮＳへの投稿文章、イントラネットの電子掲示板への書込み、社内システムへの入力情報、製品を販売した販売店から製造元に寄せられた製品の修理報告書などが挙げられる。本実施形態の入力データは、特に、車両を販売したディーラーから、車両を製造した自動車会社に送られる品質報告書（テクニカル・レポート）を含む。品質報告書には、少なくとも、販売した車両の市場における不具合の情報、たとえば、不具合の発生箇所、不具合の状態、不具合の発生原因と対策、不具合が発生した車両の整備状態と修理履歴、不具合発生日時と対応日時などが含まれている。

【0013】

また、第１データベース１１に格納されたデータには、後述する分類規則生成部２４にて生成された規則を規則更新部２６にて更新するための参照データも含まれる。参照データとは、後述する第１規則を更新するために用いることができるデータであり、過去に入力され、入力データ分類部２７にて分類されたデータとその分類結果、本実施形態と同様の分類機能を有する別の情報処理装置にて分類されたデータ、重要度に応じた車両の不具合の分類について、日本の分類に対応する諸外国の分類基準などが該当する。

【0014】

第２データベース１２に格納された学習データは、情報処理装置１７にて実行される機械学習に用いることができるデータであれば特に限定されず、たとえば、国土交通省などから公開されている、車両や安全に関する法令、ガイドラインなどの文書を含むテキストデータである。また、学習データには、以前に情報処理装置１７にて処理された入力データが含まれる。この場合に、学習データは、過去に入力され、情報処理装置１７にて処理されたデータと、少なくともそのときの処理結果とを含み、これらの情報が関連付けられて第２データベース１２に格納されている。たとえば、車両の不具合情報を含む入力データを、後述する分類基準に従って、又は情報処理装置１７にて機械学習により学習された規則に従って分類した場合には、入力データと、不具合の重要度に応じた入力データの分類結果と、分類方法とが関連付けられ、学習データとして第２データベース１２に格納されることになる。

【0015】

第３データベース１３に格納された処理基準データは、情報処理装置１７にて入力データを処理する際に用いる基準を規定するデータであり、たとえば、情報処理装置１７に入力されたデータを分類するときに用いる分類基準を示すデータである。処理基準データは、自然言語で記載された文章、数学記号で記載された数式などのテキストデータであり、国土交通省などから公開されている、法令や安全基準などに関する文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き、製品の使用マニュアルなどが挙げられる。

【0016】

第４データベース１４に格納されたコーパスデータは、情報処理装置１７における処理、特に機械学習によって何らかの規則を学習する際に用いるコーパスのデータである。コーパスとは、入力データを分析する際の対象となる構造化された資料集であり、文字で記された資料や録音された言語資料の集合体である。コーパスの種類は特に限定されず、たとえば、単に文書を集めた生コーパス、様々な種類の文書をバランスよく取集した均衡コーパス、品詞や統語構造などを付与してあるタグ付きコーパス、ある言語のテキストとその翻訳テキストを対応させたパラレルコーパスなどが挙げられる。例として、入力データが日本語であれば、現代日本語書き言葉均衡コーパス（ＢＣＣＷＪ）、日本語話し言葉コーパス（ＣＳＪ）などを用いることができ、入力データが英語であれば、Corpus of Contemporary American English（ＣＯＣＡ）などを用いることができる。

【0017】

第１データベース１１は、有線又は無線ＬＡＮなどの公知の手段により、入力装置１１ａとデータの授受が可能な状態で接続されており、情報処理システム１の利用者は、情報処理装置１７で処理するデータを、入力装置１１ａを用いて第１データベース１１に入力する。入力装置１１ａは、情報処理システム１の利用者が、情報処理装置１７で処理するデータを第１データベース１１に入力するための装置であり、たとえば、ディスプレイと接続されたキーボード、マイク、タッチパネルなどである。入力装置１１ａは、第１データベース１１と共に設けられていてもよいし、情報処理システム１の利用者の便宜に応じて、第１データベース１１及び／又は情報処理装置１７から離れた場所に設けられていてもよい。

【0018】

また、図１に示すように、第１データベース１１は、有線又は無線ＬＡＮなどの公知の通信手段よって通信装置１５と接続しており、情報処理装置１７は、通信装置１５を介して、第１データベース１１に格納された入力データを取得する。通信装置１５は、情報処理装置１７と外部の機器との間でデータを授受するための装置であり、インターネットなどのネットワークを介して他の機器との通信が可能な通信装置であれば特に限定されない。なお、図１に示す通信装置１５は一つであるが、通信装置１５の数は特に限定されず、複数個の通信装置１５を用いてもよい。複数個の通信装置１５を用いる場合は、情報処理システム１に含まれる各機器と通信装置１５との接続関係は特に限定されない。

【0019】

また、図１の情報処理システム１では、第１データベース１１と同様に、第２データベース１２、第３データベース１３及び第４データベース１４も通信装置１５と接続している。情報処理装置１７は、通信装置１５を介して、第２データベース１２から学習データを取得し、第３データベース１３から処理基準データを取得し、第４データベース１４からコーパスデータを取得する。これらのデータベースは、情報処理装置１７と共に設けられている必要はなく、第１データベース１１、第２データベース１２、第３データベース１３及び第４データベース１４のうち少なくとも一つは、たとえば図２に示すサーバー１２ａのように、情報処理装置１７から離れた場所に設けられていてもよい。

【0020】

さらに、情報処理装置１７は、表示装置１６とも接続しており、情報処理装置１７にて行われた入力データの処理結果は、表示装置１６に表示される。表示装置１６は、情報処理装置１７に入力されたデータの処理状況を利用者に通知するための装置であり、例として、液晶ディスプレイ、プロジェクターなどが挙げられる。図１の表示装置１６は、データの授受が可能な状態で情報処理装置１７と接続しているが、接続方法は特に限定されず、有線又は無線ＬＡＮなどの公知の通信手段を用いることができる。また、表示装置１６は、情報処理装置１７と共に設けられていてもよいし、情報処理システム１の利用者の便宜に応じて、通信装置１５と接続し、情報処理装置１７から離れた場所に設けられていてもよい。

【0021】

情報処理装置１７は、第１データベース１１から取得した入力データを、第２データベース１２から取得した学習データ、第３データベース１３から取得した処理基準データ、及び第４データベース１４から取得したコーパスデータを用いて処理し、表示装置１６を用いて処理結果を利用者に通知するための装置である。情報処理装置１７は、入力されたデータの処理と、利用者への処理結果の通知を、プロセッサ１８により実現する。プロセッサ１８は、プログラムが格納されたＲＯＭ（Read Only Memory）１８２と、ＲＯＭ１８２に格納されたプログラムを実行することで、情報処理装置１７として機能するための動作回路であるＣＰＵ（Central Processing Unit）１８１と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）１８３とを備える。

【0022】

［入力データ処理部］
本実施形態の情報処理装置１７で用いるプログラムは、入力されたデータの処理と、利用者への処理結果の通知とを情報処理装置１７によって実現するための機能ブロックである入力データ処理部２を含む。入力データ処理部２は、各データベース１１～１４から必要なデータを取得し、入力されたデータをある規則に従って分類し、分類結果を、表示装置１６を介して利用者に通知する機能を有する。入力データ処理部２は、図１に示すように、データ取得部２１、出現単語抽出部２２、共起語抽出部２３、分類規則生成部２４、類似度算出部２５、規則更新部２６、入力データ分類部２７、表示画像生成部２８、及びデータ出力部２９を備える。図１には、各部を便宜的に抽出して示す。

【0023】

図１に示す情報処理装置１７は上記の機能ブロックを全て備えるが、単一の情報処理装置１７が全ての機能ブロックを備える必要はなく、上記の機能ブロックのうち一部のものを、情報処理システム１に含まれる他の機器、又は図示しない別の情報処理装置に設けてもよい。たとえば、図１の情報処理システム１において、表示画像生成部２８を表示装置１６に設けてもよい。この場合には、表示装置１６のＣＰＵ、ＲＯＭ、及びＲＡＭを用いて表示画像生成部２８の機能が実行されることになる。

【0024】

また、各機能ブロックの処理の全てを単一の情報処理装置にて実行する必要はなく、データが授受できる状態で接続された複数の情報処理装置をまたいで、各機能ブロックの機能を実現してもよい。たとえば、図１の情報処理システム１において、出現単語抽出部２２にて実行される処理のうち、一部の処理をサーバー１２ａにて実行し、残りの処理を情報処理装置１７にて実行するようにしてもよい。この場合には、サーバー１２ａのＣＰＵ、ＲＯＭ、及びＲＡＭを用いて、出現単語抽出部２２の機能を実現するための処理の一部が行われることになる。また、ほかの例として、共起語抽出部２３及び分類規則生成部２４についても、各機能ブロックにて実行される処理のうち、一部の処理をサーバー１２ａにて実行し、残りの処理を情報処理装置１７にて実行するようにしてもよい。

【0025】

以下、入力データ処理部２の各機能ブロックが果たす機能について説明する。

【0026】

データ取得部２１は、第１データベース１１に格納された入力データ、第２データベース１２に格納された学習データ、第３データベース１３に格納された処理基準データ、及び第４データベース１４に格納されたコーパスデータを、必要に応じて取得する機能を有する。また、本実施形態のデータ取得部２１は、参照データとして第１データベース１１に格納されたデータを取得する。データ取得部２１により取得されたデータは、以下に説明する他の機能ブロックにて用いられる。

【0027】

出現単語抽出部２２は、データ取得部２１により取得されたデータに出現する単語を抽出する機能を有する。出現単語抽出部２２は、特に、第１データベース１１の入力データと参照データ、第２データベース１２の学習データ、第３データベース１３の処理基準データ、及び第４データベース１４のコーパスデータに含まれるテキストデータで使用されている単語を抽出する機能を有する。出現単語抽出部２２にて処理するテキストデータが、英語、ドイツ語、フランス語などのように、単語と単語の間にスペース（空白）を入れて単語を区切るように記載する（分かち書きする）印欧語である場合は、出現単語抽出部２２は、スペースで区切られた単語をそのまま抽出し、単語ごとに品詞などのタグを付す。

【0028】

出現単語抽出部２２は、必要に応じて、抽出された単語についてステミングを行い、抽出された単語からストップワードを削除する。ステミングとは、ある単語とその派生語について、全て同一の素性とみなすための処理である。たとえば、英語の動詞"run"について、テキストデータにて"ran"、"running"などの変化形が出現した場合には、これらの変化形は全て"run"と同じ素性とみなす。ストップワードとは、どのような話題の文書にも出現する単語で、話題の種類と関連を持たないと考えられる単語のことである。例として、"the"、"is"、"have"、"take"、"get"などの基本単語が挙げられる。これらの処理は、たとえば、プログラミング言語"Python"にて" termextract"などのモジュールを用いることで実行できる。

【0029】

これに対して、出現単語抽出部２２にて処理するテキストデータが、日本語、中国語、タイ語などのように、分かち書きをしない言語である場合には、出現単語抽出部２２は、テキストデータについて形態素解析を行う。形態素とは、意味を持つ最小の言語単位であり、本実施形態において、形態素解析とは、テキストデータにおいて単語の区切りを判定し、区切られた単語ごとにその品詞などを判別することをいうものとする。たとえば、「エンジンから変な音がして動作しない。」という文であれば、形態素解析により、「エンジン／から／変／な／音／が／して／動作／し／ない／。」と区切ることができ、区切られた各単語について、その読み、原型、品詞、活用形などを判別する。これらの区切られた各単語から、必要に応じて、助詞や助動詞などのストップワードを削除してもよい。このような処理は、たとえば、" MeCab"、" JUMAN"、" ChaSen"などの形態素解析ツールを用いて実行できる。

【0030】

なお、形態素解析の代わりに、ｎグラムの手法を用いてもよい。ｎグラムとは、ｎ文字（ｎは自然数）の単位で文字列を分解し、隣り合った文字の組み合わせから文字列を分析する手法である。

【0031】

また、出現単語抽出部２２は、抽出された単語から複合語を検索する機能を有する。出現単語抽出部２２は、たとえば、２～５単語を組み合わせて一語とした複合語を検出する。たとえば、「排気／ガス」という単語が抽出された場合には、「排気ガス」という複合語を検出し、「アダプティブ／クルーズ／コントロール」という単語が抽出された場合には、「アダプティブクルーズコントロール」（ＡＣＣ）という複合語を検出する。

【0032】

そして、出現単語抽出部２２は、入力データから抽出された単語、学習データから抽出された単語、処理基準データから抽出された単語、及びコーパスデータから抽出された単語を、それぞれ、ＲＡＭ１８３などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。

【0033】

ここで、出現単語抽出部２２にて処理した学習データが、以前に情報処理装置１７にて処理された入力データである場合は、抽出された単語についても、入力データとその処理結果との関連付けは維持される。たとえば、学習データが、車両の不具合情報を含む入力データを、後述の分類基準に従って分類したものであった場合は、出現単語抽出部２２にて抽出された単語についても、不具合の重要度に応じた分類結果、及び分類方法との関連付けは維持される。同様に、処理基準データを出現単語抽出部２２にて処理した場合にも、抽出された単語と分類基準との関連付けは維持される。たとえば、処理基準データが車両などの製品の不具合を重要度に応じて分類するための作業手順書である場合は、抽出された単語と重要度との関連付けは維持される。なお、すでに構造化されたコーパスデータを用いる場合には、必要に応じて、出現単語抽出部２２にてコーパスデータから出現単語を抽出する処理を省略できる。

【0034】

共起語抽出部２３は、出現単語抽出部２２にて抽出された各単語について、その単語と共によく出現する単語を抽出する機能を有する。共起語抽出部２３では、出現単語抽出部２２にて抽出された各単語について、同一のテキストデータにおいて、ある単語と共に出現する単語のうち出現頻度が高い単語を、その単語と共によく出現する単語として抽出する。出現頻度とは、抽出された単語の総数に対する、ある単語と共に出現する単語の出現回数の割合である。本明細書では、同一のテキストデータにおいて、ある単語と共によく出現する単語のことを「共起語」とも称する。

【0035】

出現単語抽出部２２にて抽出された単語から共起語を抽出するときは、たとえば、共起ネットワークを生成する。共起ネットワークとは、ある単語とその共起語について、テキストデータにおける出現頻度、出現するときの互いの距離などを可視化した図である。ある単語とその共起語との距離とは、ある単語とその共起語とが何単語離れて出現しているかを意味する。このような共起ネットワークは、たとえば"KH Coder"、"Text Mining Studio"などのプログラムを用いて生成することができる。

【0036】

共起語抽出部２３は、生成した共起ネットワークから共起語を抽出する場合に、ある単語と共ともに出現する単語のうち、出現頻度が所定値以上のものを共起語として抽出する。たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位５位～３０位の単語を共起語として抽出する。これに代えて、又はこれに加えて、共起語抽出部２３は、ある単語と共ともに出現する単語のうち、出現するときの互いの距離が所定距離以下のものを共起語として抽出する。たとえば、ある単語と共に出現する単語のうち、互いの距離が１単語～１０単語の単語を共起語として抽出する。出現頻度の所定値と、所定距離とは、出現単語抽出部２２にて単語の抽出処理をされたデータの種類と量に応じて、適宜の値を選択することができる。また、共起語抽出部２３により抽出される共起語の数は、単語ごとに異なっていてもよく、異なる単語について、同一の単語を共起語として抽出してもよい。

【0037】

共起語抽出部２３にて共起ネットワークを生成する場合は、テキストデータ以外の情報を用いてもよい。特に、出現単語抽出部２２にて学習データから抽出された単語が、以前の処理結果と関連付けられている場合は、共起語抽出部２３は、以前の処理結果に応じたグループごとに共起語を抽出することができる。たとえば、出現単語抽出部２２にて学習データから抽出された単語が、車両の不具合の重要度に応じた分類と関連付けられていた場合には、共起語抽出部２３は、不具合の重要度に応じた分類ごとに、共起語を抽出することができる。そして、共起語抽出部２３は、出現単語抽出部２２にて処理された元データに対応させて、入力データから抽出された共起語、学習データから抽出された共起語、処理基準データから抽出された共起語、及びコーパスデータから抽出された共起語を、それぞれ、ＲＡＭ１８３などの記憶部に個別に記憶しておき、必要に応じて、他の機能ブロックに出力する。この際に、抽出された共起語は、単語ごとにリスト化されてもよい。

【0038】

分類規則生成部２４は、出現単語抽出部２２にて抽出された単語、及び共起語抽出部２３にて抽出された共起語のうち少なくとも一方を用いて、入力データを処理する規則を生成する機能を有する。入力データを処理する規則とは、特に、入力されたデータを分類するための規則である。分類規則生成部２４は、出現単語抽出部２２にて抽出された単語、及び共起語抽出部２３にて抽出された共起語のうち少なくとも一方を用いて、データ取得部２１にて取得した入力データ、学習データ、処理基準データ、及びコーパスデータに含まれるテキストデータをベクトルで表現する。このベクトルで表現されたテキストデータが、情報処理装置１７にて入力データを処理する際に用いる規則となる。

【0039】

分類規則生成部２４は、入力データ、学習データ、処理基準データ、及びコーパスデータのうちどのデータを用いるか、また、出現単語抽出部２２にて抽出された単語、及び共起語抽出部２３にて抽出された共起語のどちらを用いるかを選択することで、複数の規則を生成することができる。これらの規則のうち、本実施形態では、特に、出現単語抽出部２２にて抽出された単語を用いて、処理基準データをベクトルで表現したものを第１規則と呼び、共起語抽出部２３にて抽出された、学習データの共起語を組み合わせ、得られた共起語の組み合わせをベクトルで表現したものを第２規則と呼ぶこととする。本実施形態では、第２規則の元データである学習データは、少なくとも、後述する第１分類部２７ａ又は第２分類部２７ｂにて分類された過去の入力データを含む。

【0040】

第１規則は、官公庁から公開されている文書、作業手順書、製品の注意書き又は使用マニュアルなど、予め決まっている所定の規則をベクトルで表現したものであるが、第２規則は、使用される学習データによって、生成されるベクトルが変化する。したがって、本実施形態の情報処理装置１７にて入力データの処理を行い、処理した入力データを、処理結果と関連付けた上で学習データとしてフィードバックすることで、第２規則を自動的に改善し、第２規則を用いてより適切に入力データを処理できるようになる。つまり、第２規則は、学習データを用いた機械学習により学習された規則である。以下、第１規則及び第２規則をどのように生成するについて説明する。

【0041】

第１規則の元データとなる処理基準データは、官公庁から公開されている文書、車両などの製品の不具合を重要度に応じて分類するための作業手順書、製品の注意書き又は使用マニュアルなどであり、予め決まっている所定の規則である。官公庁から公開されている文書としては、たとえば、国土交通省からデータベースとして公開されている、自動車のリコール・不具合情報などが挙げられる。作業手順書としては、たとえば、ディーラーから寄せられた車両の不具合の情報を、重要度高、重要度中及び重要度低の３つの重要度に応じて分類するための基準が挙げられる。このような作業手順書には、たとえば、報告された不具合が、「車両の全てのドアが内側から開かない」に該当すれば、不具合を「重要度高」に分類し、不具合が「車両の一部のドアが内側から開けられない、又は開錠できない」に該当すれば、不具合を「重要度中」に分類し、不具合が「車両の一部のドアが外側から開かない、又は開錠できない」に該当すれば、不具合を「重要度低」に分類する旨、記載されている。製品の注意書き又は使用マニュアルとは、たとえば、製品がガスを使用するヘアスプレーである場合は、スプレー缶に記載された「製品を火気の近くに置かないこと、爆発破損のおそれあり」などの記載が該当する。

【0042】

第１規則を生成するために、分類規則生成部２４は、上述したような処理基準データから抽出された単語を出現単語抽出部２２から取得する。本実施形態では、この段階で、出現単語抽出部２２にてステミングの処理、ストップワードの削除、及び複合語の検索が実行されているものとする。抽出された単語は、テキストデータごと、又は文ごとにリスト化される。そして、抽出された単語を単語ラベルとして横方向に配置し、テキストデータ又は文ごとに、たとえば、出現した単語には１を、出現しない単語には０を付して、１行の行列を作成する。この単語ラベルが付された行列を単語ベクトルともいう。そして、この処理を各テキストデータ又は文ごとに行い、生成された各単語ベクトルを一つにまとめたものが第１規則となる。

【0043】

たとえば、上述した作業手順書であれば、「重要度高」に分類される「車両の全てのドアが内側から開かない」について、出現単語抽出部２２の形態素解析の機能により、「車両／の／全て／の／ドア／が／内側／から／開か／ない」と区切り、単語を抽出できる。これらの抽出した単語から、助詞である「の」、「が」及び「から」をストップワードとして削除する。「ない」は助動詞であり、ストップワードに該当し得るが、削除せずに、「開か（原型：開く）／ない」を複合語「開かない」として抽出する。これにより、「車両の全てのドアが内側から開かない」という処理基準データから「車両／全て／ドア／内側／開かない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度高」に分類するための、下表１の「高」の行に示す単語ベクトルを生成する。

【0044】

同様に、「重要度中」に分類される「車両の一部のドアが内側から開けられない、又は開錠できない」について、出現単語抽出部２２の形態素解析の機能により、「車両／の／一部／の／ドア／が／内側／から／開け／られ／ない／、／又は／開錠／でき／ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開け／られない」を複合語「開けられない」として、「開錠／でき／ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが内側から開けられない、又は開錠できない」という処理基準データから、「車両／一部／ドア／内側／開けられない／開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度中」に分類するための、下表１の「中」の行に示す単語ベクトルを生成する。

【0045】

同様に、「重要度低」に分類される「車両の一部のドアが外側から開かない、又は開錠できない」について、出現単語抽出部２２の形態素解析の機能により、「車両／の／一部／の／ドア／が／外側／から／開か／ない／、／又は／開錠／でき／ない」と区切って単語を抽出し、「の」、「が」、「から」、「、」及び「又は」をストップワードとして削除し、「開か／ない」を複合語「開かない」として、「開錠／でき／ない」を複合語「開錠できない」として抽出する。これにより、「車両の一部のドアが外側から開かない、又は開錠できない」という処理基準データから、「車両／一部／ドア／外側／開かない／開錠できない」という単語が抽出できる。そして、抽出したこれらの単語から、入力データを「重要度低」に分類するための、下表１の「低」の行に示す単語ベクトルを生成する。

【0046】

【表1】

【0047】

このように、処理基準データを出現単語抽出部２２にて処理した場合にも、抽出された単語と分類基準との関連付けは維持されるため、各単語ベクトルと分類基準とを対応させることができる。

【0048】

これに対して、第２規則を生成するために、分類規則生成部２４は、学習データから抽出された共起語を共起語抽出部２３から取得する。分類規則生成部２４は、第２規則を生成する場合に、取得した共起語のリストから、共起関係の強い単語の組み合わせを抽出する。分類規則生成部２４は、たとえば、同一のテキストデータにおいて、ある単語と共に出現する単語のうち、出現頻度が上位５位以内の単語で、互いの距離が５単語以下の単語の組み合わせを抽出する。当該抽出の条件は、抽出される組み合わせの数が情報処理装置１７の処理限界を超えない範囲内で、適宜の条件を設定できる。そして、抽出された単語を単語ラベルとして横方向に配置し、組み合わせとして抽出した単語には１を、それ以外の単語には０を付して、組み合わせごとに単語ベクトルを作成する。この処理を各組合せで行い、生成された各単語ベクトルを一つにまとめたものが第２規則となる。

【0049】

本実施形態では、抽出された共起語は単語ごとにリスト化されているものとし、取得した共起語は、以前の処理結果に応じたグループごとに抽出されるものとする。以前の処理結果に応じたグループごとに共起語を抽出することで、各単語ベクトルと処理結果とを対応させることができる。たとえば、第２規則を取得するために用いた共起語が、車両の不具合の重要度に応じたグループごと抽出されたものであれば、生成した単語ベクトルと、不具合の重要度とを対応させることができる。つまり、入力されたデータが、車両の不具合の情報を含む場合に、第２規則を、車両の不具合の重要度に対応した分類をするための規則とすることができる。

【0050】

たとえば、学習データに、過去に情報処理装置１７に入力され、第１分類部又は第２分類部にて「重要度高」と分類されたデータが含まれている場合に、分類規則生成部２４は、共起語抽出部２３にて抽出された共起語から、「重要度高」に分類されたデータの共起語を取得する。「重要度高」に分類されたデータの共起語が（ドア、前、右側、左側、異音、全部、開かない）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「ドア、異音、全部、開かない」を抽出する。そして、この組み合わせに含まれる単語を単語ラベルとして横方向に配置し、組み合わせに含まれる単語には１を、それ以外の単語には０を付して、１行の行列を作成する。組み合わせが「ドア、前、異音、全部、開かない」であれば、下表２の「高」の行に示す１行の行列、つまり単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度高」に分類される。

【0051】

同様に、過去に、第１分類部又は第２分類部にて「重要度中」と分類されたデータが学習データに含まれている場合に、分類規則生成部２４は、共起語抽出部２３にて抽出された共起語から、「重要度中」に分類されたデータの共起語を取得する。「重要度中」に分類されたデータの共起語が（車両、両側、ドア、変な音、後ろ、開かない）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「車両、ドア、変な音、後ろ、開かない」を抽出する。そして、この組み合わせから、下表２の「中」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度中」に分類される。

【0052】

同様に、過去に、第１分類部又は第２分類部にて「重要度低」に分類されたデータが学習データに含まれている場合に、分類規則生成部２４は、共起語抽出部２３にて抽出された共起語から、「重要度低」に分類されたデータの共起語を取得する。「重要度低」に分類されたデータの共起語が（車両、ドア、開けにくい、前、異音、後ろ）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「ドア、開けにくい、異音、後ろ」を抽出する。そして、この組み合わせから、下表２の「低」の行に示す単語ベクトルが生成される。この単語ベクトルにより、入力データは「重要度低」に分類される。

【0053】

【表2】

【0054】

このように、学習データの分類結果ごとに共起語を抽出するので、各単語ベクトルと分類基準とを対応させることができる。ここでは、入力されたデータが車両の不具合の情報を含む場合に、第１規則及び第２規則を、車両の不具合の重要度に対応した分類をするための規則にするときの処理を説明したが、分類基準は車両の不具合の重要度に限られず、車両の不具合が発生した場所、不具合が発生した車両の整備状態などでもよい。また、上記で説明した第１規則及び第２規則の生成方法は一例に過ぎず、他の方法を用いてもよい。

【0055】

類似度算出部２５は、分類規則生成部２４にて生成された規則（つまり、一又は複数の単語ベクトル）の元となるデータと、分類規則生成部２４にて生成された規則を規則更新部２６にて更新するための参照データとの類似度を算出する機能を有する。特に、本実施形態の類似度算出部２５は、第１規則の元となる所定のデータ（つまり処理基準データ）と、第１規則を更新するための参照データとの類似度を算出する機能を備える。参照データは、データ取得部２１により第１データベース１１から取得される。また、本実施形態では、参照データに、入力データ及び学習データのうち少なくとも一つが含まれてもよい。

【0056】

類似度算出部２５にて算出される類似度とは、あるテキストデータと、ほかのテキストデータとがどの程度重複しているかを示す指標であり、たとえば０～１の範囲内の正の値をとる。類似度は、値が高いほど、比較対象のテキストデータ同士が類似し、値が低いほど、比較対象のテキストデータ同士が似ていないことを示す。たとえば、処理基準データに出現する単語のうち、参照データに出現する単語と重複する単語の出現頻度を類似度として算出する。このような重複する単語の出現頻度は、処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルとを比較することで算出できる。具体的には、処理基準データから生成された単語ベクトルの単語ラベルと、参照データに付された単語ラベルとを比較し、重複する単語を抽出する。そして、抽出された重複する単語について、その出現頻度を類似度として算出する。

【0057】

ここで、処理基準データから単語ベクトルを生成するときは、上述した第１規則の単語ベクトルを生成する方法と同じ方法を用いることができ、参照データから単語ベクトルを生成するときも、上述した第１規則の単語ベクトルを生成する方法と同じ方法を用いることができる。たとえば、参照データが、「車両の前側のドアが内側から開けられない。」と「全てのドアが外側から開かない。」という入力データを含む場合は、形態素解析、ストップワードの削除、複合語の抽出を経て、下表３のデータ１及びデータ２のような単語ベクトルが生成される。また、参照データに、学習データ又は本実施形態と同様の分類機能を有する別の情報処理装置にて分類されたデータが含まれている場合は、上述した第２規則の単語ベクトルを生成する方法と同様に、共起語抽出部２３にて参照データから共起語を抽出し、抽出した共起語を用いて単語ベクトルを生成してもよい。たとえば、「重要度高」に分類されたデータの共起語が（車両、ドア、内側、開かない）である場合に、分類規則生成部２４は、共起語の組み合わせの一例として「ドア、内側、開かない」を抽出し、この組み合わせから、下表３のデータ３のような単語ベクトルを生成する。

【0058】

【表3】

【0059】

本実施形態の類似度は、たとえば、所定の処理基準データに含まれるテキストデータの文と、参照データに含まれるテキストデータの文との類似度である。当該類似度は、所定の処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルから算出する。具体的には、所定の処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルとを比較して、単語ベクトルの単語ラベルと、単語ラベルに対応した単語の出現を示す０又は１の入力値を対比する。次に、ある単語ラベルにおいて、対応する単語の出現を示す０又は１の入力値が、二つの単語ベクトルで相違するか一致するかを判定する。そして、入力値が一致する数又は相違する数を類似度として算出する。

【0060】

二つの単語ベクトルにおいて、単語ラベルに対する０又は１の入力値が相違する数が少なければ、二つの単語ベクトル、及びこれらに対応する文は類似することがわかる。これに対して、二つの単語ベクトルにおいて、単語ラベルに対する０又は１の入力値が相違する数が多ければ、二つの単語ベクトル対応する文は相違する箇所が多く、類似しないことがわかる。なお、所定の処理基準データから生成された単語ベクトルと、参照データから生成された単語ベクトルとの類似度を算出する際に、単語ベクトル同士のコサイン類似度を算出してもよい。

【0061】

また、これに代えて又はこれに加えて、本実施形態の類似度は、所定の処理基準データに含まれるテキストデータの単語と、前記参照データに含まれるテキストデータの単語との類似度であってもよい。単語の意味を考慮する場合には、単語の共起語同士を比較する。つまり、ある単語と、ほかの単語の意味が類似している場合には、ある単語の共起語と、ほかの単語の共起語も類似している。本実施形態では、コーパスデータから抽出された共起語リストを指標として用いることで、コーパスデータにおける、ある単語の共起語と、ほかの単語の共起語とを比較して、単語同士の意味の類似度を算出することができる。共起語同士の比較には、たとえば、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を用いることができる。Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数は、Ｊａｃｃａｒｄ係数とＳｉｍｐｓｏｎ係数を相加平均した指標のことであり、下記の式（１）にて表される。

【0062】

【数1】

【0063】

ここで、式（１）のｗ_１及びｗ_２は単語を表し、Ｊａｃｃａｒｄ（ｗ_１，ｗ_２）がＪａｃｃａｒｄ係数であり、Ｓｉｍｐｓｏｎ（ｗ_１，ｗ_２）がＳｉｍｐｓｏｎ係数である。

【0064】

具体的には、処理基準データから生成された単語ベクトルの単語ラベルと、参照データから生成された単語ベクトルの単語ラベルとを比較し、重複する単語を抽出する。次に、抽出された重複する単語について、コーパスデータから抽出された共起語リストを取得する。当該共起語リストは、共起語抽出部２３にて生成する。そして、重複する単語と、コーパスデータから抽出された共起語リストを用いて、Ｓｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を算出する。

【0065】

一例として、処理基準データから生成された単語ベクトルの単語ラベル［一部，内側］と、参照データから生成された単語ベクトルの単語ラベル［左，車内］との類似度をＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数として計算する。コーパスデータから抽出された共起語リストから、［一部］と［左］の類似度が０．７、［内側］と［車内］の類似度が０．９であることが分かっているとすると、この場合のＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数は、（０．７＋０．９）／２＝０．８となり、平均類似度として０．８の類似度が算出される。なお、完全に一致する単語同士の類似度は１として計算するものとする。

【0066】

このように、単語ベクトルの入力値の類似度（つまりテキストデータの文同士の類似度）に加えて、単語ラベルの意味の類似度（つまり単語同士の類似度）を考慮することで、所定の処理基準データと参照データとの類似度をより正確に算出できる。たとえば、処理基準データから生成された単語ベクトルが［ドア、内側、開かない］であり、参照データから生成された単語ベクトルが［ドア、外側、開かない］であった場合、単語ベクトルの入力値の相違する数が１であるため、テキストデータの文としては、二つの単語ベクトルの類似度は高く算出される。しかし、単語ラベルの［内側］と［外側］は、互いに反対の意味を示すため、単語同士の意味も考慮すると、二つの単語ベクトルの類似度は低く算出される。

【0067】

また、類似度算出部２５は、類似度算出の別の方法として、処理基準データから生成された単語ベクトルの単語ラベルと、参照データから生成された単語ベクトルの単語ラベルとを比較し、処理基準データのテキストデータに出現する全単語と、参照データのテキストデータに出現する全単語の単語間の類似度を算出してもよい。単語間の類似度は、上述のＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数などを用いて算出する。またこの場合、類似度算出のために、処理基準データの単語ラベルと、参照データの単語ラベルとを用いて共起ネットワークを生成してもよい。共起ネットワークを用いて共起語を抽出することで、二つのテキストデータに出現する単語において、互いに類似度が高い単語を抽出することができる。

【0068】

さらに、類似度算出部２５は、抽出した共起語に基づいて、参照データのテキストデータの文（つまり単語ベクトル）から、処理基準データの文（つまり単語ベクトル）に類似したものを抽出してもよい。加えて、抽出された参照データ単語ベクトルについて、処理基準データの単語ベクトルとの類似度を算出してもよい。これにより、参照データ又は処理基準データの少なくとも一方が複数のデータを含む場合に、類似度が高い単語ベクトルを効率よく抽出することができる。

【0069】

規則更新部２６は、参照データを用いて、入力データ分類部２７にて入力データを分類するための規則を更新する機能を有する。具体的に、規則更新部２６は、類似度算出部２５にて算出された類似度が所定値以上である参照データを用いて第１規則を更新する機能を有する。所定値は、類似度の算出方法に応じて、適宜の値を設定できる。たとえば、類似度として、処理基準データと単語ベクトルと、参照データの単語ベクトルの値（０又は１）が一致する数を算出した場合には、所定値を３と設定し、一致する数が３以上の参照データを用いる。これに代えて、類似度として、処理基準データと単語ベクトルと、参照データの単語ベクトルの値（０又は１）が相違する数を算出した場合には、たとえば、相違する数が３以下の参照データを用いてもよい。また、類似度として、処理基準データの単語ラベルと、参照データの単語ラベルのＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数を算出した場合には、たとえば、所定値を０．６と設定し、類似度が０．６以上の参照データを用いる。

【0070】

また、類似度として、所定の処理基準データに含まれるテキストデータの文と、参照データに含まれるテキストデータの文との類似度、及び所定の処理基準データに含まれるテキストデータの単語と、参照データに含まれるテキストデータの単語との類似度が算出された場合は、いずれか一方の類似度が所定値以上の参照データを用いてもよいし、両方の類似度が所定値以上の参照データのみを用いてもよい。規則更新部２６は、たとえば、処理基準データの単語ベクトルと、参照データの単語ベクトルの値（０又は１）が相違する数が３以下であって、処理基準データの単語ラベルと、参照データの単語ラベルのＳｉｍｐｓｏｎ－Ｊａｃｃａｒｄ係数が０．６以上の参照データを用いるとしてもよい。

【0071】

参照データを用いて第１規則を更新するとは、たとえば、参照データの中から、第１規則の元となるデータである処理基準データと類似するものを抽出し、処理基準データに、抽出した参照データを関連付けて追加することをいう。具体的には、参照データの単語ベクトルと、処理基準データの単語ベクトルを比較し、参照データの単語ベクトルから、処理基準データの単語ベクトルと類似度が所定値以上であるものを抽出する。そして、第１規則において、処理基準データの単語ベクトルの下に、抽出した参照データの単語ベクトルを挿入する。

【0072】

たとえば、入力データを「重要度高」に分類する「車両の全てのドアが内側から開かない」という分類基準に対して、表１の「高」の行に示す単語ベクトルを生成されている場合に、参照データの単語ベクトルから、下表４に示す、データ「車両のドアが全て開けられない」に対応する単語ベクトルを抽出したとする。当該単語ベクトルには、不具合の重要度として、「重要度高」が関連付けられている。

【0073】

【表4】

【0074】

この場合に、規則更新部２６は、下表５に示すように、第１規則において、「高」の行の単語ベクトルの下に、表４に示す単語ベクトルを挿入する。挿入した単語ベクトルは、規則更新部２６にて追加された単語ベクトルであり、「高」と関連つけされていることを示すため、たとえばカッコで括った「（高）」と付して挿入する。

【0075】

【表5】

【0076】

このようにして、規則更新部２６は、第１規則を構成する単語ベクトルを増やすことがで、これにより、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制しつつ、第１規則で分類できる入力データの数を増やすことができる。
また、規則更新部２６は、必ずしも第１規則を構成する単語ベクトルを増やす必要はなく、たとえば、第１規則を構成する単語ベクトルを、所定値以上の類似度を有する、参照データの単語ベクトルで置き換えてもよい。

【0077】

また、規則更新部２６は、第１規則だけでなく、更新された第１規則に従って、後述する第１分類部２７ａにて分類されたデータを用いて、第２規則を学習させる機能を有する。具体的には、第１分類部２７ａに入力されたデータと、その分類結果とを関連付けて、第２データベース１２に学習データとして格納する。当該フィードバックにより、共起語抽出部２３にて抽出される共起語が変化し、分類規則生成部２４にて生成される第２規則が、所定の分類基準に従って分類をするように学習される。

【0078】

さらに、規則更新部２６は、類似度が所定値以上である参照データの単語ベクトルを用いて、新たな規則を生成してもよい。特に、類似度が所定値以上である参照データから抽出された、第１規則に含まれる単語と共に所定頻度以上の頻度で出現する共起語を用いて、新たな規則を生成してもよい。具体的には、類似度算出部２５にて、処理基準データの単語ラベルと、参照データの単語ラベルとを用いて共起ネットワークを生成し、共起語を抽出した場合に、共起語を組み合わせて、処理基準データの単語ベクトルと類似する単語ベクトルを生成する。これにより、第１規則の数をさらに増やすことができる。

【0079】

入力データ分類部２７は、入力装置１１ａにより入力されたデータを規則に従って分類する機能を有する。特に、本実施形態の入力データ分類部２７は、入力されたデータを、規則更新部２６の機能により更新された第１規則に従って分類する第１分類部２７ａと、入力されたデータを第２規則に従って分類する第２分類部２７ｂとを備える。上述したように、第１規則では、単語ベクトルと分類基準が関連付けられており、第２規則では、単語ベクトルと以前の処理結果が関連付けられている。そのため、第１分類部２７ａでは、入力されたデータの単語ベクトルと、第１規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた分類基準に従い入力データ分類することができる。同様に、第２分類部２７ｂでは、入力されたデータの単語ベクトルと、第２規則の単語ベクトルとを比較し、類似度が所定値以上であれば、関連付けられた以前の処理結果に従い入力データ分類することができる。

【0080】

本実施形態の入力データ分類部２７では、特に、入力されたデータの単語ベクトルの中に、第１規則を構成する単語ベクトルと一致するものがあれば、第１規則に従って分類する。これに対して、入力されたデータの単語ベクトルの中で、第１規則を構成する単語ベクトルと一致しないものは、第２規則に従って分類する。たとえば、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを３つ又はそれ以上の群（たとえば、重要度高、重要度中、重要度低の３グループ）に分類するときは、入力データの単語ベクトルが第１規則と一致するときは、第１分類部２７ａにて分類し、入力データの単語ベクトルが第１規則と一致しないときは、第２分類部２７ｂで分類する。これにより、更新された第１規則と、第２規則とで二重にデータを分類することを回避し、情報処理装置１７における処理時間を短縮することができる。

【0081】

表示画像生成部２８は、入力されたデータの処理状況について利用者に通知するために表示装置１６に表示する画像を生成する機能を有する。表示画像生成部２８にて生成される画像は、処理の進捗状況を示すものであっても、処理結果を示すものであってもよく、たとえば、類似度算出部２５にて算出された類似度、類似度が所定値以上である参照データ、更新された第１規則、及び更新された第１規則の更新された部分のうち少なくとも一つを含むものである。

【0082】

図２は、図１の表示装置１６に表示される画像の一例を示す図である。図２に示す画像は、入力されたデータが、車両の不具合の情報を含む場合に、車両の不具合の重要度に応じて、入力されたデータを３つのグループ、すなわち、重要度高、重要度中、重要度低の３グループに分類したときに表示装置１６に表示される画像である。図２（Ａ）は、入力されたデータの分類結果を示す第１表示画像３であり、図２（Ｂ）は、第１規則の更新結果と類似度の算出結果を示す第２表示画像４であり、図２（Ｃ）は、共起語を抽出した場合の結果と、抽出処理の概要を示す第３表示画像５である。

【0083】

分類結果を示す、図２（Ａ）の第１表示画像３では、画像左上に「入力データ」が表示されている。入力データは複数入力されてもよく、その場合は、入力データ右下に示す三角形のアイコンにより画面をスクロールすることで、全てのデータを確認できる。画像右上には、入力データの分類結果が表示されており、図２（Ａ）の入力データが「重要度中」に分類されたことが表示されている。画像左下には、「分類方法」として、第１分類部２７ａにて、更新された第１規則に従って分類されたことしめす「ルールベースモデル」が表示されており、画像右下には、適用された規則が表示されている。なお、第２分類部２７ｂにて分類された場合には、画像左下に「機械学習モデル」と表示される。

【0084】

更新結果と類似度を示す、図２（Ｂ）の第２表示画像４では、画像左上に抽出された「参照データ」が表示され、その下に、「抽出文章」として、抽出された文が表示されている。また、共起語を抽出した場合には、画像右上に「キーワードリスト」として共起語の組み合わせが表示される。「参照データ」と「キーワードリスト」について、三角形のアイコンにより画面をスクロールすることで、全てのデータを確認できる。画像下側には、「ルール更新結果」として、左下に入力データの分類結果が、その右隣りに適用された第１規則が表示される。そして、画像右下に、参照データから抽出された、適用された第１規則に類似する文が表示されている。図２（Ｂ）の場合は、「左リアドアから変な音がする。」が「右フロントドアから変な音がする。」よりも類似度が高いため、「左リアドアから変な音がする。」を第１規則に追加する。

【0085】

共起語の抽出結果を示す、図２（Ｃ）の第３表示画像５では、画像右側に「参照データ」が表示され、その下に、生成された共起ネットワークが表示されている。また、画像左側には、「キーワードリスト」として、抽出された共起語の組み合わせと、「抽出条件」が表示されている。「抽出条件」としては、単語の出現頻度を示す「単語出現回数」と、単語同士の距離を示す「共起度閾値」が表示されている。なお、表示される抽出条件は一例に過ぎず、必要に応じて他の条件を表示することができる。

【0086】

データ出力部２９は、表示画像生成部２８にて生成された画像データを、表示装置１６に出力する機能を有する。これにより、表示装置１６に画像を表示して、情報処理システム１の利用者に、入力データの処理状況を通知することができる。

【0087】

［情報処理システムにおける処理］
図３を参照して、情報処理装置１７が情報を処理する際の手順を説明する。図３は、本実施形態の情報処理システム１における情報の処理を示すフローチャートの一例である。以下に説明する処理は、情報処理装置１７のプロセッサ１８により所定の時間間隔で実行される。

【0088】

まず、ステップＳ１にて、データ取得部２１の機能により、第１データベース１１～第４データベース１４の各データベースから必要なデータを取得する。続くステップＳ２にて、出現単語抽出部２２の機能により、形態素解析のツールなどを用いて、データ取得部２１にて取得したデータで使用されている単語を抽出する。たとえば、「全てのドアが内側から開かない」というデータから、形態素解析とストップワードの削除、複合語の抽出を経て、「車両／全て／ドア／内側／開かない」という単語を抽出する。続くステップＳ３にて、共起語抽出部２３の機能により、特に学習データ、処理基準データ、及びコーパスデータから抽出された単語について、共起ネットワークを生成して共起語を抽出する。続くステップＳ４にて、分類規則生成部２４の機能により、処理基準データから抽出された単語を用いて第１規則を生成し、学習データから抽出された共起語を用いて第２規則生成する。

【0089】

次に、ステップＳ５にて、類似度算出部２５の機能により、第１規則の元となる所定のデータと、参照データとの類似度を算出する。具体的には、処理基準データの単語ベクトルと、参照データの単語ベクトルとを比較し、単語ベクトルの重複個数、単語ラベルに対応する単語の意味の類似度などを類似度として算出する。続くステップＳ６にて、規則更新部２６の機能により、所定値以上の類似を有する参照データを用いて、第１規則を更新し、新たな規則を追加する。続くステップＳ７にて、入力されたデータが、更新された第１規則に従って分類できるか否かを判定する。

【0090】

入力データの単語ベクトルと、第１規則の単語ベクトルとが一致し、更新された第１規則に従って分類できると判定された場合は、ステップＳ８ａに進み、第１分類部２７ａにて、更新された第１規則に従って分類される。これに対して、入力データの単語ベクトルと、第１規則の単語ベクトルとが一致せず、更新された第１規則に従って分類できないと判定された場合は、ステップＳ８ｂに進み、第２分類部２７ｂにて、第２規則に従って分類される。

【0091】

これらの分類処理の結果は、続くステップＳ９にて処理され、表示画像生成部２８の機能により、表示装置１６に表示するための画像を生成する。生成された画像は、続くステップＳ１０にて、データ出力部２９の機能により、表示装置１６に出力される。そして、データ出力部２９から出力された画像が表示装置１６に表示され、情報処理システム１の利用者に処理結果を通知する。さらに、ステップＳ１１にて、規則更新部２６の機能により、ステップＳ８ａにおける第１分類部の分類結果を学習データにフィードバックし、第２規則を学習させる。

【0092】

［本発明の実施態様］
以上のとおり、本実施形態の情報処理装置１７によれば、入力されたデータを分類するための第１規則を生成するときに用いる所定のデータと、前記第１規則を更新するための参照データとの類似度を算出する類似度算出部２５、前記類似度算出部２５にて算出された前記類似度が所定値以上である前記参照データを用いて前記第１規則を更新する規則更新部２６、及び前記入力されたデータを、更新された前記第１規則と、前記第１規則と異なる、学習データを用いた機械学習により学習された第２規則とを用いて分類する入力データ分類部２７を備える。これにより、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制しつつ、更新された第１規則と、第２規則とで二重にデータを分類することを回避し、情報処理装置１７における処理時間を短縮することができる。

【0093】

また、本実施形態の情報処理装置１７によれば、前記類似度は、前記所定のデータに含まれるテキストデータの文と、前記参照データに含まれるテキストデータの文との類似度、及び／又は前記所定のデータに含まれるテキストデータの単語と、前記参照データに含まれるテキストデータの単語との類似度である。これにより、所定の処理基準データと参照データとの類似度をより正確に算出できる。

【0094】

また、本実施形態の情報処理装置１７によれば、前記学習データは、過去に入力され、前記入力データ分類部にて分類されたデータを含む。これにより、過去の入力データを用いて第１規則の更新と、第２規則の学習が実現でき、分類精度がより向上する。

【0095】

また、本実施形態の情報処理装置１７によれば、前記参照データは、前記入力データ及び前記学習データのうち少なくとも一つを含む。これにより、入力データを用いて第１規則の更新と、第２規則の学習が実現でき、分類精度がより向上する。

【0096】

また、本実施形態の情報処理装置１７によれば、前記規則更新部２６は、前記第２規則を、更新された前記第１規則に従って前記入力データ分類部２７により分類されたデータを用いて学習させる。これにより、第２規則の学習が促進される。

【0097】

また、本実施形態の情報処理装置１７によれば、更新された前記第１規則は、前記規則更新部２６にて、前記類似度が所定値以上である前記参照データを用いて生成された新たな規則を含む。これにより、第１規則の数をさらに増やすことができる。

【0098】

また、本実施形態の情報処理装置１７によれば、更新された前記第１規則は、前記参照データから抽出された、前記第１規則に含まれる単語と共に所定頻度以上の頻度で出現する単語を用いて生成された新たな規則を含む。これにより、第１規則の数をさらに増やすことができる。

【0099】

また、本実施形態の情報処理装置１７によれば、前記類似度、前記類似度が所定値以上である参照データ、更新された前記第１規則、及び更新された前記第１規則の更新された部分のうち少なくとも一つを表示する表示装置１６をさらに備える。これにより、情報処理システム１の利用者に、入力データの処理状況を通知することができる。

【0100】

また、本実施形態の情報処理方法によれば、入力されたデータを、所定のデータから生成された第１規則と、前記第１規則と異なる、学習データを用いた機械学習により学習された第２規則とを用いて分類する場合に、前記所定のデータと、前記第１規則を更新するための参照データとの類似度を算出し、前記類似度が所定値以上である前記参照データを用いて前記第１規則を更新し、前記入力されたデータを、更新された前記第１規則と、前記第２規則とを用いて分類する。これにより、入力データを分類するための規則を変更することでデータの処理精度が低下することを抑制しつつ、更新された第１規則と、第２規則とで二重にデータを分類することを回避し、情報処理装置１７における処理時間を短縮することができる。

【符号の説明】

【0101】

１…情報処理システム
１１…第１データベース（入力データ）
１１ａ…入力装置
１２…第２データベース（学習データ）
１２ａ…サーバー
１３…第３データベース（処理基準データ）
１４…第４データベース（コーパスデータ）
１５…通信装置
１６…表示装置
１７…情報処理装置
１８…プロセッサ
１８１…ＣＰＵ
１８２…ＲＯＭ
１８３…ＲＡＭ
２…入力データ処理部
２１…データ取得部
２２…出現単語抽出部
２３…共起語抽出部
２４…分類規則生成部
２５…類似度算出部
２６…規則更新部
２７…入力データ分類部
２７ａ…第１分類部
２７ｂ…第２分類部
２８…表示画像生成部
２９…データ出力部
３…第１表示画像
４…第２表示画像
５…第３表示画像

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版