(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173223
(43)【公開日】2024-12-12
(54)【発明の名称】知識データベース出力方法、情報抽出方法及び、装置
(51)【国際特許分類】
G06N 5/022 20230101AFI20241205BHJP
G06F 16/93 20190101ALI20241205BHJP
G06F 16/35 20190101ALI20241205BHJP
G06F 40/30 20200101ALI20241205BHJP
【FI】
G06N5/022
G06F16/93
G06F16/35
G06F40/30
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023091508
(22)【出願日】2023-06-02
【国等の委託研究の成果に係る記載事項】(出願人による申告)2019年度、国立研究開発法人新エネルギー・産業技術総合開発機構「次世代人工知能・ロボットの中核となるインテグレート技術開発/人工知能技術の適用領域を広げる研究開発/熟練者観点に基づき、設計リスク評価業務における判断支援を行う人工知能適用技術の開発」委託事業、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】512209689
【氏名又は名称】SOLIZE株式会社
(74)【代理人】
【識別番号】100130111
【弁理士】
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】西田 公祐
(72)【発明者】
【氏名】徳久 進也
(72)【発明者】
【氏名】木村 雅紀
(72)【発明者】
【氏名】上田 さら
(72)【発明者】
【氏名】小田 あゆみ
(72)【発明者】
【氏名】三谷 憲司
(72)【発明者】
【氏名】根津 裕太
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】 (修正有)
【課題】テキストデータから知識に係る情報を体系化して知識データベースを自動的かつ高精度に出力すると共に、その知識データベースから情報を抽出する方法及び装置を提供する。
【解決手段】方法は、入力されたテキストデータ100を、所定の規則に従って1つ以上の単語の並びからなる単位表現毎に分割する単位表現分割処理ステップ、予め備えた用語辞書を参照し、単位表現に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する用語抽出分類処理ステップ、単位表現毎に少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う意味分類処理ステップ及び単位表現同士が因果関係にあるかどうかを判定し、各単位表現に対して関係のある他の単位表現を定義する因果推定処理ステップを実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストデータに含まれる知識に係る情報を体系化して知識データベースとして出力する知識データベース出力方法であって、
単位表現分割手段が、入力された該テキストデータを、所定の規則に従って1つ以上の単語の並びからなる単位表現毎に分割する単位表現分割処理ステップ、
の後、
用語抽出分類手段が、予め備えた用語辞書を参照し、該単位表現に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する用語抽出分類処理ステップと、
意味分類手段が、該単位表現毎に少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う意味分類処理ステップと、
因果推定手段が、該単位表現同士が因果関係にあるかどうかを判定し、各単位表現に対して関係のある他の単位表現を定義する因果推定処理ステップと
の3つの処理ステップをいずれかの順序又は同時に実行し、
該テキストデータと関連づけて、該単位表現と、各単位表現に係る意味分類と、各単位表現に含まれる用語とその用語群分類と、各単位表現同士の因果関係とを知識データベースとして出力する出力ステップとを有する
ことを特徴とする知識データベース出力方法。
【請求項2】
前記単位表現分割処理ステップにおいて、
形態素解析モジュールが、前記テキストデータを形態素に形態素解析する形態素解析工程、
係り受け解析モジュールが、該形態素の係り受け関係を解析する係り受け解析工程、
述語フラグ設定モジュールが、少なくとも形態素解析で決定された品詞に基づいて述語に述語フラグを設定する述語フラグ設定工程、
の各工程を処理し、
少なくとも該述語フラグに基づいて前記テキストデータを単位表現毎に分割する
請求項1に記載の知識データベース出力方法。
【請求項3】
前記単位表現分割処理ステップにおいて、形態素解析工程の後に、
単位表現修正モジュールが、形態素解析で決定された品詞に基づいて単位表現の結合又は再分割を行う処理工程
を有する
請求項2に記載の知識データベース出力方法。
【請求項4】
前記述語フラグ設定工程の後に、
述語フラグの中から、前記係り受け関係において修飾される述語をメイン述語としてメイン述語フラグを設定し、
該メイン述語フラグに基づいて前記テキストデータを単位表現毎に分割する
請求項2に記載の知識データベース出力方法。
【請求項5】
前記用語辞書において、前記第1用語群の対象事物・人物・場所が、その所属を階層的に定義した階層情報を有し、
用語抽出分類処理ステップにおいて、用語群分類には該階層情報も含む
請求項1に記載の知識データベース出力方法。
【請求項6】
前記用語辞書において、前記第2用語群がさらに第3用語群と共に事象を定義し、
該第2用語群は事象における主語を、該第3用語群は事象における述語をそれぞれ定義する
請求項1に記載の知識データベース出力方法。
【請求項7】
前記意味分類処理ステップにおいて、
前記意味分類手段に機械学習モジュールを備え、単位表現とその単位表現が知識に係る情報として有効か否かを定義した学習データを入力して機械学習を行い、学習済みの機械学習モジュールによって判定対象の単位表現が知識に係る情報として有効か否かを判定する
請求項1に記載の知識データベース出力方法。
【請求項8】
前記意味分類処理ステップにおいて、
前記機械学習モジュールによって算出される確度に応じて、複数の種類の意味分類を行う
請求項7に記載の知識データベース出力方法。
【請求項9】
前記因果推定処理ステップにおいて、
前記因果推定手段の機械学習モジュールに、2つの単位表現の組と、その単位表現の組が因果関係にあるか否かを定義した学習データを入力して機械学習を行い、学習済みの機械学習モジュールによって判定対象の2つの単位表現が因果関係にあるかどうかを判定する
請求項1に記載の知識データベース出力方法。
【請求項10】
前記因果推定処理ステップにおいて、
前記機械学習モジュールによって算出される確度について、
2つの単位表現間の双方向で因果関係の確度が所定の閾値を超える場合は、高い方の方向を採用し、
3つ以上の単位表現間で因果関係がループになる場合は、最も確度の小さな因果関係を削除し、
2つの単位表現間で2経路以上の因果関係の確度が所定の閾値を超える場合は、距離が最も離れた単位表現同士の因果関係だけを採用し、
これらのルールにより定義される因果関係を省略する
請求項9に記載の知識データベース出力方法。
【請求項11】
請求項1ないし10のいずれかに記載の前記知識データベースを用いた情報抽出方法であって、
検索テキスト受理手段が、ユーザによる検索テキストを受理する検索テキスト受理ステップ、
検索タグ抽出手段が、予め備えた用語辞書を参照し、該検索テキストから対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とを検索タグとして抽出する検索タグ抽出ステップと、
情報抽出手段が、前記知識データベースから前記検索タグに一致する用語を含む単位表現を抽出する情報抽出ステップと、
結果表示手段が、抽出された単位表現を表示する結果表示ステップと
を有する、知識データベースを用いた情報抽出方法。
【請求項12】
前記結果表示手段において、抽出された単位表現と、その単位表現と因果関係のある単位表現とを関連づけたグラフとして表示する
請求項11に記載の知識データベースを用いた情報抽出方法。
【請求項13】
テキストデータに含まれる知識に係る情報を体系化して知識データベースとして出力する知識データベース出力装置であって、
入力された該テキストデータを、所定の規則に従って1つ以上の単語の並びからなる単位表現毎に分割する単位表現分割手段と、
該単位表現毎に少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う 意味分類手段と、
予め備えた用語辞書を参照し、該単位表現に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する用語抽出分類手段と、
該単位表現同士が因果関係にあるかどうかを判定し、各単位表現に対して関係のある他の単位表現を定義する因果推定手段と、
該テキストデータと関連づけて、該単位表現と、各単位表現に係る意味分類と、各単位表現に含まれる用語とその用語群分類と、各単位表現同士の因果関係とを知識データベースとして出力する出力手段とを備える
ことを特徴とする知識データベース出力装置。
【請求項14】
請求項13に記載の知識データベース出力装置で出力された前記知識データベースを用いる情報抽出装置であって、
ユーザによる検索テキストを受理する検索テキスト受理手段と、
予め備えた用語辞書を参照し、該検索テキストから対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とを検索タグとして抽出する検索タグ抽出手段と、
前記知識データベースから前記検索タグに一致する用語を含む単位表現を抽出する情報抽出手段と、
抽出された単位表現を表示する結果表示手段と
を有する、知識データベースを用いた情報抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストデータに含まれる知識に係る情報を体系化して知識データベースとして出力する方法、及び知識データベースから情報を抽出する方法、及びそれらの装置に関する。
【背景技術】
【0002】
従来、過去の事例やノウハウなど様々な知識を記録したテキストデータから情報を抽出するためには、検索者が適切なキーワードを考えて、試行錯誤しながら必要なデータにたどり着く手順が必要であった。
【0003】
近年では、言語処理技術などを用いて、体系的にデータベースを作成する方法も提案されている。
例えば特許文献1では、知識DB生成サーバーに、登録対象データに含まれる文字列を認識又は取得し、文字列に含まれる単語を抽出する文字処理部、登録対象データに画像認識処理を行い、認識された単語を取得する画像処理部、文字処理部及び画像処理部の処理を行った結果として得られた単語の分類を、辞書データを用いて取得する単語分類部、登録対象データに、単語と分類とを対応付けて、知識DBに記憶させるデータ登録部を備えた知識データベース生成装置が開示される。
【0004】
特許文献2に開示される情報解析装置は、複数の文章に含まれる複数の単語のそれぞれについて特定される複数の単語特徴ベクトルを次元圧縮することによって得られる複数の2次元座標情報に基づいて、複数の特徴ベクトルに対応する位置を2次元平面上に可視化した2次元マップを生成する2次元マップ生成部を備え、複数の単語特徴ベクトルの類似性を利用して、単語として複数の分子を特定し、当該特定した複数の分子について分子間の接続関係性を示した知識データベースを用いることが開示されている。
【0005】
特許文献3には、原因推定システムのネットワーク生成部に、共通保守知識ネットワークを参照して、異常事象から当該異常事象と関係するコンポーネントの故障と、当該故障の発生の当否を確認するためのチェック項目とを特定して、当該異常事象に対応した保守知識ネットワークを生成する技術が開示される。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2022-26752号公報
【特許文献2】特許第7034453号
【特許文献3】特開2022-96546号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は従来技術の有する問題点に鑑みて創出されたものであり、テキストデータから知識に係る情報を体系化して知識データベースを自動的かつ高精度に出力すると共に、その知識データベースから情報を抽出するための技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明は上記課題を解決するため、本発明は次のような知識データベース出力方法を提供する。
すなわち、本発明の第1の実施形態によると、テキストデータに含まれる知識に係る情報を体系化して知識データベースとして出力する知識データベース出力方法であって、単位表現分割手段が、入力されたテキストデータを、所定の規則に従って1つ以上の単語の並びからなる単位表現毎に分割する単位表現分割処理ステップ、の後、意味分類手段が、単位表現毎に少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う意味分類処理ステップと、用語抽出分類手段が、予め備えた用語辞書を参照し、単位表現に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する用語抽出分類処理ステップと、因果推定手段が、単位表現同士が因果関係にあるかどうかを判定し、各単位表現に対して関係のある他の単位表現を定義する因果推定処理ステップとの3つの処理ステップをいずれかの順序又は同時に実行する。
【0009】
そして、前記テキストデータと関連づけて、単位表現と、各単位表現に係る意味分類と、各単位表現に含まれる用語とその用語群分類と、各単位表現同士の因果関係とを知識データベースとして出力する出力ステップとを有することを特徴とする知識データベース出力方法を提供する。
【0010】
本発明の第2の実施形態によると、上記の単位表現分割処理ステップにおいて、形態素解析モジュールが、テキストデータを形態素に形態素解析する形態素解析工程、係り受け解析モジュールが、形態素の係り受け関係を解析する係り受け解析工程、述語フラグ設定モジュールが、少なくとも形態素解析で決定された品詞に基づいて述語に述語フラグを設定する述語フラグ設定工程、の各工程を処理し、少なくとも述語フラグに基づいてテキストデータを単位表現毎に分割する構成でもよい。
【0011】
本発明の第3の実施形態によると、上記の単位表現分割処理ステップにおいて、形態素解析工程の後に、単位表現修正モジュールが、形態素解析で決定された品詞に基づいて単位表現の結合又は再分割を行う処理工程を有する構成でもよい。
【0012】
本発明の第4の実施形態によると、前記述語フラグ設定工程の後に、述語フラグの中から、係り受け関係において修飾される述語をメイン述語としてメイン述語フラグを設定し、メイン述語フラグに基づいてテキストデータを単位表現毎に分割する構成でもよい。
【0013】
本発明の第5の実施形態によると、前記用語辞書において、第1用語群の対象事物・人物・場所が、その所属を階層的に定義した階層情報を有し、用語抽出分類処理ステップにおいて、用語群分類には階層情報も含む構成でもよい。
【0014】
本発明の第6の実施形態によると、前記用語辞書において、第2用語群がさらに第3用語群と共に事象を定義し、第2用語群は事象における主語を、第3用語群は事象における述語をそれぞれ定義する構成でもよい。
【0015】
本発明の第7の実施形態によると、上記の意味分類処理ステップにおいて、意味分類手段に機械学習モジュールを備え、単位表現とその単位表現が知識に係る情報として有効か否かを定義した学習データを入力して機械学習を行い、学習済みの機械学習モジュールによって判定対象の単位表現が知識に係る情報として有効か否かを判定する構成でもよい。
【0016】
本発明の第8の実施形態によると、上記の意味分類処理ステップにおいて、機械学習モジュールによって算出される確度に応じて、複数の種類の意味分類を行う構成でもよい。
【0017】
本発明の第9の実施形態によると、上記の因果推定処理ステップにおいて、因果推定手段の機械学習モジュールに、2つの単位表現の組と、その単位表現の組が因果関係にあるか否かを定義した学習データを入力して機械学習を行い、学習済みの機械学習モジュールによって判定対象の2つの単位表現が因果関係にあるかどうかを判定する構成でもよい。
【0018】
本発明の第10の実施形態によると、上記の因果推定処理ステップにおいて、機械学習モジュールによって算出される確度について、2つの単位表現間の双方向で因果関係の確度が所定の閾値を超える場合は、高い方の方向を採用し、3つ以上の単位表現間で因果関係がループになる場合は、最も確度の小さな因果関係を削除し、2つの単位表現間で2経路以上の因果関係の確度が所定の閾値を超える場合は、距離が最も離れた単位表現同士の因果関係だけを採用し、これらのルールにより定義される因果関係を省略する構成でもよい。
【0019】
本発明の第11の実施形態によると、上記処理方法で出力された知識データベースを用いた情報抽出方法を提供することもできる。
該方法では、検索テキスト受理手段が、ユーザによる検索テキストを受理する検索テキスト受理ステップ、検索タグ抽出手段が、予め備えた用語辞書を参照し、検索テキストから対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とを検索タグとして抽出する検索タグ抽出ステップと、情報抽出手段が、知識データベースから検索タグに一致する用語を含む単位表現を抽出する情報抽出ステップと、結果表示手段が、抽出された単位表現を表示する結果表示ステップとを有することを特徴とする。
【0020】
本発明の第12の実施形態によると、上記情報抽出方法における結果表示手段において、抽出された単位表現と、その単位表現と因果関係のある単位表現とを関連づけたグラフとして表示する構成でもよい。
【0021】
本発明は、知識データベース出力装置として提供することもできる。
すなわち、第13の実施形態によると、テキストデータに含まれる知識に係る情報を体系化して知識データベースとして出力する知識データベース出力装置であって、入力されたテキストデータを、所定の規則に従って1つ以上の単語の並びからなる単位表現毎に分割する単位表現分割手段と、予め備えた用語辞書を参照し、単位表現に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する用語抽出分類手段と、単位表現毎に少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う意味分類手段と、単位表現同士が因果関係にあるかどうかを判定し、各単位表現に対して関係のある他の単位表現を定義する因果推定手段と、テキストデータと関連づけて、単位表現と、各単位表現に係る意味分類と、各単位表現に含まれる用語とその用語群分類と、各単位表現同士の因果関係とを知識データベースとして出力する出力手段とを備えることを特徴とする。
【0022】
また、知識データベースを用いた情報抽出装置として提供することもできる。
すなわち、本発明の第14の実施形態によると、上記知識データベース出力装置で出力された知識データベースを用いる情報抽出装置であって、ユーザによる検索テキストを受理する検索テキスト受理手段と、予め備えた用語辞書を参照し、検索テキストから対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とを検索タグとして抽出する検索タグ抽出手段と、知識データベースから検索タグに一致する用語を含む単位表現を抽出する情報抽出手段と、抽出された単位表現を表示する結果表示手段とを有する情報抽出装置を提供する。
【発明の効果】
【0023】
本発明は上記構成により、テキストデータから知識に係る情報を体系化して知識データベースを自動的かつ高精度に出力すると共に、その知識データベースから情報を抽出する技術を提供することができる。
【図面の簡単な説明】
【0024】
【
図1】本発明における知識データベース出力方法の説明図である。
【
図2】本発明に係る知識データベース出力装置のブロック図である。
【
図3】本発明に係る単位表現分割処理のフローチャートである。
【
図4】本発明に係る用語抽出処理のフローチャートである。
【
図5】本発明に係る意味分類処理のフローチャートである。
【
図6】本発明に係る因果推定処理のフローチャートである。
【
図7】本発明に係る知識データベースの説明図である。
【
図8】本発明に係る情報抽出方法のフローチャートである。
【
図9】本発明に係る情報抽出装置のブロック図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態を図面を用いて説明する。本発明は以下の実施例に限定されず請求項記載の範囲で適宜実施することができる。
図1には、本発明における知識データベース出力方法の説明図を示しており、テキストデータ(100)を入力することで、知識データベース(110)が出力されるまでの主な処理を挙げている。
【0026】
テキストデータ(100)は、一例として、部品と、その部品における部位、発生した事象が文章で記載されたデータが挙げられる。例えば「ノートパソコンのヒンジ部に亀裂が発生し、最悪の場合、折れて本体とモニタが離脱することがある。その際、ヒンジ部の配線が断線することがある。」といった、故障事例に関する多数の文章が含まれるものを想定する。
もちろん本発明の対象とするテキストデータ(100)はこのようなデータに限定されず、取扱説明書や技術参考書、日誌、成功事例、失敗事例、事故事例などいかなる文書を対象としてもよい。
【0027】
テキストデータ(100)を入力すると、所定の規則に従って1つ以上の単語の並びからなる単位表現毎に分割する単位表現分割処理ステップ(10)、予め備えた用語辞書を参照し、単位表現に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する用語抽出分類処理ステップ(20)、単位表現毎に少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う意味分類処理ステップ(30)、単位表現同士が因果関係にあるかどうかを判定し、各単位表現に対して関係のある他の単位表現を定義する因果推定処理ステップ(40)の各処理ステップを経て、知識データベース(110)が出力される。
【0028】
本発明に係る知識データベース出力装置(200)のブロック図である。本装置は公知のパーソナルコンピュータやサーバー装置により実施することができ、CPU(210)に備えた各処理部と、外部記憶装置やメモリ、インターネットなどのネットワークと接続し送受信するためのネットワークアダプタ(220)などから構成される。一般的なコンピュータのハードウェアについては周知であるので説明は省略する。
【0029】
CPU(210)には、テキストデータ(100)を本装置(200)に入力する入力処理部(211)、単位表現分割処理ステップ(10)を実行処理する単位表現分割処理部(212)、用語抽出分類処理ステップ(20)を実行処理する用語抽出分類処理部(213)、意味分類処理ステップ(30)を実行処理する意味分類処理部(214)、因果推定処理ステップを実行処理する因果推定処理部(215)、最後に知識データベース(110)を出力するデータベース出力部(216)を備える。
【0030】
なお、用語抽出分類処理ステップ(20)、意味分類処理ステップ(30)、因果推定処理ステップ(40)については、
図1のような処理順でなくてもよく、任意の順序、または2つ以上を同時に処理してもよい。
【0031】
図3は、本発明に係る単位表現分割処理ステップ(10)のフローチャートである。単位表現分割処理ステップ(10)の処理の目的は、テキストデータ(100)に含まれる各テキストを「事象」を単位とした「単位表現」に分割し、ここで分割された単位表現について、後段の処理に用いることである。テキストデータから知識に係る情報を体系化する上で、適切な単位表現に分割することが、正確なデータベース構築において重要である。そこで本発明では次のような処理を提案する。
【0032】
まず入力処理部(211)が入力したテキストデータ(100)に対して、単位表現分割処理部(212)がデータ前処理(S31)を行う。データ前処理(S31)は、一般的に正規化処理を行うことができ、半角と全角の変換、大文字と小文字の表記の統一、不要なスペースの除去、Unicodeの仕様を利用した表記の統一などが例示される。
また、入力するテキストデータ(100)に応じて、ルールベースで所定の前処理を行ってもよい。例えば、ページ番号や不要な注記の削除、インデントやタブの変換などを行うこともできる。
【0033】
処理された前処理後のデータはメモリ等に一旦格納され、次の処理に進む。以下、メモリ等に一時格納することなど公知の処理は説明を省略する。
次に単位表現分割処理部(212)がセンテンス分割(S32)の処理を行う。センテンス分割(S32)は、改行/句点/箇条書きなどを考慮してテキストデータ(100)からセンテンス毎に分割する処理である。
【0034】
センテンス分割(S32)は例えばルールベースで「句点で終わる」「2回改行が続く」「矢印で終わる」「箇条書き(中黒、丸数字、米印など)」「括弧内の文章」などのルールに基づいて、センテンスを分割する。
上記の例で説明すると、「ノートパソコンのヒンジ部に亀裂が発生し、最悪の場合、折れて本体とモニタが離脱することがある。その際、ヒンジ部の配線が断線することがある。」であれば、「ノートパソコンのヒンジ部に亀裂が発生し、最悪の場合、折れて本体とモニタが離脱することがある」と「その際、ヒンジ部の配線が断線することがある。」に分割することがセンテンス分割である。
【0035】
次に、分割されたセンテンスに対して、単位表現分割処理部(212)が形態素解析(S33)の処理を行う。形態素解析は既存の形態素解析モジュールを用いることができ、例えば、形態素解析モジュールとしてMeCabにより形態素に分割する。
形態素解析モジュールは、使用する言語に応じて適宜選択できるが、日本語であればJUMAN、Janomeなどを用いてもよい。
【0036】
形態素解析の品詞情報に基づいて、単位表現分割処理部(212)の単位表現修正モジュールが、形態素解析で決定された品詞に基づいて単位表現の結合又は再分割を行うセンテンス分割修正(S34)処理を行う。
例えば、前文の文末が助詞又は接続詞であり、かつ、文頭が助詞又は接続詞では無い場合には、前文と再結合し1センテンスとする。本発明ではデータ前処理(S31)で改行によってセンテンスを分割してしまう場合があり、
「下記仕様を」
「Aと同様に設定」
のように分割されていた場合に、本処理によって1センテンスに再結合することができる。
【0037】
一方、矢印の直前に述語系の単語が見つかる場合には、矢印によりセンテンスを分割することもできる。例えば、「ヒンジ部が亀裂→ケーブルが破断」の場合には「ヒンジ部が亀裂」「ケーブルが破断」と分割する。「100mm→50mmに変更」の場合には矢印の直前が述語系の単語ではないので分割しない。
【0038】
センテンス分割修正(S34)処理に続き、係り受け解析モジュールが分節の係り受け関係を解析する係り受け解析(S35)の処理を行う。係り受け解析モジュールも既存のモジュールを適宜用いることができるが、例えばCabochaを用いてもよい。
分割されたセンテンスに対し、係り受け解析(S35)により述語と判定された分節について述語フラグを設定する。
【0039】
次に、述語フラグの中から、上記の係り受け関係において修飾される述語をメイン述語としてメイン述語フラグを設定(S37)することができる。具体的には、メインの述語とは、事象の境目となる分節であり、例えば日本語であればSOV言語であるためV(動詞)により事象の対象が変わると判断することができる。
【0040】
本発明では、メイン述語フラグに基づき、メイン述語の出現箇所でテキストデータ(100)を単位表現(120)に分割(S38)することができる。
なお、メイン述語の判定を行うことが好ましいが、本工程は行わず、述語フラグ設定(S36)で設定された述語フラグを基準として、テキストデータ(100)を単位表現(120)に分割(S38)してもよい。
【0041】
また、補助的に非自立名詞(ため、場合、とき、・・・)や、格助詞(に、について、において、等)でテキストデータ(100)を単位表現(120)に分割(S38)してもよく、このときメイン述語以外のフラグを設定することができる。例えば、非自立名詞の場合は「非自立名詞フラグ」、格助詞の場合は「格助詞フラグ」、読点で区切られる場合は「読点フラグ」などそれぞれのフラグを設定してもよい。
なお本発明で定義している品詞の分類は、形態素解析ツールの定義に基づいており、言語学上の品詞の分類とは必ずしも一致しない。
【0042】
単位表現分割処理ステップ(10)により、「ノートパソコンのヒンジ部に亀裂が発生し、最悪の場合、折れて本体とモニタが離脱することがある。その際、ヒンジ部の配線が断線することがある。」の例文は、
ノートパソコンのヒンジ部に亀裂が発生し、(読点フラグ)
最悪の場合、(非自立名詞フラグ)
折れて本体とモニタが離脱することがある。(メイン述語フラグ)
その際、(非自立名詞フラグ)
ヒンジ部の配線が断線することがある。(メイン述語フラグ)
のように単位表現に分割される。
以上によって分割された「単位表現」(120)を用いて次の用語抽出分類、意味分類、因果関係推定の3つの処理を行う。
【0043】
係り受け解析モジュールの係り受け解析(S35)に基づくと、単位表現で主語が省略されている場合に、その補完に有用な情報を得ることができる。例えば、1つの単位表現が2つ以上の分節に係る場合にも係り受け解析モジュールによって、後段の分節の主語として特定することができる。また、時系列に文章が連続している場合に、1つ前の文章の主語を、次の文章の主語として補完することができる。
【0044】
図4は、本発明に係る用語抽出処理のフローチャートである。用語抽出処理ステップ(20)では、予め備えた用語辞書を参照し、上記で得られた単位表現(120)に含まれる各用語を抽出すると共に、それらを対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とに用語群分類する。
【0045】
用語抽出処理は、一種の固有表現抽出とも言え、テキストデータ(100)に故障事例を用いる場合であれば、第1用語群として「部品」「部位」を、第2用語群としてそれらに生じた「事象」と定義することができる。
【0046】
用語抽出処理部(213)が、単位表現(120)に含まれる文字列と、本体又はネットワーク上の別のサーバーに備える用語辞書(101)とを照合(S41)し、抽出する。
なお、用語抽出処理部(213)は用語辞書に依らず、公知の固有表現抽出の技術を適用して用語抽出を行うこともできる。
【0047】
例えば、「ノートパソコンのヒンジ部に亀裂が発生し」の単位表現から用語辞書(101)に含まれる「ノートパソコンのヒンジ部」が第1用語群として抽出する。また、「亀裂が発生」を第2用語群として抽出する。最も簡単な方法としてこの通りの文言で辞書に格納しておけばよい。
ただし、公知の言語処理技術を適宜用いて、用語辞書(101)を併用しながら第1用語群に該当するか、第2用語群に該当するかは判定することができる。
【0048】
さらに柔軟に用語抽出処理を行うために用語辞書(101)に第1用語群の対象事物・人物・場所が、その所属を階層的に定義した階層情報を有することもできる。
例えば、次に示すように部品部位構成表として、「構成分類」としてノートパソコン、「大分類」として筐体、「中分類」としてヒンジ部、「小分類」として軸やカバーなどと階層的に定義したものを用語辞書(101)として備える。
この場合、単位表現から「ヒンジ部」が抽出された場合、このヒンジ部が「ノートパソコン」の「筐体」の一部であり、さらにその下位層には「軸」や「カバー」があることを用語群分類情報(130)として合わせて出力することができる。
【0049】
なお、上記分類は予め3つの分類と定めているが、本発明では対象事物・人物・場所により、分類の数を可変し、より少ない分類だけ、あるいはさらに多くの分類を定義してもよい。
【0050】
同時に「ヒンジ部」が複数の部位に用いられている場合には、「ノートパソコンのヒンジ部」との表現によって構成分類の「ノートパソコン」の下位層に含まれる部品であることを認識することができる。さらに「ノートパソコン」と明記されていない場合にも「ヒンジ部のカバーが」などの例文であれば、「カバー部」を含むヒンジ部であることをヒントとして、「ノートパソコン」の下位層であることを認識することができる。
【0051】
1つの文字列だけで分類が十分に特定できない場合、前後の単位表現に含まれる第1用語群の抽出結果を参照して、定義された階層構造のルートにその表現を多く含むものを確率的に算出することもできる。
例えば、「その際、ヒンジ部の配線が断線することがある」の単位表現で、どのヒンジ部かが特定できない場合も、前出の「ノートパソコンのヒンジ部」の出現回数等に基づいて、「ノートパソコン」の「筐体」の一部であることを導出することができる。
【0052】
加えて、第1用語群の分類の特定のために、その第2用語群に含まれる文字列を参照することもできる。例えば「バネ」という第1用語群が出現した時、同じ構成分類においてコイルばねや板バネなど複数のバネが設けられている場合、「伸び」「縮み」などの言葉が同じ単位表現(120)に含まれていれば、コイルばねである、と特定することができる。ここのように同名の部品に複数の種類がある場合、ある機能や部位を持つ部品は、ある特定の種類に限定されるなどの知識をルール化したものも使って特定してもよい。
【0053】
また、部品部位構成表における内包関係(ノートパソコンの筐体、など)を使って情報の類似性を考慮した情報抽出にも用いることができる。
このように第1用語群において階層情報を有することは、用語抽出処理の高精度化に寄与するものである。
【0054】
さらに、第2用語群は、さらに第3用語群と共に事象を定義することもできる。
この場合、第2用語群は事象における主語を、第3用語群は事象における述語をそれぞれ定義する。上記例文では「亀裂が」(第2用語群)「発生」(第3用語群)、「配線が」(第2用語群)「断線」(第3用語群)とする。
【0055】
本処理は、単位表現に含まれる品詞情報を用いてもよいし、何々が何々する、という所定の表記に基づいて第2用語群と第3用語群とを分類してもよい。さらに公知の言語処理技術により、分類することもできる。
【0056】
図5は、本発明に係る意味分類処理のフローチャートである。
意味分類処理(30)は、上で分割された単位表現ごとに、少なくとも知識に係る情報として有効か否かを判定し、意味分類を行う処理である。
本実施例においてテキストデータ(100)に故障事例を用いる場合、例えば「不具合」「意味なし」「保留」に意味分類する。
【0057】
意味分類の目的は、事象連鎖の対象となる不具合事象の特定に用いる他、意味のない情報を排除することでノイズを減らすことや、情報抽出装置における表示、例えばグラフで視覚的に表現(色など)する情報として用いることである。
【0058】
意味分類処理(30)は、意味分類処理部(214)において、ルールベースで意味分類する処理(S51)と、機械学習モジュールを用いて機械学習判定により意味分類する処理(S52)とを組み合わせて実行する。なお、本発明ではどちらかの処理だけでもよい。
【0059】
まずルールベースによる意味分類処理(S51)では、用語群分類情報(130)を用い、単位表現(120)中の部品、部位、事象のうち、事象に不具合事象が含まれている場合に不具合ラベルを付けることができる。
すなわち第2用語群において「亀裂」という不具合を示す文字列が含まれている場合、その単位表現に「不具合」のラベルを付与する。不具合を示す文字列としては「破断」「できない」など否定的な意味をもつ文字列をルールとして備えておけばよい。
【0060】
また機械学習判定により意味分類する処理(S52)を行う。
人手で意味分類した過去実績データ(単位表現の文章と意味分類ラベルのセット)を学習データとして機械学習データ(160)を構築し、機械学習モジュールの計算によってルールベースで拾われなかった未知表現についても的確にラベルを付与することができる。
【0061】
具体的には、学習データとしてテキストデータ(100)と同様の文書(例えば故障事例)を入力し、そのセンテンスを形態素解析し、品詞が動詞と名詞の単語のみを使って、文書内の単語の重要度(重み)を示すTF-IDFのベクトル化を行う。このベクトル情報から機械学習モデルとしてランダムフォレストを用い、クラス分類を行う。
もちろん、本発明で使用する機械学習モデルは任意である。
【0062】
付与されるラベルとして、不具合事象を表す「不具合」の他、欠損しても問題ない情報を「意味なし」のように複数のラベルに意味分類することもできる。
例えば、図のタイトル、記号や数値、人名のみの単位表現など単体では意味を持たない用語群について「意味なし」を付与する。
【0063】
さらに、「不具合」「意味なし」のいずれとも判断がつかないものを「保留」ラベルあるいは「説明」ラベルとする。例えば機械学習判定(S52)における算出で所定の確度に満たないものを「保留」ラベルとする。「意味なし」として排除はされないため、情報抽出時には注釈のように表示することもできる。
【0064】
「不具合」のラベルの使用方法として、情報の抽出時に「不具合事象」のみのグラフ表示と、注釈付きモード(「不具合事象」+「その他説明」のグラフ)を切り替えられるようにして、前者を要約モード、後者を注釈付きモードとして切り替え表示をすることもできる。
【0065】
意味分類処理ステップ(30)によって、単位表現毎の意味分類情報(140)を出力(S53)する。
【0066】
以上の意味分類処理(30)の説明では、用語群分類情報(130)を用いることを前提に説明したが、本発明では必ずしも用語抽出分類処理ステップの実行後でなくてもよく、ルールベースによる意味分類(S51)、機械学習判定による意味分類(S52)とは単位表現(120)について直接実行してもよい。
【0067】
図6は、本発明に係る因果推定処理のフローチャートである。
因果推定処理ステップ(40)は、単位表現(120)を、原因と結果の関係でつなぎ、因果グラフをつくることを目的とする。因果関係グラフ(150)では単位表現同士を因果関係でつなぎ、情報抽出の際のデータ探索に活かすことができる。
【0068】
例えば、部品や事象をつかった検索クエリによる検索があり、検索によって単位表現が検出されると、その単位表現から因果関係を使って別の単位表現を探索できるため、この関係性を使って、原因や結果の事象を捉えたり、関連する部品を捉えたりして、設計時の不具合の想定範囲を見積もることに貢献する。
【0069】
因果推定処理ステップ(40)は、機械学習モデルによる因果関係の予測を主な処理とする。すなわち、因果推定処理部(215)の機械学習モジュールに、2つの単位表現の組と、その単位表現の組が因果関係にあるか否かを定義した学習データを入力して機械学習を行い、学習済みの機械学習モジュールによって判定対象の2つの単位表現が因果関係にあるかどうかを判定する。
【0070】
判定においては、2つの単位表現(120)間に因果関係があるかどうか、因果関係の強さを算出する。一定の閾値を超えれば、2つの単位表現(120)間には因果関係があると判定する。
【0071】
本処理の出力である因果関係グラフ(150)では、判定した因果関係有無を各単位表現(120)のリストを定義する。
例えば、次の因果関係グラフ(150)を出力することができる。なお、本発明では因果関係グラフ(150)と呼ぶが、実際に図形化されている必要はなく、グラフ化に必要なデータとして出力すればよい。
【0072】
ところで、このような因果関係グラフ(150)において、以下のルールに従い、ループにならない有向グラフを作成することが好ましい。
すなわち、機械学習モジュールによって算出される確度について、2つの単位表現間の双方向で因果関係の確度が所定の閾値を超える場合は、高い方の方向を採用する。単位表現AからBの向き、BからAの向きの双方に因果関係が判定される場合、確信度が高いほうを選択する。
【0073】
また、3つ以上の単位表現間で因果関係がループになる場合は、最も確度の小さな因果関係を削除する。
また、2つの単位表現間で2経路以上の因果関係の確度が所定の閾値を超える場合は、距離が最も離れた単位表現同士の因果関係だけを採用する。
以上のルールに従い、整理された因果関係グラフ(150)を出力する。
【0074】
図7に示すように、本発明に係る知識データベース(110)は、入力したテキストデータ(100)と共に、以上の各処理から出力された単位表現(120)、用語群分類情報(130)、意味分類情報(140)、因果関係グラフ(150)を格納したデータベースとして出力する。
情報を抽出する際に、有効な情報の設計と、その情報の抽出方法を創出した点が本発明の特徴である。
【0075】
本発明の別の実施形態によると、上記の知識データベース出力方法で出力された知識データベース(110)を用いた情報抽出方法を提供することもできる。
図8は情報抽出方法のフローチャート、
図9は情報抽出装置(300)のブロック図である。
情報抽出装置(300)は、CPU(310)に検索テキスト受理部(311)、検索タグ抽出処理部(312)、情報抽出処理部(313)、結果表示部(314)を備える。
【0076】
検索テキスト受理部(311)は情報抽出装置(300)に備えるキーボード(320)等から検索テキストの入力を受理(S81)する。なお、検索テキストの受理はネットワークで接続された外部端末から受理してもよい。
【0077】
そして、検索タグ抽出処理部(312)が、予め備えた用語辞書を参照し、検索テキストから対象事物・人物・場所である第1用語群と、その対象事物・人物・場所において生じた事象である第2用語群とを検索タグとして抽出する検索タグ抽出ステップ(S82)を実行処理する。
【0078】
ここで、用語辞書は上記用語辞書(101)を用いてもよいし、別に備えてもよい。第1用語群及び第2用語群の抽出方法は、知識データベース出力方法の用語抽出分類処理ステップ(30)と同様の処理を行うことができる。上記同様、第1用語群を階層化したり、第2用語群においてさらに第3用語群を用い、これらを検索タグとしてもよい。
【0079】
情報抽出手段(313)が、知識データベース(110)から抽出された検索タグに一致する用語を含む単位表現を抽出する。(S83:情報抽出ステップ)
最も簡単には、上記で抽出された単位表現を結果表示部(314)がモニタ(330)等から結果表示(S84)する。
【0080】
この場合、その結果がどのように検索テキストで入力した事項と関連するか、直感的に理解することが難しいため、本発明ではさらに結果表示(S84)に様々な工夫を行う。
以下、説明する。
【0081】
まず検索テキストで「ノートパソコンのヒンジ部が折れた」と入力した時、検索タグ抽出処理部(312)は次の用語辞書
に基づいて、「ノートパソコン」「筐体」「ヒンジ部」と階層化された第1用語群を抽出する。また上記同様の処理で「折れた」という第2用語群を抽出する。
【0082】
この時、さらに概念辞書が同義語辞書を備えて、同じことを意味する語句に置き換えることもできる。例えば、下の表に示すように、ユーザが「パソコン」や「ラップトップ」と入力した場合でも、同義語辞書に基づいて検索タグとして置き換えられるように設定する。
【0083】
検索タグ抽出処理部(312)は知識データベース(110)から検索タグに基づいて該当する単位表現や関連づけられた不具合フラグを抽出する。
【0084】
同時に、因果関係グラフ(150)に基づいて実際に単位表現間の因果関係を視覚的に表示する。
図10には因果関係グラフの一例を示す。因果関係グラフ(150)のリストに記載された単位表現ID同士の因果関係の判定結果をモニタ(330)上に表示し、さらに不具合であるか否かを着色して表示する。このような視覚的な表示によって、ユーザは入力した検索テキストに対応する知識データベースの内容を、因果関係や重要度を確認しながら、把握することができる。
【符号の説明】
【0085】
10 単位表現分割処理ステップ
20 用語抽出分類処理ステップ
30 意味分類処理ステップ
40 因果推定処理ステップ
100 テキストデータ
101 用語辞書
110 知識データベース
120 単位表現
130 用語群分類情報
140 意味分類情報
150 因果関係グラフ
160 機械学習データ
161 機械学習データ
200 知識データベース出力装置
210 CPU
211 入力処理部
212 単位表現分割処理部
213 用語抽出分類処理部
214 意味分類処理部
215 因果推定処理部
216 データベース出力部
220 ネットワークアダプタ
300 情報抽出装置
310 CPU
311 検索テキスト受理部
312 検索タグ抽出処理部
313 情報抽出処理部
314 結果表示部
320 キーボード
330 モニタ