IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-28258情報抽出装置、情報抽出方法、および情報抽出プログラム
<>
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図1
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図2
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図3
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図4
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図5
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図6
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図7
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図8
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図9
  • 特開-情報抽出装置、情報抽出方法、および情報抽出プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023028258
(43)【公開日】2023-03-03
(54)【発明の名称】情報抽出装置、情報抽出方法、および情報抽出プログラム
(51)【国際特許分類】
   G06F 40/289 20200101AFI20230224BHJP
   G06F 40/169 20200101ALI20230224BHJP
   G06F 40/151 20200101ALI20230224BHJP
【FI】
G06F40/289
G06F40/169
G06F40/151
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021133846
(22)【出願日】2021-08-19
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】十河 泰弘
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091AA15
5B091AB06
5B091CA02
5B091CA06
5B091CA07
5B091CA21
5B109QA02
5B109QA03
5B109TA11
(57)【要約】
【課題】言葉からの情報抽出精度の向上を図ること。
【解決手段】情報抽出装置は、固有表現を示す単語を含む第1文と、前記固有表現を示す単語を抽象化したラベルに変換した前記第1文の第1チャンク群の係り受け関係を示す第1木構造と、を有するデータベースにアクセス可能であり、第2文の第2チャンク群の係り受け関係を示す第2木構造が前記第1木構造に該当するか否かを判定する判定部と、前記判定部によって前記第1木構造に該当すると判定された場合、前記第2文に前記第1木構造に関するアノテーションを設定する設定部と、前記設定部によって前記アノテーションが設定された第2文を出力する出力部と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
固有表現を示す単語を含む第1文と、前記固有表現を示す単語を抽象化したラベルに変換した前記第1文の第1チャンク群の係り受け関係を示す第1木構造と、を有するデータベースにアクセス可能であり、
第2文の第2チャンク群の係り受け関係を示す第2木構造が前記第1木構造に該当するか否かを判定する判定部と、
前記判定部によって前記第1木構造に該当すると判定された場合、前記第2文に前記第1木構造に関するアノテーションを設定する設定部と、
前記設定部によって前記アノテーションが設定された第2文を出力する出力部と、
を有することを特徴とする情報抽出装置。
【請求項2】
請求項1に記載の情報抽出装置であって、
前記出力部は、前記第2文のうち前記第1木構造に該当する文字列を異なる態様で表示可能に出力する、
ことを特徴とする情報抽出装置。
【請求項3】
請求項1に記載の情報抽出装置であって、
前記データベースは、前記第1文と、複数通りの前記第1木構造と、を有し、
前記判定部は、前記第2木構造が前記複数通りの前記第1木構造のいずれに該当するか否かを判定する、
ことを特徴とする情報抽出装置。
【請求項4】
請求項3に記載の情報抽出装置であって、
前記複数通りの前記第1木構造の各々は、同一の第1チャンクと複数の第1チャンクとの係り受け関係を有する構造であり、2つの前記第1木構造間では、前記複数の第1チャンクのうち少なくとも1つが異なるチャンクである、
ことを特徴とする情報抽出装置。
【請求項5】
請求項1に記載の情報抽出装置であって、
前記第1文は、重文内の単文であり、前記データベースは、前記第1文ごとに前記第1木構造を有し、
前記判定部は、前記第1文ごとに前記第2木構造が前記第1木構造に該当するか否かを判定し、前記第2木構造が前記第1木構造に該当した前記第1文の数に基づいて、前記第2文が前記重文に該当するか否かを判定する、
ことを特徴とする情報抽出装置。
【請求項6】
請求項1に記載の情報抽出装置であって、
前記第2文を自然言語解析する解析部と、
前記解析部による前記第2文の解析結果に基づいて前記第2木構造を生成する木構造生成部と、を有し、
前記判定部は、前記木構造生成部によって生成された前記第2木構造が前記第1木構造に該当するか否かを判定する、
ことを特徴とする情報抽出装置。
【請求項7】
請求項6に記載の情報抽出装置であって、
前記解析部は、前記第1文を自然言語解析し、
前記木構造生成部は、前記解析部による前記第1文の解析結果に基づいて、前記第1文の前記第1チャンク群の係り受け関係を示す木構造を生成し、
前記第1文の前記第1チャンク群の係り受け関係を示す木構造において、前記固有表現を前記ラベルに変換する変換部を有する、
ことを特徴とする情報抽出装置。
【請求項8】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報抽出装置が実行する情報抽出方法であって、
固有表現を示す単語を含む第1文と、前記固有表現を示す単語を抽象化したラベルに変換した前記第1文の第1チャンク群の係り受け関係を示す第1木構造と、を有するデータベースにアクセス可能であり、
前記プロセッサが、
第2文の第2チャンク群の係り受け関係を示す第2木構造が前記第1木構造に該当するか否かを判定する判定処理と、
前記判定処理によって前記第1木構造に該当すると判定された場合、前記第2文に前記第1木構造に関するアノテーションを設定する設定処理と、
前記設定処理によって前記アノテーションが設定された第2文を出力する出力処理と、
を実行することを特徴とする情報抽出方法。
【請求項9】
固有表現を示す単語を含む第1文と、前記固有表現を示す単語を抽象化したラベルに変換した前記第1文の第1チャンク群の係り受け関係を示す第1木構造と、を有するデータベースにアクセス可能なプロセッサに、
第2文の第2チャンク群の係り受け関係を示す第2木構造が前記第1木構造に該当するか否かを判定する判定処理と、
前記判定処理によって前記第1木構造に該当すると判定された場合、前記第2文に前記第1木構造に関するアノテーションを設定する設定処理と、
前記設定処理によって前記アノテーションが設定された第2文を出力する出力処理と、
を実行させることを特徴とする情報抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報を抽出する情報抽出装置、情報抽出方法、および情報抽出プログラムに関する。
【背景技術】
【0002】
近年、音声対話の書き起こしに関する取組みが進められている。コールセンター対応や窓口対応(非対面含む)などの業務を行っている社員が顧客へ説明する際の内容については、法律で規定されており、これらを無視した発話は、コンプライアンス上問題となる。
【0003】
特許文献1は、商談や営業活動の際の顧客への説明内容等のデータに基づいて、「禁止表現」の有無、および「必要事項」が含まれているか否かのいずれについてもチェック対象とするコンプライアンスチェックシステムを開示する。このコンプライアンスチェックシステムは、営業担当者の各発話の内容をテキスト化したテキストデータに対して、自然言語解析処理を行って解析済テキスト情報として出力するテキスト解析部と、各発話に係る解析済テキスト情報と、必要事項情報に予め定義された第1のテキストデータとの類似度を算出し、類似度が所定の値を超えた場合に、対象の発話において対象の必要事項が説明されたものと判定する類似度算出部と、禁止表現情報に予め定義された第2のテキストデータにマッチするものがある場合に、対象の発話において対象の禁止表現が述べられたものと判定するキーワードマッチング部とを有する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2018-120640号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
話し言葉は、書き言葉に比べて自由度が高く、たとえば、一部の文の省略や倒置的表現などが多い。また、話し言葉は、複数の文に渡っていることが多い。しかしながら、上述した特許文献1のコンプライアンスチェックシステムでは、このような話し言葉の文構造に基づく情報抽出については考慮されていない。また、このような課題は、話し言葉に限らず、書き言葉でも同様である。
【0006】
本発明は、言葉からの情報抽出精度の向上を図ることを目的とする。
【課題を解決するための手段】
【0007】
本願において開示される発明の一側面となる情報抽出装置は、固有表現を示す単語を含む第1文と、前記固有表現を示す単語を抽象化したラベルに変換した前記第1文の第1チャンク群の係り受け関係を示す第1木構造と、を有するデータベースにアクセス可能であり、第2文の第2チャンク群の係り受け関係を示す第2木構造が前記第1木構造に該当するか否かを判定する判定部と、前記判定部によって前記第1木構造に該当すると判定された場合、前記第2文に前記第1木構造に関するアノテーションを設定する設定部と、前記設定部によって前記アノテーションが設定された第2文を出力する出力部と、を有することを特徴とする。
【発明の効果】
【0008】
本発明の代表的な実施の形態によれば、言葉からの情報抽出精度の向上を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
【図面の簡単な説明】
【0009】
図1図1は、情報抽出装置の機能的構成例を示すブロック図である。
図2図2は、木構造生成部による木構造生成例を示す説明図である。
図3図3は、ルールグループ群の一例を示す説明図である。
図4図4は、ルールの一例を示す説明図である。
図5図5は、判定部による判定例を示す説明図である。
図6図6は、マッチング例を示す説明図である。
図7図7は、設定部によるアノテーション設定例を示す説明図である。
図8図8は、情報抽出装置のハードウェア構成例を示すブロック図である。
図9図9は、情報抽出装置による構築フェーズでの実行処理手順例を示すフローチャートである。
図10図10は、情報抽出装置による運用フェーズでの実行処理手順例を示すフローチャートである。
【発明を実施するための形態】
【0010】
<情報抽出装置の機能的構成例>
図1は、情報抽出装置の機能的構成例を示すブロック図である。情報抽出装置100は、サンプル文集合110と、ルールグループ群120と、スコアテーブル130と、を有する。サンプル文集合110とは、サンプル文S1~Snの集合である。nは1以上の整数である。サンプル文Siは、ルールグループ群120のルールグループGiの生成元となる文である。iは1≦i≦nを満たす整数である。
【0011】
サンプル文Siは、たとえば、あらかじめ用意された想定対話文である。より具体的には、たとえば、保険業であれば、サンプル文Siの内容が保険業における禁止行為に関する内容(たとえば、重要事項不説明)であったり、情報提供義務に違反した内容であったりする。
【0012】
ルールグループ群120は、ルールグループG1~Gnの集合である。ルールグループGiは、サンプル文Siの文構造によって規定されたルールの集合である。
【0013】
スコアテーブル130は、条件に該当した場合に付与されるスコアを規定するテーブルである。
【0014】
また、情報抽出装置100は、解析部101と、木構造生成部102と、ルール生成部103と、判定部131と、設定部132と、出力部133と、を有する。
【0015】
解析部101は、テキストデータであるサンプル文Siや入力文IS(これらを区別しない場合は、単に文と表記する)を取得して、形態素解析や係り受け解析、固有表現抽出といった自然言語解析を実行する。形態素解析は、文を単語に分解して各単語の品詞を特定しラベルとして付与する処理である。係り受け解析は、文内の主語述語の関係や修飾語被修飾語の関係を特定する処理である。
【0016】
固有表現抽出は、文から固有表現を抽出しラベルとして付与する処理である。固有表現とは、人名や地名などといった固有名詞に、日付表現、時間表現、金額表現、割合表現を含めた総称である。固有表現抽出については、解析部101は、あらかじめ用意した辞書データ内の単語とのマッチングにより固有表現を抽出してもよく、ルールベース(たとえば、末尾に「さん」、「君」がある名詞は人名、先頭または末尾に「株式会社」がある場合は会社名)により固有表現(この場合は人名や会社名)を抽出してもよく、たとえば、BERTモデルを用いた機械学習により固有表現を抽出してもよい。
【0017】
木構造生成部102は、解析部101による解析結果に基づいて、文の木構造を生成する。具体的には、たとえば、木構造生成部102は、文内の単語群のうち、連続する特定の単語列をチャンクとし、係り受け解析結果にしたがって、チャンク間を接続することで、文のチャンク群の係り受け関係を示す木構造を生成する。チャンクは、たとえば、1以上の名詞でもよく、名詞と当該名詞に続く助詞(たとえば接続助詞)との組み合わせでもよく、動詞と当該動詞に続く助詞(たとえば接続助詞)との組み合わせでもよく、動詞と当該動詞に続く助動詞との組み合わせでもよい。
【0018】
木構造生成部102は、木構造を複数の木構造に分割する。分割された木構造の各々を分割木構造と称す。分割元の木構造と分割木構造とを区別しない場合は、単に木構造と称す。木構造生成部102は、チャンクに、係り受け解析結果(係り受け元または係り受け先)を示すラベルを付与する。木構造生成部102は、木構造の生成対象となる文が複数の単文からなる重文である場合、重文に含まれる単文単位で木構造を分割する。また、木構造生成部102は、木構造の生成対象となる文が単文の修飾部にさらに単文を含む複文である場合、複文に含まれる単文単位で木構造を分割する。なお、木構造生成部102は、入力文の木構造を分割しない。
【0019】
ルール生成部103は、分割木構造ごとに、当該分割木構造に対応する単文のルールセットを生成する。ルールセットとは、当該単文のルールの集合である。ルールセットは、分割木構造ごとに生成される。分割木構造ごとに生成されたルールセットの集合がルールグループGiとなる。すなわち、ルールグループGiは分割元の木構造およびその文に対応する。なお、ここで、ルールとは、分割木構造を構成するチャンクに含まれている名詞を上位概念化した分割木構造であり、詳細は後述する。
【0020】
判定部131は、スコアテーブル130を用いて入力文ISがどのルールグループGiにマッチするかを示すマッチングスコアをルールグループGiごとに算出して、入力文ISの木構造がいずれのルールグループGiに該当するか否かを判定する。
【0021】
設定部132は、入力文ISに判定部131によって判定されたルールグループGiをアノテーションとして設定する。
【0022】
出力部133は、設定部132による設定後のデータを表示可能に出力する。具体的には、たとえば、出力部133は、アノテーションが設定された入力文ISを表示可能に出力する。出力先は、情報抽出装置100のディスプレイでもよく、情報抽出装置100と通信可能に接続された他のコンピュータでもよい。
【0023】
情報抽出装置100が実行する処理は、ルールグループ群120を構築する構築フェーズと構築されたルールグループ群120で情報抽出を運用する運用フェーズとに区分される。構築フェーズでの機能的構成と運用フェーズでの機能的構成とを別々のコンピュータで実行することも可能である。
【0024】
<木構造生成例>
図2は、木構造生成部102による木構造生成例を示す説明図である。図2では、サンプル文Siから木構造Tiを生成する例を示している。楕円のノードは、チャンクであり、チャンク間の矢印は係り受け関係を示している。すなわち、矢印の始端側のノードが係り受け元であり、矢印の終端側のノードが係り受け先である。サンプル文Siは重文であるため、分割木構造DTi1,DTi2に分割される。
【0025】
<ルールグループ群120>
図3は、ルールグループ群120の一例を示す説明図である。ルールグループ群120は、ルールグループG1~Gnを含む。ルールグループGiは、ルールセットRSi1~RSimを含む。mは1以上の整数である。ルールセットRSijは、ルールグループGiにおけるj番目のルールセットである。jは1≦i≦mを満たす整数である。
【0026】
ルールセットRSijは、Rij1~Rijlを含む。lは1以上の整数である。ルールRijkは、ルールセットRSijにおけるk番目のルールである。kは1≦i≦lを満たす整数である。
【0027】
<ルールRijk>
図4は、ルールRijkの一例を示す説明図である。図4では、文400がサンプル文Siである。文400において、固有表現を示す「○○株式会社」を上位概念化したラベルは会社名、固有表現を示す「1910年」を上位概念化したラベルは年度、固有表現を示す「茨城県」を上位概念化したラベルは地名とする。
【0028】
ルール生成部103がルールRijkを生成する場合、ルール生成部103は、上記固有表現を示す名詞の単語を上記固有表現のラベルに変換する。そして、ルール生成部103は、文400の木構造401のうち係り受け先のノードである「創業された」に着目し、3つの係り受け先(「<会社名>は」、「<年度>に」、「<地名>で」)のうち一部が欠落させて、ルールRij1~Rij3を生成する。なお、ルールRij1~Rij3では、木構造401の3つの係り受け先から1つが削除された例であるが、ルール生成部103は、2つ削除されたルールを生成してもよい。これにより、入力文ISiの文構造を考慮したマッチングが可能となる。
【0029】
なお、図4の木構造401は、固有表現を有する複数(3つ)の係り受け元のノードに対し1つの係り受け先のノードを有する構成であるが、1つの係り受け元のノードに対し、固有表現を有する複数の係り受け先のノードを有する構成でも同様である。
【0030】
<判定例>
図5は、判定部131による判定例を示す説明図である。図5では、入力文ISの木構造ITとあるルールグループGiとのマッチングによる判定例を示す。判定部131は、木構造ITとルールセットRSij内の各ルールRijkとのマッチングを実行する。
【0031】
ルールRijkには、固有表現を抽象化したラベル(たとえば、<会社名>)を有するチャンクが含まれているため、木構造ITのチャンクに当該固有表現(たとえば、○○株式会社)であれば、木構造ITのチャンクはルールRijkのチャンクに包含される。判定部131は、ルールRijkの各チャンクが木構造ITの各チャンクと一致または包含し、かつ、一致または包含するルールRijkのチャンクによる係り受け関係が木構造ITに含まれていれば、木構造ITは、ルールRijkに該当する。
【0032】
すなわち、木構造401を入力文ISの木構造ITとした場合、木構造401はルールRij1~ルールRij3に該当することになる。
【0033】
判定部131は、木構造ITに該当したルールRijkの数をルールセットRSijごとに計数する。また、判定部131は、木構造ITに該当したルールRijkが複数存在する場合、その中の2つのルールRijkについて、入力文ISにおける各位置の間の距離(文字数)を算出する。
【0034】
判定部131は、スコアテーブル130を参照して、ルールグループGiについての入力文ISのマッチングスコアを算出する。スコアテーブル130は、条件501とスコア502とを有する。条件501とは、スコア502を特定するための制約であり、たとえば、木構造ITに該当したルールセットRSij内のルールRijkの数や、木構造ITに該当したルールRijkを1以上有するルールセットRSijの数や、2つのルールRijkについての入力文ISにおける各位置の間の距離である。
【0035】
たとえば、木構造ITに該当したルールRijkの数が多いほど、スコアテーブル130においてスコア502の値は高く設定されている。木構造ITに該当したルールRijkを1以上有するルールセットRSijの数が多いほど、スコアテーブル130においてスコア502の値は高く設定されている。2つのルールRijkについての入力文ISにおける各位置の間の距離が大きいほど、スコアテーブル130においてスコア502の値は低く設定されている。判定部131は、これらのスコアの総和をマッチングスコアとして算出する。
【0036】
マッチングスコアは、ルールグループGiごとに算出される。判定部131は、たとえば、しきい値以上のマッチングスコアとなるルールグループGiを、入力文ISの木構造ITに該当する特定のルールグループとして設定部132に出力する。また、判定部131は、たとえば、上位N番目(Nはあらかじめ設定された1以上の整数)までのマッチングスコアとなるルールグループGiを、入力文ISの木構造ITに該当する特定のルールグループとして設定部132に出力してもよい。
【0037】
図6は、マッチング例を示す説明図である。入力文IS1~IS3はそれぞれ、サンプル文Siに似たような発話内容を示している。具体的には、たとえば、入力文IS1は、「説明は省略します」という表現が省略された文である。入力文IS2は、サンプル文Siに含まれる2つの単文の発話順序が入れ替わったような文、すなわち、倒置表現の文である。入力文IS3は、フィラーが含まれた文である。
【0038】
入力文IS1は、ルールセットRSi1に該当し、入力文IS2,IS3は、ルールセットRSi1,RSi2に該当したとする。入力文IS1は、「説明は省略します」という表現が省略されているため、ルールセットRSi2に該当する木構造が存在しなかったものとする。この場合、入力文IS2,IS3については、入力文IS1よりも、木構造ITに該当したルールRijkを1以上有するルールセットRSijの数の多さという条件501については、高い値のスコア502が適用される。
【0039】
<アノテーション設定>
図7は、設定部132によるアノテーション設定例を示す説明図である。図7では、図6に示した入力文IS2についてのアノテーション設定例を示す。図6に示したように、入力文IS2はルールセットRSi1,RSi2に該当するため、設定部132は、その旨を示すアノテーション700を入力文IS2に設定する。また、入力文IS2のうちルールセットRSi1,RSi2に該当する文字列を、下線により他の文字列とは異なる態様で表示可能に設定する。下線はこのような強調表示の一例であり、該当する文字列の文字色、文字サイズ、フォントの変更や該当する文字列の背景色の変更でもよい。
【0040】
また、設定部132は、アノテーションとして設定されたルールセットRSi1,RSi2を含むルールグループGiに対応するサンプル文Siをサンプル文集合から抽出して、表示可能に出力してもよい。
【0041】
図8は、情報抽出装置100のハードウェア構成例を示すブロック図である。情報抽出装置100は、プロセッサ801と、記憶デバイス802と、入力デバイス803と、出力デバイス804と、通信インターフェース(通信IF)805と、を有する。プロセッサ801、記憶デバイス802、入力デバイス803、出力デバイス804、および通信IF805は、バス806により接続される。プロセッサ801は、情報抽出装置100を制御する。記憶デバイス802は、プロセッサ801の作業エリアとなる。また、記憶デバイス802は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス802としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス803は、データを入力する。入力デバイス803としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイク、センサがある。出力デバイス804は、データを出力する。出力デバイス804としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF805は、ネットワークと接続し、データを送受信する。
【0042】
図1に示したサンプル群集合、ルールグループ群120およびスコアテーブル130は、データベースとして、図8に示した記憶デバイス802、または、情報抽出装置100とインターネット、LAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して通信IF805で通信可能な他のコンピュータに記憶される。
【0043】
また、図1に示した解析部101、木構造生成部102、ルール生成部103、判定部131、設定部132および出力部133は、具体的には、たとえば、図8に示した記憶デバイス802に記憶されたプログラムをプロセッサ801に実行させることで実現される。
【0044】
<構築フェーズ>
図9は、情報抽出装置100による構築フェーズでの実行処理手順例を示すフローチャートである。情報抽出装置100は、サンプル文集合110を取得し(ステップS901)、サンプル文集合110の各サンプル文Siを自然言語解析する(ステップS902)。つぎに、情報抽出装置100は、サンプル文Siごとに木構造Tiを生成し(ステップS903)、木構造Tiを単文単位で分割する(ステップS904)。そして、情報抽出装置100は、分割木構造DTi1,DTi2についてルールセットRSijを生成する(ステップS905)。これにより、ルールグループ群120が構築される。
【0045】
<運用フェーズ>
図10は、情報抽出装置100による運用フェーズでの実行処理手順例を示すフローチャートである。情報抽出装置100は、入力文ISを取得し(ステップS1001)、入力文ISを自然言語解析する(ステップS1002)。つぎに、情報抽出装置100は、入力文ISの木構造ITを生成し(ステップS1003)、ルールグループ群120に未選択のルールグループGiがあるか否かを判断する(ステップS1004)。未選択のルールグループGiがある場合(ステップS1004:Yes)、情報抽出装置100は、未選択のルールグループGiを1つ選択し(ステップS1005)、選択ルールグループGi内のルールセットRSijごとに入力文ISの木構造ITとのマッチングを実行する(ステップS1006)。そして、情報抽出装置100は、マッチング結果とスコアテーブル130とを用いて、選択ルールグループGiのマッチングスコアを算出して(ステップS1007)、ステップS1004に戻る。
【0046】
ステップS1004において、未選択ルールグループGiがない場合(ステップS1004:No)、情報抽出装置100は、入力文ISにアノテーション700と該当箇所(たとえば、下線)とを設定し(ステップS1008)、アノテーション700を設定した入力文ISを表示可能に出力する(ステップS1009)。これにより、入力文ISに該当するルールグループが特定される。
【0047】
たとえば、入力文ISに該当するルールグループGiが禁止行為(重要事項不説明)に関するグループであれば、ユーザは、入力文ISにおいて重要事項が説明されていないことがわかる。
【0048】
このあと、情報抽出装置100は、図7に示したように、アノテーション700として設定されたルールグループGiに対応するサンプル文Siをサンプル文集合110から抽出して、表示可能に出力してもよい。これにより、入力文ISがどのようなサンプル文Siに似ているかをユーザは把握することができる。
【0049】
たとえば、サンプル文Siが禁止行為(重要事項不説明)に関する想定対話文であれば、ユーザは、入力文ISと当該想定対話文とを比較することで、どの程度似ているかを確認することができる。また、サンプル文Siが正解を示す想定対話文であれば、ユーザは、入力文ISと当該想定対話文とを比較することで、どのような文言が入力文ISに欠落していたか、または、どのような文言で説明を省略したかを確認することができる。
【0050】
以上説明したように、上述した情報抽出装置100によれば、文構造を考慮することにより言葉からの情報抽出精度の向上を図ることができる。具体的には、たとえば、入力文ISにどのサンプル文Siのどのような表現が含まれているかを高精度に把握することができる。
【0051】
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
【0052】
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
【0053】
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
【0054】
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
【符号の説明】
【0055】
100 情報抽出装置
101 解析部
102 木構造生成部
103 ルール生成部(変換部)
110 サンプル文集合
120 ルールグループ群
130 スコアテーブル
131 判定部
132 設定部
133 出力部
700 アノテーション
Gi ルールグループ
IS 入力文
IT 入力文の木構造
Rijk ルール
RSij ルールセット
Si サンプル文
Ti サンプル文の木構造
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10