IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KPMGコンサルティング株式会社の特許一覧

特許7032582情報解析プログラム、情報解析方法及び情報解析装置
<>
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図1
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図2
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図3
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図4
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図5
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図6
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図7
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図8
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図9
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図10
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図11
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図12
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図13
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図14
  • 特許-情報解析プログラム、情報解析方法及び情報解析装置 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-02-28
(45)【発行日】2022-03-08
(54)【発明の名称】情報解析プログラム、情報解析方法及び情報解析装置
(51)【国際特許分類】
   G06F 40/279 20200101AFI20220301BHJP
   G06F 16/36 20190101ALI20220301BHJP
【FI】
G06F40/279
G06F16/36
【請求項の数】 13
(21)【出願番号】P 2021013489
(22)【出願日】2021-01-29
【審査請求日】2021-02-01
【早期審査対象出願】
(73)【特許権者】
【識別番号】517033230
【氏名又は名称】KPMGコンサルティング株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech特許業務法人
(72)【発明者】
【氏名】磯 智大
(72)【発明者】
【氏名】横山 春樹
(72)【発明者】
【氏名】近藤 昌也
(72)【発明者】
【氏名】大橋 耕也
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2017-078976(JP,A)
【文献】特開2012-068755(JP,A)
【文献】特開2007-133492(JP,A)
【文献】特開2009-282903(JP,A)
【文献】特開2008-225560(JP,A)
【文献】国際公開第2009/123260(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
プロセッサを備えるコンピュータに処理を行わせるプログラムであって、前記プロセッサに、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行させ、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
プログラム。
【請求項2】
前記タグは、階層構造をもつタグを含む請求項1に記載のプログラム
【請求項3】
前記固有表現及び前記タグは、少なくとも事象を表す事象タグと事象に対する分析方法表す分析タグとを含む請求項1又は請求項2に記載のプログラム
【請求項4】
前記固有表現抽出ステップは、固有表現抽出用のモデルを用いて、前記テキスト情報に対して機械学習を用いて固有表現を抽出し、前記タグを付与する請求項1~請求項の何れかに記載のプログラム。
【請求項5】
前記係り受け抽出ステップは、修飾語と被修飾語の関係を係り受けとして解析する請求項1~請求項の何れかに記載のプログラム。
【請求項6】
前記係り受け抽出ステップは、修飾語と被修飾語の関係に加え、予め定めた手がかり表現により解析された単語を係り受けとして解析する請求項に記載のプログラム。
【請求項7】
前記係り受け抽出ステップは、名詞句が係り受けとして抽出されたときに、該名詞句のさらに先を探索して係り受け先を抽出する請求項1~請求項の何れかに記載のプログラム。
【請求項8】
前記共起度算出ステップは、係り受けの組合せ及び、係り受けと単語の組合せ、及び/又は単語と単語の組合せについて共起度を算出する請求項1~請求項の何れかに記載のプログラム。
【請求項9】
前記共起抽出ステップは、共起度が閾値を超える係り受けの組合せを抽出する請求項1~請求項の何れかに記載のプログラム
【請求項10】
前記共起抽出ステップは、選択された係り受けとの共起度が高い方から、指定された数の係り受けの組合せを抽出する請求項1~請求項の何れかに記載のプログラム。
【請求項11】
前記タグは、階層構造をもつタグを含み、前記共起抽出ステップは、選択された前記タグとの共起度に応じて係り受けの組合せを抽出する請求項1~請求項10の何れかに記載のプログラム。
【請求項12】
プロセッサを備えるコンピュータに処理を行わせるための方法であって、前記方法は、前記プロセッサが、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
方法。
【請求項13】
制御部を備える情報解析装置であって、前記制御部が、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
情報解析装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキストデータから固有表現の関連性を解析する情報解析プログラム、情報解析方法及び情報解析装置に関する。
【背景技術】
【0002】
近年の自然後処理技術及び機械学習技術の進歩に伴い、テキストデータをコンピュータが自動的に解析する方法が提案されている。例えば、テキストデータの因果関係を解析することができれば、大量の文献データの中から、当該文献の主要な主張点などを解析することで、効率的に知識を体系化することが可能となる。
【0003】
例えば、特許文献1では、自然言語処理を用いて、因果関係を幅広く解析するための方法を提案している。
【先行技術文献】
【特許文献】
【0004】
【文献】特開平8-221415号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1に開示された方法は、単に因果関係について解析するのみであって、目的と手段、あるいは、方法と効果など、その他の対応関係にまで適用することには触れられていない。
【0006】
例えば、専門技術に関する文献を解析する場面などにおいては、原因・結果という因果関係の解析のみではなく、ある事象と、その事象を裏付けるための実験、試験、検査、根拠などの分析方法といった関係が解析できると、当該文献を体系化するに際して、より本質的な要素を抽出することが可能となる。
【0007】
そこで、本開示では、因果関係の解析に際して、固有表現を抽出した上で、係り受けを抽出することで、キーワードを含んだ係り受けを抽出する。さらに、本開示では、係り受けの共起関係を抽出することにより、より精度の高い因果関係を解析し、また、因果関係の解析に留まらず、ある事象とその分析方法の関係など、様々な単語間の関係を解析することを目的とする。
【課題を解決するための手段】
【0008】
プロセッサとメモリとを備えるコンピュータに実行させるためのプログラムである。プログラムは、プロセッサに、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラムである。
【発明の効果】
【0009】
本開示によれば、自然言語処理を用いて、固有名詞、専門用語などを含むテキストデータに対しても、精度よく因果関係を解析することが可能となる。加えて、因果関係の解析に留まらず、ある事象とその分析方法の関係など、ユーザが所望する様々な単語間の関係を解析することが可能となる。
【図面の簡単な説明】
【0010】
図1】本開示の実施形態1のサーバの全体構成を示す図である。
図2】本開示の実施形態1に係るサーバ構成の一例を示す図である。
図3】固有表現抽出の具体例を示す図である。
図4】係り受けを解析する具体例を示す図である。
図5】固有表現の情報を用いた係り受け解析の具体例を示す図である。
図6】科学技術用語を含む文の具体例を示す図である。
図7】固有表現抽出の具体例を示す図である。
図8】係り受けを解析する具体例を示す図である。
図9】係り受けとして最終的に抽出された具体例を示す図である。
図10】情報解析装置における実施形態1の処理の流れの一例を示すフローチャートである。
図11】本開示の実施形態2に係る情報解析装置の構成の一例を示す図であるャートである。
図12】表示部において係り受けを表示した具体例を示す図である。
図13】表示部において階層構造に着目して係り受けを表示した具体例を示す図である。
図14】情報解析装置における実施形態2の処理の流れの一例を示すフローチャートである。
図15】ネットワークを介した情報解析装置の具体例を示す図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施形態に係る情報解析装置、情報解析方法及び情報解析プログラムを、図面を参照しながら説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。また、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。
【0012】
<実施形態1>
実施形態1では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。
【0013】
<全体構成>
図1は、本実施形態のサーバ10の全体構成を示す図である。サーバ10は、汎用のコンピュータである。サーバ10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC等により実現される。また、サーバ10は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。
【0014】
図1に示すように、サーバ10は、プロセッサ11、メモリ12、ストレージ13、通信IF14、入出力IF15とを備える。
【0015】
プロセッサ11は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。メモリ12は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリにより実現される。ストレージ13は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)により実現される。通信IF14は、サーバ10が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力IF15は、ユーザからの入力を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。
【0016】
<サーバの構成>
以下、サーバ10の構成を詳細に説明する。図2に示すように、本実施形態に係るサーバ10は、通信部101、記憶部102、制御部103とを備える。通信部101は、サーバ10が他の装置と通信するための処理を行う。通信部101は、制御部103で生成された信号に送信処理を施し、外部へ送信する。通信部101は、外部から受信した信号に受信処理を施し、制御部103へ出力する。
【0017】
記憶部102は、例えばフラッシュメモリ等により構成され、サーバ10が使用するデータ、及びプログラムを記憶する。
【0018】
制御部103は、プロセッサ11が記憶部102に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部103は、サーバ10の動作を制御する。具体的には、例えば、制御部103は、テキスト情報取得部1031と、固有表現抽出部1032と、係り受け抽出部1033と、共起度算出部1034と、共起抽出部1035としての機能を発揮する。
【0019】
以下、サーバ10の制御部103における機能的な構成について説明する。
【0020】
テキスト情報取得部1031は、解析対象とするテキストデータを取得する。解析対象とするテキストデータは、複数の文からなるテキストデータが想定される。また、テキスト情報取得部1031は、必ずしもテキストデータそのものを取得すること限られず、文書の画像データを取得した上で、OCR(Optical Character Recognition)などにより、テキスト化してもよい。
【0021】
テキスト情報取得部1031は、入出力インタフェース15を介して、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD等のコンピュータ読み取り可能な記録媒体からテキストデータを取得してもよい。
【0022】
テキスト情報取得部1031は、有線通信又は無線通信を行うためのNIC(Network Interface Card controller)を備える通信IF15を介して、ネットワーク上からテキストデータを取得してもよい。
【0023】
固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する。
【0024】
固有表現とは、データから情報抽出を行う際にキー要素となる表現である。固有表現は、人名、地名、組織名、商品名などの固有名詞、数量、金額、パーセンテージなどの数値表現、日付、時間などの時間表現などを含む。また、固有表現は、特定の物質、構造、機能、処理方法、分析方法、専門用語などを含めてもよい。なお、固有表現は、あらゆる表現の中から、予めその範囲を定義してよい。
【0025】
タグは、固有表現を分類するための識別情報を示すものである。タグは、例えば、「人名」、「地名」などの固有名詞を表すタグ、「数量」、「日付」、「時間」など数値表現を表すタグなどを用意し、固有表現に対して付与してもよい。
【0026】
また、タグは、専門的な文献、自然科学分野の文献の解析を行うことを目的として、「事象」を示す事象タグ、事象に対する「分析方法」を示す分析タグなどのタグを用意してもよい。タグは、予め複数のものを用意しておく。
【0027】
さらに、タグは、階層構造を持たせて定義してもよい。
【0028】
例えば、論文などの専門的な文献、特に自然科学分野の文献では、仮説、状態、結果などある「事象」に対して、その裏付けとなる実験、試験、検査、根拠などの「分析方法」が示されることが想定される。そして、「事象」では、「AがBである」というように、「対象が状態である」といった形で示されることが想定される。また、「分析方法」では、事象を裏付けるために、「AがBである」というように、「試験等により結果となった」といった形で示されることが想定される。
【0029】
上記を踏まえ、例えば、タグは、「事象:対象」、「事象:状態」、「分析:試験方法」、「分析:試験結果」などのように、階層構造を持たせて定義してもよい。なお、この場合、「事象」及び「分析」が上位概念であり、「対象」及び「試験方法」が下位概念として階層構造をもつタグとして定義される。
【0030】
固有表現抽出部1032は、固有表現抽出の方法として、固有表現を表す辞書を予め用意しておき、当該辞書を用いて、入力された文から固有表現を抽出し、タグ付けを行ってもよい。
【0031】
固有表現抽出部1032は、固有表現抽出の方法として、一般的に知られているNER(Named Entity Recognition)などの方法を用いてよい。また、固有表現抽出部1032は、学習用データを用いて、機械学習による固有表現抽出用のモデルを作成した上で、固有表現の抽出を行ってもよい。
【0032】
一般的なNERでは、抽出対象とする固有表現は、固有名詞及び数値表現などである。したがって、固有表現として、これ以外の表現、例えば、事象及び分析方法などを抽出したい場合には、抽出対象としたい表現を対象とした学習用のデータを用意した上で、固有表現抽出用のモデルを作成する。
【0033】
例えば、固有表現抽出部1032は、予め用意したテキストデータに対し、予め定義したタグを付した学習用データを用意し、これらを用いて、固有表現抽出のための機械学習用のモデルを用意しておく。そして、テキスト情報取得部1031が取得した分析対象とするテキストデータを形態素解析した上で、作成したモデルを用いてNERの方法を用いる。これにより、固有表現抽出部1032は、固有表現を抽出した上で、抽出された固有表現に対して予め定義したタグのいずれかを付与する。
【0034】
固有表現抽出部1032において、固有表現を抽出し、タグ付けしておくことで、テキスト情報取得部1031で取得したテキストデータの中から、特に意味をもつ可能性の高い単語をタグ付けし、予め抽出することが可能となる。
【0035】
係り受け抽出部1033は、係り受けを抽出する。これには、一般的に用いられている係り受け解析器を用いてよい。
【0036】
係り受けとは、構文解析を行った際に主語と述語、修飾語と被修飾語の関係等をもつ二つの単語のペアの関係をいう。そして、主語と述語であれば、主語が係り受け元、述語が係り受け先となり、修飾語と被修飾語であれば、修飾語が係り受け元、被修飾語が係り受け先となる。このように、係り受けは、係り受け元と係り受け先のペアからなる。
【0037】
一般的な係り受け解析器では、主語と述語の関係、修飾語と被修飾語の関係を係り受けとして抽出する。係り受け抽出部1033は、これらの双方又はどちらか一方を係り受けとして抽出してよい。
【0038】
また、一般的に用いられている係り受け解析の方法として、「~なので」「~によって」などの手がかり表現を解析し、その前後のキーワードに着目して係り受け抽出を行う方法もある。係り受け抽出部1033は、手がかり表現を用いて、及び/又は主語・述語の関係、修飾語・被修飾語の関係を用いて抽出を行ってもよい。
【0039】
また、一般的な係り受け抽出を行う場合において、W1、W2、W1W2(例えば、W1は「精密」、W2は「機械」、W1W2は「精密機械」など)が固有表現であるとき、W1-W2が係り受けとして抽出されることがある。このとき、名詞句が係り受けとして抽出された場合には、名詞句のさらに先を探索して係り受け先を解析し、W1-W3などの係り受けを抽出してもよい。なお、ここでいう名詞句とは、複数の語からなり、全体として一つの名詞と同じはらたきをするものをいう。
【0040】
係り受け抽出部1033は、テキスト情報取得部1031が取得したテキストデータに対して、係り受けを解析した上で、固有表現抽出部1032によりタグが付された固有表現を含む係り受けを抽出する。このとき、係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出すると、より望ましい。
【0041】
係り受け抽出部1033において、係り受けを抽出することにより、原因と結果、目的と手段、事象と分析方法などのように、何らかの意味をもつ単語間の関係を抽出することが可能となる。
【0042】
また、固有表現を含む係り受け、特に係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出することにより、そのテキストにおいて特に重要な表現を抽出できる。
【0043】
係り受け抽出部1033は、抽出された固有表現を含む係り受けに対して、例えば、W1、W2、W3、W4がいずれも固有表現であるときに、第1の語W1を係り受け元とする第1の係り受けW1-W3と、第2の語W2を係り受け元とする第2の係り受けW2-W4との係り受けがあり、かつ、W1W2となる複合語も固有表現であるときに、W1W2-W3、W1W2-W4のように、W1W2となる複合語を係り受け元とし、第1の係り受けの係り受け先の語W3と第2の係り受けの係り受け先の語W4にも係り受けがあるものとして係り受けを追加して拡張してもよい。なお、複合語とは、本来独立した単語が二つ以上結合して新たに一つの単語としての意味、機能をもつようになった語をいう。
【0044】
なお、係り受け抽出部1033における係り受けの拡張は、二語の複合語に限られず、三語以上の複合語において拡張してもよい。
【0045】
固有表現における係り受けについては、複合語において、それが分節された固有表現の係り受けを複合語に拡張することにより、そのテキストの中で表現したい内容を適切に把握可能となる。
【0046】
また、係り受け抽出部1033は、固有表現を用いて係り受けを拡張することにより、より上位概念の係り受けを生成することも可能となる。
【0047】
共起度算出部1034は、係り受け抽出部1033において抽出した係り受けについて、係り受けごとに、当該係り受けが文中に出現する共起関係を解析し、テキスト情報取得部1031で取得したテキストデータ内において、当該係り受けのいずれかが現れる文の数と、当該係り受けの共起が発生する文の数とを解析し、その割合を共起度として算出する。これには、一般的に用いられている例えば、Jaccard係数などの手法を用いてもよい。
【0048】
共起度算出部1034は、例えば、係り受け抽出部1033において、係り受けW1-W2及びW3-W4が抽出されたときに、テキスト情報取得部1031で取得したテキストデータ内から、W1-W2又はW3-W4の係り受けを含む文の数と、W1-W2及びW3-W4の係り受けを含む文との割合を共起度として算出する。
【0049】
共起度算出部1034により、係り受けに関する共起度の算出をすることで、共起度の高い係り受けの組合せを分析することが可能となる。
【0050】
共起抽出部1035は、係り受けに関する共起度に基づいて係り受けの組合せを抽出する。
【0051】
共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出してもよい。
【0052】
例えば、共起抽出部1035は、閾値をTとして、係り受けKiとKjの共起度をVijとすると、Vij>Tとなる係り受けKiとKjの組合せを抽出してもよい
【0053】
共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、選択されたある係り受けを起点として、共起度の高い方から順に指定された数、すなわち上位N個を抽出してもよい。
【0054】
例えば、係り受けKiとKjの共起度をVijとすると、Kiを起点として、Vijが高いものから上位N件となるKjを抽出してもよい。
【0055】
共起抽出部1035は、例えば、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。
【0056】
共起抽出部1035により、閾値を超える共起度を有し、又はある係り受けを起点とした上位N個の共起関係を抽出することにより、テキストデータにおいて特に意味のある共起関係の組合せを抽出することが可能となり、大量のテキストデータから特に意味があり重要と推測される関係を抽出することが可能となる。
【0057】
(固有表現抽出部1032における処理の具体例)
以下、固有表現抽出部1032の固有表現抽出の具体例を示す。例えば、図3に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。
【0058】
固有表現抽出部1032は、まず、形態素解析を実施し、形態素の列に分解する。その上で、固有表現抽出部1032は、予め定義した「人名」、「地名」、「数量」、「日付」、「時間」のタグを抽出するための学習モデルを用意する。そして、固有表現抽出部1032は、形態素の列に分解された文に対して、タグ付けをしていく。
【0059】
図3の例では、「2006年6月29日」は日付を表し、「小泉」は人名を、「ワシントン」は地名を、「ブッシュ」は人名を表すため、それぞれタグ付けがされる。
【0060】
図3に示すように、固有表現抽出部1032は、固有表現となる単語を抽出した上で、タグ付けを行う。これによって、固有表現が予め定義されたタグに該当する単語を抽出し、分類することが可能となる。
【0061】
(係り受け抽出部1033の処理の具体例)
係り受け抽出部1033の係り受けの抽出の具体例を示す。図4に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部1033は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム-停止」、「停止-発生」、「電源-異常」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」の係り受けを抽出することができる。
【0062】
係り受け抽出部1033は、名詞句があるときは、その先の係り受け先を抽出するため、「電源-異常」の係り受けはスキップされて、「異常-可能性」のみを抽出する。
【0063】
係り受け抽出部1033は、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。
【0064】
例えば、固有表現として「性能」「状態」の二種類のタグが存在するとき、図4の文は、図5に示すように、「システム」=性能、「停止」=状態、「発生」=状態、「電源」=性能、「異常」=状態、「可能性」=状態、「推察」=状態といったタグがつけられる。また、「電源異常」という複合語に対しても「電源異常」=状態といったタグがつけられる
【0065】
係り受け抽出部1033において、係り受けの双方の単語にタグが付された係り受けのみを抽出すると、いずれも係り受け元、係り受け先ともに固有表現としてのタグが付されているため、「システム-停止」、「停止-発生」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」を抽出する。
【0066】
さらに、係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。ここでは、W1=「電源」、W2=「異常」の関係があるから、「電源異常-可能性」、「電源異常-推察」が係り受けとして抽出する。
【0067】
(共起度算出部1034における具体的処理)
共起度算出部1034は、係り受け抽出部1033で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部1033で、W1-W2の係り受けと、W3-W4の係り受けが抽出されたとする。このとき、W1-W2又はW3-W4のいずれか又は両方の係り受けを含む文の数が全部で100文であり、W1-W2及びW3-W4の両方の係り受けを含む文の数が全部で10文あったとき、共起度は、(W1-W2又は/及びW3-W4の係り受けを含む文の数)/(W1―W2及びW3-W4の係り受けを含む文の数)=0.1として算出される。
【0068】
(共起抽出部1035における具体的処理)
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。
【0069】
例えば、係り受けK1,K2,K3があったとき、共起度算出部1034により、K1・K2の共起度は0.5、K1・K3は0.1、K2・K3は0.2と算出され、閾値を0.3として定めると、共起抽出部1035は、閾値を超える共起度を有するK1-K2の共起関係を抽出する。
【0070】
(変形例1:)
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。
【0071】
共起度算出部1034は、係り受け抽出部1033で抽出した係り受けが共起する割合を共起度として算出することに加え、係り受け抽出部1033で抽出した係り受けと、固有表現抽出部1032で固有表現として抽出した単語との共起度、及び/又は、固有表現抽出部1032で固有表現として抽出した単語同士の共起度を算出する。
【0072】
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せにおける共起度に対して、閾値を超える共起度を有する係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出する。このとき、閾値は、係り受けの組合せ、係り受けと単語の組合せ、単語同士の組合せにおいてそれぞれ別の値を設定してもよい。
【0073】
共起抽出部1035は、係り受けの組合せ、係り受けと単語の組合せ、及び/又は単語同士の組合せを抽出するに際して、固有表現抽出部1032で付与したタグについて、特定のタグを付与したものに限定して共起関係を抽出してもよい。
【0074】
上記のように共起関係を抽出することで、係り受けの共起関係に加えて、係り受けと単語、及び/又は単語の共起も抽出し、分析に役立てることが可能となる。
【0075】
(変形例2:専門的な文献の解析例)
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法(実験方法、検査方法)が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の2種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象:症例」、「事象:部位」、「事象:状態」、「分析:検査項目」、「分析:検査結果」のタグを用意し、以下の説明をする。
【0076】
テキスト情報取得部1031は、例えば、科学技術分野の論稿などをテキストデータとして取得する。そして、その中の例文として、図6に示すように、「眼球結膜に黄染が発生した。黄疸症状の可能性を推察し、血液検査でビリルビンの異常を確認した。」との例文が含まれるものとして具体的な処理を示す。
【0077】
固有表現抽出部1032は、固有表現を取得して、タグ付けを行う。例えば、図6に示す文は、図7に示すように、「眼球」=事象:部位、「結膜」=事象:部位、「黄染」=事象:状態、「発生」=事象:状態、「黄疸」=事象:症例、「症状」=事象:状態、「可能性」=事象:状態、「推察」=事象:状態、「血液」=事象、部位、「検査」=分析:検査項目、「ビリルビン」=分析:検査項目、「異常」=分析:検査結果、「確認」=事象:状態として固有表現を抽出し、タグ付けを行う。
【0078】
さらに、固有表現抽出部1032は、複合語に対しても、「眼球結膜」=事象:部位、「黄疸症状」=事象:症例、「血液検査」=分析:検査項目のようにタグ付けを行う。複合語に対してもタグ付けを行った具体例を示しているのが図8である。
【0079】
係り受け抽出部1033は、係り受けの抽出を行う。図7のように固有表現が抽出された文に対して、固有表現を含む係り受けを解析すると、図9左側のようになる。すなわち、「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「発生-した」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」、「確認-した」を係り受けとして抽出する。
【0080】
係り受け抽出部1033は、名詞句があるときは、さらにその先の係り受けを探索して抽出するため、「眼球-結膜」、「黄疸-症状」、「血液-検査」は抽出されず、図9の右側のような係り受けを抽出する。
【0081】
係り受け抽出部1033は、さらに、係り受け元及び係り受け先のいずれもが、固有表現抽出部1032によって、固有表現として、タグを付した係り受けのみを抽出する。すなわち、図9右側で丸が付されている「眼球-結膜」、「眼球-黄染」、「結膜-黄染」、「結膜-発生」、「黄染-発生」、「黄疸-症状」、「黄疸-可能性」、「症状-可能性」、「症状-推察」、「可能性-推察」、「血液-検査」、「血液-異常」、「検査-異常」、「検査-確認」、「ビリルビン-異常」、「ビリルビン-確認」、「異常-確認」を係り受けとして抽出する。
【0082】
係り受け抽出部1033は、W1-W3、W2-W4の関係があり、W1W2が固有表現であるとき、W1W2-W3、W1W2-W4の係り受けに拡張する。例えば、「眼球-黄染」「結膜-黄染」「結膜-発生」は、「眼球結膜-黄染」「眼球結膜-発生」となり、「黄疸-可能性」「症状-可能性」「症状-推察」は「黄疸症状-可能性」「黄疸症状-推察」となり、「血液-異常」「検査-異常」「検査-確認」は「血液検査-異常」「血液検査-確認」となる。すなわち、係り受け抽出部1033は、図7下部右側に示す係り受けを抽出する。
【0083】
共起度算出部1034は、一般的に用いられている例えば、Jaccard係数などの手法を用いて、共起度を算出する。本変形例では、特に、事象に関する観点と、分析に関する観点の二つから共起度を算出する。
【0084】
まず、事象に関する観点では、係り受け元を事象とし、係り受け先も事象とする係り受けについて共起度を抽出する。すなわち、事象に関するW1-W2という係り受けと、W3-W4という係り受けがあるときに、W1-W2及びW3-W4のいずれも含む文の数を、W1-W2及び/又はW3-W4の係り受けがある文の数で割る(除する)ことによって、共起度を算出する。
【0085】
次に、分析に関する観点では、係り受け元と係り受け先のいずれも事象をタグとする係り受けに加え、分析をタグとする単語との組み合わせについて共起度を算出してもよい。つまり、W1-W2の事象タグが付された係り受けとB1の分析タグのワードがあるとき、W1-W2の係り受けとB1を含む文のいずれも含む文の数を、W1-W2の係り受け及び/又はB1のワードを含む文の数で割る(除する)ことによって、共起度を算出する。
【0086】
例えば、テキスト中に、W1-W2、W3-W4の事象に関する係り受けと、B1、B2の分析タグが付されたワードがあるとき、(W1-W2,B1)(W1-W2,B2)(W3-W4,B1)(W3-W4,B2)のいずれの組み合せについても共起度を算出する。
【0087】
共起抽出部1035は、事象の観点、分析の観点それぞれにおいて、共起度が閾値を超える組合せを抽出する。
【0088】
共起抽出部1035は、テキストが階層構造を有するタグが付されている場合、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。
【0089】
(処理の流れ)
図10は、本開示の実施形態1における情報解析装置の処理の流れを示す。
【0090】
テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。
【0091】
固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。
【0092】
係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを解析する(ステップS1033)。
【0093】
係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。
【0094】
共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。
【0095】
共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。
【0096】
(効果)
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。
【0097】
加えて、係り受け及び共起度を算出し、共起度の高い係り受けを抽出することが可能となることにより、取得した文献から、専門用語などを含む内容に対しても、因果関係、及び/又は事象と分析方法の関係などを解析することが可能となる。
【0098】
<実施形態2>
実施形態2では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。
【0099】
<情報解析装置の構成>
図11に本実施形態におけるサーバ20の構成を示す。サーバ20の制御部203は、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035、表示部2036を備える。なお、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035はサーバ10の制御部103と同様である。
【0100】
表示部2036は、共起抽出部1035において解析された係り受けの組合せについて、ユーザに対して視覚的に表現して表示する。具体的には、係り受けのある係り受け元の単語と係り受け先の単語を表示した上で、係り受けを線で結び、ネットワーク図の形で表現してもよい。
【0101】
表示部2036は、事象タグでタグ付けされた単語の係り受け関係と、分析タグでタグ付けされた単語の組合せについて、ユーザに対して視覚的に表現して表示してもよい。
【0102】
表示部2036は、テキスト階層構造を有するタグが付されたときに、階層構造も含めて係り受けの組合せを表示してもよい。
【0103】
表示部2036は、共起度の大きさに応じて、ネットワーク図の線の太さを変えたり、色を変えたりすることで表現してもよい。また、表示部2036は、共起度を併せて示してもよい。
【0104】
(具体例)
図12に表示部2036が表示する係り受けの視覚的表現の具体例を示す。表示部2036は、係り受け抽出部1033により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図12の例では、事象について、「システム-停止」「電源-可能性」「電源-異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図12の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。
【0105】
表示部2036は、共起抽出部1035がタグの階層構造を考慮して共起関係を抽出するとき、タグの階層構造を考慮して表示してもよい。
【0106】
例えば、分析方法のタグについて、「分析:原因特定方法」のタグがあり、「部品目視確認」「電圧測定」に付されており、「分析:対象物」のタグがあり、「コンデンサ」「冷却装置」に付されており、「分析:測定機器」のタグがあり、「テスター」に付されているとする。ここで、「分析:原因特定方法」に着目して共起関係を抽出すると、事象における共起関係と、「分析:原因特定方法」の関係が抽出されて図示される。
【0107】
図13に表示部2036が表示する係り受けについて、「分析:原因特定方法」に着目して共起関係を抽出したときの視覚的表現の具体例を示す。図12と比較すると、着目している共起関係のみが抽出されるため、より関係性の把握がしやすくなる。
【0108】
なお、図13では、「分析:原因特定方法」に着目しているため、係り受けと、かかるタグが付された単語との間の共起関係しか抽出されない。一方で、「コンデンサ」、「冷却装置」、「テスター」は、「部品目視確認」又は「電圧測定」の単語との間で共起関係があるため、それらと結びついて共起関係が抽出され、図示されている。
【0109】
表示部2036は、共起度算出部1034で算出された共起度をネットワーク図と合わせて表示してもよい。
【0110】
このように、視覚的な表現を用いることにより、係り受けのみならず、重要なワードの関係をユーザに視覚的に分かりやすく理解させることが可能となる。
【0111】
(処理の流れ)
図14は、本開示の実施形態2における情報解析装置の処理の流れを示す。
【0112】
テキスト情報取得部1031は、解析対象とするテキストデータを取得する(ステップS1031)。
【0113】
固有表現抽出部1032は、テキスト情報取得部1031で取得したテキストデータに対して、固有表現を抽出し、タグを付与する(ステップS1032)。なお、タグの種類は予め定めておいてよい。
【0114】
係り受け抽出部1033は、固有表現が抽出されたテキストデータに対して、係り受けを抽出する(ステップS1033)。
【0115】
係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部1032によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。
【0116】
共起度算出部1034は、抽出された係り受けのワードに対して、共起度を算出する(ステップS1034)。
【0117】
共起抽出部1035は、閾値を超える共起度を有する係り受けの組合せを抽出する(ステップS1035)。
【0118】
表示部2036は、係り受けについて、視覚的表現を用いてユーザに対して表示させる(ステップS2036)。このとき、表示部2036は、共起度を併せて表示し、また、共起度に応じて表示方法を変更させてもよい。
【0119】
(効果)
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。
【0120】
特に専門分野、科学技術などの文献では、専門用語が多いため、これまで一般的に用いられている自然言語の処理方法では重要あるいは意味のあるワードを抽出することが難しかったが、これを的確に抽出した上で表現することが可能となる。
【0121】
以上で実施形態の説明を終了するが、上記実施形態は一例に過ぎない。そのため、サーバ10、20の具体的な構成、処理内容等は上記実施形態で説明したものに限られない。
【0122】
本開示に係る情報解析装置は、例えば、スタンドアロンで動作するコンピュータ上に実現されることに留まらず、例えばサーバ型コンピュータとして動作させてもよい。
【0123】
例えば、図15に示すように、サーバ10と、ユーザが操作するユーザ端末30とをネットワークを介して接続させ、ユーザ端末30から操作させて、サーバ10に文献を解析させ、その結果をユーザ端末30に表示させてもよい。
【0124】
また、本開示に係る情報解析装置は、上記装置によらず、例えば、コンピュータがプログラムを実行することで、その機能を実現してもよい。情報解析装置の機能を実現するためのプログラムは、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、HDD(Hard Disc Drive)等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。
【0125】
以上、本開示の好ましい実施形態について説明したが、本開示は係る特定の実施形態に限定されるものではなく、本開示には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。また、上記実施形態及び変形例で説明した装置の構成は、技術的な矛盾が生じない限り、適宜組み合わせ可能である。
【符号の説明】
【0126】
10,20…サーバ、11…プロセッサ、12…メモリ、13…ストレージ、14…通信IF、15…入出力IF、30…ユーザ端末、101…通信部、102…記憶部、103…制御部、1031…テキスト情報取得部、1032…固有表現抽出部、1033…係り受け抽出部、1034…共起度算出部、1035…共起抽出部、2036…表示部、211…表示部が表示させる具体例

【要約】
【課題】
固有表現を抽出した上で、文章の因果関係を解析することで、専門用語などにも対応したキーワードの対応関係を解析する。
【解決手段】
情報解析プログラムは、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップを実行させるプログラムである。
【選択図】図2

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15