(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5742598
(24)【登録日】2015年5月15日
(45)【発行日】2015年7月1日
(54)【発明の名称】含意関係判定装置及びプログラム
(51)【国際特許分類】
G06F 17/30 20060101AFI20150611BHJP
【FI】
G06F17/30 350C
G06F17/30 170A
【請求項の数】4
【全頁数】8
(21)【出願番号】特願2011-188486(P2011-188486)
(22)【出願日】2011年8月31日
(65)【公開番号】特開2013-50853(P2013-50853A)
(43)【公開日】2013年3月14日
【審査請求日】2014年7月11日
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士ゼロックス株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】特許業務法人はるか国際特許事務所
(72)【発明者】
【氏名】梅基 宏
【審査官】
松田 直也
(56)【参考文献】
【文献】
特開2008−217157(JP,A)
【文献】
宇高 邦弘、山本 和英,複数の客観的手法を用いたテキスト含意認識評価セットの構築,言語処理学会第17回年次大会発表論文集[CD−ROM],日本,言語処理学会,2011年 3月 7日,p.627-630
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、
それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、
第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、
前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段と、
を含む含意関係判定装置。
【請求項2】
前記判定手段は、
前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、
を特徴とする請求項1に記載の含意関係判定装置。
【請求項3】
前記ラベル決定手段は、
前記第1のテキストの特徴量と、前記学習結果と、に基づいて前記第1のテキストの分類を示すラベルテキストを決定する第1ラベル決定手段と、
前記第2のテキストの特徴量と、前記学習結果と、に基づいて前記第2のテキストの分類を示すラベルテキストを決定する第2ラベル決定手段と、
を含み、
前記判定手段は、
前記第1のテキストの分類を示すラベルテキストと、前記第2のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、
を特徴とする請求項1に記載の含意関係判定装置。
【請求項4】
記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、
それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、
第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、
前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段、
としてコンピュータを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、含意関係判定装置及びプログラムに関する。
【背景技術】
【0002】
下記特許文献1には、ある使用頻度以上の単語である軸単語を修飾する単語を特徴単語としてテキストから抽出すること、が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−285418号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、構造化文書において、見出しを示す見出しテキストと当該見出しの本文を示す本文テキストとの関係を用いて、判定対象となるそれぞれのテキストの含意関係の有無の判定を実施する技術を提供することである。
【課題を解決するための手段】
【0005】
上記課題を解決するための請求項1の発明は、記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段と、を含む含意関係判定装置である。
【0006】
また、請求項2の発明は、請求項1の発明において、前記判定手段は、前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、を特徴とする。
【0007】
また、請求項3の発明は、請求項1の発明において、前記ラベル決定手段は、前記第1のテキストの特徴量と、前記学習結果と、に基づいて前記第1のテキストの分類を示すラベルテキストを決定する第1ラベル決定手段と、前記第2のテキストの特徴量と、前記学習結果と、に基づいて前記第2のテキストの分類を示すラベルテキストを決定する第2ラベル決定手段と、を含み、前記判定手段は、前記第1のテキストの分類を示すラベルテキストと、前記第2のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定することを特徴とする。
【0008】
上記課題を解決するための請求項4の発明は、記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段、としてコンピュータを機能させるプログラムである。
【発明の効果】
【0009】
請求項1、4の発明によれば、本発明の構成を有していない場合と比較して、判定対象となるそれぞれのテキストの含意関係の有無の判定精度をより向上させることができる。
【0010】
請求項2の発明によれば、ラベルテキストが他方のテキストに含まれるか否かを判定し、判定対象となるそれぞれのテキストの含意関係の有無を判定することができる。
【0011】
請求項3の発明によれば、判定対象となるそれぞれのテキストのラベルテキストを決定し、当該ラベルテキストが一致するか否かに応じて、判定対象となるそれぞれのテキストの含意関係の有無を判定することができる。
【図面の簡単な説明】
【0012】
【
図1】含意関係判定装置の構成を例示する図である。
【
図2A】HTMLデータにより示される文書を例示する図である。
【
図4】制御部が実行する処理を例示するフロー図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態の例について図面に基づき詳細に説明する。
【0014】
[含意関係判定装置]
図1は、本発明の一実施形態に係る含意関係判定装置1の構成を例示する図である。同図に示すように、含意関係判定装置1は、一般的なコンピュータであり、制御部2、主記憶4、ハードディスク6、及びネットワークインタフェース8を備える。また、含意関係判定装置1は、液晶モニタ及びCRTモニタ等の表示手段(不図示)、及びキーボード等の操作手段(不図示)なども備えている。また、
図1に示すように、含意関係判定装置1は、ネットワークを介して構造化文書データベース10とデータ授受可能である。
【0015】
制御部2は、マイクロプロセッサであり、主記憶6に記憶されるプログラムに従って各種情報処理を実行する。主記憶6は、上記プログラムを格納している。このプログラムは、DVD(登録商標)−ROM等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶6に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶6に格納されてもよい。また、主記憶6には、情報処理の過程で必要となる各種データも格納される。
【0016】
ハードディスク6は、各種情報を記憶する。本実施形態の場合、ハードディスク6は、含意関係の有無の判定対象となる第1テキスト及び第2テキストとを記憶する。また、ハードディスク6は、見出し語データベースを記憶する(
図3参照)。見出し語データベースについては後に詳しく説明する。
【0017】
ネットワークインタフェース8は、含意関係判定装置1をネットワークと接続するためのインタフェースである。上述のように、含意関係判定装置1は、ネットワークを介して、構造化文書データベース10とデータ授受可能である。
【0018】
[構造化文書データベース]
次に構造化文書データベース10について説明する。構造化文書データベース10(記憶手段)は、データベースサーバであり、複数の構造化文書を記憶している。構造化文書は、複数のテキストと、文書構造を示す情報と、を含む。ここでは、構造化文書データベース10は、オンライン百科事典サービス提供業者のデータベースサーバであり、構造化文書として、HTMLデータを記憶している。
図2Aは、あるHTMLデータにより示される文書を例示する図である。文書には、1つの事物を説明する記事が記載されている。この記事は、オンライン百科事典サービスの利用者により記述され、見出しを示すテキスト(以下、見出しテキストと表記する)と、見出しの本文を示すテキスト(以下、本文テキストと表記する)と、を含む。
図2Aでは、文書に「山田太郎」を説明する記事が記載されている。また、「山田太郎」を説明する記事には、一点鎖線で囲まれる見出しテキスト12aと、一点鎖線で囲まれる本文テキスト12bと、が含まれる。なお、図示していないが、
図2Aに示す記事には、見出しテキスト12a以外の見出しテキスト(例えば、「山田太郎の性格」)が含まれるし、本文テキスト12b以外の本文テキスト(例えば、見出し「山田太郎の性格」の本文を示す本文テキスト)も含まれる。
【0019】
図2Bは、HTMLデータを例示する図である。HTMLデータには、見出しタグと段落タグとが含まれる。見出しタグや段落タブが文書構造を示す情報に相当する。
図2Bでは、タグ<h1></h1>が見出しタグに相当し、タグ<p></p>が段落タグに相当する。見出しタグの間に囲まれるテキストが見出しを示す見出しテキストに相当し、当該見出しタグの後の段落タグに囲まれるテキストが当該見出しの本文を示す本文テキストに相当する。
【0020】
[処理]
この含意関係判定装置1では、第1テキストと第2テキストとの間の含意関係の有無が判定されるようになっている。ここにおいて、この含意関係判定装置1では、制御部2が、含意関係の有無の判定精度向上のため、以下の処理(以下、前処理と表記する)を実行するようになっている。
【0021】
すなわち、制御部2は、構造化文書データベース10に記憶される構造化文書を読み出し、各構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を取得する。本実施形態の場合、制御部2は、各構造化文書中から、見出しタグに囲まれる見出しテキストと、当該見出しタグの後の段落タグに囲まれる本文テキストと、の対を取得する。例えば、
図2Bに示す構造化文書の場合、見出しテキスト「山田太郎の略歴」と、本文テキスト「1970年にUSAで生まれ、2000年に東北大学を卒業した。」と、の対が一つの対として取得される。
【0022】
また、制御部2は、取得した対に含まれる見出しテキストに対して形態素解析、構文解析、及び意味解析等の各種自然言語処理を行ってから、公知の主辞抽出を行うことにより、見出しテキストの主辞を見出し語として特定する。例えば、「山田太郎の略歴」からは「略歴」が見出し語として特定される。また、制御部2は、取得した対に含まれる本文テキストに対しても形態素解析、構文解析、及び意味解析等の各種自然言語処理を行うことにより、本文テキストの特徴を表す複数の素性を抽出し、各素性を成分とする特徴ベクトル(特徴量)を取得する。ここでは、素性は、本文テキストに含まれる単語の本文テキストにおける出現回数である。そして、制御部2は、1つの対から取得された見出し語及び特徴ベクトルを含むレコードを生成し、生成したレコードを
図3に示す見出し語データベースに格納する。
【0023】
このようにして、複数の構造化文書から取得された対の各々からレコードが生成され、各レコードが見出し語データベースに格納される。
【0024】
そして、制御部2(学習手段)は、例えば、サポートベクターマシン法等の機械学習アルゴリズムに従って各レコードに含まれる特徴ベクトルを当該レコードに含まれる見出し語を教師データとして学習することによって、学習分類器を生成し、生成した学習分類器をハードディスク6に記憶する。以上が、前処理の具体的内容である。
【0025】
この含意関係判定装置1では、この学習分類器に基づき、第1テキストと第2テキストの間の含意関係の有無が判定される。
図4は、含意関係の有無の判定の際に、制御部2により実行される処理を例示するフロー図である。
【0026】
まず、制御部2は、第1テキスト及び第2テキストを取得する(S101)。例えば、制御部2は、第1テキスト及び第2テキストとをハードディスク6から読み出す。
【0027】
また、制御部2は、上述の前処理で本文テキストから特徴ベクトルを取得したときと同様にして、第1テキスト及び第2テキストの各々から特徴ベクトルを取得する(S102)。
【0028】
そして、制御部2(第1ラベル決定手段)は、第1テキストから取得された特徴ベクトルと上記学習分類器とに基づいて見出し語データベースに格納される見出し語のうちで当該特徴ベクトルに対応する見出し語を特定し、特定した見出し語を第1テキストの種別を示すラベル語(ラベルテキスト)として決定する(S103)。なお、制御部2は、特定した見出し語の類語、上位概念語をシソーラスやオントロジ辞書に基づいて特定し、特定した類語、上位概念語をラベル語として決定してもよい。
【0029】
また、制御部2(第2ラベル決定手段)は、第2テキストから取得された特徴ベクトルと上記学習分類器とに基づいて見出し語データベースに格納される見出し語のうちで当該特徴ベクトルに対応する見出し語を特定し、特定した見出し語を第2テキストの種別を示すラベル語(ラベルテキスト)として決定する(S104)。なお、制御部2は、特定した見出し語の類義語、上位概念語をシソーラスやオントロジ辞書に基づいて特定し、特定した類義語、上位概念語をラベル語として決定してもよい。
【0030】
そして、制御部2は、公知のトピック抽出処理を行って、第1テキスト及び第2テキストの各々のトピックを表すテキストを特定する(S105)。例えば、制御部2は、第1テキストに含まれる各単語の品詞、各単語の文中の位置、及び単語間の関係(係り受け関係、照応関係)等を特定し、これらに基づいて第1テキストから抽出される単語、フレーズを第1テキストのトピックとして特定する。なお、制御部2は、上記単語、フレーズの類義語、上位概念語を第1テキストのトピックとして特定してもよいし、潜在的ディリクレ配分法により上記単語、フレーズに割り当てられる潜在的トピックを、第1テキストのトピックとして特定してもよい。
【0031】
そして、制御部2(判定手段)は、第1テキストのトピック及びラベル語がともに第2テキストに含まれるか否かを判定する(S106)。第1テキストのトピック及びラベル語の少なくとも一方が、第2テキストに含まれない場合(S106のNO)、制御部2(判定手段)は、第2テキストのトピック及びラベル語がともに第1テキストに含まれるか否かを判定する(S107)。第2テキストのトピック及びラベル語の少なくとも一方が、第1テキストに含まれない場合(S107のNO)、制御部2(判定手段)は、第1テキストのトピックと第2テキストのトピックとが同じであり、且つ、第1テキストのラベル語と第2テキストのラベル語とが同じであるか否かを判定する(S108)。そして、制御部2(判定手段)は、第1テキストのトピックと第2テキストのトピックとが異なるか、又は、第1テキストのラベル語と第2テキストのラベル語とが異なる場合(S108のNO)、第1テキストと第2テキストとの間に含意関係は無いと判定する(S109)。
【0032】
一方、制御部2(判定手段)は、第1テキストのトピック及びラベル語がともに第2テキストに含まれる場合(S106のYES)、第2テキストのトピック及びラベル語がともに第1テキストに含まれる場合(S107のYES)、又は第1テキストのトピックと第2テキストの主辞とが同じであり、且つ、第1テキストのラベル語と第2テキストのラベル語とが同じである場合(S108のYES)、第1テキストと第2テキストとの間に含意関係は有ると判定し(S110)、第1テキストと第2テキストとを関連付ける。
【0033】
上述のように、構造化文書データベース10に格納される記事はオンライン百科事典サービスの利用者、すなわち「人間」により記述されるため、人間により記述される見出しと本文との間には含意関係がある可能性が高い。そのため、見出しとその本文とから生成された学習分類器を用いることで、含意関係の有無の判定精度の向上が見込まれる。
【0034】
なお、本発明の実施形態は上記実施形態だけに限らない。
【0035】
例えば、含意関係の有無の判定に、いわゆる重要度や確信度などの確率値が用いられてよい。
【0036】
また、例えば、ユーザが入力した検索キーワードと、当該検索キーワードが入力されたときの検索結果に含まれるテキストの特徴ベクトルと、の対が記憶されてもよい。そして、制御部2が、記憶される上記対に基づいて学習分類器をもう一つ生成し、この学習分類器をさらに用いて第1テキスト及び第2テキストのラベル語を決定してもよい。
【符号の説明】
【0037】
1 含意関係判定装置、2 制御部、4 主記憶、6 ハードディスク、8 ネットワークインタフェース、10 構造化文書データベース、12a 見出しテキスト、12b 本文テキスト。