(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165421
(43)【公開日】2024-11-28
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20241121BHJP
【FI】
G06F40/279
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023081610
(22)【出願日】2023-05-17
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(国立研究開発法人新エネルギー・産業技術総合開発機構「人と共に進化する次世代人工知能に関する技術開発事業/人の意図や知識を理解して学習するAIの基盤技術開発/人とAIの協調を進化させるセマンティックオーサリング基盤の開発」委託研究、産業技術力強化法第17条の適用を受ける特許出願)
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】前橋 祐斗
(57)【要約】
【課題】 文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得する。
【解決手段】 本発明は、情報処理装置に関する。そして、本発明の情報処理装置は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、重要文抽出手段が重要文として抽出した文に基づいて入力文書を要約した要約を生成する要約生成手段とを有することを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、
前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、
前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段と
を有することを特徴とする情報処理装置。
【請求項2】
前記入力文書が入力されると、前記入力文書に基づいて前記グラフ文書を生成するグラフ生成手段をさらに備え、
前記グラフ文書保持手段は、前記グラフ生成手段が生成した前記グラフ文書を保持する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記グラフ生成手段は、前記入力文書を所定の単位の文で分割して、分割した文の集合体を取得し、取得した前記文の集合体を構成する各文をノードとし各ノード間の論理関係をエッジとするグラフ構造のデータを前記グラフ文書として生成することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記重要文抽出手段は、前記グラフ文書においてグラフ形式で表された論理構造を行列の形式で表した論理構造行列を生成し、前記論理構造行列に基づく固有ベクトルから、前記グラフ文書を構成する各ノードに対応する文の重要度を取得し、取得した重要度に基づいて前記文の集合体から1又は複数の文を重要文として抽出することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記重要文抽出手段は、前記グラフ文書を構成する各エッジの論理関係を数値表現に変換する数値変換処理を行って変換済グラフ文書を生成し、前記変換済グラフ文書に基づいて前記論理構造行列を生成することを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記重要文抽出手段は、機械学習済の学習モデルに基づき前記数値変換処理を行うことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
コンピュータを、
複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、
前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、
前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段と
して機能させることを特徴とする情報処理プログラム。
【請求項8】
情報処理装置が行う情報処理方法において、
前記情報処理装置は、グラフ文書保持手段、重要文抽出手段及び要約生成手段を有し、
前記グラフ文書保持手段は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持し、
前記重要文抽出手段は、前記グラフ文書から、1又は複数の文を重要文として抽出し、
前記要約生成手段は、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、情報処理装置、情報処理方法及び情報処理プログラムに関し、例えば、文書を要約する処理に適用し得る。
【背景技術】
【0002】
従来、文書(文を含むデータ)を自動要約する手法には、大きく分けて、「抽出型要約」と「抽象型要約」の2種類の手法が存在する。抽出型要約は、文書中の文から重要度の高い文を抽出し、それらを組み合わせたものを要約とする手法である。抽象型要約は、ニューラルネットワーク等の生成モデルに要約対象の文書を入力することで、要約を生成する手法である。抽象型要約は、要約の長さを制御しやすい反面、入力文書の内容とは異なる要約が生成されることがある。つまり、情報に誤りがなく且つ正確な要約が必要な場面では、抽出型要約を用いるのが好ましい。
【0003】
ところで、従来の抽出型要約では、特許文献1や非特許文献1に開示されるように、文書中に含まれる文同士の類似度を基にグラフを作成し、グラフ構造から各文の重要度を算出するという手法が用いられてきた。例えば、特許文献1に記載された自動要約手法では、文書中に含まれる文同士の類似度に加えて、ユーザの選好度が反映されたキーワードと、文書中の各文との関連度を用いて、各文の重要度を算出している。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Erkan, Guenes, and Dragomir R. Radev. "Lexrank: Graph-based lexical centrality as salience in text summarization." Journal of artificial intelligence research 22 (2004): 457-479.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載された自動要約手法では、文書に含まれる各文の重要度を算出する上で、各文の出現順序や文同士の関係が無視されており、文書の論理構造が考慮されていないという問題点があった。
【0007】
以上のような問題点に鑑みて、文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得する情報処理装置、情報処理方法及び情報処理プログラムが望まれている。
【課題を解決するための手段】
【0008】
第1の本発明の情報処理装置は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段とを有することを特徴とする。
【0009】
第2の本発明の情報処理プログラムは、コンピュータを、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段として機能させることを特徴とする。
【0010】
第3の本発明は、情報処理装置が行う情報処理方法において、前記情報処理装置は、グラフ文書保持手段、重要文抽出手段及び要約生成手段を有し、前記グラフ文書保持手段は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持し、前記重要文抽出手段は、前記グラフ文書から、1又は複数の文を重要文として抽出し、前記要約生成手段は、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成することを特徴とする。
【0011】
また、第1の本発明において、前記入力文書が入力されると、前記入力文書に基づいて前記グラフ文書を生成するグラフ生成手段をさらに備え、前記グラフ文書保持手段は、前記グラフ生成手段が生成した前記グラフ文書を保持するようにしてもよい。
【0012】
さらに、第1の本発明において、前記グラフ生成手段は、前記入力文書を所定の単位の文で分割して、分割した文の集合体を取得し、取得した前記文の集合体を構成する各文をノードとし各ノード間の論理関係をエッジとするグラフ構造のデータを前記グラフ文書として生成することを特徴とするようにしてもよい。
【0013】
さらにまた、第1本発明において、前記重要文抽出手段は、前記グラフ文書においてグラフ形式で表された論理構造を行列の形式で表した論理構造行列を生成し、前記論理構造行列に基づく固有ベクトルから、前記グラフ文書を構成する各ノードに対応する文の重要度を取得し、取得した重要度に基づいて前記文の集合体から1又は複数の文を重要文として抽出するようにしてもよい。
【0014】
また、第1の本発明において、前記重要文抽出手段は、前記グラフ文書を構成する各エッジの論理関係を数値表現に変換する数値変換処理を行って変換済グラフ文書を生成し、前記変換済グラフ文書に基づいて前記論理構造行列を生成するようにしてもよい。
【0015】
さらに、第1の本発明において、前記重要文抽出手段は、機械学習済の学習モデルに基づき前記数値変換処理を行うようにしてもよい。
【発明の効果】
【0016】
本発明によれば、文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得することができる。
【図面の簡単な説明】
【0017】
【
図1】実施形態に係る文書要約装置の機能的構成について示したブロック図である。
【
図2】実施形態に係るグラフ文書の構造について示した図である。
【
図3】実施形態に係る文書要約装置の動作について示したフローチャートである。
【
図4】実施形態に係る重要文抽出部による重要文抽出処理の具体例について示したフローチャートである。
【
図5】実施形態に係る文書要約装置で用いられる数値変換テーブルの構成例について示した図である。
【
図6】実施形態に係る文書要約装置で用いられるグラフ文書の各エッジのラベル(論理関係)について数値変換処理を施した状態の例について示した図である。
【発明を実施するための形態】
【0018】
(A)主たる実施形態
以下、本発明による情報処理装置、情報処理方法及び情報処理プログラムの一実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の情報処理装置、情報処理方法及び情報処理プログラムを文書要約装置に適用する例について説明する。
【0019】
(A-1)実施形態の構成
図1は、この実施形態に係る文書要約装置10の機能的構成について示したブロック図である。
【0020】
文書要約装置10は、複数の文により構成される文書を含む入力データについて要約する文書要約処理を行い、要約を含む出力データを出力する装置である。以下では、入力データに含まれる文書を「入力文書」と呼ぶものとする。なお、要約には1または複数の文が含まれる。
【0021】
文書要約装置10は、文書入力部11、前処理部12、重要文抽出部13、要約生成部14、及び要約出力部15を有している。
【0022】
文書要約装置10は、全てハードウェア(例えば、専用の半導体チップ等)により構成するようにしてもよいし、一部又は全部をコンピュータプログラム(ソフトウェア)により構成するようにしてもよい。例えば、文書要約装置10は、メモリやプロセッサ等を備える図示しないコンピュータにプログラム(実施形態に係る「情報処理プログラム」を含む)をインストールすることにより実現するようにしてもよい。
【0023】
文書入力部11は、入力データ(入力文書)の入力を受け付ける処理を行う。文書入力部11において、入力データの供給を受ける手段は限定されないものであり種々の手段を適用することができる。文書入力部11は、例えば、通信により他の装置から入力データの供給を受けるようにしてもよいし、データ記録媒体(例えば、USBメモリやハードディスク等のデータ記録媒体)からオフラインでデータ供給を受けるようにしてもよいし、ユーザから手動により入力(例えば、図示しないキーボード等の入力デバイスを用いて入力)を受け付けるようにしてもよい。
【0024】
前処理部12は、入力データに含まれる文書について前処理(詳細については後述する)する機能を担っている。前処理部12は、文書分割部121とグラフ生成部122を有している。
【0025】
文書分割部121は、入力文書を文単位に分割する処理を行う。以下では、入力文書から分割された各文を「分割文」と呼ぶものとする。文書分割部121は、入力文書から複数の分割文を取得し、取得した分割文の集合体を出力する。文書分割部121が入力文書を分割する手法については限定されないものであり、種々の手法を用いることができる。文書分割部121は、所定のアルゴリズムに従って分割文を抽出(例えば、入力文書に含まれる句読点等の記号や改行コード等に基づいて分割文を抽出)するようにしてもよいし、あらかじめ「プレーンテキスト」と「分割文の集合体」(正解となる分割文の集合体)のペアを教師データとして学習した機械学習モデルを用いて分割文を抽出するようにしてもよい。
【0026】
グラフ生成部122は、文書分割部121により取得された分割文の集合体を用いて、グラフ形式(グラフ構造)の文書(以下、「グラフ文書」と呼ぶ)を生成する処理を行う。
【0027】
図2は、この実施形態におけるグラフ文書の構造について示した図である。
【0028】
図2は、「明日は雨が降ります。遠足は中止します。降水確率は90%です」というプレーンテキストの入力文書に基づくグラフ文書の構造の例について示している。
【0029】
図2に示すように、この実施形態のグラフ文書では、各分割文が1つのノード(Node)に割り当てられ、各エッジ(Edge)が両端のノード間(分割文間)の論理関係(関係性)を示しているものとする。
図2では、各ノードを矩形のシンボルで示し、ノード間のエッジを矢印で図示している。この実施形態のグラフ文書において、各エッジには矢印の向きに指向性(向)が付与されているものとする。
図2では、各ノードのシンボルに分割文が付記され、各エッジの矢印に論理関係を示すラベルが付記されている。
【0030】
エッジに対応する論理関係(2つの分割文の間の論理関係)としては、例えば、「理由」、「補足」、「例示」等のパターンが挙げられる。この実施形態において、グラフ文書の具体的なデータ形式については限定されないものであり、例えば、種々のグラフ形式のデータベース(データベースを構成するミドルウェア)等のデータ構造を適用することができる。
【0031】
図2に示すグラフ文書の構造例では、上記の入力文書(プレーンテキスト)から「明日は雨が降ります」、「遠足は中止します」、「降水確率は90%です」という3つの分割文が抽出され、それぞれの分割文に対してノードX1、X2、X3が割り当てられている。また、
図2に示す、グラフ文書の構造例では、ノードX1(明日は雨が降ります)からノードX2(遠足は中止します)へ向けて、「結果」というラベル(論理関係)が付与されたエッジE1が設定されている。さらに、
図2に示す、グラフ文書の構造例では、ノードX1(明日は雨が降ります)からノードX3(降水確率は90%です)へ向けて、「補足」というラベル(論理関係)が付与されたエッジE2が設定されている。
【0032】
以上のように、この実施形態では、グラフ文書は
図2の例に示すような構造を備えているものとする。
【0033】
グラフ生成部122によるグラフ文書の生成処理の具体的処理方法については限定されないものである。例えば、グラフ生成部122は、「分割文の集合体」と対応する「グラフ文書」(正解となるグラフ文書)のペアを教師データとして学習した機械学習モデルを用いる構成としてもよいがこれに限定されない。なお、この実施形態のグラフ生成部122では、分割文の集合体からグラフ文書を生成しているが、プレーンテキストから直接グラフ文書を生成する処理としてもよい。例えば、グラフ生成部122において、「プレーンテキスト」と対応する「グラフ文書」(正解となるグラフ文書)のペアを教師データとして学習した機械学習モデルを備えておけば、プレーンテキストから直接グラフ文書を生成することが可能となる。
【0034】
重要文抽出部13は、前処理部12から供給されたグラフ文書を構成する各ノード(分割文)から重要文を抽出する処理を行う。重要文抽出部13は、グラフ文書の各ノード(分割文)に対して、重要の度合を示す数値(以下、「重要度値」と呼ぶ)を算出し、この重要度値に基づいて1又は複数の分割文を重要文として抽出する。例えば、重要文抽出部13は、グラフ文書から、重要度の高い分割文(例えば、上位から所定数の分割文)を重要文として抽出するようにしてもよい。
【0035】
要約出力部15は、重要文抽出部13で抽出された重要文(1又は複数の分割文)に基づいて要約を生成する処理を行う。また、要約出力部15は、少なくとも要約を含むデータを出力データとして出力する。要約出力部15は、重要文をそのまま要約として扱うようにしてもよいし、重要文をさらに処理(例えば、他の文書要約アルゴリズムを用いた要約処理)したものを要約として扱うようにしてもよい。要約出力部15が出力データを出力する方式については限定されないものである。要約出力部15は、例えば、通信により他の装置に出力データを送信するようにしてもよいし、データ記録媒体(例えば、USBメモリやハードディスク等のデータ記録媒体)にオフラインで書き込むようにしてもよいし、ディスプレイ等の表示装置に表示出力するようにしてもよいし、プリンタ等の印刷装置から印刷出力するようにしてもよい。
【0036】
(A-2)実施形態の動作
次に、この実施形態の文書要約装置10の動作(実施形態に係る情報処理方法)について説明する。
【0037】
図3は、文書要約装置10の動作について示したフローチャートである。
【0038】
ここでは、まず、文書要約装置10に入力文書を含む入力データが入力されたものとする(S101)。文書要約装置10では、入力データ(入力文書)は文書入力部11により取得される。文書入力部11は、入力データに含まれる入力文書を、前処理部12に供給する。
【0039】
前処理部12は、入力文書の供給を受けると、まず当該入力文書のデータ構造を分析する(S102)。ここでは、入力文書は、グラフ文書(グラフ形式/グラフ構造の構造情報を備える文書)又は特に構造情報を備えないプレーンテキストのいずれかであるものとする。つまり、この実施形態の前処理部12は、入力文書の構造を分析して、グラフ形式の構造情報を備えるグラフ文書であるか、特に構造情報を備えないプレーンテキストのいずれかであるかを判断する。そして、前処理部12は、入力文書がグラフ文書である場合には入力文書をそのまま重要文抽出部13に供給して後述するステップS105に移行し、入力文書がプレーンテキストである場合には後述するステップS103に移行して入力文書をグラフ文書に変換する処理を行う。
【0040】
入力文書がプレーンテキストである場合、前処理部12は、まず、文書分割部121に入力文書(プレーンテキスト)を供給して入力文書を文(分割文)の単位に分割させる(S103)。
【0041】
次に、前処理部12は、文書分割部121により分割された分割文の集合をグラフ生成部122に供給して、グラフ文書を生成させ(S104)、生成させたグラフ文書を重要文抽出部13に供給する。
【0042】
以上のような処理により、前処理部12は、グラフ文書を取得し、重要文抽出部13に供給する。
【0043】
次に、重要文抽出部13は、供給されたグラフ文書の各ノード(各分割文)に対して重要度値を算出し、算出結果に基づいて重要文となる分割文(ノード)を抽出する処理(以下、「重要文抽出処理」と呼ぶ)を行い(S105)、抽出した重要文(1又は複数の分割文)を要約生成部14に供給する。このとき、重要文として抽出される分割文の数は限定されないものである。例えば、重要文抽出部13では、ユーザの操作により、重要文として抽出する分割文の数を任意に設定可能としてもよい。重要文抽出部13から要約出力部15へ供給されるデータの形式は限定されないものである。例えば、重要文抽出部13は、重要文として抽出した分割文をそれぞれプレーンテキストとして要約生成部14に供給するようにしてもよいし、グラフ文書と共に重要文として抽出したノード(分割文)の識別子のリストを要約生成部14に供給するようにしてもよい。
【0044】
次に、要約生成部14は、供給された重要文から要約を作成し(S106)、要約出力部15に供給する。要約の形式は限定されないものである。例えば、要約は、プレーンテキストの形式としてもよいしグラフ形式としてもよい。例えば、要約生成部14は、重要文(分割文のプレーンテキスト)を連結したプレーンテキストを要約として取得するようにしてもよい。また、例えば、要約生成部14は、グラフ文書に対して重要文に対応するノード(分割文)を強調表示(重要文であることを示す表示)したものを要約として取得するようにしてもよい。具体的には、例えば、要約生成部14は、グラフ文書に対して、重要文に対応するノード(分割文)に重要文に該当する旨を示す情報(例えば、ラベル等の情報)を付加したものを要約として取得するようにしてもよい。
【0045】
最後に、要約出力部15は、供給された要約を所定の形式で出力する処理を行う(S107)。
【0046】
以上のように、文書要約装置10は、入力文書に対応する要約を作成する処理を行う。
【0047】
次に、文書要約装置10における上述のステップS105の処理(重要文抽出部13による重要文抽出処理)の詳細について説明する。
【0048】
図4は、重要文抽出部13による重要文抽出処理の具体例について示したフローチャートである。
【0049】
まず、重要文抽出部13に、重要文抽出処理の対象となるグラフ文書が入力されたものとする(S201)。ここでは、重要文抽出部13には、
図2に示すような構造のグラフ文書が入力されたものとして以後の説明を行う。
【0050】
重要文抽出部13は、まず、入力されたグラフ文書における各エッジの値(ラベルに設定された論理関係)をスカラとしての数値表現に変換する処理(以下、「数値変換処理」と呼ぶ)を行う(S202)。
【0051】
数値変換処理の具体的な手法については限定されないものであり、例えば、予め設定されたテーブル(以下、「数値変換テーブル」と呼ぶ)を用いて行うようにしてもよいし、機械学習済みの学習モデル(例えば、ニューラルネットワーク)を用いるようにしてもよい。重要文抽出部13は、例えば、論理関係(論理関係の名称)ごとに、機械学習済の学習モデルを用いて生成された単語ベクトル(例えば、論理関係の名称を単語とした場合の単語ベクトル)に基づく値を数値表現化した値として取得するようにしてもよい。この実施形態の重要文抽出部13は、あらかじめ数値変換テーブルを備えており、この数値変換テーブルを用いて各エッジのラベルについて数値変換処理を行うものとする。
【0052】
図5は、数値変換テーブルの構成例について示した図である。
【0053】
図5では、論理関係(論理関係の名称)ごとに対応する数値が登録されている。例えば、
図5では、結果、理由、補足、例示、・・・の各論理関係に対する数値が設定されている。数値変換テーブルに設定する論理関係の数や組み合わせは限定されないものである。また、
図5では、結果、理由、補足、例示に対して、それぞれ0.8、0.5、0.2、0.2の数値が設定されているが、各論理関係に対応する数値は限定されないものであり種々の値を設定するようにしてもよい。数値変換テーブルでは、例えば、文書を要約する際に重要度が高くなる傾向にある論理関係ほど大きい数値とするようにしてもよい。例えば、
図5の例では、「結果」や「理由」の論理関係で結ばれる文は要約する際の重要度が高くなる傾向にあるが、「理由」や「補足」の論理関係で結ばれる文は上記の2つの論理関係(「結果」や「理由」)と比較すると要約する際の重要度が低くなる傾向にあることを前提としている。また、
図5の例では、文書を要約する際に、「結果」の論理関係で結ばれる文は、「理由」の論理関係で結ばれる文よりも、相対的に要約する際の重要度が高くなる傾向にあることを前提としている。
図5では、以上のような前提に基づき、「結果>理由>補足=例示」という大小関係となるように、各論理構造に対する数値を設定している。
【0054】
図6は、
図2に示すグラフ文書の各エッジのラベル(論理関係)について、
図5に示す数値変換テーブルに基づいて数値変換処理を施した状態について示した図である。
【0055】
図6に示すように、重要文抽出部13は、
図5に示す数値変換テーブルに基づき、ラベル(論理関係)が「結果」となっているエッジE1に対する数値として0.8を設定し、ラベル(論理関係)が「補足」となっているエッジE2に対する数値として0.2を設定することになる。
【0056】
以上のように、重要文抽出部13は、各エッジのラベル(論理関係)に対して数値変換処理を行う。
【0057】
次に、重要文抽出部13は、数値変換処理したグラフ文書の各ノード間の論理構造について表した論理構造行列Lを生成する(S203)。
【0058】
ここでは、グラフ文書の論理構造行列Lは、各ノード間の接続関係を表した隣接行列の各成分(各エッジに対応する成分)に対応するエッジの数値表現(論理関係に対応する数値)を掛け合わせたものとする。論理構造行列Lは、元となるグラフ文書においてグラフ形式で表された論理構造を行列の形式で表したものであると言える。
【0059】
以下の(1)式では、
図6に示すグラフ文書(エッジの論理関係について数値変換処理済)に基づく隣接行列Aについて表している。隣接行列Aでは、1行目~3行目がそれぞれノードX1~X3に対応し、1列目~3列目がそれぞれX1~X3に対応するものとする。そうすると、隣接行列Aにおいて、ノードX1からノードX2に向けられたエッジE1は1行目の2列目の要素となり、ノードX1からノードX3に向けられたエッジE2は1行目の3列目の要素となる。(1)式に示す隣接行列Aでは、それぞれエッジE1、E2に対応する要素の値が1となり、それ以外の要素は0となっている。
【0060】
そして、以下の(2)式では、
図6に示すグラフ文書(エッジの論理関係について数値変換処理済)に基づく論理構造行列Lについて表している。論理構造行列Lは、隣接行列Aの各要素(各エッジに対応する要素)に対して、対応するエッジの数値表現(論理関係に対応する数値)が乗じられた結果となっている。したがって、以下の(2)式の論理構造行列Lでは、エッジE1に対応する要素(1行の2列目)は、「1×0.8=0.8」となっており、エッジE2に対応する要素(1行の3列目)は、「1×0.2=0.2」となっている。
【数1】
【0061】
次に、重要文抽出部13は、ステップS203で作成した論理構造行列Lとランダムジャンプ行列Rを一定の割合dで足し合わせる(S204)。
【0062】
ここでは、ランダムジャンプ行列Rは、論理構造行列Lと同じ行数と列数を持ち、全ての要素(成分)が1/Nである行列である。ここで、Nは、元となるグラフ文書の全ノード数である。ここでは、
図6に示すグラフ文書のノード数は3であるのでN=3となる。そのため、ここでは、ランダムジャンプ行列Rは、以下の(3)式のように、行数及び列数がN=3で全ての要素が1/N=1/3となっている。
【0063】
ここでは、重要文抽出部13は、以下の(4)式のように、論理構造行列Lとランダムジャンプ行列Rをd:(1-d)の割合で足し合わせた行列Mを求めるものとする。(4)式ではd=0.85としているが、dの値は限定されないものであり任意の値(例えば、実験やシミュレーション等により得られる好適な値)を設定するようにしてもよい。
【数2】
【0064】
次に、重要文抽出部13は、ステップS204で作成した行列Mの固有ベクトルxを求める(S205)。
【0065】
重要文抽出部13が固有ベクトルを求める手順については限定されないものであるが、例えば、以下のような手順を適用することができる。重要文抽出部13は、まず行列Mにおける各行の成分を、各行の総和で割ることにより、行列M’を求める。その結果、行列M’では、各行の総和が1になる。(4)式に示す行列Mに基づいて行列M’を求めるとその結果は(5)式のようになる。そして、次に重要文抽出部13は、M’x=λxを満たす、M’における固有値1の固有ベクトルをxとして求める。(5)式に示す行列M’に基づき固有ベクトルxを求めるとその結果は以下の(6)式のようになる。固有ベクトルxは、1行N列(Nは元となるグラフ文書の全ノード数)の行列で示されるベクトルである。固有ベクトルxにおいて、各列の要素は対応する列のノード(ノードに対応する分割文)の重要度を示すことになる。なお、固有ベクトルxにおいて各列に対応するノードは、元となる論理構造行列L(隣接行列A)の列と一致する。例えば、以下の(5)式に示す固有ベクトルxは、1行3列であり、1行目~3行目がそれぞれノードX1~X3に対応する。以下の(5)式では、ノードX1(明日は雨が降ります)に対応する重要度が0.26、ノードX2(遠足は中止します)に対応する重要度が0.44、ノードX3(降水確率は90%です)に対応する重要度が0.30となっている。
【数3】
【0066】
次に、重要文抽出部13は、ステップS205で求めた重要度が大きいノードに対応する分割文を重要文として抽出する(S206)。
【0067】
ここでは、重要文抽出部13は、最も重要度の高いノード1つに対応する分割文を重要文として抽出するものとする。そうすると、(5)式のような固有ベクトルが得られた場合、重要文抽出部13は、ノードX2に対応する分割文「遠足は中止します」を重要文として抽出することになる。
【0068】
(A-3)実施形態の効果
この実施形態の文書要約装置10では、以下のような効果を奏することができる。
【0069】
この実施形態の文書要約装置10では、上記のように入力文書(プレーンテキスト)に基づくグラフ文書の構造を論理構造行列Lで表現し、この論理構造行列Lに基づく固有ベクトルxを求めることで、入力文書に含まれる文の出現順序や、文同士の関係性を考慮した上で、重要文を抽出する処理を行うことができる。特に、この実施形態の文書要約装置10で用いられるグラフ文書では、ノード間(文の間)の論理関係について有指向性のエッジを用いて表現しているため、入力文書に含まれる文の出現順序や、文同士の関係性が反映された固有ベクトルx(分割文毎の重要度)が得られる。そのため、この実施形態の文書要約装置10では、入力文書における重要文を精度良く要約に含めることが可能となる。
【0070】
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0071】
(B-1)上記の実施形態において、文書分割部121は、分割文に1つの文だけが含まれるように入力文書を分割しているが、分割文に複数の文(例えば、段落のような複数文の集合)を含めるようにしてもよい。
【0072】
(B-2)上記の実施形態において、文書要約装置10に入力される入力データに含まれる入力文書は、プレーンテキスト又はグラフ文書のいずれかであるものとしたが、いずれか一方のみが入力される前提としてもよい。例えば、入力データにプレーンテキストのみが含まれる場合には、
図3のフローチャートにおいて、ステップS102の処理(文書形式の判定処理)を省略し、ステップS101の後に必ずステップS103、S104の処理(プレーンテキストをグラフ文書に変換する前処理)を行うようにしてもよい。また、例えば、入力データにグラフ文書のみが含まれる場合には、文書要約装置10において前処理部12を省略し、
図3のフローチャートにおいて、ステップS102~S104の処理(文書形式の判定処理及び前処理)を省略するようにしてもよい。
【符号の説明】
【0073】
10…文書要約装置,11…文書入力部,12…前処理部,13…重要文抽出部,14…要約生成部,15…要約出力部,121…文書分割部,122…グラフ生成部