特開2024-165421 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2024-165421情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024165421

(43)【公開日】2024-11-28

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06F 40/279 20200101AFI20241121BHJP

【ＦＩ】

G06F40/279

【審査請求】有

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023081610

(22)【出願日】2023-05-17

【国等の委託研究の成果に係る記載事項】（出願人による申告）国等の委託研究の成果に係る特許出願（国立研究開発法人新エネルギー・産業技術総合開発機構「人と共に進化する次世代人工知能に関する技術開発事業／人の意図や知識を理解して学習するＡＩの基盤技術開発／人とＡＩの協調を進化させるセマンティックオーサリング基盤の開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願）

(71)【出願人】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(74)【代理人】

【識別番号】100180275

【弁理士】

【氏名又は名称】吉田倫太郎

(74)【代理人】

【識別番号】100161861

【弁理士】

【氏名又は名称】若林裕介

(72)【発明者】

【氏名】前橋祐斗

(57)【要約】

【課題】文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得する。
【解決手段】本発明は、情報処理装置に関する。そして、本発明の情報処理装置は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、グラフ文書から、１又は複数の文を重要文として抽出する重要文抽出手段と、重要文抽出手段が重要文として抽出した文に基づいて入力文書を要約した要約を生成する要約生成手段とを有することを特徴とする。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、
前記グラフ文書から、１又は複数の文を重要文として抽出する重要文抽出手段と、
前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段と
を有することを特徴とする情報処理装置。

【請求項2】

前記入力文書が入力されると、前記入力文書に基づいて前記グラフ文書を生成するグラフ生成手段をさらに備え、
前記グラフ文書保持手段は、前記グラフ生成手段が生成した前記グラフ文書を保持する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記グラフ生成手段は、前記入力文書を所定の単位の文で分割して、分割した文の集合体を取得し、取得した前記文の集合体を構成する各文をノードとし各ノード間の論理関係をエッジとするグラフ構造のデータを前記グラフ文書として生成することを特徴とする請求項２に記載の情報処理装置。

【請求項4】

前記重要文抽出手段は、前記グラフ文書においてグラフ形式で表された論理構造を行列の形式で表した論理構造行列を生成し、前記論理構造行列に基づく固有ベクトルから、前記グラフ文書を構成する各ノードに対応する文の重要度を取得し、取得した重要度に基づいて前記文の集合体から１又は複数の文を重要文として抽出することを特徴とする請求項３に記載の情報処理装置。

【請求項5】

前記重要文抽出手段は、前記グラフ文書を構成する各エッジの論理関係を数値表現に変換する数値変換処理を行って変換済グラフ文書を生成し、前記変換済グラフ文書に基づいて前記論理構造行列を生成することを特徴とする請求項４に記載の情報処理装置。

【請求項6】

前記重要文抽出手段は、機械学習済の学習モデルに基づき前記数値変換処理を行うことを特徴とする請求項５に記載の情報処理装置。

【請求項7】

コンピュータを、
複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、
前記グラフ文書から、１又は複数の文を重要文として抽出する重要文抽出手段と、
前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段と
して機能させることを特徴とする情報処理プログラム。

【請求項8】

情報処理装置が行う情報処理方法において、
前記情報処理装置は、グラフ文書保持手段、重要文抽出手段及び要約生成手段を有し、
前記グラフ文書保持手段は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持し、
前記重要文抽出手段は、前記グラフ文書から、１又は複数の文を重要文として抽出し、
前記要約生成手段は、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する
ことを特徴とする情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、情報処理装置、情報処理方法及び情報処理プログラムに関し、例えば、文書を要約する処理に適用し得る。

【背景技術】

【0002】

従来、文書（文を含むデータ）を自動要約する手法には、大きく分けて、「抽出型要約」と「抽象型要約」の２種類の手法が存在する。抽出型要約は、文書中の文から重要度の高い文を抽出し、それらを組み合わせたものを要約とする手法である。抽象型要約は、ニューラルネットワーク等の生成モデルに要約対象の文書を入力することで、要約を生成する手法である。抽象型要約は、要約の長さを制御しやすい反面、入力文書の内容とは異なる要約が生成されることがある。つまり、情報に誤りがなく且つ正確な要約が必要な場面では、抽出型要約を用いるのが好ましい。

【0003】

ところで、従来の抽出型要約では、特許文献１や非特許文献１に開示されるように、文書中に含まれる文同士の類似度を基にグラフを作成し、グラフ構造から各文の重要度を算出するという手法が用いられてきた。例えば、特許文献１に記載された自動要約手法では、文書中に含まれる文同士の類似度に加えて、ユーザの選好度が反映されたキーワードと、文書中の各文との関連度を用いて、各文の重要度を算出している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－５７４３８号公報

【非特許文献】

【0005】

【非特許文献1】Erkan, Guenes, and Dragomir R. Radev. "Lexrank: Graph-based lexical centrality as salience in text summarization." Journal of artificial intelligence research 22 (2004): 457-479.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、特許文献１に記載された自動要約手法では、文書に含まれる各文の重要度を算出する上で、各文の出現順序や文同士の関係が無視されており、文書の論理構造が考慮されていないという問題点があった。

【0007】

以上のような問題点に鑑みて、文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得する情報処理装置、情報処理方法及び情報処理プログラムが望まれている。

【課題を解決するための手段】

【0008】

第１の本発明の情報処理装置は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、前記グラフ文書から、１又は複数の文を重要文として抽出する重要文抽出手段と、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段とを有することを特徴とする。

【0009】

第２の本発明の情報処理プログラムは、コンピュータを、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、前記グラフ文書から、１又は複数の文を重要文として抽出する重要文抽出手段と、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段として機能させることを特徴とする。

【0010】

第３の本発明は、情報処理装置が行う情報処理方法において、前記情報処理装置は、グラフ文書保持手段、重要文抽出手段及び要約生成手段を有し、前記グラフ文書保持手段は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持し、前記重要文抽出手段は、前記グラフ文書から、１又は複数の文を重要文として抽出し、前記要約生成手段は、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成することを特徴とする。

【0011】

また、第１の本発明において、前記入力文書が入力されると、前記入力文書に基づいて前記グラフ文書を生成するグラフ生成手段をさらに備え、前記グラフ文書保持手段は、前記グラフ生成手段が生成した前記グラフ文書を保持するようにしてもよい。

【0012】

さらに、第１の本発明において、前記グラフ生成手段は、前記入力文書を所定の単位の文で分割して、分割した文の集合体を取得し、取得した前記文の集合体を構成する各文をノードとし各ノード間の論理関係をエッジとするグラフ構造のデータを前記グラフ文書として生成することを特徴とするようにしてもよい。

【0013】

さらにまた、第１本発明において、前記重要文抽出手段は、前記グラフ文書においてグラフ形式で表された論理構造を行列の形式で表した論理構造行列を生成し、前記論理構造行列に基づく固有ベクトルから、前記グラフ文書を構成する各ノードに対応する文の重要度を取得し、取得した重要度に基づいて前記文の集合体から１又は複数の文を重要文として抽出するようにしてもよい。

【0014】

また、第１の本発明において、前記重要文抽出手段は、前記グラフ文書を構成する各エッジの論理関係を数値表現に変換する数値変換処理を行って変換済グラフ文書を生成し、前記変換済グラフ文書に基づいて前記論理構造行列を生成するようにしてもよい。

【0015】

さらに、第１の本発明において、前記重要文抽出手段は、機械学習済の学習モデルに基づき前記数値変換処理を行うようにしてもよい。

【発明の効果】

【0016】

本発明によれば、文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得することができる。

【図面の簡単な説明】

【0017】

【図1】実施形態に係る文書要約装置の機能的構成について示したブロック図である。

【図2】実施形態に係るグラフ文書の構造について示した図である。

【図3】実施形態に係る文書要約装置の動作について示したフローチャートである。

【図4】実施形態に係る重要文抽出部による重要文抽出処理の具体例について示したフローチャートである。

【図5】実施形態に係る文書要約装置で用いられる数値変換テーブルの構成例について示した図である。

【図6】実施形態に係る文書要約装置で用いられるグラフ文書の各エッジのラベル（論理関係）について数値変換処理を施した状態の例について示した図である。

【発明を実施するための形態】

【0018】

（Ａ）主たる実施形態
以下、本発明による情報処理装置、情報処理方法及び情報処理プログラムの一実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の情報処理装置、情報処理方法及び情報処理プログラムを文書要約装置に適用する例について説明する。

【0019】

（Ａ－１）実施形態の構成
図１は、この実施形態に係る文書要約装置１０の機能的構成について示したブロック図である。

【0020】

文書要約装置１０は、複数の文により構成される文書を含む入力データについて要約する文書要約処理を行い、要約を含む出力データを出力する装置である。以下では、入力データに含まれる文書を「入力文書」と呼ぶものとする。なお、要約には１または複数の文が含まれる。

【0021】

文書要約装置１０は、文書入力部１１、前処理部１２、重要文抽出部１３、要約生成部１４、及び要約出力部１５を有している。

【0022】

文書要約装置１０は、全てハードウェア（例えば、専用の半導体チップ等）により構成するようにしてもよいし、一部又は全部をコンピュータプログラム（ソフトウェア）により構成するようにしてもよい。例えば、文書要約装置１０は、メモリやプロセッサ等を備える図示しないコンピュータにプログラム（実施形態に係る「情報処理プログラム」を含む）をインストールすることにより実現するようにしてもよい。

【0023】

文書入力部１１は、入力データ（入力文書）の入力を受け付ける処理を行う。文書入力部１１において、入力データの供給を受ける手段は限定されないものであり種々の手段を適用することができる。文書入力部１１は、例えば、通信により他の装置から入力データの供給を受けるようにしてもよいし、データ記録媒体（例えば、ＵＳＢメモリやハードディスク等のデータ記録媒体）からオフラインでデータ供給を受けるようにしてもよいし、ユーザから手動により入力（例えば、図示しないキーボード等の入力デバイスを用いて入力）を受け付けるようにしてもよい。

【0024】

前処理部１２は、入力データに含まれる文書について前処理(詳細については後述する)する機能を担っている。前処理部１２は、文書分割部１２１とグラフ生成部１２２を有している。

【0025】

文書分割部１２１は、入力文書を文単位に分割する処理を行う。以下では、入力文書から分割された各文を「分割文」と呼ぶものとする。文書分割部１２１は、入力文書から複数の分割文を取得し、取得した分割文の集合体を出力する。文書分割部１２１が入力文書を分割する手法については限定されないものであり、種々の手法を用いることができる。文書分割部１２１は、所定のアルゴリズムに従って分割文を抽出（例えば、入力文書に含まれる句読点等の記号や改行コード等に基づいて分割文を抽出）するようにしてもよいし、あらかじめ「プレーンテキスト」と「分割文の集合体」（正解となる分割文の集合体）のペアを教師データとして学習した機械学習モデルを用いて分割文を抽出するようにしてもよい。

【0026】

グラフ生成部１２２は、文書分割部１２１により取得された分割文の集合体を用いて、グラフ形式（グラフ構造）の文書（以下、「グラフ文書」と呼ぶ）を生成する処理を行う。

【0027】

図２は、この実施形態におけるグラフ文書の構造について示した図である。

【0028】

図２は、「明日は雨が降ります。遠足は中止します。降水確率は９０％です」というプレーンテキストの入力文書に基づくグラフ文書の構造の例について示している。

【0029】

図２に示すように、この実施形態のグラフ文書では、各分割文が１つのノード（Ｎｏｄｅ）に割り当てられ、各エッジ（Ｅｄｇｅ）が両端のノード間（分割文間）の論理関係（関係性）を示しているものとする。図２では、各ノードを矩形のシンボルで示し、ノード間のエッジを矢印で図示している。この実施形態のグラフ文書において、各エッジには矢印の向きに指向性（向）が付与されているものとする。図２では、各ノードのシンボルに分割文が付記され、各エッジの矢印に論理関係を示すラベルが付記されている。

【0030】

エッジに対応する論理関係（２つの分割文の間の論理関係）としては、例えば、「理由」、「補足」、「例示」等のパターンが挙げられる。この実施形態において、グラフ文書の具体的なデータ形式については限定されないものであり、例えば、種々のグラフ形式のデータベース（データベースを構成するミドルウェア）等のデータ構造を適用することができる。

【0031】

図２に示すグラフ文書の構造例では、上記の入力文書（プレーンテキスト）から「明日は雨が降ります」、「遠足は中止します」、「降水確率は９０％です」という３つの分割文が抽出され、それぞれの分割文に対してノードＸ１、Ｘ２、Ｘ３が割り当てられている。また、図２に示す、グラフ文書の構造例では、ノードＸ１（明日は雨が降ります）からノードＸ２（遠足は中止します）へ向けて、「結果」というラベル（論理関係）が付与されたエッジＥ１が設定されている。さらに、図２に示す、グラフ文書の構造例では、ノードＸ１（明日は雨が降ります）からノードＸ３（降水確率は９０％です）へ向けて、「補足」というラベル（論理関係）が付与されたエッジＥ２が設定されている。

【0032】

以上のように、この実施形態では、グラフ文書は図２の例に示すような構造を備えているものとする。

【0033】

グラフ生成部１２２によるグラフ文書の生成処理の具体的処理方法については限定されないものである。例えば、グラフ生成部１２２は、「分割文の集合体」と対応する「グラフ文書」（正解となるグラフ文書）のペアを教師データとして学習した機械学習モデルを用いる構成としてもよいがこれに限定されない。なお、この実施形態のグラフ生成部１２２では、分割文の集合体からグラフ文書を生成しているが、プレーンテキストから直接グラフ文書を生成する処理としてもよい。例えば、グラフ生成部１２２において、「プレーンテキスト」と対応する「グラフ文書」（正解となるグラフ文書）のペアを教師データとして学習した機械学習モデルを備えておけば、プレーンテキストから直接グラフ文書を生成することが可能となる。

【0034】

重要文抽出部１３は、前処理部１２から供給されたグラフ文書を構成する各ノード（分割文）から重要文を抽出する処理を行う。重要文抽出部１３は、グラフ文書の各ノード（分割文）に対して、重要の度合を示す数値（以下、「重要度値」と呼ぶ）を算出し、この重要度値に基づいて１又は複数の分割文を重要文として抽出する。例えば、重要文抽出部１３は、グラフ文書から、重要度の高い分割文（例えば、上位から所定数の分割文）を重要文として抽出するようにしてもよい。

【0035】

要約出力部１５は、重要文抽出部１３で抽出された重要文（１又は複数の分割文）に基づいて要約を生成する処理を行う。また、要約出力部１５は、少なくとも要約を含むデータを出力データとして出力する。要約出力部１５は、重要文をそのまま要約として扱うようにしてもよいし、重要文をさらに処理（例えば、他の文書要約アルゴリズムを用いた要約処理）したものを要約として扱うようにしてもよい。要約出力部１５が出力データを出力する方式については限定されないものである。要約出力部１５は、例えば、通信により他の装置に出力データを送信するようにしてもよいし、データ記録媒体（例えば、ＵＳＢメモリやハードディスク等のデータ記録媒体）にオフラインで書き込むようにしてもよいし、ディスプレイ等の表示装置に表示出力するようにしてもよいし、プリンタ等の印刷装置から印刷出力するようにしてもよい。

【0036】

（Ａ－２）実施形態の動作
次に、この実施形態の文書要約装置１０の動作（実施形態に係る情報処理方法）について説明する。

【0037】

図３は、文書要約装置１０の動作について示したフローチャートである。

【0038】

ここでは、まず、文書要約装置１０に入力文書を含む入力データが入力されたものとする（Ｓ１０１）。文書要約装置１０では、入力データ（入力文書）は文書入力部１１により取得される。文書入力部１１は、入力データに含まれる入力文書を、前処理部１２に供給する。

【0039】

前処理部１２は、入力文書の供給を受けると、まず当該入力文書のデータ構造を分析する（Ｓ１０２）。ここでは、入力文書は、グラフ文書（グラフ形式／グラフ構造の構造情報を備える文書）又は特に構造情報を備えないプレーンテキストのいずれかであるものとする。つまり、この実施形態の前処理部１２は、入力文書の構造を分析して、グラフ形式の構造情報を備えるグラフ文書であるか、特に構造情報を備えないプレーンテキストのいずれかであるかを判断する。そして、前処理部１２は、入力文書がグラフ文書である場合には入力文書をそのまま重要文抽出部１３に供給して後述するステップＳ１０５に移行し、入力文書がプレーンテキストである場合には後述するステップＳ１０３に移行して入力文書をグラフ文書に変換する処理を行う。

【0040】

入力文書がプレーンテキストである場合、前処理部１２は、まず、文書分割部１２１に入力文書（プレーンテキスト）を供給して入力文書を文（分割文）の単位に分割させる（Ｓ１０３）。

【0041】

次に、前処理部１２は、文書分割部１２１により分割された分割文の集合をグラフ生成部１２２に供給して、グラフ文書を生成させ（Ｓ１０４）、生成させたグラフ文書を重要文抽出部１３に供給する。

【0042】

以上のような処理により、前処理部１２は、グラフ文書を取得し、重要文抽出部１３に供給する。

【0043】

次に、重要文抽出部１３は、供給されたグラフ文書の各ノード（各分割文）に対して重要度値を算出し、算出結果に基づいて重要文となる分割文（ノード）を抽出する処理（以下、「重要文抽出処理」と呼ぶ）を行い（Ｓ１０５）、抽出した重要文（１又は複数の分割文）を要約生成部１４に供給する。このとき、重要文として抽出される分割文の数は限定されないものである。例えば、重要文抽出部１３では、ユーザの操作により、重要文として抽出する分割文の数を任意に設定可能としてもよい。重要文抽出部１３から要約出力部１５へ供給されるデータの形式は限定されないものである。例えば、重要文抽出部１３は、重要文として抽出した分割文をそれぞれプレーンテキストとして要約生成部１４に供給するようにしてもよいし、グラフ文書と共に重要文として抽出したノード（分割文）の識別子のリストを要約生成部１４に供給するようにしてもよい。

【0044】

次に、要約生成部１４は、供給された重要文から要約を作成し（Ｓ１０６）、要約出力部１５に供給する。要約の形式は限定されないものである。例えば、要約は、プレーンテキストの形式としてもよいしグラフ形式としてもよい。例えば、要約生成部１４は、重要文（分割文のプレーンテキスト）を連結したプレーンテキストを要約として取得するようにしてもよい。また、例えば、要約生成部１４は、グラフ文書に対して重要文に対応するノード（分割文）を強調表示（重要文であることを示す表示）したものを要約として取得するようにしてもよい。具体的には、例えば、要約生成部１４は、グラフ文書に対して、重要文に対応するノード（分割文）に重要文に該当する旨を示す情報（例えば、ラベル等の情報）を付加したものを要約として取得するようにしてもよい。

【0045】

最後に、要約出力部１５は、供給された要約を所定の形式で出力する処理を行う（Ｓ１０７）。

【0046】

以上のように、文書要約装置１０は、入力文書に対応する要約を作成する処理を行う。

【0047】

次に、文書要約装置１０における上述のステップＳ１０５の処理（重要文抽出部１３による重要文抽出処理）の詳細について説明する。

【0048】

図４は、重要文抽出部１３による重要文抽出処理の具体例について示したフローチャートである。

【0049】

まず、重要文抽出部１３に、重要文抽出処理の対象となるグラフ文書が入力されたものとする（Ｓ２０１）。ここでは、重要文抽出部１３には、図２に示すような構造のグラフ文書が入力されたものとして以後の説明を行う。

【0050】

重要文抽出部１３は、まず、入力されたグラフ文書における各エッジの値（ラベルに設定された論理関係）をスカラとしての数値表現に変換する処理（以下、「数値変換処理」と呼ぶ）を行う（Ｓ２０２）。

【0051】

数値変換処理の具体的な手法については限定されないものであり、例えば、予め設定されたテーブル（以下、「数値変換テーブル」と呼ぶ）を用いて行うようにしてもよいし、機械学習済みの学習モデル（例えば、ニューラルネットワーク）を用いるようにしてもよい。重要文抽出部１３は、例えば、論理関係（論理関係の名称）ごとに、機械学習済の学習モデルを用いて生成された単語ベクトル（例えば、論理関係の名称を単語とした場合の単語ベクトル）に基づく値を数値表現化した値として取得するようにしてもよい。この実施形態の重要文抽出部１３は、あらかじめ数値変換テーブルを備えており、この数値変換テーブルを用いて各エッジのラベルについて数値変換処理を行うものとする。

【0052】

図５は、数値変換テーブルの構成例について示した図である。

【0053】

図５では、論理関係（論理関係の名称）ごとに対応する数値が登録されている。例えば、図５では、結果、理由、補足、例示、・・・の各論理関係に対する数値が設定されている。数値変換テーブルに設定する論理関係の数や組み合わせは限定されないものである。また、図５では、結果、理由、補足、例示に対して、それぞれ０．８、０．５、０．２、０．２の数値が設定されているが、各論理関係に対応する数値は限定されないものであり種々の値を設定するようにしてもよい。数値変換テーブルでは、例えば、文書を要約する際に重要度が高くなる傾向にある論理関係ほど大きい数値とするようにしてもよい。例えば、図５の例では、「結果」や「理由」の論理関係で結ばれる文は要約する際の重要度が高くなる傾向にあるが、「理由」や「補足」の論理関係で結ばれる文は上記の２つの論理関係（「結果」や「理由」）と比較すると要約する際の重要度が低くなる傾向にあることを前提としている。また、図５の例では、文書を要約する際に、「結果」の論理関係で結ばれる文は、「理由」の論理関係で結ばれる文よりも、相対的に要約する際の重要度が高くなる傾向にあることを前提としている。図５では、以上のような前提に基づき、「結果＞理由＞補足＝例示」という大小関係となるように、各論理構造に対する数値を設定している。

【0054】

図６は、図２に示すグラフ文書の各エッジのラベル（論理関係）について、図５に示す数値変換テーブルに基づいて数値変換処理を施した状態について示した図である。

【0055】

図６に示すように、重要文抽出部１３は、図５に示す数値変換テーブルに基づき、ラベル（論理関係）が「結果」となっているエッジＥ１に対する数値として０．８を設定し、ラベル（論理関係）が「補足」となっているエッジＥ２に対する数値として０．２を設定することになる。

【0056】

以上のように、重要文抽出部１３は、各エッジのラベル（論理関係）に対して数値変換処理を行う。

【0057】

次に、重要文抽出部１３は、数値変換処理したグラフ文書の各ノード間の論理構造について表した論理構造行列Ｌを生成する（Ｓ２０３）。

【0058】

ここでは、グラフ文書の論理構造行列Ｌは、各ノード間の接続関係を表した隣接行列の各成分（各エッジに対応する成分）に対応するエッジの数値表現（論理関係に対応する数値）を掛け合わせたものとする。論理構造行列Ｌは、元となるグラフ文書においてグラフ形式で表された論理構造を行列の形式で表したものであると言える。

【0059】

以下の（１）式では、図６に示すグラフ文書（エッジの論理関係について数値変換処理済）に基づく隣接行列Ａについて表している。隣接行列Ａでは、１行目～３行目がそれぞれノードＸ１～Ｘ３に対応し、１列目～３列目がそれぞれＸ１～Ｘ３に対応するものとする。そうすると、隣接行列Ａにおいて、ノードＸ１からノードＸ２に向けられたエッジＥ１は１行目の２列目の要素となり、ノードＸ１からノードＸ３に向けられたエッジＥ２は１行目の３列目の要素となる。（１）式に示す隣接行列Ａでは、それぞれエッジＥ１、Ｅ２に対応する要素の値が１となり、それ以外の要素は０となっている。

【0060】

そして、以下の（２）式では、図６に示すグラフ文書（エッジの論理関係について数値変換処理済）に基づく論理構造行列Ｌについて表している。論理構造行列Ｌは、隣接行列Ａの各要素（各エッジに対応する要素）に対して、対応するエッジの数値表現（論理関係に対応する数値）が乗じられた結果となっている。したがって、以下の（２）式の論理構造行列Ｌでは、エッジＥ１に対応する要素（１行の２列目）は、「１×０．８＝０．８」となっており、エッジＥ２に対応する要素（１行の３列目）は、「１×０．２＝０．２」となっている。

【数1】

【0061】

次に、重要文抽出部１３は、ステップＳ２０３で作成した論理構造行列Ｌとランダムジャンプ行列Ｒを一定の割合ｄで足し合わせる（Ｓ２０４）。

【0062】

ここでは、ランダムジャンプ行列Ｒは、論理構造行列Ｌと同じ行数と列数を持ち、全ての要素（成分）が１／Ｎである行列である。ここで、Ｎは、元となるグラフ文書の全ノード数である。ここでは、図６に示すグラフ文書のノード数は３であるのでＮ＝３となる。そのため、ここでは、ランダムジャンプ行列Ｒは、以下の（３）式のように、行数及び列数がＮ＝３で全ての要素が１／Ｎ＝１／３となっている。

【0063】

ここでは、重要文抽出部１３は、以下の（４）式のように、論理構造行列Ｌとランダムジャンプ行列Ｒをｄ：（１－ｄ）の割合で足し合わせた行列Ｍを求めるものとする。（４）式ではｄ＝０．８５としているが、ｄの値は限定されないものであり任意の値（例えば、実験やシミュレーション等により得られる好適な値）を設定するようにしてもよい。

【数2】

【0064】

次に、重要文抽出部１３は、ステップＳ２０４で作成した行列Ｍの固有ベクトルｘを求める（Ｓ２０５）。

【0065】

重要文抽出部１３が固有ベクトルを求める手順については限定されないものであるが、例えば、以下のような手順を適用することができる。重要文抽出部１３は、まず行列Ｍにおける各行の成分を、各行の総和で割ることにより、行列Ｍ’を求める。その結果、行列Ｍ’では、各行の総和が１になる。（４）式に示す行列Ｍに基づいて行列Ｍ’を求めるとその結果は（５）式のようになる。そして、次に重要文抽出部１３は、Ｍ’ｘ＝λｘを満たす、Ｍ’における固有値１の固有ベクトルをｘとして求める。（５）式に示す行列Ｍ’に基づき固有ベクトルｘを求めるとその結果は以下の（６）式のようになる。固有ベクトルｘは、１行Ｎ列（Ｎは元となるグラフ文書の全ノード数）の行列で示されるベクトルである。固有ベクトルｘにおいて、各列の要素は対応する列のノード（ノードに対応する分割文）の重要度を示すことになる。なお、固有ベクトルｘにおいて各列に対応するノードは、元となる論理構造行列Ｌ（隣接行列Ａ）の列と一致する。例えば、以下の（５）式に示す固有ベクトルｘは、１行３列であり、１行目～３行目がそれぞれノードＸ１～Ｘ３に対応する。以下の（５）式では、ノードＸ１（明日は雨が降ります）に対応する重要度が０．２６、ノードＸ２（遠足は中止します）に対応する重要度が０．４４、ノードＸ３（降水確率は９０％です）に対応する重要度が０．３０となっている。

【数3】

【0066】

次に、重要文抽出部１３は、ステップＳ２０５で求めた重要度が大きいノードに対応する分割文を重要文として抽出する（Ｓ２０６）。

【0067】

ここでは、重要文抽出部１３は、最も重要度の高いノード１つに対応する分割文を重要文として抽出するものとする。そうすると、（５）式のような固有ベクトルが得られた場合、重要文抽出部１３は、ノードＸ２に対応する分割文「遠足は中止します」を重要文として抽出することになる。

【0068】

（Ａ－３）実施形態の効果
この実施形態の文書要約装置１０では、以下のような効果を奏することができる。

【0069】

この実施形態の文書要約装置１０では、上記のように入力文書（プレーンテキスト）に基づくグラフ文書の構造を論理構造行列Ｌで表現し、この論理構造行列Ｌに基づく固有ベクトルｘを求めることで、入力文書に含まれる文の出現順序や、文同士の関係性を考慮した上で、重要文を抽出する処理を行うことができる。特に、この実施形態の文書要約装置１０で用いられるグラフ文書では、ノード間（文の間）の論理関係について有指向性のエッジを用いて表現しているため、入力文書に含まれる文の出現順序や、文同士の関係性が反映された固有ベクトルｘ（分割文毎の重要度）が得られる。そのため、この実施形態の文書要約装置１０では、入力文書における重要文を精度良く要約に含めることが可能となる。

【0070】

（Ｂ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

【0071】

（Ｂ－１）上記の実施形態において、文書分割部１２１は、分割文に１つの文だけが含まれるように入力文書を分割しているが、分割文に複数の文（例えば、段落のような複数文の集合）を含めるようにしてもよい。

【0072】

（Ｂ－２）上記の実施形態において、文書要約装置１０に入力される入力データに含まれる入力文書は、プレーンテキスト又はグラフ文書のいずれかであるものとしたが、いずれか一方のみが入力される前提としてもよい。例えば、入力データにプレーンテキストのみが含まれる場合には、図３のフローチャートにおいて、ステップＳ１０２の処理（文書形式の判定処理）を省略し、ステップＳ１０１の後に必ずステップＳ１０３、Ｓ１０４の処理（プレーンテキストをグラフ文書に変換する前処理）を行うようにしてもよい。また、例えば、入力データにグラフ文書のみが含まれる場合には、文書要約装置１０において前処理部１２を省略し、図３のフローチャートにおいて、ステップＳ１０２～Ｓ１０４の処理（文書形式の判定処理及び前処理）を省略するようにしてもよい。

【符号の説明】

【0073】

１０…文書要約装置，１１…文書入力部，１２…前処理部，１３…重要文抽出部，１４…要約生成部，１５…要約出力部，１２１…文書分割部，１２２…グラフ生成部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版