特開2022-146431 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ マインドワード株式会社の特許一覧

特開2022-146431文章要約装置、文章要約方法及びプログラム並びに記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4A
4B
4C
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022146431

(43)【公開日】2022-10-05

(54)【発明の名称】文章要約装置、文章要約方法及びプログラム並びに記録媒体

(51)【国際特許分類】

G06F 40/56 20200101AFI20220928BHJP

G06F 16/383 20190101ALI20220928BHJP

【ＦＩ】

G06F40/56

G06F16/383

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021047386

(22)【出願日】2021-03-22

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和元年度、国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究／研究開発課題名：多言語音声翻訳高度化のための統合的深層学習の研究開発副題：統合型機械翻訳技術の研究開発」、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】521120436

【氏名又は名称】マインドワード株式会社

(74)【代理人】

【識別番号】110000800

【氏名又は名称】特許業務法人創成国際特許事務所

(72)【発明者】

【氏名】菅谷史昭

【テーマコード（参考）】

5B091

5B175

【Ｆターム（参考）】

5B091CA21

5B175DA01

5B175FB01

(57)【要約】（修正有）

【課題】文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成する文章要約装置、文章要約方法及びプログラム並びに記録媒体を提供する。
【解決手段】文章要約装置１０は、文章データを文の並び順に個別のセンテンスに分割し、センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割器と、センテンス群分割データが取り得るセンテンス群の一連の集合を仮説文章群とし、仮説文章群の各々に含まれるセンテンス群の文短縮を行って短縮センテンス群を得る文短縮器と、仮説文章群の各仮説文章について短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成する文連結器と、要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定器と、を有する。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割器と、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮器と、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成する文連結器と、
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定器と、
を有する文章要約装置。

【請求項2】

前記要約候補の要約精度を示すスコアを計算する要約スコア計算器を有し、
前記最適要約決定器は、前記要約スコア計算器により計算された前記要約候補の前記スコアに基づいて前記最適な要約候補を決定する、請求項１に記載の文章要約装置。

【請求項3】

前記要約スコア計算器は、前記要約候補の形態素解析を行う形態素解析器及び前記形態素解析器の解析結果に基づいて自立語カウントを行う自立語カウント器を有し、
前記最適要約決定器は、前記要約候補群の要約候補の自立語カウント値に基づいて前記最適な要約候補を決定する、請求項１又は２に記載の文章要約装置。

【請求項4】

前記文短縮器は、前記センテンス群を前記センテンス群の文短縮結果に関連付けて格納する学習テーブルを有し、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行う際に前記テーブルを参照する、請求項１ないし３のいずれか一項に記載の文章要約装置。

【請求項5】

前記文章分割器は、前記文章データが第１～第ｎセンテンスからなるとき、第１～第ｊセンテンスを第ｊ文章データ片とし（ｊ＝１，２，．．，ｎ）、第１文章データ片から第ｎ文章データ片について順次にダイナミックプログラミング法に基づいたセンテンス群への分割を行い、
前記短縮器は、前記第１文章データ片から前記第ｎ文章データ片について得られた前記センテンス群の各々の文短縮を行い、短縮センテンス群を生成し、
前記文連結器は、前記短縮センテンス群を、前記センテンスの重複を許さず、前記センテンスの並び順に連結して少なくとも１つの短縮センテンス群の一連からなる少なくとも１つの要約候補を生成する、請求項１ないし４のいずれか一項に記載の文章要約装置。

【請求項6】

前記文章分割器は、前記第ｊ文章データ片を前記センテンス群に分割する際に、前記センテンス群に含まれるセンテンス数が所定値以下であることを制約条件として分割をなす、請求項５に記載の文章要約装置。

【請求項7】

文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成するステップと、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得るステップと、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成するステップと、
前記要約候補群の要約候補のうち最適な要約候補を決定するステップと、
を有する文章要約方法。

【請求項8】

文章からその要約を生成するためにコンピュータを、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割手段、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮手段、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成する文連結手段、及び
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定手段、
として機能させる文章要約プログラム。

【請求項9】

請求項８に記載の文章要約プログラムを記録したコンピュータ読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文章要約装置、文章要約方法及びプログラム並びに記録媒体に関する。

【背景技術】

【0002】

新聞記事やニュース等の文書情報及びインターネットを通じて配信される文書情報から自動で要約を生成する技術が知られている。

【0003】

例えば、特許文献１には、所定の条件で生成された融合文及び分割文からなる圧縮前候補文を所定の圧縮制約の下で圧縮し、要約候補文を生成し、要約長を満足するように要約候補文を選択する技術が開示されている。

【0004】

また、特許文献２には、文書群及びクエリ語集合が入力され、文書内の単語のスコアと文書群中の各文とクエリ関連性を示すクエリ関連性スコアから複合スコアを求め、最適な文の組合せを要約とする技術が開示されている。

【0005】

また、特許文献３には、第１及び第２のスコアに基づいて文を選択する第１及び第２の文選択手段、第１及び第２の文選択手段に第１及び第２の調整値を与えて文を選択する技術が開示されている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１７－１５１８６３号公報

【特許文献2】特許第５６７０９３９号公報

【特許文献3】特許第５７０２７４４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、従来技術においては、複雑な処理を必要とし、また文章中から重要な要素を適切に抽出して要約を作成することが困難であった。

【0008】

本発明は上記した点に鑑みてなされたものであり、文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成することが可能な文章要約装置提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明の１実施形態による文章要約装置は、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割器と、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮器と、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成する文連結器と、
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定器と、
を有している。

【0010】

本発明の他の実施形態による文章要約方法は、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成するステップと、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得るステップと、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成するステップと、
前記要約候補群の要約候補のうち最適な要約候補を決定するステップと、
を有している。

【0011】

本発明のさらに他の実施形態による文章要約プログラムは、
文章からその要約を生成するためにコンピュータを、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも１つのセンテンスを有する少なくとも１つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割手段、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮手段、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも１つの要約候補を含む要約候補群を生成する文連結手段、及び
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定手段、
として機能させることを特徴としている。

【図面の簡単な説明】

【0012】

【図1A】本発明の第１の実施形態による文章要約装置１０の構成を示すブロック図である。

【図1B】本発明の第１の実施形態による文章要約装置１０の動作を示すフローチャートである。

【図2】センテンス群分割データを生成する際の分割点について示す図である。

【図3】要約スコア計算器１６の構成の一例を示すブロック図である。

【図4A】形態素解析器１６Ａによる形態素解析結果を示す図である。

【図4B】要約候補２の場合の形態素解析によって抽出された自立語及びカウント値を示す図である。

【図4C】要約候補３の場合の形態素解析によって抽出された自立語及びカウント値を示す図である。

【図5】文短縮器１３の構成の一例を示すブロック図である。

【図6】ＤＰ法によって文分割データ（_sentences）をセンテンス群に分割し、文短縮を行う方法の一例を説明するための図である。

【図7】センテンス群のセンテンス数が所定値以下であることを制約条件として分割が実行されることを説明するための図である。

【図8】第４の実施形態による文章要約装置３０の構成を示すブロック図である。

【発明を実施するための形態】

【0013】

以下においては、本発明の好適な実施例について説明するが、これらを適宜改変し、組合せてもよい。また、以下の説明及び添付図面において、実質的に同一又は等価な部分には同一の参照符を付して説明する。

【0014】

［第１の実施形態］
図１Ａは、本発明の第１の実施形態による文章要約装置１０の構成を示すブロック図である。文章要約装置１０は、入力装置１１、文章分割器１２、文短縮器１３、文連結器１４、最適要約決定器１５、要約スコア計算器１６、データベース（ＤＢ）１７、ＣＰＵ（Central Processing Unit）１８、主記憶装置１９，及び出力装置２０からなり、これらは双方向のデータバスであるバスラインＢＬに接続されている。なお、ＣＰＵ１８に加えＧＰＵ（Graphic Processing Unit）が設けられていてもよい。

【0015】

また、文章要約装置１０は、ＣＰＵ１８によって制御されるように構成されている。ＣＰＵ１８が実行するプログラムは主記憶装置１９に格納されている。また、ＣＰＵ１８は、図示しないキャッシュメモリ（以下、単にキャッシュ）などを有している。

【0016】

なお、以下においては、文章要約装置１０がハードウエアとして構成されている場合を例に説明するが、コンピュータのファームウエアあるいはソフトウエア（プログラム）として構成されていてもよい。あるいは、当該プログラムが格納されたコンピュータ読み取り可能な記録媒体として構成されていてもよい。

【0017】

以下に、文章要約装置１０の動作について、図１Ｂに示すフローチャートを参照しつつ説明する。

【0018】

入力装置１１には、文書（Document）又は文章データが入力される。入力文章データは、少なくとも１つの文（sentence）を含む。以下においては、複数の文からなる文章データが入力される場合について説明する。

【0019】

文章分割器１１は、入力装置１１に入力された文章データを複数の個別の文に分割する（図１Ｂ、フローチャート：ステップＳ１１）。例えば、入力文章が日本語の場合、文の文末は句点「。」で示される。従って、句点の位置で入力文章を分割することにより、入力文章を個々の文（sentence）に分割することができる。

【0020】

より具体的には、例えば、“こんにちは。さようなら。”という入力文章の場合、文章分割器１１は、句点「。」の位置で文章を区切り、個々の文に分割した文分割データを得る。

【0021】

文章分割によって得られた各文、すなわち、入力順に最初の句点までの文を一番目の文、次を２番目の文として、文分割データ（_sentences）は、
_sentences ＝｛1:‘こんにちは。’, 2:‘さようなら。’｝
と表すことができる。

【0022】

また、Ｗｅｂで表示されている文章は、ＨＴＭＬで記述されており、テキストや画像で書かれた文章として取り出すことができる。さらに、画像として書かれた文章はＯＣＲ技術を利用して取り出すことができる。従って、いずれの場合であっても、句点によって文の区切りが認識され、文章を分割することができる。

【0023】

一方、詩の表現などでは、句点のない文章が用いられる場合がある。その場合、スペースの利用のルールにより、文の区切りを認識することができる。

【0024】

外国語、例えば英語の場合では、ピリオド “．”よって文の区切りが認識され、文書を分割することができる。なお、略語（例えば、Ｆｉｇ．）に現れたピリオド “．”は、文章分割器１１にデータベース（辞書）を設け、当該データベースに「Ｆｉｇ．」を「Ｆｉｇｕｒｅ」として登録しておくことによって、文の区切りと略語とを識別することができる。

【0025】

外国語の場合であっても、各言語に特有の文法に応じて文の区切りを識別することによって文章を複数の文に分割することができる。

【0026】

（文分割データ）
より詳細には、文章分割器１１は、入力文章データから、入力順（文の並び順）に個別の文に分割された一連の文からなる文分割データ（データ名：_sentences）を生成する（図１Ｂ：ステップＳ１２）。例えば、Pythonと呼ばれるプログラミング言語で実現することができるがこれに限定されない。

【0027】

なお、文分割データ（_sentences）は、一般的には、sentence[1]～sentence[n]のｎ個（ｎは１以上の整数）の文からなる。従って、一般に、文分割データ（_sentences）は、以下のように表すことができる。
_sentences ＝｛[1], [2], ... , [n]｝

【0028】

（文分割データの具体例）
具体的には、文分割データ（_sentences）は、例えば、以下の表１（Table 1）に示すように、各文データがsentence[1]、sentence[2]、sentence[3]、sentence[4] で指定され、入力順で並んでいる４つの文からなる。

【0029】

【表1】

【0030】

（センテンス群分割データ）
さらに、文章分割器１１は、文分割データ（_sentences）を用いて、センテンス群分割データ（データ名：_bunkatsu）を生成する（図１Ｂ：ステップＳ１３）。

【0031】

より詳細には、文章分割器１１は、文分割データ（_sentences）の一連の文を、文の並び順（入力順）にグループ化され、各群が少なくとも１つの文を有する少なくとも１つのセンテンス群からなり、文の並び順に並べられたセンテンス群分割データ（_bunkatsu）を生成する。

【0032】

かかる制約条件の下、以下に説明するbunkatsu[1]～bunkatsu [m]のｍ個の分割データ（ｍは１以上の整数）からなるセンテンス群分割データ（_bunkatsu）が生成される。

【0033】

図２は、センテンス群分割データを生成する際の分割点について示す図である。文分割データが、例えば４つの文sentence[1]～sentence[4]からなる場合、分割点は３つ有り（分割点１～３）、分割データの個数ｍは２^３＝８個である。一般に、文分割データがｎ個の文からなる場合、分割点は（ｎ－１）個あり、分割データの個数ｍ＝２^ｎ－１である。

【0034】

従って、文章分割器１１は、ｍ（＝２^ｎ－１）個の分割データを仮説文章データとして生成する。より詳細には、文章分割器１１は、センテンス群分割データが上記制約条件の下、取り得るｍ（＝２^ｎ－１）通りの仮説文章、すなわち仮説文章１～仮説文章ｍ（bunkatsu [1]～bunkatsu [m]）からなる仮説文章群を構成する。

【0035】

また、仮説文章は、並び順にセンテンスがグループ化されたセンテンス群の一連からなる。例えば、図１に示すように、仮説文章１（bunkatsu[1）は、センテンス群１（[1]）及びセンテンス群２（[2,3,4]）の２つのセンテンス群の一連（ [[1], [2,3,4]]）からなる。

【0036】

（仮説文章の具体例）
例えば、表１（Table 1）に示す文分割データ（_sentences）に対し、以下の表２（Table 2）に示す、文章分割器１１によって生成された４つの仮説文章１～仮説文章４（bunkatsu[1]、bunkatsu [2]、bunkatsu [3]、bunkatsu[4]）を例に説明する。

【0037】

【表2】

【0038】

仮説文章２を例に説明すると、仮説文章２は、bunkatsu[2]＝[[1,2], [3,4]]であり、bunkatsu[2]から以下の表３（Table 3）に示すセンテンス群１（[1,2]）及びセンテンス群２（[3,4]）の２つのセンテンス群が取り出される。なお、センテンス群１（[1,2]）は、sentence[1]及びsentence[2]からなり、センテンス群２（[3,4]）はsentence[3]とsentence[4] からなる。

【0039】

【表3】

【0040】

次に、文短縮器１３は、仮説文章群の各々に含まれるセンテンス群の文短縮を行って短縮センテンス群を得る（図１Ｂ：ステップＳ１４）。

【0041】

具体的には、上記の例においては、仮説文章２（bunkatsu[2]＝[[1,2], [3,4]]）を短縮する。文短縮器１３は、センテンス群１（[1,2]）及びセンテンス群２（[3,4]）のそれぞれの冗長な部分を削除して読みやすい出力を生成する。

【0042】

より詳細には、文短縮器１３は公知の文短縮方法、例えば深層学習を用いて１文を短縮し、及び複数の文を１文にする文短縮を行う。すなわち、本実施形態によれば、入力文章全体にではなく、入力文章をセンテンス群に分割し、より少ない数の文からなるセンテンス群の各々に対して深層学習等の方法により、文短縮を行う。

【0043】

従って、センテンス群に対して文短縮を行っているので、より少ない計算量で高速かつ高精度に文短縮を行うことができる。

【0044】

例えば、表３（Table 3）に示す場合では、センテンス群１及びセンテンス群２のそれぞれの文短縮を行い、以下の表４（Table 4）に示すように、それぞれの短縮センテンス群１及び短縮センテンス群２を得る。

【0045】

【表4】

【0046】

文連結器１４は、仮説文章１～ｍ（bunkatsu[1]～bunkatsu [m]）の各々について、得られた短縮センテンス群を順に連結して、要約候補群を得る（図１Ｂ：ステップＳ１５）。

【0047】

具体的には、仮説文章ｊに含まれるセンテンス群の各々について得られた短縮センテンス群を順に連結して、要約候補ｊを得る（ｊ＝１，２，・・・，ｍ）。

【0048】

上記した例の場合では、仮説文章２（bunkatsu[2]＝[[1,2], [3,4]]）を短縮して得られた短縮センテンス群１及び短縮センテンス群２をこの順に連結して、表５（Table 5）に示す要約候補２を得る。

【0049】

【表5】

【0050】

また同様に、仮説文章３（bunkatsu[3]＝[[1,2,3], [4]]）については、表６（Table 6）に示すように、仮説文章３を短縮して得られた短縮仮説文章３の短縮センテンス群１及び短縮センテンス群２をこの順に連結して、要約候補３を得る。

【0051】

【表6】

【0052】

本実施形態においては、入力文章データを分割して得られるｍ（＝２^ｎ－１）個の仮説文章（すなわち、仮説文章１～仮説文章ｍ）の全てについての短縮、及び短縮センテンス群の連結が行われ、要約候補１～要約候補ｍからなる要約候補群を得ている。

【0053】

最適要約決定器１５は、要約スコア計算器１６の計算結果（スコア）に基づいて要約候補１～要約候補ｍのうち最適な要約候補を決定する（図１Ｂ：ステップＳ１６）。

【0054】

図３に示すように、要約スコア計算器１６は、形態素解析器１６Ａ及び自立語カウント器１６Ｂを有する。形態素解析器１６Ａは、文連結器１４から要約候補ｊ（ｊ＝１，２，・・・，ｍ）を得て、要約候補ｊの各々の形態素を解析する。

【0055】

自立語カウント器１６Ｂは、形態素解析器１６Ａの解析結果を得て、要約候補ｊの各々の自立語の数をカウントする。ここで、自立語とは、名詞、動詞、形容詞、形容動詞、副詞、連体詞、接続詞、感動詞の８種類である。

【0056】

上記した要約候補２の場合、図４Ａに示すように、形態素解析器１６Ａによって形態素解析結果が得られる。自立語カウント器１６Ｂは、図４Ｂに示すように、当該形態素解析結果から自立語を抽出し、抽出した自立語の数をカウントし、カウント値を要約候補のスコアとする。要約候補２の場合、カウント値は１０であった。

【0057】

また、要約候補３の場合、図４Ｃに示すように、形態素解析器１６Ａによって抽出された自立語のカウント値は９であった。

【0058】

なお、自立語カウント器１６Ｂは、自立語の数をカウントする際に要約候補中に既に現れた同一の自立語を重複してカウントしないように構成されていることが好ましい。

【0059】

また、自立語カウント器１６Ｂが、自立語の数をカウントし、当該カウント値を用いる場合を例に説明したが、自立語の数を要約候補の文の長さで除算した値をカウント値として、すなわち要約候補文の長さでノーマライズした値をカウント値として用いるように構成されていてもよい。

【0060】

また、単語毎に重み付けを行って、カウント値（スコア）を得るように構成してもよい。この場合、単語と重みとを関連付けたテーブルをデータベース１７に設け、当該テーブルを参照して重み付けされたカウント値を得るように構成することができる。さらに、少なくとも１つの単語と、他の少なくとも１つの単語とからなる単語のセット（２単語以上の組合せ）と重みとを関連付けたテーブルを参照するように構成することができる。

【0061】

最適要約決定器１５は、要約スコア計算器１６からのスコア（カウント値）に基づいて、要約候補１～要約候補ｍのうち最適な要約候補を決定する。より詳細には、要約候補１～要約候補ｍのうち、最もカウント値が大きな要約候補を最適要約として決定する。

【0062】

例えば、上記した要約候補２及び３を比較した場合では、要約候補２（カウント値：１０）の方が要約候補３（カウント値：９）よりも要約として適していると決定する。

【0063】

カウント値が大きな要約候補がより適していると判断するのは、文分割データ（_sentences）をセンテンス群に区切る（分割する）位置が適切なほど自立語が多く現れるからである。また、意味のまとまりの有る文ほど多くの自立語を有するからである。さらに、要約候補中に既に現れた同一の自立語をカウントしない場合、冗長度の低い要約候補ほど多くの自立語を有するからである。

【0064】

出力装置２０は、最適要約と決定された要約候補を要約結果として出力する。

【0065】

以上、説明したように、本実施形態によれば、文の並び順にセンテンス群に分割され、仮説文章群が生成される。仮説文章群は、センテンス群毎に文短縮がなされ、要約候補群の文章が生成される。要約候補群について形態素解析によるスコア計算がなされ、最適要約が決定される。

【0066】

従って、本実施形態によれば、文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成することが可能である。

【0067】

（改変例：学習辞書を用いた高速化）
本実施形態において、センテンス群データをその短縮文データに関連付けて格納し、参照するための学習辞書が設けられていてもよい。なお、センテンス群が１文である場合には、当該１文の文データ（sentence）が対象とされる。

【0068】

図５に示すように、文短縮器１３は、ハッシュ値計算機１３Ａ及びヒット確認器１３Ｂを有している。ハッシュ値計算機１３Ａは、短縮対象のセンテンス群データ（又は文データ）のハッシュ値と、その短縮結果のハッシュ値とを算出し、それらを関連付けて辞書テーブルとして短縮文データベース１７に格納する。

【0069】

ヒット確認器１３Ｂは、入力された短縮対象のセンテンス群データのハッシュ値をキーとして短縮文データベース１７に格納された辞書テーブルを参照し、入力ハッシュ値に関連付けられた短縮結果が存在する場合には、辞書テーブルから当該短縮結果を取得して、短縮文として出力する。従って、計算量を削減することができ、高速かつ高精度に文短縮を行うことができる。

【0070】

［第２の実施形態］
第２の実施形態において、文章分割器１１は、ダイナミックプログラミング法によりセンテンス群分割データ（_bunkatsu）を生成する。また、文短縮器１３は、当該センテンス群分割データ（_bunkatsu）に基づいて短縮文を得る。

【0071】

図６は、ダイナミックプログラミング（ＤＰ）法によって文分割データ（_sentences）をセンテンス群に分割し、文短縮を行う方法の一例を説明するための図である。

【0072】

ＳＴＥＰ１において、文章分割器１１は、sentence[1]について分割を行い、センテンス群[1]を得る。文短縮器１３は、センテンス群[1]について文短縮を行い、１つの短縮センテンス群[1]を得る。得られた短縮センテンス群は、ＣＰＵ１８のキャッシュ又はデータベース１７などに格納されてもよい。

【0073】

ＳＴＥＰ２において、文章分割器１１は、sentence[1]～sentence[2]の文章について分割を行い、２つのセンテンス群[2]及び[1,2]を得る。文短縮器１３は、センテンス群[2]及び[1,2]について文短縮を行い、それぞれ短縮センテンス群[2]及び短縮センテンス群[1,2を得る。ここで、センテンス群[1]については、ＳＴＥＰ１において既に文短縮は終了し、短縮センテンス群[1]として得られているので文短縮は省略される。

【0074】

ＳＴＥＰ３において、文章分割器１１は、sentence[1]～sentence[3]の文章について分割を行い、３つのセンテンス群[3], [2,3]及び[1,2,3]を得る。文短縮器１３は、センテンス群[3], [2,3]及び[1,2,3]について文短縮を行い、それぞれ短縮センテンス群[3], [2,3]及び[1,2,3]を得る。

【0075】

同様なステップをＳＴＥＰｎまで続ける。

【0076】

すなわち、第２の実施形態における各ステップは、第ｊステップ（ＳＴＥＰｊ，ｊ＝１，・・・，ｎ）において、文章分割器１１は、センテンスの並び順に第１～第ｊセンテンスからなる文章データ片（sentence[1]～sentence[j]）を第ｊ文章データ片とし、第ｊ文章データ片をセンテンス群への分割を行い、ｊ個のセンテンス群を得る。文短縮器１３は、ｊ個のセンテンス群の各々の文短縮を行い、ｊ個の短縮センテンス群を得る。第１～第ｊ文章データ片について順次、ＤＰ法に基づいたセンテンス群への分割が行われる。

【0077】

ＳＴＥＰｎまで終了することにより、文章データがｎ個の個別の文（センテンス）に分割された文分割データ（_sentences）から、ｋ＝ｎ×（ｎ＋１）／２個のセンテンス群が得られる。なお、ｋ＝１＋２＋・・・＋ｎ＝ｎ×（ｎ＋１）／２である。

【0078】

当該センテンス群の各々は、連続する少なくとも１つのセンテンスからなり、文短縮器１３は、センテンス群の各々の文短縮を行い短縮センテンス群を生成する。上記方法によれば、同じセンテンス群を重複して文短縮を行うことが回避される。

【0079】

文章分割器１１は、ＳＴＥＰ１～ＳＴＥＰｎの各ステップで得られたセンテンス群を、センテンス[1]～[n]の重複及び不足を許さないとの制約条件の下、センテンスの並び順にセンテンス群を連結したセンテンス群の一連からなる仮説文章を得る。

【0080】

例えば、図６に示す場合において、文分割データ（_sentences）がsentence [1]～sentence [4]からなる場合（ｎ＝４）、文章分割器１１は、各ＳＴＥＰｊ（１≦ｊ≦４）でｊ個のセンテンス群を得て、ＳＴＥＰ４の段階において、ｋ＝１＋２＋３＋４＝１０個のセンテンス群を得る。これらのセンテンス群が、センテンスの重複及び不足を許さずにセンテンスの並び順に連結されて、８（＝２^４－１）個の仮説文章が得られる。

【0081】

例えば、ＳＴＥＰ１において得られたsentence群[1]と、ＳＴＥＰ２において得られたsentence群[2]と、ＳＴＥＰ４において得られたsentence群[3,4]とから仮説文章（[[1], [2], [3,4]]）が得られる。

【0082】

例えば、図６に示す場合において、文分割データ（_sentences）がsentence [1]～sentence [4]からなる場合（ｎ＝４）、文連結器１４は、ＳＴＥＰ１において得られたsentence群[1]とＳＴＥＰ４において得られたsentence群[2,3,4]からセンテンス群分割データ１（bunkatsu1）、すなわち仮説文章１（[[1], [2,3,4]]）を得る。

【0083】

すなわち、文章分割器１１は、上記ＤＰ法のＳＴＥＰ１～ＳＴＥＰｎにおいて得られたセンテンス群からｋ通り（ｋ＝n*(n+1)/2）の仮説文章、すなわち仮説文章１～仮説文章ｋ（bunkatsu [1]～bunkatsu [k]）からなる仮説文章群を生成する。

【0084】

文連結器１４は、仮説文章１～ｋ（bunkatsu[1]～bunkatsu [k]）の各々について、短縮文の連結を行う。具体的には、仮説文章ｊに含まれるセンテンス群の各々について得られた短縮センテンス群を順に連結して、要約候補ｊを得る（ｊ＝１，２，・・・，ｋ）。これにより、ｋ（ｋ＝n*(n+1)/2）個の仮説文章（すなわち、仮説文章１～仮説文章ｋ）の全てについての短縮センテンス群の連結が行われ、要約候補１～要約候補ｋからなる要約候補群が得られる。

【0085】

要約スコア計算器１６は、要約候補１～要約候補ｋの各々のスコアを計算する。詳細には、要約候補に含まれる短縮センテンス群について形態素解析及び自立語抽出を行い、自立語の数をカウントし、そのカウント値をスコアをとする。

【0086】

最適要約決定器１５は、要約スコア計算器１６からのスコア（カウント値）に基づいて、要約候補１～要約候補ｋのうち最適な要約候補を決定する。より詳細には、要約候補１～要約候補ｋのうち、最もカウント値が大きな要約候補を最適要約として決定する。

【0087】

出力装置２０は、最適要約と決定された要約候補を要約結果として出力する。

【0088】

以上のＤＰ法を用いた文章要約方法によれば、第１の実施形態よりもさらに計算量を削減することができる。従って、高速かつ高精度に文短縮及び要約を行うことができる。

【0089】

なお、ハードウエアの各構成要素が行う処理の形式で説明したが、ＣＰＵ１８の制御の下、ソフトウエアの構成として具現化されていてもよい。

【0090】

［第３の実施形態］
第３の実施形態においては、ダイナミックプログラミング法によりセンテンス群分割データ（_bunkatsu）を生成する点においては第２の実施形態と同様である。

【0091】

第２の実施形態においては可能な全てのセンテンス群について、文短縮、文連結、要約スコア計算などの処理が行われるが、第３の実施形態においては、センテンス数の多いセンテンス群について処理が省かれる。すなわち、文分割データ（_sentences）が、ｎ個のセンテンスからなるとき、処理されるセンテンス群は、センテンス数が所定値ｐ（ｐは２以上でｎ未満の整数）以下のセンテンス群に制限される。すなわち、センテンス群のセンテンス数が所定値ｐ以下であることを制約条件として分割が実行される。従って、センテンス数が所定値ｐを超えるセンテンス群はセンテンス群分割の際に考慮されず、センテンス群として選択されない。

【0092】

例えば、図７に示すように、センテンス数を所定値ｐ＝２に限定した場合、センテンス数が３以上となる群はセンテンス群として選択されない。例えば、ＳＴＥＰ３及びＳＴＥＰ４において、センテンス数が３以上となる群[2,3,4]及び[1,2,3,4]はセンテンス群として選択されず（破線で示されている）、処理されない。

【0093】

例えば、文章データがｎ個の個別の文からなり、ｐ＝２の場合、得られるセンテンス群の数Ｑは、以下のように表される。

【0094】

Ｑ＝１＋２＋・・＋ｎ－（１＋２＋・・＋（ｎ－３））＝３（ｎ－１）

【0095】

第３の実施形態においては、ＤＰ法の第ｊステップ（ＳＴＥＰｊ，ｊ＝１，・・・，ｎ）において、文章分割器１１は、第ｊ文章データ片をセンテンス群に分割する際に、センテンス群のセンテンス数が所定値ｐ以下であることを制約条件として分割が実行される。従って、選択されなかったセンテンス群については、その後、計算処理されない。

【0096】

第３の実施形態による文章要約方法によれば、選択し得る全てのセンテンス群からセンテンス数が所定値ｐを超えるセンテンス群が計算から排除されるので、精度は第２の実施形態による場合よりも劣るが、第２の実施形態よりもさらに計算量を削減することができる。従って、高速に文短縮及び要約を行うことができる。

【0097】

［第４の実施形態］
図８は、本発明の第４の実施形態による文章要約装置３０の構成を示すブロック図である。文章要約装置３０は、文章入力装置が翻訳機１１Ａとして構成されている点で第１の実施形態の文章要約装置１０とは異なる。

【0098】

翻訳機１１Ａには、外国語の文書（Document）又は文章が入力される。翻訳機１１Ａは、入力文章を日本語に翻訳し、日本語文章データを生成する。例えば、英語、仏語、独語、中国語などの外国語文章を日本語に翻訳する。

【0099】

文章要約装置３０は、日本語文章データを上記入力文章データとし、第１の実施形態の文章要約装置１０と同様な処理を行い、要約結果を得る。

【0100】

日本語に翻訳された外国語文章は、日本語として誤り及び不正確さを含む場合がある。第４の実施形態の文章要約装置３０によれば、要約スコア計算器１６によって、出現頻度の高い語句から重要な語句が抽出される。翻訳文中の誤り等は出現頻度が低いので、要約結果中に誤り等は含まれにくくなり、高精度な翻訳文要約が得られる。

【0101】

また、第４の実施形態の改変例について説明する。外国語の文書（Document）又は文章が入力される場合について説明したが、これに代わり、翻訳機１１Ａに日本語の文章が入力され、他の言語（例えば、英語）に翻訳される構成を有していてもよい。

【0102】

この場合、当該他の言語について、当該他の言語の文法、規則に基づいて上記した実施形態の文章要約装置１０と同様な処理を行い、当該他の言語の要約結果を得るように構成されることができる。

【0103】

なお、翻訳機１１Ａが設けられず、第１の実施形態において、機械翻訳された文章データが入力装置１１に入力される構成としてもよい。

【0104】

以上、詳細に説明したように、本実施形態によれば、文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成することが可能な文章要約装置及び文章要約方法を提供することができる。

【0105】

また、日本語に翻訳された外国語文章に対しては、誤訳及び不正確な語句が抽出されにくく、高精度な翻訳文要約を生成することが可能な文章要約装置及び文章要約方法を提供することができる。

【符号の説明】

【0106】