IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マインドワード株式会社の特許一覧

特開2022-146431文章要約装置、文章要約方法及びプログラム並びに記録媒体
<>
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図1A
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図1B
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図2
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図3
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図4A
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図4B
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図4C
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図5
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図6
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図7
  • 特開-文章要約装置、文章要約方法及びプログラム並びに記録媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022146431
(43)【公開日】2022-10-05
(54)【発明の名称】文章要約装置、文章要約方法及びプログラム並びに記録媒体
(51)【国際特許分類】
   G06F 40/56 20200101AFI20220928BHJP
   G06F 16/383 20190101ALI20220928BHJP
【FI】
G06F40/56
G06F16/383
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021047386
(22)【出願日】2021-03-22
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和元年度、国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究/研究開発課題名:多言語音声翻訳高度化のための統合的深層学習の研究開発 副題:統合型機械翻訳技術の研究開発」、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】521120436
【氏名又は名称】マインドワード株式会社
(74)【代理人】
【識別番号】110000800
【氏名又は名称】特許業務法人創成国際特許事務所
(72)【発明者】
【氏名】菅谷 史昭
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091CA21
5B175DA01
5B175FB01
(57)【要約】      (修正有)
【課題】文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成する文章要約装置、文章要約方法及びプログラム並びに記録媒体を提供する。
【解決手段】文章要約装置10は、文章データを文の並び順に個別のセンテンスに分割し、センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割器と、センテンス群分割データが取り得るセンテンス群の一連の集合を仮説文章群とし、仮説文章群の各々に含まれるセンテンス群の文短縮を行って短縮センテンス群を得る文短縮器と、仮説文章群の各仮説文章について短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成する文連結器と、要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定器と、を有する。
【選択図】図1A
【特許請求の範囲】
【請求項1】
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割器と、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮器と、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成する文連結器と、
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定器と、
を有する文章要約装置。
【請求項2】
前記要約候補の要約精度を示すスコアを計算する要約スコア計算器を有し、
前記最適要約決定器は、前記要約スコア計算器により計算された前記要約候補の前記スコアに基づいて前記最適な要約候補を決定する、請求項1に記載の文章要約装置。
【請求項3】
前記要約スコア計算器は、前記要約候補の形態素解析を行う形態素解析器及び前記形態素解析器の解析結果に基づいて自立語カウントを行う自立語カウント器を有し、
前記最適要約決定器は、前記要約候補群の要約候補の自立語カウント値に基づいて前記最適な要約候補を決定する、請求項1又は2に記載の文章要約装置。
【請求項4】
前記文短縮器は、前記センテンス群を前記センテンス群の文短縮結果に関連付けて格納する学習テーブルを有し、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行う際に前記テーブルを参照する、請求項1ないし3のいずれか一項に記載の文章要約装置。
【請求項5】
前記文章分割器は、前記文章データが第1~第nセンテンスからなるとき、第1~第jセンテンスを第j文章データ片とし(j=1,2,..,n)、第1文章データ片から第n文章データ片について順次にダイナミックプログラミング法に基づいたセンテンス群への分割を行い、
前記短縮器は、前記第1文章データ片から前記第n文章データ片について得られた前記センテンス群の各々の文短縮を行い、短縮センテンス群を生成し、
前記文連結器は、前記短縮センテンス群を、前記センテンスの重複を許さず、前記センテンスの並び順に連結して少なくとも1つの短縮センテンス群の一連からなる少なくとも1つの要約候補を生成する、請求項1ないし4のいずれか一項に記載の文章要約装置。
【請求項6】
前記文章分割器は、前記第j文章データ片を前記センテンス群に分割する際に、前記センテンス群に含まれるセンテンス数が所定値以下であることを制約条件として分割をなす、請求項5に記載の文章要約装置。
【請求項7】
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成するステップと、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得るステップと、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成するステップと、
前記要約候補群の要約候補のうち最適な要約候補を決定するステップと、
を有する文章要約方法。
【請求項8】
文章からその要約を生成するためにコンピュータを、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割手段、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮手段、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成する文連結手段、及び
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定手段、
として機能させる文章要約プログラム。
【請求項9】
請求項8に記載の文章要約プログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章要約装置、文章要約方法及びプログラム並びに記録媒体に関する。
【背景技術】
【0002】
新聞記事やニュース等の文書情報及びインターネットを通じて配信される文書情報から自動で要約を生成する技術が知られている。
【0003】
例えば、特許文献1には、所定の条件で生成された融合文及び分割文からなる圧縮前候補文を所定の圧縮制約の下で圧縮し、要約候補文を生成し、要約長を満足するように要約候補文を選択する技術が開示されている。
【0004】
また、特許文献2には、文書群及びクエリ語集合が入力され、文書内の単語のスコアと文書群中の各文とクエリ関連性を示すクエリ関連性スコアから複合スコアを求め、最適な文の組合せを要約とする技術が開示されている。
【0005】
また、特許文献3には、第1及び第2のスコアに基づいて文を選択する第1及び第2の文選択手段、第1及び第2の文選択手段に第1及び第2の調整値を与えて文を選択する技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2017-151863号公報
【特許文献2】特許第5670939号公報
【特許文献3】特許第5702744号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来技術においては、複雑な処理を必要とし、また文章中から重要な要素を適切に抽出して要約を作成することが困難であった。
【0008】
本発明は上記した点に鑑みてなされたものであり、文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成することが可能な文章要約装置提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の1実施形態による文章要約装置は、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割器と、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮器と、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成する文連結器と、
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定器と、
を有している。
【0010】
本発明の他の実施形態による文章要約方法は、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成するステップと、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得るステップと、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成するステップと、
前記要約候補群の要約候補のうち最適な要約候補を決定するステップと、
を有している。
【0011】
本発明のさらに他の実施形態による文章要約プログラムは、
文章からその要約を生成するためにコンピュータを、
文章データを、文の並び順に個別のセンテンスに分割し、前記センテンスの並び順にグループ化し、各群が少なくとも1つのセンテンスを有する少なくとも1つのセンテンス群の一連からなるセンテンス群分割データを生成する文章分割手段、
前記センテンス群分割データが取り得る前記センテンス群の一連の集合を仮説文章群とし、前記仮説文章群の各々に含まれる前記センテンス群の文短縮を行って短縮センテンス群を得る文短縮手段、
前記仮説文章群の各仮説文章について前記短縮センテンス群の連結を行って少なくとも1つの要約候補を含む要約候補群を生成する文連結手段、及び
前記要約候補群の要約候補のうち最適な要約候補を決定する最適要約決定手段、
として機能させることを特徴としている。
【図面の簡単な説明】
【0012】
図1A】本発明の第1の実施形態による文章要約装置10の構成を示すブロック図である。
図1B】本発明の第1の実施形態による文章要約装置10の動作を示すフローチャートである。
図2】センテンス群分割データを生成する際の分割点について示す図である。
図3】要約スコア計算器16の構成の一例を示すブロック図である。
図4A】形態素解析器16Aによる形態素解析結果を示す図である。
図4B】要約候補2の場合の形態素解析によって抽出された自立語及びカウント値を示す図である。
図4C】要約候補3の場合の形態素解析によって抽出された自立語及びカウント値を示す図である。
図5】文短縮器13の構成の一例を示すブロック図である。
図6】DP法によって文分割データ(_sentences)をセンテンス群に分割し、文短縮を行う方法の一例を説明するための図である。
図7】センテンス群のセンテンス数が所定値以下であることを制約条件として分割が実行されることを説明するための図である。
図8】第4の実施形態による文章要約装置30の構成を示すブロック図である。
【発明を実施するための形態】
【0013】
以下においては、本発明の好適な実施例について説明するが、これらを適宜改変し、組合せてもよい。また、以下の説明及び添付図面において、実質的に同一又は等価な部分には同一の参照符を付して説明する。
【0014】
[第1の実施形態]
図1Aは、本発明の第1の実施形態による文章要約装置10の構成を示すブロック図である。文章要約装置10は、入力装置11、文章分割器12、文短縮器13、文連結器14、最適要約決定器15、要約スコア計算器16、データベース(DB)17、CPU(Central Processing Unit)18、主記憶装置19,及び出力装置20からなり、これらは双方向のデータバスであるバスラインBLに接続されている。なお、CPU18に加えGPU(Graphic Processing Unit)が設けられていてもよい。
【0015】
また、文章要約装置10は、CPU18によって制御されるように構成されている。CPU18が実行するプログラムは主記憶装置19に格納されている。また、CPU18は、図示しないキャッシュメモリ(以下、単にキャッシュ)などを有している。
【0016】
なお、以下においては、文章要約装置10がハードウエアとして構成されている場合を例に説明するが、コンピュータのファームウエアあるいはソフトウエア(プログラム)として構成されていてもよい。あるいは、当該プログラムが格納されたコンピュータ読み取り可能な記録媒体として構成されていてもよい。
【0017】
以下に、文章要約装置10の動作について、図1Bに示すフローチャートを参照しつつ説明する。
【0018】
入力装置11には、文書(Document)又は文章データが入力される。入力文章データは、少なくとも1つの文(sentence)を含む。以下においては、複数の文からなる文章データが入力される場合について説明する。
【0019】
文章分割器11は、入力装置11に入力された文章データを複数の個別の文に分割する(図1B、フローチャート:ステップS11)。例えば、入力文章が日本語の場合、文の文末は句点「。」で示される。従って、句点の位置で入力文章を分割することにより、入力文章を個々の文(sentence)に分割することができる。
【0020】
より具体的には、例えば、“こんにちは。さようなら。”という入力文章の場合、文章分割器11は、句点「。」の位置で文章を区切り、個々の文に分割した文分割データを得る。
【0021】
文章分割によって得られた各文、すなわち、入力順に最初の句点までの文を一番目の文、次を2番目の文として、文分割データ(_sentences)は、
_sentences ={1:‘こんにちは。’, 2:‘さようなら。’}
と表すことができる。
【0022】
また、Webで表示されている文章は、HTMLで記述されており、テキストや画像で書かれた文章として取り出すことができる。さらに、画像として書かれた文章はOCR技術を利用して取り出すことができる。従って、いずれの場合であっても、句点によって文の区切りが認識され、文章を分割することができる。
【0023】
一方、詩の表現などでは、句点のない文章が用いられる場合がある。その場合、スペースの利用のルールにより、文の区切りを認識することができる。
【0024】
外国語、例えば英語の場合では、ピリオド “.”よって文の区切りが認識され、文書を分割することができる。なお、略語(例えば、Fig.)に現れたピリオド “.”は、文章分割器11にデータベース(辞書)を設け、当該データベースに「Fig.」を「Figure」として登録しておくことによって、文の区切りと略語とを識別することができる。
【0025】
外国語の場合であっても、各言語に特有の文法に応じて文の区切りを識別することによって文章を複数の文に分割することができる。
【0026】
(文分割データ)
より詳細には、文章分割器11は、入力文章データから、入力順(文の並び順)に個別の文に分割された一連の文からなる文分割データ(データ名:_sentences)を生成する(図1B:ステップS12)。例えば、Pythonと呼ばれるプログラミング言語で実現することができるがこれに限定されない。
【0027】
なお、文分割データ(_sentences)は、一般的には、sentence[1]~sentence[n]のn個(nは1以上の整数)の文からなる。従って、一般に、文分割データ(_sentences)は、以下のように表すことができる。
_sentences ={[1], [2], ... , [n]}
【0028】
(文分割データの具体例)
具体的には、文分割データ(_sentences)は、例えば、以下の表1(Table 1)に示すように、各文データがsentence[1]、sentence[2]、sentence[3]、sentence[4] で指定され、入力順で並んでいる4つの文からなる。
【0029】
【表1】
【0030】
(センテンス群分割データ)
さらに、文章分割器11は、文分割データ(_sentences)を用いて、センテンス群分割データ(データ名:_bunkatsu)を生成する(図1B:ステップS13)。
【0031】
より詳細には、文章分割器11は、文分割データ(_sentences)の一連の文を、文の並び順(入力順)にグループ化され、各群が少なくとも1つの文を有する少なくとも1つのセンテンス群からなり、文の並び順に並べられたセンテンス群分割データ(_bunkatsu)を生成する。
【0032】
かかる制約条件の下、以下に説明するbunkatsu[1]~bunkatsu [m]のm個の分割データ(mは1以上の整数)からなるセンテンス群分割データ(_bunkatsu)が生成される。
【0033】
図2は、センテンス群分割データを生成する際の分割点について示す図である。文分割データが、例えば4つの文sentence[1]~sentence[4]からなる場合、分割点は3つ有り(分割点1~3)、分割データの個数mは2=8個である。一般に、文分割データがn個の文からなる場合、分割点は(n-1)個あり、分割データの個数m=2n-1である。
【0034】
従って、文章分割器11は、m(=2n-1)個の分割データを仮説文章データとして生成する。より詳細には、文章分割器11は、センテンス群分割データが上記制約条件の下、取り得るm(=2n-1)通りの仮説文章、すなわち仮説文章1~仮説文章m(bunkatsu [1]~bunkatsu [m])からなる仮説文章群を構成する。
【0035】
また、仮説文章は、並び順にセンテンスがグループ化されたセンテンス群の一連からなる。例えば、図1に示すように、仮説文章1(bunkatsu[1)は、センテンス群1([1])及びセンテンス群2([2,3,4])の2つのセンテンス群の一連( [[1], [2,3,4]])からなる。
【0036】
(仮説文章の具体例)
例えば、表1(Table 1)に示す文分割データ(_sentences)に対し、以下の表2(Table 2)に示す、文章分割器11によって生成された4つの仮説文章1~仮説文章4(bunkatsu[1]、bunkatsu [2]、bunkatsu [3]、bunkatsu[4])を例に説明する。
【0037】
【表2】
【0038】
仮説文章2を例に説明すると、仮説文章2は、bunkatsu[2]=[[1,2], [3,4]]であり、bunkatsu[2]から以下の表3(Table 3)に示すセンテンス群1([1,2])及びセンテンス群2([3,4])の2つのセンテンス群が取り出される。なお、センテンス群1([1,2])は、sentence[1]及びsentence[2]からなり、センテンス群2([3,4])はsentence[3]とsentence[4] からなる。
【0039】
【表3】
【0040】
次に、文短縮器13は、仮説文章群の各々に含まれるセンテンス群の文短縮を行って短縮センテンス群を得る(図1B:ステップS14)。
【0041】
具体的には、上記の例においては、仮説文章2(bunkatsu[2]=[[1,2], [3,4]])を短縮する。文短縮器13は、センテンス群1([1,2])及びセンテンス群2([3,4])のそれぞれの冗長な部分を削除して読みやすい出力を生成する。
【0042】
より詳細には、文短縮器13は公知の文短縮方法、例えば深層学習を用いて1文を短縮し、及び複数の文を1文にする文短縮を行う。すなわち、本実施形態によれば、入力文章全体にではなく、入力文章をセンテンス群に分割し、より少ない数の文からなるセンテンス群の各々に対して深層学習等の方法により、文短縮を行う。
【0043】
従って、センテンス群に対して文短縮を行っているので、より少ない計算量で高速かつ高精度に文短縮を行うことができる。
【0044】
例えば、表3(Table 3)に示す場合では、センテンス群1及びセンテンス群2のそれぞれの文短縮を行い、以下の表4(Table 4)に示すように、それぞれの短縮センテンス群1及び短縮センテンス群2を得る。
【0045】
【表4】
【0046】
文連結器14は、仮説文章1~m(bunkatsu[1]~bunkatsu [m])の各々について、得られた短縮センテンス群を順に連結して、要約候補群を得る(図1B:ステップS15)。
【0047】
具体的には、仮説文章jに含まれるセンテンス群の各々について得られた短縮センテンス群を順に連結して、要約候補jを得る(j=1,2,・・・,m)。
【0048】
上記した例の場合では、仮説文章2(bunkatsu[2]=[[1,2], [3,4]])を短縮して得られた短縮センテンス群1及び短縮センテンス群2をこの順に連結して、表5(Table 5)に示す要約候補2を得る。
【0049】
【表5】
【0050】
また同様に、仮説文章3(bunkatsu[3]=[[1,2,3], [4]])については、表6(Table 6)に示すように、仮説文章3を短縮して得られた短縮仮説文章3の短縮センテンス群1及び短縮センテンス群2をこの順に連結して、要約候補3を得る。
【0051】
【表6】
【0052】
本実施形態においては、入力文章データを分割して得られるm(=2n-1)個の仮説文章(すなわち、仮説文章1~仮説文章m)の全てについての短縮、及び短縮センテンス群の連結が行われ、要約候補1~要約候補mからなる要約候補群を得ている。
【0053】
最適要約決定器15は、要約スコア計算器16の計算結果(スコア)に基づいて要約候補1~要約候補mのうち最適な要約候補を決定する(図1B:ステップS16)。
【0054】
図3に示すように、要約スコア計算器16は、形態素解析器16A及び自立語カウント器16Bを有する。形態素解析器16Aは、文連結器14から要約候補j(j=1,2,・・・,m)を得て、要約候補jの各々の形態素を解析する。
【0055】
自立語カウント器16Bは、形態素解析器16Aの解析結果を得て、要約候補jの各々の自立語の数をカウントする。ここで、自立語とは、名詞、動詞、形容詞、形容動詞、副詞、連体詞、接続詞、感動詞の8種類である。
【0056】
上記した要約候補2の場合、図4Aに示すように、形態素解析器16Aによって形態素解析結果が得られる。自立語カウント器16Bは、図4Bに示すように、当該形態素解析結果から自立語を抽出し、抽出した自立語の数をカウントし、カウント値を要約候補のスコアとする。要約候補2の場合、カウント値は10であった。
【0057】
また、要約候補3の場合、図4Cに示すように、形態素解析器16Aによって抽出された自立語のカウント値は9であった。
【0058】
なお、自立語カウント器16Bは、自立語の数をカウントする際に要約候補中に既に現れた同一の自立語を重複してカウントしないように構成されていることが好ましい。
【0059】
また、自立語カウント器16Bが、自立語の数をカウントし、当該カウント値を用いる場合を例に説明したが、自立語の数を要約候補の文の長さで除算した値をカウント値として、すなわち要約候補文の長さでノーマライズした値をカウント値として用いるように構成されていてもよい。
【0060】
また、単語毎に重み付けを行って、カウント値(スコア)を得るように構成してもよい。この場合、単語と重みとを関連付けたテーブルをデータベース17に設け、当該テーブルを参照して重み付けされたカウント値を得るように構成することができる。さらに、少なくとも1つの単語と、他の少なくとも1つの単語とからなる単語のセット(2単語以上の組合せ)と重みとを関連付けたテーブルを参照するように構成することができる。
【0061】
最適要約決定器15は、要約スコア計算器16からのスコア(カウント値)に基づいて、要約候補1~要約候補mのうち最適な要約候補を決定する。より詳細には、要約候補1~要約候補mのうち、最もカウント値が大きな要約候補を最適要約として決定する。
【0062】
例えば、上記した要約候補2及び3を比較した場合では、要約候補2(カウント値:10)の方が要約候補3(カウント値:9)よりも要約として適していると決定する。
【0063】
カウント値が大きな要約候補がより適していると判断するのは、文分割データ(_sentences)をセンテンス群に区切る(分割する)位置が適切なほど自立語が多く現れるからである。また、意味のまとまりの有る文ほど多くの自立語を有するからである。さらに、要約候補中に既に現れた同一の自立語をカウントしない場合、冗長度の低い要約候補ほど多くの自立語を有するからである。
【0064】
出力装置20は、最適要約と決定された要約候補を要約結果として出力する。
【0065】
以上、説明したように、本実施形態によれば、文の並び順にセンテンス群に分割され、仮説文章群が生成される。仮説文章群は、センテンス群毎に文短縮がなされ、要約候補群の文章が生成される。要約候補群について形態素解析によるスコア計算がなされ、最適要約が決定される。
【0066】
従って、本実施形態によれば、文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成することが可能である。
【0067】
(改変例:学習辞書を用いた高速化)
本実施形態において、センテンス群データをその短縮文データに関連付けて格納し、参照するための学習辞書が設けられていてもよい。なお、センテンス群が1文である場合には、当該1文の文データ(sentence)が対象とされる。
【0068】
図5に示すように、文短縮器13は、ハッシュ値計算機13A及びヒット確認器13Bを有している。ハッシュ値計算機13Aは、短縮対象のセンテンス群データ(又は文データ)のハッシュ値と、その短縮結果のハッシュ値とを算出し、それらを関連付けて辞書テーブルとして短縮文データベース17に格納する。
【0069】
ヒット確認器13Bは、入力された短縮対象のセンテンス群データのハッシュ値をキーとして短縮文データベース17に格納された辞書テーブルを参照し、入力ハッシュ値に関連付けられた短縮結果が存在する場合には、辞書テーブルから当該短縮結果を取得して、短縮文として出力する。従って、計算量を削減することができ、高速かつ高精度に文短縮を行うことができる。
【0070】
[第2の実施形態]
第2の実施形態において、文章分割器11は、ダイナミックプログラミング法によりセンテンス群分割データ(_bunkatsu)を生成する。また、文短縮器13は、当該センテンス群分割データ(_bunkatsu)に基づいて短縮文を得る。
【0071】
図6は、ダイナミックプログラミング(DP)法によって文分割データ(_sentences)をセンテンス群に分割し、文短縮を行う方法の一例を説明するための図である。
【0072】
STEP1において、文章分割器11は、sentence[1]について分割を行い、センテンス群[1]を得る。文短縮器13は、センテンス群[1]について文短縮を行い、1つの短縮センテンス群[1]を得る。得られた短縮センテンス群は、CPU18のキャッシュ又はデータベース17などに格納されてもよい。
【0073】
STEP2において、文章分割器11は、sentence[1]~sentence[2]の文章について分割を行い、2つのセンテンス群[2]及び[1,2]を得る。文短縮器13は、センテンス群[2]及び[1,2]について文短縮を行い、それぞれ短縮センテンス群[2]及び短縮センテンス群[1,2を得る。ここで、センテンス群[1]については、STEP1において既に文短縮は終了し、短縮センテンス群[1]として得られているので文短縮は省略される。
【0074】
STEP3において、文章分割器11は、sentence[1]~sentence[3]の文章について分割を行い、3つのセンテンス群[3], [2,3]及び[1,2,3]を得る。文短縮器13は、センテンス群[3], [2,3]及び[1,2,3]について文短縮を行い、それぞれ短縮センテンス群[3], [2,3]及び[1,2,3]を得る。
【0075】
同様なステップをSTEPnまで続ける。
【0076】
すなわち、第2の実施形態における各ステップは、第jステップ(STEPj,j=1,・・・,n)において、文章分割器11は、センテンスの並び順に第1~第jセンテンスからなる文章データ片(sentence[1]~sentence[j])を第j文章データ片とし、第j文章データ片をセンテンス群への分割を行い、j個のセンテンス群を得る。文短縮器13は、j個のセンテンス群の各々の文短縮を行い、j個の短縮センテンス群を得る。第1~第j文章データ片について順次、DP法に基づいたセンテンス群への分割が行われる。
【0077】
STEPnまで終了することにより、文章データがn個の個別の文(センテンス)に分割された文分割データ(_sentences)から、k=n×(n+1)/2個のセンテンス群が得られる。なお、k=1+2+ ・・・ +n=n×(n+1)/2である。
【0078】
当該センテンス群の各々は、連続する少なくとも1つのセンテンスからなり、文短縮器13は、センテンス群の各々の文短縮を行い短縮センテンス群を生成する。上記方法によれば、同じセンテンス群を重複して文短縮を行うことが回避される。
【0079】
文章分割器11は、STEP1~STEPnの各ステップで得られたセンテンス群を、センテンス[1]~[n]の重複及び不足を許さないとの制約条件の下、センテンスの並び順にセンテンス群を連結したセンテンス群の一連からなる仮説文章を得る。
【0080】
例えば、図6に示す場合において、文分割データ(_sentences)がsentence [1]~sentence [4]からなる場合(n=4)、文章分割器11は、各STEPj(1≦j≦4)でj個のセンテンス群を得て、STEP4の段階において、k=1+2+3+4=10個のセンテンス群を得る。これらのセンテンス群が、センテンスの重複及び不足を許さずにセンテンスの並び順に連結されて、8(=24-1)個の仮説文章が得られる。
【0081】
例えば、STEP1において得られたsentence群[1]と、STEP2において得られたsentence群[2]と、STEP4において得られたsentence群[3,4]とから仮説文章([[1], [2], [3,4]])が得られる。
【0082】
例えば、図6に示す場合において、文分割データ(_sentences)がsentence [1]~sentence [4]からなる場合(n=4)、文連結器14は、STEP1において得られたsentence群[1]とSTEP4において得られたsentence群[2,3,4]からセンテンス群分割データ1(bunkatsu1)、すなわち仮説文章1([[1], [2,3,4]])を得る。
【0083】
すなわち、文章分割器11は、上記DP法のSTEP1~STEPnにおいて得られたセンテンス群からk通り(k=n*(n+1)/2)の仮説文章、すなわち仮説文章1~仮説文章k(bunkatsu [1]~bunkatsu [k])からなる仮説文章群を生成する。
【0084】
文連結器14は、仮説文章1~k(bunkatsu[1]~bunkatsu [k])の各々について、短縮文の連結を行う。具体的には、仮説文章jに含まれるセンテンス群の各々について得られた短縮センテンス群を順に連結して、要約候補jを得る(j=1,2,・・・,k)。これにより、k(k=n*(n+1)/2)個の仮説文章(すなわち、仮説文章1~仮説文章k)の全てについての短縮センテンス群の連結が行われ、要約候補1~要約候補kからなる要約候補群が得られる。
【0085】
要約スコア計算器16は、要約候補1~要約候補kの各々のスコアを計算する。詳細には、要約候補に含まれる短縮センテンス群について形態素解析及び自立語抽出を行い、自立語の数をカウントし、そのカウント値をスコアをとする。
【0086】
最適要約決定器15は、要約スコア計算器16からのスコア(カウント値)に基づいて、要約候補1~要約候補kのうち最適な要約候補を決定する。より詳細には、要約候補1~要約候補kのうち、最もカウント値が大きな要約候補を最適要約として決定する。
【0087】
出力装置20は、最適要約と決定された要約候補を要約結果として出力する。
【0088】
以上のDP法を用いた文章要約方法によれば、第1の実施形態よりもさらに計算量を削減することができる。従って、高速かつ高精度に文短縮及び要約を行うことができる。
【0089】
なお、ハードウエアの各構成要素が行う処理の形式で説明したが、CPU18の制御の下、ソフトウエアの構成として具現化されていてもよい。
【0090】
[第3の実施形態]
第3の実施形態においては、ダイナミックプログラミング法によりセンテンス群分割データ(_bunkatsu)を生成する点においては第2の実施形態と同様である。
【0091】
第2の実施形態においては可能な全てのセンテンス群について、文短縮、文連結、要約スコア計算などの処理が行われるが、第3の実施形態においては、センテンス数の多いセンテンス群について処理が省かれる。すなわち、文分割データ(_sentences)が、n個のセンテンスからなるとき、処理されるセンテンス群は、センテンス数が所定値p(pは2以上でn未満の整数)以下のセンテンス群に制限される。すなわち、センテンス群のセンテンス数が所定値p以下であることを制約条件として分割が実行される。従って、センテンス数が所定値pを超えるセンテンス群はセンテンス群分割の際に考慮されず、センテンス群として選択されない。
【0092】
例えば、図7に示すように、センテンス数を所定値p=2に限定した場合、センテンス数が3以上となる群はセンテンス群として選択されない。例えば、STEP3及びSTEP4において、センテンス数が3以上となる群[2,3,4]及び[1,2,3,4]はセンテンス群として選択されず(破線で示されている)、処理されない。
【0093】
例えば、文章データがn個の個別の文からなり、p=2の場合、得られるセンテンス群の数Qは、以下のように表される。
【0094】
Q=1+2+・・+n-(1+2+・・+(n-3))=3(n-1)
【0095】
第3の実施形態においては、DP法の第jステップ(STEPj,j=1,・・・,n)において、文章分割器11は、第j文章データ片をセンテンス群に分割する際に、センテンス群のセンテンス数が所定値p以下であることを制約条件として分割が実行される。従って、選択されなかったセンテンス群については、その後、計算処理されない。
【0096】
第3の実施形態による文章要約方法によれば、選択し得る全てのセンテンス群からセンテンス数が所定値pを超えるセンテンス群が計算から排除されるので、精度は第2の実施形態による場合よりも劣るが、第2の実施形態よりもさらに計算量を削減することができる。従って、高速に文短縮及び要約を行うことができる。
【0097】
[第4の実施形態]
図8は、本発明の第4の実施形態による文章要約装置30の構成を示すブロック図である。文章要約装置30は、文章入力装置が翻訳機11Aとして構成されている点で第1の実施形態の文章要約装置10とは異なる。
【0098】
翻訳機11Aには、外国語の文書(Document)又は文章が入力される。翻訳機11Aは、入力文章を日本語に翻訳し、日本語文章データを生成する。例えば、英語、仏語、独語、中国語などの外国語文章を日本語に翻訳する。
【0099】
文章要約装置30は、日本語文章データを上記入力文章データとし、第1の実施形態の文章要約装置10と同様な処理を行い、要約結果を得る。
【0100】
日本語に翻訳された外国語文章は、日本語として誤り及び不正確さを含む場合がある。第4の実施形態の文章要約装置30によれば、要約スコア計算器16によって、出現頻度の高い語句から重要な語句が抽出される。翻訳文中の誤り等は出現頻度が低いので、要約結果中に誤り等は含まれにくくなり、高精度な翻訳文要約が得られる。
【0101】
また、第4の実施形態の改変例について説明する。外国語の文書(Document)又は文章が入力される場合について説明したが、これに代わり、翻訳機11Aに日本語の文章が入力され、他の言語(例えば、英語)に翻訳される構成を有していてもよい。
【0102】
この場合、当該他の言語について、当該他の言語の文法、規則に基づいて上記した実施形態の文章要約装置10と同様な処理を行い、当該他の言語の要約結果を得るように構成されることができる。
【0103】
なお、翻訳機11Aが設けられず、第1の実施形態において、機械翻訳された文章データが入力装置11に入力される構成としてもよい。
【0104】
以上、詳細に説明したように、本実施形態によれば、文章中から重要な要素を適切に抽出することができ、簡便かつ高速に精度の高い要約文を作成することが可能な文章要約装置及び文章要約方法を提供することができる。
【0105】
また、日本語に翻訳された外国語文章に対しては、誤訳及び不正確な語句が抽出されにくく、高精度な翻訳文要約を生成することが可能な文章要約装置及び文章要約方法を提供することができる。
【符号の説明】
【0106】
10:文章要約装置、11:入力装置、11A:翻訳機、12:文章分割器、13文短縮器:、14:文連結器、15:最適要約決定器、16:要約スコア計算器、17:データベース(DB)、18:CPU、19:主記憶装置、20:出力装置、BL:バスライン
図1A
図1B
図2
図3
図4A
図4B
図4C
図5
図6
図7
図8