特許7288293 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズ東日本の特許一覧

特許7288293要約生成装置および要約生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-30

(45)【発行日】2023-06-07

(54)【発明の名称】要約生成装置および要約生成方法

(51)【国際特許分類】

G06F 16/30 20190101AFI20230531BHJP

G06F 40/20 20200101ALI20230531BHJP

G06N 20/00 20190101ALI20230531BHJP

【ＦＩ】

G06F16/30

G06F40/20

G06N20/00 130

【請求項の数】 10

(21)【出願番号】P 2018162525

(22)【出願日】2018-08-31

(65)【公開番号】P2020035272

(43)【公開日】2020-03-05

【審査請求日】2021-06-07

(73)【特許権者】

【識別番号】000233538

【氏名又は名称】株式会社日立ソリューションズ東日本

(74)【代理人】

【識別番号】110002572

【氏名又は名称】弁理士法人平木国際特許事務所

(72)【発明者】

【氏名】飯塚新司

(72)【発明者】

【氏名】宮内秀彰

(72)【発明者】

【氏名】▲高▼橋毅

【審査官】酒井恭信

(56)【参考文献】

【文献】特開平１１－２７２６８６（ＪＰ，Ａ）

【文献】特開２００４－３４８５２３（ＪＰ，Ａ）

【文献】特開２０１３－１６７９８５（ＪＰ，Ａ）

【文献】特開２０１６－２０７１４１（ＪＰ，Ａ）

【文献】特開２００８－２４２６１２（ＪＰ，Ａ）

【文献】特開２００２－２９７６３５（ＪＰ，Ａ）

【文献】特開２０１３－１２０５４７（ＪＰ，Ａ）

【文献】特開２０１１－０８７００５（ＪＰ，Ａ）

【文献】特開２００６－１２６８８６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ０６Ｎ２０／００－２０／２０

(57)【特許請求の範囲】

【請求項1】

一つ以上の文を含む文書から、文を抽出して前記文書の要約を生成する要約生成装置であって、
単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部と、
教師データ文と、前記教師データ文が要か不要かの情報である文ラベルと、単語分散表現情報に基づいて算出された前記教師データ文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部と、
要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、
前記要約対象文書に含まれる文に対して、
前記単語分散表現情報記憶部に記憶されている前記単語分散表現情報に基づいて前記文の文分散表現を算出し、
前記不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、
前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、
前記不要文除去済みの文書から、
抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成部と
を有し、
前記抽出的要約手法は、
前記抽出的要約手法に入力された文書である入力文書に対して、
前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、
前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、
前記生成されたウィンドウごとに、分散表現を用いた抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、
前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成し、
前記分散表現を用いた抽出的要約手法は、
前記単語分散表現情報に基づいて、前記ウィンドウに含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記ウィンドウに含まれる文の重要度に基づき、前記ウィンドウの要約に含める文を抽出することを特徴とする要約生成装置。

【請求項2】

前記不要文除去処理部において、
前記自動分類手法は、
前記不要文判定教師データ情報記憶部に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、前記文の文分散表現と、のコサイン類似度を算出し、
前記コサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、前記文が不要文であると判定すること
を特徴とする請求項１に記載の要約生成装置。

【請求項3】

前記不要文除去処理部において、
前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文ラベルと文分散表現を教師データとした、ｋ－近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法であること
を特徴とする請求項１に記載の要約生成装置。

【請求項4】

前記分散表現を用いた抽出的要約手法は、
前記入力文書に含まれる単語に対して、前記入力文書における前記単語の出現頻度に基づき算出される実数値である、文書中における前記単語の出現頻度を表す出現頻度の指標を算出し、
前記入力文書に含まれる文に対して、
形態素解析部を用いて前記文を形態素解析して単語へ分かち書きし、
前記単語のうち、不要語除去処理部により不要と判定された単語である不要語を、前記文から除去し、
前記不要語を除去した前記文に含まれる単語に対して、
前記単語分散表現情報を参照して、前記単語の単語分散表現を取得し、
前記単語分散表現に、前記単語の出現頻度の指標を乗算することで、重み付き単語分散表現を算出し、
前記重み付き単語分散表現を合成することで、前記文分散表現を算出し、
前記文分散表現を合成して、前記入力文書の文書分散表現を算出し、
前記文分散表現と前記文書分散表現とのコサイン類似度として算出された重要度に基づき、前記入力文書の要約に含める文を抽出すること
を特徴とする請求項１に記載の要約生成装置。

【請求項5】

前記単語の出現頻度の指標は、
入力文書中の単語に対して、入力文書における単語の出現頻度に基づき算出される実数値であって、出現頻度が大きいほど値が小さくなる、正の実数値であることを要件とする指標である
請求項４に記載の要約生成装置。

【請求項6】

単語と、非負の実数値である単語の重みと、が登録されている、単語重み付け情報をさらに備え、
前記分散表現を用いた抽出的要約手法は、
前記不要語を除去した前記文に含まれる単語に対して、
前記単語重み付け情報を参照して、前記単語の重みを取得し、前記単語分散表現に、前記単語の重みと、前記単語の出現頻度の指標と、を乗算することで、重み付き単語分散表現を算出すること
を特徴とする請求項４又は５に記載の要約生成装置。

【請求項7】

前記分散表現を用いた抽出的要約手法において、
前記不要語除去処理部は、前記形態素解析部による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定すること
を特徴とする請求項４から６までのいずれか１項に記載の要約生成装置。

【請求項8】

入力装置から、前記ウィンドウに含める文の数の最大値である、ウィンドウサイズを設定する、要約パラメータ設定部をさらに備え、
前記抽出的要約手法において、前記生成されたウィンドウは、
前記生成されたウィンドウに含まれる文の数が、いずれも前記ウィンドウサイズ以下であり、かつ
前記入力文書に含まれる文である第１の文と、前記入力文書において前記第１の文の次に出現する第２の文に対して、前記第１の文が少なくとも一つの前記ウィンドウにおいて出現順に最後の文であるならば、前記第２の文も他の少なくとも一つの前記ウィンドウにおいて出現順に最後の文である、
という条件をさらに満たすこと
を特徴とする請求項１に記載の要約生成装置。

【請求項9】

入力装置から、要約に含める文の目標抽出件数と、要約処理の継続条件と、要約処理の終了条件と、を設定する、要約パラメータ設定部をさらに備え、
前記抽出的要約手法は、
前記抽出的要約手法に入力された文書である入力文書に対して、
出力文書を、前記入力文書を代入することにより、初期化し、
前記出力文書に対して、
前記抽出的要約手法を適用することで、前記出力文書の要約を生成し、
前記出力文書を、前記生成した前記出力文書の要約を代入することにより、更新する、
更新処理を実行し、
前記要約処理の継続条件が満たされているか、または
前記要約処理の終了条件が満たされておらず、かつ
前記出力文書に含まれる文の数が前記目標抽出件数より大きい
場合は、前記更新処理を繰り返し、
上記以外の場合は、前記出力文書を前記入力文書の要約として出力すること
を特徴とする請求項１または８に記載の要約生成装置。

【請求項10】

一つ以上の文を含む文書から、コンピュータ処理により文を抽出して前記文書の要約を生成する要約生成方法であって、
コンピュータが、要約対象の文書である要約対象文書を取得する、要約対象文書取得ステップと、
コンピュータが、
ａ）前記要約対象文書に含まれる文に対して、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部の単語分散表現情報に基づいて前記文の文分散表現を算出し、
ｂ）教師データ文と、前記教師データ文が要か不要かの情報である文ラベルと、前記単語分散表現情報に基づいて算出された前記教師データ文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部の不要文判定教師データ情報に含まれる前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、
ｃ）前記要約対象文書から、不要文であると判定された文を除去する
ことで、不要文除去済みの文書を生成する、不要文除去処理ステップと、
コンピュータが、ｄ）前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成ステップと、
を実行し、
前記抽出的要約手法において、前記コンピュータが、
前記抽出的要約手法に入力された文書である入力文書に対して、
前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、
前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、
前記生成されたウィンドウごとに、分散表現を用いた抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、
前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成し、
前記分散表現を用いた抽出的要約手法において、前記コンピュータが、
前記単語分散表現情報に基づいて、前記ウィンドウに含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記ウィンドウに含まれる文の重要度に基づき、前記ウィンドウの要約に含める文を抽出することを特徴とする要約生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、要約生成技術に関する。

【背景技術】

【0002】

例えば、コールセンターの顧客対応業務等では、音声認識システムによりテキスト化された通話内容の音声認識テキストを、応対の品質向上のためのデータ分析、オペレータによる通話記録のシステム登録、などに活用している。

【0003】

しかし、通話の音声認識テキストには、言い淀みや主要な内容とは関係のない発言等が多く含まれているため、通話の音声認識テキストを人が読んで内容を把握するには手間がかかる。

【0004】

そのため、音声認識テキストを人が読みやすい文章に要約する、要約生成技術に対するニーズが増大している。

【0005】

コールセンターのヘルプサービスにおける顧客との会話は、あいさつ、困り事の質問、質問への回答、などの順番で行われる。コールセンターの通話の要約では、顧客との会話のうち、質問に関する発言と、回答に関する発言と、の両方の話題が要約に含まれることが望ましい。

【0006】

下記特許文献１では、単語を数値ベクトル化する分散表現の技術（技術内容については非特許文献１参照）を用いて、文や文書の類似度を算出し、類似度に基づいて要約に含める文を抽出する、抽出的要約技術が述べられている。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１６－２０７１４１号公報

【非特許文献】

【0008】

【文献】T. Mikolov、I. Sutskever、K. Chen、G. S. Corrado、J. Dean、“Distributed representations of words and phrases and their compositionality”Advances in neural information processing systems、pp. 3111-3119 (2013).

【発明の概要】

【発明が解決しようとする課題】

【0009】

しかし、特許文献１の技術では、取得部から取得した文書のみから要約を抽出するため、例えば、「お世話になります」などのように、他の通話と共通する定型的な表現もそのまま抽出され、期待される要約の抽出結果と比較すると、要約の抽出精度が低くなる場合がある（第１の課題）。

【0010】

また、特許文献１の技術では、通話内容の時間的な変化を考慮していないため、質問に関する発言は抽出されず、回答に関する発言のみ抽出されるなど、通話内の複数の話題を考慮した要約を生成できない場合がある（第２の課題）。
本発明は、上記の課題を解決し、要約の抽出精度を高めることを目的とする。

【課題を解決するための手段】

【0011】

本発明においては、例えば、以下の１）～４）までの手順により、分散表現を用いた自動分類手法による不要文除去処理と、抽出的要約処理とを実行する。
１）形態素解析
２）フィラーなどの不要語除去
３）分散表現を用いた自動分類手法による不要文除去（第１の課題を解決する手段により解決する。）
４）抽出的要約
この際、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を従来の分散表現を用いた抽出的要約技術で要約し、ウィンドウを一文ずつスライドさせていくことで文書全体の要約を生成する手法（以下、「スライディングウィンドウ法」と称する。）を適用すると良い（とりわけ、第２の課題を解決するための手段により解決する）。

【0012】

スライディングウィンドウ法の適用においては、ウィンドウに含める文の数の最大値であるウィンドウサイズを、ウィンドウ内の話題が１つに限定できる程度に小さくし、ウィンドウ内の文書の要約を行う。これにより、ウィンドウ内の文書から抽出される要約結果はその話題に関するものとなる。

【0013】

これをウィンドウの位置を一文ずつずらしながら行い、各ウィンドウから抽出される要約結果を、重複する文を除いて合併することで、文書全体の要約を生成する。これにより、文書全体の要約に各話題に関する要約結果が含まれるようにすることができる。

【0014】

本発明の一観点によれば、一つ以上の文を含む文書から、文を抽出して前記文書の要約を生成する要約生成装置であって、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部と、文と、前記文が要か不要かの情報が記載された文ラベルと、単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部と、要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、前記要約対象文書に含まれる文に対して、前記単語分散表現情報記憶部に記憶されている単語分散表現情報に基づいて前記文の文分散表現を算出し、前記不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成部と、を有することを特徴とする要約生成装置が提供される。

【0015】

前記不要文除去処理部において、前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、前記文の文分散表現と、のコサイン類似度を算出し、前記コサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、前記文が不要文であると判定することが好ましい。

【0016】

あるいは、前記不要文除去処理部において、前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文ラベルと文分散表現を教師データとした、ｋ－近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法であることが好ましい。

【0017】

前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、前記単語分散表現情報に基づいて、前記入力文書に含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記入力文書に含まれる文の重要度に基づき、前記入力文書の要約に含める文を抽出することが好ましい。

【0018】

具体的には、前記抽出的要約手法は、前記入力文書に含まれる単語に対して、前記入力文書における前記単語の出現頻度に基づき算出される実数値である、文書中における前記単語の出現頻度を表す出現頻度の指標を算出し、前記入力文書に含まれる文に対して、形態素解析部を用いて前記文を形態素解析して単語へ分かち書きし、前記単語のうち、不要語除去処理部により不要と判定された単語である不要語を、前記文から除去し、前記不要語を除去した前記文に含まれる単語に対して、前記単語分散表現情報を参照して、前記単語の単語分散表現を取得し、前記単語分散表現に、前記単語の出現頻度の指標を乗算することで、重み付き単語分散表現を算出し、前記重み付き単語分散表現を合成することで、前記文分散表現を算出し、前記文分散表現を合成して、前記入力文書の文書分散表現を算出し、前記文分散表現と前記文書分散表現とのコサイン類似度として算出された重要度に基づき、前記入力文書の要約に含める文を抽出することが好ましい。

【0019】

前記単語の出現頻度の指標は、入力文書中の単語に対して、入力文書における単語の出現頻度に基づき算出される実数値であって、出現頻度が大きいほど値が小さくなる、正の実数値であることを要件とする指標であるようにすると良い。

【0020】

このような指標を分散表現に乗算することで、出現頻度の高い単語の重みを低くすることができる。

【0021】

また、単語と、非負の実数値である単語の重みと、が登録されている、単語重み付け情報をさらに備え、前記抽出的要約手法は、前記不要語を除去した前記文に含まれる単語に対して、前記単語重み付け情報を参照して、前記単語の重みを取得し、前記単語分散表現に、前記単語の重みと、前記単語の出現頻度の指標と、を乗算することで、重み付き単語分散表現を算出することが好ましい。

【0022】

前記抽出的要約手法において、前記不要語除去処理部は、前記形態素解析部による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定することが好ましい。

【0023】

前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、前記生成されたウィンドウごとに、上記に記載の抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成することが好ましい。

【0024】

また、入力装置から、前記ウィンドウに含める文の数の最大値である、ウィンドウサイズを設定する、要約パラメータ設定部をさらに備え、前記抽出的要約手法において、前記生成されたウィンドウは、前記生成されたウィンドウに含まれる文の数が、いずれも前記ウィンドウサイズ以下であり、かつ、前記入力文書に含まれる文である第１の文と、前記入力文書において前記第１の文の次に出現する第２の文に対して、前記第１の文が少なくとも一つの前記ウィンドウにおいて出現順に最後の文であるならば、前記第２の文も少なくとも一つの前記ウィンドウにおいて出現順に最後の文である、という条件をさらに満たすことが好ましい。

【0025】

また、入力装置から、要約に含める文の目標抽出件数と、要約処理の継続条件と、要約処理の終了条件と、を設定する、要約パラメータ設定部をさらに備え、前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、出力文書を、前記入力文書を代入することにより、初期化し、前記出力文書に対して、上記に記載の抽出的要約手法を適用することで、前記出力文書の要約を生成し、前記出力文書を、前記生成した前記出力文書の要約を代入することにより、更新する、更新処理を実行し、前記要約処理の継続条件が満たされているか、または、前記要約処理の終了条件が満たされておらず、かつ、前記出力文書に含まれる文の数が前記目標抽出件数より大きい場合は、前記更新処理を繰り返し、上記以外の場合は、前記出力文書を前記入力文書の要約として出力することを特徴とする。

【0026】

本発明の他の観点によれば、一つ以上の文を含む文書から、コンピュータ処理により文を抽出して前記文書の要約を生成する要約生成方法であって、要約対象の文書である要約対象文書を取得する、要約対象文書取得ステップと、コンピュータが、ａ）前記要約対象文書に含まれる文に対して、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現単語分散表現情報に基づいて前記文の文分散表現を算出し、ｂ）文と、前記文が要か不要かの情報が記載された文ラベルと、前記単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報に含まれる文ラベルと文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、ｃ）前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理ステップと、ｄ）前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成ステップと、を実行することを特徴とする要約生成方法が提供される。

【発明の効果】

【0027】

本発明によれば、他の通話と共通する定型的な表現を、不要文判定により事前に除去できるため、従来の技術と比較して要約の抽出精度を高めることができる。
また、スライディングウィンドウ法を適用することで、文書中の各話題の重要文がいずれかのウィンドウの要約結果に含まれるため、それらを合併して全体の要約とすることで、複数の話題を考慮した要約を生成できる。

【図面の簡単な説明】

【0028】

【図1】図１は、本発明の一実施の形態による要約生成装置の一構成例を示す機能ブロック図である。

【図2】図２は、本実施の形態による要約生成装置による全体処理例を示すフローチャート図である。

【図3】単語分散表現学習部の処理例を示すフローチャート図である。

【図4】不要文判定教師データ生成部の処理例を示すフローチャート図である。

【図5】不要文除去処理部の処理例を示すフローチャート図である。

【図6】要約生成部においてスライディングウィンドウ法を適用した処理例を示すフローチャート図である。

【図7】図６のステップＳ６－８の処理例を示すフローチャート図である。

【図8】スライディングウィンドウ法におけるウィンドウの一例を示す図である。

【図9】単語辞書テーブルの一構成例を示す図である。

【図10】単語重み付けテーブルの一構成例を示す図である。

【図11】分散表現学習コーパステーブルの一構成例を示す図である。

【図12】単語分散表現テーブルの一構成例を示す図である。

【図13】不要文判定教師データテーブルの一構成例を示す図である。

【図14】要約対象文書テーブルの一構成例を示す図である。

【図15】前処理結果テーブルの一構成例を示す図である。

【図16】要約結果テーブルの一構成例を示す図である。

【発明を実施するための形態】

【0029】

以下においては、コールセンター等のヘルプサービスを提供している事業者向けの要約生成技術を例にして説明するが、本発明は、その他の種々の業務を含む要約生成技術に適用可能である。

【0030】

本明細書において、スライディングウィンドウ法とは、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を従来の分散表現を用いた抽出的要約技術で要約し、ウィンドウを一文ずつスライドさせていくことで文書全体の要約を生成する方法をいう。

【0031】

また、本明細書において、図１および図９から図１６までにおいて示されている各種情報は、テーブルの形式により例示的に示している。これらの各種情報は、例えば、図１の補助記憶装置の各データ情報を記憶する記憶部（或いは記憶領域）に記憶されるのが一般的である。また、本明細書において、単語の分散表現とは、例えば、非特許文献１の技術であるword2vecなどにより学習された単語のベクトル空間への埋め込みのことである。また、以下では、その埋め込みによって単語と対応付けられたベクトル自体も、単語の分散表現として参照する。自然言語処理に機械学習を適用しやすくするために、おおよそ数百次元のベクトルで単語を表現することを意図するものである。

【0032】

以下に、本発明の一実施の形態による要約生成技術について図面を参照しながら詳細に説明する。

【0033】

図１は、本実施の形態による要約生成装置の一構成例を示す機能ブロック図である。図１に示すように、本実施の形態による要約生成装置Ａは、補助記憶装置（各記憶部）１と、主記憶装置２と、入力装置３と、出力装置４と、中央演算装置（ＣＰＵ）５と、を有している。尚、図１では、全ての構成要素が１つの装置内に設けられている構成例を示しているが、例えば、補助記憶装置が別の装置内に遠隔で設けられているなど、種々の形態が含まれることは言うまでもない。

【0034】

補助記憶装置（各記憶部）１には、単語辞書テーブル１－１、単語重み付けテーブル１－２、分散表現学習コーパステーブル１－３、単語分散表現テーブル（情報）１－４、不要文判定教師データテーブル（情報）１－５、要約対象文書テーブル（情報）１－６、前処理結果テーブル１－７、要約結果テーブル１－８が設けられている。

【0035】

また、主記憶装置２には、形態素解析部２－１、不要語除去処理部２－２、単語分散表現学習部２－３、不要文判定教師データ生成部２－４、不要文除去処理部２－５、要約対象文書取得部２－６、要約生成部２－７としてＣＰＵを機能させるための例えばプログラム等が格納され、プログラムによりＣＰＵにそれぞれの機能部として機能するように構成されている。

【0036】

入力装置３は、音声を取得するマイクロフォンやマウス、キーボードなどが含まれ、出力装置４は要約を出力するディスプレイやスピーカなどが含まれる。

【0037】

上記各処理部２－１～２－７による処理の流れの一例を示すフローチャート図としては、以下の図面を参照する。図２は、本実施の形態による要約生成装置Ａによる全体処理例を示すフローチャート図である。図３は、単語分散表現学習部２－３の処理例を示すフローチャート図である。図４は、不要文判定教師データ生成部２－４の処理例を示すフローチャート図である。図５は、不要文除去処理部２－５の処理例を示すフローチャート図である。図６は、要約生成部２－７においてスライディングウィンドウ法を適用した処理例を示すフローチャート図である。図７は、図６のステップＳ６－８の処理例を示すフローチャート図である。
また、図８は、ウィンドウの一例を示す図である。

【0038】

さらに、図９から図１６までは、補助記憶装置１に各種情報等が格納されている各テーブルの一構成例を示す図である。図９は、単語辞書テーブル１－１の一構成例を示す図である。単語辞書テーブル１－１は、形態素解析部２－１により、形態素解析における品詞判定を行うために参照される辞書である。図９に示すように、単語毎に、品詞が記載されており、特に、不要語である可能性が高いフィラーであるか否かを明記している。図１０は、単語重み付けテーブル１－２の一構成例を示す図である。すなわち、単語毎に単語の重みが付与されている。０、０．５などは重みが小さい例、１０．０などは単語の重みが大きい例である。

【0039】

図１１は、分散表現学習コーパステーブル１－３の一構成例を示す図である。図１２は、単語分散表現テーブル１－４の一構成例を示す図である。図１３は、不要文判定教師データテーブル１－５の一構成例を示す図である。図１３に示すように、不要文判定教師データテーブルには、教師データＩＤ毎に、教師データ文と、要不要の文ラベルと、ベクトル値１～２００（例示）が示されている。図１４は、要約対象文書テーブル１－６の一構成例を示す図である。図１５は、前処理結果テーブル１－７の一構成例を示す図である。図１５に示すように、前処理結果テーブルには、文書ＩＤ毎に、それに含まれる文の文ＩＤ、その単語分かち書き、不要文判定結果が格納されている。図１６は、要約結果テーブル１－８の一構成例を示す図である。

【0040】

以下、フローチャート図に沿って、本実施の形態による処理の詳細について説明する。
図２に示すように、要約生成処理の全体処理の概要においては、処理が開始されると（ＳＴＲＡＴ）、ステップＳ１において、単語分散表現を学習させる。この処理については、下記の図３において詳細に説明する。次いで、ステップＳ２において、不要文判定教師データを生成する。この処理については、下記の図４において詳細に説明する。次いで、ステップＳ３において、すべての要約対象文書に対して処理が完了したか否かを判定する。ステップＳ３でＹｅｓの場合には、処理を終了する（ＥＮＤ）。ステップＳ３でＮｏの場合には、ステップＳ４に進み、要約対象文書取得部２－６が要約対象文書テーブル１－６（図１４）から、文書ＩＤに基づき、処理が未完了の要約対象文書Ｄを１件取得する。尚、文書とは、文の列である。本実施の形態では、文書とは、要約対象文書テーブル１－６に登録されている同一の文書ＩＤを持つ文の全部または一部を、文ＩＤの昇順に並べた列とする。次いで、ステップＳ５において、要約対象文書Ｄの不要文を除去する。ステップＳ５の処理については、図５により詳細に説明する。ステップＳ６において、要約対象文書Ｄの要約Ｓを生成する。ステップＳ６の処理については、図６および図７により詳細に説明する。次いで、ステップＳ７において、要約Ｓを要約結果テーブル１－８に格納し、ステップＳ３に戻り、最終的に全ての処理が完了すると処理が終了する（ＥＮＤ）。

【0041】

以上の処理により、図１６に例示されるように、要約結果テーブル１－８に要約結果が格納される。要約結果テーブル１－８は、文書ＩＤと、文ＩＤと、文ＩＤ毎の文の内容とを含む。

【0042】

図３は、図２の単語分散表現の学習処理（ステップＳ１）の詳細な処理例を示す図である。図３に示すように、ステップＳ１においては、ステップＳ１－１に示すように、形態素解析部２－１を用いて、分散表現学習コーパステーブル１－３の各文を形態素解析して単語へ分かち書きする。分散表現学習コーパステーブル１－３は、図１１に示すように、自然言語処理に用いるため、自然言語の文章を集積したコーパスのコーパスＩＤと、文ＩＤと、文の内容とを含む。

【0043】

次いで、ステップＳ１－２において、例えば非特許文献１の技術であるword2vecなどの既存の分散表現の学習手法を用いて、単語の分散表現の参照用のデータとするために、形態素解析部２－１が単語へ分かち書きした全ての文を入力として、単語の分散表現を学習する。

【0044】

次いで、ステップＳ１－３において、学習した分散表現を参照するために、上記において学習した単語の分散表現を単語分散表現テーブル１－４に格納する。そして、単語分散表現の学習処理（ステップＳ１）を終了する（ＲＥＴＵＲＮ）。単語分散表現テーブル１－４は、図１２に示すように、単語と、その単語の分散表現である例えば２００次元のベクトルの、ベクトル値とを有する。ベクトル値は、プラスとマイナスとを含む実数値である。ここで近い意味の単語は、ベクトル値も近くなるようになっている。

【0045】

図４は、図２の不要文判定教師データの生成処理（ステップＳ２）の詳細な処理例を示す図である。まず、ステップＳ２－１において、不要文判定教師データテーブル１－５の全ての行の処理が完了したか否かを判定する。Ｙｅｓの場合には、終了する（ＲＥＴＵＲＮ）。

【0046】

Ｎｏの場合には、ステップＳ２－２において、不要文判定教師データテーブル１－５から、処理が未完了の教師データの文ｓ_ｉを１件取得する。不要文判定教師データテーブル１－５は、図１３に示すように、教師データＩＤ毎に教師データ文（一文）と、要不要の文ラベルと、が格納されている。そして、処理が進むに従って、ベクトル値が格納されていく。

【0047】

ステップＳ２－３において、形態素解析部２－１を用いて、文ｓ_ｉを形態素解析して単語へ分かち書きする。ステップＳ２－４において、形態素解析の品詞情報を参照して不要語除去処理部２－２を用いて文ｓ_ｉから不要語を除去する。一例として、不要語除去処理部２－２は、形態素解析部２－１による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定する。形態素解析部２－１による単語の品詞判定では、図９に示す単語辞書テーブル１－１に登録されている品詞の情報が用いられる。

【0048】

ステップＳ２－５において、単語分散表現テーブル１－４に登録されている単語ｗの単語分散表現ｘ_ｗを参照して、文ｓ_ｉの文分散表現ｘ_ｉ＝Σ_ｗ∈ｓｉｘ_ｗを算出する。ここで、単語分散表現ｘ_ｗは、単語分散表現テーブル１－４に登録されているベクトル値１～２００（例示）を成分とするベクトルのことである。また記号「ｗ∈ｓ_ｉ」は、単語ｗが文ｓ_ｉに出現することを表し、上記のΣは、文ｓ_ｉに出現する単語ｗについての単語分散表現ｘ_ｗの和を表す。次いで、ステップＳ２－６において、文分散表現ｘ_ｉを不要文判定教師データテーブル１－５に登録し、ステップＳ２－１に戻る。

【0049】

図５は、図２のステップＳ５の詳細な流れの一例を示すフローチャート図であり、不要文除去の処理の流れの一例を示す図である。ステップＳ４で取得した、処理が未完了の要約対象文書Ｄを入力として、ステップＳ５の不要文除去処理を行う。

【0050】

まず、ステップＳ５－１において、要約対象文書Ｄの全ての文の処理を完了したか否かを判定する。Ｎｏの場合には、処理を継続し、ステップＳ５－２において、要約対象文書Ｄから処理が未完了の文ｓ_ｉを１件取得する。次いで、ステップＳ５－３において、形態素解析部２－１を用いて、文ｓ_ｉを形態素解析して単語へ分かち書きする。次いで、ステップＳ５－４において、不要語除去処理部２－２を用いて文ｓ_ｉから不要語を除去する。

【0051】

次に、ステップＳ５－５において、不要語除去後の文ｓ_ｉを前処理結果テーブル１－７の単語分かち書きに登録する。次いで、ステップＳ５－６において、単語分散表現テーブル１－４に登録されている単語ｗの単語分散表現ｘ_ｗを参照して、文ｓ_ｉの文分散表現ｘ_ｉ＝Σ_ｗ∈ｓｉｘ_ｗを算出する。

【0052】

尚、図５のステップＳ５－３～ステップＳ５－６までの処理は、大きな流れは、上記の図４のステップＳ２－３～ステップＳ２－５の処理と同様である。

【0053】

次いで、ステップＳ５－７において、不要文判定教師データテーブル１－５に登録されている、文ベクトルと、ベクトル値１～２００（例示）を成分とするベクトルである文分散表現との組を教師データ、上記の文分散表現ｘ_ｉを入力として、自動分類手法により文ｓ_ｉが不要文かどうかを判定する。

【0054】

自動分類手法による不要文の判定には、以下の手法を用いることが好ましい。
(a) コサイン類似度による類似文検索
不要文判定教師データテーブル１－５に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、文の文分散表現ｘ_ｉと、のコサイン類似度を算出し、このコサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、文ｓ_ｉが不要文であると判定する。

【0055】

(b) 教師あり機械学習による不要文の判定
不要文判定教師データテーブル１－５に登録されている文ラベルと文分散表現を教師データとした、ｋ－近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法により、文ｓ_ｉが不要文かどうかを判定する。

【0056】

次に、ステップＳ５－８において、不要文の判定結果を前処理結果テーブル１－７に登録する。ステップＳ５－８から、ステップＳ５－１に戻り、ステップＳ５－１でＹｅｓになるまで処理を継続する。ステップＳ５－１において、Ｙｅｓの場合には、ステップＳ５－９において、前処理結果テーブル１－７を参照し、不要と判定された文を要約対象文書Ｄから除去する。そして、不要文除去の処理（ステップＳ５）を終了する（ＲＥＴＵＲＮ）。

【0057】

以上の不要文除去処理は、不要文判定教師データテーブル１－５に登録されている不要文判定教師データ情報の文ラベルと上記の文分散表現とに基づき、文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを自動分類手法により判定し、不要と判定された文を要約対象文書から除去する処理である。この処理により、要約対象文書から、不要文であると判定された文を除去し、不要文除去済みの文書を生成することができる。

【0058】

図６は、図２のステップＳ６の処理の詳細な流れの一例を示すフローチャート図であり、抽出的要約手法により要約対象文書Ｄの要約Ｓを生成する処理の流れの一例を示す図である。ここでは、上記のスライディングウィンドウ法を再帰的に適用することで、要約対象文書の要約を生成する（以下、「再帰的スライディングウィンドウ法」と称する）。

【0059】

まず、ステップＳ６－１において、不要文除去済みの入力文書Ｄに含まれる各単語ｗに対して、単語ｗのＩＤＦの値ｉｄｆ_ｗを算出する。ここで、単語ｗのＩＤＦの値ｉｄｆ_ｗは、文書Ｄにおける単語ｗの出現頻度を表す出現頻度の指標であり、文書Ｄに含まれる文の数｜Ｄ｜と、文書Ｄに含まれ、かつ単語ｗを含む文の数｜｛ｓ∈Ｄ：ｗ∈ｓ｝｜を用いて、ｉｄｆ_ｗ＝ｌｏｇ（｜Ｄ｜／｜｛ｓ∈Ｄ：ｗ∈ｓ｝｜）により算出される。単語ｗのＩＤＦは、文書Ｄにおける単語ｗの出現頻度が大きいほど値が小さくなる、正の実数値である。次いで、ステップＳ６－２において、出力文書Ｓを入力文書Ｄで、整数ｒ（再帰回数）を０で、それぞれ初期化する。次いで、ステップＳ６－３において、出力文書Ｓの文数Ｎを算出する。次いで、Ｓ６－４において、ｒ＜Ｒ_ｍｉｎまたは（ｒ＜Ｒ_ｍａｘかつＮ＞Ｍ）であるか否かを判定する。

【0060】

ここで、最小適用回数Ｒ_ｍｉｎは、少なくともその回数だけはスライディングウィンドウ法を再帰的に適用することを示すパラメータである。最大適用回数Ｒ_ｍａｘは、スライディングウィンドウ法の再帰的な適用回数がその数を越えないことを意味する。それぞれ要約処理の継続条件と、要約処理の終了条件を表す。また、Ｍは要約Ｓに含める文の目標抽出件数である。例えば、入力装置３（マウス、キーボード等）から、要約Ｓに含める文の目標抽出件数Ｍと、要約処理の継続条件である最小適用回数Ｒ_ｍｉｎと、要約処理の終了条件である最大適用回数Ｒ_ｍａｘと、を設定する、要約パラメータ設定部をさらに備えていても良い。

【0061】

続くステップＳ６－５からＳ６－１０の処理は、出力文書Ｓに対して、１回スライディングウィンドウ法を適用する処理である。

【0062】

Ｓ６－５において、出力文書Ｓの文を出現順にｓ_１、ｓ_２、…、ｓ_Ｎとする。次いで、Ｓ６－６において、集合Ｓ^＊を空集合で、整数ｋを（１－Ｔ_ｒ）で、それぞれ初期化する。整数ｋは、ウィンドウ位置を表す。また、Ｔ_ｒはウィンドウ位置のオフセットであり非負の整数である。Ｔ_ｒは再帰回数ｒごとに異なる値であってよい。

【0063】

次いで、ステップＳ６－７において、ｋ≦Ｎ－Ｌ_ｒ＋１であるか否かを判定する。Ｙｅｓの場合には、ステップＳ６－８において、ウィンドウＷ_ｋ＝｛ｓ_ｉ：ｋ≦ｉ＜ｋ＋Ｌ_ｒ｝の要約Ｓ_ｋを集合Ｓ^＊に追加する。ここでＬ_ｒはウィンドウサイズであり、ウィンドウＷ_ｋに含める文の数の最大値を表す正の整数である。Ｌ_ｒは再帰回数ｒごとに異なる値であってよい。例えば、入力装置３（マウス、キーボード等）からウィンドウサイズＬ_ｒを設定する、要約パラメータ設定部をさらに備えていても良い。ステップＳ６－８の処理の詳細は後述する。そして、ステップＳ６－９に進み、ｋ←ｋ＋１とし、ステップＳ６－７に戻る。ステップＳ６－７でＮｏの場合には、ステップＳ６－１０に進み、出力文書ＳをＳ^＊で、ｒをｒ＋１で、それぞれ更新する。すなわち、出力文書Ｓに１回スライディングウィンドウ法を適用し、出力文書Ｓの要約Ｓ^＊を算出し、出力文書Ｓを要約Ｓ^＊により更新する。次いで、ステップＳ６－３に戻る。ステップＳ６－３において、Ｎｏの場合には、ステップＳ６－１１において、要約Ｓを出力する。そして、要約対象文書Ｄの要約Ｓを生成する処理（ステップＳ６）を終了する（ＲＥＴＵＲＮ）。

【0064】

上記のスライディングウィンドウ法の処理において、生成されたウィンドウは、生成されたウィンドウに含まれる文の数が、いずれもウィンドウサイズ以下であり、かつ、入力文書に含まれる文である第１の文と、入力文書において前記第１の文の次に出現する第２の文に対して、第１の文が少なくとも一つのウィンドウ（例えばウィンドウＷ_ｋ）において出現順に最後の文であるならば、第２の文も少なくとも一つのウィンドウ（例えばウィンドウＷ_ｋ＋１）において出現順に最後の文である、という条件をさらに満たす。

【0065】

また、上記の再帰的スライディングウィンドウ法の処理は、入力文書に対して、出力文書を、入力文書を代入することにより、初期化し、出力文書に対して、スライディングウィンドウ法を適用することで、出力文書の要約を生成し、出力文書を、生成した出力文書の要約を代入することにより、更新する、更新処理を実行する。

【0066】

そして、要約処理の継続条件が満たされているか、または、要約処理の終了条件が満たされておらず、かつ、出力文書に含まれる文の数が目標抽出件数より大きい場合は、更新処理を繰り返し、上記以外の場合は、出力文書を入力文書の要約として出力する。

【0067】

図７は、図６のステップＳ６－８の詳細な処理の流れの一例を示す図である。ステップＳ６－８においては、まず、ステップＳ６－８－１で、ウィンドウＷ_ｋに含まれる文ｓ_ｉ∈Ｗ_ｋに対し、前処理結果テーブル１－７を参照し、文ｓ_ｉの単語への分かち書きを取得する。ステップＳ６－８－２において、文ｓ_ｉの単語ｗ∈ｓ_ｉに対し、単語分散表現テーブル１－４に登録されている単語ｗの単語分散表現ｘ_ｗを取得する。ステップＳ６－８－３において、文ｓ_ｉ∈Ｗ_ｋに対し、ステップＳ６－１で算出した単語ｗのＩＤＦの値ｉｄｆ_ｗと、単語重み付けテーブル１－２に登録されている単語ｗの重みρ_ｗを重みとして、文ｓ_ｉの文分散表現ｘ_ｉ＝Σ_ｗ∈ｓｉ ρ_ｗｉｄｆ_ｗｘ_ｗを算出する。この処理は単語の重み付けを行う処理である。

【0068】

上記の処理は、抽出的要約手法は、不要語を除去した文に含まれる単語に対して、単語重み付けテーブル１－２を参照して、単語の重みを取得し、単語分散表現に、前記単語の重みと、単語の出現頻度の指標ＩＤＦと、を乗算することで、重み付き単語分散表現を算出する処理である。

【0069】

次いで、ステップＳ６－８－４において、ウィンドウＷ_ｋに含まれる全ての文ｓ_ｉ∈Ｗ_ｋに対して処理が完了したか否かを判定する。ここで、Ｎｏであれば、ステップＳ６－８－１に戻る。Ｙｅｓであれば、ステップＳ６－８－５に進み、ウィンドウＷ_ｋの分散表現ｘ_Ｗｋを算出する。ウィンドウＷ_ｋの分散表現は、ウィンドウＷ_ｋに含まれる文ｓ_ｉの文分散表現ｘ_ｉの総和であり、ｘ_Ｗｋ＝Σ_{ｓｉ∈Ｗｋ} ｘ_ｉにより算出する。次いで、ステップＳ６－８－６において、各文ｓ_ｉ∈Ｗ_ｋに対し、文ｓ_ｉの重要度ｖ_ｉを、ウィンドウＷ_ｋの分散表現ｘ_Ｗｋと、文ｓ_ｉの文分散表現ｘ_ｉとのコサイン類似度、すなわちｖ_ｉ＝（ｘ_Ｗｋ・ｘ_ｉ）／（||ｘ_Ｗｋ|| ||ｘ_ｉ||）により算出する。次いで、ステップＳ６－８－７において、文ｓ_ｉの重要度ｖ_ｉで上位ｍ_ｒ件をＷ_ｋから抽出し、ウィンドウＷ_ｋの要約Ｓ_ｋとする。ここで、ｍ_ｒはウィンドウの要約に含める文の数を表す整数であり、１以上ウィンドウサイズＬ_ｒ以下の整数である。ｍ_ｒは再帰回数ｒごとに異なる値であってよい。さらに、ステップＳ６－８－８において、Ｓ^＊にＳ_ｋを合併し、Ｓ^＊から重複する文を除去する。そして、ステップＳ６－８を終了する（ＲＥＴＵＲＮ）。

【0070】

このようにスライディングウィンドウ法を用いると、通話内の各話題の重要文が、いずれかのウィンドウの要約に含まれるため、それらを合併して文書全体の要約とすることで、複数の話題を考慮した要約を生成することができる。また、再帰的スライディングウィンドウ法を用いることで、要約に含める文の目標抽出件数を指定することができるので、要約結果を所望の要約率に調整することができる。

【0071】

尚、図２のステップＳ６における抽出的要約手法として、図７の再帰的スライディングウィンドウ法を用いるか否かは必要に応じて適宜決めることができる。

【0072】

図８は、ウィンドウの例を示す図である。ここで、ウィンドウサイズは、Ｌ_ｒ＝４、ウィンドウ位置のオフセットＴ_ｒ＝２、出力文書Ｓの文数をＮとする。ウィンドウＷ_ｋの添え字ｋは、ウィンドウ位置を表す。

【0073】

上から順番に説明する。
１）ウィンドウＷ_－１では、複数の文ｓ_ｉを有する出力文書Ｓのうち、ウィンドウＷ_－１内には、２つの文ｓ_１、ｓ_２のみが入っている。
２）ウィンドウＷ_０では、複数の文ｓ_ｉを有する出力文書Ｓのうち、ウィンドウＷ_０内には、３つの文ｓ_１、ｓ_２、ｓ_３のみが入っている。
３）ウィンドウＷ_１では、複数の文ｓ_ｉを有する出力文書Ｓのうち、ウィンドウＷ_１内には、４つの文ｓ_１、ｓ_２、ｓ_３、ｓ_４が入っている。
４）ウィンドウＷ_２では、複数の文ｓ_ｉを有する出力文書Ｓのうち、ウィンドウＷ_２内には、４つの文ｓ_２、ｓ_３、ｓ_４、ｓ_５が入っている。
Ｎ－４）ウィンドウＷ_Ｎ－４では、複数の文ｓ_ｉを有する出力文書Ｓのうち、ウィンドウＷ_Ｎ－４内には、４つの文ｓ_Ｎ－４、ｓ_Ｎ－３、ｓ_Ｎ－２、ｓ_Ｎ－１が入っている。
Ｎ－３）ウィンドウＷ_Ｎ－３では、複数の文ｓ_ｉを有する出力文書Ｓのうち、ウィンドウＷ_Ｎ－３内には、４つの文ｓ_Ｎ－３、ｓ_Ｎ－２、ｓ_Ｎ－１、ｓ_Ｎが入っている。

【0074】

ここで、処理の出だしの１）、２）においては、出力文書Ｓの先頭の文であるｓ_１も要約に含まれやすくするために、ウィンドウ位置を－１や０のような、０以下の値となるようにしている。ウィンドウ位置のオフセットＴ_ｒに、例えば２のような正の値を指定することで、上記の例のようにウィンドウ位置を０以下の値に変更することが可能である。

【0075】

以上に説明したように、本実施の形態によれば、定型的な表現を不要文として不要文判定教師データテーブルに登録しておくことで、他の通話と共通する定型的な表現を要約処理の前に除去できるので、従来の技術と比較して要約の抽出精度を高めることができる。

【0076】

また、本実施の形態による抽出的要約手法（スライディングウィンドウ法）では、通話内の各話題の重要文が、いずれかのウィンドウの要約に含まれるため、それらを合併して文書全体の要約とすることで、複数の話題を考慮した要約を生成できる。

【0077】

また、再帰的スライディングウィンドウ法を用いると、要約において、所望の要約率に調整することができる。

【0078】

上記の処理および制御は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によるソフトウェア処理、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）によるハードウェア処理によって実現することができる。

【0079】

また、上記の実施の形態において、図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。

【0080】

また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。

【0081】

また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

【0082】

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

【0083】

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。機能の少なくとも一部は、集積回路などのハードウェアで実現しても良い。

【産業上の利用可能性】

【0084】

本発明は、要約生成装置に利用可能である。

【符号の説明】

【0085】

Ａ…要約生成装置
１…補助記憶装置（各記憶部）
１－１…単語辞書テーブル
１－２…単語重み付けテーブル
１－３…分散表現学習コーパステーブル
１－４…単語分散表現テーブル（情報）
１－５…不要文判定教師データテーブル（情報）
１－６…要約対象文書テーブル（情報）
１－７…前処理結果テーブル
１－８…要約結果テーブル
２…主記憶装置
２－１…形態素解析部
２－２…不要語除去処理部
２－３…単語分散表現学習部
２－４…不要文判定教師データ生成部
２－５…不要文除去処理部
２－６…要約対象文書取得部
２－７…要約生成部
３…入力装置
４…出力装置
５…中央演算装置（ＣＰＵ）

【図1】