IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズ東日本の特許一覧

<>
  • 特許-要約生成装置および要約生成方法 図1
  • 特許-要約生成装置および要約生成方法 図2
  • 特許-要約生成装置および要約生成方法 図3
  • 特許-要約生成装置および要約生成方法 図4
  • 特許-要約生成装置および要約生成方法 図5
  • 特許-要約生成装置および要約生成方法 図6
  • 特許-要約生成装置および要約生成方法 図7
  • 特許-要約生成装置および要約生成方法 図8
  • 特許-要約生成装置および要約生成方法 図9
  • 特許-要約生成装置および要約生成方法 図10
  • 特許-要約生成装置および要約生成方法 図11
  • 特許-要約生成装置および要約生成方法 図12
  • 特許-要約生成装置および要約生成方法 図13
  • 特許-要約生成装置および要約生成方法 図14
  • 特許-要約生成装置および要約生成方法 図15
  • 特許-要約生成装置および要約生成方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-30
(45)【発行日】2023-06-07
(54)【発明の名称】要約生成装置および要約生成方法
(51)【国際特許分類】
   G06F 16/30 20190101AFI20230531BHJP
   G06F 40/20 20200101ALI20230531BHJP
   G06N 20/00 20190101ALI20230531BHJP
【FI】
G06F16/30
G06F40/20
G06N20/00 130
【請求項の数】 10
(21)【出願番号】P 2018162525
(22)【出願日】2018-08-31
(65)【公開番号】P2020035272
(43)【公開日】2020-03-05
【審査請求日】2021-06-07
(73)【特許権者】
【識別番号】000233538
【氏名又は名称】株式会社日立ソリューションズ東日本
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】飯塚 新司
(72)【発明者】
【氏名】宮内 秀彰
(72)【発明者】
【氏名】▲高▼橋 毅
【審査官】酒井 恭信
(56)【参考文献】
【文献】特開平11-272686(JP,A)
【文献】特開2004-348523(JP,A)
【文献】特開2013-167985(JP,A)
【文献】特開2016-207141(JP,A)
【文献】特開2008-242612(JP,A)
【文献】特開2002-297635(JP,A)
【文献】特開2013-120547(JP,A)
【文献】特開2011-087005(JP,A)
【文献】特開2006-126886(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
G06F 40/20 - 40/58
G06N 20/00 - 20/20
(57)【特許請求の範囲】
【請求項1】
一つ以上の文を含む文書から、文を抽出して前記文書の要約を生成する要約生成装置であって、
単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部と、
教師データ文と、前記教師データ文が要か不要かの情報である文ラベルと、単語分散表現情報に基づいて算出された前記教師データ文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部と、
要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、
前記要約対象文書に含まれる文に対して、
前記単語分散表現情報記憶部に記憶されている前記単語分散表現情報に基づいて前記文の文分散表現を算出し、
前記不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、
前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、
前記不要文除去済みの文書から、
抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成部と
を有し、
前記抽出的要約手法は、
前記抽出的要約手法に入力された文書である入力文書に対して、
前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、
前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、
前記生成されたウィンドウごとに、分散表現を用いた抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、
前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成し、
前記分散表現を用いた抽出的要約手法は、
前記単語分散表現情報に基づいて、前記ウィンドウに含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記ウィンドウに含まれる文の重要度に基づき、前記ウィンドウの要約に含める文を抽出することを特徴とする要約生成装置。
【請求項2】
前記不要文除去処理部において、
前記自動分類手法は、
前記不要文判定教師データ情報記憶部に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、前記文の文分散表現と、のコサイン類似度を算出し、
前記コサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、前記文が不要文であると判定すること
を特徴とする請求項1に記載の要約生成装置。
【請求項3】
前記不要文除去処理部において、
前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文ラベルと文分散表現を教師データとした、k-近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法であること
を特徴とする請求項1に記載の要約生成装置。
【請求項4】
前記分散表現を用いた抽出的要約手法は、
前記入力文書に含まれる単語に対して、前記入力文書における前記単語の出現頻度に基づき算出される実数値である、文書中における前記単語の出現頻度を表す出現頻度の指標を算出し、
前記入力文書に含まれる文に対して、
形態素解析部を用いて前記文を形態素解析して単語へ分かち書きし、
前記単語のうち、不要語除去処理部により不要と判定された単語である不要語を、前記文から除去し、
前記不要語を除去した前記文に含まれる単語に対して、
前記単語分散表現情報を参照して、前記単語の単語分散表現を取得し、
前記単語分散表現に、前記単語の出現頻度の指標を乗算することで、重み付き単語分散表現を算出し、
前記重み付き単語分散表現を合成することで、前記文分散表現を算出し、
前記文分散表現を合成して、前記入力文書の文書分散表現を算出し、
前記文分散表現と前記文書分散表現とのコサイン類似度として算出された重要度に基づき、前記入力文書の要約に含める文を抽出すること
を特徴とする請求項に記載の要約生成装置。
【請求項5】
前記単語の出現頻度の指標は、
入力文書中の単語に対して、入力文書における単語の出現頻度に基づき算出される実数値であって、出現頻度が大きいほど値が小さくなる、正の実数値であることを要件とする指標である
請求項に記載の要約生成装置。
【請求項6】
単語と、非負の実数値である単語の重みと、が登録されている、単語重み付け情報をさらに備え、
前記分散表現を用いた抽出的要約手法は、
前記不要語を除去した前記文に含まれる単語に対して、
前記単語重み付け情報を参照して、前記単語の重みを取得し、前記単語分散表現に、前記単語の重みと、前記単語の出現頻度の指標と、を乗算することで、重み付き単語分散表現を算出すること
を特徴とする請求項又はに記載の要約生成装置。
【請求項7】
前記分散表現を用いた抽出的要約手法において、
前記不要語除去処理部は、前記形態素解析部による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定すること
を特徴とする請求項からまでのいずれか1項に記載の要約生成装置。
【請求項8】
入力装置から、前記ウィンドウに含める文の数の最大値である、ウィンドウサイズを設定する、要約パラメータ設定部をさらに備え、
前記抽出的要約手法において、前記生成されたウィンドウは、
前記生成されたウィンドウに含まれる文の数が、いずれも前記ウィンドウサイズ以下であり、かつ
前記入力文書に含まれる文である第1の文と、前記入力文書において前記第1の文の次に出現する第2の文に対して、前記第1の文が少なくとも一つの前記ウィンドウにおいて出現順に最後の文であるならば、前記第2の文も他の少なくとも一つの前記ウィンドウにおいて出現順に最後の文である、
という条件をさらに満たすこと
を特徴とする請求項に記載の要約生成装置。
【請求項9】
入力装置から、要約に含める文の目標抽出件数と、要約処理の継続条件と、要約処理の終了条件と、を設定する、要約パラメータ設定部をさらに備え、
前記抽出的要約手法は、
前記抽出的要約手法に入力された文書である入力文書に対して、
出力文書を、前記入力文書を代入することにより、初期化し、
前記出力文書に対して、
前記抽出的要約手法を適用することで、前記出力文書の要約を生成し、
前記出力文書を、前記生成した前記出力文書の要約を代入することにより、更新する、
更新処理を実行し、
前記要約処理の継続条件が満たされているか、または
前記要約処理の終了条件が満たされておらず、かつ
前記出力文書に含まれる文の数が前記目標抽出件数より大きい
場合は、前記更新処理を繰り返し、
上記以外の場合は、前記出力文書を前記入力文書の要約として出力すること
を特徴とする請求項またはに記載の要約生成装置。
【請求項10】
一つ以上の文を含む文書から、コンピュータ処理により文を抽出して前記文書の要約を生成する要約生成方法であって、
コンピュータが、要約対象の文書である要約対象文書を取得する、要約対象文書取得ステップと、
コンピュータが、
a)前記要約対象文書に含まれる文に対して、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部の単語分散表現情報に基づいて前記文の文分散表現を算出し、
b)教師データ文と、前記教師データ文が要か不要かの情報である文ラベルと、前記単語分散表現情報に基づいて算出された前記教師データ文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部の不要文判定教師データ情報に含まれる前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、
c)前記要約対象文書から、不要文であると判定された文を除去する
ことで、不要文除去済みの文書を生成する、不要文除去処理ステップと、
コンピュータが、d)前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成ステップと、
を実行し、
前記抽出的要約手法において、前記コンピュータが、
前記抽出的要約手法に入力された文書である入力文書に対して、
前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、
前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、
前記生成されたウィンドウごとに、分散表現を用いた抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、
前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成し、
前記分散表現を用いた抽出的要約手法において、前記コンピュータが、
前記単語分散表現情報に基づいて、前記ウィンドウに含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記ウィンドウに含まれる文の重要度に基づき、前記ウィンドウの要約に含める文を抽出することを特徴とする要約生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、要約生成技術に関する。
【背景技術】
【0002】
例えば、コールセンターの顧客対応業務等では、音声認識システムによりテキスト化された通話内容の音声認識テキストを、応対の品質向上のためのデータ分析、オペレータによる通話記録のシステム登録、などに活用している。
【0003】
しかし、通話の音声認識テキストには、言い淀みや主要な内容とは関係のない発言等が多く含まれているため、通話の音声認識テキストを人が読んで内容を把握するには手間がかかる。
【0004】
そのため、音声認識テキストを人が読みやすい文章に要約する、要約生成技術に対するニーズが増大している。
【0005】
コールセンターのヘルプサービスにおける顧客との会話は、あいさつ、困り事の質問、質問への回答、などの順番で行われる。コールセンターの通話の要約では、顧客との会話のうち、質問に関する発言と、回答に関する発言と、の両方の話題が要約に含まれることが望ましい。
【0006】
下記特許文献1では、単語を数値ベクトル化する分散表現の技術(技術内容については非特許文献1参照)を用いて、文や文書の類似度を算出し、類似度に基づいて要約に含める文を抽出する、抽出的要約技術が述べられている。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2016-207141号公報
【非特許文献】
【0008】
【文献】T. Mikolov、I. Sutskever、K. Chen、G. S. Corrado、J. Dean、“Distributed representations of words and phrases and their compositionality”Advances in neural information processing systems、pp. 3111-3119 (2013).
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかし、特許文献1の技術では、取得部から取得した文書のみから要約を抽出するため、例えば、「お世話になります」などのように、他の通話と共通する定型的な表現もそのまま抽出され、期待される要約の抽出結果と比較すると、要約の抽出精度が低くなる場合がある(第1の課題)。
【0010】
また、特許文献1の技術では、通話内容の時間的な変化を考慮していないため、質問に関する発言は抽出されず、回答に関する発言のみ抽出されるなど、通話内の複数の話題を考慮した要約を生成できない場合がある(第2の課題)。
本発明は、上記の課題を解決し、要約の抽出精度を高めることを目的とする。
【課題を解決するための手段】
【0011】
本発明においては、例えば、以下の1)~4)までの手順により、分散表現を用いた自動分類手法による不要文除去処理と、抽出的要約処理とを実行する。
1)形態素解析
2)フィラーなどの不要語除去
3)分散表現を用いた自動分類手法による不要文除去(第1の課題を解決する手段により解決する。)
4)抽出的要約
この際、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を従来の分散表現を用いた抽出的要約技術で要約し、ウィンドウを一文ずつスライドさせていくことで文書全体の要約を生成する手法(以下、「スライディングウィンドウ法」と称する。)を適用すると良い(とりわけ、第2の課題を解決するための手段により解決する)。
【0012】
スライディングウィンドウ法の適用においては、ウィンドウに含める文の数の最大値であるウィンドウサイズを、ウィンドウ内の話題が1つに限定できる程度に小さくし、ウィンドウ内の文書の要約を行う。これにより、ウィンドウ内の文書から抽出される要約結果はその話題に関するものとなる。
【0013】
これをウィンドウの位置を一文ずつずらしながら行い、各ウィンドウから抽出される要約結果を、重複する文を除いて合併することで、文書全体の要約を生成する。これにより、文書全体の要約に各話題に関する要約結果が含まれるようにすることができる。
【0014】
本発明の一観点によれば、一つ以上の文を含む文書から、文を抽出して前記文書の要約を生成する要約生成装置であって、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部と、文と、前記文が要か不要かの情報が記載された文ラベルと、単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部と、要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、前記要約対象文書に含まれる文に対して、前記単語分散表現情報記憶部に記憶されている単語分散表現情報に基づいて前記文の文分散表現を算出し、前記不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成部と、を有することを特徴とする要約生成装置が提供される。
【0015】
前記不要文除去処理部において、前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、前記文の文分散表現と、のコサイン類似度を算出し、前記コサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、前記文が不要文であると判定することが好ましい。
【0016】
あるいは、前記不要文除去処理部において、前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文ラベルと文分散表現を教師データとした、k-近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法であることが好ましい。
【0017】
前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、前記単語分散表現情報に基づいて、前記入力文書に含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記入力文書に含まれる文の重要度に基づき、前記入力文書の要約に含める文を抽出することが好ましい。
【0018】
具体的には、前記抽出的要約手法は、前記入力文書に含まれる単語に対して、前記入力文書における前記単語の出現頻度に基づき算出される実数値である、文書中における前記単語の出現頻度を表す出現頻度の指標を算出し、前記入力文書に含まれる文に対して、形態素解析部を用いて前記文を形態素解析して単語へ分かち書きし、前記単語のうち、不要語除去処理部により不要と判定された単語である不要語を、前記文から除去し、前記不要語を除去した前記文に含まれる単語に対して、前記単語分散表現情報を参照して、前記単語の単語分散表現を取得し、前記単語分散表現に、前記単語の出現頻度の指標を乗算することで、重み付き単語分散表現を算出し、前記重み付き単語分散表現を合成することで、前記文分散表現を算出し、前記文分散表現を合成して、前記入力文書の文書分散表現を算出し、前記文分散表現と前記文書分散表現とのコサイン類似度として算出された重要度に基づき、前記入力文書の要約に含める文を抽出することが好ましい。
【0019】
前記単語の出現頻度の指標は、入力文書中の単語に対して、入力文書における単語の出現頻度に基づき算出される実数値であって、出現頻度が大きいほど値が小さくなる、正の実数値であることを要件とする指標であるようにすると良い。
【0020】
このような指標を分散表現に乗算することで、出現頻度の高い単語の重みを低くすることができる。
【0021】
また、単語と、非負の実数値である単語の重みと、が登録されている、単語重み付け情報をさらに備え、前記抽出的要約手法は、前記不要語を除去した前記文に含まれる単語に対して、前記単語重み付け情報を参照して、前記単語の重みを取得し、前記単語分散表現に、前記単語の重みと、前記単語の出現頻度の指標と、を乗算することで、重み付き単語分散表現を算出することが好ましい。
【0022】
前記抽出的要約手法において、前記不要語除去処理部は、前記形態素解析部による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定することが好ましい。
【0023】
前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、前記生成されたウィンドウごとに、上記に記載の抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成することが好ましい。
【0024】
また、入力装置から、前記ウィンドウに含める文の数の最大値である、ウィンドウサイズを設定する、要約パラメータ設定部をさらに備え、前記抽出的要約手法において、前記生成されたウィンドウは、前記生成されたウィンドウに含まれる文の数が、いずれも前記ウィンドウサイズ以下であり、かつ、前記入力文書に含まれる文である第1の文と、前記入力文書において前記第1の文の次に出現する第2の文に対して、前記第1の文が少なくとも一つの前記ウィンドウにおいて出現順に最後の文であるならば、前記第2の文も少なくとも一つの前記ウィンドウにおいて出現順に最後の文である、という条件をさらに満たすことが好ましい。
【0025】
また、入力装置から、要約に含める文の目標抽出件数と、要約処理の継続条件と、要約処理の終了条件と、を設定する、要約パラメータ設定部をさらに備え、前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、出力文書を、前記入力文書を代入することにより、初期化し、前記出力文書に対して、上記に記載の抽出的要約手法を適用することで、前記出力文書の要約を生成し、前記出力文書を、前記生成した前記出力文書の要約を代入することにより、更新する、更新処理を実行し、前記要約処理の継続条件が満たされているか、または、前記要約処理の終了条件が満たされておらず、かつ、前記出力文書に含まれる文の数が前記目標抽出件数より大きい場合は、前記更新処理を繰り返し、上記以外の場合は、前記出力文書を前記入力文書の要約として出力することを特徴とする。
【0026】
本発明の他の観点によれば、一つ以上の文を含む文書から、コンピュータ処理により文を抽出して前記文書の要約を生成する要約生成方法であって、要約対象の文書である要約対象文書を取得する、要約対象文書取得ステップと、コンピュータが、a)前記要約対象文書に含まれる文に対して、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現単語分散表現情報に基づいて前記文の文分散表現を算出し、b)文と、前記文が要か不要かの情報が記載された文ラベルと、前記単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報に含まれる文ラベルと文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、c)前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理ステップと、d)前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成ステップと、を実行することを特徴とする要約生成方法が提供される。
【発明の効果】
【0027】
本発明によれば、他の通話と共通する定型的な表現を、不要文判定により事前に除去できるため、従来の技術と比較して要約の抽出精度を高めることができる。
また、スライディングウィンドウ法を適用することで、文書中の各話題の重要文がいずれかのウィンドウの要約結果に含まれるため、それらを合併して全体の要約とすることで、複数の話題を考慮した要約を生成できる。
【図面の簡単な説明】
【0028】
図1図1は、本発明の一実施の形態による要約生成装置の一構成例を示す機能ブロック図である。
図2図2は、本実施の形態による要約生成装置による全体処理例を示すフローチャート図である。
図3】単語分散表現学習部の処理例を示すフローチャート図である。
図4】不要文判定教師データ生成部の処理例を示すフローチャート図である。
図5】不要文除去処理部の処理例を示すフローチャート図である。
図6】要約生成部においてスライディングウィンドウ法を適用した処理例を示すフローチャート図である。
図7図6のステップS6-8の処理例を示すフローチャート図である。
図8】スライディングウィンドウ法におけるウィンドウの一例を示す図である。
図9】単語辞書テーブルの一構成例を示す図である。
図10】単語重み付けテーブルの一構成例を示す図である。
図11】分散表現学習コーパステーブルの一構成例を示す図である。
図12】単語分散表現テーブルの一構成例を示す図である。
図13】不要文判定教師データテーブルの一構成例を示す図である。
図14】要約対象文書テーブルの一構成例を示す図である。
図15】前処理結果テーブルの一構成例を示す図である。
図16】要約結果テーブルの一構成例を示す図である。
【発明を実施するための形態】
【0029】
以下においては、コールセンター等のヘルプサービスを提供している事業者向けの要約生成技術を例にして説明するが、本発明は、その他の種々の業務を含む要約生成技術に適用可能である。
【0030】
本明細書において、スライディングウィンドウ法とは、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を従来の分散表現を用いた抽出的要約技術で要約し、ウィンドウを一文ずつスライドさせていくことで文書全体の要約を生成する方法をいう。
【0031】
また、本明細書において、図1および図9から図16までにおいて示されている各種情報は、テーブルの形式により例示的に示している。これらの各種情報は、例えば、図1の補助記憶装置の各データ情報を記憶する記憶部(或いは記憶領域)に記憶されるのが一般的である。また、本明細書において、単語の分散表現とは、例えば、非特許文献1の技術であるword2vecなどにより学習された単語のベクトル空間への埋め込みのことである。また、以下では、その埋め込みによって単語と対応付けられたベクトル自体も、単語の分散表現として参照する。自然言語処理に機械学習を適用しやすくするために、おおよそ数百次元のベクトルで単語を表現することを意図するものである。
【0032】
以下に、本発明の一実施の形態による要約生成技術について図面を参照しながら詳細に説明する。
【0033】
図1は、本実施の形態による要約生成装置の一構成例を示す機能ブロック図である。図1に示すように、本実施の形態による要約生成装置Aは、補助記憶装置(各記憶部)1と、主記憶装置2と、入力装置3と、出力装置4と、中央演算装置(CPU)5と、を有している。尚、図1では、全ての構成要素が1つの装置内に設けられている構成例を示しているが、例えば、補助記憶装置が別の装置内に遠隔で設けられているなど、種々の形態が含まれることは言うまでもない。
【0034】
補助記憶装置(各記憶部)1には、単語辞書テーブル1-1、単語重み付けテーブル1-2、分散表現学習コーパステーブル1-3、単語分散表現テーブル(情報)1-4、不要文判定教師データテーブル(情報)1-5、要約対象文書テーブル(情報)1-6、前処理結果テーブル1-7、要約結果テーブル1-8が設けられている。
【0035】
また、主記憶装置2には、形態素解析部2-1、不要語除去処理部2-2、単語分散表現学習部2-3、不要文判定教師データ生成部2-4、不要文除去処理部2-5、要約対象文書取得部2-6、要約生成部2-7としてCPUを機能させるための例えばプログラム等が格納され、プログラムによりCPUにそれぞれの機能部として機能するように構成されている。
【0036】
入力装置3は、音声を取得するマイクロフォンやマウス、キーボードなどが含まれ、出力装置4は要約を出力するディスプレイやスピーカなどが含まれる。
【0037】
上記各処理部2-1~2-7による処理の流れの一例を示すフローチャート図としては、以下の図面を参照する。図2は、本実施の形態による要約生成装置Aによる全体処理例を示すフローチャート図である。図3は、単語分散表現学習部2-3の処理例を示すフローチャート図である。図4は、不要文判定教師データ生成部2-4の処理例を示すフローチャート図である。図5は、不要文除去処理部2-5の処理例を示すフローチャート図である。図6は、要約生成部2-7においてスライディングウィンドウ法を適用した処理例を示すフローチャート図である。図7は、図6のステップS6-8の処理例を示すフローチャート図である。
また、図8は、ウィンドウの一例を示す図である。
【0038】
さらに、図9から図16までは、補助記憶装置1に各種情報等が格納されている各テーブルの一構成例を示す図である。図9は、単語辞書テーブル1-1の一構成例を示す図である。単語辞書テーブル1-1は、形態素解析部2-1により、形態素解析における品詞判定を行うために参照される辞書である。図9に示すように、単語毎に、品詞が記載されており、特に、不要語である可能性が高いフィラーであるか否かを明記している。図10は、単語重み付けテーブル1-2の一構成例を示す図である。すなわち、単語毎に単語の重みが付与されている。0、0.5などは重みが小さい例、10.0などは単語の重みが大きい例である。
【0039】
図11は、分散表現学習コーパステーブル1-3の一構成例を示す図である。図12は、単語分散表現テーブル1-4の一構成例を示す図である。図13は、不要文判定教師データテーブル1-5の一構成例を示す図である。図13に示すように、不要文判定教師データテーブルには、教師データID毎に、教師データ文と、要不要の文ラベルと、ベクトル値1~200(例示)が示されている。図14は、要約対象文書テーブル1-6の一構成例を示す図である。図15は、前処理結果テーブル1-7の一構成例を示す図である。図15に示すように、前処理結果テーブルには、文書ID毎に、それに含まれる文の文ID、その単語分かち書き、不要文判定結果が格納されている。図16は、要約結果テーブル1-8の一構成例を示す図である。
【0040】
以下、フローチャート図に沿って、本実施の形態による処理の詳細について説明する。
図2に示すように、要約生成処理の全体処理の概要においては、処理が開始されると(STRAT)、ステップS1において、単語分散表現を学習させる。この処理については、下記の図3において詳細に説明する。次いで、ステップS2において、不要文判定教師データを生成する。この処理については、下記の図4において詳細に説明する。次いで、ステップS3において、すべての要約対象文書に対して処理が完了したか否かを判定する。ステップS3でYesの場合には、処理を終了する(END)。ステップS3でNoの場合には、ステップS4に進み、要約対象文書取得部2-6が要約対象文書テーブル1-6(図14)から、文書IDに基づき、処理が未完了の要約対象文書Dを1件取得する。尚、文書とは、文の列である。本実施の形態では、文書とは、要約対象文書テーブル1-6に登録されている同一の文書IDを持つ文の全部または一部を、文IDの昇順に並べた列とする。次いで、ステップS5において、要約対象文書Dの不要文を除去する。ステップS5の処理については、図5により詳細に説明する。ステップS6において、要約対象文書Dの要約Sを生成する。ステップS6の処理については、図6および図7により詳細に説明する。次いで、ステップS7において、要約Sを要約結果テーブル1-8に格納し、ステップS3に戻り、最終的に全ての処理が完了すると処理が終了する(END)。
【0041】
以上の処理により、図16に例示されるように、要約結果テーブル1-8に要約結果が格納される。要約結果テーブル1-8は、文書IDと、文IDと、文ID毎の文の内容とを含む。
【0042】
図3は、図2の単語分散表現の学習処理(ステップS1)の詳細な処理例を示す図である。図3に示すように、ステップS1においては、ステップS1-1に示すように、形態素解析部2-1を用いて、分散表現学習コーパステーブル1-3の各文を形態素解析して単語へ分かち書きする。分散表現学習コーパステーブル1-3は、図11に示すように、自然言語処理に用いるため、自然言語の文章を集積したコーパスのコーパスIDと、文IDと、文の内容とを含む。
【0043】
次いで、ステップS1-2において、例えば非特許文献1の技術であるword2vecなどの既存の分散表現の学習手法を用いて、単語の分散表現の参照用のデータとするために、形態素解析部2-1が単語へ分かち書きした全ての文を入力として、単語の分散表現を学習する。
【0044】
次いで、ステップS1-3において、学習した分散表現を参照するために、上記において学習した単語の分散表現を単語分散表現テーブル1-4に格納する。そして、単語分散表現の学習処理(ステップS1)を終了する(RETURN)。単語分散表現テーブル1-4は、図12に示すように、単語と、その単語の分散表現である例えば200次元のベクトルの、ベクトル値とを有する。ベクトル値は、プラスとマイナスとを含む実数値である。ここで近い意味の単語は、ベクトル値も近くなるようになっている。
【0045】
図4は、図2の不要文判定教師データの生成処理(ステップS2)の詳細な処理例を示す図である。まず、ステップS2-1において、不要文判定教師データテーブル1-5の全ての行の処理が完了したか否かを判定する。Yesの場合には、終了する(RETURN)。
【0046】
Noの場合には、ステップS2-2において、不要文判定教師データテーブル1-5から、処理が未完了の教師データの文sを1件取得する。不要文判定教師データテーブル1-5は、図13に示すように、教師データID毎に教師データ文(一文)と、要不要の文ラベルと、が格納されている。そして、処理が進むに従って、ベクトル値が格納されていく。
【0047】
ステップS2-3において、形態素解析部2-1を用いて、文sを形態素解析して単語へ分かち書きする。ステップS2-4において、形態素解析の品詞情報を参照して不要語除去処理部2-2を用いて文sから不要語を除去する。一例として、不要語除去処理部2-2は、形態素解析部2-1による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定する。形態素解析部2-1による単語の品詞判定では、図9に示す単語辞書テーブル1-1に登録されている品詞の情報が用いられる。
【0048】
ステップS2-5において、単語分散表現テーブル1-4に登録されている単語wの単語分散表現xを参照して、文sの文分散表現x=Σw∈siを算出する。ここで、単語分散表現xは、単語分散表現テーブル1-4に登録されているベクトル値1~200(例示)を成分とするベクトルのことである。また記号「w∈s」は、単語wが文sに出現することを表し、上記のΣは、文sに出現する単語wについての単語分散表現xの和を表す。次いで、ステップS2-6において、文分散表現xを不要文判定教師データテーブル1-5に登録し、ステップS2-1に戻る。
【0049】
図5は、図2のステップS5の詳細な流れの一例を示すフローチャート図であり、不要文除去の処理の流れの一例を示す図である。ステップS4で取得した、処理が未完了の要約対象文書Dを入力として、ステップS5の不要文除去処理を行う。
【0050】
まず、ステップS5-1において、要約対象文書Dの全ての文の処理を完了したか否かを判定する。Noの場合には、処理を継続し、ステップS5-2において、要約対象文書Dから処理が未完了の文sを1件取得する。次いで、ステップS5-3において、形態素解析部2-1を用いて、文sを形態素解析して単語へ分かち書きする。次いで、ステップS5-4において、不要語除去処理部2-2を用いて文sから不要語を除去する。
【0051】
次に、ステップS5-5において、不要語除去後の文sを前処理結果テーブル1-7の単語分かち書きに登録する。次いで、ステップS5-6において、単語分散表現テーブル1-4に登録されている単語wの単語分散表現xを参照して、文sの文分散表現x=Σw∈siを算出する。
【0052】
尚、図5のステップS5-3~ステップS5-6までの処理は、大きな流れは、上記の図4のステップS2-3~ステップS2-5の処理と同様である。
【0053】
次いで、ステップS5-7において、不要文判定教師データテーブル1-5に登録されている、文ベクトルと、ベクトル値1~200(例示)を成分とするベクトルである文分散表現との組を教師データ、上記の文分散表現xを入力として、自動分類手法により文sが不要文かどうかを判定する。
【0054】
自動分類手法による不要文の判定には、以下の手法を用いることが好ましい。
(a) コサイン類似度による類似文検索
不要文判定教師データテーブル1-5に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、文の文分散表現xと、のコサイン類似度を算出し、このコサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、文sが不要文であると判定する。
【0055】
(b) 教師あり機械学習による不要文の判定
不要文判定教師データテーブル1-5に登録されている文ラベルと文分散表現を教師データとした、k-近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法により、文sが不要文かどうかを判定する。
【0056】
次に、ステップS5-8において、不要文の判定結果を前処理結果テーブル1-7に登録する。ステップS5-8から、ステップS5-1に戻り、ステップS5-1でYesになるまで処理を継続する。ステップS5-1において、Yesの場合には、ステップS5-9において、前処理結果テーブル1-7を参照し、不要と判定された文を要約対象文書Dから除去する。そして、不要文除去の処理(ステップS5)を終了する(RETURN)。
【0057】
以上の不要文除去処理は、不要文判定教師データテーブル1-5に登録されている不要文判定教師データ情報の文ラベルと上記の文分散表現とに基づき、文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを自動分類手法により判定し、不要と判定された文を要約対象文書から除去する処理である。この処理により、要約対象文書から、不要文であると判定された文を除去し、不要文除去済みの文書を生成することができる。
【0058】
図6は、図2のステップS6の処理の詳細な流れの一例を示すフローチャート図であり、抽出的要約手法により要約対象文書Dの要約Sを生成する処理の流れの一例を示す図である。ここでは、上記のスライディングウィンドウ法を再帰的に適用することで、要約対象文書の要約を生成する(以下、「再帰的スライディングウィンドウ法」と称する)。
【0059】
まず、ステップS6-1において、不要文除去済みの入力文書Dに含まれる各単語wに対して、単語wのIDFの値idfを算出する。ここで、単語wのIDFの値idfは、文書Dにおける単語wの出現頻度を表す出現頻度の指標であり、文書Dに含まれる文の数|D|と、文書Dに含まれ、かつ単語wを含む文の数|{s∈D:w∈s}|を用いて、idf=log(|D|/|{s∈D:w∈s}|)により算出される。単語wのIDFは、文書Dにおける単語wの出現頻度が大きいほど値が小さくなる、正の実数値である。次いで、ステップS6-2において、出力文書Sを入力文書Dで、整数r(再帰回数)を0で、それぞれ初期化する。次いで、ステップS6-3において、出力文書Sの文数Nを算出する。次いで、S6-4において、r<Rminまたは(r<RmaxかつN>M)であるか否かを判定する。
【0060】
ここで、最小適用回数Rminは、少なくともその回数だけはスライディングウィンドウ法を再帰的に適用することを示すパラメータである。最大適用回数Rmaxは、スライディングウィンドウ法の再帰的な適用回数がその数を越えないことを意味する。それぞれ要約処理の継続条件と、要約処理の終了条件を表す。また、Mは要約Sに含める文の目標抽出件数である。例えば、入力装置3(マウス、キーボード等)から、要約Sに含める文の目標抽出件数Mと、要約処理の継続条件である最小適用回数Rminと、要約処理の終了条件である最大適用回数Rmaxと、を設定する、要約パラメータ設定部をさらに備えていても良い。
【0061】
続くステップS6-5からS6-10の処理は、出力文書Sに対して、1回スライディングウィンドウ法を適用する処理である。
【0062】
S6-5において、出力文書Sの文を出現順にs、s、…、sとする。次いで、S6-6において、集合Sを空集合で、整数kを(1-T)で、それぞれ初期化する。整数kは、ウィンドウ位置を表す。また、Tはウィンドウ位置のオフセットであり非負の整数である。Tは再帰回数rごとに異なる値であってよい。
【0063】
次いで、ステップS6-7において、k≦N-L+1であるか否かを判定する。Yesの場合には、ステップS6-8において、ウィンドウW={s:k≦i<k+L}の要約Sを集合Sに追加する。ここでLはウィンドウサイズであり、ウィンドウWに含める文の数の最大値を表す正の整数である。Lは再帰回数rごとに異なる値であってよい。例えば、入力装置3(マウス、キーボード等)からウィンドウサイズLを設定する、要約パラメータ設定部をさらに備えていても良い。ステップS6-8の処理の詳細は後述する。そして、ステップS6-9に進み、k←k+1とし、ステップS6-7に戻る。ステップS6-7でNoの場合には、ステップS6-10に進み、出力文書SをSで、rをr+1で、それぞれ更新する。すなわち、出力文書Sに1回スライディングウィンドウ法を適用し、出力文書Sの要約Sを算出し、出力文書Sを要約Sにより更新する。次いで、ステップS6-3に戻る。ステップS6-3において、Noの場合には、ステップS6-11において、要約Sを出力する。そして、要約対象文書Dの要約Sを生成する処理(ステップS6)を終了する(RETURN)。
【0064】
上記のスライディングウィンドウ法の処理において、生成されたウィンドウは、生成されたウィンドウに含まれる文の数が、いずれもウィンドウサイズ以下であり、かつ、入力文書に含まれる文である第1の文と、入力文書において前記第1の文の次に出現する第2の文に対して、第1の文が少なくとも一つのウィンドウ(例えばウィンドウW)において出現順に最後の文であるならば、第2の文も少なくとも一つのウィンドウ(例えばウィンドウWk+1)において出現順に最後の文である、という条件をさらに満たす。
【0065】
また、上記の再帰的スライディングウィンドウ法の処理は、入力文書に対して、出力文書を、入力文書を代入することにより、初期化し、出力文書に対して、スライディングウィンドウ法を適用することで、出力文書の要約を生成し、出力文書を、生成した出力文書の要約を代入することにより、更新する、更新処理を実行する。
【0066】
そして、要約処理の継続条件が満たされているか、または、要約処理の終了条件が満たされておらず、かつ、出力文書に含まれる文の数が目標抽出件数より大きい場合は、更新処理を繰り返し、上記以外の場合は、出力文書を入力文書の要約として出力する。
【0067】
図7は、図6のステップS6-8の詳細な処理の流れの一例を示す図である。ステップS6-8においては、まず、ステップS6-8-1で、ウィンドウWに含まれる文s∈Wに対し、前処理結果テーブル1-7を参照し、文sの単語への分かち書きを取得する。ステップS6-8-2において、文sの単語w∈sに対し、単語分散表現テーブル1-4に登録されている単語wの単語分散表現xを取得する。ステップS6-8-3において、文s∈Wに対し、ステップS6-1で算出した単語wのIDFの値idfと、単語重み付けテーブル1-2に登録されている単語wの重みρを重みとして、文sの文分散表現x=Σw∈si ρ idfを算出する。この処理は単語の重み付けを行う処理である。
【0068】
上記の処理は、抽出的要約手法は、不要語を除去した文に含まれる単語に対して、単語重み付けテーブル1-2を参照して、単語の重みを取得し、単語分散表現に、前記単語の重みと、単語の出現頻度の指標IDFと、を乗算することで、重み付き単語分散表現を算出する処理である。
【0069】
次いで、ステップS6-8-4において、ウィンドウWに含まれる全ての文s∈Wに対して処理が完了したか否かを判定する。ここで、Noであれば、ステップS6-8-1に戻る。Yesであれば、ステップS6-8-5に進み、ウィンドウWの分散表現xWkを算出する。ウィンドウWの分散表現は、ウィンドウWに含まれる文sの文分散表現xの総和であり、xWk=Σsi∈Wkにより算出する。次いで、ステップS6-8-6において、各文s∈Wに対し、文sの重要度vを、ウィンドウWの分散表現xWkと、文sの文分散表現xとのコサイン類似度、すなわちv=(xWk・x)/(||xWk|| ||x||)により算出する。次いで、ステップS6-8-7において、文sの重要度vで上位m件をWから抽出し、ウィンドウWの要約Sとする。ここで、mはウィンドウの要約に含める文の数を表す整数であり、1以上ウィンドウサイズL以下の整数である。mは再帰回数rごとに異なる値であってよい。さらに、ステップS6-8-8において、SにSを合併し、Sから重複する文を除去する。そして、ステップS6-8を終了する(RETURN)。
【0070】
このようにスライディングウィンドウ法を用いると、通話内の各話題の重要文が、いずれかのウィンドウの要約に含まれるため、それらを合併して文書全体の要約とすることで、複数の話題を考慮した要約を生成することができる。また、再帰的スライディングウィンドウ法を用いることで、要約に含める文の目標抽出件数を指定することができるので、要約結果を所望の要約率に調整することができる。
【0071】
尚、図2のステップS6における抽出的要約手法として、図7の再帰的スライディングウィンドウ法を用いるか否かは必要に応じて適宜決めることができる。
【0072】
図8は、ウィンドウの例を示す図である。ここで、ウィンドウサイズは、L=4、ウィンドウ位置のオフセットT=2、出力文書Sの文数をNとする。ウィンドウWの添え字kは、ウィンドウ位置を表す。
【0073】
上から順番に説明する。
1)ウィンドウW-1では、複数の文sを有する出力文書Sのうち、ウィンドウW-1内には、2つの文s、sのみが入っている。
2)ウィンドウWでは、複数の文sを有する出力文書Sのうち、ウィンドウW内には、3つの文s、s、sのみが入っている。
3)ウィンドウWでは、複数の文sを有する出力文書Sのうち、ウィンドウW内には、4つの文s、s、s、sが入っている。
4)ウィンドウWでは、複数の文sを有する出力文書Sのうち、ウィンドウW内には、4つの文s、s、s、sが入っている。
N-4)ウィンドウWN-4では、複数の文sを有する出力文書Sのうち、ウィンドウWN-4内には、4つの文sN-4、sN-3、sN-2、sN-1が入っている。
N-3)ウィンドウWN-3では、複数の文sを有する出力文書Sのうち、ウィンドウWN-3内には、4つの文sN-3、sN-2、sN-1、sが入っている。
【0074】
ここで、処理の出だしの1)、2)においては、出力文書Sの先頭の文であるsも要約に含まれやすくするために、ウィンドウ位置を-1や0のような、0以下の値となるようにしている。ウィンドウ位置のオフセットTに、例えば2のような正の値を指定することで、上記の例のようにウィンドウ位置を0以下の値に変更することが可能である。
【0075】
以上に説明したように、本実施の形態によれば、定型的な表現を不要文として不要文判定教師データテーブルに登録しておくことで、他の通話と共通する定型的な表現を要約処理の前に除去できるので、従来の技術と比較して要約の抽出精度を高めることができる。
【0076】
また、本実施の形態による抽出的要約手法(スライディングウィンドウ法)では、通話内の各話題の重要文が、いずれかのウィンドウの要約に含まれるため、それらを合併して文書全体の要約とすることで、複数の話題を考慮した要約を生成できる。
【0077】
また、再帰的スライディングウィンドウ法を用いると、要約において、所望の要約率に調整することができる。
【0078】
上記の処理および制御は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)によるソフトウェア処理、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)によるハードウェア処理によって実現することができる。
【0079】
また、上記の実施の形態において、図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
【0080】
また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
【0081】
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0082】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0083】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。機能の少なくとも一部は、集積回路などのハードウェアで実現しても良い。
【産業上の利用可能性】
【0084】
本発明は、要約生成装置に利用可能である。
【符号の説明】
【0085】
A…要約生成装置
1…補助記憶装置(各記憶部)
1-1…単語辞書テーブル
1-2…単語重み付けテーブル
1-3…分散表現学習コーパステーブル
1-4…単語分散表現テーブル(情報)
1-5…不要文判定教師データテーブル(情報)
1-6…要約対象文書テーブル(情報)
1-7…前処理結果テーブル
1-8…要約結果テーブル
2…主記憶装置
2-1…形態素解析部
2-2…不要語除去処理部
2-3…単語分散表現学習部
2-4…不要文判定教師データ生成部
2-5…不要文除去処理部
2-6…要約対象文書取得部
2-7…要約生成部
3…入力装置
4…出力装置
5…中央演算装置(CPU)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16