(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】要約生成装置、制御方法及びシステム
(51)【国際特許分類】
G06F 16/35 20190101AFI20241126BHJP
【FI】
G06F16/35
(21)【出願番号】P 2020172358
(22)【出願日】2020-10-13
【審査請求日】2023-06-27
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001900
【氏名又は名称】弁理士法人 ナカジマ知的財産綜合事務所
(72)【発明者】
【氏名】桑原 崇
【審査官】松尾 真人
(56)【参考文献】
【文献】米国特許出願公開第2013/0273976(US,A1)
【文献】特開2002-245061(JP,A)
【文献】特開2012-203460(JP,A)
【文献】中国特許出願公開第105320642(CN,A)
【文献】特表2019-514120(JP,A)
【文献】韓国公開特許第10-2020-0114214(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
言語データから要約文を生成する要約生成装置であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と
、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と
、
を備え、
前記生成手段は、決定された重要度に応じて、要約文のデータ量を可変とする
ことを特徴とす
る要約生成装置。
【請求項2】
言語データから要約文を生成する要約生成装置であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と
を備え
、
前記言語データは、複数の文書からなり、
前記選択手段は、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、
前記生成手段は、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成する
ことを特徴とす
る要約生成装置。
【請求項3】
前記選択手段は、単語クラスター毎に、前記言語データに含まれる複数の単語の各々について推定された確率を、総和又は総乗して、当該単語クラスターにより前記言語データの記載内容を代表することの尤もらしさを示す指標値を算出し、複数の単語クラスターについて算出された複数の指標値を比較することにより、前記代表単語クラスターを選択する
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項4】
前記単語処理手段は、
前記言語データを形態素解析して、複数の形態素を生成し、各形態素の品詞を推定する形態素解析手段と、
前記形態素解析手段により生成された複数の形態素から、名詞である単語を抽出する品詞フィルタリング手段と、
抽出された前記単語を分類して、前記複数の単語クラスターを生成する単語クラスター生成手段と、
生成された前記複数の単語クラスターの各々に属する各単語の前記確率を推定する確率推定手段と
を備えることを特徴とする請求項1
または2に記載の要約生成装置。
【請求項5】
前記単語クラスター生成手段は、前記言語データ内における単語と単語との位置関係を求め、単語毎に、前記品詞フィルタリング手段により抽出された単語の出現頻度を集計し、求められた位置関係及び集計された出現頻度を用いて、前記複数の単語クラスターを生成する
ことを特徴とする請求項
4に記載の要約生成装置。
【請求項6】
さらに、音声データを変換して前記言語データを生成する音声認識手段を備え、
前記単語処理手段は、生成された前記言語データから前記複数の単語クラスターを生成する
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項7】
さらに、予め、一の話題に関係する単語を示す事前知識情報を記憶している記憶手段を備え、
前記単語処理手段は、前記事前知識情報を用いて、前記言語データに含まれる単語を話題ごとに集める
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項8】
さらに、利用者から、生成すべき単語クラスターの数の指定を受け付ける受付手段を備え、
前記単語処理手段は、指定された数の単語クラスターを生成する
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項9】
さらに、予め、利用者が所望する話題とは関係しない単語を示す外れ値情報を記憶している記憶手段を備え、
前記単語処理手段は、前記言語データに含まれる単語を話題ごとに集める際に、外れ値情報により示される単語を除外する
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項10】
前記言語データは、複数の文書からなり、
前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、
前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択する
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項11】
さらに、利用者から、前記データ単位の指定を受け付ける受付手段を備え、
前記単語処理手段は、利用者から受け付けたデータ単位毎に、単語を集める
ことを特徴とする請求項
10に記載の要約生成装置。
【請求項12】
前記生成手段は、データ単位毎に、当該データ単位から前記要約文を生成する
ことを特徴とする請求項
10に記載の要約生成装置。
【請求項13】
言語データから要約文を生成する要約生成装置であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と
、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、
表示手段と、
利用者から、入力を受け付ける受付手段
と、を備え、
前記表示手段は、代表単語クラスター毎に、決定した前記重要度を表示し、
前記受付手段は、代表単語クラスター毎に、利用者から、重要度の変更を受け付け、
前記分析手段は、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更
し、
前記生成手段は、前記重要度に応じて、要約文のデータ量又は文書の数を可変とする
ことを特徴とす
る要約生成装置。
【請求項14】
前記選択手段により選択された前記代表単語クラスターの数は、前記単語処理手段により生成された複数の単語クラスターの数より少ない
ことを特徴とする請求項1
または2に記載の要約生成装置。
【請求項15】
前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、
前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択し、
前記生成手段は、前記複数の話題文書内の複数のデータ単位から、前記要約文を生成する
ことを特徴とする請求項
2に記載の要約生成装置。
【請求項16】
請求項1
、2または13に記載の要約生成装置及び音声データから言語データを生成するサーバー装置から構成されるシステムであって、
前記サーバー装置は、
音声データを受信し、受信した前記音声データから生成した言語データを前記要約生成装置に対して送信する通信手段と、
受信した前記音声データを変換して前記言語データを生成する音声認識手段と
を備えることを特徴とするシステム。
【請求項17】
言語データから要約文を生成する要約生成装置において用いられる制御方法であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップ
と、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、を含
み、
前記生成ステップは、決定された重要度に応じて、要約文のデータ量を可変とする
ことを特徴とする制御方法。
【請求項18】
言語データから要約文を生成する要約生成装置において用いられる制御方法であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと
を含み、
前記言語データは、複数の文書からなり、
前記選択ステップは、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、
前記生成ステップは、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成する
ことを特徴とする制御方法。
【請求項19】
言語データから要約文を生成する要約生成装置において用いられる制御方法であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、
代表単語クラスター毎に、決定した前記重要度を表示するステップと、
代表単語クラスター毎に、利用者から、重要度の変更を受け付けるステップと、
を含み、
前記分析ステップは、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、
前記生成ステップは、前記重要度に応じて、要約文のデータ量又は文書の数を可変とする
ことを特徴とする制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書を要約する技術に関する。
【背景技術】
【0002】
一般に多くの企業等では、人手で作成したメモを参照し、文書エディターを用いて打合せや会議の議事録を作成している。
【0003】
これに対して、人手により議事録を作成する工数を削減するため、音声認識技術を用いて、会議の議事中に発せられた音声を認識し、自動的に一語一句を文字起こしする議事録作成システムが提案されている。さらに、文字起こしして得られた文書に対し、文書構造解析処理を施すことにより、文書を要約する技術が提案されている。
【0004】
これらの要約生成手法として、公知の自然言語処理の要約技術(例えば、非特許文献1参照)が利用されている。これらの要約技術では、要約対象の文書に含まれる頻出単語を検出し、要約対象の文書から、頻出単語を多く含む文章を、要約文として抽出する。
【先行技術文献】
【非特許文献】
【0005】
【文献】Gunes Erkan外、LexRank: Graph-based Lexical Centrality as Salience in Text Summarization、インターネット<URL:https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume22/erkan04a-html/erkan04a.html>
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1等の公知の要約技術によると、頻出単語を多く含む文章を要約文として抽出するので、頻出単語が文書の記載内容を代表する話題とは関係が少ない単語である場合、抽出された要約文は、代表話題を表したものではなくなるという問題がある。
【0007】
本開示は、このような問題を解決し、代表話題を表した要約文を生成することができる要約生成装置、制御方法及びシステムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本開示の一態様は、言語データから要約文を生成する要約生成装置であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、を備え、前記生成手段は、決定された重要度に応じて、要約文のデータ量を可変とすることを特徴とする。
【0010】
ここで、前記選択手段は、単語クラスター毎に、前記言語データに含まれる複数の単語の各々について推定された確率を、総和又は総乗して、当該単語クラスターにより前記言語データの記載内容を代表することの尤もらしさを示す指標値を算出し、複数の単語クラスターについて算出された複数の指標値を比較することにより、前記代表単語クラスターを選択してもよい。
【0011】
ここで、前記単語処理手段は、前記言語データを形態素解析して、複数の形態素を生成し、各形態素の品詞を推定する形態素解析手段と、前記形態素解析手段により生成された複数の形態素から、名詞である単語を抽出する品詞フィルタリング手段と、抽出された前記単語を分類して、前記複数の単語クラスターを生成する単語クラスター生成手段と、生成された前記複数の単語クラスターの各々に属する各単語の前記確率を推定する確率推定手段とを備えるとしてもよい。
【0012】
ここで、前記単語クラスター生成手段は、前記言語データ内における単語と単語との位置関係を求め、単語毎に、前記品詞フィルタリング手段により抽出された単語の出現頻度を集計し、求められた位置関係及び集計された出現頻度を用いて、前記複数の単語クラスターを生成し、前記確率推定手段は、求められた位置関係及び集計された出現頻度を用いて、各単語の確率を推定してもよい。
【0013】
ここで、さらに、音声データを変換して前記言語データを生成する音声認識手段を備え、前記単語処理手段は、生成された前記言語データから前記複数の単語クラスターを生成してもよい。
【0014】
ここで、さらに、予め、一の話題に関係する単語を示す事前知識情報を記憶している記憶手段を備え、前記単語処理手段は、前記事前知識情報を用いて、前記言語データに含まれる単語を話題ごとに集めるとしてもよい。
【0015】
ここで、さらに、利用者から、生成すべき単語クラスターの数の指定を受け付ける受付手段を備え、前記単語処理手段は、指定された数の単語クラスターを生成してもよい。
【0016】
ここで、さらに、予め、利用者が所望する話題とは関係しない単語を示す外れ値情報を記憶している記憶手段を備え、前記単語処理手段は、前記言語データに含まれる単語を話題ごとに集める際に、外れ値情報により示される単語を除外してもよい。
【0017】
ここで、前記言語データは、複数の文書からなり、前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択してもよい。
【0018】
ここで、さらに、利用者から、前記データ単位の指定を受け付ける受付手段を備え、前記単語処理手段は、利用者から受け付けたデータ単位毎に、単語を集めるとしてもよい。
【0019】
ここで、前記生成手段は、データ単位毎に、当該データ単位から前記要約文を生成してもよい。
【0020】
ここで、さらに、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段を備えるとしてもよい。
【0021】
ここで、前記生成手段は、決定された重要度に応じて、要約文のデータ量を可変としてもよい。
【0022】
本開示の別の一態様は、言語データから要約文を生成する要約生成装置であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、表示手段と、利用者から、入力を受け付ける受付手段と、を備え、前記表示手段は、代表単語クラスター毎に、決定した前記重要度を表示し、前記受付手段は、代表単語クラスター毎に、利用者から、重要度の変更を受け付け、前記分析手段は、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、前記生成手段は、前記重要度に応じて、要約文のデータ量又は文書の数を可変とすることを特徴とする。
【0023】
ここで、前記選択手段により選択された前記代表単語クラスターの数は、前記単語処理手段により生成された複数の単語クラスターの数より少ない、としてもよい。
【0024】
ここで、前記言語データは、複数の文書からなり、前記選択手段は、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、前記生成手段は、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成してもよい。
【0025】
ここで、前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択し、前記生成手段は、前記複数の話題文書内の複数のデータ単位から、前記要約文を生成してもよい。
【0026】
また、本開示の一態様は、上記要約生成装置及び音声データから言語データを生成するサーバー装置から構成されるシステムであって、前記サーバー装置は、音声データを受信し、受信した前記音声データから生成した言語データを前記要約生成装置に対して送信する通信手段と、受信した前記音声データを変換して前記言語データを生成する音声認識手段とを備えることを特徴とする。
【0027】
また、本開示の一態様は、言語データから要約文を生成する要約生成装置において用いられる制御方法であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、を含み、前記生成ステップは、決定された重要度に応じて、要約文のデータ量を可変とすることを特徴とする。
本開示の別の一態様は、言語データから要約文を生成する要約生成装置において用いられる制御方法であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップとを含み、前記言語データは、複数の文書からなり、前記選択ステップは、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、前記生成ステップは、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成することを特徴とする。
本開示のさらに別の一態様は、言語データから要約文を生成する要約生成装置において用いられる制御方法であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、代表単語クラスター毎に、決定した前記重要度を表示するステップと、代表単語クラスター毎に、利用者から、重要度の変更を受け付けるステップと、を含み、前記分析ステップは、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、前記生成ステップは、前記重要度に応じて、要約文のデータ量又は文書の数を可変とすることを特徴とする。
【発明の効果】
【0028】
上記の態様によると、複数の単語クラスターから、言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択することにより、代表単語クラスターに基づいて、代表話題を表した要約文を生成することができる。
【図面の簡単な説明】
【0029】
【
図1】実施の形態に係る情報処理装置10の外観を示す図である。
【
図2】情報処理装置10の本体装置100の構成を示すブロック図である。
【
図5】単語頻度行列154のデータ構造の一例を示す。
【
図6】トピック毎の単語分布155a、155b、155c及び文書毎のトピック分布156a、156b、156cを示す。
【
図7】(a)~(c)単語クラスター157a~157cの内容を示す。
【
図8】クラスター確率データテーブル158aの内容を示す。
【
図10】情報処理装置10のモニター107により表示される画面201を示す。
【
図11】(a)事前知識データ221の内容を示す。(b)外れ値データ231の内容を示す。
【
図12】情報処理装置10における動作を示すフローチャートである。
【
図13】設定データの参照の動作を示すフローチャートである。
【
図14】外れ値の処理の動作を示すフローチャートである。
【
図15】単語クラスターの継承処理の動作を示すフローチャートである。
【
図16】文書1(301)及び文書4(304)から要約書306を生成する様子を示す。
【
図17】文書1(311)の2つの段落312、315及び文書3(331)の1つの段落334から要約書341を生成する様子を示す。
【発明を実施するための形態】
【0030】
1 実施の形態
本開示の実施の形態としての情報処理装置10について説明する。
【0031】
1.1 情報処理装置10
情報処理装置10(要約生成装置)は、一般的なコンピューターシステム、例えば、パーソナルコンピューターである。情報処理装置10は、文書から要約文を生成する。情報処理装置10は、
図1に示すように、本体装置100に、モニター107、キーボード108及びマウス109が接続されて、構成されている。
【0032】
ここで、文書は、日本語、英語、フランス語等の言語により表現された新聞記事、文芸作品、論文、書籍等であって、一般的に、複数の章、複数の節、複数の段落から構成され、各章、各節、各段落は、複数の文章を含む。各文章は、複数の単語を並べて構成されている。情報処理装置10による取り扱いを可能とするため、文書は、コンピューター読み取り可能な形式により表現及び保存されている。ここで、1又は複数の文書、1又は複数の章、1又は複数の節、1又は複数の段落、1又は複数の文章は、言語データである。特に、本明細書においては、複数の文書の集合体を、言語データと呼ぶ場合もある。なお、文書の内部に、図形、写真、グラフ等が含まれてもよいが、情報処理装置10では、これらの図形、写真、グラフ等は、要約文生成の対象とはしない。
【0033】
1.2 本体装置100
本体装置100は、
図2に示すように、CPU101、ROM102、RAM103、記憶回路104、入出力回路105等から構成されている。
【0034】
CPU101、ROM102及びRAM103は、制御部106を構成している。
【0035】
RAM103は、各種の制御変数及び設定されたパラメーター等を記憶すると共に、CPU101によるプログラム実行時のワークエリアを提供する。
【0036】
ROM102には、本体装置100における動作を実行させるための制御プログラム(コンピュータープログラム)などが格納されている。
【0037】
本体装置100は、さらに、ハードディスクユニットを備え、ハードディスクユニットに、本体装置100における動作を実行させるための制御プログラムなどが格納されている、としてもよい。
【0038】
CPU101は、ROM102又はハードディスクユニットに記憶されている制御プログラムに従って動作する。
【0039】
CPU101が、制御プログラムに従って動作することにより、制御部106は、機能的に、統括制御部110、音声認識部111、単語処理部112、クラスター推定部113及び要約部114を構成する。単語処理部112(単語処理手段)は、形態素解析部121、品詞フィルタリング部122、単語クラスター生成部123及びクラスター確率推定部124を含む。また、クラスター推定部113は、代表単語クラスター推定部125を含む。
【0040】
統括制御部110は、音声認識部111、単語処理部112、クラスター推定部113及び要約部114等を統一的に制御する。
【0041】
また、統括制御部110は、キーボード108(受付手段)から、入出力回路105を介して、利用者の操作を受け取る。利用者の操作には、要約処理を開始する指示、各種パラメーターの設定等が含まれる。利用者の操作が、例えば、要約処理を開始する指示である場合、統括制御部110は、音声認識部111、単語処理部112、クラスター推定部113及び要約部114等を統一的に制御して、要約書を生成させる。
【0042】
入出力回路105は、キーボード108又はマウス109から入力信号を受け取り、受け取った入力信号を統括制御部110に対して出力する。また、入出力回路105は、統括制御部110から、表示のためのデータ、例えば、画面用のデータを受け取り、受け取ったデータをモニター107に出力して、モニター107に表示させる。
【0043】
記憶回路104、音声認識部111、単語処理部112、クラスター推定部113及び要約部114については、以下に説明する。
【0044】
1.3 記憶回路104
記憶回路104(記憶手段)は、例えば、不揮発性の半導体メモリ等から構成されている。もちろん、記憶回路104は、ハードディスクから構成されている、としてもよい。
【0045】
記憶回路104は、音声データ151a、151b、151c、文書152a、152b、152c、名詞句データ153a、153b、153c、単語頻度行列154、トピック毎の単語分布155a、155b、155c、文書毎のトピック分布156a、156b、156c、単語クラスター157a、157b、157c、クラスター確率データテーブル158a、158b、158c、代表単語クラスター159及び要約書160を記憶するための領域を備えている。
【0046】
(1)音声データ151a、151b、151c
音声データ151a、151b、151cは、それぞれ、別の会議の議事を録音した録音データである。音声データ151a、151b、151cは、例えば、MP3(MPEG-1 Audio Layer-3)による音声ファイルフォーマットにより構成されている。
【0047】
(2)文書152a、152b、152c
文書152a、152b、152cは、それぞれ、音声データ151a、151b、151cに、音声認識部111により、音声認識処理を施して生成されたテキストデータから構成されている。
【0048】
文書152a、152b、152cは、それぞれ、文書ID「D001」、「D002」、「D003」により識別される。
【0049】
文書152aの一例を
図3に示す。この図に示すように、文書152aは、複数の文章(センテンス)を含むテキストデータから構成されている。
【0050】
(3)名詞句データ153a、153b、153c
名詞句データ153a、153b、153cは、それぞれ、文書152a、152b、152cに含まれるテキストデータに、形態素解析部121及び品詞フィルタリング部122により、形態素解析及び品詞フィルタリングが施されて抽出された名詞句を含むデータである。名詞句データ153a、153b、153cは、それぞれ、複数の名詞句を含んでいる。
【0051】
名詞句データ153aの一例を
図4に示す。この図に示すように、名詞句データ153aは、文書152aから抽出された複数の名詞句から構成されている。
【0052】
(4)単語頻度行列154
単語頻度行列154は、単語クラスター生成部123により、名詞句データ153a、153b、153cに含まれる名詞句(以下、単語と呼ぶ。)毎に、その頻度を集計することにより得られたデータテーブルである。
【0053】
単語頻度行列154は、一例として、
図5に示すように、文書IDと単語頻度情報とからなる組を複数個、含み、各単語頻度情報は、文書に含まれる単語毎の頻度を含む。
【0054】
この図に示すように、例えば、文書ID「D001」により識別される文書152aから生成された名詞句データ153aには、単語「国会」が5個含まれ、単語「審議」が4個含まれ、単語「オリンピック」は、含まれない。
【0055】
また、例えば、文書ID「D002」により識別される文書152bから生成された名詞句データ153bには、単語「国会」が1個含まれ、単語「審議」が2個含まれ、単語「オリンピック」は、含まれない。
【0056】
さらに、例えば、文書ID「D003」により識別される文書152cから生成された名詞句データ153cには、単語「国会」及び単語「審議」が含まれず、単語「オリンピック」は、7個含まれている。
【0057】
(5)トピック毎の単語分布155a、155b、155c
トピック(話題)毎の単語分布155a、155b、155cは、それぞれ、単語クラスター生成部123により、トピック毎に、名詞句データ153a、153b、153cから集計した単語頻度行列154及び各文書内の単語同士の位置関係を用いて、生成された単語の頻度の分布を示すデータテーブルである。なお、各文書内の単語同士の位置関係を用いた、トピックを抽出するための分類方法については、後述する。
【0058】
ここで、文書内の単語同士の位置関係とは、例えば、文書内の一つの文章に含まれる複数の単語の関係を言う。一つの文章に含まれる複数の単語同士は、一つのトピック(例えば、「政治」に関する話題)に関係しており、近い関係にあると言える。
【0059】
また、文書内の単語同士の位置関係とは、例えば、文書内において、一つの文章に含まれる単語と、その文章に連続して、その文章の前方向又は後方向に、配置される文章に含まれる単語との関係を言う。連続する二つの文章にそれぞれ含まれる単語同士も、一つのトピックに関係しており、近い関係にあると言える。
【0060】
例えば、単語分布155aは、一つのトピック(例えば、「政治」に関する話題)について、名詞句データ153a、153b、153cの全体から、そのトピックに関係する単語の頻度を、単語毎に集計したデータテーブルである。
図6には、単語分布155aを図的に示している。この図に示す単語分布155aは、当該データテーブルに含まれる単語を横軸に配置し、各単語の頻度を縦軸に配置して、棒グラフにより表している。
【0061】
また、例えば、単語分布155bは、前記トピックとは異なる、他のトピック(例えば、「スポーツ」に関する話題)について、単語分布155aと同様に、名詞句データ153a、153b、153cの全体から、生成したデータテーブルである。
図6には、単語分布155bを図的に示している。
【0062】
さらに、例えば、単語分布155cは、2つの前記トピックとは異なる、他のトピック(例えば、「経済」に関する話題)について、単語分布155aと同様に、名詞句データ153a、153b、153cの全体から、生成したデータテーブルである。
図6には、単語分布155cを図的に示している。
【0063】
(6)文書毎のトピック分布156a、156b、156c
文書毎のトピック分布156a、156b、156cは、クラスター推定部113により、それぞれ、文書152a、152b、152cについて、名詞句データ153a、153b、153cから、生成されたトピックの指標値(後述する)の分布を示すデータテーブルである。
【0064】
例えば、トピック分布156aは、一つの文書152aについて、名詞句データ153aから、各トピックの指標値を、トピック毎に集計して得られたデータテーブルである。
図6には、トピック分布156aを図的に示している。この図に示すトピック分布156aは、当該データテーブルに含まれるトピックを横軸に配置し、各トピックに属する単語の確率(後述する)を縦軸に配置して、棒グラフにより表している。
【0065】
また、例えば、トピック分布156bは、一つの文書152bについて、トピック分布156aと同様に生成したデータテーブルである。
図6には、トピック分布156bを図的に示している。
【0066】
さらに、例えば、トピック分布156cは、一つの文書152cについて、トピック分布156aと同様に生成したデータテーブルである。
図6には、トピック分布156cを図的に示している。
【0067】
(7)単語クラスター157a、157b、157c
単語クラスター157aは、単語クラスター生成部123により、文書152aについて、名詞句データ153aから、名詞句データ153aに現れる単語の頻度、及び、文書152a内における単語の位置関係に応じて、意味の上で似た、つまり、関係が近い単語同士(一つのトピックに関係する可能性を有する単語同士)を、一つのトピックとして、集めて生成した単語群である。
【0068】
単語クラスター157aの一例を、
図7(a)に示す。この図に示すように、単語クラスター157aには、「国会」、「審議」、「内閣」、「選挙」等の単語が含まれている。
【0069】
また、単語クラスター157bは、単語クラスター157aと同様に、単語クラスター生成部123により、文書152aについて、名詞句データ153aから、意味の上で似た、つまり、関係が近い単語同士を、一つのトピックとして、集めて生成した単語群である。
【0070】
単語クラスター157bの一例を、
図7(b)に示す。この図に示すように、単語クラスター157bには、「オリンピック」、「国立競技場」、「開催国」、「聖火」等の単語が含まれている。
【0071】
また、単語クラスター157cは、単語クラスター157aと同様に、単語クラスター生成部123により、文書152aについて、名詞句データ153aから、意味の上で似た、つまり、関係が近い単語同士を、一つのトピックとして、集めて生成した単語群である。
【0072】
単語クラスター157cの一例を、
図7(c)に示す。この図に示すように、単語クラスター157cには、「景気」、「経済」、「国際収支」、「貿易」等の単語が含まれている。
【0073】
なお、上記においては、一つの文書から、3個の単語クラスターが生成される、としているが、これには、限定されない。一つの文書から、1個、2個、又は、4個以上の単語クラスターが生成される、としてもよい。
【0074】
また、文書152b及び152cのそれぞれについても、上記と同様に、1個又は複数個の単語クラスターが生成される。
【0075】
(8)クラスター確率データテーブル158a、158b、158c
クラスター確率データテーブル158aは、単語クラスター生成部123により、文書152aについて、名詞句データ153aから、名詞句データ153aに現れる単語の頻度(つまり、単語頻度行列154に含まれる頻度)、及び、文書152a内における単語と単語の位置関係に応じて、調整して得られた各名詞句(単語)の確率を含んでいる。
【0076】
ここで、単語の確率は、各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示している。
【0077】
図8に示すように、クラスター確率データテーブル158aは、複数の確率情報を含み、各確率情報は、名詞句及び確率を含む。
【0078】
ここで、名詞句は、名詞句データ153aに含まれる名詞句であり、確率は、当該名詞句の確率である。
【0079】
また、クラスター確率データテーブル158bは、クラスター確率データテーブル158aと同様に、単語クラスター生成部123により、文書152bについて、名詞句データ153bから、生成された名詞句と確率とを対応付けて、構成されている。
【0080】
さらに、クラスター確率データテーブル158cは、クラスター確率データテーブル158aと同様に、単語クラスター生成部123により、文書152cについて、名詞句データ153cから、生成された名詞句と確率とを対応付けて、構成されている。
【0081】
(9)代表単語クラスター159
代表単語クラスター159は、文書152aについて、単語クラスター157a、157b、157cのうちから、代表単語クラスター推定部125により、選択された一つの単語クラスターである。
【0082】
文書152b、152cについても、それぞれ、代表単語クラスターが選択される。
【0083】
(10)要約書160
要約書160は、文書152aについて、要約部114により生成された要約文を含む要約書である。要約書160は、一つ又は複数の文章を含む。
【0084】
図9に一例として、文書152aから抽出された要約文191を示す。
【0085】
文書152b、152cについても、それぞれ、要約書が生成される。
【0086】
1.4 音声認識部111
音声認識部111(音声認識手段)は、会議の議論等における発言内容(音声データ)をテキストデータに変換してテキストデータからなる文書(言語データ)を生成し、生成した文書を記憶回路104に書き込む。
【0087】
音声認識部111は、統括制御部110の制御により、記憶回路104に記憶されている各音声データに対して、母音、子音、撥音の音素のパターンに一致する区間を特定し、音素を表す識別子の並び(例えば、かな文字列)を生成する。次に、音声認識部111は、内蔵する辞書から、生成した、かな文字列に対応する漢字かな混じり表記の語句を検索し、得られた語句を、生成したかな文字列に置き換えて、テキストデータを生成する。
【0088】
このようにして、音声認識部111は、音声データから、テキストデータからなる文書を生成し、生成した文書に、文書を識別する文書IDを付して、記憶回路104に書き込む。
【0089】
1.5 単語処理部112
単語処理部112(単語処理手段)は、統括制御部110の制御により、以下に示すようにして、文書に対して形態素解析を行い、品詞フィルタリングを行い、単語クラスターを生成し、単語毎の確率の推定を行なう。単語処理部112は、一つのトピックに関係する可能性を有する単語同士が同一の単語クラスターに属するように、文書(言語データ)に含まれる単語を分類して、複数の単語クラスターを生成する。また、単語処理部112は、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応するトピックに属する可能性の高さを示す確率を推定する。
【0090】
単語処理部112は、上述したように、形態素解析部121、品詞フィルタリング部122、単語クラスター生成部123及びクラスター確率推定部124を含む。
【0091】
単語クラスター生成部123及びクラスター確率推定部124は、後述するように、公知の自然言語処理技術として、例えば、LDA(Latent Dirichlet Allocation)を用いる。
【0092】
(1)形態素解析部121
形態素解析部121は、統括制御部110の制御により、記憶回路104から各文書(言語データ)を読み出す。次に、読み出した文書に含まれるテキストデータに対して形態素解析を施し、テキストデータを分解して、複数の形態素を生成する。さらに、形態素解析部121は、生成した複数の形態素のそれぞれについて、品詞を推定し、各形態素(単語)に、推定した品詞を示す品詞情報を付す。
【0093】
形態素解析部121は、各文書から抽出し、品詞を示す品詞情報を付した形態素を、品詞フィルタリング部122に対して、出力する。
【0094】
(2)品詞フィルタリング部122
品詞フィルタリング部122は、形態素解析部121から品詞を示す品詞情報を付した形態素(単語)を受け取る。
【0095】
品詞を付した形態素を受け取ると、品詞フィルタリング部122は、形態素解析部121により、品詞を示す品詞情報が付された形態素から、品詞として、名詞を示す品詞情報が付された形態素(単語)を抽出する。抽出した形態素を名詞句と呼ぶ。なお、名詞には、固有名詞が含まれるものとする。
【0096】
品詞フィルタリング部122は、抽出した名詞句からなる名詞句データを、記憶回路104に書き込む。
【0097】
このようにして、文書152a、152b、152cについて、それぞれ、名詞句データ153a、153b、153cが、記憶回路104に書き込まれる。
【0098】
(3)単語クラスター生成部123
(単語の出現頻度の集計)
単語クラスター生成部123は、統括制御部110の制御により、文書152aについて、名詞句データ153aから、単語毎に、単語の出現頻度を集計する。単語クラスター生成部123は、単語毎に集計した単語の出現頻度を、単語頻度行列154内の、文書152a(つまり、文書ID「D001」)に対応する単語頻度情報171に書き込む。
【0099】
また、単語クラスター生成部123は、上記と同様に、文書152b、152cについて、名詞句データ153b、153cから、単語毎に、単語の出現頻度を集計し、単語頻度行列154内の、文書152b、152cに対応する単語頻度情報171に、集計した頻度を書き込む。
【0100】
(所定の位置関係を有する単語の抽出)
次に、単語クラスター生成部123は、文書152a、152b、152cに含まれる各文章について、上述した位置関係を有する複数の単語を抽出する。
【0101】
一例として、単語クラスター生成部123は、文書152aから、一つの文章を抽出する。次に、単語クラスター生成部123は、名詞句データ153aから、抽出した文章に含まれている複数の単語を抽出する。こうして、抽出した複数の単語は、一つの位置関係を有するとみなす。例えば、単語クラスター生成部123は、抽出した一つの文章から、単語「国会」、「審議」、「オリンピック」、「関連」、「法案」等を抽出する。抽出した単語「国会」、「審議」、「オリンピック」、「関連」、「法案」等は、一つの位置関係を有すると考えられる。単語クラスター生成部123は、文書152aに含まれる全ての文章について、上記の処理を実行する。また、単語クラスター生成部123は、上記の処理を、文書152b、152cに含まれる各文章についても、実行する。
【0102】
また、別の例として、単語クラスター生成部123は、文書152aから、前後に連続して配置された二つの文章を抽出してもよい。次に、単語クラスター生成部123は、名詞句データ153aから、抽出した二つの文章に含まれている複数の単語を抽出する。こうして、抽出した複数の単語は、一つの位置関係を有すると考えられる。単語クラスター生成部123は、文書152aに含まれる全ての文章について、上記の処理を実行する。単語クラスター生成部123は、上記の処理を、文書152b、152cに含まれる連続配置された二つの文章の各々についても、実行する。
【0103】
一つの文章に含まれる複数の単語、又は、前後に連続して配置された二つの文章に含まれる複数の単語は、それぞれの単語の意味、用いられ方、又は、用いられる分野等が共通している。つまり、一つの文章又は上記の二つの文章に含まれる複数の単語は、一つの位置関係を有し、これらの複数の単語は、一つのトピックに関係していると考えられる。
【0104】
上記のようにして生成した位置関係を有する複数の単語が、一つのグループに属すると考えると、上記のようにして、生成された位置関係の数と同数のグループが生成される。一つの文章から一つの位置関係が生成される場合、生成されたグループの数は、文書に含まれる文章の数に等しい。また、前後に連続して配置された二つの文章から一つの位置関係が生成される場合、生成されたグループの数は、文書から、選んだ上記の二つの文章の組合せの数に等しい。
【0105】
(トピックの抽出のための分類)
単語クラスター生成部123は、上記のようにして生成された複数のグループのうち、第一グループに含まれる一つの単語と、第二グループに含まれる一つの単語が同一である場合に、第一グループと第二グループとを関係付ける。例えば、第一グループに、単語「国会」が含まれ、第二グループにも、単語「国会」が含まれる場合、第一グループと第二グループとを関係付ける。上記のようにして生成された全てのグループに対して、この関係付けを実施する。こうして、関係付けられた二つのグループを、新たな一つのグループとする。例えば、単語「国会」が含まれる第一グループと単語「国会」が含まれる第二グループとを新たな一つのグループとする。生成された全てのグループに対して、この関係付けを実施し、全体として、数個のグループに集約できるまで、グループとグループとの関係付けの処理を、繰り返す。
【0106】
なお、第一グループに含まれる第一の単語と、第二グループに含まれる第二の単語が同一であり、第一グループに含まれる第三の単語と、第二グループに含まれる第四の単語が同一である場合に、第一グループと第二グループとを関係付けてもよい。例えば、第一グループに、単語「国会」が含まれ、第二グループにも、単語「国会」が含まれ、第一グループに、単語「審議」が含まれ、第二グループにも、単語「審議」が含まれる場合、第一グループと第二グループとを関係付ける。
【0107】
さらに、第一グループと第二グループとの間で、関係付けるための単語の数を増やして、第一グループと第二グループとを関係付けてもよい。
【0108】
こうして、最終的に生成された一つのグループに含まれる複数の単語は、一つのトピック(例えば、「政治」)に関するものである可能性を有する。また、別のグループに含まれる複数の単語は、別のトピック(例えば、「スポーツ」)に関するものであるである可能性を有する。ここで、最終的に生成されたグループをトピックグループと呼ぶ。
【0109】
(トピック毎の単語分布の生成)
次に、単語クラスター生成部123は、文書152a、152b、152c(及び名詞句データ153a、153b、153c)の全体について、単語頻度行列154及び上記の位置関係を用いて、複数のトピックグループのうちの一つトピックグループについて、出現する単語の頻度を集計し、例えば、
図6に示すトピック毎の単語分布155aを生成する。
【0110】
同様に、単語クラスター生成部123は、他のトピックグループについて、例えば、
図6に示すトピック毎の単語分布155b、155cを生成する。
【0111】
(単語クラスターの生成)
単語クラスター生成部123は、単語分布155a、155b、155cの中から、例えば、単語分布155aを選択する。次に、単語クラスター生成部123は、選択した単語分布155aの横軸方向に列挙される単語のうち、文書152a(つまり、名詞句データ153a)に含まれる単語を抽出する。次に、単語クラスター生成部123は、抽出した単語から構成される単語クラスターを生成する。
図7(a)に、一例としての単語クラスター157aを示す。この単語クラスターには、例えば、「政治」に関連する単語が多く含まれる。
【0112】
また、単語クラスター生成部123は、例えば、単語分布155bを選択する。次に、単語クラスター生成部123は、選択した単語分布155bの横軸方向に列挙される単語のうち、文書152a(つまり、名詞句データ153a)に含まれる単語を抽出する。次に、単語クラスター生成部123は、抽出した単語から構成される単語クラスターを生成する。
図7(b)に、一例としての単語クラスター157bを示す。この単語クラスターには、「スポーツ」に関連する単語が多く含まれる。
【0113】
さらに、単語クラスター生成部123は、例えば、単語分布155cを選択する。次に、単語クラスター生成部123は、選択した単語分布155cの横軸方向に列挙される単語のうち、文書152a(つまり、名詞句データ153a)に含まれる単語を抽出する。次に、単語クラスター生成部123は、抽出した単語から構成される単語クラスターを生成する。
図7(c)に、一例としての単語クラスター157cを示す。この単語クラスターには、「経済」に関連する単語が多く含まれる。
【0114】
ここで、単語クラスター生成部123は、選択した単語分布に列挙される単語のうち、その頻度が上位のものを所定数だけ、抽出してもよい。
【0115】
また、単語クラスター生成部123は、文書152b、152cについて、上記と同様にして、1又は複数の単語クラスターを生成する。
【0116】
上述したように、単語クラスター生成部123は、一つの文書につき、1又は複数の単語クラスターを生成する。
【0117】
このように、単語クラスター生成部123は、抽出された単語を分類して、複数の単語クラスターを生成する。また、単語クラスター生成部123は、単語毎に、抽出された単語の出現頻度を集計し、文書(言語データ)内における単語と単語との位置関係を求め、集計された出現頻度及び求められた位置関係を用いて、複数の単語クラスターを生成する。
【0118】
(4)クラスター確率推定部124
クラスター確率推定部124は、最初、各単語クラスター内の単語のそれぞれについて、ランダムに確率を設定する。次に、クラスター確率推定部124は、当該単語クラスターに対応する単語分布を用いて、また、上述した位置関係を用いて、単語にランダムに設定された確率を補正する。
【0119】
このようにして、クラスター確率推定部124は、例えば、文書152aの単語クラスター157aについて、
図8に示すように、クラスター確率データテーブル158aを生成する。同様に、クラスター確率推定部124は、文書152aの他の単語クラスターについて、クラスター確率データテーブルを生成する。クラスター確率推定部124は、各単語に設定された確率を、記憶回路104のクラスター確率データテーブル内に書き込む。
【0120】
このように、クラスター確率推定部124は、生成された複数の単語クラスターの各々に属する単語について、各単語の確率を推定する。また、クラスター確率推定部124は、求められた位置関係及び集計された出現頻度を用いて、各単語の確率を推定する。
【0121】
1.6 クラスター推定部113
クラスター推定部113(選択手段)は、文書(言語データ)毎に、複数の単語クラスターから、文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する。また、クラスター推定部113は、複数の単語クラスターの各々について推定された各単語の確率を用いて、複数の単語クラスターから、代表単語クラスターを選択する。
【0122】
クラスター推定部113は、上述したように、代表単語クラスター推定部125を含む。
【0123】
上記の例では、各文書について、複数の単語クラスターが生成される。
【0124】
代表単語クラスター推定部125は、各文書について、複数の単語クラスターが生成される場合、以下に示すようにして、生成された複数の単語クラスターから、代表単語クラスターとして、一つの単語クラスターを選択する。
【0125】
代表単語クラスター推定部125は、例えば、文書152aについての一つの単語クラスターに関し、名詞句データ153a内に含まれる複数の単語について、クラスター確率データテーブル158aに含まれる確率を総乗する。
【0126】
例えば、
図4に示すように、名詞句データ153aには、単語「国会」、「審議」、「オリンピック」、「関連」、「法案」、・・・が含まれる。また、クラスター確率データテーブル158aによると、単語「国会」、「審議」、「オリンピック」、「関連」、「法案」、・・・の確率が、P1、P2、P3、P4、P5、・・・であるとする。
【0127】
なお、各確率は、パーセント(%)により表現されている。
【0128】
この場合、総乗値(指標値)=P1×P2×P3×P4×P5×、・・・により、算出される。
【0129】
ここで、名詞句データ153aは、一例として、3個の単語「法案」を含むので、総乗値の演算において、単語「法案」に対応する確率が3回、乗算される。
【0130】
代表単語クラスター推定部125は、例えば、文書152aについての他の単語クラスターについても、上記と同様に、総乗値を演算する。
【0131】
こうして、例えば、文書152aの複数の単語クラスターについて、総乗値が算出される。
【0132】
このようにして、代表単語クラスター推定部125は、例えば、文書152aについて、
図6に示す文書毎のトピック分布156aを生成する。トピック分布156aにおいては、横軸にトピックを示し、縦軸に、単語クラスター毎、つまり、トピック毎の総乗値(指標値)を示す。
【0133】
代表単語クラスター推定部125は、算出した複数の総乗値のうち、最も大きい総乗値を選択し、選択した総乗値を算出する元になった単語クラスターを、代表単語クラスターとして選択する。
【0134】
代表単語クラスター推定部125は、文書152b、152cについても、上記と同様に、単語クラスター毎に、総乗値(指標値)を算出する。
【0135】
代表単語クラスター推定部125は、例えば、文書152b、152cについて、
図6に示す文書毎のトピック分布156b、156cを生成する。トピック分布156b、156cにおいては、それぞれ、横軸にトピックを示し、縦軸に、単語クラスター毎、つまり、トピック毎の総乗値(指標値)を示す。
【0136】
代表単語クラスター推定部125は、文書152b、152cについても、上記と同様に、代表単語クラスターを選択する。
【0137】
なお、代表単語クラスター推定部125は、上記のように、総乗値=P1×P2×P3×P4×P5×、・・・を算出している。しかし、この方法には、限定されない。
【0138】
代表単語クラスター推定部125は、総和値(指標値)=P1+P2+P3+P4+P5+、・・・を算出し、算出した複数の総和値のうち、最も大きい総和値を選択し、選択した総和値を算出する元になった単語クラスターを、代表単語クラスターとして選択してもよい。
【0139】
このように、クラスター推定部113(選択手段)の代表単語クラスター推定部125は、単語クラスター毎に、前記文書(言語データ)に含まれる複数の単語の各々について推定された複数の確率を、総和又は総乗して、当該単語クラスターにより文書の記載内容を代表することの尤もらしさを示す指標値を算出し、複数の単語クラスターについて算出された前記複数の指標値を比較することにより、代表単語クラスターを選択する。
【0140】
ここで、クラスター推定部113(選択手段)により選択された代表単語クラスターの数は、単語処理部112により生成された複数の単語クラスターの数よりも、少ない。
【0141】
1.7 要約部114
要約部114(抽出手段)は、各文書(言語データ)から、代表単語クラスター推定部125により選択された代表単語クラスターに基づいて、要約書を生成する。
【0142】
つまり、要約部114は、代表単語クラスターに含まれる単語を用いて、各文書から、代表単語クラスターに含まれる単語を含む文章(つまり、文書の記載内容を代表する文章)を抽出し、抽出した文章を含む要約書を生成する。
【0143】
要約部114により生成される要約文の一例を
図9に示す。この図に示す要約文191は、代表単語クラスターとして選択された
図7(a)に示す単語クラスター157aに含まれる全て又は一部の単語を含んでいる。
【0144】
1.8 画面例
情報処理装置10において表示される画面例を
図10に示す。
【0145】
この図に示す画面201は、情報処理装置10において設定されるハイパーパラメーターを設定するため、利用者に入力を求めるための画面である。
【0146】
画面201は、この図に示すように、入力フィールド202、203、204、ラジオボタン205、206、207~210を含んでいる。
【0147】
入力フィールド202、203、204は、それぞれ、事前知識データ、単語クラスターの数、外れ値の単語の入力を受け付けるため、利用者が入力操作を行うフィールドである。ラジオボタン205、206は、単語クラスターを継承するか否かを設定するためのラジオボタンである。ラジオボタン205、206の何れか一方が利用者により選択される。ラジオボタン207、208、209、210は、それぞれ、データ単位として、文書単位、段落単位、複数センテンス単位及び1センテンス単位の何れか一つを選択するためのラジオボタンである。ラジオボタン207、208、209、210の何れか一つが利用者により選択される。
【0148】
統括制御部110は、画面201を生成し、生成した画面201を、入出力回路105を介して、モニター107に出力する。モニター107は、画面201を表示する。
【0149】
キーボード108及びマウス109は、入力フィールド202、203、204、ラジオボタン205~210において、利用者の操作指示を受け付け、受け付けた操作指示に対応する指示信号を、入出力回路105を介して、統括制御部110に出力する。
【0150】
統括制御部110は、受け取った指示信号に応じた処理を実行する。
【0151】
なお、事前知識データ、単語クラスターの数、外れ値の単語、単語クラスターを継承するか否か及びデータ単位については、次に説明する。
【0152】
1.9 事前知識データ
事前知識データ(事前知識情報)は、トピックに関係する単語を示すデータである。言い換えると、事前知識データは、一つのトピックに関係する単語同士が一つの単語クラスターに属するように、単語を分類するために用いられる。このように、利用者の指向性に合わせて、単語がどの単語クラスターに属するかを示す情報が事前に与えられている。
【0153】
図11(a)に一例として示すように、事前知識データ221は、単語クラスター222、223、224から構成されている。単語クラスター222は、単語「国会」、「審議」、「法律」を含む。単語クラスター223は、単語「オリンピック」、「競技場」を含む。単語クラスター224は、単語「経済」、「金利」を含む。
【0154】
事前知識データ221においては、データ形式として、JSON形式が利用され、単語クラスター毎に事前に登録すべき単語が記述されている。
【0155】
事前知識データは、予め、利用者により生成される。生成された事前知識データは、利用者の操作指示により、記憶回路104に格納される。
【0156】
単語クラスター生成部123は、記憶回路104に格納された事前知識データを用いて、文書に含まれる単語を分類して、複数の単語クラスターを生成する。
【0157】
図11(a)に示す事前知識データ221を用いて説明する。
【0158】
単語クラスター生成部123は、文書内に、単語クラスター222に含まれる単語「国会」、「審議」、「法律」が含まれる場合、文書は、単語クラスター222に該当すると判断する。また、単語クラスター生成部123は、文書内に、単語クラスター223に含まれる単語「オリンピック」、「競技場」が含まれる場合、文書は、単語クラスター223に該当すると判断する。また、単語クラスター生成部123は、文書内に、単語クラスター224に含まれる単語「経済」、「金利」が含まれる場合、文書は、単語クラスター224に該当すると判断する。
【0159】
このように、予めトピックに関係する単語を示す事前知識データを準備しておき、事前知識データを教師データとして用いて、文書に含まれる単語から、単語クラスターを逐次的に生成することが可能となる。
【0160】
具体的には、会議議事録の文書に対する要約を要求する利用者が、対象となる会議に参加していた場合、利用者の指向性に合わせて重要度の高いと考える単語を予め事前知識として単語クラスターを与えておくことにより、生成される要約書を利用者が意図する要約に近づけることが可能である。
【0161】
1.10 単語クラスターの数
キーボード108により、利用者から、生成すべき単語クラスターの数の指定を受け付けるとしてもよい。キーボード108は、受け付けた単語クラスターの数を、入出力回路105を介して、統括制御部110に対して、出力する。
【0162】
単語処理部112は、統括制御部110から、単語クラスターの数を受け取る。単語クラスター生成部123は、指定された数の単語クラスターを生成する。
【0163】
単語クラスターの数を利用者が指定できるのは、例えば、次のような場合である。
【0164】
要約対象となる会議に参加した利用者が、情報処理装置10に対して、要約を要求する際、予め明確に単語クラスターの数を指定できる場合がある。具体的には、会議開始時に予めアジェンダが決められており、その議題に沿って会議が進行されている場合である。例えば、一例として、チーム内のブレインストーミングが実施され、(a)医療関係のアイデアについて一定時間議論し、次に、(b)建築関係のアイデアが議論され、最後に、(b)オフィスソリューションに関しての議題について議論されるような場合である。このような場合、(a)、(b)、(c)のそれぞれのトピックに出てくる単語は大きく異なる為、3個の単語クラスターを利用者が予め指定することができる。情報処理装置10は、指定された数の単語クラスターを生成する。
【0165】
1.11 外れ値の単語
記憶回路104は、予め、利用者が所望する話題とは関係しない単語を示す(つまり、利用者の所望する話題に関係するどの単語とも類似しない単語を示す)外れ値データ(外れ値情報)を記憶していてもよい。この場合、単語クラスター生成部123は、文書に含まれる単語を分類する際に、外れ値データにより示される単語を除外する。
【0166】
図11(b)に示す外れ値データ231は、一例として、「お疲れ様」、「アジェンダ」を含む。単語クラスター生成部123は、文書に含まれる単語を分類する際に、外れ値データにより示される単語「お疲れ様」、「アジェンダ」を除外する。
【0167】
このような単語が出現するケースとして、会議内で定型的に出現する文章「本日のアジェンダは以下の通りです。」、「以上で会議を終了いたします。お疲れ様でした。」等である。「本日のアジェンダは以下の通りです。」のうちの、単語「アジェンダ」、「以上で会議を終了いたします。お疲れ様でした。」のうちの、単語「お疲れ様」等は、会議のトピックとは、無関係であると考えられ、分類から除外されることが適切である。
【0168】
このように、関係性のある単語同士が一つの単語クラスターに属するように、文書内の単語を分類する場合、文書内に存在するどの単語とも類似しない単語に関しては、外れ値とし、考慮しない判断をしてもよい。
【0169】
1.12 単語クラスターを継承するか否か
複数回の会議において、連続して、一つのテーマが議論される場合がある。一例として、開発会議における週報会や定例会等である。このような場合、第1回の会議の内容を表した文書から生成した単語クラスターは、第2回の会議の内容を表した文書から単語クラスターを生成する際に、再び、利用することができる。
【0170】
このため、利用者の操作指示により、単語クラスター生成部123は、第1回の会議の内容を表した文書から生成した単語クラスターを、記憶回路104に書き込んで、保存しておく。
【0171】
この場合、クラスター推定部113により、推定された代表単語クラスターを記憶回路104に書き込む、としてもよい。
【0172】
利用者の操作指示により、単語クラスター生成部123は、第2回の会議の内容を表した文書から単語クラスターを生成する際に、記憶回路104に保存された第1回の会議の単語クラスターを利用してもよい。
【0173】
以前の会議により生成し、記憶している単語クラスターを利用することにより、以前の会議において重要度が高い単語クラスターを参考とすることができ、今回の会議において、より重要度の高い情報(要約文)を抽出することができる。
【0174】
また、キーボード108(受付手段)により、利用者から、削除すべき単語クラスターの指定を受け付けるとしてもよい。キーボード108は、受け付けた削除すべき単語クラスターの指定を、入出力回路105を介して、統括制御部110に対して、出力する。
【0175】
単語処理部112は、統括制御部110から、受け付けた削除すべき単語クラスターの指定を受け取る。単語クラスター生成部123は、記憶回路104から、指定された単語クラスターを削除する。
【0176】
単語クラスターの情報を削除するケースとして、単発的な会議の事例が挙げられる。ブレインストーミング、雑談会などのシチュエーションにおいては、当該会議のみで議論が完結する場合がある。このような場合、記憶回路104に記憶されている単語クラスターを、利用者の操作指示により、削除してもよい。
【0177】
また、連続的に実施される会議のうち、第1回の会議において、複数の単語クラスターが生成され、記憶回路104に記憶された場合、複数の単語クラスターのうち、利用者が明らかに、次の会議で利用できないと分かる単語クラスターについては、利用者の操作指示により、記憶回路104からその単語クラスターを削除してもよい。
【0178】
1.13 データ単位
単語クラスター生成部123は、複数の文書からなる言語データ全体、言語データに含まれる文書全体、文書に含まれる段落、文書に含まれる複数の文章、及び、文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を分類し、データ単位毎に、複数の単語クラスターを生成してもよい。データ単位は、トピックを決定する単位である。
【0179】
クラスター推定部113は、データ単位毎に、複数の単語クラスターから、代表単語クラスターを選択する。
【0180】
また、キーボード108(受付手段)により、利用者から、データ単位の指定を受け付けるとしてもよい。キーボード108は、受け付けたデータ単位の指定を、入出力回路105を介して、統括制御部110に対して、出力する。
【0181】
単語クラスター生成部123は、利用者から受け付けたデータ単位毎に単語を分類する。
【0182】
本実施の形態では、一つの会議の議論を対象に話題を分類するため、上述したように、データ単位を、指定した複数文単位又は一文単位としてもよい。また、急に再度、発生した議論を対応できるようにするため、一文ごとに文章をクラスター分類してもよい。
【0183】
また、要約部114は、データ単位毎に、当該データ単位から、当該データ単位の記載内容を代表する文章を、要約文として抽出してもよい。
【0184】
1.14 情報処理装置10における動作
情報処理装置10における動作について、フローチャートを用いて説明する。
【0185】
(1)情報処理装置10全体の概要動作
情報処理装置10全体の概要動作について、
図12に示すフローチャートを用いて説明する。
【0186】
統括制御部110は、利用者によるハイパーパラメーターの設定入力を待つ(ステップS101)。ハイパーパラメーターの設定が入力されなかった場合(ステップS102で「NO」)、統括制御部110は、制御をステップS101に移して、処理を繰り返す。
【0187】
ハイパーパラメーターの設定が入力された場合(ステップS102で「YES」)、統括制御部110は、設定データを参照する(ステップS103)。
【0188】
音声認識部111は、音声データから、音声認識により、変換したテキストデータを取得する(ステップS104)。
【0189】
形態素解析部121は、形態素解析を行なって、形態素を生成する(ステップS105)。
【0190】
品詞フィルタリング部122は、形態素から名詞句を抽出する(ステップS106)。
【0191】
単語クラスター生成部123は、単語クラスターを生成し、クラスター確率推定部124は、単語毎に確率を推定する(ステップS107)。
【0192】
クラスター推定部113は、データ単位毎に、複数の単語クラスターから代表単語クラスターを選択する(ステップS108)。
【0193】
要約部114は、各文書について、代表単語クラスター推定部125により選択された代表単語クラスターを用いて、要約書を生成する(ステップS109)。
【0194】
以上により、情報処理装置10における動作の説明を終了する。
【0195】
(2)設定データの参照の動作
設定データの参照の動作について、
図13に示すフローチャートを用いて説明する。
【0196】
なお、ここで説明する動作は、
図12のステップS103における手順の詳細である。
【0197】
統括制御部110は、利用者により設定された設定データ(ハイパーパラメーター)を参照する(ステップS131)。
【0198】
統括制御部110は、事前知識データが設定されているか否かを判断する(ステップS132)。事前知識データが設定されている場合(ステップS132で「YES」)、統括制御部110は、事前知識データを記憶回路104に書き込む(ステップS133)。
【0199】
次に、統括制御部110は、利用者により単語クラスターの数が設定されているか否かを判断する(ステップS134)。単語クラスターの数が設定されている場合(ステップS134で「YES」)、統括制御部110は、単語クラスターの数を記憶回路104に書き込む(ステップS135)。
【0200】
次に、統括制御部110は、データ単位を記憶回路104に書き込む(ステップS136)。
【0201】
以上により、設定データの参照の動作についての説明を終了する。
【0202】
(3)外れ値の処理
外れ値の処理について、
図14に示すフローチャートを用いて説明する。
【0203】
単語クラスター生成部123は、利用者により設定された設定データ(ハイパーパラメーター)を参照する(ステップS151)。
【0204】
次に、単語クラスター生成部123は、外れ値の単語が設定されているか否かを判断する(ステップS152)。外れ値の単語が設定されている場合(ステップS152で「YES」)、単語クラスター生成部123は、記憶回路104に記憶されている単語クラスターから、外れ値の単語の削除する(ステップS153)。
【0205】
以上により、外れ値の処理についての説明を終了する。
【0206】
(4)単語クラスターの継承処理
単語クラスターの継承処理について、
図15に示すフローチャートを用いて説明する。
【0207】
統括制御部110は、利用者により設定された設定データ(ハイパーパラメーター)を参照する(ステップS171)。
【0208】
次に、統括制御部110は、既に生成している単語クラスターを継承する設定がされているか否かを判断する(ステップS172)。継承する設定がされている場合(ステップS172で「YES」)、統括制御部110は、生成済みの単語クラスターの記憶回路104における保存状態を維持する(ステップS173)。継承する設定がされていない場合(ステップS172で「NO」)、統括制御部110は、記憶回路104に存在する単語クラスターを削除する。この場合、記憶回路104に存在する全ての単語クラスターを削除してもよいし、また、利用者から指定された単語クラスターのみを削除してもよい(ステップS174)。
【0209】
以上により、単語クラスターの継承処理についての説明を終了する。
【0210】
1.15 実施例(1)
上記の実施の形態においては、音声認識部111は、音声データに対して、音声認識処理を施して、テキストデータを生成している。
【0211】
しかし、この形態には、限定されない。
【0212】
本開示の一態様は、情報処理装置10とサーバー装置とから構成されるシステムであるとしてもよい。情報処理装置10とサーバー装置とは、ネットワークを介して、接続されている。サーバー装置は、クラウドサービスの一つとしての音声認識処理を提供する。つまり、サーバー装置は、音声データを受信し、受信した音声データをテキストデータに変換して文書を生成する。
【0213】
情報処理装置10は、サーバー装置が提供する音声認識処理を利用してもよい。
【0214】
情報処理装置10は、ネットワークを介して、サーバー装置に接続されているネットワーク通信回路を備えている。ネットワーク通信回路は、統括制御部110の制御により、音声データをサーバー装置に送信し、音声データに対する音声認識処理をサーバー装置に依頼する。
【0215】
サーバー装置は、ネットワーク通信回路(通信手段)と音声認識回路(音声認識手段)を備えている。サーバー装置の音声認識回路は、情報処理装置10の音声認識部111と同様の構成を有している。
【0216】
サーバー装置のネットワーク通信回路は、情報処理装置10から、ネットワークを介して、音声データと共に、音声データに対する音声認識処理の依頼を受信する。依頼とともに、音声データを受信すると、音声認識回路は、受信した音声データをテキストデータに変換し、テキストデータからなる文書を生成する。サーバー装置のネットワーク通信回路は、生成した文書を、ネットワークを介して、情報処理装置10に対して送信する。
【0217】
情報処理装置10のネットワーク通信回路は、サーバー装置から、文書を受信し、受信した文書を記憶回路104に書き込む。
【0218】
1.16 実施例(2)
情報処理装置10の形態素解析部121は、公知の形態素解析手法を使用してもよい。形態素解析部121は、例えば、公知のMeCab、JUMAN、KyTea及びChaSenの何れかを使用してもよい。
【0219】
1.17 実施例(3)
単語クラスター生成部123及びクラスター確率推定部124は、各種の公知の自然言語処理技術を利用してよい。例えば、テキストデータ中に登場する単語から当該テキストデータの潜在トピックを推定する手法として、LDA等が挙げられる。LDAは、テキストデータが複数のトピックを有することを前提とした、文書分類モデルである。この手法は、対象となるテキストデータのみから単語の出現頻度、位置関係を逐次的に学習することで、潜在トピックを推定する。
【0220】
なお、潜在トピックとは、話題ごとにクラスターリングした重要単語の集合であり、当該単語ごとにどれだけトピックに属する可能性が高いかを示す、トピック確率(単に、確率)を持っている。当該潜在トピックを利用し、文章を潜在トピックごとに分類する。
【0221】
これにより、単語クラスター生成部123は、複数の単語クラスターを生成する。単語クラスターは、トピックを構成し得る要素として、単語をクラスターリングした単語集合である。
【0222】
また、クラスター確率推定部124は、それらクラスターリングした単語それぞれに対しトピックに属する確率を得る。
【0223】
1.18 実施例(4)
要約部114は、各種の公知の自然言語処理技術を利用してもよい。
【0224】
例えば、テキストデータ中に登場する単語から当該テキストデータの重要となり得る文をスコアリングすることにより重要文を抽出する手法として、LexRank等が挙げられる。
【0225】
LexRankを適用する際に、代表単語クラスターに含まれる単語について、テキストデータに出現する単語の類似度をグラフ表現で固有ベクトル中心性を算出し、テキスト単位の相対的な重要度を算出する。つまり、他の文でよく出現し、重要な単語に類似している単語が重要だと見なされ、それら重要単語が出現する文は重要だと考えることができる。
【0226】
この方法により要約書を生成することにより、その単語クラスターにより特徴づける要約文を得ることができる。
【0227】
1.19 実施例(5)
単語クラスターの生成の対象となる文書から、データ単位毎に、複数の単語クラスターが生成される場合がある。
【0228】
一つのデータ単位に、元々、複数のトピックが含まれる場合には、当該データ単位から、複数の単語クラスターが生成される。
【0229】
また、複数の単語クラスター同士が類似している場合には、一つのデータ単位から、複数の単語クラスターが生成される。例えば、脳神経科学に関連する単語クラスターと、AIに関連する単語クラスターのような場合である。両単語クラスターに属する単語には、同じものが含まれる可能性が高く、脳神経科学に関連する単語クラスターと、AIに関連する単語クラスターとでは、単語クラスター同士が類似している、と言える。
【0230】
1.20 実施例(6)
文書から要約文を生成する前に、要約文のデータ量(つまり、要約文の文字量)を利用者が指定できるとしてもよい。つまり、統括制御部110は、利用者の操作指示により、キーボード108から、入出力回路105を介して、要約文のデータ量を受け取ることができる。
【0231】
要約部114は、指定された要約文のデータ量の範囲内で、要約文を生成する。
【0232】
例えば、要約部114は、当初、5個の文章からなり、500文字の要約文を生成した場合、文字量として、300文字が利用者により、指定されていれば、5個の文章のうち、1個の文章を削除する。要約部114は、1個の文章を削除した後の、要約文の文字数を計数する。削除後の要約文の文字数が300文字以内であれば、要約部114は、1個の文章を削除した後の要約文を確定する。一方、削除後の要約文の文字数が300文字を超える場合、さらに、1個の文章を削除する。このように、削除後の要約文の文字数が利用者により指定された300文字以内となるまで、上記の処理を繰り返す。
【0233】
このように、要約文のデータ量を利用者が適切に指定することにより、要約文のデータ量が多過ぎて、簡潔であるべき要約としての役割を果たさない状況や、要約文のデータ量が少な過ぎて、要約文では、議論の要点が理解できないような状況を抑制することができる。
【0234】
なお、統括制御部110は、利用者の操作指示により、キーボード108から、入出力回路105を介して、要約文の文章(センテンス)の数を受け取る、としてもよい。この場合、要約部114は、指定された文章の数の範囲内で、要約文を生成する。
【0235】
この場合にも、要約部114は、上記と同様に、文章の数が利用者により指定された数を超える場合、利用者により指定された数以下となるまで、要約文中の文章の削除を繰り返す。
【0236】
1.21 実施例(7)
単語処理部112は、上述したように、複数の文書からなる言語データ全体、言語データに含まれる文書全体、文書に含まれる段落、文書に含まれる複数の文章、及び、文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎にデータ単位に含まれる単語を分類してもよい。
【0237】
クラスター推定部113(選択手段)は、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定するクラスター分析部(分析手段)を含む、としてもよい。
【0238】
また、クラスター分析部は、代表単語クラスター毎に、当該代表単語クラスターに該当するデータ単位の数又は量を集計し、代表単語クラスター毎の集計値に応じて、代表単語クラスターの重要度を決定してもよい。
【0239】
また、クラスター分析部は、一つの代表単語クラスターの集計値が所定値を超える場合、当該代表単語クラスターの重要度を、所定の最大値に設定してもよい。
【0240】
(1)例えば、代表単語クラスターaに該当するデータ単位が8個存在し、代表単語クラスターbに該当するデータ単位が4個存在し、代表単語クラスターcに該当するデータ単位が2個存在する場合、クラスター分析部は、代表単語クラスターa、b、cについて、代表単語クラスターaの重要度>代表単語クラスターbの重要度>代表単語クラスターcの重要度のように、各代表単語クラスターの重要度を設定してもよい。
【0241】
つまり、クラスター分析部は、代表単語クラスターに該当するデータ単位の数に応じて、当該代表単語クラスターの重要度を設定してもよい。この場合、データ単位の数が多いほど、代表単語クラスターの重要度を高く設定し、データ単位の数が少ないほど、代表単語クラスターの重要度を低く設定する。
【0242】
このようにして代表単語クラスター毎に、設定された重要度は、利用者に提示されてもよい。つまり、クラスター分析部は、統括制御部110、入出力回路105を介して、モニター107に、代表単語クラスター毎に、設定された重要度を出力する。モニター107は、代表単語クラスター毎に、設定された重要度を出力する。
【0243】
(2)クラスター分析部により、ある代表単語クラスターについて、低い重要度が設定された場合であっても、利用者にとって、その代表単語クラスターについて、重要度が高いと判断した際、その代表単語クラスターの重要度を高く設定してもよい。
【0244】
逆に、クラスター分析部により、ある代表単語クラスターについて、高い重要度が設定された場合であっても、利用者にとって、その代表単語クラスターについて、重要度が低いと判断した際、その代表単語クラスターの重要度を低く設定してもよい。
【0245】
このように、利用者の意図に従って、代表単語クラスターの重要度は、変更できるとしてもよい。
【0246】
統括制御部110は、利用者の操作指示により、キーボード108から、入出力回路105を介して、代表単語クラスターの重要度の変更を受け付ける、としてもよい。
【0247】
クラスター分析部は、代表単語クラスターの重要度を、利用者の操作指示により受け付けた重要度に変更する。
【0248】
(1)の事例の場合、利用者が代表単語クラスターcの重要度が最も高いと判断した場合、クラスター分析部は、代表単語クラスターa、b、cについて、代表単語クラスターcの重要度>代表単語クラスターaの重要度>代表単語クラスターbの重要度のように、各代表単語クラスターの重要度の設定を変更する。
【0249】
このようにして、各代表単語クラスターの重要度を、利用者の意図した重要度に変更し、その結果、利用者の意図を反映した、より適切な代表単語クラスターを選択することができる。
【0250】
(3)代表単語クラスターの重要度に応じて、実施例(6)において説明した要約文のデータ量又は文章の数を可変にしてもよい。つまり、要約部114は、決定された重要度に応じて、要約文のデータ量を可変としてもよい。ここで、要約部114は、要約文に含まれる文字量又は要約文に含まれる文章数を可変としてもよい。
【0251】
例えば、代表単語クラスターの重要度が高い場合、要約文のデータ量又は文章の数を多くし、代表単語クラスターの重要度が低い場合、要約文のデータ量又は文章の数を少なくしてもよい。
【0252】
(1)の事例の場合のように、代表単語クラスターaの重要度>代表単語クラスターbの重要度>代表単語クラスターcの重要度のように、各代表単語クラスターの重要度を設定した場合、代表単語クラスターaの要約文は、4センテンスとし、代表単語クラスターbの要約文は、2センテンスとし、代表単語クラスターcの要約文は、1センテンスとする。
【0253】
このように、代表単語クラスターの重要度によって、要約文のデータ量又は文章の数を可変にするのは、主要な代表単語クラスターが持つ情報量は多いので、このような代表単語クラスターに関して、利用者が得たいと意図する情報(要約文)を提供できる可能性を高くするためである。
【0254】
1.22 実施例(8)
上述したように、単語クラスター生成部123は、複数の文書からなる言語データ全体、言語データに含まれる文書全体、文書に含まれる段落、文書に含まれる複数の文章、及び、文書に含まれる一つの文章の何れかをデータ単位とする。ここでは、文書全体及び文書に含まれる段落をそれぞれデータ単位とする場合について、具体的に説明する。
【0255】
(1)文書全体をデータ単位とする場合
文書全体をデータ単位とする場合について、
図16を用いて説明する。
【0256】
この図に示すように、複数の文書301、302、303、304、305からなる言語データが要約生成の対象であるとする。また、クラスター推定部113により、複数の文書301、302、303、304、305について、それぞれ、「政治」、「スポーツ」、「経済」、「政治」、「経済」をトピックとする代表単語クラスターが選択されているとする。
【0257】
この場合には、二つの文書301及び304について、それぞれ、「政治」をトピックとすることが推定されているので、要約部114は、文書301及び304から、一つの要約文を生成してもよい。この場合、生成される要約文は、一つ又は複数の文章からなる。
【0258】
このように、複数の文書について、同一のトピックを有することが推定される場合、これらの複数の文書から一つの要約文を生成するので、生成される要約文は、同一のトピックを有する複数の文書の内容を簡潔に代表する適切なものとすることができる。
【0259】
情報処理装置10(要約生成装置)は、複数の文書からなる言語データから要約文を生成してもよい。クラスター推定部113は、複数の文書の各々について、複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択してもよい。要約部114は、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、複数の話題文書から、代表単語クラスターに基づいて、要約文を生成してもよい。
【0260】
(2)文書に含まれる段落をデータ単位とする場合
文書に含まれる段落をデータ単位とする場合について、
図17を用いて説明する。
【0261】
この図に示すように、複数の文書311、321、331からなる言語データが要約生成の対象であるとする。また、文書311は、複数の段落312、313、314、315、316から構成され、文書321は、複数の段落322、323、324、325、326から構成され、文書331は、複数の段落332、333、334、335、336から構成されている、とする。
【0262】
ここで、クラスター推定部113により、文書311の段落312、313、314、315、316について、それぞれ、「政治」、「経済」、「経済」、「政治」、「経済」をトピックとする代表単位クラスターが選択されているとする。
【0263】
また、クラスター推定部113により、文書321の段落322、323、324、325、326について、それぞれ、「スポーツ」、「経済」、「スポーツ」、「経済」、「スポーツ」をトピックとする代表単位クラスターが選択されているとする。
【0264】
さらに、クラスター推定部113により、文書331の段落332、333、334、335、336について、それぞれ、「経済」、「経済」、「政治」、「経済」、「スポーツ」をトピックとする代表単位クラスターが選択されているとする。
【0265】
この場合には、文書311の段落312及び315並びに文書331の段落334について、それぞれ、「政治」をトピックとすることが推定されているので、要約部114は、文書311の段落312及び315並びに文書331の段落334から、一つの要約文を生成してもよい。この場合、生成される要約文は、一つ又は複数の文章からなる。
【0266】
このように、それぞれ複数の段落を含む複数の文書について、同一のトピックを有することが推定される段落が複数存在する場合、これらの複数の段落から一つの要約文を生成するので、生成される要約文は、同一のトピックを有する複数の段落の内容を簡潔に代表する適切なものとすることができる。
【0267】
なお、複数の段落を含む一つの文書ついて、同一のトピックを有することが推定される段落が複数存在する場合、これらの複数の段落から一つの要約文を生成してもよい。
【0268】
単語処理部112は、データ単位毎に、当該データ単位に含まれる単語を分類して、データ単位毎に、複数の単語クラスターを生成してもよい。クラスター推定部113は、データ単位毎に、複数の単語クラスターから、代表単語クラスターを選択してもよい。
【0269】
上述したように、要約部114は、複数のデータ単位から、要約文を抽出してもよい。
【0270】
また、要約部114は、複数の文書の複数のデータ単位から、要約文を抽出してもよい。
【0271】
1.23 まとめ
以上説明したように、生成された複数の単語クラスターから、クラスター推定部113により、文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択することにより、代表単語クラスターを用いて、代表話題を表した要約文を生成することができる。
【産業上の利用可能性】
【0272】
本開示にかかる要約生成装置は、代表話題を表した要約文を生成することができるという効果を奏し、文書を要約する技術として、有用である。
【符号の説明】
【0273】
10 情報処理装置
100 本体装置
101 CPU
102 ROM
103 RAM
104 記憶回路
105 入出力回路
106 制御部
107 モニター
108 キーボード
109 マウス
110 統括制御部
111 音声認識部
112 単語処理部
113 クラスター推定部
114 要約部
121 形態素解析部
122 品詞フィルタリング部
123 単語クラスター生成部
124 クラスター確率推定部
125 代表単語クラスター推定部