特許7593043 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ コニカミノルタ株式会社の特許一覧

特許7593043要約生成装置、制御方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-25

(45)【発行日】2024-12-03

(54)【発明の名称】要約生成装置、制御方法及びシステム

(51)【国際特許分類】

G06F 16/35 20190101AFI20241126BHJP

【ＦＩ】

G06F16/35

【請求項の数】 19

(21)【出願番号】P 2020172358

(22)【出願日】2020-10-13

(65)【公開番号】P2022063939

(43)【公開日】2022-04-25

【審査請求日】2023-06-27

(73)【特許権者】

【識別番号】000001270

【氏名又は名称】コニカミノルタ株式会社

(74)【代理人】

【識別番号】110001900

【氏名又は名称】弁理士法人ナカジマ知的財産綜合事務所

(72)【発明者】

【氏名】桑原崇

【審査官】松尾真人

(56)【参考文献】

【文献】米国特許出願公開第２０１３／０２７３９７６（ＵＳ，Ａ１）

【文献】特開２００２－２４５０６１（ＪＰ，Ａ）

【文献】特開２０１２－２０３４６０（ＪＰ，Ａ）

【文献】中国特許出願公開第１０５３２０６４２（ＣＮ，Ａ）

【文献】特表２０１９－５１４１２０（ＪＰ，Ａ）

【文献】韓国公開特許第１０－２０２０－０１１４２１４（ＫＲ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ４０／２０－４０／５８

(57)【特許請求の範囲】

【請求項1】

言語データから要約文を生成する要約生成装置であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、
を備え、
前記生成手段は、決定された重要度に応じて、要約文のデータ量を可変とする
ことを特徴とする要約生成装置。

【請求項2】

言語データから要約文を生成する要約生成装置であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と
を備え、
前記言語データは、複数の文書からなり、
前記選択手段は、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、
前記生成手段は、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成する
ことを特徴とする要約生成装置。

【請求項3】

前記選択手段は、単語クラスター毎に、前記言語データに含まれる複数の単語の各々について推定された確率を、総和又は総乗して、当該単語クラスターにより前記言語データの記載内容を代表することの尤もらしさを示す指標値を算出し、複数の単語クラスターについて算出された複数の指標値を比較することにより、前記代表単語クラスターを選択する
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項4】

前記単語処理手段は、
前記言語データを形態素解析して、複数の形態素を生成し、各形態素の品詞を推定する形態素解析手段と、
前記形態素解析手段により生成された複数の形態素から、名詞である単語を抽出する品詞フィルタリング手段と、
抽出された前記単語を分類して、前記複数の単語クラスターを生成する単語クラスター生成手段と、
生成された前記複数の単語クラスターの各々に属する各単語の前記確率を推定する確率推定手段と
を備えることを特徴とする請求項１または２に記載の要約生成装置。

【請求項5】

前記単語クラスター生成手段は、前記言語データ内における単語と単語との位置関係を求め、単語毎に、前記品詞フィルタリング手段により抽出された単語の出現頻度を集計し、求められた位置関係及び集計された出現頻度を用いて、前記複数の単語クラスターを生成する
ことを特徴とする請求項４に記載の要約生成装置。

【請求項6】

さらに、音声データを変換して前記言語データを生成する音声認識手段を備え、
前記単語処理手段は、生成された前記言語データから前記複数の単語クラスターを生成する
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項7】

さらに、予め、一の話題に関係する単語を示す事前知識情報を記憶している記憶手段を備え、
前記単語処理手段は、前記事前知識情報を用いて、前記言語データに含まれる単語を話題ごとに集める
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項8】

さらに、利用者から、生成すべき単語クラスターの数の指定を受け付ける受付手段を備え、
前記単語処理手段は、指定された数の単語クラスターを生成する
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項9】

さらに、予め、利用者が所望する話題とは関係しない単語を示す外れ値情報を記憶している記憶手段を備え、
前記単語処理手段は、前記言語データに含まれる単語を話題ごとに集める際に、外れ値情報により示される単語を除外する
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項10】

前記言語データは、複数の文書からなり、
前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、
前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択する
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項11】

さらに、利用者から、前記データ単位の指定を受け付ける受付手段を備え、
前記単語処理手段は、利用者から受け付けたデータ単位毎に、単語を集める
ことを特徴とする請求項１０に記載の要約生成装置。

【請求項12】

前記生成手段は、データ単位毎に、当該データ単位から前記要約文を生成する
ことを特徴とする請求項１０に記載の要約生成装置。

【請求項13】

言語データから要約文を生成する要約生成装置であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、
表示手段と、
利用者から、入力を受け付ける受付手段と、を備え、
前記表示手段は、代表単語クラスター毎に、決定した前記重要度を表示し、
前記受付手段は、代表単語クラスター毎に、利用者から、重要度の変更を受け付け、
前記分析手段は、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、
前記生成手段は、前記重要度に応じて、要約文のデータ量又は文書の数を可変とする
ことを特徴とする要約生成装置。

【請求項14】

前記選択手段により選択された前記代表単語クラスターの数は、前記単語処理手段により生成された複数の単語クラスターの数より少ない
ことを特徴とする請求項１または２に記載の要約生成装置。

【請求項15】

前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、
前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択し、
前記生成手段は、前記複数の話題文書内の複数のデータ単位から、前記要約文を生成する
ことを特徴とする請求項２に記載の要約生成装置。

【請求項16】

請求項１、２または１３に記載の要約生成装置及び音声データから言語データを生成するサーバー装置から構成されるシステムであって、
前記サーバー装置は、
音声データを受信し、受信した前記音声データから生成した言語データを前記要約生成装置に対して送信する通信手段と、
受信した前記音声データを変換して前記言語データを生成する音声認識手段と
を備えることを特徴とするシステム。

【請求項17】

言語データから要約文を生成する要約生成装置において用いられる制御方法であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、を含み、
前記生成ステップは、決定された重要度に応じて、要約文のデータ量を可変とする
ことを特徴とする制御方法。

【請求項18】

言語データから要約文を生成する要約生成装置において用いられる制御方法であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと
を含み、
前記言語データは、複数の文書からなり、
前記選択ステップは、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、
前記生成ステップは、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成する
ことを特徴とする制御方法。

【請求項19】

言語データから要約文を生成する要約生成装置において用いられる制御方法であって、
前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、
前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、
前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、
代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、
代表単語クラスター毎に、決定した前記重要度を表示するステップと、
代表単語クラスター毎に、利用者から、重要度の変更を受け付けるステップと、
を含み、
前記分析ステップは、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、
前記生成ステップは、前記重要度に応じて、要約文のデータ量又は文書の数を可変とする
ことを特徴とする制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、文書を要約する技術に関する。

【背景技術】

【0002】

一般に多くの企業等では、人手で作成したメモを参照し、文書エディターを用いて打合せや会議の議事録を作成している。

【0003】

これに対して、人手により議事録を作成する工数を削減するため、音声認識技術を用いて、会議の議事中に発せられた音声を認識し、自動的に一語一句を文字起こしする議事録作成システムが提案されている。さらに、文字起こしして得られた文書に対し、文書構造解析処理を施すことにより、文書を要約する技術が提案されている。

【0004】

これらの要約生成手法として、公知の自然言語処理の要約技術（例えば、非特許文献１参照）が利用されている。これらの要約技術では、要約対象の文書に含まれる頻出単語を検出し、要約対象の文書から、頻出単語を多く含む文章を、要約文として抽出する。

【先行技術文献】

【非特許文献】

【0005】

【文献】Gunes Erkan外、LexRank: Graph-based Lexical Centrality as Salience in Text Summarization、インターネット<URL:https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume22/erkan04a-html/erkan04a.html>

【発明の概要】

【発明が解決しようとする課題】

【0006】

非特許文献１等の公知の要約技術によると、頻出単語を多く含む文章を要約文として抽出するので、頻出単語が文書の記載内容を代表する話題とは関係が少ない単語である場合、抽出された要約文は、代表話題を表したものではなくなるという問題がある。

【0007】

本開示は、このような問題を解決し、代表話題を表した要約文を生成することができる要約生成装置、制御方法及びシステムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するため、本開示の一態様は、言語データから要約文を生成する要約生成装置であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、を備え、前記生成手段は、決定された重要度に応じて、要約文のデータ量を可変とすることを特徴とする。

【0010】

ここで、前記選択手段は、単語クラスター毎に、前記言語データに含まれる複数の単語の各々について推定された確率を、総和又は総乗して、当該単語クラスターにより前記言語データの記載内容を代表することの尤もらしさを示す指標値を算出し、複数の単語クラスターについて算出された複数の指標値を比較することにより、前記代表単語クラスターを選択してもよい。

【0011】

ここで、前記単語処理手段は、前記言語データを形態素解析して、複数の形態素を生成し、各形態素の品詞を推定する形態素解析手段と、前記形態素解析手段により生成された複数の形態素から、名詞である単語を抽出する品詞フィルタリング手段と、抽出された前記単語を分類して、前記複数の単語クラスターを生成する単語クラスター生成手段と、生成された前記複数の単語クラスターの各々に属する各単語の前記確率を推定する確率推定手段とを備えるとしてもよい。

【0012】

ここで、前記単語クラスター生成手段は、前記言語データ内における単語と単語との位置関係を求め、単語毎に、前記品詞フィルタリング手段により抽出された単語の出現頻度を集計し、求められた位置関係及び集計された出現頻度を用いて、前記複数の単語クラスターを生成し、前記確率推定手段は、求められた位置関係及び集計された出現頻度を用いて、各単語の確率を推定してもよい。

【0013】

ここで、さらに、音声データを変換して前記言語データを生成する音声認識手段を備え、前記単語処理手段は、生成された前記言語データから前記複数の単語クラスターを生成してもよい。

【0014】

ここで、さらに、予め、一の話題に関係する単語を示す事前知識情報を記憶している記憶手段を備え、前記単語処理手段は、前記事前知識情報を用いて、前記言語データに含まれる単語を話題ごとに集めるとしてもよい。

【0015】

ここで、さらに、利用者から、生成すべき単語クラスターの数の指定を受け付ける受付手段を備え、前記単語処理手段は、指定された数の単語クラスターを生成してもよい。

【0016】

ここで、さらに、予め、利用者が所望する話題とは関係しない単語を示す外れ値情報を記憶している記憶手段を備え、前記単語処理手段は、前記言語データに含まれる単語を話題ごとに集める際に、外れ値情報により示される単語を除外してもよい。

【0017】

ここで、前記言語データは、複数の文書からなり、前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択してもよい。

【0018】

ここで、さらに、利用者から、前記データ単位の指定を受け付ける受付手段を備え、前記単語処理手段は、利用者から受け付けたデータ単位毎に、単語を集めるとしてもよい。

【0019】

ここで、前記生成手段は、データ単位毎に、当該データ単位から前記要約文を生成してもよい。

【0020】

ここで、さらに、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段を備えるとしてもよい。

【0021】

ここで、前記生成手段は、決定された重要度に応じて、要約文のデータ量を可変としてもよい。

【0022】

本開示の別の一態様は、言語データから要約文を生成する要約生成装置であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理手段と、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択手段と、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成手段と、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析手段と、表示手段と、利用者から、入力を受け付ける受付手段と、を備え、前記表示手段は、代表単語クラスター毎に、決定した前記重要度を表示し、前記受付手段は、代表単語クラスター毎に、利用者から、重要度の変更を受け付け、前記分析手段は、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、前記生成手段は、前記重要度に応じて、要約文のデータ量又は文書の数を可変とすることを特徴とする。

【0023】

ここで、前記選択手段により選択された前記代表単語クラスターの数は、前記単語処理手段により生成された複数の単語クラスターの数より少ない、としてもよい。

【0024】

ここで、前記言語データは、複数の文書からなり、前記選択手段は、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、前記生成手段は、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成してもよい。

【0025】

ここで、前記単語処理手段は、前記言語データ全体、前記言語データに含まれる文書、前記文書に含まれる段落、前記文書に含まれる複数の文章、及び、前記文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を話題ごとに集めて、データ単位毎に、前記複数の単語クラスターを生成し、前記選択手段は、データ単位毎に、前記複数の単語クラスターから、前記代表単語クラスターを選択し、前記生成手段は、前記複数の話題文書内の複数のデータ単位から、前記要約文を生成してもよい。

【0026】

また、本開示の一態様は、上記要約生成装置及び音声データから言語データを生成するサーバー装置から構成されるシステムであって、前記サーバー装置は、音声データを受信し、受信した前記音声データから生成した言語データを前記要約生成装置に対して送信する通信手段と、受信した前記音声データを変換して前記言語データを生成する音声認識手段とを備えることを特徴とする。

【0027】

また、本開示の一態様は、言語データから要約文を生成する要約生成装置において用いられる制御方法であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、を含み、前記生成ステップは、決定された重要度に応じて、要約文のデータ量を可変とすることを特徴とする。
本開示の別の一態様は、言語データから要約文を生成する要約生成装置において用いられる制御方法であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップとを含み、前記言語データは、複数の文書からなり、前記選択ステップは、前記複数の文書の各々について、前記複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択し、前記生成ステップは、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、前記複数の話題文書から、前記代表単語クラスターに基づいて、要約文を生成することを特徴とする。
本開示のさらに別の一態様は、言語データから要約文を生成する要約生成装置において用いられる制御方法であって、前記言語データに含まれる複数の単語から、複数の話題を推定し、それぞれの話題ごとに、その話題に関係する可能性を有する複数の単語を集めた単語クラスターを生成し、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示す確率を推定する単語処理ステップと、前記複数の単語クラスターの各々について推定された各単語の確率を用いて、前記複数の単語クラスターから、前記言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する選択ステップと、前記言語データから、前記代表単語クラスターに基づいて、要約文を生成する生成ステップと、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定する分析ステップと、代表単語クラスター毎に、決定した前記重要度を表示するステップと、代表単語クラスター毎に、利用者から、重要度の変更を受け付けるステップと、を含み、前記分析ステップは、代表単語クラスターの重要度を、利用者により受け付けた重要度に変更し、前記生成ステップは、前記重要度に応じて、要約文のデータ量又は文書の数を可変とすることを特徴とする。

【発明の効果】

【0028】

上記の態様によると、複数の単語クラスターから、言語データの記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択することにより、代表単語クラスターに基づいて、代表話題を表した要約文を生成することができる。

【図面の簡単な説明】

【0029】

【図1】実施の形態に係る情報処理装置１０の外観を示す図である。

【図2】情報処理装置１０の本体装置１００の構成を示すブロック図である。

【図3】文書１５２ａの内容を示す。

【図4】名詞句データ１５３ａの内容を示す。

【図5】単語頻度行列１５４のデータ構造の一例を示す。

【図6】トピック毎の単語分布１５５ａ、１５５ｂ、１５５ｃ及び文書毎のトピック分布１５６ａ、１５６ｂ、１５６ｃを示す。

【図7】（ａ）～（ｃ）単語クラスター１５７ａ～１５７ｃの内容を示す。

【図8】クラスター確率データテーブル１５８ａの内容を示す。

【図9】要約文１９１の内容を示す。

【図10】情報処理装置１０のモニター１０７により表示される画面２０１を示す。

【図11】（ａ）事前知識データ２２１の内容を示す。（ｂ）外れ値データ２３１の内容を示す。

【図12】情報処理装置１０における動作を示すフローチャートである。

【図13】設定データの参照の動作を示すフローチャートである。

【図14】外れ値の処理の動作を示すフローチャートである。

【図15】単語クラスターの継承処理の動作を示すフローチャートである。

【図16】文書１（３０１）及び文書４（３０４）から要約書３０６を生成する様子を示す。

【図17】文書１（３１１）の２つの段落３１２、３１５及び文書３（３３１）の１つの段落３３４から要約書３４１を生成する様子を示す。

【発明を実施するための形態】

【0030】

１実施の形態
本開示の実施の形態としての情報処理装置１０について説明する。

【0031】

１．１情報処理装置１０
情報処理装置１０（要約生成装置）は、一般的なコンピューターシステム、例えば、パーソナルコンピューターである。情報処理装置１０は、文書から要約文を生成する。情報処理装置１０は、図１に示すように、本体装置１００に、モニター１０７、キーボード１０８及びマウス１０９が接続されて、構成されている。

【0032】

ここで、文書は、日本語、英語、フランス語等の言語により表現された新聞記事、文芸作品、論文、書籍等であって、一般的に、複数の章、複数の節、複数の段落から構成され、各章、各節、各段落は、複数の文章を含む。各文章は、複数の単語を並べて構成されている。情報処理装置１０による取り扱いを可能とするため、文書は、コンピューター読み取り可能な形式により表現及び保存されている。ここで、１又は複数の文書、１又は複数の章、１又は複数の節、１又は複数の段落、１又は複数の文章は、言語データである。特に、本明細書においては、複数の文書の集合体を、言語データと呼ぶ場合もある。なお、文書の内部に、図形、写真、グラフ等が含まれてもよいが、情報処理装置１０では、これらの図形、写真、グラフ等は、要約文生成の対象とはしない。

【0033】

１．２本体装置１００
本体装置１００は、図２に示すように、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、記憶回路１０４、入出力回路１０５等から構成されている。

【0034】

ＣＰＵ１０１、ＲＯＭ１０２及びＲＡＭ１０３は、制御部１０６を構成している。

【0035】

ＲＡＭ１０３は、各種の制御変数及び設定されたパラメーター等を記憶すると共に、ＣＰＵ１０１によるプログラム実行時のワークエリアを提供する。

【0036】

ＲＯＭ１０２には、本体装置１００における動作を実行させるための制御プログラム（コンピュータープログラム）などが格納されている。

【0037】

本体装置１００は、さらに、ハードディスクユニットを備え、ハードディスクユニットに、本体装置１００における動作を実行させるための制御プログラムなどが格納されている、としてもよい。

【0038】

ＣＰＵ１０１は、ＲＯＭ１０２又はハードディスクユニットに記憶されている制御プログラムに従って動作する。

【0039】

ＣＰＵ１０１が、制御プログラムに従って動作することにより、制御部１０６は、機能的に、統括制御部１１０、音声認識部１１１、単語処理部１１２、クラスター推定部１１３及び要約部１１４を構成する。単語処理部１１２（単語処理手段）は、形態素解析部１２１、品詞フィルタリング部１２２、単語クラスター生成部１２３及びクラスター確率推定部１２４を含む。また、クラスター推定部１１３は、代表単語クラスター推定部１２５を含む。

【0040】

統括制御部１１０は、音声認識部１１１、単語処理部１１２、クラスター推定部１１３及び要約部１１４等を統一的に制御する。

【0041】

また、統括制御部１１０は、キーボード１０８（受付手段）から、入出力回路１０５を介して、利用者の操作を受け取る。利用者の操作には、要約処理を開始する指示、各種パラメーターの設定等が含まれる。利用者の操作が、例えば、要約処理を開始する指示である場合、統括制御部１１０は、音声認識部１１１、単語処理部１１２、クラスター推定部１１３及び要約部１１４等を統一的に制御して、要約書を生成させる。

【0042】

入出力回路１０５は、キーボード１０８又はマウス１０９から入力信号を受け取り、受け取った入力信号を統括制御部１１０に対して出力する。また、入出力回路１０５は、統括制御部１１０から、表示のためのデータ、例えば、画面用のデータを受け取り、受け取ったデータをモニター１０７に出力して、モニター１０７に表示させる。

【0043】

記憶回路１０４、音声認識部１１１、単語処理部１１２、クラスター推定部１１３及び要約部１１４については、以下に説明する。

【0044】

１．３記憶回路１０４
記憶回路１０４（記憶手段）は、例えば、不揮発性の半導体メモリ等から構成されている。もちろん、記憶回路１０４は、ハードディスクから構成されている、としてもよい。

【0045】

記憶回路１０４は、音声データ１５１ａ、１５１ｂ、１５１ｃ、文書１５２ａ、１５２ｂ、１５２ｃ、名詞句データ１５３ａ、１５３ｂ、１５３ｃ、単語頻度行列１５４、トピック毎の単語分布１５５ａ、１５５ｂ、１５５ｃ、文書毎のトピック分布１５６ａ、１５６ｂ、１５６ｃ、単語クラスター１５７ａ、１５７ｂ、１５７ｃ、クラスター確率データテーブル１５８ａ、１５８ｂ、１５８ｃ、代表単語クラスター１５９及び要約書１６０を記憶するための領域を備えている。

【0046】

（１）音声データ１５１ａ、１５１ｂ、１５１ｃ
音声データ１５１ａ、１５１ｂ、１５１ｃは、それぞれ、別の会議の議事を録音した録音データである。音声データ１５１ａ、１５１ｂ、１５１ｃは、例えば、ＭＰ３（ＭＰＥＧ－１ＡｕｄｉｏＬａｙｅｒ－３）による音声ファイルフォーマットにより構成されている。

【0047】

（２）文書１５２ａ、１５２ｂ、１５２ｃ
文書１５２ａ、１５２ｂ、１５２ｃは、それぞれ、音声データ１５１ａ、１５１ｂ、１５１ｃに、音声認識部１１１により、音声認識処理を施して生成されたテキストデータから構成されている。

【0048】

文書１５２ａ、１５２ｂ、１５２ｃは、それぞれ、文書ＩＤ「Ｄ００１」、「Ｄ００２」、「Ｄ００３」により識別される。

【0049】

文書１５２ａの一例を図３に示す。この図に示すように、文書１５２ａは、複数の文章（センテンス）を含むテキストデータから構成されている。

【0050】

（３）名詞句データ１５３ａ、１５３ｂ、１５３ｃ
名詞句データ１５３ａ、１５３ｂ、１５３ｃは、それぞれ、文書１５２ａ、１５２ｂ、１５２ｃに含まれるテキストデータに、形態素解析部１２１及び品詞フィルタリング部１２２により、形態素解析及び品詞フィルタリングが施されて抽出された名詞句を含むデータである。名詞句データ１５３ａ、１５３ｂ、１５３ｃは、それぞれ、複数の名詞句を含んでいる。

【0051】

名詞句データ１５３ａの一例を図４に示す。この図に示すように、名詞句データ１５３ａは、文書１５２ａから抽出された複数の名詞句から構成されている。

【0052】

（４）単語頻度行列１５４
単語頻度行列１５４は、単語クラスター生成部１２３により、名詞句データ１５３ａ、１５３ｂ、１５３ｃに含まれる名詞句（以下、単語と呼ぶ。）毎に、その頻度を集計することにより得られたデータテーブルである。

【0053】

単語頻度行列１５４は、一例として、図５に示すように、文書ＩＤと単語頻度情報とからなる組を複数個、含み、各単語頻度情報は、文書に含まれる単語毎の頻度を含む。

【0054】

この図に示すように、例えば、文書ＩＤ「Ｄ００１」により識別される文書１５２ａから生成された名詞句データ１５３ａには、単語「国会」が５個含まれ、単語「審議」が４個含まれ、単語「オリンピック」は、含まれない。

【0055】

また、例えば、文書ＩＤ「Ｄ００２」により識別される文書１５２ｂから生成された名詞句データ１５３ｂには、単語「国会」が１個含まれ、単語「審議」が２個含まれ、単語「オリンピック」は、含まれない。

【0056】

さらに、例えば、文書ＩＤ「Ｄ００３」により識別される文書１５２ｃから生成された名詞句データ１５３ｃには、単語「国会」及び単語「審議」が含まれず、単語「オリンピック」は、７個含まれている。

【0057】

（５）トピック毎の単語分布１５５ａ、１５５ｂ、１５５ｃ
トピック（話題）毎の単語分布１５５ａ、１５５ｂ、１５５ｃは、それぞれ、単語クラスター生成部１２３により、トピック毎に、名詞句データ１５３ａ、１５３ｂ、１５３ｃから集計した単語頻度行列１５４及び各文書内の単語同士の位置関係を用いて、生成された単語の頻度の分布を示すデータテーブルである。なお、各文書内の単語同士の位置関係を用いた、トピックを抽出するための分類方法については、後述する。

【0058】

ここで、文書内の単語同士の位置関係とは、例えば、文書内の一つの文章に含まれる複数の単語の関係を言う。一つの文章に含まれる複数の単語同士は、一つのトピック（例えば、「政治」に関する話題）に関係しており、近い関係にあると言える。

【0059】

また、文書内の単語同士の位置関係とは、例えば、文書内において、一つの文章に含まれる単語と、その文章に連続して、その文章の前方向又は後方向に、配置される文章に含まれる単語との関係を言う。連続する二つの文章にそれぞれ含まれる単語同士も、一つのトピックに関係しており、近い関係にあると言える。

【0060】

例えば、単語分布１５５ａは、一つのトピック（例えば、「政治」に関する話題）について、名詞句データ１５３ａ、１５３ｂ、１５３ｃの全体から、そのトピックに関係する単語の頻度を、単語毎に集計したデータテーブルである。図６には、単語分布１５５ａを図的に示している。この図に示す単語分布１５５ａは、当該データテーブルに含まれる単語を横軸に配置し、各単語の頻度を縦軸に配置して、棒グラフにより表している。

【0061】

また、例えば、単語分布１５５ｂは、前記トピックとは異なる、他のトピック（例えば、「スポーツ」に関する話題）について、単語分布１５５ａと同様に、名詞句データ１５３ａ、１５３ｂ、１５３ｃの全体から、生成したデータテーブルである。図６には、単語分布１５５ｂを図的に示している。

【0062】

さらに、例えば、単語分布１５５ｃは、２つの前記トピックとは異なる、他のトピック（例えば、「経済」に関する話題）について、単語分布１５５ａと同様に、名詞句データ１５３ａ、１５３ｂ、１５３ｃの全体から、生成したデータテーブルである。図６には、単語分布１５５ｃを図的に示している。

【0063】

（６）文書毎のトピック分布１５６ａ、１５６ｂ、１５６ｃ
文書毎のトピック分布１５６ａ、１５６ｂ、１５６ｃは、クラスター推定部１１３により、それぞれ、文書１５２ａ、１５２ｂ、１５２ｃについて、名詞句データ１５３ａ、１５３ｂ、１５３ｃから、生成されたトピックの指標値（後述する）の分布を示すデータテーブルである。

【0064】

例えば、トピック分布１５６ａは、一つの文書１５２ａについて、名詞句データ１５３ａから、各トピックの指標値を、トピック毎に集計して得られたデータテーブルである。図６には、トピック分布１５６ａを図的に示している。この図に示すトピック分布１５６ａは、当該データテーブルに含まれるトピックを横軸に配置し、各トピックに属する単語の確率（後述する）を縦軸に配置して、棒グラフにより表している。

【0065】

また、例えば、トピック分布１５６ｂは、一つの文書１５２ｂについて、トピック分布１５６ａと同様に生成したデータテーブルである。図６には、トピック分布１５６ｂを図的に示している。

【0066】

さらに、例えば、トピック分布１５６ｃは、一つの文書１５２ｃについて、トピック分布１５６ａと同様に生成したデータテーブルである。図６には、トピック分布１５６ｃを図的に示している。

【0067】

（７）単語クラスター１５７ａ、１５７ｂ、１５７ｃ
単語クラスター１５７ａは、単語クラスター生成部１２３により、文書１５２ａについて、名詞句データ１５３ａから、名詞句データ１５３ａに現れる単語の頻度、及び、文書１５２ａ内における単語の位置関係に応じて、意味の上で似た、つまり、関係が近い単語同士（一つのトピックに関係する可能性を有する単語同士）を、一つのトピックとして、集めて生成した単語群である。

【0068】

単語クラスター１５７ａの一例を、図７（ａ）に示す。この図に示すように、単語クラスター１５７ａには、「国会」、「審議」、「内閣」、「選挙」等の単語が含まれている。

【0069】

また、単語クラスター１５７ｂは、単語クラスター１５７ａと同様に、単語クラスター生成部１２３により、文書１５２ａについて、名詞句データ１５３ａから、意味の上で似た、つまり、関係が近い単語同士を、一つのトピックとして、集めて生成した単語群である。

【0070】

単語クラスター１５７ｂの一例を、図７（ｂ）に示す。この図に示すように、単語クラスター１５７ｂには、「オリンピック」、「国立競技場」、「開催国」、「聖火」等の単語が含まれている。

【0071】

また、単語クラスター１５７ｃは、単語クラスター１５７ａと同様に、単語クラスター生成部１２３により、文書１５２ａについて、名詞句データ１５３ａから、意味の上で似た、つまり、関係が近い単語同士を、一つのトピックとして、集めて生成した単語群である。

【0072】

単語クラスター１５７ｃの一例を、図７（ｃ）に示す。この図に示すように、単語クラスター１５７ｃには、「景気」、「経済」、「国際収支」、「貿易」等の単語が含まれている。

【0073】

なお、上記においては、一つの文書から、３個の単語クラスターが生成される、としているが、これには、限定されない。一つの文書から、１個、２個、又は、４個以上の単語クラスターが生成される、としてもよい。

【0074】

また、文書１５２ｂ及び１５２ｃのそれぞれについても、上記と同様に、１個又は複数個の単語クラスターが生成される。

【0075】

（８）クラスター確率データテーブル１５８ａ、１５８ｂ、１５８ｃ
クラスター確率データテーブル１５８ａは、単語クラスター生成部１２３により、文書１５２ａについて、名詞句データ１５３ａから、名詞句データ１５３ａに現れる単語の頻度（つまり、単語頻度行列１５４に含まれる頻度）、及び、文書１５２ａ内における単語と単語の位置関係に応じて、調整して得られた各名詞句（単語）の確率を含んでいる。

【0076】

ここで、単語の確率は、各単語クラスターに属する各単語が、当該単語クラスターに対応する話題に属する可能性の高さを示している。

【0077】

図８に示すように、クラスター確率データテーブル１５８ａは、複数の確率情報を含み、各確率情報は、名詞句及び確率を含む。

【0078】

ここで、名詞句は、名詞句データ１５３ａに含まれる名詞句であり、確率は、当該名詞句の確率である。

【0079】

また、クラスター確率データテーブル１５８ｂは、クラスター確率データテーブル１５８ａと同様に、単語クラスター生成部１２３により、文書１５２ｂについて、名詞句データ１５３ｂから、生成された名詞句と確率とを対応付けて、構成されている。

【0080】

さらに、クラスター確率データテーブル１５８ｃは、クラスター確率データテーブル１５８ａと同様に、単語クラスター生成部１２３により、文書１５２ｃについて、名詞句データ１５３ｃから、生成された名詞句と確率とを対応付けて、構成されている。

【0081】

（９）代表単語クラスター１５９
代表単語クラスター１５９は、文書１５２ａについて、単語クラスター１５７ａ、１５７ｂ、１５７ｃのうちから、代表単語クラスター推定部１２５により、選択された一つの単語クラスターである。

【0082】

文書１５２ｂ、１５２ｃについても、それぞれ、代表単語クラスターが選択される。

【0083】

（１０）要約書１６０
要約書１６０は、文書１５２ａについて、要約部１１４により生成された要約文を含む要約書である。要約書１６０は、一つ又は複数の文章を含む。

【0084】

図９に一例として、文書１５２ａから抽出された要約文１９１を示す。

【0085】

文書１５２ｂ、１５２ｃについても、それぞれ、要約書が生成される。

【0086】

１．４音声認識部１１１
音声認識部１１１（音声認識手段）は、会議の議論等における発言内容（音声データ）をテキストデータに変換してテキストデータからなる文書（言語データ）を生成し、生成した文書を記憶回路１０４に書き込む。

【0087】

音声認識部１１１は、統括制御部１１０の制御により、記憶回路１０４に記憶されている各音声データに対して、母音、子音、撥音の音素のパターンに一致する区間を特定し、音素を表す識別子の並び（例えば、かな文字列）を生成する。次に、音声認識部１１１は、内蔵する辞書から、生成した、かな文字列に対応する漢字かな混じり表記の語句を検索し、得られた語句を、生成したかな文字列に置き換えて、テキストデータを生成する。

【0088】

このようにして、音声認識部１１１は、音声データから、テキストデータからなる文書を生成し、生成した文書に、文書を識別する文書ＩＤを付して、記憶回路１０４に書き込む。

【0089】

１．５単語処理部１１２
単語処理部１１２（単語処理手段）は、統括制御部１１０の制御により、以下に示すようにして、文書に対して形態素解析を行い、品詞フィルタリングを行い、単語クラスターを生成し、単語毎の確率の推定を行なう。単語処理部１１２は、一つのトピックに関係する可能性を有する単語同士が同一の単語クラスターに属するように、文書（言語データ）に含まれる単語を分類して、複数の単語クラスターを生成する。また、単語処理部１１２は、生成した各単語クラスターに属する各単語が、当該単語クラスターに対応するトピックに属する可能性の高さを示す確率を推定する。

【0090】

単語処理部１１２は、上述したように、形態素解析部１２１、品詞フィルタリング部１２２、単語クラスター生成部１２３及びクラスター確率推定部１２４を含む。

【0091】

単語クラスター生成部１２３及びクラスター確率推定部１２４は、後述するように、公知の自然言語処理技術として、例えば、ＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）を用いる。

【0092】

（１）形態素解析部１２１
形態素解析部１２１は、統括制御部１１０の制御により、記憶回路１０４から各文書（言語データ）を読み出す。次に、読み出した文書に含まれるテキストデータに対して形態素解析を施し、テキストデータを分解して、複数の形態素を生成する。さらに、形態素解析部１２１は、生成した複数の形態素のそれぞれについて、品詞を推定し、各形態素（単語）に、推定した品詞を示す品詞情報を付す。

【0093】

形態素解析部１２１は、各文書から抽出し、品詞を示す品詞情報を付した形態素を、品詞フィルタリング部１２２に対して、出力する。

【0094】

（２）品詞フィルタリング部１２２
品詞フィルタリング部１２２は、形態素解析部１２１から品詞を示す品詞情報を付した形態素（単語）を受け取る。

【0095】

品詞を付した形態素を受け取ると、品詞フィルタリング部１２２は、形態素解析部１２１により、品詞を示す品詞情報が付された形態素から、品詞として、名詞を示す品詞情報が付された形態素（単語）を抽出する。抽出した形態素を名詞句と呼ぶ。なお、名詞には、固有名詞が含まれるものとする。

【0096】

品詞フィルタリング部１２２は、抽出した名詞句からなる名詞句データを、記憶回路１０４に書き込む。

【0097】

このようにして、文書１５２ａ、１５２ｂ、１５２ｃについて、それぞれ、名詞句データ１５３ａ、１５３ｂ、１５３ｃが、記憶回路１０４に書き込まれる。

【0098】

（３）単語クラスター生成部１２３
（単語の出現頻度の集計）
単語クラスター生成部１２３は、統括制御部１１０の制御により、文書１５２ａについて、名詞句データ１５３ａから、単語毎に、単語の出現頻度を集計する。単語クラスター生成部１２３は、単語毎に集計した単語の出現頻度を、単語頻度行列１５４内の、文書１５２ａ（つまり、文書ＩＤ「Ｄ００１」）に対応する単語頻度情報１７１に書き込む。

【0099】

また、単語クラスター生成部１２３は、上記と同様に、文書１５２ｂ、１５２ｃについて、名詞句データ１５３ｂ、１５３ｃから、単語毎に、単語の出現頻度を集計し、単語頻度行列１５４内の、文書１５２ｂ、１５２ｃに対応する単語頻度情報１７１に、集計した頻度を書き込む。

【0100】

（所定の位置関係を有する単語の抽出）
次に、単語クラスター生成部１２３は、文書１５２ａ、１５２ｂ、１５２ｃに含まれる各文章について、上述した位置関係を有する複数の単語を抽出する。

【0101】

一例として、単語クラスター生成部１２３は、文書１５２ａから、一つの文章を抽出する。次に、単語クラスター生成部１２３は、名詞句データ１５３ａから、抽出した文章に含まれている複数の単語を抽出する。こうして、抽出した複数の単語は、一つの位置関係を有するとみなす。例えば、単語クラスター生成部１２３は、抽出した一つの文章から、単語「国会」、「審議」、「オリンピック」、「関連」、「法案」等を抽出する。抽出した単語「国会」、「審議」、「オリンピック」、「関連」、「法案」等は、一つの位置関係を有すると考えられる。単語クラスター生成部１２３は、文書１５２ａに含まれる全ての文章について、上記の処理を実行する。また、単語クラスター生成部１２３は、上記の処理を、文書１５２ｂ、１５２ｃに含まれる各文章についても、実行する。

【0102】

また、別の例として、単語クラスター生成部１２３は、文書１５２ａから、前後に連続して配置された二つの文章を抽出してもよい。次に、単語クラスター生成部１２３は、名詞句データ１５３ａから、抽出した二つの文章に含まれている複数の単語を抽出する。こうして、抽出した複数の単語は、一つの位置関係を有すると考えられる。単語クラスター生成部１２３は、文書１５２ａに含まれる全ての文章について、上記の処理を実行する。単語クラスター生成部１２３は、上記の処理を、文書１５２ｂ、１５２ｃに含まれる連続配置された二つの文章の各々についても、実行する。

【0103】

一つの文章に含まれる複数の単語、又は、前後に連続して配置された二つの文章に含まれる複数の単語は、それぞれの単語の意味、用いられ方、又は、用いられる分野等が共通している。つまり、一つの文章又は上記の二つの文章に含まれる複数の単語は、一つの位置関係を有し、これらの複数の単語は、一つのトピックに関係していると考えられる。

【0104】

上記のようにして生成した位置関係を有する複数の単語が、一つのグループに属すると考えると、上記のようにして、生成された位置関係の数と同数のグループが生成される。一つの文章から一つの位置関係が生成される場合、生成されたグループの数は、文書に含まれる文章の数に等しい。また、前後に連続して配置された二つの文章から一つの位置関係が生成される場合、生成されたグループの数は、文書から、選んだ上記の二つの文章の組合せの数に等しい。

【0105】

（トピックの抽出のための分類）
単語クラスター生成部１２３は、上記のようにして生成された複数のグループのうち、第一グループに含まれる一つの単語と、第二グループに含まれる一つの単語が同一である場合に、第一グループと第二グループとを関係付ける。例えば、第一グループに、単語「国会」が含まれ、第二グループにも、単語「国会」が含まれる場合、第一グループと第二グループとを関係付ける。上記のようにして生成された全てのグループに対して、この関係付けを実施する。こうして、関係付けられた二つのグループを、新たな一つのグループとする。例えば、単語「国会」が含まれる第一グループと単語「国会」が含まれる第二グループとを新たな一つのグループとする。生成された全てのグループに対して、この関係付けを実施し、全体として、数個のグループに集約できるまで、グループとグループとの関係付けの処理を、繰り返す。

【0106】

なお、第一グループに含まれる第一の単語と、第二グループに含まれる第二の単語が同一であり、第一グループに含まれる第三の単語と、第二グループに含まれる第四の単語が同一である場合に、第一グループと第二グループとを関係付けてもよい。例えば、第一グループに、単語「国会」が含まれ、第二グループにも、単語「国会」が含まれ、第一グループに、単語「審議」が含まれ、第二グループにも、単語「審議」が含まれる場合、第一グループと第二グループとを関係付ける。

【0107】

さらに、第一グループと第二グループとの間で、関係付けるための単語の数を増やして、第一グループと第二グループとを関係付けてもよい。

【0108】

こうして、最終的に生成された一つのグループに含まれる複数の単語は、一つのトピック（例えば、「政治」）に関するものである可能性を有する。また、別のグループに含まれる複数の単語は、別のトピック（例えば、「スポーツ」）に関するものであるである可能性を有する。ここで、最終的に生成されたグループをトピックグループと呼ぶ。

【0109】

（トピック毎の単語分布の生成）
次に、単語クラスター生成部１２３は、文書１５２ａ、１５２ｂ、１５２ｃ（及び名詞句データ１５３ａ、１５３ｂ、１５３ｃ）の全体について、単語頻度行列１５４及び上記の位置関係を用いて、複数のトピックグループのうちの一つトピックグループについて、出現する単語の頻度を集計し、例えば、図６に示すトピック毎の単語分布１５５ａを生成する。

【0110】

同様に、単語クラスター生成部１２３は、他のトピックグループについて、例えば、図６に示すトピック毎の単語分布１５５ｂ、１５５ｃを生成する。

【0111】

（単語クラスターの生成）
単語クラスター生成部１２３は、単語分布１５５ａ、１５５ｂ、１５５ｃの中から、例えば、単語分布１５５ａを選択する。次に、単語クラスター生成部１２３は、選択した単語分布１５５ａの横軸方向に列挙される単語のうち、文書１５２ａ（つまり、名詞句データ１５３ａ）に含まれる単語を抽出する。次に、単語クラスター生成部１２３は、抽出した単語から構成される単語クラスターを生成する。図７（ａ）に、一例としての単語クラスター１５７ａを示す。この単語クラスターには、例えば、「政治」に関連する単語が多く含まれる。

【0112】

また、単語クラスター生成部１２３は、例えば、単語分布１５５ｂを選択する。次に、単語クラスター生成部１２３は、選択した単語分布１５５ｂの横軸方向に列挙される単語のうち、文書１５２ａ（つまり、名詞句データ１５３ａ）に含まれる単語を抽出する。次に、単語クラスター生成部１２３は、抽出した単語から構成される単語クラスターを生成する。図７（ｂ）に、一例としての単語クラスター１５７ｂを示す。この単語クラスターには、「スポーツ」に関連する単語が多く含まれる。

【0113】

さらに、単語クラスター生成部１２３は、例えば、単語分布１５５ｃを選択する。次に、単語クラスター生成部１２３は、選択した単語分布１５５ｃの横軸方向に列挙される単語のうち、文書１５２ａ（つまり、名詞句データ１５３ａ）に含まれる単語を抽出する。次に、単語クラスター生成部１２３は、抽出した単語から構成される単語クラスターを生成する。図７（ｃ）に、一例としての単語クラスター１５７ｃを示す。この単語クラスターには、「経済」に関連する単語が多く含まれる。

【0114】

ここで、単語クラスター生成部１２３は、選択した単語分布に列挙される単語のうち、その頻度が上位のものを所定数だけ、抽出してもよい。

【0115】

また、単語クラスター生成部１２３は、文書１５２ｂ、１５２ｃについて、上記と同様にして、１又は複数の単語クラスターを生成する。

【0116】

上述したように、単語クラスター生成部１２３は、一つの文書につき、１又は複数の単語クラスターを生成する。

【0117】

このように、単語クラスター生成部１２３は、抽出された単語を分類して、複数の単語クラスターを生成する。また、単語クラスター生成部１２３は、単語毎に、抽出された単語の出現頻度を集計し、文書（言語データ）内における単語と単語との位置関係を求め、集計された出現頻度及び求められた位置関係を用いて、複数の単語クラスターを生成する。

【0118】

（４）クラスター確率推定部１２４
クラスター確率推定部１２４は、最初、各単語クラスター内の単語のそれぞれについて、ランダムに確率を設定する。次に、クラスター確率推定部１２４は、当該単語クラスターに対応する単語分布を用いて、また、上述した位置関係を用いて、単語にランダムに設定された確率を補正する。

【0119】

このようにして、クラスター確率推定部１２４は、例えば、文書１５２ａの単語クラスター１５７ａについて、図８に示すように、クラスター確率データテーブル１５８ａを生成する。同様に、クラスター確率推定部１２４は、文書１５２ａの他の単語クラスターについて、クラスター確率データテーブルを生成する。クラスター確率推定部１２４は、各単語に設定された確率を、記憶回路１０４のクラスター確率データテーブル内に書き込む。

【0120】

このように、クラスター確率推定部１２４は、生成された複数の単語クラスターの各々に属する単語について、各単語の確率を推定する。また、クラスター確率推定部１２４は、求められた位置関係及び集計された出現頻度を用いて、各単語の確率を推定する。

【0121】

１．６クラスター推定部１１３
クラスター推定部１１３（選択手段）は、文書（言語データ）毎に、複数の単語クラスターから、文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択する。また、クラスター推定部１１３は、複数の単語クラスターの各々について推定された各単語の確率を用いて、複数の単語クラスターから、代表単語クラスターを選択する。

【0122】

クラスター推定部１１３は、上述したように、代表単語クラスター推定部１２５を含む。

【0123】

上記の例では、各文書について、複数の単語クラスターが生成される。

【0124】

代表単語クラスター推定部１２５は、各文書について、複数の単語クラスターが生成される場合、以下に示すようにして、生成された複数の単語クラスターから、代表単語クラスターとして、一つの単語クラスターを選択する。

【0125】

代表単語クラスター推定部１２５は、例えば、文書１５２ａについての一つの単語クラスターに関し、名詞句データ１５３ａ内に含まれる複数の単語について、クラスター確率データテーブル１５８ａに含まれる確率を総乗する。

【0126】

例えば、図４に示すように、名詞句データ１５３ａには、単語「国会」、「審議」、「オリンピック」、「関連」、「法案」、・・・が含まれる。また、クラスター確率データテーブル１５８ａによると、単語「国会」、「審議」、「オリンピック」、「関連」、「法案」、・・・の確率が、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、・・・であるとする。

【0127】

なお、各確率は、パーセント（％）により表現されている。

【0128】

この場合、総乗値（指標値）＝Ｐ１×Ｐ２×Ｐ３×Ｐ４×Ｐ５×、・・・により、算出される。

【0129】

ここで、名詞句データ１５３ａは、一例として、３個の単語「法案」を含むので、総乗値の演算において、単語「法案」に対応する確率が３回、乗算される。

【0130】

代表単語クラスター推定部１２５は、例えば、文書１５２ａについての他の単語クラスターについても、上記と同様に、総乗値を演算する。

【0131】

こうして、例えば、文書１５２ａの複数の単語クラスターについて、総乗値が算出される。

【0132】

このようにして、代表単語クラスター推定部１２５は、例えば、文書１５２ａについて、図６に示す文書毎のトピック分布１５６ａを生成する。トピック分布１５６ａにおいては、横軸にトピックを示し、縦軸に、単語クラスター毎、つまり、トピック毎の総乗値（指標値）を示す。

【0133】

代表単語クラスター推定部１２５は、算出した複数の総乗値のうち、最も大きい総乗値を選択し、選択した総乗値を算出する元になった単語クラスターを、代表単語クラスターとして選択する。

【0134】

代表単語クラスター推定部１２５は、文書１５２ｂ、１５２ｃについても、上記と同様に、単語クラスター毎に、総乗値（指標値）を算出する。

【0135】

代表単語クラスター推定部１２５は、例えば、文書１５２ｂ、１５２ｃについて、図６に示す文書毎のトピック分布１５６ｂ、１５６ｃを生成する。トピック分布１５６ｂ、１５６ｃにおいては、それぞれ、横軸にトピックを示し、縦軸に、単語クラスター毎、つまり、トピック毎の総乗値（指標値）を示す。

【0136】

代表単語クラスター推定部１２５は、文書１５２ｂ、１５２ｃについても、上記と同様に、代表単語クラスターを選択する。

【0137】

なお、代表単語クラスター推定部１２５は、上記のように、総乗値＝Ｐ１×Ｐ２×Ｐ３×Ｐ４×Ｐ５×、・・・を算出している。しかし、この方法には、限定されない。

【0138】

代表単語クラスター推定部１２５は、総和値（指標値）＝Ｐ１＋Ｐ２＋Ｐ３＋Ｐ４＋Ｐ５＋、・・・を算出し、算出した複数の総和値のうち、最も大きい総和値を選択し、選択した総和値を算出する元になった単語クラスターを、代表単語クラスターとして選択してもよい。

【0139】

このように、クラスター推定部１１３（選択手段）の代表単語クラスター推定部１２５は、単語クラスター毎に、前記文書（言語データ）に含まれる複数の単語の各々について推定された複数の確率を、総和又は総乗して、当該単語クラスターにより文書の記載内容を代表することの尤もらしさを示す指標値を算出し、複数の単語クラスターについて算出された前記複数の指標値を比較することにより、代表単語クラスターを選択する。

【0140】

ここで、クラスター推定部１１３（選択手段）により選択された代表単語クラスターの数は、単語処理部１１２により生成された複数の単語クラスターの数よりも、少ない。

【0141】

１．７要約部１１４
要約部１１４（抽出手段）は、各文書（言語データ）から、代表単語クラスター推定部１２５により選択された代表単語クラスターに基づいて、要約書を生成する。

【0142】

つまり、要約部１１４は、代表単語クラスターに含まれる単語を用いて、各文書から、代表単語クラスターに含まれる単語を含む文章（つまり、文書の記載内容を代表する文章）を抽出し、抽出した文章を含む要約書を生成する。

【0143】

要約部１１４により生成される要約文の一例を図９に示す。この図に示す要約文１９１は、代表単語クラスターとして選択された図７（ａ）に示す単語クラスター１５７ａに含まれる全て又は一部の単語を含んでいる。

【0144】

１．８画面例
情報処理装置１０において表示される画面例を図１０に示す。

【0145】

この図に示す画面２０１は、情報処理装置１０において設定されるハイパーパラメーターを設定するため、利用者に入力を求めるための画面である。

【0146】

画面２０１は、この図に示すように、入力フィールド２０２、２０３、２０４、ラジオボタン２０５、２０６、２０７～２１０を含んでいる。

【0147】

入力フィールド２０２、２０３、２０４は、それぞれ、事前知識データ、単語クラスターの数、外れ値の単語の入力を受け付けるため、利用者が入力操作を行うフィールドである。ラジオボタン２０５、２０６は、単語クラスターを継承するか否かを設定するためのラジオボタンである。ラジオボタン２０５、２０６の何れか一方が利用者により選択される。ラジオボタン２０７、２０８、２０９、２１０は、それぞれ、データ単位として、文書単位、段落単位、複数センテンス単位及び１センテンス単位の何れか一つを選択するためのラジオボタンである。ラジオボタン２０７、２０８、２０９、２１０の何れか一つが利用者により選択される。

【0148】

統括制御部１１０は、画面２０１を生成し、生成した画面２０１を、入出力回路１０５を介して、モニター１０７に出力する。モニター１０７は、画面２０１を表示する。

【0149】

キーボード１０８及びマウス１０９は、入力フィールド２０２、２０３、２０４、ラジオボタン２０５～２１０において、利用者の操作指示を受け付け、受け付けた操作指示に対応する指示信号を、入出力回路１０５を介して、統括制御部１１０に出力する。

【0150】

統括制御部１１０は、受け取った指示信号に応じた処理を実行する。

【0151】

なお、事前知識データ、単語クラスターの数、外れ値の単語、単語クラスターを継承するか否か及びデータ単位については、次に説明する。

【0152】

１．９事前知識データ
事前知識データ（事前知識情報）は、トピックに関係する単語を示すデータである。言い換えると、事前知識データは、一つのトピックに関係する単語同士が一つの単語クラスターに属するように、単語を分類するために用いられる。このように、利用者の指向性に合わせて、単語がどの単語クラスターに属するかを示す情報が事前に与えられている。

【0153】

図１１（ａ）に一例として示すように、事前知識データ２２１は、単語クラスター２２２、２２３、２２４から構成されている。単語クラスター２２２は、単語「国会」、「審議」、「法律」を含む。単語クラスター２２３は、単語「オリンピック」、「競技場」を含む。単語クラスター２２４は、単語「経済」、「金利」を含む。

【0154】

事前知識データ２２１においては、データ形式として、ＪＳＯＮ形式が利用され、単語クラスター毎に事前に登録すべき単語が記述されている。

【0155】

事前知識データは、予め、利用者により生成される。生成された事前知識データは、利用者の操作指示により、記憶回路１０４に格納される。

【0156】

単語クラスター生成部１２３は、記憶回路１０４に格納された事前知識データを用いて、文書に含まれる単語を分類して、複数の単語クラスターを生成する。

【0157】

図１１（ａ）に示す事前知識データ２２１を用いて説明する。

【0158】

単語クラスター生成部１２３は、文書内に、単語クラスター２２２に含まれる単語「国会」、「審議」、「法律」が含まれる場合、文書は、単語クラスター２２２に該当すると判断する。また、単語クラスター生成部１２３は、文書内に、単語クラスター２２３に含まれる単語「オリンピック」、「競技場」が含まれる場合、文書は、単語クラスター２２３に該当すると判断する。また、単語クラスター生成部１２３は、文書内に、単語クラスター２２４に含まれる単語「経済」、「金利」が含まれる場合、文書は、単語クラスター２２４に該当すると判断する。

【0159】

このように、予めトピックに関係する単語を示す事前知識データを準備しておき、事前知識データを教師データとして用いて、文書に含まれる単語から、単語クラスターを逐次的に生成することが可能となる。

【0160】

具体的には、会議議事録の文書に対する要約を要求する利用者が、対象となる会議に参加していた場合、利用者の指向性に合わせて重要度の高いと考える単語を予め事前知識として単語クラスターを与えておくことにより、生成される要約書を利用者が意図する要約に近づけることが可能である。

【0161】

１．１０単語クラスターの数
キーボード１０８により、利用者から、生成すべき単語クラスターの数の指定を受け付けるとしてもよい。キーボード１０８は、受け付けた単語クラスターの数を、入出力回路１０５を介して、統括制御部１１０に対して、出力する。

【0162】

単語処理部１１２は、統括制御部１１０から、単語クラスターの数を受け取る。単語クラスター生成部１２３は、指定された数の単語クラスターを生成する。

【0163】

単語クラスターの数を利用者が指定できるのは、例えば、次のような場合である。

【0164】

要約対象となる会議に参加した利用者が、情報処理装置１０に対して、要約を要求する際、予め明確に単語クラスターの数を指定できる場合がある。具体的には、会議開始時に予めアジェンダが決められており、その議題に沿って会議が進行されている場合である。例えば、一例として、チーム内のブレインストーミングが実施され、（ａ）医療関係のアイデアについて一定時間議論し、次に、（ｂ）建築関係のアイデアが議論され、最後に、（ｂ）オフィスソリューションに関しての議題について議論されるような場合である。このような場合、（ａ）、（ｂ）、（ｃ）のそれぞれのトピックに出てくる単語は大きく異なる為、３個の単語クラスターを利用者が予め指定することができる。情報処理装置１０は、指定された数の単語クラスターを生成する。

【0165】

１．１１外れ値の単語
記憶回路１０４は、予め、利用者が所望する話題とは関係しない単語を示す（つまり、利用者の所望する話題に関係するどの単語とも類似しない単語を示す）外れ値データ（外れ値情報）を記憶していてもよい。この場合、単語クラスター生成部１２３は、文書に含まれる単語を分類する際に、外れ値データにより示される単語を除外する。

【0166】

図１１（ｂ）に示す外れ値データ２３１は、一例として、「お疲れ様」、「アジェンダ」を含む。単語クラスター生成部１２３は、文書に含まれる単語を分類する際に、外れ値データにより示される単語「お疲れ様」、「アジェンダ」を除外する。

【0167】

このような単語が出現するケースとして、会議内で定型的に出現する文章「本日のアジェンダは以下の通りです。」、「以上で会議を終了いたします。お疲れ様でした。」等である。「本日のアジェンダは以下の通りです。」のうちの、単語「アジェンダ」、「以上で会議を終了いたします。お疲れ様でした。」のうちの、単語「お疲れ様」等は、会議のトピックとは、無関係であると考えられ、分類から除外されることが適切である。

【0168】

このように、関係性のある単語同士が一つの単語クラスターに属するように、文書内の単語を分類する場合、文書内に存在するどの単語とも類似しない単語に関しては、外れ値とし、考慮しない判断をしてもよい。

【0169】

１．１２単語クラスターを継承するか否か
複数回の会議において、連続して、一つのテーマが議論される場合がある。一例として、開発会議における週報会や定例会等である。このような場合、第１回の会議の内容を表した文書から生成した単語クラスターは、第２回の会議の内容を表した文書から単語クラスターを生成する際に、再び、利用することができる。

【0170】

このため、利用者の操作指示により、単語クラスター生成部１２３は、第１回の会議の内容を表した文書から生成した単語クラスターを、記憶回路１０４に書き込んで、保存しておく。

【0171】

この場合、クラスター推定部１１３により、推定された代表単語クラスターを記憶回路１０４に書き込む、としてもよい。

【0172】

利用者の操作指示により、単語クラスター生成部１２３は、第２回の会議の内容を表した文書から単語クラスターを生成する際に、記憶回路１０４に保存された第１回の会議の単語クラスターを利用してもよい。

【0173】

以前の会議により生成し、記憶している単語クラスターを利用することにより、以前の会議において重要度が高い単語クラスターを参考とすることができ、今回の会議において、より重要度の高い情報（要約文）を抽出することができる。

【0174】

また、キーボード１０８（受付手段）により、利用者から、削除すべき単語クラスターの指定を受け付けるとしてもよい。キーボード１０８は、受け付けた削除すべき単語クラスターの指定を、入出力回路１０５を介して、統括制御部１１０に対して、出力する。

【0175】

単語処理部１１２は、統括制御部１１０から、受け付けた削除すべき単語クラスターの指定を受け取る。単語クラスター生成部１２３は、記憶回路１０４から、指定された単語クラスターを削除する。

【0176】

単語クラスターの情報を削除するケースとして、単発的な会議の事例が挙げられる。ブレインストーミング、雑談会などのシチュエーションにおいては、当該会議のみで議論が完結する場合がある。このような場合、記憶回路１０４に記憶されている単語クラスターを、利用者の操作指示により、削除してもよい。

【0177】

また、連続的に実施される会議のうち、第１回の会議において、複数の単語クラスターが生成され、記憶回路１０４に記憶された場合、複数の単語クラスターのうち、利用者が明らかに、次の会議で利用できないと分かる単語クラスターについては、利用者の操作指示により、記憶回路１０４からその単語クラスターを削除してもよい。

【0178】

１．１３データ単位
単語クラスター生成部１２３は、複数の文書からなる言語データ全体、言語データに含まれる文書全体、文書に含まれる段落、文書に含まれる複数の文章、及び、文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎に、当該データ単位に含まれる単語を分類し、データ単位毎に、複数の単語クラスターを生成してもよい。データ単位は、トピックを決定する単位である。

【0179】

クラスター推定部１１３は、データ単位毎に、複数の単語クラスターから、代表単語クラスターを選択する。

【0180】

また、キーボード１０８（受付手段）により、利用者から、データ単位の指定を受け付けるとしてもよい。キーボード１０８は、受け付けたデータ単位の指定を、入出力回路１０５を介して、統括制御部１１０に対して、出力する。

【0181】

単語クラスター生成部１２３は、利用者から受け付けたデータ単位毎に単語を分類する。

【0182】

本実施の形態では、一つの会議の議論を対象に話題を分類するため、上述したように、データ単位を、指定した複数文単位又は一文単位としてもよい。また、急に再度、発生した議論を対応できるようにするため、一文ごとに文章をクラスター分類してもよい。

【0183】

また、要約部１１４は、データ単位毎に、当該データ単位から、当該データ単位の記載内容を代表する文章を、要約文として抽出してもよい。

【0184】

１．１４情報処理装置１０における動作
情報処理装置１０における動作について、フローチャートを用いて説明する。

【0185】

（１）情報処理装置１０全体の概要動作
情報処理装置１０全体の概要動作について、図１２に示すフローチャートを用いて説明する。

【0186】

統括制御部１１０は、利用者によるハイパーパラメーターの設定入力を待つ（ステップＳ１０１）。ハイパーパラメーターの設定が入力されなかった場合（ステップＳ１０２で「ＮＯ」）、統括制御部１１０は、制御をステップＳ１０１に移して、処理を繰り返す。

【0187】

ハイパーパラメーターの設定が入力された場合（ステップＳ１０２で「ＹＥＳ」）、統括制御部１１０は、設定データを参照する（ステップＳ１０３）。

【0188】

音声認識部１１１は、音声データから、音声認識により、変換したテキストデータを取得する（ステップＳ１０４）。

【0189】

形態素解析部１２１は、形態素解析を行なって、形態素を生成する（ステップＳ１０５）。

【0190】

品詞フィルタリング部１２２は、形態素から名詞句を抽出する（ステップＳ１０６）。

【0191】

単語クラスター生成部１２３は、単語クラスターを生成し、クラスター確率推定部１２４は、単語毎に確率を推定する（ステップＳ１０７）。

【0192】

クラスター推定部１１３は、データ単位毎に、複数の単語クラスターから代表単語クラスターを選択する（ステップＳ１０８）。

【0193】

要約部１１４は、各文書について、代表単語クラスター推定部１２５により選択された代表単語クラスターを用いて、要約書を生成する（ステップＳ１０９）。

【0194】

以上により、情報処理装置１０における動作の説明を終了する。

【0195】

（２）設定データの参照の動作
設定データの参照の動作について、図１３に示すフローチャートを用いて説明する。

【0196】

なお、ここで説明する動作は、図１２のステップＳ１０３における手順の詳細である。

【0197】

統括制御部１１０は、利用者により設定された設定データ（ハイパーパラメーター）を参照する（ステップＳ１３１）。

【0198】

統括制御部１１０は、事前知識データが設定されているか否かを判断する（ステップＳ１３２）。事前知識データが設定されている場合（ステップＳ１３２で「ＹＥＳ」）、統括制御部１１０は、事前知識データを記憶回路１０４に書き込む（ステップＳ１３３）。

【0199】

次に、統括制御部１１０は、利用者により単語クラスターの数が設定されているか否かを判断する（ステップＳ１３４）。単語クラスターの数が設定されている場合（ステップＳ１３４で「ＹＥＳ」）、統括制御部１１０は、単語クラスターの数を記憶回路１０４に書き込む（ステップＳ１３５）。

【0200】

次に、統括制御部１１０は、データ単位を記憶回路１０４に書き込む（ステップＳ１３６）。

【0201】

以上により、設定データの参照の動作についての説明を終了する。

【0202】

（３）外れ値の処理
外れ値の処理について、図１４に示すフローチャートを用いて説明する。

【0203】

単語クラスター生成部１２３は、利用者により設定された設定データ（ハイパーパラメーター）を参照する（ステップＳ１５１）。

【0204】

次に、単語クラスター生成部１２３は、外れ値の単語が設定されているか否かを判断する（ステップＳ１５２）。外れ値の単語が設定されている場合（ステップＳ１５２で「ＹＥＳ」）、単語クラスター生成部１２３は、記憶回路１０４に記憶されている単語クラスターから、外れ値の単語の削除する（ステップＳ１５３）。

【0205】

以上により、外れ値の処理についての説明を終了する。

【0206】

（４）単語クラスターの継承処理
単語クラスターの継承処理について、図１５に示すフローチャートを用いて説明する。

【0207】

統括制御部１１０は、利用者により設定された設定データ（ハイパーパラメーター）を参照する（ステップＳ１７１）。

【0208】

次に、統括制御部１１０は、既に生成している単語クラスターを継承する設定がされているか否かを判断する（ステップＳ１７２）。継承する設定がされている場合（ステップＳ１７２で「ＹＥＳ」）、統括制御部１１０は、生成済みの単語クラスターの記憶回路１０４における保存状態を維持する（ステップＳ１７３）。継承する設定がされていない場合（ステップＳ１７２で「ＮＯ」）、統括制御部１１０は、記憶回路１０４に存在する単語クラスターを削除する。この場合、記憶回路１０４に存在する全ての単語クラスターを削除してもよいし、また、利用者から指定された単語クラスターのみを削除してもよい（ステップＳ１７４）。

【0209】

以上により、単語クラスターの継承処理についての説明を終了する。

【0210】

１．１５実施例（１）
上記の実施の形態においては、音声認識部１１１は、音声データに対して、音声認識処理を施して、テキストデータを生成している。

【0211】

しかし、この形態には、限定されない。

【0212】

本開示の一態様は、情報処理装置１０とサーバー装置とから構成されるシステムであるとしてもよい。情報処理装置１０とサーバー装置とは、ネットワークを介して、接続されている。サーバー装置は、クラウドサービスの一つとしての音声認識処理を提供する。つまり、サーバー装置は、音声データを受信し、受信した音声データをテキストデータに変換して文書を生成する。

【0213】

情報処理装置１０は、サーバー装置が提供する音声認識処理を利用してもよい。

【0214】

情報処理装置１０は、ネットワークを介して、サーバー装置に接続されているネットワーク通信回路を備えている。ネットワーク通信回路は、統括制御部１１０の制御により、音声データをサーバー装置に送信し、音声データに対する音声認識処理をサーバー装置に依頼する。

【0215】

サーバー装置は、ネットワーク通信回路（通信手段）と音声認識回路（音声認識手段）を備えている。サーバー装置の音声認識回路は、情報処理装置１０の音声認識部１１１と同様の構成を有している。

【0216】

サーバー装置のネットワーク通信回路は、情報処理装置１０から、ネットワークを介して、音声データと共に、音声データに対する音声認識処理の依頼を受信する。依頼とともに、音声データを受信すると、音声認識回路は、受信した音声データをテキストデータに変換し、テキストデータからなる文書を生成する。サーバー装置のネットワーク通信回路は、生成した文書を、ネットワークを介して、情報処理装置１０に対して送信する。

【0217】

情報処理装置１０のネットワーク通信回路は、サーバー装置から、文書を受信し、受信した文書を記憶回路１０４に書き込む。

【0218】

１．１６実施例（２）
情報処理装置１０の形態素解析部１２１は、公知の形態素解析手法を使用してもよい。形態素解析部１２１は、例えば、公知のＭｅＣａｂ、ＪＵＭＡＮ、ＫｙＴｅａ及びＣｈａＳｅｎの何れかを使用してもよい。

【0219】

１．１７実施例（３）
単語クラスター生成部１２３及びクラスター確率推定部１２４は、各種の公知の自然言語処理技術を利用してよい。例えば、テキストデータ中に登場する単語から当該テキストデータの潜在トピックを推定する手法として、ＬＤＡ等が挙げられる。ＬＤＡは、テキストデータが複数のトピックを有することを前提とした、文書分類モデルである。この手法は、対象となるテキストデータのみから単語の出現頻度、位置関係を逐次的に学習することで、潜在トピックを推定する。

【0220】

なお、潜在トピックとは、話題ごとにクラスターリングした重要単語の集合であり、当該単語ごとにどれだけトピックに属する可能性が高いかを示す、トピック確率（単に、確率）を持っている。当該潜在トピックを利用し、文章を潜在トピックごとに分類する。

【0221】

これにより、単語クラスター生成部１２３は、複数の単語クラスターを生成する。単語クラスターは、トピックを構成し得る要素として、単語をクラスターリングした単語集合である。

【0222】

また、クラスター確率推定部１２４は、それらクラスターリングした単語それぞれに対しトピックに属する確率を得る。

【0223】

１．１８実施例（４）
要約部１１４は、各種の公知の自然言語処理技術を利用してもよい。

【0224】

例えば、テキストデータ中に登場する単語から当該テキストデータの重要となり得る文をスコアリングすることにより重要文を抽出する手法として、ＬｅｘＲａｎｋ等が挙げられる。

【0225】

ＬｅｘＲａｎｋを適用する際に、代表単語クラスターに含まれる単語について、テキストデータに出現する単語の類似度をグラフ表現で固有ベクトル中心性を算出し、テキスト単位の相対的な重要度を算出する。つまり、他の文でよく出現し、重要な単語に類似している単語が重要だと見なされ、それら重要単語が出現する文は重要だと考えることができる。

【0226】

この方法により要約書を生成することにより、その単語クラスターにより特徴づける要約文を得ることができる。

【0227】

１．１９実施例（５）
単語クラスターの生成の対象となる文書から、データ単位毎に、複数の単語クラスターが生成される場合がある。

【0228】

一つのデータ単位に、元々、複数のトピックが含まれる場合には、当該データ単位から、複数の単語クラスターが生成される。

【0229】

また、複数の単語クラスター同士が類似している場合には、一つのデータ単位から、複数の単語クラスターが生成される。例えば、脳神経科学に関連する単語クラスターと、ＡＩに関連する単語クラスターのような場合である。両単語クラスターに属する単語には、同じものが含まれる可能性が高く、脳神経科学に関連する単語クラスターと、ＡＩに関連する単語クラスターとでは、単語クラスター同士が類似している、と言える。

【0230】

１．２０実施例（６）
文書から要約文を生成する前に、要約文のデータ量（つまり、要約文の文字量）を利用者が指定できるとしてもよい。つまり、統括制御部１１０は、利用者の操作指示により、キーボード１０８から、入出力回路１０５を介して、要約文のデータ量を受け取ることができる。

【0231】

要約部１１４は、指定された要約文のデータ量の範囲内で、要約文を生成する。

【0232】

例えば、要約部１１４は、当初、５個の文章からなり、５００文字の要約文を生成した場合、文字量として、３００文字が利用者により、指定されていれば、５個の文章のうち、１個の文章を削除する。要約部１１４は、１個の文章を削除した後の、要約文の文字数を計数する。削除後の要約文の文字数が３００文字以内であれば、要約部１１４は、１個の文章を削除した後の要約文を確定する。一方、削除後の要約文の文字数が３００文字を超える場合、さらに、１個の文章を削除する。このように、削除後の要約文の文字数が利用者により指定された３００文字以内となるまで、上記の処理を繰り返す。

【0233】

このように、要約文のデータ量を利用者が適切に指定することにより、要約文のデータ量が多過ぎて、簡潔であるべき要約としての役割を果たさない状況や、要約文のデータ量が少な過ぎて、要約文では、議論の要点が理解できないような状況を抑制することができる。

【0234】

なお、統括制御部１１０は、利用者の操作指示により、キーボード１０８から、入出力回路１０５を介して、要約文の文章（センテンス）の数を受け取る、としてもよい。この場合、要約部１１４は、指定された文章の数の範囲内で、要約文を生成する。

【0235】

この場合にも、要約部１１４は、上記と同様に、文章の数が利用者により指定された数を超える場合、利用者により指定された数以下となるまで、要約文中の文章の削除を繰り返す。

【0236】

１．２１実施例（７）
単語処理部１１２は、上述したように、複数の文書からなる言語データ全体、言語データに含まれる文書全体、文書に含まれる段落、文書に含まれる複数の文章、及び、文書に含まれる一つの文章の何れかをデータ単位とし、データ単位毎にデータ単位に含まれる単語を分類してもよい。

【0237】

クラスター推定部１１３（選択手段）は、代表単語クラスター毎に、当該代表単語クラスターの重要度を決定するクラスター分析部（分析手段）を含む、としてもよい。

【0238】

また、クラスター分析部は、代表単語クラスター毎に、当該代表単語クラスターに該当するデータ単位の数又は量を集計し、代表単語クラスター毎の集計値に応じて、代表単語クラスターの重要度を決定してもよい。

【0239】

また、クラスター分析部は、一つの代表単語クラスターの集計値が所定値を超える場合、当該代表単語クラスターの重要度を、所定の最大値に設定してもよい。

【0240】

（１）例えば、代表単語クラスターａに該当するデータ単位が８個存在し、代表単語クラスターｂに該当するデータ単位が４個存在し、代表単語クラスターｃに該当するデータ単位が２個存在する場合、クラスター分析部は、代表単語クラスターａ、ｂ、ｃについて、代表単語クラスターａの重要度＞代表単語クラスターｂの重要度＞代表単語クラスターｃの重要度のように、各代表単語クラスターの重要度を設定してもよい。

【0241】

つまり、クラスター分析部は、代表単語クラスターに該当するデータ単位の数に応じて、当該代表単語クラスターの重要度を設定してもよい。この場合、データ単位の数が多いほど、代表単語クラスターの重要度を高く設定し、データ単位の数が少ないほど、代表単語クラスターの重要度を低く設定する。

【0242】

このようにして代表単語クラスター毎に、設定された重要度は、利用者に提示されてもよい。つまり、クラスター分析部は、統括制御部１１０、入出力回路１０５を介して、モニター１０７に、代表単語クラスター毎に、設定された重要度を出力する。モニター１０７は、代表単語クラスター毎に、設定された重要度を出力する。

【0243】

（２）クラスター分析部により、ある代表単語クラスターについて、低い重要度が設定された場合であっても、利用者にとって、その代表単語クラスターについて、重要度が高いと判断した際、その代表単語クラスターの重要度を高く設定してもよい。

【0244】

逆に、クラスター分析部により、ある代表単語クラスターについて、高い重要度が設定された場合であっても、利用者にとって、その代表単語クラスターについて、重要度が低いと判断した際、その代表単語クラスターの重要度を低く設定してもよい。

【0245】

このように、利用者の意図に従って、代表単語クラスターの重要度は、変更できるとしてもよい。

【0246】

統括制御部１１０は、利用者の操作指示により、キーボード１０８から、入出力回路１０５を介して、代表単語クラスターの重要度の変更を受け付ける、としてもよい。

【0247】

クラスター分析部は、代表単語クラスターの重要度を、利用者の操作指示により受け付けた重要度に変更する。

【0248】

（１）の事例の場合、利用者が代表単語クラスターｃの重要度が最も高いと判断した場合、クラスター分析部は、代表単語クラスターａ、ｂ、ｃについて、代表単語クラスターｃの重要度＞代表単語クラスターａの重要度＞代表単語クラスターｂの重要度のように、各代表単語クラスターの重要度の設定を変更する。

【0249】

このようにして、各代表単語クラスターの重要度を、利用者の意図した重要度に変更し、その結果、利用者の意図を反映した、より適切な代表単語クラスターを選択することができる。

【0250】

（３）代表単語クラスターの重要度に応じて、実施例（６）において説明した要約文のデータ量又は文章の数を可変にしてもよい。つまり、要約部１１４は、決定された重要度に応じて、要約文のデータ量を可変としてもよい。ここで、要約部１１４は、要約文に含まれる文字量又は要約文に含まれる文章数を可変としてもよい。

【0251】

例えば、代表単語クラスターの重要度が高い場合、要約文のデータ量又は文章の数を多くし、代表単語クラスターの重要度が低い場合、要約文のデータ量又は文章の数を少なくしてもよい。

【0252】

（１）の事例の場合のように、代表単語クラスターａの重要度＞代表単語クラスターｂの重要度＞代表単語クラスターｃの重要度のように、各代表単語クラスターの重要度を設定した場合、代表単語クラスターａの要約文は、４センテンスとし、代表単語クラスターｂの要約文は、２センテンスとし、代表単語クラスターｃの要約文は、１センテンスとする。

【0253】

このように、代表単語クラスターの重要度によって、要約文のデータ量又は文章の数を可変にするのは、主要な代表単語クラスターが持つ情報量は多いので、このような代表単語クラスターに関して、利用者が得たいと意図する情報（要約文）を提供できる可能性を高くするためである。

【0254】

１．２２実施例（８）
上述したように、単語クラスター生成部１２３は、複数の文書からなる言語データ全体、言語データに含まれる文書全体、文書に含まれる段落、文書に含まれる複数の文章、及び、文書に含まれる一つの文章の何れかをデータ単位とする。ここでは、文書全体及び文書に含まれる段落をそれぞれデータ単位とする場合について、具体的に説明する。

【0255】

（１）文書全体をデータ単位とする場合
文書全体をデータ単位とする場合について、図１６を用いて説明する。

【0256】

この図に示すように、複数の文書３０１、３０２、３０３、３０４、３０５からなる言語データが要約生成の対象であるとする。また、クラスター推定部１１３により、複数の文書３０１、３０２、３０３、３０４、３０５について、それぞれ、「政治」、「スポーツ」、「経済」、「政治」、「経済」をトピックとする代表単語クラスターが選択されているとする。

【0257】

この場合には、二つの文書３０１及び３０４について、それぞれ、「政治」をトピックとすることが推定されているので、要約部１１４は、文書３０１及び３０４から、一つの要約文を生成してもよい。この場合、生成される要約文は、一つ又は複数の文章からなる。

【0258】

このように、複数の文書について、同一のトピックを有することが推定される場合、これらの複数の文書から一つの要約文を生成するので、生成される要約文は、同一のトピックを有する複数の文書の内容を簡潔に代表する適切なものとすることができる。

【0259】

情報処理装置１０（要約生成装置）は、複数の文書からなる言語データから要約文を生成してもよい。クラスター推定部１１３は、複数の文書の各々について、複数の単語クラスターから、当該文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択してもよい。要約部１１４は、同一の話題に関係する単語を含む代表単語クラスターを生成する元になった話題文書が複数存在する場合、複数の話題文書から、代表単語クラスターに基づいて、要約文を生成してもよい。

【0260】

（２）文書に含まれる段落をデータ単位とする場合
文書に含まれる段落をデータ単位とする場合について、図１７を用いて説明する。

【0261】

この図に示すように、複数の文書３１１、３２１、３３１からなる言語データが要約生成の対象であるとする。また、文書３１１は、複数の段落３１２、３１３、３１４、３１５、３１６から構成され、文書３２１は、複数の段落３２２、３２３、３２４、３２５、３２６から構成され、文書３３１は、複数の段落３３２、３３３、３３４、３３５、３３６から構成されている、とする。

【0262】

ここで、クラスター推定部１１３により、文書３１１の段落３１２、３１３、３１４、３１５、３１６について、それぞれ、「政治」、「経済」、「経済」、「政治」、「経済」をトピックとする代表単位クラスターが選択されているとする。

【0263】

また、クラスター推定部１１３により、文書３２１の段落３２２、３２３、３２４、３２５、３２６について、それぞれ、「スポーツ」、「経済」、「スポーツ」、「経済」、「スポーツ」をトピックとする代表単位クラスターが選択されているとする。

【0264】

さらに、クラスター推定部１１３により、文書３３１の段落３３２、３３３、３３４、３３５、３３６について、それぞれ、「経済」、「経済」、「政治」、「経済」、「スポーツ」をトピックとする代表単位クラスターが選択されているとする。

【0265】

この場合には、文書３１１の段落３１２及び３１５並びに文書３３１の段落３３４について、それぞれ、「政治」をトピックとすることが推定されているので、要約部１１４は、文書３１１の段落３１２及び３１５並びに文書３３１の段落３３４から、一つの要約文を生成してもよい。この場合、生成される要約文は、一つ又は複数の文章からなる。

【0266】

このように、それぞれ複数の段落を含む複数の文書について、同一のトピックを有することが推定される段落が複数存在する場合、これらの複数の段落から一つの要約文を生成するので、生成される要約文は、同一のトピックを有する複数の段落の内容を簡潔に代表する適切なものとすることができる。

【0267】

なお、複数の段落を含む一つの文書ついて、同一のトピックを有することが推定される段落が複数存在する場合、これらの複数の段落から一つの要約文を生成してもよい。

【0268】

単語処理部１１２は、データ単位毎に、当該データ単位に含まれる単語を分類して、データ単位毎に、複数の単語クラスターを生成してもよい。クラスター推定部１１３は、データ単位毎に、複数の単語クラスターから、代表単語クラスターを選択してもよい。

【0269】

上述したように、要約部１１４は、複数のデータ単位から、要約文を抽出してもよい。

【0270】

また、要約部１１４は、複数の文書の複数のデータ単位から、要約文を抽出してもよい。

【0271】

１．２３まとめ
以上説明したように、生成された複数の単語クラスターから、クラスター推定部１１３により、文書の記載内容を代表する話題に関係する単語を含む代表単語クラスターを選択することにより、代表単語クラスターを用いて、代表話題を表した要約文を生成することができる。

【産業上の利用可能性】

【0272】

本開示にかかる要約生成装置は、代表話題を表した要約文を生成することができるという効果を奏し、文書を要約する技術として、有用である。

【符号の説明】

【0273】

１０情報処理装置
１００本体装置
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４記憶回路
１０５入出力回路
１０６制御部
１０７モニター
１０８キーボード
１０９マウス
１１０統括制御部
１１１音声認識部
１１２単語処理部
１１３クラスター推定部
１１４要約部
１２１形態素解析部
１２２品詞フィルタリング部
１２３単語クラスター生成部
１２４クラスター確率推定部
１２５代表単語クラスター推定部

【図1】