特開2023-163701 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社バズグラフの特許一覧

特開2023-163701処理装置、処理方法及び処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3A
3B
3C
4
5A
5B
6
7A
7B
7C
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023163701

(43)【公開日】2023-11-10

(54)【発明の名称】処理装置、処理方法及び処理プログラム

(51)【国際特許分類】

G10L 15/10 20060101AFI20231102BHJP

G10L 17/00 20130101ALI20231102BHJP

G06F 40/56 20200101ALI20231102BHJP

【ＦＩ】

G10L15/10 500T

G10L17/00 200C

G06F40/56

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022074772

(22)【出願日】2022-04-28

(71)【出願人】

【識別番号】516330516

【氏名又は名称】株式会社バズグラフ

(74)【代理人】

【識別番号】100151448

【弁理士】

【氏名又は名称】青木孝博

(74)【代理人】

【識別番号】230121016

【弁護士】

【氏名又は名称】小笠原匡隆

(72)【発明者】

【氏名】西本光治

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091CA21

(57)【要約】（修正有）

【課題】音声情報から生成されたテキスト情報の要約のために適したシステムを提供する。
【解決手段】システムにおける通信シーケンスは、端末装置１００が、一又は複数の話者により発話された音声情報の入力を受け付けるステップと、サーバ装置２００が、受け付けられた音声情報に基づいてテキスト情報を生成するステップと、テキスト情報を要約して生成される要約情報の文字数及びテキスト情報の文字数に対する要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいてテキスト情報から要約情報を生成するステップと、を含む。
【選択図】図５Ａ

【特許請求の範囲】

【請求項1】

少なくとも一つのプロセッサを含む処理装置であって、
前記少なくとも一つのプロセッサは、
一又は複数の話者により発話された音声情報の入力を受け付け、
受け付けられた前記音声情報に基づいてテキスト情報を生成し、
前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する、
ための処理を実行するように構成された、処理装置。

【請求項2】

前記割合は、前記テキスト情報の文字数に対する前記要約情報の文字数の割合である、請求項１に記載の処理装置。

【請求項3】

前記要約情報は、前記テキスト情報を複数の形態素又は複数の形態素を含む複数の形態素群に分割し、分割された前記複数の形態素又は前記複数の形態素群の間の関係性を特定し、特定された前記関係性に基づいて前記複数の形態素を構造化することによって生成される、請求項１に記載の処理装置。

【請求項4】

前記関係性の特定は、前記形態素又は前記形態素群について予め対応付けられた属性に基づいて行われる、請求項３に記載の処理装置。

【請求項5】

前記要約情報は、前記テキスト情報を前記複数の形態素又は前記複数の形態素群が含まれる複数のエレメント情報に分割し、分割されたエレメント情報ごとに発話した話者を特定し、特定された話者ごとに生成される、請求項３に記載の処理装置。

【請求項6】

前記要約情報は、ユーザにより入力された設定情報に基づいて、前記話者ごとに生成されるか、前記話者に関わらず生成されるかが選択される、請求項５に記載の処理装置。

【請求項7】

前記要約情報の文字数は、前記話者別要約情報の文字数である、請求項５に記載の処理装置。

【請求項8】

前記割合は、前記話者別テキスト情報の文字数に対する前記話者別要約情報の文字数の割合である、請求項７に記載の処理装置。

【請求項9】

少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、
一又は複数の話者により発話された音声情報の入力を受け付ける段階と、
受け付けられた前記音声情報に基づいてテキスト情報を生成する段階と、
前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する段階と、
を含む処理方法。

【請求項10】

少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、
一又は複数の話者により発話された音声情報の入力を受け付け、
受け付けられた前記音声情報に基づいてテキスト情報を生成し、
前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する、
ように機能させる処理プログラム。

【請求項11】

少なくとも一つのプロセッサを含む処理装置であって、
前記少なくとも一つのプロセッサは、
一又は複数の話者により発話された音声情報の入力を受け付け、
前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付け、
前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する、
ための処理を実行するように構成された、処理装置。

【請求項12】

少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、
一又は複数の話者により発話された音声情報の入力を受け付ける段階と、
前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付ける段階と、
前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する段階と、
を含む処理方法。

【請求項13】

少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、
一又は複数の話者により発話された音声情報の入力を受け付け、
前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付け、
前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する、
ように機能させる処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本実施形態は、音声情報から生成されたテキスト情報から要約情報を生成する処理を行う処理装置、処理方法、及び処理プログラムに関する。

【背景技術】

【0002】

１９９０年代以降のコンピュータの性能向上及び自然言語処理技術の向上に伴い、近年では、テキスト情報から要約情報を生成することが可能となっている。例えば、特許文献１は、鉄道事業に関するテキスト情報から、このテキスト情報の要点を含む要約情報を生成する方法等を開示する。しかしながら、特許文献１には、要約情報の文字数、及びテキスト情報の文字数に対して、要約文の文字数をどの程度の割合にするかを設定できない。また、話者ごとの要約情報を生成することはできない。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－０１２６２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本実施形態は、上述した背景からなされたものであり、音声情報から生成されたテキスト情報の要約のために適した処理装置を提供することを目的とする。

【課題を解決するための手段】

【0005】

本実施形態に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、一又は複数の話者により発話された音声情報の入力を受け付け、受け付けられた前記音声情報に基づいてテキスト情報を生成し、前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成するための処理を実行するように構成される。

【0006】

また、本実施形態に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、一又は複数の話者により発話された音声情報の入力を受け付ける段階と、受け付けられた前記音声情報に基づいてテキスト情報を生成する段階と、前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する段階とを含む。

【0007】

実施形態に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、一又は複数の話者により発話された音声情報の入力を受け付け、受け付けられた前記音声情報に基づいてテキスト情報を生成し、前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成するように機能させる。

【0008】

実施形態に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、一又は複数の話者により発話された音声情報の入力を受け付け、前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を、入力インターフェイスを介して受け付け、前記音声情報及び前記設定情報に基づいて生成された要約情報を出力するための処理を実行するように構成される。

【0009】

実施形態に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、一又は複数の話者により発話された音声情報の入力を受け付ける段階と、前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付ける段階と、前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する段階とを含む。

【0010】

実施形態に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、一又は複数の話者により発話された音声情報の入力を受け付け、前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付け、前記音声情報及び前記設定情報に基づいて生成された要約情報を出力するように機能させる。

【発明の効果】

【0011】

本実施形態によれば、音声情報から生成されたテキスト情報の要約のために適した処理装置、処理方法及び処理プログラムを提供することが可能である。

【0012】

なお、上述した効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上述した効果に加えて、又は上述した効果に代えて、本実施形態中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。

【図面の簡単な説明】

【0013】

【図1】図１は、実施形態に係るシステム１の構成を示す図である。

【図2A】図２Ａは、図１に示した端末装置１００の構成を例示する図である。

【図2B】図２Ｂは、図１に示したサーバ装置２００の構成を例示する図である。

【図2C】図２Ｃは、図１に示した特徴語辞書生成装置３００の構成を例示する図である。

【図3A】図３Ａは、サーバ装置２００における処理に用いられる情報を示す第１の図である。

【図3B】図３Ｂは、サーバ装置２００における処理に用いられる情報を示す第２の図である。

【図3C】図３Ｃは、サーバ装置２００における処理に用いられる情報を示す第３の図である。

【図4】図４は、エレメント情報Ｉを概念的に例示する図である。

【図5A】図５Ａは、システム１の各構成要素とこれらの構成要素の間の通信を示す通信シーケンス図である。

【図5B】図５Ｂは、図５Ａに示したＳ１４の処理を示す図である。

【図6】図６は、図１及び図２Ｂに示したサーバ装置２００の処理を示すフローチャートである。

【図7A】図７Ａは、図１及び図２Ａに示した端末装置１００の処理を示すフローチャートである。

【図7B】図７Ｂは、端末装置１００の出力インターフェイス１１１を介してディスプレイに表示されるＵＩ画像を例示する第１の図である。

【図7C】図７Ｃは、端末装置１００の出力インターフェイス１１１を介してディスプレイに表示されるＵＩ画像を例示する第２の図である。

【図8】図８は、図１及び図２Ｃに示した特徴語辞書生成装置３００の処理を示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、一つの実施形態として、会議等の一又は複数の話者の発言を含む音声をテキスト情報に変換し、文字数制限等に従って要約したり、話者ごとの発言を要約したりする装置を、図面を参照して詳細に説明する。なお、図面において実質的に同じ構成要素、処理及び情報には同じ符号及び名称が付される。また、「情報」と「データ」とは厳密には区別されない。また、「ユーザ」は、一人の自然人だけでなく、複数の自然人、法人、団体及び企業等を意味しうる。

【0015】

また、図面において、構成要素及び情報の数及び種類は例示的に示され、実施された装置においては、実施形態に示された構成要素等の数は、適宜、増減されたり変更されたりしうる。また、図面において、装置の間における通信の順番は例示的に示され、実施された装置においては、適宜、変更される。また、図面において、発明の本質的な説明に関係しない構成要素は、適宜、省略されることがある。また、図示の都合上、図面において、「情報」等、構成要素及び情報の名称の一部が適宜、省略されることがある。

【0016】

１．システム１の構成及びシステム１における処理の概要
図１は、実施形態に係るシステム１の構成を示す図である。図１に示すように、システム１は、端末装置１００、サーバ装置２００、特徴語辞書生成装置３００及び通信ネットワーク１２を含む。通信ネットワーク１２は、インターネット、ＬＡＮ、ＶＰＮ、ＷＡＮ及びクラウドネットワーク等である。端末装置１００と、サーバ装置２００と、特徴語辞書生成装置３００とは、有線通信回線及び無線通信回線又はこれらの一方を介して通信ネットワーク１２に接続される。これらの間では、通信ネットワーク１２を介して情報及びデータが相互に通信される。なお、図１には、サーバ装置２００と特徴語辞書生成装置３００とが個別の装置とされる場合が示されるが、これらは一つの装置として構成されてよい。また、特徴語辞書生成装置３００は、システム１に含まれる必要はなく、システム１と関係なく通信ネットワーク１２に接続されてもよい。

【0017】

なお、端末装置１００、サーバ装置２００及び特徴語辞書生成装置３００のいずれも、単独で、この実施形態に係る要約処理の全てを行う処理装置となりうる。ただし、以下の説明においては、端末装置１００が、複数の話者により発話された発言を含む会議等の音声情報をサーバ装置２００に送信し、サーバ装置２００が音声情報を受信して要約処理を行う場合が具体例とされる。また、サーバ装置２００が生成した要約情報を端末装置１００に返す場合が具体例とされる。なお、サーバ装置２００による要約処理には、特徴語辞書生成装置３００からサーバ装置２００に提供される特徴語辞書が利用される。

【0018】

端末装置１００は、マイク１１９等を用いて上述した会議等の音声情報を、ユーザの操作に応じて生成し、あるいは、通信ネットワーク１２に接続されたＷｅｂサーバ等の他の装置（不図示）から受信する。端末装置１００は、生成又は受信した音声情報の一部又は全部を、設定情報及び要約生成要求情報とともにサーバ装置２００に送信し、要約情報の生成を要求する。設定情報は、要約情報の文字数等を示す。また、要約生成要求情報は、端末装置１００からサーバ装置２００に、要約情報の生成が要求されたことを示す。端末装置１００は、要約処理の要求に応じテキスト情報をサーバ装置２００から受信して表示する。そして、端末装置１００は、テキスト情報及び要約対象テキスト情報としてサーバ装置２００に送信する。さらに、端末装置１００は、要約対象テキスト情報と設定情報に基づいてサーバ装置２００が生成した要約情報を、サーバ装置２００から受信して表示する。

【0019】

設定情報は、上述した音声情報に対する音声認識処理により得られるテキスト情報を要約して生成される要約情報の文字数、又は要約情報の文字数のテキスト情報の文字数に対する割合を示す情報を含む。なお、テキスト情報を要約して生成される要約情報の文字数を示す情報は文字数情報とも記載される。また、要約情報の文字数のテキスト情報の文字数に対する割合は、圧縮率とも呼ばれ、圧縮率を示す情報は圧縮率情報とも記載される。

【0020】

また、この実施形態では、システム１において、サーバ装置２００が、日本語のテキスト情報から要約情報を生成する場合が具体例とされる。テキスト情報は、形態素及び形態素群を含む。形態素は、言語学の用語であって、意味をもつ表現要素の最小単位であり、ある言語において、それ以上分解したら意味をなさなくなるところまで分割して抽出された音素のまとまりのそれぞれである。なお、英語等のように、単語が一つずつ分かち書きされる言語においては、例外はあるが、ほぼ、一つの単語が一つの形態素である。

【0021】

このように、複数の形態素を含むテキスト情報には、ワードプロセッサを利用してユーザにより生成されるテキスト情報、Ｗｅｂサーバにより提供されるテキスト情報、上述したような会議の音声を認識して得られるテキスト情報等、ごく一般的で普通のテキスト情報が含まれる。例えば、テキスト情報が、「テキスト情報に」という文字列を含んでいる場合には、この文字列に含まれる形態素は、「テキスト」、「情報」及び「に」である。また、この実施形態においては、複数の形態素「テキスト」及び「情報」を含む「テキスト情報」、及び複数の形態素「情報」及び「に」を含む「情報に」等、複数の形態素を含む一連の音素は、「形態素群」と記載される。

【0022】

２．端末装置１００の構成
以下、図２Ａを参照して、端末装置１００の構成を説明する。図２Ａは、図１に示した端末装置１００の構成を例示する図である。なお、端末装置１００は、図２に示す構成要素の全てを備える必要はなく、端末装置１００の一部の構成要素は省略されうる。また、端末装置１００には、図２Ａに示す以外の他の構成要素が加えられうる。端末装置１００は、スマートフォンといった携帯端末装置、タブレット型コンピュータといった端末装置、又はノート型パーソナルコンピュータ（ＰＣ）及びデスクトップ型ＰＣといった汎用の情報処理装置でありうる。

【0023】

図２Ａに示すように、端末装置１００は、バスを介して相互に接続された出力インターフェイス（出力ＩＦ）１１１、プロセッサ１１２、メモリ１１３、通信インターフェイス（通信ＩＦ）１１４、入力インターフェイス（入力ＩＦ）１１６、及びマイク１１９を含む。メモリ１１３は、ＲＡＭ、ＲＯＭ、不揮発性メモリ（ＮＶＭ）、ＨＤＤ（不図示）及びＳＳＤ（不図示）等を含む。

【0024】

出力インターフェイス１１１は、スピーカ及びディスプレイ（不図示）等の出力デバイスを端末装置１００に接続する。なお、これらの出力デバイスは、端末装置１００の外部に配置され、出力インターフェイス１１１を介して接続されても、端末装置１００と一体に構成されて出力インターフェイス１１１に接続されてもよい。例えば、出力インターフェイス１１１に接続されるディスプレイは、プロセッサ１１２の指示に応じて、メモリ１１３に記憶された画像情報を読み出して、各種表示を行う表示部として機能する。ディスプレイは、実施形態に係る要約処理の実行のための情報等を表示する。なお、ディスプレイは、例えば液晶ディスプレイや有機ＥＬディスプレイから構成される。出力インターフェイス１１１に接続されるスピーカは、端末装置１００が受信した音声データから得られた音声信号を出力するオーディオ出力部として機能する。

【0025】

プロセッサ１１２は、１以上のＣＰＵ（マイクロプロセッサ）又は１以上のＣＰＵと画像処理に特化した１以上のＧＰＵ等との組合せと、その周辺回路とから構成される。プロセッサ１１２は、メモリ１１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ１１２は、実施形態に係る要約処理を実行するための所定の指示命令を含むアプリケーションプログラム、及びＯＳの処理のための所定の指示命令を含むプログラムをメモリ１１３から読み出して実行する。

【0026】

ＯＳは、アプリケーションプログラムのインストール、アンインストール、起動、実行、及び常駐等のための様々な機能を提供する。また、ＯＳは、プロセッサ１１２によるアプリケーションプログラムの実行のための機能を提供する。ＯＳにより提供されるこれらの機能は、端末装置１００とサーバ装置２００との通信のために必要とされる機能を含む。

【0027】

特に、端末装置１００のプロセッサ１１２は、一又は複数の話者により発話された音声から音声情報を生成する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。また、プロセッサ１１２は、生成した音声情報の要約に対する設定を示す設定情報を生成する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。また、プロセッサ１１２は、生成した音声情報及び設定情報を送信する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。また、プロセッサ１１２は、サーバ装置２００から受信したテキスト情報を、出力インターフェイス１１１を介して出力し、入力インターフェイス１１６を介してユーザの操作入力を受け付ける所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。また、プロセッサ１１２は、受信したテキスト情報に対してユーザの操作入力に基づいて例えば修正がされたテキスト情報を要約対象テキスト情報として、修正前のテキスト情報とともに、通信インターフェイス１１４を介してサーバ装置２００に送信する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。また、プロセッサ１１２は、音声情報に基づいて生成されたテキスト情報から、設定情報に基づいて生成された要約情報を受信する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。

【0028】

ＲＡＭは、ＲＯＭに記憶されたアプリケーションプログラム及びＯＳのプログラムがプロセッサ１１２により処理されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ１１２により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。

【0029】

特に、端末装置１００のメモリ１１３は、一又は複数の話者により発話された音声から音声情報を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ１１３は、生成した音声情報の要約に対する設定を示す設定情報を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ１１３は、生成した音声情報及び設定情報を送信する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ１１３は、音声情報に基づいて生成されたテキスト情報から、設定情報に基づいて生成された要約情報を受信する所定の指示命令を含むアプリケーションプログラムを記憶する。

【0030】

通信インターフェイス１１４は、通信処理回路１１５及びアンテナを介して通信ネットワーク１２と端末装置１００とを接続し、通信ネットワーク１２に接続されたサーバ装置２００等の他の装置との間で、データの送受信を行う通信部として機能する。通信処理回路１１５は、広帯域又は狭帯域の無線通信方式によって、通信ネットワーク１２と端末装置１００の間で、アンテナを介して情報を通信するための通信処理を行う。なお、広帯域の無線通信方式は、例えばＬＴＥ方式であり、狭帯域の無線通信方式は、例えばＩＥＥＥ８０２．１１及びＢｌｕｅｔｏｏｔｈ（登録商標）等である。また、通信処理回路１１５は、無線通信の代わりに、又は無線通信に加えて、有線通信のための処理を行ってもよい。

【0031】

入力インターフェイス１１６は、マウス１１７及びハードキー１１８等の入力デバイスと有線通信又は無線通信によって接続され、ユーザの操作を受け入れて各種情報の入力を受ける入力部として機能する。入力インターフェイス１１６の例としては、シリアルポート、パラレルポート、及びＵＳＢ等が挙げられる。また、無線通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標））によりマウス１１７を接続するような場合には、無線通信機能を有する構成要素に、入力インターフェイス１１６及び通信インターフェイス１１４の機能を兼用させることも可能である。

【0032】

マウス１１７は、それ自体の移動を検出するセンサ、左ボタン及び右ボタン等を含む。マウス１１７は、ディスプレイに表示されたマウスポインタを移動させるユーザの操作を検出する。ハードキー１１８は、機械的スイッチを含み、ユーザによる端末装置１００への操作を受け入れて、入力インターフェイス１１６を介してプロセッサ１１２に出力する。なお、端末装置１００とハードキー１１８とは一体に構成されても、別々に構成されてもよい。端末装置１００とハードキー１１８とが別々に構成される場合には、端末装置１００とマウス１１７及びハードキー１１８の間は無線通信又は有線通信によって接続される。マイク１１９は、端末装置１００の周囲の音声、例えば、上述した会議等の音声を電気的なアナログ形式の音声信号に変換して増幅し、さらに、増幅した音声信号をディジタル形式の音声情報に変換し、プロセッサ１１２に出力する。

【0033】

３．サーバ装置２００の構成
以下、図２Ｂを参照して、サーバ装置２００の構成を説明する。図２Ｂは、図１に示したサーバ装置２００の構成を例示する図である。例えば、サーバ装置２００は、ＰＣサーバあるいは大型コンピュータ等の情報処理装置でありうる。サーバ装置２００は、端末装置１００から、設定情報及び要約生成要求情報を伴う音声情報を受信し、受信した音声情報に対する音声認識処理により、音声信号をテキスト情報に変換する。さらに、サーバ装置２００は、設定情報に基づいてテキスト情報を要約し、要約情報を生成する。サーバ装置２００は、要約処理において、特徴語辞書生成装置３００から提供される特徴語辞書を用いる。サーバ装置２００は、生成した要約情報を、端末装置１００に送信する。

【0034】

図２Ｂに示すように、サーバ装置２００は、端末装置１００と同様に、バス等を介して相互に接続された出力インターフェイス２１１と、プロセッサ２１２と、メモリ２１３と、通信インターフェイス２１４とを備える。そして、サーバ装置２００のこれらの構成要素は、バス等を介して電気的に接続され、データ及び情報を相互に送受信する。メモリ２１３は、ＲＡＭ、ＲＯＭ、不揮発性メモリ、ＨＤＤ（不図示）及びＳＳＤ（不図示）等を含む。

【0035】

なお、サーバ装置２００は、図２Ｂに示す構成要素の全てを備える必要はなく、一部の構成要素は省略されうる。また、サーバ装置２００に、図２Ｂに示した以外の他の構成要素が加えられうる。なお、サーバ装置２００のメモリ２１３及びプロセッサ２１２は、１台のコンピュータにおいて一体に構成されても、複数のコンピュータに渡って分散されて構成されてもよい。

【0036】

出力インターフェイス２１１は、端末装置１００の出力インターフェイス１１１と同様に、スピーカ及びディスプレイ（不図示）等の出力デバイスをサーバ装置２００に接続する。なお、これらの出力デバイスは、サーバ装置２００の外部に配置され、出力インターフェイス２１１を介して接続されても、サーバ装置２００と一体に構成されて出力インターフェイス２１１に接続されてもよい。

【0037】

プロセッサ２１２は、端末装置１００のプロセッサ１１２と同様に、１以上のＣＰＵ（マイクロプロセッサ）、又は１以上のＣＰＵと１以上のＧＰＵ等との組合せと、その周辺回路とから構成される。プロセッサ２１２は、メモリ２１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ２１２は、アプリケーションプログラム及びＯＳ等の所定の指示命令を含むプログラムをメモリ２１３から読み出して実行する。

【0038】

特に、サーバ装置２００のプロセッサ２１２は、一又は複数の話者により発話された音声から生成された音声情報を受信する所定の指示命令を含むアプリケーションプログラムをメモリ２１３から読み出して実行する。また、プロセッサ２１２は、受信した音声情報に基づいてテキスト情報を生成し、通信インターフェイス２１４を介して端末装置１００に生成されたテキスト情報を送信する所定の指示命令を含むアプリケーションプログラムをメモリ２１３から読み出して実行する。また、プロセッサ２１２は、通信インターフェイス２１４を介して端末装置１００から要約対象テキスト情報とテキスト情報を受信する所定の指示命令を含むアプリケーションプログラムをメモリ２１３から読み出して実行する。また、プロセッサ２１２は、予め設定された文字数及びテキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に基づいて、要約対象テキスト情報から要約情報を生成する所定の指示命令を含むアプリケーションプログラムをメモリ２１３から読み出して実行する。

【0039】

なお、サーバ装置２００における要約情報の生成のためには、音声認識処理、形態素解析処理、関係性解析処理、構造化処理、及び要約処理が行われる。また、関係性解析処理は、機能素解析処理及び特徴語解析処理を含む。音声認識処理により、音声情報が認識されてテキスト情報とされる。そして、端末装置１００にテキスト情報が送信された後、端末装置１００から要約対象テキスト情報が取得される。その後、形態素解析処理により要約対象テキスト情報が、個々の形態素、及び複数の形態素を含む形態素群に分割される。関係性解析処理は、特徴語辞書生成装置３００により提供される特徴語辞書を用いて、機能素解析処理及び特徴語解析処理を行って形態素及び形態素群それぞれの属性を特定し、さらに、形態素及び形態素群の間の関係を特定する。なお、「形態素同士の間」は、「形態素と形態素との間」、「形態素と形態素群との間」及び「形態素群同士の間」の総称である。構造化処理は、属性及び関係が特定された形態素及び形態素群について主体、対象、補足、動作状態などの意味のある単位（例えば一つの文章）ごとに分割された一又は複数のエレメント情報を取得する。要約処理は、形態素及び形態素群が含まれた各エレメント情報に基づいて要約して要約情報を生成する。

【0040】

メモリ２１３は、記憶部として機能する。さらに、メモリ２１３には、端末装置１００に対して着脱可能な記憶媒体やデータベース（不図示）等が接続されうる。メモリ２１３において、ＲＯＭは、ＯＳ等の処理のための所定の指示命令を含むプログラムを記憶する。

【0041】

ＲＡＭは、アプリケーションプログラム及びＲＯＭに記憶された及びＯＳのプログラムがプロセッサ２１２により実行されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ１１２により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。

【0042】

特に、サーバ装置２００のメモリ２１３は、一又は複数の話者により発話された音声から生成された音声情報を受信する所定の指示命令を含むアプリケーションプログラムを記憶する。また、プロセッサ２１２は、受信した音声情報に基づいてテキスト情報を生成し、予め設定された文字数及びテキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に基づいて、テキスト情報から要約情報を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。

【0043】

サーバ装置２００の通信インターフェイス２１４は、端末装置１００の通信インターフェイス１１４と同様の機能を有する。つまり、サーバ装置２００の通信インターフェイス２１４は、無線通信回線又は有線通信回線を介して通信ネットワーク１２とサーバ装置２００とを通信のために接続する通信部として機能する。サーバ装置２００の通信インターフェイス２１４は、通信ネットワーク１２を介して接続された端末装置１００等の他の装置との間で、情報及びデータの送受信を行う。また、サーバ装置２００の通信インターフェイス２１４は、これらの装置の間で、情報及びデータの送受信を行う。

【0044】

４．特徴語辞書生成装置３００の構成
以下、図２Ｃを参照して、特徴語辞書生成装置３００の構成を説明する。図２Ｃは、図１に示した特徴語辞書生成装置３００の構成を例示する図である。例えば、特徴語辞書生成装置３００は、サーバ装置２００と同様に、ＰＣサーバあるいは大型コンピュータ等の情報処理装置でありうる。

【0045】

特徴語辞書生成装置３００は、テキスト情報をサーバ装置２００から継続的に受信してメモリ３１３に記憶する。あるいは、特徴語辞書生成装置３００は、通信ネットワーク１２に接続されたＷｅｂサーバ等（不図示）からテキスト情報を受信してメモリ３１３に記憶する。システム１が、多数の端末装置１００を含む場合には、特徴語辞書生成装置３００がサーバ装置２００から受信するテキスト情報は、大量になる。特徴語辞書生成装置３００は、さらに、記憶した大量のテキスト情報から、サーバ装置２００において要約処理に用いられる複数の特徴語を含む特徴語辞書を生成し、サーバ装置２００に対して送信する。なお、特徴語とは、大量のテキスト情報における出現頻度等に基づいて重み付けをすることにより抽出される単語である。

【0046】

図２Ｃに示すように、特徴語辞書生成装置３００は、端末装置１００及びサーバ装置２００と同様に、バス等を介して相互に接続された出力インターフェイス３１１と、プロセッサ３１２と、メモリ３１３と、通信インターフェイス３１４とを備える。そして、特徴語辞書生成装置３００のこれらの構成要素は、バス等を介して電気的に接続され、データ及び情報を相互に送受信する。メモリ３１３は、ＲＡＭ、ＲＯＭ、不揮発性メモリ、ＨＤＤ（不図示）及びＳＳＤ（不図示）等を含む。

【0047】

なお、特徴語辞書生成装置３００は、図２Ｃに示す構成要素の全てを備える必要はなく、一部の構成要素は省略されうる。また、特徴語辞書生成装置３００に、図２Ｃに示した以外の他の構成要素が加えられうる。なお、特徴語辞書生成装置３００のメモリ３１３及びプロセッサ３１２は、サーバ装置２００のメモリ２１３及びプロセッサ２１２と同様に、１台のコンピュータにおいて一体に構成されても、複数のコンピュータに渡って分散されて構成されてもよい。

【0048】

出力インターフェイス３１１は、端末装置１００の出力インターフェイス１１１及びサーバ装置２００の出力インターフェイス２１１と同様に、スピーカ及びディスプレイ（不図示）等の出力デバイスを特徴語辞書生成装置３００に接続する。なお、これらの出力デバイスは、特徴語辞書生成装置３００の外部に配置され、出力インターフェイス３１１を介して接続されても、特徴語辞書生成装置３００と一体に構成されて出力インターフェイス３１１に接続されてもよい。

【0049】

プロセッサ３１２は、端末装置１００のプロセッサ１１２及びサーバ装置２００のプロセッサ２１２と同様に、１以上のＣＰＵ（マイクロプロセッサ）、又は１以上のＣＰＵと１以上のＧＰＵ等との組合せと、その周辺回路とから構成される。プロセッサ３１２は、メモリ３１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ３１２は、アプリケーションプログラム及びＯＳ等の所定の指示命令を含むプログラムをメモリ３１３から読み出して実行する。

【0050】

特に、特徴語辞書生成装置３００のプロセッサ３１２は、サーバ装置２００及び通信ネットワーク１２に接続されたＷｅｂサーバ等からテキスト情報を受信して記憶する所定の指示命令を含むアプリケーションプログラムをメモリ３１３から読み出して記憶する。また、プロセッサ３１２は、記憶したテキスト情報から特徴語を抽出する所定の命令を含むアプリケーションプログラムをメモリ３１３から読み出して実行する。また、プロセッサ３１２は、抽出した特徴語から特徴語辞書を生成する所定の命令を含むアプリケーションプログラムを読み出して実行する。

【0051】

メモリ３１３は、記憶部として機能する。さらに、メモリ３１３には、端末装置１００に対して着脱可能な記憶媒体やデータベース（不図示）等が接続されうる。メモリ３１３において、ＲＯＭは、ＯＳ等の処理のための所定の指示命令を含むプログラムを記憶する。

【0052】

ＲＡＭは、アプリケーションプログラム及びＲＯＭに記憶された及びＯＳのプログラムがプロセッサ３１２により実行されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ３１２により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。

【0053】

特に、特徴語辞書生成装置３００のメモリ３１３は、サーバ装置２００及び通信ネットワーク１２に接続されたＷｅｂサーバ等からテキスト情報を受信して記憶する所定の指示命令を含むアプリケーションプログラムを記憶する。また、プロセッサ３１２は、記憶したテキスト情報から特徴語を抽出する所定の命令を含むアプリケーションプログラムを記憶する。また、プロセッサ３１２は、抽出した特徴語から特徴語辞書を生成する所定の命令を含むアプリケーションプログラムを記憶する。

【0054】

特徴語辞書生成装置３００の通信インターフェイス３１４は、端末装置１００の通信インターフェイス１１４と同様の機能を有する。つまり、特徴語辞書生成装置３００の通信インターフェイス３１４は、無線通信回線又は有線通信回線を介して通信ネットワーク１２と特徴語辞書生成装置３００とを通信のために接続する通信部として機能する。特徴語辞書生成装置３００の通信インターフェイス３１４は、通信ネットワーク１２を介して接続された端末装置１００等の他の装置との間で、情報及びデータの送受信を行う。また、特徴語辞書生成装置３００の通信インターフェイス３１４は、これらの装置の間で、情報及びデータの送受信を行う。

【0055】

５．サーバ装置２００における処理に用いられる情報
以下、サーバ装置２００における処理に用いられる情報を説明する。図３Ａ～図３Ｃは、サーバ装置２００における処理に用いられる情報を示す第１～第３の図である。なお、図３Ａ～図３Ｃに示す情報のテーブルの同じ行に含まれる行同士は、互いに関係を有する。例えば、これらのテーブルの同じ行に含まれるテキスト情報Ｃと要約情報Ｌとは関係を有し、要約情報Ｌはテキスト情報Ｃから生成される。また、これらのテーブルの同じ行に含まれる要約情報Ｌと設定情報Ｙとは関係を有し、要約情報Ｌは、テキスト情報Ｃから、設定情報Ｙに基づいて生成される。

【0056】

まず、図３Ａを参照して音声情報テーブルを説明する。図３Ａ～図３Ｃのうち、図３Ａは、音声情報に対する処理に用いられる情報を含む音声情報テーブルを概念的に示す図である。図３Ａに示すように、音声情報テーブルの各行は、音声識別情報Ａ、音声情報Ｂ、テキスト情報Ｃ、要約対象テキスト情報Ｓ、形態素・形態素群情報Ｄ、関係性情報Ｅ及びエレメント情報Ｉを対応付けて含む。

【0057】

音声情報テーブルの各行において、音声識別情報Ａは、音声情報Ｂを一意に識別する。言い換えると、音声識別情報Ａは、音声情報テーブルの各行の含まれる情報を一意に識別する。音声情報Ｂは、サーバ装置２００のプロセッサ２１２が、通信インターフェイス２１４を介して端末装置１００から受信し、メモリ２１３に記憶することにより生成する。なお、音声情報Ｂは、タイムスタンプを含み、このタイムスタンプは、音声情報Ｂの生成が開始されてから終了するまでの時刻を、例えば０．１秒間隔で示す。なお、サーバ装置２００の処理において、音声情報Ｂに含まれる形態素、及び複数の形態素を含む形態素群の経時的な順番が常に保たれる場合には、音声情報Ｂがタイムスタンプを含む必要はない。

【0058】

テキスト情報Ｃは、音声情報Ｂに対して音声認識処理を行って得られたテキスト情報である。テキスト情報Ｃもまた、上述したタイムスタンプを含む。要約対象テキスト情報Ｓは、端末装置１００により受け付けられた操作入力により要約対象として確定したテキスト情報である。要約対象テキスト情報Ｓもまた、上述したタイムスタンプを含む。タイムスタンプにより要約対象テキスト情報Ｓの各部分と、音声情報Ｂの各部分とが対応付けられ、要約対象テキスト情報Ｓに含まれる形態素が、音声情報Ｂにおいてと同じに経時的に配列される。

【0059】

形態素・形態素群情報Ｄは、要約対象テキスト情報Ｓに対して形態素解析処理を行って生成された一つ以上の形態素及び形態素群である。形態素及び形態素群それぞれにも、上述したタイムスタンプが付され、形態素及び形態素群それぞれと、音声情報Ｂ及び要約対象テキスト情報Ｓの各部分とが対応付けられる。なお、一般に、１の要約対象テキスト情報Ｓから、複数の形態素及び複数の形態素群が生成される。関係性情報は、関係性解析処理により形態素・形態素群情報Ｄに含まれる形態素及び形態素群の間の関係を示す。エレメント情報Ｉは、構造化処理により意味のある単位にまとめられた形態素及び形態素群であって、端的には一つの文章を構成する情報である。

【0060】

ここで、構造化処理された形態素及び形態素群を含むエレメント情報について、具体例を挙げて説明する。図４は、エレメント情報Ｉを概念的に例示する図である。なお、図４に示すエレメント情報Ｉは、「ＡＡ病からの完全復活を目指すＢＢ競技選手のＥＥがＦＦ日ＳＮＳアプリを更新」との内容のテキスト情報から得られる。

【0061】

構造化処理により、このテキスト情報に含まれる形態素群「ＥＥが」が主語であることが示される。また、形態素「更新した」が動作状態であり、形態素群「ＳＮＳアプリを」が対象であり、形態素群「ＦＦ日」が補足であり、形態素群「ＢＢ競技選手の」が限定修飾であり、形態素群「ＡＡ病からの完全復活を目指す」が説明修飾であることが示される。なお、図４において、形態要素群の間の矢印の方向は、これらの間の係り受けを示す。このように、構造化処理によって、各形態素及び形態素群の関係及び属性が特定され、要約対象テキスト情報Ｓに含まれる形態素及び形態素群が意味のある単位に分割される。例えば、主語となる形態素又は形態素群と動作状態を示す形態素又は形態素群が一つずつ存在し、されにこれら形態素又は形態素群と関係を有する他の形態素又は形態素群で一つの単位と判断される。つまり、主語となる形態素又は形態素群と動作状態を示す形態素又は形態素群が再度登場してきた場合には、それは次の単位と判断される。

【0062】

次に、図３Ｂを参照して、要約情報テーブルを説明する。図３Ｂは、要約対象テキスト情報Ｓを分割してエレメント情報Ｉとし、さらに、エレメント情報から要約情報Ｌを生成するために用いられる要約情報テーブルを概念的に示す図である。図３Ｂに示すように、要約情報テーブルの各行は、要約識別情報Ｈ、エレメント情報Ｉ、話者情報Ｊ、話者表示情報Ｋ、要約情報Ｌ及び話者別テキスト情報Ｏを対応付けて含む。要約情報Ｌは、要約対象テキスト情報Ｓが要約処理された後には、話者別要約情報Ｍ及び全体要約情報Ｎの少なくとも一方を含み、これらは、区別の必要がない場合には、要約情報Ｌと総称される。ただし、話者表示情報Ｋは、要約情報テーブルにおいて必須ではない。

【0063】

要約情報テーブルの各行において、要約識別情報Ｈは、要約情報Ｌを一意に識別する。言い換えると、要約識別情報Ｈは、要約情報テーブルの各行の含まれる情報を一意に識別する。エレメント情報Ｉは、上述のとおり構造化処理によって要約対象テキスト情報Ｓを分割することにより得られ、一又は複数の形態素及び形態素群の少なくともいずれかを含む。エレメント情報Ｉもまた、上述したタイムスタンプを含み、エレメント情報Ｉと音声情報Ｂ等の各部分とが対応付けられる。話者情報Ｊは、エレメント情報Ｉに対応する音声情報Ｂに対して話者識別処理を行うことにより生成され、エレメント情報Ｉを含む形態素及び形態素群又はこれらのいずれかを発話した話者を示す。

【0064】

話者表示情報Ｋは、要約対象テキスト情報Ｓに含まれる形態素及び形態素群又はこれらのいずれかを、話者ごとに表示したり、話者別要約情報Ｍを表示したりするときに、話者を示すために用いられる。話者表示情報Ｋは、例えば、「話者Ａ」、「話者Ｂ」及び「話者Ｃ」等であり、あるいは、「（会議の）参加者Ａ」、「参加者Ｂ」及び「参加者Ｃ」等である。話者表示情報Ｋは、エレメント情報Ｉと対応付けられ、あるいは、このエレメント情報Ｉを構成する形態素又は形態素群からなる要約対象テキスト情報Ｓを含む。

【0065】

話者別テキスト情報Ｏは、要約対象テキスト情報Ｓに含まれる話者ごとのエレメント情報Ｉを、要約対象テキスト情報Ｓに含まれるタイムスタンプに従って経時的に配列することにより生成される。話者別要約情報Ｍは、設定情報Ｙ（図３Ｃ）に含まれる全体／話者別情報Ｖが話者別要約情報Ｍ（図３Ｂ）を生成すべきことを示す場合に、話者別テキスト情報Ｏを話者ごとに要約処理することにより生成される。なお、話者別要約情報Ｍの文字数の上限は、設定情報Ｙに含まれる文字数情報Ｔ又は圧縮率情報Ｕ、及び要約態様情報Ｗにより決められる。全体要約情報Ｎは、話者別要約情報Ｍ（図３Ｂ）を生成すべきことを全体／話者別情報Ｖが示す場合に、要約対象テキスト情報Ｓの全体を、話者に関係なく要約処理することにより生成される。話者別要約情報Ｍの文字数の上限もまた、設定情報Ｙに含まれる文字数情報Ｔ又は圧縮率情報Ｕ、及び要約態様情報Ｗにより決められる。

【0066】

ここで、要約対象テキスト情報Ｓからエレメント情報Ｉ及び話者情報Ｊを生成する処理を、具体例を挙げてさらに説明する。エレメント情報Ｉは、図３Ａに示した要約対象テキスト情報Ｓに対して構造化処理等の処理を行うことにより生成される。会議等の音声から生成された要約対象テキスト情報Ｓは、複数の形態素及び形態素群を含みうる。従って、要約対象テキスト情報Ｓは、複数の形態素及び形態素群に分割されうる。

【0067】

なお、要約対象テキスト情報Ｓは、形態素の集合、形態素及び形態素群の集合、及び形態素群の集合の少なくとも一つごとの区切りを示す句読点「、」及び「。」、カンマ及びピリオド「，」，「．」及びスペース等の区切情報を必ずしも含まない。なお、この記載においては、「形態素の集合」、「形態素及び形態素群の集合」及び「形態素群の集合」は、「形態素及び形態素群の集合」と総称される。なお、形態素及び形態素群の集合はエレメント情報Ｉを構成するが、一般的には「文章」や「文節」と呼ばれるものである。複数の形態素及び形態素群の集合を区切るためには、区切情報を、形態素及び形態素群の集合同士の間に挿入する必要があり、また、最初及び最後の形態素及び形態素群の集合に後置する必要がある。なお、日本語のテキスト情報に含まれる形態素及び形態素群の集合を区切る区切情報は、句読点「、」及び「。」等の形態素及び形態素群の集合の区切りを示す句読点情報でありうる。このように、要約対象テキスト情報Ｓに含まれる形態素及び形態素群の集合同士の間に句読点情報を挿入する。このように、要約対象テキスト情報Ｓを、形態素及び形態素群の集合ごとに区切り、構造化処理等によってエレメント情報Ｉが得られるが、さらにこのような区切り情報を挿入することも可能である。

【0068】

エレメント情報Ｉは、同一の話者により発言されたと推定されうる。従って、エレメント情報Ｉの話者は、エレメント情報Ｉ、又はエレメント情報Ｉに含まれる形態素及び形態素群の少なくともいずれかに対応する音声情報Ｂに対して話者識別処理を行うことにより特定されうる。つまり、エレメント情報Ｉに対する話者識別処理により、エレメント情報Ｉの話者が特定され、特定された話者を示す話者情報Ｊが生成され、エレメント情報Ｉに対応付けられうる。

【0069】

次に、図３Ｃを参照して、設定情報テーブルを説明する。図３Ｃは、要約対象テキスト情報Ｓから要約情報Ｌを生成するために用いられる設定情報テーブルを概念的に示す図である。図３Ｃに示すように、設定情報テーブルの各行は、設定識別情報Ｒ１と、設定情報Ｙとを対応付けて含む。設定情報Ｙは、サーバ装置２００のプロセッサ２１２が、通信インターフェイス２１４を介して端末装置１００から受信し、メモリ２１３に記憶する。設定情報Ｙは、文字数情報Ｔ、圧縮率情報Ｕ、全体／話者別情報Ｖ、及び要約態様情報Ｗを含む。

【0070】

設定情報テーブルの各行に含まれる設定識別情報Ｒは、設定情報Ｙを一意に識別する。つまり、設定識別情報Ｒは、設定情報テーブルの各行を一意に識別する。設定情報Ｙに含まれる情報のうち、全体／話者別情報Ｖは、話者を特定せず、要約対象テキスト情報Ｓの全体から全体要約情報Ｎを生成するか、話者を特定して話者ごとに話者別要約情報Ｍを生成するかを示す。

【0071】

文字数情報Ｔは、全体／話者別情報Ｖが、話者別要約情報Ｍを生成することを示す場合には、話者別要約情報Ｍの話者ごとの要約情報Ｌの文字数の上限、又は、話者別要約情報Ｍの話者全ての要約情報Ｌの文字数の上限を示す。また、文字数情報Ｔは、全体／話者別情報Ｖが、全体要約情報Ｎを生成することを示す場合には、全体要約情報Ｎの上限の文字数を示す。圧縮率情報Ｕは、全体要約情報Ｎ及び話者別要約情報Ｍの文字数の要約対象テキスト情報Ｓの文字数に対する割合の上限を示す。要約態様情報Ｗは、要約対象テキスト情報Ｓを要約する態様を示す。なお、設定情報テーブルは、文字数情報Ｔ及び圧縮率情報Ｕの少なくともいずれかを含めばよく、また、要約態様情報Ｗを必須としない。また、設定情報Ｙに含まれる文字数情報Ｔ等の情報を区別する必要がない場合には、これらの情報は設定情報Ｙと総称される。

【0072】

要約態様情報Ｗは、文字数情報Ｔにより要約情報Ｌの文字数の上限が決められる場合に、要約情報Ｌの文字数を、文字数情報Ｔが示す要約情報の文字数を超えない範囲で、できるだけこの文字数に近づけるようにすることを示す。あるいは、この場合に、要約態様情報Ｗは、要約情報Ｌの文字数が、文字数情報が示す文字数を少し超えたとしても、内容がユーザに理解されやすいように要約情報を生成することを示す。

【0073】

また、要約態様情報Ｗは、圧縮率情報Ｕにより要約情報Ｌの文字数の上限が決められる場合には、要約対象テキスト情報Ｓの文字数に、圧縮率情報が示す割合を乗算した文字数を計算する。要約態様情報Ｗは、要約情報Ｌの文字数を、この乗算値を超えない範囲で、できるだけこの文字数に近づけるようにすることを示す。あるいは、この場合に、要約態様情報Ｗは、要約情報Ｌの文字数が、この乗算値を少し超えたとても、内容がユーザに理解されやすいように要約情報Ｌを生成することを示す。

【0074】

６．システム１の構成要素の処理及びこれらの間の通信
以下、通信シーケンス図を参照して、システム１における端末装置１００、サーバ装置２００及び特徴語辞書生成装置３００の処理と、これらの間の通信を説明する。図５Ａは、システム１の各構成要素とこれらの構成要素の間の通信を示す通信シーケンス図である。図５Ｂは、図５Ａに示したＳ１４の処理を示す図である。

【0075】

Ｓ１００において、ユーザが、端末装置１００に対して、会議等の音声から会議の発言内容を要約した要約情報Ｌ（図３Ｂ）を生成するためのアプリケーションプログラムの起動を、入力インターフェイス１１６を介して行う。その後、端末装置１００のプロセッサ１１２は、入力インターフェイス１１６を介して要約情報Ｌの生成機能の選択をするための操作を、入力インターフェイス１１６を介して受け入れると、マイク１１９を起動する。そして、プロセッサ１１２は、端末装置１００を、マイク１１９を用いて端末装置１００の周囲の音声の入力を開始し、入力された音声から音声情報Ｂ（図３Ａ）を生成する（Ｓ１０２）。具体的には、プロセッサ１１２は、マイク１１９を制御して、端末装置１００の周囲で行われ、複数の人が参加している会議等の音声を、順次、電気的なアナログ形式の音声信号として増幅する。また、プロセッサ１１２は、マイク１１９を制御して、音声信号をディジタル形式に変換し、音声情報Ｂを生成する。次いで、プロセッサ１１２は、入力インターフェイス１１６を介して音声の入力を終了するためのユーザによる操作を受け付けると、マイク１１９の起動を終了し、入力された音声情報Ｂを取得する（Ｓ１０４）。さらに、プロセッサ１１２は、通信インターフェイス１１４を介して、サーバ装置２００に、音声情報Ｂの内容を要約した要約情報Ｌの生成を要求する要約生成要求情報と、取得した音声情報Ｂを送信する（Ｓ１０６）。なお、音声情報Ｂは、個々ではマイク１１９を介して取得する場合について説明したが、例えば記憶媒体に記憶された音声データを入力インターフェイス又は通信インターフェイスを介して取得してもよい。

【0076】

サーバ装置２００のプロセッサ２１２は、通信インターフェイス２１４を介して端末装置１００から要約生成要求情報及び音声情報Ｂを受信する。要約生成要求情報及び音声情報Ｂを受信すると、プロセッサ２１２は、受信した音声情報Ｂにより音声情報テーブル（図３Ａ）を更新してメモリ２１３に記憶する。また、プロセッサ２１２は、音声情報Ｂから要約情報Ｌを生成するためのアプリケーションプログラムをメモリ２１３から読み出して起動する。そして、プロセッサ２１２は、メモリ２１３に記憶された音声情報テーブル（図３Ａ）から、音声情報Ｂを読み出して、音声情報Ｂに対して音声認識処理を行い、テキスト情報Ｃを生成する（Ｓ１０８）。プロセッサ２１２は、生成したテキスト情報Ｃにより音声情報テーブルを更新し、メモリ２１３に記憶する。プロセッサ２１２は、通信インターフェイス２１４を介して、生成されたテキスト情報Ｃを端末装置１００に送信する（Ｓ１１０）。

【0077】

端末装置１００のプロセッサ１１２は、通信インターフェイス１１４を介してテキスト情報Ｃを受信すると、出力インターフェイス１１１を介してディスプレイに受信したテキスト情報Ｃを出力する。そして、プロセッサ１１２は、入力インターフェイス１１６を介してユーザによる操作入力を受け付けて、テキスト情報Ｃを修正するか否かの選択を行う（Ｓ１１２）。修正が選択された場合には、プロセッサ１１２は、入力インターフェイス１１６を介してユーザによる操作入力を受け付けて、テキスト情報に対して修正を行う。その後、プロセッサ１１２は、入力インターフェイス１１６を介してユーザによる操作入力を受け付けて、要約の対象とするテキスト情報が確定した旨の選択がなされると、確定されたテキスト情報を要約対象テキスト情報Ｓとして、通信インターフェイス１１４を介してサーバ装置２００に送信する（Ｓ１１４）。このとき、プロセッサ１１２は、要約対象テキスト情報Ｓとともに、Ｓ１１０で受信したテキスト情報Ｃも一緒に送信する。また、プロセッサ１１２は、入力インターフェイス１１６を介して、設定情報Ｙ（図３Ｃ）を入力するユーザの操作入力を受け付ける。そして、プロセッサ１１２は、受け入れた操作に基づいて設定情報Ｙを生成し、通信インターフェイス１１４を介してサーバ装置２００に送信する。

【0078】

サーバ装置２００のプロセッサ２１２は、Ｓ１００の処理において通信インターフェイス２１４を介して、端末装置１００から要約対象テキスト情報Ｓ、テキスト情報Ｃ及び設定情報Ｙを受信する。プロセッサ２１２は、受信した設定情報Ｙにより設定情報テーブル（図３Ｃ）を更新し、メモリ２１３に記憶する。また、プロセッサ２１２は、受信した要約対象テキスト情報Ｓ及びテキスト情報Ｃにより音声情報テーブル（図３Ａ）を更新してメモリ２１３に記憶する（Ｓ１１６）。なお、テキスト情報Ｃは、音声識別情報Ａ等により識別可能な場合には、特に端末装置１００からＳ１１４において再度受信する必要はない。

【0079】

特徴語辞書生成装置３００のプロセッサ３１２は、記憶したテキスト情報から特徴語を抽出し、特徴語辞書を生成する（Ｓ１１７）。ただし、Ｓ１１７の処理は、他の処理と同期して行われる必要はなく、任意のタイミングで行われうる。なお、当該処理は、要約生成に係る処理からは独立して行われるため、図５ＡではＳ１１７のタイミングで行っているが、例えばテキスト情報を取得する都度、任意のタイミングで行ってもよい。

【0080】

サーバ装置２００のプロセッサ２１２は、特徴語辞書生成装置３００から特徴語辞書を受信する（Ｓ１１８）。なお、Ｓ１１７の処理と同様に、Ｓ１１８の処理もまた、他の処理と同期して行われる必要はなく、任意のタイミングで行われうる。Ｓ１１８の処理が終了すると、サーバ装置２００のプロセッサ２１２は、図５Ｂに示すＳ１４の処理に進む。

【0081】

図５Ｂに示すＳ１４のＳ１４０の処理において、サーバ装置２００のプロセッサ２１２は、メモリ２１３から音声情報テーブル（図３Ａ）に含まれる要約対象テキスト情報Ｓに対して形態素解析を行う。プロセッサ２１２は、この形態素解析処理により、要約対象テキスト情報Ｓから、形態素、及び複数の形態素を含む形態素群を生成する。プロセッサ２１２は、生成した形態素及び形態素群により音声情報テーブルの形態素・形態素群情報Ｄを更新し、メモリ２１３に記憶する。

【0082】

Ｓ１４２において、サーバ装置２００のプロセッサ２１２は、Ｓ１１８の処理において受信した特徴語辞書を用い、形態素及び形態素群に対して、関係性解析処理を行う。関係性解析処理は、機能素解析処理（Ｓ１４４）及び特徴語解析処理（Ｓ１４６）を含み、これらの処理の結果に基づいて、形態素及び形態素群の間の関係性を特定する。

【0083】

Ｓ１４４において、サーバ装置２００のプロセッサ２１２は、形態素及び形態素群に対して機能素解析処理を行い、形態素及び形態素群それぞれの機能を特定する。

【0084】

Ｓ１４６において、サーバ装置２００のプロセッサ２１２は、形態素及び形態素群に対して、特徴語辞書を用いて特徴語解析処理を行う。

【0085】

Ｓ１４８において、サーバ装置２００のプロセッサ２１２は、Ｓ１４２～Ｓ１４６の処理により関係性が特定された形態素及び形態素群に対して構造化処理を行い、図４に例示したエレメント情報Ｉを生成する。具体的には、プロセッサ２１２は、関係性解析処理及び構造化処理の結果に基づいて、要約対象テキスト情報Ｓに含まれる形態素又は形態素群をまとまりのある単位ごとに分割し、句読点情報等の区切情報を挿入することにより、エレメント情報Ｉを生成する。Ｓ１４８の処理が終了すると、プロセッサ２１２は、図５Ａに示すＳ１２０の処理に進む。

【0086】

再び図５Ａに戻り、サーバ装置２００のプロセッサ２１２は、Ｓ１５０（図５Ｂ）の処理において生成されたエレメント情報Ｉにより要約情報テーブル（図３Ｂ）を更新し、メモリ２１３に記憶する（Ｓ１２０）。

【0087】

サーバ装置２００のプロセッサ２１２は、音声情報Ｂから、取得した各エレメント情報Ｉに対応する部分の音声情報Ｂを取得する（Ｓ１２２）。プロセッサ２１２は、取得した各音声情報Ｂの部分に対して話者識別処理を行い、形態素及び形態素群からなるエレメント情報Ｉそれぞれに対応する話者を識別する。なお、例えば、Ｓ１２２の処理における話者の識別は、形態素及び形態素群それぞれに対応する話者を区別するだけであって、形態素及び形態素群それぞれに対応する話者が誰であるかを特定しない。

【0088】

サーバ装置２００のプロセッサ２１２は、Ｓ１２２の処理において識別された話者ごとの話者別テキスト情報Ｏ（図３Ｂ）を生成する（Ｓ１２４）。サーバ装置２００のプロセッサ２１２は、設定情報テーブル（図３Ｃ）の設定情報Ｙに含まれる全体／話者別情報Ｖを参照する。全体／話者別情報Ｖが、話者を特定せず、要約対象テキスト情報Ｓの全体から全体要約情報Ｎを生成することを示す場合には、プロセッサ２１２は、要約対象テキスト情報Ｓから全体要約情報Ｎを生成する。一方、全体／話者別情報Ｖが、話者を特定して話者ごとに話者別要約情報Ｍを生成すべきことを示す場合には、Ｓ１２２のプロセッサ２１２は、要約対象テキスト情報Ｓから話者別要約情報Ｍを生成する。なお、話者別要約情報Ｍ及び全体要約情報Ｎの文字数は、設定情報Ｙに含まれる文字数情報Ｔ又は圧縮率情報Ｕ、及び要約態様情報Ｗにより上限が決められる。また、設定情報Ｙは、文字数情報Ｔ及び圧縮率情報Ｕの両方を含んでよい。この場合には、文字数情報Ｔは、プロセッサ２１２により、Ｓ１１６の処理において、Ｓ１１６の処理に留まるか、Ｓ１１８又はＳ１４の処理に進むかの判断のために用いられる。また、この場合には、圧縮率情報Ｕ及び要約態様情報Ｗにより要約情報Ｌの文字数の上限が決められる。

【0089】

サーバ装置２００のプロセッサ２１２は、話者表示情報Ｋ、話者別テキスト情報Ｏ及び要約情報Ｌに含まれる話者別要約情報Ｍ又は全体要約情報Ｎを、通信インターフェイス２１４を介して端末装置１００に送信する（Ｓ１２６）。

【0090】

端末装置１００のプロセッサ１１２は、通信インターフェイス１１４を介して、サーバ装置２００から話者別テキスト情報Ｏ及び要約情報Ｌを受信し、出力インターフェイス１１１を介してディスプレイ等に表示する（Ｓ１２８）。

【0091】

なお、図５Ａ及び図５Ｂには、サーバ装置２００のプロセッサ２１２が、音声情報Ｂを全て受信して記憶した後に要約情報Ｌを生成する場合を例示した。これに対して、予め決められた量の音声情報Ｂを受信して記憶するたびに、プロセッサ２１２が、要約情報Ｌを生成してよい。この場合には、音声情報Ｂの受信の開始から終了まで、プロセッサ２１２は、複数回にわたって音声情報Ｂを生成し、通信インターフェイス２１４を介して端末装置１００に送信することになる。一方、端末装置１００のプロセッサ１１２は、通信インターフェイス１１４を介して、サーバ装置２００から要約情報Ｌを受信するたびに、出力インターフェイス１１１を介してディスプレイ等に表示することになる。

【0092】

あるいは、予め決められた量の音声情報Ｂを受信して記憶するたびに、プロセッサ２１２が、音声情報Ｂの受信の開始から、最新の音声情報Ｂの受信までの間に蓄積された音声情報Ｂから要約情報Ｌを生成してよい。この場合には、端末装置１００は、サーバ装置２００から要約情報Ｌを受信するたびに、蓄積された音声情報Ｂから生成された要約情報をディスプレイ等に表示することになる。

【0093】

また、図５Ａには、サーバ装置２００が、話者別テキスト情報Ｏと、要約情報Ｌに含まれる話者別要約情報Ｍ又は全体要約情報Ｎとを、Ｓ１２６の処理において端末装置１００に送信する場合を例示した。しかしながら、サーバ装置２００は、話者別テキスト情報Ｏと、要約情報Ｌに含まれる話者別要約情報Ｍ又は全体要約情報Ｎとを同じ処理において端末装置１００に送信する必要はない。例えば、端末装置１００は、Ｓ２２０の処理において話者別テキスト情報Ｏを生成した時点で直ちに端末装置１００に送信し、その後のＳ１２６の処理において、話者別要約情報Ｍ又は全体要約情報Ｎを端末装置１００に送信してよい。また、サーバ装置２００は、話者別テキスト情報Ｏの代わりに、要約対象テキスト情報Ｓを端末装置１００に送信してよい。

【0094】

また、Ｓ１０８において、サーバ装置２００のプロセッサ２１２が音声認識処理を行い、テキスト情報Ｃを生成する。この音声認識処理は、一例としては、入力された音声情報に対してテキスト情報を生成するための学習済音声認識アルゴリズムを用いて実行することが可能である。このような学習済音声認識アルゴリズムは、学習用音声情報を入力するとともに、当該学習用音声情報に対して正解ラベルが付されたテキスト情報を教師データとして入力して機械学習をすることによって得ることが可能である。

【0095】

また、Ｓ１１２において音声認識処理されたテキスト情報Ｃに対してユーザによる修正の有無の選択や修正がなされ、要約対象テキスト情報が生成される。すなわち、Ｓ１１６でサーバ装置２００において受信される要約対象テキスト情報Ｓは、処理時の不具合等により正しく認識されなかった部分が正しく修正されたテキスト情報となる。そのため、Ｓ１１６において記憶された要約対象テキスト情報Ｓに対応付けられた音声情報Ｂを学習用音声情報として入力し、当該要約対象テキスト情報を正解ラベルである教師データとして入力して機械学習することにより、上述した学習済音声認識アルゴリズムを更新することが可能である。このように、要約対象テキスト情報を利用することで、さらに音声認識精度を向上させることが可能である。

【0096】

８．端末装置１００、サーバ装置２００及び特徴語辞書生成装置３００の処理
［サーバ装置２００の動作］
まず、サーバ装置２００の動作の詳細を説明する。図６は、図１及び図２Ｂに示したサーバ装置２００の処理を示すフローチャートである。なお、図６には、設定情報Ｙ（図３Ｃ）が文字数情報Ｔを含む場合を例示する。Ｓ２００において、サーバ装置２００のプロセッサ２１２は、端末装置１００から通信インターフェイス２１４を介して、端末装置１００で取得された音声情報Ｂ及び要約生成要求情報を受信したか否かを判断する。プロセッサ２１２は、音声情報Ｂ及び要約生成要求情報を受信した場合（Ｙ）にはＳ２０２の処理に進み、受信しない場合（Ｎ）にはＳ２００の処理に留まる（図５Ａ；Ｓ１０８）。

【0097】

Ｓ２０２において、プロセッサ２１２は、音声情報Ｂから要約情報Ｌを生成するアプリケーションプログラム（要約アプリ）をメモリ２１３から読み出し、起動する（図５Ａ；Ｓ１０８）。

【0098】

Ｓ２０４において、プロセッサ２１２は、端末装置１００から通信インターフェイス２１４を介して受信した音声情報Ｂを、音声情報テーブル（図３Ａ）において新たに生成した音声識別情報に対応付けて更新して記憶する（図５Ａ；Ｓ１０８）。

【0099】

Ｓ２０８において、プロセッサ２１２は、メモリ２１３に記憶された音声情報テーブル（図３Ａ）から音声情報Ｂを取得し、取得した音声情報Ｂに対して音声認識処理を行い、テキスト情報Ｃを生成する（図５Ａ；Ｓ１０８）。

【0100】

Ｓ２１２において、プロセッサ２１２は、生成されたテキスト情報Ｃを音声情報テーブル（図３Ａ）に当該音声情報Ｂの音声識別情報に対応付けて記憶する。そして、プロセッサ２１２は、記憶したテキスト情報Ｃを読み出して、通信インターフェイス２１４を介して、音声情報Ｂを送信してきた端末装置１００に送信する。

【0101】

Ｓ２１４において、サーバ装置２００のプロセッサ２１２は、端末装置１００から通信インターフェイス２１４を介して、要約対象テキスト情報、テキスト情報Ｃ及び設定情報Ｙを受信したか否かを判断する。プロセッサ２１２は、要約対象テキスト情報Ｓ及びテキスト情報Ｃを受信した場合（Ｙ）には、受信した各情報を音声情報テーブル（図３Ａ）に記憶するとともに、Ｓ２１６の処理に進み、受信しない場合（Ｎ）にはＳ２１４の処理に留まる（図５Ａ；Ｓ１１６）。

【0102】

Ｓ２１６において、プロセッサ２１２は、通信インターフェイス２１４を介して、特徴語辞書生成装置３００から特徴語辞書を受信する（図５Ａ；Ｓ１１８）。ただし、上述したように、Ｓ２１６の処理は他の処理と同期している必要はない。

【0103】

Ｓ２１８において、プロセッサ２１２は、要約対象テキスト情報Ｓに対して、形態素解析処理、特徴語辞書を用いた機能素解析処理及び特徴語解析処理を含む関係性解析処理、及び構造化処理を行う。さらに、プロセッサ２１２は、関係性解析結果及び構造化処理によってエレメント情報Ｉを生成する（図５Ａ，図５Ｂ；Ｓ１４，Ｓ１２０）。

【0104】

Ｓ２２０において、プロセッサ２１２は、エレメント情報Ｉに対応する音声情報Ｂに対して話者識別処理を行い、エレメント情報Ｉを発話した話者を特定する。また、プロセッサ２１２は、話者別テキスト情報Ｏを生成する（図５Ａ；Ｓ１２２，Ｓ１２４）。

【0105】

Ｓ２２２において、プロセッサ２１２は、設定情報Ｙ（図３Ｃ）に含まれる全体／話者別情報Ｖを参照する。プロセッサ２１２は、全体／話者別情報Ｖが、全体要約情報Ｎを生成すべきことを示す場合（全体）にはＳ２２４の処理に進み、話者別要約情報Ｍを生成すべきことを示す場合（話者別）にはＳ２２６の処理に進む（図５Ａ；Ｓ１２４）。

【0106】

Ｓ２２４において、プロセッサ２１２は、要約対象テキスト情報Ｓの全体要約情報Ｎを生成する（図５Ａ；Ｓ１２４）。

【0107】

Ｓ２２６において、プロセッサ２１２は、話者別テキスト情報Ｏから、話者別要約情報Ｍを生成する（図５Ａ；Ｓ１２４）。

【0108】

Ｓ２２８において、プロセッサ２１２は、話者別テキスト情報Ｏと、全体要約情報、Ｎ又は話者別要約情報Ｍとを、通信インターフェイス２１４を介して端末装置１００に送信する（図５Ａ；Ｓ１２６）。

【0109】

Ｓ２３０において、Ｓ２１４で受信された要約対象テキスト情報Ｓと当該要約対象テキスト情報Ｓに対応付けられた音声情報Ｂを用いて学習済音声認識アルゴリズムを更新する処理を実行する。具体的には、音声情報Ｂを学習用の入力データとし、要約対象テキスト情報Ｓを当該学習用の入力データに対して正解ラベルが付された教師データとして、各情報を音声認識アルゴリズムに機械学習させる。

【0110】

［端末装置１００の動作］
次に、図７Ａ～図７Ｃを参照して、端末装置１００の動作を詳細に説明する。図７Ａは、図１及び図２Ａに示した端末装置１００の処理を示すフローチャートである。図７Ｂ及び図７Ｃは、端末装置１００の出力インターフェイス１１１を介してディスプレイに表示されるＵＩ画像を例示する第１及び第２の図である。

【0111】

図７Ａに示すように、Ｓ２４２において、端末装置１００のプロセッサ１１２は、アプリケーションプログラム（アプリ）を起動する。その後、プロセッサ１１２は、当該アプリケーションプログラム上において、入力インターフェイス１１６を介してユーザの操作入力を受け付け、要約情報Ｌの生成機能の選択をする。Ｓ２４８において、プロセッサ１１２は、マイク１１９を起動し、端末装置１００の周囲の音声から生成した音声情報Ｂの入力を開始する。Ｓ２５０において、プロセッサ１１２は、入力インターフェイス１１６を介して、音声の入力を終了する操作を受け入れたか否かを判断する。プロセッサ１１２は、この操作を受け入れた場合（Ｙ）にはＳ２５２の処理に進み、受け入れなかった場合にはＳ２５０の処理に戻る。Ｓ２５２において、プロセッサ２１２は、マイク１１９を介して入力された音声信号をディジタル形式に変換し、音声情報Ｂを生成するとともに、メモリに１１３に記憶する。そして、Ｓ２５４において、プロセッサ１１２は、生成された音声情報Ｂと、当該音声情報Ｂを要約することを要求するための要約生成要求情報を、通信インターフェイス１１４を介してサーバ装置２００に送信する。なお、音声情報Ｂは、個々ではマイク１１９を介して取得する場合について説明したが、例えば記憶媒体に記憶された音声データを入力インターフェイス又は通信インターフェイスを介して取得してもよい。

【0112】

Ｓ２５６において、端末装置１００のプロセッサ１１２は、サーバ装置２００において音声認識処理されることにより生成されたテキスト情報を、サーバ装置２００から通信インターフェイス１１４を介して受信したか否かを判断する。当該情報を受信した場合（Ｙ）にはＳ２５８の処理に進み、受信していなかった場合（Ｎ）にはＳ２５６の処理に留まる。

【0113】

Ｓ２５８において、端末装置１００のプロセッサ１１２は、受信したテキスト情報Ｃを、出力インターフェイス１１１を介してディスプレイに出力する。そして、プロセッサ１１２は、入力インターフェイス１１６を介してユーザによる操作入力を受け付けて、テキスト情報Ｃを修正するか否かの選択を行う。修正が選択された場合には、プロセッサ１１２は、入力インターフェイス１１６を介してユーザによる操作入力を受け付けて、テキスト情報に対して修正を行う。

【0114】

Ｓ２６０において、プロセッサ１１２は、入力インターフェイス１１６を介してユーザによる操作入力を受け付けて、要約の対象とするテキスト情報が確定した旨の選択がなされると、確定されたテキスト情報を要約対象テキスト情報Ｓとして、通信インターフェイス１１４を介してサーバ装置２００に送信する。このとき、プロセッサ１１２は、要約対象テキスト情報Ｓとともに、Ｓ２５６で受信したテキスト情報Ｃも一緒に送信する。また、プロセッサ１１２は、入力インターフェイス１１６を介して、設定情報Ｙ（図３Ｃ）を入力するユーザの操作入力を受け付ける。そして、プロセッサ１１２は、当該操作入力に基づいて設定情報Ｙを生成するとともに、話者識別処理に用いられる話者人数情報を生成し、通信インターフェイス１１４を介してサーバ装置２００に送信する。

【0115】

Ｓ２６２において、端末装置１００のプロセッサ１１２は、通信インターフェイス１１４を介して、サーバ装置２００から話者表示情報Ｋ、話者別テキスト情報Ｏ及び要約情報Ｌ（図３Ａ）を受信したか否かを判断する。プロセッサ１１２は、これらの情報を受信した場合（Ｙ）にはＳ２６４の処理に進み、受信しなかった場合（Ｎ）にはＳ２６２の処理に留まる。

【0116】

Ｓ２６４において、端末装置１００のプロセッサ１１２は、出力インターフェイス１１１を介して、ディスプレイに話者別テキスト情報Ｏ及び要約情報Ｌを表示する。

【0117】

端末装置１００のプロセッサ１１２は、例えば、図７Ｂ及び図７Ａに示すＵＩ画像のテキスト情報表示部分に、話者ごとに話者表示情報Ｋ（話者Ａ等）を付した話者別テキスト情報Ｏを表示する。さらに、Ｓ２６２の処理において、全体要約情報Ｎを受信した場合には、図７Ｂに示すように、ＵＩ画像の要約情報表示部分に、受信した全体要約情報Ｎを表示する。あるいは、Ｓ２６２の処理において、話者別要約情報Ｍを受信した場合には、プロセッサ１１２は、図７Ｃに示すように、ＵＩ画像の要約情報表示部分に、受信した全体要約情報Ｎに話者表示情報Ｋを付して、話者ごとに表示する。

【0118】

なお、図７Ｂ及び図７Ｃに示すように、ＵＩ画像は、テキスト情報表示部分及び要約情報表示部分の他に、ユーザが端末装置１００に対する操作のためのボタン等を含む。これらのボタン等に対する操作により、ユーザは、文字数情報Ｔ、圧縮率情報Ｕ、全体／話者別情報Ｖ、音声送信の開始及び終了、要約の生成の要求、及び話者人数を端末装置１００に対して設定できる。

【0119】

なお、図７Ａ～図７Ｃには、Ｓ１２６の処理において、端末装置１００のプロセッサ１１２が、サーバ装置２００から話者表示情報Ｋ、話者別テキスト情報Ｏ及び要約情報Ｌ（図３Ａ）を受信する場合を示した。一方、サーバ装置２００は、上述したように、話者別テキスト情報Ｏを生成して直ちに端末装置１００に送信しうる。この場合には、端末装置１００は、話者別テキスト情報Ｏを受信して直ちに、図７Ａ及び図７Ｃのテキスト情報表示部分に、受信した話者別テキスト情報Ｏを表示し、その後に要約情報を受信して表示してよい。

【0120】

また、図７Ｂ及び図７Ｃには、端末装置１００が、ＵＩ画像のテキスト情報表示部分に、話者別テキスト情報Ｏを表示する場合を示した。一方、上述したように、サーバ装置２００は、話者別テキスト情報Ｏの代わりに要約対象テキスト情報Ｓを端末装置１００に送信しうる。この場合には、端末装置１００は、話者別ではなく、要約対象テキスト情報Ｓの全体を、テキスト情報表示部分に表示してよい。また、図７Ｂ及び図７Ｃに示した話者表示情報Ｋは、要約情報Ｌの表示の初期段階で「話者Ａ」と表示され、その後、ユーザの端末装置１００に対する操作に応じて、話者Ａに対応する人物の名前などに書き換えられてよい。

【0121】

［特徴語辞書生成装置３００の動作］
次に、図８を参照して、特徴語辞書生成装置３００の動作を詳細に説明する。図８は、図１及び図２Ｃに示した特徴語辞書生成装置３００の処理を示すフローチャートである。なお、図８に示す特徴語辞書生成装置３００の処理は、上述したように、端末装置１００及びサーバ装置２００の処理との同期なしに任意のタイミングで実行されうる。

【0122】

図８に示すＳ２８０において、特徴語辞書生成装置３００のプロセッサ３１２は、通信インターフェイス３１４を介して、サーバ装置２００及びその他の装置からテキスト情報を受信し、メモリ３１３に記憶する。

【0123】

Ｓ２８２において、特徴語辞書生成装置３００のプロセッサ３１２は、新たな特徴語辞書を生成するために充分な量のテキスト情報がメモリ３１３に記憶されているか否かを判断する。プロセッサ３１２は、充分な量のテキスト情報が記憶されている場合（Ｙ）にはＳ２８４の処理に進み、記憶されていない場合（Ｎ）にはＳ２８０の処理に戻る。

【0124】

Ｓ２８４において、特徴語辞書生成装置３００のプロセッサ３１２は、メモリ３１３からテキスト情報を読み出し、ベイジアンフィルタによる処理を行う。

【0125】

Ｓ２８６において、特徴語辞書生成装置３００のプロセッサ３１２は、ベイジアンフィルタによる処理の結果から、特徴語を抽出し、特徴語リストを生成する。

【0126】

Ｓ２８８において、特徴語辞書生成装置３００のプロセッサ３１２は、特徴語リストから特徴語辞書を生成し、通信インターフェイス３１４を介してサーバ装置２００に送信する。

【0127】

Ｓ２９０において、特徴語辞書生成装置３００のプロセッサ３１２は、処理におけるエラーの発生等、何らかの理由により処理を終了すべきか否かを判断する。プロセッサ３１２は、処理を終了すべき場合（Ｙ）には処理を終了し、終了すべきでない場合（Ｎ）にはＳ２８０の処理に戻る。

【0128】

以上説明したシステム１における処理は、実施形態において明示的に説明された装置によってだけでなく、ソフトウェア、ハードウェア又はこれらの組み合わせにより実現されうる。具体的には、実施形態において説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することにより実現されうる。また、実施形態において説明された処理及び手順は、それらの処理及び手順をコンピュータプログラムとして実装されえ、端末装置及びサーバ装置を含む各種のコンピュータにより実行されうる。

【0129】

実施形態において、単一の装置、ソフトウェア、及び／又はコンポーネントによって実行されると説明された処理及び手順は、複数の装置、複数のソフトウェア、及び／又は複数のコンポーネントによって実行されうる。また、実施形態において、単一のメモリ及び記憶装置に格納される旨が説明された各種情報は、単一の装置に含まれる複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されうる。さらに、実施形態において説明された複数のソフトウェア及びハードウェアは、それらをより少ない構成要素に統合することにより、又は、より多い構成要素に分解することにより実現されうる。

【0130】

本発明の実施形態が説明されたが、この実施形態は、例として提示されたものであり、発明の範囲を限定することを意図されていない。これら新規な実施形態は、その他の様々な形態で実施されることができ、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更され得る。これら実施形態やその変形は、本発明の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0131】

１システム、１００端末装置、２００サーバ装置、３００特徴語辞書生成装置、１１１，２１１，３１１出力インターフェイス、１１２，２１２，３１２プロセッサ、１１３，２１３，３１３メモリ、１１４，２１４，３１４通信インターフェイス、１１５通信処理回路、１１６入力インターフェイス、１１７マウス、１１８ハードキー、１１９マイク、１２通信ネットワーク

【図1】