(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023163701
(43)【公開日】2023-11-10
(54)【発明の名称】処理装置、処理方法及び処理プログラム
(51)【国際特許分類】
G10L 15/10 20060101AFI20231102BHJP
G10L 17/00 20130101ALI20231102BHJP
G06F 40/56 20200101ALI20231102BHJP
【FI】
G10L15/10 500T
G10L17/00 200C
G06F40/56
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022074772
(22)【出願日】2022-04-28
(71)【出願人】
【識別番号】516330516
【氏名又は名称】株式会社バズグラフ
(74)【代理人】
【識別番号】100151448
【弁理士】
【氏名又は名称】青木 孝博
(74)【代理人】
【識別番号】230121016
【弁護士】
【氏名又は名称】小笠原 匡隆
(72)【発明者】
【氏名】西本 光治
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA21
(57)【要約】 (修正有)
【課題】音声情報から生成されたテキスト情報の要約のために適したシステムを提供する。
【解決手段】システムにおける通信シーケンスは、端末装置100が、一又は複数の話者により発話された音声情報の入力を受け付けるステップと、サーバ装置200が、受け付けられた音声情報に基づいてテキスト情報を生成するステップと、テキスト情報を要約して生成される要約情報の文字数及びテキスト情報の文字数に対する要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいてテキスト情報から要約情報を生成するステップと、を含む。
【選択図】
図5A
【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを含む処理装置であって、
前記少なくとも一つのプロセッサは、
一又は複数の話者により発話された音声情報の入力を受け付け、
受け付けられた前記音声情報に基づいてテキスト情報を生成し、
前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する、
ための処理を実行するように構成された、処理装置。
【請求項2】
前記割合は、前記テキスト情報の文字数に対する前記要約情報の文字数の割合である、請求項1に記載の処理装置。
【請求項3】
前記要約情報は、前記テキスト情報を複数の形態素又は複数の形態素を含む複数の形態素群に分割し、分割された前記複数の形態素又は前記複数の形態素群の間の関係性を特定し、特定された前記関係性に基づいて前記複数の形態素を構造化することによって生成される、請求項1に記載の処理装置。
【請求項4】
前記関係性の特定は、前記形態素又は前記形態素群について予め対応付けられた属性に基づいて行われる、請求項3に記載の処理装置。
【請求項5】
前記要約情報は、前記テキスト情報を前記複数の形態素又は前記複数の形態素群が含まれる複数のエレメント情報に分割し、分割されたエレメント情報ごとに発話した話者を特定し、特定された話者ごとに生成される、請求項3に記載の処理装置。
【請求項6】
前記要約情報は、ユーザにより入力された設定情報に基づいて、前記話者ごとに生成されるか、前記話者に関わらず生成されるかが選択される、請求項5に記載の処理装置。
【請求項7】
前記要約情報の文字数は、前記話者別要約情報の文字数である、請求項5に記載の処理装置。
【請求項8】
前記割合は、前記話者別テキスト情報の文字数に対する前記話者別要約情報の文字数の割合である、請求項7に記載の処理装置。
【請求項9】
少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、
一又は複数の話者により発話された音声情報の入力を受け付ける段階と、
受け付けられた前記音声情報に基づいてテキスト情報を生成する段階と、
前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する段階と、
を含む処理方法。
【請求項10】
少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、
一又は複数の話者により発話された音声情報の入力を受け付け、
受け付けられた前記音声情報に基づいてテキスト情報を生成し、
前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する、
ように機能させる処理プログラム。
【請求項11】
少なくとも一つのプロセッサを含む処理装置であって、
前記少なくとも一つのプロセッサは、
一又は複数の話者により発話された音声情報の入力を受け付け、
前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付け、
前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する、
ための処理を実行するように構成された、処理装置。
【請求項12】
少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、
一又は複数の話者により発話された音声情報の入力を受け付ける段階と、
前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付ける段階と、
前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する段階と、
を含む処理方法。
【請求項13】
少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、
一又は複数の話者により発話された音声情報の入力を受け付け、
前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付け、
前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する、
ように機能させる処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、音声情報から生成されたテキスト情報から要約情報を生成する処理を行う処理装置、処理方法、及び処理プログラムに関する。
【背景技術】
【0002】
1990年代以降のコンピュータの性能向上及び自然言語処理技術の向上に伴い、近年では、テキスト情報から要約情報を生成することが可能となっている。例えば、特許文献1は、鉄道事業に関するテキスト情報から、このテキスト情報の要点を含む要約情報を生成する方法等を開示する。しかしながら、特許文献1には、要約情報の文字数、及びテキスト情報の文字数に対して、要約文の文字数をどの程度の割合にするかを設定できない。また、話者ごとの要約情報を生成することはできない。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本実施形態は、上述した背景からなされたものであり、音声情報から生成されたテキスト情報の要約のために適した処理装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
本実施形態に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、一又は複数の話者により発話された音声情報の入力を受け付け、受け付けられた前記音声情報に基づいてテキスト情報を生成し、前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成するための処理を実行するように構成される。
【0006】
また、本実施形態に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、一又は複数の話者により発話された音声情報の入力を受け付ける段階と、受け付けられた前記音声情報に基づいてテキスト情報を生成する段階と、前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成する段階とを含む。
【0007】
実施形態に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、一又は複数の話者により発話された音声情報の入力を受け付け、受け付けられた前記音声情報に基づいてテキスト情報を生成し、前記テキスト情報を要約して生成される要約情報の文字数及び前記テキスト情報の文字数に対する前記要約情報の文字数の割合の少なくとも一方を示す設定情報に基づいて前記テキスト情報から要約情報を生成するように機能させる。
【0008】
実施形態に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、一又は複数の話者により発話された音声情報の入力を受け付け、前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を、入力インターフェイスを介して受け付け、前記音声情報及び前記設定情報に基づいて生成された要約情報を出力するための処理を実行するように構成される。
【0009】
実施形態に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、一又は複数の話者により発話された音声情報の入力を受け付ける段階と、前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付ける段階と、前記音声情報及び前記設定情報に基づいて生成された要約情報を出力する段階とを含む。
【0010】
実施形態に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサを、一又は複数の話者により発話された音声情報の入力を受け付け、前記音声情報から生成される要約情報の文字数及び前記テキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に対するユーザの選択を入力インターフェイスを介して受け付け、前記音声情報及び前記設定情報に基づいて生成された要約情報を出力するように機能させる。
【発明の効果】
【0011】
本実施形態によれば、音声情報から生成されたテキスト情報の要約のために適した処理装置、処理方法及び処理プログラムを提供することが可能である。
【0012】
なお、上述した効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上述した効果に加えて、又は上述した効果に代えて、本実施形態中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。
【図面の簡単な説明】
【0013】
【
図1】
図1は、実施形態に係るシステム1の構成を示す図である。
【
図2C】
図2Cは、
図1に示した特徴語辞書生成装置300の構成を例示する図である。
【
図3A】
図3Aは、サーバ装置200における処理に用いられる情報を示す第1の図である。
【
図3B】
図3Bは、サーバ装置200における処理に用いられる情報を示す第2の図である。
【
図3C】
図3Cは、サーバ装置200における処理に用いられる情報を示す第3の図である。
【
図4】
図4は、エレメント情報Iを概念的に例示する図である。
【
図5A】
図5Aは、システム1の各構成要素とこれらの構成要素の間の通信を示す通信シーケンス図である。
【
図7B】
図7Bは、端末装置100の出力インターフェイス111を介してディスプレイに表示されるUI画像を例示する第1の図である。
【
図7C】
図7Cは、端末装置100の出力インターフェイス111を介してディスプレイに表示されるUI画像を例示する第2の図である。
【
図8】
図8は、
図1及び
図2Cに示した特徴語辞書生成装置300の処理を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、一つの実施形態として、会議等の一又は複数の話者の発言を含む音声をテキスト情報に変換し、文字数制限等に従って要約したり、話者ごとの発言を要約したりする装置を、図面を参照して詳細に説明する。なお、図面において実質的に同じ構成要素、処理及び情報には同じ符号及び名称が付される。また、「情報」と「データ」とは厳密には区別されない。また、「ユーザ」は、一人の自然人だけでなく、複数の自然人、法人、団体及び企業等を意味しうる。
【0015】
また、図面において、構成要素及び情報の数及び種類は例示的に示され、実施された装置においては、実施形態に示された構成要素等の数は、適宜、増減されたり変更されたりしうる。また、図面において、装置の間における通信の順番は例示的に示され、実施された装置においては、適宜、変更される。また、図面において、発明の本質的な説明に関係しない構成要素は、適宜、省略されることがある。また、図示の都合上、図面において、「情報」等、構成要素及び情報の名称の一部が適宜、省略されることがある。
【0016】
1.システム1の構成及びシステム1における処理の概要
図1は、実施形態に係るシステム1の構成を示す図である。
図1に示すように、システム1は、端末装置100、サーバ装置200、特徴語辞書生成装置300及び通信ネットワーク12を含む。通信ネットワーク12は、インターネット、LAN、VPN、WAN及びクラウドネットワーク等である。端末装置100と、サーバ装置200と、特徴語辞書生成装置300とは、有線通信回線及び無線通信回線又はこれらの一方を介して通信ネットワーク12に接続される。これらの間では、通信ネットワーク12を介して情報及びデータが相互に通信される。なお、
図1には、サーバ装置200と特徴語辞書生成装置300とが個別の装置とされる場合が示されるが、これらは一つの装置として構成されてよい。また、特徴語辞書生成装置300は、システム1に含まれる必要はなく、システム1と関係なく通信ネットワーク12に接続されてもよい。
【0017】
なお、端末装置100、サーバ装置200及び特徴語辞書生成装置300のいずれも、単独で、この実施形態に係る要約処理の全てを行う処理装置となりうる。ただし、以下の説明においては、端末装置100が、複数の話者により発話された発言を含む会議等の音声情報をサーバ装置200に送信し、サーバ装置200が音声情報を受信して要約処理を行う場合が具体例とされる。また、サーバ装置200が生成した要約情報を端末装置100に返す場合が具体例とされる。なお、サーバ装置200による要約処理には、特徴語辞書生成装置300からサーバ装置200に提供される特徴語辞書が利用される。
【0018】
端末装置100は、マイク119等を用いて上述した会議等の音声情報を、ユーザの操作に応じて生成し、あるいは、通信ネットワーク12に接続されたWebサーバ等の他の装置(不図示)から受信する。端末装置100は、生成又は受信した音声情報の一部又は全部を、設定情報及び要約生成要求情報とともにサーバ装置200に送信し、要約情報の生成を要求する。設定情報は、要約情報の文字数等を示す。また、要約生成要求情報は、端末装置100からサーバ装置200に、要約情報の生成が要求されたことを示す。端末装置100は、要約処理の要求に応じテキスト情報をサーバ装置200から受信して表示する。そして、端末装置100は、テキスト情報及び要約対象テキスト情報としてサーバ装置200に送信する。さらに、端末装置100は、要約対象テキスト情報と設定情報に基づいてサーバ装置200が生成した要約情報を、サーバ装置200から受信して表示する。
【0019】
設定情報は、上述した音声情報に対する音声認識処理により得られるテキスト情報を要約して生成される要約情報の文字数、又は要約情報の文字数のテキスト情報の文字数に対する割合を示す情報を含む。なお、テキスト情報を要約して生成される要約情報の文字数を示す情報は文字数情報とも記載される。また、要約情報の文字数のテキスト情報の文字数に対する割合は、圧縮率とも呼ばれ、圧縮率を示す情報は圧縮率情報とも記載される。
【0020】
また、この実施形態では、システム1において、サーバ装置200が、日本語のテキスト情報から要約情報を生成する場合が具体例とされる。テキスト情報は、形態素及び形態素群を含む。形態素は、言語学の用語であって、意味をもつ表現要素の最小単位であり、ある言語において、それ以上分解したら意味をなさなくなるところまで分割して抽出された音素のまとまりのそれぞれである。なお、英語等のように、単語が一つずつ分かち書きされる言語においては、例外はあるが、ほぼ、一つの単語が一つの形態素である。
【0021】
このように、複数の形態素を含むテキスト情報には、ワードプロセッサを利用してユーザにより生成されるテキスト情報、Webサーバにより提供されるテキスト情報、上述したような会議の音声を認識して得られるテキスト情報等、ごく一般的で普通のテキスト情報が含まれる。例えば、テキスト情報が、「テキスト情報に」という文字列を含んでいる場合には、この文字列に含まれる形態素は、「テキスト」、「情報」及び「に」である。また、この実施形態においては、複数の形態素「テキスト」及び「情報」を含む「テキスト情報」、及び複数の形態素「情報」及び「に」を含む「情報に」等、複数の形態素を含む一連の音素は、「形態素群」と記載される。
【0022】
2.端末装置100の構成
以下、
図2Aを参照して、端末装置100の構成を説明する。
図2Aは、
図1に示した端末装置100の構成を例示する図である。なお、端末装置100は、
図2に示す構成要素の全てを備える必要はなく、端末装置100の一部の構成要素は省略されうる。また、端末装置100には、
図2Aに示す以外の他の構成要素が加えられうる。端末装置100は、スマートフォンといった携帯端末装置、タブレット型コンピュータといった端末装置、又はノート型パーソナルコンピュータ(PC)及びデスクトップ型PCといった汎用の情報処理装置でありうる。
【0023】
図2Aに示すように、端末装置100は、バスを介して相互に接続された出力インターフェイス(出力IF)111、プロセッサ112、メモリ113、通信インターフェイス(通信IF)114、入力インターフェイス(入力IF)116、及びマイク119を含む。メモリ113は、RAM、ROM、不揮発性メモリ(NVM)、HDD(不図示)及びSSD(不図示)等を含む。
【0024】
出力インターフェイス111は、スピーカ及びディスプレイ(不図示)等の出力デバイスを端末装置100に接続する。なお、これらの出力デバイスは、端末装置100の外部に配置され、出力インターフェイス111を介して接続されても、端末装置100と一体に構成されて出力インターフェイス111に接続されてもよい。例えば、出力インターフェイス111に接続されるディスプレイは、プロセッサ112の指示に応じて、メモリ113に記憶された画像情報を読み出して、各種表示を行う表示部として機能する。ディスプレイは、実施形態に係る要約処理の実行のための情報等を表示する。なお、ディスプレイは、例えば液晶ディスプレイや有機ELディスプレイから構成される。出力インターフェイス111に接続されるスピーカは、端末装置100が受信した音声データから得られた音声信号を出力するオーディオ出力部として機能する。
【0025】
プロセッサ112は、1以上のCPU(マイクロプロセッサ)又は1以上のCPUと画像処理に特化した1以上のGPU等との組合せと、その周辺回路とから構成される。プロセッサ112は、メモリ113に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ112は、実施形態に係る要約処理を実行するための所定の指示命令を含むアプリケーションプログラム、及びOSの処理のための所定の指示命令を含むプログラムをメモリ113から読み出して実行する。
【0026】
OSは、アプリケーションプログラムのインストール、アンインストール、起動、実行、及び常駐等のための様々な機能を提供する。また、OSは、プロセッサ112によるアプリケーションプログラムの実行のための機能を提供する。OSにより提供されるこれらの機能は、端末装置100とサーバ装置200との通信のために必要とされる機能を含む。
【0027】
特に、端末装置100のプロセッサ112は、一又は複数の話者により発話された音声から音声情報を生成する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、生成した音声情報の要約に対する設定を示す設定情報を生成する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、生成した音声情報及び設定情報を送信する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、サーバ装置200から受信したテキスト情報を、出力インターフェイス111を介して出力し、入力インターフェイス116を介してユーザの操作入力を受け付ける所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、受信したテキスト情報に対してユーザの操作入力に基づいて例えば修正がされたテキスト情報を要約対象テキスト情報として、修正前のテキスト情報とともに、通信インターフェイス114を介してサーバ装置200に送信する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、音声情報に基づいて生成されたテキスト情報から、設定情報に基づいて生成された要約情報を受信する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。
【0028】
RAMは、ROMに記憶されたアプリケーションプログラム及びOSのプログラムがプロセッサ112により処理されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ112により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。
【0029】
特に、端末装置100のメモリ113は、一又は複数の話者により発話された音声から音声情報を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、生成した音声情報の要約に対する設定を示す設定情報を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、生成した音声情報及び設定情報を送信する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、音声情報に基づいて生成されたテキスト情報から、設定情報に基づいて生成された要約情報を受信する所定の指示命令を含むアプリケーションプログラムを記憶する。
【0030】
通信インターフェイス114は、通信処理回路115及びアンテナを介して通信ネットワーク12と端末装置100とを接続し、通信ネットワーク12に接続されたサーバ装置200等の他の装置との間で、データの送受信を行う通信部として機能する。通信処理回路115は、広帯域又は狭帯域の無線通信方式によって、通信ネットワーク12と端末装置100の間で、アンテナを介して情報を通信するための通信処理を行う。なお、広帯域の無線通信方式は、例えばLTE方式であり、狭帯域の無線通信方式は、例えばIEEE802.11及びBluetooth(登録商標)等である。また、通信処理回路115は、無線通信の代わりに、又は無線通信に加えて、有線通信のための処理を行ってもよい。
【0031】
入力インターフェイス116は、マウス117及びハードキー118等の入力デバイスと有線通信又は無線通信によって接続され、ユーザの操作を受け入れて各種情報の入力を受ける入力部として機能する。入力インターフェイス116の例としては、シリアルポート、パラレルポート、及びUSB等が挙げられる。また、無線通信(例えば、Bluetooth(登録商標))によりマウス117を接続するような場合には、無線通信機能を有する構成要素に、入力インターフェイス116及び通信インターフェイス114の機能を兼用させることも可能である。
【0032】
マウス117は、それ自体の移動を検出するセンサ、左ボタン及び右ボタン等を含む。マウス117は、ディスプレイに表示されたマウスポインタを移動させるユーザの操作を検出する。ハードキー118は、機械的スイッチを含み、ユーザによる端末装置100への操作を受け入れて、入力インターフェイス116を介してプロセッサ112に出力する。なお、端末装置100とハードキー118とは一体に構成されても、別々に構成されてもよい。端末装置100とハードキー118とが別々に構成される場合には、端末装置100とマウス117及びハードキー118の間は無線通信又は有線通信によって接続される。マイク119は、端末装置100の周囲の音声、例えば、上述した会議等の音声を電気的なアナログ形式の音声信号に変換して増幅し、さらに、増幅した音声信号をディジタル形式の音声情報に変換し、プロセッサ112に出力する。
【0033】
3.サーバ装置200の構成
以下、
図2Bを参照して、サーバ装置200の構成を説明する。
図2Bは、
図1に示したサーバ装置200の構成を例示する図である。例えば、サーバ装置200は、PCサーバあるいは大型コンピュータ等の情報処理装置でありうる。サーバ装置200は、端末装置100から、設定情報及び要約生成要求情報を伴う音声情報を受信し、受信した音声情報に対する音声認識処理により、音声信号をテキスト情報に変換する。さらに、サーバ装置200は、設定情報に基づいてテキスト情報を要約し、要約情報を生成する。サーバ装置200は、要約処理において、特徴語辞書生成装置300から提供される特徴語辞書を用いる。サーバ装置200は、生成した要約情報を、端末装置100に送信する。
【0034】
図2Bに示すように、サーバ装置200は、端末装置100と同様に、バス等を介して相互に接続された出力インターフェイス211と、プロセッサ212と、メモリ213と、通信インターフェイス214とを備える。そして、サーバ装置200のこれらの構成要素は、バス等を介して電気的に接続され、データ及び情報を相互に送受信する。メモリ213は、RAM、ROM、不揮発性メモリ、HDD(不図示)及びSSD(不図示)等を含む。
【0035】
なお、サーバ装置200は、
図2Bに示す構成要素の全てを備える必要はなく、一部の構成要素は省略されうる。また、サーバ装置200に、
図2Bに示した以外の他の構成要素が加えられうる。なお、サーバ装置200のメモリ213及びプロセッサ212は、1台のコンピュータにおいて一体に構成されても、複数のコンピュータに渡って分散されて構成されてもよい。
【0036】
出力インターフェイス211は、端末装置100の出力インターフェイス111と同様に、スピーカ及びディスプレイ(不図示)等の出力デバイスをサーバ装置200に接続する。なお、これらの出力デバイスは、サーバ装置200の外部に配置され、出力インターフェイス211を介して接続されても、サーバ装置200と一体に構成されて出力インターフェイス211に接続されてもよい。
【0037】
プロセッサ212は、端末装置100のプロセッサ112と同様に、1以上のCPU(マイクロプロセッサ)、又は1以上のCPUと1以上のGPU等との組合せと、その周辺回路とから構成される。プロセッサ212は、メモリ213に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ212は、アプリケーションプログラム及びOS等の所定の指示命令を含むプログラムをメモリ213から読み出して実行する。
【0038】
特に、サーバ装置200のプロセッサ212は、一又は複数の話者により発話された音声から生成された音声情報を受信する所定の指示命令を含むアプリケーションプログラムをメモリ213から読み出して実行する。また、プロセッサ212は、受信した音声情報に基づいてテキスト情報を生成し、通信インターフェイス214を介して端末装置100に生成されたテキスト情報を送信する所定の指示命令を含むアプリケーションプログラムをメモリ213から読み出して実行する。また、プロセッサ212は、通信インターフェイス214を介して端末装置100から要約対象テキスト情報とテキスト情報を受信する所定の指示命令を含むアプリケーションプログラムをメモリ213から読み出して実行する。また、プロセッサ212は、予め設定された文字数及びテキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に基づいて、要約対象テキスト情報から要約情報を生成する所定の指示命令を含むアプリケーションプログラムをメモリ213から読み出して実行する。
【0039】
なお、サーバ装置200における要約情報の生成のためには、音声認識処理、形態素解析処理、関係性解析処理、構造化処理、及び要約処理が行われる。また、関係性解析処理は、機能素解析処理及び特徴語解析処理を含む。音声認識処理により、音声情報が認識されてテキスト情報とされる。そして、端末装置100にテキスト情報が送信された後、端末装置100から要約対象テキスト情報が取得される。その後、形態素解析処理により要約対象テキスト情報が、個々の形態素、及び複数の形態素を含む形態素群に分割される。関係性解析処理は、特徴語辞書生成装置300により提供される特徴語辞書を用いて、機能素解析処理及び特徴語解析処理を行って形態素及び形態素群それぞれの属性を特定し、さらに、形態素及び形態素群の間の関係を特定する。なお、「形態素同士の間」は、「形態素と形態素との間」、「形態素と形態素群との間」及び「形態素群同士の間」の総称である。構造化処理は、属性及び関係が特定された形態素及び形態素群について主体、対象、補足、動作状態などの意味のある単位(例えば一つの文章)ごとに分割された一又は複数のエレメント情報を取得する。要約処理は、形態素及び形態素群が含まれた各エレメント情報に基づいて要約して要約情報を生成する。
【0040】
メモリ213は、記憶部として機能する。さらに、メモリ213には、端末装置100に対して着脱可能な記憶媒体やデータベース(不図示)等が接続されうる。メモリ213において、ROMは、OS等の処理のための所定の指示命令を含むプログラムを記憶する。
【0041】
RAMは、アプリケーションプログラム及びROMに記憶された及びOSのプログラムがプロセッサ212により実行されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ112により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。
【0042】
特に、サーバ装置200のメモリ213は、一又は複数の話者により発話された音声から生成された音声情報を受信する所定の指示命令を含むアプリケーションプログラムを記憶する。また、プロセッサ212は、受信した音声情報に基づいてテキスト情報を生成し、予め設定された文字数及びテキスト情報の文字数に対する割合の少なくとも一方を示す設定情報に基づいて、テキスト情報から要約情報を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。
【0043】
サーバ装置200の通信インターフェイス214は、端末装置100の通信インターフェイス114と同様の機能を有する。つまり、サーバ装置200の通信インターフェイス214は、無線通信回線又は有線通信回線を介して通信ネットワーク12とサーバ装置200とを通信のために接続する通信部として機能する。サーバ装置200の通信インターフェイス214は、通信ネットワーク12を介して接続された端末装置100等の他の装置との間で、情報及びデータの送受信を行う。また、サーバ装置200の通信インターフェイス214は、これらの装置の間で、情報及びデータの送受信を行う。
【0044】
4.特徴語辞書生成装置300の構成
以下、
図2Cを参照して、特徴語辞書生成装置300の構成を説明する。
図2Cは、
図1に示した特徴語辞書生成装置300の構成を例示する図である。例えば、特徴語辞書生成装置300は、サーバ装置200と同様に、PCサーバあるいは大型コンピュータ等の情報処理装置でありうる。
【0045】
特徴語辞書生成装置300は、テキスト情報をサーバ装置200から継続的に受信してメモリ313に記憶する。あるいは、特徴語辞書生成装置300は、通信ネットワーク12に接続されたWebサーバ等(不図示)からテキスト情報を受信してメモリ313に記憶する。システム1が、多数の端末装置100を含む場合には、特徴語辞書生成装置300がサーバ装置200から受信するテキスト情報は、大量になる。特徴語辞書生成装置300は、さらに、記憶した大量のテキスト情報から、サーバ装置200において要約処理に用いられる複数の特徴語を含む特徴語辞書を生成し、サーバ装置200に対して送信する。なお、特徴語とは、大量のテキスト情報における出現頻度等に基づいて重み付けをすることにより抽出される単語である。
【0046】
図2Cに示すように、特徴語辞書生成装置300は、端末装置100及びサーバ装置200と同様に、バス等を介して相互に接続された出力インターフェイス311と、プロセッサ312と、メモリ313と、通信インターフェイス314とを備える。そして、特徴語辞書生成装置300のこれらの構成要素は、バス等を介して電気的に接続され、データ及び情報を相互に送受信する。メモリ313は、RAM、ROM、不揮発性メモリ、HDD(不図示)及びSSD(不図示)等を含む。
【0047】
なお、特徴語辞書生成装置300は、
図2Cに示す構成要素の全てを備える必要はなく、一部の構成要素は省略されうる。また、特徴語辞書生成装置300に、
図2Cに示した以外の他の構成要素が加えられうる。なお、特徴語辞書生成装置300のメモリ313及びプロセッサ312は、サーバ装置200のメモリ213及びプロセッサ212と同様に、1台のコンピュータにおいて一体に構成されても、複数のコンピュータに渡って分散されて構成されてもよい。
【0048】
出力インターフェイス311は、端末装置100の出力インターフェイス111及びサーバ装置200の出力インターフェイス211と同様に、スピーカ及びディスプレイ(不図示)等の出力デバイスを特徴語辞書生成装置300に接続する。なお、これらの出力デバイスは、特徴語辞書生成装置300の外部に配置され、出力インターフェイス311を介して接続されても、特徴語辞書生成装置300と一体に構成されて出力インターフェイス311に接続されてもよい。
【0049】
プロセッサ312は、端末装置100のプロセッサ112及びサーバ装置200のプロセッサ212と同様に、1以上のCPU(マイクロプロセッサ)、又は1以上のCPUと1以上のGPU等との組合せと、その周辺回路とから構成される。プロセッサ312は、メモリ313に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ312は、アプリケーションプログラム及びOS等の所定の指示命令を含むプログラムをメモリ313から読み出して実行する。
【0050】
特に、特徴語辞書生成装置300のプロセッサ312は、サーバ装置200及び通信ネットワーク12に接続されたWebサーバ等からテキスト情報を受信して記憶する所定の指示命令を含むアプリケーションプログラムをメモリ313から読み出して記憶する。また、プロセッサ312は、記憶したテキスト情報から特徴語を抽出する所定の命令を含むアプリケーションプログラムをメモリ313から読み出して実行する。また、プロセッサ312は、抽出した特徴語から特徴語辞書を生成する所定の命令を含むアプリケーションプログラムを読み出して実行する。
【0051】
メモリ313は、記憶部として機能する。さらに、メモリ313には、端末装置100に対して着脱可能な記憶媒体やデータベース(不図示)等が接続されうる。メモリ313において、ROMは、OS等の処理のための所定の指示命令を含むプログラムを記憶する。
【0052】
RAMは、アプリケーションプログラム及びROMに記憶された及びOSのプログラムがプロセッサ312により実行されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ312により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。
【0053】
特に、特徴語辞書生成装置300のメモリ313は、サーバ装置200及び通信ネットワーク12に接続されたWebサーバ等からテキスト情報を受信して記憶する所定の指示命令を含むアプリケーションプログラムを記憶する。また、プロセッサ312は、記憶したテキスト情報から特徴語を抽出する所定の命令を含むアプリケーションプログラムを記憶する。また、プロセッサ312は、抽出した特徴語から特徴語辞書を生成する所定の命令を含むアプリケーションプログラムを記憶する。
【0054】
特徴語辞書生成装置300の通信インターフェイス314は、端末装置100の通信インターフェイス114と同様の機能を有する。つまり、特徴語辞書生成装置300の通信インターフェイス314は、無線通信回線又は有線通信回線を介して通信ネットワーク12と特徴語辞書生成装置300とを通信のために接続する通信部として機能する。特徴語辞書生成装置300の通信インターフェイス314は、通信ネットワーク12を介して接続された端末装置100等の他の装置との間で、情報及びデータの送受信を行う。また、特徴語辞書生成装置300の通信インターフェイス314は、これらの装置の間で、情報及びデータの送受信を行う。
【0055】
5.サーバ装置200における処理に用いられる情報
以下、サーバ装置200における処理に用いられる情報を説明する。
図3A~
図3Cは、サーバ装置200における処理に用いられる情報を示す第1~第3の図である。なお、
図3A~
図3Cに示す情報のテーブルの同じ行に含まれる行同士は、互いに関係を有する。例えば、これらのテーブルの同じ行に含まれるテキスト情報Cと要約情報Lとは関係を有し、要約情報Lはテキスト情報Cから生成される。また、これらのテーブルの同じ行に含まれる要約情報Lと設定情報Yとは関係を有し、要約情報Lは、テキスト情報Cから、設定情報Yに基づいて生成される。
【0056】
まず、
図3Aを参照して音声情報テーブルを説明する。
図3A~
図3Cのうち、
図3Aは、音声情報に対する処理に用いられる情報を含む音声情報テーブルを概念的に示す図である。
図3Aに示すように、音声情報テーブルの各行は、音声識別情報A、音声情報B、テキスト情報C、要約対象テキスト情報S、形態素・形態素群情報D、関係性情報E及びエレメント情報Iを対応付けて含む。
【0057】
音声情報テーブルの各行において、音声識別情報Aは、音声情報Bを一意に識別する。言い換えると、音声識別情報Aは、音声情報テーブルの各行の含まれる情報を一意に識別する。音声情報Bは、サーバ装置200のプロセッサ212が、通信インターフェイス214を介して端末装置100から受信し、メモリ213に記憶することにより生成する。なお、音声情報Bは、タイムスタンプを含み、このタイムスタンプは、音声情報Bの生成が開始されてから終了するまでの時刻を、例えば0.1秒間隔で示す。なお、サーバ装置200の処理において、音声情報Bに含まれる形態素、及び複数の形態素を含む形態素群の経時的な順番が常に保たれる場合には、音声情報Bがタイムスタンプを含む必要はない。
【0058】
テキスト情報Cは、音声情報Bに対して音声認識処理を行って得られたテキスト情報である。テキスト情報Cもまた、上述したタイムスタンプを含む。要約対象テキスト情報Sは、端末装置100により受け付けられた操作入力により要約対象として確定したテキスト情報である。要約対象テキスト情報Sもまた、上述したタイムスタンプを含む。タイムスタンプにより要約対象テキスト情報Sの各部分と、音声情報Bの各部分とが対応付けられ、要約対象テキスト情報Sに含まれる形態素が、音声情報Bにおいてと同じに経時的に配列される。
【0059】
形態素・形態素群情報Dは、要約対象テキスト情報Sに対して形態素解析処理を行って生成された一つ以上の形態素及び形態素群である。形態素及び形態素群それぞれにも、上述したタイムスタンプが付され、形態素及び形態素群それぞれと、音声情報B及び要約対象テキスト情報Sの各部分とが対応付けられる。なお、一般に、1の要約対象テキスト情報Sから、複数の形態素及び複数の形態素群が生成される。関係性情報は、関係性解析処理により形態素・形態素群情報Dに含まれる形態素及び形態素群の間の関係を示す。エレメント情報Iは、構造化処理により意味のある単位にまとめられた形態素及び形態素群であって、端的には一つの文章を構成する情報である。
【0060】
ここで、構造化処理された形態素及び形態素群を含むエレメント情報について、具体例を挙げて説明する。
図4は、エレメント情報Iを概念的に例示する図である。なお、
図4に示すエレメント情報Iは、「AA病からの完全復活を目指すBB競技選手のEEがFF日SNSアプリを更新」との内容のテキスト情報から得られる。
【0061】
構造化処理により、このテキスト情報に含まれる形態素群「EEが」が主語であることが示される。また、形態素「更新した」が動作状態であり、形態素群「SNSアプリを」が対象であり、形態素群「FF日」が補足であり、形態素群「BB競技選手の」が限定修飾であり、形態素群「AA病からの完全復活を目指す」が説明修飾であることが示される。なお、
図4において、形態要素群の間の矢印の方向は、これらの間の係り受けを示す。このように、構造化処理によって、各形態素及び形態素群の関係及び属性が特定され、要約対象テキスト情報Sに含まれる形態素及び形態素群が意味のある単位に分割される。例えば、主語となる形態素又は形態素群と動作状態を示す形態素又は形態素群が一つずつ存在し、されにこれら形態素又は形態素群と関係を有する他の形態素又は形態素群で一つの単位と判断される。つまり、主語となる形態素又は形態素群と動作状態を示す形態素又は形態素群が再度登場してきた場合には、それは次の単位と判断される。
【0062】
次に、
図3Bを参照して、要約情報テーブルを説明する。
図3Bは、要約対象テキスト情報Sを分割してエレメント情報Iとし、さらに、エレメント情報から要約情報Lを生成するために用いられる要約情報テーブルを概念的に示す図である。
図3Bに示すように、要約情報テーブルの各行は、要約識別情報H、エレメント情報I、話者情報J、話者表示情報K、要約情報L及び話者別テキスト情報Oを対応付けて含む。要約情報Lは、要約対象テキスト情報Sが要約処理された後には、話者別要約情報M及び全体要約情報Nの少なくとも一方を含み、これらは、区別の必要がない場合には、要約情報Lと総称される。ただし、話者表示情報Kは、要約情報テーブルにおいて必須ではない。
【0063】
要約情報テーブルの各行において、要約識別情報Hは、要約情報Lを一意に識別する。言い換えると、要約識別情報Hは、要約情報テーブルの各行の含まれる情報を一意に識別する。エレメント情報Iは、上述のとおり構造化処理によって要約対象テキスト情報Sを分割することにより得られ、一又は複数の形態素及び形態素群の少なくともいずれかを含む。エレメント情報Iもまた、上述したタイムスタンプを含み、エレメント情報Iと音声情報B等の各部分とが対応付けられる。話者情報Jは、エレメント情報Iに対応する音声情報Bに対して話者識別処理を行うことにより生成され、エレメント情報Iを含む形態素及び形態素群又はこれらのいずれかを発話した話者を示す。
【0064】
話者表示情報Kは、要約対象テキスト情報Sに含まれる形態素及び形態素群又はこれらのいずれかを、話者ごとに表示したり、話者別要約情報Mを表示したりするときに、話者を示すために用いられる。話者表示情報Kは、例えば、「話者A」、「話者B」及び「話者C」等であり、あるいは、「(会議の)参加者A」、「参加者B」及び「参加者C」等である。話者表示情報Kは、エレメント情報Iと対応付けられ、あるいは、このエレメント情報Iを構成する形態素又は形態素群からなる要約対象テキスト情報Sを含む。
【0065】
話者別テキスト情報Oは、要約対象テキスト情報Sに含まれる話者ごとのエレメント情報Iを、要約対象テキスト情報Sに含まれるタイムスタンプに従って経時的に配列することにより生成される。話者別要約情報Mは、設定情報Y(
図3C)に含まれる全体/話者別情報Vが話者別要約情報M(
図3B)を生成すべきことを示す場合に、話者別テキスト情報Oを話者ごとに要約処理することにより生成される。なお、話者別要約情報Mの文字数の上限は、設定情報Yに含まれる文字数情報T又は圧縮率情報U、及び要約態様情報Wにより決められる。全体要約情報Nは、話者別要約情報M(
図3B)を生成すべきことを全体/話者別情報Vが示す場合に、要約対象テキスト情報Sの全体を、話者に関係なく要約処理することにより生成される。話者別要約情報Mの文字数の上限もまた、設定情報Yに含まれる文字数情報T又は圧縮率情報U、及び要約態様情報Wにより決められる。
【0066】
ここで、要約対象テキスト情報Sからエレメント情報I及び話者情報Jを生成する処理を、具体例を挙げてさらに説明する。エレメント情報Iは、
図3Aに示した要約対象テキスト情報Sに対して構造化処理等の処理を行うことにより生成される。会議等の音声から生成された要約対象テキスト情報Sは、複数の形態素及び形態素群を含みうる。従って、要約対象テキスト情報Sは、複数の形態素及び形態素群に分割されうる。
【0067】
なお、要約対象テキスト情報Sは、形態素の集合、形態素及び形態素群の集合、及び形態素群の集合の少なくとも一つごとの区切りを示す句読点「、」及び「。」、カンマ及びピリオド「,」,「.」及びスペース等の区切情報を必ずしも含まない。なお、この記載においては、「形態素の集合」、「形態素及び形態素群の集合」及び「形態素群の集合」は、「形態素及び形態素群の集合」と総称される。なお、形態素及び形態素群の集合はエレメント情報Iを構成するが、一般的には「文章」や「文節」と呼ばれるものである。複数の形態素及び形態素群の集合を区切るためには、区切情報を、形態素及び形態素群の集合同士の間に挿入する必要があり、また、最初及び最後の形態素及び形態素群の集合に後置する必要がある。なお、日本語のテキスト情報に含まれる形態素及び形態素群の集合を区切る区切情報は、句読点「、」及び「。」等の形態素及び形態素群の集合の区切りを示す句読点情報でありうる。このように、要約対象テキスト情報Sに含まれる形態素及び形態素群の集合同士の間に句読点情報を挿入する。このように、要約対象テキスト情報Sを、形態素及び形態素群の集合ごとに区切り、構造化処理等によってエレメント情報Iが得られるが、さらにこのような区切り情報を挿入することも可能である。
【0068】
エレメント情報Iは、同一の話者により発言されたと推定されうる。従って、エレメント情報Iの話者は、エレメント情報I、又はエレメント情報Iに含まれる形態素及び形態素群の少なくともいずれかに対応する音声情報Bに対して話者識別処理を行うことにより特定されうる。つまり、エレメント情報Iに対する話者識別処理により、エレメント情報Iの話者が特定され、特定された話者を示す話者情報Jが生成され、エレメント情報Iに対応付けられうる。
【0069】
次に、
図3Cを参照して、設定情報テーブルを説明する。
図3Cは、要約対象テキスト情報Sから要約情報Lを生成するために用いられる設定情報テーブルを概念的に示す図である。
図3Cに示すように、設定情報テーブルの各行は、設定識別情報R1と、設定情報Yとを対応付けて含む。設定情報Yは、サーバ装置200のプロセッサ212が、通信インターフェイス214を介して端末装置100から受信し、メモリ213に記憶する。設定情報Yは、文字数情報T、圧縮率情報U、全体/話者別情報V、及び要約態様情報Wを含む。
【0070】
設定情報テーブルの各行に含まれる設定識別情報Rは、設定情報Yを一意に識別する。つまり、設定識別情報Rは、設定情報テーブルの各行を一意に識別する。設定情報Yに含まれる情報のうち、全体/話者別情報Vは、話者を特定せず、要約対象テキスト情報Sの全体から全体要約情報Nを生成するか、話者を特定して話者ごとに話者別要約情報Mを生成するかを示す。
【0071】
文字数情報Tは、全体/話者別情報Vが、話者別要約情報Mを生成することを示す場合には、話者別要約情報Mの話者ごとの要約情報Lの文字数の上限、又は、話者別要約情報Mの話者全ての要約情報Lの文字数の上限を示す。また、文字数情報Tは、全体/話者別情報Vが、全体要約情報Nを生成することを示す場合には、全体要約情報Nの上限の文字数を示す。圧縮率情報Uは、全体要約情報N及び話者別要約情報Mの文字数の要約対象テキスト情報Sの文字数に対する割合の上限を示す。要約態様情報Wは、要約対象テキスト情報Sを要約する態様を示す。なお、設定情報テーブルは、文字数情報T及び圧縮率情報Uの少なくともいずれかを含めばよく、また、要約態様情報Wを必須としない。また、設定情報Yに含まれる文字数情報T等の情報を区別する必要がない場合には、これらの情報は設定情報Yと総称される。
【0072】
要約態様情報Wは、文字数情報Tにより要約情報Lの文字数の上限が決められる場合に、要約情報Lの文字数を、文字数情報Tが示す要約情報の文字数を超えない範囲で、できるだけこの文字数に近づけるようにすることを示す。あるいは、この場合に、要約態様情報Wは、要約情報Lの文字数が、文字数情報が示す文字数を少し超えたとしても、内容がユーザに理解されやすいように要約情報を生成することを示す。
【0073】
また、要約態様情報Wは、圧縮率情報Uにより要約情報Lの文字数の上限が決められる場合には、要約対象テキスト情報Sの文字数に、圧縮率情報が示す割合を乗算した文字数を計算する。要約態様情報Wは、要約情報Lの文字数を、この乗算値を超えない範囲で、できるだけこの文字数に近づけるようにすることを示す。あるいは、この場合に、要約態様情報Wは、要約情報Lの文字数が、この乗算値を少し超えたとても、内容がユーザに理解されやすいように要約情報Lを生成することを示す。
【0074】
6.システム1の構成要素の処理及びこれらの間の通信
以下、通信シーケンス図を参照して、システム1における端末装置100、サーバ装置200及び特徴語辞書生成装置300の処理と、これらの間の通信を説明する。
図5Aは、システム1の各構成要素とこれらの構成要素の間の通信を示す通信シーケンス図である。
図5Bは、
図5Aに示したS14の処理を示す図である。
【0075】
S100において、ユーザが、端末装置100に対して、会議等の音声から会議の発言内容を要約した要約情報L(
図3B)を生成するためのアプリケーションプログラムの起動を、入力インターフェイス116を介して行う。その後、端末装置100のプロセッサ112は、入力インターフェイス116を介して要約情報Lの生成機能の選択をするための操作を、入力インターフェイス116を介して受け入れると、マイク119を起動する。そして、プロセッサ112は、端末装置100を、マイク119を用いて端末装置100の周囲の音声の入力を開始し、入力された音声から音声情報B(
図3A)を生成する(S102)。具体的には、プロセッサ112は、マイク119を制御して、端末装置100の周囲で行われ、複数の人が参加している会議等の音声を、順次、電気的なアナログ形式の音声信号として増幅する。また、プロセッサ112は、マイク119を制御して、音声信号をディジタル形式に変換し、音声情報Bを生成する。次いで、プロセッサ112は、入力インターフェイス116を介して音声の入力を終了するためのユーザによる操作を受け付けると、マイク119の起動を終了し、入力された音声情報Bを取得する(S104)。さらに、プロセッサ112は、通信インターフェイス114を介して、サーバ装置200に、音声情報Bの内容を要約した要約情報Lの生成を要求する要約生成要求情報と、取得した音声情報Bを送信する(S106)。なお、音声情報Bは、個々ではマイク119を介して取得する場合について説明したが、例えば記憶媒体に記憶された音声データを入力インターフェイス又は通信インターフェイスを介して取得してもよい。
【0076】
サーバ装置200のプロセッサ212は、通信インターフェイス214を介して端末装置100から要約生成要求情報及び音声情報Bを受信する。要約生成要求情報及び音声情報Bを受信すると、プロセッサ212は、受信した音声情報Bにより音声情報テーブル(
図3A)を更新してメモリ213に記憶する。また、プロセッサ212は、音声情報Bから要約情報Lを生成するためのアプリケーションプログラムをメモリ213から読み出して起動する。そして、プロセッサ212は、メモリ213に記憶された音声情報テーブル(
図3A)から、音声情報Bを読み出して、音声情報Bに対して音声認識処理を行い、テキスト情報Cを生成する(S108)。プロセッサ212は、生成したテキスト情報Cにより音声情報テーブルを更新し、メモリ213に記憶する。プロセッサ212は、通信インターフェイス214を介して、生成されたテキスト情報Cを端末装置100に送信する(S110)。
【0077】
端末装置100のプロセッサ112は、通信インターフェイス114を介してテキスト情報Cを受信すると、出力インターフェイス111を介してディスプレイに受信したテキスト情報Cを出力する。そして、プロセッサ112は、入力インターフェイス116を介してユーザによる操作入力を受け付けて、テキスト情報Cを修正するか否かの選択を行う(S112)。修正が選択された場合には、プロセッサ112は、入力インターフェイス116を介してユーザによる操作入力を受け付けて、テキスト情報に対して修正を行う。その後、プロセッサ112は、入力インターフェイス116を介してユーザによる操作入力を受け付けて、要約の対象とするテキスト情報が確定した旨の選択がなされると、確定されたテキスト情報を要約対象テキスト情報Sとして、通信インターフェイス114を介してサーバ装置200に送信する(S114)。このとき、プロセッサ112は、要約対象テキスト情報Sとともに、S110で受信したテキスト情報Cも一緒に送信する。また、プロセッサ112は、入力インターフェイス116を介して、設定情報Y(
図3C)を入力するユーザの操作入力を受け付ける。そして、プロセッサ112は、受け入れた操作に基づいて設定情報Yを生成し、通信インターフェイス114を介してサーバ装置200に送信する。
【0078】
サーバ装置200のプロセッサ212は、S100の処理において通信インターフェイス214を介して、端末装置100から要約対象テキスト情報S、テキスト情報C及び設定情報Yを受信する。プロセッサ212は、受信した設定情報Yにより設定情報テーブル(
図3C)を更新し、メモリ213に記憶する。また、プロセッサ212は、受信した要約対象テキスト情報S及びテキスト情報Cにより音声情報テーブル(
図3A)を更新してメモリ213に記憶する(S116)。なお、テキスト情報Cは、音声識別情報A等により識別可能な場合には、特に端末装置100からS114において再度受信する必要はない。
【0079】
特徴語辞書生成装置300のプロセッサ312は、記憶したテキスト情報から特徴語を抽出し、特徴語辞書を生成する(S117)。ただし、S117の処理は、他の処理と同期して行われる必要はなく、任意のタイミングで行われうる。なお、当該処理は、要約生成に係る処理からは独立して行われるため、
図5AではS117のタイミングで行っているが、例えばテキスト情報を取得する都度、任意のタイミングで行ってもよい。
【0080】
サーバ装置200のプロセッサ212は、特徴語辞書生成装置300から特徴語辞書を受信する(S118)。なお、S117の処理と同様に、S118の処理もまた、他の処理と同期して行われる必要はなく、任意のタイミングで行われうる。S118の処理が終了すると、サーバ装置200のプロセッサ212は、
図5Bに示すS14の処理に進む。
【0081】
図5Bに示すS14のS140の処理において、サーバ装置200のプロセッサ212は、メモリ213から音声情報テーブル(
図3A)に含まれる要約対象テキスト情報Sに対して形態素解析を行う。プロセッサ212は、この形態素解析処理により、要約対象テキスト情報Sから、形態素、及び複数の形態素を含む形態素群を生成する。プロセッサ212は、生成した形態素及び形態素群により音声情報テーブルの形態素・形態素群情報Dを更新し、メモリ213に記憶する。
【0082】
S142において、サーバ装置200のプロセッサ212は、S118の処理において受信した特徴語辞書を用い、形態素及び形態素群に対して、関係性解析処理を行う。関係性解析処理は、機能素解析処理(S144)及び特徴語解析処理(S146)を含み、これらの処理の結果に基づいて、形態素及び形態素群の間の関係性を特定する。
【0083】
S144において、サーバ装置200のプロセッサ212は、形態素及び形態素群に対して機能素解析処理を行い、形態素及び形態素群それぞれの機能を特定する。
【0084】
S146において、サーバ装置200のプロセッサ212は、形態素及び形態素群に対して、特徴語辞書を用いて特徴語解析処理を行う。
【0085】
S148において、サーバ装置200のプロセッサ212は、S142~S146の処理により関係性が特定された形態素及び形態素群に対して構造化処理を行い、
図4に例示したエレメント情報Iを生成する。具体的には、プロセッサ212は、関係性解析処理及び構造化処理の結果に基づいて、要約対象テキスト情報Sに含まれる形態素又は形態素群をまとまりのある単位ごとに分割し、句読点情報等の区切情報を挿入することにより、エレメント情報Iを生成する。S148の処理が終了すると、プロセッサ212は、
図5Aに示すS120の処理に進む。
【0086】
再び
図5Aに戻り、サーバ装置200のプロセッサ212は、S150(
図5B)の処理において生成されたエレメント情報Iにより要約情報テーブル(
図3B)を更新し、メモリ213に記憶する(S120)。
【0087】
サーバ装置200のプロセッサ212は、音声情報Bから、取得した各エレメント情報Iに対応する部分の音声情報Bを取得する(S122)。プロセッサ212は、取得した各音声情報Bの部分に対して話者識別処理を行い、形態素及び形態素群からなるエレメント情報Iそれぞれに対応する話者を識別する。なお、例えば、S122の処理における話者の識別は、形態素及び形態素群それぞれに対応する話者を区別するだけであって、形態素及び形態素群それぞれに対応する話者が誰であるかを特定しない。
【0088】
サーバ装置200のプロセッサ212は、S122の処理において識別された話者ごとの話者別テキスト情報O(
図3B)を生成する(S124)。サーバ装置200のプロセッサ212は、設定情報テーブル(
図3C)の設定情報Yに含まれる全体/話者別情報Vを参照する。全体/話者別情報Vが、話者を特定せず、要約対象テキスト情報Sの全体から全体要約情報Nを生成することを示す場合には、プロセッサ212は、要約対象テキスト情報Sから全体要約情報Nを生成する。一方、全体/話者別情報Vが、話者を特定して話者ごとに話者別要約情報Mを生成すべきことを示す場合には、S122のプロセッサ212は、要約対象テキスト情報Sから話者別要約情報Mを生成する。なお、話者別要約情報M及び全体要約情報Nの文字数は、設定情報Yに含まれる文字数情報T又は圧縮率情報U、及び要約態様情報Wにより上限が決められる。また、設定情報Yは、文字数情報T及び圧縮率情報Uの両方を含んでよい。この場合には、文字数情報Tは、プロセッサ212により、S116の処理において、S116の処理に留まるか、S118又はS14の処理に進むかの判断のために用いられる。また、この場合には、圧縮率情報U及び要約態様情報Wにより要約情報Lの文字数の上限が決められる。
【0089】
サーバ装置200のプロセッサ212は、話者表示情報K、話者別テキスト情報O及び要約情報Lに含まれる話者別要約情報M又は全体要約情報Nを、通信インターフェイス214を介して端末装置100に送信する(S126)。
【0090】
端末装置100のプロセッサ112は、通信インターフェイス114を介して、サーバ装置200から話者別テキスト情報O及び要約情報Lを受信し、出力インターフェイス111を介してディスプレイ等に表示する(S128)。
【0091】
なお、
図5A及び
図5Bには、サーバ装置200のプロセッサ212が、音声情報Bを全て受信して記憶した後に要約情報Lを生成する場合を例示した。これに対して、予め決められた量の音声情報Bを受信して記憶するたびに、プロセッサ212が、要約情報Lを生成してよい。この場合には、音声情報Bの受信の開始から終了まで、プロセッサ212は、複数回にわたって音声情報Bを生成し、通信インターフェイス214を介して端末装置100に送信することになる。一方、端末装置100のプロセッサ112は、通信インターフェイス114を介して、サーバ装置200から要約情報Lを受信するたびに、出力インターフェイス111を介してディスプレイ等に表示することになる。
【0092】
あるいは、予め決められた量の音声情報Bを受信して記憶するたびに、プロセッサ212が、音声情報Bの受信の開始から、最新の音声情報Bの受信までの間に蓄積された音声情報Bから要約情報Lを生成してよい。この場合には、端末装置100は、サーバ装置200から要約情報Lを受信するたびに、蓄積された音声情報Bから生成された要約情報をディスプレイ等に表示することになる。
【0093】
また、
図5Aには、サーバ装置200が、話者別テキスト情報Oと、要約情報Lに含まれる話者別要約情報M又は全体要約情報Nとを、S126の処理において端末装置100に送信する場合を例示した。しかしながら、サーバ装置200は、話者別テキスト情報Oと、要約情報Lに含まれる話者別要約情報M又は全体要約情報Nとを同じ処理において端末装置100に送信する必要はない。例えば、端末装置100は、S220の処理において話者別テキスト情報Oを生成した時点で直ちに端末装置100に送信し、その後のS126の処理において、話者別要約情報M又は全体要約情報Nを端末装置100に送信してよい。また、サーバ装置200は、話者別テキスト情報Oの代わりに、要約対象テキスト情報Sを端末装置100に送信してよい。
【0094】
また、S108において、サーバ装置200のプロセッサ212が音声認識処理を行い、テキスト情報Cを生成する。この音声認識処理は、一例としては、入力された音声情報に対してテキスト情報を生成するための学習済音声認識アルゴリズムを用いて実行することが可能である。このような学習済音声認識アルゴリズムは、学習用音声情報を入力するとともに、当該学習用音声情報に対して正解ラベルが付されたテキスト情報を教師データとして入力して機械学習をすることによって得ることが可能である。
【0095】
また、S112において音声認識処理されたテキスト情報Cに対してユーザによる修正の有無の選択や修正がなされ、要約対象テキスト情報が生成される。すなわち、S116でサーバ装置200において受信される要約対象テキスト情報Sは、処理時の不具合等により正しく認識されなかった部分が正しく修正されたテキスト情報となる。そのため、S116において記憶された要約対象テキスト情報Sに対応付けられた音声情報Bを学習用音声情報として入力し、当該要約対象テキスト情報を正解ラベルである教師データとして入力して機械学習することにより、上述した学習済音声認識アルゴリズムを更新することが可能である。このように、要約対象テキスト情報を利用することで、さらに音声認識精度を向上させることが可能である。
【0096】
8.端末装置100、サーバ装置200及び特徴語辞書生成装置300の処理
[サーバ装置200の動作]
まず、サーバ装置200の動作の詳細を説明する。
図6は、
図1及び
図2Bに示したサーバ装置200の処理を示すフローチャートである。なお、
図6には、設定情報Y(
図3C)が文字数情報Tを含む場合を例示する。S200において、サーバ装置200のプロセッサ212は、端末装置100から通信インターフェイス214を介して、端末装置100で取得された音声情報B及び要約生成要求情報を受信したか否かを判断する。プロセッサ212は、音声情報B及び要約生成要求情報を受信した場合(Y)にはS202の処理に進み、受信しない場合(N)にはS200の処理に留まる(
図5A;S108)。
【0097】
S202において、プロセッサ212は、音声情報Bから要約情報Lを生成するアプリケーションプログラム(要約アプリ)をメモリ213から読み出し、起動する(
図5A;S108)。
【0098】
S204において、プロセッサ212は、端末装置100から通信インターフェイス214を介して受信した音声情報Bを、音声情報テーブル(
図3A)において新たに生成した音声識別情報に対応付けて更新して記憶する(
図5A;S108)。
【0099】
S208において、プロセッサ212は、メモリ213に記憶された音声情報テーブル(
図3A)から音声情報Bを取得し、取得した音声情報Bに対して音声認識処理を行い、テキスト情報Cを生成する(
図5A;S108)。
【0100】
S212において、プロセッサ212は、生成されたテキスト情報Cを音声情報テーブル(
図3A)に当該音声情報Bの音声識別情報に対応付けて記憶する。そして、プロセッサ212は、記憶したテキスト情報Cを読み出して、通信インターフェイス214を介して、音声情報Bを送信してきた端末装置100に送信する。
【0101】
S214において、サーバ装置200のプロセッサ212は、端末装置100から通信インターフェイス214を介して、要約対象テキスト情報、テキスト情報C及び設定情報Yを受信したか否かを判断する。プロセッサ212は、要約対象テキスト情報S及びテキスト情報Cを受信した場合(Y)には、受信した各情報を音声情報テーブル(
図3A)に記憶するとともに、S216の処理に進み、受信しない場合(N)にはS214の処理に留まる(
図5A;S116)。
【0102】
S216において、プロセッサ212は、通信インターフェイス214を介して、特徴語辞書生成装置300から特徴語辞書を受信する(
図5A;S118)。ただし、上述したように、S216の処理は他の処理と同期している必要はない。
【0103】
S218において、プロセッサ212は、要約対象テキスト情報Sに対して、形態素解析処理、特徴語辞書を用いた機能素解析処理及び特徴語解析処理を含む関係性解析処理、及び構造化処理を行う。さらに、プロセッサ212は、関係性解析結果及び構造化処理によってエレメント情報Iを生成する(
図5A,
図5B;S14,S120)。
【0104】
S220において、プロセッサ212は、エレメント情報Iに対応する音声情報Bに対して話者識別処理を行い、エレメント情報Iを発話した話者を特定する。また、プロセッサ212は、話者別テキスト情報Oを生成する(
図5A;S122,S124)。
【0105】
S222において、プロセッサ212は、設定情報Y(
図3C)に含まれる全体/話者別情報Vを参照する。プロセッサ212は、全体/話者別情報Vが、全体要約情報Nを生成すべきことを示す場合(全体)にはS224の処理に進み、話者別要約情報Mを生成すべきことを示す場合(話者別)にはS226の処理に進む(
図5A;S124)。
【0106】
S224において、プロセッサ212は、要約対象テキスト情報Sの全体要約情報Nを生成する(
図5A;S124)。
【0107】
S226において、プロセッサ212は、話者別テキスト情報Oから、話者別要約情報Mを生成する(
図5A;S124)。
【0108】
S228において、プロセッサ212は、話者別テキスト情報Oと、全体要約情報、N又は話者別要約情報Mとを、通信インターフェイス214を介して端末装置100に送信する(
図5A;S126)。
【0109】
S230において、S214で受信された要約対象テキスト情報Sと当該要約対象テキスト情報Sに対応付けられた音声情報Bを用いて学習済音声認識アルゴリズムを更新する処理を実行する。具体的には、音声情報Bを学習用の入力データとし、要約対象テキスト情報Sを当該学習用の入力データに対して正解ラベルが付された教師データとして、各情報を音声認識アルゴリズムに機械学習させる。
【0110】
[端末装置100の動作]
次に、
図7A~
図7Cを参照して、端末装置100の動作を詳細に説明する。
図7Aは、
図1及び
図2Aに示した端末装置100の処理を示すフローチャートである。
図7B及び
図7Cは、端末装置100の出力インターフェイス111を介してディスプレイに表示されるUI画像を例示する第1及び第2の図である。
【0111】
図7Aに示すように、S242において、端末装置100のプロセッサ112は、アプリケーションプログラム(アプリ)を起動する。その後、プロセッサ112は、当該アプリケーションプログラム上において、入力インターフェイス116を介してユーザの操作入力を受け付け、要約情報Lの生成機能の選択をする。S248において、プロセッサ112は、マイク119を起動し、端末装置100の周囲の音声から生成した音声情報Bの入力を開始する。S250において、プロセッサ112は、入力インターフェイス116を介して、音声の入力を終了する操作を受け入れたか否かを判断する。プロセッサ112は、この操作を受け入れた場合(Y)にはS252の処理に進み、受け入れなかった場合にはS250の処理に戻る。S252において、プロセッサ212は、マイク119を介して入力された音声信号をディジタル形式に変換し、音声情報Bを生成するとともに、メモリに113に記憶する。そして、S254において、プロセッサ112は、生成された音声情報Bと、当該音声情報Bを要約することを要求するための要約生成要求情報を、通信インターフェイス114を介してサーバ装置200に送信する。なお、音声情報Bは、個々ではマイク119を介して取得する場合について説明したが、例えば記憶媒体に記憶された音声データを入力インターフェイス又は通信インターフェイスを介して取得してもよい。
【0112】
S256において、端末装置100のプロセッサ112は、サーバ装置200において音声認識処理されることにより生成されたテキスト情報を、サーバ装置200から通信インターフェイス114を介して受信したか否かを判断する。当該情報を受信した場合(Y)にはS258の処理に進み、受信していなかった場合(N)にはS256の処理に留まる。
【0113】
S258において、端末装置100のプロセッサ112は、受信したテキスト情報Cを、出力インターフェイス111を介してディスプレイに出力する。そして、プロセッサ112は、入力インターフェイス116を介してユーザによる操作入力を受け付けて、テキスト情報Cを修正するか否かの選択を行う。修正が選択された場合には、プロセッサ112は、入力インターフェイス116を介してユーザによる操作入力を受け付けて、テキスト情報に対して修正を行う。
【0114】
S260において、プロセッサ112は、入力インターフェイス116を介してユーザによる操作入力を受け付けて、要約の対象とするテキスト情報が確定した旨の選択がなされると、確定されたテキスト情報を要約対象テキスト情報Sとして、通信インターフェイス114を介してサーバ装置200に送信する。このとき、プロセッサ112は、要約対象テキスト情報Sとともに、S256で受信したテキスト情報Cも一緒に送信する。また、プロセッサ112は、入力インターフェイス116を介して、設定情報Y(
図3C)を入力するユーザの操作入力を受け付ける。そして、プロセッサ112は、当該操作入力に基づいて設定情報Yを生成するとともに、話者識別処理に用いられる話者人数情報を生成し、通信インターフェイス114を介してサーバ装置200に送信する。
【0115】
S262において、端末装置100のプロセッサ112は、通信インターフェイス114を介して、サーバ装置200から話者表示情報K、話者別テキスト情報O及び要約情報L(
図3A)を受信したか否かを判断する。プロセッサ112は、これらの情報を受信した場合(Y)にはS264の処理に進み、受信しなかった場合(N)にはS262の処理に留まる。
【0116】
S264において、端末装置100のプロセッサ112は、出力インターフェイス111を介して、ディスプレイに話者別テキスト情報O及び要約情報Lを表示する。
【0117】
端末装置100のプロセッサ112は、例えば、
図7B及び
図7Aに示すUI画像のテキスト情報表示部分に、話者ごとに話者表示情報K(話者A等)を付した話者別テキスト情報Oを表示する。さらに、S262の処理において、全体要約情報Nを受信した場合には、
図7Bに示すように、UI画像の要約情報表示部分に、受信した全体要約情報Nを表示する。あるいは、S262の処理において、話者別要約情報Mを受信した場合には、プロセッサ112は、
図7Cに示すように、UI画像の要約情報表示部分に、受信した全体要約情報Nに話者表示情報Kを付して、話者ごとに表示する。
【0118】
なお、
図7B及び
図7Cに示すように、UI画像は、テキスト情報表示部分及び要約情報表示部分の他に、ユーザが端末装置100に対する操作のためのボタン等を含む。これらのボタン等に対する操作により、ユーザは、文字数情報T、圧縮率情報U、全体/話者別情報V、音声送信の開始及び終了、要約の生成の要求、及び話者人数を端末装置100に対して設定できる。
【0119】
なお、
図7A~
図7Cには、S126の処理において、端末装置100のプロセッサ112が、サーバ装置200から話者表示情報K、話者別テキスト情報O及び要約情報L(
図3A)を受信する場合を示した。一方、サーバ装置200は、上述したように、話者別テキスト情報Oを生成して直ちに端末装置100に送信しうる。この場合には、端末装置100は、話者別テキスト情報Oを受信して直ちに、
図7A及び
図7Cのテキスト情報表示部分に、受信した話者別テキスト情報Oを表示し、その後に要約情報を受信して表示してよい。
【0120】
また、
図7B及び
図7Cには、端末装置100が、UI画像のテキスト情報表示部分に、話者別テキスト情報Oを表示する場合を示した。一方、上述したように、サーバ装置200は、話者別テキスト情報Oの代わりに要約対象テキスト情報Sを端末装置100に送信しうる。この場合には、端末装置100は、話者別ではなく、要約対象テキスト情報Sの全体を、テキスト情報表示部分に表示してよい。また、
図7B及び
図7Cに示した話者表示情報Kは、要約情報Lの表示の初期段階で「話者A」と表示され、その後、ユーザの端末装置100に対する操作に応じて、話者Aに対応する人物の名前などに書き換えられてよい。
【0121】
[特徴語辞書生成装置300の動作]
次に、
図8を参照して、特徴語辞書生成装置300の動作を詳細に説明する。
図8は、
図1及び
図2Cに示した特徴語辞書生成装置300の処理を示すフローチャートである。なお、
図8に示す特徴語辞書生成装置300の処理は、上述したように、端末装置100及びサーバ装置200の処理との同期なしに任意のタイミングで実行されうる。
【0122】
図8に示すS280において、特徴語辞書生成装置300のプロセッサ312は、通信インターフェイス314を介して、サーバ装置200及びその他の装置からテキスト情報を受信し、メモリ313に記憶する。
【0123】
S282において、特徴語辞書生成装置300のプロセッサ312は、新たな特徴語辞書を生成するために充分な量のテキスト情報がメモリ313に記憶されているか否かを判断する。プロセッサ312は、充分な量のテキスト情報が記憶されている場合(Y)にはS284の処理に進み、記憶されていない場合(N)にはS280の処理に戻る。
【0124】
S284において、特徴語辞書生成装置300のプロセッサ312は、メモリ313からテキスト情報を読み出し、ベイジアンフィルタによる処理を行う。
【0125】
S286において、特徴語辞書生成装置300のプロセッサ312は、ベイジアンフィルタによる処理の結果から、特徴語を抽出し、特徴語リストを生成する。
【0126】
S288において、特徴語辞書生成装置300のプロセッサ312は、特徴語リストから特徴語辞書を生成し、通信インターフェイス314を介してサーバ装置200に送信する。
【0127】
S290において、特徴語辞書生成装置300のプロセッサ312は、処理におけるエラーの発生等、何らかの理由により処理を終了すべきか否かを判断する。プロセッサ312は、処理を終了すべき場合(Y)には処理を終了し、終了すべきでない場合(N)にはS280の処理に戻る。
【0128】
以上説明したシステム1における処理は、実施形態において明示的に説明された装置によってだけでなく、ソフトウェア、ハードウェア又はこれらの組み合わせにより実現されうる。具体的には、実施形態において説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することにより実現されうる。また、実施形態において説明された処理及び手順は、それらの処理及び手順をコンピュータプログラムとして実装されえ、端末装置及びサーバ装置を含む各種のコンピュータにより実行されうる。
【0129】
実施形態において、単一の装置、ソフトウェア、及び/又はコンポーネントによって実行されると説明された処理及び手順は、複数の装置、複数のソフトウェア、及び/又は複数のコンポーネントによって実行されうる。また、実施形態において、単一のメモリ及び記憶装置に格納される旨が説明された各種情報は、単一の装置に含まれる複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されうる。さらに、実施形態において説明された複数のソフトウェア及びハードウェアは、それらをより少ない構成要素に統合することにより、又は、より多い構成要素に分解することにより実現されうる。
【0130】
本発明の実施形態が説明されたが、この実施形態は、例として提示されたものであり、発明の範囲を限定することを意図されていない。これら新規な実施形態は、その他の様々な形態で実施されることができ、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更され得る。これら実施形態やその変形は、本発明の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0131】
1 システム、100 端末装置、200 サーバ装置、300 特徴語辞書生成装置、111,211,311 出力インターフェイス、112,212,312 プロセッサ、113,213,313 メモリ、114,214,314 通信インターフェイス、115 通信処理回路、116 入力インターフェイス、117 マウス、118 ハードキー、119 マイク、12 通信ネットワーク