IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社バズグラフの特許一覧

特開2023-147490処理装置、処理方法及び処理プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023147490
(43)【公開日】2023-10-13
(54)【発明の名称】処理装置、処理方法及び処理プログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20231005BHJP
   G10L 17/00 20130101ALI20231005BHJP
【FI】
G10L15/22 453
G10L17/00 200Z
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022055008
(22)【出願日】2022-03-30
(71)【出願人】
【識別番号】516330516
【氏名又は名称】株式会社バズグラフ
(74)【代理人】
【識別番号】100151448
【弁理士】
【氏名又は名称】青木 孝博
(74)【代理人】
【識別番号】230121016
【弁護士】
【氏名又は名称】小笠原 匡隆
(72)【発明者】
【氏名】西本 光治
(57)【要約】
【課題】音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成する。
【解決手段】本開示に係る処理装置が含む少なくとも一つのプロセッサは、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、各エレメント情報に対応付けられた属性情報に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成するための処理を実行するように構成される。
【選択図】図1

【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを含む処理装置であって、
前記少なくとも一つのプロセッサは、
ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言の内容を示すテキスト情報を生成し、
生成した前記テキスト情報を一又は複数のエレメント情報に分割し、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、
ための処理を実行するように構成された、
処理装置。
【請求項2】
前記少なくとも一つのプロセッサは、前記テキスト情報に対応する前記発言をした前記一又は複数の話者のいずれかを示す話者情報を、前記エレメント情報にさらに対応付ける処理を実行するように構成される、請求項1に記載の処理装置。
【請求項3】
前記少なくとも一つのプロセッサは、前記話者情報を、前記音声情報と、予め設定された前記話者の数に基づいて生成するように構成される、請求項2に記載の処理装置。
【請求項4】
前記ユーザは、前記一又は複数人の話者に含まれる、請求項1~3のいずれか一項に記載の処理装置。
【請求項5】
前記少なくとも一つのプロセッサは、前記テキスト情報に基づいて、前記テキスト情報の意味上の区切りを示す区切情報が挿入された変換情報を生成するための処理をするように構成された、請求項1~4のいずれか一項に記載の処理装置。
【請求項6】
前記少なくとも一つのプロセッサは、生成した前記変換情報に基づいて、前記テキスト情報を、意味を有する単語又は複数の単語を含む単語群がひとまとまりとなった前記エレメント情報に分割するための処理を実行するように構成された、請求項5に記載の処理装置。
【請求項7】
前記区切情報は句読点を示す句読点情報である、請求項5又は6に記載の処理装置。
【請求項8】
前記エレメント情報は、前記ユーザの操作に基づいて編集可能である、請求項1~7のいずれか一項に記載の処理装置。
【請求項9】
前記属性情報は、前記テキスト情報で示される結論、前記テキスト情報で示される前記話者又は前記話者とは異なる他の話者に対するタスク及び前記タスクの期限の少なくともいずれか示す情報である、請求項1~8のいずれか一項に記載の処理装置。
【請求項10】
前記属性情報の対応付けは、前記エレメント情報に対応付けられた前記属性情報に対する前記ユーザの操作に基づいて確定される、請求項1~9のいずれか一項に記載の処理装置。
【請求項11】
少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサが所定の指示命令を実行することによりなされる方法であって、
ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付ける段階と、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成する段階と、
生成した前記テキスト情報を一又は複数のエレメント情報に分割する段階と、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する段階と、
を含む処理方法。
【請求項12】
少なくとも一つのプロセッサを含むコンピュータを、
ユーザによる入力操作に基づいて、一は複数の話者の発言内容を含む音声情報の入力を受け付け、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成し、
生成した前記テキスト情報を一又は複数のエレメント情報に分割し、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、
処理を行うように構成されたプロセッサとして機能させる、
処理プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声情報をテキスト情報に変換して編集できる処理装置、処理方法、処理プログラムに関する。
【背景技術】
【0002】
音声情報をテキスト情報に変換する音声認識が一般的に用いられている。また、音声を発した話者を識別する装置が一般的に用いられている。例えば、特許文献1は、会議等の音声情報から議事録を生成するシステムを開示する。また、引用文献2は、話者を識別する装置を開示する。しかしながら、特許文献1は、音声認識により得られたテキスト情報を分割し、分割により得られたエレメント情報に意味及び話者等を示す属性情報を対応付け、出力用のフォームに含まれる項目に関連付けることを開示しない。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-028776号公報
【特許文献2】特開平10-313357号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本実施形態は、上述した背景からなされたものであり、音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成することを課題とする。また、本実施形態は、エレメント情報に、さらに、話者情報を対応付けて出力情報を生成することを課題とする。
【課題を解決するための手段】
【0005】
本開示に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成した前記テキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成するための処理を実行するように構成される。
【0006】
また、本開示に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサが所定の指示命令を実行することによりなされる方法であって、ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付ける段階と、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成する段階と、生成した前記テキスト情報を一又は複数のエレメント情報に分割する段階と、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する段階とを含む。
【0007】
本開示に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータを、ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付け、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成し、生成した前記テキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、処理を行うように構成されたプロセッサとして機能させる。
【発明の効果】
【0008】
本開示によれば、音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成できる。また、本開示によれば、エレメント情報に、さらに、話者情報を対応付けて出力情報を生成できる。
【0009】
なお、上述した効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上述した効果に加えて、又は上述した効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。
【図面の簡単な説明】
【0010】
図1図1は、音声情報に対する音声認識により得られたテキスト情報を編集して生成されたエレメント情報12、属性情報16及び話者情報18の出力情報14のなかにおける表示の形式を示すフォーム10を例示する図である。
図2図2は、会議等の音声情報を処理して会議の発言の内容を示すテキスト情報、及び会議において発言した話者を識別し、図1に示したフォーム10に従って会議の議事録を生成する処理を実行する端末装置100の構成を例示する図である。
図3A図3Aは、フォーム情報テーブルを示す図である。
図3B図3Bは、音声情報テーブルを示す図である。
図3C図3Cは、エレメント情報テーブルを示す図である。
図4A図4Aは、図3Bに示した音声情報テーブルに含まれるテキスト情報Hを例示する図である。
図4B図4Bは、図4Aに示したテキスト情報から生成された音声情報テーブル(図3B)に含まれる変換情報を例示する図である。
図4C図4Cは、図4Bに示した変換情報から生成された音声情報テーブル(図3B)に含まれるエレメント情報12(エレメント情報J)を例示する図である。
図4D図4Dは、チェックボックスと、図4Cに示したエレメント情報12と、属性を示すフラグF1~F4と、話者A~Cを示す話者情報18を対応付けたUI画像を例示する図である。
図5A図5Aは、ユーザによる端末装置100に対して、フォーム情報テーブル(図3A)に含まれるフォーム情報のうちの出力情報14のフォーム情報Cを示す情報を登録する処理を示すフローチャートである。
図5B図5Bは、フォーム情報により示される出力情報14のフォーム情報Cが示すフォーム10を例示する図である。
図6A図6Aは、端末装置100による音声情報処理を示すフローチャートである。
図6B図6Bは、属性を示すフラグと対応付けられたエレメント情報12のリストを例示する図である。
図6C図6Cは、エレメント情報12等を、出力情報14のフォーム10に含まれ、属性情報16に対応付けられたボックスに移動させるために用いられるUI画像を例示する図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施形態として、音声情報に対する音声識別処理等により得られた会議の発言内容を示すテキスト情報を処理し、予め決められたフォームに従った議事録を生成する処理を、図面を参照して詳細に説明する。なお、図面において実質的に同じ構成要素、処理及び情報には同じ符号及び名称が付される。また、「情報」と「データ」とは厳密には区別されない。
【0012】
また、図面において、構成要素及びデータの数及び種類は例示的に示され、適宜、増減されたり変更されたりする。また、図面において、装置の間における通信の順番は例示的に示され、適宜、変更される。また、図面において、発明の本質的な説明に関係しない構成要素は、適宜、省略されることがある。また、図示の都合上、図面において、「情報」及び「モジュール」等、構成要素及び情報の名称の一部が適宜、省略されることがある。また、「エレメント情報12a~12d」等、複数ある用語の区別が必要とされない場合には、符号の添え字が省略されて「エレメント情報12」等と記載されることがある。
【0013】
1.端末装置100による処理の概要
まず、図1及び図2を参照して、本実施形態に係る会議の音声から議事録を生成する処理の概要を説明する。図1は、音声情報に対する音声認識により得られたテキスト情報を編集して生成されたエレメント情報12、属性情報16及び話者情報18の出力情報14のなかにおける表示の形式を示すフォーム10を例示する図である。図2は、会議等の音声情報を処理して会議の発言の内容を示すテキスト情報、及び会議において発言した話者を識別し、図1に示したフォーム10に従って会議の議事録を生成する処理を実行する端末装置100の構成を例示する図である。
【0014】
なお、フォーム10は、出力情報14において、エレメント情報12、属性情報16及び話者情報18等の一つ又は複数の項目を、ユーザ所望の形式で出力するために定義される。ユーザは、任意のフォーム10を定義して、エレメント情報12等を、端末装置100に、定義したフォーム10に従って出力情報14のなかに表示させることができる。
【0015】
図2に示す端末装置100は、オンライン会議等の音声情報、及びオフラインのマイク119を介して収集された音声情報等、様々な音声情報を処理し、図1に示したフォーム10に従ってディスプレイ(不図示)等に表示できる。ただし、以下、説明の明確化及び具体化のために、端末装置100が、オフラインで行われた会議の音声情報の入力を受ける場合が説明する。また、端末装置100が、音声識別により、会議における発言の内容を示すテキスト情報を生成し、生成したテキスト情報を分割してエレメント情報12を生成する場合が説明される。また、端末装置100が、エレメント情報12を含む変換情報を発言した話者を特定する場合が説明される。また、端末装置100が、エレメント情報12に、エレメント情報12の属性を示す属性情報16、及びエレメント情報12に対応する話者を示す話者情報18を対応付ける場合が説明される。なお、話者認識は、エレメント情報12を含む発言をした話者を識別することである。さらに、端末装置100が、エレメント情報12と、属性情報16と、話者情報18とを対応付け、フォーム10に従って表示する場合が具体例とされる。
【0016】
会議等において、端末装置100によりマイク119等を介して、一又は複数人の会議の出席者等の話者の音声を示す音声情報が録音される。録音された音声情報に対して音声認識処理を行うことにより、音声情報は、一つ又は複数のテキスト情報に変換される。会議の音声から得られたテキスト情報は、複数の文章を含みうる。従って、テキスト情報は、複数の文章に分割されうる。一方、このテキスト情報は、例えば「え~まずAさんが○月×日までにセミナー資料を生成してください」といった文字列を含む。従って、テキスト情報を分割して得られた文章もまた、「ください」といった敬語等、議事録に含まれる必要がない部分を含みうる。このように、議事録に含まれる必要がない部分は、削除されてよい。
【0017】
なお、分割により得られたテキスト情報は、テキスト情報同士の間の区切りを示す句読点「、」及び「。」、カンマ及びピリオド「,」,「.」及びスペース等の区切情報を含まない。一方、複数のテキスト情報を区切るためには、区切情報を、テキスト情報同士の間に挿入する必要があり、また、最初及び最後のテキスト情報に後置する必要がある。なお、日本語のテキスト情報において、テキスト文章を区切る区切情報は、句読点「、」及び「。」等の文章の区切りを示す句読点情報でありうる。このように、テキスト情報から、不要な文末の敬語等が削除され、テキスト情報同士の間等に句読点情報を挿入すると、テキスト情報同士の区切りが明確になるように変換された変換情報が得られる。
【0018】
変換情報は、それぞれ単語及び単語群から構成され、何らかの意味を有する一つ又は複数のエレメント情報12を含みうる。例えば、変換情報「え~、まずAさんが○月×日までにセミナー資料を生成する。」は、形態素解析処理及び機能素解析処理等により、それぞれ特定の意味を有する複数のエレメント情報12に分割されうる。例えば、この変換情報は、それぞれ「え~」、「まず」、「Aさんが○月×日までに」及び「セミナー資料を生成する」といった単語及び単語群により構成されるエレメント情報12a~12dに分割されうる。
【0019】
エレメント情報12は変換情報に含まれ、1つの変換情報は、同一の話者により発言されたと推定されうるので、エレメント情報12の話者は、エレメント情報12を含む変換情報に対応する音声情報に対して話者識別の処理を行うことにより特定されうる。言い換えると、変換情報を介してテキスト情報に対して話者識別の処理を行うことができ、この処理により、エレメント情報12の話者が特定され、エレメント情報12にこの話者を示す話者情報18が対応付けられうる。
【0020】
この変換情報に含まれるエレメント情報12aの「え~」(図1において不図示)は感動詞であり、議事録に含められなくてよい。エレメント情報12bの「まず」は、「セミナー資料を生成する」という行動の順番又は期限のうちの前者(順番)を意味するので、議事録に含められる必要がある。エレメント情報12cの「Aさんが○月×日までに」は、エレメント情報12dの「セミナー資料を生成する」という行動の順番又は期限のうちの後者(期限)、及び主体を意味するので、議事録に含められる必要がある。エレメント情報12dの「セミナー資料を生成する」は、行動を意味するので、議事録に含められる必要がある。
【0021】
以上説明したように、エレメント情報12は、例えば、会議における話者による発言前の挨拶として「おはよう」(不図示)、及び発言に前置されるエレメント情報12aの「え~」等の日本語文法の用語で感動詞と呼ばれる単語を含みうる。また、エレメント情報12は、感動詞「おはよう」に敬語「ございます」(不図示)を付した「おはようございます」等の単語群を含みうる。これらの感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群は、一般に、会議の議事録に含まれる必要はない。従って、感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群には、属性情報16を対応付ける必要はないので、議事録を生成する場合には無属性とされる。なお、以下、「感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群」等は、「感動詞等に対応する単語及び単語群」等と記載される。
【0022】
無属性ではなく、議事録に含められるべきエレメント情報12b~12dは、行動の主体、期限、行動及び結論等、何らかの意味を有する。つまり、エレメント情報12bの「まず」は行動(エレメント情報12dの「セミナー資料を生成する」)の順番を示し、また、エレメント情報12cの「Aさんが○月×日までに」は行動の主体及び期限を示す。従って、これらのエレメント情報12は、会議の議事録に含まれる必要がある。従って、これらのように、行動の順番又は期限を示すエレメント情報12には、例えば、「期限」という属性情報16が対応付けられる。
【0023】
エレメント情報12dの「セミナー資料を生成する」は、会議において行われることが決められた行動を示すので、会議の議事録に含まれる必要がある。従って、このように、行うことが決められた行動には、「行うことのリスト」との意味の「To-Doリスト(To-Do List)」の一部から「To-Do」という属性情報16が対応付けられる。なお、行うことが決められた行動は、一般に「タスク」等と呼ばれることがある。また、会議の結論を示すエレメント情報12dには、「結論」という属性情報16が対応付けられる。
【0024】
さらに、各エレメント情報12が、会議の出席者のいずれの話者の発言に含まれていたかは、上述したように、当該エレメント情報12を含む変換情報に対応する音声情報に対して話者識別の処理を行うことにより特定されうる。例えば、会議の出席者がm人(m≧2)である場合、例えば、会議の出席者の人数mを予め音声認識装置に設定しておくことにより、各エレメント情報12を含むテキスト情報の話者を認識するための話者認識処理が容易となる。このように、図1に示すように、話者認識により、エレメント情報12それぞれと、当該エレメント情報12を含む文章を発言した話者(図1においては話者A~C;m=3)とを対応付けることができる。
【0025】
本実施形態においては、音声情報からテキスト情報が生成され、さらに、テキスト情報から変換情報を経てエレメント情報12が生成される。生成されたエレメント情報12それぞれには、「無属性」、「期限」、「To-Do」及び「結論」のうちの一つ以上の属性情報16が対応付けられる。生成されたエレメント情報12が、会議の出席者等の話者のいずれの発言に含まれていたかは、上述したように特定されうる。特定された話者を示す話者情報18は、エレメント情報12に対応付けられる。
【0026】
ユーザは、エレメント情報12自体を適宜、修正及び編集できる。さらに、ユーザは、エレメント情報12に誤って対応付けられた属性情報16及び話者情報18を修正したり、属性情報16及び話者情報18自体を編集したりできる。これらの修正及び編集により、エレメント情報12と、属性情報16及び話者情報18とが正しく対応付けられる。さらに、点線の矢印により示すように、ユーザの手作業により属性情報16に基づいてエレメント情報12が並べ替えられたり、自動的に属性情報16に基づいてエレメント情報12が並べ替えられたりしうる。これにより、ユーザの作業による会議の議事録の生成が容易になったり、議事録が自動的に生成されたりしうる。以上説明された会議の議事録を示す情報が、図1に示す出力情報14とされ、フォーム10に従ってディスプレイを介してユーザに表示される。
【0027】
さらに、To-Doの属性が対応付けられたエレメント情報12を含む発言を行った出席者(話者)を示す話者情報18は、例えば、当該エレメント情報12が示す行動の指示者と推定されて出力情報に含まれうる。なお、この発言を行った出席者がこの発言に含まれ、To-Doの属性が対応付けられたエレメント情報12が示す行動の指示者でないことがある。このような場合には、適宜、ユーザによる話者情報18の修正及び編集により、To-Doの属性が対応付けられたエレメント情報12が示す行動の指示者は、正しい指示者、例えば当該話者以外の他の話者に訂正されうる。なお、「ユーザ」は、会議の議事録を生成する人を意味し、会議の参加者等の話者に含まれていても、含まれていなくともよい。
【0028】
2.端末装置100の構成
以下、図2を参照して、図1を参照して説明した本実施形態に係る会議の音声から議事録を生成する処理を実行する端末装置100の構成を説明する。端末装置100は、スマートフォンといった携帯端末装置、タブレット型コンピュータといった端末装置、ノート型パーソナルコンピュータ(PC)、デスクトップ型PC、サーバ装置及び大型コンピュータといった汎用の情報処理装置でありうる。
【0029】
なお、端末装置100は、図2に示す構成要素の全てを備える必要はなく、端末装置100の一部の構成要素は省略されうる。また、端末装置100には、図2に示す以外の他の構成要素が加えられうる。端末装置100は、図2に示す構成要素により、図1を参照して説明した本実施形態に係る会議の音声から議事録を生成する処理を行う処理装置として機能する。
【0030】
ただし、上述した会議の音声から議事録を生成する処理は、必ずしも端末装置100において実行される必要はなく、端末装置100と、インターネット等の通信ネットワーク(不図示)を介して接続されたサーバ装置(不図示)を処理装置として行われてもよい。この場合には、例えば、端末装置100は、当該サーバ装置に通信ネットワークを介して音声情報を送信し、当該サーバ装置が、図1を参照して説明した音声情報処理及び話者認識処理を実行し、出力情報14を生成する。サーバ装置は、この出力情報14を、通信ネットワークを介して端末装置100に送信する。
【0031】
図2に示すように、端末装置100は、バスを介して相互に接続された出力インターフェイス(出力IF)111、プロセッサ112、メモリ113、通信インターフェイス(通信IF)114、入力インターフェイス(入力IF)116及びマイク119を含む。
【0032】
メモリ113は、RAM、ROM、不揮発性メモリ(NVM)、HDD(不図示)及びSSD(不図示)等を含む。通信インターフェイス114は、通信処理回路115及びアンテナを含む。入力インターフェイス116は、マウス117及びハードキー118を含む。そして、端末装置100のこれらの構成要素は、制御ライン(不図示)及びバスを介して電気的に接続され、データ及び情報を相互に送受信する。
【0033】
出力インターフェイス111は、スピーカ及びディスプレイ(不図示)等の出力デバイスを端末装置100に接続する。なお、これらの出力デバイスは、端末装置100の外部に配置され、出力インターフェイス111を介して接続されても、端末装置100と一体に構成されて出力インターフェイス111に接続されてもよい。
【0034】
出力インターフェイス111に接続されるディスプレイは、プロセッサ112の指示に応じて、メモリ113に記憶された画像情報を読み出して、各種表示を行う表示部として機能する。ディスプレイは、実施形態に係る音声情報から得られたテキスト情報処理の実行のための情報等を表示する。なお、ディスプレイは、例えば液晶ディスプレイや有機ELディスプレイから構成される。出力インターフェイス111に接続されるスピーカは、端末装置100が受信した音声データから得られた音声信号を出力するオーディオ出力部として機能する。
【0035】
プロセッサ112は、1以上のCPU(マイクロプロセッサ)又は1以上のCPUと画像処理に特化した1以上のGPU等との組み合わせと、その周辺回路とから構成される。プロセッサ112は、メモリ113に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。
【0036】
具体的には、プロセッサ112は、実施形態に係る処理を実行するための所定の指示命令を含むアプリケーションプログラム、及びOSの処理のための所定の指示命令を含むプログラムをメモリ113から読み出して実行する。また、OSは、プロセッサ112によるアプリケーションプログラムの実行のための機能を提供する。
【0037】
特に、プロセッサ112は、ユーザによる入力操作に基づいて、一又は複数人の話者の発言の内容を含む音声情報の入力を受け付ける所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。また、プロセッサ112は、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報12情報に分割する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。
【0038】
また、プロセッサ112は、分割した各エレメント情報12に対して少なくとも一つの属性情報16を対応付け、各エレメント情報12に対応付けられた属性情報16に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報12の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報14を生成する所定の指示命令を含むアプリケーションプログラムをメモリ113から読み出して実行する。
【0039】
メモリ113は、記憶部として機能する。さらに、メモリ113には、端末装置100に対して着脱可能な記憶媒体及びデータベース(不図示)等が接続されうる。メモリ113において、ROMは、OS等の処理のための所定の指示命令を含むプログラムを記憶する。
【0040】
RAMは、ROMに記憶されたアプリケーションプログラム及びOSのプログラムがプロセッサ112により処理されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ112により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。
【0041】
特に、メモリ113は、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付ける所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報12情報に分割する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ113は、分割した各エレメント情報12に対して少なくとも一つの属性情報16を対応付け、各エレメント情報12に対応付けられた属性情報16に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報12の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報14を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。
【0042】
通信インターフェイス114は、通信処理回路115及びアンテナを介して通信ネットワーク(不図示)と端末装置100とを接続し、通信ネットワークに接続された他の装置(不図示)との間で、情報及びデータを送受信する通信部として機能する。通信処理回路115は、広帯域又は狭帯域の無線通信方式によって、通信ネットワークと端末装置100の間で、アンテナを介して情報を通信するための通信処理を行う。なお、広帯域の無線通信方式は、例えばLTE方式であり、狭帯域の無線通信方式は、例えばIEEE802.11及びBluetooth(登録商標)等である。また、通信処理回路115は、無線通信の代わりに、又は無線通信に加えて、有線通信のための処理を行ってもよい。
【0043】
入力インターフェイス116は、マウス117及びハードキー118等の入力デバイスと有線通信又は無線通信によって接続され、ユーザの操作を受け入れて各種情報の入力を受ける入力部として機能する。入力インターフェイス116の例としては、シリアルポート、パラレルポート、及びUSB等が挙げられる。また、無線通信(例えば、Bluetooth(登録商標))によりマウス117を接続するような場合には、無線通信機能を有する構成要素に、入力インターフェイス116及び通信インターフェイス114の機能を兼用させることも可能である。
【0044】
マウス117は、それ自体の移動を検出するセンサ、左ボタン及び右ボタン等を含む。マウス117は、ディスプレイに表示されたマウスポインタを移動させるユーザの操作を検出する。また、マウス117は、ディスプレイに表示されたアイコン等に対する左右のボタン(不図示)を用いたユーザのクリック操作を検出する。
【0045】
例えば、ユーザは、マウス117を用いてOSにより提供される機能を利用し、ディスプレイに表示されたエレメント情報12を、左ボタンへの操作(クリック)により選択できる。また、ユーザは、選択したエレメント情報12を、左ボタンを押下したままマウス117を移動させることによりディスプレイの画面において移動させ、左ボタンの押下を止めることにより、所望の位置に動かせる。マウス117を用いたユーザによるこのような操作は、一般に、ドラッグ・アンド・ドロップとも呼ばれる。マウス117は、上述したようなユーザの操作を受け入れ、入力インターフェイス116を介してプロセッサ112に出力する。なお、マウス117は、端末装置100がノートPC等の場合には、タッチバッド等により代替されうる。
【0046】
ハードキー118は、機械的スイッチを含み、ユーザによる端末装置100への操作を受け入れて、入力インターフェイス116を介してプロセッサ112に出力する。なお、端末装置100とハードキー118とは一体に構成されても、別々に構成されてもよい。端末装置100とハードキー118とが別々に構成される場合には、端末装置100とマウス117及びハードキー118の間は無線通信又は有線通信によって接続される。
【0047】
マイク119は、会議等における一又は複数の話者の発言等の音声を受けてアナログ形式の音声信号に変換し、さらに、この音声信号をディジタル形式の音声情報に変換し、プロセッサ112に出力する。ただし、端末装置100は、音声情報を、マイク119を用いて得る必要はない。例えば、端末装置100が、オンラインミーティングに参加しているユーザにより用いられている場合には、端末装置100は、オンラインミーティングにおいて他の端末装置との間で送受信されている音声情報を処理できる。
【0048】
3.端末装置100において処理に用いられる情報
以下、図3A図3Cを参照して、図2に示した端末装置100において音声情報の処理のために用いられる情報を説明する。図3Aは、フォーム情報テーブルを示す図である。端末装置100は、図3Aに示すフォーム情報テーブルを、ユーザ所望の出力形式に従って出力情報14を生成するために用いる。
【0049】
フォーム情報テーブルは、フォーム識別情報(フォームID)A、ユーザ識別情報(ユーザID)B、フォーム情報C及び話者数情報Dを対応付けて含む。なお、ユーザ識別情報Bは、端末装置100を用いて会議の議事録を生成するユーザを一意に識別する識別情報である。なお、上述したように、このユーザは、会議の音声情報から議事録を生成する作業を行う人であって、当該会議において発言する話者であっても、話者でなくてもよい。
【0050】
フォーム情報Cは、ユーザにより生成され、図1に示したようにエレメント情報12、属性情報16及び話者情報18の出力情報14のなかにおける出力及び表示のフォーム10を示す。話者数情報Dは、議事録の生成の対象となる会議の出席者の数、つまり、エレメント情報12を含む発言を行いえた人の数を示し、会議の開始前に、ユーザにより予め設定される。フォーム識別情報Aは、対応付けられたユーザ識別情報B、フォーム情報C及び話者数情報Dを一意に識別する。
【0051】
図3Bは、音声情報テーブルを示す図である。端末装置100は、音声情報テーブルを、音声情報から出力情報14を生成するために用いる。音声情報テーブルは、音声識別情報(音声ID)E、ユーザ識別情報B、音声情報G、テキスト情報H、変換情報I、エレメント情報J(エレメント情報12)及び出力情報K(出力情報14)を対応付けて含む。なお、ユーザ識別情報Bは、図3Aを参照して説明したフォーム情報テーブルに含まれるユーザ識別情報Bと同じであり、フォーム情報テーブルの各行と、音声情報テーブルの各行とは、ユーザ識別情報Bにより対応付けられうる。
【0052】
音声識別情報Eは、音声識別情報Eに対応付けられた音声情報G、テキスト情報H、変換情報I、エレメント情報J及び出力情報Kを一意に識別する。音声情報Gは、マイク119等から入力され、端末装置100による処理の対象となる音声情報である。テキスト情報Hは、対応付けられた音声情報Gに対して音声識別を行うことにより生成されたテキスト情報である。変換情報Iは、対応付けられたテキスト情報Hを変換して生成された変換情報である。エレメント情報Jは、対応付けられた変換情報Iを分割して生成された一つ又は複数のエレメント情報12である。出力情報Kは、対応するエレメント情報Jから、図3Aに示したユーザ識別情報Bに対応するフォーム情報Cに従って生成された出力情報14である。
【0053】
図3Cは、エレメント情報テーブルを示す図である。図3Cに示すように、エレメント情報テーブルは、エレメント情報J(エレメント情報12)、属性情報16を示すフラグ情報M、及び話者情報18を示す話者情報Nを対応付けて含む。エレメント情報Jは、図3Bを参照して説明した音声情報テーブルのエレメント情報Jと同じであり、音声情報テーブルの各行と、エレメント情報テーブルの各行とは、エレメント情報Jにより対応付けられる。
【0054】
フラグ情報Mは、テキスト情報Hに含まれる一又は複数の変換情報から生成された一つ又は複数のエレメント情報J(エレメント情報12)それぞれの属性情報16を示す情報である。図1を参照して説明したように、フラグ情報Mは、エレメント情報J(エレメント情報12)それぞれの属性情報16の「無属性」、「期限」、「To-Do」及び「結論」のうちの一つ以上を示す。また、話者情報Nは、図1において話者A~Cと例示したように、エレメント情報Jを含む変換情報を発言した会議の参加者を示す。
【0055】
4.端末装置100による音声情報の処理により得られる情報
以下、図4A図4Dを参照して、端末装置100による音声情報の処理により得られる情報を、具体例を挙げて説明する。図4Aは、図3Bに示した音声情報テーブルに含まれるテキスト情報Hを例示する図である。
【0056】
端末装置100は、図3Bに示した音声情報Gに対して音声認識処理を行い、図4Aに示すように、「え~まずAさんが○月×日までにセミナー資料を生成してくださいBさんは△月□日までにチェックをしてくださいそれではAさんとBさんが資料を作るということで本日は終了します」とのテキスト情報Hを生成する。なお、このテキスト情報Hは、音声情報Gに対して単に音声識別処理を行って生成されたので、テキストのみを含み、これ以外の句読点情報等の区切情報を含まない。
【0057】
図4Bは、図4Aに示したテキスト情報から生成された音声情報テーブル(図3B)に含まれる変換情報を例示する図である。端末装置100は、複数の文章を含むテキスト情報を、文章ごとに分割し、分割したテキスト情報それぞれの末尾に付された敬語等、議事録に含めるべきでない部分を削除する。さらに、端末装置100は、文章の末尾に句読点情報等の区切情報を付加することにより、図4Bに示す変換情報を生成する。生成された変換情報の内容は、例えば、「え~、まずAさんが○月×日までに、セミナー資料を生成する。 Bさんは△月□日までにチェックをする。 それでは、AさんとBさんが資料を作るということで本日は終了する。」となる。
【0058】
図4Cは、図4Bに示した変換情報から生成された音声情報テーブル(図3B)に含まれるエレメント情報12(エレメント情報J)を例示する図である。端末装置100は、図4Bに示したように分割された変換情報に対して、形態素解析処理、機能素解析処理、特徴語解析処理及び構造化処理を行うことにより、図4Cに示すエレメント情報12を生成する。エレメント情報12それぞれは、図1を参照して上述したように、「無属性」、「期限」、「To-Do」及び「結論」の少なくとも一つの属性が対応付けられる単語又は単語群である。なお、この説明においては、エレメント情報12それぞれに、一つずつ属性を示すフラグが対応付けられる場合を具体例とする。
【0059】
図4Dは、チェックボックスと、図4Cに示したエレメント情報12と、属性を示すフラグF1~F4と、話者A~Cを示す話者情報18を対応付けたUI画像を例示する図である。図4Dに示すように、このUI画像は、左側から、チェックボックスと、エレメント情報12と、フラグF1~F4(属性情報16)と、話者情報18(話者A~C)とを含む。なお、話者情報18の数は、A~Cの3つに限定されず、会議の出席者の人数に応じて増減する。端末装置100は、図4Cに示したエレメント情報12それぞれに、最も相応しいと推定される属性を示すフラグF1~F4のいずれかを対応付けてディスプレイに表示する。
【0060】
なお、図4Dには、端末装置100が、エレメント情報12の「え~」を、感動詞等に対応する単語と判断し、このエレメント情報12に、無属性を示すフラグF1と、話者Bを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「まず」に、期限の属性を示すフラグF2と、話者Bを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、端末装置100が、エレメント情報12の「Aさんが○月×日までに」に、期限の属性を示すフラグF2と、話者Bを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「セミナー資料を生成する」に、To-Doの属性を示すフラグF3と、話者Bを示す話者情報18とを対応付けた場合が例示されている。
【0061】
また、図4Dには、端末装置100が、エレメント情報12の「Bさんは△月□日までに」に、期限の属性を示すフラグF2と、話者Aを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「チェックをする」にTo-Doの属性を示すフラグF3と、話者Aを示す話者情報18とを対応付けた場合が例示されている。
【0062】
また、図4Dには、端末装置100が、エレメント情報12の「それでは」を感動詞等に対応する単語と判断し、無属性を示すフラグF1と、話者Cを示す話者情報18とを対応付ける場合が例示されている。また、図4Dには、端末装置100が、エレメント情報12の「AさんとBさんが資料を作る」に、結論を示すフラグF4と、話者Cを示す話者情報18とを対応付けた場合が例示されている。また、図4Dには、端末装置100が「ということで本日は終了する」を、感動詞等に対応する単語及び単語群であると判断し、無属性を示すフラグF1と話者Cを示す話者情報18とを対応付けた場合が例示されている。
【0063】
上述したように、端末装置100は、図4Dに示したUI画像に、チェックボックスと、エレメント情報12と、エレメント情報12に対応付けることを推奨(リコメンド)するフラグ(属性情報16)及び話者情報18とを対応付けて表示する。ユーザは、最も左に位置するチェックボックスにチェック(レ印)を入れることにより、推奨されたエレメント情報12とフラグ(属性情報16)と話者情報18との組み合わせを承諾することができる。あるいは、ユーザが、図4Dに示したUI画像に対して、マウス117及びハードキー118等を用いた編集操作を行うことにより、エレメント情報12、フラグ及び話者情報18を適宜、編集できる。
【0064】
つまり、ユーザは、UI画像に対して操作を行うことにより、エレメント情報12に間違い等がある場合には、この間違い等を修正できる。また、ユーザは、同様に、エレメント情報12と対応付けられたフラグ(属性情報16)に間違い等がある場合には、エレメント情報12に対応付けられたフラグを修正できる。また、ユーザは、同様に、エレメント情報12に対応づけられた話者情報18に間違い等がある場合には、エレメント情報12に対応付けられた話者情報18を修正できる。
【0065】
なお、1つのエレメント情報12が2つのエレメント情報12に分割された場合には、端末装置100は、図4Dにおいてこのエレメント情報12が含まれていた1つの行を、分割後のエレメント情報12をそれぞれ含む2つの行に分割する。さらに、端末装置100は、ユーザの入力操作に応じて、分割後の2つのエレメント情報12それぞれに対してフラグと話者情報18とを対応付ける。あるいは、端末装置100は、自動的に、分割後の2つのエレメント情報12それぞれに対してフラグと話者情報18とを対応付ける。
【0066】
あるいは、図4Dにおいて隣り合う2つのエレメント情報12が1つのエレメント情報12にマージ(併合)されることがある。この場合には、端末装置100は、図4Dにおいてこれらのエレメント情報12が含まれていた2つの行を、分割後の1つのエレメント情報12を含む1つの行とする。さらに、端末装置100は、ユーザの入力操作に応じて、マージ後のエレメント情報12に対してフラグと話者情報18とを対応付ける。あるいは、端末装置100は、自動的に、マージ後のエレメント情報12に対してフラグと話者情報18とを対応付ける。
【0067】
5.端末装置100の処理
以下、端末装置100の処理を説明する。まず、図5A及び図5Bを参照して、ユーザが端末装置100に、出力情報14の出力形式を示すフォーム情報Cを登録する処理を説明する。図5Aは、ユーザによる端末装置100に対して、フォーム情報テーブル(図3A)に含まれるフォーム情報のうちの出力情報14のフォーム情報Cを示す情報を登録する処理を示すフローチャートである。
【0068】
図5Aに示すS100において、端末装置100(図2)のプロセッサ112は、入力インターフェイス116を介してユーザの入力操作を受け入れ、当該ユーザのユーザ識別情報を受信したか否かを判断する。プロセッサ112は、ユーザ識別情報を受信した場合(Y)にはS102の処理に進み、受信しなかった場合(N)にはS100の処理にとどまる。
【0069】
S102において、端末装置100のプロセッサ112は、S100における入力操作を行ったユーザを認証するための処理を行う。
【0070】
S104において、プロセッサ112は、S102の処理により、S100における入力操作を行ったユーザが認証されたか否かを判断する。プロセッサ112は、ユーザが認証された場合(Y)にはS106の処理に進み、認証されなかった場合(N)には処理を終了する。
【0071】
S106において、プロセッサ112は、入力インターフェイス116を介してユーザの入力操作に応じて、当該ユーザによるフォーム情報Cを入力する入力操作、又は複数のフォーム情報Cのいずれかを選択する選択操作を受け入れる。プロセッサ112は、入力されたフォーム情報C、又は選択されたフォーム情報Cを、入力インターフェイス116を介して受け入れる。なお、出力情報14の出力形式は、通信インターフェイス114を介して、通信ネットワークに接続された他の装置から受信されることもある。
【0072】
S108において、端末装置100のプロセッサ112は、S106の処理において受信した出力情報14のフォーム情報Cにより、図3Aに示したフォーム情報テーブルに含まれるフォーム情報Cを更新し、登録する。さらに、プロセッサ112は、更新されたフォーム情報テーブルをメモリ113に記憶する。図5Bに示すように、フォーム情報Cは、図1に示した出力情報14を、出力インターフェイス111を介してディスプレイに表示するときに用いられる出力情報画面に含まれる属性情報16の項目及びレイアウト等を定義する。
【0073】
図5Bは、フォーム情報により示される出力情報14のフォーム情報Cが示すフォーム10を例示する図である。図5Bに示すように、出力情報14のフォーム10は、結論の項目と、期限の項目と、To-Doの項目とを表示する部分を含む。フォーム情報Cにより示されるフォーム10に従って、出力情報14の画面において、結論の属性を示すフラグF4に対応付けられたエレメント情報12が上側半分に表示される。また、このフォーム10に従って、下側半分の左側に期限の属性を示すフラグF2に対応付けられたエレメント情報12が表示される。
【0074】
また、このフォーム10に従って、下側半分の右側にはTo-Doの属性を示すフラグF3に対応付けられたエレメント情報12と、このエレメント情報12に対応付けられた話者情報18(図5Bにおいて話者A,B)が表示される。なお、上述したように、エレメント情報12に対応付けられた話者情報18が示す話者は、To-Doの属性が付されたエレメント情報12の指示者と推定される。この推定が間違っている場合には、ユーザは、図4Dを参照して上述したUI画像を用いて、このような間違いを修正できる。
【0075】
次に、図6A図6C等を参照して、端末装置100によるユーザ識別情報の入力から出力情報14の生成までの処理を説明する。図6Aは、端末装置100による音声情報処理を示すフローチャートである。図6Aに示すように、S120において、端末装置100(図2)のプロセッサ112は、入力インターフェイス116を介して、一又は複数のユーザのいずれかによるユーザ識別情報を受け入れる。プロセッサ112は、受け入れたユーザ識別情報Bによりフォーム情報テーブル及び音声情報テーブル(図3A及び図3B)を更新して、ユーザ識別情報Bを登録し、メモリ113に記憶する。
【0076】
S122において、プロセッサ112は、マイク119から音声情報を受け入れる。あるいは、プロセッサ112は、通信インターフェイス114を介して、通信ネットワークに接続された他の装置から音声情報を受信する。プロセッサ112は、これらの音声情報により音声情報テーブルを更新し、音声情報を登録し、メモリ113に記憶する。
【0077】
S124において、プロセッサ112は、メモリ113に記憶した音声情報を読み出し、読み出した音声情報に対して音声認識処理を行い、図4Aに例示したテキスト情報を生成する。プロセッサ112は、生成したテキスト情報により音声情報テーブルを更新し、テキスト情報を登録し、メモリ113に記憶する。
【0078】
S126において、プロセッサ112は、メモリ113からテキスト情報を読み出して、読み出したテキスト情報に対して、形態素解析処理を行う。プロセッサ112は、この形態素解析処理により、入力されたテキスト情報の範囲を、形態素、及び複数の形態素を含む形態素群に分割する。
【0079】
なお、形態素は、言語学の用語であって、意味をもつ表現要素の最小単位であり、ある言語において、それ以上分解したら意味をなさなくなるところまで分割して抽出された音素のまとまりである。なお、英語等のように、単語が一つずつ分かち書きされる言語においては、例外はあるが、ほぼ、1つの単語が一つの形態素である。つまり、複数の形態素を含むテキスト情報は、ワードプロセッサを利用してユーザにより生成されるテキスト情報、及びWebサーバにより提供されるテキスト情報など、ごく一般的で普通のテキスト情報である。
【0080】
なお、端末装置100により、日本語のテキスト情報から議事録が生成される場合が具体例とされている。例えば、テキスト情報が、「テキスト情報に」という文字列を含んでいる場合には、このテキスト情報に含まれる形態素は、「テキスト」、「情報」及び「に」である。なお、この実施形態においては、複数の形態素「テキスト」及び「情報」を含む「テキスト情報」、及び複数の形態素「情報」及び「に」を含む「情報に」等、複数の形態素を含む音素のまとまりは「形態素群」と記載される。
【0081】
S128において、プロセッサ112は、S126の処理により得られた形態素及び形態素群それぞれに対して関係性解析処理のための機能素解析処理を行い、形態素及び形態素群それぞれの機能を特定する。
【0082】
S130において、プロセッサ112は、S126の処理により得られた形態素及び形態素群それぞれに対して、特徴語辞書を用いて関係性解析処理のための特徴語解析処理を行う。
【0083】
S132において、プロセッサ112は、S128及びS130における機能素解析処理の結果及び特徴語解析処理の結果に基づいて、関係性解析処理を行い、形態素同士の間、形態素と形態素群との間、及び形態素群同士の間の関係性を特定する。なお、「形態素同士の間」、「形態素と形態素群との間」及び「形態素同士の間」は、「形態素及び形態素群の間」と総称される。
【0084】
S134において、プロセッサ112は、関係性解析処理の結果に基づいて、図4Bに示した変換情報を生成する。具体的には、プロセッサ112は、関係性解析処理の結果に基づいて、変換情報の末尾から敬語等を削除し、変換情報の間に句読点情報等の区切情報を挿入して、変換情報を生成する。プロセッサ112は、生成した変換情報により音声情報テーブルを更新し、変換情報を登録し、メモリ113に記憶する。
【0085】
S136において、プロセッサ112は、S134の処理において生成された変換情報に対する処理を行い、図4Cに示したように、それぞれ特定の意味を有する複数のエレメント情報12に分割する。プロセッサ112は、このような分割により生成したエレメント情報12により音声情報テーブルを更新し、エレメント情報12を登録し、メモリ113に記憶する。
【0086】
S138において、プロセッサ112は、S136の処理により生成されたエレメント情報12を含む変換情報に対応する音声情報に対して話者識別処理を行う。この処理の結果として、プロセッサ112は、エレメント情報12を含む変換情報を発言した話者を特定する。また、プロセッサ112は、特定した話者を示す話者情報18を生成する。また、プロセッサ112は、生成した話者情報18により、図3Cに示したエレメント情報テーブルに含まれる話者情報Nを更新する。さらに、プロセッサ112は、当該話者情報Nに対応するエレメント情報J及びフラグ情報M12を対応付けてメモリ113に記憶する。
【0087】
S140において、プロセッサ112は、関係性解析処理の結果に基づいて処理を行う。この処理により、プロセッサ112は、エレメント情報12に、フラグF1~F4(属性情報16)の一つ以上を対応付ける。さらに、プロセッサ112は、対応付けられたエレメント情報12及びフラグF1~F4の一つ以上に、さらに、チェックボックス、及びS138の処理により生成された話者情報18を対応付ける。プロセッサ112は、エレメント情報12に対応付けたチェックボックス、エレメント情報12、フラグF1~F4及び話者情報18を、図4Dに示したUI画像に表示する。
【0088】
プロセッサ112は、このUI画像の表示により、エレメント情報12それぞれに対応付ける属性情報16及び話者情報18を、ユーザに推奨(リコメンド)する。なお、上述したように、フラグF1は無属性を示し、フラグF2は期限の属性を示し、フラグF3はTo-Doの属性を示し、フラグF4は結論の属性を示す。ユーザは、図4Dを参照して上述したように、S138の処理において対応付けられたエレメント情報12、フラグ及び話者情報18に対して適宜、編集及び修正の操作を行う。プロセッサ112は、ユーザによる編集及び修正の操作を受け入れ、エレメント情報12、属性情報16及び話者情報18の内容及びこれらの情報の対応付け等に反映させる。ユーザが、UI画像において確定と記載されたボタンに対する操作を行うと、エレメント情報12、属性情報16及び話者情報18の対応付け等の編集及び修正が終了する。なお、ユーザが、図4Dに示したUI画像に対して、議事録に必要な情報、例えば、会議の議題及び出席者等の情報をさらに追加する操作を行ってもよい。プロセッサ112は、このような操作を、入力インターフェイス116を介して受け入れ、出力情報14のなかに追加し、出力インターフェイス111を介して、フォーム10に従ってディスプレイに表示する。
【0089】
図6Bは、属性を示すフラグと対応付けられたエレメント情報12のリストを例示する図である。S142において、プロセッサ112は、S140の処理により編集及び修正されたエレメント情報12と、無属性を除く属性情報16の一つ以上と、話者情報18とを対応付ける。さらに、プロセッサ112は、このように対応付けた情報を、図6Bに示すリスト形式で、入力インターフェイス116を介してディスプレイに表示する。
【0090】
S142において、プロセッサ112は、図6Bに示すように、S140の処理において編集及び修正されたエレメント情報12、属性情報16及び話者情報18を対応付けて含むリストを生成する。さらに、プロセッサ112は、生成したリストを、出力インターフェイス111を介してディスプレイに表示する。ユーザは、表示されたリストに対する操作を行いうる。つまり、ユーザは、マウス117等によりチェックボックス20にチェックを入れる操作を行うことにより、プロセッサ112によりエレメント情報12それぞれに対応付けられた属性情報16を承認する。あるいは、ユーザは、マウス117等により、属性情報16に対する操作を行い、所望の属性情報16に変更する操作を行う。あるいは、ユーザは、話者情報18に対する操作を行い、所望の話者情報18に変更する操作を行う。
【0091】
S142の処理におけるユーザによるこれらの操作は、エレメント情報12と、期限、To-Do及び結論の属性の一つ以上の属性情報16と、話者情報18との対応付けを変更したり修正したりする編集操作である。プロセッサ112は、ユーザによる編集操作を、入力インターフェイス116を介して受け入れ、エレメント情報12と、期限、To-Do及び結論の属性の一つ以上との対応付けを、ユーザによる編集操作に応じて変更する。ただし、S140の処理において、既に、エレメント情報12と、エレメント情報12に対応付けられた属性情報16及び話者情報18の編集は行われているので、S142における編集操作は省略されうる。
【0092】
S144において、ユーザが、図6Bに示したリストを確認し、このリストに含まれ、確定と記載されたボタンに対する操作を行うと、プロセッサ112は、この操作を、入力インターフェイス116を介して受け入れる。プロセッサ112は、この操作に応じて、S140の処理において編集されたエレメント情報12と属性及び話者との対応付けを確定させる。
【0093】
図6Cは、エレメント情報12等を、出力情報14のフォーム10に含まれ、属性情報16に対応付けられたボックスに移動させるために用いられるUI画像を例示する図である。S146において、端末装置100のプロセッサ112は、チェックボックス20以外の属性情報16、話者情報18及びエレメント情報12を、図6Bに示したように表示する。さらに、プロセッサ112は、図3Aに示したフォーム情報テーブルから、ユーザのユーザ識別情報Bに対応するフォーム情報Cを読み出す。さらに、プロセッサ112は、読み出したフォーム情報Cが示すフォーム10に従って、出力情報14を表示する。プロセッサ112は、図6Bに示したチェックボックス以外の情報と、出力情報14とを組み合わせる。これにより、プロセッサ112は、図6Cに示すように、無属性以外の属性を示す属性情報16と、当該属性に対応付けられたエレメント情報12及びその話者情報18と、出力情報14とを含むUI画像を表示する。
【0094】
S148において、ユーザは、図6Cに示したUI画像の出力情報14に含まれ、結論、期限又はTo-Doのいずれかの属性情報16に対応付けられたボックスと、エレメント情報12に対応付けられた属性情報16とを参照する。さらに、ユーザは、このUI画像に対して、属性情報16に対応付けられたエレメント情報12を、同じ属性情報16に対応付けられた出力情報14のなかのボックスのなかに移動させる操作を行う。この操作は、マウス117を用いてエレメント情報12等をドラッグ・アンド・ドロップする操作であってよい。
【0095】
なお、エレメント情報12に話者情報18が対応付けられている場合には、ユーザは、エレメント情報12と、このエレメント情報12に対応付けられた話者情報18とを、出力情報14のなかのボックスに移動させる操作を行う。端末装置100のプロセッサ112は、ユーザの操作を、入力インターフェイス116を介して受け入れる。プロセッサ112は、受け入れたユーザの操作に従って、エレメント情報12、又はエレメント情報12及び話者情報18を、出力情報14のボックスそれぞれのなかに移動させて表示する。
【0096】
S150において、図1は、全てのエレメント情報12が出力情報14に含まれるボックスのいずれかに移動されると、プロセッサ112は、会議の議事録を生成する。さらに、プロセッサ112は、会議の議事録の情報を生成し、図1に示した出力情報14として、出力インターフェイス111を介してディスプレイに表示したり、通信ネットワーク(不図示)を介して他の装置(不図示)に送信したりする等の処理を行う。
【0097】
なお、ここでは、図6Aに示したS120~S150の全てを端末装置100が行う場合を説明したが、これら全ての処理を端末装置100が実行する必要はない。例えば、例えば、端末装置100が、S124の処理において生成したテキスト情報をサーバ装置(不図示)に送信し、サーバ装置がS126~S132の処理を実行してよい。この場合には、S134の処理の前に、サーバ装置がS126~S132の処理の結果を端末装置100に受信し、端末装置100がこれらの処理を受信してS134~S150の処理を行うこととなる。
【0098】
なお、以上、ユーザが、マウス117を用いた手作業で、エレメント情報12を、出力情報14のフォーム10に含まれ、属性情報16それぞれが付されたボックスの中に移動させる場合を説明した。一方、出力情報14に含まれるボックスそれぞれに、結論、期限及びTo-Doの属性情報16それぞれを付すことにより、プロセッサ112は、このような移動を自動的に行うことができる。
【0099】
つまり、プロセッサ112は、プロセッサ112がエレメント情報12に付された属性と、出力情報14のフォーム10に付された属性情報16とを比較することにより、プロセッサ112は、このような移動を自動的に行うことができる。具体的には、プロセッサ112は、結論の属性情報16が付されたエレメント情報12を、自動的に、出力情報14のフォーム10において、結論の属性情報16が付されたボックスのなかに移動させられる。また、プロセッサ112は、期限の属性情報16が付されたエレメント情報12を、自動的に、出力情報14のフォーム10において、期限の属性情報16が付されたボックスのなかに移動させられる。さらに、プロセッサ112は、To-Doの属性情報16及び話者情報18が付されたエレメント情報12を、自動的に、出力情報14のフォーム10において、To-Doの属性情報16が付されたボックスのなかに移動させられる。
【0100】
以上説明した端末装置100によれば、会議等の音声情報からエレメント情報12を生成し、生成したエレメント情報12に、その属性を適切に対応付けることができる。従って、音声情報から、適切な議事録、様々な記録及び資料を生成できる。また、エレメント情報12に対応付けられる属性が自動的に選択されてユーザに勧められるので、ユーザが音声情報から議事録等を生成する手間が大幅に省かれる。また、端末装置100は、多くの人が参加するオフラインミーティング及びオンラインミーティングの音声から、議事録等を自動的に生成するために役立つ。
【0101】
6.変形例等
なお、以上、図6Aを参照して、「期限」等の属性がフラグを介してエレメント情報12に対応付けられ、編集される場合が説明されたが、属性は、必ずしもフラグを介してエレメント情報12に対応付けられなくてよい。また、図6Aを参照して、ユーザの操作に従って、出力情報14のフォーム10に含まれる項目にエレメント情報12が振り分けられる場合が説明された。しかしながら、図6Aに示したS144及びS146は必須ではない。つまり、ユーザがエレメント情報12と属性との対応付けを確定させた時点で、プロセッサ112は、エレメント情報12それぞれを、自動的に出力情報14のフォーム10に含まれる各項目に振り分けてよい。
【0102】
また、以上説明した音声情報の処理方法は、会議の議事録の生成の他に、様々な記録及び資料の生成に応用されうる。また、エレメント情報12それぞれに対応付けられる属性情報16は、音声情報の処理方法の用途等に応じて、「無属性」、「期限」、「To-Do」及び「結論」以外に、例えば「主体」等の他の属性情報16を含んでよい。あるいは、属性情報16は、「無属性」、「期限」、「To-Do」及び「結論」の全てを含まなくてよい。また、図1等に示した各種情報の表示の態様は例示であって、表示の態様は、ユーザの好み、端末装置100の用途などに応じて、適宜、変更されうる。
【0103】
また、以上、エレメント情報12に無属性、結論、期限及びTo-Doの4種類の属性情報16が対応付けられる場合が例示されたが、属性情報16の種類はこれら4種類に限らず、適宜、増やされたり減らされたりしてよい。また、以上、エレメント情報12の全てに属性情報16が対応付けられる場合が例示された。一方、例えば、エレメント情報12に無属性と無属性以外の2種類の属性情報16のみを対応付け、無属性以外の属性情報16に対応付けられたエレメント情報12に、ユーザが任意の種類の属性情報16を対応付けてよい。あるいは、無属性以外の属性情報16に対応付けられたエレメント情報12に、ユーザが、任意に、結論、期限及びTo-Doのいずれかの種類の属性情報16を対応付けてよい。
【0104】
実施形態において明示的に説明された装置によってだけでなく、ソフトウェア、ハードウェア又はこれらの組み合わせにより実現されうる。具体的には、実施形態において説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することにより実現されうる。また、実施形態において説明された処理及び手順は、それらの処理及び手順をコンピュータプログラムとして実装されえ、端末装置及びサーバ装置を含む各種のコンピュータにより実行されうる。
【0105】
実施形態において、単一の装置、ソフトウェア、コンポーネント、及び/又は、モジュールによって実行されると説明された処理及び手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は、複数のモジュールによって実行されうる。また、実施形態において、単一のメモリ及び記憶装置に格納される旨が説明された各種情報は、単一の装置に含まれる複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されうる。さらに、実施形態において説明された複数のソフトウェア及びハードウェアは、それらをより少ない構成要素に統合することにより、又は、より多い構成要素に分解することにより実現されうる。
【0106】
以上、一実施形態が説明されたが、この実施形態は、例として提示されたものであり、発明の範囲を限定することを意図されていない。これら新規な実施形態は、その他の様々な形態で実施されることができ、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更され得る。これら実施形態やその変形は、実施形態の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0107】
10 フォーム、12 エレメント情報、14 出力情報、16 属性情報、18 話者情報、20 チェックボックス、100 端末装置、111 出力インターフェイス、112 プロセッサ、114 通信インターフェイス、116 入力インターフェイス、117 マウス、118 ハードキー、119 マイク

図1
図2
図3A
図3B
図3C
図4A
図4B
図4C
図4D
図5A
図5B
図6A
図6B
図6C