特開2023-147490 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社バズグラフの特許一覧

特開2023-147490処理装置、処理方法及び処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4A
4B
4C
4D
5A
5B
6A
6B
6C

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023147490

(43)【公開日】2023-10-13

(54)【発明の名称】処理装置、処理方法及び処理プログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20231005BHJP

G10L 17/00 20130101ALI20231005BHJP

【ＦＩ】

G10L15/22 453

G10L17/00 200Z

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022055008

(22)【出願日】2022-03-30

(71)【出願人】

【識別番号】516330516

【氏名又は名称】株式会社バズグラフ

(74)【代理人】

【識別番号】100151448

【弁理士】

【氏名又は名称】青木孝博

(74)【代理人】

【識別番号】230121016

【弁護士】

【氏名又は名称】小笠原匡隆

(72)【発明者】

【氏名】西本光治

(57)【要約】

【課題】音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成する。
【解決手段】本開示に係る処理装置が含む少なくとも一つのプロセッサは、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、各エレメント情報に対応付けられた属性情報に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成するための処理を実行するように構成される。
【選択図】図１

【特許請求の範囲】

【請求項1】

少なくとも一つのプロセッサを含む処理装置であって、
前記少なくとも一つのプロセッサは、
ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言の内容を示すテキスト情報を生成し、
生成した前記テキスト情報を一又は複数のエレメント情報に分割し、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、
ための処理を実行するように構成された、
処理装置。

【請求項2】

前記少なくとも一つのプロセッサは、前記テキスト情報に対応する前記発言をした前記一又は複数の話者のいずれかを示す話者情報を、前記エレメント情報にさらに対応付ける処理を実行するように構成される、請求項１に記載の処理装置。

【請求項3】

前記少なくとも一つのプロセッサは、前記話者情報を、前記音声情報と、予め設定された前記話者の数に基づいて生成するように構成される、請求項２に記載の処理装置。

【請求項4】

前記ユーザは、前記一又は複数人の話者に含まれる、請求項１～３のいずれか一項に記載の処理装置。

【請求項5】

前記少なくとも一つのプロセッサは、前記テキスト情報に基づいて、前記テキスト情報の意味上の区切りを示す区切情報が挿入された変換情報を生成するための処理をするように構成された、請求項１～４のいずれか一項に記載の処理装置。

【請求項6】

前記少なくとも一つのプロセッサは、生成した前記変換情報に基づいて、前記テキスト情報を、意味を有する単語又は複数の単語を含む単語群がひとまとまりとなった前記エレメント情報に分割するための処理を実行するように構成された、請求項５に記載の処理装置。

【請求項7】

前記区切情報は句読点を示す句読点情報である、請求項５又は６に記載の処理装置。

【請求項8】

前記エレメント情報は、前記ユーザの操作に基づいて編集可能である、請求項１～７のいずれか一項に記載の処理装置。

【請求項9】

前記属性情報は、前記テキスト情報で示される結論、前記テキスト情報で示される前記話者又は前記話者とは異なる他の話者に対するタスク及び前記タスクの期限の少なくともいずれか示す情報である、請求項１～８のいずれか一項に記載の処理装置。

【請求項10】

前記属性情報の対応付けは、前記エレメント情報に対応付けられた前記属性情報に対する前記ユーザの操作に基づいて確定される、請求項１～９のいずれか一項に記載の処理装置。

【請求項11】

少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサが所定の指示命令を実行することによりなされる方法であって、
ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付ける段階と、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成する段階と、
生成した前記テキスト情報を一又は複数のエレメント情報に分割する段階と、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する段階と、
を含む処理方法。

【請求項12】

少なくとも一つのプロセッサを含むコンピュータを、
ユーザによる入力操作に基づいて、一は複数の話者の発言内容を含む音声情報の入力を受け付け、
受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成し、
生成した前記テキスト情報を一又は複数のエレメント情報に分割し、
分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、
前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、
処理を行うように構成されたプロセッサとして機能させる、
処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声情報をテキスト情報に変換して編集できる処理装置、処理方法、処理プログラムに関する。

【背景技術】

【0002】

音声情報をテキスト情報に変換する音声認識が一般的に用いられている。また、音声を発した話者を識別する装置が一般的に用いられている。例えば、特許文献１は、会議等の音声情報から議事録を生成するシステムを開示する。また、引用文献２は、話者を識別する装置を開示する。しかしながら、特許文献１は、音声認識により得られたテキスト情報を分割し、分割により得られたエレメント情報に意味及び話者等を示す属性情報を対応付け、出力用のフォームに含まれる項目に関連付けることを開示しない。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－０２８７７６号公報

【特許文献2】特開平１０－３１３３５７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本実施形態は、上述した背景からなされたものであり、音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成することを課題とする。また、本実施形態は、エレメント情報に、さらに、話者情報を対応付けて出力情報を生成することを課題とする。

【課題を解決するための手段】

【0005】

本開示に係る処理装置は、少なくとも一つのプロセッサを含む処理装置であって、前記少なくとも一つのプロセッサは、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付け、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成した前記テキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成するための処理を実行するように構成される。

【0006】

また、本開示に係る処理方法は、少なくとも一つのプロセッサを含むコンピュータにおいて、前記少なくとも一つのプロセッサが所定の指示命令を実行することによりなされる方法であって、ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付ける段階と、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成する段階と、生成した前記テキスト情報を一又は複数のエレメント情報に分割する段階と、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する段階とを含む。

【0007】

本開示に係る処理プログラムは、少なくとも一つのプロセッサを含むコンピュータを、ユーザによる入力操作に基づいて、一又は複数の話者の発言内容を含む音声情報の入力を受け付け、受け付けた前記音声情報に基づいて、前記一又は複数の話者の発言内容を示すテキスト情報を生成し、生成した前記テキスト情報を一又は複数のエレメント情報に分割し、分割した各エレメント情報に対して少なくとも一つの属性情報を対応付け、前記各エレメント情報に対応付けられた前記属性情報に基づいて、一又は複数の項目を有するフォーム情報において前記各エレメント情報の少なくとも一部が前記一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報を生成する、処理を行うように構成されたプロセッサとして機能させる。

【発明の効果】

【0008】

本開示によれば、音声認識により得られたテキスト情報を一又は複数のエレメント情報に分割し、エレメント情報それぞれに属性情報を対応付けて出力情報を生成できる。また、本開示によれば、エレメント情報に、さらに、話者情報を対応付けて出力情報を生成できる。

【0009】

なお、上述した効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上述した効果に加えて、又は上述した効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。

【図面の簡単な説明】

【0010】

【図1】図１は、音声情報に対する音声認識により得られたテキスト情報を編集して生成されたエレメント情報１２、属性情報１６及び話者情報１８の出力情報１４のなかにおける表示の形式を示すフォーム１０を例示する図である。

【図2】図２は、会議等の音声情報を処理して会議の発言の内容を示すテキスト情報、及び会議において発言した話者を識別し、図１に示したフォーム１０に従って会議の議事録を生成する処理を実行する端末装置１００の構成を例示する図である。

【図3A】図３Ａは、フォーム情報テーブルを示す図である。

【図3B】図３Ｂは、音声情報テーブルを示す図である。

【図3C】図３Ｃは、エレメント情報テーブルを示す図である。

【図4A】図４Ａは、図３Ｂに示した音声情報テーブルに含まれるテキスト情報Ｈを例示する図である。

【図4B】図４Ｂは、図４Ａに示したテキスト情報から生成された音声情報テーブル（図３Ｂ）に含まれる変換情報を例示する図である。

【図4C】図４Ｃは、図４Ｂに示した変換情報から生成された音声情報テーブル（図３Ｂ）に含まれるエレメント情報１２（エレメント情報Ｊ）を例示する図である。

【図4D】図４Ｄは、チェックボックスと、図４Ｃに示したエレメント情報１２と、属性を示すフラグＦ１～Ｆ４と、話者Ａ～Ｃを示す話者情報１８を対応付けたＵＩ画像を例示する図である。

【図5A】図５Ａは、ユーザによる端末装置１００に対して、フォーム情報テーブル（図３Ａ）に含まれるフォーム情報のうちの出力情報１４のフォーム情報Ｃを示す情報を登録する処理を示すフローチャートである。

【図5B】図５Ｂは、フォーム情報により示される出力情報１４のフォーム情報Ｃが示すフォーム１０を例示する図である。

【図6A】図６Ａは、端末装置１００による音声情報処理を示すフローチャートである。

【図6B】図６Ｂは、属性を示すフラグと対応付けられたエレメント情報１２のリストを例示する図である。

【図6C】図６Ｃは、エレメント情報１２等を、出力情報１４のフォーム１０に含まれ、属性情報１６に対応付けられたボックスに移動させるために用いられるＵＩ画像を例示する図である。

【発明を実施するための形態】

【0011】

以下、本開示の実施形態として、音声情報に対する音声識別処理等により得られた会議の発言内容を示すテキスト情報を処理し、予め決められたフォームに従った議事録を生成する処理を、図面を参照して詳細に説明する。なお、図面において実質的に同じ構成要素、処理及び情報には同じ符号及び名称が付される。また、「情報」と「データ」とは厳密には区別されない。

【0012】

また、図面において、構成要素及びデータの数及び種類は例示的に示され、適宜、増減されたり変更されたりする。また、図面において、装置の間における通信の順番は例示的に示され、適宜、変更される。また、図面において、発明の本質的な説明に関係しない構成要素は、適宜、省略されることがある。また、図示の都合上、図面において、「情報」及び「モジュール」等、構成要素及び情報の名称の一部が適宜、省略されることがある。また、「エレメント情報１２ａ～１２ｄ」等、複数ある用語の区別が必要とされない場合には、符号の添え字が省略されて「エレメント情報１２」等と記載されることがある。

【0013】

１．端末装置１００による処理の概要
まず、図１及び図２を参照して、本実施形態に係る会議の音声から議事録を生成する処理の概要を説明する。図１は、音声情報に対する音声認識により得られたテキスト情報を編集して生成されたエレメント情報１２、属性情報１６及び話者情報１８の出力情報１４のなかにおける表示の形式を示すフォーム１０を例示する図である。図２は、会議等の音声情報を処理して会議の発言の内容を示すテキスト情報、及び会議において発言した話者を識別し、図１に示したフォーム１０に従って会議の議事録を生成する処理を実行する端末装置１００の構成を例示する図である。

【0014】

なお、フォーム１０は、出力情報１４において、エレメント情報１２、属性情報１６及び話者情報１８等の一つ又は複数の項目を、ユーザ所望の形式で出力するために定義される。ユーザは、任意のフォーム１０を定義して、エレメント情報１２等を、端末装置１００に、定義したフォーム１０に従って出力情報１４のなかに表示させることができる。

【0015】

図２に示す端末装置１００は、オンライン会議等の音声情報、及びオフラインのマイク１１９を介して収集された音声情報等、様々な音声情報を処理し、図１に示したフォーム１０に従ってディスプレイ（不図示）等に表示できる。ただし、以下、説明の明確化及び具体化のために、端末装置１００が、オフラインで行われた会議の音声情報の入力を受ける場合が説明する。また、端末装置１００が、音声識別により、会議における発言の内容を示すテキスト情報を生成し、生成したテキスト情報を分割してエレメント情報１２を生成する場合が説明される。また、端末装置１００が、エレメント情報１２を含む変換情報を発言した話者を特定する場合が説明される。また、端末装置１００が、エレメント情報１２に、エレメント情報１２の属性を示す属性情報１６、及びエレメント情報１２に対応する話者を示す話者情報１８を対応付ける場合が説明される。なお、話者認識は、エレメント情報１２を含む発言をした話者を識別することである。さらに、端末装置１００が、エレメント情報１２と、属性情報１６と、話者情報１８とを対応付け、フォーム１０に従って表示する場合が具体例とされる。

【0016】

会議等において、端末装置１００によりマイク１１９等を介して、一又は複数人の会議の出席者等の話者の音声を示す音声情報が録音される。録音された音声情報に対して音声認識処理を行うことにより、音声情報は、一つ又は複数のテキスト情報に変換される。会議の音声から得られたテキスト情報は、複数の文章を含みうる。従って、テキスト情報は、複数の文章に分割されうる。一方、このテキスト情報は、例えば「え～まずＡさんが○月×日までにセミナー資料を生成してください」といった文字列を含む。従って、テキスト情報を分割して得られた文章もまた、「ください」といった敬語等、議事録に含まれる必要がない部分を含みうる。このように、議事録に含まれる必要がない部分は、削除されてよい。

【0017】

なお、分割により得られたテキスト情報は、テキスト情報同士の間の区切りを示す句読点「、」及び「。」、カンマ及びピリオド「，」，「．」及びスペース等の区切情報を含まない。一方、複数のテキスト情報を区切るためには、区切情報を、テキスト情報同士の間に挿入する必要があり、また、最初及び最後のテキスト情報に後置する必要がある。なお、日本語のテキスト情報において、テキスト文章を区切る区切情報は、句読点「、」及び「。」等の文章の区切りを示す句読点情報でありうる。このように、テキスト情報から、不要な文末の敬語等が削除され、テキスト情報同士の間等に句読点情報を挿入すると、テキスト情報同士の区切りが明確になるように変換された変換情報が得られる。

【0018】

変換情報は、それぞれ単語及び単語群から構成され、何らかの意味を有する一つ又は複数のエレメント情報１２を含みうる。例えば、変換情報「え～、まずＡさんが○月×日までにセミナー資料を生成する。」は、形態素解析処理及び機能素解析処理等により、それぞれ特定の意味を有する複数のエレメント情報１２に分割されうる。例えば、この変換情報は、それぞれ「え～」、「まず」、「Ａさんが○月×日までに」及び「セミナー資料を生成する」といった単語及び単語群により構成されるエレメント情報１２ａ～１２ｄに分割されうる。

【0019】

エレメント情報１２は変換情報に含まれ、１つの変換情報は、同一の話者により発言されたと推定されうるので、エレメント情報１２の話者は、エレメント情報１２を含む変換情報に対応する音声情報に対して話者識別の処理を行うことにより特定されうる。言い換えると、変換情報を介してテキスト情報に対して話者識別の処理を行うことができ、この処理により、エレメント情報１２の話者が特定され、エレメント情報１２にこの話者を示す話者情報１８が対応付けられうる。

【0020】

この変換情報に含まれるエレメント情報１２ａの「え～」（図１において不図示）は感動詞であり、議事録に含められなくてよい。エレメント情報１２ｂの「まず」は、「セミナー資料を生成する」という行動の順番又は期限のうちの前者（順番）を意味するので、議事録に含められる必要がある。エレメント情報１２ｃの「Ａさんが○月×日までに」は、エレメント情報１２ｄの「セミナー資料を生成する」という行動の順番又は期限のうちの後者（期限）、及び主体を意味するので、議事録に含められる必要がある。エレメント情報１２ｄの「セミナー資料を生成する」は、行動を意味するので、議事録に含められる必要がある。

【0021】

以上説明したように、エレメント情報１２は、例えば、会議における話者による発言前の挨拶として「おはよう」（不図示）、及び発言に前置されるエレメント情報１２ａの「え～」等の日本語文法の用語で感動詞と呼ばれる単語を含みうる。また、エレメント情報１２は、感動詞「おはよう」に敬語「ございます」（不図示）を付した「おはようございます」等の単語群を含みうる。これらの感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群は、一般に、会議の議事録に含まれる必要はない。従って、感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群には、属性情報１６を対応付ける必要はないので、議事録を生成する場合には無属性とされる。なお、以下、「感動詞に含まれる単語、及び感動詞に敬語が付された感動詞に対応する単語群」等は、「感動詞等に対応する単語及び単語群」等と記載される。

【0022】

無属性ではなく、議事録に含められるべきエレメント情報１２ｂ～１２ｄは、行動の主体、期限、行動及び結論等、何らかの意味を有する。つまり、エレメント情報１２ｂの「まず」は行動（エレメント情報１２ｄの「セミナー資料を生成する」）の順番を示し、また、エレメント情報１２ｃの「Ａさんが○月×日までに」は行動の主体及び期限を示す。従って、これらのエレメント情報１２は、会議の議事録に含まれる必要がある。従って、これらのように、行動の順番又は期限を示すエレメント情報１２には、例えば、「期限」という属性情報１６が対応付けられる。

【0023】

エレメント情報１２ｄの「セミナー資料を生成する」は、会議において行われることが決められた行動を示すので、会議の議事録に含まれる必要がある。従って、このように、行うことが決められた行動には、「行うことのリスト」との意味の「Ｔｏ－Ｄｏリスト（Ｔｏ－ＤｏＬｉｓｔ）」の一部から「Ｔｏ－Ｄｏ」という属性情報１６が対応付けられる。なお、行うことが決められた行動は、一般に「タスク」等と呼ばれることがある。また、会議の結論を示すエレメント情報１２ｄには、「結論」という属性情報１６が対応付けられる。

【0024】

さらに、各エレメント情報１２が、会議の出席者のいずれの話者の発言に含まれていたかは、上述したように、当該エレメント情報１２を含む変換情報に対応する音声情報に対して話者識別の処理を行うことにより特定されうる。例えば、会議の出席者がｍ人（ｍ≧２）である場合、例えば、会議の出席者の人数ｍを予め音声認識装置に設定しておくことにより、各エレメント情報１２を含むテキスト情報の話者を認識するための話者認識処理が容易となる。このように、図１に示すように、話者認識により、エレメント情報１２それぞれと、当該エレメント情報１２を含む文章を発言した話者（図１においては話者Ａ～Ｃ；ｍ＝３）とを対応付けることができる。

【0025】

本実施形態においては、音声情報からテキスト情報が生成され、さらに、テキスト情報から変換情報を経てエレメント情報１２が生成される。生成されたエレメント情報１２それぞれには、「無属性」、「期限」、「Ｔｏ－Ｄｏ」及び「結論」のうちの一つ以上の属性情報１６が対応付けられる。生成されたエレメント情報１２が、会議の出席者等の話者のいずれの発言に含まれていたかは、上述したように特定されうる。特定された話者を示す話者情報１８は、エレメント情報１２に対応付けられる。

【0026】

ユーザは、エレメント情報１２自体を適宜、修正及び編集できる。さらに、ユーザは、エレメント情報１２に誤って対応付けられた属性情報１６及び話者情報１８を修正したり、属性情報１６及び話者情報１８自体を編集したりできる。これらの修正及び編集により、エレメント情報１２と、属性情報１６及び話者情報１８とが正しく対応付けられる。さらに、点線の矢印により示すように、ユーザの手作業により属性情報１６に基づいてエレメント情報１２が並べ替えられたり、自動的に属性情報１６に基づいてエレメント情報１２が並べ替えられたりしうる。これにより、ユーザの作業による会議の議事録の生成が容易になったり、議事録が自動的に生成されたりしうる。以上説明された会議の議事録を示す情報が、図１に示す出力情報１４とされ、フォーム１０に従ってディスプレイを介してユーザに表示される。

【0027】

さらに、Ｔｏ－Ｄｏの属性が対応付けられたエレメント情報１２を含む発言を行った出席者（話者）を示す話者情報１８は、例えば、当該エレメント情報１２が示す行動の指示者と推定されて出力情報に含まれうる。なお、この発言を行った出席者がこの発言に含まれ、Ｔｏ－Ｄｏの属性が対応付けられたエレメント情報１２が示す行動の指示者でないことがある。このような場合には、適宜、ユーザによる話者情報１８の修正及び編集により、Ｔｏ－Ｄｏの属性が対応付けられたエレメント情報１２が示す行動の指示者は、正しい指示者、例えば当該話者以外の他の話者に訂正されうる。なお、「ユーザ」は、会議の議事録を生成する人を意味し、会議の参加者等の話者に含まれていても、含まれていなくともよい。

【0028】

２．端末装置１００の構成
以下、図２を参照して、図１を参照して説明した本実施形態に係る会議の音声から議事録を生成する処理を実行する端末装置１００の構成を説明する。端末装置１００は、スマートフォンといった携帯端末装置、タブレット型コンピュータといった端末装置、ノート型パーソナルコンピュータ（ＰＣ）、デスクトップ型ＰＣ、サーバ装置及び大型コンピュータといった汎用の情報処理装置でありうる。

【0029】

なお、端末装置１００は、図２に示す構成要素の全てを備える必要はなく、端末装置１００の一部の構成要素は省略されうる。また、端末装置１００には、図２に示す以外の他の構成要素が加えられうる。端末装置１００は、図２に示す構成要素により、図１を参照して説明した本実施形態に係る会議の音声から議事録を生成する処理を行う処理装置として機能する。

【0030】

ただし、上述した会議の音声から議事録を生成する処理は、必ずしも端末装置１００において実行される必要はなく、端末装置１００と、インターネット等の通信ネットワーク（不図示）を介して接続されたサーバ装置（不図示）を処理装置として行われてもよい。この場合には、例えば、端末装置１００は、当該サーバ装置に通信ネットワークを介して音声情報を送信し、当該サーバ装置が、図１を参照して説明した音声情報処理及び話者認識処理を実行し、出力情報１４を生成する。サーバ装置は、この出力情報１４を、通信ネットワークを介して端末装置１００に送信する。

【0031】

図２に示すように、端末装置１００は、バスを介して相互に接続された出力インターフェイス（出力ＩＦ）１１１、プロセッサ１１２、メモリ１１３、通信インターフェイス（通信ＩＦ）１１４、入力インターフェイス（入力ＩＦ）１１６及びマイク１１９を含む。

【0032】

メモリ１１３は、ＲＡＭ、ＲＯＭ、不揮発性メモリ（ＮＶＭ）、ＨＤＤ（不図示）及びＳＳＤ（不図示）等を含む。通信インターフェイス１１４は、通信処理回路１１５及びアンテナを含む。入力インターフェイス１１６は、マウス１１７及びハードキー１１８を含む。そして、端末装置１００のこれらの構成要素は、制御ライン（不図示）及びバスを介して電気的に接続され、データ及び情報を相互に送受信する。

【0033】

出力インターフェイス１１１は、スピーカ及びディスプレイ（不図示）等の出力デバイスを端末装置１００に接続する。なお、これらの出力デバイスは、端末装置１００の外部に配置され、出力インターフェイス１１１を介して接続されても、端末装置１００と一体に構成されて出力インターフェイス１１１に接続されてもよい。

【0034】

出力インターフェイス１１１に接続されるディスプレイは、プロセッサ１１２の指示に応じて、メモリ１１３に記憶された画像情報を読み出して、各種表示を行う表示部として機能する。ディスプレイは、実施形態に係る音声情報から得られたテキスト情報処理の実行のための情報等を表示する。なお、ディスプレイは、例えば液晶ディスプレイや有機ＥＬディスプレイから構成される。出力インターフェイス１１１に接続されるスピーカは、端末装置１００が受信した音声データから得られた音声信号を出力するオーディオ出力部として機能する。

【0035】

プロセッサ１１２は、１以上のＣＰＵ（マイクロプロセッサ）又は１以上のＣＰＵと画像処理に特化した１以上のＧＰＵ等との組み合わせと、その周辺回路とから構成される。プロセッサ１１２は、メモリ１１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。

【0036】

具体的には、プロセッサ１１２は、実施形態に係る処理を実行するための所定の指示命令を含むアプリケーションプログラム、及びＯＳの処理のための所定の指示命令を含むプログラムをメモリ１１３から読み出して実行する。また、ＯＳは、プロセッサ１１２によるアプリケーションプログラムの実行のための機能を提供する。

【0037】

特に、プロセッサ１１２は、ユーザによる入力操作に基づいて、一又は複数人の話者の発言の内容を含む音声情報の入力を受け付ける所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。また、プロセッサ１１２は、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報１２情報に分割する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。

【0038】

また、プロセッサ１１２は、分割した各エレメント情報１２に対して少なくとも一つの属性情報１６を対応付け、各エレメント情報１２に対応付けられた属性情報１６に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報１２の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報１４を生成する所定の指示命令を含むアプリケーションプログラムをメモリ１１３から読み出して実行する。

【0039】

メモリ１１３は、記憶部として機能する。さらに、メモリ１１３には、端末装置１００に対して着脱可能な記憶媒体及びデータベース（不図示）等が接続されうる。メモリ１１３において、ＲＯＭは、ＯＳ等の処理のための所定の指示命令を含むプログラムを記憶する。

【0040】

ＲＡＭは、ＲＯＭに記憶されたアプリケーションプログラム及びＯＳのプログラムがプロセッサ１１２により処理されている間に、処理に必要とされるデータの書き込み、及び読み出しが行われるメモリである。不揮発性メモリは、書き込まれたデータを電源の供給なしに保持するメモリである。不揮発性メモリには、プロセッサ１１２により、当該プログラムの実行によって得られたデータが書き込まれたり、書き込まれたデータが読み出されたりする。

【0041】

特に、メモリ１１３は、ユーザによる入力操作に基づいて、一又は複数の話者の発言の内容を含む音声情報の入力を受け付ける所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ１１３は、受け付けた音声情報に基づいて、一又は複数の話者の発言の内容を示すテキスト情報を生成し、生成したテキスト情報を一又は複数のエレメント情報１２情報に分割する所定の指示命令を含むアプリケーションプログラムを記憶する。また、メモリ１１３は、分割した各エレメント情報１２に対して少なくとも一つの属性情報１６を対応付け、各エレメント情報１２に対応付けられた属性情報１６に基づいて、一又は複数の項目を有するフォーム情報において各エレメント情報１２の少なくとも一部が一又は複数の項目のうちのいずれかの項目に関連付けられた出力情報１４を生成する所定の指示命令を含むアプリケーションプログラムを記憶する。

【0042】

通信インターフェイス１１４は、通信処理回路１１５及びアンテナを介して通信ネットワーク（不図示）と端末装置１００とを接続し、通信ネットワークに接続された他の装置（不図示）との間で、情報及びデータを送受信する通信部として機能する。通信処理回路１１５は、広帯域又は狭帯域の無線通信方式によって、通信ネットワークと端末装置１００の間で、アンテナを介して情報を通信するための通信処理を行う。なお、広帯域の無線通信方式は、例えばＬＴＥ方式であり、狭帯域の無線通信方式は、例えばＩＥＥＥ８０２．１１及びＢｌｕｅｔｏｏｔｈ（登録商標）等である。また、通信処理回路１１５は、無線通信の代わりに、又は無線通信に加えて、有線通信のための処理を行ってもよい。

【0043】

入力インターフェイス１１６は、マウス１１７及びハードキー１１８等の入力デバイスと有線通信又は無線通信によって接続され、ユーザの操作を受け入れて各種情報の入力を受ける入力部として機能する。入力インターフェイス１１６の例としては、シリアルポート、パラレルポート、及びＵＳＢ等が挙げられる。また、無線通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標））によりマウス１１７を接続するような場合には、無線通信機能を有する構成要素に、入力インターフェイス１１６及び通信インターフェイス１１４の機能を兼用させることも可能である。

【0044】

マウス１１７は、それ自体の移動を検出するセンサ、左ボタン及び右ボタン等を含む。マウス１１７は、ディスプレイに表示されたマウスポインタを移動させるユーザの操作を検出する。また、マウス１１７は、ディスプレイに表示されたアイコン等に対する左右のボタン（不図示）を用いたユーザのクリック操作を検出する。

【0045】

例えば、ユーザは、マウス１１７を用いてＯＳにより提供される機能を利用し、ディスプレイに表示されたエレメント情報１２を、左ボタンへの操作（クリック）により選択できる。また、ユーザは、選択したエレメント情報１２を、左ボタンを押下したままマウス１１７を移動させることによりディスプレイの画面において移動させ、左ボタンの押下を止めることにより、所望の位置に動かせる。マウス１１７を用いたユーザによるこのような操作は、一般に、ドラッグ・アンド・ドロップとも呼ばれる。マウス１１７は、上述したようなユーザの操作を受け入れ、入力インターフェイス１１６を介してプロセッサ１１２に出力する。なお、マウス１１７は、端末装置１００がノートＰＣ等の場合には、タッチバッド等により代替されうる。

【0046】

ハードキー１１８は、機械的スイッチを含み、ユーザによる端末装置１００への操作を受け入れて、入力インターフェイス１１６を介してプロセッサ１１２に出力する。なお、端末装置１００とハードキー１１８とは一体に構成されても、別々に構成されてもよい。端末装置１００とハードキー１１８とが別々に構成される場合には、端末装置１００とマウス１１７及びハードキー１１８の間は無線通信又は有線通信によって接続される。

【0047】

マイク１１９は、会議等における一又は複数の話者の発言等の音声を受けてアナログ形式の音声信号に変換し、さらに、この音声信号をディジタル形式の音声情報に変換し、プロセッサ１１２に出力する。ただし、端末装置１００は、音声情報を、マイク１１９を用いて得る必要はない。例えば、端末装置１００が、オンラインミーティングに参加しているユーザにより用いられている場合には、端末装置１００は、オンラインミーティングにおいて他の端末装置との間で送受信されている音声情報を処理できる。

【0048】

３．端末装置１００において処理に用いられる情報
以下、図３Ａ～図３Ｃを参照して、図２に示した端末装置１００において音声情報の処理のために用いられる情報を説明する。図３Ａは、フォーム情報テーブルを示す図である。端末装置１００は、図３Ａに示すフォーム情報テーブルを、ユーザ所望の出力形式に従って出力情報１４を生成するために用いる。

【0049】

フォーム情報テーブルは、フォーム識別情報（フォームＩＤ）Ａ、ユーザ識別情報（ユーザＩＤ）Ｂ、フォーム情報Ｃ及び話者数情報Ｄを対応付けて含む。なお、ユーザ識別情報Ｂは、端末装置１００を用いて会議の議事録を生成するユーザを一意に識別する識別情報である。なお、上述したように、このユーザは、会議の音声情報から議事録を生成する作業を行う人であって、当該会議において発言する話者であっても、話者でなくてもよい。

【0050】

フォーム情報Ｃは、ユーザにより生成され、図１に示したようにエレメント情報１２、属性情報１６及び話者情報１８の出力情報１４のなかにおける出力及び表示のフォーム１０を示す。話者数情報Ｄは、議事録の生成の対象となる会議の出席者の数、つまり、エレメント情報１２を含む発言を行いえた人の数を示し、会議の開始前に、ユーザにより予め設定される。フォーム識別情報Ａは、対応付けられたユーザ識別情報Ｂ、フォーム情報Ｃ及び話者数情報Ｄを一意に識別する。

【0051】

図３Ｂは、音声情報テーブルを示す図である。端末装置１００は、音声情報テーブルを、音声情報から出力情報１４を生成するために用いる。音声情報テーブルは、音声識別情報（音声ＩＤ）Ｅ、ユーザ識別情報Ｂ、音声情報Ｇ、テキスト情報Ｈ、変換情報Ｉ、エレメント情報Ｊ（エレメント情報１２）及び出力情報Ｋ（出力情報１４）を対応付けて含む。なお、ユーザ識別情報Ｂは、図３Ａを参照して説明したフォーム情報テーブルに含まれるユーザ識別情報Ｂと同じであり、フォーム情報テーブルの各行と、音声情報テーブルの各行とは、ユーザ識別情報Ｂにより対応付けられうる。

【0052】

音声識別情報Ｅは、音声識別情報Ｅに対応付けられた音声情報Ｇ、テキスト情報Ｈ、変換情報Ｉ、エレメント情報Ｊ及び出力情報Ｋを一意に識別する。音声情報Ｇは、マイク１１９等から入力され、端末装置１００による処理の対象となる音声情報である。テキスト情報Ｈは、対応付けられた音声情報Ｇに対して音声識別を行うことにより生成されたテキスト情報である。変換情報Ｉは、対応付けられたテキスト情報Ｈを変換して生成された変換情報である。エレメント情報Ｊは、対応付けられた変換情報Ｉを分割して生成された一つ又は複数のエレメント情報１２である。出力情報Ｋは、対応するエレメント情報Ｊから、図３Ａに示したユーザ識別情報Ｂに対応するフォーム情報Ｃに従って生成された出力情報１４である。

【0053】

図３Ｃは、エレメント情報テーブルを示す図である。図３Ｃに示すように、エレメント情報テーブルは、エレメント情報Ｊ（エレメント情報１２）、属性情報１６を示すフラグ情報Ｍ、及び話者情報１８を示す話者情報Ｎを対応付けて含む。エレメント情報Ｊは、図３Ｂを参照して説明した音声情報テーブルのエレメント情報Ｊと同じであり、音声情報テーブルの各行と、エレメント情報テーブルの各行とは、エレメント情報Ｊにより対応付けられる。

【0054】

フラグ情報Ｍは、テキスト情報Ｈに含まれる一又は複数の変換情報から生成された一つ又は複数のエレメント情報Ｊ（エレメント情報１２）それぞれの属性情報１６を示す情報である。図１を参照して説明したように、フラグ情報Ｍは、エレメント情報Ｊ（エレメント情報１２）それぞれの属性情報１６の「無属性」、「期限」、「Ｔｏ－Ｄｏ」及び「結論」のうちの一つ以上を示す。また、話者情報Ｎは、図１において話者Ａ～Ｃと例示したように、エレメント情報Ｊを含む変換情報を発言した会議の参加者を示す。

【0055】

４．端末装置１００による音声情報の処理により得られる情報
以下、図４Ａ～図４Ｄを参照して、端末装置１００による音声情報の処理により得られる情報を、具体例を挙げて説明する。図４Ａは、図３Ｂに示した音声情報テーブルに含まれるテキスト情報Ｈを例示する図である。

【0056】

端末装置１００は、図３Ｂに示した音声情報Ｇに対して音声認識処理を行い、図４Ａに示すように、「え～まずＡさんが○月×日までにセミナー資料を生成してくださいＢさんは△月□日までにチェックをしてくださいそれではＡさんとＢさんが資料を作るということで本日は終了します」とのテキスト情報Ｈを生成する。なお、このテキスト情報Ｈは、音声情報Ｇに対して単に音声識別処理を行って生成されたので、テキストのみを含み、これ以外の句読点情報等の区切情報を含まない。

【0057】

図４Ｂは、図４Ａに示したテキスト情報から生成された音声情報テーブル（図３Ｂ）に含まれる変換情報を例示する図である。端末装置１００は、複数の文章を含むテキスト情報を、文章ごとに分割し、分割したテキスト情報それぞれの末尾に付された敬語等、議事録に含めるべきでない部分を削除する。さらに、端末装置１００は、文章の末尾に句読点情報等の区切情報を付加することにより、図４Ｂに示す変換情報を生成する。生成された変換情報の内容は、例えば、「え～、まずＡさんが○月×日までに、セミナー資料を生成する。Ｂさんは△月□日までにチェックをする。それでは、ＡさんとＢさんが資料を作るということで本日は終了する。」となる。

【0058】

図４Ｃは、図４Ｂに示した変換情報から生成された音声情報テーブル（図３Ｂ）に含まれるエレメント情報１２（エレメント情報Ｊ）を例示する図である。端末装置１００は、図４Ｂに示したように分割された変換情報に対して、形態素解析処理、機能素解析処理、特徴語解析処理及び構造化処理を行うことにより、図４Ｃに示すエレメント情報１２を生成する。エレメント情報１２それぞれは、図１を参照して上述したように、「無属性」、「期限」、「Ｔｏ－Ｄｏ」及び「結論」の少なくとも一つの属性が対応付けられる単語又は単語群である。なお、この説明においては、エレメント情報１２それぞれに、一つずつ属性を示すフラグが対応付けられる場合を具体例とする。

【0059】

図４Ｄは、チェックボックスと、図４Ｃに示したエレメント情報１２と、属性を示すフラグＦ１～Ｆ４と、話者Ａ～Ｃを示す話者情報１８を対応付けたＵＩ画像を例示する図である。図４Ｄに示すように、このＵＩ画像は、左側から、チェックボックスと、エレメント情報１２と、フラグＦ１～Ｆ４（属性情報１６）と、話者情報１８（話者Ａ～Ｃ）とを含む。なお、話者情報１８の数は、Ａ～Ｃの３つに限定されず、会議の出席者の人数に応じて増減する。端末装置１００は、図４Ｃに示したエレメント情報１２それぞれに、最も相応しいと推定される属性を示すフラグＦ１～Ｆ４のいずれかを対応付けてディスプレイに表示する。

【0060】

なお、図４Ｄには、端末装置１００が、エレメント情報１２の「え～」を、感動詞等に対応する単語と判断し、このエレメント情報１２に、無属性を示すフラグＦ１と、話者Ｂを示す話者情報１８とを対応付けた場合が例示されている。また、図４Ｄには、端末装置１００が、エレメント情報１２の「まず」に、期限の属性を示すフラグＦ２と、話者Ｂを示す話者情報１８とを対応付けた場合が例示されている。また、図４Ｄには、端末装置１００が、端末装置１００が、エレメント情報１２の「Ａさんが○月×日までに」に、期限の属性を示すフラグＦ２と、話者Ｂを示す話者情報１８とを対応付けた場合が例示されている。また、図４Ｄには、端末装置１００が、エレメント情報１２の「セミナー資料を生成する」に、Ｔｏ－Ｄｏの属性を示すフラグＦ３と、話者Ｂを示す話者情報１８とを対応付けた場合が例示されている。

【0061】

また、図４Ｄには、端末装置１００が、エレメント情報１２の「Ｂさんは△月□日までに」に、期限の属性を示すフラグＦ２と、話者Ａを示す話者情報１８とを対応付けた場合が例示されている。また、図４Ｄには、端末装置１００が、エレメント情報１２の「チェックをする」にＴｏ－Ｄｏの属性を示すフラグＦ３と、話者Ａを示す話者情報１８とを対応付けた場合が例示されている。

【0062】

また、図４Ｄには、端末装置１００が、エレメント情報１２の「それでは」を感動詞等に対応する単語と判断し、無属性を示すフラグＦ１と、話者Ｃを示す話者情報１８とを対応付ける場合が例示されている。また、図４Ｄには、端末装置１００が、エレメント情報１２の「ＡさんとＢさんが資料を作る」に、結論を示すフラグＦ４と、話者Ｃを示す話者情報１８とを対応付けた場合が例示されている。また、図４Ｄには、端末装置１００が「ということで本日は終了する」を、感動詞等に対応する単語及び単語群であると判断し、無属性を示すフラグＦ１と話者Ｃを示す話者情報１８とを対応付けた場合が例示されている。

【0063】

上述したように、端末装置１００は、図４Ｄに示したＵＩ画像に、チェックボックスと、エレメント情報１２と、エレメント情報１２に対応付けることを推奨（リコメンド）するフラグ（属性情報１６）及び話者情報１８とを対応付けて表示する。ユーザは、最も左に位置するチェックボックスにチェック（レ印）を入れることにより、推奨されたエレメント情報１２とフラグ（属性情報１６）と話者情報１８との組み合わせを承諾することができる。あるいは、ユーザが、図４Ｄに示したＵＩ画像に対して、マウス１１７及びハードキー１１８等を用いた編集操作を行うことにより、エレメント情報１２、フラグ及び話者情報１８を適宜、編集できる。

【0064】

つまり、ユーザは、ＵＩ画像に対して操作を行うことにより、エレメント情報１２に間違い等がある場合には、この間違い等を修正できる。また、ユーザは、同様に、エレメント情報１２と対応付けられたフラグ（属性情報１６）に間違い等がある場合には、エレメント情報１２に対応付けられたフラグを修正できる。また、ユーザは、同様に、エレメント情報１２に対応づけられた話者情報１８に間違い等がある場合には、エレメント情報１２に対応付けられた話者情報１８を修正できる。

【0065】

なお、１つのエレメント情報１２が２つのエレメント情報１２に分割された場合には、端末装置１００は、図４Ｄにおいてこのエレメント情報１２が含まれていた１つの行を、分割後のエレメント情報１２をそれぞれ含む２つの行に分割する。さらに、端末装置１００は、ユーザの入力操作に応じて、分割後の２つのエレメント情報１２それぞれに対してフラグと話者情報１８とを対応付ける。あるいは、端末装置１００は、自動的に、分割後の２つのエレメント情報１２それぞれに対してフラグと話者情報１８とを対応付ける。

【0066】

あるいは、図４Ｄにおいて隣り合う２つのエレメント情報１２が１つのエレメント情報１２にマージ（併合）されることがある。この場合には、端末装置１００は、図４Ｄにおいてこれらのエレメント情報１２が含まれていた２つの行を、分割後の１つのエレメント情報１２を含む１つの行とする。さらに、端末装置１００は、ユーザの入力操作に応じて、マージ後のエレメント情報１２に対してフラグと話者情報１８とを対応付ける。あるいは、端末装置１００は、自動的に、マージ後のエレメント情報１２に対してフラグと話者情報１８とを対応付ける。

【0067】

５．端末装置１００の処理
以下、端末装置１００の処理を説明する。まず、図５Ａ及び図５Ｂを参照して、ユーザが端末装置１００に、出力情報１４の出力形式を示すフォーム情報Ｃを登録する処理を説明する。図５Ａは、ユーザによる端末装置１００に対して、フォーム情報テーブル（図３Ａ）に含まれるフォーム情報のうちの出力情報１４のフォーム情報Ｃを示す情報を登録する処理を示すフローチャートである。

【0068】

図５Ａに示すＳ１００において、端末装置１００（図２）のプロセッサ１１２は、入力インターフェイス１１６を介してユーザの入力操作を受け入れ、当該ユーザのユーザ識別情報を受信したか否かを判断する。プロセッサ１１２は、ユーザ識別情報を受信した場合（Ｙ）にはＳ１０２の処理に進み、受信しなかった場合（Ｎ）にはＳ１００の処理にとどまる。

【0069】

Ｓ１０２において、端末装置１００のプロセッサ１１２は、Ｓ１００における入力操作を行ったユーザを認証するための処理を行う。

【0070】

Ｓ１０４において、プロセッサ１１２は、Ｓ１０２の処理により、Ｓ１００における入力操作を行ったユーザが認証されたか否かを判断する。プロセッサ１１２は、ユーザが認証された場合（Ｙ）にはＳ１０６の処理に進み、認証されなかった場合（Ｎ）には処理を終了する。

【0071】

Ｓ１０６において、プロセッサ１１２は、入力インターフェイス１１６を介してユーザの入力操作に応じて、当該ユーザによるフォーム情報Ｃを入力する入力操作、又は複数のフォーム情報Ｃのいずれかを選択する選択操作を受け入れる。プロセッサ１１２は、入力されたフォーム情報Ｃ、又は選択されたフォーム情報Ｃを、入力インターフェイス１１６を介して受け入れる。なお、出力情報１４の出力形式は、通信インターフェイス１１４を介して、通信ネットワークに接続された他の装置から受信されることもある。

【0072】

Ｓ１０８において、端末装置１００のプロセッサ１１２は、Ｓ１０６の処理において受信した出力情報１４のフォーム情報Ｃにより、図３Ａに示したフォーム情報テーブルに含まれるフォーム情報Ｃを更新し、登録する。さらに、プロセッサ１１２は、更新されたフォーム情報テーブルをメモリ１１３に記憶する。図５Ｂに示すように、フォーム情報Ｃは、図１に示した出力情報１４を、出力インターフェイス１１１を介してディスプレイに表示するときに用いられる出力情報画面に含まれる属性情報１６の項目及びレイアウト等を定義する。

【0073】

図５Ｂは、フォーム情報により示される出力情報１４のフォーム情報Ｃが示すフォーム１０を例示する図である。図５Ｂに示すように、出力情報１４のフォーム１０は、結論の項目と、期限の項目と、Ｔｏ－Ｄｏの項目とを表示する部分を含む。フォーム情報Ｃにより示されるフォーム１０に従って、出力情報１４の画面において、結論の属性を示すフラグＦ４に対応付けられたエレメント情報１２が上側半分に表示される。また、このフォーム１０に従って、下側半分の左側に期限の属性を示すフラグＦ２に対応付けられたエレメント情報１２が表示される。

【0074】

また、このフォーム１０に従って、下側半分の右側にはＴｏ－Ｄｏの属性を示すフラグＦ３に対応付けられたエレメント情報１２と、このエレメント情報１２に対応付けられた話者情報１８（図５Ｂにおいて話者Ａ，Ｂ）が表示される。なお、上述したように、エレメント情報１２に対応付けられた話者情報１８が示す話者は、Ｔｏ－Ｄｏの属性が付されたエレメント情報１２の指示者と推定される。この推定が間違っている場合には、ユーザは、図４Ｄを参照して上述したＵＩ画像を用いて、このような間違いを修正できる。

【0075】

次に、図６Ａ～図６Ｃ等を参照して、端末装置１００によるユーザ識別情報の入力から出力情報１４の生成までの処理を説明する。図６Ａは、端末装置１００による音声情報処理を示すフローチャートである。図６Ａに示すように、Ｓ１２０において、端末装置１００（図２）のプロセッサ１１２は、入力インターフェイス１１６を介して、一又は複数のユーザのいずれかによるユーザ識別情報を受け入れる。プロセッサ１１２は、受け入れたユーザ識別情報Ｂによりフォーム情報テーブル及び音声情報テーブル（図３Ａ及び図３Ｂ）を更新して、ユーザ識別情報Ｂを登録し、メモリ１１３に記憶する。

【0076】

Ｓ１２２において、プロセッサ１１２は、マイク１１９から音声情報を受け入れる。あるいは、プロセッサ１１２は、通信インターフェイス１１４を介して、通信ネットワークに接続された他の装置から音声情報を受信する。プロセッサ１１２は、これらの音声情報により音声情報テーブルを更新し、音声情報を登録し、メモリ１１３に記憶する。

【0077】

Ｓ１２４において、プロセッサ１１２は、メモリ１１３に記憶した音声情報を読み出し、読み出した音声情報に対して音声認識処理を行い、図４Ａに例示したテキスト情報を生成する。プロセッサ１１２は、生成したテキスト情報により音声情報テーブルを更新し、テキスト情報を登録し、メモリ１１３に記憶する。

【0078】

Ｓ１２６において、プロセッサ１１２は、メモリ１１３からテキスト情報を読み出して、読み出したテキスト情報に対して、形態素解析処理を行う。プロセッサ１１２は、この形態素解析処理により、入力されたテキスト情報の範囲を、形態素、及び複数の形態素を含む形態素群に分割する。

【0079】

なお、形態素は、言語学の用語であって、意味をもつ表現要素の最小単位であり、ある言語において、それ以上分解したら意味をなさなくなるところまで分割して抽出された音素のまとまりである。なお、英語等のように、単語が一つずつ分かち書きされる言語においては、例外はあるが、ほぼ、１つの単語が一つの形態素である。つまり、複数の形態素を含むテキスト情報は、ワードプロセッサを利用してユーザにより生成されるテキスト情報、及びＷｅｂサーバにより提供されるテキスト情報など、ごく一般的で普通のテキスト情報である。

【0080】

なお、端末装置１００により、日本語のテキスト情報から議事録が生成される場合が具体例とされている。例えば、テキスト情報が、「テキスト情報に」という文字列を含んでいる場合には、このテキスト情報に含まれる形態素は、「テキスト」、「情報」及び「に」である。なお、この実施形態においては、複数の形態素「テキスト」及び「情報」を含む「テキスト情報」、及び複数の形態素「情報」及び「に」を含む「情報に」等、複数の形態素を含む音素のまとまりは「形態素群」と記載される。

【0081】

Ｓ１２８において、プロセッサ１１２は、Ｓ１２６の処理により得られた形態素及び形態素群それぞれに対して関係性解析処理のための機能素解析処理を行い、形態素及び形態素群それぞれの機能を特定する。

【0082】

Ｓ１３０において、プロセッサ１１２は、Ｓ１２６の処理により得られた形態素及び形態素群それぞれに対して、特徴語辞書を用いて関係性解析処理のための特徴語解析処理を行う。

【0083】

Ｓ１３２において、プロセッサ１１２は、Ｓ１２８及びＳ１３０における機能素解析処理の結果及び特徴語解析処理の結果に基づいて、関係性解析処理を行い、形態素同士の間、形態素と形態素群との間、及び形態素群同士の間の関係性を特定する。なお、「形態素同士の間」、「形態素と形態素群との間」及び「形態素同士の間」は、「形態素及び形態素群の間」と総称される。

【0084】

Ｓ１３４において、プロセッサ１１２は、関係性解析処理の結果に基づいて、図４Ｂに示した変換情報を生成する。具体的には、プロセッサ１１２は、関係性解析処理の結果に基づいて、変換情報の末尾から敬語等を削除し、変換情報の間に句読点情報等の区切情報を挿入して、変換情報を生成する。プロセッサ１１２は、生成した変換情報により音声情報テーブルを更新し、変換情報を登録し、メモリ１１３に記憶する。

【0085】

Ｓ１３６において、プロセッサ１１２は、Ｓ１３４の処理において生成された変換情報に対する処理を行い、図４Ｃに示したように、それぞれ特定の意味を有する複数のエレメント情報１２に分割する。プロセッサ１１２は、このような分割により生成したエレメント情報１２により音声情報テーブルを更新し、エレメント情報１２を登録し、メモリ１１３に記憶する。

【0086】

Ｓ１３８において、プロセッサ１１２は、Ｓ１３６の処理により生成されたエレメント情報１２を含む変換情報に対応する音声情報に対して話者識別処理を行う。この処理の結果として、プロセッサ１１２は、エレメント情報１２を含む変換情報を発言した話者を特定する。また、プロセッサ１１２は、特定した話者を示す話者情報１８を生成する。また、プロセッサ１１２は、生成した話者情報１８により、図３Ｃに示したエレメント情報テーブルに含まれる話者情報Ｎを更新する。さらに、プロセッサ１１２は、当該話者情報Ｎに対応するエレメント情報Ｊ及びフラグ情報Ｍ１２を対応付けてメモリ１１３に記憶する。

【0087】

Ｓ１４０において、プロセッサ１１２は、関係性解析処理の結果に基づいて処理を行う。この処理により、プロセッサ１１２は、エレメント情報１２に、フラグＦ１～Ｆ４（属性情報１６）の一つ以上を対応付ける。さらに、プロセッサ１１２は、対応付けられたエレメント情報１２及びフラグＦ１～Ｆ４の一つ以上に、さらに、チェックボックス、及びＳ１３８の処理により生成された話者情報１８を対応付ける。プロセッサ１１２は、エレメント情報１２に対応付けたチェックボックス、エレメント情報１２、フラグＦ１～Ｆ４及び話者情報１８を、図４Ｄに示したＵＩ画像に表示する。

【0088】

プロセッサ１１２は、このＵＩ画像の表示により、エレメント情報１２それぞれに対応付ける属性情報１６及び話者情報１８を、ユーザに推奨（リコメンド）する。なお、上述したように、フラグＦ１は無属性を示し、フラグＦ２は期限の属性を示し、フラグＦ３はＴｏ－Ｄｏの属性を示し、フラグＦ４は結論の属性を示す。ユーザは、図４Ｄを参照して上述したように、Ｓ１３８の処理において対応付けられたエレメント情報１２、フラグ及び話者情報１８に対して適宜、編集及び修正の操作を行う。プロセッサ１１２は、ユーザによる編集及び修正の操作を受け入れ、エレメント情報１２、属性情報１６及び話者情報１８の内容及びこれらの情報の対応付け等に反映させる。ユーザが、ＵＩ画像において確定と記載されたボタンに対する操作を行うと、エレメント情報１２、属性情報１６及び話者情報１８の対応付け等の編集及び修正が終了する。なお、ユーザが、図４Ｄに示したＵＩ画像に対して、議事録に必要な情報、例えば、会議の議題及び出席者等の情報をさらに追加する操作を行ってもよい。プロセッサ１１２は、このような操作を、入力インターフェイス１１６を介して受け入れ、出力情報１４のなかに追加し、出力インターフェイス１１１を介して、フォーム１０に従ってディスプレイに表示する。

【0089】

図６Ｂは、属性を示すフラグと対応付けられたエレメント情報１２のリストを例示する図である。Ｓ１４２において、プロセッサ１１２は、Ｓ１４０の処理により編集及び修正されたエレメント情報１２と、無属性を除く属性情報１６の一つ以上と、話者情報１８とを対応付ける。さらに、プロセッサ１１２は、このように対応付けた情報を、図６Ｂに示すリスト形式で、入力インターフェイス１１６を介してディスプレイに表示する。

【0090】

Ｓ１４２において、プロセッサ１１２は、図６Ｂに示すように、Ｓ１４０の処理において編集及び修正されたエレメント情報１２、属性情報１６及び話者情報１８を対応付けて含むリストを生成する。さらに、プロセッサ１１２は、生成したリストを、出力インターフェイス１１１を介してディスプレイに表示する。ユーザは、表示されたリストに対する操作を行いうる。つまり、ユーザは、マウス１１７等によりチェックボックス２０にチェックを入れる操作を行うことにより、プロセッサ１１２によりエレメント情報１２それぞれに対応付けられた属性情報１６を承認する。あるいは、ユーザは、マウス１１７等により、属性情報１６に対する操作を行い、所望の属性情報１６に変更する操作を行う。あるいは、ユーザは、話者情報１８に対する操作を行い、所望の話者情報１８に変更する操作を行う。

【0091】

Ｓ１４２の処理におけるユーザによるこれらの操作は、エレメント情報１２と、期限、Ｔｏ－Ｄｏ及び結論の属性の一つ以上の属性情報１６と、話者情報１８との対応付けを変更したり修正したりする編集操作である。プロセッサ１１２は、ユーザによる編集操作を、入力インターフェイス１１６を介して受け入れ、エレメント情報１２と、期限、Ｔｏ－Ｄｏ及び結論の属性の一つ以上との対応付けを、ユーザによる編集操作に応じて変更する。ただし、Ｓ１４０の処理において、既に、エレメント情報１２と、エレメント情報１２に対応付けられた属性情報１６及び話者情報１８の編集は行われているので、Ｓ１４２における編集操作は省略されうる。

【0092】

Ｓ１４４において、ユーザが、図６Ｂに示したリストを確認し、このリストに含まれ、確定と記載されたボタンに対する操作を行うと、プロセッサ１１２は、この操作を、入力インターフェイス１１６を介して受け入れる。プロセッサ１１２は、この操作に応じて、Ｓ１４０の処理において編集されたエレメント情報１２と属性及び話者との対応付けを確定させる。

【0093】

図６Ｃは、エレメント情報１２等を、出力情報１４のフォーム１０に含まれ、属性情報１６に対応付けられたボックスに移動させるために用いられるＵＩ画像を例示する図である。Ｓ１４６において、端末装置１００のプロセッサ１１２は、チェックボックス２０以外の属性情報１６、話者情報１８及びエレメント情報１２を、図６Ｂに示したように表示する。さらに、プロセッサ１１２は、図３Ａに示したフォーム情報テーブルから、ユーザのユーザ識別情報Ｂに対応するフォーム情報Ｃを読み出す。さらに、プロセッサ１１２は、読み出したフォーム情報Ｃが示すフォーム１０に従って、出力情報１４を表示する。プロセッサ１１２は、図６Ｂに示したチェックボックス以外の情報と、出力情報１４とを組み合わせる。これにより、プロセッサ１１２は、図６Ｃに示すように、無属性以外の属性を示す属性情報１６と、当該属性に対応付けられたエレメント情報１２及びその話者情報１８と、出力情報１４とを含むＵＩ画像を表示する。

【0094】

Ｓ１４８において、ユーザは、図６Ｃに示したＵＩ画像の出力情報１４に含まれ、結論、期限又はＴｏ－Ｄｏのいずれかの属性情報１６に対応付けられたボックスと、エレメント情報１２に対応付けられた属性情報１６とを参照する。さらに、ユーザは、このＵＩ画像に対して、属性情報１６に対応付けられたエレメント情報１２を、同じ属性情報１６に対応付けられた出力情報１４のなかのボックスのなかに移動させる操作を行う。この操作は、マウス１１７を用いてエレメント情報１２等をドラッグ・アンド・ドロップする操作であってよい。

【0095】

なお、エレメント情報１２に話者情報１８が対応付けられている場合には、ユーザは、エレメント情報１２と、このエレメント情報１２に対応付けられた話者情報１８とを、出力情報１４のなかのボックスに移動させる操作を行う。端末装置１００のプロセッサ１１２は、ユーザの操作を、入力インターフェイス１１６を介して受け入れる。プロセッサ１１２は、受け入れたユーザの操作に従って、エレメント情報１２、又はエレメント情報１２及び話者情報１８を、出力情報１４のボックスそれぞれのなかに移動させて表示する。

【0096】

Ｓ１５０において、図１は、全てのエレメント情報１２が出力情報１４に含まれるボックスのいずれかに移動されると、プロセッサ１１２は、会議の議事録を生成する。さらに、プロセッサ１１２は、会議の議事録の情報を生成し、図１に示した出力情報１４として、出力インターフェイス１１１を介してディスプレイに表示したり、通信ネットワーク（不図示）を介して他の装置（不図示）に送信したりする等の処理を行う。

【0097】

なお、ここでは、図６Ａに示したＳ１２０～Ｓ１５０の全てを端末装置１００が行う場合を説明したが、これら全ての処理を端末装置１００が実行する必要はない。例えば、例えば、端末装置１００が、Ｓ１２４の処理において生成したテキスト情報をサーバ装置（不図示）に送信し、サーバ装置がＳ１２６～Ｓ１３２の処理を実行してよい。この場合には、Ｓ１３４の処理の前に、サーバ装置がＳ１２６～Ｓ１３２の処理の結果を端末装置１００に受信し、端末装置１００がこれらの処理を受信してＳ１３４～Ｓ１５０の処理を行うこととなる。

【0098】

なお、以上、ユーザが、マウス１１７を用いた手作業で、エレメント情報１２を、出力情報１４のフォーム１０に含まれ、属性情報１６それぞれが付されたボックスの中に移動させる場合を説明した。一方、出力情報１４に含まれるボックスそれぞれに、結論、期限及びＴｏ－Ｄｏの属性情報１６それぞれを付すことにより、プロセッサ１１２は、このような移動を自動的に行うことができる。

【0099】

つまり、プロセッサ１１２は、プロセッサ１１２がエレメント情報１２に付された属性と、出力情報１４のフォーム１０に付された属性情報１６とを比較することにより、プロセッサ１１２は、このような移動を自動的に行うことができる。具体的には、プロセッサ１１２は、結論の属性情報１６が付されたエレメント情報１２を、自動的に、出力情報１４のフォーム１０において、結論の属性情報１６が付されたボックスのなかに移動させられる。また、プロセッサ１１２は、期限の属性情報１６が付されたエレメント情報１２を、自動的に、出力情報１４のフォーム１０において、期限の属性情報１６が付されたボックスのなかに移動させられる。さらに、プロセッサ１１２は、Ｔｏ－Ｄｏの属性情報１６及び話者情報１８が付されたエレメント情報１２を、自動的に、出力情報１４のフォーム１０において、Ｔｏ－Ｄｏの属性情報１６が付されたボックスのなかに移動させられる。

【0100】

以上説明した端末装置１００によれば、会議等の音声情報からエレメント情報１２を生成し、生成したエレメント情報１２に、その属性を適切に対応付けることができる。従って、音声情報から、適切な議事録、様々な記録及び資料を生成できる。また、エレメント情報１２に対応付けられる属性が自動的に選択されてユーザに勧められるので、ユーザが音声情報から議事録等を生成する手間が大幅に省かれる。また、端末装置１００は、多くの人が参加するオフラインミーティング及びオンラインミーティングの音声から、議事録等を自動的に生成するために役立つ。

【0101】

６．変形例等
なお、以上、図６Ａを参照して、「期限」等の属性がフラグを介してエレメント情報１２に対応付けられ、編集される場合が説明されたが、属性は、必ずしもフラグを介してエレメント情報１２に対応付けられなくてよい。また、図６Ａを参照して、ユーザの操作に従って、出力情報１４のフォーム１０に含まれる項目にエレメント情報１２が振り分けられる場合が説明された。しかしながら、図６Ａに示したＳ１４４及びＳ１４６は必須ではない。つまり、ユーザがエレメント情報１２と属性との対応付けを確定させた時点で、プロセッサ１１２は、エレメント情報１２それぞれを、自動的に出力情報１４のフォーム１０に含まれる各項目に振り分けてよい。

【0102】

また、以上説明した音声情報の処理方法は、会議の議事録の生成の他に、様々な記録及び資料の生成に応用されうる。また、エレメント情報１２それぞれに対応付けられる属性情報１６は、音声情報の処理方法の用途等に応じて、「無属性」、「期限」、「Ｔｏ－Ｄｏ」及び「結論」以外に、例えば「主体」等の他の属性情報１６を含んでよい。あるいは、属性情報１６は、「無属性」、「期限」、「Ｔｏ－Ｄｏ」及び「結論」の全てを含まなくてよい。また、図１等に示した各種情報の表示の態様は例示であって、表示の態様は、ユーザの好み、端末装置１００の用途などに応じて、適宜、変更されうる。

【0103】

また、以上、エレメント情報１２に無属性、結論、期限及びＴｏ－Ｄｏの４種類の属性情報１６が対応付けられる場合が例示されたが、属性情報１６の種類はこれら４種類に限らず、適宜、増やされたり減らされたりしてよい。また、以上、エレメント情報１２の全てに属性情報１６が対応付けられる場合が例示された。一方、例えば、エレメント情報１２に無属性と無属性以外の２種類の属性情報１６のみを対応付け、無属性以外の属性情報１６に対応付けられたエレメント情報１２に、ユーザが任意の種類の属性情報１６を対応付けてよい。あるいは、無属性以外の属性情報１６に対応付けられたエレメント情報１２に、ユーザが、任意に、結論、期限及びＴｏ－Ｄｏのいずれかの種類の属性情報１６を対応付けてよい。

【0104】

実施形態において明示的に説明された装置によってだけでなく、ソフトウェア、ハードウェア又はこれらの組み合わせにより実現されうる。具体的には、実施形態において説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することにより実現されうる。また、実施形態において説明された処理及び手順は、それらの処理及び手順をコンピュータプログラムとして実装されえ、端末装置及びサーバ装置を含む各種のコンピュータにより実行されうる。

【0105】

実施形態において、単一の装置、ソフトウェア、コンポーネント、及び／又は、モジュールによって実行されると説明された処理及び手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び／又は、複数のモジュールによって実行されうる。また、実施形態において、単一のメモリ及び記憶装置に格納される旨が説明された各種情報は、単一の装置に含まれる複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されうる。さらに、実施形態において説明された複数のソフトウェア及びハードウェアは、それらをより少ない構成要素に統合することにより、又は、より多い構成要素に分解することにより実現されうる。

【0106】

以上、一実施形態が説明されたが、この実施形態は、例として提示されたものであり、発明の範囲を限定することを意図されていない。これら新規な実施形態は、その他の様々な形態で実施されることができ、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更され得る。これら実施形態やその変形は、実施形態の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0107】

１０フォーム、１２エレメント情報、１４出力情報、１６属性情報、１８話者情報、２０チェックボックス、１００端末装置、１１１出力インターフェイス、１１２プロセッサ、１１４通信インターフェイス、１１６入力インターフェイス、１１７マウス、１１８ハードキー、１１９マイク

【図1】