(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023148706
(43)【公開日】2023-10-13
(54)【発明の名称】音声認識結果表示システム、音声認識結果表示装置、音声認識結果表示方法およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20231005BHJP
G10L 15/00 20130101ALI20231005BHJP
【FI】
G10L15/22 460Z
G10L15/00 200U
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022056877
(22)【出願日】2022-03-30
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】507369936
【氏名又は名称】ホンダ太陽株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】住田 直亮
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】中塚 雅樹
(72)【発明者】
【氏名】周藤 唯
(72)【発明者】
【氏名】眞浦 一也
(72)【発明者】
【氏名】日根野 恭佑
(72)【発明者】
【氏名】清水 健人
(57)【要約】
【課題】一発話区間が長くなった際にテキスト情報が読みにくくなることを抑制できる音声認識結果表示システム、音声認識結果表示装置、音声認識結果表示方法およびプログラムを提供することを目的とする。
【解決手段】音声認識結果表示システムは、取得部と、取得部にて取得された発話音声に対して音声認識を行い、テキスト情報を出力する音声認識部と、テキスト情報に基づいて画像データを生成する画像生成部と、表示部と、を備え、画像生成部は、ユーザの一発話区間に含まれるテキスト情報の文字数が所定値未満である場合には、一発話区間に含まれるテキスト情報を一つのまとまりとして表示する画像データを生成し、所定値以上である場合には、一発話区間に含まれるテキスト情報を複数のまとまりに分けて表示する画像データを生成し、複数のまとまりの各々に含まれるテキスト情報の文字数は、所定値未満である。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ユーザの発話音声を取得する取得部と、
前記取得部にて取得された前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識部と、
前記テキスト情報に基づいて画像データを生成する画像生成部と、
前記画像データを表示する表示部と、を備え、
前記画像生成部は、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行い、
前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である、
音声認識結果表示システム。
【請求項2】
前記画像生成部は、前記一発話区間が文節の途中で前記複数のまとまりに分割されないように制御する、
請求項1に記載の音声認識結果表示システム。
【請求項3】
前記画像生成部は、前記画像データを生成する際に、前記複数のまとまりの各々にテキスト枠を付与する、
請求項1または2に記載の音声認識結果表示システム。
【請求項4】
前記画像生成部は、前記一発話区間に含まれる前記テキスト情報が複数の前記テキスト枠にわたる場合、前記複数のテキスト枠に連番表示を付与する、
請求項3に記載の音声認識結果表示システム。
【請求項5】
前記画像生成部は、前記一発話区間に含まれる前記テキスト情報が複数の前記テキスト枠にわたる場合、前記複数のテキスト枠の色を統一する、
請求項3または4に記載の音声認識結果表示システム。
【請求項6】
前記画像生成部は、改行を行うことによって前記複数のまとまりの各々を区別する前記画像データを生成する、
請求項1または2に記載の音声認識結果表示システム。
【請求項7】
前記画像生成部は、前記音声認識部から前記テキスト情報が出力される度に、前記画像データ生成処理を行う、
請求項1から6のいずれか一項に記載の音声認識結果表示システム。
【請求項8】
ユーザの発話音声を取得する取得部と、
前記取得部にて取得された前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識部と、
前記テキスト情報に基づいて画像データを生成する画像生成部と、
前記画像データを表示する表示部と、を備え、
前記画像生成部は、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行い、
前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である、
音声認識結果表示装置。
【請求項9】
音声認識結果表示システムにおける音声認識結果表示方法であって、
取得部が、ユーザの発話音声を取得する取得ステップと、
音声認識部が、前記取得部にて取得された前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識ステップと、
画像生成部が、前記テキスト情報に基づいて画像データを生成する画像生成ステップと、
表示部が、前記画像データを表示する表示ステップと、を備え、
前記画像生成ステップにおいて、前記画像生成部は、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行い、
前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である、
音声認識結果表示方法。
【請求項10】
音声認識結果表示システムに、
ユーザの発話音声を取得する取得ステップと、
前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識ステップと、
前記テキスト情報に基づいて画像データを生成する画像生成ステップと、
前記画像データを表示する表示ステップと、を実行させ、
前記画像生成ステップにおいては、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行われ、
前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識結果表示システム、音声認識結果表示装置、音声認識結果表示方法およびプログラムに関する。
【背景技術】
【0002】
従来、複数の参加者が会議をする際に、各参加者が発話した内容(発話音声)をテキストに変換して表示する装置が知られている(例えば特許文献1参照)。このような装置は、聴覚障がい者による会議への参加を支援するために用いられることがある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば特許文献1に記載の装置において、会議の参加者による発話が途切れることなく長い時間継続すると、テキストの表示も途切れることなく長く継続する場合がある。この場合、他の参加者がテキストを読みにくくなる可能性がある。このような問題は、特に、聴覚障がい者が会議に参加する場合に顕著となる。聴覚障がい者は、テキストを読むことによって会議の内容を理解するためである。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、一発話区間が長くなった際にテキスト情報が読みにくくなることを抑制できる音声認識結果表示システム、音声認識結果表示装置、音声認識結果表示方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る音声認識結果表示システム(1)は、ユーザの発話音声を取得する取得部(222)と、前記取得部にて取得された前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識部(音声認識部223、テキスト変換部224、係り受け解析部225)と、前記テキスト情報に基づいて画像データを生成する画像生成部(議事録作成部226、画像生成部241)と、前記画像データを表示する表示部(表示部203、表示部303)と、を備え、前記画像生成部は、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行い、前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である。
【0007】
(2)また、本発明の一態様に係る音声認識結果表示システムにおいて、前記画像生成部は、前記一発話区間が文節の途中で前記複数のまとまりに分割されないように制御してもよい。
【0008】
(3)また、本発明の一態様に係る音声認識結果表示システムにおいて、前記画像生成部は、前記画像データを生成する際に、前記複数のまとまりの各々にテキスト枠を付与してもよい。
【0009】
(4)また、本発明の一態様に係る音声認識結果表示システムにおいて、前記画像生成部は、前記一発話区間に含まれる前記テキスト情報が複数の前記テキスト枠にわたる場合、前記複数のテキスト枠に連番表示を付与してもよい。
【0010】
(5)また、本発明の一態様に係る音声認識結果表示システムにおいて、前記画像生成部は、前記一発話区間に含まれる前記テキスト情報が複数の前記テキスト枠にわたる場合、前記複数のテキスト枠の色を統一してもよい。
【0011】
(6)また、本発明の一態様に係る音声認識結果表示システムにおいて、前記画像生成部は、改行を行うことによって前記複数のまとまりの各々を区別する前記画像データを生成してもよい。
【0012】
(7)また、本発明の一態様に係る音声認識結果表示システムにおいて、前記画像生成部は、前記音声認識部から前記テキスト情報が出力される度に、前記画像データ生成処理を行ってもよい。
【0013】
(8)上記目的を達成するため、本発明の一態様に係る音声認識結果表示装置は、ユーザの発話音声を取得する取得部と、前記取得部にて取得された前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識部と、前記テキスト情報に基づいて画像データを生成する画像生成部と、前記画像データを表示する表示部と、を備え、前記画像生成部は、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行い、前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である。
【0014】
(9)上記目的を達成するため、本発明の一態様に係る音声認識結果表示方法は、音声認識結果表示システムにおける音声認識結果表示方法であって、取得部が、ユーザの発話音声を取得する取得ステップと、音声認識部が、前記取得部にて取得された前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識ステップと、画像生成部が、前記テキスト情報に基づいて画像データを生成する画像生成ステップと、表示部が、前記画像データを表示する表示ステップと、を備え、前記画像生成ステップにおいて、前記画像生成部は、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行い、前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である。
【0015】
(10)上記目的を達成するため、本発明の一態様に係るプログラムは、音声認識結果表示システムに、ユーザの発話音声を取得する取得ステップと、前記発話音声に対して音声認識を行い、テキスト情報を出力する音声認識ステップと、前記テキスト情報に基づいて画像データを生成する画像生成ステップと、前記画像データを表示する表示ステップと、を実行させ、前記画像生成ステップにおいては、ユーザの一発話区間に含まれる前記テキスト情報の文字数が所定値未満である場合には、前記一発話区間に含まれる前記テキスト情報を一つのまとまりとして表示する前記画像データを生成し、前記一発話区間に含まれる前記テキスト情報の文字数が前記所定値以上である場合には、前記一発話区間に含まれる前記テキスト情報を複数のまとまりに分けて表示する前記画像データを生成する画像データ生成処理を行われ、前記複数のまとまりの各々に含まれる前記テキスト情報の文字数は、前記所定値未満である。
【発明の効果】
【0016】
上述した(1)、(8)、(9)または(10)によれば、一発話区間が長くなった際にテキスト情報が読みにくくなることが抑制されるという効果を奏する。
【0017】
上述した(2)によれば、複数のまとまりに分割されたテキスト情報をより読みやすくすることができる。
上述した(3)によれば、各まとまりを視認しやすくなり、テキスト情報をさらに読みやすくすることができる。
上述した(4)または(5)によれば、一発話区間に対応するまとまりを視認しやすくなり、テキスト情報をより効果的に読みやすくすることができる。
上述した(6)によれば、各まとまりを視認しやすくなり、テキスト情報をさらに読みやすくすることができる。
上述した(7)によれば、各参加者が発話した内容を、表示部による表示により早く反映させることができる。
【図面の簡単な説明】
【0018】
【
図1】本実施形態に係る音声認識結果表示装置(音声認識結果表示システム)の構成例を示すブロック図である。
【
図2】本実施形態に係る親機の表示部に表示される画像例を示す図である。
【
図3】本実施形態に係る親機の表示部に表示される他の画像例を示す図である。
【
図4】本実施形態に係る子機の表示部に表示される画像例を示す図である。
【
図5】本実施形態に係る音声認識結果表示装置(音声認識結果表示システム)が行う処理手順例を示すフローチャートである。
【発明を実施するための形態】
【0019】
まず、本実施形態の音声認識結果表示装置(音声認識結果表示システム)が使用される状況例を説明する。
本実施形態の音声認識結果表示装置(音声認識結果表示システム)は、2人以上が参加して行われる会議で用いられる。参加者のうち、発話が不自由な人が会議に参加していてもよい。発話可能な参加者は、参加者毎にマイクロフォンを装着するか、マイクロフォンを備える端末(スマートフォン、タブレット端末、パーソナルコンピュータ等)を用いる。聴覚障がいの参加者は、テキストを入力可能な端末を用いる。音声認識結果表示装置は、参加者の発話した発話音声に対して音声認識、テキスト化して、各自の端末にテキスト表示させる。また、音声認識結果表示装置は、聴覚障がい者が入力したテキスト情報を各自の端末にテキスト表示させる。
【0020】
図1は、本実施形態に係る音声認識結果表示装置(音声認識結果表示システム)1の構成例を示すブロック図である。
図1に示すように、音声認識結果表示装置(音声認識結果表示システム)1は、親機2と、子機3a、子機3b、・・・を含んで構成される。なお、子機3a、子機3b、・・・のうち1つを特定しない場合は、単に子機3という。
親機2と子機3とは、有線または無線のネットワーク4を介して接続されている。
【0021】
親機2は、収音部201、操作部202、表示部203、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、議事録作成部226、議事録記憶部227、テキスト取得部231、および画像生成部241を備える。
【0022】
子機3は、収音部301、操作部302、表示部303、通信部304、および処理部305を備える。収音部301、操作部302、表示部303、通信部304、および処理部305は、バス306を介して接続されている。
【0023】
<子機3>
まず、子機3について説明する。
子機3は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。なお、子機3は、音声出力部、モーションセンサー、GPS(Global Positioning System;全地球測位システム)等を備えていてもよい。
【0024】
収音部301は、マイクロフォンである。収音部301は、ユーザの発話音声を収音し、収音した発話音声をアナログ信号からデジタル信号に変換して、デジタル信号に変換した発話音声を処理部305に出力する。
【0025】
操作部302は、ユーザの操作を検出し、検出した結果を処理部305に出力する。操作部302は、例えば表示部303上に設けられたタッチパネル式のセンサー、または優先接続または無線接続のキーボード等である。
【0026】
処理部305は、操作部302が操作された操作結果に基づいて設定情報を生成し、生成した設定情報を通信部304に出力する。ここで、設定情報には、参加者の識別情報が含まれている。設定情報には、収音部の使用の有無を示す情報、操作部の使用の有無を示す情報が含まれていてもよい。処理部305は、操作部302が操作された操作結果に基づいてログイン指示を生成し、生成したログイン指示を通信部304に出力する。ここで、ログイン指示には、参加者の識別情報、子機3の識別情報が含まれている。処理部305は、操作部302が操作された操作結果に基づくテキスト情報に識別情報を付加して通信部304に出力する。処理部305は、収音部301が出力する発話音声に識別情報を付加して通信部304に出力する。処理部305は、通信部304が出力する画像データを取得し、取得した画像データを表示部303に出力する。処理部305は、通信部304が出力するログインを許可する情報に基づいて、親機2との通信を確立する。処理部305は、親機2から発言制限指示(入力制限指示)を受信した場合、テキスト入力に対して制限を行ってもよい。また、処理部305は、親機2から発言制限指示を受信した場合、音声入力に対しても制限を行うようにしてもよい。
【0027】
表示部303は、処理部305が出力した画像データを表示する。表示部303は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。なお、表示部303上に表示される画像については後述する。
【0028】
通信部304は、処理部305が出力する設定情報を、ネットワーク4を介して親機2へ送信する。通信部304は、処理部305が出力するログイン指示を、ネットワーク4を介して親機2へ送信する。通信部304は、処理部305が出力するテキスト情報または発話音声を、ネットワーク4を介して親機2へ送信する。なお、送信するテキスト情報または発話音声には、ユーザの識別情報と子機3の識別情報が含まれている。通信部304は、親機2が送信した画像データを受信し、受信した画像データを処理部305に出力する。通信部304は、親機2が送信したログインを許可する情報を受信した場合、受信したログインを許可する情報を処理部305に出力する。
【0029】
<親機2>
次に親機2について説明する。
親機2は、例えばノートパソコン等である。
【0030】
収音部201は、マイクロフォンである。収音部201は、ユーザの発話音声を収音し、収音した発話音声をアナログ信号からデジタル信号に変換して、デジタル信号に変換した発話音声を取得部222に出力する。
【0031】
操作部202は、ユーザの操作を検出し、検出した結果をテキスト取得部231に出力する。操作部202は、例えば表示部203上に設けられたタッチパネル式のセンサー、またはキーボードである。操作部202は、ログイン処理の際、操作を検出した結果を、認証部211に出力する。
【0032】
表示部203は、例えば液晶表示装置、有機EL表示装置、電子インク表示装置等である。表示部203は、画像生成部241が出力する画像データを表示する。なお、表示部203上に表示される画像については後述する。
【0033】
通信部204は、子機3が送信した発話音声を受信し、受信した発話音声を取得部222に出力する。通信部204は、子機3が送信したテキスト情報を受信し、受信したテキスト情報をテキスト取得部231に出力する。通信部204は、子機3が送信したログイン指示を受信し、受信したログイン指示を認証部211に出力する。通信部204は、画像生成部241が出力する画像データを、ネットワーク4を介して子機3へ送信する。通信部204は、認証部211が出力するログインを許可する情報を、ネットワーク4を介して子機3へ送信する。
【0034】
認証部211は、通信部204が出力するログイン指示に含まれる参加者の識別情報と子機3の識別情報に基づいて、ログインを許可するか否かを判定する。認証部211は、ログインを許可する場合、ログインを許可する情報を通信部204に出力する。認証部211は、操作部202が操作された結果に基づいて、親機2のユーザのログインを許可するか否かを判定する。認証部211は、ログインを許可する場合、各機能部にログインを許可する情報を出力し、各機能部の動作を許可する。なお、各機能部とは、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、議事録作成部226、議事録記憶部227、テキスト取得部231、および画像生成部241である。
【0035】
音響モデル・辞書記憶部221は、例えば音響モデル、言語モデル、単語辞書等を格納している。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、親機2は、音響モデル・辞書記憶部221に格納されていない単語等を格納して更新するようにしてもよい。なお、音響モデル・辞書記憶部221は、例えば会議ごとにDB(データベース)を備えていてもよい。例えば、第1のDBが一般の会議用であり、第2のDBが発表会用であり、第3のDBが国際会議用であってもよい。このように会議に合わせたDBを用いることで、同音異義語等の変換を適切に行いやすくなる。
【0036】
取得部222は、収音部201が出力する発話音声、または通信部204が出力する発話音声を取得し、取得した発話音声を音声認識部223に出力する。
【0037】
音声認識部223は、取得部222が出力する発話音声を取得する。音声認識部223は、発話音声から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部223は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部223は、検出した発話区間の音声信号に対して、音響モデル・辞書記憶部221を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部223は、例えば特開2015-64554号公報に開示されている手法等を用いて音声認識を行う。音声認識部223は、認識した認識結果と音声信号をテキスト変換部224に出力する。なお、音声認識部223は、認識結果と音声信号とを、例えば1文毎、または発話区間毎、または発話毎に対応つけて出力する。
なお、音声認識部223は、発話音声が同時に入力された場合、例えば時分割処理によって収音部(201または301)毎に音声認識を行う。また、音声認識部223は、マイクロフォンがマイクロフォンアレイの場合、音源分離処理、音源定位処理、音源同定処理等、周知の音声認識処理も行う。
【0038】
テキスト変換部224は、音声認識部223が出力する認識結果に対して、音響モデル・辞書記憶部221を参照して、テキストに変換する。なお、テキスト情報は、少なくとも1文字の情報を含む。テキスト変換部224は、変換したテキスト情報と、取得した音声信号を係り受け解析部225に出力する。なお、テキスト変換部224は、発話情報を認識した結果から「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。
【0039】
係り受け解析部225は、テキスト変換部224が出力したテキスト情報または通信部204が出力したテキスト情報に対して、音響モデル・辞書記憶部221を参照して、形態素解析と係り受け解析を行う。なお、係り受け解析には、例えば、Shift-reduce法や全域木の手法やチャンク同定の段階適用手法においてSVM(Support Vector Machines)を用いる。
係り受け解析部225は、形態素解析と係り受け解析を行ったテキスト情報と、解析した結果を議事録作成部226に出力する。なお、係り受け解析部225は、テキスト変換部224が出力する音声信号を取得した場合、取得した音声信号も議事録作成部226に出力する。
【0040】
議事録作成部226は、係り受け解析部225またはテキスト取得部231が出力したテキスト情報に基づいて、発話者毎に分けて、議事録を作成する。議事録作成部226は、作成した議事録と対応する音声信号を議事録記憶部227に記憶させる。また、議事録作成部226は、作成した議事録を画像生成部241に出力する。なお、議事録作成部226は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。
【0041】
議事録記憶部227は、議事録と音声信号を対応つけて記憶する。
【0042】
テキスト取得部231は、操作部202が出力する操作結果、または通信部204が出力する操作部302の操作結果を取得し、取得した結果に基づいてテキスト情報を生成する。テキスト取得部231は、生成したテキスト情報を議事録作成部226に出力する。
【0043】
画像生成部241は、議事録作成部226が出力する議事録情報を取得する。画像生成部241は、議事録情報に基づいて画像データを生成する。
画像生成部241は、ユーザの発話音声に基づくテキスト情報(議事録情報)について、ユーザの一発話区間に含まれるテキスト情報の文字数に応じた画像データを生成する。つまり、一発話区間に含まれる文字数が所定値未満である場合には、画像生成部241は、一発話区間に含まれるテキスト情報を一つのまとまりとして表示する画像データを生成する。一方、一発話区間に含まれるテキスト情報の文字数が所定値以上である場合には、画像生成部241は、一発話区間に含まれるテキスト情報を複数のまとまりに分けて表示する画像データを生成する。この場合において、画像生成部241は、複数のまとまりの各々に含まれるテキスト情報の文字数が所定値未満となるように、画像データを生成する。なお、「一発話区間」とは、あるユーザが、所定時間以上の発話の中断を挟むことなく、発話を継続し続けた区間(時間)を意味する。「所定値」は、例えば500文字程度であってもよい。
画像生成部241は、上記に基づき生成した画像データを表示部203と通信部204に出力する。
【0044】
<親機2の表示画像>
次に、親機2の表示部203上に表示される画像例を説明する。
図2は、本実施形態に係る親機2の表示部203上に表示される画像例を示す図である。
画像g10が、親機2の表示部203上に表示される画像である。
【0045】
領域g100は、参加者情報編集を行う領域である。
領域g101は、参加者情報の領域である。符号g102は、参加者の名前である。符号g103は、参加者が親機2の操作部202または子機3の操作部302によってテキスト入力を行うことを示すアイコンである。符号g104は、参加者が親機2の収音部201または子機3の収音部301によって発話を行うことを示すアイコンである。符号g105は、参加者が使用するマイクロフォンの番号(または識別情報)である。
【0046】
領域g200は、議事録を表示する領域である。なお、
図2では、ログイン後の状態を示している。符号g201は、ログイン/ログアウトのボタン画像である。符号g202は、音声認識結果表示装置(音声認識結果表示システム)1の開始/終了のボタン画像である。符号g203は、音声認識結果表示装置(音声認識結果表示システム)1の使用中に点灯する表示である。符号g204は、議事録記憶部227が記憶する議事録の表示や音声信号の再生を行うボタン画像である。符号g205は、親機2の利用者が収音部201の使用有無を選択するボタン画像である。
【0047】
符号g211は、第1の参加者が操作部(202または302)を操作して入力したテキスト情報である。
図2の例に示すように、表示部203が表示する画像g10において、テキスト情報には、当該テキスト情報を囲む矩形のテキスト枠が付与される。以下で説明するテキスト情報についても同様にテキスト枠が付与されている。符号g212は、第1の参加者が操作部(202または302)を操作して入力した絵文字である。符号g213は、第1の参加者がテキスト情報および絵文字を入力した日時を示す情報である。符号g214は、第1の参加者の名前である。
【0048】
符号g221は、第2の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g222および符号g223は、第2の参加者が発話した内容を音声認識したテキスト情報である。符号g224は、操作部(202または302)を操作してテキストを入力したことを示すアイコンである。符号g225は、収音部(201または301)によって発話を入力したことを示すアイコンである。符号g231は、第3の参加者が発話した内容を音声認識したテキスト情報である。
【0049】
ここで、符号g222に係るテキスト情報「今日の議題は、今度の展示会についてです。」は、ユーザ(藤沢)の一発話区間に含まれており、かつ、その文字数が所定値未満であったために、1つのまとまり(テキスト枠)として表示されている。一方、符号g223に係るテキスト情報「前回の会議では、・・・お聞かせください。」は、ユーザ(藤沢)の一発話区間に含まれているものの、その文字数が所定値以上であったために、符号g223a~g223dで示す複数のまとまり(テキスト枠)に分けて表示されている。また、符号g223a~g223dで示す各テキスト枠に含まれる文字数は、所定値未満となっている。
【0050】
図2の例に示すように、表示部203は、符号g223a~g223dで示す各テキスト枠に符号g241~g244で示す連番表示を付与した画像データを表示してもよい。また、表示部203は、符号g223a~g223dで示す各テキスト枠の色が統一された画像データを表示してもよい。
【0051】
なお、表示部203が上記の表示をするために、画像生成部241は、各まとまりにテキスト枠を付与した画像データを生成する。画像生成部241は、各テキスト枠に連番表示を付与したり、各テキスト枠の色が統一されたりした画像データを生成してもよい。
【0052】
また、画像生成部241は、一発話区間に対応するテキスト情報が文節の途中で複数のまとまり(テキスト枠)に分割されないように画像データの生成を制御してもよい。あるいは、画像生成部241は、一発話区間に対応するテキスト情報を複数のまとまり(テキスト枠)に分割する際に、句点または読点が存在する位置でテキスト情報を分割するように画像データの生成を制御してもよい。
【0053】
なお、
図2に示した画像は一例であり、表示部203上に表示される画像はこれに限らない。例えば、表示部203は、
図3に示す画像g10aのように、改行を行うことによって複数のまとまり(符号g223A~g223D)の各々を区別する画像データを表示してもよい。この場合、画像生成部241は、改行を行うことによって複数のまとまり(符号g223A~g223D)の各々を区別する画像データを生成する。
【0054】
また、テキスト枠の形状は矩形に限られず、例えば多角形、円形、楕円形その他の形状であってもよい。あるいは、各まとまりにテキスト枠が付与されなくてもよい。
【0055】
<子機3の表示画面>
次に、子機3の表示部303上に表示される画像例を説明する。
図4は、本実施形態に係る子機3の表示部303上に表示される画像例を示す図である。
画像g30が、子機3の表示部303上に表示される画像である。
【0056】
領域g300は、議事録を表示する領域である。符号g311は、第1の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g321は、第2の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g322および符号g323は、第2の参加者が発話した内容を音声認識したテキスト情報である。符号g331は、第3の参加者が発話した内容を音声認識したテキスト情報である。領域g301は、テキスト入力部の領域である。なお、操作部302は、表示部303上に表示されるソフトウェアキーボードであってもよく、子機3と有線または無線で接続されていてもよい。
【0057】
ここで、符号g322に係るテキスト情報「今日の議題は、今度の展示会についてです。」は、ユーザ(藤沢)の一発話区間に含まれており、かつ、その文字数が所定値未満であったために、1つのまとまり(テキスト枠)として表示されている。一方、符号g323に係るテキスト情報「前回の会議では、・・・お聞かせください。」は、ユーザ(藤沢)の一発話区間に含まれているものの、その文字数が所定値以上であったために、符号g323a~g323cで示す複数のまとまり(テキスト枠)に分けて表示されている。また、符号g323a~g323cで示す各テキスト枠に含まれる文字数は、所定値未満となっている。
【0058】
図4の例に示すように、表示部303は、符号g323a~g323cで示す各テキスト枠に符号g341~g343で示す連番表示を付与した画像データを表示してもよい。また、表示部303は、符号g323a~g323cで示す各テキスト枠の色が統一された画像データを表示してもよい。
【0059】
なお、表示部303が上記の表示をするために、画像生成部241は、各まとまりにテキスト枠を付与した画像データを生成する。画像生成部241は、各テキスト枠に連番表示を付与したり、各テキスト枠の色が統一されたりした画像データを生成してもよい。
【0060】
また、画像生成部241は、一発話区間に対応するテキスト情報が文節の途中で複数のまとまり(テキスト枠)に分割されないように画像データの生成を制御してもよい。あるいは、画像生成部241は、一発話区間に対応するテキスト情報を複数のまとまり(テキスト枠)に分割する際に、句点または読点が存在する位置でテキスト情報を分割するように画像データの生成を制御してもよい。
【0061】
図2および
図4に示すように、親機2の表示部203上に表示される画像と子機3の表示部303上に表示される画像とで、一発話区間に対応するテキスト情報を複数のまとまり(テキスト枠)に分割する位置は異なっていてもよい。例えば、画像生成部241が一発話区間に対応するテキスト情報を複数のまとまりに分けるか否かの基準となる「所定値」(先述)は、親機2と子機3とで互いに異なっていてもよい。同様に、テキスト情報を複数のまとまりに分割する位置および上記「所定値」は子機3a、子機3b・・・毎に異なっていてもよい。
【0062】
なお、
図4に示した画像は一例であり、表示部303上に表示される画像はこれに限らない。例えば、表示部303は、改行を行うことによって複数のまとまりの各々を区別する画像データを表示してもよい。この場合、画像生成部241は、改行を行うことによって複数のまとまりの各々を区別する画像データを生成する。
【0063】
また、テキスト枠の形状は矩形に限られず、例えば多角形、円形、楕円形その他の形状であってもよい。あるいは、各まとまりにテキスト枠が付与されなくてもよい。
【0064】
<音声認識結果表示装置(音声認識結果表示システム)1が行う処理>
次に、音声認識結果表示装置(音声認識結果表示システム)1が行う処理手順例を説明する。
図5は、本実施形態に係る音声認識結果表示装置(音声認識結果表示システム)1が行う処理手順例を示すフローチャートである。なお、以下では、ユーザがテキスト情報の入力を収音部(201または301)によって行う場合を説明する。
【0065】
(ステップS1)認証部211は、操作部(202または302)の操作内容に基づいて、ログイン処理を行う。例えば、各利用者が、操作部(202または302)を操作して、利用者を識別する識別情報(利用者ID)とパスワードを入力すると、認証部211は、入力された識別情報及びパスワードに基づいてログイン処理を行う。
【0066】
(ステップS2)取得部222は、収音部201または通信部204が出力するユーザの発話音声を取得し、取得した発話音声を音声認識部223に出力する。
【0067】
(ステップS3)音声認識部223は、取得部222が出力する発話音声を取得し、取得した発話音声に対して音声認識処理を行う。
【0068】
(ステップS4)テキスト変換部224は、音声認識された結果に対してテキスト変換処理を行う。
【0069】
(ステップS5)係り受け解析部225は、テキスト変換されたテキスト情報に対して、発話者毎に係り受け解析と形態素解析処理を行う。
【0070】
(ステップS6)係り受け解析部225は、係り受け解析および形態素解析処理を行ったテキスト情報を議事録作成部226に出力する。
【0071】
(ステップS7)議事録作成部226は、係り受け解析部225が出力するテキスト情報に基づいて議事録を作成し、画像生成部241に出力する。
【0072】
(ステップS8)画像生成部241は、一発話区間に含まれるテキスト情報の文字数が所定値以上であるかを判定する。画像生成部241が、一発話区間に含まれるテキスト情報の文字数が所定値以上であると判定した場合(ステップS8;YES)には、ステップS9の処理が行われ、一発話区間に含まれるテキスト情報の文字数が所定値未満であると判定した場合(ステップS8;NO)には、ステップS10の処理が行われる。なお、上記の判断は、議事録作成部226が行ってもよい。
【0073】
(ステップS9)画像生成部241は、一発話区間に含まれるテキスト情報を複数のまとまりに分けて表示する画像データを生成し、表示部203または通信部204に出力する。ステップS9において、画像生成部241は、複数のまとまりの各々に含まれるテキスト情報の文字数が所定値未満となるように、画像データを生成する。
【0074】
(ステップS10)画像生成部241は、一発話区間に含まれるテキスト情報を一つのまとまりとして表示する画像データを生成し、表示部203または通信部204に出力する。
【0075】
(ステップS11)表示部(203または303)は、画像生成部241が出力する画像を表示する。
【0076】
音声認識結果表示装置(音声認識結果表示システム)1は、以下、ステップS2~S11の処理を繰り返す。なお、ステップS7~S9の処理(画像データ生成処理)は、係り受け解析部225がテキスト情報を出力する度に行われてもよい。言い換えれば、ステップS2~S11の処理は、一発話区間の途中でリアルタイムに繰り返されてもよい。つまり、画像生成部241による画像の生成はリアルタイムに繰り返され、表示部(203または303)によって表示される画像はリアルタイムに更新され続けてもよい。
なお、
図5の処理は一例であり、これに限らない。
【0077】
以上、本実施形態では、一発話区間が長くなった際に当該一発話区間に含まれるテキスト情報を複数のまとまりに分割して表示するようにした。
これにより、本実施形態によれば、一発話区間が長くなった際にテキスト情報が読みにくくなることを抑制できる。
【0078】
なお、上述した例では、音声認識結果表示装置(音声認識結果表示システム)1は操作部(202または302)によるテキスト入力および収音部(201または301)による音声認識を用いたテキスト入力の双方を許容していたが、これに限らない。例えば、音声認識結果表示装置(音声認識結果表示システム)1は収音部(201または301)による音声認識を用いたテキスト入力のみを許容していてもよい。
【0079】
また、上述した例では、音声認識結果表示装置1が親機2および複数の子機3を備える例を説明したが、これに限らない。例えば、音声認識結果表示装置1が備える子機3は1つのみでもよく、あるいは、音声認識結果表示装置1は子機3を備えていなくてもよい。
【0080】
また、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、議事録作成部226、議事録記憶部227、テキスト取得部231、および画像生成部241の各々は、子機3が備えていてもよい。同様に、処理部305は、親機2が備えていてもよい。
【0081】
また、音声認識結果表示装置1の各機能部は親機2および子機3以外の装置に備えられていてもよい。あるいは、音声認識結果表示システム1の各機能部は親機2または子機3その他の物理的装置に備えられていなくてもよく、一つまたは複数のサーバやクラウド上に設けられていてもよい。なお、各機能部とは、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、議事録作成部226、議事録記憶部227、テキスト取得部231、画像生成部241、通信部304、および処理部305である。
【0082】
なお、本発明における音声認識結果表示装置(音声認識結果表示システム)1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識結果表示装置(音声認識結果表示システム)1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0083】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0084】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0085】
1…音声認識結果表示装置(音声認識結果表示システム) 203…表示部 222…取得部 223…音声認識部 224…テキスト変換部 225…係り受け解析部 226…議事録作成部 241…画像生成部 303…表示部