(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023133782
(43)【公開日】2023-09-27
(54)【発明の名称】音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230920BHJP
【FI】
G10L15/22 460Z
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022038972
(22)【出願日】2022-03-14
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】507369936
【氏名又は名称】ホンダ太陽株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】眞浦 一也
(72)【発明者】
【氏名】日根野 恭佑
(72)【発明者】
【氏名】山村 卓
(72)【発明者】
【氏名】住田 直亮
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】中塚 雅樹
(72)【発明者】
【氏名】周藤 唯
(57)【要約】
【課題】音声信号から変換されたテキスト情報を参加者が理解しやすくすることができる音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラムを提供することを目的とする。
【解決手段】音声認識テキスト表示システムは、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムであって、音声信号を取得する取得部と、取得部にて取得された音声信号に対して音声認識を行い、テキスト情報を出力する音声認識部と、テキスト情報を表示する表示部と、を備え、音声認識部は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、各同音異議語に対する認識尤度を算出し、各算出値の大きさに応じて、判断された語を、漢字に変換したテキスト情報で出力するか、仮名文字によるテキスト情報で出力するかを切り替える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムであって、
前記音声信号を取得する取得部と、
前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部と、
前記テキスト情報を表示する表示部と、を備え、
前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
音声認識テキスト表示システム。
【請求項2】
前記音声認識部は、前記算出された複数の認識尤度の最大値が所定値より低い場合に、前記判断された語を漢字に変換せず仮名文字による前記テキスト情報で出力する、
請求項1に記載の音声認識テキスト表示システム。
【請求項3】
前記表示部は、前記テキスト情報を表示する際に、前記判断された語であり、かつ、前記音声認識部によって仮名文字による前記テキスト情報で出力された語を、他の語とは異なる書式で表示する、
請求項1または2に記載の音声認識テキスト表示システム。
【請求項4】
音声信号をテキスト情報に変換して表示する音声認識テキスト表示装置であって、
前記音声信号を取得する取得部と、
前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部と、
前記テキスト情報を表示する表示部と、を備え、
前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
音声認識テキスト表示装置。
【請求項5】
音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムにおける音声認識テキスト表示方法であって、
取得部が、音声信号を取得する取得ステップと、
音声認識部が、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、
表示部が、前記テキスト情報を表示する表示ステップと、を備え、
前記音声認識ステップにおいて、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
音声認識テキスト表示方法。
【請求項6】
音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムに、
音声信号を取得する取得ステップと、
前記取得ステップにて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、
前記テキスト情報を表示する表示ステップと、を実行させ、
前記音声認識ステップにおいては、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラムに関する。
【背景技術】
【0002】
従来、複数の参加者が会議をする際に、各参加者が発話した内容(音声信号)をテキストに変換して表示する装置が知られている(例えば特許文献1参照)。このような装置は、聴覚障がい者による会議への参加を支援するために用いられることがある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば特許文献1に記載の装置において、会議の参加者が発話した内容の中に同音異義語が存在する語が含まれる際に、当該語が、発話者が意図しない漢字に変換されて表示される場合がある。この場合、発話者が発話した内容を、他の参加者が理解しにくくなる可能性がある。このような問題は、特に、聴覚障がい者が会議に参加する場合に顕著となる。聴覚障がい者は、テキストを読むことによって会議の内容を理解するためである。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、音声信号から変換されたテキスト情報を参加者が理解しやすくすることができる音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る音声認識テキスト表示システム(1)は、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムであって、前記音声信号を取得する取得部(222)と、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部(音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227)と、前記テキスト情報を表示する表示部(表示部203、表示部303、議事録作成部228、画像出力部241)と、を備え、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。
【0007】
(2)また、本発明の一態様に係る音声認識テキスト表示システムにおいて、前記音声認識部は、前記算出された複数の認識尤度の最大値が所定値より低い場合に、前記判断された語を漢字に変換せず仮名文字による前記テキスト情報で出力してもよい。
【0008】
(3)また、本発明の一態様に係る音声認識テキスト表示システムにおいて、前記表示部は、前記テキスト情報を表示する際に、前記判断された語であり、かつ、前記音声認識部によって仮名文字による前記テキスト情報で出力された語を、他の語とは異なる書式で表示してもよい。
【0009】
(4)上記目的を達成するため、本発明の一態様に係る音声認識テキスト表示装置は、音声信号をテキスト情報に変換して表示する音声認識テキスト表示装置であって、前記音声信号を取得する取得部と、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部と、前記テキスト情報を表示する表示部と、を備え、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。
【0010】
(5)上記目的を達成するため、本発明の一態様に係る音声認識テキスト表示方法は、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムにおける音声認識テキスト表示方法であって、取得部が、音声信号を取得する取得ステップと、音声認識部が、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、表示部が、前記テキスト情報を表示する表示ステップと、を備え、前記音声認識ステップにおいて、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。
【0011】
(6)上記目的を達成するため、本発明の一態様に係るプログラムは、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムに、音声信号を取得する取得ステップと、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、前記テキスト情報を表示する表示ステップと、を実行させ、前記音声認識ステップにおいては、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。
【発明の効果】
【0012】
上述した(1)、(4)または(5)あるいは(6)によれば、音声信号から変換されたテキスト情報を参加者が理解しやすくなるという効果を奏する。
【0013】
上述した(2)によれば、発話者が意図しない漢字に変換されたテキスト情報が表示される可能性を低減できる。
上述した(3)によれば、同音異義語の認識尤度が低かったために仮名文字によるテキスト情報で表示された語を、参加者が判別することができる。
【図面の簡単な説明】
【0014】
【
図1】本実施形態に係る音声認識テキスト表示装置(音声認識テキスト表示システム)の構成例を示すブロック図である。
【
図2】本実施形態に係る親機の表示部に表示される画像例を示す図である。
【
図3】本実施形態に係る子機の表示部に表示される画像例を示す図である。
【
図4】本実施形態に係る音声認識テキスト表示装置(音声認識テキスト表示システム)が行う処理手順例を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0016】
まず、本実施形態の音声認識テキスト表示装置(音声認識テキスト表示システム)が使用される状況例を説明する。
本実施形態の音声認識テキスト表示装置(音声認識テキスト表示システム)は、2人以上が参加して行われる会議で用いられる。参加者のうち、発話が不自由な人が会議に参加していてもよい。発話可能な参加者は、参加者毎にマイクロフォンを装着するか、マイクロフォンを備える端末(スマートフォン、タブレット端末、パーソナルコンピュータ等)を用いる。聴覚障がいの参加者は、テキストを入力可能な端末を用いる。音声認識テキスト表示装置は、参加者の発話した音声信号に対して音声認識、テキスト化して、各自の端末にテキスト表示させる。また、音声認識テキスト表示装置は、聴覚障がい者が入力したテキスト情報を各自の端末にテキスト表示させる。
【0017】
図1は、本実施形態に係る音声認識テキスト表示装置(音声認識テキスト表示システム)1の構成例を示すブロック図である。
図1に示すように、音声認識テキスト表示装置(音声認識テキスト表示システム)1は、親機2と、子機3a、子機3b、・・・を含んで構成される。なお、子機3a、子機3b、・・・のうち1つを特定しない場合は、単に子機3という。
親機2と子機3とは、有線または無線のネットワーク4を介して接続されている。
【0018】
親機2は、収音部201、操作部202、表示部203、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、議事録作成部228、議事録記憶部229、テキスト取得部231、および画像出力部241を備える。係り受け解析部225は、算出部226および変換切替部227を備える。ただし、算出部226または変換切替部227は、係り受け解析部225とは別に設けられていてもよい。
【0019】
子機3は、収音部301、操作部302、表示部303、通信部304、および処理部305を備える。収音部301、操作部302、表示部303、通信部304、および処理部305は、バス306を介して接続されている。
【0020】
<子機3>
まず、子機3について説明する。
子機3は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。なお、子機3は、音声出力部、モーションセンサー、GPS(Global Positioning System;全地球測位システム)等を備えていてもよい。
【0021】
収音部301は、マイクロフォンである。収音部301は、利用者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を処理部305に出力する。
【0022】
操作部302は、利用者の操作を検出し、検出した結果を処理部305に出力する。操作部302は、例えば表示部303上に設けられたタッチパネル式のセンサー、または優先接続または無線接続のキーボード等である。
【0023】
処理部305は、操作部302が操作された操作結果に基づいて設定情報を生成し、生成した設定情報を通信部304に出力する。ここで、設定情報には、参加者の識別情報が含まれている。設定情報には、収音部の使用の有無を示す情報、操作部の使用の有無を示す情報が含まれていてもよい。処理部305は、操作部302が操作された操作結果に基づいてログイン指示を生成し、生成したログイン指示を通信部304に出力する。ここで、ログイン指示には、参加者の識別情報、子機3の識別情報が含まれている。処理部305は、操作部302が操作された操作結果に基づくテキスト情報に識別情報を付加して通信部304に出力する。処理部305は、収音部301が出力する音声信号に識別情報を付加して通信部304に出力する。処理部305は、通信部304が出力する画像データを取得し、取得した画像データを表示部303に出力する。処理部305は、通信部304が出力するログインを許可する情報に基づいて、親機2との通信を確立する。処理部305は、親機2から発言制限指示(入力制限指示)を受信した場合、テキスト入力に対して制限を行ってもよい。また、処理部305は、親機2から発言制限指示を受信した場合、音声入力に対しても制限を行うようにしてもよい。
【0024】
表示部303は、処理部305が出力した画像データを表示する。表示部303は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。なお、表示部303上に表示される画像については後述する。
【0025】
通信部304は、処理部305が出力する設定情報を、ネットワーク4を介して親機2へ送信する。通信部304は、処理部305が出力するログイン指示を、ネットワーク4を介して親機2へ送信する。通信部304は、処理部305が出力するテキスト情報または音声信号を、ネットワーク4を介して親機2へ送信する。なお、送信するテキスト情報または音声信号には、利用者の識別情報と子機3の識別情報が含まれている。通信部304は、親機2が送信した画像データを受信し、受信した画像データを処理部305に出力する。通信部304は、親機2が送信したログインを許可する情報を受信した場合、受信したログインを許可する情報を処理部305に出力する。
【0026】
<親機2>
次に親機2について説明する。
親機2は、例えばノートパソコン等である。
【0027】
収音部201は、マイクロフォンである。収音部201は、利用者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を取得部222に出力する。
【0028】
操作部202は、利用者の操作を検出し、検出した結果をテキスト取得部231に出力する。操作部202は、例えば表示部203上に設けられたタッチパネル式のセンサー、またはキーボードである。操作部202は、ログイン処理の際、操作を検出した結果を、認証部211に出力する。
【0029】
表示部203は、例えば液晶表示装置、有機EL表示装置、電子インク表示装置等である。表示部203は、画像出力部241が出力する画像データを表示する。なお、表示部203上に表示される画像については後述する。
【0030】
通信部204は、子機3が送信した音声信号を受信し、受信した音声信号を取得部222に出力する。通信部204は、子機3が送信したテキスト情報を受信し、受信したテキスト情報をテキスト取得部231に出力する。通信部204は、子機3が送信したログイン指示を受信し、受信したログイン指示を認証部211に出力する。通信部204は、画像出力部241が出力する画像データを、ネットワーク4を介して子機3へ送信する。通信部204は、認証部211が出力するログインを許可する情報を、ネットワーク4を介して子機3へ送信する。
【0031】
認証部211は、通信部204が出力するログイン指示に含まれる参加者の識別情報と子機3の識別情報に基づいて、ログインを許可するか否かを判定する。認証部211は、ログインを許可する場合、ログインを許可する情報を通信部204に出力する。認証部211は、操作部202が操作された結果に基づいて、親機2の利用者のログインを許可するか否かを判定する。認証部211は、ログインを許可する場合、各機能部にログインを許可する情報を出力し、各機能部の動作を許可する。なお、各機能部とは、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227、議事録作成部228、議事録記憶部229、テキスト取得部231、および画像出力部241である。
【0032】
音響モデル・辞書記憶部221は、例えば音響モデル、言語モデル、単語辞書等を格納している。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、親機2は、音響モデル・辞書記憶部221に格納されていない単語等を格納して更新するようにしてもよい。なお、音響モデル・辞書記憶部221は、例えば会議ごとにDB(データベース)を備えていてもよい。例えば、第1のDBが一般の会議用であり、第2のDBが発表会用であり、第3のDBが国際会議用であってもよい。このように会議に合わせたDBを用いることで、同音異義語等の変換を適切に行いやすくなる。
【0033】
取得部222は、収音部201が出力する音声信号、または通信部204が出力する音声信号を取得し、取得した音声信号を音声認識部223に出力する。
【0034】
音声認識部223は、取得部222が出力する音声信号を取得する。音声認識部223は、音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部223は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部223は、検出した発話区間の音声信号に対して、音響モデル・辞書記憶部221を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部223は、例えば特開2015-64554号公報に開示されている手法等を用いて音声認識を行う。音声認識部223は、認識した認識結果と音声信号をテキスト変換部224に出力する。なお、音声認識部223は、認識結果と音声信号とを、例えば1文毎、または発話区間毎、または発話毎に対応つけて出力する。
なお、音声認識部223は、音声信号が同時に入力された場合、例えば時分割処理によって収音部(201または301)毎に音声認識を行う。また、音声認識部223は、マイクロフォンがマイクロフォンアレイの場合、音源分離処理、音源定位処理、音源同定処理等、周知の音声認識処理も行う。
【0035】
テキスト変換部224は、音声認識部223が出力する認識結果に対して、音響モデル・辞書記憶部221を参照して、テキストに変換する。なお、テキスト情報は、少なくとも1文字の情報を含む。テキスト変換部224は、変換したテキスト情報と、取得した音声信号を係り受け解析部225に出力する。なお、テキスト変換部224は、発話情報を認識した結果から「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。
【0036】
係り受け解析部225は、テキスト変換部224が出力したテキスト情報または通信部204が出力したテキスト情報に対して、音響モデル・辞書記憶部221を参照して、形態素解析と係り受け解析を行う。なお、係り受け解析には、例えば、Shift-reduce法や全域木の手法やチャンク同定の段階適用手法においてSVM(Support Vector Machines)を用いる。
係り受け解析部225は、形態素解析と係り受け解析を行ったテキスト情報と、解析した結果を議事録作成部228に出力する。なお、係り受け解析部225は、テキスト変換部224が出力する音声信号を取得した場合、取得した音声信号も議事録作成部228に出力する。
ここで、係り受け解析部225は、上記した情報に加えて(または代えて)、以下で説明する算出部226および変換切替部227による処理を行ったテキスト情報を議事録作成部228に出力する。
【0037】
算出部226は、音声認識(形態素解析と係り受け解析)において発音が共通する複数の同音異義語の存在があると判断された語について、複数の同音異義語の各々に対する認識尤度を算出する。例えば、「こうせい」という単語には、「構成」「鋼製」「厚生」「公正」・・・といった発音が共通する複数の同音異義語が存在する。算出部226は、音響モデル・辞書記憶部221、またはテキスト情報における「こうせい」の前後の文脈その他の情報を参照して、「構成」「鋼製」「厚生」「公正」・・・の各々について、認識尤度を算出する。算出部226は、当該算出によって得られた複数の認識尤度を、変換切替部227に出力する。
【0038】
変換切替部227は、算出部226によって出力された複数の認識尤度の大きさに応じて、発音が共通する複数の同音異義語の存在があると判断された語を、係り受け解析部225が、漢字に変換したテキスト情報で出力するか、仮名文字によるテキスト情報で出力するか、を切り替える。なお、「仮名文字」には、平仮名および片仮名が含まれる。
例えば、変換切替部227は、算出部226によって出力された「構成」「鋼製」「厚生」「公正」・・・の各々の認識尤度に応じて、「こうせい」という語を、「こうせい」または「コウセイ」で出力するか、「構成」または「鋼製」等で出力するか、を切り替える。
一例として、変換切替部227は、算出部226によって出力された複数の認識尤度の最大値が所定値より低い場合に、発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)を係り受け解析部225に漢字変換させず、仮名文字によるテキスト情報で出力させてもよい。
【0039】
議事録作成部228は、係り受け解析部225またはテキスト取得部231が出力したテキスト情報に基づいて、発話者毎に分けて、議事録を作成する。議事録作成部228は、作成した議事録と対応する音声信号を議事録記憶部229に記憶させる。また、議事録作成部228は、作成した議事録を画像出力部241に出力する。なお、議事録作成部228は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。
【0040】
議事録記憶部229は、議事録と音声信号を対応つけて記憶する。
【0041】
テキスト取得部231は、操作部202が出力する操作結果、または通信部204が出力する操作部302の操作結果を取得し、取得した結果に基づいてテキスト情報を生成する。テキスト取得部231は、生成したテキスト情報を議事録作成部228に出力する。
【0042】
画像出力部241は、議事録作成部228が出力する議事録情報を取得する。画像出力部241は、議事録情報に基づいて画像データを生成し、生成した画像データを表示部203と通信部204に出力する。
【0043】
<親機2の表示画像>
次に、親機2の表示部203上に表示される画像例を説明する。
図2は、本実施形態に係る親機2の表示部203上に表示される画像例を示す図である。
画像g10が、親機2の表示部203上に表示される画像である。
【0044】
領域g100は、参加者情報編集を行う領域である。
領域g101は、参加者情報の領域である。符号g102は、参加者の名前である。符号g103は、参加者が親機2の操作部202または子機3の操作部302によってテキスト入力を行うことを示すアイコンである。符号g104は、参加者が親機2の収音部201または子機3の収音部301によって発話を行うことを示すアイコンである。符号g105は、参加者が使用するマイクロフォンの番号(または識別情報)である。
【0045】
領域g200は、議事録を表示する領域である。なお、
図2では、ログイン後の状態を示している。符号g201は、ログイン/ログアウトのボタン画像である。符号g202は、音声認識テキスト表示装置(音声認識テキスト表示システム)1の開始/終了のボタン画像である。符号g203は、音声認識テキスト表示装置(音声認識テキスト表示システム)1の使用中に点灯する表示である。符号g204は、議事録記憶部229が記憶する議事録の表示や音声信号の再生を行うボタン画像である。符号g205は、親機2の利用者が収音部201の使用有無を選択するボタン画像である。
【0046】
符号g211は、第1の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g212は、第1の参加者が操作部(202または302)を操作して入力した絵文字である。符号g213は、第1の参加者がテキスト情報および絵文字を入力した日時を示す情報である。符号g214は、第1の参加者の名前である。
【0047】
符号g221は、第2の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g222は、第2の参加者が発話した内容を音声認識したテキスト情報である。符号g223は、操作部(202または302)を操作してテキストを入力したことを示すアイコンである。符号g224は、収音部(201または301)によって発話を入力したことを示すアイコンである。符号g231は、第3の参加者が発話した内容を音声認識したテキスト情報である。
【0048】
符号g241は、第2の参加者が発話した語「こうせい」について、各同音異義語「構成」「鋼製」等の認識尤度に応じて、仮名文字によるテキスト情報で表示する一例である。
図示の例に示すように、表示部203は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示させてもよい。書式を異ならせる態様としては、例えば、斜体(イタリック)、太字、下線、マーカー表示、文字色、文字サイズ、またはフォントその他の態様、ならびにこれらの組み合わせ等を用いることができる。図示の例においては、「こうせい」を太字かつ斜体とすることにより、「こうせい」を他のテキスト情報とは異なる書式で表示している。
【0049】
なお、表示部203が上記の表示をするために、画像出力部241が、当該語を他の語とは異なる書式で表示させた画像データを生成する。
【0050】
なお、
図2に示した画像は一例であり、表示部203上に表示される画像はこれに限らない。例えば、表示部203は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示しなくてもよい。
【0051】
<子機3の表示画面>
次に、子機3の表示部303上に表示される画像例を説明する。
図3は、本実施形態に係る子機3の表示部303上に表示される画像例を示す図である。
画像g30が、子機3の表示部303上に表示される画像である。
【0052】
領域g300は、議事録を表示する領域である。符号g311は、第1の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g321は、第2の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g322は、第2の参加者が発話した内容を音声認識したテキスト情報である。符号g331は、第3の参加者が発話した内容を音声認識したテキスト情報である。領域g301は、テキスト入力部の領域である。なお、操作部302は、表示部303上に表示されるソフトウェアキーボードであってもよく、子機3と有線または無線で接続されていてもよい。
【0053】
符号g341は、
図2おける符号g241と同様に、第2の参加者が発話した語「こうせい」を仮名文字によるテキスト情報で表示する一例である。図示の例に示すように、表示部303は、表示部203と同様に、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示させてもよい。なお、表示部303が上記の表示をするために、画像出力部241が、当該語を他の語とは異なる書式で表示させた画像データを生成する。
【0054】
なお、
図3に示した画像は一例であり、表示部303上に表示される画像はこれに限らない。例えば、表示部303は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示しなくてもよい。
【0055】
<音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理>
次に、音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理手順例を説明する。
図4は、本実施形態に係る音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理手順例を示すフローチャートである。
【0056】
(ステップS1)認証部211は、操作部(202または302)の操作内容に基づいて、ログイン処理を行う。例えば、各利用者が、操作部(202または302)を操作して、利用者を識別する識別情報(利用者ID)とパスワードを入力すると、認証部211は、入力された識別情報及びパスワードに基づいてログイン処理を行う。
【0057】
(ステップS2)利用者が入力を収音部(201または301)によって行う場合、取得部222は、収音部201または通信部204が出力する音声信号を取得し、取得した音声信号を音声認識部223に出力する。
【0058】
(ステップS3)音声認識部223は、取得部222が出力する音声信号を取得し、取得した音声信号に対して音声認識処理を行う。
【0059】
(ステップS4)テキスト変換部224は、音声認識された結果に対してテキスト変換処理を行う。
【0060】
(ステップS5)係り受け解析部225は、テキスト変換されたテキスト情報に対して、発話者毎に係り受け解析と形態素解析処理を行う。
【0061】
(ステップS6)係り受け解析部225は、音響モデル・辞書記憶部221を参照して、解析されたテキスト情報に含まれる各語について、発音が共通する複数の同音異義語の存在があるか否か判定する。係り受け解析部225が、複数の同音異義語の存在があると判定した場合(ステップS6;YES)には、ステップS7の処理が行われ、複数の同音異義語の存在はないと判定した場合(ステップS6;NO)には、ステップS11の処理が行われる。
【0062】
(ステップS7)算出部226は、発音が共通する複数の同音異義語の存在があると判定された語について、各同音異義語に対する認識尤度を算出し、算出結果を変換切替部227に出力する。
【0063】
(ステップS8)変換切替部227は、複数の認識尤度の算出値の最大値が所定値以下であるかを判定する。変換切替部227が、最大値が所定値以下であると判定した場合(ステップS8;YES)には、ステップS9の処理が行われ、最大値が所定値を超えると判定した場合(ステップS8;NO)には、ステップS10の処理が行われる。
【0064】
(ステップS9)係り受け解析部225は、発音が共通する複数の同音異義語の存在があると判定された語を、仮名文字によるテキスト情報として議事録作成部228に出力する。
【0065】
(ステップS10)係り受け解析部225は、発音が共通する複数の同音異義語の存在があると判定された語を、認識尤度が最も大きい同音異義語(漢字)に変換したテキスト情報として議事録作成部228に出力する。
【0066】
(ステップS11)係り受け解析部225は、発音が共通する複数の同音異義語の存在はないと判定された語を、漢字によるテキスト情報として議事録作成部228に出力する。なお、漢字に変換することのできない語については、仮名文字によるテキスト情報として議事録作成部228に出力する。
【0067】
(ステップS12)利用者が入力を操作部(202または302)によって行う場合、テキスト取得部231は、操作部202または通信部204が出力する操作結果を取得し、取得した結果に基づきテキスト情報を生成し、議事録作成部228に出力する。
【0068】
(ステップS13)議事録作成部228は、係り受け解析部225またはテキスト取得部231が出力するテキスト情報に基づいて議事録を作成し、画像出力部241に出力する。
【0069】
(ステップS14)画像出力部241は、議事録作成部228が出力する議事録に基づいて、表示部(203または303)上に表示する画像を生成し、表示部203または通信部204に出力する。
【0070】
(ステップS15)表示部(203または303)は、画像出力部241が出力する画像を表示する。
【0071】
音声認識テキスト表示装置(音声認識テキスト表示システム)1は、以下、ステップS2~S15の処理を繰り返す。
なお、
図4の処理は一例であり、これに限らない。
【0072】
以上、本実施形態では、発音が共通する複数の同音異義語の存在がある語を、各同音異義語の認識尤度に応じて、あえて仮名文字で表示するようにした。
これにより、本実施形態によれば、発話者が意図しない漢字に変換されたテキスト情報が表示される可能性を低減できる。これにより、本実施形態によれば、音声信号から変換されたテキスト情報を参加者が理解しやすくすることができる。
【0073】
なお、上述した例では、音声認識テキスト表示装置(音声認識テキスト表示システム)1は操作部(202または302)によるテキスト入力および収音部(201または301)による音声認識を用いたテキスト入力の双方を許容していたが、これに限らない。例えば、音声認識テキスト表示装置(音声認識テキスト表示システム)1は収音部(201または301)による音声認識を用いたテキスト入力のみを許容していてもよい。
【0074】
また、上述した例では、音声認識テキスト表示装置1が親機2および複数の子機3を備える例を説明したが、これに限らない。例えば、音声認識テキスト表示装置1が備える子機3は1つのみでもよく、あるいは、音声認識テキスト表示装置1は子機3を備えていなくてもよい。
【0075】
また、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227、議事録作成部228、議事録記憶部229、テキスト取得部231、および画像出力部241の各々は、子機3が備えていてもよい。同様に、処理部305は、親機2が備えていてもよい。
【0076】
また、音声認識テキスト表示装置1の各機能部は親機2および子機3以外の装置に備えられていてもよい。あるいは、音声認識テキスト表示システム1の各機能部は親機2または子機3その他の物理的装置に備えられていなくてもよく、一つまたは複数のサーバやクラウド上に設けられていてもよい。なお、各機能部とは、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227、議事録作成部228、議事録記憶部229、テキスト取得部231、画像出力部241、通信部304、および処理部305である。
【0077】
なお、本発明における音声認識テキスト表示装置(音声認識テキスト表示システム)1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0078】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0079】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0080】
1…音声認識テキスト表示装置(音声認識テキスト表示システム) 203…表示部 222…取得部 224…テキスト変換部 225…係り受け解析部 226…算出部 227…変換切替部 241…画像出力部 303…表示部