【実施例】
【0047】
以下では、音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体の実施例について、図面を参照しながら詳細に説明する。なお、以下では、音声認識装置が医療現場の手術室で用いられる表示システムに適用される場合を例にとり説明する。
【0048】
<装置構成>
先ず、本実施例に係る音声認識装置の構成について、
図1を参照して説明する。ここに
図1は、実施例に係る音声認識装置の構成を示すブロック図である。
【0049】
図1において、本実施例に係る音声認識装置は、音声取得部110と、音声認識部120と、モード判定部130と、音声コマンド判定部140と、モード変更部150と、画面遷移部160とを備えて構成されている。
【0050】
音声取得部110は、例えばマイクロフォンを含んで構成されており、取得した音声を示す音声信号を出力可能に構成されている。音声取得部110から出力された音声信号は、音声認識部120に出力される構成となっている。
【0051】
音声認識部120は、音声信号が示す音声に含まれている単語(即ち、モードを切替えるための音声コマンドとして認識され得るワード)を認識することが可能に構成されている。音声認識部120で認識された単語は、該単語を示す信号として音声コマンド判定部140に出力される構成となっている。
【0052】
モード判定部130は、音声認識装置の現在のモードに関する情報を取得することが可能に構成されている。なお、音声認識装置における各モードについては、後に詳述する。モード判定部130で取得されたモードに関する情報は、音声コマンド判定部140に出力される構成となっている。
【0053】
音声コマンド判定部140は、音声認識部で認識された単語が、モードに応じた音声コマンドであるか否かを判定可能に構成されている。音声コマンド判定部140は、具体的な処理を実行するものとして、モード認識部141、一致率算出部142、及び一致率判定部143を備えている。
【0054】
モード認識部141は、モード判定部130から入力された現在のモードに関する情報に基づいて、認識すべき音声コマンドを決定する。言い換えれば、モードに応じた音声コマンドを選択する。
【0055】
一致率算出部142は、音声認識部120で認識された単語と、予め登録されている音声コマンドとの一致率を算出する。なお、一致率の算出方法については、既存の様々な技術を採用することができるため、ここでの詳細な説明は省略する。
【0056】
一致率判定部143は、モード認識部141で認識されたモードと、一致率算出部142で算出された一致率とに基づいて、取得された音声が認識すべき音声コマンドであるか否かを判定する。
【0057】
なお、音声コマンド判定部140では、上記一致率とは異なる指標を利用して音声コマンドであるか否かを判定するようにしても構わない。音声コマンド判定部140における判定結果は、モード変更部150に出力される構成となっている。
【0058】
モード変更部150は、音声コマンドに応じてモードを切替えることが可能に構成されている。モード変更部150は、モードを切換えた結果を画面遷移部160に出力するように構成されている。
【0059】
画面遷移部160は、モード変更部150においてモードが切換えられた際に、外部の表示部(例えば、液晶ディスプレイ等)の表示を、変更後のモードに応じたものに切替えることが可能に構成されている。
【0060】
<モード説明>
次に、上述した音声認識装置によって切換えられる各モードについて、
図2を参照して具体的に説明する。ここに
図2は、実施例に係る音声認識装置で切り替え可能な各モードを示すモード遷移図である。
【0061】
図2に示すように、本実施例に係る認識装置は、3つの通常モード(NAVIモード、GEFモード、及びPREOPEモード)と、1つの特殊モード(暗転モード)との間で相互にモード切替えを行うことができる。
【0062】
NAVIモードは、所謂デフォルト画面に相当するモードであり、手術中の患者の表情及び四肢の画像、並びにBIS値やT1/T2画像を表示するモードである。なお、BIS値は、麻酔を使用する手術において患者の沈静度を示す値である。また、T1/T2画像は、MRI(Magnetic Resonance Imaging)による撮影時において、強調する物質を変更した際に撮影される画像である。
【0063】
GEF(Gefrierschnitt:ゲフリール)モードは、生体検査結果を表示するモードであり、採取組織ごとの分析結果等を表示させることが可能である。
【0064】
PREOPE(Preoperative:術前診断)モードは、術前画像を表示するモードである。図に示す例では、脳に関する情報を示す画像が表示されている。
【0065】
暗転モードは、暗転画像(即ち、黒画面)を表示するためのモードであり、暗室処置等を行うために画面の光を遮断したい場合に用いられる。
【0066】
なお、上記モードは一例であり、複数の通常モードと、少なくとも1つの特殊モードとを相互に切替えるものであれば、本実施例に係る音声認識装置を適用することが可能である
<処理説明>
次に、本実施例に係る音声認識装置の動作について、
図3を参照して説明する。ここに
図3は、本実施例に係る音声認識装置の動作の流れを示すフローチャートである。
【0067】
図3において、本実施例に係る音声認識装置の動作時には、まず音声取得部110において音声が取得される(ステップS101)。取得された音声は、音声認識部120において認識され(ステップS102)、音声コマンド判定部140に出力される。また、上述した音声の取得及び認識に並行して、又は相前後して、モード判定部130による現在のモード確認が行われる(ステップS103)。現在のモードに関する情報は、音声コマンド判定部140に出力される。
【0068】
音声コマンド判定部140では、取得された音声に含まれる単語と、予め音声コマンドとして登録された単語との一致率が算出される(ステップS104)。なお、一致率は複数の単語の各々に対応する複数の値として算出されるが、結果として出力されるのは最も高い一致率のみである。
【0069】
一致率が算出されると、現在のモードが通常モードであるか否かが判定される(ステップS105)。即ち、現在のモードが、通常モード(即ち、NAVIモード、GEFモード、又はPREOPEモード)なのか、それとも特殊モード(即ち、暗転モード)なのかが判定される。
【0070】
現在のモードが通常モードである場合(ステップS105:YES)、一致率の最も高いコマンドが通常コマンドであり、且つ一致率が所定の閾値以上であるか否かが判定される(ステップS106)。なお、通常コマンドは、「第1音声コマンド」の一具体例であり、通常モード間でのモード切替え、及び通常モードから特殊モードへのモード切替えを行うための音声コマンドとして、モード毎に決められている。具体的には、通常モード間でのモード切替えは、モード名がそのまま音声コマンドとなっている。一方で、通常モードから特殊モードへのモード切替えは、「暗転」というワードが音声コマンドとして登録されている。なお、所定の閾値は、認識された音声が音声コマンドであるか否かを判定するために設定された閾値であり、最適な値が予め設定されている。
【0071】
一致率の最も高いコマンドが通常コマンドであり、且つ一致率が所定の閾値以上である場合(ステップS106:YES)、モード変更部150において、現在のモードから通常コマンドが示す他のモードへのモード切換えが行われる(ステップS107)。そして、画面遷移部160によって、表示部の画面が変更後のモードに応じたものへ遷移される(ステップS108)。なお、一致率の最も高いコマンドが通常コマンドでない、或いは一致率が所定の閾値以上でない場合(ステップS106:NO)、音声コマンド判定はエラーとなり、モード変更部150によるモード変更は行われない(ステップS109)。
【0072】
他方、現在のモードが特殊モードである場合(ステップS105:NO)、一致率の最も高いコマンドが特殊コマンドであり、且つ一致率が所定の閾値以上であるか否かが判定される(ステップS110)。なお、特殊コマンドは、「第2音声コマンド」の一具体例であり、特殊モードから通常モードへのモード切替えを行うための音声コマンドとして、通常コマンドとは異なるものが設定されている。本実施例では、「再開」というワードが特殊コマンドとして設定されている。
【0073】
一致率の最も高いコマンドが特殊コマンドであり、且つ一致率が所定の閾値以上である場合(ステップS110:YES)、モード変更部150において、特殊モードから通常モードへのモード切換えが行われる(ステップS111)。そして、画面遷移部160によって、表示部の画面が変更後のモードに応じたものへ遷移される(ステップS112)。なお、一致率の最も高いコマンドが特殊コマンドでない、或いは一致率が所定の閾値以上でない場合(ステップS110:NO)、音声コマンド判定はエラーとなり、モード変更部150によるモード変更は行われない(ステップS113)。
【0074】
<具体的なモード切替え動作>
次に、音声コマンドを用いた具体的なモード切替え動作について、
図4から
図8を参照して説明する。ここに
図4は、通常モードからのモード切替え方法を示す概念図であり、
図5は、特殊モードからのモード切替え方法を示す概念図である。また
図6は、特殊モードから任意の通常モードに切替える方法を示す概念図であり、
図7は、特殊モードにおける通常モードの一部表示例を示す概念図である。
図8は、通常モードから任意の特殊モードに切替える方法を示す概念図である。
【0075】
図4に示すように現在のモードが通常モードのGEFモードであるとする。この状態で、「NAVIモード」というワードを含む音声が取得されると、NAVIモードへの切換えに対応する通常コマンド「NAVIモード」が認識され、GEFモードからNAVIモードへのモード切替えが行われる。同様に、「PREOPEモード」というワードを含む音声が取得されると、PREOPEモードへの切換えに対応する通常コマンド「PREOPEモード」が認識され、GEFモードからPREOPEモードへのモード切替えが行われる。
【0076】
また、「暗転」というワードを含む音声が取得されると、暗転モードへの切換えに対応する通常コマンド「暗転」が認識され、GEFモードから暗転モードへのモード切替えが行われる。
【0077】
このように、通常モードであるGEFモードからは、通常コマンドによるモード切替えが行える。
【0078】
図5に示すように現在のモードが特殊モードの暗転モードであるとする。この状態で、「NAVIモード」というワードを含む音声が取得されると、NAVIモードへの切換えに対応する通常コマンド「NAVIモード」が認識されるが、特殊モード時には通常コマンドによるモード切替えは行われない。このため、暗転モードからNAVIモードへのモード切替えは行われない。
【0079】
一方、「再開」ワードを含む音声が取得されると、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識され、暗転モードからGEFモード(暗転モードに切換える直前の通常モード)へのモード切替えが行われる。
【0080】
このように、特殊モードである暗転モードからは、通常コマンドによるモード切替えが行えない。一方で、特殊コマンドを利用すれば、特殊モードから通常モードへのモード切替えが行える。
【0081】
図6に示すように、再び現在のモードが特殊モードの暗転モードである場合を考える。この状態で「再開」ワードを含む音声が取得されると、既に説明したように、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識され、暗転モードからGEFモード(暗転モードに切換える直前の通常モード)へのモード切替えが行われる。
【0082】
一方で、「再開」及び「NAVIモード」というワードが連続して取得されると、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識されると共に、切換え先としてNAVIモードを指定する指定コマンド「NAVIモード」が認識され、暗転モードからNAVIモード(指定コマンドに応じたモード)へのモード切替えが行われる。なお、指定コマンドは、「第3音声コマンド」の一具体例であり、切り替え先のモードを指定するためのコマンドとして、モード毎に設定されている。具体的には、通常コマンドと同様にモード名がそのまま指定コマンドとなっている。
【0083】
このように、特殊コマンド及び指定コマンドを組み合わせれば、特殊モードから任意の通常モードへの切換えが行える。即ち、特殊モードに切換えられる直前の通常モード以外の通常モードに切替えることが可能となる。
【0084】
図7に示すように、暗転モードは、暗転画像だけを示すものでなくともよい。本実施例では、NAVIモードが暗転モードに切換えられた場合には、暗転画像のみを示す暗転モード(NAVI)が実現される。一方で、GEFモードが暗転モードに切換えられた場合には、暗転画像にGEFモードの重要な情報の一部を表示する暗転モード(GEF)が実現され、PREOPEモードが暗転モードに切換えられた場合には、暗転画像にPREOPEモードの重要な情報の一部を表示する暗転モード(PREOPE)が実現される。
【0085】
このようにすれば、暗転モードによる処置中も、通常モードで示される情報を確認することができる。
【0086】
図8に示すように、現在のモードが通常モードのNAVIモードであるとする。この状態で、「暗転」というワードを含む音声が取得されると、既に説明したように、暗転モードへの切換えに対応する通常コマンド「暗転」が認識され、NAVIモードから暗転モードへのモード切替えが行われる。
【0087】
一方で、「暗転」及び「GEFモード」というワードが連続して取得されると、暗転モードへの切換えに対応する通常コマンド「暗転」が認識されると共に、GEFモードの一部表示を要求する表示コマンド「GEFモード」が認識され、NAVIモードからGEFモードの重要な情報の一部を表示する暗転モード(GEF)へのモード切替えが行われる。なお、表示コマンドは、暗転画像に一部表示する通常モードを指定するためのコマンドとして、モード毎に設定されている。具体的には、通常コマンドと同様にモード名がそのまま指定コマンドとなっている。
【0088】
このように、通常コマンド及び表示コマンドを組み合わせれば、通常モードから任意の特殊モードへの切換えが行える。即ち、暗転画像に任意の通常モードを一部表示させることが可能となる。
【0089】
<実施例の効果>
最後に、本実施例に係る音声認識装置によって得られる技術的効果について詳細に説明する。
【0090】
図1から
図5で説明したように、本実施例に係る音声認識装置によれば、通常モード時には、通常コマンドによって他の各モードへの切換えが行える。即ち、通常モードからは、通常コマンドによって他の通常モードに切替えることもできるし、通常コマンドによって特殊モードに切替えることもできる。一方、特殊モード時には、特殊コマンドでしか他のモードへの切換えが行えない。即ち、特殊モード時に通常コマンドが認識されたとしても、通常モードへの切換えは行われない。
【0091】
従って、特殊モードから通常モードへの切換え方法が限定されることになるため、特殊モードから通常モードへの切換えを意図しない場合に、誤って通常モードへの切換えが行われてしまうことを防止できる。
【0092】
仮に、特殊モード時にも通常コマンドによるモード切替えが可能であるとすると、暗転モード時において「さっきNAVIモードで見た…」という会話をした場合に、「NAVIモード」という通常コマンドが認識され、NAVIモードへの切換えが実行されてしまう。この場合、暗転モードで暗室処置を行っていたとすると、NAVIモードへの切換えによって暗室状態が解除され、適切な暗室処理が行えなくなってしまう。医療現場において、このような不都合は甚大な被害を招くおそれがある。
【0093】
これに対し、本実施例に係る音声認識装置によれば、モード切替えを意図せず発した音声がモードを切替えるための音声コマンドとして認識されてしまい、不適切なモード切替えが行われてしまうことを防止できる。
【0094】
また、
図6から
図8で説明したように、指定コマンド及び表示コマンドを組み合わせることで、より適切なモード切換えが行える。従って、確認すべき情報を極めて好適に表示させることが可能となる。
【0095】
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う音声認識装置及び音声認識方法、並びにコンピュータプログラム及び記録媒体もまた本発明の技術的範囲に含まれるものである。