特許第6768323号(P6768323)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パイオニア株式会社の特許一覧

特許6768323音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体
<>
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000002
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000003
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000004
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000005
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000006
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000007
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000008
  • 特許6768323-音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6768323
(24)【登録日】2020年9月25日
(45)【発行日】2020年10月14日
(54)【発明の名称】音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体
(51)【国際特許分類】
   G10L 15/10 20060101AFI20201005BHJP
   G10L 15/00 20130101ALI20201005BHJP
【FI】
   G10L15/10 200W
   G10L15/00 200L
【請求項の数】12
【全頁数】16
(21)【出願番号】特願2016-62072(P2016-62072)
(22)【出願日】2016年3月25日
(65)【公開番号】特開2017-173720(P2017-173720A)
(43)【公開日】2017年9月28日
【審査請求日】2019年3月15日
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成27年度、国立研究開発法人日本医療研究開発機構、「未来医療を実現する医療機器・システム研究開発事業」「未来医療を実現する先端医療機器・システムの研究開発/安全性と医療効率の向上を両立するスマート治療室の開発」委託研究開発、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000005016
【氏名又は名称】パイオニア株式会社
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(72)【発明者】
【氏名】海原 麻衣
(72)【発明者】
【氏名】松井 裕
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2004−301893(JP,A)
【文献】 特開2007−121579(JP,A)
【文献】 特開2002−207497(JP,A)
【文献】 特開2001−095819(JP,A)
【文献】 特開2000−267837(JP,A)
【文献】 特開2004−301875(JP,A)
【文献】 特開2011−128766(JP,A)
【文献】 特開2007−052397(JP,A)
【文献】 特開2002−123294(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部と
を備え
前記表示制御部は、前記第2モード時に暗転画像を表示させる
ことを特徴とする音声認識装置。
【請求項2】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部と
を備え、
前記表示制御部は、前記第2モード時に、前記第2モードに応じた画像の一部に前記第1モードに応じた画像の少なくとも一部を表示させる
ことを特徴とする音声認識装置。
【請求項3】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部と
を備え、
前記第2切換え手段は、前記第2音声コマンドに反応して、前記第2モードに切替える直前の前記第1モードへのモード切替えを行う
ことを特徴とする音声認識装置。
【請求項4】
前記第2音声コマンドは、当該音声認識装置が使用され得る環境で発せられる可能性が低い単語又は擬音であることを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
【請求項5】
前記表示制御部は、手術時に目視すべき画像を表示させることを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
【請求項6】
前記第2切換え手段は、前記第2音声コマンドに前記第1モードの各々に対応する第3音声コマンドを組み合わせた音声コマンドに反応して、前記第2モードから前記第3音声コマンドに対応した前記第1モードへのモード切替えを行うことを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
【請求項7】
前記第2音声コマンドは、所定の音声に視線の動き又はジェスチャーを組み合わせたものであることを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
【請求項8】
第2切換え手段は、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応し、前記第2モードから前記第1モードへのモード切換えを行うことを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
【請求項9】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程と
を含み、
前記表示制御工程では、前記第2モード時に暗転画像を表示させる
ことを特徴とする音声認識方法。
【請求項10】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程と
をコンピュータに実行させ
前記表示制御工程では、前記第2モード時に暗転画像を表示させる
ことを特徴とするコンピュータプログラム。
【請求項11】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程と
をコンピュータに実行させ、
前記表示制御工程では、前記第2モード時に、前記第2モードに応じた画像の一部に前記第1モードに応じた画像の少なくとも一部を表示させる
ことを特徴とするコンピュータプログラム。
【請求項12】
第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、
前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、
前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程と
をコンピュータに実行させ、
前記第2切換え工程では、前記第2音声コマンドに反応して、前記第2モードに切替える直前の前記第1モードへのモード切替えを行う
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば音声コマンドを認識して複数のモード間のモード切替えを行う音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体の技術分野に関する。
【背景技術】
【0002】
医療現場等では、手を触れることなく各種機器を操作できることが要求される場合がある。このような要求に対して、例えば特許文献1では、画像操作を行うための音声が認識された場合に、視線位置座標を基点として医療画像の操作を行うという技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015−93147号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1のように音声を認識して機器を操作する場合、機器の操作を意図しない音声によって誤った操作が実行されてしまうおそれがある。例えば、通常の会話に含まれる単語が、機器操作用の音声コマンドとして認識されてしまうことで、意図しない操作が実行されてしまう可能性がある。このような場合、機器が適切に操作されないことに起因して、様々な不都合が生じ得る。特に、医療現場においては、安全かつ迅速な処置が求められるため、1回の誤操作が極めて甚大な被害を招いてしまうおそれがある
本発明が解決しようとする課題には、上記のようなものが一例として挙げられる。本発明は、音声による正確な機器操作を実現することが可能な音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体を提供することを課題とする。
【課題を解決するための手段】
【0005】
上記課題を解決するための音声認識装置は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部とを備える。
【0006】
上記課題を解決するための第2の音声認識装置は、第1音声コマンドに反応可能な第1モードと、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応可能な第2モードと、前記第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、を備える。
【0007】
上記課題を解決するための音声認識方法は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とを備える。
【0008】
上記課題を解決するためのコンピュータプログラムは、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とをコンピュータに実行させる。
【0009】
上記課題を解決するための記録媒体は、上述したコンピュータプログラムが記録されている。
【図面の簡単な説明】
【0010】
図1】実施例に係る音声認識装置の構成を示すブロック図である。
図2】実施例に係る音声認識装置で切り替え可能な各モードを示すモード遷移図である。
図3】実施例に係る音声認識装置の動作の流れを示すフローチャートである。
図4】通常モードからのモード切替え方法を示す概念図である。
図5】特殊モードからのモード切替え方法を示す概念図である。
図6】特殊モードから任意の通常モードに切替える方法を示す概念図である。
図7】特殊モードにおける通常モードの一部表示例を示す概念図である。
図8】通常モードから任意の特殊モードに切替える方法を示す概念図である。
【発明を実施するための形態】
【0011】
<1>
本実施形態に係る音声認識装置は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部とを備える。
【0012】
本実施形態に係る音声認識装置によれば、その動作時には、第1切換え手段により、複数の第1モード間の切換え、及び第1モードから第2モードへのモード切替えが行われる。第1切換え手段は、第1音声コマンドに反応してモード切替えを行う。第1音声コマンドは、各モードに切換えを行うための音声コマンドとして、モード毎に予め設定されている。
【0013】
また本実施形態では、第2切換え手段により、第2モードから第1モードへのモード切換えが行われる。第2切換え手段は、第2音声コマンドに応じて、第2モードから第1モードへの切換えを行う。第2音声コマンドは、第1音声コマンドとは異なる音声コマンドとして予め設定されている。
【0014】
表示制御部は、第1モード又は第2モードに応じた画像を表示部に表示させる。このため、第1切換え手段及び第2切換え手段によりモードが切換えられると、表示部に表示される画像も切換えられることになる。
【0015】
本実施形態では特に、第1モード時には、第1音声コマンドによって他の各モードへの切換えが行える。即ち、第1モードからは、第1音声コマンドによって他の第1モードに切替えることもできるし、第1音声コマンドによって第2モードに切替えることもできる。一方、第2モード時には、第2音声コマンドでしか他のモードへの切換えが行えない。即ち、第2モード時に第1音声コマンドが認識されたとしても、他のモードへの切換えは行われない。
【0016】
このように構成すれば、第2モードから他のモードへの切換え方法が限定されることになるため、第2モードから第1モードへの切換えを意図しない場合に、誤って第1モードへの切換えが行われてしまうことを防止できる。具体的には、モード切替えを意図せず発した音声がモードを切替えるための音声コマンドとして認識されてしまい、不適切なモード切替えが行われてしまうことを防止できる。
【0017】
以上説明したように、本実施形態に係る音声認識装置によれば、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
【0018】
<2>
本実施形態に係る音声認識装置の一態様では、前記表示制御部は、前記第2モード時に暗転画像を表示させる。
【0019】
この態様によれば、第2モード時において表示される暗転画像が、意図せずに第1モードに応じた画像に切換えられてしまうことを防止できる。このようにすれば、周囲が暗い状況(即ち、暗転画像を表示させた状態)で行うべき作業をしている際に、明るい状況(第1モードに応じた画像を表示させた状態)になってしまうことを防止できる。
【0020】
なお、暗転画像を表示させる具体的な状況例としては、医療現場における暗室処理(例えば、蛍光診断)等が挙げられる。
【0021】
<3>
本実施形態に係る音声認識装置の他の態様では、前記表示制御部は、前記第2モード時に、前記第2モードに応じた画像の一部に前記第1モードに応じた画像の少なくとも一部を表示させる。
【0022】
この態様によれば、第2モード時においても、第1モードに応じた画像の少なくとも一部を視認することができる。即ち、第2モード時においても、他のモードで示される情報を確認することができる。このため、例えば第2モードにおいて暗転画像をさせている場合であっても、周囲を比較的暗い状況に保ったまま、第1モードで示される情報を確認できる。
【0023】
<4>
本実施形態に係る音声認識装置の他の態様では、前記第2切換え手段は、前記第2音声コマンドに反応して、前記第2モードに切替える直前の前記第1モードへのモード切替えを行う。
【0024】
この態様によれば、第2モードから第1モードへの切換えが行われる場合には、第2モードに切換えられる直前の第1モードへと切換えられる。このようにすれば、複数存在する第1のモードに対して容易にモード切替えが行える。
【0025】
<5>
本実施形態に係る音声認識装置の他の態様では、前記第2音声コマンドは、当該音声認識装置が使用され得る環境で発せられる可能性が低い単語又は擬音である。
【0026】
この態様によれば、意図せずして第2音声コマンドが発せられてしまうことを抑制できる。よって、第2モードから第1モードへの切換えを効果的に制限することが可能である。なお、「音声認識装置が使用され得る環境で発せられる可能性が低い単語」は、予め音声認識装置が使用され得る環境において発せられる単語を調べておき、高い頻度で発せられる単語を除外するようにして設定すればよい。或いは、全く意味を持たない単語(通常では使用されない単語)を用いてもよい。「擬音」は、人が発することができる声以外の音であり、例えば舌打ち等の音が一例として挙げられる。
【0027】
<6>
本実施形態に係る音声認識装置の他の態様では、前記表示制御部は、手術時に目視すべき画像を表示させる。
【0028】
この態様によれば、手術中の医師等が、音声を利用して好適にモード切替えを行うことができる。また、第2モード時に暗転画像を表示させるようにすれば、暗室処置を好適に行うことが可能である。
【0029】
<7>
本実施形態に係る音声認識装置の他の態様では、前記第2切換え手段は、前記第2音声コマンドに前記第1モードの各々に対応する第3音声コマンドを組み合わせた音声コマンドに反応して、前記第2モードから前記第3音声コマンドに対応した前記第1モードへのモード切替えを行う。
【0030】
この態様によれば、第2音声コマンドに第3音声コマンドを組み合わせることで、第2モードから任意の第1モードへの切換えが可能となる。第3音声コマンドは、複数の第1モードの各々に切換えを行うための音声コマンドとして、モード毎に予め設定されている。なお、第3音声コマンドは、第1音声コマンドと同一のものであっても構わない。
【0031】
<8>
本実施形態に係る音声認識装置の他の態様では、前記第2音声コマンドは、所定の音声に視線の動き又はジェスチャーを組み合わせたものである。
【0032】
この態様によれば、第2音声コマンドを認識させるためには、所定の音声を発するだけでなく、視線の動きやジェスチャー等を行うことが要求される。よって、モード切替えを意図せずに発した音声が第2音声コマンドとして認識されてしまうことを好適に回避できる。
【0033】
<9>
本実施形態に係る音声認識装置の他の態様では、第2切換え手段は、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応し、前記第2モードから前記第1モードへのモード切換えを行う。
【0034】
この態様によれば、第2モードから第1モードへのモード切替え時には、第2切換え手段が第2音声コマンドにのみ反応する。このため、第2モードが誤って第1モードにモード切替えされてしまうことを防止することができる。
【0035】
<10>
本実施形態に係る第2の音声認識装置は、第1音声コマンドに反応可能な第1モードと、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応可能な第2モードと、前記第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、を備える。
【0036】
本実施形態に係る第2の音声認識装置によれば、第1モードと第2モードとの間でモード切換えを行うことができる。本実施形態では特に、第1モードが第1音声コマンドに反応可能とされている一方で、第2モードは第2音声コマンドにのみ反応可能とされている。即ち、第2モードはから第1モードへのモード切替えは、第2音声コマンドでしか行えず、第1音声コマンドや他の音声コマンドではモード切替えは行えない。
【0037】
上述した構成によれば、第2モードでの作業中に、意図せぬ音声コマンドの認識によって、第2モードが他のモードにモード切替えされてしまうことを防止することができる。
【0038】
<11>
本実施形態に係る音声認識方法は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とを備える。
【0039】
本実施形態に係る音声認識方法によれば、上述した本実施形態に係る音声認識装置と同様に、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
【0040】
なお、本実施形態に係る音声認識方法においても、上述した本実施形態に係る音声認識装置における各種態様と同様の各種態様を採ることが可能である。
【0041】
<12>
本実施形態に係るコンピュータプログラムは、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とをコンピュータに実行させる。
【0042】
本実施形態に係るコンピュータプログラムによれば、上述した本実施形態に係る音声認識方法と同様の処理をコンピュータに実行させることができるため、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
【0043】
なお、本実施形態に係るコンピュータプログラムにおいても、上述した本実施形態に係る音声認識装置における各種態様と同様の各種態様を採ることが可能である。
【0044】
<13>
本実施形態に係る記録媒体は、上述したコンピュータプログラムが記録されている。
【0045】
本実施形態に係る記録媒体によれば、上述したコンピュータプログラムをコンピュータにより実行させることにより、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
【0046】
本実施形態に係る音声認識装置及び音声認識方法、並びにコンピュータプログラム及び記録媒体の作用及び他の利得については、以下に示す実施例において、より詳細に説明する。
【実施例】
【0047】
以下では、音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体の実施例について、図面を参照しながら詳細に説明する。なお、以下では、音声認識装置が医療現場の手術室で用いられる表示システムに適用される場合を例にとり説明する。
【0048】
<装置構成>
先ず、本実施例に係る音声認識装置の構成について、図1を参照して説明する。ここに図1は、実施例に係る音声認識装置の構成を示すブロック図である。
【0049】
図1において、本実施例に係る音声認識装置は、音声取得部110と、音声認識部120と、モード判定部130と、音声コマンド判定部140と、モード変更部150と、画面遷移部160とを備えて構成されている。
【0050】
音声取得部110は、例えばマイクロフォンを含んで構成されており、取得した音声を示す音声信号を出力可能に構成されている。音声取得部110から出力された音声信号は、音声認識部120に出力される構成となっている。
【0051】
音声認識部120は、音声信号が示す音声に含まれている単語(即ち、モードを切替えるための音声コマンドとして認識され得るワード)を認識することが可能に構成されている。音声認識部120で認識された単語は、該単語を示す信号として音声コマンド判定部140に出力される構成となっている。
【0052】
モード判定部130は、音声認識装置の現在のモードに関する情報を取得することが可能に構成されている。なお、音声認識装置における各モードについては、後に詳述する。モード判定部130で取得されたモードに関する情報は、音声コマンド判定部140に出力される構成となっている。
【0053】
音声コマンド判定部140は、音声認識部で認識された単語が、モードに応じた音声コマンドであるか否かを判定可能に構成されている。音声コマンド判定部140は、具体的な処理を実行するものとして、モード認識部141、一致率算出部142、及び一致率判定部143を備えている。
【0054】
モード認識部141は、モード判定部130から入力された現在のモードに関する情報に基づいて、認識すべき音声コマンドを決定する。言い換えれば、モードに応じた音声コマンドを選択する。
【0055】
一致率算出部142は、音声認識部120で認識された単語と、予め登録されている音声コマンドとの一致率を算出する。なお、一致率の算出方法については、既存の様々な技術を採用することができるため、ここでの詳細な説明は省略する。
【0056】
一致率判定部143は、モード認識部141で認識されたモードと、一致率算出部142で算出された一致率とに基づいて、取得された音声が認識すべき音声コマンドであるか否かを判定する。
【0057】
なお、音声コマンド判定部140では、上記一致率とは異なる指標を利用して音声コマンドであるか否かを判定するようにしても構わない。音声コマンド判定部140における判定結果は、モード変更部150に出力される構成となっている。
【0058】
モード変更部150は、音声コマンドに応じてモードを切替えることが可能に構成されている。モード変更部150は、モードを切換えた結果を画面遷移部160に出力するように構成されている。
【0059】
画面遷移部160は、モード変更部150においてモードが切換えられた際に、外部の表示部(例えば、液晶ディスプレイ等)の表示を、変更後のモードに応じたものに切替えることが可能に構成されている。
【0060】
<モード説明>
次に、上述した音声認識装置によって切換えられる各モードについて、図2を参照して具体的に説明する。ここに図2は、実施例に係る音声認識装置で切り替え可能な各モードを示すモード遷移図である。
【0061】
図2に示すように、本実施例に係る認識装置は、3つの通常モード(NAVIモード、GEFモード、及びPREOPEモード)と、1つの特殊モード(暗転モード)との間で相互にモード切替えを行うことができる。
【0062】
NAVIモードは、所謂デフォルト画面に相当するモードであり、手術中の患者の表情及び四肢の画像、並びにBIS値やT1/T2画像を表示するモードである。なお、BIS値は、麻酔を使用する手術において患者の沈静度を示す値である。また、T1/T2画像は、MRI(Magnetic Resonance Imaging)による撮影時において、強調する物質を変更した際に撮影される画像である。
【0063】
GEF(Gefrierschnitt:ゲフリール)モードは、生体検査結果を表示するモードであり、採取組織ごとの分析結果等を表示させることが可能である。
【0064】
PREOPE(Preoperative:術前診断)モードは、術前画像を表示するモードである。図に示す例では、脳に関する情報を示す画像が表示されている。
【0065】
暗転モードは、暗転画像(即ち、黒画面)を表示するためのモードであり、暗室処置等を行うために画面の光を遮断したい場合に用いられる。
【0066】
なお、上記モードは一例であり、複数の通常モードと、少なくとも1つの特殊モードとを相互に切替えるものであれば、本実施例に係る音声認識装置を適用することが可能である
<処理説明>
次に、本実施例に係る音声認識装置の動作について、図3を参照して説明する。ここに図3は、本実施例に係る音声認識装置の動作の流れを示すフローチャートである。
【0067】
図3において、本実施例に係る音声認識装置の動作時には、まず音声取得部110において音声が取得される(ステップS101)。取得された音声は、音声認識部120において認識され(ステップS102)、音声コマンド判定部140に出力される。また、上述した音声の取得及び認識に並行して、又は相前後して、モード判定部130による現在のモード確認が行われる(ステップS103)。現在のモードに関する情報は、音声コマンド判定部140に出力される。
【0068】
音声コマンド判定部140では、取得された音声に含まれる単語と、予め音声コマンドとして登録された単語との一致率が算出される(ステップS104)。なお、一致率は複数の単語の各々に対応する複数の値として算出されるが、結果として出力されるのは最も高い一致率のみである。
【0069】
一致率が算出されると、現在のモードが通常モードであるか否かが判定される(ステップS105)。即ち、現在のモードが、通常モード(即ち、NAVIモード、GEFモード、又はPREOPEモード)なのか、それとも特殊モード(即ち、暗転モード)なのかが判定される。
【0070】
現在のモードが通常モードである場合(ステップS105:YES)、一致率の最も高いコマンドが通常コマンドであり、且つ一致率が所定の閾値以上であるか否かが判定される(ステップS106)。なお、通常コマンドは、「第1音声コマンド」の一具体例であり、通常モード間でのモード切替え、及び通常モードから特殊モードへのモード切替えを行うための音声コマンドとして、モード毎に決められている。具体的には、通常モード間でのモード切替えは、モード名がそのまま音声コマンドとなっている。一方で、通常モードから特殊モードへのモード切替えは、「暗転」というワードが音声コマンドとして登録されている。なお、所定の閾値は、認識された音声が音声コマンドであるか否かを判定するために設定された閾値であり、最適な値が予め設定されている。
【0071】
一致率の最も高いコマンドが通常コマンドであり、且つ一致率が所定の閾値以上である場合(ステップS106:YES)、モード変更部150において、現在のモードから通常コマンドが示す他のモードへのモード切換えが行われる(ステップS107)。そして、画面遷移部160によって、表示部の画面が変更後のモードに応じたものへ遷移される(ステップS108)。なお、一致率の最も高いコマンドが通常コマンドでない、或いは一致率が所定の閾値以上でない場合(ステップS106:NO)、音声コマンド判定はエラーとなり、モード変更部150によるモード変更は行われない(ステップS109)。
【0072】
他方、現在のモードが特殊モードである場合(ステップS105:NO)、一致率の最も高いコマンドが特殊コマンドであり、且つ一致率が所定の閾値以上であるか否かが判定される(ステップS110)。なお、特殊コマンドは、「第2音声コマンド」の一具体例であり、特殊モードから通常モードへのモード切替えを行うための音声コマンドとして、通常コマンドとは異なるものが設定されている。本実施例では、「再開」というワードが特殊コマンドとして設定されている。
【0073】
一致率の最も高いコマンドが特殊コマンドであり、且つ一致率が所定の閾値以上である場合(ステップS110:YES)、モード変更部150において、特殊モードから通常モードへのモード切換えが行われる(ステップS111)。そして、画面遷移部160によって、表示部の画面が変更後のモードに応じたものへ遷移される(ステップS112)。なお、一致率の最も高いコマンドが特殊コマンドでない、或いは一致率が所定の閾値以上でない場合(ステップS110:NO)、音声コマンド判定はエラーとなり、モード変更部150によるモード変更は行われない(ステップS113)。
【0074】
<具体的なモード切替え動作>
次に、音声コマンドを用いた具体的なモード切替え動作について、図4から図8を参照して説明する。ここに図4は、通常モードからのモード切替え方法を示す概念図であり、図5は、特殊モードからのモード切替え方法を示す概念図である。また図6は、特殊モードから任意の通常モードに切替える方法を示す概念図であり、図7は、特殊モードにおける通常モードの一部表示例を示す概念図である。図8は、通常モードから任意の特殊モードに切替える方法を示す概念図である。
【0075】
図4に示すように現在のモードが通常モードのGEFモードであるとする。この状態で、「NAVIモード」というワードを含む音声が取得されると、NAVIモードへの切換えに対応する通常コマンド「NAVIモード」が認識され、GEFモードからNAVIモードへのモード切替えが行われる。同様に、「PREOPEモード」というワードを含む音声が取得されると、PREOPEモードへの切換えに対応する通常コマンド「PREOPEモード」が認識され、GEFモードからPREOPEモードへのモード切替えが行われる。
【0076】
また、「暗転」というワードを含む音声が取得されると、暗転モードへの切換えに対応する通常コマンド「暗転」が認識され、GEFモードから暗転モードへのモード切替えが行われる。
【0077】
このように、通常モードであるGEFモードからは、通常コマンドによるモード切替えが行える。
【0078】
図5に示すように現在のモードが特殊モードの暗転モードであるとする。この状態で、「NAVIモード」というワードを含む音声が取得されると、NAVIモードへの切換えに対応する通常コマンド「NAVIモード」が認識されるが、特殊モード時には通常コマンドによるモード切替えは行われない。このため、暗転モードからNAVIモードへのモード切替えは行われない。
【0079】
一方、「再開」ワードを含む音声が取得されると、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識され、暗転モードからGEFモード(暗転モードに切換える直前の通常モード)へのモード切替えが行われる。
【0080】
このように、特殊モードである暗転モードからは、通常コマンドによるモード切替えが行えない。一方で、特殊コマンドを利用すれば、特殊モードから通常モードへのモード切替えが行える。
【0081】
図6に示すように、再び現在のモードが特殊モードの暗転モードである場合を考える。この状態で「再開」ワードを含む音声が取得されると、既に説明したように、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識され、暗転モードからGEFモード(暗転モードに切換える直前の通常モード)へのモード切替えが行われる。
【0082】
一方で、「再開」及び「NAVIモード」というワードが連続して取得されると、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識されると共に、切換え先としてNAVIモードを指定する指定コマンド「NAVIモード」が認識され、暗転モードからNAVIモード(指定コマンドに応じたモード)へのモード切替えが行われる。なお、指定コマンドは、「第3音声コマンド」の一具体例であり、切り替え先のモードを指定するためのコマンドとして、モード毎に設定されている。具体的には、通常コマンドと同様にモード名がそのまま指定コマンドとなっている。
【0083】
このように、特殊コマンド及び指定コマンドを組み合わせれば、特殊モードから任意の通常モードへの切換えが行える。即ち、特殊モードに切換えられる直前の通常モード以外の通常モードに切替えることが可能となる。
【0084】
図7に示すように、暗転モードは、暗転画像だけを示すものでなくともよい。本実施例では、NAVIモードが暗転モードに切換えられた場合には、暗転画像のみを示す暗転モード(NAVI)が実現される。一方で、GEFモードが暗転モードに切換えられた場合には、暗転画像にGEFモードの重要な情報の一部を表示する暗転モード(GEF)が実現され、PREOPEモードが暗転モードに切換えられた場合には、暗転画像にPREOPEモードの重要な情報の一部を表示する暗転モード(PREOPE)が実現される。
【0085】
このようにすれば、暗転モードによる処置中も、通常モードで示される情報を確認することができる。
【0086】
図8に示すように、現在のモードが通常モードのNAVIモードであるとする。この状態で、「暗転」というワードを含む音声が取得されると、既に説明したように、暗転モードへの切換えに対応する通常コマンド「暗転」が認識され、NAVIモードから暗転モードへのモード切替えが行われる。
【0087】
一方で、「暗転」及び「GEFモード」というワードが連続して取得されると、暗転モードへの切換えに対応する通常コマンド「暗転」が認識されると共に、GEFモードの一部表示を要求する表示コマンド「GEFモード」が認識され、NAVIモードからGEFモードの重要な情報の一部を表示する暗転モード(GEF)へのモード切替えが行われる。なお、表示コマンドは、暗転画像に一部表示する通常モードを指定するためのコマンドとして、モード毎に設定されている。具体的には、通常コマンドと同様にモード名がそのまま指定コマンドとなっている。
【0088】
このように、通常コマンド及び表示コマンドを組み合わせれば、通常モードから任意の特殊モードへの切換えが行える。即ち、暗転画像に任意の通常モードを一部表示させることが可能となる。
【0089】
<実施例の効果>
最後に、本実施例に係る音声認識装置によって得られる技術的効果について詳細に説明する。
【0090】
図1から図5で説明したように、本実施例に係る音声認識装置によれば、通常モード時には、通常コマンドによって他の各モードへの切換えが行える。即ち、通常モードからは、通常コマンドによって他の通常モードに切替えることもできるし、通常コマンドによって特殊モードに切替えることもできる。一方、特殊モード時には、特殊コマンドでしか他のモードへの切換えが行えない。即ち、特殊モード時に通常コマンドが認識されたとしても、通常モードへの切換えは行われない。
【0091】
従って、特殊モードから通常モードへの切換え方法が限定されることになるため、特殊モードから通常モードへの切換えを意図しない場合に、誤って通常モードへの切換えが行われてしまうことを防止できる。
【0092】
仮に、特殊モード時にも通常コマンドによるモード切替えが可能であるとすると、暗転モード時において「さっきNAVIモードで見た…」という会話をした場合に、「NAVIモード」という通常コマンドが認識され、NAVIモードへの切換えが実行されてしまう。この場合、暗転モードで暗室処置を行っていたとすると、NAVIモードへの切換えによって暗室状態が解除され、適切な暗室処理が行えなくなってしまう。医療現場において、このような不都合は甚大な被害を招くおそれがある。
【0093】
これに対し、本実施例に係る音声認識装置によれば、モード切替えを意図せず発した音声がモードを切替えるための音声コマンドとして認識されてしまい、不適切なモード切替えが行われてしまうことを防止できる。
【0094】
また、図6から図8で説明したように、指定コマンド及び表示コマンドを組み合わせることで、より適切なモード切換えが行える。従って、確認すべき情報を極めて好適に表示させることが可能となる。
【0095】
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う音声認識装置及び音声認識方法、並びにコンピュータプログラム及び記録媒体もまた本発明の技術的範囲に含まれるものである。
【符号の説明】
【0096】
110 音声取得部
120 音声認識部
130 モード判定部
140 音声コマンド判定部
141 モード認識部
142 一致率算出部
143 一致率判定部
150 モード変更部
160 画面遷移部
図1
図2
図3
図4
図5
図6
図7
図8