特許7141938 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士フイルムヘルスケア株式会社の特許一覧

特許7141938音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-09-14

(45)【発行日】2022-09-26

(54)【発明の名称】音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム

(51)【国際特許分類】

A61B 6/00 20060101AFI20220915BHJP

A61B 6/03 20060101ALI20220915BHJP

A61B 5/055 20060101ALI20220915BHJP

【ＦＩ】

A61B6/00 320Z

A61B6/03 330A

A61B5/055 370

【請求項の数】 6

(21)【出願番号】P 2018229984

(22)【出願日】2018-12-07

(65)【公開番号】P2020089641

(43)【公開日】2020-06-11

【審査請求日】2021-06-18

(73)【特許権者】

【識別番号】320011683

【氏名又は名称】富士フイルムヘルスケア株式会社

(74)【代理人】

【識別番号】110000888

【氏名又は名称】特許業務法人山王坂特許事務所

(72)【発明者】

【氏名】天明宏之助

【審査官】倉持俊輔

(56)【参考文献】

【文献】特開２０１６－１２８９２４（ＪＰ，Ａ）

【文献】特開２０１４－１７０１８５（ＪＰ，Ａ）

【文献】特開２０１４－０８１４４１（ＪＰ，Ａ）

【文献】特開２０１３－１３４４３１（ＪＰ，Ａ）

【文献】特開２００９－１０９５８７（ＪＰ，Ａ）

【文献】特開２００７－２２６３８８（ＪＰ，Ａ）

【文献】特開２００６－１４９９０９（ＪＰ，Ａ）

【文献】特開２００６－１３７３６６（ＪＰ，Ａ）

【文献】特開２００４－１５７９１９（ＪＰ，Ａ）

【文献】特開昭６４－０９１１９９（ＪＰ，Ａ）

【文献】特開昭６１－１２２７８１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１５／０３７９９９３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ６／００－６／１４，５／０５５，

Ｇ１０Ｌ１５／００－１５／３４，

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

外部機器に対し操作コマンドを入力する音声認識入力装置であって、
１の操作コマンドについて複数の音声コマンドを対応付けて記録すると共に、音声コマンド毎に当該音声コマンドの使用頻度に応じた重み係数を記録した音声認識データテーブルを記憶した記憶部と、
音声入力を受け付け、該音声入力を認識対象として音声認識処理を行って前記音声入力に対応する音声コマンドを音声認識処理の結果として出力する音声認識部と、
前記音声認識データテーブルを参照して、前記音声コマンドを該音声コマンドに対応して記録された操作コマンドに変換するコマンド変換部と、
前記操作コマンドを前記外部機器に出力する操作決定部と、を備え、
前記音声認識部が、前記音声認識データテーブルを参照して前記音声入力に相当し得る音声コマンド候補を複数選出するとともに音声認識の確からしさの指標を算出し、これら複数の音声コマンド候補夫々について、前記指標と前記重み係数とを乗じることにより最も確からしい音声コマンドを選出し、当該選出した音声コマンドを前記音声入力に対する音声認識処理の結果として出力する、音声認識入力装置。

【請求項2】

前記操作コマンド及び該操作コマンドに対応する前記音声コマンドの少なくとも一方を記録した操作履歴を生成すると共に、該操作履歴を解析した結果に基づいて前記重み係数を更新するコマンド解析部を備えた請求項１記載の音声認識入力装置。

【請求項3】

前記コマンド解析部が、前記操作コマンドの一定期間内における使用頻度又は音声コマンドの積算回数の少なくとも一方に基づいて重み係数を更新する請求項２記載の音声認識入力装置。

【請求項4】

前記記憶部が、前記外部機器の運用状況に対応した複数の音声認識データテーブルを記憶し、
前記音声認識部が、前記外部機器の運用状況に応じて音声認識処理に用いる前記音声認識データテーブルを切り替える請求項１乃至請求項４の何れか１項記載の音声認識入力装置。

【請求項5】

コンピュータにより、医用画像撮像装置に対して音声により操作コマンドを入力させる音声認識入力プログラムであって、
１の操作コマンドについて複数の音声コマンドを対応付けて記録すると共に、音声コマンド毎に当該音声コマンドの使用頻度に応じた重み係数を記録した音声認識データテーブルを参照して、ユーザからの音声入力を認識対象として音声認識処理を行って前記音声入力に対応する音声コマンドを音声認識処理の結果として出力する音声認識ステップと、
前記音声認識データテーブルを参照して、前記音声コマンドを該音声コマンドに対応して記録された操作コマンドに変換するコマンド変換ステップと、
前記医用画像撮像装置に前記操作コマンドを出力する操作決定ステップと、を備え、
前記音声認識ステップにおいて、前記音声認識データテーブルを参照して前記音声入力に相当し得る音声コマンド候補を複数選出するとともに音声認識の確からしさの指標を算出し、これら複数の音声コマンド候補夫々について、前記指標と前記重み係数とを乗じることにより最も確からしい音声コマンドを選出し、当該選出した音声コマンドを前記音声入力に対する音声認識処理の結果として出力させる、音声認識入力プログラム。

【請求項6】

請求項１乃至請求項４の何れか１項記載の音声認識入力装置と、
外部機器として医用画像撮像装置と、を備え
請求項１乃至請求項４の何れか１項記載の音声認識入力装置が、前記医用画像撮像装置に対して音声認識入力により操作指示を行う医用画像撮像システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識入力装置、音声認識入力プログラム及び医用画像撮像システムに関し、特に、医用画像撮像装置等の医療機器に接続され、当該医療機器に対してコマンドを出力する音声認識入力装置、音声認識入力プログラム及び医用画像撮像システムに関する。

【背景技術】

【0002】

近年、インターベンション治療の高度化に伴い、Ｘ線透視撮影下および軟性内視鏡操作下で血管や消化管の検査又は治療を行うケースが増えている。これら検査又は治療では術者の清潔性が担保される必要があり、手動による機器操作はその清潔性を維持できない。
また、例えば、Ｘ線透視撮影装置を用いた検査では、しばしば検査手技を施行する術者の口頭指示のもと、それを補助する術者サポートの医療従事者が機器操作を行うことがある。このような場合、術者から補助役の医療従事者に対する口頭指示等の意思疎通に手間取り、術者の意図通りの機器操作まで時間がかかることがあり、術者が医療従事者による補助がなくとも直接口頭指示によって医療機器の操作を行うことが望まれる。
そこで、手術や検査等に利用される医療機器において、清潔性の確保や操作性向上のために音声認識による操作が望まれている。

【0003】

一方、昨今、音声認識技術は、従来から存在する隠れマルコフモデルを用いた手法に加え、ＤｅｅｐＬｅａｒｎｉｎｇを用いた手法が出現し単語認識のみならず文章としての音声認識処理が可能になるなど認識精度が向上してきている。また、音声認識処理にはサーバやＣｌｏｕｄを用いた大規模な機械学習を行いて逐次的に性能を向上させるものがあるが、医療機器は秘匿性を考慮して設計される必要があることから、医療機器に適用される音声認識入力装置は、Ｃｌｏｕｄやサーバに接続せず非ネットワーク環境下で音声認識処理を行う必要がある。

【0004】

そして、音声認識により操作を行う医療機器の例として、特許文献１には、Ｘ線画像診断装置において、操作者の負担を軽減するために、誤作動によって被検者に危害を与える虞のある機能は操作者による手動の操作に基づいて制御し、誤作動によっても被検者に危害を与える虞のない機能については操作者が発生する音声を認識することによって制御することが開示されている。

【先行技術文献】

【非特許文献】

【0005】

【文献】特開２００６－１４９９０９号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、音声認識処理に用いるデータベースに、例えば、互いに類似した音素を持つ音声操作コマンドが複数個登録されていた場合には、音声認識処理において誤検出を生じさせる可能性がある。すなわち、術者が発した音声が、類似した音素からなる複数の音声操作コマンドのうち何れの音声操作コマンドに該当するか判別ができず、誤検出となる虞がある。この場合、音声認識処理によって操作を行うことができず、結果的に術者はサポートを行う医療従事者に機器操作を指示することとなり、術者の意図通りの機器操作に要する時間を短縮することができない。また、その場合は音声操作コマンドの認識率の向上が必要となるが、その手段は明示されていない。

【0007】

本発明は、上記事情に鑑みてなされたものであり、音声認識処理において、術者の音声による操作指示を正確に認識し、誤検出を低減させることを目的とする。

【課題を解決するための手段】

【0008】

上記課題を解決するために、本発明は以下の手段を提供する。
本発明の一態様は、外部機器に対し操作コマンドを入力する音声認識入力装置であって、１の操作コマンドについて複数の音声コマンドを対応付けて記録すると共に、音声コマンド毎に当該音声コマンドの使用頻度に応じた重み係数を記録した音声認識データテーブルを記憶した記憶部と、音声入力を受け付け、該音声入力を認識対象として音声認識処理を行って前記音声入力に対応する音声コマンドを音声認識処理の結果として出力する音声認識部と、前記音声認識データテーブルを参照して、前記音声コマンドを該音声コマンドに対応して記録された操作コマンドに変換するコマンド変換部と、前記操作コマンドを前記外部機器に出力する操作決定部と、を備え、前記音声認識部が、前記音声入力に相当し得る音声コマンド候補を複数選出し、これら複数の音声コマンド候補夫々に前記重み係数を乗じることにより最も確からしい音声コマンドを前記音声入力に対する音声認識処理の結果として出力する、音声認識入力装置を提供する。
本発明によれば、音声コマンド毎に使用頻度に応じた重み係数を記録したデータテーブルを用いて音声認識処理を行うので、音声による操作指示において音声認識処理の精度を向上させることができる。

【発明の効果】

【0009】

本発明によれば、音声認識処理において、誤検出を低減させ、術者の音声による操作指示を正確に認識することができる。

【図面の簡単な説明】

【0010】

【図1】本発明の第１実施形態に係る音声認識入力装置の概略構成を示すブロック図である。

【図2】図１の音声認識入力装置の音声認識ＤＢに格納された音声認識データテーブルの一例である。

【図3】本発明の第１の実施形態における音声認識入力装置において、重み係数を更新する際に参照する、操作コマンドの使用頻度、操作コマンドコード及びオフセット係数Ｔの関係を示すグラフである。

【図4】本発明の第１の実施形態に係る音声認識入力装置による音声認識入力処理の流れを示すフローチャートである。

【図5】本発明の第１の実施形態の変形例における音声認識入力装置において、重み係数を更新する際に参照する、音声コマンドの積算回数、音声コマンドコード及びオフセット係数Ｖの関係を示すグラフである。

【図6】本発明の第２の実施形態に係る音声認識入力装置における音声認識ＤＢに格納されたデータテーブルの一例を示し、（Ａ）は、検査開始情報の状態を示すデータテーブル、（Ｂ）は、検査種別の状態を示すデータテーブル、（Ｃ）はＸ線照射情報の状態を示すデータテーブル、（Ｄ）は装置運用状況と音声認識ＤＢの分類を示すデータテーブルである。

【図7】本発明の第２の実施形態に係る音声認識入力装置において、音声認識データテーブルの切替処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0011】

本発明の実施形態に係る音声認識入力装置は、当該音声認識入力装置に接続された医用画像撮像装置等の外部機器に対して入力を行うものである。

【0012】

（第１の実施形態）
以下、本発明の第１の実施形態に係る音声認識入力装置について、図面を参照してより詳細に説明する。図１に本実施形態に係る音声認識入力装置の概略構成図を示す。
音声認識入力装置１０は、音声認識入力装置１０全体を制御する中央処理装置（ＣＰＵ）１１、マイク等の音声入力を受け付ける音声入力Ｉ／Ｆ（インターフェイス）１２、マウスやキーボードなどからなり手動入力を受け付ける手動入力Ｉ／Ｆ（インターフェイス）１３、メモリ１４、音声認識アルゴリズムや音声認識処理に必要なデータを格納した音声認識ＤＢ１５及び音声入力に関するログを収集し記録するログ収集ＤＢ１６を備え、これらの各構成はシステムバスを介して互いに接続されている。

【0013】

本実施形態において、音声認識入力装置１０は、画像撮像装置２０と通信可能に接続され、画像撮像装置２０に対する種々の入力指示を行う。また、音声認識入力装置１０は、画像撮像装置２０を介してディスプレイ３０と接続され、画像撮像装置２０において取得した画像等をディスプレイ３０に表示させ、表示させた画像に対して拡大や縮小等の所望の操作指示を行う。画像撮像装置２０としては、Ｘ線装置、ＭＲＩ装置、ＣＴ装置、ＰＥＴ装置など、医用画像取得のためのハードウェアを適用することができる。

【0014】

音声認識入力装置１０によって画像撮像装置等に対して音声による入力指示を行うために、図１に示すように、ＣＰＵ１１は、音声操作処理部１２０、手動操作処理部１３０及びシステム操作決定部１４０の機能を実現する。特に、音声操作処理部１２０は、音声認識部１１１、コマンド変換部１１２及びコマンド解析部１１３の機能を実現する。

【0015】

なお、ＣＰＵ１１が実現するこれら各部の機能は、図示しない磁気ディスク等のメモリに格納されたプログラムをＣＰＵが予め読み込んで実行することによりソフトウエアとして実現することができる。なお、ＣＰＵ１１に含まれる各部が実行する動作の一部又は全部を、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）やＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）により実現することもできる。

【0016】

音声操作処理部１２０は、マイク等の音声入力Ｉ／Ｆ１２を介して入力された音声による操作指示（音声入力）を認識して、画像撮像装置２０に対して操作指示を行うものであり、音声認識部１１１、コマンド変換部１１２及びコマンド解析部１１３の機能を実現する。

【0017】

音声認識部１１１は、予め音声認識ＤＢ１５等に記憶された音声認識アルゴリズムに従って、音声入力Ｉ／Ｆ１２を介して入力された音声による操作指示に対して音声認識処理を行い、認識結果である音声コマンドをコマンド変換部１１２に出力する。ここで、音声認識処理に際して音声認識部１１１は、後述する音声認識ＤＢ１５に格納された音声認識データテーブル（図２参照）を用い、所定の音声認識アルゴリズムに従って音声認識処理を行い、認識結果として音声コマンドを選出する。音声認識部１１１による音声認識処理の詳細は後述する。

【0018】

コマンド変換部１１２は、音声認識部１１１における音声認識処理を経て選出された音声コマンドに対応する操作コマンドに変換し、当該操作コマンドを術者による操作指示としてシステム操作決定部１４０及びコマンド解析部１１３に出力する。

【0019】

コマンド解析部１１３は、コマンド変換部１１２から、術者による操作指示に係る操作コマンドに関する情報を取得し、操作履歴を生成してログ収集ＤＢ１６に記録させると共に、当該操作履歴を解析する。ここで、操作コマンドに関する情報として、操作コマンドのみならず、当該操作コマンドに変換される前の音声コマンド等を含めることができる。また、コマンド解析部１１３は、操作履歴の解析結果に基づいて音声認識データテーブルの重み係数を更新する。重み係数の更新についての詳細は後述する。

【0020】

手動操作処理部１３０は、手動での操作を行う場合に、マウスやキーボード等の手動入力Ｉ／Ｆ１３を介して入力された操作指示に基づいて当該操作指示に係る操作コマンドを生成し、システム操作決定部１４０に出力する。
システム操作決定部１４０は、音声操作処理部１２０又は手動操作処理部１３０から入力された操作コマンドを画像撮像装置２０に出力すると共に、コマンド解析部１１３に出力する。

【0021】

音声入力Ｉ／Ｆ１２は、術者等の操作者の発話を音声による操作指示（音声入力）として受け付けて電気信号の音声データに変換し、音声データを音声操作処理部１２０に出力するものであり、例えばマイク等を適用することができる。
手動入力Ｉ／Ｆ１３は、術者等による手動の操作指示を受け付け、受け付けた操作指示を電気信号に変換して手動操作処理部１３０に出力するものであり、例えば、マウス、キーボード、タッチパネルなどの入力装置を適用することができる。

【0022】

メモリ１４は、ＣＰＵ１１が実行するプログラムや演算処理の途中経過を記憶したり、音声や手動による操作指示を一時的に記憶したりする。
音声認識ＤＢ１５は、予め定められた音声認識アルゴリズムを格納すると共に、音声認識処理に用いる音声認識データテーブルを記録している。音声認識データテーブルの詳細については後述する。
ログ収集ＤＢ１６は、コマンド解析部１１３によって生成された操作履歴などの操作指示に関する情報を取得して記録する。

【0023】

（音声認識処理及び音声認識データテーブルについて）
音声認識データテーブルは、図２に示すように、音声コマンドに関するデータを示す音声コマンドデータｄｂ１と、操作コマンドに関するデータを示す操作コマンドデータｄｂ２と、音声コマンド毎に定められた重み係数を示す重み係数データｄｂ３から構成される。

【0024】

図２に示すように、音声認識データテーブルにおいて、同一の操作コマンドｄｂ２１に対して複数の音声コマンドｄｂ１１が対応付けて記録されている。このようにすることで、同一の操作指示に対して術者毎に異なる口癖や発話による指示がなされた場合であっても、音声認識処理を経て同一の操作を実現させることができる。また、音声コマンドデータｄｂ１の各音声コマンドに対して、夫々コマンド読みｄｂ１２及び音声コマンドコードｄｂ１３が対応付けて記録されている。操作コマンドｄｂ２１についても、同様に操作コマンド毎に操作コマンドコードｄｂ２２が対応付けられて記憶されている。

【0025】

ところで、音声認識部１１１は、次のように音声認識処理を行う。すなわち、音声認識部１１１は、まず、音声入力Ｉ／Ｆを介して入力された音声データを音波に変換し、音波から音声データの１文字ずつを音素に分解して特定する。続いて、隠れマルコフモデルに則った統計的機械学習や深層学習モデルを用いた機械学習等の音声認識アルゴリズムを用いて、音声データの音素とコマンド読みｄｂ１２の音素との照合を行う。この照合により、音声認識部１１１は、音声データと類似するコマンド読みｄｂ１２を選出し、選出されたコマンド読みに対応する音声コマンドｄｂ１１の候補とその確からしさの指標となる得点を出力する。

【0026】

ここで、音声認識処理の一例として、術者が「画像縮小」と発話して操作指示を行う場合について検討する。術者が「画像縮小」と発話した場合、音声認識データテーブルのコマンド読みｄｂ１２において「がぞうしゅくしょう」と「がぞうしゅうしゅう」とは途中まで音素が一致している。このため、音声認識部１１は、入力される音声データの品質に依存して「がぞうしゅくしょう」を、「画像収集」と誤って認識する虞がある。この場合、術者は操作コマンドｄｂ２１の画像縮小を指示したにも拘らず、音声認識の誤認識によって音声コマンドｄｂ１１の「がぞうしゅうしゅう」に対応した操作コマンドｄｂ２１の「透視記録」が操作コマンドとして選択され、術者の意図しない操作が行われてしまう。

【0027】

そこで、音声認識データテーブルでは、このような誤認識を回避するために重み係数データｄｂ３を音声コマンド毎に対応付けて記録している。重み係数データｄｂ３は、音声認識処理の過程において出力される１以上の音声コマンド候補の各々に付帯した得点に対して乗算する重み係数である。重み係数データｄｂ３に記録された重み係数は、各音声コマンドに対応し、当該音声コマンドの使用頻度等に応じて定められた値である。

【0028】

また、重み係数は、ログ収集ＤＢ１６に記録された操作履歴をコマンド解析部１１３が解析した結果に基づいて更新することができる。すなわち、コマンド解析部１１３が、操作履歴を解析することにより、一定期間内における操作コマンド毎の使用回数を算出し、使用回数に基づいて重み係数を更新するためのオフセット係数Ｔを算出する。

【0029】

オフセット係数Ｔは、例えば、図３に示すグラフに従って各操作コマンドに対応する操作コマンドコードが発行された積算回数によって定めることができる。この他、オフセット係数Ｔは、予め定めた期間における操作コマンドコードの発行総数に対する各操作コマンドの割合に基づいて算出することもできる。コマンド解析部１１３は、算出されたオフセット係数Ｔを操作コマンドに対応して記録される各重み係数に乗じることにより重み係数を更新する。

【0030】

なお、コマンド解析部１１３による操作履歴の解析は、自動的に行うことができる他、術者や装置提供者による操作指示に従って行う等任意のタイミングで行うことができる。また、コマンド解析部１１３は、音声認識部１１１の音声認識処理において誤検出が生じた場合には、操作コマンドの使用回数から減算するなどして、重み係数を更新することができる。

【0031】

以下、このように構成された音声認識入力装置１０による音声入力処理の流れについて図４のフローチャートに従って説明する。
図４に示すように、音声認識入力装置１０が作動すると、音声入力を待機状態となる。音声入力Ｉ／Ｆにおいて音声入力があった場合には（ステップＳ１０１）、ステップＳ１０２に進み、音声認識部１１１が音声入力Ｉ／Ｆ１２から音声データの入力を受け付け当該音声データの音素と音声認識ＤＢ１５に登録された各コマンド読みの音素との照合を行い、コマンド読みに対応して記録された音声コマンドの候補を選出する。この候補の選出は、音声認識の確からしさの指標となる得点に基づいて判断することができる。

【0032】

次のステップＳ１０３では、ステップＳ１０２によって選出された音声コマンドの候補が１以上あるか否かを判定し、音声コマンドの候補数が１つ以上ない場合にはステップＳ１０４に進み音声コマンドなしとしてステップＳ１０１に戻る。音声コマンドの候補数が１以上ある場合にはステップＳ１０５に進み、音声コマンドの各候補に付与されている得点と、音声認識データテーブルに当該音声コマンドに対応して記録されている重み係数とを乗算する。

【0033】

ステップＳ１０６では、ステップＳ１０５における得点と重み係数との乗算の結果、最高得点となる音声コマンド候補を選出する。次のステップＳ１０７では、最高得点、すなわち、選出された音声コマンド候補の得点が予め定めた閾値より大きいか否かを判定し、最高得点が予め定めた閾値より小さい場合には音声コマンドがなかったとしてステップＳ１０４を経て、音声による操作を実行せずに、ステップＳ１０１に戻り、音声認識入力装置１０は、再度、音声入力を待機する状態となる。このとき、術者へ音声操作を実行しない旨の通知を、例えば合成された音声、アラーム、ディスプレイを用いて行うことができる。

【0034】

最高得点が予め定めた閾値より大きい場合には、ステップＳ１０８に進み最高得点を示した音声コマンドを音声認識処理の結果として決定する。決定された音声コマンドはコマンド変換部１１２に出力され、コマンド変換部１１２において、音声認識データテーブルを用いて、決定された音声コマンドを、当該音声コマンドに対応する操作コマンドに変換する（Ｓ１０９）。

【0035】

次のステップＳ１１０において、コマンド変換部１１２は、変換された操作コマンドをコマンド解析部１１３及びシステム操作決定部１４０に出力する。コマンド解析部１１３では、入力された操作コマンドを含めて操作履歴を更新生成し、ログ収集ＤＢ１６に記録させる。システム操作決定部１４０では、入力された操作コマンドを画像撮像装置２０に出力する。画像撮像装置２０では、入力された操作コマンドに応じた操作が実行される。

【0036】

このように本実施形態によれば、操作コマンドに対して複数の音声コマンドを対応付けて記録し、かつ、各操作コマンドについて使用頻度の高い順に高い重み係数を持たせ音声認識処理用いることで、術者毎に異なる発話の癖や好みに依存せず精度よく音声認識処理を行うことができる。また、操作コマンドの使用頻度を記録し、当該使用頻度に応じて重み係数を更新することで、経時的に術者の使用頻度の高い操作コマンドについて音声認識処理の精度を向上させることができ、術者の音声による操作指示を正確に認識することができる。

【0037】

（変形例）
上述した第１の実施形態では、コマンド解析部１１３が操作コマンドの使用頻度に基づいて重み係数を更新する例について説明した。本変形例では、入力された音声コマンドに基づいて重み係数を更新する例について説明する。

【0038】

コマンド解析部１１３は、操作履歴を解析することにより、コマンド変換部１１２から入力された操作コマンド変換される前の音声コマンドについて、一定期間内における音声コマンド毎の検出頻度を算出する。そして、算出された音声コマンドの検出頻度に基づいて重み係数を更新するためのオフセット係数Ｖを算出する。

【0039】

オフセット係数Ｖは、例えば、図５に示すグラフに従って、各音声コマンドに対応する音声コマンドコードが発行された積算回数によって定めることができる。この他、ある期間の音声コマンドコードの発行総数に対する各音声コマンドの割合に基づいてオフセット係数Ｖを決定しても良い。

【0040】

コマンド解析部１１３は、算出されたオフセット係数Ｖを操作コマンドに対応して記録される各重み係数に乗じることにより重み係数を更新する。この場合にも、コマンド解析部１１３は、音声認識部１１１の音声認識処理において誤検出が生じた場合には、音声コマンドの積算回数から減算するなどして、重み係数を更新することが好ましい。

【0041】

このように本変形例では、術者の発話に基づく音声コマンドについて検出頻度の高い順に高い重み係数を持たせ、当該重み係数を音声認識処理用いることで、術者毎に異なる発話の癖や好みに依存せず精度よく音声認識処理を行うことができる。また、音声コマンドの検出回数を記録し、当該検出回数に応じて重み係数を更新することで、経時的に術者の検出頻度の高い音声コマンドについて音声認識の精度を向上させることができる。上述の第１の実施形態に比して更に音声認識の精度を向上させることができ、術者の音声による操作指示を正確に認識することができる。

【0042】

なお、上述の操作コマンドの使用頻度に基づくオフセット係数Ｔ及び音声コマンドの検出頻度に基づくオフセット係数Ｖを共に乗じた結果を重み係数に乗じることにより更新することもできる。この場合には、使用頻度の高い操作コマンド且つ検出頻度の高い音声コマンドの音声認識精度がより向上する。この場合にも、コマンド解析部１１３は、音声認識部１１１の音声認識処理において誤検出が生じた場合には、操作コマンドの使用回数及び音声コマンドの積算回数から減算するなどして、重み係数を更新することが好ましい。

【0043】

（第２の実施形態）
上述した第１の実施形態及びその変形例においては、音声認識ＤＢ１５内に１の音声認識データテーブルが格納されている例について説明した。本実施形態においては、音声認識ＤＢ１５に、音声認識入力装置１０が適用される外部装置の運用状況に依存して、図２に示すような音声認識データテーブルが複数格納されており、外部装置の運用状況に応じて音声認識処理に用いるデータテーブルを切り替える。

【0044】

装置の運用状況として、例えば、検査開始前後、検査種別、Ｘ線出力の有無等が考えられ、音声認識ＤＢには、予めこれらの状況に応じて複数の音声認識データテーブルｔｇ００１～ｔｇ＊＊＊を格納しておく。音声認識データテーブルの一例は、図２に示した通りである。また、音声認識ＤＢには、図６に示すような装置の運用状況を示すデータテーブルが格納され、これらのデータテーブルを参照して適切な音声認識データテーブルを選択する。なお、図６（Ａ）は、検査開始情報の状態を示すデータテーブル、（Ｂ）は、検査種別の状態を示すデータテーブル、（Ｃ）はＸ線照射情報の状態を示すデータテーブル、（Ｄ）は装置運用状況と音声認識データベースの分類を示すデータテーブルである。

【0045】

以下、音声認識データテーブルｔｇ００１～ｔｇ＊＊＊の切り替えの流れについて、図７のフローチャートに従って説明する。
音声認識入力装置１０が起動すると、システム操作決定部１４が画像撮像装置２０から逐次的に装置運用状況に係る情報を取得する（ステップＳ２０１）。本実施形態においては、システム操作決定部１４が、例えば、検査開始情報、検査種別情報及びＸ線照射情報を取得する。装置運用状況に係る情報を取得すると、システム操作決定部１４は、取得した情報それぞれについて従前の状態と比べて変化があったか否かを判定する（ステップＳ２０２）。

【0046】

ステップＳ２０２の判定において、検査開始情報、検査種別情報及びＸ線照射情報のうち何れか少なくとも１つの情報に変化があった場合にステップＳ２０３に進み、装置運用状況コマンドＳｔを生成する。装置運用状況コマンドＳｔは、図６（Ｄ）に示すように、検査開始情報、検査種別及びＸ線照射情報の３つの情報からなり、これらの組み合わせに応じて適用すべき音声認識データテーブルが定まるようになっている。

【0047】

システム操作決定部１４は、生成された装置運用状況コマンドＳｔを音声認識部１１１へ出力し（ステップＳ２０５）、音声認識部１１１は、入力された装置運用状況コマンドＳｔに従って音声認識データテーブルを選択し、切り替える。装置運用状況コマンドＳｔの各情報、例えば、検査開始情報が「検査開始後」を示すａｏ１、検査種別が「Ａｂｄｏｍｅｎ（腹部）」を示す１００１、Ｘ線照射情報が「照射中」を示すｃ０１である場合には、音声認識データベースｔｇ００３が選択される。

【0048】

上述のように音声認識ＤＢに音声認識データテーブルが複数格納されている場合においても、第１の実施形態及びその変形例と同様に、重み係数の更新を行うことができる。

【0049】

コマンド解析部１１３は、操作履歴を生成する際に、操作コマンドを示す操作コマンドコードや音声コマンドを示す音声コマンドコードと共に、検査開始の有無や検査種別に係るコマンドコード（図６参照）を記録する。このようにすることで、更新が必要な音声認識データベースの重み係数についてのみ更新を行うことができる。

【0050】

このように本実施形態によれば、音声認識入力装置を適用する装置の運用状況に応じて音声認識処理に用いる音声認識データテーブルを切り替えることができる。各音声認識データテーブルは、装置運用状況毎に使用頻度の高い操作、使用頻度の高い音声コマンドに比重を置いた重み係数を定めることができるため、音声認識処理の精度を向上させることができる。

【符号の説明】

【0051】

１０・・・音声認識入力装置、１１・・・ＣＰＵ、１２・・・音声入力Ｉ／Ｆ、１３・・・手動入力Ｉ／Ｆ、１４・・・メモリ、１５・・・音声認識ＤＢ、１６・・・ログ収集ＤＢ、２０・・・画像撮像装置、３０・・・ディスプレイ、１１１・・・音声認識部、１１２・・・コマンド変換部、１１３・・・コマンド解析部、１２０・・・音声操作処理部、１３０・・・手動操作処理部、１４０・・・システム操作決定部、２０・・・画像撮像装置、３０・・・ディスプレイ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版