特許第6010692号(P6010692)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ エッジ・スリー テクノロジーズ エルエルシーの特許一覧

特許6010692発話コマンド認識方法及び発話コマンド認識処理システム
<>
  • 特許6010692-発話コマンド認識方法及び発話コマンド認識処理システム 図000002
  • 特許6010692-発話コマンド認識方法及び発話コマンド認識処理システム 図000003
  • 特許6010692-発話コマンド認識方法及び発話コマンド認識処理システム 図000004
  • 特許6010692-発話コマンド認識方法及び発話コマンド認識処理システム 図000005
  • 特許6010692-発話コマンド認識方法及び発話コマンド認識処理システム 図000006
  • 特許6010692-発話コマンド認識方法及び発話コマンド認識処理システム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6010692
(24)【登録日】2016年9月23日
(45)【発行日】2016年10月19日
(54)【発明の名称】発話コマンド認識方法及び発話コマンド認識処理システム
(51)【国際特許分類】
   G10L 15/24 20130101AFI20161006BHJP
   G10L 15/22 20060101ALI20161006BHJP
   G10L 15/00 20130101ALI20161006BHJP
   G06F 3/16 20060101ALI20161006BHJP
   G06T 7/20 20060101ALI20161006BHJP
【FI】
   G10L15/24 Q
   G10L15/22 200V
   G10L15/00 200Q
   G06F3/16 650
   G06T7/20 300A
【請求項の数】18
【全頁数】16
(21)【出願番号】特願2015-517255(P2015-517255)
(86)(22)【出願日】2013年4月15日
(65)【公表番号】特表2015-526753(P2015-526753A)
(43)【公表日】2015年9月10日
(86)【国際出願番号】US2013036654
(87)【国際公開番号】WO2013188002
(87)【国際公開日】20131219
【審査請求日】2015年7月24日
(31)【優先権主張番号】13/524,351
(32)【優先日】2012年6月15日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(73)【特許権者】
【識別番号】514320027
【氏名又は名称】エッジ・スリー テクノロジーズ エルエルシー
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】ドコール、タレック、エル
(72)【発明者】
【氏名】ホームズ、ジェイムス
(72)【発明者】
【氏名】クラスター、ジョーダン
(72)【発明者】
【氏名】ヤマモト、ステュアート
(72)【発明者】
【氏名】バゲフィナザリ ペドラム
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特開2007−121576(JP,A)
【文献】 特開2007−237785(JP,A)
【文献】 特開2008−145676(JP,A)
【文献】 特開2009−025715(JP,A)
【文献】 特開2008−045962(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 −15/34
G06F 3/16
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
深度画像の少なくとも一つを車両内に配置した深度カメラによって撮像するステップであって、深度画像の各々がユーザの少なくとも一部を含み、かつ該深度カメラから該ユーザの該少なくとも一部までの距離を表す画素を有するステップと、
該深度画像の少なくとも一つを撮像している時に該ユーザによって発せられた発話を含む音声信号を受信するステップと、
撮像された深度画像に基づいて該ユーザのポーズ又はジェスチャを認識するステップと、
該認識されたポーズ又はジェスチャに基づいてジェスチャ情報を生成するステップであって、該ジェスチャ情報は、該ユーザが指し示す方向であって、該車両から該車両の外にある注目点の方に向かう方向を示すステップと、
該ジェスチャ情報を分析することにより、かつ、該ユーザによって発せられた前記発話を含む前記音声信号に対して会話認識を行わずに、該ユーザが操作の対象としている可能性が高い一つ又は複数の機器を複数の機器の中から決定するステップと、
操作の対象としている可能性が高いとして決定された該一つ又は複数の機器に関係づけられた複数の発話コマンドの候補を含む辞書を選択するステップと
選択された辞書に含まれる複数の発話コマンドの候補の中から、前記音声信号に基づいて、一つの発話コマンドを抽出することにより、該音声信号の音声認識を行うステップと、
該抽出された発話コマンドを、前記操作の対象としている可能性が高い一つ又は複数の機器を操作するための、前記注目点に関係づけられた動作を示す機器コマンドに変換するステップと、
を含むことを特徴とする、発話コマンドを認識するためのコンピュータによって実行される方法。
【請求項2】
前記ユーザの前記少なくとも一部は、該ユーザの手又は前腕を含むこと、
を特徴とする請求項1に記載の方法。
【請求項3】
前記深度カメラは、前記車両内のオーバヘッド・コンソールに取り付けられ、該深度カメラから前記ユーザを見渡せること、
を特徴とする請求項1に記載の方法。
【請求項4】
前記複数の機器は、前記車両内における少なくともナビゲーション・システム及びエンターテインメント・システムを含むこと、
を特徴とする請求項1に記載の方法。
【請求項5】
前記ジェスチャ情報は、前記ユーザの手又は前腕が前記深度カメラからの一定の距離内に位置するか、又は該深度カメラから該距離を超えた位置にあるかのどちらであるかを示し、
該手又は前腕が該距離内に位置していることを示す該ジェスチャ情報を、該ユーザが指し示す方向であって該車両から該車両の外にある注目点の方に向かう方向を示すジェスチャ情報として、該ジェスチャ情報に応答して第1の組の発話コマンドが選択され、かつ、
該手又は前腕が該距離を超えた位置にあることを示す該ジェスチャ情報に応答して第2の組の発話コマンドが選択されること、
を特徴とする請求項1に記載の方法。
【請求項6】
前記第1の組の発話コマンドは、前記車両内でのナビゲーション操作の実行に関係づけられていること、
を特徴とする請求項5に記載の方法。
【請求項7】
前記第1の組の発話コマンドは、前記ナビゲーション操作のために前記注目地点を特定又は設定するためのコマンドを含むこと、
を特徴とする請求項6に記載の方法。
【請求項8】
前記第2の組の発話コマンドは、エンターテインメント・システム、環境制御システム、又は診断システムの操作に関係付けられていること、
を特徴とする請求項6に記載の方法。
【請求項9】
車両内に配置されて深度画像の少なくとも一つを撮像するように構成された深度カメラであって、深度画像の各々がユーザの少なくとも一部を含み、かつ該深度カメラから該ユーザの該少なくとも一部までの距離を表す画素を有する、深度カメラと、
該深度カメラに接続されて、撮像された深度画像に基づいて該ユーザのポーズ又はジェスチャを認識して、該認識されたポーズ又はジェスチャに基づいてジェスチャ情報を生成するように構成されたジェスチャ認識モジュールであって、該ジェスチャ情報は、該ユーザが指し示す方向であって、該車両から該車両の外にある注目点の方に向かう方向を示すジェスチャ認識モジュールと、
コマンド抽出モジュールであって、
前記深度カメラが前記深度画像の少なくとも一つを撮像している間に該ユーザによって発せられた発話を含む音声信号を受信するステップと、
前記ジェスチャ情報を分析することにより、かつ、該ユーザによって発せられた前記発話を含む前記音声信号に対して会話認識を行うことなく、該ユーザが操作の対象としている可能性が高い一つ又は複数の機器を複数の機器の中から決定するステップと、
操作の対象としている可能性が高いと決定された該一つ又は複数の機器に関係づけられた複数の発話コマンドの候補を含む辞書を選択するステップと
該選択された辞書に含まれる複数の発話コマンドの候補の中から、前記音声信号に基づいて、一つの発話コマンドを抽出することにより、該音声信号の音声認識を行うステップと、
該抽出された発話コマンドを、前記操作の対象としている可能性が高い該一つ又は複数の機器を操作するための、前記注目点に関係づけられた動作を示す機器コマンドに変換するステップと、
を実行するように構成されたコマンド抽出モジュールと、
を含むことを特徴とする、発話コマンドを認識するためのコマンド処理システム。
【請求項10】
前記ユーザの前記少なくとも一部は、該ユーザの手又は前腕を含むこと、
を特徴とする請求項9に記載のコマンド処理システム。
【請求項11】
前記深度カメラは、前記車両内の前記ユーザを見渡せるオーバヘッド・コンソールに取り付けられていること、
を特徴とする請求項9に記載のコマンド処理システム。
【請求項12】
前記深度カメラは、撮像した処理用の画像を少なくとも一つの深度画像に組み入れる立体視カメラを含むこと、
を特徴とする請求項11に記載のコマンド処理システム。
【請求項13】
前記複数の機器は、前記車両内に少なくともナビゲーション・システム及びエンターテインメント・システムを含むこと、
を特徴とする請求項9に記載のコマンド処理システム。
【請求項14】
前記ジェスチャ情報は、前記ユーザの手又は前腕が前記深度カメラからの一定の距離内に位置するか、又は該深度カメラから該距離を超えた位置にあるかのどちらであるかを示し、
前記コマンド抽出モジュールは、該手又は前腕が該距離内に位置していることを示す該ジェスチャ情報を、該ユーザが指し示す方向であって該車両から該車両の外にある注目点の方に向かう方向を示すジェスチャ情報として、該ジェスチャ情報に応答して第1の組の発話コマンドを選択し、かつ、該手又は前腕が該距離を超えた位置にあることを示す該ジェスチャ情報に応答して第2の組の発話コマンドを選択すること、
を特徴とする請求項9に記載のコマンド処理システム。
【請求項15】
前記第1の組の発話コマンドは、前記車両内でのナビゲーション操作の実行に関係づけられていること、
を特徴とする請求項14に記載のコマンド処理システム。
【請求項16】
前記第1の組の発話コマンドは、前記ナビゲーション操作のための前記注目地点を特定又は設定するためのコマンドを含むこと、
を特徴とする請求項15に記載のコマンド処理システム。
【請求項17】
前記第2の組の発話コマンドは、エンターテインメント・システム、環境制御システム、又は診断システムの操作に関係付けられていること、
を特徴とする請求項16に記載のコマンド処理システム。
【請求項18】
深度画像の少なくとも一つを車両内に配置した深度カメラによって撮像するステップであって、深度画像の各々がユーザの少なくとも一部を含み、かつ該深度カメラから該ユーザの該少なくとも一部までの距離を表す画素を有する、ステップと、
該深度画像の少なくとも一つを撮像している間に該ユーザによって発せられた発話を含む音声信号を受信するステップと、
撮像された深度画像に基づいて該ユーザのポーズ又はジェスチャを認識するステップと、
該認識されたポーズ又はジェスチャに基づいてジェスチャ情報を生成するステップであって、該ジェスチャ情報は、該ユーザが指し示す方向であって、該車両から該車両の外にある注目点の方に向かう方向を示すステップと、
該ジェスチャ情報を分析することにより、かつ、該ユーザによって発せられた発話を含む音声信号に対して会話認識を行うことなく、該ユーザが操作の対象としている可能性が高い一つ又は複数の機器を複数の機器の中から決定するステップと、
操作の対象としている可能性が高いとして決定された該一つ又は複数の機器に関係づけられた複数の発話コマンドの候補を含む辞書を選択するステップと、
該選択された辞書に含まれる複数の発話コマンドの候補の中から、前記音声信号に基づいて、一つの発話コマンドを抽出することにより、該音声信号の音声認識を行うステップと、
該抽出された発話コマンドを、前記操作の対象としている可能性が高い一つ又は複数の機器を操作するための、前記注目点に関係づけられた動作を示す機器コマンドに変換するステップと、
を含む、発話コマンドを認識する方法をコンピュータに実行させるためのプログラムを格納した非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識の精度を高めるためにポーズ又はジェスチャの情報を使用して音声コマンドを認識する技術に関する。
【背景技術】
【0002】
車両の運転者や乗客は、通常、指や手を使用して、スイッチ、スクリーン、キーパッド、又は他の入力機構を用いて車両内のさまざまな機器を操作する。このような入力機構は、例えば、ナビゲーション・システム、エンターテインメント・システム、環境システム又は電話システムを操作するために使用することができる。時には、複雑な一連の操作を該入力機構に対して行い、所望のコマンドを機器に発行する必要がある。しかしながら、望ましいことは、運転者がハンドルに両手をおいたまま、これらの入力機器を片手で断続的に短時間に操作することである。操作の複雑さによっては、何度か試行を繰り返して入力機器を操作し、その末に所望の操作が実行可能になることもあり得る。
【0003】
したがって、運転者の手の使用をより少なくする操作形態を用いる方が有利である。このような操作の一つの形態は音声認識である。音声認識は、音響信号を音声要素(例えば、音素、単語や文章)に変換するプロセスである。音声認識の応用は、電話から車両操作まで様々な分野に渡っている。音声認識システムでは、音声信号が入力装置(例えば、マイクロホン)によって収集され、デジタル信号に変換された後、一つ又は複数のアルゴリズムを用いて処理され音声信号に含まれる音声要素を出力する。応用分野によっては、認識された音声要素を音声認識の最終結果とする、又は中間情報として次の処理に使用することができる。
【0004】
車両で音声認識を使用する際の問題の一つは、類似又は同一の発話コマンドをいろいろな機器に使用することができるということである。類似又は同一の発話コマンドを共用すると発話コマンドの曖昧さの基になる。たとえば、「locate XYZ(XYZを検索せよ)」というコマンドは、ナビゲーションの場面では特定の注目地点(POI:Point−Of−Interest)の位置検索を意味し、一方、同じコマンドがエンターテインメント・システムにおけるサウンド・トラックの特定を意味することがある。ユーザのコマンドの場面が適切に識別されなければ、ユーザが意図していない操作が、車両内の機器によって実行されることがある。
【0005】
意図しない操作及び引き続く是正措置で費やした時間が、曖昧な発話コマンドに起因して起こると、ユーザ体験が悪化し、ユーザを手動操作に後戻りさせることになる。
【発明の概要】
【課題を解決するための手段】
【0006】
本発明の実施形態では、ユーザのポーズ又はジェスチャに基づいて発話コマンドを認識するシステム又は方法を提供する。ユーザが操作の対象としている可能性がある複数の機器のうち一つ又は複数の機器が、該ユーザのポーズ又はジェスチャを表すジェスチャ情報によって選択される。ユーザが操作対象としている一つ又は複数の機器に関係付けられた複数の発話コマンドが、受信したジェスチャ情報に基づいて選択される。音声信号は、選択された複数の発話コマンドを使用して処理され、該一つ又は複数の機器を操作するための機器コマンドが決定される。
【0007】
本発明の一実施形態では、深度カメラが、少なくとも一つの深度画像を撮像するために使用される。各々の深度画像は、ユーザの少なくとも一部を含み、深度カメラから使用者の少なくとも一部までの距離を表す画素を含む。該少なくとも一つの深度画像が、ユーザのポーズ又はジェスチャを判定するために処理される。ジェスチャ情報が、認識されたポーズ又はジェスチャに基づいて生成される。
【0008】
一実施形態では、前記ユーザの少なくとも一部分には、手又はユーザの前腕が含まれる。
【0009】
一実施形態では、深度カメラは、車両内のオーバヘッド・コンソールに取り付けられ、ユーザを範囲に含む視野を有している。
【0010】
一実施形態では、前記複数の機器には、少なくとも、車両内のナビゲーション・システム及びエンターテインメント・システムが含まれる。
【0011】
一実施形態では、ジェスチャ情報は、ユーザの手又は前腕が深度カメラからの距離内、又は距離外のどちらに位置しているかを示す。第1の組の発話コマンドが、手又は前腕が該距離内に位置していることを示すジェスチャ情報に応答して選択される。第2の組の発話コマンドが手又は前腕が該距離外に位置していることを示すジェスチャ情報に応答して選択される。
【0012】
一実施形態では、第1の組の発話コマンドは、車両内でナビゲーション操作を行うことに関係づけられる。第2の組の発話コマンドは、エンターテインメント・システム、環境制御システム、又は診断システムの操作に関係づけられる。
【0013】
本明細書に記載された機能及び利点は、すべてを包括しているわけではなく、多くの追加の特徴及び利点が、当業者には、図面、明細書及び特許請求の範囲に鑑みて明らかであろう。さらに、本明細書で使用される用語は、主として理解しやすさ及び教示目的のために選択され、本発明の主題の範囲を確定、又は限定するために選択されたものではないことに留意すべきである。
【図面の簡単な説明】
【0014】
本開示の教示の容易な理解は、添付の図面と併せて以下の詳細な説明を検討することによって得られる。
図1A】一実施形態による、コマンド処理システムを搭載した車両の側面図である。
図1B】一実施形態による、図1Aの車両の上面図である。
図2】一実施形態による、コマンド処理システムのブロック図である。
図3】一実施形態による、音声認識モジュールのブロック図である。
図4】一実施形態による、注目地点の探索領域を示す概念図である。
図5】一実施形態による、カメラで撮像された深度画像に基づいて音声認識を実行する方法のフローチャートである。
【発明を実施するための形態】
【0015】
好適な実施形態について図面を参照して説明するが、類似の参照番号は、同一の又は機能的に類似の要素を示す。
【0016】
明細書中の「一つの実施形態」という呼び方は、該実施形態に関連して記載される特定の特徴、構造、又は特性が少なくとも一つの実施形態に含まれることを意味する。「一つの実施形態において」という語句が本明細書の様々な箇所で出現するが、必ずしもすべて同一の実施形態を指しているとは限らない。
【0017】
以下の詳細な説明のいくつかの部分は、コンピュータ・メモリ内のデータ・ビットに対する操作のアルゴリズム及び記号表現によって説明される。これらのアルゴリズムによる記述及び表現は、データ処理分野の当業者が最も効果的に該分野の他の当業者に業務の内容を伝えるために用いる手段である。アルゴリズムは、本明細書で及び一般的に、所望の結果を導く首尾一貫した一続きのステップ(命令)であると考えられている。該ステップは、物理量の物理的操作を必要とする。通常、必ずというわけではないが、これらの量は、電気的、磁気的、又は光学的信号の形をとり、記憶、転送、結合、比較及びその他の操作を行うことができる。これらの信号をビット、値、要素、シンボル、文字、用語、数字等として参照することは、時には、主に共通使用のために便利である。さらに、物理量の物理的な操作を必要とするステップの特定の配列を、モジュール又は符号化装置として、一般性を失うことなく参照することが便利なことがある。
【0018】
しかしながら、これらの用語及び類似の用語の全てが適切な物理量に関係付けられるべきもので、単にこれらの量に付けられる便利なラベルである。以下の説明から明らかなように別段の記載がない限り、本明細書全体を通じて、「処理」、「計算」、「演算」、「判断」、「表示」、又は「判定」等の用語を用いた説明は、コンピュータ・システム、又は同様の電子計算機器の動作及び処理を指し、該動作及び処理では、物理(電子)量として表されるデータがコンピュータ・システムのメモリ又はレジスタ又は他の情報記憶装置、伝送機器、又は表示機器の中で操作及び変換される。
【0019】
実施形態のいくつかの側面では、本明細書で説明した処理ステップ及び命令がアルゴリズムの形で含まれる場合がある。なお、該処理ステップ及び命令は、ソフトウェア、ファームウェア、又はハードウェアで実装され、ソフトウェアで実装するときには、ダウンロードして常駐させ、多様なオペレーティングシステムが用いる様々なプラットフォームから操作することができる。
【0020】
複数の実施形態は、また、本明細書における動作を実行するための機器に関する。この機器は、要求される目的のために、特別に構成することができ、又は、汎用コンピュータを有し、該コンピュータに格納されたコンピュータ・プログラムによって選択的に起動又は再構成することができる。このようなコンピュータ・プログラムは、以下のようなコンピュータ読み取り可能な記憶媒体に格納することができるが、これらに限定されない。該コンピュータ読み取り可能な記憶媒体には、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、光磁気ディスク、リード・オンリー・メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、EPROM、EEPROM、磁気又は光カード、特定用途向け集積回路(ASIC)、又は電子命令の格納に適した任意の種類の媒体、及び各々がコンピュータシステムバスに結合された媒体を含む任意のタイプのディスクがある。さらに、本明細書で言及するコンピュータは単一のプロセッサを含んでもよく、又は計算能力増強のためのマルチプロセッサ設計を用いるアーキテクチャであってもよい。
【0021】
本明細書に提示されるアルゴリズム及び表示は、本質的にどのような特定のコンピュータ又は他の機器に関連するものでもない。また、様々な汎用システムを、本明細書の教示によるプログラムと共に使用することができる、又は、必要とされる方法ステップを実行するためにより専用化した機器を構成すると便利である。これらの様々なシステムのために必要とされる構造は以下の説明から明らかになるであろう。また、複数の実施形態では、どのような特定のプログラミング言語に関する言及も記載されてはいない。様々なプログラミング言語を本明細書に記載の教示を実装するために使用できることが理解されよう。かつ、特定の言語に対する以下の言及は、実施可能化及びベスト・モードの開示のために提供される。
【0022】
また、明細書で使用される言語は、主に、読みやすさや教示目的のために選択されており、本発明の主題事項を記述又は限定するためには選択されていない。したがって、本開示は、以下の特許請求の範囲において例示的に説明することを意図しているが、特許請求の範囲を限定するものではない。
【0023】
複数の実施形態は、深度カメラから検出されたユーザの動作やジェスチャに基づき音声認識に関係づけられた適用可能な発話コマンドの選択、除外に関連している。深度カメラに対するユーザの手又は前腕の相対的な深さに応じて、発話コマンドの場面が決定され、該決定された場面に対応する一つ又は複数のコマンド辞書が選択される。次に、音声認識が、選択されたコマンド辞書を用いて音声信号に対して行われる。場面に応じたコマンド辞書を使用することによって、音声認識の精度が向上する。
【0024】
本明細書中で使用される場合、用語「ユーザ」には、車両の運転者だけでなく乗客が含まれる。ユーザは、車両内の一つ又は複数の機器を制御しようとする誰であってもよい。
【0025】
本明細書中で使用される場合、「ポーズ」は、ユーザの身体部分の配置を指す。例えば、ポーズは、ユーザの手及び前腕の他の身体部分又は基準点(例えば、カメラ)に対する相対的関係を示すことがある。
【0026】
本明細書中で使用される場合、「ジェスチャ」とは、時間の経過とともに変化する利用者の身体の部分の一連の配置を指す。例えば、ジェスチャは、ある方向を指し示す一連の腕及び手の動作を含んでもよい。
【0027】
本明細書中で使用される場合、「機器コマンド」は、機器を操作又は制御するための命令を指す。該機器コマンドは、機器によって受信され解釈されて、一つの特定の操作又は一連の操作を実行する場合がある。
【0028】
本明細書で使用される場合、「ナビゲーション操作」は、ユーザがコンピューティング機器(例えば、オンボード・テレマティックス機器)を使用して、目的地まで運転するための情報を特定、探索、選択、又は取得するための操作を指す。例えば、ナビゲーション操作には、住所又は注目地点を選択するためにユーザ入力を行い、そして、ユーザ入力を提供した結果として表示される住所又は注目地点を選択することを含むことができる。
<発話コマンドシステムを搭載した車両の概要>
【0029】
図1A及び1Bは、一実施形態による、コマンド処理システムを搭載した車両100を示す。該コマンド処理システムは、構成要素の中でも特に、中央処理部120と、オーバヘッド・コンソール部110とを含むことができる。該コマンド処理システムは、車両100の他の構成要素(例えば、ナビゲーション・システム及びエンターテインメント・システム)に接続して、さまざまな操作を実行することができる。該コマンド処理システムはユーザの動作又はジェスチャに基づいて発話コマンドを認識するが、詳細な説明が以降に、図3及び4を参照してなされる。
【0030】
中央処理部120は、音声信号を処理して、該音声信号に含まれるユーザの発話コマンドを検出する。該中央処理部120は、車室システム(例えば、ナビゲーション・システム、エンターテインメント・システム、環境制御システム、及び診断システム)等の他の構成要素に接続されている。中央処理部120は、これらの機器を、ユーザから受け取った発話コマンドに基づいて制御する。中央処理部120は、スタンドアロン機器であってもよいし、大きなシステム(例えば、テレマティックス・システム)の一部であってもよい。中央処理部120は、図2を参照して以下で詳細に説明される。
【0031】
中央処理部120は、車両100内の任意の場所に配置することができる。図1A及び1Bに示すように、中央処理部120は、車両100のセンター・コンソールに配置することができる、又は、中央処理部120は、車両100のダッシュボード内に設置してもよい。さらに、中央処理部120は、車両の天井に設置することもできる。
【0032】
オーバヘッド・コンソール部110は、車室の天井に配置されてセンサ(例えば、マイクロフォン及びカメラ)を備え、ユーザの深度画像を取得し、音声信号を検出する。これは、図2を参照して以下で詳細に説明される。オーバヘッド・コンソール部110は、ガレージ開閉装置等の様々な他の構成要素を含むことができる。オーバヘッド・コンソール部110のセンサは中央処理部120と通信して、ユーザの発話コマンドを検出するための信号を提供する。
【0033】
オーバヘッド・コンソール部110のセンサと中央処理部120との間の通信は、現在使用されている又は将来開発される任意の有線又は無線の通信媒体によって確立することができる。
<コマンド処理システムの例>
【0034】
図2は、一実施形態による、コマンド処理システム200を示すブロック図である。該コマンド処理システム200は、各種構成要素の中でも特に、プロセッサ210、出力インタフェース214、入力インタフェース218、メモリ240、及びこれらの構成要素を接続するバスを含むことができる。コマンド処理システム200は、また、深度カメラ222及びマイクロフォン260を含むことができる。深度カメラ222とマイクロフォン260は、チャネル220及び262を介して入力インタフェース218に接続される。図2には示していないが、コマンド処理システム200は、複数の深度カメラ又はマイクロフォンを含んでもよい。
【0035】
プロセッサ210は、メモリ240に格納された命令を実行し、入力インタフェース218を介して受信したセンサデータを処理する。単一のプロセッサ210のみが図2に示されているが、複数のプロセッサを使用してコマンド処理システム200の処理能力を増強することができる。
【0036】
出力インタフェース214は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせであり、他の機器に、機器コマンドを含むデータを、通信チャネルを介して送信する。該他の機器には、例えば、ナビゲーション・システム、エンターテインメント・システム、環境制御システム及び診断システムがある。該データを送信するために、出力インタフェース214は、信号をフォーマット・調整して、所定の通信プロトコルに準拠させることができる。
【0037】
入力インタフェース218は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせであり、オーバヘッド・コンソール部110からのセンサ信号を受信するためにある。該センサ信号には、チャネル220を介して受信した深度画像、及びチャネル262を介して受信した音声信号が含まれる。入力インタフェース218は、受信したセンサ信号を一時記憶し、センサ信号に対する前処理を実行して、次に、バス268を介してプロセッサ210又はメモリ240に該センサ信号を転送することができる。
【0038】
深度カメラ222は、運転者の深度画像を撮像し、該深度画像を入力インタフェース218にチャンネル220を介して送る。深度カメラ222は、飛行時間式(TOF:Time−Of−Flight)カメラ、立体視カメラ、又は他のタイプのカメラとして実現することがでる。このタイプのカメラでは、視野内の異なる地点の物体までの距離に関する情報を含む深度画像を生成することができる。立体視カメラは二つのレンズを使用して、異なる位置から画像を撮像する。取り込まれた画像は、次に、深度画像を生成するために処理される。一実施形態では、深度カメラ222はグレー・スケール画像を生成する。該グレー・スケール画像では、各画素に、深度カメラ222から該画素に対応するオブジェクト(例えば、運転者)の地点迄の距離を示す画素が含まれている。
【0039】
図1Aを参照すると、深度カメラ222はオーバヘッド・コンソール部110に設置され、車両100の運転者を見渡せる視野116を有する。深度カメラ222をオーバヘッド・コンソール部110に設置することにより、該深度カメラ222は、車両100の運転者とセンター・コンソールの視界を遮てられることなく保つことができるという利点がある。さらに、運転者の手又は腕の深度カメラ222に対する深さは、該運転者の意図する操作を表わす。これは、ジェスチャ認識モジュール252を参照して以下で詳細に説明する。
【0040】
マイクロフォン260は、音響波を感知し、該音響波をアナログ電気信号に変換する。マイクロフォン260は、アナログ電気信号をデジタル信号に変換するアナログ−デジタル(A/D)変換器を含む。変換されたデジタル信号は、入力インタフェース218にチャネル262を介して送られる。あるいは、該A/D変換器は、入力インタフェース218に含まれていてもよい。この場合、該マイクロフォン260は、アナログ電気信号を該入力インタフェース218へチャネル262を介して送り、デジタル信号への変換、そして、さらなる処理が行われる。
【0041】
メモリ240は、プロセッサ210によって実行される命令及び該命令に関連する他のデータを格納する。該メモリ240は、揮発性メモリ、不揮発性メモリ又はそれらの組み合わせとすることができる。該メモリ240には、ソフトウェア・モジュールの中でも特に、コマンド・フォーマット・モジュール244、ジェスチャ認識モジュール252、及び音声認識モジュール256を格納することができる。メモリ240は他のソフトウェア・モジュールを含むことができる。他のソフトウェア・モジュールにはオペレーティング・システム等があるが、その説明は簡明にする為に本明細書では省略する。
【0042】
ジェスチャ認識モジュール252は、運転者のジェスチャ又は動作を深度カメラ222で撮像した深度画像に基づいて検出する。一実施形態では、ジェスチャ認識モジュール252は、手や前腕の位置及び/又は動作を検出し、発話コマンドの場面を決定する。一実施形態では、ジェスチャ認識モジュール252は、深度カメラ222に対する運転者の手又は前腕の相対的位置を決定する。例えば、運転者の手又は前腕が深度カメラ222に近い場合(すなわち、深度カメラ222から手又は前腕迄の距離が閾値未満である場合)、該運転者がナビゲーション操作に関係付けられた動作又はジェスチャをしている(例えば、窓の外の方に向けて指を指す)可能性がある。逆に、運転者の手や前腕が深度カメラ222から離れている(すなわち、深度カメラ222から手又は前腕迄の距離が閾値にあるか又は閾値以上である)場合、該運転者がとる可能性が高い行動又はジェスチャは、他の制御機能、通常、センター・コンソールに設けられた機能(例えば、エンターテインメント・システム及び環境制御システムの操作)に関係づけられたものである可能性がある。
【0043】
ジェスチャ認識モジュール252は、深度画像内の画素のグループをクラスタ化して、時間の経過とともにこれらのグループの位置を追跡し、運転者の動作やジェスチャを決定するコンピューティング・アルゴリズムを使用することができる。画素は、画素の二次元距離の近接度及び画素間の深度差に基づいてグループにクラスタリングされる。ジェスチャ認識モジュール252は、また、人体のモデルを記憶し、該記憶されたモデルに画素のグループをマッッピングして、手又は前腕の位置を正確に検出し追跡することができる。
【0044】
一実施形態では、ジェスチャ認識モジュール252は、さらに、運転者の手の位置をより高い分解能で検出して、運転者の操作に関係付けられている機器を決定することができる。車両のセンター・コンソールでエンターテインメント・システムを操作するためのスイッチやノブがセンター・コンソールの中央にあり、環境制御システムのためのスイッチが両側にある場合には、運転者の手の位置がセンター・コンソール中央周辺にあることは、該運転者がエンターテインメント・システムの操作に従事していることを示している。運転者の手が、センター・コンソール中央部よりもセンター・コンソール側方に近い場合、該運転者は環境制御システムの操作に従事している可能性が高い。したがって、コマンド処理システム200は、発話コマンドが運転者によって発行された時の手の詳細な位置に関するジェスチャ情報を使用して、発話コマンドに関係付けられた機器を決定することができる。
【0045】
音声認識モジュール256は、運転者が発行した発話コマンドを決定する。発話コマンドを決定するために、音声認識モジュール256は、ジェスチャ認識モジュール252から運転者のジェスチャに関するジェスチャ情報を受信する。この様子は、図3を参照して詳細に説明される。
【0046】
コマンド・フォーマット・モジュール244は、音声認識モジュール256で検出された発話コマンドを、車両100に搭載されている各機器を操作するための機器コマンドに変換する。車両100に搭載された各機器は、異なるフォーマットでコマンドが提供されることが必要な場合がある。したがって、コマンド・フォーマット・モジュール244は、前記コマンドを各機器が処理可能な形式に変換する。さらに、コマンド・フォーマット・モジュール244は、発行された発話コマンドが不明確、曖昧、又は不十分な場合には、運転者にさらに情報を要求することができる。このような追加情報の要求は、スピーカーを通して行ってもよい。コマンド・フォーマット・モジュール244は、また、ジェスチャ認識モジュール252からの情報を組み合わせて機器コマンドを生成することができる。これは、図4を参照して以下で詳細に説明される。
【0047】
コマンド・フォーマット・モジュール244、ジェスチャ認識モジュール252、及び音声認識モジュール256は、同じメモリ240に格納される必要はない。例えば、ジェスチャ認識モジュール252は、オーバヘッド・コンソール部のメモリに格納してよく、一方、音声認識モジュール256とコマンド・フォーマット・モジュール244は、センター・コンソール部のメモリに格納してもよい。さらに、これらのモジュールのうちの一つ又は複数は、専用のハードウェア構成要素として実現することができる。
<音声認識モジュールのアーキテクチャ例>
【0048】
図3は、一実施形態による、音声認識モジュール256の構成要素を示すブロック図である。音声認識モジュール256は、各種構成要素の中でも特に、ジェスチャ認識インタフェース312、コマンド抽出モジュール316、及びコマンド辞書320を含むことができる。音声認識モジュール256は、また、他のモジュール、例えば、ユーザによって以前に発行された発話コマンドのリストを保持する履歴管理モジュール等を含むことができる。
【0049】
ジェスチャ認識インタフェース312は、音声認識モジュール256がジェスチャ認識モジュール252と通信することを可能にする。一実施形態では、ジェスチャ認識モジュール252からジェスチャ認識インタフェース312を介して受信されたジェスチャ情報は、運転者の手又は前腕の位置を示す。
【0050】
コマンド辞書320には、車両100の様々な機器に関係づけられたコマンドが含まれる。コマンド辞書320には、複数の辞書320Aから320Nを含み、各辞書は該車両100の機器やシステムに関係づけられている。例えば、辞書320Aにはナビゲーション・システムの操作に関係づけられたコマンド、辞書320Bにはエンターテインメント・システムの操作に関係づけられたコマンド、そして、辞書320Cには環境制御システムに関係づけられたコマンドが記憶される。
【0051】
コマンド抽出モジュール316は、前記ジェスチャ・データに基づいて前記音声信号に含まれる発話コマンドを抽出し、選択したコマンド辞書320に格納されたコマンドを抽出する。ジェスチャ情報が受信された後、コマンド抽出モジュール316は、一つ又は複数の辞書を選択する。この選択は、前記ジェスチャ情報によって示されるようなユーザの手又は前腕の位置に基づいて行われる。該ジェスチャ・データが、ユーザの手又は前腕が特定のポーズにあることを示す場合には、運転者の手又は前腕の近傍の機器に関係付けられた辞書がコマンド抽出のために選択される。例えば、ユーザの手がエンターテインメント・システムから一定の距離内にある場合、該エンターテインメント・システムに関係付けられた辞書(例えば、辞書320B)がコマンド抽出のために選択される。
【0052】
逆に、発話コマンドが発せられた時点で、運転者の手や前腕がこれらの機器から離れていて、一定のレベルより上に上がっている(すなわち、ダッシュボードの上に上がっている)場合、コマンド抽出モジュール316は、該発話コマンドがナビゲーション・システムと関係づけられていると決定する。したがって、コマンド抽出モジュール316は、ナビゲーション操作に関係付けられた辞書(例えば、辞書320A)を選択して使用し、音声認識を実行する。
【0053】
一実施形態では、コマンド抽出モジュール316によって認識された発話コマンドを、ジェスチャ情報と結合して、ナビゲーション・コマンドをコマンド・フォーマット・モジュール244で生成する。ジェスチャ情報は、例えば、運転者の指の向きを示していることがある。これは、図4を参照して以下で詳細に説明される。
【0054】
コマンド抽出モジュール316は、複数の辞書を使用して発話コマンドを抽出することができる。ユーザの手がセンター・コンソールの周りにおかれている場合、センター・コンソールで操作することができる任意の機器(例えば、エンターテイメント・システム又は環境制御システム)に関係づけられた辞書を選択することができる。
【0055】
一実施形態では、コマンド抽出モジュール316は、ユーザの手や前腕の位置に基づく確率重みをコマンドへ割り当てる。該コマンド抽出モジュール316は、連続して現れる音素に基づいて発話コマンドの確率を計算する統計モデルを使用する。該統計モデルは、運転者が意図する可能性が最も高いコマンドを決定する際に、手又は前腕の位置を考慮するパラメータを含むことができる。
【0056】
図3の音声認識モジュール256は、単なる例示である。種々の改変を、音声認識モジュール256に加えることができる。例えば、複数の辞書を持つ代わりに、コマンド辞書320は複数のコマンドの各々を一つ又は複数の機器にマッピングしてもよい。
<ジェスチャ及び発話コマンドを使用して注目地点を検出する例>
【0057】
手のジェスチャと音声コマンドの組み合わせを使用することにより、ユーザは、容易に注目地点又は目的地を区別することができる。注目地点又は目的地を指差しながら、該ユーザは、ナビゲーション・システムに注目地点の識別及び/又は設定を要求するコマンドを発声することができる。コマンド・フォーマット・モジュール244は、音声から認識されたコマンド、及び、ジェスチャ情報から抽出されたパラメータを組み合わせて、ナビゲーション・コマンドを生成することができる。
【0058】
図4は、一実施形態による、注目地点に対応する探索領域を示す概念図である。図4では、運転者は、建物410まで運転するか、又は建物410の名前又は住所を認識したいという要求を持っている。該運転者は、発話コマンド「その建物を特定する」と発声すると同時に、建物410に向かって指を指している。様々な不正確さのため、ジェスチャ認識モジュール252は、運転者がO−Aの方向(破線で示す方向)を指していると検出する可能性がある。
【0059】
これに応答して、音声認識モジュール256は、ユーザの腕と前腕が上がっていることを示すジェスチャ情報をジェスチャ認識モジュール252から受信する。音声認識モジュール256は、発話コマンドがナビゲーション・システムに関係付けられていると決定し(手と前腕が上がっているので)、そして、ナビゲーション・システムに関係付けられた辞書を使用して該発話コマンドを認識する。音声認識モジュール256は、認識した発話コマンドをコマンド・フォーマット・モジュール244に送信する。
【0060】
コマンド・フォーマット・モジュール244は、前記発話コマンドを受信して、該発話コマンドを解析し、前記の語句「その建物」をさらに明確化する必要があると判断する。コマンド・フォーマット・モジュール244は、ジェスチャ情報を分析し、該ユーザの指の方向(直線O−Aで示される)を示すジェスチャ情報にパラメータを使用して機器コマンドを生成する。該機器コマンドは、直線O−Aの方向に何らかの注目地点を特定するようにナビゲーション・システムに要求する。前記パラメータは、例えば、車両100の前方方向に対する角度Θであってもよい。
【0061】
前記ナビゲーション・システムは、前記機器コマンドを受信し、O−B−C−Oで示される探索用円錐を設定する。探索用円錐は、検索半径(例えば、10マイル(16.1km))を示すRに等しい高さと、円錐角2αを有する。円錐角2αは増加させることができ、検索範囲を広げるか、又は、誤差の許容範囲の拡大を可能にする。該ナビゲーション・システムは、探索用円錐によって特定される探索領域内の探索を行うが、その際、車速と車両の移動方向を考慮して探索する。一実施形態では、該車両に近い注目点に優先権が与えられる。一実施形態では、該ナビゲーション・システムは、探索領域内に存在する注目地点のリストをユーザに提示する。次に、該ユーザは、該探索リストから自分の注目地点を示し、さらなるアクション(例えば、該注目地点まで運転する、又は該注目地点に電話をかける等)を要求することができる。
<ジェスチャ・データに基づいて発話コマンドを認識する方法の例>
【0062】
図5は、一実施形態による、運転者の動作又はジェスチャに基づいて発話コマンドを認識する方法を示すフローチャートである。コマンド処理システム200は、深度カメラ222を用いて深度画像を生成する(ステップ506)。該生成された深度画像を用いて、コマンド処理システム200はユーザのジェスチャ情報を生成する(ステップ510)。該ジェスチャ情報は、特に、深度カメラ222に対するユーザの手や前腕の位置を示すことができる。
【0063】
前記ジェスチャ情報に基づいて、コマンド処理システム200は、発話コマンドを認識するための一つ又は複数の辞書を選択する(ステップ514)。各辞書には、車両100の特定のシステム又は機器に対するコマンドを含むことができる。
【0064】
コマンド処理システム200は、また、マイクロフォン260で受信された音響信号に基づいて、運転者の発話を表すデジタル音声信号を生成する。
【0065】
該当する一つ又は複数の辞書を選択した後、コマンド処理システム200は、一つ又は複数の選択された辞書を使用して、前記生成された音声信号に対して音声認識を実行する(ステップ518)。適用できる発話コマンドを、発話コマンドが話されている時のユーザのポーズ又はジェスチャを表すジェスチャ情報に基づいて取捨選択することにより、音声認識の精度を高めることができる。
【0066】
前記発話コマンドが生成された後、コマンド処理システム200は、該発話コマンドを機器コマンドに変換することによって、該発話コマンドに対応する機器コマンドを生成する(ステップ522)。必要に応じて、コマンド処理システム200は、該機器コマンドを生成するための情報を、追加、変更、又は要求することができる。
【0067】
図5に示すプロセスとその順序は、単なる例示である。種々の改変をプロセス及び/又は順序に対して加えることができる。例えば、発話コマンドの候補の組を生成するために、音声認識のステップ518を実行してもよい。次に、最終的な発話コマンドを、運転者のジェスチャの判定処理(ステップ510)に基づいて、発話コマンドの候補の組から選択することができる。また、一つ又は複数のプロセスを並列に実行してもよい。例えば、深度カメラ222で深度画像を生成するステップ506は、音声信号を生成するステップ516と並行して実行してもよい。
<代替えの実施形態>
【0068】
一つ又は複数の実施形態において、一つ又は複数のカメラを使用してジェスチャ検出精度を高めることができる。該カメラは、カラー画像を取り込んでもよい。カラー画像では、運転者の手を表す肌のトーンを検出することができる。カラー画像を深度画像と相関させることにより、手又は前腕の位置をより正確に検出することができる。さらに、2台以上のカメラを車両100の天井又はその他の種々の位置に配置して、一台の深度カメラで撮像された深度画像を補完又は代用することができる。
【0069】
一つ又は複数の実施形態において、コマンド処理システム200の一つ又は複数の構成要素は遠隔サーバによって実装することができ、該遠隔サーバは、車両100に搭載されたコマンド処理システム200と通信することができる。例えば、音声認識モジュール256は、該車両100に搭載されたコマンド処理システム200と無線で通信する遠隔サーバに実装してもよい。
【0070】
一つ又は複数の実施形態において、コマンド処理システム200は、車両以外の輸送装置において使用される。該コマンド処理システム200は、例えば、航空機やオートバイで使用することができる。
【0071】
いくつかの実施形態をこれまで説明してきたが、種々の改変を、本開示の範囲内で行うことができる。従って、本発明の開示は、以下の特許請求の範囲に記載されている発明の範囲を例示することを意図しているが、発明の範囲を限定するものではない。
図1A
図1B
図2
図3
図4
図5