特許6010692 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ エッジ・スリー　テクノロジーズ　エルエルシーの特許一覧

特許6010692発話コマンド認識方法及び発話コマンド認識処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6010692

(24)【登録日】2016年9月23日

(45)【発行日】2016年10月19日

(54)【発明の名称】発話コマンド認識方法及び発話コマンド認識処理システム

(51)【国際特許分類】

G10L 15/24 20130101AFI20161006BHJP

G10L 15/22 20060101ALI20161006BHJP

G10L 15/00 20130101ALI20161006BHJP

G06F 3/16 20060101ALI20161006BHJP

G06T 7/20 20060101ALI20161006BHJP

【ＦＩ】

G10L15/24 Q

G10L15/22 200V

G10L15/00 200Q

G06F3/16 650

G06T7/20 300A

【請求項の数】18

【全頁数】16

(21)【出願番号】特願2015-517255(P2015-517255)

(86)(22)【出願日】2013年4月15日

(65)【公表番号】特表2015-526753(P2015-526753A)

(43)【公表日】2015年9月10日

(86)【国際出願番号】US2013036654

(87)【国際公開番号】WO2013188002

(87)【国際公開日】20131219

【審査請求日】2015年7月24日

(31)【優先権主張番号】13/524,351

(32)【優先日】2012年6月15日

(33)【優先権主張国】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(73)【特許権者】

【識別番号】514320027

【氏名又は名称】エッジ・スリーテクノロジーズエルエルシー

(74)【代理人】

【識別番号】110001807

【氏名又は名称】特許業務法人磯野国際特許商標事務所

(72)【発明者】

【氏名】ドコール、タレック、エル

(72)【発明者】

【氏名】ホームズ、ジェイムス

(72)【発明者】

【氏名】クラスター、ジョーダン

(72)【発明者】

【氏名】ヤマモト、ステュアート

(72)【発明者】

【氏名】バゲフィナザリペドラム

【審査官】安田勇太

(56)【参考文献】

【文献】特開２００７−１２１５７６（ＪＰ，Ａ）

【文献】特開２００７−２３７７８５（ＪＰ，Ａ）

【文献】特開２００８−１４５６７６（ＪＰ，Ａ）

【文献】特開２００９−０２５７１５（ＪＰ，Ａ）

【文献】特開２００８−０４５９６２（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００ −１５／３４

Ｇ０６Ｆ３／１６

Ｇ０６Ｔ７／２０

(57)【特許請求の範囲】

【請求項1】

深度画像の少なくとも一つを車両内に配置した深度カメラによって撮像するステップであって、深度画像の各々がユーザの少なくとも一部を含み、かつ該深度カメラから該ユーザの該少なくとも一部までの距離を表す画素を有するステップと、
該深度画像の少なくとも一つを撮像している時に該ユーザによって発せられた発話を含む音声信号を受信するステップと、
撮像された深度画像に基づいて該ユーザのポーズ又はジェスチャを認識するステップと、
該認識されたポーズ又はジェスチャに基づいてジェスチャ情報を生成するステップであって、該ジェスチャ情報は、該ユーザが指し示す方向であって、該車両から該車両の外にある注目点の方に向かう方向を示すステップと、
該ジェスチャ情報を分析することにより、かつ、該ユーザによって発せられた前記発話を含む前記音声信号に対して会話認識を行わずに、該ユーザが操作の対象としている可能性が高い一つ又は複数の機器を複数の機器の中から決定するステップと、
該操作の対象としている可能性が高いとして決定された該一つ又は複数の機器に関係づけられた複数の発話コマンドの候補を含む辞書を選択するステップと、
該選択された辞書に含まれる複数の発話コマンドの候補の中から、前記音声信号に基づいて、一つの発話コマンドを抽出することにより、該音声信号の音声認識を行うステップと、
該抽出された発話コマンドを、前記操作の対象としている可能性が高い一つ又は複数の機器を操作するための、前記注目点に関係づけられた動作を示す機器コマンドに変換するステップと、
を含むことを特徴とする、発話コマンドを認識するためのコンピュータによって実行される方法。

【請求項2】

前記ユーザの前記少なくとも一部は、該ユーザの手又は前腕を含むこと、
を特徴とする請求項１に記載の方法。

【請求項3】

前記深度カメラは、前記車両内のオーバヘッド・コンソールに取り付けられ、該深度カメラから前記ユーザを見渡せること、
を特徴とする請求項１に記載の方法。

【請求項4】

前記複数の機器は、前記車両内における少なくともナビゲーション・システム及びエンターテインメント・システムを含むこと、
を特徴とする請求項１に記載の方法。

【請求項5】

前記ジェスチャ情報は、前記ユーザの手又は前腕が前記深度カメラからの一定の距離内に位置するか、又は該深度カメラから該距離を超えた位置にあるかのどちらであるかを示し、
該手又は前腕が該距離内に位置していることを示す該ジェスチャ情報を、該ユーザが指し示す方向であって該車両から該車両の外にある注目点の方に向かう方向を示すジェスチャ情報として、該ジェスチャ情報に応答して第１の組の発話コマンドが選択され、かつ、
該手又は前腕が該距離を超えた位置にあることを示す該ジェスチャ情報に応答して第２の組の発話コマンドが選択されること、
を特徴とする請求項１に記載の方法。

【請求項6】

前記第１の組の発話コマンドは、前記車両内でのナビゲーション操作の実行に関係づけられていること、
を特徴とする請求項５に記載の方法。

【請求項7】

前記第１の組の発話コマンドは、前記ナビゲーション操作のために前記注目地点を特定又は設定するためのコマンドを含むこと、
を特徴とする請求項６に記載の方法。

【請求項8】

前記第２の組の発話コマンドは、エンターテインメント・システム、環境制御システム、又は診断システムの操作に関係付けられていること、
を特徴とする請求項６に記載の方法。

【請求項9】

車両内に配置されて深度画像の少なくとも一つを撮像するように構成された深度カメラであって、深度画像の各々がユーザの少なくとも一部を含み、かつ該深度カメラから該ユーザの該少なくとも一部までの距離を表す画素を有する、深度カメラと、
該深度カメラに接続されて、撮像された深度画像に基づいて該ユーザのポーズ又はジェスチャを認識して、該認識されたポーズ又はジェスチャに基づいてジェスチャ情報を生成するように構成されたジェスチャ認識モジュールであって、該ジェスチャ情報は、該ユーザが指し示す方向であって、該車両から該車両の外にある注目点の方に向かう方向を示すジェスチャ認識モジュールと、
コマンド抽出モジュールであって、
前記深度カメラが前記深度画像の少なくとも一つを撮像している間に該ユーザによって発せられた発話を含む音声信号を受信するステップと、
前記ジェスチャ情報を分析することにより、かつ、該ユーザによって発せられた前記発話を含む前記音声信号に対して会話認識を行うことなく、該ユーザが操作の対象としている可能性が高い一つ又は複数の機器を複数の機器の中から決定するステップと、
該操作の対象としている可能性が高いと決定された該一つ又は複数の機器に関係づけられた複数の発話コマンドの候補を含む辞書を選択するステップと、
該選択された辞書に含まれる複数の発話コマンドの候補の中から、前記音声信号に基づいて、一つの発話コマンドを抽出することにより、該音声信号の音声認識を行うステップと、
該抽出された発話コマンドを、前記操作の対象としている可能性が高い該一つ又は複数の機器を操作するための、前記注目点に関係づけられた動作を示す機器コマンドに変換するステップと、
を実行するように構成されたコマンド抽出モジュールと、
を含むことを特徴とする、発話コマンドを認識するためのコマンド処理システム。

【請求項10】

前記ユーザの前記少なくとも一部は、該ユーザの手又は前腕を含むこと、
を特徴とする請求項９に記載のコマンド処理システム。

【請求項11】

前記深度カメラは、前記車両内の前記ユーザを見渡せるオーバヘッド・コンソールに取り付けられていること、
を特徴とする請求項９に記載のコマンド処理システム。

【請求項12】

前記深度カメラは、撮像した処理用の画像を少なくとも一つの深度画像に組み入れる立体視カメラを含むこと、
を特徴とする請求項１１に記載のコマンド処理システム。

【請求項13】

前記複数の機器は、前記車両内に少なくともナビゲーション・システム及びエンターテインメント・システムを含むこと、
を特徴とする請求項９に記載のコマンド処理システム。

【請求項14】

前記ジェスチャ情報は、前記ユーザの手又は前腕が前記深度カメラからの一定の距離内に位置するか、又は該深度カメラから該距離を超えた位置にあるかのどちらであるかを示し、
前記コマンド抽出モジュールは、該手又は前腕が該距離内に位置していることを示す該ジェスチャ情報を、該ユーザが指し示す方向であって該車両から該車両の外にある注目点の方に向かう方向を示すジェスチャ情報として、該ジェスチャ情報に応答して第１の組の発話コマンドを選択し、かつ、該手又は前腕が該距離を超えた位置にあることを示す該ジェスチャ情報に応答して第２の組の発話コマンドを選択すること、
を特徴とする請求項９に記載のコマンド処理システム。

【請求項15】

前記第１の組の発話コマンドは、前記車両内でのナビゲーション操作の実行に関係づけられていること、
を特徴とする請求項１４に記載のコマンド処理システム。

【請求項16】

前記第１の組の発話コマンドは、前記ナビゲーション操作のための前記注目地点を特定又は設定するためのコマンドを含むこと、
を特徴とする請求項１５に記載のコマンド処理システム。

【請求項17】

前記第２の組の発話コマンドは、エンターテインメント・システム、環境制御システム、又は診断システムの操作に関係付けられていること、
を特徴とする請求項１６に記載のコマンド処理システム。

【請求項18】

深度画像の少なくとも一つを車両内に配置した深度カメラによって撮像するステップであって、深度画像の各々がユーザの少なくとも一部を含み、かつ該深度カメラから該ユーザの該少なくとも一部までの距離を表す画素を有する、ステップと、
該深度画像の少なくとも一つを撮像している間に該ユーザによって発せられた発話を含む音声信号を受信するステップと、
撮像された深度画像に基づいて該ユーザのポーズ又はジェスチャを認識するステップと、
該認識されたポーズ又はジェスチャに基づいてジェスチャ情報を生成するステップであって、該ジェスチャ情報は、該ユーザが指し示す方向であって、該車両から該車両の外にある注目点の方に向かう方向を示すステップと、
該ジェスチャ情報を分析することにより、かつ、該ユーザによって発せられた発話を含む音声信号に対して会話認識を行うことなく、該ユーザが操作の対象としている可能性が高い一つ又は複数の機器を複数の機器の中から決定するステップと、
該操作の対象としている可能性が高いとして決定された該一つ又は複数の機器に関係づけられた複数の発話コマンドの候補を含む辞書を選択するステップと、
該選択された辞書に含まれる複数の発話コマンドの候補の中から、前記音声信号に基づいて、一つの発話コマンドを抽出することにより、該音声信号の音声認識を行うステップと、
該抽出された発話コマンドを、前記操作の対象としている可能性が高い一つ又は複数の機器を操作するための、前記注目点に関係づけられた動作を示す機器コマンドに変換するステップと、
を含む、発話コマンドを認識する方法をコンピュータに実行させるためのプログラムを格納した非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識の精度を高めるためにポーズ又はジェスチャの情報を使用して音声コマンドを認識する技術に関する。

【背景技術】

【0002】

車両の運転者や乗客は、通常、指や手を使用して、スイッチ、スクリーン、キーパッド、又は他の入力機構を用いて車両内のさまざまな機器を操作する。このような入力機構は、例えば、ナビゲーション・システム、エンターテインメント・システム、環境システム又は電話システムを操作するために使用することができる。時には、複雑な一連の操作を該入力機構に対して行い、所望のコマンドを機器に発行する必要がある。しかしながら、望ましいことは、運転者がハンドルに両手をおいたまま、これらの入力機器を片手で断続的に短時間に操作することである。操作の複雑さによっては、何度か試行を繰り返して入力機器を操作し、その末に所望の操作が実行可能になることもあり得る。

【0003】

したがって、運転者の手の使用をより少なくする操作形態を用いる方が有利である。このような操作の一つの形態は音声認識である。音声認識は、音響信号を音声要素（例えば、音素、単語や文章）に変換するプロセスである。音声認識の応用は、電話から車両操作まで様々な分野に渡っている。音声認識システムでは、音声信号が入力装置（例えば、マイクロホン）によって収集され、デジタル信号に変換された後、一つ又は複数のアルゴリズムを用いて処理され音声信号に含まれる音声要素を出力する。応用分野によっては、認識された音声要素を音声認識の最終結果とする、又は中間情報として次の処理に使用することができる。

【0004】

車両で音声認識を使用する際の問題の一つは、類似又は同一の発話コマンドをいろいろな機器に使用することができるということである。類似又は同一の発話コマンドを共用すると発話コマンドの曖昧さの基になる。たとえば、「ｌｏｃａｔｅＸＹＺ（ＸＹＺを検索せよ）」というコマンドは、ナビゲーションの場面では特定の注目地点（ＰＯＩ：Ｐｏｉｎｔ−Ｏｆ−Ｉｎｔｅｒｅｓｔ）の位置検索を意味し、一方、同じコマンドがエンターテインメント・システムにおけるサウンド・トラックの特定を意味することがある。ユーザのコマンドの場面が適切に識別されなければ、ユーザが意図していない操作が、車両内の機器によって実行されることがある。

【0005】

意図しない操作及び引き続く是正措置で費やした時間が、曖昧な発話コマンドに起因して起こると、ユーザ体験が悪化し、ユーザを手動操作に後戻りさせることになる。

【発明の概要】

【課題を解決するための手段】

【0006】

本発明の実施形態では、ユーザのポーズ又はジェスチャに基づいて発話コマンドを認識するシステム又は方法を提供する。ユーザが操作の対象としている可能性がある複数の機器のうち一つ又は複数の機器が、該ユーザのポーズ又はジェスチャを表すジェスチャ情報によって選択される。ユーザが操作対象としている一つ又は複数の機器に関係付けられた複数の発話コマンドが、受信したジェスチャ情報に基づいて選択される。音声信号は、選択された複数の発話コマンドを使用して処理され、該一つ又は複数の機器を操作するための機器コマンドが決定される。

【0007】

本発明の一実施形態では、深度カメラが、少なくとも一つの深度画像を撮像するために使用される。各々の深度画像は、ユーザの少なくとも一部を含み、深度カメラから使用者の少なくとも一部までの距離を表す画素を含む。該少なくとも一つの深度画像が、ユーザのポーズ又はジェスチャを判定するために処理される。ジェスチャ情報が、認識されたポーズ又はジェスチャに基づいて生成される。

【0008】

一実施形態では、前記ユーザの少なくとも一部分には、手又はユーザの前腕が含まれる。

【0009】

一実施形態では、深度カメラは、車両内のオーバヘッド・コンソールに取り付けられ、ユーザを範囲に含む視野を有している。

【0010】

一実施形態では、前記複数の機器には、少なくとも、車両内のナビゲーション・システム及びエンターテインメント・システムが含まれる。

【0011】

一実施形態では、ジェスチャ情報は、ユーザの手又は前腕が深度カメラからの距離内、又は距離外のどちらに位置しているかを示す。第１の組の発話コマンドが、手又は前腕が該距離内に位置していることを示すジェスチャ情報に応答して選択される。第２の組の発話コマンドが手又は前腕が該距離外に位置していることを示すジェスチャ情報に応答して選択される。

【0012】

一実施形態では、第１の組の発話コマンドは、車両内でナビゲーション操作を行うことに関係づけられる。第２の組の発話コマンドは、エンターテインメント・システム、環境制御システム、又は診断システムの操作に関係づけられる。

【0013】

本明細書に記載された機能及び利点は、すべてを包括しているわけではなく、多くの追加の特徴及び利点が、当業者には、図面、明細書及び特許請求の範囲に鑑みて明らかであろう。さらに、本明細書で使用される用語は、主として理解しやすさ及び教示目的のために選択され、本発明の主題の範囲を確定、又は限定するために選択されたものではないことに留意すべきである。

【図面の簡単な説明】

【0014】

本開示の教示の容易な理解は、添付の図面と併せて以下の詳細な説明を検討することによって得られる。

【図1A】一実施形態による、コマンド処理システムを搭載した車両の側面図である。

【図1B】一実施形態による、図１Ａの車両の上面図である。

【図2】一実施形態による、コマンド処理システムのブロック図である。

【図3】一実施形態による、音声認識モジュールのブロック図である。

【図4】一実施形態による、注目地点の探索領域を示す概念図である。

【図5】一実施形態による、カメラで撮像された深度画像に基づいて音声認識を実行する方法のフローチャートである。

【発明を実施するための形態】

【0015】

好適な実施形態について図面を参照して説明するが、類似の参照番号は、同一の又は機能的に類似の要素を示す。

【0016】

明細書中の「一つの実施形態」という呼び方は、該実施形態に関連して記載される特定の特徴、構造、又は特性が少なくとも一つの実施形態に含まれることを意味する。「一つの実施形態において」という語句が本明細書の様々な箇所で出現するが、必ずしもすべて同一の実施形態を指しているとは限らない。

【0017】

以下の詳細な説明のいくつかの部分は、コンピュータ・メモリ内のデータ・ビットに対する操作のアルゴリズム及び記号表現によって説明される。これらのアルゴリズムによる記述及び表現は、データ処理分野の当業者が最も効果的に該分野の他の当業者に業務の内容を伝えるために用いる手段である。アルゴリズムは、本明細書で及び一般的に、所望の結果を導く首尾一貫した一続きのステップ（命令）であると考えられている。該ステップは、物理量の物理的操作を必要とする。通常、必ずというわけではないが、これらの量は、電気的、磁気的、又は光学的信号の形をとり、記憶、転送、結合、比較及びその他の操作を行うことができる。これらの信号をビット、値、要素、シンボル、文字、用語、数字等として参照することは、時には、主に共通使用のために便利である。さらに、物理量の物理的な操作を必要とするステップの特定の配列を、モジュール又は符号化装置として、一般性を失うことなく参照することが便利なことがある。

【0018】

しかしながら、これらの用語及び類似の用語の全てが適切な物理量に関係付けられるべきもので、単にこれらの量に付けられる便利なラベルである。以下の説明から明らかなように別段の記載がない限り、本明細書全体を通じて、「処理」、「計算」、「演算」、「判断」、「表示」、又は「判定」等の用語を用いた説明は、コンピュータ・システム、又は同様の電子計算機器の動作及び処理を指し、該動作及び処理では、物理（電子）量として表されるデータがコンピュータ・システムのメモリ又はレジスタ又は他の情報記憶装置、伝送機器、又は表示機器の中で操作及び変換される。

【0019】

実施形態のいくつかの側面では、本明細書で説明した処理ステップ及び命令がアルゴリズムの形で含まれる場合がある。なお、該処理ステップ及び命令は、ソフトウェア、ファームウェア、又はハードウェアで実装され、ソフトウェアで実装するときには、ダウンロードして常駐させ、多様なオペレーティングシステムが用いる様々なプラットフォームから操作することができる。

【0020】

複数の実施形態は、また、本明細書における動作を実行するための機器に関する。この機器は、要求される目的のために、特別に構成することができ、又は、汎用コンピュータを有し、該コンピュータに格納されたコンピュータ・プログラムによって選択的に起動又は再構成することができる。このようなコンピュータ・プログラムは、以下のようなコンピュータ読み取り可能な記憶媒体に格納することができるが、これらに限定されない。該コンピュータ読み取り可能な記憶媒体には、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、光磁気ディスク、リード・オンリー・メモリ（ＲＯＭ）、ランダム・アクセス・メモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気又は光カード、特定用途向け集積回路（ＡＳＩＣ）、又は電子命令の格納に適した任意の種類の媒体、及び各々がコンピュータシステムバスに結合された媒体を含む任意のタイプのディスクがある。さらに、本明細書で言及するコンピュータは単一のプロセッサを含んでもよく、又は計算能力増強のためのマルチプロセッサ設計を用いるアーキテクチャであってもよい。

【0021】

本明細書に提示されるアルゴリズム及び表示は、本質的にどのような特定のコンピュータ又は他の機器に関連するものでもない。また、様々な汎用システムを、本明細書の教示によるプログラムと共に使用することができる、又は、必要とされる方法ステップを実行するためにより専用化した機器を構成すると便利である。これらの様々なシステムのために必要とされる構造は以下の説明から明らかになるであろう。また、複数の実施形態では、どのような特定のプログラミング言語に関する言及も記載されてはいない。様々なプログラミング言語を本明細書に記載の教示を実装するために使用できることが理解されよう。かつ、特定の言語に対する以下の言及は、実施可能化及びベスト・モードの開示のために提供される。

【0022】

また、明細書で使用される言語は、主に、読みやすさや教示目的のために選択されており、本発明の主題事項を記述又は限定するためには選択されていない。したがって、本開示は、以下の特許請求の範囲において例示的に説明することを意図しているが、特許請求の範囲を限定するものではない。

【0023】

複数の実施形態は、深度カメラから検出されたユーザの動作やジェスチャに基づき音声認識に関係づけられた適用可能な発話コマンドの選択、除外に関連している。深度カメラに対するユーザの手又は前腕の相対的な深さに応じて、発話コマンドの場面が決定され、該決定された場面に対応する一つ又は複数のコマンド辞書が選択される。次に、音声認識が、選択されたコマンド辞書を用いて音声信号に対して行われる。場面に応じたコマンド辞書を使用することによって、音声認識の精度が向上する。

【0024】

本明細書中で使用される場合、用語「ユーザ」には、車両の運転者だけでなく乗客が含まれる。ユーザは、車両内の一つ又は複数の機器を制御しようとする誰であってもよい。

【0025】

本明細書中で使用される場合、「ポーズ」は、ユーザの身体部分の配置を指す。例えば、ポーズは、ユーザの手及び前腕の他の身体部分又は基準点（例えば、カメラ）に対する相対的関係を示すことがある。

【0026】

本明細書中で使用される場合、「ジェスチャ」とは、時間の経過とともに変化する利用者の身体の部分の一連の配置を指す。例えば、ジェスチャは、ある方向を指し示す一連の腕及び手の動作を含んでもよい。

【0027】

本明細書中で使用される場合、「機器コマンド」は、機器を操作又は制御するための命令を指す。該機器コマンドは、機器によって受信され解釈されて、一つの特定の操作又は一連の操作を実行する場合がある。

【0028】

本明細書で使用される場合、「ナビゲーション操作」は、ユーザがコンピューティング機器（例えば、オンボード・テレマティックス機器）を使用して、目的地まで運転するための情報を特定、探索、選択、又は取得するための操作を指す。例えば、ナビゲーション操作には、住所又は注目地点を選択するためにユーザ入力を行い、そして、ユーザ入力を提供した結果として表示される住所又は注目地点を選択することを含むことができる。
＜発話コマンドシステムを搭載した車両の概要＞

【0029】

図１Ａ及び１Ｂは、一実施形態による、コマンド処理システムを搭載した車両１００を示す。該コマンド処理システムは、構成要素の中でも特に、中央処理部１２０と、オーバヘッド・コンソール部１１０とを含むことができる。該コマンド処理システムは、車両１００の他の構成要素（例えば、ナビゲーション・システム及びエンターテインメント・システム）に接続して、さまざまな操作を実行することができる。該コマンド処理システムはユーザの動作又はジェスチャに基づいて発話コマンドを認識するが、詳細な説明が以降に、図３及び４を参照してなされる。

【0030】

中央処理部１２０は、音声信号を処理して、該音声信号に含まれるユーザの発話コマンドを検出する。該中央処理部１２０は、車室システム（例えば、ナビゲーション・システム、エンターテインメント・システム、環境制御システム、及び診断システム）等の他の構成要素に接続されている。中央処理部１２０は、これらの機器を、ユーザから受け取った発話コマンドに基づいて制御する。中央処理部１２０は、スタンドアロン機器であってもよいし、大きなシステム（例えば、テレマティックス・システム）の一部であってもよい。中央処理部１２０は、図２を参照して以下で詳細に説明される。

【0031】

中央処理部１２０は、車両１００内の任意の場所に配置することができる。図１Ａ及び１Ｂに示すように、中央処理部１２０は、車両１００のセンター・コンソールに配置することができる、又は、中央処理部１２０は、車両１００のダッシュボード内に設置してもよい。さらに、中央処理部１２０は、車両の天井に設置することもできる。

【0032】

オーバヘッド・コンソール部１１０は、車室の天井に配置されてセンサ（例えば、マイクロフォン及びカメラ）を備え、ユーザの深度画像を取得し、音声信号を検出する。これは、図２を参照して以下で詳細に説明される。オーバヘッド・コンソール部１１０は、ガレージ開閉装置等の様々な他の構成要素を含むことができる。オーバヘッド・コンソール部１１０のセンサは中央処理部１２０と通信して、ユーザの発話コマンドを検出するための信号を提供する。

【0033】

オーバヘッド・コンソール部１１０のセンサと中央処理部１２０との間の通信は、現在使用されている又は将来開発される任意の有線又は無線の通信媒体によって確立することができる。
＜コマンド処理システムの例＞

【0034】

図２は、一実施形態による、コマンド処理システム２００を示すブロック図である。該コマンド処理システム２００は、各種構成要素の中でも特に、プロセッサ２１０、出力インタフェース２１４、入力インタフェース２１８、メモリ２４０、及びこれらの構成要素を接続するバスを含むことができる。コマンド処理システム２００は、また、深度カメラ２２２及びマイクロフォン２６０を含むことができる。深度カメラ２２２とマイクロフォン２６０は、チャネル２２０及び２６２を介して入力インタフェース２１８に接続される。図２には示していないが、コマンド処理システム２００は、複数の深度カメラ又はマイクロフォンを含んでもよい。

【0035】

プロセッサ２１０は、メモリ２４０に格納された命令を実行し、入力インタフェース２１８を介して受信したセンサデータを処理する。単一のプロセッサ２１０のみが図２に示されているが、複数のプロセッサを使用してコマンド処理システム２００の処理能力を増強することができる。

【0036】

出力インタフェース２１４は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせであり、他の機器に、機器コマンドを含むデータを、通信チャネルを介して送信する。該他の機器には、例えば、ナビゲーション・システム、エンターテインメント・システム、環境制御システム及び診断システムがある。該データを送信するために、出力インタフェース２１４は、信号をフォーマット・調整して、所定の通信プロトコルに準拠させることができる。

【0037】

入力インタフェース２１８は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせであり、オーバヘッド・コンソール部１１０からのセンサ信号を受信するためにある。該センサ信号には、チャネル２２０を介して受信した深度画像、及びチャネル２６２を介して受信した音声信号が含まれる。入力インタフェース２１８は、受信したセンサ信号を一時記憶し、センサ信号に対する前処理を実行して、次に、バス２６８を介してプロセッサ２１０又はメモリ２４０に該センサ信号を転送することができる。

【0038】

深度カメラ２２２は、運転者の深度画像を撮像し、該深度画像を入力インタフェース２１８にチャンネル２２０を介して送る。深度カメラ２２２は、飛行時間式（ＴＯＦ：Ｔｉｍｅ−Ｏｆ−Ｆｌｉｇｈｔ）カメラ、立体視カメラ、又は他のタイプのカメラとして実現することがでる。このタイプのカメラでは、視野内の異なる地点の物体までの距離に関する情報を含む深度画像を生成することができる。立体視カメラは二つのレンズを使用して、異なる位置から画像を撮像する。取り込まれた画像は、次に、深度画像を生成するために処理される。一実施形態では、深度カメラ２２２はグレー・スケール画像を生成する。該グレー・スケール画像では、各画素に、深度カメラ２２２から該画素に対応するオブジェクト（例えば、運転者）の地点迄の距離を示す画素が含まれている。

【0039】

図１Ａを参照すると、深度カメラ２２２はオーバヘッド・コンソール部１１０に設置され、車両１００の運転者を見渡せる視野１１６を有する。深度カメラ２２２をオーバヘッド・コンソール部１１０に設置することにより、該深度カメラ２２２は、車両１００の運転者とセンター・コンソールの視界を遮てられることなく保つことができるという利点がある。さらに、運転者の手又は腕の深度カメラ２２２に対する深さは、該運転者の意図する操作を表わす。これは、ジェスチャ認識モジュール２５２を参照して以下で詳細に説明する。

【0040】

マイクロフォン２６０は、音響波を感知し、該音響波をアナログ電気信号に変換する。マイクロフォン２６０は、アナログ電気信号をデジタル信号に変換するアナログ−デジタル（Ａ／Ｄ）変換器を含む。変換されたデジタル信号は、入力インタフェース２１８にチャネル２６２を介して送られる。あるいは、該Ａ／Ｄ変換器は、入力インタフェース２１８に含まれていてもよい。この場合、該マイクロフォン２６０は、アナログ電気信号を該入力インタフェース２１８へチャネル２６２を介して送り、デジタル信号への変換、そして、さらなる処理が行われる。

【0041】

メモリ２４０は、プロセッサ２１０によって実行される命令及び該命令に関連する他のデータを格納する。該メモリ２４０は、揮発性メモリ、不揮発性メモリ又はそれらの組み合わせとすることができる。該メモリ２４０には、ソフトウェア・モジュールの中でも特に、コマンド・フォーマット・モジュール２４４、ジェスチャ認識モジュール２５２、及び音声認識モジュール２５６を格納することができる。メモリ２４０は他のソフトウェア・モジュールを含むことができる。他のソフトウェア・モジュールにはオペレーティング・システム等があるが、その説明は簡明にする為に本明細書では省略する。

【0042】

ジェスチャ認識モジュール２５２は、運転者のジェスチャ又は動作を深度カメラ２２２で撮像した深度画像に基づいて検出する。一実施形態では、ジェスチャ認識モジュール２５２は、手や前腕の位置及び／又は動作を検出し、発話コマンドの場面を決定する。一実施形態では、ジェスチャ認識モジュール２５２は、深度カメラ２２２に対する運転者の手又は前腕の相対的位置を決定する。例えば、運転者の手又は前腕が深度カメラ２２２に近い場合（すなわち、深度カメラ２２２から手又は前腕迄の距離が閾値未満である場合）、該運転者がナビゲーション操作に関係付けられた動作又はジェスチャをしている（例えば、窓の外の方に向けて指を指す）可能性がある。逆に、運転者の手や前腕が深度カメラ２２２から離れている（すなわち、深度カメラ２２２から手又は前腕迄の距離が閾値にあるか又は閾値以上である）場合、該運転者がとる可能性が高い行動又はジェスチャは、他の制御機能、通常、センター・コンソールに設けられた機能（例えば、エンターテインメント・システム及び環境制御システムの操作）に関係づけられたものである可能性がある。

【0043】

ジェスチャ認識モジュール２５２は、深度画像内の画素のグループをクラスタ化して、時間の経過とともにこれらのグループの位置を追跡し、運転者の動作やジェスチャを決定するコンピューティング・アルゴリズムを使用することができる。画素は、画素の二次元距離の近接度及び画素間の深度差に基づいてグループにクラスタリングされる。ジェスチャ認識モジュール２５２は、また、人体のモデルを記憶し、該記憶されたモデルに画素のグループをマッッピングして、手又は前腕の位置を正確に検出し追跡することができる。

【0044】

一実施形態では、ジェスチャ認識モジュール２５２は、さらに、運転者の手の位置をより高い分解能で検出して、運転者の操作に関係付けられている機器を決定することができる。車両のセンター・コンソールでエンターテインメント・システムを操作するためのスイッチやノブがセンター・コンソールの中央にあり、環境制御システムのためのスイッチが両側にある場合には、運転者の手の位置がセンター・コンソール中央周辺にあることは、該運転者がエンターテインメント・システムの操作に従事していることを示している。運転者の手が、センター・コンソール中央部よりもセンター・コンソール側方に近い場合、該運転者は環境制御システムの操作に従事している可能性が高い。したがって、コマンド処理システム２００は、発話コマンドが運転者によって発行された時の手の詳細な位置に関するジェスチャ情報を使用して、発話コマンドに関係付けられた機器を決定することができる。

【0045】

音声認識モジュール２５６は、運転者が発行した発話コマンドを決定する。発話コマンドを決定するために、音声認識モジュール２５６は、ジェスチャ認識モジュール２５２から運転者のジェスチャに関するジェスチャ情報を受信する。この様子は、図３を参照して詳細に説明される。

【0046】

コマンド・フォーマット・モジュール２４４は、音声認識モジュール２５６で検出された発話コマンドを、車両１００に搭載されている各機器を操作するための機器コマンドに変換する。車両１００に搭載された各機器は、異なるフォーマットでコマンドが提供されることが必要な場合がある。したがって、コマンド・フォーマット・モジュール２４４は、前記コマンドを各機器が処理可能な形式に変換する。さらに、コマンド・フォーマット・モジュール２４４は、発行された発話コマンドが不明確、曖昧、又は不十分な場合には、運転者にさらに情報を要求することができる。このような追加情報の要求は、スピーカーを通して行ってもよい。コマンド・フォーマット・モジュール２４４は、また、ジェスチャ認識モジュール２５２からの情報を組み合わせて機器コマンドを生成することができる。これは、図４を参照して以下で詳細に説明される。

【0047】

コマンド・フォーマット・モジュール２４４、ジェスチャ認識モジュール２５２、及び音声認識モジュール２５６は、同じメモリ２４０に格納される必要はない。例えば、ジェスチャ認識モジュール２５２は、オーバヘッド・コンソール部のメモリに格納してよく、一方、音声認識モジュール２５６とコマンド・フォーマット・モジュール２４４は、センター・コンソール部のメモリに格納してもよい。さらに、これらのモジュールのうちの一つ又は複数は、専用のハードウェア構成要素として実現することができる。
＜音声認識モジュールのアーキテクチャ例＞

【0048】

図３は、一実施形態による、音声認識モジュール２５６の構成要素を示すブロック図である。音声認識モジュール２５６は、各種構成要素の中でも特に、ジェスチャ認識インタフェース３１２、コマンド抽出モジュール３１６、及びコマンド辞書３２０を含むことができる。音声認識モジュール２５６は、また、他のモジュール、例えば、ユーザによって以前に発行された発話コマンドのリストを保持する履歴管理モジュール等を含むことができる。

【0049】

ジェスチャ認識インタフェース３１２は、音声認識モジュール２５６がジェスチャ認識モジュール２５２と通信することを可能にする。一実施形態では、ジェスチャ認識モジュール２５２からジェスチャ認識インタフェース３１２を介して受信されたジェスチャ情報は、運転者の手又は前腕の位置を示す。

【0050】

コマンド辞書３２０には、車両１００の様々な機器に関係づけられたコマンドが含まれる。コマンド辞書３２０には、複数の辞書３２０Ａから３２０Ｎを含み、各辞書は該車両１００の機器やシステムに関係づけられている。例えば、辞書３２０Ａにはナビゲーション・システムの操作に関係づけられたコマンド、辞書３２０Ｂにはエンターテインメント・システムの操作に関係づけられたコマンド、そして、辞書３２０Ｃには環境制御システムに関係づけられたコマンドが記憶される。

【0051】

コマンド抽出モジュール３１６は、前記ジェスチャ・データに基づいて前記音声信号に含まれる発話コマンドを抽出し、選択したコマンド辞書３２０に格納されたコマンドを抽出する。ジェスチャ情報が受信された後、コマンド抽出モジュール３１６は、一つ又は複数の辞書を選択する。この選択は、前記ジェスチャ情報によって示されるようなユーザの手又は前腕の位置に基づいて行われる。該ジェスチャ・データが、ユーザの手又は前腕が特定のポーズにあることを示す場合には、運転者の手又は前腕の近傍の機器に関係付けられた辞書がコマンド抽出のために選択される。例えば、ユーザの手がエンターテインメント・システムから一定の距離内にある場合、該エンターテインメント・システムに関係付けられた辞書（例えば、辞書３２０Ｂ）がコマンド抽出のために選択される。

【0052】

逆に、発話コマンドが発せられた時点で、運転者の手や前腕がこれらの機器から離れていて、一定のレベルより上に上がっている（すなわち、ダッシュボードの上に上がっている）場合、コマンド抽出モジュール３１６は、該発話コマンドがナビゲーション・システムと関係づけられていると決定する。したがって、コマンド抽出モジュール３１６は、ナビゲーション操作に関係付けられた辞書（例えば、辞書３２０Ａ）を選択して使用し、音声認識を実行する。

【0053】

一実施形態では、コマンド抽出モジュール３１６によって認識された発話コマンドを、ジェスチャ情報と結合して、ナビゲーション・コマンドをコマンド・フォーマット・モジュール２４４で生成する。ジェスチャ情報は、例えば、運転者の指の向きを示していることがある。これは、図４を参照して以下で詳細に説明される。

【0054】

コマンド抽出モジュール３１６は、複数の辞書を使用して発話コマンドを抽出することができる。ユーザの手がセンター・コンソールの周りにおかれている場合、センター・コンソールで操作することができる任意の機器（例えば、エンターテイメント・システム又は環境制御システム）に関係づけられた辞書を選択することができる。

【0055】

一実施形態では、コマンド抽出モジュール３１６は、ユーザの手や前腕の位置に基づく確率重みをコマンドへ割り当てる。該コマンド抽出モジュール３１６は、連続して現れる音素に基づいて発話コマンドの確率を計算する統計モデルを使用する。該統計モデルは、運転者が意図する可能性が最も高いコマンドを決定する際に、手又は前腕の位置を考慮するパラメータを含むことができる。

【0056】

図３の音声認識モジュール２５６は、単なる例示である。種々の改変を、音声認識モジュール２５６に加えることができる。例えば、複数の辞書を持つ代わりに、コマンド辞書３２０は複数のコマンドの各々を一つ又は複数の機器にマッピングしてもよい。
＜ジェスチャ及び発話コマンドを使用して注目地点を検出する例＞

【0057】

手のジェスチャと音声コマンドの組み合わせを使用することにより、ユーザは、容易に注目地点又は目的地を区別することができる。注目地点又は目的地を指差しながら、該ユーザは、ナビゲーション・システムに注目地点の識別及び／又は設定を要求するコマンドを発声することができる。コマンド・フォーマット・モジュール２４４は、音声から認識されたコマンド、及び、ジェスチャ情報から抽出されたパラメータを組み合わせて、ナビゲーション・コマンドを生成することができる。

【0058】

図４は、一実施形態による、注目地点に対応する探索領域を示す概念図である。図４では、運転者は、建物４１０まで運転するか、又は建物４１０の名前又は住所を認識したいという要求を持っている。該運転者は、発話コマンド「その建物を特定する」と発声すると同時に、建物４１０に向かって指を指している。様々な不正確さのため、ジェスチャ認識モジュール２５２は、運転者がＯ−Ａの方向（破線で示す方向）を指していると検出する可能性がある。

【0059】

これに応答して、音声認識モジュール２５６は、ユーザの腕と前腕が上がっていることを示すジェスチャ情報をジェスチャ認識モジュール２５２から受信する。音声認識モジュール２５６は、発話コマンドがナビゲーション・システムに関係付けられていると決定し（手と前腕が上がっているので）、そして、ナビゲーション・システムに関係付けられた辞書を使用して該発話コマンドを認識する。音声認識モジュール２５６は、認識した発話コマンドをコマンド・フォーマット・モジュール２４４に送信する。

【0060】

コマンド・フォーマット・モジュール２４４は、前記発話コマンドを受信して、該発話コマンドを解析し、前記の語句「その建物」をさらに明確化する必要があると判断する。コマンド・フォーマット・モジュール２４４は、ジェスチャ情報を分析し、該ユーザの指の方向（直線Ｏ−Ａで示される）を示すジェスチャ情報にパラメータを使用して機器コマンドを生成する。該機器コマンドは、直線Ｏ−Ａの方向に何らかの注目地点を特定するようにナビゲーション・システムに要求する。前記パラメータは、例えば、車両１００の前方方向に対する角度Θであってもよい。

【0061】

前記ナビゲーション・システムは、前記機器コマンドを受信し、Ｏ−Ｂ−Ｃ−Ｏで示される探索用円錐を設定する。探索用円錐は、検索半径（例えば、１０マイル（１６．１ｋｍ））を示すＲに等しい高さと、円錐角２αを有する。円錐角２αは増加させることができ、検索範囲を広げるか、又は、誤差の許容範囲の拡大を可能にする。該ナビゲーション・システムは、探索用円錐によって特定される探索領域内の探索を行うが、その際、車速と車両の移動方向を考慮して探索する。一実施形態では、該車両に近い注目点に優先権が与えられる。一実施形態では、該ナビゲーション・システムは、探索領域内に存在する注目地点のリストをユーザに提示する。次に、該ユーザは、該探索リストから自分の注目地点を示し、さらなるアクション（例えば、該注目地点まで運転する、又は該注目地点に電話をかける等）を要求することができる。
＜ジェスチャ・データに基づいて発話コマンドを認識する方法の例＞

【0062】

図５は、一実施形態による、運転者の動作又はジェスチャに基づいて発話コマンドを認識する方法を示すフローチャートである。コマンド処理システム２００は、深度カメラ２２２を用いて深度画像を生成する（ステップ５０６）。該生成された深度画像を用いて、コマンド処理システム２００はユーザのジェスチャ情報を生成する（ステップ５１０）。該ジェスチャ情報は、特に、深度カメラ２２２に対するユーザの手や前腕の位置を示すことができる。

【0063】

前記ジェスチャ情報に基づいて、コマンド処理システム２００は、発話コマンドを認識するための一つ又は複数の辞書を選択する（ステップ５１４）。各辞書には、車両１００の特定のシステム又は機器に対するコマンドを含むことができる。

【0064】

コマンド処理システム２００は、また、マイクロフォン２６０で受信された音響信号に基づいて、運転者の発話を表すデジタル音声信号を生成する。

【0065】

該当する一つ又は複数の辞書を選択した後、コマンド処理システム２００は、一つ又は複数の選択された辞書を使用して、前記生成された音声信号に対して音声認識を実行する（ステップ５１８）。適用できる発話コマンドを、発話コマンドが話されている時のユーザのポーズ又はジェスチャを表すジェスチャ情報に基づいて取捨選択することにより、音声認識の精度を高めることができる。

【0066】

前記発話コマンドが生成された後、コマンド処理システム２００は、該発話コマンドを機器コマンドに変換することによって、該発話コマンドに対応する機器コマンドを生成する（ステップ５２２）。必要に応じて、コマンド処理システム２００は、該機器コマンドを生成するための情報を、追加、変更、又は要求することができる。

【0067】

図５に示すプロセスとその順序は、単なる例示である。種々の改変をプロセス及び／又は順序に対して加えることができる。例えば、発話コマンドの候補の組を生成するために、音声認識のステップ５１８を実行してもよい。次に、最終的な発話コマンドを、運転者のジェスチャの判定処理（ステップ５１０）に基づいて、発話コマンドの候補の組から選択することができる。また、一つ又は複数のプロセスを並列に実行してもよい。例えば、深度カメラ２２２で深度画像を生成するステップ５０６は、音声信号を生成するステップ５１６と並行して実行してもよい。
＜代替えの実施形態＞

【0068】

一つ又は複数の実施形態において、一つ又は複数のカメラを使用してジェスチャ検出精度を高めることができる。該カメラは、カラー画像を取り込んでもよい。カラー画像では、運転者の手を表す肌のトーンを検出することができる。カラー画像を深度画像と相関させることにより、手又は前腕の位置をより正確に検出することができる。さらに、２台以上のカメラを車両１００の天井又はその他の種々の位置に配置して、一台の深度カメラで撮像された深度画像を補完又は代用することができる。

【0069】

一つ又は複数の実施形態において、コマンド処理システム２００の一つ又は複数の構成要素は遠隔サーバによって実装することができ、該遠隔サーバは、車両１００に搭載されたコマンド処理システム２００と通信することができる。例えば、音声認識モジュール２５６は、該車両１００に搭載されたコマンド処理システム２００と無線で通信する遠隔サーバに実装してもよい。

【0070】

一つ又は複数の実施形態において、コマンド処理システム２００は、車両以外の輸送装置において使用される。該コマンド処理システム２００は、例えば、航空機やオートバイで使用することができる。

【0071】

いくつかの実施形態をこれまで説明してきたが、種々の改変を、本開示の範囲内で行うことができる。従って、本発明の開示は、以下の特許請求の範囲に記載されている発明の範囲を例示することを意図しているが、発明の範囲を限定するものではない。

【図1A】