(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-12
(45)【発行日】2024-01-22
(54)【発明の名称】ウェアラブルシステム発話処理
(51)【国際特許分類】
G10L 15/20 20060101AFI20240115BHJP
H04R 3/00 20060101ALI20240115BHJP
H04R 3/02 20060101ALI20240115BHJP
H04R 1/10 20060101ALI20240115BHJP
H04R 1/02 20060101ALI20240115BHJP
G10L 15/16 20060101ALI20240115BHJP
G10L 21/02 20130101ALI20240115BHJP
H04R 1/40 20060101ALN20240115BHJP
【FI】
G10L15/20 353
H04R3/00 320
H04R3/02
H04R3/00 310
H04R1/10 101A
H04R1/02 107
G10L15/16
G10L21/02
H04R1/40 320A
(21)【出願番号】P 2020571488
(86)(22)【出願日】2019-06-21
(86)【国際出願番号】 US2019038546
(87)【国際公開番号】W WO2019246562
(87)【国際公開日】2019-12-26
【審査請求日】2022-05-11
(32)【優先日】2018-06-21
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514108838
【氏名又は名称】マジック リープ, インコーポレイテッド
【氏名又は名称原語表記】Magic Leap,Inc.
【住所又は居所原語表記】7500 W SUNRISE BLVD,PLANTATION,FL 33322 USA
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ライダー, コルビー ネルソン
【審査官】大石 剛
(56)【参考文献】
【文献】国際公開第2016/063587(WO,A1)
【文献】特開2014-137405(JP,A)
【文献】米国特許出願公開第2014/0270202(US,A1)
【文献】特開2002-135173(JP,A)
【文献】特開2000-148184(JP,A)
【文献】特開2014-178339(JP,A)
【文献】中国特許出願公開第102866010(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/20
H04R 3/00
H04R 3/02
H04R 1/10
H04R 1/02
G10L 15/16
G10L 21/02
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
音響信号を処理する方法であって、前記方法は、
第1のマイクロホンを介して、ウェアラブルヘッドギヤユニットのユーザの第1の発話と関連付けられる第1の音響信号を受信することと、
センサを介して、第1のセンサ入力を受信することと、
前記ユーザの前記第1の発話と関連付けられる特性周波数曲線を決定することと、
前記
第1のセンサ入力
および前記ユーザの前記第1の発話と関連付けられる前記特性周波数曲線に基づいて、制御パラメータを決定することと、
前記制御パラメータを、前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用することと
を含み、
前記制御パラメータを決定することは、前記第1のセンサ入力に基づいて、前記第1の発話と前記第1の音響信号との間の関係を決定することを含む、方法。
【請求項2】
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を発話認識エンジンに提供し、前記第1の発話に対応するテキスト出力を生成することを含む、請求項1に記載の方法。
【請求項3】
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を自然言語処理エンジンに提供し、前記第1の発話に対応する自然言語データを生成することを含む、請求項1に記載の方法。
【請求項4】
前記ウェアラブルヘッドギヤユニットは、前記第1のマイクロホンを備える、請求項1に記載の方法。
【請求項5】
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの
前記1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を低減させる制御パラメータを決定することと
を含む、請求項1に記載の方法。
【請求項6】
前記表面の音響性質を決定することをさらに含み、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響は、前記音響性質に基づいて決定される、請求項5に記載の方法。
【請求項7】
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、前記ユーザと異なる人物を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記人物の発話の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの
前記1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記発話の影響を低減させる制御パラメータを決定することと
を含む、請求項1に記載の方法。
【請求項8】
前記センサ入力に基づいて、制御パラメータを決定することは、前記センサ入力を人工ニューラルネットワークの入力に適用することを含む、請求項1に記載の方法。
【請求項9】
前記制御パラメータは、エコーキャンセルモジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記表面と前記第1のマイクロホンとの間の飛行時間を決定することと
を含む、請求項1に記載の方法。
【請求項10】
前記制御パラメータは、ビーム形成モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記ユーザと前記第1のマイクロホンとの間の飛行時間を決定することを含む、請求項1に記載の方法。
【請求項11】
前記制御パラメータは、雑音低減モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記第1の音響信号内で減衰されるべき周波数を決定することを含む、請求項1に記載の方法。
【請求項12】
前記ウェアラブルヘッドギヤユニットは、第2のマイクロホンを備え、
前記センサ入力は、前記第2のマイクロホンを介して検出された第2の音響信号を含み、
前記制御パラメータは、前記第1の音響信号と前記第2の音響信号との間の差異に基づいて決定される、
請求項1に記載の方法。
【請求項13】
前記ウェアラブルヘッドギヤユニットは、前記第1のマイクロホンを含まない複数のマイクロホンを備え、
前記方法はさらに、前記複数のマイクロホンを介して、前記第1の発話と関連付けられる複数の音響信号を受信することを含み、
前記制御パラメータは、前記第1の音響信号と前記複数の音響信号との間の差異に基づいて決定される、
請求項1に記載の方法。
【請求項14】
前記センサは、前記ウェアラブルヘッドギヤユニットに結合される、請求項1に記載の方法。
【請求項15】
前記センサは、前記ユーザの環境内に位置付けられる、請求項1に記載の方法。
【請求項16】
システムであって、前記システムは、
ウェアラブルヘッドギヤユニット
を備え、
前記ウェアラブルヘッドギヤユニットは、
複合現実環境をユーザに表示するためのディスプレイと、
スピーカと、
1つ以上のプロセッサであって、前記1つ以上のプロセッサは、方法を実施するように構成されており、前記方法は、
第1のマイクロホンを介して、前記ユーザの第1の発話と関連付けられる第1の音響信号を受信することと、
センサを介して、第1のセンサ入力を受信することと、
前記ユーザの前記第1の発話と関連付けられる特性周波数曲線を決定することと、
前記センサ入力
および前記ユーザの前記第1の発話と関連付けられる前記特性周波数曲線に基づいて、制御パラメータを決定することと、
前記制御パラメータを、前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用することと
を含み、
前記制御パラメータを決定することは、前記第1のセンサ入力に基づいて、前記第1の発話と前記第1の音響信号との間の関係を決定することを含む、1つ以上のプロセッサと
を含む、システム。
【請求項17】
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を発話認識エンジンに提供し、前記第1の発話に対応するテキスト出力を生成することを含む、請求項16に記載のシステム。
【請求項18】
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を自然言語処理エンジンに提供し、前記第1の発話に対応する自然言語データを生成することを含む、請求項16に記載のシステム。
【請求項19】
前記ウェアラブルヘッドギヤユニットはさらに、前記第1のマイクロホンを含む、請求項16に記載のシステム。
【請求項20】
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの
前記1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を低減させる制御パラメータを決定することと
を含む、請求項16に記載のシステム。
【請求項21】
前記方法はさらに、前記表面の音響性質を決定することを含み、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響は、前記音響性質に基づいて決定される、請求項20に記載のシステム。
【請求項22】
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、前記ユーザと異なる人物を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記人物の発話の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの
前記1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記発話の影響を低減させる制御パラメータを決定することと
を含む、請求項16に記載のシステム。
【請求項23】
前記センサ入力に基づいて、制御パラメータを決定することは、前記センサ入力を人工ニューラルネットワークの入力に適用することを含む、請求項16に記載のシステム。
【請求項24】
前記制御パラメータは、エコーキャンセルモジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記表面と前記第1のマイクロホンとの間の飛行時間を決定することと
を含む、請求項16に記載のシステム。
【請求項25】
前記制御パラメータは、ビーム形成モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記ユーザと前記第1のマイクロホンとの間の飛行時間を決定することを含む、請求項16に記載のシステム。
【請求項26】
前記制御パラメータは、雑音低減モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記第1の音響信号内で減衰されるべき周波数を決定することを含む、請求項16に記載のシステム。
【請求項27】
前記ウェアラブルヘッドギヤユニットは、第2のマイクロホンを備え、
前記センサ入力は、前記第2のマイクロホンを介して検出された第2の音響信号を含み、
前記制御パラメータは、前記第1の音響信号と前記第2の音響信号との間の差異に基づいて決定される、
請求項16に記載のシステム。
【請求項28】
前記ウェアラブルヘッドギヤユニットは、前記第1のマイクロホンを含まない複数のマイクロホンを備え、
前記方法はさらに、前記複数のマイクロホンを介して、前記第1の発話と関連付けられる複数の音響信号を受信することを含み、
前記制御パラメータは、前記第1の音響信号と前記複数の音響信号との間の差異に基づいて決定される、
請求項16に記載のシステム。
【請求項29】
前記センサは、前記ウェアラブルヘッドギヤユニットに結合される、請求項16に記載のシステム。
【請求項30】
前記センサは、前記ユーザの環境内に位置付けられる、請求項16に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2018年6月21日に出願された米国仮特許出願第62/687,987号の利益を主張するものであり、これは、その全体が参照により本明細書中に援用される。
【0002】
本開示は、概して、音響発話信号を処理するためのシステムおよび方法に関し、特に、ウェアラブルデバイスのユーザによって生成された音響発話信号を処理するためのシステムおよび方法に関する。
【背景技術】
【0003】
発話処理のためのツールは、典型的には、マイクロホンを介して、人間の発話を表すオーディオ入力を受信し、オーディオ入力を処理し、そのオーディオ入力に対応する、単語、論理構造、または他の出力を決定することをタスクとして課される。例えば、自動発話認識(ASR)ツールは、オーディオ入力信号に対応する人間の発話に基づいて、テキスト出力を生成し得、自然言語処理(NLP)ツールは、その人間の発話の意味に対応する、論理構造またはコンピュータデータを生成し得る。そのようなプロセスは、正確かつ迅速に発生することが望ましく、いくつかの用途は、リアルタイムで結果を要求する。
【0004】
コンピュータ発話処理システムは、不確実な結果を生産する履歴を有する。一般に、発話処理システムの正確度は、入力オーディオ信号の品質に大きく依存し得、最高正確度は、制御された条件下で提供される入力から取得される。例えば、発話処理システムは、オーディオ入力が、ある直接的角度かつ近距離において、環境雑音がなく、高信号対雑音比、かつ一定音量レベルで、マイクロホンによって捕捉された、明確に発音された発話であるとき、確実に性能を発揮し得る。しかしながら、発話処理システムは、実世界条件によって入力オーディオ信号の中に導入され得る、多くの変数に適応することに苦戦し得る。例えば、発話処理信号は、複数の発話源が、存在する(例えば、複数の人々が同一空間内で一度に発話する)とき、環境雑音(例えば、風、雨、電気干渉、周囲雑音)が、源発話信号と混成するとき、人間の話者が、明確に発音しない、または独特なまたは一貫しないトーン、アクセント、または音調の変化で発話するとき、話者が、マイクロホンに対して移動または回転するとき、話者が、音響的に反射性環境(例えば、タイル貼りの洗面所または大聖堂)内に存在するとき、話者が、マイクロホンから遠く離れているとき、話者が、マイクロホンから顔を背けているとき、または任意の数の他の変数が、存在し、入力オーディオ信号の忠実性を損なわせているとき、限定された正確度を実証し得る。これらの問題は、予測不能雑音源が、存在し得、話者の近傍度を制御または理解する試みが、困難または不可能であり得る、移動または屋外用途において拡大され得る。
【0005】
頭部搭載型ユニットを組み込み、発話処理システムのための入力オーディオ信号に及ぼされるそのような変数の影響を補正するもの等、センサ装備ウェアラブルシステムを使用することが望ましい。発話処理システムにより予測可能かつより高い忠実性の入力を提示することによって、それらのシステムの出力は、より正確かつより信頼性がある結果を生成することができる。加えて、ウェアラブルシステムは、移動屋外用途、すなわち、精密には、多くの従来の発話処理システムが特に不良性能を発揮し得る、用途のタイプに非常に好適である。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示の実施例は、音響信号を処理するためのシステムおよび方法を説明する。1つ以上の実施形態によると、第1の音響信号が、第1のマイクロホンを介して受信される。第1の音響信号は、ウェアラブルヘッドギヤユニットのユーザの第1の発話と関連付けられる。第1のセンサ入力が、センサを介して受信される。制御パラメータが、センサ入力に基づいて決定される。制御パラメータは、第1の音響信号、ウェアラブルヘッドギヤユニット、および第1のマイクロホンのうちの1つ以上のものに適用される。制御パラメータを決定するステップは、第1のセンサ入力に基づいて、第1の発話と第1の音響信号との間の関係を決定するステップを含む。
本明細書は、例えば、以下の項目も提供する。
(項目1)
音響信号を処理する方法であって、前記方法は、
第1のマイクロホンを介して、ウェアラブルヘッドギヤユニットのユーザの第1の発話と関連付けられる第1の音響信号を受信することと、
センサを介して、第1のセンサ入力を受信することと、
前記センサ入力に基づいて、制御パラメータを決定することと、
前記制御パラメータを、前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用することと
を含み、
前記制御パラメータを決定することは、前記第1のセンサ入力に基づいて、前記第1の発話と前記第1の音響信号との間の関係を決定することを含む、方法。
(項目2)
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を発話認識エンジンに提供し、前記第1の発話に対応するテキスト出力を生成することを含む、項目1に記載の方法。
(項目3)
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を自然言語処理エンジンに提供し、前記第1の発話に対応する自然言語データを生成することを含む、項目1に記載の方法。
(項目4)
前記ウェアラブルヘッドギヤユニットは、前記第1のマイクロホンを備える、項目1に記載の方法。
(項目5)
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を低減させる制御パラメータを決定することと
を含む、項目1に記載の方法。
(項目6)
前記表面の音響性質を決定することをさらに含み、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響は、前記音響性質に基づいて決定される、項目5に記載の方法。
(項目7)
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、前記ユーザと異なる人物を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記人物の発話の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記発話の影響を低減させる制御パラメータを決定することと
を含む、項目1に記載の方法。
(項目8)
前記センサ入力に基づいて、制御パラメータを決定することは、前記センサ入力を人工ニューラルネットワークの入力に適用することを含む、項目1に記載の方法。
(項目9)
前記制御パラメータは、エコーキャンセルモジュールのための制御パラメータであり、
前記センサ入力に基づいて、前記制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記表面と前記第1のマイクロホンとの間の飛行時間を決定することと
を含む、項目1に記載の方法。
(項目10)
前記制御パラメータは、ビーム形成モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記ユーザと前記第1のマイクロホンとの間の飛行時間を決定することを含む、項目1に記載の方法。
(項目11)
前記制御パラメータは、雑音低減モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記第1の音響信号内で減衰されるべき周波数を決定することを含む、項目1に記載の方法。
(項目12)
前記ウェアラブルヘッドギヤユニットは、第2のマイクロホンを備え、
前記センサ入力は、前記第2のマイクロホンを介して検出された第2の音響信号を含み、
前記制御パラメータは、前記第1の音響信号と前記第2の音響信号との間の差異に基づいて決定される、
項目1に記載の方法。
(項目13)
前記ウェアラブルヘッドギヤユニットは、前記第1のマイクロホンを含まない複数のマイクロホンを備え、
前記方法はさらに、前記複数のマイクロホンを介して、前記第1の発話と関連付けられる複数の音響信号を受信することを含み、
前記制御パラメータは、前記第1の音響信号と前記複数の音響信号との間の差異に基づいて決定される、
項目1に記載の方法。
(項目14)
前記センサは、前記ウェアラブルヘッドギヤユニットに結合される、項目1に記載の方法。
(項目15)
前記センサは、前記ユーザの環境内に位置付けられる、項目1に記載の方法。
(項目16)
システムであって、前記システムは、
ウェアラブルヘッドギヤユニット
を備え、
前記ウェアラブルヘッドギヤユニットは、
複合現実環境をユーザに表示するためのディスプレイと、
スピーカと、
1つ以上のプロセッサであって、前記1つ以上のプロセッサは、方法を実施するように構成されており、前記方法は、
第1のマイクロホンを介して、前記ユーザの第1の発話と関連付けられる第1の音響信号を受信することと、
センサを介して、第1のセンサ入力を受信することと、
前記センサ入力に基づいて、制御パラメータを決定することと、
前記制御パラメータを、前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用することと
を含み、
前記制御パラメータを決定することは、前記第1のセンサ入力に基づいて、前記第1の発話と前記第1の音響信号との間の関係を決定することを含む、1つ以上のプロセッサと
を含む、システム。
(項目17)
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を発話認識エンジンに提供し、前記第1の発話に対応するテキスト出力を生成することを含む、項目16に記載のシステム。
(項目18)
前記制御パラメータは、前記第1の音響信号に適用され、第2の音響信号を生成し、前記方法はさらに、前記第2の音響信号を自然言語処理エンジンに提供し、前記第1の発話に対応する自然言語データを生成することを含む、項目16に記載のシステム。
(項目19)
前記ウェアラブルヘッドギヤユニットはさらに、前記第1のマイクロホンを含む、項目16に記載のシステム。
(項目20)
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響を低減させる制御パラメータを決定することと
を含む、項目16に記載のシステム。
(項目21)
前記方法はさらに、前記表面の音響性質を決定することを含み、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記表面の影響は、前記音響性質に基づいて決定される、項目20に記載のシステム。
(項目22)
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、前記ユーザと異なる人物を検出することと、
前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記人物の発話の影響を決定することと、
前記第1の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第1のマイクロホンのうちの1つ以上のものに適用されると、前記第1の発話と前記第1の音響信号との間の関係に及ぼされる前記発話の影響を低減させる制御パラメータを決定することと
を含む、項目16に記載のシステム。
(項目23)
前記センサ入力に基づいて、制御パラメータを決定することは、前記センサ入力を人工ニューラルネットワークの入力に適用することを含む、項目16に記載のシステム。
(項目24)
前記制御パラメータは、エコーキャンセルモジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記表面と前記第1のマイクロホンとの間の飛行時間を決定することと
を含む、項目16に記載のシステム。
(項目25)
前記制御パラメータは、ビーム形成モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記ユーザと前記第1のマイクロホンとの間の飛行時間を決定することを含む、項目16に記載のシステム。
(項目26)
前記制御パラメータは、雑音低減モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記第1の音響信号内で減衰されるべき周波数を決定することを含む、項目16に記載のシステム。
(項目27)
前記ウェアラブルヘッドギヤユニットは、第2のマイクロホンを備え、
前記センサ入力は、前記第2のマイクロホンを介して検出された第2の音響信号を含み、
前記制御パラメータは、前記第1の音響信号と前記第2の音響信号との間の差異に基づいて決定される、
項目16に記載のシステム。
(項目28)
前記ウェアラブルヘッドギヤユニットは、前記第1のマイクロホンを含まない複数のマイクロホンを備え、
前記方法はさらに、前記複数のマイクロホンを介して、前記第1の発話と関連付けられる複数の音響信号を受信することを含み、
前記制御パラメータは、前記第1の音響信号と前記複数の音響信号との間の差異に基づいて決定される、
項目16に記載のシステム。
(項目29)
前記センサは、前記ウェアラブルヘッドギヤユニットに結合される、項目16に記載のシステム。
(項目30)
前記センサは、前記ユーザの環境内に位置付けられる、項目16に記載のシステム。
【図面の簡単な説明】
【0007】
【
図1】
図1は、いくつかの実施形態による、ウェアラブルシステムの一部として使用され得る、例示的ウェアラブル頭部デバイスを図示する。
【0008】
【
図2】
図2は、いくつかの実施形態による、ウェアラブルシステムの一部として使用され得る、例示的ハンドヘルドコントローラを図示する。
【0009】
【
図3】
図3は、いくつかの実施形態による、ウェアラブルシステムの一部として使用され得る、例示的補助ユニットを図示する。
【0010】
【
図4】
図4は、いくつかの実施形態による、例示的ウェアラブルシステムのための例示的機能ブロック図を図示する。
【0011】
【
図5】
図5は、いくつかの実施形態による、例示的発話処理システムのフローチャートを図示する。
【0012】
【
図6】
図6は、いくつかの実施形態による、音響発話信号を処理するための例示的システムのフローチャートを図示する。
【発明を実施するための形態】
【0013】
実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面が、参照される。他の実施例も、使用され得、構造変更が、開示される実施例の範囲から逸脱することなく、行われ得ることを理解されたい。
【0014】
例示的ウェアラブルシステム
【0015】
図1は、ユーザの頭部上に装着されるように構成される、例示的ウェアラブル頭部デバイス100を図示する。ウェアラブル頭部デバイス100は、頭部デバイス(例えば、ウェアラブル頭部デバイス100)、ハンドヘルドコントローラ(例えば、下記に説明されるハンドヘルドコントローラ200)、および/または補助ユニット(例えば、下記に説明される補助ユニット300)等の1つ以上のコンポーネントを備える、より広範なウェアラブルシステムの一部であってもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス100は、ディスプレイ110Aおよび110B(左および右透過性ディスプレイと、直交瞳拡大(OPE)格子セット112A/112Bおよび射出瞳拡大(EPE)格子セット114A/114B等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る)等の1つ以上のディスプレイと、スピーカ120Aおよび120B(それぞれ、つるアーム122Aおよび122B上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る)等の左および右音響構造と、赤外線センサ、加速度計、GPSユニット、慣性測定ユニット(IMU)(例えば、IMU126)、音響センサ(例えば、マイクロホン150)等の1つ以上のセンサと、直交コイル電磁受信機(例えば、左つるアーム122Aに搭載されるように示される受信機127)と、ユーザから離れるように配向される、左および右カメラ(例えば、深度(飛行時間)カメラ130Aおよび130B)と、ユーザに向かって配向される、左および右眼カメラ(例えば、ユーザの眼移動を検出するため)(例えば、眼カメラ128および128B)とを備えることができる。しかしながら、ウェアラブル頭部デバイス100は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、ユーザの音声によって発生されるオーディオ信号を検出するように構成される、1つ以上のマイクロホン150を組み込んでもよく、そのようなマイクロホンは、ユーザの口に隣接してウェアラブル頭部デバイス内に位置付けられてもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、他のウェアラブルシステムを含む、他のデバイスおよびシステムと通信するために、ネットワーキング特徴(例えば、Wi-Fi能力)を組み込んでもよい。ウェアラブル頭部デバイス100はさらに、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス(例えば、ボタン、タッチパッド)等のコンポーネントを含んでもよい、または1つ以上のそのようなコンポーネントを備えるハンドヘルドコントローラ(例えば、ハンドヘルドコントローラ200)または補助ユニット(例えば、補助ユニット300)に結合されてもよい。いくつかの実施例では、センサは、ユーザの環境に対する頭部搭載型ユニットの座標のセットを出力するように構成されてもよく、入力をプロセッサに提供し、同時位置特定およびマッピング(SLAM)プロシージャおよび/またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、下記にさらに説明されるように、ハンドヘルドコントローラ200および/または補助ユニット300に結合されてもよい。
【0016】
図2は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント200を図示する。いくつかの実施例では、ハンドヘルドコントローラ200は、ウェアラブルヘッドデバイス100および/または下記に説明される補助ユニット300と有線または無線通信してもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、ユーザによって保持されるべきハンドル部分220と、上面210に沿って配置される1つ以上のボタン240とを含む。いくつかの実施例では、ハンドヘルドコントローラ200は、光学追跡標的として使用するために構成されてもよく、例えば、ウェアラブル頭部デバイス100のセンサ(例えば、カメラまたは他の光学センサ)は、ハンドヘルドコントローラ200の位置および/または配向を検出するように構成されることができ、これは、転じて、ハンドヘルドコントローラ200を保持するユーザの手の位置および/または配向を示し得る。いくつかの実施例では、ハンドヘルドコントローラ200は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上記に説明されるもの等の1つ以上の入力デバイスを含んでもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、1つ以上のセンサ(例えば、ウェアラブル頭部デバイス100に関して上記に説明されるセンサまたは追跡コンポーネントのうちのいずれか)を含む。いくつかの実施例では、センサは、ウェアラブル頭部デバイス100に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ200の位置または配向を検出することができる。いくつかの実施例では、センサは、ハンドヘルドコントローラ200のハンドル部分220内に位置付けられてもよい、および/またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ200は、例えば、ボタン240の押下状態、またはハンドヘルドコントローラ200の位置、配向、および/または運動(例えば、IMUを介して)に対応する、1つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス100のプロセッサへの、補助ユニット300への、またはウェアラブルシステムの別のコンポーネントへの入力として使用されてもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、音(例えば、ユーザの発話、環境音)を検出し、ある場合には、検出された音に対応する信号をプロセッサ(例えば、ウェアラブル頭部デバイス100のプロセッサ)に提供するために、1つ以上のマイクロホンを含むことができる。
【0017】
図3は、例示的ウェアラブルシステムの例示的補助ユニット300を図示する。いくつかの実施例では、補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200と有線または無線通信してもよい。補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200(ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および/またはウェアラブル頭部デバイス100またはハンドヘルドコントローラ200の他のコンポーネントを含む)等のウェアラブルシステムの1つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの実施例では、補助ユニット300は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、1つ以上の入力デバイス、および/または上記に説明されるもの等の1つ以上のセンサを含んでもよい。いくつかの実施例では、補助ユニット300は、補助ユニットをユーザに取り付けるためのクリップ310(例えば、ユーザによって装着されるベルト)を含む。ウェアラブルシステムの1つ以上のコンポーネントを格納するために補助ユニット300を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、(例えば、ウェアラブル頭部デバイス100内に格納される場合)ユーザの頭部に搭載される、または(例えば、ハンドヘルドコントローラ200内に格納される場合)ユーザの手によって担持されるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部の上に担持されることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。
【0018】
図4は、上記に説明される、例示的ウェアラブル頭部デバイス100と、ハンドヘルドコントローラ200と、補助ユニット300とを含み得る等、例示的ウェアラブルシステム400に対応し得る、例示的機能ブロック図を示す。いくつかの実施例では、ウェアラブルシステム400は、仮想現実、拡張現実、または複合現実用途のために使用され得る。
図4に示されるように、ウェアラブルシステム400は、ここでは「トーテム」と称される(および上記に説明されるハンドヘルドコントローラ200に対応し得る)例示的ハンドヘルドコントローラ400Bを含むことができ、ハンドヘルドコントローラ400Bは、トーテム/ヘッドギヤ6自由度(6DOF)トーテムサブシステム404Aを含むことができる。ウェアラブルシステム400はまた、(上記に説明されるウェアラブルヘッドギヤデバイス100に対応し得る)例示的ウェアラブル頭部デバイス400Aを含むことができ、ウェアラブル頭部デバイス400Aは、トーテム/ヘッドギヤ6DOFヘッドギヤサブシステム404Bを含む。実施例では、6DOFトーテムサブシステム404Aおよび6DOFヘッドギヤサブシステム404Bは、協働し、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6つの座標(例えば、3つの平行移動方向におけるオフセットおよび3つの軸に沿った回転)を決定する。6自由度は、ウェアラブル頭部デバイス400Aの座標系に対して表されてもよい。3つの平行移動オフセットは、そのような座標系内におけるX、Y、およびZオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンス、ベクトル、回転行列、四元数、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス400A内に含まれる1つ以上の深度カメラ444(および/または1つ以上の非深度カメラ)および/または1つ以上の光学標的(例えば、上記に説明されるようなハンドヘルドコントローラ200のボタン240またはハンドヘルドコントローラ内に含まれる専用光学標的)は、6DOF追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ400Bは、上記に説明されるようなカメラを含むことができ、ヘッドギヤ400Aは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス400Aおよびハンドヘルドコントローラ400Bは、それぞれ、3つの直交して配向されるソレノイドのセットを含み、これは、3つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれの中で受信される3つの区別可能な信号の相対的大きさを測定することによって、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6DOFが、決定されてもよい。いくつかの実施例では、6DOFトーテムサブシステム404Aは、改良された正確度および/またはハンドヘルドコントローラ400Bの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット(IMU)を含むことができる。
【0019】
拡張現実または複合現実用途を伴ういくつかの実施例では、座標をローカル座標空間(例えば、ウェアラブル頭部デバイス400Aに対して固定される座標空間)から慣性座標空間に、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ウェアラブル頭部デバイス400Aのディスプレイが、ディスプレイ上の固定位置および配向において(例えば、ウェアラブル頭部デバイス400Aのディスプレイにおける同一の位置において)ではなく、仮想オブジェクトを実環境に対する予期される位置および配向において提示する(例えば、ウェアラブル頭部デバイス400Aの位置および配向にかかわらず、前方に向いた実椅子に着座している仮想人物)ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する(かつ、例えば、ウェアラブル頭部デバイス400Aが、偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない)という錯覚を維持することができる。いくつかの実施例では、座標空間の間の補償変換が、慣性または環境座標系に対するウェアラブル頭部デバイス400Aの変換を決定するために、(例えば、同時位置特定およびマッピング(SLAM)および/またはビジュアルオドメトリプロシージャを使用して)深度カメラ444からの画像を処理することによって決定されることができる。
図4に示される実施例では、深度カメラ444は、SLAM/ビジュアルオドメトリブロック406に結合されることができ、画像をブロック406に提供することができる。SLAM/ビジュアルオドメトリブロック406実装は、本画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ウェアラブル頭部デバイス400AのIMU409から取得される。IMU409からの情報は、SLAM/ビジュアルオドメトリブロック406からの情報と統合され、改良された正確度および/またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。
【0020】
いくつかの実施例では、深度カメラ444は、ウェアラブル頭部デバイス400Aのプロセッサ内に実装され得る、手のジェスチャトラッカ411に、3D画像を供給することができる。手のジェスチャトラッカ411は、例えば、深度カメラ444から受信された3D画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。
【0021】
いくつかの実施例では、1つ以上のプロセッサ416は、ヘッドギヤサブシステム404B、IMU409、SLAM/ビジュアルオドメトリブロック406、深度カメラ444、マイクロホン450、および/または手のジェスチャトラッカ411からのデータを受信するように構成されてもよい。プロセッサ416はまた、制御信号を6DOFトーテムシステム404Aに送信し、それから受信することができる。プロセッサ416は、ハンドヘルドコントローラ400Bがテザリングされない実施例等では、無線で、6DOFトーテムシステム404Aに結合されてもよい。プロセッサ416はさらに、視聴覚コンテンツメモリ418、グラフィカル処理ユニット(GPU)420、および/またはデジタル信号プロセッサ(DSP)オーディオ空間化装置422等の付加的コンポーネントと通信してもよい。DSPオーディオ空間化装置422は、頭部関連伝達関数(HRTF)メモリ425に結合されてもよい。GPU420は、画像毎に変調された光の左源424に結合される、左チャネル出力と、画像毎に変調された光の右源426に結合される、右チャネル出力とを含むことができる。GPU420は、立体視画像データを画像毎に変調された光の源424、426に出力することができる。DSPオーディオ空間化装置422は、オーディオを左スピーカ412および/または右スピーカ414に出力することができる。DSPオーディオ空間化装置422は、プロセッサ419から、ユーザから仮想音源(例えば、ハンドヘルドコントローラ400Bを介して、ユーザによって移動され得る)への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、DSPオーディオ空間化装置422は、対応するHRTFを決定することができる(例えば、HRTFにアクセスすることによって、または複数のHRTFを補間することによって)。DSPオーディオ空間化装置422は、次いで、決定されたHRTFを仮想オブジェクトによって発生された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。
【0022】
図4に示されるもの等のいくつかの実施例では、プロセッサ416、GPU420、DSPオーディオ空間化装置422、HRTFメモリ425、およびオーディオ/視覚的コンテンツメモリ418のうちの1つ以上のものは、補助ユニット400C(上記に説明される補助ユニット300に対応し得る)内に含まれてもよい。補助ユニット400Cは、バッテリ427を含み、そのコンポーネントを給電する、および/または電力をウェアラブル頭部デバイス400Aおよび/またはハンドヘルドコントローラ400Bに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス400Aのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。
【0023】
図4は、例示的ウェアラブルシステム400の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット400Cと関連付けられているような
図4に提示される要素は、代わりに、ウェアラブル頭部デバイス400Aまたはハンドヘルドコントローラ400Bと関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ400Bまたは補助ユニット400Cを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるものである。
【0024】
発話処理エンジン
【0025】
発話処理システムは、一般に、人間の発話(源信号)に対応する入力オーディオ信号を受け取り、入力オーディオ信号を処理および分析し、分析の結果として、人間の発話に対応する出力を生産する、システムを含む。これらのタスクを実施するためのプロセスまたはモジュールは、発話処理エンジンと見なされ得る。自動発話認識システムの場合、発話処理エンジンの出力は、人間の発話のテキスト書き起こし記録であり得る。自然言語処理システムの場合、出力は、人間の発話によって示される1つ以上のコマンドまたは命令、または人間の発話の意味論的意味のある表現(例えば、論理表現またはデータ構造)であり得る。他のタイプの発話処理システム(例えば、自動翻訳システム)も、検討され、本開示の範囲内である。
【0026】
発話処理システムは、多種多様な製品および用途、すなわち、従来の電話システム、自動化された音声メッセージングシステム、音声アシスタント(独立型およびスマートフォンベースの音声アシスタントを含む)、車両および航空機、デスクトップおよびドキュメント処理ソフトウェア、データエントリ、ホーム家電、医療デバイス、言語翻訳ソフトウェア、クローズドキャプションシステム、およびその他に見出される。発話処理システムの利点は、それらが、ユーザが、キーボードまたはタッチパネル等の従来のコンピュータ入力デバイスの代わりに、マイクロホンに提示されるような自然発話された言語を使用して、入力をコンピュータシステムに提供することを可能にし得ることである。故に、発話処理システムは、特に、従来の入力デバイス(例えば、キーボード)が利用不可能または非実践的であり得る、環境において有用であり得る。さらに、ユーザが直感的音声ベースの入力を提供することを可能にすることによって、発話認識システムは、没入感を高めることができる。したがって、発話認識は、ウェアラブルシステムのための、特に、ユーザ没入が主要目標であって、その存在が没入感を損なわせ得る、従来のコンピュータ入力デバイスの使用を限定することが望ましくあり得る、ウェアラブルシステムの仮想現実、拡張現実、および/または複合現実用途のための、自然な適合であり得る。
【0027】
図5は、いくつかの実施形態による、自動発話認識エンジン500を示す。エンジン500は、自動発話認識システム全般の例証であるように意図され、他の具体的システムも、可能性として考えられ、本開示の範囲内である。エンジン500は、1つ以上のプロセッサ(例えば、CPU、GPU、および/またはDSP)、メモリ、入力デバイス(例えば、マイクロホン)、出力デバイス(例えば、ディスプレイ、スピーカ)、ネットワーク、データベース、および/または他の好適なコンポーネントを使用して実装されてもよい。エンジン500では、源の人間の発話信号に対応する、オーディオ信号510が、信号事前処理段階520に提示される。いくつかの実施例では、信号事前処理段階520は、1つ以上の信号処理機能をオーディオ信号510に適用することができる。例えば、事前処理機能は、ピーク圧縮、雑音低減、帯域限定、等化、信号減衰、または他の好適な機能等のオーディオ処理機能を含むことができる。これらの事前処理機能は、オーディオ信号510を後に処理および分析するタスクを簡略化することができる。例えば、特徴抽出アルゴリズムは、利得および周波数特性等のあるオーディオ特性を有し、入力信号の信号対雑音比が最大限にされる、入力信号上で、最良に性能を発揮するように較正されることができる。いくつかの実施例では、事前処理オーディオ信号510は、信号がエンジン500内のいずれかの場所でより確実に分析され得るように、信号を調整することができる。例えば、信号事前処理段階520は、オーディオ信号510を再エンコーディングする(例えば、具体的ビットレートで再エンコーディングする)、またはオーディオ信号510を、第1の形態(例えば、時間ドメイン信号)から、オーディオ信号510の後の処理を簡略化し得る、第2の形態(例えば、周波数ドメイン信号またはパラメータ表現)に変換することができる。いくつかの実施例では、事前処理段階520の1つ以上の機能は、DSPによって実施されてもよい。
【0028】
段階530では、特徴抽出プロセスは、(段階520において事前処理されるような)オーディオ信号510に適用されることができる。特徴抽出の目標は、オーディオ信号510の個々の発話特徴を識別し、特徴が(例えば、データベース内に記憶されるパターンと比較して)効果的にかつ一貫して処理され得るように、これらの特徴内の変動を低減または排除することである。例えば、特徴抽出は、話者のピッチ、性別、アクセント、発音、およびペースにおける変動を低減、排除、または制御することができる。特徴抽出はまた、記録機器(例えば、マイクロホンタイプ)、信号伝送(例えば、地上ベースの電話回線またはセルラー電話ネットワークを介して)、または記録環境(例えば、部屋音響、背景雑音レベル、マイクロホンからの話者の距離、マイクロホンに対する話者の角度)における変動を低減、排除、または制御することができる。特徴抽出のための種々の好適な技法は、当技術分野において公知である。
【0029】
段階530においてオーディオ信号510から抽出された発話特徴は、デコーダ段階540に提示されることができる。デコーダ段階540の目標は、そこからオーディオ信号510が生成された、源の人間の発話に対応する、テキスト出力570を決定することである。いくつかの実施例では、テキスト出力570は、テキストである必要はなく、源発話の別のデータ表現であることができる。発話特徴をテキストにデコーディングするための種々の技法、例えば、隠れマルコフモデル、ビタビデコーディング、ビーム検索、動的検索、マルチパス検索、加重有限状態トランスデューサ(WFST)、または上記の任意の好適な組み合わせが、存在する。他の好適な技法は、当業者に熟知されているであろう。
【0030】
いくつかの実施例では、デコーダ540は、音響モデル化段階550を利用して、テキスト出力570の生成を促進することができる。音響モデル化段階550は、発話信号と言語学的単位(例えば、音素)との間の関係のモデルを使用して、1つ以上の言語学的単位をオーディオ信号510(段階530において抽出された1つ以上の特徴を含む)から識別することができる。音響モデル化段階550に適用され得る、種々の好適な音響モデル化技法は、当業者に熟知されているであろう。
【0031】
いくつかの実施例では、デコーダ540は、言語モデル化段階560を利用して、テキスト出力570の生成を促進することができる。言語学的モデル化段階560は、言語の文法、語彙、および他の特性のモデルを使用して、おそらく、オーディオ信号510の特徴に最も対応する、言語学的単位(例えば、音素)を決定することができる。例えば、段階560によって適用される言語学的モデルは、特定の抽出された特徴が、話者の言語内に低頻度で現れる単語よりその言語において高頻度で現れる単語に対応する可能性がより高いと結論付け得る。言語学的モデル化段階560に適用され得る種々の好適な言語学的モデル化技法は、当業者に熟知されているであろう。加えて、デコーダ540は、他の好適な技法またはモデルを利用して、テキスト出力570の生成を促進してもよい。本開示は、任意の特定の技法または技法のグループに限定されない。
【0032】
典型的には、テキスト出力570は、完璧な確実性を伴って、源の人間の発話に対応しない。代わりに、テキスト出力570が源の人間の発話に正しく対応する、尤度が、ある確率または信頼区間として表され得る。オーディオ信号510に影響を及ぼし得る多くの変数のため、高度な発話認識システムでも、全ての話者に関して完璧なテキスト出力を一貫して生産しない。例えば、エンジン500等の発話認識システムの信頼性は、入力オーディオ信号510の品質に大きく依存し得る。オーディオ信号510が、理想的条件で、例えば、音響的に制御される環境において記録され、人間話者が、明確かつ直接、近距離からマイクロホンに発音する場合、源発話は、オーディオ信号からより容易に決定されることができる。例えば、特徴は、段階530において、オーディオ信号510からより確実に抽出されることができ、デコーダ540は、それらの特徴に対応するテキスト出力570をより効果的に決定することができる(例えば、音響モデル化が、段階550において、特徴により確実に適用されることができ、および/または言語学的モデル化が、段階560において、特徴により確実に適用されることができる)。
【0033】
しかしながら、実世界用途では、オーディオ信号510は、源の人間の発話を決定することがより困難になり得るほど、理想的条件から逸脱し得る。例えば、オーディオ信号510は、屋外環境または人間話者とマイクロホンとの間の実質的距離によって導入され得るような環境雑音、電気干渉(例えば、スマートフォンのためのバッテリ充電器)から等の電気雑音、近隣の表面(例えば、コンクリート、洗面所タイル)または音響空間(例えば、洞窟、大聖堂)から等の自然反響音、または他の望ましくない効果を組み込み得る。加えて、オーディオ信号510は、人間話者がマイクロホンから顔を背けるときに生じ得るようなある周波数の減衰を被り得る。これは、特に、減衰された周波数が有意な発話関連情報を搬送するもの(例えば、母音音を区別するために使用され得る、フォルマント周波数)であるときに問題となる。同様に、オーディオ信号510は、人間話者とマイクロホンとの間に広い距離が空いているときに生じ得る、全体的低振幅または低信号対雑音比を被り得る。加えて、人間話者が、発話しながら、移動および再配向する場合、オーディオ信号510は、信号の過程にわたって特性を変化させ、下層発話を決定する労力をさらに複雑にし得る。
【0034】
例示的システム500は、例示的発話認識エンジンを図示するが、他のタイプの発話処理エンジンも、類似構造に従い得る。例えば、自然言語処理エンジンは、人間の発話に対応する入力オーディオ信号を受け取ることに応じて、信号事前処理段階を実施し、成分を信号から抽出し(例えば、セグメント化および/またはトークン化段階を介して)、ある場合には、1つ以上の言語学的モデル化サブシステムの支援下で、成分の検出/分析を実施し得る。さらに、いくつかの実施例では、例示的システム500に示されるような自動発話認識エンジンの出力は、さらなる言語処理エンジンへの入力として使用されてもよい。例えば、自然言語処理エンジンは、例示的システム500のテキスト出力570を入力として受け取り得る。そのようなシステムは、例示的システム500によって直面されるものに類似する、課題を被り得る。例えば、上記に説明されるようなオーディオ信号の下層の源発話信号を回収することをより困難にし得る、入力オーディオ信号における変動はまた、他の形態の出力(例えば、自然言語処理エンジンの場合、論理表現またはデータ構造)を提供することをより困難にし得る。故に、そのようなシステムもまた、下記に説明されるような本発明から利点を享受することになる。
【0035】
ウェアラブルシステムを使用した発話処理の改良
【0036】
本開示は、センサ、例えば、ウェアラブルデバイスと関連付けられるもの(例えば、
図1に関して上記に説明されるような頭部搭載型デバイス)からの入力を使用して、オーディオ信号510に関して上記に説明されるもの等の入力オーディオ信号内の変動を低減、排除、または制御することによって、発話処理システムの正確度を改良するためのシステムおよび方法を対象とする。そのような変動は、特に、発話処理の移動用途または屋外環境等の非制御環境内における発話処理の用途において顕著であり得る。ウェアラブルシステムは、そのような用途において使用するために意図されることが多く、そのような変動を被り得る。ウェアラブルシステムは、概して、頭部デバイス(例えば、ウェアラブル頭部デバイス100)、ハンドヘルドコントローラ(例えば、ハンドヘルドコントローラ200)、補助ユニット(例えば、補助ユニット300)、および/または頭部デバイスの環境の任意の組み合わせを指し得る。いくつかの実施形態では、ウェアラブルシステムのセンサは、頭部デバイス、ハンドヘルドコントローラ、補助ユニット上、および/または頭部デバイスの環境内にあってもよい。例えば、ウェアラブルシステムは、移動性であるように設計され得るため、ウェアラブルシステムのユーザから単一定常マイクロホン(例えば、独立型音声支援デバイス)において記録されるオーディオ信号は、ユーザが単一定常マイクロホンから遠い場合、低信号対雑音比を、またはユーザがマイクロホンから顔を背けている場合、「音響陰影」または望ましくない周波数応答を被り得る。さらに、オーディオ信号は、ウェアラブルシステムの移動ユーザによって予期され得るように、ユーザが単一定常マイクロホンに対して移動および方向転換するにつれて、特性を経時的に変化させ得る。加えて、いくつかのウェアラブルシステムは、非制御環境において使用するために意図されるため、環境雑音(または他の人間の発話)が標的の人間の発話とともに記録される高い潜在性が、存在する。同様に、そのような非制御環境は、下層発話を不明瞭にし得る、望ましくないエコーおよび反響音をオーディオ信号510の中に導入し得る。
【0037】
図1における例示的ウェアラブル頭部デバイス100に関して上記に説明されるように、ウェアラブルシステムは、ウェアラブルシステムのユーザおよび/または環境についての入力を提供し得る、1つ以上のセンサを含むことができる。例えば、ウェアラブル頭部デバイス100は、カメラ(例えば、
図4に説明されるカメラ444)を含み、環境に対応する視覚的信号を出力することができる。いくつかの実施例では、カメラは、現在、ウェアラブルシステムのユーザの正面にあるものを示す、頭部搭載型ユニット上の前向きに向いたカメラであることができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、LIDARユニット、レーダユニット、および/または音響センサを含むことができ、これは、ユーザの環境の物理的幾何学形状(例えば、壁、物理的オブジェクト)に対応する信号を出力することができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、GPSユニットを含むことができ、これは、ウェアラブルシステムの現在の場所に対応する地理的座標を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、加速度計、ジャイロスコープ、および/または慣性測定ユニット(IMU)を含み、ウェアラブル頭部デバイス100の配向を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、温度または圧力センサ等の環境センサを含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、虹彩カメラ、指紋センサ、眼追跡センサ、またはユーザのバイタルサインを測定するためのセンサ等のバイオメトリックセンサを含むことができる。ウェアラブル頭部デバイス100が、頭部搭載型ユニットを含む、実施例では、そのような配向は、ユーザの頭部の配向(さらに言うと、ユーザの口およびユーザの発話の方向)に対応し得る。他の好適なセンサも、含まれることができる。いくつかの実施形態では、ハンドヘルドコントローラ200、補助ユニット300、および/またはウェアラブル頭部デバイス100の環境は、ウェアラブル頭部デバイス100に対する上記に述べられたセンサのうちの任意の好適な1つ以上のものを含むことができる。加えて、ある場合には、1つ以上のセンサが、ウェアラブルシステムが相互作用する、環境内に設置されてもよい。例えば、ウェアラブルシステムは、自動車の運転者によって装着されるように設計されてもよく、適切なセンサ(例えば、深度カメラ、加速度計等)が、自動車の内部に設置されてもよい。本アプローチの1つの利点は、センサが、環境内の既知の場所を占有し得ることである。環境内で移動する、ウェアラブルデバイスに取り付けられ得るセンサと比較して、本構成は、それらのセンサによって提供されるデータの解釈を簡略化することができる。
【0038】
ウェアラブルシステムのそのようなセンサ(例えば、ウェアラブル頭部デバイス100、ハンドヘルドコントローラ200、補助ユニット300、および/またはウェアラブル頭部デバイス100の環境)によって提供される信号は、ウェアラブルシステムによって記録されるオーディオ信号の特性についての情報、および/またはオーディオ信号と下層の源発話信号との間の関係についての情報を提供するために使用されることができる。本情報は、ひいては、そのオーディオ信号の下層の源発話をより効果的に決定するために使用されることができる。
【0039】
例証するために、
図6は、1つ以上のマイクロホンによって記録されるオーディオ信号の発話認識を改良するためにウェアラブルシステムを組み込む、例示的発話認識システム600を示す。
図6は、例示的ウェアラブル頭部デバイス100、ハンドヘルドコントローラ200、および補助ユニット300のうちの1つ以上のものを含み得る、上記に説明されるウェアラブルシステム400に対応し得る、ウェアラブルシステム601のユーザを示す。ウェアラブルシステム601のユーザは、口頭発声602(「源発話」)を提供し、これは、1つ以上のマイクロホン604において検出され、これは、対応するオーディオ信号606を出力する。ウェアラブルシステム601は、カメラ、LIDARユニット、レーダユニット、音響センサ、GPSユニット、加速度計、ジャイロスコープ、IMU、マイクロホン(マイクロホン604のうちの1つであり得る)、温度センサ、バイオメトリックセンサ、または任意の他の好適なセンサまたはセンサの組み合わせのうちの1つ以上のものを含む、上記に説明される1つ以上のセンサを含むことができる。ウェアラブルシステム601はまた、1つ以上のプロセッサ(例えば、CPU、GPU、および/またはDSP)、メモリ、入力デバイス(例えば、マイクロホン)、出力デバイス(例えば、ディスプレイ、スピーカ)、ネットワーク、および/またはデータベースを含むことができる。これらのコンポーネントは、ウェアラブル頭部デバイス100、ハンドヘルドコントローラ200、および補助ユニット300の組み合わせを使用して実装されてもよい。いくつかの実施例では、ウェアラブルシステム601のセンサは、センサデータ608(2つ以上のセンサタイプからのセンサを含む、1つ以上のセンサが、並列に提示される、実施例等では、マルチチャネルセンサデータであり得る)を提供する。センサデータ608は、源発話を検出するマイクロホン604と並行して提供されてもよい。すなわち、ウェアラブルシステム601のセンサは、源発話が提供される時間における条件に対応する、センサデータ608を提供することができる。いくつかの実施例では、マイクロホン604のうちの1つ以上のものは、ウェアラブル頭部デバイス、ハンドヘルドコントローラ、および/またはウェアラブルシステム601の補助ユニット内、および/またはその環境内に含まれることができる。
【0040】
例示的システム600では、サブシステム610が、センサデータ608およびオーディオ信号606を入力として受け取り、制御パラメータを決定し、オーディオ信号606を処理するために適用し、処理されたオーディオ信号を、入力として、出力(例えば、それぞれ、テキスト出力660および/または自然言語処理出力680)を生成し得る、信号処理エンジン(例えば、発話認識エンジン650および/または自然言語処理(NLP)エンジン670)に提供することができる。サブシステム610は、下記に説明され、
図6に示される、1つ以上のプロセス、段階、および/またはモジュールを含む。サブシステム610は、1つ以上のプロセッサ(例えば、CPU、GPU、および/またはDSP)、メモリ、ネットワーク、データベース、および/または他の好適なコンポーネントの任意の組み合わせを使用して実装されることができる。いくつかの実施例では、サブシステム610のいくつかまたは全ては、ウェアラブルシステム601上、例えば、頭部デバイス(例えば、ウェアラブル頭部デバイス100)、ハンドヘルドコントローラ(例えば、ハンドヘルドコントローラ200)、および/または補助ユニット(例えば、補助ユニット300)のうちの1つ以上のもの上に実装されることができる。いくつかの実施例では、サブシステム610のいくつかまたは全ては、マイクロホン604(例えば、スマートフォンまたは独立型音声支援デバイス)を含有する、デバイス上に実装されることができる。いくつかの実施例では、サブシステム610のいくつかまたは全ては、クラウドサーバまたは別のネットワーク対応コンピューティングデバイス上に実装されることができる。例えば、ローカルデバイスは、オーディオ信号および/またはセンサデータの処理に関連するもの等のサブシステム610の待ち時間感知機能を実施し得る一方、クラウドサーバまたは他のネットワーク対応デバイスは、大算出またはメモリリソースを要求する、サブシステム610の機能(例えば、複雑な人工ニューラルネットワークを訓練または適用する)を実施し、出力をローカルデバイスに伝送し得る。サブシステム610の他の実装も、当業者に明白となり、本開示の範囲内である。
【0041】
例示的システム600では、サブシステム610は、センサデータ分析段階620を含む。センサデータ分析段階620は、例えば、ウェアラブルシステム601の環境についての情報を決定するために、センサデータ608を処理および分析することができる。センサデータ608が、異種源(例えば、カメラデータおよびGPSデータ)からのセンサデータを含む、実施例では、センサデータ分析段階620は、当業者に公知の技法(例えば、カルマンフィルタ)に従って、センサデータを組み合わせることができる(「センサ融合」)。いくつかの実施例では、センサデータ分析段階620は、センサデータ608に加え、他の源からのデータを組み込むことができる。例えば、センサデータ分析段階620は、GPSユニットの出力に基づいて、場所情報を決定するために、GPSユニットからのセンサデータ608とマップデータおよび/または衛星データ(例えば、そのようなデータを記憶するメモリまたはデータベースから)を組み合わせることができる。実施例として、GPSユニットは、センサデータ608の一部として、ウェアラブルシステム601の緯度および経度に対応するGPS座標を出力し得る。センサデータ分析段階620は、マップデータとともに、緯度および経度を使用し、ウェアラブルシステム601が位置する、国、町、通り、ユニット(例えば、商業用ユニットまたは住居ユニット)、または部屋を識別する、または近隣の事業または着目点を識別し得る。同様に、建築物データ(例えば、公共建物記録から)が、センサデータ608と組み合わせられ、ウェアラブルシステム601が位置する、建物を識別することができる、または天候データ(例えば、衛星データのリアルタイムフィードから)が、センサデータ608と組み合わせられ、その場所における現在の天候条件を識別することができる。他の例示的用途も、明白となり、本開示の範囲内である。
【0042】
より小さいスケールでは、センサデータ分析段階620は、センサデータ608を分析し、ウェアラブルシステム601の直近の、またはウェアラブルシステム601のユーザに関連する、オブジェクトおよび幾何学形状に関連する情報を生成することができる。例えば、当技術分野において公知の技法を使用すると、ウェアラブルシステム601のLIDARセンサまたはレーダユニットからのデータは、ウェアラブルシステム601が、8フィート離れて位置する壁に、その壁の法線に対して角度θで向いていることを示し得、ウェアラブルシステム601のカメラからの画像データは、その壁がセラミックタイル(音響的に反射性材料)から作製されている可能性が高いことを識別することができる。いくつかの実施例では、ウェアラブルシステム601の音響センサは、表面が音響信号に及ぼし得る、音響影響を測定するために使用されることができる(例えば、表面から反射された信号と表面に伝送される源信号を比較することによって)。いくつかの実施例では、センサデータ分析段階620は、例えば、ウェアラブルシステム601と関連付けられる、加速度計、ジャイロスコープ、またはIMUを使用して、センサデータ608を使用して、ウェアラブルシステム601のユーザの位置および/または配向を決定することができる。拡張現実または複合現実用途等のいくつかの実施例では、段階620は、ユーザの現在の環境のマップまたは他の表現を組み込むことができる。例えば、ウェアラブルシステム601のセンサが、部屋の幾何学形状の3D表現を構築するために使用されている場合、その3D表現データは、センサデータ608と併用されることができる。同様に、段階620は、近隣の表面の材料およびそれらの表面の音響性質等の情報、環境内の他のユーザに関連する情報(例えば、その場所および配向および/またはその音声の音響特性)、および/またはウェアラブルシステム601のユーザについての情報(例えば、ユーザの年齢層、性別、母国語、および/または音声特性)を組み込むことができる。
【0043】
いくつかの実施例では、センサデータ分析段階620は、センサデータ608を分析し、マイクロホン604に関連する情報を生成することができる。例えば、センサデータ608は、ウェアラブルシステム601に対する位置および/または配向等の1つ以上のマイクロホン604の位置および/または配向を提供してもよい。ウェアラブルシステム601が1つ以上のマイクロホン604を含む、実施例では、1つ以上のマイクロホン604の位置および配向は、直接、ウェアラブルシステム601の位置および配向にリンクされてもよい。いくつかの実施例では、ウェアラブルシステム601は、1つ以上のマイクロホン604ではない、1つ以上の付加的マイクロホンを含むことができる。そのような付加的な1つ以上のマイクロホンは、例えば、既知の位置および配向から、かつ短距離から検出されるようなユーザの発話に対応する、ベースラインオーディオ信号を提供するために使用されることができる。例えば、付加的な1つ以上のマイクロホンは、ユーザの環境内の既知の配向を伴って、既知の位置に存在し得る。本ベースラインオーディオ信号の振幅、位相、および周波数特性は、オーディオ信号606と比較され、源発話602とオーディオ信号606との間の関係を識別することができる。例えば、第1の時間において検出された第1のオーディオ信号が、ベースラインオーディオ信号の2分の1の振幅を有し、第2の時間において検出された第2のオーディオ信号が、ベースラインオーディオ信号の4分の1の振幅を有する場合、ユーザは、第1の時間と第2の時間との間の間隔の間、マイクロホン604から離れるように移動していることが推測され得る。これは、任意の好適な数のマイクロホン(例えば、初期マイクロホンおよび2つ以上の付加的マイクロホン)に拡張されることができる。
【0044】
上記に説明されるようなセンサデータ608および/または他のデータに基づいて、センサデータ分析段階620によって出力された情報は、源発話602と対応するオーディオ信号606との間の関係を識別することができる。本関係を説明する情報は、段階630において、オーディオ信号606、1つ以上のマイクロホン604、および/またはウェアラブルシステム601に適用され得る、1つ以上の制御パラメータを算出するために使用されることができる。これらの制御パラメータの適用は、システム600が下層源発話602をオーディオ信号606から回収し得る、正確度を改良することができる。いくつかの実施例では、段階630において算出された制御パラメータは、オーディオ信号606を処理するために適用され得る、デジタル信号処理(DSP)パラメータを含むことができる。例えば、そのような制御パラメータは、デジタル信号処理(DSP)雑音低減プロセスのためのパラメータ(例えば、それを下回るとゲート付き雑音低減がオーディオ信号606に適用されるであろう、信号閾値、または減衰されるべきオーディオ信号606の雑音周波数)、DSPエコーキャンセルまたは反響音除去プロセスのためのパラメータ(例えば、オーディオ信号606とその信号のエコーとの間の遅延に対応する時間値)、または他のオーディオDSPプロセスのためのパラメータ(例えば、位相補正、限定、ピッチ補正)を含むことができる。
【0045】
いくつかの実施例では、制御パラメータは、オーディオ信号606に適用されるべきDSPフィルタを定義し得る。例えば、センサデータ608(例えば、ウェアラブルシステム601の頭部搭載型ユニットのマイクロホンから)は、ウェアラブルシステム601のユーザ(すなわち、源発話602を生成するユーザ)の音声に対応する、特性周波数曲線を示すことができる。本周波数曲線は、デジタル帯域通過フィルタを定義する、制御パラメータを決定し、オーディオ信号606に適用するために使用されることができる。本帯域通過フィルタは、源発話602をオーディオ信号606内でより顕著にさせるために、源発話602により近似して対応する周波数を隔離することができる。いくつかの実施例では、センサデータ608(例えば、ウェアラブルシステム601の頭部搭載型ユニットのマイクロホンから)は、ウェアラブルシステム601の近傍の異なるユーザ(ウェアラブルシステム601のユーザ以外)の音声に対応する、特性周波数曲線を示すことができる。本周波数曲線は、デジタルノッチフィルタを定義する、制御パラメータを決定し、オーディオ信号606に適用するために使用されることができる。本ノッチフィルタは、源発話602をオーディオ信号606内でより顕著にレンダリングするために、望ましくない音声をオーディオ信号606から除去することができる。同様に、センサデータ608(例えば、ウェアラブルシステム601のカメラ)は、近傍内の具体的他の個人およびウェアラブルシステム601に対するその位置を識別することができる。本情報は、ノッチフィルタのレベルを決定することができる(例えば、より近くの個人は、その音声が、オーディオ信号606内でより大きな音である可能性が高く、適用される必要があり得る減衰のレベルも高い)。別の実施例として、ユーザの近傍内のある表面および/または材料の存在は、マイクロホン604によって検出されるようなそのユーザの音声の周波数特性に影響を及ぼし得る。例えば、ユーザが、部屋の角に立っている場合、ユーザの音声のある低周波数は、オーディオ信号606内で顕著になり得る。本情報は、オーディオ信号606に適用されるべき高域通過フィルタのパラメータ(例えば、カットオフ周波数)を生成するために使用されることができる。これらの制御パラメータは、段階640において、または発話認識エンジン650および/または自然言語処理エンジン670の一部として(例えば、上記に説明される信号事前処理段階520または特徴抽出段階530に対応する段階において)、オーディオ信号606に適用されることができる。
【0046】
いくつかの実施例では、段階630において算出された制御パラメータは、マイクロホン604を構成するために使用されることができる。例えば、そのような制御パラメータは、マイクロホン604に結合されるハードウェア増幅器のための利得レベル等のハードウェア構成パラメータ、マイクロホン604の指向性(例えば、マイクロホン602が指向されるべきベクトル)を調節するためのビーム形成パラメータ、有効または無効にされるべき複数のマイクロホン604を決定するためのパラメータ、またはマイクロホン604が、位置付けられる、または配向されるべき場所を制御するためのパラメータ(例えば、マイクロホン604がモバイルプラットフォームに取り付けられる、実施例において)を含むことができる。いくつかの実施例では、マイクロホン604は、スマートフォンまたは別のモバイルデバイスのコンポーネントであってもよく、段階630において算出された制御パラメータは、モバイルデバイスを制御する(例えば、モバイルデバイスの種々のコンポーネントを有効にする、またはソフトウェアをモバイルデバイス上で構成または動作させる)ために使用されることができる。
【0047】
いくつかの実施例では、段階630において算出された制御パラメータは、ウェアラブルシステム601自体を制御するために使用されることができる。例えば、そのような制御パラメータは、メッセージをウェアラブルシステム601のユーザにディスプレイ110A/110Bまたはスピーカ120A/120B等を介して提示するためのパラメータ(例えば、ユーザが発話認識正確度を改良するために、近隣の壁から離れるように移動すべきであることのオーディオまたはビデオメッセージ)、またはウェアラブルシステム601の1つ以上のセンサを有効にする、無効にする、または再構成するためのパラメータ(例えば、より有用なカメラデータを取得するために、サーボ搭載型カメラを再配向するために)を含み得る。ウェアラブルシステム601がマイクロホン604を含む、実施例では、制御パラメータは、上記に説明されるようなマイクロホン604を制御するために、ウェアラブルシステム601に送信されることができる。
【0048】
いくつかの実施例では、段階630において算出された制御パラメータは、発話処理システム(例えば、発話認識エンジン650および/または自然言語処理エンジン)のデコーディングプロセス(例えば、上記に説明されるデコーディングプロセス540)に影響を及ぼすために使用されることができる。例えば、センサデータ608は、ユーザの言語の使用に影響を及ぼし得る、ユーザの環境の特性、挙動、または精神状態を示し得る。例えば、センサデータ608(例えば、カメラおよび/またはGPSユニットから)は、ユーザがフットボールの試合を観戦していることを示し得る。ユーザの発話(すなわち、源発話602)が、ユーザがフットボールの試合を観戦している間、フットボール関連単語(例えば、「コーチ」、「クウォーターバック」、「タッチダウン」)を含む可能性が通常よりはるかに高くあり得るため、発話処理システム(例えば、言語モデル化段階560)の制御パラメータは、一時的に、オーディオ信号がフットボール関連単語に対応する、より高い確率を反映させるように設定されることができる。
【0049】
図6に示されるようないくつかの実施例では、個々の更新モジュール632、634、および636は、段階630において算出された制御パラメータを決定することができる、または、段階630において算出された制御パラメータおよび/またはセンサデータ608を、オーディオ信号606、マイクロホン604、ウェアラブルシステム601、または上記の任意のハードウェアまたはソフトウェアサブシステムに適用することができる。例えば、ビーム形成器更新モジュール632は、センサデータ608または段階630において算出された1つ以上の制御パラメータに基づいて、ビーム形成モジュール(例えば、マイクロホン604のビーム形成モジュール)がオーディオ信号606の認識または自然言語処理を改良するために更新され得る方法を決定することができる。いくつかの実施例では、ビーム形成更新モジュール632は、センサアレイによって検出された信号の信号対雑音比を最大限にするために、センサアレイ(例えば、マイクロホン604のアレイ)の方向性を制御することができる。例えば、ビーム形成更新モジュール632は、源発話602が最小限の雑音および歪みを伴って検出されるように、マイクロホン604の方向性を調節することができる。例えば、複数の音声を伴う部屋内では、適応ビーム形成モジュールのソフトウェアは、マイクロホン604を着目音声に対応する信号電力(例えば、源発話602に対応する音声)を最大限にするように指向することができる。例えば、ウェアラブルシステム601のセンサは、ウェアラブルシステム601がマイクロホン604からある距離に位置することを示す、データを出力することができ、そこから、マイクロホン604までの源発話602の飛行時間値が、決定されることができる。本飛行時間値は、発話認識エンジン650が源発話602をオーディオ信号606から識別する能力を最大限にするために、当業者に熟知されている技法を使用して、ビーム形成を較正するために使用されることができる。
【0050】
いくつかの実施例では、雑音低減更新モジュール634は、センサデータ608または段階630において算出された1つ以上の制御パラメータに基づいて、雑音低減プロセスがオーディオ信号606の認識または自然言語処理を改良するために更新され得る方法を決定することができる。いくつかの実施例では、雑音低減更新モジュール634は、オーディオ信号606の信号対雑音比を最大限にするために、オーディオ信号606に適用される雑音低減プロセスのパラメータを制御することができる。これは、ひいては、発話認識エンジン650によって実施される自動発話認識を促進することができる。例えば、雑音低減更新モジュール634は、源発話602の情報を搬送する、オーディオ信号606の周波数を上昇(または減衰させるように低下)させながら、信号減衰を雑音が存在する可能性が高いオーディオ信号606の周波数に選択的に適用することができる。ウェアラブルシステム601のセンサは、雑音低減更新モジュール634が、雑音に対応する可能性が高いオーディオ信号606の周波数および源発話602についての情報を搬送する可能性が高い周波数を識別することに役立つデータを提供することができる。例えば、ウェアラブルシステム601のセンサ(例えば、GPS、LIDAR等)は、ウェアラブルシステム601が航空機上に位置することを識別し得る。航空機は、ある特性周波数を有する、背景雑音と関連付けられ得る。例えば、航空機エンジン雑音は、既知の周波数f0の周囲に集中され得る。センサからの本情報に基づいて、雑音低減更新モジュール634は、オーディオ信号606の周波数f0を減衰させることができる。同様に、ウェアラブルシステム601のセンサ(例えば、ウェアラブルシステム601に搭載されるマイクロホン)は、ウェアラブルシステム601のユーザの音声に対応する、周波数シグネチャを識別することができる。雑音低減更新モジュール634は、帯域通過フィルタをその周波数シグネチャに対応する周波数範囲に適用することができる、または雑音低減がその周波数範囲に適用されないことを確実にすることができる。
【0051】
いくつかの実施例では、エコーキャンセル(または反響音除去)更新モジュール636は、センサデータ608または段階630において算出された1つ以上の制御パラメータに基づいて、エコーキャンセルユニットがオーディオ信号606の認識または自然言語処理を改良するために更新され得る方法を決定することができる。いくつかの実施例では、エコーキャンセル更新モジュール636は、発話認識エンジン650が源発話602をオーディオ信号606から決定する能力を最大限にするために、オーディオ信号606に適用されるエコーキャンセルユニットのパラメータを制御することができる。例えば、エコーキャンセル更新モジュール636は、エコーキャンセルユニットに、源発話後に100ミリ秒続くオーディオ信号606内のエコーを検出および補正する(例えば、コームフィルタを介して)ように命令することができる。そのようなエコーは、発話処理システム(例えば、発話認識エンジン650、自然言語処理エンジン670)が源発話を決定する能力に干渉し得る(例えば、オーディオ信号606から段階530において
図5に関して上記に説明されるような特徴を抽出する能力に影響を及ぼすことによって)ため、これらのエコーを除去することは、発話認識、自然言語処理、および他の発話処理タスクのより高い正確度をもたらし得る。いくつかの実施例では、ウェアラブルシステム601のセンサは、エコーキャンセルのための制御パラメータを決定するために使用され得る、センサデータ608を提供することができる。例えば、そのようなセンサ(例えば、カメラ、LIDAR、レーダ、音響センサ)は、ウェアラブルシステム601のユーザが、ある表面から10フィートに位置し、その表面の法線に対して角度θ
1でその表面に向いており、さらに、マイクロホン604がその表面から20フィートに位置し、角度θ
2で表面に向いていることを決定することができる。本センサデータから、表面が、源信号602後のある時間(すなわち、ユーザから表面までの飛行時間+表面からマイクロホン604までの飛行時間)にマイクロホン604に到達する、エコーを生産する可能性が高いことが、算出されることができる。同様に、センサデータから、表面が、洗面所タイル表面または既知の音響反射性性質を伴う別の表面に対応し、それらの反射性性質が、オーディオ信号606内の結果として生じる音響反射を減衰させるであろう、反響音除去ユニットの制御パラメータを算出するために使用され得ることが、決定されることができる。
【0052】
同様に、いくつかの実施例では、信号調整が、発話オーディオ信号606に適用され、音響環境によって発話オーディオ信号606に適用されるイコライゼーションを考慮することができる。例えば、部屋は、例えば、部屋の幾何学形状(例えば、寸法、立方体体積)、材料(例えば、コンクリート、洗面所タイル)、または音響環境内のマイクロホン(例えば、マイクロホン604)によって検出されるような信号に影響を及ぼし得る他の特性によって、発話オーディオ信号606のある周波数を増加または減衰させ得る。これらの影響は、発話認識エンジン650が異なる音響環境を横断して一貫して性能を発揮する能力を複雑にし得る。ウェアラブルシステム601のセンサは、そのような影響に対抗するために使用され得る、センサデータ608を提供することができる。例えば、センサデータ608は、上記に説明されるように、部屋のサイズまたは形状または音響的に有意な材料の存在を示すことができ、そこから、1つ以上のフィルタが、決定され、オーディオ信号に適用され、部屋の影響に対抗することができる。いくつかの実施例では、センサデータ608は、ユーザが存在する部屋の立方体体積を示す、センサ(例えば、カメラ、LIDAR、レーダ、音響センサ)によって提供されることができ、その部屋の音響影響が、フィルタとしてモデル化されることができ、そのフィルタの反転が、オーディオ信号に適用され、その音響影響を補償することができる。
【0053】
いくつかの実施例では、モジュール632、634、または636、または例示的システム600の他の好適な要素(例えば、段階620または段階640)は、所定のマッピングを利用して、センサデータ608に基づいて、制御パラメータを決定することができる。上記に説明されるいくつかの実施例では、制御パラメータは、直接、センサデータ608に基づいて算出される。例えば、上記に説明されるように、エコーキャンセル更新モジュール636は、オーディオ信号606内に存在するエコーを減衰させるために適用され得る、エコーキャンセルユニットのための制御パラメータを決定することができる。上記に説明されるように、そのような制御パラメータは、ウェアラブルシステム601とマイクロホン604との間の距離を幾何学的に決定し、空気中で音速で進行するオーディオ信号がウェアラブルシステム601からマイクロホンまで進行するために要求するであろう、飛行時間を算出し、エコーキャンセルユニットのエコー周期をその飛行時間に対応するように設定することによって算出されることができる。但し、ある場合には、制御パラメータは、センサデータ608とパラメータを制御するためのセンサデータのマッピングを比較することによって決定されることができる。そのようなマッピングは、クラウドサーバまたは別のネットワーク化されたデバイス上等のデータベース内に記憶され得る。いくつかの実施例では、例示的システム601の1つ以上の要素(例えば、ビーム形成器更新モジュール632、雑音低減更新モジュール634、エコーキャンセル更新モジュール636、段階630、段階640、発話認識エンジン650、および/または自然言語処理エンジン670)は、データベースにクエリし、センサデータ608に対応する、1つ以上の制御パラメータを読み出すことができる。本プロセスは、上記に説明されるような制御パラメータの直接算出の代わりに、またはそれに加え、生じ得る。そのようなプロセスでは、センサデータ608は、所定のマッピングに提供され得、所定のマッピング内のセンサデータ608に最も近似して対応する、1つ以上の制御パラメータが、返されることができる。センサデータとパラメータの所定のマッピングを使用することは、いくつかの利点を持ち得る。例えば、所定のマッピングからのルックアップを実施することは、特に、算出が、複雑な幾何学的データを伴い得るとき、またはウェアラブルシステム601のセンサが、有意な待ち時間または帯域幅限定を被り得る場合、リアルタイムでセンサデータを処理するより算出上安価となり得る。さらに、所定のマッピングは、(例えば、数学的モデル化によって)センサデータ単独から算出することが困難であり得る、センサデータと制御パラメータとの間の関係を捕捉することができる。
【0054】
いくつかの実施例では、機械学習技法が、センサデータと制御パラメータのマッピングを生成または精緻化する、または別様に制御パラメータをセンサデータ608から決定するために使用されることができる。例えば、ニューラルネットワーク(または他の適切な機械学習技術)は、当業者に熟知されている技法に従って、センサデータ入力に基づいて、所望の制御パラメータを識別するように訓練されることができる。所望の制御パラメータが、識別されることができ、ニューラルネットワークはさらに、ユーザフィードバックを通して精緻化される。例えば、システム600のユーザは、発話認識出力(例えば、テキスト出力660)および/または自然言語処理出力(例えば、自然言語処理出力680)の品質を評定するようにプロンプトされることができる。そのようなユーザ評定は、所与のセットのセンサデータが特定のセットの制御パラメータをもたらすであろう、尤度を調節するために使用されることができる。例えば、ユーザが、特定のセットの制御パラメータおよび特定のセットのセンサデータに関して、テキスト出力660の高評定を報告する場合、そのセンサデータとそれらの制御パラメータのマッピングが、作成されることができる(またはそれら間のリンクが強化される)。逆に言えば、低評定は、センサデータと制御パラメータのマッピングを弱化または削除させることができる。
【0055】
同様に、機械学習技法は、発話認識エンジン(例えば、650)が、ユーザに属する発話と、他のエンティティに属する発話、例えば、テレビまたはステレオシステムから発出する発話とを弁別する能力を改良するために利用されることができる。上記に説明されるように、ニューラルネットワーク(または他の適切な機械学習技術)は、本弁別を実施する(すなわち、入力オーディオがユーザまたはある他の源に属するかどうかを決定する)ように訓練されることができる。ある場合には、ユーザがそのユーザに属することが既知の入力オーディオのセットを提供する、較正ルーチンが、ニューラルネットワークを訓練するために使用されることができる。他の好適な機械学習技術も、同一目的のために使用されることができる。
【0056】
更新モジュール632、634、および636は、それぞれ、ビーム形成更新モジュール、雑音低減更新モジュール、およびエコーキャンセルモジュールを備えるように説明されるが、他の好適なモジュールも、任意の組み合わせで含まれてもよい。例えば、いくつかの実施例では、EQ更新モジュールは、(上記に説明されるような)フィルタリングプロセスがセンサデータ608および/または段階630において算出された1つ以上の制御パラメータに基づいて更新され得る方法を決定することができる。さらに、モジュール632、634、および636に関して上記に説明される機能は、段階630および/または段階640等の例示的システム600の他の要素または発話認識エンジン650または自然言語処理エンジン670の一部として実施されることができる。
【0057】
開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、1つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付される請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるものである。