特開2023-159461 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ マジック　リープ，　インコーポレイテッドの特許一覧

特開2023-159461ウェアラブルシステム発話処理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023159461

(43)【公開日】2023-10-31

(54)【発明の名称】ウェアラブルシステム発話処理

(51)【国際特許分類】

G10L 15/20 20060101AFI20231024BHJP

G10L 15/16 20060101ALI20231024BHJP

G10L 21/02 20130101ALI20231024BHJP

H04R 1/02 20060101ALI20231024BHJP

H04R 1/10 20060101ALI20231024BHJP

H04R 1/40 20060101ALN20231024BHJP

H04R 3/00 20060101ALN20231024BHJP

H04R 3/02 20060101ALN20231024BHJP

【ＦＩ】

G10L15/20 353

G10L15/16

G10L21/02

H04R1/02 107

H04R1/10 101A

H04R1/40 320A

H04R3/00 320

H04R3/02

【審査請求】有

【請求項の数】1

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023142856

(22)【出願日】2023-09-04

(62)【分割の表示】P 2020571488の分割

【原出願日】2019-06-21

(31)【優先権主張番号】62/687,987

(32)【優先日】2018-06-21

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】514108838

【氏名又は名称】マジックリープ，インコーポレイテッド

【氏名又は名称原語表記】ＭａｇｉｃＬｅａｐ，Ｉｎｃ．

【住所又は居所原語表記】７５００ＷＳＵＮＲＩＳＥＢＬＶＤ，ＰＬＡＮＴＡＴＩＯＮ，ＦＬ３３３２２ＵＳＡ

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】コルビーネルソンライダー

(57)【要約】

【課題】好適なウェアラブルシステム発話処理を提供すること。
【解決手段】音響信号を処理する方法が、開示される。１つ以上の実施形態によると、第１の音響信号が、第１のマイクロホンを介して受信される。第１の音響信号は、ウェアラブルヘッドギヤユニットのユーザの第１の発話と関連付けられる。第１のセンサ入力が、センサを介して受信される。制御パラメータが、センサ入力に基づいて決定される。制御パラメータは、第１の音響信号、ウェアラブルヘッドギヤユニット、および第１のマイクロホンのうちの１つ以上のものに適用される。制御パラメータを決定するステップは、第１のセンサ入力に基づいて、第１の発話と第１の音響信号との間の関係を決定するステップを含む。
【選択図】図６

【特許請求の範囲】

【請求項1】

本明細書に記載の発明。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０１８年６月２１日に出願された米国仮特許出願第６２／６８７，９８７号の利益を主張するものであり、これは、その全体が参照により本明細書中に援用される。

【0002】

本開示は、概して、音響発話信号を処理するためのシステムおよび方法に関し、特に、ウェアラブルデバイスのユーザによって生成された音響発話信号を処理するためのシステムおよび方法に関する。

【背景技術】

【0003】

発話処理のためのツールは、典型的には、マイクロホンを介して、人間の発話を表すオーディオ入力を受信し、オーディオ入力を処理し、そのオーディオ入力に対応する、単語、論理構造、または他の出力を決定することをタスクとして課される。例えば、自動発話認識（ＡＳＲ）ツールは、オーディオ入力信号に対応する人間の発話に基づいて、テキスト出力を生成し得、自然言語処理（ＮＬＰ）ツールは、その人間の発話の意味に対応する、論理構造またはコンピュータデータを生成し得る。そのようなプロセスは、正確かつ迅速に発生することが望ましく、いくつかの用途は、リアルタイムで結果を要求する。

【0004】

コンピュータ発話処理システムは、不確実な結果を生産する履歴を有する。一般に、発話処理システムの正確度は、入力オーディオ信号の品質に大きく依存し得、最高正確度は、制御された条件下で提供される入力から取得される。例えば、発話処理システムは、オーディオ入力が、ある直接的角度かつ近距離において、環境雑音がなく、高信号対雑音比、かつ一定音量レベルで、マイクロホンによって捕捉された、明確に発音された発話であるとき、確実に性能を発揮し得る。しかしながら、発話処理システムは、実世界条件によって入力オーディオ信号の中に導入され得る、多くの変数に適応することに苦戦し得る。例えば、発話処理信号は、複数の発話源が、存在する（例えば、複数の人々が同一空間内で一度に発話する）とき、環境雑音（例えば、風、雨、電気干渉、周囲雑音）が、源発話信号と混成するとき、人間の話者が、明確に発音しない、または独特なまたは一貫しないトーン、アクセント、または音調の変化で発話するとき、話者が、マイクロホンに対して移動または回転するとき、話者が、音響的に反射性環境（例えば、タイル貼りの洗面所または大聖堂）内に存在するとき、話者が、マイクロホンから遠く離れているとき、話者が、マイクロホンから顔を背けているとき、または任意の数の他の変数が、存在し、入力オーディオ信号の忠実性を損なわせているとき、限定された正確度を実証し得る。これらの問題は、予測不能雑音源が、存在し得、話者の近傍度を制御または理解する試みが、困難または不可能であり得る、移動または屋外用途において拡大され得る。

【0005】

頭部搭載型ユニットを組み込み、発話処理システムのための入力オーディオ信号に及ぼされるそのような変数の影響を補正するもの等、センサ装備ウェアラブルシステムを使用することが望ましい。発話処理システムにより予測可能かつより高い忠実性の入力を提示することによって、それらのシステムの出力は、より正確かつより信頼性がある結果を生成することができる。加えて、ウェアラブルシステムは、移動屋外用途、すなわち、精密には、多くの従来の発話処理システムが特に不良性能を発揮し得る、用途のタイプに非常に好適である。

【発明の概要】

【課題を解決するための手段】

【0006】

本開示の実施例は、音響信号を処理するためのシステムおよび方法を説明する。１つ以上の実施形態によると、第１の音響信号が、第１のマイクロホンを介して受信される。第１の音響信号は、ウェアラブルヘッドギヤユニットのユーザの第１の発話と関連付けられる。第１のセンサ入力が、センサを介して受信される。制御パラメータが、センサ入力に基づいて決定される。制御パラメータは、第１の音響信号、ウェアラブルヘッドギヤユニット、および第１のマイクロホンのうちの１つ以上のものに適用される。制御パラメータを決定するステップは、第１のセンサ入力に基づいて、第１の発話と第１の音響信号との間の関係を決定するステップを含む。
本明細書は、例えば、以下の項目も提供する。
（項目１）
音響信号を処理する方法であって、前記方法は、
第１のマイクロホンを介して、ウェアラブルヘッドギヤユニットのユーザの第１の発話と関連付けられる第１の音響信号を受信することと、
センサを介して、第１のセンサ入力を受信することと、
前記センサ入力に基づいて、制御パラメータを決定することと、
前記制御パラメータを、前記第１の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第１のマイクロホンのうちの１つ以上のものに適用することと
を含み、
前記制御パラメータを決定することは、前記第１のセンサ入力に基づいて、前記第１の発話と前記第１の音響信号との間の関係を決定することを含む、方法。
（項目２）
前記制御パラメータは、前記第１の音響信号に適用され、第２の音響信号を生成し、前記方法はさらに、前記第２の音響信号を発話認識エンジンに提供し、前記第１の発話に対応するテキスト出力を生成することを含む、項目１に記載の方法。
（項目３）
前記制御パラメータは、前記第１の音響信号に適用され、第２の音響信号を生成し、前記方法はさらに、前記第２の音響信号を自然言語処理エンジンに提供し、前記第１の発話に対応する自然言語データを生成することを含む、項目１に記載の方法。
（項目４）
前記ウェアラブルヘッドギヤユニットは、前記第１のマイクロホンを備える、項目１に記載の方法。
（項目５）
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記表面の影響を決定することと、
前記第１の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第１のマイクロホンのうちの１つ以上のものに適用されると、前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記表面の影響を低減させる制御パラメータを決定することと
を含む、項目１に記載の方法。
（項目６）
前記表面の音響性質を決定することをさらに含み、前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記表面の影響は、前記音響性質に基づいて決定される、項目５に記載の方法。
（項目７）
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、前記ユーザと異なる人物を検出することと、
前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記人物の発話の影響を決定することと、
前記第１の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第１のマイクロホンのうちの１つ以上のものに適用されると、前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記発話の影響を低減させる制御パラメータを決定することと
を含む、項目１に記載の方法。
（項目８）
前記センサ入力に基づいて、制御パラメータを決定することは、前記センサ入力を人工ニューラルネットワークの入力に適用することを含む、項目１に記載の方法。
（項目９）
前記制御パラメータは、エコーキャンセルモジュールのための制御パラメータであり、
前記センサ入力に基づいて、前記制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記表面と前記第１のマイクロホンとの間の飛行時間を決定することと
を含む、項目１に記載の方法。
（項目１０）
前記制御パラメータは、ビーム形成モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記ユーザと前記第１のマイクロホンとの間の飛行時間を決定することを含む、項目１に記載の方法。
（項目１１）
前記制御パラメータは、雑音低減モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記第１の音響信号内で減衰されるべき周波数を決定することを含む、項目１に記載の方法。
（項目１２）
前記ウェアラブルヘッドギヤユニットは、第２のマイクロホンを備え、
前記センサ入力は、前記第２のマイクロホンを介して検出された第２の音響信号を含み、
前記制御パラメータは、前記第１の音響信号と前記第２の音響信号との間の差異に基づいて決定される、
項目１に記載の方法。
（項目１３）
前記ウェアラブルヘッドギヤユニットは、前記第１のマイクロホンを含まない複数のマイクロホンを備え、
前記方法はさらに、前記複数のマイクロホンを介して、前記第１の発話と関連付けられる複数の音響信号を受信することを含み、
前記制御パラメータは、前記第１の音響信号と前記複数の音響信号との間の差異に基づいて決定される、
項目１に記載の方法。
（項目１４）
前記センサは、前記ウェアラブルヘッドギヤユニットに結合される、項目１に記載の方法。
（項目１５）
前記センサは、前記ユーザの環境内に位置付けられる、項目１に記載の方法。
（項目１６）
システムであって、前記システムは、
ウェアラブルヘッドギヤユニット
を備え、
前記ウェアラブルヘッドギヤユニットは、
複合現実環境をユーザに表示するためのディスプレイと、
スピーカと、
１つ以上のプロセッサであって、前記１つ以上のプロセッサは、方法を実施するように構成されており、前記方法は、
第１のマイクロホンを介して、前記ユーザの第１の発話と関連付けられる第１の音響信号を受信することと、
センサを介して、第１のセンサ入力を受信することと、
前記センサ入力に基づいて、制御パラメータを決定することと、
前記制御パラメータを、前記第１の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第１のマイクロホンのうちの１つ以上のものに適用することと
を含み、
前記制御パラメータを決定することは、前記第１のセンサ入力に基づいて、前記第１の発話と前記第１の音響信号との間の関係を決定することを含む、１つ以上のプロセッサと
を含む、システム。
（項目１７）
前記制御パラメータは、前記第１の音響信号に適用され、第２の音響信号を生成し、前記方法はさらに、前記第２の音響信号を発話認識エンジンに提供し、前記第１の発話に対応するテキスト出力を生成することを含む、項目１６に記載のシステム。
（項目１８）
前記制御パラメータは、前記第１の音響信号に適用され、第２の音響信号を生成し、前記方法はさらに、前記第２の音響信号を自然言語処理エンジンに提供し、前記第１の発話に対応する自然言語データを生成することを含む、項目１６に記載のシステム。
（項目１９）
前記ウェアラブルヘッドギヤユニットはさらに、前記第１のマイクロホンを含む、項目１６に記載のシステム。
（項目２０）
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記表面の影響を決定することと、
前記第１の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第１のマイクロホンのうちの１つ以上のものに適用されると、前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記表面の影響を低減させる制御パラメータを決定することと
を含む、項目１６に記載のシステム。
（項目２１）
前記方法はさらに、前記表面の音響性質を決定することを含み、前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記表面の影響は、前記音響性質に基づいて決定される、項目２０に記載のシステム。
（項目２２）
前記センサ入力に基づいて、制御パラメータを決定することは、
前記センサ入力に基づいて、前記ユーザと異なる人物を検出することと、
前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記人物の発話の影響を決定することと、
前記第１の音響信号、前記ウェアラブルヘッドギヤユニット、および前記第１のマイクロホンのうちの１つ以上のものに適用されると、前記第１の発話と前記第１の音響信号との間の関係に及ぼされる前記発話の影響を低減させる制御パラメータを決定することと
を含む、項目１６に記載のシステム。
（項目２３）
前記センサ入力に基づいて、制御パラメータを決定することは、前記センサ入力を人工ニューラルネットワークの入力に適用することを含む、項目１６に記載のシステム。
（項目２４）
前記制御パラメータは、エコーキャンセルモジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、
前記センサ入力に基づいて、表面を検出することと、
前記表面と前記第１のマイクロホンとの間の飛行時間を決定することと
を含む、項目１６に記載のシステム。
（項目２５）
前記制御パラメータは、ビーム形成モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記ユーザと前記第１のマイクロホンとの間の飛行時間を決定することを含む、項目１６に記載のシステム。
（項目２６）
前記制御パラメータは、雑音低減モジュールのための制御パラメータであり、前記センサ入力に基づいて、前記制御パラメータを決定することは、前記第１の音響信号内で減衰されるべき周波数を決定することを含む、項目１６に記載のシステム。
（項目２７）
前記ウェアラブルヘッドギヤユニットは、第２のマイクロホンを備え、
前記センサ入力は、前記第２のマイクロホンを介して検出された第２の音響信号を含み、
前記制御パラメータは、前記第１の音響信号と前記第２の音響信号との間の差異に基づいて決定される、
項目１６に記載のシステム。
（項目２８）
前記ウェアラブルヘッドギヤユニットは、前記第１のマイクロホンを含まない複数のマイクロホンを備え、
前記方法はさらに、前記複数のマイクロホンを介して、前記第１の発話と関連付けられる複数の音響信号を受信することを含み、
前記制御パラメータは、前記第１の音響信号と前記複数の音響信号との間の差異に基づいて決定される、
項目１６に記載のシステム。
（項目２９）
前記センサは、前記ウェアラブルヘッドギヤユニットに結合される、項目１６に記載のシステム。
（項目３０）
前記センサは、前記ユーザの環境内に位置付けられる、項目１６に記載のシステム。

【図面の簡単な説明】

【0007】

【図1】図１は、いくつかの実施形態による、ウェアラブルシステムの一部として使用され得る、例示的ウェアラブル頭部デバイスを図示する。

【0008】

【図2】図２は、いくつかの実施形態による、ウェアラブルシステムの一部として使用され得る、例示的ハンドヘルドコントローラを図示する。

【0009】

【図3】図３は、いくつかの実施形態による、ウェアラブルシステムの一部として使用され得る、例示的補助ユニットを図示する。

【0010】

【図4】図４は、いくつかの実施形態による、例示的ウェアラブルシステムのための例示的機能ブロック図を図示する。

【0011】

【図5】図５は、いくつかの実施形態による、例示的発話処理システムのフローチャートを図示する。

【0012】

【図6】図６は、いくつかの実施形態による、音響発話信号を処理するための例示的システムのフローチャートを図示する。

【発明を実施するための形態】

【0013】

実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面が、参照される。他の実施例も、使用され得、構造変更が、開示される実施例の範囲から逸脱することなく、行われ得ることを理解されたい。

【0014】

例示的ウェアラブルシステム

【0015】

図１は、ユーザの頭部上に装着されるように構成される、例示的ウェアラブル頭部デバイス１００を図示する。ウェアラブル頭部デバイス１００は、頭部デバイス（例えば、ウェアラブル頭部デバイス１００）、ハンドヘルドコントローラ（例えば、下記に説明されるハンドヘルドコントローラ２００）、および／または補助ユニット（例えば、下記に説明される補助ユニット３００）等の１つ以上のコンポーネントを備える、より広範なウェアラブルシステムの一部であってもよい。いくつかの実施例では、ウェアラブル頭部デバイス１００は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス１００は、ディスプレイ１１０Ａおよび１１０Ｂ（左および右透過性ディスプレイと、直交瞳拡大（ＯＰＥ）格子セット１１２Ａ／１１２Ｂおよび射出瞳拡大（ＥＰＥ）格子セット１１４Ａ／１１４Ｂ等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る）等の１つ以上のディスプレイと、スピーカ１２０Ａおよび１２０Ｂ（それぞれ、つるアーム１２２Ａおよび１２２Ｂ上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る）等の左および右音響構造と、赤外線センサ、加速度計、ＧＰＳユニット、慣性測定ユニット（ＩＭＵ）（例えば、ＩＭＵ１２６）、音響センサ（例えば、マイクロホン１５０）等の１つ以上のセンサと、直交コイル電磁受信機（例えば、左つるアーム１２２Ａに搭載されるように示される受信機１２７）と、ユーザから離れるように配向される、左および右カメラ（例えば、深度（飛行時間）カメラ１３０Ａおよび１３０Ｂ）と、ユーザに向かって配向される、左および右眼カメラ（例えば、ユーザの眼移動を検出するため）（例えば、眼カメラ１２８および１２８Ｂ）とを備えることができる。しかしながら、ウェアラブル頭部デバイス１００は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、ユーザの音声によって発生されるオーディオ信号を検出するように構成される、１つ以上のマイクロホン１５０を組み込んでもよく、そのようなマイクロホンは、ユーザの口に隣接してウェアラブル頭部デバイス内に位置付けられてもよい。いくつかの実施例では、ウェアラブル頭部デバイス１００は、他のウェアラブルシステムを含む、他のデバイスおよびシステムと通信するために、ネットワーキング特徴（例えば、Ｗｉ－Ｆｉ能力）を組み込んでもよい。ウェアラブル頭部デバイス１００はさらに、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス（例えば、ボタン、タッチパッド）等のコンポーネントを含んでもよい、または１つ以上のそのようなコンポーネントを備えるハンドヘルドコントローラ（例えば、ハンドヘルドコントローラ２００）または補助ユニット（例えば、補助ユニット３００）に結合されてもよい。いくつかの実施例では、センサは、ユーザの環境に対する頭部搭載型ユニットの座標のセットを出力するように構成されてもよく、入力をプロセッサに提供し、同時位置特定およびマッピング（ＳＬＡＭ）プロシージャおよび／またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、ウェアラブル頭部デバイス１００は、下記にさらに説明されるように、ハンドヘルドコントローラ２００および／または補助ユニット３００に結合されてもよい。

【0016】

図２は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント２００を図示する。いくつかの実施例では、ハンドヘルドコントローラ２００は、ウェアラブルヘッドデバイス１００および／または下記に説明される補助ユニット３００と有線または無線通信してもよい。いくつかの実施例では、ハンドヘルドコントローラ２００は、ユーザによって保持されるべきハンドル部分２２０と、上面２１０に沿って配置される１つ以上のボタン２４０とを含む。いくつかの実施例では、ハンドヘルドコントローラ２００は、光学追跡標的として使用するために構成されてもよく、例えば、ウェアラブル頭部デバイス１００のセンサ（例えば、カメラまたは他の光学センサ）は、ハンドヘルドコントローラ２００の位置および／または配向を検出するように構成されることができ、これは、転じて、ハンドヘルドコントローラ２００を保持するユーザの手の位置および／または配向を示し得る。いくつかの実施例では、ハンドヘルドコントローラ２００は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上記に説明されるもの等の１つ以上の入力デバイスを含んでもよい。いくつかの実施例では、ハンドヘルドコントローラ２００は、１つ以上のセンサ（例えば、ウェアラブル頭部デバイス１００に関して上記に説明されるセンサまたは追跡コンポーネントのうちのいずれか）を含む。いくつかの実施例では、センサは、ウェアラブル頭部デバイス１００に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ２００の位置または配向を検出することができる。いくつかの実施例では、センサは、ハンドヘルドコントローラ２００のハンドル部分２２０内に位置付けられてもよい、および／またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ２００は、例えば、ボタン２４０の押下状態、またはハンドヘルドコントローラ２００の位置、配向、および／または運動（例えば、ＩＭＵを介して）に対応する、１つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス１００のプロセッサへの、補助ユニット３００への、またはウェアラブルシステムの別のコンポーネントへの入力として使用されてもよい。いくつかの実施例では、ハンドヘルドコントローラ２００は、音（例えば、ユーザの発話、環境音）を検出し、ある場合には、検出された音に対応する信号をプロセッサ（例えば、ウェアラブル頭部デバイス１００のプロセッサ）に提供するために、１つ以上のマイクロホンを含むことができる。

【0017】

図３は、例示的ウェアラブルシステムの例示的補助ユニット３００を図示する。いくつかの実施例では、補助ユニット３００は、ウェアラブル頭部デバイス１００および／またはハンドヘルドコントローラ２００と有線または無線通信してもよい。補助ユニット３００は、ウェアラブル頭部デバイス１００および／またはハンドヘルドコントローラ２００（ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および／またはウェアラブル頭部デバイス１００またはハンドヘルドコントローラ２００の他のコンポーネントを含む）等のウェアラブルシステムの１つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの実施例では、補助ユニット３００は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、１つ以上の入力デバイス、および／または上記に説明されるもの等の１つ以上のセンサを含んでもよい。いくつかの実施例では、補助ユニット３００は、補助ユニットをユーザに取り付けるためのクリップ３１０（例えば、ユーザによって装着されるベルト）を含む。ウェアラブルシステムの１つ以上のコンポーネントを格納するために補助ユニット３００を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、（例えば、ウェアラブル頭部デバイス１００内に格納される場合）ユーザの頭部に搭載される、または（例えば、ハンドヘルドコントローラ２００内に格納される場合）ユーザの手によって担持されるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部の上に担持されることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。

【0018】

図４は、上記に説明される、例示的ウェアラブル頭部デバイス１００と、ハンドヘルドコントローラ２００と、補助ユニット３００とを含み得る等、例示的ウェアラブルシステム４００に対応し得る、例示的機能ブロック図を示す。いくつかの実施例では、ウェアラブルシステム４００は、仮想現実、拡張現実、または複合現実用途のために使用され得る。図４に示されるように、ウェアラブルシステム４００は、ここでは「トーテム」と称される（および上記に説明されるハンドヘルドコントローラ２００に対応し得る）例示的ハンドヘルドコントローラ４００Ｂを含むことができ、ハンドヘルドコントローラ４００Ｂは、トーテム／ヘッドギヤ６自由度（６ＤＯＦ）トーテムサブシステム４０４Ａを含むことができる。ウェアラブルシステム４００はまた、（上記に説明されるウェアラブルヘッドギヤデバイス１００に対応し得る）例示的ウェアラブル頭部デバイス４００Ａを含むことができ、ウェアラブル頭部デバイス４００Ａは、トーテム／ヘッドギヤ６ＤＯＦヘッドギヤサブシステム４０４Ｂを含む。実施例では、６ＤＯＦトーテムサブシステム４０４Ａおよび６ＤＯＦヘッドギヤサブシステム４０４Ｂは、協働し、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６つの座標（例えば、３つの平行移動方向におけるオフセットおよび３つの軸に沿った回転）を決定する。６自由度は、ウェアラブル頭部デバイス４００Ａの座標系に対して表されてもよい。３つの平行移動オフセットは、そのような座標系内におけるＸ、Ｙ、およびＺオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンス、ベクトル、回転行列、四元数、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス４００Ａ内に含まれる１つ以上の深度カメラ４４４（および／または１つ以上の非深度カメラ）および／または１つ以上の光学標的（例えば、上記に説明されるようなハンドヘルドコントローラ２００のボタン２４０またはハンドヘルドコントローラ内に含まれる専用光学標的）は、６ＤＯＦ追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ４００Ｂは、上記に説明されるようなカメラを含むことができ、ヘッドギヤ４００Ａは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス４００Ａおよびハンドヘルドコントローラ４００Ｂは、それぞれ、３つの直交して配向されるソレノイドのセットを含み、これは、３つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれの中で受信される３つの区別可能な信号の相対的大きさを測定することによって、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６ＤＯＦが、決定されてもよい。いくつかの実施例では、６ＤＯＦトーテムサブシステム４０４Ａは、改良された正確度および／またはハンドヘルドコントローラ４００Ｂの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット（ＩＭＵ）を含むことができる。

【0019】

拡張現実または複合現実用途を伴ういくつかの実施例では、座標をローカル座標空間（例えば、ウェアラブル頭部デバイス４００Ａに対して固定される座標空間）から慣性座標空間に、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ウェアラブル頭部デバイス４００Ａのディスプレイが、ディスプレイ上の固定位置および配向において（例えば、ウェアラブル頭部デバイス４００Ａのディスプレイにおける同一の位置において）ではなく、仮想オブジェクトを実環境に対する予期される位置および配向において提示する（例えば、ウェアラブル頭部デバイス４００Ａの位置および配向にかかわらず、前方に向いた実椅子に着座している仮想人物）ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する（かつ、例えば、ウェアラブル頭部デバイス４００Ａが、偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない）という錯覚を維持することができる。いくつかの実施例では、座標空間の間の補償変換が、慣性または環境座標系に対するウェアラブル頭部デバイス４００Ａの変換を決定するために、（例えば、同時位置特定およびマッピング（ＳＬＡＭ）および／またはビジュアルオドメトリプロシージャを使用して）深度カメラ４４４からの画像を処理することによって決定されることができる。図４に示される実施例では、深度カメラ４４４は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６に結合されることができ、画像をブロック４０６に提供することができる。ＳＬＡＭ／ビジュアルオドメトリブロック４０６実装は、本画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ウェアラブル頭部デバイス４００ＡのＩＭＵ４０９から取得される。ＩＭＵ４０９からの情報は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６からの情報と統合され、改良された正確度および／またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。

【0020】

いくつかの実施例では、深度カメラ４４４は、ウェアラブル頭部デバイス４００Ａのプロセッサ内に実装され得る、手のジェスチャトラッカ４１１に、３Ｄ画像を供給することができる。手のジェスチャトラッカ４１１は、例えば、深度カメラ４４４から受信された３Ｄ画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。

【0021】

いくつかの実施例では、１つ以上のプロセッサ４１６は、ヘッドギヤサブシステム４０４Ｂ、ＩＭＵ４０９、ＳＬＡＭ／ビジュアルオドメトリブロック４０６、深度カメラ４４４、マイクロホン４５０、および／または手のジェスチャトラッカ４１１からのデータを受信するように構成されてもよい。プロセッサ４１６はまた、制御信号を６ＤＯＦトーテムシステム４０４Ａに送信し、それから受信することができる。プロセッサ４１６は、ハンドヘルドコントローラ４００Ｂがテザリングされない実施例等では、無線で、６ＤＯＦトーテムシステム４０４Ａに結合されてもよい。プロセッサ４１６はさらに、視聴覚コンテンツメモリ４１８、グラフィカル処理ユニット（ＧＰＵ）４２０、および／またはデジタル信号プロセッサ（ＤＳＰ）オーディオ空間化装置４２２等の付加的コンポーネントと通信してもよい。ＤＳＰオーディオ空間化装置４２２は、頭部関連伝達関数（ＨＲＴＦ）メモリ４２５に結合されてもよい。ＧＰＵ４２０は、画像毎に変調された光の左源４２４に結合される、左チャネル出力と、画像毎に変調された光の右源４２６に結合される、右チャネル出力とを含むことができる。ＧＰＵ４２０は、立体視画像データを画像毎に変調された光の源４２４、４２６に出力することができる。ＤＳＰオーディオ空間化装置４２２は、オーディオを左スピーカ４１２および／または右スピーカ４１４に出力することができる。ＤＳＰオーディオ空間化装置４２２は、プロセッサ４１９から、ユーザから仮想音源（例えば、ハンドヘルドコントローラ４００Ｂを介して、ユーザによって移動され得る）への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、ＤＳＰオーディオ空間化装置４２２は、対応するＨＲＴＦを決定することができる（例えば、ＨＲＴＦにアクセスすることによって、または複数のＨＲＴＦを補間することによって）。ＤＳＰオーディオ空間化装置４２２は、次いで、決定されたＨＲＴＦを仮想オブジェクトによって発生された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。

【0022】

図４に示されるもの等のいくつかの実施例では、プロセッサ４１６、ＧＰＵ４２０、ＤＳＰオーディオ空間化装置４２２、ＨＲＴＦメモリ４２５、およびオーディオ／視覚的コンテンツメモリ４１８のうちの１つ以上のものは、補助ユニット４００Ｃ（上記に説明される補助ユニット３００に対応し得る）内に含まれてもよい。補助ユニット４００Ｃは、バッテリ４２７を含み、そのコンポーネントを給電する、および／または電力をウェアラブル頭部デバイス４００Ａおよび／またはハンドヘルドコントローラ４００Ｂに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス４００Ａのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。

【0023】

図４は、例示的ウェアラブルシステム４００の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット４００Ｃと関連付けられているような図４に提示される要素は、代わりに、ウェアラブル頭部デバイス４００Ａまたはハンドヘルドコントローラ４００Ｂと関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ４００Ｂまたは補助ユニット４００Ｃを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるものである。

【0024】

発話処理エンジン

【0025】

発話処理システムは、一般に、人間の発話（源信号）に対応する入力オーディオ信号を受け取り、入力オーディオ信号を処理および分析し、分析の結果として、人間の発話に対応する出力を生産する、システムを含む。これらのタスクを実施するためのプロセスまたはモジュールは、発話処理エンジンと見なされ得る。自動発話認識システムの場合、発話処理エンジンの出力は、人間の発話のテキスト書き起こし記録であり得る。自然言語処理システムの場合、出力は、人間の発話によって示される１つ以上のコマンドまたは命令、または人間の発話の意味論的意味のある表現（例えば、論理表現またはデータ構造）であり得る。他のタイプの発話処理システム（例えば、自動翻訳システム）も、検討され、本開示の範囲内である。

【0026】

発話処理システムは、多種多様な製品および用途、すなわち、従来の電話システム、自動化された音声メッセージングシステム、音声アシスタント（独立型およびスマートフォンベースの音声アシスタントを含む）、車両および航空機、デスクトップおよびドキュメント処理ソフトウェア、データエントリ、ホーム家電、医療デバイス、言語翻訳ソフトウェア、クローズドキャプションシステム、およびその他に見出される。発話処理システムの利点は、それらが、ユーザが、キーボードまたはタッチパネル等の従来のコンピュータ入力デバイスの代わりに、マイクロホンに提示されるような自然発話された言語を使用して、入力をコンピュータシステムに提供することを可能にし得ることである。故に、発話処理システムは、特に、従来の入力デバイス（例えば、キーボード）が利用不可能または非実践的であり得る、環境において有用であり得る。さらに、ユーザが直感的音声ベースの入力を提供することを可能にすることによって、発話認識システムは、没入感を高めることができる。したがって、発話認識は、ウェアラブルシステムのための、特に、ユーザ没入が主要目標であって、その存在が没入感を損なわせ得る、従来のコンピュータ入力デバイスの使用を限定することが望ましくあり得る、ウェアラブルシステムの仮想現実、拡張現実、および／または複合現実用途のための、自然な適合であり得る。

【0027】

図５は、いくつかの実施形態による、自動発話認識エンジン５００を示す。エンジン５００は、自動発話認識システム全般の例証であるように意図され、他の具体的システムも、可能性として考えられ、本開示の範囲内である。エンジン５００は、１つ以上のプロセッサ（例えば、ＣＰＵ、ＧＰＵ、および／またはＤＳＰ）、メモリ、入力デバイス（例えば、マイクロホン）、出力デバイス（例えば、ディスプレイ、スピーカ）、ネットワーク、データベース、および／または他の好適なコンポーネントを使用して実装されてもよい。エンジン５００では、源の人間の発話信号に対応する、オーディオ信号５１０が、信号事前処理段階５２０に提示される。いくつかの実施例では、信号事前処理段階５２０は、１つ以上の信号処理機能をオーディオ信号５１０に適用することができる。例えば、事前処理機能は、ピーク圧縮、雑音低減、帯域限定、等化、信号減衰、または他の好適な機能等のオーディオ処理機能を含むことができる。これらの事前処理機能は、オーディオ信号５１０を後に処理および分析するタスクを簡略化することができる。例えば、特徴抽出アルゴリズムは、利得および周波数特性等のあるオーディオ特性を有し、入力信号の信号対雑音比が最大限にされる、入力信号上で、最良に性能を発揮するように較正されることができる。いくつかの実施例では、事前処理オーディオ信号５１０は、信号がエンジン５００内のいずれかの場所でより確実に分析され得るように、信号を調整することができる。例えば、信号事前処理段階５２０は、オーディオ信号５１０を再エンコーディングする（例えば、具体的ビットレートで再エンコーディングする）、またはオーディオ信号５１０を、第１の形態（例えば、時間ドメイン信号）から、オーディオ信号５１０の後の処理を簡略化し得る、第２の形態（例えば、周波数ドメイン信号またはパラメータ表現）に変換することができる。いくつかの実施例では、事前処理段階５２０の１つ以上の機能は、ＤＳＰによって実施されてもよい。

【0028】

段階５３０では、特徴抽出プロセスは、（段階５２０において事前処理されるような）オーディオ信号５１０に適用されることができる。特徴抽出の目標は、オーディオ信号５１０の個々の発話特徴を識別し、特徴が（例えば、データベース内に記憶されるパターンと比較して）効果的にかつ一貫して処理され得るように、これらの特徴内の変動を低減または排除することである。例えば、特徴抽出は、話者のピッチ、性別、アクセント、発音、およびペースにおける変動を低減、排除、または制御することができる。特徴抽出はまた、記録機器（例えば、マイクロホンタイプ）、信号伝送（例えば、地上ベースの電話回線またはセルラー電話ネットワークを介して）、または記録環境（例えば、部屋音響、背景雑音レベル、マイクロホンからの話者の距離、マイクロホンに対する話者の角度）における変動を低減、排除、または制御することができる。特徴抽出のための種々の好適な技法は、当技術分野において公知である。

【0029】

段階５３０においてオーディオ信号５１０から抽出された発話特徴は、デコーダ段階５４０に提示されることができる。デコーダ段階５４０の目標は、そこからオーディオ信号５１０が生成された、源の人間の発話に対応する、テキスト出力５７０を決定することである。いくつかの実施例では、テキスト出力５７０は、テキストである必要はなく、源発話の別のデータ表現であることができる。発話特徴をテキストにデコーディングするための種々の技法、例えば、隠れマルコフモデル、ビタビデコーディング、ビーム検索、動的検索、マルチパス検索、加重有限状態トランスデューサ（ＷＦＳＴ）、または上記の任意の好適な組み合わせが、存在する。他の好適な技法は、当業者に熟知されているであろう。

【0030】

いくつかの実施例では、デコーダ５４０は、音響モデル化段階５５０を利用して、テキスト出力５７０の生成を促進することができる。音響モデル化段階５５０は、発話信号と言語学的単位（例えば、音素）との間の関係のモデルを使用して、１つ以上の言語学的単位をオーディオ信号５１０（段階５３０において抽出された１つ以上の特徴を含む）から識別することができる。音響モデル化段階５５０に適用され得る、種々の好適な音響モデル化技法は、当業者に熟知されているであろう。

【0031】

いくつかの実施例では、デコーダ５４０は、言語モデル化段階５６０を利用して、テキスト出力５７０の生成を促進することができる。言語学的モデル化段階５６０は、言語の文法、語彙、および他の特性のモデルを使用して、おそらく、オーディオ信号５１０の特徴に最も対応する、言語学的単位（例えば、音素）を決定することができる。例えば、段階５６０によって適用される言語学的モデルは、特定の抽出された特徴が、話者の言語内に低頻度で現れる単語よりその言語において高頻度で現れる単語に対応する可能性がより高いと結論付け得る。言語学的モデル化段階５６０に適用され得る種々の好適な言語学的モデル化技法は、当業者に熟知されているであろう。加えて、デコーダ５４０は、他の好適な技法またはモデルを利用して、テキスト出力５７０の生成を促進してもよい。本開示は、任意の特定の技法または技法のグループに限定されない。

【0032】

典型的には、テキスト出力５７０は、完璧な確実性を伴って、源の人間の発話に対応しない。代わりに、テキスト出力５７０が源の人間の発話に正しく対応する、尤度が、ある確率または信頼区間として表され得る。オーディオ信号５１０に影響を及ぼし得る多くの変数のため、高度な発話認識システムでも、全ての話者に関して完璧なテキスト出力を一貫して生産しない。例えば、エンジン５００等の発話認識システムの信頼性は、入力オーディオ信号５１０の品質に大きく依存し得る。オーディオ信号５１０が、理想的条件で、例えば、音響的に制御される環境において記録され、人間話者が、明確かつ直接、近距離からマイクロホンに発音する場合、源発話は、オーディオ信号からより容易に決定されることができる。例えば、特徴は、段階５３０において、オーディオ信号５１０からより確実に抽出されることができ、デコーダ５４０は、それらの特徴に対応するテキスト出力５７０をより効果的に決定することができる（例えば、音響モデル化が、段階５５０において、特徴により確実に適用されることができ、および／または言語学的モデル化が、段階５６０において、特徴により確実に適用されることができる）。

【0033】

しかしながら、実世界用途では、オーディオ信号５１０は、源の人間の発話を決定することがより困難になり得るほど、理想的条件から逸脱し得る。例えば、オーディオ信号５１０は、屋外環境または人間話者とマイクロホンとの間の実質的距離によって導入され得るような環境雑音、電気干渉（例えば、スマートフォンのためのバッテリ充電器）から等の電気雑音、近隣の表面（例えば、コンクリート、洗面所タイル）または音響空間（例えば、洞窟、大聖堂）から等の自然反響音、または他の望ましくない効果を組み込み得る。加えて、オーディオ信号５１０は、人間話者がマイクロホンから顔を背けるときに生じ得るようなある周波数の減衰を被り得る。これは、特に、減衰された周波数が有意な発話関連情報を搬送するもの（例えば、母音音を区別するために使用され得る、フォルマント周波数）であるときに問題となる。同様に、オーディオ信号５１０は、人間話者とマイクロホンとの間に広い距離が空いているときに生じ得る、全体的低振幅または低信号対雑音比を被り得る。加えて、人間話者が、発話しながら、移動および再配向する場合、オーディオ信号５１０は、信号の過程にわたって特性を変化させ、下層発話を決定する労力をさらに複雑にし得る。

【0034】

例示的システム５００は、例示的発話認識エンジンを図示するが、他のタイプの発話処理エンジンも、類似構造に従い得る。例えば、自然言語処理エンジンは、人間の発話に対応する入力オーディオ信号を受け取ることに応じて、信号事前処理段階を実施し、成分を信号から抽出し（例えば、セグメント化および／またはトークン化段階を介して）、ある場合には、１つ以上の言語学的モデル化サブシステムの支援下で、成分の検出／分析を実施し得る。さらに、いくつかの実施例では、例示的システム５００に示されるような自動発話認識エンジンの出力は、さらなる言語処理エンジンへの入力として使用されてもよい。例えば、自然言語処理エンジンは、例示的システム５００のテキスト出力５７０を入力として受け取り得る。そのようなシステムは、例示的システム５００によって直面されるものに類似する、課題を被り得る。例えば、上記に説明されるようなオーディオ信号の下層の源発話信号を回収することをより困難にし得る、入力オーディオ信号における変動はまた、他の形態の出力（例えば、自然言語処理エンジンの場合、論理表現またはデータ構造）を提供することをより困難にし得る。故に、そのようなシステムもまた、下記に説明されるような本発明から利点を享受することになる。

【0035】

ウェアラブルシステムを使用した発話処理の改良

【0036】

本開示は、センサ、例えば、ウェアラブルデバイスと関連付けられるもの（例えば、図１に関して上記に説明されるような頭部搭載型デバイス）からの入力を使用して、オーディオ信号５１０に関して上記に説明されるもの等の入力オーディオ信号内の変動を低減、排除、または制御することによって、発話処理システムの正確度を改良するためのシステムおよび方法を対象とする。そのような変動は、特に、発話処理の移動用途または屋外環境等の非制御環境内における発話処理の用途において顕著であり得る。ウェアラブルシステムは、そのような用途において使用するために意図されることが多く、そのような変動を被り得る。ウェアラブルシステムは、概して、頭部デバイス（例えば、ウェアラブル頭部デバイス１００）、ハンドヘルドコントローラ（例えば、ハンドヘルドコントローラ２００）、補助ユニット（例えば、補助ユニット３００）、および／または頭部デバイスの環境の任意の組み合わせを指し得る。いくつかの実施形態では、ウェアラブルシステムのセンサは、頭部デバイス、ハンドヘルドコントローラ、補助ユニット上、および／または頭部デバイスの環境内にあってもよい。例えば、ウェアラブルシステムは、移動性であるように設計され得るため、ウェアラブルシステムのユーザから単一定常マイクロホン（例えば、独立型音声支援デバイス）において記録されるオーディオ信号は、ユーザが単一定常マイクロホンから遠い場合、低信号対雑音比を、またはユーザがマイクロホンから顔を背けている場合、「音響陰影」または望ましくない周波数応答を被り得る。さらに、オーディオ信号は、ウェアラブルシステムの移動ユーザによって予期され得るように、ユーザが単一定常マイクロホンに対して移動および方向転換するにつれて、特性を経時的に変化させ得る。加えて、いくつかのウェアラブルシステムは、非制御環境において使用するために意図されるため、環境雑音（または他の人間の発話）が標的の人間の発話とともに記録される高い潜在性が、存在する。同様に、そのような非制御環境は、下層発話を不明瞭にし得る、望ましくないエコーおよび反響音をオーディオ信号５１０の中に導入し得る。

【0037】

図１における例示的ウェアラブル頭部デバイス１００に関して上記に説明されるように、ウェアラブルシステムは、ウェアラブルシステムのユーザおよび／または環境についての入力を提供し得る、１つ以上のセンサを含むことができる。例えば、ウェアラブル頭部デバイス１００は、カメラ（例えば、図４に説明されるカメラ４４４）を含み、環境に対応する視覚的信号を出力することができる。いくつかの実施例では、カメラは、現在、ウェアラブルシステムのユーザの正面にあるものを示す、頭部搭載型ユニット上の前向きに向いたカメラであることができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、ＬＩＤＡＲユニット、レーダユニット、および／または音響センサを含むことができ、これは、ユーザの環境の物理的幾何学形状（例えば、壁、物理的オブジェクト）に対応する信号を出力することができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、ＧＰＳユニットを含むことができ、これは、ウェアラブルシステムの現在の場所に対応する地理的座標を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、加速度計、ジャイロスコープ、および／または慣性測定ユニット（ＩＭＵ）を含み、ウェアラブル頭部デバイス１００の配向を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、温度または圧力センサ等の環境センサを含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、虹彩カメラ、指紋センサ、眼追跡センサ、またはユーザのバイタルサインを測定するためのセンサ等のバイオメトリックセンサを含むことができる。ウェアラブル頭部デバイス１００が、頭部搭載型ユニットを含む、実施例では、そのような配向は、ユーザの頭部の配向（さらに言うと、ユーザの口およびユーザの発話の方向）に対応し得る。他の好適なセンサも、含まれることができる。いくつかの実施形態では、ハンドヘルドコントローラ２００、補助ユニット３００、および／またはウェアラブル頭部デバイス１００の環境は、ウェアラブル頭部デバイス１００に対する上記に述べられたセンサのうちの任意の好適な１つ以上のものを含むことができる。加えて、ある場合には、１つ以上のセンサが、ウェアラブルシステムが相互作用する、環境内に設置されてもよい。例えば、ウェアラブルシステムは、自動車の運転者によって装着されるように設計されてもよく、適切なセンサ（例えば、深度カメラ、加速度計等）が、自動車の内部に設置されてもよい。本アプローチの１つの利点は、センサが、環境内の既知の場所を占有し得ることである。環境内で移動する、ウェアラブルデバイスに取り付けられ得るセンサと比較して、本構成は、それらのセンサによって提供されるデータの解釈を簡略化することができる。

【0038】

ウェアラブルシステムのそのようなセンサ（例えば、ウェアラブル頭部デバイス１００、ハンドヘルドコントローラ２００、補助ユニット３００、および／またはウェアラブル頭部デバイス１００の環境）によって提供される信号は、ウェアラブルシステムによって記録されるオーディオ信号の特性についての情報、および／またはオーディオ信号と下層の源発話信号との間の関係についての情報を提供するために使用されることができる。本情報は、ひいては、そのオーディオ信号の下層の源発話をより効果的に決定するために使用されることができる。

【0039】

例証するために、図６は、１つ以上のマイクロホンによって記録されるオーディオ信号の発話認識を改良するためにウェアラブルシステムを組み込む、例示的発話認識システム６００を示す。図６は、例示的ウェアラブル頭部デバイス１００、ハンドヘルドコントローラ２００、および補助ユニット３００のうちの１つ以上のものを含み得る、上記に説明されるウェアラブルシステム４００に対応し得る、ウェアラブルシステム６０１のユーザを示す。ウェアラブルシステム６０１のユーザは、口頭発声６０２（「源発話」）を提供し、これは、１つ以上のマイクロホン６０４において検出され、これは、対応するオーディオ信号６０６を出力する。ウェアラブルシステム６０１は、カメラ、ＬＩＤＡＲユニット、レーダユニット、音響センサ、ＧＰＳユニット、加速度計、ジャイロスコープ、ＩＭＵ、マイクロホン（マイクロホン６０４のうちの１つであり得る）、温度センサ、バイオメトリックセンサ、または任意の他の好適なセンサまたはセンサの組み合わせのうちの１つ以上のものを含む、上記に説明される１つ以上のセンサを含むことができる。ウェアラブルシステム６０１はまた、１つ以上のプロセッサ（例えば、ＣＰＵ、ＧＰＵ、および／またはＤＳＰ）、メモリ、入力デバイス（例えば、マイクロホン）、出力デバイス（例えば、ディスプレイ、スピーカ）、ネットワーク、および／またはデータベースを含むことができる。これらのコンポーネントは、ウェアラブル頭部デバイス１００、ハンドヘルドコントローラ２００、および補助ユニット３００の組み合わせを使用して実装されてもよい。いくつかの実施例では、ウェアラブルシステム６０１のセンサは、センサデータ６０８（２つ以上のセンサタイプからのセンサを含む、１つ以上のセンサが、並列に提示される、実施例等では、マルチチャネルセンサデータであり得る）を提供する。センサデータ６０８は、源発話を検出するマイクロホン６０４と並行して提供されてもよい。すなわち、ウェアラブルシステム６０１のセンサは、源発話が提供される時間における条件に対応する、センサデータ６０８を提供することができる。いくつかの実施例では、マイクロホン６０４のうちの１つ以上のものは、ウェアラブル頭部デバイス、ハンドヘルドコントローラ、および／またはウェアラブルシステム６０１の補助ユニット内、および／またはその環境内に含まれることができる。

【0040】

例示的システム６００では、サブシステム６１０が、センサデータ６０８およびオーディオ信号６０６を入力として受け取り、制御パラメータを決定し、オーディオ信号６０６を処理するために適用し、処理されたオーディオ信号を、入力として、出力（例えば、それぞれ、テキスト出力６６０および／または自然言語処理出力６８０）を生成し得る、信号処理エンジン（例えば、発話認識エンジン６５０および／または自然言語処理（ＮＬＰ）エンジン６７０）に提供することができる。サブシステム６１０は、下記に説明され、図６に示される、１つ以上のプロセス、段階、および／またはモジュールを含む。サブシステム６１０は、１つ以上のプロセッサ（例えば、ＣＰＵ、ＧＰＵ、および／またはＤＳＰ）、メモリ、ネットワーク、データベース、および／または他の好適なコンポーネントの任意の組み合わせを使用して実装されることができる。いくつかの実施例では、サブシステム６１０のいくつかまたは全ては、ウェアラブルシステム６０１上、例えば、頭部デバイス（例えば、ウェアラブル頭部デバイス１００）、ハンドヘルドコントローラ（例えば、ハンドヘルドコントローラ２００）、および／または補助ユニット（例えば、補助ユニット３００）のうちの１つ以上のもの上に実装されることができる。いくつかの実施例では、サブシステム６１０のいくつかまたは全ては、マイクロホン６０４（例えば、スマートフォンまたは独立型音声支援デバイス）を含有する、デバイス上に実装されることができる。いくつかの実施例では、サブシステム６１０のいくつかまたは全ては、クラウドサーバまたは別のネットワーク対応コンピューティングデバイス上に実装されることができる。例えば、ローカルデバイスは、オーディオ信号および／またはセンサデータの処理に関連するもの等のサブシステム６１０の待ち時間感知機能を実施し得る一方、クラウドサーバまたは他のネットワーク対応デバイスは、大算出またはメモリリソースを要求する、サブシステム６１０の機能（例えば、複雑な人工ニューラルネットワークを訓練または適用する）を実施し、出力をローカルデバイスに伝送し得る。サブシステム６１０の他の実装も、当業者に明白となり、本開示の範囲内である。

【0041】

例示的システム６００では、サブシステム６１０は、センサデータ分析段階６２０を含む。センサデータ分析段階６２０は、例えば、ウェアラブルシステム６０１の環境についての情報を決定するために、センサデータ６０８を処理および分析することができる。センサデータ６０８が、異種源（例えば、カメラデータおよびＧＰＳデータ）からのセンサデータを含む、実施例では、センサデータ分析段階６２０は、当業者に公知の技法（例えば、カルマンフィルタ）に従って、センサデータを組み合わせることができる（「センサ融合」）。いくつかの実施例では、センサデータ分析段階６２０は、センサデータ６０８に加え、他の源からのデータを組み込むことができる。例えば、センサデータ分析段階６２０は、ＧＰＳユニットの出力に基づいて、場所情報を決定するために、ＧＰＳユニットからのセンサデータ６０８とマップデータおよび／または衛星データ（例えば、そのようなデータを記憶するメモリまたはデータベースから）を組み合わせることができる。実施例として、ＧＰＳユニットは、センサデータ６０８の一部として、ウェアラブルシステム６０１の緯度および経度に対応するＧＰＳ座標を出力し得る。センサデータ分析段階６２０は、マップデータとともに、緯度および経度を使用し、ウェアラブルシステム６０１が位置する、国、町、通り、ユニット（例えば、商業用ユニットまたは住居ユニット）、または部屋を識別する、または近隣の事業または着目点を識別し得る。同様に、建築物データ（例えば、公共建物記録から）が、センサデータ６０８と組み合わせられ、ウェアラブルシステム６０１が位置する、建物を識別することができる、または天候データ（例えば、衛星データのリアルタイムフィードから）が、センサデータ６０８と組み合わせられ、その場所における現在の天候条件を識別することができる。他の例示的用途も、明白となり、本開示の範囲内である。

【0042】

より小さいスケールでは、センサデータ分析段階６２０は、センサデータ６０８を分析し、ウェアラブルシステム６０１の直近の、またはウェアラブルシステム６０１のユーザに関連する、オブジェクトおよび幾何学形状に関連する情報を生成することができる。例えば、当技術分野において公知の技法を使用すると、ウェアラブルシステム６０１のＬＩＤＡＲセンサまたはレーダユニットからのデータは、ウェアラブルシステム６０１が、８フィート離れて位置する壁に、その壁の法線に対して角度θで向いていることを示し得、ウェアラブルシステム６０１のカメラからの画像データは、その壁がセラミックタイル（音響的に反射性材料）から作製されている可能性が高いことを識別することができる。いくつかの実施例では、ウェアラブルシステム６０１の音響センサは、表面が音響信号に及ぼし得る、音響影響を測定するために使用されることができる（例えば、表面から反射された信号と表面に伝送される源信号を比較することによって）。いくつかの実施例では、センサデータ分析段階６２０は、例えば、ウェアラブルシステム６０１と関連付けられる、加速度計、ジャイロスコープ、またはＩＭＵを使用して、センサデータ６０８を使用して、ウェアラブルシステム６０１のユーザの位置および／または配向を決定することができる。拡張現実または複合現実用途等のいくつかの実施例では、段階６２０は、ユーザの現在の環境のマップまたは他の表現を組み込むことができる。例えば、ウェアラブルシステム６０１のセンサが、部屋の幾何学形状の３Ｄ表現を構築するために使用されている場合、その３Ｄ表現データは、センサデータ６０８と併用されることができる。同様に、段階６２０は、近隣の表面の材料およびそれらの表面の音響性質等の情報、環境内の他のユーザに関連する情報（例えば、その場所および配向および／またはその音声の音響特性）、および／またはウェアラブルシステム６０１のユーザについての情報（例えば、ユーザの年齢層、性別、母国語、および／または音声特性）を組み込むことができる。

【0043】

いくつかの実施例では、センサデータ分析段階６２０は、センサデータ６０８を分析し、マイクロホン６０４に関連する情報を生成することができる。例えば、センサデータ６０８は、ウェアラブルシステム６０１に対する位置および／または配向等の１つ以上のマイクロホン６０４の位置および／または配向を提供してもよい。ウェアラブルシステム６０１が１つ以上のマイクロホン６０４を含む、実施例では、１つ以上のマイクロホン６０４の位置および配向は、直接、ウェアラブルシステム６０１の位置および配向にリンクされてもよい。いくつかの実施例では、ウェアラブルシステム６０１は、１つ以上のマイクロホン６０４ではない、１つ以上の付加的マイクロホンを含むことができる。そのような付加的な１つ以上のマイクロホンは、例えば、既知の位置および配向から、かつ短距離から検出されるようなユーザの発話に対応する、ベースラインオーディオ信号を提供するために使用されることができる。例えば、付加的な１つ以上のマイクロホンは、ユーザの環境内の既知の配向を伴って、既知の位置に存在し得る。本ベースラインオーディオ信号の振幅、位相、および周波数特性は、オーディオ信号６０６と比較され、源発話６０２とオーディオ信号６０６との間の関係を識別することができる。例えば、第１の時間において検出された第１のオーディオ信号が、ベースラインオーディオ信号の２分の１の振幅を有し、第２の時間において検出された第２のオーディオ信号が、ベースラインオーディオ信号の４分の１の振幅を有する場合、ユーザは、第１の時間と第２の時間との間の間隔の間、マイクロホン６０４から離れるように移動していることが推測され得る。これは、任意の好適な数のマイクロホン（例えば、初期マイクロホンおよび２つ以上の付加的マイクロホン）に拡張されることができる。

【0044】

上記に説明されるようなセンサデータ６０８および／または他のデータに基づいて、センサデータ分析段階６２０によって出力された情報は、源発話６０２と対応するオーディオ信号６０６との間の関係を識別することができる。本関係を説明する情報は、段階６３０において、オーディオ信号６０６、１つ以上のマイクロホン６０４、および／またはウェアラブルシステム６０１に適用され得る、１つ以上の制御パラメータを算出するために使用されることができる。これらの制御パラメータの適用は、システム６００が下層源発話６０２をオーディオ信号６０６から回収し得る、正確度を改良することができる。いくつかの実施例では、段階６３０において算出された制御パラメータは、オーディオ信号６０６を処理するために適用され得る、デジタル信号処理（ＤＳＰ）パラメータを含むことができる。例えば、そのような制御パラメータは、デジタル信号処理（ＤＳＰ）雑音低減プロセスのためのパラメータ（例えば、それを下回るとゲート付き雑音低減がオーディオ信号６０６に適用されるであろう、信号閾値、または減衰されるべきオーディオ信号６０６の雑音周波数）、ＤＳＰエコーキャンセルまたは反響音除去プロセスのためのパラメータ（例えば、オーディオ信号６０６とその信号のエコーとの間の遅延に対応する時間値）、または他のオーディオＤＳＰプロセスのためのパラメータ（例えば、位相補正、限定、ピッチ補正）を含むことができる。

【0045】

いくつかの実施例では、制御パラメータは、オーディオ信号６０６に適用されるべきＤＳＰフィルタを定義し得る。例えば、センサデータ６０８（例えば、ウェアラブルシステム６０１の頭部搭載型ユニットのマイクロホンから）は、ウェアラブルシステム６０１のユーザ（すなわち、源発話６０２を生成するユーザ）の音声に対応する、特性周波数曲線を示すことができる。本周波数曲線は、デジタル帯域通過フィルタを定義する、制御パラメータを決定し、オーディオ信号６０６に適用するために使用されることができる。本帯域通過フィルタは、源発話６０２をオーディオ信号６０６内でより顕著にさせるために、源発話６０２により近似して対応する周波数を隔離することができる。いくつかの実施例では、センサデータ６０８（例えば、ウェアラブルシステム６０１の頭部搭載型ユニットのマイクロホンから）は、ウェアラブルシステム６０１の近傍の異なるユーザ（ウェアラブルシステム６０１のユーザ以外）の音声に対応する、特性周波数曲線を示すことができる。本周波数曲線は、デジタルノッチフィルタを定義する、制御パラメータを決定し、オーディオ信号６０６に適用するために使用されることができる。本ノッチフィルタは、源発話６０２をオーディオ信号６０６内でより顕著にレンダリングするために、望ましくない音声をオーディオ信号６０６から除去することができる。同様に、センサデータ６０８（例えば、ウェアラブルシステム６０１のカメラ）は、近傍内の具体的他の個人およびウェアラブルシステム６０１に対するその位置を識別することができる。本情報は、ノッチフィルタのレベルを決定することができる（例えば、より近くの個人は、その音声が、オーディオ信号６０６内でより大きな音である可能性が高く、適用される必要があり得る減衰のレベルも高い）。別の実施例として、ユーザの近傍内のある表面および／または材料の存在は、マイクロホン６０４によって検出されるようなそのユーザの音声の周波数特性に影響を及ぼし得る。例えば、ユーザが、部屋の角に立っている場合、ユーザの音声のある低周波数は、オーディオ信号６０６内で顕著になり得る。本情報は、オーディオ信号６０６に適用されるべき高域通過フィルタのパラメータ（例えば、カットオフ周波数）を生成するために使用されることができる。これらの制御パラメータは、段階６４０において、または発話認識エンジン６５０および／または自然言語処理エンジン６７０の一部として（例えば、上記に説明される信号事前処理段階５２０または特徴抽出段階５３０に対応する段階において）、オーディオ信号６０６に適用されることができる。

【0046】

いくつかの実施例では、段階６３０において算出された制御パラメータは、マイクロホン６０４を構成するために使用されることができる。例えば、そのような制御パラメータは、マイクロホン６０４に結合されるハードウェア増幅器のための利得レベル等のハードウェア構成パラメータ、マイクロホン６０４の指向性（例えば、マイクロホン６０２が指向されるべきベクトル）を調節するためのビーム形成パラメータ、有効または無効にされるべき複数のマイクロホン６０４を決定するためのパラメータ、またはマイクロホン６０４が、位置付けられる、または配向されるべき場所を制御するためのパラメータ（例えば、マイクロホン６０４がモバイルプラットフォームに取り付けられる、実施例において）を含むことができる。いくつかの実施例では、マイクロホン６０４は、スマートフォンまたは別のモバイルデバイスのコンポーネントであってもよく、段階６３０において算出された制御パラメータは、モバイルデバイスを制御する（例えば、モバイルデバイスの種々のコンポーネントを有効にする、またはソフトウェアをモバイルデバイス上で構成または動作させる）ために使用されることができる。

【0047】

いくつかの実施例では、段階６３０において算出された制御パラメータは、ウェアラブルシステム６０１自体を制御するために使用されることができる。例えば、そのような制御パラメータは、メッセージをウェアラブルシステム６０１のユーザにディスプレイ１１０Ａ／１１０Ｂまたはスピーカ１２０Ａ／１２０Ｂ等を介して提示するためのパラメータ（例えば、ユーザが発話認識正確度を改良するために、近隣の壁から離れるように移動すべきであることのオーディオまたはビデオメッセージ）、またはウェアラブルシステム６０１の１つ以上のセンサを有効にする、無効にする、または再構成するためのパラメータ（例えば、より有用なカメラデータを取得するために、サーボ搭載型カメラを再配向するために）を含み得る。ウェアラブルシステム６０１がマイクロホン６０４を含む、実施例では、制御パラメータは、上記に説明されるようなマイクロホン６０４を制御するために、ウェアラブルシステム６０１に送信されることができる。

【0048】

いくつかの実施例では、段階６３０において算出された制御パラメータは、発話処理システム（例えば、発話認識エンジン６５０および／または自然言語処理エンジン）のデコーディングプロセス（例えば、上記に説明されるデコーディングプロセス５４０）に影響を及ぼすために使用されることができる。例えば、センサデータ６０８は、ユーザの言語の使用に影響を及ぼし得る、ユーザの環境の特性、挙動、または精神状態を示し得る。例えば、センサデータ６０８（例えば、カメラおよび／またはＧＰＳユニットから）は、ユーザがフットボールの試合を観戦していることを示し得る。ユーザの発話（すなわち、源発話６０２）が、ユーザがフットボールの試合を観戦している間、フットボール関連単語（例えば、「コーチ」、「クウォーターバック」、「タッチダウン」）を含む可能性が通常よりはるかに高くあり得るため、発話処理システム（例えば、言語モデル化段階５６０）の制御パラメータは、一時的に、オーディオ信号がフットボール関連単語に対応する、より高い確率を反映させるように設定されることができる。

【0049】

図６に示されるようないくつかの実施例では、個々の更新モジュール６３２、６３４、および６３６は、段階６３０において算出された制御パラメータを決定することができる、または、段階６３０において算出された制御パラメータおよび／またはセンサデータ６０８を、オーディオ信号６０６、マイクロホン６０４、ウェアラブルシステム６０１、または上記の任意のハードウェアまたはソフトウェアサブシステムに適用することができる。例えば、ビーム形成器更新モジュール６３２は、センサデータ６０８または段階６３０において算出された１つ以上の制御パラメータに基づいて、ビーム形成モジュール（例えば、マイクロホン６０４のビーム形成モジュール）がオーディオ信号６０６の認識または自然言語処理を改良するために更新され得る方法を決定することができる。いくつかの実施例では、ビーム形成更新モジュール６３２は、センサアレイによって検出された信号の信号対雑音比を最大限にするために、センサアレイ（例えば、マイクロホン６０４のアレイ）の方向性を制御することができる。例えば、ビーム形成更新モジュール６３２は、源発話６０２が最小限の雑音および歪みを伴って検出されるように、マイクロホン６０４の方向性を調節することができる。例えば、複数の音声を伴う部屋内では、適応ビーム形成モジュールのソフトウェアは、マイクロホン６０４を着目音声に対応する信号電力（例えば、源発話６０２に対応する音声）を最大限にするように指向することができる。例えば、ウェアラブルシステム６０１のセンサは、ウェアラブルシステム６０１がマイクロホン６０４からある距離に位置することを示す、データを出力することができ、そこから、マイクロホン６０４までの源発話６０２の飛行時間値が、決定されることができる。本飛行時間値は、発話認識エンジン６５０が源発話６０２をオーディオ信号６０６から識別する能力を最大限にするために、当業者に熟知されている技法を使用して、ビーム形成を較正するために使用されることができる。

【0050】

いくつかの実施例では、雑音低減更新モジュール６３４は、センサデータ６０８または段階６３０において算出された１つ以上の制御パラメータに基づいて、雑音低減プロセスがオーディオ信号６０６の認識または自然言語処理を改良するために更新され得る方法を決定することができる。いくつかの実施例では、雑音低減更新モジュール６３４は、オーディオ信号６０６の信号対雑音比を最大限にするために、オーディオ信号６０６に適用される雑音低減プロセスのパラメータを制御することができる。これは、ひいては、発話認識エンジン６５０によって実施される自動発話認識を促進することができる。例えば、雑音低減更新モジュール６３４は、源発話６０２の情報を搬送する、オーディオ信号６０６の周波数を上昇（または減衰させるように低下）させながら、信号減衰を雑音が存在する可能性が高いオーディオ信号６０６の周波数に選択的に適用することができる。ウェアラブルシステム６０１のセンサは、雑音低減更新モジュール６３４が、雑音に対応する可能性が高いオーディオ信号６０６の周波数および源発話６０２についての情報を搬送する可能性が高い周波数を識別することに役立つデータを提供することができる。例えば、ウェアラブルシステム６０１のセンサ（例えば、ＧＰＳ、ＬＩＤＡＲ等）は、ウェアラブルシステム６０１が航空機上に位置することを識別し得る。航空機は、ある特性周波数を有する、背景雑音と関連付けられ得る。例えば、航空機エンジン雑音は、既知の周波数ｆ_０の周囲に集中され得る。センサからの本情報に基づいて、雑音低減更新モジュール６３４は、オーディオ信号６０６の周波数ｆ_０を減衰させることができる。同様に、ウェアラブルシステム６０１のセンサ（例えば、ウェアラブルシステム６０１に搭載されるマイクロホン）は、ウェアラブルシステム６０１のユーザの音声に対応する、周波数シグネチャを識別することができる。雑音低減更新モジュール６３４は、帯域通過フィルタをその周波数シグネチャに対応する周波数範囲に適用することができる、または雑音低減がその周波数範囲に適用されないことを確実にすることができる。

【0051】

いくつかの実施例では、エコーキャンセル（または反響音除去）更新モジュール６３６は、センサデータ６０８または段階６３０において算出された１つ以上の制御パラメータに基づいて、エコーキャンセルユニットがオーディオ信号６０６の認識または自然言語処理を改良するために更新され得る方法を決定することができる。いくつかの実施例では、エコーキャンセル更新モジュール６３６は、発話認識エンジン６５０が源発話６０２をオーディオ信号６０６から決定する能力を最大限にするために、オーディオ信号６０６に適用されるエコーキャンセルユニットのパラメータを制御することができる。例えば、エコーキャンセル更新モジュール６３６は、エコーキャンセルユニットに、源発話後に１００ミリ秒続くオーディオ信号６０６内のエコーを検出および補正する（例えば、コームフィルタを介して）ように命令することができる。そのようなエコーは、発話処理システム（例えば、発話認識エンジン６５０、自然言語処理エンジン６７０）が源発話を決定する能力に干渉し得る（例えば、オーディオ信号６０６から段階５３０において図５に関して上記に説明されるような特徴を抽出する能力に影響を及ぼすことによって）ため、これらのエコーを除去することは、発話認識、自然言語処理、および他の発話処理タスクのより高い正確度をもたらし得る。いくつかの実施例では、ウェアラブルシステム６０１のセンサは、エコーキャンセルのための制御パラメータを決定するために使用され得る、センサデータ６０８を提供することができる。例えば、そのようなセンサ（例えば、カメラ、ＬＩＤＡＲ、レーダ、音響センサ）は、ウェアラブルシステム６０１のユーザが、ある表面から１０フィートに位置し、その表面の法線に対して角度θ_１でその表面に向いており、さらに、マイクロホン６０４がその表面から２０フィートに位置し、角度θ_２で表面に向いていることを決定することができる。本センサデータから、表面が、源信号６０２後のある時間（すなわち、ユーザから表面までの飛行時間＋表面からマイクロホン６０４までの飛行時間）にマイクロホン６０４に到達する、エコーを生産する可能性が高いことが、算出されることができる。同様に、センサデータから、表面が、洗面所タイル表面または既知の音響反射性性質を伴う別の表面に対応し、それらの反射性性質が、オーディオ信号６０６内の結果として生じる音響反射を減衰させるであろう、反響音除去ユニットの制御パラメータを算出するために使用され得ることが、決定されることができる。

【0052】

同様に、いくつかの実施例では、信号調整が、発話オーディオ信号６０６に適用され、音響環境によって発話オーディオ信号６０６に適用されるイコライゼーションを考慮することができる。例えば、部屋は、例えば、部屋の幾何学形状（例えば、寸法、立方体体積）、材料（例えば、コンクリート、洗面所タイル）、または音響環境内のマイクロホン（例えば、マイクロホン６０４）によって検出されるような信号に影響を及ぼし得る他の特性によって、発話オーディオ信号６０６のある周波数を増加または減衰させ得る。これらの影響は、発話認識エンジン６５０が異なる音響環境を横断して一貫して性能を発揮する能力を複雑にし得る。ウェアラブルシステム６０１のセンサは、そのような影響に対抗するために使用され得る、センサデータ６０８を提供することができる。例えば、センサデータ６０８は、上記に説明されるように、部屋のサイズまたは形状または音響的に有意な材料の存在を示すことができ、そこから、１つ以上のフィルタが、決定され、オーディオ信号に適用され、部屋の影響に対抗することができる。いくつかの実施例では、センサデータ６０８は、ユーザが存在する部屋の立方体体積を示す、センサ（例えば、カメラ、ＬＩＤＡＲ、レーダ、音響センサ）によって提供されることができ、その部屋の音響影響が、フィルタとしてモデル化されることができ、そのフィルタの反転が、オーディオ信号に適用され、その音響影響を補償することができる。

【0053】

いくつかの実施例では、モジュール６３２、６３４、または６３６、または例示的システム６００の他の好適な要素（例えば、段階６２０または段階６４０）は、所定のマッピングを利用して、センサデータ６０８に基づいて、制御パラメータを決定することができる。上記に説明されるいくつかの実施例では、制御パラメータは、直接、センサデータ６０８に基づいて算出される。例えば、上記に説明されるように、エコーキャンセル更新モジュール６３６は、オーディオ信号６０６内に存在するエコーを減衰させるために適用され得る、エコーキャンセルユニットのための制御パラメータを決定することができる。上記に説明されるように、そのような制御パラメータは、ウェアラブルシステム６０１とマイクロホン６０４との間の距離を幾何学的に決定し、空気中で音速で進行するオーディオ信号がウェアラブルシステム６０１からマイクロホンまで進行するために要求するであろう、飛行時間を算出し、エコーキャンセルユニットのエコー周期をその飛行時間に対応するように設定することによって算出されることができる。但し、ある場合には、制御パラメータは、センサデータ６０８とパラメータを制御するためのセンサデータのマッピングを比較することによって決定されることができる。そのようなマッピングは、クラウドサーバまたは別のネットワーク化されたデバイス上等のデータベース内に記憶され得る。いくつかの実施例では、例示的システム６０１の１つ以上の要素（例えば、ビーム形成器更新モジュール６３２、雑音低減更新モジュール６３４、エコーキャンセル更新モジュール６３６、段階６３０、段階６４０、発話認識エンジン６５０、および／または自然言語処理エンジン６７０）は、データベースにクエリし、センサデータ６０８に対応する、１つ以上の制御パラメータを読み出すことができる。本プロセスは、上記に説明されるような制御パラメータの直接算出の代わりに、またはそれに加え、生じ得る。そのようなプロセスでは、センサデータ６０８は、所定のマッピングに提供され得、所定のマッピング内のセンサデータ６０８に最も近似して対応する、１つ以上の制御パラメータが、返されることができる。センサデータとパラメータの所定のマッピングを使用することは、いくつかの利点を持ち得る。例えば、所定のマッピングからのルックアップを実施することは、特に、算出が、複雑な幾何学的データを伴い得るとき、またはウェアラブルシステム６０１のセンサが、有意な待ち時間または帯域幅限定を被り得る場合、リアルタイムでセンサデータを処理するより算出上安価となり得る。さらに、所定のマッピングは、（例えば、数学的モデル化によって）センサデータ単独から算出することが困難であり得る、センサデータと制御パラメータとの間の関係を捕捉することができる。

【0054】

いくつかの実施例では、機械学習技法が、センサデータと制御パラメータのマッピングを生成または精緻化する、または別様に制御パラメータをセンサデータ６０８から決定するために使用されることができる。例えば、ニューラルネットワーク（または他の適切な機械学習技術）は、当業者に熟知されている技法に従って、センサデータ入力に基づいて、所望の制御パラメータを識別するように訓練されることができる。所望の制御パラメータが、識別されることができ、ニューラルネットワークはさらに、ユーザフィードバックを通して精緻化される。例えば、システム６００のユーザは、発話認識出力（例えば、テキスト出力６６０）および／または自然言語処理出力（例えば、自然言語処理出力６８０）の品質を評定するようにプロンプトされることができる。そのようなユーザ評定は、所与のセットのセンサデータが特定のセットの制御パラメータをもたらすであろう、尤度を調節するために使用されることができる。例えば、ユーザが、特定のセットの制御パラメータおよび特定のセットのセンサデータに関して、テキスト出力６６０の高評定を報告する場合、そのセンサデータとそれらの制御パラメータのマッピングが、作成されることができる（またはそれら間のリンクが強化される）。逆に言えば、低評定は、センサデータと制御パラメータのマッピングを弱化または削除させることができる。

【0055】

同様に、機械学習技法は、発話認識エンジン（例えば、６５０）が、ユーザに属する発話と、他のエンティティに属する発話、例えば、テレビまたはステレオシステムから発出する発話とを弁別する能力を改良するために利用されることができる。上記に説明されるように、ニューラルネットワーク（または他の適切な機械学習技術）は、本弁別を実施する（すなわち、入力オーディオがユーザまたはある他の源に属するかどうかを決定する）ように訓練されることができる。ある場合には、ユーザがそのユーザに属することが既知の入力オーディオのセットを提供する、較正ルーチンが、ニューラルネットワークを訓練するために使用されることができる。他の好適な機械学習技術も、同一目的のために使用されることができる。

【0056】

更新モジュール６３２、６３４、および６３６は、それぞれ、ビーム形成更新モジュール、雑音低減更新モジュール、およびエコーキャンセルモジュールを備えるように説明されるが、他の好適なモジュールも、任意の組み合わせで含まれてもよい。例えば、いくつかの実施例では、ＥＱ更新モジュールは、（上記に説明されるような）フィルタリングプロセスがセンサデータ６０８および／または段階６３０において算出された１つ以上の制御パラメータに基づいて更新され得る方法を決定することができる。さらに、モジュール６３２、６３４、および６３６に関して上記に説明される機能は、段階６３０および／または段階６４０等の例示的システム６００の他の要素または発話認識エンジン６５０または自然言語処理エンジン６７０の一部として実施されることができる。

【0057】

開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、１つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付される請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるものである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版