(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-31
(45)【発行日】2024-11-11
(54)【発明の名称】発話処理エンジンのための入力の決定
(51)【国際特許分類】
G10L 15/28 20130101AFI20241101BHJP
G10L 15/24 20130101ALI20241101BHJP
【FI】
G10L15/28 230K
G10L15/24 Z
(21)【出願番号】P 2021551538
(86)(22)【出願日】2020-02-28
(86)【国際出願番号】 US2020020469
(87)【国際公開番号】W WO2020180719
(87)【国際公開日】2020-09-10
【審査請求日】2023-02-08
(32)【優先日】2019-03-01
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】514108838
【氏名又は名称】マジック リープ, インコーポレイテッド
【氏名又は名称原語表記】Magic Leap,Inc.
【住所又は居所原語表記】7500 W SUNRISE BLVD,PLANTATION,FL 33322 USA
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】シーダー, アンソニー ロバート
(72)【発明者】
【氏名】ライダー, コルビー ネルソン
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2016-004270(JP,A)
【文献】国際公開第2016/151956(WO,A1)
【文献】特表2018-512619(JP,A)
【文献】特表2017-520012(JP,A)
【文献】特開2007-199552(JP,A)
【文献】米国特許出願公開第2017/0270919(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
信号を発話処理エンジンに提示する方法であって、前記方法は、
第1のマイクロホンを介して、第1のオーディオ信号を受信することと、
前記第1のオーディオ信号の第1の部分を識別することと、
前記第1のオーディオ信号の前記第1の部分に関して、前記第1の部分が、前記発話処理エンジンへの入力としての前記発話処理エンジンのユーザによって指向された発話を備える第1の確率を決定することと、
前記第1のオーディオ信号の第2の部分を識別することであって、前記第2の部分は、前記第1のオーディオ信号内で前記第1の部分に続く、ことと、
前記第1のオーディオ信号の前記第2の部分に関して、前記第2の部分が前記発話処理エンジンへの入力として前記ユーザによって指向された発話を備える第2の確率を決定することと、
前記第1の確率が第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の前記第1の部分を前記発話処理エンジンへと提示される第1の入力信号に含めることと、
前記第1の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の前記第1の部分を前記第1の入力信号から除外することと、
前記第2の確率が前記第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の前記第2の部分を前記第1の入力信号に含めることと、
前記第2の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の前記第2の部分を前記第1の入力信号から除外することと、
前記第1の入力信号を前記発話処理エンジンに提示することと
を含
み、
前記第1の入力信号を前記発話処理エンジンに提示することは、前記第1のオーディオ信号の前記第1の部分および前記第2の部分の両方を備える前記第1の入力信号を単一命令として前記発話処理エンジンに提示することを含み、前記発話処理エンジンは、前記単一命令に基づいて出力を生成する、方法。
【請求項2】
前記第1の確率は、前記第1のオーディオ信号の前記第1の部分とデータベース内の複数のオーディオ信号との比較に基づいて決定され、前記複数のオーディオ信号の各オーディオ信号は、その個別のオーディオ信号が発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、請求項1に記載の方法。
【請求項3】
前記ユーザと関連付けられる第1のセンサからの第1のセンサデータを受信することをさらに含み、前記第1の確率は、前記第1のセンサデータとデータベース内の複数のセンサデータとの比較に基づいて決定され、前記データベース内の前記複数のセンサデータの各センサデータは、オーディオ信号と関連付けられ、さらに、その個別のオーディオ信号が発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、請求項1に記載の方法。
【請求項4】
前記第1のセンサは、前記ユーザによって装着されるように構成されるウェアラブル頭部ユニットと関連付けられる、請求項3に記載の方法。
【請求項5】
前記第1のセンサデータは、前記ユーザの位置、配向、眼移動、眼視線標的、またはバイタルサインのうちの1つ以上のものを示す、請求項4に記載の方法。
【請求項6】
前記第1のオーディオ信号の前記第1の部分は、前記第1のセンサデータに基づいて識別される、請求項5に記載の方法。
【請求項7】
前記第2の確率は、少なくとも部分的に、前記第1の確率に基づいて決定される、請求項1に記載の方法。
【請求項8】
入力を発話処理エンジンに提供するためのシステムであって、前記システムは、
マイクロホンと、
回路網であって、前記回路網は、
前記マイクロホンを介して、第1のオーディオ信号を受信することと、
前記第1のオーディオ信号の第1の部分を識別することと、
前記第1のオーディオ信号の前記第1の部分に関して、前記第1の部分が前記発話処理エンジンへの入力としてユーザによって指向された発話を備える第1の確率を決定することと、
前記第1のオーディオ信号の第2の部分を識別することであって、前記第2の部分は、前記第1のオーディオ信号内で前記第1の部分に続く、ことと、
前記第1のオーディオ信号の前記第2の部分に関して、前記第2の部分が前記発話処理エンジンへの入力として前記ユーザによって指向された発話を備える第2の確率を決定することと、
前記第1の確率が第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の前記第1の部分を前記発話処理エンジンへと提示される第1の入力信号に含めることと、
前記第1の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の前記第1の部分を前記第1の入力信号から除外することと、
前記第2の確率が前記第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の前記第2の部分を前記第1の入力信号に含めることと、
前記第2の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の前記第2の部分を前記第1の入力信号から除外することと、
前記第1の入力信号を前記発話処理エンジンに提示することと
を実施するように構成される、回路網と
を含
み、
前記第1の入力信号を前記発話処理エンジンに提示することは、前記第1のオーディオ信号の前記第1の部分および前記第2の部分の両方を備える前記第1の入力信号を単一命令として前記発話処理エンジンに提示することを含み、前記発話処理エンジンは、前記単一命令に基づいて出力を生成する、システム。
【請求項9】
前記第1の確率は、前記第1のオーディオ信号の前記第1の部分とデータベース内の複数のオーディオ信号との比較に基づいて決定され、前記複数のオーディオ信号の各オーディオ信号は、その個別のオーディオ信号が発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、請求項8に記載のシステム。
【請求項10】
前記システムは、センサをさらに含み、前記回路網はさらに、
前記センサを介して、前記ユーザからの第1のセンサデータを受信することを実施するように構成され、前記第1の確率は、前記第1のセンサデータとデータベース内の複数のセンサデータとの比較に基づいて決定され、前記データベース内の前記複数のセンサデータの各センサデータは、オーディオ信号と関連付けられ、さらに、その個別のオーディオ信号が発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、請求項8に記載のシステム。
【請求項11】
前記第1のセンサデータは、前記ユーザの位置、配向、眼移動、眼視線標的、またはバイタルサインのうちの1つ以上のものを示す、請求項10に記載の方法。
【請求項12】
前記第1のオーディオ信号の前記第1の部分は、前記第1のセンサデータに基づいて識別される、請求項11に記載のシステム。
【請求項13】
前記第2の確率は、少なくとも部分的に、前記第1の確率に基づいて決定される、請求項8に記載のシステム。
【請求項14】
前記システムは、前記マイクロホンと、前記回路網とを含むウェアラブル頭部ユニットを含む、請求項8に記載のシステム。
【請求項15】
前記システムは、前記マイクロホンと、前記回路網とを含む車両を含む、請求項8に記載のシステム。
【請求項16】
前記システムは、前記マイクロホンと、前記回路網とを含む電子音声アシスタントを含む、請求項8に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、その内容が、参照することによってその全体として本明細書に組み込まれる、2019年3月1日に出願された、米国仮出願第62/812,959号の優先権を主張する。
【0002】
本開示は、概して、発話信号を処理するためのシステムおよび方法に関し、特に、発話処理エンジンへの提示のために、発話信号を処理するためのシステムおよび方法に関する。
【背景技術】
【0003】
発話認識のためのシステムは、典型的には、1つ以上のマイクロホンを介して、人間の発話を表すオーディオ入力を受信し、オーディオ入力を処理し、そのオーディオ入力に対応する、単語、論理構造、または他の出力を決定することをタスクとして課される。例えば、自動発話認識(ASR)システムは、オーディオ入力信号に対応する人間の発話に基づいて、テキスト出力を生成し得、自然言語処理(NLP)ツールは、その人間の発話の意味に対応する、論理構造またはコンピュータデータを生成し得る。そのようなシステムは、任意の数のコンポーネントを含有してもよいが、そのようなシステムの中核にあるものは、発話処理エンジンであって、これは、オーディオ信号を入力として受け取り、いくつかの認識論理を入力上に実施し、その入力に対応する、あるテキストを出力する、コンポーネントである。(本明細書では、発話処理エンジンが参照されるが、発話認識に加え、他の形態の発話処理もまた、本開示の範囲内と見なされるべきである。)
【0004】
歴史的には、マイクロホンを介して検出されるようなオーディオ入力は、構造化された予測可能様式において、発話処理エンジンに提供されていた。例えば、ユーザは、第1のプロンプト(例えば、「どうぞ発話を開始してください」)に応答して、第1のボタン入力(例えば、「開始」または「記録」ボタンまたはソフトウェアインターフェース内のマイクロホンアイコン)を押下直後に、または有意な沈黙周期後、直接、デスクトップコンピュータのマイクロホンに発話し得る。同様に、ユーザは、第2のプロンプト(例えば、「発話を停止してください」)に応答して、第2のボタン入力(例えば、「停止」または「一時停止」ボタン)を押下直前に、またはある時間周期にわたって沈黙したままであることによって、マイクロホン入力の提供を停止し得る。そのような構造化された入力シーケンスは、ユーザが入力を発話処理エンジンに提供していたとき(例えば、第1のプロンプトと第2のプロンプトとの間または開始ボタンの押下と停止ボタンの押下との間)に関して、疑問の余地はあまりない。さらに、そのようなシステムは、典型的には、ユーザの側に意図的アクションを要求したため、概して、ユーザの発話入力が、ある他の聴取者(例えば、隣接する部屋内の人物)にではなく、発話処理エンジンに指向されていると仮定され得る。故に、当時の多くの発話処理エンジンは、マイクロホン入力から、発話処理エンジンに指向され、発話認識入力を提供するように意図された入力の部分と、その逆である、意図されない部分を識別する任意の特定の必要性を有していない場合があった。
【0005】
ユーザが発話認識入力を提供する、方法は、発話処理エンジンが、より普及し、ユーザの日常の生活の中により完全に統合されるようになるにつれて、変化している。例えば、いくつかの自動化された音声アシスタントが、現在、家電、自動車ダッシュボード、スマートフォン、ウェアラブルデバイス、「リビングルーム」デバイス(例えば、統合された「スマート」音声アシスタントを伴うデバイス)、および従来のデスクトップコンピュータと全く違った他の環境内に格納されている、または別様にそれと統合されている。多くの場合、発話処理エンジンは、日常の生活への本レベルの統合によって、より広く使用可能にされる。しかしながら、これらのシステムは、システムプロンプト、ボタン入力、および発話処理エンジンへのマイクロホン入力の境界を定めるための他の従来の機構によって煩雑になるであろう。代わりに、いくつかのそのようなシステムは、マイクロホンが、発話認識入力シーケンスの開始を示す、「ウェイクアップワード」(例えば、デバイスの「名称」または任意の他の所定の単語または語句)を聴取する、1つ以上のマイクロホンを「常時オン」状態に置く。ウェイクアップワードの検出に応じて、発話処理エンジンは、発話処理エンジンへの入力として、マイクロホン入力の続くシーケンスを処理することができる。
【0006】
ウェイクアップワードシステムは、発話処理エンジンのための離散プロンプトまたはボタン入力の必要性に取って代わるが、ウェイクアップワードが、発話処理エンジンをアクティブ化する意図を伴わずにユーザによって発話される、または発話処理エンジンの近傍のテレビまたは音楽スピーカによって不注意に「発話」される場合等、誤検出のリスクを負う。ウェイクアップワードシステムを、発話入力に基づいて、ユーザが、その発話に関して、入力を発話処理エンジンに提供することを意図するかどうか、すなわち、ユーザの発話が、「非入力発話」ではなく、「入力発話」であるかどうかを決定する、より知的方法で置換することが望ましくあり得る。これは、ユーザが、より自然に、発話処理エンジンと相互作用することを可能にし(例えば、専用ウェイクアップワードを呼び出すことを必要とせずに)、日常の環境および状況においてそのようなシステムの使用を促すであろう。
【0007】
日常の空間を占有する、発話処理エンジンの関連問題は、これらのエンジンが、大量の周囲雑音、エンジンに指向されない発話、または入力として意図されるものではない、他のオーディオ信号を検出し得ることである。例えば、居間内の発話処理エンジンは、ユーザの意図的発話処理エンジン入力(例えば、「火曜日の天気予報は?」)だけではなく、また、ペット、デバイス(例えば、テレビスピーカ)、または他の人々からの音および発話、周囲雑音、または近傍の他の人々に指向される、ユーザの発話の部分を検出するであろう。オーディオ信号のこれらの非入力部分の処理は、算出リソースを浪費し、すでに、いくつかの非制御環境(例えば、屋外)において限定され得る、発話処理エンジンの正確度を損なわせ得る。発話処理エンジンが、マイクロホン入力から、発話処理エンジンのために意図される入力を表す、マイクロホン入力の部分(入力発話)を識別し、意図されない部分(非入力発話)を考慮しないことが望ましい。
【0008】
さらに、発話処理エンジンのために意図されるものではない、オーディオ入力を識別し、考慮しない、発話処理エンジンの能力を改良するために、ウェアラブル頭部搭載型ユニットを組み込むものを含む、センサ装備システムを使用することが望ましい。センサデータ(例えば、個々のセンサからのデータまたは慣性測定ユニットによってともに融合された複数のセンサからのデータ)は、発話処理エンジンによって使用され、入力発話である、オーディオ入力信号のそれらの部分のみを識別および処理することに役立ち、それらのシステムの出力がより正確かつより信頼性がある結果を生成することを可能にすることができる。特に、ウェアラブルデバイスのセンサは、特に有用であり得る。例えば、そのようなセンサは、ユーザの位置および配向、ユーザの眼移動および眼視線標的、ユーザの手の移動、およびバイオメトリックデータ(例えば、心拍数および呼吸数等のバイタルサイン)を示すことができる。多くの場合、これらのインジケーションは、発話認識システムに、人間が発話している別の人物を直感的に理解するために使用するものと同種の非口頭キュー(ユーザの移動およびボディランゲージ等)を提供することができる。加えて、ウェアラブルシステムは、移動屋外用途、すなわち、精密には、多くの従来の発話処理エンジンが特に不良性能を発揮し得る、用途のタイプに非常に好適である。
【発明の概要】
【課題を解決するための手段】
【0009】
本開示の実施例は、信号を発話処理エンジンに提示するためのシステムおよび方法を説明する。例示的方法によると、オーディオ信号が、1つ以上のマイクロホンを介して受信される。オーディオ信号の一部が、識別され、部分が、発話処理エンジンへの入力としての、発話処理エンジンのユーザによって指向された発話を備える、確率が、決定される。確率が閾値を超えることの決定に従って、オーディオ信号の部分は、発話処理エンジンへの入力として提示される。確率が閾値を超えないことの決定に従って、オーディオ信号の部分は、発話処理エンジンへの入力として提示されない。
本明細書は、例えば、以下の項目も提供する。
(項目1)
信号を発話処理エンジンに提示する方法であって、前記方法は、
第1のマイクロホンを介して、第1のオーディオ信号を受信することと、
前記第1のオーディオ信号の第1の部分を識別することと、
前記第1のオーディオ信号の第1の部分に関して、前記第1の部分が、前記発話処理エンジンへの入力としての前記発話処理エンジンのユーザによって指向された発話を備える第1の確率を決定することと、
前記第1の確率が第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の第1の部分を前記発話処理エンジンへの入力として提示することと、
前記第1の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の第1の部分を前記発話処理エンジンへの入力として提示しないことと
を含む、方法。
(項目2)
前記第1の確率は、前記第1のオーディオ信号の第1の部分とデータベース内の複数のオーディオ信号との比較に基づいて決定され、前記複数のオーディオ信号の各オーディオ信号は、その個別のオーディオ信号が前記発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、項目1に記載の方法。
(項目3)
前記ユーザと関連付けられる第1のセンサからの第1のセンサデータを受信することをさらに含み、前記第1の確率は、前記第1のセンサデータとデータベース内の複数のセンサデータとの比較に基づいて決定され、前記データベース内の複数のセンサデータの各センサデータは、オーディオ信号と関連付けられ、さらに、その個別のオーディオ信号が前記発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、項目1に記載の方法。
(項目4)
前記第1のセンサは、ユーザによって装着されるように構成されるウェアラブル頭部ユニットと関連付けられる、項目3に記載の方法。
(項目5)
前記第1のセンサデータは、前記ユーザの位置、配向、眼移動、眼視線標的、またはバイタルサインのうちの1つ以上のものを示す、項目4に記載の方法。
(項目6)
前記第1のオーディオ信号の第1の部分は、前記第1のセンサデータに基づいて識別される、項目5に記載の方法。
(項目7)
前記第1のオーディオ信号の第2の部分を識別することと、
前記第1のオーディオ信号の第2の部分に関して、前記第2の部分が前記発話処理エンジンへの入力としてユーザによって指向された発話を備える第2の確率を決定することと、
前記第2の確率が前記第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の第2の部分を前記発話処理エンジンへの入力として提示することと、
前記第2の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の第2の部分を前記発話処理エンジンへの入力として提示しないことと
をさらに含む、項目1に記載の方法。
(項目8)
前記第2の確率は、少なくとも部分的に、前記第1の確率に基づいて決定される、項目7に記載の方法。
(項目9)
入力を発話処理エンジンに提供するためのシステムであって、前記システムは、
マイクロホンと、
回路網であって、前記回路網は、
前記マイクロホンを介して、第1のオーディオ信号を受信することと、
前記第1のオーディオ信号の第1の部分を識別することと、
前記第1のオーディオ信号の第1の部分に関して、前記第1の部分が前記発話処理エンジンへの入力としてユーザによって指向された発話を備える第1の確率を決定することと、
前記第1の確率が第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の第1の部分を前記発話処理エンジンへの入力として提示することと、
前記第1の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の第1の部分を前記発話処理エンジンへの入力として提示しないことと
を実施するように構成される、回路網と
を含む、システム。
(項目10)
前記第1の確率は、前記第1のオーディオ信号の第1の部分とデータベース内の複数のオーディオ信号との比較に基づいて決定され、前記複数のオーディオ信号の各オーディオ信号は、その個別のオーディオ信号が前記発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、項目9に記載のシステム。
(項目11)
前記システムは、センサをさらに含み、前記回路網はさらに、
前記センサを介して、前記ユーザからの第1のセンサデータを受信することを実施するように構成され、前記第1の確率は、前記第1のセンサデータとデータベース内の複数のセンサデータとの比較に基づいて決定され、前記データベース内の複数のセンサデータの各センサデータは、オーディオ信号と関連付けられ、さらに、その個別のオーディオ信号が前記発話処理エンジンへの入力として指向された発話を備える確率と関連付けられる、項目9に記載のシステム。
(項目12)
前記第1のセンサデータは、前記ユーザの位置、配向、眼移動、眼視線標的、またはバイタルサインのうちの1つ以上のものを示す、項目11に記載の方法。
(項目13)
前記第1のオーディオ信号の第1の部分は、前記第1のセンサデータに基づいて識別される、項目12に記載のシステム。
(項目14)
前記回路網はさらに、
前記第1のオーディオ信号の第2の部分を識別することと、
前記第1のオーディオ信号の第2の部分に関して、前記第2の部分が前記発話処理エンジンへの入力としてユーザによって指向された発話を備える第2の確率を決定することと、
前記第2の確率が前記第1の閾値を超えることの決定に従って、前記第1のオーディオ信号の第2の部分を前記発話処理エンジンへの入力として提示することと、
前記第2の確率が前記第1の閾値を超えないことの決定に従って、前記第1のオーディオ信号の第2の部分を前記発話処理エンジンへの入力として提示しないことと
を実施するように構成される、項目9に記載のシステム。
(項目15)
前記第2の確率は、少なくとも部分的に、前記第1の確率に基づいて決定される、項目14に記載のシステム。
(項目16)
前記システムは、前記マイクロホンと、前記回路網とを含むウェアラブル頭部ユニットを含む、項目9に記載のシステム。
(項目17)
前記システムは、前記マイクロホンと、前記回路網とを含む車両を含む、項目9に記載のシステム。
(項目18)
前記システムは、前記マイクロホンと、前記回路網とを含む電子音声アシスタントを含む、項目9に記載のシステム。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本開示のいくつかの実施形態による、例示的ウェアラブルシステムを図示する。
【0011】
【
図2】
図2は、本開示のいくつかの実施形態による、例示的ウェアラブルシステムと併用され得る、例示的ハンドヘルドコントローラを図示する。
【0012】
【
図3】
図3は、本開示のいくつかの実施形態による、例示的ウェアラブルシステムと併用され得る、例示的補助ユニットを図示する。
【0013】
【
図4】
図4は、本開示のいくつかの実施形態による、例示的ウェアラブルシステムのための例示的機能ブロック図を図示する。
【0014】
【
図5】
図5は、本開示のいくつかの実施形態による、音響発話信号を処理するための例示的システムのフローチャートを図示する。
【0015】
【
図6A】
図6A-6Dは、本開示のいくつかの実施形態による、音響発話信号を処理する実施例を図示する。
【
図6B】
図6A-6Dは、本開示のいくつかの実施形態による、音響発話信号を処理する実施例を図示する。
【
図6C】
図6A-6Dは、本開示のいくつかの実施形態による、音響発話信号を処理する実施例を図示する。
【
図6D】
図6A-6Dは、本開示のいくつかの実施形態による、音響発話信号を処理する実施例を図示する。
【0016】
【
図7A】
図7A-7Cは、本開示のいくつかの実施形態による、音響発話信号を処理するための例示的システムのフローチャートを図示する。
【
図7B】
図7A-7Cは、本開示のいくつかの実施形態による、音響発話信号を処理するための例示的システムのフローチャートを図示する。
【
図7C】
図7A-7Cは、本開示のいくつかの実施形態による、音響発話信号を処理するための例示的システムのフローチャートを図示する。
【0017】
【
図8】
図8は、本開示のいくつかの実施形態による、音響発話信号を処理するための例示的システムの一部を示す、フローチャートを図示する。
【0018】
【
図9】
図9は、本開示のいくつかの実施形態による、音響発話信号を処理するための例示的システムの一部を示す、フローチャートを図示する。
【0019】
【
図10】
図10は、本開示のいくつかの実施形態による、1人以上の受信者と相互作用する、ユーザを図示する。
【0020】
【
図11】
図11は、本開示のいくつかの実施形態による、オーディオおよび非オーディオ分類子訓練データを捕捉するための例示的プロセスを図示する。
【発明を実施するための形態】
【0021】
実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面が、参照される。他の実施例も、使用され得、構造変更が、開示される実施例の範囲から逸脱することなく、行われ得ることを理解されたい。
【0022】
例示的ウェアラブルシステム
【0023】
図1は、ユーザの頭部上に装着されるように構成される、例示的ウェアラブル頭部デバイス100を図示する。ウェアラブル頭部デバイス100は、頭部デバイス(例えば、ウェアラブル頭部デバイス100)、ハンドヘルドコントローラ(例えば、下記に説明されるハンドヘルドコントローラ200)、および/または補助ユニット(例えば、下記に説明される補助ユニット300)等の1つ以上のコンポーネントを備える、より広範なウェアラブルシステムの一部であってもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス100は、ディスプレイ110Aおよび110B(左および右透過性ディスプレイと、直交瞳拡大(OPE)格子セット112A/112Bおよび射出瞳拡大(EPE)格子セット114A/114B等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る)等の1つ以上のディスプレイと、スピーカ120Aおよび120B(それぞれ、つるアーム122Aおよび122B上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る)等の左および右音響構造と、赤外線センサ、加速度計、GPSユニット、慣性測定ユニット(IMU、例えば、IMU126)、音響センサ(例えば、マイクロホン150)等の1つ以上のセンサと、直交コイル電磁受信機(例えば、左つるアーム122Aに搭載されるように示される受信機127)と、ユーザから離れるように配向される、左および右カメラ(例えば、深度(飛行時間)カメラ130Aおよび130B)と、ユーザに向かって配向される、左および右眼カメラ(例えば、ユーザの眼移動を検出するため)(例えば、眼カメラ128Aおよび128B)とを備えることができる。しかしながら、ウェアラブル頭部デバイス100は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、ユーザの音声によって発生されるオーディオ信号を検出するように構成される、1つ以上のマイクロホン150を備えてもよく、そのようなマイクロホンは、ユーザの口に隣接して位置付けられてもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、他のウェアラブルシステムを含む、他のデバイスおよびシステムと通信するために、ネットワーキング特徴(例えば、Wi-Fi能力)を組み込んでもよい。ウェアラブル頭部デバイス100はさらに、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス(例えば、ボタン、タッチパッド)等のコンポーネントを含んでもよい、または1つ以上のそのようなコンポーネントを備えるハンドヘルドコントローラ(例えば、ハンドヘルドコントローラ200)または補助ユニット(例えば、補助ユニット300)に結合されてもよい。いくつかの実施例では、センサは、ユーザの環境に対する頭部搭載型ユニットの座標のセットを出力するように構成されてもよく、入力をプロセッサに提供し、同時位置特定およびマッピング(SLAM)プロシージャおよび/またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、下記にさらに説明されるように、ハンドヘルドコントローラ200および/または補助ユニット300に結合されてもよい。
【0024】
図2は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント200を図示する。いくつかの実施例では、ハンドヘルドコントローラ200は、ウェアラブルヘッドデバイス100および/または下記に説明される補助ユニット300と有線または無線通信してもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、ユーザによって保持されるべきハンドル部分220と、上面210に沿って配置される1つ以上のボタン240とを含む。いくつかの実施例では、ハンドヘルドコントローラ200は、光学追跡標的として使用するために構成されてもよく、例えば、ウェアラブル頭部デバイス100のセンサ(例えば、カメラまたは他の光学センサ)は、ハンドヘルドコントローラ200の位置および/または配向を検出するように構成されることができ、これは、転じて、ハンドヘルドコントローラ200を保持するユーザの手の位置および/または配向を示し得る。いくつかの実施例では、ハンドヘルドコントローラ200は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上記に説明されるもの等の1つ以上の入力デバイスを含んでもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、1つ以上のセンサ(例えば、ウェアラブル頭部デバイス100に関して上記に説明されるセンサまたは追跡コンポーネントのうちのいずれか)を含む。いくつかの実施例では、センサは、ウェアラブル頭部デバイス100に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ200の位置または配向を検出することができる。いくつかの実施例では、センサは、ハンドヘルドコントローラ200のハンドル部分220内に位置付けられてもよい、および/またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ200は、例えば、ボタン240の押下状態、またはハンドヘルドコントローラ200の位置、配向、および/または運動(例えば、IMUを介して)に対応する、1つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス100のプロセッサへの、補助ユニット300への、またはウェアラブルシステムの別のコンポーネントへの入力として使用されてもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、音(例えば、ユーザの発話、環境音)を検出し、ある場合には、検出された音に対応する信号をプロセッサ(例えば、ウェアラブル頭部デバイス100のプロセッサ)に提供するために、1つ以上のマイクロホンを含むことができる。
【0025】
図3は、例示的ウェアラブルシステムの例示的補助ユニット300を図示する。いくつかの実施例では、補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200と有線または無線通信してもよい。補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200(ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および/またはウェアラブル頭部デバイス100またはハンドヘルドコントローラ200の他のコンポーネントを含む)等のウェアラブルシステムの1つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの実施例では、補助ユニット300は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、1つ以上の入力デバイス、および/または上記に説明されるもの等の1つ以上のセンサを含んでもよい。いくつかの実施例では、補助ユニット300は、補助ユニットをユーザに取り付けるためのクリップ310(例えば、ユーザによって装着されるベルト)を含む。ウェアラブルシステムの1つ以上のコンポーネントを格納するために補助ユニット300を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、(例えば、ウェアラブル頭部デバイス100内に格納される場合)ユーザの頭部に搭載される、または(例えば、ハンドヘルドコントローラ200内に格納される場合)ユーザの手によって担持されるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部の上に担持されることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。
【0026】
図4は、上記に説明される、例示的ウェアラブル頭部デバイス100と、ハンドヘルドコントローラ200と、補助ユニット300とを含み得る等、例示的ウェアラブルシステム400に対応し得る、例示的機能ブロック図を示す。いくつかの実施例では、ウェアラブルシステム400は、仮想現実、拡張現実、または複合現実用途のために使用され得る。
図4に示されるように、ウェアラブルシステム400は、ここでは「トーテム」と称される(および上記に説明されるハンドヘルドコントローラ200に対応し得る)例示的ハンドヘルドコントローラ400Bを含むことができ、ハンドヘルドコントローラ400Bは、トーテム/ヘッドギヤ6自由度(6DOF)トーテムサブシステム404Aを含むことができる。ウェアラブルシステム400はまた、(上記に説明されるウェアラブルヘッドギヤデバイス100に対応し得る)例示的ヘッドギヤデバイス400Aを含むことができ、ヘッドギヤデバイス400Aは、トーテム/ヘッドギヤ6DOFヘッドギヤサブシステム404Bを含む。実施例では、6DOFトーテムサブシステム404Aおよび6DOFヘッドギヤサブシステム404Bは、協働し、ヘッドギヤデバイス400Aに対するハンドヘルドコントローラ400Bの6つの座標(例えば、3つの平行移動方向におけるオフセットおよび3つの軸に沿った回転)を決定する。6自由度は、ヘッドギヤデバイス400Aの座標系に対して表されてもよい。3つの平行移動オフセットは、そのような座標系内におけるX、Y、およびZオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンス、ベクトル、回転行列、四元数、またはある他の表現として表されてもよい。いくつかの実施例では、ヘッドギヤデバイス400A内に含まれる1つ以上の深度カメラ444(および/または1つ以上の非深度カメラ)および/または1つ以上の光学標的(例えば、上記に説明されるようなハンドヘルドコントローラ200のボタン240またはハンドヘルドコントローラ内に含まれる専用光学標的)は、6DOF追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ400Bは、上記に説明されるようなカメラを含むことができ、ヘッドギヤデバイス400Aは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ヘッドギヤデバイス400Aおよびハンドヘルドコントローラ400Bは、それぞれ、3つの直交して配向されるソレノイドのセットを含み、これは、3つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれの中で受信される3つの区別可能な信号の相対的大きさを測定することによって、ヘッドギヤデバイス400Aに対するハンドヘルドコントローラ400Bの6DOFが、決定されてもよい。いくつかの実施例では、6DOFトーテムサブシステム404Aは、改良された正確度および/またはハンドヘルドコントローラ400Bの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット(IMU)を含むことができる。
【0027】
拡張現実または複合現実用途を伴ういくつかの実施例では、座標をローカル座標空間(例えば、ヘッドギヤデバイス400Aに対して固定される座標空間)から慣性座標空間に、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ヘッドギヤデバイス400Aのディスプレイが、ディスプレイ上の固定位置および配向において(例えば、ヘッドギヤデバイス400Aのディスプレイにおける同一の位置において)ではなく、仮想オブジェクトを実環境に対する予期される位置および配向において提示する(例えば、ヘッドギヤデバイス400Aの位置および配向にかかわらず、前方に向いた実椅子に着座している仮想人物)ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する(かつ、例えば、ヘッドギヤデバイス400Aが、偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない)という錯覚を維持することができる。いくつかの実施例では、座標空間の間の補償変換が、慣性または環境座標系に対するヘッドギヤデバイス400Aの変換を決定するために、(例えば、同時位置特定およびマッピング(SLAM)および/またはビジュアルオドメトリプロシージャを使用して)深度カメラ444からの画像を処理することによって決定されることができる。
図4に示される実施例では、深度カメラ444は、SLAM/ビジュアルオドメトリブロック406に結合されることができ、画像をブロック406に提供することができる。SLAM/ビジュアルオドメトリブロック406実装は、本画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ヘッドギヤデバイス400AのIMU409から取得される。IMU409からの情報は、SLAM/ビジュアルオドメトリブロック406からの情報と統合され、改良された正確度および/またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。
【0028】
いくつかの実施例では、深度カメラ444は、ヘッドギヤデバイス400Aのプロセッサ内に実装され得る、手のジェスチャトラッカ411に、3D画像を供給することができる。手のジェスチャトラッカ411は、例えば、深度カメラ444から受信された3D画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。
【0029】
いくつかの実施例では、1つ以上のプロセッサ416は、ヘッドギヤサブシステム404B、IMU409、SLAM/ビジュアルオドメトリブロック406、深度カメラ444、マイクロホン450、および/または手のジェスチャトラッカ411からのデータを受信するように構成されてもよい。プロセッサ416はまた、制御信号を6DOFトーテムシステム404Aに送信し、それから受信することができる。プロセッサ416は、ハンドヘルドコントローラ400Bがテザリングされない実施例等では、無線で、6DOFトーテムシステム404Aに結合されてもよい。プロセッサ416はさらに、視聴覚コンテンツメモリ418、グラフィカル処理ユニット(GPU)420、および/またはデジタル信号プロセッサ(DSP)オーディオ空間化装置422等の付加的コンポーネントと通信してもよい。DSPオーディオ空間化装置422は、頭部関連伝達関数(HRTF)メモリ425に結合されてもよい。GPU420は、画像毎に変調された光の左源424に結合される、左チャネル出力と、画像毎に変調された光の右源426に結合される、右チャネル出力とを含むことができる。GPU420は、立体視画像データを画像毎に変調された光の源424、426に出力することができる。DSPオーディオ空間化装置422は、オーディオを左スピーカ412および/または右スピーカ414に出力することができる。DSPオーディオ空間化装置422は、プロセッサ419から、ユーザから仮想音源(例えば、ハンドヘルドコントローラ400Bを介して、ユーザによって移動され得る)への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、DSPオーディオ空間化装置422は、対応するHRTFを決定することができる(例えば、HRTFにアクセスすることによって、または複数のHRTFを補間することによって)。DSPオーディオ空間化装置422は、次いで、決定されたHRTFを仮想オブジェクトによって発生された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。
【0030】
図4に示されるもの等のいくつかの実施例では、プロセッサ416、GPU420、DSPオーディオ空間化装置422、HRTFメモリ425、およびオーディオ/視覚的コンテンツメモリ418のうちの1つ以上のものは、補助ユニット400C(上記に説明される補助ユニット300に対応し得る)内に含まれてもよい。補助ユニット400Cは、バッテリ427を含み、そのコンポーネントを給電する、および/または電力をヘッドギヤデバイス400Aおよび/またはハンドヘルドコントローラ400Bに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ヘッドギヤデバイス400Aのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。
【0031】
図4は、例示的ウェアラブルシステム400の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット400Cと関連付けられているような
図4に提示される要素は、代わりに、ヘッドギヤデバイス400Aまたはハンドヘルドコントローラ400Bと関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ400Bまたは補助ユニット400Cを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるものである。
【0032】
発話処理エンジン
【0033】
発話認識システムは、一般に、人間の発話(源信号)に対応する入力オーディオ信号を受け取り、入力オーディオ信号を処理および分析し、分析の結果として、人間の発話に対応する出力を生産し得る、発話処理エンジンを含む。自動発話認識(ASR)システムの場合、例えば、発話処理エンジンの出力は、人間の発話のテキスト書き起こし記録であり得る。自然言語処理システムの場合、出力は、人間の発話によって示される1つ以上のコマンドまたは命令、または人間の発話の意味論的意味のある表現(例えば、論理表現またはデータ構造)であり得る。必ずしも発話を「認識」しないものを含む、他のタイプの発話処理システム(例えば、自動翻訳システム)も、検討され、本開示の範囲内である。
【0034】
発話認識システムは、多種多様な製品および用途、すなわち、従来の電話システム、自動化された音声メッセージングシステム、音声アシスタント(独立型およびスマートフォンベースの音声アシスタントを含む)、車両および航空機、デスクトップおよびドキュメント処理ソフトウェア、データエントリ、家電、医療デバイス、言語翻訳ソフトウェア、クローズドキャプションシステム、およびその他に見出される。発話認識システムの利点は、それらが、ユーザが、キーボードまたはタッチパネル等の従来のコンピュータ入力デバイスの代わりに、1つ以上のマイクロホンに提示されるような自然発話された言語を使用して、入力をコンピュータシステムに提供することを可能にし得ることである。故に、発話認識システムは、特に、従来の入力デバイス(例えば、キーボード)が利用不可能または非実践的であり得る、環境において有用であり得る。さらに、ユーザが直感的音声ベースの入力を提供することを可能にすることによって、発話処理エンジンは、没入感を高めることができる。したがって、発話認識は、ウェアラブルシステムのための、特に、ユーザ没入が主要目標であって、その存在が没入感を損なわせ得る、従来のコンピュータ入力デバイスの使用を限定することが望ましくあり得る、ウェアラブルシステムの仮想現実、拡張現実、および/または複合現実用途のための、自然な適合であり得る。
【0035】
典型的には、任意の発話処理エンジンの出力は、完璧な確実性を伴って、源人間発話に対応することはない。入力として提供されるオーディオ信号に影響を及ぼし得る、多くの変数のため、高度な発話処理エンジンでさえ、全ての話者に関して、完璧なテキスト出力を一貫して生産することはない。例えば、発話処理エンジンの信頼性は、入力オーディオ信号の品質に大きく依存し得る。入力オーディオ信号が、理想的条件下、例えば、音響的に制御された環境内で、単一人間話者が、明確に、直接、近距離からマイクロホンに発音する状態で、記録される場合、源発話は、オーディオ信号からより容易に決定され得る。しかしながら、実世界用途では、入力オーディオ信号は、源人間発話を決定することがより困難となるように、理想的条件から逸脱し得る。例えば、入力オーディオ信号は、有意な周囲雑音、またはユーザに加え、複数の話者からの発話を含み得る。例えば、他の人々、ペット、または電子デバイス(例えば、テレビ)からの発話が、入力信号内のユーザの発話と混合され得る。加えて、ユーザの発話さえ、発話処理エンジンのために意図される発話(入力発話)だけではなく、また、他の聴取者(他の人々、ペット、または他のデバイス等)に指向された発話も含み得る。入力発話をより広範囲の入力オーディオ信号から隔離することによって、発話処理エンジンによって処理される入力の忠実性は、改良されることができ、故に、発話処理エンジンの出力の正確度が、改良されることができる。
【0036】
入力発話の識別およびセグメント化
【0037】
本開示は、未加工発話信号から、ユーザによって発話処理システムに指向されていない、それらの信号の部分を除去することによって、発話処理システムの正確度を改良するためのシステムおよび方法を対象とする。本明細書に説明されるように、そのような非入力部分は、発話信号自体のオーディオ特性に基づいて(例えば、発話の語彙、意味論、または文法の突然の変化)、および/またはウェアラブルデバイス(例えば、
図1に関して上記に説明されるような頭部搭載型デバイス)と関連付けられる、センサからの入力を使用することによって、識別(例えば、分類)されることができる。そのような非入力部分は、特に、発話処理の移動用途、発話処理システムの家庭内使用、または他の音声または周囲雑音が存在し得る、屋外環境等の非制御環境内の発話処理の用途において、顕著であり得る。ウェアラブルシステムは、頻繁に、そのような用途において使用するために意図され、したがって、特に、非指向発話を被りやすくあり得る。例えば、いくつかのウェアラブルシステムが、非制御環境において使用するために意図される場合、環境雑音(または他の人間の発話)が標的人間発話とともに記録される、高い潜在性は、存在し得る。ウェアラブルシステム(
図1-4に関して上記に説明されるような)のセンサは、本明細書に説明されるように、本問題を解決するために非常に好適である。しかしながら、いくつかの実施例では、本明細書に説明されるように、方向性は、センサ入力の利点を伴わなくても、発話信号のみに基づいて、決定されることができる。
【0038】
図5は、発話処理エンジン550が、入力として提供される未加工発話信号510に基づいて、テキスト出力552(上記に説明されるような)を生産する、いくつかの実施形態による、例示的システム500を図示する。いくつかの実施例では、未加工発話信号510は、1つ以上のマイクロホンによって検出されるように提供され得るが、いくつかの実施例では、データファイル(例えば、オーディオ波形ファイル)から、オーディオストリーム(例えば、ネットワークを介して提供される)から、または任意の他の好適なソースから、提供されることができる。システム500では、テキスト出力552の改良された正確度は、発話処理エンジン550への入力として、発話処理エンジン550に指向される入力発話(例えば、上記に説明されるような無関係な発話とは対照的に)を構成すると決定される、未加工入力発話信号510のそれらの部分のみを含む、「指向された」発話信号540を提示することによって達成されることができる。指向された発話信号540は、段階530において、未加工入力発話信号510から、および/または
図1における例示的ウェアラブル頭部デバイス100に関して上記に説明されるようなセンサからのデータに対応し得る、センサデータ520から、決定されることができる。
【0039】
段階530において、未加工発話信号510は、個々の発話セグメントに分割されることができ、次いで、セグメント毎に、セグメントが発話処理エンジン550のための入力として意図された入力発話に対応する、確率が、決定されることができる。ある場合には、確率論的モデル化または機械学習技法が、未加工発話信号510のセグメント毎に、本確率を示すことができる。指向された発話信号540は、次いで、未加工発話信号510から、入力発話(非入力発話ではなく)に対応する閾値確率を満たさない、未加工発話信号510のセグメントをフィルタリングすることによって生成されることができる。(本明細書で使用されるように、入力発話は、特定のユーザによって提供され、また、ユーザによって発話認識システムに向かって指向される、入力オーディオを含むことができる。)
【0040】
図6A-6Dは、それぞれ、未加工発話信号、発話信号のセグメント化されたバージョン、未加工発話信号の確率論的モデル(但し、いくつかの実施形態では、機械学習技法が、使用されてもよい)、および未加工発話信号から生成された指向された発話信号の実施例を図示する。
図6Aは、1つ以上のマイクロホンによって検出される、および/または波形オーディオファイル内に表され得るような、時間の関数としての(例えば、電圧の)振幅V(t)として表される、例示的オーディオ波形600(未加工発話信号510に対応し得る)を示す。実施例では、波形600は、例示的シーケンス「天気はどう?...今はダメよ、Charlie...明日」というユーザの発話に対応する。実施例では、発話シーケンスは、発話処理エンジン(例えば、発話処理エンジン550)へのクエリとして意図される、少なくとも一部(「天気はどう?」)と、発話処理エンジンへの入力としてではなく、別の聴取者(おそらく、Charlie)に意図される、少なくとも一部(「今はダメよ、Charlie」)と、意味論的に、発話認識入力部分(「天気はどう?...明日」)または非入力部分(「今はダメよ、Charlie...明日」)のいずれかに合理的に属し得る、少なくとも一部(「明日」)とを含む。加えて、未加工発話信号510は、発話された単語部分の間に非口頭雑音を含む。未加工発話信号510が、直接、発話処理エンジン550への入力として適用された場合、システムは、非入力発話(「今はダメよ、Charlie」と、可能性として、「明日」)の存在が、入力発話(可能性として、修飾子「明日」を伴う、「天気はどう?」)に有意義に応答するためのシステムの能力に干渉し得るため、予期しない結果を生産し得る。より高い品質結果は、入力を発話処理エンジン550に提供することに先立って、未加工発話信号600をフィルタリングし、発話処理エンジン550に指向されない非入力発話(例えば、「今はダメよ、Charlie」)を除外して、発話処理エンジン550(例えば、「天気はどう?...明日」)に指向された発話を含む、指向されたオーディオ信号を生成することによって達成されることができる。(本明細書で使用されるように、非入力発話は、特定のユーザによって提供されない、および/または発話処理システムに向かって指向されない、入力オーディオを含み得る。)
【0041】
セグメント化プロセスは、未加工発話信号を、入力発話または非入力発話に対応するものとして個々に評価され得る、オーディオの個々のセグメントに分割することができる。
図6Bは、未加工発話信号600のオーディオのセグメントへの例示的セグメント化を図示する。セグメントは、音素、単語、語句、文、発声、または上記のいずれかの組み合わせを含むことができる。セグメント毎に、例示的システム500は、セグメントが入力発話または非入力発話に対応するかどうかを決定することができ、決定の結果は、セグメントが、指向された発話信号540に含まれるべきか、またはそこから除外されるべきかどうかを決定するために使用される。
図6Bに示されるように、信号600のセグメントは、2つの時点間にある(例えば、不変量t軸に沿って)、信号600の領域として表され得る。例えば、図中では、第1のセグメント601(例えば、「天気はどう?」に対応する)は、点t
0とt
1との間にあり、第2のセグメント602(例えば、背景雑音等の非発話に対応する)は、点t
1とt
2との間にあり、第3のセグメント603(例えば、「今はダメよ」に対応する)は、点t
2とt
3との間にあり、第4のセグメント604(例えば、「Charlie」に対応する)は、点t
3とt
4との間にあり、第5のセグメント605(例えば、背景雑音等の非発話に対応する)は、点t
4とt
5との間にあり、第6のセグメント606(例えば、「明日」に対応する)は、点t
5とt
6との間にあり、第7のセグメント607(例えば、背景雑音等の非発話に対応する)は、点t
6とt
7との間にある。
【0042】
そのようなセグメントの境界は、1つ以上の好適な技法に従って決定されることができる。例えば、当技術分野において公知の種々の技法が、発話された単語または語句の境界を決定するために使用されることができる。いくつかのそのような技法に従って、セグメント間の境界が、例えば、相対的沈黙の周期(発話の「塊」間の間隙を示す)、ピッチまたはイントネーションの変化(単語、語句、または発案の開始または終了を示し得る)、発話の頻度の変化(単語、語句、または発案の開始または終了、または1つの単語、語句、または発案から別のものへの遷移を示すことができる)、呼吸パターン(話者が、新しい単語、語句、または発案を開始しようとしていることを示し得る)等に基づいて決定されることができる。いくつかの実施例では、発話信号の統計的分析は、セグメント境界を識別するために有用であり得る。例えば、信号内の統計的外れ値を表す、発話信号の部分(例えば、信号内のいずれかの場所に一般に見出されない、周波数成分を備える、発話信号の部分)は、単語、語句、または発案の開始または終了を示し得る。種々の機械学習技法もまた、セグメント境界を識別するために使用されることができる。
【0043】
いくつかの実施例では、センサデータ520が、ユーザがその発話の標的を変化させる(例えば、発話処理エンジンへの発話から部屋内の別の人物への発話に遷移させる)可能性が高くあり得る、潜在的分離点を示すことによって、発話信号(例えば、未加工発話信号510)をセグメント化するために使用されることができる。例えば、センサデータは、ユーザがその頭部を方向転換させる、その眼視線の焦点を変化させる、または部屋内の異なる場所に移動するときを示してもよい。そのようなセンサデータの突然の変化は、発話セグメント間の境界を示すために使用されることができる。
【0044】
発話セグメントの長さ(例えば、平均時間、または音節の数)は、変動し得る。いくつかの実施例では、セグメントは、概して、発話された語句を構成し得るような数単語のオーダーであり得る。いくつかの実施例では、セグメントは、より長い(例えば、1つ以上の完全な文または発声を構成する)、またはより短い(例えば、個々の単語またはさらに個々の音節を構成する)場合がある。本明細書に説明されるように、発話は、セグメント毎に、セグメント全体が含まれるか、またはセグメント全体が除外されるかのいずれかとなるように、セグメントベースで指向された発話信号540内に含まれる、またはそこから除外されることができる。より長いセグメントを利用することは、単一セグメントが入力発話および非入力発話の両方を含むであろう、リスクを増加させ得、これは、望ましくない結果を引き起こし得る。そのようなセグメントを指向された発話信号540から除外することは、ユーザの入力発話を発話処理エンジン550に提示することに失敗する結果をもたらすであろう一方、それを含むことは、指向された発話信号540を生成する目標とは反対に、非入力発話を発話処理エンジン550に提示するであろう。より短いセグメントを使用することは、本問題を低減させることができるが、単一発話信号のための付加的セグメントを処理するために要求される算出オーバーヘッド(および付随の待ち時間)に可能性として考えられるトレードオフを提示する。セグメントサイズの望ましい平衡は、セグメント全体が、発話処理エンジン550に指向される、または指向されないように、可能な限り、単一関連単語または思考を単一セグメント内にグループ化することであり得る。例えば、例示的信号600では、「天気はどう?」および「今はダメよ」はそれぞれ、ともに上昇または下降する、発話の単一の塊を構成し、したがって、単一セグメントとしてグループ化することは、有益であり得る。しかしながら、セグメントは、任意に大きい、または任意に小さい(単一デジタルオーディオサンプルほど小さいセグメントを含む)場合もあり、本開示は、任意の特定のセグメント化サイズに限定されない。
【0045】
いくつかの実施例では、セグメント化は、事前に記録された発話信号上で実施されてもよく、発話信号全体が、セグメント化される前に捕捉される。セグメント化は、そのような実施例では、発話信号全体の知識は、より有意義な発話セグメントを生成するために使用され得るため、比較的により正確および/または効率的であり得る。すなわち、発話信号のどの部分がともにセグメント化されるべきかが、信号全体が把握されているとき、決定がより容易であり得る。しかしながら、いくつかの実施例では、「ライブ」発話が、検出されるにつれてセグメント化され得る。事前に記録された発話信号をセグメント化するための技法はまた、ライブ発話信号をセグメント化するために使用されてもよい(例えば、そのような技法をライブ発話のバッファされた塊に適用することによって)。ある場合には、ライブ発話に関するセグメント化決定は、新しい発話が前の発話の意図を明確化するため、周期的に改訂される必要があり得る。加えて、発話の一部は、手動精査のためにフラグが付けられることができ、それらは、後に手動で評価および補正されることができる。
【0046】
図6Cは、発話信号600に対応する、例示的確率モデル610を実証する。実施例では、確率モデル610は、時間tの関数として、時間tにおける対応するオーディオ信号600のセグメントが発話処理エンジン550に指向されたユーザ発話である、確率p(t)を表すことができる。(代替として、いくつかの実施例では、p(t)は、セグメントが発話処理エンジンに指向されたユーザ発話ではない、確率を説明することができる。)例えば、実施例では、t
0とt
1との間に該当する時間t
k1では、p(t
k1)は、0.9に等しく、時間t
k1における発話信号600の部分(V(t
k1)、例えば、「天候」)が、発話処理エンジン550に指向されたユーザ発話である、90%の確率を有することを示す。同様に、t
3とt
4との間に該当する時間t
k2では、p(t
k2)は、0.1に等しく、時間t
k2における発話信号600の部分(V(t
k2)、例えば、「Charlie」)が、発話処理エンジン550に指向されたユーザ発話である、10%の確率を有することを示す。
【0047】
図に示されるように、確率p(t)は、時間t0から開始し、時間t1で終了する、セグメントに関して、p(t)が、p(t0)とp(t1)との間で一定のままである(すなわち、セグメント全体は、同一確率値を有するであろう)ように、セグメントベースで決定されることができる。故に、確率モデル610では、セグメント601(「天気はどう?」)は、0.9の対応する確率値611を有し、セグメント603(「今はダメよ」)は、0.3の対応する確率値613を有し、セグメント604(「Charlie」)は、0.1の対応する確率値614を有し、セグメント606(「明日」)は、0.6の対応する確率値616を有する。図中では、残りのセグメント(すなわち、背景雑音または他の非発話オーディオに対応し得る、セグメント602、605、および607)は、ゼロの対応する確率値(すなわち、それぞれ、612、615、および617)を有する。
【0048】
入力発話の分類
【0049】
発話セグメントに関する確率値を決定することは、発話セグメントを「分類」すると称され得、本決定(例えば、562、568、574)を実施するためのモジュールまたはプロセスは、「分類子」と称され得る。
図7A、7B、および7Cは、発話信号のセグメント(例えば、上記に説明される発話信号600のセグメント610)に関する確率値を決定するための例示的システム500の例示的分類子を図示する。本決定は、発話信号自体(例えば、
図7Aに示されるように)を使用して、ユーザと関連付けられるセンサデータ(例えば、
図7Bに示されるように)を使用して、または発話信号とセンサデータのある組み合わせ(例えば、
図7Cに示されるように)を使用して、実施されることができる。
【0050】
図7Aに示される実施例では、発話セグメント516、発話信号に関する統計的データ512、および/または発話データリポジトリ527が、分類子562によって、発話セグメント516が入力発話(例えば、発話認識システムに指向されたユーザ発話)に対応する、確率値566を決定するために使用される。段階563では、発話セグメント516が、発話信号の統計的データ512を使用すること等によって、1つ以上のパラメータに従って、パラメータ化/特性評価されることができる。これは、発話データリポジトリ527に基づいて発話セグメントを分類することを促進することができる。発話データリポジトリ527は、データベース内に記憶されてもよい。時間ベースの発話セグメント516のフーリエ変換が、発話セグメントのスペクトル表現(例えば、発話セグメント516内の種々の周波数パラメータの相対的分布率を示す、周波数の関数)を提供するために、実施されることができる。ある場合には、発話セグメント516は、統計的データ512に対して比較され、発話セグメント516が、それが一部である、より大きい発話信号から逸脱する、程度を決定することができる。例えば、これは、段階564において発話セグメントを特性評価するために使用され得る、発話セグメントの音量のレベル(またはその変化)または成分周波数を示すことができる。いくつかの実施例では、話者の側面、例えば、話者の年齢、性別、および/または母語が、発話セグメント516を特性評価するためのパラメータとして使用されることができる。段階564において発話セグメントを特性評価するために使用される、そのようなパラメータを用いて、発話セグメント516がパラメータ化され得る、他の方法も、当業者に明白となるであろう。実施例として、発話セグメント516は、プリエンファシス、スペクトル分析、音圧分析、DCT/MFCC/LPC/MQ分析、Melフィルタバンクフィルタリング、雑音低減、最も有用な発話範囲(例えば、85~8,000Hz)への信号の帯域通過フィルタリング、およびダイナミックレンジ圧縮を用いて、事前処理されることができる。残りの信号は、次いで、時間不変量特徴(例えば、話者識別/バイオメトリック、性別識別、平均基本周波数、平均音圧)および時変特徴ベクトル(例えば、フォルマント中心周波数および帯域幅、基本周波数、DCT/MFCC/LPC/MQ係数、音素識別、子音識別、ピッチ輪郭、音圧輪郭)のセットにパラメータ化されることができる。
【0051】
実施例の段階564において、発話セグメント516が入力発話に対応する、確率値566が、決定される。確率値566は、発話データリポジトリ527を使用して決定されることができる。例えば、発話データリポジトリ527を含む、データベースは、データベース内の発話の要素に関して、それらの要素が入力発話に対応するかどうかを識別することができる。種々のタイプのデータが、発話データリポジトリ527内で表され得る。いくつかの実施例では、発話データリポジトリ527は、発話セグメントに対応する、オーディオ波形のセットを含むことができ、波形毎に、対応する発話セグメントが入力発話に属するかどうかを示すことができる。いくつかの実施例では、オーディオ波形の代わりに、またはそれに加え、発話データリポジトリ527は、発話セグメントに対応する、オーディオパラメータを含むことができる。発話セグメント516は、例えば、発話セグメント516のオーディオ波形と発話データリポジトリ527のオーディオ波形を比較することによって、または発話セグメント516のパラメータ(段階563において特性評価され得るような)と類似のパラメータ発話データリポジトリ527を比較することによって、発話データリポジトリ527の発話セグメントと比較されることができる。そのような比較に基づいて、発話セグメント516に関する確率566が、決定されることができる。(発話データリポジトリ527内のデータを作成するための方法は、下記に説明される。)
【0052】
確率566を決定するための技法は、当業者に熟知されているであろう。例えば、いくつかの実施例では、最近傍補間が、段階564において、発話セグメント516とN-次元空間(N次元は、例えば、上記に説明されるオーディオパラメータおよび/またはオーディオ波形データを備えることができる)内の類似発話セグメントを比較し、発話セグメント516とN-次元空間内のその近傍系との間の相対的距離に基づいて、確率値566を決定するために使用されることができる。別の実施例として、サポートベクトルマシンが、段階564において、発話データリポジトリ527に基づいて、発話セグメントを入力発話セグメントまたは非入力発話セグメントのいずれかとして分類するための原則を決定し、その原則に従って、発話セグメント516を分類する(例えば、発話セグメントが入力発話である、確率値566を決定する)ために使用されることができる。確率566を決定するために、発話セグメント516および/または発話データリポジトリ527を分析し、発話セグメント516を発話データリポジトリ527と比較し、および/または発話データリポジトリ527に基づいて、発話セグメント516を分類するための他の好適な技法も、明白となるであろう。本開示は、任意の特定の技法または技法の組み合わせに限定されない。
【0053】
いくつかの実施例では、機械学習技法が、単独で、または他の本明細書に説明される技法と組み合わせて、確率値566を決定するために使用されることができる。例えば、ニューラルネットワークが、発話データリポジトリ527上で訓練され、発話セグメント516に適用され、発話セグメント516に関する確率値566を決定し得る。別の実施例として、遺伝的アルゴリズムが、発話データリポジトリ527に基づいて、発話セグメント516に関する確率566を決定するための関数を決定するために使用されることができる。当業者に熟知されているであろう、他の好適な機械学習技法も、明白となるであろう。本開示は、任意の特定の技法または技法の組み合わせに限定されない。
【0054】
いくつかの実施例では、発話セグメント516に関する確率値566は、同一発話信号の他の発話セグメントによって影響され得る。例えば、ユーザは、非入力発話によって囲繞される短バースト(またはその逆)において入力を提供する可能性が低くあり得る。代わりに、ユーザは、主として、連続的シーケンスにおいて、発話認識入力を提供する可能性がより高くあり得る。すなわち、全ての他の要因が等しいとして、発話セグメント516は、その直前または後に来るセグメントもまた、入力発話セグメントである場合、入力発話セグメントである可能性がより高く、その逆も同様である。そのような実施例では、確率論的技法(例えば、ベイズネットワーク、隠れマルコフモデル)が、段階564において、単独で、または本明細書に説明される他の技法と組み合わせて、確率566を決定するために使用されることができる。種々の確率論的技法が、本目的のために好適であり得、本開示は、任意の特定の技法または技法の組み合わせに限定されない。
【0055】
いくつかの実施例では、発話データリポジトリ527は、種々の発話源の発話信号のセットを記録し、各発話信号の部分毎に、その部分の発話標的を識別することによって生成されることができる。例えば、ユーザは、ユーザの発話(および/または他のオーディオ)が記録される際、発話認識システムが同一部屋内に存在した状態で、人々のグループと相互作用することが観察され得る。観察者は、記録された発話の領域毎に、発話のその領域が、ユーザから(およびある他の源ではなく)入力として発話認識システムに、またはある他の標的に指向されたかどうかを識別することができる。本情報は、ユーザが発話しているコンテキストを観察することによって、観察者にとって明白となり得る。一般に、人間にとって(機械と異なり)、ユーザの観察に基づいて、ユーザが発話認識システムまたは他の何らかのものに発話しているかどうかを決定することは、容易かつ直感的である。本プロセスは、十分に大規模かつ多様な発話データのセット(例えば、オーディオ波形データ、および/または上記に説明されるような発話と関連付けられるパラメータ)が生成されるまで、複数のユーザに関して、およびある場合には、非人間スピーカ(例えば、ペット、TVスピーカ、家電)に関して、繰り返されることができる。本発話データから、個々の発話セグメントが、決定されることができ、これらの発話セグメントは、対応する発話がユーザによって発話認識システムに指向されているかどうかの観察者の決定と関連付けられることができる。
【0056】
図7Aに示される実施例では、上記に説明されるように、確率値566が、1つ以上のマイクロホンによって検出されるようなユーザ自身の発話に基づいて決定される。故に、確率値566に対する本システムの予測値、すなわち、
図7Aの実施例が、確率値566が別の方法より正確に決定されることを可能にする程度は、発話信号のオーディオ特性と発話信号が入力発話であるかどうかとの間の相関の程度によって限定される。相関の程度が大きいほど、入力発話である信号の部分を決定する際に、発話信号がより有用となる。発話オーディオと意図される標的との間には、少なくともあるそのような相関が存在し得るが、相関はまた、発話の意図される標的とセンサデータ520等の話者と関連付けられるセンサデータとの間にも存在し得る。故に、システムの全体的予測値は、単独で、または
図7Bおよび7Cに関して下記に説明されるような未加工発話信号510に加え、センサデータ520を組み込むことによって、改良されることができる。
【0057】
図7Bは、センサデータ520が、分類子568によって、発話セグメント516が入力発話である、確率値572を決定するために使用される、例示的システム500の例示的部分を図示する。いくつかの実施例では、上記に説明されるように、センサデータ520は、
図1における例示的ウェアラブル頭部デバイス100に関して上記に説明されるようなセンサからのデータに対応し得る。上記に説明されるように、そのようなウェアラブルシステムは、ウェアラブルシステムのユーザおよび/または環境についての入力を提供し得る、1つ以上のセンサを含むことができる。例えば、ウェアラブル頭部デバイス100は、カメラ(例えば、
図4に説明されるカメラ444)を含み、環境に対応する視覚的信号を出力することができる。いくつかの実施例では、カメラは、現在、ウェアラブルシステムのユーザの正面にあるものを示す、頭部搭載型ユニット上の前向きに向いたカメラであることができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、LIDARユニット、レーダユニット、および/または音響センサを含むことができ、これは、ユーザの環境の物理的幾何学形状(例えば、壁、物理的オブジェクト)に対応する信号を出力することができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、GPSユニットを含むことができ、これは、ウェアラブルシステムの現在の場所に対応する地理的座標を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、加速度計、ジャイロスコープ、および/または慣性測定ユニット(IMU)を含み、ウェアラブル頭部デバイス100の配向を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、温度または圧力センサ等の環境センサを含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、虹彩カメラ、指紋センサ、ユーザの眼の移動または眼の視線を測点するための眼追跡センサ(例えば、電気眼球図記録(EOG)センサ)、またはユーザのバイタルサインを測定するためのセンサ等のバイオメトリックセンサを含むことができる。ウェアラブル頭部デバイス100が、頭部搭載型ユニットを含む、実施例では、そのような配向は、ユーザの頭部の配向(さらに言うと、ユーザの口およびユーザの発話の方向)に対応し得る。他の好適なセンサも、含まれることができ、センサデータ520を提供することができる。さらに、いくつかの実施例では、ウェアラブルシステムのもの以外のセンサも、必要に応じて、利用されることができる。例えば、発話認識システムの1つ以上のマイクロホンと関連付けられるセンサ(例えば、GPS、IMU)が、ユーザと発話認識システムとの間の相対的距離および配向を決定するためにウェアラブルシステムのセンサと併用され得る。
【0058】
図7Bに示される実施例では、段階569は、センサデータ520の側面に関する段階563に関して上記に説明されるような1つ以上のパラメータに従って、発話セグメント516をパラメータ化/特性評価することができる。これは、センサデータ520に基づいて、発話セグメントを分類することを促進することができる。例えば、段階569は、センサデータ520の信号(例えば、発話セグメントの間に経過した時間の関数としてユーザの位置または配向を説明する、(例えば、GPS、音響、レーダ、またはIMUセンサからの)信号)の、それらの信号のスペクトル表現を決定するために、フーリエ変換を実施することができる。実施例として、発話セグメント516は、ユーザの眼移動(例えば、EOGセンサから)、眼視線標的(例えば、カメラまたはEOGセンサから)、および/または視覚的標的(例えば、RGBカメラまたはLIDARユニットから)に従って、特性評価されることができる。いくつかの実施例では、センサデータ520は、より広範囲のセンサデータ(例えば、発話信号の開始に先立った数分の周期にわたって捕捉されたセンサデータ)と比較され、センサデータ520がより広範囲のセンサデータから逸脱する、程度を決定することができる。センサデータ520が、段階564において発話セグメントを特性評価するために使用される、そのようなパラメータを用いて、パラメータ化され得る、他の方法も、当業者に明白となるであろう。発話セグメント516に関して上記に説明されるように、発話セグメント564も、プリエンファシス、スペクトル分析、音圧分析、DCT/MFCC/LPC/MQ分析、Melフィルタバンクフィルタリング、雑音低減、最も有用な発話範囲(例えば、85~8,000Hz)への信号の帯域通過フィルタリング、およびダイナミックレンジ圧縮を用いて、事前処理されることができる。残りの信号は、次いで、時間不変量特徴(例えば、話者識別/バイオメトリック、性別識別、平均基本周波数、平均音圧)および時変特徴ベクトル(例えば、フォルマント中心周波数および帯域幅、基本周波数、DCT/MFCC/LPC/MQ係数、音素識別、子音識別、ピッチ輪郭、音圧輪郭)のセットにパラメータ化されることができる。
【0059】
実施例の段階570において、発話セグメント516が入力発話に対応する、確率値572が、決定される。いくつかのアプローチでは、確率値572は、データベース内の発話の要素に関して、それらの要素が入力発話に対応するかどうかを識別する、データベースを含み得る、センサデータリポジトリ528を使用して決定されることができる。いくつかの実施例では、センサデータリポジトリ528は、発話セグメントに対応する、センサ測定値(例えば、ユーザの頭部位置、配向、および/または眼視線の経時的シーケンス)を表す、データセットを含むことができ、データセット毎に、対応する発話セグメントが入力発話に属するかどうかを示すことができる。いくつかの実施例では、センサデータセットの代わりに、またはそれに加え、センサデータリポジトリ528は、発話セグメントに対応する、パラメータを含むことができる。発話セグメント516は、例えば、未加工センサデータ520とセンサデータリポジトリ528の対応する信号を比較することによって、または発話セグメント516のパラメータ(段階569において特性評価され得るような)とセンサデータリポジトリ528の類似パラメータを比較することによって、センサデータリポジトリ528と比較されることができる。そのような比較に基づいて、確率572が、発話セグメント516に関して決定されることができる。
【0060】
確率572を決定するための技法は、当業者に熟知されているであろう。例えば、確率値566を決定するステップに関して上記に説明される技法、例えば、最近傍補間、サポートベクトルマシン、ニューラルネットワーク、遺伝的アルゴリズム、ベイズネットワークまたはマルコフネットワーク等の確率論的技法、または上記の任意の組み合わせが、類似方式において、センサデータリポジトリ528およびセンサデータ520に適用されることができる。他の技法も、明白となり、本開示は、任意の特定の技法または技法の組み合わせに限定されない。
【0061】
いくつかの実施例では、センサデータリポジトリ528は、段階570において発話セグメント516を分類するために、直接、分類子568によってアクセスされる必要はない。例えば、段階570は、1つ以上のルールを適用し、センサデータ520に基づいて、発話セグメント516が入力発話に対応する、確率値572を決定することができる。例えば、段階570において、センサデータ520(例えば、位置および配向センサからのデータ)に基づいて、ユーザがマイクロホンに面している(または発話セグメント516を発声する直前に、マイクロホンに向くように方向転換した)ことが決定されることができ、次いで、本情報から、発話セグメント516が入力発話である可能性が高いことが決定されることができる。逆に言えば、段階570において、ユーザが、発話処理エンジンマイクロホンから外方を向いており(または直近において、マイクロホンから外方を向くように方向転換し)、発話セグメント516が入力発話である可能性が低いことが決定されることができる。これは、人間が、概して、それに対してその発話が指向されるオブジェクトに、そのオブジェクトが人物またはデバイスであるかどうかにかかわらず、向く傾向にあるためである。同様に、段階570において、センサデータ520(例えば、カメラまたはEOGセンサからのデータ)に基づいて、ユーザが、マイクロホンを見ており(または直近において、その眼視線をマイクロホンに向かって偏移させ)、発話セグメント516が入力発話である可能性が高いことが決定されることができる。逆に言えば、ユーザが、マイクロホンを見ておらず、発話セグメントが入力発話である可能性が低いことが決定されることができる。別の実施例として、センサデータ520(例えば、カメラデータ)が、ユーザが、発話セグメント516を発声しながら、直接、別の人物を見ていることを示す場合、発話セグメント516が入力発話である可能性が低い(すなわち、発話が、代わりに、ユーザが見ている人物に指向されている)ことが決定されることができる。センサデータに基づいて確率値572を分類する方法を決定するためのルールは、センサデータリポジトリ528を訓練セットとして使用して、ニューラルネットワークまたは遺伝的アルゴリズム等の、当業者に熟知されている機械学習技法を使用して決定されることができる。
【0062】
いくつかの実施例では、センサデータリポジトリ528は、上記に説明されるように、発話データリポジトリ527と同様に生成されることができる。例えば、センサデータリポジトリ528のデータは、発話信号と同時に生成された付随のセンサデータとともに、種々の発話源の発話信号のセットを記録し、各発話信号の部分毎に、その部分の発話標的を識別することによって生成されることができる。例えば、ユーザは、ユーザの発話が記録される際、発話認識システムが同一部屋内に存在した状態で、人々のグループと相互作用することが観察され得る。観察者は、記録された発話の領域毎に、発話のその領域が、入力として、ユーザから発話認識システムまたはある他の標的に指向されたかどうかを識別することができる。本発話および/またはセンサデータから、個々の発話セグメントが、決定されることができ、これらの発話セグメントおよびその付随のセンサデータは、対応する発話がユーザによって発話認識システムに指向されているかどうかの観察者の決定と関連付けられることができる。
【0063】
センサデータ520はまた、段階570において、マイクロホン入力が特定のユーザに属するかどうかを識別するために使用されることができる。例えば、1つ以上のマイクロホンによって検出されるようなユーザの発話の振幅は、マイクロホンとユーザとの間の距離の関数として低下し、マイクロホンに対するユーザの相対的配向の関数として変化する(例えば、ユーザがマイクロホンが外方を向くにつれて低下する)、予測可能範囲内に該当することが予期され得る。(ある場合には、本範囲は、特定のユーザに関して実験的に決定されることができる。)センサデータ520(例えば、GPSデータ、カメラデータ、音響データ、レーダデータ)が、ユーザがマイクロホンから特定の距離にいることを示す場合、その特定の距離に関するユーザのその発話の予期される振幅の範囲が、決定されることができる。その振幅範囲外に該当する、マイクロホン入力は、ユーザ以外の源に属するものとして否認され得る。同様に、他の発話特性(例えば、高周波数成分)も、ユーザの位置、配向、または他のセンサデータ520に基づいて予測され得、そのセンサデータと一致しない、マイクロホン入力は、否認され得る。同様に、ユーザの位置および配向が一定のままである間、有意に変化する(例えば、音量または周波数特性において)(またはその逆)、マイクロホン入力も、否認され得る。また、逆に言えば、センサデータに基づいて、ユーザの発話の予測される特性と一致する、マイクロホン入力は、マイクロホン入力がそのユーザに属することを裏付け得る。センサデータに基づいてマイクロホン入力の源を識別する他の技法も、当業者に明白となるであろう。
【0064】
図7Bでは、上記に説明されるように、確率値572が、1つ以上のマイクロホンによって検出されるようなユーザ自身の発話に基づいて決定される。
図7Aに示される実施例および確率値566と同様に、確率値572に対する本システムの予測値は、発話信号の意図される標的と発話信号とともに生産される付随のセンサデータとの間の相関の程度によって限定される。相関が大きいほど、センサデータは、入力発話である信号の部分を決定する際、より有用である。そのような相関は、センサデータ(上記に説明されるもののようなウェアラブルシステムのセンサからのような)が、人間が他者の発話を解釈および文脈化するために使用するものと同一ボディランゲージキューの多くを提供し得ることを反映する。例えば、人間は、話者の位置(例えば、話者の移動および聴取者からの距離)、配向(例えば、話者が面している人物)、眼視線(例えば、話者がアイコンタクトをとっている人物)、ジェスチャ表現(例えば、手および腕の移動、顔の表情)等を使用して、話者の意図される発話標的を決定することに慣れている。これらのボディランゲージキューの多くはまた、話者がマイクロホン対応発話認識システム等のデバイスに対処するときにも適用される。センサデータは、話者の位置、配向、眼パターン、移動等を示す、データを提供すること等によって、本ボディランゲージに対応し得る。故に、上記に説明されるようなセンサデータを使用することは、対応する発話の意図される標的に関する有用な情報を提供することができる。
【0065】
いくつかの実施例では、システムの予測値は、同一発話信号に対応する、発話データ(例えば、
図7Aに関して説明されるように)およびセンサデータ(例えば、
図7Bに関して上記に説明されるように)の両方を利用することによって、改良されることができる。例えば、発話セグメントが、発話キュー(例えば、ユーザがその音声を上昇させる)およびセンサキュー(例えば、ユーザがその頭部を急速に方向転換させる)の両方に対応する場合、組み合わせられた2つのキューは、発話セグメントが入力としてユーザから発話処理エンジンに意図されていることの強力な予測証拠を提供することができる。
【0066】
図7Cは、発話信号(例えば、発話信号510)に関する分析データ512およびセンサデータ520の両方が、分類子574によって、発話セグメント516がユーザによって発話処理エンジンに指向されている、確率値578を決定するために使用される、例示的システム500の例示的部分を図示する。示される例示的システムの段階は、
図7Aおよび7Bに関して上記に説明されるように進み得る。例えば、段階575は、
図7Aの段階563に関して上記に説明されるように、発話信号510および/または発話信号分析データ512から決定される発話特性に基づいて、発話セグメント516をパラメータ化/特性評価することができ、段階575はまた、
図7Bの段階569に関して上記に説明されるように、センサデータ520に基づいて、発話セグメント516をパラメータ化/特性評価することができる。段階576では、確率値578が、
図7Aの段階564に関して上記に説明されるように、その発話特性に基づいて、さらに、
図7Bの段階570に関して上記に説明されるように、その対応するセンサデータに基づいて、発話セグメント516に関して決定されることができる。本確率値決定は、発話/センサデータリポジトリ529内等の発話および/またはセンサデータを利用することができる。発話/センサデータリポジトリ529は、
図7Aの発話データリポジトリ527に関して上記に説明されるように、発話データをその発話の意図される標的に関連させる情報を含む、データベースを含むことができ、さらに、
図7Bのセンサデータリポジトリ528に関して上記に説明されるように、センサデータをその対応する発話の意図される標的に関連させる情報を含むことができる。さらに、発話/センサデータリポジトリ529は、発話データとセンサデータの組み合わせを意図される発話標的に関連させる情報を含むことができる。これは、発話データまたはセンサデータ自体のいずれも、意図される発話標的の予測から独立しない状況において有用であり得るが、2つの組み合わせは、意図される発話標的に強固に相関され、より優れた予測値を有する。
【0067】
確率モデルの生成
【0068】
図8は、いくつかの実施形態による、例示的システム500の一部を示す、フローチャートであって、確率モデル586を未加工発話信号510から生成する実施例を図示する。
図8では、段階560は、確率モデル586(
図6Cに関して上記に説明される確率モデル610に対応し得る)を未加工発話信号510(
図6A-6Bに関して上記に説明される信号600に対応し得る)およびセンサデータ520から生成する。段階560において、発話信号に関する統計的データ512(例えば、上記に説明されるような発話信号510の統計的分析を表す)が、当業者に熟知されている技法に従って生成されることができる。段階560の段階514では、発話信号510は、
図6A-6Dに関して上記に説明されるように、個々の発話セグメント516にセグメント化されることができる。発話セグメント516毎に、1つ以上の分類子(例えば、上記に説明される562、568、574)が、セグメントが入力発話である、確率に対応する、確率値を生成するために適用されることができる。
図8に示される実施例では、3つの分類子が、適用され、第1の分類子(562)は、
図7Aに関して上記に説明されるように、発話セグメント516および発話データ512に基づいて、第1の確率値566を生成し、第2の分類子(568)は、
図7Bに関して上記に説明されるように、発話セグメント516およびセンサデータ520に基づいて、第2の確率値572を生成し、第3の分類子(574)は、
図7Cに関して上記に説明されるように、発話セグメント516、発話データ512、およびセンサデータ520に基づいて、第3の確率値578を生成する。しかしながら、いくつかの実施例では、1つのみの分類子(例えば、分類子574)が、使用される必要があり、いくつかの実施例では、本明細書に説明される3つを上回る付加的分類子が、付加的個別の確率値を生成するために利用されてもよい。ある場合には、異なる分類子が、個別の確率値を決定するために、異なるメトリックに適用されることができる。
【0069】
いくつかの実施例では、分類子562、568、および574が、それぞれ、確率値566、572、および578を生成するために使用される、
図8の実施例に示されるように、複数の分類子が、発話セグメント516に関する複数の個別の確率値を決定するために使用される場合、その個別の分類子によって生成された個々の確率値に基づいて、発話セグメント516に関する全体的確率582を決定することが必要であり得る。そのような実施例では、比較論理580が、個々の確率値を調整し、全体的確率582を決定するために使用されることができる。いくつかの実施例では、比較論理580は、個々の確率(例えば、566、572、578)の平均として、全体的確率582を算出してもよい。いくつかの実施例では、比較論理580は、例えば、入力データ(例えば、発話データ512、センサデータ520)の忠実性によって加重された個々の確率の加重平均として、全体的確率582を算出してもよい。比較論理580によって採用され得る、他の好適な技法も、当業者に熟知されており、本開示は、任意のそのような技法または技法の組み合わせに限定されない。複数の分類子の出力を組み合わせるための例示的技法は、アンサンブル学習、ベイズ最適分類子、バギング(ブートストラップアグリゲーティング)、ブースティング技法(例えば、AdaBoost)、バケツモデル、およびスタッキングを含む。
【0070】
いったん発話セグメント516に関する確率値が、上記に説明されるように決定されると、確率値を決定するプロセスは、任意の残りの発話セグメント516に関して繰り返されることができる(段階584)。例えば、
図6A-6Dに関して上記に説明される、発話信号600は、上記に説明されるような7つの発話セグメント(601-607)に分割されることができる。本発話信号600が、
図8に示されるシステムに入力510として提供された場合、段階562、568、および574はそれぞれ、7つの発話セグメントのそれぞれに適用され、セグメント毎に、確率値582をもたらし得る。いったん確率値が、発話セグメント516毎に決定されると、確率値は、確率モデル586を生成するために使用されることができる。上記に説明されるように、確率モデル586は、発話信号の発話セグメント毎に、確率値を示すことができる。例えば、
図6Cでは、確率モデル610は、発話信号600の発話セグメント毎に、確率値を示す。発話信号に関する確率モデル586を生成することは、発話信号の経過時間の関数として確率値を表すことを含むことができ、
図6Cにおけるモデル610として示されるようなそのようなモデルを用いることで、時間tが、入力としてモデルに適用されることができ、モデルは、時間tに対応する発話信号の部分(例えば、t秒が経過した後の発話信号600の部分)が発話処理エンジンへの入力として指向される、確率を示すであろう。しかしながら、確率モデル586の他の好適な実装も、明白となり、本開示の範囲内である。
【0071】
指向された発話信号の決定
【0072】
図9は、それによってシステム500が、上記に説明される確率モデル586を使用すること等によって、未加工発話信号510および/またはセンサデータ520から指向された発話信号540を決定する、例示的システム500の一部を図示する。
図9に示されるように、段階530において、システム500は、ユーザによって発話処理エンジンに指向されない発話を除外しながら、ユーザによって発話処理エンジンに指向された発話を含む、発話処理エンジンへの入力発話信号であり得る、指向されたオーディオ信号540を生成することができる。指向されたオーディオ信号540は、
図6Dに関して上記に説明される信号620に対応し得る。指向されたオーディオ信号540を生成する、段階530の実施例は、
図9を参照すると、以下のように進み得る。段階560において、未加工発話信号510および/またはセンサデータ520が、未加工発話信号510の1つ以上のセグメント毎に、セグメントが発話処理エンジンへの入力としてユーザによって指向された発話に対応する、確率を決定するために使用されることができる。段階560の例示的実装は、
図8に関して上記に説明される。上記に説明されるように、標的決定段階560の出力は、確率モデル586として表され得、これは、例えば、経過時間の関数として、発話信号510の一部が発話処理エンジンに指向されたユーザ発話である、確率を表すことができる。例えば、モデル586は、1つ以上のセグメントを有する未加工発話信号の時間t毎に、その時間tに対応するその未加工発話信号のセグメントが発話処理エンジンに指向されている、確率を表す、数学的関数であることができる。
図9における実施例に示されるように、段階560はまた、標的決定段階560に提供される未加工発話信号510に対応する、バッファされた信号であり得る、パススルー信号588を出力することができる。
【0073】
図9における実施例の段階590において、未加工発話信号(例えば、パススルー信号588)は、十分に高確率を伴って、入力発話に対応する、未加工発話信号510のセグメントが、指向されたオーディオ信号540内に含まれ得、逆に言えば、入力発話に対応しない、未加工発話信号510のセグメントが、指向されたオーディオ信号540から除外され得るように、確率論的モデル586に基づいてフィルタリングされることができる。段階590は、オーディオセグメントが指向されたオーディオ信号540内に含まれるために十分に高確率を構成する内容を決定するためのカットオフとしての役割を果たすために、閾値確率値を採用することができる。例えば、上記に説明されるように、
図6Cは、
図6Aおよび6Bに示される未加工発話信号600に対応する、確率モデル610を図示する。
図6Cに関して上記に説明されるように、確率モデル610は、発話信号600の発話セグメント601-607毎に、発話セグメントが入力発話に対応する、確率を示す。
図6Cでは、閾値618は、0.5の値である。しかしながら、他の閾値も、必要に応じて、使用されることができる。段階590では、閾値618を満たす、または超える、対応する確率値を伴う、発話セグメント(例えば、発話セグメント601および606)は、指向されたオーディオ波形540内に含まれ得、その対応する確率値が閾値618を満たさない、セグメント(例えば、発話セグメント602、603、604、605、および607)は、指向されたオーディオ波形540から除外され得る。結果は、十分に高確率を伴う発話セグメント(「天気はどう?」および「明日」)のみが、波形620内に含まれ、残りのセグメントが、除外される、
図6Dに示されるオーディオ波形620となるであろう。未加工発話信号600を発話認識システムに提供することと比較して、オーディオ波形620を入力として発話認識システムに提供することは、発話認識システムが、誤った結果を生成するリスクを負う、算出リソースを非関連発話(または他のオーディオ)に関して浪費する必要がないため、正確度および算出効率を助長する。
【0074】
分類子の訓練
【0075】
図10は、本開示の1つ以上の実施例による、オーディオおよび非オーディオ分類子訓練データを捕捉するための例示的プロセス1000を図示する。プロセス1000は、発話処理エンジン(例えば、統合された音声アシスタントを伴うデバイス内に含まれるような)と相互作用する(ユーザが行い得るように)、人間試験対象1012に適用されることができる。1つ以上のマイクロホンおよび1つ以上のセンサが、オーディオデータおよび非オーディオデータ(例えば、センサデータ)を、それぞれ、試験対象1012から捕捉するように構成されることができる。いくつかの実施形態では、非オーディオデータは、例えば、慣性測定ユニットデータ、視覚的データ、および同等物等の非マイクロホンセンサデータであってもよい。プロセスのステップ1010では、試験対象592の音声の未加工オーディオデータが、1つ以上のマイクロホンを介して、捕捉されることができる。同様に、ステップ1020では、試験対象の非オーディオデータが、1つ以上のセンサを介して、捕捉されることができる。ある場合には、試験対象1012は、1つ以上のマイクロホンと、1つ以上のセンサとを含み得る、上記に説明されるようなウェアラブル頭部デバイス等の単一デバイスを装備することができる。これらのマイクロホンおよびセンサは、それぞれ、ステップ1010において、オーディオデータを、ステップ1020において、非オーディオデータを捕捉するように構成されることができる。ステップ1010および1020は、同時に実施されることができる。
【0076】
ステップ1030では、ステップ1010において捕捉されたオーディオは、セグメント化され、入力発話または非入力発話のいずれかとして、タグ付けされることができる。これは、自動化されたプロセス、手動プロセス、またはそれらのある組み合わせであってもよい。例えば、ステップ1010において捕捉されたオーディオデータは、音声アクティビティ検出器(VAD)または試験対象1012を観察する人間の「タグ付け者」に提示されることができ、オーディオデータは、タグ付け者によって個々の語句またはその一部に手動で分離されることができる。タグ付け者は、次いで、発話認識エンジンと相互作用する試験対象1012のタグ付け者の観察に基づいて、各語句を入力発話または非入力発話として手動で識別することができる。ある場合には、タグ付け者は、各語句に種々のメタデータ(例えば、語句または各語句のオーディオ源毎に意図される受信者)で注釈を付けることができる。タグ付け者によって打ち込まれる他のメタデータは、話者についての側面(例えば、話者の年齢、性別、および/または母語)を含むことができる。いくつかの実施例では、タグ付け者はまた、非発話オーディオ(例えば、背景雑音および/または話者以外の人々からの発話)をセグメント化し、タグ付けすることができる。
【0077】
同様に、ステップ1040では、ステップ1020において捕捉された非オーディオデータもまた、セグメント化され、発話処理エンジンに指向されているもの、または指向されていないもののいずれかとして、タグ付けされることができる。いくつかの実施例では、人間のタグ付け者は、上記に説明される試験対象1012によって発話された個々の語句と関連付けられる、非オーディオデータ(例えば、センサデータ)を識別および/または隔離することができる。ある場合には、タグ付け者は、非オーディオデータとそれに対して対応するオーディオデータを手動で関連付けることができる。いくつかの実施例では、非オーディオデータは、ステップ1030からセグメント化および分類された語句の開始および終了時間に基づいて、各語句と自動的に関連付けられることができる。いくつかの実施例では、非オーディオデータは、ユーザの頭部姿勢、視線、ジェスチャ、標的受信者語句に対する場所、または捕捉された任意の他のセンサデータについての情報を含むことができる。
【0078】
ステップ1050では、ステップ1010において捕捉されたオーディオ、ステップ1030からセグメント化およびタグ付けされた語句(例えば、入力発話と、背景雑音または非発話オーディオを含む、非入力発話)、ステップ1020において捕捉された非オーディオデータ、および/またはステップ1040からのセグメント化およびタグ付けされた非オーディオデータは、分類子訓練のためのリポジトリ内に記憶されることができる。例えば、上記に説明される発話データリポジトリ527は、ステップ1010からのオーディオおよび/またはステップ1030からの語句を記憶することができ、センサデータリポジトリ528は、ステップ1020および/またはステップ1040からの非オーディオデータを記憶することができ、発話/センサデータリポジトリ529は、上記のいずれかを記憶することができる。いくつかの実施例では、ステップ1010において捕捉されたオーディオおよび/またはステップ1030からセグメント化およびタグ付けされた語句は、ステップ1020において捕捉された非オーディオデータ、および/またはステップ1040からのセグメント化およびタグ付けされた非オーディオデータと別個に記憶される(例えば、オーディオデータおよび非オーディオデータは、別個のデータベース内に記憶される)。記憶されたオーディオデータおよび/または非オーディオデータは、上記に説明されるような分類子を訓練するために使用されることができる。
【0079】
いくつかの実施形態では、オーディオおよび/または非オーディオ特性は、
図10のステップ1050から1つ以上のデータベース内に記憶される入力発話、非入力発話、または非発話(例えば、背景雑音)から抽出されることができる。オーディオ特性の実施例は、音量(または信号振幅)のレベル(またはその変化)、有声化前躊躇、発声内躊躇、訥弁(例えば、吃音、反復)、発話レート、構文、文法、語彙、語句の長さ(例えば、持続時間、単語数)、ピッチ(例えば、変動および輪郭)、および/または韻律を含むことができる。非オーディオデータから抽出され得る、非オーディオ特性の実施例は、ジェスチャ、視線(およびその変化)、頭部姿勢(およびその変化)、および物理的および/または仮想オブジェクトに対する位置(例えば、距離および配向)(およびその変化)を含む。いくつかの実施例では、各発話および/または非発話セグメント(例えば、入力発話、非入力発話、および/または非発話に対応する、各オーディオおよび/または非オーディオセグメント)のフーリエ変換が、
図10のステップ1050において記憶され(例えば、入力発話および非入力発話の両方)、各発話セグメントのスペクトル表現(例えば、発話セグメント内の種々の周波数パラメータの相対的分布率を示す、周波数の関数)を提供する。オーディオおよび非オーディオデータの時間、周波数、および組み合わせられた時間周波数パラメータ表現を抽出する他の方法も、当業者に熟知されているであろう。いくつかの実施例では、抽出されたオーディオおよび/または非オーディオ特性は、対応する入力発話、非入力発話、およびは非発話とともに、記憶されることができる。
【0080】
いくつかの実施形態では、
図10のプロセス1000を通して捕捉されたセグメント化および注釈が付けられたオーディオデータおよび非オーディオデータ(例えば、対応するメタデータを伴う、入力発話、非入力発話、および/または非発話)は、上記に説明されるような訓練目的のために、1つ以上の分類子にフィードされることができる。入力発話、非入力発話、および非発話のサンプルクラスを1つ以上の分類子に通過させることによって、1つ以上の分類子が、入力発話、非入力発話、および/または非発話を認識するように訓練されることができる。いくつかの実施例では、セグメント化および注釈が付けられたオーディオデータおよび非オーディオデータの大集合サブセット(例えば、60%)が、1つ以上の分類子に通過され、セグメント化および注釈が付けられたオーディオデータおよび非オーディオデータの少集合サブセットまたは残り(例えば、40%)が、1つ以上の分類子を評価するために使用される。評価技法は、当業者に熟知されているであろう。いくつかの実施形態では、これらの分類子は、ユーザが分類を確認または否認することを可能にすることによって、さらに訓練されることができる。
【0081】
上記に説明されるように、1つ以上の分類子(例えば、単純ベイズ分類子、サポートベクトルマシン、k-最近傍分類子、AdaBoost分類子、決定木、または人工ニューラルネットワーク)が、入力発話と非入力発話とを区別する。これらの分類子は、改良された発話処理のために、入力発話および/または非入力発話と関連付けられる、オーディオ特性および非オーディオ特性を認識するように訓練されることができる。本開示による、分類子を訓練するための方法は、オーディオおよび/または非オーディオデータを捕捉するステップ、入力発話および非入力発話のオーディオおよび/または非オーディオ特性を抽出するステップ、例えば、機械学習技法を使用して、1つ以上の分類子を訓練するステップ、および/または、いくつかの実施例では、下記に説明されるように、改良された入力発話識別のために、分類子を更新するステップ(例えば、分類を確認および/または否認することによって)を含むことができる。
【0082】
図11は、分類子訓練のために、オーディオデータおよびセンサデータを生成するために使用され得る、例示的環境を図示する。図は、音声標的(発話処理エンジンを含む、音声アシスタントデバイス等)と、1つ以上の「妨害」源593A-593Hとを含む、環境591内の試験対象592(上記に説明される試験対象1012に対応し得る)を図示する。妨害源は、試験対象592に、それに対して試験対象592が応答し得る、オーディオまたは視覚的「妨害」刺激を提示するように構成される。これらの妨害刺激に対する試験対象592の応答と関連付けられる、オーディオデータおよび非オーディオデータ(例えば、センサデータ)が、検出されることができ、本オーディオデータおよび非オーディオデータは、対応する妨害源の場所から提示される外部刺激への試験対象592の応答(マイクロホンおよびセンサによって検出されるような)を説明することができる。本オーディオデータおよび非オーディオデータは、故に、入力発話を非入力発話(例えば、妨害源によって表される外部刺激に指向された発話)から区別するための分類子(上記に説明されるような)を訓練するために使用されることができる。
【0083】
妨害源593A-593Hは、図に示されるように、試験対象592から様々な距離およびそれに対する角度に設置されることができる。妨害源593A-593Hは、スピーカまたは視覚として、または音および/または視覚を生産し得る、任意の他の好適なオブジェクト(例えば、人間、動物、電子デバイス等)として提示されることができる。例えば、妨害源593Aは、スマートホームデバイス(例えば、統合された「スマート」音声アシスタントを伴うスピーカ(「スマートスピーカ」))を表すことができ、妨害源593Bは、人間を表すことができる。オーディオデータおよび非オーディオデータは、妨害源の見掛け識別に基づいて、試験対象592の応答における差異を反映し得る。環境591は、制御された環境(例えば、防音部屋または妨害源593A-593Hが制御される方式で音を生産する部屋)または非制御環境(例えば、試験対象592の自宅または公衆の場所)を表すことができる。例えば、制御された環境では、試験対象592は、統合された音声アシスタントを伴うウェアラブルデバイス(例えば、ウェアラブル頭部デバイス100)と自由に相互作用し(例えば、殆どまたは全く指示または原稿を伴わずに)、デバイスに、特定の動作(例えば、アプリを開く、音楽を再生する、情報を、例えば、インターネットからクエリする、情報をカレンダの中に打ち込む、情報をカレンダから読み取る、電話をかける、テキストメッセージを送信する、スマートサーモスタットを制御する、スマートロックを制御する、1つ以上のスマートライトを制御する、または任意の他の動作)を実施するように命令することができる。試験人員(妨害源593A-593Hによって表される)は、試験対象592との会話に従事することができる。これは、試験対象592に、ウェアラブルデバイスおよび試験人員と相互作用するようにプロンプトする。いくつかの実施例では、妨害源593A-593Hは、仮想源であることができる。例えば、ウェアラブルシステム上で起動するソフトウェアアプリケーションは、音を妨害源593A-593Hによって表される1つ以上の仮想音源から生産することができる。いくつかの実施例では、妨害源593A-593Hは、試験対象592によって装着されるウェアラブル頭部デバイスを介して(例えば、ウェアラブル頭部デバイスのスピーカおよび/またはディスプレイを介して)、その同一ウェアラブルデバイスのマイクロホンおよびセンサによって潜在的に捕捉される、オーディオデータおよび非オーディオデータとともに提示されてもよい。
【0084】
図11に示されるような相互作用(例えば、環境591内で発話される、発話された語句594A-594D)は、本開示に従って、1つ以上の分類子を訓練するために検出および使用されるされることができる。例えば、発話された語句594A-594Dは、オーディオファイル内に、「ヘイ、Magic Leap!...を開いて。お母さん、...してもいい?今はダメよ、Charlie....マップを開いて」のような持続オーディオストリームとして記録されることができる(例えば、ウェアラブル頭部デバイス100上の1つ以上のマイクロホン150によって、または音源594A上の1つ以上のマイクロホンによって)。同様に、1つ以上の妨害源593A-593Hと相互作用する試験対象592の非オーディオデータも、オーディオデータと同時に捕捉されることができる。いくつかの実施例では、試験対象592上のウェアラブルシステム上の1つ以上のセンサ(例えば、
図1におけるウェアラブル頭部デバイス100および/または
図2におけるハンドヘルドコントローラ200)からのデータが、試験対象592の頭部位置(例えば、ウェアラブル頭部デバイスの位置および配向センサによって検出されるように)、手のジェスチャ(例えば、ハンドヘルドコントローラ200の移動によって、またはウェアラブル頭部デバイス100上に構成される1つ以上のカメラ130Aおよび130Bによって検出されるように)、眼視線(例えば、ウェアラブル頭部デバイス100上に構成される1つ以上のカメラ128Aおよび102Bによって検出されるように)、および/または1つ以上の妨害源593A-593Hからの試験対象592の距離(例えば、1つ以上のカメラ130Aおよび130Bおよび/またはGPS、音響、レーダ、またはIMUセンサによって、ウェアラブル頭部デバイス100から妨害源593A-593Hのうちの1つ以上のものまで測定されるように)についての情報を捕捉するために使用されることができる。
【0085】
上記に説明されるシステムおよび方法に関して、システムおよび方法の要素は、必要に応じて、1つ以上のコンピュータプロセッサ(例えば、CPUまたはDSP)によって実装されることができる。本開示は、これらの要素を実装するために使用される、コンピュータプロセッサを含む、コンピュータハードウェアの任意の特定の構成に限定されない。ある場合には、複数のコンピュータシステムが、上記に説明されるシステムおよび方法を実装するために採用されることができる。例えば、第1のコンピュータプロセッサ(例えば、1つ以上のマイクロホンに結合される、ウェアラブルデバイスのプロセッサ)は、入力マイクロホン信号を受信し、それらの信号の初期処理(例えば、上記に説明されるような信号調整および/またはセグメント化)を実施するために利用されることができる。第2の(おそらく、より算出上強力な)プロセッサは、次いで、それらの信号の発話セグメントと関連付けられる確率値を決定する等、より算出上集約的である処理を実施するために利用されることができる。クラウドサーバ等の別のコンピュータデバイスは、それに対して入力信号が最終的には提供される、発話処理エンジンをホストすることができる。他の好適な構成も、明白となり、本開示の範囲内である。
【0086】
開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、1つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付される請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるものである。