(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-20
(45)【発行日】2023-07-28
(54)【発明の名称】オーディオシステムのための修正されたオーディオ体験を生成すること
(51)【国際特許分類】
G10K 11/178 20060101AFI20230721BHJP
G10K 11/175 20060101ALI20230721BHJP
【FI】
G10K11/178 120
G10K11/175
(21)【出願番号】P 2021531758
(86)(22)【出願日】2019-02-12
(86)【国際出願番号】 US2019017655
(87)【国際公開番号】W WO2020159557
(87)【国際公開日】2020-08-06
【審査請求日】2021-11-16
(32)【優先日】2019-01-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】515046968
【氏名又は名称】メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー
【氏名又は名称原語表記】META PLATFORMS TECHNOLOGIES, LLC
(74)【代理人】
【識別番号】110002974
【氏名又は名称】弁理士法人World IP
(72)【発明者】
【氏名】ドッズ, ピーター ハーティ
(72)【発明者】
【氏名】大石 哲郎
(72)【発明者】
【氏名】ロビンソン, フィリップ
【審査官】大石 剛
(56)【参考文献】
【文献】特開2008-193420(JP,A)
【文献】特表2009-542038(JP,A)
【文献】特表2015-526761(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/178
G10K 11/175
(57)【特許請求の範囲】
【請求項1】
ウェアラブルデバイスの複数の音響センサーにおいて、空間ロケーションに位置する非ターゲットオーディオソースから音波のセットを受信することであって、前記音波が、前記ウェアラブルデバイスによってユーザに提示されるターゲットオーディオ体験に影響を及ぼし、前記
ターゲットオーディオ体験は、前記ユーザが前記ユーザの聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースの前記音波を知覚することによって、影響を及ぼされる、音波のセットを受信することと、
受信された前記音波のセットに基づいて前記非ターゲットオーディオソースの前記空間ロケーションを決定することと、
決定された前記空間ロケーションと受信された前記音波のセットとに基づいて、低減オーディオ命令のセットを生成することであって、前記低減オーディオ命令が、前記ウェアラブルデバイスによって前記ユーザに提示されたとき、前記ユーザの前記聴覚フィールド中の前記非ターゲットオーディオソースを補償することによって、前記
ターゲットオーディオ体験に対する前記影響を低減する、低減オーディオ命令のセットを生成することと、
前記低減オーディオ命令のセットを使用して、修正されたオーディオ体験を提示することであって、前記修正されたオーディオ体験が、前記ウェアラブルデバイスによって前記ユーザに提示されたとき、前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースの低減された知覚を有する、修正されたオーディオ体験を提示することと
を含む、方法。
【請求項2】
前記ウェアラブルデバイスによって前記ユーザに
前記ターゲットオーディオ体験を提示することは、
複数のオーディオコンテンツ要素を表す複数のオーディオ命令を受信することと、
前記ウェアラブルデバイスのオーディオアセンブリを使用して前記ユーザに前記オーディオコンテンツ要素のうちの1つまたは複数を提示することであって、前記オーディオアセンブリが、前記ユーザの前記聴覚フィールド中で前記オーディオコンテンツ要素を提示するように構成された、前記オーディオコンテンツ要素のうちの1つまたは複数を提示することと
を含み、
随意に、前記オーディオアセンブリが、前記ウェアラブルデバイスのフレームの周りに配置された複数のオーディオプレイバックデバイスを含み、前記オーディオコンテンツ要素が前記複数のオーディオプレイバックデバイスから提示される、
請求項
1に記載の方法。
【請求項3】
前記低減オーディオ命令のセットが、
前記ウェアラブルデバイスによって提示可能なオーディオ命令を含み、前記ウェアラブルデバイスが、前記オーディオ命令を提示するとき、前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースの前記知覚を低減するためにアクティブ雑音キャンセリングを実施する、
請求項
1または
2に記載の方法。
【請求項4】
前記空間ロケーションと受信された前記音波
のセットとに基づいて、前記低減オーディオ命令のセットを生成することは、
前記音波の波形を決定するために前記音波を分析することと、
前記波形に基づいてアンチ波形を決定することであって、前記アンチ波形が前記波形と弱め合うように干渉する、アンチ波形を決定することと、
前記ウェアラブルデバイスによって提示されたとき、前記ユーザに前記アンチ波形を提示する低減オーディオ命令を生成することであって、前記アンチ波形は、前記ユーザが前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記
非ターゲットオーディオソースの低減された知覚を有するように、前記音波と弱め合うように干渉する、低減オーディオ命令を生成することと
をさらに含む、請求項
1から
3のいずれか一項に記載の方法。
【請求項5】
前記低減オーディオ命令のセットは、
前記ウェアラブルデバイスによって提示可能なオーディオ命令を含み、前記ウェアラブルデバイスが、前記オーディオ命令を提示するとき、前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースの前記知覚を低減するために中間音マスキングを実施する、
請求項
1から
4のいずれか一項に記載の方法。
【請求項6】
前記空間ロケーションと受信された前記音波
のセットとに基づいて、前記低減オーディオ命令のセットを生成することは、
前記音波の音響特性のセットを決定するために前記音波を分析することと、
前記音波のオーディオ特性を中間音マスキングする中間音響信号を決定することと、
前記ウェアラブルデバイスのオーディオアセンブリによって実行されたとき、前記中間音響信号を提示する低減オーディオ命令を生成することであって、前記中間音響信号は、前記ユーザが前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記
非ターゲットオーディオソースの低減された知覚を有するように、前記音波を中間音マスキングする、低減オーディオ命令を生成すること
をさらに含み、
随意に、前記中間音響信号が、白色雑音、ピンク雑音、整形された白色雑音のいずれかである、
請求項
1から
5のいずれか一項に記載の方法。
【請求項7】
前記低減オーディオ命令のセットが、前記ウェアラブルデバイスによって実行されたとき、前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースの前記知覚を低減するために周囲音マスキングを実施するオーディオコンテンツを提示する、請求項
1から
6のいずれか一項に記載の方法。
【請求項8】
前記空間ロケーションと受信された前記音波
のセットとに基づいて、前記低減オーディオ命令のセットを生成することは、
前記音波のオーディオ特性のセットを決定するために前記音波を分析することと、
受信された前記音波のセットのうちの1つまたは複数の
音波の前記オーディオ特性を音マスキングする周囲音響信号を決定することであって、前記周囲音響信号が、前記非ターゲットオーディオソースから受信された前記音波のオーディオ特性を含む、周囲音響信号を決定することと、
前記ウェアラブルデバイスによって前記ユーザに提示されたとき、前記周囲音響信号を提示する低減オーディオ命令を生成することであって、前記周囲音響信号は、前記ユーザが前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記
非ターゲットオーディオソースの低減された知覚を有するように、前記音波を周囲音マスキングする、低減オーディオ命令を生成することと
をさらに含み、
随意に、
前記音波の前記オーディオ特性のセットが前記ユーザの前記聴覚フィールドの周囲背景を表すと決定すること
をさらに含み、
決定された前記
周囲音響信号が、前記ユーザの前記聴覚フィールドの前記周囲背景を表すオーディオ特性を含む、
請求項
1から
7のいずれか一項に記載の方法。
【請求項9】
前記空間ロケーションと受信された前記音波
のセットとに基づいて、低減オーディオ命令を生成することは、
前記ウェアラブルデバイスの配向を決定することと、
前記ウェアラブルデバイスの前記配向と前記非ターゲットオーディオソースの前記空間ロケーションとの間の相対配向を決定することと、
決定された前記相対配向に基づいて頭部伝達関数を決定することであって、前記頭部伝達関数が、前記空間ロケーションにある前記非ターゲットオーディオソースを補償するために
前記ターゲットオーディオ体験を修正するためのものである、頭部伝達関数を決定することと、
アクセスされた前記頭部伝達関数を使用して低減オーディオ命令を生成することと
をさらに含み、
随意に、
前記ウェアラブルデバイスの配向の変化を決定したことに応答して、
前記ウェアラブルデバイスの変化した前記配向と前記非ターゲットオーディオソースの前記空間ロケーションとの間の新しい相対配向を決定することと、
決定された前記新しい相対配向に基づいて、修正された頭部伝達関数を決定することであって、前記修正された頭部伝達関数が、前記新しい相対配向における前記非ターゲットオーディオソースを補償するために
前記ターゲットオーディオ体験を修正するためのものである、修正された頭部伝達関数を決定することと、
前記修正された頭部伝達関数を使用して低減オーディオ命令を生成することと
をさらに含む、請求項
1から
8のいずれか一項に記載の方法。
【請求項10】
受信された前記音波が前記非ターゲットオーディオソースからのものであると決定すること
をさらに含む、請求項
1から
9のいずれか一項に記載の方法。
【請求項11】
前記受信された音波が前記非ターゲットオーディオソースからのものであると決定することは、
前記受信された音波のオーディオ特性のセットを決定することと、
前記オーディオ特性のセットが前記非ターゲットオーディオソースを表すと決定することと
をさらに含み、かつ/または
低減オーディオ命令を生成することは、前記受信された音波が前記非ターゲットオーディオソースからのものであると決定することに応答したものである、
請求項
10に記載の方法。
【請求項12】
前記ユーザから、低減オーディオ命令を生成するために入力を受信すること
をさらに含む、請求項
1から
11のいずれか一項に記載の方法。
【請求項13】
前記ユーザに提示される前記ターゲットオーディオ体験のタイプを決定すること
をさらに含み、
前記低減オーディオ命令を生成することが、
前記ターゲットオーディオ体験の決定された前記タイプに基づく、
請求項
1から
12のいずれか一項に記載の方法。
【請求項14】
符号化された命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサによって実行されたとき、前記プロセッサに、請求項
1から
13のいずれか一項に記載の方法のステップ、または
ユーザによって装着されたウェアラブルデバイスの複数の音響センサーにおいて、空間ロケーションに位置する非ターゲットオーディオソースから音波のセットを受信するステップであって、前記音波が、前記ウェアラブルデバイスによって前記ユーザに提示されるターゲットオーディオ体験に影響を及ぼし、前記
ターゲットオーディオ体験は、前記ユーザが前記ユーザの聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースとして前記音波を知覚することによって、影響を及ぼされる、音波のセットを受信するステップと、
受信された前記音波のセットに基づいて前記非ターゲットオーディオソースの前記空間ロケーションを決定するステップと、
決定された前記空間ロケーションと前記受信された音波のセットとに基づいて、低減オーディオ命令のセットを生成するステップであって、前記低減オーディオ命令が、前記ウェアラブルデバイスによって前記ユーザに提示されたとき、前記ユーザの前記聴覚フィールド中の前記非ターゲットオーディオソースを補償することによって、前記
ターゲットオーディオ体験に対する前記影響を低減する、低減オーディオ命令のセットを生成するステップと、
前記低減オーディオ命令のセットを使用して、修正されたオーディオ体験を提示するステップであって、前記修正されたオーディオ体験が、前記ウェアラブルデバイスによって前記ユーザに提示されたとき、前記ユーザの前記聴覚フィールド中の前記空間ロケーションにある前記非ターゲットオーディオソースの低減された知覚を有する、修正されたオーディオ体験を提示するステップと
を達成させる、非一時的コンピュータ可読記憶媒体。
【請求項15】
ウェアラブルデバイスであって、
音波を受信するように構成された複数の音響センサーと、
前記ウェアラブルデバイスのユーザへのオーディオ体験を生成するように構成されたオーディオアセンブリと、
コントローラとを備え、前記コントローラが、請求項
1から
13のいずれか一項に記載の方法を実施するか、または
ユーザによって装着されたウェアラブルデバイスの前記複数の音響センサーにおいて、空間ロケーションにある非ターゲットオーディオソースから音波のセットを受信することであって、前記音波が、前記ウェアラブルデバイスによって前記ユーザのために生成されたターゲットオーディオ体験に影響を及ぼし、前記
ターゲットオーディオ体験は、前記ユーザが前記ユーザの聴覚フィールド中の前記非ターゲットオーディオソースとして前記音波を知覚することによって、影響を及ぼされる、音波のセットを受信することと、
受信された前記音波のセットに基づいて前記非ターゲットオーディオソースの前記空間ロケーションを決定することと、
決定された前記空間ロケーションと前記受信された音波のセットとに基づいて、補償オーディオ信号を生成することであって、前記補償オーディオ信号が、前記ユーザの前記聴覚フィールド中の前記非ターゲットオーディオソースを補償することによって、前記
ターゲットオーディオ体験に対する前記影響を低減する、補償オーディオ信号を生成することと、
前記オーディオアセンブリを使用して、前記補償オーディオ信号を使用して、修正されたオーディオ体験を提示することであって、前記修正されたオーディオ体験が、前記ユーザの前記聴覚フィールド中の前記非ターゲットオーディオソースの低減された知覚を有する、修正されたオーディオ体験を提示することと
を行うように構成された、
ウェアラブルデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、オーディオ体験を生成することに関し、詳細には、邪魔になるオーディオソースによって生成された音波を補償するオーディオ体験を生成することに関する。
【背景技術】
【0002】
従来のオーディオシステムは、複数のオーディオコンテンツを含むターゲットオーディオ体験を提示するためにヘッドフォンを使用し得る。従来のシステムがヘッドフォンを使用するので、ターゲットオーディオ体験は、比較的、オーディオシステムのローカルエリア中の他のオーディオソースによる影響を受けない。しかしながら、ヘッドフォンを含むオーディオシステムは、耳道を閉塞し、いくつかの人工現実環境(たとえば、拡張現実)にとって望ましくない。ローカルエリア内のユーザのためにオーバーエアでターゲットオーディオ体験を生成しながら、そのオーディオコンテンツへのローカルエリア中の他のものの露出を最小限に抑えることは、遠距離放射音に対する制御の欠如により困難である。従来のシステムは、ターゲットオーディオ体験を劣化させるものとしてユーザによって知覚され得る音波を補償するオーディオコンテンツを動的に提示することが可能でない。
【発明の概要】
【0003】
オーディオシステムによってユーザに提示されるターゲットオーディオ体験の劣化を低減する修正されたオーディオ体験を生成するための方法。劣化、または影響は、ユーザがオーディオシステムのローカルエリア中の非ターゲットオーディオソースによって生成された音波を知覚することによって、引き起こされ得る。本方法は、非ターゲットオーディオソースによって生成された音波を補償する修正されたオーディオコンテンツを提示することによって、劣化、または影響を低減する。いくつかの実施形態では、修正されたオーディオ体験は、非ターゲットオーディオソースによって生成された音波の存在にもかかわらず、ターゲットオーディオ体験と同様である。
【0004】
本方法は、ヘッドセットの音響センサーアレイを介して、ヘッドセットのローカルエリア中の1つまたは複数のオーディオソースからの音波を決定する。ヘッドセットのコントローラが、音波に関連するアレイ伝達関数(ATF:array transfer function)を決定し、オーディオソースの空間ロケーションおよび/またはタイプを決定する。コントローラは、プレイバックデバイスアレイによって実行されたとき、修正されたオーディオ体験をユーザに提示するオーディオ命令を生成する。修正されたオーディオ体験は、非ターゲットオーディオソースから受信された音波を補償するためにアクティブ雑音キャンセリング、周囲音マスキング(ambient sound masking)、および/または中間音マスキング(neutral sound masking)を実施し得る。
【0005】
本方法は、オーディオシステムによって実施され得る。たとえば、ヘッドセット(たとえば、ニアアイディスプレイ、ヘッドマウントディスプレイ)の一部であるオーディオシステム。オーディオシステムは、音響センサーアレイと、コントローラと、プレイバックデバイスアレイとを含む。オーディオシステムは、オーディオソースを検出した後に自動的に、またはユーザからの入力に応答して、修正されたオーディオを提示し得る。
【0006】
本発明による実施形態は、特に、方法、記憶媒体、およびウェアラブルデバイスを対象とする添付の特許請求の範囲で開示され、1つの請求項カテゴリー、たとえば、方法において述べられた任意の特徴は、別の請求項カテゴリー、たとえば、記憶媒体、ウェアラブルデバイス、システムおよびコンピュータプログラム製品においても請求され得る。添付の特許請求の範囲における従属関係または参照は、形式上の理由で選定されるにすぎない。ただし、前の請求項への意図的な参照(特に複数の従属関係)から生じる主題も請求され得、その結果、請求項とその特徴との任意の組合せが、開示され、添付の特許請求の範囲で選定された従属関係にかかわらず請求され得る。請求され得る主題は、添付の特許請求の範囲に記載の特徴の組合せだけでなく、特許請求の範囲における特徴の任意の他の組合せをも含み、特許請求の範囲において述べられた各特徴は、特許請求の範囲における任意の他の特徴または他の特徴の組合せと組み合わせられ得る。さらに、本明細書で説明または示される実施形態および特徴のいずれかは、別個の請求項において、ならびに/あるいは、本明細書で説明もしくは示される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組合せで請求され得る。
【0007】
一実施形態では、方法は、
ウェアラブルデバイスの複数の音響センサーにおいて、空間ロケーションに位置する非ターゲットオーディオソースから音波のセットを受信することであって、音波が、ウェアラブルデバイスによってユーザに提示されるターゲットオーディオ体験に影響を及ぼし、オーディオ体験は、ユーザがユーザの聴覚フィールド(auditory field)中の空間ロケーションにある非ターゲットオーディオソースの音波を知覚することによって、影響を及ぼされる、音波のセットを受信することと、
受信された音波のセットに基づいて非ターゲットオーディオソースの空間ロケーションを決定することと、
決定された空間ロケーションと音波の受信されたセットとに基づいて、低減オーディオ命令のセットを生成することであって、低減オーディオ命令が、ウェアラブルデバイスによってユーザに提示されたとき、ユーザの聴覚フィールド中の非ターゲットオーディオソースを補償することによって、オーディオ体験に対する影響を低減する、低減オーディオ命令のセットを生成することと、
低減オーディオ命令のセットを使用して、修正されたオーディオ体験を提示することであって、修正されたオーディオ体験が、ウェアラブルデバイスによってユーザに提示されたとき、ユーザの聴覚フィールド中の空間ロケーションにある非ターゲットオーディオソースの低減された知覚を有する、修正されたオーディオ体験を提示することと
を含み得る。
【0008】
ウェアラブルデバイスによってユーザにオーディオ体験を提示することは、
複数のオーディオコンテンツ要素を表す複数のオーディオ命令を受信することと、
ウェアラブルデバイスのオーディオアセンブリを使用してユーザにオーディオコンテンツ要素のうちの1つまたは複数を提示することであって、オーディオアセンブリが、ユーザの聴覚フィールド中でオーディオコンテンツ要素を提示するように構成された、オーディオコンテンツ要素のうちの1つまたは複数を提示することと
を含み得る。
【0009】
オーディオアセンブリは、ウェアラブルデバイスのフレームの周りに配置された複数のオーディオプレイバックデバイスを含み得、オーディオコンテンツ要素は複数のオーディオプレイバックデバイスから提示され得る。
【0010】
低減オーディオ命令のセットは、
ウェアラブルデバイスによって提示可能なオーディオ命令を含み得、ウェアラブルデバイスが、オーディオ命令を提示しているとき、ユーザの聴覚フィールド中の空間ロケーションにある非ターゲットオーディオソースの知覚を低減するためにアクティブ雑音キャンセリングを実施する。
【0011】
空間ロケーションと受信された音波とに基づいて、低減オーディオ命令のセットを生成することは、
音波の波形を決定するために音波を分析することと、
波形に基づいてアンチ波形(anti-waveform)を決定することであって、アンチ波形が波形と弱め合うように干渉する、アンチ波形を決定することと、
ウェアラブルデバイスによって提示されたとき、ユーザにアンチ波形を提示する低減オーディオ命令を生成することであって、アンチ波形は、ユーザがユーザの聴覚フィールド中の空間ロケーションにあるオーディオソースの低減された知覚を有するように、音波と弱め合うように干渉する、低減オーディオ命令を生成することと
を含み得る。
【0012】
低減オーディオ命令のセットは、
ウェアラブルデバイスによって提示可能なオーディオ命令を含み得、ウェアラブルデバイスが、オーディオ命令を提示しているとき、ユーザの聴覚フィールド中の空間ロケーションにある非ターゲットオーディオソースの知覚を低減するために中間音マスキングを実施する。
【0013】
空間ロケーションと受信された音波とに基づいて、低減オーディオ命令のセットを生成することは、
音波の音響特性のセットを決定するために音波を分析することと、
音波のオーディオ特性を中間音マスキングする中間音響信号を決定することと、
アイウェアのオーディオアセンブリによって実行されたとき、中間音響信号を提示する低減オーディオ命令を生成することであって、中間音響信号は、ユーザがユーザの聴覚フィールド中の空間ロケーションにあるオーディオソースの低減された知覚を有するように、音波を中間音マスキングする、低減オーディオ命令を生成することと
を含み得る。
【0014】
中間音響信号は、白色雑音、ピンク雑音、整形された白色雑音のうちのいずれかであり得る。
【0015】
低減オーディオ命令のセットは、ウェアラブルデバイスによって実行されたとき、ユーザの聴覚フィールド中の空間ロケーションにある非ターゲットオーディオソースの知覚を低減するために周囲音マスキングを実施するオーディオコンテンツを提示し得る。
【0016】
空間ロケーションと受信された音波とに基づいて、低減オーディオ命令のセットを生成することは、
音波のオーディオ特性のセットを決定するために音波を分析することと、
受信された音波のセットのうちの1つまたは複数のオーディオ特性を音マスキングする周囲音響信号を決定することであって、周囲音響信号が、非ターゲットオーディオソースから受信された音波のオーディオ特性を含む、周囲音響信号を決定することと、
ウェアラブルデバイスによってユーザに提示されたとき、周囲音響信号を提示する低減オーディオ命令を生成することであって、周囲音響信号は、ユーザがユーザの聴覚フィールド中の空間ロケーションにあるオーディオソースの低減された知覚を有するように、音波を周囲音マスキングする、低減オーディオ命令を生成することと
を含み得る。
【0017】
一実施形態では、方法は、
音波のオーディオ特性のセットがユーザの聴覚フィールドの周囲背景を表すと決定すること
を含み得、
決定された音響信号は、ユーザの聴覚フィールドの周囲背景を表すオーディオ特性を含む。
【0018】
空間ロケーションと受信された音波とに基づいて、低減オーディオ命令を生成することは、
ウェアラブルデバイスの配向を決定することと、
ウェアラブルデバイスの配向と非ターゲットオーディオソースの空間ロケーションとの間の相対配向を決定することと、
決定された相対配向に基づいて頭部伝達関数を決定することであって、頭部伝達関数が、空間ロケーションにある非ターゲットオーディオソースを補償するためにターゲットオーディオ体験を修正するためのものである、頭部伝達関数を決定することと、
アクセスされた頭部伝達関数を使用して低減オーディオ命令を生成することと
を含み得る。
【0019】
一実施形態では、方法は、
ウェアラブルデバイスの配向の変化を決定したことに応答して、
ウェアラブルデバイスの変化した配向と非ターゲットオーディオソースの空間ロケーションとの間の新しい相対配向を決定することと、
決定された新しい相対配向に基づいて、修正された頭部伝達関数を決定することであって、修正された頭部伝達関数が、新しい相対配向における非ターゲットオーディオソースを補償するために意図されたオーディオ体験を修正するためのものである、修正された頭部伝達関数を決定することと、
修正された頭部伝達関数を使用して低減オーディオ命令を生成することと
を含み得る。
【0020】
一実施形態では、方法は、
受信された音波が非ターゲットオーディオソースからのものであると決定すること
を含み得る。
【0021】
受信された音波が非ターゲットオーディオソースからのものであると決定することは、
受信された音波のオーディオ特性のセットを決定することと、
オーディオ特性のセットが非ターゲットオーディオソースを表すと決定することと
を含み得る。
【0022】
低減オーディオ命令を生成することは、受信された音波が非ターゲットオーディオソースからのものであると決定することに応答したものであり得る。
【0023】
一実施形態では、方法は、
ユーザから、低減オーディオ命令を生成するために入力を受信すること
を含み得る。
【0024】
一実施形態では、方法は、
ユーザに提示されるターゲットオーディオ体験のタイプを決定すること
を含み得、
低減オーディオ命令を生成することは、意図されたオーディオ体験の決定されたタイプに基づく。
【0025】
一実施形態では、符号化された命令を記憶する非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサによって実行されたとき、プロセッサに、上記の実施形態のいずれかのステップ、または
ユーザによって装着されたウェアラブルデバイスの複数の音響センサーにおいて、空間ロケーションに位置する非ターゲットオーディオソースから音波のセットを受信するステップであって、音波が、ウェアラブルデバイスによってユーザに提示されるターゲットオーディオ体験に影響を及ぼし、オーディオ体験は、ユーザがユーザの聴覚フィールド中の空間ロケーションにある非ターゲットオーディオソースとして音波を知覚することによって、影響を及ぼされる、音波のセットを受信するステップと、
受信された音波のセットに基づいて非ターゲットオーディオソースの空間ロケーションを決定するステップと、
決定された空間ロケーションと音波の受信されたセットとに基づいて、低減オーディオ命令のセットを生成するステップであって、低減オーディオ命令が、ウェアラブルデバイスによってユーザに提示されたとき、ユーザの聴覚フィールド中の非ターゲットオーディオソースを補償することによって、オーディオ体験に対する影響を低減する、低減オーディオ命令のセットを生成するステップと、
低減オーディオ命令のセットを使用して、修正されたオーディオ体験を提示するステップであって、修正されたオーディオ体験が、ウェアラブルデバイスによってユーザに提示されたとき、ユーザの聴覚フィールド中の空間ロケーションにある非ターゲットオーディオソースの低減された知覚を有する、修正されたオーディオ体験を提示するステップと
を達成させ得る、非一時的コンピュータ可読記憶媒体。
【0026】
一実施形態では、ウェアラブルデバイスは、
音波を受信するように構成された複数の音響センサーと、
ウェアラブルデバイスのユーザへのオーディオ体験を生成するように構成されたオーディオアセンブリと、
コントローラとを備え、コントローラは、上記の実施形態のいずれかに記載の方法を実施するか、または
ユーザによって装着されたウェアラブルデバイスの複数の音響センサーにおいて、空間ロケーションにある非ターゲットオーディオソースから音波のセットを受信することであって、音波が、ウェアラブルデバイスによってユーザのために生成されたターゲットオーディオ体験に影響を及ぼし、オーディオ体験は、ユーザがユーザの聴覚フィールド中の非ターゲットオーディオソースとして音波を知覚することによって、影響を及ぼされる、音波のセットを受信することと、
音波の受信されたセットに基づいて非ターゲットオーディオソースの空間ロケーションを決定することと、
決定された空間ロケーションと音波の受信されたセットとに基づいて、補償オーディオ信号を生成することであって、補償オーディオ信号が、ユーザの聴覚フィールド中の非ターゲットオーディオソースを補償することによって、オーディオ体験に対する影響を低減する、補償オーディオ信号を生成することと、
オーディオアセンブリを使用して、補償オーディオ信号を使用して、修正されたオーディオ体験を提示することであって、修正されたオーディオ体験が、ユーザの聴覚フィールド中の非ターゲットオーディオソースの低減された知覚を有する、修正されたオーディオ体験を提示することと
を行うように構成される。
【0027】
一実施形態では、1つまたは複数のコンピュータ可読非一時的記憶媒体は、実行されたとき、上述の実施形態の方法または上述の実施形態のいずれかを実施するように動作可能であるソフトウェアを具現し得る。
【0028】
一実施形態では、システムは、1つまたは複数のプロセッサと、プロセッサに結合され、プロセッサによって実行可能な命令を備える少なくとも1つのメモリとを備え得、プロセッサは、命令を実行したとき、上述の実施形態の方法または上述の実施形態のいずれかを実施するように動作可能である。
【0029】
一実施形態では、好ましくはコンピュータ可読非一時的記憶媒体を備えるコンピュータプログラム製品は、データ処理システム上で実行されたとき、上述の実施形態の方法または上述の実施形態のいずれかを実施するように動作可能であり得る。
【図面の簡単な説明】
【0030】
【
図1】1つまたは複数の実施形態による、オーディオシステムを含むヘッドセットの図である。
【
図2】1つまたは複数の実施形態による、自身の聴覚フィールド中で非ターゲットオーディオソースを知覚しているユーザによって装着されたヘッドセットのローカルエリアを示す図である。
【
図3】1つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。
【
図4】1つまたは複数の実施形態による、ターゲットオーディオ体験の劣化を補償する修正されたオーディオ体験を生成するためのプロセスを示す図である。
【
図5】1つまたは複数の実施形態による、例示的な人工現実システムのブロック図である。
【発明を実施するための形態】
【0031】
図および以下の説明は、単に例として様々な実施形態に関する。以下の説明から、本明細書で開示される構造および方法の代替実施形態は、特許請求の範囲の原理から逸脱することなく採用され得る実行可能な代替形態として容易に認識されることに留意されたい。
【0032】
序論
オーディオシステムは、ユーザの聴覚フィールド中のオーディオソースの知覚を低減するオーディオ体験(たとえば、かく乱(distraction))を生成する。オーディオシステムは、ヘッドセット(たとえば、ニアアイディスプレイまたはヘッドマウントディスプレイ)の一部であり得る。オーディオシステムは、音響センサーアレイと、コントローラと、プレイバックデバイスアレイとを含む。音響センサーアレイは、ヘッドセットのローカルエリア中の1つまたは複数のオーディオソースからの音を検出する。プレイバックデバイスアレイは、ユーザの聴覚フィールド中でオーディオコンテンツを提示することによって、ユーザのためのオーディオ体験を生成する。ユーザの聴覚フィールドは、ヘッドセットのユーザがオーディオソースをそこから知覚し得る空間ロケーションを含む。
【0033】
コントローラは、プレイバックデバイスアレイによって実行可能であるオーディオ命令を生成する。オーディオ命令は、プレイバックデバイスアレイによって実行されたとき、ユーザのためのターゲットオーディオ体験を提示し得る。ターゲットオーディオ体験は、ユーザがヘッドセットの動作中にユーザの聴覚フィールド中で知覚するためのターゲットである、ユーザに提示されるオーディオコンテンツを含む。たとえば、ヘッドセットを動作させるユーザに提示されるターゲットオーディオ体験のオーディオコンテンツ要素は、映画に対するサウンドトラック、ゲームの音効果、音楽プレイリストなどを含み得る。
【0034】
いくつかの実施形態では、プレイバックデバイスアレイは、耳道を妨害するプレイバックデバイス(たとえば、イヤバッドまたはヘッドフォン)を含まない。これは、ユーザが、プレイバックデバイスアレイによって提示されたオーディオコンテンツと同時に、ローカルエリア中のオーディオソースからの音波を知覚することを可能にする。したがって、いくつかの場合には、ローカルエリア中の1つまたは複数のオーディオソースが、オーディオシステムによってユーザに提示されたターゲットオーディオ体験を劣化させ得る(「非ターゲットオーディオソース」)。非ターゲットオーディオソースは、オーディオシステムによって提示されたターゲットオーディオ体験に対する混乱として知覚され得る音波を生成することによって、ターゲットオーディオ体験を劣化させる。例示のために、非ターゲットオーディオソースは、ターゲットオーディオ体験へのユーザの没入を中断する音波を生成することによってターゲットオーディオ体験を劣化させること、ユーザの聴覚フィールド中のかく乱を与えること、オーディオシステムによって提示されたオーディオコンテンツに干渉すること、オーディオシステムによって提示されたオーディオコンテンツをマスキングすることなどを行い得る。より一般的には、非ターゲットオーディオソースは、ユーザに提示されるターゲットオーディオ体験に、マイナスに影響を及ぼす。
【0035】
コントローラは、プレイバックデバイスアレイによって実行されたとき、ターゲットオーディオ体験の劣化(「体験劣化」)を低減するオーディオ命令を生成することができる。そうするために、コントローラは、非ターゲットオーディオソースから受信された音波と、(1つまたは複数の)非ターゲットオーディオソースの(1つまたは複数の)空間ロケーションと、(1つまたは複数の)非ターゲットオーディオソースのタイプとについての伝達関数を決定する。コントローラは、次いで、実行されたとき、ターゲットオーディオ体験を劣化させる音波を補償する(すなわち、キャンセルする、マスキングするなど)オーディオ命令を生成する。より一般的には、コントローラは、プレイバックデバイスアレイによって実行されたとき、オーディオ体験に対する意図されない音波の影響を低減するオーディオ命令を生成する。
【0036】
コントローラは、オーディオソースから受信された音波に基づいて伝達関数を決定する。伝達関数は、複数の音響センサー(たとえば、音響センサーアレイ)から受信された音波を、コントローラによって分析され得るオーディオ信号にマッピングする関数である。コントローラは、受信された音波のオーディオ特性および/または決定された伝達関数に基づいて非ターゲットオーディオソースの空間ロケーション(たとえば、座標)を決定し得る。コントローラはまた、受信された音波のオーディオ特性および/または決定された伝達関数に基づいて非ターゲットオーディオソースのタイプを分類し得る。オーディオ特性は、音波の性質を表す任意の性質である。オーディオ特性のいくつかの例は、たとえば、振幅、方向、周波数、速度、何らかの他の音波性質、またはそれらの何らかの組合せを含み得る。たとえば、コントローラは、ソースによって生成された音波のオーディオ特性(たとえば、周波数および振幅)に基づいて、非ターゲットオーディオソースを、邪魔にならないソース(たとえば、ファン、暴風雨、交通、空調ユニットなど)、または邪魔になるソース(たとえば、話している人、サイレン、鳥の鳴き声、バタンと閉まるドアなど)として分類し得る。
【0037】
コントローラは、受信された音波のオーディオ特性、非ターゲットオーディオソースの決定された空間ロケーション、および/または非ターゲットオーディオソースの決定されたタイプに基づいて、体験劣化を低減するオーディオ命令を生成する。一例では、コントローラは、頭部伝達関数を適用することによってオーディオ命令を生成する。
【0038】
コントローラによって生成された生成されたオーディオ命令は、プレイバックデバイスによって実行されたとき、修正されたオーディオ体験をユーザに提示する。修正されたオーディオ体験は、ターゲットオーディオ体験のオーディオコンテンツを含むが、非ターゲットオーディオソースから受信された音波を補償するオーディオコンテンツをも含む。言い換えれば、修正されたオーディオ体験は、非ターゲットオーディオソースによって引き起こされる体験劣化を低減するオーディオコンテンツを含む。したがって、修正されたオーディオ体験は、非ターゲットオーディオソースによって生成された音波の存在にもかかわらず、ターゲットオーディオ体験と高度に同様であり得る。例示のために、修正されたオーディオ体験は、非ターゲットオーディオソースのアクティブ雑音キャンセレーション、周囲音マスキング、および/または中間音マスキングを実施するオーディオコンテンツを含み得る。オーディオコンテンツを正規化することにより、ユーザは、エリア中のオーディオソースによって生成された音波を知覚しないことがあるか、またはそれらの音波の低減された知覚を有し得る。
【0039】
様々な実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作り出すために使用される、および/または人工現実において別様に使用される(たとえば、人工現実におけるアクティビティを実施する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドセット(たとえば、ヘッドマウントデバイスまたはニアアイディスプレイ)、独立型ヘッドセット、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
【0040】
ヘッドウェアラブルデバイス
図1は、1つまたは複数の実施形態による、オーディオシステムを含むヘッドセット100の図である。ヘッドセット100は、ユーザにメディアを提示する。一実施形態では、ヘッドセット100はニアアイディスプレイ(NED)であり得る。別の実施形態では、ヘッドセット100はヘッドマウントディスプレイ(HMD)であり得る。概して、ヘッドセットは、ヘッドセットの一方または両方のレンズ110を使用して視覚コンテンツ(たとえば、視覚メディア)が提示されるように、ユーザの顔上に装着され得る。しかしながら、ヘッドセット100はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。メディアは、ユーザに提示され得るオーディオ体験のオーディオコンテンツをも含み得る。
【0041】
ヘッドセット100は、オーディオシステムを含み、構成要素の中でも、フレーム112と、レンズ110と、センサーデバイス114と、コントローラ116とを含み得る。
図1は、ヘッドセット100の構成要素をヘッドセット100上の例示的なロケーションに示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100とペアにされた周辺デバイス上に、またはそれらの何らかの組合せに位置し得る。同様に、構成要素のいずれかまたはすべては、ヘッドセット内に埋め込まれるか、または部分的に埋め込まれ、ユーザにとって可視でないことがある。
【0042】
ヘッドセット100は、ユーザの視覚を補正または増強するか、ユーザの眼を保護するか、あるいはユーザに画像を提供し得る。ヘッドセット100は、ユーザの視力の欠損を補正する眼鏡であり得る。ヘッドセット100は、太陽からユーザの眼を保護するサングラスであり得る。ヘッドセット100は、衝撃からユーザの眼を保護する保護眼鏡であり得る。ヘッドセット100は、夜間にユーザの視覚を増強するための暗視デバイスまたは赤外線ゴーグルであり得る。ヘッドセット100は、ユーザのための人工現実コンテンツを作り出すニアアイディスプレイであり得る。代替的に、ヘッドセット100は、レンズ110を含まないことがあり、ユーザにオーディオコンテンツ(たとえば、音楽、ラジオ、ポッドキャスト)を提供するオーディオシステムをもつフレーム112であり得る。
【0043】
レンズ110は、ヘッドセット100を装着するユーザに対して光を提供するかまたは透過する。レンズ110は、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。処方レンズは、ヘッドセット100を装着するユーザに対して周囲光を透過する。透過された周囲光は、ユーザの視力の欠損を補正するように処方レンズによって変えられ得る。レンズ110は、太陽からユーザの眼を保護するための偏光レンズまたは色付きレンズであり得る。レンズ110は、ユーザの眼に向かって導波路の端部または縁部を通って画像光が結合された導波路ディスプレイの一部としての1つまたは複数の導波路であり得る。レンズ110は、画像光を提供するための電子ディスプレイを含み得、電子ディスプレイからの画像光を拡大するための光学ブロックをも含み得る。レンズ110に関する追加の詳細が、
図5に関して説明される。
【0044】
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の周辺のローカルエリアについての深度情報を表すデータをキャプチャする、深度カメラアセンブリ(DCA)(図示せず)を含み得る。いくつかの実施形態では、DCAは、光プロジェクタ(たとえば、構造化光および/または飛行時間のためのフラッシュ照明)と、イメージングデバイスと、コントローラとを含み得る。キャプチャされたデータは、光プロジェクタによってローカルエリア上に投影された光の、イメージングデバイスによってキャプチャされた画像であり得る。一実施形態では、DCAは、ローカルエリアの部分をステレオでキャプチャするために配向される2つまたはそれ以上のカメラと、コントローラとを含み得る。キャプチャされたデータは、ローカルエリアの2つまたはそれ以上のカメラによってステレオでキャプチャされた画像であり得る。コントローラは、キャプチャされたデータと、深度決定技法(たとえば、構造化光、飛行時間、ステレオイメージングなど)を使用して、ローカルエリアの深度情報を算出する。深度情報に基づいて、コントローラは、ローカルエリア内のヘッドセット100の絶対位置情報を決定する。DCAは、ヘッドセット100と統合され得るか、またはヘッドセット100の外部のローカルエリア内に配置され得る。後者の実施形態では、DCAのコントローラは、ヘッドセット100のコントローラ116に深度情報を送信し得る。さらに、センサーデバイス114は、ヘッドセット100の運動に応答して1つまたは複数の測定信号を生成する。センサーデバイス114は、ヘッドセット100のフレーム112の一部分上のロケーションであり得る。深度アレイカメラに関する追加の詳細が、
図5に関して説明される。
【0045】
センサーデバイス114は、位置センサー、慣性測定ユニット(IMU)、またはその両方を含み得る。ヘッドセット100のいくつかの実施形態は、センサーデバイス114を含むことも含まないこともあり、または2つ以上のセンサーデバイス114を含み得る。センサーデバイス114がIMUを含む実施形態では、IMUは、センサーデバイス114からの測定信号に基づいてIMUデータを生成する。センサーデバイス114の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。センサーデバイス114は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
【0046】
1つまたは複数の測定信号に基づいて、センサーデバイス114は、ヘッドセット100の初期位置に対するヘッドセット100の現在位置を推定する。初期位置は、ヘッドセット100がローカルエリア中で初期化されるときのヘッドセット100の位置であり得る。推定位置は、ヘッドセット100のロケーションおよび/あるいはヘッドセット100またはヘッドセット100を装着するユーザの頭部の配向、あるいはそれらの何らかの組合せを含み得る。配向は、基準点に対する各耳の位置に対応し得る。いくつかの実施形態では、センサーデバイス114は、ヘッドセット100の現在位置を推定するために、DCAからの深度情報および/または絶対位置情報を使用する。センサーデバイス114は、並進運動(たとえば、前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット100の推定位置を計算する。たとえば、IMUは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット100上の基準点の推定位置を決定する。基準点は、ヘッドセット100の位置を表すために使用され得る点である。基準点は、概して、空間内の点として定義され得るが、ただし、実際には、基準点は、ヘッドセット100内の点として定義される。
【0047】
前に説明されたように、オーディオシステムは、非ターゲットオーディオソースによって受信された音波を補償することによって、ターゲットオーディオ体験の劣化を低減する修正されたオーディオ体験を生成する。図示の例では、オーディオシステムは、音響センサーアレイと、コントローラ116と、プレイバックデバイスアレイとを備える。しかしながら、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラ116の機能の一部または全部が、リモートサーバによって実施され得る。
【0048】
音響センサーアレイは、ヘッドセット100のローカルエリア内の音波を記録する。ローカルエリアは、ヘッドセット100の周辺の環境である。たとえば、ローカルエリアは、ヘッドセット100を装着するユーザが内部にいるか、またはヘッドセット100を装着するユーザが外部にいることがある部屋であり得、ローカルエリアは、音響センサーアレイが音波を検出することが可能である外部エリアである。音響センサーアレイは、ヘッドセット100上の音響検出ロケーションに配置された複数の音響センサーを備える。音響センサーは、ローカルエリア(たとえば、部屋)中の1つまたは複数のオーディオソースから放射された音波をキャプチャする。各音響センサーは、音波を検出し、検出された音波を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサーは、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。いくつかの実施形態では、音響検出ロケーションにおいてポートが含まれ得る。ポートは、ヘッドセット100のフレーム112中の開口である。各ポートは、ローカルエリアからの音波のための、音響導波路への内部結合点を提供し、音響導波路は、音波を、ヘッドセット10のフレーム112の内部の音響センサーに誘導する。
【0049】
図示された構成では、音響センサーアレイは、ヘッドセット100上の複数の音響センサー、たとえば音響センサー120A、120B、120C、120D、120E、および120Fを備える。音響センサーは、ヘッドセット100の外面上に置かれるか、ヘッドセット100の内面上に置かれる(およびポートを介して有効にされる)か、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。いくつかの実施形態では、音響センサー120A~Fのうちの1つまたは複数が、各耳の耳道中にも置かれ得る。
【0050】
音響センサーアレイの音響センサーの構成は、
図1を参照しながら説明された構成から変動し得る。音響センサーの数および/またはロケーションは、
図1に示されているものとは異なり得る。たとえば、音響センサーの数は、収集されるオーディオ情報の量ならびに情報の感度および/または精度を増加させるために、増加され得る。音響センサーは、音響センサーアレイが、ヘッドセット100を装着するユーザの周辺の広範囲の方向における音波を検出することが可能であるように、配向され得る。検出された音波は、周波数、振幅、位相、時間、持続時間、またはそれらの何らかの組合せに関連付けられ得る。
【0051】
コントローラ116は、音波に関連するアレイ伝達関数(ATF)を決定する。いくつかの実施形態では、コントローラ116はまた、ATFに基づいて、音波を生成するオーディオソースを識別し得る。コントローラ116は、受信された音波に基づいて、決定されたオーディオソースの空間ロケーションを決定し得る。たとえば、コントローラは、ヘッドセット100に対する非ターゲットオーディオソースについての座標を決定することができる。さらに、コントローラ116は、受信された音波のオーディオ特性に基づいて、決定されたオーディオソースのタイプを決定し得る。たとえば、コントローラは、非ターゲットオーディオソースが邪魔にならないオーディオソースまたは邪魔になるオーディオソースであると決定することができる。コントローラは、受信された音波のオーディオ特性、非ターゲットオーディオソースの決定された空間ロケーション、または非ターゲットオーディオソースの決定されたタイプに基づいて、識別されたオーディオソースから受信された音波を補償するオーディオ命令を生成する。コントローラの動作が、
図3に関して以下で詳細に説明される。
【0052】
プレイバックデバイスアレイは、コントローラ116によって生成されたオーディオ命令を使用してオーディオコンテンツを提示する。プレイバックデバイスアレイは、ヘッドセット100上の音響放射ロケーションにおける複数のプレイバックデバイスを備える。概して、音響放射ロケーションは、ヘッドセット100のフレーム112中のプレイバックデバイスのロケーションである。いくつかの例では、音響放射ロケーションはポートを含む。ポートは、音響導波路からの音の外部結合点を提供し、音響導波路は、プレイバックデバイスアレイのプレイバックデバイスをポートから分離する。プレイバックデバイスから放射された音は、音響導波路を通って進み、次いでポートによってローカルエリアに放射される。
【0053】
図示の実施形態では、プレイバックデバイスアレイは、プレイバックデバイス130A、130B、130C、130D、130E、および130Fを含む。他の実施形態では、プレイバックデバイスアレイは、異なる数の(より多いまたはより少ない)プレイバックデバイスを含み得、それらのプレイバックデバイスは、フレーム112上の異なるロケーションに置かれ得る。たとえば、プレイバックデバイスアレイは、ユーザの耳を覆うプレイバックデバイス(たとえば、ヘッドフォンまたはイヤバッド)を含み得る。図示の実施形態では、プレイバックデバイス130A~130Fは、フレーム112の外面(すなわち、ユーザに面しない表面)上に置かれる。代替実施形態では、プレイバックデバイスの一部または全部が、フレーム112の内面(ユーザに面する表面)上に置かれ得る。オーディオプレイバックデバイスの数を増加させることは、ヘッドセット100によって提示されるオーディオ体験の精度(たとえば、オーディオコンテンツが提示される場合)および/または解像度(たとえば、仮想オーディオソースのサイズおよび/または形状)を改善し得る。
【0054】
いくつかの実施形態では、各プレイバックデバイスは、音響センサーと実質的にコロケート(collocate)される。言い換えれば、各音響検出ロケーションは、音響放射ロケーションに対応する。実質的にコロケートされるは、音響センサーについての音響検出ロケーションが、プレイバックデバイスについての対応する音響放射ロケーションから1/4波長未満離れていることを指す。音響検出ロケーションおよび対応する音響放射ロケーションの数および/またはロケーションは、
図1に示されているものとは異なり得る。たとえば、音響検出ロケーションおよび対応する音響放射ロケーションの数は、生成された音場に対する制御および/または精度を増加させるために、増加され得る。
【0055】
図示された構成では、オーディオシステムは、ユーザによって装着されるNEDに埋め込まれる。代替実施形態では、オーディオシステムは、ユーザによって装着されるヘッドマウントディスプレイ(HMD)に埋め込まれ得る。上記の説明は、ユーザによって装着されるヘッドセットに埋め込まれるものとしてオーディオアセンブリについて説明するが、オーディオアセンブリは、他の場所でユーザによって装着され得る異なるヘッドセットに埋め込まれるか、または装着されることなしにユーザによって動作され得ることは、当業者に明らかである。
【0056】
例示的な聴覚環境
図2は、1つの例示的な実施形態による、自身の聴覚フィールド中で非ターゲット聴覚ソースを知覚しているユーザによって装着されたヘッドセットのローカルエリアを示す。一例では、ヘッドセット210は、
図1に関して説明されたオーディオシステムを含むヘッドセット100であるが、他のヘッドセットであり得る。
【0057】
ローカルエリア200は、破線によって画定され、複数の空間ロケーションを表す。図示の例では、ローカルエリア200は、家屋中の部屋を表すが、任意の他のローカルエリアであり得る。ローカルエリア200内の空間ロケーションは、たとえば、ユーザ210および/またはヘッドセット210に対する3次元座標(たとえば、x,y,z座標)として定義され得る。空間ロケーションは、別の座標系を使用して定義され得る。
【0058】
図2は、ユーザ210の聴覚フィールド202をも示す。聴覚フィールド202は、ユーザ210がオーディオソースからの音波をそこから知覚することができるローカルエリア210中の空間ロケーションを含む。図示のように、理解しやすいように、ローカルエリア200と聴覚フィールド202とは同様であり、したがって、聴覚フィールド202はローカルエリア200中の空間ロケーションを含む。他の実施形態では、ローカルエリア200と聴覚フィールド202とは、同様でないことがある。たとえば、聴覚フィールドが、ローカルエリア200よりも大きくなり得、オーディオソースがローカルエリア200の外部にあるかのようにユーザがそれらのオーディオソースを知覚することを可能にする。
【0059】
ヘッドセット212は、ユーザ210がヘッドセット212を動作させるとき、ユーザ210にターゲットオーディオ体験を提示する。図示の例では、ターゲットオーディオ体験は、ユーザ210がスーパーヒーローをテーマにしたARビデオゲームをプレイするとき、ヘッドセット212のプレイバックデバイスによってプレイバックされる複数のオーディオコンテンツを含む。例示のために、ターゲットオーディオ体験は、ユーザ210が自身の手を移動することに応答する「バシッ(Pow)」などのパンチング音、「見て、鳥よ」などのゲーム中の人々のシミュレートされた感嘆、惑星の爆発などの環境雑音などを表すオーディオコンテンツを含むことができる。ヘッドセット212は、ユーザ210が自身の聴覚フィールド202内で空間ロケーションにあるオーディオコンテンツを知覚するように、ターゲットオーディオ体験を提示する。たとえば、爆発している工場のオーディオコンテンツは、爆発している惑星がユーザ210の後ろで起きているものとして知覚されるように、ユーザの聴覚フィールド202内でユーザ210に提示され得る。
【0060】
図2では、ローカルエリア200は、ユーザの聴覚フィールド202内にあるいくつかのオーディオソース(たとえば、オーディオソース220A、220B、および220C)を含む。
図2は、ローカルエリア200の外部のオーディオソース(たとえば、220D)をも示す。オーディオソースの各々は、ユーザ210のほうへ向けられた音波(たとえば、音波222A、222B、222C、および222D)を生成し得る。便宜上、本明細書では、オーディオソースおよび音波は、それぞれ、全体としてオーディオソース220および音波222と呼ばれることがある。音波222は、オーディオソース220とユーザ210との間の塗りつぶされたエリアとして示されている。オーディオソース(たとえば、オーディオソース220D)がローカルエリア200の外部にある場合、オーディオソースによって生成された音波(たとえば、音波222D)は、ローカルエリア200中の表面230によってユーザ210のほうへ向け直され得る。反射により、表面230は、音波にとって中間オーディオソースと見なされ得る。ローカルエリア200中のオーディオソースの各々は、空間ロケーションに位置する。空間ロケーションは、ユーザ210、ヘッドセット212、またはローカルエリア200に関して定義され得る。
【0061】
オーディオソース220によって生成された音波222は、ヘッドセット212によって提示されるターゲットオーディオ体験を劣化させ得る。すなわち、音波222は、ヘッドセット212を動作させている間、ターゲットオーディオ体験を劣化させるオーディオコンテンツとして、ユーザ210によって知覚され得る。例示のために、ユーザのより若い姉妹(たとえば、オーディオソース220C)が、ユーザ210がARゲームをプレイしている間、ローカルエリア200中に存在する。姉妹は、遊んでおり、会話している。会話からの音波のうちのいくつか(たとえば、音波222C)がユーザ210のほうへ向けられ、ユーザ210は、自身の聴覚フィールド202中で会話の音波を知覚する。言い換えれば、ユーザは、ゲームをプレイする間、姉妹の会話の部分を聞く。会話を聞くことは、ユーザがゲームをプレイしている間、会話がユーザの聴覚フィールド202内のかく乱として働くので、ユーザに提示されるターゲットオーディオ体験を劣化させる。
【0062】
他のオーディオソースも、ユーザのターゲットオーディオ体験を劣化させることがある。図示のように、オーディオソースは、たとえば、いくつかのファン(すなわち、オーディオソース220A)、話している人(すなわち、オーディオソース220B)、月に向かって遠吠えする3匹のオオカミ(すなわち、オーディオソース220D)を含むが、他の空間ロケーションにある多くの他のオーディオソースを含むことができる。オーディオソースは各々、異なる様式でユーザによって知覚され得る音波を生成することができる。たとえば、ファンは、周囲背景としてユーザによって知覚される音波を生成し得る。周囲雑音の多くの他の例が可能である。話している人は、対人コミュニケーションとして知覚され得る、ユーザ210のほうへ直接向けられた音波を生成し得る。オオカミは、かく乱する雑音としてユーザ210によって知覚される音波を生成し得る。ヘッドセットは、これらのオーディオソースの各々のタイプを決定し、受信された音波を補償する修正されたオーディオ体験を生成し得る。
【0063】
ヘッドセット212は、オーディオソース220の各々の空間ロケーションを決定するように構成される。一構成では、ヘッドセット212の音響センサーは、音波222を受信し、音響が音波をいつ受信したかに基づいて、音波を生成するオーディオソースの位置を決定することができる。たとえば、姉妹の会話の音波が、ヘッドセット212の第1の音響センサーと第2の音響センサーとによって、異なる時間において受信される。ヘッドセット212は、受信された音波における時間差とヘッドセットの配向とを使用してローカルエリア内の姉妹の空間ロケーションを決定する。空間ロケーションを決定することは、
図3に関してより詳細に説明される。
【0064】
ヘッドセット212は、音波を生成するオーディオソースのタイプを決定するように構成される。一構成では、ヘッドセットのコントローラは、オーディオソースからの音波中の音響特性のセットを決定する。決定された音響特性に基づいて、コントローラは、ヘッドセットによって受信された音波のタイプを決定することができる。たとえば、コントローラは、姉妹の会話からの音波における周波数のパターンおよび振幅が人間の会話を示すと決定する。応答して、コントローラは、姉妹を、邪魔になるオーディオソースとして分類する。
【0065】
ヘッドセット212は、ヘッドセット212によってプレイバックされたとき、オーディオソース220によって引き起こされる体験劣化を低減する、オーディオ命令を生成するように構成される。たとえば、ヘッドセット212は、姉妹の会話のユーザの知覚を低減するマスキング雑音としてプレイバックされる、オーディオ命令を生成し得る。ヘッドセット212は、姉妹の決定された空間ロケーションにおいてマスキング雑音を提示する。したがって、ユーザ210は、ゲームをプレイしている間、姉妹の会話ではなくマスキング雑音を知覚し、それにより、体験劣化を低減する。代替または追加として、ヘッドセット212は、プレイバックされたとき、姉妹の会話の音波のアクティブ雑音キャンセレーションを実施するオーディオ命令を生成し得る。したがって、会話の音波は低減され、ユーザ210は、ゲームをプレイしている間、会話の低減された知覚を有し、それにより、体験劣化を低減する。
【0066】
別の例では、ユーザ210は、ヘッドセット212を使用してロックンロールのアルバムを傾聴している。ユーザの父(たとえば、オーディオソース220A)が、ローカルエリア200中のテレビに大声をあげている。ユーザ210は、大声(たとえば、音波222B)を、ターゲットオーディオ体験を劣化させる自身の聴覚フィールド202中のかく乱として知覚する。ヘッドセット212は、ユーザの父の空間ロケーションを決定し、大声が体験劣化を引き起こしていると決定する。応答して、ヘッドセット212は、大声をマスキングするおよび/または大声の音波をアクティブ雑音キャンセルするためにプレイバックされる、オーディオ命令を生成する。したがって、ヘッドセットは、アルバムを傾聴するときの体験劣化を低減する。
【0067】
別の例では、ユーザ210は、ヘッドセット212を使用して教科書を読んでいる。ターゲットオーディオ体験は、ユーザ210のためにプレイバックされる白色雑音トラックである。この例では、3匹のオオカミが、ローカルエリア200の外部の月に向かって遠吠えしている(たとえば、オーディオソース220D)。しかしながら、ローカルエリア200中の表面230が、ユーザ210のほうへ音波(たとえば、音波222D)を反射する。ユーザは、遠吠えするオオカミを、ターゲットオーディオ体験を劣化させる自身の聴覚フィールド202中のかく乱として知覚する。ヘッドセット212は、反射面230の空間ロケーションを決定し、遠吠えが体験劣化を引き起こしていると決定する。応答して、ヘッドセット212は、遠吠えをマスキングするおよび/または遠吠えの音波をアクティブ雑音キャンセルするためにプレイバックされる、オーディオ命令を生成する。したがって、ヘッドセット212は、教科書を読むときの体験劣化を低減する。同様の例では、白色雑音トラックではなく、ターゲットオーディオ体験は、ユーザにとって「無音」であり得る。この場合、ヘッドセットは、遠吠えの音波をアクティブ雑音キャンセルするためにプレイバックされる、オーディオ命令を生成する。言い換えれば、様々な実施形態では、ヘッドセットは、ターゲットオーディオ体験が無音または静穏であるとき、雑音マスキングおよび/またはアクティブ雑音キャンセリングを実施することができる。
【0068】
体験劣化を低減するためにオーディオコンテンツを生成する追加の例が、本明細書で説明される。
【0069】
オーディオシステム
図3は、1つまたは複数の実施形態による、オーディオシステム300のブロック図である。オーディオシステム300は、ユーザにオーディオコンテンツを提供するヘッドセットの構成要素であり得る。
図1および
図2のオーディオシステムは、オーディオシステム300の実施形態であり得る。オーディオシステム300は、音響センサーアレイ310と、プレイバックデバイスアレイ320と、コントローラ330とを含む。オーディオシステム300のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。また、いくつかの実施形態では、オーディオシステムの機能のうちのいくつかは、異なる構成要素の一部であり得る(たとえば、いくつかはヘッドセットの一部であり得、いくつかはコンソールおよび/またはサーバの一部であり得る)。
【0070】
音響センサーアレイ310は、ローカルエリア(たとえば、ローカルエリア200)中の1つまたは複数のオーディオソースからの音波を検出する。音響センサーアレイ310は、ヘッドセット(たとえば、ヘッドセット100およびヘッドセット212)の一部である。音響センサーアレイ310は、複数の音響センサーを含む。音響センサーは、音響検知ロケーションに位置し、ポートを含み得る。ポートは、ヘッドセットのフレーム中の開口である。ポートは、ローカルエリアからの音波のための、音響導波路への内部結合点を提供し、音響導波路は音を音響センサーまで誘導する。複数の音響センサーは、ヘッドセットに位置し、ローカルエリア中の1つまたは複数のオーディオソースから放射された音波をキャプチャするように構成される。複数の音響センサーは、ユーザに対するすべての方向において音ソースを検出するために、ヘッドセット上に配置され得る。いくつかの実施形態では、複数の音響センサーは、他の方向に対するいくつかの方向における増強されたカバレージを提供するように配置され得る。音響センサーアレイを備える音響センサーの数を増加させることは、音響センサーアレイからローカルエリア中の1つまたは複数のオーディオソースまでの方向情報の精度を改善し得る。音響センサーは、音波によって引き起こされた空気圧力変動を検出する。各音響センサーは、音波を検出し、検出された音波を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサーは、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。
【0071】
プレイバックデバイスアレイ320は、オーディオコンテンツを含むオーディオ体験を提示する。提示されるオーディオコンテンツは、オーディオソースから受信された音波、それらの音波についての決定された空間ロケーション、および/またはオーディオソースの決定されたタイプに部分的に基づく。提示されるオーディオコンテンツは、オーディオシステム300によって提示されるターゲットオーディオ体験の劣化を低減するために、オーディオソースから受信された音波を補償し得る。
【0072】
プレイバックデバイスアレイ320は、ヘッドセット上の音響放射ロケーションに位置する複数のプレイバックデバイスを含む。音響放射は、ヘッドセットのフレーム中のポートをも含み得る。ポートは、音響導波路からの音の外部結合点を提供し、音響導波路は、プレイバックデバイスアレイのスピーカーをポートから分離する。スピーカーから放射された音は、音響導波路を通って進み、次いでポートによってローカルエリアに放射される。
【0073】
プレイバックデバイスは、たとえば、可動コイルトランスデューサ、圧電トランスデューサ、電気信号を使用して音響圧力波を生成する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。いくつかの実施形態では、プレイバックデバイスアレイ320は、各耳を覆うプレイバックデバイス(たとえば、ヘッドフォン、イヤバッドなど)をも含む。他の実施形態では、プレイバックデバイスアレイ320は、ユーザの耳を閉塞するプレイバックデバイスを含まない。
【0074】
各音響センサーは、プレイバックデバイスと実質的にコロケートされ得る。ここで、実質的にコロケートされるは、各音響センサーが、対応するプレイバックデバイスから1/4波長未満離れていることを指し、たとえば、最も小さい波長は、オーディオシステム300によって区別可能な最高周波数から来る。相反性定理は、自由場グリーン関数が、ソース/受信機ペアの間の距離に依存し、そのペアが表される順序に依存しないと述べており、したがって、そのような手法によればコロケーションは最適である。これは、音響センサーアレイ310上のマルチチャネル記録が、ローカルエリアに戻る等価な音響のプレイバックデバイスアレイ320の再生経路を表すことを可能にする。他の実施形態では、音響センサーおよび対応する音響放射ロケーションは、実質的にコロケートされないことがあるが、ロケーションのペアが実質的にコロケートされないかまたは少なくとも1/4波長以内でない場合の性能における妥協点があり得る。
【0075】
コントローラ330は、オーディオシステム300の動作を制御する。コントローラ330は、データストア340と、オーディオソース検出モジュール350と、かく乱低減モジュール360とを含み得る。オーディオソース検出モジュールは、ロケーションモジュール352と、分類モジュール354とを含み得る。コントローラ330のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。また、いくつかの実施形態では、コントローラ330の機能のうちのいくつかは、異なる構成要素によって実施され得る(たとえば、いくつかはヘッドセットにおいて実施され得、いくつかはコンソールおよび/またはサーバにおいて実施され得る)。
【0076】
データストア340は、オーディオシステム300による使用のためのデータを記憶する。データストア340中のデータは、オーディオコンテンツ、1つまたは複数のHRTF、オーディオコンテンツを生成するための他の伝達関数、またはオーディオシステム300による使用のための関係する他のデータなどの任意の組合せを含み得る。オーディオコンテンツは、より詳細には、オーディオシステムによって実行されたとき、ユーザにオーディオ体験の一部としてオーディオコンテンツを提示する、複数のオーディオ命令を含むことができる。
【0077】
データストア340に記憶された、またはオーディオシステム300によって生成されたオーディオコンテンツが、ユーザの聴覚フィールド内のオーディオコンテンツについてのターゲット提示方向および/またはターゲット提示ロケーションを指定し得る。オーディオコンテンツは、ターゲット提示方向におけるおよび/またはターゲット提示ロケーションにおけるオーディオソースとして、オーディオシステム300によって提示され得る。オーディオコンテンツは、ユーザがユーザの聴覚フィールド中のターゲット提示ロケーションおよび/またはターゲット提示方向におけるオーディオソースとしてオーディオコンテンツを知覚するように、提示される。本明細書では、ターゲット提示ロケーションは、オーディオシステム300によって提示されたオーディオコンテンツがそこから発生するように見える、空間ロケーションである。同様に、ターゲット提示方向は、オーディオシステムによって提示されたオーディオコンテンツがそこから発生するように知覚される、ベクトル(または、何らかの他の方向性インジケータ)である。たとえば、オーディオコンテンツは、ユーザの後ろのターゲット提示方向および/またはロケーションから来る爆発を含む。オーディオシステムは、ユーザが自身の後ろのターゲット提示方向および/またはロケーションにおける爆発を知覚するように、ターゲット提示方向および/またはロケーションにおけるオーディオコンテンツを提示する。
【0078】
いくつかの実施形態では、ターゲット提示方向および/またはロケーションは、ユーザが球面座標系の原点にいる球面座標系において編成され得る。この座標系では、ターゲット提示方向は、水平面からの仰角および水平面における方位角として示される。同様に、球面座標系では、ターゲット提示ロケーションは、水平面からの仰角と、水平面上の方位角と、原点からの距離とを含む。他の座標系も可能である。
【0079】
オーディオ体験のオーディオコンテンツは、データストア340に記憶されたHRTFのセットに従って生成され得る。HRTFは、オーディオコンテンツが、ターゲット提示方向および/またはロケーションにおいてユーザに提示されることを可能にする関数である。HRTFのセットは、1つまたは複数の一般HRTF、1つまたは複数のカスタマイズされたHRTF、またははそれらの何らかの組合せを含み得る。例示のために、オーディオコンテンツが、球面座標系によるユーザの聴覚フィールド内のターゲット提示ロケーションにおいてユーザに提示されることを可能にする、HRTFの例示的なセットについて考える。オーディオシステム300は、オーディオシステム(たとえば、ヘッドセット)のシステム配向、ならびに、ターゲット提示方向および/またはロケーションとシステム配向との間の相対配向とを決定する。オーディオシステムは、システム配向と相対配向とに基づいてユーザの聴覚フィールド中の適切な空間ロケーションにおいてオーディオコンテンツが提示されることを可能にする、HRTFのセットを決定する。オーディオシステムは、オーディオコンテンツのためのオーディオ命令を生成するためにHRTFのセットを適用する。HRTFにより、オーディオコンテンツは、球面座標系におけるターゲット提示ロケーションを表す仰角、方位角、および半径距離において知覚されることになる。例示のために、例を継続すると、オーディオシステムは、球状HRTFのセットから生成されたバイノーラル音響信号を含むオーディオコンテンツをユーザの耳に提示する。ユーザの聴覚知覚により、ユーザは、仰角、方位角、および半径距離をもつターゲット提示ロケーションにあるオーディオソースから発生するものとしてオーディオコンテンツを知覚する。HRTFの他のセットも可能である。
【0080】
多くの場合、オーディオシステム300を動作させるユーザは、静止していない。したがって、オーディオシステム300のシステム配向は変化し得、したがって、システム配向とターゲット提示ロケーションおよび/または方向との間の相対配向は変化し得る。これらの状況では、オーディオシステム300は、新しい相対配向と新しいシステム配向とを継続的に決定し得る。オーディオシステム300はさらに、新しいシステム配向および/または新しい相対配向に基づいてオーディオコンテンツが正しいターゲット提示方向および/またはロケーションにおいて提示されることを可能にする、HRTFを修正(または選択)し得る。このようにして、オーディオシステム300は、オーディオシステムの配向が変化するとき、オーディオコンテンツをターゲット空間ロケーションおよび/または方向において継続的に提示することができる。
【0081】
オーディオソース検出(「ASD」)モジュール350は、ヘッドセットのローカルエリア中のオーディオソース(たとえば、非ターゲットオーディオソース)を検出する。そうするために、ASDモジュール350は、ヘッドセットのローカルエリア中のオーディオソースから音響センサーアレイ310において受信された音波を使用して、伝達関数を推定する。ASDモジュール350は、音響センサーアレイ310によってキャプチャされた音波に基づいて、オーディオソースが存在すると決定する。いくつかの実施形態では、ASDモジュール350は、いくつかの音がしきい値、たとえば、周囲音レベルを上回ると決定することによって、オーディオソースを識別する。他の実施形態では、ASDモジュール350は、機械学習アルゴリズムを用いてオーディオソースを識別し、たとえば、シングルチャネル事前トレーニング済み機械学習ベース分類器が、オーディオソースのタイプを分類するために実装され得る。ASDモジュール350は、たとえば、ローカルエリアについてのベースライン値よりも大きい振幅を有する特定の範囲の周波数として、オーディオソースを識別し得る。
【0082】
いくつかの例では、ASDモジュール350は、ユーザから入力を受信した後にオーディオソースを決定する。たとえば、ユーザは「その音がかく乱している」と述べ得、ASDモジュール350は、かく乱を引き起こしていることがあるローカルエリア中のオーディオソースを識別する。いくつかの場合には、ユーザは、さらにより具体的であり得る。たとえば、ユーザは、「その鳥がかく乱している」と述べ得、ASDモジュール350は、鳥を表す音波を生成しているオーディオソースを識別する。他のユーザ入力も可能である。たとえば、ユーザは、オーディオソースを決定するためにASDモジュール350に指示するために、ハンドジェスチャーを行い、特定の様式で入力デバイスを利用し、特定の方向を見るか、または何らかの他のアクションであり得る。
【0083】
各識別されたオーディオソースについて、ASDモジュール350は、音響センサーの各々について伝達関数を決定することができる。伝達関数が、ローカルエリア中の空間ロケーションからの音波を受信することの音響センサーを特徴づける。詳細には、伝達関数は、音波のソースロケーション(すなわち、音波を放射するオーディオソースのロケーション)における音波のパラメータと、音響センサーが音波を検出した、パラメータとの間の関係を定義する。音波に関連するパラメータは、周波数、振幅、時間、位相、持続時間、到来方向(DoA)推定などを含み得る。ローカルエリア中の所与のオーディオソースについて、音響センサーアレイ310中の音響センサーのすべてについての伝達関数の集合が、ATFと呼ばれる。ATFは、音響センサーアレイ310がオーディオソースから音波をどのように受信するかを特徴づけ、オーディオソースの空間ロケーションにおける音波のパラメータと、音響センサーアレイ310が音波を検出した、パラメータとの間の関係を定義する。言い換えれば、ATFは、各オーディオソースから各音響センサーまでの音波の伝搬、さらに、各音響センサーから空間内の何らかの他の点までの音波の伝搬を表す。したがって、複数のオーディオソースがある場合、ASDモジュール350は各それぞれのオーディオソースについてATFを決定する。
【0084】
ロケーションモジュール352は、識別されたオーディオソースの空間ロケーションを決定する。一例では、ロケーションモジュール352は、識別されたオーディオソースに関連する決定されたATFおよび/または音響センサーアレイ310によって受信された音波を分析することによって、オーディオソースの空間ロケーションを決定する。たとえば、ロケーションモジュール352は、識別されたオーディオソースの空間ロケーションを決定するために、そのオーディオソースのためのATFのパラメータを分析することができる。例示のために、ヘッドセットを装着するユーザに向けられた音波を生成するオーディオソースについて考える。音波は、ユーザによって装着されたヘッドセットのオーディオシステム300中に含まれる音響センサーアレイ310の音響センサーにおいて受信される。ASDモジュール350は、本明細書で説明されるように、オーディオソースを識別し、オーディオソースのためのATFを決定する。ATFのパラメータは、オーディオソースによって生成された音波が、異なる時間において音響センサーアレイ310の異なる音響センサーに到来したことを指示する。さらに、パラメータは、異なる音響センサーにおいて受信された音波が、ヘッドセットのフレーム上の各音響センサーのロケーションに対応する異なる周波数応答を有することを指示する。ロケーションモジュール352は、音波到来時間および周波数応答における差を使用して、識別されたオーディオソースの空間ロケーションを決定する。決定されたATFおよび/または受信された音波に基づいて空間ロケーションを決定する他の方法も可能である。たとえば、ロケーションモジュール352は、音響センサーアレイの様々な音響センサーにおいて受信される時間信号に基づいて、ロケーションを三角測量することができる。
【0085】
いくつかの実施形態では、分類モジュール354は、ローカルエリアから検出された音を使用して、背景音レベルを決定する。分類モジュール354は、たとえば、ある時間期間にわたってローカルエリア内の音を監視し得る。分類モジュール354は、次いで、調整された範囲の監視された音を決定するために、監視された音からの外れ値(たとえば、平均振幅レベルから約10%超異なる振幅をもつ音)を識別し、除去し得る。分類モジュール354は、次いで、背景音レベルを、調整された範囲の監視された音の平均振幅レベルとして設定し得る。
【0086】
いくつかの実施形態では、分類モジュール354は、所定のしきい値を使用して背景音レベルを決定する。たとえば、分類モジュール354は、データストア340に記憶された音圧レベル(たとえば、45dB SPL)にアクセスし得る。分類モジュール354は、たとえば、音響センサーアレイを使用してローカルエリア内の音を監視し、監視された音についての音圧レベルを決定し得る。監視された音のいずれかが音圧レベルを上回る場合、オーディオシステム300は、それらの音をマスキングし得る。いくつかの実施形態では、音圧レベルは、異なる環境(たとえば、オフィス、屋外など)またはアプリケーション(たとえば、学習、ゲームなど)について異なり得る。
【0087】
さらに、いくつかの実施形態では、分類モジュールは、背景音レベルを空間的に決定し得る。すなわち、背景雑音レベルは、ユーザの聴覚フィールド中の空間領域について異なり得る。たとえば、ユーザの前の背景レベルは第1の背景レベルであり得、ユーザの後ろの背景レベルは第2の背景レベルであり得る。
【0088】
分類モジュール354は、識別されたオーディオソースのタイプを決定する。分類モジュール354は、音響センサーアレイ310によってキャプチャされた音波中にオーディオソースが存在することを識別する。いくつかの実施形態では、分類モジュール354は、いくつかの音がしきい値、たとえば、背景音レベルを上回ると決定することによって、音ソースを識別する。他の実施形態では、分類モジュール354は、機械学習アルゴリズムを用いて音ソースを識別し、たとえば、シングルチャネル事前トレーニング済み機械学習ベース分類器が、ソースの異なるタイプ間で分類するために実装され得る。分類モジュール354は、たとえば、ローカルエリアについての背景音レベルよりも大きい振幅を有する特定の範囲の周波数として、音ソースを識別し得る。
【0089】
分類モジュール354は、決定されたATFに基づいて、識別されたオーディオソースのタイプを、邪魔になるオーディオソースまたは邪魔にならないオーディオソースであると決定することができる。邪魔にならないオーディオソースは、ユーザによって知覚されたときにターゲットオーディオ体験を劣化させない音波を生成するオーディオソースである。邪魔にならないオーディオソースは、たとえば、ファン、空調ユニット、オフィスの背景雑音、または任意の他の邪魔にならないオーディオソースを含み得る。邪魔になるオーディオソースは、ユーザによって知覚されたときにターゲットオーディオ体験を劣化させる音波を生成するオーディオソースである。邪魔になるオーディオソースは、たとえば、1人または複数の話している人、バタンと閉まるドア、音楽演奏、さえずる鳥、交通騒音、または任意の他の邪魔になるオーディオソースを含み得る。特に、邪魔にならないオーディオソースおよび邪魔になるオーディオソースのこれらの例は、コンテキストのために提供される。いくつかの状況では、邪魔にならないオーディオソースが邪魔になるオーディオソースになり得、その逆も同様である。何が邪魔にならないオーディオソースおよび/または邪魔になるオーディオソースを表すかは、オーディオシステム300によって決定されるか、オーディオシステムのユーザによって定義されるか、またはオーディオシステムの設計者によって定義され得る。
【0090】
分類モジュール354は、音響センサーアレイ310によって検出された識別されたオーディオソースおよび/または音波についての決定されたATFを分析することによって、オーディオソースのタイプ(たとえば、邪魔になるまたは邪魔にならない)を決定する。いくつかの実施形態では、分類モジュール354は、オーディオソースがしきい値(たとえば、背景音レベル)よりも大きい音レベルを有する場合、そのオーディオソースを邪魔になるものとして分類し、オーディオソースがしきい値以下である場合、そのオーディオソースは邪魔にならないものとして分類される。いくつかの実施形態では、分類モジュール354は、オーディオソースが少なくともしきい値時間期間(たとえば、1秒超)の間、しきい値(たとえば、背景音レベル)よりも大きい音レベルを有する場合、そのオーディオソースを邪魔になるものとして分類し、他の場合、そのオーディオソースは邪魔にならないものとして分類される。決定されたATFおよび/または受信された音波に基づいてオーディオソースを分類する他の方法も可能である。たとえば、分類モジュールは、オーディオソースを分類するために様々な機械学習アルゴリズムを使用することができる。
【0091】
さらなる例示のために、たとえば、オフィスであるローカルエリア中のオーディオシステム300について考える。オフィスにおける従業員および/または機器は、オフィスの一般的な背景音レベルを表すいくつかの音波を生成し得る。分類モジュール354は、オフィスの背景音レベルのオーディオ特性(たとえば、周波数、振幅など)を測定し、特徴づけ得る。分類モジュール354は、背景音レベルを著しく上回るオーディオ特性を有する音波を生成するオーディオソースが、邪魔になるオーディオソースであり、背景音レベルを下回るオーディオ特性を有する音波を生成するオーディオソースが、邪魔にならないオーディオソースであると決定する。たとえば、分類モジュール354は、オフィスのオーディオ特性を決定する。オフィスにおけるある従業員が、議論中に別の従業員に大声で話し始める。オーディオソース検出モジュールは、議論している従業員がオーディオソースであると決定する。分類モジュールは、議論している従業員によって生成された音波の振幅が背景音レベルを上回ると決定する。したがって、分類モジュール354は、議論している従業員を、邪魔になるオーディオソースとして分類する。
【0092】
様々な実施形態では、分類モジュールは、オーディオソースの追加のタイプまたはより少ないタイプを分類することができる。さらに、オーディオソースは、オーディオソースを分類するのに好適な任意の基準によって分類され得る。たとえば、オーディオソースは、人間、周囲、大きい、穏やか、不規則、高周波数、低音量などとして分類され得る。多くの他のタイプが可能である。
【0093】
かく乱低減モジュール360は、プレイバックデバイスアレイ320によって実行されたとき、オーディオシステム300の周辺のローカルエリア中で識別された1つまたは複数のオーディオソース(たとえば、邪魔になるオーディオソース)によって引き起こされるターゲットオーディオ体験の劣化を低減するオーディオ体験を生成する、オーディオ命令を生成する。便宜上、ターゲットオーディオ体験の劣化を低減するオーディオ命令は、低減命令と呼ばれ、同様に、低減命令を実行したときに提示されるオーディオ体験は、修正されたオーディオ体験と呼ばれることがある。かく乱低減モジュール360は、以下で説明される様々な様式で、修正されたオーディオ体験を提示する低減命令を生成する。
【0094】
一例では、かく乱低減モジュール360は、修正されたオーディオ体験を提示するときにアクティブ雑音キャンセレーションを実施する、低減命令を生成する。アクティブ雑音キャンセレーションは、オーディオソースから受信されたオーディオコンテンツと弱め合うように干渉するオーディオコンテンツを生成し、提示する。例示のために、オーディオソース(たとえば、非ターゲットオーディオソース)は、オーディオシステム300のユーザによって知覚されたときにターゲットオーディオ体験を劣化させる音波を生成する。ASDモジュール350は、ヘッドセットのローカルエリア中のオーディオソースを決定する。ASDモジュール350は、受信された音波を分析し、音波の波形を決定する。ASDモジュール350はまた、識別されたオーディオソースについての決定されたATFのパラメータから波形を決定し得る。かく乱低減モジュール360は、決定された波形のためのアンチ波形を決定する。かく乱低減モジュール360は、プレイバックデバイスアレイ310によって実行されたとき、ユーザにアンチ波形を提示する低減命令を生成する。プレイバックデバイスアレイ310が、修正されたオーディオ体験を提示するとき、アンチ波形は、オーディオソースによって生成された音波の波形と弱め合うように干渉する。アンチ波形の提示は、体験劣化を低減する。
【0095】
一例では、かく乱低減モジュール360は、修正されたオーディオ体験を提示するときに中間音マスキングを実施する、低減命令を生成する。中間音マスキングは、オーディオソースから受信されたオーディオコンテンツを中間音を用いて音マスキングするオーディオコンテンツを生成し、提示する。例示のために、オーディオソース(たとえば、非ターゲットオーディオソース)は、オーディオシステム300のユーザによって知覚されたときにターゲットオーディオ体験を劣化させる音波を生成する。ASDモジュール350は、ヘッドセットのローカルエリア中のオーディオソースを決定する。ASDモジュール350は、受信された音波を分析し、受信された音波の音響特性のセットを決定する。音響特性は、周波数、振幅、位相、遅延、利得、または任意の他の音響特性を含み得る。ASDモジュール350はまた、識別されたオーディオソースについての決定されたATFのパラメータから音響特性を決定し得る。かく乱低減モジュール360は、受信された音波を中間音マスキングする音響信号(「中間音響信号」)を決定する。様々な実施形態では、中間音響信号は、白色雑音、ピンク雑音、整形された白色雑音、オーディオ特性に基づく雑音スペクトル、または任意の他の中間オーディオ信号であり得る。いくつかの場合には、中間音響信号は、データストア340に記憶され得る。かく乱低減モジュール360は、プレイバックデバイスアレイ310によって実行されたとき、修正されたオーディオ体験の一部として中間音響信号をユーザに提示する、低減命令を生成する。プレイバックデバイスアレイ310が、修正されたオーディオ体験を提示するとき、中間音響信号は、オーディオソースによって生成された音波を中間音マスキングする。中間音響信号の提示は、体験劣化を低減する。
【0096】
同様の例では、かく乱低減モジュール360は、プレイバックデバイスアレイ310によって実行されたとき、識別されたオーディオソースのための周囲音マスキングを実施する、低減命令を生成する。周囲音マスキングは、周囲音マスキングがオーディオシステム300のローカルエリア中で識別された他のオーディオソースを使用してオーディオ信号を生成するという点で、中間音マスキングとは異なる。たとえば、ローカルエリアは、邪魔になるオーディオソースと邪魔にならないオーディオソースの両方を含む。邪魔になるオーディオソースは、ターゲットオーディオ体験を劣化させる音波を生成し、邪魔にならないオーディオソースは、ターゲットオーディオ体験を劣化させない音波を生成する。ASDモジュール350は、ヘッドセットのローカルエリア中のオーディオソースを決定し、分類する。ASDモジュール350は、受信された音波を分析し、邪魔になるオーディオソースと邪魔にならないオーディオソースの両方についての受信された音波の音響特性のセットを決定する。かく乱低減モジュール360は、受信された音波を周囲音マスキングする音響信号(「周囲音響信号」)を決定する。周囲音響信号は、邪魔にならないオーディオソースのオーディオ特性のうちの1つまたは複数を含む。オーディオ特性は、全体としてまたは個々に、周囲背景を表し得る。たとえば、邪魔にならないオーディオソースがファンである場合、周囲音響信号はファンのオーディオ特性を含み得る。かく乱低減モジュール360は、プレイバックデバイスアレイ310によって実行されたとき、修正されたオーディオ体験の一部として周囲音響信号をユーザに提示する、低減命令を生成する。プレイバックデバイスアレイ310によって提示されたとき、周囲音響信号は、邪魔にならないオーディオソースのオーディオ特性を使用して、邪魔になるオーディオソースによって生成された音波を周囲音マスキングする。周囲音響信号の提示は、体験劣化を低減する。
【0097】
様々な実施形態では、かく乱低減モジュール360は、オーディオソースの識別された空間ロケーションを使用して低減命令を生成する。たとえば、かく乱低減モジュール360は、プレイバックデバイスアレイ310によって実行されたとき、ターゲットにされた方向および/またはロケーションにおいて提示されるオーディオコンテンツを含む修正されたオーディオ体験を提示する、低減命令を生成することができる。様々な実施形態では、かく乱低減モジュール360は、データストア340に記憶されたHRTFを使用して低減命令を生成するが、多くの他の伝達関数を使用することができる。ここで、ターゲットにされた方向および/またはロケーションは、識別されたオーディオソースの識別された空間ロケーションを含み得る。たとえば、特定の空間ロケーションにおけるオーディオソースが、ユーザに提示されるターゲットオーディオ体験を劣化させる音波を生成する。ロケーションモジュール352は、オーディオソースの空間ロケーションを決定する。かく乱低減モジュール360は、たとえば、修正されたオーディオ体験の一部としてオーディオソースの決定された空間ロケーションにおいて中間信号を提示する、低減命令を生成する。このようにして、ユーザは、自身の聴覚フィールド全体ではなくオーディオソースのロケーションのみにおいて中間信号を知覚する。本明細書で説明される他の低減命令(たとえば、アクティブ雑音キャンセリング、周囲信号など)も、ターゲットロケーションおよび/または方向において提示され得る。
【0098】
様々な実施形態では、かく乱低減モジュール360は、(1つまたは複数の)オーディオソースの決定されたタイプを使用して低減命令を生成する。たとえば、かく乱低減モジュール360は、識別されたオーディオソースが邪魔になるオーディオソースであるとき、アクティブ雑音キャンセレーションのための低減命令を生成し得る。別の例では、かく乱低減モジュール360は、識別されたオーディオソースから受信された音波のオーディオ特性が、特定のオーディオ特性、しきい値を上回る(または下回る)オーディオ特性などを含む場合、中間音マスキングのための低減命令を生成し得る。別の例では、かく乱低減モジュール360は、ASDモジュール350がオーディオシステムのローカルエリア中の邪魔にならないオーディオソースを識別する場合、周囲音マスキングのための低減命令を生成し得る。
【0099】
いくつかの例では、かく乱低減モジュール350は、ユーザから受信された入力に応答して、修正されたオーディオ体験を提示することができる。たとえば、ユーザが「聴覚かく乱をミュートして」と述べ得、応答して、オーディオシステム300は、修正されたオーディオ体験を提示するために本明細書で説明されるステップのいずれかをとる。いくつかの場合には、かく乱低減モジュールは、オーディオソースの特定のタイプによってターゲットオーディオ体験の劣化を低減する、修正されたオーディオ体験を提示することができる。たとえば、ユーザが「父さんをミューとして」と述べ得、ASDモジュール350は、大人の男性のための音声パターンに似ている音波を生成するオーディオソースを識別し、音波のための低減命令を生成し、識別された大人の男性から聞こえた音声を補償する修正されたオーディオ体験を提示する。修正されたオーディオ体験が、大人の男性から受信された音波のみを補償するので、ユーザは、依然として、他の雑音を聞くことが可能である。たとえば、ユーザは、近くの大人の男性によって生成された音波を知覚することが可能でない間、近くのセルラーデバイスからの通知アラートを表す音波を知覚し得る。いくつかの例では、かく乱低減モジュール350は、本明細書で説明される原理のいずれかに基づいて、修正されたオーディオ体験をユーザに自動的に提示することができる。たとえば、オーディオシステム300は、邪魔になるオーディオソースを決定し、邪魔になるオーディオソースによって生成された音波を補償する修正されたオーディオ体験を自動的に提示し得る。
【0100】
いくつかの例では、かく乱低減モジュール360は、ユーザに提示されるターゲットオーディオ体験のタイプに基づいて、修正されたオーディオ体験を提示することができる。ターゲットオーディオ体験のタイプは、ターゲットオーディオ体験のための分類の任意のタイプを含み得る。たとえば、タイプは、映画、ゲーム、ソーシャル、読むことなどであり得る。かく乱低減モジュール360は、ターゲットオーディオ体験のタイプを決定し得る。かく乱低減モジュール360は、ターゲットオーディオ体験のオーディオコンテンツに関連するタイプ記述子にアクセスすることによって、またはターゲットオーディオ体験のオーディオコンテンツの音波を分析することによって、タイプを決定し得る。たとえば、ユーザが、映画を見るためにオーディオシステム300を動作させている。映画は、映画として分類されるターゲットオーディオ体験のための、データストア340に記憶されたオーディオコンテンツを有する。別の例では、かく乱低減モジュール360は、映画の音波を受信し、音波を分析し、オーディオコンテンツが映画ターゲットオーディオ体験に関連すると決定する。かく乱低減モジュール360は、ターゲットオーディオ体験の決定されたタイプに基づいて低減命令を生成することができる。たとえば、タイプが映画であるとき、非ターゲットオーディオソースを音マスキングすることは、ユーザの聴覚フィールド中のかく乱として知覚され得る。したがって、かく乱低減モジュール360は、音マスキングでなく、アクティブ雑音キャンセリングを実施する低減命令を生成する。
【0101】
オーディオシステム300が、継続的に音響センサーアレイ310から音を受信し、ヘッドセットのローカルエリア中のオーディオソースを識別していることに留意されたい。したがって、コントローラ330は、ヘッドセットとローカルエリア内のオーディオソースとの間の相対ロケーションが変化するとき、低減命令を(たとえば、コントローラ330内のモジュールを介して)動的に更新することができる。さらに、コントローラ300は、ヘッドセットが、修正されたオーディオ体験を必要なときに提示するように、低減命令を継続的に生成することができる。言い換えれば、オーディオシステムは、常に変化しているオーディオソースをもつローカルエリア中の修正されたオーディオ体験を生成するように構成される。
【0102】
正規化されたオーディオ体験を提供すること
図4は、1つまたは複数の実施形態による、修正されたオーディオ体験をユーザに提示するためのプロセス400を示すフローチャートである。一実施形態では、
図4のプロセスは、オーディオシステム(たとえば、オーディオシステム300)の構成要素によって実施される。他のエンティティが、他の実施形態においてプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび/または追加のステップを含むか、または異なる順序でステップを実施し得る。プロセス400は、ユーザが、
図2に示されているローカルエリア中のオーディオシステム(たとえば、オーディオシステム300)をもつヘッドセットを動作させることに関して説明される。
【0103】
オーディオシステムは、410において、ローカルエリア中の1つまたは複数の非ターゲットオーディオソースから音波を受信する。音波は、ユーザの聴覚フィールド中のオーディオコンテンツをかく乱するものとして知覚され、これは、オーディオシステムによって提示されるターゲットオーディオ体験を劣化させる。たとえば、
図2を参照すると、いくつかのオーディオソース220が、ユーザ210のほうへ向けられる音波222を生成する。オーディオソースのうちの1つ(たとえば、オーディオソース220D)は、ローカルエリア200に位置しないが、そのオーディオソースによって生成された音波(たとえば、音波222D)は、それらの音波がローカルエリア200中の表面230から反射されるので、ユーザの聴覚フィールド202中で発生するものとして知覚される。オーディオソース220によって生成された音波222のいずれかは、ヘッドセット212によってユーザ210に提示されるターゲットオーディオ体験を劣化させ得る。
【0104】
図4に戻ると、オーディオシステムは、420において、ローカルエリア中の(1つまたは複数の)ソースの非ターゲットオーディオの(1つまたは複数の)空間ロケーションを決定する。オーディオシステムは、オーディオシステムによって受信された音波に基づいて非ターゲットオーディオソースの(1つまたは複数の)空間ロケーションを決定し得る。たとえば、
図2を参照すると、ユーザ210によって装着されるヘッドセット212のオーディオソース検出モジュール(たとえば、オーディオソース検出モジュール350)は、ユーザの聴覚フィールド202中のオーディオソース220を識別し得る。たとえば、オーディオソース検出モジュールは、オーディオソース220Bによって生成された音波222Bを受信し、受信された音波中のオーディオ特性が非ターゲットオーディオソースを表すことを識別する。ヘッドセット212のロケーションモジュール(たとえば、ロケーションモジュール352)は、識別されたオーディオソース220Bの空間ロケーションを決定する。たとえば、ロケーションモジュールは、球面座標におけるローカルエリア200中のユーザ210に対するオーディオソース220Bの座標を決定し得る。ヘッドセット212は、同様に、他のオーディオソース220を識別し、ローカルエリア200中のそれらの空間ロケーションを決定し得る。オーディオソースが、ローカルエリア200の外部にあるが、聴覚フィールド202内にあるとユーザによって依然として知覚される事例では、オーディオソース検出モジュールは、音波が発生する、物体(たとえば、表面230)の空間ロケーションを決定し得る。
【0105】
図4に戻ると、オーディオシステムは、430において、(1つまたは複数の)非ターゲットオーディオソースのタイプを決定する。オーディオシステムは、オーディオシステムによって受信された音波に基づいて非ターゲットオーディオソースのタイプを決定し得る。たとえば、
図2を参照すると、ヘッドセット212の分類モジュール(たとえば、分類モジュール354)は、そのオーディオソース220から受信された音波222に基づいて各オーディオソース220についてのタイプを決定する。例示のために、分類モジュールは、オーディオソース220B、220C、220Dが、ユーザに提示されるターゲットオーディオ体験を劣化させる音波を生成するので、それらのオーディオソースが邪魔になるオーディオソースであると決定し得る。同様に、分類モジュールは、オーディオソース220Aが、ターゲットオーディオ体験を劣化させる音波を生成しないので、そのオーディオソースが邪魔にならないオーディオソースであると決定し得る。
【0106】
図4に戻ると、オーディオシステムは、440において、(1つまたは複数の)非ターゲットオーディオソースの決定された空間ロケーション、(1つまたは複数の)オーディオソースの決定されたタイプ、および(1つまたは複数の)非ターゲットオーディオソースから受信された音波のオーディオ特性のいずれかに基づいて、低減オーディオ命令のセットを生成する。低減オーディオ命令は、オーディオシステムによって実行されたとき、ユーザの聴覚フィールド中の(1つまたは複数の)非ターゲットオーディオソースによる体験劣化を低減するオーディオコンテンツを提示する。たとえば、
図2を参照すると、ヘッドセットのかく乱低減モジュール(たとえば、かく乱低減モジュール360)が、ローカルエリア中の邪魔になるオーディオソースの各々のために低減オーディオ命令を生成する。例示のために、かく乱低減モジュールは、それぞれ、邪魔になるオーディオソース220B、220C、および220Dのために、アクティブ雑音キャンセリング、周囲雑音マスキング、および中間雑音マスキングのための低減命令を生成する。かく乱低減モジュールは、低減命令を生成するために、ヘッドセットのデータストア(たとえば、データストア340)に記憶されたHRTFを使用する。
【0107】
オーディオシステムは、体験劣化を低減するオーディオコンテンツをユーザに提示するための低減オーディオ命令を実行する。言い換えれば、オーディオシステムは、450において、修正されたオーディオ体験をユーザに提示する。修正されたオーディオ体験は、(1つまたは複数の)非ターゲットオーディオソースによって生成された音波を補償するオーディオコンテンツを含む。オーディオコンテンツは、(1つまたは複数の)非ターゲットオーディオソースの決定された空間ロケーションにおいて提示され得る。たとえば、
図2を参照すると、かく乱低減モジュールは、生成された低減命令を使用して、修正されたオーディオ体験を提示する。修正されたオーディオ体験は、識別された邪魔になるオーディオソースの各々から受信された音波を補償するオーディオコンテンツを含む。たとえば、修正されたオーディオ体験は、オーディオソース220Bから受信された音波のためのアクティブ雑音キャンセレーションを実施するオーディオコンテンツを提示する。オーディオコンテンツは、オーディオソース220Bの空間ロケーションから発生するものとして知覚される音波に対してアクティブ雑音キャンセレーションが実施されるように、オーディオソース220Bの空間ロケーションの方向において提示される。同様に、オーディオシステムは、それぞれ、オーディオソース220Cおよび表面230の空間ロケーションから発生するように知覚された音波に対して、それぞれ、周囲音マスキングおよび中間音マスキングを実施する、オーディオコンテンツを提示する。修正されたオーディオ体験は、邪魔になるオーディオソースから受信された音波を補償し、体験劣化を低減する。
【0108】
プロセス400のステップは、ヘッドセット212の動作中の任意の時間において行われ得る。重要なことには、識別されたオーディオソースがユーザ210の聴覚フィールド202を通って移動するとき、ヘッドセット212のオーディオシステムは低減命令を継続的に生成することができる。低減命令は、非ターゲットオーディオソースによって生成された音波によって引き起こされるターゲットオーディオ体験の劣化を低減する、修正されたオーディオ体験を継続的に提示するためにオーディオシステムによって実行され得る。より簡潔には、かく乱するオーディオソースがユーザの聴覚フィールド202を通って移動するとき、オーディオシステムは、それらのかく乱を補償し体験劣化を低減するオーディオ体験を継続的に生成する。
【0109】
人工現実システムの例
図5は、1つまたは複数の実施形態による、
図3のオーディオシステム300を含むヘッドセットのシステム環境である。システム500は、人工現実環境、たとえば、仮想現実、拡張現実、混合現実環境、またはそれらの何らかの組合せにおいて動作し得る。
図5によって示されているシステム500は、ヘッドセット505と、コンソール510に結合された入出力(I/O)インターフェース515とを備える。ヘッドセット505は、ヘッドセット200の一実施形態であり得る。
図5は1つのヘッドセット505と1つのI/Oインターフェース515とを含む例示的なシステム500を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム500中に含まれ得る。たとえば、各々が、関連するI/Oインターフェース515を有する、複数のヘッドセット505があり得、各ヘッドセット505およびI/Oインターフェース515はコンソール510と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム500中に含まれ得る。さらに、
図5に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、
図5に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール510の機能性の一部または全部がヘッドセット505によって提供される。
【0110】
ヘッドセット505は、コンピュータ生成された要素(たとえば、2次元(2D)または3次元(3D)画像、2Dまたは3Dビデオ、音など)を用いた物理的な現実世界環境の拡張ビューを備えるコンテンツをユーザに提示する。ヘッドセット505は、アイウェアデバイスまたはヘッドマウントディスプレイであり得る。いくつかの実施形態では、提示されるコンテンツは、オーディオシステム300を介して提示されるオーディオコンテンツを含み、オーディオシステム300は、ヘッドセット505、コンソール510、またはその両方からオーディオ情報(たとえば、オーディオ信号)を受信し、そのオーディオ情報に基づいてオーディオコンテンツを提示する。
【0111】
ヘッドセット505は、オーディオシステム300と、深度カメラアセンブリ(DCA)520と、電子ディスプレイ525と、光学ブロック530と、1つまたは複数の位置センサー535と、慣性測定ユニット(IMU)540とを含む。電子ディスプレイ525と光学ブロック530とは、レンズ110の一実施形態である。位置センサー535とIMU540とは、センサーデバイス114の一実施形態である。ヘッドセット505のいくつかの実施形態は、
図5に関して説明されるものとは異なる構成要素を有する。さらに、
図5に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット505の構成要素の間で別様に分散されるか、またはヘッドセット505からリモートにある別個のアセンブリにおいて取り込まれ得る。
【0112】
オーディオシステム300は、ユーザのためのターゲットオーディオ体験を生成する。さらに、
図1~
図4を参照しながら説明された、オーディオシステム300は、オーディオアセンブリ300のマイクロフォンアレイを介して、ヘッドセット505のローカルエリア中の1つまたは複数のオーディオソースからの音波を検出する。音波は、ユーザによって知覚され、ターゲットオーディオ体験を劣化させ得る。オーディオアセンブリ300は、音波に関連するアレイ伝達関数(ATF)を推定し、ATFを使用してヘッドセットのプレイバックデバイスアレイのための低減オーディオ命令を生成する。オーディオシステム300は、低減オーディオ命令に部分的に基づいて、プレイバックデバイスアレイを介して、オーディオコンテンツを提示する。提示されたオーディオコンテンツは、1つまたは複数のオーディオソースから生成された音波によって引き起こされる体験劣化を低減する、ユーザのための修正されたオーディオ体験を生成する。
【0113】
DCA520は、ヘッドセット505の一部または全部の周辺のローカル環境の深度情報を表すデータをキャプチャする。DCA520は、光生成器(たとえば、構造化光および/または飛行時間のためのフラッシュ)、イメージングデバイス、ならびに光生成器とイメージングデバイスの両方に結合され得るDCAコントローラを含み得る。光生成器は、たとえば、DCAコントローラによって生成された放射命令に従って、照明光を用いてローカルエリアを照明する。DCAコントローラは、放射命令に基づいて、たとえば、ローカルエリアを照明する照明光の強度およびパターンを調整するように、光生成器のいくつかの構成要素の動作を制御するように構成される。いくつかの実施形態では、照明光は、構造化光パターン、たとえば、ドットパターン、ラインパターンなどを含み得る。イメージングデバイスは、照明光を用いて照明されたローカルエリア中の1つまたは複数の物体の1つまたは複数の画像をキャプチャする。DCA520は、イメージングデバイスによってキャプチャされたデータを使用して深度情報を算出することができるか、またはDCA520は、DCA520からのデータを使用して深度情報を決定することができるコンソール510などの別のデバイスに、この情報を送ることができる。
【0114】
いくつかの実施形態では、オーディオシステム300は、1つまたは複数の潜在的オーディオソースの方向または空間ロケーション、1つまたは複数のオーディオソースの深度、1つまたは複数のオーディオソースの移動、1つまたは複数のオーディオソースの周りの音アクティビティ、またはそれらの任意の組合せを識別するの助け得る、深度情報を利用し得る。
【0115】
電子ディスプレイ525は、コンソール510から受信されたデータに従ってユーザに2D画像または3D画像を表示する。様々な実施形態では、電子ディスプレイ525は、単一の電子ディスプレイまたは複数の電子ディスプレイ(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイ525の例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。
【0116】
いくつかの実施形態では、光学ブロック530は、電子ディスプレイ525から受光された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット505のユーザに提示する。様々な実施形態では、光学ブロック530は、1つまたは複数の光学要素を含む。光学ブロック530中に含まれる例示的な光学要素は、導波路、開口、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック530は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック530中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
【0117】
光学ブロック530による画像光の拡大および集束は、電子ディスプレイ525が、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイ525によって提示されるコンテンツの視野を増大させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらにいくつかの実施形態では、拡大量は、光学要素を追加することまたは取り外すことによって調整され得る。
【0118】
いくつかの実施形態では、光学ブロック530は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイ525に提供されるコンテンツは予歪され、光学ブロック530が、そのコンテンツに基づいて生成された画像光を電子ディスプレイ525から受光したとき、光学ブロック530はそのひずみを補正する。
【0119】
IMU540は、位置センサー535のうちの1つまたは複数から受信された測定信号に基づいて、ヘッドセット505の位置を指示するデータを生成する電子デバイスである。位置センサー535は、ヘッドセット505の運動に応答して1つまたは複数の測定信号を生成する。位置センサー535の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMU540の誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー535は、IMU540の外部に、IMU540の内部に、またはそれらの何らかの組合せで位置し得る。
【0120】
1つまたは複数の位置センサー535からの1つまたは複数の測定信号に基づいて、IMU540は、ヘッドセット505の初期位置に対するヘッドセット505の推定現在位置を指示するデータを生成する。たとえば、位置センサー535は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえばピッチ、ヨー、およびロール)を測定するための複数のジャイロスコープとを含む。いくつかの実施形態では、IMU540は、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット505の推定現在位置を計算する。たとえば、IMU540は、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット505上の基準点の推定現在位置を決定する。代替的に、IMU540は、サンプリングされた測定信号をコンソール510に提供し、コンソール510は、誤差を低減するようにデータを解釈する。基準点は、ヘッドセット505の位置を表すために使用され得る点である。基準点は、一般に、アイウェアデバイス505の配向および位置に関係する空間内の点、または位置として定義され得る。
【0121】
I/Oインターフェース515は、ユーザがアクション要求を送り、コンソール510から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース515は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、手コントローラ、またはアクション要求を受信し、そのアクション要求をコンソール510に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース515によって受信されたアクション要求は、コンソール510に通信され、コンソール510は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース515は、上記でさらに説明されたように、I/Oインターフェース515の初期位置に対するI/Oインターフェース515の推定位置を指示する較正データをキャプチャするIMU540を含む。いくつかの実施形態では、I/Oインターフェース515は、コンソール510から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、またはコンソール510がアクションを実施するときに、コンソール510が、I/Oインターフェース515に命令を通信して、I/Oインターフェース515が触覚フィードバックを生成することを引き起こす。I/Oインターフェース515は、オーディオコンテンツの知覚される起点方向および/または知覚される起点ロケーションを決定する際に使用するためにユーザからの1つまたは複数の入力応答を監視し得る。
【0122】
コンソール510は、ヘッドセット505とI/Oインターフェース515とのうちの1つまたは複数から受信された情報に従って、処理するためのコンテンツをヘッドセット505に提供する。
図5に示されている例では、コンソール510は、アプリケーションストア550と、追跡モジュール555と、エンジン545とを含む。コンソール510のいくつかの実施形態は、
図5に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、
図5に関して説明されるものとは異なる様式でコンソール510の構成要素の間で分散され得る。
【0123】
アプリケーションストア550は、コンソール510が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット505またはI/Oインターフェース515の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオプレイバックアプリケーション、または他の好適なアプリケーションを含む。
【0124】
追跡モジュール555は、1つまたは複数の較正パラメータを使用してシステム環境500を較正し、ヘッドセット505またはI/Oインターフェース515の位置を決定する際の誤差を低減するように、1つまたは複数の較正パラメータを調整し得る。また、追跡モジュール555によって実施される較正は、ヘッドセット505中のIMU540および/またはI/Oインターフェース515中に含まれるIMU540から受信された情報を考慮する。さらに、ヘッドセット505の追跡が失われた場合、追跡モジュール555は、システム環境500の一部または全部を再較正し得る。
【0125】
追跡モジュール555は、1つまたは複数の位置センサー535、IMU540、DCA520、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット505またはI/Oインターフェース515の移動を追跡する。たとえば、追跡モジュール555は、ヘッドセット505からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット505の基準点の位置を決定する。追跡モジュール555はまた、ヘッドセット505の基準点の位置、またはI/Oインターフェース515の基準点の位置を、それぞれ、ヘッドセット505の位置を指示するIMU540からのデータを使用して、またはI/Oインターフェース515の位置を指示するI/Oインターフェース515中に含まれるIMU540からのデータを使用して決定し得る。さらに、いくつかの実施形態では、追跡モジュール555は、位置またはヘッドセット505を指示するIMU540からのデータの部分を使用して、ヘッドセット505の将来の位置を予測し得る。追跡モジュール555は、ヘッドセット505またはI/Oインターフェース515の推定または予測された将来の位置をエンジン545に提供する。いくつかの実施形態では、追跡モジュール555は、音場再生フィルタを生成する際に使用するためにオーディオシステム300に追跡情報を提供し得る。
【0126】
エンジン545はまた、システム環境500内でアプリケーションを実行し、追跡モジュール555から、ヘッドセット505の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン545は、ユーザへの提示のためにヘッドセット505に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン545は、仮想環境において、またはローカルエリアを追加のコンテンツで拡張する環境において、ユーザの移動を反映する、ヘッドセット505のためのコンテンツを生成する。さらに、エンジン545は、I/Oインターフェース515から受信されたアクション要求に応答して、コンソール510上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット505を介した視覚または可聴フィードバック、あるいはI/Oインターフェース515を介した触覚フィードバックであり得る。
【0127】
追加の構成情報
本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。
【0128】
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
【0129】
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。
【0130】
本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
【0131】
本開示の実施形態はまた、本明細書で説明されるコンピューティングプロセスによって製造される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
【0132】
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。