特表2022-538714 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オキュラス　ブイアール，エルエルシーの特許一覧

特表2022-538714人工現実環境のためのオーディオシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-09-06

(54)【発明の名称】人工現実環境のためのオーディオシステム

(51)【国際特許分類】

H04S 7/00 20060101AFI20220830BHJP

【ＦＩ】

H04S7/00 320

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021557401

(86)(22)【出願日】2020-05-01

(85)【翻訳文提出日】2021-11-22

(86)【国際出願番号】 US2020030933

(87)【国際公開番号】W WO2020263407

(87)【国際公開日】2020-12-30

(31)【優先権主張番号】16/450,678

(32)【優先日】2019-06-24

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】515046968

【氏名又は名称】メタプラットフォームズテクノロジーズ，リミテッドライアビリティカンパニー

【氏名又は名称原語表記】ＭＥＴＡＰＬＡＴＦＯＲＭＳＴＥＣＨＮＯＬＯＧＩＥＳ，ＬＬＣ

(74)【代理人】

【識別番号】110002974

【氏名又は名称】弁理士法人ＷｏｒｌｄＩＰ

(72)【発明者】

【氏名】アメンガルガリ，セバスチアヴァイセンス

(72)【発明者】

【氏名】シスラー，カール

(72)【発明者】

【氏名】マレシュ，ピーターヘンリー

(72)【発明者】

【氏名】ロビット，アンドリュー

(72)【発明者】

【氏名】ロビンソン，フィリップ

【テーマコード（参考）】

5D162

【Ｆターム（参考）】

5D162AA05

5D162CA26

5D162CC09

5D162CC18

5D162CD07

5D162CD26

5D162DA02

5D162DA04

5D162EG04

(57)【要約】

ヘッドセット上のオーディオシステムが、ターゲット人工現実環境をシミュレートするオーディオコンテンツをユーザに提示する。本システムは、環境からオーディオコンテンツを受信し、環境に関連する音響特性のセットを決定するためにオーディオコンテンツを分析する。オーディオコンテンツは、ユーザ生成された音、または周囲音であり得る。ターゲット環境についてのターゲット音響特性のセットを受信した後に、本システムは、音響特性のセットとターゲット環境の音響特性とを比較することによって、伝達関数を決定する。本システムは、伝達関数に基づいてオーディオコンテンツを調整し、調整されたオーディオコンテンツをユーザに提示する。提示された調整されたオーディオコンテンツは、ターゲット環境についてのターゲット音響特性のうちの１つまたは複数を含む。
【選択図】図４

【特許請求の範囲】

【請求項1】

環境に関連する音響特性のセットを識別するために前記環境中の音を分析することと、
前記環境内で生成されたオーディオコンテンツを受信することと、
音響特性の前記セットとターゲット環境についてのターゲット音響特性のセットとの比較に基づいて伝達関数を決定することと、
前記伝達関数を使用して前記オーディオコンテンツを調整することであって、前記伝達関数が、前記ターゲット環境についてのターゲット音響特性の前記セットに基づいて前記オーディオコンテンツの音響特性の前記セットを調整する、前記オーディオコンテンツを調整することと、
ユーザのために調整された前記オーディオコンテンツを提示することであって、調整された前記オーディオコンテンツが、前記ターゲット環境中で生成されたように前記ユーザによって知覚される、調整された前記オーディオコンテンツを提示することと
を含む、方法。

【請求項2】

前記伝達関数を使用して前記オーディオコンテンツを調整することが、
前記環境中の周囲音を識別することと、
前記ユーザのための調整された前記オーディオコンテンツの中から前記周囲音をフィルタ処理することと
をさらに含む、請求項１に記載の方法。

【請求項3】

前記ユーザに複数のターゲット環境オプションを提供することであって、前記複数のターゲット環境オプションの各々が、異なるターゲット環境に対応する、複数のターゲット環境オプションを提供することと、
前記ユーザから、前記複数のターゲット環境オプションからの前記ターゲット環境の選択を受信することと
をさらに含む、請求項１に記載の方法。

【請求項4】

前記複数のターゲット環境オプションの各々が、前記ターゲット環境についての音響特性の異なるセットに関連する、請求項３に記載の方法。

【請求項5】

前記環境に関連する音響特性の前記セットを特徴づける元の応答を決定することと、
前記ターゲット環境についてのターゲット音響特性の前記セットを特徴づけるターゲット応答を決定することと
をさらに含む、請求項１に記載の方法。

【請求項6】

前記伝達関数を決定することが、
前記元の応答と前記ターゲット応答とを比較することと、
前記比較に基づいて、前記環境に関連する音響パラメータのセットと、前記ターゲット環境に関連する音響パラメータのセットとの間の差を決定することと
をさらに含む、請求項５に記載の方法。

【請求項7】

前記伝達関数を使用して音フィルタを生成することであって、調整された前記オーディオコンテンツが前記音フィルタに部分的に基づく、音フィルタを生成すること
をさらに含む、請求項１に記載の方法。

【請求項8】

前記伝達関数を決定することが、少なくとも１つの以前に測定された室内インパルスまたはアルゴリズム残響に基づいて決定される、請求項１に記載の方法。

【請求項9】

前記オーディオコンテンツを調整することが、
前記伝達関数を受信された前記オーディオコンテンツと畳み込むこと
をさらに含む、請求項１に記載の方法。

【請求項10】

受信された前記オーディオコンテンツが、複数のユーザのうちの少なくとも１人のユーザによって生成される、請求項１に記載の方法。

【請求項11】

環境内のオーディオコンテンツを受信するように構成された１つまたは複数のセンサーと、
オーディオコンテンツをユーザに提示するように構成された１つまたは複数のスピーカーと、
コントローラと
を備えるオーディオシステムであって、前記コントローラは、
前記環境に関連する音響特性のセットを識別するために前記環境中の音を分析することと、
音響特性の前記セットとターゲット環境についてのターゲット音響特性のセットとの比較に基づいて伝達関数を決定することと、
前記伝達関数を使用して前記オーディオコンテンツを調整することであって、前記伝達関数が、前記ターゲット環境についてのターゲット音響特性の前記セットに基づいて前記オーディオコンテンツの音響特性の前記セットを調整する、前記オーディオコンテンツを調整することと、
調整された前記オーディオコンテンツを前記ユーザに提示するように前記スピーカーに命令することであって、調整された前記オーディオコンテンツが、前記ターゲット環境中で生成されたように前記ユーザによって知覚される、前記スピーカーに命令することと
を行うように構成された、
オーディオシステム。

【請求項12】

前記オーディオシステムがヘッドセットの一部である、請求項１１に記載のシステム。

【請求項13】

前記オーディオコンテンツを調整することが、
前記環境中の周囲音を識別することと、
前記ユーザのための調整された前記オーディオコンテンツの中から前記周囲音をフィルタ処理することと
をさらに含む、請求項１１に記載のシステム。

【請求項14】

前記コントローラは、
前記ユーザに複数のターゲット環境オプションを提供することであって、前記複数のターゲット環境オプションの各々が、異なるターゲット環境に対応する、複数のターゲット環境オプションを提供することと、
前記ユーザから、前記複数のターゲット環境オプションからの前記ターゲット環境の選択を受信することと
を行うようにさらに構成された、請求項１１に記載のシステム。

【請求項15】

前記複数のターゲット環境オプションの各々が、前記ターゲット環境についてのターゲット音響特性のセットに関連する、請求項１４に記載のシステム。

【請求項16】

前記コントローラが、
前記環境に関連する音響特性の前記セットを特徴づける元の応答を決定することと、
前記ターゲット環境についてのターゲット音響特性の前記セットを特徴づけるターゲット応答を決定することと
を行うようにさらに構成された、請求項１１に記載のシステム。

【請求項17】

前記コントローラは、
前記環境の室内インパルス応答を推定することであって、前記室内インパルス応答が、前記元の応答を生成するために使用される、室内インパルス応答を推定すること
を行うようにさらに構成された、請求項１６に記載のシステム。

【請求項18】

前記コントローラが、
前記伝達関数を使用して音フィルタを生成することと、
前記音フィルタに部分的に基づいて前記オーディオコンテンツを調整することと
を行うようにさらに構成された、請求項１１に記載のシステム。

【請求項19】

前記コントローラが、
少なくとも１つの以前に測定された室内インパルス応答またはアルゴリズム残響を使用して、前記伝達関数を決定すること
を行うようにさらに構成された、請求項１１に記載のシステム。

【請求項20】

前記コントローラが、前記伝達関数を受信された前記オーディオコンテンツと畳み込むことによって、前記オーディオコンテンツを調整するように構成された、請求項１１に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、その内容全体がすべての目的のために参照により本明細書に組み込まれる、２０１９年６月２４日に出願された米国出願第１６／４５０，６７８号からの優先権を主張する。

【0002】

本開示は、一般に、オーディオシステムに関し、詳細には、ターゲット人工現実環境のための音をレンダリングするオーディオシステムに関する。

【背景技術】

【0003】

仮想および／または拡張情報をユーザに提示するために、ヘッドマウントディスプレイ（ＨＭＤ）が使用され得る。たとえば、拡張現実／仮想現実をシミュレートするために、拡張現実（ＡＲ）ヘッドセットまたは仮想現実（ＶＲ）ヘッドセットが使用され得る。従来、ＡＲ／ＶＲヘッドセットのユーザは、コンピュータ生成された音を受信するかまたは場合によっては体験するためにヘッドフォンを装着する。ユーザがＡＲ／ＶＲヘッドセットを装着する環境は、しばしば、ＡＲ／ＶＲヘッドセットがシミュレートする仮想空間に一致せず、したがって、聴覚矛盾（ａｕｄｉｔｏｒｙｃｏｎｆｌｉｃｔ）をユーザに提示する。たとえば、ミュージシャンおよびアクターは概して、オーディエンスエリアにおいて受信される自分のプレイスタイルおよび音がホールの音響効果に依存するので、パフォーマンス空間においてリハーサルを終える必要がある。さらに、ユーザ生成された音、たとえば音声、拍手などを伴うゲームまたはアプリケーションにおいて、プレーヤがいる実空間の音響特性は、仮想空間の音響特性に一致しない。

【発明の概要】

【0004】

ターゲット人工現実環境中の音をレンダリングするための方法が開示される。本方法は、コントローラを介して、環境に関連する音響特性のセットを分析する。環境は、ユーザが位置する部屋であり得る。１つまたは複数のセンサーが、ユーザ生成された音および周囲音を含む、環境内からのオーディオコンテンツを受信する。たとえば、ユーザが、環境中で話し、楽器を演奏し、または歌い得る間、周囲音は、特に、送風機の稼働および犬の吠え声を含み得る。スタジアム、コンサートホール、またはフィールドなど、ターゲット人工現実環境の選択を受信したことに応答して、コントローラは、ユーザが現在いる部屋の音響特性を、ターゲット環境に関連するターゲット音響特性のセットと比較する。コントローラは、その後、伝達関数を決定し、コントローラは、受信されたオーディオコンテンツを調整するために伝達関数を使用する。したがって、１つまたは複数のスピーカーが、調整されたオーディオコンテンツがターゲット環境についてのターゲット音響特性のうちの１つまたは複数を含むように、ユーザのために調整されたオーディオコンテンツを提示する。ユーザは、調整されたオーディオコンテンツを、それらがターゲット環境中にあるかのように知覚する。

【0005】

いくつかの実施形態では、本方法は、ヘッドセット（たとえば、ニアアイディスプレイ（ＮＥＤ）、ヘッドマウントディスプレイ（ＨＭＤ））の一部であるオーディオシステムによって実施される。オーディオシステムは、オーディオコンテンツを検出するための１つまたは複数のセンサーと、調整されたオーディオコンテンツを提示するための１つまたは複数のスピーカーと、ターゲット環境の音響特性とともに環境の音響特性を分析するための、ならびに音響特性の２つのセットの比較を特徴づける伝達関数を決定するためのコントローラとを含む。

【図面の簡単な説明】

【0006】

【図1】１つまたは複数の実施形態による、ヘッドセットの図である。

【図2A】１つまたは複数の実施形態による、音場を示す図である。

【図2B】１つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングした後の音場を示す図である。

【図3】１つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。

【図4】１つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングするためのプロセスを示す図である。

【図5】１つまたは複数の実施形態による、例示的な人工現実システムのブロック図である。

【発明を実施するための形態】

【0007】

図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。

【0008】

オーディオシステムが、ターゲット人工現実環境のためのオーディオコンテンツをレンダリングする。ヘッドセットなど、人工現実（ＡＲ）または仮想現実（ＶＲ）デバイスを装着している間、ユーザは、オーディオコンテンツ（たとえば、音声、楽器からの音楽、拍手、または他の雑音）を生成し得る。部屋など、ユーザの現在の環境の音響特性は、ＡＲ／ＶＲヘッドセットによってシミュレートされる、仮想空間、すなわち、ターゲット人工現実環境の音響特性に一致しないことがある。オーディオシステムは、ユーザの現在の環境中の周囲音をも考慮しながら、ユーザ生成されたオーディオコンテンツを、そのコンテンツがターゲット環境中で生成されたかのようにレンダリングする。たとえば、ユーザは、コンサートホール、すなわち、ターゲット環境中の歌のパフォーマンスをシミュレートするためにヘッドセットを使用し得る。ユーザが歌うとき、オーディオシステムは、オーディオコンテンツ、すなわち、ユーザが歌っている音を、その音がユーザがコンサートホールの中で歌っているように聞こえるように調整する。水のしたたり、人々のおしゃべり、または送風機の稼働など、ユーザの周りの環境中の周囲雑音は、ターゲット環境がそれらの音を採用する可能性が低いので、減衰され得る。オーディオシステムは、ターゲット環境の特徴を示さない周囲音およびユーザ生成された音を考慮し、オーディオコンテンツを、それがターゲット人工現実環境中で作り出されたように聞こえるようにレンダリングする。

【0009】

オーディオシステムは、ユーザによって生成された音ならびにユーザの周りの周囲音を含む、オーディオコンテンツを受信するための１つまたは複数のセンサーを含む。いくつかの実施形態では、オーディオコンテンツは、環境中の２人以上のユーザによって生成され得る。オーディオシステムは、ユーザの現在の環境の音響特性のセットを分析する。オーディオシステムは、ターゲット環境のユーザ選択を受信する。現在の環境の音響特性に関連する元の応答（ｏｒｉｇｉｎａｌｒｅｓｐｏｎｓｅ）とターゲット環境の音響特性に関連するターゲット応答とを比較した後に、オーディオシステムは、伝達関数を決定する。オーディオシステムは、検出されたオーディオコンテンツを、決定された伝達関数に従って調整し、ユーザのための調整されたオーディオコンテンツを１つまたは複数のスピーカーを介して提示する。

【0010】

本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作り出すために使用される、および／または人工現実において別様に使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

【0011】

システムの全体像
図１は、１つまたは複数の実施形態による、ヘッドセット１００の図である。ヘッドセット１００は、メディアをユーザに提示する。ヘッドセット１００は、オーディオシステムと、ディスプレイ１０５と、フレーム１１０とを含む。概して、ヘッドセットは、コンテンツが、ヘッドセットを使用して提示されるように、ユーザの顔に装着され得る。コンテンツは、それぞれ、オーディオシステムおよびディスプレイ１０５を介して提示される、オーディオメディアコンテンツおよび視覚メディアコンテンツを含み得る。いくつかの実施形態では、ヘッドセットは、オーディオコンテンツをヘッドセットを介してユーザに提示するにすぎないことがある。フレーム１１０は、ヘッドセット１００がユーザの顔に装着されることを可能にし、オーディオシステムの構成要素を格納する。一実施形態では、ヘッドセット１００は、ヘッドマウントディスプレイ（ＨＭＤ）であり得る。別の実施形態では、ヘッドセット１００は、ニアアイディスプレイ（ＮＥＤ）であり得る。

【0012】

ディスプレイ１０５は、視覚コンテンツをヘッドセット１００のユーザに提示する。視覚コンテンツは、仮想現実環境の一部であり得る。いくつかの実施形態では、ディスプレイ１０５は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、量子有機発光ダイオード（ＱＯＬＥＤ）ディスプレイ、透明有機発光ダイオード（ＴＯＬＥＤ）ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せなど、電子ディスプレイ要素であり得る。ディスプレイ１０５は、バックライト付きであり得る。いくつかの実施形態では、ディスプレイ１０５は、１つまたは複数のレンズを含み得、レンズは、ヘッドセット１００を装着している間にユーザが見るものを拡張する。

【0013】

オーディオシステムは、オーディオコンテンツをヘッドセット１００のユーザに提示する。オーディオシステムは、構成要素の中でも、１つまたは複数のセンサー１４０Ａ、１４０Ｂ、１つまたは複数のスピーカー１２０Ａ、１２０Ｂ、１２０Ｃ、およびコントローラを含む。オーディオシステムは、調整されたオーディオコンテンツをユーザに提供し得、検出されたオーディオコンテンツを、それがターゲット環境中で作り出されているかのようにレンダリングする。たとえば、ヘッドセット１００のユーザは、コンサートホールの中で楽器を演奏することを練習することを希望し得る。ヘッドセット１００は、ターゲット環境、すなわち、コンサートホールをシミュレートする視覚コンテンツ、ならびにターゲット環境中の音がユーザによってどのように知覚されることになるかをシミュレートするオーディオコンテンツを提示する。オーディオシステムに関する追加の詳細が、図２～図５に関して以下で説明される。

【0014】

スピーカー１２０Ａ、１２０Ｂ、および１２０Ｃは、コントローラ１７０からの命令に従って、ユーザに提示するための音響圧力波を生成する。スピーカー１２０Ａ、１２０Ｂ、および１２０Ｃは、調整されたオーディオコンテンツをユーザに提示するように構成され得、調整されたオーディオコンテンツは、ターゲット環境の音響特性のうちの少なくともいくつかを含む。１つまたは複数のスピーカーは、空気伝導を介して音響圧力波を生成し、空気伝搬（ａｉｒｂｏｒｎｅ）音をユーザの耳に送信し得る。いくつかの実施形態では、スピーカーは、組織伝導を介してコンテンツを提示し得、スピーカーは、音響圧力波を生成するために組織（たとえば、骨、皮膚、軟骨など）を直接振動するトランスデューサであり得る。たとえば、スピーカー１２０Ｂおよび１２０Ｃは、耳の近くのおよび／または耳にある組織に結合し、それらを振動させて、ユーザの耳の蝸牛によって音として検出される組織伝搬（ｔｉｓｓｕｅｂｏｒｎｅ）音響圧力波を作り出し得る。スピーカー１２０Ａ、１２０Ｂ、１２０Ｃは、周波数範囲の異なる部分をカバーし得る。たとえば、周波数範囲の第１の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第２の部分をカバーするために可動コイルトランスデューサが使用され得る。

【0015】

センサー１４０Ａ、１４０Ｂは、ユーザの現在の環境内からのオーディオコンテンツに関するデータを監視し、キャプチャする。オーディオコンテンツは、ユーザが話すこと、楽器を演奏すること、および歌うことを含む、ユーザ生成された音、ならびに、犬のあえぎ、空調装置の稼働、および水の流れなど、周囲音を含み得る。センサー１４０Ａ、１４０Ｂは、たとえば、マイクロフォン、加速度計、他の音響センサー、またはそれらの何らかの組合せを含み得る。

【0016】

いくつかの実施形態では、スピーカー１２０Ａ、１２０Ｂ、および１２０Ｃ、ならびにセンサー１４０Ａおよび１４０Ｂは、フレーム１１０内および／またはフレーム１１０上の、図１に提示されたものとは異なるロケーションに配置され得る。ヘッドセットは、図１に示されているものとは数および／またはタイプが異なる、スピーカーおよび／またはセンサーを含み得る。

【0017】

コントローラ１７０は、オーディオコンテンツを提示するようにスピーカーに命令し、ユーザの現在の環境とターゲット環境との間の伝達関数を決定する。環境は、音響特性のセットに関連する。音響特性は、環境を通る音の伝搬（ｐｒｏｐａｇａｔｉｏｎ）および反射など、どのように環境が音響コンテンツに応答するかを特徴づける。音響特性は、複数の周波数帯域についての音ソースからヘッドセット１００までの残響時間、周波数帯域の各々についての残響レベル、各周波数帯域についての直接対残響比（ｄｉｒｅｃｔｔｏｒｅｖｅｒｂｅｒａｎｔｒａｔｉｏ）、音ソースからヘッドセット１００までの音の初期反射の時間、他の音響特性、またはそれらの何らかの組合せであり得る。たとえば、音響特性は、部屋内の表面からの信号の反射と、信号が空中を通って進むときの信号の減衰（ｄｅｃａｙ）とを含み得る。

【0018】

ユーザが、ヘッドセット１００を使用して、ターゲット人工現実環境、すなわち、「ターゲット環境」をシミュレートし得る。部屋など、現在の環境に位置するユーザは、ターゲット環境をシミュレートすることを選定し得る。ユーザは、複数の可能なターゲット環境オプションからターゲット環境を選択し得る。たとえば、ユーザは、オペラホール、屋内バスケットボールコート、音楽録音スタジオなどを含む選定のリストから、スタジアムを選択し得る。ターゲット環境は、音響特性のそれ自体のセット、すなわち、ターゲット環境中で音がどのように知覚されるかを特徴づけるターゲット音響特性のセットを有する。コントローラ１７０は、音響特性の現在の環境のセットに基づいて、「元の応答」、ユーザの現在の環境の室内インパルス（ｒｏｏｍｉｍｐｕｌｓｅ）応答を決定する。元の応答は、ユーザが、第１の位置において、自分の現在の環境、すなわち、部屋の中の音をどのように知覚するかを特徴づける。いくつかの実施形態では、コントローラ１７０は、ユーザの第２の位置における元の応答を決定し得る。たとえば、部屋の中心においてユーザによって知覚される音は、部屋に入口において知覚される音とは異なることになる。したがって、第１の位置（たとえば、部屋の中心）における元の応答は、第２の位置（たとえば、部屋の入口）における元の応答とは異なることになる。コントローラ１７０は、ターゲット音響特性に基づいて、ターゲット環境において音がどのように知覚されることになるかを特徴づける「ターゲット応答」をも決定する。元の応答とターゲット応答とを比較して、コントローラ１７０は、コントローラ１７０がオーディオコンテンツを調整する際に使用する伝達関数を決定する。元の応答とターゲット応答とを比較する際に、コントローラ１７０は、ユーザの現在の環境中の音響パラメータと、ターゲット環境中の音響パラメータとの差を決定する。いくつかの場合には、差は負であり得、その場合、コントローラ１７０は、ターゲット環境中の音を達成するために、ユーザの現在の環境からの音をキャンセルおよび／または遮断する。他の場合、差は加法的であり得、コントローラ１７０は、ターゲット環境中の音を描くためにいくつかの音を加えるおよび／または強調する。コントローラ１７０は、ターゲット環境中の音を達成するために、現在の環境中の音を変更するための音フィルタを使用し得、これは図３に関して以下でさらに詳細に説明される。コントローラ１７０は、環境中の音に影響を及ぼす環境パラメータの差を決定することによって、現在の環境中の音とターゲット環境中の音との間の差を測定し得る。たとえば、コントローラ１７０は、残響および減衰などの音響パラメータの比較に加えて、環境の温度および相対湿度を比較し得る。いくつかの実施形態では、伝達関数は、環境中のユーザの位置、たとえば、第１の位置または第２の位置に固有である。調整されたオーディオコンテンツは、音がターゲット環境中で作り出されているかのようにユーザが音を知覚するように、少なくとも数個のターゲット音響特性を反映する。

【0019】

ターゲット環境のための音をレンダリングすること
図２Ａは、１つまたは複数の実施形態による、音場を示す。ユーザ２１０が、リビングルームなど、環境２００に位置する。環境２００は、周囲雑音とユーザ生成された音とを含む、音場２０５を有する。周囲雑音のソースは、たとえば、近くの街路上の交通、吠えている近隣の犬、および隣接する部屋の中でキーボード上でタイピングしている他の誰かを含む。ユーザ２１０は、歌うこと、ギターを演奏すること、自分の足を踏み鳴らすこと、話すことなどの音を生成し得る。いくつかの実施形態では、環境２００は、音を生成する複数のユーザを含み得る。人工現実（ＡＲ）および／または仮想現実（ＶＲ）ヘッドセット（たとえば、ヘッドセット１００）を装着する前、ユーザ２１０は、環境２００の音響特性のセットに従って音を知覚し得る。たとえば、おそらく多くの物体で満たされたリビングルームの中で、ユーザ２１０は、自分が話すとき、最小エコーを知覚し得る。

【0020】

図２Ｂは、１つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングした後の音場を示す。ユーザ２１０は、依然として環境２００に位置し、ヘッドセット２１５を装着する。ヘッドセット２１５は、調整された音場３５０をユーザ２１０が知覚するようにオーディオコンテンツをレンダリングする、図１で説明されたヘッドセット１００の一実施形態である。

【0021】

ヘッドセット２１５は、ユーザ２１０の環境中のオーディオコンテンツを検出し、調整されたオーディオコンテンツをユーザ２１０に提示する。図１に関して上記で説明されたように、ヘッドセット２１５は、少なくとも１つまたは複数のセンサー（たとえば、センサー１４０Ａ、１４０Ｂ）と、１つまたは複数のスピーカー（たとえば、スピーカー１２０Ａ、１２０Ｂ、１２０Ｃ）と、コントローラ（たとえば、コントローラ１７０）とをもつオーディオシステムを含む。ユーザ２１０の環境２００中のオーディオコンテンツは、ユーザ２１０、環境２００中の他のユーザ、および／または周囲音によって生成され得る。

【0022】

コントローラは、環境２００内で作られた音のユーザ２１０の知覚を特徴づける室内インパルス応答を推定することによって、環境２００に関連する音響特性のセットを識別および分析する。室内インパルス応答は、環境２００中の特定の位置における音のユーザ２１０の知覚に関連し、ユーザ２１０が環境２００内でロケーションを変えた場合、変わることになる。室内インパルス応答は、ヘッドセット２１５がＡＲ／ＶＲシミュレーションのためのコンテンツをレンダリングする前に、ユーザ２１０によって生成され得る。ユーザ２１０は、たとえばモバイルデバイスを使用して、テスト信号を生成し得、それに応答して、コントローラはインパルス応答を測定する。代替的に、ユーザ２１０は、コントローラが測定するインパルス信号を生成するために、拍手など、衝撃（ｉｍｐｕｌｓｉｖｅ）雑音を生成し得る。別の実施形態では、ヘッドセット２１５は、環境２００に関連する画像および深度データを記録するために、カメラなど、画像センサーを含み得る。コントローラは、環境２００の寸法、レイアウト、およびパラメータをシミュレートするために、センサーデータおよび機械学習を使用し得る。したがって、コントローラは、環境２００の音響特性を学習し、それによりインパルス応答を取得し得る。コントローラは、オーディオコンテンツ調整より前の環境２００の音響特性を特徴づける元の応答を定義するために、室内インパルス応答を使用する。部屋の音響特性を推定することは、その全体が参照により本明細書に組み込まれる、２０１８年１１月５日に出願された米国特許出願第１６／１８０，１６５号においてさらに詳細に説明されている。

【0023】

別の実施形態では、コントローラは、マッピングサーバに、ヘッドセット２１５によって検出された視覚情報を提供し得、視覚情報は環境２００の少なくとも一部分を表す。マッピングサーバは、環境および環境に関連する音響特性のデータベースを含み得、受信された視覚情報に基づいて、環境２００に関連する音響特性のセットを決定することができる。別の実施形態では、コントローラは、ロケーション情報を用いてマッピングサーバに照会し得、それに応答して、マッピングサーバは、ロケーション情報に関連する環境の音響特性を取り出し得る。人工現実システム環境におけるマッピングサーバの使用は、図５に関してさらに詳細に説明される。

【0024】

ユーザ２１０は、音をレンダリングするためのターゲット人工現実環境を指定し得る。ユーザ２１０は、たとえば、モバイルデバイス上のアプリケーションを介してターゲット環境を選択し得る。別の実施形態では、ヘッドセット２１５は、ターゲット環境のセットをレンダリングするように先にプログラムされ得る。別の実施形態では、ヘッドセット２１５は、利用可能なターゲット環境と関連するターゲット音響特性とをリストするデータベースを含むマッピングサーバに接続し得る。データベースは、ターゲット環境のリアルタイムシミュレーション、ターゲット環境中の測定されたインパルス応答に関するデータ、またはアルゴリズム残響手法を含み得る。

【0025】

ヘッドセット２１５のコントローラは、ターゲット環境の音響特性を使用して、ターゲット応答を決定し、その後、ターゲット応答と元の応答とを比較して、伝達関数を決定する。元の応答は、ユーザの現在の環境の音響特性を特徴づけ、ターゲット応答は、ターゲット環境の音響特性を特徴づける。音響特性は、特定のタイミングおよび振幅をもつ、様々な方向からの環境内の反射を含む。コントローラは、伝達関数によって特徴づけられる差反射（ｄｉｆｆｅｒｅｎｃｅｒｅｆｌｅｃｔｉｏｎ）パターンを生成するために現在の環境中の反射とターゲット環境中の反射との間の差を使用する。伝達関数から、コントローラは、環境２００中で作り出された音を、その音がターゲット環境中で知覚されることになるものにコンバートするために必要とされる頭部伝達関数（ＨＲＴＦ）を決定することができる。ＨＲＴＦは、ユーザの耳が空間中の点からどのように音を受信するかを特徴づけ、ユーザの現在の頭部位置に応じて異なる。コントローラは、対応するターゲット反射を生成するために、反射のタイミングおよび振幅において反射方向に対応するＨＲＴＦを適用する。コントローラは、音がターゲット環境中で作り出されたかのようにユーザが音を知覚するように、すべての差反射についてリアルタイムでこのプロセスを繰り返す。ＨＲＴＦは、その全体が参照により本明細書に組み込まれる、２０１９年４月２２日に出願された米国特許出願第１６／３９０，９１８号において詳細に説明される。

【0026】

ヘッドセット２１５を装着した後に、ユーザ２１０は、ヘッドセット２１５上のセンサーによって検出される、何らかのオーディオコンテンツを作り出し得る。たとえば、ユーザ２１０は、環境２００に物理的に位置する地面上で自分の足を踏み鳴らし得る。ユーザ２１０は、図２Ｂによって図示された屋内テニスコートなど、ターゲット環境を選択し、コントローラは、そのターゲット環境についてターゲット応答を決定する。コントローラ２１０は、指定されたターゲット環境についての伝達関数を決定する。ヘッドセット２１５のコントローラは、リアルタイムで、伝達関数を、ユーザ２１０の足の踏み鳴らしなど、環境２００内で作り出された音と畳み込む。畳み込みは、ターゲット音響特性に基づいてオーディオコンテンツの音響特性を調整し、調整されたオーディオコンテンツを生じる。ヘッドセット２１５のスピーカーは、今度はターゲット音響特性のうちの１つまたは複数の音響特性を含む、調整されたオーディオコンテンツをユーザに提示する。ターゲット環境中で採用されない環境２００中の周囲音は減衰させられ、したがって、ユーザ２１０はそれらを知覚しない。たとえば、音場２０５中の犬の吠え声の音は、調整された音場３５０を介して提示される調整されたオーディオコンテンツ中に存在しないことになる。ユーザ２１０は、自分の踏み鳴らしている足の音を、それらの音が屋内テニスコートのターゲット環境中にあるかのように知覚し、屋内テニスコートは犬の吠え声を含まないことがある。

【0027】

図３は、１つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。オーディオシステム３００は、オーディオコンテンツをユーザに提供するヘッドセット（たとえば、ヘッドセット１００）の構成要素であり得る。オーディオシステム３００は、センサーアレイ３１０と、スピーカーアレイ３２０と、コントローラ３３０（たとえば、コントローラ１７０）とを含む。図１～図２で説明されたオーディオシステムは、オーディオシステム３００の実施形態である。オーディオシステム３００のいくつかの実施形態は、ここで説明される構成要素以外の他の構成要素を含む。同様に、構成要素の機能は、ここで説明されるのと異なって分散され得る。たとえば、一実施形態では、コントローラ３３０は、ヘッドセット内に組み込まれるのではなく、ヘッドセットの外部にあり得る。

【0028】

センサーアレイ３１０は、環境内からのオーディオコンテンツを検出する。センサーアレイ３１０は、センサー１４０Ａおよび１４０Ｂなど、複数のセンサーを含む。センサーは、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せなど、音響圧力波を検出するように構成された音響センサーであり得る。センサーアレイ４１０は、部屋２００の中の音場２０５など、環境内の音場を監視するように構成される。一実施形態では、センサーアレイ３１０は、検出された音響圧力波を電気フォーマット（アナログまたはデジタル）にコンバートし、センサーアレイ３１０は、次いで、それをコントローラ３３０に送る。センサーアレイ３１０は、送風機の稼働、水のしたたり、犬の吠え声など、周囲音とともに、ユーザが話すこと、歌うこと、または楽器を演奏することなど、ユーザ生成された音を検出する。センサーアレイ３１０は、音のソースを追跡することによってユーザ生成された音と周囲雑音とを区別し、それに応じてオーディオコンテンツをコントローラ３３０のデータストア３４０に記憶する。センサーアレイ３１０は、到来方向（ＤＯＡ）分析、ビデオ追跡、コンピュータビジョン、またはそれらの任意の組合せによって、環境内のオーディオコンテンツのソースの位置の追跡を実施し得る。センサーアレイ３１０は、オーディオコンテンツを検出するためにビームフォーミング技法を使用し得る。いくつかの実施形態では、センサーアレイ３１０は、音響圧力波を検出するためのセンサー以外のセンサーを含む。たとえば、センサーアレイ３１０は、画像センサー、慣性測定ユニット（ＩＭＵ）、ジャイロスコープ、位置センサー、またはそれらの組合せを含み得る。画像センサーは、ビデオ追跡を実施し、および／またはコンピュータビジョンについてコントローラ３３０と通信するように構成されたカメラであり得る。ビームフォーミングおよびＤＯＡ分析は、その全体が参照により本明細書に組み込まれる、２０１９年４月９日に出願された米国特許出願第１６／３７９，４５０号、および２０１８年６月２２日に出願された米国特許出願第１６／０１６，１５６号においてさらに詳細に説明される。

【0029】

スピーカーアレイ３２０は、オーディオコンテンツをユーザに提示する。スピーカーアレイ３２０は、図１中のスピーカー１２０Ａ、１２０Ｂ、１２０Ｃなど、複数のスピーカーを含む。スピーカーアレイ３２０中のスピーカーは、ヘッドセットを装着しているユーザの耳に音響圧力波を送信するトランスデューサである。トランスデューサは、空気伝導を介してオーディオコンテンツを送信し得、空気伝搬音響圧力波が、ユーザの耳の蝸牛に達し、ユーザによって音として知覚される。トランスデューサは、骨伝導、軟骨伝導、またはそれらの何らかの組合せなど、組織伝導を介してもオーディオコンテンツを送信し得る。スピーカーアレイ３２０中のスピーカーは、周波数の総範囲上で音をユーザに提供するように構成され得る。たとえば、周波数の総範囲は、概して人間の聴覚の平均範囲の周りの、２０ｋＨｚ～２０Ｈｚである。スピーカーは、周波数の様々な範囲上でオーディオコンテンツを送信するように構成される。一実施形態では、スピーカーアレイ３２０中の各スピーカーは、周波数の総範囲上で動作する。別の実施形態では、１つまたは複数のスピーカーが、低サブレンジ（たとえば、２０Ｈｚ～５００Ｈｚ）上で動作し、スピーカーの第２のセットが、高サブレンジ（たとえば、５００Ｈｚ～２０ｋＨｚ）上で動作する。スピーカーについてのサブレンジは、１つまたは複数の他のサブレンジと部分的に重複し得る。

【0030】

コントローラ３３０は、オーディオシステム３００の動作を制御する。コントローラ３３０は、コントローラ１７０と実質的に同様である。いくつかの実施形態では、コントローラ３３０は、センサーアレイ３１０によって検出されたオーディオコンテンツを調整することと、調整されたオーディオコンテンツを提示するようにスピーカーアレイ３２０に命令することとを行うように構成される。コントローラ３３０は、データストア３４０と、応答モジュール３５０と、音調整モジュール３７０とを含む。コントローラ３３０は、ユーザの現在の環境の音響特性および／またはターゲット環境の音響特性について、図５に関してさらに説明されるマッピングサーバに照会し得る。コントローラ３３０は、いくつかの実施形態では、ヘッドセット内に位置し得る。コントローラ３３０のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラ３３０のいくつかの機能が、ヘッドセットの外部で実施され得る。

【0031】

データストア３４０は、オーディオシステム３００による使用のためのデータを記憶する。データストア３４０中のデータは、ユーザが選択することができる複数のターゲット環境、ターゲット環境に関連する音響特性のセット、ユーザ選択されたターゲット環境、ユーザの現在の環境中の測定されたインパルス応答、頭部伝達関数（ＨＲＴＦ）、音フィルタ、およびオーディオシステム３００による使用のための関係する他のデータ、またはそれらの任意の組合せを含み得る。

【0032】

応答モジュール３５０は、環境の音響特性に基づいて、インパルス応答および伝達関数を決定する。応答モジュール３５０は、衝撃音に対するインパルス応答を推定することによって、ユーザの現在の環境（たとえば、環境２００）の音響特性を特徴づける元の応答を決定する。たとえば、応答モジュール３５０は、ユーザがいる部屋の音響パラメータを決定するために、その部屋の中の単一のドラムビート（ｄｒｕｍｂｅａｔ）に対するインパルス応答を使用し得る。インパルス応答は、上記で説明されたようにセンサーアレイ３１０によるＤＯＡおよびビームフォーミング分析によって決定され得る、音ソースの第１の位置に関連する。インパルス応答は、音ソースおよび音ソースの位置が変わるとき、変わり得る。たとえば、ユーザがいる部屋の音響特性は、中心におけるものと周辺におけるものとで異なる。応答モジュール３５０は、データストア３４０から、ターゲット環境オプションと、それらの関連する音響特性を特徴づけるそれらのターゲット応答とのリストにアクセスする。その後、応答モジュール３５０は、元の応答と比較してターゲット応答を特徴づける伝達関数を決定する。元の応答、ターゲット応答、および伝達関数はすべて、データストア３４０に記憶される。伝達関数は、特定の音ソース、その音ソースの位置、ユーザ、およびターゲット環境に特有であり得る。

【0033】

音調整モジュール３７０は、伝達関数に従って音を調整し、調整された音をそれに応じてプレイするようにスピーカーアレイ３２０に命令する。音調整モジュール３７０は、データストア３４０に記憶された特定のターゲット環境のための伝達関数を、センサーアレイ３１０によって検出されたオーディオコンテンツと畳み込む。畳み込みは、ターゲット環境の音響特性に基づく、検出されたオーディオコンテンツの調整を生じ、調整されたオーディオコンテンツは、ターゲット音響特性のうちの少なくともいくつかを有する。畳み込まれたオーディオコンテンツは、データストア３４０に記憶される。いくつかの実施形態では、音調整モジュール３７０は、畳み込まれたオーディオコンテンツに部分的に基づいて音フィルタを生成し、次いで、調整されたオーディオコンテンツをそれに応じて提示するようにスピーカーアレイ３２０に命令する。いくつかの実施形態では、音調整モジュール３７０は、音フィルタを生成するとき、ターゲット環境を考慮する。たとえば、教室など、ユーザ生成された音を除いてすべての他の音ソースが静かであるターゲット環境では、音フィルタは、ユーザ生成された音を増幅しながら、周囲音響圧力波を減衰させ得る。混んでいる街路など、うるさいターゲット環境では、音フィルタは、混んでいる街路の音響特性に一致する音響圧力波を増幅および／または拡張し得る。他の実施形態では、音フィルタは、ローパスフィルタ、ハイパスフィルタ、およびバンドパスフィルタを介して、特定の周波数範囲をターゲットにし得る。代替的に、音フィルタは、検出されたオーディオコンテンツを拡張して、それをターゲット環境において反映し得る。生成された音フィルタは、データストア３４０に記憶される。

【0034】

図４は、１つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングするためのプロセス４００である。オーディオシステム３００など、オーディオシステムが、プロセスを実施する。図４のプロセス４００は、装置、たとえば、図３のオーディオシステム３００の構成要素によって実施され得る。他の実施形態では、他のエンティティ（たとえば、図１のヘッドセット１００の構成要素および／または図５に示されている構成要素）が、プロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

【0035】

オーディオシステムは、４１０において、ユーザがいる部屋など、環境の音響特性のセットを分析する。図１～図３に関して上記で説明されたように、環境は、環境に関連する音響特性のセットを有する。オーディオシステムは、環境内のユーザの位置における環境中のインパルス応答を推定することによって、音響特性を識別する。オーディオシステムは、モバイルデバイス生成されたオーディオテスト信号、または拍手などのユーザ生成された衝撃オーディオ信号を使用して、制御された測定を実行することによって、ユーザの現在の環境中のインパルス応答を推定し得る。たとえば、一実施形態では、オーディオシステムは、インパルス応答を推定するために部屋の残響時間の測定値を使用し得る。代替的に、オーディオシステムは、部屋パラメータを決定し、それに応じてインパルス応答を決定するために、センサーデータおよび機械学習を使用し得る。ユーザの現在の環境中のインパルス応答は、元の応答として記憶される。

【0036】

オーディオシステムは、４２０において、ユーザからターゲット環境の選択を受信する。オーディオシステムは、ユーザが特定の部屋、ホール、スタジアムなどを選択することを可能にする、利用可能なターゲット環境オプションのデータベースをユーザに提示し得る。一実施形態では、ターゲット環境は、大理石の床をもつ大きい静かな教会にユーザが入っていくことなど、ゲームシナリオに従ってゲームエンジンによって決定され得る。ターゲット環境オプションの各々が、ターゲット音響特性のセットに関連し、ターゲット音響特性のセットも、利用可能なターゲット環境オプションのデータベースとともに記憶され得る。たとえば、大理石の床をもつ静かな教会のターゲット音響特性は、エコーを含み得る。オーディオシステムは、ターゲット応答を決定することによって、ターゲット音響特性を特徴づける。

【0037】

オーディオシステムは、４３０において、ユーザの環境からオーディオコンテンツを受信する。オーディオコンテンツは、オーディオシステムのユーザまたは環境中の周囲雑音によって生成され得る。オーディオシステム内のセンサーアレイが、音を検出する。上記で説明されたように、ユーザの口、楽器など、関心の１つまたは複数のソースが、ＤＯＡ推定、ビデオ追跡、ビームフォーミングなどを使用して追跡され得る。

【0038】

オーディオシステムは、４４０において、ユーザの現在の環境の音響特性をターゲット環境の音響特性と比較することによって、伝達関数を決定する。現在の環境の音響特性は、元の応答によって特徴づけられ、ターゲット環境の音響特性は、ターゲット応答によって特徴づけられる。伝達関数は、リアルタイムシミュレーション、測定された応答のデータベース、またはアルゴリズム残響手法を使用して生成され得る。したがって、オーディオシステムは、４５０において、ターゲット環境のターゲット音響特性に基づいて、検出されたオーディオコンテンツを調整する。一実施形態では、図３で説明されたように、オーディオシステムは、伝達関数をオーディオコンテンツと畳み込んで、畳み込まれたオーディオ信号を生成する。オーディオシステムは、検出された音を増幅、減衰、または拡張するために音フィルタを利用し得る。

【0039】

オーディオシステムは、４６０において、調整されたオーディオコンテンツを提示し、それをスピーカーアレイを介してユーザに提示する。調整されたオーディオコンテンツは、音がターゲット環境にあるかのようにユーザが音を知覚するように、ターゲット音響特性のうちの少なくともいくつかを有する。

【0040】

人工現実システムの例
図５は、１つまたは複数の実施形態による、例示的な人工現実システム５００のブロック図である。人工現実システム５００は、ユーザに人工現実環境、たとえば、仮想現実、拡張現実、複合現実環境、またはそれらの何らかの組合せを提示する。システム５００は、ヘッドセットおよび／またはヘッドマウントディスプレイ（ＨＭＤ）を含み得る、ニアアイディスプレイ（ＮＥＤ）５０５と、入出力（Ｉ／Ｏ）インターフェース５５５とを備え、それらの両方が、コンソール５１０に結合される。システム５００は、ネットワーク５７５に結合するマッピングサーバ５７０をも含む。ネットワーク５７５は、ＮＥＤ５０５とコンソール５１０とに結合する。ＮＥＤ５０５は、ヘッドセット１００の一実施形態であり得る。図５は、１つのＮＥＤと１つのコンソールと１つのＩ／Ｏインターフェースとをもつ例示的なシステムを示すが、他の実施形態では、任意の数のこれらの構成要素が、システム５００中に含まれ得る。

【0041】

ＮＥＤ５０５は、コンピュータ生成された要素（たとえば、２次元（２Ｄ）または３次元（３Ｄ）画像、２Ｄまたは３Ｄビデオ、音など）を用いた物理的な現実世界環境の拡張ビューを備えるコンテンツをユーザに提示する。ＮＥＤ５０５は、アイウェアデバイスまたはヘッドマウントディスプレイであり得る。いくつかの実施形態では、提示されるコンテンツは、オーディオシステム３００を介して提示されるオーディオコンテンツを含み、オーディオシステム３００は、ＮＥＤ５０５、コンソール６１０、またはその両方からオーディオ情報（たとえば、オーディオ信号）を受信し、そのオーディオ情報に基づいてオーディオコンテンツを提示する。ＮＥＤ５０５は、人工現実コンテンツをユーザに提示する。ＮＥＤは、オーディオシステム３００と、深度カメラアセンブリ（ＤＣＡ）５３０と、電子ディスプレイ５３５と、光学ブロック５４０と、１つまたは複数の位置センサー５４５と、慣性測定ユニット（ＩＭＵ）５５０とを含む。位置センサー５４５とＩＭＵ５５０とは、センサー１４０Ａ～Ｂの実施形態である。いくつかの実施形態では、ＮＥＤ５０５は、ここで説明されるものとは異なる構成要素を含む。さらに、様々な構成要素の機能性は、ここで説明されるものと異なって分散され得る。

【0042】

オーディオシステム３００は、オーディオコンテンツをＮＥＤ５０５のユーザに提供する。図１～図４を参照しながら上記で説明されたように、オーディオシステム３００は、ターゲット人工現実環境のためのオーディオコンテンツをレンダリングする。センサーアレイ３１０が、オーディオコンテンツをキャプチャし、コントローラ３３０が、環境の音響特性についてオーディオコンテンツを分析する。環境の音響特性とターゲット環境についてのターゲット音響特性のセットとを使用して、コントローラ３３０は、伝達関数を決定する。伝達関数は、検出されたオーディオコンテンツと畳み込まれ、ターゲット環境の音響特性のうちの少なくともいくつかを有する調整されたオーディオコンテンツを生じる。スピーカーアレイ３２０が、調整されたオーディオコンテンツをユーザに提示し、音がターゲット環境中で送信されているかのように音を提示する。

【0043】

ＤＣＡ５３０は、ＮＥＤ５０５の一部または全部の周辺のローカル環境の深度情報を表すデータをキャプチャする。ＤＣＡ５３０は、光生成器（たとえば、構造化光および／または飛行時間のためのフラッシュ）、イメージングデバイス、ならびに光生成器とイメージングデバイスの両方に結合され得るＤＣＡコントローラを含み得る。光生成器は、たとえば、ＤＣＡコントローラによって生成された放射命令に従って、照明光を用いてローカルエリアを照明する。ＤＣＡコントローラは、放射命令に基づいて、たとえば、ローカルエリアを照明する照明光の強度およびパターンを調整するように、光生成器のいくつかの構成要素の動作を制御するように構成される。いくつかの実施形態では、照明光は、構造化光パターン、たとえば、ドットパターン、ラインパターンなどを含み得る。イメージングデバイスは、照明光を用いて照明されたローカルエリア中の１つまたは複数の物体の１つまたは複数の画像をキャプチャする。ＤＣＡ５３０は、イメージングデバイスによってキャプチャされたデータを使用して深度情報を算出することができるか、またはＤＣＡ５３０は、ＤＣＡ５３０からのデータを使用して深度情報を決定することができるコンソール５１０などの別のデバイスに、この情報を送ることができる。

【0044】

いくつかの実施形態では、オーディオシステム３００は、ＤＣＡ５３０から取得された深度情報を利用し得る。オーディオシステム３００は、１つまたは複数の潜在的音ソースの方向、１つまたは複数の音ソースの深度、１つまたは複数の音ソースの移動、１つまたは複数の音ソースの周りの音アクティビティ、またはそれらの任意の組合せを識別するために、深度情報を使用し得る。いくつかの実施形態では、オーディオシステム３００は、ユーザの環境の音響パラメータを決定するためにＤＣＡ５３０からの深度情報を使用し得る。

【0045】

電子ディスプレイ５３５は、コンソール５１０から受信されたデータに従ってユーザに２Ｄ画像または３Ｄ画像を表示する。様々な実施形態では、電子ディスプレイ５３５は、単一の電子ディスプレイまたは複数の電子ディスプレイ（たとえば、ユーザの各眼のためのディスプレイ）を備える。電子ディスプレイ５３５の例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、電子ディスプレイ５４５は、オーディオシステム３００によって提示されるオーディオコンテンツに関連する視覚コンテンツを表示する。オーディオシステム３００が、ターゲット環境中で提示されているかのようにオーディオコンテンツが聞こえるように調整されたオーディオコンテンツを提示するとき、電子ディスプレイ５３５は、ターゲット環境を示す視覚コンテンツをユーザに提示し得る。

【0046】

いくつかの実施形態では、光学ブロック５４０は、電子ディスプレイ５３５から受光された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をＮＥＤ５０５のユーザに提示する。様々な実施形態では、光学ブロック５４０は、１つまたは複数の光学要素を含む。光学ブロック５４０中に含まれる例示的な光学要素は、導波路、開口、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック５４０は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック５４０中の光学要素のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

【0047】

光学ブロック５４０による画像光の拡大および集束は、電子ディスプレイ５３５が、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイ５３５によって提示されるコンテンツの視野を増大させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角約１１０度）、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大量は、光学要素を追加することまたは取り外すことによって調整され得る。

【0048】

いくつかの実施形態では、光学ブロック５４０は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイ５３５に提供されるコンテンツは予歪され、光学ブロック５４０が、そのコンテンツに基づいて生成された画像光を電子ディスプレイ５３５から受光したとき、光学ブロック５４０はそのひずみを補正する。

【0049】

ＩＭＵ５５０は、位置センサー５４５のうちの１つまたは複数から受信された測定信号に基づいて、ヘッドセット５０５の位置を指示するデータを生成する電子デバイスである。位置センサー５４５は、ヘッドセット５０５の運動に応答して１つまたは複数の測定信号を生成する。位置センサー５４５の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵ５５０の誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー５４５は、ＩＭＵ５５０の外部に、ＩＭＵ５５０の内部に、またはそれらの何らかの組合せで位置し得る。１つまたは複数の実施形態では、ＩＭＵ５５０および／または位置センサー５４５は、オーディオシステム３００によって提示されるオーディオコンテンツに関するデータをキャプチャするように構成された、センサーアレイ４２０中のセンサーであり得る。

【0050】

１つまたは複数の位置センサー５４５からの１つまたは複数の測定信号に基づいて、ＩＭＵ５５０は、ＮＥＤ５０５の初期位置に対するＮＥＤ５０５の推定現在位置を指示するデータを生成する。たとえば、位置センサー５４５は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえばピッチ、ヨー、およびロール）を測定するための複数のジャイロスコープとを含む。いくつかの実施形態では、ＩＭＵ５５０は、測定信号を迅速にサンプリングし、サンプリングされたデータからＮＥＤ５０５の推定現在位置を計算する。たとえば、ＩＭＵ５５０は、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ＮＥＤ５０５上の基準点の推定現在位置を決定する。代替的に、ＩＭＵ５５０は、サンプリングされた測定信号をコンソール５１０に提供し、コンソール５１０は、誤差を低減するようにデータを解釈する。基準点は、ＮＥＤ５０５の位置を表すために使用され得る点である。基準点は、一般に、アイウェアデバイス５０５の配向および位置に関係する空間内の点、または位置として定義され得る。

【0051】

Ｉ／Ｏインターフェース５５５は、ユーザがアクション要求を送り、コンソール５１０から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。Ｉ／Ｏインターフェース５５５は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ハンドコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール５１０に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース５５５によって受信されたアクション要求は、コンソール５１０に通信され、コンソール５１０は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、Ｉ／Ｏインターフェース５１５は、上記でさらに説明されたように、Ｉ／Ｏインターフェース５５５の初期位置に対するＩ／Ｏインターフェース５５５の推定位置を指示する較正データをキャプチャするＩＭＵ５５０を含む。いくつかの実施形態では、Ｉ／Ｏインターフェース５５５は、コンソール５１０から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール５１０がアクションを実施するときに、コンソール５１０が、Ｉ／Ｏインターフェース５５５に命令を通信して、Ｉ／Ｏインターフェース５５５が触覚フィードバックを生成することを引き起こす。Ｉ／Ｏインターフェース５５５は、オーディオコンテンツの知覚される起点方向および／または知覚される起点ロケーションを決定する際に使用するためにユーザからの１つまたは複数の入力応答を監視し得る。

【0052】

コンソール５１０は、ＮＥＤ５０５とＩ／Ｏインターフェース５５５とのうちの１つまたは複数から受信された情報に従って、処理するためのコンテンツをＮＥＤ５０５に提供する。図５に示されている例では、コンソール５１０は、アプリケーションストア５２０と、追跡モジュール５２５と、エンジン５１５とを含む。コンソール５１０のいくつかの実施形態は、図５に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図５に関して説明されるものとは異なる様式でコンソール５１０の構成要素の間で分散され得る。

【0053】

アプリケーションストア５２０は、コンソール５１０が実行するための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ＮＥＤ５０５またはＩ／Ｏインターフェース５５５の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオプレイバックアプリケーション、または他の好適なアプリケーションを含む。

【0054】

追跡モジュール５２５は、１つまたは複数の較正パラメータを使用してシステム環境５００を較正し、ＮＥＤ５０５またはＩ／Ｏインターフェース５５５の位置を決定する際の誤差を低減するように、１つまたは複数の較正パラメータを調整し得る。また、追跡モジュール５２５によって実施される較正は、ＮＥＤ５０５中のＩＭＵ５５０および／またはＩ／Ｏインターフェース５５５中に含まれるＩＭＵ５５０から受信された情報を考慮する。さらに、ＮＥＤ５０５の追跡が失われた場合、追跡モジュール５２５は、システム環境５００の一部または全部を再較正し得る。

【0055】

追跡モジュール５２５は、１つまたは複数の位置センサー５４５、ＩＭＵ５５０、ＤＣＡ５３０、またはそれらの何らかの組合せからの情報を使用して、ＮＥＤ５０５またはＩ／Ｏインターフェース５５５の移動を追跡する。たとえば、追跡モジュール５２５は、ＮＥＤ５０５からの情報に基づいて、ローカルエリアのマッピングにおいてＮＥＤ５０５の基準点の位置を決定する。追跡モジュール５２５はまた、ＮＥＤ５０５の基準点の位置、またはＩ／Ｏインターフェース５５５の基準点の位置を、それぞれ、ＮＥＤ５０５の位置を指示するＩＭＵ５５０からのデータを使用して、またはＩ／Ｏインターフェース５５５の位置を指示するＩ／Ｏインターフェース５５５中に含まれるＩＭＵ５５０からのデータを使用して決定し得る。さらに、いくつかの実施形態では、追跡モジュール５２５は、位置またはヘッドセット５０５を指示するＩＭＵ５５０からのデータの部分を使用して、ＮＥＤ５０５の将来の位置を予測し得る。追跡モジュール５２５は、ＮＥＤ５０５またはＩ／Ｏインターフェース５５５の推定または予測された将来位置をエンジン５１５に提供する。いくつかの実施形態では、追跡モジュール５２５は、音フィルタを生成する際に使用するためにオーディオシステム３００に追跡情報を提供し得る。

【0056】

エンジン５１５はまた、システム環境５００内でアプリケーションを実行し、追跡モジュール５２５から、ＮＥＤ５０５の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン５１５は、ユーザへの提示のためにＮＥＤ５０５に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン５１５は、仮想環境において、またはローカルエリアを追加のコンテンツで拡張する環境において、ユーザの移動を反映する、ＮＥＤ５０５のためのコンテンツを生成する。さらに、エンジン５１５は、Ｉ／Ｏインターフェース５５５から受信されたアクション要求に応答して、コンソール５１０上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ＮＥＤ５０５を介した視覚または可聴フィードバック、あるいはＩ／Ｏインターフェース５５５を介した触覚フィードバックであり得る。

【0057】

マッピングサーバ５７０は、ユーザに提示するために、オーディオおよび視覚コンテンツをＮＥＤ５０５に提供し得る。マッピングサーバ５７０は、複数のターゲット環境とそれらの関連する音響特性とを含む、複数の環境とそれらの環境の音響特性を表す仮想モデルを記憶するデータベースを含む。ＮＥＤ５０５は、環境の音響特性についてマッピングサーバ５７０に照会し得る。マッピングサーバ５７０は、ネットワーク５７５を介してＮＥＤ５０５から、部屋など、ユーザが現在いる環境の少なくとも部分を表す視覚情報および／またはＮＥＤ５０５のロケーション情報を受信する。マッピングサーバ５７０は、受信された視覚情報および／またはロケーション情報に基づいて、部屋の現在の構成に関連する仮想モデル中のロケーションを決定する。マッピングサーバ５７０は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連する任意の音響パラメータに部分的に基づいて、部屋の現在の構成に関連する音響パラメータのセットを決定する（たとえば、取り出す）。また、マッピングサーバ５７０は、ユーザがＮＥＤ５０５を介してシミュレートすることを希望する、ターゲット環境に関する情報をも受信し得る。マッピングサーバ５７０は、ターゲット環境に関連する音響パラメータのセットを決定する（たとえば、取り出す）。マッピングサーバ５７０は、ＮＥＤ５０５においてオーディオコンテンツを生成するために、ＮＥＤ５０５に（たとえば、ネットワーク５７５を介して）ユーザの現在の環境および／またはターゲット環境に関する、音響パラメータのセットに関する情報を提供し得る。代替的に、マッピングサーバ５７０は、音響パラメータのセットを使用して、オーディオ信号を生成し、レンダリングのためにオーディオ信号をＮＥＤ５０５に提供し得る。いくつかの実施形態では、マッピングサーバ５７０の構成要素のうちのいくつかは、ＮＥＤ５０５にワイヤード接続を介して接続された別のデバイス（たとえば、コンソール５１０）と一体化され得る。

【0058】

ネットワーク５７５は、ＮＥＤ５０５をマッピングサーバ５７０に接続する。ネットワーク５７５は、ワイヤレス通信システムおよび／またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク５７５は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク５７５は、標準通信技術および／またはプロトコルを使用する。したがって、ネットワーク５７５は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇモバイル通信プロトコル、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩＥｘｐｒｅｓｓアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク５７５上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク５７５を介して交換されるデータは、２進形式（たとえばポータブルネットワークグラフィックス（ＰＮＧ））の画像データ、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などを含む、技術および／またはフォーマットを使用して表され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）など、従来の暗号化技術を使用して暗号化され得る。ネットワーク５７５はまた、同じまたは異なる部屋に位置する複数のヘッドセットを同じマッピングサーバ５７０に接続し得る。オーディオおよび視覚コンテンツを提供するためのマッピングサーバおよびネットワークの使用は、その全体が参照により本明細書に組み込まれる、２０１９年３月２７日に出願された米国特許出願第１６／３６６，４８４号においてさらに詳細に説明される。

【0059】

追加の構成情報
本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。

【0060】

本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、製造プロセスに関して、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。

【0061】

本明細書で説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、（たとえば、製造プロセスに関して）説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。

【0062】

本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

【0063】

最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。

【図1】