(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-06
(54)【発明の名称】人工現実環境のためのオーディオシステム
(51)【国際特許分類】
H04S 7/00 20060101AFI20220830BHJP
【FI】
H04S7/00 320
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021557401
(86)(22)【出願日】2020-05-01
(85)【翻訳文提出日】2021-11-22
(86)【国際出願番号】 US2020030933
(87)【国際公開番号】W WO2020263407
(87)【国際公開日】2020-12-30
(32)【優先日】2019-06-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】515046968
【氏名又は名称】メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー
【氏名又は名称原語表記】META PLATFORMS TECHNOLOGIES, LLC
(74)【代理人】
【識別番号】110002974
【氏名又は名称】弁理士法人World IP
(72)【発明者】
【氏名】アメンガル ガリ, セバスチア ヴァイセンス
(72)【発明者】
【氏名】シスラー, カール
(72)【発明者】
【氏名】マレシュ, ピーター ヘンリー
(72)【発明者】
【氏名】ロビット, アンドリュー
(72)【発明者】
【氏名】ロビンソン, フィリップ
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA05
5D162CA26
5D162CC09
5D162CC18
5D162CD07
5D162CD26
5D162DA02
5D162DA04
5D162EG04
(57)【要約】
ヘッドセット上のオーディオシステムが、ターゲット人工現実環境をシミュレートするオーディオコンテンツをユーザに提示する。本システムは、環境からオーディオコンテンツを受信し、環境に関連する音響特性のセットを決定するためにオーディオコンテンツを分析する。オーディオコンテンツは、ユーザ生成された音、または周囲音であり得る。ターゲット環境についてのターゲット音響特性のセットを受信した後に、本システムは、音響特性のセットとターゲット環境の音響特性とを比較することによって、伝達関数を決定する。本システムは、伝達関数に基づいてオーディオコンテンツを調整し、調整されたオーディオコンテンツをユーザに提示する。提示された調整されたオーディオコンテンツは、ターゲット環境についてのターゲット音響特性のうちの1つまたは複数を含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
環境に関連する音響特性のセットを識別するために前記環境中の音を分析することと、
前記環境内で生成されたオーディオコンテンツを受信することと、
音響特性の前記セットとターゲット環境についてのターゲット音響特性のセットとの比較に基づいて伝達関数を決定することと、
前記伝達関数を使用して前記オーディオコンテンツを調整することであって、前記伝達関数が、前記ターゲット環境についてのターゲット音響特性の前記セットに基づいて前記オーディオコンテンツの音響特性の前記セットを調整する、前記オーディオコンテンツを調整することと、
ユーザのために調整された前記オーディオコンテンツを提示することであって、調整された前記オーディオコンテンツが、前記ターゲット環境中で生成されたように前記ユーザによって知覚される、調整された前記オーディオコンテンツを提示することと
を含む、方法。
【請求項2】
前記伝達関数を使用して前記オーディオコンテンツを調整することが、
前記環境中の周囲音を識別することと、
前記ユーザのための調整された前記オーディオコンテンツの中から前記周囲音をフィルタ処理することと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記ユーザに複数のターゲット環境オプションを提供することであって、前記複数のターゲット環境オプションの各々が、異なるターゲット環境に対応する、複数のターゲット環境オプションを提供することと、
前記ユーザから、前記複数のターゲット環境オプションからの前記ターゲット環境の選択を受信することと
をさらに含む、請求項1に記載の方法。
【請求項4】
前記複数のターゲット環境オプションの各々が、前記ターゲット環境についての音響特性の異なるセットに関連する、請求項3に記載の方法。
【請求項5】
前記環境に関連する音響特性の前記セットを特徴づける元の応答を決定することと、
前記ターゲット環境についてのターゲット音響特性の前記セットを特徴づけるターゲット応答を決定することと
をさらに含む、請求項1に記載の方法。
【請求項6】
前記伝達関数を決定することが、
前記元の応答と前記ターゲット応答とを比較することと、
前記比較に基づいて、前記環境に関連する音響パラメータのセットと、前記ターゲット環境に関連する音響パラメータのセットとの間の差を決定することと
をさらに含む、請求項5に記載の方法。
【請求項7】
前記伝達関数を使用して音フィルタを生成することであって、調整された前記オーディオコンテンツが前記音フィルタに部分的に基づく、音フィルタを生成すること
をさらに含む、請求項1に記載の方法。
【請求項8】
前記伝達関数を決定することが、少なくとも1つの以前に測定された室内インパルスまたはアルゴリズム残響に基づいて決定される、請求項1に記載の方法。
【請求項9】
前記オーディオコンテンツを調整することが、
前記伝達関数を受信された前記オーディオコンテンツと畳み込むこと
をさらに含む、請求項1に記載の方法。
【請求項10】
受信された前記オーディオコンテンツが、複数のユーザのうちの少なくとも1人のユーザによって生成される、請求項1に記載の方法。
【請求項11】
環境内のオーディオコンテンツを受信するように構成された1つまたは複数のセンサーと、
オーディオコンテンツをユーザに提示するように構成された1つまたは複数のスピーカーと、
コントローラと
を備えるオーディオシステムであって、前記コントローラは、
前記環境に関連する音響特性のセットを識別するために前記環境中の音を分析することと、
音響特性の前記セットとターゲット環境についてのターゲット音響特性のセットとの比較に基づいて伝達関数を決定することと、
前記伝達関数を使用して前記オーディオコンテンツを調整することであって、前記伝達関数が、前記ターゲット環境についてのターゲット音響特性の前記セットに基づいて前記オーディオコンテンツの音響特性の前記セットを調整する、前記オーディオコンテンツを調整することと、
調整された前記オーディオコンテンツを前記ユーザに提示するように前記スピーカーに命令することであって、調整された前記オーディオコンテンツが、前記ターゲット環境中で生成されたように前記ユーザによって知覚される、前記スピーカーに命令することと
を行うように構成された、
オーディオシステム。
【請求項12】
前記オーディオシステムがヘッドセットの一部である、請求項11に記載のシステム。
【請求項13】
前記オーディオコンテンツを調整することが、
前記環境中の周囲音を識別することと、
前記ユーザのための調整された前記オーディオコンテンツの中から前記周囲音をフィルタ処理することと
をさらに含む、請求項11に記載のシステム。
【請求項14】
前記コントローラは、
前記ユーザに複数のターゲット環境オプションを提供することであって、前記複数のターゲット環境オプションの各々が、異なるターゲット環境に対応する、複数のターゲット環境オプションを提供することと、
前記ユーザから、前記複数のターゲット環境オプションからの前記ターゲット環境の選択を受信することと
を行うようにさらに構成された、請求項11に記載のシステム。
【請求項15】
前記複数のターゲット環境オプションの各々が、前記ターゲット環境についてのターゲット音響特性のセットに関連する、請求項14に記載のシステム。
【請求項16】
前記コントローラが、
前記環境に関連する音響特性の前記セットを特徴づける元の応答を決定することと、
前記ターゲット環境についてのターゲット音響特性の前記セットを特徴づけるターゲット応答を決定することと
を行うようにさらに構成された、請求項11に記載のシステム。
【請求項17】
前記コントローラは、
前記環境の室内インパルス応答を推定することであって、前記室内インパルス応答が、前記元の応答を生成するために使用される、室内インパルス応答を推定すること
を行うようにさらに構成された、請求項16に記載のシステム。
【請求項18】
前記コントローラが、
前記伝達関数を使用して音フィルタを生成することと、
前記音フィルタに部分的に基づいて前記オーディオコンテンツを調整することと
を行うようにさらに構成された、請求項11に記載のシステム。
【請求項19】
前記コントローラが、
少なくとも1つの以前に測定された室内インパルス応答またはアルゴリズム残響を使用して、前記伝達関数を決定すること
を行うようにさらに構成された、請求項11に記載のシステム。
【請求項20】
前記コントローラが、前記伝達関数を受信された前記オーディオコンテンツと畳み込むことによって、前記オーディオコンテンツを調整するように構成された、請求項11に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、その内容全体がすべての目的のために参照により本明細書に組み込まれる、2019年6月24日に出願された米国出願第16/450,678号からの優先権を主張する。
【0002】
本開示は、一般に、オーディオシステムに関し、詳細には、ターゲット人工現実環境のための音をレンダリングするオーディオシステムに関する。
【背景技術】
【0003】
仮想および/または拡張情報をユーザに提示するために、ヘッドマウントディスプレイ(HMD)が使用され得る。たとえば、拡張現実/仮想現実をシミュレートするために、拡張現実(AR)ヘッドセットまたは仮想現実(VR)ヘッドセットが使用され得る。従来、AR/VRヘッドセットのユーザは、コンピュータ生成された音を受信するかまたは場合によっては体験するためにヘッドフォンを装着する。ユーザがAR/VRヘッドセットを装着する環境は、しばしば、AR/VRヘッドセットがシミュレートする仮想空間に一致せず、したがって、聴覚矛盾(auditory conflict)をユーザに提示する。たとえば、ミュージシャンおよびアクターは概して、オーディエンスエリアにおいて受信される自分のプレイスタイルおよび音がホールの音響効果に依存するので、パフォーマンス空間においてリハーサルを終える必要がある。さらに、ユーザ生成された音、たとえば音声、拍手などを伴うゲームまたはアプリケーションにおいて、プレーヤがいる実空間の音響特性は、仮想空間の音響特性に一致しない。
【発明の概要】
【0004】
ターゲット人工現実環境中の音をレンダリングするための方法が開示される。本方法は、コントローラを介して、環境に関連する音響特性のセットを分析する。環境は、ユーザが位置する部屋であり得る。1つまたは複数のセンサーが、ユーザ生成された音および周囲音を含む、環境内からのオーディオコンテンツを受信する。たとえば、ユーザが、環境中で話し、楽器を演奏し、または歌い得る間、周囲音は、特に、送風機の稼働および犬の吠え声を含み得る。スタジアム、コンサートホール、またはフィールドなど、ターゲット人工現実環境の選択を受信したことに応答して、コントローラは、ユーザが現在いる部屋の音響特性を、ターゲット環境に関連するターゲット音響特性のセットと比較する。コントローラは、その後、伝達関数を決定し、コントローラは、受信されたオーディオコンテンツを調整するために伝達関数を使用する。したがって、1つまたは複数のスピーカーが、調整されたオーディオコンテンツがターゲット環境についてのターゲット音響特性のうちの1つまたは複数を含むように、ユーザのために調整されたオーディオコンテンツを提示する。ユーザは、調整されたオーディオコンテンツを、それらがターゲット環境中にあるかのように知覚する。
【0005】
いくつかの実施形態では、本方法は、ヘッドセット(たとえば、ニアアイディスプレイ(NED)、ヘッドマウントディスプレイ(HMD))の一部であるオーディオシステムによって実施される。オーディオシステムは、オーディオコンテンツを検出するための1つまたは複数のセンサーと、調整されたオーディオコンテンツを提示するための1つまたは複数のスピーカーと、ターゲット環境の音響特性とともに環境の音響特性を分析するための、ならびに音響特性の2つのセットの比較を特徴づける伝達関数を決定するためのコントローラとを含む。
【図面の簡単な説明】
【0006】
【
図1】1つまたは複数の実施形態による、ヘッドセットの図である。
【
図2A】1つまたは複数の実施形態による、音場を示す図である。
【
図2B】1つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングした後の音場を示す図である。
【
図3】1つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。
【
図4】1つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングするためのプロセスを示す図である。
【
図5】1つまたは複数の実施形態による、例示的な人工現実システムのブロック図である。
【発明を実施するための形態】
【0007】
図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
【0008】
オーディオシステムが、ターゲット人工現実環境のためのオーディオコンテンツをレンダリングする。ヘッドセットなど、人工現実(AR)または仮想現実(VR)デバイスを装着している間、ユーザは、オーディオコンテンツ(たとえば、音声、楽器からの音楽、拍手、または他の雑音)を生成し得る。部屋など、ユーザの現在の環境の音響特性は、AR/VRヘッドセットによってシミュレートされる、仮想空間、すなわち、ターゲット人工現実環境の音響特性に一致しないことがある。オーディオシステムは、ユーザの現在の環境中の周囲音をも考慮しながら、ユーザ生成されたオーディオコンテンツを、そのコンテンツがターゲット環境中で生成されたかのようにレンダリングする。たとえば、ユーザは、コンサートホール、すなわち、ターゲット環境中の歌のパフォーマンスをシミュレートするためにヘッドセットを使用し得る。ユーザが歌うとき、オーディオシステムは、オーディオコンテンツ、すなわち、ユーザが歌っている音を、その音がユーザがコンサートホールの中で歌っているように聞こえるように調整する。水のしたたり、人々のおしゃべり、または送風機の稼働など、ユーザの周りの環境中の周囲雑音は、ターゲット環境がそれらの音を採用する可能性が低いので、減衰され得る。オーディオシステムは、ターゲット環境の特徴を示さない周囲音およびユーザ生成された音を考慮し、オーディオコンテンツを、それがターゲット人工現実環境中で作り出されたように聞こえるようにレンダリングする。
【0009】
オーディオシステムは、ユーザによって生成された音ならびにユーザの周りの周囲音を含む、オーディオコンテンツを受信するための1つまたは複数のセンサーを含む。いくつかの実施形態では、オーディオコンテンツは、環境中の2人以上のユーザによって生成され得る。オーディオシステムは、ユーザの現在の環境の音響特性のセットを分析する。オーディオシステムは、ターゲット環境のユーザ選択を受信する。現在の環境の音響特性に関連する元の応答(original response)とターゲット環境の音響特性に関連するターゲット応答とを比較した後に、オーディオシステムは、伝達関数を決定する。オーディオシステムは、検出されたオーディオコンテンツを、決定された伝達関数に従って調整し、ユーザのための調整されたオーディオコンテンツを1つまたは複数のスピーカーを介して提示する。
【0010】
本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作り出すために使用される、および/または人工現実において別様に使用される(たとえば、人工現実におけるアクティビティを実施する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ(HMD)、スタンドアロンHMD、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
【0011】
システムの全体像
図1は、1つまたは複数の実施形態による、ヘッドセット100の図である。ヘッドセット100は、メディアをユーザに提示する。ヘッドセット100は、オーディオシステムと、ディスプレイ105と、フレーム110とを含む。概して、ヘッドセットは、コンテンツが、ヘッドセットを使用して提示されるように、ユーザの顔に装着され得る。コンテンツは、それぞれ、オーディオシステムおよびディスプレイ105を介して提示される、オーディオメディアコンテンツおよび視覚メディアコンテンツを含み得る。いくつかの実施形態では、ヘッドセットは、オーディオコンテンツをヘッドセットを介してユーザに提示するにすぎないことがある。フレーム110は、ヘッドセット100がユーザの顔に装着されることを可能にし、オーディオシステムの構成要素を格納する。一実施形態では、ヘッドセット100は、ヘッドマウントディスプレイ(HMD)であり得る。別の実施形態では、ヘッドセット100は、ニアアイディスプレイ(NED)であり得る。
【0012】
ディスプレイ105は、視覚コンテンツをヘッドセット100のユーザに提示する。視覚コンテンツは、仮想現実環境の一部であり得る。いくつかの実施形態では、ディスプレイ105は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、量子有機発光ダイオード(QOLED)ディスプレイ、透明有機発光ダイオード(TOLED)ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せなど、電子ディスプレイ要素であり得る。ディスプレイ105は、バックライト付きであり得る。いくつかの実施形態では、ディスプレイ105は、1つまたは複数のレンズを含み得、レンズは、ヘッドセット100を装着している間にユーザが見るものを拡張する。
【0013】
オーディオシステムは、オーディオコンテンツをヘッドセット100のユーザに提示する。オーディオシステムは、構成要素の中でも、1つまたは複数のセンサー140A、140B、1つまたは複数のスピーカー120A、120B、120C、およびコントローラを含む。オーディオシステムは、調整されたオーディオコンテンツをユーザに提供し得、検出されたオーディオコンテンツを、それがターゲット環境中で作り出されているかのようにレンダリングする。たとえば、ヘッドセット100のユーザは、コンサートホールの中で楽器を演奏することを練習することを希望し得る。ヘッドセット100は、ターゲット環境、すなわち、コンサートホールをシミュレートする視覚コンテンツ、ならびにターゲット環境中の音がユーザによってどのように知覚されることになるかをシミュレートするオーディオコンテンツを提示する。オーディオシステムに関する追加の詳細が、
図2~
図5に関して以下で説明される。
【0014】
スピーカー120A、120B、および120Cは、コントローラ170からの命令に従って、ユーザに提示するための音響圧力波を生成する。スピーカー120A、120B、および120Cは、調整されたオーディオコンテンツをユーザに提示するように構成され得、調整されたオーディオコンテンツは、ターゲット環境の音響特性のうちの少なくともいくつかを含む。1つまたは複数のスピーカーは、空気伝導を介して音響圧力波を生成し、空気伝搬(airborne)音をユーザの耳に送信し得る。いくつかの実施形態では、スピーカーは、組織伝導を介してコンテンツを提示し得、スピーカーは、音響圧力波を生成するために組織(たとえば、骨、皮膚、軟骨など)を直接振動するトランスデューサであり得る。たとえば、スピーカー120Bおよび120Cは、耳の近くのおよび/または耳にある組織に結合し、それらを振動させて、ユーザの耳の蝸牛によって音として検出される組織伝搬(tissue borne)音響圧力波を作り出し得る。スピーカー120A、120B、120Cは、周波数範囲の異なる部分をカバーし得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
【0015】
センサー140A、140Bは、ユーザの現在の環境内からのオーディオコンテンツに関するデータを監視し、キャプチャする。オーディオコンテンツは、ユーザが話すこと、楽器を演奏すること、および歌うことを含む、ユーザ生成された音、ならびに、犬のあえぎ、空調装置の稼働、および水の流れなど、周囲音を含み得る。センサー140A、140Bは、たとえば、マイクロフォン、加速度計、他の音響センサー、またはそれらの何らかの組合せを含み得る。
【0016】
いくつかの実施形態では、スピーカー120A、120B、および120C、ならびにセンサー140Aおよび140Bは、フレーム110内および/またはフレーム110上の、
図1に提示されたものとは異なるロケーションに配置され得る。ヘッドセットは、
図1に示されているものとは数および/またはタイプが異なる、スピーカーおよび/またはセンサーを含み得る。
【0017】
コントローラ170は、オーディオコンテンツを提示するようにスピーカーに命令し、ユーザの現在の環境とターゲット環境との間の伝達関数を決定する。環境は、音響特性のセットに関連する。音響特性は、環境を通る音の伝搬(propagation)および反射など、どのように環境が音響コンテンツに応答するかを特徴づける。音響特性は、複数の周波数帯域についての音ソースからヘッドセット100までの残響時間、周波数帯域の各々についての残響レベル、各周波数帯域についての直接対残響比(direct to reverberant ratio)、音ソースからヘッドセット100までの音の初期反射の時間、他の音響特性、またはそれらの何らかの組合せであり得る。たとえば、音響特性は、部屋内の表面からの信号の反射と、信号が空中を通って進むときの信号の減衰(decay)とを含み得る。
【0018】
ユーザが、ヘッドセット100を使用して、ターゲット人工現実環境、すなわち、「ターゲット環境」をシミュレートし得る。部屋など、現在の環境に位置するユーザは、ターゲット環境をシミュレートすることを選定し得る。ユーザは、複数の可能なターゲット環境オプションからターゲット環境を選択し得る。たとえば、ユーザは、オペラホール、屋内バスケットボールコート、音楽録音スタジオなどを含む選定のリストから、スタジアムを選択し得る。ターゲット環境は、音響特性のそれ自体のセット、すなわち、ターゲット環境中で音がどのように知覚されるかを特徴づけるターゲット音響特性のセットを有する。コントローラ170は、音響特性の現在の環境のセットに基づいて、「元の応答」、ユーザの現在の環境の室内インパルス(room impulse)応答を決定する。元の応答は、ユーザが、第1の位置において、自分の現在の環境、すなわち、部屋の中の音をどのように知覚するかを特徴づける。いくつかの実施形態では、コントローラ170は、ユーザの第2の位置における元の応答を決定し得る。たとえば、部屋の中心においてユーザによって知覚される音は、部屋に入口において知覚される音とは異なることになる。したがって、第1の位置(たとえば、部屋の中心)における元の応答は、第2の位置(たとえば、部屋の入口)における元の応答とは異なることになる。コントローラ170は、ターゲット音響特性に基づいて、ターゲット環境において音がどのように知覚されることになるかを特徴づける「ターゲット応答」をも決定する。元の応答とターゲット応答とを比較して、コントローラ170は、コントローラ170がオーディオコンテンツを調整する際に使用する伝達関数を決定する。元の応答とターゲット応答とを比較する際に、コントローラ170は、ユーザの現在の環境中の音響パラメータと、ターゲット環境中の音響パラメータとの差を決定する。いくつかの場合には、差は負であり得、その場合、コントローラ170は、ターゲット環境中の音を達成するために、ユーザの現在の環境からの音をキャンセルおよび/または遮断する。他の場合、差は加法的であり得、コントローラ170は、ターゲット環境中の音を描くためにいくつかの音を加えるおよび/または強調する。コントローラ170は、ターゲット環境中の音を達成するために、現在の環境中の音を変更するための音フィルタを使用し得、これは
図3に関して以下でさらに詳細に説明される。コントローラ170は、環境中の音に影響を及ぼす環境パラメータの差を決定することによって、現在の環境中の音とターゲット環境中の音との間の差を測定し得る。たとえば、コントローラ170は、残響および減衰などの音響パラメータの比較に加えて、環境の温度および相対湿度を比較し得る。いくつかの実施形態では、伝達関数は、環境中のユーザの位置、たとえば、第1の位置または第2の位置に固有である。調整されたオーディオコンテンツは、音がターゲット環境中で作り出されているかのようにユーザが音を知覚するように、少なくとも数個のターゲット音響特性を反映する。
【0019】
ターゲット環境のための音をレンダリングすること
図2Aは、1つまたは複数の実施形態による、音場を示す。ユーザ210が、リビングルームなど、環境200に位置する。環境200は、周囲雑音とユーザ生成された音とを含む、音場205を有する。周囲雑音のソースは、たとえば、近くの街路上の交通、吠えている近隣の犬、および隣接する部屋の中でキーボード上でタイピングしている他の誰かを含む。ユーザ210は、歌うこと、ギターを演奏すること、自分の足を踏み鳴らすこと、話すことなどの音を生成し得る。いくつかの実施形態では、環境200は、音を生成する複数のユーザを含み得る。人工現実(AR)および/または仮想現実(VR)ヘッドセット(たとえば、ヘッドセット100)を装着する前、ユーザ210は、環境200の音響特性のセットに従って音を知覚し得る。たとえば、おそらく多くの物体で満たされたリビングルームの中で、ユーザ210は、自分が話すとき、最小エコーを知覚し得る。
【0020】
図2Bは、1つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングした後の音場を示す。ユーザ210は、依然として環境200に位置し、ヘッドセット215を装着する。ヘッドセット215は、調整された音場350をユーザ210が知覚するようにオーディオコンテンツをレンダリングする、
図1で説明されたヘッドセット100の一実施形態である。
【0021】
ヘッドセット215は、ユーザ210の環境中のオーディオコンテンツを検出し、調整されたオーディオコンテンツをユーザ210に提示する。
図1に関して上記で説明されたように、ヘッドセット215は、少なくとも1つまたは複数のセンサー(たとえば、センサー140A、140B)と、1つまたは複数のスピーカー(たとえば、スピーカー120A、120B、120C)と、コントローラ(たとえば、コントローラ170)とをもつオーディオシステムを含む。ユーザ210の環境200中のオーディオコンテンツは、ユーザ210、環境200中の他のユーザ、および/または周囲音によって生成され得る。
【0022】
コントローラは、環境200内で作られた音のユーザ210の知覚を特徴づける室内インパルス応答を推定することによって、環境200に関連する音響特性のセットを識別および分析する。室内インパルス応答は、環境200中の特定の位置における音のユーザ210の知覚に関連し、ユーザ210が環境200内でロケーションを変えた場合、変わることになる。室内インパルス応答は、ヘッドセット215がAR/VRシミュレーションのためのコンテンツをレンダリングする前に、ユーザ210によって生成され得る。ユーザ210は、たとえばモバイルデバイスを使用して、テスト信号を生成し得、それに応答して、コントローラはインパルス応答を測定する。代替的に、ユーザ210は、コントローラが測定するインパルス信号を生成するために、拍手など、衝撃(impulsive)雑音を生成し得る。別の実施形態では、ヘッドセット215は、環境200に関連する画像および深度データを記録するために、カメラなど、画像センサーを含み得る。コントローラは、環境200の寸法、レイアウト、およびパラメータをシミュレートするために、センサーデータおよび機械学習を使用し得る。したがって、コントローラは、環境200の音響特性を学習し、それによりインパルス応答を取得し得る。コントローラは、オーディオコンテンツ調整より前の環境200の音響特性を特徴づける元の応答を定義するために、室内インパルス応答を使用する。部屋の音響特性を推定することは、その全体が参照により本明細書に組み込まれる、2018年11月5日に出願された米国特許出願第16/180,165号においてさらに詳細に説明されている。
【0023】
別の実施形態では、コントローラは、マッピングサーバに、ヘッドセット215によって検出された視覚情報を提供し得、視覚情報は環境200の少なくとも一部分を表す。マッピングサーバは、環境および環境に関連する音響特性のデータベースを含み得、受信された視覚情報に基づいて、環境200に関連する音響特性のセットを決定することができる。別の実施形態では、コントローラは、ロケーション情報を用いてマッピングサーバに照会し得、それに応答して、マッピングサーバは、ロケーション情報に関連する環境の音響特性を取り出し得る。人工現実システム環境におけるマッピングサーバの使用は、
図5に関してさらに詳細に説明される。
【0024】
ユーザ210は、音をレンダリングするためのターゲット人工現実環境を指定し得る。ユーザ210は、たとえば、モバイルデバイス上のアプリケーションを介してターゲット環境を選択し得る。別の実施形態では、ヘッドセット215は、ターゲット環境のセットをレンダリングするように先にプログラムされ得る。別の実施形態では、ヘッドセット215は、利用可能なターゲット環境と関連するターゲット音響特性とをリストするデータベースを含むマッピングサーバに接続し得る。データベースは、ターゲット環境のリアルタイムシミュレーション、ターゲット環境中の測定されたインパルス応答に関するデータ、またはアルゴリズム残響手法を含み得る。
【0025】
ヘッドセット215のコントローラは、ターゲット環境の音響特性を使用して、ターゲット応答を決定し、その後、ターゲット応答と元の応答とを比較して、伝達関数を決定する。元の応答は、ユーザの現在の環境の音響特性を特徴づけ、ターゲット応答は、ターゲット環境の音響特性を特徴づける。音響特性は、特定のタイミングおよび振幅をもつ、様々な方向からの環境内の反射を含む。コントローラは、伝達関数によって特徴づけられる差反射(difference reflection)パターンを生成するために現在の環境中の反射とターゲット環境中の反射との間の差を使用する。伝達関数から、コントローラは、環境200中で作り出された音を、その音がターゲット環境中で知覚されることになるものにコンバートするために必要とされる頭部伝達関数(HRTF)を決定することができる。HRTFは、ユーザの耳が空間中の点からどのように音を受信するかを特徴づけ、ユーザの現在の頭部位置に応じて異なる。コントローラは、対応するターゲット反射を生成するために、反射のタイミングおよび振幅において反射方向に対応するHRTFを適用する。コントローラは、音がターゲット環境中で作り出されたかのようにユーザが音を知覚するように、すべての差反射についてリアルタイムでこのプロセスを繰り返す。HRTFは、その全体が参照により本明細書に組み込まれる、2019年4月22日に出願された米国特許出願第16/390,918号において詳細に説明される。
【0026】
ヘッドセット215を装着した後に、ユーザ210は、ヘッドセット215上のセンサーによって検出される、何らかのオーディオコンテンツを作り出し得る。たとえば、ユーザ210は、環境200に物理的に位置する地面上で自分の足を踏み鳴らし得る。ユーザ210は、
図2Bによって図示された屋内テニスコートなど、ターゲット環境を選択し、コントローラは、そのターゲット環境についてターゲット応答を決定する。コントローラ210は、指定されたターゲット環境についての伝達関数を決定する。ヘッドセット215のコントローラは、リアルタイムで、伝達関数を、ユーザ210の足の踏み鳴らしなど、環境200内で作り出された音と畳み込む。畳み込みは、ターゲット音響特性に基づいてオーディオコンテンツの音響特性を調整し、調整されたオーディオコンテンツを生じる。ヘッドセット215のスピーカーは、今度はターゲット音響特性のうちの1つまたは複数の音響特性を含む、調整されたオーディオコンテンツをユーザに提示する。ターゲット環境中で採用されない環境200中の周囲音は減衰させられ、したがって、ユーザ210はそれらを知覚しない。たとえば、音場205中の犬の吠え声の音は、調整された音場350を介して提示される調整されたオーディオコンテンツ中に存在しないことになる。ユーザ210は、自分の踏み鳴らしている足の音を、それらの音が屋内テニスコートのターゲット環境中にあるかのように知覚し、屋内テニスコートは犬の吠え声を含まないことがある。
【0027】
図3は、1つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。オーディオシステム300は、オーディオコンテンツをユーザに提供するヘッドセット(たとえば、ヘッドセット100)の構成要素であり得る。オーディオシステム300は、センサーアレイ310と、スピーカーアレイ320と、コントローラ330(たとえば、コントローラ170)とを含む。
図1~
図2で説明されたオーディオシステムは、オーディオシステム300の実施形態である。オーディオシステム300のいくつかの実施形態は、ここで説明される構成要素以外の他の構成要素を含む。同様に、構成要素の機能は、ここで説明されるのと異なって分散され得る。たとえば、一実施形態では、コントローラ330は、ヘッドセット内に組み込まれるのではなく、ヘッドセットの外部にあり得る。
【0028】
センサーアレイ310は、環境内からのオーディオコンテンツを検出する。センサーアレイ310は、センサー140Aおよび140Bなど、複数のセンサーを含む。センサーは、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せなど、音響圧力波を検出するように構成された音響センサーであり得る。センサーアレイ410は、部屋200の中の音場205など、環境内の音場を監視するように構成される。一実施形態では、センサーアレイ310は、検出された音響圧力波を電気フォーマット(アナログまたはデジタル)にコンバートし、センサーアレイ310は、次いで、それをコントローラ330に送る。センサーアレイ310は、送風機の稼働、水のしたたり、犬の吠え声など、周囲音とともに、ユーザが話すこと、歌うこと、または楽器を演奏することなど、ユーザ生成された音を検出する。センサーアレイ310は、音のソースを追跡することによってユーザ生成された音と周囲雑音とを区別し、それに応じてオーディオコンテンツをコントローラ330のデータストア340に記憶する。センサーアレイ310は、到来方向(DOA)分析、ビデオ追跡、コンピュータビジョン、またはそれらの任意の組合せによって、環境内のオーディオコンテンツのソースの位置の追跡を実施し得る。センサーアレイ310は、オーディオコンテンツを検出するためにビームフォーミング技法を使用し得る。いくつかの実施形態では、センサーアレイ310は、音響圧力波を検出するためのセンサー以外のセンサーを含む。たとえば、センサーアレイ310は、画像センサー、慣性測定ユニット(IMU)、ジャイロスコープ、位置センサー、またはそれらの組合せを含み得る。画像センサーは、ビデオ追跡を実施し、および/またはコンピュータビジョンについてコントローラ330と通信するように構成されたカメラであり得る。ビームフォーミングおよびDOA分析は、その全体が参照により本明細書に組み込まれる、2019年4月9日に出願された米国特許出願第16/379,450号、および2018年6月22日に出願された米国特許出願第16/016,156号においてさらに詳細に説明される。
【0029】
スピーカーアレイ320は、オーディオコンテンツをユーザに提示する。スピーカーアレイ320は、
図1中のスピーカー120A、120B、120Cなど、複数のスピーカーを含む。スピーカーアレイ320中のスピーカーは、ヘッドセットを装着しているユーザの耳に音響圧力波を送信するトランスデューサである。トランスデューサは、空気伝導を介してオーディオコンテンツを送信し得、空気伝搬音響圧力波が、ユーザの耳の蝸牛に達し、ユーザによって音として知覚される。トランスデューサは、骨伝導、軟骨伝導、またはそれらの何らかの組合せなど、組織伝導を介してもオーディオコンテンツを送信し得る。スピーカーアレイ320中のスピーカーは、周波数の総範囲上で音をユーザに提供するように構成され得る。たとえば、周波数の総範囲は、概して人間の聴覚の平均範囲の周りの、20kHz~20Hzである。スピーカーは、周波数の様々な範囲上でオーディオコンテンツを送信するように構成される。一実施形態では、スピーカーアレイ320中の各スピーカーは、周波数の総範囲上で動作する。別の実施形態では、1つまたは複数のスピーカーが、低サブレンジ(たとえば、20Hz~500Hz)上で動作し、スピーカーの第2のセットが、高サブレンジ(たとえば、500Hz~20kHz)上で動作する。スピーカーについてのサブレンジは、1つまたは複数の他のサブレンジと部分的に重複し得る。
【0030】
コントローラ330は、オーディオシステム300の動作を制御する。コントローラ330は、コントローラ170と実質的に同様である。いくつかの実施形態では、コントローラ330は、センサーアレイ310によって検出されたオーディオコンテンツを調整することと、調整されたオーディオコンテンツを提示するようにスピーカーアレイ320に命令することとを行うように構成される。コントローラ330は、データストア340と、応答モジュール350と、音調整モジュール370とを含む。コントローラ330は、ユーザの現在の環境の音響特性および/またはターゲット環境の音響特性について、
図5に関してさらに説明されるマッピングサーバに照会し得る。コントローラ330は、いくつかの実施形態では、ヘッドセット内に位置し得る。コントローラ330のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラ330のいくつかの機能が、ヘッドセットの外部で実施され得る。
【0031】
データストア340は、オーディオシステム300による使用のためのデータを記憶する。データストア340中のデータは、ユーザが選択することができる複数のターゲット環境、ターゲット環境に関連する音響特性のセット、ユーザ選択されたターゲット環境、ユーザの現在の環境中の測定されたインパルス応答、頭部伝達関数(HRTF)、音フィルタ、およびオーディオシステム300による使用のための関係する他のデータ、またはそれらの任意の組合せを含み得る。
【0032】
応答モジュール350は、環境の音響特性に基づいて、インパルス応答および伝達関数を決定する。応答モジュール350は、衝撃音に対するインパルス応答を推定することによって、ユーザの現在の環境(たとえば、環境200)の音響特性を特徴づける元の応答を決定する。たとえば、応答モジュール350は、ユーザがいる部屋の音響パラメータを決定するために、その部屋の中の単一のドラムビート(drum beat)に対するインパルス応答を使用し得る。インパルス応答は、上記で説明されたようにセンサーアレイ310によるDOAおよびビームフォーミング分析によって決定され得る、音ソースの第1の位置に関連する。インパルス応答は、音ソースおよび音ソースの位置が変わるとき、変わり得る。たとえば、ユーザがいる部屋の音響特性は、中心におけるものと周辺におけるものとで異なる。応答モジュール350は、データストア340から、ターゲット環境オプションと、それらの関連する音響特性を特徴づけるそれらのターゲット応答とのリストにアクセスする。その後、応答モジュール350は、元の応答と比較してターゲット応答を特徴づける伝達関数を決定する。元の応答、ターゲット応答、および伝達関数はすべて、データストア340に記憶される。伝達関数は、特定の音ソース、その音ソースの位置、ユーザ、およびターゲット環境に特有であり得る。
【0033】
音調整モジュール370は、伝達関数に従って音を調整し、調整された音をそれに応じてプレイするようにスピーカーアレイ320に命令する。音調整モジュール370は、データストア340に記憶された特定のターゲット環境のための伝達関数を、センサーアレイ310によって検出されたオーディオコンテンツと畳み込む。畳み込みは、ターゲット環境の音響特性に基づく、検出されたオーディオコンテンツの調整を生じ、調整されたオーディオコンテンツは、ターゲット音響特性のうちの少なくともいくつかを有する。畳み込まれたオーディオコンテンツは、データストア340に記憶される。いくつかの実施形態では、音調整モジュール370は、畳み込まれたオーディオコンテンツに部分的に基づいて音フィルタを生成し、次いで、調整されたオーディオコンテンツをそれに応じて提示するようにスピーカーアレイ320に命令する。いくつかの実施形態では、音調整モジュール370は、音フィルタを生成するとき、ターゲット環境を考慮する。たとえば、教室など、ユーザ生成された音を除いてすべての他の音ソースが静かであるターゲット環境では、音フィルタは、ユーザ生成された音を増幅しながら、周囲音響圧力波を減衰させ得る。混んでいる街路など、うるさいターゲット環境では、音フィルタは、混んでいる街路の音響特性に一致する音響圧力波を増幅および/または拡張し得る。他の実施形態では、音フィルタは、ローパスフィルタ、ハイパスフィルタ、およびバンドパスフィルタを介して、特定の周波数範囲をターゲットにし得る。代替的に、音フィルタは、検出されたオーディオコンテンツを拡張して、それをターゲット環境において反映し得る。生成された音フィルタは、データストア340に記憶される。
【0034】
図4は、1つまたは複数の実施形態による、ターゲット環境のためのオーディオコンテンツをレンダリングするためのプロセス400である。オーディオシステム300など、オーディオシステムが、プロセスを実施する。
図4のプロセス400は、装置、たとえば、
図3のオーディオシステム300の構成要素によって実施され得る。他の実施形態では、他のエンティティ(たとえば、
図1のヘッドセット100の構成要素および/または
図5に示されている構成要素)が、プロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
【0035】
オーディオシステムは、410において、ユーザがいる部屋など、環境の音響特性のセットを分析する。
図1~
図3に関して上記で説明されたように、環境は、環境に関連する音響特性のセットを有する。オーディオシステムは、環境内のユーザの位置における環境中のインパルス応答を推定することによって、音響特性を識別する。オーディオシステムは、モバイルデバイス生成されたオーディオテスト信号、または拍手などのユーザ生成された衝撃オーディオ信号を使用して、制御された測定を実行することによって、ユーザの現在の環境中のインパルス応答を推定し得る。たとえば、一実施形態では、オーディオシステムは、インパルス応答を推定するために部屋の残響時間の測定値を使用し得る。代替的に、オーディオシステムは、部屋パラメータを決定し、それに応じてインパルス応答を決定するために、センサーデータおよび機械学習を使用し得る。ユーザの現在の環境中のインパルス応答は、元の応答として記憶される。
【0036】
オーディオシステムは、420において、ユーザからターゲット環境の選択を受信する。オーディオシステムは、ユーザが特定の部屋、ホール、スタジアムなどを選択することを可能にする、利用可能なターゲット環境オプションのデータベースをユーザに提示し得る。一実施形態では、ターゲット環境は、大理石の床をもつ大きい静かな教会にユーザが入っていくことなど、ゲームシナリオに従ってゲームエンジンによって決定され得る。ターゲット環境オプションの各々が、ターゲット音響特性のセットに関連し、ターゲット音響特性のセットも、利用可能なターゲット環境オプションのデータベースとともに記憶され得る。たとえば、大理石の床をもつ静かな教会のターゲット音響特性は、エコーを含み得る。オーディオシステムは、ターゲット応答を決定することによって、ターゲット音響特性を特徴づける。
【0037】
オーディオシステムは、430において、ユーザの環境からオーディオコンテンツを受信する。オーディオコンテンツは、オーディオシステムのユーザまたは環境中の周囲雑音によって生成され得る。オーディオシステム内のセンサーアレイが、音を検出する。上記で説明されたように、ユーザの口、楽器など、関心の1つまたは複数のソースが、DOA推定、ビデオ追跡、ビームフォーミングなどを使用して追跡され得る。
【0038】
オーディオシステムは、440において、ユーザの現在の環境の音響特性をターゲット環境の音響特性と比較することによって、伝達関数を決定する。現在の環境の音響特性は、元の応答によって特徴づけられ、ターゲット環境の音響特性は、ターゲット応答によって特徴づけられる。伝達関数は、リアルタイムシミュレーション、測定された応答のデータベース、またはアルゴリズム残響手法を使用して生成され得る。したがって、オーディオシステムは、450において、ターゲット環境のターゲット音響特性に基づいて、検出されたオーディオコンテンツを調整する。一実施形態では、
図3で説明されたように、オーディオシステムは、伝達関数をオーディオコンテンツと畳み込んで、畳み込まれたオーディオ信号を生成する。オーディオシステムは、検出された音を増幅、減衰、または拡張するために音フィルタを利用し得る。
【0039】
オーディオシステムは、460において、調整されたオーディオコンテンツを提示し、それをスピーカーアレイを介してユーザに提示する。調整されたオーディオコンテンツは、音がターゲット環境にあるかのようにユーザが音を知覚するように、ターゲット音響特性のうちの少なくともいくつかを有する。
【0040】
人工現実システムの例
図5は、1つまたは複数の実施形態による、例示的な人工現実システム500のブロック図である。人工現実システム500は、ユーザに人工現実環境、たとえば、仮想現実、拡張現実、複合現実環境、またはそれらの何らかの組合せを提示する。システム500は、ヘッドセットおよび/またはヘッドマウントディスプレイ(HMD)を含み得る、ニアアイディスプレイ(NED)505と、入出力(I/O)インターフェース555とを備え、それらの両方が、コンソール510に結合される。システム500は、ネットワーク575に結合するマッピングサーバ570をも含む。ネットワーク575は、NED505とコンソール510とに結合する。NED505は、ヘッドセット100の一実施形態であり得る。
図5は、1つのNEDと1つのコンソールと1つのI/Oインターフェースとをもつ例示的なシステムを示すが、他の実施形態では、任意の数のこれらの構成要素が、システム500中に含まれ得る。
【0041】
NED505は、コンピュータ生成された要素(たとえば、2次元(2D)または3次元(3D)画像、2Dまたは3Dビデオ、音など)を用いた物理的な現実世界環境の拡張ビューを備えるコンテンツをユーザに提示する。NED505は、アイウェアデバイスまたはヘッドマウントディスプレイであり得る。いくつかの実施形態では、提示されるコンテンツは、オーディオシステム300を介して提示されるオーディオコンテンツを含み、オーディオシステム300は、NED505、コンソール610、またはその両方からオーディオ情報(たとえば、オーディオ信号)を受信し、そのオーディオ情報に基づいてオーディオコンテンツを提示する。NED505は、人工現実コンテンツをユーザに提示する。NEDは、オーディオシステム300と、深度カメラアセンブリ(DCA)530と、電子ディスプレイ535と、光学ブロック540と、1つまたは複数の位置センサー545と、慣性測定ユニット(IMU)550とを含む。位置センサー545とIMU550とは、センサー140A~Bの実施形態である。いくつかの実施形態では、NED505は、ここで説明されるものとは異なる構成要素を含む。さらに、様々な構成要素の機能性は、ここで説明されるものと異なって分散され得る。
【0042】
オーディオシステム300は、オーディオコンテンツをNED505のユーザに提供する。
図1~
図4を参照しながら上記で説明されたように、オーディオシステム300は、ターゲット人工現実環境のためのオーディオコンテンツをレンダリングする。センサーアレイ310が、オーディオコンテンツをキャプチャし、コントローラ330が、環境の音響特性についてオーディオコンテンツを分析する。環境の音響特性とターゲット環境についてのターゲット音響特性のセットとを使用して、コントローラ330は、伝達関数を決定する。伝達関数は、検出されたオーディオコンテンツと畳み込まれ、ターゲット環境の音響特性のうちの少なくともいくつかを有する調整されたオーディオコンテンツを生じる。スピーカーアレイ320が、調整されたオーディオコンテンツをユーザに提示し、音がターゲット環境中で送信されているかのように音を提示する。
【0043】
DCA530は、NED505の一部または全部の周辺のローカル環境の深度情報を表すデータをキャプチャする。DCA530は、光生成器(たとえば、構造化光および/または飛行時間のためのフラッシュ)、イメージングデバイス、ならびに光生成器とイメージングデバイスの両方に結合され得るDCAコントローラを含み得る。光生成器は、たとえば、DCAコントローラによって生成された放射命令に従って、照明光を用いてローカルエリアを照明する。DCAコントローラは、放射命令に基づいて、たとえば、ローカルエリアを照明する照明光の強度およびパターンを調整するように、光生成器のいくつかの構成要素の動作を制御するように構成される。いくつかの実施形態では、照明光は、構造化光パターン、たとえば、ドットパターン、ラインパターンなどを含み得る。イメージングデバイスは、照明光を用いて照明されたローカルエリア中の1つまたは複数の物体の1つまたは複数の画像をキャプチャする。DCA530は、イメージングデバイスによってキャプチャされたデータを使用して深度情報を算出することができるか、またはDCA530は、DCA530からのデータを使用して深度情報を決定することができるコンソール510などの別のデバイスに、この情報を送ることができる。
【0044】
いくつかの実施形態では、オーディオシステム300は、DCA530から取得された深度情報を利用し得る。オーディオシステム300は、1つまたは複数の潜在的音ソースの方向、1つまたは複数の音ソースの深度、1つまたは複数の音ソースの移動、1つまたは複数の音ソースの周りの音アクティビティ、またはそれらの任意の組合せを識別するために、深度情報を使用し得る。いくつかの実施形態では、オーディオシステム300は、ユーザの環境の音響パラメータを決定するためにDCA530からの深度情報を使用し得る。
【0045】
電子ディスプレイ535は、コンソール510から受信されたデータに従ってユーザに2D画像または3D画像を表示する。様々な実施形態では、電子ディスプレイ535は、単一の電子ディスプレイまたは複数の電子ディスプレイ(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイ535の例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、電子ディスプレイ545は、オーディオシステム300によって提示されるオーディオコンテンツに関連する視覚コンテンツを表示する。オーディオシステム300が、ターゲット環境中で提示されているかのようにオーディオコンテンツが聞こえるように調整されたオーディオコンテンツを提示するとき、電子ディスプレイ535は、ターゲット環境を示す視覚コンテンツをユーザに提示し得る。
【0046】
いくつかの実施形態では、光学ブロック540は、電子ディスプレイ535から受光された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をNED505のユーザに提示する。様々な実施形態では、光学ブロック540は、1つまたは複数の光学要素を含む。光学ブロック540中に含まれる例示的な光学要素は、導波路、開口、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック540は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック540中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
【0047】
光学ブロック540による画像光の拡大および集束は、電子ディスプレイ535が、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイ535によって提示されるコンテンツの視野を増大させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大量は、光学要素を追加することまたは取り外すことによって調整され得る。
【0048】
いくつかの実施形態では、光学ブロック540は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイ535に提供されるコンテンツは予歪され、光学ブロック540が、そのコンテンツに基づいて生成された画像光を電子ディスプレイ535から受光したとき、光学ブロック540はそのひずみを補正する。
【0049】
IMU550は、位置センサー545のうちの1つまたは複数から受信された測定信号に基づいて、ヘッドセット505の位置を指示するデータを生成する電子デバイスである。位置センサー545は、ヘッドセット505の運動に応答して1つまたは複数の測定信号を生成する。位置センサー545の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMU550の誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー545は、IMU550の外部に、IMU550の内部に、またはそれらの何らかの組合せで位置し得る。1つまたは複数の実施形態では、IMU550および/または位置センサー545は、オーディオシステム300によって提示されるオーディオコンテンツに関するデータをキャプチャするように構成された、センサーアレイ420中のセンサーであり得る。
【0050】
1つまたは複数の位置センサー545からの1つまたは複数の測定信号に基づいて、IMU550は、NED505の初期位置に対するNED505の推定現在位置を指示するデータを生成する。たとえば、位置センサー545は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえばピッチ、ヨー、およびロール)を測定するための複数のジャイロスコープとを含む。いくつかの実施形態では、IMU550は、測定信号を迅速にサンプリングし、サンプリングされたデータからNED505の推定現在位置を計算する。たとえば、IMU550は、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、NED505上の基準点の推定現在位置を決定する。代替的に、IMU550は、サンプリングされた測定信号をコンソール510に提供し、コンソール510は、誤差を低減するようにデータを解釈する。基準点は、NED505の位置を表すために使用され得る点である。基準点は、一般に、アイウェアデバイス505の配向および位置に関係する空間内の点、または位置として定義され得る。
【0051】
I/Oインターフェース555は、ユーザがアクション要求を送り、コンソール510から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース555は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ハンドコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール510に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース555によって受信されたアクション要求は、コンソール510に通信され、コンソール510は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース515は、上記でさらに説明されたように、I/Oインターフェース555の初期位置に対するI/Oインターフェース555の推定位置を指示する較正データをキャプチャするIMU550を含む。いくつかの実施形態では、I/Oインターフェース555は、コンソール510から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール510がアクションを実施するときに、コンソール510が、I/Oインターフェース555に命令を通信して、I/Oインターフェース555が触覚フィードバックを生成することを引き起こす。I/Oインターフェース555は、オーディオコンテンツの知覚される起点方向および/または知覚される起点ロケーションを決定する際に使用するためにユーザからの1つまたは複数の入力応答を監視し得る。
【0052】
コンソール510は、NED505とI/Oインターフェース555とのうちの1つまたは複数から受信された情報に従って、処理するためのコンテンツをNED505に提供する。
図5に示されている例では、コンソール510は、アプリケーションストア520と、追跡モジュール525と、エンジン515とを含む。コンソール510のいくつかの実施形態は、
図5に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、
図5に関して説明されるものとは異なる様式でコンソール510の構成要素の間で分散され得る。
【0053】
アプリケーションストア520は、コンソール510が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、NED505またはI/Oインターフェース555の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオプレイバックアプリケーション、または他の好適なアプリケーションを含む。
【0054】
追跡モジュール525は、1つまたは複数の較正パラメータを使用してシステム環境500を較正し、NED505またはI/Oインターフェース555の位置を決定する際の誤差を低減するように、1つまたは複数の較正パラメータを調整し得る。また、追跡モジュール525によって実施される較正は、NED505中のIMU550および/またはI/Oインターフェース555中に含まれるIMU550から受信された情報を考慮する。さらに、NED505の追跡が失われた場合、追跡モジュール525は、システム環境500の一部または全部を再較正し得る。
【0055】
追跡モジュール525は、1つまたは複数の位置センサー545、IMU550、DCA530、またはそれらの何らかの組合せからの情報を使用して、NED505またはI/Oインターフェース555の移動を追跡する。たとえば、追跡モジュール525は、NED505からの情報に基づいて、ローカルエリアのマッピングにおいてNED505の基準点の位置を決定する。追跡モジュール525はまた、NED505の基準点の位置、またはI/Oインターフェース555の基準点の位置を、それぞれ、NED505の位置を指示するIMU550からのデータを使用して、またはI/Oインターフェース555の位置を指示するI/Oインターフェース555中に含まれるIMU550からのデータを使用して決定し得る。さらに、いくつかの実施形態では、追跡モジュール525は、位置またはヘッドセット505を指示するIMU550からのデータの部分を使用して、NED505の将来の位置を予測し得る。追跡モジュール525は、NED505またはI/Oインターフェース555の推定または予測された将来位置をエンジン515に提供する。いくつかの実施形態では、追跡モジュール525は、音フィルタを生成する際に使用するためにオーディオシステム300に追跡情報を提供し得る。
【0056】
エンジン515はまた、システム環境500内でアプリケーションを実行し、追跡モジュール525から、NED505の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン515は、ユーザへの提示のためにNED505に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン515は、仮想環境において、またはローカルエリアを追加のコンテンツで拡張する環境において、ユーザの移動を反映する、NED505のためのコンテンツを生成する。さらに、エンジン515は、I/Oインターフェース555から受信されたアクション要求に応答して、コンソール510上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、NED505を介した視覚または可聴フィードバック、あるいはI/Oインターフェース555を介した触覚フィードバックであり得る。
【0057】
マッピングサーバ570は、ユーザに提示するために、オーディオおよび視覚コンテンツをNED505に提供し得る。マッピングサーバ570は、複数のターゲット環境とそれらの関連する音響特性とを含む、複数の環境とそれらの環境の音響特性を表す仮想モデルを記憶するデータベースを含む。NED505は、環境の音響特性についてマッピングサーバ570に照会し得る。マッピングサーバ570は、ネットワーク575を介してNED505から、部屋など、ユーザが現在いる環境の少なくとも部分を表す視覚情報および/またはNED505のロケーション情報を受信する。マッピングサーバ570は、受信された視覚情報および/またはロケーション情報に基づいて、部屋の現在の構成に関連する仮想モデル中のロケーションを決定する。マッピングサーバ570は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連する任意の音響パラメータに部分的に基づいて、部屋の現在の構成に関連する音響パラメータのセットを決定する(たとえば、取り出す)。また、マッピングサーバ570は、ユーザがNED505を介してシミュレートすることを希望する、ターゲット環境に関する情報をも受信し得る。マッピングサーバ570は、ターゲット環境に関連する音響パラメータのセットを決定する(たとえば、取り出す)。マッピングサーバ570は、NED505においてオーディオコンテンツを生成するために、NED505に(たとえば、ネットワーク575を介して)ユーザの現在の環境および/またはターゲット環境に関する、音響パラメータのセットに関する情報を提供し得る。代替的に、マッピングサーバ570は、音響パラメータのセットを使用して、オーディオ信号を生成し、レンダリングのためにオーディオ信号をNED505に提供し得る。いくつかの実施形態では、マッピングサーバ570の構成要素のうちのいくつかは、NED505にワイヤード接続を介して接続された別のデバイス(たとえば、コンソール510)と一体化され得る。
【0058】
ネットワーク575は、NED505をマッピングサーバ570に接続する。ネットワーク575は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク575は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク575は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク575は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI Expressアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク575上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク575を介して交換されるデータは、2進形式(たとえばポータブルネットワークグラフィックス(PNG))の画像データ、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などを含む、技術および/またはフォーマットを使用して表され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。ネットワーク575はまた、同じまたは異なる部屋に位置する複数のヘッドセットを同じマッピングサーバ570に接続し得る。オーディオおよび視覚コンテンツを提供するためのマッピングサーバおよびネットワークの使用は、その全体が参照により本明細書に組み込まれる、2019年3月27日に出願された米国特許出願第16/366,484号においてさらに詳細に説明される。
【0059】
追加の構成情報
本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。
【0060】
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、製造プロセスに関して、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
【0061】
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、(たとえば、製造プロセスに関して)説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。
【0062】
本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
【0063】
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。
【国際調査報告】