(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-05
(54)【発明の名称】レガシーオーディオビジュアルメディアからの空間化された仮想音響シーンの決定
(51)【国際特許分類】
H04S 7/00 20060101AFI20220829BHJP
【FI】
H04S7/00 320
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021557238
(86)(22)【出願日】2020-07-24
(85)【翻訳文提出日】2021-11-22
(86)【国際出願番号】 IB2020057032
(87)【国際公開番号】W WO2020261250
(87)【国際公開日】2020-12-30
(32)【優先日】2019-06-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】515046968
【氏名又は名称】メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー
【氏名又は名称原語表記】META PLATFORMS TECHNOLOGIES, LLC
(74)【代理人】
【識別番号】110002974
【氏名又は名称】弁理士法人World IP
(72)【発明者】
【氏名】ロビンソン, フィリップ
(72)【発明者】
【氏名】アメンガル ガリ, セバスチア ヴァイセンス
(72)【発明者】
【氏名】ロビット, アンドリュー
(72)【発明者】
【氏名】シスラー, カール
(72)【発明者】
【氏名】マレシュ, ピーター ヘンリー
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA05
5D162CC01
5D162CC08
5D162CD26
5D162DA01
5D162EG04
(57)【要約】
オーディオシステムが、2次元(2D)音をもつレガシービデオから3次元(3D)音をもつ仮想音響環境を生成する。本システムは、ヘッドセットを使用して観察され得るビデオの没入型3D仮想シーンを作成するために、ビデオ内の音ソースを再配置して2Dから3Dジオメトリにする。したがって、オーディオ処理システムが、ビデオにおける1つまたは複数のソースによって生成されている、フラットなモノまたはステレオオーディオを含むビデオを取得する。本システムは、個々のオーディオソースをセグメント化することによって各ソースからのオーディオを切り離す。各ソースの直接音成分を取得するために、各ソースからのオーディオから残響が除去される。直接音成分は、次いで、ビデオ中のローカルエリアについて取得された音響特性に基づいて3Dオーディオを生成するために、ビデオの3Dローカルエリアに再空間化される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オーディオ処理システムによって、ビデオのオーディオ成分を、前記ビデオにおける第1の音ソースについての第1のオーディオと前記ビデオにおける第2の音ソースについての第2のオーディオとにセグメント化することであって、前記オーディオ成分が2次元オーディオである、ビデオのオーディオ成分をセグメント化することと、
前記第1のオーディオおよび前記第2のオーディオの直接音成分を取得するために、前記第1のオーディオおよび前記第2のオーディオから残響を除去することと、
前記ビデオに関連するローカルエリアについて、前記ローカルエリアの音響特性を取得することと、
前記オーディオ処理システムによって、前記ローカルエリアの前記音響特性を使用して前記第1のオーディオおよび前記第2のオーディオの前記直接音成分により前記ビデオについての3次元オーディオを生成することと
を含む、方法。
【請求項2】
前記ローカルエリアの音響特性を取得することは、
前記ビデオの視覚成分から、前記ローカルエリアの視覚特徴を識別することと、
前記ローカルエリアの前記識別された視覚特徴を、データベースに記憶された現実世界空間の視覚特徴と比較することであって、前記データベースが、前記現実世界空間の視覚特徴の前記現実世界空間の音響特性へのマッピングを含む、視覚特徴を比較することと、
前記識別された視覚特徴が、前記データベースに記憶された現実世界空間の視覚特徴にマッチしたことに応答して、前記第1のオーディオおよび前記第2のオーディオの前記3次元オーディオを生成するために前記現実世界空間の前記音響特性を使用することと、
を含む、請求項1に記載の方法。
【請求項3】
前記ローカルエリアの音響特性を取得することが、
前記ローカルエリアの視覚特徴を識別するために前記ビデオの視覚成分を分析することと、
前記ローカルエリアの前記視覚特徴に基づいて前記ローカルエリアの前記音響特性を推定することと
を含む、請求項1に記載の方法。
【請求項4】
前記ローカルエリアの前記視覚特徴に基づいて前記ローカルエリアの前記音響特性を推定することが、
前記ローカルエリアの前記視覚特徴に、知られている空間の視覚特徴を前記知られている空間の音響特性に相関させる機械学習モデルを適用すること
を含む、請求項3に記載の方法。
【請求項5】
前記ローカルエリアの音響特性を取得することが、
前記第1のオーディオおよび前記第2のオーディオの残響を識別するために前記オーディオ成分を分析することと、
前記第1のオーディオおよび前記第2のオーディオの前記残響から前記ローカルエリアの前記音響特性を決定することと
をさらに含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記3次元オーディオを生成することが、
前記第1のオーディオおよび前記第2のオーディオを、前記ビデオにおいてキャプチャされた前記ローカルエリアの前記音響特性にマッチさせるために、前記第1の音ソースおよび前記第2の音ソースについてのローカルエリアインパルス応答を生成すること
を含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
ユーザによって装着されるヘッドセットから、前記ヘッドセットの位置または配向のうちの少なくとも1つについてのデータを取得することであって、位置または配向のうちの前記少なくとも1つが、前記ビデオに関する前記ユーザの観察パースペクティブに対応する、データを取得することと、
前記ヘッドセットの位置または配向のうちの前記少なくとも1つについての前記データと前記ビデオにおいてキャプチャされた前記ローカルエリアの前記音響特性とに基づいて、前記第1の音ソースおよび前記第2の音ソースについての前記ローカルエリアインパルス応答を調整することと
をさらに含む、請求項6に記載の方法。
【請求項8】
a)前記ビデオについての前記3次元オーディオを生成することが、
バイノーラル合成を使用して、前記第1の音ソースおよび前記第2の音ソースの各々についてのインパルス応答を組み合わせること
をさらに含むか、または、
b)前記ビデオについての前記3次元オーディオを生成することは、前記第1のオーディオが、前記ローカルエリア内の第1のオブジェクトから発生するものとしてユーザによって知覚されることと、前記第2のオーディオが、前記ローカルエリア内の第2のオブジェクトから発生するものとして前記ユーザによって知覚されることとを引き起こす、
のうちのいずれか1つまたは複数である、請求項1から7のいずれか一項に記載の方法。
【請求項9】
視覚成分とオーディオ成分とを含むビデオを取得することであって、前記オーディオ成分が2次元オーディオである、ビデオを取得することと、
前記オーディオ成分から、音ソースを識別することと、
前記2次元オーディオの直接音成分を取得するために前記オーディオ成分から残響を除去することと、
前記ビデオに関連するローカルエリアについて、前記ローカルエリアの音響特性を取得することと、
前記ローカルエリアの前記音響特性を使用して前記2次元オーディオの前記直接音成分により前記ビデオについての3次元オーディオを生成することと
を含む、方法。
【請求項10】
前記3次元オーディオを生成することが、
前記オーディオ成分を、前記ビデオにおいてキャプチャされた前記ローカルエリアの前記音響特性にマッチさせるために、第2の音ソースについてのローカルエリアインパルス応答を生成すること
を含む、請求項9に記載の方法。
【請求項11】
前記ローカルエリアの音響特性を取得することは、
前記視覚成分から、前記ローカルエリアの視覚特徴を識別することと、
前記ローカルエリアの前記識別された視覚特徴を、データベースに記憶された現実世界空間の視覚特徴と比較することであって、前記データベースが、前記現実世界空間の視覚特徴の前記現実世界空間の音響特性へのマッピングを含む、視覚特徴を比較することと、
前記識別された視覚特徴が、前記データベースに記憶された現実世界空間の視覚特徴にマッチしたことに応答して、前記オーディオ成分の前記3次元オーディオを生成するために前記現実世界空間の前記音響特性を使用することと、
を含む、請求項9または10に記載の方法。
【請求項12】
a)前記ローカルエリアの音響特性を取得することが、
前記ローカルエリアの視覚特徴を識別するために前記視覚成分を分析することと、
前記ローカルエリアの前記視覚特徴に、知られている空間の視覚特徴を前記知られている空間の音響特性に相関させる機械学習モデルを適用することによって、前記ローカルエリアの前記音響特性を推定することと
を含むか、または、
b)前記ローカルエリアの音響特性を取得することが、
前記オーディオ成分の残響を識別するために前記オーディオ成分を分析することと、
前記オーディオ成分の前記残響から前記ローカルエリアの前記音響特性を決定することと
をさらに含む、
のうちのいずれか1つまたは複数である、請求項9または10に記載の方法。
【請求項13】
命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
ビデオのオーディオを、前記ビデオにおける第1の音ソースについての第1のオーディオと第2の音ソースについての第2のオーディオとにセグメント化することであって、前記オーディオが2次元モノまたはステレオオーディオである、ビデオのオーディオをセグメント化することと、
前記第1のオーディオおよび前記第2のオーディオの直接音成分を取得するために、前記第1のオーディオおよび前記第2のオーディオから残響を除去することと、
前記ビデオに関連するローカルエリアについて、前記ローカルエリアの音響特性を取得することと、
前記ビデオに関連する前記ローカルエリアの前記音響特性を使用して前記第1のオーディオおよび前記第2のオーディオの前記直接音成分により前記ビデオについての3次元オーディオを生成することであって、前記3次元オーディオは、前記第1の音ソースが、前記ローカルエリア内の第1のオブジェクトから発生すると思わせ、かつ、前記第2の音ソースが、前記ローカルエリア内の第2のオブジェクトから発生すると思わせる、3次元オーディオを生成することと
を行わせる、非一時的コンピュータ可読記憶媒体。
【請求項14】
前記3次元オーディオを生成することが、
前記第1のオーディオおよび前記第2のオーディオを、前記ビデオにおいてキャプチャされた前記ローカルエリアの前記音響特性にマッチさせるために、前記第1の音ソースおよび前記第2の音ソースについてのローカルエリアインパルス応答を生成すること
を含み、ここで随意に、前記命令は、前記プロセッサによって実行されたとき、前記プロセッサに、
ユーザによって装着されるヘッドセットから、前記ヘッドセットの位置または配向のうちの少なくとも1つについてのデータを取得することであって、位置または配向のうちの前記少なくとも1つが、前記ビデオ中のコンテンツを観察する前記ユーザのパースペクティブに対応する、データを取得することと、
前記ヘッドセットの位置または配向のうちの前記少なくとも1つについての前記データと前記ビデオにおいてキャプチャされた前記ローカルエリアの前記音響特性とに基づいて、前記第1の音ソースおよび前記第2の音ソースについての前記ローカルエリアインパルス応答を調整することと
をさらに行わせる、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項15】
a)前記ローカルエリアの音響特性を取得することは、
前記ローカルエリアの視覚特性を識別することと、
前記ローカルエリアの前記識別された視覚特性を、データベースに記憶された現実世界空間の視覚特性と比較することと、
前記識別された視覚特性が、前記データベースに記憶された現実世界空間の視覚特性にマッチしたことに応答して、前記ビデオについての3次元オーディオを生成するために、前記データベースに記憶された前記現実世界空間の前記音響特性を使用することと
をさらに含むか、または、
b)前記ローカルエリアの音響特性を取得することが、
前記ローカルエリアの視覚特性を分析することと、
前記ローカルエリアの前記視覚特性に基づいて前記ローカルエリアの空間特性を推定することと
をさらに含むか、または、
c)前記ローカルエリアの音響特性を取得することが、
前記第1の音ソースおよび前記第2の音ソースの残響を識別することと、
前記識別された残響から前記ローカルエリアの前記音響特性を識別することと
をさらに含む、
のうちのいずれか1つまたは複数である、請求項13または14に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
本開示は、一般に、ヘッドセットにおけるオーディオの提示に関し、詳細には、レガシーオーディオビジュアルメディアからの空間化された仮想音響シーンの決定に関する。
【0002】
人間は、各々の両耳において知覚された音を潜在意識で比較することによって音ソースのロケーションを決定することが可能である。2人のユーザの耳において知覚された音は、各ユーザに関する音ソースの方向およびロケーション、ならびに音が知覚された部屋の周囲の状況に応じて、異なり得る。しかしながら、音響反射表面がある環境における記録は、ソースからマイクロフォンへの直接音に加えて、これらの反射表面の方向から反射された音を含んでいる。これらの記録がモノまたはステレオに混合されるとき、反射中に含まれている空間情報が崩れ、失われる。したがって、ステレオスピーカーまたはヘッドフォンのために最初に作り出されたレガシービデオメディアの大部分は、完全なオーディオ空間化を含まない。
【発明の概要】
【0003】
本発明によれば、オーディオ処理システムによって、ビデオのオーディオ成分を、ビデオにおける第1の音ソースについての第1のオーディオとビデオにおける第2の音ソースについての第2のオーディオとにセグメント化することであって、オーディオ成分が2次元オーディオである、ビデオのオーディオ成分をセグメント化することと、第1のオーディオおよび第2のオーディオの直接音成分を取得するために、第1のオーディオおよび第2のオーディオから残響を除去する(remove)ことと、ビデオに関連するローカルエリアについて、ローカルエリアの音響特性を取得することと、オーディオ処理システムによって、ローカルエリアの音響特性を使用して第1のオーディオおよび第2のオーディオの直接音成分によりビデオについての3次元オーディオを生成することとを含む、方法が提供される。
【0004】
好ましくは、ローカルエリアの音響特性を取得することは、ビデオの視覚成分から、ローカルエリアの視覚特徴を識別することと、ローカルエリアの識別された視覚特徴を、データベースに記憶された現実世界空間の視覚特徴と比較することであって、データベースが、現実世界空間の視覚特徴の現実世界空間の音響特性へのマッピングを含む、ローカルエリアの識別された視覚特徴を比較することと、識別された視覚特徴が、データベースに記憶された現実世界空間の視覚特徴にマッチしたことに応答して、第1のオーディオおよび第2のオーディオの3次元オーディオを生成するために現実世界空間の音響特性を使用することとを含む。
【0005】
好都合なことに、ローカルエリアの音響特性を取得することは、ローカルエリアの視覚特徴を識別するためにビデオの視覚成分を分析することと、ローカルエリアの視覚特徴に基づいてローカルエリアの音響特性を推定することとを含む。
【0006】
好ましくは、ローカルエリアの視覚特徴に基づいてローカルエリアの音響特性を推定することは、ローカルエリアの視覚特徴に、知られている空間の視覚特徴を知られている空間の音響特性に相関させる機械学習モデルを適用することを含む。
【0007】
好都合なことに、ローカルエリアの音響特性を取得することは、第1のオーディオおよび第2のオーディオの残響を識別するためにオーディオ成分を分析することと、第1のオーディオおよび第2のオーディオの残響からローカルエリアの音響特性を決定することとをさらに含む。
【0008】
好ましくは、3次元オーディオを生成することは、第1のオーディオおよび第2のオーディオを、ビデオにおいてキャプチャされたローカルエリアの音響特性にマッチさせるために、第1の音ソースおよび第2の音ソースについてのローカルエリアインパルス応答を生成することを含む。
【0009】
好都合なことに、本方法は、ユーザによって装着されるヘッドセットから、ヘッドセットの位置または配向のうちの少なくとも1つについてのデータを取得することであって、位置または配向のうちの少なくとも1つが、ビデオに関するユーザの観察パースペクティブ(viewing perspective)に対応する、データを取得することと、ヘッドセットの位置または配向のうちの少なくとも1つについてのデータとビデオにおいてキャプチャされたローカルエリアの音響特性とに基づいて、第1の音ソースおよび第2の音ソースについてのローカルエリアインパルス応答を調整することとをさらに含む。
【0010】
好ましくは、ビデオについての3次元オーディオを生成することは、バイノーラル合成を使用して、第1の音ソースおよび第2の音ソースの各々についてのインパルス応答を組み合わせることをさらに含む。
【0011】
好都合なことに、ビデオについての3次元オーディオを生成することは、第1のオーディオが、ローカルエリア内の第1のオブジェクトから発生するものとしてユーザによって知覚されることと、第2のオーディオが、ローカルエリア内の第2のオブジェクトから発生するものとしてユーザによって知覚されることとを引き起こす。
【0012】
本発明のさらなる態様によれば、視覚成分とオーディオ成分とを含むビデオを取得することであって、オーディオ成分が2次元オーディオである、ビデオを取得することと、オーディオ成分から、音ソースを識別することと、2次元オーディオの直接音成分を取得するためにオーディオ成分から残響を除去することと、ビデオに関連するローカルエリアについて、ローカルエリアの音響特性を取得することと、ローカルエリアの音響特性を使用して2次元オーディオの直接音成分によりビデオについての3次元オーディオを生成することとを含む、方法が提供される。
【0013】
好ましくは、3次元オーディオを生成することは、オーディオ成分を、ビデオにおいてキャプチャされたローカルエリアの音響特性にマッチさせるために、第2の音ソースについてのローカルエリアインパルス応答を生成することを含む。
【0014】
好都合なことに、ローカルエリアの音響特性を取得することは、視覚成分から、ローカルエリアの視覚特徴を識別することと、ローカルエリアの識別された視覚特徴を、データベースに記憶された現実世界空間の視覚特徴と比較することであって、データベースが、現実世界空間の視覚特徴の現実世界空間の音響特性へのマッピングを含む、ローカルエリアの識別された視覚特徴を比較することと、識別された視覚特徴が、データベースに記憶された現実世界空間の視覚特徴にマッチしたことに応答して、オーディオ成分の3次元オーディオを生成するために現実世界空間の音響特性を使用することとを含む。
【0015】
好ましくは、ローカルエリアの音響特性を取得することは、ローカルエリアの視覚特徴を識別するために視覚成分を分析することと、ローカルエリアの視覚特徴に、知られている空間の視覚特徴を知られている空間の音響特性に相関させる機械学習モデルを適用することによって、ローカルエリアの音響特性を推定することとを含む。
【0016】
好都合なことに、ローカルエリアの音響特性を取得することは、オーディオ成分の残響を識別するためにオーディオ成分を分析することと、オーディオ成分の残響からローカルエリアの音響特性を決定することとをさらに含む。
【0017】
本発明のさらなる態様によれば、命令を備える非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサによって実行されたとき、プロセッサに、ビデオのオーディオを、ビデオにおける第1の音ソースについての第1のオーディオと第2の音ソースについての第2のオーディオとにセグメント化することであって、オーディオが2次元モノまたはステレオオーディオである、ビデオのオーディオをセグメント化することと、第1のオーディオおよび第2のオーディオの直接音成分を取得するために、第1のオーディオおよび第2のオーディオから残響を除去することと、ビデオに関連するローカルエリアについて、ローカルエリアの音響特性を取得することと、ビデオに関連するローカルエリアの音響特性を使用して第1のオーディオおよび第2のオーディオの直接音成分によりビデオについての3次元オーディオを生成することであって、3次元オーディオは、第1の音ソースが、ローカルエリア内の第1のオブジェクトから発生すると思われることと、第2の音ソースが、ローカルエリア内の第2のオブジェクトから発生すると思われることとを引き起こす、3次元オーディオを生成することとを行わせる、非一時的コンピュータ可読記憶媒体が提供される。
【0018】
好ましくは、3次元オーディオを生成することは、第1のオーディオおよび第2のオーディオを、ビデオにおいてキャプチャされたローカルエリアの音響特性にマッチさせるために、第1の音ソースおよび第2の音ソースについてのローカルエリアインパルス応答を生成することを含む。
【0019】
好都合なことに、命令は、プロセッサによって実行されたとき、プロセッサに、ユーザによって装着されるヘッドセットから、ヘッドセットの位置または配向のうちの少なくとも1つについてのデータを取得することであって、位置または配向のうちの少なくとも1つが、ビデオ中のコンテンツを観察するユーザのパースペクティブに対応する、データを取得することと、ヘッドセットの位置または配向のうちの少なくとも1つについてのデータとビデオにおいてキャプチャされたローカルエリアの音響特性とに基づいて、第1の音ソースおよび第2の音ソースについてのローカルエリアインパルス応答を調整することとをさらに行わせる。
【0020】
好ましくは、ローカルエリアの音響特性を取得することは、ローカルエリアの視覚特性を識別することと、ローカルエリアの識別された視覚特性を、データベースに記憶された現実世界空間の視覚特性と比較することと、識別された視覚特性が、データベースに記憶された現実世界空間の視覚特性にマッチしたことに応答して、ビデオについての3次元オーディオを生成するために、データベースに記憶された現実世界空間の音響特性を使用することとをさらに含む。
【0021】
好都合なことに、ローカルエリアの音響特性を取得することは、ローカルエリアの視覚特性を分析することと、ローカルエリアの視覚特性に基づいてローカルエリアの空間特性を推定することとをさらに含む。
【0022】
好ましくは、ローカルエリアの音響特性を取得することは、第1の音ソースおよび第2の音ソースの残響を識別することと、識別された残響からローカルエリアの音響特性を識別することとをさらに含む。
【0023】
2次元(2D)オーディオ(たとえば、モノまたはステレオ音)をもつレガシービデオから3次元(3D)オーディオをもつ仮想音響環境を生成するための方法が開示される。本方法は、ビデオ内の1つまたは複数の音ソースからの2Dオーディオを3Dオーディオに変換する。3Dオーディオは、ヘッドセットを使用して観察され得るビデオの没入型3D仮想シーンを作成するために使用され得る。したがって、オーディオ処理システムが、ビデオにおける2つまたはそれ以上の音ソースによって生成されている2Dオーディオを含むビデオを取得する。システムは、ソース分離技法を使用して個々の音ソースをセグメント化することによって各音ソースからのオーディオを切り離す(isolate)。各ソースの直接音成分を取得するために、ビデオにおける各ソースからのオーディオから、オーディオに伴う残響(たとえば、反射された音)が除去される。直接音成分は、次いで、3Dオーディオを生成するためにビデオのローカルエリアに再空間化(re-spatialize)される。
【0024】
各直接音成分を再空間化するために、本システムは、ビデオに関連するローカルエリアの音響特性を取得する。オーディオ処理システムは、1)ビデオの視覚特徴を、マッピングサーバのデータベースに記憶された空間の特徴と比較することと、2)ローカルエリアの音響特性を取得するためにオーディオの残響を分析することと、3)ローカルエリアの音響特性を推定するためにビデオの視覚特徴を分析することと、4)ローカルエリアの音響特性を推定するために、残響を分析することと視覚特徴を分析することとの組合せとを行うことによって、ローカルエリアの音響特性を取得し得る。
【0025】
したがって、オーディオ処理システムは、オーディオが、ビデオにおいてキャプチャされたローカルエリアの音響特性にマッチするように、各音ソースについてのローカルエリアインパルス応答を生成する。これは、ビデオの音が、ローカルエリアにおける実際の音ソースの各々から発生しているかのように思われることを可能にする。その上、ローカルエリアインパルス応答はまた、部屋におけるユーザの位置および/またはローカルエリアにおける音ソースに対するユーザの位置をとり得る。たとえば、オーディオ処理システムは、ユーザが仮想シーン内のどこを見ているかなど、ビデオ内でのユーザのパースペクティブに対応する、ユーザによって装着されるヘッドセットの位置および/または配向についてのデータを取得し得る。オーディオ処理システムは、次いで、ヘッドセットの位置または配向と、ビデオにおいてキャプチャされたローカルエリアの音響特性とに基づいて、各音ソースについてのローカルエリアインパルス応答を調整し得る。したがって、ユーザが自身の頭部の向きを変えて音ソースから目をそらすとき、音は、ヘッドセットを装着しているユーザによって、音がビデオにおけるソースの方向から来ていると、知覚され続けることになる。
【図面の簡単な説明】
【0026】
【
図1】1つまたは複数の実施形態による、オーディオソース分離のための流れ図である。
【
図2】1つまたは複数の実施形態による、ローカルエリア音響特性を取得するための流れ図である。
【
図3】1つまたは複数の実施形態による、ローカルエリア音響特性を取得するための流れ図である。
【
図4】1つまたは複数の実施形態による、ビデオからローカルエリア音響特性を推定するための流れ図である。
【
図5】1つまたは複数の実施形態による、オーディオ処理システムのブロック図である。
【
図6】1つまたは複数の実施形態による、レガシーオーディオビジュアルメディアからの空間化された音響データを導出するためのプロセスを示すフローチャートである。
【
図7】1つまたは複数の実施形態による、マッピングサーバのブロック図である。
【
図8A】1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセットの斜視図である。
【
図8B】1つまたは複数の実施形態による、ヘッドマウントディスプレイとして実装されるヘッドセットの斜視図である。
【
図9】1つまたは複数の実施形態による、オーディオシステムのブロック図である。
【
図10】1つまたは複数の実施形態による、ヘッドセットと、マッピングサーバと、オーディオ処理システムとを含むシステム環境のブロック図である。
【
図11】1つまたは複数の実施形態による、ヘッドセットのブロック図である。
【発明を実施するための形態】
【0027】
図は、単に説明の目的で本開示の実施形態を示す。本明細書で説明される開示の原理またはうたわれている利益から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
【0028】
概観
大量のレガシービデオメディア(たとえば、映画の動画、TVショー、YOUTUBEビデオなど)はオーディオ空間化を含まない。オーディオ空間化は、仮想3D環境内の音ソースの印象を聴き手に与えるように処理されたオーディオである。オーディオ空間化は、人工現実システムについての没入の感覚に寄与し、ユーザに、それらが実際の3D環境中にあることを示唆する。最近、機械学習方法を使用してこれらのレガシービデオを分析し、個々のオーディオソースを分離することが可能になった。これは、ビデオにおける1つの音ソースのみを聴くこと、および/または音楽アンサンブルを、個々の楽器のトラックの一部または全部と再混合することなど、多くの可能性を可能にする。さらに、空間の空間プロパティおよび/または音響プロパティをクラウドソーシングし、記憶する、マッピングサーバとともに、オーディオソースは、レガシー記録から導出される活用可能な没入型3D人工現実シーンを作成するために、再配置されて3Dジオメトリになり得る。
【0029】
レガシーオーディオビジュアルメディア(たとえば、2Dビデオファイル)からの空間化された音響データを導出するためのオーディオ処理システムおよび方法が説明される。本システムおよび本方法は、信号処理技法を適用するが、いくつかの実施形態では、オーディオをもつレガシービデオから仮想音響環境を作成するために、マッピングサーバからの情報を活用する。本システムは、各音ソースについての直接音成分を取得するためにオーディオビジュアルメディアにおける各音ソースからの音を切り離すことによって(たとえば、1つまたは複数の残響除去(de-reverberation)技法を適用することによって)、これを達成する。本システムは、オーディオソースを再位置特定して、ビデオにおいて描写されたローカルエリアの3Dジオメトリにするために、メディアファイルに関連するロケーション情報、およびマッピングサーバ、ならびに/またはメディアオーディオビジュアルメディアを使用し得る。本システムは、一実施形態では、ローカルエリアの3Dジオメトリを使用して各オーディオソースについてのローカルエリアインパルス応答を取得するために音響シミュレーションを実施する。本システムは、人工現実ヘッドセットにローカルエリアインパルス応答を提供し得、人工現実ヘッドセットは、(たとえば、ローカルエリアの実際のまたは仮想表現内の)空間化されたオーディオコンテンツを提示するためにローカルエリアインパルス応答を使用する。
【0030】
本開示の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および/または人工現実において別様に使用される(たとえば、人工現実におけるアクティビティを実施する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ヘッドセット、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ(HMD)、スタンドアロンHMD、ニアアイディスプレイ(NED)、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
【0031】
ソース分離
モノまたはステレオオーディオを含むビデオについて、オーディオ処理システムは、シーンにおける各オーディオソースについてのモノトラックを導出するために1つまたは複数のソース分離技法を適用する。
図1は、1つまたは複数の実施形態による、オーディオソース分離のための流れ
図100である。
図1では、オーディオ処理システムは、完全なオーディオ空間化(たとえば、モノまたはステレオオーディオ)を有しないビデオ105を取得する。したがって、オーディオ処理システムは、オーディオ成分110を視覚成分115から切り離し、この例では、1つまたは複数のソース分離120技法を使用して、オーディオ成分110内の音ソースを個々の音ソースにセグメント化する。一実施形態では、1つまたは複数のソース分離120技法は、当業者に知られている既存のソース分離技法である。たとえば、ソース分離方法は、ビデオ中の各オブジェクトについての潜在音表現を発見するために、注釈を付けられていないビデオの集合を活用し得る。特に、各ビデオ中に存在するオブジェクトを推論するために、画像認識ツールが使用され得、各ビデオのオーディオに関して、周波数基底ベクトルのそのセットを復元するために、非負行列因子分解(NMF)が実施され得る。この時点で、どのオーディオベース(audio base)がどの(1つまたは複数の)可視オブジェクトと結び付くかは知られていない。関連付けを復元するために、検出された視覚オブジェクトの分布にオーディオベースをマッピングする、マルチインスタンスマルチラベル学習(MIML)のためのニューラルネットワークが構築される。このオーディオベースオブジェクト関連付けネットワーク(audio basis-object association network)から、各視覚オブジェクトにリンクされたオーディオベースが抽出され、その原型スペクトルパターンをもたらす。最終的に、新規のビデオを仮定すれば、学習された、オブジェクトごとのオーディオベースが、オーディオソース分離を実施するために使用され得る。他のソース分離技法も使用され得る。
【0032】
再び
図1を参照すると、ビデオ105は、音楽を演奏する2人の個人を含む。一方の個人は、ギターを演奏しており、第1の音ソース120に対応し、他方の個人は、サクソフォンを演奏しており、第2の音ソース125に対応する。したがって、ビデオ105のオーディオ成分110から、1つまたは複数のソース分離120技法は、オーディオ成分110を、第1の音ソース120からの第1のオーディオ135と第2の音ソース125からの第2のオーディオ140とにセグメント化する。
【0033】
この時点で、第1のオーディオ135は、第1の音ソース125からのオーディオ、ならびにビデオ105の環境中の壁または他のオブジェクトから反射した第1の音ソース125からの音を含む。同様に、第2のオーディオ140は、第2の音ソース130からのオーディオ、ならびに環境中の壁および他のオブジェクトから反射した第2の音ソース120からの音を含む。この反射された音は残響と呼ばれる。環境のサイズ、床および壁の材料などに応じて、たとえば、反射される音の音響特性が大きく変動することがある。そのような記録がモノまたはステレオに混合されるとき、反射中に含まれている空間情報が崩れ、失われる。したがって、ソース分離120の後に、第1のオーディオ135および第2のオーディオ140は、依然として、反射された音エネルギーを含んでいるが、それらの反射に関する方向性情報を含んでいない。したがって、空間没入が乱され、分離されたソースは、現実的に3Dジオメトリ中に置かれ得ない。したがって、オーディオ処理システムは、第1の音ソース125および第2の音ソース130に関連する直接音成分を取得するために、第1のオーディオ135および第2のオーディオ140から残響を除去する。したがって、直接音成分は、音ソース(すなわち、信号の、直接音のみの成分)から直接発生し、いかなる残響をも含まない。一実施形態では、第1のオーディオ130および第2のオーディオ135から残響を除去することは、当業者に知られている既存の残響除去技法を利用する。たとえば、残響は、環境の数学的モデルを活用することと、環境の音響特性の推定の後に、元の信号についての推定を形成することとによって、消去され得る。別の例では、残響は、残響をある種の雑音として扱うことと、特に残響に適応される雑音除去プロセスを実施することとによって、抑圧され得る。別の例では、たとえば、深層ニューラルネットワーク機械学習手法、または代替的にマルチチャネル線形フィルタを使用して、元の残響除去(dereverberate)された信号が推定され得る。これらの手法のうちのいくつかでは、残響除去技法は線形予測に基づく。他の残響除去技法および手法も使用され得る。
【0034】
直接音成分は、次いで、3Dオーディオを生成するためにビデオ105の3Dローカルエリアに再空間化される。第1の音ソース120および第2の音ソース125の直接音成分を再空間化するために、オーディオ処理システムは、ビデオ105におけるローカルエリアの音響特性を取得する。ビデオ105におけるローカルエリアの音響特性は、ローカルエリアのジオメトリなど、ローカルエリアの視覚特徴を使用して、あるいはオーディオ成分110に関連する残響時間、音減衰、吸音、音拡散など、ローカルエリアのオーディオ特徴、または視覚特徴とオーディオ特徴の両方の組合せを分析することによって、推定され得る。
【0035】
ローカルエリアは、第1の音ソース120および第2の音ソース125の周囲の空間または環境であり、その空間または環境において、ギターおよびサクソフォンからの音が、反射し、残響し、または場合によっては伝搬し、ローカルエリアの空間特性および音響特性は、音がどのように空間内を移動し、したがって、空間内のユーザまたは個人にどのように「聞こえる」かに影響を及ぼす。したがって、ローカルエリアは、部屋、コンサートホール、教会など、密閉空間であり得るか、または、ローカルエリアは外であり得る。これらのローカルエリアの各々の特性と、それらのローカルエリア中のオブジェクトと、ローカルエリアにおけるおよびオブジェクトに対するユーザの位置とは、音がユーザによってどのように知覚されるかに影響を及ぼす。したがって、オーディオ処理システムは、ビデオに関連するローカルエリアの特性を取得し、ローカルエリアについてのこの情報が取得され得るいくつかのやり方がある。これらは、オーディオ処理システムが、1)ビデオ105の視覚成分115の視覚特徴を、マッピングサーバのデータベースに記憶された空間の特徴と比較することと、2)ローカルエリアの音響特性を取得するためにオーディオ成分110の残響を分析することと、3)ローカルエリアの音響特性を推定するためにビデオ105の視覚成分115を分析することと、4)ローカルエリアの音響特性を推定するために、残響を分析することと視覚成分115を分析することとの組合せとを行うことを含む。
【0036】
図2は、1つまたは複数の実施形態による、ローカルエリア空間特性を取得するための流れ
図200である。オーディオ処理システムは、この例では、ローカルエリアの視覚特徴を識別することと、それらの特徴を、音響特性および/または空間特性が知られている空間にマッピングされた特徴のデータベースと比較することとによって、オーディオをローカルエリアに空間化するための特性を取得する。この例では、ビデオ105の視覚成分115は、ビデオ105内のローカルエリアの視覚特徴205を識別するために分析される。視覚特徴205は、ある空間を別の空間と弁別する視覚特徴を区別しており、それらの視覚特徴は、家具、家具の配置、アートワーク、アートワークのロケーション、建築設計、カラーなどの組合せを含むことができる。オーディオ処理システムは、次いで、ローカルエリアのこれらの識別された視覚特徴205を、マッピングサーバ250のデータベースに記憶された現実世界空間の特徴と比較する210。マッピングサーバ250は、この実施形態では、マッピングサーバ250が、部屋/空間マッピング能力をもつヘッドセットを装着しているユーザからのクラウドソーシング音響データおよび/または空間データから受信する、空間の空間特性および/または音響特性を記憶する。マッピングサーバ250は、
図7に関してより詳細に説明される。したがって、ローカルエリアの視覚特徴205と、マッピングサーバ250のデータベースに記憶された現実世界空間の特徴との間のマッチを識別したこと215に応答して、オーディオ処理システムは、第1のオーディオ130および第2のオーディオ135の直接音成分を再空間化するために、その空間の音特性および/または空間特性を取得する220。様々な実施形態では、マッピングサーバ250250は、オーディオ処理システムとは別個であるか、またはオーディオ処理システムの一部である。
【0037】
図3は、1つまたは複数の実施形態による、ローカルエリア特性を取得するための流れ
図300である。オーディオ処理システムは、この例では、第1のオーディオ130および第2のオーディオ135についてのオーディオ成分110の残響を分析することによって、ローカルエリアの音響特性を取得する。一実施形態では、残響を分析すること305は、RT60推定または別の音響分析ツールを使用して残響時間減衰を計算することを含む。残響時間減衰を用いて、本システムは、ローカルエリアの特性をリバースエンジニアリングし、これらの特性を、第1のオーディオ130および第2のオーディオ135の直接音成分に適用することができる。ローカルエリアのこれらの特性を用いて、オーディオ処理システムは、残響の分析に基づいて決定されたローカルエリアについての特性を使用して直接音成分によりビデオについての3Dオーディオを生成するために、オーディオを再空間化する。
【0038】
図4は、1つまたは複数の実施形態による、ビデオからローカルエリア特性を推定するための流れ
図400である。本システムは、この例では、ビデオ105内で可視であるローカルエリアの特徴を識別する405ためにビデオ105の視覚成分115を分析することによって、ローカルエリアの特性を取得する。一実施形態では、ローカルエリア特性を推定するために使用される特徴は、
図2に関して上記で説明されたものと同じである。他の実施形態では、これらの特徴は、より詳細には、環境中の音に影響を及ぼすことになる特徴を対象とする。たとえば、これらの特徴は、ローカルエリアが屋内であるのか屋外であるのかを決定すること、ローカルエリアのサイズ(たとえば、部屋のジオメトリ、壁の厚み、廊下の輻輳点など)を推定すること、ローカルエリアにおける残響に影響を及ぼすことになるオブジェクト(たとえば、カーペット、硬材の床、空のボリューム、ローカルエリア中のオブジェクトなど)を識別することなどを行うために使用される、特徴を含むことができる。オーディオ処理システムがビデオ105において識別したこれらの特徴を用いて、オーディオ処理システムは、ローカルエリアの特性を推定する410。一実施形態では、オーディオ処理システムは、機械学習モデルを使用して、それらの対応する音響特性が知られているビデオにおける視覚特徴を相関させる。機械学習モデルはまた、オーディオ特徴(たとえば、残響時間、音減衰、吸音、音拡散など)を、知られている音響特性に相関させ得る。したがって、機械学習モデルは、ビデオにおける知られている環境の視覚特徴、およびいくつかの実施形態では、オーディオ特徴を、それらの音響特性にマッピングする。これは、オーディオ処理システムが、新しいビデオ(すなわち、システムに知られていないビデオ)からの視覚特徴および/またはオーディオ特徴に基づいて、その新しいビデオにおけるローカルエリアの音響特性を推定することを可能にする。
【0039】
音響特性を使用して、オーディオ処理システムは、第1のオーディオ135および第2のオーディオ140が、ビデオ105においてキャプチャされたローカルエリアの音響特性にマッチするように、第1の音ソース125および第2の音ソース130についてのローカルエリアインパルス応答を生成する。これは、ヘッドセットを通してビデオ105を観察するユーザが自身の頭部の向きを変えてギター奏者およびサクソフォン奏者から目をそらしたときでも、音が、ローカルエリアにおける第1の音ソース125および第2の音ソース130から発生しているかのように思われることを可能にする。
【0040】
その上、ローカルエリアインパルス応答はまた、部屋におけるユーザの位置、ならびに/またはローカルエリアにおけるおよびローカルエリアインパルス応答からのオーディオソースに対するユーザの位置をとり得る。これを達成するために、オーディオ処理システムは、部屋におけるユーザの位置および/またはオーディオソースに対するユーザの位置を考慮するための、頭部伝達関数(HRTF)を組み込み得る。HRTFは、ユーザの耳が空間中の点からどのように音を受信するかを特徴づける。HRTFは、その全体が参照により本明細書に組み込まれる、2019年4月22日に出願された米国特許出願第16/390,918号において詳細に説明されている。たとえば、本システムは、ユーザがビデオ内のどこを見ているかなど、ビデオ内でのユーザのパースペクティブに対応する、ユーザによって装着されるヘッドセットの位置および/または配向についてのデータを取得し得る。本システムは、次いで、ヘッドセットの位置または配向と、ビデオにおいてキャプチャされたローカルエリアの音特性または空間特性とに基づいて、各オーディオソースについてのローカルエリアインパルス応答を調整し得る。一実施形態では、これは、仮想シーン内の聴き手の位置および配向に基づいて、各空間室内インパルス応答を適切なモノトラックとともに対話式に畳み込むために、バイノーラル合成技法を利用することを含む。したがって、ユーザが自身の頭部の向きを変えてギター奏者およびサクソフォン奏者から目をそらすとき、音は、ヘッドセットを装着しているユーザによって、音がビデオ105におけるギター奏者およびサクソフォン奏者の方向から来ていると、知覚され続けることになる。
【0041】
オーディオ処理システム
図5は、1つまたは複数の実施形態による、オーディオ処理システム500のブロック図である。人工現実(たとえば、仮想現実、拡張現実など)の出現に伴って、古い動画を含むこれらのレガシービデオは、現在、ヘッドマウントディスプレイを装着しているユーザによって観察され得る。しかしながら、これらのより古い動画は、ステレオスピーカーまたはヘッドフォンのために最初に作り出された2Dオーディオを含み、したがって、完全なオーディオ空間化を含まない。したがって、オーディオ処理システムは、2Dレガシービデオについての3Dオーディオを生成するために、これらのレガシービデオを取得し、空間化された音響データを導出する。オーディオ処理システム500は、ソース分離モジュール505と、残響除去モジュール510と、ローカルエリア特性モジュール515と、3Dオーディオ生成モジュール530とを含む。ローカルエリア特性モジュール515は、さらに、オーディオ分析モジュール520と視覚成分分析モジュール525とを含む。他の実施形態では、オーディオ処理システム500は、任意の追加のモジュールとともにリストされたモジュールの任意の組合せを有することができる。
【0042】
ソース分離モジュール505は、各音ソースを識別し、切り離すために、ビデオのオーディオ成分を分析する。これは、1つまたは複数のソース分離技法を使用して、各音ソースについての別個のオーディオを作成するために音ソースをセグメント化することを含む。たとえば、ビデオが、2人の人々が会話するトークショーである場合、ソース分離モジュール505は、各人の対話を切り離すことになる。この時点で、各音ソースからのオーディオは、ビデオのローカルエリア中の壁または他のオブジェクトから反射した音を含む。反射した音は残響であり、残響をもつオーディオがモノまたはステレオオーディオに混合されるとき、反射中に含まれている空間情報が崩れ、失われる。
【0043】
残響除去モジュール510は、各音ソースについてのオーディオを受信し、各音ソースについての直接音成分を取得するためにオーディオから残響を除去する。直接音成分は、音ソースから直接発生し、いかなる残響をも含まない、音である。
【0044】
ローカルエリア特性モジュール515は、各オーディオソースを再空間化する際に使用するために、ビデオにおいてキャプチャされたローカルエリアの音響特性を取得する。上記で説明されたように、ローカルエリア特性モジュール515がローカルエリアの音響特性を取得し得るいくつかのやり方がある。この理由で、ローカルエリア特性モジュール515は、さらに、オーディオ分析モジュール520と視覚成分分析モジュール525とを含む。
【0045】
ローカルエリア特性モジュール515のオーディオ分析モジュール520は、ローカルエリアの音特性を取得するためにオーディオ成分の残響を分析する。一実施形態では、残響を分析することは、(たとえば、RT60推定などを使用して)残響時間減衰を計算することを含む。残響時間減衰を用いて、本システムは、ローカルエリアの音響特性をリバースエンジニアリングすることができる。したがって、ローカルエリア特性モジュール515は、ローカルエリアにおける残響をリバースエンジニアリングすることによってローカルエリアの音響特性を取得する。
【0046】
ローカルエリア特性モジュール515の視覚成分分析モジュール525は、一実施形態では、ビデオの視覚成分から視覚特徴を識別し、それらの視覚特徴を、
図7に関して説明されるマッピングサーバ250のデータベースに記憶された空間の特徴と比較する。ローカルエリアの視覚特徴とマッピングサーバ250のデータベースに記憶された空間の特徴との間のマッチを識別したことに応答して、ローカルエリア特性モジュールは、ビデオにおける各音ソースを再空間化する際に使用するための、空間の音響特性を取得する。したがって、この実施形態では、ローカルエリア特性モジュール515は、ローカルエリアの視覚特徴とマッピングサーバ250のデータベースに記憶された空間の特徴との間のマッチに基づいて、マッピングサーバからローカルエリアの音響特性を取得する。
【0047】
ローカルエリア特性モジュール515の視覚成分分析モジュール525は、別の実施形態では、ローカルエリアの音響特性を推定するためにビデオの視覚成分から視覚特徴を識別する。一実施形態では、ローカルエリア特性モジュール515は、機械学習モデルを使用して、ビデオにおける視覚特徴を、知られている音響特性と相関させる。機械学習モデルはまた、オーディオ特徴(たとえば、残響時間、音減衰、吸音、音拡散など)を、知られている音響特性に相関させ得る。したがって、機械学習モデルは、ビデオにおける知られている環境の視覚特徴、およびいくつかの実施形態では、オーディオ特徴を、それらの音響特性にマッピングする。これは、ローカルエリア特性モジュール515が、知られていないビデオからの視覚特徴および/またはオーディオ特徴に基づいて、そのビデオにおけるローカルエリアの音響特性を推定することを可能にする。したがって、この実施形態では、ローカルエリア特性モジュール515は、ビデオにおけるローカルエリアの視覚特徴に基づいて音響特性を推定することによって、ローカルエリアの音響特性を取得する。
【0048】
3Dオーディオ生成モジュール530は、3Dオーディオを生成するために、取得された音響特性を使用してレガシービデオからの各音ソースの直接音成分を再空間化する。音響特性を使用して、3Dオーディオ生成モジュール530は、各音ソースに関連する切り離されたオーディオが、ビデオにおいてキャプチャされたローカルエリアの音響特性にマッチするように、各音ソースについてのローカルエリアインパルス応答を生成する。これは、音が、ローカルエリアにおける音のそれぞれのソースから発生しているかのように思われることを可能にする。
【0049】
レガシーオーディオビジュアルメディアからの空間化された音響データを導出するための方法
図6は、1つまたは複数の実施形態による、レガシーオーディオビジュアルメディアからの空間化された音響データを導出するためのプロセス600を示すフローチャートである。
図6のプロセス600は、装置の構成要素、たとえば、マッピングサーバ250オーディオ処理システム500によって実施され得る。他の実施形態では、他のエンティティ(たとえば、ヘッドセット800または805の構成要素、
図7のマッピングサーバ250、および/あるいは
図11に示されている構成要素)が、プロセスのいくつかまたはすべてのステップを実施し得る。同様に、実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
【0050】
オーディオ処理システム500は、視覚成分とオーディオ成分とを含むビデオを取得する605。オーディオ成分は、ビデオにおける第1の音ソースおよび第2の音ソースよって生成される。オーディオ成分は、モノまたはステレオオーディオについて最初に混合されたフラットな2次元オーディオであり、いかなる空間化をも含まない。
【0051】
オーディオ処理システム500は、オーディオ成分を、第1の音ソースについての第1のオーディオと第2の音ソースについての第2のオーディオとにセグメント化する610。セグメント化は、ビデオ内の各個々の音ソースのオーディオを切り離す。各個々の音ソースの切り離されたオーディオは、依然として、各個々の音ソースに関連する音反射を含んでいる。
【0052】
オーディオ処理システム500は、音反射がない、第1のオーディオおよび第2のオーディオの直接音成分を取得するために、第1のオーディオおよび第2のオーディオから残響を除去する615。
【0053】
オーディオ処理システム500は、ローカルエリアの音響特性を取得する620。上記で説明されたように、オーディオ処理システム500が音響特性を取得する620、いくつかの方法があり、これらは、1)ビデオの視覚成分の視覚特徴を、マッピングサーバのデータベースに記憶された空間の特徴と比較することと、2)ローカルエリアの音響特性を取得するためにオーディオ成分の残響を分析することと、3)ローカルエリアの音響特性を推定するためにビデオの視覚成分を分析することと、4)ローカルエリアの音響特性を推定するために、残響を分析することと視覚成分を分析することとの組合せとを行うことを含む。
【0054】
オーディオ処理システム500は、ローカルエリアの音響特性を使用して第1のオーディオおよび第2のオーディオの直接音成分によりビデオについての3Dオーディオを生成する625。これは、オーディオの空間特性が、ビデオにおいてキャプチャされたローカルエリアの音特性および/または空間特性にマッチするように、各オーディオソースについてのローカルエリアインパルス応答を生成することを含む。これは、音が、ローカルエリアにおける実際のソースの各々から発生しているかのように思われることを可能にする。
【0055】
物理的空間の仮想モデルを記憶するマッピングサーバ
図7は、1つまたは複数の実施形態による、マッピングサーバ250のブロック図である。マッピングサーバ250は、3Dオーディオの生成を容易にする。マッピングサーバ250は、マッピングサーバ250が、部屋/空間マッピング能力をもつヘッドセットを装着しているユーザからのクラウドソーシング音響データおよび/または空間データから受信する、空間の音響特性を記憶する。マッピングサーバ250は、複数の空間とそれらの空間の音響特性とを表す仮想モデルを記憶する、データベースを含む。この機能性を容易にするために、マッピングサーバ250は、いくつかのヘッドセットからネットワークを介して、多くの異なるロケーションに位置する多くの部屋の少なくとも一部分を表す視覚情報を受信する。マッピングサーバ250は、受信された視覚情報および/またはロケーション情報に基づいて、空間(たとえば、ローカルエリア)の現在の構成に関連する仮想モデル中のロケーションを決定する。マッピングサーバ250は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連する任意の音響特性に部分的に基づいて、空間の現在の構成に関連する音響特性のセットを決定する(たとえば、取り出す)。マッピングサーバ250は、オーディオ処理システム500において3Dオーディオコンテンツを生成するために、音響特性のセットに関する情報をオーディオ処理システム500に(たとえば、ネットワークを介して)提供し得る。いくつかの実施形態では、マッピングサーバ250の構成要素のうちのいくつかが、ワイヤード接続を介してヘッドセットに接続された別のデバイス(たとえば、コンソール)と統合され得る(
図6に図示せず)。マッピングサーバ250の動作および構成要素に関する追加の詳細は、
図7および
図10に関して以下で説明される。
【0056】
マッピングサーバ250は、仮想モデルデータベース705と、通信モジュール710と、マッピングモジュール715と、音響分析モジュール720とを含む。他の実施形態では、マッピングサーバ250は、任意の追加のモジュールとともにリストされたモジュールの任意の組合せを有することができる。いくつかの他の実施形態では、マッピングサーバ250は、
図7に示されているモジュールの機能を組み合わせる1つまたは複数のモジュールを含む。マッピングサーバ250のプロセッサ(
図7に図示せず)が、仮想モデルデータベース705、通信モジュール710、マッピングモジュール715、音響分析モジュール720、1つまたは複数の他のモジュール、あるいは
図7に示されているモジュールの機能を組み合わせるモジュールのうちのいくつかまたはすべてを稼働し得る。
【0057】
仮想モデルデータベース705は、複数の物理的空間とそれらの物理的空間の音響特性とを表す仮想モデルを記憶する。仮想モデル中の各ロケーションは、固有の音響条件に関連する特定の構成を有するローカルエリア内の、1つまたは複数のヘッドセットによってマッピングされた物理的ロケーションに対応する。固有の音響条件は、音響特性の固有のセットで表現される、音響特性の固有のセットを有するローカルエリアの条件を表現する。仮想モデル中の各ロケーションは、ローカルエリアの1つの構成を表現する、対応する物理的空間についての音響特性のセットに関連する。音響特性のセットは、ローカルエリアのその1つの特定の構成の様々な音響特性を表す。音響特性が仮想モデルにおいて表わされる物理的空間は、限定はしないが、会議室、浴室、廊下、オフィス、ベッドルーム、ダイニングルーム、およびリビングルームを含む。いくつかの実施形態では、物理的空間は、いくつかの外の空間(たとえば、パティオ、庭園など)または様々な中の空間と外の空間との組合せであり得る。
【0058】
通信モジュール710は、ネットワークを介してヘッドセットと通信するモジュールである。通信モジュール710は、ヘッドセットから、ヘッドセットが観測するローカルエリアの少なくとも一部分を表す視覚情報を受信する。1つまたは複数の実施形態では、視覚情報は、ローカルエリアの少なくとも一部分についての画像データを含む。たとえば、通信モジュール710は、空間の壁、床および天井の表面など、ローカルエリアの表面によって定義されたローカルエリアの形状に関する情報とともにヘッドセットの深度カメラアセンブリ(DCA)によってキャプチャされた深度画像データを受信する。通信モジュール710は、ヘッドセットのパッシブカメラアセンブリ(PCA)によってキャプチャされたカラー画像データをも受信し得る。マッピングサーバ250は、異なる音響材料をローカルエリアの表面に関連付けるために、カラー画像データを使用し得る。通信モジュール710は、ヘッドセットから受信された視覚情報(たとえば、深度画像データおよびカラー画像データ)をマッピングモジュール715に提供し得る。
【0059】
マッピングモジュール715は、ヘッドセットから受信された視覚情報を仮想モデルのロケーションにマッピングする。マッピングモジュール715は、ヘッドセット710が位置する現在の物理的空間、すなわち、ローカルエリアの現在の構成に対応する仮想モデルのロケーションを決定する。マッピングモジュール715は、(i)少なくとも、たとえば、物理的空間の表面のジオメトリに関する情報と表面の音響材料に関する情報とを含む視覚情報と、(ii)仮想モデル内の物理的空間の対応する構成との間のマッピングを見つけるために、仮想モデルにわたって検索する。マッピングは、受信された視覚情報のジオメトリおよび/または音響材料情報を、仮想モデル内の物理的空間の構成の一部として記憶されたジオメトリおよび/または音響材料情報にマッチさせることによって、実施される。仮想モデル内の物理的空間の対応する構成は、ヘッドセットが現在位置する物理的空間のモデルに対応する。マッチングが見つけられない場合、これは、物理的空間の現在の構成が仮想モデル内でまだモデル化されていないという指示である。そのような場合、マッピングモジュール715は、音響分析モジュール720に、マッチングが見つけられないことを通知し得、音響分析モジュール720は、受信された視覚情報に少なくとも部分的に基づいて音響特性のセットを決定する。
【0060】
音響分析モジュール720は、マッピングモジュール715から取得された仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連する仮想モデルにおける任意の音響特性に部分的に基づいて、ヘッドセットの物理的ロケーションに関連する音響特性のセットを決定する。いくつかの実施形態では、音響分析モジュール720は、音響特性のセットが、特定の空間構成に関連する仮想モデル中の決定されたロケーションにおいて記憶されるので、仮想モデルから音響特性のセットを取り出す。いくつかの他の実施形態では、音響分析モジュール720は、ヘッドセットから受信された視覚情報に少なくとも部分的に基づいて、仮想モデルにおける特定の空間構成についての音響特性の前に決定されたセットを調整することによって、音響特性のセットを決定する。たとえば、音響分析モジュール720は、音響特性のセットを決定するために、受信された視覚情報を使用して音響シミュレーションをオフラインで稼働し得る。
【0061】
いくつかの実施形態では、音響分析モジュール720は、空間的に依存するあらかじめ算出された音響特性(たとえば、空間的に依存する残響時間、空間的に依存する直接対残響比など)を生成するために、音響シミュレーションを実施し得る。空間的に依存するあらかじめ算出された音響特性は、仮想モデルデータベース705における仮想モデルの適切なロケーションに記憶され得る。音響分析モジュール720は、物理的空間のジオメトリおよび/または音響材料が変化したときはいつでも、あらかじめ算出された音響特性を使用して、空間的に依存する音響特性を再算出し得る。音響分析モジュール720は、音響シミュレーションのために、限定はしないが、部屋のジオメトリに関する情報、音響材料のプロパティ推定、および/または人間の占有レベル(たとえば、空、部分的に一杯、一杯)に関する情報など、様々な入力を使用し得る。音響特性は、様々な占有レベル、および部屋の様々な状態(たとえば開いた窓、閉じられた窓、開いたカーテン、閉じられたカーテンなど)について、シミュレートされ得る。部屋の状態が変化した場合、マッピングサーバ250は、ユーザにオーディオコンテンツを提示するための音響特性の適切なセットを決定し、ヘッドセットに通信し得る。そうではなく、音響特性の適切なセットが利用可能でない場合、マッピングサーバ250は(たとえば、音響分析モジュール720を介して)、(たとえば、音響シミュレーションを介して)音響特性の新しいセットを計算し、音響特性の新しいセットをヘッドセットに通信することになる。
【0062】
いくつかの実施形態では、マッピングサーバ250は、ローカルエリアの所与の構成についての完全な(測定されたかまたはシミュレートされた)室内インパルス応答を記憶する。たとえば、ローカルエリアの構成は、ヘッドセットの特定の空間配列および音ソースに基づき得る。マッピングサーバ250は、室内インパルス応答を、ネットワーク送信の定義された帯域幅(たとえば、ネットワーク720の帯域幅)に好適な音響特性のセットに低減し得る。完全なインパルス応答のパラメータ化されたバージョンを表現する音響特性のセットが、たとえば、仮想モデルデータベース705に仮想モードの一部として記憶されるか、またはマッピングサーバ250の別個の非一時的コンピュータ可読記憶媒体(
図7に図示せず)に記憶され得る。マッピングサーバ250およびその機能性は、その全体が参照により組み込まれる、2019年3月27日に出願された米国特許出願第16/366,484号においてさらに説明されている。
【0063】
例示的なヘッドセット
図8Aは、1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット800の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット800は、コンテンツ(たとえば、メディアコンテンツ)が、ディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット800はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット800によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット800は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素820を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、オーディオシステムと、位置センサー890とを含み得る。
図8Aは、ヘッドセット800上の例示的なロケーションにおけるヘッドセット800の構成要素を示すが、構成要素は、ヘッドセット800上の他の場所に、ヘッドセット800とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。同様に、
図8Aに示されているものよりも多いまたは少ない構成要素がヘッドセット800上にあり得る。
【0064】
フレーム810は、ヘッドセット800の他の構成要素を保持する。フレーム810は、1つまたは複数のディスプレイ要素820を保持する前面部と、ユーザの頭部に付けるためのエンドピース(たとえば、テンプル)とを含む。フレーム810の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能(たとえば、調整可能なテンプルの長さ)であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分(たとえば、テンプルの先端、イヤピース)を含み得る。
【0065】
1つまたは複数のディスプレイ要素820は、ヘッドセット800を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素820を含む。いくつかの実施形態では、ディスプレイ要素820は、ヘッドセット800のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット800を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素820は導波路ディスプレイであり得る。導波路ディスプレイは、光ソース(たとえば、2次元光ソース、1つまたは複数の線ソース、1つまたは複数の点ソースなど)と、1つまたは複数の導波路とを含む。光ソースからの光は、1つまたは複数の導波路中に内部結合され(in-coupled)、1つまたは複数の導波路は、ヘッドセット800のアイボックス中に瞳複製(pupil replication)があるような様式で光を出力する。1つまたは複数の導波路からの光の内部結合(in-coupling)および/または外部結合(outcoupling)が、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光ソースからの光が1つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素820の一方または両方が不透明であり、ヘッドセット800の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット800の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット800を装着しているユーザが中にいる部屋であり得、または、ヘッドセット800を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット800はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARおよび/またはMRコンテンツを作り出すために、ローカルエリアからの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素820の一方または両方は少なくとも部分的に透明である。
【0066】
いくつかの実施形態では、ディスプレイ要素820は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素820の一方または両方は、補正なしのレンズ(非処方)であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。いくつかの実施形態では、ディスプレイ要素820は、太陽からユーザの眼を保護するために、偏光および/または色付けされ得る。
【0067】
いくつかの実施形態では、ディスプレイ要素820は追加の光学ブロック(図示せず)を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素820からの光をアイボックスに向ける1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。
【0068】
DCAは、ヘッドセット800の周囲のローカルエリアの一部分についての深度情報を決定する。DCAは、1つまたは複数のイメージングデバイス830と、DCAコントローラ(
図8Aに図示せず)とを含み、照明器840をも含み得る。いくつかの実施形態では、照明器840は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線(IR)における構造化光(たとえば、ドットパターン、バーなど)、飛行時間についてのIRフラッシュなどであり得る。いくつかの実施形態では、1つまたは複数のイメージングデバイス830は、照明器840からの光を含むローカルエリアの一部分の画像をキャプチャする。図示のように、
図8Aは、単一の照明器840と2つのイメージングデバイス830とを示す。代替実施形態では、照明器840がなく、少なくとも2つのイメージングデバイス830がある。
【0069】
DCAコントローラは、キャプチャされた画像と1つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析(照明器840からの光によってシーンに追加されたテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
【0070】
オーディオシステムはオーディオコンテンツを提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、オーディオコントローラ850とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。
【0071】
トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー860または組織トランスデューサ870(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー860はフレーム810の外部に示されているが、スピーカー860はフレーム810に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット800は、提示されたオーディオコンテンツの方向性を改善するためにフレーム810に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ870は、ユーザの頭部に結合し、ユーザの組織(たとえば、骨または軟骨)を直接振動させて、音を生成する。トランスデューサの数および/またはロケーションは、
図8Aに示されているものとは異なり得る。
【0072】
センサーアレイは、ヘッドセット800のローカルエリア内の音を検出する。センサーアレイは、複数の音響センサー880を含む。音響センサー880は、ローカルエリア(たとえば、部屋)における1つまたは複数の音ソースから発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサー880は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。
【0073】
いくつかの実施形態では、1つまたは複数の音響センサー880は、各耳の耳道中に置かれ得る(たとえば、バイノーラルマイクロフォンとして働く)。いくつかの実施形態では、音響センサー880は、ヘッドセット800の外面上に置かれるか、ヘッドセット800の内面上に置かれるか、ヘッドセット800とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。音響センサー880の数および/またはロケーションは、
図8Aに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および/または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット800を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。
【0074】
オーディオコントローラ850は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。オーディオコントローラ850は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ850は、到来方向(DOA)推定値を生成するか、音響伝達関数(たとえば、アレイ伝達関数および/または頭部伝達関数)を生成するか、音ソースのロケーションを追跡するか、音ソースの方向にビームを形成するか、音ソースを分類するか、スピーカー860のための音フィルタを生成するか、またはそれらの何らかの組合せを行うように構成され得る。
【0075】
位置センサー890は、ヘッドセット800の運動に応答して1つまたは複数の測定信号を生成する。位置センサー890は、ヘッドセット800のフレーム810の一部分に位置し得る。位置センサー890は、慣性測定ユニット(IMU)を含み得る。位置センサー890の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー890は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
【0076】
いくつかの実施形態では、ヘッドセット800は、ヘッドセット800の位置のための同時位置特定およびマッピング(SLAM)と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット800は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、ローカルエリアの一部または全部の画像をキャプチャする1つまたは複数のRGBカメラを含み得る。いくつかの実施形態では、DCAのイメージングデバイス830の一部または全部が、PCAとしても機能し得る。PCAによってキャプチャされた画像と、DCAによって決定された深度情報とは、ローカルエリアのパラメータを決定するか、ローカルエリアのモデルを生成するか、ローカルエリアのモデルを更新するか、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー890は、部屋内のヘッドセット800の位置(たとえば、ロケーションおよび姿勢)を追跡する。ヘッドセット800の構成要素に関する追加の詳細は、
図9~
図11に関して以下で説明される。
【0077】
図8Bは、1つまたは複数の実施形態による、HMDとして実装されるヘッドセット805の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は、可視帯域(約380nm~750nm)内で少なくとも部分的に透明であり、HMDの前側とユーザの眼との間にあるHMDの部分は、少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは、前面剛体815とバンド875とを含む。ヘッドセット805は、
図8Aを参照しながら上記で説明された同じ構成要素の多くを含むが、HMDフォームファクタと一体化するように修正される。たとえば、HMDは、ディスプレイアセンブリと、DCAと、オーディオシステムと、位置センサー890とを含む。
図8Bは、照明器840と、複数のスピーカー860と、複数のイメージングデバイス830と、複数の音響センサー880と、位置センサー890とを示す。
【0078】
ヘッドセットオーディオシステム
図9は、1つまたは複数の実施形態による、オーディオシステム900のブロック図である。
図8Aまたは
図8B中のオーディオシステムは、オーディオシステム900の一実施形態であり得る。オーディオシステム900は、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム900は、次いで、ユーザのためのオーディオコンテンツを生成するために1つまたは複数の音響伝達関数を使用し得る。
図9の実施形態では、オーディオシステム900は、トランスデューサアレイ910と、センサーアレイ920と、オーディオコントローラ930とを含む。オーディオシステム900のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
【0079】
トランスデューサアレイ910は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ910は、複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー(たとえば、スピーカー860)、組織トランスデューサ(たとえば、組織トランスデューサ870)、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ910は、空気伝導を介して(たとえば、1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導オーディオシステムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ910は、周波数範囲の異なる部分をカバーするための1つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
【0080】
骨伝導トランスデューサは、ユーザの頭部における骨/組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ930から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。
【0081】
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の1つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか(たとえば、耳介、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)に位置し得る。耳介軟骨の1つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。
【0082】
トランスデューサアレイ910は、オーディオコントローラ930からの命令に従ってオーディオコンテンツを生成する。いくつかの実施形態では、オーディオコンテンツが空間化される。空間化されたオーディオコンテンツは、特定の方向および/またはターゲット領域(たとえば、ローカルエリア中のオブジェクトおよび/または仮想オブジェクト)から発生するように思われるオーディオコンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム900のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ910は、ウェアラブルデバイス(たとえば、ヘッドセット800またはヘッドセット805)に結合され得る。代替実施形態では、トランスデューサアレイ910は、ウェアラブルデバイスとは別個である(たとえば、外部コンソールに結合された)複数のスピーカーであり得る。
【0083】
センサーアレイ920は、センサーアレイ920の周囲のローカルエリア内の音を検出する。センサーアレイ920は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえば、ヘッドセット800および/またはヘッドセット805)上に、ユーザ上に(たとえば、ユーザの耳道中に)、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ920は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ910によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ910によって作り出された音場および/またはローカルエリアからの音を表す情報(たとえば、方向性)の精度を改善し得る。
【0084】
オーディオコントローラ930は、オーディオシステム900の動作を制御する。
図9の実施形態では、オーディオコントローラ930は、データストア935と、DOA推定モジュール940と、伝達関数モジュール950と、追跡モジュール960と、ビームフォーミングモジュール970と、音フィルタモジュール980とを含む。オーディオコントローラ930は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ930のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。
【0085】
データストア935は、オーディオシステム900による使用のためのデータを記憶する。データストア935中のデータは、オーディオシステム900のローカルエリアにおいて録音された音、オーディオコンテンツ、頭部伝達関数(HRTF)、1つまたは複数のセンサーのための伝達関数、音響センサーのうちの1つまたは複数のためのアレイ伝達関数(ATF)、音ソースロケーション、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、およびオーディオシステム900による使用のために関連する他のデータ、またはそれらの任意の組合せを含み得る。
【0086】
DOA推定モジュール940は、センサーアレイ920からの情報に部分的に基づいて、ローカルエリアにおける音ソースの位置を特定するように構成される。位置特定は、オーディオシステム900のユーザに対して音ソースがどこに位置するかを決定するプロセスである。DOA推定モジュール940は、ローカルエリア内の1つまたは複数の音ソースの位置を特定するためにDOA分析を実施する。DOA分析は、音が発生した方向を決定するために、センサーアレイ920において、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、オーディオシステム900が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
【0087】
たとえば、DOA分析は、センサーアレイ920から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、DOAを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数ドメインに変換し、処理すべき時間周波数(TF)ドメイン内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ920が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
【0088】
いくつかの実施形態では、DOA推定モジュール940は、ローカルエリア内のオーディオシステム900の絶対位置に関するDOAをも決定し得る。センサーアレイ920の位置は、外部システム(たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー(たとえば、位置センサー890)などの何らかの他の構成要素)から受信され得る。外部システムは、ローカルエリアとオーディオシステム900の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム900の一部または全部の(たとえば、センサーアレイ920の)ロケーションおよび/または配向を含み得る。DOA推定モジュール940は、受信された位置情報に基づいて、推定されたDOAを更新し得る。
【0089】
伝達関数モジュール950は、1つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール950は、オーディオシステムに関連する1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォンが空間中の点からどのように音を受信するかを特徴づける。
【0090】
ATFは、音の音とセンサーアレイ920中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音ソースについて、センサーアレイ920中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはATFと呼ばれる。したがって、各音ソースについて、対応するATFがある。音ソースは、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ910の1つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ920に対する特定の音ソースロケーションについてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、センサーアレイ920のATFは、オーディオシステム900の各ユーザのために個人化される。
【0091】
いくつかの実施形態では、伝達関数モジュール950は、オーディオシステム900のユーザのための1つまたは複数のHRTFを決定する。HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳の形状、肩など)により、人の各耳に固有である(および人に固有である)。いくつかの実施形態では、伝達関数モジュール950は、較正プロセスを使用してユーザのためのHRTFを決定し得る。いくつかの実施形態では、伝達関数モジュール950は、ユーザに関する情報をリモートシステムに提供し得る。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたHRTFのセットを決定し、HRTFのカスタマイズされたセットをオーディオシステム900に提供する。
【0092】
追跡モジュール960は、1つまたは複数の音ソースのロケーションを追跡するように構成される。追跡モジュール960は、現在のDOA推定値を比較し、それらを、前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム900は、1秒当たり1回、または1ミリ秒当たり1回など、周期的スケジュールでDOA推定値を再計算し得る。追跡モジュールは、現在のDOA推定値を前のDOA推定値と比較し得、音ソースについてのDOA推定値の変化に応答して、追跡モジュール960は、音ソースが移動したと決定し得る。いくつかの実施形態では、追跡モジュール960は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール960は、経時的に1つまたは複数の音ソースの移動を追跡し得る。追跡モジュール960は、各時点において音ソースの数と各音ソースのロケーションとについての値を記憶し得る。音ソースの数またはロケーションの値の変化に応答して、追跡モジュール960は、音ソースが移動したと決定し得る。追跡モジュール960は、位置特定分散(localization variance)の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。
【0093】
ビームフォーミングモジュール970は、あるエリア内の音ソースからの音を選択的に強調するが、他のエリアからの音を強調しないように、1つまたは複数のATFを処理するように構成される。センサーアレイ920によって検出された音を分析する際に、ビームフォーミングモジュール970は、ローカルエリアの特定の領域からの関連する音を強調するが、領域の外側からのものである音を強調しないために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール970は、たとえば、DOA推定モジュール940および追跡モジュール960からの異なるDOA推定値に基づいて、ローカルエリアにおける他の音ソースから、特定の音ソースからの音に関連するオーディオ信号を切り離し得る。したがって、ビームフォーミングモジュール970は、ローカルエリアにおける個別の音ソースを選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール970は、音ソースからの信号を拡張し得る。たとえば、ビームフォーミングモジュール970は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を排除する、音フィルタを適用し得る。信号拡張は、センサーアレイ920によって検出された他の音に対して所与の識別された音ソースに関連する音を拡張するように働く。
【0094】
音フィルタモジュール980は、トランスデューサアレイ910のための音フィルタを決定する。いくつかの実施形態では、音フィルタは、オーディオコンテンツがターゲット領域から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。音フィルタモジュール980は、音フィルタを生成するためにHRTFおよび/または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響プロパティを表す。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール980は、音響パラメータのうちの1つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール980は、(たとえば、
図7において説明されたように)マッピングサーバに音響パラメータを要求する。
【0095】
音フィルタモジュール980は、トランスデューサアレイ910に音フィルタを提供する。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を引き起こし得る。
【0096】
システム環境
図10は、1つまたは複数の実施形態による、ヘッドセット1010と、マッピングサーバ250と、オーディオ処理システム500とを含むシステム環境1000のブロック図である。システム1000は、ユーザ1015によって装着され得るヘッドセット1010を含む。ヘッドセット1010は、ネットワーク1020を介してマッピングサーバ250とオーディオ処理システム500とに接続される。いくつかの実施形態では、オーディオ処理システム500は、マッピングサーバ250の一部であり、またはその逆も同様である。
【0097】
ネットワーク1020は、ヘッドセット1010と、マッピングサーバ250と、オーディオ処理システム500とを接続する。ネットワーク1020は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク1020は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク1020は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク1020は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI Expressアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク1020上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク1020を介して交換されるデータは、2進形式(たとえばポータブルネットワークグラフィックス(PNG))の画像データ、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などを含む、技術および/またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。ネットワーク1020はまた、同じまたは異なる部屋中に位置する複数のヘッドセットを、同じマッピングサーバ250およびオーディオ処理システム500に接続し得る。
【0098】
ヘッドセット1010は、ユーザにメディアを提示する。一実施形態では、ヘッドセット1010は、
図8Aに示されているヘッドセット800など、NEDであり得る。別の実施形態では、ヘッドセット1010は、
図8Bに示されているヘッドセット805など、HMDであり得る。概して、ヘッドセット1010は、ヘッドセットの一方または両方のレンズを使用してコンテンツ(たとえば、メディアコンテンツ)が提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット1010はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット1010によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。
【0099】
オーディオ処理システム500は、レガシービデオから3Dオーディオを生成する。レガシービデオは、ヘッドセット1010を介してユーザ1015に提示され得、ユーザ1015は、3D空間化されたオーディオをもつビデオを観察することができる。オーディオ処理システム500は、ネットワーク1020を介してまたは別のエンティティを通して、ヘッドセット1010に直接、3D空間化されたオーディオを提供し得る。
【0100】
図11は、1つまたは複数の実施形態による、ヘッドセット1010のシステム1100である。システム1100は、人工現実環境、たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せにおいて動作し得る。
図11によって示されているシステム1100は、ヘッドセット1010と、マッピングサーバ250と、コンソール1155に結合された入出力(I/O)インターフェース1150とを含む。
図11は、1つのヘッドセット1010と1つのI/Oインターフェース1150とを含む例示的なシステム1100を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム1100中に含まれ得る。たとえば、各々が、関連するI/Oインターフェース1150を有する、複数のヘッドセット1010があり得、各ヘッドセット1010およびI/Oインターフェース1150はコンソール1155と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム1100中に含まれ得る。さらに、
図11に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、
図11に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール1155の機能性の一部または全部がヘッドセット1010によって提供され得る。
【0101】
ヘッドセット1010は、レンズ1112と、光学ブロック1105と、1つまたは複数の位置センサー1115と、DCA1120と、慣性測定ユニット(IMU)1110と、PCA1140と、オーディオシステム1145とを含む。ヘッドセット1010のいくつかの実施形態は、
図11に関して説明されるものとは異なる構成要素を有する。さらに、
図11に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット1010の構成要素の間で別様に分散されるか、またはヘッドセット1010からリモートにある別個のアセンブリにおいて取り込まれ得る。
【0102】
レンズ1112は、コンソール1155から受信されたデータに従ってユーザに2D画像または3D画像を表示する電子ディスプレイを含み得る。様々な実施形態では、レンズ1112は、単一の電子ディスプレイまたは複数の電子ディスプレイ(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイの例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。
【0103】
光学ブロック1105は、電子ディスプレイから受光された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット1010のユーザに提示する。様々な実施形態では、光学ブロック1105は、1つまたは複数の光学要素を含む。光学ブロック1105中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック1105は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック1105中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
【0104】
光学ブロック1105による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約90度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは除去することによって調整され得る。
【0105】
いくつかの実施形態では、光学ブロック1105は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック1105が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック1105はそのひずみを補正する。
【0106】
IMU1110は、位置センサー1115のうちの1つまたは複数から受信された測定信号に基づいて、ヘッドセット1010の位置を指示するデータを生成する電子デバイスである。位置センサー1040は、ヘッドセット1010の運動に応答して1つまたは複数の測定信号を生成する。位置センサー1115の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMU1110の誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー1115は、IMU1110の外部に、IMU1110の内部に、またはそれらの何らかの組合せで位置し得る。
【0107】
DCA1120は、部屋など、ローカルエリアの深度画像データを生成する。深度画像データは、イメージングデバイスからの距離を定義するピクセル値を含み、したがって、深度画像データにおいてキャプチャされたロケーションの(たとえば、3D)マッピングを提供する。DCA1120は、光プロジェクタ1125と、1つまたは複数のイメージングデバイス1130と、コントローラ1135とを含む。光プロジェクタ1125は、深度画像データを生成するために、ローカルエリア中のオブジェクトから反射され、イメージングデバイス625によってキャプチャされた、構造化光パターンまたは他の光を投影し得る。
【0108】
たとえば、光プロジェクタ1125は、異なるタイプの複数の構造化光(SL)要素(たとえばライン、グリッド、またはドット)をヘッドセット1010の周囲のローカルエリアの一部分上に投影し得る。様々な実施形態では、光プロジェクタ1125は、エミッタとパターンプレートとを備える。エミッタは、光(たとえば、赤外光)でパターンプレートを照明するように構成される。照明されたパターンプレートは、複数のSL要素を含むSLパターンをローカルエリアに投影する。たとえば、照明されたパターンプレートによって投影されるSL要素の各々は、パターンプレート上の特定のロケーションに関連するドットである。
【0109】
DCA1120によって投影される各SL要素は、電磁スペクトルの赤外光部分における光を含む。いくつかの実施形態では、照明ソースは、人間に見えないように赤外光でパターンプレートを照明するように構成されたレーザーである。いくつかの実施形態では、照明ソースはパルス化され得る。いくつかの実施形態では、照明ソースは、可視であり、その光が眼に見えないように、パルス化され得る。
【0110】
DCA1120によってローカルエリアに投影されるSLパターンは、SLパターンがローカルエリア中の様々な表面およびオブジェクトに遭遇するとき、変形する。1つまたは複数のイメージングデバイス1130は、各々、ローカルエリアの1つまたは複数の画像をキャプチャするように構成される。キャプチャされた1つまたは複数の画像の各々は、光プロジェクタ1125によって投影され、ローカルエリア中のオブジェクトによって反射される、複数のSL要素(たとえば、ドット)を含み得る。1つまたは複数のイメージングデバイス1130の各々は、検出器アレイ、カメラ、またはビデオカメラであり得る。
【0111】
コントローラ1135は、イメージングデバイス625によってキャプチャされた光に基づいて深度画像データを生成する。コントローラ1135は、さらに、コンソール1155、オーディオコントローラ1020、または何らかの他の構成要素に深度画像データを提供し得る。
【0112】
PCA1140は、カラー(たとえば、RGB)画像データを生成する1つまたは複数のパッシブカメラを含む。アクティブ光放出および反射を使用するDCA1120とは異なり、PCA1140は、画像データを生成するためにローカルエリアの環境から光をキャプチャする。ピクセル値がイメージングデバイスからの深度または距離を定義するのではなく、画像データのピクセル値は、イメージングデータにおいてキャプチャされたオブジェクトの可視カラーを定義し得る。いくつかの実施形態では、PCA1140は、パッシブイメージングデバイスによってキャプチャされた光に基づいてカラー画像データを生成するコントローラを含む。いくつかの実施形態では、DCA1120とPCA1140とは共通コントローラを共有する。たとえば、共通コントローラは、可視スペクトル(たとえば、画像データ)においておよび赤外線スペクトル(たとえば、深度画像データ)においてキャプチャされた1つまたは複数の画像の各々を互いにマッピングし得る。1つまたは複数の実施形態では、共通コントローラは、追加または代替として、オーディオコントローラ1020またはコンソール1155にローカルエリアの1つまたは複数の画像を提供するように構成される。
【0113】
オーディオシステム900は、ヘッドセット1010が位置するローカルエリアの音響プロパティを表現する音響特性のセットを使用して、ヘッドセット1010のユーザにオーディオコンテンツを提示する。オーディオシステム900は、オーディオコンテンツを、ローカルエリア内のオブジェクト(たとえば、仮想オブジェクトまたは現実オブジェクト)から発生すると思われるように提示する。オーディオシステム900は、ローカルエリアの少なくとも一部分を表す情報を取得し得る。オーディオシステム900は、マッピングサーバ250における音響特性のセットの決定のためにその情報をマッピングサーバ250に通信し得る。オーディオシステム900はまた、マッピングサーバ250から音響特性のセットを受信し得る。
【0114】
いくつかの実施形態では、オーディオシステム900は、ローカルエリアの音響条件の変化がしきい値変化を上回ることに応答して、音響特性のセットを、ローカルエリアの特定の構成についての再構築されたインパルス応答を表現する音響特性の調整されたセットに選択的に外挿する。オーディオシステム900は、再構築されたインパルス応答に少なくとも部分的に基づいて、ヘッドセット1010のユーザにオーディオコンテンツを提示し得る。
【0115】
いくつかの実施形態では、オーディオシステム900は、ローカルエリアにおける音を監視し、対応するオーディオストリームを生成する。オーディオシステム900は、オーディオストリームに少なくとも部分的に基づいて、音響特性のセットを調整し得る。オーディオシステム900はまた、経時的なローカルエリアの音響プロパティの変化がしきい値変化を上回るという決定に応答して、様々な物理的空間とそれらの空間の音響プロパティとを表す仮想モデルを更新するために、オーディオストリームをマッピングサーバ250に選択的に通信し得る。ヘッドセット1010のオーディオシステム900とマッピングサーバ250とは、ワイヤードまたはワイヤレス通信リンク(たとえば、
図10のネットワーク620)を介して通信し得る。
【0116】
I/Oインターフェース1150は、ユーザがアクション要求を送り、コンソール1155から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース1150は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール1155に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース1150によって受信されたアクション要求は、コンソール1155に通信され、コンソール1155は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース1150は、上記でさらに説明されたように、I/Oインターフェース1150の初期位置に対するI/Oインターフェース1150の推定位置を指示する較正データをキャプチャするIMU1110を含む。いくつかの実施形態では、I/Oインターフェース1150は、コンソール1155から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール1155がアクションを実施するときに、コンソール1155が、I/Oインターフェース1150に命令を通信して、I/Oインターフェース1150が触覚フィードバックを生成することを引き起こす。
【0117】
コンソール1155は、DCA1120とPCA1140とヘッドセット1010とI/Oインターフェース1150とのうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット1010に提供する。
図11に示されている例では、コンソール1155は、アプリケーションストア1160と、追跡モジュール1165と、エンジン1170とを含む。コンソール1155のいくつかの実施形態は、
図11に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、
図11に関して説明されるものとは異なる様式でコンソール1155の構成要素の間で分散され得る。いくつかの実施形態では、コンソール1155に関して本明細書で説明される機能性は、ヘッドセット1010、またはリモートシステムにおいて実装され得る。
【0118】
アプリケーションストア1160は、コンソール1155による実行のための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット1010またはI/Oインターフェース1150の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。
【0119】
追跡モジュール1165は、1つまたは複数の較正パラメータを使用してシステム1100のローカルエリアを較正し、ヘッドセット1010またはI/Oインターフェース1150の位置を決定する際の誤差を低減するように、1つまたは複数の較正パラメータを調整し得る。たとえば、追跡モジュール1165は、DCA1120によってキャプチャされたSL要素の位置をより正確に決定するために、DCA1120の焦点を調整するための較正パラメータをDCA1120に通信する。また、追跡モジュール1165によって実施される較正は、ヘッドセット1010中のIMU1110および/またはI/Oインターフェース1150中に含まれるIMU1110から受信された情報を考慮する。さらに、ヘッドセット1010の追跡が失われた(たとえば、DCA1120が、少なくともしきい値数の投影されたSL要素の見通し線を失った)場合、追跡モジュール1165は、システム1100の一部または全部を再較正し得る。
【0120】
追跡モジュール1165は、DCA1120、PCA1140、1つまたは複数の位置センサー1115、IMU1110、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット1010またはI/Oインターフェース1150の移動を追跡する。たとえば、追跡モジュール1165は、ヘッドセット1010からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット1010の基準点の位置を決定する。追跡モジュール1165は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール1165は、ヘッドセット1010の将来のロケーションを予測するために、IMU1110からの、ヘッドセット1010の位置を指示するデータの部分ならびにDCA1120からのローカルエリアの表現を使用し得る。追跡モジュール1165は、ヘッドセット1010またはI/Oインターフェース1150の推定または予測された将来の位置をエンジン1170に提供する。
【0121】
エンジン1170は、アプリケーションを実行し、追跡モジュール1165から、ヘッドセット1010の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン1170は、ユーザへの提示のためにヘッドセット1010に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン1170は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット1010のためのコンテンツを生成する。さらに、エンジン1170は、I/Oインターフェース1150から受信されたアクション要求に応答して、コンソール1155上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット1010を介した視覚または可聴フィードバック、あるいはI/Oインターフェース1150を介した触覚フィードバックであり得る。
【0122】
追加の構成情報
本発明による実施形態は、特に、方法、装置、および記憶媒体を対象とする添付の特許請求の範囲で開示され、1つの請求項カテゴリー、たとえば、方法において述べられた任意の特徴は、別の請求項カテゴリー、たとえば、装置、記憶媒体、システム、およびコンピュータプログラム製品においても請求され得る。添付の特許請求の範囲における従属関係または参照は、形式上の理由で選定されるにすぎない。ただし、前の請求項への意図的な参照(特に複数の従属関係)から生じる主題も請求され得、その結果、請求項とその特徴との任意の組合せが、開示され、添付の特許請求の範囲で選定された従属関係にかかわらず請求され得る。請求され得る主題は、添付の特許請求の範囲に記載の特徴の組合せだけでなく、特許請求の範囲における特徴の任意の他の組合せをも含み、特許請求の範囲において述べられた各特徴は、特許請求の範囲における任意の他の特徴または他の特徴の組合せと組み合わせられ得る。さらに、本明細書で説明または示される実施形態および特徴のいずれも、別個の請求項において、ならびに/あるいは、本明細書で説明もしくは示される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組合せで請求され得る。
【0123】
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
【0124】
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。
【0125】
本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
【0126】
本開示の実施形態はまた、本明細書で説明されるコンピューティングプロセスによって作り出される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
【0127】
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。
【国際調査報告】