(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-18
(54)【発明の名称】残響プロセッサのパラメータの導出
(51)【国際特許分類】
H04S 7/00 20060101AFI20240910BHJP
G10K 15/12 20060101ALI20240910BHJP
【FI】
H04S7/00 320
G10K15/12
H04S7/00 350
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024500402
(86)(22)【出願日】2022-08-30
(85)【翻訳文提出日】2024-03-01
(86)【国際出願番号】 EP2022074057
(87)【国際公開番号】W WO2023031182
(87)【国際公開日】2023-03-09
(32)【優先日】2021-08-31
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-10-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】ド ブラウン, ワーナー
【テーマコード(参考)】
5D162
5D208
【Fターム(参考)】
5D162AA05
5D162CC08
5D162CC15
5D162CC18
5D162CC19
5D162CC36
5D208AA20
5D208AB01
5D208AC07
5D208AD05
(57)【要約】
方法(300)は、オーディオレンダラ(151)によって実行される。方法は、エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)を含む。方法はまた、第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程(s304)を含み、前記第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータである。方法はまた、前記第1残響パラメータを用いて第2残響パラメータを導出する工程(s306)を含む。前記第1残響パラメータが前記残響時間パラメータである場合、前記第2残響パラメータは残響レベルパラメータであり、前記第1残響パラメータが前記残響レベルパラメータである場合、前記第2残響パラメータは残響時間パラメータである。
【選択図】
図3A
【特許請求の範囲】
【請求項1】
オーディオレンダラ(151)によって実行される方法(300)であって、
エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)と、
第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程(s304)と、ここで、前記第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータであり、
前記第1残響パラメータを用いて第2残響パラメータを導出する工程(s306)と、
を有し、
前記第1残響パラメータが前記残響時間パラメータである場合、前記第2残響パラメータは残響レベルパラメータであり、
前記第1残響パラメータが前記残響レベルパラメータである場合、前記第2残響パラメータは残響時間パラメータである、
ことを特徴とする方法。
【請求項2】
前記メタデータは、音響吸収量(A)を示す音響吸収パラメータを含み、
前記第1残響パラメータは、前記音響吸収パラメータを用いて導出される、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記第1残響パラメータは、残響音対直接音(RDR)エネルギ比値であり、
前記RDRエネルギ比値を導出することは、16×(π/A)を計算することを含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記第1残響パラメータは、前記残響時間パラメータ(RT)(例えば、RT60値)であり、
前記第2残響パラメータを導出することは、Xを数とすると、X×RTまたはRT/Xを計算することを含む、
ことを特徴とする請求項1または2に記載の方法。
【請求項5】
前記第1残響パラメータは、前記残響時間パラメータ(RT)(例えば、RT60値)であり、
前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、
前記第2残響パラメータを導出することは、
f1を所定の係数、f2を所定の値、Vを前記音響環境の前記容積を示す容積値とするとき、f1x(RT/V)または(f1x(RT/V)
f2)を計算することを含む、
ことを特徴とする請求項1、2、4のいずれか1項に記載の方法。
【請求項6】
前記第1残響パラメータは、前記残響レベルパラメータ(RL)であり、
前記第2残響パラメータを導出することは、Xを数とすると、X×RLまたはRL/Xを計算することを含む、
ことを特徴とする請求項1から3のいずれか1項に記載の方法。
【請求項7】
前記第1残響パラメータは、前記残響レベルパラメータ(RL)であり、
前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、
前記第2残響パラメータを導出することは、
f1を所定の係数、Vを前記音響環境の前記容積を示す容積値、f2を所定の値とするとき、VxRL/f1または(Vx(RL/f1)
1/f2)を計算することを含む、
ことを特徴とする請求項1、2、6のいずれか1項に記載の方法。
【請求項8】
前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、
前記第1残響パラメータは前記残響時間パラメータ(RT)であり、
前記第2残響パラメータを導出することは、
Vを前記音響環境の前記容積、t1を時間値とするとき、
【数22】
を計算することを含む、
ことを特徴とする請求項1または2に記載の方法。
【請求項9】
前記第2残響パラメータは前記残響レベルパラメータであり、
前記第2残響パラメータは、前記第1残響パラメータと所定の時間値t1とを用いて導出される、
ことを特徴とする請求項1、2、4、5のいずれか1項に記載の方法。
【請求項10】
Cを前記第1残響パラメータと時間値t1とに依存する補正係数、cを所定の値とするとき、
f1はC×cに等しい、
ことを特徴とする請求項5に記載の方法。
【請求項11】
Cは、
【数23】
に等しい、ことを特徴とする請求項10に記載の方法。
【請求項12】
t1は、前記音響環境の少なくとも1つの寸法に基づいて導出される、ことを特徴とする請求項8から11のいずれか1項に記載の方法。
【請求項13】
t1は、前記音響環境の寸法に関連する音響飛行時間に比例する、ことを特徴とする請求項8から11のいずれか1項に記載の方法。
【請求項14】
Lを前記音響環境の最長寸法のサイズ、sを音速とするとき、t1=4xL/sである、ことを特徴とする請求項13に記載の方法。
【請求項15】
t1は、前記音響環境に関連するプリディレイタイムを示す、ことを特徴とする請求項8から11のいずれか1項に記載の方法。
【請求項16】
t1は、前記音響環境に関連するルームインパルス応答の一部を示す時間値である、ことを特徴とする請求項8から11のいずれか1項に記載の方法。
【請求項17】
前記残響レベルパラメータは、残響音と音源の総放射エネルギとのエネルギ比で表される、ことを特徴とする請求項1から16のいずれか1項に記載の方法。
【請求項18】
前記第1残響パラメータと前記第2残響パラメータとを用いて残響信号を生成する工程と、
前記残響信号を用いて出力オーディオ信号を生成する工程と、
を更に有することを特徴とする請求項1から17のいずれか1項に記載の方法。
【請求項19】
オーディオレンダラ(151)によって実行される方法(350)であって、
エクステンデッドリアリティ・シーンのメタデータから、少なくとも第1残響パラメータと第2残響パラメータとを含む残響パラメータのセットを取得する工程(s352)と、
前記第1残響パラメータが前記第2残響パラメータと一致するかを判定する工程(s354)と、
を有し、前記判定する工程は、
前記第2残響パラメータを用いて第1の値を計算する工程(s356)と、
前記第1の値と前記第1残響パラメータとの差をしきい値と比較する工程(s358)と、
を含む、ことを特徴とする方法。
【請求項20】
前記差が前記しきい値を超えると判定された結果、前記第1残響パラメータの代わりに前記第1の値を用いて残響信号を生成する工程を更に有することを特徴とする請求項19に記載の方法。
【請求項21】
前記第1残響パラメータは残響レベルパラメータであり、前記第2残響パラメータは残響時間パラメータまたは吸収パラメータ(A)のいずれかである、または、
前記第1残響パラメータは残響時間パラメータであり、前記第2残響パラメータは前記残響レベルパラメータまたは前記吸収パラメータ(A)のいずれかである、または、
前記第1残響パラメータは前記吸収パラメータであり、前記第2残響パラメータは前記残響レベルパラメータまたは前記残響時間パラメータのいずれかである、
ことを特徴とする請求項19または20に記載の方法。
【請求項22】
前記残響パラメータのセットは、第3残響パラメータを更に含み、前記方法は、
前記第1残響パラメータが前記第2残響パラメータと一致しないと判定された結果、前記第1残響パラメータが前記第3残響パラメータと一致するかを判定する工程を更に有し、前記第1残響パラメータが前記第3残響パラメータと一致するかを判定する工程は、
前記第3残響パラメータを用いて第2の値を計算する工程と、
前記第2の値と前記第1残響パラメータとの差を前記しきい値と比較する工程と、
を含む、ことを特徴とする請求項19に記載の方法。
【請求項23】
前記第1残響パラメータが前記第2残響パラメータまたは前記第3残響パラメータのいずれかと一致しないと判定された結果、前記第1残響パラメータの代わりに前記第1の値または前記第2の値のいずれかを用いて残響信号を生成する工程を更に有することを特徴とする請求項22記載の方法。
【請求項24】
オーディオレンダラの処理回路によって実行されると前記オーディオレンダラに請求項1から23のいずれか1項に記載の方法を実行させる命令を含む、ことを特徴とするコンピュータプログラム。
【請求項25】
請求項24に記載のコンピュータプログラムを含むキャリアであって、前記キャリアは、電気信号、光信号、無線信号、コンピュータ読み取り可能な記憶媒体のうちの1つである、ことを特徴とするキャリア。
【請求項26】
オーディオレンダリング装置(400)であって、前記オーディオレンダリング装置は、
エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)と、
第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程(s304)と、ここで、前記第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータであり、
前記第1残響パラメータを用いて第2残響パラメータを導出する工程(s306)と、
を含む処理を実行するように構成され、
前記第1残響パラメータが前記残響時間パラメータである場合、前記第2残響パラメータは残響レベルパラメータであり、
前記第1残響パラメータが前記残響レベルパラメータである場合、前記第2残響パラメータは残響時間パラメータである、
ことを特徴とするオーディオレンダリング装置。
【請求項27】
請求項2から18のいずれか1項に記載の方法を実行するように更に構成されている、ことを特徴とする請求項26に記載のオーディオレンダリング装置。
【請求項28】
オーディオレンダリング装置(400)であって、前記オーディオレンダリング装置は、
エクステンデッドリアリティ・シーンのメタデータから、少なくとも第1残響パラメータと第2残響パラメータとを含む残響パラメータのセットを取得する工程(s352)と、
前記第1残響パラメータが前記第2残響パラメータと一致するかを判定する工程(s354)と、
を含む処理を実行するように構成され、前記判定する工程は、
前記第2残響パラメータを用いて第1の値を計算する工程(s356)と、
前記第1の値と前記第1残響パラメータとの差をしきい値と比較する工程(s358)と、
を含む、ことを特徴とするオーディオレンダリング装置。
【請求項29】
請求項20から23のいずれか1項に記載の方法を実行するように更に構成されている、ことを特徴とする請求項26に記載のオーディオレンダリング装置。
【請求項30】
前記オーディオレンダリング装置は、メモリと、前記メモリに結合された処理回路とを備える、ことを特徴とする請求項26から29のいずれか1項に記載のオーディオレンダリング装置。
【発明の詳細な説明】
【技術分野】
【0001】
残響プロセッサのパラメータを導出することに関する実施形態が開示される。
【背景技術】
【0002】
エクステンデッドリアリティ(XR)(例えば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)など)システムは一般に、XRシステムのユーザにオーディオをレンダリングするためのオーディオレンダラを含む。オーディオレンダラは、通常、XRシステムのユーザにレンダリングされる後期残響及び/又は拡散残響を生成して、レンダリングされているXRシーンにあるという聴覚的感覚を提供する残響プロセッサを含む。生成された残響は、XRシーンに対応する音響環境(例えば、教会、リビング、ジム、屋外環境など)にいるという聴覚感覚をユーザに提供すべきである。
【0003】
残響は、室内の最も重要な音響特性の1つである。室内で生成された音は、エネルギを徐々に失いながら、床、壁、天井、窓、テーブルなどの反射面から繰り返し跳ね返る。これらの反射が互いに混合すると、「残響」として知られる現象が生じる。したがって、残響は、音の多くの反射の集まりである。
【0004】
音響環境における残響の最も基本的な特徴のうちの2つは、1)残響時間、および、2)残響レベル、すなわち、残響が(例えば、空間内の音源の出力または直接音レベルに対して)どれだけ強いかまたは大きいか、である。これらの両方は、音響環境の特性のみであり、すなわち、それらは、個々の音源に依存しない。
【0005】
残響時間は、音源の音が停止した後に、囲まれた空間内で反射音が「フェードアウト」するのに必要な時間の尺度である。室内が音響にどのように反応するかを定義することは重要である。残響時間は、空間内の音響吸収の量に依存し、カーテン、パッド入り椅子、さらには人間などの多くの吸収性表面を有する空間内ではより低く、主に硬質な反射性表面を含む空間内ではより高い。
【0006】
従来、残響時間は、音源が突然オフにされた後に音圧レベルが60dB減少するのに要する時間として定義されている。この時間の短縮形は「RT60」(または、時にはT60)である。
【0007】
典型的には、オーディオレンダラで使用される残響プロセッサの場合、生成される残響のこれら2つの(および他の)特性は個別にかつ独立して制御されうる。例えば、特定の所望の残響時間及び特定の所望の残響レベルで残響を生成するように残響プロセッサを構成することが典型的に可能である。
【0008】
XRシステムでは、生成された残響の特性が典型的には制御情報、例えば、XRシーンの音響特性を含むXRシーンの多くの態様を記述する、例えば、シーンクリエータによって指定されるような、XRシーン記述に含まれる専用のメタデータによって制御される。オーディオレンダラは例えば、ビットストリームまたはファイルからこの制御情報を受信し、この制御情報を用いて、所望の特性を有する残響を生成するように残響プロセッサを構成する。生成された残響における所望の残響時間および残響レベルを残響プロセッサが取得する正確な方法は、残響プロセッサが残響を生成するために使用する残響アルゴリズムのタイプに応じて異なりうる。
【発明の概要】
【発明が解決しようとする課題】
【0009】
現在、いくつかの課題が存在する。例えば、上述のように、生成された残響の様々な特性(例えば、残響時間および残響レベル)を互いに個別かつ独立に制御することが典型的には可能であり、残響を生成する際に大きな柔軟性を提供する一方、潜在的な問題ももたらす。実際には、オーディオレンダラによって受信されるXR制御情報が制御されうる生成された残響のすべての特性のための制御データを含まないことがある。これには多くの理由がありうる。例えば、XRシーンを作成するために使用されるオーサリングソフトウェアが生成できるのは、音響環境のための限定された音響特性のセットのみである。あるいは、シーンが、限られた音響データのセットのみが利用可能な現実の位置(例えば、特定の有名な教会)にしか対応していない。XRシーンがユーザのリアル物理空間に対応する場合、その空間の音響特性は、通常、ユーザのXR装置において利用可能な限られた技術的手段を用いて、その場で決定される必要がある。
【0010】
上記で説明したように、生成される残響の2つの最も重要な特性は、一般にRT60に関して表される残響時間と、一般に残響音対直接音(RDR)エネルギ比として表される残響レベルである。オーディオレンダラが提供される制御情報において残響時間または残響レベルのいずれかが指定されない場合、残響プロセッサがどのように構成されるべきかは不明である。
【0011】
XRオーディオ標準規格の観点において、標準規格が原則として音響環境のための多くの残響パラメータの仕様をサポートする場合であっても、それらのうちのいくつかのみがXRシーンを提供することが必須でありうるが、他は任意選択である。例えば、現在開発されているISO/IEC MPEG-I Immersive Audio標準規格では、RT60値が音響環境のための唯一の必須残響関連パラメータであり、残響レベルパラメータ(例えば、RDRエネルギ比として表される)は任意選択である。
【0012】
したがって、必要とされるものは、残響時間および/または残響レベルのいずれかが、レンダリングされる音響環境に対して指定されない場合に、音響的に妥当な特性を有する残響信号がXRシーンに対して生成されるように、XRオーディオレンダラの残響プロセッサを構成するためのソリューションである。
【課題を解決するための手段】
【0013】
したがって、一側面において、オーディオレンダラによって実行される方法が提供される。一実施形態において、オーディオレンダラによって実行される方法は、XRシーンのメタデータを取得する(例えば、受信または検索する)工程を含む。方法はまた、第1残響パラメータを、メタデータから取得する、または、メタデータから導出する工程を含み、ここで、第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータである。また、この方法は、第1残響パラメータを用いて第2残響パラメータを導出する工程も含む。第1残響パラメータが残響時間パラメータである場合、第2残響パラメータは残響レベルパラメータであり、第1残響パラメータが残響レベルパラメータである場合、第2残響パラメータは残響時間パラメータである。
【0014】
一実施形態において、オーディオレンダラによって実行される方法は、エクステンデッドリアリティ・シーンのメタデータから、少なくとも第1残響パラメータと第2残響パラメータとを含む残響パラメータのセットを取得する工程を含む。方法はまた、第1残響パラメータが第2残響パラメータと一致するかを判定する工程を含む。判定する工程は、第2残響パラメータを用いて第1の値を計算する工程と、第1の値と第1残響パラメータとの差をしきい値と比較する工程とを含む。
【0015】
別の側面において、オーディオレンダラの処理回路によって実行されるとオーディオレンダラに上述の方法のいずれかを実行させる命令を含むコンピュータプログラムが提供される。一実施形態において、コンピュータプログラムを含むキャリアが提供され、キャリアは、電気信号、光信号、無線信号、コンピュータ読み取り可能な記憶媒体のうちの1つである。別の側面において、上述の方法のいずれかを実行するように構成されたレンダリング装置が提供される。レンダリング装置は、メモリと、メモリに結合された処理回路とを含みうる。
【0016】
本明細書に開示される実施形態の利点は、オーディオレンダラが残響時間値と残響レベル値との両方を残響プロセッサ(オーディオレンダラ自体の一部であってもよく、またはその外部であってもよい)に提供することを可能にし、それによって、残響プロセッサがXRシーンのための適切な残響信号を生成することを可能にすることである。
【図面の簡単な説明】
【0017】
本明細書に組み込まれ、本明細書の一部を形成する添付の図面は、様々な実施形態を示す。
【0018】
【
図1A】いくつかの実施形態によるシステムを示す図。
【0019】
【
図1B】いくつかの実施形態によるシステムを示す図。
【0020】
【
図2】いくつかの実施形態によるシステムを示す図。
【0021】
【
図3A】実施形態に係る処理を示すフローチャート。
【0022】
【
図3B】実施形態に係る処理を示すフローチャート。
【0023】
【
図4】いくつかの実施形態による装置のブロック図。
【0024】
【0025】
【発明を実施するための形態】
【0026】
図1Aは、本明細書に開示される実施形態が適用されうるXRシステム100を示す。XRシステム100は、スピーカ104および105(ユーザによって装着されるヘッドホンのスピーカであってもよい)と、XRデバイス110とを含み、XRデバイス110は、画像をユーザに表示するためのディスプレイを含み、いくつかの実施形態では、リスナーによって装着されるように構成されうる。図示のXRシステム100では、XRデバイス110はディスプレイを有し、ユーザの頭部に装着されるように設計され、一般にはこれはヘッドマウントディスプレイ(HMD)と呼ばれる。
【0027】
図1Bに示されるように、XRデバイス110は、方位検知部101と、位置検知部102と、処理部103とを含み、出力オーディオ信号(例えば、図示されるように、左スピーカのための左オーディオ信号181と右スピーカのための右オーディオ信号182)を生成するためのオーディオレンダラ151に(直接的または間接的に)結合されうる。
【0028】
方位検知部101は、リスナーの方位の変化を検出し、検出された変化に関する情報を処理部103に提供するように構成される。いくつかの実施形態では、処理部103は、方位検知部101によって検出された方位の検出された変化を考慮して、(いくつかの座標系に関して)絶対方位を判定する。また、例えば、ライトハウス(lighthouse)トラッカー(ライダー)を使用するシステムなど、方位および位置を判定するための異なるシステムも存在しうる。一実施形態では、方位検知部101は、検出された方位の変化が与えられた場合、(ある座標系に関連して)絶対方位を判定することができる。この場合、処理部103は、方位検知部101からの絶対方位データと位置検知部102からの位置データとを単に多重化することができる。いくつかの実施形態では、方位検知部101は、1つ以上の加速度計および/または1つ以上のジャイロスコープを備えうる。
【0029】
オーディオレンダラ151は、入力オーディオ信号161と、リスナーが経験しているXRシーンに関するメタデータ162と、リスナーの位置および方位に関する情報163とに基づいて、オーディオ出力信号を生成する。XRシーンのためのメタデータ162は、XRシーンに含まれる各オブジェクトおよびオーディオ要素のためのメタデータを含み、オブジェクトのためのメタデータは、オブジェクトの寸法およびオブジェクトのためのオクルージョンファクタについての情報を含みうる(例えば、メタデータは、各オクルージョンファクタが異なる周波数または周波数範囲に適用可能であるオクルージョンファクタのセットを指定しうる)。メタデータ162はまた、残響時間値、残響レベル値、吸収パラメータなどのうちの少なくともいずれか制御情報を含みうる。
【0030】
オーディオレンダラ151は、XRデバイス110の構成要素であってもよいし、XRデバイス110に対してリモートであってもよい(例えば、オーディオレンダラ151またはその構成要素がクラウドに実装されうる)。
【0031】
図2は、XRシーンのためのサウンドを生成するためのオーディオレンダラ151の例示的な実装形態を示す。オーディオレンダラ151は、コントローラ201と、コントローラ201からの制御情報210及び入力オーディオ161に基づいて出力オーディオ信号(例えば、マルチチャネルオーディオ要素のオーディオ信号)を生成するためのオーディオ信号発生器202とを含む。この実施形態では、オーディオ信号発生器202は、残響信号を生成するための残響プロセッサ204を備える。
【0032】
いくつかの実施形態では、コントローラ201は、1つ以上のパラメータを受信し、受信されたパラメータに基づいてオーディオ信号161に修正を実行するようにオーディオ信号発生器202をトリガする(例えば、音量レベルを増加または減少させる)ように構成されうる。受信されたパラメータはリスナーの位置および/または方位(例えば、向きおよびオーディオ要素までの距離)に関する情報163と、XRシーンに関するメタデータ162とを含む。例えば、メタデータ162は、ユーザが仮想的に位置するXR空間に関するメタデータ(例えば、空間の寸法、空間内のオブジェクトに関する情報、および空間の音響特性に関する情報)、ならびにオーディオ要素に関するメタデータ、およびオーディオ要素を遮蔽するオブジェクトに関するメタデータを含みうる。いくつかの実施形態では、コントローラ201自体がメタデータ162の少なくとも一部を生成する。例えば、コントローラ201は、XRシーンについてのメタデータを受信し、受信されたメタデータに基づいて追加のメタデータ(例えば、制御パラメータ)を導出しうる。例えば、コントローラ201は、メタデータ162および位置/方位情報163を用いて、XRシーン内のオーディオ要素のための1つ以上のゲインファクタ(g)を計算することができる。
【0033】
最終的な出力信号を生成するために信号発生器202によって使用される残響信号の生成に関して、コントローラ201は、残響プロセッサ204が残響信号を生成するように動作可能であるように、残響時間および残響レベルなどの残響パラメータを残響プロセッサ204に提供する。生成された残響の残響時間は、最も一般的にはRT60値として残響プロセッサ204に提供されるが、他の残響時間尺度も存在し、同様に使用することができる。いくつかの実施形態では、メタデータ162は、必要な残響パラメータ(例えば、RT60値及び残響レベル値)の一部又は全てを含む。しかし、メタデータは、残響時間パラメータ(すなわち、RT60値などのRT値)または残響レベルパラメータ(すなわち、RDRエネルギ比などのRL値)を含まない実施形態では、コントローラ201がこれらのパラメータを生成するように構成される。例えば、本明細書で説明するように、コントローラ201は、残響レベルパラメータに基づいて残響時間パラメータを生成することができ、逆もまた同様である。
【0034】
残響レベルは、様々なフォーマットで表現され、残響プロセッサ204に提供されうる。例えば、それは、XR環境においてレンダリングされる音源からのある距離における、直接音成分と残響音成分(DRR)とのエネルギ比、またはその逆(すなわち、RDRエネルギ比)として表現されうる。あるいは、残響レベルは、音源の残響音と総放出エネルギとのエネルギ比で表されてもよい。さらに他の場合には、残響レベルは、残響プロセッサのレベル/ゲインとして直接表現されてもよい。
【0035】
この文脈では、「残響」という用語は、典型的には音響環境の音響ルームインパルス応答の拡散部分に対応する音場成分のみを指しうるが、いくつかの実施形態では、ルームインパルス応答の以前の部分に対応する、例えば、いくつかの後期非拡散反射、またはさらにはすべての反射音を含む音場成分も含みうる。
【0036】
メタデータ162に含まれうる音響環境の残響関連特性を記述する他のメタデータは、環境の表面の材料の音響特性を記述するパラメータ(例えば、材料の吸収、反射、透過、拡散特性のうちの少なくともいずれかを記述する)、または、音響環境に関連するルームインパルス応答の特定の時点、例えば、ルームインパルス応答が拡散する(時には「プリディレイ」と呼ばれる)音源放射後の時間を含む。
【0037】
上述の全ての残響に関連する特性は、典型的には周波数に依存し、したがって、それらの関連するメタデータパラメータも、典型的には、いくつかの周波数帯域に対して別々に提供され、処理される。
【0038】
バーチャルリアリティサウンドシーンをオーサリングする際、原理的には、バーチャル音響環境に対して、残響時間および残響レベルを個別にかつ独立して指定することが可能である。しかし、実際の音響環境では、残響時間と残響レベルが独立した特性ではない。2つの間には一対一の関係はないが、全ての場合において完全には正確ではないが、残響時間についての情報のみが利用可能である場合には、残響レベルについての妥当な推定値を導出することを少なくとも1つ可能にし、逆もまた同様でそれらの間の関係を導出することが可能である。
【0039】
そのような関係の1つの導出は、直接音場と残響音場の音圧レベルが等しい距離(メートル)である「臨界距離(CD)」の定義から始まる。残響音場が完全に拡散していると仮定すると、CDは、次のように定量化することができる。
【数1】
ただし、γは音源の指向性の度合い、Aは等価吸音面積(m
2)(音響環境における吸音総量を定量化するもの)である。
【0040】
RT60のためのSabineの周知の統計的近似公式を使用する。
【数2】
ただし、Vは音響環境の容積(m
3)であり、CDはRT60として次式で表される。
【数3】
【0041】
したがって、特定の音源指向性タイプ(例えば、γ=1とする無指向性音源)について、臨界距離CDは純粋に音響環境の特性である。
【0042】
音響環境の残響レベルは、無指向性点音源からの距離dにおける残響音と直接音とのエネルギの比(すなわち、RDRエネルギ比)で表すことができる。その場合、RDRエネルギ比(式中、RDRと表示される)と臨界距離(式中、CDと表示される)との間には単純な関係がある。
【数4】
【0043】
無指向性点音源の直接音のエネルギが距離の二乗で変化し、RDRエネルギ比が臨界距離で1に等しくなるはずであるため、この関係が生じる。
【0044】
式(3)および(4)を組み合わせると、RDRエネルギ比とRT60との間の近似的な関係が得られる。
【数5】
ここでは、無指向性音源に対してγ=1であることを用いている。RDRが無指向性音源から1メートルの距離におけるエネルギ比であると定義される場合、式(5)は、さらに以下のように単純化される。
【数6】
【0045】
式(6)は、RDRエネルギ比の推定値がRT60および音響環境の容積Vから得られること、およびRDRエネルギ比とRT60との間の近似関係が非常に単純な線形であることを示している。
【0046】
同様に、式(6)はまた、RDRエネルギ比の既知の値からRT60を推定することを可能にする。
【0047】
式(1)と式(4)を組み合わせると、音響環境における音響吸収量に関するRDRエネルギ比の近似式は、次式のように求められる。
【数7】
【0048】
音響環境の等価吸収面積Aは、シーンメタデータに直接提供されてもよく、またはシーンメタデータ内に含まれる他のパラメータから、例えば、音響環境の個々の部分(例えば、個々の壁、床、天井など)について指定された材料または材料特性(例えば、吸収係数)の仕様から導出されうる。
【0049】
上記の導出された式は、音響的に妥当な特性を有する残響信号がシーンに対して生成されるように、残響時間または残響レベルのいずれかまたは両方がレンダリングされる音響環境に対して指定されない場合に、コントローラ201が残響プロセッサ204を構成することを可能にする。
【0050】
上述のように、残響プロセッサ204が生成された残響における所望の残響時間および残響レベルを取得する正確な方法は、残響プロセッサが残響を生成するために使用する残響アルゴリズムのタイプに応じて異なりうる。そのようなアルゴリズムの一般的な例は、フィードバック遅延ネットワーク(FDN)(遅延線、フィルタ、およびフィードバック接続を用いて残響処理をシミュレートする)および畳み込みアルゴリズム(ドライ入力信号を測定、近似、またはシミュレートされたルームインパルス応答(RIR)と畳み込む)を含む。
【0051】
一例として、FDNベースの残響プロセッサの場合、使用されるフィードバックの量を制御することによって所望の残響時間を得ることができる。畳み込みベースの残響プロセッサの場合、所望の残響時間はその残響時間を有する特定のRIRをロードすることによって、または汎用RIRの有効長を適応させることによって(例えば、汎用RIRをフィルタリングし、時間窓処理することによって)のいずれかによって取得されうる。
【0052】
FDNベースおよび畳み込みベースの残響プロセッサの両方について、残響レベルは、残響プロセッサに入る入力信号、残響プロセッサの出力、または残響プロセッサの内部のいずれかに適切なゲインを適用する(例えば、それぞれFDN構造またはRIRに全体的なゲインを適用する)ことによって制御されうる。
【0053】
無指向性点音源から1メートルでのRDRエネルギ比として表される残響レベルの所望の残響レベル(例えば、所望のRDRエネルギ比)を得るために、このゲインをどのように設定することができるかの例は、例えば、2021年6月30日に出願された米国仮特許出願第63/217,076号および2022年6月30日に出願された国際特許出願PCT/EP2022/068015に記載されている(この引用により、両者は本明細書に組み入れられる)。レンダラは、無指向性点音源のためのレンダリングされた直接音と残響成分が音源から1メートルの距離で所望のエネルギ比を有するように、残響プロセッサのゲインを調整する較正手順を実行する。
【0054】
次いで、レンダラは、生成された残響信号を、音源のための他の信号成分、例えば、直接音成分と初期反射成分(両方ともレンダラの他の部分で生成される)と合成する(例えば、足し合わせる)ことによって、ユーザに対する出力信号を生成する。
【0055】
上述のように、RT60からRDRエネルギ比を導出するために上記で使用されたRT60、ルームジオメトリ、およびRDRエネルギ比またはその逆、の間の関係は、拡散残響音場を仮定する近似である。この仮定は、通常、実際の音響空間において完全には有効ではなく、実際の音場が完全に拡散した場から逸脱するほど、導出された関係はあまり正確ではなくなる。しかし、拡散場の仮定は通常完全には有効ではないが、所与の仮想音響空間についての残響を生成する際に導出された関係を使用すると、通常、その空間について知覚的に妥当な残響が得られる。
【0056】
典型的には、拡散場の仮定からの偏差がより小さい室内、および吸収量が高い室内ではより大きくなり、したがって、より小さいおよび高吸収性の室内では、上記で導出された関係が残響時間と残響レベルとの間の実際の関係をあまり正確に予測しない。仮想空間の音響をレンダリングするために、これは問題ではないかもしれない。なぜなら、上述したように、関係を使用することからの結果は典型的には依然として妥当であり、比較するための現実の参照はないからである。しかし、仮想音源がユーザと同じ物理的空間にあるように見えるようにレンダリングされる拡張現実(AR)のユースケースでは、現実の物理的空間の残響と生成された残響との間の知覚的一致を可能な限り近くにすることが望ましい。その場合(および実際の残響と生成された残響との間の最適な一致が望まれる他の場合)、室内の幾何学的形状(例えば、室内の容積、1つ以上の室内の寸法、最大寸法と最小寸法との間の比など)、RT60、および/または音響環境の吸収特性(利用可能な場合)、および/または周波数に依存する補正係数を追加することによって、導出された関係の精度を高めることが可能である。例えば、式(6)は次式のように拡張できる。
【数8】
ここで、Cは補正係数である。補正係数は、大容積で小吸収量の音響環境の場合には1に近く、小容積かつ/または大吸収量の室内の場合には1から外れることがある。典型的には、このような場合、それは1よりも小さい。
【0057】
オプションで、式(6)は、RDRエネルギ比をRT60とVとの比のべき乗として表現することによって拡張されてもよい。すなわち、次式で表される。
【数9】
ここで、C
2は完全に拡散した室内について1の値を有する第2の補正係数であり、補正係数Cについて上述した変数のいずれかに依存しうる。
【0058】
さらなる例として、RDRエネルギ比は次式で表される。
【数10】
ただし、f1は第1補正パラメータ、f2は第2補正パラメータである。例えば、f1は、3.1x10
2、または、((3.1x10
2)xd
2)、または、(cx(3.1x10
2))、または、(Cx(3.1x10
2)xd
2)に等しく、f2は、C
2に等しい。
【0059】
さらなる実施形態では、式(6)は、RDRエネルギ比がRT60とVとの比の関数であることを表現するように、次式のように一般化できる。
【数11】
ここで、f()は関数を表す。
【0060】
さらなる実施形態では、RDRエネルギ比がRT60およびVの関数であること、すなわち、h()を関数とすると、RDR=h(RT60,V)(式10a)、あるいは、RT60の関数であること、すなわち、j()を関数とすると、RDR=j(RT60)(式10b)、であることを表すように、式(6)はさらに一般化されうる。
【0061】
残響音場が完全に拡散していない場合の様々な残響パラメータ間の関係を補正することに加えて、式8および式9における補正係数CおよびC2(ならびに式9aにおける補正パラメータf1およびf2ならびに式(10)、(10a)および(10b)における関数関係)は、導出された関係を他の要因に対しても補正することができる。
【0062】
1つの例は、レンダラが、上記の式(1)~(7)の導出において仮定される定義とは(1つまたは複数の点で)異なるRDRエネルギ比の定義(または測定のための慣例)を(暗黙的に)使用する場合である。
【0063】
具体的には、完全に拡散した残響場を仮定する、上記の式(1)~(7)の導出において、理論的な拡散場ではルームインパルス応答が開始(すなわち、直接音が音源によって放出された直後)から拡散しているため、RDRエネルギ比を計算するために使用される残響場のエネルギは、ルームインパルス応答の全長にわたって判定されると暗黙的に仮定される。
【0064】
一方、特定のレンダラは、代わりに、わずかに異なるRDRエネルギ比の定義を(暗黙的に)使用し、RDRエネルギ比の残響エネルギ成分は、値t1によって示される特定の瞬間から始まるルームインパルス応答の一部に含まれるエネルギのみを含む。
【0065】
この設計の選択の1つの理由は、リアルワールド空間では、音源による直接音の放出後、残響場は、ある時間量だけ実際に拡散し始めることである。この時間量は、室内の幾何学的形状、例えば、その容積、その寸法のうちの1つ以上のサイズ(例えば、最長)、またはその寸法の比、ならびに吸収量およびRT60などの音響パラメータなどの様々な要因に依存しうる。t1によって識別される時間の後に残響エネルギのみを考慮するRDRエネルギ比の定義が、その物理的現実を反映するために使用されうる。別の理由は、レンダラ自体の一部である(またはレンダラ自体によって使用される)残響プロセッサの出力応答が残響プロセッサに直接音信号を供給した後、しばらくして拡散し始めることである。したがって、これらの理由または他の理由のいずれかのために、レンダラは、RDRエネルギ比の残響エネルギ成分に、ある時間後のエネルギのみが含まれる、RDRエネルギ比の定義を使用することができる。
【0066】
この選択の結果として、RDRエネルギ比の結果として生じる値は、上記の式(1)~(7)から予測される値、ならびに完全なルーム応答の残響エネルギがRDRエネルギ比の残響エネルギ成分に含まれる場合に得られる値(すなわち、t1=0)の両方よりも小さくなる。
【0067】
別の例は、例えば、リアルワールド空間では、上述のように、残響場が音源による放射の後、ある時間量の時間だけ拡散し始めるという事実のために、レンダラが、音源による直接音の放射の後、ある時間t1だけ残響をレンダリングし始める場合である。これは、上記の例で説明したRDRエネルギ比の値に同じ効果を有する。
【0068】
RDRエネルギ比の残響エネルギ成分に、値t1以降で特定されるある時間からの残響エネルギのみを含める効果を含めるように式(6)を変更することができる。この一例として、完全拡散場のエネルギ減衰曲線を見て、t1によって識別される時間の後に残響エネルギのみを含めることによって、「見逃される」エネルギの量を決定することができる。対数(dB)スケールでは、完全拡散場のエネルギ減衰曲線が-60/RT60(dB/s)の傾きを有する直線(
図5参照)である。これは、時間t1以前の拡散応答の部分が除外される場合、これは、以下の拡散応答の全長を使用することと比較して、計算される残響エネルギの低減につながる。
【数12】
ただし、式(6)に従って予測される「完全拡散」RDRエネルギ比に式(11)の補正を適用することによって、残響エネルギの異なる開始時間を補償することができる。具体的には、式(6)に式(11)の線形スケール版を乗じる。
【数13】
式(12)を式(8)と比較すると、この補正が補正係数C(すなわち、C=10
-(6t1/RT60))に組み込まれうることが分かる。
【0069】
レンダラそれ自体が(暗黙的に)使用する開始時間t1とは異なる残響エネルギ成分の特定の開始時間t2を用いて(または暗黙的に仮定して)受信RDR値が決定されるユースケースにおいて、レンダラによって受信されるRDRエネルギ比値(または略して「RDR値」)を修正するために、本質的に上記と同じ補正方法を使用することもできる。この場合、レンダラの定義によるRDR値は、受信されたRDR値を式(11)の補正係数によって修正することによって導出される。ただし、t1は、次式のように(t1-t2)によって置き換えられる(
図6参照)。
【数14】
したがって、変更されたRDR値(すなわち、レンダラ自身の定義によるRDR値)は、次のように計算されうる。
【数15】
【0070】
受信されたRDR値の時間パラメータt2がレンダラ自身の時間パラメータt1より大きい場合、修正の結果は、受信されるRDR値が増加されることであり、t2がt1より小さい場合には減少される。
【0071】
受信されるRDR値に対応する開始時間t2は、XRシーンのための追加のメタデータとしてレンダラによって受信されうるか、または、それは任意の他の方法で、例えば、受信されるRDR値がある定義に従って決定されたことが知られているという事実から暗黙的に(例えば、XRシーンが特定の知られている、例えば、標準化されたフォーマットであるため)取得されうる。その一例として、MPEG-I Immersive Audio Encoder Input Format(ISO/IEC JTC1/SC29/WG6、文書番号N0083、「MPEG-I Immersive Audio CfP Supplemental Information、Recommendations and Clarifications、Version 1」、2021年7月)には、t2が音響環境の最長寸法に関連する音響飛行時間の4倍に等しいことが規定されている。
【0072】
残響時間(例えば、RT60)及び残響レベル(例えば、RDR値)は、典型的には周波数に依存し、したがって、様々な周波数帯域について指定される。これは、上述の全ての式及び処理工程が異なる周波数帯域についてもそれぞれ評価及び実行される可能性があると理解されるべきであることを意味する。
【0073】
上記の式は、線形エネルギスケールで表されるRDRエネルギ比について導出されたが、RDRエネルギ比は、対数(dB)スケールで等しく良好に表され、式の均等物対数バージョンが容易に導出される。
【0074】
具体的には、式(6)の対数バージョンは次式で表される
【数16】
式(9)の対数バージョンは次式で表される。
【数17】
最後の例として、時間t1における残響エネルギの計算を開始するための補正を伴う式(12)の対数バージョンは、次式で表される。
【数18】
【0075】
XRシーンの音響環境について残響時間または残響レベルのいずれかまたは両方が指定されない場合に残響プロセッサを構成するための解決策を提供することに加えて、導出された式はまた、残響時間、残響レベル、および吸収情報のうちの少なくとも2つが提供される場合に、提供された値が相互に一貫しているかどうかをチェックすることを可能にする。もちろん、上述したように、導出された関係は近似的なものに過ぎず、そのため、それらを使用することから厳密な一貫性を期待することはできないが、少なくとも、提供されたデータに対して「健全性検査」を行う、すなわち、それらの値の組合せが妥当であるかどうかを検査する手段を提供する。(ここでの「妥当性」とは、リアルワールドの音響環境で発生することであるが、もちろん、仮想環境がリアルワールドに存在しない音響特性を有することができない理由はないことに留意されたい)。
【0076】
オーディオレンダラは、多くの方法でそのようなチェックを使用することができる。一実施形態において、レンダラは、導出された式を用いて、提供されたパラメータを相互の一貫性についてチェックし、一貫性がしきい値よりも悪い場合、パラメータのうちの少なくとも1つの値を拒否し、それを上で提供された式から導出された値と置き換えることができる。3つのパラメータ(残響時間、残響レベル、および吸収情報)のうちの2つが一貫しており、1つが一貫していない場合、一貫していない式から、1つが一貫していない式であり、その値を置き換えることができる式を導出することができる。2つのパラメータのみが提供される場合、または3つすべてが提供され、それらがすべて相互に矛盾する場合、階層ルールを用いて、どのパラメータを置き換えるべきかを決定することができる。例えば、残響時間が最も高い階層、2番目に残響レベル、3番目に吸収情報があり、その結果、例えば、残響時間と残響レベルが提供され、一貫性がないことが分かった場合、残響レベルの値が拒否され、置換され、一方、残響時間の値は維持される。
【0077】
図3Aは、いくつかの実施形態による処理300を示すフローチャートである。処理300は、工程s302から開始することができる。工程s302は、エクステンデッドリアリティ・シーンのメタデータを取得することを含む。工程s304は、メタデータから取得すること、またはメタデータから第1残響パラメータを導出することを含み、第1残響パラメータは、残響時間(RT)パラメータ(例えば、RT60)または残響レベル(RL)パラメータ(例えば、RDR値)である。工程s306は、第1残響パラメータを用いて、第2残響パラメータを導出することを含む。第1残響パラメータが残響時間パラメータである場合、第2残響パラメータは残響レベルパラメータであり、第1残響パラメータが残響レベルパラメータである場合、第2残響パラメータは残響時間パラメータである。
【0078】
いくつかの実施形態では、メタデータは、音響吸収の量を示す音響吸収パラメータ(「A」と示される)を含み、第1残響パラメータは、音響吸収パラメータを用いて導出される。いくつかの実施形態では、第1残響パラメータはRDR値であり、RDR値を導出することは、Yを所定の定数とすると、RDR=Y/Aを計算することを含む。一実施形態では、Y=16×πである。
【0079】
いくつかの実施形態では、第1残響パラメータは残響時間パラメータ(RT)(例えば、RT60)であり、第2残響パラメータを導出することは、Xを数とすると、X×RTまたはRT/Xを計算することを含む。いくつかの実施形態では、第1残響パラメータおよび第2残響パラメータは、容積を有する音響環境に関連付けられ、第2残響パラメータを導出することは、f1x(RT/V)f2を計算することを含む。いくつかの実施形態では、第2残響パラメータを導出することは、関数f()を用いて、f(RT/V)を計算することを含む。いくつかの実施形態では、第2残響パラメータを導出することは、関数h()を用いて、h(RT,V)を計算することを含む。いくつかの実施形態では、第2残響パラメータを導出することは、関数j()を用いて、j(RT)を計算することを含む。
【0080】
いくつかの実施形態では、第1残響パラメータは、残響レベルパラメータ(RL)(例えば、RDR値)であり、第2残響パラメータ(すなわち、残響時間パラメータ)を導出することは、Xを数とするとき、X×RLまたはRL/Xを計算することを含む。いくつかの実施形態では、第1残響パラメータおよび第2残響パラメータは、容積を有する音響環境に関連付けられ、第2残響パラメータを導出することは、i)V×RL/f1、または、ii)V×(RL/f1)1/f2を計算することを含む。いくつかの実施形態では、第2残響パラメータを導出することは、関数g()を用いてV×g(RL)を計算することを含む。関数g()は、関数f()の逆数、すなわち、g()=f-1()でありうる。いくつかの実施形態では、第2残響パラメータを導出することは、関数k()を用いて、k(RL,V)を計算することを含む。関数k()は、関数h()の逆でありうる。いくつかの実施形態では、第2残響パラメータを導出することは。関数l()を用いて、l(RL)を計算することを含む。関数l()は、関数j()の逆でありうる。
【0081】
いくつかの実施形態では、処理はまた、第1残響パラメータおよび第2残響パラメータを用いて残響信号を生成することと、残響信号を用いて出力オーディオ信号を生成することとを含む。
【0082】
図3Bは、いくつかの実施形態による処理350を示すフローチャートである。処理350は、工程s352から開始することができる。工程s352は、エクステンデッドリアリティ・シーンのメタデータから、少なくとも第1残響パラメータ及び第2残響パラメータを含む残響パラメータのセットを取得することを含む。工程s354は、第1残響パラメータが第2残響パラメータと一致するかどうかを決定すること(s354)を含む。決定することは、第2残響パラメータを用いて第1の値を計算すること(工程s356)と、第1の値と第1残響パラメータとの差をしきい値と比較すること(工程s358)とを含む。
【0083】
いくつかの実施形態では、処理はまた、差がしきい値を超えると判定された結果として、第1残響パラメータの代わりに第1の値を用いて残響信号を生成することを含む。
【0084】
いくつかの実施形態では、i)第1残響パラメータは残響レベルパラメータであり、第2残響パラメータは残響時間パラメータまたは吸収パラメータAのいずれかであり、ii)第1残響パラメータは残響時間パラメータであり、第2残響パラメータは残響レベルパラメータまたは吸収パラメータAのいずれかであり、あるいは、iii)第1残響パラメータは吸収パラメータであり、第2残響パラメータは残響レベルパラメータまたは残響時間パラメータのいずれかである。
【0085】
いくつかの実施形態では、残響パラメータのセットは、第3残響パラメータをさらに含み、処理は、第1残響パラメータが第2残響パラメータと一致しないと判定された結果として、第1残響パラメータが第3残響パラメータと一致するかどうかを判定することをさらに含み、第1残響パラメータが第3残響パラメータと一致するかどうかを判定することは、i)第3残響パラメータを用いて第2の値を計算することと、ii)第2の値と第1残響パラメータとの差をしきい値と比較することとを含む。いくつかの実施形態では、処理は、第1残響パラメータが第2残響パラメータまたは第3残響パラメータのいずれかと一致しないと判定された結果として、第1残響パラメータの代わりに第1の値または第2の値のいずれかを用いて残響信号を生成することを更に含む。
【0086】
図4は、本明細書に開示される方法を実行するための、いくつかの実施形態による、オーディオレンダリング装置400のブロック図である(例えば、オーディオレンダラ151は、オーディオレンダリング装置400を用いて実装されうる)。
図4に示されるように、オーディオレンダリング装置400は、処理回路(PC)402を備える。処理回路(PC)402は、1つまたは複数のプロセッサ(P)455(例えば、汎用マイクロプロセッサおよび/または特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などの1つまたは複数の他のプロセッサ)を含みうる。複数のプロセッサ(P)455は、単一のハウジング内または単一のデータセンタ内に共同配置されてもよいし、地理的に分散されてもよい(すなわち、装置400が分散コンピューティング装置でありうる)。オーディオレンダリング装置400は、ネットワークインタフェース448を備える。ネットワークインタフェース448は、ネットワークインタフェース448が(直接的または間接的に)接続される(例えば、ネットワークインタフェース448はアンテナ装置と接続される)ネットワーク110(例えば、インターネットプロトコル(IP)ネットワーク)に接続される他のノードとデータを送受信することを装置400に可能にさせるための送信機(Tx)445と受信機447とを含む。オーディオレンダリング装置400は、1つ以上の不揮発性記憶装置および1つ以上の揮発性記憶装置の少なくともいずれかを含みうる記憶ユニット(「データ記憶システム」とも呼ばれる)408を備える。PC402がプログラマブルプロセッサを含む実施形態では、コンピュータプログラムプロダクト(CPP)441が提供されうる。CPP441は、コンピュータ読み取り可能な命令(CRI)444を含むコンピュータプログラム(CP)443を記憶するコンピュータ読み取り可能な記憶媒体(CRM)442を含む。CRM442は、磁気媒体(例えば、ハードディスク)、光媒体、メモリデバイス(例えば、ランダムアクセスメモリ、フラッシュメモリ)などの非一時的コンピュータ読み取り可能な記憶媒体でありうる。いくつかの実施形態では、コンピュータプログラム443のCRI444は、PC402によって実行されるとCRIがオーディオレンダリング装置400に本明細書で説明する工程(例えば、フローチャートを参照して本明細書で説明する工程)を実行させるように構成される。他の実施形態では、オーディオレンダリング装置400がコードを必要とせずに、本明細書で説明する工程を実行するように構成されうる。すなわち、例えば、PC402は、1つ以上のASICのみから構成されうる。したがって、本明細書で説明される実施形態の特徴は、ハードウェアおよびソフトウェアの少なくともいずれかによって実装されうる。
【0087】
様々な実施形態の概要
【0088】
A1. オーディオレンダラ(151)によって実行される方法(300)であって、エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)と、第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程(s304)と、ここで、前記第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータであり、前記第1残響パラメータを用いて第2残響パラメータを導出する工程(s306)と、を有し、前記第1残響パラメータが前記残響時間パラメータである場合、前記第2残響パラメータは残響レベルパラメータであり、前記第1残響パラメータが前記残響レベルパラメータである場合、前記第2残響パラメータは残響時間パラメータである、ことを特徴とする方法。
【0089】
A2. 前記メタデータは、音響吸収量(A)を示す音響吸収パラメータを含み、前記第1残響パラメータは、前記音響吸収パラメータを用いて導出される、ことを特徴とする実施形態A1に記載の方法。
【0090】
A3. 前記第1残響パラメータは、残響音対直接音エネルギ比(RDR)値であり、前記RDR値を導出することは、16×(π/A)を計算することを含む、ことを特徴とする実施形態A2に記載の方法。
【0091】
A4. 前記第1残響パラメータは、前記残響時間パラメータ(RT)(例えば、RT60値)であり、前記第2残響パラメータを導出することは、Xを数とすると、X×RTまたはRT/Xを計算することを含む、ことを特徴とする実施形態A1またはA2に記載の方法。
【0092】
A5. 前記第1残響パラメータは、前記残響時間パラメータ(RT)(例えば、RT60値)であり、前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、前記第2残響パラメータを導出することは、f1を所定の係数、f2を所定の値(いくつかの実施形態ではf2=1)、Vを前記音響環境の前記容積を示す容積値とするとき、f1x(RT/V)または(f1x(RT/V)f2)を計算することを含む、ことを特徴とする実施形態A1またはA2に記載の装置。一実施形態では、f1は無指向性点音源からの距離dの関数である。例えば、cを所定の係数(例えば、c=3.1×102)とすると、f1はc×d2に等しい。別の実施形態では、f1が3.1×102に等しい。別の実施形態では、cを所定の係数(例えば、c=3.1×102)、Cを所定の係数とすると、f1=C×cである。
【0093】
A6. 前記第1残響パラメータは、前記残響レベルパラメータ(RL)であり、前記第2残響パラメータを導出することは、Xを数とすると、X×RLまたはRL/Xを計算することを含む、ことを特徴とする実施形態A1~A3のいずれか1つに記載の方法。
【0094】
A7. 前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、前記第2残響パラメータを導出することは、f1を所定の係数、Vを前記音響環境の前記容積を示す容積値、f2を所定の値とするとき、VxRL/f1または(Vx(RL/f1)1/f2)を計算することを含む、ことを特徴とする実施形態A6に記載の装置。
【0095】
A8. 前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、前記第1残響パラメータは前記残響時間パラメータ(RT)であり、前記第2残響パラメータを導出することは、Vを前記音響環境の前記容積、t1を時間値とするとき、
【数19】
を計算することを含む、ことを特徴とする実施形態1または2に記載の方法。
【0096】
A9. 前記第2残響パラメータは前記残響レベルパラメータであり、前記第2残響パラメータは、前記第1残響パラメータと所定の時間値t1とを用いて導出される、ことを特徴とする実施形態A1、A2、A4、A5のいずれか1つに記載の方法。
【0097】
A10. Cを前記第1残響パラメータと時間値t1とに依存する補正係数、cを所定の値とするとき、f1はC×cに等しい、ことを特徴とする実施形態A5に記載の方法。
【0098】
A11. Cは、
【数20】
に等しい、ことを特徴とする実施形態A10に記載の方法。
【0099】
A12.t1は、前記音響環境の少なくとも1つの寸法に基づいて導出される、ことを特徴とする実施形態A8からA11のいずれか1つに記載の方法。
【0100】
A13.t1は、前記音響環境の寸法に関連する音響飛行時間に比例する、ことを特徴とする実施形態A8からA11のいずれか1つに記載の方法。
【0101】
A14.Lを前記音響環境の最長寸法のサイズ、sを音速とするとき、t1=4xL/sである、ことを特徴とする実施形態A13に記載の方法。
【0102】
A15.t1は、前記音響環境に関連するプリディレイタイムを示す、ことを特徴とする実施形態A8からA11のいずれか1つに記載の方法。
【0103】
A16.t1は、前記音響環境に関連するルームインパルス応答の一部を示す時間値である、ことを特徴とする実施形態A8からA11のいずれか1つに記載の方法。
【0104】
A17.前記残響レベルパラメータは、残響音と音源の総放射エネルギとのエネルギ比で表される、ことを特徴とする実施形態A1からA16のいずれか1つに記載の方法。
【0105】
A18.前記第1残響パラメータと前記第2残響パラメータとを用いて残響信号を生成する工程と、前記残響信号を用いて出力オーディオ信号を生成する工程と、を更に有することを特徴とする実施形態A1からA17のいずれか1つに記載の方法。
【0106】
B1.オーディオレンダラ(151)によって実行される方法(350)であって、エクステンデッドリアリティ・シーンのメタデータから、少なくとも第1残響パラメータと第2残響パラメータとを含む残響パラメータのセットを取得する工程(s352)と、前記第1残響パラメータが前記第2残響パラメータと一致するかを判定する工程(s354)と、を有し、前記判定する工程は、前記第2残響パラメータを用いて第1の値を計算する工程(s356)と、前記第1の値と前記第1残響パラメータとの差をしきい値と比較する工程(s358)と、を含む、ことを特徴とする方法。
【0107】
B2.前記差が前記しきい値を超えると判定された結果、前記第1残響パラメータの代わりに前記第1の値を用いて残響信号を生成する工程を更に有することを特徴とする実施形態B1に記載の方法。
【0108】
B3.前記第1残響パラメータは残響レベルパラメータであり、前記第2残響パラメータは残響時間パラメータまたは吸収パラメータ(A)のいずれかである、または、前記第1残響パラメータは残響時間パラメータであり、前記第2残響パラメータは前記残響レベルパラメータまたは前記吸収パラメータ(A)のいずれかである、または、前記第1残響パラメータは前記吸収パラメータであり、前記第2残響パラメータは前記残響レベルパラメータまたは前記残響時間パラメータのいずれかである、ことを特徴とする実施形態B1またはB2に記載の方法。
【0109】
B4.前記残響パラメータのセットは、第3残響パラメータを更に含み、前記方法は、前記第1残響パラメータが前記第2残響パラメータと一致しないと判定された結果、前記第1残響パラメータが前記第3残響パラメータと一致するかを判定する工程を更に有し、前記第1残響パラメータが前記第3残響パラメータと一致するかを判定する工程は、前記第3残響パラメータを用いて第2の値を計算する工程と、を含む、ことを特徴とする実施形態B1に記載の方法
【0110】
前記第2の値と前記第1残響パラメータとの差を前記しきい値と比較すること。
【0111】
B5.前記第1残響パラメータが前記第2残響パラメータまたは前記第3残響パラメータのいずれかと一致しないと判定された結果、前記第1残響パラメータの代わりに前記第1の値または前記第2の値のいずれかを用いて残響信号を生成する工程を更に有することを特徴とする実施形態B4に記載の方法。
【0112】
C1.オーディオレンダラの処理回路によって実行されると前記オーディオレンダラに上記実施形態のいずれか1つの方法を実行させる命令を含む、ことを特徴とするコンピュータプログラム。
【0113】
C2.実施形態C1に記載のコンピュータプログラムを含むキャリアであって、前記キャリアは、電気信号、光信号、無線信号、コンピュータ読み取り可能な記憶媒体のうちの1つである、ことを特徴とするキャリア。
【0114】
D1.上記実施形態のいずれか1つの方法を実行するように構成されたオーディオレンダリング装置。
【0115】
D2.前記オーディオレンダリング装置は、メモリと、前記メモリに結合された処理回路とを備える、実施形態D1に記載のオーディオレンダリング装置。
【0116】
E1.オーディオレンダラによって実行される方法であって、エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)と、第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程と、前記第1残響パラメータを用いて第2残響レベルパラメータを導出する工程と、を有することを特徴とする方法。
【0117】
E2. 残響時間パラメータ(RT)を取得する工程を更に含み、
RDR
receivedを、前記第1残響レベルパラメータ、
t1を、前記オーディオレンダラによって使用される開始時間、
t2を、前記第1残響レベルパラメータに関連する開始時間(例えば、前記メタデータに含まれる開始時間)、とすると、
前記第2残響レベルパラメータは、
【数21】
に等しい、ことを特徴とする実施形態E1に記載の方法。
【0118】
様々な実施形態が本明細書に記載されているがそれらは、限定ではなく単なる例として提示されていることを理解されたい。したがって、本開示の幅および範囲は、上述の例示的な実施形態のいずれによって限定されるべきではない。さらに、本明細書に別段の指示がない限り、または文脈によって明らかに矛盾しない限り、そのすべての可能な変形形態における上記の目的の任意の組合せが、本開示によって包含される。
【0119】
加えて、上で説明され、図面に示された処理は、一連の工程として示されているが、これは単に例示のために行われたものである。したがって、何らかの工程が追加されてもよいし、いくつかの工程が省略されてもよいし、工程の順序が再配置されてもよいし、いくつかの工程が並行して実行されてもよい。
【手続補正書】
【提出日】2024-03-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオレンダラ(151)によって実行される方法(300)であって、
エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)と、
第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程(s304)と、ここで、前記第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータであり、
前記第1残響パラメータを用いて第2残響パラメータを導出する工程(s306)と、
を有し、
前記第1残響パラメータが前記残響時間パラメータである場合、前記第2残響パラメータは残響レベルパラメータであり、
前記第1残響パラメータが前記残響レベルパラメータである場合、前記第2残響パラメータは残響時間パラメータである、
ことを特徴とする方法。
【請求項2】
前記メタデータは、音響吸収量(A)を示す音響吸収パラメータを含み、
前記第1残響パラメータは、前記音響吸収パラメータを用いて導出される、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記第1残響パラメータは、残響音対直接音(RDR)エネルギ比値であり、
前記RDRエネルギ比値を導出することは、16×(π/A)を計算することを含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記第1残響パラメータは、前記残響時間パラメータ(RT)(例えば、RT60値)であり、
前記第2残響パラメータを導出することは、Xを数とすると、X×RTまたはRT/Xを計算することを含む、
ことを特徴とする請求項1
に記載の方法。
【請求項5】
前記第1残響パラメータは、前記残響時間パラメータ(RT)(例えば、RT60値)であり、
前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、
前記第2残響パラメータを導出することは、
f1を所定の係数、f2を所定の値、Vを前記音響環境の前記容積を示す容積値とするとき、f1x(RT/V)または(f1x(RT/V)
f2)を計算することを含む、
ことを特徴とする請求項1
に記載の方法。
【請求項6】
前記第1残響パラメータは、前記残響レベルパラメータ(RL)であり、
前記第2残響パラメータを導出することは、Xを数とすると、X×RLまたはRL/Xを計算することを含む、
ことを特徴とする請求項1
に記載の方法。
【請求項7】
前記第1残響パラメータは、前記残響レベルパラメータ(RL)であり、
前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、
前記第2残響パラメータを導出することは、
f1を所定の係数、Vを前記音響環境の前記容積を示す容積値、f2を所定の値とするとき、VxRL/f1または(Vx(RL/f1)
1/f2)を計算することを含む、
ことを特徴とする請求項1
に記載の方法。
【請求項8】
前記第1残響パラメータおよび前記第2残響パラメータは、容積を有する音響環境に関連付けられており、
前記第1残響パラメータは前記残響時間パラメータ(RT)であり、
前記第2残響パラメータを導出することは、
Vを前記音響環境の前記容積、t1を時間値とするとき、
【数22】
を計算することを含む、
ことを特徴とする請求項1
に記載の方法。
【請求項9】
前記第2残響パラメータは前記残響レベルパラメータであり、
前記第2残響パラメータは、前記第1残響パラメータと所定の時間値t1とを用いて導出される、
ことを特徴とする請求項1
に記載の方法。
【請求項10】
Cを前記第1残響パラメータと時間値t1とに依存する補正係数、cを所定の値とするとき、
f1はC×cに等しい、
ことを特徴とする請求項5に記載の方法。
【請求項11】
Cは、
【数23】
に等しい、ことを特徴とする請求項10に記載の方法。
【請求項12】
t1は、前記音響環境の少なくとも1つの寸法に基づいて導出される、ことを特徴とする請求項8
に記載の方法。
【請求項13】
t1は、前記音響環境の寸法に関連する音響飛行時間に比例する、ことを特徴とする請求項8
に記載の方法。
【請求項14】
Lを前記音響環境の最長寸法のサイズ、sを音速とするとき、t1=4xL/sである、ことを特徴とする請求項13に記載の方法。
【請求項15】
t1は、前記音響環境に関連するプリディレイタイムを示す、ことを特徴とする請求項8
に記載の方法。
【請求項16】
t1は、前記音響環境に関連するルームインパルス応答の一部を示す時間値である、ことを特徴とする請求項8
に記載の方法。
【請求項17】
前記残響レベルパラメータは、残響音と音源の総放射エネルギとのエネルギ比で表される、ことを特徴とする請求項1
に記載の方法。
【請求項18】
前記第1残響パラメータと前記第2残響パラメータとを用いて残響信号を生成する工程と、
前記残響信号を用いて出力オーディオ信号を生成する工程と、
を更に有することを特徴とする請求項1
に記載の方法。
【請求項19】
オーディオレンダリング装置(400)であって、前記オーディオレンダリング装置は、
エクステンデッドリアリティ・シーンのメタデータを取得する工程(s302)と、
第1残響パラメータを、前記メタデータから取得する、または、前記メタデータから導出する工程(s304)と、ここで、前記第1残響パラメータは、残響時間パラメータまたは残響レベルパラメータであり、
前記第1残響パラメータを用いて第2残響パラメータを導出する工程(s306)と、
を含む処理を実行するように構成され、
前記第1残響パラメータが前記残響時間パラメータである場合、前記第2残響パラメータは残響レベルパラメータであり、
前記第1残響パラメータが前記残響レベルパラメータである場合、前記第2残響パラメータは残響時間パラメータである、
ことを特徴とするオーディオレンダリング装置。
【請求項20】
請求項2から18のいずれか1項に記載の方法を実行するように更に構成されている、ことを特徴とする請求項
19に記載のオーディオレンダリング装置。
【国際調査報告】