IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンテン フォルシュング エー ファウの特許一覧

特表2024-541712初期反射パターンを使用した可聴化のための概念
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-11
(54)【発明の名称】初期反射パターンを使用した可聴化のための概念
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241101BHJP
   G10K 15/08 20060101ALI20241101BHJP
【FI】
H04S7/00 300
G10K15/08
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024527265
(86)(22)【出願日】2022-11-08
(85)【翻訳文提出日】2024-06-28
(86)【国際出願番号】 EP2022081092
(87)【国際公開番号】W WO2023083792
(87)【国際公開日】2023-05-19
(31)【優先権主張番号】21207274.8
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】594102418
【氏名又は名称】フラウンホーファー-ゲゼルシャフト ツル フェルデルング デル アンゲヴァンテン フォルシュング エー ファウ
【氏名又は名称原語表記】Fraunhofer-Gesellschaft zur Foerderung der angewandten Forschung e.V.
【住所又は居所原語表記】Hansastrasse 27c, D-80686 Muenchen, Germany
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100225543
【弁理士】
【氏名又は名称】上原 真
(72)【発明者】
【氏名】アンドレアス シルツル
(72)【発明者】
【氏名】ユルゲン ヘレ
(72)【発明者】
【氏名】デニス ローゼンバーガー
(72)【発明者】
【氏名】ヨウニ パウルス
(72)【発明者】
【氏名】クリスティアン ボース
(72)【発明者】
【氏名】アレクサンダー アダミ
【テーマコード(参考)】
5D162
5D208
【Fターム(参考)】
5D162AA13
5D162CA26
5D162CC18
5D162CC36
5D162CC37
5D162CD07
5D162CD17
5D162EG02
5D208AB18
(57)【要約】
本出願は、可聴化のための初期反射処理概念に関する。実施形態は、初期反射を考慮したサウンドレンダリング用の装置及び方法、並びに、初期反射パターンを決定するための装置及び方法に関する。
【選択図】図2
【特許請求の範囲】
【請求項1】
サウンドレンダリング用の初期反射パターン(1)を決定するための装置(100)であって、
音響環境(5)の音響特性を表す少なくとも1つの室内音響パラメータ(310)を受信すること、及び
リスナ位置(10)を中心とする1つ以上の螺旋関数(3、4)をパラメータ化し、且つ、前記1つ以上の螺旋関数(3、4)を使用して初期反射位置を配置することによって、初期反射位置のコンステレーションを示す初期反射パターン(1)を決定すること
を行うように構成される、装置(100)。
【請求項2】
請求項1に記載の装置(100)において、前記初期反射パターン(1)は、前記初期反射位置が、前記リスナ位置(10)の周囲に、且つ、前記リスナ位置(10)から角度方向に位置するように、前記リスナ位置(10)に配置されるためのものであり、前記角度方向は、リスナ頭部の向きの変化に対して不変である、装置(100)。
【請求項3】
請求項1又は請求項2に記載の装置(100)において、前記少なくとも1つの室内音響パラメータ(310)は、
部屋の寸法、
部屋の容積、及び
後期残響までのプリディレイ時間
のうちの1つ以上を含む、装置(100)。
【請求項4】
請求項1~3のいずれか一項に記載の装置(100)において、前記少なくとも1つの室内音響パラメータ(310)は、
部屋の寸法、
部屋の音量、及び
後期残響までのプリディレイ時間
から選択された1つのパラメータのみを含む、装置(100)。
【請求項5】
請求項1~3のいずれか一項に記載の装置(100)において、前記1つ以上の螺旋関数(3、4)は、第1螺旋関数(3)及び第2螺旋関数(4)を含み、第1セットの初期反射位置のそれぞれが、第2セットの初期反射のうちの対応する初期反射位置に関連付けられ、且つ、各初期反射位置と対応する初期反射位置との間の接続ラインと垂直に交差するラインに対して互いに反対側に位置するように、前記装置(100)は、前記第1螺旋関数(3)を使用して第1セットの初期反射位置を配置し、且つ前記第2螺旋関数(4)を使用して第2セットの初期反射位置を配置するように構成される、装置(100)。
【請求項6】
請求項5に記載の装置(100)において、前記第1セットの初期反射位置のそれぞれについて、前記第2セットの初期反射のうちの対応する初期反射位置は、前記第1セットの初期反射位置のうちのすべての初期反射位置について共通の角度方向に、前記接続ラインに対して角度的にオフセットされる、装置(100)。
【請求項7】
請求項1から6のいずれか一項に記載の装置(100)において、前記1つ以上の螺旋関数(3、4)は、第1螺旋関数(3)及び第2螺旋関数(4)を含み、第1セットの初期反射位置が極座標で(r1、β1)として決定され、第2セットの初期反射位置が極座標で(r2、β2)として決定されるように、前記装置(100)は、前記第1螺旋関数(3)を使用して前記第1セットの初期反射位置を配置し、且つ、前記第2螺旋関数(4)を使用して前記第2セットの初期反射位置を配置するように構成され、ここで、
【数1】
であり、nERは初期反射位置の数であり、distfactorは定数である、装置(100)。
【請求項8】
請求項7に記載の装置(100)であって、前記少なくとも1つの室内音響パラメータ(310)に基づいて、前記distfactorを決定するように構成される、装置(100)。
【請求項9】
請求項7に記載の装置(100)であって、後期残響までのプリディレイ時間が大きいほど、前記distfactorが大きくなるように、前記distfactorを決定するように構成される、装置(100)。
【請求項10】
請求項7に記載の装置(100)であって、前記少なくとも1つの室内音響パラメータ(310)に基づいて、前記nERを決定するように構成される、装置(100)。
【請求項11】
請求項1~10のいずれか一項に記載の装置(100)であって、前記初期反射パターン(1)を使用してレンダリングされることになるオーディオ信号の表現を含むビットストリーム(300)から、前記少なくとも1つの室内音響パラメータ(310)を読み取るように構成される、装置(100)。
【請求項12】
請求項1~11のいずれか一項に記載の装置(100)であって、
部屋の寸法が大きくなるほど、前記初期反射位置の数が大きくなるように、又は
部屋の容積が大きくなるほど、前記初期反射位置の数が大きくなるように、又は
後期残響までのプリディレイ時間が大きくなるほど、前記初期反射位置の数が大きくなるように、
前記初期反射位置の数を決定するように構成される、装置(100)。
【請求項13】
請求項1~12のいずれか一項に記載の装置(100)であって、
前記1つ以上の螺旋関数(3、4)をパラメータ化することと、及び
前記初期反射位置の数を決定することであり、
部屋の寸法が大きいほど、又は
部屋の容積が大きいほど、又は
後期残響までのプリディレイ時間が大きいほど、
前記初期反射位置のうちの最も離れた位置からリスナまでの距離が大きく、前記距離は、前記プリディレイ時間よりも小さいものであるように、該決定することと、
を行うように構成される、装置(100)。
【請求項14】
請求項1~13のいずれか一項に記載の装置で(100)であって、
前記初期反射パターン(1)の第1の決定及び前記初期反射パターン(1)の第2の決定を支援することであり、前記第1の決定は、前記第2の決定とは異なり、また前記リスナ位置(10)を中心とする1つ以上の螺旋関数(3、4)をパラメータ化すること、及び前記1つ以上の螺旋関数(3、4)を使用して前記初期反射位置を配置することを伴う、該支援すること、並びに
前記音響環境(5)が屋内環境である場合、又はレンダリングされることになるオーディオ信号の表現を含むビットストリーム(300)内のパターンタイプインデックスが、所定の状態を仮定する場合に、前記第1の決定を選択すること
を行うように構成される、装置(100)。
【請求項15】
請求項1~14のいずれか一項に記載の装置(100)であって、前記初期反射位置が、前記リスナ位置(10)とともに水平面内に存在するように、前記初期反射位置を決定するように構成される、装置(100)。
【請求項16】
請求項1~15のいずれか一項に記載の装置(100)であって、レンダリングされることになるオーディオ信号の表現を含むビットストリーム(300)内のパターン方位パラメータに従って前記コンステレーションの方位回転を調整することにより、前記初期反射位置を決定するように構成される、装置(100)。
【請求項17】
サウンドレンダリング用の装置(200)であって
リスナ位置(10)及び音源位置に関する第1情報を受信することと、並びに
室内インパルス応答(400)を使用して、音源のオーディオ信号をレンダリングすることであり、前記室内インパルス応答(400)の初期反射部分(410)は前記初期反射パターン(1)によって決定され、前記初期反射パターン(1)は、
初期反射位置のコンステレーションを示し、また
前記初期反射位置が、前記リスナ位置(10)の周囲に、且つ、前記リスナ位置(10)から角度方向に位置するように、前記リスナ位置(10)に配置され、前記角度方向は、リスナ頭部の向きの変化に対して不変のものである、
該レンダリングすることと、
を行うように構成され、
前記装置(200)は、請求項1~16のいずれか一項に記載の、初期反射パターン(1)を決定するための装置(100)を備える、装置(200)。
【請求項18】
請求項17に記載の装置(200)であって、さらに、前記室内インパルス応答(400)の拡散後期残響部分を生成するように構成される、装置(200)。
【請求項19】
請求項17又は請求項18に記載の装置(200)であって、さらに、前記オーディオ信号をレンダリングする際に、前記室内インパルス応答(400)の直接音源部分に関連する直接音寄与ラウドスピーカ信号(222)と、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)とに対する合計を形成することによって、ラウドスピーカ信号(252)のセットを生成するように構成される、装置(200)。
【請求項20】
請求項17~19のいずれか一項に記載の装置(200)であって、さらに、前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行することによって、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)を生成するように構成される、装置(200)。
【請求項21】
請求項20に記載の装置(200)であって、さらに、
前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行することによって、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)を生成する際に、
各初期反射位置から前記リスナ位置(10)までの距離に応じてレベルを調整する方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングするように構成される、装置(200)。
【請求項22】
請求項21に記載の装置(200)であって、さらに、各初期反射位置から前記リスナ位置(10)までの距離に応じてレベルを調整する方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングする際に、
各初期反射位置から前記音源のオーディオ信号がレンダリングされるレベルを、レベルオフセットを使用してオフセットすること(20)、又はレベル係数で前記レベルを増幅することであり、前記レベルオフセット若しくはレベル係数は、すべての初期反射位置について共通である、該オフセット又は増幅すること、並びに、
振幅補正係数に応じて前記レベルオフセット若しくはレベル係数を設定すること
を行うように構成される、装置(200)。
【請求項23】
請求項21又は請求項22に記載の装置(200)であって、さらに、各初期反射位置から前記リスナ位置(10)までの距離に応じてレベルを調整する方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングする際に、距離減衰指数に従って前記音源位置から前記オーディオ信号をレンダリングするための装置(200)によって使用されるレベル調整に対して、各初期反射位置から前記リスナ位置までの距離に応じたレベル調整を修正するように構成される、装置(200)。
【請求項24】
請求項20~23のいずれか一項に記載の装置(200)であって、さらに、前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行することによって、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)を生成する際に、1つ以上の周波数応答パラメータに従ってスペクトル的に成形される方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングするように構成される、装置(200)。
【請求項25】
請求項17~24のいずれか一項に記載の装置(200)であって、さらに、前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行する際に、リスナ頭部の向きに特有のHRTFを使用するように構成される、装置(200)。
【請求項26】
請求項17~25のいずれか一項に記載のサウンドレンダリングの対象となるビットストリーム(300)。
【請求項27】
請求項26に記載のサウンドレンダリングの対象となるビットストリーム(300)を記憶するデジタル記憶媒体。
【請求項28】
サウンドレンダリング用の初期反射パターン(1)を決定する方法であって
音響環境(5)の音響特性を表す少なくとも1つの音響パラメータ(310)を受信するステップと、
リスナ位置(10)を中心とする1つ以上の螺旋関数(3、4)をパラメータ化し、且つ、前記1つ以上の螺旋関数(3、4)を使用して初期反射位置を配置することによって、初期反射位置のコンステレーションを示す初期反射パターン(1)を決定するステップと、
を備える、方法。
【請求項29】
サウンドレンダリングの方法であって、
リスナ位置(10)及び音源位置に関する第1情報を受信するステップと、
室内インパルス応答(400)を使用して、音源のオーディオ信号をレンダリングするステップであり、前記室内インパルス応答(400)の初期反射部分(410)は初期反射パターン(1)によって決定され、前記初期反射パターン(1)は、
初期反射位置のコンステレーションを示し、また
前記初期反射位置が、前記リスナ位置(10)の周囲に、且つ、前記リスナ位置(10)から角度方向に位置するように、前記リスナ位置(10)に配置され、前記角度方向は、リスナ頭部の向きの変化に対して不変のものである、
該レンダリングするステップと、
を備え
前記方法は、請求項28に記載の、初期反射パターン(1)を決定するための方法を含む、方法。
【請求項30】
コンピュータプログラムであって、前記コンピュータプログラムを実行した際に、コンピュータに、請求項28又は請求項29に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、可聴化のための初期反射処理概念に関する。
【0002】
室内インパルス応答(RIR:room impulse response)は、音響環境(部屋)内の音源と、レシーバ(すなわち、リスナ)との間の関係を記述する。室内インパルス応答は、時間領域における単位インパルスに対する部屋の応答を特定し、また周波数領域における室内伝達関数に対応する。室内インパルス応答は、直接音の経路、初期反射(ERs:early reflections)、及び拡散的な後期残響で構成される。
【0003】
仮想及び拡張現実(VR/AR)アプリケーション用のバイノーラル(又はラウドスピーカ)レンダリングでは、特定の音源及びリスナの位置からの室内インパルス応答は、かなり変化する可能性がある。6自由度(6DOF)VR/ARアプリケーションでは、リスナは、通常、シーン全体で自由に移動でき、そのため、室内インパルス応答が絶えず変化する。その結果、壁の幾何学的形状(ジオメトリ)、遮蔽物、及び物理的に正確な反射パターンを計算するためのその他の効果を考慮に入れて、音源からリスナへの各反射を決定するのに、膨大な量の計算を費やさなければならない。
【0004】
知覚的に納得のいくレンダリングを行うために、室内の初期反射(ER)パターンの正確な音響再生が必要ではないこと、及び、このレンダリングは、部屋の正確な幾何学的形状の(ジオメトリックな)詳細から大部分を抽象化する方法で行うことが可能なことが、本発明の知見である。このようにして、多くの計算を省くことができる。反射パターンをエンコーダからレンダラに送信しなければならない場合、リスナ位置に応じて反射を効率的に計算することに関連付けられたサイド情報(side information)のかなりの部分を、通常のジオメトリベースのレンダリングにおける従来技術と比較して省略することができる。
【背景技術】
【0005】
非特許文献[1]は、正確に計算された「現実の」ERを、より一般的で単純なERパターンに置き換えることに関する。この着想は、大きな部屋(例えば、コンサートホール)のステージ上の小さな又は大きな音源(例えば、オーケストラ)を記述する、知覚的直交パラメータ(perceptually orthogonal parameters)を発見し、記述し、またシミュレートし(非特許文献[2]及び[3])、それらをラウドスピーカ設定(例えば、ステレオ)で又はバイノーラルオーバーヘッドフォンで再生することであった。作曲家又はサウンドエンジニアは、これらのパラメータ(音源の存在、音源の暖かさ、音源の輝き、部屋の存在、動的残響、包み込まれた感じ(envelopment)、及び残響など)を利用して、シーンを設定することができた。SPATソフトウェアは、その種の製作のために長期間使用されてきた(非特許文献[4])。この手法は、MPEG-4(ISO規格)でも採用された(非特許文献[5])。
【0006】
動的な6DOF環境では、部屋の音響記述(寸法、RT60、…)は、かなりの量に変化する可能性がある。音源及びレシーバの位置は完全に自由であり、また聴覚化のためにリアルタイムで計算されることになる。知覚パラメータは、これらの変化する物理的設定に大きく依存しており、定数として定義することができず、そのため、このタスクには適切ではない。
【0007】
本明細書において、本発明は、単純で基本的なERパターンを選択し且つ調整するのに、環境のほんのわずかな基本的物理パラメータしか必要としない、新しいアプローチを有する。このアプローチは、パラメータを定義するために特定のサウンドエンジニアリングバックグラウンドが必要ないという利点を有する。パラメータは、物理モデルから直接得られる。使用される単純なERパターンは、様々な部屋のサイズ及び様々なRT60値に適応可能である。屋外環境についてさえも、単純なERパターンが定義されるが、SPATではそうではなかった。人間の聴覚系が、初期反射の微細構造を解析できないので(例えば、非特許文献[6])、完全な物理的に正しいシミュレーションに対するこのアプローチによる知覚的な劣化は限定される。
【0008】
以下の新しく発明された単純ERパターンでは、RT60、プリディレイ(predelay)時間、部屋の容積若しくは部屋の寸法、及びRT60の周波数依存性のような室内音響パラメータが使用される。ERパターンは、具体的には、直接音と後期残響の間の滑らかな遷移を作り出すように定義される。これは、周波数的にニュートラルであり、壁と音源開口部とレシーバとの間における近接度に基づくものとすべきである。
【0009】
部屋全体の音響パラメータに適合し、リスナに対してもっともらしくまた納得のいく知覚を生み出すことが狙いである。リスナは「現実の」物理的に正確なERと直接比較することはできないため、これは、ほとんどの場合に十分である。
【0010】
特にリアルタイムの聴覚仮想環境及び拡張現実のような用途において、特に視認性の確認を伴うERの正確な幾何学的計算を消費することを回避することができる。「現実の」ERの正確な計算は、音源及びリスナの正確な(且つ時間的に変化する)位置に応じて、ERを出現及び消失させることによってアーチファクトを生成するのに、困難かつ敏感となる場合もある。これは、ある音響環境から、異なる音響パラメータによって定義される別の環境に移動することによってシーンに入るときに一度計算された一定のERパターンを使用することにより、回避することができる。
【0011】
本発明は、エンコーダ-ビットストリーム-レンダラのシナリオを利用する。あるケース(a)では、レンダラ単独で利用可能な室内音響パラメータを用いて、デフォルトの単純ERパターンを計算することができる。これらのパラメータは、音源-リスナ間の距離及び音源-リスナ間の方位角によって、リアルタイムで調整される。ケース(b)では、シーンの幾何学的形状が、エンコーダ内で、より高度な方法で事前解析される。次いで、少数のERのうちの単純なERパターンが、エンコーダで事前計算され、ビットストリームでレンダラに送信される。ここでは、(a)のケースと同様の方法で、リスナ距離及び角度(又はレンダリング時に利用可能な他の情報)によって調整される。これらの2つのケースにより、後にさらなる解析知識をエンコーダに組み込むことができる、将来見込まれる幅広いアプローチに対する完全な柔軟性が与えられる。
【0012】
(動機)
室内インパルス応答(RIR:room impulse response)は、音響環境(部屋)内の音源とレシーバ(リスナ)との間の関係を記述し、単位インパルスに対する部屋の応答を明示する(例えば、図21参照)。室内インパルス応答は、直接音の経路、初期反射(ER)、及び拡散的な後期音部分から構成される。図21は、音響室内シミュレーションプログラムRAVENを用いて生成された、2次のERを有するモノラルRIRの例を示す(非特許文献[7])。
【0013】
特に、多くの表面によって定義される複雑な物理環境/部屋では、必要な視認性確認(「この音源は、リスナに対して直接視線内にあるか?」)による幾何学的に正しいERの計算は、非常に時間がかかる。一方、人間の聴覚知覚が、直接音に関するERについての多くの詳細を抑制すること(第1波面の法則、先行音効果、シーン解析(非特許文献[8]及び[9])、またしたがって、多くの場合、納得のいくレンダリング品質を達成するのに、インパルス応答におけるER部分の正確なモデリングは必要ないことが知られている(例えば、非特許文献[6])。聴覚系は、ERを利用して、いくつかの知覚的属性を決定又は精緻化する。その中には、以下のものが存在する。
・レシーバに対する音源の位置
・音源‐レシーバ間距離
・みかけの音源の幅(ASW)
・境界のレベル及び周波数依存吸収(非特許文献[10])
・閉じた境界に対する近接度
【0014】
(発明の背景)
ER計算を単純化するためのいくつかのアプローチが知られている。第1のアプローチは、ERの計算を完全に回避するだけ、すなわち、シミュレートされたERのない音をレンダリングすること、すなわち、直接音及び後期残響のみをレンダリングすることである(図22参照)。後期残響は、いわゆるプリディレイ時間に開始する。図22は、直接音と、プリディレイ時間0.13sに開始する後期残響と、を有するRIRを示しており、ERはない。
【0015】
次の可能性は、幾何学的に厳密な1次反射のみを計算することである(図23参照)。靴箱状の部屋では、こうすることで、ERの数が約27から6に減少する。図23は、1次反射と、後期残響(左側)と、平面図(右側)とを有するRIRを示している。正方形(赤)は音源であり、円(青)はレシーバであり、円と正方形を結ぶライン(赤)は直接音であり、円から出てくるさらなるライン(青)は残響であり、長さは対数レベルに比例する。
【0016】
次の可能性は、直接音と並んだ2つのERだけである(図24参照)。ASWに対する側方反射の影響は、コンサートホール音響学により知られている(非特許文献[11])。これは、真の幾何学的シミュレーションと比較して、計算が非常に簡単であることに留意されたい。図24は、直接音に並んだ2つの反射を有するRIRと(左)、上面図(右)を示す。
【0017】
次のパターンでは、2つのサイド(側方)反射が、直接音の各サイドへの4つの反射と、それぞれが(±45°及び±135°にある)4つの反射から構成される4つの固定音源位置独立反射配列とによって置き換えられる(図25参照)。このパターンは、SPATアルゴリズムによって着想を得ているが(非特許文献[1]及び[5])、すべての詳細、特にすべての入力パラメータの効果を実装しているわけではない。このパターン用のパラメータは、特に、ASWのような知覚レシーバの属性を生成するように定義される。RT60の他に、室内音響特性は使用されない。図25は、「SPAT」パターンを有するRIR(左)、及び上面図(右)を示す。クロス部分(緑色及び青色)はERである。
【0018】
前述のアプローチは、ERパターンを定義する入力パラメータが知覚パラメータとなるように設計される。知覚パラメータは、ERによって引き起こされるリスナの知覚を記述する必要がある。欠点は、ルーム関連パラメータにあいまいにしか適応しないことである。音源の存在、音源の温かさ、音源の輝き、部屋の存在、動的残響、包み込まれた感じ、及び残響などの知覚的に定義されたパラメータを設定するには、音響工学の知識及び経験が必要である。このことは、リアルタイムVR/ARシステムの物理的特性を定義し、且つ、知覚音エンジニアリングの経験を持っていない設計者にとって、明らかな欠点である。特に、VR用途の場合、仮想物理空間の幾何学的形状は、視覚化プロセスの副産物としてよく知られていることが多い。また、SPATアルゴリズムで知られている屋外環境用のERパターンも存在しない。
【発明の概要】
【発明が解決しようとする課題】
【0019】
本発明の目的は、ERパターンを定義するための室内音響及び物理パラメータを明示的に使用することによって、最新技術の欠点を回避することである。さらに、部屋の特性に応じて異なるパターンが定義され、これらのパターンは、(幾何学的形状の正確な記述が困難な)屋外環境にも適している。パターンは、部屋のサイズ又はその他の物理パラメータに応じて、異なる数のERを有する。
【0020】
新しいERパターンは、
・「現実の」ERに比べて知覚的にもっともらしいレンダリング
・「現実の」ER計算に比べて計算量が減少すること
・部屋の物理特性に応じたERパターンの適応
・必要なパラメータを設定するのに、特定の音響工学スキル及び経験を必要としないこと
・屋内及び屋外用の別々のERパターン
・(ビットストリームの送信を含むエンコーダ/ビットストリーム/レンダラシナリオの場合)レンダラ内で所定のパターンが計算される場合、追加のサイド情報が必要ないこと
・(ビットストリームの送信を含むエンコーダ/ビットストリーム/レンダラシナリオの場合)、事前定義されたパターンが、エンコーダ内でシーン形状から計算される場合、必要とされる追加の側方情報が非常に少ないこと、
を特徴とする。
【0021】
これは、部屋の正確な幾何学的形状に依存せず、パラメータ化可能であるが固定された空間ERパターンを使用することによって達成される。本発明の好ましい実施形態では、パターンは、部屋内のリスナ位置にも依存しない。代わりに、1つ(又は数個)の全体特性パラメータのみが、ERパターンを構成するために使用される。このようにして、極めて効率的にパターンをレンダリングすることができる。
【0022】
以下の新たに発明されたERパターンでは、具体的には、RT60、プリディレイ時間、部屋の寸法又は部屋の容積、及びパターン構成用のRT60の周波数依存性のような、室内音響パラメータが使用される。ERパターンは、直接音と後期残響との間に(時間的に)滑らかな遷移を作り出すように定義される。ニュートラルな音色にする必要がある。ERパターンは部屋の容積と表面に依存する。ERパターンは、部屋の中の音源及び受信機の位置に依存しない。
【0023】
本発明の目的は、室内音響パラメータ全体に適合し、リスナにとってもっともらしく且つ納得のいく知覚を作り出すことである。これは、特にリスナが「現実の」物理的に正確なERのレンダリングと直接比較する可能性がないので、ほとんどの使用事例で十分である。
【課題を解決するための手段】
【0024】
本発明の第1の態様によれば、本出願の発明者らは、オーディオ信号の初期反射(ER)レンダリングを利用しようとするときに遭遇する1つの問題は、初期反射が音源位置とリスナ位置との間の関係に依存する、という事実に起因することを認識した。本発明者らは、レンダリング結果が依然として非常に良好であると同時に、ERレンダリングがより容易になるように、例えば床反射なしに、音源位置非依存ERパターンを考慮することが可能であることを見出した。レンダリングに使用される室内インパルス応答の初期反射部分は、初期反射パターンによってのみ決定される。音源とリスナの間の空間的関係は、室内インパルス応答の初期反射部分に対しては考慮されない。さらに、初期反射パターンにおける初期反射位置は、リスナ頭部の向きの変化に関して不変である。このことは、リスナが、音源を見るか、それとも任意の他の方向を見るかにかかわらず、室内インパルス応答の初期反射部分を決定するために、同一のERパターンを使用することが可能であるという発見に基づく。
【0025】
したがって、本出願の第1の態様によれば、サウンドレンダリング用の装置が、リスナ位置及び音源位置に関する情報を受信するように構成される。装置は、室内インパルス応答を使用して、音源のオーディオ信号をレンダリングするように構成され、室内インパルス応答の初期反射部分は、初期反射パターンによってのみ決定される。初期反射パターンは、初期反射位置のコンステレーション/配座群(constellation)を示し、例えば、コンステレーションは、これらの位置同士を接続するライン間の角度の観点から定義するとともに、位置のセットを示し、同義語は、「パターン」とする。初期反射パターンは、初期反射位置が、リスナ位置の周囲に、且つ、リスナ位置から角度方向に位置するように、リスナ位置に配置され、角度方向がリスナ頭部の向きの変化に対して不変である、すなわち、コンステレーションは、リスナ位置に平行移動的に配置される。
【0026】
本発明の第2の態様によれば、本出願の発明者らは、オーディオ信号の初期反射(ER)レンダリングを利用しようとする際に遭遇する1つの問題は、屋外環境用の初期反射パターンが、非常に個別的であり、シーンの物理的設定に依存する、という事実に起因することを認識した。本発明者らは、環境の中程度の解析を利用して生成されたERパターンが、音響的に納得がいくが、計算的には中程度のERレンダリング結果をもたらすことができることを見出した。
【0027】
したがって、本出願の第2の態様によれば、サウンドレンダリング(描出)用の初期反射パターンを決定するための装置が、音響環境の幾何解析を実行するように構成され、幾何解析は、1つ以上の解析位置のそれぞれにおいて、各解析位置からの異なる距離のそれぞれに対して、初期反射寄与を表す値を示す関数を決定すること、及び、1つ以上の最大値に関して、関数又は関数から導出されるさらなる関数を検査して、1つ以上の制御パラメータを導出すること、によって実行される。付加的に、装置は、1つ以上の制御パラメータを使用して初期反射位置を配置することによって、初期反射位置のコンステレーションを示す初期反射パターンを決定するように構成される。
【0028】
本発明の第3の態様によれば、本出願の発明者らは、オーディオ信号の初期反射(ER)レンダリングを利用しようとする際に遭遇する1つの問題が、レンダリング用のオーディオシーンの初期反射パターンの伝送が、高いシグナリングコストをもたらす可能性があるという事実に起因することを認識した。本発明者らは、ビットストリームヒントを使用することによって、ERパターンを生成することができ、その結果、音響的に納得がいくが、計算的には中程度なERレンダリング結果が得られることを見出した。完全なERパターンを送信する必要がないので、ビットストリームにおいてヒントのみを使用することによって、シグナリングコストを低減することができる。
【0029】
したがって、本出願の第3の態様によれば、サウンドレンダリング用の装置が、リスナ位置及び音源位置に関する第1情報を受信するように構成される。装置は、音源位置に配置された音源のオーディオ信号の表現と、1つ以上の初期反射パターンパラメータと、を含むビットストリームを受信し、また例えば、ビットストリームから、オーディオ信号の表現及び初期反射パターンパラメータを読み取るように構成される。例えば、ビットストリームは、ビットストリームのヘッダ又はメタデータフィールド内に初期反射パラメータを有するオーディオビットストリーム、又は、ファイルフォーマットストリームのパケット若しくはファイルフォーマットストリームのトラック内に初期反射パラメータを有し、オーディオ信号を表すオーディオビットストリームを含むファイルフォーマットストリームである。付加的に、装置は、1つ以上の初期反射パターンパラメータに応じて、初期反射位置のコンステレーションを示す初期反射パターンを決定するように構成される。さらに、装置は、室内インパルス応答を使用して、音源のオーディオ信号をレンダリングするように構成され、室内インパルス応答の初期反射部分は、初期反射パターンによって決定される。初期反射パターンは、初期反射位置のコンステレーションを示し、例えば、コンステレーションは、これらの位置同士を接続するライン間の角度の観点から位置の相互配置を定義するとともに、位置のセットを示し、同義語は、「パターン」とする。初期反射パターンは、初期反射位置が、リスナ位置の周囲に、且つ、リスナ位置から角度方向に位置するように、リスナ位置に配置され、角度方向がリスナ頭部の向きの変化に対して不変である、すなわち、コンステレーションは、リスナ位置に平行移動的に配置される。
【0030】
本発明の第4の態様によれば、本出願の発明者らは、オーディオ信号の初期反射(ER)レンダリングを利用しようとする際に遭遇する1つの問題は、壁の幾何学的形状、遮蔽物、及び物理的に正確な反射パターンを計算するためのその他の効果を考慮に入れて、音源からリスナへの各反射を決定するのに、膨大な量の計算を費やされなければならないという事実に起因することを認識した。本発明者らは、部屋の寸法、部屋の容積又はプリディレイのような単純な室内音響パラメータを利用して、初期反射パターン内の初期反射位置の数を決定することができることを見出した。初期反射は、部屋の音響パラメータに応じて近似できるので、シーンの現実の初期反射を解析する必要はない。本発明者らは、室内音響パラメータに対するER数の依存性によるERパターンの生成が、音響的に説得力があるが、計算的には中程度なERレンダリング結果をもたらすことを見出した。
【0031】
したがって、本出願の第4の態様によれば、サウンドレンダリング用の初期反射パターンを決定するための装置は、音響環境の音響特性を表す少なくとも1つの室内音響パラメータを受信するように構成される。装置は、初期反射位置の数が少なくとも1つの室内音響パラメータに依存するように、初期反射位置のコンステレーションを示す初期反射パターンを決定するように構成される。
【0032】
本発明の第5の態様によれば、本出願の発明者らは、オーディオ信号の初期反射(ER)レンダリングを利用しようとする際に遭遇する1つの問題は、各音源が異なる初期反射パターンに関連付けられるという事実に起因することを認識した。本発明者らは、異なる音源の信号に対して異なるERパターンを使用する必要がないことを見出した。このことは、ERパターンに基づいて加重和をレンダリングするように、音源-リスナ間の関係に基づいて信号を重み付けし且つ合計することが可能である、という着想に基づいている。本発明者らは、2つ以上の音源に対するERパターンの使用によるERレンダリングが、音響的に説得力があるが、計算的には中程度なERレンダリング結果をもたらすことを見出した。
【0033】
したがって、本出願の第5の態様によれば、サウンドレンダリング用の装置が、リスナ位置、第1音源位置及び第2音源位置に関する情報を受信するように構成される。装置は、室内インパルス応答を使用して、2つの音源のオーディオ信号をレンダリングするように構成され、室内インパルス応答の初期反射部分は、初期反射パターンによって決定される。初期反射パターンは、初期反射位置のコンステレーションを示し、例えば、コンステレーションは、これらの位置同士を接続するライン間の角度の観点から位置の相互配置を定義するとともに、位置のセットを示し、同義語は、「パターン」とする。初期反射パターンは、初期反射位置が、リスナ位置の周囲に、且つ、リスナ位置から角度方向に位置するように、リスナ位置に配置され、角度方向は、リスナ頭部の向きの変化に対して不変である、すなわち、コンステレーションは、リスナ位置に平行移動的に配置される。装置は、第1音源位置に配置された第1音源の第1オーディオ信号と、第2音源位置に配置された第2音源の第2オーディオ信号との加重和を形成することによって、2つの音源のオーディオ信号をレンダリングするように構成される。加重和は、第1音源位置とリスナ位置との間の第1距離が、第2音源位置とリスナ位置との間の第2距離よりも小さい場合、第2オーディオ信号を第2オーディオ信号よりも大きく重み付けし、第1距離が第2距離よりも大きい場合、第2オーディオ信号を第1オーディオ信号よりも大きく重み付けする。さらに、装置は、初期反射位置から加重和をレンダリングすることによって、室内インパルス応答の初期反射部分に関連する初期反射寄与ラウドスピーカ信号を生成することにより、2つの音源のオーディオ信号をレンダリングするように構成される。
【0034】
本発明の第6の態様によれば、本出願の発明者らは、オーディオ信号の初期反射(ER)レンダリングを利用しようとする際に遭遇する1つの問題は、物理的に正確な反射パターンを計算するために、壁の幾何学的形状、遮蔽物及びその他の効果を考慮に入れて、音源からリスナへの各反射を決定するのに、膨大な量の計算を費やされなければならないという事実に起因することを認識した。本発明者らは、部屋の寸法、部屋の容積又はプリディレイのような単純な室内音響パラメータを利用して、初期反射の位置を定義する関数をパラメータ化することができることを見出した。初期反射は、室内音響パラメータに応じて近似できるので、シーンの現実の初期反射を解析する必要はない。さらに、螺旋関数(spiral functions)が、初期反射位置の良好な分布を提供することが判明した。本発明者らは、1つ以上の螺旋関数を使用するERパターン生成が、知覚的に説得力があるが、計算的には中程度のERレンダリング結果をもたらすことを見出した。
【0035】
したがって、本出願の第6の態様によれば、サウンドレンダリング用の初期反射パターンを決定するための装置が、音響環境の音響特性を表す少なくとも1つの室内音響パラメータを受信し、また、リスナ位置を中心とする1つ以上の螺旋関数をパラメータ化することによって、初期反射位置のコンステレーションを示す初期反射パターンを決定し、且つ1つ以上の螺旋関数を使用して初期反射位置を配置するように構成される。
【0036】
図面は必ずしも縮尺通りではなく、代わりに、本発明の原理を例示することが全体的に重視される。以下の説明では、本発明の様々な実施形態が、以下の図面を参照して説明される。
【図面の簡単な説明】
【0037】
図1】初期反射パターンの実施形態を示す。
図2】螺旋関数を使用して決定される初期反射パターンの実施形態を示す。
図3図3aは、時間に対する初期反射パターンの実施形態を示す。図3bは、上から見た空間図に対する初期反射パターンの実施形態を示す。図3cは、周波数依存性に対する初期反射パターンの実施形態を示す。
図4】リスナ、直接音源及び反射の間のレベルの関係を示す。
図5】エンコーダ/デコーダ/レンダラにおける単純なERアルゴリズムの実施形態を示す。
図6】環境を解析することによって初期反射パターンを決定するための装置を示す。
図7】4つの初期反射位置を有するERパターンの実施形態を上から見た空間図を示す。
図8】屋外シーンの幾何解析を示す。
図9】解析地点のメッシュを示す。
図10】いくつかの解析地点にわたって平均化された、距離に対する反射面の分布を示す。
図11a】屋外ERパターンの第1実施形態を示す。
図11b】屋外ERパターンの第2実施形態を示す。
図12】distAlphaの値が異なる点音源の、距離に対する振幅の減少を示す。
図13】距離加重法を用いて異なる音源を1つの音源信号に合計することを図示するブロック図を示す。
図14】リスナ、2つの直接音源、及び合計された反射の間のレベル関係を示す。
図15】全体的なレンダリング処理を例示的に示す。
図16】サウンドレンダリング用の装置の実施形態を示す。
図17】ERパターンパラメータを使用するサウンドレンダリング用の装置の実施形態を示す。
図18】屋内音響パラメータに応じてERパターンを決定するための装置の実施形態を示す。
図19】2つ以上の音源信号の加重和をレンダリングするための装置の実施形態を示す。
図20】螺旋関数を使用してERパターンを決定するための装置の実施形態を示す。
図21】室内音響シミュレーションプログラムRAVENを用いて生成されたモノラルな2次RIRの例を示す。
図22】直接音と、プリディレイ時間0.13sに開始する後期残響とを有し、ERがないRIPを示す。
図23】1次反射及び後期残響を有するRIP(左)と、RIPの上面図(右)とを示す。
図24】直接音に並んだ2つの反射を有するRIR(左)と、RIPの上面図(右)とを示す。
図25】「SPAT」パターンを有するRIR(左)と、RIPの上面図(右)とを示す。
【発明を実施するための形態】
【0038】
以下の説明では、同一若しくは同等の要素、又は同一若しくは同等の機能を有する要素は、異なる図面に存在する場合であっても、同一又は同等の参照符号によって示される。
【0039】
以下の説明では、本発明の実施形態のより完全に説明するために、複数の詳細が記載される。しかしながら、本発明の実施形態がこれらの特定の詳細がなくとも実施可能であることは、当業者には明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造及びデバイスは、詳細にではなくブロック図の形式で示されている。さらに、本明細書で後述する異なる実施形態の特徴は、特に断りのない限り、互いに組み合わせることができる。
【0040】
以下では、初期反射処理概念を使用する際に、オーディオレンダリングの複雑性の低減を達成することに役立つ可能性のある様々な例について説明する。本明細書で説明する簡略化された初期反射処理概念は、例えば、ヒューリスティックに設計された他の初期反射処理概念に追加されてもよく、又は排他的に提供されてもよい。
【0041】
本出願の以下の実施形態の理解を容易にするために、本発明の実施形態による、初期反射パターン1の全体的な提示から説明を開始する。図1の初期反射パターン1に関して記載された特徴は、本明細書に記載されている任意の他の初期反射パターン1にも適用することができる。
【0042】
初期反射パターン1は、初期反射位置ERP(ERP及びERPを参照)のコンステレーション/配座群(constellation)を示す。例えば、コンステレーションは、位置ERPのセットを示すと共に、位置ERPの相互配置を、例えばこれらの位置とパターン1の中心2とを接続するライン間の角度αの観点から定義するものとする。コンステレーションの同義語は「パターン」とする。
【0043】
初期反射位置ERP、すなわち、初期反射の位置は、オーディオ信号の初期反射が生じ得る環境5内、例えば、屋内の部屋又は屋外の領域内における位置を示し又は特定することができる。例えば、初期反射パターン1の中心2に位置するリスナは、初期反射位置ERPから来る初期反射を知覚することができる。すなわち、初期反射位置ERPは、初期反射パターン1の中心に位置するリスナが、その位置からの初期反射を受け取る位置を示すことができる。
【0044】
初期反射パターン1は、例えば、初期反射位置ERPが、リスナ位置10の周囲に、且つ、リスナ位置10から角度方向に位置するように、リスナ位置10に配置され、角度方向は、リスナ頭部の向きの変化に対して不変である、すなわち、コンステレーションがリスナ位置10に平行移動的に配置される。例えば、初期反射位置ERPは、リスナ位置10の周囲に、ほぼ均一に角度的に分布するように決定されてもよい。
【0045】
一実施形態によれば、初期反射パターン1、すなわち初期反射位置ERPは、各初期反射位置ERP/ERPとリスナ位置10とを接続するライン(図1の7及び8を参照)が互いに重ならない、すなわち、互いに別々となるように、決定されてもよい。こうすることで、均一な分布が可能になり、環境5内で初期反射位置が積み重なることが防がれる。
【0046】
図1に示すように、初期反射パターン1の中心2は、リスナ位置10に配置されてもよい。初期反射パターン1の中心2は、リスナ位置10とリンクされてもよく、また初期反射パターン1は、リスナと共に平行移動してもよい。しかしながら、リスナが回転運動しても、初期反射位置ERPは変化しない、すなわち、初期反射パターン1は、リスナの回転運動に従わない。
【0047】
一実施形態によれば、初期反射位置ERPは、リスナ位置10と共に、水平面内に存在する。
【0048】
一実施形態によれば、オーディオレンダリング用又は初期反射パターン1の生成用の装置は、レンダリングされることになるオーディオ信号の表現を含むビットストリーム内のパターン方位パラメータに従ってコンステレーションの方位回転を調整することによって、初期反射位置ERPを決定するように構成されてもよい。言い換えれば、完全な初期反射パターン1は、例えば特定の環境5における、現実の初期反射をより十分に近似するように回転されてもよい。この方位回転は、運動、例えばリスナの回転運動に反応して実行されることはない。コンステレーションの方位回転の調整は、初期反射パターン1の初期決定時に実行されてもよい。初期反射パターン1がいったん決定されたら、全ての初期反射位置ERPは、リスナ位置10の平行移動に反応して、同一の平行移動のみを行ってもよい。パターン1の中心2に対する初期反射位置ERPの配置は、コンステレーションの方位回転の調整を利用して決定されてもよい。パターン1は、いったん決定されたら、それ以上調整されなくてもよい、すなわち、リスナ位置が移動しても、初期反射位置ERPと、パターン1の中心2との間の相対的配置は変化しない。
【0049】
一実施形態によれば、初期反射パターンの決定時に、音響環境の音響特性を表す少なくとも1つの室内音響パラメータが考慮されてもよい。少なくとも1つの室内音響パラメータは、部屋の寸法、部屋の容積、及び後期残響までのプリディレイ時間のうちの1つ以上を含む。好ましくは、少なくとも1つの室内音響パラメータは、音響環境におけるこれらの音響特性のうちの1つのみを含む。少なくとも1つの室内音響パラメータは、ビットストリーム、例えば、初期反射パターン1を使用してレンダリングされることになるオーディオ信号の表現を含むビットストリームから、受信され又は読み取られてもよい。
【0050】
一実施形態によれば、初期反射パターン1は、初期反射位置の数が少なくとも1つの室内音響パラメータに依存するように、且つ/又は、初期反射位置の相互間隔が少なくとも1つの室内音響パラメータに応じて変化/適合されるように、決定することができる。例えば、初期反射位置の相互間隔は、リスナ位置を中心とする中心拡張によって変化する。
【0051】
一実施形態によれば、パターン1の初期反射位置ERPの数は、
・部屋の寸法が大きくなるほど、初期反射位置の数が大きくなるように且つ/又はリスナ位置から最も遠い初期反射位置がより遠くに離間するように、又は
・部屋の容積が大きくなるほど、初期反射位置の数が大きくなるように且つ/又はリスナ位置から最も遠い初期反射位置がより遠くに離間するように、又は
・後期残響までのプリディレイ時間が大きくなるほど、初期反射位置の数が大きくなるように且つ/又はリスナ位置から最も遠い初期反射位置がより遠くに離間するように、
決定することができる。
【0052】
「リスナ位置から最も遠い初期反射位置」は、「初期反射位置のうちの最も離れた位置からリスナ位置までの距離」であることが理解される。一実施形態によれば、初期反射位置ERPは、パターン1の中心2の近傍に配置され、また、パターン1により多くの初期反射位置ERPが含まれるほど、中心2から最も遠い初期反射位置がより遠くに離間することになる。
【0053】
一実施形態によれば、部屋の寸法、部屋の容積、又は後期残響までのプリディレイ時間が増加するにつれて、各初期反射位置ERPから中心2までの距離を均一に増加させることにより、初期反射位置ERPの相互間隔を、少なくとも1つの室内音響パラメータに応じて変更/適合させることができる。随意的には、部屋の寸法が大きいほど、又は部屋の容積が大きいほど、又は後期残響までのプリディレイ時間が大きいほど、初期反射位置ERPのうちの最も離れた位置からリスナ位置10までの距離が大きくなるように、且つ、その距離がプリディレイ時間よりも小さくなるように、初期反射位置ERPの相互間隔を、少なくとも1つの室内音響パラメータに応じて変更/適合することができる。こうすることで、初期反射位置ERPの均一な分布が可能になり、したがって、音響的に納得のいくERレンダリング結果が可能になる。部屋の寸法、部屋の容積、又は後期残響までのプリディレイ時間の増加に伴って、初期反射位置ERPのうちの最も離れた位置からリスナ位置10までの距離が、初期反射位置ERPのうちの最も近い位置からリスナ位置10までの距離よりも増加する場合、これは有利となる可能性がある。
【0054】
図2は、オーディオ信号の初期反射処理に利用可能な初期反射パターン1の一実施形態を示す。初期反射パターン1は、初期反射位置ERPを含む(図2のERP1~ERP1(ERP1)及びERP2~ERP2(ERP2)を参照)。図2は、10個の初期反射位置ERPを例示的に示す。しかしながら、初期反射パターン1が異なる数の初期反射位置ERPを含むことができることは明らかである。初期反射パターン1は、2つ以上の初期反射位置ERP、例えば、初期反射位置ERP1及びERP2のみを含んでもよい。
【0055】
図2に示すように、リスナ位置、すなわち中心2を中心とする2つの螺旋関数3及び4は、初期反射の位置、すなわち初期反射位置ERP、例えば環境5内の初期反射位置ERPを定義することができる。しかしながら、代替的に、ただ1つの螺旋関数3又は4によって、又は2つ以上の螺旋関数によって、初期反射の位置を定義できることは明らかである。オーディオレンダリング用又は初期反射パターン1の生成用の装置は、環境5における初期反射パターン1を決定するために、1つ以上の螺旋関数3、4を使用して初期反射位置ERPを配置するように構成されてもよい。たとえば、各装置は、第1螺旋関数3を使用して、第1セットの初期反射位置ERP1(ERP1~ERP1を参照)を配置し、また第2螺旋関数4を使用して、第2セットの初期反射位置ERP2(ERP2~ERP2)を配置するように構成されてもよい。
【0056】
第1セットの初期反射位置ERP1はそれぞれ、対応する第2セットの初期反射位置ERP2に関連付けられる。例えば、初期反射位置ERP1は、対応する初期反射位置ERP2に関連付けられてもよく、初期反射位置ERP1は、対応する初期反射位置ERP2に関連付けられてもよく、初期反射位置ERP1は、対応する初期反射位置ERP2に関連付けられてもよく、初期反射位置ERP1は、対応する初期反射位置ERP2に関連付けられてもよく、初期反射位置ERP1は、対応する初期反射位置ERP2に関連付けられてもよい。第1セットの初期反射位置ERP1のそれぞれに対して、各初期反射位置ERP1は、各初期反射位置ERP1と、第2セットの初期反射位置ERP2のうちの対応する初期反射位置ERP2との間の接続ラインと垂直に交差するラインに対して互いに反対側に位置する。これにより、リスナが異なる方向からの初期反射を受信することが保証され、また1つの領域内に初期反射位置が積み重なることが防止される。螺旋関数を使用するこの配置により、環境5内で初期反射位置の均一な分布が可能になり、その結果、音響的に納得がいくが、計算的には中程度なオーディオ信号の初期反射レンダリング結果をもたらす。
【0057】
図2は、第1セットの初期反射位置ERP1のそれぞれについて、第2セットの初期反射位置ERP2のうちの対応する初期反射位置ERP2が、接続ラインに対して角度的にオフセットされて、第1セットの初期反射位置ERP1のうちのすべての初期反射位置ERP1について共通の角度方向にオフセットされる例を示す。
【0058】
一実施形態によれば、オーディオレンダリング用又は初期反射パターン1の生成用の装置は、2つの螺旋関数3及び4を使用して、
・第1セットの初期反射位置ERP1がそれぞれ、第2セットの初期反射ERP2のうちの対応する初期反射位置に関連付けられ、また
・第1セットの初期反射位置ERP1のそれぞれについて、各初期反射位置ERP1が、パターン中心2及び第1セットの反射位置ERP1のうちの各初期反射位置ERP1を通過する軸線と、パターン中心2で垂直に交差する各ラインの一方側に配置され、第2セットの初期反射ERP2のうちの対応する各初期反射位置ERP2が、各ラインの反対側に配置され、また
・第2セットの初期反射位置ERP2のうちの対応する各初期反射位置ERP2が、各軸線に対して角度的にオフセット(対応する初期反射位置ERP1及びERP2に対するγを参照)されて、第1セットの初期反射位置ERP1のうちのすべての初期反射位置ERP1について共通であり、且つ/又は第2セットの初期反射位置ERP2のうちのすべての初期反射位置ERP2について共通である角度方向にオフセットされるように、
初期反射位置ERP1及びERP2を配置するように構成されてもよい。
【0059】
1つ以上の螺旋関数3、4は、初期反射位置ERPを極座標(r、β)で定義することができる。第1セットの初期反射位置ERP1のうちの初期反射位置ERP1を定義するための(r11~5、β11~5)と、第2セットの初期反射位置ERP2のうちの初期反射位置ERP2を定義するための(r21~5、β21~5)を参照されたい。
【0060】
以下でより詳細に説明するように、特にセクション1「屋内ERパラメータ計算」を参照すると、1つ以上の螺旋関数3、4は、少なくとも1つの室内音響パラメータに応じてパラメータ化することができる、すなわち、各螺旋関数3、4は、少なくとも1つの室内音響パラメータに依存する各初期反射位置ERPを定義する。少なくとも1つの室内音響パラメータは、部屋の寸法、部屋の容積、及び後期残響までのプリディレイ時間のうちの1つ以上を含む。少なくとも1つの室内音響パラメータは、音響環境5の音響特性を表すことができる。
【0061】
例えば、1つ以上の螺旋関数3、4は、
・部屋の寸法が大きくなるほど、又は部屋の容積が大きくなるほど、又は後期残響までのプリディレイ時間が大きくなるほど、初期反射位置ERPの数が大きくなるように、且つ/又は
・初期反射位置ERPのそれぞれについて、部屋の寸法が大きくなるほど、又は部屋の容積が大きくなるほど、又は後期残響までのプリディレイ時間が大きくなるほど、各初期反射位置ERPから初期反射パターン1の中心2までの距離が大きくなるように、
少なくとも1つの室内音響パラメータに応じてパラメータ化することができる
【0062】
一実施形態によれば、オーディオレンダリング用又は初期反射パターン1の生成用の装置は、部屋の寸法が大きくなるほど、又は部屋の容積が大きくなるほど、又は後期残響までのプリディレイ時間が大きくなるほど、初期反射位置のうちの最も離れた距離の位置からリスナ位置までの距離が大きくなり、その距離がプリディレイ時間よりも小さくなるように、1つ以上の螺旋関数をパラメータ化し且つ初期反射位置ERPの数を決定するように構成されてもよい。
【0063】
一実施形態によれば、オーディオレンダリング用又は初期反射パターン1の生成用の装置は、初期反射パターンの異なる決定を支援するように構成されてもよい。オーディオレンダリング用又は初期反射パターン1の生成用の装置は、環境5に応じて決定のタイプを選択するように構成されてもよい。例えば、1つ以上の螺旋関数3、4を使用して初期反射パターン1を決定すること、例えば第1の決定、及び/又は、初期反射位置の数が少なくとも1つの室内音響パラメータに依存するように初期反射パターン1を決定すること、例えば第1の決定は、部屋等の屋内環境に関連付けられてもよい(特に、セクション1「屋内ERパラメータ計算」を参照)。音響環境5が屋内環境である場合、又はレンダリングされることになるオーディオ信号の表現を含むビットストリーム内のパターンタイプインデックスが所定の状態を仮定している場合に、このような決定、例えば第1の決定が選択されてもよい。別の決定、例えば、第2の決定は、セクション3「屋外ERパターン」でより詳細に説明する。
【0064】
すでに上述したように、新たに発明された屋内用のERパターン1の1つは、2つの螺旋から構成される(図3参照)。このパターン1は、クラスタリング(clustering)せずとも時間に対して均一な分布を提供しながら、リスナ10の周囲の全ての方向をカバーするという利点を有する。初期反射(ER)の数は、部屋のサイズに適合させることができ、部屋のサイズは、後期残響のプリディレイからも導出することができる。また、RT60の周波数依存性は、ERの周波数依存性も定義することができる。RT60、又は平均吸収係数は、通常の距離の影響に加えて、さらなる増幅も定義する。RT60によって記述される全体的な吸収挙動に初期反射の周波数応答を適合させるために、RT60の周波数依存性から、単純なシェルビング(shelving)フィルタが計算される。図3は、a)時間、b)上から見た空間図、c)周波数依存性、に対する新たなERパターン1を示す。
【0065】
(1.屋内ERパラメータ計算)
室内ERパラメータ計算についての以下の説明は、図2及び図3を参照する。
【0066】
螺旋パターン、すなわち第1螺旋関数3及び第2螺旋関数4の可変パラメータは、主にプリディレイ時間によって設定される。例えば、使用されるのは、例えば、後期残響までのプリディレイ時間であり、プリディレイ時間は、例えば以下の通りである。
【数1】
【0067】
パラメータは、部屋のプリディレイに依存するように設定され、プリディレイは、後期残響の開始時間を定義し、以下の式(1)を用いて計算される。
【数2】
【0068】
第1螺旋関数3及び第2螺旋関数4を使用して、第1セットの初期反射位置ERP1を極座標で(r1;β1)として決定し、また第2セットの初期反射位置ERP2を極座標で(r2;β2)として決定することができる。2つの螺旋パターンを用いたER位置の方位角及び半径の計算は、以下の通りである。
【数3】
【0069】
一定のdistfactorは、上述の一定のdistFacに対応し得る。一実施形態によれば、distfactorは、少なくとも室内音響パラメータに基づいて決定することができ、例えば、後期残響までのプリディレイ時間が大きくなるほど、distfactorが大きくなるように、distfactorを決定することができる。
【0070】
図2から分かるように、極軸6が、初期反射パターン1の中心2を通っている。初期反射パターン1の原点、すなわち中心2は、極を表す。半直線が、極から基準方向に通っている、すなわち極軸6を表しており、第1セットの初期反射位置ERB1のうちの初期反射位置ERB1(1~5)の角度座標を定義する方位角β1(1~5)、及び第2セットの初期反射位置ERB2のうちの初期反射位置ERB2(1~5)の角度座標を定義する方位角β2(1~5)は、極軸6からの角度を表している。初期反射位置ERP1の半径座標は、基準方向に向けられており、初期反射位置ERPの半径座標は、基準方向とは反対の方向に向けられている(図2及び式4及び式5参照)。
【0071】
サウンドレンダリング用の装置は、初期反射位置ERPからの1つ以上の音源のオーディオ信号のレンダリングを実行することによって、例えば、各初期反射位置からリスナ位置までの距離に応じてレベルを調整することによって(例えば、上記のamp1及びamp2の決定を参照)、室内インパルス応答の初期反射部分に関連する初期反射寄与ラウドスピーカ信号を生成するように構成されてもよい。例えば、第1セットの初期反射位置ERB1のそれぞれについて、音源のオーディオ信号は、各初期反射位置ERB1からレベルamp1でレンダリングされ、第2セットの初期反射位置ERB2のそれぞれについて、音源のオーディオ信号は、各初期反射位置ERB2からレベルamp2でレンダリングされる。
【0072】
反射の振幅は、影響を与えるいくつかの以下のパラメータ:
a)標準距離法(距離が倍増するにつれて係数2で低下)
b)以下の式(6)による補正
に依存する。
【数4】
slDistanceは音源-リスナ間距離を表す。ampFac及びabsorptionという用語は定数を表す。
【0073】
図4から分かるように、反射と直接音源レベルとの間のレベル関係は固定されている。ここに示す5つの音源(1つの直接音源と4つの初期反射)のレベルは、ソース/リスナ間距離(sldistance)に対して上下に動く。図4は、リスナ、直接音源及び反射のレベル関係を示す。
【0074】
各初期反射位置からリスナ位置までの距離に応じて調整されたレベルで、各初期反射位置から来る音源のオーディオ信号をレンダリングすることは、
・各初期反射位置から音源のオーディオ信号がレンダリングされるレベルを、レベルオフセットを使用してオフセットすること(20)、又はレベル係数で当該レベルを増幅することであり、レベルオフセット若しくはレベル係数は、全ての初期反射位置について共通であるものとする、該オフセット又は増幅すること、及び
・振幅補正係数(式6を参照)に従ってレベルオフセット又はレベル係数を設定すること
によって実行することができる。
【0075】
例えば、第1セットの初期反射位置ERB1のそれぞれについて、音源のオーディオ信号が各初期反射位置ERB1からレンダリングされるレベルamp1は、ampCorrection(式6参照)によってオフセットされ、また第2セットの初期反射位置ERB2のそれぞれについて、音源のオーディオ信号が各初期反射位置ERB2からレンダリングされるレベルamp2は、ampCorrection(式6参照)によってオフセットされる。振幅補正係数、すなわち、式6のampCorrectionは、オーディオ信号の表現を含むビットストリームに含まれてもよい。一実施形態によれば、振幅補正係数は、1つ以上の初期反射パターンパラメータに含まれる。
【0076】
一実施形態によれば、各初期反射位置からリスナ位置までの距離に応じてレベルを調整する方式で、各初期反射位置から音源のオーディオ信号をレンダリングすることは、距離減衰(amp1及びamp2)に従って、音源位置からオーディオ信号をレンダリングするための装置によって使用されるレベル調整に対して、各初期反射位置からリスナ位置までの距離に応じてレベル調整を修正することにより実行することができる。距離減衰は、オーディオ信号の表現を含むビットストリームに含まれてもよい。一実施形態によれば、この減衰は、1つ以上の初期反射パターンパラメータに含まれる。
【0077】
図4から分かるように、レンダリング時に、音源のオーディオ信号が各初期反射位置からレンダリングされるレベルは、オフセット20であり、同一のオフセットが、初期反射パターン1のすべての初期反射位置ERPに適用される。付加的に、レンダリング時に、音源のオーディオ信号が各初期反射位置からレンダリングされるレベルは、各初期反射位置とリスナとの間の距離に応じて、例えば、補正距離法を使用して減衰されてもよい。
【0078】
単一の音源のオーディオ信号について上述したように、このレンダリング技術を、2つ以上の音源の2つ以上のオーディオ信号に適用することも可能であり、特殊なレンダリングは、2つ以上のオーディオ信号の加重和に適用される。加重和の計算は、セクション5でより詳細に説明する。
【0079】
(2.VRシステムにおける実装形態)
図5は、エンコーダ/デコーダ環境における単純ERソフトウェアアルゴリズムの構造図を示す。図5は、エンコーダ及びデコーダ/レンダラにおける単純なERアルゴリズムの実装形態を示す。まず、予め定義されたERパターンを使用するか否かが決定される。次の決定は、ERパターンが屋内用か屋外用かを決定する。屋内パターンの場合、さらなるパラメータを送信する必要はない。ERパターンは、既に存在する音響シーンパラメータから計算される。屋外パターンの場合、シーンの幾何学的形状が解析され、これらのパラメータが送信され、またER屋外パターンがデコーダ内で計算される。詳細については、セクション3を参照。ある音響環境から次の音響環境への遷移については、セクション4を参照。1つのシーン内における複数の音源の処理については、セクション5を参照。
【0080】
(3.屋外ERパターン)
図6に示される実施形態は、サウンドレンダリング用の初期反射パターン1を決定するための装置100に関し、この装置は、1つ以上の解析位置50(50~50を参照)のそれぞれにおいて、各解析位置50からの異なる距離114のそれぞれに対して、初期反射寄与を表す値116を示す関数112を決定することによって、音響環境5の幾何解析110を実行するように構成される。関数112又は関数112から導出されるさらなる関数は、1つ以上の最大値118に関して解析されて、1つ以上の制御パラメータ120を導出する。さらに、装置100は、1つ以上の制御パラメータを使用して初期反射位置を配置することによって、初期反射位置ERP(ERP~ERPを参照)のコンステレーション/配座群(constellation)を示す初期反射パターン1を決定するように構成される。装置100の特徴は、以下でより詳細に説明される。
【0081】
具体的には、屋外シーンの場合(屋外シーンに限定されるわけではないが)、ほぼ交差するように配置される4つのERを有する新しいパターン1が設計される(図7参照)。図7は、4つの初期反射位置ERP~ERPを有する新しいERパターン1の、上から見た空間図を示す。異なる距離、すなわち、各初期反射位置と中心2との間における個別の距離は、シーン、すなわち環境5の幾何解析110から導出されるプリディレイ時間及び圧縮係数によって定義することができる。
【0082】
屋外環境用のERパターンの使用は、非常に個別的であり、シーンの物理的設定に依存する。以下に説明する幾何解析110は、ERの知覚に関連する屋外シーン、すなわち環境5の、知覚的に重要な特徴を捕捉する。
【0083】
図8は、屋外シーンの幾何解析を示す。a)は、解析地点の周囲のリングの上面図である。b)は、解析地点の周囲の側面図であり、リングの高さが増加している。中心リスニング地点、例えば、解析地点50から、同心円状のリングが配置される。半径及び高さによって定義されるリングの領域は、この距離における最大可能反射エネルギーを表している(図8参照)。リング間には間隔d(例えば、3m)が存在する。角度間隔α(例えば、6°)を有する半直線が、解析地点50から送り出される。衝突した第1の表面は、この距離で既存の反射表面にカウントされ、リング全体にわたって合計される。このアプローチにより、各解析位置50からの異なる距離のそれぞれについての、初期反射寄与を表す値を示す関数112を決定することが可能である。この関数は、解析地点50毎に決定されてもよい。
【0084】
言い換えれば、最も近い反射面距離に関して音響環境5を径方向にサンプリングして、径方向サンプリング結果を取得する。付加的に、関数112を取得するために、径方向サンプリング結果にわたる径方向積分及び径方向サンプリング結果の重み付けが実行されてもよい。重み付けは、距離の増加に伴って初期反射寄与が減少するように、径方向距離に従って実行されてもよい。
【0085】
図9は、解析地点50のメッシュを(a)上面図、及び(b)側面図で示す。一点鎖線は、シーンのユーザ到達可能領域、すなわち環境5を示す。ユーザ到達可能領域の内部には、いくつかの(例えば、9個の)解析地点が配置されている(図9参照)。いくつかの地点は、シーンの幾何学的メッシュの内側にあり、また除外する必要があるので、メッシュは3Dメッシュである。
【0086】
代替的に、各解析地点について各関数112を解析するために、1つ以上の解析位置で決定された関数112を合計、例えば平均にかけて、図10に示されるさらなる関数112’を得ることが、効率の観点から有利である。すべてのメッシュ点にわたるデータを平均化し、また分布を解析することができる。これは、空間及び距離にわたる屋外反射エネルギーを表している(図10参照)。図10は、いくつかの解析地点50にわたって平均化された、距離に対する反射表面積の分布を示す。
【0087】
図10から分かるように、個々の解析地点に関連付けられた関数から導出されるさらなる関数112’が、2つの最大値に関して検査されて、1つ以上の制御パラメータ120として、2つの最大値のうちの最も近い最大値118に対して、第1振幅a1及び第1距離p1を導出し、2つの最大値のうちの最も遠い最大値118に対して、第2振幅a2及び第2距離p2を導出する。代替的に、個々の解析地点に関連付けられた関数のそれぞれから、1つ以上の制御パラメータ120を導出することが可能である。
【0088】
振幅a1及びa2は、それらの距離p1及びp2と共に、例えば、屋外ERパターン1を算出するための入力値である。屋外ERパターン1は、4つのERを含む(図11a参照)。
【0089】
図11aに示される実施形態によれば、ERパターン1は、
リスナ位置10から、第1初期反射位置ERP及び第3初期反射位置ERPまでの距離を、p2に応じて設定すること、並びに
a1に依存する第1項と、a2に依存する第2項との間の差又は商に基づいて、リスナ位置から第1初期反射位置ERP及び第3初期反射位置ERPまでの距離と、リスナ位置から第2初期反射位置ERP及び第4初期反射位置ERPまでの距離との間の比(compFactorを参照)を設定すること
によって決定される。
【0090】
図11aは、4つの反射の屋外ERパターン1を示し(リスナの周囲の円(青)及び十字(赤)を参照)。第2分布の最大値118までの距離p2は、2つのより遠い反射までの距離を定義する(初期反射位置ERP及びERPを参照)。圧縮係数compFactorは、2つのより近い反射の距離を定義することができる(初期反射位置ERP及びERPを参照)。振幅間の関係によって圧縮係数を定義することができ、例えば以下の通りである。
【数5】
【0091】
4つの初期反射位置ERPは、極座標(r(i)、β(i))(i=1~4)に位置するように配置することができる。
【0092】
角度座標は、β(1) ≒ 5°~15°、β(2) ≒ 90°~110°、β(3) ≒ 180°~200°、β(4) ≒ 270°~290°とすることができる。一実施形態によれば、
【数6】
である。
【0093】
半径座標は、以下の式7及び式8に従って決定することができ、計算された半径の値から最大40%の偏差が許容されてもよい。
【数7】
【0094】
図から分かるように、初期反射位置ERP及びERPの半径座標は、式7を用いて決定され、初期反射位置ERP及びERPの場合、式7は、式8になるように修正される。
【0095】
図11bに示される実施形態によれば、4つの初期反射位置ERP~ERPは、第1初期反射位置ERP及び第2初期反射位置ERPが、リスナ位置10を横切る第1ライン1000に対して互いに反対側に配置され、第3初期反射位置ERP及び第4初期反射位置ERPが、第1ライン1000に垂直であり且つリスナ位置10を横切る第2ライン2000に対して互いに反対側に配置されるように、配置することができる。一実施形態によれば、ERパターン1は、
リスナ位置10から第1初期反射位置ERP及び第2初期反射位置ERPまでの距離を、p2に依存するように設定すること、並びに
a1に依存する第1項と、a2に依存する第2項との間の差又は商に基づいて、第1初期反射位置ERP1及び第3初期反射位置ERP3までの距離と、第2初期反射位置ERP2及び第4初期反射位置ERP4までの距離との間の比を設定すること
によって決定される。
【0096】
自由場条件における音響点源のレベル低下は、距離が倍増する毎に係数2で振幅が低下することに対応する、1/rの法則に従う([13])。異なる反射領域の影響が少数のERに集約される場合、距離に対するこの低下は、指数関数的な係数だけ低減されるべきである。
【数8】
【0097】
distAlphaの値[0.5..1]は、面積分布から推定でき、例えば、以下の通りである。
【数9】
【0098】
計算されたdistAlpha値から約20%の偏差が許容されてもよい。
【0099】
一実施形態によれば、distAlphaは、以下のように設定することができる。
【数10】
【0100】
図12は、異なるdistAlphaの値に関して、点音源の距離に対する振幅の低減を示す。
【0101】
エンコーダで幾何解析が実行されるとき、レンダラに転送しなければならないのは、アルゴリズムパラメータ、すなわち、predelay、compFactor及びdistAlphaのみである。
【0102】
より詳細な幾何解析によって、上記で定義された方程式によって導出することができないERパターンがもたらされる場合、所望のパターンを表すために、すべての単一の反射位置及び相対振幅を個別に送信することができる。
【0103】
ERパターンを計算するための異なる屋外シナリオの幾何解析からの値の例は、以下の通りである。
[preDelay, compFac, ampFac, distAlpha]
岩に囲まれた屋外の場[144,0.47,2.2,1]
町の通り[109,0.44,1,0,65]
町内の公園[57,0.58,1,0,58]
【0104】
図2に関して既に上述したように、一実施形態によれば、オーディオレンダリング用又は初期反射パターン1の生成用の装置は、初期反射パターンの異なる決定を支援するように構成されてもよい。オーディオレンダリング用又は初期反射パターン1の生成用の装置は、環境5に応じて決定のタイプを選択するように構成されてもよい。一実施形態によれば、第1の決定は、このセクションで説明したように、1つ以上の制御パラメータ120を使用して初期反射位置ERPを配置することを含むように実行されてもよい。第1の決定は、音響環境が屋外環境である場合、又はレンダリングされることになるオーディオ信号の表現を含むビットストリーム内のパターンタイプインデックスが、所定の状態を仮定する場合に、選択されてもよい。随意的に、第2の決定は、上述のように、1つ以上の螺旋関数を使用して実行されてもよい。しかし、他のタイプの決定も選択に利用可能であり得ることは、明らかである。
【0105】
(4.ポータルでの動作)
ポータルは、ある音響環境から次の音響環境への境界、ある部屋から次の部屋への境界、又は部屋から自由音場環境への境界を表す。そのようなポータルを通る遷移を滑らかにするために、関連する単純なERパターン間におけるクロスフェード処理が有益である。例えばd = 5mの領域内では、ある音響環境からの寄与のレベルがフェードアウトする。
【0106】
一実施形態によれば、レンダリング用の装置が、初期反射パターン1の第1の決定方式及び初期反射パターン1の第2の決定方式を支援するように構成されてもよく、第1の決定方式は第2の決定方式とは異なる(例えば、第1の決定方式についてはセクション1及び図2の説明を参照、第2の決定方式についてはセクション3を参照)。装置は、初期反射パターン1を決定する際に、パターンタイプインデックスに応じて、第1の決定方式又は第2の決定方式を使用するように構成されてもよい。このインデックスは、1つ以上の初期反射パターンパラメータに含まれてもよい。
【0107】
(5.複数の音源を1つのERパターンにまとめる)
現実の環境では、すべての音源が、音源及びレシーバの位置に依存する個別のERパターンを有する。単純化されたシミュレーションでは、1つの環境内のすべての音源が、リスナの周囲に配置された同一のERパターンを有する。音源又はリスナが移動すると、音源-リスナ間距離が変化し、そのため直接音との重要なレベル関係が変化する。このレベル関係は維持されなければならない。
【0108】
本発明の好ましい実施形態では、図13で説明されているように、これは、計算上効率的な方法で適応させることができる。図13は、距離加重法を用いて、異なる音源(AS1、AS2、・・・)を合計して1つの音源信号にすることを示すブロック図を示す。まず、異なる音源AS間のレベル関係が、音源とリスナの間の距離の値に基づいて考慮される。次いで、適切な距離加重法を用いて、異なる音源ASを合計して単一の音源信号にすることができる。したがって、シミュレートされた環境内のすべての音源ASをカバーする1つのERパターン1のみが聴覚化されなければならない。このパターン1は、リスナの横方向の移動(すなわち、x、y、z方向の平行移動であるが、リスナの頭部の向きではない)に従う。具体的には、リスナがある方向に移動すると、ERパターン1におけるERの位置ERPは、リスナと共に移動する。しかしながら、ERPは、リスナの頭部の向きにかかわらず、一定の所定の空間的な向きのままである。
【0109】
一実施形態によれば、初期反射パターン1の生成用のオーディオレンダリング装置は、室内インパルス応答を使用して、2つ以上の音源の信号をレンダリングするように構成されてもよく、室内インパルス応答の初期反射部分は、第1音源位置に配置された第1音源の第1オーディオ信号と、第2音源位置に配置された第2音源の第2オーディオ信号との加重和を形成することと、並びに、初期反射位置から加重和をレンダリングすることにより、室内インパルス応答の初期反射位置に関連する初期反射寄与ラウドスピーカ信号を生成することと、によって、初期反射パターンにより決定される。加重和は、例えば、第1音源位置とリスナ位置との間の第1距離が、第2音源位置とリスナ位置との間の第2距離よりも小さい場合、第1オーディオ信号を第2オーディオ信号よりも大きく重み付けし、第1距離が第2距離よりも大きい場合、第2オーディオ信号を第1オーディオ信号よりも大きく重み付けする。
【0110】
一実施形態によれば、室内インパルス応答の初期反射部分に関する初期反射寄与ラウドスピーカ信号は、各初期反射位置からリスナ位置までの距離に応じて調整された方式レベルで、各初期反射位置から加重和をレンダリングすることによって生成されてもよい。
【0111】
図14では、リスナ、2つの直接音源、及び2つの直接音源の反射の間のレベル関係が視覚化されている。各直接音源のレベルは、個々の音源‐リスナ間距離に依存する。これらは、個別に変化し得る。直接音源の共通レベルは、個々のレベルを合計することによって計算される。このレベルから、関連する反射は、それらのそれぞれの距離によって計算される。
【0112】
図14は、リスナ、2つの直接音源及び合計された反射の間のレベル関係を示す。
【0113】
音源-リスナ間距離によって生じる低下は、音源毎に個別である。完全なERパターンのためのさらなるampCorrectionが存在する。
【数11】
【0114】
(6.簡単な概要)
(6.1.レンダリングの態様)
仮想聴覚環境において初期反射パターンをレンダリングするように装備されたレンダラであって、初期反射パターンは、
・部屋の詳細な幾何学的記述に依存しない、例えば、部屋の寸法及び/又は部屋の容積及び/又は後期残響までのプリディレイのみを考慮してもよい。
・個々の音源及びリスナの位置(1つの環境内のすべての音源に対して同じERパターンを共有)に依存せず、音源‐リスナ間距離のみに依存する。
・例えば、初期反射位置ERPにおいて、ユーザに対して(源及びリスナの位置に応じて空間内の位置ではなく)固定位置でレンダリングされる。
・(音源及びリスナの位置に依存する空間内の位置ではなく、)固定された位置、例えば、初期反射位置ERPで、ユーザに対してレンダリングされる。
・・好ましい実施形態では、パターンのERの位置、すなわち初期反射位置ERPは、リスナの横方向の動き(すなわち、x、y、z方向の平行移動であるが、リスナの頭部の向きではない)に従う。具体的には、リスナが所定の方向に移動すると、ERパターンにおけるERの位置が、リスナと共に移動する。しかしながら、しかしながら、ERPは、リスナの頭部の向きにかかわらず、一定の所定の空間的な向きのままである。
【0115】
図15は、全体的なレンダリング処理を例示的に示す。図15に関して説明される特徴のうちの1つ以上は、本明細書で説明されるサウンドレンダリング用の装置が備えてもよい。
【0116】
図15は、サウンドレンダリング用の装置200を示す。装置200は、1つ以上の音源210/210の1つ以上のオーディオ信号212/212をレンダリングするように構成される。オーディオ信号212(212及び212を参照)は、直接音(220及び220を参照)、初期反射(230参照)、及び/又は後期残響(240参照)を考慮することによって、レンダリングすることができる。
【0117】
直接経路220/220では、1つ以上のオーディオ信号212/212をレンダリングして、1つ以上のオーディオ信号212/212のそれぞれについて、直接音寄与ラウドスピーカ信号222/222を取得することができる。例えば、レンダリング対象のオーディオ信号212及び212のそれぞれについて、関連する各音源210/210とリスナ位置10との間の距離d1/d2、並びに、各音源210/210とリスナの向きとの間の角度α1/α2を考慮して、各直接音寄与ラウドスピーカ信号222/222を決定することができる。直接音響寄与ラウドスピーカ信号222/222は、室内インパルス応答のうちの直接音源部分に関する。
【0118】
一実施形態によれば、装置200は、1つ以上の音源210/210の1つ以上のオーディオ信号212/212をミキシング(混合)して(260)、混合されたオーディオ信号262を取得するように構成されてもよい。ミキシング260において、信号212/212は、それぞれの関連する音源210/210の位置に応じてパンニングされてもよい。例えば、オーディオ信号212/212のそれぞれについて、関連する各音源210/210とリスナ位置10との間の距離d1/d2が、パンニング/ミキシング260において考慮される。随意的に又は付加的に、ミキシングは、セクション5で説明されているように実施されてもよい。
【0119】
装置200は、室内インパルス応答を使用して、1つ以上の音源210/210のオーディオ信号、例えば混合されたオーディオ信号262、例えばオーディオ信号212及び212の加重和、をレンダリングするように構成されてもよく、室内インパルス応答の初期反射部分は、室内インパルス応答の初期反射部分に関連する初期反射寄与ラウドスピーカ信号232を取得するように、例えばER経路230における初期反射パターン1によって決定される。初期反射寄与ラウドスピーカ信号232は、初期反射位置ERP(ERP~ERPを参照)からのオーディオ信号のレンダリングを実行することによって生成されてもよい。
【0120】
随意的に、装置200は、ERパターン決定器270、例えば、初期反射パターン1の生成用の装置を備えてもよい。初期反射パターン1の決定は、上述の実施形態のうちの1つ(例えば、図2並びにセクション1、3及び5を参照)で説明されているように実行されてもよい。ERパターン決定部270は、初期反射パターン1を生成するためのERパターン情報310を取得してもよい。ERパターン情報310は、(屋内/屋外の)ERパターンタイプ、(例えば、屋外の)predelay、compfactor及び/又はdistAlpha、並びに、(例えば、屋内の)部屋の寸法、部屋の容積及び/又はプリディレイ時間のうちの1つ以上を含んでもよい。例えば、ERパターン決定器270によって使用されることになる決定に応じて、ERパターン決定器270は、ビットストリーム300から、環境記述310、例えば1つ以上の室内音響パラメータ若しくは1つ以上の制御パラメータ、又はビットストリームヒント320、例えば1つ以上の初期反射パターンパラメータを受信し又は読み取る。
【0121】
ビットストリーム300は、第1音源210に関連付けられたオーディオ信号212の表現214と、第2音源210に関連付けられたオーディオ信号212の表現214とを含んでもよい。
【0122】
一実施形態によれば、ビットストリーム300は、本明細書で言及されるパラメータのうちの1つ以上を含み/備えてもよい。ビットストリーム300は、音源位置に配置され、また1つ以上の初期反射パターンパラメータを含む音源210/210のオーディオ信号の表現214/214を含んでもよい。例えば、ビットストリーム300は、ビットストリームのヘッダ若しくはメタデータフィールド内に初期反射パラメータを有するオーディオビットストリーム、又は、ファイルフォーマットストリームのパケット及びファイルフォーマットストリームのトラック内に初期反射パラメータを有し、オーディオ信号を表すオーディオビットストリームを含む、該ファイルフォーマットストリームである。1つ以上の初期反射パターンパラメータは、パターンタイプインデックス、後期残響までのプリディレイ時間、圧縮係数、振幅補正係数、距離減衰指数、パターン方位パラメータ、及び1つ以上の周波数応答パラメータのうちの1つ以上を含む。
【0123】
ER経路230において、すなわち、初期反射寄与ラウドスピーカ信号232を生成する際に、装置200は、随意的に、1つ以上の周波数応答パラメータ(図3c参照)に従ってスペクトル的に成形される方式で、各初期反射位置ERPから1つ以上の音源210/210のオーディオ信号をレンダリングするように構成される。図3cにおいて、円(青)は、RT60の周波数依存性を示す。すべての初期反射に対して、同一の周波数依存性を適用することができる。別の周波数依存性は、音源又はレシーバの壁近接度(<2m)用のバスブースト(bass boost)によって適用することができる。1つ以上の周波数応答パラメータは、ビットストリームに含まれてもよく、ビットストリームは、音源210/210のオーディオ信号又は個々の信号212及び212の表現も含んでもよい。1つ以上の周波数応答パラメータは、1つ以上の初期反射パターンパラメータに含まれてもよい。
【0124】
装置200は、初期反射位置ERPから1つ以上の音源210/210のオーディオ信号のレンダリングを実行する際に、リスナ頭部の向きに特有のHRTFを使用するように構成されてもよい。HRTFは、頭部伝達関数を表す。
【0125】
任意の拡散経路240において、1つ以上のオーディオ信号212/212をレンダリングして、拡散後期残響ラウドスピーカ信号242を取得することができる。装置200は、室内インパルス応答の拡散後期残響部分を生成し、例えば、この室内インパルス応答を使用して、拡散経路240内で1つ以上のオーディオ信号212/212をレンダリングするように構成されてもよい。拡散後期残響ラウドスピーカ信号242は、室内インパルス応答の拡散後期残響部分に関連する。
【0126】
装置200は、1つ以上のオーディオ信号212/212をレンダリングする際に、室内インパルス応答の直接音源部分に関連する直接音寄与ラウドスピーカ信号222/222と、室内インパルス応答の初期反射部分に関連する初期反射寄与ラウドスピーカ信号232と、随意的には、室内インパルス応答の拡散後期残響部分に関連する拡散後期残響ラウドスピーカ信号242と、にわたる合計250を形成することによって、ラウドスピーカ信号252のセットを生成するように構成されてもよい。
【0127】
(屋内レンダリング)
a)直接音と後期残響の開始との間のギャップをカバーするERパターン。
b)水平面内に分布するERパターン。
c)部屋の寸法、部屋の容積、後期残響までのプリディレイ時間、ERの数を設定するためのRT60、ERの間隔、距離に対するERの振幅挙動などの部屋の音響パラメータによって制御されるERパターン。
d)2~20個のERを有することができるERパターン。
e)位置が螺旋によって決定されるER。
f)位置が2つの螺旋状アームによって決定されるER。
g)位置が以下の通り、すなわち、
【数12】
によって決定されるER。
h)位置が放射方位にわたりランダムに、プリディレイ時間まで拡散するER。
i)ERパターンは、室内の音源位置及びレシーバ位置から独立して一定に保たれる。パターンの形成は一定に保たれるが、リスナと共に移動する。また、反射の振幅は、音源‐リスナ間距離に依存する。
j)部屋の反射を減らして、特定の音特性を生成する。
【0128】
(屋外レンダリング)
k)例えば、2~6個の反射を有する希薄なERパターン、特に屋外シーン。
l)シーン全体における反射面の幾何解析を利用して、ER屋外パターンのレベル及びプリディレイを導出する。
m)距離にわたって合計された分布を使用して、ERパターンパラメータを導出する。
n)ユーザが到達可能な領域内の可能なリスニング位置のメッシュに対して、この解析を行う。
o)このような分布の最初の2つのピークを、対応する距離と共に使用する。
p)この分布値からpredelay、compFactor、distAlphaを算出する。
【0129】
(全体)
q)ある音響シーン及び/又は部屋から別の音響シーン及び/又は部屋に変更するときに、ERパターンレベルのフェードイン及びフェードアウトを適用する。
【0130】
(6.2.伝達、ビットストリーム及びシグナリングの態様)
a)屋内シーンは、シーンによって与えられる室内音響パラメータを用いることで、デコーダ/レンダラ内で完全に計算することができる。
b)具体的には、屋外シーンは、エンコーダにおける幾何解析から恩恵を受けることができる。パターンの制御パラメータのみを送信しなければならない。好ましい実施形態では、パラメータは、以下を含む:アルゴリズム/パターン数、後期残響までのプリディレイ、プリディレイと比較したときのパターンの圧縮係数、振幅補正係数、距離減衰指数、パターン方位パラメータ、周波数応答記述
c)新しいERパターンを使用すべき場合、エンコーダ内でこれらのERパターンを完全に計算し、次いでデコーダに送信することができる。これらのERパターンは、(通常の距離減衰に関する)反射の時間位置及び相対レベル(方位角、仰角、半径、振幅補正係数、距離減衰指数、周波数応答記述のそれぞれに対する、ERの数)によって定義される。
d)デコーダ/レンダラに、いくつかのERパターンを予め設けることができる。この場合、ビットストリームシグナリングは、事前に設けられたどのERパターンを使用すべきかを示すフィールドを含む。さらに、このパターンのパラメータは、b.1で説明したようにシグナリングされる。
【0131】
(7.応用分野)
時間のかかるERの正確な幾何学的計算は、特に、以下のような用途において回避することができる。
・リアルタイム聴覚仮想環境
・リアルタイム拡張現実
【0132】
(8.さらなる実施形態)
図16は、リスナ位置10及び音源位置possに関する情報を受信するように構成される、サウンドレンダリング用の装置200の実施形態を示す。この情報は、リスナと音源との間の距離dを決定するために使用することができる。随意的に、装置200は、図15の装置200に関して説明したような距離を使用するように構成されてもよい。装置200は、室内インパルス応答400を使用して、音源のオーディオ信号212をレンダリングする(202)ように構成され、室内インパルス応答400の初期反射部分410は、初期反射パターン1によって排他的に決定される。初期反射パターン1は、初期反射位置ERP(ERP~ERPを参照)のコンステレーションを示し、また、初期反射位置ERPがリスナ位置10の周囲に位置し、且つ、リスナ位置10から角度方向に位置するように、リスナ位置10に配置され、角度方向は、リスナ頭部の向きの変化に対して不変である。
【0133】
装置200は、上述の特徴のいずれかを備えることができる。例えば、装置200は、サウンドレンダリング用の初期反射パターンを決定するための図6図18、又は図20の装置100を備えることができる。代替的に、装置200は、サウンドレンダリング用の初期反射パターンを決定するための異なる装置、たとえば、図2に関して説明し、及び/又はセクション1、3及び5で説明したような決定を実行するように構成される装置を備えることができる。
【0134】
図17は、リスナ位置10及び音源位置posに関する第1情報を受信するように構成される、サウンドレンダリング用の装置200の実施形態を示す。この情報は、リスナと音源との間の距離dを決定するために使用されてもよい。随意的に、装置200は、図15の装置200に関して説明したような距離を使用するように構成されてもよい。装置200は、例えば、音源位置posに配置された音源のオーディオ信号の表現214と、1つ以上の初期反射パターンパラメータ310とを含むビットストリーム300を受信し、また例えば、ビットストリーム300から、オーディオ信号の表現及び初期反射パターンパラメータを読み取るように構成される。ビットストリーム300は、例えば、ビットストリーム300のヘッダ又はメタデータフィールド内に初期反射パラメータ310を有するオーディオビットストリーム、又は、ファイルフォーマットストリームのパケット及びファイルフォーマットストリームのトラック内に初期反射パラメータ310を有し、オーディオ信号を表すオーディオビットストリームを含む、該ファイルフォーマットストリームである。
【0135】
1つ以上の初期反射パターンパラメータ310は、パターンタイプインデックス、後期残響までのプリディレイ時間、圧縮係数、振幅補正係数、距離減衰指数、パターン方位パラメータ、及び1つ以上の周波数応答パラメータのうちの1つ以上を備えてもよい。
【0136】
付加的に、装置200は、例えば図2に関して説明したように、及び/又はセクション1、3及び5において説明したように、1つ以上の初期反射パターンパラメータ310に応じて初期反射パターン1を決定する(270)ように構成される。初期反射パターン1は、初期反射位置ERP(ERP~ERPを参照)のコンステレーションを示す。例えば、装置300は、後期残響までのプリディレイ時間が大きいほど初期反射位置ERPの数が大きくなるように、初期反射パターン1の決定270を実行するように構成されてもよい。付加的に、又は代替的に、装置200は、後期残響までのプリディレイ時間が大きいほど、リスナ位置10から最も遠い初期反射位置ERPがより遠くに離間するように、初期反射パターン1の決定270を実行するように構成される。離間距離は、プリディレイ時間よりも小さくてもよい。
【0137】
さらに、装置200は、室内インパルス応答400を使用して、音源のオーディオ信号をレンダリング202するように構成され、室内インパルス応答400の初期反射部分410は、初期反射パターン1によって決定される。初期反射パターン1は、初期反射位置ERP(ERP~ERPを参照)のコンステレーションを示し、また、初期反射位置ERPがリスナ位置10の周囲に位置し、且つ、リスナ位置10から角度方向に位置するように、リスナ位置10に配置され、角度方向は、リスナ頭部の向きの変化に対して不変である。
【0138】
一実施形態によれば、装置200は、パターンタイプインデックスが、例えば、セクション1に記載されているように、エンコーダによってパラメータ化される決定方法を示す場合、ビットストリーム300から、1つ以上の初期反射パターンパラメータ310の一部として、初期反射パターンにおける初期反射の数、初期反射毎の、方位角、仰角、半径、例えば、リスナ位置までの距離、初期反射毎の振幅補正係数、初期反射毎の距離減衰指数、並びに初期反射毎の周波数応答記述を読み取るように構成される。
【0139】
装置200は、上述の特徴のいずれかを備えることができる。
【0140】
図18は、音響環境5の音響特性を表す少なくとも1つの室内音響パラメータ310を受信するように構成される、サウンドレンダリング用の初期反射パターン1を決定するための装置100の実施形態を示す。装置100は、初期反射位置ERP(ERP~ERPを参照)の数272が少なくとも1つの室内音響パラメータ310に依存するように、初期反射パターン1を決定する(270)ように構成される。初期反射パターン1は、初期反射位置のコンステレーションを示す。装置100は、特に、図2並びにセクション1及び5に関して上述した特徴を備えることができる。
【0141】
図19は、リスナ位置10、第1音源位置posS1、及び第2音源位置posS2に関する情報を受信するように構成される、サウンドレンダリング用の装置200の実施形態を示す。装置200は、室内インパルス応答400を使用して、2つの音源210及び210のオーディオ信号212及び212をレンダリングする(202)ように構成され、室内インパルス応答400の初期反射部分410は、初期反射パターン1によって決定される。初期反射パターン1は、初期反射位置ERPのコンステレーションを示し(ERPからERPを参照)、また、初期反射位置ERPがリスナ位置10の周囲に位置し、且つ、リスナ位置10から角度方向に位置するように、リスナ位置10に配置され、角度方向は、リスナ頭部の向きの変化に対して不変である。レンダリング(202)は、さらに、第1音源位置posS1に位置する第1音源210の第1オーディオ信号212と、第2音源位置posS2に位置する第2音源210の第2オーディオ信号212との加重和204を形成することによって実行される。加重和204は、第1音源位置poss1とリスナ位置10との間の第1距離d1が、第2音源位置poss2とリスナ位置10との間の第2距離d2よりも小さい場合、第1オーディオ信号212を第2オーディオ信号212の場合よりも大きなw1で重み付けし、第1距離d1が第2距離d2よりも大きい場合、第2オーディオ信号212を、第1オーディオ信号212の場合よりも大きなw2で重み付けする。付加的に、レンダリングは、初期反射位置ERPから加重和204をレンダリングすることによって、室内インパルス応答400の初期反射部分410に関連する初期反射寄与ラウドスピーカ信号232を生成することによって実行される。装置200は、特に、セクション5に記載されている特徴を含むことができる。しかしながら、装置200が、上記の実施形態のいずれかで説明したようなERパターン1を決定するための装置を備えることもできることは明らかである。
【0142】
図20は、音響環境5の音響特性を表す少なくとも1つの室内音響パラメータ310を受信するように構成される、サウンドレンダリング用の初期反射パターン1を決定する(270)ための装置100の一実施形態を示す。装置100は、リスナ位置10を中心とする1つ以上の螺旋関数3及び4をパラメータ化することによって、また1つ以上の螺旋関数3及び4を使用して初期反射位置ERP(ERP1~ERP1及びERP2~ERP2を参照)を配置することによって、初期反射パターン1を決定する(270)ように構成される。初期反射パターン1は、初期反射位置ERPのコンステレーションを示す。装置100は、特に、図2及びセクション1に関して説明したような特徴を備えることができるが、装置が、本明細書で説明した他の特徴を備えることもできることは明らかである。
【0143】
(9.代替実施形態)
装置の文脈でいくつかの態様を説明してきたが、これらの態様は、対応する方法の説明も表しており、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することが明らかである。同様に、方法ステップの文脈で説明される態様は、対応する装置の対応するブロック又はアイテム又は特徴の説明も表す。
【0144】
本発明のレンダリングされたオーディオ信号又は本発明の初期反射パターン情報は、デジタル記憶媒体に記憶することができ、又はインターネット等の無線伝送媒体若しくは有線伝送媒体のような伝送媒体上で伝送することができる。
【0145】
特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実施することができる。実装形態は、それぞれの方法が実施されるように、プログラマブルコンピュータシステムと協働する(又は協働することが可能な)電子可読制御信号が記憶されているデジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリを使用して実施することができる。
【0146】
本発明によるいくつかの実施形態は、本明細書で説明されている方法のうちの1つが実施されるように、プログラム可能コンピュータシステムと協働することが可能な、電子可読制御信号を有するデータキャリアを含む。
【0147】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動するときに、方法のうちの1つを実施するように作動可能である。プログラムコードは、例えば、機械可読キャリア上に記憶されてもよい。
【0148】
他の実施形態は、機械可読キャリアに記憶されている、本明細書で説明された方法のうちの1つを実施するためのコンピュータプログラムを含む。
【0149】
言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書で説明されている方法のうちの1つを実施するためのプログラムコードを有するコンピュータプログラムである。
【0150】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実施するためのコンピュータプログラムを記録されて含む、データキャリア(又はデジタル記憶媒体若しくはコンピュータ可読媒体)である。
【0151】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実施するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。
【0152】
さらなる実施形態は、本明細書で説明されている方法のうちの1つを実施するように構成又は適合されている処理手段、例えばコンピュータ、又はプログラム可能論理デバイスを含む。
【0153】
さらなる実施形態は、本明細書で説明されている方法のうちの1つを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0154】
いくつかの実施形態では、プログラム可能論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)を使用して、本明細書で説明されている方法の機能の一部又は全部を実施してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明されている方法のうちの1つを実行するために、マイクロプロセッサと協働してもよい。一般的に、方法は、好ましくは任意のハードウェア装置によって実行される。
【0155】
上述の実施形態は、本発明の原理を例示するに過ぎない。本明細書で説明されている構成及び詳細の修正及び変更は、当業者には明らかであることが理解される。したがって、本発明は、間近にある特許請求の範囲によってのみ限定され、本明細書の実施形態の記述及び説明によって提示される特定の詳細によっては限定されないことが意図される。
【0156】
(10.引用非特許文献)
[1] Jot, J.-M., Real-time spatial processing of sounds for music, multimedia and interactive human-computer interfaces. Audio and Multimedia, 1997(ACM Multimedia Systems Journal, February 1997). (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.54.6319&rep=rep1&type=pdfから入手可能)
[2]Jullien, J.P., E. Kahle, S. Winsberg, and O. Warusfel, Some Results on Objective Characterisation of Room Acoustical Quality in Both Laboratory and Real Environments, 1992, IRCAM, France. (https://kahle.be/articles/IRCAM_Room_Acoustical_Quality_1992.pdfから入手可能)
[3] Jot, J.-M., O. Warusfel, E. Kahle, and M. Mein. Binaural Concert HallSimulation in Real Time. IEEE 93. 1993. Mohonk (USA).
[4] Carpentier, T. A New Implementation of Spat in Max 15th Sound and Music Computing Conference (SMC2018)2018. Limassol, Cyprus. (https://hal.archives-ouvertes.fr/hal-02094499/document.)
[5] Vaananen, R. and J. Huopaniemi, Advanced AudioBIFS: Virtual Acoustics Modeling in MPEG-4 Scene Description. IEEE Transactions on Multimedia, 2004. 6(5): p. 661-675.
[6] Brinkmann, F., H. Gamper, N. Raghuvanshi, and I. Tashev. Towards Encoding Perceptually Salient Early Reflections for Parametric Spatial Audio Rendering. 148th AES Convention. 2020. Vienna, Austria.
[7] Brinkmann, F., et al., A Round Robin on Room Acoustical Simulation and Auralization. J. Acoust. Soc. Am., 2019. 145(4): p. 2746..2760 DOI: https://doi.org/10.1121/1.5096178.
[8] Bregman, A.S., Auditory Scene Analysis (The Perceptual Organization of Sound). 1990, MIT Press. ISBN: 9780262022972.
[9] Blauert, J., Spatial Hearing, The Psychophysics of Human Sound Localization. 2nd ed. 1997, Cambrigde Massachusetts: MIT Press. ISBN: 0-262-02413-6.
[10] Angus, J.A.S., The Effects of Specular Versus Diffuse Reflections on the Frequency Response at the Listener. J. Audio Eng. Soc., 2001. 49(3): p. 125-133.
[11] Barron, M. and A.H. Marshall, Spatial Impression due to Early Lateral Reflections in Concert Halls: The Derivation of a Physical Measure. Journal of Sound and Vibration, 1981. 77(2): p. 211-232.
[12] Bech, S. Perception of Reproduced Sound: Audibility of Individual Reflections in a Complete Sound Field. 96th AES Convention. 1994. Amsterdam, The Netherlands.
[13] Kuttruff, H., Room Acoustics (fourth edition). 2000: Spon Press. ISBN: 0-419-24580-4.
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11(a)】
図11(b)】
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25-1】
図25-2】
【手続補正書】
【提出日】2024-06-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
サウンドレンダリング用の初期反射パターン(1)を決定するための装置(100)であって、
音響環境(5)の音響特性を表す少なくとも1つの室内音響パラメータ(310)を受信すること、及び
リスナ位置(10)を中心とする1つ以上の螺旋関数(3、4)をパラメータ化し、且つ、前記1つ以上の螺旋関数(3、4)を使用して初期反射位置を配置することによって、初期反射位置のコンステレーションを示す初期反射パターン(1)を決定すること
を行うように構成される、装置(100)。
【請求項2】
請求項1に記載の装置(100)において、前記初期反射パターン(1)は、前記初期反射位置が、前記リスナ位置(10)の周囲に、且つ、前記リスナ位置(10)から角度方向に位置するように、前記リスナ位置(10)に配置されるためのものであり、前記角度方向は、リスナ頭部の向きの変化に対して不変である、装置(100)。
【請求項3】
請求項1に記載の装置(100)において、前記少なくとも1つの室内音響パラメータ(310)は、
部屋の寸法、
部屋の容積、及び
後期残響までのプリディレイ時間
のうちの1つ以上を含む、装置(100)。
【請求項4】
請求項1に記載の装置(100)において、前記少なくとも1つの室内音響パラメータ(310)は、
部屋の寸法、
部屋の音量、及び
後期残響までのプリディレイ時間
から選択された1つのパラメータのみを含む、装置(100)。
【請求項5】
請求項1に記載の装置(100)において、前記1つ以上の螺旋関数(3、4)は、第1螺旋関数(3)及び第2螺旋関数(4)を含み、第1セットの初期反射位置のそれぞれが、第2セットの初期反射のうちの対応する初期反射位置に関連付けられ、且つ、各初期反射位置と対応する初期反射位置との間の接続ラインと垂直に交差するラインに対して互いに反対側に位置するように、前記装置(100)は、前記第1螺旋関数(3)を使用して第1セットの初期反射位置を配置し、且つ前記第2螺旋関数(4)を使用して第2セットの初期反射位置を配置するように構成される、装置(100)。
【請求項6】
請求項5に記載の装置(100)において、前記第1セットの初期反射位置のそれぞれについて、前記第2セットの初期反射のうちの対応する初期反射位置は、前記第1セットの初期反射位置のうちのすべての初期反射位置について共通の角度方向に、前記接続ラインに対して角度的にオフセットされる、装置(100)。
【請求項7】
請求項1に記載の装置(100)において、前記1つ以上の螺旋関数(3、4)は、第1螺旋関数(3)及び第2螺旋関数(4)を含み、第1セットの初期反射位置が極座標で(r1、β1)として決定され、第2セットの初期反射位置が極座標で(r2、β2)として決定されるように、前記装置(100)は、前記第1螺旋関数(3)を使用して前記第1セットの初期反射位置を配置し、且つ、前記第2螺旋関数(4)を使用して前記第2セットの初期反射位置を配置するように構成され、ここで、
【数1】
であり、nERは初期反射位置の数であり、distfactorは定数である、装置(100)。
【請求項8】
請求項7に記載の装置(100)であって、前記少なくとも1つの室内音響パラメータ(310)に基づいて、前記distfactorを決定するように構成される、装置(100)。
【請求項9】
請求項7に記載の装置(100)であって、後期残響までのプリディレイ時間が大きいほど、前記distfactorが大きくなるように、前記distfactorを決定するように構成される、装置(100)。
【請求項10】
請求項7に記載の装置(100)であって、前記少なくとも1つの室内音響パラメータ(310)に基づいて、前記nERを決定するように構成される、装置(100)。
【請求項11】
請求項1に記載の装置(100)であって、前記初期反射パターン(1)を使用してレンダリングされることになるオーディオ信号の表現を含むビットストリーム(300)から、前記少なくとも1つの室内音響パラメータ(310)を読み取るように構成される、装置(100)。
【請求項12】
請求項1に記載の装置(100)であって、
部屋の寸法が大きくなるほど、前記初期反射位置の数が大きくなるように、又は
部屋の容積が大きくなるほど、前記初期反射位置の数が大きくなるように、又は
後期残響までのプリディレイ時間が大きくなるほど、前記初期反射位置の数が大きくなるように、
前記初期反射位置の数を決定するように構成される、装置(100)。
【請求項13】
請求項1に記載の装置(100)であって、
前記1つ以上の螺旋関数(3、4)をパラメータ化することと、及び
前記初期反射位置の数を決定することであり、
部屋の寸法が大きいほど、又は
部屋の容積が大きいほど、又は
後期残響までのプリディレイ時間が大きいほど、
前記初期反射位置のうちの最も離れた位置からリスナまでの距離が大きく、前記距離は、前記プリディレイ時間よりも小さいものであるように、該決定することと、
を行うように構成される、装置(100)。
【請求項14】
請求項1に記載の装置で(100)であって、
前記初期反射パターン(1)の第1の決定及び前記初期反射パターン(1)の第2の決定を支援することであり、前記第1の決定は、前記第2の決定とは異なり、また前記リスナ位置(10)を中心とする1つ以上の螺旋関数(3、4)をパラメータ化すること、及び前記1つ以上の螺旋関数(3、4)を使用して前記初期反射位置を配置することを伴う、該支援すること、並びに
前記音響環境(5)が屋内環境である場合、又はレンダリングされることになるオーディオ信号の表現を含むビットストリーム(300)内のパターンタイプインデックスが、所定の状態を仮定する場合に、前記第1の決定を選択すること
を行うように構成される、装置(100)。
【請求項15】
請求項1に記載の装置(100)であって、前記初期反射位置が、前記リスナ位置(10)とともに水平面内に存在するように、前記初期反射位置を決定するように構成される、装置(100)。
【請求項16】
請求項1に記載の装置(100)であって、レンダリングされることになるオーディオ信号の表現を含むビットストリーム(300)内のパターン方位パラメータに従って前記コンステレーションの方位回転を調整することにより、前記初期反射位置を決定するように構成される、装置(100)。
【請求項17】
サウンドレンダリング用の装置(200)であって
リスナ位置(10)及び音源位置に関する第1情報を受信することと、並びに
室内インパルス応答(400)を使用して、音源のオーディオ信号をレンダリングすることであり、前記室内インパルス応答(400)の初期反射部分(410)は前記初期反射パターン(1)によって決定され、前記初期反射パターン(1)は、
初期反射位置のコンステレーションを示し、また
前記初期反射位置が、前記リスナ位置(10)の周囲に、且つ、前記リスナ位置(10)から角度方向に位置するように、前記リスナ位置(10)に配置され、前記角度方向は、リスナ頭部の向きの変化に対して不変のものである、
該レンダリングすることと、
を行うように構成され、
前記装置(200)は、請求項1に記載の、初期反射パターン(1)を決定するための装置(100)を備える、装置(200)。
【請求項18】
請求項17に記載の装置(200)であって、さらに、前記室内インパルス応答(400)の拡散後期残響部分を生成するように構成される、装置(200)。
【請求項19】
請求項17に記載の装置(200)であって、さらに、前記オーディオ信号をレンダリングする際に、前記室内インパルス応答(400)の直接音源部分に関連する直接音寄与ラウドスピーカ信号(222)と、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)とに対する合計を形成することによって、ラウドスピーカ信号(252)のセットを生成するように構成される、装置(200)。
【請求項20】
請求項17に記載の装置(200)であって、さらに、前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行することによって、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)を生成するように構成される、装置(200)。
【請求項21】
請求項20に記載の装置(200)であって、さらに、
前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行することによって、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)を生成する際に、
各初期反射位置から前記リスナ位置(10)までの距離に応じてレベルを調整する方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングするように構成される、装置(200)。
【請求項22】
請求項21に記載の装置(200)であって、さらに、各初期反射位置から前記リスナ位置(10)までの距離に応じてレベルを調整する方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングする際に、
各初期反射位置から前記音源のオーディオ信号がレンダリングされるレベルを、レベルオフセットを使用してオフセットすること(20)、又はレベル係数で前記レベルを増幅することであり、前記レベルオフセット若しくはレベル係数は、すべての初期反射位置について共通である、該オフセット又は増幅すること、並びに、
振幅補正係数に応じて前記レベルオフセット若しくはレベル係数を設定すること
を行うように構成される、装置(200)。
【請求項23】
請求項21に記載の装置(200)であって、さらに、各初期反射位置から前記リスナ位置(10)までの距離に応じてレベルを調整する方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングする際に、距離減衰指数に従って前記音源位置から前記オーディオ信号をレンダリングするための装置(200)によって使用されるレベル調整に対して、各初期反射位置から前記リスナ位置までの距離に応じたレベル調整を修正するように構成される、装置(200)。
【請求項24】
請求項20に記載の装置(200)であって、さらに、前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行することによって、前記室内インパルス応答(400)の初期反射部分(410)に関連する初期反射寄与ラウドスピーカ信号(232)を生成する際に、1つ以上の周波数応答パラメータに従ってスペクトル的に成形される方式で、各初期反射位置から前記音源のオーディオ信号をレンダリングするように構成される、装置(200)。
【請求項25】
請求項17に記載の装置(200)であって、さらに、前記初期反射位置から前記音源のオーディオ信号のレンダリングを実行する際に、リスナ頭部の向きに特有のHRTFを使用するように構成される、装置(200)。
【請求項26】
請求項17に記載のサウンドレンダリングの対象となるビットストリーム(300)。
【請求項27】
請求項26に記載のサウンドレンダリングの対象となるビットストリーム(300)を記憶するデジタル記憶媒体。
【請求項28】
サウンドレンダリング用の初期反射パターン(1)を決定する方法であって
音響環境(5)の音響特性を表す少なくとも1つの音響パラメータ(310)を受信するステップと、
リスナ位置(10)を中心とする1つ以上の螺旋関数(3、4)をパラメータ化し、且つ、前記1つ以上の螺旋関数(3、4)を使用して初期反射位置を配置することによって、初期反射位置のコンステレーションを示す初期反射パターン(1)を決定するステップと、
を備える、方法。
【請求項29】
サウンドレンダリングの方法であって、
リスナ位置(10)及び音源位置に関する第1情報を受信するステップと、
室内インパルス応答(400)を使用して、音源のオーディオ信号をレンダリングするステップであり、前記室内インパルス応答(400)の初期反射部分(410)は初期反射パターン(1)によって決定され、前記初期反射パターン(1)は、
初期反射位置のコンステレーションを示し、また
前記初期反射位置が、前記リスナ位置(10)の周囲に、且つ、前記リスナ位置(10)から角度方向に位置するように、前記リスナ位置(10)に配置され、前記角度方向は、リスナ頭部の向きの変化に対して不変のものである、
該レンダリングするステップと、
を備え
前記方法は、請求項28に記載の、初期反射パターン(1)を決定するための方法を含む、方法。
【請求項30】
コンピュータプログラムであって、前記コンピュータプログラムを実行した際に、コンピュータに、請求項28又は請求項29に記載の方法を実行させるためのコンピュータプログラム。
【国際調査報告】