(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-29
(54)【発明の名称】オーディオエレメントのレンダリング
(51)【国際特許分類】
H04S 7/00 20060101AFI20241022BHJP
【FI】
H04S7/00 300
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024525734
(86)(22)【出願日】2022-10-27
(85)【翻訳文提出日】2024-06-26
(86)【国際出願番号】 EP2022080044
(87)【国際公開番号】W WO2023073081
(87)【国際公開日】2023-05-04
(32)【優先日】2021-11-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100150670
【氏名又は名称】小梶 晴美
(74)【代理人】
【識別番号】100199705
【氏名又は名称】仙波 和之
(74)【代理人】
【識別番号】100194294
【氏名又は名称】石岡 利康
(72)【発明者】
【氏名】ファルク, トミ
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA05
5D162CA01
5D162CC18
5D162CD03
5D162CD04
5D162EG02
(57)【要約】
オーディオエレメントをレンダリングするための方法。本方法は、以下のステップ、すなわち、(1)LおよびTに基づいてオーディオエレメントの内部表現の上部パートのための上部利得値(G_top)を決定するステップであって、ここで、Lが、基準面とリスニングポイントとの間の垂直距離であり、Tが、基準面とオーディオエレメントの範囲の最上部ポイントとの間の垂直距離である、上部利得値(G_top)を決定するステップ、または(2)LおよびBに基づいてオーディオエレメントの内部表現の下部パートのための下部利得値(G_bottom)を決定するステップであって、ここで、Bが、基準面とオーディオエレメントの範囲の最下部ポイントとの間の垂直距離である、下部利得値(G_bottom)を決定するステップのうちの少なくとも1つを含む。
【選択図】
図6
【特許請求の範囲】
【請求項1】
オーディオエレメント(302)をレンダリングするための方法(600)であって、前記方法は、
LおよびTに基づいて前記オーディオエレメントの内部表現の上部パートのための上部利得値G_topを決定すること(s602)であって、ここで、Lが、基準面(590)とリスニングポイント(A1、A2、A3、A4、A5)との間の垂直距離であり、Tが、前記基準面と前記オーディオエレメントの範囲(410)の最上部ポイント(501)との間の垂直距離である、上部利得値G_topを決定すること(s602)、ならびに/または
LおよびBに基づいて前記オーディオエレメントの前記内部表現の下部パートのための下部利得値G_bottomを決定すること(s604)であって、ここで、Bが、前記基準面と前記オーディオエレメントの前記範囲の最下部ポイント(502)との間の垂直距離である、下部利得値G_bottomを決定すること(s604)
を含む、方法(600)。
【請求項2】
Tが、前記オーディオエレメントのための前記範囲の選択された部分の最上部ポイントと前記基準面との間の垂直距離であり、
Bが、前記オーディオエレメントのための前記範囲の前記選択された部分の最下部ポイントと前記基準面との間の垂直距離である、
請求項1に記載の方法。
【請求項3】
前記オーディオエレメントが、元の範囲を有し、前記オーディオエレメントの前記範囲が、あるリスニング位置からの前記元の範囲を表す前記オーディオエレメントのための簡略化された範囲である、請求項1または2に記載の方法。
【請求項4】
前記オーディオエレメントが、リスニングポイントの上に位置する1つまたは複数の上部仮想スピーカーのセットおよび/または前記リスニングポイントの下に位置する1つまたは複数の下部仮想スピーカーのセットを備える、仮想スピーカーのセットを使用して表される、請求項1または2に記載の方法。
【請求項5】
上部仮想スピーカーの前記セットが、第1の上部仮想スピーカーを備え、前記方法は、
前記第1の上部仮想スピーカーのための第1の上部仮想スピーカー信号y1を作り出すことと、
利得調整された第1の上部仮想スピーカー信号y1’を作り出すことであって、y1’=g*y1であり、ここで、gが、少なくとも前記上部利得値の関数である、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことと、
前記オーディオエレメントをレンダリングするためにy1’を使用することと
をさらに含む、請求項4に記載の方法。
【請求項6】
仮想スピーカーの前記セットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、
後部仮想スピーカーの前記セットが、前記第1の上部仮想スピーカーを備え、
前記方法が、後部仮想スピーカーの前記セットのための後部利得値G_rearを決定することをさらに含み、
gが、少なくとも前記上部利得値G_topおよび前記後部利得値G_rearの関数である、
請求項5に記載の方法。
【請求項7】
g=G_top*G_rearである、
請求項6に記載の方法。
【請求項8】
下部仮想スピーカーの前記セットが、第1の下部仮想スピーカーを備え、前記方法は、
前記第1の下部仮想スピーカーのための第1の下部仮想スピーカー信号y2を作り出すことと、
利得調整された第1の下部仮想スピーカー信号y2’を作り出すことであって、y2’=g*y2であり、ここで、gが、少なくとも前記下部利得値の関数である、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことと、
前記オーディオエレメントをレンダリングするためにy2’を使用することと
をさらに含む、請求項4または5に記載の方法。
【請求項9】
仮想スピーカーの前記セットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、
後部仮想スピーカーの前記セットが、前記第1の下部仮想スピーカーを備え、
前記方法が、後部仮想スピーカーの前記セットのための後部利得値G_rearを決定することをさらに含み、
gが、少なくとも前記下部利得値G_bottomおよび前記後部利得値G_rearの関数である、
請求項8に記載の方法。
【請求項10】
g=G_bottom*G_rearである、
請求項9に記載の方法。
【請求項11】
前記方法が、G_topを決定することを含み、
G_topを決定することは、
L≧Tである場合、G_topを0にセットすること、
(T-βが≦Lであり、L<T)である場合、G_topを(T-L)/βにセットすることであって、ここで、βが、前記最上部ポイント(501)の下のフェード領域のサイズを記述する、G_topを(T-L)/βにセットすること、または
L<(T-β)である場合、G_topを1にセットすること
を含む、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記方法が、G_topを決定することを含み、
G_topを決定することは、
L≧(T+β)である場合、G_topを0にセットすること、
(Tが≦Lであり、L<T+β)である場合、G_topを1+((T-L)/β)にセットすることであって、ここで、βが、前記最上部ポイント(501)の上のフェード領域のサイズを記述する、G_topを1+((T-L)/β)にセットすること、または
L<Tである場合、G_topを1にセットすること
を含む、請求項1から10のいずれか一項に記載の方法。
【請求項13】
前記方法が、G_bottomを決定することを含み、
G_bottomを決定することは、
L≧B+βである場合、G_bottomを1にセットすること、
(Bが≦Lであり、L<B+β)である場合、G_bottomを(L-B)/βにセットすることであって、ここで、βが、最下部ポイント(502)の上のフェード領域のサイズを記述する、G_bottomを(L-B)/βにセットすること、または
L<Bである場合、G_bottomを0にセットすること
を含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記方法が、G_bottomを決定することを含み、
G_bottomを決定することは、
L≧Bである場合、G_bottomを1にセットすること、
(B-βが≦Lであり、L<B)である場合、G_bottomを1+((L-B)/β)にセットすることであって、ここで、βが、最下部ポイント(502)の下のフェード領域のサイズを記述する、G_bottomを1+((L-B)/β)にセットすること、さもなければ
L<(B-β)である場合、G_bottomを0にセットすること
を含む、請求項1から12のいずれか一項に記載の方法。
【請求項15】
オーディオレンダラ(751、1000)の処理回路(1002)によって実行されたとき、前記オーディオレンダラに、請求項1から14のいずれか一項に記載の方法を実行させる命令(1044)を備える、コンピュータプログラム(1043)。
【請求項16】
請求項15に記載のコンピュータプログラムを含んでいるキャリアであって、前記キャリアが、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体(1042)のうちの1つである、キャリア。
【請求項17】
オーディオレンダリング装置(751、1000)であって、前記オーディオレンダリング装置は、
LおよびTに基づいてオーディオエレメントの内部表現の上部パートのための上部利得値G_topを決定することであって、ここで、Lが、基準面(590)とリスニングポイント(A1、A2、A3、A4、A5)との間の垂直距離であり、Tが、前記基準面と前記オーディオエレメントの範囲(410)の最上部ポイント(501)との間の垂直距離である、上部利得値G_topを決定すること、ならびに/または
LおよびBに基づいて前記オーディオエレメントの前記内部表現の下部パートのための下部利得値G_bottomを決定すること(s604)であって、ここで、Bが、前記基準面と前記オーディオエレメントの前記範囲の最下部ポイント(502)との間の垂直距離である、下部利得値G_bottomを決定すること(s604)
を行うように設定された、オーディオレンダリング装置(751、1000)。
【請求項18】
Tが、前記オーディオエレメントのための前記範囲の選択された部分の最上部ポイントと前記基準面との間の垂直距離であり、
Bが、前記オーディオエレメントのための前記範囲の前記選択された部分の最下部ポイントと前記基準面との間の垂直距離である、
請求項17に記載のオーディオレンダリング装置。
【請求項19】
前記オーディオエレメントが、元の範囲を有し、前記オーディオエレメントの前記範囲が、あるリスニング位置からの前記元の範囲を表す前記オーディオエレメントのための簡略化された範囲である、請求項17または18に記載のオーディオレンダリング装置。
【請求項20】
前記オーディオエレメントが、リスニングポイントの上に位置する1つまたは複数の上部仮想スピーカーのセットおよび/または前記リスニングポイントの下に位置する1つまたは複数の下部仮想スピーカーのセットを備える、仮想スピーカーのセットを使用して表される、請求項17または18に記載のオーディオレンダリング装置。
【請求項21】
上部仮想スピーカーの前記セットが、第1の上部仮想スピーカーを備え、前記オーディオレンダリング装置は、
前記第1の上部仮想スピーカーのための第1の上部仮想スピーカー信号y1を作り出すことと、
利得調整された第1の上部仮想スピーカー信号y1’を作り出すことであって、y1’=g*y1であり、ここで、gが、少なくとも前記上部利得値の関数である、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことと、
前記オーディオエレメントをレンダリングするためにy1’を使用することと
を行うようにさらに設定された、請求項20に記載のオーディオレンダリング装置。
【請求項22】
仮想スピーカーの前記セットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、
後部仮想スピーカーの前記セットが、前記第1の上部仮想スピーカーを備え、
前記オーディオレンダリング装置が、後部仮想スピーカーの前記セットのための後部利得値G_rearを決定するようにさらに設定され、
gが、少なくとも前記上部利得値G_topおよび前記後部利得値G_rearの関数である、
請求項21に記載のオーディオレンダリング装置。
【請求項23】
g=G_top*G_rearである、
請求項22に記載のオーディオレンダリング装置。
【請求項24】
下部仮想スピーカーの前記セットが、第1の下部仮想スピーカーを備え、前記方法は、
前記第1の下部仮想スピーカーのための第1の下部仮想スピーカー信号y2を作り出すことと、
利得調整された第1の下部仮想スピーカー信号y2’を作り出すことであって、y2’=g*y2であり、ここで、gが、少なくとも前記下部利得値の関数である、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことと、
前記オーディオエレメントをレンダリングするためにy2’を使用することと
をさらに含む、請求項20または21に記載のオーディオレンダリング装置。
【請求項25】
仮想スピーカーの前記セットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、
後部仮想スピーカーの前記セットが、前記第1の下部仮想スピーカーを備え、
前記オーディオレンダリング装置が、後部仮想スピーカーの前記セットのための後部利得値G_rearを決定するようにさらに設定され、
gが、少なくとも前記下部利得値G_bottomおよび前記後部利得値G_rearの関数である、
請求項24に記載のオーディオレンダリング装置。
【請求項26】
g=G_bottom*G_rearである、
請求項25に記載のオーディオレンダリング装置。
【請求項27】
前記オーディオレンダリング装置は、以下のステップ、すなわち、
L≧Tである場合、G_topを0にセットするステップ、
(T-βが≦Lであり、L<T)である場合、G_topを(T-L)/βにセットするステップであって、ここで、βが、前記最上部ポイント(501)の下のフェード領域のサイズを記述する、G_topを(T-L)/βにセットするステップ、または
L<(T-β)である場合、G_topを1にセットするステップ
のうちの1つを含むプロセスを実行することによってG_topを決定するように設定された、
請求項17から26のいずれか一項に記載のオーディオレンダリング装置。
【請求項28】
前記オーディオレンダリング装置は、以下のステップ、すなわち、
L≧(T+β)である場合、G_topを0にセットするステップ、
(Tが≦Lであり、L<T+β)である場合、G_topを1+((T-L)/β)にセットするステップであって、ここで、βが、前記最上部ポイント(501)の上のフェード領域のサイズを記述する、G_topを1+((T-L)/β)にセットするステップ、または
L<Tである場合、G_topを1にセットするステップ
のうちの1つを含むプロセスを実行することによってG_topを決定するように設定された、
請求項17から26のいずれか一項に記載のオーディオレンダリング装置。
【請求項29】
前記オーディオレンダリング装置は、以下のステップ、すなわち、
L≧B+βである場合、G_bottomを1にセットするステップ、
(Bが≦Lであり、L<B+β)である場合、G_bottomを(L-B)/βにセットするステップであって、ここで、βが、最下部ポイント(502)の上のフェード領域のサイズを記述する、G_bottomを(L-B)/βにセットするステップ、または
L<Bである場合、G_bottomを0にセットするステップ
のうちの1つを含むプロセスを実行することによってG_bottomを決定するように設定された、
請求項17から28のいずれか一項に記載のオーディオレンダリング装置。
【請求項30】
前記オーディオレンダリング装置は、以下のステップ、すなわち、
L≧Bである場合、G_bottomを1にセットするステップ、
(B-βが≦Lであり、L<B)である場合、G_bottomを1+((L-B)/β)にセットするステップであって、ここで、βが、最下部ポイント(502)の下のフェード領域のサイズを記述する、G_bottomを1+((L-B)/β)にセットするステップ、さもなければ
L<(B-β)である場合、G_bottomを0にセットするステップ
のうちの1つを含むプロセスを実行することによってG_bottomを決定するように設定された、
請求項17から28のいずれか一項に記載のオーディオレンダリング装置。
【請求項31】
前記オーディオレンダリング装置が、メモリと、前記メモリに結合された処理回路とを備える、請求項17から30のいずれか一項に記載のオーディオレンダリング装置。
【発明の詳細な説明】
【技術分野】
【0001】
オーディオエレメントのレンダリングに関係する実施形態が開示される。
【背景技術】
【0002】
空間オーディオレンダリングは、音が、ある位置における、ならびにあるサイズおよび形状(すなわち、範囲(extent))を有する、シーン内の物理的ソースから来るという印象をリスナーに与えるために、エクステンデッドリアリティ(XR:extended reality)シーン(たとえば、仮想現実(VR)、拡張現実(AR)、または複合現実(MR)シーン)内のオーディオを提示するために使用されるプロセスである。提示は、ヘッドフォンスピーカーまたは他のスピーカーを通して行われ得る。ヘッドフォンスピーカーを介して提示が行われる場合、使用される処理は、バイノーラルレンダリングと呼ばれ、どの方向から音が来ているかを決定することを可能にする、人間空間聴覚の空間キューを使用する。キューは、両耳間時間遅延(ITD:inter-aural time delay)、両耳間レベル差(ILD:inter-aural level difference)、および/またはスペクトル差を伴う。
【0003】
最も一般的な形式の空間オーディオレンダリングは、ポイントソースの概念に基づき、各音ソースが、1つの特定のポイントから音を発するように規定される。各音ソースが1つの特定のポイントから音を発するように規定されるので、音ソースは、サイズまたは形状を有しない。範囲(サイズおよび形状)を有する音ソースをレンダリングするために、異なる方法が開発されている。
【0004】
1つのそのような知られている方法は、オーディオエレメントの周りの位置においてモノオーディオエレメントの複数のコピーを作成することである。この構成は、あるサイズをもつ空間的に均一なオブジェクトの知覚をもたらす。この概念は、たとえば、MPEG-H 3Dオーディオ規格の「オブジェクトスプレッド(object spread)」および「オブジェクト発散(object divergence)」特徴(参考文献[1]および[2]参照)において、およびEBUオーディオ規定モデル(ADM)規格の「オブジェクト発散」特徴(参考文献[4]参照)において使用される。モノオーディオソースを使用するこのアイデアは、参考文献[7]において説明されるように、さらに開発され、ここで、音オブジェクトの面積-体積ジオメトリが、リスナーの周りの球に投影され、音が、球上のオブジェクトの幾何学的投影をカバーするすべての頭部関係(HR:head-related)フィルタの積分として評価されるHRフィルタのペアを使用してリスナーにレンダリングされる。球の体積ソースの場合、この積分は、解析的解法を有する。しかしながら、任意の面積-体積ソースジオメトリの場合、積分は、いわゆるモンテカルロ光線サンプリングを使用して、球上の投影されたソース表面をサンプリングすることによって評価される。
【0005】
別のレンダリング方法は、モノオーディオ信号に加えて、空間的拡散成分をレンダリングし、これは、元のモノオーディオエレメントとは対照的に、別個のピンポイントロケーションを有しない、やや拡散するオブジェクトの知覚をもたらす。この概念は、たとえば、MPEG-H 3Dオーディオ規格の「オブジェクト拡散性(object diffuseness)」特徴(参考文献[3]参照)およびEBU ADMの「オブジェクト拡散性」特徴(参考文献[5]参照)において使用される。
【0006】
上記の2つの方法の組合せも知られている。たとえば、EBU ADMの「オブジェクト範囲(object extent)」特徴は、モノオーディオエレメントの複数のコピーの作成を、拡散成分の追加と組み合わせる(参考文献[6]参照)。
【0007】
多くの場合、オーディオエレメントの実際の形状は、基本形状(たとえば、球またはボックス)を用いて十分に良く記述され得る。しかし、時々、実際の形状は、より複雑であり、より詳細な形式(たとえば、メッシュ構造またはパラメトリック記述フォーマット)で記述される必要がある。
【0008】
いくつかのオーディオエレメントは、リスナーが、オーディオエレメントのための範囲(すなわち、オーディオエレメントの空間境界)の内側で移動し、オーディオエレメントのもっともらしいオーディオ表現を聞くことを予想することができる性質のものである。これらのオーディオエレメントについて、範囲は、オーディオエレメントの内部と外部との間のエッジを規定する空間境界として働く。そのようなオーディオエレメントの例は、森(鳥、木々における風の音)、大勢の人々(拍手または応援する人々の音)、および広場の背景音(交通、鳥、歩く人々の音)を含む。
【0009】
リスナーがオーディオエレメントの空間境界内で移動するとき、オーディオ表現は、没入型であり、リスナーを囲むべきである。リスナーが空間境界の中から移動するとき、表現は、今度は、オーディオエレメントの範囲から来るように現れるべきである。
【0010】
これらのオーディオエレメントは、多数の個々のポイントソースとして表され得るが、これらを単一のオーディオ信号を用いて表すことがより効率的である。内部オーディオ表現では、リスナーの周りの音場が記述されるリスナー中心フォーマットが好適である。リスナー中心フォーマットは、5.1、7.1としてのチャネルベースフォーマット、およびアンビソニックなどのシーンベースフォーマットを含む。リスナー中心フォーマットは、一般に、リスナーの周りに位置するいくつかの仮想スピーカー(または略して「スピーカー」)を使用してレンダリングされる。
【発明の概要】
【0011】
現在、いくつかの課題が存在する。たとえば、リスナー位置が空間境界の外側にあるとき、リスナー中心オーディオ信号を直接レンダリングするための明確に規定されたやり方がない。リスナーが空間境界の外側に位置するとき、音ソースがもはやリスナーを囲まないので、ソース中心表現がより好適であるが、代わりに、ある方向においてある距離隔てたところから来ているようにレンダリングされるべきである。1つのソリューションは、内部表現のためのリスナー中心オーディオ信号を使用し、それからソース中心オーディオ信号を導出することであり、ソース中心オーディオ信号は、次いで、ソース中心技法を使用してレンダリングされ得る。この技法は、参考文献[8]において説明される。さらに、範囲が任意の形状であり得る、そのようなオーディオエレメントの外部表現をレンダリングする技法が、参考文献[9]において説明される。しかし、これらのソリューションに関する1つの課題は、内部表現と外部表現との間の遷移を、滑らかで自然なサウンディングにすることである。参考文献[10]は、外部表現と内部表現との間の滑らかな遷移をレンダリングするための方法について説明する。参考文献[10]は、リスナーが範囲の表面に近いとき、内部レンダリングのために使用されるスピーカーセットアップの後部半球(hemisphere)を減衰させる方法について説明する。これは、リスナーが範囲表面の近くに位置するとき、オーディオが、リスナーを囲むのではなく範囲内から来るように現れるので、遷移をより自然なものにすることになる。リスナーが範囲のさらに内側に移動するにつれて、減衰は徐々に低減され、したがって、リスナーはすべての側からのオーディオにおいてますます完全に包囲されるようになる。
【0012】
リスナーが範囲表面に近いときに内部表現を修正するために[10]において説明される方法は、オーディオソースの範囲の表面に対する内部表現のスピーカーシステムの整合に基づく。この整合は、範囲の外側を表すスピーカーを決定することを可能にする。この方法の2つの変形形態、整合が水平面のみにおいて行われる変形形態と、整合が観測ベクトル、リスナー位置から範囲上のターゲットポイントへのベクトルに基づいて行われる変形形態とが、説明される。
【0013】
この方法の第1の変形形態に関する問題は、整合が水平次元のみにおいて行われるので、範囲の上または下にあるリスニングポイントを適切にハンドリングするためのやり方がないことである。したがって、オーディオソースからの音が上または下から来るように現れるように、内部表現レンダリングを修正するためのやり方がない。
【0014】
本方法の第2の変形形態は、観測ベクトルに基づく水平次元と垂直次元の両方における整合を使用し、これは、リスナーが範囲の上または下にいる場合をハンドリングすることを可能にする。しかし、そこで、水平次元と垂直次元の両方における整合の使用は、レンダリングスピーカーシステムの配向における安定性に関する問題を引き起こし得、それは、リスナーが範囲表面に近づくとき、迅速に変化し得る。多くの場合、リスナーが範囲内にいるとき、範囲の最も近いポイントが、リスナーの直下に(たとえば、範囲の「床」上に)あることになる。リスナーが範囲表面のより近くに移動するとき、あるポイントにおいて、最も近いポイントは、突然、範囲の最も近い「壁」上にあることになる。これは、リスナーが範囲上の表面に近づくとき、スピーカーシステムの突然で大きい回転を生じることになり、これは、可聴アーティファクトを作り出すことになる。また、この方法は、スピーカーシステムの後部パートと上側パートの両方、または後部パートと下側パートの両方が減衰されるべきである場合を適切にハンドリングしないことになる。
【0015】
したがって、一態様では、オーディオエレメントをレンダリングするための方法が提供される。本方法は、以下のステップ、すなわち、1)LおよびTに基づいてオーディオエレメントの内部表現の上部パートのための上部利得値(G_top)を決定するステップであって、ここで、Lが、基準面(reference plane)とリスニングポイントとの間の垂直距離であり、Tが、基準面とオーディオエレメントのための範囲の最上部ポイントとの間の垂直距離である、上部利得値(G_top)を決定するステップ、または2)LおよびBに基づいてオーディオエレメントの内部表現の下部パートのための下部利得値(G_bottom)を決定するステップであって、ここで、Bが、基準面とオーディオエレメントのための範囲の最下部ポイントとの間の垂直距離である、下部利得値(G_bottom)を決定するステップのうちの少なくとも1つを含む。
【0016】
別の態様では、オーディオレンダラの処理回路によって実行されたとき、オーディオレンダラに、上記で説明された方法を実行させる命令を備えるコンピュータプログラムが提供される。一実施形態では、コンピュータプログラムを含んでいるキャリアが提供され、キャリアは、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの1つである。別の態様では、上記で説明された方法を実行するように設定されたレンダリング装置が提供される。本レンダリング装置は、メモリと、メモリに結合された処理回路とを含み得る。
【0017】
本明細書で開示される実施形態の利点は、それらの実施形態が、リスニングポイントがオーディオエレメントの範囲の上または下にある状況をうまくハンドリングすることである。
【0018】
本明細書に組み込まれ、明細書の一部をなす添付の図面は、様々な実施形態を示している。
【図面の簡単な説明】
【0019】
【
図1】例示的なスピーカーシステムを示す図である。
【
図2】スピーカーシステムを半球に分割することの一例を示す図である。
【
図3A】オーディオエレメントの上のリスニングポイントを示す図である。
【
図3B】オーディオエレメントの下のリスニングポイントを示す図である。
【
図4】オーディオエレメントのための水平輪郭を示す図である。
【
図6】いくつかの実施形態による、プロセスを示すフローチャートである。
【
図7A】いくつかの実施形態による、システムを示す図である。
【
図7B】いくつかの実施形態による、システムを示す図である。
【
図8】いくつかの実施形態による、システムを示す図である。
【
図9】一実施形態による、信号修正器を示す図である。
【
図10】いくつかの実施形態による、装置のブロック図である。
【発明を実施するための形態】
【0020】
一般に、オーディオエレメントの内部表現は、リスニングポイントの周りに球形状に配置された仮想スピーカーのセットを備えるスピーカーシステムを使用してレンダリングされる。これは、(「リスナー」101または「リスニングポイント」101とも呼ばれる)リスニング位置101の周りに球形状に配置された仮想スピーカーS1~S18のセットを備える例示的なスピーカーシステム100を示す、
図1に示されている。スピーカーの数およびスピーカーの位置は変動し得るが、それらは、一般に、リスナー位置から等しい距離に配置される。ベクトルFが、スピーカーシステム100の前部ベクトルを表す。前部のベクトルは、スピーカーシステムの配向を規定し、リスナーの頭部回転から独立している。
【0021】
一実施形態では、スピーカーS1~S18のセットは、
図2に示されているように、4つの半球、すなわち、前部201と、後部202と、上部203と、下部204とに分割される。スピーカーのセットの厳密な設定にかかわらず、スピーカーシステムは全体として、前部ベクトルによって規定された回転を有する。前部ベクトルは、前部半球が向けられる方向を表す。半球のうちの1つのスピーカーに進む信号の利得を減衰させることによって、対応する方向からの音エネルギーが低減され得る。
【0022】
後部半球の利得と、上部半球の利得と、下部半球の利得とは、音がオーディオエレメントの方向のみから来ているという効果を作成するために、独立して減衰され得る。たとえば、オーディオエレメント302(
図3A参照)がリスニングポイント101のすぐ前部にある場合、後部半球の利得は減衰されるべきである。リスニングポイントが、
図3Aに示されているように、オーディオエレメントの上にある場合、上部半球の利得は減衰されるべきである。同様に、リスニングポイントが、
図3Bに示されているように、オーディオエレメントの下にある場合、下部半球の利得は減衰されるべきである。リスニングポイントが、
図3Aに示されているように、範囲の上にあり、そのエッジに近い場合、後部半球と上部半球の両方の利得が減衰され得る。
【0023】
図3Aおよび
図3Bに示されている矢印304が、内部表現スピーカーセットアップの水平整合の前部ベクトルを示す。
図3Aに示されている例では、リスニングポイント101は、オーディオエレメント302の上にあり、オーディオエレメント302のエッジに近く、オーディオエレメント302は、これらの例では、簡略化された矩形範囲を有する。この状況では、内部表現は、オーディオが上からまたは後ろから聞こえないように修正されるべきである。これは、スピーカーシステムの上部203半球および後部202半球を減衰させることによって達成され得る。
図3Bに示されている例では、リスニングポイントは、範囲の下にあり、エッジに近く、この場合、内部表現は、オーディオが下部からまたは後ろから聞こえないように修正されるべきである。
【0024】
減衰は、半球が完全にミュートされ得るように0まで進むか、または、減衰は、半球がよりソフトな空間効果を達成するためにある程度減衰されるにすぎないように、限定され得るかのいずれかであり得る。
【0025】
別個の利得係数(別名、利得値)が、後部半球と、上部半球と、下部半球とについて計算される。これらの利得係数は、次いで、それぞれの半球に対応する、対応する仮想スピーカー信号に適用される。システムのいくつかのスピーカーが、2つ(またはそれ以上)の半球に属し得、これらのスピーカーのための信号は、スピーカーが属する各半球のための利得係数によって影響を及ぼされるべきである。
【0026】
たとえば、スピーカーS4は、上部半球と後部半球の両方に属する。そのスピーカーのための修正された信号y4’は、次いで、
y4’=y4*G_rear*G_top
として計算され得、ここで、y4は、空間修正の前の元の信号であり、G_rearおよびG_topは、後部半球および上部半球のための利得係数である。
【0027】
一例として、
図1および
図2に示されているスピーカーシステム全体の場合、計算は、
のようなものであり得る。
【0028】
後部半球の利得の計算:
一実施形態では、スピーカーシステム100の水平整合が使用される。この整合は、スピーカーシステムを、その前部ベクトルが範囲の方向に水平に向いているように回転する。この整合は、範囲およびリスナーの相対高さを考慮に入れず、その整合は、後部半球の減衰を制御するために使用されるにすぎない。この整合を行うときに高さ情報が廃棄されるので、その整合は、
図4に示されているように、水平面上への範囲の投影の輪郭に対して行われ得る。
図4は、オーディオエレメントの球状範囲410を水平面上に投影することと、その投影の輪郭を見つけることとによって見つけられる水平輪郭400を示す。スピーカーシステム100の前部ベクトルは、水平面上に投影されたリスニングポイントに対する水平輪郭の最も近いポイントの法線の負の方向に向いているべきである。
【0029】
整合は、スピーカーシステム100の前部ベクトルが範囲へ内側に向いており、スピーカーシステムの左および右が範囲の水平輪郭と整合することを確実にするべきである。リスナー101が動き回るとき、後部半球は、常に、範囲から離れて向くべきである。言い換えれば、スピーカーシステムの前部ベクトルは、範囲の水平輪郭の最も近いポイントの法線と整合されるべきである。
【0030】
リスナーが範囲からある距離にあり、範囲の上または下にないとき、後部半球は、範囲から離れてポイントしている側を常に表しており、したがって、リスナーが範囲の内側にない限り、常に減衰され得る。
【0031】
リスナーが範囲の内側、上、または下にあるとき、投影されたリスニングポイントは、水平輪郭の内側にあることになる。この場合、後部半球は減衰されるべきでない。滑らかな遷移を有するために、参考文献[10]に記載されているように、減衰が徐々に低減される、内部フェード領域が使用され得る。そのフェード領域は、リスナーが範囲の水平輪郭を横断するまで減衰が徐々に低減されるような外部領域でもあり得る。
【0032】
上部半球および下部半球の利得の計算:
リスナーが範囲の上にあるときに上部半球の減衰を制御するか、またはリスナーが範囲の下にあるときに下部半球の減衰を制御するために、リスナー位置の高さは、範囲の高さと比較される(すなわち、基準面とリスニングポイントとの間の垂直距離を、基準面と範囲の最上部ポイントとの間の垂直距離と比較する)べきである。
【0033】
一実施形態では、上部半球は、リスナー位置が範囲の最上部ポイント(または範囲の選択された部分の最上部ポイント)よりも高い場合、減衰される。たとえば、一実施形態では、上部利得係数は、LとTとの間の差の関数であり、ここで、Lは、リスニングポイントと基準面との間の垂直距離であり、Tは、オーディオエレメント(またはオーディオエレメントを表す簡略化された範囲)の最上部ポイントと基準面との間の垂直距離である。同様に、下部半球は、リスナー位置が範囲の最下部ポイント(または範囲の選択された部分の最下部ポイント)よりも低い場合、減衰される。たとえば、一実施形態では、下部利得係数は、LとBとの間の差の関数であり、ここで、Bは、オーディオエレメント(またはオーディオエレメントを表す簡略化された範囲)の最下部ポイントと基準面との間の垂直距離である。
【0034】
これは、
図5に示されている。すなわち、オーディオエレメントの範囲410の最上部ポイント501および最下部ポイント502は、上部半球および下部半球の利得の減衰がどこで開始および終了するべきであるかを規定するために使用される。随意に、減衰が徐々に導入され得るようなフェード領域があり得る。
図5に示されているように、リスニングポイントA1が、範囲410の最上部ポイント501の上にあり、したがって、上部半球は減衰されるべきである(すなわち、位置A1と基準面590との間の垂直距離580が、最上部ポイント501と基準面との間の垂直距離581よりも大きい)。リスニングポイントA2が、上部半球の減衰が徐々に低減される、フェード領域の内側にある。リスニングポイントA3が、範囲の上部と下部との中間にあり、ここでは、減衰が上部半球または下部半球に適用されない。リスニングポイントA4が、下部半球の減衰が徐々に導入される、フェード領域の内側にある。リスニングポイントA5が、範囲の最下部ポイント502の下にあり、ここでは、下部半球は減衰されるべきである(すなわち、位置A5と基準面590との間の垂直距離582が、最下部ポイント502と基準面590との間の垂直距離583よりも小さい)。しかしながら、適応のための基礎として範囲410の最上部ポイントおよび最下部ポイントを使用することは、より複雑な形状をもつ極めて大きい範囲について理想的に動作しないことがあり、範囲の高さは、範囲の異なる部分において変動し得る。
【0035】
大きい複雑な範囲をハンドリングするために、あるリスニングポイントについて関連する範囲のパートのみを考慮する方法が使用され得る。これは、リスナーからある距離内にある範囲のパートのみが考慮に入れられること、または何らかの知覚モデルを使用して範囲の知覚的に関連するパートとして見られる範囲のパートのみを意味することができる。したがって、この実施形態では、上部半球は、リスナー位置が範囲の関連する部分の最上部ポイントよりも高い場合、減衰され、下部半球は、リスナー位置が範囲の関連する部分の最下部ポイントよりも低い場合、減衰される。
【0036】
参考文献[10]の場合のように、利用可能な外部表現がある場合、これは、範囲の知覚的に関連するパートを表し得、その場合、外部表現を規定するポイントのみが評価される必要がある。しかしながら、外部表現は、リスナーが範囲の内側にあるとき、有効でなく、したがって、この方法では、範囲により近くなるときに減衰が徐々に低減され、リスナーが範囲の内側にあるときに減衰がないように、範囲の外側のフェード領域を有することが有益であり得る。
【0037】
空間高調波ドメイン(spatial harmonics domain)における内部表現の修正:
いくつかの場合には、内部表現のレンダリングは、仮想スピーカーを使用して行われないが、代わりに、内部表現からの直接レンダリングを用いて行われ、たとえば、アンビソニック信号が、球状高調波ドメイン(spherical harmonics domain)内でバイノーラル信号に直接レンダリングされ得る。この場合、利得係数を個々のラウドスピーカー信号に適用することによる異なる半球の減衰は行われ得ず、代わりに、レンダリングが行われる前に空間高調波ドメインにおいて空間修正が適用される必要がある。この空間修正をどのように行うべきかの、いくつかの方法が知られており、たとえば、参考文献[11]において説明されるように、アンビソニック信号に対する方向性ラウドネス修正を実施するために、いわゆる空間キャップが使用され得る。
【0038】
前に説明された上部、下部および後部半球のための必要な利得を導出するために同じ原理が使用され得るが、次いで、減衰されるべきである各半球について1つの空間キャップ関数を使用して利得修正の適用が行われる。
【0039】
図6は、一実施形態による、オーディオエレメントをレンダリングするためのプロセス600を示すフローチャートである。プロセス600は、ステップs602またはステップs604において始まり得る。
【0040】
ステップs602は、LおよびTに基づいてオーディオエレメントの内部表現の上部パートのための上部利得値(G_top)を決定することであって、ここで、Lが、基準面とリスニングポイントとの間の垂直距離であり、Tが、基準面とオーディオエレメントの範囲の最上部ポイント(たとえば、ポイント501)との間の垂直距離である、上部利得値(G_top)を決定することを含む。たとえば、一実施形態では、LがTよりも大きいとき、G_topは、LとTとの間の差に反比例する(たとえば、G_top≒α×1/(L-T)であり、ここで、αは、所定の補正係数である)。これは、G_topが最上部ポイントの上の領域においてフェードアウトされることを意味することになる。
【0041】
別の実施形態では、G_topは、
として計算され、ここで、βは、最上部ポイントの下にあるフェード領域のサイズを記述する。別の実施形態では、フェード領域は、最上部ポイントの上にあり、その場合、G_topは、
として計算され得る。
【0042】
ステップs604は、LおよびBに基づいてオーディオエレメントの内部表現の下部パートのための下部利得値(G_bottom)を決定することであって、ここで、Bが、基準面とオーディオエレメントの範囲の最下部ポイント(たとえば、ポイント502)との間の垂直距離である、下部利得値(G_bottom)を決定することを含む。たとえば、一実施形態では、LがBよりも小さいとき、G_bottomは、BとLとの間の差に反比例する(たとえば、G_bottom≒α×1/(B-L))。これは、G_bottomが最下部ポイントの下の領域においてフェードアウトされることを意味することになる。
【0043】
別の実施形態では、G_bottomは、
として計算され、ここで、βは、最下部ポイント502の上にあるフェード領域のサイズを記述する。別の実施形態では、フェード領域は、最下部ポイントの下にあり、その場合、G_bottomは、
として計算され得る。
【0044】
いくつかの実施形態では、Tは、オーディオエレメントのための範囲の選択された部分の最上部ポイント501と基準面との間の垂直距離であり、Bは、オーディオエレメントのための範囲の選択された部分の最下部ポイント502と基準面との間の垂直距離である。
【0045】
いくつかの実施形態では、オーディオエレメントは、元の範囲を有し、オーディオエレメントの前記範囲は、あるリスニングポイントからの元の範囲を表すオーディオエレメントのための簡略化された範囲である。
【0046】
いくつかの実施形態では、オーディオエレメントは、リスニングポイント101の上に位置する1つまたは複数の上部仮想スピーカーのセットおよび/またはそのリスニングポイントの下に位置する1つまたは複数の下部仮想スピーカーのセットを備える、仮想スピーカーのセット(たとえば、スピーカーS1~S18)を使用して表される。
【0047】
いくつかの実施形態では、上部仮想スピーカーのセットは、第1の上部仮想スピーカーを備え、方法は、第1の上部仮想スピーカーのための第1の上部仮想スピーカー信号y1を作り出すことと、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことであって、y1’=g*y1であり、ここで、gが、少なくとも上部利得値の関数である、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことと、オーディオエレメントをレンダリングするためにy1’を使用することとをさらに含む。
【0048】
いくつかの実施形態では、仮想スピーカーのセットは、2つまたはそれ以上の後部仮想スピーカーのセットを備え、後部仮想スピーカーのセットは、第1の上部仮想スピーカーを備え、方法は、後部仮想スピーカーのセットのための後部利得値(G_rear)を決定することをさらに含み、gは、少なくとも上部利得値(G_top)および後部利得値(G_rear)の関数(すなわち、g=f(G_top,G_rear)、たとえば、g=G_top*G_rear)である。
【0049】
いくつかの実施形態では、下部仮想スピーカーのセットは、第1の下部仮想スピーカーを備え、方法は、第1の下部仮想スピーカーのための第1の下部仮想スピーカー信号y2を作り出すことと、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことであって、y2’=g*y2であり、ここで、gが、少なくとも下部利得値の関数である、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことと、オーディオエレメントをレンダリングするためにy2’を使用することとをさらに含む。
【0050】
いくつかの実施形態では、仮想スピーカーのセットは、2つまたはそれ以上の後部仮想スピーカーのセットを備え、後部仮想スピーカーのセットは、第1の下部仮想スピーカーを備え、方法は、後部仮想スピーカーのセットのための後部利得値(G_rear)を決定することをさらに含み、gは、少なくとも下部利得値(G_bottom)および後部利得値(G_rear)の関数(すなわち、g=f(G_bottom、G_rear)、たとえば、g=G_bottom*G_rear)である。
【0051】
例示的な使用事例
図7Aは、本明細書で開示される実施形態が適用され得るXRシステム700を示す。XRシステム700は、(リスナーによって装着されるヘッドフォンのスピーカーであり得る)スピーカー704および705と、ユーザに画像を表示するためのディスプレイを含み得、いくつかの実施形態では、リスナーによって装着されるように設定された、XRデバイス710とを含む。示されているXRシステム700では、XRデバイス710は、ディスプレイを有し、ユーザの頭部上に装着されるように設計され、一般に、ヘッドマウントディスプレイ(HMD)と呼ばれる。
【0052】
図7Bに示されているように、XRデバイス710は、配向検知ユニット701と、位置検知ユニット702と、出力オーディオ信号(たとえば、図示のように、左スピーカーについての左オーディオ信号781、および右スピーカーについての右オーディオ信号782)を作り出すためのオーディオレンダー751に(直接または間接的に)結合された処理ユニット703とを備え得る。
【0053】
配向検知ユニット701は、リスナーの配向の変化を検出し、検出された変化に関する情報を処理ユニット703に提供するように設定される。いくつかの実施形態では、処理ユニット703は、配向検知ユニット701によって検出された配向の検出された変化を前提として、(何らかの座標系に関する)絶対配向を決定する。配向および位置の決定のための異なるシステム、たとえば、lighthouseトラッカー(LIDAR)を使用するシステムもあり得る。一実施形態では、配向検知ユニット701は、配向の検出された変化を前提として、(何らかの座標系に関する)絶対配向を決定し得る。この場合、処理ユニット703は、単に、配向検知ユニット701からの絶対配向データと位置検知ユニット702からの位置データとを多重化し得る。いくつかの実施形態では、配向検知ユニット701は、1つまたは複数の加速度計および/または1つまたは複数のジャイロスコープを備え得る。
【0054】
オーディオレンダラ751は、入力オーディオ信号761に基づくオーディオ出力信号と、リスナーが体感しているXRシーンに関するメタデータ762と、リスナーのロケーションおよび配向に関する情報763とを作り出す。XRシーンのためのメタデータ762は、XRシーン中に含まれる各オブジェクトおよびオーディオエレメントのためのメタデータを含み得、オブジェクトまたはオーディオエレメントのためのメタデータは、オブジェクトまたはオーディオエレメントの範囲に関する情報を含み得る。メタデータ762は、残響時間値、残響レベル値、および/または吸収パラメータなど、制御情報をも含み得る。オーディオレンダラ751はXRデバイス710の構成要素であり得るか、またはオーディオレンダラ751はXRデバイス710から遠くにあり得る(たとえば、オーディオレンダラ751、またはそれらの構成要素は、いわゆる「クラウド」中に実装され得る)。
【0055】
図8は、XRシーンのための音を作り出すためのオーディオレンダラ751の例示的な一実装形態を示す。オーディオレンダラ751は、コントローラ801と、コントローラ801からの制御情報810に基づいて(1つまたは複数の)オーディオ信号761(たとえば、マルチチャネルオーディオエレメントのオーディオ信号)を修正するための信号修正器802とを含む。コントローラ801は、1つまたは複数のパラメータを受信し、受信されたパラメータに基づいてオーディオ信号761に対する修正を実施する(たとえば、ボリュームレベルを増加または減少させる)ように修正器802をトリガするように設定され得る。受信されたパラメータは、リスナーの位置および/または配向に関する情報763(たとえば、オーディオエレメントへの方向および距離)と、XRシーン中のオーディオエレメントに関するメタデータ762とを含む(いくつかの実施形態では、コントローラ801自体がメタデータ762を作り出す)。メタデータおよび位置/配向情報を使用して、コントローラ801は、本明細書で説明されるXRシーン中のオーディオエレメントのためのもう1つの利得係数(別名、減衰係数)を計算し得る。
【0056】
図9は、一実施形態による、信号修正器802の例示的な一実装形態を示す。信号修正器802は、方向性ミキサ904と、利得調整器906と、スピーカー信号プロデューサー908とを含む。
【0057】
方向性ミキサ904は、この例では、オーディオエレメントに関連するオーディオ信号901とオーディオ信号902とのペアを含む、オーディオ入力761を受信し、そのオーディオ入力と制御情報991とに基づいてk個の仮想スピーカー信号(y1、y2、...、yk)のセットを作り出す。一実施形態では、各仮想スピーカーについての信号は、たとえば、オーディオ入力761を含む信号の適切なミキシングによって導出され得る。たとえば、y1=f1×L+f2×Rであり、ここで、Lは入力オーディオ信号901であり、Rは入力オーディオ信号902であり、f1およびf2は、たとえば、オーディオエレメントに対するリスナーの位置と、y1が対応する仮想ラウドスピーカーの位置とに依存する、係数である。
【0058】
利得調整器906は、コントローラ901によって計算された、上記で説明された利得係数を含み得る、制御情報992に基づいて、仮想スピーカー信号のうちのいずれか1つまたは複数の利得を調整し得る。すなわち、たとえば、コントローラ901は、上部半球、下部半球、および後部半球についての特定の利得係数を作り出し得、これらの利得係数を、各利得係数が適用されるべきである信号を示す情報とともに利得調整器906に提供し得る。
【0059】
仮想スピーカー信号y1’、y2’、...、yk’を使用して、スピーカー信号プロデューサー908は、スピーカー(たとえば、ヘッドフォンスピーカーまたは他のスピーカー)を駆動するための出力信号(たとえば、出力信号781および出力信号782)を作り出す。スピーカーがヘッドフォンスピーカーである一実施形態では、スピーカー信号プロデューサー908は、出力信号を作り出すために従来のバイノーラルレンダリングを実施し得る。スピーカーがヘッドフォンスピーカーでない実施形態では、スピーカー信号プロデューサーは、出力信号を作り出すために従来のスピーキングパンニング(speaking panning)を実施し得る。
【0060】
図10は、本明細書で開示される方法を実行するための、いくつかの実施形態による、オーディオレンダリング装置1000のブロック図である(たとえば、オーディオレンダラ751は、オーディオレンダリング装置1000を使用して実装され得る)。
図10に示されているように、オーディオレンダリング装置1000は、1つまたは複数のプロセッサ(P)1055(たとえば、汎用マイクロプロセッサ、および/または、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、1つまたは複数の他のプロセッサなど)を含み得る処理回路(PC)1002であって、そのプロセッサが、単一のハウジングにおいてまたは単一のデータセンタにおいて共同サイト式であり得るかあるいは地理的に分散され得る(すなわち、装置1000が分散コンピューティング装置であり得る)、処理回路(PC)1002と、少なくとも1つのネットワークインターフェース1048であって、装置1000が、ネットワークインターフェース1048が(直接または間接的に)接続されるネットワーク110(たとえば、インターネットプロトコル(IP)ネットワーク)に接続された他のノードにデータを送信し、他のノードからデータを受信することを可能にするための送信機(Tx)1045および受信機(Rx)1047を備える(たとえば、ネットワークインターフェース1048はネットワーク110に無線で接続され得、その場合、ネットワークインターフェース1048はアンテナ構成に接続される)、少なくとも1つのネットワークインターフェース1048と、1つまたは複数の不揮発性記憶デバイスおよび/または1つまたは複数の揮発性記憶デバイスを含み得る記憶ユニット(別名「データ記憶システム」)1008とを備え得る。PC1002がプログラマブルプロセッサを含む実施形態では、コンピュータ可読記憶媒体(CRSM)1042が提供され得る。CRSM1042は、コンピュータ可読命令(CRI)1044を備えるコンピュータプログラム(CP)1043を記憶する。CRSM1042は、磁気媒体(たとえば、ハードディスク)、光媒体、メモリデバイス(たとえば、ランダムアクセスメモリ、フラッシュメモリ)など、非一時的コンピュータ可読媒体であり得る。いくつかの実施形態では、コンピュータプログラム1043のCRI1044は、PC1002によって実行されたとき、CRIが、オーディオレンダリング装置1000に、本明細書で説明されるステップ(たとえば、フローチャートを参照しながら本明細書で説明されるステップ)を実施させるように設定される。他の実施形態では、オーディオレンダリング装置1000は、コードの必要なしに本明細書で説明されるステップを実施するように設定され得る。すなわち、たとえば、PC1002は、単に1つまたは複数のASICからなり得る。したがって、本明細書で説明される実施形態の特徴は、ハードウェアおよび/またはソフトウェアで実装され得る。
【0061】
様々な実施形態の概要
【0062】
A1.オーディオエレメントをレンダリングするための方法であって、方法は、LおよびTに基づいてオーディオエレメントの内部表現の上部パートのための上部利得値(G_top)を決定することであって、ここで、Lが、基準面とリスニングポイントとの間の垂直距離であり、Tが、基準面とオーディオエレメントの範囲の最上部ポイント(たとえば、ポイント501)との間の垂直距離である、上部利得値(G_top)を決定すること、ならびに/またはLおよびBに基づいてオーディオエレメントの内部表現の下部パートのための下部利得値(G_bottom)を決定することであって、ここで、Bが、基準面とオーディオエレメントの範囲の最下部ポイント(たとえば、ポイント502)との間の垂直距離である、下部利得値(G_bottom)を決定することを含む、方法。
【0063】
A2.Tが、オーディオエレメントのための範囲の選択された部分の最上部ポイントと基準面との間の垂直距離であり、Bが、オーディオエレメントのための範囲の選択された部分の最下部ポイントと基準面との間の垂直距離である、実施形態A1に記載の方法。
【0064】
A3.オーディオエレメントが、元の範囲を有し、オーディオエレメントの前記範囲が、あるリスニングポイントからの元の範囲を表すオーディオエレメントのための簡略化された範囲である、実施形態A1またはA2に記載の方法。
【0065】
A4.オーディオエレメントが、リスニングポイントの上に位置する1つまたは複数の上部仮想スピーカーのセットおよび/またはリスニングポイントの下に位置する1つまたは複数の下部仮想スピーカーのセットを備える、仮想スピーカーのセットを使用して表される、実施形態A1またはA2に記載の方法。
【0066】
A5.上部仮想スピーカーのセットが、第1の上部仮想スピーカーを備え、方法は、第1の上部仮想スピーカーのための第1の上部仮想スピーカー信号y1を作り出すことと、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことであって、y1’=g*y1であり、ここで、gが、少なくとも上部利得値の関数である、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことと、オーディオエレメントをレンダリングするためにy1’を使用することとをさらに含む、実施形態A4に記載の方法。
【0067】
A6.仮想スピーカーのセットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、後部仮想スピーカーのセットが、第1の上部仮想スピーカーを備え、方法が、後部仮想スピーカーのセットのための後部利得値(G_rear)を決定することをさらに含み、gが、少なくとも上部利得値(G_top)および後部利得値(G_rear)の関数(すなわち、g=f(G_top,G_rear)、たとえば、g=G_top*G_rear)である、実施形態A5に記載の方法。
【0068】
A7.下部仮想スピーカーのセットが、第1の下部仮想スピーカーを備え、方法は、第1の下部仮想スピーカーのための第1の下部仮想スピーカー信号y2を作り出すことと、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことであって、y2’=g*y2であり、ここで、gが、少なくとも下部利得値の関数である、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことと、オーディオエレメントをレンダリングするためにy2’を使用することとをさらに含む、実施形態A4に記載の方法。
【0069】
A8.仮想スピーカーのセットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、後部仮想スピーカーのセットが、第1の下部仮想スピーカーを備え、方法が、後部仮想スピーカーのセットのための後部利得値(G_rear)を決定することをさらに含み、gが、少なくとも下部利得値(G_bottom)および後部利得値(G_rear)の関数(すなわち、g=f(G_bottom,G_rear)、たとえば、g=G_bottom*G_rear)である、実施形態A7に記載の方法。
【0070】
B1.オーディオレンダラの処理回路によって実行されたとき、オーディオレンダラに、上記の実施形態のいずれか1つに記載の方法を実行させる命令を備える、コンピュータプログラム。
【0071】
B2.上記コンピュータプログラムを含んでいるキャリアであって、キャリアが、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの1つである、キャリア。
【0072】
D1.上記の実施形態のいずれか1つに記載の方法を実行するように設定されたオーディオレンダリング装置。
【0073】
D2.オーディオレンダリング装置が、メモリと、メモリに結合された処理回路とを備える、実施形態D1に記載のオーディオレンダリング装置。
【0074】
様々な実施形態が本明細書で説明されたが、それらの実施形態は、限定ではなく、例として提示されたにすぎないことを理解されたい。したがって、本開示の広さおよび範囲は、上記で説明された例示的な実施形態のいずれによっても限定されるべきでない。その上、本明細書で別段に示されていない限り、またはコンテキストによって明確に否定されていない限り、上記で説明されたオブジェクトのそれらのすべての考えられる変形形態における任意の組合せが、本開示によって包含される。
【0075】
さらに、上記で説明され、図面に示されたプロセスは、ステップのシーケンスとして示されたが、これは、説明のためにのみ行われた。したがって、いくつかのステップが追加され得、いくつかのステップが省略され得、ステップの順序が並べ替えられ得、いくつかのステップが並行して実施され得ることが企図される。
【0076】
「参考文献」
[1]MPEG-H 3D Audio,条項8.4.4.7:「Spreading」
[2]MPEG-H 3D Audio,条項18.1: 「Element Metadata Preprocessing」
[3]MPEG-H 3D Audio,条項18.11:「Diffuseness Rendering」
[4]EBU ADM Renderer Tech 3388,条項7.3.6:「Divergence」
[5]EBU ADM Renderer Tech 3388,条項7.4:「Decorrelation Filters」
[6]EBU ADM Renderer Tech 3388,条項7.3.7:「Extent Panner」
[7]Efficient HRTF-based Spatial Audio for Area and Volumetric Sources“,IEEE Transactions on Visualization and Computer Graphics 22(4):1-1 2016年1月
[8]特許公開WO2020144062,「Efficient spatially-heterogeneous audio elements for Virtual Reality.」
[9] 特許公開WO2021180820,「Rendering of Audio Objects with a Complex Shape.」
[10]国際特許出願番号PCT/EP2021/068833,「Seamless Rendering of Audio Elements with Both Interior and Exterior Representations」,2021年7月7日出願.
[11]M. Kronlachner,F. Zotter,「Spatial transformations for the enhancement of Ambisonic recordings」,ICSA2014
【手続補正書】
【提出日】2024-07-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオエレメント(302)をレンダリングするための方法(600)であって、前記方法は、
LおよびTに基づいて前記オーディオエレメントの内部表現の上部パートのための上部利得値G_topを決定すること(s602)であって、ここで、Lが、基準面(590)とリスニングポイント(A1、A2、A3、A4、A5)との間の垂直距離であり、Tが、前記基準面と前記オーディオエレメントの範囲(410)の最上部ポイント(501)との間の垂直距離である、上部利得値G_topを決定すること(s602)、ならびに/または
LおよびBに基づいて前記オーディオエレメントの前記内部表現の下部パートのための下部利得値G_bottomを決定すること(s604)であって、ここで、Bが、前記基準面と前記オーディオエレメントの前記範囲の最下部ポイント(502)との間の垂直距離である、下部利得値G_bottomを決定すること(s604)
を含む、方法(600)。
【請求項2】
Tが、前記オーディオエレメントのための前記範囲の選択された部分の最上部ポイントと前記基準面との間の垂直距離であり、
Bが、前記オーディオエレメントのための前記範囲の前記選択された部分の最下部ポイントと前記基準面との間の垂直距離である、
請求項1に記載の方法。
【請求項3】
前記オーディオエレメントが、元の範囲を有し、前記オーディオエレメントの前記範囲が、あるリスニング位置からの前記元の範囲を表す前記オーディオエレメントのための簡略化された範囲である、請求項
1に記載の方法。
【請求項4】
前記オーディオエレメントが、リスニングポイントの上に位置する1つまたは複数の上部仮想スピーカーのセットおよび/または前記リスニングポイントの下に位置する1つまたは複数の下部仮想スピーカーのセットを備える、仮想スピーカーのセットを使用して表される、請求項
1に記載の方法。
【請求項5】
上部仮想スピーカーの前記セットが、第1の上部仮想スピーカーを備え、前記方法は、
前記第1の上部仮想スピーカーのための第1の上部仮想スピーカー信号y1を作り出すことと、
利得調整された第1の上部仮想スピーカー信号y1’を作り出すことであって、y1’=g*y1であり、ここで、gが、少なくとも前記上部利得値の関数である、利得調整された第1の上部仮想スピーカー信号y1’を作り出すことと、
前記オーディオエレメントをレンダリングするためにy1’を使用することと
をさらに含む、請求項4に記載の方法。
【請求項6】
仮想スピーカーの前記セットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、
後部仮想スピーカーの前記セットが、前記第1の上部仮想スピーカーを備え、
前記方法が、後部仮想スピーカーの前記セットのための後部利得値G_rearを決定することをさらに含み、
gが、少なくとも前記上部利得値G_topおよび前記後部利得値G_rearの関数である、
請求項5に記載の方法。
【請求項7】
g=G_top*G_rearである、
請求項6に記載の方法。
【請求項8】
下部仮想スピーカーの前記セットが、第1の下部仮想スピーカーを備え、前記方法は、
前記第1の下部仮想スピーカーのための第1の下部仮想スピーカー信号y2を作り出すことと、
利得調整された第1の下部仮想スピーカー信号y2’を作り出すことであって、y2’=g*y2であり、ここで、gが、少なくとも前記下部利得値の関数である、利得調整された第1の下部仮想スピーカー信号y2’を作り出すことと、
前記オーディオエレメントをレンダリングするためにy2’を使用することと
をさらに含む、請求項
4に記載の方法。
【請求項9】
仮想スピーカーの前記セットが、2つまたはそれ以上の後部仮想スピーカーのセットを備え、
後部仮想スピーカーの前記セットが、前記第1の下部仮想スピーカーを備え、
前記方法が、後部仮想スピーカーの前記セットのための後部利得値G_rearを決定することをさらに含み、
gが、少なくとも前記下部利得値G_bottomおよび前記後部利得値G_rearの関数である、
請求項8に記載の方法。
【請求項10】
g=G_bottom*G_rearである、
請求項9に記載の方法。
【請求項11】
前記方法が、G_topを決定することを含み、
G_topを決定することは、
L≧Tである場合、G_topを0にセットすること、
(T-βが≦Lであり、L<T)である場合、G_topを(T-L)/βにセットすることであって、ここで、βが、前記最上部ポイント(501)の下のフェード領域のサイズを記述する、G_topを(T-L)/βにセットすること、または
L<(T-β)である場合、G_topを1にセットすること
を含む、請求項
1に記載の方法。
【請求項12】
前記方法が、G_topを決定することを含み、
G_topを決定することは、
L≧(T+β)である場合、G_topを0にセットすること、
(Tが≦Lであり、L<T+β)である場合、G_topを1+((T-L)/β)にセットすることであって、ここで、βが、前記最上部ポイント(501)の上のフェード領域のサイズを記述する、G_topを1+((T-L)/β)にセットすること、または
L<Tである場合、G_topを1にセットすること
を含む、請求項
1に記載の方法。
【請求項13】
前記方法が、G_bottomを決定することを含み、
G_bottomを決定することは、
L≧B+βである場合、G_bottomを1にセットすること、
(Bが≦Lであり、L<B+β)である場合、G_bottomを(L-B)/βにセットすることであって、ここで、βが、最下部ポイント(502)の上のフェード領域のサイズを記述する、G_bottomを(L-B)/βにセットすること、または
L<Bである場合、G_bottomを0にセットすること
を含む、請求項
1に記載の方法。
【請求項14】
前記方法が、G_bottomを決定することを含み、
G_bottomを決定することは、
L≧Bである場合、G_bottomを1にセットすること、
(B-βが≦Lであり、L<B)である場合、G_bottomを1+((L-B)/β)にセットすることであって、ここで、βが、最下部ポイント(502)の下のフェード領域のサイズを記述する、G_bottomを1+((L-B)/β)にセットすること、さもなければ
L<(B-β)である場合、G_bottomを0にセットすること
を含む、請求項
1に記載の方法。
【請求項15】
オーディオレンダラ(751、1000)の処理回路(1002)によって実行されたとき、前記オーディオレンダラに、請求項1から14のいずれか一項に記載の方法を実行させる命令(1044)を備える、コンピュータプログラム(1043)。
【請求項16】
オーディオレンダリング装置(751、1000)であって、前記オーディオレンダリング装置は、
LおよびTに基づいてオーディオエレメントの内部表現の上部パートのための上部利得値G_topを決定することであって、ここで、Lが、基準面(590)とリスニングポイント(A1、A2、A3、A4、A5)との間の垂直距離であり、Tが、前記基準面と前記オーディオエレメントの範囲(410)の最上部ポイント(501)との間の垂直距離である、上部利得値G_topを決定すること、ならびに/または
LおよびBに基づいて前記オーディオエレメントの前記内部表現の下部パートのための下部利得値G_bottomを決定すること(s604)であって、ここで、Bが、前記基準面と前記オーディオエレメントの前記範囲の最下部ポイント(502)との間の垂直距離である、下部利得値G_bottomを決定すること(s604)
を行うように設定された、オーディオレンダリング装置(751、1000)。
【国際調査報告】