IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テレフオンアクチーボラゲット エル エム エリクソン(パブル)の特許一覧

特許7654683複雑な形状をもつオーディオオブジェクトのレンダリング
<>
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図1
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図2
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図3
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図4
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図5
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図6
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図7
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図8
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図9
  • 特許-複雑な形状をもつオーディオオブジェクトのレンダリング 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-24
(45)【発行日】2025-04-01
(54)【発明の名称】複雑な形状をもつオーディオオブジェクトのレンダリング
(51)【国際特許分類】
   H04S 7/00 20060101AFI20250325BHJP
【FI】
H04S7/00 310
【請求項の数】 28
(21)【出願番号】P 2022554870
(86)(22)【出願日】2021-03-10
(65)【公表番号】
(43)【公表日】2023-04-25
(86)【国際出願番号】 EP2021056112
(87)【国際公開番号】W WO2021180820
(87)【国際公開日】2021-09-16
【審査請求日】2022-10-31
(31)【優先権主張番号】62/988,983
(32)【優先日】2020-03-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【弁理士】
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100150670
【弁理士】
【氏名又は名称】小梶 晴美
(74)【代理人】
【識別番号】100194294
【弁理士】
【氏名又は名称】石岡 利康
(72)【発明者】
【氏名】ファルク, トミ
(72)【発明者】
【氏名】デ ブルーイン, ウェルネル
【審査官】川▲崎▼ 博章
(56)【参考文献】
【文献】米国特許第10425762(US,B1)
【文献】国際公開第2019/121773(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
エクステンデッドリアリティシーンにおいてリスナーのリスニング位置に対するオーディオオブジェクトを表すための方法(900)であって、前記方法は、
前記オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得すること(s902)と、
2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された前記第1のメタデータを変換すること(s904)とを含み、
前記2D平面または前記1D線が、前記オーディオオブジェクトの少なくとも一部分を表す、
方法(900)。
【請求項2】
前記第1のメタデータを取得することが、前記第1のメタデータと、前記オーディオオブジェクトに関連する第2の3D形状を記述する第2のメタデータとを備えるメタデータのセットから、前記第1のメタデータを選択することを含む、
請求項1に記載の方法。
【請求項3】
前記第2の3D形状が、
前記第1のメタデータによって記述される前記第1の3D形状よりも少数の頂点をもつメッシュ構造、
ボックス形状、
球形状、
楕円体形状、
円筒形状
のうちの1つの形態のものである、請求項2に記載の方法。
【請求項4】
メタデータの前記セットが、前記エクステンデッドリアリティシーンにおいて単一のポイントを記述する第3のメタデータをさらに備える、請求項2または3に記載の方法。
【請求項5】
前記選択が、
前記エクステンデッドリアリティシーンにおける前記オーディオオブジェクトと前記リスナーの前記リスニング位置との間の距離および少なくとも1つのしきい距離パラメータ、
前記オーディオオブジェクトのサイズ、
前記エクステンデッドリアリティシーンにおける現在アクティブなオーディオオブジェクトの数、
前記オーディオオブジェクトをレンダリングするために使用されることになるレンダラの現在の負荷、または
前記オーディオオブジェクトの現在のオーディオエネルギーレベル
のうちの1つまたは複数に基づく、請求項2から4のいずれか一項に記載の方法。
【請求項6】
前記変換されたメタデータを作り出すために、取得された前記第1のメタデータを変換することは、
記述ポイントのセットを決定することであって、記述ポイントの前記セットがアンカーポイントを備える、記述ポイントのセットを決定することと、
前記記述ポイントを使用して前記2D平面または前記1D線を決定することであって、前記2D平面または前記1D線が、前記アンカーポイントを通過する、前記2D平面または前記1D線を決定することと
を含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記アンカーポイントが、前記エクステンデッドリアリティシーンにおける前記リスナーの前記リスニング位置に最も近い、前記第1の3D形状の表面上のポイントである、請求項6に記載の方法。
【請求項8】
前記アンカーポイントが、前記第1の3D形状上のまたは前記第1の3D形状内のポイントの空間平均である、請求項6に記載の方法。
【請求項9】
前記形状の一部が、前記エクステンデッドリアリティシーンにおいて前記リスナーに可視であり、
前記アンカーポイントが、前記リスナーに可視である前記形状の前記一部の重心である、
請求項6に記載の方法。
【請求項10】
記述ポイントの前記セットが、
前記リスナーの前記リスニング位置に対する前記第1の3D形状の第1のエッジを表す前記第1の3D形状上の第1のポイントと、
前記リスナーの前記リスニング位置に対する前記第1の3D形状の第2のエッジを表す前記第1の3D形状上の第2のポイントと
をさらに備える、請求項6から9のいずれか一項に記載の方法。
【請求項11】
前記第1の3D形状上の前記第1のポイントが参照方向に対して最も大きい方位角をもつように、当該第1のポイントを決定することと、
前記第1の3D形状上の前記第2のポイントが前記参照方向に対して最も小さい方位角をもつように、当該第2のポイントを決定することと、
をさらに含み、
前記参照方向は、前記リスナーの前記リスニング位置と前記アンカーポイントとを結ぶ線である、請求項10に記載の方法。
【請求項12】
前記第1のポイントと前記第2のポイントとに基づいて、前記2D平面または前記1D線の第1の次元を決定することをさらに含む、請求項10または11に記載の方法。
【請求項13】
前記第1のポイントと前記第2のポイントとに基づいて、前記2D平面または前記1D線の水平角度を決定することをさらに含む、請求項10から12のいずれか一項に記載の方法。
【請求項14】
記述ポイントの前記セットが、
前記リスナーの前記リスニング位置に対する前記第1の3D形状の第3のエッジを表す前記第1の3D形状上の第3のポイントと、
前記リスニング位置に対する前記第1の3D形状の第4のエッジを表す前記第1の3D形状上の第4のポイントと
をさらに備える、請求項6から13のいずれか一項に記載の方法。
【請求項15】
前記第1の3D形状上の第3のポイントが参照方向に対して最も大きい仰角をもつように、当該第3のポイントを決定することと、
前記第1の3D形状上の第4のポイントが前記参照方向に対して最も小さい仰角をもつように、当該第4のポイントを決定することと、
をさらに含み、
前記参照方向は、前記リスナーの前記リスニング位置と前記アンカーポイントとを結ぶ線である、請求項14に記載の方法。
【請求項16】
前記第3のポイントと前記第4のポイントとに基づいて、前記2D平面または前記1D線の第2の次元を決定することをさらに含む、請求項14または15に記載の方法。
【請求項17】
前記第3のポイントと前記第4のポイントとに基づいて、前記2D平面または前記1D線の対頂角を決定することをさらに含む、請求項14から16のいずれか一項に記載の方法。
【請求項18】
少なくとも1つの記述ポイントの位置は、2つの時間インスタンス間の位置変化の大きさが、せいぜい、同じ前記2つの時間インスタンス間の、前記オーディオオブジェクトと前記リスナーとの間の相対距離の変化の大きさに比例するように限定される、技法を使用して平滑化される、請求項6から17のいずれか一項に記載の方法。
【請求項19】
前記オーディオオブジェクトの範囲の回転の変化が、前記アンカーポイントの予想される位置変化を計算することによって考慮に入れられ、記述ポイントの位置変化が、せいぜい、前記アンカーポイントの前記予想される位置変化の大きさと、前記オーディオオブジェクトと前記リスナーとの間の相対位置の変化の大きさとの和に比例するように限定される、請求項18に記載の方法。
【請求項20】
前記オーディオオブジェクトが、マルチチャネルオーディオ信号によって表され、
前記方法が、前記変換されたメタデータを使用して前記マルチチャネルオーディオ信号をレンダリングすることをさらに含む、
請求項1から19のいずれか一項に記載の方法。
【請求項21】
前記マルチチャネルオーディオ信号が、前記2D平面または前記1D線のエッジを表す仮想ソースを使用してレンダリングされる、請求項20に記載の方法。
【請求項22】
前記マルチチャネルオーディオ信号が、前記2D平面または前記1D線のサブエリアを表す関連する頭部伝達関数(HRTF)を有する仮想音ソースを使用してレンダリングされる、請求項20または21に記載の方法。
【請求項23】
エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すための装置(1000)であって、前記装置が、
前記オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得すること(s902)と、
2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された前記第1のメタデータを変換すること(s904)と
を行うように設定され、
前記2D平面または前記1D線が、前記オーディオオブジェクトの少なくとも一部分を表す、
装置(1000)。
【請求項24】
前記装置が、請求項2から22のいずれか一項に記載の方法を実施するようにさらに設定された、請求項23に記載の装置。
【請求項25】
エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すための装置(1000)であって、前記装置が、
記憶ユニット(1008)と、
前記記憶ユニットに結合された処理回路(1002)と
を備え、前記装置が、
前記オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得すること(s902)と、
2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された前記第1のメタデータを変換すること(s904)と
を行うように設定され、
前記2D平面または前記1D線が、前記オーディオオブジェクトの少なくとも一部分を表す、
装置(1000)。
【請求項26】
前記記憶ユニット(1008)が、請求項2から22のいずれか一項に記載の方法を実施するように前記装置を設定するための命令を記憶するメモリ(1042)を備える、請求項25に記載の装置。
【請求項27】
処理回路(1002)によって実行されたとき、前記処理回路に、請求項1から22のいずれか一項に記載の方法を実施させる命令を備える、コンピュータプログラム(1043)。
【請求項28】
請求項27に記載のコンピュータプログラムを含んでいるコンピュータ可読記憶媒体(1042)
【発明の詳細な説明】
【技術分野】
【0001】
複雑な形状をもつオーディオオブジェクトのレンダリングに関する実施形態が開示される。
【背景技術】
【0002】
空間オーディオレンダリングは、音が、ある位置における、ならびにあるサイズおよび形状(すなわち、範囲:extent)を有する、シーン内の物理的ソースから来るという印象をリスナーに与えるために、エクステンデッドリアリティ(XR:extended reality)シーン(たとえば、仮想現実(VR)、拡張現実(AR)、または複合現実(MR)シーン)内のオーディオを提示するために使用されるプロセスである。提示は、ヘッドフォンスピーカーまたは他のスピーカーを通して行われ得る。ヘッドフォンスピーカーを介して提示が行われる場合、使用される処理は、バイノーラルレンダリングと呼ばれ、どの方向から音が来ているかを決定することを可能にする、人間空間聴覚の空間キューを使用する。キューは、両耳間時間遅延(ITD:inter-aural time delay)、両耳間レベル差(ILD:inter-aural level difference)、および/またはスペクトル差を伴う。
【0003】
最も一般的な形式の空間オーディオレンダリングは、ポイントソースの概念に基づき、各音ソースが、1つの特定のポイントから音を発するように規定される。各音ソースが1つの特定のポイントから音を発するように規定されるので、音ソースは、サイズまたは形状を有しない。範囲(サイズおよび形状)を有する音ソースをレンダリングするために、異なる方法が開発されている。
【0004】
1つのそのような知られている方法は、オーディオオブジェクトの周りの位置においてモノオーディオオブジェクトの複数のコピーを作成することである。この構成は、あるサイズをもつ空間的に均一なオブジェクトの知覚をもたらす。この概念は、たとえば、MPEG-H 3Dオーディオ規格の「オブジェクトスプレッド(object spread)」および「オブジェクト発散(object divergence)」特徴(参考文献[1]および[2]参照)において、およびEBUオーディオ規定モデル(ADM)規格の「オブジェクト発散」特徴(参考文献[4]参照)において使用される。モノオーディオソースを使用するこのアイデアは、参考文献[7]において説明されるように、さらに開発され、ここで、音オブジェクトの面積-体積ジオメトリが、リスナーの周りの球に投影され、音が、球上のオブジェクトの幾何学的投影をカバーするすべての頭部関係(HR:head-related)フィルタの積分として評価されるHRフィルタのペアを使用してリスナーにレンダリングされる。球の体積ソースの場合、この積分は、解析的解法を有する。しかしながら、任意の面積-体積ソースジオメトリの場合、積分は、いわゆるモンテカルロ光線サンプリングを使用して、球上の投影されたソース表面をサンプリングすることによって評価される。
【0005】
別のレンダリング方法は、モノオーディオ信号に加えて、空間的拡散成分をレンダリングし、これは、元のモノオーディオオブジェクトとは対照的に、別個のピンポイントロケーションを有しない、やや拡散するオブジェクトの知覚をもたらす。この概念は、たとえば、MPEG-H 3Dオーディオ規格の「オブジェクト拡散性(object diffuseness)」特徴(参考文献[3]参照)およびEBU ADMの「オブジェクト拡散性」特徴(参考文献[5]参照)において使用される。
【0006】
上記の2つの方法の組合せも知られている。たとえば、EBU ADMの「オブジェクト範囲(object extent)」特徴は、モノオーディオオブジェクトの複数のコピーの作成を、拡散成分の追加と組み合わせる(参考文献[6]参照)。
【0007】
多くの場合、オーディオオブジェクトの実際の形状は、基本形状(たとえば、球またはボックス)を用いて十分に良く記述され得る。しかし、時々、実際の形状は、より複雑であり、より詳細な形式(たとえば、メッシュ構造またはパラメトリック記述フォーマット)で記述される必要がある。そのような場合、オーディオオブジェクトのレンダリングは、オーディオオブジェクトが、オーディオオブジェクトに対するリスナーの現在の相対位置に基づいてどのようにレンダリングされるかのリアルタイム評価を必要とする。このリアルタイム評価は、処理集約的であり得る。
【発明の概要】
【0008】
体積オーディオオブジェクトをレンダリングするための既存の方法は、概して、オーディオオブジェクトを表すために単一のポイントソースを使用し、そのポイントソースの位置をオーディオオブジェクトの中心としてセットする(たとえば、図1参照)。これは、オーディオオブジェクトの高さおよび幅が表されないことを意味する。体積オーディオオブジェクトをレンダリングするより精巧な方法が存在する。そのような方法は、オーディオオブジェクトの形状を表すことを試みるが、それらの方法はモノソースに限定される。これは、オーディオオブジェクトが、空間的に均一であるかまたは空間的に拡散するものとしてレンダリングされることを生じる。どちらの場合も、レンダリングは、空間情報のないモノ録音に基づく。
【0009】
体積オーディオオブジェクトをレンダリングするための別のオプションは、オーディオオブジェクトから発する音を一緒に構成する多数のポイントソースを使用してオーディオオブジェクトを表すことである。しかしながら、この方法は、異なる角度からのオブジェクトの形状の正確な表現のために必要とされるポイントソースの数により、大いに非効率的である。また、ポイントソースの数は、オブジェクトのサイズに比例して増加される必要がある。
【0010】
したがって、本開示は、異なるチャネルが、異なる次元におけるオーディオオブジェクトの空間情報を表す、マルチチャネルオーディオ信号によって表される、規定されたサイズおよび形状をもつオーディオオブジェクトの使用をサポートする。一例は、オーディオオブジェクトの水平次元に沿った空間情報を表すステレオ録音である。より詳細には、本開示は、オーディオオブジェクトの3次元(3D)形状を、リスナーの位置から見られるオーディオオブジェクトの幅および/または高さを記述する1次元(1D)または2次元(2D)表現に簡略化する方法を提供する。次いで、マルチチャネルオーディオ信号は、知覚される空間範囲が、簡略化された範囲のものに一致するようにレンダリングされる。
【0011】
したがって、一態様では、エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すための方法が提供される。本方法は、オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得することを含む。本方法は、2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された第1のメタデータを変換することをも含む。2D平面または1D線は、オーディオオブジェクトの少なくとも一部分を表す。
【0012】
別の態様では、処理回路によって実行されたとき、処理回路に、上記で説明された方法を実施させる命令を備えるコンピュータプログラムが提供される。一実施形態では、コンピュータプログラムを含んでいるキャリアが提供され、キャリアは、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの1つである。
【0013】
別の態様では、エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すための装置が提供される。本装置は、オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得するように適応される。本装置は、2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された第1のメタデータを変換するようにさらに適応される。2D平面または1D線は、オーディオオブジェクトの少なくとも一部分を表す。一実施形態では、本装置は、処理回路と、本明細書で開示されるプロセスのいずれかを実施するために本装置を設定するための命令を記憶する記憶ユニットとを備える。
【0014】
オーディオオブジェクトをレンダリングする既存の方法と比較して、本明細書で説明される実施形態は、リスナーが6自由度(6DoF)XRシーンにおいて動き回るとき、動的にオーディオオブジェクトの幅と高さの両方を表すより効率的な方法を提供する。
【0015】
本明細書に組み込まれ、明細書の一部をなす添付の図面は、様々な実施形態を示している。
【図面の簡単な説明】
【0016】
図1】オーディオオブジェクトの例示的な表現を示す図である。
図2】簡略化された範囲の例を示す図である。
図3】AおよびBは、記述ポイントを見つける例示的なプロセスを示す図である。
図4】2D平面を規定する例示的なプロセスを示す図である。
図5】リスナーの極めて小さい移動がアンカーポイントの位置のジャンプをトリガするシナリオを示す図である。
図6】A~Cは、レンダリング設定の例を示す図である。
図7】いくつかの実施形態による、システムを示す図である。
図8】AおよびBは、いくつかの実施形態による、システムを示す図である。
図9】いくつかの実施形態による、プロセスを示す図である。
図10】いくつかの実施形態による、装置を示す図である。
【発明を実施するための形態】
【0017】
6DoF仮想環境において複雑な範囲(すなわち、複雑な形状)をもつオーディオオブジェクトをレンダリングするために、オブジェクトの形状は、リスナーのリスニング位置が変化するとき、リアルタイムで評価される必要がある。リスナーのリスニング位置に関するオブジェクトの形状は、現実の音ソースの挙動に一致するために、オーディオオブジェクトの見掛けの位置、幅、および高さに影響を及ぼすべきである。
【0018】
知覚される空間品質に影響を及ぼすことなしにオーディオオブジェクトのオーディオをレンダリングするときに考慮される必要がある範囲の詳細のレベルは、たとえば、リスナーの位置からオーディオオブジェクトへの距離に応じて変動することになる。リスナーがオーディオオブジェクトからさらに離れて移動しているとき、形状の詳細は、あまり重要性を有しないことになる。これは、範囲の形状記述を徐々に簡略化することによる効率的な実装形態によって活用され得る。
【0019】
一般に、体積オーディオオブジェクトの範囲は、基本形状(たとえば、球またはボックス)によって記述されるか、あるいは、たとえば、基本形状、メッシュ構造、または他の形式の形状記述の組合せに基づく、より精巧な記述によって記述されるかのいずれかである。複雑な形状記述を有するこれらのオーディオオブジェクトをリアルタイムで効率的にレンダリングするために、聴覚系によって知覚される重要なキューを維持するが、あまり複雑さを必要としないやり方で、オブジェクトの形状の記述を簡略化することが望ましい。多くの場合、そのような簡略化は、極めて細かい形状詳細が、一般に、オーディオレンダリングにとって知覚的に重要性がなく、したがって、レンダリングプロセスにおいてこれらの細かい形状詳細を考慮に入れることが計算リソースの浪費であることになるので、可能である。
【0020】
本開示は、低い計算コストでオーディオオブジェクトのもっともらしい印象がリスナーにレンダリングされ得るように、オーディオオブジェクトの複雑な記述を簡略化するための方法について説明する。
【0021】
一実施形態では、本方法は、3つの基本ステップに分割される。
【0022】
(1)オーディオオブジェクトの範囲(すなわち、形状)の複雑な記述をより単純な記述に簡略化する随意の前処理ステップ。たとえば、より単純な記述は、より少数の頂点をもつメッシュ構造、基本形状(たとえば、ボックス、球、楕円体または円筒)、またはいくつかの基本形状の組合せであり得る。この簡略化された形状記述は、常に、または、たとえば、リスナーのリスニング位置までの距離が十分に長いときのみのいずれかで、元の記述の代わりに使用され得る。このステップは、セクション1において説明される。
【0023】
(2)範囲が2次元平面または1次元線を用いて表されるリアルタイム簡略化ステップ。ここでは、リスナーの瞬時リスニング位置が考慮に入れられる。このステップは、セクション2において説明される。
【0024】
(3)ステップ2において決定される、オーディオオブジェクトの簡略化された幾何学的範囲を前提とするオーディオオブジェクトのレンダリング。レンダリング段階において、距離利得など、知覚効果を追加するために処理が追加され得る。このステップは、セクション3において説明される。
【0025】
1.事前レンダリング簡略化
【0026】
事前レンダリング簡略化ステップは、レンダリングが開始される前に、または代替的に、レンダリングが実行している間の、ただし、ステップが完了するまでその結果が使用されない並列プロセスとして、行われる。このステップの目的は、特定の瞬間において必要とされる詳細の量に応じて使用され得る範囲の1つまたは複数の簡略化された記述を見つけることである。リアルタイムレンダリングステップが、あらゆる時点において最も適切な範囲記述を選択することができるように、いくつかの代替範囲記述がリストに記憶され得る。事前レンダリング簡略化ステップはリアルタイムで行われないので、事前レンダリング簡略化ステップは、必要に応じて複雑な計算および最適化を伴い得る。このステップは、いくつかの代替表現が事前計算される、コンテンツ作成ステップの一部として行われることさえある。代替的に、リスナーのデバイスをオフロードするために、エンコーディングノードまたは事前レンダリングノードがこのステップを行い得る。
【0027】
エクステンデッドリアリティシーンにおけるリスナーのための高品質のレンダリングを行うために必要とされる範囲の記述における詳細の量は、リアルタイムで変動し得る多くのこと、たとえば、i)エクステンデッドリアリティシーンにおけるリスナーのリスニング位置までのオーディオオブジェクトの距離、ii)オーディオオブジェクトのサイズ、iii)現在アクティブである他のオーディオオブジェクトがどのくらいか、iv)オーディオオブジェクトの現在のオーディオエネルギーレベル、v)オーディオオブジェクトをレンダリングするために使用されることになるレンダラの現在のCPU負荷、に依存する。
【0028】
距離が十分に大きい場合、任意のオーディオオブジェクトが、単純なポイントソースを用いて十分に良く表され得る。しかし、リスナーがオーディオオブジェクトに近いほど、オーディオオブジェクトの主観的に正確なオーディオレンダリングを提供するために、さらなる詳細が必要とされる。
【0029】
範囲の1つまたは複数の簡略化された記述を事前決定することによって、詳細対複雑さの最も効率的なトレードオフを提供する記述が任意の時間に選定され得る。一例として、オーディオオブジェクトの範囲を記述する複雑なメッシュ構造は、2つの代替の簡略化された形状に簡略化され得、1つは、依然としてメッシュ構造であるが、低減された数の頂点をもち、第2のものは、元の形状と一致するようにセットされた次元をもつただのボックス形状である。そのような簡略化の一例が図2に示されており、図2は、複雑なメッシュ構造202と、複雑なメッシュ構造202の第1のあまり複雑でないバージョン204と、複雑なメッシュ構造202の第2のあまり複雑でないバージョン206とを示す。
【0030】
図2に示されているように、メッシュ構造202は、比較的多数の頂点を有する。図示の例では、メッシュ構造202は、上方から見た森を表す。この例では、複雑なメッシュ構造202の第1のあまり複雑でないバージョン204は、それ自体、メッシュ構造であるが、メッシュ構造204は、メッシュ構造202よりも少ない頂点を有し、複雑なメッシュ構造202の第2のあまり複雑でないバージョン206は、森の形状を表すために使用される単純なボックス形状である。すなわち、図2の例では、2つの簡略化された形状が作成され、1つは、元のメッシュ構造202の頂点の数を低減することによって作成され、1つは、基本ボックス形状206に基づいて作成される。2つの代替形状記述204および206は、異なるレベルの簡略化を表し、詳細の必要とされる量に応じて、これらの表現のいずれかが、リアルタイム簡略化ステップのための基礎として選択され得る。ボックス形状206に関して、ボックス形状は、1つの次元が森(すなわち、メッシュ構造202)の最も大きい次元を表しているように回転され、ボックスの幅および高さは、ボックスがメッシュ構造202にできるだけぴったり一致するように調節される。球またはボックスなどの単純な形状でさえ、リスナーまでの距離が十分に遠いとき、ポイントソースに簡略化され得る。
【0031】
メッシュ中の頂点の数を低減するための多くの方法が知られている(たとえば、参考文献[8]参照)。任意の形状を、ボックスなど、1つまたは数個の基本形状に分解することの問題は、たとえば、最小ボリュームバウンディングボックス分解を使用することによって解決され得る、よく知られている問題でもある(参考文献[9]参照)。本明細書で説明されるように、リアルタイムレンダリング中の任意の時間に、どの表現を使用すべきかを選択するパラメータ化されたやり方とともに、いくつかの代替表現が事前計算される。
【0032】
リアルタイム簡略化、ステップ2、のための基礎として、これらの表現のうちのどれを使用すべきかのパラメータ化された選択は、リスナーのリスニング位置からのオーディオオブジェクトの距離に基づき得る。これの一例が表1において説明される。
【0033】
ここで、DおよびD2は、定数または変数のいずれかであり得るしきい距離パラメータであり、たとえば、現在アクティブなオーディオオブジェクトの数または現在のCPU負荷によって制御される。設計パラメータは、オーディオオブジェクトのサイズに依存し得る。たとえば、リスナーのリスニング位置は、大きいオーディオオブジェクトの単一のポイント表現が適切であるために、大きいオーディオオブジェクトからさらに離れている必要があり得る。表1に示されている例では、オーディオオブジェクトのための3つの異なる表現があり、2つのパラメータ(すなわち、D1およびD2)が、3つの異なる表現間でいつ切り替わるべきかをレンダラに示すために使用される。図2中の簡略化されたメッシュ構造204表現など、任意の追加の表現が、そのような表現がいつ使用されるべきであるかを指定する追加のパラメータを必要とすることになる。
【0034】
以下は、DおよびD2がどのように選択され得るかの一例である。D=2Smaxであり、D2=20Smaxであり、ここで、Smaxはその最大次元(たとえば、長さ、幅、高さまたは深度)における範囲のサイズである。
【0035】
いくつかの場合には(たとえば、レンダリングのために利用可能な計算リソースが、ある下限を下回るとき)、Dは、極めて小さいか、または0にさえなり得る(すなわち、元のメッシュが、常に、簡略化の少なくとも第1のレベル、すなわち、表1の場合のボックス形状に簡略化される)。
【0036】
2.リアルタイム簡略化ステップ
【0037】
リアルタイム簡略化ステップは、リスナーの現在のリスニング位置が知られているとき、レンダリングプロセスの一部として実行され得る。このステップは、一般に、レンダラの残りによって使用されるフレームサイズに関係する一様なレートにおいて実行され得る(たとえば、このステップは、新しいオーディオフレームが受信または処理されるたびに実施され得る)。代替的に、このステップは、オーディオオブジェクトまたはリスナーのいずれかの位置または回転の変化があるときにのみトリガされ得る。
【0038】
そのステップはリアルタイムで実施されるので、ステップ1において決定された異なる表現のうちの1つが、パラメータ化された選択ルールおよびリスナーの現在のリスニング位置に従って選択され得る。表現のうちの1つの選択において考慮に入れられ得る他のパラメータは、アクティブオーディオオブジェクトの数、レンダラのCPU負荷、レンダリングされたオーディオオブジェクトの現在のオーディオエネルギーレベルなどである。
【0039】
表現のうちの1つ(すなわち、元の記述、または簡略化された記述のうちの1つ)が選択された後に、選択された表現は、さらに、2次元(2D)平面または1次元(1D)線に簡略化され得る。このさらなる簡略化では、オーディオオブジェクトの深度は、オーディオオブジェクトのリスナーの前に置かれるオーディオオブジェクトの深度が、オーディオオブジェクトの幅および高さと同じやり方では主観的に知覚できないので、考慮されない。
【0040】
オーディオオブジェクトがリスナーのまっすぐ前方に配置されるとき、リスナーによって知覚される知覚水平幅は、時間およびレベル差キューによって主に決定される。しかしながら、オブジェクトの知覚される垂直高さは、あまり正確でないスペクトラルキューによって主に決定される。
【0041】
したがって、リスナーは、一般に、オーディオオブジェクトの水平幅を、そのオーディオオブジェクトの垂直高さよりも正確に推定することが可能である。オーディオオブジェクトの深度の知覚推定は、一層正確でなく、通常、単に可能でない。したがって、オーディオオブジェクトの深度次元は、一般に、オーディオオブジェクトのレンダリング中に含まれる必要がない。
【0042】
したがって、オーディオオブジェクトの幅と高さの両方を表す2D平面が、重要な空間キューの大部分をキャプチャする。また、多くの場合、オーディオオブジェクトの位置および水平幅のみの1D線表現が、元のオーディオオブジェクトの最も重要な空間キューをキャプチャする効率的な表現であることになる。
【0043】
この簡略化ステップは、範囲の幾何学的形状を簡略化しているが、これは、必ずしも、リスナーが体感する知覚される幅および高さに直接対応するとは限らない。これらの知覚効果は、知覚される幅および高さが、範囲の幾何学的サイズおよび形状から計算される、レンダリングステップによってハンドリングされるべきである。
【0044】
2.1 記述ポイントを見つけること
【0045】
オーディオオブジェクトを表すために2次元平面を見つけるプロセスが、リスナーのリスニング位置から見られる、範囲上の、範囲内の、または範囲に近いアンカーポイント、ならびに範囲の外側エッジを見つけることで開始する。したがって、以下のステップが実施され得る。
【0046】
(1)範囲上の、範囲内の、または範囲に近いアンカーポイントを見つける。以下のステップにおいて規定されることになる2次元平面は、その2次元平面がアンカーポイントを通るように適合されることになる。リスナーのリスニング位置とこのポイントとの間の線は、参照方向として働くことになり、参照方向から、後続のポイントの角度が算出される。
【0047】
(2)リスナーのリスニング位置からの、範囲の右エッジを表す範囲のポイントを見つける。これは、参照方向に対して最も高い方位角をもつポイントに対応する。
【0048】
(3)リスナーのリスニング位置からの、範囲の左エッジを表す範囲のポイントを見つける。これは、参照方向に対して最も低い方位角をもつポイントに対応する。
【0049】
(4)リスナーのリスニング位置からの、範囲の上部エッジを表す範囲のポイントを見つける。これは、参照方向に対して最も高い仰角をもつポイントに対応する。
【0050】
(5)リスナーのリスニング位置からの、範囲の下部エッジを表す範囲のポイントを見つける。これは、参照方向に対して最も低い仰角をもつポイントに対応する。
【0051】
このプロセス中に見つけられる5つのポイントは、範囲の表現の記述ポイントとして示されることになる。図3Aは、記述ポイントを見つけるプロセスの一例を示す。すなわち、図3Aは、メッシュベースの範囲302について記述ポイントがどのように見つけられるかを示す。簡単のために、図3Aは、鳥瞰図により示されており、これは、仰角軸が示されていないことを意味する。リスナーのリスニング位置と範囲302上のアンカーポイント(A)との間の線310が、角度測定のための基礎として使用され、ここで、方位角は、アンカーポイントの方向において0であり、右に向かって増加し、左に向かってゼロを下回って減少する。次いで、右エッジ(B)および左エッジ(C)が、最大のそれぞれの最小の方位角を有する範囲上のポイントとして見つけられる。上部エッジおよび下部エッジは、最大のそれぞれの最小の仰角を有するポイントである。
【0052】
2.1.1 アンカーポイントを見つけること
【0053】
アンカーポイントは、得られた2次元平面または1次元線のためのベースポイントとして働くことになるポイントである。その平面または線は、それらが、このポイントを横断し、したがって、そのアンカーポイントが、大きい程度まで、リスナーまでの距離および角度を規定することになるように、規定されることになる。アンカーポイントを見つけるための異なる方法が以下で説明される。
【0054】
2.1.1.1 アンカーポイントとして最も近いポイントを使用すること
【0055】
アンカーポイントを見つけるための簡単な方法は、リスナーのリスニング位置に最も近い、範囲上のポイントを使用することである。範囲上の最も近いポイントを見つけるための厳密な方法は、使用される表現のタイプに応じて変動することになり、たとえば、基本円筒形状は頂点を有せず、したがって、その表面上の最も近いポイントは、その半径、長さ、位置および回転に基づいて、パラメトリックモデルを使用して見つけられる必要がある。ボックス形状は頂点を有するが、最も近いポイントは、その表面のうちの1つ上のどこかにあり、厳密にはそれらの頂点のうちの1つ上にないことがある。いくつかの形状の場合は、最も近いポイントは、球の場合など、計算しやすいが、他の形状の場合は、近似が必要であり得、厳密な最も近いポイントを識別することがあまりに複雑なプロセスであることになる。
【0056】
複雑なメッシュ形状の場合、表面上の頂点とポイントの両方を表す、限られた数のポイントが評価され得る。次いで、これらのポイントの各々が評価されて、リスニング位置までのそのユークリッド距離D、すなわち、D=|P-P|を計算することによって、どのポイントが最も近いかを識別し、ここで、Pは範囲上のポイントkの3次元位置であり、Pはリスナーのリスニング位置である。
【0057】
2.1.1.2 アンカーポイントを決定するための代替形態
【0058】
アンカーポイントとして最も近いポイントを使用することの代替形態として、範囲上の(または、いくつかの実施形態では、範囲内の)ポイントの空間平均が、アンカーポイントを選択するために使用され得る。
【0059】
1つの特定の実施形態では、アンカーポイントは、リスナーのリスニング位置から「可視」である範囲の一部の幾何学的「重心」を決定することによって見つけられる。
【0060】
範囲の「可視」部(“visible” part)は、リスナーの現在のリスニング位置からの直接見通し線を有するオブジェクトの範囲表面(extent surface)上の最も大きい輪郭によって規定され得る。たとえば、球の範囲の場合、輪郭は、球と同じ半径をもつ円であることになり、範囲の「可視」部は、リスナーのリスニング位置に対する球の範囲の前面半球(frontal hemisphere)であることになる。
【0061】
立方体の垂直エッジのうちの1つがリスナーに面する、長さLをもつ立方体の範囲の場合、輪郭は、
のサイズの矩形であることになり、範囲の可視部は、リスナーに面する立方体表面の半分であることになる。より任意の形状の(arbitrarily shaped)範囲の場合、輪郭は、任意の形状をも有し得、範囲表面の可視部は、概して、単に範囲の総表面の半分ではないことになる。
【0062】
「可視」部が決定されると、アンカーポイントは、可視部の幾何学的重心を見つけることによって(たとえば、範囲の可視部上のすべてのポイントの位置ベクトルを空間的に平均化することによって)見つけられ得る。球の範囲の例では、アンカーポイントは、したがって、球の範囲の表面と中心との間のどこかの、リスナーのリスニング位置と範囲の中心との間の線上の範囲内部のポイントに位置することになる。したがって、この例では、アンカーポイントは、第1の実施形態において使用された最も近いポイントと同じ、リスナーからの線上に位置するが、リスナーからややより大きい距離のところに位置する。任意の形状の範囲の場合、これは、通常、当てはまらないことになる、すなわち、任意の形状の範囲の場合、上記で説明されたように導出されたアンカーポイントと、最も近いポイントとは、概して、リスナーのリスニング位置からの同じ線上に位置しないことになる。
【0063】
図3Bは、楕円の範囲304の例の場合の、アンカーポイントとして、範囲上の最も近いポイント(A)を使用することと、範囲の可視部の幾何学的重心(B)を使用することとの間の差を示す。範囲の可視部は、太線セグメントによって図中に示されていることに留意されたい。
【0064】
範囲が個別のやり方で(たとえば、メッシュ頂点のセットを通して)規定され、(リスナーのリスニング位置から見られる)ポイントの分布が一様でない場合、範囲表面の空間サンプリングのこの非一様性は、アンカーポイントを決定するために使用される空間平均化プロシージャにおける位置ベクトルの適切な重み付けによって考慮され得る。
【0065】
他の代替実施形態では、アンカーポイントは、範囲の「可視」部のみとは対照的に、全空間範囲の幾何学的重心として決定され得る。これは、範囲によって囲まれたボリュームの空間重心に位置するアンカーポイントを生じることになる。球の範囲の単純な例では、アンカーポイントは、球の中心に位置することになる。図3Bは、例示的な楕円の範囲の場合のこの代替アンカーポイント(C)をも示す。この代替実施形態は、より小さい体積音ソースに好適であり得るが、範囲の「可視」部を使用する実施形態は、大きい体積音ソースにより好適であり得る。
【0066】
また別の代替実施形態では、アンカーポイントは、セクション2.1.1.1において説明された方法に従って決定された最も近いポイントの周りの範囲のある限定されたエリアの幾何学的重心として決定される。
【0067】
このセクションにおいて説明される代替実施形態の利点は、アンカーポイントの位置が、特に、不規則の形状の範囲では、最も近いポイントがアンカーポイントとして使用されるときよりも、リスナーのリスニング位置および/またはオブジェクト位置/配向の変化とともに、より平滑に変動することである。その結果、適合された2次元平面の位置および配向も、リスナー位置および/またはオブジェクト位置/配向の変化とともに、より平滑に変動する。特に、これらの代替実施形態は、以下でより詳細に説明されるように、適合された2D平面がアンカーポイントの不連続なジャンプにより急激に変化する問題点を呈しない。この利点は、アンカーポイントの位置のややより複雑な計算という犠牲を払うが、一方、実施形態は、セクション2.3において以下で説明される平滑化処理を必要としないことがある。
【0068】
2.1.2 アンカーポイントを前提として記述ポイントを見つける
【0069】
アンカーポイントを前提として、他の記述ポイントを決定するために多数の方法論が使用され得、それらの方法論のうちの1つが、たとえば、一例としてメッシュ形状を使用して以下で説明される。
【0070】
範囲の右エッジおよび左エッジが、リスニング位置と範囲のアンカーポイントとの間のベクトルに対する、リスニング位置と評価されるポイントとの間のベクトルの方位角φ、すなわち、方位角
を評価することによって見つけられ得、ここで、vは、リスニング位置と範囲上のポイントkとの間のベクトルであり、vは、リスナーのリスニング位置と範囲のアンカーポイントとの間のベクトルであり、両方のベクトルは、0にセットされた仰角成分をもつ。この例では、図3Aに示されているように、方位角は、アンカーポイントの方向において0であるように規定され、右に向かって増加し、左に向かって減少する。
【0071】
同様に、上部エッジおよび下部エッジは、シーンの水平平面に対するリスニング位置および評価されるポイントからベクトルの仰角を評価することによって見つけられる。リスニング位置に対する座標(x,y,z)をもつ範囲v上のポイントの仰角θは、仰角
として計算され得、ここで、座標系は、z成分がシーンにおける上方向を表すように規定される。
【0072】
2.2 2次元平面または1次元線表現を規定すること
【0073】
記述ポイントを決定した後に、次のステップは、2次元平面を規定することを含み得る。図4は、プロセスの一例を示す。簡単のために、図4は、鳥瞰図により示されており、これは、仰角軸が示されていないことを意味する。図4に示されているように、平面402は、平面402が、リスナーのリスニング位置から範囲302のアンカーポイント(A)への線と、範囲の右エッジ(B)から左エッジ(C)への線との間の角度に一致する水平角度αにおいてアンカーポイントを横断するように規定される。平面の外側エッジは、範囲のそれぞれの外側エッジの最も低い方位角および最も高い方位角と整合するべきである。同じ手法が、基礎として上部および下部記述ポイントを使用して平面の高さおよび垂直傾きを計算するときに使用される。
【0074】
別の実施形態では、簡略化された1次元表現が使用され、ここで、平面の高さ側面が無視され、その表現は、リスナーのリスニング位置からアンカーポイントへ(A)の線と、範囲の右エッジ(B)から左エッジ(C)への線との間の角度に一致する水平角度αにおいてアンカーポイントを通過する線である。線の端部は、範囲のそれぞれの外側エッジの最も低い方位角および最も高い方位角と整合するべきである。この簡略化された表現の場合、上部エッジ記述ポイントおよび下部エッジ記述ポイントは必要とされない。
【0075】
事前レンダリング簡略化ステップにおいて導出された簡略化された表現から選択された範囲表現がポイントソースである場合、2次元平面または1次元線表現の計算はバイパスされ得る。
【0076】
代替的に、2次元平面は、アンカーポイントを通過し、リスナーのリスニング位置からアンカーポイントへの線に対して直角に配向されるものとして適合され得る。この場合、上記で説明されたエッジポイントは、(リスナーのリスニング位置から見られる)範囲の「開口角度(opening angle)」とその2次元平面表現とを決定するために依然として使用されるが、2D平面の配向は、リスナーからアンカーポイントへの線に対して常に直角である。この表現は、いくつかの範囲形状の場合、好ましいことがある。
【0077】
2.3 範囲記述の移動同期平滑化
【0078】
リアルタイム簡略化の1つの潜在的に重要な側面は、位置および範囲の変化が、リスナーが、オーディオオブジェクトの空間表現の予期しない急激な変化を体感しないように、平滑である必要があり得ることである。
【0079】
リスナーまたはオーディオオブジェクトが動き回るかまたは回転するとき、範囲表現の記述ポイントは、時々、あるポイントから別のポイントにジャンプする。これは、事前レンダリング簡略化ステップにおいて規定された異なる表現間で切り替えるときにも起こり得る。そのような急なジャンプは、不自然なオーディオアーティファクトを生成しないために平滑化される必要がある。しかし、通常の時間平滑化は、その平滑化が、オーディオオブジェクトが移動しないときでも、オーディオオブジェクトが移動するように見せることがあるので、ここでは好適でない。
【0080】
より良い手法は、リスナーおよびオーディオオブジェクトの相対移動に同期された平滑化を使用することである。これは、リスナーが移動するか、あるいはオーディオオブジェクトが移動または回転するかのいずれかである場合、範囲記述の変化が更新されるにすぎないことを意味する。これは、時間平滑化の場合に起こり得る、リスナーが静止している間にオーディオオブジェクトの範囲が変化している状況、あるいは極めて小さいリスナー移動がオーディオオブジェクトの位置または形状の大きい変化を生じる場合を回避することになる。
【0081】
図5は、リスナーの極めて小さい移動がアンカーポイントの位置のジャンプをトリガすることになる場合の一例を示す。リスナーとオーディオオブジェクトの中心位置との間の相対距離の変化を測定することによって、記述ポイントの変化は、この変化と同期され得る。これは、それらの記述ポイントが、相対距離変化よりも決して多く移動しないように、記述ポイントの変化に対する限定を適用することによって行われる。図5の例では、最も近いポイントがアンカーポイントとして使用される。リスナーが、tn-1における位置からtにおける位置に移動するとき、範囲の最も近いポイントが、あるエッジから別のエッジへの(すなわち、「前のアンカーポイント」から「ターゲットアンカーポイント」への)急激なジャンプを行う。この場合、リスニング位置の極めて小さい変化が、範囲の位置の大きい差を作ることになり、これは、不自然として体感されることになる。時間平滑化技法を使用しても、この問題は解決されないことになる。平滑化をリスナーとオーディオオブジェクトとの間の相対距離の変化dDに基づかせることによって、より自然な挙動が達成され得る。この例では、リスナーのみが移動しており、したがって、相対位置の変化は、リスナーの位置の変化と同じである。平滑化は、アンカーポイントを、ターゲット位置に向かう方向に移動させるが、相対距離の変化dDによって限定された距離のみを移動させることになる。
【0082】
リスナーの回転は、範囲記述に影響を及ぼさないことになるが、オーディオオブジェクトの回転は、範囲記述に影響を及ぼし得る。したがって、範囲記述の変化を限定するとき、オーディオオブジェクトの回転も考慮に入れられるべきである。
【0083】
次に、相対位置の変化に比例する平滑化の特定の例が説明される。Dを、オーディオオブジェクトとリスナーのリスニング位置との間の相対距離を示すものとし、dDを、相対距離のデルタ変化とする。dDは、dD=|(pAEn-pLn)|-|(pAEn-1-pLn-1)|として計算され、ここで、pAEnおよびpLnは、時点nにおけるオーディオオブジェクトおよびリスナーの3次元位置であり、pAEn-1およびpLn-1は、最後の時点からの対応する位置である。
【0084】
範囲表現の5つの異なる記述ポイントが、すべて、各ポイントの位置の最大変化がdDに限定されるように補間/平滑化されるべきである。これは、最初に、各ポイントのデルタ変化を、dDvSmooth=min(dD,αdD)として計算することによって行われ得、ここで、dDは、記述ポイントの古い位置と新しいターゲットポイントとの間の距離を示し、dDvSmoothは、記述ポイントが更新される平滑化された距離を示し、αは、更新速度とdDとの間の関係を制御する設計定数である。たいていの場合、1.0から2.0の間の値が好ましい。
【0085】
次いで、記述ポイントが
として更新され、ここで、ppnはターゲット記述ポイントであり、ppn-1は前の記述ポイントである。したがって、記述ポイントの変化は、新しいターゲット記述ポイントの方向において行われるが、距離は、最大でリスナーとオーディオオブジェクトとの間の相対位置の変化と同じ大きさになるように限定される。たとえば、図5を参照されたい。
【0086】
平滑化の一部としてオーディオオブジェクトの回転を含めるために、dDの計算に追加の項が追加され得、ここで、回転は、アンカーポイントの半径における範囲の中間ポイントを中心とする円移動として計算される。次いで、dDが、dD=|(pAE1-pL1)|-|(pAE1-pL1)|+|dθr|として計算され、ここで、dθは、方法の最後の反復以来の回転の変化であり、rは、範囲の中心ポイントからリスナーのリスニング位置へのアンカーポイントまでの距離である。すべての方向における回転をキャプチャするために、dθは、すべての軸を中心とする回転の和として計算され得る。
【0087】
3.レンダリング
【0088】
2つの前に説明されたステップは、オーディオオブジェクトの3次元幾何学的形状を2次元平面または1次元線に簡略化するために行われた。レンダリングステップは、幾何学的形状のこの簡略化された記述を使用し、空間レンダリング技法を使用して、リスナーへのオーディオオブジェクトをレンダリングする。すなわち、レンダリングステップは、空間レンダリング技法とともに簡略化された記述を使用して、オーディオオブジェクトを表すオーディオ信号(たとえば、マルチチャネルオーディオ信号)をレンダリングする。どんなスピーカー設定が使用されるかに応じて異なる空間レンダリング技法が使用され得、たとえば、一般にヘッドフォンのためにバイノーラルレンダリングが使用され、一般に他のスピーカーセットアップのためにスピーカーパンニング技法が使用される。いくつかの場合には、レンダリングは、アンビソニックまたは何らかの特定のマルチチャネルオーディオフォーマットなど、中間フォーマットにおいて行われる。
【0089】
マルチチャネルオーディオオブジェクトからの空間情報を伝達するために、異なるチャネルは、それらがオブジェクトの意図された次元を表すようにレンダリングされるべきである。ステレオオーディオオブジェクトの場合、2つのチャネルは、一般に、水平平面における空間情報を表し、したがって、オブジェクトの左側および右側としてレンダリングされるべきである。これは、それぞれ、簡略化された範囲の右側および左側を表す2つのソースを使用することによって行われ得る。最も単純な実施形態では、これらは、ポイントソースであり得るが、より高度の実装形態では、これらのソースは、2次元平面の範囲をより良く記述する頭部伝達関数(HRTF)を使用することができる。仰角次元における空間情報をも記述するチャネルを含むマルチチャネルソースの場合、仰角次元をも表すためにより多くのソースが必要とされる。
【0090】
上記で説明されたレンダリング設定の例が、図6A図6B、および図6Cに示されている。これらの図では、複数の仮想音ソースを使用して2次元平面によって表されるオーディオオブジェクトをレンダリングする3つの異なるやり方が示されている。図6Aの例では、ステレオオーディオ信号をもつオーディオオブジェクトをレンダリングするために2つのポイントソースが使用される。図6Bの例では、ステレオオーディオ信号をもつオーディオオブジェクトをレンダリングするために、2次元平面のサブエリアを表す関連するHRTFをもつ2つの仮想音ソースが使用される。詳細には、図6Bは、2次元平面が、2次元平面全体を一緒にカバーするセグメントにどのように分割され得るかを示し、各セグメントは、次いで、その全体のセグメントを表現する関連するHRTFをもつ仮想音ソースを通してレンダリングされ得る。図6Cの例では、4チャネルオーディオ信号をもつオーディオオブジェクトをレンダリングするために、4つの仮想ポイントソースが使用され、ここで、異なるチャネルは、水平平面と垂直平面の両方における空間情報を表している。
【0091】
たとえば、ミッド/サイドミキシング(Mid/Side mixing)技法を使用して、平面にわたって知覚的に正しい空間分布を達成するために、バイノーラルレンダリングの前の仮想音ソースの信号の追加の処理も必要とされ得る。形状が1つの次元において比較的長い場合、その形状は、線ソースの特殊挙動が考慮に入れられ得る線ソースとしてレンダリングされ得る。
【0092】
4.例示的な実装形態
【0093】
図7は、XRシーンのための音を作り出すための例示的なシステム700(別名、レンダラ)を示す。システム700は、コントローラ701と、オーディオ信号751(たとえば、マルチチャネルオーディオ信号)を修正するための信号修正器702と、左スピーカー704と、右スピーカー705とを含む。1つのオーディオ信号と2つのスピーカーとが図7に示されているが、これは、単に説明の目的であり、いかなる形でも本開示の実施形態を限定しない。
【0094】
コントローラ701は、1つまたは複数のパラメータを受信し、受信されたパラメータに基づいてオーディオ信号751に対する修正を実施する(たとえば、ボリュームレベルを増加または減少させる)ように修正器702をトリガするように設定され得る。受信されたパラメータは、(1)リスナーの位置に関する情報753(たとえば、オーディオソースへの方向および距離)、および(2)たとえば、本明細書で説明される2D平面または1D線を記述する変換されたメタデータなど、オーディオオブジェクトに関するメタデータ754を含む(いくつかの実施形態では、コントローラ701は、それ自体、メタデータ754を作り出す)。
【0095】
本開示のいくつかの実施形態では、情報753は、図8Aに示されているXRシステム800中に含まれる1つまたは複数のセンサーから提供され得る。図8Aに示されているように、XRシステム800は、リスナーによって装着されるように設定される。図8Bに示されているように、XRシステム800は、配向検知ユニット801と、位置検知ユニット802と、システム800のコントローラ851に結合された処理ユニット803とを備え得る。配向検知ユニット801は、リスナーの配向の変化を検出し、検出された変化に関する情報を処理ユニット803に提供するように設定される。いくつかの実施形態では、処理ユニット803は、配向検知ユニット801によって検出された配向の検出された変化を前提として、(何らかの座標系に関する)絶対配向を決定する。配向および位置の決定のための異なるシステム、たとえば、lighthouseトラッカー(ライダー)を使用するシステムもあり得る。一実施形態では、配向検知ユニット801は、配向の検出された変化を前提として、(何らかの座標系に関する)絶対配向を決定し得る。この場合、処理ユニット803は、単に、配向検知ユニット801からの絶対配向データと位置検知ユニット802からの絶対位置データとを多重化し得る。いくつかの実施形態では、配向検知ユニット801は、1つまたは複数の加速度計および/または1つまたは複数のジャイロスコープを備え得る。
【0096】
図9は、エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すためのプロセス900を示すフローチャートである。プロセス900は、ステップs902から始まり得る。
【0097】
ステップs902は、オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得することを含む。
【0098】
ステップs904は、2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された第1のメタデータを変換することを含む。2D平面または1D線は、オーディオオブジェクトの少なくとも一部分を表す。
【0099】
いくつかの実施形態では、第1のメタデータを取得することは、第1のメタデータと、オーディオオブジェクトに関連する第2の3D形状を記述する第2のメタデータとを備えるメタデータのセットから、第1のメタデータを選択することを含み、第2のメタデータによって記述される第2の3D形状は、第1のメタデータによって記述される第1の3D形状よりも少数の頂点をもつメッシュ構造、ボックス形状、球形状、楕円体形状、円筒形状のうちの1つの形態のものである。
【0100】
いくつかの実施形態では、メタデータのセットは、エクステンデッドリアリティシーンにおいて単一のポイントを記述する第3のメタデータをさらに備える。
【0101】
いくつかの実施形態では、選択は、エクステンデッドリアリティシーンにおけるオーディオオブジェクトとリスナーのリスニング位置との間の距離および少なくとも1つのしきい距離パラメータ(たとえば、D1またはD2)、オーディオオブジェクトのサイズ、エクステンデッドリアリティシーンにおける現在アクティブなオーディオオブジェクトの数、オーディオオブジェクトをレンダリングするために使用されることになるレンダラの現在の負荷、またはオーディオオブジェクトの現在のオーディオエネルギーレベルのうちの1つまたは複数に基づく。
【0102】
いくつかの実施形態では、変換されたメタデータを作り出すために、取得された第1のメタデータを変換することは、記述ポイントのセットを決定することであって、記述ポイントのセットがアンカーポイントを備える、記述ポイントのセットを決定することと、記述ポイントを使用して2D平面または1D線を決定することであって、2D平面または1D線が、アンカーポイントを通過する、2D平面または1D線を決定することとを含む。多くの3D形状の場合、アンカーポイントは、3D形状内にまたは3D形状上にあるが、いくつかの他の3D形状(たとえば、凹形状)の場合、アンカーポイントは、3D形状上にまたは3D形状内になく、通常、3D形状に近い。
【0103】
いくつかの実施形態では、アンカーポイントは、エクステンデッドリアリティシーンにおけるリスナーのリスニング位置に最も近い、3D形状の表面上のポイントである。
【0104】
いくつかの実施形態では、アンカーポイントは、3D形状上のまたは3D形状内のポイントの空間平均である。
【0105】
いくつかの実施形態では、形状の一部が、エクステンデッドリアリティシーンにおいてリスナーに可視であり、アンカーポイントは、リスナーに可視である形状の一部の重心である。
【0106】
いくつかの実施形態では、記述ポイントのセットは、リスナーのリスニング位置に対する第1の3D形状の第1のエッジを表す第1の3D形状上の第1のポイントと、リスニング位置に対する第1の3D形状の第2のエッジを表す第1の3D形状上の第2のポイントとをさらに備える。
【0107】
いくつかの実施形態では、方法は、第1のポイントと第2のポイントとに基づいて、2D平面または1D線の次元(たとえば、幅、高さ、長さ)を決定することをも含む。
【0108】
いくつかの実施形態では、方法は、第1のポイントと第2のポイントとに基づいて、2D平面または1D線の水平角度を決定することをさらに含む。
【0109】
いくつかの実施形態では、記述ポイントのセットは、リスニング位置に対する第1の3D形状の第3のエッジを表す第1の3D形状上の第3のポイントと、リスニング位置に対する第1の3D形状の第4のエッジを表す第1の3D形状の第4のポイントとをさらに備える。
【0110】
いくつかの実施形態では、方法は、第3のポイントと第4のポイントとに基づいて、2D平面または1D線の次元(たとえば、幅、高さ、長さ)を決定することをも含む。
【0111】
いくつかの実施形態では、方法は、第3のポイントと第4のポイントとに基づいて、2D平面または1D線の対頂角を決定することをさらに含む。
【0112】
いくつかの実施形態では、オーディオオブジェクトは、マルチチャネルオーディオ信号によって表され、方法は、変換されたメタデータを使用してマルチチャネルオーディオ信号をレンダリングすることをさらに含む。
【0113】
図10は、本明細書で開示される方法を実施するための、いくつかの実施形態による、装置1000のブロック図である(たとえば、レンダラ700は、装置1000を使用して実装され得る)。図10に示されているように、装置1000は、1つまたは複数のプロセッサ(P)1055(たとえば、汎用マイクロプロセッサ、および/または、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、1つまたは複数の他のプロセッサなど)を含み得る処理回路(PC)1002であって、そのプロセッサが、単一のハウジングにおいてまたは単一のデータセンタにおいて共同サイト式であり得るかあるいは地理的に分散され得る(すなわち、装置1000が分散コンピューティング装置であり得る)、処理回路(PC)1002と、少なくとも1つのネットワークインターフェース1048であって、装置1000が、ネットワークインターフェース1048が(直接または間接的に)接続されるネットワーク110(たとえば、インターネットプロトコル(IP)ネットワーク)に接続された他のノードにデータを送信し、他のノードからデータを受信することを可能にするための送信機(Tx)1045および受信機(Rx)1047を備える(たとえば、ネットワークインターフェース1048はネットワーク110に無線で接続され得、その場合、ネットワークインターフェース1048はアンテナ構成に接続される)、少なくとも1つのネットワークインターフェース1048と、1つまたは複数の不揮発性記憶デバイスおよび/または1つまたは複数の揮発性記憶デバイスを含み得る記憶ユニット(別名「データ記憶システム」)1008とを備え得る。PC1002がプログラマブルプロセッサを含む実施形態では、コンピュータプログラム製品(CPP)1041が提供され得る。CPP1041はコンピュータ可読媒体(CRM)1042を含み、CRM1042は、コンピュータ可読命令(CRI)1044を備えるコンピュータプログラム(CP)1043を記憶する。CRM1042は、磁気媒体(たとえば、ハードディスク)、光媒体、メモリデバイス(たとえば、ランダムアクセスメモリ、フラッシュメモリ)など、非一時的コンピュータ可読媒体であり得る。いくつかの実施形態では、コンピュータプログラム1043のCRI1044は、PC1002によって実行されたとき、CRIが、装置1000に、本明細書で説明されるステップ(たとえば、フローチャートを参照しながら本明細書で説明されるステップ)を実施させるように設定される。他の実施形態では、装置1000は、コードの必要なしに本明細書で説明されるステップを実施するように設定され得る。すなわち、たとえば、PC1002は、単に1つまたは複数のASICからなり得る。したがって、本明細書で説明される実施形態の特徴は、ハードウェアおよび/またはソフトウェアで実装され得る。
【0114】
5.様々な実施形態の概要
【0115】
A1.エクステンデッドリアリティシーンにおいてリスナーのリスニング位置に対するオーディオオブジェクトを表すための方法(900)であって、方法は、オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得すること(s902)と、2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された第1のメタデータを変換すること(s904)とを含み、2D平面または1D線が、オーディオオブジェクトの少なくとも一部分を表す、方法(900)。
【0116】
A2a.第1のメタデータを取得することが、第1のメタデータと、オーディオオブジェクトに関連する第2の3D形状を記述する第2のメタデータとを備えるメタデータのセットから、第1のメタデータを選択することを含む、実施形態A1に記載の方法(一実施形態では、第2のメタデータによって記述される第2の3D形状が、第1のメタデータによって記述される第1の3D形状よりも少数の頂点を有する)。
【0117】
A2b.第2の3D形状が、第1のメタデータによって記述される第1の3D形状よりも少数の頂点をもつメッシュ構造、ボックス形状、球形状、楕円体形状、円筒形状のうちの1つの形態のものである、実施形態A2aに記載の方法。
【0118】
A3.メタデータのセットが、エクステンデッドリアリティシーンにおいて単一のポイントを記述する第3のメタデータをさらに備える、実施形態A2aまたはA2bに記載の方法。
【0119】
A4.選択が、エクステンデッドリアリティシーンにおけるオーディオオブジェクトとリスナーのリスニング位置との間の距離および少なくとも1つのしきい距離パラメータ、オーディオオブジェクトのサイズ、エクステンデッドリアリティシーンにおける現在アクティブなオーディオオブジェクトの数、オーディオオブジェクトをレンダリングするために使用されることになるレンダラの現在の負荷、またはオーディオオブジェクトの現在のオーディオエネルギーレベルのうちの1つまたは複数に基づく、実施形態A2a、A2b、またはA3に記載の方法。
【0120】
A5.変換されたメタデータを作り出すために、取得された第1のメタデータを変換することは、記述ポイントのセットを決定することであって、記述ポイントのセットがアンカーポイントを備える、記述ポイントのセットを決定することと、記述ポイントを使用して2D平面または1D線を決定することであって、2D平面または1D線が、アンカーポイントを通過する、2D平面または1D線を決定することとを含む、実施形態A1からA4のいずれか1つに記載の方法。
【0121】
A6.アンカーポイントが、エクステンデッドリアリティシーンにおけるリスナーのリスニング位置に最も近い、3D形状の表面上のポイントである、実施形態A5に記載の方法。
【0122】
A7.アンカーポイントが、3D形状上のまたは3D形状内のポイントの空間平均である、実施形態A5に記載の方法。
【0123】
A8.形状の一部が、エクステンデッドリアリティシーンにおいてリスナーに可視であり、アンカーポイントが、リスナーに可視である形状の一部の重心である、実施形態A5に記載の方法。
【0124】
A9.記述ポイントのセットが、リスナーのリスニング位置に対する第1の3D形状の第1のエッジを表す第1の3D形状上の第1のポイントと、リスニング位置に対する第1の3D形状の第2のエッジを表す第1の3D形状上の第2のポイントとをさらに備える、実施形態A5からA8のいずれか1つに記載の方法。
【0125】
A10.第1のポイントと第2のポイントとに基づいて、2D平面または1D線の次元(たとえば、幅、高さ、長さ)を決定することをさらに含む、実施形態A9に記載の方法。
【0126】
A11.第1のポイントと第2のポイントとに基づいて、2D平面または1D線の水平角度を決定することをさらに含む、実施形態A9またはA10に記載の方法。
【0127】
A12.記述ポイントのセットが、リスニング位置に対する第1の3D形状の第3のエッジを表す第1の3D形状上の第3のポイントと、リスニング位置に対する第1の3D形状の第4のエッジを表す第1の3D形状上の第4のポイントとをさらに備える、実施形態A5からA11のいずれか1つに記載の方法。
【0128】
A13.第3のポイントと第4のポイントとに基づいて、2D平面または1D線の次元(たとえば、幅、高さ、長さ)を決定することをさらに含む、実施形態A12に記載の方法。
【0129】
A14.第3のポイントと第4のポイントとに基づいて、2D平面の対頂角を決定することをさらに含む、実施形態A12またはA13に記載の方法。
【0130】
A15.少なくとも1つの記述ポイントの位置は、2つの時間インスタンス間の位置変化の大きさが、せいぜい、同じ2つの時間インスタンス間の、オーディオオブジェクトとリスナーとの間の相対距離の変化の大きさに比例するように限定される、技法を使用して平滑化される、実施形態A5からA14のいずれか1つに記載の方法。
【0131】
A16.オーディオオブジェクトの範囲の回転の変化が、アンカーポイントの予想される位置変化を計算することによって考慮に入れられ、記述ポイントの位置変化が、せいぜい、この位置変化の大きさと、オーディオオブジェクトとリスナーとの間の相対位置の変化の大きさとの和に比例するように限定される、実施形態A16に記載の方法。
【0132】
A17.オーディオオブジェクトが、マルチチャネルオーディオ信号によって表され、方法が、変換されたメタデータを使用してマルチチャネルオーディオ信号をレンダリングすることをさらに含む、実施形態A1からA16のいずれか1つに記載の方法。
【0133】
A18.マルチチャネルオーディオ信号が、2D形状または1D線のエッジを表す仮想音ソースを使用してレンダリングされる、実施形態A17に記載の方法。
【0134】
A19.マルチチャネルオーディオ信号が、2D形状または1D線のサブエリアを表す関連する頭部伝達関数(HRTF)を有する仮想音ソースを使用してレンダリングされる、実施形態A17またはA18に記載の方法。
【0135】
B1.エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すための装置(1000)であって、装置が、オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得すること(s902)と、2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された第1のメタデータを変換すること(s904)とを行うように設定され、2D平面または1D線が、オーディオオブジェクトの少なくとも一部分を表す、装置(1000)。
【0136】
B2.装置が、実施形態A2からA19のいずれか1つに記載の方法を実施するようにさらに設定された、実施形態B1に記載の装置。
【0137】
B3.エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表すための装置(1000)であって、装置が、記憶ユニット(1008)と、記憶ユニットに結合された処理回路(1002)とを備え、装置が、オーディオオブジェクトに関連する第1の3次元(3D)形状を記述する第1のメタデータを取得すること(s902)と、2次元(2D)平面または1次元(1D)線を記述する変換されたメタデータを作り出すために、取得された第1のメタデータを変換すること(s904)とを行うように設定され、2D平面または1D線が、オーディオオブジェクトの少なくとも一部分を表す、装置(1000)。
【0138】
B4.記憶ユニット(1008)が、実施形態A1からA19のいずれか1つに記載の方法を実施するように装置を設定するための命令を記憶するメモリ(1042)を備える、実施形態B3に記載の装置。
【0139】
C1.処理回路(1002)によって実行されたとき、処理回路に、実施形態A1からA19のいずれか1つに記載の方法を実施させる命令を備える、コンピュータプログラム(1043)。
【0140】
C2.実施形態C1に記載のコンピュータプログラムを含んでいるキャリアであって、キャリアが、電子信号、光信号、無線信号、またはコンピュータ可読記憶媒体(1042)のうちの1つである、キャリア。
【0141】
様々な実施形態が本明細書で説明されたが、それらの実施形態は、限定ではなく、例として提示されたにすぎないことを理解されたい。したがって、本開示の広さおよび範囲は、上記で説明された例示的な実施形態のいずれによっても限定されるべきでない。その上、本明細書で別段に示されていない限り、またはコンテキストによって明確に否定されていない限り、上記で説明されたオブジェクトのそれらのすべての考えられる変形形態における任意の組合せが、本開示によって包含される。
【0142】
さらに、上記で説明され、図面に示されたプロセスは、ステップのシーケンスとして示されたが、これは、説明のためにのみ行われた。したがって、いくつかのステップが追加され得、いくつかのステップが省略され得、ステップの順序が並べ替えられ得、いくつかのステップが並行して実施され得ることが企図される。
【0143】
参考文献
【0144】
[1]MPEG-H 3D Audio,Clause 8.4.4.7:“Spreading”
【0145】
[2]MPEG-H 3D Audio,Clause 18.1:“Element Metadata Preprocessing”
【0146】
[3]MPEG-H 3D Audio,Clause 18.11:“Diffuseness Rendering”
【0147】
[4]EBU ADM Renderer Tech 3388,Clause 7.3.6:“Divergence”
【0148】
[5]EBU ADM Renderer Tech 3388,Clause 7.4:“Decorrelation Filters”
【0149】
[6]EBU ADM Renderer Tech 3388,Clause 7.3.7:“Extent Panner”
【0150】
[7]Efficient HRTF-based Spatial Audio for Area and Volumetric Sources“、IEEE Transactions on Visualization and Computer Graphics 22(4):1-1 2016年1月
【0151】
[8]“Surface Simplification Using Quadric Error Metrics”、ACM SIGGRAPH Computer Graphics、1997年7月
【0152】
[9]“Minimum volume bounding box decomposition for shape approximation in robot grasping”、2008 IEEE International Conference on Robotics and Automation.
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10