(58)【調査した分野】(Int.Cl.,DB名)
前記距離計算器(110)は、最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能な場合にのみ、前記位置のスピーカーまでの距離を計算するように構成され、前記距離計算器(110)は、最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能な場合にのみ、最小距離を有する解をとるように構成され、
前記スピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能である解のみに対応するスピーカーを用いて前記オーディオオブジェクトを再生するように構成された、
請求項1に記載の装置(100)。
前記最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能な場合に、前記オーディオオブジェクトにいかなるレンダリングも行わないように構成された、請求項2に記載の装置(100)。
ビットストリームを復号化し、1つ以上のオーディオ入力チャンネルを取得し、1つ以上の入力オーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、1つ以上のSAOCトランスポートチャンネルを取得する、USACデコーダ(910)と、
1つ以上SAOCトランスポートチャンネルを復号化し、一群の1つ以上のレンダリングされたオーディオオブジェクトを取得する、SAOCデコーダ(915)と、
前記圧縮されたオブジェクトメタデータを復号化し、未圧縮のメタデータを取得する、オブジェクトメタデータデコーダ(918)と、
前記1つ以上のオーディオ入力チャンネルを変換し、1つ以上の変換されたチャンネルを取得する、フォーマットコンバータ(922)と、
前記一群の1つ以上のレンダリングされたオーディオオブジェクトの1つ以上のレンダリングされたオーディオオブジェクトと、前記1つ以上の入力オーディオオブジェクトと、前記1つ以上の変換されたチャンネルとを混合し、1つ以上の復号化されたオーディオチャンネルを取得する、ミキサー(930)と、
を備え、
前記オブジェクトメタデータデコーダ(918)と前記ミキサー(930)は、共に請求項1〜8のいずれかに記載の装置(100)を形成し、
前記オブジェクトメタデータデコーダ(918)は、請求項1〜8のいずれかに記載の装置(100)の距離計算器(110)を備え、前記距離計算器(110)は、前記1つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトに対して、前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を計算し、最小距離を有する解をとるように構成され、
前記ミキサー(930)は、前記入力オーディオオブジェクトに対して、前記1つ以上の復号化されたオーディオチャンネルの1つの中で、請求項1〜8のいずれかに記載の装置(100)の距離計算器(110)によって決定された解に対応するスピーカーに対して、前記1つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトを出力するように構成された、
デコーダデバイス。
【背景技術】
【0002】
日常生活におけるマルチメディアコンテンツの消費の増加に伴い、高度なマルチメディアソリューションに対する要求が着実に増加している。この局面において、オーディオオブジェクトの位置決めは重要な役割を演ずる。オーディオオブジェクトの実在するスピーカーセットアップに対する最適な位置決めが望ましい。
【0003】
技術水準において、オーディオオブジェクトは知られている。オーディオオブジェクトは、例えば、関連するメタデータを有するサウンドトラックとみなすことができる。メタデータは、例えば、生のオーディオデータの特性、例えば所望の再生位置またはボリュームレベルを記述することができる。オブジェクトベースのオーディオの利点は、予め定義された動きが、再生側での特別なレンダリングプロセスによって、全ての再生スピーカーレイアウトに対して可能な最良の方法で再生できることである。
【0004】
幾何学的メタデータは、どこでオーディオオブジェクトがレンダリングされるべきか、例えば、方位角または仰角または基準点、例えばリスナーに対する絶対位置を定義するために用いることができる。メタデータは、オブジェクトオーディオ信号とともに記憶されるまたは伝送される。
【0005】
MPEG-Hの局面において、第105回MPEGミーティングにおいて、オーディオグループは、異なるアプリケーション規格の要求条件およびタイムラインをレビューした(MPEG=Moving Picture Experts Group)。そのレビューによれば、次世代放送システムに対して、時間における一定のポイントおよび特定の要求条件を満たすことが重要である。それによれば、システムは、エンコーダ入力においてオーディオオブジェクトを受け入れることが可能でなければならない。さらに、システムは、オーディオオブジェクトのシグナリング、配信およびレンダリングをサポートし、例えば、ダイアログ拡張、代替ランゲージトラックおよびオーディオ記述言語に対して、オブジェクトのユーザー制御を可能にしなければならない。
【0006】
技術水準において、異なるコンセプトが知られている。第1のコンセプトは、オブジェクトベースのオーディオに対する反射音レンダリングである(特許文献2を参考)。スピーカーロケーション情報に対するスナップは、有用なレンダリング情報としてメタデータ定義に含まれる。しかしながら、特許文献2において、再生プロセスにおいてどのように情報が用いられるかの情報は提供されない。さらに、どのように2つの位置の間の距離が決定されるかの情報は提供されない。
【0007】
拡張3Dオーディオオーサリングおよびレンダリングに対する技術水準の他のコンセプト、システムおよびツールが特許文献4に記述されている。特許文献4の
図6bは、どのようにスピーカーへの「スナッピング」をアルゴリズム的に実現することができるかを示した図解図である。詳しくは、特許文献4によれば、オーディオオブジェクトの位置をスピーカーロケーション(特許文献4の
図6bのブロック665を参照)にスナップすることが決定される場合、オーディオオブジェクト位置は、スピーカーロケーション(特許文献4の
図6bのブロック670を参照)、一般にはオーディオオブジェクトに対して受信された意図された(x、y、z)位置に最も近いものにマップされる。特許文献4によれば、スナッピングは、再生スピーカーの小グループにおよび/または個々の再生スピーカーに適用されるかもしれない。しかしながら、特許文献4は、球面座標の代わりに直交(x,y,z)座標を用いる。さらに、レンダラーの挙動は、スピーカーロケーションに対するマップオーディオオブジェクト位置として記述され、スナップフラグが1である場合に詳細な記述は提供されない。さらにまた、どのように最も近いスピーカーが決定されるかの詳細は提供されない。
【0008】
特許文献1に記載された適応オーディオ信号生成、符号化およびレンダリングのための他の従来技術、システムおよび方法によれば、メタデータ情報(メタデータエレメント)は、「1つ以上の音響コンポーネントが、位置のメタデータによって示されたような音響コンポーネントの意図された再生ロケーションに最も近いスピーカーによる再生のためのスピーカーフィードにレンダリングされる」ことを指定している。しかしながら、どのように最も近いスピーカーが決定されるかの情報は提供されない。
【0009】
更なる従来技術において、非特許文献1に記載されたオーディオ定義モデル、「channelLock」と呼ばれるメタデータフラグが定義されている。1にセットされた場合、レンダラーは、通常のレンダリングよりむしろ、オブジェクトを最も近いチャンネルまたはスピーカーにロックすることができる。しかしながら、最も近いチャンネルの決定は記述されていない。
【0010】
他の従来技術において、オブジェクトベースのオーディオのアップミックスが記述されている(特許文献3を参照)。特許文献3は、異なるアプリケーションの分野におけるスピーカーの距離尺度の使用を記述している。ここで、それはオブジェクトベースのオーディオマテリアルのアップミックスに対して用いられる。レンダリングシステムは、オブジェクトベースのオーディオプログラム(およびプログラムをプレイするために使用されるスピーカーの位置の知識)から、プログラムによって指示されたオーディオソースの各位置と各々のスピーカーの位置との間の距離を決定するように構成される。さらにまた、特許文献3のレンダリングシステムは、プログラムによって指示された各実際のソース位置(例えば、ソース軌道に沿った各ソース位置)に対して、実際のソース位置に最も近いフルセットのそれらのスピーカーから成るフルセットのスピーカーのサブセット(「プライマリー」サブセット)(または実際のソース位置に最も近いフルセットのそのスピーカー)を決定するように構成され、ここで、この局面において「最も近い」は、なんらかの合理的に定義されたという意味において定義されたものである。しかしながら、どのように距離を計算すべきかの情報は提供されない。
【発明を実施するための形態】
【0031】
図1は、位置に関連するオーディオオブジェクトを再生する装置100が提供される。
【0032】
装置100は、位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み込む、距離計算器110を備える。距離計算器110は、最小距離を有する解をとるように構成される。
【0033】
装置100は、解に対応するスピーカーを用いてオーディオオブジェクトを再生するように構成される。
【0034】
たとえば、各スピーカーに対して、位置(オーディオオブジェクトの位置)と前記スピーカー(前記スピーカーのロケーション)の間の距離が決定される。
【0035】
実施形態によれば、距離計算器は、例えば、装置100によって受信されている最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能である場合にのみ、位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み取るように構成することができる。さらに、距離計算器は、例えば、最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能な場合にのみ、最小距離を有する解をとるように構成することができる。さらに、装置100は、例えば、最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能である解のみに対応するスピーカーを用いてオーディオオブジェクトを再生するように構成することができる。
【0036】
実施形態において、装置100は、例えば、最も近いスピーカープレイアウトフラグ(mdae_closestSpeakerPlayout)が使用可能な場合に、オーディオオブジェクト上にいかなるレンダリングも行わないように構成することができる。
【0037】
実施形態によれば、距離計算器は、例えば、重み付けユークリッド距離または大円弧距離を返す距離関数に従って距離を計算するように構成することができる。
【0038】
実施形態において、距離計算器は、例えば、方位角および仰角における重み付け絶対差分を返す距離関数によって距離を計算するように構成することができる。
【0039】
実施形態によれば、距離計算器は、例えば、累乗p(pは数である)に対する重み付け絶対差分を返す距離関数によって距離を計算するように構成することができる。実施形態において、pは、例えばp=2にセットすることができる。
【0040】
実施形態によれば、距離計算器は、例えば、重み付け角度差分を返す距離関数によって距離を計算するように構成することができる。
【0041】
実施形態において、距離関数は、例えば、次式によって定義することができる。
diffAngle=acos(cos(azDiff)*cos(elDiff))
ここで、azDiffは2つの方位角の差分を示し、elDiffは2つの仰角の差分を示し、diffAngleは重み付け角度差分を示す。
【0042】
実施形態によれば、距離計算器は、例えば、位置の1つのスピーカーまでの各距離Δ(P
1,P
2)が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。
Δ(P
1,P
2)=|β
1−β
2|+|α
1−α
2|
α
1は位置の方位角を示し、α
2は前記1つのスピーカーの方位角を示し、β
1は位置の仰角を示し、β
2は前記1つのスピーカーの仰角を示す。または、α
1は前記1つのスピーカーの方位角を示し、α
2は位置の方位角を示し、β
1は前記1つのスピーカーの仰角を示し、β
2は位置の仰角を示す。
【0043】
実施形態において、距離計算器は、例えば、位置の1つのスピーカーまでの各距離Δ(P
1,P
2)が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。
Δ(P
1,P
2)=|β
1−β
2|+|α
1−α
2|+|r
1−r
2|
α
1は位置の方位角を示し、α
2は前記1つのスピーカーの方位角を示し、β
1は位置の仰角を示し、β
2は前記1つのスピーカーの仰角を示し、r
1は位置の半径を示し、r
2は前記1つのスピーカーの半径を示す。または、α
1は前記1つのスピーカーの方位角を示し、α
2は位置の方位角を示し、β
1は前記1つのスピーカーの仰角を示し、β
2は位置の仰角を示し、r
1は前記1つのスピーカーの半径を示し、r
2は位置の半径を示す。
【0044】
実施形態によれば、距離計算器は、例えば、位置の1つのスピーカーまでの各距離Δ(P
1,P
2)が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。
Δ(P
1,P
2)=b・|β
1−β
2|+a・|α
1−α
2|
α
1は位置の方位角を示し、α
2は前記1つのスピーカーの方位角を示し、β
1は位置の仰角を示し、β
2は前記1つのスピーカーの仰角を示し、aは第1の数であり、bは第2の数である。または、α
1は前記1つのスピーカーの方位角を示し、α
2は位置の方位角を示し、β
1は前記1つのスピーカーの仰角を示し、β
2は位置の仰角を示し、aは第1の数であり、bは第2の数である。
【0045】
実施形態において、距離計算器は、例えば、位置の1つのスピーカーまでの各距離Δ(P
1,P
2)が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。
Δ(P
1,P
2)=b・|β
1−β
2|+a・|α
1−α
2|+c・|r
1−r
2|
α
1は位置の方位角を示し、α
2は前記1つのスピーカーの方位角を示し、β
1は位置の仰角を示し、β
2は前記1つのスピーカーの仰角を示し、r
1は位置の半径を示し、r
2は前記1つのスピーカーの半径を示し、aは第1の数であり、bは第2の数であり、cは第3の数である。または、α
1は前記1つのスピーカーの方位角を示し、α
2は位置の方位角を示し、β
1は前記1つのスピーカーの仰角を示し、β
2は位置の仰角を示し、r
1は前記1つのスピーカーの半径を示し、r
2は位置の半径を示し、aは第1の数であり、bは第2の数であり、cは第3の数である。
【0046】
以下において、本発明の実施形態が記述される。実施形態は、オーディオレンダリングに対して幾何学的な距離定義を用いるコンセプトを提供する。
【0047】
オブジェクトメタデータは、次のいずれかを定義するために用いることができる。
1) 空間においてどこでオブジェクトがレンダリングされるべきか、または
2) オブジェクトを再生するためにどのスピーカーが用いられるべきか
【0048】
メタデータにおいて示されるオブジェクトの位置が単一のスピーカーにかからない場合、オブジェクトレンダラーは、複数のスピーカーと定義されたパニング規則を用いることをベースとする出力信号を構築する。パニングは、局所音または音色に関して準最適である。
【0049】
それ故に、特定の音は特定の方向から単一のスピーカーから来るべきであると定義することは、オブジェクトベースのコンテンツの製作者には望ましいと考えられる。
【0050】
このスピーカーがユーザーのスピーカーセットアップにおいて存在しないことが起こる可能性がある。そのとき、レンダリングなしで最も近い利用可能なスピーカーによって再生されることを強いるフラグが、メタデータにおいてセットされる。
【0051】
本発明は、所望のオブジェクト位置から許容可能な偏差からなるいくつかの重み付けを可能とする最も近いスピーカーをどのように発見することができるかを記述する。
【0052】
図2は、実施形態に係るオブジェクトレンダラーを示す。
【0053】
オブジェクトベースのオーディオフォーマットにおいて、メタデータはオブジェクト信号とともに記憶されるまたは伝送される。オーディオオブジェクトは、メタデータおよび再生環境に関する情報を用いて再生側でレンダリングされる。この種の情報は、例えばスピーカーの数またはスクリーンのサイズである。
【0055】
オブジェクトに対して、幾何学的メタデータは、どのようにそれらがレンダリングされるべきか、例えば方位または高さにおける角度または基準位置、例えばリスナーに対する絶対位置を定義するために用いることができる。レンダラーは、幾何学的データおよび利用可能なスピーカーとそれらの位置に基づいてスピーカー信号を計算する。
【0056】
オーディオオブジェクト(3D空間、例えば与えられた方位、高さおよび距離に関連するオーディオ信号)が、その関連する位置にレンダリングされるべきでないが、その代わりにローカルのスピーカーセットアップに存在するスピーカーによって再生される場合、一つの方法は、オブジェクトがメタデータによって再生されるべきスピーカーを定義することである。
【0057】
にもかかわらず、製作者が特定のスピーカーによって再生されるオブジェクトコンテンツを望まないが、むしろ次の利用可能なスピーカー、すなわち「幾何学的に最も近い」スピーカー)によって再生されることを望むケースがある。これは、どのスピーカーがどのオーディオ信号に対応するかを定義するかまたは複数のスピーカー間でレンダリングする必要なしに、離散的な再生を可能にする。
【0058】
本発明に係る実施形態は、以下の方法で上記から明らかになる。
【0060】
表2.GroupDefinition()のシンタックス
mdae_closestSpeakerPlayout このフラグは、メタデータエレメントグループのメンバーはレンダリングされるべきでないが、メンバーの幾何学的な位置に最も近いスピーカーによって直接再生されるべきであることを定義する。
【0061】
ローカルのスピーカーセットアップを考慮に入れ、どのスピーカーによってまたはどの方向から音がレンダリングされるべきかの特定の情報によって、対応するレンダラーに対して信号のルーティングを実行するりマッピングが、オブジェクトメタデータプロセッサにおいてなされる。
【0062】
図3は、実施形態に係るオブジェクトメタデータプロセッサを示す。
【0063】
距離計算に対するストラテジーは、以下のように記述される。
− 最も近いスピーカーメタデータフラグがセットされている場合、音は最も近いスピーカーを通じて再生される
− このために、次のスピーカーまでの距離が計算される(または予め記憶されたテーブルから読み取る)
− 最小距離を有する解がとられる
− 距離関数は、例えば以下とすることができる(しかしながらそれに限定されない)
− 重み付けユークリッドまたは大円弧距離
− 方位角および仰角における重み付け絶対差分
− 累乗p(p=2 => 最小2乗法)に対する重み付け絶対差分
− 重み付け角度差分、例えば diffAngle=acos(cos(azDiff)*cos(elDiff)))
【0064】
最も近いスピーカー計算に対する例は以下に提示される。
【0065】
オーディオエレメントグループのmdae_closestSpeakerPlayoutフラグが使用可能な場合、オーディオエレメントグループのメンバーはオーディオエレメントの与えられた位置に最も近いスピーカーによって各々再生される。レンダリングは適用されない。
【0066】
極座標系における2つの位置P
1およびP
2の距離は、それらの方位角αおよび仰角βの絶対差分として定義される。
Δ(P
1,P
2)= |β
1−β
2|+|α
1−α
2|+|r
1−r
2|
【0067】
この距離は、オーディオエレメントの求められている位置P
wantedに関して、N個の出力スピーカーの全ての既知の位置P
1〜P
Nに対して計算されなければならない。
【0068】
最も近い既知のスピーカー位置は、以下のようにオーディオエレメントの求められている位置までの距離が最小限になるものである。
P
next=min(Δ(P
wanted,P
1),Δ(P
wanted,P
2),・・・,Δ(P
wanted,P
N))
【0069】
この式によって、仰角、方位角および/または半径に対して重み付けを加えることが可能である。そのような方法で、以下のように高い数によって方位角偏差を重み付けすることによって、方位角偏差が仰角偏差より許容されないように決めることが可能である。
Δ(P
1,P
2)=b・|β
1−β
2|+a・|α
1−α
2|+c・|r
1−r
2|
【0070】
実施例は、バイノーラルレンダリングに対する最も近いスピーカーの計算に関する。
【0071】
オーディオコンテンツがヘッドホンまたはステレオスピーカーセットアップ上でバイノーラルステレオ信号として再生される場合、伝統的にオーディオコンテンツの各チャンネルはバイノーラルルームインパルス応答または頭部関連インパルス応答と数学的に結合される。
【0072】
このインパルス応答の測定位置は、関連するチャンネルのオーディオコンテンツが知覚されるべき方向に対応しなければならない。マルチチャネルのオーディオシステムまたはオブジェクトベースのオーディオにおいて、定義可能な位置(スピーカーまたはオブジェクト位置のいずれかによって)の数は、利用可能なインパルス応答の数より大きいというケースがある。そのケースにおいて、チャンネル位置またはオブジェクト位置に対して利用可能な専用のものがない場合、適当なインパルス応答が選択されなければならない。知覚における最小の位置的変化のみを課すため、選択されたインパルス応答は「幾何学的に最も近い」インパルス応答とすべきである。
【0073】
両方のケースにおいて、既知の位置(すなわち再生スピーカーまたはBRIR)のリストのいずれが求められている位置に対して次であるかを決定することを必要とする(BRIR=Binaural Room Impulse Response)。それ故に、異なる位置の間の「距離」が定義されなければならない。
【0074】
異なる位置の間の距離は、それらの方位角および仰角の絶対差分としてここで定義される。
【0075】
以下の公式は、仰角αおよび方位角βによって定義される座標系において2つの位置P
1、P
2の距離を計算するために用いられる。
Δ(P
1,P
2)=|β
1−β
2|+|α
1−α
2|
【0076】
次のように、第3の変数として半径rを加えることが可能である。
Δ(P
1,P
2)=|β
1−β
2|+|α
1−α
2|+|r
1−r
2|
【0077】
最も近い既知の位置は、求められている位置までの距離は最小となるものである。
P
next=min(Δ(P
wanted,P
1),Δ(P
wanted,P
2),・・・,Δ(P
wanted,
PN))
【0078】
実施形態において、重みは、例えば、次のように立体角、方位角および/または半径に加えることができる。
Δ(P
1,P
2)=b・|β
1−β
2|+a・|α
1−α
2|+c・|r
1−r
2|
【0079】
いくつかの実施形態によれば、最も近いスピーカーは、例えば、以下のように決定することができる。
【0080】
極座標系における2つの位置P
1およびP
2の距離は、例えば、次のようにそれらの方位角φおよび仰角θの絶対差分として定義することができる。
Δ(P
1,P
2)=|θ
1−θ
2|+|φ
1−φ
2|
【0081】
この距離は、オーディオエレメントの求められている位置P
wantedに関して、N個の出力スピーカーの全ての既知の位置P
1〜P
Nに対して計算されなければならない。
【0082】
最も近い既知のスピーカー位置は、次のようにオーディオエレメントの求められている位置までの距離が最小になるものである。
P
next=min(Δ(P
wanted,P
1),Δ(P
wanted,P
2),・・・,Δ(P
wanted,P
N))
【0083】
たとえば、いくつかの実施形態によれば、ClosestSpeakerPlayoutフラグが1に等しい場合、いくつかの実施形態による最も近いスピーカーのプレイアウト処理をオーディオオブジェクトのグループの各メンバーに対して最も近い存在するスピーカーの位置を決定することによって行うことができる。
【0084】
最も近いスピーカーのプレイアウト処理は、例えば、動的な位置データによるエレメントのグループに対して特に意味があると考えられる。最も近い既知のスピーカー位置は、例えば、オーディオエレメントの所望の/求められている位置までの距離が最小となるものとすることができる。
【0085】
以下において、3Dオーディオコーデックシステムのシステム概要が提供される。本発明の実施形態は、この種の3Dオーディオコーデックシステムおいて行使することができる。3Dオーディオコーデックシステムは、例えば、チャンネルおよびオブジェクト信号の符号化に対して、MPEG−D USACコーデックに基づくことができる。
【0086】
実施形態によれば、大量のオブジェクトの符号化に対して効率を増大させるため、MPEG SAOC技術が適用されてきた(SAOC=Spatial Audio Object Coding)。たとえば、いくつかの実施形態によれば、3種類のレンダラーが、例えば、チャンネルにオブジェクトをレンダリングする、ヘッドホンにチャンネルをレンダリングする、または異なるスピーカーセットアップにチャンネルをレンダリングするタスクを実行することができる。
【0087】
オブジェクト信号がSAOCを用いて明確に伝送されるまたはパラメトリック符号化されるとき、対応するオブジェクトメタデータ情報は圧縮され、3Dオーディオビットストリームに多重化される。
【0088】
図4および
図5は、3Dオーディオシステムの異なるアルゴリズム的ブロックを示す。特に、
図4は、3Dオーディオエンコーダの概要を図示している。
図5は、実施形態に係る3Dオーディオデコーダの概要を図示している。
【0089】
ここで、
図4および
図5のモジュールの可能な実施形態が説明される。
【0090】
図4において、プリレンダラー810(ミキサーとも称される)が図示されている。
図4の構成において、プリレンダラー810(ミキサー)はオプションである。プリレンダラー810は、符合化の前にチャンネル+オブジェクト入力シーンをチャンネルシーンに変換するためにオプションとして用いることができる。エンコーダ側のプリレンダラー810は、機能的に、例えば、以下で記述されるデコーダ側のオブジェクトレンダラー/ミキサー920の機能に関係することができる。オブジェクトのプリレンダリングは、基本的に同時にアクティブなオブジェクト信号の数から独立しているエンコーダ入力における決定的な信号エントロピーを確実にする。オブジェクトのプリレンダリングによって、いかなるオブジェクトメタデータの伝送も必要とされない。離散オブジェクト信号は、エンコーダが用いるように構成されているチャンネルレイアウトにレンダリングされる。各チャンネルに対するオブジェクトの重みは、関連するオブジェクトメタデータ(OAM)から取得される。
【0091】
スピーカーチャンネル信号、離散オブジェクト信号、オブジェクトダウンミックス信号およびプリレンダリングされた信号に対するコアコーデックは、MPEG−D USAC技術(USACコアコーデック)に基づいている。USACエンコーダ820(例えば、
図4に図示された)は、構築するチャンネルによる多重信号‐および入力のチャンネルおよびオブジェクトアサインメントの幾何学的なおよびセマンティックな情報に基づくオブジェクトマッピング情報の符号化を処理する。このマッピング情報は、どのように入力チャンネルおよびオブジェクトがUSACチャンネルエレメント(CPE、SCE、LFE)にマッピングされるかを記述する。
【0092】
SAOCデータまたはオブジェクトメタデータのような全ての付加的なペイロードは、拡張エレメントを通過し、例えば、USACエンコーダのレートコントロールにおいて考慮することができる。
【0093】
オブジェクトの符号化は、レート/ディストーションの要求条件およびレンダラーに対する対話要求条件によって異なる方法で可能である。以下のオブジェクト符号化の変形が可能である。
− プリレンダリングされたオブジェクト: オブジェクト信号は、プリレンダリングされ、符合化の前に22.2チャンネル信号に混合される。引き続く符号化チェーンは22.2チャンネル信号を参照されたい。
− 離散オブジェクト波形: オブジェクトは、USACエンコーダ820にモノラル波形として供給される。USACエンコーダ820は、チャンネル信号に加えてオブジェクトを伝送するため、単一のチャンネルエレメントSCEを用いる。復号化されたオブジェクトは、レシーバー側でレンダリングされ、混合される。圧縮されたオブジェクトメタデータ情報は、レシーバー/レンダラーに並んで伝送される。
− パラメトリックオブジェクト波形: オブジェクトの属性およびそれらの互いに対する関係は、SAOCパラメータによって記述される。オブジェクト信号のダウンミックスは、USACエンコーダ820によって符号化される。パラメトリック情報は、並んで伝送される。ダウンミックスチャンネルの数は、オブジェクトの数および全体のデータレートによって選択される。圧縮されたオブジェクトメタデータ情報は、SAOCレンダラーに伝送される。
【0094】
デコーダ側で、USACデコーダ910はUSAC復号化を行う。
【0095】
さらに、実施形態によれば、デコーダが提供される(
図5を参照)。デコーダは、ビットストリームを復号化し、1つ以上のオーディオ入力チャンネルを取得し、1つ以上のオーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、1つ以上のSAOCトランスポートチャンネルを取得する、USACデコーダ910を備える。
【0096】
さらにまた、デコーダは、1つ以上のSAOCトランスポートチャンネルを復号化し、1つ以上のレンダリングされたオーディオオブジェクトの第1のグループを取得する、SAOCデコーダ915を備える。
【0097】
さらにまた、デコーダは、1つ以上のオーディオ入力チャンネルを変換し、1つ以上の変換されたチャンネルを取得する、フォーマットコンバータ922を備える。
【0098】
さらに、デコーダは、1つ以上のレンダリングされたオーディオオブジェクトの第1のグループのオーディオオブジェクトと、1つ以上のレンダリングされたオーディオオブジェクトの第2のグループのオーディオオブジェクトと、1つ以上の変換されたチャンネルとを混合し、1つ以上の復号化されたオーディオチャンネルを取得する、ミキサー930を備える。
【0099】
図5において、デコーダの特定の実施形態が図示されている。SAOCエンコーダ815(SAOCエンコーダ815はオプションである。
図4を参照)およびオブジェクト信号に対するSAOCデコーダ915(
図5を参照)は、MPEG SAOC技術に基づいている。本システムは、より少ない数の送信チャンネルと付加的パラメトリックデータ(OLD、IOC、DMG)(OLD=オブジェクトレベル差、IOC=オブジェクト間相関、DMG=ダウンミックスゲイン)に基づいて多くのオーディオオブジェクトを再構築し、修正し、レンダリングすることができる。付加的なパラメトリックデータは、全てのオブジェクトを個別に送信するために必要なデータレートより有意に低いデータレートを呈し、符号化を非常に効率的にする。
【0100】
SAOCエンコーダ815は、入力としてモノラル波形としてのオブジェクト/チャンネル信号をとり、パラメトリック情報(それは、3Dオーディオビットストリームにパックされている)とSAOCトランスポートチャンネル(それは、単一のチャンネルエレメントを用いて符号化され、送信される)を出力する。
【0101】
SAOCデコーダ915は、復号化SAOCトランスポートチャンネルとパラメトリック情報からオブジェクト/チャンネル信号を復元し、再生レイアウトと、解凍されたオブジェクトメタデータ情報と、オプションとしてユーザー対話処理情報とに基づいて出力オーディオシーンを生成する。
【0102】
オブジェクトメタデータコーデックに関して、各オブジェクトに対して、3D空間におけるオブジェクトの幾何学的な位置と広がりを特定する関連するメタデータは、時間および空間におけるオブジェクト属性の定量化によって、例えば、
図4のメタデータエンコーダ818によって、効率的に符号化される。圧縮されたオブジェクトメタデータcOAM(cOAM=圧縮されたオーディオオブジェクトメタデータ)は、サイド情報としてレシーバーに送信される。レシーバーにおいて、cOAMは、メタデータデコーダ918によって復号化される。
【0103】
たとえば、
図5において、メタデータデコーダ918は、上述の実施形態のいずれかによって、例えば、
図1の距離計算器110を実施することができる。
【0104】
オブジェクトレンダラー、例えば、
図5のオブジェクトレンダラー920は、圧縮されたオブジェクトメタデータを利用し、与えられた再生フォーマットによってオブジェクト波形を生成する。各オブジェクトは、そのメタデータによって特定の出力チャンネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から結果として生じる。いくつかの実施形態において、最も近いスピーカーの決定が行われる場合、オブジェクトレンダラー920は、たとえば、ミキサー930に対してレンダリングすることなく、USAC−3Dデコーダ910から受信されたオーディオオブジェクトをパスすることができる。ミキサー930は、たとえば、距離計算器によって決定された(例えば、メタデータデコーダ918の中で実施された)スピーカーに、オーディオオブジェクトをパスすることができる。この実施形態によって、例えば、距離計算器と、ミキサー930と、オプションとしてオブジェクトレンダラー920とを備えることができるメタデータデコーダ918は、
図1の装置100を一緒に実施することができる。
【0105】
たとえば、メタデータデコーダ918は、距離計算器(図示せず)を備え、前記距離計算器またはメタデータデコーダ918は、例えば、ミキサー930に対する接続(図示せず)によって、USAC−3Dデコーダから受信された1つ以上のオーディオオブジェクトの各オーディオオブジェクトに対する最も近いスピーカーをシグナリングすることができる。ミキサー930は、ここでスピーカーチャンネルの中で、複数のスピーカーの最も近いスピーカー(距離計算器で決定される)に対してのみ、オーディオオブジェクトを出力することができる。
【0106】
いくつかの他の実施形態において、最も近いスピーカーは、ミキサー930に対して、距離計算器またはメタデータデコーダ918によって、1つ以上のオーディオオブジェクトに対してシグナリングされるだけである。
【0107】
チャンネルベースのコンテンツ並びに離散/パラメトリックオブジェクトの両方が復号化される場合、チャンネルベースの波形とレンダリングされたオブジェクト波形は、例えば、
図5のミキサー930によって結果として生じる波形を出力する前に(またはバイノーラルレンダラーまたはスピーカーレンダラーモジュールのような後処理モジュールにそれらを供給する前に)混合される。
【0108】
バイノーラルレンダラーモジュール940は、各入力チャンネルが仮想音源によって表されるように、例えば、マルチチャンネルオーディオマテリアルのバイノーラルダウンミックスを産出することができる。処理は、QMFドメインにおいてフレームワイズに行われる。バイノーラル化は、例えば、測定されたバイノーラルルームインパルス応答に基づくことができる。
【0109】
スピーカーレンダラー922は、例えば、送信されたチャンネル配置と所望の再生フォーマットの間で変換することができる。これは、従って以下においてフォーマットコンバータ922と呼ばれる。フォーマットコンバータ922は、低い数の出力チャンネルへの変換を実行し、例えば、それはダウンミックスを構築する。本システムは、入出力フォーマットの与えられた組合せに対して最適化されたダウンミックスマトリクスを自動的に生成し、これらのマトリクスをダウンミックスプロセスにおいて適用する。フォーマットコンバータ922は、標準のスピーカー構成並びに非標準のスピーカー位置によるランダム構成を可能にする。
【0110】
実施形態によれば、デコーダデバイスが提供される。デコーダデバイスは、ビットストリームを復号化し、1つ以上のオーディオ入力チャンネルを取得し、1つ以上の入力オーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、1つ以上のSAOCトランスポートチャンネルを取得する、USACデコーダ910を備える。
【0111】
さらに、デコーダデバイスは、1つ以上SAOCトランスポートチャンネルを復号化し、一群の1つ以上のレンダリングされたオーディオオブジェクトを取得する、SAOCデコーダ915を備える。
【0112】
さらにまた、デコーダデバイスは、圧縮されたオブジェクトメタデータを復号化し、未圧縮のメタデータを取得する、オブジェクトメタデータデコーダ918を備える。
【0113】
さらに、デコーダデバイスは、1つ以上のオーディオ入力チャンネルを変換し、1つ以上の変換されたチャンネルを取得する、フォーマットコンバータ922を備える。
【0114】
さらにまた、デコーダデバイスは、一群の1つ以上のレンダリングされたオーディオオブジェクトの1つ以上のレンダリングされたオーディオオブジェクトと、1つ以上の入力オーディオオブジェクトと、1つ以上の変換されたチャンネルとを混合し、1つ以上の復号化されたオーディオチャンネルを取得する、ミキサー930を備える。
【0115】
オブジェクトメタデータデコーダ918とミキサー930は、共に上述の実施形態の1つ、例えば
図1の実施形態に係る装置100を形成する。
【0116】
オブジェクトメタデータデコーダ918は、上述の実施形態の1つに係る装置100の距離計算器110を備え、距離計算器110は、1つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトに対して、前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を計算する、または前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を読み込み、最小距離を有する解をとるように構成される。
【0117】
ミキサー930は、前記入力オーディオオブジェクトに対して、1つ以上の復号化されたオーディオチャンネルの1つの中で、上述の実施形態の1つに係る装置100の距離計算器110によって決定された解に対応するスピーカーに対して、1つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトを出力するように構成される。
【0118】
このような実施形態において、オブジェクトレンダラー920は、例えばオプションとすることができる。いくつかの実施形態において、オブジェクトレンダラー920は、存在することができるが、メタデータ情報が、最も近いスピーカープレイアウトがアクティブでないことを示している場合に、入力オーディオオブジェクトをレンダリングすることができるだけである。メタデータ情報が、最も近いスピーカープレイアウトがアクティブであることを示している場合に、オブジェクトレンダラー920は、例えば、入力オーディオオブジェクトをレンダリングすることなく、入力オーディオオブジェクトを直接ミキサーにパスすることができる。
【0119】
図6は、フォーマットコンバータの構造を示す。
図6は、QMFドメイン(QMFドメイン=直交ミラーフィルタドメイン)においてダウンミックスを処理するダウンミックスコンフィギュレータ1010とダウンミックスプロセッサを示す。
【0120】
以下において、本発明の実施形態の更なる実施形態およびコンセプトが記述される。
【0121】
実施形態において、オーディオオブジェクトは、例えばオブジェクトレンダラーによって、例えば、メタデータおよび再生環境に関する情報を用いて再生側でレンダリングすることができる。この種の情報は、例えば、スピーカーの数またはスクリーンのサイズとすることができる。オブジェクトレンダラーは、例えば、幾何学的データおよび利用可能なスピーカーおよびそれらの位置に基づいてスピーカー信号を計算することができる。
【0122】
オブジェクトのユーザー制御は、例えば、記述的メタデータによって、例えばビットストリーム内のオブジェクトの存在およびオブジェクトのハイレベル属性に関する情報によって実現することができる、または、例えば、拘束性メタデータによって、例えばどれだけの対話処理が可能であるかまたはコンテンツクリエーターによって使用可能であるかの情報によって実現することができる。
【0123】
実施形態によれば、シグナリング、配信、およびオーディオオブジェクトのレンダリングは、位置的メタデータによって、例えば構造的メタデータ、たとえば、オブジェクトのグループ化および階層化によって、例えば、特定のスピーカーにおよびオブジェクトとしての信号チャンネルにレンダリングする能力によって、および、例えば、オブジェクトシーンをスクリーンサイズに適応させる手段によって実現することができる。
【0124】
それ故に、3D空間におけるオブジェクトの既に定義された幾何学的位置およびレベルに加えて、新しいメタデータフィールドが開発された。
【0125】
一般に、オブジェクト位置は、メタデータにおいて示される3D空間における位置によって定義される。
【0126】
この再生スピーカーは、ローカルのスピーカーセットアップに存在する特定のスピーカーである可能性がある。このケースにおいて、所望のスピーカーは、メタデータによって直接定義される可能性がある。
【0127】
にもかかわらず、製作者が、オーディオオブジェクトが、特定のスピーカーによって再生されることを望まないが、むしろ次の利用可能なスピーカー、例えば「幾何学的に最も近い」スピーカーによって再生されることを望むケースがある。これは、どのスピーカーがどのオーディオ信号に対応するかを定義する必要なしに離散的な再生を可能とする。これは、製作者がどのスピーカーを選択することができるかを知ることができないように、再生スピーカーレイアウトを製作者に対して未知とすることができるので、有益である。
【0128】
実施形態は、いかなる平方根演算またはcos/sin関数も必要としない距離関数の単純な定義を提供する。実施形態において、距離関数は、角度ドメイン(方位角、仰角、距離)において働くので、他のいかなる座標系(直交、経度/緯度)への変換も必要とされない。実施形態によれば、方位角偏差、仰角偏差および半径偏差の間でフォーカスをシフトする可能性を提供する関数において重み付けがある。本関数における重み付けは、例えば、人間の聴覚の能力に対して調整する(例えば、方位角および仰角方向における顕著な差異によって重みを調整する)ことができる。本関数は、最も近いスピーカーの決定に対してだけでなく、バイノーラルルームインパルス応答またはバイノーラルレンダリングに対する頭部関連インパルス応答の選択に対しても適用することができる。このケースにおいていかなるインパルス応答の補間も必要とされず、その代わりに「最も近い」インパルス応答を用いることができる。
【0129】
実施形態によれば、mae_closestSpeakerPlayoutと呼ばれる「ClosestSpeakerPlayout」フラグは、例えば、音がレンダリングなしに最も近い利用可能なスピーカーによって再生されることを強制するオブジェクトベースのメタデータにおいて定義することができる。オブジェクトは、例えば、その「ClosestSpeakerPlayout」フラグが1にセットされている場合に、最も近いスピーカーによる再生に対してマークすることができる。「ClosestSpeakerPlayout」フラグは、例えば、オブジェクトの「グループ」のレベルについて定義することができる。オブジェクトのグループは、ユニオンとしてレンダリングされるまたは修正されるべき関連オブジェクトの集合のコンセプトである。このフラグが1にセットされる場合に、それはグループの全てのメンバーに対して適用可能である。
【0130】
実施形態によれば、最も近いスピーカーの決定に対して、グループ、例えば一群のオーディオオブジェクトのmae_closestSpeakerPlayoutフラグがイネーブルである場合に、グループのメンバーはオブジェクトの所定の位置に最も近いスピーカーによって各々再生される。いかなるレンダリングも適用されない。「ClosestSpeakerPlayout」がグループに対してイネーブルである場合に、以下の処理が行われる。
【0131】
グループメンバーの各々に対して、メンバーの幾何学的な位置が(動的オブジェクトメタデータ(OAM)から)決定され、予め記憶されたテーブルにおけるルックアップまたは距離尺度の助けによる計算によって、最も近いスピーカーが決定される。メンバー位置の存在するスピーカーのすべて(またはサブセットのみ)までの距離が計算される。最小距離をもたらすスピーカーは最も近いスピーカーとして定義され、メンバーはその最も近いスピーカーに対してルーティングされる。グループメンバーは、その最も近いスピーカーによって各々再生される。
【0132】
すでに記述されたように、最も近いスピーカーの決定に対する距離尺度は、たとえば、次のように実施することができる。
− 方位角および仰角における重み付けされた絶対差分
− 方位角、仰角および半径/距離における重み付けされた絶対差分およびたとえば(それに限定されないが)
− 累乗p(p=2 => 最小2乗法)に対する重み付けされた絶対差分
− (重み付けされた)ピタゴラスの定理/ユークリッド距離
【0133】
直交座標に対する距離dは、例えば、次式を使用することによって実現することができる。
ここで、x
1、y
1、z
1は第1の位置のx、y、z座標値であり、x
2、y
2、z
2は第2の位置のx、y、z座標値であり、dは第1の位置と第2の位置の間の距離である。
【0134】
極座標に対する距離尺度dは、例えば、次式を使用することによって実現することができる。
ここで、α
1、β
1、r
1は第1の位置の極座標であり、α
2、β
2、r
2は第2の位置の極座標であり、dは第1の位置と第2の位置の間の距離である。
【0135】
重み付けされた角度差分は、例えば、次式によって定義することができる。
diffAngle=acos(cos(α
1−α
2)・cos(β
1−β
2))
【0136】
順行距離、大円弧距離、または大圏距離に関して、距離は、球体の表面に沿って測定された(球体の内部を通る直線と対比されるような)ものである。平方根演算および三角関数を、例えば、使用することができる。座標は、例えば、緯度と経度に変換することができる。
【0137】
上述された式に戻ると、
Δ(P
1,P
2)=|β
1−β
2|+|α
1−α
2|+|r
1−r
2|
本式は、次式のオリジナルのタクシー幾何学定義におけるような直交座標の代わりに、極座標を用いた修正されたタクシー幾何学距離とみなすことができる。
Δ(P
1,P
2)=|x
1−x
2|+|y
1−y
2|
【0138】
この式によって、仰角、方位角および/または半径に重み付けを加えることが可能である。そのような方法で、高い数で方位角偏差を重み付けすることによって、方位角偏差が仰角偏差より許容できないように決めることが可能である。
Δ(P
1,P
2)=b・|β
1−β
2|+a・|α
1−α
2|+c・|r
1−r
2|
【0139】
更なる補足の注釈として、実施形態において、
図2の「レンダリングされたオブジェクトオーディオ」は、例えば「レンダリングされたオブジェクトベースのオーディオ」とみなすことができることに留意すべきである。
図2において、静的オブジェクトメタデータに関するusacConfigExtentionおよびusacExtensionは、特定の実施形態の例としてのみ用いられる。
【0140】
図3に関して、いくつかの実施形態において、
図3の動的オブジェクトメタデータは、例えば、位置的OAM(オーディオオブジェクトメタデータ、位置的データ+ゲイン)とすることができることに留意すべきである。いくつかの実施形態では、「ルート信号」は、例えば、フォーマットコンバータに対するまたはオブジェクトレンダラーに対するルーティングシグナルによって行うことができる。
【0141】
いくつかの態様が装置の局面において記載されたが、これらの態様は、また対応する方法の記載を表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの構成に対応する。同様に、方法ステップの局面において記載された態様は、対応する装置の対応するブロックまたは項目または構成の記載を表す。
【0142】
発明の分解された信号は、デジタル記憶媒体に記憶することができる、または無線伝送媒体または有線伝送媒体のような伝送媒体、例えばインターネット上で伝送することができる。
【0143】
特定の実施要求によって、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に格納される電子的に読取可能な制御信号を有し、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)、デジタル記憶媒体、たとえば、フロッピーディスク(登録商標)、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを用いて実行することができる。
【0144】
本発明に係るいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有する非遷移的なデータキャリアを備える。
【0145】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、方法の1つを実行するために動作するプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、機械読取可能キャリアに格納することができる。
【0146】
他の実施形態は、機械読取可能キャリアに格納された、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを備える。
【0147】
言い換えれば、発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
【0148】
発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上に記録されて備えるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
【0149】
発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を介して、たとえばインターネットを介して、伝送されるように構成することができる。
【0150】
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成されたまたは適合された処理手段、たとえばコンピュータ、またはプログラマブルロジックデバイスを備える。
【0151】
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがその上にインストールされたコンピュータを備える。
【0152】
いくつかの実施形態では、プログラマブルロジックデバイス(たとえばフィールドプログラマブルゲートアレイ)を、本願明細書に記載された方法の機能の一部または全てを実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
【0153】
上述された実施形態は、単に本発明の原理に対して示されたものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。それ故に、本願発明は、間近に迫った特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明の方法によって示された特定の詳細によって制限されないことが意図される。