(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024038192
(43)【公開日】2024-03-19
(54)【発明の名称】符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム
(51)【国際特許分類】
G10L 19/008 20130101AFI20240312BHJP
【FI】
G10L19/008 200
【審査請求】有
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2023222169
(22)【出願日】2023-12-28
(62)【分割の表示】P 2021542163の分割
【原出願日】2020-01-21
(31)【優先権主張番号】19152911.4
(32)【優先日】2019-01-21
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085660
【弁理士】
【氏名又は名称】鈴木 均
(72)【発明者】
【氏名】ケッヒ,ファビアン
(72)【発明者】
【氏名】ティエルガルト,オリヴァー
(72)【発明者】
【氏名】フックス,ギヨーム
(72)【発明者】
【氏名】デーラ,シュテファン
(72)【発明者】
【氏名】ブテオン,アレクサンドル
(72)【発明者】
【氏名】ヘッレ,ユルゲン
(72)【発明者】
【氏名】バイヤー,シュテファン
(57)【要約】 (修正有)
【課題】入力信号から音場記述を生成する符号化されたオーディオ信号を復号するための方法及びコンピュータプログラムを提供する。
【解決手段】オーディオシーンを表す空間オーディオ表現を符号化するための装置は、空間オーディオ表現からトランスポート表現(611)を生成し、トランスポート表現(611)の生成に関連する、またはトランスポート表現(611)の1つもしくは複数の指向特性を示すトランスポートメタデータ(610)を生成するためのトランスポート表現生成器(600)と、符号化されたオーディオ信号を生成するための出力インターフェース(640)と、を備え、符号化されたオーディオ信号がトランスポート表現(611)に関する情報およびトランスポートメタデータ(610)に関する情報を含む。
【選択図】
図6
【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号を復号するための装置であって、
少なくとも2つのトランスポート信号を含むトランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取るための入力インターフェース(700)を備え、
前記トランスポートメタデータは、選択情報又は結合情報を含み、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成するための空間オーディオ合成器(750)と、
を備え、
前記空間オーディオ合成器(750)は、複数の成分信号を含み、前記複数の成分信号は、第1の成分信号と第2の成分信号とを含み、
前記空間オーディオ合成器(750)は、前記空間オーディオ表現の前記第1の成分信号を、前記少なくとも2つのトランスポート信号のうちの1つまたは前記少なくとも2つのトランスポート信号の第1の結合を使用して決定し、前記空間オーディオ表現の前記第2の成分信号を、前記少なくとも2つのトランスポート信号のうちの別の1つまたは前記少なくとも2つのトランスポート信号の第2の結合を使用して決定するように構成され、前記第2の結合は、前記第1の結合とは異なり、
前記空間オーディオ合成器(750)が、前記トランスポートメタデータの前記選択情報を使用して、前記少なくとも2つのトランスポート信号のうちの第1のトランスポート信号または第2のトランスポート信号を決定する(760)か、または前記トランスポートメタデータの前記結合情報を使用して、前記第1のトランスポート信号または前記第2のトランスポート信号を決定する(760)ように構成される、
装置。
【請求項2】
前記入力インターフェース(700)が、空間パラメータに関する情報をさらに含む前記符号化されたオーディオ信号を受け取るように構成され、
前記空間オーディオ合成器(750)が、前記空間パラメータに関する前記情報をさらに使用して前記空間オーディオ表現を合成するように構成される、請求項1に記載の装置。
【請求項3】
前記空間オーディオ合成器(750)が、
2つ以上の復号されたトランスポート信号を得るために前記トランスポート表現に関する前記情報を表す前記少なくとも2つのトランスポート信号をコア復号するためのコア復号器(751)を備えるか、または
前記空間オーディオ合成器(750)が、前記空間オーディオ表現としての1次アンビソニックス表現もしくは高次アンビソニックス表現(754)またはマルチチャネル信号(755)またはオブジェクト表現(756)またはバイノーラル表現を計算するように構成されるか、または
前記空間オーディオ合成器(750)が、前記トランスポートメタデータに関する前記情報を復号して前記トランスポートメタデータ(720)を導出するか、もしくは空間パラメータ(722)に関する情報を復号して復号された空間パラメータを得るためのメタデータ復号器(752)を備える、
請求項1または2に記載の装置。
【請求項4】
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記第1の成分信号又は前記第2の成分信号について、前記トランスポート表現(711)に関する前記情報および前記トランスポートメタデータ(710)に関する前記情報を使用して基準信号を決定し(760)、
前記基準信号および空間パラメータに関する情報を使用して前記空間オーディオ表現の前記第1の成分信号又は前記第2の成分信号を計算する(770)か、または前記基準信号を使用して前記空間オーディオ表現の前記第1の成分信号又は前記第2の成分信号を計算する(770)
ように構成される、
請求項1、2、または3のいずれか一項に記載の装置。
【請求項5】
前記空間パラメータが、時変的または周波数に依存する到来方向パラメータおよび時変的または周波数に依存する拡散度パラメータのうちの少なくとも1つを含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記複数の異なる成分信号を生成するために前記空間パラメータを使用して方向オーディオコーディング(DirAC)合成を行うように構成される、
請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記トランスポートメタデータが、前記空間オーディオ表現の基準位置に関連する第1のセクタもしくは半球を指すものとしての前記第1のトランスポート信号および前記空間オーディオ表現の前記基準位置に関連する第2の異なるセクタもしくは半球を指すものとしての前記第2のトランスポート信号を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号を使用し、前記第2のトランスポート信号を使用せずに前記第1のセクタもしくは半球と関連付けられた前記空間オーディオ表現の前記第1の成分信号を生成する(915)ように構成されるか、または前記空間オーディオ合成器(750)が、前記第2のトランスポート信号を使用し、前記第1のトランスポート信号を使用せずに前記第2のセクタもしくは半球と関連付けられた前記空間オーディオ表現の前記第2の成分信号を生成する(915)ように構成されるか、または
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号の前記第1の結合を使用して前記第1のセクタもしくは半球と関連付けられた前記第1の成分信号を生成する(915)か、または前記第1のトランスポート信号と前記第2のトランスポート信号の前記第2の結合を使用して異なる第2のセクタもしくは半球と関連付けられた成分信号を生成する(915)ように構成され、前記第1の結合が、前記第2の結合よりも強い第1のトランスポート信号の影響を受けるか、または前記第2の結合が、前記第1の結合よりも強い第2のトランスポート信号の影響を受ける、
請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記トランスポートメタデータが、前記トランスポート表現の前記第1のトランスポート信号及び前記第2のトランスポート信号と関連付けられた指向特性に関する情報を含み、
前記空間オーディオ合成器(750)が、1次アンビソニックス信号もしくは高次アンビソニックス成分信号、スピーカ位置および前記トランスポートメタデータを使用して仮想マイクロフォン信号を計算する(911)ように構成されるか、または
空間オーディオ合成器(750)が、前記トランスポートメタデータを使用して前記第1のトランスポート信号及び前記第2のトランスポート信号の前記指向特性を決定し(911)、前記トランスポート信号の決定された指向特性に従って前記トランスポート信号から1次アンビソニックス成分もしくは高次アンビソニックス信号(754)を決定するように構成されるか、または、
前記空間オーディオ合成器(750)が、フォールバックプロセスに従って前記トランスポート信号の前記指向特性と関連付けられていない1次アンビソニックス成分信号もしくは高次アンビソニックス成分信号(754)を決定する(911)ように構成される、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記トランスポートメタデータが、前記第1のトランスポート信号と関連付けられた第1の視線方向に関する情報、および前記第2のトランスポート信号と関連付けられた第2の視線方向に関する情報を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記複数の成分信号のうちの成分信号の計算のための基準信号を、前記トランスポートメタデータ、および前記空間オーディオ表現の前記成分信号と関連付けられたスピーカの前記位置に基づいて選択する(771)ように構成される、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記第1の視線方向が左半球または前半球を示し、前記第2の視線方向が右半球または後半球を示し、
前記左半球内のスピーカの前記複数の成分信号のうちの成分信号の計算に、前記第2のトランスポート信号ではなく前記第1のトランスポート信号が使用される(771)か、または前記右半球内のスピーカの前記複数の成分信号のうちの成分信号の計算に、前記第1のトランスポート信号ではなく前記第2のトランスポート信号が使用される(771)か、または
前半球内のスピーカの前記複数の成分信号のうちの成分信号の計算に、前記第2のトランスポート信号ではなく前記第1のトランスポート信号が使用される(771)か、または後半球内のスピーカの前記複数の成分信号のうちの成分信号の計算に、前記第1のトランスポート信号ではなく前記第2のトランスポート信号が使用される(771)か、または
中央領域内のスピーカの前記複数の成分信号のうちの成分信号の計算に、左トランスポート信号と前記第2のトランスポート信号の結合が使用される(771)か、または前記前半球と前記後半球との間の領域内のスピーカの前記複数の成分信号のうちの成分信号の計算に、前記第1のトランスポート信号と前記第2のトランスポート信号の結合が使用される(771)、
請求項8に記載の装置。
【請求項10】
前記トランスポートメタデータに関する前記情報が、第1の視線方向として、左トランスポート信号である前記第1のトランスポート信号の左方向を示し、第2の視線方向として、第2のトランスポート信号である前記第2のトランスポート信号の右視線方向を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号とを加算する(920)ことによって第1のアンビソニックス成分信号を計算するか、または前記第1のトランスポート信号と前記第2のトランスポート信号とを減算する(921)ことによって第2のアンビソニックス成分信号を計算するように構成されるか、または前記第1のトランスポート信号と前記第2のトランスポート信号の和を使用して別のアンビソニックス成分信号が計算される(922)、
請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記トランスポートメタデータが、前記第1のトランスポート信号に、前視線方向を示し、前記第2のトランスポート信号に、後視線方向を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号との差(921)の計算を行うことによってx方向の1次アンビソニックス成分信号を計算し、前記第1のトランスポート信号と前記第2のトランスポート信号の加算(920)を使用して無指向性の1次アンビソニックス成分信号を計算し、
前記第1のトランスポート信号と前記第2のトランスポート信号の和を使用して別の1次アンビソニックス成分信号を計算する(922)
ように構成される、
請求項1から7のいずれか一項に記載の装置。
【請求項12】
前記トランスポートメタデータが、重み係数または前記トランスポート表現の前記第1のトランスポート信号及び前記第2のトランスポート信号の視線方向に関する情報を示し、
前記空間オーディオ合成器(750)が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記第1のトランスポート信号及び前記第2のトランスポート信号および前記空間パラメータを使用して、前記空間オーディオ表現の異なる1次アンビソニックス信号を計算する(932)ように構成されるか、または前記空間オーディオ合成器(750)が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記第1のトランスポート信号及び前記第2のトランスポート信号を使用して、前記空間オーディオ表現の異なる1次アンビソニックス信号を計算する(932)ように構成される、
請求項1から6のいずれか一項に記載の装置。
【請求項13】
前記トランスポートメタデータが、2つの異なる位置にあるか、もしくは異なる視線方向を有するマイクロフォン信号から導出される前記第1のトランスポート信号及び前記第2のトランスポート信号に関する情報を含み、
前記空間オーディオ合成器(750)が、スピーカ位置に最も近い位置を有する前記第1のトランスポート信号及び前記第2のトランスポート信号から基準信号を選択する(931)か、もしくは前記空間オーディオ表現の基準位置およびスピーカ位置からの前記方向に対して最も近い視線方向を有する前記第1のトランスポート信号及び前記第2のトランスポート信号から基準信号を選択する(932)ように構成されるか、または
前記空間オーディオ合成器(750)が、前記トランスポートメタデータによって示される2つの視線方向の間に配置されているスピーカの基準信号を決定するために前記第1のトランスポート信号及び前記第2のトランスポート信号との線形結合を行う(771)ように構成される、
請求項1から12のいずれか一項に記載の装置。
【請求項14】
前記トランスポートメタデータが、前記第1のトランスポート信号及び前記第2のトランスポート信号と関連付けられたマイクロフォン位置間の距離に関する情報を含み、
前記空間オーディオ合成器(750)が、拡散信号生成器(830、823、824)を備え、前記拡散信号生成器(830、823、824)が、前記距離に関する前記情報を使用して前記拡散信号生成器(830、823、824)によって生成された拡散信号中の無相関化信号の量を制御して、第1の距離では、前記拡散信号に、第2の距離での無相関化信号の量と比較して多い量の無相関化信号が含まれるようにするように構成され、前記第1の距離が前記第2の距離よりも小さいか、または
前記空間オーディオ合成器(750)が、前記マイクロフォン位置間の第1の距離について、基準信号もしくはスケーリングされた基準信号を無相関化するように構成された無相関化フィルタ(823)の出力信号と、音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号とを使用して、前記空間オーディオ表現の成分信号を計算し、前記マイクロフォン位置間の第2の距離について、無相関化処理なしで音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号を使用して、前記空間オーディオ表現の成分信号を計算するように構成され、前記第2の距離が前記第1の距離よりも大きいか、もしくは距離閾値よりも大きい、
請求項1から13のいずれか一項に記載の装置。
【請求項15】
前記トランスポートメタデータが、前記トランスポート表現の前記第1のトランスポート信号及び前記第2のトランスポート信号と関連付けられたビームフォーミングまたは空間フィルタリングに関する情報を含み、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号及び前記第2のトランスポート信号のうちの特定のトランスポート信号を使用してスピーカのためのスピーカ信号を生成する(932)ように構成され、前記特定のトランスポート信号は、前記空間オーディオ表現の基準位置から前記スピーカへの視線方向に最も近い視線方向を有する、
請求項1から14のいずれか一項に記載の装置。
【請求項16】
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記複数の成分信号を、直接音成分と拡散音成分との結合(825)として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする(822)ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ(821、760)、前記拡散音成分が、同じ前記基準信号および前記拡散度パラメータを使用して決定される(823、824)、
請求項1から15のいずれか一項に記載の装置。
【請求項17】
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記複数の成分信号を、直接音成分と拡散音成分との結合(825)として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする(822)ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ(821、760)、前記拡散音成分が、無相関化フィルタ(823)、同じ前記基準信号、および前記拡散度パラメータを使用して決定される(823、824)、
請求項1から16のいずれか一項に記載の装置。
【請求項18】
前記トランスポート表現が、前記第1のトランスポート信号及び前記第2のトランスポート信号として、少なくとも2つの異なるマイクロフォン信号を含み、
前記トランスポートメタデータが、前記少なくとも2つの異なるマイクロフォン信号が、無指向性信号、双極信号またはカージオイド信号のうちの少なくとも1つであるかどうかを示す情報を含み、
前記空間オーディオ合成器が、前記空間オーディオ表現の成分信号について、個々の基準信号を決定するために、基準信号の決定を前記トランスポートメタデータに適応させ(915)、
前記空間オーディオ表現の前記それぞれの成分信号を、前記それぞれの成分に決定された前記個々の基準信号を使用して計算する(916)ように構成される、
請求項1から17のいずれか一項に記載の装置。
【請求項19】
符号化されたオーディオ信号を復号するための方法であって、
前記方法が、
前記少なくとも2つのトランスポート信号を含むトランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取ることを含み、前記トランスポートメタデータは、選択情報または結合情報を含み、
前記方法が、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成することを含み、前記空間オーディオ表現は、複数の成分信号を含み、前記複数の成分信号は、第1の成分信号と第2の成分信号を含み、
前記合成することは、前記空間オーディオ表現の前記第1の成分を、前記少なくとも2つのトランスポート信号のうちの第1のトランスポート信号または前記少なくとも2つのトランスポート信号の第1の結合を使用して決定することと、前記空間オーディオ表現の第2の成分を、前記少なくとも2つのトランスポート信号のうちの第2のトランスポート信号または前記少なくとも2つのトランスポート信号の第2の結合を使用して決定すること、を含み、前記第2の結合は、前記第1の結合とは異なり、
前記合成することは、前記トランスポートメタデータの前記選択情報を使用して前記少なくとも2つのトランスポート信号のうちの前記第1のトランスポート信号又は前記第2のトランスポート信号を決定すること、または前記トランスポートメタデータの前記結合情報を使用して前記第1の結合または前記第2の結合を実行すること、を含む、
方法。
【請求項20】
空間パラメータに関する情報を受け取ることをさらに含み、前記合成することが、前記空間パラメータに関する前記情報をさらに使用する、請求項19に記載の方法。
【請求項21】
コンピュータまたはプロセッサ上で動作するときに、請求項19に記載の方法を行うためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、方向オーディオコーディングのためのトランスポートチャネルまたはダウンミックスシグナリングに関する。
【背景技術】
【0002】
方向オーディオコーディング(Directional Audio Coding(DirAC))技術[Pulkki07]は、空間音の解析および再現の効率的な手法である。DirACは、空間パラメータ、すなわち、周波数帯域ごとに測定された到来方向(direction of arrival(DOA))および拡散度に基づく音場の知覚的に動機付けられた表現を使用する。これは、1つの時点で1つの臨界帯域において、聴覚系の空間分解能は、方向についての1つのキューおよび両耳間コヒーレンスについての別のキューの復号に限定されるという仮定に基づいて構築される。空間音は、その場合、2つのストリーム、すなわち、無指向性拡散ストリームおよび指向性非拡散ストリームをクロスフェードすることによって周波数領域で表される。
【0003】
DirACは、当初、記録されたBフォーマットの音を対象としていたが、5.1[2]のような特定のスピーカセットアップまたは任意の構成のマイクロフォン配列[5]と一致するマイクロフォン信号に拡張することもできる。最新の事例では、特定のスピーカセットアップのための信号を記録するのではなく、代わりに中間フォーマットの信号を記録することによって、より高い柔軟性を達成することができる。
【0004】
そのような中間フォーマットは、実際には十分に確立されており、(高次)アンビソニックス[3]で表される。アンビソニックス信号から、ヘッドフォン再生用のバイノーラル信号を含むすべての所望のスピーカセットアップの信号を生成することができる。これには、線形アンビソニックスレンダラ[3]または方向オーディオコーディング(DirAC)などのパラメトリックレンダラのどちらかを使用する、アンビソニックス信号に適用される特定のレンダラが必要である。
【0005】
アンビソニックス信号を、各チャネル(アンビソニックス成分と呼ばれる)がいわゆる空間基底関数の係数と等価であるマルチチャネル信号として表すことができる。(係数に対応する重みを有する)これらの空間基底関数の加重和を用いて、録音場所における元の音場を再現することができる[3]。したがって、空間基底関数の係数(すなわち、アンビソニックス成分)は、録音場所における音場のコンパクトな記述を表す。様々なタイプの空間基底関数、例えば、球面調和関数(SHs)[3]や円筒調和関数(CHs)[3]が存在する。CHsは、2D空間における音場を記述するときに(例えば、2D音響再生のために)使用することができ、SHsは、2Dおよび3D空間における音場を記述するために(例えば、2Dおよび3D音響再生のために)使用することができる。
【0006】
一例として、特定の方向
から到来するオーディオ信号
は、球面調和関数を切り捨て次数Hまで展開することによってアンビソニックスフォーマットで表すことができる次式の空間オーディオ信号
をもたらし、
式中、
は、次数l、モードmの球面調和関数であり、
は、展開係数である。切り捨て次数Hが増加すると、展開はより正確な空間表現をもたらす。アンビソニックスチャネル番号(Ambisonics Channel Numbering(ACN))インデックスを有する次数H=4までの球面調和関数が、次数n、モードmについて
図1aに示されている。
【0007】
DirACは、1次アンビソニックス信号(Bフォーマットと呼ばれるFOA)から、または異なるマイクロフォン配列から高次アンビソニックス信号を提供するためにすでに拡張された[5]。この文献は、DirACパラメータおよび基準信号から高次アンビソニックス信号を合成するための、より効率的な方法に焦点を当てている。この文献では、基準信号は、ダウンミックス信号とも呼ばれ、高次アンビソニックス信号のサブセットまたはアンビソニックス成分のサブセットの線形結合とみなされる。
【0008】
DirAC解析では、DirACの空間パラメータがオーディオ入力信号から推定される。当初、DirACは、例えばBフォーマットマイクロフォンから得ることができる1次アンビソニックス(first-order Ambisonics(FOA))入力用に開発されたが、他の入力信号も十分に可能である。DirAC合成では、空間再現のための出力信号、例えばスピーカ信号は、DirACパラメータおよび関連付けられたオーディオ信号から計算される。合成のためだけに無指向性オーディオ信号を使用するための、またはFOA信号全体を使用するための解決策が記載されている[Pulkki07]。あるいは、4つのFOA信号成分のサブセットのみを合成に使用することもできる。
【0009】
空間音を効率的に表現するので、DirACは空間オーディオコーディングシステムの基礎としてもよく適している。そのようなシステムの目的は、低ビットレートで空間オーディオシーンをコード化し、伝送後に元のオーディオシーンを可能な限り忠実に再現することができることである。この場合、DirAC解析の後に空間メタデータ符号器が続き、空間メタデータ符号器は、低ビットレートのパラメトリック表現を得るためにDirACパラメータを量子化および符号化する。メタデータと共に、元のオーディオ入力信号から導出されたダウンミックス信号が、従来のオーディオコアコーダによる伝送のためにコード化される。ダウンミックス信号のコード化には、例えば、EVSベースのオーディオコーダを採用することができる。ダウンミックス信号は、トランスポートチャネルと呼ばれる異なるチャネルからなる。ダウンミックス信号は、例えば、目標ビットレートに応じて、Bフォーマット信号(すなわち、FOA)、ステレオペア、またはモノラルダウンミックスを構成する4つの係数信号とすることができる。コード化された空間パラメータおよびコード化されたオーディオビットストリームは、伝送前に多重化される。
【0010】
コンテキスト:DirACベースの空間オーディオコーダのシステム概要
以下では、没入型音声オーディオサービス(Immersive Voice and Audio Services(IVAS))用に設計されたDirACに基づく最新技術の空間オーディオコーディングシステムの概要を提示する。そのようなシステムの目的は、オーディオシーンを表す様々な空間オーディオフォーマットを処理し、それらを低ビットレートでコード化し、伝送後に元のオーディオシーンを可能な限り忠実に再現することができることである。
【0011】
システムは、オーディオシーンの様々な表現を入力として受け入れることができる。入力オーディオシーンを、異なるスピーカ位置で再生されることを意図されたマルチチャネル信号によって、経時的にオブジェクトの位置を記述するメタデータを伴う聴覚オブジェクトによって、または聴取者もしくは基準位置における音場を表す1次アンビソニックスフォーマットもしくは高次アンビソニックスフォーマットによって表すことができる。
【0012】
この解決策は、モバイルネットワーク上で会話サービスを可能にするために低レイテンシで動作することが期待されているので、システムは、3GPP(登録商標)拡張音声サービス(Enhanced Voice Service(EVS))に基づくものであることが好ましい。
【0013】
様々なオーディオフォーマットをサポートするDirACベースの空間オーディオコーディングの符号器側が
図1bに示されている。音響/電気入力1000は符号器インターフェース1010に入力され、符号器インターフェースは、1013に示される1次アンビソニックス(FOA)または高次アンビソニックス(high order Ambisonics(HOA))のための特定の機能を有する。さらに、符号器インターフェースは、ステレオデータ、5.1データ、または2又は5よりも多いチャネルを有するデータなどのマルチチャネル(MC)データのための機能を有する。さらに、符号器インターフェース1010は、例えば、1011に示されるオーディオオブジェクトとしてのオブジェクトコーディングのための機能を有する。IVAS符号器は、DirAC解析ブロック1021とダウンミックス(DMX)ブロック1022とを有するDirAC段1020を備える。ブロック1022によって出力された信号は、AACやEVS符号器などのIVASコア符号器1040によって符号化され、ブロック1021によって生成されたメタデータは、DirACメタデータ符号器1030を使用して符号化される。
【0014】
図1bは、様々なオーディオフォーマットをサポートするDirACベースの空間オーディオコーディングの符号器側を示している。
図1bに示されるように、符号器(IVAS符号器)は、システムに別々にまたは同時に提示される異なるオーディオフォーマットをサポートすることができる。オーディオ信号は、マイクロフォンによって拾われる音響的な性質であり得るか、または、スピーカに伝送されることになっている、電気的な性質であり得る。サポートされるオーディオフォーマットは、マルチチャネル信号(MC)、1次アンビソニックスおよび高次アンビソニックス(FOA/HOA)成分、ならびにオーディオオブジェクトであり得る。異なる入力フォーマットを組み合わせることによって複雑なオーディオシーンを記述することもできる。すべてのオーディオフォーマットは次いでDirAC解析に伝送され、DirAC解析は完全なオーディオシーンのパラメトリック表現を抽出する。時間周波数単位ごとに測定された到来方向(DOA)および拡散度は、空間パラメータを形成するか、またはより大きなパラメータセットの一部である。DirAC解析の後に空間メタデータ符号器が続き、空間メタデータ符号器は、低ビットレートのパラメトリック表現を得るためにDirACパラメータを量子化および符号化する。
【0015】
記載のチャネルベース、HOAベース、およびオブジェクトベースの入力フォーマットに加えて、IVAS符号器は、空間メタデータおよび/または方向メタデータからなる空間音のパラメトリック表現、ならびに1つまたは複数の関連付けられたオーディオ入力信号から構成される空間音のパラメトリック表現を受け取り得る。メタデータは、例えば、DirACメタデータ、すなわち音のDOAおよび拡散度に対応し得る。メタデータはまた、関連付けられたエネルギー尺度、距離もしくは位置値、または音場のコヒーレンスに関連する尺度を有する複数のDOAなどの追加の空間パラメータも含み得る。関連付けられたオーディオ入力信号は、モノラル信号、1次もしくは高次のアンビソニックス信号、X/Yステレオ信号、A/Bステレオ信号、または様々な指向性パターンおよび/もしくは相互間隔を有するマイクロフォンによる録音から得られる信号の任意の他の結合から構成され得る。
【0016】
パラメトリック空間オーディオ入力について、IVAS符号器は、入力空間メタデータに基づいて伝送に使用されるDirACパラメータを決定する。
【0017】
パラメータと共に、様々な音源またはオーディオ入力信号から導出されたダウンミックス(DMX)信号が、従来のオーディオコアコーダにより伝送のために符号化される。この場合、ダウンミックス信号を符号化するためにEVSベースのオーディオコーダが採用される。ダウンミックス信号は、トランスポートチャネルと呼ばれる様々なチャネルからなる。信号は、例えば、目標ビットレートに応じて、Bフォーマット信号もしくは1次アンビソニックス(FOA)信号、ステレオペア、またはモノラルダウンミックスを構成する4つの係数信号とすることができる。コード化された空間パラメータおよびコード化されたオーディオビットストリームは、通信チャネル上で伝送される前に多重化される。
【0018】
図2aに、様々なオーディオフォーマットを提供するDirACベースの空間オーディオコーディングの復号器側を示す。
図2aに示される復号器では、トランスポートチャネルはコア復号器によって復号され、DirACメタデータは、復号されたトランスポートチャネルと共にDirAC合成に搬送される前にまず復号される。この段階では、異なる選択肢を考慮することができる。従来のDirACシステム(
図2aのMC)で通常可能であるように、任意のスピーカまたはヘッドフォン構成で直接オーディオシーンを再生することを要求することができる。復号器はまた、符号器側で提示されたように個々のオブジェクトを提供することもできる(
図2aのオブジェクト)。あるいは、シーンの回転、ミラーリング、もしくは移動などのさらなる操作のために、または元のシステムで定義されていない外部レンダラを使用するために、シーンをアンビソニックスフォーマット(
図2aのFOA/HOA)にレンダリングするように要求することもできる。
【0019】
図2aに示される復号器では、トランスポートチャネルはコア復号器によって復号され、DirACメタデータは、復号されたトランスポートチャネルと共にDirAC合成に搬送される前にまず復号される。この段階では、異なる選択肢を考慮することができる。従来のDirACシステム(
図2aのMC)で通常可能であるように、任意のスピーカまたはヘッドフォン構成で直接オーディオシーンを再生することを要求することができる。復号器はまた、符号器側で提示されたように個々のオブジェクトを提供することもできる(
図2aのオブジェクト)。あるいは、シーンの回転、反射、もしくは移動などの他のさらなる操作のために(
図2aのFOA/HOA)、または元のシステムで定義されていない外部レンダラを使用するために、シーンをアンビソニックスフォーマットにレンダリングすることを要求することもできる。
【0020】
様々なオーディオフォーマットを提供するDirAC空間オーディオコーディングの復号器が
図2aに示されており、IVAS復号器1045と、続いて接続される復号器インターフェース1046とを備える。IVAS復号器1045は、
図1bのIVASコア符号器1040によって符号化されたコンテンツの復号操作を行うために構成されたIVASコア復号器1060を備える。さらに、DirACメタデータ符号器1030によって符号化されたコンテンツを復号するための復号機能を提供するDirACメタデータ復号器1050が設けられている。DirAC合成器1070が、ブロック1050およびブロック1060から、何らかのユーザインタラクティビティを使用するかまたは使用せずにデータを受け取り、その出力は、1083に示されるFOA/HOAデータ、ブロック1082に示されるマルチチャネルデータ(MCデータ)、またはブロック1080に示されるオブジェクトデータを生成する復号器インターフェース1046に入力される。
【0021】
DirACパラダイムを使用した従来のHOA合成が
図2bに示されている。ダウンミックス信号と呼ばれる入力信号が、周波数フィルタバンクにより時間周波数解析される。周波数フィルタバンク2000は、複素数値QMFのような複素数値フィルタバンクまたはSTFTのようなブロック変換とすることができる。HOA合成は、出力において、(H+1)
2成分を含む次数Hのアンビソニックス信号を生成する。任意選択で、HOA合成は、特定のスピーカレイアウト上にレンダリングされたアンビソニックス信号を出力することもできる。以下では、場合によっては入力空間パラメータを伴うダウンミックス信号から(H+1)
2成分をどのように取得するかを詳述する。
【0022】
ダウンミックス信号は、元のマイクロフォン信号または元のオーディオシーンを描写する元の信号の混合とすることができる。例えば、オーディオシーンが音場マイクロフォンによって取り込まれる場合、ダウンミックス信号は、シーンの無指向成分(W)、ステレオダウンミックス(L/R)、または1次アンビソニックス信号(FOA)とすることができる。
【0023】
時間周波数タイルごとに、到来方向(DOA)とも呼ばれる音方向と、拡散度係数とが、ダウンミックス信号がそのようなDirACパラメータを決定するのに十分な情報を含む場合に、それぞれ、方向推定器2020と拡散度推定器2010とによって推定される。これは、例えば、ダウンミックス信号が1次アンビソニックス信号(FOA)である場合である。代替として、またはダウンミックス信号がそのようなパラメータを決定するのに十分でない場合、パラメータを、空間パラメータを含む入力ビットストリームを介してDirAC合成に直接搬送することができる。ビットストリームは、例えば、オーディオ伝送用途の場合にサイド情報として受け取られた量子化および符号化されたパラメータからなり得る。この場合、パラメータは、スイッチ2030またはスイッチ2040で示されるように、元のマイクロフォン信号または符号器側のDirAC解析モジュールに与えられた入力オーディオフォーマットからDirAC合成モジュールの外部で導出される。
【0024】
音方向は、指向性利得評価器2050によって、複数の時間周波数タイルの各時間周波数タイルについて、(H+1)
2指向性利得
の1つまたは複数のセットを評価するために使用され、式中、Hは合成アンビソニックス信号の次数である。
【0025】
指向性利得は、合成すべきアンビソニックス信号の所望の次数(レベル)lおよびモードmでの推定される音方向ごとの空間基底関数評価によって得ることができる。音方向は、例えば、単位ノルムベクトル
に関して、または方位角
および/もしくは仰角
に関して表現することができ、これらは、例えば、次式のように関連する。
【0026】
音方向を推定または取得した後、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、例えば、SN3D正規化された実数値の球面調和関数を空間基底関数とみなすことによって決定することができ、
範囲は0≦l≦H、-l≦m≦lである。
は、ルジャンドル関数であり、
は、ルジャンドル関数と三角関数両方の正規化項であり、SN3Dについて次式の形を取り、
式中、クロネッカーのデルタ
は、m=0では1、それ以外では0である。指向性利得は、次いで、次式のようにインデックス(k,n)の時間周波数タイルごとに直接推論される。
【0027】
直接音アンビソニックス成分
は、ダウンミックス信号から基準信号
を導出し、指向性利得および拡散度
の係数関数で乗算されることによって計算される。
【0028】
例えば、基準信号
は、ダウンミックス信号の無指向成分またはダウンミックス信号のKチャネルの線形結合とすることができる。
【0029】
拡散音アンビソニックス成分は、すべての可能な方向から到来する音についての空間基底関数の応答を使用してモデル化することができる。一例が、すべての可能な角度
および
にわたる空間基底関数
の二乗振幅の積分を考慮することによって平均応答
を定義することである。
【0030】
拡散音アンビソニックス成分
は、平均応答および拡散度
の係数関数で乗算した信号
から計算される。
【0031】
信号
は、基準信号
に適用される異なるデコリレータを使用することによって得ることができる。
【0032】
最後に、直接音アンビソニックス成分と拡散音アンビソニックス成分とが、例えば、加算演算によって結合されて2060、時間周波数タイル(k,n)の所望の次数(レベル)lおよびモードmの最終的なアンビソニックス成分
が得られ、すなわち、
である。
【0033】
取得されたアンビソニックス成分は、逆フィルタバンク2080または逆STFTを使用して時間領域に逆変換され、格納され、伝送され、または例えば空間音響再生用途に使用され得る。あるいは、スピーカ信号またはバイノーラル信号を時間領域に変換する前に、特定のスピーカレイアウトでまたはヘッドフォンを介して再生されるべき信号を取得するために、線形アンビソニックスレンダラ2070を周波数帯域ごとに適用することもできる。
【0034】
[Thiergart17]もまた、L<Hの場合、拡散音成分
を次数Lまでしか合成できない可能性を教示していたことに留意されたい。これにより、デコリレータの集約的使用による合成アーチファクトを回避しながら、計算の複雑さが低減される。
【発明の概要】
【発明が解決しようとする課題】
【0035】
本発明の目的は、入力信号から音場記述を生成するための改善された概念を提供することである。
【0036】
最新技術:モノラルダウンミックス信号およびFOAダウンミックス信号のためのDirAC合成
受け取られたDirACベースの空間オーディオコーディングストリームに基づく一般的なDirAC合成について、以下で説明する。DirAC合成によって行われるレンダリングは、復号されたダウンミックスオーディオ信号および復号された空間メタデータに基づくものである。
【0037】
ダウンミックス信号は、DirAC合成の入力信号である。信号は、フィルタバンクによって時間周波数領域に変換される。フィルタバンクは、複素数値QMFのような複素数値フィルタバンクまたはSTFTのようなブロック変換とすることができる。
【0038】
DirACパラメータは、空間パラメータを含む入力ビットストリームを介してDirAC合成に直接搬送することができる。ビットストリームは、例えば、オーディオ伝送用途の場合にサイド情報として受け取られた量子化および符号化されたパラメータからなり得る。
【0039】
スピーカベースの音響再生のためのチャネル信号を決定するために、各スピーカ信号が、ダウンミックス信号およびDirACパラメータに基づいて決定される。第jのスピーカの信号
は、直接音成分と拡散音成分との結合として得られ、すなわち、
である。
【0040】
第jのスピーカチャネルの直接音成分
を、いわゆる基準信号
を拡散度パラメータ
および指向性利得係数
に依存する係数でスケーリングすることによって得ることができ、利得係数は音の到来方向(DOA)に依存し、潜在的に第jのスピーカチャネルの位置にも依存する。音のDOAを、例えば、単位ノルムベクトル
に関して、または方位角
および/もしくは仰角
に関して表現することができ、これらは、例えば、次式のように関連する。
【0041】
指向性利得係数
を、ベクトルベースの振幅パンニング(vector-base amplitude panning(VBAP))[Pulkki97]などの周知の方法を使用して計算することができる。
【0042】
以上を考慮して、直接音成分を、次式で表現することができる。
【0043】
音のDOAおよび拡散度を記述する空間パラメータは、トランスポートチャネルから復号器で推定されるか、またはビットストリームに含まれるパラメトリックメタデータから取得される。
【0044】
拡散音成分
を、次式のように基準信号および拡散度パラメータに基づいて決定することができる。
【0045】
正規化係数
は、再生スピーカ構成に依存する。通常、異なるスピーカチャネル
と関連付けられた拡散音成分はさらに処理され、すなわち、それらは相互に無相関化される。これは、出力チャネルごとの基準信号を無相関化することによっても達成することができ、すなわち、
であり、式中、
は、
の無相関化バージョンを表す。
【0046】
第jの出力チャネルのための基準信号は、伝送されたダウンミックス信号に基づいて取得される。最も単純な場合には、ダウンミックス信号はモノラル無指向性信号(例えば、FOA信号の無指向成分
)からなり、基準信号はすべての出力チャネルについて同一である。
【0047】
トランスポートチャネルがFOA信号の4つの成分に対応する場合、基準信号を、FOA成分の線形結合によって取得することができる。通常は、FOA信号は、第jのチャネルの基準信号が第jのスピーカの方向を指し示す仮想カージオイドマイクロフォン信号に対応するように、結合される[Pulkki07]。
【0048】
DirAC合成は、通常、合成無相関化の必要量、指向性利得係数による非線形処理の程度、または異なるスピーカチャネル間のクロストークの両方を低減することができ、関連付けられるアーチファクトを回避または緩和することができるので、ダウンミックスチャネルの数の増加に対して改善された音響再生品質を提供する。
【0049】
一般に、符号化されたオーディオシーンに多くの異なるトランスポート信号を導入するための直接的な手法は、一方では柔軟性がなく、他方ではビットレートを消費する。通常、1つまたは複数の成分に大きなエネルギー寄与がないため、例えば、1次アンビソニックス信号の4つの成分信号すべてを符号化されたオーディオ信号に導入することがあらゆる場合に必要ではない可能性もある。他方、ビットレート要件は厳しい可能性があり、これにより、空間オーディオ表現を表す符号化されたオーディオ信号に2つよりも多いトランスポートチャネルを導入することが禁止される。そのような厳しいビットレート要件の場合、符号器および復号器が特定の表現を事前に折衝することが必要になり、この事前折衝に基づいて、事前に折衝された方法に基づいて特定の量のトランスポート信号が生成され、次いで、オーディオ復号器は、事前に折衝された知識に基づいて符号化されたオーディオ信号からオーディオシーンを合成することができる。しかしながら、これは、ビットレート要件に関して有用であるが、柔軟性がなく、さらに、事前に折衝された手順は、特定のオーディオピースに最適ではない可能性があるか、またはオーディオピースのすべての周波数帯域もしくはすべての時間フレームに最適ではない可能性があるため、オーディオ品質の著しい低下をもたらす可能性もある。
【0050】
よって、オーディオシーンを表す先行技術の手順は、ビットレート要件に関して最適ではなく、柔軟性がなく、さらに、オーディオ品質の著しい低下をもたらす可能性が高い。
【0051】
本発明の目的は、空間オーディオ表現を符号化し、または符号化されたオーディオ信号を復号するための改善された概念を提供することである。
【課題を解決するための手段】
【0052】
この目的は、請求項1に記載の符号化されたオーディオ信号を復号するための装置、請求項13に記載の符号化されたオーディオ信号を復号するための方法、請求項21に記載のコンピュータプログラムによって達成される。
【0053】
本発明は、空間オーディオ表現から導出されたトランスポート表現に加えて、トランスポート表現の生成に関連する、またはトランスポート表現の1つまたは複数の指向特性を示すトランスポートメタデータを使用することによって、ビットレート、柔軟性、およびオーディオ品質に関する著しい改善が得られるという知見に基づくものである。オーディオシーンを表す空間オーディオ表現を符号化するための装置は、したがって、オーディオシーンからトランスポート表現を生成し、さらに、トランスポート表現の生成に関連する、またはトランスポート表現の1つもしくは複数の指向特性を示す、またはトランスポート表現の生成に関連し、トランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータを生成する。さらに、出力インターフェースが、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む符号化されたオーディオ信号を生成する。
【0054】
復号器側では、符号化されたオーディオ信号を復号するための装置は、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む符号化されたオーディオ信号を受け取るためのインターフェースを備え、空間オーディオ合成器が、次いで、トランスポート表現に関する情報とトランスポートメタデータに関する情報の両方を使用して空間オーディオ表現を合成する。
【0055】
ダウンミックス信号などのトランスポート表現がどのように生成されたかの明示的な指示、および/または追加のトランスポートメタデータによるトランスポート表現の1つまたは複数の指向特性の明示的な指示により、符号器が、一方では良好なオーディオ品質を提供し、他方では小さいビットレート要件を満たす、非常に柔軟な方法で符号化されたオーディオシーンを生成することが可能になる。さらに、トランスポートメタデータによって、符号器が、一方でのビットレート要件と他方での符号化されたオーディオ信号によって表されたオーディオ品質との間の必要な最適バランスを見つけることさえも可能である。よって、明示的なトランスポートメタデータの使用により、符号器が、トランスポート表現を生成する様々な方法を適用し、さらに、オーディオピースからオーディオピースのみならず、あるオーディオフレームから次のオーディオフレーム、または一方の周波数帯域から他方の周波数帯域に1つの同じオーディオフレーム内でトランスポート表現生成を適応させることさえも可能になる。当然ながら、柔軟性は、例えば、同じトランスポート表現を時間フレーム内のすべての周波数ビンに対して生成できるように、または代替として、同じトランスポート表現を、多くのオーディオ時間フレームにわたって1つの同じ周波数帯域に対して生成できるように、または個々のトランスポート表現を、各時間フレームの周波数ビンごとに生成できるように、トランスポート表現を時間/周波数タイルごとに個々に生成することによって得られる。空間オーディオ合成器が、符号器側で何が行われたかを知り、次いで、復号器側で最適な手順を適用することができるように、このすべての情報、すなわち、トランスポート表現を生成する方法、およびトランスポート表現がフルフレームに関連するか、それとも時間/周波数ビンのみに関連するか、それとも多くの時間フレームにわたる特定の周波数帯域に関連するかもまた、トランスポートメタデータに含まれる。
【0056】
好ましくは、特定のトランスポートメタデータ代替案は、オーディオシーンを表す特定の成分セットのどの成分が選択されたかを示す選択情報である。さらなるトランスポートメタデータ代替案は、結合情報、すなわち、空間オーディオ表現の特定の成分信号がトランスポート表現を生成するために結合されたかどうか、および/またはどのように結合されたかに関する。トランスポートメタデータとして有用なさらなる情報は、特定のトランスポート信号またはトランスポートチャネルがどのセクタまたは半球に関連するかを示すセクタ/半球情報に関する。さらに、本発明のコンテキストにおいて有用なメタデータは、好ましくは、トランスポート表現内の複数の異なるトランスポート信号のトランスポート信号として含まれるオーディオ信号の視線方向を示す視線方向情報に関する。他の視線方向情報は、トランスポート表現が、例えば、(空間的に拡張された)マイクロフォン配列内の物理マイクロフォンによって、または同一指向性(coincident directional)マイクロフォンによって録音され得る1つまたは複数のマイクロフォン信号からなる場合の、マイクロフォン視線方向に関し、あるいは、これらのマイクロフォン信号を合成によって生成することもできる。他のトランスポートメタデータは、マイクロフォン信号が無指向性信号であるか、それともカージオイド形状や双極形状などの異なる形状を有するかを示す形状パラメータデータに関する。さらなるトランスポートメタデータは、トランスポート表現内に2つ以上のマイクロフォン信号を有する場合のマイクロフォンの位置に関する。他の有用なトランスポートメタデータは、1つまたは複数のマイクロフォンの向きデータ、2つのマイクロフォン間の距離を示す距離データまたはマイクロフォンの指向性パターンに関する。さらに、追加のトランスポートメタデータは、円形マイクロフォン配列などのマイクロフォン配列の記述もしくは識別、またはそのような円形マイクロフォン配列からのどのマイクロフォン信号がトランスポート表現として選択されたかに関し得る。
【0057】
さらなるトランスポートメタデータは、ビームフォーミング、対応するビームフォーミング重み、または対応するビームの方向に関する情報に関し得、そのような状況では、トランスポート表現は、通常、特定のビーム方向を有する好ましくは合成によって作成された信号からなる。さらなるトランスポートメタデータ代替案は、含まれるトランスポート信号が無指向性マイクロフォン信号であるか、それともカージオイド信号や双極信号などの非無指向性マイクロフォン信号であるかについての純粋な情報に関し得る。
【0058】
よって、様々なトランスポートメタデータ代替案は非常に柔軟であり、追加のトランスポートメタデータが通常、大量の追加のビットレートをもたらさないように非常にコンパクトな方法で表すことができることが明らかになる。代わりに、追加のトランスポートメタデータのビットレート要件は、通常、トランスポート表現の量の1%未満、さらには1/1000未満、またはさらにはそれより小さくてもよい。他方で、しかしながら、この非常に少量の追加のメタデータは、より高い柔軟性をもたらし、同時に、追加の柔軟性に起因して、かつ異なるオーディオピースにわたって、または異なる時間フレームおよび/もしくは周波数ビンにわたる1つの同じオーディオピース内でさえ変化するトランスポート表現を有する可能性に起因して、オーディオ品質の著しい向上をもたらす。
【0059】
好ましくは、符号器は、トランスポート表現およびトランスポートメタデータによってのみ得ることができる品質に優ってオーディオ品質を向上させるために、トランスポート表現およびトランスポートメタデータに加えて、符号化されたオーディオ信号に空間パラメータが含まれるように、空間オーディオ表現から空間パラメータを生成するためのパラメータプロセッサをさらに備える。これらの空間パラメータは、好ましくは、例えばDirACコード化から知られるような、時間および/もしくは周波数に依存する到来方向(DoA)データならびに/または周波数および/もしくは時間に依存する拡散度データである。
【0060】
オーディオ復号器側では、入力インターフェースが、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む符号化されたオーディオ信号を受け取る。さらに、符号化されたオーディオ信号を復号するための装置に設けられた空間オーディオ合成器は、トランスポート表現に関する情報とトランスポートメタデータに関する情報の両方を使用して空間オーディオ表現を合成する。好ましい実施形態では、復号器は、任意選択で伝送された空間パラメータをさらに使用して、トランスポートメタデータに関する情報およびトランスポート表現に関する情報を使用するだけでなく、空間パラメータも使用して、空間オーディオ表現を合成する。
【0061】
符号化されたオーディオ信号を復号するための装置は、トランスポートメタデータを受け取り、受け取られたトランスポートメタデータを解釈またはパースし、次いで、結合器を制御してトランスポート表現信号を結合するか、またはトランスポート表現信号の中から選択するか、または1つもしくは複数の基準信号を生成する。結合器/選択器/基準信号生成器は、次いで、基準信号を、具体的に選択または生成された基準信号から必要な出力成分を計算する成分信号計算器に転送する。好ましい実施形態では、受け取られたトランスポートデータに基づいて、基準信号生成/選択が制御されるだけでなく、実際の成分計算も行われように、空間オーディオ合成器におけるような結合器/選択器/基準信号生成器がトランスポートメタデータによって制御されるだけでなく、成分信号計算器によっても制御される。しかしながら、成分信号計算のみがトランスポートメタデータによって制御されるか、または基準信号生成もしくは選択のみがトランスポートメタデータによって制御される実施形態も有用であり、既存の解決策に優る改善された柔軟性を提供する。
【0062】
異なる信号選択代替案の好ましい手順は、成分信号の第1のサブセットのための基準信号としてトランスポート表現内の複数の信号のうちの1つを選択し、マルチチャネル出力、1次アンビソニックス出力もしくは高次アンビソニックス出力、オーディオオブジェクト出力、またはバイノーラル出力のための成分信号の他方の直交サブセットのためのトランスポート表現内の他方のトランスポート信号を選択することである。他の手順は、トランスポート表現に含まれる個々の信号の線形結合に基づく基準信号の計算に依拠する。特定のトランスポート表現の実施態様に応じて、トランスポートメタデータは、実際に伝送されたトランスポート信号から(仮想)チャネルの基準信号を決定し、伝送または生成された無指向性信号成分などのフォールバックに基づいて欠落している成分を決定するために使用される。これらの手順は、1次または高次アンビソニックス空間オーディオ表現の特定のモードおよび次数に関連する空間基底関数応答を使用した、欠落している、好ましくはFOA成分またはHOA成分の計算に依拠する。
【0063】
他の実施形態は、トランスポート表現に含まれるマイクロフォン信号を記述するトランスポートメタデータに関し、伝送された形状パラメータおよび/または視線方向に基づいて、基準信号決定が受け取られたトランスポートメタデータに適合される。さらに、無指向性信号または双極信号の計算および残りの成分の追加の合成も、例えば、第1のトランスポートチャネルが左または前のカージオイド信号であり、第2のトランスポート信号が右または後のカージオイド信号であることを示すトランスポートメタデータに基づいて行われる。
【0064】
さらなる手順は、特定のスピーカから特定のマイクロフォン位置までの最小距離に基づく基準信号の決定、または最も近い視線方向もしくは最も近いビームフォーマもしくは特定の最も近い配列位置を有するトランスポート表現に含まれるマイクロフォン信号の基準信号としての選択に関する。さらなる手順は、すべての直接音成分の基準信号として任意のトランスポート信号の選択、および拡散音基準信号の生成のための間隔を置いて配置されたマイクロフォンからの伝送された無指向性信号などのすべての利用可能なトランスポート信号の使用であり、対応する成分が、次いで、直接成分と拡散成分とを加算して、最終チャネルまたはアンビソニックス成分またはオブジェクト信号またはバイノーラルチャネル信号を得ることによって生成される。特定の基準信号に基づく実際の成分信号の計算において特に実施されるさらなる手順は、特定のマイクロフォン距離に基づく相関量の設定(好ましくは制限)に関する。
【0065】
続いて添付の図面を参照して本発明の好ましい実施形態を開示する。
【図面の簡単な説明】
【0066】
【
図1a】アンビソニックスチャネル/成分番号を有する球面調和関数を示す図である。
【
図1b】DirACベースの空間オーディオコーディングプロセッサの符号器側を示す図である。
【
図2a】DirACベースの空間オーディオコーディングプロセッサの復号器を示す図である。
【
図2b】当技術分野から知られる高次アンビソニックス合成プロセッサを示す図である。
【
図3】様々なオーディオフォーマットをサポートするDirACベースの空間オーディオコーディングの符号器側を示す図である。
【
図4】様々なオーディオフォーマットを提供するDirACベースの空間オーディオコーディングの復号器側を示す図である。
【
図5】空間オーディオ表現を符号化するための装置のさらなる実施形態を示す図である。
【
図6】空間オーディオ表現を符号化するための装置のさらなる実施形態を示す図である。
【
図7】符号化されたオーディオ信号を復号するための装置のさらなる実施形態を示す図である。
【
図8a】互いに個別に、または互いに一緒に使用可能なトランスポート表現生成器の1組の実施態様を示す図である。
【
図8b】互いに個別に、または互いに一緒に使用可能な様々なトランスポートメタデータ代替案を示すテーブルを示す図である。
【
図8c】トランスポートメタデータ、または適切な場合には空間パラメータのためのメタデータ符号器のさらなる実施態様を示す図である。
【
図9a】
図7の空間オーディオ合成器の好ましい実施態様を示す図である。
【
図9b】n個のトランスポート信号、トランスポートメタデータ、および任意選択の空間パラメータを有するトランスポート表現を有する符号化されたオーディオ信号を示す図である。
【
図9c】スピーカ識別およびトランスポートメタデータに応じた基準信号選択器/生成器の機能を示すテーブルを示す図である。
【
図9d】空間オーディオ合成器のさらなる実施形態を示す図である。
【
図9e】様々なトランスポートメタデータを示すさらなるテーブルを示す図である。
【
図9f】空間オーディオ合成器のさらなる実施態様を示す図である。
【
図9g】空間オーディオ合成器のさらなる実施形態を示す図である。
【
図9h】互いに個別に、または互いに一緒に使用可能な空間オーディオ合成器のさらなる1組の実施代替案を示す図である。
【
図10】直接信号および拡散信号を使用して低次または中次の音場成分を計算するための例示的な好ましい実施態様を示す図である。
【
図11】拡散成分なしで直接成分のみを使用した高次音場成分の計算のさらなる実施態様を示す図である。
【
図12】拡散部分と結合された直接部分を使用した(仮想)スピーカ信号成分またはオブジェクトの計算のさらなる実施態様を示す図である。
【発明を実施するための形態】
【0067】
図6に、オーディオシーンを表す空間オーディオ表現を符号化するための装置を示す。この装置は、空間オーディオ表現からトランスポート表現を生成するためのトランスポート表現生成器600を備える。さらに、トランスポート表現生成器600は、トランスポート表現の生成に関連する、またはトランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータを生成する。装置は、符号化されたオーディオ信号を生成するための出力インターフェース640をさらに備え、符号化されたオーディオ信号は、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む。トランスポート表現生成器600および出力インターフェース640に加えて、装置は、好ましくは、ユーザインターフェース650とパラメータプロセッサ620とを備える。パラメータプロセッサ620は、空間オーディオ表現から空間パラメータを導出するように構成され、好ましくは(符号化された)空間パラメータ612を提供する。さらに、(符号化された)空間パラメータ612に加えて、(符号化された)トランスポートメタデータ610および(符号化された)トランスポート表現611が、好ましくは3つの符号化された項目を符号化されたオーディオ信号に多重化するために出力インターフェース640に転送される。
【0068】
図7に、符号化されたオーディオ信号を復号するための装置の好ましい実施態様を示す。符号化されたオーディオ信号は入力インターフェース700に入力され、入力インターフェースは、符号化されたオーディオ信号内で、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を受け取る。トランスポート表現711は、入力インターフェース700から空間オーディオ合成器750に転送される。さらに、空間オーディオ合成器750は、入力インターフェースからトランスポートメタデータ710を受け取り、符号化されたオーディオ信号に含まれる場合、好ましくは、空間パラメータ712をさらに受け取る。空間オーディオ合成器750は、空間オーディオ表現を合成するために、項目710、項目711、好ましくはさらに項目712を使用する。
【0069】
図3は、
図3に空間オーディオ信号として示される空間オーディオ表現を符号化するための装置の好ましい実施態様を示す。特に、空間オーディオ信号は、ダウンミックス生成ブロック601および空間オーディオ解析ブロック621に入力される。空間オーディオ信号から空間オーディオ解析ブロック621から導出された空間パラメータ615は、メタデータ符号器622に入力される。さらに、ダウンミックス生成ブロック601によって生成されたダウンミックスパラメータ613もメタデータ符号器603に入力される。
図3ではメタデータ符号器622とメタデータ符号器603の両方が単一のブロックとして示されているが、別々のブロックとして実施することもできる。ダウンミックスオーディオ信号614は、コア符号器603に入力され、コア符号化表現611は、符号化されたダウンミックスパラメータ610および符号化された空間パラメータ612をさらに受け取るビットストリーム生成器641に入力される。よって、
図6に示されるトランスポート表現生成器600は、
図3の実施形態では、ダウンミックス生成ブロック601およびコア符号器ブロック603を備える。さらに、
図6に示されるパラメータプロセッサ620は、空間パラメータ615のための空間オーディオ解析器ブロック621およびメタデータ符号器ブロック622を備える。さらに、
図6のトランスポート表現生成器600は、メタデータ符号器603によって符号化されたトランスポートメタデータ610として出力されるトランスポートメタデータ630のためのメタデータ符号器ブロック603をさらに備える。出力インターフェース640は、
図3の実施形態では、ビットストリーム生成器641として実施される。
【0070】
図4に、符号化されたオーディオ信号を復号するための装置の好ましい実施態様を示す。特に、この装置は、メタデータ復号器752とコア復号器751とを備える。メタデータ復号器752は、入力として、符号化されたトランスポートメタデータ710を受け取り、コア復号器751は、符号化されたトランスポート表現711を受け取る。さらに、メタデータ復号器752は、好ましくは、利用可能な場合、符号化された空間パラメータ712を受け取る。メタデータ復号器は、トランスポートメタデータ710を復号してダウンミックスパラメータ720を取得し、メタデータ復号器752は、好ましくは、符号化された空間パラメータ712を復号して復号された空間パラメータ722を取得する。復号されたトランスポート表現またはダウンミックスオーディオ表現721は、トランスポートメタデータ720と共に空間オーディオ合成ブロック753に入力され、さらに、空間オーディオ合成ブロック753は、2つの成分721および720または3つすべての成分721、720および722を使用して、
図4に示されるような1次もしくは高次(FOA/HOA)表現754を含むか、またはマルチチャネル(MC)表現755を含むか、またはオブジェクト表現(オブジェクト)756を含む空間オーディオ表現を生成するために、空間パラメータ722を受け取り得る。よって、
図7に示される符号化されたオーディオ信号を復号するための装置は、空間オーディオ合成器750内に、
図4のブロック752、ブロック751およびブロック753を備え、空間オーディオ表現は、
図4の754、755および756に示される代替案のうちの1つを備え得る。
【0071】
図5に、オーディオシーンを表す空間オーディオ表現を符号化するための装置のさらなる実施態様を示す。ここで、オーディオシーンを表す空間オーディオ表現は、マイクロフォン信号、好ましくは、マイクロフォン信号と関連付けられた追加の空間パラメータとして提供される。よって、
図6に関して論じたトランスポート表現600は、
図5の実施形態では、ダウンミックス生成ブロック601、ダウンミックスパラメータ613のためのメタデータ符号器603、およびダウンミックスオーディオ表現のためのコア符号器602を含む。
図3の実施形態とは対照的に、マイクロフォン入力が、好ましくは分離された形で、一方でのマイクロフォン信号と、他方での空間パラメータとをすでに有しているので、符号化するための装置には空間オーディオ解析器ブロック621が含まれない。
【0072】
図3から
図5に関して論じた実施形態では、ダウンミックスオーディオ614はトランスポート表現を表し、ダウンミックスパラメータ613は、トランスポート表現の生成に関連するか、または、後述するように、トランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータの代替物を表す。
【0073】
本発明の好ましい実施形態:柔軟なトランスポートチャネル構成のためのダウンミックスシグナリング
いくつかの用途では、ビットレート制限によりFOA信号の4つの成分すべてをトランスポートチャネルとして伝送することは不可能であるが、信号成分またはチャネルの数が低減されたダウンミックス信号のみを伝送することは可能である。復号器における改善された再現品質を達成するために、伝送されたダウンミックス信号の生成を、時変的な方法で行うことができ、空間オーディオ入力信号に適応させることができる。空間オーディオコーディングシステムが柔軟なダウンミックス信号を含むことを可能にする場合、これらのトランスポートチャネルを伝送するだけでなく、ダウンミックス信号の重要な空間特性を指定するメタデータをさらに含むことが重要である。空間オーディオコーディングシステムの復号器に位置するDirAC合成は、その場合、ダウンミックス信号の空間特性を考慮して最適な方法でレンダリングプロセスを適応させることができる。本発明は、したがって、空間オーディオ復号器におけるレンダリング品質を改善するために、ダウンミックストランスポートチャネルの重要な空間特性を指定または記述するために使用されるダウンミックス関連メタデータをパラメトリック空間オーディオコーディングストリームに含めることを提案する。
【0074】
以下で、実際のダウンミックス信号構成の実例について説明する。
【0075】
入力された空間オーディオ信号が水平面内の音響エネルギーを主に含む場合、無指向性信号、デカルト座標系のx軸に整列した双極信号およびy軸に整列した双極信号に対応するFOA信号の最初の3つの信号成分のみがダウンミックス信号に含められ、z軸に整列した双極信号は除外される。
【0076】
別の例では、トランスポートチャネルに必要なビットレートをさらに低減させるために、2つのダウンミックス信号のみが伝送され得る。例えば、左半球から発生する優勢な音響エネルギーがある場合、主に左方向からの音響エネルギーを含むダウンミックスチャネルと、主に反対方向、すなわち、この例では右半球から発生する音を含む追加のダウンミックスチャネルとを含むダウンミックスチャネルを生成することが有利である。これは、結果として得られる信号が、それぞれ、左右を指し示すカージオイド指向性パターンを有する指向性マイクロフォン信号に対応するようなFOA信号成分の線形結合によって達成することができる。同様に、FOA入力信号を適切に結合することによって、前方と後方とをそれぞれの指し示す1次指向性パターン、または任意の他の所望の指向性パターンに対応するダウンミックス信号を生成することもできる。
【0077】
DirAC合成段では、伝送された空間メタデータ(例えば、音のDOAおよび拡散度)とオーディオトランスポートチャネルとに基づくスピーカ出力チャネルの計算は、実際に使用されるダウンミックス構成に適合されなければならない。より具体的には、第jのスピーカの基準信号
の最適な選択は、ダウンミックス信号の指向特性および第jのスピーカの位置に依存する。
【0078】
例えば、ダウンミックス信号が、それぞれ左と右とを指し示す2つのカージオイドマイクロフォン信号に対応する場合、左半球に位置するスピーカの基準信号は、基準信号
として左を指し示すカージオイド信号だけを使用すべきである。中央に位置するスピーカは、代わりに両方のダウンミックス信号の線形結合を使用し得る。
【0079】
他方、ダウンミックス信号が、それぞれ前方と後方とを指し示す2つのカージオイドマイクロフォン信号に対応する場合、前半球に位置するスピーカの基準信号は、基準信号
として前を指し示すカージオイド信号だけを使用すべきである。
【0080】
DirAC合成がレンダリングのための基準信号として誤ったダウンミックス信号を使用する場合、空間オーディオ品質の著しい劣化が予期されざるを得ないことに留意することは重要である。例えば、左を指し示すカージオイドマイクロフォンに対応するダウンミックス信号が、右半球に位置するスピーカの出力チャネル信号を生成するために使用される場合、入力音場の左半球から発生する信号成分は、再生システムの右半球に主に向けられ、出力の誤った空間像をもたらすことになる。
【0081】
したがって、対応する指向性マイクロフォン信号の指向性パターンなどのダウンミックス信号の空間特性を指定するパラメトリック情報を空間オーディオコーディングストリームに含めることが好ましい。空間オーディオコーディングシステムの復号器に位置するDirAC合成は、その場合、ダウンミックス関連のメタデータに記載されているようにダウンミックス信号の空間特性を考慮して最適な方法でレンダリングプロセスを適応させることができる。
【0082】
アンビソニックス成分選択を使用したFOAおよびHOAオーディオ入力のための柔軟なダウンミックス
この実施形態では、空間オーディオ信号、すなわち符号器へのオーディオ入力信号は、FOA(1次アンビソニックス)またはHOA(高次アンビソニックス)オーディオ信号に対応する。符号器及び復号器に対応するブロックスキームが
図3、
図4に夫々示されている。符号器への入力は、空間オーディオ信号、例えば、FOA信号またはHOA信号である。「空間オーディオ解析」ブロックでは、DirACパラメータ、すなわち、空間パラメータ(例えば、DOAや拡散度)が前述のように推定される。提案の柔軟なダウンミックスのダウンミックス信号は、「ダウンミックス生成」ブロックにおいて生成され、これについては以下でより詳細に説明する。生成されたダウンミックス信号は
と呼ばれ、式中、mはダウンミックスチャネルのインデックスである。生成されたダウンミックス信号は、次いで、例えば、前述のようにEVSベースのオーディオコーダを使用して、「コア符号器」ブロックで符号化される。ダウンミックスパラメータ、すなわち、ダウンミックスがどのように作成されたかに関する関連情報またはダウンミックス信号の他の指向特性を記述するパラメータは、空間パラメータと共にメタデータ符号器で符号化される。最後に、符号化されたメタデータおよび符号化されたダウンミックス信号はビットストリームに変換され、これを復号器に伝送することができる。
【0083】
以下では、「ダウンミックス生成」ブロックおよびダウンミックスパラメータについてより詳細に説明する。例えば、入力された空間オーディオ信号が水平面内の音響エネルギーを主に含む場合、無指向性信号
、デカルト座標系のx軸に整列した双極信号
およびy軸に整列した双極信号
に対応するFOA/HOA信号の3つの信号成分のみがダウンミックス信号に含められ、z軸に整列した双極信号
(および、存在する場合、他のすべての高次成分)は除外される。これは、ダウンミックス信号が、次式で与えられることを意味する。
【0084】
あるいは、例えば、入力された空間オーディオ信号がxz平面内の音響エネルギーを主に含む場合、ダウンミックス信号は、
の代わりに双極信号
を含む。
【0085】
この実施形態では、
図3に示されるダウンミックスパラメータは、どのFOA/HOA成分がダウンミックス信号に含められたかの情報を含む。この情報は、例えば、選択されたFOA成分のインデックスに対応する整数のセットであり得る。例えば、
、
、および
の各成分が含まれる場合には{1,2,4}である。
【0086】
ダウンミックス信号のためのFOA/HOA成分の選択は、例えば、手動ユーザ入力に基づいて、または自動的に行うことができることに留意されたい。例えば、空間オーディオ入力信号が空港の滑走路で記録された場合、大部分の音響エネルギーは特定の垂直デカルト平面に含まれると仮定することができる。この場合、例えば、
、
および
の各成分が選択される。対照的に、記録が横断歩道で行われた場合、大部分の音響エネルギーが水平デカルト平面に含まれると仮定することができる。この場合、例えば、
、
および
の各成分が選択される。あるいは、例えば、ビデオカメラがオーディオ録音と共に使用される場合、顔認識アルゴリズムを使用して話者がどのデカルト平面内に位置するかを検出することができ、したがって、この平面に対応するFOA成分をダウンミックスのために選択することができる。あるいは、最新技術の音源定位アルゴリズムを使用することによって、最高のエネルギーを有するデカルト座標系の平面を決定することもできる。
【0087】
また、FOA/HOA成分選択および対応するダウンミックスメタデータは、時間および周波数に依存することができ、例えば、異なる成分およびインデックスのセットが、それぞれ、(例えば、時間周波数点ごとの最高のエネルギーを有するデカルト平面を自動的に決定することによって)各周波数帯域および時間インスタンスに自動的に選択され得ることにも留意されたい。直接音響エネルギーの定位を、例えば、時間周波数に依存する空間パラメータに含まれる情報を利用することによって行うことができる[Thiergart09]。
【0088】
この実施形態に対応する復号器ブロックスキームが
図4に示されている。復号器への入力は、符号化されたメタデータおよび符号化されたダウンミックスオーディオ信号を含むビットストリームである。ダウンミックスオーディオ信号は「コア復号器」で復号され、メタデータは「メタデータ復号器」で復号される。復号されたメタデータは、空間パラメータ(例えば、DOAや拡散度)およびダウンミックスパラメータからなる。復号されたダウンミックスオーディオ信号および空間パラメータは、「空間オーディオ合成」ブロックにおいて所望の空間オーディオ出力信号を作成するために使用され、空間オーディオ出力信号は、例えば、FOA/HOA信号、マルチチャネル(MC)信号(例えば、スピーカ信号)、オーディオオブジェクト、またはヘッドフォン再生用のバイノーラルステレオ出力であり得る。空間オーディオ合成は、以下で説明するように、ダウンミックスパラメータによってさらに制御される。
【0089】
前述の空間オーディオ合成(DirAC合成)は、各出力チャネルjに適した基準信号
を必要とする。本発明では、追加のダウンミックスメタデータを使用してダウンミックス信号
から
を計算することが提案される。この実施形態では、ダウンミックス信号
は、FOA信号またはHOA信号の具体的に選択された成分からなり、ダウンミックスメタデータは、どのFOA/HOA成分が復号器に伝送されたかを記述する。
【0090】
スピーカ(すなわち、復号器のMC出力)にレンダリングする場合、[Pulkki07]で説明されているように、スピーカチャネルごとに、対応するスピーカに向けられたいわゆる仮想マイクロフォン信号を計算するときに高品質の出力を達成することができる。通常、仮想マイクロフォン信号を計算するには、DirAC合成ですべてのFOA/HOA成分が利用できる必要がある。しかしながら、この実施形態では、復号器において元のFOA/HOA成分のサブセットのみが利用可能である。この場合、仮想マイクロフォン信号を、ダウンミックスメタデータによって示されるように、FOA/HOA成分が利用可能なデカルト平面についてのみ計算することができる。例えば、ダウンミックスメタデータが、
、
、および
の各成分が伝送されたことを示す場合、xy平面(水平面)内のすべてのスピーカの仮想マイクロフォン信号を計算することができ、計算は[Pulkki07]に記載されているように行うことができる。水平面外の高置スピーカについては、基準信号
にフォールバックソリューションを使用することができ、例えば、無指向成分
を使用することができる。
【0091】
例えば、ヘッドフォン再生のために、バイノーラルステレオ出力にレンダリングするときに同様の概念を使用できることに留意されたい。この場合、2つの出力チャネル用の2つの仮想マイクロフォンは仮想ステレオスピーカに向けられ、スピーカの位置は聴取者の頭部の向きに依存する。仮想スピーカが、ダウンミックスメタデータによって示されるように、FOA/HOA成分が伝送されたデカルト平面内に位置する場合、対応する仮想マイクロフォン信号を計算することができる。そうでない場合は、基準信号
、例えば無指向成分
に対してフォールバックソリューションが使用される。
【0092】
FOA/HOA(
図4の復号器のFOA/HOA出力)にレンダリングするとき、ダウンミックスメタデータは以下のように使用される。ダウンミックスメタデータは、どのFOA/HOA成分が伝送されたかを示す。これらの成分は、伝送された成分を復号器出力で直接使用することができるので、空間オーディオ合成で計算される必要がない。残りのすべてのFOA/HOA成分は、空間音合成において、例えば、無指向成分
を基準信号
として使用することによって計算される。空間メタデータを使用した無指向成分
からのFOA/HOA成分の合成は、例えば、[Thiergart17]に記載されている。
【0093】
結合されたアンビソニックス成分を使用したFOAおよびHOAオーディオ入力のための柔軟なダウンミックス
この実施形態では、空間オーディオ信号、すなわち符号器へのオーディオ入力信号は、FOA(1次アンビソニックス)またはHOA(高次アンビソニックス)オーディオ信号に対応する。符号器の対応するブロックスキームが
図3および
図4にそれぞれ示されている。この実施形態では、トランスポートチャネルに必要なビットレートをさらに低減させるために、2つのダウンミックス信号のみが符号器から復号器に伝送され得る。例えば、左半球から発生する優勢な音響エネルギーがある場合、主に左半球からの音響エネルギーを含むダウンミックスチャネルと、主に反対方向、すなわち、この例では右半球から発生する音を含む追加のダウンミックスチャネルとを含むダウンミックスチャネルを生成することが有利である。これは、結果として得られる信号が、例えば、それぞれ、左半球と右半球とを指し示すカージオイド指向性パターンを有する指向性マイクロフォン信号に対応するようなFOAオーディオ入力信号成分またはHOAオーディオ入力信号成分の線形結合によって達成することができる。同様に、FOAオーディオ入力信号またはHOAオーディオ入力信号をそれぞれ適切に結合することによって、前方と後方とをそれぞれの指し示す1次(もしくは高次)指向性パターン、または任意の他の所望の指向性パターンに対応するダウンミックス信号を生成することもできる。
【0094】
ダウンミックス信号は、
図3の「ダウンミックス生成」ブロックの符号器で生成される。ダウンミックス信号は、FOA信号成分またはHOA信号成分の線形結合から得られる。例えば、FOAオーディオ入力信号の場合、4つのFOA信号成分は、無指向性信号
、ならびに、指向性パターンがデカルト座標系のx軸、y軸、z軸と整列している3つの双極信号
、
および
に対応する。これらの4つの信号は、一般に、Bフォーマット信号と呼ばれる。結果として得られる指向性パターンは、4つのBフォーマット成分の線形結合によって得ることができ、通常は、1次指向性パターンと呼ばれる。1次指向性パターンまたは対応する信号を、様々な方法で表現することができる。例えば、第mのダウンミックス信号
を、関連付けられた重みを有するBフォーマット信号の線形結合、すなわち、
で表現することができる。
【0095】
HOAオーディオ入力信号の場合は、線形結合を、利用可能なHOA係数を使用して同様に行うことができることに留意されたい。線形結合の重み、すなわちこの例では重み
、
、
および
は、結果として得られる指向性マイクロフォン信号、すなわち第mのダウンミックス信号
の指向性パターンを決定する。FOAオーディオ入力信号の場合、線形結合の所望の重みを、以下のように計算することができる。
式中、
である。
【0096】
式中、
は、いわゆる1次パラメータまたは形状パラメータであり、
および
は、生成された第mの指向性マイクロフォン信号の視線方向の所望の方位角および仰角である。例えば、
の場合、カージオイド指向性を有する指向性マイクロフォンが達成され、
は無指向特性に対応し、
は双極特性に対応する。言い換えると、パラメータ
は、1次指向性パターンの一般的な形状を記述する。
【0097】
線形結合の重み、例えば、
、
、
および
、または対応するパラメータ
、
および
は、対応する指向性マイクロフォン信号の指向性パターンを記述する。この情報は、
図3の符号器のダウンミックスパラメータによって表され、メタデータの一部として復号器に伝送される。
【0098】
ビットストリームにおいてダウンミックスパラメータを効率的に表すために、方向情報の量子化、または、テーブルがすべての関連パラメータを含む、インデックスによるテーブルエントリの参照を含めて、様々な符号化戦略を使用することができる。
【0099】
いくつかの実施形態では、視線方向
および
ならびに形状パラメータ
に対して限られた数のプリセットのみを使用することで、すでに十分またはより効率的である。これは自明に、重み
、
、
および
にも限られた数のプリセットを使用することに相当する。例えば、形状パラメータを、無指向特性、カージオイド特性、および双極特性の3つの異なる指向性パターンのみを表すように制限することができる。可能な視線方向
および
の数を、それらが左、右、前、後、上、および下の場合のみを表すように制限することができる。
【0100】
さらに単純な別の実施形態では、形状パラメータは固定されたままであり、カージオイドパターンに常に対応するか、または形状パラメータはまったく定義されない。視線方向と関連付けられたダウンミックスパラメータは、復号器におけるレンダリングプロセスが、左半球、右半球、または前半球に位置する特定のスピーカチャネルをレンダリングするための基準信号として最適なダウンミックスチャネルを使用することができるように、ダウンミックスチャネルの対が左/右チャネル対構成に対応するか、それとも前/後チャネル対構成に対応するかを示すために使用される。
【0101】
実際の用途では、パラメータ
を、例えば手動で定義することができる(典型的には
)。視線方向
および
を、(例えば、最新技術の音源定位法を使用してアクティブな音源を定位し、第1のダウンミックス信号を定位された音源に向け、第2のダウンミックス信号を反対方向に向けることによって)自動的に設定することができる。
【0102】
前の実施形態と同様に、ダウンミックスパラメータを時間周波数依存とすることができること、すなわち、(例えば、ダウンミックス信号を各周波数帯域で別々に定位されたアクティブな音源方向に応じて向けるときに)時間および周波数ごとに異なるダウンミックス構成が使用され得ることに留意されたい。定位を、例えば、時間周波数に依存する空間パラメータに含まれる情報を利用することによって行うことができる[Thiergart09]。
【0103】
図4の復号器の「空間オーディオ合成」段では、前述のように伝送された空間パラメータ(音のDOAや拡散度)およびダウンミックスオーディオチャネル
を使用する、復号器出力信号(FOA/HOA出力、MC出力、またはオブジェクト出力)の計算は、ダウンミックスメタデータによって指定される実際に使用されたダウンミックス構成に適合されなければならない。
【0104】
例えば、スピーカ出力チャネル(MC出力)を生成する場合、基準信号
の計算は、実際に使用されたダウンミックス構成に適合されなければならない。より具体的には、第jのスピーカの基準信号
の最適な選択は、ダウンミックス信号の指向特性(例えば、その視線方向)および第jのスピーカの位置に依存する。例えば、ダウンミックスメタデータが、ダウンミックス信号が、それぞれ左と右とを指し示す2つのカージオイドマイクロフォン信号に対応することを示す場合、左半球に位置するスピーカの基準信号は、基準信号
として左を指し示すカージオイドダウンミックス信号を主に、またはそれだけを使用すべきである。中央に位置するスピーカは、代わりに両方のダウンミックス信号の線形結合(例えば、2つのダウンミックス信号の和)を使用し得る。他方、ダウンミックス信号が、それぞれ前方と後方とを指し示す2つのカージオイドマイクロフォン信号に対応する場合、前半球に位置するスピーカの基準信号は、基準信号
として前を指し示すカージオイド信号を主に、またはそれだけを使用すべきである。
【0105】
図4の復号器でFOA出力またはHOA出力を生成するとき、基準信号
の計算も、ダウンミックスメタデータによって記述される、実際に使用されたダウンミックス構成に適合されなければならない。例えば、ダウンミックスメタデータが、ダウンミックス信号が、それぞれ左と右とを指し示す2つのカージオイドマイクロフォン信号に対応することを示す場合、第1のFOA成分(無指向成分)を合成するための基準信号
を、2つのカージオイドダウンミックス信号の和、すなわち、
として計算することができる。
【0106】
実際、反対の視線方向を有する2つのカージオイド信号の和が無指向性信号をもたらすことが知られている。この場合、
は、所望のFOA出力信号またはHOA出力信号の第1の成分を直接もたらし、すなわち、この成分にはそれ以上の空間音合成は必要とされない。同様に、第3のFOA成分(y方向の双極成分)を、2つのカージオイドダウンミックス信号の差、すなわち、
として計算することができる。
【0107】
実際、反対の視線方向を有する2つのカージオイド信号の差が双極信号をもたらすことが知られている。この場合、
は、所望のFOA出力信号またはHOA出力信号の第3の成分を直接もたらし、すなわち、この成分にはそれ以上の空間音合成は必要とされない。残りのすべてのFOA成分またはHOA成分は、すべての方向からのオーディオ情報を含む無指向性基準信号から合成され得る。これは、この例では、残りのFOA成分またはHOA成分の合成に2つのダウンミックス信号の和が使用されることを意味する。ダウンミックスメタデータが2つのオーディオダウンミックス信号の異なる指向性を示す場合、基準信号
の計算をそれに応じて調整することができる。例えば、2つのカージオイドオーディオダウンミックス信号が(左右ではなく)前後に向けられている場合、2つのダウンミックス信号の差を使用して、第3のFOA成分の代わりに第2のFOA成分(x方向の双極成分)を生成することができる。一般には、上記の例で示されるように、最適な基準信号
を、受け取られたダウンミックスオーディオ信号の線形結合、すなわち、
によって見つけることができ、式中、線形結合の重み
および
は、ダウンミックスメタデータに、すなわち、トランスポートチャネル構成および(例えば、第jのスピーカにレンダリングするときの)考慮された第jの基準信号に依存する。
【0108】
空間メタデータを使用した無指向成分からのFOA成分またはHOA成分の合成は、例えば、[Thiergart17]に記載されていることに留意されたい。
【0109】
一般に、空間オーディオ合成がレンダリングのための基準信号として誤ったダウンミックス信号を使用する場合、空間オーディオ品質の著しい劣化が予期されざるを得ないことに留意することは重要である。例えば、左を指し示すカージオイドマイクロフォンに対応するダウンミックス信号が、右半球に位置するスピーカの出力チャネル信号を生成するために使用される場合、入力音場の左半球から発生する信号成分は、再生システムの右半球に主に向けられ、出力の誤った空間像をもたらすことになる。
【0110】
パラメトリック空間オーディオ入力のための柔軟なダウンミックス
この実施形態では、符号器への入力は、いわゆるパラメトリック空間オーディオ入力信号に対応し、パラメトリック空間オーディオ入力信号は、2つ以上のマイクロフォンからなる任意の配列構成のオーディオ信号を、空間音の空間パラメータ(例えば、DOAや拡散度)と共に含む。
【0111】
この実施形態の符号器が
図5に示されている。マイクロフォン配列の信号は、「ダウンミックス生成」ブロックにおいて1つまたは複数のオーディオダウンミックス信号を生成するために使用される。トランスポートチャネル構成(例えば、ダウンミックス信号がどのように計算されたか、またはその特性の一部)を記述するダウンミックスパラメータは、空間パラメータと共に、「メタデータ符号器」ブロックで符号化される符号器メタデータを表す。通常、空間パラメータは符号器への入力としてすでに提供されているので、(前の実施形態とは対照的に)パラメトリック空間オーディオ入力に空間オーディオ解析ステップは必要とされないことに留意されたい。ただし、パラメトリック空間オーディオ入力信号の空間パラメータと、空間オーディオ符号器によって生成された伝送用のビットストリームに含まれる空間パラメータとは、同一である必要はないことに留意されたい。この場合、入力空間パラメータと、伝送に使用されるパラメータと、のトランスコーディングまたはマッピングが、符号器で行われなければならない。ダウンミックスオーディオ信号は、例えば、EVSベースのオーディオコーデックを使用して、「コア符号器」ブロックで符号化される。符号化されたオーディオダウンミックス信号および符号化されたメタデータは、復号器に伝送されるビットストリームを形成する。復号器については、
図4の同じブロックスキームが前の実施形態についてと同様に適用される。
【0112】
以下では、オーディオダウンミックス信号および対応するダウンミックスメタデータをどのように生成することができるかについて説明する。
【0113】
第1の例では、オーディオダウンミックス信号は、利用可能な入力マイクロフォン信号のサブセットを選択することによって生成される。選択は、手動で(例えば、プリセットに基づいて)、または自動的に行うことができる。例えば、M個の間隔を置いて配置された無指向性マイクロフォンを有する均一な円形配列のマイクロフォン信号が空間オーディオ符号器への入力として使用され、2つのオーディオダウンミックストランスポートチャネルが伝送に使用される場合、手動選択は、例えば、配列の前と後とのマイクロフォンに対応する信号対、または配列の左側と右側とのマイクロフォンに対応する信号対を選択することからなり得る。前後のマイクロフォンをダウンミックス信号として選択することにより、復号器で空間音を合成するときに前からの音と後からの音とを良好に区別することが可能になる。同様に、左右のマイクロフォンを選択することにより、復号器側で空間音をレンダリングするときにy軸に沿った空間音を良好に区別することが可能になる。例えば、録音された音源がマイクロフォン配列の左側に位置する場合、左右のマイクロフォンそれぞれへの音源の信号の到達時間には差がある。言い換えると、信号はまず左のマイクロフォンに到達し、次いで右のマイクロフォンに到達する。復号器におけるレンダリングプロセスでは、したがって、左半球に位置するスピーカにレンダリングするために左のマイクロフォン信号と関連付けられたダウンミックス信号を使用し、同様に、右半球に位置するスピーカにレンダリングするために右のマイクロフォン信号と関連付けられたダウンミックス信号を使用することも重要である。そうしないと、左と右のダウンミックス信号にそれぞれ含まれる時間差が、スピーカに不正確に向けられることになり、スピーカ信号によって生じる結果として生じる知覚キューも不正確になり、すなわち、聴取者によって知覚される空間音像も不正確になる。同様に、最適なレンダリング品質を達成するために、復号器において、前後または上下に対応するダウンミックスチャネルを区別できることも重要である。
【0114】
適切なマイクロフォン信号の選択は、音響エネルギーの大部分を含む、または大部分の関連する音響エネルギーを含むと予想されるデカルト平面を考慮することによって行うことができる。自動選択を実行するために、例えば最新技術の音源定位を行い、次いで音源方向に対応する軸に最も近い2つのマイクロフォンを選択することができる。例えば、マイクロフォン配列が、間隔を置いて配置された無指向性マイクロフォンの代わりにM個の同一指向性(coincident directional)マイクロフォン(例えば、カージオイド)からなる場合に、同様の概念を適用することができる。この場合、大部分の音響エネルギーを含む(または含むと予想される)デカルト軸の方向および反対方向に向けられた2つの指向性マイクロフォンを選択することができる。
【0115】
この第1の例では、ダウンミックスメタデータは、選択されたマイクロフォンに関する関連情報を含む。この情報は、例えば(例えば、デカルト座標系における絶対座標もしくは相対座標としての)選択されたマイクロフォンのマイクロフォン位置および/またはマイクロフォン間の距離および/または(例えば、極座標系における座標としての、すなわち、方位角
および仰角
としての)向きを含むことができる。さらに、ダウンミックスメタデータは、例えば、前述の1次パラメータ
を使用することによって、選択されたマイクロフォンの指向性パターンに関する情報を含むこともできる。
【0116】
復号器側(
図4)では、最適なレンダリング品質を得るために、「空間オーディオ合成」ブロックでダウンミックスメタデータが使用される。例えば、スピーカ出力(MC出力)では、ダウンミックスメタデータが、2つの特定の位置にある2つの無指向性マイクロフォンがダウンミックス信号として伝送されたことを示す場合、前述のようにスピーカ信号がそこから生成される基準信号
を、第jのスピーカ位置までの最小距離を有するダウンミックス信号に対応するように選択することができる。同様に、ダウンミックスメタデータが、視線方向
を有する2つの指向性マイクロフォンが伝送されたことを示す場合、スピーカ位置に向かう最も近い視線方向を有するダウンミックス信号に対応するように
を選択することができる。あるいは、第2の実施形態で説明したように、伝送された同一指向性(coincident directional)ダウンミックス信号の線形結合を行うこともできる。
【0117】
復号器でFOA/HOA出力を生成するとき、ダウンミックスメタデータが、間隔を置いて配置された無指向性マイクロフォンが伝送されたことを示す場合、すべてのFOA/HOA成分の直接音を生成するために単一のダウンミックス信号が(任意に)選択され得る。実際、各無指向性マイクロフォンは、無指向特性により、再生されるべき直接音に関する同じ情報を含む。しかしながら、拡散音基準信号
を生成するために、伝送されたすべての無指向性ダウンミックス信号を考慮することができる。実際、音場が拡散である場合、間隔を置いて配置された無指向性ダウンミックス信号は、相互に無相関の基準信号
を生成するための無相関化がより少なくて済むように部分的に無相関化される。相互に無相関の基準信号は、例えば、[Vilkamo13]で提案された共分散ベースのレンダリング手法を使用することによって、伝送されたダウンミックスオーディオ信号から生成することができる。
【0118】
拡散音場における2つのマイクロフォンの信号間の相関は、マイクロフォン間の距離に強く依存することは周知であり、マイクロフォンの距離が大きいほど、拡散音場における記録される信号の相関は小さくなる[Laitinen11]。ダウンミックスパラメータに含まれるマイクロフォン距離に関連する情報を復号器において使用して、拡散音成分をレンダリングするのに適切であるようにするために、ダウンミックスチャネルがどれだけ合成的に無相関化されなければならないかを決定することができる。ダウンミックス信号が十分に大きいマイクロフォン間隔のためにすでに十分に無相関化されている場合、人工的な無相関化は破棄されてもよく、無相関化に関連するアーチファクトを回避することができる。
【0119】
ダウンミックスメタデータが、例えば、同一指向性(coincident directional)マイクロフォン信号がダウンミックス信号として伝送されたことを示す場合には、次いで第2の実施形態で説明したように、FOA/HOA出力のための基準信号
を生成することができる。
【0120】
符号器においてダウンミックスオーディオ信号としてマイクロフォンのサブセットを選択する代わりに、すべての利用可能なマイクロフォン入力信号(例えば、2つ以上)をダウンミックスオーディオ信号として選択することもできることに留意されたい。この場合、ダウンミックスメタデータは、マイクロフォン配列構成全体を、例えば、デカルトマイクロフォン位置、極座標のマイクロフォン視線方向
および
、または1次パラメータ
に関するマイクロフォン指向性として記述する。
【0121】
第2の例では、ダウンミックスオーディオ信号は、「ダウンミックス生成」ブロック内の符号器において、入力マイクロフォン信号の線形結合を使用して、例えば、空間フィルタリング(ビームフォーミング)を使用して生成される。この場合、ダウンミックス信号
を、次式として計算することができる。
【0122】
式中、
は、すべての入力マイクロフォン信号を含むベクトルであり、
は、線形結合の重み、すなわち、第mのオーディオダウンミックス信号についての、空間フィルタまたはビームフォーマの重みである。空間フィルタまたはビームフォーマを最適な方法で計算する様々な方法がある[Veen88]。多くの場合、ビームフォーマが向けられる視線方向
が定義される。次いで、ビームフォーマの重みを、例えば、遅延和ビームフォーマまたはMVDRビームフォーマとして計算することができる[Veen88]。この実施形態では、ビームフォーマの視線方向
は、オーディオダウンミックス信号ごとに定義される。これを、第2の実施形態で説明したのと同じ方法で、手動で(例えば、プリセットに基づいて)または自動的に行うことができる。異なるオーディオダウンミックス信号を表すビームフォーマ信号の視線方向
は、その場合、
図4の復号器に伝送されるダウンミックスメタデータを表すことができる。
【0123】
別の例は、復号器でスピーカ出力(MC出力)を使用する場合に特に適する。この場合、そのダウンミックス信号
は、そのビームフォーマの視線方向がスピーカ方向に最も近い
として使用される。必要なビームフォーマの視線方向は、ダウンミックスメタデータによって記述される。
【0124】
すべての例において、トランスポートチャネル構成、すなわちダウンミックスパラメータを、前の実施形態と同様に、例えば空間パラメータに基づいて、時間周波数に依存して調整することができることに留意されたい。
【0125】
続いて、本発明のさらなる実施形態またはすでに前に説明された実施形態について、同じ態様または追加の態様またはさらなる態様に関して論じる。
【0126】
好ましくは、
図6のトランスポート表現生成器600は、
図8aに示される特徴のうちの1つまたは複数を含む。特に、ブロック602を制御するエネルギー位置決定器606が設けられる。ブロック602は、入力がFOA信号またはHOA信号であるときにアンビソニックス係数信号から選択するための選択器を備え得る。代替的または追加的に、エネルギー位置決定器606は、アンビソニックス係数信号を結合するための結合器も制御する。追加的または代替的に、マルチチャネル表現またはマイクロフォン信号からの選択も行われる。この場合、入力は、FOAデータまたはHOAデータではなく、マイクロフォン信号またはマルチチャネル表現を有する。追加的または代替的に、
図8aの602に示されるように、チャネル結合またはマイクロフォン信号の結合も行われる。下の2つの代替案では、マルチチャネル表現またはマイクロフォン信号が入力される。
【0127】
ブロック602のうちの1つまたは複数によって生成されたトランスポートデータは、(符号化された)トランスポートメタデータ610を生成するために、
図6のトランスポート表現生成器600に含まれるトランスポートメタデータ生成器605に入力される。
【0128】
ブロック602のいずれも、好ましくは、その後に
図3または
図5に示されるようなコア符号器603によってさらに符号化される、符号化されていないトランスポート表現614を生成する。
【0129】
トランスポート表現生成器600の実際の実施態様は、
図8aのブロック602のうちの単一のブロックのみ、または
図8aに示されるブロックのうちの2つ以上を含み得ることを概説する。後者の場合、トランスポートメタデータ生成器605は、トランスポートメタデータ610に、項目602に示される代替案のいずれかが空間オーディオ表現のどの(時間および/または周波数)部分のために取られたかを示すさらなるトランスポートメタデータ項目をさらに含めるように構成される。よって、
図8aは、代替案602のうちの1つのみがアクティブである状況、または2つ以上がアクティブであり、トランスポート表現の生成またはダウンミキシングおよび対応するトランスポートメタデータについての異なる代替案の間で信号に依存した切り替えを行うことができる状況を示している。
【0130】
図8bに、
図6のトランスポート表現生成器600が生成でき、
図7の空間オーディオ合成器が使用できる様々なトランスポートメタデータ代替案のテーブルを示す。トランスポートメタデータ代替案は、オーディオ入力データ成分のセットのどのサブセットがトランスポート表現として選択されたかを示すメタデータの選択情報を含む。一例が、例えば、4つのFOA成分のうちの2つまたは3つのみが選択されたことである。あるいは、選択情報は、マイクロフォン信号配列のどのマイクロフォン信号が選択されたかを示していてもよい。
図8bのさらなる代替案は、特定のオーディオ表現入力成分または信号がどのように結合されたかを示す結合情報である。特定の結合情報は、線形結合の重み、または、どのチャネルが、例えば等しい重みもしくは事前定義された重みで結合されたかに言及し得る。さらなる情報は、特定のトランスポート信号と関連付けられたセクタまたは半球情報に言及する。半球情報のセクタは、聴取位置に対する左セクタもしくは右セクタ、または前セクタもしくは後セクタ、あるいは180°セクタよりも小さいセクタを指し得る。
【0131】
さらなる実施形態は、例えば、対応するトランスポート表現信号を生成する特定の物理マイクロフォンまたは仮想マイクロフォンの指向性の形状に言及する形状パラメータを示すトランスポートメタデータに関する。形状パラメータは、無指向性マイクロフォン信号形状またはカージオイドマイクロフォン信号形状または双極マイクロフォン信号形状または任意の他の関連する形状を示し得る。さらなるトランスポートメタデータ代替案は、マイクロフォンの位置、マイクロフォンの向き、マイクロフォン間の距離、または、例えば、(符号化された)トランスポート表現614に含まれるトランスポート表現信号を生成または記録したマイクロフォンの指向性パターンに関する。さらなる実施形態は、トランスポート表現に含まれる信号の視線方向もしくは複数の視線方向、またはビームフォーミング重みもしくはビームフォーマの方向に関するか、または、代替的もしくは追加的に、含まれるマイクロフォン信号が無指向性マイクロフォン信号かそれともカージオイドマイクロフォン信号かそれとも他の信号かに関連した情報に関する。(ビットレートに関する)非常に小さいトランスポートメタデータサイド情報を、単に、トランスポート信号が無指向性マイクロフォンからのマイクロフォン信号か、それとも無指向性マイクロフォンとは異なる任意の他のマイクロフォンからのマイクロフォン信号かを示す単一のフラグを含めることによって生成することができる。
【0132】
図8cに、トランスポートメタデータ生成器605の好ましい実施態様を示す。特に、数値トランスポートメタデータについて、トランスポートメタデータ生成器は、トランスポートメタデータ量子化器605aまたは622と、続いて接続されるトランスポートメタデータエントロピー符号器605bとを備える。
図8cに示される手順は、パラメトリックメタデータ、特に空間パラメータにも適用することができる。
【0133】
図9aに、
図7の空間オーディオ合成器750の好ましい実施態様を示す。空間オーディオ合成器750は、(復号された)トランスポートメタデータ710を解釈するためのトランスポートメタデータパーサを備える。ブロック752からの出力データは、
図7の入力インターフェース700から得られたトランスポート表現に含まれるトランスポート信号711をさらに受け取る、結合器/選択器/基準信号生成器760に導入される。トランスポートメタデータに基づき、結合器/選択器/基準信号生成器は、1つまたは複数の基準信号を生成し、これらの基準信号を、マルチチャネル出力のための一般的な成分、FOA出力またはHOA出力のためのアンビソニックス成分、バイノーラル表現のための左右のチャネル、またはオーディオオブジェクト成分がモノラルオブジェクト信号もしくはステレオオブジェクト信号である場合のオーディオオブジェクト成分などの、合成された空間オーディオ表現の成分を計算する成分信号計算器770に転送する。
【0134】
図9bに、例えば、項目611で示されるn個のトランスポート信号T1、T2、T
nからなり、さらに、トランスポートメタデータ610および任意選択の空間パラメータ612からなる符号化されたオーディオ信号を示す。異なるデータブロックの順序および他のデータブロックに対する特定のデータブロックのサイズは、
図9bには概略的にのみ示されている。
【0135】
図9cに、特定のトランスポートメタデータ、特定のトランスポート表現、および特定のスピーカセットアップのための結合器/選択器/基準信号生成器760の手順の概要テーブルを示す。特に、
図9cの実施形態では、トランスポート表現は、左トランスポート信号(または前トランスポート信号または無指向性もしくはカージオイド信号)を含み、トランスポート表現は、例えば、右トランスポート信号(または、後トランスポート信号、無指向性トランスポート信号、またはカージオイドトランスポート信号)である第2のトランスポート信号T2をさらに含む。左/右の場合、左スピーカA用の基準信号は第1のトランスポート信号T1として選択され、右スピーカ用の基準信号はトランスポート信号T2として選択される。左サラウンドおよび右サラウンドについては、左信号および右信号は、対応するチャネルについてテーブル771に示されるように選択される。中央チャネルについては、左トランスポート信号T1と右トランスポート信号T2との和が、合成された空間オーディオ表現の中央チャネル成分の基準信号として選択される。
【0136】
図9cには、第1のトランスポート信号T1が前トランスポート信号であり、第2のトランスポート信号T2が右トランスポート信号である場合のさらなる選択が示されている。その場合、第1のトランスポート信号T1が、左、右、中央に選択され第2のトランスポート信号T2が、左サラウンドおよび右サラウンドに選択される。
【0137】
図9dに、
図7の空間オーディオ合成器のさらなる好ましい実施態様を示す。ブロック910で、トランスポートまたはダウンミックスデータが、特定の1次アンビソニックスまたは高次アンビソニックスの選択に関して計算される。
図9dには、例えば、4つの異なる選択代替案が示されており、第4の代替案では、その他の代替案では、無指向成分である第3の成分ではなく、2つのトランスポート信号T1、T2のみが選択される。
【0138】
(仮想)チャネルの基準信号は、トランスポートダウンミックスデータに基づいて決定され、フォールバック手順が、欠落している成分、すなわち、
図9dの例に関する第4の成分に、または第4の例の場合の2つの欠落した成分に使用される。次いで、ブロック912で、トランスポートデータから受け取られ、または導出された方向パラメータを使用してチャネル信号が生成される。よって、方向パラメータまたは空間パラメータを、
図7の712に示されるように追加的に受け取ることができるか、またはトランスポート表現信号の信号解析によってトランスポート表現から導出することができる。
【0139】
代替の実施態様では、ブロック913に示されるようにFOA成分としての成分の選択が行われ、
図9dの項目914に示されるように、空間基底関数応答を使用して欠落している成分の計算が行われる。空間基底関数応答を使用する特定の手順が
図10のブロック410に示されており、
図10では、ブロック826が拡散部分の平均応答を提供し、
図10のブロック410が直接信号部分のモードmおよび次数lごとの特定の応答を提供する。
【0140】
図9eに、形状パラメータまたは、形状パラメータに加えてもしくは形状パラメータの代替として視線方向を特に含む特定のトランスポートメタデータを示すさらなるテーブルを示す。形状パラメータは、1、0.5または0である形状係数c
mを含み得る。係数c
M=1はマイクロフォン録音特性の無指向性形状を示し、係数0.5はカージオイド形状を示し、値0は双極形状を示す。
【0141】
さらに、様々な視線方向は、左、右、前、後、上、下、方位角φおよび仰角θからなる特定の到来方向を含むことができ、または代替として、短いメタデータは、トランスポート表現内の信号対が左/右対もしくは前/後対を含むという指示を含む。
【0142】
図9fには、空間オーディオ合成器のさらなる実施態様が示されており、ブロック910で、トランスポートメタデータが、例えば、
図7の入力インターフェース700または空間オーディオ合成器750の入力ポートによって行われるように読み取られる。ブロック950で、基準信号の決定が、例えばブロック760によって行われるように、読み取られたトランスポートメタデータに適合される。次いで、ブロック916で、マルチチャネル、FOA/HOA、オブジェクトまたはバイノーラル出力、および、特に、これらの種類のデータ出力のための特定の成分が、ブロック915を介して得られた基準信号と、利用可能であれば、任意選択で伝送されたパラメトリックデータ712とを使用して計算される。
【0143】
図9gに、結合器/選択器/基準信号生成器760のさらな実施態様を示す。トランスポートメタデータが、例えば、第1のトランスポート信号T1が左カージオイド信号であり、第2のトランスポート信号T2が右カージオイド信号であることを示す場合には、次いでブロック920で、T1とT2とを加算することによって無指向性信号が計算される。ブロック921で示されるように、T1とT2との差またはT2とT1との差を得ることによって、双極信号Yが計算される。次いで、ブロック922で、残りの成分が、基準として無指向性信号を使用して合成される。ブロック922で基準として使用される無指向性信号は、好ましくはブロック920の出力である。さらに、項目712に示されるように、FOA成分やHOA成分などの残りの成分を合成するために、任意選択の空間パラメータも使用することができる。
【0144】
図9hに、ブロック930に示されるように、2つ以上のマイクロフォン信号がトランスポート表現として受け取られ、関連付けられたトランスポートメタデータも受け取られるときに、空間オーディオ合成器または結合器/選択器/基準信号生成器760が行うことができる手順の様々な代替案のさらなる実施態様を示す。ブロック931に示されるように、特定の、例えばスピーカ位置までの最小距離を有するトランスポート信号の、ある信号成分の基準信号としての選択を行うことができる。ブロック932に示されるさらなる代替案は、特定のスピーカの基準信号としての最も近い視線方向を有する、または特定のスピーカもしくは、例えば、バイノーラル表現の左/右などの仮想音源に対する最も近いビームフォーマもしくは誤差位置を有するマイクロフォン信号の選択を含む。ブロック933に示されるさらなる代替案は、FOA成分またはHOA成分の計算のためやスピーカ信号の計算のためなど、すべての直接音成分の基準信号として任意のトランスポート信号を選択することである。934に示されるさらなる代替案は、拡散音基準信号を計算するための無指向性信号などのすべての利用可能なトランスポート信号の使用に言及している。さらなる代替案は、トランスポートメタデータに含まれるマイクロフォン距離に基づいて成分信号を計算するための相関量の設定または制限に関する。
【0145】
代替案931から代替案935のうちの1つまたは複数を行うためには、選択的マイクロフォンのマイクロフォン位置、マイクロフォン間距離、c
Mなどのマイクロフォンの向きまたは指向性パターン、配列記述、ビームフォーミング係数w
mまたは実際の到来方向または、例えば、トランスポートチャネルごとの方位角φおよび仰角θを有する音方向を含むものとして
図9hの右側に示されているいくつかの関連付けられたトランスポートメタデータが有用である。
【0146】
図10に、直接/拡散手順のための低次または中次成分生成器の好ましい実施態様を示す。特に、低次または中次成分生成器は、入力信号を受け取り、入力信号がモノラル信号の場合にはコピーもしくはそのまま取得することによって、または前述のような、もしくはその教示全体が参照による本明細書に組み込まれる国際公報第2017/157803(A1)号パンフレットに示されているような、計算によって入力信号から基準信号を導出することによって基準信号を生成する、好ましくは、トランスポートメタデータによって制御される基準信号生成器821を備える。
【0147】
さらに、
図10は、特定のDOA情報(φ、θ)と、特定のモード数mおよび特定の次数lとから、指向性利得G
l
mを計算するように構成された指向性利得計算器410を示している。処理がk,nで参照される個々のタイルごとに時間/周波数領域で行われる好ましい実施形態では、指向性利得は、そのような時間/周波数タイルごとに計算される。重み付け器820は、基準信号および特定の時間/周波数タイルの拡散度データを受け取り、重み付け器820の結果は直接部分である。拡散部分は、特定の時間フレームおよび周波数ビンの拡散度値Ψを受け取り、特に、必要なモードmおよび必要な次数lを入力として受け取る平均応答提供器826によって生成された、D
lで示される特定のモードmおよび次数lへの平均応答を受け取る、無相関化フィルタ823および後続の重み付け器824によって行われる処理によって生成される。
【0148】
重み付け器824の結果は拡散部分であり、拡散部分は、特定のモードmおよび特定の次数lの特定の中次音場成分を得るために、加算器825によって直接部分に加算される。
図6に関して論じられた拡散補償利得を、ブロック823によって生成された拡散部分にのみ適用することが好ましい。これを、(拡散)重み付け器によって行われる手順内で有利に行うことができる。よって、
図10に示されるように、完全な合成を受けない高次成分によって被る拡散エネルギーの損失を補償するために、信号内の拡散部分のみが強化される。
【0149】
直接部分のみの生成が、高次成分生成器について
図11に示されている。基本的に、高次成分生成器は、直接分岐に関して低次または中次成分生成器と同じ方法で実施されるが、ブロック823、ブロック824、ブロック825およびブロック826を含まない。よって、高次成分生成器のみが、指向性利得計算器410から入力データを受け取り、基準信号生成器821から基準信号を受け取る(直接)重み付け器822を備える。好ましくは、高次成分生成器および低次または中次成分生成器の単一の基準信号のみが生成される。しかしながら、場合によっては両方のブロックが個々の基準信号生成器を有することもできる。とはいえ、単一の基準信号生成器のみを有することが好ましい。よって、高次成分生成器によって行われる処理は、時間/周波数タイルについての特定の拡散度情報Ψを有する特定の指向性利得G
l
mを有する単一の重み付け方向のみが行われることになるので、きわめて効率的である。よって、高次音場成分をきわめて効率的かつ迅速に生成することができ、拡散成分の非生成または出力信号における拡散成分の非使用に起因する誤差が、低次音場成分または好ましくは中次音場成分の拡散部分のみを強化することによって容易に補償される。
図11に示される手順を、低次または中次成分生成にも使用することができる。
【0150】
図10は、よって、拡散部分を有する低次または中次の音場成分の生成を示しており、
図11は、高次音場成分、または、一般に、拡散部分を必要としないか、もしくは受け取らない成分を計算する手順を示している。
【0151】
しかしながら、特にFOA表現またはHOA表現のための音場成分を生成する際に、拡散部分を有する
図10の手順または拡散部分を有しない
図11の手順のどちらかを適用することができる。基準信号生成器821、760は、トランスポートメタデータによって
図10および
図11の両方の手順で制御される。さらに、重み付け器822は、空間基底関数応答G
l
nによってのみならず、好ましくは拡散度パラメータ712、722などの空間パラメータによっても制御される。さらに、好ましい実施形態では、拡散部分の重み付け器824もまた、トランスポートメタデータによって、特にマイクロフォン距離によって制御される。マイクロフォン距離Dと重み係数Wとの間の特定の関係が、
図10の概略図に示されている。距離Dが大きいと重み係数が小さくなり、距離が小さいと重み係数が大きくなる。よって、互いまで大きい距離を有するトランスポート信号表現に含まれる2つのマイクロフォン信号がある場合、両方のマイクロフォン信号がすでに完全に無相関化されていると仮定することができ、したがって、無相関化フィルタの出力を、最終的に、加算器825に入力される信号が、直接重み付け器822から加算器に入力される信号と比較して非常に小さくなるように、ゼロに近い重み係数で重み付けすることができる。極端な場合には、相関分岐をオフに切り替えることさえでき、これは、例えば、重みW=0を設定することによって達成することができる。当然ながら、閾値演算などによって計算されるスイッチを使用することによって拡散分岐をオフに切り替える他の方法もある。
【0152】
当然ながら、
図10に示される成分生成を、重み付け器804の制御なしでトランスポートメタデータによって基準信号生成器821、760を制御するだけで、あるいは、ブロック821、760の基準信号生成制御なしで重み付け器804を制御するだけで行うこともできる。
【0153】
図11に、拡散分岐が欠落しており、したがって、
図10の拡散重み付け器824の制御も行われない状況を示す。
【0154】
図10および
図12は、無相関化フィルタ823および重み付け器824を備える特定の拡散信号生成器830を示している。当然ながら重み付け器824と無相関化フィルタ823との間の信号処理の順番を入れ替えて、基準信号生成器821、760によって生成または出力された基準信号の重み付けが、信号が無相関化フィルタ823に入力される前に行われるようにすることもできる。
【0155】
図10は、FOAやHOAなどの音場成分表現、すなわち、球形または円筒形の成分信号を有する表現の低次または中次の音場成分の生成を示しているが、
図12は、スピーカ成分信号またはオブジェクトの計算のための代替的または一般的な実施態様を示している。特に、スピーカ信号/オブジェクトの生成および計算のために、
図9aのブロック760に対応する基準信号生成器821、760が設けられる。さらに、
図9aに示される成分信号計算器770は、直接分岐には、重み付け器822を備え、拡散分岐には、無相関化フィルタ823と重み付け器824とを備える拡散信号生成器830を備える。さらに、
図9aの成分信号計算器770は、直接信号P
dirと拡散信号P
diffとの加算を行う加算器825をさらに備える。加算器の出力は、例示的な参照番号755、756で示されるように、(仮想)スピーカ信号またはオブジェクト信号またはバイノーラル信号である。特に、基準信号生成器821、760はトランスポートメタデータ710によって制御され、拡散重み付け器824もトランスポートメタデータ710によって制御することができる。一般に、成分信号計算器は、例えばVBAP(virtual base amplitude panning(仮想ベース振幅パンニング))利得などのパンニング利得を使用して、直接部分を計算する。利得は、到来方向情報から導出され、好ましくは方位角φおよび仰角θで与えられる。これにより、直接部分P
dirが得られる。
【0156】
さらに、基準信号計算器によって生成された基準信号P
refは、無相関化基準信号を得るために無相関化フィルタ823に入力され、次いで信号は、好ましくは拡散度パラメータを使用して、また好ましくはトランスポートメタデータ710から取得されたマイクロフォン距離を使用して重み付けされる。重み付け器824の出力は拡散成分P
diffであり、加算器825は直接成分と拡散成分とを加算して、対応する表現のための特定のスピーカ信号またはオブジェクト信号またはバイノーラルチャネルを得る。特に、仮想スピーカ信号が計算されるとき、トランスポートメタデータに応答して基準信号計算器821、760によって行われる手順を、
図9cに示されるように行うことができる。あるいは、基準信号を、定義された聴取位置から特定のスピーカを指すチャネルとして生成することもでき、基準信号のこの計算を、トランスポート表現に含まれる信号の線形結合を使用して行うことができる。
【0157】
本発明の好ましい実施形態の一覧
FOAベースの入力
・空間オーディオシーン符号器
・空間オーディオシーン(例えばFOA成分)を表す空間オーディオ入力信号を受け取る
・少なくとも1つの方向パラメータを含む空間オーディオパラメータを生成するか、または受け取る
・受け取られたオーディオ入力信号に基づいてダウンミックスオーディオ信号を生成する(オプション:適応ダウンミックス生成のために空間オーディオパラメータも使用する)。
・ダウンミックス信号の指向特性を記述するダウンミックスパラメータを生成する(例えば、ダウンミックス係数や指向性パターン)。
・ダウンミックス信号、空間オーディオパラメータおよびダウンミックスパラメータを符号化する。
【0158】
・空間オーディオシーン復号器
・ダウンミックスオーディオ信号、空間オーディオパラメータ、およびダウンミックスパラメータを含む符号化された空間オーディオシーンを受け取る
・ダウンミックスオーディオ信号、空間オーディオパラメータおよびダウンミックス/トランスポートチャネルパラメータを復号する
・ダウンミックスオーディオ信号、空間オーディオパラメータおよびダウンミックス(位置)パラメータに基づいて復号された表現を空間的にレンダリングするための空間オーディオレンダラ。
【0159】
間隔を置いたマイクロフォンの録音および関連付けられた空間メタデータに基づく入力(パラメトリック空間オーディオ入力):
・空間オーディオシーン符号器
・記録されたマイクロフォン信号から生成された少なくとも2つの空間オーディオ入力信号を生成するか、または受け取る
・少なくとも1つの方向パラメータを含む空間オーディオパラメータを生成するか、または受け取る
・記録されたマイクロフォン信号から生成された空間オーディオ入力信号の幾何学的または位置的特性(例えば、マイクロフォンの相対位置または絶対位置やマイクロフォン間の間隔)を記述する位置パラメータを生成するか、または受け取る。
・空間オーディオ入力信号、または空間オーディオ入力信号、空間オーディオパラメータ、および位置パラメータから導出されたダウンミックス信号を符号化する。
【0160】
・空間オーディオシーン復号器
・少なくとも2つのオーディオ信号、空間オーディオパラメータ、および(オーディオ信号の位置特性に関連する)位置パラメータを含む符号化された空間オーディオシーンを受け取る。
・オーディオ信号、空間オーディオパラメータおよび位置パラメータを復号する
・オーディオ信号、空間オーディオパラメータおよび位置パラメータに基づいて復号された表現を空間的にレンダリングするための空間オーディオレンダラ。
【0161】
いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈で説明された態様も、対応する装置の対応するブロックまたは項目または特徴を表している。
【0162】
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで実施することができる。実施態様は、それぞれの方法が行われるようにプログラマブルコンピュータシステムと協働する(または協働することができる)、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。
【0163】
本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの1つが行われるように、プログラマブルコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0164】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの1つを行うように動作する。プログラムコードは、例えば、機械可読キャリアに格納され得る。
【0165】
他の実施形態は、機械可読キャリアまたは非一時的な記憶媒体に格納された、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを含む。
【0166】
言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの1つを行うためのプログラムコードを有するコンピュータプログラムである。
【0167】
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムが記録されているデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
【0168】
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
【0169】
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。
【0170】
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。
【0171】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載される方法のうちの1つを行うためにマイクロプロセッサと協働し得る。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって行われる。
【0172】
上述した実施形態は、本発明の原理の単なる例示である。当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、差し迫る特許請求の範囲によってのみ限定されることが意図されている。
【0173】
参考文献
[Pulkki07] V.Pulkki,’’Spatial Sound Reproduction with Directional Audio Coding’’,J.Audio Eng.Soc.,Volume 55 Issue 6 pp.503-516;June 2007.
[Pulkki97] V.Pulkki,’’Virtual Sound Source Positioning Using Vector Base Amplitude Panning’’ J.Audio Eng.Soc.,Volume 45 Issue 6 pp.456-466;June 1997
[Thiergart09] O.Thiergart,R.Schultz-Amling,G.Del Galdo,D.Mahne,F.Kuech,’’Localization of Sound Sources in Reverberant Environments Based on Directional Audio Coding Parameters’’,AES Convention 127,Paper No.7853,Oct.2009
[Thiergart17] WO2017157803 A1,O.Thiergart et.al.’’APPARATUS,METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION’’
[Laitinen11] M.Laitinen,F.Kuech,V.Pulkki,’’Using Spaced Microphones with Directional Audio Coding ’’,AES Convention 130,Paper No.8433,May 2011
[Vilkamo13] J.Vilkamo,V.Pulkki,’’Minimization of Decorrelator Artifacts in Directional Audio Coding by Covariance Domain Rendering’’,J.Audio Eng.Soc.,Vol.61,No.9,2013 September
[Veen88] B.D.Van Veen,K.M.Buckley,’’Beamforming:a versatile approach to spatial filtering’’,IEEE ASSP Mag.,vol.5,no.2,pp.4-24,1998
[1] V.Pulkki,M-V Laitinen,J Vilkamo,J Ahonen,T Lokki and T Pihlajamaki,’’Directional audio coding-perception-based reproduction of spatial sound’’,International Workshop on the Principles and Application on Spatial Hearing,Nov.2009,Zao;Miyagi,Japan.
[2] M.V.Laitinen and V.Pulkki,’’Converting 5.1 audio recordings to B-format for directional audio coding reproduction,’’ 2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Prague,2011,pp.61-64
[3] R.K.Furness,’’Ambisonics-An overview,’’ in AES 8th International Conference,April 1990,pp.181-189.
[4] C.Nachbar,F.Zotter,E.Deleflie,and A.Sontacchi,’’AMBIX-A Suggested Ambisonics Format’’,Proceedings of the Ambisonics Symposium 2011
【0174】
以下では、個別にまたは本明細書に記載される特徴および機能性および詳細のいずれかと組み合わせて使用できる本発明の追加の実施形態および態様を説明する。
【0175】
態様1:符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための装置であって、前記装置が、
前記空間オーディオ表現からトランスポート表現を生成し、前記トランスポート表現の前記生成に関連する、または前記トランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータを生成するためのトランスポート表現生成器(600)と、
前記符号化されたオーディオ信号を生成するための出力インターフェース(640)であって、前記符号化されたオーディオ信号が前記トランスポート表現に関する情報および前記トランスポートメタデータに関する情報を含む、出力インターフェース(640)と
を備える、装置。
【0176】
態様2:前記空間オーディオ表現から空間パラメータを導出するためのパラメータプロセッサ(620)をさらに備え、
前記出力インターフェース(640)が、前記符号化されたオーディオ信号を、前記符号化されたオーディオ信号が前記空間パラメータに関する情報をさらに含むように生成するように構成される、態様1に記載の装置。
【0177】
態様3:前記空間オーディオ表現が、多数の係数信号を含む1次アンビソニックスもしくは高次アンビソニックス表現、または複数のオーディオチャネルを含むマルチチャネル表現であり、
前記トランスポート表現生成器(600)が、前記1次アンビソニックスもしくは高次アンビソニックス表現から1つもしくは複数の係数信号を選択するか、または前記高次アンビソニックスもしくは1次アンビソニックス表現からの係数を結合するように構成され、または前記トランスポート表現生成器(600)が、前記マルチチャネル表現から1つもしくは複数のオーディオチャネルを選択するか、または前記マルチチャネル表現からの2つ以上のオーディオチャネルを結合するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータとして、どの特定の1つもしくは複数の係数信号もしくはオーディオチャネルが選択されたかを示す情報、または前記2つ以上の係数信号もしくはオーディオチャネルがどのように結合されたか、または前記1次アンビソニックスもしくは高次アンビソニックスの係数信号もしくはオーディオチャネルのどれが結合されたか、の情報を生成するように構成される、態様1または2に記載の装置。
【0178】
態様4:前記トランスポート表現生成器(600)が、音響エネルギーの大部分が水平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、X係数信号およびY係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、態様1、2または3のいずれか一つに記載の装置。
【0179】
態様5:前記トランスポート表現生成器(600)が、音響エネルギーの大部分がxz平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、X係数信号およびZ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、態様1、2、または3のいずれか一つに記載の装置。
【0180】
態様6:前記トランスポート表現生成器(600)が、音響エネルギーの大部分がyz平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、Y係数信号およびZ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、態様1、2、または3のいずれか一つに記載の装置。
【0181】
態様7:前記トランスポート表現生成器(600)が、優勢な音響エネルギーが、左右の半球や前後の半球などの特定のセクタもしくは半球から発生するかどうかを判定するように構成されるか、または
前記トランスポート表現生成器(600)が、優勢な音響エネルギーが発生する前記特定のセクタもしくは半球からの、またはオーディオ符号器設定に応答した第1のトランスポート信号、および基準位置と前記特定のセクタもしくは半球とに関して反対方向を有する前記セクタや半球などの異なるセクタもしくは半球からの第2のトランスポート信号を生成するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記特定のセクタもしくは半球を識別するか、または前記異なるセクタもしくは半球を識別する情報を含むように決定するように構成される、態様1、2、または3のいずれか一つに記載の装置。
【0182】
態様8:前記トランスポート表現生成器(600)が、第1のトランスポート信号である第1の結果として得られる信号が、特定のセクタまたは半球に向けられた指向性マイクロフォン信号に対応し、第2のトランスポート信号である第2の結果として得られる信号が、異なるセクタまたは半球に向けられた指向性マイクロフォン信号に対応するように前記空間オーディオ表現の係数信号を結合するように構成される、前記態様のいずれか一つに記載の装置。
【0183】
態様9:ユーザ入力を受け取るためのユーザインターフェース(650)をさらに備え、
前記トランスポート表現生成器(600)が、前記ユーザインターフェース(650)で受け取られた前記ユーザ入力に基づいて前記トランスポート表現を生成するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記ユーザ入力に関する情報を有するように生成するように構成される、前記態様のいずれか一つに記載の装置。
【0184】
態様10:前記トランスポート表現生成器(600)が、前記トランスポート表現および前記トランスポートメタデータを、時変的または周波数に依存する方法で生成して、第1のフレームの前記トランスポート表現および前記トランスポートメタデータが第2のフレームの前記トランスポート表現および前記トランスポートメタデータと異なるようにするか、または第1の周波数帯域の前記トランスポート表現および前記トランスポートメタデータが第2の異なる周波数帯域のトランスポート表現および前記トランスポートメタデータと異なるようにする、ように構成される、前記態様のいずれか一つに記載の装置。
【0185】
態様11:前記トランスポート表現生成器(600)が、前記空間オーディオ表現の2つ以上の係数信号の重み付き結合(602)によって1つまたは2つのトランスポート信号を生成するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記重み付き結合で使用される重みに関する情報、または生成された指向性マイクロフォン信号の視線方向としての方位角および/もしくは仰角に関する情報、または指向性マイクロフォン信号の指向特性を示す形状パラメータに関する情報を含むように計算するように構成される、前記態様のいずれか一つに記載の装置。
【0186】
態様12:前記トランスポート表現生成器(600)が、量的なトランスポートメタデータを生成し、前記量的なトランスポートメタデータを量子化して(605a)量子化されたトランスポートメタデータを取得し、前記量子化されたトランスポートメタデータをエントロピー符号化する(605b)ように構成され、前記出力インターフェース(640)が、前記符号化されたトランスポートメタデータを前記符号化されたオーディオ信号に含めるように構成される、前記態様のいずれか一つに記載の装置。
【0187】
態様13:前記トランスポート表現生成器(600)が、前記トランスポートメタデータをテーブルインデックスまたはプリセットパラメータに変換するように構成され、
前記出力インターフェース(640)が、前記テーブルインデックスまたは前記プリセットパラメータを前記符号化されたオーディオ信号に含めるように構成される、態様1から11のいずれか一つに記載の装置。
【0188】
態様14:前記空間オーディオ表現が、少なくとも2つのオーディオ信号および空間パラメータを含み、
パラメータプロセッサ(620)が、前記空間オーディオ表現から前記空間パラメータを抽出することによって前記空間オーディオ表現から前記空間パラメータを導出するように構成され、
前記出力インターフェース(640)が、前記空間パラメータに関する情報を前記符号化されたオーディオ信号に含めるか、もしくは前記空間パラメータから導出された処理された空間パラメータに関する情報を前記符号化されたオーディオ信号に含めるように構成され、または
前記トランスポート表現生成器(600)が、前記トランスポート表現として前記少なくとも2つのオーディオ信号のサブセットを選択し、前記トランスポートメタデータを、前記トランスポートメタデータが前記サブセットの前記選択を示すように生成するか、または前記少なくとも2つのオーディオ信号もしくは前記少なくとも2つのオーディオ信号のサブセットを結合し、前記トランスポートメタデータを、前記トランスポートメタデータが、前記空間オーディオ表現の前記トランスポート表現を計算するために行われた前記オーディオ信号の前記結合に関する情報を含むように計算するように構成される、前記態様のいずれか一つに記載の装置。
【0189】
態様15:前記空間オーディオ表現が、マイクロフォン配列によって取得された少なくとも2つのマイクロフォン信号のセットを含み、
前記トランスポート表現生成器(600)が、前記マイクロフォン配列の特定の位置または特定のマイクロフォンと関連付けられた1つまたは複数の特定のマイクロフォン信号を選択するように構成され、
前記トランスポートメタデータが、前記特定の位置もしくは前記特定のマイクロフォンに関するか、または選択されたマイクロフォン信号と関連付けられた位置間のマイクロフォン距離に関する情報、または選択されたマイクロフォン信号と関連付けられたマイクロフォンのマイクロフォンの向きに関する情報、または選択されたマイクロフォンと関連付けられたマイクロフォン信号のマイクロフォン指向性パターンに関する情報を含む、前記態様のいずれか一つに記載の装置。
【0190】
態様16:前記トランスポート表現生成器(600)が、
ユーザインターフェース(650)によって受け取られたユーザ入力に従って前記空間オーディオ表現の1つもしくは複数の信号を選択するか、
どの位置がどの音響エネルギーを有するかに関する前記空間オーディオ表現の解析を行い(606)、解析結果に従って前記空間オーディオ表現の1つもしくは複数の信号を選択する(602)か、または
音源定位を行い、前記音源定位の結果に従って前記空間オーディオ表現の1つもしくは複数の信号を選択する(602)
ように構成される態様15に記載の装置。
【0191】
態様17:前記トランスポート表現生成器(600)が、空間オーディオ表現のすべての信号を選択するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記空間オーディオ表現の導出元である、マイクロフォン配列を識別するように生成するように構成される、態様1から15のいずれか一つに記載の装置。
【0192】
態様18:前記トランスポート表現生成器(600)が、空間フィルタリングまたはビームフォーミングを使用して前記空間オーディオ表現に含まれるオーディオ信号を結合する(602)ように構成され、
前記トランスポート表現生成器(600)が、前記トランスポート表現の前記視線方向に関する情報または前記トランスポート表現を計算する際に使用されたビームフォーミング重みに関する情報を前記トランスポートメタデータに含めるように構成される、前記態様のいずれか一つに記載の装置。
【0193】
態様19:前記空間オーディオ表現が、基準位置に関連した音場の記述であり、
パラメータプロセッサ(620)が、前記空間オーディオ表現から空間パラメータを導出するように構成され、前記空間パラメータが、前記基準位置における音の到来方向に関する時変的もしくは周波数に依存するパラメータまたは前記基準位置における前記音場の拡散度に関する時変的もしくは周波数に依存するパラメータを定義するか、または
前記トランスポート表現生成器(600)が、前記トランスポート表現として、前記空間オーディオ表現に含まれる第1の数の個々の信号のよりも少ない第2の数の個々の信号を有するダウンミックス表現を生成するためのダウンミキサ(601)を備え、前記ダウンミキサ(601)が、前記空間オーディオ表現に含まれる前記個々の信号のサブセットを選択するか、もしくは前記第1の数の信号を前記第2の数の信号まで減らすために前記空間オーディオ表現に含まれる前記個々の信号を結合するように構成される、前記態様のいずれか一つに記載の装置。
【0194】
態様20:パラメータプロセッサ(620)が、オーディオ信号解析を行うことによって前記空間オーディオ表現から前記空間パラメータを導出するための空間オーディオ解析器(621)を備え、
前記トランスポート表現生成器(600)が、前記空間オーディオ解析器(621)の結果に基づいて前記トランスポート表現を生成するように構成されるか、または
前記トランスポート表現生成器(600)が、前記トランスポート表現の前記トランスポート信号のうちの1つもしくは複数のオーディオ信号をコア符号化するためのコア符号器(603)を備えるか、または
前記パラメータプロセッサ(620)が、前記空間パラメータを量子化およびエントロピー符号化する(622)ように構成され、
前記出力インターフェース(640)が、コア符号化されたトランスポート表現(611)を前記トランスポート表現に関する前記情報として前記符号化されたオーディオ信号に含めるか、または前記エントロピー符号化された空間パラメータ(612)を空間パラメータに関する前記情報として前記符号化されたオーディオ信号に含めるように構成される、前記態様のいずれか一つに記載の装置。
【0195】
態様21:符号化されたオーディオ信号を復号するための装置であって、
トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取るための入力インターフェース(700)と、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成するための空間オーディオ合成器(750)と、を備える、装置。
【0196】
態様22:前記入力インターフェース(700)が、空間パラメータに関する情報をさらに含む前記符号化されたオーディオ信号を受け取るように構成され、
前記空間オーディオ合成器(750)が、前記空間パラメータに関する前記情報をさらに使用して前記空間オーディオ表現を合成するように構成される、態様21に記載の装置。
【0197】
態様23:前記空間オーディオ合成器(750)が、
2つ以上の復号されたトランスポート信号を得るために前記トランスポート表現に関する前記情報を表す2つ以上の符号化されたトランスポート信号をコア復号するためのコア復号器(751)を備えるか、または
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の1次アンビソニックスもしくは高次アンビソニックス表現(754)またはマルチチャネル信号(755)またはオブジェクト表現(756)またはバイノーラル表現を計算するように構成されるか、または
前記空間オーディオ合成器(750)が、前記トランスポートメタデータに関する前記情報を復号して前記復号されたトランスポートメタデータ(720)を導出するか、もしくは空間パラメータ(722)に関する情報を復号して復号された空間パラメータを得るためのメタデータ復号器(752)を備える、態様21または22に記載の装置。
【0198】
態様24:前記空間オーディオ表現が、複数の成分信号を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号について、前記トランスポート表現(711)に関する前記情報および前記トランスポートメタデータ(710)に関する前記情報を使用して基準信号を決定し(760)、
前記基準信号および空間パラメータに関する情報を使用して前記空間オーディオ表現の前記成分信号を計算する(770)か、または前記基準信号を使用して前記空間オーディオ表現の前記成分信号を計算する(770)
ように構成される、態様21、22、または23のいずれか一つに記載の装置。
【0199】
態様25:前記空間パラメータが、時変的または周波数に依存する到来方向または拡散度パラメータのうちの少なくとも1つを含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記複数の異なる成分を生成するために前記空間パラメータを使用して方向オーディオコーディング(DirAC)合成を行うように構成され、
前記空間オーディオ表現の第1の成分が、前記少なくとも2つのトランスポート信号のうちの1つまたは前記少なくとも2つのトランスポート信号の第1の組合せを使用して決定され、
前記空間オーディオ表現の第2の成分が、前記少なくとも2つのトランスポート信号のうちの別の1つまたは前記少なくとも2つのトランスポート信号の第2の組合せを使用して決定され、
前記空間オーディオ合成器(750)が、前記少なくとも2つのトランスポート信号のうちの前記1つもしくは前記別の1つの決定を行う(760)か、または前記トランスポートメタデータに従って前記第1の組合せもしくは前記異なる第2の組合せの決定を行う(760)ように構成される、態様22から24のいずれか一つに記載の装置。
【0200】
態様26:前記トランスポートメタデータが、前記空間オーディオ表現の基準位置に関連する第1のセクタもしくは半球を指すものとしての第1のトランスポート信号および前記空間オーディオ表現の前記基準位置に関連する第2の異なるセクタもしくは半球を指すものとしての第2のトランスポート信号を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号を使用し、前記第2のトランスポート信号を使用せずに前記第1のセクタもしくは半球と関連付けられた前記空間オーディオ表現の成分信号を生成する(915)ように構成されるか、または前記空間オーディオ合成器(750)が、前記第2のトランスポート信号を使用し、前記第1のトランスポート信号を使用せずに前記第2のセクタもしくは半球と関連付けられた前記空間オーディオ表現の別の成分信号を生成する(915)ように構成されるか、または
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号の第1の組合せを使用して前記第1のセクタもしくは半球と関連付けられた成分信号を生成する(915)か、または前記第1のトランスポート信号と前記第2のトランスポート信号の第2の組合せを使用して異なる第2のセクタもしくは半球と関連付けられた成分信号を生成する(915)ように構成され、前記第1の組合せが、前記第2の組合せよりも強い第1のトランスポート信号の影響を受けるか、または前記第2の組合せが、前記第1の組合せよりも強い第2のトランスポート信号の影響を受ける、態様21から25のいずれか一つに記載の装置。
【0201】
態様27:前記トランスポートメタデータが、前記トランスポート表現のトランスポート信号と関連付けられた指向特性に関する情報を含み、
前記空間オーディオ合成器(750)が、1次アンビソニックス信号もしくは高次アンビソニックス信号、スピーカ位置および前記トランスポートメタデータを使用して仮想マイクロフォン信号を計算する(911)ように構成されるか、または
空間オーディオ合成器(750)が、前記トランスポートメタデータを使用して前記トランスポート信号の前記指向特性を決定し(911)、前記トランスポート信号の決定された指向特性に従って前記トランスポート信号から1次アンビソニックス成分もしくは高次アンビソニックス成分(754)を決定するか、または
フォールバックプロセスに従って前記トランスポート信号の前記指向特性と関連付けられていない1次アンビソニックス成分もしくは高次アンビソニックス成分(754)を決定する(911)
ように構成される、態様21から26のいずれか一つに記載の装置。
【0202】
態様28:前記トランスポートメタデータが、第1のトランスポート信号と関連付けられた第1の視線方向に関する情報、および第2のトランスポート信号と関連付けられた第2の視線方向に関する情報を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号の前記計算のための基準信号を、前記トランスポートメタデータ、および前記空間オーディオ表現の前記成分信号と関連付けられたスピーカの前記位置に基づいて選択する(771)ように構成される、態様21から27のいずれか一つに記載の装置。
【0203】
態様29:前記第1の視線方向が左半球または前半球を示し、前記第2の視線方向が右半球または後半球を示し、
前記左半球内のスピーカの成分信号の前記計算に、前記第2のトランスポート信号ではなく前記第1のトランスポート信号が使用される(771)か、または前記右半球内のスピーカの成分信号の前記計算に、前記第1のトランスポート信号ではなく前記第2のトランスポート信号が使用される(771)か、または
前半球内のスピーカの前記計算に、前記第2のトランスポート信号ではなく前記第1のトランスポート信号が使用される(771)か、または後半球内のスピーカの前記計算に、前記第1のトランスポート信号ではなく前記第2のトランスポート信号が使用される(771)か、または
中央領域内のスピーカの前記計算に、前記左トランスポート信号と前記第2のトランスポート信号の組合せが使用される(771)か、または前記前半球と前記後半球との間の領域内のスピーカと関連付けられたスピーカ信号の前記計算に、前記第1のトランスポート信号と前記第2のトランスポート信号の組合せが使用される(771)、態様28に記載の装置。
【0204】
態様30:前記トランスポートメタデータに関する前記情報が、第1の視線方向として、左トランスポート信号の左方向を示し、第2の視線方向として、第2のトランスポート信号の右視線方向を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号とを加算する(920)ことによって第1のアンビソニックス成分を計算するか、または前記第1のトランスポート信号と前記第2のトランスポート信号とを減算する(921)ことによって第2のアンビソニックス成分を計算するように構成されるか、または前記第1のトランスポート信号と前記第2のトランスポート信号の和を使用して別のアンビソニックス成分が計算される(922)、態様21から29のいずれか一つに記載の装置。
【0205】
態様31:前記トランスポートメタデータが、第1のトランスポート信号に、前視線方向を示し、第2のトランスポート信号に、後視線方向を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号との差(921)の前記計算を行うことによってx方向の1次アンビソニックス成分を計算し、前記第1のトランスポート信号と前記第2のトランスポート信号の加算(920)を使用して無指向性の1次アンビソニックス成分を計算し、
前記第1のトランスポート信号と前記第2のトランスポート信号の和を使用して別の1次アンビソニックス成分を計算する(922)
ように構成される、態様21から27のいずれか一つに記載の装置。
【0206】
態様32:前記トランスポートメタデータが、重み係数または前記トランスポート表現のトランスポート信号の視線方向に関する情報を示し、
前記空間オーディオ合成器(750)が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記トランスポート信号および前記空間パラメータを使用して、前記空間オーディオ表現の異なる1次アンビソニックス成分を計算する(932)ように構成されるか、または前記空間オーディオ合成器(750)が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記トランスポート信号を使用して、前記空間オーディオ表現の異なる1次アンビソニックス成分を計算する(932)ように構成される、態様21から26のいずれか一つに記載の装置。
【0207】
態様33:前記トランスポートメタデータが、2つの異なる位置にあるか、もしくは異なる視線方向を有するマイクロフォン信号から導出される前記トランスポート信号に関する情報を含み、
前記空間オーディオ合成器(750)が、スピーカ位置に最も近い位置を有する基準信号を選択する(931)か、もしくは前記空間オーディオ表現の基準位置およびスピーカ位置からの前記方向に対して最も近い視線方向を有する基準信号を選択する(932)ように構成されるか、または
前記空間オーディオ合成器(750)が、前記トランスポートメタデータによって示される2つの視線方向の間に配置されているスピーカの基準信号を決定するために前記トランスポート信号との線形結合を行う(771)ように構成される、態様21から32のいずれか一つに記載の装置。
【0208】
態様34:前記トランスポートメタデータが、前記トランスポート信号と関連付けられたマイクロフォン位置間の距離に関する情報を含み、
前記空間オーディオ合成器(750)が、拡散信号生成器(830、823、824)を備え、前記拡散信号生成器(830、823、824)が、前記距離に関する前記情報を使用して前記拡散信号生成器によって生成された拡散信号中の無相関化信号の量を制御して、第1の距離では、前記拡散信号に、第2の距離での無相関化信号の量と比較して多い量の無相関化信号が含まれるようにするように構成され、前記第1の距離が前記第2の距離よりも小さいか、または
前記空間オーディオ合成器(750)が、前記マイクロフォン位置間の第1の距離について、基準信号もしくはスケーリングされた基準信号を無相関化するように構成された無相関化フィルタ(823)の出力信号と、音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号とを使用して、前記空間オーディオ表現の成分信号を計算し、前記マイクロフォン位置間の第2の距離について、無相関化処理なしで音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号を使用して、前記空間オーディオ表現の成分信号を計算するように構成され、前記第2の距離が前記第1の距離よりも大きいか、もしくは距離閾値よりも大きい、
態様21から33のいずれか一つに記載の装置。
【0209】
態様35:前記トランスポートメタデータが、前記トランスポート表現の前記トランスポート信号と関連付けられたビームフォーミングまたは空間フィルタリングに関する情報を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の基準位置から前記スピーカへの視線方向に最も近い視線方向を有する前記トランスポート信号を使用してスピーカのためのスピーカ信号を生成する(932)ように構成される、態様21から34のいずれか一つに記載の装置。
【0210】
態様36:前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号を、直接音成分と拡散音成分との結合(825)として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする(822)ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ(821、760)、前記拡散音成分が、前記同じ基準信号および前記拡散度パラメータを使用して決定される(823、824)、
態様21から35のいずれか一つに記載の装置。
【0211】
態様37:前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号を、直接音成分と拡散音成分との結合(825)として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする(822)ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ(821、760)、前記拡散音成分が、無相関化フィルタ(823)、前記同じ基準信号、および前記拡散度パラメータを使用して決定される(823、824)、態様21から36のいずれか一つに記載の装置。
【0212】
態様38:前記トランスポート表現が、少なくとも2つの異なるマイクロフォン信号を含み、
前記トランスポートメタデータが、前記少なくとも2つの異なるマイクロフォン信号が、無指向性信号、双極信号またはカージオイド信号のうちの少なくとも1つであるかどうかを示す情報を含み、
前記空間オーディオ合成器が、前記空間オーディオ表現の成分について、個々の基準信号を決定するために、基準信号の決定を前記トランスポートメタデータに適応させ(915)、
前記それぞれの成分を、前記それぞれの成分に決定された前記個々の基準信号を使用して計算する(916)ように構成される、態様21から37のいずれか一つに記載の装置。
【0213】
態様39:符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための方法であって、前記方法が、
前記空間オーディオ表現からトランスポート表現を生成することと、
前記トランスポート表現の前記生成に関連する、または前記トランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータを生成することと、
前記符号化されたオーディオ信号を生成することであって、前記符号化されたオーディオ信号が前記トランスポート表現に関する情報および前記トランスポートメタデータに関する情報を含む、ことと、を含む、方法。
【0214】
態様40:前記空間オーディオ表現から空間パラメータを導出することをさらに含み、前記符号化されたオーディオ信号が、前記空間パラメータに関する情報をさらに含む、態様39に記載の方法。
【0215】
態様41:符号化されたオーディオ信号を復号するための方法であって、前記方法が、
トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取ることと、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成することと、を含む、方法。
【0216】
態様42:空間パラメータに関する情報を受け取ることをさらに含み、前記合成することが、前記空間パラメータに関する前記情報をさらに使用する、態様41に記載の方法。
【0217】
態様43:コンピュータまたはプロセッサ上で動作するときに、態様39から42のいずれか一つに記載の方法を行うためのコンピュータプログラム。
【0218】
態様44:空間オーディオ表現のトランスポート表現(611)に関する情報と、
トランスポートメタデータ(610)に関する情報と
を含む、符号化されたオーディオ信号。
【0219】
態様45:前記トランスポート表現(611)と関連付けられた空間パラメータ(612)に関する情報をさらに含む、態様44に記載の符号化されたオーディオ信号。