(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
サラウンドサウンドの進化は、今日のエンターテインメントに利用可能な多数の出力フォーマットを生み出した。そのような消費者向けのサラウンドサウンドフォーマットの例は、いくつかの幾何学的座標中のラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けサラウンドサウンドフォーマットには、一般的な5.1フォーマット(これは、フロントレフト(FL)、フロントライト(FR)、センターまたはフロントセンター、バックレフトまたはサラウンドレフト、バックライトまたはサラウンドライト、および低周波効果(LFE)という6つのチャネルを含む)、成長している7.1フォーマット、(たとえば、超解像度テレビジョン規格とともに使用するための)7.1.4フォーマットおよび22.2フォーマットのようなハイトスピーカーを含む様々なフォーマットがある。非消費者向けフォーマットは、「サラウンドアレイ」と呼ばれることが多い任意の数のスピーカー(対称的な、および非対称的な幾何学的配置の)に及ぶことができる。そのようなアレイの一例は、切頭正二十面体の角に座標上で配置される32個のラウドスピーカーを含む。
【0014】
将来のMPEGエンコーダへの入力は、任意選択で、(i)事前に指定された場所にあるラウドスピーカーを通じて再生されることが意図される(上で論じられたような)従来のチャネルベースのオーディオ、(ii)(情報の中でもとりわけ)位置座標を含む関連するメタデータを有する、単一のオーディオオブジェクトのための個別のパルス符号変調(PCM)データを伴うオブジェクトベースのオーディオ、および、(iii)球面調和基底関数(spherical harmonic basis function)(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)の係数を使用して音場を表すことを伴うシーンベースのオーディオという3つの可能性のあるフォーマットの1つである。将来のMPEGエンコーダは、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、スイスのジュネーブにおいて2013年1月に公表された、国際標準化機構/国際電気標準会議(ISO)/(IEC) JTC1/SC29/WG11/N13411による、“Call for Proposals for 3D Audio”という表題の文書においてより詳細に記述されてもよい。
【0015】
市場には、様々な「サラウンドサウンド」チャネルベースのフォーマットがある。それらはたとえば、5.1ホームシアターシステム(ステレオよりもリビングルームに入り込んだという意味では最も成功している)から、NHK(日本放送協会)によって開発された22.2システムにまでわたる。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、映画のサウンドトラックを1回で作成することを望み、各スピーカー構成に対するサウンドトラックをリミックスすることに労力を費やすことを望まない。最近、規格開発団体は、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置(および数)に適合可能であり依存しない後続の復号と、再生の位置における音響条件(レンダラを含む)とを提供するための方法を検討している。
【0016】
コンテンツ作成者にそのような柔軟性を提供するために、音場を表すために要素の階層的なセットが使用されてもよい。要素の階層的なセットとは、より低次の要素の基本的なセットがモデル化された音場の完全な表現を提供するように要素が並べられる、要素のセットを指す場合がある。セットが高次の要素を含むように拡張されるにつれて、表現はより詳細になり、分解能が向上する。
【0017】
要素の階層的なセットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用した音場の記述または表現を示す。
【数1】
【0018】
この式は、時間tにおける、音場の任意の点{r
r,θ
r,φ
r}における圧力p
iが、SHC A
nm(k)
によって一意に表されることが可能であることを示す。ここで、k=ω/cであり、cは音速(約343m/s)であり、{r
r,θ
r,φ
r}は基準点(または観測点)であり、j
n(・)はオーダnの球面ベッセル関数であり、
【数2】
は、オーダnおよびサブオーダmの球面調和基底関数である。角括弧の中の項は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換のような様々な時間-周波数の変換によって近似することができる、信号の周波数領域の表現(すなわち、S{ω
r,r
r,θ
r,φ
r})であることを認識できる。階層的なセットの他の例は、ウェーブレット変換係数のセットと、多分解能基底関数の係数の他のセットとを含む。
【0019】
図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。図に見られるように、各オーダに対して、示されてはいるが図示を簡単にするために
図1の例では明示的に注記されていない、サブオーダmの展開がある。
【0020】
SHC A
nm(k)は、様々なマイクロフォンアレイ構成によって物理的に取得される(たとえば、記録される)ことが可能であり、または代替的には、音場のチャネルベースまたはオブジェクトベースの記述から導出されることが可能である。SHCはシーンベースのオーディオを表し、ここでSHCは、より効率的な送信または記憶を促すことがある符号化されたSHCを取得するための、オーディオエンコーダへの入力であってもよい。たとえば、(1+4)
2個(25個、したがって4次)の係数を伴う4次の表現が使用されてもよい。
【0021】
上で述べられたように、SHCは、マイクロフォンアレイを使用したマイクロフォン録音から導出されてもよい。SHCがマイクロフォンアレイからどのように導出されてもよいかの様々な例は、Poletti, M, “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”, J. Audio Eng. Soc, Vol. 53, No. 11, 2005年11月, 1004-1025頁に記述されている。
【0022】
SHCがオブジェクトベースの記述からどのように導出されてもよいかを示すために、次の式を検討する。個々のオーディオオブジェクトに対応する音場に対する係数A
nm(k)は、次のように表されてもよい。
【数3】
ここでiは
【数4】
であり、
【数5】
はオーダnの(第二種の)球ハンケル関数であり、{r
s,θ
s,φ
s}はオブジェクトの位置である。オブジェクトソースのエネルギーg(ω)を周波数の関数として(たとえば、PCMストリームに対する高速フーリエ変換の実行のような、時間-周波数分析技法を使用して)知ることによって、各PCMオブジェクトおよび対応する場所をSHC A
nm(k)
へと変換することが可能になる。さらに、(上記は線形であり直交方向の分解であるので)各オブジェクトに対するA
nm(k)係数が加法的であることが示されることが可能である。このようにして、多数のPCMオブジェクトが、A
nm(k)
係数によって(たとえば、個々のオブジェクトに対する係数ベクトルの合計として)表されることが可能である。基本的に、係数は音場についての情報(3D座標の関数としての圧力)を含み、上記は、観測点{r
r,θ
r,φ
r}の近傍における個々のオブジェクトから音場全体の表現への変換を表す。以下で、残りの図が、オブジェクトベースおよびSHCベースのオーディオコーディングの状況において説明される。
【0023】
図2は、本開示において説明される技法の様々な態様を実行する場合があるシステム10を示す図である。
図2の例に示されるように、システム10は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14の状況で説明されるが、本技法は、SHC(HOA係数とも呼ばれる場合がある)または音場の任意の他の階層的表現がオーディオデータを表すビットストリームを形成するために符号化されるあらゆる状況において実施されてもよい。その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表す場合がある。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表す場合がある。
【0024】
コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14のようなコンテンツ消費者デバイスの操作者による消費のためにマルチチャネルオーディオコンテンツを生成する場合がある、映画スタジオまたは他のエンティティによって操作されてもよい。いくつかの例では、コンテンツ作成者デバイス12は、HOA係数11を圧縮することを望む個人のユーザによって操作されてもよい。しばしば、コンテンツ作成者はビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者デバイス14は、個人によって操作されてもよい。コンテンツ消費者デバイス14はオーディオ再生システム16を含んでよく、これは、マルチチャネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指す場合がある。
【0025】
コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、様々なフォーマットのライブ録音7(HOA係数として直接含む)およびオーディオオブジェクト9を取得し、コンテンツ作成者デバイス12はオーディオ編集システム18を使用してこれらを編集してもよい。マイクロフォン5は、ライブ録音7をキャプチャしてもよい。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト9からHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようと試みて、レンダリングされたスピーカーフィードを聴取してもよい。コンテンツ作成者デバイス12は次いで、(場合によっては、ソースHOA係数が上で説明された方式でそれから導出されてもよい、オーディオオブジェクト9の異なる1つの操作を通じて間接的に)HOA係数11を編集してもよい。コンテンツ作成者デバイス12は、オーディオ編集システム18を利用してHOA係数11を生成してもよい。オーディオ編集システム18は、1つまたは複数のソース球面調和係数として、オーディオデータを編集し、オーディオデータを出力することが可能な任意のシステムを表す。いくつかの例では、マイクロフォン5は、3次元(3D)マイクロフォンを含んでよく、3Dマイクロフォンであってよく、またはその一部であってよい。
【0026】
編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてビットストリーム21を生成してもよい。すなわち、コンテンツ作成者デバイス12は、ビットストリーム21を生成するために、本開示において説明された技法の様々な態様に従って、HOA係数11を符号化し、またはそうでなければ圧縮するように構成されるデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであってもよい送信チャネルにわたる送信のために、ビットストリーム21を生成してもよい。ビットストリーム21は、HOA係数11の符号化されたバージョンを表す場合があり、主要ビットストリームと、サイドチャネル情報と呼ばれる場合がある別のサイドビットストリームとを含んでもよい。
【0027】
図2ではコンテンツ消費者デバイス14に直接送信されるものとして示されるが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにビットストリーム21を出力してもよい。中間デバイスは、コンテンツ消費者デバイス14へ後で配信するためにビットストリーム21を記憶することができ、コンテンツ消費者デバイス14はビットストリームを要求してもよい。中間デバイスは、ファイルサーバ、Webサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、携帯電話、スマートフォン、または、オーディオデコーダによって後で取り出すためにビットストリーム21を記憶することが可能な任意の他のデバイスを備えてもよい。中間デバイスは、ビットストリーム21を要求するコンテンツ消費者デバイス14のような契約者に、ビットストリーム21をストリーミングすることが(場合によっては対応するビデオデータビットストリームを送信することとともに)可能なコンテンツ配信ネットワーク中に存在してもよい。
【0028】
代替的に、コンテンツ作成者デバイス12は、ビットストリーム21を、コンパクトディスク、デジタルビデオディスク、高品位ビデオディスク、または他の記憶媒体のような記憶媒体に記憶することができ、これらの大半がコンピュータによって読み取られることが可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれる場合がある。この文脈では、送信チャネルは、媒体に記憶されたコンテンツがそれによって送信されるチャネルを指す場合がある(かつ、小売店または他の店舗ベースの配信機構を含む場合がある)。したがって、いずれにしても、本開示の技法はこの点に関して
図2の例に限定されるべきではない。
【0029】
図2の例にさらに示されるように、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表す場合がある。オーディオ再生システム16は、いくつかの異なるレンダラ22を含んでもよい。レンダラ22は各々、異なる形式のレンダリングを提供することができ、ここで、異なる形式のレンダリングは、ベクトルベースの振幅パンニング(VBAP)を実行する様々な方法の1つまたは複数、および/または、音場合成を実行する様々な方法の1つまたは複数を含んでもよい。本明細書で使用される場合、「Aおよび/またはB」は「AまたはB」、または「AとB」の両方を意味する。
【0030】
オーディオ再生システム16はさらに、オーディオ復号デバイス24を含んでもよい。オーディオ復号デバイス24は、ビットストリーム21からHOA係数11'を復号するように構成されるデバイスを表すことができ、HOA係数11'は、HOA係数11と同様である場合があるが、有損失の動作(たとえば、量子化)および/または送信チャネルを介した送信が原因で異なる場合がある。オーディオ再生システム16は、ビットストリーム21を復号してHOA係数11'を取得した後で、HOA係数11'をレンダリングしてラウドスピーカーフィード25を出力してもよい。ラウドスピーカーフィード25は、1つまたは複数のラウドスピーカー(図示を簡単にするために
図2の例に示されていない)を駆動してもよい。
【0031】
適切なレンダラを選択するために、またはいくつかの例では、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な配置を示すラウドスピーカー情報13を取得してもよい。いくつかの例では、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカー情報13を取得し、ラウドスピーカー情報13を動的に決定するような方式でラウドスピーカーを駆動してもよい他の例では、またはラウドスピーカー情報13の動的な決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報13を入力するようにユーザを促してもよい。
【0032】
オーディオ再生システム16は次いで、ラウドスピーカー情報13に基づいて、オーディオレンダラ22の1つを選択してもよい。いくつかの例では、オーディオ再生システム16は、オーディオレンダラ22のいずれもがラウドスピーカー情報13において指定されるラウドスピーカーの幾何学的配置に対して(ラウドスピーカーの幾何学的配置に関する)何らかの閾値の類似性の尺度の範囲内にないとき、ラウドスピーカー情報13に基づいてオーディオレンダラ22の1つを生成してもよい。オーディオ再生システム16は、いくつかの例では、オーディオレンダラ22の既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいてオーディオレンダラ22の1つを生成してもよい。1つまたは複数のスピーカー3は次いで、レンダリングされたラウドスピーカーフィード25を再生してもよい。
【0033】
図3は、本開示において説明される技法の様々な態様を実行する場合がある
図2の例に示されるオーディオ符号化デバイス20の一例をより詳細に示すブロック図である。オーディオ符号化デバイス20は、コンテンツ分析ユニット26、ベクトルベースの分解ユニット27、および指向性ベースの合成ユニット28を含む。以下で簡単に説明されるが、オーディオ符号化デバイス20に関するさらなる情報およびHOA係数を圧縮またはそうでなければ符号化する様々な態様は、2014年5月29日に出願された“INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”という表題の国際特許出願公開第2014/194099号において入手可能である。
【0034】
コンテンツ分析ユニット26は、HOA係数11のコンテンツを分析して、HOA係数11が生の録音から生成されるコンテンツを表すかオーディオオブジェクトから生成されるコンテンツを表すかを特定するように構成されるユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の記録から生成されたか人工的なオーディオオブジェクトから生成されたかを決定してもよい。いくつかの例では、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベースの分解ユニット27に渡す。いくつかの例では、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を指向性ベースの合成ユニット28に渡す。指向性ベースの合成ユニット28は、HOA係数11の指向性ベースの合成を実行して指向性ベースのビットストリーム21を生成するように構成されるユニットを表す場合がある。
【0035】
図3の例に示されるように、ベクトルベースの分解ユニット27は、線形可逆変換(LIT)ユニット30、パラメータ計算ユニット32、並べ替えユニット34、フォアグラウンド選択ユニット36、エネルギー補償ユニット38、音響心理学的オーディオコーダユニット40(任意選択)、ビットストリーム生成ユニット42、音場分析ユニット44、係数削減ユニット46、バックグラウンド(BG)選択ユニット48、空間-時間補間ユニット50、および量子化ユニット52を含んでもよい。音響心理学的オーディオコーダユニット40は、オーディオ符号化デバイス20の異なる実装形態に関して音響心理学的オーディオコーダユニット40が任意選択であることを示すために、
図3では破線の境界とともに示されている。
【0036】
線形可逆変換(LIT)ユニット30は、HOAチャネルの形式でHOA係数11を受け取り、各チャネルは、球面基底関数(これはHOA[k]と示されることがあり、kはサンプルの現在のフレームまたはブロックを示す場合がある)の所与のオーダ、サブオーダと関連付けられる係数のブロックまたはフレームを表す。HOA係数11の行列は、D:M*(N+1)
2という次元を有する場合がある。
【0037】
LITユニット30は、特異値分解と呼ばれるある形式の分析を実行するように構成されるユニットを表す場合がある。SVDに関して説明されるが、本開示において説明される技法は、線形的に相関付けられない、エネルギー圧縮された出力のセットを提供する、任意の同様の変換または分解に関して実行されてもよい。また、本開示における「セット」への言及は、特に反対のことが述べられていない限り0ではないセットを指すことが一般に意図されており、いわゆる「空集合」を含む伝統的な数学的な集合の定義を指すことは意図されていない。代替的な変換は、“PCA”と呼ばれることが多い主要成分分析を備える場合がある。状況に応じて、PCAは、いくつか例を挙げると、個別のカルーネンレーベ変換、ホテリング変換、固有直交分解(POD)、および固有値分解(EVD)のような、いくつかの異なる名称で呼ばれる場合がある。オーディオデータを圧縮するという背後の目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「非相関化」である。
【0038】
いずれにしても、LITユニット30が例示を目的に(これはやはり“SVD”と呼ばれる場合がある)特異値分解を実行すると仮定すると、LITユニット30は、変換されたHOA係数の2つ以上のセットへとHOA係数11を変換してもよい。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含んでもよい。
図3の例では、LITユニット30は、HOA係数11に関してSVDを実行して、いわゆるV行列、S行列、およびU行列を生成してもよい。線形代数において、SVDは、y対zの実数または複素数の行列X(ここでXはHOA係数11のようなマルチチャネルオーディオデータを表す場合がある)の、次の形式での要素分解を表す場合がある。
X = USV*
Uは、y対yの実数または複素数の単位行列を表す場合があり、ここで、Uのy個の列はマルチチャネルオーディオデータの左特異ベクトルとして知られている。Sは対角線上に非負の実数を有するy対zの長方の対角行列を表す場合があり、Sの対角方向の値はマルチチャネルオーディオデータの特異値として知られている。V*(これはVの共役転置を示す場合がある)は、z対zの実数または複素数の単位行列を表す場合があり、ここで、V*のz個の列はマルチチャネルオーディオデータの右特異ベクトルとして知られている。
【0039】
いくつかの例では、上で参照されたSVDの数学的表現におけるV*行列は、SVDが複素数を備える行列に適用されてもよいことを反映するために、V行列の共役転置として示される。実数だけを備える行列に適用されるとき、V行列の複素共役(または言い換えると、V*行列)はV行列の転置とみなされる場合がある。下では、図示を簡単にするために、HOA係数11は実数を備え、結果としてV*行列ではなくV行列がSVDを通じて出力されることが仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切であればV行列の転置を指すものとして理解されるべきである。V行列であると仮定されるが、本技法は、複素数の係数を有するHOA係数11に同様の方式で適用される場合があり、このときSVDの出力はV*行列である。したがって、この点において、本技法は、V行列を生成するためにSVDを適用することだけに限定されるべきではなく、V*行列を生成するために複素数の成分を有するHOA係数11にSVDを適用することを含んでもよい。
【0040】
このようにして、LITユニット30は、HOA係数11に関してSVDを実行して、次元D:M*(N+1)
2を有するUS[k]ベクトル33(これはSベクトルとUベクトルの組み合わされたバージョンを表す場合がある)と、次元D:(N+1)
2*(N+1)
2を有するV[k]ベクトル35とを出力してもよい。US[k]行列中の個々のベクトル要素はX
ps(k)とも呼ばれる場合があるが、V[k]行列の個々のベクトルはv(k)とも呼ばれる場合がある。
【0041】
U行列、S行列、およびV行列の分析は、これらの行列がXによって上で表される背後の音場の空間的および時間的な特性を搬送または表現することを明らかにする場合がある。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される期間について)時間の関数として正規化された別々のオーディオ信号を表す場合があり、これらのオーディオ信号は、互いに直交しており、あらゆる空間的な特性(これは指向性情報とも呼ばれる場合がある)に対して無関係にされている。空間的な形状および場所(r, θ, φ)を表す空間特性は代わりに、個々のi番目のベクトルv
(i)(k)によって、V行列(各々長さが(N+1)
2である)において表される場合がある。v
(i)(k)ベクトルの各々の個々の要素は、関連するオーディオオブジェクトに対する音場の形状(幅を含む)および場所を記述するHOA係数を表す場合がある。U行列およびV行列の中のベクトルの両方が、それらの二乗平均平方根エネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線上の要素によって表される。したがって、UとSを乗算してUS[k](個々のベクトル要素X
ps(k)を伴う)を形成することで、エネルギーを有するオーディオ信号が表される。SVD分解により、オーディオ時間信号(Uの中の)と、それらのエネルギー(Sの中の)と、それらの空間特性(Vの中の)とを無関係にできることで、本開示において説明される技法の様々な態様がサポートされてもよい。さらに、US[k]とV[k]のベクトル乗算による、背後のHOA[k]係数Xを合成するモデルは、「ベクトルベースの分解」という用語を生じさせ、これは本文書の全体で使用される。
【0042】
HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、HOA係数11から導出されるものに線形可逆変換を適用してもよい。たとえば、LITユニット30は、HOA係数11から導出されるパワースペクトル密度行列に関してSVDを適用してもよい。係数自体ではなくHOA係数のパワースペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は、プロセッササイクルと記憶空間の1つまたは複数に関する、SVDの実行の計算的な複雑さを低減できる可能性がありながら、SVDがHOA係数に直接適用されているかのように、同じソースオーディオの符号化の効率を達成する場合がある。
【0043】
パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ,φ,r)、およびエネルギー特性(e)のような様々なパラメータを計算するように構成されるユニットを表す。現在のフレームに対するパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]、およびe[k]と示されてもよい。パラメータ計算ユニット32は、US[k]ベクトル33に関してエネルギー分析および/または相関付け(またはいわゆる相互相関付け)を実行して、パラメータを特定してもよい。パラメータ計算ユニット32はまた、前のフレーム対するパラメータを決定してもよく、ここで前のフレームパラメータは、US[k-1]ベクトルおよびV[k-1]ベクトルの前のフレームに基づいて、R[k-1]、θ[k-1]、φ[k-1]、r[k-1]、およびe[k-1]と示されてもよい。パラメータ計算ユニット32は、現在のパラメータ37および前のパラメータ39を並べ替えユニット34に出力してもよい。
【0044】
パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトを並べ替えてオーディオオブジェクトの自然な評価または経時的な連続性を表すために、並べ替えユニット34によって使用されてもよい。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k-1]ベクトル33に対するパラメータ39の各々に対して順番に比較してもよい。並べ替えユニット34は、現在のパラメータ37および前のパラメータ39に基づいてUS[k]行列33およびV[k]行列35内の様々なベクトルを並べ替えて(一例として、ハンガリアンアルゴリズムを使用して)、並べ替えられたUS[k]行列33'(これは
【数6】
と数学的に示される場合がある)と、並べ替えられたV[k]行列35'(これは
【数7】
と数学的に示される場合がある)とを、フォアグラウンド音声(または支配的な音声-PS)選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力してもよい。
【0045】
音場分析ユニット44は、目標ビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されるユニットを表す場合がある。音場分析ユニット44は、分析および/または受信された目標ビットレート41に基づいて、音響心理学的なコーダの実体の総数(これは、環境またはバックグラウンドチャネルの総数(BG
TOT)と、フォアグラウンドチャネル、または言い換えると支配的なチャネルの数との関数である場合がある)を決定してもよい。音響心理学的なコーダの実体の総数は、numHOATransportChannelsと示すことができる。
【0046】
音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45、バックグラウンド(または言い換えると環境)音場の最小のオーダ(N
BG、または代替的にMinAmbHOAorder)、バックグラウンド音場の最小のオーダを表す実際のチャネルの対応する数(nBGa = (MinAmbHOAorder+1)
2)、および送信すべき追加のBG HOAチャネルのインデックス(i)(これらは
図3の例ではバックグラウンドチャネル情報43としてまとめて示される場合がある)を決定してもよい。バックグラウンドチャネル情報42はまた、環境チャネル情報43と呼ばれる場合がある。numHOATransportChannels - nBGaにより残るチャネルの各々は、「追加のバックグラウンド/環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的なチャネル」、または「完全に非アクティブ」のいずれかであってもよい。一態様では、チャネルタイプは、2ビット(たとえば、00:指向性ベースの信号、01:ベクトルベースの支配的な信号、10:追加の環境信号、11:非アクティブ信号)による、(“ChannelType”として)示されるシンタックス要素であってもよい。バックグラウンド信号または環境信号の総数nBGaは、(MinAmbHOAorder+1)
2+(上の例の)インデックス10がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられてもよい。
【0047】
音場分析ユニット44は、目標ビットレート41に基づいてバックグラウンド(または言い換えると環境)チャネルの数とフォアグラウンド(または言い換えると支配的な)チャネルの数とを選択して、目標ビットレート41が比較的高いとき(たとえば、目標ビットレート41が512Kbps以上であるとき)より多数のバックグラウンドおよび/またはフォアグラウンドチャネルを選択してもよい。一態様では、ビットストリームのヘッダセクションでは、numHOATransportChannelsは8に設定されてもよいが、MinAmbHOAorderは1に設定されてもよい。この状況では、各フレームにおいて、4つのチャネルが音場のバックグラウンド部分または環境部分を表すために専用であってよく、一方で他の4つのチャネルは、フレームごとにチャネルのタイプに応じて変化することが可能であり、たとえば、追加のバックグラウンド/環境チャネルまたはフォアグラウンド/支配的なチャネルのいずれかとして使用することが可能である。フォアグラウンド/支配的な信号は、上で説明されたように、ベクトルベースの信号または指向性ベースの信号の1つである可能性がある。
【0048】
いくつかの例では、フレームに対するベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられてもよい。上の態様では、各々の追加のバックグラウンド/環境チャネル(たとえば、10というChannelTypeに対応する)に対して、可能性のあるHOA係数(最初の4つ以外)のいずれがそのチャネルにおいて表されてもよいかの対応する情報である。4次のHOAコンテンツに対するこの情報は、HOA係数5〜25を示すためのインデックスであってもよい。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときはすべて送信されてもよいので、オーディオ符号化デバイスは、5〜25というインデックスを有する追加の環境HOA係数の1つを示すことだけが必要である場合がある。したがって、この情報は、“CodedAmbCoeffIdx”と示される場合がある、(4次のコンテンツでは)5ビットのシンタックス要素を使用して送信されてもよい。いずれにしても、音場分析ユニット44は、バックグラウンドチャネル情報43およびHOA係数11をバックグラウンド(BG)選択ユニット36に出力し、バックグラウンドチャネル情報43を係数削減ユニット46およびビットストリーム生成ユニット42に出力し、nFG45をフォアグラウンド選択ユニット36に出力する。
【0049】
本開示の1つまたは複数の態様によれば、音場分析ユニット44は、オーディオデータの特異値ベースの圧縮を実行するように構成されてもよい。本明細書で説明される技法のいくつかによれば、音場分析ユニット44は、US[k]ベクトル33およびV[k]ベクトル35、またはそれらから導出されるベクトルと関連付けられる1つまたは複数の特異値を分析することによって、HOA係数11を選択(たとえば、「記述」)してもよい。いくつかの例では、音場分析ユニットは、S[k]ベクトル33"と関連付けられる特異値を分析してもよい。たとえば、S[k]ベクトル33"は、対応する‘U’行列と乗算されない、またはまだ乗算されていない、‘S’行列を表す場合がある。議論を簡単にすることのみを目的に、US[k]ベクトル33、S[k]ベクトル33"、V[k]ベクトル35、それらから導出される任意のベクトル、およびそれらの任意の組合せは、本明細書では集合的に「受信されたベクトル」、「受信されたHOA信号」、または「受信されたオーディオデータ」と呼ばれる。
【0050】
本明細書で説明される1つまたは複数の技法によれば、音場分析ユニット44は、受信されたオーディオデータと関連付けられる特異値を分析して、HOA係数11および/またはバックグラウンドチャネル情報43を使用して受信されたオーディオデータを記述する方式を決定してもよい。本明細書で説明される技法の一例では、音場分析ユニット44は、受信されたオーディオデータを、フォアグラウンドオーディオオブジェクトだけを使用して表すか、または代替的に、フォアグラウンドオーディオオブジェクトとバックグラウンドオーディオオブジェクトの両方を使用して表すかを決定してもよい。
【0051】
いくつかの例では、音場分析ユニット44は、受信されたオーディオデータのバックグラウンドオーディオオブジェクトと関連付けられる特異値に基づいて、数個(たとえば、4つまたは5つ)の特異値を使用して受信されたHOA信号を表すことが可能であることを決定することができ、これらの特異値のすべてが、受信されたオーディオデータのフォアグラウンドオーディオオブジェクトと関連付けられる。受信されたHOA信号をフォアグラウンドオーディオオブジェクトだけを使用して表すことが可能であることを、音場分析ユニット44が決定する場合、音場分析ユニット44は、受信されたオーディオオブジェクトのいずれのバックグラウンドオーディオオブジェクトもシグナリングしなくてもよい。代わりに、この状況では、音場分析ユニット44は、受信されたHOA信号を表すために、HOA係数11の一部としてフォアグラウンドオーディオオブジェクトだけをシグナリングしてもよい。
【0052】
受信されたオーディオデータのバックグラウンドオーディオオブジェクトのいずれかをシグナリングするかどうかを判定するために、音場分析ユニット44は、S[k]ベクトル33"によって指定される特異値のような、受信されたオーディオデータのバックグラウンドオーディオオブジェクトと関連付けられる特異値を分析してもよい。たとえば、音場分析ユニット44は、バックグラウンドオーディオオブジェクトと関連付けられるS[k]ベクトル33"(または、振幅のようなその属性)によって指定される特異値が、受信されたオーディオデータがフォアグラウンドオーディオオブジェクトだけを使用して表されてもよい、またはそうでなければ記述されてもよい程度に十分に小さいかどうかを判定してもよい。この例では、音場分析ユニット44が、S[k]ベクトル33"によって指定されるようなバックグラウンドオーディオオブジェクトの特異値が十分に小さい(たとえば、十分に0に近い)ことを決定する場合、音場分析ユニット44は、受信されたオーディオデータのためのバックグラウンド情報をコーディングしなくてもよい。
【0053】
そのような状況においてバックグラウンド情報をコーディングしないことによって、音場分析ユニット44は、フォアグラウンド情報だけを使用して、受信されたオーディオデータの注意を要する項目をコーディングしてもよい。言い換えると、音場分析ユニット44は、受信されたオーディオデータと関連付けられる特異値に基づいて、受信されたオーディオデータの注意を要する項目をコーディングしてもよい。このようにして、音場分析ユニット44は、バックグラウンド情報と関連付けられる特異値に基づいて、バックグラウンド情報のコーディングおよび/またはシグナリングを取り除くことによってコンピューティングリソースおよび通信帯域幅を節約するために、本開示の技法を実施してもよい。
【0054】
音場分析ユニット44が、S[k]ベクトル33"によって指定される特異値に基づいてバックグラウンドオーディオオブジェクトをコーディングおよび/またはシグナリングしないと決定する一例では、音場分析ユニット44は、受信されたオーディオデータの6つのフォアグラウンドオーディオオブジェクト全体をコーディングしてもよい。対照的に、従来の技法によれば、音場分析ユニット44は、HOA係数11およびバックグラウンドチャネル情報43を生成する際に、2つのフォアグラウンドオーディオオブジェクトと4つのバックグラウンドオブジェクトとをコーディングしてもよい。このようにして、音場分析ユニット44は、フォアグラウンドオーディオオブジェクトが潜在的により重要である、および/または注意を要する状況において、利用可能なビットレートおよび帯域幅を活用して潜在的により多くのフォアグラウンドオーディオオブジェクトをコーディングしてシグナリングしながら、バックグラウンドオーディオオブジェクトを無視するために、本開示の技法を実施してもよい。たとえば、注意を要するオーディオオブジェクトは、ビットストリームにおいて指定されることになるオーディオコンテンツ全体に重大な影響を与えるオーディオデータを示すことがあり、またはそのオーディオデータとそうでなければ関連付けられることがある。
【0055】
音場分析ユニット44に関して上で説明されたように、オーディオ符号化デバイス20の様々な他のコンポーネントが上で説明された技法を実施できることが理解されるだろう。たとえば、ビットストリーム生成ユニット42は、バックグラウンドオーディオオブジェクトが十分に小さい特異値と関連付けられる状況において、利用可能なビットのすべてをフォアグラウンドオーディオオブジェクトに割り振ってもよい。逆に、バックグラウンドオーディオオブジェクトが、バックグラウンドオーディオオブジェクトのシグナリングを保証するのに十分大きい特異値と関連付けられる場合、ビットストリーム生成ユニット42は、(たとえば、残りの利用可能なビットをフォアグラウンドオーディオオブジェクトのシグナリングに割り振ることに加えて、)バックグラウンドオーディオオブジェクトのビットストリーム仕様(および、たとえばシグナリング)に利用可能なビットの一部を割り振ってもよい。このようにして、上で説明された技法は、ビットストリーム生成ユニット42によって実装されるビット割振り機構のようなビット割振り機構を介して実装されてもよい。
【0056】
上で説明されたように、いくつかの例では、音場分析ユニット44は、本開示の特異値ベースの技法を使用して、S[k]ベクトル33"によって指定される特異値に基づいていずれのバックグラウンドオーディオオブジェクトもコーディングおよび/またはシグナリングしないと決定してもよい。音場分析ユニット44がいずれのバックグラウンドオーディオオブジェクトもコーディングしないと決定する状況は、「フォアグラウンド限定モード」と本明細書では呼ばれる。表1は、音場分析ユニット44がフォアグラウンド限定モードに従ってオーディオオブジェクトをコーディングするときに使用してもよいシンタックスを示す。
【表1】
【0057】
フォアグラウンド限定モードを使用するために、音場分析ユニット44は、バックグラウンドオーディオオブジェクトの数を0に等しく設定してもよい。したがって、上の表1に示されるシンタックスによれば、音場分析ユニットは、MinNumOfCoeffsForAmbHOAシンタックス要素を0という値に設定してもよい。
【0058】
以下の表2は、音場分析ユニット44が音場のフォアグラウンドオーディオオブジェクトとバックグラウンドオーディオオブジェクトの両方をコーディングすると決定する状況において音場分析ユニット44が使用してもよいシンタックスを示す。より具体的には、音場分析ユニット44は、表2に示されるシンタックスを使用して、いくつかのフォアグラウンドオーディオオブジェクトおよびいくつかのバックグラウンドオーディオオブジェクトを設定してもよく、以下の表が使用可能である。
【表2】
【0059】
バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(たとえば、バックグラウンド音場(N
BG)ならびに送信すべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i))に基づいて、バックグラウンドまたは環境HOA係数47を決定するように構成されるユニットを表す場合がある。たとえば、N
BGが1に等しいとき、バックグラウンド選択ユニット48は、1以下のオーダを有するオーディオフレームの各サンプルに対するHOA係数11を選択してもよい。この例では、バックグラウンド選択ユニット48は次いで、追加のBG HOA係数としてインデックス(i)の1つによって特定されるインデックスを有するHOA係数11を選択し、ここで、nBGaは、
図2および
図4の例において示されるオーディオ復号デバイス24のようなオーディオ復号デバイスが、ビットストリーム21からのバックグラウンドHOA係数47を解析することを可能にするために、ビットストリーム21において指定されることになるビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38
に出力してもよい。環境HOA係数47は、D:M*[(N
BG+1)
2+ nBGa]という次元を有する場合がある。環境HOA係数47はまた、「環境HOA係数47」とも呼ばれることがあり、環境HOA係数47の各々が、音響心理学的オーディオコーダユニット40によって符号化されるべき別の環境HOAチャネル47に対応する。
【0060】
フォアグラウンド選択ユニット36は、nFG45(これはフォアグラウンドベクトルを特定する1つまたは複数のインデックスを表す場合がある)に基づいて音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]行列33'および並べ替えられたV[k]行列35'を選択するように構成されるユニットを表す場合がある。フォアグラウンド選択ユニット36は、nFG信号49(並べ替えられたUS[k]
1,…, nFG 49、FG
1,…, nfG[k] 49、または
【数8】
として示されてもよい)を音響心理学的オーディオコーダユニット40に出力してもよく、ここでnFG信号49は次元D:M*nFGを有してもよく、各々がモノオーディオオブジェクトを表す。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35'(またはv
(1..nFG)(k) 35')を空間-時間補間ユニット50に出力してもよく、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35'のサブセットは、次元D:(N+1)
2*nFGを有するフォアグラウンドV[k]行列51
k(これは、
【数9】
として数学的に示される場合がある)として示されてもよい。
【0061】
エネルギー補償ユニット38は、環境HOA係数47に関してエネルギー補償を実行して、バックグラウンド選択ユニット48によるHOAチャネルの様々な1つの削除が原因のエネルギーの損失を補償するように構成されるユニットを表す場合がある。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51
k、および環境HOA係数47の1つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー分析に基づいてエネルギー補償を実行してエネルギー補償された環境HOA係数47'を生成してもよい。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47'を音響心理学的オーディオコーダユニット40に出力してもよい。
【0062】
空間-時間補間ユニット50は、k番目のフレームに対するフォアグラウンドV[k]ベクトル51
kと前のフレーム(したがってk-1という表記である)に対するフォアグラウンドV[k-1]ベクトル51
k-1とを受信して、空間-時間補間を実行して補間されたフォアグラウンドV[k]ベクトルを生成するように構成されるユニットを表す場合がある。空間-時間補間ユニット50は、nFG信号49をフォアグラウンドV[k]ベクトル51
kと再び組み合わせて、並べ替えられたフォアグラウンドHOA係数を復元してもよい。空間-時間補間ユニット50は次いで、並べ替えられたフォアグラウンドHOA係数を補間されたV[k]ベクトルによって除算し、補間されたnFG信号49'を生成してもよい。空間-時間補間ユニット50はまた、オーディオ復号デバイス24のようなオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成してそれによってフォアグラウンドV[k]ベクトル51
kを復元できるように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51
kを出力してもよい。補間されたフォアグラウンドV[k]を生成するために使用されるフォアグラウンドV[k]ベクトル51
kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k-1]が(補間されたベクトルV[k]を作成するために)エンコーダおよびデコーダにおいて使用されることを確実にするために、ベクトルの量子化された/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用されてもよい。空間-時間補間ユニット50は、補間されたnFG信号49'を音響心理学的オーディオコーダユニット46に出力し、補間されたフォアグラウンドV[k]ベクトル51
kを係数削減ユニット46に出力してもよい。
【0063】
係数削減ユニット46は、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関する係数削減を実行して、削減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するように構成されるユニットを表す場合がある。削減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)
2-(N
BG+1)
2-BG
TOT]*nFGを有する場合がある。係数削減ユニット46は、この点で、残りのフォアグラウンドV[k]ベクトル53の中の係数の数を削減するように構成されるユニットを表す場合がある。言い換えると、係数削減ユニット46は、指向性情報をほとんどまたはまったく有しないフォアグラウンドV[k]ベクトルの中の係数(これらが残りのフォアグラウンドV[k]ベクトル53を形成する)を除去するように構成されるユニットを表す場合がある。いくつかの例では、1次および0次の基底関数(N
BGとして示されてもよい)に対応する、明瞭な、または言い換えるとフォアグラウンドのV[k]ベクトルの係数は、ほとんど指向性情報を提供しないので、フォアグラウンドV-ベクトルから(「係数削減」と呼ばれる場合があるプロセスを通じて)除去することができる。この例では、N
BGに対応する係数を特定するためだけではなく、[(N
BG +1)
2+1, (N+1)
2]のセットから追加のHOAチャネル(変数TotalOfAddAmbHOAChanによって示されてもよい)を特定するためにも、より大きい柔軟性が提供されてもよい。
【0064】
量子化ユニット52は、任意の形式の量子化を実行して削減されたフォアグラウンドV[k]ベクトル55を圧縮して、コーディングされたフォアグラウンドV[k]ベクトル57を生成し、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されるユニットを表す場合がある。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では削減されたフォアグラウンドV[k]ベクトル55の1つまたは複数を圧縮するように構成されるユニットを表す場合がある。量子化ユニット52は、“NbitsQ”と表記される量子化モードシンタックス要素によって示されるような、以下の12個の量子化モードのうちの任意の1つを実行してもよい。
NbitsQの値 量子化モードのタイプ
0-3: 予約
4: ベクトル量子化
5: ハフマンコーディングを伴わないスカラー量子化
6: ハフマンコーディングを伴う6ビットスカラー量子化
7: ハフマンコーディングを伴う7ビットスカラー量子化
8: ハフマンコーディングを伴う8ビットスカラー量子化
… …
16: ハフマンコーディングを伴う16ビットスカラー量子化
量子化ユニット52はまた、上述のタイプの量子化モードのいずれかの予測されるバージョンを実行してもよく、前のフレームのV-ベクトルの要素(またはベクトル量子化が実行されたときの重み)と、現在のフレームのV-ベクトルの要素(またはベクトル量子化が実行されたときの重み)との間の差分が決定される。次いで、量子化ユニット52は、現在のフレームのV-ベクトルの要素の値自体ではなく、現在のフレームの要素または重みと前のフレームの要素または重みとの間の差分を量子化してもよい。
【0065】
量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55の各々に対して複数の形態の量子化を実行して、削減されたフォアグラウンドV[k]ベクトル55の複数のコーディングされたバージョンを取得してもよい。量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55のコーディングされたバージョンの1つを、コーディングされたフォアグラウンドV[k]ベクトル57として選択してもよい。言い換えれば、量子化ユニット52は、本開示において論じられる基準の任意の組合せに基づいて、予測されないベクトル量子化されたV-ベクトル、予測されるベクトル量子化されたV-ベクトル、ハフマンコーディングされていないスカラー量子化されたV-ベクトル、およびハフマンコーディングされたスカラー量子化されたV-ベクトルの1つを選択して、出力が切り替えられる量子化されたV-ベクトルとして使用してもよい。いくつかの例では、量子化ユニット52は、ベクトル量子化モードおよび1つまたは複数のスカラー量子化モードを含む量子化モードのセットから量子化モードを選択し、選択された量子化モードに基づいて(または従って)、入力V-ベクトルを量子化してもよい。次いで、量子化ユニット52は、(たとえば、重み値またはそれを示すビットに関する)予測されないベクトル量子化されたV-ベクトル、(たとえば、誤り値またはそれを示すビットに関する)予測されるベクトル量子化されたV-ベクトル、ハフマンコーディングされていないスカラー量子化されたV-ベクトル、およびハフマンコーディングされたスカラー量子化されたV-ベクトルのうちの選択された1つを、コーディングされたフォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット42に提供してもよい。量子化ユニット52はまた、量子化モードを示すシンタックス要素(たとえば、NbitsQシンタックス要素)と、V-ベクトルを逆量子化するために、またはそうでなければ再構築するために使用される任意の他のシンタックス要素とを提供してもよい。
【0066】
オーディオ符号化デバイス20内に含まれる音響心理学的オーディオコーダユニット40は、音響心理学的オーディオコーダの複数の実体を表してもよく、これらの各々が、エネルギー補償された環境HOA係数47'と補間されたnFG信号49'の各々の異なるオーディオオブジェクトまたはHOAチャネルを符号化して、符号化されたHOA係数59および符号化されたnFG信号61を生成するために使用される。音響心理学的オーディオコーダユニット40は、符号化された環境HOA係数59および符号化されたnFG信号61をビットストリーム生成ユニット42に出力してもよい。
【0067】
オーディオ符号化デバイス20内に含まれるビットストリーム生成ユニット42は、既知のフォーマット(復号デバイスにより知られているフォーマットを指す場合がある)に合わせるためにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。ビットストリーム21は、言い換えると、上で説明された方式で符号化されている、符号化されたオーディオデータを表す場合がある。ビットストリーム生成ユニット42は、いくつかの例ではマルチプレクサを表すことがあり、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とを受け取ってもよい。ビットストリーム生成ユニット42は次いで、コーディングされたフォアグラウンドV[k]ベクトル57、符号化された環境HOA係数59、符号化されたnFG信号61、およびバックグラウンドチャネル情報43に基づいて、ビットストリーム21を生成してもよい。このようにして、ビットストリーム生成ユニット42はそれによって、
図7の例に関して以下でより詳細に説明されるように、ビットストリーム21の中でベクトル57を指定してビットストリーム21を取得してもよい。ビットストリーム21は、一次ビットストリームまたは主要ビットストリームと、1つまたは複数のサイドチャネルビットストリームとを含んでもよい。
【0068】
本開示の1つまたは複数の態様によれば、ビットストリーム生成ユニット42は、オーディオオブジェクトと関連付けられる1つまたは複数の特異値に基づいて、ビットをオーディオオブジェクトに割り振ってもよい。たとえば、バックグラウンドオーディオオブジェクトの特異値が、コーディングされたフォアグラウンドV[k]ベクトル57および符号化されたnFG信号61がシグナリングされるオーディオデータを適切に表す、またはそうでなければ記述する程度に十分(たとえば、振幅が)小さい場合、ビットストリーム生成ユニット42は、コーディングされたフォアグラウンドV[k]ベクトル57に利用可能なビットのすべてを割り振ってもよい。たとえば、オーディオオブジェクトの特異値は、(たとえば、エネルギーの平方根を表現することによって)オーディオオブジェクトのエネルギーに対応する。バックグラウンドオーディオオブジェクトのV[k]ベクトルおよび/またはUS[k]ベクトルの中の大きい値に対して小さい量子化誤差がある場合、量子化誤差は可聴であってもよい。逆に、バックグラウンドオーディオオブジェクトのV[k]ベクトルおよび/またはUS[k]ベクトルの中の小さい値に対して小さい量子化誤差がある場合、量子化誤差は可聴ではないことがある。
【0069】
そして、ビットストリーム生成ユニット42は、量子化誤差が可聴であるというこれらの側面を活用して、オーディオオブジェクトと関連付けられる特異値の強度(たとえば、振幅)に直接比例する方式で、ビットをオーディオオブジェクトに割り振ってもよい。たとえば、オーディオオブジェクトがより小さい振幅の(たとえば、閾値の振幅未満の)特異値と関連付けられるとき、ビットストリーム生成ユニット42は、より少数の利用可能なビット(または0ビットすら)をそのようなオーディオオブジェクトのシグナリングに割り振ってもよい。一方、オーディオオブジェクトがより大きい振幅の(たとえば、閾値を満たす、またはそれを超える)特異値と関連付けられるとき、ビットストリーム生成ユニット42は、より多数の利用可能なビットをそのようなオーディオオブジェクトのシグナリングに割り振ってもよい。
【0070】
様々な例において、受信されるオーディオデータ(たとえば、コーディングされるフォアグラウンドV[k]ベクトル57、符号化される環境HOA係数59、および符号化されるnFG信号61)は、より小さい振幅の特異値を有するバックグラウンドオーディオオブジェクトと、より大きい振幅の特異値を有するフォアグラウンドオーディオオブジェクトとを含んでもよい。1つのそのような例では、ビットストリーム生成ユニット42は、(たとえば、ベクトルベースのビットストリーム21において指定されるように、および/またはシグナリングのために)利用可能なビットのすべてをフォアグラウンドオーディオオブジェクトに割り振り、(たとえば、ビットストリーム21において指定されるように、および/またはシグナリングのために)バックグラウンドオーディオオブジェクトにはビットを割り振らなくてもよい。別のそのような例では、ビットストリーム生成ユニット42は、各々のそれぞれの特異値の特異値振幅に比例する方式で、利用可能なビットの部分をフォアグラウンドオーディオオブジェクトおよびバックグラウンドオーディオオブジェクトの各々に割り振ってもよい。このようにして、ビットストリーム生成ユニット42は、エネルギー(たとえば、重要性)の降順でビットを割り振ってもよい。説明されたように、特異値の振幅は、関連するオーディオオブジェクトのエネルギー(および/または「固有値」)の平方根を記述する。
【0071】
本明細書で説明される技法のいくつかによれば、ビットストリーム生成ユニット42は、ビットストリーム21において指定されることに関して、単一のオーディオオブジェクトに割り振ることができるビットの数に対する上限(または「キャップ」または「最大値」)を設定してもよい。単一のオーディオオブジェクトに割り振ることができるビットの数を制限することによって、ビットストリーム生成ユニット42は、少数のオーディオオブジェクトをシグナリングすることにすべてのビットを割り振ることに起因する潜在的な誤りを少なくし、またはなくすことができ、この誤りにより、ベクトルベースのビットストリーム21において他の(潜在的に重要/重大である)オーディオオブジェクトの表現がなくなることがある。
【0072】
いくつかの例では、ビットストリーム生成ユニット42は、各オーディオオブジェクトの特異値の振幅に基づく式を適用することによって、ビットをオーディオオブジェクトに割り振ってもよい。1つのそのような例では、ビットストリーム生成ユニット42は、オーディオオブジェクトの特異値の振幅に基づいて、オーディオオブジェクトに従ってある割合の利用可能なビットを割り振ってもよい。たとえば、第1のフォアグラウンドオブジェクトが0.6という振幅を有する特異値を有する場合、ビットストリーム生成ユニット42は、第1のフォアグラウンドオブジェクトに利用可能なビットの60%を割り振ってもよい。加えて、第2のフォアグラウンドオブジェクトが0.3という振幅を有する特異値を有する場合、ビットストリーム生成ユニット42は、第2のフォアグラウンドオブジェクトに利用可能なビットの30%を割り振ってもよい。この例では、残りの10%も他のフォアグラウンドオーディオオブジェクトに割り振られる場合、ビットストリーム生成ユニットは、ビットを、いずれのバックグラウンドオーディオオブジェクトにも割り振らなくてもよい。この例では、ビットストリーム生成ユニット42は、単一のオーディオオブジェクトのビットの上限を60%以上に設定して、それにより、60%のビットの割振りを第1のフォアグラウンドオーディオオブジェクトに適応させることができる。
【0073】
いくつかの例では、ビットストリーム生成ユニット42は、音場のための特定のビット割振り方式を復号デバイスにシグナリングしてもよい。たとえば、ビットストリーム生成ユニット42は、ビット割振り方式を別々に、または、音場のオーディオオブジェクトを表すビットストリームの「帯域外で」シグナリングしてもよい。ビットストリーム生成ユニット42が特定の音場のためのビット割振り方式をシグナリングする例では、ビット割振り方式のデータは、音場に関する記述情報またはいわゆる「メタデータ」であると考えてもよい。いくつかの例では、ビットストリーム生成ユニット42はまた、メタデータの一部として、単一のオーディオオブジェクトに割り振ることができるビットの数に対する上限(「キャップ」または「最大値」)をシグナリングしてもよい。
【0074】
図3の例には示されないが、オーディオ符号化デバイス20はまた、現在のフレームが指向性ベースの合成を使用して符号化されるべきか、またはベクトルベースの合成もしくは分解を使用して符号化されるべきかに基づいて、オーディオ符号化デバイス20からビットストリーム出力を(たとえば、指向性ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含んでもよい。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)指向性ベースの合成が実行されたか、または(HOA係数が記録されたことを検出した結果として)ベクトルベースの合成もしくは分解が実行されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実行してもよい。ビットストリーム出力ユニットは、ビットストリーム21のそれぞれの1つとともに、切替えを、または現在のフレームのために使用される現在の符号化を示すために、正しいヘッダシンタックスを指定してもよい。
【0075】
その上、上で述べられたように、音場分析ユニット44は、環境HOA係数47に対するBG
TOTを特定することができ、これはフレームごとに変化する場合がある(ただし、時には、BG
TOTは2つ以上の(時間的に)隣接するフレームにわたって一定または同一のままであることがある)。BG
TOTの変化は、削減されたフォアグラウンドV[k]ベクトル55において表される係数の変化をもたらす場合がある。BG
TOTの変化は、フレームごとに変化するバックグラウンドHOA係数(「環境HOA係数」とも呼ばれる場合がある)をもたらす場合がある(ただし、やはり時には、BG
TOTは2つ以上の(時間的に)隣接するフレームにわたって一定または同一のままであることがある)。この変化はしばしば、追加の環境HOA係数の追加または除去、および削減されたフォアグラウンドV[k]ベクトル55からの係数の対応する除去またはそれへの係数の対応する追加によって表される、音場の態様に対するエネルギーの変化をもたらす場合がある。
【0076】
結果として、音場分析ユニット44はさらに、環境HOA係数がいつ変化するかをフレームごとに決定し、音場の環境成分を表すために使用されるという点で環境HOA係数に対する変化を示すフラグまたは他のシンタックス要素を生成してもよい(ここでこの変化は、環境HOA係数の「遷移」または環境HOA係数の「遷移」とも呼ばれる場合がある)。具体的には、係数削減ユニット46は、フラグ(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示されてもよい)を生成して、フラグがビットストリーム21に含まれてもよいようにフラグをビットストリーム生成ユニット42に(場合によってはサイドチャネル情報の一部として)提供してもよい。
【0077】
係数削減ユニット46はまた、環境係数遷移フラグを指定することに加えて、削減されたフォアグラウンドV[k]ベクトル55がどのように生成されるかを修正してもよい。一例では、環境HOA係数の1つが現在のフレームの間に遷移中であると決定すると、係数削減ユニット46は、遷移中の環境HOA係数に対応する削減されたフォアグラウンドV[k]ベクトル55のV-ベクトルの各々に対するベクトル係数(「ベクトル要素」または「要素」とも呼ばれる場合がある)を指定してもよい。やはり、遷移中の環境HOA係数は、バックグラウンド係数の総数BG
TOTを増大または減少させてもよい。したがって、バックグラウンド係数の総数の結果として起こる変化は、環境HOA係数がビットストリームに含まれるか含まれないかに、および、V-ベクトルの対応する要素が上で説明された第2および第3の構成モードにおいてビットストリーム中で指定されるV-ベクトルのために含まれるかどうかに、影響を与える。係数削減ユニット46が、どのように、削減されたフォアグラウンドV[k]ベクトル55を指定してエネルギーにおける変化を克服するかに関するより多くの情報は、2015年1月12日に出願された“TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS”と題する米国特許出願第14/594,533号において提供される。
【0078】
図4は、
図2のオーディオ復号デバイス24をより詳細に示すブロック図である。
図4の例に示されるように、オーディオ復号デバイス24は、抽出ユニット72と、指向性ベースの再構築ユニット90と、ベクトルベースの再構築ユニット92とを含んでもよい。以下で説明されるが、オーディオ復号デバイス24に関するさらなる情報およびHOA係数を展開またはそうでなければ復号する様々な態様は、2014年5月29日に出願された“INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”という表題の国際特許出願公開第2014/194099号において入手可能である。
【0079】
抽出ユニット72は、ビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されるユニットを表す場合がある。抽出ユニット72は、HOA係数11が、様々な指向性ベースのバージョンを介して符号化されたか、またはベクトルベースのバージョンを介して符号化されたかを示す、上で述べられたシンタックス要素から決定してもよい。指向性ベースの符号化が実行されたとき、抽出ユニット72は、HOA係数11の指向性ベースのバージョンと、符号化されたバージョンと関連付けられるシンタックス要素(これは
図4の例では指向性ベースの情報91として示される)とを抽出し、指向性ベースの情報91を指向性ベースの再構築ユニット90に渡すことができる。指向性ベースの再構築ユニット90は、指向性ベースの情報91に基づいてHOA係数11'の形式でHOA係数を再構築するように構成されるユニットを表す場合がある。ビットストリームおよびビットストリーム内のシンタックス要素の配置は、本開示の他の部分においてより詳細に説明される。
【0080】
HOA係数11がベクトルベースの合成または分解を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(これはコーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたV-ベクトルを含んでもよい)、符号化された環境HOA係数59、および対応するオーディオオブジェクト61(これは符号化されたnFG信号61とも呼ばれる場合がある)を抽出してもよい。オーディオオブジェクト61は各々、ベクトル57の1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をV-ベクトル再構築ユニット74に、符号化された環境HOA係数59とともに符号化されたnFG信号61を(任意選択の)音響心理学的復号ユニット80に渡すことができる。音響心理学的復号ユニット80は、オーディオ復号デバイス24の異なる実装形態に関して音響心理学的復号ユニット80が任意選択であることを示すために、
図4では破線の境界とともに示されている。
【0081】
いくつかの例では、抽出ユニット72は、ビットストリーム21によって表される音場のための特定のビット割振り方式を受信してもよい。たとえば、抽出ユニット72は、ビット割振り方式を別々に、または、音場のオーディオオブジェクトを表すビットストリームの「帯域外で」受信してもよい。抽出ユニット72が特定の音場のためのビット割振り方式を受信する例では、オーディオ復号デバイス24は、音場に関する記述情報またはいわゆる「メタデータ」としてビット割振り方式のデータを使用してもよい。
【0082】
たとえば、オーディオ復号デバイス24の1つまたは複数のコンポーネントは、ビット割振りメタデータを使用して、特定の数のビット(これは、ビットの総数のうちのある割合として表されてもよい)を各々のシグナリングされたオーディオオブジェクトに割り当てることができる。フォアグラウンドのみの状況において、オーディオ復号デバイス24は、受信されたメタデータを適用して、音場のすべてのビットを音場のフォアグラウンドオブジェクトに割り当てることができる。
図3に関して上で説明された特定のフォアグラウンドのみの状況によれば、オーディオ復号デバイス24は、特定のフォアグラウンドオーディオオブジェクトによって表示される個々のエネルギーに基づいて、音場の総ビットの60%を音場の第1のフォアグラウンドオーディオオブジェクトに割り当て、30%を音場の第2のフォアグラウンドオーディオオブジェクトに割り当てることができ、ビットの残りの10%を音場の残りのフォアグラウンドオーディオオブジェクトに分配してもよい。
【0083】
いくつかの例では、受信されたメタデータはまた、メタデータの一部として、単一のオーディオオブジェクトに割り振ることができるビットの数に対する上限(「キャップ」または「最大値」)を含んでもよい。これらの例では、オーディオ復号デバイス24は、対応する音場の個々のオーディオオブジェクトが受信された上限よりも多数のビットを割り当てることができないと決定してもよい。単一のオーディオオブジェクトに割り振ることができるビットの数を制限することによって、オーディオ復号デバイスは、少数のオーディオオブジェクトをレンダリングすることにすべてのビットを割り振ることに起因する潜在的な誤りを少なくし、またはなくすことができ、この誤りにより、レンダリングされる音場において他の(潜在的に重要/重大である)オーディオオブジェクトの表現がなくなることがある。
【0084】
V-ベクトル再構築ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57からV-ベクトルを再構築するように構成されるユニットを表す場合がある。V-ベクトル再構築ユニット74は、量子化ユニット52とは逆の方式で動作してもよい。
【0085】
音響心理学的復号ユニット80は、符号化された環境HOA係数59および符号化されたnFG信号61を復号し、それによって、エネルギー補償された環境HOA係数47'および補間されたnFG信号49'(補間されたnFGオーディオオブジェクト49'とも呼ばれる場合がある)を生成するために、
図3の例に示される音響心理学的オーディオコーダユニット40とは逆の方式で動作してもよい。音響心理学的復号ユニット80は、エネルギー補償された環境HOA係数47'をフェードユニット770に渡し、nFG信号49'をフォアグラウンド編成ユニット78に渡すことができる。
【0086】
空間-時間補間ユニット76は、空間-時間補間ユニット50に関して上で説明されたものと同様の方式で動作してもよい。空間-時間補間ユニット76は、削減されたフォアグラウンドV[k]ベクトル55
kを受け取り、フォアグラウンドV[k]ベクトル55
kおよび削減されたフォアグラウンドV[k-1]ベクトル55
k-1に関して空間-時間補間を実行して、補間されたフォアグラウンドV[k]ベクトル55
k''を生成してもよい。空間-時間補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55
k''をフェードユニット770に転送してもよい。
【0087】
抽出ユニット72はまた、環境HOA係数の1つが遷移中であることを示す信号757をフェードユニット770に出力することができ、フェードユニット770は次いで、SHC
BG47'(ここでSHC
BG47'は「環境HOAチャネル47''」または「環境HOA係数47''」とも示されてもよい)と補間されたフォアグラウンドV[k]ベクトル55
k''の要素のどちらがフェードインまたはフェードアウトされるかを決定してもよい。いくつかの例では、フェードユニット770は、環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55
k''の要素の各々に関して逆に動作してもよい。すなわち、フェードユニット770は、環境HOA係数47'の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行しながら、補間されたフォアグラウンドV[k]ベクトル55
k''の要素の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行してもよい。フェードユニット770は、調整された環境HOA係数47''をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55
k''をフォアグラウンド編成ユニット78に出力してもよい。この点において、フェードユニット770は、たとえば環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55
k''の要素の形の、HOA係数の様々な態様またはHOA係数から導出されたものに関して、フェード動作を実行するように構成されるユニットを表す。
【0088】
フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55
k'''および補間されたnFG信号49'に関して行列乗算を実行して、フォアグラウンドHOA係数65を生成するように構成される、ユニットを表す場合がある。この点において、フォアグラウンド編成ユニット78は、(補間されたnFG信号49'を表記するための別の方法である)オーディオオブジェクト49'をベクトル55
k'''と結合して、HOA係数11'のフォアグラウンドの、言い換えれば顕著な側面を再構築してもよい。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55
k'''によって補間されたnFG信号49'の行列乗算を実行してもよい。
【0089】
HOA係数編成ユニット82は、HOA係数11'を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47''と組み合わせるように構成されるユニットを表す場合がある。プライム表記は、HOA係数11'がHOA係数11と類似する場合があるが同じではないことを反映する。HOA係数11と11'との間の差分は、有損失の送信媒体、量子化、または他の有損失の動作を介する送信が原因の損失に起因する場合がある。
【0090】
図5Aは、本開示において説明される分解技法の様々な態様を実行する際の、
図3の例に示されるオーディオ符号化デバイス20のようなオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス20は、HOA係数11を受け取る(106)。オーディオ符号化デバイス20はLITユニット30を呼び出すことができ、LITユニット30は、HOA係数に関してLITを適用して変換されたHOA係数を出力してもよい(たとえば、SVDの場合、変換されたHOA係数はUS[k]ベクトル33およびV[k]ベクトル35を備える場合がある)(107)。
【0091】
オーディオ符号化デバイス20は次に、パラメータ計算ユニット32を呼び出して、US[k]ベクトル33、US[k-1]ベクトル33、V[k]および/またはV[k-1]ベクトル35の任意の組合せに関して上で説明された分析を実行して、上で説明された方式で様々なパラメータを特定してもよい。すなわち、パラメータ計算ユニット32は、変換されたHOA係数33/35の分析に基づいて、少なくとも1つのパラメータを決定してもよい(108)。
【0092】
オーディオ符号化デバイス20は次いで、並べ替えユニット34を呼び出すことができ、並べ替えユニット34は、上で説明されたように、並べ替えられた変換されたHOA係数33'/35'(または言い換えると、US[k]ベクトル33'およびV[k]ベクトル35')を生成するために、パラメータに基づいて変換されたHOA係数(これは、SVDの状況ではやはり、US[k]ベクトル33およびV[k]ベクトル35を指す場合がある)を並べ替えることができる(109)。オーディオ符号化デバイス20は、前述の動作または後続の動作のいずれかの間に、音場分析ユニット44を呼び出すこともできる。音場分析ユニット44は、上で説明されたように、HOA係数11および/または変換されたHOA係数33/35に関して音場分析を実行して、フォアグラウンドチャネルの総数(nFG)45、バックグラウンド音場のオーダ(N
BG)、および、送信すべき追加のBG HOAチャネルの数(nBGa)とインデックス(i)(これらは
図3の例ではまとめてバックグラウンドチャネル情報43として示されてもよい)を決定してもよい(109)。
【0093】
オーディオ符号化デバイス20はまた、バックグラウンド選択ユニット48を呼び出すことができる。バックグラウンド選択ユニット48は、バックグラウンドチャネル情報43に基づいて、バックグラウンドまたは環境HOA係数47を決定してもよい(110)。オーディオ符号化デバイス20はさらに、フォアグラウンド選択ユニット36を呼び出すことができ、フォアグラウンド選択ユニット36は、nFG45(これはフォアグラウンドベクトルを特定する1つまたは複数のインデックスを表す場合がある)に基づいて音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]ベクトル33'および並べ替えられたV[k]ベクトル35'を選択してもよい(112)。
【0094】
オーディオ符号化デバイス20は、エネルギー補償ユニット38を呼び出すことができる。エネルギー補償ユニット38は、環境HOA係数47に関してエネルギー補償を実行して、バックグラウンド選択ユニット48によるHOA係数の様々な1つの削除が原因のエネルギーの損失を補償することができ(114)、それによって、エネルギー補償された環境HOA係数47'を生成してもよい。
【0095】
オーディオ符号化デバイス20はまた、空間-時間補間ユニット50を呼び出すことができる。空間-時間補間ユニット50は、並べ替えられた変換されたHOA係数33'/35'に関して空間-時間補間を実行して、補間されたフォアグラウンド信号49'(「補間されたnFG信号49'」とも呼ばれる場合がある)および残りのフォアグラウンド指向性情報53(「V[k]ベクトル53'」とも呼ばれる場合がある)を取得してもよい(116)。オーディオ符号化デバイス20は次いで、係数削減ユニット46を呼び出すことができる。係数削減ユニット46は、バックグラウンドチャネル情報43に基づいて、残りのフォアグラウンドV[k]ベクトル53に関して係数削減を実行して、(削減されたフォアグラウンドV[k]ベクトル55とも呼ばれる場合がある)削減されたフォアグラウンド指向性情報55を取得してもよい(118)。
【0096】
オーディオ符号化デバイス20は次いで、量子化ユニット52を呼び出して、上で説明された方式で、削減されたフォアグラウンドV[k]ベクトル55を圧縮し、コーディングされたフォアグラウンドV[k]ベクトル57を生成してもよい(120)。
【0097】
オーディオ符号化デバイス20はまた、音響心理学的オーディオコーダユニット40を呼び出すことができる。音響心理学的オーディオコーダユニット40は、エネルギー補償された環境HOA係数47'および補間されたnFG信号49'の各ベクトルを音響心理学的にコーディングし、符号化された環境HOA係数59および符号化されたnFG信号61を生成してもよい。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット42を呼び出すことができる。ビットストリーム生成ユニット42は、コーディングされたフォアグラウンド指向性情報57、コーディングされた環境HOA係数59、コーディングされたnFG信号61、およびバックグラウンドチャネル情報43に基づいて、ビットストリーム21を生成してもよい。
【0098】
図5Bは、本開示において説明されるコーディング技法を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャートである。
図5Bの例では、オーディオ符号化デバイス(たとえば、
図1および
図2のオーディオ符号化デバイス20)は、音場のオーディオオブジェクトと関連付けられる1つまたは複数の特異値を取得してもよい(150)。上で論じられたように、音場のオーディオオブジェクトは、フォアグラウンドオーディオオブジェクトおよびバックグラウンドオーディオオブジェクトを含んでもよい。加えて、オーディオ符号化デバイス20は、音場のHOA係数から取得された特異値が音場の少数のオーディオオブジェクトに集中しているかどうかを判定してもよい(152)。たとえば、オーディオ符号化デバイス20は、対応する固有値の平方根を計算することによって、各バックグラウンドオーディオオブジェクトの特異値を取得してもよい。加えて、オーディオ符号化デバイス20は、所定の最小エネルギー値に対応するように閾値の振幅を設定してもよい。
【0099】
オーディオ符号化デバイス20が、オーディオオブジェクトの特異値が音場の少数のオーディオオブジェクトだけに集中していると判定する場合(152の“Yes”の分岐)、オーディオ符号化デバイス20は、音場のフォアグラウンドオーディオオブジェクトだけをコーディングしてもよい(154)。逆に、オーディオ符号化デバイス20が、特異値が音場のオーディオオブジェクトにわたって相対的により分散していると判定する場合(152の“No”の分岐)、オーディオ符号化デバイス20は、音場のフォアグラウンドオーディオオブジェクトとバックグラウンドオーディオオブジェクトの両方をコーディングしてもよい(156)。
【0100】
加えて、ステップ154または156においてそれぞれのオーディオオブジェクトをコーディングすると、状況次第で、オーディオ符号化デバイス20は、音場のコーディングされたオーディオオブジェクトのためのビット割振りを決定してもよい(158)。オーディオ符号化デバイス20がフォアグラウンドオーディオオブジェクトだけをコーディングした(154)例では、オーディオ符号化デバイスは、(様々な比率で)フォアグラウンドオーディオオブジェクトだけにビットを割り振ってもよい。オーディオ符号化デバイス20がフォアグラウンドオーディオオブジェクトとバックグラウンドオーディオオブジェクトの両方をコーディングした(156)例では、オーディオ符号化デバイス20は、必須のビットをすべてのフォアグラウンドオーディオオブジェクトに割り振った後で、バックグラウンドオーディオオブジェクトに残りのビットを割り当てることができる。
【0101】
図6は、本開示において説明される技法の様々な態様を実行する際の、
図4に示されるオーディオ復号デバイス24のようなオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス24は、ビットストリーム21を受信してもよい(130)。ビットストリームを受信すると、オーディオ復号デバイス24は、抽出ユニット72を呼び出すことができる。議論の目的で、ベクトルベースの再構築が実行されるべきであることをビットストリーム21が示すと仮定すると、抽出ユニット72は、ビットストリームを解析して上で述べられた情報を取り出し、この情報をベクトルベースの再構築ユニット92に渡すことができる。
【0102】
言い換えると、抽出ユニット72は、(やはり、コーディングされたフォアグラウンドV[k]ベクトル57とも呼ばれる場合がある)コーディングされたフォアグラウンド指向性情報57、コーディングされた環境HOA係数59、および(コーディングされたフォアグラウンドnFG信号61またはコーディングされたフォアグラウンドオーディオオブジェクト61とも呼ばれる場合がある)コーディングされたフォアグラウンド信号を、上で説明された方式でビットストリーム21から抽出してもよい(132)。
【0103】
オーディオ復号デバイス24はさらに、逆量子化ユニット74を呼び出すことができる。逆量子化ユニット74は、コーディングされたフォアグラウンド指向性情報57をエントロピー復号し逆量子化して、削減されたフォアグラウンド指向性情報55
kを取得してもよい(136)。オーディオ復号デバイス24はまた、音響心理学的復号ユニット80を呼び出すことができる。音響心理学的オーディオ復号ユニット80は、符号化された環境HOA係数59および符号化されたフォアグラウンド信号61を復号して、エネルギー補償された環境HOA係数47'および補間されたフォアグラウンド信号49'を取得してもよい(138)。音響心理学的復号ユニット80は、エネルギー補償された環境HOA係数47'をフェードユニット770に渡し、nFG信号49'をフォアグラウンド編成ユニット78に渡すことができる。
【0104】
オーディオ復号デバイス24は次に、空間-時間補間ユニット76を呼び出すことができる。空間-時間補間ユニット76は、並べ替えられたフォアグラウンド指向性情報55
k'を受け取り、削減されたフォアグラウンド指向性情報55
k/55
k-1に関して空間-時間補間を実行して、補間されたフォアグラウンド指向性情報55
k''を生成してもよい(140)。空間-時間補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55
k''をフェードユニット770に転送してもよい。
【0105】
オーディオ復号デバイス24は、フェードユニット770を呼び出すことができる。フェードユニット770は、エネルギー補償された環境HOA係数47'がいつ遷移中であるかを示すシンタックス要素(たとえば、AmbCoeffTransitionシンタックス要素)を、(たとえば抽出ユニット72から)受信し、またはそうでなければ取得してもよい。フェードユニット770は、遷移シンタックス要素および維持される遷移状態情報に基づいて、調整された環境HOA係数47''をHOA係数編成ユニット82に出力する、エネルギー補償された環境HOA係数47'をフェードインまたはフェードアウトしてもよい。フェードユニット770はまた、シンタックス要素および維持されている遷移状態情報に基づいて、調整されたフォアグラウンドV[k]ベクトル55
k'''をフォアグラウンド編成ユニット78に出力する、補間されたフォアグラウンドV[k]ベクトル55
k''の対応する1つまたは複数の要素をフェードアウトまたはフェードインしてもよい(142)。
【0106】
オーディオ復号デバイス24は、フォアグラウンド編成ユニット78を呼び出すことができる。フォアグラウンド編成ユニット78は、調整されたフォアグラウンド指向性情報55
k'''によるnFG信号49'の行列乗算を実行して、フォアグラウンドHOA係数65を取得してもよい(144)。オーディオ復号デバイス24はまた、HOA係数編成ユニット82を呼び出すことができる。HOA係数編成ユニット82は、HOA係数11'を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47''に加算してもよい(146)。
【0107】
前述の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行されてもよい。いくつかの例示的な状況が下で説明されるが、本技法は例示的な状況に限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツ、映画スタジオ、音楽スタジオ、ゲーミングオーディオスタジオ、チャネルベースのオーディオコンテンツ、コーディングエンジン、ゲームオーディオステム、ゲームオーディオコーディング/レンダリングエンジン、および配信システムを含んでもよい。
【0108】
映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受け取ることができる。いくつかの例では、オーディオコンテンツは、取得の成果を表す場合がある。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、(たとえば、2.0、5.1、および7.1の)チャネルベースのオーディオコンテンツを出力してもよい。音楽スタジオは、DAWを使用することなどによって、(たとえば、2.0および5.1の)チャネルベースのオーディオコンテンツを出力してもよい。いずれの場合でも、コーディングエンジンは、配信システムによる出力のために、1つまたは複数のコーデック(たとえば、AAC、AC3、Dolby True HD、Dolby Digital Plus、およびDTS Master Audio)に基づいて、チャネルベースのオーディオコンテンツを受け取り符号化してもよい。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力してもよい。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースのオーディオコンテンツへとコーディングおよびまたはレンダリングしてもよい。本技法が実行されてもよい別の例示的な状況は、放送用録音オーディオオブジェクト、プロフェッショナルオーディオシステム、消費者向けオンデバイスキャプチャ、HOAオーディオフォーマット、オンデバイスレンダリング、消費者向けオーディオ、TV、アクセサリ、およびカーオーディオシステムを含んでもよい、オーディオエコシステムを備える。
【0109】
放送用録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、HOAオーディオフォーマットを使用して出力をコーディングしてもよい。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、アクセサリ、およびカーオーディオシステムを使用して再生されてもよい単一の表現へと、HOAオーディオフォーマットを使用してコーディングされてもよい。言い換えると、オーディオコンテンツの単一の表現は、オーディオ再生システム16のような、一般的なオーディオ再生システムにおいて(すなわち、5.1、7.1などのような特定の構成を必要とするのではなく)再生されてもよい。
【0110】
本技法が実行されてもよい状況の他の例は、取得要素および再生要素を含んでもよいオーディオエコシステムを含む。取得要素は、有線および/またはワイヤレス取得デバイス(たとえば、Eigenマイクロフォン)、オンデバイスサラウンドサウンドキャプチャ、およびモバイルデバイス(たとえば、スマートフォンおよびタブレット)を含んでもよい。いくつかの例では、有線および/またはワイヤレス取得デバイスは、有線および/またはワイヤレス通信チャネルを介してモバイルデバイスに結合されてもよい。
【0111】
本開示の1つまたは複数の技法によれば、モバイルデバイスは音場を取得するために使用されてもよい。たとえば、モバイルデバイスは、有線および/もしくはワイヤレス取得デバイスならびに/またはオンデバイスサラウンドサウンドキャプチャ(たとえば、モバイルデバイスに組み込まれた複数のマイクロフォン)を介して、音場を取得してもよい。モバイルデバイスは次いで、再生要素の1つまたは複数による再生のために、取得された音場をHOA係数へとコーディングしてもよい。たとえば、モバイルデバイスのユーザは、ライブイベント(たとえば、会合、会議、演劇、コンサートなど)を録音(ライブイベントの音場を取得)して、その録音をHOA係数へとコーディングしてもよい。
【0112】
モバイルデバイスはまた、再生要素の1つまたは複数を利用して、HOAコーディングされた音場を再生してもよい。たとえば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素の1つまたは複数に音場を再生成させる信号を再生要素の1つまたは複数に出力してもよい。一例として、モバイルデバイスは、有線および/またはワイヤレス通信チャネルを利用して、信号を1つまたは複数のスピーカー(たとえば、スピーカーアレイ、サウンドバーなど)に出力してもよい。別の例として、モバイルデバイスは、ドッキングによる方法を利用して、1つまたは複数のドッキングステーションおよび/または1つまたは複数のドッキングされたスピーカー(たとえば、スマートカーおよび/またはスマートホームにおけるサウンドシステム)に信号を出力してもよい。別の例として、モバイルデバイスは、たとえばリアルなバイノーラルサウンドを生成するために、ヘッドフォンレンダリングを利用して、ヘッドフォンのセットに信号を出力してもよい。
【0113】
いくつかの例では、特定のモバイルデバイスは、3D音場を取得することと、後で同じ3D音場を再生することとの両方を行うことができる。いくつかの例では、モバイルデバイスは、3D音場を取得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(たとえば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信してもよい。
【0114】
本技法が実行されてもよいさらに別の状況は、オーディオコンテンツ、ゲームスタジオ、コーディングされたオーディオコンテンツ、レンダリングエンジン、および配信システムを含んでもよい、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、HOA信号の編集をサポートする場合がある、1つまたは複数のDAWを含んでもよい。たとえば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(たとえば、機能する)ように構成されてもよい、HOAプラグインおよび/またはツールを含んでもよい。いくつかの例では、ゲームスタジオは、HOAをサポートする新たなステムフォーマットを出力してもよい。いずれにしても、ゲームスタジオは、コーディングされたオーディオコンテンツを、配信システムによる再生のために音場をレンダリングする場合があるレンダリングエンジンに出力してもよい。
【0115】
本技法はまた、例示的なオーディオ取得デバイスに関して実行されてもよい。たとえば、本技法は、3D音場を記録するように全体的に構成される複数のマイクロフォンを含んでもよい、Eigenマイクロフォンに関して実行されてもよい。いくつかの例では、Eigenマイクロフォンの複数のマイクロフォンは、半径が約4cmの実質的に球形のボールの表面上に配置されてもよい。いくつかの例では、オーディオ符号化デバイス20は、マイクロフォンから直接ビットストリーム21を出力するために、Eigenマイクロフォンに統合されてもよい。
【0116】
別の例示的なオーディオ取得の状況は、1つまたは複数のEigenマイクロフォンのような1つまたは複数のマイクロフォンから信号を受信するように構成されてもよい中継車を含んでもよい。中継車はまた、
図3のオーディオエンコーダ20のようなオーディオエンコーダを含んでもよい。
【0117】
モバイルデバイスはまた、いくつかの例では、3D音場を記録するように全体的に構成される複数のマイクロフォンを含んでもよい。言い換えると、複数のマイクロフォンは、X、Y、Zのダイバーシティを有する場合がある。いくつかの例では、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転されてもよい、マイクロフォンを含んでもよい。モバイルデバイスはまた、
図3のオーディオエンコーダ20のようなオーディオエンコーダを含んでもよい。
【0118】
高耐久性のビデオキャプチャデバイスがさらに、3D音場を記録するように構成されてもよい。いくつかの例では、高耐久性のビデオキャプチャデバイスは、活動に関与しているユーザのヘルメットに取り付けられてもよい。たとえば、高耐久性のビデオキャプチャデバイスは、ホワイトウォーターラフティング中のユーザのヘルメットに取り付けられてもよい。このようにして、高耐久性のビデオキャプチャデバイスは、ユーザの周囲の活動を表す3D音場(たとえば、ユーザの背後の水しぶき、ユーザの前にいる別のラフターの声など)をキャプチャしてもよい。
【0119】
本技法はまた、3D音場を記録するように構成されてもよい、アクセサリにより増強されたモバイルデバイスに関して実行されてもよい。いくつかの例では、モバイルデバイスは上で論じられたモバイルデバイスと同様であってよく、1つまたは複数のアクセサリが追加されている。たとえば、Eigenマイクロフォンは、アクセサリで増強されたモバイルデバイスを形成するために、上で述べられたモバイルデバイスに取り付けられてもよい。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャコンポーネントを使用するだけの場合よりも、高品質なバージョンの3D音場をキャプチャしてもよい。
【0120】
本開示において説明される本技法の様々な態様を実行する場合がある例示的なオーディオ再生デバイスが、下で論じられる。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、3D音場を再生しながらでも、あらゆる任意の構成で並べられてもよい。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してデコーダ24に結合されてもよい。本開示の1つまたは複数の技法によれば、音場の単一の一般的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用されてもよい。
【0121】
いくつかの異なる例示的なオーディオ再生環境も、本開示において説明される技法の様々な態様を実行するのに適していることがある。たとえば、5.1スピーカー再生環境、2.0(たとえば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、オートモーティブスピーカー再生環境、およびイヤホン再生環境を伴うモバイルデバイスが、本開示において説明される技法の様々な態様を実行するための適切な環境であってもよい。
【0122】
本開示の1つまたは複数の技法によれば、音場の単一の一般的な表現が、前述の再生環境のいずれかで音場をレンダリングするために利用されてもよい。加えて、本開示の技法は、上で説明されたもの以外の再生環境での再生のために、レンダラが一般的な表現から音場をレンダリングすることを可能にする場合がある。たとえば、設計上の考慮事項が7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(たとえば、右のサラウンドスピーカーを配置することが可能ではない場合)、本開示の技法は、6.1スピーカー再生環境での再生が達成されてもよいように、レンダラが他の6つのスピーカーによって補償することを可能にする。
【0123】
その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を観ることがある。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が取得されてよく(たとえば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周囲に配置されてよく)、3D音場に対応するHOA係数が取得されデコーダに送信されてよく、デコーダがHOA係数に基づいて3D音場を再構築し、再構築された3D音場をレンダラに出力することができ、レンダラは、再生環境のタイプ(たとえば、ヘッドフォン)についての指示を取得し、再構築された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングしてもよい。
【0124】
上で説明された様々な例の各々において、オーディオ符号化デバイス20が、方法を実行してよく、またはそうでなければ、オーディオ符号化デバイス20が実行するように構成される方法の各ステップを実行するための手段を備えてよいことを理解されたい。いくつかの例では、この手段は、1つまたは複数のプロセッサを備えてよい。いくつかの例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶されている命令によって構成される、特別なプロセッサを表す場合がある。言い換えると、符号化の例のセットの各々における本技法の様々な態様は、実行されると、オーディオ符号化デバイス20が実行するように構成されている方法を1つまたは複数のプロセッサに実行させる命令を記憶している、非一時的コンピュータ可読記憶媒体を提供してもよい。
【0125】
図7は、線グラフ180のセットを示す概念図である。線グラフ180のセットは、様々なキャプチャされた音場の特異値の分布を表す。線グラフ180のセットの各線グラフは、様々な音場のオーディオオブジェクトの特異値をプロットする。具体的な例として、線グラフ182は「マルハナバチ」の音場の特異値をプロットし、線グラフ184は「ドラム」の音場の特異値をプロットし、線グラフ186は「モデム」の音場の特異値をプロットし、線グラフ188は「現代電子音楽」の音場の特異値をプロットする。
図7の他の線グラフは、「競技場」、「水」、「ヘリコプター」、「ボーカル」、「コンサートの開始」、「オーケストラ」、「叫んでいる聴衆」、および「ラジオ」の設定を表す音場と関連付けられる。
図7に示されるように、線グラフ182(マルハナバチ)、186(モデム)、および188(現代電子音楽)の各々は、0に等しい、またはほぼ0に等しい振幅を有するバックグラウンドオーディオオブジェクトの特異値を含む。より具体的には、線グラフ182、184、186、および188の各々においてそれぞれの垂直方向の線の右側に位置するプロット点は、実質的にそれぞれのx軸上にある。
【0126】
いくつかの例では、音場分析ユニット44は、小さい振幅を有するこれらのバックグラウンドオーディオオブジェクトの特異値に基づいて、線グラフ182、186、および188にプロットされた音と関連付けられるバックグラウンドオーディオオブジェクトをコーディングしなくてもよい。いくつかの例では、ビットストリーム生成ユニット42は、小さい振幅を有するこれらのバックグラウンドオーディオオブジェクトの特異値に基づいて、線グラフ182、186、および188にプロットされた音と関連付けられるバックグラウンドオーディオオブジェクトのシグナリングにほとんど(またはまったく)ビットを割り振らなくてもよい。これらの例では、音場分析ユニット44およびビットストリーム生成ユニット42の一方または両方がそれでも、それぞれ、ビットをコーディングし、および/またはビットをフォアグラウンドオーディオオブジェクトに割り振ってもよい。
【0127】
対照的に、線グラフ184(ドラム)は、0よりも大きい(またはるかに大きい)振幅を有する特異値と関連付けられるバックグラウンドオーディオオブジェクトを示す。この例では、音場分析ユニット44および/またはビットストリーム生成ユニット42は、それぞれ、より大きい振幅を有するこれらのバックグラウンドオーディオオブジェクトの特異値に基づいて、ビットをコーディングし、および/またはビットをドラムの音のバックグラウンドオーディオオブジェクトに割り振ってもよい。このようにして、オーディオ符号化デバイス20は、本開示の技法を実施して、オーディオオブジェクトの特異値ベースのコーディングおよび/またはシグナリングを実施してもよい。
【0128】
図8は、本明細書で説明される技法による、オーディオオブジェクトのシグナリング方式を示す概念図である。
図8の右側に図示されるオーディオシグナリング方式214は、バックグラウンドオーディオオブジェクトがシグナリングされる必要がない程度にバックグラウンドオーディオオブジェクトと関連付けられる特異値が十分に小さい状況において、オーディオ符号化デバイス20が本開示の1つまたは複数の態様に従って実装してもよいシグナリング方式を示す。オーディオオブジェクトのシグナリング方式214の例では、オーディオ符号化デバイス20は、フォアグラウンドオーディオオブジェクト(“V
L”)およびバックグラウンドオーディオオブジェクト(“V
H”)を隣接する列に並べることができる。一例では、オーディオオブジェクトシグナリング方式214の左の列は、全体で6つのフォアグラウンドオーディオオブジェクトを含んでもよい。バックグラウンドオーディオオブジェクトの特異値が0に近い(たとえば、閾値未満である)とオーディオ符号化デバイス20が決定する場合、オーディオ符号化デバイス20は、左の列に並べられた6つのフォアグラウンドオーディオオブジェクトだけをコーディングおよび/またはシグナリングしてもよい。
【0129】
図8の左側に図示される従来のオーディオオブジェクトシグナリング方式212は、オーディオオブジェクトシグナリング方式214の特異値ベースの技法とは対照的なシグナリング方式を示す。
図8に示されるように、従来のオーディオオブジェクトシグナリング方式212によれば、オーディオ符号化デバイス20は、(列の形で並べられた)2つのフォアグラウンドオーディオオブジェクトと、(行の形で並べられた)4つのバックグラウンドオーディオオブジェクトとをシグナリングする場合がある。
【0130】
エネルギーが集中しているフレームのための特異値ベースのコーディング方式214に従って、オーディオ符号化デバイス20は、上位の6つの(変化する)US信号と、上位の6つの変化するUS信号に対応するV-ベクトルとを量子化してもよい。このようにして、オーディオ符号化デバイス20は、より高い特異値成分に対して、AACのためのより多くのビットを割り振ってもよい。
【0131】
このようにして、オーディオ符号化デバイス20(および音場分析ユニット44のような、その1つまたは複数のコンポーネント)は、本開示の技法に従って、音場を表す高次アンビソニックス(HOA)係数を圧縮する方法を実行することができ、この方法は、HOA係数のベクトルベースの合成または分解を通じて取得される1つまたは複数のフォアグラウンドオーディオオブジェクトを補強するためにHOA係数の環境HOA係数をいつ使用するかを、同様にHOA係数のベクトルベースの合成または分解を通じて取得される1つまたは複数の特異値に基づいて決定するステップを備え、環境HOA係数は音場の環境成分を表す。いくつかの例では、HOA係数はまた、音場の1つまたは複数のフォアグラウンドオーディオオブジェクトを表す1つまたは複数のフォアグラウンドHOA係数を含んでもよい。いくつかの例では、1つまたは複数のフォアグラウンドオーディオオブジェクトを補強するために環境HOA係数をいつ使用するかを決定するステップは、(たとえば、音場分析ユニット44によって)HOA係数のベクトルベースの合成または分解を通じて取得される1つまたは複数の特異値を分析するステップを備える。
【0132】
いくつかの例では、1つまたは複数のフォアグラウンドオーディオオブジェクトを補強するために環境HOA係数をいつ使用するかを決定するステップは、(たとえば、音場分析ユニット44によって)1つまたは複数の特異値の1つまたは複数の環境特異値が閾値未満であるかどうかを判定するステップであって、環境特異値が音場の環境成分と関連付けられる、ステップと、環境成分と関連付けられる1つまたは複数の環境特異値が閾値未満であるときに、(たとえば、音場分析ユニット44によって)フォアグラウンドオーディオオブジェクトを補強するために環境HOA係数を使用しないと決定するステップとを備える。いくつかの例では、1つまたは複数のフォアグラウンドオーディオオブジェクトを補強するために環境HOA係数をいつ使用するかを決定するステップは、1つまたは複数の環境特異値が閾値以上であるときに、(たとえば、音場分析ユニット44によって)フォアグラウンドオーディオオブジェクトを補強するために環境HOA係数を使用することを決定するステップを備える。
【0133】
いくつかの例では、1つまたは複数の特異値の各々は、対応するエネルギー値の平方根を表す。いくつかの例では、1つまたは複数の特異値の各々は、対応する固有値の平方根を表す。いくつかの例では、オーディオ符号化デバイス20によって実行される方法はさらに、1つまたは複数の特異値を含む1つまたは複数のS行列をコーディングするステップを含んでもよい。いくつかの例では、オーディオ符号化デバイス20によって実行される方法は、(たとえば、ビットストリーム生成ユニット42によって)1つまたは複数の特異値を含む1つまたは複数のS行列をコーディングするステップを含む。いくつかの例では、(たとえば、音場分析ユニット44によって)1つまたは複数のフォアグラウンドオーディオオブジェクトを補強するために環境HOA係数をいつ使用するかを決定するステップは、1つまたは複数の特異値の1つまたは複数の環境特異値に対応する1つまたは複数の振幅に基づき、環境特異値は音場の環境成分と関連付けられる。いくつかの例では、1つまたは複数のフォアグラウンドオーディオオブジェクトを補強するために環境HOA係数をいつ使用するかを決定するステップは、(たとえば、音場分析ユニット44によって)フォアグラウンドオーディオオブジェクトを補強するために環境HOA係数を使用することを決定するステップと、(たとえば、ビットストリーム生成ユニット42によって)環境成分に割り当てるべきビットの数を決定するステップとを備える。
【0134】
このようにして、オーディオ復号デバイス24(および/または抽出ユニット72のようなその様々なコンポーネント)は、本開示の態様に従って、音場を表す符号化された高次アンビソニックス(HOA)係数を復号する方法を実行するように動作可能であってよく、この方法は、ビットストリーム(たとえば、ベクトルベースのビットストリーム21)から1つまたは複数の環境HOA係数を抽出するかどうかを判定するステップを備える。1つのそのような例では、1つまたは複数の環境HOA係数は音場の環境成分を表す。
【0135】
このようにして、本開示の技法によれば、オーディオ符号化デバイス20(およびビットストリーム生成ユニット42のようなその1つまたは複数のコンポーネント)は、音場を表す高次アンビソニックス(HOA)係数を圧縮する方法を実行することができ、この方法は、オーディオオブジェクトと関連付けられるエネルギー(またはエネルギー値)に基づいて、音場のオーディオオブジェクトにビットを割り振るステップを備え、オーディオオブジェクトは、HOA係数のベクトルベースの合成または分解を通じて取得される。いくつかの例では、(たとえば、ビットストリーム生成ユニット42によって割り振られるような)割り振られるビットの数は、オーディオオブジェクトと関連付けられるエネルギー(またはエネルギー値)に比例する。1つのそのような例では、(たとえば、ビットストリーム生成ユニット42によって割り振られるような)割り振られるビットの数は、オーディオオブジェクトと関連付けられるエネルギー(またはエネルギー値)に直接比例する。
【0136】
ビットストリーム生成ユニット42によって実行されてもよい方法のいくつかの例では、オーディオオブジェクトは音場の複数のオーディオオブジェクトに含まれ、割り振られるビットはビットのセットから選択され、ビットをオーディオオブジェクトに割り振るステップは、エネルギーの降順でビットのセットを複数のオーディオオブジェクトに割り振るステップを備える。ビットストリーム生成ユニット42が実行してもよい方法の1つのそのような例では、複数のオーディオオブジェクトの各オーディオオブジェクトは対応する特異値と関連付けられ、各々の対応する特異値は対応するエネルギーレベルの平方根を表す。
【0137】
ビットストリーム生成ユニット42が実行してもよい方法のいくつかの例では、複数のオーディオオブジェクトは、1つまたは複数のフォアグラウンドオーディオオブジェクトと1つまたは複数のバックグラウンドオーディオオブジェクトとを含む。1つのそのような例では、ビットのセットを割り振るステップは、(たとえば、ビットストリーム生成ユニット42によって)ビットのセットのすべてのビットを1つまたは複数のフォアグラウンドオーディオオブジェクトに割り振るステップを備える。別のそのような例では、ビットのセットを割り振るステップは、(たとえば、ビットストリーム生成ユニット42によって)ビットのセットの第1の部分を1つまたは複数のフォアグラウンドオーディオオブジェクトに割り振り、ビットのセットの第2の部分を1つまたは複数のバックグラウンドオーディオオブジェクトの少なくとも1つのバックグラウンドオーディオオブジェクトに割り振るステップを備える。
【0138】
いくつかの例では、ビットストリーム生成ユニット42によって実行される方法はさらに、複数のオーディオオブジェクトの単一のオーディオオブジェクトに割り振ることができるビットの最大の数を決定するステップを備える。1つのそのような例では、ビットのセットを割り振るステップは、複数のオーディオオブジェクトのいずれのオーディオオブジェクトも、最大の数を超える数のビットに割り振られないように、(たとえば、ビットストリーム生成ユニット42によって)ビットのセットを割り振るステップを備える。いくつかの例では、ビットのセットを割り振るステップは、複数のオーディオオブジェクトの各オーディオオブジェクトの対応する特異値の振幅に従って、(たとえば、ビットストリーム生成ユニット42によって)ビットのセットを割り振るステップを備える。
【0139】
いくつかのそのような例では、各々の対応する特異値の振幅に従ってビットのセットを割り振るステップは、(たとえば、ビットストリーム生成ユニット42によって)ビットのセットのうちのより大きい割合をより大きい振幅を有する第1のオーディオオブジェクトに割り振り、ビットのセットのうちのより小さい割合をより小さい振幅を有する第2のオーディオオブジェクトに割り振るステップを備える。1つのそのような例では、ビットストリーム生成ユニット42が実行してもよい方法はさらに、第1のオーディオオブジェクトのより大きい振幅と第2のオーディオオブジェクトのより小さい振幅とに基づいて、上記のより大きい割合およびより小さい割合をそれぞれの百分率の値として計算するステップを含む。
【0140】
本開示の様々な態様によれば、オーディオ符号化デバイス20(および/またはその1つまたは複数のコンポーネント)は、音場を表す高次アンビソニックス(HOA)係数を圧縮する方法を実行するように構成されてよく、この方法は、(たとえば、ビットストリーム生成ユニット42によって)音場を表す複数のオーディオオブジェクトの単一のオーディオオブジェクトに割り振ることができるビットの数に上限を設定するステップを備える。
【0141】
このようにして、オーディオ復号デバイス24(および/または抽出ユニット72のようなその様々なコンポーネント)は、本開示の態様によれば、音場を表す符号化された高次アンビソニックス(HOA)係数を復号する方法を実行するように動作可能であってよく、この方法は、音場を表す符号化された高次アンビソニックス(HOA)係数を復号するステップを含み、この方法は、オーディオオブジェクトと関連付けられるエネルギーに基づいて、音場のオーディオオブジェクトにビットを割り振るステップを備え、オーディオオブジェクトは、符号化されたHOA係数のベクトルベースの合成を通じて取得される。いくつかの例では、オーディオ符号化デバイス24によって実行される方法はさらに、音場のためのビット割振り方式を符号化されたビットストリーム(たとえば、ビットストリーム21)の一部として受信するステップを含んでもよい。
【0142】
いくつかの例では、ビット割振り方式は、音場と関連付けられるメタデータに含まれてもよい。いくつかの例では、音場と関連付けられるメタデータはさらに、音場を表す複数のオーディオオブジェクトの単一のオーディオオブジェクトに割り振ることができるビットの数に対する上限を含んでもよい。オーディオ復号デバイス24によって実行される方法のいくつかの例では、ビットを割り振るステップは、音場のいずれのオーディオオブジェクトも、最大の数を超える数のビットを割り振られないように、ビットを割り振るステップを含んでもよい。
【0143】
例1.様々な例において、行列USおよびVは、列ベクトルのセット{US_i, V_i}からなる。i番目のベクトル(US_i, V_i)、およびj番目のベクトル(US_j, V_j)は重要性が異なるので、各ベクトルへの動的なビットの割振りが開示される。i番目のベクトル(US_i, V_i)は、対応する特異値S_i_iを有し、ここでS_i_i≧0である。より高い特異値は、その信号のより大きいエネルギー集中に対応する。したがって、特異値の比率、すなわちS_i_i: allocatedRate = TOTALRATE * S_i_i / sum(S_i_i)に従ってビット全体がi番目のベクトル(US_i, V_i)に割り振られ、ここでsum(S_i_i)は特異値全体の合計である。
【0144】
例1a:(US_i, V_i)のために割り振られる割合の上限は、まず、(US_i, V_i)は、対応する特異値に従って降順に整列される。計算されたallocatedRateが事前に定義された上限より大きいとき、上限の量のビットが割り振られる。残りのビットは残りの(US_i, V_i)のために使用される。
【0145】
例1b:S_i_i^2はエネルギーに対応するので、S_i_i^2がS_i_iの代わりに使用可能である。
【0146】
例2:エネルギーの大半が少数の特異値に集中している場合、フォアグラウンド信号のみ(=US行列およびV行列の最初の少数の列)がコーディングされ送信されてもよい。この場合、バックグラウンド信号(=US行列およびV行列の最初の数行)は送信されない。ある試験項目に対して、エネルギーの99%が上位の6つの特異値に集中する。この場合、6つのフォアグラウンド信号だけがコーディングされデコーダに送信される。このことは、2つのフォアグラウンド信号と4つのバックグラウンド信号がコーディングされ送信される従来のシステムよりも良好な品質をもたらす可能性がある。
【0147】
例2a:提案されたシステム(フォアグラウンドのみのコーディング)を使用するか、従来のシステム(フォアグラウンド+バックグラウンドのコーディング)を使用するかの判断は、特異値に基づいて行うことができる。事前に定義された数の特異値(たとえば6)がエネルギーの大半(たとえば99%)を含む場合、提案されるシステムを従来のシステムの代わりに使用することができる。
【0148】
例2b:上の例1において説明された技法に基づいて、ビットの割振りを実行することができる。
【0149】
図9A〜
図9Dは、本開示において説明される技法の様々な態様を実行する場合があるシステムと、
図9Aの放送ネットワークセンターのさらなる詳細とを示す概念図である。
図9Aは、本開示において説明される技法の様々な態様を実行する場合があるシステム10を示す図である。
図9の例に示されるように、システム10は、放送ネットワーク398とコンテンツ消費者デバイス14とを含む。放送ネットワーク398およびコンテンツ消費者デバイス14の状況で説明されるが、本技法は、SHC(HOA係数とも呼ばれる場合がある)または音場の任意の他の階層的表現がオーディオデータを表すビットストリームを形成するために符号化されるあらゆる状況において実施されてもよい。その上、放送ネットワーク398は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、デスクトップコンピュータ、または専用ハードウェアを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスの1つまたは複数を備えるシステムを表す場合がある。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表す場合がある。
【0150】
放送ネットワーク398は、コンテンツ消費者デバイス14のようなコンテンツ消費者による消費のためのマルチチャネルオーディオコンテンツおよび場合によってはビデオコンテンツを生成してもよい、任意のエンティティを表す場合がある。放送ネットワーク398は、スポーツイベントのようなイベントにおいて生のオーディオデータをキャプチャしながら、コメントのオーディオデータ、コマーシャルのオーディオデータ、イントロまたは終了のオーディオデータなどのような、様々な他のタイプの追加のオーディオデータを生のオーディオコンテンツに挿入することもできる。コンテンツ消費者デバイス14は、オーディオ再生システムを所有する、またはそれへのアクセス権を有する個人を表し、オーディオ再生システムは、マルチチャネルオーディオコンテンツとしての再生のために高次アンビソニックスオーディオデータ(球面調和係数とも呼ばれる場合がある高次オーディオ係数を含む)をレンダリングすることが可能な任意の形態のオーディオ再生システムを指す場合がある。
図9Aの例では、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。
【0151】
放送ネットワーク398は、様々なフォーマットの生の録音(直接HOA係数として記録することを含む)およびオーディオオブジェクトを記録し、またはそうでなければ取得する、マイクロフォン5を含む。マイクロフォン5が生のオーディオをHOA係数として直接取得するとき、マイクロフォン5は、
図9Aの例に示されるHOAトランスコーダ400のような、HOAトランスコーダを含んでもよい。言い換えると、マイクロフォン5とは別に示されるが、HOAトランスコーダ400の別の実体が、キャプチャされたフィードをHOA係数11へと自然にトランスコーディングするために、マイクロフォン5の各々の中に含まれてもよい。しかしながら、マイクロフォン5の中に含まれないとき、HOAトランスコーダ400は、マイクロフォン5から出力される生のフィードをHOA係数11へとトランスコーディングしてもよい。この態様では、HOAトランスコーダ400は、マイクロフォンフィードおよび/またはオーディオオブジェクトをHOA係数11へとトランスコーディングするように構成されるユニットを表す場合がある。したがって、放送ネットワーク398は、マイクロフォン5に組み込まれるものとして、マイクロフォン5とは別のHOAトランスコーダとして、またはこれらの何らかの組合せで、HOAトランスコーダ400を含む。
【0152】
放送ネットワーク398また、空間オーディオ符号化デバイス20、放送ネットワークセンター402、および音響心理学的オーディオ符号化デバイス406を含んでもよい。空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータ15を取得するために、HOA係数11に関して本開示において説明されるメザニン圧縮技法を実行することが可能なデバイスを表す場合がある。空間オーディオ符号化デバイス20は、
図1および
図2のオーディオ符号化デバイス20の1つの実装形態を表す場合があるので、本開示において同様に番号が付けられる。以下でより詳細に説明されるように、空間オーディオ符号化デバイス20は、HOA係数11に対するベクトルベースの合成の適用を通じて、HOA係数11に関してこのメザニン圧縮を実行するように構成されてもよい。
【0153】
空間オーディオ符号化デバイス20は、線形可逆変換(LI)の適用を伴うベクトルベースの合成方法を使用してHOA係数11を符号化するように構成されてもよい。線形可逆変換の一例は、「特異値分解」(または“SVD”)と呼ばれる。この例では、空間オーディオ符号化デバイス20は、HOA係数11にSVDを適用して、HOA係数11の分解されたバージョンを決定してもよい。空間オーディオ符号化デバイス20は次いで、HOA係数11の分解されたバージョンを分析して様々なパラメータを特定することができ、このことは、HOA係数11の分解されたバージョンの並べ替えを容易にする場合がある。空間オーディオ符号化デバイス20は次いで、特定されたパラメータに基づいてHOA係数11の分解されたバージョンを並べ替えることができ、ここで、以下でより詳細に説明されるようなそのような並べ替えは、この変換がHOA係数のフレームにわたってHOA係数を並べ替えてもよいと仮定するとコーディング効率を改善する場合がある(ここで、フレームはHOA係数11のM個のサンプルを一般に含み、Mはいくつかの例では1024に設定される)。HOA係数11の分解されたバージョンを並べ替えた後で、空間オーディオ符号化デバイス20は、HOA係数11の分解されたバージョンのうちの音場のフォアグラウンド(または言い換えると、明瞭な、支配的な、または顕著な)成分を表すものを選択してもよい。空間オーディオ符号化デバイス20は、オーディオオブジェクトおよび関連する指向性情報としてフォアグラウンド成分を表すHOA係数11の分解されたバージョンを指定してもよい。
【0154】
空間オーディオ符号化デバイス20はまた、HOA係数11のうちの音場の1つまたは複数のバックグラウンド(または言い換えると、環境)成分を表すものを特定するために、少なくとも一部、HOA係数11に関する音場分析を順番に実行してもよい。空間オーディオ符号化デバイス20は、いくつかの例では、バックグラウンド成分がHOA係数11の任意の所与のサンプルのサブセットだけを含んでもよい(たとえば、0次および1次の球面基底関数に対応するものを含み、2次以上の球面基底関数に対応するものを含まないなど)とすると、バックグラウンド成分に関してエネルギー補償を実行してもよい。オーダ削減が実行されるとき、空間オーディオ符号化デバイス20は、HOA係数11の残りのバックグラウンドHOA係数を補強して(たとえば、それにエネルギーを加算/それからエネルギーを減算して)、オーダ削減の実行に起因する全体のエネルギーの変化を補償してもよい。
【0155】
空間オーディオ符号化デバイス20は、フォアグラウンド指向性情報に関してある形式の補間を実行し、次いで、補間されたフォアグラウンド指向性情報に関してオーダ削減を実行して、オーダ削減されたフォアグラウンド指向性情報を生成してもよい。空間オーディオ符号化デバイス20はさらに、いくつかの例では、オーダ削減されたフォアグラウンド指向性情報に関して量子化を実行して、コーディングされたフォアグラウンド指向性情報を出力してもよい。いくつかの例では、この量子化はスカラー/エントロピー量子化を備える場合がある。空間オーディオ符号化デバイス20は次いで、バックグラウンド成分、フォアグラウンドオーディオオブジェクト、および量子化された指向性情報として、メザニンフォーマットされたオーディオデータ15を出力してもよい。バックグラウンド成分およびフォアグラウンドオーディオオブジェクトは、いくつかの例では、パルス符号変調された(PCM)トランスポートチャネルを備える場合がある。空間オーディオ符号化デバイス20は次いで、メザニンフォーマットされたオーディオデータ15を放送ネットワークセンター402に送信し、またはそうでなければ出力してもよい。
図9Aの例には示されないが、メザニンフォーマットされたオーディオデータ15のさらなる処理は、空間オーディオ符号化デバイス20から放送ネットワークセンター402への送信(暗号化、衛星圧縮方式、ファイバー圧縮方式などのような)に対応するために実行されてもよい。
【0156】
メザニンフォーマットされたオーディオデータ15は、いわゆるメザニンフォーマットに適合するオーディオデータを表すことができ、これは通常、オーディオデータの(MPEGサラウンド、MPEG-AAC、MPEG-USAC、または他の既知の形式の音響心理学的符号化のような、オーディオデータへの音響心理学的オーディオ符号化の適用を通じてもたらされるエンドユーザ圧縮よりも)軽度に圧縮されたバージョンである。低レイテンシのミキシング、編集、ならびに他のオーディオおよび/またはビデオ機能を提供する専用装置を放送事業者が好むとしても、放送事業者は、そのような専用装置のコストを考慮して装置を更新することに前向きではない。ビデオおよび/またはオーディオのビットレートの増大に対応し、高精細のビデオコンテンツまたは3Dオーディオコンテンツに対する作業に適合されていないことのある、より古い、または言い換えるとレガシーの装置との互換性を実現するために、放送事業者は、一般に「メザニン圧縮」と呼ばれるこの中間の圧縮方式を利用してファイルサイズを減らし、それによって、(ネットワークを通じた、またはデバイス間などの)転送時間を軽減し(特に古いレガシー装置のための)処理の改善を促してきた。言い換えると、このメザニン圧縮は、編集時間を軽減し、レイテンシを減らし、全体の放送プロセスを改善するために使用されてもよい、より軽量なバージョンのコンテンツを提供してもよい。
【0157】
したがって、放送ネットワークセンター402は、レイテンシの点で作業フローを改善するために中間圧縮方式を使用して、オーディオおよび/またはビデオコンテンツを編集し、そうでなければ処理することを担うシステムを表す場合がある。オーディオデータを処理する状況において、放送ネットワークセンター402は、いくつかの例では、メザニンフォーマットされたオーディオデータ15によって表される生のオーディオコンテンツへと追加のオーディオデータを挿入してもよい。この追加のオーディオデータは、コマーシャルのオーディオコンテンツを表すコマーシャルのオーディオデータ、テレビスタジオのオーディオコンテンツを表すテレビスタジオショーのオーディオデータ、イントロのオーディオコンテンツを表すイントロオーディオデータ、終了のオーディオコンテンツを表す終了オーディオデータ、緊急のオーディオコンテンツ(たとえば、気象警報、国家の緊急事態、地域の緊急事態など)を表す緊急オーディオデータ、または、メザニンフォーマットされたオーディオデータ15へと挿入されてもよい任意の他のタイプのオーディオデータを備える場合がある。
【0158】
いくつかの例では、放送ネットワークセンター402は、最大で16個のオーディオチャネルを処理することが可能なレガシーのオーディオ装置を含む。HOA係数11のようなHOA係数に依存する3Dオーディオデータの状況では、HOA係数11は、16個よりも多くのオーディオチャネルを有する場合がある(たとえば、3D音場の4次の表現は(4+1)
2すなわち25個のHOA係数をサンプルごとに必要とし、これは25個のオーディオチャネルと等価である)。レガシー放送装置におけるこの制約は、2014年7月25日付けの、ISO/IEC JTC 1/SC 29/WG 11による、“Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio”という表題のISO/IEC DIS 23008-3文書において述べられているような、3D HOAベースのオーディオフォーマットの採用を妨げる場合がある。したがって、本開示において説明される技法は、レガシーのオーディオ装置のこの制約を解消する方式で、HOA係数11からメザニンフォーマットされたオーディオデータ15を取得することを可能にする、ある形式のメザニン圧縮を促す場合がある。すなわち、空間オーディオ符号化デバイス20は、16個以下のオーディオチャネル(および場合によっては、レガシーのオーディオ装置がいくつかの例において5.1オーディオコンテンツを処理することを許容することがあるとすると、わずか6つのオーディオチャネル、ここで‘.1’は第6のオーディオチャネルを表す)を有するメザニンオーディオデータ15を取得するために本開示において説明される技法を実行するように構成されてもよい。
【0159】
いずれにしても、放送ネットワークセンター402は、補強されたメザニンフォーマットされたオーディオデータ17を出力してもよい。補強されたメザニンフォーマットされたオーディオデータ17は、メザニンフォーマットされたオーディオデータ15と、放送ネットワークセンター402によってメザニンフォーマットされたオーディオデータ15へと挿入される任意の追加のオーディオデータとを含んでもよい。分配の前に、放送ネットワーク398はさらに、補強されたメザニンフォーマットされたオーディオデータ17を圧縮してもよい。
図9Aの例に示されるように、音響心理学的オーディオ符号化デバイス406は、補強されたメザニンフォーマットされたオーディオデータ17に関して音響心理学的オーディオ符号化(上で説明された例のいずれかのような)を実行して、ビットストリーム21を生成してもよい。放送ネットワーク398は次いで、送信チャネルを介してビットストリーム21をコンテンツ消費者デバイス14に送信してもよい。
【0160】
いくつかの例では、音響心理学的オーディオ符号化デバイス406は、補強されたメザニンフォーマットされたオーディオデータ17の各々の異なるオーディオオブジェクトまたはHOA係数を符号化するためにその各々が使用される、音響心理学的オーディオコーダの複数の実体を表す場合がある。いくつかの例では、この音響心理学的オーディオ符号化デバイス406は、進化型オーディオコーディング(AAC)符号化ユニットの1つまたは複数の実体を表す場合がある。しばしば、音響心理学的オーディオコーダユニット40は、補強されたメザニンフォーマットされたオーディオデータ17のチャネルの各々のために、AAC符号化ユニットのある実体を呼び出すことがある。バックグラウンド球面調和係数がAAC符号化ユニットを使用してどのように符号化されてもよいかに関するさらなる情報は、http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapersにおいて入手可能な、第124回会議、2008年5月17日〜20日において発表された“Encoding Higher Order Ambisonics with AAC”という表題の、Eric Hellerud他による会議資料において見出すことができる。いくつかの例では、音響心理学的オーディオ符号化デバイス406は、補強されたメザニンフォーマットされたオーディオデータ17の他のチャネル(たとえば、フォアグラウンドチャネル)を符号化するために使用されるものよりも低い目標ビットレートを使用して、補強されたメザニンフォーマットされたオーディオデータ17の様々なチャネル(たとえば、バックグラウンドチャネル)をオーディオ符号化してもよい。
【0161】
図9Aではコンテンツ消費者デバイス14に直接送信されるものとして示されるが、放送ネットワーク398は、放送ネットワーク398とコンテンツ消費者デバイス14との間に配置された中間デバイスにビットストリーム21を出力してもよい。この中間デバイスは、コンテンツ消費者デバイス14へ後で配信するためにビットストリーム21を記憶することができ、コンテンツ消費者デバイス14はこのビットストリームを要求してもよい。中間デバイスは、ファイルサーバ、Webサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、携帯電話、スマートフォン、または、オーディオデコーダによって後で取り出すためにビットストリーム21を記憶することが可能な任意の他のデバイスを備える場合がある。この中間デバイスは、ビットストリーム21を要求するコンテンツ消費者デバイス14のような契約者に、ビットストリーム21をストリーミングすることが(場合によっては対応するビデオデータビットストリームを送信することとともに)可能なコンテンツ配信ネットワーク中に存在する場合がある。
【0162】
代替的に、放送ネットワーク398は、ビットストリーム21を、コンパクトディスク、デジタルビデオディスク、高品位ビデオディスク、または他の記憶媒体のような記憶媒体に記憶することができ、これらの大半がコンピュータによって読み取られることが可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれる場合がある。この文脈では、送信チャネルは、これらの媒体に記憶されたコンテンツがそれによって送信されるチャネルを指す場合がある(かつ、小売店または他の店舗ベースの配信機構を含んでもよい)。したがって、いずれにしても、本開示の技法はこの点に関して
図9Aの例に限定されるべきではない。
【0163】
図9Aの例にさらに示されるように、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表す場合がある。オーディオ再生システム16は、いくつかの異なるレンダラ22を含んでもよい。レンダラ22は各々、異なる形式のレンダリングを提供することができ、ここで、異なる形式のレンダリングは、ベクトルベースの振幅パンニング(VBAP)を実行する様々な方法の1つまたは複数、および/または、音場合成を実行する様々な方法の1つまたは複数を含んでもよい。本明細書で使用される場合、「Aおよび/またはB」は「AまたはB」、または「AとB」の両方を意味する。
【0164】
オーディオ再生システム16はさらに、オーディオ復号デバイス24を含んでもよい。オーディオ復号デバイス24は、ビットストリーム21からHOA係数11'を復号するように構成されるデバイスを表すことができ、HOA係数11'は、HOA係数11と同様である場合があるが、有損失の動作(たとえば、量子化)および/または送信チャネルを介した送信が原因で異なる場合がある。すなわち、オーディオ復号デバイス24は、ビットストリーム21において指定されるフォアグラウンド指向性情報を逆量子化しながら、ビットストリーム21において指定されるフォアグラウンドオーディオオブジェクトおよびバックグラウンド成分を表す符号化されたHOA係数に対して音響心理学的な復号を実行することもできる。オーディオ復号デバイス24はさらに、復号されたフォアグラウンド指向性情報に関して補間を実行し、次いで、復号されたフォアグラウンドオーディオオブジェクトおよび補間されたフォアグラウンド指向性情報に基づいてフォアグラウンド成分を表すHOA係数を決定してもよい。オーディオ復号デバイス24は次いで、フォアグラウンド成分を表す決定されたHOA係数およびバックグラウンド成分を表す復号されたHOA係数に基づいて、HOA係数11'を決定してもよい。
【0165】
オーディオ再生システム16は、ビットストリーム21を復号してHOA係数11'を取得した後で、HOA係数11'をレンダリングしてラウドスピーカーフィード25を出力してもよい。ラウドスピーカーフィード25は、1つまたは複数のラウドスピーカー(図示を簡単にするために
図9Aの例に示されていない)を駆動してもよい。
【0166】
適切なレンダラを選択するために、またはいくつかの例では、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な配置を示すラウドスピーカー情報13を取得してもよい。いくつかの例では、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカー情報13を取得し、ラウドスピーカー情報13を動的に決定するような方式でラウドスピーカーを駆動してもよい。他の例では、またはラウドスピーカー情報13の動的な決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報16を入力するようにユーザを促すことができる。
【0167】
オーディオ再生システム16は次いで、ラウドスピーカー情報13に基づいて、オーディオレンダラ22の1つを選択してもよい。いくつかの例では、オーディオ再生システム16は、オーディオレンダラ22のいずれもがラウドスピーカー情報13において指定される幾何学的配置に対して何らかの閾値に類似する尺度(ラウドスピーカーの幾何学的配置に関する)の範囲内にないとき、ラウドスピーカー情報13に基づいてオーディオレンダラ22の1つを生成してもよい。オーディオ再生システム16は、いくつかの例では、オーディオレンダラ22の既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいてオーディオレンダラ22の1つを生成してもよい。
【0168】
図9B〜
図9Dは、
図9Aの放送ネットワークセンター402の3つの異なる例をより詳細に示す図である。
図9Bの例では、放送ネットワークセンター402Aと図示される放送ネットワークセンター402の第1の例は、空間オーディオ復号デバイス410、HOA変換デバイス412、切替デバイス414、監視デバイス416、逆HOA変換デバイス418、空間オーディオ符号化デバイス420、および挿入デバイス422を含む。
【0169】
本開示の他の部分においてより詳細に説明される空間オーディオ復号デバイス410は、空間オーディオ符号化デバイス20に関して説明されるものとは全般に逆の動作を実行するように構成されるデバイスまたはユニットを表す。言い換えると、空間オーディオ復号デバイス410は、メザニンフォーマットされたオーディオデータ15を取得し、メザニンフォーマットされたオーディオデータ15に関してメザニン分解を実行してHOA係数11を取得してもよい。空間オーディオ復号デバイス410は、HOA係数11をHOA変換デバイス412に出力してもよい。HOA変換デバイス412は、(たとえば、HOA係数11を、5.1サラウンドサウンドフォーマットのような指定された空間サウンドフォーマットへとレンダリングすることによって)HOA係数11を球面調和領域から空間領域に変換するように構成される、デバイスまたはユニットを表す。HOA変換デバイス412は、切替デバイス414および監視デバイス416(これらの両方または一方が、5.1サラウンドサンドフォーマットの6つのチャネルのような、ある数のチャネルに関して動作するように構成されてもよい)のような、レガシーのオーディオ装置に対応するように、この変換を実行してもよい。HOA変換デバイス412は、空間フォーマットされたオーディオデータ413を切替デバイス414に出力してもよい。
【0170】
切替デバイス414は、空間フォーマットされたオーディオデータ413を含む様々な異なるオーディオデータを切り替えるように構成される、デバイスまたはユニットを表す場合がある。切替デバイス414は、追加のオーディオデータ415A〜415N(
図9Bの例に示されるように「オーディオデータ415」とも呼ばれる場合がある、「追加のオーディオデータ415」)と空間フォーマットされたオーディオデータ413を切り替えることができる。切替デバイス414は、操作者、オーディオ編集者、または他の放送事業者の人員によって入力されてもよい入力417によって指示されるように、オーディオデータ415と空間フォーマットされたオーディオデータ413を切り替えることができる。入力417は、オーディオデータ415または空間フォーマットされたオーディオデータ413の1つを監視デバイス416に出力するように、切替デバイス414を構成してもよい。操作者、オーディオ編集者、または他の放送事業者の人員は、オーディオデータ415または空間フォーマットされたオーディオデータ413の選択された1つを聞き、追加のオーディオデータ415の1つがメザニンフォーマットされたオーディオデータ15にいつ挿入されるべきかを指定する追加の入力417を生成してもよい。
【0171】
この追加の入力417を受け取ると、切替デバイス414は、追加のオーディオデータ415の選択された1つ、たとえば追加のオーディオデータ415Aを逆HOA変換デバイス418に切り替えることができる。この追加のオーディオデータ415Aは、コマーシャルのオーディオコンテンツ、テレビスタジオのオーディオコンテンツ、終了のオーディオコンテンツ、イントロのオーディオコンテンツ(イントロおよび終了のオーディオコンテンツは「バンパーオーディオコンテンツ」と呼ばれる場合がある)、緊急のオーディオコンテンツなどのような、上で論じられたタイプの追加のオーディオコンテンツのいずれをも表す場合がある。いずれにしても、この追加のオーディオデータ415A(および一般に追加のオーディオコンテンツ415)は、メザニンフォーマットと球面調和領域のいずれにおいても指定されない。代わりに、この追加のオーディオデータ415は通常、空間領域において、しばしば5.1サラウンドサウンドフォーマットにおいて指定される。この追加のオーディオデータ415Aをメザニンフォーマットされたオーディオデータ15に挿入するために、放送ネットワークセンター402Aは、追加のオーディオデータ415Aを逆HOA変換デバイス418に渡すことができる。
【0172】
逆HOA変換デバイス418は、HOA変換デバイス412とは逆の動作を行い、追加のオーディオデータ415Aを空間領域から球面調和領域に変換してもよい。逆HOA変換デバイス418は次いで、変換された追加のオーディオデータ415Aを、変換された追加のオーディオデータ419として空間オーディオ復号デバイス420に出力してもよい。空間オーディオ符号化デバイス420は、空間オーディオ符号化デバイス20に関して上で説明されたものと実質的に同様の、かつ場合によっては同一の方式で動作してもよい。空間オーディオ符号化デバイス420は、メザニンフォーマットされた追加のオーディオデータ421を挿入デバイス422に出力してもよい。挿入デバイス422は、メザニンフォーマットされた追加のオーディオデータ421をメザニンフォーマットされたオーディオデータ15に挿入するように構成される、デバイスまたはユニットを表す場合がある。いくつかの例では、挿入デバイス422は、メザニンフォーマットされた追加のオーディオデータ421を元のメザニンフォーマットされたオーディオデータ15に挿入し、この元のメザニンフォーマットされたオーディオデータ15は、補強されたメザニンフォーマットされたオーディオデータ17へのオーディオアーティファクトの混入の可能性をなくすために、空間オーディオ復号(または言い換えると、メザニン分解)、HOA変換、空間オーディオ再符号化、および逆HOA変換を経ていない。挿入デバイス422は、メザニンフォーマットされたオーディオデータ421をメザニンフォーマットされたオーディオデータ15へとクロスフェードすることによって少なくとも一部、このメザニンフォーマットされたオーディオデータ421をメザニンフォーマットされたオーディオデータ15に挿入してもよい。
【0173】
図9Cは、
図9Aの放送ネットワークセンター402の第2の例をより詳細に示すブロック図である。
図9Cの例では、放送ネットワークセンター402Bと示される放送ネットワークセンター402の第2の例は、
図9Cの例に示される追加のオーディオデータ421A〜421Nがメザニンフォーマット(MF)においてすでに指定されていることを除き、放送ネットワークセンター402と実質的に同一であってもよい。したがって、追加のオーディオデータ421A〜421Nは、
図9Cの例ではメザニンフォーマットされた(MF)オーディオデータ421A〜421N(「MFオーディオデータ425」)として示される。MFオーディオデータ421は各々、
図9Bの例に関して上で説明されたメザニンフォーマットされた追加のオーディオデータ421と実質的に同様であってもよい。いずれにしても、MFオーディオデータ425がメザニンフォーマットに従って指定されるとすると、放送ネットワークセンター402Bは、放送ネットワークセンター402Aに関して上で説明された逆HOA変換デバイス418および空間オーディオ符号化デバイス420を含まなくてもよい。切替デバイス414に入力されるオーディオデータ421および15のすべてが同じフォーマット(たとえば、メザニンフォーマット)で指定されるので、空間オーディオの復号および変換は、切替デバイス417による処理の前には必要とされないことがある。
【0174】
MF追加のオーディオデータ421およびMVオーディオデータ15を監視するために、放送ネットワークセンター402Bは、切替デバイス414の出力に関して空間オーディオ復号およびHOA変換を実行するために、空間オーディオ復号デバイス410およびHOA変換デバイス412を含んでもよい。空間オーディオ復号およびHOA変換は、空間領域において指定されるオーディオデータ(たとえば、5.1オーディオデータ)をもたらすことがあり、このオーディオデータは次いで、操作者、編集者、または他の放送事業者の人員が切替デバイス414への入力の選択された1つ(入力データ417によって指定されるような)を監視することを可能にするために、監視デバイス416に入力される。
【0175】
図9Dは、
図9Aの放送ネットワークセンター402の第3の例をより詳細に示すブロック図である。
図9Dの例では、放送ネットワークセンター402Cと示される放送ネットワークセンター402の第3の例は、
図9Dの例に示される追加のオーディオデータ425A〜425NがHOAフォーマット(または言い換えると、球面調和領域において)において指定されることを除き、放送ネットワークセンター402Bと実質的に同一であってもよい。したがって、追加のオーディオデータ425A〜425Nは、
図9Dの例ではHOAオーディオデータ425A〜425N(「HOAオーディオデータ425」)として示される。HOAオーディオデータ425がHOAフォーマットに従って指定されるとすると、放送ネットワークセンター402Bは、逆HOA変換デバイス418を含まなくてもよい。しかしながら、放送ネットワークセンター402Bは、HOAオーディオデータ425に関してメザニン圧縮を実行してMF追加のオーディオデータ421を取得するために、放送ネットワークセンター402Aに関して上で説明された空間オーディオ符号化デバイス420を含んでもよい。オーディオデータ425はHOA領域(または言い換えると、球面調和領域)において指定されるので、空間オーディオ復号デバイス410は、メザニンフォーマットされたオーディオデータ15に関して空間オーディオ復号を実行してHOA係数11を取得し、これによって入力フォーマットを切替デバイス414に調和させる。
【0176】
HOAオーディオデータ421および11を監視するために、放送ネットワークセンター402Bは、切替デバイス414の出力に関してHOA変換を実行するために、HOA変換デバイス412を含んでもよい。HOA変換は、空間領域において指定されるオーディオデータ(たとえば、5.1オーディオデータ)をもたらすことがあり、このオーディオデータは次いで、操作者、編集者、または他の放送事業者の人員が切替デバイス414への入力の選択された1つ(入力データ417によって指定されるような)を監視することを可能にするために、監視デバイス416に入力される。
【0177】
このようにして、本技法は、放送ネットワークセンター402が、高次アンビソニックスオーディオデータに関してメザニン圧縮を実行した結果として生成されるメザニンフォーマットされたオーディオデータを記憶して、メザニンフォーマットされたオーディオデータを処理するように構成されることを可能にする場合がある。
【0178】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータへの音響心理学的オーディオ符号化の適用を伴わないメザニン圧縮を実行した結果として生成される。
【0179】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータに関する空間オーディオ符号化を実行した結果として生成される。
【0180】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータに関するベクトルベースの合成を実行した結果として生成される。
【0181】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータに関する特異値分解を実行した結果として生成される。
【0182】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータによって表される音場の1つまたは複数のバックグラウンド成分を含む。
【0183】
これらおよび他の例において、バックグラウンド成分は、2未満のオーダを有する球面基底関数に対応する高次アンビソニックスオーディオデータの高次アンビソニックス係数を含む。
【0184】
これらおよび他の例において、バックグラウンド成分は、2未満のオーダを有する球面基底関数に対応する高次アンビソニックスオーディオデータの高次アンビソニックス係数だけを含む。
【0185】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータによって表される音場の1つまたは複数のフォアグラウンド成分を含む。
【0186】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータに関するベクトルベースの合成を実行した結果として生成される。これらの例において、フォアグラウンド成分は、高次アンビソニックスオーディオデータに関してベクトルベースの合成を実行することによって、高次オーディオオブジェクトから分解されたフォアグラウンドオーディオオブジェクトを含む。
【0187】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータによって表される音場の1つまたは複数のバックグラウンド成分および1つまたは複数のフォアグラウンド成分を含む。
【0188】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、1つまたは複数のパルス符号変調された(PCM)トランスポートチャネルおよびサイドバンド情報を含む。
【0189】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、メザニンフォーマットされたオーディオデータを取得するために高次アンビソニックスオーディオデータに関するベクトルベースの合成を実行した結果として生成される。これらの例において、サイドバンド情報は、高次アンビソニックスオーディオデータに関するベクトルベースの合成を実行した結果として出力される指向性情報を含む。
【0190】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、メザニンフォーマットされたオーディオデータを取得するために高次アンビソニックスオーディオデータに関する特異値分解を実行した結果として生成される。これらの例において、サイドバンド情報は、高次アンビソニックスオーディオデータに関するベクトルベースの合成を実行した結果として出力される1つまたは複数のV-ベクトルを含む。
【0191】
これらおよび他の例において、放送ネットワークセンター402は、追加のオーディオデータをメザニンフォーマットされたオーディオデータに挿入するように構成されてもよい。
【0192】
これらおよび他の例において、放送ネットワークセンター402は、コマーシャルのオーディオデータをメザニンフォーマットされたオーディオデータに挿入するように構成されてもよい。
【0193】
これらおよび他の例において、放送ネットワークセンター402は、テレビスタジオショーをメザニンフォーマットされたオーディオデータに挿入するように構成されてもよい。
【0194】
これらおよび他の例において、放送ネットワークセンター402は、追加のオーディオデータをメザニンフォーマットされたオーディオデータにクロスフェードするように構成されてもよい。
【0195】
これらおよび他の例において、放送ネットワークセンター402は、メザニンフォーマットされたオーディオデータに関してメザニン分解と高次アンビソニックス変換のいずれも実行することなく、メザニンフォーマットされたオーディオデータを処理するように構成されてもよい。
【0196】
これらおよび他の例において、放送ネットワークセンター402は、空間領域において指定される追加のオーディオデータを取得し、追加のオーディオデータによって記述される音場が追加の高次アンビソニックスオーディオデータとして表されるように空間領域からの追加のオーディオデータを球面調和領域に変換し、追加の高次アンビソニックスオーディオデータに関してメザニン圧縮を実行してメザニンフォーマットされた追加のオーディオデータを生成するように構成されてもよい。これらの例において、放送ネットワークセンター402は、メザニンフォーマットされた追加のオーディオデータをメザニンフォーマットされたオーディオデータに挿入するように構成されてもよい。
【0197】
これらおよび他の例において、放送ネットワークセンター402は、球面調和領域において指定されるメザニンフォーマットされた追加のオーディオデータを取得するように構成されてもよい。これらの例において、放送ネットワークセンター402は、メザニンフォーマットされた追加のオーディオデータをメザニンフォーマットされたオーディオデータに挿入するように構成されてもよい。
【0198】
これらおよび他の例において、放送ネットワークセンター402は、球面調和領域において指定される追加の高次アンビソニックスオーディオデータを取得し、追加の高次アンビソニックスオーディオデータに関してメザニン圧縮を実行してメザニンフォーマットされた追加のオーディオデータを生成するように構成されてもよい。これらの例において、放送ネットワークセンター402は、メザニンフォーマットされた追加のオーディオデータをメザニンフォーマットされたオーディオデータに挿入するように構成されてもよい。
【0199】
これらおよび他の例において、放送ネットワークセンター402は、メザニンフォーマットされたオーディオデータに関して音響心理学的オーディオ符号化を実行して、圧縮されたオーディオデータを生成するように構成されてもよい。
【0200】
図10は、本開示において説明される技法の様々な態様を実行してもよい
図9Aの例に示される空間オーディオ符号化デバイス20の一例をより詳細に示すブロック図である。空間オーディオ符号化デバイス20は、ベクトルベースの合成方法ユニット27を含む。
【0201】
図10の例に示されるように、ベクトルベースの合成ユニット27は、線形可逆変換(LIT)ユニット30、パラメータ計算ユニット32、並べ替えユニット34、フォアグラウンド選択ユニット36、エネルギー補償ユニット38、ビットストリーム生成ユニット42、音場分析ユニット44、係数削減ユニット46、バックグラウンド(BG)選択ユニット48、空間-時間補間ユニット50、および量子化ユニット52を含んでもよい。
【0202】
線形可逆変換(LIT)ユニット30は、HOAチャネルの形式でHOA係数11を受け取り、各チャネルは、球面基底関数(これはHOA[k]と示されることがあり、kはサンプルの現在のフレームまたはブロックを示す場合がある)の所与のオーダ、サブオーダと関連付けられる係数のブロックまたはフレームを表す。HOA係数11の行列は、D:M*(N+1)
2という次元を有する場合がある。
【0203】
すなわち、LITユニット30は、特異値分解と呼ばれるある形式の分析を実行するように構成されるユニットを表す場合がある。SVDに関して説明されるが、本開示において説明される技法は、線形的に相関付けられない、エネルギー圧縮された出力のセットを提供する、任意の同様の変換または分解に関して実行されてもよい。また、本開示における「セット」への言及は、特に反対のことが述べられていない限り0ではないセットを指すことが一般に意図されており、いわゆる「空集合」を含む伝統的な数学的な集合の定義を指すことは意図されていない。
【0204】
代替的な変換は、“PCA”と呼ばれることが多い主要成分分析を備える場合がある。PCAは、直交変換を利用して、相関付けられる可能性のある変数の観測結果のセットを主要成分と呼ばれる線形に相関付けられない変数のセットへと変換する、数学的な手順を指す。線形に相関付けられない変数は、互いに線形な統計的関係(または依存性)を有しない変数を表す。これらの主要成分は、互いに対する小規模な統計的相関関係を有するものとして記述されてもよい。いずれにしても、いわゆる主要成分の数は、元の変数の数以下である。いくつかの例では、第1の主要成分が最大のあってもよい分散を有する(または言い換えると、データの変動を可能な限り考慮する)ように変換が定義され、そして、各々の後続の成分は、この後続の成分が先行する成分と直交する(これは先行する成分と相関しないものと言い換えられる場合がある)という制約のもとで可能な最高の分散を有する。PCAはある形式のオーダ削減を実行することができ、このことはHOA係数11に関して、HOA係数11の圧縮をもたらす場合がある。状況に応じて、PCAは、いくつか例を挙げると、個別のカルーネンレーベ変換、ホテリング変換、固有直交分解(POD)、および固有値分解(EVD)のような、いくつかの異なる名称で呼ばれる場合がある。オーディオデータを圧縮するという背後の目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「非相関化」である。
【0205】
いずれにしても、LITユニット30は、(これはやはり“SVD”と呼ばれる場合がある)特異値分解を実行して、変換されたHOA係数の2つ以上のセットへとHOA係数11を変換する。変換されたHOA係数のこれらの「セット」は、変換されたHOA係数のベクトルを含んでもよい。
図10の例では、LITユニット30は、HOA係数11に関してSVDを実行して、いわゆるV行列、S行列、およびU行列を生成してもよい。線形代数において、SVDは、y対zの実数または複素数の行列X(ここでXはHOA係数11のようなマルチチャネルオーディオデータを表す場合がある)の、次の形式での要素分解を表す場合がある。
X = USV*
Uは、y対yの実数または複素数の単位行列を表すことができ、ここで、Uのy個の列はマルチチャネルオーディオデータの左特異ベクトルとして一般に知られている。Sは対角線上に非負の実数を有するy対zの長方の対角行列を表すことができ、Sの対角方向の値はマルチチャネルオーディオデータの特異値として一般に知られている。V*(これはVの共役転置を示す場合がある)は、z対zの実数または複素数の単位行列を表すことができ、ここで、V*のz個の列はマルチチャネルオーディオデータの右特異ベクトルとして一般に知られている。
【0206】
HOA係数11を備えるマルチチャネルオーディオデータに適用されるものとして本開示では説明されるが、本技法は、任意の形式のマルチチャネルオーディオデータに適用されてもよい。このようにして、空間オーディオ符号化デバイス20は、音場の少なくとも一部分を表すマルチチャネルオーディオデータに関して特異値分解を実行して、マルチチャネルオーディオデータの左特異ベクトルを表すU行列、マルチチャネルオーディオデータの特異値を表すS行列、およびマルチチャネルオーディオデータの右特異ベクトルを表すV行列を生成することができ、U行列、S行列、およびV行列の1つまたは複数の少なくとも一部分の関数として、マルチチャネルオーディオデータを表す。
【0207】
いくつかの例では、上で参照されたSVDの数学的表現におけるV*行列は、SVDが複素数を備える行列に適用されてもよいことを反映するために、V行列の共役転置として示される。実数だけを備える行列に適用されるとき、V行列の複素共役(または言い換えると、V*行列)はV行列の転置とみなされてもよい。下では、図示を簡単にするために、HOA係数11は実数を備え、結果としてV*行列ではなくV行列がSVDを通じて出力されることが仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切であればV行列の転置を指すものとして理解されるべきである。V行列であると仮定されるが、本技法は、複素数の係数を有するHOA係数11に同様の方式で適用されることが可能であり、このときSVDの出力はV*行列である。したがって、この点において、本技法は、V行列を生成するためにSVDを適用することだけに限定されるべきではなく、V*行列を生成するために複素数の成分を有するHOA係数11にSVDを適用することを含んでもよい。
【0208】
いずれにしても、LITユニット30は、高次アンビソニックス(HOA)オーディオデータの各ブロック(フレームを指す場合がある)に関して、ブロックごとの形式のSVDを実行してもよい(ここで、このアンビソニックスオーディオデータは、HOA係数11のブロックもしくはサンプル、または任意の他の形式のマルチチャネルオーディオデータを含む)。上で述べられたように、変数Mは、サンプル中のオーディオフレームの長さを示すために使用されてもよい。たとえば、オーディオフレームが1024個のオーディオサンプルを含むとき、Mは1024に等しい。Mのこの典型的な値に関して説明されるが、本開示の技法は、Mのこの典型的な値に限定されるべきではない。したがって、LITユニット30は、M対(N+1)
2個のHOA係数を有するHOA係数11のブロックに関してブロックごとにSVDを実行することができ、ここでNはやはりHOAオーディオデータのオーダを示す。LITユニット30は、このSVDを実行することを通じて、V行列、S行列、およびU行列を生成することができ、これらの行列の各々は、上で説明されたそれぞれのV行列、S行列、およびU行列を表す場合がある。このようにして、線形可逆変換ユニット30は、HOA係数11に関してSVDを実行して、次元D:M*(N+1)
2を有するUS[k]ベクトル33(これはSベクトルとUベクトルの組み合わされたバージョンを表す場合がある)と、次元D:(N+1)
2*(N+1)
2を有するV[k]ベクトル35とを出力してもよい。US[k]行列中の個々のベクトル要素はX
ps(k)とも呼ばれる場合があるが、V[k]行列の個々のベクトルはv(k)とも呼ばれる場合がある。
【0209】
U行列、S行列、およびV行列の分析は、これらの行列がXによって上で表される背後の音場の空間的および時間的な特性を搬送または表現することを明らかにする場合がある。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される期間について)時間の関数として正規化された別々のオーディオ信号を表すことができ、これらのオーディオ信号は、互いに直交しており、あらゆる空間的な特性(これは指向性情報とも呼ばれる場合がある)に対して無関係にされている。空間的な形状および場所(r, θ, φ)の幅を表す空間特性は代わりに、個々のi番目のベクトルv
(i)(k)によって、V行列(各々長さが(N+1)
2である)において表されてもよい。U行列およびV行列の中のベクトルの両方が、それらの二乗平均平方根エネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線上の要素によって表される。したがって、UとSを乗算してUS[k](個々のベクトル要素X
ps(k)を伴う)を形成することで、真のエネルギーを有するオーディオ信号が表される。SVD分解により、(Uの中の)オーディオ時間信号と、(Sの中の)それらのエネルギーと、(Vの中の)それらの空間特性とを無関係にできることで、本開示において説明される技法の様々な態様がサポートされてもよい。さらに、US[k]とV[k]のベクトル乗算による、背後のHOA[k]係数Xを合成するこのモデルは、「ベクトルベースの合成方法」という用語を生じさせ、これは本文書の全体で使用される。
【0210】
HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、HOA係数11から導出されるものに線形可逆変換を適用してもよい。たとえば、LITユニット30は、HOA係数11から導出されるパワースペクトル密度行列に関してSVDを適用してもよい。パワースペクトル密度行列は、PSDと示されることがあり、以下に続く擬似コードにおいて概説されるように、hoaFrameに対するhoaFrameの転置の行列乗算を通じて取得される。hoaFrameという表記は、HOA係数11のフレームを指す。
【0211】
LITユニット30は、SVD(svd)をPSDに適用した後で、S[k]
2行列(S_squred)およびV[k]行列を取得してもよい。S[k]
2行列は二乗されたS[k]行列を示すことができ、そうすると、LITユニット30は、平方根演算をS[k]
2行列に適用してS[k]行列を取得することができる。いくつかの例では、LITユニット30は、V[k]行列に関して量子化を実行して、量子化されたV[k]行列(V[k]'行列と示されてもよい)を取得することができる。LITユニット30は、まずS[k]行列を量子化されたV[k]'行列と乗算してSV[k]'行列を取得することによって、U[k]行列を取得してもよい。LITユニット30は次に、SV[k]'行列の擬似逆行列(pinv)を取得し、次いで、HOA係数11をSV[k]'行列の擬似逆行列と乗算してU[k]行列を取得してもよい。上記は次の擬似コードによって表されてもよい。
PSD = hoaFrame'*hoaFrame;
[V, S_squared] = svd(PSD,'econ');
S = sqrt(S_squared);
U = hoaFrame * pinv(S*V');
【0212】
係数自体ではなくHOA係数のパワースペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は、プロセッササイクルと記憶空間の1つまたは複数に関する、SVDの実行の計算的な複雑さを低減できる可能性がありながら、SVDがHOA係数に直接適用されているかのように、同じソースオーディオの符号化の効率を達成してもよい。すなわち、上で説明されたPSDタイプのSVDは、Mがフレーム長、すなわち1024個以上のサンプルであるM*Fの行列に対してSVDが行われる場合と比較して、F*Fの行列(FはHOA係数の数である)に対してSVDが行われるので、計算的な負荷がより低い可能性があってもよい。ここで、SVDの複雑さは、HOA係数11に適用されるときのO(M*L^2)(ここでO(*)は計算機科学において一般的な計算の複雑さの大文字Oによる表記を示す)と比較して、HOA係数11ではなくPSDへの適用により、O(L^3)前後となる場合がある。
【0213】
パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ, φ, r)、およびエネルギー特性(e)のような様々なパラメータを計算するように構成されるユニットを表す。現在のフレームに対するこれらのパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]、およびe[k]と示されてもよい。パラメータ計算ユニット32は、US[k]ベクトル33に関してエネルギー分析および/または相関付け(またはいわゆる相互相関付け)を実行して、これらのパラメータを特定してもよい。パラメータ計算ユニット32はまた、前のフレーム対するこれらのパラメータを決定することができ、ここで前のフレームパラメータは、US[k-1]ベクトルおよびV[k-1]ベクトルの前のフレームに基づいて、R[k-1]、θ[k-1]、φ[k-1]、r[k-1]、およびe[k-1]と示されてもよい。パラメータ計算ユニット32は、現在のパラメータ37および前のパラメータ39を並べ替えユニット34に出力してもよい。
【0214】
すなわち、パラメータ計算ユニット32は、第1の時間に対応するL個の第1のUS[k]ベクトル33の各々、および第2の時間に対応する第2のUS[k-1]ベクトル33の各々に関するエネルギー分析を実行して、第1のオーディオフレームの少なくとも一部分(しかししばしば全体)および第2のオーディオフレームの一部分(しかししばしば全体)のエネルギーの二乗平均平方根を計算し、それによって、第1のオーディオフレームのL個の第1のUS[k]ベクトル33の各々に対して1つ、および第2のオーディオフレームの第2のUS[k-1]ベクトル33の各々に対して1つの、2L個のエネルギーを生成してもよい。
【0215】
他の例では、パラメータ計算ユニット32は、第1のUS[k]ベクトル33の各々および第2のUS[k-1]ベクトル33の各々に対するサンプルのセットの(全体ではないとしても)一部の間の相互相関付けを実行してもよい。相互相関は、信号処理技術において理解されるような相互相関付けを指す場合がある。言い換えると、相互相関は、2つの波形(この場合これはM個のサンプルの個別のセットとして定義される)の1つに加えられる時間遅れの関数としての、2つの波形の間の類似性の尺度を指す場合がある。いくつかの例では、相互相関付けを実行するために、パラメータ計算ユニット32は、第1のUS[k]ベクトル27の各々の最後のL個のサンプルを、第2のUS[k-1]ベクトル33の残りの1つの各々の最初のL個のサンプルと順番に比較して、相関パラメータを決定する。本明細書で使用される場合、「順番の」動作は、要素の第1のセットおよび要素の第2のセットに関して行われる要素ごとの動作を指し、ここでこの動作は、セットの順序に従って「順番に」、要素の第1のセットおよび第2のセットの各々から1つの要素を取り出す。
【0216】
パラメータ計算ユニット32はまた、V[k]ベクトルおよび/またはV[k-1]ベクトル35を分析して、指向性特性パラメータを決定してもよい。これらの指向性特性パラメータは、対応するUS[k]および/またはUS[k-1]ベクトル33によって表されるオーディオオブジェクトの動きおよび位置の指示を与えてもよい。パラメータ計算ユニット32は、前述の現在のパラメータ37(US[k]ベクトル33および/またはV[k]ベクトル35に関して決定された)の任意の組合せと、(US[k-1]ベクトル33および/またはV[k-1]ベクトル35に関して決定された)前のパラメータ39の任意の組合せとを、並べ替えユニット34に提供してもよい。
【0217】
SVD分解は、US[k-1][p]ベクトル(または代替的にX
ps(p)(k-1))として示されてもよい、US[k1]ベクトル33の中のp番目のベクトルによって表されるオーディオ信号/オブジェクトが、US[k][p]ベクトル33(または代替的に、X
PS(p)(k))とも示されてもよい、US[k]ベクトル33の中のp番目のベクトルによって表される同じオーディオ信号/オブジェクト(時間的に進んでいる)となることを保証しない。パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトを並べ替えてオーディオオブジェクトの自然な評価または経時的な連続性を表すために、並べ替えユニット34によって使用されてもよい。
【0218】
すなわち、並べ替えユニット34は次いで、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k-1]ベクトル33に対するパラメータ39の各々に対して順番に比較してもよい。並べ替えユニット34は、現在のパラメータ37および前のパラメータ39に基づいてUS[k]行列33およびV[k]行列35内の様々なベクトルを並べ替えて(一例として、ハンガリアンアルゴリズムを使用して)、並べ替えられたUS[k]行列33'(これは
【数10】
と数学的に示されてもよい)と、並べ替えられたV[k]行列35'(これは
【数11】
と数学的に示されてもよい)とを、フォアグラウンド音声(または支配的な音声-PS)選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力してもよい。
【0219】
言い換えると、並べ替えユニット34は、US[k]行列33内のベクトルを並べ替えて並べ替えられたUS[k]行列33'を生成するように構成されるユニットを表す場合がある。並べ替えユニット34は、US[k]ベクトル33の順序(ここでやはり、X
PS(p)(k)としてやはり代替的に示されてもよいUS[k]ベクトル33の各ベクトルは、音場に存在する1つまたは複数の明瞭な(または言い換えると、顕著な)モノオーディオオブジェクトを表す場合がある)がオーディオデータの部分から変化することがあるので、US[k]行列33を並べ替えることができる。すなわち、オーディオ符号化デバイス12がいくつかの例においてオーディオフレームと一般に呼ばれるオーディオデータのこれらの部分に対して動作すると仮定すると、導出されるUS[k]行列33において表されるようなこれらの明瞭なモノオーディオオブジェクトに対応するベクトルの場所は、フレームへSVDを適用したこと、および、各オーディオオブジェクト形式の卓越性がフレームごとに異なることにより、オーディオフレームごとに異なることがある。
【0220】
US[k]行列33内のベクトルをオーディオフレームごとに並べ替えることなく、US[k]行列33内のベクトルをメザニンフォーマットユニット40に直接渡すと、モノオーディオオブジェクトがオーディオフレームにわたって連続的である(チャネルに関して連続的である、これはこの例では互いに対してUS[k]行列33内のベクトルの場所の順序によって定義される)ときにより良好に機能するレガシーの圧縮方式のようないくつかの圧縮方式について、達成可能な圧縮の程度が下がることがある。その上、並べ替えられないとき、US[k]行列33内のベクトルの符号化が、復号されるときのオーディオデータの品質を下げることがある。たとえば、AACエンコーダは、US[k]行列33内のベクトルをフレームごとに直接符号化するときに達成される圧縮と比較して、US[k]行列33'内の並べ替えられた1つまたは複数のベクトルをフレームごとにより効率的に圧縮してもよい。AACエンコーダに関して上で説明されたが、本技法は、特定の順序または場所(チャネルに関する)においてモノオーディオオブジェクトがフレームにわたって指定されるときにより良好な圧縮を提供する、任意のエンコーダに関して実行されてもよい。
【0221】
このようにして、本技法の様々な態様は、オーディオ符号化デバイス12が、1つまたは複数のベクトル(たとえば、US[k]行列33内のベクトル)を並べ替えて、並べ替えられたUS[k]行列33'内の並べ替えられた1つまたは複数のベクトルを生成し、それによって音響心理学的オーディオコーダのようなレガシーのオーディオエンコーダによるUS[k]行列33内のベクトルの圧縮を容易にすることを可能にする場合がある。
【0222】
たとえば、並べ替えユニット34は、現在のパラメータ37および前のパラメータ39に基づいて、US[k-1]行列33内の1つまたは複数の第2のベクトルが対応する第2のフレームよりも時間的に後の第1のオーディオフレームからのUS[k]行列33内の1つまたは複数のベクトルを並べ替えることができる。第1のオーディオフレームが第2のオーディオフレームよりも時間的に後である状況において説明されるが、第1のオーディオフレームは第2のオーディオフレームよりも時間的に先行してよい。したがって、本技法は、本開示において説明される例に限定されるべきではない。
【0223】
例示のために、US[k]行列33内のp個のベクトルの各々がUS[k][p]として示される以下の表3を考える。ここで、kは対応するベクトルがk番目のフレームからのものか前の(k-1)番目のフレームからのものかを示し、pは同じオーディオフレームのベクトルに対するベクトルの行を示す(ここでUS[k]行列は(N+1)
2個のそのようなベクトルを有する)。上で述べられたように、Nが1であると決定されると仮定すると、pはベクトル1から4を示す場合がある。
【表3】
【0224】
上の表3では、並べ替えユニット34は、US[k-1][1]のために計算されたエネルギーをUS[k][1]、US[k][2]、US[k][3]、US[k][4]の各々のために計算されたエネルギーと比較し、US[k-1][2]のために計算されたエネルギーをUS[k][1]、US[k][2]、US[k][3]、US[k][4]の各々のために計算されたエネルギーと比較する、などである。並べ替えユニット34は次いで、第2の(時間的に)先行するオーディオフレームの第2のUS[k-1]ベクトル33の1つまたは複数を廃棄してもよい。例示するために、残りの第2のUS[k-1]ベクトル33を示す以下の表4を考える。
【表4】
【0225】
上の表4では、並べ替えユニット34は、エネルギー比較に基づいて、US[k-1][1]のために計算されたエネルギーがUS[k][1]およびUS[k][2]の各々のために計算されたエネルギーと類似していること、US[k-1][2]のために計算されたエネルギーがUS[k][1]およびUS[k][2]の各々のために計算されたエネルギーと類似していること、US[k-1][3]のために計算されたエネルギーがUS[k][3]およびUS[k][4]の各々のために計算されたエネルギーと類似していること、および、US[k-1][4]のために計算されたエネルギーがUS[k][3]およびUS[k][4]の各々のために計算されたエネルギーと類似していることを判定してもよい。いくつかの例では、並べ替えユニット34は、US[k]行列33の第1のベクトルの各々と、US[k-1]行列33の第2のベクトルの各々との類似性を特定するために、さらなるエネルギー分析を実行してもよい。
【0226】
他の例では、並べ替えユニット32は、相互相関に関する現在のパラメータ37および前のパラメータ39に基づいて、ベクトルを並べ替えることができる。これらの例では、上の表4に戻って参照すると、並べ替えユニット34は、これらの相互相関パラメータに基づいて、表5において表される以下の例示的な相関を決定してもよい。
【表5】
【0227】
上の表5から、並べ替えユニット34は、一例として、US[k-1][1]ベクトルが異なるように配置されたUS[k][2]ベクトルと相関すること、US[k-1][2]ベクトルが異なるように配置されたUS[k][1]ベクトルと相関すること、US[k-1][3]ベクトルが同様に配置されたUS[k][3]ベクトルと相関すること、および、US[k-1][4]ベクトルが同様に配置されたUS[k][4]ベクトルと相関することを決定する。言い換えると、並べ替えユニット34は、US[k][2]ベクトルがUS[k]行列33の第1のベクトルの第1の行に再配置され、US[k][1]ベクトルが第1のUS[k]ベクトル33の第2の行に再配置されるように、US[k]行列33の第1のベクトルをどのように並べ替えるかを記述する、並べ替え情報と呼ばれる場合があるものを決定する。並べ替えユニット34は次いで、この並べ替え情報に基づいてUS[k]行列33の第1のベクトルを並べ替えて、並べ替えられたUS[k]行列33'を生成してもよい。
【0228】
加えて、並べ替えユニット34は、
図10の例には示されていないが、この並べ替え情報をビットストリーム生成デバイス42に提供することができ、ビットストリーム生成デバイス42は、
図4および
図11の例に示されるオーディオ復号デバイス24のようなオーディオ復号デバイスがUS[k]行列33のベクトルを復元するためにUS[k]行列33'の並べ替えられたベクトルをどのように並べ替えるかを決定できるように、この並べ替え情報を含むようにビットストリーム21を生成してもよい。
【0229】
分析ベースのエネルギー固有パラメータをまず伴い、次いで相互相関パラメータを伴う2ステップのプロセスを実行するものとして上で説明されたが、並べ替えユニット32は、並べ替え情報を決定するためにエネルギーパラメータだけに関してこの分析を実行するだけであってよく、並べ替え情報を決定するために相互相関パラメータだけに関してこの分析を実行してよく、または、上で説明された方式でエネルギーパラメータと相互相関パラメータの両方に関して分析を実行してよい。加えて、本技法は、エネルギー比較および/または相互相関の1つまたは両方を実行することを伴わない、相関を決定するための他のタイプのプロセスを利用してもよい。したがって、本技法は、この点について上で述べられた例に限定されるべきではない。その上、パラメータ計算ユニット32から得られる他のパラメータ(V個のベクトルから導出される空間位置パラメータ、またはV[k]およびV[k-1]におけるベクトルの相関のような)も、US中のベクトルの正確な順序を決定するために、US[k]およびUS[k-1]から得られるエネルギーパラメータおよび相互相関パラメータとともに(同時に/一緒に、または順番に)使用することができる。
【0230】
V行列中のベクトルの相関を使用する一例として、パラメータ計算ユニット34は、V[k]行列35のベクトルが以下の表6において規定されるように相関付けられると決定してもよい。
【表6】
上の表6から、並べ替えユニット34は、一例として、V[k-1][1]ベクトルが異なるように配置されたV[k][2]ベクトルと相関すること、V[k-1][2]ベクトルが異なるように配置されたV[k][1]ベクトルと相関すること、V[k-1][3]ベクトルが同様に配置されたV[k][3]ベクトルと相関すること、および、V[k-1][4]ベクトルが同様に配置されたV[k][4]ベクトルと相関することを決定する。並べ替えユニット34は、V[k]行列35のベクトルの並べ替えられたバージョンを、並べ替えられたV[k]行列35'として出力してもよい。
【0231】
いくつかの例では、US行列中のベクトルに適用されるのと同じ並べ替えが、V行列中のベクトルにも適用される。言い換えると、V-ベクトルを並べ替える際に使用されるあらゆる分析が、USベクトルを並べ替えるために使用されるあらゆる分析とともに使用されてもよい。並べ替え情報が、US[k]ベクトル35について、エネルギーパラメータおよび/または相互相関パラメータのみに関して決定されるのではない例では、並べ替えユニット34はまた、V[k]ベクトル35に関して上で説明されたものと同様の方式で、相互相関パラメータおよびエネルギーパラメータに基づいてV[k]ベクトル35に関してこの分析を実行してもよい。その上、US[k]ベクトル33は指向性特性を有しないが、V[k]ベクトル35は、対応するUS[k]ベクトル33の指向性に関する情報を提供してもよい。この意味で、並べ替えユニット34は、対応する指向性特性パラメータの分析に基づいて、V[k]ベクトル35とV[k-1]ベクトル35との間の相関を特定してもよい。すなわち、いくつかの例では、オーディオオブジェクトは、動くときには連続的に音場の中を動き、または、比較的静止した位置にとどまる。したがって、並べ替えユニット34は、何らかの既知の物理的な実際の動きを示す、または相関付けられるものとして音場の中で静止したままである、V[k]行列35およびV[k-1]行列35のベクトルを特定し、この指向性特性の相関に基づいてUS[k]ベクトル33およびV[k]ベクトル35を並べ替えることができる。いずれにしても、並べ替えユニット34は、並べ替えられたUS[k]ベクトル33'および並べ替えられたV[k]ベクトル35'をフォアグラウンド選択ユニット36に出力してもよい。
【0232】
加えて、本技法は、エネルギー比較および/または相互相関の1つまたは両方を実行することを伴わない、正しい順序を決定するための他のタイプのプロセスを利用してもよい。したがって、本技法は、この点について上で述べられた例に限定されるべきではない。
【0233】
US行列のベクトルの並べ替えと同じようにV行列のベクトルを並べ替えるものとして上で説明されたが、いくつかの例では、V-ベクトルはUSベクトルとは異なるように並べ替えられてよく、ここで、USベクトルの並べ替えおよびV-ベクトルの並べ替えを示すために、別々のシンタックス要素が生成されてもよい。いくつかの例では、V-ベクトルが音響心理学的に符号化されない可能性があるとすると、V-ベクトルは並べ替えられないことがあり、USベクトルだけが並べ替えられることがある。
【0234】
V行列のベクトルおよびUS行列のベクトルの並べ替えが異なる実施形態は、その意図がオーディオオブジェクトを空間において交換することであるとき、すなわち、オーディオオブジェクトを元の記録された場所(背後の音場が自然な録音であるとき)または人工的に意図された場所(背後の音場がオブジェクトの人工的な混合物であるとき)から動かすことであるときである。例として、2つのオーディオソースAおよびBがあるとすると、Aは音場の「左」部分から発する猫の「ニャー」の音であることがあり、Bは音場の「右」部分から発する犬の「ウー」の音であることがある。VおよびUSの並べ替えが異なるとき、2つの音源の場所は交換される。音場の右部分から発するA(「ニャー」)を交換した後、B「(ウー)」が音場の左部分から発する。
【0235】
音場分析ユニット44は、目標ビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されるユニットを表す場合がある。音場分析ユニット44は、この分析および/または受信された目標ビットレート41に基づいて、音響心理学的なコーダの実体の総数(これは、環境またはバックグラウンドチャネルの総数(BG
TOT)と、フォアグラウンドチャネル、または言い換えると支配的なチャネルの数との関数であってもよい)を決定してもよい。音響心理学的なコーダの実体の総数は、numHOATransportChannelsと示すことができる。音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45、バックグラウンド(または言い換えると環境)音場の最小のオーダ(N
BG、または代替的にMinAmbHoaOrder)、バックグラウンド音場の最小のオーダを表す実際のチャネルの対応する数(nBGa = (MinAmbHoaOrder+1)
2)、および送信すべき追加のBG HOAチャネルのインデックス(i)(これらは
図10の例ではバックグラウンドチャネル情報43としてまとめて示されてもよい)を決定してもよい。バックグラウンドチャネル情報43はまた、環境チャネル情報43と呼ばれる場合がある。numHOATransportChannels - nBGaにより残るチャネルの各々は、「追加のバックグラウンド/環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的なチャネル」、または「完全に非アクティブ」のいずれかであってもよい。一実施形態では、これらのチャネルタイプは、2ビット(たとえば、00:追加のバックグラウンドチャネル、01:ベクトルベースの支配的な信号、10:非アクティブ信号、11:指向性ベースの信号)による、(“ChannelType”として)示されるシンタックス要素であってもよい。バックグラウンド信号または環境信号の総数nBGaは、(MinAmbHoaOrder +1)
2+(上の例の)インデックス00がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられてもよい。
【0236】
いずれにしても、音場分析ユニット44は、目標ビットレート41に基づいてバックグラウンド(または言い換えると環境)チャネルの数とフォアグラウンド(または言い換えると支配的な)チャネルの数とを選択して、目標ビットレート41が比較的高いとき(たとえば、目標ビットレート41が512Kbps以上であるとき)より多数のバックグラウンドおよび/またはフォアグラウンドチャネルを選択してもよい。一実施形態では、ビットストリームのヘッダセクションでは、numHOATransportChannelsは8に設定されてもよいが、MinAmbHoaOrderは1に設定されてもよい(これは
図10〜
図10O(ii)に関してより詳細に説明される)。この状況では、各フレームにおいて、4つのチャネルが音場のバックグラウンド部分または環境部分を表すために専用であってよく、一方で他の4つのチャネルは、フレームごとにチャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド/環境チャネルまたはフォアグラウンド/支配的なチャネルのいずれかとして使用することができる。フォアグラウンド/支配的な信号は、上で説明されたように、ベクトルベースの信号または指向性ベースの信号の1つとすることができる。
【0237】
いくつかの事例では、上の例において、フレームに対するベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられてもよい。上の実施形態では、各々の追加のバックグラウンド/環境チャネル(たとえば、00というChannelTypeに対応する)に対して、可能性のあるHOA係数(最初の4つ以外)のいずれがそのチャネルにおいて表されてもよいかの対応する情報である。この情報は、4次のHOAコンテンツに対して、5と25の間を示すためのインデックスであってもよい(最初の4つである1〜4はmiaAmbHoaOrderが1に設定されるときは常に送信されてもよいので、5と25の間の数を示すことだけが必要であってもよい)。したがって、この情報は、“CodedAmbCoeffIdx”と示されてもよい、(4次のコンテンツでは)5ビットのシンタックス要素を使用して送信されてもよい。
【0238】
第2の実施形態では、フォアグラウンド/支配的な信号のすべてがベクトルベースの信号である。この第2の実施形態では、フォアグラウンド/支配的な信号の総数は、nFG = numHOATransportChannels - [(MinAmbHoaOrder +1)
2 +インデックスが00である回数]によって与えられてもよい。
【0239】
音場分析ユニット44は、バックグラウンドチャネル情報43およびHOA係数11をバックグラウンド(BG)選択ユニット46に出力し、バックグラウンドチャネル情報43を係数削減ユニット46およびビットストリーム生成ユニット42に出力し、nFG45をフォアグラウンド選択ユニット36に出力する。
【0240】
いくつかの例では、音場分析ユニット44は、US[k]行列33のベクトルの分析および目標ビットレート41に基づいて、最大の値を有する可変の数nFGのこれらの成分を選択してもよい。言い換えると、音場分析ユニット44は、S[k]行列33のベクトルの降順の対角線上の値によって作り出される曲線の傾きを分析することによって、2つの副空間を分離する変数Aの値(これはN
BGと同様または実質的に同様であってもよい)を決定することができ、ここで、大きい特異値はフォアグラウンドの音または明瞭な音を表し、小さい特異値は音場のバックグラウンド成分を表す。すなわち、変数Aは、音場全体をフォアグラウンド副空間およびバックグラウンド副空間へと区分してもよい。
【0241】
いくつかの例では、音場分析ユニット44は、特異値曲線の一次導関数および二次導関数を使用してもよい。音場分析ユニット44はまた、1と5の間となるように変数Aの値を制限してもよい。別の例として、音場分析ユニット44は、1と(N+1)
2の間となるように変数Aの値を制限してもよい。代替的に、音場分析ユニット44は、変数Aの値を、たとえば4という値に事前に定義してもよい。いずれにしても、Aの値に基づいて、音場分析ユニット44は、フォアグラウンドチャネルの総数(nFG)45、バックグラウンド音場のオーダ(N
BG)、ならびに、送信すべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i)を決定する。
【0242】
さらに、音場分析ユニット44は、V[k]行列35中のベクトルのエネルギーをベクトルごとに決定してもよい。音場分析ユニット44は、V[k]行列35中のベクトルの各々のエネルギーを決定し、高いエネルギーを有するものをフォアグラウンド成分として特定してもよい。
【0243】
その上、音場分析ユニット44は、空間エネルギー分析、空間マスキング分析、拡散分析、または他の形態の聴覚的分析を含む、HOA係数11に関する様々な他の分析を実行してもよい。音場分析ユニット44は、空間領域へのHOA係数11の変換、および保存されるべき音場の指向性成分を表す高エネルギーのエリアの特定を通じて、空間エネルギー分析を実行してもよい。音場分析ユニット44は、音場分析ユニット44が空間的に近接するより高エネルギーの音によってマスキングされる空間エリアを特定する場合があることを除き、空間エネルギー分析と同様の方式で、知覚的空間マスキング分析を実行してもよい。いくつかの事例では、音場分析ユニット44は次いで、知覚的にマスキングされるエリアに基づいて、より少数のフォアグラウンド成分を特定する場合がある。音場分析ユニット44はさらに、HOA係数11に関して拡散分析を実行して、音場のバックグラウンド成分を表す場合がある拡散エネルギーのエリアを特定する場合がある。
【0244】
音場分析ユニット44はまた、音場を表すオーディオデータの卓越性、顕著性、または優位性を、オーディオデータと関連付けられる指向性ベースの情報を使用して決定するように構成される、ユニットを表す場合がある。エネルギーベースの決定は、音場の明瞭なオーディオ成分を特定するためにSVDによって分解される音場のレンダリングを改善する場合があるが、エネルギーベースの決定はまた、バックグラウンドオーディオ成分が高いエネルギーレベルを示す場合には、デバイスにバックグラウンドオーディオ成分を明瞭なオーディオ成分として誤って特定させることがある。すなわち、明瞭なオーディオ成分とバックグラウンドオーディオ成分をエネルギーだけに基づいて分離することは、高エネルギーの(たとえば、より大音量の)バックグラウンドオーディオ成分が明瞭なオーディオ成分として誤って特定されることがあるので、確実ではないことがある。音場の明瞭なオーディオ成分とバックグラウンドオーディオ成分をより確実に区別するために、本開示において説明される技法の様々な態様は、音場分析ユニット44が、HOA係数11の指向性ベースの分析を実行して、HOA係数11の分解されたバージョンからフォアグラウンドオーディオ成分と環境オーディオ成分を分離することを可能にする場合がある。
【0245】
この点において、音場分析ユニット44は、US[k]行列33中のベクトルおよびV[k]行列35中のベクトルの1つまたは複数に含まれるバックグラウンド要素から明瞭な(またはフォアグラウンド)要素を特定するように構成される、またはそうでなければそのように動作可能なユニットを表す場合がある。いくつかのSVDベースの技法によれば、最も高エネルギーの成分(たとえば、US[k]行列33およびV[k]行列35の1つまたは複数の最初の数個のベクトル、またはそれらから導出されたベクトル)が、明瞭な成分として扱われてもよい。しかしながら、US[k]行列33中のベクトルおよびV[k]行列35中のベクトルの1つまたは複数の最も高エネルギーの成分(ベクトルによって表される)は、すべての状況において、最も指向性のある成分/信号を表すとは限らない。
【0246】
音場分析ユニット44は、US[k]行列33中のベクトルおよびV[k]行列35中のベクトルの1つまたは複数のベクトル、またはそれらから導出されたベクトルの指向性に基づいて、フォアグラウンド要素/直接の要素/支配的な要素を特定するために、本明細書で説明される技法の1つまたは複数の態様を実装してもよい。いくつかの例では、音場分析ユニット44は、ベクトルのエネルギーと指向性の両方に基づいて、明瞭なオーディオ成分(この成分は「オブジェクト」とも呼ばれる場合がある)として、1つまたは複数のベクトルを特定または選択してもよい。たとえば、音場分析ユニット44は、US[k]行列33中のベクトルおよびV[k]行列35中のベクトルの1つまたは複数(またはこれらから導出されるベクトル)のうちで、高いエネルギーと高い指向性(たとえば、指向性指数として表される)の両方を示すベクトルを、明瞭なオーディオ成分として特定してもよい。結果として、特定のベクトルが、US[k]行列33中のベクトルおよびV[k]行列35中のベクトルの1つまたは複数(またはこれらから導出されるベクトル)のうちの他のベクトルと比較して、相対的に指向性が低いと音場分析ユニット44が決定する場合、その特定のベクトルと関連付けられるエネルギーレベルとは無関係に、音場分析ユニット44は、HOA係数11によって表される音場のバックグラウンド(または環境)オーディオ成分をその特定のベクトルが表すと、決定してもよい。
【0247】
いくつかの例では、音場分析ユニット44は、以下の動作を実行することによって、指向性に基づいて明瞭なオーディオオブジェクト(上で述べられたように、これは「成分」とも呼ばれる場合がある)を特定してもよい。音場分析ユニット44は、S[k]行列中のベクトル(これは、US[k]ベクトル33から導出されてよく、または、示されていないが
図10の例ではLITユニット30によって別々に出力される)をV[k]行列35中のベクトルと(たとえば、1つまたは複数の行列乗算プロセスを使用して)乗算してもよい。V[k]行列35をS[k]ベクトルと乗算することによって、音場分析ユニット44はVS[k]行列を取得してもよい。加えて、音場分析ユニット44は、VS[k]行列中のベクトルの各々の成分の少なくともいくつかを二乗する(すなわち、2というべきによってべき乗する)ことができる。いくつかの例では、音場分析ユニット44は、1よりも大きいオーダと関連付けられる各ベクトルの二乗された成分を加算してもよい。
【0248】
一例として、VS[k]行列の各ベクトルが25個の成分を含む場合、音場分析ユニット44は、各ベクトルに関して、第5の成分の始めから第25の成分の終わりまでの各ベクトルの成分を二乗し、二乗された成分を加算して指向性指数(または指向性インジケータ)を決定してもよい。各々の加算演算は、対応するベクトルの指向性指数をもたらす場合がある。この例では、音場分析ユニット44は、1以下のオーダと関連付けられる各行の成分、すなわち、第1の成分から第4の成分が全般に、成分の指向性よりもエネルギーの量を対象としていると決定してもよい。すなわち、0または1というオーダと関連付けられる低次アンビソニックスは、
図1および
図2に示されるような、圧力波の方向に関して多くのことを提供しないがある程度の音量を提供する(これはエネルギーを表す)、球面基底関数に対応する。
【0249】
上の例において説明される動作はまた、以下の擬似コードに従って表現されてもよい。以下の擬似コードは、文字列「/*」および「*/」の連続するインスタンス(引用符を伴わない)の中に含まれるコメント記述の形式の注記を含む。
[U,S,V] = svd(audioframe,'ecom');
VS = V*S;
/*次の行は各行を独立に分析することと、(一例として)第1の行の値を第5の成分から第25の成分まで加算して、対応するベクトルの指向性指数または指向性尺度を決定することを対象とする。加算の前に成分を二乗する。1よりも大きいオーダと関連付けられる各行の成分は、高次アンビソニックスと関連付けられるので、指向性がある可能性がより高い。*/
sumVS = sum(VS(5:end,:).^2,1);
/*次の行は、生成されたVS行列の二乗の合計を整列することと、最大の値のセット(たとえば、最大の値のうちの3つまたは4つ)を選択することとを対象とする*/
[〜,idxVS] = sort(sumVS,'descend');
U = U(:,idxVS);
V = V(:,idxVS);
S = S(idxVS,idxVS);
【0250】
言い換えると、上の擬似コードに従って、音場分析ユニット44は、HOA係数11のうちで1よりも大きいオーダを有する球面基底関数に対応するものから分解されるVS[k]行列の各ベクトルの成分を選択してもよい。音場分析ユニット44は次いで、VS[k]行列の各ベクトルのこれらの成分を二乗し、二乗された成分を加算して、VS[k]行列の各ベクトルの指向性尺度または指数を特定し、計算し、またはそうでなければ決定してもよい。次に、音場分析ユニット44は、ベクトルの各々のそれぞれの指向性尺度に基づいて、VS[k]行列のベクトルを整列してもよい。音場分析ユニット44は、最高の対応する指向性を有するベクトルが最初になり、最低の対応する指向性を有するベクトルが最後になるように、指向性尺度の降順でこれらのベクトルを整列してもよい。音場分析ユニット44は次いで、最高の相対的な指向性尺度を有するベクトルの0ではないサブセットを選択してもよい。
【0251】
音場分析ユニット44は、前述の分析の任意の組合せを実行して、音響心理学的なコーダの実体の総数(これは、環境またはバックグラウンドチャネルの総数(BG
TOT)と、フォアグラウンドチャネルの数との関数であってもよい)を決定してもよい。音場分析ユニット44は、前述の分析の任意の組合せに基づいて、フォアグラウンドチャネルの総数(nFG)45、バックグラウンド音場のオーダ(N
BG)、および、送信すべき追加のBG HOAチャネルの数(nBGa)とインデックス(i)(これらは
図10の例ではまとめてバックグラウンドチャネル情報43として示されてもよい)を決定してもよい。
【0252】
いくつかの例では、音場分析ユニット44は、M個のサンプルごとにこの分析を実行することができ、これはフレームごととして言い換えられる場合がある。この点において、Aの値はフレームごとに変化する場合がある。M個のサンプルごとに決断が行われるビットストリームの例が、
図10〜
図10O(ii)に示されている。他の例では、音場分析ユニット44は、フレームごとに2回以上この分析を実行して、フレームの2つ以上の部分を分析してもよい。したがって、本技法は、この点について本開示において説明される例に限定されるべきではない。
【0253】
バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(たとえば、バックグラウンド音場(N
BG)ならびに送信すべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i))に基づいて、バックグラウンドまたは環境HOA係数47を決定するように構成されるユニットを表す場合がある。たとえば、N
BGが1に等しいとき、バックグラウンド選択ユニット48は、1以下のオーダを有するオーディオフレームの各サンプルに対するHOA係数11を選択してもよい。この例では、バックグラウンド選択ユニット48は次いで、追加のBG HOA係数としてインデックス(i)の1つによって特定されるインデックスを有するHOA係数11を選択することができ、ここで、nBGaは、
図9Aの例において示されるオーディオ復号デバイス24のようなオーディオ復号デバイスが、ビットストリーム21からのBG HOA係数47を解析することを可能にするために、ビットストリーム21において指定されることになるビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力してもよい。環境HOA係数47は、D:M*[(N
BG+1)
2+ nBGa]という次元を有する場合がある。
【0254】
フォアグラウンド選択ユニット36は、並べ替えられたUS[k]行列33'および並べ替えられたV[k]行列35'のうちで、nFG45(これはフォアグラウンドベクトルを特定する1つまたは複数のインデックスを表す場合がある)に基づいて音場のフォアグラウンド成分または明瞭な成分を表すものを選択するように構成されるユニットを表す場合がある。フォアグラウンド選択ユニット36は、nFG信号49(並べ替えられたUS[k]
1,…, nFG 49、FG
1,…, nfG[k] 49、または
【数12】
として示されてもよい)をメザニンフォーマットユニット40に出力することができ、ここでnFG信号49は次元D:M*nFGを有してよく、各々がモノオーディオオブジェクトを表す。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35' (またはv
(1..nFG)(k) 35')を空間-時間補間ユニット50に出力することができ、ここで、並べ替えられたV[k]行列35'のうちでフォアグラウンド成分に対応するものは、次元D:(N+1)
2*nFGを有するフォアグラウンドV[k]行列51
k(これは、
【数13】
として数学的に示されてもよい)として示されてもよい。
【0255】
エネルギー補償ユニット38は、環境HOA係数47に関してエネルギー補償を実行して、バックグラウンド選択ユニット48によるHOAチャネルの様々な1つの削除が原因のエネルギーの損失を補償するように構成されるユニットを表す場合がある。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51
k、および環境HOA係数47の1つまたは複数に関してエネルギー分析を実行し、次いで、このエネルギー分析に基づいてエネルギー補償を実行してエネルギー補償された環境HOA係数47'を生成してもよい。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47'をメザニンフォーマットユニット40に出力してもよい。
【0256】
実質的に、エネルギー補償ユニット38は、HOA係数11によって記述される音場の環境成分のオーダを下げてオーダ低減された環境HOA係数47(これはいくつかの例では、[(N
BG+1)
2 + nBGa]というオーダ/サブオーダを有する球面基底関数に対応する係数だけを含むという点でNよりも小さいオーダを有する)を生成することによって引き起こされる、音場のバックグラウンドサウンド成分のエネルギー全体の起こり得る減少を補償するために使用されてもよい。いくつかの例では、エネルギー補償ユニット38は、環境HOA係数47をメザニンフォーマットユニット40に出力する前に、環境HOA係数47の二条平均平方根(RMS)エネルギーを、HOA係数11のRMS(並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51
k、およびオーダ低減された環境HOA係数47の1つまたは複数の総計のエネルギー分析を通じて決定されるような)に等しくなるように、またはそれに少なくともより正確に近づくように増大させるために、環境HOA係数47の[(N
BG+1)
2 + nBGa]個の列の各々に適用すべき補償利得を増幅値の形式で決定することによって、エネルギーのこの損失を補償する。
【0257】
いくつかの例において、エネルギー補償ユニット38は、並べ替えられたUS[k]行列33'および並べ替えられたV[k]行列35'の1つまたは複数の各行および/または列のRMSを特定してもよい。エネルギー補償ユニット38はまた、選択されたフォアグラウンドチャネルの1つまたは複数の各行および/または列のRMSを特定することができ、選択されたフォアグラウンドチャネルは、nFG信号49およびフォアグラウンドV[k]ベクトル51
kと、オーダ低減された環境HOA係数47とを含んでもよい。並べ替えられたUS[k]行列33'および並べ替えられたV[k]行列35'の1つまたは複数の各行および/または列のRMSは、RMS
FULLと示されるベクトルに記憶されてもよいが、nFG信号49、フォアグラウンドV[k]ベクトル51
k、およびオーダ低減された環境HOA係数47の1つまたは複数の各行および/または列のRMSは、RMS
REDUCEDと示されるベクトルに記憶されてもよい。エネルギー補償ユニット38は次いで、Z = RMS
FULL/RMS
REDUCEDという式に従って、増幅値ベクトルZを計算してもよい。エネルギー補償ユニット38は次いで、nFG信号49、フォアグラウンドV[k]ベクトル51
k、およびオーダ低減された環境HOA係数47の1つまたは複数に、この増幅値ベクトルZまたはその様々な部分を適用してもよい。いくつかの例では、増幅値ベクトルZは、HOA
BG-RED' = HOA
BG-REDZ
Tという式に従って、オーダ低減された環境HOA係数47だけに適用され、ここでHOA
BG-REDはオーダ低減された環境HOA係数47を示し、HOA
BG-RED'はエネルギー補償された低減された環境HOA係数47'を示し、Z
TはZベクトルの転置を示す。
【0258】
いくつかの例では、並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51
k、およびオーダ低減された環境HOA係数47の1つまたは複数のそれぞれの行および/または列の各RMSを決定するために、エネルギー補償ユニット38はまず、基準球面調和係数(SHC)レンダラを列に適用してもよい。エネルギー補償ユニット38による基準SHCレンダラの適用により、以下でより詳細に説明されるように、並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51
k、およびオーダ低減された環境HOA係数47の1つまたは複数の行および/または列によって表されるフレームの各行および/または列によって記述される音場全体のエネルギーを決定するための、SHC領域におけるRMSの決定が可能になる。
【0259】
空間-時間補間ユニット50は、k'番目のフレームに対するフォアグラウンドV[k]ベクトル51
kと前のフレーム(したがってk-1という表記である)に対するフォアグラウンドV[k-1]ベクトル51
k-1とを受信して、空間-時間補間を実行して補間されたフォアグラウンドV[k]ベクトルを生成するように構成されるユニットを表す場合がある。空間-時間補間ユニット50は、nFG信号49をフォアグラウンドV[k]ベクトル51
kと再び組み合わせて、並べ替えられたフォアグラウンドHOA係数を復元してもよい。空間-時間補間ユニット50は次いで、並べ替えられたフォアグラウンドHOA係数を補間されたV[k]ベクトルによって除算し、補間されたnFG信号49'を生成してもよい。空間-時間補間ユニット50はまた、オーディオ復号デバイス24のようなオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成してそれによってフォアグラウンドV[k]ベクトル51
kを復元できるように、フォアグラウンドV[k]ベクトル51
kのうちで、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたものを出力してもよい。フォアグラウンドV[k]ベクトル51
kのうちで、補間されたフォアグラウンドV[k]を生成するために使用されるものは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k-1]が(補間されたベクトルV[k]を作成するために)エンコーダおよびデコーダにおいて使用されることを確実にするために、これらの量子化された/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用されてもよい。
【0260】
この点に関して、空間-時間補間ユニット50は、第1のオーディオフレームおよび第2の時間的に後または前のオーディオフレームのいくつかの他の部分から第1のオーディオフレームの第1の部分を補間するユニットを表す場合がある。いくつかの例では、その部分はサブフレームとして示されることがあり、サブフレームに関して実行されるような補間は、
図45〜
図46Eに関して以下でより詳細に説明される。他の例では、空間-時間補間ユニット50は、前のフレームのサンプルの最後のいくつかのサンプルおよび後のフレームの最初のいくつかのサンプルに関して動作してもよい。空間-時間補間ユニット50は、この補間を実行する際に、ビットストリーム21において指定されることが要求されるフォアグラウンドV[k]ベクトル51
kのサンプルの数を減らすことができ、それは、フォアグラウンドV[k]ベクトル51
kのうちで補間されたV[k]ベクトルを生成するために使用されるものだけが、フォアグラウンドV[k]ベクトル51
kのサブセットを表すからである。すなわち、(ビットストリーム21において指定されるフォアグラウンドV[k]ベクトル51
kの数を減らすことによって)HOA係数11の圧縮を潜在的により効率的にするために、本開示において説明される技法の様々な態様は、第1のオーディオフレームの1つまたは複数の部分の補間を実現することができ、その部分の各々はHOA係数11の分解されたバージョンを表す場合がある。
【0261】
空間-時間補間は、いくつかの利点をもたらす場合がある。第1に、nFG信号49は、SVDまたは他のLITが実行される際のブロックごとの性質が原因で、フレームごとに連続的ではないことがある。言い換えると、LITユニット30がフレームごとにSVDを適用するとすると、たとえばUS[k]行列33およびV[k]行列35の並べ替えられていない性質により、結果として得られる変換されたHOA係数の中に証拠として何らかの非連続性が存在することがある。この補間を実行することによって、フレーム境界(または言い換えると、フレームへのHOA係数11の区分)が原因でもたらされるあらゆるアーティファクトを低減する可能性のある平滑化効果を補間が有する場合があるとすると、この非連続性は低減されてもよい。フォアグラウンドV[k]ベクトル51
kを使用してこの補間を実行し、次いで復元された並べ替えられたHOA係数から補間されたフォアグラウンドV[k]ベクトル51
kに基づいて補間されたnFG信号49'を生成することで、フレームごとの動作が原因の、さらにはnFG信号49を並べ替えることが原因の、少なくともいくつかの影響を平滑化してもよい。
【0262】
動作において、空間-時間補間ユニット50は、第1のフレームに含まれる第1の複数のHOA係数11の一部分の第1の分解、たとえばフォアグラウンドV[k]ベクトル51
k、および、第2のフレームに含まれる第2の複数のHOA係数11の一部分の第2の分解、たとえばフォアグラウンドV[k]ベクトル51
k-1からの、第1のオーディオフレームの1つまたは複数のサブフレームを補間して、1つまたは複数のサブフレームに対する分解され補間された球面調和係数を生成してもよい。
【0263】
いくつかの例では、第1の分解は、HOA係数11のその部分の右特異ベクトルを表す第1のフォアグラウンドV[k]ベクトル51
kを備える。同様に、いくつかの例では、第2の分解は、HOA係数11のその部分の右特異ベクトルを表す第2のフォアグラウンドV[k]ベクトル51
kを備える。
【0264】
言い換えると、球面調和ベースの3Dオーディオは、球面上の直交基底関数による3D圧力場のパラメトリックな表現であってもよい。表現のオーダNが高いほど、空間分解能は高くなる可能性があり、また、(全体で(N+1)
2個の係数に対する)球面調和(SH)係数の数が大きくなることが多い。多くの適用形態において、係数の帯域幅圧縮は、係数を効率的に送信して記憶することが可能であることが要求されてもよい。本開示で指示されるこの技法は、特異値分解(SVD)を使用したフレームベースの次元削減プロセスを提供してもよい。SVD分析は、係数の各フレームを3つの行列U、S、およびVに分解してもよい。いくつかの例では、本技法は、背後の音場のフォアグラウンド成分として、US[k]行列中のベクトルの一部を扱うことができる。しかしながら、このように扱われるとき、(US[k]行列の中の)これらのベクトルは、それらが同じ明瞭なオーディオ成分を表すとしても、フレームごとに非連続である。これらの非連続性は、成分が変換オーディオコーダを通じて与えられるとき、大きいアーティファクトにつながる場合がある。
【0265】
本開示において説明される技法は、この非連続性に対処する場合がある。すなわち、本技法は、V行列が球面調和領域中の直交する空間軸として解釈することができるという考えに基づいてもよい。U[k]行列は、それらの基底関数として球面調和(HOA)データの投影を表す場合があり、ここで上記の非連続性は、フレームごとに変化する、したがってそれら自体が非連続的である、直交する空間軸(V[k])が原因となることがある。これは、基底関数がいくつかの例ではフレームごとに不変であるフーリエ変換のような類似の分解とは異なる。これらの点で、SVDは、matching pursuitアルゴリズムとみなされてもよい。本開示において説明される技法は、空間-時間補間ユニット50が、基底関数(V[k])を補間することによって、フレームごとに基底関数間の連続性を維持することを可能にする場合がある。
【0266】
上で述べられたように、この補間はサンプルに関して実行されてもよい。このケースは、サブフレームがサンプルの単一のセットを備えるとき、上の説明において一般化される。複数のサンプルにわたる補間の場合と複数のサブフレームにわたる補間の場合の両方において、補間動作は次の式の形をとってもよい。
【数14】
この上の式では、補間は、単一のV-ベクトルv(k-1)から単一のV-ベクトルv(k)に関して実行されてよく、これらは一実施形態では、隣接するフレームkおよびk-1からのV-ベクトルを表す場合がある。上の式では、lは補間が実行される分解能を表し、ここでlは整数のサンプルを示すことができ、l = 1, ...,Tである(ここでTは、補間が実行されており出力の補間されたベクトル
【数15】
が必要とされるサンプルの長さであり、このプロセスの出力がこれらのベクトルのうちのl個を生成することも示す)。代替的に、lは複数のサンプルからなるサブフレームを示す場合がある。たとえば、フレームが4つのサブフレームに分割されるとき、lは、サブフレームの各々1つに対する1、2、3、および4という値を備える場合がある。lの値は、補間動作がデコーダにおいて繰り返されてもよいように、ビットストリームを通じて“CodedSpatialInterpolationTime”と呼ばれるフィールドとしてシグナリングされてもよい。w(l)は、補間の重みの値を備える場合がある。補間が線形であるとき、w(l)は、lの関数として0と1つの間で線形かつ単調に変化する場合がある。他の例では、w(l)は、lの関数として非線形であるが単調に(二乗余弦の1/4周期のように)0と1の間を変化する場合がある。関数w(l)は、関数のいくつかの異なる候補の間でインデックスを付けられ、同一の補間動作がデコーダによって繰り返されてもよいように、“SpatialInterpolationMethod”という名前のフィールドとしてビットストリームにおいてシグナリングされてもよい。w(l)が0に近い値であるとき、出力
【数16】
は、v(k-1)によって大きく重みを付けられ、または影響を受けることがある。一方、w(l)が1に近い値であるとき、このことは、出力
【数17】
が、v(k-1)によって大きく重みを付けられ、または影響を受けることを確実にする。
【0267】
係数削減ユニット46は、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関する係数削減を実行して、削減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するように構成されるユニットを表す場合がある。削減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)
2-(N
BG+1)
2-nBGa]*nFGを有する場合がある。
【0268】
係数削減ユニット46は、この点で、残りのフォアグラウンドV[k]ベクトル53の係数の数を削減するように構成されるユニットを表す場合がある。言い換えると、係数削減ユニット46は、指向性情報をほとんどまたはまったく有しないフォアグラウンドV[k]ベクトルの係数(これらが残りのフォアグラウンドV[k]ベクトル53を形成する)を除去するように構成されるユニットを表す場合がある。上で説明されたように、いくつかの例では、1次および0次の基底関数(N
BGとして示されてもよい)に対応する、明瞭な、または言い換えるとフォアグラウンドのV[k]ベクトルの係数は、ほとんど指向性情報を提供しないので、フォアグラウンドV-ベクトルから(「係数削減」と呼ばれる場合があるプロセスを通じて)除去することができる。この例では、N
BGに対応するこれらの係数を特定するためだけではなく、[(N
BG +1)
2+1, (N+1)
2]のセットから追加のHOAチャネル(変数TotalOfAddAmbHOAChanによって示されてもよい)を特定するためにも、より大きい柔軟性が提供されてもよい。音場分析ユニット44は、HOA係数11を分析してBG
TOTを決定することができ、BG
TOTは(N
BG+1)
2だけではなくTotalOfAddAmbHOAChanも特定することができ、これらはまとめて、バックグラウンドチャネル情報43と呼ばれる場合がある。係数削減ユニット46は次いで、残りのフォアグラウンドV[k]ベクトル53から、(N
BG+1)
2およびTotalOfAddAmbHOAChanに対応する係数を除去して、サイズ((N+1)
2-BG
TOT)*nFGのより小さい次元のV[k]行列55を生成することができ、これは、削減されたフォアグラウンドV[k]ベクトル55とも呼ばれる場合がある。
【0269】
量子化ユニット52は、任意の形式の量子化を実行して削減されたフォアグラウンドV[k]ベクトル55を圧縮して、コーディングされたフォアグラウンドV[k]ベクトル57を生成し、これらのコーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されるユニットを表す場合がある。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では削減されたフォアグラウンドV[k]ベクトル55の1つまたは複数を圧縮するように構成されるユニットを表す場合がある。例示を目的に、削減されたフォアグラウンドV[k]ベクトル55は、係数削減の結果として、25個未満の要素を各々有する2つの行ベクトルを含む(これは、音場の4次のHOA表現であることを示唆する)と仮定される。2つの行ベクトルに関して説明されるが、任意の数のベクトルが、最大で(n+1)
2個まで、削減されたフォアグラウンドV[k]ベクトル55に含まれることがあり、ここでnは音場のHOA表現のオーダを示す。その上、スカラー量子化および/またはエントロピー量子化を実行するものとして以下で説明されるが、量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55の圧縮をもたらす任意の形式の量子化を実行してもよい。
【0270】
量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55を受信し、圧縮方式を実行してコーディングされたフォアグラウンドV[k]ベクトル57を生成してもよい。この圧縮方式は、ベクトルまたはデータの要素を圧縮するための任意の想起可能な圧縮方式を一般に伴ってよく、以下でより詳細に説明される例に限定されるべきではない。量子化ユニット52は、例として、削減されたフォアグラウンドV[k]ベクトル55の各要素の浮動小数点表現を、削減されたフォアグラウンドV[k]ベクトル55の各要素の整数表現に変換すること、削減されたフォアグラウンドV[k]ベクトル55の整数表現の一様な量子化、および、残りのフォアグラウンドV[k]ベクトル55の量子化された整数表現のカテゴリとコーディングの、1つまたは複数を含む圧縮方式を実行してもよい。
【0271】
いくつかの例では、この圧縮方式の1つまたは複数の様々なプロセスは、一例として、得られるビットストリーム21の目標ビットレートを達成するために、またはほぼ達成するために、パラメータによって動的に制御されてもよい。削減されたフォアグラウンドV[k]ベクトル55の各々が互いに直交しているとすると、削減されたフォアグラウンドV[k]ベクトル55の各々は独立にコーディングされてもよい。いくつかの例では、以下でより詳細に説明されるように、各々の削減されたフォアグラウンドV[k]ベクトル55の各要素は、(様々なサブモードによって定義される)同じコーディングモードを使用してコーディングされてもよい。
【0272】
いずれにしても、上で述べられたように、このコーディング方式はまず、削減されたフォアグラウンドV[k]ベクトル55の各々の各要素の浮動小数点の表現(これはいくつかの例では、32ビットの浮動小数点数である)を16ビットの整数の表現に変換することを伴う場合がある。量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55の所与の1つの各要素を2
15と乗算することによってこの浮動小数点数から整数への変換を実行することができ、これはいくつかの例では、15だけ右シフトすることによって実行される。
【0273】
量子化ユニット52は次いで、削減されたフォアグラウンドV[k]ベクトル55の所与の1つの要素のすべてに関して一様な量子化を実行してもよい。量子化ユニット52は、nbitsパラメータとして示されてもよい値に基づいて、量子化ステップサイズを特定してもよい。量子化ユニット52は、目標ビットレート41に基づいてこのnbitsパラメータを動的に決定してもよい。量子化ユニット52は、このnbitsパラメータの関数として量子化ステップサイズを決定してもよい。一例として、量子化ユニット52は、量子化ステップサイズ(本開示では「デルタ」または“Δ”と示される)を2
16-nbitsに等しいものとして決定してもよい。この例では、nbitsが6に等しい場合、デルタは2
10に等しく、2
6個の量子化レベルがある。この点について、ベクトル要素vに対して、量子化されたベクトル要素v
qは[v/Δ]に等しく、-2
nbits-1<v
q<2
nbits-1である。
【0274】
量子化ユニット52は次いで、量子化されたベクトル要素の分類および残差コーディングを実行してもよい。一例として、量子化ユニット52は、所与の量子化されたベクトル要素v
qに対して、以下の式を使用してこの要素が対応するカテゴリを(カテゴリ識別子cidを決定することによって)特定してもよい。
【数18】
量子化ユニット52は次いで、このカテゴリインデックスcidをハフマンコーディングしながら、v
qが正の値か負の値かを示す符号ビットを特定することもできる。量子化ユニット52は次に、このカテゴリの中の残差を特定してもよい。一例として、量子化ユニット52は、以下の式に従ってこの残差を求めることができる。
residual = |v
q| - 2
cid-1
量子化ユニット52は次いで、cid-1ビットを有するこの残差をブロックコーディングしてもよい。
【0275】
以下の例は、この分類および残差コーディングプロセスの簡略化された例を示す。まず、nbitsが6に等しいのでv
q∈[-31,31]であると仮定する。次に、以下のことを仮定する。
【表7】
また、以下のことを仮定する。
【表8】
したがって、v
q=[6,-17,0,0,3]に対して、次のことが決定されてもよい。
・cid = 3,5,0,0,2
・符号 = 1,0,x,x,1
・残差 = 2,1,x,x,1
・6のためのビット =‘0010'+‘1'+'10'
・-17のためのビット =‘00111'+'0'+‘0001'
・0のためのビット =‘0'
・0のためのビット =‘0'
・3のためのビット =‘000'+‘1'+‘1'
・全体のビット = 7+10+1+1+5 = 24
・平均のビット = 24/5 = 4.8
【0276】
上述の簡略化された例においては示されないが、量子化ユニット52は、cidをコーディングするときにnbitsの異なる値に対しては異なるハフマンコードブックを選択してもよい。いくつかの例では、量子化ユニット52は、nbits値6、...、15に対して異なるハフマンコーディングテーブルを提供してもよい。その上、量子化ユニット52は、全体で50個のハフマンコードブックに対して、6、...、15にわたる異なるnbits値の各々のための、5つの異なるハフマンコードブックを含んでもよい。この点について、量子化ユニット52は、いくつかの異なる統計的文脈におけるcidのコーディングに対応するために、複数の異なるハフマンコードブックを含んでもよい。
【0277】
例示すると、量子化ユニット52は、nbits値の各々に対して、ベクトル要素1から4をコーディングするための第1のハフマンコードブックと、ベクトル要素5から9をコーディングするための第2のハフマンコードブックと、ベクトル要素9以上をコーディングするための第3のハフマンコードブックとを含んでもよい。これらの最初の3つのハフマンコードブックは、圧縮されるべき削減されたフォアグラウンドV[k]ベクトル55の1つが、削減されたフォアグラウンドV[k]ベクトル55の時間的に後の対応する1つから予測されず、合成オーディオオブジェクト(たとえば、元はパルス符号変調(PCM)オーディオオブジェクトによって定義されるもの)の空間情報を表さないときに、使用されてもよい。量子化ユニット52は加えて、nbits値の各々に対して、削減されたフォアグラウンドV[k]ベクトル55の1つが削減されたフォアグラウンドV[k]ベクトル55の時間的に後の対応する1つから予測されるとき、削減されたフォアグラウンドV[k]ベクトル55のその1つをコーディングするための第4のハフマンコードブックを含んでもよい。量子化ユニット52はまた、nbits値の各々に対して、削減されたフォアグラウンドV[k]ベクトル55の1つが合成オーディオオブジェクトを表すとき、削減されたフォアグラウンドV[k]ベクトル55のその1つをコーディングするための第5のハフマンコードブックを含んでもよい。様々なハフマンコードブックが、これら異なる統計的文脈の各々、すなわち、この例では予測されない非合成の文脈、予測される文脈、および合成の文脈に対して作成されてもよい。
【0278】
以下の表は、分解ユニットが適切なハフマンテーブルを選択することを可能にするために、ビットストリームにおいて指定されることになるハフマンテーブルの選択およびビットを示す。
【表9】
上の表において、予測モード(「予測モード(Pred mode)」)は、現在のベクトルに対して予測が実行されたかどうかを示すが、ハフマンテーブル(「HT情報」)は、ハフマンテーブル1から5の1つを選択するために使用される追加のハフマンコードブック(またはテーブル)情報を示す。
【0279】
以下の表はさらに、様々な統計的文脈または状況のもとでのこのハフマンテーブル選択プロセスを示す。
【表10】
上のテーブルにおいて、「記録」の列は、記録されたオーディオオブジェクトをベクトルが表すときのコーディングの文脈を示し、一方、「合成」の列は、ベクトルが合成オーディオオブジェクトを表すときのコーディングの文脈を示す。「予測なし」の行は、ベクトル要素に関して予測が実行されないときのコーディングの文脈を示し、一方で、「予測あり」の行は、ベクトル要素に関して予測が実行されるときのコーディングの文脈を示す。この表において示されるように、量子化ユニット52は、記録されたオーディオオブジェクトをベクトルが表し、ベクトル要素に関して予測が実行されないとき、HT{1,2,3}を選択する。量子化ユニット52は、合成オーディオオブジェクトをオーディオオブジェクトが表し、ベクトル要素に関して予測が実行されないとき、HT5を選択する。量子化ユニット52は、記録されたオーディオオブジェクトをベクトルが表し、ベクトル要素に関して予測が実行されるとき、HT4を選択する。量子化ユニット52は、合成オーディオオブジェクトをオーディオオブジェクトが表し、ベクトル要素に関して予測が実行されるとき、HT5を選択する。
【0280】
この点について、量子化ユニット52は、上で述べられたスカラー量子化および/またはハフマン符号化を実行して削減されたフォアグラウンドV[k]ベクトル55を圧縮し、サイドチャネル情報57と呼ばれる場合があるコーディングされたフォアグラウンドV[k]ベクトル57を出力してもよい。このサイドチャネル情報57は、残りのフォアグラウンドV[k]ベクトル55をコーディングするために使用されるシンタックス要素を含んでもよい。
【0281】
上で述べられたように、量子化ユニット52は、サイドチャネル情報57のためのシンタックス要素を生成してもよい。たとえば、量子化ユニット52は、複数の構成モードのいずれが選択されたかを示すシンタックス要素を、アクセスユニットのヘッダ(1つまたは複数のフレームを含んでもよい)の中で指定してもよい。アクセスユニットごとに指定されるものとして説明されるが、量子化ユニット52は、フレームごとに、または任意の他の定期的な方式で、または非定期的な方式(ビットストリーム全体に対して1回など)で、このシンタックス要素を指定してもよい。いずれにしても、このシンタックス要素は、この明瞭な成分の方向的な側面を表すために、削減されたフォアグラウンドV[k]ベクトル55の係数の0ではないセットを指定するために4つの構成モードのいずれが選択されたかを示す、2つのビットを備える場合がある。シンタックス要素は“codedVVecLength”として示されてもよい。このようにして、量子化ユニット52は、ビットストリーム中のコーディングされたフォアグラウンドV[k]ベクトル57を指定するために4つの構成モードのいずれが使用されたかを、ビットストリームにおいてシグナリングし、またはそうでなければ指定してもよい。4つの構成モードに関して説明されるが、本技法は4つの構成モードに限定されるべきではなく、単一の構成モードまたは複数の構成モードを含む、任意の数の構成モードにも限定されるべきではない。スカラー/エントロピー量子化ユニット53また、サイドチャネル情報57において、別のシンタックス要素としてフラグ63を指定してもよい。
【0282】
空間オーディオ符号化デバイス20内に含まれるメザニンフォーマットユニット40は、既知のフォーマット(復号デバイスにより知られているフォーマットを指す場合がある)に合わせるためにデータをフォーマットし、それによってメザニンフォーマットされたオーディオデータ15を生成するユニットを表す場合がある。メザニンフォーマットユニット40は、いくつかの例ではマルチプレクサを表すことがあり、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、エネルギー補償された環境HOA係数47'と、補間されたnFG信号49'と、バックグラウンドチャネル情報43とを受け取ることができる。メザニンフォーマットユニット40は次いで、コーディングされたフォアグラウンドV[k]ベクトル57、エネルギー補償された環境HOA係数47'、補間されたnFG信号49'、およびバックグラウンドチャネル情報43に基づいて、メザニンフォーマットされたオーディオデータ15を生成してもよい。上で述べられたように、メザニンフォーマットされたオーディオデータ15は、PCMトランスポートチャネルとサイドバンド(または言い換えると、サイドチャネル)情報とを含んでもよい。
【0283】
このようにして、本技法は、空間オーディオ符号化デバイス20が、高次アンビソニックスオーディオデータを記憶し、高次アンビソニックスオーディオデータに関してメザニン圧縮を実行してメザニンフォーマットされたオーディオデータを取得するように構成されることを、可能にする場合がある。
【0284】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関する音響心理学的オーディオ符号化の適用を伴わない、メザニン圧縮を実行するように構成されてもよい。
【0285】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関する空間オーディオ符号化を実行するように構成されてもよい。
【0286】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関するベクトルベースの合成または分解を実行するように構成されてもよい。
【0287】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関する特異値分解を実行するように構成されてもよい。
【0288】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータによって表される音場の1つまたは複数のバックグラウンド成分を含む。
【0289】
これらおよび他の例において、バックグラウンド成分は、2未満のオーダを有する球面基底関数に対応する高次アンビソニックスオーディオデータの高次アンビソニックス係数を含む。
【0290】
これらおよび他の例において、バックグラウンド成分は、2未満のオーダを有する球面基底関数に対応する高次アンビソニックスオーディオデータの高次アンビソニックス係数だけを含む。
【0291】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータによって表される音場の1つまたは複数のフォアグラウンド成分を含む。
【0292】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関するベクトルベースの合成または分解を実行するように構成されてもよい。これらおよび他の例において、フォアグラウンド成分は、高次アンビソニックスオーディオデータに関してベクトルベースの合成または分解を実行することによって高次オーディオオブジェクトから分解された、フォアグラウンドオーディオオブジェクトを含む。
【0293】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、高次アンビソニックスオーディオデータによって表される音場の1つまたは複数のバックグラウンド成分および1つまたは複数のフォアグラウンド成分を含む。
【0294】
これらおよび他の例において、メザニンフォーマットされたオーディオデータは、1つまたは複数のパルス符号変調された(PCM)トランスポートチャネルおよびサイドバンド情報を含む。
【0295】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関するベクトルベースの合成または分解を実行するように構成されてもよい。これらの例において、サイドバンド情報は、高次アンビソニックスオーディオデータに関するベクトルベースの合成または分解を実行した結果として出力される指向性情報を含む。
【0296】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを取得するための、高次アンビソニックスオーディオデータに関する特異値分解を実行するように構成されてもよい。これらの例において、サイドバンド情報は、高次アンビソニックスオーディオデータに関するベクトルベースの合成または分解を実行した結果として出力される1つまたは複数のV-ベクトルを含む。
【0297】
これらおよび他の例において、空間オーディオ符号化デバイス20は、放送ネットワークによる処理のために、メザニンフォーマットされたオーディオデータを放送ネットワークに送信するように構成されてもよい。
【0298】
これらおよび他の例において、空間オーディオ符号化デバイス20は、メザニンフォーマットされたオーディオデータを放送する前に追加のオーディオデータをメザニンフォーマットされたオーディオデータに挿入するために、メザニンフォーマットされたオーディオデータを放送ネットワークに送信するように構成されてもよい。
【0299】
図11は、
図11のオーディオ復号デバイス24をより詳細に示すブロック図である。
図11の例に示されるように、オーディオ復号デバイス24は、抽出ユニット72と、指向性ベースの再構築ユニット90と、ベクトルベースの再構築ユニット92とを含んでもよい。以下で説明されるが、オーディオ復号デバイス24に関するさらなる情報およびHOA係数を展開またはそうでなければ復号する様々な態様は、2014年5月29日に出願された“INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”という表題の国際特許出願公開第2014/194099号において入手可能である。
【0300】
抽出ユニット72は、ビットストリーム15を受信し、HOA係数11のベクトルベースの符号化されたバージョンを抽出するように構成されるユニットを表す場合がある。抽出ユニット72は、HOA係数11が、様々な指向性ベースのバージョンを介して符号化されたか、またはベクトルベースのバージョンを介して符号化されたかを示す、上で述べられたシンタックス要素から決定してもよい。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(これはコーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたV-ベクトルを含んでもよい)、符号化された環境HOA係数59、および対応するオーディオオブジェクト61(これは符号化されたnFG信号61とも呼ばれる場合がある)を抽出してもよい。オーディオオブジェクト61は各々、ベクトル57の1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をV-ベクトル再構築ユニット74に、符号化された環境HOA係数59とともに符号化されたnFG信号61を音響心理学的復号ユニット80に渡すことができる。
【0301】
V-ベクトル再構築ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57からV-ベクトルを再構築するように構成されるユニットを表す場合がある。V-ベクトル再構築ユニット74は、量子化ユニット52とは逆の方式で動作してもよい。
【0302】
音響心理学的復号ユニット80は、符号化された環境HOA係数59および符号化されたnFG信号61を復号し、それによって、エネルギー補償された環境HOA係数47'および補間されたnFG信号49'(補間されたnFGオーディオオブジェクト49'とも呼ばれる場合がある)を生成するために、
図11の例に示される音響心理学的オーディオコーダユニット40とは逆の方式で動作してもよい。音響心理学的復号ユニット80は、エネルギー補償された環境HOA係数47'をフェードユニット770に渡し、nFG信号49'をフォアグラウンド編成ユニット78に渡すことができる。
【0303】
空間-時間補間ユニット76は、空間-時間補間ユニット50に関して上で説明されたものと同様の方式で動作してもよい。空間-時間補間ユニット76は、削減されたフォアグラウンドV[k]ベクトル55
kを受け取り、フォアグラウンドV[k]ベクトル55
kおよび削減されたフォアグラウンドV[k-1]ベクトル55
k-1に関して空間-時間補間を実行して、補間されたフォアグラウンドV[k]ベクトル55
k''を生成してもよい。空間-時間補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55
k''をフェードユニット770に転送してもよい。
【0304】
抽出ユニット72はまた、環境HOA係数の1つが遷移中であることを示す信号757をフェードユニット770に出力することができ、フェードユニット770は次いで、SHC
BG47'(ここでSHC
BG47'は「環境HOAチャネル47'」または「環境HOA係数47'」とも示されてもよい)と補間されたフォアグラウンドV[k]ベクトル55
k''の要素のどちらがフェードインまたはフェードアウトされるかを決定してもよい。いくつかの例では、フェードユニット770は、環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55
k''の要素の各々に関して逆に動作してもよい。すなわち、フェードユニット770は、環境HOA係数47'の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行しながら、補間されたフォアグラウンドV[k]ベクトル55
k''の要素の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行してもよい。フェードユニット770は、調整された環境HOA係数47''をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55
k'''をフォアグラウンド編成ユニット78に出力してもよい。この点において、フェードユニット770は、たとえば環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55
k''の要素の形の、HOA係数の様々な態様またはHOA係数から導出されたものに関して、フェード動作を実行するように構成されるユニットを表す。
【0305】
フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55
k'''および補間されたnFG信号49'に関して行列乗算を実行して、フォアグラウンドHOA係数65を生成するように構成される、ユニットを表す場合がある。この点において、フォアグラウンド編成ユニット78は、(補間されたnFG信号49'を表記するための別の方法である)オーディオオブジェクト49'をベクトル55
k'''と結合して、HOA係数11'のフォアグラウンドの、言い換えれば顕著な側面を再構築してもよい。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55
k'''によって補間されたnFG信号49'の行列乗算を実行してもよい。
【0306】
HOA係数編成ユニット82は、HOA係数11'を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47''と組み合わせるように構成されるユニットを表す場合がある。プライム表記は、HOA係数11'がHOA係数11と類似する場合があるが同じではないことを反映する。HOA係数11と11'との間の差分は、有損失の送信媒体、量子化、または他の有損失の動作を介する送信が原因の損失に起因する場合がある。
これらおよび他の例において、放送ネットワークセンター402は、メザニンフォーマットされたオーディオデータに関してメザニン圧縮を実行して高次アンビソニックスオーディオデータを取得し、高次アンビソニックスオーディオデータに関して高次アンビソニックス変換を実行して空間的にフォーマットされたオーディオデータを取得し、空間的にフォーマットされたオーディオデータを監視するように構成されてもよい。
【0307】
1つまたは複数の例において、説明される機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装されてもよい。ソフトウェアで実装される場合、機能は、1つもしくは複数の命令またはコードとしてコンピュータ可読媒体上に記憶され、またはコンピュータ可読媒体を介して送信されてよく、かつハードウェアに基づく処理ユニットによって実行されてよい。コンピュータ可読媒体は、データ記憶媒体のような有形の媒体に対応するコンピュータ可読記憶媒体を含んでもよい。データ記憶媒体は、本開示で説明された技法を実装するための命令、コード、および/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセス可能である任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。
【0308】
同様に、上で説明された様々な例の各々において、オーディオ復号デバイス24が、方法を実行してよく、またはそうでなければ、オーディオ復号デバイス24が実行するように構成される方法の各ステップを実行するための手段を備えてよいことを理解されたい。いくつかの例では、この手段は、1つまたは複数のプロセッサを備える場合がある。いくつかの例では、1つまたは複数のプロセッサは、非一時的コンピュータコンピュータ可読記憶媒体に記憶されている命令によって構成される、特別なプロセッサを表す場合がある。言い換えると、符号化の例のセットの各々における本技法の様々な態様は、実行されると、オーディオ復号デバイス24が実行するように構成されている方法を1つまたは複数のプロセッサに実行させる命令を記憶している、非一時的コンピュータ可読記憶媒体を提供してもよい。
【0309】
限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気記憶デバイス、フラッシュメモリ、または、命令もしくはデータ構造の形式の所望のプログラムコードを記憶するために使用され、コンピュータによってアクセスされてもよい任意の他の媒体を含むことができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに非一時的な有形記憶媒体を指すことを理解されたい。ディスク(disk)およびディスク(disc)は、本明細書で使用される場合、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイディスク(disc)を含み、ディスク(disk)は通常、データを磁気的に再生するが、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲内に同じく含まれるべきである。
【0310】
命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の等価の集積論理回路もしくは個別論理回路のような、1つまたは複数のプロセッサによって実行されてもよい。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明される技法の実装に適した任意の他の構造のいずれかを指す場合がある。さらに、いくつかの態様では、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアモジュールおよび/またはソフトウェアモジュール内に与えられてよく、あるいは複合コーデックに組み込まれてよい。また、技法は、1つまたは複数の回路または論理要素において完全に実装されてもよい。
【0311】
本開示の技法は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置において実装されてもよい。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために、様々なコンポーネント、モジュール、またはユニットが説明されたが、それらのコンポーネント、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。そうではなくて、上で説明されたように、様々なユニットは、コーデックハードウェアユニットにおいて結合されてよく、または適切なソフトウェアおよび/もしくはファームウェアとともに、前述のような1つもしくは複数のプロセッサを含む、相互動作可能なハードウェアユニットの集合によって提供されてよい
【0312】
本技法の様々な態様が説明されてきた。本技法のこれらのおよび他の態様は、以下の特許請求の範囲内に入る。