(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0015】
図1は、本発明の一実施形態に係る符号器を示す。この符号器は、オーディオ入力データ101を符号化してオーディオ出力データ501を取得するよう構成されている。この符号器は、CHで示された複数のオーディオチャネルとOBJで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、
図1に示すように、入力インターフェイス100は、複数のオーディオオブジェクトOBJの1つ以上に関連するメタデータを追加的に受信する。更に、この符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー200を備え、各プレミクス済みチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む。
【0016】
更に、この符号器は、コア符号器入力データをコア符号化するコア符号器300と、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400とを備える。更に、この符号器は、ミキサー、コア符号器及び/又は出力インターフェイス500を複数の動作モードの1つで制御する、モード制御部600を備え、第1モードでは、コア符号器は、入力インターフェイス100により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー200による如何なるミキシングなしに、符号化するよう構成されている。しかし、ミキサー200が活性化していた第2モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック200により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、このメタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー200によって既に使用されている。換言すれば、ミキサー200は、複数のオーディオオブジェクトに関連するメタデータを使用してオーディオオブジェクトをプレレンダリングし、次に、プレレンダリング済みオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、いずれのオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック400により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス100に入力された全てのオブジェクトがミキシングされる訳でなく、ある量のオブジェクトだけがミキシングされる場合には、ミキシングされない残りのオブジェクト及び関連するメタデータだけがコア符号化300又はメタデータ圧縮部400へとそれぞれ伝送される。
【0017】
図3は、SAOC符号器800を追加的に含む、符号器の更なる実施形態を示す。SAOC符号器800は、空間オーディオオブジェクト符号器入力データから、1つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。
図3に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー/ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル/オブジェクト符号化が活性化しているモード1におけるように、プレレンダラー/ミキサーが迂回されていた場合には、入力インターフェイス100に入力された全てのオブジェクトはSAOC符号器800により符号化される。
【0018】
更に、
図3に示すように、コア符号器300は、好ましくはUSAC符号器、即ちMPEG−USAC標準(USAC=統合されたスピーチ及びオーディオ符号化)の中で定義されかつ標準化されているような符号器として構成される。
図3に示す全体的な符号器の出力は、個別のデータタイプについてコンテナ状構造を有しているMPEG4データストリームである。更に、メタデータは「OAM」データとして示され、
図1におけるメタデータ圧縮部400は、圧縮済みOAMデータを取得するOAM符号器400に対応し、その圧縮済みOAMデータはUSAC符号器300へ入力され、USAC符号器300は、
図3に示すように、MP4出力データストリームを取得するための出力インターフェイスを追加的に含み、そのMP4出力データストリームは符号化済みチャネル/オブジェクトデータだけでなく圧縮済みOAMデータをも有する。
【0019】
図5は符号器の更なる実施形態を示し、ここでは、
図3とは対照的に、SAOC符号器はSAOC符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー/ミキサー200により提供されたチャネルを符号化するか、又は代替的にプレレンダリング済みチャネル+オブジェクトをSAOC符号化するか、の何れかを実行するよう構成されている。従って、
図5においては、SAOC符号器800は3種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、
図5に追加的なOAM復号器420を設け、SAOC符号器800がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルOAMデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。
【0020】
図5の符号器は、複数の個別モードで作動できる。
【0021】
図1の文脈の中で説明した第1モード及び第2モードに加え、
図5の符号器は追加的に第3モードでも作動でき、そのモードでは、プレレンダラー/ミキサー200が活性化していなかった場合、コア符号器が個別のオブジェクトから1つ以上の転送チャネルを生成する。代替的又は追加的に、この第3モードにおいて、
図1のミキサー200に対応するプレレンダラー/ミキサー200が活性化していなかった場合、SAOC符号器800はオリジナルチャネルから1つ以上の代替的又は追加的な転送チャネルを生成することができる。
【0022】
最後に、符号器が第4モードで構成されている場合、SAOC符号器800は、プレレンダラー/ミキサーによって生成されたチャネル+プレレンダリング済みオブジェクトを符号化することができる。そのため、第4モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。つまり、チャネルとオブジェクトとが、個別のSAOC転送チャネル及び
図3と
図5の中で「SAOC−SI」として示すような関連するサイド情報へと完全に変換されており、加えて、この第4モードではいずれの圧縮済みメタデータも伝送される必要がないからである。
【0023】
図2は本発明の一実施形態に係る復号器を示す。この復号器は、入力として符号化済みオーディオデータ、即ち
図1のデータ501を受信する。
【0024】
この復号器は、メタデータ解凍部1400と、コア復号器1300と、オブジェクト処理部1200と、モード制御部1600と、後処理部1700とを備える。
【0025】
具体的には、この復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、あるモードにおける、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、複数のオブジェクトに関連する圧縮済みメタデータと、を含む。
【0026】
更に、コア復号器1300は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。
【0027】
更に、オブジェクト処理部1200は、コア復号器1300により生成された
複数の復号化済みチャネルと複数の復号化済みオブジェクト
とを、解凍済みメタデータを使用して処理し、
復号化済みオブジェクトと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号1205で示されたこれら出力チャネルは、次に後処理部1700へと入力される。後処理部1700は、幾つかの出力チャネル1205を、バイノーラル出力フォーマット又は5.1や7.1などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。
【0028】
好ましくは、この復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部1600を備える。従って、モード制御部1600は
図2の入力インターフェイス1100に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部1600により制御される
図2の復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部1700へと供給するよう構成される。これは、
図1の符号器においてモード2が適用されていた場合のモード2、即ちプレレンダリング済みチャネルだけが受信される場合における作動である。代替的に、符号器においてモード1が適用されていた場合、即ち符号器が個別のチャネル/オブジェクト符号化を実行していた場合、オブジェクト処理部1200は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部1400によって生成された解凍済みメタデータと一緒にオブジェクト処理部1200へと供給される。
【0029】
好ましくは、モード1又はモード2が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部1600がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示すときには、モード1が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、
図1の符号器のモード2によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示すときには、モード2が適用される。
【0030】
図4は、
図2の復号器と比較した好適な実施形態を示し、
図4の実施形態は
図3のオーディオ符号器に対応する。
図2の復号器構成に加えて、
図4の復号器はSAOC復号器1800を含む。更に、
図2のオブジェクト処理部1200は、別個のオブジェクトレンダラー1210及びミキサー1220として構成されているが、モードに依存して、オブジェクトレンダラー1210の機能はSAOC復号器1800によっても実行され得る。
【0031】
更に、後処理部1700は、バイノーラルレンダラー1710又はフォーマット変換部1720として構成され得る。代替的に、
図2のデータ1205の直接的な出力もまた、1730で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は22.2や32などの最大数のチャネルに対して実行することが好ましい。しかしながら、5.1フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、
図2又は
図6におけるショートカット1727で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、SAOC復号器及び/又はUSAC復号器に対するある制御を適用し得ることが望ましい。
【0032】
本発明の好適な実施形態において、オブジェクト処理部1200はSAOC復号器1800を含み、そのSAOC復号器は、コア復号器により出力される1つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、OAM出力がボックス1800に接続されている。
【0033】
更に、オブジェクト処理部1200は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはSAOC転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー1210により示されるように、典型的には単一チャネル化された要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力1730に対応する出力インターフェイスを備える。
【0034】
更なる実施形態において、オブジェクト処理部1200は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している1つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化する、空間オーディオオブジェクト符号化・復号器1800を含む。その空間オーディオオブジェクト符号化・復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばSAOCの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部1700は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、MPEGサラウンド処理と類似していてもよく、又はBCC処理などのような他の如何なる処理であってもよい。
【0035】
更なる一実施形態において、オブジェクト処理部1200は、(コア復号器による)復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器1800を含む。
【0036】
更にかつ重要なことに、
図2のオブジェクト処理部1200は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち
図1のミキサー200が活性化していた場合、入力としてUSAC復号器1300により出力されたデータを直接的に受信する、ミキサー1220をさらに備える。加えて、ミキサー1220は、SAOC復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、SAOC復号器出力データ、即ちSAOCレンダリング済みオブジェクトを受信する。
【0037】
ミキサー1220は、出力インターフェイス1730とバイノーラルレンダラー1710とフォーマット変換部1720とに接続されている。バイノーラルレンダラー1710は、頭部関連伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して、出力チャネルを2つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部1720は、出力チャネルを、ミキサーの出力チャネル1205よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部1720は、5.1スピーカなどのような再生レイアウトについての情報を必要とする。
【0038】
図6の復号器は、
図4の復号器とは以下の点で異なる。即ち、SAOC復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、
図5の符号器が使用され、チャネル/プレレンダリング済みオブジェクトとSAOC符号器800の入力インターフェイスとの間の接続900が活性化している場合であるという点である。
【0039】
更に、ベクトル方式振幅パニング(VBAP)ステージ1810は、SAOC復号器から再生レイアウトについての情報を受信し、かつSAOC復号器に対してレンダリング行列を出力するよう構成され、その結果、SAOC復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高度のチャネルフォーマット1205で、即ち32個のラウドスピーカに提供できるようになる。
【0040】
VBAPブロックは、好適には復号化済みOAMデータを受信してレンダリング行列を導出する。より一般的には、VBAPブロックは、再生レイアウトの幾何学的情報だけでなく、入力信号がその再生レイアウト上にレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのOAMデータであってもよく、又は、SAOCを用いて伝送されてきたチャネルについてのチャネル位置情報であってもよい。
【0041】
しかしながら、ある特異な出力インターフェイスだけが要求される場合、VBAPステージ1810は、例えば5.1出力についての必要なレンダリング行列を既に供給することができる。その場合、SAOC復号器1800は、SAOC転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ち、ミキサー1220の相互作用を何も受けずに要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがSAOC符号化されているが全てのチャネルがSAOC符号化されてはいない場合、複数のオブジェクトがSAOC符号化されているが全てのオブジェクトがSAOC符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがSAOC復号化され、残りのチャネルがSAOC処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器1300とオブジェクトレンダラー1210とSAOC復号器1800とからの直接的なデータを、結合するであろう。
【0042】
次に、本発明の高度な柔軟性を有しかつ高度な品質のオーディオ符号器/復号器の概念を適用し得る、幾つかの符号器/復号器モードを示す
図7について説明する。
【0043】
第1符号化モードによれば、
図1の符号器内のミキサー200は迂回され、従って、
図2の復号器内のオブジェクト処理部は迂回されない。
【0044】
第2モードでは、
図1内のミキサー200は活性化しており、
図2内のオブジェクト処理部は迂回される。
【0045】
次に、第3符号化モードでは、
図3のSAOC符号器は活性化しているが、しかし、チャネル又はミキサーによって出力されたチャネルよりは寧ろ、オブジェクトをSAOC符号化するだけである。従って、モード3では、
図4に示された復号器側において、SAOC復号器がオブジェクトだけに対して活性化し、かつレンダリング済みオブジェクトを生成することが求められる。
【0046】
図5に示された第4符号化モードにおいて、SAOC符号器は、プレレンダリング済みチャネルをSAOC符号化するよう構成されており、即ち、ミキサーは第2モードと同様に活性化している。復号器側においては、プレレンダリング済みオブジェクトに対してSAOC復号化が実行され、第2の符号化モードと同様に、オブジェクト処理部は迂回される。
【0047】
更に、モード1〜4の如何なる混合でもあり得る第5の符号化モードが存在する。特に、
図6内のミキサー1220がUSAC復号器からチャネルを直接的に受信し、さらに、USAC復号器からプレレンダリング済みオブジェクトを有するチャネルを受信する場合に、混合型符号化モードが存在するであろう。更に、この混合型符号化モードにおいて、オブジェクトは、好ましくはUSAC復号器の単一のチャネル要素を使用して直接的に復号化される。この文脈において、オブジェクトレンダラー1210は、これらの復号化済みオブジェクトをレンダリングして、それらをミキサー1220へと出力するであろう。更に、複数のオブジェクトがSAOC符号器によって追加的に符号化されており、SAOC技術によって符号化された複数のチャネルが存在する場合、SAOC復号器がレンダリング済みオブジェクト及び/又はレンダリング済みチャネルをミキサーへと出力するであろう。
【0048】
ミキサー1220の各入力部は、次に、符号1205で示す32個のような幾つかのチャネルを受信する少なくとも潜在能力を有する。つまり、基本的に、ミキサーは、USAC復号器からの32個のチャネルと、追加的にUSAC復号器から32個のプレレンダリング済み/ミクス済みチャネルと、追加的にオブジェクトレンダラーからの32個の「チャネル」と、追加的にSAOC復号器からの32個の「チャネル」と、を受信することができ、ここで、ブロック1210及び
1800を一方とし、ブロック1220を他方とする間の各「チャネル」が、対応するオブジェクトの対応するラウドスピーカチャネル内における寄与を有しており、次に、ミキサー1220が、各ラウドスピーカチャネルのための個別の寄与を、ミキシング、即ち合計する。
【0049】
本発明の好ましい実施形態において、符号化/復号化システムは、チャネル及びオブジェクト信号の符号化のためのMPEG−D USACコーデックに基づいている。多量のオブジェクトを符号化する効率を高めるために、MPEG−SAOC技術が適応されてきた。3つのタイプのレンダラーが、オブジェクトをチャネルへとレンダリングし、チャネルをヘッドホンへとレンダリングし、又はチャネルを様々なラウドスピーカ設定へとレンダリングする作業を実行する。オブジェクト信号がSAOCを用いて明示的に伝送され又はパラメトリック的に符号化されている場合、対応するオブジェクトメタデータ情報は圧縮され、符号化済み出力データの中に多重化される。
【0050】
一実施形態において、プレレンダラー/ミキサー200が、符号化の前にチャネル+オブジェクト入力シーンをチャネルシーンへと変換するために使用される。機能的には、それは
図4又は
図6に示された復号器側のオブジェクトレンダラー/ミキサーの結合と同じであり、
図2のオブジェクト処理部1200と同じである。オブジェクトのプレレンダリングにより、符号器入力における決定論的な信号エントロピーが保証され、これは同時に活性化しているオブジェクト信号の個数とは基本的に無関係である。オブジェクトのプレレンダリングにより、オブジェクトメタデータの伝送が不要となる。離散的なオブジェクト信号が、符号器が使用するよう構成されるチャネルレイアウトへとレンダリングされる。各チャネルに対するオブジェクトの重みは、関連するオブジェクトメタデータOAMから矢印402で示すように得られる。
【0051】
ラウドスピーカチャネル信号、離散的オブジェクト信号、オブジェクトダウンミックス信号、及びプレレンダリング済み信号のためのコア/符号器/復号器として、USAC技術が好ましい。その技術は、多数の信号の符号化を、チャネル及びオブジェクトマッピング情報(入力チャネル及びオブジェクト割当の幾何学的及び意味論的情報)を作成することで行う。このマッピング情報は、
図10に示すように、入力チャネル及びオブジェクトが、どのようにUSACチャネル要素へとマップされるかを記述するものであり、即ち、チャネルペア要素(CPE)、単一チャネル要素(SCE)、クワッドチャネル要素(QCE)及び対応する情報が、コア符号器からコア復号器へと伝送される。SAOCデータやオブジェクトメタデータのような全ての追加的なペイロードは、拡張要素を通じて伝達されており、符号器のレート制御において考慮されている。
【0052】
オブジェクトの符号化は、レート/歪み要件とレンダラーに関する相互作用要件とに依存して、種々の方法で可能である。以下のようなオブジェクト符号化の派生形が可能である。
・プレレンダリング済みオブジェクト:オブジェクト信号は、符号化の前にプレレンダリングされて、22.2チャネル信号へとミキシングされる。後続の符号化チェーンは22.2チャネル信号を作る。
・離散的オブジェクト波形:オブジェクトはモノラル波形として符号器に供給される。符号器は単一チャネル要素SCEを使用して、チャネル信号に加えてオブジェクトをも伝送する。復号化されたオブジェクトが受信機側においてレンダリング及びミキシングされる。圧縮済みオブジェクトメタデータ情報も並んで受信機/レンダラーに対して伝送される。
・パラメトリック・オブジェクト波形:オブジェクト特性とそれらの相互関係が、SAOCパラメータによって記述される。オブジェクト信号のダウンミックスがUSACを用いて符号化される。パラメトリック情報も並んで伝送される。ダウンミックスチャネルの数は、オブジェクトの数と全体的なデータレートとに依存して選択される。圧縮済みオブジェクトメタデータ情報がSAOCレンダラーへと伝送される。
【0053】
オブジェクト信号のためのSAOC符号器及び復号器は、MPEG SAOC技術に基づいている。そのシステムは、幾つかのオーディオオブジェクトを、その個数より少数の伝送されたチャネルと追加的なパラメトリックデータ(OLD,IOC(オブジェクト間コヒーレンス),DMG(ダウンミックス・ゲイン))とに基づいて、再生し、修正し、レンダリングすることができる。追加的なパラメトリックデータは、全てのオブジェクトを個別に伝送するために必要なデータレートよりも有意に低いデータレートを示し、符号化の効率を著しく向上させる。
【0054】
SAOC符号器は、入力として、オブジェクト/チャネル信号をモノラル波形として受け取り、パラメトリック情報(3Dオーディオビットストリーム内へとパックされる)と、SAOC転送チャネル(単一チャネル要素を使用して符号化され伝送される)とを出力する。
【0055】
SAOC復号器は、復号化されたSAOC伝送チャネル及びパラメトリック情報からオブジェクト/チャネル信号を再生し、再生レイアウトと、解凍されたオブジェクトメタデータ情報と、任意ではあるがユーザー相互作用情報と、に基づいて出力オーディオシーンを生成する。
【0056】
各オブジェクトについて、3D空間におけるそのオブジェクトの幾何学的位置及び音量を特定する関連するメタデータが、時間及び空間におけるオブジェクト特性の量子化により、効率的に符号化される。圧縮済みオブジェクトメタデータOAMがサイド情報として受信機へと送信される。オブジェクトの音量は、各オーディオオブジェクトの空間的広がりについての情報及び/又はオーディオ信号の信号レベルについての情報を含み得る。
【0057】
オブジェクトレンダラーは、圧縮済みオブジェクトメタデータを利用して、所与の再生フォーマットに従ってオブジェクト波形を生成する。各オブジェクトは、そのメタデータに従って、幾つかの出力チャネルへとレンダリングされる。このブロックの出力は、部分結果の合計からもたらされる。
【0058】
チャネルベースのコンテンツと離散的/パラメトリック・オブジェクトとの両方が復号化されると、チャネルベースの波形とレンダリング済みオブジェクト波形とは、結果として得られる波形を出力する前に(又はそれらをバイノーラルレンダラーやラウドスピーカレンダラー・モジュールのような後処理モジュールへと供給する前に)ミキシングされる。
【0059】
バイノーラルレンダラー・モジュールは、多チャネルオーディオ材料のバイノーラルダウンミックスを、各入力チャネルが1つの仮想音源によって表現されるように、生成する。その処理は、QMF(直交ミラーフィルタバンク)ドメインでフレーム毎に実行される。
【0060】
バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づいている。
【0061】
図8は、フォーマット変換部1720の好適な実施形態を示す。ラウドスピーカレンダラー又はフォーマット変換部は、転送チャネル構成と所望の再生フォーマットとの間の変換を行う。このフォーマット変換部は、より少数の出力チャネルへの変換を実行、即ち、ダウンミックスを作成する。この目的で、好ましくはQMFドメインで作動するダウンミキサー1722がミキサー出力信号1205を受信し、ラウドスピーカ信号を出力する。好ましくは、ダウンミキサー1722を構成する制御部1724が準備され、その制御部は、制御入力としてミキサー出力レイアウト、即ちそれに応じてデータ1205が決定されるレイアウトを受信し、さらに所望の再生レイアウトが、典型的には、
図6で示すフォーマット変換ブロック1720へと入力されている。この情報に基づいて、制御部1724は、好ましくは自動的に、入力フォーマットと出力フォーマットとの所与の組合せのための最適なダウンミックス行列を生成し、これらの行列をダウンミキサーブロック1722の中でダウンミックス処理に適用する。フォーマット変換部は、標準的なラウドスピーカ構成だけでなく、非標準的なラウドスピーカ位置を有する変則的な構成をも可能にする。
【0062】
図6の文脈において説明したように、SAOC復号器は、目標再生レイアウトへの後続のフォーマット変換ができるように、22.2のような予め定義されたチャネルレイアウトへとレンダリングするよう設計されている。しかし代替的に、SAOC復号器は、「低パワー」のモードをサポートするよう構成されており、そのモードでは、SAOC復号器が後続のフォーマット変換なしに再生レイアウトへと直接的に復号化するよう構成されている。この構成においては、SAOC復号器1800は、5.1ラウドスピーカ信号などのようなラウドスピーカ信号を直接的に出力し、そのSAOC復号器1800は、ダウンミックス情報を生成するためのベクトル方式振幅パニング又は任意の他の種類の処理が作動できるように、再生レイアウト情報とレンダリング行列とを要求する。
【0063】
図9は、
図6のバイノーラルレンダラー1710の更なる実施形態を示す。特に、モバイル機器にとって、バイノーラルレンダリングは、そのようなモバイル機器に取り付けられたヘッドホンのため、又は典型的に小型であるモバイル機器に直接取り付けられたラウドスピーカのために、必要となる。そのようなモバイル機器に対し、復号器及びレンダリングの複雑性を制限する制約が存在し得る。そのような処理シナリオにおけるデコリレーションを省略することに加え、ダウンミキサー1712を使用してある中間ダウンミックスへ、即ちより少数の出力チャネルへとまずダウンミックスし、その結果としてバイノーラル変換部1714にとってより少数の入力チャネルを得ることが望ましい。例示的に、22.2チャネル材料がダウンミキサー1712により5.1中間ダウンミックスへとダウンミックスされてもよく、又は代替的に、中間ダウンミックスが、
図6のSAOC復号器1800により、ある種の「ショートカット」モードにおいて直接的に計算されてもよい。その場合、バイノーラルレンダリングは、異なる位置にある5個の個別のチャネルをレンダリングするために、10個のHRTF(頭部関連伝達関数)又はBRIR関数を適用するだけでよく、これは、22.2の入力チャネルが既に直接的にレンダリングされていたと仮定した場合に44個のHRTF又はBRIR関数を適用するのとは対照的である。特に、バイノーラルレンダリングのために必要な畳み込み演算は、大量の処理パワーを要求する。従って、この処理パワーを低減しながら、同時に許容可能なオーディオ品質を得ることは、モバイル機器にとって特に有益である。
【0064】
好適には、制御ライン1727により示す「ショートカット」は、復号器1300をより少数のチャネルを復号化するように制御すること、即ち、復号器内の完全なOTT処理ブロックをスキップし又はより少数のチャネルへフォーマット変換すること、を含み、
図9に示すように、バイノーラルレンダリングはより少数のチャネルに対して実行される。同様の処理は、
図6のライン1727で示すように、バイノーラル処理だけでなくあるフォーマット変換についても適用し得る。
【0065】
更なる実施形態においては、処理ブロック間の効率的なインターフェイス化が必要となる。特に
図6において、異なる処理ブロック間のオーディオ信号経路が示されている。SBR(スペクトル帯域複製)が適用された場合、バイノーラルレンダラー1710とフォーマット変換部1720とSAOC復号器1800とUSAC復号器1300との全てが、QMF又はハイブリッドQMFドメインにおいて作動する。一実施形態によれば、これら全ての処理ブロックは、QMF又はハイブリッドQMFのインターフェイスを提供し、オーディオ信号が互いの間をQMFドメインで効率よく行き交うことを可能にする。加えて、ミキサーモジュール及びオブジェクトレンダラー・モジュールも同様に、QMFドメイン又はハイブリッドQMFドメインで作動するよう構成することが好ましい。結果として、別個のQMF又はハイブリッドQMF分析及び合成のステージを回避することができ、結果として相当な演算量の節約がもたらされ、その場合、符号1730で示すラウドスピーカ信号を生成するため、ブロック1710の出力におけるバイノーラルデータを生成するため、又はブロック1720の出力における再生レイアウトスピーカ信号を生成するために、1つの最終的なQMF合成ステージだけが必要となる。
【0066】
次に、クワッドチャネル要素(QCE)を説明するため、
図11を参照されたい。USAC−MPEG標準において定義されたチャネルペア要素とは対照的に、クワッドチャネル要素は4つの入力チャネル90を必要とし、符号化済みQCE要素91を出力する。一実施形態において、2−1−2モードの2つのMPEGサラウンドボックス又は2つのTTO(TTO=2から1)ボックスからなる階層構造と、MPEG USAC又はMPEGサラウンドに定義された追加的なジョイントステレオ符号化ツール(例えばMS−ステレオなど)とが提供され、QCE要素は、2つのジョイントステレオ符号化済みダウンミックスチャネルと、任意の2つのジョイントステレオ符号化済み残余チャネルと、加えて例えば2つのTTOボックスから導出されたパラメトリックデータとを含む。復号器側においてはある構造が適用され、その構造では、2つのダウンミックスチャネル、及び任意の2つの残余チャネルのジョイントステレオ復号化が適用され、2つのOTTボックスを持つ第2ステージにおいて、ダウンミックスと任意の残余チャネルとが4個の出力チャネルへとアップミックスされる。しかしながら、階層的な操作に代えて、1つのQCE符号器のための代替的な処理操作も適用され得る。このように、2つのチャネルからなるグループのジョイントチャネル符号化に加え、コア符号器/復号器は、4個のチャネルからなるグループのジョイントチャネル符号化も追加的に使用する。
【0067】
更に、1200kbpsで妥協なしのフル帯域(18kHz)符号化を可能とするために、強化されたノイズ充填処理を実行することが好ましい。
【0068】
符号器は、ダイナミックデータのためのレートバッファとして、1チャネル当たり最大6144ビットを使用して、「ビットリザーバ付き一定レート(constant rate with bit-reservoir)」の方式で作動されてきた。
【0069】
SAOCデータ又はオブジェクトメタデータなどの全ての追加的ペイロードは、拡張要素を通して受け渡され、符号器のレート制御の中で考慮されてきた。
【0070】
3DオーディオコンテンツについてもSAOC機能の利点を活かすため、MPEG SAOCへの以下の拡張が実行されてきた。
・任意数のSAOC転送チャネルへのダウンミックス
・多数のラウドスピーカ(22.2まで)を有する出力構成への強化されたレンダリング
【0071】
バイノーラルレンダラー・モジュールは、(LFEチャネルを除く)各入力チャネルが1つの仮想音源によって表現されるように、多チャネルオーディオ材料のバイノーラルダウンミックスを生成する。その処理は、QMFドメインでフレーム毎に実行される。
【0072】
バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づいている。直接音と早期反射は、QMFドメインの高速畳み込みオントップを使用する疑似FFTドメインにおける畳み込み手法を介して、オーディオ材料へと刷り込まれる。
【0073】
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全てが、例えばマイクロプロセッサ、プログラマブルコンピュータ、又は電子回路のようなハードウエア装置によって(又は使用して)実行されてもよい。幾つかの実施形態では、主要な方法ステップの1つ又はそれ以上がそのような装置によって実行されてもよい。
【0074】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、例えばフレキシブルディスク,DVD,ブルーレイ(商標),CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体のような非一時的記憶媒体を使用して実行することができ、その記憶媒体は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能である)。よって、このデジタル記憶媒体はコンピュータ読み取り可能である。
【0075】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0076】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0077】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0078】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0079】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。データキャリア、デジタル記憶媒体、又は記録媒体は典型的には有形及び/又は非遷移的である。
【0080】
よって、本発明方法の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0081】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0082】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0083】
本発明にかかる更なる実施形態は、ここで説明した方法の1つを実行するためのコンピュータプログラムを受信器に対して(例えば電子的又は光学的に)転送するよう構成された装置又はシステムを含む。その受信器は、例えばコンピュータ、携帯機器、メモリ装置などであってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へ転送するためのファイルサーバを備えていてもよい。
【0084】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0085】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。