(58)【調査した分野】(Int.Cl.,DB名)
前記共分散情報は、前記1つ以上のオーディオチャンネル信号の1つずつに対するレベル差情報を示し、さらに前記1つ以上のオーディオオブジェクト信号の1つずつに対するレベル差情報を示す請求項1に記載の装置。
前記1つ以上のオーディオオブジェクト信号は2つ以上のオーディオオブジェクト信号を含み、前記1つ以上のオーディオチャンネル信号は2つ以上のオーディオチャンネル信号を含み、
前記2つ以上のオーディオオブジェクト信号は前記オーディオトランスポート信号の内部に混合され、前記2つ以上のオーディオチャンネル信号は前記オーディオトランスポート信号の内部に混合され、
前記共分散情報は、前記2つ以上のオーディオチャンネル信号のうちの1つと、前記2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、又は、
前記共分散情報は、前記2つ以上のオーディオオブジェクト信号のうちの1つと、前記2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、又は、
前記共分散情報は、前記2つ以上のオーディオチャンネル信号のうちの1つと、前記2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、かつ、前記2つ以上のオーディオオブジェクト信号のうちの1つと、前記2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示す請求項1又は2に記載の装置。
前記パラメータプロセッサ(110)は、前記1つ以上のオーディオチャンネル信号及び前記1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオ出力チャンネル内でどのように混合されるかに関する情報を示すレンダリング情報を受信するように構成され、
前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して及びレンダリング情報に依存して前記ミキシング情報を算出するように構成されている請求項1から5のいずれか一項に記載の装置。
2つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、2つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、
前記共分散情報は、前記2つ以上のオーディオチャンネル信号のうちの1つと、前記2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、
前記共分散情報は、前記1つ以上のオーディオオブジェクト信号のうちの1つと前記1つ以上のオーディオオブジェクト信号のうちのもう1つとのペアに対する相関情報を示すことがなく、
前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記1つ以上のオーディオチャンネル信号の1つずつのレベル差情報に依存して、前記1つ以上のオーディオオブジェクト信号の1つずつの前記レベル差情報に依存して、及び前記2つ以上のオーディオチャンネル信号のうちの1つと前記2つ以上のオーディオチャンネル信号のうちのもう1つとの前記1つ以上のペアの前記相関情報に依存して前記ミキシング情報を算出するように構成されている請求項1から10のいずれか一項に記載の装置。
チャンネル/オブジェクトミキサ(210)は、前記オーディオトランスポート信号の前記オーディオトランスポートチャンネルの数がどの程度のビットレートが前記オーディオトランスポート信号を送信するため利用可能であるかに依存するように、前記オーディオトランスポート信号を生成するように構成されている請求項12に記載の装置。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態を、図面を参照してより詳細に説明する。
【0023】
本発明の好ましい実施形態を詳細に説明する前に、新しい3Dオーディオコーデックシステムについて説明する。
【0024】
従来技術においては、低ビットレートで許容可能なオーディオ品質が得られるようにチャンネル符号化とオブジェクト符号化とを組み合わせる自由自在な技術は存在しない。
【0025】
この制限は新しい3Dオーディオコーデックシステムによって克服される。
【0026】
好ましい実施形態を詳細に説明する前に、新しい3Dオーディオコーデックシステムについて説明する。
【0027】
図4は、本発明の実施形態による3Dオーディオエンコーダを示す。この3Dオーディオエンコーダは、オーディオ出力データ501を得るためにオーディオ入力データ101を符号化するために設けられている。この3Dオーディオエンコーダは、CHによって示された複数のオーディオチャンネルと、OBJによって示された複数のオーディオオブジェクトとを受信する入力インターフェースを備える。さらに、
図4に示されたように、入力インターフェース1100は、複数のオーディオオブジェクトOBJのうちの1つ以上に関連しているメタデータをさらに受信する。さらに、この3Dオーディオエンコーダは、複数の予め混合されたチャンネルを得るために複数のオブジェクト及び複数のチャンネルを混合するミキサ200を備え、予め混合された各チャンネルは、チャンネルのオーディオデータ及び少なくとも1つのオブジェクトのオーディオデータを含む。
【0028】
さらに、この3Dオーディオエンコーダは、コアエンコーダ入力データをコア符号化するコアエンコーダ300と、複数のオーディオオブジェクトのうちの1つ以上に関連したメタデータを圧縮するメタデータ圧縮器400とを備える。
【0029】
さらに、この3Dオーディオエンコーダは、いくつかの動作モードのうちの1つでミキサ、コアエンコーダ及び/又は出力インターフェース500を制御するモードコントローラ600を備えることができる。第1のモードでは、コアエンコーダは、ミキサによる相互作用なしで、すなわち、ミキサ200によって混合することなく、入力インターフェース1100によって受信された複数のオーディオチャンネル及び複数のオーディオオブジェクトを符号化するように構成される。しかしながら、第2のモードでは、ミキサ200がアクティブ状態となっており、コアエンコーダは、複数の混合されたチャンネル、すなわち、ブロック200によって生成された出力を符号化する。後者の場合、もはやオブジェクトデータを符号化しないことが好ましい。その代わりに、オーディオオブジェクトの位置を示すメタデータは、そのメタデータによって示されるとおりにチャンネルでオブジェクトをレンダリング(rendering)するように、ミキサ200によってすでに使用されている。換言すれば、ミキサ200は、オーディオオブジェクトをプリレンダリング(pre-rendering)するために複数のオーディオオブジェクトに関連したメタデータを使用し、その後、プリレンダリングされたオーディオオブジェクトはチャンネルと混合されて、ミキサの出力で混合されたチャンネルが得られる。本実施形態では、オブジェクトは、必ずしも送信されなくてもよく、このことは、ブロック400によって出力されたままの圧縮されたメタデータにも適用される。しかしながら、インターフェース1100に入力された全てのオブジェクトが混合されるのではなく、ある量のオブジェクトだけが混合される場合、その後、残りの混合されていないオブジェクト及び関連付けられたメタデータだけがそれにもかかわらずコアエンコーダ300又はメタデータ圧縮器400にそれぞれ送信される。
【0030】
図6は3Dオーディオエンコーダのさらなる実施形態を示し、SAOCエンコーダ800をさらに備える。SAOCエンコーダ800は、空間オーディオオブジェクトエンコーダ入力データから1つ以上のトランスポートチャンネル及びパラメトリックデータを生成するために設けられている。
図6に示されるように、空間オーディオオブジェクトエンコーダ入力データは、プリレンダラ(pre-renderer)/ミキサによって処理されていないオブジェクトである。あるいは、プリレンダラ/ミキサが個別のチャンネル/オブジェクトがアクティブ状態であるモード1の場合のように迂回されていると仮定すると、入力インターフェース1100に入力された全てのオブジェクトは、SAOCエンコーダ800によって符号化される。
【0031】
さらに、
図6に示されるように、コアエンコーダ300は、好ましくは、USACエンコーダとして、すなわち、MPEG−USAC規格(USAC=音声音響統合符号化:Unified Speech and Audio Coding)において規定され、標準化されたエンコーダとして実現されている。
図6に示された全3Dオーディオエンコーダの出力はMPEG 4データストリーム、MPEG Hデータストリーム又は3Dオーディオデータストリームであり、個別のデータタイプのためのコンテナのような構造体(container-like structures)を有する。さらに、メタデータは「OAM」データとして示され、
図4におけるメタデータ圧縮器400はUSACエンコーダ300に入力される圧縮されたOAMデータを得るためのOAMエンコーダ400に対応する。USACエンコーダ300は、
図6から分かるように、符号化済みチャンネル/オブジェクトデータを有するだけでなく、圧縮されたOAMデータも有するMP4出力データストリームを得るために出力インターフェースをさらに備える。
【0032】
図8はこの3Dオーディオエンコーダのさらなる実施形態を示しており、
図6と対比して、SAOCエンコーダは、このモードではアクティブ状態でないプリレンダラ(pre-renderer)/ミキサ200に供給されたチャンネルをSAOC符号化アルゴリズムを用いて符号化するように、又はそれに替えて、プリレンダリングされたチャンネルとオブジェクトとをSAOC符号化するように構成することができる。このようにして、
図8では、SAOCエンコーダ800は、3つの異なった種類の入力データ、すなわち、プリレンダリングされたオブジェクトを含まないチャンネル、チャンネル及びプリレンダリングされたオブジェクト、又はオブジェクト単独に作用することができる。さらに、SAOCエンコーダ800が、その処理のために、元のOAMデータではなく、デコーダ側と同じデータ、すなわち、不可逆的(lossy)圧縮によって得られたデータを使用するように、
図8における付加的なOAMデコーダ420を設けることが好ましい。
【0033】
図8の3Dオーディオエンコーダは、いくつかの個別のモードで動作することができる。
【0034】
図4との関連で説明した第1のモード及び第2のモードに加えて、
図8の3Dオーディオエンコーダは、プリレンダラ/ミキサ200がアクティブ状態ではなかったときに、コアエンコーダが個別のオブジェクトから1つ以上のトランスポートチャンネルを生成する第3のモードでさらに動作することができる。あるいは、又はさらに、この第3のモードでは、SAOCエンコーダ800は、1つ以上の代替的もしくは付加的なトランスポートチャンネルを元のチャンネルから生成することができる、すなわち
図4のミキサ200に対応するプリレンダラ/ミキサ200がアクティブ状態ではなかったときに再び生成することができる。
【0035】
最後に、SAOCエンコーダ800は、3Dオーディオエンコーダが第4のモードで構成されているとき、チャンネルとプリレンダラ/ミキサによって生成されたプリレンダリングされたオブジェクトを符号化することができる。このようにして、第4のモードでは、チャンネルとオブジェクトが、個別のSAOCトランスポートチャンネルと
図3及び
図5において「SAOC−SI」として示されたような関連付けられたサイド情報に完全に変換され、さらに、この第4のモードでは圧縮されたメタデータを送信する必要がないという事実によって、最低ビットレートアプリケーションが優れた品質を示す。
【0036】
図5は、本発明の実施形態による3Dオーディオデコーダを示す。この3Dオーディオデコーダは、入力として、符号化済みオーディオデータ、すなわち、
図4のデータ501を受信する。
【0037】
この3Dオーディオデコーダは、メタデータ展開器1400と、コアデコーダ1300と、オブジェクトプロセッサ1200と、モードコントローラ1600と、ポストプロセッサ1700とを備える。
【0038】
具体的には、この3Dオーディオデコーダは符号化済みオーディオデータを復号化するために設けられ、入力インターフェースは符号化済みオーディオデータを受信するために設けられ、符号化済みオーディオデータは、複数の符号化済みチャンネルと、複数の符号化済みオブジェクトと、特定のモードにおける複数のオブジェクトに関連する圧縮されたメタデータとを含む。
【0039】
さらに、コアデコーダ1300は複数の符号化済みチャンネル及び複数の符号化済みオブジェクトを復号化するために設けられ、さらに、メタデータ展開器は、圧縮されたメタデータを展開するために設けられている。
【0040】
さらに、オブジェクトプロセッサ1200は、オブジェクトデータ及び復号化済みチャンネルを含む所定の数の出力チャンネルを得るために、展開されたメタデータを使用してコアデコーダ1300によって生成されたとおりの複数の復号化済みオブジェクトを処理するために設けられている。符号1205で示されたとおりのこれらの出力チャンネルは、その後、ポストプロセッサ1700に入力される。ポストプロセッサ1700は、出力チャンネル1205の数を、バイノーラル出力フォーマット又は5.1、7.1などの出力フォーマットのようなスピーカー出力フォーマットとすることのできる特定の出力フォーマットに変換するために設けられている。
【0041】
好ましくは、この3Dオーディオデコーダは、モード指示を検出するために符号化済みデータを解析するために設けられたモードコントローラ1600を備える。したがって、モードコントローラ1600は、
図5において入力インターフェース1100に接続されている。しかしながら、あるいは、モードコントローラは必ずしもそこになくてもよい。その代わり、この汎用性のあるオーディオデコーダはユーザ入力又はその他のコントロールのようなどんな種類の制御データによってもプリセットすることができる。
図5に示され、かつ、好ましくはモードコントローラ1600によって制御されるこの3Dオーディオデコーダは、オブジェクトプロセッサを迂回するように、かつ、複数の復号化済みチャンネルをポストプロセッサ1700に送り込むように構成されている。これは、モード2における動作、すなわち、プリレンダリングされたチャンネルだけが受信される、すなわち、モード2が
図4の3Dオーディオエンコーダにおいて適用されたときの動作である。あるいは、モード1が3Dオーディオエンコーダにおいて適用されたとき、すなわち、3Dオーディオエンコーダが個別のチャンネル/オブジェクト符号化を実行したとき、オブジェクトプロセッサ1200は迂回されないが、複数の復号化済みチャンネル及び複数の復号化済みオブジェクトが、メタデータ展開器1400によって生成された展開されたメタデータと共にオブジェクトプロセッサ1200に送り込まれる。
【0042】
好ましくは、モード1又はモード2が適用されるべきか否かの指示は、符号化済みオーディオデータの中に含まれ、その後、モードコントローラ1600は、モード指示を検出するために符号化済みデータを解析する。モード1は、モード指示が、符号化済みオーディオデータが符号化済みチャンネル及び符号化済みオブジェクトを含むことを示すときに使用され、モード2は、モード指示が、符号化済みオーディオデータがオーディオオブジェクトを含んでいないこと、すなわち、
図4の3Dオーディオエンコーダのモード2によって得られたプリレンダリングされたチャンネルだけを含むことを示すときに適用される。
【0043】
図7は
図5の3Dオーディオデコーダと比べて好ましい実施形態を示し、
図7の実施形態は
図6の3Dオーディオエンコーダに対応する。
図5の3Dオーディオデコーダ実施に加えて、
図7における3DオーディオデコーダはSAOCデコーダ1800を備える。さらに、
図5のオブジェクトプロセッサ1200は、
図7では別個のオブジェクトレンダラ1210とミキサ1220として実施されるが、モードに依存して、オブジェクトレンダラ1210の機能はSAOCデコーダ1800によって実施することができる。
【0044】
さらに、ポストプロセッサ1700は、バイノーラルレンダラ1710又はフォーマットコンバータ1720として実施することができる。あるいは、
図5のデータ1205の直接出力は、1730によって示されるように実施することもできる。その結果、フレキシビリティを実現するために22.2又は32のような最高数のチャンネルに関してデコーダにおいて処理を実行し、その後、より小規模のフォーマットが必要とされる場合に後処理することが好ましい。しかしながら、5.1フォーマットのような小さいフォーマットだけが必要とされることが最初から明らかになるとき、好ましくは、ショートカット1727によって
図5もしくは
図6によって示されるように、不必要なアップミキシング動作及び後に続くダウンミキシング動作を回避するためにSAOCデコーダ及び/又はUSACデコーダの特定の制御を適用することができる。
【0045】
本発明の好ましい実施形態では、オブジェクトプロセッサ1200はSAOCデコーダ1800を備え、SAOCデコーダは、コアデコーダによって出力された1つ以上のトランスポートチャンネル及び関連付けられたパラメトリックデータを、展開されたメタデータを使用して復号化し、複数のレンダリングされたオーディオオブジェクトを得るために設けられている。このため、OAM出力はボックス1800に接続されている。
【0046】
さらに、オブジェクトプロセッサ1200は、オブジェクトレンダラ1210によって示されるように、SAOCトランスポートチャンネルにおいて符号化されていないが、典型的に単一のチャンネル化済み要素において個別に符号化され、コアデコーダによって出力された復号化済みオブジェクトをレンダリングするように構成されている。さらに、デコーダは、ミキサの出力をスピーカーへ出力するため出力1730に対応する出力インターフェースを備える。
【0047】
さらなる実施形態では、オブジェクトプロセッサ1200は、1つ以上のトランスポートチャンネルと、符号化済みオーディオ信号又は符号化済みオーディオチャンネルを表現する関連付けられたパラメトリックサイド情報とを復号化する空間オーディオオブジェクト符号化デコーダ1800を備え、この空間オーディオオブジェクト符号化デコーダは、関連付けられたパラメトリック情報及び展開されたメタデータを、例えば、SAOCの旧バージョンに規定されているように、出力フォーマットを直接レンダリングするため使用可能であるトランスコードされたパラメトリックサイド情報にトランスコードするように構成されている。ポストプロセッサ1700は、復号化済みトランスポートチャンネルとトランスコードされたパラメトリックサイド情報を使用して出力フォーマットのオーディオチャンネルを算出するため構成されている。ポストプロセッサによって実行される処理は、MPEGサラウンド処理に類似するものとすることができ、又はBCC処理などのような他の処理とすることができる。
【0048】
さらなる実施形態では、オブジェクトプロセッサ1200は、(コアデコーダによって)復号化されたトランスポートチャンネルとパラメトリックサイド情報を使用して出力フォーマットのためにチャンネル信号を直接的にアップミックスし、レンダリングするように構成された空間オーディオオブジェクト符号化デコーダ1800を備える。
【0049】
さらに、かつ、重要なことには、
図5のオブジェクトプロセッサ1200はミキサ1220を付加的に備え、ミキサ1220は、チャンネルと混合されたプリレンダリングされたオブジェクトが存在するとき、すなわち
図4のミキサがアクティブ状態であったとき、USACデコーダ1300によって出力されたデータを入力として直接に受信する。さらに、ミキサ1220は、SAOC復号化なしでオブジェクトレンダリングを実行するオブジェクトレンダラからデータを受信する。さらに、ミキサは、SAOCデコーダ出力データ、すなわち、SAOCレンダリングされたオブジェクトを受信する。
【0050】
ミキサ1220は、出力インターフェース1730、バイノーラルレンダラ1710及びフォーマットコンバータ1720に接続されている。バイノーラルレンダラ1710は、頭部伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して出力チャンネルを2つのバイノーラルチャンネルにレンダリングするために設けられている。フォーマットコンバータ1720は、出力チャンネルをミキサの出力チャンネル1205よりより少ない数のチャンネルを有する出力フォーマットに変換するために設けられ、フォーマットコンバータ1720は5.1スピーカーなどのような再生レイアウトに関する情報を必要とする。
【0051】
図9の3Dオーディオデコーダは、SAOCデコーダがレンダリングされたオブジェクトを復号できるだけでなく、レンダリングされたチャンネルを生成することができる点で
図7の3Dオーディオデコーダとは異なり、これは、
図8の3Dオーディオエンコーダが使用され、チャンネル/プリレンダリングされたオブジェクトとSAOCエンコーダ800の入力インターフェースとの間の接続900がアクティブ状態であるときの事例である。
【0052】
さらに、ベクトルベース振幅パニング(VBAP:vector base amplitude panning)段1810が設けられており、ベクトルベース振幅パニング段1810は、SAOCデコーダから再生レイアウトに関する情報を受信し、レンダリング行列をSAOCデコーダに出力し、その結果、SAOCデコーダが、最終的に、≡チャンネルフォーマット1205、すなわち、32台のスピーカーにおいて、ミキサのさらなる動作なしでレンダリングされたチャンネルを提供することができるようになる。
【0053】
VBAPブロックは、好ましくは、レンダリング行列を導き出すために復号化済みOAMデータを受信する。より一般的には、好ましくは、再生レイアウトの幾何学的情報だけでなく、入力信号が再生レイアウト上で再現されるべき位置の幾何学的情報を必要とする。この幾何学的入力データは、オブジェクトのためのOAMデータ、又はSAOCを使用して送信されたチャンネルのためのチャンネル位置情報とすることができる。
【0054】
しかしながら、特定の出力インターフェースだけが必要とされる場合、VBAP状態1810は、例えば、5.1出力のために必要とされるレンダリング行列を予め提供することができる。SAOCデコーダ1800は、その後、SAOCトランスポートチャンネル、関連付けられたパラメトリックデータ及び展開されたメタデータから、ミキサ1220の相互作用なしに、必要とされる出力フォーマットへの直接レンダリングを実行する。しかしながら、モード間で特定の混合が適用されるとき、すなわち、いくつかのチャンネルがSAOC符号化されているが全てのチャンネルがSAOC符号化されているとは限らない場合、もしくは、いくつかのオブジェクトがSAOC符号化されているが全てのオブジェクトがSAOC符号化されているとは限らない場合、又は、チャンネルを含むある一定量のプリレンダリングされたオブジェクトだけがSAOC符号化され残りのチャンネルがSAOC処理されていないとき、ミキサは、個別の入力部分から、すなわち、コアデコーダ1300から、オブジェクトレンダラ1210から、及びSAOCデコーダ1800からのデータをまとめる。
【0055】
以下の数学的表記を用いる:
N
Objects:入力オーディオオブジェクト信号の数
N
Channels:入力チャンネルの数
N:入力信号の数;
NはN
Objects、N
Channels又はN
Objects+N
Channelsと等しくできる
N
DmxCh:ダウンミックス(処理済み)チャンネルの数
N
Samples:処理済みデータサンプルの数
N
OutputChannels:デコーダ側での出力チャンネルの数
D:ダウンミックス行列、サイズN
DmxCh×N
X:入力オーディオ信号、サイズN×N
Samples
Ex:入力信号共分散行列、サイズN×N、Ex=XX
Hと定義される
Y:ダウンミックスオーディオ信号、サイズN
DmxCh×N
Samples、Y=DXと定義される
Ey:ダウンミックス信号の共分散行列、サイズN
DmxCh×N
DmxCh、Ey=YY
Hと定義される
G:パラメトリック音源推定行列、サイズN×N
DmxCh、ExD
H(DExD
H)
-1を近似する
:パラメトリック再構成された入力信号、サイズN
Objects×N
Samples、Xを近似し、
と定義される
(・)H:(・)の共役転置を表現する自己共役(エルミート)演算子
R:サイズN
OutputChannels×Nのレンダリング行列
S:サイズN
OutputChannels×N
DmxChの出力チャンネル生成行列、S = RGと定義される
Z:ダウンミックス信号からデコーダ側に生成された出力チャンネル、サイズN
OutputChannels×N
Samples、Z=SY
:望ましい出力チャンネル、サイズN
OutputChannels×N
Samples、
【0056】
一般性を失うことなく、式の読みやすさを改善するために、全ての導入された変数に対して、時間依存性及び周波数依存性を表す添字は本明細書では省略する。
【0057】
3Dオーディオに関し、スピーカーチャンネルはいくつかの高さの層に分布し、その結果、水平及び垂直のチャンネルのペアをもたらす。USACに規定されたような2つのチャンネルだけの統合符号化は、チャンネル間の空間関係と知覚関係を考慮するためには不十分である。
【0058】
チャンネル間の空間関係と知覚関係を考慮するために、3Dオーディオに関して、入力チャンネル(SAOCエンコーダによって符号化されたオーディオチャンネル信号とオーディオオブジェクト信号)を再構成するためにSAOCのようなパラメトリック技術を使用し、デコーダ側で再構成された入力チャンネル
を得ることがあり得る。SAOC復号化は、最小平均二乗誤差(MMSE)アルゴリズムに基づいている。すなわち、
=GY 但し G≒ExD
H(DExD
H)
-1
である。
【0059】
再構成された入力チャンネル
を得るために入力チャンネルを再構成する代わりに、出力チャンネルZは、レンダリング行列Rを考慮することによって、デコーダ側で直接的に生成することができる。
Z=RGY
Z=SY ; 但し、S=RG
【0060】
このように、入力オーディオオブジェクトと入力オーディオチャンネルを明示的に再構成する代わりに、出力チャンネルZは、ダウンミックスオーディオ信号Yに出力チャンネル生成行列Sを適用することにより直接的に生成することができる。
【0061】
出力チャンネル生成行列Sを得るために、レンダリング行列Rは、例えば、決定してもよく、又は例えば、すでにあるものを利用してもよい。さらに、パラメトリック音源推定行列Gは、例えば前述のように計算することができる。出力チャンネル生成行列Sは、その後、レンダリング行列Rとパラメトリック音源推定行列Gから行列積S=RGとして得ることができる。
【0062】
3Dオーディオシステムは、チャンネルとオブジェクトを符号化するために合成モードを必要とすることがある。
【0063】
概して、このような合成モードに対して、SAOC符号化/復号化は、2つの異なった方法で適用することができる。
【0064】
すなわち、一つの方法はSAOCのようなパラメトリックシステムの1つのインスタンスを利用することであり、このようなインスタンスはチャンネルとオブジェクトを処理することができる。この解決策は、計算が複雑であるという欠点があり、入力信号の数が多いので、トランスポートチャンネルの数が類似する再構成品質を維持するために増加する。その結果として、行列DExD
Hのサイズが増加し、逆行列を求める複雑性が増大する。さらに、このような解決策は、行列DExD
Hのサイズが増大するにつれて、より一層の数値不安定性を取り込む。さらに、別の欠点として、行列DExD
Hの逆行列を求めることは、再構成されたチャンネルと再構成されたオブジェクトとの間に付加的なクロストークをもたらすことがある。これが起こる理由は、再構成行列Gの中の零と考えられているいくつかの係数に数値的な不正確さのために零でない値が設定されるからである。
【0065】
もう一つの方法はSAOCのようなパラメトリックシステムの2つのインスタンスを利用することであり、一方のインスタンスはチャンネルベースの処理用であり、もう一方のインスタンスはオブジェクトベースの処理用である。このような方法は、フィルタバンクの初期化とデコーダ構成のために同じ情報が2回送信される欠点を有する。さらに、必要に応じてチャンネルとオブジェクトをいっしょに混合することができず、その結果、チャンネルとオブジェクトとの間の相関特性を使用することができない。
【0066】
オーディオオブジェクトとオーディオチャンネルとに対して異なったインスタンスを利用する方法の欠点を回避するために、実施形態は、第1の方法を利用し、効率的な方法で1つのシステムインスタンスだけを使用して、チャンネル、オブジェクト、又はチャンネル及びオブジェクトを処理することができる拡張SAOCシステムを提供する。オーディオチャンネルとオーディオオブジェクトは、同じエンコーダインスタンスとデコーダインスタンスによってそれぞれ処理されるが、効率性概念が提供され、その結果、第1の方法の欠点を回避することができる。
【0067】
図2は、実施形態による1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置を示す。
【0068】
この装置は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサ210と、出力インターフェース220とを備える。
【0069】
チャンネル/オブジェクトミキサ210は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とが1つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とを混合することにより1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するように構成されている。
【0070】
1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。このように、チャンネル/オブジェクトミキサ210は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少ないチャンネルを有するオーディオトランスポート信号を生成するように適合させられているので、チャンネル/オブジェクトミキサ210は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とをダウンミックスする能力がある。
【0071】
出力インターフェース220は、オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するように構成されている。
【0072】
例えば、チャンネル/オブジェクトミキサ210はダウンミックス情報を出力インターフェース220へ送り込むように構成することができ、そのダウンミックス情報は1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とをダウンミックスするため使用される。さらに、例えば、出力インターフェース220は、例えば、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号を受信するように構成することができ、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号に基づいて共分散情報を決定するようにさらに構成することができる。又は、出力インターフェース220は、例えば、予め決定済みの共分散情報を受信するように構成することができる。
【0073】
共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
【0074】
図1は実施形態による1つ以上のオーディオ出力チャンネルを生成する装置を示す。
【0075】
この装置は、ミキシング情報を算出するパラメータプロセッサ110と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ120とを備える。
【0076】
ダウンミックスプロセッサ120は、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。1つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合されている。さらに、1つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合されている。1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少ない。
【0077】
パラメータプロセッサ110は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成されている。さらに、パラメータプロセッサ110は共分散情報を受信するように構成されている。パラメータプロセッサ110は、ダウンミックス情報に依存し、かつ、共分散情報に依存してミキシング情報を算出するように構成されている。
【0078】
ダウンミックスプロセッサ120は、ミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
【0079】
共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
【0080】
実施形態では、共分散情報は、例えば1つ以上のオーディオチャンネル信号の1つずつに対するレベル差情報を示すことがあり、そして、さらに、例えば1つ以上のオーディオオブジェクト信号の1つずつに対するレベル差情報を示すことがある。
【0081】
実施形態によれば、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で、例えば混合されることがあり、かつ、2つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で、例えば混合されることがある。共分散情報は、例えば、2つ以上のオーディオチャンネル信号のうちの1つと、2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことがある。又は、共分散情報は、例えば、2つ以上のオーディオオブジェクト信号のうちの1つと、2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことがある。又は、共分散情報は、例えば、2つ以上のオーディオチャンネル信号のうちの1つと2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、かつ、2つ以上のオーディオオブジェクト信号のうちの1つと2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことがある。
【0082】
オーディオオブジェクト信号に対するレベル差情報は、例えば、オブジェクトレベル差(OLD)とすることができる。「レベル」は、例えば、エネルギーレベルに関係させることができる。「差」は、例えば、オーディオオブジェクト信号の間の最大レベルに関する差に関係させることができる。
【0083】
オーディオオブジェクト信号のうちの1つと、オーディオオブジェクト信号のうちのもう1つとのペアに対する相関情報は、例えば、オブジェクト間相関(IOC:object level difference)とすることができる。
【0084】
例えば、実施形態によれば、SAOC 3Dの最適性能を保証するために、適合する電力をもつ入力オーディオオブジェクト信号を使用することが推奨されている。(対応する時間/周波数タイルに従って正規化された)2つの入力オーディオ信号の積は、以下のように決定される。
式中、i及びjはそれぞれオーディオオブジェクト信号xi及びxjの添字であり、nは時間を示し、kは周波数を示し、lは時間添字の組を示し、mは周波数添字の組を示す。εは零による除算を回避するための加算定数、例えば、ε=10
-9である。
【0085】
最大エネルギーをもつオブジェクトの絶対オブジェクトエネルギー(NRG)は、例えば、以下のように算出することができる。
【0086】
対応する入力オブジェクト信号の電力の比(OLD)は、例えば、次式によって与えることができる。
【0087】
入力オブジェクトの類似性尺度(IOC)は、例えば、以下の相互相関によって与えることができる。
【0088】
例えば、実施形態では、IOCは、ビットストリーム変数bsRelatedTo[i][j]に1が設定されたオーディオ信号i及びjの全てのペアに対して送信することができる。
【0089】
オーディオチャンネル信号に対するレベル差情報は、例えば、チャンネルレベル差(CLD:channel level difference)とすることができる。「レベル」は、例えば、エネルギーレベルに関係させることができる。「差」は、例えば、オーディオチャンネル信号の間の最大レベルに関する差に関係させることができる。
【0090】
オーディオチャンネル信号のうちの1つとオーディオチャンネル信号のうちのもう1つとのペアに対する相関情報は、例えば、チャンネル間相関(ICC:inter-channel correlation)とすることができる。
【0091】
実施形態では、チャンネルレベル差(CLD)は、上記式中のオーディオオブジェクト信号がオーディオチャンネル信号によって置換されたときの上述のオブジェクトレベル差(OLD)と同じ方法で定義することができる。さらに、チャンネル間相関(ICC)は、上記式中のオーディオオブジェクト信号がオーディオチャンネル信号によって置換されたときの上述のオブジェクト間相関(IOC)と同じ方法で定義することができる。
【0092】
SAOCでは、SAOCエンコーダは、(ダウンミックス情報に従って、例えば、ダウンミックス行列Dに従って)複数のオーディオオブジェクト信号をダウンミックスして、(例えば、より少ない数の)1つ以上のオーディオトランスポートチャンネルを得る。デコーダ側では、SAOCデコーダは、エンコーダから受信したダウンミックス情報を使用して、かつ、エンコーダから受信した共分散情報を使用して1つ以上のオーディオトランスポートチャンネルを復号化する。共分散情報は例えば共分散行列Eの係数とすることができ、共分散行列Eはオーディオオブジェクト信号のオブジェクトレベル差と、2つのオーディオオブジェクト信号の間のオブジェクト間相関とを示す。SAOCでは、決定済みのダウンミックス行列Dと決定済みの共分散行列Eは、1つ以上のオーディオトランスポートチャンネルの複数のサンプル(例えば、1つ以上のオーディオトランスポートチャンネルの2048個のサンプル)を復号化するために使用される。この概念を利用することにより、ビットレートは、符号化なしで1つ以上のオーディオオブジェクト信号を送信するのと比べて節約される。
【0093】
実施形態は、オーディオオブジェクト信号とオーディオチャンネル信号が有意な差を示していても拡張SAOCエンコーダによってオーディオトランスポート信号が生成できるので、このようなオーディオトランスポート信号では、オーディオオブジェクト信号だけでなく、オーディオチャンネル信号も混合されるという発見に基づいている。
【0094】
オーディオオブジェクト信号とオーディオチャンネル信号は著しく異なる。例えば、複数のオーディオオブジェクト信号のそれぞれはサウンドシーンの音源を表現することができる。その結果、一般に、2つのオーディオオブジェクトは、極めて相関が低いことがある。これに対して、オーディオチャンネル信号は、異なるマイクロホンによって記録されているかのように、サウンドシーンの異なるチャンネルを表現する。一般に、このようなオーディオチャンネル信号のうちの2つは、特に、2つのオーディオオブジェクト信号の相関と比べると非常に相関が高く、2つのオーディオオブジェクト信号は、一般に極めて相関が低い。このようにして、実施形態は、オーディオチャンネル信号が特に2つのオーディオチャンネル信号のペアの間の相関を送信することから、そして、この送信された相関値を復号化のため使用することにより恩恵を受けるという成果に基づいている。
【0095】
さらに、オーディオオブジェクト信号とオーディオチャンネル信号は、位置情報がオーディオオブジェクト信号に割り当てられている点で異なり、その位置情報は、例えばオーディオオブジェクト信号の発生源である音源(例えば、オーディオオブジェクト)の(仮定された)位置を示す。(例えば、メタデータ情報に含まれている)このような位置情報は、デコーダ側でオーディオトランスポート信号からオーディオ出力チャンネルを生成するときに使用することができる。しかしながら、これに対して、オーディオチャンネル信号は位置を示すことがなく、位置情報はオーディオチャンネル信号に割り当てられない。しかしながら、それにもかかわらず、実施形態は、オーディオオブジェクト信号と一緒にオーディオチャネル信号をSAOC符号化することが効率的であるという発見に基づいている。
それは、例えば、オーディオチャンネル信号を生成することが、2つの副次的問題、すなわち、位置情報が必要とされることがない復号化情報を決定すること(例えば、分解(unmix)のための行列Gを決定すること、下記参照)と、(例えば、レンダリング行列Rを決定することにより、下記参照)レンダリング情報を決定することとに分けることができるからである。レンダリング情報の決定のためには、生成されたオーディオ出力チャンネルにおいてオーディオオブジェクトをレンダリングするためにオーディオオブジェクト信号に関する位置情報を利用することができる。
【0096】
さらに、本発明は、オーディオオブジェクト信号のうちの1つとオーディオチャンネル信号のうちの1つとのペアの間に相関がない(少なくとも有意ではない)という発見に基づいている。そのため、エンコーダは、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を送信しない。これにより、符号化と復号化の両方のためにかなりの送信帯域幅が節約され、かなりの量の計算時間が節約される。このような有意ではない相関情報を処理しないように構成されているデコーダは、(デコーダ側でオーディオトランスポート信号からオーディオ出力チャンネルを生成するために利用される)ミキシング情報を決定するとき、かなりの量の計算時間を節約する。
【0097】
実施形態によれば、パラメータプロセッサ110は、例えば、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号が1つ以上のオーディオ出力チャンネル内でどのように混合されるかに関する情報を示すレンダリング情報を受信するように構成することができる。パラメータプロセッサ110は、例えば、ダウンミックス情報に依存して、共分散情報に依存して、かつレンダリング情報に依存してミキシング情報を算出するように構成することができる。
【0098】
例えば、パラメータプロセッサ110は、例えば、レンダリング情報としてレンダリング行列Rの複数の係数を受信するように構成することができ、ダウンミックス情報に依存して、共分散情報に依存して及びレンダリング行列Rに依存してミキシング情報を算出するように構成することができる。例えば、パラメータプロセッサは、エンコーダ側から又はユーザからレンダリング行列Rの係数を受信することができる。別の実施形態では、パラメータプロセッサ110は、例えば、メタデータ情報、例えば、位置情報又は利得情報を受信するように構成することができ、そして、例えば、受信したメタデータ情報に依存してレンダリング行列Rの係数を算出するように構成することができる。さらなる実施形態では、パラメータプロセッサは、両方(エンコーダからのレンダリング情報とユーザからのレンダリング情報)を受信するように、そして、両方に基づいてレンダリング行列を作成するように構成することができる(相互作用が実現されていることを基本的に意味する)。
【0099】
あるいは、パラメータプロセッサは、例えば、レンダリング情報として2つのレンダリング部分行列R
ch,R
objを受信するように構成することができる。R=(R
ch,R
obj)であり、R
chは例えばオーディオチャンネル信号をオーディオ出力チャンネルに混合する方法を示し、R
objはOAM情報から得られたレンダリング行列とすることができる。R
objは
図9のVBAPブロック1810から得ることもできる。
【0100】
特別な実施形態では、2つ以上のオーディオオブジェクト信号は、例えば、オーディオトランスポート信号内で混合することができ、2つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合される。このような実施形態では、共分散情報は、例えば、2つ以上のオーディオチャンネル信号のうちの1つと、2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことができる。さらに、このような実施形態では、(例えば、エンコーダ側からデコーダ側に送信される)共分散情報は、1つ以上のオーディオオブジェクト信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちのもう1つとのいずれかのペアに対する相関情報を示すことはない。なぜならば、オーディオオブジェクト信号間の相関は非常に小さいので無視することができ、よって、例えば、ビットレート及び処理時間を節約するために送信されないからである。このような実施形態では、パラメータプロセッサ110は、ダウンミックス情報に依存して、1つ以上のオーディオチャンネル信号の1つずつのレベル差情報に依存して、1つ以上のオーディオオブジェクト信号の1つずつの第2のレベル差情報に依存して、及び2つ以上のオーディオチャンネル信号のうちの1つと2つ以上のオーディオチャンネル信号のうちのもう1つとの1つ以上のペアの相関情報に依存してミキシング情報を算出するように構成されている。このような実施形態は、オーディオオブジェクト信号間の相関が概して比較的低く、無視されるべきであり、2つのオーディオチャンネル信号間の相関が概して比較的高く、考慮されるべきであるという上記の発見を利用する。オーディオオブジェクト信号間の無関係な相関情報を処理しないことにより処理時間を節約することができる。オーディオチャンネル信号間の関係のある相関情報を処理することにより符号化効率は改善することができる。
【0101】
特別な実施形態では、1つ以上のオーディオチャンネル信号はオーディオトランスポートチャンネルの1つ以上からなる第1のグループ内で混合され、1つ以上のオーディオブジェクト信号はオーディオトランスポート信号の1つ以上からなる第2のグループ内で混合され、第1のグループのうちの各オーディオトランスポートチャンネルは第2のグループに分類されることはなく、第2のグループのうちの各オーディオトランスポートチャンネルは第1のグループに分類されることはない。このような実施形態では、ダウンミックス情報は、1つ以上のオーディオチャンネル信号が1つ以上のオーディオトランスポートチャンネルからなる第1のグループ内でどのように混合されるかに関する情報を示す第1のダウンミックスサブ情報を含み、ダウンミックス情報は、1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネルからなる第2のグループ内でどのように混合されるかに関する情報を示す第2のダウンミックスサブ情報を含む。このような実施形態では、パラメータプロセッサ110は、第1のダウンミックスサブ情報に依存して、第2のダウンミックスサブ情報に依存して、及び共分散情報に依存してミキシング情報を算出するように構成され、ダウンミックスプロセッサ120は、ミキシング情報に依存して、1つ以上のオーディオトランスポートチャンネルからなる第1のグループから、及び、オーディオトランスポートチャンネルの第2のグループから1つ以上のオーディオ出力信号を生成するように構成されている。サウンドシーンのオーディオチャンネル信号の間に高い相関が存在するので、このような方法によって符号化効率が増大する。さらに、オーディオオブジェクト信号を符号化するオーディオトランスポートチャンネルに与えるオーディオチャンネル信号の影響、及び、逆も同様に、オーディオチャンネル信号を符号化するオーディオトランスポートチャンネルに与えるオーディオオブジェクト信号の影響を示すダウンミックス行列の係数は、エンコーダによって算出される必要がなく、送信される必要がなく、そして、これらを処理する必要なしにデコーダによって零に設定することができる。このことは、エンコーダ及びデコーダの送信帯域幅及び計算時間を節約する。
【0102】
実施形態では、ダウンミックスプロセッサ120は、ビットストリームでオーディオトランスポート信号を受信し、オーディオチャンネル信号だけを符号化しているオーディオトランスポートチャンネルの数を示す第1のチャンネルカウント数を受信し、かつ、オーディオオブジェクト信号だけを符号化しているオーディオトランスポートチャンネルの数を示す第2のチャンネルカウント数を受信するように構成されている。このような実施形態では、ダウンミックスプロセッサ120は、第1のチャンネルカウント数もしくは第2のチャネルカウント数に依存して、又は、第1のチャネルカウント数及び第2のチャネルカウント数に依存して、オーディオトランスポート信号のオーディオトランスポートチャンネルがオーディオチャンネル信号を符号化するか否か、又は、オーディオトランスポート信号のオーディオトランスポートチャンネルがオーディオオブジェクト信号を符号化すか否かを識別するように構成されている。例えば、ビットストリームでは、オーディオチャンネル信号を符号化するオーディオトランスポートチャンネルが最初に出現し、オーディオオブジェクト信号を符号化するオーディオトランスポートチャンネルが後で出現する。したがって、第1のチャンネルカウント数が例えば3であり、第2のチャンネルカウント数が例えば2であれば、ダウンミックスプロセッサは、最初の3個のオーディオトランスオポートチャンネルが符号化済みオーディオチャンネル信号を含み、後に続く2個のオーディオトランスポートチャンネルが符号化済みオーディオオブジェクト信号を含むと判断を下すことができる。
【0103】
実施形態では、パラメータプロセッサ110は位置情報を含むメタデータ情報を受信するように構成され、位置情報は1つ以上のオーディオオブジェクト信号の1つずつに対する位置を示し、1つ以上のオーディオチャンネル信号のいずれに対する位置を示さない。このような実施形態では、パラメータプロセッサ110は、ダウンミックス情報に依存して、共分散情報に依存して、かつ、位置情報に依存してミキシング情報を算出するように構成されている。さらに又はあるいは、メタデータ情報は利得情報をさらに含み、利得情報は1つ以上のオーディオオブジェクト信号の1つずつに対する利得値を示し、1つ以上のオーディオチャンネル信号のいずれかに対する利得値を示さない。このような実施形態では、パラメータプロセッサ110は、ダウンミックス情報に依存して、共分散情報に依存して、位置情報に依存して、かつ、利得情報に依存してミキシング情報を算出するように構成することができる。例えば、パラメータプロセッサ110は、上記部分行列R
chにさらに依存してミキシング情報を算出するように構成することができる。
【0104】
実施形態によれば、パラメータプロセッサ110は、ミキシング情報としてミキシング行列Sを算出するように構成され、ミキシング行列Sは、式S=RGに従って定義される。式中、Gはダウンミックス情報に依存し、かつ、共分散情報に依存した復号化行列であり、Rはメタデータ情報に依存したレンダリング行列である。このような実施形態では、ダウンミックスプロセッサ(120)は、式Z=SYを適用することによってオーディオ出力信号の1つ以上のオーディオ出力チャンネルを生成するように構成することができる。式中、Zはオーディオ出力信号であり、Yはオーディオトランスポート信号である。例えば、Rは、上記部分行列R
ch及び/又はR
obj(例えば、R=(R
ch,R
obj))に依存することができる。
【0105】
図3は実施形態によるシステムを示す。このシステムは、オーディオトランスポート信号を生成する前述のような装置310と、1つ以上のオーディオ出力チャンネルを生成する前述のような装置320とを備える。
【0106】
1つ以上のオーディオ出力チャンネルを生成する装置320は、オーディオトランスポート信号を生成する装置310からオーティオトランスポート信号、ダウンミックス情報、及び共分散情報を受信するように構成されている。さらに、オーディオ出力チャンネルを生成する装置320は、オーディオトランスポート信号に依存して、ダウンミックス情報に依存して、及び共分散情報に依存して1つ以上のオーディオ出力チャンネルを生成するように構成されている。
【0107】
実施形態によれば、オブジェクト符号化を実現するオブジェクト指向システムであるSAOCシステムの機能性は、オーディオオブジェクト(オブジェクト符号化)、オーディオチャンネル(チャンネル符号化)、又はオーディオ符号化とオーディオオブジェクトの両方(混成符号化)が符号化できるように拡張される。
【0108】
前述の
図6及び
図8のSAOCエンコーダ800は、拡張されているので、入力としてオーディオオブジェクトを受信できるだけでなく、入力としてオーディオチャンネルも受信でき、そして、SAOCエンコーダは、受信したオーディオオブジェクトと受信したオーディオチャンネルが符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を生成することができる。例えば
図6及び
図8の上記実施形態では、このようなSAOCエンコーダ800は、入力としてオーディオオブジェクトだけでなく、オーディオチャンネルも受信し、受信したオーディオオブジェクトと受信したオーディオチャネルが符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を生成する。例えば、
図6及び
図8のSAOCエンコーダは、
図2を参照して説明したように、(1つ以上のオーディオトランスポートチャンネル、例えば1つ以上のSAOCトランスポートチャンネルを含む)オーディオトランスポート信号を生成する装置として実現され、
図6及び
図8の実施形態は、オブジェクトだけでなく、チャンネルのうちの1つ、一部又は全部もSAOCエンコーダ800に送り込まれるように改変される。
【0109】
前述の
図7及び
図9のSAOCデコーダ1800は、拡張されているので、オーディオオブジェクトとオーディオチャンネルが符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を受信することができ、そして、オーディオオブジェクトとオーディオチャンネルが符号化されている受信したダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)から出力チャンネル(レンダリング済みのチャンネル信号とレンダリング済みのオブジェクト信号)を生成することができる。例えば、
図7及び
図9の上記実施形態では、このようなSAOCデコーダ1800は、オーディオオブジェクトだけではなくオーディオチャンネルも符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を受信し、オーディオオブジェクトとオーディオチャンネルが符号化されている受信したダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)から出力チャンネル(レンダリングされたチャンネル信号とレンダリングされたオブジェクト信号)を生成する。例えば、
図7及び
図9のSAOCデコーダは、
図1を参照して説明したように1つ以上のオーディオ出力チャンネルを生成する装置として実現され、
図7及び
図9の実施形態は、USACデコーダ1300とミキサ1220との間に示されたチャンネルのうちの1つ、一部又は全部がUSACデコーダ1300によって生成(再構成)されるのではなく、SAOCトランスポートチャンネル(オーディオトランスポートチャンネル)からSAOCデコーダ1800によって再構成されるように改変される。
【0110】
アプリケーションに依存して、SAOCシステムの様々な利点がこのような拡張SAOCシステムを使用することによって利用できる。
【0111】
いくつかの実施形態によれば、このような拡張SAOCシステムは、任意の数のダウンミックスチャンネルをサポートし、任意の数の出力チャンネルにレンダリングする。いくつかの実施形態では、例えば、ダウンミックスチャンネル(SAOCトランスポートチャンネル)の数は、例えば、全体的なビットレートを著しく削減するために(例えば、実行時に)減らすことができる。これは、低ビットレートをもたらす。
【0112】
さらに、いくつかの実施形態によれば、このような拡張SAOCシステムのSAOCデコーダは、例として、例えば、ユーザ相互作用を可能にできる統合フレキシブルレンダラを有することができる。これにより、ユーザは、オーディオシーン内のオブジェクトの位置を変化させること、個別のオブジェクトのレベルを軽減もしくは増大させること、オブジェクトを完全に抑制することなどが可能である。例えば、バックグラウンドオブジェクト(BGO:background object)としてチャネル信号、及び、フォアグラウンドオブジェクト(FGO:foreground object)としてオブジェクト信号を考慮して、SAOCの双方向特徴を対話拡張のようなアプリケーションのために使用することができる。このような双方向特徴によって、ユーザは、対話理解度を増大させるために(例えば、対話はフォアグラウンドオブジェクトによって表現できる)、又は、(例えば、FGOによって表現された)対話と(例えば、BGOによって表現された)周囲バックグラウンドとの間で平衡を保つために、制限された範囲で、BGOとFGOを自由に操作することができる。
【0113】
さらに、実施形態によれば、デコーダ側で利用できる計算複雑さに依存して、SAOCデコーダは、「低計算複雑さ:low-computaton-complexity」モードで動作することによって、例えば、逆相関器の数を減らすことによって、及び/又は、例えば、再生レイアウトに直接的にレンダリングすることによって、計算複雑さを自動的に削減し、後に続く上述のフォーマットコンバータ1720の動作を停止させることができる。例えば、レンダリング情報は、22.2システムのチャンネルを5.1システムのチャンネルにダウンミックスする方法を導くことができる。
【0114】
実施形態によれば、拡張SAOCエンコーダは、可変数の入力チャンネル(N
Channels)と入力オブジェクト(N
Objects)を処理することができる。チャンネルとオブジェクトの数は、デコーダ側にチャンネル経路の存在を知らせるためにビットストリーム中へ伝えられる。SAOCエンコーダへの入力信号は、チャンネル信号が前半の信号であり、オブジェクト信号が後半の信号であるように常に順序付けられる。
【0115】
別の実施形態によれば、チャンネル/オブジェクトミキサ210は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルの数がどの程度のビットレートがオーディオトランスポート信号を送信するため利用可能であるかに依存するように、オーディオトランスポート信号を生成するように構成されている。
【0116】
例えば、ダウンミックス(トランスポート)チャンネルの数は、例えば、利用可能なビットレートと入力信号の総数との関数として計算することができる。すなわち、
N
DmxCh=f(bitrate, N)
である。
【0117】
Dの中のダウンミックス係数は、入力信号(チャンネルとオブジェクト)のミキシングを決定する。アプリケーションに依存して、行列Dの構造は、チャンネルとオブジェクトがいっしょに混合されるか、又は分離されたままであるか指定することができる。
【0118】
いくつかの実施形態は、オブジェクトをチャンネルといっしょに混合しない方が有利であるという発見に基づいている。オブジェクトをチャンネルといっしょに混合しないためには、ダウンミックス行列は、例えば、以下のように構成することができる:
【0119】
ビットストリーム中へ別々のミキシングを知らせるために、チャンネル経路
に割り当てられたダウンミックスチャンネルの数とオブジェクト経路
に割り当てられたダウンミックスチャンネルの数の値を、例えば、伝えることができる。
【0120】
ブロック状ダウンミキシング行列D
chとD
objは、サイズ
と
をそれぞれ有する。
【0121】
デコーダでは、パラメトリック音源推定行列G≒ExD
H(DExD
H)
-1の係数は、異なった形式で計算される。行列形式を使用すると、これは、以下のように表現できる。
但し、
で、サイズが
である。
で、サイズが
である。
【0122】
チャンネル信号共分散
とオブジェクト信号共分散
の値は、例えば、入力信号共分散行列(Ex)から、対応する対角ブロックだけを選択することによって得ることができる。
【0123】
直接的な結果として、ビットレートは、チャンネルとオブジェクトとの間の相互共分散行列を再構成するために付加情報(例えば、OLD、IOC)を送信しないことによって削減される。すなわち
である。
【0124】
いくつかの実施形態によれば、
であり、それ故に、
である。
【0125】
実施形態によれば、拡張SAOCエンコーダは、オーディオオブジェクトのうちのいずれか1つとオーディオチャンネルのうちのいずれか1つとの間の共分散に関する情報を拡張SAOCデコーダに送信しないように構成されている。
【0126】
さらに、実施形態によれば、拡張SAOCデコーダは、オーディオオブジェクトのうちのいずれか1つとオーディオチャンネルのうちのいずれか1つとの間の共分散に関する情報を受信しないように構成されている。
【0127】
Gの非対角ブロック状要素は、計算されることなく、零が設定される。その結果、再構成されたチャンネルとオブジェクトとの間で見込まれるクロストークが回避される。さらに、これにより、計算すべきGの係数が少なくなるので、計算複雑さの低減が達成される。
【0128】
さらに、実施形態によれば、以下のより大きい行列、すなわち、
サイズが
であるDExD
H
の逆行列を求める代わりに、以下の2つの小さい行列の逆行列が求められる。
サイズ
である
サイズ
である
【0129】
より小さい行列
と
の逆行列を求めることは、計算複雑さの観点でより大きい行列DExD
Hの逆行列を求めることより非常に安上がりである。
【0130】
さらに、別個の行列
と
の逆行列を求めることにより、見込まれる数値不安定性は、より大きい行列DExD
Hの逆行列を求めるより低減される。例えば、最悪の想定では、トランスポートチャンネル
と
の共分散行列が信号の類似性によって線形の依存性をもつとき、全体行列DExD
Hは悪条件であることがあるが、別々のより小さい行列は良条件である可能性がある。
【0131】
デコーダ側で
が計算された後、再構成された入力信号
(入力オーディオチャンネル信号と入力オーディオオブジェクト信号)を得るために、例えば、
を使用して、入力信号を例えばパラメータ的に推定することができる。
【0132】
さらに、前述のように、レンダリングはデコーダ側で出力チャンネルZを得るために、例えばレンダリング行列Rを利用することにより行うことができる。
Z=RGY
Z=SY 但し、S=RG
【0133】
再構成された入力チャンネル
を得るために入力信号(入力オーディオチャンネル信号と入力オーディオオブジェクト信号)を明確に再構成する代わりに、出力チャンネル生成行列Sをダウンミックスオーディオ信号Yに適用することにより出力チャンネルZをデコーダ側で直接生成することができる。
【0134】
前述のように、出力チャンネル生成行列Sを得るために、レンダリング行列Rは例えば決定してもよく、又は例えば既に利用可能なものであってもよい。さらに、パラメトリック音源推定行列Gは、例えば前述のように計算することができる。したがって、出力チャンネル生成行列Sは、レンダリング行列Rとパラメトリック音源推定行列Gとから行列積S=RGとして得ることができる。
【0135】
再構成されたオーディオオブジェクト信号に関して、エンコーダからデコーダへ送信されたオーディオオブジェクトに関する圧縮メタデータを考慮することができる。例えば、オーディオオブジェクトに関するメタデータは、オーディオオブジェクトの1つずつに関する位置情報を示すことができる。このような位置情報は、例えば、方位角、仰角及び半径とすることができる。この位置情報は、3D空間内のオーディオオブジェクトの位置を示すことができる。例えば、オーディオオブジェクトが想定もしくは現実のスピーカー位置に近接して位置しているとき、このようなオーディオオブジェクトは、そのスピーカーから遠く離れて位置している出力チャンネルにおける別のオーディオオブジェクトに比べるとそのスピーカーのための出力チャンネルにおいてより高い重みを有する。例えば、ベクトルベースの振幅パニング(VBAP)は、オーディオオブジェクトに対するレンダリング行列Rのレンダリング係数を決定するために利用することができる(例えば、[VBAP]を参照のこと)。
【0136】
さらに、いくつかの実施形態では、圧縮メタデータは、オーディオオブジェクトの1つずつに対する利得値を含むことができる。例えば、オーディオオブジェクト信号の1つずつに対して、利得値はそのオーディオオブジェクト信号に対する利得係数を示すことができる。
【0137】
オーディオオブジェクトに対比して、位置情報メタデータは、オーディオチャンネル信号についてはエンコーダからデコーダに送信されない。(例えば、22.2を5.1に変換するための)付加的な行列、又は(チャンネルの入力構成が出力構成に等しいときの)単位行列は、例えばオーディオチャンネルに対してレンダリング行列Rのレンダリング係数を決定するために利用することができる。
【0138】
レンダリング行列Rのサイズは、N
OutputChannels×Nとすることができる。ここで、出力チャンネルの1つずつのため、行列Rの中に1行が存在する。さらに、レンダリング行列Rの各行において、N個の係数は、対応する出力チャンネルにおけるN個の入力信号(入力オーディオチャンネル及び入力オーディオオブジェクト)の重みを決定する。その出力チャンネルのスピーカーに近接して位置しているそれらのオーディオオブジェクトは、対応する出力チャンネルのスピーカーから遠く離れて位置しているオーディオオブジェクトの係数より大きい係数を有する。
【0139】
例えば、ベクトルベース振幅パニング(VBAP)をスピーカーの各オーディオチャンネルの内部でオーディオオブジェクト信号の重みを決定するために利用することができる(例えば、[VBAP]を参照)。例えば、VBAPに関して、オーディオオブジェクトは、仮想音源に関係していると仮定する。
【0140】
オーディオオブジェクトに対比して、オーディオチャンネルは位置を有していないので、レンダリング行列の中のオーディオチャンネルに関係する係数は、例えば、位置情報から独立したものとすることができる。
【0141】
以下、実施形態によるビットストリーム構文を説明する。
【0142】
MPEG SAOCに関して、起こり得る動作モード(チャンネルベース、オブジェクトベース又は統合モード)の信号伝達は、例えば、2つの以下の可能性(第1の可能性:動作モードを信号伝達するフラグを使用する;第2の可能性:動作モードを信号伝達するフラグを使用しない)のうち1つを使用することによって達成することができる:
【0143】
したがって、第1の実施形態によれば、動作モードを信号伝達するためにフラグが使用される。
【0144】
動作モードを信号伝達するためにフラグを使用するために、SAOCSpecifigConfig()要素又はSAOC3DSpecifigConfig()要素の構文は、例えば、以下を含むことができる。
【0145】
ビットストリーム変数bsSaocChannelFlagが1に設定された場合、最初のbsNumSaocChannels+1入力信号はチャンネルベース信号のように取り扱われる。ビットストリーム変数bsSaocObjectFlagが1に設定された場合、最後のbsNumSaocObjects+1入力信号はオブジェクト信号のように処理される。その結果、両方のビットストリーム変数(bsSaocChannelFlag, bsSaocObjectFlag)が零とは異なる場合、オーディオトランスポートチャンネル中のチャンネルとオブジェクトの存在が信号伝達される。
【0146】
ビットストリーム変数bsSaocCombinedModeFlagが1に等しい場合、統合復号化モードがビットストリーム中へ伝えられ、デコーダは完全なダウンミックス行列D(これは、チャンネル信号とオブジェクト信号がいっしょに混合されていることを意味する)を使用して、bsNumSaocDmxChannelsトランスポートチャンネルを処理する。
【0147】
ビットストリーム変数bsSaocCombinedModeFlagが零である場合、独立した復号化モードが信号伝達され、デコーダは前述のようにブロック状ダウンミックス行列を使用して、(bsNumSaocDmxChannels+1) + (bsNumSaocDmxObjects+1)のトランスポートチャンネルを処理する。
【0148】
好ましい第2の実施形態によれば、動作モードを信号伝達するためにはフラグは必要ではない。
【0149】
フラグを使用することなく動作モードを信号伝達することは、例えば、以下の構文を利用することによって実現することができる。
【0150】
信号伝達:
SAOC3DSpecificConfig()の構文:
【0151】
チャンネルとオブジェクトとの間の相互相関が零になるように制限する。
【0152】
オーディオチャンネルとオーディオオブジェクトが、異なったオーディオトランスポートチャンネルにおいて混合された場合と、それらがオーディオトランスポートチャンネルの内部でいっしょに混合された場合とで、ダウンミキシング利得を別々に読み取る。
【0153】
ビットストリーム変数bsNumSaocChannelsが零とは異なる場合、最初のbsNumSaocChannels入力信号はチャンネルベース信号のように取り扱われる。ビットストリーム変数bsNumSaocObjectsが零とは異なる場合、最後のbsNumSaocObjects入力信号はオブジェクト信号のように処理される。その結果、両方のビットストリーム変数が零とは異なる場合、オーディオトランスポートチャンネル中のチャンネルとオブジェクトの存在が信号伝達される。
【0154】
ビットストリーム変数bsNumSaocDmxObjectsが零に等しい場合、統合復号化モードがビットストリーム中へ信号伝達され、デコーダは完全なダウンミックス行列D(これはチャンネル信号とオブジェクト信号がいっしょに混合されていることを意味する)を使用して、bsNumSaocDmxChannelsトランスポートチャンネルを処理する。
【0155】
ビットストリーム変数bsNumSaocDmxObjectsが零でない場合、独立した復号化モードが信号伝達され、デコーダは前述のようにブロック状ダウンミックス行列を使用して、bsNumSaocDmxChannels+bsNumSaocDmxObjectsのトランスポートチャンネルを処理する。
【0156】
以下、実施形態によるダウンミックス処理の態様を説明する。
【0157】
(ハイブリッドQMFドメインにおいて表現された)ダウンミックスプロセッサの出力信号は、ISO/IEC 23003-1:2007に記載されているように、対応する合成フィルタバンクに送り込まれ、SAOC 3Dデコーダの最終出力を生じさせる。
【0158】
図1のパラメータプロセッサ110とダウンミックスプロセッサ120は、統合処理ユニットとして実施することができる。そのような統合処理ユニットは
図1によって示され、ユニットUとRがミキシング情報を供給することによってパラメータプロセッサ110を実施する。
【0159】
出力信号
は、マルチチャンネルダウンミックス信号Xと逆相関マルチチャンネル信号X
dから以下のように計算される。
式中、Uはパラメトリック分解行列を表わす。
【0160】
行列P=(P
dry P
wet)はミキシング行列である。
【0161】
逆相関マルチチャンネル信号X
dは以下のように定義される。
【0162】
復号化モードはビットストリーム要素bsNumSaocDmxObjectsによって制御される。
【0163】
統合復号化モードの場合、パラメトリック分解行列Uは次式によって与えられる。
【0164】
サイズが
である行列Jは、
によって与えられる。但し、
である。
【0165】
独立復号化モードの場合、分解行列Uは次式によって与えられる。
式中、
及び
である。
【0166】
サイズがN
ch×N
chであるチャンネルベース共分散行列E
chとサイズがN
obj×N
objであるオブジェクトベース共分散行列E
objは、共分散行列Eから、対応する対角ブロックだけを選択することにより得られる。
式中、行列
は、入力チャンネルと入力オブジェクトとの間の相互共分散行列を表わし、計算する必要がない。
【0167】
サイズが
であるチャンネルベースダウンミックス行列D
chとサイズが
であるオブジェクトベースダウンミックス行列D
objは、ダウンミックス行列Dから、対応する対角ブロックだけを選択することにより得られる。
【0168】
サイズが
である行列
は、
の代わりに行列Jの定義から導かれる。
【0169】
サイズが
である行列
は、次式の代わりに行列Jの定義から導かれる。
【0170】
行列
は以下の方程式を使用して算出される。
【0171】
ここで、行列Δの特異ベクトルVは、以下の特性方程式を使用して得られる。
【0172】
対角特異値行列Λの正規化逆行列
は以下のように計算される。
【0173】
相対正規化スカラー
は、絶対閾値
とΛの極大値を使用して以下のように決定される。
【0174】
以下、実施形態によるレンダリング行列について説明する。
【0175】
入力オーディオ信号Sに適用されるレンダリング行列Rは、Y=RSとして目標のレンダリング出力を決定する。サイズがN
out×Nであるレンダリング行列Rは、次式
R=(R
ch R
obj)
によって与えられる。式中、サイズがN
out×N
chであるR
chは入力チャンネルに関連付けられたレンダリング行列を表わし、サイズがN
out×N
objであるR
objは入力オブジェクトに関連付けられたレンダリング行列を表わす。
【0176】
以下、実施形態による逆相関マルチチャンネル信号X
dについて説明する。
【0177】
逆相関信号X
dは、例えば、bsDecorrConfig == 0、及び例えば逆相関器インデックスXを用いて、ISO/IEC 23003-1:2007の6.6.2に記載された逆相関器から作り出される。その結果、
は、例えば以下の逆相関プロセスを表す。
【0178】
いくつかの態様が装置に関連して説明されているが、これらの態様は対応する方法の説明も表し、ブロック又は機器は方法ステップ又は方法ステップの特徴に対応することが明らかである。同様に、方法ステップに関連して説明された態様は、対応する装置の対応するブロックもしくは物又は特徴の説明を表している。
【0179】
本発明の分解された信号は、ディジタル記憶媒体に記憶することができ、又は無線伝送媒体もしくはインターネットのような有線伝送媒体といった伝送媒体上で送信することができる。
【0180】
特定の実施要件に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施することができる。その実施は、ディジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はFLASHメモリを使用して実行することができる。そのディジタル記憶媒体は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(協働する能力がある)電子的に読み取り可能な制御信号を記憶しているものである。
【0181】
本発明によるいくつかの実施形態は、本明細書に記載された方法のうちの1つが実行されるようにプログラマブルシステムと協働する能力がある電子的に読み取り可能な制御信号を有する非遷移型のデータ担体を含む。
【0182】
概して、本発明の実施形態はプログラムコードをもつコンピュータプログラムプロダクトとして実施することができ、そのプログラムコードはこのコンピュータプログラムプロダクトがコンピュータ上で動くとき本発明方法のうち1つを実行するために動作するものである。そのプログラムコードは、例えば機械読み取り可能な担体に記憶することができる。
【0183】
他の実施形態は、機械読み取り可能な担体上に記憶され、かつ本明細書に記載された方法のうち1つを実行するコンピュータプログラムを含む。
【0184】
換言すれば、本発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータ上で動くとき、本明細書に記載された方法のうち1つを実行するプログラムコードを有するコンピュータプログラムである。
【0185】
本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを記録しているデータ担体(又はディジタル記憶媒体、もしくはコンピュータ読み取り可能な媒体)である。
【0186】
本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを表現するデータストリーム又は信号のシーケンスである。そのデータストリーム又は信号のシーケンスは、例えば、データ通信接続を介して、例としてインターネットを介して転送されるように構成することができる。
【0187】
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するように構成され又は適合した処理手段、例えば、コンピュータ又はプログラマブル論理デバイスを含む。
【0188】
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを実装しているコンピュータを含む。
【0189】
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を本明細書に記載された方法の機能性のうちの一部又は全部を実行するために使用することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載された方法のうち1つを実行するためにマイクロプロセッサと協働することができる。概して、本発明方法は、好ましくは、ハードウェア装置によって実行される。
【0190】
上記実施形態は、本発明の原理の単なる例示である。当然のことながら、本明細書に記載された配置構成及び細部の変更及び変形は、当業者には明白であろう。したがって、意図するところは、本発明は直ぐ後の特許請求の範囲だけによって限定され、本明細書において実施形態の記載及び説明のために提示された具体的な細部によって限定されないことである。