(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6377730
(24)【登録日】2018年8月3日
(45)【発行日】2018年8月22日
(54)【発明の名称】オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20180813BHJP
G10L 19/02 20130101ALI20180813BHJP
【FI】
G10L19/008 100
G10L19/02 150
【請求項の数】14
【全頁数】20
(21)【出願番号】特願2016-517237(P2016-517237)
(86)(22)【出願日】2014年5月27日
(65)【公表番号】特表2016-523377(P2016-523377A)
(43)【公表日】2016年8月8日
(86)【国際出願番号】EP2014060959
(87)【国際公開番号】WO2014195190
(87)【国際公開日】20141211
【審査請求日】2017年5月16日
(31)【優先権主張番号】13305756.2
(32)【優先日】2013年6月5日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ヤクス,ペーター
(72)【発明者】
【氏名】クルーガー,アレクサンダー
【審査官】
山下 剛史
(56)【参考文献】
【文献】
特開2012−133366(JP,A)
【文献】
特表2010−507115(JP,A)
【文献】
岩谷幸雄他,球面調和解析による音場表現−高次アンビソニックス技術の可能性−,日本音響学会誌,2011年11月 1日,67巻,11号,p.544-549
【文献】
Erik HELLEROUD, et al.,SPATIAL REDUNDANCY IN HIGHER ORDER AMBISONICS AND ITS USE FOR LOW DELAY LOSSLESS COMPRESSION,Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP 2009),2009年 4月19日,p.269-272
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
H04S 3/00− 5/02
(57)【特許請求の範囲】
【請求項1】
階層的なオーディオビットストリームを復号する方法であって、
前記階層的なオーディオビットストリームを受け取って復調するステップであって、チャンネルに基づく符号化における埋込サラウンドサウンドビットストリームを有するファーストレイヤビットストリームと、HOAフォーマットにおけるセカンドレイヤビットストリームとが少なくとも得られ、前記セカンドレイヤビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
前記セカンドレイヤビットストリームを復号するステップであって、再構成されたHOA信号が、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップであって、前記第1のサイド情報は予測ブロックパラメータを有し、前記予測されたサウンド成分は、ドミナントサウンドソースを識別及び抽出するサウンド場解析から得られる中間のモノラルオーディオ信号である、ステップと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
前記再構成されたサウンド成分及び前記第2のサイド情報をHOAフォーマットへと組み立て直すことによってHOAコンテンツを再構成するステップであって、再構成されたHOAコンテンツが得られるステップと
によって得られるステップと
を有する方法。
【請求項2】
前記予測するステップは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
請求項1に記載の方法。
【請求項3】
前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
請求項1又は2に記載の方法。
【請求項4】
階層的なオーディオビットストリームを符号化する方法であって、
HOA入力信号を受け取るステップと、
前記HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
前記受け取られたHOA入力信号に対して次元削減を実行するステップであって、次元削減されたHOA信号が得られるステップと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
符号器制御ブロックにおいて前記HOA入力信号に関する構造情報を得るステップと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
を有する方法。
【請求項5】
前記複数のモノラル知覚符号器の夫々は、各自の原モノラル信号から夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
請求項4に記載の方法。
【請求項6】
更なるサウンドオブジェクトが、前記HOA入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
請求項4又は5に記載の方法。
【請求項7】
階層的なオーディオビットストリームを復号する装置であって、
前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、チャンネルに基づく符号化における埋込サラウンドサウンドビットストリームを有するファーストレイヤビットストリームと、HOAフォーマットにおけるセカンドレイヤビットストリームとが少なくとも得られ、前記セカンドレイヤビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
前記セカンドレイヤビットストリームを復号する階層HOA復号器と
を有し、
前記階層HOA復号器は、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測する予測ユニットであって、前記第1のサイド情報は予測ブロックパラメータを有し、前記予測されたサウンド成分は、ドミナントサウンドソースを識別及び抽出するサウンド場解析から得られる中間のモノラルオーディオ信号である、前記予測ユニットと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
前記再構成されたサウンド成分及び前記第2のサイド情報をHOAフォーマットへと組み立て直すことによってHOAコンテンツを再構成するHOAコンテンツ再構成ユニットであって、再構成されたHOAコンテンツが得られる前記HOAコンテンツ再構成ユニットと
を有する、装置。
【請求項8】
前記セカンドレイヤビットストリームから第1のサイド情報、第2のサイド情報及び復号された残差信号を取り出す条件付きHOA復号器
を更に有する請求項7に記載の装置。
【請求項9】
前記予測ユニットは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
請求項7又は8に記載の装置。
【請求項10】
前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
請求項7乃至9のうちいずれか一項に記載の装置。
【請求項11】
階層的なオーディオビットストリームを符号化する装置であって、
HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
前記HOA入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたHOA信号が得られる前記次元削減ユニットと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
前記HOA入力信号に関する構造情報を得る符号器制御ブロックと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
を有する装置。
【請求項12】
前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、各自の原モノラル信号から計算される個別的に計算された知覚マスキング閾を、夫々のドミナントサウンド成分について使用する、
請求項11に記載の装置。
【請求項13】
1つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記HOA入力信号及び前記1つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
請求項11又は12に記載の装置。
【請求項14】
サラウンドサウンド符号器は、5.1サラウンドフォーマット、改良された5.1サラウンドサウンドフォーマット、ドルビーデジタル又は7.1サラウンドサウンドフォーマットを使用する、
請求項7乃至13のうちいずれか一項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号を符号化する方法、オーディオ信号を符号化する装置、オーディオ信号を復号する方法、及びオーディオ信号を復号する装置に関する。
【背景技術】
【0002】
高次アンビソニックス(HOA;Higher-Order Ambisonics)の圧縮は、科学文献において深く探求されていない。従って、本項目は、HOAコンテンツの自己完結型圧縮のための例となる最新のモノリシック・アーキテクチャを紹介する。このアーキテクチャは、中間レベル(例えば、256kbit/s)にある高分解能の空間音響シーンの高レベル(例えば、1.5Mbit/s)データレートへの高品質の符号化を可能にすることが、広範囲にわたる試験によって確認されている。本項目で与えられる背景情報は、このアーキテクチャを踏まえて階層的な概念を理解するのに必要である。
【0003】
図1は、符号器側から見た自己完結型HOA圧縮についての概念を表す。図において与えられる数及びパラメータは例である点に留意されたい。例えば、コーデック・アーキテクチャは、ここでは、4次HOAコンテンツ(N=4)の符号化のために示されており、完全な3D表現のために(N+1)
2=25に等しいオーディオチャンネルを必要とする。同じ概念は、N=1以上のあらゆるHOA次数の符号化のために利用できる。同様に、次元削減(dimensionality reduction)の後の取り出された“オーディオチャンネル”の数8は、大きさの程度を明らかにするであろう例となる数である。なお、この8という数(平均して)は、次数N=4のHOAコンテンツを符号化する際に適切であることが分かっている。
【0004】
符号化プロセスは、互いからある程度独立している2つの段に分けられる。第1の段10は、次元削減段である。それは、入力されたHOAコンテンツを解析し、それをより少ない数のドミナントサウンド成分へと分解することによって信号の次元を減らす。いささか抽象的な用語“サウンド成分(sound components)”は、結果として得られる信号が必ずしもサウンドオブジェクト、特定の空間方向又はアンビエンスに対応しないために使用される(なお、それらは、実際には、特別の場合にはそうすることができる。)。
【0005】
情報理論から、少なくとも複雑なオーディオシーンについて、この段10の出力で提供される情報は、入力された情報よりも体系的に少ないことが知られている。次元削減段10は、(1)入力されたオーディオシーンの固有の冗長性を可能な限り利用することによって、情報損失が最小限にされるように、且つ、(2)無関連性が低減されるように、動作する。すなわち、出力信号は、入力されたコンテンツに対する再構成されたオーディオシーンの知覚的な差が最小限にされるほど十分な情報を依然として運ぶ。この段10は、時間により変化し且つ信号に適応した信号処理を利用する。その出力信号の数は、パラメータ化及び信号特性に応じて、同じく適応的であることができる。
【0006】
第2の符号化段11は、モノラルオーディオ信号のための複数(この場合は、8つ)の並列な知覚符号器のバンクを有する。それらの符号器は、個々のドミナントサウンド成分を符号化し、時間−周波数符号化の原理(これは、1990年代以降に確立された。)を用いて動作する。例えば、MPEG−4アドバンスド・オーディオ・コーディング(AAC;Advanced Audio Coding)符号器のバンクが、第2の符号化段11で利用されてよい。符号器の実装は、全体的な符号器制御ブロックがそれらのコア・コーデックの特定のパラメータ(例えば、平均ビットレート、ウィンドウ切替動作、ビットリザーバ(bit reservoir)のサイズ、スペクトル帯域複製の挙動、等)に作用することを可能にするために、わずかに変更される必要がある。このアーキテクチャは、既存のコーデックの実装及び対応する最適化の再利用を最大限に促すことによって、HOAコーデックを実装するのに必要な設計労力を最小限とすることから、選択されてきた。
【0007】
完全な符号器の動作は、符号器制御段12によって制御される。ここで、知覚オーディオシーン解析が実行され、他の信号処理段を駆動及び制御するために必要とされるパラメータを決定する。特に、この制御インスタンスは、データレートリソースの大域的最適化に関与し、そして、それは、全体として優れたレート歪み性能を達成するのに欠かせない。最後に、第2の符号化段11の結果として得られるビットストリーム、及び符号器制御段12からのサイド情報は、マルチプレクサ(MUX)13で単一の出力ビットストリームへと多重化される。
【発明の概要】
【発明が解決しようとする課題】
【0008】
他/サラウンドサウンドフォーマットとの少なくとも基本的な互換性を可能にする方法でHOAコンテンツを符号化することが望ましい。
図1に示されているアーキテクチャの1つの問題は、それがHOAフォーマット信号にしか適用可能でないことである。本発明は、サラウンドサウンドフォーマットと後方互換性があるビットストリームをもたらす、HOAコンテンツの階層的な符号化のための新しい概念、方法及び装置を導入する。
【課題を解決するための手段】
【0009】
特に、本発明は、他の既存のサラウンドサウンド復号器と後方互換性がある階層的なビットストリームに含まれる高分解能の空間オーディオコンテンツを符号化する解決法を開示する。結果として得られるビットストリームは、従来のサラウンドサウンド復号器が利用される場合は従来のサラウンドサウンドへと復号し、一方、本発明の一実施形態に従う新しい高度な復号器は、その全く同じビットストリームを完全な3Dオーディオ(すなわち、サラウンドサウンドを超えるもの)へと復号することができる。原理上は、ビットストリームは、ベースレイヤ及びエンハンスメントレイヤを有する。符号化及び復号化の両方の間、サラウンドサウンド表現からの情報は、エンハンスメントレイヤの高品位オーディオ信号を符号化/復号するために利用される。
【0010】
階層的なオーディオビットストリームを復号する方法は、請求項1において開示される。階層的なオーディオビットストリームを符号化する方法は、請求項4において開示される。階層的なオーディオビットストリームを復号する装置は、請求項7において開示される。階層的なオーディオビットストリームを符号化する装置は、請求項11において開示される。
【0011】
一実施形態において、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項1に記載の復号化方法を実行させる実行可能命令を記憶したコンピュータ可読記憶媒体に関する。一実施形態において、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項4に記載の符号化方法を実行させる実行可能命令を記憶したコンピュータ可読記憶媒体に関する。
【0012】
一実施形態において、本発明は、プロセッサ及びメモリを有し、前記メモリが、前記プロセッサで実行される場合に、該プロセッサに、請求項1に記載の復号化方法を実行させる実行可能命令を記憶しているデバイスに関する。一実施形態において、本発明は、プロセッサ及びメモリを有し、前記メモリが、前記プロセッサで実行される場合に、該プロセッサに、請求項4に記載の符号化方法を実行させる実行可能命令を記憶しているデバイスに関する。
【0013】
一実施形態において、階層的なオーディオビットストリームを復号する方法は、埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームを得るよう前記階層的なオーディオビットストリームを復調するステップであって、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、前記セカンドレイヤHOAビットストリームを復号するステップとを有する。前記セカンドレイヤHOAビットストリームを復号するステップにおいて、再構成されたHOA信号は、前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップと、再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップとによって得られる。
【0014】
本発明の利点は、サラウンドサウンドフォーマットを含む他のフォーマットとの少なくとも基本的な互換性を可能にする方法でHOAコンテンツを符号化することを可能にする点である。
【0015】
本発明に従う階層コーデックの完全な実装は、コア・コーデックのバンクのためのあらゆる利用可能な、変更可能な符号器及び復号器ブロックに依存してよく、後述されるものとは異なったコア・コーデックを使用してよいことが留意されるべきである。
【0016】
本発明の有利な実施形態は、従属請求項、以下の説明及び図において開示される。
【図面の簡単な説明】
【0017】
本発明の例となる実施形態は、添付の図面を参照して記載される。
【
図1】HOA圧縮のための既知の符号器アーキテクチャの構造を示す。
【
図2】埋込サラウンドサウンド・コーデック・ストリームを使用する階層的なHOA符号化のための例となるアーキテクチャを示す。
【
図3】予測及び残差符号化による階層的なHOA符号化を示す。
【
図4】知覚コア・コーデックのサイコ・アコースティック制御の変形を示す。
【
図5】例となるHOA信号(“バンブルビー(Bumblebee)”)についての予測利得の時間依存挙動を示す。
【
図6】様々な種類のHOAコンテンツについての大域的予測利得のヒストグラムを示す。
【
図7】サラウンドサウンドデータが予め利用可能である階層的なHOA符号化の例となるアーキテクチャを示す。
【
図8】階層的なHOA復号化のための例となる復号器アーキテクチャを示す。
【発明を実施するための形態】
【0018】
本発明は、高次アンビソニックス(HOA)のための埋込符号化スキームのアプローチを提供する。かかるスキームの非常に魅力的な用途は、既存のサラウンドサウンド復号器と後方互換性があるビットストリームによる高分解能の空間オーディオコンテンツの分配/ブロードキャスティングである。このようなビットストリームは、既存のサラウンドサウンド復号器が利用される場合は従来のサラウンドサウンドへと復号し、一方、新しい高度な復号器は、その全く同じビットストリームから完全な3Dオーディオを復号することができる。それによって、新しいモノリシック(すなわち、自己完結)のコンテンツフォーマット及び対応する復号器の実装の大規模な展開を通常は大幅に減速させる“因果関係の分からない問題(chicken-egg problem)”は、回避され得る。コンテンツプロバイダは、現場で、すなわち、潜在的な顧客において設置された多数の復号器による下支えを有利なことに依然として享受する新しい品質のコンテンツを分配し始めることができる。
【0019】
上記の用途は、階層的な符号化技術によって有効に対処される。埋込サラウンドサウンドビットストリームは、概して自己完結しているが、完全な3Dオーディオシーンに必要とされる“追加的な情報”も運ぶビットストリーム・コンテナとなる。そのような条件下での完全なオーディオシーンの高効率圧縮のための鍵は、完全な3Dオーディオシーンを所与の品質レベルで運ぶのに必要とされる総ビットレートを最小限とするために、最大量の情報が既存のサラウンドサウンド表現から利用されることである。
【0020】
本発明は、HOAコンテンツの圧縮に特に注目しながら、かかる圧縮技術が如何にして働くことができるのかに関する概念及び評価を導入する。HOA表現は、費用効率が高い生産ワークフローが必要とされる用途において特に魅力的である。更には、HOA技術は、その固有のスケーラビリティと、記録又はラウドスピーカ構成への非依存性とにより、家庭への高効率配信と、顧客の家に存在し得る全ての種類の現実のラウドスピーカ構成へのフレキシブルなレンダリングとへの門戸を開く。
【0021】
具体例として、1つには、ビットストリームのオーディオ部分のための総ビットレートが約128kbit/s(ステレオ)から384kbit/s(サラウンド)の範囲にあるTV放送が考えられ得る。かかるビットレートは、複雑な空間オーディオシーンが圧縮及び搬送されるべき場合に(例えば、4次のHOAコンテンツ)、早くも困難である。それらは、実際上同じ総データレートが、適当な品質においてサラウンドバージョンに加えて完全な空間オーディオシーンを運ぶために使用されるべき場合に、当然により一層困難である。本発明は、この課題を解決するために適用可能である概念を導入する。
【0022】
先に簡単に紹介された自己完結型HOA圧縮のための例となる最新のアプローチは、本発明の新しい階層的概念を理解するためのシーンを設定する。
【0023】
本明細書は、HOAフォーマットでそもそも記録されたコンテンツ(“原HOAコンテンツ”)の、効率的な圧縮及びレンダリングに対するその適合性に関する有利な特性のために、かかるコンテンツに注目する。とは言え、後述されるものと極めて類似した階層的な圧縮技術は、原の3Dオーディオシーン表現がチャンネル指向及び/又はオブジェクト指向のパラダイムを使用する用途のために同様に適用可能である。
【0024】
以下で、HOAコンテンツの階層的な符号化についての概念が記載される。任意に、原のサウンドオブジェクトが更に入力されてよい。
【0025】
提案される埋込符号化原理の実例が、
図2に示されている。符号器は、2つの並列な信号経路、すなわち、入来するHOA信号からのサラウンド信号の生成及び符号化のための1つの信号経路と、HOAコンテンツの条件付き符号化のための他の信号経路とを使用する。下側の信号経路では、入来するHOA信号は、埋込サラウンド符号器(ENC;Embedded Surround Coder)21のラウドスピーカフォーマットへとレンダリング(20)される。このレンダリングは、非常にフレキシブルな様態において実施及び制御され得る。例えば、入来するHOAコンテンツの全自動レンダリングが実行されてよく、あるいは、サウンドミキサがアーティスティック・レンダリングを生成してよい。レンダリングは、時間によって変化しなくても、あるいは、時間によって変化してもよい。原理上は、サラウンド信号は、HOAコンテンツの当初のミキシングのために使用されるのとは全く異なったミキシングワークフローによっても生成され得る。なお、一般に、階層的圧縮スキームは、サラウンドサウンドビットストリームとHOAビットストリームとの間に少なくともある程度の相関関係が得られ、条件付き符号化ブロック22によって使用され得る場合にのみ、サラウンドサウンドビットストリーム及びHOAコンテンツの同時送信に対する幾らかのレート歪みの利点をもたらすことができる。これは、大半の場合に当てはまり、サラウンドサウンドビットストリームが入力されたHOAビットストリームから得られる場合に自明である。
【0026】
サラウンドサウンド符号器21が埋込ビットストリームのために使用するサラウンドサウンドラウドスピーカフォーマットは、あらゆる既存の(又は新しい将来の)サラウンドフォーマット(例えば、従来の5.1サラウンド)、又は“適当な”スピーカ構成によるあらゆる雰囲気のサラウンドサウンド(例えば、異なった角度を使用する改良された5.1サラウンドサウンドフォーマット、又はあらゆる7.1フォーマット、等)に従うことができる。一般に、より独立したサウンド成分が埋込サラウンド信号に含まれことが期待され得るので、更なる効率性が、以下で紹介される条件付き符号化ブロック22から得られる。実現可能性の検討において、従来の5チャンネルサラウンド構成(チャンネル:レフト、センター、ライト、レフトサラウンド、ライトサラウンド)が使用された。
【0027】
符号化されたサラウンドチャンネルは、それらがHOAコンテンツの条件付き符号化のためのサイド情報となることができるように、完全に又は部分的に復号される。簡単のために、このサラウンドチャンネル復号化は、
図2には明示的に示されていない(なお、
図3において以下で示される。)。条件付き符号化22は、HOAコンテンツの圧縮をより効率的にするために、サラウンドチャンネルとHOAコンテンツの間の可能な限り多くの相関関係を特定し利用する。具体的な課題及び如何にしてそれらが解決され得るかに関する更なる詳細は、以下で記載される。
【0028】
条件付き符号化ブロック22によって供給される符号化されたサラウンドチャンネル及びセカンドレイヤ(エンハンスメントレイヤ)ビットストリームは、マルチプレクサ(MUX)23で多重化され、最終の出力ビットストリーム23qは、2つの符号化ブロック21及び22からの多重化されたサブビットストリームをスケーラブルな構成において有する。その中心には、埋込サラウンドサウンド符号器21のビットストリームがある。ビットストリームのこの部分は、後方互換可能な様態においてパッケージ化され、それにより、サラウンド・コーデックフォーマットに従う範囲内の如何なる既存の復号器も、HOAコーデックの余分のビットストリームを無視しながら、ビットストリームのこの部分を理解し復号することができる。加えて、出力ビットストリーム23qは、条件付きHOA符号器22によって生成されたビットストリームを含む。真に階層的な構成において、ビットストリームのこの部分は、完全なビットストリーム/コーデック・フォーマットを知っている本発明に従う復号器の実施によってのみ復号化可能である。
【0029】
上記のスケーラブルな(単一)ビットストリームの定義の前提条件は、既存のサラウンド復号器によって無視されるべき新しいサブビットストリームを加えるために、改良されるサラウンド・コーデック・ビットストリームのフォーマット仕様がオープンであることである。すなわち、本発明は、そのような付加を可能にするサラウンドサウンドフォーマットに適用可能である。一般的な5.1サラウンドサウンド又は7.1サラウンドサウンドのような大部分のサラウンドフォーマットは、この条件を満たす。
【0030】
図3は、埋込サラウンド信号から導出され得る情報を使用するHOA信号の符号化のための条件付き符号化スキームの一実施形態の略ブロック図を示す。
図1に示されたスタンドアローンのHOA符号器に対する最も明白な変更は、サラウンドサウンド復号器37が経路間に加えられており、残差信号の予測及び計算のための新しいサブシステム35が次元削減ブロック34と後続のコア・コーデック(モノラルのコア符号器)36のバンクとの間に加えられていることである。このサブシステムは、この簡略図では、有意な性能向上を得るための鍵である。
【0031】
原理上は、残差信号の予測及び計算のための新しいサブシステム35は、次元削減ブロック34によって生成されるドミナントサウンド成分を予測するために、埋込サラウンド信号からの情報を使用する予測器として働く。原ドミナントサウンド成分と予測された信号との間の差信号(以後、“残差”又は“残差信号”と称される。)は、次いで、並列なコア符号器36のバンクへ転送される。それらの符号器は、残差信号をサラウンドフォーマット(例えば、ドルビーデジタル又は5.1サラウンドサウンド)へと符号化する。あらゆる種類の線形又は非線型予測が利用されてよく、それによって、アルゴリズムの複雑性と信号の品質との間のフレキシブルなトレードオフを可能にする。予測がより良く働く場合に、残差信号は、信号エネルギが小さく、所与の品質レベルでの優れた圧縮のためにそれほど大きなデータレートを必要としない。上述されたように、ドミナントサウンド成分は、必ずしもサウンドオブジェクト、特定の空間方向又はアンビエンスに対応しない。
【0032】
先に紹介された単なる予測の原理は、サラウンド信号の特性に関するサイド情報もコア符号器36のバンク内で条件付き符号化を介して(追加的に又は排他的に)利用されることから簡単にされ、このサイド情報は、ビット割り当てのために個々のコア・コーデック及び全体の符号器制御においても使用されるべきである。上記の予測のみのアプローチは、それがコア符号器の最小限の変更しか必要としないという利点を有する。
【0033】
上記の予測及び残差符号化原理には、次のような善処すべき2、3の基本的な課題が存在する:
第1に、サラウンドサウンドチャンネルの次元は、通常は、HOAコンテンツの次元よりも低い。従って、情報理論の観点から、サラウンドチャンネルからのドミナントサウンド成分の完ぺきな予測は、両表現の固有の次元が、例えば、純粋に合成的にミックスされたコンテンツのために、制限される場合を除いて、実現可能であるように思われない。実際に得られる予測利得の量は、コンテンツの2つの典型的なシーケンスについて以下で評価される。
【0034】
第2に、サラウンドサウンド・コーデック31、37は、HOAコンテンツの予測のために予測ブロック35へ入力されるサイド情報の基となる符号化ノイズを導入する。サラウンドチャンネルと対照的に、しかし、符号化ノイズは、サラウンドチャンネル間と同様に有用な信号と無相関であると考えられ得る。従って、符号化ノイズは、結局のところ残差信号になり、一方、残差の全体のレベルは、原のHOAコンテンツの全体のレベル以下である。それによって、残差のSNRは、サラウンドサウンド・コーデックの符号化ノイズに相当に悩まされ得る。
【0035】
一例として、最新の知覚オーディオ符号化の典型的なSNRは、10〜20dBの範囲にあり、スペクトル帯域複製(SBR;Spectral Band Replication)のようなパラメトリック符号化スキームが適用されている場合には、より一層悪いということを考える。ノイズ付加の上記のメカニズムに従って、残差信号のSNRは、上記の範囲よりも相当に低い可能性がある。結果として、残差符号器は、有用な信号のためよりむしろ、サラウンドレイヤの符号化ノイズを符号化するためにデータレートを浪費する相当なリスクがある。
【0036】
第3に、残差信号の知覚圧縮において、符号化された信号とマスキング信号との間の不一致が考慮されるべきである。残差信号は、次元削減によって供給される原のサウンド成分よりも低い信号レベルを有し、一方、それらのサウンド成分は、マスキング閾のサイコ・アコースティック・モデリングのための入力に依然としてなるべきである。このアーキテクチャの原理は、以下で更に説明されるように、
図4で示されている。
【0037】
更には、2種類の量子化ノイズ(1つは、上述されたように埋込サラウンド・コーデック31、37によって生成され、もう1つは、残差符号器の実際のバンク内の符号化動作の結果である。)は、コア・コーデック36のバンクによって最適化されるべきである。そのため、先に紹介された階層的概念は、コア・コーデックが、同じ知覚オーディオ符号化アルゴリズムのスタンドアローン適用に対して変更されることを必要とする。
【0038】
後述される実現可能性の検討は、残差信号のフレーム単位でのエネルギレベルの最小化が予測ステップを適応させるための最適化基準であることにより得られた結果を示す。これは、データレートが十分に高く、且つ、電力分配が異なった周波数範囲にわたって実質的に一様であるという条件で、適切に働くむしろ率直な最適化基準である。特定の用途においてより良い代替の最適化戦略は、周波数又は変換領域において定式化された微分又は知覚エントロピーメトリックの最小化を含む。どのメトリックが成り立つかは、組み込まれたコア・コーデックのアーキテクチャに大いに依存する。
【0039】
図4は、知覚コア・コーデックのサイコ・アコースティック制御の変形を示す。残差信号は、次元削減によって供給される原のサウンド成分よりも低い信号レベルを有し得るが、依然としてサウンド成分は、マスキング閾のサイコ・アコースティック・モデリングのための入力になるべきである。よって、夫々のドミナントサウンド成分についての個別的な知覚マスキング閾は、41で計算され、残差信号の知覚符号化42において使用される。このスキームは、知覚符号化において残差信号のエネルギ削減を利用するために、コア符号器36のバンクの全符号器エントリ内で実行されるべきである。
【0040】
当然、予測スキームは、フレーム単位で適応され得るが、周波数依存のスキームも、残差信号の知覚オーディオ符号化のための予測の影響を最適化するために用いられ得る。かかる周波数依存のスキームは、異なった周波数バンドごとの異なったマトリクスによるフレーム単位でのマトリクス演算(時間領域における。)を使用するものである。このようにして、アルゴリズムの複雑性と、一方ではサイド情報(復号器における予測制御のため。)の量及び、他方では品質のレベルとの間のトレードオフは、調整され得る。
【0041】
サイド情報に関して、次のことが考えられるべきである。
【0042】
予測の概念により直接に得ることができる潜在的なビットレート節約に加えて、予測ブロックのパラメータは、復号器が圧縮されていないサウンド成分の回復のために全く同じ予測ステップを実行することができるように、ビットストリーム内でサイド情報として送信されるべきである。必要とされるデータレートの最悪の場合の評価は、次のとおりである:
図3に表されている例となる階層的なHOA符号化システムについて、予測システムは、予測を実行するために、例えば、5×8の係数マトリクスを使用してよい。マトリクスの係数は、48kHzのサンプルレートで1024個のサンプルのフレームごとに更新されている。すなわち、毎秒5×8×50=2000個の総数のパラメータが符号化され送信されるべきである。パラメータごとに8ビットによる量子化を考えると、結果として得られるサイド情報のデータレートは約16kbit/sとなり得る。
【0043】
埋込サラウンドサウンドビットストリームを使用する階層的なHOA符号化の上記概念の実現可能性は、一連の実験を行うことによって確かめられてきた。以下では、根底にある制約及び前提が説明され、主たる結果は、2、3の代表的な例により明らかにされる。この目的のために、
図3に表されている符号化システムのコアブロックは、実装及び/又はシミュレーションされている。5チャンネルサラウンドサウンド(レフト、センター、ライト、レフトサラウンド、ライトサラウンド)への入来するHOAコンテンツのレンダリングのために、不変のレンダリングマトリクスが利用された。それは、HOAコンテンツを直接にラウドスピーカへとレンダリングするためにも使用される。
【0044】
サラウンドサウンドの符号化及び復号化の影響は、10dBの平均信号対ノイズ比(SNR)で無相関ノイズを付加することによりシミュレーションされた。このようにシミュレーションされた“符号化ノイズ”は、原のサラウンドサウンドチャンネルの周波数成分に従って適応されている線形予測フィルタによりフィルタをかけられた。結果として、符号化ノイズの周波数分布は、指定されたSNRに従って、より低い電力レベルであっても、サラウンド信号の電力スペクトラムに大まかに追随する。
【0045】
予測スキームのために、線形ブロック予測が使用されている。それは、既知の信号(サラウンドサウンド)と未知の信号(ドミナントサウンド成分)との間の結合ベクトルの共分散マトリクスから求められ得る。この適応は、比較的簡単であり、平均二乗予測誤差の最小化のために調整されている。適応は、48kHzのサンプルレートでの1024個のサンプルのフレームアドバンスによりフレームごとに実行される。
【0046】
客観的評価のメトリックとして、デシベルで表される成分単位での予測利得が特定された。このメトリックは、たとえ高データレート(以下参照)による適用についてのみであっても、よく知られている6dB/bitの経験則(rule-of-thumb)による対応するレート歪み改善を示すことができるという利点を備える。例えば、サウンド成分ごとに6dBの予測利得で、所与の品質によりその成分の残差を送信するために必要とされるデータレートは、原のサウンド成分の送信のためよりも1bit/sample低いことが期待され得る。この規則は、(例となる)8つの関連するサウンド成分の全てについて得られる平均予測利得に基づき現在の場合へと変換され得る。1dBの夫々の予測利得改善は、おおよそ64kbit/sまでの理論上のデータレート節約をもたらす。
【0047】
結果は、代表的なシーケンスの組に基づきモンテカルロ法により決定された。予測利得は、種々の後処理ワークフローと組み合わせてアイゲンマイク(EigenMike)のようなマイクロホンアレイを用いて実施されている様々な記録とともに、異なる数のサウンドオブジェクトによる合成ミックスを有する2、3の典型的な種類のHOA信号について決定された。
【0048】
たとえ上記の前提が妥当であるとしても、それらは、実際には、ある程度しか適用され得ないことが知られる。上記の前提が実際の実施において満足される可能性は、サラウンドサウンド・コーデック及びモノラル・コア・コーデックの両方の特性に大いに依存する。特定の適用のためのより正確な評価は、関与する実際のコーデックを用いて実行されてよい。
【0049】
HOAシーケンス“バンブルビー”のための例となる評価結果は、
図5において表されている。
図5は、例となるHOA信号(“バンブルビー”)のための予測利得の時間依存挙動を示す。上の図は、夫々のフレーム(横軸)について得られる平均予測利得g
med、最小予測利得g
min及び最大予測利得g
maxに対応する3つの曲線を示す。下の図は、夫々のフレーム(横軸)について、8つのドミナントサウンドオブジェクト(夫々、縦軸上の1つの行に対応する。)の夫々についてのフレーム依存の予測利得を示す。低い利得(0dB)は暗く(すなわち、青色)、高い利得(20dB)は赤色である。マークを付された領域50a、50b、50c、50d、50eは主に赤色であり、すなわち、高い利得を示し、一方、暗い(青色)部分は低い利得を有する。他の領域では、中間の利得値が優位を占める。
【0050】
それらの結果から明らかなように、予測利得は、時間により大いに変化し(しかし、常に正)、それは、符号化されるコンテンツ及び/又はドミナントサウンド成分のタイプに依存する。後者の所見は、
図5の下側の図において異なるドミナントサウンド成分について観測され得る予測の根本的に異なった挙動において反映されている。
【0051】
完全な“バンブルビー”シーケンスにわたって計算される全体平均の予測利得は、9.22dBである。面白いことには、9.22dBの絶対値は、埋込サラウンドサウンド・コーデックについて仮定された10dBのSNRに近い。
【0052】
幾つかのHOA信号についての予測利得の統計的評価は、
図6において集められている。7つのテストシーケンスの夫々について、得られた予測利得のヒストグラムは、0.5dB刻みで示されている。この評価は、異なるタイプのコンテンツごとに予測利得の異なる特性を明らかにする。例えば、コンテンツの非常に興味深い区間は、予測利得の3様のヒストグラムを示すシーケンス“Stadium 2”である。利得が全く達成され得ないも同然の多くのフレーム及び/又はドミナントサウンド成分が存在する一方で、2つの他のモードは、約3.5dB及び11.5dBの平均値を有して存在する。このヒストグラムは、このシーケンスのために使用される特定の記録及び後処理技術の結果である。それは、スポーツのスタジアムにおいて記録されたシーケンスであり、極めて拡散的である。すなわち、それは、多数の無相関の音源を有する。
【0053】
実現可能性の検討の結果は、様々な種類の信号(マイクロホンアレイ記録、合成ミックス及びハイブリッド信号)について観測される5〜9dBの一貫した予測利得を示す。単一信号フレームの予測利得は、サラウンドサウンド・コーデックについてシミュレーションされたSNRよりも良い一方で、平均値のどれもが10dBの値を超えない。明らかに、サラウンドサウンド・コーデックのSNRは、達成され得る最大予測利得に対して制約を課す。この所見は、サラウンドサウンド・コーデックのシミュレーションされたSNRが同様の観測により変化したという経験によって支持される。
【0054】
平均予測利得に加えて、評価結果から、予測利得は時間により大いに変化すること、及び予測の統計値は試験下の信号の種類に大いに依存することが明らかになった。実際の適用において、強力なビットリザーバ技術及びスマートな大域的ビットレート制御は、激しい時間変化に対処するのを助けるように思われる。語「ビットリザーバ技術」は、符号化される信号に応じて、利用可能なビットを時間にわたって分配する技術である。それは、信号の将来の部分のための予備にビットを取っておくことを必要とする。
【0055】
高レートの想定の下で(すなわち、上記の6dBの前提が有効であるように、高ビットレートが利用可能であるとする。)、且つ、上記の経験則(予測利得のdBごとの64kbit/sのビットレート節約)によれば、特定されたレベルの予測利得は、予測なしの同時送信と比較して、最大で320〜576kbit/sまでの節約につながる。この結果は、その場合に高レートの想定が大体において有効であることから、順可逆圧縮用途にとって少なくとも有意義である。全てのHOA係数の可逆圧縮の評価については、“次元削減”ステップがこの場合には必要とされないので、別の検討が行われるべきである点に留意されたい。
【0056】
低レートオーディオ圧縮は、高レート圧縮とは別なふうに働き、そのような要件の下で、同量のビットレート節約が上述されたように実現され得るとは考えられない。そのような低レートのシステムは、より正確な評価のために構築され得る。そのような低ビットレートの評価のために、特に、コア・コーデックのバンクにおいて2、3の変更を含めることが必須である。
【0057】
とは言え、上記の結果は、階層的な符号化がサラウンドサウンド及びHOAコンテンツの同時送信に対して有意な利点を有すると考えることが妥当に思われることを示す。上記の予測利得及び関連する潜在的なデータレート低減は、総ビットレートがおおよそ500kbit/sの中間範囲内にある用途にとって特に有意義であると思われる。そのような用途では、潜在的なデータレート節約の量はとても重要であるが、依然として、我々は、極めて低いビットレートの用途についてよりも、高レートの想定に近い。
【0058】
図7は、サラウンドサウンドデータが予め利用可能である階層的なHOA符号化の例となるアーキテクチャを示す。よって、HOA信号からサラウンドデータを導出することは起こり得ないか、あるいは、必要とされない。代わりに、芸術的な処理71が、利用可能なサラウンドサウンドデータに対して実行されてよい。例えば、付加音声、環境音、観客の拍手、等が加えられてよい。アップミックス72、73は、芸術的な処理71の前又は後のいずれかで、そのHOA表現(あるいは、二重のアップミックスが実行される場合には両方)を得るために実行されてよい。サラウンドサウンドは、サラウンドサウンド符号器74において符号化される。サラウンドサウンド符号器74は、サラウンドサウンドコンテンツから得られるサイド情報も供給する。HOA表現は、残差HOAコンテンツのセカンドレイヤビットストリームを得るよう、サイド情報に応じて、条件付きHOA符号器75において条件付き符号化される。最後に、符号化されたサラウンドサウンド76及び残差HOAコンテンツのセカンドレイヤビットストリーム77は、階層ビットストリームに、例えば、マルチプレクサ(MUX)78を用いて多重化された様態において、含められる。更なる詳細は、
図3に示されたのと同様である。
【0059】
図8は、階層的なHOA復号化のための例となる復号器アーキテクチャを示す。受け取られた階層ビットストリームは、デマルチプレクサ81へ入力される。デマルチプレクサは、2つのサブストリームに分ける。1つの出力81q1では、デマルチプレクサは、埋込サラウンドサウンドビットストリーム811を供給する。埋込サラウンドサウンドビットストリーム811は、従来の埋込サラウンドサウンドビットストリームである。他の出力81q2では、デマルチプレクサは、HOAコーデックのセカンドレイヤビットストリームについての残差812を供給する。セカンドレイヤビットストリームは、HOA復号化ブロック83を有さない従来の復号器では無視される。かかるHOA復号化ブロック83は、本発明に従う復号器において利用可能であり、セカンドレイヤHOAビットストリームを扱うことができる。HOA復号化ブロック83は、条件付きHOA復号器84を有する。条件付きHOA復号器84は、一実施形態では、予測のための第1のサイド情報841と、HOA再構成のための第2のサイド情報842と、復号された残差信号843とを供給する。符号化されたサラウンドサウンドビットストリームは、サラウンドサウンド復号器82へ入力される。サラウンドサウンド復号器82は、従来のサラウンドサウンド信号821を出力部へ供給する。
【0060】
HOA復号化ブロック83において、従来のサラウンドサウンド信号821は、予測ブロック85においてサウンド成分を予測するために、第1のサイド情報841とともに使用される。予測ブロック85は、予測されたサウンド成分851を重ね合わせブロック86へ供給する。重ね合わせブロック86は、予測されたサウンド成分851と、条件付きHOA復号器84から伝来する復号された残差信号843との重ね合わせを実行し、再構成されたサウンド成分861をHOAコンテンツ再構成ブロック87へ供給する。HOAコンテンツ再構成ブロック87は、再構成されたサウンド成分861及び第2のサイド情報842から再構成されたHOA信号83qを生成し、再構成されたHOA信号83qをその出力部で出力する。この再構成されたHOA信号83qは、次いで、例えば、所与のラウドスピーカ配置に従って、送信され、記憶され、処理され、あるいは、HOA復号され得る。
【0061】
図9は、一実施形態において、階層的なオーディオビットストリームを符号化するための方法90を示す。方法90は、HOA入力信号を受け取るステップ91と、HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップ92であって、サラウンドサウンドミックスが得られるステップ92と、サラウンドサウンド符号器においてサラウンドサウンドミックスを符号化するステップ93であって、符号化されたサラウンドサウンドが得られるステップ93と、再構成されたサラウンドサウンド信号を得るよう、符号化されたサラウンドサウンドを復号するステップ94と、受け取られたHOA入力信号に対して次元削減95を実行するステップであって、ドミナントサウンド成分を有する次元削減されたHOA信号が得られるステップと、次元削減されたHOA信号と再構成されたサラウンドサウンド信号との間の差を計算するステップ96であって、残差信号が得られるステップ96と、モノラル符号器(すなわち、夫々の符号器がドミナントサウンド成分を符号化する複数の単一チャンネル符号器)のバンクにおいて残差信号を符号化するステップ97であって、符号化された残差が得られるステップ97と、符号器制御ブロックにおいてHOA入力信号に関する構造情報を得るステップ98と、階層的なオーディオビットストリームを得るよう、構造情報、符号化された残差、及び符号化されたサラウンドサウンドを多重化するステップ99とを有する。
【0062】
図10は、一実施形態において、階層的なオーディオビットストリームを復号するための方法100を示す。方法100は、階層的なオーディオビットストリームを受け取って復調するステップ101であって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を有するステップ101と、復号されたサラウンドサウンドビットストリームを得るよう埋込サラウンドサウンドビットストリームを復号するステップ102と、セカンドレイヤHOAビットストリームを復号するステップ103とを有する。ステップ103において、再構成されたHOA信号は、復号されたサラウンドサウンドビットストリーム及び第1のサイド情報を用いてサウンド成分を予測するステップ105と、再構成されたサウンド成分を得るよう、予測されたサウンド成分を、復号された残差信号とを重ね合わせるステップ106(すなわち、原理上は、基本信号、すなわち、予測されたサウンド成分と、復号された残差信号を重ね合わせる又は足し合わせることによって、サウンド成分を再構成するステップ)と、再構成されたサウンド成分及び第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップ107であって、再構成されたHOAコンテンツが得られるステップ107とを有する。再構成されたHOAコンテンツは、エンハンスド・オーディオ信号を得るのに適しており、一方、サラウンド信号82qは、基本オーディオ信号である。原理上は、復号化は、
図3の符号器又は
図7の符号器のいずれかによって生成された如何なる階層ビットストリームにも適する。
【0063】
図3、
図7及び
図8に示されている構造ブロック並びに上記の方法のステップは、ハードウェアユニットとして、ソフトウェアユニットとして、又はその複合体として実装されてよい。更に、図示されている構造ブロックのうちの2つ以上は、複数の機能を実行する単一の構造ブロックにまとめられてよい。
【0064】
埋込サラウンドビットストリームを有するHOAコンテンツの階層圧縮の使用ケースが実施されており、適切な信号処理概念が更なる最適化に期待する。
【0065】
旧来のサラウンド・コーデックとともにHOA圧縮を使用することにおける特定の利点は、その効率的な、後方互換可能な圧縮にある(固有のスケーラビリティ、フルサウンド場のコヒーレント表現、スキームが同様にサウンドオブジェクトを組み込むことができること)。おおよそ500kbit/sまでのデータレートの低減は、ある中間乃至高ビットレート用途及び特定の信号について期待され得る。
【0066】
本発明は、単に一例として記載されてきたことが理解され、詳細の変更は、本発明の適用範囲から逸脱することなしに行われ得る。明細書並びに(必要に応じて)特許請求の範囲及び図面において記載される夫々の特徴は、独立して、又は如何なる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。接続は、適用可能である場合に、無線接続又は有線(必ずしも直接的又は専用でない)接続として実装されてよい。特許請求の範囲において現れる参照符号は、単に例示にすぎず、特許請求の範囲の適用範囲を制限するものとして解釈されるべきではない。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
階層的なオーディオビットストリームを復号する方法であって、
前記階層的なオーディオビットストリームを受け取って復調するステップであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
前記セカンドレイヤHOAビットストリームを復号するステップであって、再構成されたHOA信号が、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップであって、再構成されたHOAコンテンツが得られるステップと
によって得られるステップと
を有する方法。
(付記2)
前記予測するステップは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記1に記載の方法。
(付記3)
前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記1又は2に記載の方法。
(付記4)
階層的なオーディオビットストリームを符号化する方法であって、
HOA入力信号を受け取るステップと、
前記HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
前記受け取られたHOA入力信号に対して次元削減を実行するステップであって、次元削減されたHOA信号が得られるステップと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
符号器制御ブロックにおいて前記HOA入力信号に関する構造情報を得るステップと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
を有する方法。
(付記5)
前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
付記4に記載の方法。
(付記6)
更なるサウンドオブジェクトが、前記HOA入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
付記4又は5に記載の方法。
(付記7)
階層的なオーディオビットストリームを復号する装置であって、
前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
前記セカンドレイヤHOAビットストリームを復号する階層HOA復号器と
を有し、
前記階層HOA復号器は、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測する予測ユニットと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するHOAコンテンツ再構成ユニットであって、再構成されたHOAコンテンツが得られる前記HOAコンテンツ再構成ユニットと
を有する、装置。
(付記8)
前記セカンドレイヤHOAビットストリームから第1のサイド情報、第2のサイド情報及び復号された残差信号を取り出す条件付きHOA復号器
を更に有する付記7に記載の装置。
(付記9)
前記予測ユニットは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記7又は8に記載の装置。
(付記10)
前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記7乃至9のうちいずれか一つに記載の装置。
(付記11)
階層的なオーディオビットストリームを符号化する装置であって、
HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
前記HOA入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたHOA信号が得られる前記次元削減ユニットと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
前記HOA入力信号に関する構造情報を得る符号器制御ブロックと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
を有する装置。
(付記12)
前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について、個別的に計算された知覚マスキング閾を使用する、
付記11に記載の装置。
(付記13)
1つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記HOA入力信号及び前記1つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
付記11又は12に記載の装置。
(付記14)
サラウンドサウンド符号器は、5.1サラウンドフォーマット、改良された5.1サラウンドサウンドフォーマット、ドルビーデジタル又は7.1サラウンドサウンドフォーマットを使用する、
付記7乃至13のうちいずれか一つに記載の装置。