(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024010207
(43)【公開日】2024-01-23
(54)【発明の名称】マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法
(51)【国際特許分類】
G10L 19/008 20130101AFI20240116BHJP
G10L 25/21 20130101ALI20240116BHJP
G10L 25/18 20130101ALI20240116BHJP
【FI】
G10L19/008 100
G10L25/21
G10L25/18
【審査請求】有
【請求項の数】47
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023191220
(22)【出願日】2023-11-09
(62)【分割の表示】P 2021500045の分割
【原出願日】2019-06-27
(31)【優先権主張番号】18181767.7
(32)【優先日】2018-07-04
(33)【優先権主張国・地域又は機関】EP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Blu-ray
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】フォトプルー・エレニ
(72)【発明者】
【氏名】ムルトルス・マルクス
(72)【発明者】
【氏名】ディック・ザシャ
(72)【発明者】
【氏名】マーコビッチ・ゴラン
(72)【発明者】
【氏名】マーベン・パラヴィ
(72)【発明者】
【氏名】コーゼ・ズリカンス
(72)【発明者】
【氏名】バイヤー・シュテファン
(72)【発明者】
【氏名】ディッシュ・ザシャ
(72)【発明者】
【氏名】ヘレ・ユルゲン
(57)【要約】 (修正有)
【課題】マルチシグナル符号化又は復号化のための改善されたより柔軟な概念を提供する。
【解決手段】少なくとも3つの前処理済みオーディオ信号を取得するためのマルチシグナルエンコーダは、各オーディオ信号を個別に前処理するために、前処理済みオーディオ信号を前処理前の信号に対して白色化する信号プリプロセッサ100と、少なくとも3つの共同で処理された信号又は少なくとも2つの共同で処理された信号及び未処理の信号を取得するために、少なくとも3つの前処理済みオーディオ信号の処理を実行する適応ジョイント信号プロセッサ200と、1つ以上の符号化信号を取得するために各信号を符号化する信号エンコーダ300と、1つ以上の符号化信号、前処理に関するサイド情報及び処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信又は格納する出力インターフェース400と、を含む。
【選択図】
図5a
【特許請求の範囲】
【請求項1】
少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダであって、
少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサ(100)であって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、信号プリプロセッサ(100)と、
少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および未処理の信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号の処理を実行するための適応ジョイント信号プロセッサ(200)と、
1つ以上の符号化信号を取得するために各信号を符号化するための信号エンコーダ(300)と、
前記1つ以上の符号化信号、前記前処理に関するサイド情報、および前記処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するための出力インターフェース(400)と
を含むマルチシグナルエンコーダ。
【請求項2】
前記適応ジョイント信号プロセッサ(200)は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、前記少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化(210)を実行するように構成されており、
前記出力インターフェース(400)は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値(534)を含むように構成されている、請求項1に記載のマルチシグナルエンコーダ。
【請求項3】
前記適応ジョイント信号プロセッサ(200)は、
前記前処理済みオーディオ信号の平均エネルギーに関する情報を計算し(212)、
各前処理済みオーディオ信号のエネルギーに関する情報を計算し(211)、
前記平均エネルギーに関する前記情報および特定の前処理済みオーディオ信号のエネルギーに関する前記情報に基づいて前記エネルギー正規化値を計算する(213、214)
ように構成されている、請求項2に記載のマルチシグナルエンコーダ。
【請求項4】
前記適応ジョイント信号プロセッサ(200)は、平均エネルギーからの特定の前処理済みオーディオ信号と前記前処理済みオーディオ信号のエネルギーとのスケーリング比(534b)を計算する(213、214)ように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記スケーリング比がアップスケーリングまたはダウンスケーリングのどちらのものかを示すフラグ(534a)を決定するように構成され、各信号の前記フラグは前記符号化信号に含まれる、
請求項1から3のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項5】
前記適応ジョイント信号プロセッサ(200)は、前記スケーリングがアップスケーリングかダウンスケーリングかに関係なく、前記スケーリング比を同じ量子化範囲に量子化する(214)ように構成されている、
請求項4に記載のマルチシグナルエンコーダ。
【請求項6】
前記適応ジョイント信号プロセッサ(200)は、
少なくとも3つの正規化された信号を取得するために、基準エネルギーに対して各前処理済みオーディオ信号を正規化し(210)、
前記少なくとも3つの正規化された信号のうちの可能な各ペアの正規化された信号の相互相関値を計算し(220)、
最も高い相互相関値を有する信号ペアを選択し(229)、
前記選択された信号ペアのジョイントステレオ処理モードを決定し(232a)、
処理済み信号ペアを取得するために前記決定されたジョイントステレオ処理モードにしたがって、前記選択された信号ペアをジョイントステレオ処理する(232b)
ように構成されている、請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項7】
前記適応ジョイント信号プロセッサ(200)はカスケード信号ペア前処理を適用するように構成されているか、または前記適応ジョイント信号プロセッサ(200)は非カスケード信号ペア処理を適用するように構成されており、
前記カスケード信号ペア前処理において、処理済み信号ペアの前記信号は、更新された相互相関値の計算、最も高い相互相関値を有する前記信号ペアを選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することからなる、さらなる反復ステップにおいて選択可能であるか、または
前記非カスケード信号ペア処理において、処理済み信号ペアの前記信号は、前記最も高い相互相関値を有する前記信号ペアをさらに選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することにおいて選択可能ではない、
請求項6に記載のマルチシグナルエンコーダ。
【請求項8】
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理手順の後に残る信号として、個別にエンコードされる前記信号を決定するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、復帰(237)などの前記ペアワイズ処理手順を実行する前に前記信号に適用されるエネルギー正規化を修正するように構成されているか、または前記ペアワイズ処理手順を実行する前に前記信号に適用されるエネルギー正規化を少なくとも部分的に復帰させる、
請求項1から7のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項9】
前記適応ジョイント信号プロセッサ(200)は、前記信号エンコーダ(300)によって処理される各信号について、ビット分布情報(536)を決定するように構成されており、前記出力インターフェース(400)は、各信号について、前記ビット分布情報(536)を前記符号化信号に導入するように構成されている、
請求項1から8のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項10】
前記適応ジョイント信号プロセッサ(200)は、前記信号エンコーダ(300)によって処理される各信号の信号エネルギー情報を計算し(282)、
前記信号エンコーダ(300)によって符号化される前記複数の信号の総エネルギーを計算し(284)、
前記信号エネルギー情報および前記総エネルギー情報に基づいて、各信号のビット分布情報(536)を計算する(286)ように構成されており、
前記出力インターフェース(400)は、各信号について、前記ビット分布情報を前記符号化信号に導入するように構成されている、
請求項1から9のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項11】
前記適応ジョイント信号プロセッサ(200)は、各信号に初期ビット数を任意選択的に割り当て(290)、前記ビット分布情報に基づいてビット数を割り当て(291)、任意選択的に、さらなる改良ステップを実行し(292)、または任意選択的に、最終寄付ステップを実行する(292)ように構成されており、
前記信号エンコーダ(300)は、信号ごとの前記割り当てられたビットを使用して、前記信号符号化を実行するように構成されている、
請求項10に記載のマルチシグナルエンコーダ。
【請求項12】
前記信号プリプロセッサ(100)は、各オーディオ信号について、
各オーディオ信号のスペクトルを取得するための時間スペクトル変換操作(108、110、112)と、
各信号スペクトルの時間ノイズシェーピング操作(114a、114b)および/または周波数領域ノイズシェーピング操作(116)と
を実行するように構成されており、
前記信号プリプロセッサ(100)は、前記時間ノイズシェーピング操作および/または前記周波数領域ノイズシェーピング操作に続いて、前記信号スペクトルを前記適応ジョイント信号プロセッサ(200)に供給するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記受信した信号スペクトルに対して前記ジョイント信号処理を実行するように構成されている、
請求項1から11のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項13】
前記適応ジョイント信号プロセッサ(200)は、
選択された信号ペアの各信号について、L/Rなどの全帯域分離符号化モードの必要なビットレート、M/Sなどの全帯域ジョイント符号化モードの必要なビットレート、またはM/Sなどの帯域ごとジョイント符号化モードのビットレートプラスM/Sマスクなどの帯域ごと信号送信の必要なビットを決定し、
帯域の大部分が特定のモードのために決定され、全ての帯域の10%未満である前記帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の前記特定のモードとして前記分離符号化モードまたは前記ジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定する
ように構成されており、
前記出力インターフェース(400)は、前記符号化信号に表示を含めるように構成されており、前記表示は、フレームの符号化モードマスクの代わりに前記フレームの全ての帯域の前記特定のモードを示す、
請求項1から12のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項15】
前記信号エンコーダ(300)は、個々の各信号の、または2つ以上の信号にわたる、レートループプロセッサを含み、前記レートループプロセッサは、前記特定の信号または2つ以上の信号のビット分布情報(536)を受信および使用するように構成されている、
請求項1から14のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項16】
前記適応ジョイント信号プロセッサ(200)は、ジョイント符号化のための信号ペアを適応的に選択するように構成されており、または前記適応ジョイント信号プロセッサ(200)は、各選択された信号ペアについて、帯域ごとミッド/サイド符号化モード、全帯域ミッド/サイド符号化モード、または全帯域左/右符号化モードを決定するように構成されており、前記出力インターフェース(400)は、サイド情報(532)として、前記符号化マルチシグナルオーディオ信号において前記選択された符号化モードを表示するように構成されている、
請求項1から15のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項17】
前記適応ジョイント信号プロセッサ(200)は、ミッド/サイドモードまたは左/右モードで符号化されたときの各帯域での推定ビットレートに基づいて、帯域ごとミッド/サイド決定対左/右決定を形成するように構成されており、最終的なジョイント符号化モードは、前記帯域ごとミッド/サイド決定対左/右決定の前記結果に基づいて決定される、
請求項1から16のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項18】
前記適応ジョイント信号プロセッサ(200)は、スペクトル帯域複製処理またはインテリジェントギャップ充填処理のパラメータサイド情報を決定するために、前記スペクトル帯域複製処理または前記インテリジェントギャップ充填処理を実行する(260)ように構成されており、前記出力インターフェース(400)は、追加サイド情報として、前記スペクトル帯域複製またはインテリジェントギャップ充填サイド情報(532)を前記符号化信号に含めるように構成されている、請求項1から17のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項19】
前記適応ジョイント信号プロセッサ(200)は、符号化信号ペアに対してステレオインテリジェントギャップ充填処理を実行し、個別に符号化される前記少なくとも1つの信号に対して単一信号インテリジェントギャップ充填処理を実行するように構成されている、
請求項18に記載のマルチシグナルエンコーダ。
【請求項20】
前記少なくとも3つのオーディオ信号は低周波強調信号を含み、前記適応ジョイント信号プロセッサ(200)は信号マスクを適用するように構成され、前記信号マスクはどの信号に対して前記適応ジョイント信号プロセッサ(200)がアクティブになるかを示しており、前記信号マスクは、前記少なくとも3つの前処理済みオーディオ信号の前記ペアワイズ処理で前記低周波強調信号が使用されるべきではないことを示す、
請求項1から19のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項21】
前記適応ジョイント信号プロセッサ(200)は、信号のエネルギーに関する前記情報として、前記信号のMDCTスペクトルのエネルギーを計算するように、または
前記少なくとも3つの前処理済みオーディオ信号の平均エネルギーに関する前記情報として、前記少なくとも3つの前処理済みオーディオ信号のMDCTスペクトルの平均エネルギーを計算するように構成されている、
請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項22】
前記適応ジョイント信号プロセッサ(200)は、特定の信号のエネルギー情報および前記少なくとも3つのオーディオ信号の平均エネルギーに関するエネルギー情報に基づいて、各信号のスケーリング因子を計算する(213)ように構成されており、
前記適応ジョイント信号プロセッサ(200)は、量子化スケーリング比値を取得するために前記スケーリング比を量子化する(214)ように構成されており、前記量子化スケーリング比値は、含まれる各信号の前記スケーリング比のサイド情報を前記符号化信号内に誘導するために使用され、
前記適応ジョイント信号プロセッサ(200)は、前記量子化スケーリング比値から量子化スケーリング比を導出するように構成されており、前記前処理済みオーディオ信号は、他の相応にスケーリングされた信号と共に前記スケーリングされた信号の前記ペアワイズ処理に使用される前に、前記量子化スケーリング比を使用してスケーリングされる、
請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項23】
前記適応ジョイント信号プロセッサ(200)は、どの信号ペアが最も高い類似性を有するか、したがって、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理のペアとして選択されるのに適しているかを判定および選択するために、可能な信号ペアの正規化された信号間相互相関値を計算する(221)ように構成されており、
各信号ペアの前記正規化相互相関値は相互相関ベクトルに格納され、
前記適応ジョイント信号プロセッサ(200)は、前のフレームの相互相関ベクトルを現在のフレームの前記相互相関ベクトルと比較すること(222、223)によって、1つ以上の前記前のフレームの信号ペア選択が維持されるべきか否かを決定するように構成されており、前記前のフレームの前記信号ペア選択は、前記現在のフレームの前記相互相関ベクトルと前記前のフレームの前記相互相関ベクトルとの差が所定の閾値を下回るときに維持される(225)、
請求項1から22のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項24】
前記信号プリプロセッサ(100)は、複数の異なるウィンドウ長から選択された特定のウィンドウ長を使用して時間周波数変換を実行するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理される信号のペアを決定するために前記前処理済みオーディオ信号を比較するときに、前記信号のペアが同じ関連するウィンドウ長を有するか否かを決定するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、2つの信号が、前記信号プリプロセッサ(100)によって適用された同じウィンドウ長に関連付けられているときにのみ、前記2つの信号のペアワイズ処理を可能にするように構成されている、
請求項1から23のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項25】
前記適応ジョイント信号プロセッサ(200)は、前記処理済み信号ペアの前記信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されており、前記適応ジョイント信号プロセッサ(200)は、前記ペアワイズ処理のための前記信号ペア間の相互相関に基づいて前記信号ペアを選択するように構成されており、いくつかの選択された信号ペアの前記ペアワイズ処理は並行して実行される、
請求項1から24のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項26】
前記適応ジョイント信号プロセッサ(200)は、選択された信号ペアについて、ステレオ符号化モードを決定するように構成されており、前記ステレオ符号化モードがデュアルモノモードであると決定されたとき、この信号ペアに含まれる前記信号は、個別に符号化される信号として少なくとも部分的に再スケーリングおよび表示される、
請求項25に記載のマルチシグナルエンコーダ。
【請求項27】
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理済み信号ペアについて、前記コア領域のステレオモードが前記IGF領域のステレオモードとは異なる場合、または前記コアの前記ステレオモードが帯域ごとミッド/サイド符号化フラグが立てられている場合、ステレオインテリジェントギャップ充填(IGF)操作を実行するように構成されており、または
前記適応ジョイント信号プロセッサ(200)は、前記コア領域の前記ステレオモードが前記IGF領域の前記ステレオモードと異ならない場合、または前記コアの前記ステレオモードが帯域ごとミッド/サイド符号化モードとしてフラグが立てられていない場合、ペアワイズ処理済み信号ペアの信号には単一信号IGF分析を適用するように構成されている、
請求項18または19に記載のマルチシグナルエンコーダ。
【請求項28】
前記適応ジョイント信号プロセッサ(200)は、前記IGF操作の結果が前記信号エンコーダ(300)によって個別に符号化される前に、インテリジェントギャップ充填操作を実行するように構成されており、
量子化およびインテリジェントギャップ充填(IGF)の調性/ノイズ決定にパワースペクトルが使用され、前記信号プリプロセッサ(100)は、MDCTスペクトルに使用されたのと同じ周波数領域ノイズシェーピングを前記MDSTスペクトルに実行されるように構成されており、
前記適応ジョイント信号プロセッサ(200)は、処理済みMDSTスペクトルの結果が前記信号エンコーダ(300)によって実行された量子化の中で、または前記適応ジョイント信号プロセッサ(200)によって実行されたインテリジェントギャップ充填処理の中で使用されるように、前処理済みMDSTスペクトルに対して同じミッド/サイド処理を実行するように構成されており、または
前記適応ジョイント信号プロセッサ(200)は、MDSTスペクトルの全帯域スケーリングベクトルに基づいて、同じ量子化されたスケーリングベクトルを使用して前記MDCTスペクトルに対して行われたのと同じ正規化スケーリングを適用するように構成されている、
請求項1から27のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項29】
前記適応ジョイント信号プロセッサ(200)は、前記少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理を実行するように構成されている、請求項1から28のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項30】
前記少なくとも3つのオーディオ信号の前記オーディオ信号は、オーディオチャンネルであるか、または
前記少なくとも3つのオーディオ信号の前記オーディオ信号は、アンビソニックス音場表現、Bフォーマット表現、Aフォーマット表現、または基準位置に対する音場を表現する音場表現などのその他任意の音場表現などの音場表現のオーディオ成分信号である、
請求項1から29のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項31】
前記信号エンコーダ(300)は、少なくとも3つの個別に符号化された信号を取得するために各信号を個別に符号化するように、または2つ以上の信号と共に(エントロピー)符号化を実行するように構成されている、
請求項1から30のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項32】
符号化信号を復号化するためのマルチシグナルデコーダであって、
少なくとも3つの符号化信号を復号化するための信号デコーダ(700)と、
少なくとも3つの処理済み復号化信号を取得するために前記符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するためのジョイント信号プロセッサ(800)と、
前記符号化信号に含まれるサイド情報にしたがって前記少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ(900)であって、前記後処理は、前記後処理済み信号が前記後処理前の信号よりも白くなくなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ポストプロセッサ(900)と
を含む、マルチシグナルデコーダ。
【請求項33】
前記ジョイント信号プロセッサ(800)は、
前記符号化信号から、各ジョイントステレオ復号化信号のエネルギー正規化値を抽出する(610)ように構成されており、
ジョイントステレオ復号化信号を取得するために、前記符号化信号内のサイド情報によって示されるジョイントステレオモードを使用して、前記復号化信号をペアワイズ処理する(820)ように構成されており、
前記処理済み復号化信号を取得するために、前記エネルギー正規化値を使用して、前記ジョイントステレオ復号化信号をエネルギー再スケーリングする(830)ように構成されている、
請求項32に記載のマルチシグナルデコーダ。
【請求項34】
前記ジョイント信号プロセッサ(800)は、特定の信号の前記符号化信号から抽出されたエネルギー正規化値が所定の値を有するか否かをチェックするように構成されており、
前記ジョイント信号プロセッサ(800)は、前記エネルギー正規化値が前記所定の値を有するとき、前記特定の信号に対してエネルギー再スケーリングを実行しないように、または低減されたエネルギー再スケーリングのみを実行するように構成されている、
請求項32に記載のマルチシグナルデコーダ。
【請求項35】
前記信号デコーダ(700)は、
前記符号化信号から、各符号化信号のビット分布値を抽出し(620)、
信号のビット分布値、全ての信号の残りのビッの数、および、任意選択的に、さらなる改良ステップ、または、任意選択的に、最終寄付ステップを使用して、前記信号の使用されるビット分布を決定し(720)、
各信号の前記使用されるビット分布に基づいて、前記個々の復号化を実行する(710、730)
ように構成されている、請求項32から34のいずれか一項に記載のマルチシグナルデコーダ。
【請求項36】
前記ジョイント信号プロセッサ(800)は、
スペクトルが強調された個々の信号を取得するために、前記符号化信号のサイド情報を使用して、前記個別に復号化された信号に対して帯域複製または帯域複製を実行し(820)、
前記スペクトルが強調された個々の信号を使用して、ジョイント処理モードにしたがってジョイント処理(820)を実行する
ように構成されている、請求項32から35のいずれか一項に記載のマルチシグナルデコーダ。
【請求項37】
前記ジョイント信号プロセッサ(800)は、目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から前記別のステレオ表現に変換するように構成されている、
請求項36に記載のマルチシグナルデコーダ。
【請求項38】
前記ジョイント信号プロセッサ(800)は、
前記符号化信号から、各ジョイントステレオ復号化信号のエネルギー正規化値(534b)を抽出し、加えて、前記エネルギー正規化値がアップスケーリング値またはダウンスケーリング値のどちらであるかを示すフラグ(534a)を抽出し、
前記フラグが第1の値を有するときはダウンスケーリングとして、前記フラグが前記第1の値とは異なる第2の値を有するときはアップスケーリングとして、前記エネルギー正規化値を使用して再スケーリングを実行する(830)
ように構成されている、請求項32から37のいずれか一項に記載のマルチシグナルデコーダ。
【請求項39】
前記ジョイント信号プロセッサ(800)は、
前記符号化信号から、共同符号化操作から得られる信号ペアを示すサイド情報を抽出し(630)、
各信号の元の前処理済みスペクトルに戻すために、前記符号化信号を取得するために最後の信号ペアから始めて逆ステレオまたはマルチチャンネル処理を実行し(820)、前記符号化信号のサイド情報(532)に示される前記ステレオモードおよび/または帯域ごとミッド/サイド決定に基づいて前記逆ステレオ処理を実行する
ように構成されている、請求項32から38のいずれか一項に記載のマルチシグナルデコーダ。
【請求項40】
前記ジョイント信号プロセッサ(800)は、個々の各信号について含まれる量子化されたエネルギースケーリング情報に基づいて、信号ペアに含まれる全ての信号を対応する元のエネルギーレベルに非正規化する(830)ように構成されており、信号ペア処理に関与しなかった他の信号は、信号ペア処理に関与していた前記信号のようには非正規化されない、
請求項32から39のいずれか一項に記載のマルチシグナルデコーダ。
【請求項41】
前記 ポストプロセッサ(900)は、各個別の処理済み復号化信号について、処理済み復号化信号、時間ノイズシェーピング操作(910)、または周波数領域ノイズシェーピング操作(910)、およびスペクトル領域から時間領域への変換(920)、ならびに後処理済み信号の後続の時間フレーム間の後続の重畳加算操作(930)を実行するように構成されている、
請求項32から40のいずれか一項に記載のマルチシグナルデコーダ。
【請求項42】
前記ジョイント信号プロセッサ(800)は、前記符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド/サイドまたは左/右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されており、前記ジョイント信号プロセッサ(800)は、前記フラグの前記値に応じて、前記信号ペアの前記対応する帯域にまとめてミッド/サイド処理または左/右処理のどちらかを受けさせるためにこのフラグを使用するように構成されており、
同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、前記符号化信号の前記サイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出され、前記ジョイント信号プロセッサ(800)は、この帯域に関連するビットについて示される前記対応する帯域について、逆ミッド/サイド処理またはミッド/サイド処理のどちらを適用すべきかを決定するように構成されている、
請求項32から41のいずれか一項に記載のマルチシグナルデコーダ。
【請求項43】
前記符号化信号は符号化マルチチャンネル信号であり、前記マルチシグナルデコーダはマルチチャンネルデコーダであり、前記符号化信号は符号化マルチチャンネル信号であり、前記信号デコーダ(700)はチャンネルデコーダであり、前記符号化信号は符号化チャンネルであり、前記ジョイント信号処理はジョイントチャンネル処理であり、前記少なくとも3つの処理済み復号化信号は少なくとも3つの処理済み復号化信号であり、前記後処理済み信号はチャンネルであり、または
前記符号化信号は、アンビソニックス音場表現、Bフォーマット表現、Aフォーマット表現、または基準位置に対する音場を表現する音場表現などのその他任意の音場表現などの音場表現のオーディオ成分信号を表す符号化多成分信号であり、前記マルチシグナルデコーダは多成分デコーダであり、前記符号化信号は符号化多成分信号であり、前記信号デコーダ(700)は成分デコーダであり、前記符号化信号は符号化成分であり、前記ジョイント信号処理はジョイント成分処理であり、前記少なくとも3つの処理済み復号化信号は少なくとも3つの処理済み復号化成分であり、前記後処理済み信号は成分オーディオ信号である、
請求項32から42のいずれか一項に記載のマルチシグナルデコーダ。
【請求項44】
少なくとも3つのオーディオ信号のマルチシグナル符号化を実行する方法であって、
少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するステップであって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、ステップと、
少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号の処理を実行するステップと、
1つ以上の符号化信号を取得するために各信号を符号化するステップと、
前記1つ以上の符号化信号、前記前処理に関するサイド情報、および前記処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するステップと
を含む方法。
【請求項45】
符号化信号をマルチシグナル復号化する方法であって、
少なくとも3つの符号化信号を個別に復号化するステップと、
少なくとも3つの処理済み復号化信号を取得するために前記符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するステップと、
前記符号化信号に含まれるサイド情報にしたがって前記少なくとも3つの処理済み復号化信号を後処理するステップであって、前記後処理は、前記後処理済み信号が前記後処理前の信号よりも白くなくなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ステップと
を含む方法。
【請求項46】
コンピュータまたはプロセッサ上で実行されたときに、請求項44の方法または請求項45の方法を実行するための、コンピュータプログラム。
【請求項47】
符号化信号であって、
少なくとも3つの個別に符号化された信号(510)と、
前記少なくとも3つの個別に符号化された信号を取得するために実行される前処理に関するサイド情報(520)と、
前記少なくとも3つの個別に符号化された信号を取得するために実行されるペアワイズ処理に関するサイド情報(532)と、を含み、
前記符号化信号は、マルチシグナル符号化によって得られた前記少なくとも3つの個別に符号化された信号の各々について、エネルギースケーリング値(534)、または前記個別に符号化された信号の各々について、ビット分布値(536)を含む、符号化信号。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、信号適応ジョイントチャンネル処理を有するMDCTベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのW、X、Y、Zまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。
【背景技術】
【0002】
・MPEG USAC[1]では、2つのチャンネルのジョイントステレオ符号化は、帯域制限または全帯域残差信号を用いる複雑予測(Complex Prediction)、MPS2-1-2、またはUnified Stereoを使用して実行される。
【0003】
・MPEGサラウンド[2]は、残差信号の送信の有無にかかわらず、マルチチャンネルオーディオのジョイント符号化のためにOTTおよびTTTボックスを階層的に組み合わせる。
【0004】
・MPEG-H Quad Channel Elements[3]は、「固定」4x4リミックスツリーを構築する複雑予測/MSステレオボックスに続くMPS2-1-2ステレオボックを階層的に適用する。
【0005】
・AC4[4]は、送信されたミックスマトリックスおよび後続のジョイントステレオ符号化情報を介して送信されたチャンネルの再混合を可能にする、新しい3チャンネル、4チャンネル、および5チャンネル要素を導入する。
【0006】
・以前の刊行物は、拡張マルチチャンネルオーディオ符号化(Enhanced Multichannel Audio Coding)[5]のためにカルーネン-ルーベ変換(Karhunen-Loeve Transform)(KLT)のような直交変換を使用することを提案している。
【0007】
・3つ以上のチャンネルのジョイント符号化をサポートする、マルチチャンネル符号化ツール(Multichannel Coding Tool)(MCT)[6]は、MDCT領域での柔軟な信号適応型のジョイントチャンネル符号化を可能にする。これは、2つの指定されたチャンネルの実数値の複雑なステレオ予測ならびに回転ステレオ符号化(KLT)などのステレオ符号化技術の反復的な組み合わせおよび連結によって達成される。
【0008】
3Dオーディオの文脈では、ラウドスピーカチャンネルがいくつかの高さのレイヤに分布しており、結果として水平および垂直のチャンネルペアを生じる。USACで定義された2つのみのチャンネルのジョイント符号化は、チャンネル間の空間的関係および知覚的関係を考慮するのに十分ではない。MPEGサラウンドは、追加の前処理/後処理ステップで適用され、残差信号は、たとえば左右の垂直残差信号の間の依存性を利用するジョイントステレオ符号の可能性を伴わずに、個別に送信される。AC-4では、ジョイント符号化パラメータの十分な符号化を可能にする専用のNチャンネル要素が導入されるが、新しい没入型再生シナリオ(7.1+4、22.2)で提案されるようにより多くのチャンネルを有する一般的なスピーカ設定では失敗する。MPEG-Hもまた、4つのチャンネルのみに制限されており、任意のチャンネルに動的に適用することはできず、予め構成された固定数のチャンネルにしか適用できない。MCTは、任意のチャンネルの信号適応型ジョイントチャンネル符号化の柔軟性を導入するが、ステレオ処理は、ウィンドウ化および変換された非正規化(非白色化)信号に対して行われる。さらに、各ステレオボックスの各帯域での予測計数または角度の符号化は、大量のビットを必要とする。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、マルチシグナル符号化または復号化のための改善されたより柔軟な概念を提供することである。
【課題を解決するための手段】
【0010】
この目的は、請求項1のマルチシグナルエンコーダ、請求項32のマルチシグナルデコーダ、請求項44のマルチシグナル符号化を実行する方法、請求項45のマルチシグナル復号化を実行する方法、請求項46のコンピュータプログラム、または請求項47の符号化信号によって達成される。
【0011】
本発明は、マルチシグナル符号化効率が、元の信号ではなく前処理済みオーディオ信号に対して適応ジョイント信号処理を実行することによって実質的に改善されるという発見に基づいており、この前処理は、前処理済みオーディオ信号が、前処理前の信号に対して白色化されるように実行される。デコーダ側に関しては、これは、少なくとも3つの処理済み復号化信号を取得するために、ジョイント信号処理に続いて後処理が実行されることを意味する。これらの少なくとも3つの処理済み復号化信号は、符号化信号に含まれるサイド情報にしたがって後処理され、後処理は、後処理済み信号が後処理前の信号よりも白くなくなるように実行される。後処理済み信号は最終的に、直接、またはさらなる信号処理操作に続いて、復号化オーディオ信号、すなわち復号化マルチシグナルを表す。
【0012】
特に没入型3Dオーディオフォーマットでは、全体的な知覚的オーディオ品質を維持しながら送信データの量を削減するために、複数の信号の特性を利用する効率的なマルチチャンネル符号化が得られる。好適な実装形態では、マルチチャンネルシステム内の信号適応型ジョイント符号化は、知覚的に白色化され、加えてチャンネル間レベル差(ILD)が補正されたスペクトルを使用して実行される。ジョイント符号化は、好ましくは、エントロピーコーダの推定ビット数に基づいて駆動される単純な帯域ごとのM/S変換決定を使用して実行される。
【0013】
少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダは、少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサを含み、前処理は、前処理済みオーディオ信号が前処理前の信号に対して白色化されるように実行される。少なくとも3つの前処理済みオーディオ信号の適応ジョイント信号処理は、少なくとも3つの共同で処理された信号を取得するために実行される。この処理は、白色化信号に対して作用する。前処理は、スペクトルエンベロープなどの特定の信号特性の抽出をもたらすか、または抽出されない場合には、ジョイントステレオまたはジョイントマルチチャンネル処理などのジョイント信号処理の効率を低下させるだろう。加えて、ジョイント信号処理効率を向上させるために、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化が実行される。この広帯域エネルギー正規化は、この広帯域エネルギー正規化が、逆ジョイントステレオまたはジョイントマルチチャンネル信号処理に続いてデコーダ側で反転され得るように、サイド情報として符号化オーディオ信号に信号送信される。この好適な追加の広帯域エネルギー正規化手順により、左/右処理(デュアルモノ処理)とは対照的にミッド/サイド処理を受けることができる帯域の数またはフルフレームの数さえも実質的に改善されるように、適応ジョイント信号処理効率が改善される。ステレオ符号化プロセス全体の効率は、ミッド/サイド処理などの一般的なステレオまたはマルチチャンネル処理を受ける帯域の数またはフルフレームの数さえも多くなるほど、ますます向上する。
【0014】
最も低い効率は、ステレオ処理の観点から、帯域またはフレームに対して、この帯域またはフレームが「デュアルモノ」または左/右処理で処理されるべきであると適応ジョイント信号プロセッサが適応的に決定する必要があるときに得られる。ここでは、左チャンネルおよび右チャンネルはそのまま処理されるが、当然ながら白色化およびエネルギー正規化された領域内である。しかしながら、適応ジョイント信号プロセッサが、特定の帯域またはフレームについて、ミッド/サイド処理が実行されると決定するとき、第1および第2のチャンネルを加算することによってミッド信号が計算され、チャンネルペアの第1および第2のチャンネルとの差を計算することによってサイド信号が計算される。典型的には、ミッド信号は、その値の範囲に関して、第1および第2のチャンネルの一方に匹敵するが、サイド信号は典型的に、高効率で符号化され得る低エネルギーの信号となるか、または最も好適な状況では、サイド信号は、ゼロであるか、またはサイド信号のスペクトル領域がゼロに量子化され、したがって、非常に効率的にエントロピー符号化され得るほど、ゼロに近い。このエントロピー符号化は、1つ以上の符号化信号を取得するために各信号に対して信号エンコーダによって実行され、マルチシグナルエンコーダの出力インターフェースは、1つ以上の符号化信号、前処理に関するサイド情報、および適応ジョイント信号処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納する。
【0015】
デコーダ側では、典型的にエントロピーデコーダを含む信号デコーダが、好適に含まれているビット分布情報に典型的に依存する少なくとも3つの符号化信号を復号化する。このビット分布情報は、サイド情報として符号化マルチシグナルオーディオ信号に含まれ、たとえば、信号(エントロピー)エンコーダへの入力における信号のエネルギーを調べることによって、エンコーダ側で導出され得る。マルチシグナルデコーダ内の信号デコーダの出力は、少なくとも3つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するために、ジョイント信号プロセッサに入力される。このジョイント信号プロセッサは、好ましくはエンコーダ側で実行されたジョイント信号処理を元に戻し、典型的には、逆ステレオまたは逆マルチチャンネル処理を実行する。好適な実装形態では、ジョイント信号プロセッサは、ミッド/サイド信号から左/右信号を計算するための処理操作を適用する。しかしながら、ジョイント信号プロセッサが特定のチャンネルペアについて、デュアルモノ処理が既に存在するとサイド情報から判断したとき、この状況は記録され、さらなる処理のためにデコーダで使用される。
【0016】
デコーダ側のジョイント信号プロセッサは、エンコーダ側の適応ジョイント信号プロセッサのように、カスケードチャンネルペアツリーまたは簡略化されたツリーのモードで動作するプロセッサであってもよい。簡略化されたツリーは、ある種のカスケード処理も表すが、簡略化されたツリーは、処理されたペアの出力がこれから処理される別のペアへの入力になり得ないという点で、カスケードチャンネルペアツリーとは異なる。
【0017】
ジョイント信号処理を開始するためにマルチシグナルデコーダ側のジョイント信号プロセッサによって使用される最初のチャンネルペアに関して、エンコーダ側で処理された最後のチャンネルペアであったこの最初のチャンネルペアは、特定の帯域で、デュアルモノを示すサイド情報を有する場合もあるが、これらのデュアルモノ信号は、ミッド信号またはサイド信号としてチャンネルペア処理において後に使用され得る。これは、デコーダ側で復号化される少なくとも3つの個別に符号化されたチャンネルを取得するために実行されるペアワイズ処理に関する対応するサイド情報によって、信号送信される。
【0018】
実施形態は、信号適応ジョイントチャンネル処理を有するMDCTベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのW、X、Y、Zまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。
【0019】
続いて、好適な実施形態のさらなる利点が示される。コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
a)さらなる符号化のための知覚的に白色化された信号の使用(音声コーダで使用される方法と同様)。これは、いくつかの利点を有する。
【0020】
・コーデックアーキテクチャの簡略化
・ノイズシェーピング特性/マスキング閾値のコンパクトな表現(たとえばLPC係数として)
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ/音声符号化の組み合わせを可能にする
b)パンされたソースを効率的に符号化するための、任意のチャンネルのILDパラメータの使用
c)エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。
【0021】
コーデックはさらに、[9]に記載されるようなスペクトルエンベロープワーピングと組み合わせて[8]に記載されるようなレートループで信号を知覚的に白色化するために、周波数領域ノイズシェーピング(FDNS)を使用する。コーデックは、ILDパラメータを使用して、FDNSで白色化されたスペクトルを平均エネルギーレベルに向けてさらに正規化した。ジョイント符号化のためのチャンネルペアは、[6]に記載されるように適応的に選択され、ステレオ符号化は、帯域ごとのM/S対L/Rの決定からなる。帯域ごとのM/Sの決定は、[7]に記載されるようにL/RおよびM/Sモードで符号化されたときの各帯域の推定ビットレートに基づいている。帯域ごとのM/S処理済みチャンネル間のビットレート分布は、エネルギーに基づいている。
【0022】
本発明の好適な実施形態は、以下の添付図面を参照して、引き続き説明される。
【図面の簡単な説明】
【0023】
【
図1】好適な実装形態におけるシングルチャンネル前処理のブロック図を示す。
【
図2】マルチシグナルエンコーダのブロック図の好適な実装形態を示す。
【
図3】
図2の相互相関ベクトルおよびチャンネルペア選択手順の好適な実装形態を示す。
【
図4】好適な実装形態におけるチャンネルペアのインデックス付けスキームを示す。
【
図5a】本発明によるマルチシグナルエンコーダの好適な実装形態を示す。
【
図5b】符号化されたマルチチャンネルオーディオ信号フレームの概略図を示す。
【
図6】
図5aの適応ジョイント信号プロセッサによって実行される手順を示す。
【
図7】
図8の適応ジョイント信号プロセッサによって実行される好適な実装形態を示す。
【
図8】
図5の適応ジョイント信号プロセッサによって実行される別の好適な実装形態を示す。
【
図9】
図5の量子化符号化プロセッサによって使用されるビット割り当てを実行するための別の手順を示す。
【
図10】マルチシグナルデコーダの好適な実装形態のブロック図を示す。
【
図11】
図10のジョイント信号プロセッサによって実行される好適な実装形態を示す。
【
図13】帯域幅拡張またはインテリジェントギャップ充填(IGF)の文脈におけるジョイント信号プロセッサの別の好適な実装形態を示す。
【
図14】
図10のジョイント信号プロセッサのさらなる好適な実装形態を示す。
【
図15a】
図10の信号デコーダおよびジョイント信号プロセッサによって実行される好適な処理ブロックを示す。
【
図15b】脱白色化操作および任意選択的な他の手順を実行するためのポストプロセッサの実装形態を示す。
【発明を実施するための形態】
【0024】
図5は、少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダの好適な実装形態を示す。少なくとも3つのオーディオ信号は、少なくとも3つの前処理済みオーディオ信号180を取得するために各オーディオ信号を個別に前処理するための信号プロセッサ100に入力され、前処理は、前処理済みオーディオ信号が前処理前の対応する信号に対して白色化されるように実行される。少なくとも3つの前処理済みオーディオ信号180は、少なくとも3つの共同で処理された信号、および一実施形態では、後に説明されるように、少なくとも2つの共同で処理された信号および未処理の信号を取得するために、少なくとも3つの前処理済みオーディオ信号の処理を実行するように構成された適応ジョイント信号プロセッサ200に入力される。マルチシグナルエンコーダは、適応ジョイント信号プロセッサ200の出力に接続され、1つ以上の符号化信号を取得するために適応ジョイント信号プロセッサ200によって出力される各信号を符号化するように構成された、信号エンコーダ300を含む。信号エンコーダ300の出力におけるこれらの符号化信号は、出力インターフェース400に転送される。出力インターフェース400は、符号化マルチシグナルオーディオ信号500を送信または格納するように構成されており、出力インターフェース400の出力における符号化マルチシグナルオーディオ信号500は、信号エンコーダ300によって生成されたとおりの1つ以上の符号化信号、信号プリプロセッサ200によって実行される前処理に関するサイド情報520、すなわち白色化情報を含み、加えて、符号化マルチシグナルオーディオ信号は、適応ジョイント信号プロセッサ200によって実行される処理に関するサイド情報530、すなわち適応ジョイント信号処理に関するサイド情報を追加で含む。
【0025】
好適な実装形態では、信号エンコーダ300は、適応ジョイント信号プロセッサ200によって生成され、ブロック200からブロック300に転送されるだけでなく、サイド情報530内で出力インターフェース400に、したがって符号化マルチシグナルオーディオ信号内にも転送される、ビット分布情報536によって制御されるレートループプロセッサを含む。符号化マルチシグナルオーディオ信号500は、典型的には、フレームごとの方法で生成され、フレーミング、および典型的には、対応するウィンドウ処理および時間周波数変換が、信号プリプロセッサ100内で実行される。
【0026】
符号化マルチシグナルオーディオ信号500のフレームの例示的な図が、
図5bに示されている。
図5bは、ブロック300によって生成されたとおりの個別に符号化された信号のビットストリーム部分510を示している。ブロック520は、ブロック100によって生成されて出力インターフェース400に転送された前処理サイド情報のためのものである。加えて、ジョイント処理サイド情報530が、
図5aの適応ジョイント信号プロセッサ200によって生成され、
図5bに示される符号化マルチシグナルオーディオ信号フレームに導入される。
図5bの右側では、符号化マルチシグナルオーディオ信号の次のフレームがシリアルビットストリームに書き込まれ、
図5bの左側では、符号化マルチシグナルオーディオ信号の前のフレームが書き込まれることになる。
【0027】
後に示されるように、前処理は、時間ノイズシェーピング処理および/または周波数領域ノイズシェーピング処理またはLTP(長期予測)処理またはウィンドウ化処理操作を含む。対応する前処理サイド情報550は、時間ノイズシェーピング(TNS)情報、周波数領域ノイズシェーピング(FDNS)情報、長期予測(LTP)情報、もしくはウィンドウ化またはウィンドウ情報のうちの少なくとも1つを含み得る。
【0028】
時間ノイズシェーピングは、周波数に対するスペクトルフレームの予測を含む。より高い周波数を有するスペクトル値は、より低い周波数を有するスペクトル値の重み付き組み合わせを使用して予測される。TNSサイド情報は、周波数に対する予測によって導出されるLPC係数としても知られる、重み付き組み合わせの重みを含む。白色化されたスペクトル値は、元のスペクトル値と予測スペクトル値との間の、スペクトル値ごとの予測残差値、すなわち差である。デコーダ側では、エンコーダ側のTNS処理を元に戻すために、LPC合成フィルタリングの逆予測が実行される。
【0029】
FDNS処理は、対応するスペクトル値の重み係数を使用してフレームのスペクトル値に重み付けすることを含み、重み付け値は、ウィンドウ化された時間領域信号のブロック/フレームから計算されたLPC係数から導出される。FDNSサイド情報は、時間領域信号から導出されたLPC係数の表現を含む。
【0030】
やはり本発明に有用な別の白色化手順は、等化されたスペクトルが等化されていないバージョンよりも白いバージョンを表すように、スケール因子を使用するスペクトル等化である。サイド情報は、重み付けに使用されるスケール因子であり、逆の手順は、送信されたスケール因子を使用してデコーダ側の等化を元に戻すことを含む。
【0031】
別の白色化手順は、音声符号化の分野で知られているように、時間領域フレームから導出されたLPC係数によって制御される逆フィルタを使用して、スペクトルの逆フィルタリングを実行することを含む。サイド情報は逆フィルタ情報であり、この逆フィルタリングは、送信されたサイド情報を使用して、デコーダ内で元に戻される。
【0032】
別の白色化手順は、時間領域でLPC分析を実行することと、後にスペクトル帯域に変換される時間領域残差値を計算することとを含む。典型的には、こうして得られたスペクトル値は、FDNSによって得られたスペクトル値と類似している。デコーダ側では、後処理は、送信されたLPC係数表現を使用してLPC合成を実行することを含む。
【0033】
ジョイント処理サイド情報530は、好適な実装形態では、ペアワイズ処理サイド情報532、エネルギースケーリング情報534、およびビット分布情報536を含む。ペアワイズ処理サイド情報は、チャンネルペアサイド情報ビット、フルミッド/サイドまたはデュアルモノまたは帯域ごとミッド/サイド情報および、帯域ごとミッド/サイド表示の場合、フレーム内の帯域がミッド/サイドまたはL/R処理のどちらで処理されるかを帯域ごとに示す、ミッド/サイドマスクのうちの少なくとも1つを含み得る。ペアワイズ処理サイド情報は、インテリジェントギャップ充填(IGF)、またはSBR(スペクトル帯域複製)情報などのような他の帯域幅拡張情報を追加で含み得る。
【0034】
エネルギースケーリング情報534は、白色化された、すなわち前処理済み信号180ごとに、エネルギースケーリング値と、エネルギースケーリングがアップスケーリングかダウンスケーリングかを示すフラグとを含み得る。たとえば、8つのチャンネルの場合、ブロック534は、8つの量子化されたILD値などの8つのスケーリング値と、8つのチャンネルの各々について、アップスケーリングまたはダウンスケーリングがエンコーダ内で行われたかデコーダ内で行われたかを示す8つのフラグとを含む。フレーム内の特定の前処理されたチャンネルの実際のエネルギーが全チャンネルの中でフレームの平均エネルギーを下回るときに、エンコーダのアップスケーリングが必要であり、フレーム内の特定のチャンネルの実際のエネルギーがフレーム内の全チャンネルにわたって平均エネルギーを上回るときに、ダウンスケーリングが必要である。ジョイント処理サイド情報は、共同で処理された信号の各々について、または共同で処理された各信号、利用可能であれば未処理の信号について、ビット分布情報を含んでもよく、このビット分布情報は、
図5aに示されるように信号エンコーダ300によって使用され、相応に、入力インターフェースを介して符号化信号からこのビットストリーム情報を受信する、
図10に示される使用された信号デコーダによって使用される。
【0035】
図6は、適応ジョイント信号プロセッサの好適な実装形態を示す。適応ジョイント信号プロセッサ200は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化を実行するように構成されている。出力インターフェース400は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値を含むように構成されており、この値は、
図5bのエネルギースケーリング情報534に対応する。
図6は、広帯域エネルギー正規化の好適な実装形態を示す。ステップ211で、各チャンネルの広帯域エネルギーが計算される。ブロック211への入力は、前処理された(白色化された)チャンネルによって構成される。その結果、C
total個のチャンネルの各チャンネルの広帯域エネルギー値が得られる。ブロック212では、典型的には個々の値を合計し、個々の値をチャンネル数で割ることによって、平均広帯域エネルギーが計算される。しかしながら、幾何平均などのようなその他の平均計算手順が実行されることも可能である。
【0036】
ステップ213で、各チャンネルが正規化される。この目的のために、スケーリング因子または値およびアップスケーリングまたはダウンスケーリング情報が決定される。したがって、ブロック213は、534aで示される各チャンネルのスケーリングフラグを出力するように構成されている。ブロック214では、ブロック212で決定されたスケーリング比の実際の量子化が実行され、この量子化スケーリング比は、534bで各チャンネルについて出力される。この量子化スケーリング比は、チャンネル間レベル差
として、すなわち平均エネルギーを有する参照チャンネルに対する特定のチャンネルkについても示される。ブロック215では、量子化スケーリング比を使用して各チャンネルのスペクトルがスケーリングされる。ブロック215でのスケーリング操作は、ブロック213によって、すなわちアップスケーリングまたはダウンスケーリングのどちらが実行されるべきかという情報によって、制御される。ブロック215の出力は、各チャンネルのスケーリング済みスペクトルを表す。
【0037】
図7は、カスケードペア処理に関する適応ジョイント信号プロセッサ200の好適な実装形態を示す。適応ジョイント信号プロセッサ200は、ブロック221に示されるように、各可能なチャンネルペアの相互相関値を計算するように構成されている。ブロック229は、最も高い相互相関値を有するペアの選択を示しており、ブロック232aにおいて、このペアについてジョイントステレオ処理モードが決定される。ジョイントステレオ処理モードは、フルフレームに対するミッド/サイド符号化、帯域ごとのミッド/サイド符号化からなってもよく、すなわち複数の帯域の各帯域について、この帯域がミッド/サイドモードまたはL/Rモードのどちらで処理されるべきか否か、または実際のフレームで、検討中のこの特定のペアに対して全帯域デュアルモノ処理が実行されるべきか否かが決定される場合である。ブロック232bでは、選択されたペアのジョイントステレオ処理が、ブロック232aで決定されたモードを使用して実際に実行される。
【0038】
ブロック235、238では、フルツリーまたは簡略化されたツリー処理を用いるカスケード処理、または非カスケード処理が、特定の終了基準まで継続される。特定の終了基準で、たとえば、ブロック229によって出力されたペア表示、およびブロック232aによって出力されたステレオモード処理情報が生成され、
図5bに関して説明されたペアワイズ処理サイド情報532のビットストリームに入力される。
【0039】
図8は、
図5aの信号エンコーダ300によって実行される信号符号化の準備を目的とした、適応ジョイント信号プロセッサの好適な実装形態を示す。この目的のために、適応ジョイント信号プロセッサ200は、ブロック282で、各ステレオ処理済み信号の信号エネルギーを計算する。ブロック282は、入力として、ジョイントステレオ処理済み信号を受信し、このチャンネルが有用なチャンネルペアを形成するために他のどのチャンネルとも十分な相互相関を有していないことがわかってからステレオ処理を受けていなかったチャンネルの場合、このチャンネルは、反転または修正された、または正規化されていないエネルギーでブロック282に入力される。これは、一般に「エネルギー復帰信号」として示されるが、
図6のブロック215で実行されるエネルギー正規化は、必ずしも完全に復帰する必要はない。他のチャンネルと共にチャンネルペア処理に有用であるとわかっていないチャンネル信号を処理するための、特定の代替案が存在する。1つの手順は、
図6のブロック215で最初に実行されるスケーリングを反転させることである。別の手順は、スケーリングを部分的にのみ反転させることであり、または別の手順は、場合により、スケーリングされたチャンネルに特定の異なる方法で重み付けすることである。
【0040】
ブロック284では、適応ジョイント信号プロセッサ200によって出力された全ての信号の総エネルギーが計算される。各ステレオ処理済み信号、または利用可能であれば、エネルギー復帰またはエネルギー重み付き信号の信号エネルギーに基づいて、およびブロック284によって出力された総エネルギーに基づいて、各信号のビット分布情報がブロック286で計算される。ブロック286によって生成されたサイド情報536は、このビット分布情報が
図5aまたは
図5bの符号化マルチシグナルオーディオ信号500に含まれるように、一方では
図5aの信号エンコーダ300に転送され、加えて、論理接続530を介して出力インターフェース400に転送される。
【0041】
実際のビット割り当ては、
図9に示される手順に基づいて、好適な実施形態において実行される。最初の手順で、非LFE(低周波強調)チャンネルの最小ビット数が割り当てられ、利用可能であれば、低周波強調チャンネルビットが割り当てられる。これらの最小ビット数は、特定の信号内容に関係なく、信号エンコーダ300によって必要とされる。残りのビットは、
図8のブロック286によって生成されたビット分布情報536にしたがって割り当てられ、ブロック291に入力される。割り当ては、量子化されたエネルギー比に基づいて行われ、量子化されていないエネルギーよりも量子化されたエネルギー比を使用する方が好ましい。
【0042】
ステップ292で、改良が実行される。残りのビットが割り当てられ、結果が利用可能なビット数よりも高くなるような量子化であったとき、ブロック291で割り当てられたビットの減算が実行されなければならない。しかしながら、ブロック291での割り当て手順でさらに割り当てられる必要があるビットがまだあるようなエネルギー比の量子化であったとき、これらのビットは、改良ステップ292において追加で付与または分布され得る。改良ステップに続いて、信号エンコーダで使用するためのビットがまだ存在する場合、最終寄付ステップ293が実行され、最終寄付は、最大エネルギーを有するチャンネルに対して行われる。ステップ293の出力で、各信号に割り当てられたビット配分が利用可能である。
【0043】
ステップ300において、ステップ290、291、292、293のプロセスによって生成された割り当てビット配分を使用する各チャンネルの量子化およびエントロピー符号化が実行される。基本的に、ビット割り当ては、低エネルギーチャンネル/信号よりも高エネルギーチャンネル/信号の方が正確に量子化されるように実行される。重要なことに、ビット割り当ては、元の信号または白色化信号を使用して行われるのではなく、ジョイントチャンネル処理のために適応ジョイント信号処理に入力された信号とは異なるエネルギーを有する適応ジョイント信号プロセッサ200の出力での信号を使用して行われる。これに関連して、チャンネルペア処理は好適な実装形態であるものの、他のチャンネルのグループが相互相関によって選択および処理され得ることにも、留意すべきである。たとえば、3つさらには4つのチャンネルのグループが適応ジョイント信号プロセッサによって形成され、カスケードされた完全な手順または簡略化されたツリーを用いるカスケードされた手順で、もしくはカスケードされていない手順で、相応に処理されることが可能である。
【0044】
ブロック290、291、292、293に示されるビット割り当ては、符号化マルチシグナルオーディオ信号500から抽出された分布情報536を使用して、
図10の信号デコーダ700によってデコーダ側で同じ方法で実行される。
【0045】
好適な実施形態
この実装形態において、コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
a)さらなる符号化のための知覚的に白色化された信号の使用(音声コーダで使用される方法と同様)。これは、いくつかの利点を有する。
【0046】
・コーデックアーキテクチャの簡略化
・ノイズシェーピング特性/マスキング閾値のコンパクトな表現(たとえばLPC係数として)
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ/音声符号化の組み合わせを可能にする
b)パンされたソースを効率的に符号化するための、任意のチャンネルのILDパラメータの使用
c)エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。
【0047】
コーデックは、[9]に記載されるようなスペクトルエンベロープワーピングと組み合わせて[8]に記載されるようなレートループで信号を知覚的に白色化するために、周波数領域ノイズシェーピング(FDNS)を使用する。コーデックは、ILDパラメータを使用して、FDNSで白色化されたスペクトルを平均エネルギーレベルに向けてさらに正規化した。ジョイント符号化のためのチャンネルペアは、[6]に記載されるように適応的に選択され、ステレオ符号化は、帯域ごとのM/S対L/Rの決定からなる。帯域ごとのM/Sの決定は、[7]に記載されるようにL/RおよびM/Sモードで符号化されたときの各帯域の推定ビットレートに基づいている。帯域ごとのM/S処理済みチャンネル間のビットレート分布は、エネルギーに基づいている。
【0048】
実施形態は、信号適応ジョイントチャンネル処理を有するMDCTベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのW、X、Y、Zまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。したがって、「チャンネル」に与えられたのと同じ開示が、マルチシグナルオーディオ信号の「成分」または他の「信号」にも有効である。
【0049】
白色化スペクトルまでのエンコーダシングルチャンネル処理
図1のブロック図に示される処理ステップに続いて、各シングルチャンネル
が分析され、白色化されたMDCT領域スペクトルに変換される。
【0050】
時間領域の過渡検出器、ウィンドウ化、MDCT、MDST、およびOLAの処理ブロックは、[8]で説明されている。MDCTおよびMDSTは、変調複素ラップ変換(Modulated Complex Lapped Transform)(MCLT)を形成し、MDCTおよびMDSTを別々に実行することは、MCLTを実行することと同等であり、「MCLTからMDCTへ」は、MCLTのMDCT部分のみを取ってMDSTを破棄することを表す。
【0051】
時間ノイズシェーピング(TNS)は、[8]で説明されたのと同様に行われるが、TNSおよび周波数領域ノイズシェーピング(FDNS)の順序が適応的であることが追加されている。図中の2つのTNSボックスの存在は、FDNSおよびTNSの順序を変更する可能性として理解されるべきである。FDNSおよびTNSの順序の決定は、たとえば[9]で説明されているものであり得る。
【0052】
周波数領域ノイズシェーピング(FDNS)、およびFDNSパラメータの計算は、[9]で説明された手順と類似している。1つ違うのは、TNSが非アクティブであるフレームのFDNSパラメータが、MCLTスペクトルから計算されることである。TNSがアクティブなフレームでは、MDSTスペクトルは、MDCTスペクトルから推定される。
【0053】
図1は、個別に前処理された白色化信号180を取得するために少なくとも3つのオーディオ信号の白色化を実行する信号プロセッサ100の好適な実装形態を示す。信号プリプロセッサ100は、チャンネルkの時間領域入力信号のための入力を含む。この信号は、ウィンドワ(windower)102、過渡検出器104、およびLTPパラメータ計算機106に入力される。過渡検出器104は、入力信号の現在の部分が過渡であるか否かを検出し、これが確認された場合、過渡検出器104は、より短いウィンドウ長を設定するように、ウィンドワ102を制御する。ウィンドウ表示、すなわちどのウィンドウ長が選択されたのかも、サイド情報、特に
図5bの前処理サイド情報520に含まれる。加えて、ブロック106によって計算されたLTPパラメータもまたサイド情報ブロックに導入され、これらのLTPパラメータは、たとえば、復号化信号のある種の後処理または当該技術分野で知られる他の手順を実行するために使用され得る。ウィンドワ140は、時間スペクトル変換器108に導入されるウィンドウ化された時間領域フレームを生成する。時間スペクトル変換器108は好ましくは、複素ラップ変換を実行する。この複素ラップ変換から、ブロック112に示されるように、MDCT変換の結果を得るために、実数部が導出され得る。ブロック112の結果、すなわちMDCTスペクトルは、TNSブロック114a、および引き続き結合されたFDNSブロック116に入力される。あるいは、TNSブロック114aなしにFDNSのみが実行されるか、またはその逆、またはブロック114bによって示されるように、FDNS処理に続いてTNS処理が実行される。典型的には、ブロック114aまたはブロック114bのいずれかが存在する。ブロック114bの出力では、ブロック114aが存在しないとき、またはブロック114bが存在しないときにはブロック116の出力で、白色化されて個別に処理された信号、すなわち前処理済み信号が、各チャンネルkについて取得される。TNSブロック114aまたは114bおよびFDNSブロック116は、前処理情報を生成し、サイド情報520に転送する。
【0054】
いかなる場合も、ブロック108内で複素変換を行う必要はない。加えて、MDCTのみを実行する時間スペクトル変換器もまた、特定のアプリケーションには十分であり、変換の虚数部が必要な場合には、場合により、この虚数部もまた実数部から推定され得る。TNS/FDNS処理の特徴は、TNSが非アクティブである場合、FDNSパラメータが複素スペクトルから、すなわちMCLTスペクトルから計算され、TNSがアクティブなフレームでは、MDSTスペクトルがMDCTスペクトルから推定されるため、周波数領域ノイズシェーピング操作で常に完全な複素スペクトルが利用できることである。
【0055】
ジョイントチャンネル符号化システムの説明
記載されたシステムでは、各チャンネルが白色化されたMDCT領域に変換された後、[6]に記載されたアルゴリズムに基づいて、ジョイント符号化のための任意のチャンネル間の様々な類似性の信号適応型の活用が適用される。この手順から、それぞれのチャンネルペアが検出され、帯域ごとのM/S変換を使用して共同で符号化されるように選択される。
【0056】
符号化システムの概要が、
図2に示されている。簡単にするために、ブロック矢印はシングルチャンネル処理を表し(すなわち、処理ブロックは各チャンネルに適用される)、「MDCT領域分析」のブロックは、
図1に詳細に示されている。
【0057】
以下の段落では、フレームごとに適用されるアルゴリズムの個々のステップが詳細に記載される。記載されるアルゴリズムのデータフローグラフは、
図3に示されている。
【0058】
システムの初期構成では、どのチャンネルでマルチチャンネルジョイント符号化ツールがアクティブになるかを示すチャンネルマスクがあることに、留意すべきである。したがって、LFE(低周波効果(Low-Frequency Effect)/強調(Enhancement))チャンネルが存在する入力では、これらはツールの処理ステップにおいて考慮されない。
【0059】
平均エネルギーに向けた全チャンネルのエネルギー正規化
M/S変換は、ILDが存在する場合、つまりチャンネルがパンされている場合には、効率的ではない。全てのチャンネルの知覚的に白色化されたスペクトルの振幅を平均エネルギーレベル
に正規化することによって、この問題を回避する。
【0060】
・各チャンネル
について、エネルギー
を計算する。
ここで、
はスペクトル係数の総数である。
【0061】
・平均エネルギーを計算する。
・各チャンネルのスペクトルを平均エネルギーに向けて正規化する。
(ダウンスケーリング)の場合、
ここで、
はスケーリング比。スケーリング比は均一に量子化され、サイド情報ビットとしてデコーダに送信される。
ここで、
次に、スペクトルが最終的にスケーリングされる量子化スケーリング比は、以下によって与えられる。
(アップスケーリング)の場合、
および
ここで、
は前の場合と同様に計算される。
【0062】
デコーダでダウンスケーリング/アップスケーリングを行うかどうか区別するため、および正規化を復帰させるために、各チャンネルの
値に加えて、1ビットフラグ(0=ダウンスケーリング/1=アップスケーリング)が送信される。
は送信されて量子化されたスケーリング値
に使用されるビット数を示し、この値はエンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要はない。
【0063】
全ての可能なチャンネルペアの正規化されたチャンネル間相互相関値の計算
このステップでは、どのチャンネルペアが最も高い類似度を有し、したがってステレオジョイント符号化のためのペアとして選択されるのに適しているかを決定および選択するために、各可能なチャンネルペアのチャンネル間で正規化された相互相関値が計算される。各チャンネルペアの正規化相互相関値は、相互スペクトルによって以下のように与えられる。
ここで、
はフレームごとのスペクトル計数の総数、
および
は検討中のチャンネルペアのそれぞれのスペクトル。
【0064】
ペアになった各チャンネルペアの正規化相互相関値は、相互相関ベクトルに格納される。
ここで、
は可能なペアの最大数である。
【0065】
図1に見られるように、過渡検出器に応じて、異なるブロックサイズ(たとえば、10または20msのウィンドウブロックサイズ)を有することができる。したがって、チャンネル間相互相関は、両方のチャンネルのスペクトル分解能は同じであると仮定して計算される。それ以外の場合には、値は0に設定されるため、ジョイント符号化にこのようなチャンネルペアは確実に選択されない。
【0066】
各チャンネルペアを一意に表すためのインデックス付けスキームが使用される。6つの入力チャンネルにインデックス付けするためのこのようなスキームの例が、
図4に示されている。
【0067】
チャンネルペアをデコーダに信号送信するためにも使用されるのと同じインデックス付けスキームが、アルゴリズム全体を通じて維持される。1つのチャンネルを信号送信するために必要なビット数の量は、
チャンネルペア選択および共同で符号化されたステレオ処理
相互相関ベクトルを計算した後、ジョイント符号化のために検討すべき最初のチャンネルペアは、それぞれ最も高い相互相関値、および好ましくは0.3の最小値閾値を有するものである。
【0068】
選択されたチャンネルのペアは、ステレオ符号化手順、すなわち帯域ごとのM/S変換への入力として機能する。各スペクトル帯域について、チャンネルがM/Sまたは離散L/R符号化のどちらを使用して符号化されるかの決定は、各々の場合の推定ビットレートに依存する。ビットに関して要求の少ない符号化方法が選択される。この手順は、[7]に詳細に記載されている。
【0069】
このプロセスの出力は、選択されたチャンネルペアのチャンネルの各々のために更新されたスペクトルをもたらす。また、このチャンネルペアに関してデコーダと共有する必要がある情報(サイド情報)が作成され、すなわちどのステレオモードが選択されるか(フルM/S、デュアルモノ、または帯域ごとM/S)、および帯域ごとM/Sが選択されたモードである場合、M/S符号化が選択されるか(1)またはL/R符号化が選択されるか(0)を示すそれぞれのマスクが作成される。
【0070】
次のステップでは、アルゴリズムの2つのバリエーションがある。
【0071】
・カスケードチャンネルペアツリー
このバリエーションでは、相互相関ベクトルは、選択されたチャンネルペアの変更されたスペクトル(M/S変換を有する場合)の影響を受けるチャンネルペアに更新される。たとえば、6つのチャンネルの場合、選択および処理されたチャンネルペアが
図4において0でインデックス付けされた場合、つまりチャンネル0をチャンネル1で符号化した場合には、ステレオ処理の後、影響を受けたチャンネルペアの相互相関を、すなわちインデックス0、1、2、3、4、5、6、7、8で再計算する必要が出てくる。
【0072】
次に、前述のように手順が続けられる。最大相互相関を有するチャンネルペアを選択し、最小閾値を上回ることを確認し、ステレオ操作を適用する。これは、前のチャンネルペアの一部であったチャンネルが、新しいチャンネルペアへの入力として機能するために再選択され得ることを意味し、これを「カスケード」という。これは、チャンネルペアの出力と空間領域において異なる方向を表す別の任意のチャンネルとの間にまだ相関が残っているために起こる可能性がある。当然ながら、同じチャンネルペアが2回選択されてはならない。
【0073】
反復の最大許容回数(絶対最大値は
)に到達したとき、または相互相関ベクトルを更新した後に0.3の閾値を超えるチャンネルペア値がなかった(任意のチャンネル間に相関がない)ときに、手順が続けられる。
【0074】
・簡略化されたツリー
カスケードチャンネルペアツリープロセスは、全ての任意のチャンネルの相関を取り除き、最大のエネルギー圧縮を提供しようとするので、理論的には最適である。他方で、選択されるチャンネルペアの数が
を超える可能性があるためかなり複雑になり、結果的に計算がさらに複雑になり(ステレオ操作のM/S決定プロセスに起因する)、各チャンネルペアについてデコーダに送信される必要がある追加のメタデータも生じる。
【0075】
簡略化されたツリーのバリエーションでは、「カスケード」が許容されていない。これは、上記のプロセスから、相互相関ベクトルを更新している間、前のチャンネルペアステレオ操作の影響を受けたチャンネルペアの値が再計算されず、0に設定されるときに、保証される。したがって、チャンネルのうちの1つが既に既存のチャンネルペアの一部であったチャンネルペアを選択することはできない。
【0076】
これは、
図2の「適応型ジョイントチャンネル処理」を説明するバリエーションである。
【0077】
この場合、選択され得る最大チャンネルペアは
なので、所定のチャンネルペア(たとえば、LとR、リアLとリアR)を有するシステムでも同様の複雑さが生じる。
【0078】
選択されたチャンネルペアのステレオ操作がチャンネルのスペクトルを変化させない場合があり得ることに留意すべきである。これは、M/S決定アルゴリズムが符号化モードを「デュアルモノ」にすると決定したときに起こる。この場合、関係する任意のチャンネルは、別々に符号化されるので、もはやチャンネルペアと見なされない。また、相互相関ベクトルを更新しても効果はない。プロセスを継続するために、次に高い値を有するチャンネルペアが検討される。この場合のステップは、上記のように続けられる。
【0079】
前のフレームのチャンネルペア選択(ステレオツリー)を維持
多くの場合、フレームごとの任意のチャンネルペアの正規化相互相関値は近い可能性があり、そのため選択は、この近い値の間で頻繁に切り替わる可能性がある。これにより、チャンネルペアツリー切り換えが頻繁に発生し、その結果、出力システムの可聴性が不安定になり得る。したがって、信号の著しい変化があり、任意のチャンネル間の類似性が変化するときにのみ新しいチャンネルペアのセットが選択される、安定化機構を使用することが選択される。これを検出するために、現在のフレームの相互相関ベクトルが前のフレームのベクトルと比較され、特定の閾値よりも差が大きいときに、新しいチャンネルペアの選択が許可される。
【0080】
相互相関ベクトルの時間の変動は、以下のように計算される。
の場合には、前のステップで説明されたように、共同で符号化される新しいチャンネルペアの選択が許可される。選択された閾値は、
他方で、差が小さい場合には、前のフレームと同じチャンネルペアツリーが使用される。所与のチャンネルペアごとに、前述のように帯域ごとのM/S操作が適用される。しかしながら、所与のチャンネルペアの正規化相互相関値が0.3の閾値を上回らない場合には、新しいツリーを作成する新しいチャンネルペアの選択が開始される。
【0081】
シングルチャンネルのエネルギーを復帰
チャンネルペア選択のための反復プロセスの終了後に、いずれのチャンネルペアの一部でなく、そのため別々に符号化されるチャンネルが存在する場合がある。これらのチャンネルでは、平均エネルギーレベルに向けたエネルギーレベルの初期の正規化が、元のエネルギーレベルに戻される。アップスケーリングまたはダウンスケーリングを信号送信するフラグに応じて、これらのチャンネルのエネルギーは、量子化スケーリング比の逆数
を使用して復帰される。
【0082】
マルチチャンネル処理のためのIGF
IGF分析に関しては、ステレオチャンネルペアの場合、[10]に完全に記載されるように、追加のジョイントステレオ処理が適用される。これが必要なのは、IGFスペクトルの特定の目標範囲では、信号が、相関性の高いパンされた音源であり得るからである。この特定の領域のために選択されたソース領域がうまく相関していない場合、エネルギーが目標領域で一致していても、相関していないソース領域のため、空間像が損なわれる可能性がある。
【0083】
したがって、コア領域のステレオモードがIGF領域のステレオモードとは異なる場合、またはコアのステレオモードが帯域ごとM/Sとしてフラグが立てられている場合、チャンネルペアごとにステレオIGFが適用される。これらの条件が該当しない場合には、シングルチャンネルIGF分析が実行される。チャンネルペア内に共同で符号化されていないシングルチャンネルがある場合には、これらもまたシングルチャンネルIGF分析を受ける。
【0084】
各チャンネルのスペクトルを符号化するために利用可能なビットの分布
ジョイントチャンネルペアステレオ処理のプロセスの後、各チャンネルは、エントロピーコーダによって別々に量子化および符号化される。したがって、チャンネルごとに利用可能なビット数が付与されるべきである。このステップでは、処理されたチャンネルのエネルギーを使用して、利用可能な総ビットが各チャンネルに分布される。
【0085】
各チャンネルのエネルギーは、その計算が正規化ステップで上述されているが、ジョイント処理のため各チャンネルが変化している可能性があるので、スペクトルとして再計算される。新しいエネルギーは、
で表される。最初のステップとして、ビットを分布させるエネルギーベースの比が計算される。
ここで、入力がLFEチャンネルからも構成されている場合、比の計算では考慮されないことに留意すべきである。LFEチャンネルでは、チャンネルが非ゼロのコンテンツを有する場合にのみ、最小量のビット
が割り当てられる。比は均等に量子化される。
量子化された比
は、送信されたチャンネルスペクトル係数を読み取るために各チャンネルに同じ量のビットを割り当てるためにデコーダから使用されるビットストリーム内に格納される。
【0086】
ビット分布スキームは、以下に記載される。
【0087】
・チャンネルごとに、エントロピーコーダ
によって必要とされる最小量のビットを割り当てる
・残りのビット、すなわち
が、量子化された比
を使用して分割される。
・量子化された比のため、ビットはほぼ分散され、したがって
であり得る。そのため、第2の改良ステップで、差
がチャンネルビット
から比例的に減算される。
・改良ステップの後、
と比較してまだ
の不一致がある場合には、その差(通常は非常に少ないビット)が最大エネルギーを有するチャンネルに寄付される。
【0088】
各チャンネルのスペクトル係数を復号化するために読み取られるビットの量を決定するために、デコーダから全く同じ手順が続けられる。
はビット分布情報
に使用されるビット数を示し、この値は、エンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要がない。
【0089】
各チャンネルの量子化および符号化
量子化、ノイズ充填、およびレートループを含むエントロピー符号化は、[8]に記載されるとおりである。レートループは、推定された
を使用して最適化されることが可能である。パワースペクトルP(MCLTの大きさ)は、[8]に記載されるように、量子化およびインテリジェントギャップ充填(IGF)の調性/ノイズ測定に使用される。白色化されて帯域ごとにM/S処理されたMDCTスペクトルがパワースペクトルに使用されるため、MDSTスペクトルに対して同じFDNSおよびM/S処理が行われなければならない。MDCTに対して行われたのと同じILDに基づく正規化スケーリングがMDSTスペクトルにも行われなければならない。TNSがアクティブなフレームでは、パワースペクトル計算に使用されるMDSTスペクトルは、白色化およびM/S処理されたMDCTスペクトルから推定される。
【0090】
図2は、エンコーダ、特に
図2の適応ジョイント信号プロセッサ200の好適な実装形態のブロック図を示す。少なくとも3つの前処理済みオーディオ信号180は全てエネルギー正規化ブロック210に入力され、これはその出力において、一方では量子化された比、および他方ではアップスケーリングまたはダウンスケーリングを示す各チャンネルのフラグからなるチャンネルエネルギー比サイドビット534を生成する。しかしながら、アップスケーリングまたはダウンスケーリングの明示的なフラグのない他の手順も実行され得る。
【0091】
正規化されたチャンネルは、相互相関ベクトル計算およびチャンネルペア選択を実行するために、ブロック220に入力される。好ましくはカスケードされたフルツリーまたはカスケードおよび簡略化されたツリー処理を使用する反復的な手順であるか、あるいは非反復的な非カスケード処理である、ブロック220の手順に基づいて、対応するステレオ操作がブロック240で実行され、これは、全帯域または帯域ごとのミッド/サイド処理、もしくは回転、スケーリング、任意の重み付きまたは重みなしの線形または非線形の組み合わせなどのようなその他任意の対応するステレオ処理操作を実行し得る。
【0092】
ブロック240の出力において、ステレオインテリジェントギャップ充填(IGF)処理、もしくはスペクトル帯域複製処理または高調波帯域処理などのようなその他任意の帯域幅拡張処理が実行され得る。個々のチャンネルペアの処理は、チャンネルペアサイド情報ビットを介して信号送信され、
図2には示されていないが、ブロック260によって生成されたIGFまたは一般的な帯域幅拡張パラメータもまた、ジョイント処理サイド情報530のため、特に
図5bのペアワイズ処理サイド情報532のためのビットストリームに書き込まれる。
【0093】
図2の最終段は、たとえば
図9に関して説明されたようにビット割り当てを計算するチャンネルビット分布プロセッサ280である。
図2は、チャンネルビットレートサイド情報530によって制御されている量子化器および符号化器としての信号エンコーダ300と、さらに、信号エンコーダ300の結果と
図5bの全ての必要なサイド情報ビット520、530とを組み合わせる出力インターフェース400またはビットストリームライタ400との概略図を示す。
【0094】
図3は、ブロック210、220、240によって実行される実質的な手順の好適な実装形態を示す。手順の開始に続いて、
図2または
図3の210で示されるように、ILD正規化が実行される。ステップ221で、相互相関ベクトルが計算される。相互相関ベクトルは、ブロック210によって出力された0からNまでのチャンネルの各可能なチャンネルペアの正規化相互相関値からなる。たとえば、6つのチャンネルがある
図4では、0から14までの15の異なる可能性を調べることができる。相互相関ベクトルの最初の要素は、チャンネル0とチャンネル1との間の相互相関値を有し、たとえば、インデックス11を有する相互相関ベクトルの要素は、チャンネル2とチャンネル5との間の相互相関を有する。
【0095】
ステップ222では、前のフレームで決定されたツリーが維持されるべきか否かを決定するために、計算が実行される。この目的のために、相互相関ベクトルの時間の変動が計算され、好ましくは、相互相関ベクトルの個々の差の合計、特に差の大きさが計算される。ステップ223では、差の合計が閾値よりも大きいか否かが判定される。該当する場合には、ステップ224で、フラグkeepTreeが0に設定され、これは、ツリーは維持されないが、新しいツリーが計算されることを意味する。しかしながら、合計が閾値未満であると判定されたときは、前のフレームから決定されたツリーが現在のフレームにも適用されるように、ブロック225はフラグkeepTree=1を設定する。
【0096】
ステップ226で、反復終了基準がチェックされる。最大数のチャンネルペア(CP)に到達していないと判定された場合、これは当然ながらブロック226に初めてアクセスした場合であり、さらにフラグkeepTreeがブロック228によって決定されたように0に設定されるとき、手順は、相互相関ベクトルからの最大相互相関を有するチャンネルペアの選択のためのブロック229に進む。しかしながら、以前のフレームのツリーが維持されるとき、すなわちブロック225でチェックされたようにkeepTreeが1に等しいとき、ブロック230は、「強制された」チャンネルペアの相互相関が閾値よりも大きいか否かを判定する。これが該当しない場合、手順はステップ227に進み、これは、それでもなお、ブロック223の手順が逆に判定したものの、新しいツリーが決定されるべきであることを意味する。ブロック230の評価、およびブロック227の対応する結果は、ブロック223および225での決定を覆す可能性がある。
【0097】
ブロック231において、最大相互相関を有するチャンネルペアが0.3を上回るか否かが判定される。これが該当する場合、ブロック232のステレオ操作が実行され、これは
図2の240としても示されている。ブロック233で、ステレオ操作がデュアルモノであったと判定されると、0に等しい値keepTreeがブロック234で設定される。しかしながら、ステレオモードがデュアルモノと異なっていたと判定されると、ミッド/サイド操作が実行されており、処理のためにステレオ操作ブロック240(または232)の出力が異なるので、相互相関ベクトル235は再計算される必要がある。CCベクトル235の更新は、実際にミッド/サイドステレオ操作、または一般にデュアルモノとは異なるステレオ操作があったときにのみ、必要である。
【0098】
しかしながら、ブロック226のチェックまたはブロック231のチェックの結果が「いいえ」の回答をもたらすとき、シングルチャンネルが存在するか否かをチェックするために、制御はブロック236に進む。これが該当する場合、すなわちチャンネルペア処理で他のチャンネルと共に処理されていないシングルチャンネルが見つかった場合、ブロック237においてILD正規化が反転される。あるいは、ブロック237における反転は、部分反転に過ぎない可能性があり、またはある種の重み付けであり得る。
【0099】
反復が完了している場合、ならびにブロック236および237も完了している場合、手順は終了し、全てのチャンネルペアが処理されており、適応ジョイント信号プロセッサの出力において、ブロック236が「いいえ」の回答をもたらす場合には、少なくとも3つの共同で処理された信号があり、ブロック236が「はい」の回答をもたらした場合には、少なくとも2つの共同で処理された信号、および「シングルチャンネル」に対応する未処理の信号がある。
【0100】
復号化システムの説明
復号化プロセスは、共同で符号化されたチャンネルのスペクトルの復号化および逆量子化で始まり、[11]または[12]の6.2.2.「MDCTベースのTCX」に記載されるように、ノイズ充填がこれに続く。各チャンネルに割り当てられたビット数は、ビットストリームに符号化された、ウィンドウ長、ステレオモード、およびビットレート比
に基づいて決定される。各チャンネルに割り当てられたビット数は、ビットストリームを完全に復号化する前にわかっていなければならない。
【0101】
インテリジェントギャップ充填(IGF)ブロックにおいて、ターゲットタイルと呼ばれる、スペクトルの特定の範囲内でゼロに量子化された線が、ソースタイルと呼ばれる、スペクトルの異なる範囲からの処理済みコンテンツで充填される。帯域ごとのステレオ処理のため、ステレオ表現(すなわち、L/RまたはM/S)は、ソースおよびターゲットタイルで異なる場合がある。優れた品質を保証するために、ソースタイルの表現がターゲットタイルの表現と異なる場合、ソースタイルは、デコーダ内のギャップ充填の前にターゲットファイルの表現に変換されるように処理される。この手順は、既に[10]に記載されている。[11]および[12]とは対照的に、IGF自体は、元のスペクトル領域ではなく白色化されたスペクトル領域で適用される。既知のステレオコーデック(たとえば、[10])とは対照的に、IGFは、白色化されてILD補正されたスペクトル領域で適用される。
【0102】
ビットストリームシグナリングから、共同で符号化されたチャンネルペアがあるかどうかもわかる。逆処理は、各チャンネルの元の白色化されたスペクトルに変換するために、特にカスケードチャンネルペアツリーでは、エンコーダで形成された最後のチャンネルペアで始まる。各チャンネルペアについて、ステレオモードおよび帯域ごとのM/Sの決定に基づいて、逆ステレオ処理が適用される。
【0103】
チャンネルペアに関与し、共同で符号化された全てのチャンネルについて、スペクトルは、エンコーダから送られた
値に基づいて、元のエネルギーレベルに非正規化される。
【0104】
図10は、符号化信号500を復号化するためのマルチシグナルデコーダの好適な実装形態を示す。マルチシグナルデコーダは、入力インターフェース600、入力インターフェース600によって出力された少なくとも3つの符号化信号を復号化するための信号デコーダ700を含む。マルチシグナルデコーダは、少なくとも3つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するための、ジョイント信号プロセッサ800を含む。マルチシグナルデコーダは、符号化信号に含まれるサイド情報にしたがって少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ900を含む。特に、後処理は、後処理済み信号が後処理前の信号よりも白くなくなるように実行される。後処理済み信号は、直接的または間接的に、復号化オーディオ信号1000を表す。
【0105】
入力インターフェース600によって抽出されてジョイント信号プロセッサ800に転送されたサイド情報は、
図5bに示されるサイド情報530であり、脱白色化操作を実行するためにポストプロセッサ900に転送された符号化マルチシグナルオーディオ信号から入力インターフェース600によって抽出されたサイド情報は、
図5bに関して図示および説明されたサイド情報520である。
【0106】
ジョイント信号プロセッサ800は、入力インターフェース600から、各ジョイントステレオ復号化信号のエネルギー正規化値を抽出および受信するように構成されている。各ジョイントステレオ復号化信号のこのエネルギー正規化値は、
図5bのエネルギースケーリング情報530に対応する。適応ジョイント信号プロセッサ200は、ブロック820の出力でジョイントステレオ復号化信号を取得するために、符号化オーディオ信号500に含まれるジョイントステレオサイド情報532によって示されるジョイントステレオサイド情報またはジョイントステレオモードを使用して、復号化信号をペアワイズ処理820するように構成されている。ブロック830では、
図10のブロック800で処理済み復号化信号を取得するために、エネルギー正規化値を使用して、再スケーリング操作、特にジョイントステレオ復号化信号のエネルギー再スケーリングが実行される。
【0107】
ブロック237で
図3に関して説明されたように、逆ILD正規化を受信したチャンネルを保証するために、ジョイント信号プロセッサ800は、特定の信号の符号化信号から抽出されたエネルギー正規化値が所定の値を有するか否かをチェックするように構成されている。これが該当する場合、エネルギー再スケーリングは実行されないか、特定の信号への削減されたエネルギー再スケーリングが実行されるか、またはエネルギー正規化値がこの所定の値を有するときにこの個々のチャンネルに対するその他任意の重み付け操作が実行される。
【0108】
一実施形態では、信号デコーダ700は、ブロック620に示されるように、入力インターフェース600から、各符号化信号のビット分布値を受信するように構成されている。
図12の536で示されているこのビット分布値は、信号デコーダ700が使用されるビット分布を決定するように、ブロック720に転送される。好ましくは、
図12のブロック720における使用されるビット分布の決定のために、
図6および
図9のエンコーダに関して説明されたのと同じステップ、すなわちステップ290、291、292、293が、信号デコーダ700によって実行される。ブロック710/730では、
図10のジョイント信号プロセッサ800への入力を得るために、個々の復号化が実行される。
【0109】
ジョイント信号プロセッサ800は、サイド情報ブロック532に含まれる特定のサイド情報を使用する、帯域複製、帯域幅拡張、またはインテリジェントギャップ充填処理機能を有する。このサイド情報はブロック810に転送され、ブロック820は、ブロック810によって適用された帯域幅拡張手順の結果を使用して、ジョイントステレオ(デコーダ)処理を実行する。ブロック810では、インテリジェントギャップ充填手順は、帯域幅拡張またはIGF処理の目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から別のステレオ表現に変換するように構成されている。目標範囲は、ミッド/サイドステレオモードを有するように示されており、ソース範囲がL/Rステレオモードを有するように示されるとき、L/Rソース範囲のステレオモードはミッド/サイドソース範囲のステレオモードに変換され、その後、ソース範囲のミッド/サイドステレオモード表現を用いてIGF処理が実行される。
【0110】
図14は、ジョイント信号プロセッサ800の好適な実装形態を示す。ジョイント信号プロセッサは、ブロック630に示されるように、順序付けられた信号ペア情報を抽出するように構成されている。この抽出は、入力インターフェース600によって実行されることが可能であり、またはジョイント信号プロセッサは、この情報を入力インターフェースの出力から抽出することができ、もしくはジョイント信号プロセッサまたは信号デコーダに関して説明された他の抽出手順の場合のように、特定の入力インターフェースなしに情報を直接抽出することができる。
【0111】
ブロック820で、ジョイント信号プロセッサは、最後の信号ペアで始まる、好ましくはカスケード逆処理を実行し、ここで用語「最後」は、エンコーダによって決定および実行される処理順序を指す。デコーダでは、「最後の」信号ペアは、最初に処理されるものである。ブロック820は、ブロック630に示される信号ペア情報によって示され、たとえば
図4に関して説明された方法で実装された各信号ペアについて、特定のペアが、デュアルモノ、フルMS、または関連するMSマスクを有する帯域ごとのMS手順のいずれであるかを示すサイド情報532を受信する。
【0112】
ブロック820の逆処理に続いて、チャンネルペアに含まれる信号の非正規化が、チャンネルごとの正規化情報を示すサイド情報534に依存して、ブロック830で再び実行される。
図14のブロック830に関して示される非正規化は、好ましくは、フラグ534aが第1の値を有するときにダウンスケーリングとしてエネルギー正規化値を使用する再スケーリングであり、フラグ534aが第1の値とは異なる第2の値を有するときは、アップスケーリングとして再スケーリングを実行する。
【0113】
図15aは、
図10の信号デコーダおよびジョイント信号プロセッサのブロック図としての好適な実装形態を示し、
図15bは、
図10のポストプロセッサ900の好適な実装形態のブロック図表現を示す。
【0114】
信号デコーダ700は、符号化信号500に含まれるスペクトルのためのデコーダおよび逆量子化器段710を含む。信号デコーダ700は、サイド情報として、好ましくはウィンドウ長、特定のステレオモード、および符号化信号ごとのビット割り当て情報を受信する、ビット割当器720を含む。ビット割当器720は、好適な実装形態において、特にステップ290、291、292、293を使用して、ビット割り当てを実行し、符号化信号ごとのビット割り当て情報はステップ291で使用され、ウィンドウ長およびステレオモードに関する情報は、ブロック290または291で使用される。
【0115】
ブロック730において、やはり好ましくはノイズ充填サイド情報を使用するノイズ充填は、ゼロに量子化され、IGF範囲内にないスペクトルの範囲に対して実行される。ノイズ充填は、好ましくは、ブロック710によって出力された信号の低帯域部分に限定される。ブロック810では、特定のサイド情報を使用して、重要なことに白色化されたスペクトルに対して作用する、インテリジェントギャップ充填または一般に帯域幅格調処理が実行される。
【0116】
ブロック820では、サイド情報を使用して、逆ステレオプロセッサは、
図2のアイテム240で実行された処理を元に戻すための手順を実行する。最終的な脱スケーリングは、サイド情報に含まれるチャンネルごとの送信および量子化されたILDパラメータを使用して実行される。ブロック830の出力は、逆TNS処理および/または逆周波数領域ノイズシェーピング処理またはその他任意の脱白色化操作を実行するポストプロセッサのブロック910に入力される。ブロック910の出力は、周波数時間変換器920によって時間領域に変換される単純なスペクトルである。隣接するフレームのブロック920の出力は、最終的に、重畳操作から、多数の復号化オーディオ信号、または一般的には復号化オーディオ信号1000を取得するために、特定の符号化または復号化規則にしたがって、重畳加算プロセッサ930において重畳加算される。この信号1000は、個々のチャンネルからなってもよく、またはアンビソニックス成分などの音場表現の成分からなってもよく、またはより高次のアンビソニックス表現のその他任意の成分からなってもよい。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。これらの代替案は全て、
図15bの復号化オーディオ信号1000としてまとめて示されている。
【0117】
続いて、好適な実施形態のさらなる利点および特定の特長が示される。
【0118】
本発明の範囲は、知覚的に白色化およびILDパラメータ補正された信号を処理するときの、[6]から原理の解決策を提供することである。
【0119】
・[8]に記載されたレートループを用いるFDNSと[9]に記載されたスペクトルエンベロープワーピングとの組み合わせは、量子化ノイズおよびレートループの知覚的なシェーピングを分離させる、簡単だが非常に効果的な方法を提供する。
【0120】
・FDNSで白色化されたスペクトルの全チャンネルに平均エネルギーレベルを使用することで、ジョイント符号化のために選択された各チャンネルペアについて[7]に記載されたM/S処理の利点があるか否かを決定する、簡単だが効果的な方法を可能にする。
【0121】
・記載されたシステムの各チャンネルに単一の広帯域ILDを符号化するだけで十分であり、したがって、既知のアプローチとは対照的にビット節約が実現される。
【0122】
・相互相関性の高い信号を用いるジョイント符号化にチャンネルペアを選択することで、通常、フルスペクトルのM/S変換をもたらし、したがって、各帯域でM/SまたはL/Rを信号送信することはほとんどの場合に完全なM/S変換を信号送信する単一ビットに置き換えられるので、さらなる平均ビット節約となる。
【0123】
・処理済みチャンネルのエネルギーに基づく柔軟で単純なビット分布。
【0124】
好適な実施形態の特徴
前の段落に記載されたように、この実装形態において、コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい手段を使用する。提案された発明の新規性は、以下の違いに要約される。
【0125】
・各チャンネルペアのジョイント処理は、グローバルILD補正に関して[6]に記載されたマルチチャンネル処理とは異なる。グローバルILDは、チャンネルペアを選択してM/S決定および処理を行う前にチャンネルのレベルを均等化し、こうして、特にパンされたソースのより効率的なステレオ符号化を可能にする。
【0126】
・各チャンネルペアのジョイント処理は、グローバルILD補正に関して[7]に記載されたステレオ処理とは異なる。提案されたシステムには、各チャンネルペアのグローバルILD補正がない。任意のチャンネルで[7]に記載されたM/S決定メカニズムを使用できるようにするために、全てのチャンネルを単一のエネルギーレベル、すなわち平均エネルギーレベルにする正規化がある。この正規化は、ジョイント処理のためのチャンネルペアを選択する前に行われる。
【0127】
・適応型のチャンネルペア選択プロセスの後、ジョイント処理用のチャンネルペアの一部ではないチャンネルがある場合、そのエネルギーレベルは初期エネルギーレベルに戻される。
【0128】
・[7]に記載されるように、エントロピー符号化のビット分布は各チャンネルペアに実装されていない。代わりに、全てのチャンネルエネルギーが考慮され、この文献のそれぞれの段落に記載されるようにビットが分散される。
【0129】
・[6]に記載された適応チャンネルペア選択の明示的な「低複雑度」モードがあり、反復的なチャンネルペア選択プロセス中のチャンネルペアの一部である単一のチャンネルは、チャンネルペア選択プロセスの次の反復中の別のチャンネルペアの一部になることができない。
【0130】
・各チャンネルペアで簡単な帯域ごとのM/Sを使用すること、したがってビットストリーム内で送信される必要がある情報の量を低減することの利点は、[6]の信号適応チャンネルペア選択を使用するという事実によって強化される。共同で符号化するために相関性の高いチャンネルを選択することにより、広帯域M/S変換は、ほとんどの場合に最適であり、すなわち、M/S符号化は全ての帯域で使用される。これは、単一ビットで信号送信されることが可能であり、したがって、帯域ごとのM/Sの決定と比較して必要なシグナリング情報が著しく少ない。これにより、全てのチャンネルペアについて送信される必要がある情報ビットの総量が著しく減少する。
【0131】
本発明の実施形態は、知覚的に白色化されてILD補正されたスペクトルを有するマルチチャンネルシステムの信号適応型ジョイント符号化に関し、ジョイント符号化は、エントロピーコーダの推定ビット数に基づく単純な帯域ごとのM/S変換決定からなる。
【0132】
いくつかの態様は装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部または全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(またはこれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいずれか1つ以上が、このような装置によって実行されてもよい。
【0133】
本発明の符号化オーディオ信号は、デジタル記憶媒体上に記憶されることが可能であり、またはインターネットなどの無線送信媒体または有線送信媒体のような送信媒体で送信されることが可能である。
【0134】
特定の実施要件に応じて、本発明の実装形態は、ハードウェアまたはソフトウェアで実装され得る。本実装形態は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働可能な)、電子可読制御信号が記憶された、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリなどのデジタル記憶媒体を使用して、実行され得る。したがって、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
【0135】
本発明によるいくつかの実施形態は、本明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能な電子的可読制御信号を有するデータキャリアを含む。
【0136】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることが可能であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたときに方法の1つを実行するように動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
【0137】
別の実施形態は、機械可読キャリア上に記憶された、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを含む。
【0138】
したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書に記載される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0139】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを含み、それが記録された、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には有形および/または非一時的である。
【0140】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえば、データ通信接続を介して、たとえばインターネットを介して転送されるように構成されてもよい。
【0141】
さらなる実施形態は、本明細書に記載される方法の1つを実行するように構成または適合された、たとえばコンピュータまたはプログラマブル論理デバイスなどの処理手段を含む。
【0142】
さらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0143】
本発明によるさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的または光学的に)送信するように構成された、装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。
【0144】
いくつかの実施形態では、プログラマブル論理デバイス(たとえばフィールドプログラマブルゲートアレイ)は、本明細書に記載される方法の機能の一部または全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、好ましくはいずれかのハードウェア装置によって実行される。
【0145】
本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実装され得る。
【0146】
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実行され得る。
【0147】
上記の実施形態は、本発明の原理を単に例示するものである。本明細書に記載される配置および詳細の修正および変形は、当業者にとって明らかとなることが理解される。したがって、喫緊の請求項の範囲によってのみ限定され、本明細書の実施形態の記載および説明によって提示される具体的詳細によっては限定されないことが意図される。
【0148】
参考文献(全て、参照によりその全体が本明細書に組み込まれる
[1] “Information technology - MPEG audio technologies Part 3: Unified speech and audio coding,” ISO/IEC 23003-3, 2012
【0149】
[2] “Information technology - MPEG audio technologies Part 1: MPEG Surround,” ISO/IEC 23003-1, 2007
【0150】
[3] J. Herre, J. Hilpert, K. Achim and J. Plogsties, “MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio,” Journal of Selected Topics in Signal Processing, vol. 5, no. 9, pp. 770-779, August 2015.
【0151】
[4] “Digital Audio Compression (AC-4) Standard,” ETSI TS 103 190 V1.1.1, 2014-04
【0152】
[5] D. Yang, H. Ai, C. Kyriakakis and C. Kuo, “High-fidelity multichannel audio coding with Karhunen-Loeve transform,” Transactions on Speech and Audio Processing, vol. 11, no. 4, pp. 365-380, July 2003.
【0153】
[6] F. Schuh, S. Dick, R. Fueg, C. R. Helmrich, N. Rettelbach and T. Schwegler, “Efficient Multichannel Audio Transform Coding with Low Delay and Complexity,” in AES Convention, Los Angeles, September 20, 2016.
【0154】
[7] G. Markovic, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs, J. Herre, E. Ravelli, M. Schnell, S. Doehla, W. Jaegers, M. Dietz and C. Helmrich, “Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision”. International Patent WO2017125544A1, 27 July 2017
【0155】
[8] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
【0156】
[9] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, “Linear prediction based coding scheme using spectral domain noise shaping”. EU Patent 2676266 B1, 14 February 2011
【0157】
[10] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, “Audio Encoder, Audio Decoder and Related Methods Using Two-Channel Processing Within an Intelligent Gap Filling Framework”. International Patent PCT/EP2014/065106, 15 07 2014
【0158】
[11] “Codec for Encanced Voice Services (EVS); Detailed algorithmic description,” 3GPP TS 26.445 V 12.5.0, December 2015
【0159】
[12] “Codec for Encanced Voice Services (EVS); Detailed algorithmic description,” 3GPP TS 26.445 V 13.3.0, September 2016
【0160】
[13] Sascha Dick, F. Schuh, N. Rettelbach , T. Schwegler, R. Fueg, J. Hilpert and M. Neusinger, “APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL”. Inernational Patent PCT/EP2016/054900, 08 March 2016.
【手続補正書】
【提出日】2023-11-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダであって、
少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサ(100)であって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、信号プリプロセッサ(100)と、
少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および未処理の信号を取得するために、エネルギーレベルの正規化に続いて、前記少なくとも3つの前処理済みオーディオ信号の処理を実行するための適応ジョイント信号プロセッサ(200)と、
1つ以上の符号化信号を取得するために各信号を符号化するための信号エンコーダ(300)と、
前記1つ以上の符号化信号(510)、前記前処理(520)に関するサイド情報、および前記前処理済みオーディオ信号の前記広帯域エネルギー正規化値(534)を含む前記処理(530)に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するための出力インターフェース(400)と
を含むマルチシグナルエンコーダ。
【請求項2】
前記適応ジョイント信号プロセッサ(200)は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、前記少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化(210)を実行するように構成されており、
前記出力インターフェース(400)は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値(534)を含むように構成されている、請求項1に記載のマルチシグナルエンコーダ。
【請求項3】
前記適応ジョイント信号プロセッサ(200)は、
前記前処理済みオーディオ信号の平均エネルギーに関する情報を計算し(212)、
各前処理済みオーディオ信号のエネルギーに関する情報を計算し(211)、
前記平均エネルギーに関する前記情報および特定の前処理済みオーディオ信号のエネルギーに関する前記情報に基づいて前記エネルギー正規化値を計算する(213、214)
ように構成されている、請求項2に記載のマルチシグナルエンコーダ。
【請求項4】
前記適応ジョイント信号プロセッサ(200)は、前記特定の前処理済みオーディオ信号の前記広帯域エネルギー正規化値(534)としてのスケーリング比(534b)を、前記平均エネルギーと、前記特定の前処理済みオーディオ信号の前記エネルギーとから計算する(213、214)ように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記スケーリング比(534b)がアップスケーリングまたはダウンスケーリングのどちらのものかを示すフラグ(534a)を決定するように構成され、各前処理済みオーディオ信号の前記フラグ(534a)は前記処理(530)に関するサイド情報に含まれる、
請求項1から3のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項5】
前記適応ジョイント信号プロセッサ(200)は、前記スケーリングがアップスケーリングかダウンスケーリングかに関係なく、前記スケーリング比(534b)を同じ量子化範囲に量子化する(214)ように構成されている、
請求項4に記載のマルチシグナルエンコーダ。
【請求項6】
前記適応ジョイント信号プロセッサ(200)は、
少なくとも3つの正規化された信号を取得するために、基準エネルギーに対して各前処理済みオーディオ信号を正規化し(210)、
前記少なくとも3つの前処理済みの信号の正規化されたエネルギーを有する前記前処理済みの信号のうちの可能な各信号のペアの相互相関値を計算し(220)、
最も高い相互相関値を有する信号ペアを選択し(229)、
前記選択された信号ペアのジョイントステレオ処理モードを決定し(232a)、
処理済み信号ペアを取得するために前記決定されたジョイントステレオ処理モードにしたがって、前記選択された信号ペアをジョイントステレオ処理する(232b)
ように構成されている、請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項7】
前記適応ジョイント信号プロセッサ(200)はカスケード信号ペア処理を適用するように構成されているか、または前記適応ジョイント信号プロセッサ(200)は非カスケード信号ペア処理を適用するように構成されており、
前記カスケード信号ペア処理において、処理済み信号ペアの前記信号は、更新された相互相関値の計算、最も高い相互相関値を有する前記信号ペアを選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することからなる、さらなる反復ステップにおいて選択可能であるか、または
前記非カスケード信号ペア処理において、処理済み信号ペアの前記信号は、前記最も高い相互相関値を有する前記信号ペアをさらに選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することにおいて選択可能ではない、
請求項6に記載のマルチシグナルエンコーダ。
【請求項8】
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理手順の後に残る信号として、個別にエンコードされる前記信号を決定するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記ペアワイズ処理手順を実行する前に、前記信号に適用されるエネルギー正規化を復帰させるように構成されているか、または前記ペアワイズ処理手順を実行する前に前記信号に適用される前記エネルギー正規化(210)を少なくとも部分的に復帰させる、
請求項1から7のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項9】
前記適応ジョイント信号プロセッサ(200)は、前記信号エンコーダ(300)によって処理される各信号について、ビット分布情報(536)を決定するように構成されており、前記出力インターフェース(400)は、各信号について、前記ビット分布情報(536)を前記処理(530)に関する前記サイド情報に導入するように構成されている、
請求項1から8のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項10】
前記適応ジョイント信号プロセッサ(200)は、前記信号エンコーダ(300)によって処理される各信号の信号エネルギー情報を計算し(282)、
前記信号エンコーダ(300)によって符号化される前記複数の信号の総エネルギーを計算し(284)、
前記信号エネルギー情報および前記総エネルギー情報に基づいて、各信号のビット分布情報(536)を計算する(286)ように構成されており、
前記出力インターフェース(400)は、各信号について、前記ビット分布情報(536)を前記処理(530)に関する前記サイド情報に導入するように構成されている、
請求項1から9のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項11】
前記適応ジョイント信号プロセッサ(200)は、各信号に初期ビット数を割り当て(290)、前記ビット分布情報(536)に基づいてビット数を割り当て(291)、さらなる改良ステップを実行する(292)ように構成されており、
前記信号エンコーダ(300)は、信号ごとの前記割り当てられたビットを使用して、前記の各信号の符号化を実行するように構成されている、
請求項10に記載のマルチシグナルエンコーダ。
【請求項12】
前記信号プリプロセッサ(100)は、各オーディオ信号について、
各オーディオ信号の信号スペクトルを取得するための時間スペクトル変換操作(108、110、112)と、
各信号スペクトルの時間ノイズシェーピング操作(114a、114b)および/または周波数領域ノイズシェーピング操作(116)と
を実行するように構成されており、
前記信号プリプロセッサ(100)は、前記時間ノイズシェーピング操作および/または前記周波数領域ノイズシェーピング操作に続いて、前記信号スペクトルを前記適応ジョイント信号プロセッサ(200)に供給するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記受信した信号スペクトルに対して前記少なくとも3つの前処理済みオーディオ信号の前記処理を実行するように構成されている、
請求項1から11のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項13】
前記適応ジョイント信号プロセッサ(200)は、
選択された信号ペアの各信号について、全帯域分離符号化モードの必要なビットレート、全帯域ジョイント符号化モードの必要なビットレート、または帯域ごとジョイント符号化モードのビットレートプラス帯域ごと信号送信の必要なビットを決定し、
帯域の大部分が特定のモードのために決定され、全ての帯域の10%未満である前記帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の前記特定のモードとして前記分離符号化モードまたは前記ジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定する
ように構成されており、
前記出力インターフェース(400)は、前記処理(530)に関する前記サイド情報に指示(532)を含めるように構成されており、前記指示(532)は、フレームの符号化モードマスクの代わりに前記フレームの全ての帯域の前記特定のモードを示す、
請求項1から12のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項14】
前記適応ジョイント信号プロセッサ(200)は、最終寄付ステップを実行する(292)ように構成されている、
請求項11に記載のマルチシグナルエンコーダ。
【請求項15】
前記信号エンコーダ(300)は、個々の各信号の、または2つ以上の信号にわたる、レートループプロセッサを含み、前記レートループプロセッサは、前記特定の信号または2つ以上の信号のビット分布情報(536)を受信および使用するように構成されている、
請求項1から14のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項16】
前記適応ジョイント信号プロセッサ(200)は、ジョイント符号化のための信号ペアを適応的に選択するように構成されており、または前記適応ジョイント信号プロセッサ(200)は、各選択された信号ペアについて、帯域ごとミッド/サイド符号化モード、全帯域ミッド/サイド符号化モード、または全帯域左/右符号化モードを決定するように構成されており、前記出力インターフェース(400)は、前記処理(530)に関する前記サイド情報に、前記符号化マルチシグナルオーディオ信号において前記選択された符号化モードを指示する情報(532)を含めるように構成されている、
請求項1から15のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項17】
前記適応ジョイント信号プロセッサ(200)は、ミッド/サイドモードまたは左/右モードで符号化されたときの各帯域での推定ビットレートに基づいて、帯域ごとミッド/サイド対左/右決定を形成するように構成されており、最終的なジョイント符号化モードは、前記帯域ごとミッド/サイド対左/右決定の結果に基づいて決定される、
請求項1から16のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項18】
前記適応ジョイント信号プロセッサ(200)は、スペクトル帯域複製処理またはインテリジェントギャップ充填処理のパラメータサイド情報を決定するために、前記スペクトル帯域複製処理または前記インテリジェントギャップ充填処理を実行する(260)ように構成されており、前記出力インターフェース(400)は、追加サイド情報として、前記スペクトル帯域複製またはインテリジェントギャップ充填サイド情報(532)を前記処理(530)に関する前記サイド情報に含めるように構成されている、請求項1から17のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項19】
前記適応ジョイント信号プロセッサ(200)は、符号化信号ペアに対してステレオインテリジェントギャップ充填処理を実行し、個別に符号化される前記少なくとも1つの信号に対して単一信号インテリジェントギャップ充填処理を実行するように構成されている、
請求項18に記載のマルチシグナルエンコーダ。
【請求項20】
前記少なくとも3つのオーディオ信号は低周波強調信号を含み、前記適応ジョイント信号プロセッサ(200)は信号マスクを適用するように構成され、前記信号マスクはどの信号に対して前記適応ジョイント信号プロセッサ(200)がアクティブになるかを示しており、前記信号マスクは、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理で前記低周波強調信号が使用されるべきではないことを示す、
請求項1から9のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項21】
前記適応ジョイント信号プロセッサ(200)は、各前処理済み信号のエネルギーに関する前記情報として、各前処理済み信号のMDCTスペクトルのエネルギーを計算するように、または
前記少なくとも3つの前処理済みオーディオ信号の前記平均エネルギーに関する前記情報として、前記少なくとも3つの前処理済みオーディオ信号のMDCTスペクトルの平均エネルギーを計算するように構成されている、
請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項22】
前記適応ジョイント信号プロセッサ(200)は、前記特定の信号の前記エネルギーに関する前記情報および前記少なくとも3つの前処理済みオーディオ信号の前記平均エネルギーに関する前記情報に基づいて、各信号のスケーリング比を計算する(213)ように構成されており、
前記適応ジョイント信号プロセッサ(200)は、量子化スケーリング比値を取得するために前記スケーリング比を量子化する(214)ように構成されており、前記量子化スケーリング比値は、含まれる各信号の前記スケーリング比のサイド情報を前記符号化マルチシグナルオーディオ信号内に誘導するために使用され、
前記適応ジョイント信号プロセッサ(200)は、前記量子化スケーリング比値から量子化スケーリング比を導出するように構成されており、前記前処理済みオーディオ信号は、他の相応にスケーリングされた信号と共に前記スケーリングされた信号のペアワイズ処理に使用される前に、前記量子化スケーリング比を使用してスケーリングされる、
請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項23】
前記適応ジョイント信号プロセッサ(200)は、どの信号ペアが最も高い類似性を有するか、したがって、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理のペアとして選択されるのに適しているかを判定および選択するために、可能な信号ペアの正規化された信号間相互相関値を計算する(221)ように構成されており、
各信号ペアの前記正規化相互相関値は相互相関ベクトルに格納され、
前記適応ジョイント信号プロセッサ(200)は、前のフレームの相互相関ベクトルを現在のフレームの前記相互相関ベクトルと比較すること(222、223)によって、1つ以上の前記前のフレームの信号ペア選択が維持されるべきか否かを決定するように構成されており、前記前のフレームの前記信号ペア選択は、前記現在のフレームの前記相互相関ベクトルと前記前のフレームの前記相互相関ベクトルとの差が所定の閾値を下回るときに維持される(225)、
請求項1から22のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項24】
前記信号プリプロセッサ(100)は、複数の異なるウィンドウ長から選択された特定のウィンドウ長を使用して時間周波数変換を実行するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理される信号のペアを決定するために前記前処理済みオーディオ信号を比較するときに、前記信号のペアが同じ関連するウィンドウ長を有するか否かを決定するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、2つの信号が、前記信号プリプロセッサ(100)によって適用された同じウィンドウ長に関連付けられているときにのみ、前記2つの信号のペアワイズ処理を可能にするように構成されている、
請求項1から23のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項25】
前記適応ジョイント信号プロセッサ(200)は、処理済み信号ペアの信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されており、前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理のための前記信号ペア間の相互相関に基づいて信号ペアを選択するように構成されており、いくつかの選択された信号ペアの前記ペアワイズ処理は並行して実行される、
請求項1に記載のマルチシグナルエンコーダ。
【請求項26】
前記適応ジョイント信号プロセッサ(200)は、選択された信号ペアについて、ステレオ符号化モードを決定するように構成されており、前記ステレオ符号化モードがデュアルモノモードであると決定されたとき、前記選択された信号ペアに含まれる前記信号は、少なくとも部分的に再スケーリングされ、個別に符号化される信号として指示される、
請求項25に記載のマルチシグナルエンコーダ。
【請求項27】
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理済み信号ペアについて、コア領域のステレオモードがIGF領域のステレオモードとは異なる場合、または前記コア領域の前記ステレオモードが帯域ごとミッド/サイド符号化モードとしてフラグが立てられている場合、ステレオインテリジェントギャップ充填(IGF)操作を実行するように構成されており、または
前記適応ジョイント信号プロセッサ(200)は、コア領域のステレオモードがIGF領域のステレオモードと異ならない場合、または前記コア領域の前記ステレオモードが帯域ごとミッド/サイド符号化モードとしてフラグが立てられていない場合、ペアワイズ処理済み信号ペアの信号には単一信号IGF分析を適用するように構成されている、
請求項18または19に記載のマルチシグナルエンコーダ。
【請求項28】
前記適応ジョイント信号プロセッサ(200)は、インテリジェントギャップ充填(IGF)操作の結果が前記信号エンコーダ(300)によって個別に符号化される前に、前記インテリジェントギャップ充填(IGF)操作を実行するように構成されており、
量子化および前記インテリジェントギャップ充填(IGF)操作の調性/ノイズ決定にパワースペクトルが使用され、前記信号プリプロセッサ(100)は、MDCT(Modified Discrete Cosine Transform)スペクトルに使用されたのと同じ周波数領域ノイズシェーピングをMDST(Modified Discrete Sine Transform)スペクトルに実行されるように構成されており、
前記適応ジョイント信号プロセッサ(200)は、処理済みMDSTスペクトルの結果が前記信号エンコーダ(300)によって実行された量子化の中で、または前記適応ジョイント信号プロセッサ(200)によって実行されたインテリジェントギャップ充填処理の中で使用されるように、前処理済みMDSTスペクトルに対して、前記MDCTスペクトルに適用されたのと同じミッド/サイド処理を実行するように構成されており、または
前記適応ジョイント信号プロセッサ(200)は、MDSTスペクトルの全帯域スケーリングベクトルに基づいて、同じ量子化されたスケーリングベクトルを使用して前記MDCTスペクトルに対して行われたのと同じ正規化スケーリングを、MDSTスペクトルに対して適用するように構成されている、
請求項1から27のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項29】
前記適応ジョイント信号プロセッサ(200)は、前記少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理を実行するように構成されている、請求項1から28のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項30】
前記少なくとも3つのオーディオ信号の前記オーディオ信号は、オーディオチャンネルであるか、または
前記少なくとも3つのオーディオ信号の前記オーディオ信号は、音場表現のオーディオ成分信号である、
請求項1から29のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項31】
前記信号エンコーダ(300)は、少なくとも3つの個別に符号化された信号を取得するために各信号を個別に符号化するように、または2つ以上の信号と共にエントロピー符号化を実行するように構成されている、
請求項1から30のいずれか一項に記載のマルチシグナルエンコーダ。
【請求項32】
符号化信号を復号化するためのマルチシグナルデコーダであって、
少なくとも3つの符号化信号(510)を復号化して、少なくとも3つの復号化信号を取得するための信号デコーダ(700)と、
少なくとも3つの処理済み復号化信号を取得するために、前記少なくとも3つの復号化信号のうちの2つ以上についての前記符号化信号に含まれるジョイント信号処理サイド情報(530、532、534、534a、534b、536)にしたがってジョイント信号処理を実行するためのジョイント信号プロセッサ(800)と、
後処理済み信号を取得するために、前記符号化信号に含まれる後処理サイド情報(520)にしたがって前記少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ(900)であって、前記後処理は、前記後処理済み信号が前記少なくとも3つの処理済み復号化信号よりも白色度が低くなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ポストプロセッサ(900)と
を含む、マルチシグナルデコーダ。
【請求項33】
前記ジョイント信号プロセッサ(800)は、
前記符号化信号の前記ジョイント信号処理サイド情報から、各ジョイント信号復号化信号のエネルギー正規化値(534、534a、534b)を抽出する(610)ように構成されており、
ジョイント信号復号化信号を取得するために、前記符号化信号内に含まれる前記ジョイント信号処理サイド情報(530)によって示されるジョイント信号モードを使用して、前記復号化信号をペアワイズ処理する(820)ように構成されており、
前記処理済み復号化信号を取得するために、前記エネルギー正規化値(534、534a、534b)を使用して、前記ジョイント信号復号化信号をエネルギー再スケーリングする(830)ように構成されている、
請求項32に記載のマルチシグナルデコーダ。
【請求項34】
前記ジョイント信号プロセッサ(800)は、特定の信号の前記符号化信号に含まれる前記ジョイント信号処理サイド情報(530)から抽出されたエネルギー正規化値(534、534a、534b)が所定の値を有するか否かをチェックするように構成されており、
前記ジョイント信号プロセッサ(800)は、前記エネルギー正規化値(534、534a、534b)が前記所定の値を有するとき、前記特定の信号に対してエネルギー再スケーリングを実行しないように、または低減されたエネルギー再スケーリングのみを実行するように構成されている、
請求項32に記載のマルチシグナルデコーダ。
【請求項35】
前記信号デコーダ(700)は、
前記符号化信号から、各符号化信号のビット分布値を抽出し(620)、
信号のビット分布値、全ての信号の残りのビットの数、および、さらなる改良ステップ、または、最終寄付ステップを使用して、前記信号の使用されるビット分布を決定し(720)、
各信号の前記使用されるビット分布に基づいて、個々の復号化を実行する(710、730)
ように構成されている、請求項32から34のいずれか一項に記載のマルチシグナルデコーダ。
【請求項36】
前記ジョイント信号プロセッサ(800)は、
スペクトルが強調された個々の信号を取得するために、前記符号化信号の前記ジョイント信号処理サイド情報(530)を使用して、個別に復号化された信号に対して帯域複製またはインテリジェントギャップ充填処理を実行し(820)、
前記スペクトルが強調された個々の信号を使用して、ジョイント処理モードにしたがってジョイント処理(820)を実行する
ように構成されている、請求項32から35のいずれか一項に記載のマルチシグナルデコーダ。
【請求項37】
前記ジョイント信号プロセッサ(800)は、目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から前記別のステレオ表現に変換するように構成されている、
請求項36に記載のマルチシグナルデコーダ。
【請求項38】
前記ジョイント信号プロセッサ(800)は、
前記符号化信号に含まれる前記ジョイント信号処理サイド情報(530)から、各ジョイント信号復号化信号のエネルギー正規化値(534b)を抽出し、加えて、前記エネルギー正規化値(534、534b)がアップスケーリング値またはダウンスケーリング値のどちらであるかを示すフラグ(534、534a)を抽出し、
前記フラグ(534、534a)が第1の値を有するときはダウンスケーリングとして、前記フラグ(534、534a)が前記第1の値とは異なる第2の値を有するときはアップスケーリングとして、前記エネルギー正規化値(534、534b)を使用して前記エネルギー再スケーリングを実行する(830)
ように構成されている、請求項32から37のいずれか一項に記載のマルチシグナルデコーダ。
【請求項39】
前記ジョイント信号プロセッサ(800)は、
前記符号化信号に含まれる前記ジョイント信号処理サイド情報(530)から、共同符号化操作から得られる信号ペアを示すサイド情報(532)を抽出し(630)、
各信号の元の前処理済みスペクトルに戻すために、前記符号化信号を取得するときに最後の信号ペアから始めて逆信号またはマルチチャンネル処理を実行し(820)、前記符号化信号に含まれる前記信号ペアを示す前記サイド情報(532)に示される前記ジョイント信号モードおよび/または帯域ごとミッド/サイド決定に基づいて、前記逆信号またはマルチチャネル処理が実行される
ように構成されている、請求項32から38のいずれか一項に記載のマルチシグナルデコーダ。
【請求項40】
前記ジョイント信号プロセッサ(800)は、各ジョイント信号復号化信号の量子化されたエネルギー正規化値(534、534a、534b)に基づいて、信号ペアに含まれる全てのジョイント信号復号化信号を対応する元のエネルギーレベルにエネルギー再スケーリングする(830)ように構成されており、信号ペア処理に関与しなかった他の信号は、信号ペア処理に関与していた前記信号のようにはエネルギー再スケーリングされない、
請求項32から39のいずれか一項に記載のマルチシグナルデコーダ。
【請求項41】
前記ポストプロセッサ(900)は、各個別の処理済み復号化信号について、時間ノイズシェーピング操作(910)、または周波数領域ノイズシェーピング操作(910)、およびスペクトル領域から時間領域への変換(920)、ならびに後処理済み信号の後続の時間フレーム間の後続の重畳加算操作(930)を実行するように構成されている、
請求項32から40のいずれか一項に記載のマルチシグナルデコーダ。
【請求項42】
前記ジョイント信号プロセッサ(800)は、前記符号化信号に含まれる前記ジョイント信号処理サイド情報(530)から、信号ペアの時間フレームのいくつかの帯域がミッド/サイドまたは左/右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されており、前記ジョイント信号プロセッサ(800)は、前記フラグの値に応じて、前記信号ペアの前記いくつかの帯域にまとめてミッド/サイド処理または左/右処理のどちらかを受けさせるためにこのフラグを使用するように構成されており、
同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、前記符号化信号に含まれる前記ジョイント信号処理サイド情報(530)から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出され、前記ジョイント信号プロセッサ(800)は、この帯域に関連するビットについて示される前記個別の帯域について、逆ミッド/サイド処理または左/右処理のいずれかを適用するように構成されている、
請求項32から41のいずれか一項に記載のマルチシグナルデコーダ。
【請求項43】
前記符号化信号は符号化マルチチャンネル信号であり、前記マルチシグナルデコーダはマルチチャンネルデコーダであり、前記ジョイント信号処理はジョイントチャンネル処理であり、前記少なくとも3つの処理済み復号化信号は少なくとも3つの処理済み復号化チャンネルであり、前記後処理済み信号はチャンネルであり、または
前記符号化信号は、音場表現のオーディオ成分信号を表す符号化多成分信号であり、前記マルチシグナルデコーダは多成分デコーダであり、前記ジョイント信号処理はジョイント成分処理であり、前記少なくとも3つの処理済み復号化信号は少なくとも3つの処理済み復号化成分であり、前記後処理済み信号は成分オーディオ信号である、
請求項32から42のいずれか一項に記載のマルチシグナルデコーダ。
【請求項44】
少なくとも3つのオーディオ信号のマルチシグナル符号化を実行する方法であって、
少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するステップであって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、ステップと、
エネルギーレベルの正規化に続いて、少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および未処理の信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号の処理を実行するステップと、
1つ以上の符号化信号を取得するために各信号を符号化するステップと、
前記1つ以上の符号化信号(510)、前記前処理(520)に関するサイド情報、および前記前処理済みオーディオ信号の広帯域エネルギー正規化値(534)を含む前記処理(530)に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するステップと
を含む方法。
【請求項45】
符号化信号をマルチシグナル復号化する方法であって、
少なくとも3つの復号化信号を取得するために、少なくとも3つの符号化信号(510)を個別に復号化するステップと、
少なくとも3つの処理済み復号化信号を取得するために前記少なくとも3つの復号化信号のうちの2つ以上についての前記符号化信号に含まれるジョイント信号処理サイド情報(530、532、534、534a、534b、536)にしたがってジョイント信号処理を実行するステップと、
後処理済み信号を取得するために、前記符号化信号に含まれる後処理サイド情報(520)にしたがって前記少なくとも3つの処理済み復号化信号を後処理するステップであって、前記後処理は、前記後処理済み信号が前記少なくとも3つの処理済み復号化信号よりも白色度が低くなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ステップと
を含む方法。
【請求項46】
コンピュータまたはプロセッサ上で実行されたときに、請求項44の方法を実行するための、コンピュータプログラム。
【請求項47】
コンピュータまたはプロセッサ上で実行されたときに、請求項45の方法を実行するための、コンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0011
【補正方法】変更
【補正の内容】
【0011】
本発明は、マルチシグナル符号化効率が、元の信号ではなく前処理済みオーディオ信号に対して適応ジョイント信号処理を実行することによって実質的に改善されるという発見に基づいており、この前処理は、前処理済みオーディオ信号が、前処理前の信号に対して白色化されるように実行される。デコーダ側に関しては、これは、少なくとも3つの処理済み復号化信号を取得するために、ジョイント信号処理に続いて後処理が実行されることを意味する。これらの少なくとも3つの処理済み復号化信号は、符号化信号に含まれるサイド情報にしたがって後処理され、後処理は、後処理済み信号が後処理前の信号よりも白色度が低くなるように実行される。後処理済み信号は最終的に、直接、またはさらなる信号処理操作に続いて、復号化オーディオ信号、すなわち復号化マルチシグナルを表す。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0026
【補正方法】変更
【補正の内容】
【0026】
符号化マルチシグナルオーディオ信号500のフレームの例示的な図が、
図5bに示されている。
図5bは、ブロック300によって生成されたとおりの個別に符号化された信号のビットストリーム部分510を示している。ブロック520は、ブロック100によって生成されて出力インターフェース400に転送された前処理サイド情報のためのものである。加えて、ジョイント処理サイド情報530が、
図5aの適応ジョイント信号プロセッサ200によって生成され、
図5bに示される符号化マルチシグナルオーディオ信号フレームに導入される。
図5bの右側では、符号化マルチシグナルオーディオ信号の次のフレームがシリアルビットストリームに書き込まれ、
図5bの左側では、符号化マルチシグナルオーディオ信号の前のフレームが書き込まれることになる。
一実施形態では、適応ジョイント信号プロセッサ200は、選択された信号ペアの各信号について、L/Rなどの全帯域分離符号化モードの必要なビットレート、M/Sなどの全帯域ジョイント符号化モードの必要なビットレート、またはM/Sなどの帯域ごとジョイント符号化モードのビットレートプラスM/Sマスクなどの帯域ごと信号送信の必要なビットを決定し、帯域の大部分が特定のモードのために決定され、全ての帯域の10%未満である帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の特定のモードとして分離符号化モードまたはジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定するように構成される。ここで、出力インターフェース400は、処理530に関するサイド情報に指示532を含めるように構成されており、指示532は、フレームの符号化モードマスクの代わりにフレームの全ての帯域の前記特定のモードを示す。
さらなる実施形態では、適応ジョイント信号プロセッサ200は、処理済み信号ペアの信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されている。適応ジョイント信号プロセッサ200は、ペアワイズ処理のための信号ペア間の相互相関に基づいて信号ペアを選択するように構成されており、いくつかの選択された信号ペアのペアワイズ処理が並行して実行される。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0033
【補正方法】変更
【補正の内容】
【0033】
ジョイント処理サイド情報530は、好適な実装形態では、ペアワイズ処理サイド情報532、エネルギースケーリング情報534、およびビット分布情報536を含む。ペアワイズ処理サイド情報は、チャンネルペアサイド情報ビット、フルミッド/サイドまたはデュアルモノまたは帯域ごとミッド/サイド情報および、帯域ごとミッド/サイド指示の場合、フレーム内の帯域がミッド/サイドまたはL/R処理のどちらで処理されるかを帯域ごとに示す、ミッド/サイドマスクのうちの少なくとも1つを含み得る。ペアワイズ処理サイド情報は、インテリジェントギャップ充填(IGF)、またはSBR(スペクトル帯域複製)情報などのような他の帯域幅拡張情報を追加で含み得る。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0104
【補正方法】変更
【補正の内容】
【0104】
図10は、符号化信号500を復号化するためのマルチシグナルデコーダの好適な実装形態を示す。マルチシグナルデコーダは、入力インターフェース600、入力インターフェース600によって出力された少なくとも3つの符号化信号を復号化するための信号デコーダ700を含む。マルチシグナルデコーダは、少なくとも3つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するための、ジョイント信号プロセッサ800を含む。マルチシグナルデコーダは、符号化信号に含まれるサイド情報にしたがって少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ900を含む。特に、後処理は、後処理済み信号が後処理前の信号よりも
白色度が低くなるように実行される。後処理済み信号は、直接的または間接的に、復号化オーディオ信号1000を表す。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0109
【補正方法】変更
【補正の内容】
【0109】
ジョイント信号プロセッサ800は、サイド情報ブロック532に含まれる特定のサイド情報を使用する、帯域複製、帯域幅拡張、またはインテリジェントギャップ充填処理機能を有する。このサイド情報はブロック810に転送され、ブロック820は、ブロック810によって適用された帯域幅拡張手順の結果を使用して、ジョイントステレオ(デコーダ)処理を実行する。ブロック810では、インテリジェントギャップ充填手順は、帯域幅拡張またはIGF処理の目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から別のステレオ表現に変換するように構成されている。目標範囲は、ミッド/サイドステレオモードを有するように示されており、ソース範囲がL/Rステレオモードを有するように示されるとき、L/Rソース範囲のステレオモードはミッド/サイドソース範囲のステレオモードに変換され、その後、ソース範囲のミッド/サイドステレオモード表現を用いてIGF処理が実行される。
一実施形態では、ジョイント信号プロセッサ800は、符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド/サイドまたは左/右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されている。ジョイント信号プロセッサ800は、フラグの値に応じて、信号ペアのいくつかの帯域にまとめてミッド/サイド処理または左/右処理のどちらかを受けさせるためにこのフラグを使用するように構成されている。ここで、同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、符号化信号のサイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出される。ジョイント信号プロセッサ800は、この帯域に関連するビットについて示される個別の帯域について、逆ミッド/サイド処理または左/右処理のいずれかを適用するように構成されている。
【外国語明細書】