(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-01
(45)【発行日】2024-11-12
(54)【発明の名称】変換長切替えをサポートする周波数ドメインオーディオ符号化
(51)【国際特許分類】
G10L 19/022 20130101AFI20241105BHJP
G10L 19/02 20130101ALI20241105BHJP
G10L 19/008 20130101ALI20241105BHJP
【FI】
G10L19/022
G10L19/02 180B
G10L19/008 100
(21)【出願番号】P 2023109830
(22)【出願日】2023-07-04
(62)【分割の表示】P 2021112579の分割
【原出願日】2014-07-15
【審査請求日】2023-08-03
(32)【優先日】2013-07-22
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2013-10-18
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】110003993
【氏名又は名称】弁理士法人野口新生特許事務所
(74)【代理人】
【識別番号】100205981
【氏名又は名称】野口 大輔
(72)【発明者】
【氏名】ザッシャ・ディック
(72)【発明者】
【氏名】クリスティアン・ヘルムリッヒ
(72)【発明者】
【氏名】アンドレアス・ヘルツェール
【審査官】大野 弘
(56)【参考文献】
【文献】特表2013-508765(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/022
G10L 19/02
G10L 19/008
(57)【特許請求の範囲】
【請求項1】
変換長切替えをサポートする周波数ドメインオーディオ復号器であって、
データストリームからオーディオ信号のフレームの周波数ドメイン係数(24)を抽出するように構成されている周波数ドメイン係数抽出器(12)と、
前記データストリームからスケール係数を抽出するように構成されているスケール係数抽出器(14)と、
前記オーディオ信号の時間ドメイン部分を得るために、前記スケール係数に従ってスケーリングされた、前記フレームの前記周波数ドメイン係数を逆変換するように構成されている逆変換器(16)と、
前記オーディオ信号を得るために前記時間ドメイン部分を組み合わせるように構成されている結合器(18)と、を備え、
前記逆変換器は、前記オーディオ信号の前記フレーム内の信号化に応答し、それによって、前記信号化に応じて、
前記スケール係数に従ってスケーリングされた、それぞれのフレームの前記周波数ドメイン係数をデインターリーブされないように連続的に配列することによって1つの変換を形成し、前記1つの変換に第1の変換長の逆変換を行うか、又は
前記スケール係数に従ってスケーリングされた、前記それぞれのフレームの前記周波数ドメイン係数をデインターリーブすることによって2つ以上の変換を形成し、前記2つ以上の変換の各々に、前記第1の変換長よりも短い第2の変換長の逆変換を行い、
前記周波数ドメイン係数抽出器及び前記スケール係数抽出器は前記信号化とは無関係に動作
し、
前記逆変換器は、伝達関数がTNS係数(64)に従って設定されるフィルタをN個の係数の系列に適用することにより、前記信号化にかかわらずに逆テンポラルノイズシェーピングフィルタリング(62)を前記N個の係数の系列に実施し、
前記1つの変換の前記形成において、前記N個の係数の系列として、前記デインターリーブされないように連続的に配列された前記周波数ドメイン係数を使用して前記逆テンポラルノイズシェーピングフィルタリングを適用し、
前記2つ以上の変換の前記形成において、それに従って前記2つ以上の変換が前記N個の係数の系列としてスペクトル的に連結されるように連続的に配列された前記周波数ドメイン係数を使用して、前記逆テンポラルノイズシェーピングフィルタリングを前記周波数ドメイン係数に適用するように構成されており、
前記周波数ドメインオーディオ復号器は、可変コンテキスト算術復号を使用して、前記信号化にかかわらず各周波数ドメイン係数(24)に対して同じコンテキストを前記それぞれの周波数ドメイン係数に割り当てることによって、前記データストリームから前記周波数ドメイン係数(24)を抽出する、周波数ドメインオーディオ復号器。
【請求項2】
前記スケール係数抽出器(14)は、前記信号化とは無関係であるスペクトル-時間分解能で前記データストリームから前記スケール係数を抽出するように構成されている請求項1に記載の周波数ドメインオーディオ復号器。
【請求項3】
前記逆変換器は、前記周波数ドメイン係数に、前記信号化とは無関係のスペクト分解能で前記スケール係数によるスケーリングを行うように構成されている請求項
1に記載の周波数ドメインオーディオ復号器。
【請求項4】
前記逆変換器は、前記周波数ドメイン係数にノイズ充填を行うように構成されており、前記周波数ドメイン係数はデインターリーブされないように、かつ、前記信号化とは無関係のスペクトル分解能で、連続的に配列されている請求項
1に記載の周波数ドメインオーディオ復号器。
【請求項5】
前記逆変換器は、チャネル間ステレオ予測を用いるか又は用いることなくジョイントステレオ符号化をサポートし、前記チャネル間ステレオ予測の和(中間)スペクトルもしくは差(外側)スペクトル又は予測残差として前記周波数ドメイン係数を使用するように構成されており、前記周波数ドメイン係数は、前記信号化にかかわらず、デインターリーブされないように配列されている請求項
1に記載の周波数ドメインオーディオ復号器。
【請求項6】
前記2つ以上の変換の数は2に等しく、前記第1の変換長は前記第2の変換長の2倍である請求項
1に記載の周波数ドメインオーディオ復号器。
【請求項7】
変換長切替えをサポートする周波数ドメインオーディオ復号のための方法であって、
データストリームからオーディオ信号のフレームの周波数ドメイン係数を抽出するステップと、
前記データストリームからスケール係数を抽出するステップと、
前記オーディオ信号の時間ドメイン部分を得るために、スケール係数に従ってスケーリングされた、前記フレームの前記周波数ドメイン係数を逆変換するステップと、
前記オーディオ信号を得るために前記時間ドメイン部分を組み合わせるステップと、を含み、
前記逆変換するステップは、前記オーディオ信号の前記フレーム内の信号化に応答し、それによって、前記信号化に応じて、
それぞれのフレームの前記周波数ドメイン係数を、デインターリーブされないように連続的に配列することによって1つの変換を形成し、前記1つの変換に第1の変換長の逆変換を行うこと、又は
前記それぞれのフレームの前記周波数ドメイン係数をデインターリーブすることによって2つ以上の変換を形成し、前記2つ以上の変換の各々に前記第1の変換長よりも短い第2の変換長の逆変換を行うことを含み、
前記周波数ドメイン係数の前記抽出及び前記スケール係数の前記抽出は前記信号化とは無関係であり、
前記逆変換するステップは、伝達関数がTNS係数(64)に従って設定されるフィルタをN個の係数の系列に適用することにより、前記信号化にかかわらずに逆テンポラルノイズシェーピングフィルタリング(62)を前記N個の係数の系列に実施し、
前記1つの変換の前記形成において、前記N個の係数の系列として、デインターリーブされないように連続的に配列された前記周波数ドメイン係数を使用して前記逆テンポラルノイズシェーピングフィルタリングを適用し、かつ、
前記2つ以上の変換の前記形成において、それに従って前記2つ以上の変換がスペクトル的に連結されるように前記N個の係数の系列として連続的に配列された前記周波数ドメイン係数を使用して、前記逆テンポラルノイズシェーピングフィルタリングを前記周波数ドメイン係数に適用することを含み、
前記信号化にかかわらず各周波数ドメイン係数(24)に対して同じコンテキストを前記それぞれの周波数ドメイン係数に割り当てることによって、前記データストリームから前記周波数ドメイン係数(24)を抽出するために可変コンテキスト算術復号が使用される、方法。
【請求項8】
コンピュータ上で作動すると、請求項
7に記載の方法を実施するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、変換長切替えをサポートする周波数ドメインオーディオ符号化に関する。
【背景技術】
【0002】
IETF[1]、MPEG-4(HE-)AAC[2]、又は、特にMPEG-D xHE-AAC(USAC)[3]のOpus/Celtコーデックのような現代の周波数ドメイン音声/オーディオ符号化システムは、信号の時間的安定性に応じて、1つの長い変換、すなわち長いブロック、又は8つの連続する短い変換、すなわち短いブロックを使用してオーディオフレームを符号化する手段を提供する。
【0003】
雨又は大観衆の拍手のような特定のオーディオ信号については、長いブロックの符号化と短いブロックの符号化のいずれも、低ビットレートにおいて満足のいく品質をもたらさない。これは、そのような録音における顕著な過渡の密度によって説明することができる。すなわち、長いブロックのみによる符号化は、プリエコーとしても知られる、頻繁な、耳に聞こえる符号化エラーの時間的な不鮮明さを引き起こす可能性があり、一方で、短いブロックのみによる符号化は、スペクトルホールがもたらされるデータオーバヘッド増大により一般的に非効率である。
【0004】
したがって、ちょうど概説した種類のオーディオ信号にも適した周波数ドメインオーディオ符号化概念が身近にあることが好ましい。当然ながら、とりわけ、特定の種類のオーディオ信号に適した特定の所望の変換長を包含する変換長セットの間での切替えをサポートする新規の周波数ドメインオーディオコーデックを構築することは実現可能である。しかしながら、市場に採用される新規の周波数ドメインオーディオコーデックを導入することは容易な仕事ではない。周知のコーデックはすでに利用可能であり、頻繁に使用されている。したがって、所望の新たな変換長をさらにサポートするが、それにもかかわらず、既存の符号化器及び復号器との下位互換性を維持するように、既存の周波数ドメインオーディオコーデックが拡張されることを可能にする概念を得ることが可能であることが好ましい。
【先行技術文献】
【非特許文献】
【0005】
【文献】[1] Internet Engineering Task Force (IETF), RFC 6716, “Definition of the Opus Audio Codec,” Proposed Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716.
【文献】[2] International Organization for Standardization, ISO/IEC 14496-3:2009, “Information Technology - Coding of audio-visual objects - Part 3: Audio,” Geneva, Switzerland, Aug. 2009.
【文献】[3] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.
【文献】[4] International Organization for Standardization, ISO/IEC 23003-3:2012, “Information Technology - MPEG audio - Part 3: Unified speech and audio coding,” Geneva, Jan. 2012.
【文献】[5] J.D.Johnston and A.J.Ferreira, “Sum-Difference Stereo Transform Coding”, in Proc. IEEE ICASSP-92, Vol. 2, March 1992.
【文献】[6] N.Rettelbach, et al., European Patent EP2304719A1, “Audio Encoder, Audio Decoder, Methods for Encoding and Decoding an Audio Signal, Audio Stream and Computer Program”, April 2011.
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、本発明の目的は、この新たな変換長も含む変換長間で切り替えるように、追加の変換長のサポートに向けて、既存の周波数ドメインオーディオコーデックが下位互換的に拡張されることを可能にする概念を提供することである。
【課題を解決するための手段】
【0007】
この目的は、本明細書に添付の独立請求項の主題によって達成される。
【0008】
本発明は、いずれの変換長が実際に適用されるかについてそれぞれのフレームに対して信号伝達する信号化にかかわりなく、それぞれのフレームの周波数ドメイン係数がインターリーブされるように送信されるとき、並びに、さらに、周波数ドメイン係数抽出及びスケール係数抽出がその信号化とは無関係に動作するときに、付加的に特定の変換長を下位互換的にサポートする機能を有する周波数ドメインオーディオコーデックを提供することができるという所見に基づく。この方策によって、上記信号化に対応しない旧式の周波数ドメインオーディオ符号化器/復号器が、それにもかかわらず、誤りなく妥当な品質を再生して動作することが可能になる。同時に、付加的にサポートされる変換長へ/からの切替えに対応している周波数ドメインオーディオ符号化器/復号器は、下位互換性があるにもかかわらず、さらにより良好な品質を達成する。旧式の復号器に対してトランスペアレント(transparent)に周波数ドメイン係数が符号化されることに起因する符号化効率の不利益に関する限り、これは、インターリーブに起因して比較的些細な性質のものである。
【0009】
本出願の有利な実施態様は、従属請求項の主題である。
【図面の簡単な説明】
【0010】
【
図1】一実施形態による、周波数ドメインオーディオ復号器の概略ブロック図である。
【
図3】一実施形態による、
図2の逆TNSフィルタリングプロセスの上流方向に向けての可能な変位を示す概略図である。
【
図4】一実施形態による、USACにおける長い停止-開始窓の変換分割を使用するときの窓の選択の可能性を示す図である。
【
図5】一実施形態による、周波数ドメインオーディオ符号化器のブロック図である。
【発明を実施するための形態】
【0011】
特に、本出願の好ましい実施形態を図面に関連して下記に説明する。
【0012】
図1は、本出願の一実施形態による、変換長切替えをサポートする周波数ドメインオーディオ復号器を示す。
図1の周波数ドメインオーディオ復号器は全体的に参照符号10を使用して示されており、周波数ドメイン係数抽出器12と、スケーリング係数抽出器14と、逆変換器16と、結合器18とを備える。それらの入力において、周波数ドメイン係数抽出器12とスケール係数抽出器14は入来するデータストリーム20にアクセスすることができる。周波数ドメイン係数抽出器12とスケール係数抽出器14の出力は、逆変換器16のそれぞれの入力に接続されている。逆変換器16の出力は、結合器18の入力に接続されている。結合器18は、
復号器10の出力22において再構築されたオーディオ信号を出力する。
【0013】
周波数ドメイン係数抽出器12は、データストリーム20からオーディオ信号のフレーム26の周波数ドメイン係数24を抽出するように構成されている。周波数ドメイン係数24はMDCT係数であってもよく、又は別の重複変換のような他の何らかの変換に属してもよい。下記にさらに説明するように、特定のフレーム26に属する周波数ドメイン係数24は、様々なスペクトル-時間分解能でそれぞれのフレーム26内のオーディオ信号のスペクトルを記述する。フレーム26は、オーディオ信号が時間において連続的に区分化される時間部分を表す。すべてのフレームのすべての周波数ドメイン係数24をまとめると、これはオーディオ信号のスペクトログラム28を表す。フレーム26は、例えば長さが等しくてもよい。オーディオ信号のオーディオ内容の種類が経時的に変化することに起因して、各フレーム26のスペクトルを、例えば一定の変換長を有する変換を使用することによって、連続したスペクトル-時間分解能で記述するのは不利な場合がある。変換長は、例えば、各フレーム26の時間長に及び、すなわち、オーディオ信号のこのフレーム26内のサンプル値並びにそれぞれのフレームに先行する時間ドメインサンプル及び後続する時間ドメインサンプルを含むものである。例えば、それぞれのフレームのスペクトルを周波数ドメイン係数24の形態で損失の多い送信をすると、プリエコーアーティファクトが生じる場合がある。したがって、さらに下記に概説する方法では、それぞれのフレーム26の周波数ドメイン係数24は、このフレーム26内のオーディオ信号のスペクトルを、異なる変換長間で切り替えることによって切替え可能なスペクトル-時間分解能で記述する。しかしながら、周波数ドメイン係数抽出器12に関する限り、後者の状況はこれに対してトランスペアレント(transparent)である。周波数ドメイン係数抽出器12は、フレーム26の異なるスペクトル-時間分解能間でのちょうど言及した切替えを信号伝達するいかなる信号化とも無関係に動作する。
【0014】
周波数ドメイン係数抽出器12は、データストリーム20から周波数ドメイン係数24を抽出するためにエントロピー符号化を使用することができる。例えば、周波数ドメイン係数抽出器は、可変コンテキスト算術復号のようなコンテキストベースのエントロピー復号を使用して、それぞれの周波数ドメイン係数が属するフレーム26のスペクトル-時間分解能を信号伝達する上述した信号化にかかわらず、周波数ドメイン係数24の各々に同じコンテキストを割り当てることによって、データストリーム20から周波数ドメイン係数24を抽出することができる。あるいは、第2の例として、抽出器12は、ハフマン復号を使用して、フレーム26の分解能を指定する上記信号化にかかわらずハフマン符号語のセットを規定してもよい。
【0015】
周波数ドメイン係数24がスペクトログラム28を記述する方法には複数の異なる可能性が存在する。例えば、周波数ドメイン係数24は、何らかの予測残差を表すに過ぎない場合がある。例えば、周波数ドメイン係数は、少なくとも部分的に、信号スペクトログラム28が属するマルチチャネルオーディオ信号からの対応するオーディオチャネル又はダウンミックスを表す別のオーディオ信号からのステレオ予測によって得られている予測の残差を表す場合がある。あるいは、又は予測残差に加えて、周波数ドメイン係数24は、M/Sステレオパラダイム[5]による和(中間)又は差(外側)信号を表してもよい。さらに、周波数ドメイン係数24はテンポラルノイズシェーピングを受けている場合がある。
【0016】
その上、周波数ドメイン係数24は量子化され、量子化誤差を心理音響検出(又はマスキング)閾値未満に維持するために、例えば、量子化刻み幅が、周波数ドメイン係数24と関連付けられるそれぞれのスケーリング係数を介して制御されるように、スペクトル的に変更される。スケール係数抽出器14は、データストリーム20からスケーリング係数を抽出する役割を担う。
【0017】
フレームからフレームへの異なるスペクトル-時間分解能間での切替えに関するもう少し踏み込んだ詳細について手短に紙幅を割き、以下陳述する。下記により詳細に説明するように、異なるスペクトル-時間分解能間の切替えは、特定のフレーム26内ですべての周波数ドメイン係数24が1つの変換に属すること、又は、それぞれのフレーム26の周波数ドメイン係数24が実際に異なる変換に属することのいずれかを示す。異なる変換は、例えば2つの変換であって、その変換長がちょうど言及した1つの変換の変換長の半分であるようなものである。図面に関連して以下に説明する実施形態は、一方における1つの変換と他方における2つの変換との間の切替えを仮定するが、実際には、1つの変換と3つ以上の変換との間の切替えも原則的に実現可能であり、下記に与えられる実施形態は、そのような代替的な実施形態に容易に変換可能である。
【0018】
図1は、現在のフレームが2つの短い変換によって表されるタイプのものである例示的な事例を、ハッチングを使用して示している。2つの短い変換の一方はオーディオ信号の現在のフレーム26の後半を使用して導出されており、他方はオーディオ信号の現在のフレーム26の前半を変換することによって得られている。変換長が短縮されることに起因して、周波数ドメイン係数24がフレーム26のスペクトルを記述するスペクトル分解能が低減し、すなわち、2つの短い変換を使用する場合は半分になり、一方で時間分解能は増大し、すなわち、本事例では2倍になる。
図1において、例えば、ハッチングで示されている周波数ドメイン係数24は先行する変換に属するものとし、ハッチングの施されていない周波数ドメイン係数24は後続する変換に属するものとする。したがって、スペクトル的に同じ位置にある(co-located)周波数ドメイン係数24は、フレーム26内のオーディオ信号の同じスペクトル成分を記述しているが、わずかに異なる時刻、すなわち、変換分割フレームの2つの連続する変換窓にある。
【0019】
データストリーム20において、周波数ドメイン係数24は、2つの異なる変換のスペクトル的に対応する周波数ドメイン係数が互いに直に後続するように、インターリーブされた方法で送信される。さらに言い換えれば、周波数ドメイン係数抽出器12から受信されたときの周波数ドメイン係数24が、それらが長い変換の周波数ドメイン係数であるかのように連続的に順序付けさている場合、それらが、この系列においてインターリーブされたように配列され、それによって、スペクトル的に同じ位置にある周波数ドメイン係数24が互いに直に隣接し、かつそのようなスペクトル的に同じ位置にある周波数ドメイン係数24の対が、スペクトル/周波数順に従って順序付けされるように、分割変換フレーム、すなわち、変換分割がデータストリーム20において信号伝達されているフレーム26の周波数ドメイン係数24が送信される。興味深いことに、そのように順序付けされると、インターリーブされた周波数ドメイン係数24の系列は、1つの長い変換によって得られている周波数ドメイン係数24の系列と同様に見える。ここでも、周波数ドメイン係数抽出器12に関する限り、フレーム26の単位における異なる変換長又はスペクトル-時間分解能間の切替えはこれに対してトランスペアレントであり、したがって、周波数ドメイン係数24をコンテキスト適応的にエントロピー符号化するためのコンテキスト選択の結果として、抽出器12が知らずに現在のフレームが実際に長い変換であるか、又は、現在のフレームが分割変換タイプのものであるかにかかわらず、同じコンテキストが選択されることになる。例えば、周波数ドメイン係数抽出器12は、スペクトル-時間的に隣接するすでに符号化/復号されている周波数ドメイン係数に基づいて、特定の周波数ドメイン係数のために利用されるべきコンテキストを選択することができ、このスペクトル-時間的な隣接は、
図1に示されているインターリーブされた状態において規定される。これは、以下の結果を有する。現在符号化/復号されている周波数ドメイン係数24が、
図1においてハッチングを使用して示されている先行する変換の一部分であったと想定されたい。スペクトル的に直に隣接する周波数ドメイン係数はこのとき、実際には同じ先行する変換(すなわち、
図1におけるハッチングのあるもの)の周波数ドメイン係数24である。しかしながら、それにもかかわらず、周波数ドメイン係数抽出器12は、コンテキスト選択に、後続する変換、すなわち(短くなった変換の低減されたスペクトル分解能に従って)スペクトル的に隣接するもの、に属する周波数ドメイン係数24を、現在の周波数ドメイン係数24の1つの長い変換のスペクトル的に直に隣接するものと仮定して使用する。同様に、後続する変換の周波数ドメイン係数24についてのコンテキストの選択において、周波数ドメイン係数抽出器12は、スペクトル的に直に隣接するものとして、先行する変換に属し、かつ実際にはその係数とスペクトル的に同じ位置にある周波数ドメイン係数24を使用する。特に、現在のフレーム26の係数24の間で規定される復号順序は、例えば、最低周波数から最高周波数へと続くことができる。同様の観測は、周波数ドメイン係数抽出器12が、順序付けられているがデインターリーブされていないときの直に連続する周波数ドメイン係数24のグループ/タプル内の現在のフレーム26の周波数ドメイン係数24をエントロピー復号するように構成されている場合に有効である。同じ短い変換のみに属するスペクトル的に隣接する周波数ドメイン係数24のタプルを使用する代わりに、周波数ドメイン係数抽出器12は、異なる短い変換に属する周波数ドメイン係数24が混合されたスペクトル的に隣接する特定のタプルに基づいて、異なる変換に属する周波数ドメイン係数24が混合されたスペクトル的に隣接するそのようなタプルに対してコンテキストを選択することもある。
【0020】
上記で示したように、インターリーブされた状態において、2つの短い変換によって得られるものとしての結果もたらされるスペクトルは、1つの長い変換によって得られるスペクトルに非常に類似して見えるという事実に起因して、変換長切替えに依存しない周波数ドメイン係数抽出器12の動作の結果としてもたらされるエントロピー符号化の不利益は低い。
【0021】
上記で言及したように、データストリーム20から周波数ドメイン係数24のスケーリング係数を抽出する役割を担うスケーリング係数抽出器14によって、復号器10の説明を再開する。スケール係数が周波数ドメイン係数24に割り当てられるスペクトル分解能は、長い変換によってサポートされる相対的に精細なスペクトル分解能よりも粗い。波括弧30によって示されているように、周波数ドメイン係数24は、複数のスケール係数帯域にグループ化することができる。スケール係数帯域における区分化は、心理音響的な考えに基づいて選択されてもよく、例えば、いわゆるバーク(又は臨界)帯域と一致してもよい。スケーリング係数抽出器14は、ちょうど周波数ドメイン係数抽出器12がそうであるように変換長切替えに依存しないため、スケーリング係数抽出器14は、変換長切替え信号化にかかわらず、各フレーム26が複数の等しいスケール係数帯域30に区分化されると仮定し、そのような各スケール係数帯域30についてスケール係数32を抽出する。符号化器側において、これらのスケール係数帯域30への周波数ドメイン係数24の帰属は、
図1に示されているデインターリーブされていない状態において行われる。結果として、分割変換に対応するフレーム26に関する限り、各スケール係数32は、先行する変換の周波数ドメイン係数24及び後続する変換の周波数ドメイン係数24の両方が所属するグループに属する。
【0022】
逆変換器16は、各フレーム26について、対応する周波数ドメイン係数24及び対応するスケール係数32を受信し、スケール係数32に従ってスケーリングされているフレーム26の周波数ドメイン係数24に逆変換を受けさせてオーディオ信号の時間ドメイン部分を取得するように構成されている。逆変換器16によって、例えば、修正離散コサイン変換(MDCT:modified discrete cosine transform)のような重複変換を使用することができる。結合器18は、オーディオ信号を得るために、例えば適切な重畳加算法を使用することなどによって時間ドメイン部分を組み合わせる。重畳加算法は、例えば、逆変換器16によって出力される時間ドメイン部分の重なり合う部分の中での時間ドメインエイリアシング除去をもたらす。
【0023】
当然ながら、逆変換器16は、フレーム26についてデータストリーム20内で信号伝達される前述した変換長切替えに応答する。逆変換器16の動作を、
図2を参照してより詳細に説明する。
【0024】
図2は、逆変換器16の可能性のある内部構造をより詳細に示す。
図2に示されているように、逆変換器16は、現在のフレームについて、そのフレームと関連付けられる周波数ドメイン係数24、及び周波数ドメイン係数24を逆量子化するための対応するスケール係数32を受信する。さらに、逆変換器16は、各フレームについてデータストリーム20内に存在する信号化34によって制御される。逆変換器16は、データストリーム20内に任意に含まれるデータストリーム20の他の成分を介してさらに制御することができる。以下の説明において、これらの追加のパラメータに関する詳細を説明する。
【0025】
図2に示されているように、
図2の逆変換器16は逆量子化器36と、起動可能デインターリーバ38と、逆変換段階40とを備える。以下の説明の理解を容易にするために、周波数ドメイン係数抽出器12から現在のフレームについて導出されたときの入来周波数ドメイン係数24が、0~N-1の符号を付されて示されている。ここでも、周波数ドメイン係数抽出器12は信号化34に依存しない、すなわち、信号化34とは無関係に動作するため、周波数ドメイン係数抽出器12は、現在のフレームが分割変換タイプであるか、又は1変換タイプ、すなわち、周波数ドメイン係数24の数がこの例の場合はNであるかにかかわらず、逆変換器16に同じ方法で周波数ドメイン係数24を提供し、N個の周波数ドメイン係数24へのインデックス0~N-1の関連付けも信号化34にかかわらず同じままである。現在のフレームが1又は長い変換タイプである場合、インデックス0~N-1は最低周波数から最高周波数までの周波数ドメイン係数24の順序付けに対応し、現在のフレームが分割変換タイプである場合、インデックスは周波数ドメイン係数に対する順序に対応するが、そのときの周波数ドメイン係数はスペクトル順に従ってスペクトル的に配列されているが、2つ目から1つおきの周波数ドメイン係数24が後続する変換に属し、一方で他の周波数ドメイン係数24が先行する変換に属するようにインターリーブされたように配列されている。
【0026】
同様のことが、スケール係数32に当てはまる。スケール係数抽出器14は信号化34に依存しないで動作するため、スケール係数抽出器14から到来するスケール係数32の数及び順序ならびに値は信号化34とは無関係であり、
図2におけるスケール係数32は、これらのスケール係数が関連付けられるスケール係数帯域の間での連続した順序に対応するインデックスを用いて例示的にS
0~S
Mとして示されている。
【0027】
周波数ドメイン係数抽出器12及びスケール係数抽出器14と同様に、逆量子化器36は信号化34に依存しないで、又は信号化34とは無関係に動作することができる。逆量子化器36は、それぞれの周波数ドメイン係数が属するスケール係数帯域と関連付けられるスケール係数を使用して、入来する周波数ドメイン係数24を逆量子化又はスケーリングする。ここでも、個々のスケール係数帯域に対する入来する周波数ドメイン係数24の帰属関係、したがってスケール係数32に対する入来する周波数ドメイン係数24の関連付けは、信号化34とは無関係であり、したがって、逆変換器16は、周波数ドメイン係数24に、信号化とは無関係なスペクトル分解能におけるスケール係数32によるスケーリングを行う。例えば、逆量子化器36は、信号化34とは無関係に、周波数ドメイン係数に、第1のスケール係数帯域に対してインデックス0~3を割り当て、したがって、第1のスケール係数はS0となり、第2のスケール係数帯域に対してインデックス4~9を割り当て、したがって、スケール係数S1などとなる。スケール係数境界は例示であるように意図されているに過ぎない。逆量子化器36は、例えば、周波数ドメイン係数24を逆量子化するために、関連付けられたスケール係数を使用した乗算を実施することができ、すなわち、x0をx0・s0,とし、x1をx1・s0とし、…x3をx3・s0とし、x4をx4・s1とし、…x9をx9・s1とし、他同様である。あるいは、逆量子化器36は、スケール係数帯域によって規定される粗いスペクトル分解能から周波数ドメイン係数24の逆量子化に実際に使用されるスケール係数の補間を実施してもよい。補間は信号化34とは無関係とすることができる。しかしながら、あるいは、後者の補間は、現在のフレームが分割変換タイプのものであるか、又は1/長い変換タイプであるかに応じて周波数ドメイン係数24の異なるスペクトル-時間サンプリング位置を考慮に入れるために、信号化に依存してもよい。
【0028】
図2は、起動可能デインターリーバ38の入力側まで、周波数ドメイン係数24の間での順序が同じままであり、同じことが、その地点までの全体的な動作に関して、少なくとも部分的に当てはまることを示している。
図2は、起動可能デインターリーバ38の上流において、逆変換器16によってさらなる動作を実施できることを示している。例えば、逆変換器16は、周波数ドメイン係数24に対してノイズ充填を実施するように構成することができる。例えば、周波数ドメイン係数24の系列において、スケール係数帯域、すなわち、インデックス0~N-1に従う順序で入来した周波数ドメイン係数のグループを識別することができ、ここで、それぞれのスケール係数帯域のすべての周波数ドメイン係数24はゼロに量子化される。そのような周波数ドメイン係数は、例えば、疑似乱数生成器などを使用した、人工ノイズ生成を使用して充填することができる。ゼロ量子化スケール係数帯域内に充填されるノイズの強度/レベルは、それぞれのスケール係数帯域のスケール係数を使用して調整することができ、これは、内部のスペクトル係数がすべてゼロであるためにそれがスケーリングには必要とされないためである。そのようなノイズ充填は
図2に40で示されており、欧州特許出願公開第EP2304719A1[6]における一実施形態により詳細に記載されている。
【0029】
図2は、さらに、逆変換器16がジョイントステレオ符号化及び/又はチャネル間ステレオ予測をサポートするように構成できることを示す。チャネル間ステレオ予測の枠組みにおいて、逆変換器16は、例えば、オーディオ信号の別のチャネルから、インデックス0~N-1の順序によって表されたデインターリーブされていない配列のスペクトルを予測42できる。すなわち、これは、周波数ドメイン係数24がステレオオーディオ信号のチャネルのスペクトログラムを記述するということ、及び、逆変換器16が、周波数ドメイン係数24を、このステレオオーディオ信号の他のチャネルから導出される予測信号の予測残差として処理するように構成されているということであり得る。このチャネル間ステレオ予測は、例えば、信号化34とは無関係の或るスペクトル粒度において実施できる。複素ステレオ予測42を制御する複素予測パラメータ44が、例えば、前述したスケール係数帯域の特定のものについて、複素ステレオ予測42を始動できる。複素予測パラメータ44によって複素予測が始動される各スケール係数帯域について、それぞれのスケール係数帯域内に存在する0~N-1の順序に配列された、スケーリングされている周波数ドメイン係数24が、ステレオオーディオ信号の他のチャネルから得られるチャネル間予測信号と合計される。このそれぞれのスケール係数帯域の複素予測パラメータ44内に含まれる複素係数が、予測信号を制御できる。
【0030】
さらに、ジョイントステレオ符号化の枠組み内で、逆変換器16はMS復号46を実施するように構成することができる。すなわち、
図1の復号器10が、これまで説明した動作を2回、すなわち、ステレオオーディオ信号の第1のチャネルのために1回、第2のチャネルのためにもう1回実施することができ、データストリーム20内のMSパラメータを介して制御されて、逆変換器16は、これらの2つのチャネルをMS復号できるか、又はそれらのチャネルをそのまま、すなわち、ステレオオーディオ信号の左チャネル及び右チャネルのままにしておくことができる。MSパラメータ48は、フレームレベル、又はさらにはスケール係数帯域もしくはそのグループの単位のような何らかのより精細なレベルにおけるMS符号化の間で切り替えることができる。例えば、始動されているMS復号の場合、逆変換器16は、係数の順序0~N-1における対応する周波数ドメイン係数24と、ステレオオーディオ信号の他のチャネルの対応する周波数ドメイン係数との和、又はそれらの差を形成することができる。
【0031】
そこで、
図2は、起動可能デインターリーバ38が次のように現在のフレームに対する信号化34に応答することを示している。すなわち、現在のフレームが信号化34によって分割された変換フレームであるように信号伝達されている場合に、2つの変換、すなわち、先行する変換50及び後続する変換52を得るように入来する周波数ドメイン係数をデインターリーブし、現在のフレームが長い変換フレームであること示す信号化34の場合に1つの変換54をもたらすように周波数ドメイン係数をインターリーブされたままにする。デインターリーブする場合、デインターリーバ38は、50及び52のうちの1つの変換、すなわち、偶数インデックスを有する周波数ドメイン係数から一方の短い変換、及び、奇数インデックス位置にある周波数ドメイン係数から他方の短い変換を形成する。例えば、偶数インデックスの周波数ドメイン係数は先行する変換(インデックス0で開始するとき)を形成し、一方、他方の周波数ドメイン係数は後続する変換を形成する。それらの変換50及び52は、それぞれ時間ドメイン部分56及び58をもたらす短い方の変換長の逆変換を受ける。
図1の結合器18は、時間ドメイン部分56及び58を時間的に正確に位置付け、すなわち、先行する変換50からもたらされる時間ドメイン部分56を、後続する変換52からもたらされる時間ドメイン部分58の前に位置付け、それらの間で、オーディオ信号の先行するフレーム及び後続するフレームからもたらされる時間ドメイン部分を用いて重畳加算プロセスを実施する。デインターリーブされない場合、インターリーバ38に到来する周波数ドメイン係数がそのまま長い変換54を形成し、逆変換段階40が、現在のフレーム26の時間間隔全体にわたって、またそれを超えて及ぶ時間ドメイン部分60をもたらすように、当該周波数ドメイン係数に対して逆変換を実施する。結合器18は、時間ドメイン部分60と、オーディオ信号の先行するフレーム及び後続するフレームからもたらされるそれぞれの時間ドメイン部分とを組み合わせる。
【0032】
これまでに説明した周波数ドメインオーディオ復号器は、信号化34に対応しない周波数ドメインオーディオ復号器との互換性があることを可能にするように、変換長切替えを可能にする。特に、そのような「旧式」の復号器は、実際には信号化34によって信号伝達されているフレームを、分割変換タイプであるように、長い変換タイプであるように誤って仮定することがある。すなわち、それらの復号器は誤って、分割タイプ周波数ドメイン係数をインターリーブされたままにし、長い変換長の逆変換を実施することがある。しかしながら、再構築されるオーディオ信号の影響を受けるフレームの結果としての品質は依然として十分に妥当なものである。
【0033】
翻って、符号化効率の不利益も、依然として十分に妥当なものである。符号化効率の不利益は、周波数ドメイン係数及びスケール係数が、様々な係数の意味を考慮に入れることなく、符号化効率を増大させるようにこの変動を利用することなく符号化されるために、信号化34を無視することからもたらされる。しかしながら、後者の不利益は、下位互換性を可能にする利点と比較して比較的小さい。後者の説明は、
図2におけるインデックス0~N-1によって規定されるデインターリーブされた状態における連続したスペクトル部分(スケール係数帯域)内のみでのノイズ充填器40、複素ステレオ予測42及びMS復号46の起動及び機能停止に対する制限に関しても当てはまる。(例えば、2つのノイズレベルを有する)フレームのタイプに特定的にこれらの符号化ツールの制御を可能にする機会は、場合によっては利点をもたらし得るが、これらの利点は、下位互換性を有する利点によって過補償される。
【0034】
図2は、
図1の復号器をさらに、信号化34に対応しない復号器との下位互換性をなお維持しながらTNS(Temporal Noise Shaping:テンポラルノイズシェーピング)符号化をサポートするように構成できることを示す。特に、
図2は、逆TNSフィルタリングを行う場合は、任意の複素ステレオ予測42及びMS復号46の後に行う可能性を示している。下位互換性を維持するために逆変換器16は、それぞれのTNS係数64を使用して信号化34にかかわらずN個の係数の系列に対して逆TNSフィルタリング62を実施するように構成されている。この方策によって、データストリーム20は、信号化34にかかわらずTNS係数64を等しく符号化する。すなわち、TNS係数の数及びこれを符号化する方法は同じである。一方、逆変換器16は、TNS係数64を別様に適用するように構成されている。現在のフレームが長い変換フレームである場合、逆TNSフィルタリングは長い変換54、すなわち、インターリーブされた状態で系列化されている周波数ドメイン係数に対して実施され、現在のフレームが信号化34によって分割された変換フレームとして信号伝達されている場合、逆変換器16は、先行する変換50及び後続する変換52の連結、すなわち、インデックス0、2、…、N-2、1、3、5、…、N-1の周波数ドメイン係数の系列を逆TNSフィルタリング62する。逆TNSフィルタリング62は、例えば、フィルタを適用する逆変換器16を含むことができ、そのフィルタの伝達関数はデインターリーバ38の上流の処理系列を通過した係数のデインターリーブ又はインターリーブされた系列に対するTNS係数64に従って設定される。
【0035】
したがって、分割されたフレームタイプのフレームを誤って長い変換フレームとして処理する「旧式」の復号器は、2つの実時間変換すなわち50及び52の連結を分析することによって符号化器によって生成されているTNS係数64を、変換54へ適用し、したがって、変換54に対して適用される逆変換によって不正確な時間ドメイン部分60を生成する。しかしながら、そのような分割変換フレームの使用を信号が雨又は拍手などを表す場合に制限する場合、そのような復号器においてたとえこの品質劣化が発生するとしても、これは聴き手にとって耐えられるものであり得る。
【0036】
網羅性のために、
図3は、逆変換器16の逆TNSフィルタリング62は、
図2に示されている処理系列内のどこかほかにも挿入できることを示している。例えば、逆TNSフィルタリング62は、複素ステレオ予測42の上流に配置することができる。逆TNSフィルタリング62の下流及び上流においてデインターリーブされたドメインを保持するために、
図3は、周波数ドメイン係数24が事前にのみデインターリーブ66されている場合において、これまでに処理されたときの周波数ドメイン係数24がインデックス0、2、4、…、N-2、1、3、…、N-3、N-1の順序になっているデインターリーブ連結状態内で逆TNSフィルタリング68を実施するために、周波数ドメイン係数を、再びそれらのインターリーブされた順序0、1、2、…、N-1における逆TNSフィルタリングされたバージョンで得るようにデインターリーブが逆転70されることを示している。
図2に示されている処理ステップ系列内の逆TNSフィルタリング62の位置は、固定であってもよく、又は、例えば、フレームごとに又は何らかの他の粒度においてなどで、データストリーム20を介して信号伝達してもよい。
【0037】
説明を軽減するために、上記の実施形態は、長い変換フレーム及び分割変換フレームの併記のみに集中していることに留意すべきである。しかしながら、本出願の実施形態は、8つの短い変換から成るフレームのような他の変換タイプのフレームを導入することによって同様に拡張することもできる。これに関連して留意すべきことは、前述した非依存性は、さらなる信号化によって、任意の第3の変換タイプのそのような他のフレームから区別されるフレームのみに関係し、それによって、「旧式」の復号器は、すべてのフレームに含まれるさらなる信号化を検査することによって、分割された変換フレームを誤って長い変換フレームとして処理するということであり、他のフレーム(分割変換及び長い変換フレームを除くすべて)から区別されるフレームのみが信号化34を含む。そのような他のフレーム(分割変換及び長い変換フレームを除くすべて)に関する限り、留意することは、コンテキスト選択などのような抽出器12及び14の動作モードは、さらなる信号化に依存し得るということ、すなわち、そのような動作モードは、分割変換及び長い変換フレームに適用される動作モードとは異なり得るということである。
【0038】
上述した復号器の実施形態に適合する適切な符号化器を説明する前に、xHE-AACベースのオーディオ符号化器/復号器を、下位互換的な変換分割をサポートすることを可能にするように適応的に更新するのに適している、上記の実施形態の実施態様を説明する。
【0039】
すなわち、以下において、低ビットレートにおける特定のオーディオ信号の符号化品質を改善する目的で、MPEG-D xHE-AAC(USAC)に基づくオーディオコーデックにおいて変換長分割を実施する方法の可能性を説明する。変換分割ツールは、旧来のxHE-AAC復号器が明白なオーディオエラー又は脱落なしに上記の実施形態に従ってビットストリームを構文解析及び復号することができるように、半下位互換的に信号伝達される。以下に示すように、この半下位互換的信号化は、ノイズ充填の使用状況を条件付き符号化様式で制御するフレーム構文要素の使用されていない可能性のある値を利用する。旧来のxHE-AAC復号器は、それぞれのノイズ充填構文要素のこれらの可能性のある値に対応しないが、改善されたオーディオ復号器は対応する。
【0040】
特に、下記に説明する実施態様は、上述した実施形態と一致して、雨又は拍手と同様の符号化信号のための中間変換長、好ましくは分割された長いブロック、すなわち、長いブロックのスペクトル長の半分又は4分の1の各々である2つの連続する変換を提供することを可能にし、これらの変換の間の最大の時間的重複は、連続する長いブロック間の最大の時間的重複よりも小さい。変換分割を有する符号化ビットストリーム、すなわち信号化34、が旧来のxHE-AAC復号器によって読み出され構文解析されることを可能にするために、分割は半下位互換的に使用されるべきであり、そのような変換分割ツールが存在することによって、旧来の復号器が復号を停止するか又はさらには復号を開始しなくなるべきではない。xHE-AACインフラストラクチャによるそのようビットストリームの可読性はまた、市場採用を促進することもできる。xHE-AAC又はその可能性のある派生物に関して変換分割を使用するための、ちょうど言及した半下位互換性の目的を達成するために、変換分割はxHE-AACのノイズ充填信号化を介して信号伝達される。上述した実施形態に従って、xHE-AAC符号化器/復号器への変換分割を構築するために、周波数ドメイン(FD)停止-開始窓系列の代わりに、2つの別個の半長変換から構成される分割変換を使用することができる。時間的に連続する半長変換は、変換分割をサポートしていない復号器、すなわち旧来のxHE-AAC復号器、のために、係数ごとに単一の停止-開始状ブロックにインターリーブされる。ノイズ充填信号化を介した信号伝達は以下に説明するように実施される。特に8ビットノイズ充填サイド情報を、変換分割を信号伝達するのに使用できる。たとえ適用されるべきノイズレベルがゼロであっても8ビットすべてが送信されるとMPEG-D規格[4]が述べているため、これは実現可能である。その状況において、ノイズ充填ビットのいくつかを、変換分割、すなわち信号化34に再使用することができる。
【0041】
旧来のxHE-AAC復号器によるビットストリーム構文解析及び再生に関する半下位互換性は、以下のように保証することができる。変換分割はゼロのノイズレベル、すなわちすべてゼロの値を有する最初の3つのノイズ充填ビットを介して信号伝達され、それに変換分割及び失われるノイズレベルに関するサイド情報を含む5つの非ゼロビット(従来はノイズオフセットを表す)が続く。旧来のxHE-AAC復号器は、3ビットノイズレベルがゼロである場合に5ビットオフセットの値を無視するため、変換分割信号化34の存在は、旧来の復号器におけるノイズ充填にしか影響を及ぼさない。すなわち、最初の3ビットがゼロであるため、ノイズ充填はオフにされ、残りの復号動作は意図した通りに作動する。特に、分割変換は、(上述の係数インターリーブに起因して)全長逆変換を用いて従来の停止-開始ブロックのように処理され、デインターリーブは実施されない。したがって、旧来の復号器は、変換分割タイプのフレームが到達したときに出力信号22を弱めるか、又は、さらには復号を中断する必要がないため、依然として、改善されたデータストリーム/ビットストリーム20の「グレースフル」な復号を可能にする。当然ながら、そのような旧来の復号器は、分割変換フレームの正確な再構築をもたらすことは不可能であり、結果として、例えば、
図1による適切な復号器による復号と比較すると影響を受けるフレームにおいて品質が劣化してしまう。それにもかかわらず、変換分割が意図される通りに、すなわち、低ビットレートにおける過渡的な又はノイズの多い入力に対してのみ使用されると仮定すると、xHE-AAC復号器による品質は、影響を受けるフレームが、弱まることに起因して脱落するか、又は、他の様態で明白な再生エラーをもたらす場合よりも良好になるはずである。
【0042】
具体的には、xHE-AAC符号化器/復号器の変換分割に向けての拡張は以下の通りとすることができる。
【0043】
上記の説明に従って、xHE-AACに使用されるべき新規のツールは、変換分割(TS:transform splitting)と呼ぶことができる。変換分割は、xHE-AACの周波数ドメイン(FD)符号化器、又は、例えば、USAC[4]に基づいているMPEG-H 3D-Audioにおける新規のツールである。変換分割は、このとき、通常の長い変換(低ビットレートにおいて時間的な不鮮明さ、特にプリエコーをもたらす)又は8つの短い変換(低ビットレートにおいてスペクトルホール及びバブルアーティファクトをもたらす)に対する代替形態として、特定の過渡信号通過に対して使用可能である。このとき、変換分割は、旧来のMPEG-D USAC復号器によって正確に構文解析することができる長い変換にFD係数をインターリーブすることによって半下位互換的に信号伝達できる。
【0044】
このツールの説明は上記の説明と同様である。変換分割が長い変換においてアクティブであるとき、1つの全長MDCTの代わりに2つの半長MDCTが利用され、2つのMDCTすなわち50及び52の係数が、ラインごとにインターリーブされるように送信される。インターリーブ送信は、例えば、周波数ドメイン(停止)開始変換の場合にすでに使用されており、時間的に最初のMDCTの係数が偶数インデックスに配置されており、時間的に2番目のMDCTの係数が奇数インデックスに配置されている(インデックス付けがゼロにおいて始まる場合)が、停止-開始変換を処理することが可能でない復号器は、データストリームを正確に構文解析することができていない。すなわち、周波数ドメイン係数をエントロピー符号化するのに使用される種々のコンテキストはそのような停止-開始変換、すなわち半分の変換に合理化された変化した構文、に有効であるので、停止-開始窓をサポートすることが可能でないいずれの復号器も、それぞれの停止-開始窓フレームを無視しなければならなかった。
【0045】
上述した実施形態に戻って手短に参照すると、これは、
図1の復号器が、これまで提示してきた説明を超えて、あるいは、さらなる変換長、すなわち、信号化34を拡張する信号化を使用して2つよりもさらに多い変換に特定のフレーム26を区分化することをサポートすることが可能になり得る。しかしながら、信号化34を使用して始動される分割変換以外の、フレーム26の変換区分化の併記に関して、FD係数抽出器12及びスケーリング係数抽出器14は、それらの動作モードが信号化34に加えてさらなる信号化に応じて変化するという点において、この信号化に応答する。さらに、56及び59による分割変換タイプ以外の信号伝達される変換タイプに対して調整された、TNS係数、MSパラメータ及び複素予測パラメータの合理化された送信は、各復号器が、これらの「既知の変換タイプ」又は60による長い変換タイプを含むフレームと、例えば、AACの場合におけるような8つの短い変換への1つの区分化フレームのような他の変換タイプとの間の信号化選択に応答すること、すなわち、理解することが可能でなければならないことを必要とする。その場合、この「既知の信号化」は、信号化34が分割変換タイプを信号伝達するフレーを長い変換タイプのフレームとして識別し、それによって、信号化34を理解することが可能でない復号器が、これらのフレームを8つの短い変換タイプのフレームのような他のタイプのフレームではなく、長い変換フレームとして処理する。
【0046】
再びxHE-AACの可能な拡張の説明に戻って、変換分割ツールをこの符号化の枠組みに組み込むために、特定の動作制限が生じ得る。例えば、変換分割は、周波数ドメインの長い開始又は停止-開始窓においてのみ使用されることを許可され得る。すなわち、基礎となる構文要素 window_sequence が1に等しくなることを要求され得る。加えて、半下位互換性信号伝達に起因して、構文要素 noiseFilling が構文コンテナ UsacCoreConfig() において1であるときにのみ変換分割を適用することができることが要件になり得る。変換分割がアクティブであるように信号伝達されるとき、TNS及び逆MDCTを除くすべての周波数ドメインツールがインターリーブされた(長い)TS係数セットに対して動作する。これによって、スケール係数帯域オフセット及び長い変換算術符号化器テーブルならびに窓形状及び重複長さを再使用することが可能になる。
【0047】
以下において、[4]において記載されているUSAC規格が、下位互換性変換分割機能を提供するためにどのように拡張され得るかについて説明するために、以下において使用される用語及び定義を提示する。関心のある読者のために、その規格内のセクションを参照することがある。
【0048】
新規のデータ要素は以下の通りであり得る。
split_transform: 変換分割が現在のフレーム及びチャネルにおいて利用されているか否かを示す2値フラグ
【0049】
新規の補助要素は以下の通りであり得る。
window_sequence: 現在のフレーム及びチャネルの周波数ドメイン窓系列タイプ(セクション6.2.9)
noise_offset: ゼロ量子化帯域のスケール係数を修正するためのノイズ充填オフセット(セクション7.2)
noise_level: 追加されるスペクトルノイズの大きさを表すノイズ充填レベル(セクション7.2)
half_transform_length: coreCoderFrameLengthの2分の1(ccfl、変換長、セクション6.1.1)
half_lowpass_line: 現在のチャネルについて送信されるMDCTラインの数の2分の1
【0050】
USACの枠組みにおける変換分割(TS)を使用した周波数ドメイン(停止-)開始変換の復号が、以下のように純粋に連続したステップにおいて実施され得る。
【0051】
最初に split_transform 及び half_lowpass_line の復号が実施できる。
【0052】
split_transform は実際には独立したビットストリーム要素を表すのではなく、ノイズ充填要素、noise_offset 及び noise_level、ならびに、UsacChannelPairElement()の場合の、StereoCoreToolInfo()内の common_window フラグから導出される。noiseFilling == 0である場合、split_transform は0である。そうでない場合、以下のようになる。
【数1】
【0053】
言い換えれば、noise_level == 0である場合、noise_offset はsplit_transform フラグを含み、それには4ビットのノイズ充填データが続き、これらはその後再配列される。この動作は noise_level 及び noise_offset の値を変化させるため、セクション7.2のノイズ充填プロセスの前に実行されなければならない。さらに、UsacChannelPairElement()において common_window == 1である場合、split_transform は左(第1の)チャネルのみにおいて決定され、右チャネルの split_transform は左チャネルのsplit_transformに等しく設定され(そこから複製され)、上記の疑似コードは右チャネルでは実行されない。
【0054】
half_lowpass_line は、「長い」スケール係数帯域オフセットテーブルswb_offset_long_window 及び現在のチャネルの max_sfb、又は、ステレオでかつcommon_window == 1である場合は max_sfb_ste から決定される。
【0055】
StereoCoreToolInfo() 及び common_window == 1を有する要素内では max_sfb_ste であり、そうでない場合、lowpass_sfb =max_sfb である。igFilling フラグに基づいて、half_lowpass_line は以下のように導出される。
【数2】
【0056】
その後、第2のステップとして、テンポラルノイズシェーピングのための半長スペクトルのデインターリーブが実施される。
【0057】
スペクトル逆量子化、ノイズ充填、及びスケール係数の適用後で、テンポラルノイズシェーピング(TNS:Temporal Noise Shaping)の適用の前に、spec[]内のTS係数が、ヘルパーbuffer[]を使用してデインターリーブされる。
【数3】
【0058】
インプレース(in-place)のデインターリーブによって、2つの半長TSスペクトルが互いの上に効率的に配置され、TNSツールは、結果としてもたらされる全長疑似スペクトルに対して通常通りに動作する。
【0059】
上記を参照して、そのような手順が
図3に関連して説明されている。
【0060】
その後、第3のステップとして、2つの連続する逆MDCTとともに、時間的再インターリーブが使用される。
【0061】
現在のフレームにおいて common_window == 1 であるか、又はTNS復号後にステレオ復号が実施される場合(セクション7.8において tns_on_lr == 0)、spec[] は全長スペクトルに時間的に再インターリーブされなければならない。
【数4】
【0062】
結果としてもたらされる疑似スペクトルはステレオ復号(セクション7.7)に使用されて、dmx_re_prev[] が更新される(セクション7.7.2及びA.1.4)。tns_on_lr == 0 の場合、ステレオ復号された全長スペクトルが再びセクションA.1.3.2のプロセスを反復することによってデインターリーブされる。最後に、2つの逆MDCTが ccfl 及び現在の及び最後のフレームのそのチャネルの window_shape を用いて計算される。セクション7.9及び
図1を参照されたい。
【0063】
xHE-AACの複素予測ステレオ復号に何らかの修正を行うことができる。
【0064】
xHE-AAC内にTSを組み込むために、黙示的な半下位互換的信号伝達方法を代替として使用することができる。
【0065】
上記には、split_transform に含まれる、本発明の変換分割の使用状況を本発明の復号器に信号伝達するためにビットストリーム中の1ビットを利用する手法を述べた。特に、そのような信号伝達(明示的半下位互換的信号伝達と呼ぶ)は、後続の旧来のビットストリームデータ(ここでは、ノイズ充填サイド情報)が、本発明の信号とは無関係に使用されることを可能にする。すなわち、本発明の実施形態において、ノイズ充填データは変換分割データに依存せず、変換分割データもノイズ充填データに依存しない。例えば、すべてゼロから構成されるノイズ充填データ(noise_level = noise_offset = 0)を送信することができ、一方で、split_transform はいずれの可能な値(0又は1のいずれかの2値フラグである)も保持できる。
【0066】
そのように、旧来のビットストリームデータと本発明のビットストリームデータとの間の厳密な独立が必要とされず、本発明の信号が二分決定である場合、信号伝達ビットを明示的に送信することを回避することができ、この二分決定は、黙示的半下位互換的信号伝達と呼ばれ得るものが存在するかしないかによって信号伝達することができる。再び上記の実施形態を例として取り上げると、変換分割の使用状況は、単純に本発明の信号伝達を使用することによって送信できる。すなわち、noise_levelがゼロであり、同時に noise_offset がゼロでない場合、split_transform は1に等しく設定される。noise_level及び noise_offset の両方がゼロでない場合、split_transform は0に等しく設定される。noise_level 及び noise_offset の両方がゼロであるとき、旧来のノイズ充填信号に対する、本発明の黙示的な信号の依存性が生じる。この場合、旧来の黙示的信号伝達が使用されているか、又は、本発明の黙示的信号伝達が使用されているかは不明確である。そのような曖昧さを回避するために、split_transform の値が前もって規定されなければならない。本例において、ノイズ充填データがすべてゼロから構成される場合、これは、変換分割を有しない旧来の符号化器が、ノイズ充填がフレーム内で使用されるべきではない場合を信号伝達すべきものであるため、split_transform = 0を規定することが適切である。
【0067】
黙示的半下位互換的信号伝達の場合に解決すべきまま残っている問題は、同時にsplit_transform == 1及びノイズ充填がないことを信号伝達する方法である。前述のように、ノイズ充填データはすべてゼロであってはならず、ゼロのノイズの大きさが必要とされる場合、noise_level(上記のような(noise_offset & 14)/2)は0に等しくならなければならない。これによって、0よりも大きい noise_offset (上記のような(noise_offset & 1)
*16)のみが解として残る。好都合なことに、USAC[4]に基づく復号器においてノイズ充填が実施されない場合、noise_offset の値は無視され、そのため、この手法は、本発明の実施形態において実現可能であることが分かる。それゆえ、上記のような疑似コードにおける split_transform の信号伝達は、noise_offset のための1ビットではなく2ビット(4つの値)を送信するために noise_offset を送信するために確保されているTS信号伝達ビットを使用して、以下のように変更できる。
【数5】
【0068】
したがって、この代替形態を適用して、USACの記述は、以下の説明を使用して拡張することができる。
【0069】
ツールの記述は大まかには同じである。すなわち、
長い変換において変換分割(TS)がアクティブであるとき、1つの全長MDCTの代わりに2つの半長MDCTが利用される。2つのMDCTの係数は、従来の周波数ドメイン(FD)変換のようにラインごとにインターリーブされるように送信され、時間的に最初のMDCTの係数は偶数インデックスに配置され、時間的に2番目のMDCTの係数は奇数インデックスに配置される。
【0070】
動作制限が、TSがFD長-開始又は停止-開始窓においてのみ使用できること(window_sequence == 1)、及び、TSが、noiseFilling が UsacCoreConfig()において1であるときにのみ適用できることを必要とし得る。TSが信号伝達されるとき、TNS及び逆MDCTを除くすべてのFDツールがインターリーブされた(長い)TS係数セットに対して動作する。これによって、スケール係数帯域オフセット及び長い変換算術符号化器テーブルならびに窓形状及び重複長さを再使用することが可能になる。
【0071】
以下において使用される用語及び定義は、以下の補助要素を含む。
common_window: CPEのチャネル0及びチャネル1が同一の窓パラメータを使用する場合を示す(ISO/IEC 23003-3:2012セクション6.2.5.1.1参照)。
window_sequence: 現在のフレーム及びチャネルのFD窓系列タイプ(ISO/IEC 23003-3:2012セクション6.2.9参照)。
tns_on_lr: TNSフィルタリングの動作モードを示す(ISO/IEC 23003-3:2012セクション7.8.2参照)。
noiseFilling: このフラグは、FDコア符号化器におけるスペクトルホールのノイズ充填の使用状況を信号伝達する(ISO/IEC 23003-3:2012セクション6.1.1.1参照)。
noise_offset: ゼロ量子化帯域のスケール係数を修正するためのノイズ充填オフセット(ISO/IEC 23003-3:2012セクション7.2参照)。
noise_level: 追加されるスペクトルノイズの大きさを表すノイズ充填レベル(ISO/IEC 23003-3:2012セクション7.2参照)。
split_transform: TSが現在のフレーム及びチャネルにおいて利用されているか否かを示す2値フラグ。
half_transform_length: coreCoderFrameLengthの2分の1(ccfl、変換長、ISO/IEC 23003-3:2012セクション6.1.1参照)。
half_lowpass_line: 現在のチャネルについて送信されるMDCTラインの数の2分の1。
【0072】
TSを含む復号プロセスは、以下のように説明できる。特に、TSを伴うFD(停止-)開始変換の復号が、以下のように3つの連続するステップにおいて実施される。
【0073】
最初に、split_transform 及び half_lowpass_line の復号が実施される。補助要素split_transform は独立したビットストリーム要素を表すのではなく、ノイズ充填要素、noise_offset 及び noise_level、ならびに、UsacChannelPairElement()の場合の、StereoCoreToolInfo()内の common_window フラグから導出される。noiseFilling == 0である場合、split_transform は0である。そうでない場合は以下のようになる。
【数6】
【0074】
言い換えれば、noise_level == 0である場合、noise_offset はsplit_transform フラグを含み、それには4ビットのノイズ充填データが続き、これらはその後再配列される。この動作は noise_level 及び noise_offset の値を変化させるため、ISO/IEC 23003-3:2012セクション7.2のノイズ充填プロセスの前に実行されなければならない。
【0075】
さらに、UsacChannelPairElement()においてcommon_window == 1である場合、split_transformは左(第1の)チャネルのみにおいて決定され、右チャネルのsplit_transformは左チャネルのsplit_transformに等しく設定され(そこから複製され)、上記の疑似コードは右チャネルでは実行されない。
【0076】
補助要素 half_lowpass_line は、「長い」スケール係数帯域オフセットテーブル、swb_offset_long_window 及び現在のチャネルの max_sfb、又は、ステレオでかつcommon_window == 1である場合は max_sfb_ste から決定される。
【数7】
【0077】
igFilling フラグに基づいて、half_lowpass_line は以下のように導出される。
【数8】
【0078】
その後、テンポラルノイズシェーピングのための半長スペクトルのデインターリーブが実施される。
【0079】
スペクトル逆量子化、ノイズ充填、及びスケール係数の適用後で、テンポラルノイズシェーピング(TNS)の適用の前に、spec[ ]内のTS係数がヘルパー buffer[]を使用してデインターリーブされる。
【数9】
【0080】
インプレースのデインターリーブによって、2つの半長TSスペクトルが互いの上に効率的に配置され、TNSツールが次に結果としてもたらされる全長疑似スペクトルに対して通常通りに動作する。
【0081】
最後に、時間的な再インターリーブ及び2つの連続する逆MDCTを使用できる。
【0082】
現在のフレームにおいて common_window == 1であるか、又はTNS復号後にステレオ復号が実施される場合(セクション7.8において tns_on_lr == 0)、spec[] が全長スペクトルに時間的に再インターリーブされなければならない。
【数10】
【0083】
結果としてもたらされる疑似スペクトルはステレオ復号((ISO/IEC 23003-3:2012セクション7.7)に使用されて、dmx_re_prev[] が更新され((ISO/IEC 23003-3:2012セクション7.7.2)、tns_on_lr == 0 の場合、ステレオ復号された全長スペクトルが再び、そのセクションのプロセスを反復することによってデインターリーブされる。最後に、ccfl 並びに現在及び最後のフレームのそのチャネルの window_shape を用いて、2つの逆MDCTが計算される。
【0084】
TSに対する処理は、ISO/IEC 23003-3:2012セクション「7.9 フィルタバンク及びブロック切替え」に与えられている記述に従う。以下の追加事項が考慮に入れられるべきである。
【0085】
spec[] におけるTS係数は、window_sequence 値に基づく窓長Nをもつヘルパー buffer[] を使用してデインターリーブされる。
【数11】
【0086】
このとき、半長TSに対するIMDCTは、以下のように規定される。
【数12】
【0087】
後続のウィンドウィング及びブロック切替えステップは次のサブセクションにおいて規定される。
【0088】
STOP_START_SEQUENCE による変換分割は、以下の記述のように見える。
【0089】
変換分割と組み合わさったSTOP_START_SEQUENCEは
図2に示されている。これは、1024 (960, 768)であるN_l/2の長さを有する2つの重畳及び加算された半長窓56、58を含む。N_sがそれぞれ256 (240, 192)に設定される。
【0090】
2つの半長IMDCTに対する窓(0,1)は以下のように与えられる。
【数13】
ここで、第1のIMDCTについて窓
【数14】
が適用され、第2のIMDCTについて、窓
【数15】
が適用される。
【0091】
ウィンドウィングされた時間ドメイン値 zi,n をもたらす2つの半長窓の間の重畳及び加算は、以下のように説明される。ここで、それぞれ N_l は2048 (1920, 1536)に設定され、N_s は256 (240, 192)に設定される。
【数16】
【0092】
LONG_START_SEQUENCEによる変換分割は、以下の記述のように見える。
【0093】
変換分割と組み合わさったLONG_START_SEQUENCEは
図4に示されている。これは、以下のように規定される3つの窓を含み、それぞれ N_l/ は1024 (960, 768)に設定され、N_s は256 (240, 192)に設定される。
【数17】
【数18】
【0094】
左/右窓半部は、以下によって与えられる。
【数19】
【数20】
【0095】
第3の窓は LONG_START_WINDOW の左半分に等しい。
【数21】
ここで、
【数22】
【0096】
中間のウィンドウィングされた時間ドメイン値
【数23】
をもたらす2つの半長窓の間の重畳及び加算は、以下のように説明される。ここで、それぞれ N_l は2048 (1920, 1536)に設定され、N_s は256 (240, 192)に設定される。
【数24】
【0097】
W2 を適用することによって、最終的なウィンドウィングされた時間ドメイン値 Z
i,n が得られる。
【数25】
【0098】
使用されている半下位互換的信号伝達が明示的であるか又は黙示的であるか(両方とも上述されている)にかかわらず、インターリーブされたスペクトルに対する有意義な動作を達成するために、xHE-AACの複素予測ステレオ復号に対して何らかの修正が必要なことがある。
【0099】
複素予測ステレオ復号に対する修正は、以下のように実施できる。
【0100】
TSがチャネル対においてアクティブであるとき、FDステレオツールはインターリーブされた疑似スペクトルに対して動作するため、基礎となるM/S又は複素予測処理に変更は必要ない。しかしながら、ISO/IEC 23003-3:2012セクション7.7.2における先行するフレームのダウンミックス dmx_re_prev[] の導出及びダウンミックス MDST dmx_im[] の計算は、TSが最後又は現在のフレームのいずれかのチャネルにおいて使用される場合に適合される必要がある。
【0101】
・ TSが最後から現在のフレームへといずれかのチャネル内でアクティブに変化した場合、use_prev_frame は0でなければならない。言い換えれば、その場合は変換長に起因して dmx_re_prev[] は使用されてはならない。
【0102】
・ TSがアクティブであったか又はアクティブである場合、dmx_re_prev[] 及びdmx_re[] はインターリーブされた疑似スペクトルを指定し、正確なMDST計算のために、それらの対応する2つの半長TSスペクトルにデインターリーブされなければならない。
【0103】
・ TSがアクティブになると、適合されたフィルタ係数(表1及び表2)を使用して2つの半長MDSTダウンミックスが計算され、(ちょうど dmx_re[] のように)全長スペクトル dmx_im[] にインターリーブされる。
【0104】
・ window_sequence: ダウンミックスMDST推定値が、各グループ窓対について計算される。2つの半部窓対のうちの第1の半部窓対のみについて use_prev_frame が評価される。残りの窓対については、先行する窓対がMDST推定に常に使用され、これは use_prev_frame = 1であることを暗示する。
【0105】
・ 窓形状: 現在の窓に対するMDST推定パラメータは下記に説明するようなフィルタ係数であり、左窓半部及び右窓半部の形状に依存する。第1の窓については、これは、フィルタパラメータが、現在のフレーム及び先行するフレームの window_shape フラグの関数であることを意味する。残りの窓は、現在の window_shape のみの影響を受ける。
【0106】
【0107】
【0108】
最後に、
図5は、完全を期すために、上記で概説した実施形態に適合している変換長切替えをサポートする可能な周波数ドメインオーディオ符号化器を示す。すなわち、全体的に参照符号100を使用して示されている
図5の符号化器はオーディオ信号102をデータストリーム20に符号化することでき、その符号化は、上述した
図1の復号器及び対応する変形形態がいくつかのフレームについて変換分割
モードを利用することができ、一方で「旧式」の復号器が、依然として構文解析エラーなどなしにTSフレームを処理することができるように行われる。
【0109】
図5の符号化器100は、変換器104と、逆スケーラ106と、周波数ドメイン係数挿入器108と、スケール係数挿入器110とを備える。変換器104は、符号化されるべきオーディオ信号102を受信し、オーディオ信号の時間ドメイン部分を変換してオーディオ信号のフレームの周波数ドメイン係数を得るように構成されている。特に、上記の説明から明らかになったように、変換器104は、これらのフレーム26の変換、又は変換窓、へのいずれの区分化が使用されるかについて、フレームごとに決定する。上記で説明したように、フレーム26は等しい長さとすることができ、変換は異なる長さの重なり合う変換を使用した重複変換とすることができる。
図5は、例えば、フレーム26aが1つの長い変換を受け、フレーム26bが変換分割、すなわち、半分の長さの2つの変換を受け、さらなるフレーム26cが長い変換長の2
-nの長さの、3つ以上、すなわち2
n>2個のさらにより短い変換を受けることを示している。上述したように、この方策によって、符号化器100は、変換器104によって実施される重複変換によって表されるスペクトログラムのスペクトル-時間分解能を、オーディオ信号102の時間的に変化するオーディオ内容又はオーディオ内容の種類に適合させることができる。
【0110】
すなわち、オーディオ信号102のスペクトログラムを表す周波数ドメイン係数が、変換器104の出力にもたらされる。逆スケーラ106は変換器104の出力に接続されており、スケール係数に従って周波数ドメイン係数を逆スケーリングし、同時に量子化するように構成されている。特に、逆スケーラは、変換器104によって周波数係数が得られた時にそれらの周波数係数に対して動作する。すなわち、逆スケーラ106は、必ず、フレーム26に対する変換長割り当て又は変換モード割り当てについて知っている必要がある。また、逆スケーラ106がスケール係数を決定する必要があることにも留意されたい。この目的のために、逆スケーラ106は、例えば、オーディオ信号102について決定される心理音響マスキング閾値を評価するフィードバック・ループの部分であり、量子化によって導入されスケール係数に従って漸進的に設定される量子化ノイズを、何らかのビットレート制限に従って又は従うことなく、可能な限り心理音響検出閾値を下回ったままに維持する。
【0111】
逆スケーラ106の出力にスケール係数及び逆スケーリングされ量子化された周波数ドメイン係数が出力され、スケール係数挿入器110はデータストリーム20にスケール係数を挿入するように構成されており、周波数ドメイン係数挿入器108は、スケール係数に従って逆スケーリングされ量子化された、オーディオ信号のフレームの周波数ドメイン係数をデータストリーム20に挿入するように構成されている。復号器に対応するように、挿入器108及び110の両方は、長い変換モードのフレーム26a及び変換分割モードのフレーム26bの併記に関する限り、フレーム26と関連付けられる変換モードとはかかわりなく動作する。
【0112】
言い換えれば、挿入器110及び108は、変換器104がそれぞれフレーム26a及び26bのためにデータストリーム20において信号伝達するように、又は、データストリーム20に挿入するように構成されている上述した信号化34とは無関係に動作する。
【0113】
言い換えれば、上記の実施形態において、長い変換及び分割変換フレームの変換係数を適切に、すなわち、単純な連続配列又はインターリーブによって配列するものが変換器104であり、挿入器は、実際に信号化34とは無関係に動作する。しかし、より一般的な意味において、周波数ドメイン係数挿入器の、信号化からの独立が、スケール係数に従って逆スケーリングされているオーディオ信号の各長い変換及び分割変換フレームの周波数ドメイン係数の系列をデータストリームに挿入することに制限されることで十分である。それは、信号化に応じて、フレームが長い変換フレームである場合には、インターリーブされないように、1つの変換の周波数ドメイン係数を連続して配列することによって周波数ドメイン係数の系列が形成され、それぞれのフレームが分割変換フレームである場合には、それぞれのフレームの2つ以上の変換の周波数ドメイン係数をインターリーブすることによって周波数ドメイン係数の系列が形成される点においてである。
【0114】
周波数ドメイン係数挿入器108に関する限り、これが、一方におけるフレーム26aと他方におけるフレーム26bとの間を区別する信号化34とは無関係に動作するという事実は、挿入器108が、スケール係数に従って逆スケーリングされているオーディオ信号のフレームの周波数ドメイン係数をデータストリーム20に挿入し、その挿入が、1つの変換がそれぞれのフレームについてインターリーブされないように実施される場合には連続的に挿入し、2つ以上の変換、すなわち、
図5の例においては2つの変換がそれぞれのフレームについて実施される場合には、インターリーブを使用してそれぞれのフレームの周波数ドメイン係数を挿入するようになされることを意味する。しかしながら、すでに上記で示したように、変換分割モードは1つの変換を3つ以上の変換に分割するように、別様に実施することもできる。
【0115】
最後に、留意すべきことは、
図5の符号化器は、MS符号化、複素ステレオ予測42及びTNSのような、
図2に関連して上記で概説したすべての他の追加の符号化手段を実施するように適合化することもでき、この目的のためにそのそれぞれのパラメータ44、48及び64が決定されるということである。
【0116】
いくつかの態様が装置に関して説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップに関して説明されている態様も、対応する装置の対応するブロック、物又は特徴の説明を表す。方法ステップのいくつか又はすべては、例えば、マイクロプロセッサ、プログラム可能コンピュータ又は電子回路のようなハードウェア装置によって(又はそれを使用して)実施することができる。いくつかの実施形態において、最も重要な方法のうちのどれか1つ又は複数は、そのような装置によって実施することができる。
【0117】
特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実施することができる。その実施は、それぞれの方法が実現されるようにプログラム可能コンピュータシステムと協働する(又は協働できる)電子的に読取り可能な信号が記憶されているデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリを使用して実現することができる。それゆえ、そのデジタル記憶媒体はコンピュータ読取可能とすることができる。
【0118】
本発明によるいくつかの実施形態は、本明細書に記載されている方法のうちの1つが実施されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な信号が記憶されているデータ担体を含む。
【0119】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することができ、そのプログラムコードはこのコンピュータプログラム製品がコンピュータ上で作動すると上記方法のうちの1つを実施するように動作可能である。そのプログラムコードは、例えば、機械読取り可能な担体上に記憶することができる。
【0120】
他の実施形態は、機械読取り可能な担体上に記憶され、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを含む。
【0121】
言い換えれば、本発明の方法の一実施形態は、それゆえ、プログラムコードを有するコンピュータプログラムであり、そのプログラムコードはこのコンピュータプログラムがコンピュータ上で作動すると、本明細書に記載されている方法のうちの1つを実施するためのものである。
【0122】
本発明の方法のさらなる実施形態は、それゆえ、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを記録しているデータ担体(又はデジタル記憶媒体、又はコンピュータ読取り可能な媒体)である。そのデータ担体、デジタル記憶媒体又はコンピュータ読取り可能な媒体は、一般的に有形及び/又は非遷移型である。
【0123】
本発明の方法のさらなる実施形態は、それゆえ、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを表すデータストリーム又は信号系列である。そのデータストリーム又は信号系列は、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成することができる。
【0124】
さらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するように構成又は適合化されている処理手段、例えば、コンピュータ又はプログラム可能な論理デバイスを含む。
【0125】
さらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0126】
本発明によるさらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを受信機に(例えば、電子的又は光学的に)転送するように構成されている装置又はシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。その装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。
【0127】
いくつかの実施形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を本明細書に記載されている方法の機能のいくつか又はすべてを実施するために使用することができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法のうちの1つを実施するために、マイクロプロセッサと協働することができる。一般的に、本発明の方法は好ましくは、任意のハードウェア装置によって実施される。
【0128】
上述した実施形態は本発明の原理の例示にすぎない。当然のことながら、本明細書に記載されている構成及び詳細の修正形態及び変形形態は、他の当業者には明らかとなろう。それゆえ、意図するところは、本発明は、本明細書における実施形態の記述及び説明によって提示されている特定の詳細ではなく、添付の特許請求項の範囲によってのみ限定されるということである。
【0129】
[請求項1]
変換長切替えをサポートする周波数ドメインオーディオ復号器であって、
データストリームからオーディオ信号のフレームの周波数ドメイン係数(24)を抽出するように構成されている周波数ドメイン係数抽出器(12)と、
前記データストリームからスケール係数を抽出するように構成されているスケール係数抽出器(14)と、
前記オーディオ信号の時間ドメイン部分を得るために、前記スケール係数に従ってスケーリングされた、前記フレームの前記周波数ドメイン係数を逆変換するように構成されている逆変換器(16)と、
前記オーディオ信号を得るために前記時間ドメイン部分を組み合わせるように構成されている結合器(18)と、を備え、
前記逆変換器は、前記オーディオ信号の前記フレーム内の信号化に応答し、それによって、前記信号化に応じて、
前記スケール係数に従ってスケーリングされた、それぞれのフレームの前記周波数ドメイン係数をデインターリーブされないように連続的に配列することによって1つの変換を形成し、前記1つの変換に第1の変換長の逆変換を行うか、又は
前記スケール係数に従ってスケーリングされた、前記それぞれのフレームの前記周波数ドメイン係数をデインターリーブすることによって2つ以上の変換を形成し、前記2つ以上の変換の各々に、前記第1の変換長よりも短い第2の変換長の逆変換を行い、
前記周波数ドメイン係数抽出器及び前記スケール係数抽出器は前記信号化とは無関係に動作する周波数ドメインオーディオ復号器。
[請求項2]
前記スケール係数抽出器(14)は、前記信号化とは無関係であるスペクトル-時間分解能で前記データストリームから前記スケール係数を抽出するように構成されている請求項1に記載の周波数ドメインオーディオ復号器。
[請求項3]
前記周波数ドメイン係数抽出器(12)は、各周波数ドメイン係数について、前記信号化にかかわらず同じコンテキスト又はコードブックを前記それぞれの周波数ドメイン係数に割り当てることによって、前記データストリームから前記周波数ドメイン係数を抽出するためにコンテキストベース又はコードブックベースのエントロピー復号を使用する請求項1又は2に記載の周波数ドメインオーディオ復号器。
[請求項4]
前記逆変換器は、前記周波数ドメイン係数に、前記信号化とは無関係のスペクト分解能で前記スケール係数によるスケーリングを行うように構成されている請求項1から3のいずれか一項に記載の周波数ドメインオーディオ復号器。
[請求項5]
前記逆変換器は、前記周波数ドメイン係数にノイズ充填を行うように構成されており、前記周波数ドメイン係数はデインターリーブされないように、かつ、前記信号化とは無関係のスペクトル分解能で、連続的に配列されている請求項1から4のいずれか一項に記載の周波数ドメインオーディオ復号器。
[請求項6]
前記逆変換器は、
前記1つの変換の前記形成において、前記周波数ドメイン係数に対して逆テンポラルノイズシェーピングフィルタリングを適用し、ここで、前記周波数ドメイン係数はデインターリーブされないように連続的に配列されており、
前記2つ以上の変換の前記形成において、前記周波数ドメイン係数に対して逆テンポラルノイズシェーピングフィルタリングを適用するように構成されており、ここで、前記周波数ドメイン係数はデインターリーブされるように連続的に配列され、それに従って前記2つ以上の変換がスペクトル的に連結されている請求項1から5のいずれか一項に記載の周波数ドメインオーディオ復号器。
[請求項7]
前記逆変換器は、チャネル間ステレオ予測を用いるか又は用いることなくジョイントステレオ符号化をサポートし、前記チャネル間ステレオ予測の和(中間)スペクトルもしくは差(外側)スペクトル又は予測残差として前記周波数ドメイン係数を使用するように構成されており、前記周波数ドメイン係数は、前記信号化にかかわらず、デインターリーブされないように配列されている請求項1から6のいずれか一項に記載の周波数ドメインオーディオ復号器。
[請求項8]
前記2つ以上の変換の数は2に等しく、前記第1の変換長は前記第2の変換長の2倍である請求項1から7のいずれか一項に記載の周波数ドメインオーディオ復号器。
[請求項9]
前記逆変換は、逆修正離散コサイン変換MDCTである請求項1から8のいずれか一項に記載の周波数ドメインオーディオ復号器。
[請求項10]
変換長切替えをサポートする周波数ドメインオーディオ符号化器であって、
オーディオ信号の時間ドメイン部分を変換して、前記オーディオ信号のフレームの周波数ドメイン係数を得るように構成されている変換器(104)と、
スケール係数に従って前記周波数ドメイン係数を逆スケーリングするように構成されている逆スケーラ(106)と、
スケール係数に従って逆スケーリングされた、前記オーディオ信号の前記フレームの前記周波数ドメイン係数を前記データストリームに挿入するように構成されている周波数ドメイン係数挿入器(108)と、
スケール係数を前記データストリームに挿入するように構成されているスケール係数挿入器(110)と、を備え、
前記変換器は、前記オーディオ信号の前記フレームについて、少なくとも、それぞれのフレームの第1の変換長の1つの変換の実施と、前記それぞれのフレームの、前記第1の変換長よりも短い第2の変換長の2つ以上の変換の実施との間で切り替えるように構成されており、
前記変換器は、前記データストリームの前記フレーム内の信号化によって前記切替えを信号伝達するようにさらに構成されており、
前記周波数ドメイン係数挿入器は、それぞれのフレームについて、スケール係数に従って逆スケーリングされた、前記オーディオ信号の前記それぞれのフレームの前記周波数ドメイン係数の系列を、前記信号化とは無関係に、前記データストリームに挿入するように構成されており、
前記周波数ドメイン係数の系列は、前記信号化に応じて、前記それぞれのフレームについて1つの変換が実施される場合には、それぞれのフレームの前記1つの変換の前記周波数ドメイン係数を、インターリーブされないように連続的に配列することによって、及び 前記それぞれのフレームについて2つ以上の変換が実施される場合には、前記それぞれのフレームの前記2つ以上の変換の前記周波数ドメイン係数をインターリーブすることによって形成され、
前記スケール係数挿入器は、前記信号化とは無関係に動作する周波数ドメインオーディオ符号化器。
[請求項11]
変換長切替えをサポートする周波数ドメインオーディオ復号のための方法であって、
データストリームからオーディオ信号のフレームの周波数ドメイン係数を抽出するステップと、
前記データストリームからスケール係数を抽出するステップと、
前記オーディオ信号の時間ドメイン部分を得るために、スケール係数に従ってスケーリングされた、前記フレームの前記周波数ドメイン係数を逆変換するステップと、
前記オーディオ信号を得るために前記時間ドメイン部分を組み合わせるステップと、を含み、
前記逆変換するステップは、前記オーディオ信号の前記フレーム内の信号化に応答し、それによって、前記信号化に応じて、
それぞれのフレームの前記周波数ドメイン係数を、デインターリーブされないように連続的に配列することによって1つの変換を形成し、前記1つの変換に第1の変換長の逆変換を行うこと、又は
前記それぞれのフレームの前記周波数ドメイン係数をデインターリーブすることによって2つ以上の変換を形成し、前記2つ以上の変換の各々に前記第1の変換長よりも短い第2の変換長の逆変換を行うことを含み、
前記周波数ドメイン係数の前記抽出及び前記スケール係数の前記抽出は前記信号化とは無関係である方法。
[請求項12]
変換長切替えをサポートする周波数ドメインオーディオ符号化のための方法であって、
オーディオ信号の時間ドメイン部分に変換を行って前記オーディオ信号のフレームの周波数ドメイン係数を得るステップと、
スケール係数に従って前記周波数ドメイン係数を逆スケーリングするステップと、
スケール係数に従って逆スケーリングされた、前記オーディオ信号の前記フレームの前記周波数ドメイン係数をデータストリームに挿入するステップと、
前記データストリームにスケール係数を挿入するステップと、を含み、
前記変換を行うステップは、前記オーディオ信号の前記フレームについて、少なくともそれぞれのフレームの第1の変換長の1つの変換の実施と、前記それぞれのフレームの、前記第1の変換長よりも短い第2の変換長の2つ以上の変換の実施との間で切り替え、
該方法は、前記データストリームの前記フレーム内の信号化によって前記切替えを信号伝達するステップをさらに含み、
前記周波数ドメイン係数の前記挿入は、それぞれのフレームについて、スケール係数に従って逆スケーリングされた、前記オーディオ信号の前記それぞれのフレームの前記周波数ドメイン係数の系列を、前記信号化とは無関係に、前記データストリームに挿入することによって実施され、
前記周波数ドメイン係数の系列は、前記信号化に応じて、前記それぞれのフレームについて1つの変換が実施される場合には、前記それぞれのフレームの前記1つの変換の前記周波数ドメイン係数をインターリーブされないように連続的に配列することによって、及び前記それぞれのフレームについて2つ以上の変換が実施される場合には、前記それぞれのフレームの前記2つ以上の変換の前記周波数ドメイン係数をインターリーブことによって形成され、
前記スケール係数の挿入は前記信号化とは無関係に実施される方法。
[請求項13]
コンピュータ上で作動すると、請求項11又は12に記載の方法を実施するためのプログラムコードを有するコンピュータプログラム。