IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特開2023-53255全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023053255
(43)【公開日】2023-04-12
(54)【発明の名称】全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
(51)【国際特許分類】
   G10L 19/02 20130101AFI20230404BHJP
   G10L 19/26 20130101ALI20230404BHJP
【FI】
G10L19/02 150
G10L19/26 A
G10L19/26 B
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023019921
(22)【出願日】2023-02-13
(62)【分割の表示】P 2021026052の分割
【原出願日】2015-07-24
(31)【優先権主張番号】14178817.4
(32)【優先日】2014-07-28
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100205981
【弁理士】
【氏名又は名称】野口 大輔
(72)【発明者】
【氏名】デッシュ,サッシャ
(72)【発明者】
【氏名】ディーツ,マルチン
(72)【発明者】
【氏名】ムルトルス,マルクス
(72)【発明者】
【氏名】フッハス,ギローム
(72)【発明者】
【氏名】ラベリ,エマニュエル
(72)【発明者】
【氏名】ノイジンガー,マティアス
(72)【発明者】
【氏名】シュネル,マルクス
(72)【発明者】
【氏名】シューベルト,ベンヤミン
(72)【発明者】
【氏名】グリル,ベルンハルト
(57)【要約】      (修正有)
【課題】並列的な周波数ドメイン及び時間ドメインの符号器/復号器プロセッサを使用する、オーディオ符号器、複合器及び方法を提供する。
【解決手段】オーディオ符号器は、オーディオ信号を分析しオーディオ信号のどの部分が周波数ドメインで符号化される第1オーディオ信号部分であるか及びオーディオ信号のどの部分が時間ドメインで符号化される第2オーディオ信号部分であるかを決定する。第1オーディオ信号部分は、最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換され、変換された周波数ドメイン表現を最大周波数まで分析して第1スペクトル分解能で符号化されるべき第1スペクトル部分を決定し、かつ、第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル部分を決定し、第1スペクトル部分を第1スペクトル分解能で符号化し、かつ、第2スペクトル部分を第2スペクトル分解能で符号化する。
【選択図】図6
【特許請求の範囲】
【請求項1】
オーディオ信号を符号化するオーディオ符号器において、
前記オーディオ信号の第1オーディオ信号部分を周波数ドメインで符号化する第1符号化プロセッサ(600)であって、
前記第1オーディオ信号部分をこの第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換する、時間-周波数変換部(602)と、
前記周波数ドメイン表現を前記最大周波数まで分析して、第1スペクトル分解能で符号化されるべき第1スペクトル部分の第1セットを決定し、かつ前記第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル部分の第2セットを決定し、第1スペクトル部分の前記第1のセットからの第1のスペクトル部分(306)は、周波数に関して、第2のスペクトル部分の前記第2のセットからの2つの第2のスペクトル部分(307a,307b)の間に配置される、分析部(604)と、
前記第1スペクトル部分の前記第1のセットを前記第1スペクトル分解能で符号化しかつ前記第2スペクトル部分の前記第2のセットを前記第2スペクトル分解能で符号化する、スペクトル符号器(606)と、
を有する第1符号化プロセッサ(600);
前記オーディオ信号の異なる第2オーディオ信号部分を時間ドメインで符号化する第2符号化プロセッサ(610);
前記オーディオ信号を分析し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定する、コントローラ(620);及び
前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成する符号化済み信号形成部(630);
を備えるオーディオ符号器。
【請求項2】
請求項1に記載のオーディオ符号器において、
前記第1オーディオ信号部分及び前記第2オーディオ信号部分を前処理するよう構成された前処理部(1000)を更に含み、
前記前処理部(1000)は前記オーディオ信号から予測係数を決定する予測分析部(1002)を含み、
前記第2符号化プロセッサ(610)は、前記予測係数の量子化されたバージョンを生成する予測係数量子化部(1010)と、その量子化された前記予測係数の符号化済みバージョンを生成するエントロピー符号器と、を含み、
前記符号化済み信号形成部(630)は、前記符号化済みバージョンを前記符号化済みオーディオ信号の中に導入するよう構成されている、
オーディオ符号器。
【請求項3】
請求項1に記載のオーディオ符号器において、
前記オーディオ信号を前処理するよう構成された前処理部(1000)をさらに備え、
前記前処理部(1000)は、
前記オーディオ信号を前記第2符号化プロセッサ(610)のサンプリングレートへとリサンプリングしてリサンプリングされたオーディオ信号を取得するリサンプラ(1004)と、前記リサンプリングされたオーディオ信号を使用して予測係数を決定するよう構成され、前記予測係数は前記符号化済みオーディオ信号に導入される、予測分析部(1002)と、
前記第1オーディオ信号部分について1つ以上の長期予測パラメータを決定する長期予測分析ステージ(1006)であって、前記1つ以上の長期予測パラメータは前記符号化済みオーディオ信号に導入される、長期予測分析ステージ(1006)と、を含む
オーディオ符号器。
【請求項4】
請求項1に記載のオーディオ符号器において、
前記オーディオ信号内で前記第1オーディオ信号部分に時間的に直後に後続する前記第2オーディオ信号部分の符号化のために前記第2符号化プロセッサ(610)が初期化されるように、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2符号化プロセッサ(610)の初期化データを計算するクロスプロセッサ(700)をさらに含む、
オーディオ符号器。
【請求項5】
請求項4に記載のオーディオ符号器において、
前記クロスプロセッサ(700)は、前記第1符号化済み信号部分の復号化済みバージョンを計算するスペクトル復号器(701)を含む、
オーディオ符号器。
【請求項6】
請求項1に記載のオーディオ符号器において、
前記第2符号化プロセッサ(610)が以下のブロック群の少なくとも1つのブロックを含む、オーディオ符号器:
予測分析フィルタ(611);
適応型符号帳ステージ(612);
革新的符号帳ステージ(614);
革新的符号帳エントリを推定する推定部(613);
ACELP/ゲイン符号化ステージ(615);
予測合成フィルタリングステージ(616);
デエンファシス・ステージ(617);
低音ポストフィルタ分析ステージ(618)。
【請求項7】
符号化済みオーディオ信号を復号化するオーディオ復号器において、
第1の符号化済みオーディオ信号部分を周波数ドメインで復号化する第1復号化プロセッサ(1120)であって、
第1スペクトル部分(306)を高いスペクトル分解能で復号化し、かつ第2スペクトル部分(307a,307b)をそれら第2スペクトル部分(307a,307b)のパラメトリック表現と少なくとも1つの復号化済み第1スペクトル部分とを使用して合成することで、復号化済みスペクトル表現を取得するスペクトル復号器(1122)であって、前記スペクトル復号器(1122)は、第1スペクトル部分(306)が周波数に関して2つの第2スペクトル部分(307a,307b)の間に配置されるように、前記復号化済みスペクトル表現を生成するように構成されている、スペクトル復号器(1122)と、
前記復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を得る、周波数-時間変換部(1124)と、
を含む、第1復号化プロセッサ(1120);
第2の符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2オーディオ信号部分を取得する第2復号化プロセッサ(1140);及び
前記復号化済み第1オーディオ信号部分と前記復号化済み第2オーディオ信号部分とを結合して復号化済みオーディオ信号を取得する結合部(1160);
を備えるオーディオ復号器。
【請求項8】
請求項7に記載のオーディオ復号器において、
前記第1復号化プロセッサ(1120)は、前記復号化済み第1オーディオ信号部分をポストフィルタリングする適応型長期予測ポストフィルタ(1420)を含み、前記適応型長期予測ポストフィルタ(1420)が、前記符号化済みオーディオ信号の中に含まれる1つ以上の長期予測パラメータにより制御される、
オーディオ復号器。
【請求項9】
請求項7に記載のオーディオ復号器において、
前記符号化済みオーディオ信号内で時間的に前記第1オーディオ信号部分に後続する前記第2の符号化済みオーディオ信号部分を復号化するために、前記第2復号化プロセッサ(1140)が初期化されるように、前記第1の符号化済みオーディオ信号部分の前記復号化済みスペクトル表現から前記第2復号化プロセッサ(1140)の初期化データを計算するクロスプロセッサ(1170)を更に含む、
オーディオ復号器。
【請求項10】
請求項7に記載のオーディオ復号器において、
前記第2復号化プロセッサ(1140)が以下のブロック群の少なくとも1つのブロックを含む、オーディオ復号器:
ゲイン及び革新的符号帳を復号化するACELP;
適応型符号帳合成ステージ(1141);
ACELP後処理部(1142);
予測合成フィルタ(1143);及び
デエンファシス・ステージ(1144)。
【請求項11】
オーディオ信号を符号化する方法において、
前記オーディオ信号の第1オーディオ信号部分を周波数ドメインで第1符号化するステップ(600)であって、
前記第1オーディオ信号部分を前記第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換するサブステップ(602)と、
前記周波数ドメイン表現を前記最大周波数まで分析し、第1スペクトル分解能で符号化されるべき第1スペクトル部分の第1セットと前記第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル部分の第2セットとを決定するサブステップ(604)であって、第1スペクトル部分の前記第1セットからの第1スペクトル部分(306)が周波数に関して第2スペクトル部分の前記第2セットからの2つの第2スペクトル部分(307a,307b)の間に配置される、サブステップ(604)と、
前記第1スペクトル部分の前記第1セットを前記第1スペクトル分解能で符号化し、前記第2スペクトル部分の前記第2セットを前記第2スペクトル分解能で符号化するサブステップ(606)と、
を有する、第1符号化するステップ(600);
前記オーディオ信号の異なる第2オーディオ信号部分を時間ドメインで第2符号化するステップ(610);
前記オーディオ信号を分析し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定するステップ(620);及び
前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成するステップ(630);
を含む方法。
【請求項12】
符号化済みオーディオ信号を復号化する方法において、
第1の符号化済みオーディオ信号部分を周波数ドメインで第1復号化するステップ(1120)であって、
第1スペクトル部分(306)を高いスペクトル分解能で復号化し、かつ第2スペクトル部分(307a,307b)をそれら第2スペクトル部分(307a,307b)のパラメトリック表現と少なくとも1つの復号化済み第1スペクトル部分とを使用して合成することで、復号化済みスペクトル表現を取得する、サブステップ(1122)であって、第1スペクトル部分(306)が周波数に関して2つのスペクトル部分(307a,307b)の間に配置されるように前記復号化済みスペクトル表現を生成することを含む、サブステップ(1122)と、
前記復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を得る、サブステップ(1124)と、
を有する第1復号化ステップ(1120);
第2の符号化済みオーディオ信号部分を時間ドメインで第2復号化して復号化済み第2オーディオ信号部分を取得する第2復号化ステップ(1140);及び
前記復号化済み第1オーディオ信号部分と前記復号化済み第2オーディオ信号部分とを結合して復号化済みオーディオ信号を取得するステップ(1160);
を備える方法。
【請求項13】
コンピュータ又はプロセッサ上で作動するときに、請求項11に記載の方法を実行するコンピュータプログラム。
【請求項14】
コンピュータ又はプロセッサ上で作動するときに、請求項12に記載の方法を実行するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ信号符号化及び復号化に関し、特に、並列的な周波数ドメイン及び時間ドメインの符号器/復号器プロセッサを使用する、オーディオ信号処理に関する。
【背景技術】
【0002】
オーディオ信号を効率的に蓄積又は伝送するようデータ削減する目的で知覚的に符号化することは、広く使用されている作業である。特に、最低ビットレートを達成すべき場合には、使用される符号化がオーディオ品質の低下もたらし、それは主に、符号化側での伝送されるべきオーディオ信号帯域幅の制限によって引き起こされる。この場合、オーディオ信号は典型的には、所定の予め決定されたカットオフ周波数よりも高域側にスペクトル波形コンテンツが何も残らないように、低域通過フィルタ処理されている。
【0003】
現代のコーデックにおいては、オーディオ信号帯域幅拡張(BWE)を介する復号器側の信号復元について公知の方法が存在する。例えば、周波数ドメインで作動するスペクトル帯域複製(SBR)があり、又は、時間ドメインで作動するスピーチ符号器内の後処理器であるいわゆる時間ドメイン帯域幅拡張(TD-BWE)がある。
【0004】
加えて、AMR-WB+又はUSACなどの用語で知られる、複数の結合型の時間ドメイン/周波数ドメイン符号化概念が存在する。
【0005】
これら結合型の時間ドメイン/周波数ドメイン符号化概念の共通点は、周波数ドメイン符号器が帯域幅拡張技術に依拠しており、その拡張技術が入力オーディオ信号に帯域制限をもたらし、クロスオーバー周波数又は境界周波数より高い部分は低い分解能の符号化概念で符号化されて、復号器側で合成される。従って、そのような概念は、符号器側の前処理器の技術と、復号器側の対応する後処理機能とに主に依拠する。
【0006】
典型的には、時間ドメイン符号器は、スピーチ信号などのように時間ドメインで符号化されるべき有用な信号のために選択され、周波数ドメイン符号器は、非スピーチ信号や楽音などのために選択される。しかし、特に高周波数帯域において顕著なハーモニクスを有する非スピーチ信号については、従来技術の周波数ドメイン符号器では正確さが低下し、従ってオーディオ品質が劣化する。なぜなら、そのような顕著なハーモニクスは、別個にパラメトリックに符号化され得るだけか、又は符号化/復号化処理の中で全く除外されるからである。
【0007】
更に、高周波数領域がパラメトリックに符号化される一方で、低周波数領域は、例えばスピーチ符号器などACELP又は他の任意のCELP関連符号器を使用して典型的に符号化されるような帯域幅拡張に、時間ドメイン符号化/復号化分枝が更に依拠するような概念も存在する。このような帯域幅拡張機能は、ビットレート効率を増大させるが、他方では更なる非柔軟性をもたらしてしまう。その理由は、入力オーディオ信号内に含まれる最大周波数よりも実質的に低い所定のクロスオーバー周波数よりも高域側で作動する、帯域幅拡張処理又はスペクトル帯域複製処理に起因して、両方の符号化分枝、即ち周波数ドメイン符号化分枝及び時間ドメイン符号化分枝が帯域制限されるからである。
【0008】
現状技術における関連する項目には以下が含まれる。
-波形復号化に対する後処理部としてのSBR(非特許文献1~3)
-MPEG-D USAC コア切換え(非特許文献4)
-MPEG-H 3D IGF(特許文献1)
【0009】
以下の文献及び特許文献は、本願の先行技術を構成すると想定される方法を開示している。
【0010】
MPEG-D USACでは、切換え可能なコア符号器が説明されている。しかし、USACにおいては、帯域制限されたコアは常に低域通過フィルタリング済みの信号を伝送するよう制限されている。従って、顕著な高周波数コンテンツを含む所定の音楽信号、例えば全帯域スイープ(full-band sweeps)やトライアングル音などは忠実に再現されることができない。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】[5]PCT/EP2014/065109
【非特許文献】
【0012】
【非特許文献1】[1] M. Dietz, L. Liljeryd, K. Kjoerling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, Germany, 2002.
【非特許文献2】[2] S. Meltzer, R. Boehm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale”(DRM),” in 112th AES Convention, Munich, Germany, 2002.
【非特許文献3】[3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, Germany, 2002.
【非特許文献4】[4] MPEG-D USAC Standard
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明の目的は、オーディオ符号化の改善された概念を提供することである。
【0014】
この目的は、請求項1のオーディオ符号器と、請求項11のオーディオ復号器と、請求項20のオーディオ符号化方法と、請求項21のオーディオ復号化方法又は請求項22、23のコンピュータプログラムによって達成される。
【0015】
本発明は次のような知見に基づく。即ち、時間ドメインの符号化/復号化プロセッサは、ギャップ充填機能を有する周波数ドメインの符号化/復号化プロセッサと結合できるが、スペクトルの穴を充填するためのこのギャップ充填機能は、オーディオ信号の全帯域に亘って作動するか、又は少なくとも所定のギャップ充填周波数より高周波側で作動する。重要なことは、周波数ドメインの符号化/復号化プロセッサが、特に、正確な又は波形もしくはスペクトル値の符号化/復号化を最大周波数まで実行する立場にあり、クロスオーバー周波数までだけではないということである。更に、周波数ドメイン符号器が全帯域を高い分解能で符号化する能力により、ギャップ充填機能を周波数ドメイン符号器内に統合することが可能となる。
【0016】
このように、本発明によれば、全帯域スペクトル符号器/復号器プロセッサを使用することで、帯域幅拡張を一方としコア符号化を他方とする分離に関連する課題が、コア復号器が作動する同じスペクトルドメインで帯域幅拡張を実行することにより、対処され克服され得る。そのため、全オーディオ信号領域を符号化及び復号化する全レートコア復号器が設けられる。これは、符号器側のダウンサンプラ及び復号器側のアップサンプラを必要としない。その代わり、全体の処理が全サンプリングレート又は全帯域幅ドメインで実行される。高い符号化ゲインを得るために、オーディオ信号は分析されて、高い分解能で符号化されるべき第1スペクトル部分の第1セットを発見し、この第1スペクトル部分の第1セットは、一実施形態においてオーディオ信号の調性部分を含んでもよい。他方、第2スペクトル部分の第2セットを構成しているオーディオ信号の非調性又はノイズの多い成分は、低いスペクトル分解能でパラメトリックに符号化される。次に、符号化済みのオーディオ信号は、高いスペクトル分解能で波形保存的な方法で符号化された第1スペクトル部分の第1セットと、追加的に第1セットを起源とする周波数「タイル」を使用して低い分解能でパラメトリックに符号化された第2スペクトル部分の第2セットと、を必要とするだけである。復号器側では、全帯域復号器であるコア復号器が第1スペクトル部分の第1セットを、波形保存的な方法で、即ち追加的な周波数再生成があるかどうかの知識がない状態で、復元する。しかし、そのように生成されたスペクトルは多くのスペクトルギャップを有する。これらのギャップは、後に本発明のインテリジェント・ギャップ充填(IGF)技術を用いて充填され、そのIGFは、一方ではパラメトリックデータを適用する周波数再生成を使用し、他方ではソーススペクトル領域、即ち全レートオーディオ復号器により復元された第1スペクトル部分を使用する。
【0017】
更なる実施形態において、帯域幅複製又は周波数タイル充填ではなくノイズ充填だけによって復元されたスペクトル部分が、第3スペクトル部分の第3セットを構成する。符号化概念は、コア符号化/復号化を一方とし周波数再生成を他方として単一ドメインで作動するという事実に起因して、IGFは高い周波数領域を充填することに制限されずに低い周波数領域をも充填することができ、これは、周波数再生成なしのノイズ充填、又は異なる周波数領域に1つの周波数タイルを使用した周波数再生成の何れかによって達成される。
【0018】
更に、ここで強調すべきは、スペクトルエネルギーに関する情報、個別のエネルギーに関する情報若しくは個別エネルギー情報、持久エネルギーに関する情報若しくは持久エネルギー情報、タイルエネルギーに関する情報若しくはタイルエネルギー情報、又は、損失エネルギーに関する情報若しくは損失エネルギー情報が、エネルギー値だけでなく、その値から最終的なエネルギー値が導出され得る(例えば絶対値の)振幅値、レベル値、又は他の任意の値をも含み得ることである。従って、エネルギーに関する情報は、例えばエネルギー値そのもの、及び/又は、レベルの値、及び/又は、振幅の値、及び/又は、絶対振幅の値などを含み得る。
【0019】
更なる態様は、相関状態が、ソース領域にとって重要であるだけでなく、目標領域にとっても重要であるという知見に基づいている。更に、本発明は、ソース領域と目標領域との中で異なる相関状態が発生し得ることも認識している。例えば、高周波ノイズを有するスピーチ信号を考慮する場合、その状態は、スピーカが中央に配置されているとき、少数の倍音(overtones)を持つスピーチ信号を含む低周波数帯域が左チャネル及び右チャネルに高度に相関しているという可能性がある。しかし、右側に別の高周波ノイズがあるか又は高周波ノイズがなく、これと比較して左側に異なる高周波ノイズが存在する可能性もあるという事実に起因して、高周波部分は強度に非相関化される可能性もあり得る。従って、この状態を無視するような単純なギャップ充填操作が実行された場合、高周波部分も相関化される可能性があり、またそれにより、復元された信号内で深刻な空間的隔離アーチファクトを生じる可能性がある。この問題に対処するため、復元帯域についてのパラメトリックデータ、又は一般的には、第1スペクトル部分の第1セットを使用して復元されるべき第2スペクトル部分の第2セットについてのパラメトリックデータが、第2スペクトル部分について、又は換言すれば復元帯域について、第1又は第2の何れかの異なる2チャネル表現を識別するために計算される。符号器側においては、2チャネル識別が第2スペクトル部分について計算され、即ちその部分についてさらに復元帯域のエネルギー情報が計算される。復号器側の周波数再生成部は、次に第2スペクトル部分を再生成し、その再生成は、第1スペクトル部分の第1セットの第1部分すなわちソース領域と、スペクトル包絡エネルギー情報又は任意の他のスペクトル包絡データなど第2部分についてのパラメトリックデータとに依存し、更には第2部分すなわち考慮対象のこの復元帯域についての2チャネル識別にも依存している。
【0020】
2チャネル識別は、好ましくは各復元帯域について1つのフラグとして伝送され、このデータは符号器から復号器へと伝送され、次に復号器が、コア帯域について好適に計算されたフラグによって指示される通りにコア信号を復号化する。次に、一実施形態において、コア信号は両方の(例えば左/右の及び中央/サイドの)ステレオ表現内へと格納され、IGF周波数タイル充填のために、インテリジェント・ギャップ充填又は復元帯域、即ち目標領域について、2チャネル識別フラグにより指示された通りの目標タイル表現に適合するようなソースタイル表現が選択される。
【0021】
ここで強調すべきは、この処理がステレオ信号、即ち左チャネル及び右チャネルのためだけに役立つのではなく、多チャネル信号のためにも作動することである。多チャネル信号の場合、異なるチャネルの複数のペアが次のように処理され得る。例えば、左と右のチャネルを第1ペアとし、左サラウンドチャネルと右サラウンドチャネルを第2ペアとし、中央チャネルとLFEチャネルを第3ペアとして処理され得る。例えば7.1や11.1などのより高度な出力チャネルフォーマットについては、他のペアリングも決定され得る。
【0022】
更なる態様は、復元された信号のオーディオ品質はIGFを通じて改善できるという知見に基づく。なぜなら、全スペクトルがコア符号器にアクセス可能であり、その結果、例えば高スペクトル領域内の知覚的に重要な調性部分も、パラメトリック置換ではなくコア符号器によって符号化され得るからである。加えて、ギャップ充填操作が第1スペクトル部分の第1セットからの周波数タイルを使用して実行される。その第1セットとは、例えば典型的には低周波領域からの調性部分のセットであり、もし可能であれば高周波領域からの調性部分のセットでもあり得る。しかし、復号器側のスペクトル包絡調整については、復元帯域内に位置するスペクトル部分の第1セットからのスペクトル部分は、例えばスペクトル包絡調整によって更に後処理される訳ではない。コア復号器を起源としない復元帯域内の残りのスペクトル値だけが、包絡情報を用いて包絡調整されることになる。好ましくは、包絡情報は、復元帯域内の第1スペクトル部分の第1セットと同じ復元帯域内の第2スペクトル部分の第2セットとのエネルギーを示す、全帯域包絡情報であり、第2スペクトル部分の第2セットにおける後者のスペクトル値はゼロと指示され、従ってコア符号器によって符号化されることがなく、低い分解能のエネルギー情報を用いてパラメトリックに符号化される。
【0023】
絶対エネルギー値は、対応する帯域の帯域幅に対して正規化されているか否かに関わらず、復号器側のアプリケーションにおいて有用かつ非常に効率的であることが分かってきた。このことは、ゲインファクタが、復元帯域における残差エネルギー、復元帯域における損失エネルギー、及び復元帯域における周波数タイル情報に基づいて計算されなければならない場合に、特に重要である。
【0024】
更に、符号化済みビットストリームが、復元帯域についてのエネルギー情報をカバーするだけでなく、追加的に、最大周波数まで延びるスケールファクタ帯域のためのスケールファクタをもカバーしていることが望ましい。これにより、所定の調性部分すなわち第1スペクトル部分が利用可能である各復元帯域について、この第1スペクトル部分の第1セットが正しい振幅を用いて実際に復号化され得ることが確保される。更に、各復元帯域についてのスケールファクタに加え、この復元帯域についてのエネルギーが符号器内で生成され、復号器へと伝送される。更に、復元帯域がスケールファクタ帯域と一致することが望ましく、又は、エネルギーグループ化の場合には、復元帯域の少なくとも境界がスケールファクタ帯域の境界と一致することが望ましい。
【0025】
更なる態様は、オーディオ品質におけるある種の劣化が、信号適応型周波数タイル充填スキームを適用することで修復され得るという知見に基づいている。この目的で、符号器側において、ある目標領域のための最良一致ソース領域候補を発見するための分析が実行される。目標領域についてあるソース領域を識別する一致情報と任意選択的な幾つかの追加情報とが一緒に生成され、サイド情報として復号器へと伝送される。その後、復号器は、その一致情報を使用して周波数タイル充填操作を適用する。この目的で、復号器は伝送されたデータストリーム又はデータファイルから一致情報を読み出し、所定の復元帯域について識別されたソース領域にアクセスし、その一致情報に指示されている場合にはこのソース領域データの幾つかの処理を追加的に実行して、復元帯域のための生のスペクトルデータを生成する。次に、周波数タイル充填操作のこの結果、即ち復元帯域のための生のスペクトルデータは、スペクトル包絡情報を使用して整形され、調性部分などの第1スペクトル部分をも含む復元帯域を最終的に取得する。しかし、これらの調性部分は、適応型タイル充填スキームによって生成される訳ではなく、これらの第1スペクトル部分は、オーディオ復号器又はコア復号器によって直接的に出力される。
【0026】
適応型スペクトルタイル選択スキームは、低い粒度で作動してもよい。この実施形態において、1つのソース領域は、典型的にはオーバーラップしている複数のソース領域へとサブ分割され、目標領域又は復元帯域は、非オーバーラップの周波数目標領域により与えられる。次に、各ソース領域と各目標領域との間の類似性が符号器側で決定され、ソース領域と目標領域との最良一致ペアが一致情報により識別され、復号器側では、一致情報の中で識別されたソース領域が、復元帯域のための生のスペクトルデータを生成するために使用される。
【0027】
高い粒度を得る目的で、各ソース領域は、類似性が最大となるラグを得るためにシフトすることが許可されている。このラグは、1つの周波数ビンと同じだけ微細であることができ、ソース領域と目標領域との間のより良好な一致度を得ることを可能にする。
【0028】
更に、最良一致ペアを識別するだけでなく、この相関ラグはまた、一致情報の中で伝送されることもでき、加えて、正負符号さえも伝送され得る。符号器側において正負符号が負と決定された場合、対応する正負フラグも一致情報内で伝送され、復号器側においては、ソース領域のスペクトル値が「-1」で乗算されるか、又は複素表現では180度だけ「回転」される。
【0029】
本発明の更なる実施形態は、タイルホワイトニング操作を適用する。スペクトルのホワイトニングは、粗いスペクトル包絡情報を除去し、タイル類似性を評価するために最も重要なスペクトルの微細構造を強調する。従って、クロス相関尺度を計算する前に、一方では周波数タイルが、及び/又は他方ではソース信号がホワイトニングされる。予め定義された処理を用いてタイルだけがホワイトニングされたとき、復号器に対し予め定義された同じホワイトニング処理が周波数タイルに対してIGF内で適用されるべきであることを指示する、ホワイトニングフラグが伝送される。
【0030】
タイル選択に関し、相関関係のラグを使用して、再生成されたスペクトルを整数個の変換ビン分だけスペクトル的にシフトさせることが望ましい。根底にある変換に依存するが、スペクトルシフトは追加的な修正を必要とする可能性がある。奇数ラグの場合、タイルは、MDCT内における1つおきの帯域の周波数反転された表現を補償するために、-1/1の交互の時間的シーケンスによる乗算を通じて追加的に変調される。更に、周波数タイルを生成するとき、相関結果の正負符号が適用される。
【0031】
更に、同一の復元領域又は目標領域に対してソース領域が急速変化することにより生じるアーチファクトが確実に回避されるようにする目的で、タイルプルーニング(tile pruning)及び安定化処理(stabilization)を用いることが望ましい。この目的で、異なって識別されたソース領域同士の類似性分析が実行され、あるソースタイルが他のソースタイルとある閾値以上の類似性を持って類似している場合、このソースタイルは、他のソースタイルと高い相関性を持つことから、潜在的なソースタイルのセットから削除され得る。更に、タイル選択安定化処理の一種として、現フレーム内のいずれのソースタイルも現フレーム内の目標タイルと(所与の閾値以上に)相関していない場合、前フレームからのタイルオーダーを維持することが望ましい。
【0032】
更なる態様は、特にオーディオ信号内で頻繁に発生するような過渡部分を含む信号に関し、時間的ノイズ整形(TNS)又は時間的タイル整形(TTS)の技術と高周波復元とを組み合わせることで、品質改善及びビットレート削減を達成できる、という知見に基づく。周波数にわたる予測によって行われる符号器側のTNS/TTS処理は、オーディオ信号の時間包絡を復元する。構成に依存して、即ち時間的ノイズ整形フィルタが、ソース周波数領域だけでなく周波数再生成復号器内で復元されるべき目標周波数領域をもカバーする周波数領域内で決定された場合、時間的包絡は、ギャップ充填開始周波数までのコアオーディオ信号に対して適用されるだけでなく、時間的包絡はまた、復元された第2スペクトル部分のスペクトル領域に対しても適用される。このように、時間的タイル整形なしでは発生し得るプリエコー又はポストエコーが低減又は除去される。これは、所定のギャップ充填開始周波数までのコア周波数領域内だけでなく、コア周波数領域より高い周波数領域内においても、逆予測を周波数にわたって適用することで達成される。この目的で、周波数にわたる予測を適用する前に、周波数再生成又は周波数タイル生成が復号器側で実行される。しかし、エネルギー情報計算がフィルタリング後のスペクトル残差値について実行されたか、又は包絡整形前の(全)スペクトル値に対して実行されたかに依存して、周波数にわたる予測はスペクトル包絡整形の前又は後に適用されることができる。
【0033】
1つ以上の周波数タイルにわたるTTS処理は、ソース領域と復元領域との間の相関、2つの隣接する復元領域における相関、又は周波数タイル間の相関の連続性をさらに達成する。
【0034】
一実施形態において、複素TNS/TTSフィルタリングを使用することが望ましい。それにより、MDCTのように臨界サンプリングされた実表現の(時間的)エイリアシングアーチファクトが防止される。複素TNSフィルタは、符号器側において、複素修正変換を得るために修正離散コサイン変換だけでなく修正離散サイン変換をも追加的に適用することで、計算され得る。それにも拘わらず、修正離散コサイン変換値だけ、即ち複素変換の実数部分だけが伝送される。しかし、復号器側においては、先行又は後続のフレームのMDCTスペクトルを使用して、変換の虚数部分を推定することが可能であり、その結果、復号器側では、複素フィルタが周波数にわたる逆予測に再度適用されることができ、具体的には、ソース領域と復元領域との間の境界、及び、復元領域内の周波数的に隣接する周波数タイル間の境界にわたる予測に適用され得る。
【0035】
本発明のオーディオ符号化システムは、任意のオーディオ信号をビットレートのワイドレンジで効率的に符号化する。本発明のシステムは、高ビットレートについては透明性へと収束する一方で、低ビットレートについては知覚的混乱を最小化する。従って、符号器においては、利用可能なビットレートの大部分は、信号の知覚的に最も重要な構造だけを波形符号化することに使用され、結果として生じるスペクトルギャップは、復号器において、オリジナルスペクトルを粗く近似する信号コンテンツを用いて充填される。パラメータ主導の所謂スペクトルのインテリジェント・ギャップ充填(IGF)を、符号器から復号器へと伝送された専用のサイド情報によって制御するために、非常に限定的なビット予算が消費される。
【0036】
更なる実施形態において、時間ドメイン符号化/復号化プロセッサは、低いサンプリングレートと対応する帯域幅拡張機能とに依拠している。
【0037】
更なる実施形態においては、現時点で処理されつつある周波数ドメインの符号器/復号器信号から導出される初期化データを用いて時間ドメインの符号器/復号器を初期化するために、クロスプロセッサが提供される。これにより、現時点で処理されつつあるオーディオ信号部分が周波数ドメイン符号器により処理されている場合、並行する時間ドメイン符号器が初期化されて、周波数ドメイン符号器から時間ドメイン符号器への切換えが行われたときに、この時間ドメイン符号器が処理を開始できるようになる。なぜなら、以前の信号に関係する全ての初期化データが、クロスプロセッサによって既に存在するからである。このクロスプロセッサは、好ましくは符号器側で適用され、追加的に復号器側でも適用され、また好ましくは周波数-時間変換を使用する。その変換は、ドメイン信号の所定の低帯域部分を所定の低減された変換サイズと共に選択するだけで、高い出力又は入力サンプリングレートから、低い時間ドメインコア符号器サンプリングレートへの、非常に効率的なダウンサンプリングを追加的に実行するものである。このように、高サンプリングレートから低サンプリングレートへのサンプリングレート変換が非常に効率的に実行され、低減された変換サイズでの変換によって得られたこの信号は、次に時間ドメイン符号器/復号器を初期化するために使用可能となり、その結果、時間ドメイン符号化がコントローラによって信号伝達され、かつ直前のオーディオ信号部分が周波数ドメインで符号化されていた場合に、時間ドメイン符号器/復号器が時間ドメイン符号化を即座に実行できるよう準備が整った状態になる。
【0038】
このように、本発明の好ましい実施形態は、スペクトルギャップ充填を含む知覚的オーディオ符号器と、帯域幅拡張を持つ又は持たない時間ドメイン符号器との、切れ目ない切換えを可能にする。
【0039】
このように、本発明は、周波数ドメイン符号器内でオーディオ信号からカットオフ周波数より高い高周波コンテンツを取り除くことに限定されず、寧ろ、符号器内ではスペクトルギャップを残してスペクトル帯域通過領域を信号適応的に取り除き、その後でこれらのスペクトルギャップを復号器において復元する、方法に依拠している。好ましくは、全帯域幅オーディオ符号化とスペクトルギャップ充填とを特にMDCT変換ドメインで効率的に結合させるインテリジェント・ギャップ充填のような統合型の解決策が使用される。
【0040】
このように、本発明は、スピーチ符号化及びその後続の時間ドメイン帯域幅拡張と、スペクトルギャップ充填を含む全帯域波形復号化とを、切換え可能な知覚的符号器/復号器へと結合させるための、改善された概念を提供する。
【0041】
このように、既存の方法とは対照的に、新たな概念は、変換ドメイン符号器における全帯域オーディオ信号波形符号化を利用し、同時に、好ましくは時間ドメイン帯域幅拡張へと続くスピーチ符号器への切れ目ない切換えを可能にする。
【0042】
本発明の更なる実施形態は、固定の帯域制限に起因して発生する上述した問題を回避する。この概念は、スペクトルギャップ充填を備えた周波数ドメインの全帯域波形符/復号器と、低いサンプリングレートのスピーチ符/復号器及び時間ドメイン帯域幅拡張との切換え可能な組合せを可能にする。そのような符/復号器は、オーディオ入力信号のナイキスト周波数までの全オーディオ帯域幅を提供する、上述した問題のある信号を波形符号化することができる。しかしながら、両方の符号化方式の間の切れ目ない切換えは、特にクロスプロセッサを有する実施形態により保証される。この切れ目ない切換えのために、クロスプロセッサは、符号器と復号器との両方において、全帯域可能な全レート(入力サンプリングレート)周波数ドメイン符号器と、低いサンプリングレートを有する低レートACELP符号器と、の間のクロス接続を表現するものであり、TCXのような周波数ドメイン符号器からACELPのような時間ドメイン符号器へと切り換える場合に、特に適応型符号帳、LPCフィルタ又はリサンプリングステージ内のACELPパラメータ及びバッファを適切に初期化する。
【0043】
本発明の実施形態について、添付の図面を参照しながら以下に説明する。
【図面の簡単な説明】
【0044】
図1a】オーディオ信号を符号化する装置を示す。
図1b図1aの符号器に適合する、符号化済みオーディオ信号を復号化する復号器を示す。
図2a】復号器の好ましい構成を示す。
図2b】符号器の好ましい構成を示す。
図3a図1bのスペクトルドメイン復号器により生成されたスペクトルの概略的表現を示す。
図3b】スケールファクタ帯域に関するスケールファクタと、復元帯域に関するエネルギーと、ノイズ充填帯域に関するノイズ充填情報との関係を示す表である。
図4a】スペクトル部分の選択をスペクトル部分の第1及び第2のセットへと適用するスペクトルドメイン符号器の機能を示す
図4b図4aの機能の構成を示す。
図5a】MDCT符号器の機能を示す。
図5b】MDCT技術を有する復号器の機能を示す。
図5c】周波数再生成部の構成を示す。
図6】オーディオ符号器の構成を示す。
図7a】オーディオ符号器内のクロスプロセッサを示す。
図7b】クロスプロセッサ内でサンプリングレート低減を追加的に提供する逆又は周波数-時間変換の構成を示す。
図8図6のコントローラの好ましい実施形態を示す。
図9】帯域幅拡張機能を有する時間ドメイン符号器の更なる実施形態を示す。
図10】前処理部の好ましい使用方法を示す。
図11a】オーディオ復号器の概略的構成を示す。
図11b】時間ドメイン復号器のための初期化データを提供する復号器内のクロスプロセッサを示す。
図12図11aの時間ドメイン復号化プロセッサの好ましい構成を示す。
図13】時間ドメイン帯域幅拡張の更なる構成を示す。
図14a-1】オーディオ符号器の好ましい構成の一部を示す。
図14a-2】オーディオ符号器の好ましい構成の残部を示す。
図14b】オーディオ復号器の好ましい構成を示す。
図14c】サンプルレート変換と帯域幅拡張とを有する時間ドメイン復号器の本発明の構成を示す。
【0045】
図6は、第1オーディオ信号部分を周波数ドメインで符号化するための第1符号化プロセッサ600を含む、オーディオ信号を符号化するオーディオ符号器を示す。第1符号化プロセッサ600は、第1入力オーディオ信号部分を入力信号の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換する時間-周波数変換部602を含む。更に、第1符号化プロセッサ600は、その周波数ドメイン表現を最大周波数まで分析する分析部604を含み、その分析部は、第1スペクトル分解能で符号化されるべき第1スペクトル領域を決定し、かつ第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル領域を決定する。特に、この全帯域分析部604は、時間-周波数変換部スペクトルにおけるどの周波数ライン又はどのスペクトル値がスペクトルライン毎に符号化されるべきか、及び他のどのスペクトル部分がパラメトリック方式で符号化されるべきかを決定し、次いでこれら後者のスペクトル部分は復号器側においてギャップ充填処理を用いて復元される。実際の符号化操作はスペクトル符号器606によって実行され、この符号器は、第1スペクトル領域又はスペクトル部分を第1分解能で符号化し、第2スペクトル領域又は部分を第2スペクトル分解能でパラメトリックに符号化する。
【0046】
図6のオーディオ符号器は、オーディオ信号部分を時間ドメインで符号化する第2符号化プロセッサ610を更に含む。更に、オーディオ符号器はコントローラ620を含み、このコントローラは、オーディオ信号入力601においてオーディオ信号を分析し、オーディオ信号のどの部分が周波数ドメインで符号化される第1オーディオ信号部分であり、オーディオ信号のどの部分が時間ドメインで符号化される第2オーディオ信号部分であるかを決定するよう構成されている。更に、例えばビットストリーム・マルチプレクサとして構成され得る符号化済み信号形成部630が設けられ、この信号形成部は、第1オーディオ信号部分についての第1符号化済み信号部分と、第2オーディオ信号部分についての第2符号化済み信号部分と、を含む1つの符号化済みオーディオ信号を形成するよう構成されている。重要な点は、その符号化済み信号は、1つの同じオーディオ信号部分からの周波数ドメイン表現又は時間ドメイン表現のいずれか一方だけを持つことである。
【0047】
そのため、コントローラ620は、単一のオーディオ部分についてただ1つの時間ドメイン表現又は周波数ドメイン表現が符号化済み信号の中に存在することを保証する。このことをコントローラ620によって達成するには、幾つかの方法がある。1つの方法は、1つの同じオーディオ信号部分について、両方の表現がブロック630へと到達し、コントローラ620は、符号化済み信号形成部630がそれら両方の表現のうち一方だけを符号化済み信号内へと導入するように制御する。しかし代替的に、コントローラ620は、対応する信号部分の分析に基づいて、両方のブロック600と610のうちの一方だけが全符号化操作を実際に実行するよう活性化され、他方のブロックが非活性化されるような方法で、第1符号化プロセッサへの入力及び第2符号化プロセッサへの入力を制御することもできる。
【0048】
このような非活性化は、非活性であり得るか、又は、例えば図7aに関して示すように、ある種の「初期化」モードであることもできる。その初期化モードでは、前記他方の符号化プロセッサは、内部メモリを初期化するために初期化データを受信しかつ処理するためにだけ活性化し、如何なる特別な符号化操作も全く実行しない。このような活性化は、図6には図示しない入力における所定のスイッチによって実行でき、又は好ましくは制御ライン621及び622によって実行され得る。よって、この実施形態では、現在のオーディオ信号部分が第1符号化プロセッサにより符号化されるべきであるとコントローラ620が決定したときには、第2符号化プロセッサ610は何も出力せず、その代わり、第2符号化プロセッサは、将来、瞬時に切り換えて活性化されるように初期化データを提供されている。他方、第1符号化プロセッサは、どの内部メモリを更新するためにも如何なる過去からのデータをも必要としないよう構成されており、従って、現在のオーディオ信号部分が第2符号化プロセッサ610によって符号化されるべき時には、コントローラ620は、制御ライン621を介して、第1符号化プロセッサ600が完全に不活性であるよう制御できる。これは、第1符号化プロセッサ600が、初期化状態又は待機状態である必要がなく、完全な非活性状態でいられることを意味する。このことは、電力消費つまりバッテリ寿命が問題となるモバイル装置にとって特に好適である。
【0049】
時間ドメインで作動する第2符号化プロセッサの更なる特定の構成において、第2符号化プロセッサは、オーディオ信号部分を低いサンプリングレートを有する表現へと変換するダウンサンプラ900又はサンプリングレート変換部を含み、その低いサンプリングレートは、第1符号化プロセッサへの入力におけるサンプリングレートよりも低い。このことは図9に示されている。特に、入力オーディオ信号が低帯域と高帯域とを含む場合、ブロック900の出力における低サンプリングレート表現は、入力オーディオ信号部分の低帯域だけを有することが好ましく、この低帯域は次に時間ドメインの低帯域符号器910によって符号化される。この符号器910は、ブロック900によって提供された低サンプリングレート表現を時間ドメイン符号化するよう構成されている。更に、時間ドメインの帯域幅拡張符号器920が高帯域をパラメトリックに符号化するために設けられている。この目的で、時間ドメイン帯域幅拡張符号器920は、入力オーディオ信号の少なくとも高帯域、又は入力オーディオ信号の低帯域及び高帯域を受信する。
【0050】
本発明の更なる実施形態において、オーディオ符号器は、(図6には図示しないが図10に図示するように)第1オーディオ信号部分と第2オーディオ信号部分とを前処理するよう構成された前処理部1000をさらに含む。一実施形態において、この前処理部は、予測係数を決定するための予測分析部を含む。この予測分析部は、LPC(線形予測符号化)係数を決定するためのLPC分析部として構成されてもよい。しかし、他の分析部もまた構成され得る。更に、図14bにも記載した前処理部は、予測係数量子化部1010を含み、図14aに記載のこの装置は、図14aに符号1002で示す予測分析部から予測係数データを受信する。
【0051】
更に、前処理部は追加的に、量子化済み予測係数の符号化済みバージョンを生成するためのエントロピー符号器を含む。重要な点は、符号化済み信号形成部630又は特定の構成、即ちビットストリーム・マルチプレクサ613により、量子化済み予測係数の符号化済みバージョンが、符号化済みオーディオ信号632の中に確実に含まれるようになることである。好ましくは、LPC係数は直接的に量子化される訳ではなく、例えばISFへと変換されるか、又は量子化にとってより適切な他の任意の表現へと変換される。この変換は、好ましくはLPC係数決定ブロック1002により実行されるか、又はLPC係数を量子化するブロック1010の中で実行される。
【0052】
更に、前処理部は、入力サンプリングレートにおけるオーディオ入力信号を時間ドメイン符号器のための低いサンプリングレートへとリサンプリングする、リサンプラ1004を含んでもよい。時間ドメイン符号器があるACELPサンプリングレートを有するACELP符号器である場合、好ましくは12.8kHz又は16kHzへとダウンサンプリングが実行される。入力サンプリングレートは、32kHz又はそれよりも高いサンプリングレートなど、任意の特定数のサンプリングレートであり得る。他方、時間ドメイン符号器のサンプリングレートは、所定の制限によって予め決定されるであろうし、リサンプラ1004はこのリサンプリングを実行して、入力信号のより低いサンプリングレート表現を出力する。よって、リサンプラ1004は、図9の文脈の中で説明したダウンサンプラ900と類似の機能を実行することができ、更にはダウンサンプラ900と同一の構成要素にさえなり得る。
【0053】
更に、図14aに示すプリエンファシスブロック1005においてプリエンファシスを適用することが望ましい。プリエンファシス処理は時間ドメイン符号化の技術において公知であり、AMR-WB+処理に言及する文献の中で示されている。また、プリエンファシスは特にスペクトル傾斜を補償するよう構成されており、これにより、所与のLPC次数におけるLPCパラメータの好適な計算が可能となる。
【0054】
更に、前処理部は、図14b内に符号1420で示すLTP(長期予測)ポストフィルタを制御するための、TCX-LTPパラメータ抽出部を追加的に含んでもよい。このブロックは図14a内で符号1006により示される。加えて、前処理部は符号1007で示す他の機能を追加的に含むこともでき、これら他の機能は、時間ドメインやスピーチ符号化の技術において公知であるピッチ探索機能、ボイス活性検出(VAD)機能、又は他の任意の機能を含んでもよい。
【0055】
上述したように、ブロック1006の結果は符号化済み信号の中に入力され、即ち図14aの実施形態に示すように、ビットストリーム・マルチプレクサ630へと入力される。更に、必要な場合には、ブロック1007からのデータもまた、ビットストリーム・マルチプレクサへと入力されることができ、又は代替的に、時間ドメイン符号器における時間ドメイン符号化のために使用され得る。
【0056】
以上を要約すると、両方の経路に共通して前処理操作1000が存在し、その中で、共通に使用される信号処理操作が実行される。これらの操作は1つの平行経路のためのACELPサンプリングレート(12.8又は16kHz)へのリサンプリングを含み、このリサンプリングは常に実行される。さらにブロック1006で示されるTCX LTPパラメータ抽出が実行され、加えてプリエンファシスとLPC係数の決定とが実行される。上述したようにプリエンファシスはスペクトル傾斜を補償し、よって所与のLPC次数におけるLPCパラメータの計算がより効率的になる。
【0057】
次に、コントローラ620の好ましい実施形態を示す図8を参照されたい。コントローラは、その入力において考慮対象のオーディオ信号部分を受信する。好ましくは、図14aに示すように、コントローラは前処理部1000において使用可能な任意の信号を受信し、その信号は、入力サンプリングレートにおけるオリジナル入力信号、低い時間ドメイン符号器サンプリングレートにおけるリサンプル済みバージョン、又はブロック1005におけるプリエンファシス処理の後で取得される信号のいずれでもよい。
【0058】
このオーディオ信号部分に基づいて、コントローラ620は、周波数ドメイン符号器シミュレータ621と時間ドメイン符号器シミュレータ622とに対し、各符号器について、推定された信号対ノイズ比を計算するよう指令する。次いで、選択部623は、所定のビットレートを考慮して、より良好な信号対ノイズ比を提供した符号器を選択する。選択部は次に、制御出力を介して対応する符号器を識別する。考慮対象のオーディオ信号部分が周波数ドメイン符号器を使用して符号化されるべきと決定された場合、時間ドメイン符号器は初期化状態へとセットされるか、又は他の実施形態においては、完全な非活性化状態への瞬時の切換えを必要としない。しかしながら、考慮対象のオーディオ信号部分が時間ドメイン符号器によって符号化されるべきと決定された場合、周波数ドメイン符号器は非活性化される。
【0059】
次に、図8に示すコントローラの好ましい実施形態について説明する。ACELP経路又はTCX経路のいずれを選ぶべきかの決定は、ACELP及びTCX符号器をシミュレートし、より良好に実行できる分枝に切り換えることで、切換え決定部において実行される。このため、ACELP及びTCX分枝のSNRが、ACELP及びTCXの符号器/復号器シミュレーションに基づいて推定される。TCXの符号器/復号器シミュレーションは、TNS/TTS分析、IGF符号器、量子化ループ/算術符号器、又はいずれのTCX復号器をも使用せずに実行される。代わりに、TCX SNRは、整形されたMDCTドメインにおける量子化部歪みの推定を使用して推定される。ACELP符号器/復号器のシミュレーションは、適応型符号帳及び革新的符号帳のシミュレーションだけを使用して実行される。ACELP SNRは、LTPフィルタにより重み付き信号ドメイン(適応型符号帳)内に導入された歪みを計算し、この歪みを定数ファクタ(革新的符号帳)によりスケーリングすることで、単純に推定される。このようにして、TCX及びACELP符号化が並列に実行される手法と比べ、複雑性が大幅に低減される。より高いSNRを有する分枝が、後続の完全な符号化作動のために選択される。
【0060】
TCX分枝が選択された場合、各フレームでTCX復号器が作動し、ACELPサンプリングレートにおける信号を出力する。この信号は、ACELP符号化経路(LPC残差、Mem we、メモリ・デエンファシス)のために使用されるメモリを更新するために使用され、TCXからACELPへの瞬時の切換えを可能にする。メモリの更新は各TCX経路内で実行される。
【0061】
代替的に、完全な合成による分析処理が実行され得る。即ち、両方の符号器シミュレータ621、622が実際の符号化操作を行い、それらの結果が選択部623により比較される。代替的にまた、完全なフィードフォワード計算が信号分析を実行することにより行われ得る。例えば、信号分類部により信号がスピーチ信号であると決定された場合には、時間ドメイン符号器が選択され、信号が楽音信号であると決定された場合には、周波数ドメイン符号器が選択される。考慮対象のオーディオ信号部分の信号分析に基づく両方の符号器間の識別のための他の手法も、また適用可能である。
【0062】
好ましくは、オーディオ符号器は、図7aに示すクロスプロセッサ700を追加的に含み得る。周波数ドメイン符号器600が活性化しているとき、クロスプロセッサ700は時間ドメイン符号器610に対して初期化データを提供し、時間ドメイン符号器が将来の信号部分において切れ目のない切換えに対応できるようにする。換言すれば、現在の信号部分は周波数ドメイン符号器を使用して符号化されるべきと決定され、かつ直後のオーディオ信号部分は時間ドメイン符号器610によって符号化されるべき、とコントローラが決定した場合、上述のクロスプロセッサがなくては、そのような即時の切れ目のない切換えは不可能であろう。しかし、クロスプロセッサは、時間ドメイン符号器内のメモリを初期化する目的で、周波数ドメイン符号器600から導出された信号を時間ドメイン符号器610へと提供する。なぜなら、時間ドメイン符号器610は、時間的に直前のフレームの入力信号又は符号化済み信号からの、現フレームの依存性を有するからである。
【0063】
このように、時間ドメイン符号器610は、周波数ドメイン符号器600により符号化された以前のオーディオ信号部分に後続するオーディオ信号部分を効率的な方法で符号化できるように、初期化データによって初期化されるよう構成されている。
【0064】
特に、クロスプロセッサは、周波数ドメイン表現を時間ドメイン表現へと変換する周波数-時間変換部を含み、その時間ドメイン表現は、時間ドメイン符号器へと直接的に又は幾つかの更なる処理の後に送られ得る。この変換部は、図14aの中でIMDCT(逆修正離散コサイン変換)ブロックとして示されている。しかし、このブロック702は、時間-周波数変換ブロック602とは異なる変換サイズを有し、そのブロック602は、図14aでは修正離散コサイン変換ブロックとして示されている。ブロック602に示すように、時間-周波数変換部602は入力サンプリングレートで作動し、逆修正離散コサイン変換部702はより低いACELPサンプリングレートで作動する。
【0065】
時間ドメイン符号器サンプリングレート又はACELPサンプリングレートと、周波数ドメイン符号器サンプリングレート又は入力サンプリングレートとの比が計算されることができ、この比が図7bに示すダウンサンプリング係数DSとなる。ブロック602は大きな変換サイズを有し、IMDCTブロック702は小さな変換サイズを有する。従って、図7bに示すように、IMDCTブロック702は、IMDCTブロック702への入力のより低いスペクトル部分を選択する選択部726を含む。全帯域スペクトルのその部分はダウンサンプリング係数DSによって定義される。例えば、低いサンプリングレートが16kHzで、入力サンプリングレートが32kHzである場合、ダウンサンプリング係数は0.5となり、よって、選択部726は全帯域スペクトルの下半分を選択する。例えば、スペクトルが1024個のMDCTラインを持つときは、選択部は下側の512個のMDCTラインを選択する。
【0066】
全地域スペクトルのこの低い周波数部分は、図7bに示すように、小サイズ変換及び折り込み(foldout)ブロック720へと入力される。変換サイズはまた、ダウンサンプリング係数に従って選択され、ブロック602内の変換サイズの50%である。次に、少数個の係数を有する窓を用いた合成窓掛けが実行される。合成窓の係数の個数は、ブロック602によって使用される分析窓の係数の個数により乗算されたダウンサンプリング係数と等しい。最後に、オーバーラップ加算操作がブロック毎に少数の操作によって実行され、そのブロック毎の操作の数はまた、ダウンサンプリング係数により乗算された全レート構成のMDCTにおけるブロック毎の操作の数である。
【0067】
このように、ダウンサンプリングがIMDCT構成の中に含まれているため、非常に効率的なダウンサンプリング操作が適用され得る。この文脈において強調すべき点は、ブロック702はIMDCTによって構成され得るが、実際の変換カーネル及び他の変換関連の操作において適切にサイズ化され得る、他の如何なる変換又はフィルタバンク構成よってもまた構成され得ることである。
【0068】
図14aに示すさらなる実施形態において、時間-周波数変換部は、分析部に加えて追加的な機能を含む。図6の分析部604は、図14aの実施形態では時間的ノイズ整形/時間的タイル整形分析ブロック604aを含んでもよく、このブロック604aは、TNS/TTS分析ブロック604aとして図2bのブロック222の文脈において説明するように作動し、図14a内のIGF符号器604bは、それと対応する図2bの調性マスク226に関して説明するように作動する。
【0069】
更に、周波数ドメイン符号器は、好ましくはノイズ整形ブロック606aを含む。ノイズ整形ブロック606aは、ブロック1010により生成された量子化済みLPC係数により制御される。ノイズ整形606aのために使用された量子化済みLPC係数は、高分解能スペクトル値又は(パラメトリックに符号化されたのではなく)直接的に符号化されたスペクトルラインのスペクトル整形を実行し、ブロック606aの結果は、後段で説明するLPC分析フィルタリングブロック704のように時間ドメインで作動するLPCフィルタリングステージの後の信号のスペクトルと類似している。更に、ノイズ整形ブロック606aの結果は、次にブロック606bで示すように、量子化されエントロピー符号化される。ブロック606bの結果は、(他のサイド情報と一緒に)符号化された第1オーディオ信号部分又は周波数ドメイン符号化されたオーディオ信号部分に対応する。
【0070】
クロスプロセッサ700は、第1符号化済み信号部分の復号化済みバージョンを計算するスペクトル復号器を含む。図14aの実施形態において、スペクトル復号器701は、逆ノイズ整形ブロック703と、ギャップ充填復号器704と、TNS/TTS合成ブロック705と、前述のIMDCTブロック702とを含む。これらのブロックは、ブロック602~606bにより実行された特定の操作を逆戻しする。特に、ノイズ整形ブロック703は、量子化されたLPC係数1010に基づいてブロック606aにより実行されたノイズ整形を逆戻しする。IGF復号器704は図2Aに関してブロック202と206として説明したように作動し、TNS/TTS合成ブロック705は図2Aのブロック210の文脈で説明したように作動し、スペクトル復号器はIMDCTブロック702を追加的に含む。更に、図14aのクロスプロセッサ700は、追加的又は代替的に遅延ステージ707を含み、その遅延ステージは、スペクトル復号器701によって取得された復号化済みバージョンの遅延バージョンを、第2符号化プロセッサのデエンファシス・ステージ617に、そのデエンファシス・ステージ617を初期化するために供給するものである。
【0071】
更に、クロスプロセッサ700は、追加的又は代替的に重み付き予測係数分析フィルタリングステージ708を含み、そのステージは、復号化済みバージョンをフィルタリングし、そのフィルタリングされた復号化済みバージョンを、図14aでは第2符号化プロセッサの「MMSE」として示されている符号帳決定部613に対して、このブロックを初期化するために供給するものである。代替的又は追加的に、クロスプロセッサはLPC分析フィルタリングステージを含み、このステージは、スペクトル復号器701によって出力された第1符号化済み信号部分の復号化済みバージョンをフィルタリングし、それを適応型符号帳ステージ612に対して、このブロック612の初期化のために供給するものである。代替的又は追加的に、クロスプロセッサは、スペクトル復号器701により出力された復号化済みバージョンに対してLPCフィルタリングの前にプリエンファシス処理を実行する、プリエンファシス・ステージ709を含む。プリエンファシス・ステージの出力は、時間ドメイン符号器610内のLPC合成フィルタリングブロック616の初期化のために、追加の遅延ステージ710にも供給され得る。
【0072】
時間ドメイン符号化プロセッサ610は、図14aに示すように、低いACELPサンプルレートで作動するプリエンファシスを含む。図示するように、このプリエンファシスは、前処理ステージ1000の中で実行されるプリエンファシスであり、参照符号1005を有する。プリエンファシスデータは、時間ドメインで作動しているLPC分析フィルタリングステージ611へと入力され、かつこのフィルタは、前処理ステージ1000によって取得された量子化済みLPC係数1010によって制御される。AMR-WB+、USAC又は他のCELP符号器から公知のように、ブロック611により生成された残差信号は適応型符号帳612に供給され、さらにその適応型符号帳612は革新的符号帳ステージ614に接続され、適応型符号帳612及び革新的符号帳からの符号帳データは前述のビットストリーム・マルチプレクサへと入力される。
【0073】
更に、ACELPゲイン/符号化ステージ612が革新的符号帳ステージ614と直列に設けられ、このブロックの結果は、図14aではMMSEとして示される符号帳決定ブロック613へと入力される。このブロックは革新的符号帳ブロック614と協働する。更に、時間ドメイン符号器は、LPC合成フィルタリングブロック616と、デエンファシスブロック617と、適応型低音ポストフィルタのためのパラメータを計算する適応型低音ポストフィルタステージ618と、を有する復号器部分を追加的に含むが、この適応型低音ポストフィルタは復号器側で適用される。復号器側に適応型低音ポストフィルタリングがない場合には、ブロック616,617,618は時間ドメイン符号器610には不要となるであろう。
【0074】
図示するように、時間ドメイン符号器の複数のブロックは先行する信号に依存し、これらのブロックとは、適応型符号帳ブロックと、符号帳決定部613と、LPC合成フィルタリングブロック616と、デエンファシスブロック617である。これらブロックには、周波数ドメイン符号化プロセッサのデータから導出された、クロスプロセッサからのデータが供給され、周波数ドメイン符号器から時間ドメイン符号器への瞬時の切換えの準備をするために、これらブロックを初期化する。図14aから更に分かるように、周波数ドメイン符号器にとっては以前のデータに対する如何なる依存性も必要でない。従って、クロスプロセッサ700は、時間ドメイン符号器から周波数ドメイン符号器に対して如何なるメモリ初期化データも提供しない。しかし、過去からの依存性が存在しかつメモリ初期化データが必要とされる、周波数ドメイン符号器の他の実施形態に関しては、クロスプロセッサ700は両方向に作動するよう構成される。
【0075】
従って、オーディオ符号器の好ましい一実施形態は、以下のような構成要素を含む。
【0076】
好ましいオーディオ復号器について、以下に説明する。波形復号器部分は全帯域TCX復号器経路とIGFとから構成され、両方がコーデックの入力サンプリングレートで作動している。これと並行して、低いサンプリングレートにおける代替的なACELP復号器経路が存在し、この経路は更にTD-BWEによって下流で補強されている。
【0077】
TCXからACELPへの切換え時のACELP初期化のために、(共有されたTCX復号器の前置部であって低いサンプリングレートで追加的に出力を提供する部分と幾分かの後処理部とにより構成される)クロス経路が存在し、それが本発明のACELP初期化を実行する。LPCにおいて、TCXとACELPとの間で同じサンプリングレートとフィルタ次数を共有することで、より容易でかつ効率的なACELP初期化が可能となる。
【0078】
切換えを可視化するために、2つのスイッチを図14bに示す。第2スイッチは、下流側でTCX/IGF又はACELP/TD-BWEの出力の間で選択を行う一方で、第1スイッチ1480は、ACELP経路の下流のリサンプリングQMFステージにおけるバッファをクロス経路の出力によって事前更新するか、又はACELP出力を単に通過させる。
【0079】
次に、本発明の態様に係るオーディオ復号器の構成を、図11a~図14cに関して説明する。
【0080】
符号化済みオーディオ信号1101を復号化するオーディオ復号器は、第1符号化済みオーディオ信号部分を周波数ドメインで復号化する第1復号化プロセッサ1120を含む。第1復号化プロセッサ1120はスペクトル復号器1122を含み、このスペクトル復号器は、第1スペクトル領域を高スペクトル分解能で復号化し、かつ第2スペクトル領域のパラメトリック表現及び少なくとも1つの復号化済み第1スペクトル領域を使用して第2スペクトル領域を合成して、復号化済みスペクトル表現を取得する。この復号化済みスペクトル表現は、図6に関連して説明し、かつ図1aにも関連して説明したように、全帯域の復号化済みスペクトル表現である。従って、一般的に、第1復号化プロセッサは、周波数ドメインにおけるギャップ充填処理を有する全帯域の構成を含む。第1復号化プロセッサ1120は、復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得する、周波数-時間変換部1124をさらに含む。
【0081】
更に、オーディオ復号器は、第2符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2信号部分を取得する、第2復号化プロセッサ1140を含む。更に、オーディオ復号器は、復号化済み第1信号部分と復号化済み第2信号部分とを結合して復号化済みオーディオ信号を取得する、結合部1160を含む。復号化済み信号部分は順次結合されていき、この様子は、図11aの結合部1160の一実施形態を表す図14bのスイッチ構成1160によっても示されている。
【0082】
好ましくは、第2復号化プロセッサ1140は、時間ドメイン帯域幅拡張プロセッサであり、また図12に示すように、低帯域時間ドメイン信号を復号化するための時間ドメイン低帯域復号器1200を含む。この構成は、低帯域時間ドメイン信号をアップサンプリングするためのアップサンプラ1210を更に含む。加えて、出力オーディオ信号の高帯域を合成するために、時間ドメイン帯域幅拡張復号器1220が設けられている。更にミキサ1230が設けられ、このミキサは、時間ドメイン出力信号の合成された高帯域と、アップサンプリングされた低帯域時間ドメイン信号とをミキシングして、時間ドメイン復号器出力を取得する。よって、図11aのブロック1140は、好ましい実施形態における図12の機能によって構成され得る。
【0083】
図13は、図12の時間ドメイン帯域幅拡張復号器1220の好ましい一実施形態を示す。好ましくは、時間ドメインのアップサンプラ1221が設けられ、このアップサンプラは、入力としてLPC残差信号を時間ドメイン低帯域復号器から受信し、この時間ドメイン低帯域復号器は、ブロック1140内に含まれ、図12において符号1200で示され、図14bの文脈において更に示されている。時間ドメインのアップサンプラ1221は、LPC残差信号のアップサンプリング済みバージョンを生成する。このバージョンは次に非線形歪みブロック1222へと入力され、そのブロックは、その入力信号に基づいて、より高い周波数値を有する出力信号を生成する。非線形歪みは、コピーアップ、ミラーリング、周波数シフト、又は、非線形領域で作動されるダイオード若しくはトランジスタなどの非線形デバイスであってもよい。ブロック1222の出力信号はLPC合成フィルタリングブロック1223へと入力され、このブロック1223は、低帯域復号器のためにも使用されるLPCデータにより、又は例えば図14aの符号器側にある時間ドメイン帯域幅拡張ブロック920により生成される特定の包絡データにより、制御される。LPC合成ブロックの出力は、次に帯域通過又は高域通過フィルタ1224へと入力されて最終的に高帯域を取得し、この高帯域は、次に図12に示されるミキサ1230へと入力される。
【0084】
次に、図12のアップサンプラ1210の好ましい一実施形態を、図14bに関連して説明する。このアップサンプラは、好ましくは、第1時間ドメイン低帯域復号器サンプリングレートで作動する分析フィルタバンクを含む。そのような分析フィルタバンクのある具体的な構成は、図14bに示すQMF分析フィルタバンク1471である。更に、このアップサンプラは、第1時間ドメイン低帯域サンプリングレートよりも高い第2出力サンプリングレートで作動する、合成フィルタバンク1473を含む。よって、一般的なフィルタバンクの好ましい構成であるQMF合成フィルタバンク1473は、出力サンプリングレートで作動する。図7bに関連して説明したダウンサンプリング係数Tが0.5である場合、QMF分析フィルタバンク1471は例えば32個だけのフィルタバンクチャネルを持ち、QMF合成フィルタバンク1473は例えば64個のQMFチャネルを持つが、それらフィルタバンクチャネルの高い方の半分、即ち上側32個のフィルタバンクチャネルにはゼロ又はノイズが供給され、他方、下側32個のフィルタバンクチャネルにはQMF分析フィルタバンク1471により提供された対応する信号が供給される。しかしながら、帯域通過フィルタリング1472がQMFフィルタバンクドメイン内で実行されるのが好ましく、これにより、QMF合成出力1473がACELP復号器出力のアップサンプリング済みバージョンとなる一方で、ACELP復号器の最大周波数より高い如何なるアーチファクトも生じないことが確保される。
【0085】
帯域通過フィルタリング1472に追加して又は代替的に、更なる処理操作がQMFドメイン内で実行されてもよい。如何なる処理も実行されない場合、QMF分析及びQMF合成は効率的なアップサンプラ1210を構成する。
【0086】
次に、図14bの個別の要素の構成についてより詳細に説明する。
【0087】
全帯域周波数ドメイン復号器1120は、高分解能スペクトル係数を復号化し、加えて例えばUSAC技術から知られる低帯域部分におけるノイズ充填を実施する、第1復号化ブロック1122aを含む。更に、全帯域復号器は、符号器側においてパラメトリックにのみ、従って低い分解能で符号化されていた、合成されたスペクトル値を使用して、スペクトルの穴を充填するためのIGF処理部1122bを含む。次に、ブロック1122cにおいて逆ノイズ整形が実行され、その結果がTNS/TTS合成ブロック705へと入力され、そのブロック705は、最終的な出力として周波数/時間変換部1124への入力を提供し、その変換部1124は、好ましくは、出力サンプリングレート、即ち高いサンプリングレートで作動する逆修正離散コサイン変換として構成される。
【0088】
更に、ハーモニック又はLTPポストフィルタが使用され、このフィルタは図14aのTCX LTPパラメータ抽出ブロック1006により取得されたデータによって制御されている。その結果は、出力サンプリングレートにおける復号化済み第1オーディオ信号部分であり、図14bから分かるように、このデータは高いサンプリングレートを持ち、よって、如何なる追加の周波数補強も全く必要でない。なぜなら、この復号化プロセッサは、好ましくは図1a~図5cの文脈で説明したインテリジェント・ギャップ充填技術を使用して作動する、周波数ドメインの全帯域復号器だからである。
【0089】
図14bの複数の構成要素は図14aのクロスプロセッサ700における対応するブロックと非常に似ており、特にIGF復号器704に関してはIGF処理1122bと対応し、量子化済みLPC係数1145により制御される逆ノイズ整形操作は図14aの逆ノイズ整形703と対応し、図14bのTNS/TTS合成ブロック705は図14aのブロックTNS/TTS合成705と対応する。しかし重要なことは、図14bのIMDCTブロック1124は高サンプリングレートで作動し、他方、図14aのIMDCTブロック702は低サンプリングレートで作動することである。従って、図14bのブロック1124は、大きなサイズの変換及び折り込みブロック710と、ブロック712の合成窓と、オーバーラップ加算ステージ714とを含み、それらはブロック701内で操作される対応する特徴720,722,724と比較して、多数の操作と多数の窓係数と大きな変換サイズとを有する。この点については、後段で図14bにおけるクロスプロセッサ1170のブロック1171に関しても説明する。
【0090】
時間ドメイン復号化プロセッサ1140は、好ましくはACELP又は時間ドメイン低帯域復号器1200を含み、その復号器は、復号化済みゲイン及び革新的符号帳情報を取得するACELP復号器ステージ1149を含む。さらにACELP適応型符号帳ステージ1141が設けられ、次いでACELP後処理ステージ1142及びLPC合成フィルタ1143のような最終合成フィルタが設けられ、この最終合成フィルタは、ビットストリーム・デマルチプレクサ1100から得られた量子化済みLPC係数1145によって制御され、そのデマルチプレクサは図11aの符号化済み信号解析部1100と対応する。LPC合成フィルタ1143の出力はデエンファシス・ステージ1144へと入力され、そのステージ1144は図14aの前処理部1000のプリエンファシス・ステージ1005により導入された処理をキャンセル又は逆戻しする。その結果は低サンプリングレート及び低帯域における時間ドメイン出力信号であり、時間ドメイン出力が必要な場合には、スイッチ1480が図示する位置にあり、デエンファシス・ステージ1144の出力はアップサンプラ1210へと入力されて、次に時間ドメイン帯域幅拡張復号器1220からの高帯域とミキシングされる。
【0091】
本発明の実施形態によれば、オーディオ復号器は図11b及び図14bに示すクロスプロセッサ1170を更に含み、このクロスプロセッサは、第1符号化済みオーディオ信号部分の復号化済みスペクトル表現から、第2復号化プロセッサの初期化データを計算する。これにより、符号化済みオーディオ信号内の第1オーディオ信号部分に時間的に後続する符号化済み第2オーディオ信号部分を復号化するために、第2復号化プロセッサが初期化される。即ち、時間ドメイン復号化プロセッサ1140が、あるオーディオ信号部分から次の部分へと品質又は効率において損失なく瞬時に切換えられるように、準備された状態となる。
【0092】
好ましくは、クロスプロセッサ1170は、第1復号化プロセッサの周波数-時間変換部よりも低いサンプリングレートで作動する追加的な周波数-時間変換部1171を含み、追加の復号化済み第1信号部分を時間ドメインで取得する。その追加の復号化済み第1信号部分は、初期化信号として使用されることができ、又は、それから任意の初期化データが導出されることもできる。このIMDCT又は低いサンプリングレートの周波数-時間変換部は、好ましくは、図7bに示す項目726(選択部)、項目720(小さなサイズの変換及び折り込み)、符号722で示すような少数の窓係数を用いた合成窓掛け、符号724で示すような少数の操作を用いたオーバーラップ加算ステージとして構成される。このように、周波数ドメイン全帯域復号器におけるIMDCTブロック1124は、ブロック710、712、714で示すように構成され、IMDCTブロック1171は、図7bのブロック726、720、722、724で示すように構成される。ここでも、ダウンサンプリング係数は、時間ドメイン符号器サンプリングレート又は低いサンプリングレートと、高い周波数ドメイン符号器サンプリングレート又は出力サンプリングレートとの比であり、このダウンサンプリング係数は、1よりも小さく、0よりも大きく1よりも小さい如何なる数値であり得る。
【0093】
図14bに示すように、クロスプロセッサ1170は、単独で又は他の構成要素に加えて遅延ステージ1172を更に含み、その遅延ステージは、前述の追加の復号化済み第1信号部分を遅延させ、その遅延された復号化済み第1信号部分を初期化のために第2復号化プロセッサのデエンファシス・ステージ1144へと供給するものである。更に、クロスプロセッサは、追加的又は代替的に、追加の復号化済み第1信号部分をフィルタリング及び遅延させるためのプリエンファシスフィルタ1173及び遅延ステージ1175を含み、ブロック1175の遅延された出力は、初期化のためにACELP復号器のLPC合成フィルタリングステージ1143へと提供される。
【0094】
更に、クロスプロセッサは、代替的に又は上述した他の構成要素に追加して、LPC分析フィルタ1174を含んでもよく、この分析フィルタは、追加の復号化済み第1信号部分又はプリエンファシス済みの追加の復号化済み第1信号部分から予測残差信号を生成し、そのデータを第2復号化プロセッサの符号帳合成部及び好ましくは適応型符号帳ステージ1141に対して供給する。更に、低サンプリングレートを有する周波数-時間変換部1171の出力は、初期化の目的で、即ち現在復号化されつつあるオーディオ信号部分が周波数ドメイン全帯域復号器1120により供給されるとき、アップサンプラ1210のQMF分析ステージ1471にも入力される。
【0095】
好ましいオーディオ復号器を以下に説明する。波形復号器部分は、全帯域TCX復号器経路とIGFとから構成され、両方がコーデックの入力サンプリングレートで作動している。これと並行して、低いサンプリングレートにおける代替的なACELP復号器経路が存在し、この経路は更にTD-BWEによって下流で補強されている。
【0096】
TCXからACELPへの切換え時のACELP初期化のために、(共有されたTCX復号器の前置部であって低いサンプリングレートで追加的に出力を提供する部分と幾分かの後処理部とにより構成される)クロス経路が存在し、それが本発明のACELP初期化を実行する。LPCにおいて、TCXとACELPとの間で同じサンプリングレートとフィルタ次数を共有することで、より容易でかつ効率的なACELP初期化が可能となる。
【0097】
切換えを可視化するために、2つのスイッチを図14bに示す。第2スイッチは、下流側でTCX/IGF又はACELP/TD-BWEの出力の間で選択を行う一方で、第1スイッチは、ACELP経路の下流のリサンプリングQMFステージにおけるバッファをクロス経路の出力によって事前更新するか、又はACELP出力を単に通過させる。
【0098】
要約すると、単体で又は組合せで使用可能な本発明の好ましい態様は、ACELP及びTD-BWE符号器と全帯域可能なTCX/IGF技術との結合に関連し、好ましくはクロス信号を使用することにも関連する。
【0099】
更なる具体的な特徴は、切れ目のない切換えを可能にする、ACELP初期化のためのクロス信号経路である。
【0100】
更なる態様は、クロス経路におけるサンプルレート変換を効率的に実行するために、短いIMDTには高レートの長いMDCT係数のより低い部分が供給されることである。
【0101】
更なる特徴は、復号器において全帯域TCX/IGFと部分的に共有されたクロス経路を効率的に実現することである。
【0102】
更なる特徴は、TCXからACELPへの切れ目ない切換えを可能にする、QMF初期化のためのクロス信号経路である。
【0103】
追加的な特徴は、ACELPからTCXへの切り換え時に、ACELPリサンプリング済み出力とフィルタバンク-TCX/IGF出力との間の遅延ギャップを補償できるようにする、QMFへのクロス信号経路である。
【0104】
更なる態様は、TCX/IGF符号器/復号器が全帯域可能であるにもかかわらず、LPCが同一のサンプリングレート及びフィルタ次数でTCXとACELP符号器との両方に対して提供されることである。
【0105】
次に、独立型の復号器として、又は全帯域可能な周波数ドメイン復号器との組合せにおいて作動する、時間ドメイン復号器の好ましい構成例として、図14cを説明する。
【0106】
一般的に、時間ドメイン復号器は、ACELP復号器と、その後に接続されたリサンプラ又はアップサンプラと、時間ドメイン帯域幅拡張機能とを含む。特に、ACELP復号器は、ゲイン及び革新的符号帳を回復するACELP復号化ステージ1149と、ACELP適応型符号帳ステージ1141と、ACELP後処理部1142と、ビットストリーム・デマルチプレクサ又は符号化済み信号解析部からの量子化済みLPC係数により制御されたLPC合成フィルタ1143と、その後に接続されたデエンファシス・ステージ1144とを含む。好ましくは、ACELPサンプリングレートにおける時間ドメイン残差信号は、時間ドメイン帯域幅拡張復号器1220へと入力され、復号器1220はその出力において高帯域を提供する。
【0107】
デエンファシス1144の出力をアップサンプリングするために、QMF分析ブロック1471を含むアップサンプラと、QMF合成ブロック1473とが設けられる。ブロック1471と1473とにより定義されるフィルタバンクドメインの中に、好ましくは帯域通過フィルタが適用される。特に、前述したように、同じ参照符号を使って前段で説明したブロックと同じ機能が使用され得る。更に、時間ドメイン帯域幅拡張復号器1220が図13で示したように構成されることができ、一般的には、ACELP残差信号又はACELPサンプリングレートにおける時間ドメイン残差信号を、最終的に帯域幅拡張信号の出力サンプリングレートへとアップサンプリングすることが含まれる。
【0108】
次に、全帯域可能な周波数ドメインの符号器及び復号器に関する詳細について、図1a~図5cを参照しながら説明する。
【0109】
図1aはオーディオ信号99を符号化する装置を示す。オーディオ信号99は時間スペクトル変換部100へと入力され、この時間スペクトル変換部により、あるサンプリングレートを有するオーディオ信号がスペクトル表現101へと変換されて出力される。スペクトル101は、このスペクトル表現101を分析するスペクトル分析部102へと入力される。スペクトル分析部102は、第1スペクトル分解能で符号化されるべき第1スペクトル部分の第1セット103と、これと異なる第2スペクトル分解能で符号化されるべき第2スペクトル部分の第2セット105と、を決定するよう構成されている。第2スペクトル分解能は第1スペクトル分解能よりも小さい。第2スペクトル部分の第2セット105は、第2スペクトル分解能を有するスペクトル包絡情報を計算するためのパラメータ計算部又はパラメトリック符号器104へと入力される。更に、スペクトルドメインオーディオ符号器106が、第1スペクトル分解能を有する第1スペクトル部分の第1セットの第1符号化済み表現107を生成するために設けられている。更に、パラメータ計算部/パラメトリック符号器104は、第2スペクトル部分の第2セットの第2符号化済み表現109を生成するよう構成されている。第1符号化済み表現107と第2符号化済み表現109とは、ビットストリーム・マルチプレクサ又はビットストリーム形成部108へと入力され、このブロック108が最終的に、伝送のため又はストレージデバイスにおける記憶のために符号化済みオーディオ信号を出力する。
【0110】
典型的には、図3aの306のような第1スペクトル部分は、307a,307bのような2つの第2スペクトル部分により囲まれるであろう。しかしこれは、コア符号器周波数範囲が帯域制限されているような、HE-AACの場合には当てはまらない。
【0111】
図1bは、図1aの符号器と適合する復号器を示す。第1符号化済み表現107は、第1スペクトル部分の第1セットの第1復号化済み表現を生成するスペクトルドメインのオーディオ復号器112へと入力され、その第1復号化済み表現は第1スペクトル分解能を持つ。更に、第2符号化済み表現109は、第2スペクトル部分の第2セットの第2復号化済み表現を生成するパラメトリック復号器114へと入力され、その第2復号化済み表現は第1スペクトル分解能よりも低い第2スペクトル分解能を持つ。
【0112】
この復号器は、第1スペクトル部分を使用して第1スペクトル分解能を有する復元された第2スペクトル部分を再生成する、周波数再生成部116を含む。周波数再生成部116はタイル充填操作を実行する。即ち、第1スペクトル部分の第1セットのタイル又は部分を使用し、この第1スペクトル部分の第1セットを第2スペクトル部分を有する復元領域又は復元帯域へとコピーし、パラメトリック復号器114により出力された復号化済みの第2表現により指示される、即ち第2スペクトル部分の第2セットに係る情報を使用して、典型的にはスペクトル包絡整形又は他の操作を実行する。復号化された第1スペクトル部分の第1セットと、周波数再生成部116の出力においてライン117で示された復元されたスペクトル部分の第2セットとは、スペクトル-時間変換部118へと入力され、ここで、第1の復号化された表現と復元された第2スペクトル部分とが時間表現119、即ち、ある高いサンプリングレートを有する時間表現へと変換される。
【0113】
図2bは図1aの符号器の一実施形態を示す。オーディオ入力信号99は、図1aの時間-周波数変換部100に対応する分析フィルタバンク220へと入力される。次に、TNSブロック222において、時間的ノイズ整形操作が実行される。従って、図2bの調性マスクブロック226に対応する図1aのスペクトル分析部102への入力は、時間的ノイズ整形/時間的タイル整形操作が適用されない場合には全スペクトル値であることができ、図2bのブロック222で示すようなTNS操作が適用される場合にはスペクトル残差値であることができる。2チャネル信号又は多チャネルの信号については、ジョイントチャネル符号化228が追加的に実行されることができ、図1aのスペクトルドメイン符号器106は、そのジョイントチャネル符号化ブロック228を含み得る。更に、損失のないデータ圧縮を実行するためのエントロピー符号器232が設けられ、これも図1aのスペクトルドメイン符号器106の一部である。
【0114】
スペクトル分析部/調性マスク226は、TNSブロック222の出力を、図1aにおける第1スペクトル部分の第1セット103に対応するコア帯域及び調性成分と、図1aにおける第2スペクトル部分の第2セット105に対応する残差成分とに分離する。IGFパラメータ抽出符号化として示されたブロック224は、図1aのパラメトリック符号器104に対応し、ビットストリーム・マルチプレクサ230は、図1aのビットストリーム・マルチプレクサ108に対応する。
【0115】
好ましくは、分析フィルタバンク222はMDCT(修正離散コサイン変換フィルタバンク)として構成され、そのMDCTは信号99を、周波数分析ツールとして作動する修正離散コサイン変換を用いて、時間-周波数ドメインへと変換するために使用される。
【0116】
スペクトル分析部226は、好ましくは調性マスクを適用する。この調性マスク推定ステージは、信号内のノイズ状成分から調性成分を分離するために使用される。これにより、コア符号器228は、全ての調性成分を聴覚心理モジュールを用いて符号化できるようになる。調性マスク推定ステージは、多数の異なる方法で構成されることができ、好ましくはその機能において、スピーチ/オーディオ符号化のためのサインで使用される正弦波トラック推定ステージ及びノイズモデリング又はHILNモデルベースのオーディオ符号器に類似するよう構成される。好ましくは、始点から終点までの軌跡(birth-death trajectories)を保持する必要なく、構築することが容易な構成が使用されるが、任意の他の調性又はノイズ検出部も使用可能である。
【0117】
IGFモジュールは、ソース領域と目標領域との間に存在する類似性を計算する。目標領域はソース領域からのスペクトルによって表現されるであろう。ソース領域と目標領域との間の類似性の測定は、クロス相関の手法によって実行される。目標領域はnTar個の非オーバーラップ周波数タイルへと分割される。目標領域内の全てのタイルについて、nSrc個のソースタイルが固定の開始周波数から作成される。これらのソースタイルは、0と1との間のある係数だけオーバーラップするが、ここで0は0%のオーバーラップを意味し、1は100%のオーバーラップを意味する。これらソースタイルの各々は、目標タイルと最良に一致するソースタイルを見つけるために、目標タイルと種々のラグをもって相関している。最良一致するタイル番号はtileNum[idx_tar]内に記憶され、それが目標と最良に相関するラグがxcorr_lag[idx_tar][idx_src]内に記憶され、相関の正負符号はxcorr_sign[idx_tar][idx_src]内に記憶される。相関が高度に否定的である場合には、復号器におけるタイル充填処理の前に、ソースタイルは-1によって乗算されなければならない。調性成分は調性マスクを用いて保存されるので、IGFモジュールはまた、スペクトル内で調性成分を上書きしないよう管理する。目標領域のエネルギーを記憶するために帯域毎のエネルギーパラメータが使用され、これにより、スペクトルを正確に復元することが可能となる。
【0118】
この方法は、非特許文献1の古典的なSBRと比べ、マルチトーン信号のハーモニックグリッドがコア符号器によって維持される一方で、正弦曲線同士の間のギャップだけがソース領域からの最良一致する「整形されたノイズ」によって充填される、という利点がある。ASR(Accurate Spectral Replacement)(非特許文献2~4)と比較した場合のこのシステムの他の利点は、復号器において信号の重要部分を作成する信号合成ステージがないことである。代わりに、この作業はコア符号器によって担われ、これにより、スペクトルの重要な成分の保存が可能となる。本提案のシステムの他の利点は、その特徴が提供する連続的なスケーラビリティである。全てのタイルにtileNum[idx_tar]及びxcorr_lag=0を使用することは、グロス粒度マッチングと称され、低ビットレートのために使用可能であり、他方、全てのタイルに変数xcorr_lagを使用することは、目標とソーススペクトルとのより良好な一致を可能とする。
【0119】
加えて、トリリング(trilling)や音楽ノイズのような周波数ドメインのアーチファクトを取り除く、タイル選択安定化の技術を提案する。
【0120】
ステレオチャネルペアの場合には、追加のジョイントステレオ処理が適用される。この処理は、ある目標領域(destination range)については、信号が高度に相関されたパンニング済みの音源であり得るため、必要である。この特別な領域のために選択されたソース領域が良好に相関されていない場合、たとえエネルギーが目標領域に適合していても、空間イメージは非相関のソース領域に起因して悪影響を受ける可能性がある。符号器は、典型的にはスペクトル値のクロス相関を実行して各目標領域のエネルギー帯域を分析し、ある閾値を超える場合には、このエネルギー帯域に対してジョイントフラグを設定する。復号器においては、このジョイントステレオフラグが設定されていない場合、左右のチャネルエネルギー帯域は個別に処理される。このジョイントステレオフラグが設定されている場合には、エネルギー及びパッチングの両方がジョイントステレオドメインにおいて実行される。IGF領域のためのジョイントステレオ情報は、コア符号化のためのジョイントステレオ情報と同様に信号化され、予測については予測の方向がダウンミックスから残差へ、又はその逆かを指示するフラグを含む。
【0121】
エネルギーは、L/Rドメインで伝送されたエネルギーから計算され得る。
【数1】
ここで、kは変換ドメインにおける周波数インデックスである。
【0122】
他の解決策は、ジョイントステレオが活性化している帯域について、エネルギーをジョイントステレオドメインで直接的に計算及び伝送することであり、そのため復号器側では追加的なエネルギー変換が不要となる。
【0123】
ソースタイルは常にMid/Side行列に従って作成される。
【数2】
【0124】
エネルギー調整は以下の通りである。
【数3】
【0125】
ジョイントステレオ→LRの変換は以下の通りである。
【0126】
追加的予測パラメータが何も符号化されない場合:
【数4】
【0127】
追加的予測パラメータが符号化され、その信号化された方向がmidからsideである場合:
【数5】
【0128】
信号化された方向がsideからmidである場合:
【数6】
【0129】
このような処理により、高度に相関された目標領域及びパンニング済み目標領域を再生成するために使用されたタイルから、たとえソース領域が相関していない場合であっても、結果として得られる左右のチャネルは相関され且つパンニングされたサウンドソースを表現し、そのような領域についてステレオイメージを保持する、ということが保証される。
【0130】
換言すれば、ビットストリームの中で、一般的なジョイントステレオ符号化について例えばL/R又はM/Sが使用されるべきか否かを指示するジョイントステレオフラグが伝送される。復号器においては、まずコア信号が、ジョイントステレオフラグによりコア帯域について指示されるように復号化される。次に、コア信号はL/R及びM/S表現の両方で格納される。IGFタイル充填については、ジョイントステレオ情報がIGF帯域について指示するように、ソースタイル表現が目標タイル表現に適合するよう選択される。
【0131】
時間的ノイズ整形(TNS)は標準的な技術であり、AAC[11-13]の一部である。TNSは知覚的符号器の基本スキームの拡張として捉えることもでき、フィルタバンクと量子化ステージとの間に任意選択的な処理ステップを挿入するものである。TNSモジュールの主要な役割は、時間的マスキング領域において生成された過渡状信号の量子化ノイズを隠すことであり、それにより更に効率的な符号化スキームをもたらす。まず、TNSは変換ドメイン、例えばMDCTにおいて、「前方予測」を使用して予測係数のセットを計算する。これら係数は、次に信号の時間的包絡を平坦化するために使用される。量子化がTNSフィルタ済みスペクトルに対して影響を与えるので、量子化ノイズも時間的に平坦となる。復号器側で逆TNSフィルタリングを適用することで、量子化ノイズはTNSフィルタの時間的包絡に従って整形され、よって量子化ノイズは過渡によりマスキングされる。
【0132】
IGFはMDCT表現に基づいている。効率的な符号化のために、好ましくは約20msのロングブロックが使用されるべきである。そのようなロングブロック内の信号が過渡を含む場合、タイル充填に起因して、IGFスペクトル帯域内に可聴のプリエコー及びポストエコーが発生する。
【0133】
このプリエコー効果は、IGFの文脈においてTNSを使用することで低減される。この場合、復号器側におけるスペクトル再生成がTNS残差信号に対して実行されるように、TNSが時間的タイル整形(TTS)ツールとして使用される。必要となるTTS予測係数は、通常通り符号器側の全スペクトルを使用して計算されかつ適用される。TNS/TTSの開始及び停止周波数は、IGFツールのIGF開始周波数fIGFstartによる影響を受けない。レガシーTNSと比較して、TTSの停止周波数はIGFツールの停止周波数へと増大され、これはfIGFstartよりも高い。復号器側では、TNS/TTS係数は、全スペクトル、つまりコアスペクトルと再生成されたスペクトルと調性マスク(図2a参照)からの調性成分とに対して再度適用される。TTSの適用は、再生成されたスペクトルの時間的包絡をオリジナル信号の包絡と適合するよう形成するため、再度必要である。このようにして、図示するプリエコーが低減される。加えて、fIGFstartよりも低い信号内の量子化ノイズもTNSを用いて通常どおり整形する。
【0134】
レガシー復号器においては、オーディオ信号に対するスペクトルパッチングは、パッチ境界におけるスペクトル相関を崩し、結果的に、分散を導入することによりオーディオ信号の時間的包絡を損なうことになる。従って、残差信号に対してIGFタイル充填を実行することの他の利点は、整形フィルタの適用後、タイル境界が切れ目なく相関され、信号のより忠実な時間的再生がもたらされるということである。
【0135】
本発明の符号器において、TNS/TTSフィルタリング、調性マスク処理、及びIGFパラメータ推定を施されたスペクトルは、調性成分を除き、IGF開始周波数より高い如何なる信号も持たないことになる。このような疎らなスペクトルは、次に算術符号化と予測符号化の原理を使用するコア符号器により符号化される。これらの符号化済み成分は、その信号化ビットと共に、オーディオのビットストリームを形成する。
【0136】
図2aは、対応する復号器の構成を示す。符号化済みオーディオ信号に対応する図2aのビットストリームは、図1bではブロック112及び114に接続され得るデマルチプレクサ/復号器へと入力される。ビットストリーム・デマルチプレクサは、入力オーディオ信号を図1bの第1符号化済み表現107と図1bの第2符号化済み表現109とに分離する。第1スペクトル部分の第1セットを有する第1符号化済み表現は、図1bのスペクトルドメイン復号器112に対応するジョイントチャネル復号化ブロック204へと入力される。第2符号化済み表現は、図2aには図示されていないパラメトリック復号器114へと入力され、次に図1bの周波数再生成部116に対応するIGFブロック202へと入力される。周波数再生成に必要な第1スペクトル部分の第1セットは、ライン203を介してIGFブロック202へと入力される。更に、ジョイントチャネル復号化204に続いて、特定のコア復号化が調性マスクブロック206内で適用され、その調性マスク206の出力はスペクトルドメイン復号器112の出力に対応する。次に、結合部208による結合、即ちフレーム構築が実行され、ここで結合部208の出力は全領域スペクトルを有することになるが、依然としてTNS/TTSフィルタリング済みドメイン内にある。次に、ブロック210において、ライン109を介して提供されたTNS/TTSフィルタ情報を使用して、逆TNS/TTS操作が実行される。即ち、TTSサイド情報は、好ましくは、例えば単純なAAC又はUSACコア符号器であり得るスペクトルドメイン符号器106により生成された第1符号化済み表現内に含まれているか、又は第2符号化済み表現内に含まれ得る。ブロック210の出力において、最大周波数までの完全なスペクトルが提供され、この最大周波数はオリジナル入力信号のサンプリングレートにより定義された全領域周波数である。次に、合成フィルタバンク212でスペクトル/時間変換が実行され、最終的にオーディオ出力信号を取得する。
【0137】
図3aはスペクトルの概略的表現を示す。スペクトルは複数のスケールファクタ帯域SCBへと分割され、図3aに示す実例においては7個のSCB1~SCB7が存在する。スケールファクタ帯域は、AAC標準において定義されたAACスケールファクタ帯域であってもよく、図3aに概略的に示すように、上側の周波数がより大きな帯域幅を有し得る。インテリジェント・ギャップ充填は、スペクトルの最初から、即ち低周波数において実行するのではなく、符号309で示すIGF開始周波数からIGF操作を開始するのが望ましい。従って、コア周波数帯域は最低周波数からIGF開始周波数まで伸びる。IGF開始周波数より高域側では、第2スペクトル部分の第2セットにより代表される低分解能成分から、高分解能スペクトル成分304,305,306,307(第1スペクトル部分の第1セット)を分離するべく、スペクトル分析が適用される。図3aは、例えばスペクトルドメイン符号器106又はジョイントチャネル符号器228へ入力されるスペクトルを示す。即ち、コア符号器は全領域で作動するが、相当量のゼロスペクトル値を符号化し、これらゼロスペクトル値は、量子化の前か量子化の後にゼロへと量子化されるか又はゼロに設定される。いずれにしても、コア符号器は全領域で、即ちスペクトルが図示された通りであるかのように作動する。一方で、コア復号器は、インテリジェント・ギャップ充填について、又は低スペクトル分解能を有する第2スペクトル部分の第2セットの符号化について、必ずしも認識している必要がない。
【0138】
好ましくは、高分解能は、MDCTラインのようなスペクトルラインのライン毎の符号化により定義され、他方、第2分解能又は低分解能は、例えばスケールファクタ帯域ごとに単一のスペクトル値だけを計算することで定義され、その場合、各スケールファクタ帯域は複数の周波数ラインをカバーしている。このように、第2の低分解能は、そのスペクトル分解能に関し、典型的にはAACやUSACコア符号器などのコア符号器により適用されるライン毎の符号化により定義される第1又は高分解能に比べて、かなり低い。
【0139】
図3bはスケールファクタ又はエネルギー計算に関する状態を示す。符号器がコア符号器であるという事実と、必ずしも必要ではないが各帯域内にスペクトル部分の第1セットの成分が存在し得るという事実に起因して、コア符号器は、スケールファクタを、IGF開始周波数309より低いコア領域内の各帯域について計算するだけでなく、IGF開始周波数より高い帯域についても、サンプリング周波数の半分、即ちfS/2よりも小さいか等しい最大周波数FIGFstopまで計算する。このように、図3aの符号化済み調性部分302,304,305,306,307と、この実施形態ではスケールファクタ帯域SCB1~SCB7とは、共に高分解能スペクトルデータに対応している。低分解能スペクトルデータは、IGF開始周波数から計算が開始され、スケールファクタSF4~SF7と共に伝送されるエネルギー情報値E1,E2,E3,E4に対応している。
【0140】
特に、コア符号器が低いビットレート状態であるとき、コア帯域内、即ちIGF開始周波数より低い周波数、つまりスケールファクタ帯域SCB1~SCB3、における追加的なノイズ充填操作が追加的に適用され得る。ノイズ充填においては、ゼロへと量子化された複数の隣接するスペクトルラインが存在する。復号器側では、これらゼロへと量子化されたスペクトル値が再合成され、その再合成されたスペクトル値は、図3bの符号308で示すNF2のようなノイズ充填エネルギーを使用して、それらの大きさが調整される。ノイズ充填エネルギーは、絶対項又は特にUSACにおけるようにスケールファクタに対する相対項により与えられることができ、ゼロへと量子化されたスペクトル値のセットのエネルギーに対応する。これらノイズ充填スペクトルラインはまた、第3スペクトル部分の第3セットとも考えられ得る。それらスペクトル部分は、ソース領域からのスペクトル値及びエネルギー情報E1,E2,E3,E4を使用して周波数タイルを復元するために他の周波数からの周波数タイルを使用する周波数再生成に依存する、如何なるIGF操作も行わない単純なノイズ充填合成により再生成される。
【0141】
好ましくは、エネルギー情報が計算される帯域は、スケールファクタ帯域と一致する。他の実施形態においては、エネルギー情報値のグループ化が適用され、例えばスケールファクタ帯域4及び5について単一のエネルギー情報値だけが伝送される。しかし、この実施形態においても、グループ化された復元帯域の境界はスケールファクタ帯域の境界と一致する。異なる帯域分離が適用された場合には、ある再計算又は同期化計算が適用されてもよく、これは所定の構成に依存して合理的と言える。
【0142】
好ましくは、図1aのスペクトルドメイン符号器106は、図4に示すように聴覚心理的に駆動された符号器である。典型的には、例えばMPEG2/4 AAC標準又はMPEG1/2レイヤ3標準に示されるように、スペクトル領域へと変換された後の符号化されるべきオーディオ信号(図4aの401)は、スケールファクタ計算部400へと送られる。スケールファクタ計算部は聴覚心理モデルにより制御され、量子化されるべきオーディオ信号を追加的に受信するか、又はMPEG1/2レイヤ3若しくはMPEG AAC標準にあるように、オーディオ信号の複素スペクトル表現を受信する。聴覚心理モデルは、各スケールファクタ帯域について、聴覚心理閾値を表現するスケールファクタを計算する。加えて、スケールファクタは、次に、公知の内部及び外部の反復ループの協働により、又は任意の他の適切な符号化処理により、所定のビットレート条件が満足するように調整される。次に、量子化されるべきスペクトル値を一方とし、計算されたスケールファクタを他方として、両方が量子化処理部404へと入力される。単純なオーディオ符号器操作において、量子化されるべきスペクトル値はスケールファクタにより重み付けされ、その重み付きスペクトル値は、次に、典型的には上側振幅領域に対して圧縮機能を有する固定された量子化部へと入力される。次に、量子化処理部の出力において、量子化インデックスが存在し、これら量子化インデックスは次にエントロピー符号器へと入力され、そのエントロピー符号器は、典型的には、隣接する周波数値又は業界の呼称ではゼロ値の「ラン」に関する、ゼロ量子化インデックスのセットについて特異でかつ非常に効率的な符号化を有する。
【0143】
しかし、図1aのオーディオ符号器において、量子化処理部は、典型的には第2スペクトル部分についての情報をスペクトル分析部から受信する。このように、量子化処理部404は、その出力の中で、スペクトル分析部102により識別された第2スペクトル部分がゼロであるか又は符号器もしくは復号器によってゼロ表現として認識された表現を有することを保証し、それらのゼロ(表現)は、特にそのスペクトル内にゼロ値の「ラン」が存在する場合に非常に効率的に符号化され得る。
【0144】
図4bは量子化処理部の構成を示す。MDCTスペクトル値がゼロ設定ブロック410へと入力され得る。よって、ブロック412においてスケールファクタによる重み付けが実行される前に、第2スペクトル部分は既にゼロへと設定されている。追加的な構成においては、ブロック410は設けられず、重み付けブロック412の後に続くブロック418においてゼロ設定操作が実行される。更に別の構成においては、ゼロ設定操作はまた、量子化ブロック420における量子化の後に続くゼロ設定ブロック422においても実行され得る。この構成においては、ブロック410及び418は存在しないであろう。一般的に、ブロック410,418,422の少なくとも1つが特定の構成に依存して設けられる。
【0145】
次に、ブロック422の出力において量子化済みスペクトルが取得され、これは図3aに示されたものに対応する。この量子化済みスペクトルは、次に図2bの符号232のようなエントロピー符号器へと入力され、このエントロピー符号器は、ハフマン符号器又は例えばUSAC標準において定義された算術符号器であり得る。
【0146】
互いに代替的に又は並列的に設けられているゼロ設定ブロック410、418、422は、スペクトル分析部424により制御される。このスペクトル分析部は、好ましくは、公知の調性検出部の任意の構成を含むか、又は、スペクトルを高分解能で符号化されるべき成分と低分解能で符号化されるべき成分とに分離するよう作動可能な任意の異なる種類の検出部を含む。スペクトル分析部に実装される他のそのようなアルゴリズムは、ボイス活性検出部、ノイズ検出部、スピーチ検出部、又はスペクトル情報もしくは関連するメタデータに依存して異なるスペクトル部分に関する分解能要件について決定する任意の他の検出部であり得る。
【0147】
図5aは、例えばAAC又はUSACにおいて構成される、図1aの時間スペクトル変換部100の好ましい構成を示す。時間スペクトル変換部100は、過渡検出部504により制御される窓掛け部502を含む。過渡検出部504が過渡を検出したとき、ロング窓からショート窓への切換えが窓掛け部へと信号伝達される。窓掛け部502は、オーバーラップしているブロックについて窓掛けされたフレームを計算し、各窓掛けされたフレームは、典型的には2048個の値のような2N個の値を有する。次に、ブロック変換部506内での変換が実行され、このブロック変換部は、典型的には切り詰めを追加的に提供する。よって、切り詰め/変換の組合せが実行されて、MDCTスペクトル値のようなN個の値を有するスペクトルフレームが取得される。このように、ロング窓掛け操作については、ブロック506の入力におけるフレームは2048個のような2N個の値を含み、スペクトルフレームは次に1024個の値を持つ。しかし、次にショートブロックへの切換えが行われ、8個のショートブロックが実行された場合、各ショートブロックはロング窓と比較して1/8個の窓掛けされた時間ドメイン値を持ち、各スペクトルブロックはロングブロックと比較して1/8個のスペクトル値を持つ。このように、切り詰めが窓掛け部の50%のオーバーラップ操作と結合された場合、スペクトルは時間ドメインオーディオ信号99の臨界サンプリングされたバージョンとなる。
【0148】
次に、図5bを参照する。ここでは、図1bの周波数再生成部116及びスペクトル-時間変換部118の具体的な構成、又は図2aのブロック208、212の結合された操作の具体的な構成が示される。図5bにおいては、図3aのスケールファクタ帯域6のような特定の復元帯域について考察する。この復元帯域内の第1スペクトル部分、即ち図3aの第1スペクトル部分306がフレーム構築部/調整部ブロック510へと入力される。更に、スケールファクタ帯域6に関する復元された第2スペクトル部分もフレーム構築部/調整部510へと入力される。更に、スケールファクタ帯域6に関する図3bのE3のようなエネルギー情報もまたブロック510へと入力される。復元帯域内の復元された第2スペクトル部分は、ソース領域を使用する周波数タイル充填によって既に生成されており、よって復元帯域は目標領域に対応する。ここで、フレームのエネルギー調整が実行されて、例えば図2aの結合部208の出力において得られるような、N個の値を有する完全に復元されたフレームが最終的に取得される。次に、ブロック512において逆のブロック変換/補間が実行され、例えばブロック512の入力における124個のスペクトル値について248個の時間ドメイン値が取得される。次に、ブロック514において合成窓掛け操作が実行され、この操作も、符号化済みオーディオ信号内でサイド情報として伝送されたロング窓/ショート窓の指示により制御されている。次に、ブロック516において、先行時間フレームとのオーバーラップ/加算操作が実行される。好ましくは、2N個の値の各新たな時間フレームについてN個の時間ドメイン値が最終的に出力されるように、MDCTが50%のオーバーラップを適用する。50%のオーバーラップが非常に好ましい理由は、ブロック516におけるオーバーラップ/加算操作により、それが臨界サンプリングとあるフレームから次のフレームへの連続的なクロスオーバーとを提供するという事実による。
【0149】
図3aに符号301で示すように、ノイズ充填操作は、IGF開始周波数より低域側で適用されるだけでなく、図3aのスケールファクタ帯域6に一致する考慮対象の復元帯域などのような、IGF開始周波数より高域側でも適用され得る。ノイズ充填スペクトル値もフレーム構築部/調整部510へと入力されることができ、そのノイズ充填スペクトル値の調整もまたこのブロック内で適用可能であり、又は、ノイズ充填スペクトル値は、フレーム構築部/調整部510へと入力される前に、ノイズ充填エネルギーを使用して既に調整されていることも可能である。
【0150】
好ましくは、IGF操作、即ち他の部分からのスペクトル値を使用した周波数タイル充填操作は、全てのスペクトルにおいて適用され得る。よって、スペクトルタイル充填操作は、IGF開始周波数より高い高帯域において適用され得るだけでなく、低帯域においても適用され得る。更に、周波数タイル充填なしのノイズ充填もまた、IGF開始周波数より低域側において適用され得るだけでなく、IGF開始周波数より高域側においても適用され得る。しかし、図3aに示すように、ノイズ充填操作がIGF開始周波数より低い周波数領域に制限され、かつ周波数タイル充填操作がIGF開始周波数より高い周波数帯域に制限された場合に、高品質及び高効率のオーディオ符号化が達成できることがわかってきた。
【0151】
好ましくは、(IGF開始周波数より大きい周波数を有する)目標タイル(TT)は、全レート符号器のスケールファクタ帯域境界に対して境界を接している。(情報源となる、即ちIGF開始周波数より低い周波数の)ソースタイル(ST)は、スケールファクタ帯域によって境界を接していない。STのサイズは、関連するTTのサイズに対応すべきである。 次に実例を挙げて説明する。TT[0]は10個のMDCTビンの長さを有する。これはまさに、2個の連続するSCB(例えば4+6など)の長さに対応する。その場合、TT[0]と相関されるべき全ての可能なSTも、10個のビンの長さを有する。TT[0]に隣接する第2目標タイルTT[1]は15個のビンの長さを有する(SCBは7+8の長さを有する)。その場合、それに関するSTは、TT[0]に関する10個のビンではなく、15個のビンの長さを有する。
【0152】
仮に、(例えばTTの長さが有効なソース領域よりも長い場合など)STに対する目標タイルの長さを有するTTが見つからない場合には、相関は計算されず、ソース領域はこのTTへと何度もコピーされる。このコピーは、周波数において、第2コピーの最低周波数の周波数ラインが第1コピーの最高周波数の周波数ラインの次に並ぶような方法で、TTが完全に充填されるまで順次行われる。
【0153】
次に、図5cを参照して、図1bの周波数再生成部116又は図2aのIGFブロック202の更なる好ましい実施形態を説明する。ブロック522は、目標帯域IDだけでなくソース帯域IDをも受信する周波数タイル生成部である。例えば、符号器側において、図3aのスケールファクタ帯域3がスケールファクタ帯域7を復元するために非常に良好に適合している、と決定されていたとする。その場合、ソース帯域IDは3となり、目標帯域IDは7となるであろう。この情報に基づき、周波数タイル生成部522は、コピーアップ、ハーモニックタイル充填操作又は他の任意のタイル充填操作を適用して、スペクトル成分の生の第2部分523を生成する。このスペクトル成分の生の第2部分は、第1スペクトル部分の第1セット内に含まれた周波数分解能と等しい周波数分解能を有する。
【0154】
次に、図3aの307のような復元帯域の第1スペクトル部分がフレーム構築部524に入力され、生の第2部分523もフレーム構築部524へ入力される。次に、復元されたフレームは、ゲインファクタ計算部528により計算された復元帯域用のゲインファクタを使用して、調整部526により調整される。しかし重要なことは、フレーム内の第1スペクトル部分は調整部526による影響を受けず、復元フレーム用の生の第2部分だけが調整部526による影響を受ける。この目的で、ゲインファクタ計算部528は、ソース帯域又は生の第2部分523を分析し、更に復元帯域内の第1スペクトル部分を分析して、最終的に正確なゲインファクタ527を発見し、それにより、スケールファクタ帯域7が考慮対象である場合には、調整部526により出力された調整済みフレームのエネルギーがエネルギーE4を有するようになる。
【0155】
この文脈において、HE-AACと比較して、本発明の高周波復元の精度を評価することが非常に重要である。これについて、図3aのスケールファクタ帯域7に関して説明する。先行技術の符号器が、高分解能で符号化されるべきスペクトル部分307を「欠損ハーモニック」として検出すると仮定する。その場合、このスペクトル成分のエネルギーは、スケールファクタ帯域7などの復元帯域についてのスペクトル包絡情報と一緒に、復号器へと伝送される。その後、復号器がこの欠損ハーモニックを再生するであろう。しかし、欠損ハーモニック307が先行技術の復号器によって復元されるスペクトル値は、復元周波数390により指示されるように、周波数帯域7の中央に位置することになるであろう。そこで、本発明は、先行技術の復号器によって導入されると考えられる周波数誤差391を防止する。
【0156】
一実施形態において、スペクトル分析部はまた、第1スペクトル部分と第2スペクトル部分との間の類似性を計算するよう構成されており、更に、その計算された類似性に基づいて、復元領域内の第2スペクトル部分について、第2スペクトル部分とできるだけ一致する第1スペクトル部分を決定するよう構成されている。次に、この可変のソース領域/目標領域構成において、パラメトリック符号器は、第2符号化済み表現の中に、各目標領域に関する一致するソース領域を指示する一致情報を追加的に導入するであろう。復号器側において、この情報は、ソース帯域IDと目標帯域IDとに基づいて生の第2部分523を生成する、図5cの周波数タイル生成部522によって使用されるであろう。
【0157】
更に、図3aに示すように、スペクトル分析部は最大分析周波数までスペクトル表現を分析するよう構成され、その最大分析周波数は、サンプリング周波数の半分よりも少しだけ低く、かつ好ましくはサンプリング周波数の少なくとも1/4であるか、又は典型的にはそれより大きい。
【0158】
上述したように、符号器はダウンサンプリングなしで作動し、復号器はアップサンプリングなしで作動する。換言すれば、スペクトルドメインオーディオ符/復号器は、オリジナル入力オーディオ信号のサンプリングレートにより定義されるナイキスト周波数を有するスペクトル表現を生成するよう構成されている。
【0159】
図3aに示すように、スペクトル分析部は、ギャップ充填開始周波数から開始し且つスペクトル表現内に含まれた最大周波数により表わされる最大周波数で停止する、スペクトル表現を分析するよう構成されており、最小周波数からギャップ充填開始周波数まで伸びるスペクトル部分はスペクトル部分の第1セットに帰属し、ギャップ充填周波数より高い周波数を有する304、305、306、307のような更なるスペクトル部分もまた、第1スペクトル部分の第1セットに含まれる。
【0160】
上述したように、スペクトルドメインオーディオ復号器112は、第1復号化済み表現内のあるスペクトル値により表現された最大周波数があるサンプリングレートを有する時間表現内に含まれた最大周波数に等しく、第1スペクトル部分の第1セット内の最大周波数についてのスペクトル値がゼロ又はゼロとは異なるように、構成されている。いずれにしても、スペクトル成分の第1セット内のこの最大周波数について、スケールファクタ帯域のためのあるスケールファクタが存在し、そのスケールファクタは、図3a及び図3bの文脈で上述したように、このスケールファクタ帯域内の全てのスペクトル値がゼロに設定されているか否かにかかわらず、生成され伝送される。
【0161】
従って、本発明には次のような利点がある。即ち、圧縮効率を高めるための、例えばノイズ置換及びノイズ充填などの他のパラメトリック技術(これらの技術はノイズ状信号コンテンツを効率的に表現するために排他的に使用されるに対し、本発明は、調性成分の正確な周波数再生成を可能にする。これまで、如何なる現状技術にも、低帯域(LF)及び高帯域(HF)への固定された先験的分割の制限なく、スペクトルギャップ充填によって任意の信号コンテンツを効率的にパラメトリック表現する方法は開示されていない。
【0162】
本発明のシステムの実施形態は、現状技術の手法を改善し、その結果、高い圧縮効率と、ゼロ又は僅かな知覚的困惑度と、低ビットレートにも対応する全オーディオ帯域とを提供する。
【0163】
全体的なシステムは、以下の構成要素を含む。
・全帯域コア符号化
・インテリジェント・ギャップ充填(タイル充填又はノイズ充填)
・調性マスクにより選択されたコアにおける疎の調性部分
・タイル充填を含む、全帯域に対するジョイントステレオ・ペア符号化
・タイル上のTNS
・IGF領域におけるスペクトルホワイトニング
【0164】
より効率的なシステムへの第1歩は、スペクトルデータを、コア符号器の変換ドメインとは異なる第2の変換ドメインへと変換する必要をなくすことである。例えばAACのようなオーディオコーデックの主流はMDCTを基本変換として使用するため、BWEもMDCTドメインで実行することが有益である。BWEシステムについての第2の要件は、調性グリッドを保存する必要性であろう。これにより、HF調性成分でさえ保存され、符号化済みオーディオの品質が既存のシステムと比べて優性となる。BWEスキームについての上述した両方の要件を考慮して、インテリジェント・ギャップ充填(IGF)と称される新たなシステムを提案する。図2bは、本提案システムの符号器側のブロック図であり、図2aは復号器側のシステムを示す。
【0165】
次に、個別に又は一体に構成され得るギャップ充填操作を組み込んだ、全帯域周波数ドメインの第1符号化プロセッサと全帯域周波数ドメインの復号化プロセッサとについて、説明及び定義する。
【0166】
特に、ブロック1122aに対応するスペクトルドメイン復号器112は、スペクトル値の復号化済みフレームのシーケンスを出力するよう構成されており、復号化済みフレームは第1復号化済み表現であり、前記フレームは、スペクトル部分の第1セットについてのスペクトル値と第2スペクトル部分についてのゼロ指示とを含む。復号化装置は結合部208を更に含む。スペクトル値は、第2スペクトル部分の第2セットについて周波数再生成部により生成され、両方、即ち結合部及び周波数再生成部は、ブロック1122bの中に含まれている。このように、第2スペクトル部分と第1スペクトル部分とを結合することで、第1スペクトル部分の第1セット及びスペクトル部分の第2セットについてのスペクトル値を含む復元されたスペクトルフレームが取得され、次に、図14bのIMDCTブロック1124に対応するスペクトル-時間変換部118が復元されたスペクトルフレームを時間表現へと変換する。
【0167】
上述したように、スペクトル-時間変換部118又は1124は、逆修正離散コサイン変換512、514を実行するよう構成されており、後続の時間ドメインフレームをオーバーラップ及び加算するためのオーバーラップ加算ステージ516を更に含む。
【0168】
特に、スペクトルドメインオーディオ復号器1122aは、第1復号化済み表現を生成するよう構成されており、その第1復号化済み表現が、スペクトル-時間変換部1124により生成された時間表現のサンプリングレートと等しいサンプリングレートを定義する、ナイキスト周波数を有するよう構成されている。
【0169】
更に、復号器1112又は1122aは、第1スペクトル部分306が、周波数に関して2個の第2スペクトル部分307aと307bとの間に配置されるように、第1復号化済み表現を生成するよう構成されている。
【0170】
更なる実施形態において、第1復号化済み表現内の最大周波数に関するスペクトル値によって表現される最大周波数は、スペクトル-時間変換部により生成された時間表現に含まれる最大周波数と等しく、その第1表現内の最大周波数に関するスペクトル値はゼロ又はゼロとは異なる。
【0171】
更に、図3に示すように、符号化済み第1オーディオ信号部分は、ノイズ充填により復元されるべき第3スペクトル部分の第3セットの符号化済み表現を更に含み、第1復号化プロセッサ1120は、ブロック1122b内に含まれるノイズ充填部を更に含み、そのノイズ充填部は、第3スペクトル部分の第3セットの符号化済み表現からノイズ充填情報308を抽出し、異なる周波数領域内の第1スペクトル部分を使用せずに、第3スペクトル部分の第3セットにおいてノイズ充填操作を適用する。
【0172】
更に、スペクトルドメインオーディオ復号器112は第1復号化済み表現を生成するよう構成され、その第1復号化済み表現は、スペクトル-時間変換部118又は1124によって出力された時間表現によりカバーされる周波数領域の中央に位置する周波数と等しい周波数よりも大きい周波数値を持つ第1スペクトル部分を有する。
【0173】
更に、スペクトル分析部又は全帯域分析部604は、時間-周波数変換部602により生成された表現を分析して、第1の高スペクトル分解能で符号化されるべき第1スペクトル部分の第1セットと、第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき異なる第2スペクトル部分の第2セットと、を決定するよう構成されており、このスペクトル分析部によって、第1スペクトル部分306は、周波数に関して、図3の307a及び307bで示すように2つの第2スペクトル部分の間になるよう決定される。
【0174】
特に、スペクトル分析部は、オーディオ信号のサンプリング周波数の少なくとも1/4である最大分析周波数まで、スペクトル表現を分析するよう構成されている。
【0175】
特に、スペクトルドメインオーディオ符号器は、量子化及びエントロピー符号化のためにスペクトル値のフレームのシーケンスを処理するよう構成されており、その場合、あるフレーム内では、第2部分の第2セットのスペクトル値がゼロに設定され、又は、あるフレーム内では、第1スペクトル部分の第1セット及び第2スペクトル部分の第2セットのスペクトル値が存在し、かつ後続の処理の期間中に、スペクトル部分の第2セットにおけるスペクトル値が410,418,422で例示的に示すようにゼロに設定される。
【0176】
スペクトルドメインオーディオ符号器は、オーディオ入力信号、又は周波数ドメインで作動する第1符号化プロセッサにより処理されたオーディオ信号の第1部分、のサンプリングレートにより定義されるナイキスト周波数を有するスペクトル表現を生成するよう構成されている。
【0177】
スペクトルドメインオーディオ符号器606は、第1符号化済み表現を提供するよう更に構成されており、その場合、サンプリングされたオーディオ信号のあるフレームについて、その符号化済み表現が第1スペクトル部分の第1セットと第2スペクトル部分の第2セットとを含み、スペクトル部分の第2セットにおけるスペクトル値はゼロ又はノイズ値として符号化される。
【0178】
全帯域分析部604又は102は、ギャップ充填開始周波数309から開始しかつスペクトル表現内に含まれる最大周波数により表現された最大周波数fmaxで終了するスペクトル表現と、最小周波数から第1スペクトル部分の第1セットに帰属するギャップ充填開始周波数309まで延びるスペクトル部分と、を分析するよう構成されている。
【0179】
特に、この分析部は、調性成分と非調性成分とが互いに分離されるように、スペクトル表現の少なくとも一部分に調性マスク処理を適用し、その場合、第1スペクトル部分の第1セットは調性成分を含み、第2スペクトル部分の第2セットは非調性成分を含む。
【0180】
本発明はこれまでブロック図の文脈で説明し、各ブロックは実際又は論理的なハードウエア要素を表してきたが、本発明はまた、コンピュータ構成された方法によっても実装され得る。後者の方法の場合、各ブロックは対応する方法ステップを表し、これらのステップは対応する論理的又は物理的なハードウエアブロックによって実行される機能を表す。
【0181】
これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路など、ハードウエア装置により(ハードウエア装置を使用して)実行されてもよい。幾つかの実施形態において、最も重要な方法ステップの1つ以上が、そのような装置によって実行されてもよい。
【0182】
本発明の伝送又は符号化された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
【0183】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
【0184】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0185】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0186】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0187】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0188】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体などの非一時的記憶媒体)である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び/又は非一時的である。
【0189】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表
現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0190】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0191】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0192】
本発明に係るさらなる実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器へ(例えば電子的又は光学的に)伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へと送信するためのファイルサーバを含み得る。
【0193】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0194】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
[備考]
[請求項1]
オーディオ信号を符号化するオーディオ符号器において、
第1オーディオ信号部分を周波数ドメインで符号化する第1符号化プロセッサ(600)であって、
前記第1オーディオ信号部分をこの第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換する、時間-周波数変換部(602)と、
前記周波数ドメイン表現を前記最大周波数まで分析して、第1スペクトル分解能で符号化されるべき第1スペクトル部分を決定し、かつ前記第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル部分を決定する、分析部(604)であって、前記第1スペクトル部分から1つの第1スペクトル部分(306)を決定し、前記1つの第1スペクトル部分が周波数に関して前記第2スペクトル部分からの2つの第2スペクトル部分(307a,307b)の間に位置するよう決定する、分析部(604)と、
前記第1スペクトル部分を前記第1スペクトル分解能で符号化しかつ前記第2スペクトル部分を前記第2スペクトル分解能で符号化する、スペクトル符号器(606)であって、前記第2スペクトル分解能を有するスペクトル包絡情報を前記第2スペクトル部分から計算するパラメトリック符号器を含む、スペクトル符号器(606)と、
を有する第1符号化プロセッサ(600);
第2の異なるオーディオ信号部分を時間ドメインで符号化する第2符号化プロセッサ(610);
前記オーディオ信号を分析し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定する、コントローラ(620);
前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成する符号化済み信号形成部(630);
を含むオーディオ符号器。
[請求項2]
請求項1に記載のオーディオ符号器において、
入力信号は高帯域と低帯域とを含み、
前記第2符号化プロセッサ(610)は、
前記第2オーディオ信号部分を低サンプリングレートの表現へと変換するサンプリングレート変換部(900)であって、前記低サンプリングレートは前記オーディオ信号のサンプリングレートよりも低く、前記低サンプリングレートの表現は前記入力信号の前記高帯域を含まない、サンプリングレート変換部(900)と、
前記低サンプリングレートの表現を時間ドメイン符号化する時間ドメイン低帯域符号器(910)と、
前記高帯域をパラメトリックに符号化する時間ドメイン帯域幅拡張符号器(920)と、
を有するオーディオ符号器。
[請求項3]
請求項1又は2に記載のオーディオ符号器において、
前記第1オーディオ信号部分及び前記第2オーディオ信号部分を前処理するよう構成された前処理部(1000)を更に含み、
前記前処理部は予測係数を決定する予測分析部(1002)を含み、
前記第2符号化プロセッサは、前記予測係数の量子化されたバージョンを生成する予測係数量子化部(1010)と、その量子化された前記予測係数の符号化済みバージョンを生成するエントロピー符号器と、を含み、
前記符号化済み信号形成部(630)は、前記符号化済みバージョンを前記符号化済みオーディオ信号の中に導入するよう構成されている、オーディオ符号器。
[請求項4]
請求項1乃至3のいずれか一項に記載のオーディオ符号器において、
前処理部(1000)は、前記オーディオ信号を前記第2符号化プロセッサのサンプリングレートへとリサンプリングするリサンプラ(1004)を含み、かつ
予測分析部は、リサンプリングされたオーディオ信号を使用して予測係数を決定するよう構成されており、又は、
前記前処理部(1000)は、前記第1オーディオ信号部分について1つ以上の長期予測パラメータを決定する長期予測分析ステージ(1006)を更に含む、オーディオ符号器。
[請求項5]
請求項1乃至4のいずれか一項に記載のオーディオ符号器において、
前記オーディオ信号内で前記第1オーディオ信号部分に時間的に直後に後続する前記第2オーディオ信号部分の符号化のために前記第2符号化処理(610)が初期化されるように、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2符号化プロセッサ(610)の初期化データを計算するクロスプロセッサ(700)をさらに含む、オーディオ符号器。
[請求項6]
請求項5に記載のオーディオ符号器において、前記クロスプロセッサ(700)は以下の構成要素のいずれかを含む、オーディオ符号器:
前記第1符号化済み信号部分の復号化済みバージョンを計算する、スペクトル復号器(701);
初期化のために、前記復号化済みバージョンの遅延済みバージョンを前記第2符号化プロセッサのデエンファシスステージ(617)へと供給する、遅延ステージ(707);
初期化のために、フィルタ出力を前記第2符号化プロセッサ(610)の符号帳決定部(613)へと供給する、重み付き予測係数分析フィルタリングブロック(708);
前記復号化済みバージョン又はプリエンファシス(709)済みバージョンをフィルタリングし、初期化のためにフィルタ残差を前記第2符号化プロセッサの適応型符号帳決定部(612)へと供給する、分析フィルタリングステージ(706);又は
前記復号化済みバージョンをフィルタリングし、初期化のために遅延済み又はプリエンファシス済みバージョンを前記第2符号化プロセッサ(610)の合成フィルタリングステージ(616)へと供給する、プリエンファシスフィルタ(709)。
[請求項7]
請求項1乃至6のいずれか一項に記載のオーディオ符号器において、
前記分析部(604)は、時間的タイル整形、時間的ノイズ整形分析、又は前記第2スペクトル部分におけるスペクトル値をゼロに設定する操作を実行するよう構成されており、
前記第1符号化プロセッサ(600)は、前記第1オーディオ信号部分から導出された予測係数(1010)を使用して前記第1スペクトル部分のスペクトル値の整形(606a)を実行し、更に前記第1スペクトル部分の整形済みスペクトル値の量子化及びエントロピー符号化操作(606b)を実行するよう構成されており、
前記第2スペクトル部分のスペクトル値はゼロにセットされる、オーディオ符号器。
[請求項8]
請求項7に記載のオーディオ符号器において、クロスプロセッサを更に備え、前記クロスプロセッサ(700)は、
前記第1オーディオ信号部分から導出されたLPC係数(1010)を使用して前記第1スペクトル部分の量子化済みスペクトル値を整形する、ノイズ整形部(703)と、
前記第1スペクトル部分のスペクトル的に整形されたスペクトル部分を高スペクトル分解能で復号化し、かつ前記第2スペクトル部分のパラメトリック表現及び少なくとも1つの復号化済み第1スペクトル部分を使用して第2スペクトル部分を合成して、復号化済みスペクトル表現を取得する、スペクトル復号器(704,705)と、
前記スペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得する周波数-時間変換部(702)であって、前記復号化済み第1オーディオ信号部分に関連するサンプリングレートは前記オーディオ信号のサンプリングレートとは異なり、前記周波数-時間変換部(702)の出力信号に関連するサンプリングレートは前記周波数-時間変換部(602)に入力されたオーディオ信号のサンプリングレートとは異なる、周波数-時間変換部(702)と、
を含む、オーディオ符号器。
[請求項9]
請求項1乃至8のいずれか一項に記載のオーディオ符号器において、
前記第2符号化プロセッサが以下のブロック群の少なくとも1つのブロックを含む、オーディオ符号器:
予測分析フィルタ(611);
適応型符号帳ステージ(612);
革新的符号帳ステージ(614);
革新的符号帳エントリを推定する推定部(613);
ACELP/ゲイン符号化ステージ(615);
予測合成フィルタリングステージ(616);
デエンファシス・ステージ(617);
低音ポストフィルタ分析ステージ(618)。
[請求項10]
請求項1乃至9のいずれか一項に記載のオーディオ符号器において、
前記時間ドメイン符号化プロセッサは、関連する第2サンプリングレートを有し、
前記周波数ドメイン符号化プロセッサは、前記第2サンプリングレートよりも高い第1サンプリングレートを関連して有し、
前記オーディオ符号器は、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2符号化プロセッサの初期化データを計算するクロスプロセッサ(700)を更に含み、
前記クロスプロセッサは、時間ドメイン信号を前記第2サンプリングレートで生成する周波数-時間変換部(702)を有し、
前記周波数-時間変換部(702)が、
前記第1サンプリングレートと前記第2サンプリングレートとの1よりも小さい比に従って、前記周波数-時間変換部に入力されたスペクトルの低域部分を選択する選択部(726)と、
前記時間-周波数変換部(602)の変換長よりも小さい変換長を有する変換プロセッサ(720)と、
前記時間-周波数変換部(602)により使用された窓よりも少数の窓係数を有する窓を使用して窓掛けする合成窓掛け部(712)と、を含む、
オーディオ符号器。
[請求項11]
符号化済みオーディオ信号を復号化するオーディオ復号器において、以下の構成要素を含むオーディオ復号器:
第1の符号化済みオーディオ信号部分を周波数ドメインで復号化する第1復号化プロセッサ(1120)であって、
第1スペクトル部分を高いスペクトル分解能で復号化し、かつ第2スペクトル部分をそれら第2スペクトル部分のパラメトリック表現と少なくとも1つの復号化済み第1スペクトル部分とを使用して合成することで、復号化済みスペクトル表現を取得するスペクトル復号器(1122)であって、1つの第1スペクトル部分(306)が周波数に関して2つの第2スペクトル部分(307a,307b)の間に位置するように前記第1復号化済み表現を生成するよう構成された、スペクトル復号器(1122)と、
前記復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を得る、周波数-時間変換部(1120)と、
を含む、第1復号化プロセッサ(1120);
第2の符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2オーディオ信号部分を取得する第2復号化プロセッサ(1140);
前記復号化済み第1スペクトル部分と前記復号化済み第2スペクトル部分とを結合して復号化済みオーディオ信号を取得する結合部(1160)。
[請求項12]
請求項11に記載のオーディオ復号器において、前記第2復号化プロセッサが、
低帯域時間ドメイン信号を復号化する時間ドメイン低帯域復号器(1200)と、
前記低帯域時間ドメイン信号をアップサンプリングするアップサンプラ(1210)と、
時間ドメイン出力信号の高帯域を合成する時間ドメイン帯域幅拡張復号器(1220)と、
前記時間ドメイン信号の合成された高帯域とアップサンプリングされた低帯域時間ドメイン信号とをミキシングするミキサ(1230)と、
を含む、オーディオ復号器。
[請求項13]
請求項12に記載のオーディオ復号器において、
前記アップサンプラ(1210)が、第1時間ドメイン低帯域復号器サンプリングレートで作動する分析フィルタバンク(1471)と、前記第1時間ドメイン低帯域サンプリングレートよりも高い第2出力サンプリングレートで作動する合成フィルタバンク(1473)とを含む、オーディオ復号器。
[請求項14]
請求項12又は13に記載のオーディオ復号器において、
前記時間ドメイン低帯域復号器(1200)は、残差信号と、復号器(1149,1141,1142)と、合成フィルタ係数(1145)を使用して残差信号をフィルタリングする合成フィルタ(1143)と、を含み、
前記時間ドメイン帯域幅拡張復号器(1220)は、前記残差信号をアップサンプリング(1221)し、アップサンプリング済み残差信号を非線形操作を用いて処理(1222)して、高帯域残差信号を取得し、その高帯域残差信号をスペクトル的に整形(1223)することで、合成された高帯域を取得するよう構成されている、オーディオ復号器。
[請求項15]
請求項11乃至14のいずれか一項に記載のオーディオ復号器において、
前記第1復号化プロセッサ(1120)は、前記第1復号化済み第1信号部分をポストフィルタリングする適応型長期予測のポストフィルタ(1420)を含み、前記フィルタ(1420)が、前記符号化済みオーディオ信号の中に含まれる1つ以上の長期予測パラメータにより制御される、オーディオ復号器。
[請求項16]
請求項11乃至15のいずれか一項に記載のオーディオ復号器において、
前記符号化済みオーディオ信号内で時間的に前記第1オーディオ信号部分に後続する前記符号化済み第2のオーディオ信号部分を復号化するために、前記第2復号化プロセッサ(1140)が初期化されるように、前記第1の符号化済みオーディオ信号部分の前記復号化済みスペクトル表現から前記第2復号化プロセッサ(1140)の初期化データを計算するための、クロスプロセッサ(1170)を更に含む、オーディオ復号器。
[請求項17]
請求項16に記載のオーディオ復号器において、前記クロスプロセッサは以下の構成要素を更に含む、オーディオ復号器:
前記第1復号化プロセッサ(1120)の前記周波数-時間変換部(1124)よりも低いサンプリングレートで作動して、追加的な復号化済み第1信号部分を時間ドメインで取得する、周波数-時間変換部(1170)であって、前記周波数-時間変換部(1171)により出力される信号は、前記第2復号化プロセッサの前記周波数-時間変換部(1124)の出力に関連する第1サンプリングレートよりも低い第2サンプリングレートを有し、追加的周波数-時間変換部(1171)は、前記第1サンプリングレートと前記第2サンプリングレートとの1よりも小さい比に従って、前記追加的周波数-時間変換部(1171)に入力されるスペクトルの低域部分を選択する選択部(726)を含む、追加的周波数-時間変換部(1171);
前記周波数-時間変換部(1124)の変換長(710)よりも小さな変換長を有する変換プロセッサ(720);
前記周波数-時間変換部(1124)により使用される窓と比べて少数の係数を有する窓を使用する合成窓掛け部(722)。
[請求項18]
請求項16又は17に記載のオーディオ復号器において、前記クロスプロセッサ(1170)が以下の構成要素を含む、オーディオ復号器:
初期化のために、前記追加的な復号化済み第1信号部分を遅延しかつ前記復号化済み第1信号部分の遅延されたバージョンを前記第2復号化プロセッサのデエンファシスステージ(1144)へと供給する、遅延ステージ(1172);
初期化のために、前記追加的な復号化済み第1信号部分をフィルタリング及び遅延し、かつ遅延ステージ出力を前記第2復号化プロセッサの予測合成フィルタ(1143)へと供給する、プリエンファシスフィルタ(1173)及び遅延ステージ(1175);
前記追加的な復号化済み第1信号部分又はプリエンファシス(1173)された前記追加的な復号化済み第1信号部分から予測残差信号を生成し、予測残差信号を前記第2復号化プロセッサ(1200)の符号帳合成部(1141)へと供給する、予測分析フィルタ(1174);又は
初期化のために、前記追加的な復号化済み第1信号部分を前記第2復号化プロセッサのリサンプラ(1210)の分析ステージ(1471)へと供給する、スイッチ(1480)。
[請求項19]
請求項11乃至18のいずれか一項に記載のオーディオ復号器において、
前記第2復号化プロセッサ(1200)が以下のブロック群の少なくとも1つのブロックを含む、オーディオ復号器:
ゲイン及び革新的符号帳を復号化するACELP;
適応型符号帳合成ステージ(1141);
ACELP後処理部(1142);
予測合成フィルタ(1143);
デエンファシス・ステージ(1144)。
[請求項20]
オーディオ信号を符号化する方法において、以下のステップを含む方法:
第1オーディオ信号部分を周波数ドメインで第1符号化するステップ(600)であって、
前記第1オーディオ信号部分を前記第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換するサブステップ(602)と、
前記周波数ドメイン表現を前記最大周波数まで分析し、第1スペクトル分解能で符号化されるべき第1スペクトル部分と前記第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル部分とを決定するサブステップ(604)であって、前記第1スペクトル部分から1つの第1スペクトル部分(306)を決定し、前記1つの第1スペクトル部分が周波数に関して前記第2スペクトル部分からの2つの第2スペクトル部分(307a,307b)の間に位置するよう決定する、サブステップと、
前記第1スペクトル部分を前記第1スペクトル分解能で符号化し、前記第2スペクトル部分を前記第2スペクトル分解能で符号化するサブステップ(606)であって、前記第2スペクトル部分の符号化は、前記第2スペクトル分解能を有するスペクトル包絡情報を前記第2スペクトル部分から計算することを含む、サブステップと、
を有する、第1符号化するステップ(600);
第2の異なるオーディオ信号部分を時間ドメインで第2符号化するステップ(610);
前記オーディオ信号を分析し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定するステップ(620);
前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成するステップ(630)。
[請求項21]
符号化済みオーディオ信号を復号化する方法において、以下のステップを含む方法:
第1の符号化済みオーディオ信号部分を周波数ドメインで第1復号化するステップ(1120)であって、
第1スペクトル部分を高いスペクトル分解能で復号化し、かつ第2スペクトル部分をそれら第2スペクトル部分のパラメトリック表現と少なくとも1つの復号化済み第1スペクトル部分とを使用して合成することで、復号化済みスペクトル表現を取得する、サブステップ(1122)であって、1つの第1スペクトル部分(306)が周波数に関して2つの第2スペクトル部分(307a,307b)の間に位置するように前記第1復号化済み表現を生成することを含む、サブステップ(1122)と、
前記復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を得る、サブステップ(1120)と、
を有する第1復号化ステップ(1120);
第2の符号化済みオーディオ信号部分を時間ドメインで第2復号化して復号化済み第2オーディオ信号部分を取得するステップ(1140);
前記復号化済み第1スペクトル部分と前記復号化済み第2スペクトル部分とを結合して復号化済みオーディオ信号を取得するステップ(1160)。
[請求項22]
コンピュータ又はプロセッサ上で作動するときに、請求項20又は請求項21に記載の方法を実行するコンピュータプログラム。
図1a
図1b
図2a
図2b
図3a
図3b
図4a
図4b
図5a
図5b
図5c
図6
図7a
図7b
図8
図9
図10
図11a
図11b
図12
図13
図14a-1】
図14a-2】
図14b
図14c