IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.の特許一覧

特許7438334MDCT分析/合成およびTDARに基づく不均一直交フィルタバンクを使用した時間変化する時間-周波数タイリング
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-15
(45)【発行日】2024-02-26
(54)【発明の名称】MDCT分析/合成およびTDARに基づく不均一直交フィルタバンクを使用した時間変化する時間-周波数タイリング
(51)【国際特許分類】
   G10L 19/022 20130101AFI20240216BHJP
【FI】
G10L19/022
【請求項の数】 17
(21)【出願番号】P 2022513319
(86)(22)【出願日】2020-08-25
(65)【公表番号】
(43)【公表日】2022-11-04
(86)【国際出願番号】 EP2020073742
(87)【国際公開番号】W WO2021037847
(87)【国際公開日】2021-03-04
【審査請求日】2022-04-25
(31)【優先権主張番号】19194145.9
(32)【優先日】2019-08-28
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500242786
【氏名又は名称】フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ニルス・ヴェルナー
(72)【発明者】
【氏名】ベルント・エドラー
【審査官】中村 天真
(56)【参考文献】
【文献】特表2022-505789(JP,A)
【文献】特表2019-526074(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
オーディオ信号(102)を処理して前記オーディオ信号(102)のサブバンド表現を取得するためのオーディオプロセッサ(100)であって、
前記オーディオ信号(102)のサンプルの少なくとも2つの部分的に重複するブロック(108_1;108_2)に対してカスケード重複クリティカルサンプリング変換を実行して、前記オーディオ信号(102)のサンプルの第1のブロック(108_1)に基づいてサブバンドサンプルのセット(110_1,1;110_1,2)を取得し、前記オーディオ信号(102)のサンプルの第2のブロック(108_2)に基づいてサブバンドサンプルのセット(110_2,1;110_2,2)を取得するように構成される、カスケード重複クリティカルサンプリング変換段(104)と、
サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)が、サンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)と比較して異なる領域を時間-周波数平面において表す場合に、組み合わせられると前記時間-周波数平面において同じ領域を表す、サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)のうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)のうちのサブバンドサンプルの1つまたは複数のセットを特定し、サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)のうちのサブバンドサンプルの前記特定された1つまたは複数のセット、および/または、サンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)のうちのサブバンドサンプルの前記特定された1つまたは複数のセットを時間-周波数変換し、前記特定された1つまたは複数のサブバンドサンプルまたはその1つまたは複数の時間-周波数変換されたバージョンの対応する1つと同じ領域を前記時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するように構成される、第1の時間-周波数変換段(105)と、
前記オーディオ信号(102)のサンプルの前記第1のブロック(108_1)に基づいて取得されたもの、および前記オーディオ信号のサンプルの前記第2のブロック(108_2)に基づいて取得されたものである、サブバンドサンプルの2つの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた合成を実行して、前記オーディオ信号(102)のエイリアシングが低減されたサブバンド表現(112_1~112_2)を取得するように構成される、時間領域エイリアシング低減段(106)とを含む、オーディオプロセッサ。
【請求項2】
前記第1の時間-周波数変換段によって実行される前記時間-周波数変換は、重複クリティカルサンプリング変換である、請求項1に記載のオーディオプロセッサ(100)。
【請求項3】
前記第1の時間-周波数変換段(105)によって実行される、サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)のうちのサブバンドサンプルの前記特定された1つまたは複数のセットの、および/またはサンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)のうちのサブバンドサンプルの前記特定された1つまたは複数のセットの前記時間-周波数変換は、以下の式により表される変換に相当し、
【数1】
S(m)は前記変換を示し、mは前記オーディオ信号のサンプルの前記ブロックのインデックスを示し、T0…TK適切な時間-周波数変換行列である、請求項1または2に記載のオーディオプロセッサ(100)。
【請求項4】
前記カスケード重複クリティカルサンプリング変換段(104)は、前記カスケード重複クリティカルサンプリング変換段(104)の第2の重複クリティカルサンプリング変換段(126)を使用して、前記オーディオ信号のサンプルの前記第1のブロック(108_1)に基づいて取得されるビンの第1のセット(124_1)および前記オーディオ信号のサンプルの前記第2のブロック(124_2)に基づいて取得されるビンの第2のセット(124_2)を処理するように構成され、
前記第2の重複クリティカルサンプリング変換段(126)は、前記オーディオ信号の信号特性に依存して、ビンの前記第1のセット(124_1)に対して第1の重複クリティカルサンプリング変換を実行してサンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)を取得し、ビンの前記第2のセット(124_2)に対して第2の重複クリティカルサンプリング変換を実行してサンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)を取得するように構成され、前記第1のクリティカルサンプリング変換のうちの1つまたは複数は、前記第2のクリティカルサンプリング変換と比較して異なるフレーム長を有する、請求項1から3のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項5】
前記第1の時間-周波数変換段は、前記第1のクリティカルサンプリング変換のうちの前記1つまたは複数が前記第2のクリティカルサンプリング変換と比較して異なるフレーム長を有する場合に、前記オーディオ信号の前記時間-周波数平面において同じ領域を表す、サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)のうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2.2)のうちのサブバンドサンプルの1つまたは複数のセットを特定するように構成される、請求項4に記載のオーディオプロセッサ(100)。
【請求項6】
前記オーディオプロセッサ(100)は、前記オーディオ信号(102)の前記エイリアシングが低減されたサブバンド表現(112_1)を時間-周波数変換するように構成される第2の時間-周波数変換段を含み、
前記第2の時間-周波数変換段によって適用される時間-周波数変換は、前記第1の時間-周波数変換段によって適用される前記時間-周波数変換の逆である、請求項1から5のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項7】
前記時間領域エイリアシング低減段によって実行される前記時間領域のエイリアシング低減は、以下の式によって表される変換に相当し、
【数2】
R(z,m)は前記変換を示し、zはz領域におけるフレームインデックスを示し、mは前記オーディオ信号のサンプルの前記ブロックのインデックスを示し、F'0…F'KはNxNの重複クリティカルサンプリング変換の置換前/折り畳み行列の修正されたバージョンを示す、請求項1から6のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項8】
前記オーディオプロセッサ(100)は、サンプルの前記第1のブロックまたはサンプルの前記第2のブロックに対応するサブバンドサンプルの前記特定された1つまたは複数のセットの長さが、前記オーディオ信号(102)の前記対応するエイリアシングが低減されたサブバンド表現(112_1)を取得するための前記時間領域エイリアシング低減段において使用されるかどうかを示す、STDARパラメータを含むビットストリームを提供するように構成され、
または、前記オーディオプロセッサ(100)は、サブバンドサンプルの前記セット(110_1,1;110_1,2;110_2,1;110_2,2)の長さを示すMDCT長パラメータを含むビットストリームを提供するように構成される、請求項1から7のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項9】
前記オーディオプロセッサ(100)は、ジョイントチャネルコーディングを実行するように構成される、請求項1から8のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項10】
前記オーディオプロセッサ(100)は、ジョイントチャネル処理としてM/SまたはMCTを実行するように構成される、請求項1から9のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項11】
前記オーディオプロセッサ(100)は、前記オーディオ信号(102)の前記対応するエイリアシングが低減されたサブバンド表現(112_1)またはその符号化されたバージョンを取得するために前記時間領域エイリアシング低減段において使用される、サンプルの前記第1のブロックに対応する前記1つまたは複数の時間-周波数変換されたサブバンドサンプルの長さおよびサンプルの前記第2のブロックに対応する前記1つまたは複数の時間-周波数変換されたサブバンドサンプルの長さを示す、少なくとも1つのSTDARパラメータを含むビットストリームを提供するように構成される、請求項1から10のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項12】
前記カスケード重複クリティカルサンプリング変換段(104)は、前記オーディオ信号(102)のサンプルの前記少なくとも2つの部分的に重複するブロック(108_1;108_2)のサンプルの第1のブロック(108_1)およびサンプルの第2のブロック(108_2)に対して重複クリティカルサンプリング変換を実行し、サンプルの前記第1のブロック(108_1)のためのビンの第1のセット(124_1)およびサンプルの前記第2のブロック(108_2)のためのビンの第2のセット(124_2)を取得するように構成される、第1の重複クリティカルサンプリング変換段(120)を含む、請求項1から11のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項13】
前記カスケード重複クリティカルサンプリング変換段(104)はさらに、ビンの第1のセット(124_1)のセグメント(128_1,1)に対して重複クリティカルサンプリング変換を実行し、ビンの第2のセット(124_2)のセグメント(128_2,1)に対して重複クリティカルサンプリング変換を実行し、各セグメントは前記オーディオ信号(102)のサブバンドと関連付けられ、ビンの前記第1のセットのためのサブバンドサンプルのセット(110_1,1)およびビンの前記第2のセットのためのサブバンドサンプルのセット(110_2,1)を取得するように構成される、第2の重複クリティカルサンプリング変換段(126)を含む、請求項1から12のいずれか一項に記載のオーディオプロセッサ(100)。
【請求項14】
オーディオ信号のサブバンド表現を処理して前記オーディオ信号(102)を取得するためのオーディオプロセッサ(200)であって、前記オーディオ信号の前記サブバンド表現はエイリアシングが低減されたサブバンドサンプルのセットを含み、前記オーディオプロセッサ(200)は、
前記オーディオ信号のサンプルの第1のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセット、および/または前記オーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセットを時間-周波数変換し、前記オーディオ信号のサンプルの前記第1のブロックおよびサンプルの前記第2のブロックのサンプルの他のブロックまたはその1つまたは複数の時間-周波数変換されたバージョンに対応する、前記1つまたは複数のエイリアシングが低減されたサブバンドサンプルの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたエイリアシングが低減されたサブバンドサンプルを取得するように構成される、第2の逆時間-周波数変換段と、
エイリアシングが低減されたサブバンドサンプルまたはその時間-周波数変換されたバージョンの対応するセットの重み付けられた合成を実行し、エイリアシングのあるサブバンド表現を取得するように構成される、逆時間領域エイリアシング低減段(202)と、
前記エイリアシングのあるサブバンド表現を時間-周波数変換し、前記オーディオ信号のサンプルの前記第1のブロック(108_1)に対応するサブバンドサンプルのセット(110_1,1;110_1,2)および前記オーディオ信号のサンプルの前記第2のブロック(108_1)に対応するサブバンドサンプルのセット(110_2,1;110_2,2)を取得するように構成される、第1の逆時間-周波数変換段であって、前記第1の逆時間-周波数変換段によって適用される時間-周波数変換は、前記第2の逆時間-周波数変換段によって適用される前記時間-周波数変換の逆である、第1の逆時間-周波数変換段と、
サンプルの前記セット(110_1,1;110_,2;110_2,1;110_2,2)に対してカスケード逆重複クリティカルサンプリング変換を実行し、前記オーディオ信号(102)のサンプルのブロックと関連付けられるサンプルのセット(206_1,1)を取得するように構成される、カスケード逆重複クリティカルサンプリング変換段(204)とを含む、オーディオプロセッサ(200)。
【請求項15】
オーディオ信号を処理して前記オーディオ信号のサブバンド表現を取得するための方法(320)であって、
前記オーディオ信号(102)のサンプルの少なくとも2つの部分的に重複するブロック(108_1;108_2)に対してカスケード重複クリティカルサンプリング変換を実行して、前記オーディオ信号(102)のサンプルの第1のブロック(108_1)に基づいてサブバンドサンプルのセット(110_1,1;110_1,2)を取得し、前記オーディオ信号(102)のサンプルの第2のブロック(108_2)に基づいてサブバンドサンプルのセット(110_2,1;110_2,2)を取得するステップ(322)と、
サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)が、サンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)と比較して時間-周波数平面において異なる領域を表す場合に、組み合わせられると前記時間-周波数平面の同じ領域を表す、サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)のうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)のうちのサブバンドサンプルの1つまたは複数のセットを特定するステップ(324)と、
サンプルの前記第1のブロック(108_1)に基づくサブバンドサンプルの前記セット(110_1,1;110_1,2)のうちのサブバンドサンプルの前記特定された1つまたは複数のセット、および/または、サンプルの前記第2のブロック(108_2)に基づくサブバンドサンプルの前記セット(110_2,1;110_2,2)のうちのサブバンドサンプルの前記特定された1つまたは複数のセットに対して時間-周波数変換を実行し、前記特定された1つまたは複数のサブバンドサンプルまたはその1つまたは複数の時間-周波数変換されたバージョンの対応する1つと同じ領域を前記時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するステップ(326)と、
前記オーディオ信号(102)のサンプルの前記第1のブロック(108_1)に基づいて取得されたもの、および前記オーディオ信号のサンプルの前記第2のブロック(108_2)に基づいて取得されたものである、サブバンドサンプルの2つの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた合成を実行して、前記オーディオ信号(102)のエイリアシングが低減されたサブバンド表現(112_1;112_2)を取得するステップ(328)とを含む、方法(320)。
【請求項16】
オーディオ信号のサブバンド表現を処理して前記オーディオ信号を取得するための方法(420)であって、前記オーディオ信号の前記サブバンド表現はエイリアシングが低減されたサブバンドサンプルのセットを含み、前記方法は、
前記オーディオ信号のサンプルの第1のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセット、および/または前記オーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセットに対して時間-周波数変換を実行して、前記オーディオ信号のサンプルの前記第1のブロックおよびサンプルの前記第2のブロックのサンプルの他のブロックまたはその1つまたは複数の時間-周波数変換されたバージョンに対応する、前記1つまたは複数のエイリアシングが低減されたサブバンドサンプルの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたエイリアシングが低減されたサブバンドサンプルを取得するステップ(422)と、
エイリアシングが低減されたサブバンドサンプルまたはその時間-周波数変換されたバージョンの対応するセットの重み付けられた合成を実行し、エイリアシングのあるサブバンド表現を取得するステップ(424)と、
前記エイリアシングのあるサブバンド表現に対して時間-周波数変換を実行し、前記オーディオ信号のサンプルの前記第1のブロック(108_1)に対応するサブバンドサンプルのセット(110_1,1;110_1,2)および前記オーディオ信号のサンプルの前記第2のブロック(108_2)に対応するサブバンドサンプルのセット(110_2,1;110_2,2)を取得するステップ(426)であって、前記オーディオ信号のサンプルの前記第1のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの前記1つまたは複数のセット、または前記オーディオ信号のサンプルの前記第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの前記1つまたは複数のセットに対して実行される時間-周波数変換が、前記エイリアシングのあるサブバンド表現に対して実行される前記時間-周波数変換の逆である、ステップと、
サンプルの前記セット(110_1,1;110_,2;110_2,1;110_2,2)に対してカスケード逆重複クリティカルサンプリング変換を実行し、前記オーディオ信号(102)のサンプルのブロックと関連付けられるサンプルのセット(206_1,1)を取得するステップ(428)とを含む、方法。
【請求項17】
請求項15または16に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するためのオーディオプロセッサ/方法に関する。さらなる実施形態は、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサ/方法に関する。いくつかの実施形態は、MDCT(MDCT=修正離散コサイン変換)分析/合成およびTDAR(TDAR=時間領域エイリアシング低減)に基づく不均一直交フィルタバンクを使用した時間変化する時間-周波数タイリングに関する。
【背景技術】
【0002】
サブバンド結合を使用した不均一直交フィルタバンクの設計が可能であり[非特許文献1]、[非特許文献2]、[非特許文献3]、時間領域エイリアシング低減(TDAR)と呼ばれる後処理ステップを導入すると、コンパクトなインパルス応答が可能である[非特許文献4]ことが、これまでに示されている。また、オーディオコーディングにおいてこのTDARフィルタバンクを使用すると、窓の切り替えよりも高いコーディング効率および/または改善された知覚品質が得られることが示されている[非特許文献5]。
【0003】
しかしながら、TDARの1つの大きな欠点は、同一の時間-周波数タイリングを使用するために2つの隣接フレームを必要とするという事実である。TDARはあるタイリングから別のタイリングに切り替えることが一時的に無効にされなければならないので、これは、時間変化する適応的な時間-周波数タイリングが必要であるとき、フィルタバンクのフレキシビリティを制限する。一般に、そのような切り替えは、入力信号特性が変化するとき、すなわち過渡事象に遭遇したときに必要とされる。均一MDCTでは、これは窓の切り替えを使用することによって達成される[非特許文献6]。
【先行技術文献】
【非特許文献】
【0004】
【文献】H. S. Malvar、「Biorthogonal and nonuniform lapped transforms for transform coding with reduced blocking and ringing artifacts」、IEEE Transactions on Signal Processing、vol. 46、no. 4、pp. 1043-1053、1998年4月
【文献】O. A. NiamutおよびR. Heusdens、「Subband merging in cosine-modulated filter banks」、IEEE Signal Processing Letters、vol. 10、no. 4、pp. 111-114、2003年4月
【文献】Frederic Bimbot、Ewen Camberlein、およびPierrick Philippe、「Adaptive Filter Banks using Fixed Size MDCT and Subband Merging for Audio Coding - Comparison with the MPEG AAC Filter Banks」、Audio Engineering Society Convention 121、2006年10月、Audio Engineering Society
【文献】N. WernerおよびB. Edler、「Nonuniform Orthogonal Filterbanks Based on MDCT Analysis/Synthesis and Time-Domain Aliasing Reduction」、IEEE Signal Processing Letters、vol. 24、no. 5、pp. 589-593、2017年5月
【文献】Nils WernerおよびBernd Edler、「Perceptual Audio Coding with Adaptive Non-Uniform Time/Frequency Tilings using Subband Merging and Time Domain Aliasing Reduction」、2019 IEEE International Conference on Acoustics, Speech and Signal Processing、2019
【文献】B. Edler、「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」、Frequenz、vol. 43、pp. 252-256、1989年9月
【文献】G. D. T. SchullerおよびM. J. T. Smith、「New framework for modulated perfect reconstruction filter banks」、IEEE Transactions on Signal Processing、vol. 44、no. 8、pp. 1941-1954、1996年8月
【文献】Gerald Schuller、「Time-Varying Filter Banks With Variable System Delay」、IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)、1997、pp. 21-24
【文献】Carl Taswell、「Empirical Tests for Evaluation of Multirate Filter Bank Parameters」、Wavelets in Signal and Image Analysis、Max A. Viergever、Arthur A. Petrosian、およびFrancois G. Meyer、Eds., vol. 19、pp. 111-139、Springer、オランダ、ドルトレヒト、2001年
【文献】F. Schuh、S. Dick、R. Fug、C. R. Helmrich、N. Rettelbach、およびT. Schwegler、「Efficient Multichannel Audio Tranform Coding with Low Delay and Complexity」、Audio Engineering Society、2016年9月[オンライン]、http://www.aes.org/e-lib/browse.cfm?elib=18464において入手可能
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、本発明の目的は、入力信号特性が変化するときでも、不均一フィルタバンクのインパルス応答のコンパクト性を改善することである。
【課題を解決するための手段】
【0006】
この目的は、独立請求項によって解決される。
【0007】
有利な実装形態は、従属請求項において述べられる。
【0008】
実施形態は、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するためのオーディオプロセッサを提供する。オーディオプロセッサは、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換(cascaded lapped critically sampled transform)を実行して、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルのセットを取得するように構成される、カスケード重複クリティカルサンプリング変換段を含む。さらに、オーディオプロセッサは、サンプルの第1のブロックに基づくサブバンドサンプルのセットが、サンプルの第2のブロックに基づくサブバンドサンプルのセットと比較して異なる領域を時間-周波数平面において表す[たとえば、サンプルの第1のブロックおよびサンプルの第2のブロックの時間-周波数平面表現]場合に、組み合わせられると時間-周波数平面において同じ領域を表す、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセットを特定し、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセット、および/または、サンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットを時間-周波数変換し、特定された1つまたは複数のサブバンドサンプルまたはその1つまたは複数の時間-周波数変換されたバージョンの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するように構成される、第1の時間-周波数変換段を含む。さらに、オーディオプロセッサは、オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットまたはその時間-周波数変換されたバ
ージョンの重み付けられた組合せを実行して、オーディオ信号(102)のエイリアシングが低減されたサブバンド表現を取得するように構成される、時間領域エイリアシング低減段を含む。
【0009】
実施形態では、時間-周波数変換段によって実行される時間-周波数変換は、重複クリティカルサンプリング変換である。
【0010】
実施形態では、時間-周波数変換段によって実行される、サンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットの、および/またはサンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットの時間-周波数変換は、以下の式により表される変換に相当し、
【0011】
【数1】
【0012】
S(m)は変換を示し、mはオーディオ信号のサンプルのブロックのインデックスを示し、T0…TKはサブバンドサンプルの対応する特定された1つまたは複数のセットのサブバンドサンプルを示す。
【0013】
たとえば、時間-周波数変換段は、上の式に基づいて、サンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットおよび/またはサンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットを時間-周波数変換するように構成され得る。
【0014】
実施形態では、カスケード重複クリティカルサンプリング変換段は、カスケード重複クリティカルサンプリング変換段の第2の重複クリティカルサンプリング変換段を使用して、オーディオ信号のサンプルの第1のブロックに基づいて取得されるビンの第1のセットおよびオーディオ信号のサンプルの第2のブロックに基づいて取得されるビンの第2のセットを処理するように構成され、第2の重複クリティカルサンプリング変換段は、オーディオ信号の信号特性に依存して[たとえば、オーディオ信号の信号特性が変化するとき]、ビンの第1のセットに対して第1の重複クリティカルサンプリング変換を、ビンの第2のセットに対して第2の重複クリティカルサンプリング変換を実行するように構成され、第1のクリティカルサンプリング変換のうちの1つまたは複数は、第2のクリティカルサンプリング変換と比較して異なる長さを有する。
【0015】
実施形態では、時間-周波数変換段は、第1のクリティカルサンプリング変換のうちの1つまたは複数が第2のクリティカルサンプリング変換と比較して異なる長さ[たとえば、結合係数(mergefactor)]を有する場合に、オーディオ信号の同じ時間-周波数部分を表す、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセットを特定するように構成される。
【0016】
実施形態では、オーディオプロセッサは、オーディオ信号のエイリアシングが低減されたサブバンド表現を時間-周波数変換するように構成される第2の時間-周波数変換段を含み、第2の時間-周波数変換段によって適用される時間-周波数変換は、第1の時間-周波数変換段によって適用される時間-周波数変換の逆である。
【0017】
実施形態では、時間領域エイリアシング低減段によって実行される時間領域のエイリアシング低減は、以下の式によって表される変換に相当し、
【0018】
【数2】
【0019】
R(z,m)は変換を示し、zはz領域におけるフレームインデックスを示し、mはオーディオ信号のサンプルのブロックのインデックスを示し、F'0…F'KはNxNの重複クリティカルサンプリング変換の置換前/折り畳み行列の修正されたバージョンを示す。
【0020】
実施形態では、オーディオプロセッサは、サンプルの第1のブロックまたはサンプルの第2のブロックに対応するサブバンドサンプルの特定された1つまたは複数のセットの長さが、オーディオ信号の対応するエイリアシングが低減されたサブバンド表現を取得するための時間領域エイリアシング低減段において使用されるかどうかを示す、STDARパラメータを含むビットストリームを提供するように構成され、または、オーディオプロセッサは、サブバンドサンプルのセットの長さを示すMDCT長パラメータ[たとえば、結合係数[MF]パラメータ]を含むビットストリームを提供するように構成される。
【0021】
実施形態では、オーディオプロセッサは、ジョイントチャネルコーディングを実行するように構成される。
【0022】
実施形態では、オーディオプロセッサは、ジョイントチャネル処理としてM/SまたはMCTを実行するように構成される。
【0023】
実施形態では、オーディオプロセッサは、オーディオ信号の対応するエイリアシングが低減されたサブバンド表現またはその符号化されたバージョン[たとえば、そのエントロピー符号化または差分符号化されたバージョン]を取得するために時間領域エイリアシング低減段において使用される、サンプルの第1のブロックに対応する1つまたは複数の時間-周波数変換されたサブバンドサンプルの長さおよびサンプルの第2のブロックに対応する1つまたは複数の時間-周波数変換されたサブバンドサンプルの長さを示す、少なくとも1つのSTDARパラメータを含むビットストリームを提供するように構成される。
【0024】
実施形態では、カスケード重複クリティカルサンプリング変換段は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックのサンプルの第1のブロックおよびサンプルの第2のブロックに対して重複クリティカルサンプリング変換を実行し、サンプルの第1のブロックのためのビンの第1のセットおよびサンプルの第2のブロックのためのビンの第2のセットを取得するように構成される、第1の重複クリティカルサンプリング変換段を含む。
【0025】
実施形態では、カスケード重複クリティカルサンプリング変換段はさらに、ビンの第1のセットのセグメントに対して重複クリティカルサンプリング変換を実行し、ビンの第2のセットのセグメントに対して重複クリティカルサンプリング変換を実行し、各セグメントはオーディオ信号のサブバンドと関連付けられ、ビンの第1のセットのためのサブバンドサンプルのセットおよびビンの第2のセットのためのサブバンドサンプルのセットを取得するように構成される、第2の重複クリティカルサンプリング変換段を含む。
【0026】
さらなる実施形態は、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサを提供し、オーディオ信号のサブバンド表現はサンプルのエイリアシングが低減されたセットを含む。オーディオプロセッサは、オーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセット、および/またはオーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセットを時間-周波数変換し、オーディオ信号のサンプルの他のブロックまたはその1つまたは複数の時間-周波数変換されたバージョンに対応する、1つまたは複数のエイリアシングが低減されたサブバンドサンプルの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたエイリアシングが低減されたサブバンドサンプルを取得するように構成される、第2の逆時間-周波数変換段を含む。さらに、オーディオプロセッサは、エイリアシングが低減されたサブバンドサンプルまたはその時間-周波数変換されたバージョンの対応するセットの重み付けられた組合せを実行し、エイリアシングのあるサブバンド表現を取得するように構成される、逆時間領域エイリアシング低減段を含む。さらに、オーディオプロセッサは、エイリアシングのあるサブバンド表現を時間-周波数変換し、オーディオ信号のサンプルの第1のブロックに対応するサブバンドサンプルのセットおよびオーディオ信号のサンプルの第2のブロックに対応するサブバンドサンプルのセットを取得するように構成される、第1の逆時間-周波数変換段を含み、第1の逆時間-周波数変換段によって適用される時間-周波数変換は、第2の逆時間-周波数変換段によって適用される時間-周波数変換の逆である。さらに、オーディオプロセッサは、サンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行し、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するように構成される、カスケード逆重複クリティカルサンプリング変換段を含む。
【0027】
さらなる実施形態は、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するための方法を提供する。方法は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルのセットを取得するステップを含む。さらに、方法は、サンプルの第1のブロックに基づくサブバンドサンプルのセットが、サンプルの第2のブロックに基づくサブバンドサンプルのセットと比較して時間-周波数平面において異なる領域を表す場合に、組み合わせられると時間-周波数平面において同じ領域を表す、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセットを特定するステップを含む。さらに、方法は、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセット、および/または、サンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットに対して時間-周波数変換を実行し、特定された1つまたは複数のサブバンドサンプルまたはその1つまたは複数の時間-周波数変換されたバージョンの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するステップを含む。さらに、方法は、オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するステップを含む。
【0028】
さらなる実施形態は、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するための方法を提供し、オーディオ信号のサブバンド表現はサンプルのエイリアシングが低減されたセットを含む。方法は、オーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセット、および/またはオーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセットに対して時間-周波数変換を実行して、オーディオ信号のサンプルの他のブロックまたはその1つまたは複数の時間-周波数変換されたバージョンに対応する、1つまたは複数のエイリアシングが低減されたサブバンドサンプルの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたエイリアシングが低減されたサブバンドサンプルを取得するステップを含む。さらに、方法は、エイリアシングが低減されたサブバンドサンプルまたはその時間-周波数変換されたバージョンの対応するセットの重み付けられた組合せを実行し、エイリアシングのあるサブバンド表現を取得するステップを含む。さらに、方法は、エイリアシングのあるサブバンド表現に対して時間-周波数変換を実行し、オーディオ信号のサンプルの第1のブロックに対応するサブバンドサンプルのセットおよびオーディオ信号のサンプルの第2のブロックに対応するサブバンドサンプルのセットを取得するステップを含み、第1の逆時間-周波数変換段によって適用される時間-周波数変換は、第2の逆時間-周波数変換段によって適用される時間-周波数変換の逆である。さらに、方法は、サンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行し、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するステップを含む。
【0029】
本発明の概念によれば、異なる時間-周波数タイリングの2つのフレーム間での時間領域のエイリアシング低減は、2つのフレームの時間-周波数タイリングを等しくする別の対称的なサブバンド結合/サブバンド分割ステップを導入することにより可能にされる。タイリングを等しくした後で、時間領域のエイリアシング低減を適用することができ、元のタイリングを再構築することができる。
【0030】
実施形態は、片側または両側のスイッチト時間領域エイリアシング低減(STDAR)を用いてSTDARフィルタバンクを提供する。
【0031】
実施形態では、STDARパラメータは、MDCT長パラメータ(たとえば、結合係数(MF)パラメータ)から導出され得る。たとえば、片側STDARを使用すると、結合係数当たり1ビットが送信され得る。このビットは、STDARのためにフレームmの結合係数が使用されるか、またはフレームm-1の結合係数が使用されるかをシグナリングし得る。代替として、変換は常により高い結合係数に向けて実行され得る。この場合、このビットは省略され得る。
【0032】
実施形態では、ジョイントチャネル処理、たとえばM/Sまたはマルチチャネルコーディングツール(MCT)[非特許文献10]が実行され得る。たとえば、チャネルの一部またはすべてが、同じTDARレイアウトに向かって両側STDARに基づいて変換され、一緒に処理され得る。恐らく、2、8、1、2、16、32などの変化する係数は4、4、8、8、16、16などの一様な係数ほど見込みがない。この相関は、たとえば差動コーディングによって、必要なデータの量を減らすために活用され得る。
【0033】
実施形態では、より少数の結合係数が送信されてもよく、省略される結合係数は近隣の結合係数から導出または補間され得る。たとえば、結合係数が実際に前の段落において説明されたものほど均一である場合、すべての結合係数が数個の結合係数に基づいて補間され得る。
【0034】
実施形態では、両側STDAR係数は、ビットストリームにおいてシグナリングされ得る。たとえば、ビットストリームの中の一部のビットは、現在のフレーム限界を記述するSTDAR係数をシグナリングするために必要とされる。これらのビットはエントロピー符号化され得る。加えて、これらのビットは互いとの間でコーディングされ得る。
【0035】
さらなる実施形態は、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するためのオーディオプロセッサを提供する。オーディオプロセッサは、カスケード重複クリティカルサンプリング変換段および時間領域エイリアシング低減段を含む。カスケード重複クリティカルサンプリング変換段は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換を実行し、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するように構成される。時間領域エイリアシング低減段は、オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するように構成される。
【0036】
さらなる実施形態は、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサを提供する。オーディオプロセッサは、逆時間領域エイリアシング低減段およびカスケード逆重複クリティカルサンプリング変換段を含む。逆時間領域エイリアシング低減段は、オーディオ信号の(部分的に重複するサンプルの異なるブロックの)2つの対応するエイリアシングが低減されたサブバンド表現の重み付けられた(およびシフトされた)組合せを実行して、エイリアシングのあるサブバンド表現を取得するように構成され、エイリアシングのあるサブバンド表現はサブバンドサンプルのセットである。カスケード逆重複クリティカルサンプリング変換段は、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するように構成される。
【0037】
本発明の概念によれば、さらなる後処理段が重複クリティカルサンプリング変換(たとえば、MDCT)パイプラインに追加され、さらなる後処理段は、周波数軸に沿った別の重複クリティカルサンプリング変換(たとえば、MDCT)および各サブバンド時間軸に沿った時間領域エイリアシング低減を含む。これは、追加の冗長性をもたらすことなく、かつ重複クリティカルサンプリング変換のフレーム遅延を減らしながら、インパルス応答の時間的なコンパクト性が改善された、重複クリティカルサンプリング変換(たとえば、MDCT)スペクトログラムからの任意の周波数スケールの抽出を可能にする。
【0038】
さらなる実施形態は、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するための方法を提供する。方法は、
オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するステップと、
オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するステップとを含む。
【0039】
さらなる実施形態は、オーディオ信号のサブバンド表現を処理してオーディオ信号を処理するための方法を提供する。方法は、
オーディオ信号の(部分的に重複するサンプルの異なるブロックの)2つの対応するエイリアシングが低減されたサブバンド表現の重み付けられた(およびシフトされた)組合せを実行して、エイリアシングのあるサブバンド表現を取得するステップであって、エイリアシングのあるサブバンド表現はサブバンドサンプルのセットである、ステップと、
サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するステップとを含む。
【0040】
有利な実装形態が、従属請求項において述べられる。
【0041】
続いて、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するためのオーディオプロセッサの有利な実装形態が説明される。
【0042】
実施形態では、カスケード重複クリティカルサンプリング変換段は、カスケードMDCT(MDCT=修正離散コサイン変換)段、カスケードMDST(MDST=修正離散サイン変換)段、またはカスケードMLT(MLT=修正重複変換)段であり得る。
【0043】
実施形態では、カスケード重複クリティカルサンプリング変換段は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックのサンプルの第1のブロックおよびサンプルの第2のブロックに対して重複クリティカルサンプリング変換を実行して、サンプルの第1のブロックのためのビンの第1のセットおよびサンプルの第2のブロックのためのビンの第2のセット(重複クリティカルサンプリング係数)を取得するように構成される、第1の重複クリティカルサンプリング変換段を含み得る。
【0044】
第1の重複クリティカルサンプリング変換段は、第1のMDCT段、MDST段、またはMLT段であり得る。
【0045】
カスケード重複クリティカルサンプリング変換段はさらに、ビンの第1のセットのセグメント(適切なサブセット)に対して重複クリティカルサンプリング変換を実行し、ビンの第2のセットのセグメント(適切なサブセット)に対して重複クリティカルサンプリング変換を実行し、各セグメントはオーディオ信号のサブバンドと関連付けられ、ビンの第1のセットのためのサブバンドサンプルのセットおよびビンの第2のセットのためのサブバンドサンプルのセットを取得するように構成される、第2の重複クリティカルサンプリング変換段を含み得る。
【0046】
第2の重複クリティカルサンプリング変換段は、第2のMDCT段、MDST段、またはMLT段であり得る。
【0047】
これにより、第1および第2の重複クリティカルサンプリング変換段は、同じタイプであってもよく、すなわち、MDCT段、MDST段、またはMLT段のうちの1つであってもよい。
【0048】
実施形態では、第2の重複クリティカルサンプリング変換段は、ビンの第1のセットの少なくとも2つの部分的に重複するセグメント(適切なサブセット)に対して重複クリティカルサンプリング変換を実行し、ビンの第2のセットの少なくとも2つの部分的に重複するセグメント(適切なサブセット)に対して重複クリティカルサンプリング変換を実行し、各セグメントはオーディオ信号のサブバンドと関連付けられ、ビンの第1のセットのためのサブバンドサンプルの少なくとも2つのセットおよびビンの第2のセットのためのサブバンドサンプルの少なくとも2つのセットを取得するように構成され得る。
【0049】
したがって、サブバンドサンプルの第1のセットは、ビンの第1のセットの第1のセグメントに基づく第1の重複クリティカルサンプリング変換の結果であってもよく、サブバンドサンプルの第2のセットは、ビンの第1のセットの第2のセグメントに基づく第2の重複クリティカルサンプリング変換の結果であってもよく、サブバンドサンプルの第3のセットは、ビンの第2のセットの第1のセグメントに基づく第3の重複クリティカルサンプリング変換の結果であってもよく、サブバンドサンプルの第4のセットは、ビンの第2のセットの第2のセグメントに基づく第4の重複クリティカルサンプリング変換の結果であってもよい。時間領域エイリアシング低減段は、サブバンドサンプルの第1のセットとサブバンドサンプルの第3のセットの重み付けられた組合せを実行して、オーディオ信号の第1のエイリアシングが低減されたサブバンド表現を取得し、サブバンドサンプルの第2のセットとサブバンドサンプルの第4のセットの重み付けられた組合せを実行して、オーディオ信号の第2のエイリアシングが低減されたサブバンド表現を取得するように構成され得る。
【0050】
実施形態では、カスケード重複クリティカルサンプリング変換段は、少なくとも2つの窓関数を使用してサンプルの第1のブロックに基づいて取得されるビンのセットを区分し、サンプルの第1のブロックに対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つのセットを取得するように構成されてもよく、カスケード重複クリティカルサンプリング変換段は、少なくとも2つの窓関数を使用してサンプルの第2のブロックに基づいて取得されるビンのセットを区分し、サンプルの第2のブロックに対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つのセットを取得するように構成されてもよく、少なくとも2つの窓関数は異なる窓の幅を含む。
【0051】
実施形態では、カスケード重複クリティカルサンプリング変換段は、少なくとも2つの窓関数を使用してサンプルの第1のブロックに基づいて取得されるビンのセットを区分し、サンプルの第1のブロックに対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つのセットを取得するように構成されてもよく、カスケード重複クリティカルサンプリング変換段は、少なくとも2つの窓関数を使用してサンプルの第2のブロックに基づいて取得されるビンのセットを区分し、サンプルの第2のブロックに対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つのセットを取得するように構成されてもよく、サブバンドサンプルの隣接するセットに対応する窓関数のフィルタの傾きは対称である。
【0052】
実施形態では、カスケード重複クリティカルサンプリング変換段は、第1の窓関数を使用して、オーディオ信号のサンプルをサンプルの第1のブロックおよびサンプルの第2のブロックへと区分するように構成されてもよく、重複クリティカルサンプリング変換段は、第2の窓関数を使用して、サンプルの第1のブロックに基づいて取得されるビンのセットおよびサンプルの第2のブロックに基づいて取得されるビンのセットを区分し、対応するサブバンドサンプルを取得するように構成されてもよく、第1の窓関数および第2の窓関数は異なる窓の幅を含む。
【0053】
実施形態では、カスケード重複クリティカルサンプリング変換段は、第1の窓関数を使用してオーディオ信号のサンプルをサンプルの第1のブロックおよびサンプルの第2のブロックへと区分するように構成されてもよく、重複クリティカルサンプリング変換段は、第2の窓関数を使用して、サンプルの第1のブロックに基づいて取得されるビンのセットおよびサンプルの第2のブロックに基づいて取得されるビンのセットを区分して、対応するサブバンドサンプルを取得するように構成されてもよく、第1の窓関数の窓の幅および第2の窓関数の窓の幅は互いに異なり、第1の窓関数の窓の幅および第2の窓関数の窓の幅は2のべき乗とは異なる倍率だけ互いに異なる。
【0054】
続いて、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサの有利な実装形態が説明される。
【0055】
実施形態において、逆カスケード重複クリティカルサンプリング変換段は、逆カスケードMDCT(MDCT=修正離散コサイン変換)段、逆カスケードMDST(MDST=修正離散サイン変換)段、または逆カスケードMLT(MLT=修正重複変換)段であり得る。
【0056】
実施形態では、カスケード逆重複クリティカルサンプリング変換段は、サブバンドサンプルのセットに対して逆重複クリティカルサンプリング変換を実行して、オーディオ信号の所与のサブバンドと関連付けられるビンのセットを取得するように構成される、第1の逆重複クリティカルサンプリング変換段を含み得る。
【0057】
第1の逆重複クリティカルサンプリング変換段は、第1の逆MDCT段、逆MDST段、または逆MLT段であり得る。
【0058】
実施形態では、カスケード逆重複クリティカルサンプリング変換段は、オーディオ信号の所与のサブバンドと関連付けられるビンのセットとオーディオ信号の別のサブバンドと関連付けられるビンのセットの重み付けられた組合せを含む、オーディオ信号の複数のサブバンドと関連付けられるビンのセットの連結を実行して、オーディオ信号のサンプルのブロックと関連付けられるビンのセットを取得するように構成される、第1の重畳および加算段を含み得る。
【0059】
実施形態において、カスケード逆重複クリティカルサンプリング変換段は、オーディオ信号のサンプルのブロックと関連付けられるビンのセットに対して逆重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するように構成される、第2の逆重複クリティカルサンプリング変換段を含み得る。
【0060】
第2の逆重複クリティカルサンプリング変換段は、第2の逆MDCT段、逆MDST段、または逆MLT段であり得る。
【0061】
これにより、第1および第2の逆重複クリティカルサンプリング変換段は、同じタイプであってもよく、すなわち、逆MDCT段、逆MDST段、または逆MLT段のうちの1つであってもよい。
【0062】
実施形態において、カスケード逆重複クリティカルサンプリング変換段は、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットおよびオーディオ信号のサンプルの別のブロックと関連付けられるサンプルの別のセットを重畳して加算し、オーディオ信号のサンプルのブロックおよびサンプルの別のブロックは部分的に重複し、オーディオ信号を取得するように構成される、第2の重畳および加算段を含み得る。
【0063】
添付の図面を参照して、本発明の実施形態がここで説明される。
【図面の簡単な説明】
【0064】
図1】ある実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するように構成されるオーディオプロセッサの概略ブロック図である。
図2】さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するように構成されるオーディオプロセッサの概略ブロック図である。
図3】さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するように構成されるオーディオプロセッサの概略ブロック図である。
図4】ある実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサの概略ブロック図である。
図5】さらなる実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサの概略ブロック図である。
図6】さらなる実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサの概略ブロック図である。
図7】サブバンドサンプル(上のグラフ)および時間と周波数にわたるそれらのサンプルの広がり(下のグラフ)の例の図である。
図8】いくつかの異なる変換によって取得されるスペクトル的な不確実性および時間的な不確実性の図である。
図9】TDARありのサブバンド結合、TDARなしのサブバンド結合、単純なMDCTショートブロック、およびアダマール行列サブバンド結合により生成される、2つの例示的なインパルス応答の比較を示す図である。
図10】ある実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するための方法のフローチャートである。
図11】ある実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するための方法のフローチャートである。
図12】ある実施形態による、オーディオエンコーダの概略ブロック図である。
図13】ある実施形態による、オーディオデコーダの概略ブロック図である。
図14】ある実施形態による、オーディオ分析器の概略ブロック図である。
図15】さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現するように構成されるオーディオプロセッサの概略ブロック図である。
図16】時間-周波数平面において時間-周波数変換段によって実行される時間-周波数変換の概略表現の図である。
図17】さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を処理するように構成されるオーディオプロセッサの概略ブロック図である。
図18】さらなる実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサの概略ブロック図である。
図19】時間-周波数平面におけるSTDAR動作の概略表現の図である。
図20】STDARの前(上図)およびSTDARの後(下図)の、結合係数が8および16であるときの2つのフレームの例示的なインパルス応答を示す図である。
図21】アップマッチングのためのインパルス応答および周波数応答のコンパクト性を示す図である。
図22】ダウンマッチングのためのインパルス応答および周波数応答のコンパクト性を示す図である。
図23】さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するための方法のフローチャートである。
図24】さらなる実施形態による、サンプルのエイリアシングが低減されたセットを含む、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するための方法のフローチャートである。
【発明を実施するための形態】
【0065】
等しいまたは等価な機能をもつ等しいまたは等価な1つまたは複数の要素は、以下の説明において等しいまたは等価な参照番号により表記される。
【0066】
以下の説明では、本発明の実施形態のより完全な説明を提供するために、複数の詳細が記載される。しかしながら、本発明の実施形態は、これらの具体的な詳細なしで実践され得ることが、当業者には明らかであろう。他の事例では、本発明の実施形態を不明瞭にするのを避けるために、よく知られている構造およびデバイスは詳細には示されず、ブロック図で示される。加えて、以下で説明される異なる実施形態の特徴は、特に別様に述べられない限り、互いに組み合わせられてもよい。
【0067】
まず、セクション1において、連続する2つのMDCTおよび時間領域エイリアシング低減(TDAR)に基づく不均一直交フィルタバンクが説明され、これは時間と周波数の両方においてコンパクトなインパルス応答を達成することが可能である[非特許文献1]。その後、セクション2において、スイッチト時間領域エイリアシング低減(STDAR)が説明され、これは異なる時間-周波数タイリングの2つのフレーム間のTDARを可能にする。これは、2つのフレームの時間-周波数タイリングを等しくする別の対称なサブバンド結合/サブバンド分割ステップを導入することによって達成される。タイリングを等しくした後、普通のTDARが適用され、元のタイリングが再構築される。
【0068】
1. 連続する2つのMDCTおよび時間領域エイリアシング低減(TDAR)に基づく不均一直交フィルタバンク
図1は、ある実施形態による、オーディオ信号102を処理してオーディオ信号のサブバンド表現を取得するように構成される、オーディオプロセッサ100の概略ブロック図を示す。オーディオプロセッサ100は、カスケード重複クリティカルサンプリング変換(LCST)段104および時間領域エイリアシング低減(TDAR)段106を含む。
【0069】
カスケード逆重複クリティカルサンプリング変換段104は、オーディオ信号102のサンプルの少なくとも2つの部分的に重複するブロック108_1および108_2に対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号102の(サンプルの少なくとも2つの重複するブロック108_1および108_2の)サンプルの第1のブロック108_1に基づいてサブバンドサンプルのセット110_1,1を取得し、オーディオ信号102の(サンプルの少なくとも2つの重複するブロック108_1および108_2の)サンプルの第2のブロック108_2に基づいてサブバンドサンプルの対応するセット110_2,1を取得するように構成される。
【0070】
時間領域エイリアシング低減段104は、オーディオ信号102のサンプルの第1のブロック108_1に基づいて取得されるものおよびオーディオ信号のサンプルの第2のブロック108_2に基づいて取得されるものである、サブバンドサンプル(すなわち、同じサブバンドに対応するサブバンドサンプル)の2つの対応するセット110_1,1および110_2,1の重み付けられた組合せを実行し、オーディオ信号102のエイリアシングが低減されたサブバンド表現112_1を取得するように構成される。
【0071】
実施形態では、カスケード重複クリティカルサンプリング変換段104は、少なくとも2つのカスケード重複クリティカルサンプリング変換段、または言い換えると、カスケード方式で接続された2つの重複クリティカルサンプリング変換段を含み得る。
【0072】
カスケード重複クリティカルサンプリング変換段は、カスケードMDCT(MDCT=修正離散コサイン変換)段であり得る。カスケードMDCT段は、少なくとも2つのMDCT段を含み得る。
【0073】
当然、カスケード重複クリティカルサンプリング変換段はまた、少なくとも2つのMDST(MDST=修正離散サイン変換)段またはMLT(MLT=変調重複変換)段をそれぞれ含む、カスケードMDST段またはMLT段であり得る。
【0074】
サブバンドサンプル110_1,1および110_2,1の2つの対応するセットは、同じサブバンド(すなわち、周波数バンド)に対応するサブバンドサンプルであり得る。
【0075】
図2は、さらなる実施形態による、オーディオ信号102を処理してオーディオ信号のサブバンド表現を取得するように構成される、オーディオプロセッサ100の概略ブロック図を示す。
【0076】
図2に示されるように、カスケード重複クリティカルサンプリング変換段104は、オーディオ信号102のサンプルの少なくとも2つの部分的に重複するブロック108_1および108_2の(2M個の)サンプルの第1のブロック108_1(xi-1(n),0≦n≦2M-1)および(2M個の)サンプルの第2のブロック108_2(xi(n),0≦n≦2M-1)に対して重複クリティカルサンプリング変換を実行し、サンプルの第1のブロック108_1のための(M個の)ビン(LCST係数)の第1のセット124_1(Xi-1(k),0≦k≦M-1)およびサンプルの第2のブロック108_2のための(M個の)ビン(LCST係数)の第2のセット124_2(Xi(k),0≦k≦M-1)を取得するように構成される、第1の重複クリティカルサンプリング変換段120を含み得る。
【0077】
カスケード重複クリティカルサンプリング変換段104は、ビンの第1のセット124_1のセグメント128_1,1(適切なサブセット)(Xv,i-1(k))に対して重複クリティカルサンプリング変換を実行し、ビンの第2のセット124_2のセグメント128_2,1(適切なサブセット)(Xv,i(k))に対して重複クリティカルサンプリング変換を実行し、各セグメントはオーディオ信号102のサブバンドと関連付けられ、ビンの第1のセット124_1のためのサブバンドサンプルのセット110_1,1
【0078】
【数3】
【0079】
およびビンの第2のセット124_2のためのサブバンドサンプルのセット110_2,1
【0080】
【数4】
【0081】
を取得するように構成される、第2の重複クリティカルサンプリング変換段126を含み得る。
【0082】
図3は、さらなる実施形態による、オーディオ信号102を処理してオーディオ信号のサブバンド表現を取得するように構成される、オーディオプロセッサ100の概略ブロック図を示す。言い換えると、図3は、分析フィルタバンクの図を示す。それにより、適切な窓関数が想定される。図3(のみ)においては簡潔にするために、サブバンドフレームの前半(y[m],0≦m<N/2)(すなわち、式(6)の一行目のみ)の処理が示されていることを認識されたい。
【0083】
図3に示されるように、第1の重複クリティカルサンプリング変換段120は、(2M個)のサンプルの第1のブロック108_1(xi-1(n),0≦n≦2M-1)に対して第1の重複クリティカルサンプリング変換122_1(たとえば、MDCT i-1)を実行し、サンプルの第1のブロック108_1のための(M個)のビン(LCST係数)の第1のセット124_1(Xi-1(k),0≦k≦M-1)を取得し、(2M個)のサンプルの第2のブロック108_2(xi(n),0≦n≦2M-1)に対して第2の重複クリティカルサンプリング変換122_2(たとえば、MDCT i)を実行し、サンプルの第2のブロック108_2のための(M個)のビン(LCST係数)の第2のセット124_2(Xi(k),0≦k≦M-1)を取得するように構成され得る。
【0084】
詳細には、第2の重複クリティカルサンプリング変換段126は、ビンの第1のセット124_1の少なくとも2つの部分的に重複するセグメント128_1,1および128_1,2(適切なサブセット)(Xv,i-1(k))に対して重複クリティカルサンプリング変換を実行し、ビンの第2のセットの少なくとも2つの部分的に重複するセグメント128_2,1および128_2,2(適切なサブセット)(Xv,i(k))に対して重複クリティカルサンプリング変換を実行し、各セグメントはオーディオ信号102のサブバンドと関連付けられ、ビンの第1のセット124_1のためのサブバンドサンプルの少なくとも2つのセット110_1,1および110_1,2
【0085】
【数5】
【0086】
ならびにビンの第2のセット124_2のためのサブバンドサンプルの少なくとも2つのセット110_2,1および110_2,2
【0087】
【数6】
【0088】
を取得するように構成され得る。
【0089】
たとえば、サブバンドサンプルの第1のセット110_1,1は、ビンの第1のセット124_1の第1のセグメント132_1,1に基づいて第1の重複クリティカルサンプリング変換132_1,1の結果であってもよく、サブバンドサンプルの第2のセット110_1,2は、ビンの第1のセット124_1の第2のセグメント128_1,2に基づいて第2の重複クリティカルサンプリング変換132_1,2の結果であってもよく、サブバンドサンプルの第3のセット110_2,1は、ビンの第2のセット124_2の第1のセグメント128_2,1に基づいて第3の重複クリティカルサンプリング変換132_2,1の結果であってもよく、サブバンドサンプルの第4のセット110_2,2は、ビンの第2のセット124_2の第2のセグメント128_2,2に基づいて第4の重複クリティカルサンプリング変換132_2,2の結果であってもよい。
【0090】
これにより、時間領域エイリアシング低減段106は、サブバンドサンプルの第1のセット110_1,1およびサブバンドサンプルの第3のセット110_2,1の重み付けられた組合せを実行し、オーディオ信号の第1のエイリアシングが低減されたサブバンド表現112_1(y1,i[m1])を取得するように構成されてもよく、領域エイリアシング低減段106は、サブバンドサンプルの第2のセット110_1,2およびサブバンドサンプルの第4のセット110_2,2の重み付けられた組合せを実行し、オーディオ信号の第2のエイリアシングが低減されたサブバンド表現112_2(y2,i[m2])を取得するように構成されてもよい。
【0091】
図4は、ある実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号102を取得するための、オーディオプロセッサ200の概略ブロック図を示す。オーディオプロセッサ200は、逆時間領域エイリアシング低減(TDAR)段202およびカスケード逆重複クリティカルサンプリング変換(LCST)段204を含む。
【0092】
逆時間領域エイリアシング低減段202は、オーディオ信号102の2つの対応するエイリアシングが低減されたサブバンド表現112_1および112_2(yv,i(m),yv,i-1(m))の重み付けられた(かつシフトされた)組合せを実行し、エイリアシングのあるサブバンド表現110_1
【0093】
【数7】
【0094】
を取得するように構成され、エイリアシングのあるサブバンド表現はサブバンドサンプルのセット110_1である。
【0095】
カスケード逆重複クリティカルサンプリング変換段204は、サブバンドサンプルのセット110_1に対してカスケード逆重複クリティカルサンプリング変換を実行し、オーディオ信号102のサンプルのブロック108_1と関連付けられるサンプルのセットを取得するように構成される。
【0096】
図5は、さらなる実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号102を取得するための、オーディオプロセッサ200の概略ブロック図を示す。カスケード逆重複クリティカルサンプリング変換段204は、第1の逆重複クリティカルサンプリング変換(LCST)段208ならびに第1の重畳および加算段210を含み得る。
【0097】
第1の逆重複クリティカルサンプリング変換段208は、サブバンドサンプルのセット110_1,1に対して逆重複クリティカルサンプリング変換を実行して、オーディオ信号の所与のサブバンドと関連付けられるビンのセット128_1,1
【0098】
【数8】
【0099】
を取得するように構成され得る。
【0100】
第1の重畳および加算段210は、オーディオ信号102の所与のサブバンド(v)と関連付けられるビンのセット128_1,1
【0101】
【数9】
【0102】
とオーディオ信号102の別のサブバンド(v-1)と関連付けられるビンのセット128_1,2
【0103】
【数10】
【0104】
との重み付けられた組合せを含む、オーディオ信号の複数のサブバンドと関連付けられるビンのセットの連結を実行し、オーディオ信号102のサンプルのブロック108_1と関連付けられるビンのセット124_1を取得するように構成され得る。
【0105】
図5に示されるように、カスケード逆重複クリティカルサンプリング変換段204は、オーディオ信号102のサンプルのブロック108_1と関連付けられるビンのセット124_1に対して逆重複クリティカルサンプリング変換を実行して、オーディオ信号102のサンプルのブロック108_1と関連付けられるサンプルのセット206_1,1を取得するように構成される、第2の逆重複クリティカルサンプリング変換(LCST)段212を含み得る。
【0106】
さらに、カスケード逆重複クリティカルサンプリング変換段204は、オーディオ信号102のサンプルのブロック108_1と関連付けられるサンプルのセット206_1,1およびオーディオ信号のサンプルの別のブロック108_2と関連付けられるサンプルの別のセット206_2,1を重畳して加算し、オーディオ信号102のサンプルのブロック108_1およびサンプルの別のブロック108_2は部分的に重複し、オーディオ信号102を取得するように構成される、第2の重畳および加算段214を含み得る。
【0107】
図6は、さらなる実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号102を取得するための、オーディオプロセッサ200の概略ブロック図を示す。言い換えると、図6は合成フィルタバンクの図を示す。これにより、適切な窓関数が想定される。図6(のみ)においては簡潔にするために、サブバンドフレームの前半(y[m],0≦m<N/2)(すなわち、式(6)の一行目のみ)の処理が示されていることを認識されたい。
【0108】
上で説明されたように、オーディオプロセッサ200は、逆時間領域エイリアシング低減段202、ならびに、第1の逆重複クリティカルサンプリング段208および第2の逆重複クリティカルサンプリング段212を含む逆カスケード重複クリティカルサンプリング段204を含む。
【0109】
逆時間領域低減段104は、第1および第2のエイリアシングが低減されたサブバンド表現y1,i-1[m1]およびy1,i[m1]の第1の重み付けられてシフトされた組合せ220_1を実行して第1のエイリアシングのあるサブバンド表現110_1,1
【0110】
【数11】
【0111】
を取得し、エイリアシングのあるサブバンド表現はサブバンドサンプルのセットであり、第3および第4のエイリアシングが低減されたサブバンド表現y2,i-1[m1]およびy2,i[m1]の第2の重み付けられてシフトされた組合せ220_2を実行して第2のエイリアシングのあるサブバンド表現110_2,1
【0112】
【数12】
【0113】
を取得し、エイリアシングのあるサブバンド表現はサブバンドサンプルのセットである、ように構成される。
【0114】
第1の逆重複クリティカルサンプリング変換段208は、サブバンドサンプルの第1のセット110_1,1
【0115】
【数13】
【0116】
に対して第1の逆重複クリティカルサンプリング変換222_1を実行してオーディオ信号の所与のサブバンドと関連付けられるビンのセット128_1,1
【0117】
【数14】
【0118】
を取得し、サブバンドサンプルの第2のセット110_2,1
【0119】
【数15】
【0120】
に対して第2の逆重複クリティカルサンプリング変換222_2を実行してオーディオ信号の所与のサブバンドと関連付けられるビンのセット128_2,1
【0121】
【数16】
【0122】
を取得するように構成される。
【0123】
第2の逆重複クリティカルサンプリング変換段212は、第1の逆重複クリティカルサンプリング変換段208によって提供されるビンのセット128_1,1および128_21を重畳して加算することによって取得される、ビンの重畳され加算されたセットに対して逆重複クリティカルサンプリング変換を実行し、サンプル108_2のブロックを取得するように構成される。
【0124】
続いて、カスケード重複クリティカルサンプリング変換段104がMDCT段であること、すなわち、第1および第2の重複クリティカルサンプリング変換段120と126がMDCT段であることと、逆カスケード重複クリティカルサンプリング変換段204が逆カスケードMDCT段であること、すなわち第1および第2の逆重複クリティカルサンプリング変換段120と126が逆MDCT段であることとが例示的に想定される、図1から図6に示されるオーディオプロセッサの実施形態が説明される。当然、以下の説明はまた、カスケードMDST段もしくはMLT段または逆カスケードMDST段もしくはMLT段などの、カスケード重複クリティカルサンプリング変換段104および逆重複クリティカルサンプリング変換段204の他の実施形態にも適用可能である。
【0125】
これにより、説明される実施形態は、長さが限られているMDCTスペクトルのシーケンスについて作用しサブバンド結合動作としてMDCTおよび時間領域エイリアシング低減(TDAR)を使用し得る。得られる不均一フィルタバンクは、重複しており、直交しており、n∈Nであるサブバンド幅k=2nを可能にする。TDARにより、時間とスペクトルの両方についてよりコンパクトなサブバンドインパルス応答が達成され得る。
【0126】
続いて、フィルタバンクの実施形態が説明される。
【0127】
フィルタバンクの実装形態は、一般的な重複MDCT変換方式に直接加わる。重畳および窓掛けを伴う元の変換は変化しないままである。
【0128】
一般性を失うことなく、以下の表記は直交MDCT変換を仮定し、たとえば分析窓および合成窓は同一である。
【0129】
【数17】
【0130】
ここでk(k,n,M)はMDCT変換カーネルであり、h(n)は適切な分析窓である。
【0131】
【数18】
【0132】
この変換Xi(k)の出力が次いで、個々の幅Nvのv個のサブバンドへと区分され、MDCTを使用して再び変換される。これは、時間方向とスペクトル方向の両方において重複のあるフィルタバンクをもたらす。
【0133】
ここではより簡単な表記のために、すべてのサブバンドに対して1つの共通の結合係数Nが使用されるが、所望の時間-周波数分解能を実装するために、あらゆる有効なMDCT窓切り替え/シーケンシングが使用され得る。分解能の設計について以下にさらに示す。
【0134】
【数19】
【0135】
w(k)は、適切な分析窓であり、一般にh(n)とはサイズが異なり、窓タイプが異なり得る。実施形態は周波数領域において窓を適用するので、窓の時間選択性および周波数選択性が交換されることは注目に値する。
【0136】
適切な境界処理のために、N/2という追加のオフセットが、式(4)において導入され、境界において長方形の開始/停止窓の半分と組み合わせられ得る。やはり、より簡単な表記のために、このオフセットはここでは考慮されていない。
【0137】
出力
【0138】
【数20】
【0139】
は、対応する帯域幅
【0140】
【数21】
【0141】
およびその帯域幅に比例する時間分解能を伴う、係数の個々の長さNvのv個のベクトルのリストである。
【0142】
しかしながら、これらのベクトルは、元のMDCT変換によるエイリアシングを含み、その結果、時間的なコンパクト性が低い。このエイリアシングを補償するために、TDARが促進され得る。
【0143】
TDARのために使用されるサンプルは、現在のMDCTフレームiおよび前のMDCTフレームi-1の中の2つの隣接するサブバンドサンプルブロックvから取られる。この結果は、前のフレームの後半および第2のフレームの前半におけるエイリアシングの低減である。0≦m<N/2に対して
【0144】
【数22】
【0145】
であり、
【0146】
【数23】
【0147】
である。
【0148】
TDAR係数av(m)、bv(m)、cv(m)、およびdv(m)は、残存エイリアシングを最小にするように設計され得る。合成窓g(n)に基づく簡単な推定方法が以下で紹介される。
【0149】
Aが非特異である場合、演算(6)および(8)は双直交系に相当することにも留意されたい。加えて、g(n)=h(n)かつv(k)=w(k)である場合、たとえば両方のMDCTが直交し、行列Aが直交する場合、パイプライン全体が直交変換を構成する。
【0150】
逆変換を計算するために、第1の逆TDARが実行され、
【0151】
【数24】
【0152】
続いて逆MDCTが行われ、式5において生み出されるエイリアシングを打ち消すために、時間領域エイリアシング打ち消し(TDAC、ただしここではエイリアシング打ち消しは周波数軸に沿って行われる)が実行されなければならない。
【0153】
【数25】
【0154】
最後に、式2の最初のMDCTが反転され、再びTDACが実行される。
【0155】
【数26】
【0156】
続いて、時間-周波数分解能の設計の制限が説明される。あらゆる望ましい時間-周波数分解能が可能であるが、可逆性を確保するために、得られる窓関数を設計するためにいくつかの制約を守らなければならない。具体的には、2つの隣接するサブバンドの傾きは、式(6)がPrincen Bradley条件[J. Princen、A. Johnson、およびA. Bradley、「Subband/transform coding using filter bank designs based on time domain aliasing cancellation」、Acoustics, Speech, and Signal Processing、IEEE International Conference on ICASSP '87、1987年4月、vol.12、pp.2161-2164]を満たすように対称であり得る。元来はプリエコー効果を除去するために設計された、[B. Edler、「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」、Frequenz、vol.43、pp.252-256、1989年9月]において導入されたような窓切り替え方式をここで適用することができる。[Olivier Derrien、Thibaud Necciari、およびPeter Balazs、「A quasi-orthogonal, invertible, and perceptually relevant time-frequency transform for audio coding」、EUSIPCO、フランス、ニース、2015年8月]を参照されたい。
【0157】
第2に、すべての第2のMDCT変換長の合計が、提供されたMDCT係数の全長にならなければならない。帯域は、所望の係数が0である単位ステップの窓を使用して変換されないように選ばれ得る。近隣の窓の対称性は、[B. Edler、「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」Frequenz、vol.43、pp.252-256、1989年9月]を通じて処理されなければならない。得られる変換はこれらの帯域において0を生むので、元の係数が直接使用され得る。
【0158】
あり得る時間-周波数分解能として、大半の現代のオーディオコーダからのスケールファクタ帯域が直接使用され得る。
【0159】
続いて、時間領域エイリアシング低減(TDAR)係数計算が説明される。
【0160】
前述の時間分解能に従うと、各サブバンドサンプルは、M/Nv個の元のサンプル、または元のサンプルの間隔のNv倍の間隔に相当する。
【0161】
さらに、各サブバンドサンプルにおけるエイリアシングの量は、それが表している間隔におけるエイリアシングの量に依存する。エイリアシングは、各サブバンドにおいて合成窓の適切な値を使用して分析窓h(n)で重み付けられるので、サンプル間隔はTDAR係数の良好な最初の推定になると考えられる。
【0162】
2つの非常に簡単な係数計算方式が、時間とスペクトルの両方のコンパクト性を改善しながら良好な初期値を可能にすることを、実験が示している。両方の方法が、長さ2Nvの仮の合成窓gv(m)に基づく。
【0163】
1)SineまたはKaiser Bessel Derivedのようなパラメトリック窓に対して、同じタイプの簡単でより短い窓を定義することができる。
【0164】
2)閉表現を伴わないパラメトリック窓と作表窓(tabulated window)の両方に対して、窓は単純に等しいサイズの2Nv個のセクションへと切り分けられてもよく、係数が各セクションの平均値を使用して取得されるようにする。
【0165】
【数27】
【0166】
MDCT境界条件およびエイリアシング鏡映を考慮すると、これはTDAR係数
av(m)=gv(N/2+m) (16)
bv(m)=-gv(N/2-1-m) (17)
cv(m)=gv(3N/2+m) (18)
dv(m)=gv(3N/2-1-m) (19)
を生み、または直交変換の場合
【0167】
【数28】
【0168】
である。
【0169】
係数近似解が選ばれたときは常に、Aが非特異である限り、フィルタバンク全体の完全な再構築が維持される。それ以外の最適ではない係数の選択は、サブバンド信号yv,i(m)における残存エイリアシングの量だけに影響を与え、逆フィルタバンクにより合成される信号x(n)における残存エイリアシングの量には影響を与えない。
【0170】
図7は、サブバンドサンプル(上のグラフ)および時間と周波数にわたるそれらのサンプルの広がり(下のグラフ)の例を図に示す。注記されたサンプルは、下のサンプルよりも広い帯域幅を有するが短い時間的な広がりを有する。分析窓(下のグラフ)は、元の時間サンプルごとに1つの係数という完全な分解能を有する。したがって、TDAR係数は、各サブバンドサンプルの時間領域(m=256:::384)に対して近似されなければならない(点により注記される)。
【0171】
続いて、(シミュレーション)結果を説明する。
【0172】
図8は、[Frederic Bimbot、Ewen Camberlein、およびPierrick Philippe、「Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks」、Audio Engineering Society Convention 121、2006年10月]に示されるような、いくつかの異なる変換により取得されるスペクトル的なおよび時間的な不確実性を示す。
【0173】
アダマール行列ベースの変換は、大きく制限された時間-周波数トレードオフ能力をもたらすことがわかり得る。結合サイズを大きくするために、追加の時間分解能には、スペクトル的不確実性の不釣り合いなほどに大きい犠牲を伴う。
【0174】
言い換えると、図8は、様々な変換のスペクトルおよび時間のエネルギーコンパクト性の比較を示す。表中のラベルは、MDCTについてはフレーム長、ハイゼンベルク分割については分割係数、およびすべての他のものについては結合係数を表す。
【0175】
しかしながら、TDARを用いたサブバンド結合には、単純な均一MDCTと似たように、時間的不確実性とスペクトル的不確実性の線形トレードオフがある。これらの2つの積は一定であるが、単純な均一MDCTよりもわずかに大きい。この分析では、Sine分析窓およびKaiser Bessel Derivedサブバンド結合窓が、最もコンパクトな結果を示したので選ばれた。
【0176】
しかしながら、結合係数Nv=2に対してTDARを使用すると、時間コンパクト性とスペクトルコンパクト性の両方が低下するようである。これは、セクションII-Bにおいて導入された係数計算方式が単純過ぎ、鋭い窓関数の傾きに対して適切に値を近似しないことが原因であると考える。今後の公開資料において、数値最適化方式を提示する。
【0177】
これらのコンパクト性の値は、
【0178】
【数29】
【0179】
【数30】
として定義される重心cogおよびインパルス応答x[n]の二乗有効長を使用して計算された[Athanasios Papoulis、Signal analysis、Electrical and electronic engineering series. McGraw-Hill、ニューヨーク、サンフランシスコ、パリ、1977年]。
【0180】
各々の個々のフィルタバンクのすべてのインパルス応答の平均値が示されている。
【0181】
図9は、TDARありのサブバンド結合、TDARなしのサブバンド結合、単純なMDCTショートブロック、および[O. A. NiamutおよびR. Heusdens、「Flexible frequency decompositions for cosine-modulated filter banks」、Acoustics, Speech, and Signal Processing、2003. Proceedings. (ICASSP '03). 2003 IEEE International Conference、2003年5月、vol.5、pp.V-449-52 vol.5]において提案されるようなアダマール行列サブバンド結合により生成される、2つの例示的なインパルス応答の比較を示す。
【0182】
アダマール行列結合変換の時間コンパクト性の低さが明らかに目に見える。また、サブバンドの中のエイリアシングアーティファクトの大半がTDARにより大きく低減されることが明らかにわかり得る。
【0183】
言い換えると、図9は、TDARなしのここで提案される方法、TDARありのここで提案される方法、[O. A. NiamutおよびR. Heusdens、「Subband merging in cosine-modulated filter banks」、Signal Processing Letters、IEEE、vol.10、no.4、pp.111-114、2003年4月]において提案される方法、および256サンプルのより短いMDCT長を使用して、1024個の元のビンのうちの8個を含む結合サブバンドフィルタの例示的なインパルス応答を示す。
【0184】
図10は、オーディオ信号を処理してオーディオ信号のサブバンド表現を処理するための方法300のフローチャートを示す。方法300は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するステップ302を含む。さらに、方法300は、オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するステップ304を含む。
【0185】
図11は、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するための方法400のフローチャートを示す。方法400は、オーディオ信号の(部分的に重複するサンプルの異なるブロックの)2つの対応するエイリアシングが低減されたサブバンド表現の重み付けられた(およびシフトされた)組合せを実行して、エイリアシングのあるサブバンド表現を取得するステップ402を含み、エイリアシングのあるサブバンド表現はサブバンドサンプルのセットである。さらに、方法400は、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するステップ404を含む。
【0186】
図12は、ある実施形態による、オーディオエンコーダ150の概略ブロック図を示す。オーディオエンコーダ150は、上で説明されたようなオーディオプロセッサ(100)と、オーディオ信号のエイリアシングが低減されたサブバンド表現を符号化してオーディオ信号の符号化されたエイリアシングが低減されたサブバンド表現を取得するように構成されるエンコーダ152と、オーディオ信号の符号化されたエイリアシングが低減されたサブバンド表現からビットストリーム156を形成するように構成されるビットストリーム形成器154とを含む。
【0187】
図13は、ある実施形態による、オーディオデコーダ250の概略ブロック図を示す。オーディオデコーダ250は、ビットストリーム154を解析して、符号化されたエイリアシングが低減されたサブバンド表現を取得するように構成されるビットストリーム解析器252と、符号化されたエイリアシングが低減されたサブバンド表現を復号して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するように構成されるデコーダ254と、上で説明されたようなオーディオプロセッサ200とを含む。
【0188】
図14は、ある実施形態による、オーディオ分析器180の概略ブロック図を示す。オーディオ分析器180は、上で説明されたようなオーディオプロセッサ100と、エイリアシングが低減されたサブバンド表現を分析して、オーディオ信号を記述する情報を提供するように構成される情報抽出器182とを含む。
【0189】
実施形態は、不均一直交修正離散コサイン変換(MDCT)フィルタバンクのサブバンドにおいて、時間領域エイリアシング低減(TDAR)を提供する。
【0190】
実施形態は、最も広く使用されているMDCT変換パイプラインにさらなる後処理ステップを追加し、このステップ自体は、周波数軸に沿った別の重複MDCT変換および各サブバンド時間軸に沿った時間領域エイリアシング低減(TDAR)のみを含み、追加の冗長性をもたらすことなく、かつ1MDCTフレームの遅延しかもたらさずに、インパルス応答の時間的なコンパクト性が改善された、MDCTスペクトログラムからの任意の周波数スケールの抽出を可能にする。
【0191】
2. MDCT分析/合成およびTDARに基づく不均一直交フィルタバンクを使用した時間変化する時間-周波数タイリング
図15は、さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するように構成される、オーディオプロセッサ100の概略ブロック図を示す。オーディオプロセッサ100は、カスケード重複クリティカルサンプリング変換(LCST)段104および時間領域エイリアシング低減(TDAR)段106を含み、両方がセクション1において上で詳しく説明されている。
【0192】
カスケード重複クリティカルサンプリング変換段104は、サンプルの第1のブロック108_1および第2のブロック108_2に対してそれぞれLCST(たとえば、MDCT)122_1および122_2を実行して、サンプルの第1のブロック108_1のためのビンの第1のセット124_1およびサンプルの第2のブロック108_2のためのビンの第2のセット124_2を取得するように構成される、第1の重複クリティカルサンプリング変換(LCST)段120を含む。さらに、カスケード重複クリティカルサンプリング変換段104は、ビンの第1のセット124_1のうちのビンの区分されたセット128_1,1~128_1,2に対してLCST(たとえば、MDCT)132_1,1~132_1,2を、ビンの第2のセット124_1のうちのビンの区分されたセット128_2,1~128_2,2に対してLCST(たとえば、MDCT)132_2,1~132_2,2を実行して、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_1,1~110_1,2およびサンプルの第2のブロック108_1に基づくサブバンドサンプルのセット110_2,1~110_2,2を取得するように構成される、第2の重複クリティカルサンプリング変換(LCST)段126を含む。
【0193】
導入部分においてすでに示されたように、時間領域エイリアシング低減(TDAR)段106は、同一の時間-周波数タイリングがサンプルの第1のブロック108_1およびサンプルの第2のブロック108_2のために使用される場合、すなわち、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_1,1~110_1,2がサンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2と比較して時間-周波数平面において同じ領域を表す場合、時間領域エイリアシング低減(TDAR)のみを適用することができる。
【0194】
しかしながら、入力信号の信号特性が変化する場合、サンプルの第1のブロック108_1に基づくビンの区分されたセット128_1,1~128_1,2を処理するために使用されるLCST(たとえば、MDCT)132_1,1~132_1,2は、サンプルの第2のブロック108_2に基づくビンの区分されたセット128_2,1~128_2,2を処理するために使用されるLCST(たとえば、MDCT)132_2,1~132_2,2と比較して異なるフレーム長(たとえば、結合係数)を有し得る。
【0195】
この場合、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_1,1~110_1,2は、サンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2と比較して時間-周波数平面において異なる領域を表し、すなわち、サブバンドサンプルの第1のセット110_1,1がサブバンドサンプルの第3のセット110_2,1と異なる領域を時間-周波数平面において表し、サブバンドサンプルの第2のセット110_1,2がサブバンドサンプルの第4のセット110_2,1と異なる領域を時間-周波数平面において表す場合、時間領域エイリアシング低減(TDAR)を直接適用することができない。
【0196】
この制約を乗り越えるために、オーディオプロセッサ100はさらに、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_1,1~110_1,2が、サンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2と比較して時間-周波数平面において異なる領域を表す場合に、組み合わせられると時間-周波数平面において同じ領域を表す、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_1,1~110_1,2のうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2のうちのサブバンドサンプルの1つまたは複数のセットを特定し、サンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2のうちのサブバンドサンプルの特定された1つまたは複数のセット、および/または、サンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2のうちのサブバンドサンプルの特定された1つまたは複数のセットを時間-周波数変換し、特定された1つまたは複数のサブバンドサンプルまたはその1つまたは複数の時間-周波数変換されたバージョンの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するように構成される、第1の時間-周波数変換段105を含む。
【0197】
その後、時間領域エイリアシング低減段106は、すなわち、オーディオ信号102のサンプルの第1のブロック108_1に基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロック108_2に基づいて取得されたものである、サブバンドサンプルの2つの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた組合せを実行して、オーディオ信号102のエイリアシングが低減されたサブバンド表現を取得することによって、時間領域低減(TDAR)を適用することができる。
【0198】
実施形態では、第1の時間-周波数変換段105は、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_2,1~110_2,2からのサブバンドサンプルの特定された1つまたは複数のセット、またはサンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2からのサブバンドサンプルの特定された1つまたは複数のセットのいずれかを時間-周波数変換して、特定された1つまたは複数のサブバンドサンプルの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するように構成され得る。
【0199】
この場合、時間領域エイリアシング低減段106は、オーディオ信号102のサンプルの第1のブロック108_1に基づいて取得されるものおよびオーディオ信号のサンプルの第2のブロック108_2に基づいて取得されるものである、サブバンドサンプルの時間-周波数変換されたセットおよびサブバンドサンプルの対応する(非時間-周波数変換された)セットの重み付けられた組合せを実行するように構成され得る。これは、片側STDARと本明細書では呼ばれる。
【0200】
当然、第1の時間-周波数変換段105はまた、サンプルの第1のブロック108_1に基づくサブバンドサンプルのセット110_2,1~110_2,2のうちのサブバンドサンプルの特定された1つまたは複数のセットと、サンプルの第2のブロック108_2に基づくサブバンドサンプルのセット110_2,1~110_2,2のうちのサブバンドサンプルの特定された1つまたは複数のセットの両方を時間-周波数変換して、他の特定された1つまたは複数のサブバンドサンプルの時間-周波数変換されたバージョンの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するように構成され得る。
【0201】
この場合、時間領域エイリアシング低減段106は、オーディオ信号102のサンプルの第1のブロック108_1に基づいて取得されるものおよびオーディオ信号のサンプルの第2のブロック108_2に基づいて取得されるものである、サブバンドサンプルの2つの対応する時間-周波数変換されたセットの重み付けられた組合せを実行するように構成され得る。これは、両側STDARと本明細書では呼ばれる。
【0202】
図16は、時間-周波数平面において時間-周波数変換段105によって実行される時間-周波数変換の概略的な表現を示す。
【0203】
図16の図解170_1および170_2に示されるように、サンプルの第1のブロック108_1に対応するサブバンドサンプルの第1のセット110_1,1およびサンプルの第2のブロック108_2に対応するサブバンドサンプルの第3のセット110_2,1は、時間-周波数平面において異なる領域194_1,1および194_2,1を表すので、時間領域エイリアシング低減段106は、サブバンドサンプルの第1のセット110_1,1およびサブバンドサンプルの第3のセット110_2,1に時間領域エイリアシング低減(TDAR)を適用することが可能ではない。
【0204】
同様に、サンプルの第1のブロック108_1に対応するサブバンドサンプルの第2のセット110_1,2およびサンプルの第2のブロック108_2に対応するサブバンドサンプルの第4のセット110_2,2は、時間-周波数平面において異なる領域194_1,2および194_2,2を表すので、時間領域エイリアシング低減段106は、サブバンドサンプルの第2のセット110_1,2およびサブバンドサンプルの第4のセット110_2,2に時間領域エイリアシング低減(TDAR)を適用することが可能ではない。
【0205】
しかしながら、サブバンドサンプルの第2のセット110_1,2と組み合わせたサブバンドサンプルの第1のセット110_1,1は、サブバンドサンプルの第4のセット110_2,2と組み合わせたサブバンドサンプルの第3のセット110_2,1と同じ領域196を時間-周波数平面において表す。
【0206】
したがって、時間-周波数変換段105は、サブバンドサンプルの第1のセット110_1,1およびサブバンドサンプルの第2のセット110_1,2を時間-周波数変換し、またはサブバンドサンプルの第3のセット110_2,1およびサブバンドサンプルの第4のセット110_2,2を時間-周波数変換して、サブバンドサンプルの他のセットの対応する1つと同じ領域を時間-周波数平面において各々が表す、サブバンドサンプルの時間-周波数変換されたセットを取得し得る。
【0207】
図16において、時間-周波数変換段105が、サブバンドサンプルの第1のセット110_1,1およびサブバンドサンプルの第2のセット110_1,2を時間-周波数変換し、サブバンドサンプルの第1の時間-周波数変換されたセット110_1,1'およびサブバンドサンプルの第2の時間-周波数変換されたセット110_1,2'を取得することが、例示的に仮定される。
【0208】
図16の図解170_3および170_4に示されるように、サブバンドサンプルの第1の時間-周波数変換されたセット110_1,1'およびサブバンドサンプルの第3のセット110_2,1は、時間-周波数平面において同じ領域194_1,1'および194_2,1を表すので、時間領域エイリアシング低減(TDAR)を、サブバンドサンプルの第1の時間-周波数変換されたセット110_1,1'およびサブバンドサンプルの第3のセット110_2,1に適用することができる。
【0209】
同様に、サブバンドサンプルの第2の時間-周波数変換されたセット110_1,2'およびサブバンドサンプルの第4のセット110_2,2は、時間-周波数平面において同じ領域194_1,2'および194_2,3を表すので、時間領域エイリアシング低減(TDAR)を、サブバンドサンプルの第2の時間-周波数変換されたセット110_1,2'およびサブバンドサンプルの第4のセット110_2,2を適用することができる。
【0210】
図16では、サンプルの第1のブロック108_1に対応するサブバンドサンプルの第1のセット110_1,1およびサブバンドサンプルの第2のセット110_1,2のみが、第1の時間-周波数変換段105によって時間-周波数変換されるが、実施形態では、サンプルの第1のブロック108_1に対応するサブバンドサンプルの第1のセット110_1,1およびサブバンドサンプルの第2のセット110_1,2と、サンプルの第2のブロック108_1に対応するサブバンドサンプルの第3のセット110_2,1およびサブバンドサンプルの第4のセット110_2,2の両方が、第1の時間-周波数変換段105によって時間-周波数変換されてもよい。
【0211】
図17は、さらなる実施形態による、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するように構成されるオーディオプロセッサ100の概略ブロック図を示す。
【0212】
図17に示されるように、オーディオプロセッサ100はさらに、オーディオ信号のエイリアシングが低減されたサブバンド表現を時間周波数変換するように構成される第2の時間-周波数変換段107を含んでもよく、第2の時間周波数変換段によって適用される時間-周波数変換は、第1の時間-周波数変換段によって適用される時間-周波数変換の逆である。
【0213】
図18は、さらなる実施形態による、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するためのオーディオプロセッサ200の概略ブロック図を示す。
【0214】
オーディオプロセッサ200は、図17に示されるオーディオプロセッサ100の第2の時間-周波数変換段107の逆の第2の逆時間-周波数変換段201を含む。詳細には、第2の逆時間-周波数変換段201は、オーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセット、および/またはオーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセットを時間-周波数変換し、オーディオ信号のサンプルの他のブロックに対応する1つまたは複数のエイリアシングが低減されたサブバンドサンプルのうちの対応する1つまたはその1つまたは複数の時間-周波数変換されたバージョンと同じ長さを有する、時間-周波数平面において同じ領域を各々が表す、1つまたは複数の時間-周波数変換されたエイリアシングが低減されたサブバンドサンプルを取得するように構成され得る。
【0215】
さらに、オーディオプロセッサ200は、エイリアシングが低減されたサブバンドサンプルの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた組合せを実行して、エイリアシングのあるサブバンド表現を取得するように構成される、逆時間領域エイリアシング低減(ITDAR)段202を含む。
【0216】
さらに、オーディオプロセッサ200は、エイリアシングのあるサブバンド表現を時間-周波数変換して、オーディオ信号のサンプルの第1のブロック108_1に対応するサブバンドサンプルのセット110_1,1~110_1,2およびオーディオ信号のサンプルの第2のブロック108_1に対応するサブバンドサンプルのセット110_2,1~110_2,2を取得するように構成される第1の逆時間-周波数変換段203を含み、第1の逆時間-周波数変換段203によって適用される時間-周波数変換は、第2の逆時間-周波数変換段201によって適用される時間-周波数変換の逆である。
【0217】
さらに、オーディオプロセッサ200は、サンプルのセット110_1,1~110_2,2に対してカスケード逆重複クリティカルサンプリング変換を実行して、オーディオ信号102のサンプルのブロックと関連付けられるサンプルのセット206_1,1を取得するように構成される、カスケード逆重複クリティカルサンプリング変換段204を含む。
【0218】
続いて、本発明の実施形態がさらに詳細に説明される。
【0219】
2.1 時間領域エイリアシング低減
多相表記で重複変換を表現するとき、フレームインデックスをz領域において表現することができ、z-1は前のフレームを参照する[非特許文献7]。この表記では、MDCT分析を
【0220】
【数31】
【0221】
と表現することができ、DはN×NのDCT-IV行列であり、F(z)はN×NのMDCT置換前/折り畳み行列である[非特許文献7]。
【0222】
そうすると、サブバンド結合MおよびTDAR R(z)が、ブロック対角変換行列の別のペアになり、
【0223】
【数32】
【0224】
Tkは適切な変換行列(いくつかの実施形態では重複MDCT)であり、F'(z)kはF(z)の修正されたより小さい変形である[非特許文献4]。部分行列TkおよびF'(z)kのサイズを含むベクトル
【0225】
【数33】
【0226】
はサブバンドレイアウトと呼ばれる。分析全体は
【0227】
【数34】
【0228】
になる。
【0229】
簡潔にするために、ここでは均一タイリングの特別な場合のみがMおよびR(z)において分析され、すなわち
【0230】
【数35】
【0231】
ただしc∈{1,2,4,8,16,32}であり、実施形態はそれらに限定されないことが容易にわかる。
【0232】
2.2 スイッチト時間領域エイリアシング低減
2つの異なるように変換されたフレーム間でSTDARが適用されるので、実施形態では、サブバンド結合行列M、TDAR行列R(z)、およびサブバンドレイアウト
【0233】
【数36】
【0234】
は、時間変化する表記M(m)、R(z,m)、および
【0235】
【数37】
【0236】
に拡張され、mはフレームインデックスである[非特許文献8]。
【0237】
【数38】
【0238】
当然、STDARは、時間変化する行列F(z,m)およびD(m)にも拡張され得るが、そのシナリオはここでは考慮されない。
【0239】
2つのフレームmおよびm-1のタイリングは異なり、すなわち
【0240】
【数39】
【0241】
であり、フレームの時間-周波数タイリングをフレームm-1のタイリングと一致するように一時的に変換する(後方一致)、追加の変換行列S(m)が設計され得る。STDAR動作の概要を図19において見ることができる。
【0242】
詳しくは、図19は、時間-周波数平面におけるSTDAR動作の概略的な表現を示す。図19に示されるように、サンプルの第1のブロック108_1(フレームm-1)に対応するサブバンドサンプルのセット110_1,1~110_1,4およびサンプルの第2のブロック108_2(フレームm)に対応するサブバンドサンプルのセット110_2,1~110_2,4は、時間-周波数平面における異なる領域を表す。したがって、サンプルの第1のブロック108_1(フレームm-1)に対応するサブバンドサンプル110_1,1~110_1,4のセットは、サンプルの第2のブロック108_2(フレームm)に対応するサブバンドサンプルのセット110_2,1~110_2,4のうちの対応する1つと同じ領域を時間-周波数平面において各々が表す、サンプルの第1のブロック108_1(フレームm-1)に対応するサブバンドサンプルの時間-周波数変換されたセット110_1,1'~110_1,4'を取得するために時間-周波数変換され得るので、TDAR(R(z,m))は図19に示されるように適用され得る。その後、サンプルの第1のブロック108_1(フレームm-1)に対応するサブバンドサンプルのエイリアシングが低減されたセット112_1,1~112_1,4およびサンプルの第2のブロック108_2(フレームm)に対応するサブバンドサンプルのエイリアシングが低減されたセット112_2,1~112_2,4を取得するために、逆時間-周波数変換が適用され得る。
【0243】
言い換えると、図19は、前方アップマッチングを使用したSTDARを示す。フレームm-1の関連のある半分の時間-周波数タイリングはフレームmのそれと一致するように変更され、その後でTDARを適用することができ、元のタイリングが再構築される。フレームmのタイリングは、識別行列Iにより示されるように変更されない。
【0244】
当然、フレームm-1もフレームmの時間-周波数タイリングと一致するように変換され得る(前方マッチング)。その場合、S(m-1)がS(m)の代わりに考慮される。前方マッチングと後方マッチングの両方が対称であるので、2つの動作のうちの1つのみが調査される。
【0245】
この動作によって、時間分解能がサブバンド結合ステップの分だけ向上すると、本明細書ではこれはアップマッチングと呼ばれる。時間分解能がサブバンド分割ステップの分だけ低下すると、本明細書ではこれはダウンマッチングと呼ばれる。本明細書ではアップマッチングとダウンマッチングの両方が評価される。
【0246】
この行列S(m)もブロック対角であるが、κ≠Kとして
【0247】
【数40】
【0248】
であり、TDARの前に適用され、その後で反転される。
【0249】
したがって、分析は
【0250】
【数41】
【0251】
になる。
【0252】
当然、各フレームの半分のみが2つのフレーム間のTDARの影響を受けるので、対応するフレームの半分しか変換されなくてもよい。結果として、識別行列としてS(m)の半分が選ばれ得る。
【0253】
2.3 追加の考慮事項
明らかに、各変換行列のインパルス応答の順序(すなわち、行の順序)は、その近隣の行列の順序と一致することが必要とされる。
【0254】
従来のTDARの場合、2つの隣接する同一のフレームの順序が常に等しかったので、特別な考慮を行う必要はない。しかしながら、パラメータの選択によっては、STDARを導入するとき、STDAR S(m)の入力順序は、サブバンド結合Mの出力順序と相容れないことがある。この場合、メモリにおいて隣接しない2つ以上の係数が一緒に変換されるので、演算の前に再整列が必要である。
【0255】
また、STDAR S(m)の出力順序は、TDAR R(z,m)の元の定義の入力順序と普通は相容れない。やはり、理由は、1つのサブバンドの係数がメモリにおいて隣接していないからである。
【0256】
リオーダーとアンオーダーの両方を、追加の置換行列PおよびP-1として表現することができ、これらは適切な場所において変換パイプラインへと導入される。
【0257】
これらの行列における係数の順序は、演算、メモリレイアウト、および使用される変換に依存する。したがって、ここでは一般的な解を提供することはできない。
【0258】
導入されるすべての行列は直交しているので、変換全体が依然として直交している。
【0259】
2.4 評価
評価において、DCT-IVおよびDCT-IIがS(m)の中のT(m)のために考慮され、それらはともに重複なしで使用される。例示的に、N=1024という入力フレーム長が選ばれる。それにより、システムは様々な切り替え比r(m)について分析され、これは2つのフレーム間の結合係数の比である。
【0260】
【数42】
【0261】
TDARを分析するときと同様に、調査は、変換全体のインパルス応答および周波数応答の形状、特にコンパクト性を中心とする[非特許文献4]、[非特許文献9]。
【0262】
2.5 結果
DCT-IIは最良の結果を生むので、以後その変換に注目する。前方マッチングおよび後方マッチングは対称であり同一の結果を生むので、前方マッチング結果のみが説明される。
【0263】
図20は、STDAR前(上)およびSTDAR後(下)の結合係数8および16を用いた2つのフレームの例示的なインパルス応答を図で示す。
【0264】
言い換えると、図20は、STDARの前と後の、異なる時間-周波数タイリングを用いた2つのフレームの2つの例示的なインパルス応答を示す。インパルス応答は、結合係数の違い(c(m-1)=8およびc(m)=16)により異なる幅を示す。STDARの後で、エイリアシングが目に見えて減るが、一部の残存エイリアシングがまだ見えている。
【0265】
図21は、アップマッチングに対するインパルス応答および周波数応答のコンパクト性を図で示す。表中のラベルは、均一MDCTについてはフレーム長、TDARについては結合係数、STDARについてはフレームm-1およびmの結合係数を表す。それにより、図21において、第1の曲線500はTDARを表し、第2の曲線502はTDARなしを表し、第3の曲線504はc(m)=4であるSTDARを表し、第4の曲線506はc(m)=8であるSTDARを表し、第5の曲線508はc(m)=16であるSTDARを表し、第6の曲線510はc(m)=32であるSTDARを表し、第7の曲線512はMDCTを表し、第8の曲線514はハイゼンベルク境界を表す。
【0266】
図22は、ダウンマッチングに対するインパルス応答および周波数応答のコンパクト性を図で示す。表中のラベルは、均一MDCTについてはフレーム長、TDARについては結合係数、STDARについてはフレームm-1およびmの結合係数を表す。それにより、図21において、第1の曲線500はTDARを表し、第2の曲線502はTDARなしを表し、第3の曲線504はc(m)=4であるSTDARを表し、第4の曲線506はc(m)=8であるSTDARを表し、第5の曲線508はc(m)=16であるSTDARを表し、第6の曲線510はc(m)=32であるSTDARを表し、第7の曲線512はMDCTを表し、第8の曲線514はハイゼンベルク境界を表す。
【0267】
それにより、図21および図22において、それぞれ、アップマッチングおよびダウンマッチングに対する多種多様なフィルタバンクの、平均インパルス応答のコンパクト性
【0268】
【数43】
【0269】
および周波数応答のコンパクト性
【0270】
【数44】
【0271】
[非特許文献3]、[非特許文献9]。基準線の比較のために、均一MDCT、ならびにTDARありのサブバンド結合およびTDARなしのサブバンド結合が、曲線512、500、および502を使用して示される[非特許文献3]、[非特許文献4]。STDARフィルタバンクは、曲線504、506、508、および510を使用して示される。各線は、同じ結合係数cを用いてすべてのフィルタバンクを表す。各データ点に対する表中のラベルは、フレームm-1およびmという結合係数を表す。
【0272】
図21において、フレームm-1はフレームmのタイリングと一致するように変換される。フレームmの時間的なコンパクト性が、スペクトル的なコンパクト性を犠牲にせずに改善することがわかり得る。フレームm-1のコンパクト性について、c>2であるすべての結合係数に対しては改善が、しかし結合係数c=2に対しては悪化が見られる。この悪化は予想されたことであり、それは、c=2である元のTDARが、インパルス応答のコンパクト性の悪化をすでにもたらしていたからである[非特許文献4]。
【0273】
図22において同様の状況が見られる。やはり、フレームm-1はフレームmのタイリングと一致するように変換される。この状況では、フレームm-1の時間的なコンパクト性は、スペクトル的なコンパクト性を犠牲にせずに改善する。やはり、結合係数c=2が問題として残る。
【0274】
全体として、結合係数c>2に対して、STDARはエイリアシングを減らすことによりインパルス応答幅を減らすことが明確にわかり得る。すべての結合係数にわたり、コンパクト性は最小の切り替え係数rに対して最良になる。
【0275】
2.6 さらなる実施形態
上の実施形態は主に、STDAR演算が2つのフレームの一方のみの時間-周波数タイリングを他方と一致するように変更する片側STDARに言及したが、本発明はそのような実施形態に限定されないことに留意されたい。むしろ、実施形態では、STDAR演算が両方のフレームの時間-周波数タイリングを最終的に互いに一致するように変更する、両側STDARも適用され得る。非常に高い切り替え比に対してシステムのコンパクト性を改善するために、そのようなシステムを使用することができ、すなわち、ある極端なタイリングから他の極端なタイリングに1つのフレームを変える(32/2→2/2)代わりに、両方のフレームが中間のタイリングに変更されてもよい(32/2→8/8)。
【0276】
また、直交性に違反しない限り、R(z,m)およびS(m)における係数の数値最適化が可能である。これは、より低い結合係数cまたはより高い切り替え比rに対するSTDARの性能を改善し得る。
【0277】
時間領域エイリアシング低減(TDAR)は、不均一直交修正離散コサイン変換(MDCT)のインパルス応答のコンパクト性を改善するための方法である。従来、TDARは同一の時間-周波数タイリングのフレーム間でのみ可能であったが、本明細書において説明される実施形態はこの制約を乗り越える。実施形態は、別のサブバンド結合またはサブバンド分割ステップを導入することによって、異なる時間-周波数タイリングの2つの連続するフレーム間でのTDARの使用を可能にする。続けて、実施形態は、コンパクトなインパルス応答を依然として維持しながら、よりフレキシブルで適応性のあるフィルタバンクタイリングを可能にし、これらの2つの特性は効率的な知覚オーディオコーディングに必要である。
【0278】
実施形態は、異なる時間-周波数タイリングの2つのフレーム間で時間領域エイリアシング低減(TDAR)を適用する方法を提供する。以前は、そのようなフレーム間のTDARは可能ではなかったので、時間-周波数タイリングが適応的に変更されなければならなかったとき、インパルス応答の応答性がより理想から遠くなっていた。
【0279】
TDARを適用する前に2つのフレームの時間-周波数タイリングとのマッチングを可能にするために、別のサブバンド結合/サブバンド分割ステップを導入する実施形態。TDARの後で、元の時間-周波数タイリングが再構築され得る。
【0280】
実施形態は2つのシナリオを提供する。第1に、一方の時間分解能が他方の時間分解能と一致するように上げられる上方マッチング。第2に、逆の場合である下方マッチング。
【0281】
図23は、オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するための方法320のフローチャートを示す。方法は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルのセットを取得するステップ322を含む。さらに、方法320は、サンプルの第1のブロックに基づくサブバンドサンプルのセットがサンプルの第2のブロックに基づくサブバンドサンプルのセットと比較して異なる領域を時間-周波数平面において表す場合に、組み合わせられると時間-周波数平面において同じ領域を表す、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセット、およびサンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの1つまたは複数のセットを特定するステップ324を含む。さらに、方法320は、サンプルの第1のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセット、および/または、サンプルの第2のブロックに基づくサブバンドサンプルのセットのうちのサブバンドサンプルの特定された1つまたは複数のセットを時間-周波数変換し、特定された1つまたは複数のサブバンドサンプルまたはその1つまたは複数の時間-周波数変換されたバージョンの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたサブバンドサンプルを取得するステップ326を含む。さらに、方法320は、オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するステップ328を含む。
【0282】
図24は、オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するための方法420のフローチャートを示し、オーディオ信号のサブバンド表現はサンプルのエイリアシングが低減されたセットを含む。方法420は、オーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセット、および/またはオーディオ信号のサンプルの第2のブロックに対応するエイリアシングが低減されたサブバンドサンプルのセットのうちのエイリアシングが低減されたサブバンドサンプルの1つまたは複数のセットに対して時間-周波数変換を実行し、オーディオ信号のサンプルの他のブロックまたはその1つまたは複数の時間-周波数変換されたバージョンに対応する、1つまたは複数のエイリアシングが低減されたサブバンドサンプルの対応する1つと同じ領域を時間-周波数平面において各々が表す、1つまたは複数の時間-周波数変換されたエイリアシングが低減されたサブバンドサンプルを取得するステップ422を含む。さらに、方法420は、エイリアシングが低減されたサブバンドサンプルの対応するセットまたはその時間-周波数変換されたバージョンの重み付けられた組合せを実行して、エイリアシングのあるサブバンド表現を取得するステップ424を含む。さらに、方法420は、エイリアシングのあるサブバンド表現に対して時間-周波数変換を実行して、オーディオ信号のサンプルの第1のブロックに対応するサブバンドサンプルのセットおよびオーディオ信号のサンプルの第2のブロックに対応するサブバンドサンプルのセットを取得するステップ426を含み、第1の逆時間-周波数変換段によって適用される時間-周波数変換は、第2の逆時間-周波数変換段によって適用される時間周波数変換の逆である。さらに、方法420は、サンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行し、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するステップ428を含む。
【0283】
続いて、さらなる実施形態が説明される。これにより、下の実施形態を上の実施形態と組み合わせることができる。
【0284】
実施形態1: オーディオ信号(102)を処理してオーディオ信号(102)のサブバンド表現を取得するためのオーディオプロセッサ(100)であって、オーディオプロセッサ(100)は、オーディオ信号(102)のサンプルの少なくとも2つの部分的に重複するブロック(108_1;108_2)に対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号(102)のサンプルの第1のブロック(108_1)に基づいてサブバンドサンプルのセット(110_1,1)を取得し、オーディオ信号(102)のサンプルの第2のブロック(108_2)に基づいてサブバンドサンプルの対応するセット(110_2,1)を取得するように構成される、カスケード重複クリティカルサンプリング変換段(104)と、オーディオ信号(102)のサンプルの第1のブロック(108_1)に基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロック(108_2)に基づいて取得されたものである、サブバンドサンプルの2つの対応するセット(110_1,1;110_1,2)の重み付けられた組合せを実行して、オーディオ信号(102)のエイリアシングが低減されたサブバンド表現(112_1)を取得するように構成される、時間領域エイリアシング低減段(106)とを含む。
【0285】
実施形態2: カスケード重複クリティカルサンプリング変換段(104)は、オーディオ信号(102)のサンプルの少なくとも2つの部分的に重複するブロック(108_1;108_2)のサンプルの第1のブロック(108_1)およびサンプルの第2のブロック(108_2)に対して重複クリティカルサンプリング変換を実行して、サンプルの第1のブロック(108_1)のためのビンの第1のセット(124_1)およびサンプルの第2のブロック(108_2)のためのビンの第2のセット(124_2)を取得するように構成される、第1の重複クリティカルサンプリング変換段(120)を含む、実施形態1によるオーディオプロセッサ(100)。
【0286】
実施形態3: カスケード重複クリティカルサンプリング変換段(104)はさらに、ビンの第1のセット(124_1)のセグメント(128_1,1)に対して重複クリティカルサンプリング変換を実行し、ビンの第2のセット(124_2)のセグメント(128_2,1)に対して重複クリティカルサンプリング変換を実行し、各セグメントはオーディオ信号(102)のサブバンドと関連付けられ、ビンの第1のセットのためのサブバンドサンプルのセット(110_1,1)およびビンの第2のセットのためのサブバンドサンプルのセット(110_2,1)を取得するように構成される、第2の重複クリティカルサンプリング変換段(126)を含む、実施形態2によるオーディオプロセッサ(100)。
【0287】
実施形態4: サブバンドサンプルの第1のセット(110_1,1)は、ビンの第1のセット(124_1)の第1のセグメント(128_1,1)に基づく第1の重複クリティカルサンプリング変換(132_1,1)の結果であり、サブバンドサンプルの第2のセット(110_1,2)はビンの第1のセット(124_1)の第2のセグメント(128_1,2)に基づく第2の重複クリティカルサンプリング変換(132_1,2)の結果であり、サブバンドサンプルの第3のセット(110_2,1)はビンの第2のセット(128_2,1)の第1のセグメント(128_2,1)に基づく第3の重複クリティカルサンプリング変換(132_2,1)の結果であり、サブバンドサンプルの第4のセット(110_2,2)はビンの第2のセット(128_2,1)の第2のセグメント(128_2,2)に基づく第4の重複クリティカルサンプリング変換(132_2,2)の結果であり、時間領域エイリアシング低減段(106)は、サブバンドサンプルの第1のセット(110_1,1)およびサブバンドサンプルの第3のセット(110_2,1)の重み付けられた組合せを実行して、オーディオ信号の第1のエイリアシングが低減されたサブバンド表現(112_1)を取得するように構成され、時間領域エイリアシング低減段(106)は、サブバンドサンプルの第2のセット(110_1,2)およびサブバンドサンプルの第4のセット(110_2,2)の重み付けられた組合せを実行して、オーディオ信号の第2のエイリアシングが低減されたサブバンド表現(112_2)を取得するように構成される、実施形態3によるオーディオプロセッサ(100)。
【0288】
実施形態5: カスケード重複クリティカルサンプリング変換段(104)は、少なくとも2つの窓関数を使用してサンプルの第1のブロック(108_1)に基づいて取得されるビンのセット(124_1)を区分し、サンプルの第1のブロック(108_1)に対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つの区分されたセット(128_1,1;128_1,2)を取得するように構成され、カスケード重複クリティカルサンプリング変換段(104)は、少なくとも2つの窓関数を使用してサンプルの第2のブロック(108_2)に基づいて取得されるビンのセット(124_2)を区分し、サンプルの第2のブロック(108_2)に対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つの区分されたセット(128_2,1;128_2,2)を取得するように構成され、少なくとも2つの窓関数は異なる窓の幅を含む、実施形態1から4の1つによるオーディオプロセッサ(100)。
【0289】
実施形態6: カスケード重複クリティカルサンプリング変換段(104)は、少なくとも2つの窓関数を使用してサンプルの第1のブロック(108_1)に基づいて取得されるビンのセット(124_1)を区分し、サンプルの第1のブロック(108_1)に対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つの区分されたセット(128_1,1;128_1,2)を取得するように構成され、カスケード重複クリティカルサンプリング変換段(104)は、少なくとも2つの窓関数を使用してサンプルの第2のブロック(108_2)に基づいて取得されるビンのセット(124_2)を区分し、サンプルの第2のブロック(108_2)に対応するビンの区分されたセットに基づいてサブバンドサンプルの少なくとも2つのセット(128_2,1;128_2,2)を取得するように構成され、サブバンドサンプルの隣接するセットに対応する窓関数のフィルタの傾きは対称である。
【0290】
実施形態7: カスケード重複クリティカルサンプリング変換段(104)は、第1の窓関数を使用して、オーディオ信号のサンプルをサンプルの第1のブロック(108_1)およびサンプルの第2のブロック(108_2)へと区分するように構成され、重複クリティカルサンプリング変換段(104)は、第2の窓関数を使用して、サンプルの第1のブロック(108_1)に基づいて取得されるビンのセット(124_1)およびサンプルの第2のブロック(108_2)に基づいて取得されるビンのセット(124_2)を区分し、対応するサブバンドサンプルを取得するように構成され、第1の窓関数および第2の窓関数は異なる窓の幅を含む、実施形態1から6の1つによるオーディオプロセッサ(100)。
【0291】
実施形態8: カスケード重複クリティカルサンプリング変換段(104)は、第1の窓関数を使用してオーディオ信号のサンプルをサンプルの第1のブロック(108_1)およびサンプルの第2のブロック(108_2)へと区分するように構成され、重複クリティカルサンプリング変換段(104)は、第2の窓関数を使用して、サンプルの第1のブロック(108_1)に基づいて取得されるビンのセット(124_1)およびサンプルの第2のブロック(108_2)に基づいて取得されるビンのセット(124_2)を区分して、対応するサブバンドサンプルを取得するように構成され、第1の窓関数の窓の幅および第2の窓関数の窓の幅は互いに異なり、第1の窓関数の窓の幅および第2の窓関数の窓の幅は2のべき乗とは異なる倍率だけ互いに異なる、実施形態1から6の1つによるオーディオプロセッサ(100)。
【0292】
実施形態9: 時間領域エイリアシング低減段(106)は、0≦m<N/2に対して
【0293】
【数45】
【0294】
であり
【0295】
【数46】
【0296】
である式に従って、サブバンドサンプルの2つの対応するセットの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するように構成され、yv,i(m)はオーディオ信号の第1のエイリアシングが低減されたサブバンド表現であり、yv,i(N-1-m)はオーディオ信号の第2のエイリアシングが低減されたサブバンド表現であり、
【0297】
【数47】
【0298】
はオーディオ信号のサンプルの第2のブロックに基づくサブバンドサンプルのセットであり、
【0299】
【数48】
【0300】
はオーディオ信号のサンプルの第1のブロックに基づくサブバンドサンプルのセットであり、av(m)は...であり、bv(m)は...であり、cv(m)は...であり、dv(m)は...である、実施形態1から8の1つによるオーディオプロセッサ(100)。
【0301】
実施形態10: オーディオ信号のサブバンド表現を処理してオーディオ信号(102)を取得するためのオーディオプロセッサ(200)であって、オーディオプロセッサ(200)は、オーディオ信号(102)の2つの対応するエイリアシングが低減されたサブバンド表現の重み付けられた組合せを実行して、エイリアシングのあるサブバンド表現を取得するように構成される、逆時間領域エイリアシング低減段(202)であって、エイリアシングのあるサブバンド表現はサブバンドサンプルのセット(110_1,1)である、逆時間領域エイリアシング低減段と、サブバンドサンプルのセット(110_1,1)に対してカスケード逆重複クリティカルサンプリング変換を実行して、オーディオ信号(102)のサンプルのブロックと関連付けられるサンプルのセット(206_1,1)を取得するように構成される、カスケード逆重複クリティカルサンプリング変換段(204)とを含む。
【0302】
実施形態11: カスケード逆重複クリティカルサンプリング変換段(204)は、サブバンドサンプルのセット(110_1,1)に対して逆重複クリティカルサンプリング変換を実行して、オーディオ信号の所与のサブバンドと関連付けられるビンのセット(128_1,1)を取得するように構成される、第1の逆重複クリティカルサンプリング変換段(208)と、オーディオ信号(102)の所与のサブバンドと関連付けられるビンのセット(128_1,1)とオーディオ信号(102)の別のサブバンドと関連付けられるビンのセット(128_1,2)の重み付けられた組合せを含む、オーディオ信号の複数のサブバンドと関連付けられるビンのセットの連結を実行して、オーディオ信号(102)のサンプルのブロックと関連付けられるビンのセット(124_1)を取得するように構成される、第1の重畳および加算段(210)とを含む、実施形態10によるオーディオプロセッサ(100)。
【0303】
実施形態12: カスケード逆重複クリティカルサンプリング変換段(204)は、オーディオ信号(102)のサンプルのブロックと関連付けられるビンのセット(124_1)に対して逆重複クリティカルサンプリング変換を実行して、オーディオ信号(102)のサンプルのブロックと関連付けられるサンプルのセットを取得するように構成される、第2の逆重複クリティカルサンプリング変換段(212)を含む、実施形態11によるオーディオプロセッサ(200)。
【0304】
実施形態13: カスケード逆重複クリティカルサンプリング変換段(204)は、オーディオ信号(102)のサンプルのブロックと関連付けられるサンプルのセット(206_1,1)およびオーディオ信号(102)のサンプルの別のブロックと関連付けられるサンプルの別のセット(206_2,1)を重畳して加算し、オーディオ信号(102)のサンプルのブロックおよびサンプルの別のブロックは部分的に重畳し、オーディオ信号(102)を取得するように構成される、第2の重畳および加算段(214)を含む、実施形態12によるオーディオプロセッサ(200)。
【0305】
実施形態14: 逆時間領域エイリアシング低減段(202)は、0≦m<N/2に対して
【0306】
【数49】
【0307】
であり
【0308】
【数50】
【0309】
である式に基づいて、オーディオ信号(102)の2つの対応するエイリアシングが低減されたサブバンド表現の重み付けられた組合せを実行して、エイリアシングのあるサブバンド表現を取得するように構成され、yv,i(m)はオーディオ信号の第1のエイリアシングが低減されたサブバンド表現であり、yv,i(N-1-m)はオーディオ信号の第2のエイリアシングが低減されたサブバンド表現であり、
【0310】
【数51】
【0311】
はオーディオ信号のサンプルの第2のブロックに基づくサブバンドサンプルのセットであり、
【0312】
【数52】
【0313】
はオーディオ信号のサンプルの第1のブロックに基づくサブバンドサンプルのセットであり、av(m)は...であり、bv(m)は...であり、cv(m)は...であり、dv(m)は...である、実施形態10から13の1つによるオーディオプロセッサ(200)。
【0314】
実施形態15: 実施形態1から9の1つによるオーディオプロセッサ(100)と、オーディオ信号のエイリアシングが低減されたサブバンド表現を符号化して、オーディオ信号の符号化されたエイリアシングが低減されたサブバンド表現を取得するように構成されるエンコーダと、オーディオ信号の符号化されたエイリアシングが低減されたサブバンド表現からビットストリームを形成するように構成されるビットストリーム形成器とを含む、オーディオエンコーダ。
【0315】
実施形態16: ビットストリームを解析して符号化されたエイリアシングが低減されたサブバンド表現を取得するように構成されるビットストリーム解析器と、符号化されたエイリアシングが低減されたサブバンド表現を復号してオーディオ信号のエイリアシングが低減されたサブバンド表現を取得するように構成されるデコーダと、実施形態10から14の1つによるオーディオプロセッサ(200)とを含む、オーディオデコーダ。
【0316】
実施形態17: 実施形態1から9の1つによるオーディオプロセッサ(100)と、エイリアシングが低減されたサブバンド表現を分析して、オーディオ信号を記述する情報を提供するように構成される情報抽出器とを含む、オーディオ分析器。
【0317】
実施形態18: オーディオ信号を処理してオーディオ信号のサブバンド表現を取得するための方法(300)であって、方法は、オーディオ信号のサンプルの少なくとも2つの部分的に重複するブロックに対してカスケード重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、オーディオ信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するステップ(302)と、オーディオ信号のサンプルの第1のブロックに基づいて取得されたもの、およびオーディオ信号のサンプルの第2のブロックに基づいて取得されたものである、サブバンドサンプルの2つの対応するセットの重み付けられた組合せを実行して、オーディオ信号のエイリアシングが低減されたサブバンド表現を取得するステップ(304)とを含む。
【0318】
実施形態19: オーディオ信号のサブバンド表現を処理してオーディオ信号を取得するための方法(400)であって、方法は、オーディオ信号の2つの対応するエイリアシングが低減されたサブバンド表現の重み付けられた組合せを実行して、エイリアシングのあるサブバンド表現を取得するステップ(402)であって、エイリアシングのあるサブバンド表現はサブバンドサンプルのセットである、ステップと、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプリング変換を実行して、オーディオ信号のサンプルのブロックと関連付けられるサンプルのセットを取得するステップ(404)とを含む。
【0319】
実施形態20: 実施形態18または19による方法を実行するためのコンピュータプログラム。
【0320】
いくつかの態様が装置の文脈で説明されたが、これらの態様は対応する方法の説明も表すことが明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様は、対応する装置の対応するブロックまたは項目または特徴の説明も表す。方法ステップの一部またはすべてが、たとえば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のようなハードウェア装置によって(またはそれを使用して)実行され得る。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実行され得る。
【0321】
いくつかの実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。実装は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することが可能である)電気的可読制御信号が記憶されているデジタル記憶媒体、たとえばフロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリを使用して実行され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
【0322】
本発明によるいくつかの実施形態は、本明細書において説明される方法のうちの1つが実行されるように、プログラマブルコンピュータシステムと協働することが可能である、電気的可読制御信号を有するデータ担体を含む。
【0323】
一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータで実行されると方法のうちの1つを実行するように動作可能である。プログラムコードは、たとえば機械可読担体に記憶され得る。
【0324】
他の実施形態は、機械可読担体に記憶された、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0325】
言い換えると、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータで実行されると、本明細書において説明される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0326】
したがって、本発明の方法のさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムが記録されているデータ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データ担体、デジタル記憶媒体、または記録された媒体は通常、有形および/または非一時的である。
【0327】
したがって、本発明の方法のさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、データ通信接続を介して、たとえばインターネットを介して転送されるように構成され得る。
【0328】
さらなる実施形態は、本明細書において説明される方法のうちの1つを実行するように構成または適合される処理手段、たとえばコンピュータまたはプログラマブル論理デバイスを含む。
【0329】
さらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0330】
本発明によるさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを受信機に(たとえば、電気的または光学的に)転送するように構成される装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
【0331】
いくつかの実施形態では、本明細書において説明される方法の機能の一部またはすべてを実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書において説明される方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は好ましくは、任意のハードウェア装置によって実行され得る。
【0332】
本明細書において説明される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装され得る。
【0333】
本明細書において説明される装置、または本明細書において説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアで少なくとも部分的に実装され得る。
【0334】
本明細書において説明される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実行され得る。
【0335】
本明細書において説明される方法、または本明細書において説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行され得る。
【0336】
上で説明される実施形態は、本発明の原理を例示するものにすぎない。本明細書において説明される構成および詳細の修正と変形は当業者に明らかであることが理解される。したがって、係属中の特許請求の範囲だけによって限定され、本明細書の実施形態の記述および説明として提示される具体的な詳細によっては限定されないことが意図される。
【0337】
(参考文献)
【符号の説明】
【0338】
102 オーディオ信号
104 カスケードLCST段
105 第1の時間-周波数変換段
106 TDAR段
107 第2の時間-周波数変換段
120 LCST段
126 LCST段
152 エンコーダ
154 ビットストリーム形成器
182 情報抽出器
201 第2の逆時間-周波数変換段
202 逆TDAR段
203 第1の逆時間-周波数変換段
204 逆カスケードLCST段
208 逆LCST段
210 第1の重畳および加算段
212 逆LCST段
214 第2の重畳および加算段
222 逆重複クリティカルサンプリング変換
252 ビットストリーム解析器
254 デコーダ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24