IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許7279160サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-12
(45)【発行日】2023-05-22
(54)【発明の名称】サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化
(51)【国際特許分類】
   G10L 19/022 20130101AFI20230515BHJP
   G10L 19/02 20130101ALI20230515BHJP
【FI】
G10L19/022
G10L19/02 160A
【請求項の数】 16
(21)【出願番号】P 2021522453
(86)(22)【出願日】2019-10-16
(65)【公表番号】
(43)【公表日】2022-01-14
(86)【国際出願番号】 EP2019078112
(87)【国際公開番号】W WO2020083727
(87)【国際公開日】2020-04-30
【審査請求日】2021-06-17
(31)【優先権主張番号】18202927.2
(32)【優先日】2018-10-26
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】19169635.0
(32)【優先日】2019-04-16
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100205981
【弁理士】
【氏名又は名称】野口 大輔
(72)【発明者】
【氏名】ニルシュ・ヴェルナー
(72)【発明者】
【氏名】ベルンド・エドラー
(72)【発明者】
【氏名】ザッシャ・ディシュヘ
【審査官】中村 天真
(56)【参考文献】
【文献】特表2019-526074(JP,A)
【文献】特表2008-547043(JP,A)
【文献】特表2007-526691(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声信号(102)を処理して前記音声信号(102)のサブバンド表現を取得するための音声処理装置(100)であって、前記音声処理装置(100)は、
前記音声信号(102)のサンプルの第1のブロック(108_1)に基づいてサブバンドサンプルのセット(110_1,1)を取得し、かつ前記音声信号(102)のサンプルの第2のブロック(108_2)に基づいて、サブバンドサンプルの対応するセット(110_2,1)を取得するために、前記音声信号(102)のサンプルの少なくとも2つの部分的に重なり合うブロック(108_1;108_2)に対してカスケード重複クリティカルサンプル変換を実行するように構成されたカスケード重複クリティカルサンプル変換ステージ(104)と、
前記音声信号(102)のエイリアシング低減サブバンド表現(112_1)を取得するために、1つが前記音声信号(102)のサンプルの第1のブロック(108_1)に基づいて取得され、1つが前記音声信号のサンプルの第2のブロック(108_2)に基づいて取得されたサブバンドサンプルの2つの対応するセット(110_1,1;110_1,2)の重み付き組み合わせを実行するように構成された時間領域エイリアシング低減ステージ(106)と、を備え、
前記カスケード重複クリティカルサンプル変換ステージ(104)は、少なくとも2つの窓関数を使用して、サンプルの第1のブロック(108_1)に基づいて取得されたビンのセット(124_1)をセグメント化し、かつサンプルの第1のブロック(108_1)に対応するビンのセグメント化されたセットに基づいて、ビンの少なくとも2つのセット(128_1,1;128_1,2)を取得するように構成され、
前記カスケード重複クリティカルサンプル変換ステージ(104)は、少なくとも2つの窓関数を使用してサンプルの第2のブロック(108_2)に基づいて得られたビンのセット(124_2)をセグメント化し、かつサンプルの第2のブロック(108_2)に対応するセグメント化されたビンのセットに基づいて、少なくとも2つのビンのセット(128_2,1;128_2,2)を取得するように構成され、
前記ビンのセット(128_1,1;128_1,2;128_2,1;128_2,2)は、前記カスケード重複クリティカルサンプル変換ステージの第2の重複クリティカルサンプル変換ステージを使用して処理され、前記第2の重複クリティカルサンプル変換ステージは、少なくとも1セットのビンに対して同じフレーム長を持つ重複クリティカルサンプル変換を実行するように構成され、
前記音声処理装置(100)は、同じフレーム長が2つの後続のブロック(108_1,108_2)に使用される場合に、アクティブ化された前記時間領域エイリアシング低減ステージ(106)をアクティブ化し、または維持するように構成され、
および/または、異なるフレーム長が2つの後続のブロック(108_1,108_2)に使用される場合、前記音声処理装置(100)は、前記時間領域エイリアシング低減ステージ(106)を非アクティブ化するか、または非アクティブ化したままにするように構成されている、音声処理装置(100)。
【請求項2】
前記第2の重複クリティカルサンプル変換ステージ(126)は、サンプルの前記第1のブロック(108_1)に対応するビンの前記セグメント化されたセットに基づいて取得されたビンの前記少なくとも2つのセット(128_1,1;128_1,2)のうちの第1のセット(128_1,1)のN1,1のサブセットに対してN1,1の重複クリティカルサンプル変換を実行するように構成され、前記N1,1の重複クリティカルサンプル変換は同じフレーム長を含み、N1,1は2以上の自然数であり、
前記第2の重複クリティカルサンプル変換ステージ(126)は、前記サンプルの前記第2のブロック(108_2)に対応する前記セグメント化されたビンのセットに基づいて取得された前記ビンの前記少なくとも2つのセット(128_2,1;128_2,2)のうちの対応する第1のセット(128_1,2)のN 2,1 のサブセットに対してN 2,1 の重複クリティカルサンプル変換を実行するように構成され、前記N2,1の重複クリティカルサンプル変換は同じフレーム長を含み、N2,1は、2以上の自然数である、
請求項1に記載の音声処理装置(100)。
【請求項3】
前記音声処理装置(100)は、ビンの各セット(128_1,1,128_1,2,128_2,1,128_2,2)またはビンの前記対応するセット(128_1,1および128_2,1;128_1,2および128_2,2)のそれぞれについて前記フレーム長を個別に選択するように構成されている、請求項1および2に記載の音声処理装置(100)。
【請求項4】
前記音声処理装置は、サンプルのブロック(108_1,108_2)ごとに前記フレーム長を個別に選択するように構成されている、請求項1から3のいずれか一項に記載の音声処理装置(100)。
【請求項5】
前記少なくとも2つの窓関数は同じ窓幅を含む、請求項1からのいずれか一項に記載の音声処理装置(100)。
【請求項6】
前記少なくとも2つの窓関数は異なる窓幅を含む、請求項1からのいずれか一項に記載の音声処理装置(100)。
【請求項7】
前記少なくとも2つの窓関数は、長方形の窓を含む、請求項1からのいずれか一項に記載の音声処理装置(100)。
【請求項8】
前記少なくとも2つの窓関数に基づいて取得されたビンの前記セットが、前記第2の重複クリティカルサンプル変換ステージを使用して処理され、
前記第2の重複クリティカルサンプル変換ステージは、前記少なくとも2つの窓関数に基づいて取得された前記ビンのセットのうちの少なくとも1つに対して同じフレーム長を有する少なくとも2つの重複クリティカルサンプル変換を実行するように構成されている、請求項からのいずれか一項に記載の音声処理装置(100)。
【請求項9】
前記音声処理装置(100)は、ジョイントチャネル符号化を実行するように構成されている、請求項1からのいずれか一項に記載の音声処理装置(100)。
【請求項10】
前記音声処理装置(100)は、ジョイントチャネル処理としてM/Sまたはマルチチャネル符号化ツール(MCT)を実行するように構成されている、請求項に記載の音声処理装置。
【請求項11】
前記音声処理装置(100)は、ビンの前記少なくとも2つのセグメント化されたセット(128_1,1;128_1,2)の各々について個別にジョイントチャネル処理をアクティブ化または非アクティブ化するように構成されている、請求項9又は10に記載の音声処理装置(100)。
【請求項12】
前記音声処理装置(100)は、前記音声信号の符号化されたエイリアシング低減サブバンド表現(112_1,112_2)からビットストリームを形成するように構成され、
前記音声処理装置(100)は、前記ビットストリーム内のビンの前記対応するセット(128_1,1および128_2,1;128_1,2および128_2,2)の少なくとも1つのフレーム長をシグナリングする少なくとも1つの併合因子パラメータを含む前記ビットストリームを提供するように構成されている、請求項1から11のいずれか一項に記載の音声処理装置(100)。
【請求項13】
前記音声処理装置(100)は、前記少なくとも一つの併合因子パラメータをエントロピー符号化するように構成されている、請求項12に記載の音声処理装置(100)。
【請求項14】
請求項1に記載の音声処理装置(100)と、
前記音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、前記音声信号の前記エイリアシング低減サブバンド表現を符号化するように構成された符号化器と、
前記音声信号の前記符号化されたエイリアシング低減サブバンド表現からビットストリームを形成するように構成されたビットストリーム形成器と、
を備えた音声符号化器。
【請求項15】
音声信号(102)を処理して前記音声信号(102)のサブバンド表現を取得する方法であって、前記方法は、
前記音声信号(102)のサンプルの第1のブロック(108_1)に基づいてサブバンドサンプルのセット(110_1,1)を取得し、かつ前記音声信号(102)のサンプルの第2のブロック(108_2)に基づいて、サブバンドサンプルの対応するセット(110_2,1)を取得するために、前記音声信号(102)のサンプルの少なくとも2つの部分的に重なり合うブロック(108_1;108_2)に対してカスケード重複クリティカルサンプル変換を実行することと、
前記音声信号(102)のエイリアシング低減サブバンド表現(112_1)を取得するために、1つが前記音声信号(102)のサンプルの第1のブロック(108_1)に基づいて取得され、1つが前記音声信号のサンプルの第2のブロック(108_2)に基づいて取得されたサブバンドサンプルの2つの対応するセット(110_1,1;110_1,2)の重み付き組み合わせを実行することと、を含み、
前記カスケード重複クリティカルサンプル変換を実行することは、少なくとも2つの窓関数を使用して、サンプルの第1のブロック(108_1)に基づいて取得されたビンのセット(124_1)をセグメント化し、かつサンプルの第1のブロック(108_1)に対応するビンのセットに基づいて、ビンの少なくとも2つのセグメント化されたセット(128_1,1;128_1,2)を取得することを含み、
前記カスケード重複クリティカルサンプル変換することは、少なくとも2つの窓関数を使用してサンプルの第2のブロック(108_2)に基づいて得られたビンのセット(124_2)をセグメント化し、かつサンプルの第2のブロック(108_2)に対応するセグメント化されたビンのセットに基づいて、少なくとも2つのビンのセット(128_2,1;128_2,2)を取得することを含み、
前記ビンのセット(128_1,1;128_1,2;128_2,1;128_2,2)は、前記カスケード重複クリティカルサンプル変換の第2の重複クリティカルサンプル変換を使用して処理され、前記第2の重複クリティカルサンプル変換は、少なくとも1セットのビンに対して同じフレーム長を持つ重複クリティカルサンプル変換を実行することを含み、
前記同じフレーム長が2つの後続のブロック(108_1、108_2)に使用される場合、前記サブバンドサンプルの2つの対応するセット(110_1,1;110_1,2)の重み付けされた組み合わせが実行され、
および/またはサブバンドサンプルの2つの対応するセット(110_1,1;110_1,2)の重み付けされた組み合わせは、2つの後続のブロック(108_1、108_2)に異なるフレーム長が使用されている場合は実行されない、方法。
【請求項16】
請求項15に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置/方法に関する。さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置/方法に関する。いくつかの実施形態は、サブバンド併合および時間領域エイリアシング低減を使用した適応不均一時間/周波数タイリングによる知覚音声符号化に関する。いくつかの実施形態は、不均一なフィルタバンクの多くのパラメータの制御、およびフィルタバンクのマルチチャネル動作への拡張を支援するための方法に関する。
【背景技術】
【0002】
知覚的符号化では、エントロピー、したがってビットレートは、一般に、冗長で知覚的に無関係な情報を破棄することによって低減される。これは、フィルタバンクおよび量子化を使用して達成される。このフィルタバンク、量子化器、および心理音響モデルは、システム[2]全体の符号化効率および知覚品質を最大化するために、量子化ノイズを可能な限りマスキング閾値に近くなるように成形するために一緒に使用される。
【0003】
合成中、量子化ノイズは、フィルタバンクのインパルスおよび周波数応答のスペクトル形状および時間形状によって時間および周波数で整形される。したがって、量子化ノイズ形状のきめ細かい制御を可能にするために、時間および周波数の両方においてコンパクトなインパルス応答を有するフィルタバンクを使用することが望ましい。
【0004】
これらの特性を有する最も一般的に使用されるフィルタバンクは、修正離散コサイン変換(MDCT)であり、すべての帯域で均一な時間周波数分解能を有するフィルタバンクである。
【0005】
しかしながら、人間の聴覚システムは、不均一な時間/周波数分解能[3]を示し、異なる周波数に対して異なるマスキング閾値形状をもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、本発明の目的は、可聴アーチファクトを低く維持しながら量子化ノイズの量を増加させることを可能にする不均一フィルタバンクを動作させるための概念を提供することである。
【課題を解決するための手段】
【0007】
この目的は、独立請求項によって解決される。
【0008】
実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置を提供する。音声処理装置は、音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するように構成されたカスケード重複変換ステージを備える。さらに、音声処理装置は、音声信号のエイリアシング低減サブバンド表現を取得するために、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するように構成された時間領域エイリアシング低減ステージを備え、一方は音声信号のサンプルの第1のブロックに基づいて取得され、他方は音声信号のサンプルの第2のブロックに基づいて取得される。それにより、カスケード重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数を使用してサンプルの第1のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第1のブロックに対応するビンのセグメント化されたセットに基づいてビンの少なくとも2つのセグメント化されたセットを取得するように構成され、カスケード重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数を使用してサンプルの第2のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第2のブロックに対応するビンのセグメント化されたセットに基づいてビンの少なくとも2つのセット[例えば、少なくとも2つの併合因子帯域][例えば、それぞれ128の係数]を取得するように構成され、ビンのセットは、カスケード重複クリティカルサンプル変換ステージの第2の重複クリティカルサンプル変換ステージを使用して[例えば、併合された]処理され、第2の重複クリティカルサンプル変換ステージは、少なくとも1つの[例えば、各]ビンのセットに対して同じフレーム長[例えば、併合因子]を有する重複クリティカルサンプル変換を実行するように構成される。
【0009】
実施形態では、第2の重複クリティカル変換ステージは、第1のサンプルブロックに対応するビンのセグメント化されたセットに基づいて取得されたビンの少なくとも2つのセットの第1のセット[例えば、128の係数のうちの]のN1,1のサブセットに対してN1,1の重複クリティカルサンプル変換を実行するように構成され、N1,1の重複クリティカルサンプル変換は同じフレーム長[例えば、併合因子]を含み、N1,1は2以上の自然数である。
【0010】
実施形態では、第2の重複クリティカル変換ステージは、第2のサンプルブロックに対応するビンのセグメント化されたセットに基づいて得られたビンの少なくとも2つのセットの対応する第1のセット[例えば、128の係数のうちの]のN1,2のサブセット[例えば、等しい長さの]に対してN1,2の重複クリティカルサンプル変換を実行するように構成され、N2,1の重複クリティカルサンプル変換は同じフレーム長[例えば、併合因子]を含み、N2,1は2以上の自然数である。
【0011】
実施形態では、音声処理装置は、ビンの各セットまたはビンの対応するセットのそれぞれについてフレーム長[例えば、併合因子]を個別に選択するように構成される。
【0012】
例えば、処理装置は、各セットに対して併合因子を選択することができ、それによって、例えば、改善された、またはさらに最高の可能な符号化効率を達成することができる。
【0013】
実施形態では、音声処理装置は、サンプルの各ブロックのフレーム長[例えば、併合係数]を個別に選択するように構成される。
【0014】
例えば、処理装置は、ブロックごとに併合因子を選択することができ、それによって、例えば、改善された、またはさらに最高の可能な符号化効率を達成することができる。
【0015】
実施形態では、音声処理装置は、同じフレーム長[例えば、併合因子]が2つの後続のブロックに使用される場合、時間領域エイリアシング低減ステージのアクティブ化をアクティブ化または維持するように構成され、かつ/または音声処理装置は、異なるフレーム長が2つの後続のブロックに使用される場合、時間領域エイリアシング低減ステージを非アクティブ化または非アクティブ化を維持するように構成される。
【0016】
例えば、TDARにより、ブロック間に依存関係が存在する。併合因子が維持される場合、TDARが可能である。2つの後続のブロックの併合係数が異なる場合、TDARは非アクティブ化される。したがって(任意選択で)、処理装置は、併合因子を適合させるために共通/共同最適化を実行するように構成することができ、例えば、サブバンドサンプル[mergefactor band]のセットごとにトレリスグリッドを適合させる。
【0017】
実施形態では、処理装置は、併合因子を適合させるために共通/共同最適化を実行するように構成される[例えば、サブバンドサンプルのセット毎のトレリスグリッド[mergefactor band]]。
【0018】
実施形態では、少なくとも2つの窓関数は、同じ窓幅[例えば、スペクトルを同じサイズの少なくとも2つの[例えば、8]併合因子帯域に分割する[例えば、それぞれ128の係数]]を含む。
【0019】
実施形態では、少なくとも2つの窓関数は、異なる窓幅[例えば、異なるサイズの少なくとも2つの併合因子帯域にスペクトルを分割するために、]を含む。
【0020】
実施形態では、少なくとも2つの窓関数は、実質的に長方形の窓を含む。
【0021】
実施形態では、少なくとも2つの窓関数に基づいて取得されたビンのセットは、第2の重複クリティカルサンプル変換ステージを使用して処理され[例えば、併合された]、第2の重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数に基づいて取得されたビンのセットの少なくとも1つ[例えば、各]に対して同じフレーム長[例えば、併合因子]を有する少なくとも2つの重複クリティカルサンプル変換を実行するように構成される。
【0022】
実施形態では、音声処理装置は、ジョイントチャネル符号化を実行するように構成される。
【0023】
実施形態では、音声処理装置は、ジョイントチャネル処理としてM/SまたはMCTを実行するように構成される。
【0024】
実施形態では、音声処理装置は、少なくとも2つのセグメント化されたビンのセット[例えば、各併合因子帯域のジョイントチャネル処理を個別にアクティブ化または非アクティブ化するために、例えば、カスケード重複クリティカルサンプル変換ステージの第1のラップされたクリティカルサンプル変換ステージと第2のラップされたクリティカルサンプル変換ステージとの間]の各々について個別にジョイントチャネル処理をアクティブ化または非アクティブ化するように構成される。
【0025】
実施形態では、音声処理装置は、音声信号の符号化エイリアシング低減サブバンド表現からビットストリームを形成するように構成され、音声処理装置は、ビットストリーム内のビンの対応するセットの少なくとも1つのフレーム長[例えば、併合因子]をシグナリングする少なくとも1つのMFパラメータを含むビットストリームを提供するように構成される。
【0026】
実施形態では、音声処理装置は、少なくとも1つのMFパラメータをエントロピー符号化するように構成される。
【0027】
実施形態では、音声処理装置は、ビットストリーム内のビンの対応するセットのフレーム長[例えば、併合因子]をシグナリングするMFパラメータのサブセットのみを含むビットストリームを提供するように構成される。
【0028】
実施形態では、音声処理装置は、ビンの各対応するセットのTDARパラメータを含むビットストリームを提供するように構成される。
【0029】
実施形態では、音声処理装置は、MFおよびTDARパラメータのジョイント・エントロピー・符号化を実行するように構成される。
【0030】
実施形態では、音声処理装置は、TDARパラメータが少なくとも1つのMFパラメータ[例えば、受信機または複号器サイトにおいて]から導出可能であるように、少なくとも1つのMFパラメータを含むビットストリームを提供するように構成される。
【0031】
例えば、音声処理装置によって提供されるビットストリームにTDARパラメータを含める代わりに、前記TDARパラメータは、少なくとも1つのMFパラメータから導出可能である。例えば、2つの後続のフレームにおける等しいMFパラメータは、TDARがアクティブであることを示しうる。ここで、トウの後続のフレームにおける異なるMFパラメータは、TDARが非アクティブであることを示しうる。
【0032】
実施形態では、音声処理装置は、サブバンドサンプル[mergefactor band]のセットごとにトレリスグリッドを使用するように構成される。
【0033】
さらなる実施形態は、音声符号化器を提供し、音声符号化器は、上述の実施形態のうちの1つによる音声処理装置を備え、音声符号化器は、音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、音声信号のエイリアシング低減サブバンド表現を符号化するように構成された符号化器を備え、音声符号化器は、音声信号の符号化されたエイリアシング低減サブバンド表現からビットストリームを形成するように構成されたビットストリーム形成器を備える。
【0034】
さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置を提供する。音声処理装置は、エイリアスされたサブバンド表現を得るために、音声信号の2つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するように構成された逆時間領域エイリアシング低減ステージを備え、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、音声処理装置は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するように構成されたカスケード逆重複クリティカルサンプル変換ステージを備える。それにより、カスケード逆重複クリティカルサンプル変換ステージは、音声信号の所与のサブバンドに関連付けられたビンのセットを取得するために、サブバンドサンプルのセットに対して逆重複クリティカルサンプル変換を実行するように構成された第1の逆重複クリティカルサンプル変換ステージを備え、第1の逆重複クリティカルサンプル変換ステージは、サブバンドサンプルのセットに対して同じフレーム長[例えば、併合因子]を有する逆重複クリティカルサンプル変換を実行するように構成される。
【0035】
実施形態では、第1の逆重複クリティカルサンプル変換ステージは、サブバンドサンプルのセットのN1,1のサブセットに対してN1,1の逆重複クリティカルサンプル変換を実行するように構成され、N1,1の重複クリティカルサンプル変換は、同じフレーム長[例えば、併合因子]を含み、N1,1は、2以上の自然数である。
【0036】
さらなる実施形態は、音声複号器を提供し、音声複号器は、符号化されたエイリアシング低減サブバンド表現を得るために、ビットストリームを解析するように構成されたビットストリームパーサを備え、音声複号器は、音声信号のエイリアシング低減サブバンド表現を得るために、符号化されたエイリアシング低減サブバンド表現を復号するように構成された複号器を備え、音声複号器は、上述の実施形態のうちの1つによる音声処理装置を備える。
【0037】
さらなる実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための方法を提供する。本方法は、音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップを含む。さらに、本方法は、音声信号のエイリアシング低減サブバンド表現を取得するために、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップを含み、一方は音声信号のサンプルの第1のブロックに基づいて取得され、他方は音声信号のサンプルの第2のブロックに基づいて取得される。それにより、カスケード重複クリティカルサンプル変換を実行することは、少なくとも2つの窓関数を使用してサンプルの第1のブロックに基づいて取得されたビンのセットをセグメント化することと、サンプルの第1のブロックに対応するビンのセグメント化されたセットに基づいて、ビンの少なくとも2つのセグメント化されたセット[例えば、少なくとも2つの併合因子帯域]を取得することとを含み、カスケード重複クリティカルサンプル変換を実行することは、少なくとも2つの窓関数を使用してサンプルの第2のブロックに基づいて取得されたビンのセットをセグメント化することと、サンプルの第2のブロックに対応するビンのセグメント化されたセットに基づいてビンの少なくとも2つのセット[例えば、少なくとも2つの併合因子帯域]を取得することとを含み、第2の重複クリティカルサンプル変換は、少なくとも1つのビンのセットは[例えば、各々]に対して同じフレーム長を有する[例えば、併合された]重複クリティカルサンプル変換を実行することとを含む。
【0038】
さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための方法を提供する。本方法は、エイリアスされたサブバンド表現を得るために、音声信号の2つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するステップを含み、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、本方法は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップを含み、カスケード逆重複クリティカルサンプル変換を実行するステップは、音声信号の所与のサブバンドに関連付けられたビンのセットを取得するために、サブバンドサンプルのセットに対して第1の逆重複クリティカルサンプル変換を実行するステップを含み、第1の逆重複クリティカルサンプル変換を実行するステップは、サブバンドサンプルのセットに対して同じフレーム長[例えば、併合因子]を有する逆重複クリティカルサンプル変換を実行するステップを含む。
【0039】
実施形態は、高周波および低周波の両方でマスキング閾値をより厳密に追従することができることによって、可聴アーチファクトを導入することなく、より多くの量子化ノイズの導入を可能にし、それによって均一なフィルタバンクよりも低いビットレートを可能にするコンパクトなインパルス応答を有する不均一なフィルタバンクを提供する。
【0040】
実施形態では、併合因子帯域への分割が実行される。それにより、多くの全く異なる併合レイアウトが可能である。しかしながら、高い柔軟性のために、システム全体を最適化することは非常に困難である。したがって、実施形態では、スペクトルは、同じ併合因子(MF)が常に使用される(以下の2.1.1項を比較されたい。)併合因子帯域(MFB)に分割される。全ての併合因子帯域がこのように独立して制御され得るので(図17を比較されたい)、併合因子帯域縁部で重なり合わない長方形の窓を使用することができる。
【0041】
実施形態では、ジョイントチャネル処理(M/Sまたはマルチチャネル符号化ツール(MCT)[12])が実行される。一般に、M/SまたはMCTはまた、サブバンド併合およびTDARとともに使用され得る。ミッドチャネルおよびサイドチャネルは、フレームごとに異なるMFパラメータおよびTDARパラメータを独立して使用し得る。
【0042】
実施形態では、M/SまたはMCTは、併合因子帯域ごとに個別にオン/オフに切り替えられる。ジョイントステレオの拡張は、第1のMDCTと第2の併合MDCTとの間でバンド状にジョイントステレオをオン/オフすることである。これは、例えばMFBごとのMS/MCTの周波数選択的活性化を可能にする。しかしながら、TDARは、同じジョイントステレオ構成(例えば、L/RとM/Sとの間にTDARがない場合)を有する2つのフレーム間でのみ可能である。
【0043】
実施形態では、併合因子決定のための既存の方法から窓切り替え判定器が使用される。既存の方法では、長い/短い窓のための判定器制御がある。いくつかの状況では、これらの決定因子もMFに使用され得る。
【0044】
実施形態では、併合係数はビットストリームでシグナリングされる(エントロピー符号化およびいくつかのMFパラメータの相互処理を含む)。一般的に言えば、現在のフレームのMFをシグナリングするために、ビットストリームに数ビットが必要である。これらのビットはエントロピー符号化されてもよい。加えて、ビットはそれらの間で符号化されてもよい。背景:2、8、1、2、16、32などの様々なMFは、4、4、8、8、16、16などのより均一なMFよりも可能性が低いと考えられる。この相関は、例えば差分符号化によってデータを保存するために使用され得る。
【0045】
実施形態では、より少ない併合因子が送信され、欠落した併合因子を近隣から導出/補間することができる。MFが実際に前のセクションのように均一である場合、すべてのMFを少数のMFから補間することもできる。
実施形態では、TDARパラメータはMFパラメータから導出される。TDARは、MFB当たり1ビットとして送信されてもよい。あるいは、TDARビットは、MFビットから導出されてもよい(2つの連続するフレームにおける同じMFパラメータ=TDAR on)。その場合、TDARにいかなるサイド情報も必要としない。
【0046】
実施形態では、MFパラメータおよびTDARパラメータの相互エントロピー符号化が実行される。MF値およびTDAR値は、相互にエントロピー符号化されうる。
【0047】
この場合、8MFBおよび6MFでは、
のみ
ビット。
【0048】
実施形態では、併合因子帯域は不均一に分割される。簡単にするために、以下の説明では均一なMFBが想定される。しかしながら、これらは不均一になることもある。実現可能な分割は、おそらくスケールファクタ帯域(SFB)と同一である。次に、SFBごとに1つのスケールファクタおよび1つの併合因子が送信される。
【0049】
実施形態では、併合因子のトレリスベースの最適化が実行される。音声符号化のためのトレリスグリッドの使用は、既に最先端技術である[7]。しかしながら、従来のシステムは、単一のトレリスのみを使用することができる。一方、実施形態によれば、MFBごとに1つのトレリスを使用することができる。
【0050】
さらなる実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置を提供する。音声処理装置は、カスケード重複クリティカルサンプル変換ステージと、時間領域エイリアシング低減ステージとを備える。カスケード重複クリティカルサンプル変換ステージは、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行し、音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するように構成される。時間領域エイリアシング低減ステージは、音声信号のエイリアシング低減サブバンド表現を取得するために、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するように構成され、一方は音声信号のサンプルの第1のブロックに基づいて取得され、他方は音声信号のサンプルの第2のブロックに基づいて取得される。
【0051】
さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置を提供する。音声処理装置は、逆時間領域エイリアシング低減ステージと、カスケード逆重複クリティカルサンプル変換ステージとを備える。逆時間領域エイリアシング低減ステージは、エイリアスされたサブバンド表現を得るために、音声信号の(部分的に重なり合うサンプルの異なるブロックの)2つの対応するエイリアシング低減サブバンド表現の重み付けされた(シフトされた)組み合わせを実行するように構成され、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。カスケード逆重複クリティカルサンプル変換ステージは、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するように構成される。
【0052】
本発明の概念によれば、追加の後処理ステージが重複クリティカルサンプル変換(例えば、MDCT)パイプラインに追加され、追加の後処理ステージは、周波数軸に沿った別の重複クリティカルサンプル変換(例えば、MDCT)と、各サブバンド時間軸に沿った時間領域エイリアシング低減とを含む。これにより、追加の冗長性を導入せず、重複されたクリティカルサンプル変換フレーム遅延を低減しながら、インパルス応答の時間的コンパクトさを改善した重複されたクリティカルサンプル変換(例えば、MDCT)スペクトログラムから任意の周波数スケールを抽出することができる。
【0053】
さらなる実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための方法を提供する。本方法は、
【0054】
音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップと、および
【0055】
音声信号のエイリアシング低減サブバンド表現を取得するために、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップであって、一方は音声信号のサンプルの第1のブロックに基づいて取得され、他方は音声信号のサンプルの第2のブロックに基づいて取得される、ステップと、を含む。
【0056】
さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための方法を提供する。本方法は、
【0057】
エイリアスされたサブバンド表現を得るために、前記音声信号の(部分的に重なり合うサンプルの異なるブロックの)2つの対応するエイリアシング低減サブバンド表現の重み付けされた(およびシフトされた)組み合わせを実行するステップであって、前記エイリアスされたサブバンド表現は、サブバンドサンプルのセットである、ステップと、および
【0058】
音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップと、を含む。
【0059】
有利な実施態様は、従属請求項に記載されている。
【0060】
続いて、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置の有利な実装形態について説明する。
【0061】
実施形態では、カスケード重複クリティカルサンプル変換ステージは、カスケードMDCT(MDCT=修正離散コサイン変換)、MDST(MDST=修正離散サイン変換)、またはMLT(MLT=変調重複変換)ステージとすることができる。
【0062】
実施形態では、カスケード重複クリティカルサンプル変換ステージは、第1のサンプルブロックのためのビンの第1のセットおよび第2のサンプルブロックのためのビンの第2のセット(重複クリティカルサンプリング係数)を得るために、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックのうちのサンプルの第1のブロックおよびサンプルの第2のブロックに対して重複クリティカルサンプル変換を実行するように構成された第1の重複クリティカルサンプル変換ステージを備えることができる。
【0063】
第1の重複クリティカルサンプル変換ステージは、第1のMDCT、MDST、またはMLTステージとすることができる。
カスケード重複クリティカルサンプル変換ステージは、ビンの第1のセットのセグメント(適切なサブセット)に対して重複クリティカルサンプル変換を実行し、ビンの第2のセットのセグメント(適切なサブセット)に対して重複クリティカルサンプル変換を実行するように構成された第2の重複クリティカルサンプル変換ステージをさらに含むことができ、各セグメントは、ビンの第1のセットのサブバンドサンプルのセットおよびビンの第2のセットのサブバンドサンプルのセットを取得するために、音声信号のサブバンドに関連付けられている。
【0064】
第2の重複クリティカルサンプル変換ステージは、第2のMDCT、MDST、またはMLTステージとすることができる。
【0065】
それにより、第1および第2の重複クリティカルサンプル変換ステージは、同じタイプ、すなわちMDCT、MDSTまたはMLTステージのうちの1つであり得る。
【0066】
実施形態では、第2の重複クリティカルサンプル変換ステージは、ビンの第1のセットの少なくとも2つの部分的に重なり合うセグメント(適切なサブセット)に対して重複クリティカルサンプル変換を実行し、ビンの第2のセットの少なくとも2つの部分的に重なり合うセグメント(適切なサブセット)に対して重複クリティカルサンプル変換を実行するように構成することができ、各セグメントは音声信号のサブバンドに関連付けられており、ビンの第1のセットに対してサブバンドサンプルの少なくとも2つのセットを取得し、ビンの第2のセットに対してサブバンドサンプルの少なくとも2つのセットを取得する。
【0067】
それにより、サブバンドサンプルの第1のセットは、ビンの第1のセットの第1のセグメントに基づいて、第1の重複したクリティカルサンプル変換の結果とすることができ、サブバンドサンプルの第2のセットは、ビンの第1のセットの第2のセグメントに基づいて、第2の重複したクリティカルサンプル変換の結果とすることができ、サブバンドサンプルの第3のセットは、ビンの第2のセットの第1のセグメントに基づいて、第3の重複したクリティカルサンプル変換の結果とすることができ、サブバンドサンプルの第4のセットは、ビンの第2のセットの第2のセグメントに基づいて、第4の重複したクリティカルサンプル変換の結果とすることができる。時間領域エイリアシング低減ステージは、第1のサブバンドサンプルのセットと第3のサブバンドサンプルのセットとの重み付き組み合わせを実行して、音声信号の第1のエイリアシング低減サブバンド表現を取得し、第2のサブバンドサンプルのセットと第4のサブバンドサンプルのセットとの重み付き組み合わせを実行して、音声信号の第2のエイリアシング低減サブバンド表現を取得するように構成することができる。
【0068】
実施形態では、カスケード重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数を使用して第1のサンプルブロックに基づいて取得されたビンのセットをセグメント化し、第1のサンプルブロックに対応するセグメント化されたビンのセットに基づいて少なくとも2つのサブバンドサンプルのセットを取得するように構成することができ、カスケード重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数を使用して第2のサンプルブロックに基づいて取得されたビンのセットをセグメント化し、第2のサンプルブロックに対応するセグメント化されたビンのセットに基づいて少なくとも2つのサブバンドサンプルのセットを取得するように構成することができ、少なくとも2つの窓関数は異なる窓幅を含む。
【0069】
実施形態では、カスケード重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数を使用してサンプルの第1のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第1のブロックに対応するセグメント化されたビンのセットに基づいてサブバンドサンプルの少なくとも2つのセットを取得するように構成することができ、カスケード重複クリティカルサンプル変換ステージは、少なくとも2つの窓関数を使用してサンプルの第2のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第2のブロックに対応するセグメント化されたビンのセットに基づいてサブバンドサンプルの少なくとも2つのセットを取得するように構成することができ、サブバンドサンプルの隣接するセットに対応する窓関数のフィルタ勾配は対称である。
【0070】
実施形態では、カスケード重複クリティカルサンプル変換ステージは、第1の窓関数を使用して音声信号のサンプルを第1のサンプルブロックおよび第2のサンプルブロックにセグメント化するように構成することができ、ラップされたクリティカルサンプル変換ステージは、対応するサブバンドサンプルを取得するために、第2の窓関数を使用して、第1のサンプルブロックに基づいて取得されたビンのセットおよび第2のサンプルブロックに基づいて取得されたビンのセットをセグメント化するように構成することができ、第1の窓関数および第2の窓関数は異なる窓幅を含む。
【0071】
実施形態では、カスケード重複クリティカルサンプル変換ステージは、第1の窓関数を使用して音声信号のサンプルを第1のサンプルブロックおよび第2のサンプルブロックにセグメント化するように構成することができ、ラップされたクリティカルサンプル変換ステージは、対応するサブバンドサンプルを取得するために、第2の窓関数を使用して、第1のサンプルブロックに基づいて取得されたビンのセットおよび第2のサンプルブロックに基づいて取得されたビンのセットをセグメント化するように構成することができ、第1の窓関数の窓幅および第2の窓関数の窓幅は互いに異なり、第1の窓関数の窓幅および第2の窓関数の窓幅は、2の累乗とは異なる係数だけ異なる。
【0072】
続いて、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の有利な実装形態について説明する。
【0073】
実施形態では、逆カスケード重複クリティカルサンプル変換ステージは、逆カスケードMDCT(MDCT=修正離散コサイン変換)、MDST(MDST=修正離散サイン変換)、またはMLT(MLT=変調重複変換)ステージとすることができる。
【0074】
実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号の所与のサブバンドに関連するビンのセットを取得するために、サブバンドサンプルのセットに対して逆重複クリティカルサンプル変換を実行するように構成された第1の逆重複クリティカルサンプル変換ステージを含むことができる。
【0075】
第1の逆重複クリティカルサンプル変換ステージは、第1の逆MDCT、MDST、またはMLTステージとすることができる。
【0076】
実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号のサンプルのブロックに関連付けられたビンのセットを取得するために、音声信号の所与のサブバンドに関連付けられたビンのセットと、音声信号の別のサブバンドに関連付けられたビンのセットとの重み付き組み合わせを含む、音声信号の複数のサブバンドに関連付けられたビンのセットの連結を実行するように構成された第1の重複加算ステージを含むことができる。
【0077】
実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、音声信号のサンプルのブロックに関連付けられたビンのセットに対して逆重複クリティカルサンプル変換を実行するように構成された第2の逆重複クリティカルサンプル変換ステージを含むことができる。
【0078】
第2の逆重複クリティカルサンプル変換ステージは、第2の逆MDCT、MDST、またはMLTステージとすることができる。
【0079】
それにより、第1および第2の逆重複クリティカルサンプル変換ステージは、同じタイプ、すなわち逆MDCT、MDSTまたはMLTステージのうちの1つであり得る。
【0080】
実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号を取得するために、音声信号のサンプルのブロックに関連付けられたサンプルのセットと、音声信号のサンプルの別のブロックに関連付けられたサンプルの別のセットとを重複および加算するように構成された第2の重複および加算ステージを含むことができ、サンプルのブロックおよび音声信号のサンプルの別のブロックは部分的に重なり合う。
【0081】
本発明の実施形態は、添付の図面を参照して本明細書で説明される。
【図面の簡単な説明】
【0082】
図1】一実施形態による、音声信号を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置の概略ブロック図である。
図2】さらなる実施形態による、音声信号を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置の概略ブロック図である。
図3】さらなる実施形態による、音声信号を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置の概略ブロック図である。
図4】一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の概略ブロック図である。
図5】さらなる実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の概略ブロック図である。
図6】さらなる実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の概略ブロック図である。
図7】サブバンドサンプルの一例(上のグラフ)およびそれらのサンプルの時間および周波数に対する広がり(下のグラフ)を図で示す。
図8】いくつかの異なる変換によって得られたスペクトルおよび時間の不確実性を示す図である。
図9】TDAR、単純なMDCTショートブロック、およびHadamard行列サブバンドの併合の有無によるサブバンド併合によって生成された2つの例示的なインパルス応答の比較を図で示す。
図10】一実施形態による、音声信号のサブバンド表現を取得するために音声信号を処理するための方法のフローチャートである。
図11】一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための方法のフローチャートである。
図12】一実施形態による、音声符号化器の概略ブロック図である。
図13】一実施形態による、音声複号器の概略ブロック図である。
図14】一実施形態による、音声分析器の概略ブロック図である。
図15】本発明の一実施形態による、図2および図3に示す音声処理装置の第2のラップされたクリティカルサンプル変換ステージのラップされたクリティカルサンプル変換サブステージの概略ブロック図である。
図16】本発明の一実施形態による、図5および図6に示す音声処理装置の第1の逆重複クリティカルサンプル変換ステージの逆重複クリティカルサンプル変換サブステージの概略ブロック図である。
図17】本発明の一実施形態による、ビンのセットを取得するためにビンのセットをセグメント化するために使用される窓関数を示す図である。
図18】コーダによって行われた併合因子(MF)および時間領域エイリアシング低減(TDAR)の選択の分布を図で示す。
図19】39の試験項目にわたって異なる歪みパラメータqについての2つのシステムの平均ビットレートを図で示す。
図20】テーブル品質設定およびそれらの歪みパラメータqおよび結果として得られる平均ビットレートを示す図である。
図21】異なる試験項目を表に列挙した図である。
図22】わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定での窓切り替えフィルタバンク(WS)とサブバンド併合フィルタバンク(SM)との間の差の対MUSHRAスコアについての正常性についてのシャピロウィルク検定の結果を示す表である。
図23】わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定における窓切り替えフィルタバンク(WS)とサブバンド結合フィルタバンク(SM)との間のMUSHRAスコア差の分布およびカーネル密度推定値を図で示す。
図24】わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定での窓スイッチングフィルタバンク(WS)およびサブバンド併合フィルタバンク(SM)を比較したMUSHRAスコアの平均、標準偏差(SD)、およびウィルコクソンの符号付き順位検定結果を示す表である。
図25】わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定での個々の項目、窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクについてのMUSHRAスコア差の平均および95%信頼区間を図で示す。
図26】一実施形態による、音声信号のサブバンド表現を取得するために音声信号を処理するための方法のフローチャートである。および
図27】一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための方法を示すフローチャートである。
【発明を実施するための形態】
【0083】
同等または同等の要素または同等または同等の機能を有する要素は、以下の説明では同等または同等の参照番号で示される。
【0084】
以下の説明では、本発明の実施形態のより完全な説明を提供するために、複数の詳細が記載される。しかしながら、本発明の実施形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造およびデバイスが詳細ではなくブロック図形式で示されている。さらに、以下に説明する異なる実施形態の特徴は、特に明記しない限り、互いに組み合わせることができる。
【0085】
最初に、セクション1では、2つのMDCTおよび時間領域エイリアシング低減(TDAR)のカスケードに基づく不均一な直交フィルタバンクが説明され、時間および周波数[1]の両方においてコンパクトなインパルス応答を達成することができる。その後、セクション2において、音声コーダのシナリオにおけるそのような不均一なフィルタバンクの知覚品質が評価され、アドバンスト音声符号化(Advanced Audio Coding:AAC)[2]などの現在のコーダで使用されるような窓切り替えを伴う均一なフィルタバンクの性能と比較される。
【0086】
1.2つのMDCTおよび時間領域エイリアシング低減(TDAR)のカスケードに基づく不均一な直交フィルタバンク
【0087】
図1は、一実施形態による、音声信号102を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置100の概略ブロック図を示す。音声処理装置100は、カスケード重複クリティカルサンプル変換(LCST)ステージ104と、時間領域エイリアシング低減(TDAR)ステージ106とを備える。
【0088】
カスケード重複クリティカルサンプル変換ステージ104は、音声信号102のサンプルの少なくとも2つの部分的に重なり合うブロック108_1および108_2に対してカスケード重複クリティカルサンプル変換を実行して、音声信号102の(サンプルの少なくとも2つの重なり合うブロック108_1および108_2の)サンプルの第1のブロック108_1に基づいてサブバンドサンプルのセット110_1,1を取得し、音声信号102の(サンプルの少なくとも2つの重なり合うブロック108_1および108_2の)サンプルの第2のブロック108_2に基づいてサブバンドサンプルの対応するセット110_2,1を取得するように構成される。
【0089】
時間領域エイリアシング低減ステージ104は、2つの対応するサブバンドサンプルのセット110_1,1および110_2,1(すなわち、同じサブバンドに対応するサブバンドサンプル)の重み付き組み合わせを実行し、一方は音声信号102のサンプルの第1のブロック108_1に基づいて取得され、他方は音声信号のサンプルの第2のブロック108_2に基づいて取得され、音声信号102のエイリアシング低減サブバンド表現112_1を取得するように構成される。
【0090】
実施形態では、カスケード接続された重複クリティカルサンプル変換ステージ104は、少なくとも2つのカスケード接続された重複クリティカルサンプル変換ステージ、または言い換えれば、カスケード接続された2つの重複クリティカルサンプル変換ステージを含むことができる。
【0091】
カスケード重複クリティカルサンプル変換ステージは、カスケードMDCT(MDCT=修正離散コサイン変換)ステージとすることができる。カスケードMDCTステージは、少なくとも2つのMDCTステージを含むことができる。
【0092】
当然ながら、カスケード重複クリティカルサンプル変換ステージは、それぞれ少なくとも2つのMDSTまたはMLTステージを含むカスケードMDST(MDST=修正離散サイン変換)またはMLT(MLT=変調ラップ変換)ステージであってもよい。
【0093】
サブバンドサンプル110_1,1および110_2,1の2つの対応するセットは、同じサブバンド(すなわち、周波数帯域)に対応するサブバンドサンプルとすることができる。
【0094】
図2は、さらなる実施形態による、音声信号102を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置100の概略ブロック図を示す。
【0095】
図2に示すように、カスケード重複クリティカルサンプル変換ステージ104は、音声信号102のサンプルの少なくとも2つの部分的に重なり合うブロック108_1および108_2のうちの(2M)のサンプルの第1のブロック108_1(xi-1(n)、0≦n≦2M-1)および(2M)のサンプルの第2のブロック108_2(xi(n)、0≦n≦2M-1)に対して重複されたクリティカルサンプル変換を実行して、サンプルの第1のブロック108_1に対する(M)のビンの第1のセット124_1(LCST係数)(Xi-1(k)、0≦k≦M-1)およびサンプルの第2のブロック108_2に対する(M)のビンの第2のセット124_2(LCST係数)(Xi(k)、0≦k≦M-1)を得るように構成された第1の重複クリティカルサンプル変換ステージ120を備えることができる。
【0096】
カスケード重複クリティカルサンプル変換ステージ104は、ビンの第1のセット124_1のセグメント128_1,1(適切なサブセット)(Xv,i-1(k))に対して重複クリティカルサンプル変換を実行し、ビンの第2のセット124_2のセグメント128_2,1(適切なサブセット)(Xv,i(k))に対して重複クリティカルサンプル変換を実行するように構成された第2の重複クリティカルサンプル変換ステージ126を含むことができ、各セグメントは、ビンの第1のセット124_1に対する


のセット110_1,1と、ビンの第2のセット124_2に対する


のセット110_2,1とを得るために、音声信号102のサブバンドと関連付けられている。
【0097】
図3は、さらなる実施形態による、音声信号102を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置100の概略ブロック図を示す。言い換えれば、図3は、分析フィルタバンクの図を示す。これにより、適切な窓関数が想定される。図3の簡略化のために(のみ)、サブバンドフレーム(y[m]、0<=m<N/2)の前半の処理(すなわち、式(6)の第1の行のみ)が示されていることに留意されたい。
【0098】
図3に示すように、第1の重複クリティカルサンプル変換ステージ120は、(2M)のサンプル(xi-1(n)、0≦n≦2M-1)の第1のブロック108_1に対して第1の重複クリティカルサンプル変換122_1(例えば、MDCT i-1)を実行し、サンプルの第1のブロック108_1に対して(M)のビンの第1のセット124_1(LCST係数)(Xi-1(k)、0≦k≦M-1)を取得し、(2M)のサンプル(xi(n)、0≦n≦2M-1)の第2のブロック108_2に対して第2の重複クリティカルサンプル変換122_2(例えば、MDCT i)を実行し、サンプルの第2のブロック108_2に対して(M)のビンの第2のセット124_2(LCST係数)(Xi(k)、0≦k≦M-1)を取得するように構成することができる。
【0099】
詳細には、第2の重複クリティカルサンプル変換ステージ126は、ビンの第1のセット124_1の少なくとも2つの部分的に重複するセグメント128_1,1および128_1,2(適切なサブセット)(Xv,i-1(k))に対して重複クリティカルサンプル変換を実行し、ビンの第1のセット124_1およびサブバンドサンプル(i-1(m))の少なくとも2つのセット110_1,1および110_1,2を得るために、各セグメントが音声信号のサブバンドに関連付けられている、ビンの第2のセットの少なくとも2つの部分的に重複するセグメント128_2,1および128_2(適切なサブセット)(Xv,i-1(k))に対して重複クリティカルサンプル変換を実行するように構成することができ、i(m))を、ビンの第2のセット128_2について決定する。
【0100】
例えば、サブバンドサンプルの第1のセット110_1,1は、ビンの第1のセット124_1の第1のセグメント132_1,1に基づいて、第1の重複クリティカルサンプル変換132_1,1の結果とすることができ、サブバンドサンプルの第2のセット110_1,2は、ビンの第1のセット124_1の第2のセグメント128_1,2に基づいて、第2の重複クリティカルサンプル変換132_1,2の結果とすることができ、サブバンドサンプルの第3のセット110_2,1は、ビンの第2のセット124_2の第1のセグメント128_2,1に基づいて、第3の重複クリティカルサンプル変換132_2,1の結果とすることができ、サブバンドサンプルの第4のセット110_2,2は、第4の重複クリティカルサンプル変換132_2,2の結果とすることができ、2は、ビンの第2のセット124_2の第2のセグメント128_2,2に基づく。
【0101】
これにより、時間領域エイリアシング低減ステージ106は、音声信号の第1のエイリアシング低減サブバンド表現112_1(y1,i[m1])を取得するために、サブバンドサンプルの第1のセット110_1,1とサブバンドサンプルの第3のセット110_2,1との重み付き組み合わせを実行するように構成されることができ、領域エイリアシング低減ステージ106は、音声信号の第2のエイリアシング低減サブバンド表現112_2(y2,i[m2])を取得するために、サブバンドサンプルの第2のセット110_1,2とサブバンドサンプルの第4のセット110_2,2との重み付き組み合わせを実行するように構成されることができる。
【0102】
図4は、一実施形態による、音声信号102を取得するために音声信号のサブバンド表現を処理するための音声処理装置200の概略ブロック図を示す。音声処理装置200は、逆時間領域エイリアシング低減(TDAR)ステージ202およびカスケード逆重複クリティカルサンプル変換(LCST)ステージ204を備える。
【0103】
逆時間領域エイリアシング低減ステージ202は、エイリアスされたサブバンド表現


を得るために、音声信号102の2つの対応するエイリアシング低減サブバンド表現112_1および112_2(yv,i(m)、yv,i-1(m))の重み付けされた(およびシフトされた)組み合わせを実行するように構成され、エイリアスされたサブバンド表現は、サブバンドサンプルのセット110_1である。
【0104】
カスケード逆重複クリティカルサンプル変換ステージ204は、音声信号102のサンプルのブロック108_1に関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセット110_1に対してカスケード逆重複クリティカルサンプル変換を実行するように構成される。
【0105】
図5は、さらなる実施形態による、音声信号102を取得するために音声信号のサブバンド表現を処理するための音声処理装置200の概略ブロック図を示す。カスケード逆重複クリティカルサンプル変換ステージ204は、第1の逆重複クリティカルサンプル変換(LCST)ステージ208と、第1の重複加算ステージ210とを含むことができる。
【0106】
第1の逆重複クリティカルサンプル変換ステージ208は、


の所与のサブバンドに関連付けられたビンのセット110_1,1を取得するために、サブバンドサンプルのセット128_1,1に対して逆重複クリティカルサンプル変換を実行するように構成されることができる。
【0107】
第1の重複および加算ステージ210は、音声信号102のサンプルのブロック108_1に関連付けられたビンのセット124_1を取得するために、音声信号102の所与のサブバンド(v)に関連付けられた


のセット128_1,1と、音声信号102の別のサブバンド(v-1)に関連付けられた

のセット128_1,2との重み付き組み合わせを含む、音声信号の複数のサブバンドに関連付けられたビンのセットの連結を実行するように構成することができる。
【0108】
図5に示すように、カスケード逆重複クリティカルサンプル変換ステージ204は、音声信号102のサンプルのブロック108_1に関連付けられたサンプルのセット124_1,1を取得するために、音声信号102のサンプルのブロック108_1に関連付けられたビンのセット206_1に対して逆重複クリティカルサンプル変換を実行するように構成された第2の逆重複クリティカルサンプル変換(LCST)ステージ212を含むことができる。
【0109】
さらに、カスケード逆重複クリティカルサンプル変換ステージ204は、音声信号102を取得するために、音声信号102のサンプルのブロック108_1に関連付けられたサンプルのセット206_1,1と、音声信号のサンプルの別のブロック108_2に関連付けられたサンプルの別のセット206_2,1と、部分的に重なり合う音声信号102のサンプルのブロック108_1およびサンプルの別のブロック108_2とを重複して加算するように構成された第2の重複加算ステージ214を含むことができる。
【0110】
図6は、さらなる実施形態による、音声信号102を取得するために音声信号のサブバンド表現を処理するための音声処理装置200の概略ブロック図を示す。言い換えれば、図6は、合成フィルタバンクの図を示す。これにより、適切な窓関数が想定される。図6の簡略化のために(のみ)、サブバンドフレーム(y[m]、0<=m<N/2)の前半の処理(すなわち、式(6)の第1の行のみ)が示されていることに留意されたい。
【0111】
上述したように、音声処理装置200は、逆時間領域エイリアシング低減ステージ202と、第1の逆重複クリティカルサンプリングステージ208および第2の逆重複クリティカルサンプリングステージ212を含む逆カスケード重複クリティカルサンプリングステージ204とを備える。
【0112】
逆時間領域削減ステージ104は、第1および第2のエイリアシング低減サブバンド表現y1,i-1[m1]およびy1,i[m1]の第1の重み付きシフト組み合わせ220_1を実行して、第1のエイリアス化サブバンド表現

を取得し、エイリアス化サブバンド表現がサブバンドサンプルのセットであり、第3および第4のエイリアシング低減サブバンド表現y2,i-1[m1]およびy2,i[m1]の第2の重み付きシフト組み合わせ220_2を実行して、第2のエイリアス化サブバンド表現


を取得し、エイリアス化サブバンド表現がサブバンドサンプルのセットである、ように構成される。
【0113】
第1の逆重複クリティカルサンプル変換ステージ208は、第1のサブバンドサンプルのセット


に対して第1の逆重複クリティカルサンプル変換222_1を実行して、音声信号の所与のサブバンドに関連付けられたビンのセット128_1,1を取得し


第2のサブバンドサンプルのセット


に対して第2の逆重複クリティカルサンプル変換222_2を実行して、音声信号の所与のサブバンドに関連付けられたビンのセット128_2,1を取得する


ように構成される。
【0114】
第2の逆重複クリティカルサンプル変換ステージ212は、サンプルのブロック108_2を取得するために、第1の逆重複クリティカルサンプル変換ステージ208によって提供されるビンのセット128_1、1および128_21を重複して加算することによって取得された重複して加算されたビンのセットに対して逆重複クリティカルサンプル変換を実行するように構成される。
【0115】
続いて、図1から図6に示される音声処理装置の実施形態が説明され、ここでは、カスケード重複クリティカルサンプル変換ステージ104がMDCTステージであり、すなわち、第1および第2の重複クリティカルサンプル変換ステージ120および126がMDCTステージであり、逆カスケード重複クリティカルサンプル変換ステージ204が逆カスケードMDCTステージであり、すなわち、第1および第2の逆重複されたクリティカルサンプル変換ステージ120および126が逆MDCTステージであることが例示的に想定される。当然ながら、以下の説明は、カスケードMDSTもしくはMLTステージまたは逆カスケードMDSTもしくはMLTステージなど、カスケード重複クリティカルサンプル変換ステージ104および逆重複クリティカルサンプル変換ステージ204の他の実施形態にも適用可能である。
【0116】
それにより、記載された実施形態は、限定された長さのMDCTスペクトルのシーケンスに作用し、サブバンド併合動作としてMDCTおよび時間領域エイリアシング低減(TDAR)を使用することができる。結果として得られる不均一なフィルタバンクは、ラップされ、直交し、n∈Nでサブバンド幅k=2nを可能にする。TDARにより、時間的およびスペクトル的によりコンパクトなサブバンドインパルス応答の両方を達成することができる。
【0117】
続いて、フィルタバンクの実施形態について説明する。
【0118】
フィルタバンクの実装は、共通の重複MDCT変換方式に直接基づいており、重複および窓処理を伴う元の変換は変更されないままである。
【0119】
一般性を失うことなく、以下の表記は、直交MDCT変換を想定しており、例えば、分析窓および合成窓は同一である。



ここで、はMDCT変換カーネルおよび適切な解析窓であり、

【0120】
次いで、この変換の出力

は、個々の幅





にセグメント化され、MDCTを使用して再び変換される。これにより、時間方向とスペクトル方向の両方に重複を有するフィルタバンクが得られる。
【0121】
本明細書におけるより簡単な表記のために、すべてのサブバンドに対して1つの共通の
が使用されるが、所望の時間-周波数分解能を実施するために任意の有効なMDCT窓の切り替え/シーケンシングを使用することができる。解像度設計については後述する。



ここで、

は、適切な分析窓であり、一般にサイズが異なり、窓タイプが異なり得る。実施形態は周波数領域に窓を適用するので、窓の時間および周波数選択性が交換されることは注目に値する。
【0122】
適切な境界処理のために、
追加のオフセットを式(4)に導入し、境界における長方形の開始/停止窓半分と組み合わせることができる。ここでも、表記を簡単にするために、このオフセットはここでは考慮されていない。
【0123】

は、対応する

、およびその帯域幅に比例する時間分解能を有する係数の個々の長さのベクトルのリストである。
【0124】
しかしながら、これらのベクトルは、元のMDCT変換からのエイリアシングを含み、その結果、時間的コンパクト性が不十分であることを示す。このエイリアシングを補償するために、TDARを容易にすることができる。
【0125】
TDARに使用されるサンプルは、現在および前の


内の2つの隣接するサブバンドサンプルブロックから取得される。その結果、前のフレームの後半および第2のフレームの前半におけるエイリアシングが低減される。


であり、

【0126】


は、残留エイリアシングを最小限に抑えるように設計することができる。以下、


に基づく簡易な推定方法を紹介する。
【0127】
また、Aが非特異的である場合、演算(6)および(8)は双直交系に対応することに留意されたい。さらに、


である場合、例えば、両方のMDCTが直交し、行列Aが直交する場合、パイプライン全体は直交変換を構成する。
【0128】
逆変換を計算するために、第1の逆TDARが実行され、

【0129】
続いて、式5で生成されたエイリアシングを相殺するために、逆MDCTおよび時間領域エイリアシング相殺(ここでは周波数軸に沿ってエイリアシング除去が行われるが、TDAC)が実行されなければならない。


【0130】
最後に、式2の初期MDCTが反転され、再びTDACが実行される。



【0131】
続いて、時間-周波数分解能の設計上の制限について説明する。任意の所望の時間-周波数分解能が可能であるが、結果として得られる窓関数を設計するためのいくつかの制約は、反転性を保証するために遵守されなければならない。特に、式(6)がPrincen Bradley条件[J.Princen,A.Johnson,and A.Bradley,‘‘Subband/transform coding using filter bank designs based on time domain aliasing cancellation,’’in Acoustics,Speech,and Signal Processing,IEEE International Conference on ICASSP’87.,Apr 1987年、第12巻、2161~2164ページ]を満たすように、2つの隣接するサブバンドの勾配は対称であり得る。プリエコー効果に対抗するために元々設計された、[B.Edler、「Codierung von Audio signalen mituberlappenderTransformation und adaptiven Fensterfunktionen」、Frequenz、第43巻、252~256ページ、1989年9月]で導入されたような窓切り替え方式をここで適用することができる。[Olivier Derrien、Thibaud Necciari、およびPeter Balazs、「音声符号化のための準直交、可逆、および知覚的に関連する時間周波数変換であって、」、EUSIPCO、Nice、フランス、2015年8月。]を参照されたい。
【0132】
第2に、すべての第2のMDCT変換長の合計は、提供されるMDCT係数の全長に加算されなければならない。バンドは、所望の係数においてゼロを有する単位ステップ窓を使用して変換されないように選択されてもよい。隣接する窓の対称性は注意しなければならないが、[B.Edler、「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」、Frequenz、第43巻、252~256ページ、1989年9月。]。結果として得られる変換は、これらの帯域にゼロをもたらすので、元の係数を直接使用することができる。
【0133】
可能な限り、最新の音声コーダのほとんどからの時間周波数分解能スケールファクタバンドを直接使用することができる。
【0134】
続いて、時間領域エイリアシング低減(TDAR)係数計算について説明する。
【0135】
前述の時間分解能に従って、各サブバンドサンプルは、

、または元のサンプルのサイズの


に対応する。
【0136】
さらに、各サブバンドサンプルにおけるエイリアシングの量は、それが表す間隔におけるエイリアシングの量に依存する。エイリアシングは、各サブバンドサンプル間隔における合成窓の近似値を使用して


で重み付けされるので、TDAR係数の良好な第1の推定値であると仮定される。
【0137】
実験は、2つの非常に単純な係数計算スキームが、時間的およびスペクトル的コンパクト性の両方が改善された良好な初期値を可能にすることを示している。両方の方法は、


の仮説的な


に基づいている。
【0138】
1)SineまたはKaiser Bessel Derivedのようなパラメトリック窓の場合、同じタイプの単純で短い窓を定義することができる。
【0139】
2)閉じた表現のないパラメトリック窓および表形式窓の両方について、窓を等しいサイズの


に単に切断することができ、各部分の平均値を使用して係数を得ることができる。

【0140】
MDCT境界条件およびエイリアシングのミラーリングを考慮に入れると、TDAR係数が得られる。

【0141】
または直交変換の場合

【0142】
Aがフィルタバンク全体の非特異的完全再構成である限り、どのような係数近似解が選択されてもよい。そうでなければ準最適な係数選択は、


の残留エイリアシングの量にのみ影響するが、逆フィルタバンクによって合成された

には影響しない。
【0143】
図7は、サブバンドサンプルの一例(上のグラフ)およびそれらのサンプルの時間および周波数に対する広がり(下のグラフ)を図で示す。注釈付きサンプルは、より広い帯域幅を有するが、下部サンプルよりも短い時間拡散を有する。分析窓(下のグラフ)は、元の時間サンプルごとに1つの係数のフル解像度を有する。したがって、TDAR係数は、各サブバンドサンプルの時間領域について近似されなければならない(ドットによって注釈が付けられなければならない)(m=256:::384)。
【0144】
続いて、(シミュレーション)結果について説明する。
【0145】
図8は、[Frederic Bimbot、Ewen Camberlein、およびPierrick Philippeによる、2006年10月のAudio Engineering Society Convention 121の 「Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks」。]に示すように、いくつかの異なる変換によって得られたスペクトルおよび時間の不確実性を示す。
【0146】
Hadamard-matrixベースの変換は、著しく制限された時間-周波数トレードオフ能力を提供することが分かる。併合サイズを増大させるために、追加の時間分解能は、スペクトルの不確実性において不釣り合いに高いコストでもたらされる。
【0147】
言い換えれば、図8は、異なる変換のスペクトルおよび時間エネルギー圧縮の比較を示す。インラインラベルは、MDCTのフレーム長、Heisenberg分割の分割係数、および他のすべての併合係数を示す。
【0148】
しかしながら、TDARを用いたサブバンドの併合は、単純な均一MDCTに平行して、時間的不確実性とスペクトル的不確実性との間の線形トレードオフを有する。2つの積は一定であるが、単純な均一MDCTよりも少し高い。この分析のために、サイン解析窓およびカイザー・ベッセル導出サブバンドの併合窓は、最もコンパクトな結果を示し、このように選択された。
【0149】
しかしながら、併合因子のためにTDARを使用することは、時間的コンパクト性およびスペクトルコンパクト性の両方を減少させるようである。これは、セクションII-Bで導入された係数計算スキームが単純すぎ、急峻な窓関数勾配の値を適切に近似していないためであると考えられる。数値最適化スキームは、フォローアップ出版物に提示される。
【0150】
これらの緻密性値は、重心cogおよび[Athanasios Papoulis、Signal analysis、Electrical and electronic engineeringシリーズ。McGraw-Hill、ニューヨーク、サンフランシスコ、パリ、1977年。]として定義される




を使用して計算した。

【0151】
各個々のフィルタバンクのすべてのインパルス応答の平均値が示されている。
【0152】
図9は、[O.A.NiamutおよびR.Heusdens、「Flexible frequency decomposition for cosine-modulated filter banks」、Acoustics、Speech、およびSignal Processing、2003、処理。(ICASSP’03)。2003 2003年4月のIEEE国際会議、第5巻、pp.V-449-52第5頁。]で提案されているように、TDAR、単純なMDCTショートブロック、およびHadamard行列サブバンド併合を用いた、および用いないサブバンド併合によって生成された2つの例示的なインパルス応答の比較を示す。
【0153】
アダマール行列併合変換の時間的コンパクト性の悪さがはっきりと見える。また、サブバンド内のエイリアシングアーチファクトの大部分がTDARによって著しく低減されることが明らかに分かる。
【0154】
言い換えれば、図9は、TDARを用いずにここで提案された方法、[O.A.NiamutおよびR.Heusdens、「Subband merging in cosine-modulated filter banks」、Signal Processing Letters、IEEE、第10巻、第4号、111~114ページ、2003年4月。]で提案された方法、および256サンプルのより短いMDCTフレーム長を使用して、TDARを用いて1024の元のビンのうちの8つを構成する統合サブバンドフィルタの例示的なインパルス応答を示す。
【0155】
図10は、音声信号のサブバンド表現を取得するために音声信号を処理するための方法300のフローチャートを示す。方法300は、音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得するために、および音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップ302を含む。さらに、方法300は、音声信号のエイリアシング低減サブバンド表現を取得するために、一方が音声信号のサンプルの第1のブロックに基づいて取得され、他方が音声信号のサンプルの第2のブロックに基づいて取得される、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップ304を含む。
【0156】
図11は、音声信号を取得するために音声信号のサブバンド表現を処理するための方法400のフローチャートを示す。方法400は、エイリアスされたサブバンド表現を得るために、音声信号の(部分的に重なり合うサンプルの異なるブロックの)2つの対応するエイリアシング低減サブバンド表現の重み付けされた(シフトされた)組み合わせを実行するステップ402を含み、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、方法400は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップ404を含む。
【0157】
図12は、一実施形態による、音声符号化器150の概略ブロック図を示す。音声符号化器150は、上述したような音声処理装置(100)と、音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、音声信号のエイリアシング低減サブバンド表現を符号化するように構成された符号化器152と、音声信号の符号化されたエイリアシング低減サブバンド表現からビットストリーム156を形成するように構成されたビットストリーム形成器154とを備える。
【0158】
図13は、一実施形態による、音声複号器250の概略ブロック図を示す。音声複号器250は、ビットストリーム154を解析して、符号化されたエイリアシング低減サブバンド表現を取得するように構成されたビットストリームパーサ252と、符号化されたエイリアシング低減サブバンド表現を復号して、音声信号のエイリアシング低減サブバンド表現を取得するように構成された複号器254と、上述したような音声処理装置200とを備える。
【0159】
図14は、一実施形態による、音声分析器180の概略ブロック図を示す。音声分析器180は、上述のような音声処理装置100と、エイリアシング低減サブバンド表現を分析して音声信号を記述する情報を提供するように構成された情報抽出器182とを備える。
【0160】
実施形態は、非一様直交修正離散コサイン変換(MDCT)フィルタバンクのサブバンドにおける時間領域エイリアシング低減(TDAR)を提供する。
【0161】
実施形態は、広く使用されているMDCT変換パイプラインに追加の後処理ステップを追加し、このステップ自体は、周波数軸に沿った別の重複MDCT変換および各サブバンド時間軸に沿った時間領域エイリアシング低減(TDAR)のみを含み、追加の冗長性およびただ1つのMDCTフレーム遅延を導入せずに、インパルス応答の時間的コンパクトさを改善してMDCTスペクトログラムから任意の周波数スケールを抽出することを可能にする。
【0162】
2.サブバンド併合および時間領域エイリアシングを使用した適応不均一時間/周波数傾斜による知覚音声符号化
【0163】
図15は、本発明の一実施形態による、図2および図3に示す音声処理装置100の第2の重複クリティカルサンプル変換ステージ126の重複クリティカルサンプル変換サブステージ132_1、1、132_1、2、132_ 2、1および132_2、2の概略ブロック図を示す。
【0164】
これにより、重複クリティカルサンプル変換サブステージ132_1、1,132_1、2,132_2、1および132_2、2のうちの少なくとも1つは、ビンの対応するセット128_1、1,128_1、2,128_2、1および128_2、2に対して同じフレーム長(例えば、併合因子)を有する重複クリティカルサンプル変換を実行するように構成することができる。
【0165】
実施形態では、第1の重複クリティカル変換サブステージ132_1,1は、サンプルの第1のブロック108_1に対応するビンのセグメント化されたセット128_1に基づいて取得された等しい長さのビンの第1のセット124_1,1のN1,1のサブセットに対してN1,1の重複クリティカルサンプル変換を実行するように構成することができ、N1,1の重複クリティカルサンプル変換は同じフレーム長(例えば、併合因子)を含み、N1,1は2以上の自然数である。
【0166】
例えば、ビンの第1のセット128_1,1が128のビン(または係数)を含むと仮定すると、第1の重複クリティカル変換サブステージ132_1,1は、例えば、各々が64のビンのN1,1=2のサブセット(すなわち、N1,1で除算された128のビン)に対してN1,1=2の重複クリティカルサンプル変換を実行するように構成することができ、N1,1=2の重複クリティカルサンプル変換は、例えば64の同じフレーム長(例えば、併合因子)を含む。当然ながら、第1の重複クリティカル変換サブステージ132_1,1はまた、例えば、各々が32(または16)ビンのN1,1=4(または8)サブセットに対してN1,1=4(または8)重複クリティカルサンプル変換を実行するように構成することもでき(すなわち、N1,1で除算された128のビン)、N1,1=4(または8)重複クリティカルサンプル変換は、例えば32(または16)の同じフレーム長(例えば、併合因子)を含む。
【0167】
実施形態では、第2の重複クリティカル変換サブステージ132_1,2は、サンプルの第1のブロック108_1に対応するビンのセグメント化されたセット128_1に基づいて取得された等しい長さのビンの第2のセット124_1,2のN1,2のサブセットに対してN1,2の重複クリティカルサンプル変換を実行するように構成することができ、N1,2の重複クリティカルサンプル変換は同じフレーム長(例えば、併合因子)を含み、N1,2は2以上の自然数である。
【0168】
例えば、ビンの第2のセット128_1,2が128のビン(または係数)を含むと仮定すると、第2の重複クリティカル変換サブステージ132_1,2は、例えば、各々が64のビンのN1,2=2のサブセットに対してN1,2=2の重複クリティカルサンプル変換を実行するように構成することができ(すなわち、N1,1で除算された128のビン)、N1,2=2の重複クリティカルサンプル変換は、例えば64の同じフレーム長(例えば、併合因子)を含む。当然ながら、第2の重複クリティカル変換サブステージ132_1,2はまた、例えば、各々が32(または16)ビンのN1,2=4(または8)サブセットに対してN1,2=4(または8)重複クリティカルサンプル変換を実行するように構成することもでき(すなわち、N1,2で除算された128のビン)、N1,2=4(または8)重複クリティカルサンプル変換は、例えば32(または16)の同じフレーム長(例えば、併合因子)を含む。
【0169】
実施形態では、第3の重複クリティカル変換サブステージ132_2,1は、サンプルの第2のブロック108_2に対応するビンのセグメント化されたセット128_2に基づいて取得されたビンの第3のセット124_2,1の等しい長さのN2,1のサブセットに対してN2,1の重複クリティカルサンプル変換を実行するように構成することができ、N2,1の重複クリティカルサンプル変換は同じフレーム長(例えば、併合因子)を含み、N2,1は2以上の自然数である。
【0170】
例えば、ビンの第3のセット128_2,1が128のビン(または係数)を含むと仮定すると、第3の重複クリティカル変換サブステージ132_2,1は、例えば、N2,1=2の重複クリティカルサンプル変換をN2上で実行するように構成することができ、各々が64のビンの1=2のサブセット(すなわち、N1,1で除算された128のビン)であり、N1,1=2の重複クリティカルサンプル変換は、例えば64の同じフレーム長(例えば、併合因子)を含む。当然ながら、第3の重複クリティカル変換サブステージ132_2,1はまた、例えば、N2,1=4(または8)の重複クリティカルサンプル変換を、それぞれ32(または16)ビンのN2,1=4(または8)サブセットに対して実行するように構成することができ(すなわち、N1,1で除算された128のビン)、N2,1=4(または8)の重複クリティカルサンプル変換は、例えば32(または16)の同じフレーム長(例えば、併合因子)を含む。
【0171】
実施形態では、第4の重複クリティカル変換サブステージ132_2,2は、ビンの第2のブロック108_2に対応するビンのセグメント化されたセット124_2に基づいて得られた等しい長さのビンの第4のセット128_2,2のN2,2のサブセットに対してN2,2の重複クリティカルサンプル変換を実行するように構成することができ、N2,2の重複クリティカルサンプル変換は同じフレーム長(例えば、併合因子)を含み、N2,2は2以上の自然数である。
【0172】
例えば、サブバンドビンの第4のセット128_2,2が128のビン(または係数)を含むと仮定すると、第4の重複クリティカル変換サブステージ132_2,2は、例えば、N2,2=2の重複クリティカルサンプル変換をN2上で実行するように構成することができ、各々が64のビンの2=2のサブセット(すなわち、N2,2によって分割された128のビン)であり、N2,2=2の重複クリティカルサンプル変換は、例えば64の同じフレーム長(例えば、併合因子)を含む。当然ながら、第4の重複クリティカル変換サブステージ132_2,2はまた、例えば、各々が32(または16)ビンのN2,2=4(または8)サブセットに対してN2,2=4(または8)重複クリティカルサンプル変換を実行するように構成することもでき(すなわち、N2,2によって分割された128のビン)、N2,2=4(または8)重複クリティカルサンプル変換は、例えば32(または16)の同じフレーム長(例えば、併合因子)を含む。
【0173】
実施形態では、ビンの第1のセット128_1,1およびビンの第2のセット128_1,2は、同じまたは異なる長さ(すなわち、ビンの数)を含むことができる。
【0174】
実施形態では、N1、1およびN1、2は、同じまたは異なる自然数であり得る。
【0175】
実施形態では、ビンの第3のセット128_2,1およびビンの第4のセット128_2,2は、同じまたは異なる長さ(すなわち、ビンの数)を含むことができる。
【0176】
実施形態では、N2,1およびN2,2は、同じまたは異なる自然数であり得る。
【0177】
実施形態では、TDARが使用可能である場合、ビンの第1のセット128_1,1およびビンの第3のセット128_2,1は、同じ長さ(すなわち、同じ数のビン)を含むことができる。また、N1,1とN2,1は、同一の自然数とすることができる。同様に、ビンの第2のセット128_1,2およびビンの第4のセット128_2,2も同じ長さ(すなわち、同じ数のビン)を含むことができる。また、N2,1とN2,2は、同じ自然数とすることができる。
【0178】
実施形態では、TDARが無効にされている場合、ビンの第1のセット128_1,1およびビンの第3のセット128_2,1はまた、異なる長さ(すなわち、異なる数のビン)を含むことができ、N1,1およびN2,1は異なる自然数であり得る。同様に、ビンの第2のセット128_1,2およびビンの第4のセット128_2,2も異なる長さ(すなわち、異なる数のビン)を含むことができ、N2,1およびN2,2も異なる自然数とすることができる。
【0179】
図16は、本発明の一実施形態による、図5および図6に示す音声処理装置200の第1の逆重複クリティカルサンプル変換ステージ222の逆重複クリティカルサンプル変換サブステージ222_1および208_2の概略ブロック図を示す。
【0180】
これにより、逆重複クリティカルサンプル変換サブステージ222_1および222_2のうちの少なくとも1つは、対応するサブバンドサンプルのセット110_1,1および110_1,2に対して同じフレーム長(例えば、併合因子)を有する逆重複クリティカルサンプル変換を実行して、ビンの対応するセット128_1,1および128_1,2を取得するように構成され得る。
【0181】
実施形態では、第1の逆重複クリティカル変換サブステージ222_1は、サブバンドサンプルの第1のセット110_1の等しい長さのN1,1のサブセットに対してN1,1の逆重複クリティカルサンプル変換を実行するように構成することができ、N1,1の重複クリティカルサンプル変換は同じフレーム長(例えば、併合因子)を含み、N1,1は2以上の自然数である。
【0182】
実施形態では、第2の逆重複クリティカル変換サブステージ222_2は、サブバンドサンプルの第2のセット110_1の等しい長さのN1,2のサブセットに対してN1,2の逆重複クリティカルサンプル変換を実行するように構成することができ、N1,2の重複クリティカルサンプル変換は同じフレーム長(例えば、併合因子)を含み、N1,2は2以上の自然数である。
【0183】
続いて、不均一フィルタバンクの詳細な実施形態について説明する。さらに、音声コーダのシナリオにおけるそのような不均一なフィルタバンクの知覚品質が評価され、アドバンスト音声符号化(AAC)[2]などの現在のコーダで使用されるような窓切り替えを伴う均一なフィルタバンクの性能と比較される。
【0184】
2.1 符号化システム
【0185】
評価システムは、分析フィルタバンク、心理音響モデル[4]、量子化器、知覚エントロピー推定[5]、および合成フィルタバンクを用いて、単純な知覚コーダをモデル化する。2つの競合するシステムでは、フィルタバンクは、窓切り替え[6]を有する均一なMDCT(WS)、またはサブバンド併合およびTDAR[1]を有する不均一なMDCT(SM)のいずれかであった。
【0186】
関連するフィルタバンクパラメータ(均一MDCTの窓切り替え境界、または不均一MDCTの併合因子およびTDAR境界)は、全体的な残りのエントロピーを最小化するように適応的かつ最適に選択された。
【0187】
追加の後処理工程または符号化ツールを使用しなくてもよい。
【0188】
2.1.1 フィルタバンクパラメータ
【0189】
窓切り替えフィルタバンクは、通常のAACフレーム長:1024サンプルの長いフレームまたは128サンプルの8つの短いフレームおよびそれらの間の適切な遷移窓を有するMDCTを使用することができる。コサイン窓を用いることができる。サブバンド併合フィルタバンク120は、フレーム長の初期MDCT、例えば1024を使用し、次いで、スペクトルをそれぞれ128の係数の8つの併合因子帯域(例えば、128_1、1,128_1、2などである。)に分割することができる。次いで、各併合係数帯域は、併合係数と呼ばれるフレーム長のMDCTと併合され得る。


システムの設計によれば、分析中、併合因子の最適な選択はまだ知られておらず、各併合因子帯域は、その近傍のいずれの併合因子も知らない。したがって、併合因子帯域端部の窓は、常に非対称であり、最も急な可能性のある隣接併合因子を収容するのに十分急であるように選択することができる(図17を参照)。
【0190】
詳細には、図17は、ビンのセット(またはセグメント)(128_1,1,128_1,2)を取得するために、ビンのセット(124_1)をセグメント化するために使用される窓関数を図で示す。言い換えれば、図16は、4つの併合因子帯域における例示的な窓選択を示す。急勾配の併合因子帯域のエッジ窓は、黒色で強調表示されている。
【0191】
この設計上の選択は、フィルタバンクの全体的な柔軟性を制限し、これらの非対称窓[1]に対して理想的ではない時間リップルを導入するが、各併合因子帯域に対して併合因子を効率的かつ独立して最適化する方法を提供する。
【0192】
コサイン窓を変換窓として使用することができ、任意に選択された


カイザー-ベッセル導出窓を併合窓として選択することができる。
【0193】
最後に、量子化ステップサイズは、知覚モデルから推定マスキング閾値を一定係数qだけ乗算的に低下または上昇させる実値歪みパラメータqを使用して制御することができる。量子化の後、知覚エントロピー推定器は、当然qに依存する理論ビットレートrを計算する。q=1.0の場合、心理音響モデルは、可聴アーチファクトのない透明符号化を予測し、より大きい値q>1.0の場合、量子化ステップサイズが増加し、ビットレートrが低下し、プロセスの知覚品質が低下すると予想される。
【0194】
2.1.2 パラメータの最適化
【0195】
最適なパラメータ調整を実行するために、すべての可能なパラメータの組み合わせを使用して各信号を変換および量子化し、各パラメータに対する各フレームの知覚エントロピーを推定した。全ての出力係数のうち、過知覚エントロピーを最小化するパラメータの最適な組み合わせを算出し、これらのパラメータを用いて出力信号を合成した。
【0196】
最適なフィルタバンクパラメータを見つけるために、各フレームの各併合係数帯域(128の係数の併合タイル)を量子化し、そのエントロピーを計算した。次いで、1つの併合因子帯域におけるすべての併合タイルのすべてのパラメータのグラフはトレリスを形成し、各遷移確率の重みは、後続の併合タイルのエントロピーに等しく設定される[7]。
【0197】
前述したように、すべてのパラメータの組み合わせおよび遷移が合成中に完全な再構成を可能にするわけではなく、例えば長いフレームから短いフレームに切り替える場合、その間に非対称開始窓を使用しなければならない。非均一フィルタバンク[1]におけるTDARの使用にも同様の規則が適用される。これらの不正なパラメータ遷移を防止するために、トレリス内の遷移確率は、すべての合法および不正な遷移を符号化したマスク、すなわち、合法の場合は1、不正な遷移の場合は1で乗算された。
【0198】
その後、動的プログラミングを使用してトレリスを通る最小重み経路が計算され、完全な再構成も保証する個々の併合因子帯域ごとに過剰な最適パラメータ経路が得られた。
【0199】
この手法は、複数の符号化パス、非常に大きな先読みを必要とし、したがって実際のオンラインコーダには適していないが、両方の方法が常に最大可能な効率で実行されることを保証する。オンライン符号化の場合、レイテンシ制約の下でそのようなトレリス図を復号するための方法が存在する[8]。
【0200】
両方のシステムは、必要なサイド情報の単純かつ非圧縮の送信を想定していた:窓切り替えでは、ロングブロックおよびショートブロックをシグナリングするために各フレームに1ビットが使用された。


Subband Mergingの場合、mergefactorおよびTDARフラグ(それぞれ6つのmergefactorおよび2つのTDAR値を有する8つのmergefactorバンド)をシグナリングするために、フレームごとに29ビットが使用された。


スケールファクタまたはマスキング閾値は、複号器側で知られていた。
【0201】
2.2 一般的な観察
【0202】
符号化/復号プロセスを実行するだけで、以下の特性を観察することができる。
【0203】
15kHz~24kHzの範囲の最高の2~3つの併合因子帯域では、コーダはほぼ常に併合因子1を選択し、併合を無効にした。中央セクション、併合因子帯域2~5、または3kHz~15kHzの周波数範囲では、コーダは主に併合因子1または32のいずれかを選択した。0kHz~3kHzの範囲のより低い併合因子帯域では、符号器は主に併合係数1および2を選択した。併合因子4、8および16はほとんど選択されなかった。図18を参照されたい。
【0204】
詳細には、図18は、コーダによって行われた併合因子(MF)および時間領域エイリアシング低減(TDAR)の選択の分布を図で示す。
【0205】
この観察結果は、聴覚系に関する基本的な想定と一致している。すなわち、高い周波数は静かに非常に高い閾値を有するため、事実上ほとんどすべてが0に量子化され、併合因子の選択は無関係になる。中域周波数では、聴覚系は高い時間分解能を有するが、低域周波数では、人間の耳はより高い周波数分解能を有する。
【0206】
第2に、任意の選択された歪みパラメータqについて、サブバンド併合フィルタバンクの対応するビットレートが窓切り替えフィルタバンクのビットレートを下回ることに留意されたい。平均して、不均一システムは、信号を符号化するためにサンプル当たり5~13%少ないビットを必要とした(図19を参照)。
【0207】
詳細には、図19は、39の試験項目にわたる異なる歪みパラメータqについての2つのシステムの平均ビットレートを図で示す。
【0208】
2.3 聴取試験設定
【0209】
異なる量子化器ステップサイズ係数、したがって平均ビットレートにおける3つの異なる品質設定を考慮した:透明(HQ)、わずかに損なわれた(MQ)、および中程度に損なわれた(LQ)。図20の表1を参照されたい。
【0210】
詳細には、図20の表1は、品質設定およびそれらの歪みパラメータqならびに結果として得られる平均ビットレートを列挙している。
【0211】
知覚モデルの設計によれば、HQの場合、可聴アーチファクトは予想されなかった[4]。実際、小規模なABC/HR(ITU-R BS.1116-3)[9]聴取試験の間、専門家の聴取者はいずれかの方法と基準信号との間の有意差を識別することができなかった。このような聴取試験を実施しても意味のある結果が明らかになる可能性は低いので、2つの残りの品質設定MQおよびLQのためにスキップした。
【0212】
MQおよびLQの場合、窓スイッチングフィルタバンクシステムの歪みパラメータqは、その出力ビットレートがサブバンド合流フィルタバンクのビットレートと一致するように選択され、これは、サブバンド合流フィルタバンクの歪みパラメータqが窓スイッチングフィルタバンクの歪みパラメータqよりも低いことを意味する。したがって、不均一なフィルタバンクでは、窓切り替えフィルタバンクと同じビットレートを可能にしながら、より高い知覚品質を達成することができる。これを検証するため、hidden reference and anchor法による多刺激試験(MUSHRA,ITU-R BS.1534-3)を用いた聴取試験を行った[10]。
【0213】
2.4 テスト信号コーパス
【0214】
この評価のためのテスト信号は、音声コーダの開発およびチューニングに一般的に使用されるテストセットから取得された。これには、男性および女性のスピーチ、ならびにハーモニック音および打楽器音の両方を含むいくつかの音楽録音が含まれていた。すべての条件は、ITU-R BS.1770-4を使用して音量を正規化した[11]。図21の表2を参照されたい。詳細には、図21の表2は、異なる試験項目を列挙している。
【0215】
2.5 聴取試験結果
【0216】
合計N=16名の専門聴取者が試験に参加した。
【0217】
最初に、シャピロ-ウィルク検定を使用して、正常性について2つの方法間のMUSHRAスコアの対差を試験した。LQおよびMQについては、差は有意に非正常であった(図22の表3および図23図4を参照のこと)。
【0218】
詳細には、図22の表3は、わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定での窓切り替えフィルタバンク(WS)とサブバンド併合フィルタバンク(SM)との間の差のペアワイズMUSHRAスコアについての正常性のシャピロウィルク検定の結果を列挙している。WはW統計量を示し、pはp値を示す。
【0219】
したがって、すべての条件についてパラメトリック対t検定の代わりにオンパラメトリックウィルコクソンの符号順位検定を使用した。すべての試験の概要を図24の表4に示す。
【0220】
詳細には、図24の表4は、わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定での窓切り替えフィルタバンク(WS)およびサブバンド併合フィルタバンク(SM)を比較したMUSHRAスコアについての平均、標準偏差(SD)、およびウィルコクソンの符号付き順位検定結果を列挙している。WはsW統計量を示し、pはp値を示す。
【0221】
MQでの2つのシステムの知覚品質を比較するために、ウィルコクソンの符号順位検定を行った。窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクのMUSHRAスコアには有意差があった、p=。000。
【0222】
第2に、ウィルコクソンの符号順位検定を行って、品質設定LQにおける2つのシステムの知覚品質を比較した。窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクのMUSHRAスコアには有意差があった、p=。000。
【0223】
図25は、わずかに損なわれた(MQ)および中程度に損なわれた(LQ)品質設定での個々の項目、窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクについてのMUSHRAスコア差の平均および95%信頼区間を図で示す。正の値は、窓の切り替えよりもサブバンドの併合に有利である。
【0224】
2.6 さらなる実施形態
【0225】
実施形態は、単純な音声コーダにおいてMDCT分析/合成およびTDARに基づく不均一直交フィルタバンクを使用する方法を提供する。上記では、その符号化効率を均一窓切り替えMDCTフィルタバンクと比較した。平均して、不均一は、テスト信号を符号化するためにサンプルあたり5から13%少ないビットしか必要としなかった。この追加の符号化効率は、同じ出力ビットレートで符号器の知覚品質を改善するために使用することができる。
【0226】
上記の試験では、MUSHRA聴取試験およびその後の統計分析を使用して、6~7MUSHRA点の改善された知覚品質を確認した。知覚品質の差は統計的に有意であることが分かった。
【0227】
図26は、本発明の一実施形態による、音声信号のサブバンド表現を取得するために音声信号を処理するための方法500のフローチャートを示す。方法500は、音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得するために、および音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップ502を含む。方法500は、音声信号のエイリアシング低減サブバンド表現を取得するために、一方が音声信号のサンプルの第1のブロックに基づいて取得され、他方が音声信号のサンプルの第2のブロックに基づいて取得される、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップ504をさらに含む。カスケード重複クリティカルサンプル変換を実行するステップは、少なくとも2つの窓関数を使用して、サンプルの第1のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第1のブロックに対応するビンのセグメント化されたセットに基づいて、ビンの少なくとも2つのセグメント化されたセットを取得するステップを含む。カスケード重複クリティカルサンプル変換を実行することは、前記少なくとも2つの窓関数を使用して前記サンプルの第2のブロックに基づいて取得されたビンのセットをセグメント化し、前記サンプルの第2のブロックに対応する前記セグメント化されたビンのセットに基づいて少なくとも2つのビンのセットを取得することを含む。前記ビンのセットは、前記カスケード重複クリティカルサンプル変換の第2の重複クリティカルサンプル変換を使用して処理し、第2の重複クリティカルサンプル変換は、少なくとも1つのビンのセットについて同じフレーム長を有する重複クリティカルサンプル変換を実行する。
【0228】
図27は、本発明の一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための方法600のフローチャートを示す。方法600は、エイリアスされたサブバンド表現を得るために、音声信号の2つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するステップ602を含み、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、方法600は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップ604を含み、カスケード逆重複クリティカルサンプル変換を実行することは、音声信号の所与のサブバンドに関連付けられたビンのセットを取得するために、サブバンドサンプルのセットに対して第1の逆重複クリティカルサンプル変換を実行することを含み、第1の逆重複クリティカルサンプル変換を実行することは、サブバンドサンプルのセットに対して同じフレーム長を有する逆重複クリティカルサンプル変換を実行することを含む。
【0229】
続いて、さらなる実施形態について説明する。これにより、以下の実施形態を上記実施形態と組み合わせることができる。
【0230】
実施形態1:音声信号(102)を処理して、前記音声信号(102)のサブバンド表現を取得するための音声処理装置(100)であって、前記音声処理装置(100)は、音声信号(102)のサンプルの少なくとも2つの部分的に重なり合うブロック(108_1;108_2)に対してカスケード重複クリティカルサンプル変換を実行するように構成されたカスケード重複クリティカルサンプル変換ステージ(104)を備えて、音声信号(102)のサンプルの第11のブロック(108_1)に基づいてサブバンドサンプルのセット(110_1,1)を取得し、音声信号(102)のサンプルの第2のブロック(108_2)に基づいてサブバンドサンプルの対応するセット(110_2,1)を取得するために、1つは前記音声信号(102)のサンプルの前記第1のブロック(108_1)に基づいて取得されたものであり、もう1つは前記音声信号のサンプルの前記第2のブロック(108_2)に基づいて取得されたものである、2つの対応するサブバンドサンプルのセット(110_1,1;110_1,2)の重み付け組み合わせを実行するように構成された時間領域エイリアシング低減ステージ(106)と、を含む。
【0231】
実施形態2:前記カスケード重複クリティカルサンプル変換ステージ(104)は、サンプルの第1のブロック(108_1)および前記少なくとも2つの部分的に重なり合うブロック(108_1;108;108_2)のサンプルの第2のブロック(108_2)に対して重複クリティカルサンプル変換を実行するように構成された第1の重複クリティカルサンプル変換ステージ(120)を備える、実施形態1に記載の音声処理装置(100)。サンプルの第1のブロック(108_1)のためのビンの第1のセット(124_1)およびサンプルの第2のブロック(108_2)のためのビンの第2のセット(124_2)を取得する。
【0232】
実施形態3:カスケード重複クリティカルサンプル変換ステージ(104)は、ビンの第1のセット(124_1)のセグメント(128_1,1)に対して重複クリティカルサンプル変換を実行し、ビンの第2のセット(124_2)のセグメント(128_2,1)に対して重複クリティカルサンプル変換を実行するように構成された第2の重複クリティカルサンプル変換ステージ(126)をさらに備え、各セグメントは、ビンの第1のセットのサブバンドサンプルのセット(110_1,1)と、ビンの第2のセットのサブバンドサンプルのセット(110_2,1)とを取得するために、音声信号(102)のサブバンドに関連付けられている、実施形態2に記載の音声処理装置(100)。
【0233】
実施形態4:サブバンドサンプルの第1のセット(110_1,1)が、ビンの第1のセット(124_1)の第1のセグメント(128_1,1)に基づく第1の重複クリティカルサンプル変換(132_1,1)の結果であり、サブバンドサンプルの第2のセット(110_1,2)が、ビンの第1のセット(124_1)の第2のセグメント(128_1,2)に基づく第2の重複クリティカルサンプル変換(132_1,2)の結果であり、サブバンドサンプルの第3のセット(110_2,1)が、ビンの第2のセット(128_2,1)の第1のセグメント(128_2,1)に基づく第3の重複クリティカルサンプル変換(132_2,1)の結果であり、サブバンドサンプルの第4のセット(110_2,2)が、ビンの第2のセット(128_2,1)の第2のセグメント(128_2,2)に基づく第4の重複クリティカルサンプル変換(132_2,2)の結果である、実施形態3に記載の音声処理装置(100)。前記時間領域エイリアシング低減ステージ(106)は、音声信号の第1のエイリアシング低減サブバンド表現(112_1)を取得するためにサブバンドサンプルの第1のセット(110_1,1)とサブバンドサンプルの第3のセット(110_2,1)との重み付き組み合わせを実行するよう構成される。前記時間領域エイリアシング低減ステージ(106)は、音声信号の第2のエイリアシング低減サブバンド表現(112_2)を取得するためにサブバンドサンプルの第2のセット(110_1,2)とサブバンドサンプルの第4のセット(110_2,2)との重み付き組み合わせを実行するよう構成される。
【0234】
実施形態5:前記カスケード重複クリティカルサンプル変換ステージ(104)は、少なくとも2つの窓関数を使用して、サンプルの前記第1のブロック(108_1)に基づいて取得されたビンのセット(124_1)をセグメント化し、サンプルの前記第1のブロック(108_1)に対応する前記セグメント化されたビンのセットに基づいて、サブバンドサンプルの少なくとも2つのセグメント化されたセット(128_1,1;128_1,2)を取得するように構成される、実施形態1から4のいずれか1つに記載の音声処理装置(100)。前記カスケード重複クリティカルサンプル変換ステージ(104)は、前記少なくとも2つの窓関数を使用して、サンプルの前記第2のブロック(108_2)に基づいて取得されたビンのセット(124_2)をセグメント化し、サンプルの前記第2のブロック(108_2)に対応するビンの前記セグメント化されたセットに基づいて、サブバンドサンプルの少なくとも2つのセグメント化されたセット(128_2,1;128_2,2)を取得するように構成される;前記少なくとも2つの窓関数は異なる窓幅を含む、請求項1に記載の装置。
【0235】
実施形態6:前記カスケード重複クリティカルサンプル変換ステージ(104)は、少なくとも2つの窓関数を使用して、サンプルの前記第1のブロック(108_1)に基づいて取得されたビンのセット(124_1)をセグメント化し、サンプルの前記第1のブロック(108_1)に対応する前記セグメント化されたビンのセットに基づいて、サブバンドサンプルの少なくとも2つのセグメント化されたセット(128_1,1;128_1,2)を取得するように構成される、実施形態1から5のいずれか1つに記載の音声処理装置(100)。前記カスケード重複クリティカルサンプル変換ステージ(104)は、前記少なくとも2つの窓関数を使用して、サンプルの前記第2のブロック(108_2)に基づいて取得されたビンのセット(124_2)をセグメント化し、サンプルの前記第2のブロック(108_2)に対応する前記セグメント化されたビンのセットに基づいて、サブバンドサンプルの少なくとも2つのセット(128_2,1;128_2,2)を取得するように構成される;隣接するサブバンドサンプルのセットに対応する前記窓関数のフィルタ勾配は対称である。
【0236】
前記重複クリティカルサンプル変換ステージ(104)は、対応するサブバンドサンプルを得るために、サンプルの前記第1のブロック(108_1)に基づいて得られるビンのセット(124_1)と、サンプルの前記第2のブロック(108_2)に基づいて得られるビンのセット(124_2)とを、第2の窓関数を用いてセグメント化するように構成され、前記第1の窓関数および前記第2の窓関数は異なる窓幅を含む、請求項1に記載の装置。
【0237】
実施形態8:カスケード重複クリティカルサンプル変換ステージ(104)が、第1の窓関数を使用して音声信号のサンプルをサンプルの第1のブロック(108_1)およびサンプルの第2のブロック(108_2)にセグメント化するように構成される、実施形態1から6のいずれか1つに記載の音声処理装置(100)。前記カスケード重複クリティカルサンプル変換ステージ(104)は、対応するサブバンドサンプルを得るために、第2の窓関数を使用して、サンプルの前記第1のブロック(108_1)に基づいて得られたビンのセット(124_1)と、サンプルの前記第2のブロック(108_2)に基づいて得られたビンのセット(124_2)とをセグメント化するように構成され、前記第1の窓関数の窓幅と前記第2の窓関数の窓幅とは互いに異なり、前記第1の窓関数の窓幅と前記第2の窓関数の窓幅とは2のべき乗とは異なる係数だけ互いに異なる、請求項1に記載の方法。
【0238】
実施形態9:時間領域エイリアシング低減ステージ(106)は、以下の式に従って2つの対応するサブバンドサンプルのセットの重み付けされた組み合わせを実行するように構成される、実施形態1から8のいずれか1つに記載の音声処理装置(100)。



であり、

【0239】
前記音声信号の前記エイリアシング低減サブバンド表現を取得し、yv,i(m)は、前記音声信号の第1のエイリアシング低減サブバンド表現であり、yv,i-1(N-1-m)は、前記音声信号の第2のエイリアシング低減サブバンド表現であり、


は、前記音声信号の前記第2のサンプルブロックに基づくサブバンドサンプルのセットであり、


は、前記音声信号の前記第1のサンプルブロックに基づくサブバンドサンプルのセットであり、a(m)は...であり、b(m)は...であり、c(m)は...であり、d(m)は....である。
【0240】
実施形態10:音声信号(102)を取得するために前記音声信号のサブバンド表現を処理するための音声処理装置(200)であって、前記音声処理装置(200)は、エイリアスされたサブバンド表現を取得するために、前記音声信号(102)の2つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するように構成された逆時間領域エイリアシング低減ステージ(202)を備え、前記エイリアスされたサブバンド表現は、サブバンドサンプルのセット(110_1,1)である、音声処理装置()。前記音声信号(102)のサンプルのブロックに関連付けられたサンプルのセット(110_1,1)を取得するために、前記サブバンドサンプルのセット(206_1,1)に対してカスケード逆重複クリティカルサンプル変換を実行するように構成されたカスケード逆重複クリティカルサンプル変換ステージ(204)と、を含む。
【0241】
実施形態11:前記カスケード逆重複クリティカルサンプル変換ステージ(204)は、前記音声信号の所与のサブバンドに関連付けられたビンのセット(128_1,1)を取得するために、前記サブバンドサンプルのセット(110_1,1)に対して逆重複クリティカルサンプル変換を実行するように構成された第1の逆重複クリティカルサンプル変換ステージ(208)を含む、実施形態10に記載の音声処理装置(200)。前記音声信号(102)のサンプルのブロックに関連付けられたビンのセット(124_1)を取得するために、前記音声信号(102)の前記所与のサブバンドに関連付けられたビンのセット(128_1,1)と、前記音声信号(102)の別のサブバンドに関連付けられたビンのセット(128_1,2)との重み付き組み合わせを含む、前記音声信号の複数のサブバンドに関連付けられたビンのセットの連結を実行するように構成された第1の重複および加算ステージ(210)とを含む。
【0242】
実施形態12:カスケード逆重複クリティカルサンプル変換ステージ(204)は、音声信号(102)のサンプルのブロックに関連付けられたサンプルのセットを取得するために、音声信号(102)のサンプルのブロックに関連付けられたビンのセット(124_1)に対して逆重複クリティカルサンプル変換を実行するように構成された第2の逆重複クリティカルサンプル変換ステージ(212)を含む、実施形態11に記載の音声処理装置(200)。
【0243】
実施形態13:カスケード逆重複クリティカルサンプル変換ステージ(204)は、音声信号(102)を取得するために、音声信号(102)のサンプルのブロックに関連付けられたサンプルのセット(206_1,1)と、音声信号(102)のサンプルの別のブロックに関連付けられたサンプルの別のセット(206_2,1)とを重複して加算するように構成された第2の重複加算ステージ(214)を備え、サンプルのブロックおよび音声信号(102)のサンプルの別のブロックは部分的に重複している、実施形態12に記載の音声処理装置(200)。
【0244】
実施形態14:逆時間領域エイリアシング低減ステージ(202)は、以下の式に基づいて、音声信号(102)の2つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するように構成される、実施形態10から13のいずれかに記載の音声処理装置(200)。




であり、

【0245】
エイリアスされたサブバンド表現を取得するために、yv,i(m)は、音声信号の第1のエイリアシング低減サブバンド表現であり、yv,i-1(N-1-m)は、音声信号の第2のエイリアシング低減サブバンド表現であり、

は、信号の第2のサンプルブロックに基づくサブバンドサンプルのセットであり、


は、音声信号の第1のサンプルブロックに基づくサブバンドサンプルのセットであり、a(m)は...であり、b(m)は...であり、c(m)は...であり、d(m)は....である。
【0246】
実施形態15:実施形態1から9のいずれか1つに記載の音声処理装置(100)であって、前記音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、前記音声信号の前記エイリアシング低減サブバンド表現を符号化するように構成された符号化器と、前記音声信号の前記符号化されたエイリアシング低減サブバンド表現からビットストリームを形成するように構成されたビットストリーム形成器とを備えている。
【0247】
実施形態16:符号化されたエイリアシング低減サブバンド表現を得るために、ビットストリームを解析するように構成されたビットストリームパーサを備える、音声複号器。前記符号化されたエイリアシング低減サブバンド表現を復号して、前記音声信号の前記エイリアシング低減サブバンド表現を取得するように構成された復号器と、および実施形態10から14のいずれか一項に記載の音声処理装置(200)とを含む。
【0248】
実施形態17。実施形態1から9のいずれか1つに記載の音声処理装置(100)であって、前記エイリアシング低減サブバンド表現を解析して、前記音声信号を記述する情報を提供するように構成された、情報抽出器と、を含む。
【0249】
実施形態18:音声信号を処理して、前記音声信号のサブバンド表現を取得するための方法(300)であって、前記音声信号のサンプルの少なくとも2つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行し(302)、前記音声信号のサンプルの第1のブロックに基づいてサブバンドサンプルのセットを取得し、前記音声信号のサンプルの第2のブロックに基づいてサブバンドサンプルの対応するセットを取得するステップを含む方法。音声信号のエイリアシング低減サブバンド表現を取得するために、一方が音声信号のサンプルの第1のブロックに基づいて取得され、他方が音声信号のサンプルの第2のブロックに基づいて取得される、2つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップ(304)と、を含む。
【0250】
実施形態19:音声信号を取得するために前記音声信号のサブバンド表現を処理するための方法(400)であって、エイリアスされたサブバンド表現を取得するために、前記音声信号の2つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するステップ(402)を含み、前記エイリアスされたサブバンド表現は、サブバンドサンプルのセットである、方法。音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップ(404)と、を含む。
【0251】
実施形態20:実施形態18および19のいずれかに記載の方法を実行するためのコンピュータプログラム。
【0252】
いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部またはすべては、例えばマイクロ処理装置、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって(または使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つまたは複数は、そのような装置によって実行されてもよい。
【0253】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えばフロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができ、これらはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
【0254】
本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0255】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときの方法のうちの1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
【0256】
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0257】
言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0258】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録して含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および/または非一時的である。
【0259】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0260】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
【0261】
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0262】
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを受信機に転送する(例えば、電子的または光学的に)ように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
【0263】
いくつかの実施形態では、プログラマブル・ロジック・デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロ処理装置と協働することができる。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
【0264】
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装され得る。
【0265】
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されてもよい。
【0266】
本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実行され得る。
【0267】
本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行されてもよい。
【0268】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載の構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27