特許6041815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオの特許一覧

特許6041815音声信号復号器、音声信号符号器、復号化されたマルチチャンネル音声信号表現の生成方法、符号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5a
5b
6a
6b
7a
7b
8
9a-1
9a-2
9b
9c
10a
10b
10c
10d-1
10d-2
10e
10f
10g
11a
11b-1
11b-2
12
13
14
15
16a
16b
17
18
19a
19b
19c
19d
19e
19f

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6041815

(24)【登録日】2016年11月18日

(45)【発行日】2016年12月14日

(54)【発明の名称】音声信号復号器、音声信号符号器、復号化されたマルチチャンネル音声信号表現の生成方法、符号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラム

(51)【国際特許分類】

G10L 19/008 20130101AFI20161206BHJP

G10L 19/00 20130101ALI20161206BHJP

【ＦＩ】

G10L19/008 100

G10L19/00 330B

【請求項の数】14

【全頁数】45

(21)【出願番号】特願2014-12379(P2014-12379)

(22)【出願日】2014年1月27日

(62)【分割の表示】特願2011-510909(P2011-510909)の分割

【原出願日】2009年7月1日

(65)【公開番号】特開2014-130359(P2014-130359A)

(43)【公開日】2014年7月10日

【審査請求日】2014年1月27日

(31)【優先権主張番号】61/079,873

(32)【優先日】2008年7月11日

(33)【優先権主張国】US

(31)【優先権主張番号】61/103,820

(32)【優先日】2008年10月8日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】591037214

【氏名又は名称】フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ

(74)【代理人】

【識別番号】100079577

【弁理士】

【氏名又は名称】岡田全啓

(72)【発明者】

【氏名】バイエルシュテファン

(72)【発明者】

【氏名】ディスヒサッシャ

(72)【発明者】

【氏名】ガイガーラルフ

(72)【発明者】

【氏名】フックスギヨーム

(72)【発明者】

【氏名】ノイエンドルフマクス

(72)【発明者】

【氏名】シューラーゲラルド

(72)【発明者】

【氏名】エドラーベルント

【審査官】山下剛史

(56)【参考文献】

【文献】特開平５−２９７８９１（ＪＰ，Ａ）

【文献】国際公開第２００７／０５１５４８（ＷＯ，Ａ１）

【文献】特開２００３−１２２４００（ＪＰ，Ａ）

【文献】特開２００６−２９３２３０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６，２１／０４−２１／０５７

(57)【特許請求の範囲】

【請求項1】

符号化されたマルチチャンネル音声信号表現（２１１，２１２；３１０；１８１０）に基づいて、復号化されたマルチチャンネル音声信号表現（２３２；３１２；１８１２）を生成するように構成された音声信号復号器（２００；３００；１５００；１８００）であって、
前記符号化されたマルチチャンネル音声信号表現（２１１，２１２；３１０；１８１０）によって表された、複数の音声チャンネルの再構成のために、個別の音声チャンネルの特定の時間軸圧縮曲線（３３２；１８２４）、もしくは、共通マルチチャンネル時間軸圧縮曲線（３３２；１８２４）を、選択的に使用するように構成された時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）を備えたこと、
を特徴とする、音声信号復号器。

【請求項2】

前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）が、前記符号化されたマルチチャンネル音声信号表現（２１１，２１２；３１０；１８１０）によって表された、複数の音声チャンネルの時間軸圧縮している再構成のために、共通マルチチャンネル時間軸圧縮曲線（３３２；１８２４）を、選択的に使用するように構成され、前記再構成のために、個別の符号化されたスペクトル領域情報（２１１）が利用可能であること、を特徴とする、請求項１に記載の音声信号復号器。

【請求項3】

前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、第１の音声チャンネルに関係した第１の符号化されたスペクトル領域情報を受信して、それに基づいて、周波数領域から圧縮時間領域への変換を使用して、前記第１の音声チャンネルの圧縮時間領域表現（Ｘ［］［］）を生成するように構成され、
前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、第２の音声チャンネルに関係した第２の符号化されたスペクトル領域情報を受信して、それに基づいて、周波数領域から圧縮時間領域への変換を使用して、前記第２の音声チャンネルの圧縮時間領域表現（Ｘ［］［］）を生成するように構成され、
前記第２の符号化されたスペクトル領域情報が前記第１の符号化されたスペクトル領域情報と異なり、
前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、前記共通マルチチャンネル時間軸圧縮曲線（３３２；１８２４）に基づいて、前記第１の音声チャンネルの圧縮時間領域表現、または、前記第１の音声チャンネルの圧縮時間領域表現の処理バージョンを、時間変化的に再サンプル抽出して、前記第１の音声チャンネルの周期的に抽出された表現を得るように構成され、
前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、前記共通マルチチャンネル時間軸圧縮曲線（３３２；１８２４）に基づいて、前記第２の音声チャンネルの圧縮時間領域表現、または、前記第２の音声チャンネルの圧縮時間領域表現の処理バージョンを、時間変化的に再サンプル抽出して、前記第２の音声チャンネルの周期的に抽出された表現を得るように構成されていること、
を特徴とする、請求項２に記載の音声信号復号器。

【請求項4】

前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、共通マルチチャンネル時間軸圧縮曲線情報から共通マルチチャンネル時間軸曲線を引き出し、
第１の符号化された窓形状情報に基づいて、第１の音声チャンネルに関係した第１の個別のチャンネル特有の窓形状を引き出し、
第２の符号化された窓形状情報に基づいて、第２の音声チャンネルに関係した第２の個別のチャンネル特有の窓形状を引き出し、
前記第１の個別のチャンネル特有の窓形状を前記第１の音声チャンネルの圧縮時間領域表現に適用して、前記第１の音声チャンネルの圧縮時間領域表現の処理バージョンを得て、
前記第２の個別のチャンネル特有の窓形状を前記第２の音声チャンネルの圧縮時間領域表現に適用して、前記第２の音声チャンネルの圧縮時間領域表現の処理バージョンを得るように構成され、
前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、個別のチャンネル特有の窓形状情報に依存して、異なる窓形状を、特定のフレームの第１および第２の音声チャンネルの圧縮時間領域表現に適用可能であること、
を特徴とする、請求項１または請求項２に記載の音声信号復号器。

【請求項5】

前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、共通マルチチャンネル時間軸圧縮曲線情報から共通マルチチャンネル時間軸曲線を引き出し、
第１の符号化された窓形状情報に基づいて、前記第１の音声チャンネルに関係した第１の個別のチャンネル特有の窓形状を引き出し、
第２の符号化された窓形状情報に基づいて、前記第２の音声チャンネルに関係した第２の個別のチャンネル特有の窓形状を引き出し、
前記第１の個別のチャンネル特有の窓形状を前記第１の音声チャンネルの圧縮時間領域表現に適用して、前記第１の音声チャンネルの圧縮時間領域表現の処理バージョンを得て、
前記第２の個別のチャンネル特有の窓形状を前記第２の音声チャンネルの圧縮時間領域表現に適用して、前記第２の音声チャンネルの圧縮時間領域表現の処理バージョンを得るように構成され、
前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、個別のチャンネル特有の窓形状情報に依存して、異なる窓形状を、特定のフレームの第１および第２の音声チャンネルの圧縮時間領域表現に適用可能であること、
を特徴とする、請求項３に記載の音声信号復号器。

【請求項6】

前記時間軸圧縮復号器（２１０，２１６，２１８、２１９，２２０，２３０，２４０；３４０；１８３０）は、前記第１および第２の音声チャンネルの圧縮時間領域表現を窓付けするとき、共通マルチチャンネル時間軸曲線によって決定される共通時間軸スケーリングを、異なる窓形状に適用するように構成されていること、を特徴とする、請求項４または請求項５に記載の音声信号復号器。

【請求項7】

マルチチャンネル音声信号の符号化された表現（１５０，１５２；１７１２）を生成するための音声信号符号器（１００；１７００）であって、
複数の音声チャンネルに関係した時間軸圧縮曲線の間の類似もしくは相違を説明する情報に依存して、前記マルチチャンネル音声信号の複数の音声チャンネルに共通に関係した共通マルチチャンネル時間軸圧縮曲線情報を含む符号化された音声表現（１５０，１５２；１７１２）、もしくは、前記複数の音声チャンネルの異なる音声チャンネルに個別に関係した個別の時間軸圧縮曲線情報を含む符号化された音声表現（１５０，１５２；１７１２）を、選択的に生成するように構成された、符号化された音声表現生成装置（１０４，１０６，１０８，１０８ａ，１１４；１７２０）を含むこと、
を特徴とする、音声信号符号器。

【請求項8】

前記符号化された音声表現生成装置（１０４，１０６，１０８，１０８ａ，１１４；１７２０）は、共通マルチチャンネル時間軸圧縮曲線情報を適用して、前記複数の音声チャンネルの第１および第２の音声チャンネルの時間軸圧縮バージョンを得て、前記第１の音声チャンネルの時間圧縮バージョンに基づいて、前記第１の音声チャンネルに関係した第１の個別の符号化されたスペクトル領域情報を生成し、かつ、前記第２の音声チャンネルの時間圧縮バージョンに基づいて、前記第２の音声チャンネルに関係した第２の個別の符号化されたスペクトル領域情報を生成するように構成されていること、を特徴とする、請求項７に記載の音声信号符号器。

【請求項9】

前記符号化された音声表現生成装置（１０４，１０６，１０８，１０８ａ，１１４；１７２０）は、マルチチャンネル音声信号の符号化された表現（１５０，１５２；１７１２）を生成するように構成され、その結果、前記マルチチャンネル音声信号の符号化された表現（１５０，１５２；１７１２）が、前記共通マルチチャンネル時間軸圧縮曲線情報、前記共通マルチチャンネル時間軸圧縮曲線情報に従って時間軸圧縮された第１の音声チャンネルの時間軸圧縮バージョンの符号化されたスペクトル表現、および、前記共通マルチチャンネル時間軸圧縮曲線情報に従って時間軸圧縮された第２の音声チャンネルの時間軸圧縮バージョンの符号化されたスペクトル表現を含むこと、を特徴とする、請求項７または請求項８に記載の音声信号符号器。

【請求項10】

前記共通マルチチャンネル時間軸圧縮曲線情報を得るように構成され、その結果、前記共通マルチチャンネル時間軸圧縮曲線情報が、前記第１の音声チャンネルおよび前記第２の音声チャンネルに関係した個別の圧縮曲線の平均を表すこと、を特徴とする、請求項８または請求項９に記載の音声信号符号器。

【請求項11】

前記符号化された音声表現生成装置（１０４，１０６，１０８，１０８ａ，１１４；１７２０）は、マルチチャンネル音声信号の符号化された表現（１５０，１５２；１７１２）内のサイド情報（ｔｗ＿ｄａｔａ＿ｐｒｅｓｅｎｔ；ｃｏｍｍｏｎ＿ｔｗ）を生成するように構成され、前記サイド情報（ｔｗ＿ｄａｔａ＿ｐｒｅｓｅｎｔ；ｃｏｍｍｏｎ＿ｔｗ）は、音声フレーム単位を基本にして、時間軸圧縮データが特定の音声フレームに対して存在しているか否か、および、共通時間軸圧縮曲線情報が特定の音声フレームに対して存在しているか否かを示すこと、を特徴とする、請求項７〜請求項１０のいずれかに記載の音声信号符号器。

【請求項12】

符号化されたマルチチャンネル音声信号表現（２１１，２１２；３１０；１８１０）に基づいて、復号化されたマルチチャンネル音声信号表現（２３２；３００；１５００；１８００）を生成するための方法であって、
前記符号化されたマルチチャンネル音声信号表現によって表された複数の音声チャンネルの再構成のために、個別の音声チャンネルの特定の時間軸圧縮曲線もしくは共通マルチチャンネル時間軸圧縮曲線を選択的に使用するステップを含むこと、
を特徴とする、復号化されたマルチチャンネル音声信号表現の生成方法。

【請求項13】

符号化されたマルチチャンネル音声信号表現（１５０，１５２；１７１２）を生成するための方法であって、
複数の音声チャンネルに関係した時間軸圧縮曲線の間の類似もしくは相違を説明する情報に依存して、マルチチャンネル音声信号の複数の音声チャンネルに共通して関係した共通マルチチャンネル時間軸圧縮曲線情報を含む符号化された音声信号表現、もしくは、複数の音声チャンネルの異なる音声チャンネルに個々に関係した個別の時間軸圧縮曲線情報を含む符号化された音声信号表現を、選択的に生成するステップを含むこと、
を特徴とする、符号化されたマルチチャンネル音声信号表現の生成方法。

【請求項14】

プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項１２または請求項１３の方法を実行する、前記プログラムコードを有するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声信号復号器、音声信号符号器、復号化されたマルチチャンネル音声信号表現の生成方法、符号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラムに関する。

【0002】

本発明に係るいくつかの実施形態は、時間軸圧縮ＭＤＣＴ変換符号器のための方法に関係する。

【背景技術】

【0003】

以下において、時間軸圧縮（ｔｉｍｅｗａｒｐｅｄ）音声符号化の分野への簡単な紹介が与えられる。その概念は、本発明のいくつかの実施形態に関係して適用される。

【0004】

近年、技術は、音声信号を周波数領域表現に変換して、例えば、知覚のマスキング閾値を考慮に入れて、この周波数領域表現を効率良く符号化するように発展してきた。仮に、１セットの符号化されたスペクトル係数が伝送されるブロック長が長いならば、この音声信号符号化の概念は特に効率が良い。そして、仮に、比較的少ない数のスペクトル係数のみが、全体のマスキング閾値を十分に超えるならば、多くのスペクトル係数は、全体のマスキング閾値の近くまたは下にあり、無視される（または、最小符号長で符号化される）。

【0005】

例えば、余弦を基礎とする、または、正弦を基礎とする変調重複変換は、そのエネルギー圧縮特性により、ソース符号化の応用の中でしばしば使用される。すなわち、一定の基本周波数（ピッチ）を有する倍音に対して、変調重複変換は、効率の良い信号表現に導く、低い数のスペクトル成分（副帯域）に、信号エネルギーを集中する。

【0006】

一般に、信号の（基本）ピッチは、信号のスペクトルから区別可能な、最も低い優位周波数である、と理解される。一般のスピーチモデルでは、ピッチは、人間ののどによって変調された励磁信号の周波数である。仮に、単一の信号基本周波数のみが存在するならば、スペクトルは、基本周波数と倍音のみを含む非常に簡単なものとなる。そのようなスペクトルは、高い効率で符号化される。しかしながら、変化するピッチを有する信号に対して、各倍音成分に対応するエネルギーは、いくつかの変換係数に広げられ、その結果、符号化効率の減少をもたらす。

【0007】

符号化効率のこの減少を克服するために、符号化されるべき音声信号は、不均等な時間格子上で効果的に再サンプルされる。その後の処理において、不均等な再サンプル抽出によって得られたサンプル位置は、まるで均等な時間格子上の値を表すかのように処理される。この操作は、一般的に「時間軸圧縮」という用語によって示される。サンプル時間は、ピッチの時間的変化に依存して有利に選ばれる。その結果、音声信号の時間軸圧縮バージョンのピッチ変化は、時間軸圧縮の前の音声信号の元のバージョンのピッチ変化より小さい。音声信号の時間軸圧縮の後、音声信号の時間軸圧縮バージョンは、周波数領域に変換される。ピッチ依存する時間軸圧縮は、時間軸圧縮された音声信号の周波数領域表現が、通常、元の（非時間軸圧縮の）音声信号の周波数領域表現よりはるかに少ない数のスペクトル成分の中に集中されるという効果がある。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】Ｌ．ビルモエス、「音声信号の時間軸圧縮変換符号化」、ＰＣＴ／ＥＰ２００６／０１０２４６、国際特許出願、２００５年１１月（Ｌ．Ｖｉｌｌｅｍｏｅｓ，“ＴｉｍｅＷａｒｐｅｄＴｒａｎｓｆｏｒｍＣｏｄｉｎｇｏｆＡｕｄｉｏＳｉｇｎａｌｓ”，ＰＣＴ／ＥＰ２００６／０１０２４６，Ｉｎｔ．ｐａｔｅｎｔａｐｐｌｉｃａｔｉｏｎ，Ｎｏｖｅｍｂｅｒ２００５）

【非特許文献】

【0009】

【非特許文献1】映画および関係した音声の一般的符号化：進化した音声符号化国際規格１３８１８−７、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１映画の専門家グループ、１９９７年（ＧｅｎｅｒｉｃＣｏｄｉｎｇｏｆＭｏｖｉｎｇＰｉｃｔｕｒｅｓａｎｄＡｓｓｏｃｉａｔｅｄＡｕｄｉｏ：ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ１３８１８−７，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐ，１９９７）

【発明の概要】

【発明が解決しようとする課題】

【0010】

復号器側では、時間軸圧縮音声信号の周波数領域表現が、時間領域に変換して戻され、その結果、時間軸圧縮音声信号の時間領域表現が、復号器側で利用可能である。しかしながら、復号器側で再構成された時間軸圧縮音声信号の時間領域表現の中に、符号器側の入力音声信号の元のピッチ変化は含まれていない。従って、時間軸圧縮音声信号の復号器側の再構成された時間領域表現の再サンプル抽出によって、さらに別の時間軸圧縮が適用される。復号器にて符号器側の入力音声信号の良好な再構成を得るために、復号器側の時間軸圧縮は、符号器側の時間軸圧縮に関して、少なくともほぼ正確に逆操作であることが望ましい。適切な時間軸圧縮を得るために、復号器側の時間軸圧縮の調整を許す復号器で、利用可能な情報を持つことが望ましい。

【0011】

そのような情報を、音声信号符号器から音声信号復号器に伝送することは、通常、必要であるので、復号器側で必要な時間軸圧縮情報の信頼される再構成を許している間は、この伝送に必要なビット伝送速度を小さく維持することが望ましい。

【0012】

それゆえ、本発明の主たる目的は、マルチチャンネル音声信号のビット伝送速度の効率の良い格納および／または伝送を許す、音声信号復号器、音声信号符号器、復号化されたマルチチャンネル音声信号表現の生成方法、符号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラムを提供することである。

【課題を解決するための手段】

【0013】

本発明による実施形態は、符号化されたマルチチャンネル音声信号表現に基づいて、復号化された音声信号表現を提供するための音声信号復号器を提供する。音声信号復号器は、符号化されたマルチチャンネル音声信号表現によって表された、複数の音声チャンネルの再構成のために、個別の音声チャンネルの特定の時間軸圧縮曲線、もしくは、共通マルチチャンネル時間軸圧縮曲線を、選択的に使用するように構成された時間軸圧縮復号器を備える。

【0014】

本発明は、マルチチャンネル音声信号の異なるタイプの効率の良い符号化が、音声チャンネルの特定の時間軸圧縮曲線と共通マルチチャンネル時間軸圧縮曲線との、格納および／または伝送の間の切り換えによって、達成されるという発見に基づいている。いくつかの場合、ピッチ変化が、マルチチャンネル音声信号のチャンネルにおいて、非常に異なることが分かる。また、別の場合、ピッチ変化が、マルチチャンネル音声信号の複数のチャンネルに対して、ほとんど等しいことが分かる。これらの異なるタイプの信号（または、単一の音声信号の信号部分）から見て、仮に、復号器が、マルチチャンネル音声信号の異なるチャンネルの再構成のために、個別の音声チャンネル特有の時間軸圧縮曲線表現、または、共通マルチチャンネル時間軸圧縮曲線表現から、時間軸圧縮曲線を柔軟に（切り替え的または選択的に）引き出すことができるならば、符号化効率が向上されることが分かる。

【0015】

また、好ましい実施形態において、時間軸圧縮復号器は、複数の音声チャンネルの時間軸圧縮している再構成のために、共通マルチチャンネル時間軸圧縮曲線を、選択的に使用するように構成され、再構成のために、個別の符号化されたスペクトル領域情報が利用可能である。本発明では、仮に、異なる音声チャンネルが類似の音声内容を表すならば、複数の音声チャンネルの時間軸圧縮再構成のための共通マルチチャンネル時間軸圧縮曲線の使用が、適切であるだけではなく、異なる音声チャンネルがかなり異なる音声内容を表しても、その使用が適切であることが分かる。従って、異なる音声チャンネルのための個別の符号化されたスペクトル領域情報の評価のために、共通マルチチャンネル時間軸圧縮曲線を使用する概念を結合することは、役に立つことが分かる。例えば、仮に、第１の音声チャンネルが、多声音楽の第１の部分を表し、一方、第２の音声チャンネルが、多声音楽の第２の部分を表すならば、この概念は特に役に立つ。第１の音声信号および第２の音声信号は、例えば、異なる歌手または異なる楽器によって発生した音を表す。従って、第１の音声チャンネルのスペクトル領域表現は、第２の音声チャンネルのスペクトル領域表現とかなり異なる。例えば、異なる音声チャンネルの基本周波数は、異なる。また、異なる音声チャンネルは、基本周波数の倍音に関して異なる特性を含む。それにも関わらず、異なる音声チャンネルのピッチが、略並列で変化するという重要な傾向がある。この場合、たとえ、異なる音声チャンネルが、かなり異なる音声内容（例えば、異なる基周波数および異なる倍音のスペクトル）を含んでいても、共通時間軸圧縮（共通マルチチャンネル時間軸圧縮曲線として示される）を、異なる音声チャンネルに適用することは、非常に効率が良い。それにも関わらず、別の場合には、異なる時間軸圧縮を、異なる音声チャンネルに適用することは、当然に望ましい。

【0016】

また、好ましい実施形態において、時間軸圧縮復号器は、第１の音声チャンネルに関係した第１の符号化されたスペクトル領域情報を受信して、それに基づいて、周波数領域から圧縮時間領域への変換を使用して、第１の音声チャンネルの圧縮時間領域表現を提供するように構成される。また、更に、時間軸圧縮復号器は、第２の音声チャンネルに関係した第２の符号化されたスペクトル領域情報を受信して、それに基づいて、周波数領域から圧縮時間領域への変換を使用して、第２の音声チャンネルの圧縮時間領域表現を提供するように構成される。この場合において、第２のスペクトル領域情報は、第１のスペクトル領域情報と異なる。また、時間軸圧縮復号器は、共通マルチチャンネル時間軸圧縮曲線に基づいて、第１の音声チャンネルの圧縮時間領域表現、または、その処理バージョンを、時間変化的に再サンプル抽出して、第１の音声チャンネルの周期的に抽出された表現を得るように構成され、時間軸圧縮復号器は、共通マルチチャンネル時間軸圧縮曲線に基づいて、第２の音声チャンネルの圧縮時間領域表現、または、その処理バージョンを、時間変化的に再サンプル抽出して、第２の音声チャンネルの周期的に抽出された表現を得るように構成される。

【0017】

また、別の好ましい実施形態において、時間軸圧縮復号器は、共通マルチチャンネル時間軸圧縮曲線情報から共通マルチチャンネル時間曲線を引き出すように構成される。更に、時間軸圧縮復号器は、第１の符号化された窓形状情報に基づいて、第１の音声チャンネルに関係した第１の個別のチャンネル特有の窓形状を引き出し、そして、第２の符号化された窓形状情報に基づいて、第２の音声チャンネルに関係した第２の個別のチャンネル特有の窓形状を引き出すように構成される。更に、時間軸圧縮復号器は、第１の窓形状を第１の音声チャンネルの圧縮時間領域表現に適用して、第１の音声チャンネルの圧縮時間領域表現の処理バージョンを得て、第２の窓形状を第２の音声チャンネルの圧縮時間領域表現に適用して、第２の音声チャンネルの圧縮時間領域表現の処理バージョンを得るように構成される。この場合において、時間軸圧縮復号器は、個別のチャンネル特有の窓形状情報に依存して、異なる窓形状を、第１および第２の音声チャンネルの圧縮時間領域表現に適用可能である。

【0018】

本発明では、いくつかの場合、たとえ、時間軸圧縮操作が、共通時間軸圧縮曲線に基づいていても、時間軸圧縮操作の準備において、異なる形状の窓を異なる音声信号に適用することを、推薦できることが分かる。例えば、２つの音声チャンネルのための共通時間軸圧縮曲線が存在するフレームと、２つの音声チャンネルのための異なる時間軸圧縮曲線が存在するその後のフレームと、の間の転移が存在する。しかしながら、前記その後のフレームの中の２つの音声チャンネルのうちの一方の時間軸圧縮曲線は、現在のフレームの中で共通時間軸圧縮曲線の変化していない連続である。一方、前記その後のフレームの中の他方の音声チャンネルの時間軸圧縮曲線は、現在のフレームの中の共通時間軸圧縮曲線に関して変化している。従って、時間軸圧縮曲線の変化していない進展に適合される窓形状は、音声チャンネルの一方のために使用される。一方、時間軸圧縮曲線の変化していない進展に適合される窓形状は、他方の音声チャンネルのために適用される。従って、音声チャンネルの異なる進展が、考慮に入れられる。

【0019】

また、本発明による別の実施形態において、時間軸圧縮復号器は、第１および第２の音声チャンネルの圧縮時間領域表現を窓付けするとき、共通マルチチャンネル時間軸曲線によって決定される共通時間軸スケーリングを、異なる窓形状に適用するように構成される。本発明では、仮に、異なる窓形状が、それぞれの時間軸圧縮の前に、異なる音声チャンネルを窓化するために使用されても、圧縮曲線の時間軸スケーリングは、聴覚印象の劣化を避けるために、並行して適合されるべきであることが分かる。

【0020】

また、本発明による別の実施形態は、マルチチャンネル音声信号の符号化された表現を提供するための音声信号符号器を提供する。音声信号符号器は、複数の音声チャンネルに関係した時間軸圧縮曲線の間の類似もしくは相違を説明する情報に依存して、マルチチャンネル音声信号の複数の音声チャンネルに共通に関係した共通時間軸圧縮曲線情報を含む音声表現、もしくは、複数の音声チャンネルの異なる音声チャンネルに個別に関係した個別の時間軸圧縮曲線情報を含む符号化された音声表現を、選択的に提供するように構成された、符号化された音声表現提供装置を含む。本発明は、多くの場合、マルチチャンネル音声信号の複数のチャンネルが、類似のピッチ変化の特性を含むという発見に基づいている。従って、いくつかの場合、マルチチャンネル音声信号の符号化された表現の中に、複数の音声チャンネルに共通して関係した共通時間軸圧縮曲線情報を含むことは、効率が良い。このように、符号化効率は、多くの信号に対して向上される。しかしながら、別のタイプの信号に対しては（または、信号の別の部分に対してさえ）、そのような共通時間軸圧縮曲線情報を使用することは、推薦できないことが分かる。従って、仮に、音声信号符号器が、考慮している異なる音声チャンネルに関係した圧縮曲線の間の類似または相違を決定するならば、効率の良い信号符号化が得られる。しかしながら、かなり異なる時間領域表現または周波数領域表現を含む多くの信号が存在するので、たとえ、個別の時間軸圧縮曲線が、非常に類似の時間軸圧縮曲線を有していても、個別の時間軸圧縮曲線を見ることは本当に価値があることが分かる。従って、時間軸圧縮曲線の評価は、信号の類似の査定のための新しい基準であることが分かる。新しい基準は、複数の音声信号の時間領域表現または音声信号の周波数領域表現の単なる評価と比較したとき、特別の情報を提供する。

【0021】

また、好ましい実施形態において、符号化された音声表現提供装置は、共通マルチチャンネル時間軸圧縮曲線情報を適用して、複数の音声チャンネルの第１および第２の音声チャンネルの時間軸圧縮バージョンを得る。更に、符号化された音声表現提供装置は、第１の音声チャンネルの時間圧縮バージョンに基づいて、第１の音声チャンネルに関係した第１の個別の符号化されたスペクトル領域情報を提供し、かつ、第２の音声チャンネルの時間圧縮バージョンに基づいて、第２の音声チャンネルに関係した第２の個別の符号化されたスペクトル領域情報を提供するように構成される。本発明では、たとえ、音声チャンネルが、非常に類似の時間軸圧縮曲線を有していても、音声チャンネルは、かなり異なる音声内容を有するという前述の発見に基づいている。従って、たとえ、音声チャンネルが、共通時間軸圧縮情報に従って、時間圧縮されても、異なる音声チャンネルに関係した異なるスペクトル領域情報を提供することは、しばしば推薦できる。言い換えれば、本発明は、時間軸圧縮曲線の類似と異なる音声チャンネルの周波数領域表現の類似との間に、厳しい相互関係が存在しないという発見に基づいている。

【0022】

また、別の好ましい実施形態において、符号器は、共通マルチチャンネル時間軸圧縮曲線情報を得るように構成され、その結果、共通マルチチャンネル時間軸圧縮曲線情報が、第１の音声チャンネルおよび第２の音声チャンネルに関係した個別の圧縮曲線の平均を表す。

【0023】

また、別の好ましい実施形態において、符号化された音声表現提供装置は、マルチチャンネル音声信号の符号化された表現内のサイド情報を提供するように構成され、サイド情報は、音声フレーム単位を基本にして、時間軸圧縮データが音声フレームに対して存在しているか否か、および、共通時間軸圧縮曲線情報が音声フレームに対して存在しているか否かを示す。本発明では、時間軸圧縮データがフレームに対して存在しているか否かという情報を提供することによって、時間軸圧縮情報の伝達のために必要であるビット伝送速度を減少させることが、可能である。仮に、時間軸圧縮が、そのようなフレームに対して使用されるならば、それがフレーム内の複数の時間軸圧縮曲線値を説明する情報を伝達することが、通常、必要であることが分かる。しかしながら、時間軸圧縮の応用が重要な利点をもたらさない、多くのフレームが存在することが分かる。しかし、例えば、１ビットの追加情報を使用して、フレームのための時間軸圧縮データが利用可能であるか否かを示すことは、より効率の良いことであることが分かる。そのような合図を使用することによって、広い範囲にわたる時間軸圧縮情報（通常、複数の時間軸圧縮曲線値に関する情報を含む）の伝達が、省略される。その結果、ビットを節約する。

【0024】

また、本発明による更なる実施形態は、マルチチャンネル音声信号を表す、符号化されたマルチチャンネル音声信号表現を提供する。マルチチャンネル音声信号表現は、共通時間軸圧縮に従って時間圧縮された複数の時間圧縮音声チャンネルを表す符号化された周波数領域表現を含む。また、マルチチャンネル音声信号表現は、音声チャンネルに共通に関係し、かつ、共通時間軸圧縮を表す、共通マルチチャンネル時間軸圧縮曲線情報の符号化された表現を含む。

【0025】

また、好ましい実施形態において、符号化された周波数領域表現は、異なる音声内容を有しているマルチ音声チャンネルの符号化された周波数領域情報を含む。また、共通マルチチャンネル時間軸圧縮曲線情報の符号化された表現は、異なる音声内容を有しているマルチ音声チャンネルに関係している。

【0026】

また、本発明による別の実施形態は、符号化されたマルチチャンネル音声信号表現に基づいて、復号化されたマルチチャンネル音声信号表現を提供するための方法を提供する。この方法は、本発明の装置において記載されたいくつかの特徴及び機能性によって補完されうる。

【0027】

さらに、本発明による別の実施形態は、マルチチャンネル音声信号の符号化された表現を提供するための方法を提供する。この方法は、本発明の装置において記載されたいくつかの特徴及び機能性によって補完されうる。

【0028】

またさらに、本発明による別の実施形態は、上述の方法を実行するためのコンピュータプログラムを提供する。

【0029】

この発明の上述の目的、その他の目的、特徴および利点は、図側を参照して行う以下の発明を実施するための形態の説明から一層明らかとなろう。

【図面の簡単な説明】

【0030】

【図1】時間軸圧縮音声信号符号器を示すブロック概略図である。

【図2】時間軸圧縮音声信号復号器を示すブロック概略図である。

【図3】発明の実施形態による音声信号復号器を示すブロック概略図である。

【図4】発明の実施形態による復号化された音声信号表現を提供する方法を示すフローチャート図である。

【図5a】発明の実施形態による音声信号復号器の一部を示すブロック概略図である。

【図5b】発明の実施形態による音声信号復号器の一部を示すブロック概略図である。

【図6a】発明の実施形態による復号化された音声信号表現を提供する方法の一部を示すフローチャート図である。

【図6b】発明の実施形態による復号化された音声信号表現を提供する方法の一部を示すフローチャート図である。

【図7a】発明の実施形態による時間軸圧縮曲線の再構成の手順を示すグラフである。

【図7b】発明の実施形態による時間軸圧縮曲線の再構成の手順を示すグラフである。

【図8】発明の実施形態による別の時間軸圧縮曲線の再構成を示すグラフである。

【図9a-1】時間軸圧縮曲線の計算のためのアルゴリズムを示す図である。

【図9a-2】図９ａ−１に続く時間軸圧縮曲線の計算のためのアルゴリズムを示す図である。

【図9b】時間軸圧縮曲線の計算のためのアルゴリズムを示す図である。

【図9c】時間軸圧縮比率インデックスから時間軸圧縮比率値へのマッピング表である。

【図10a】時間曲線、サンプル位置、転移長、「第１の位置」および「最後の位置」の計算のためのアルゴリズムを示す図である。

【図10b】時間曲線、サンプル位置、転移長、「第１の位置」および「最後の位置」の計算のためのアルゴリズムを示す図である。

【図10c】窓形状計算のためのアルゴリズムを示す図である。

【図10d-1】窓の応用のためのアルゴリズムを示す図である。

【図10d-2】図１０ｄ−１に続く、窓の応用のためのアルゴリズムを示す図である。

【図10e】窓の応用のためのアルゴリズムを示す図である。

【図10f】時間変化再サンプル抽出のためのアルゴリズムを示す図である。

【図10g】後時間軸圧縮フレーム処理のため、および、重複化と加算化とのためのアルゴリズムを示す図である。

【図11a】表記の索引を示す説明図である。

【図11b-1】表記の索引を示す説明図である。

【図11b-2】表記の索引を示す説明図である。

【図12】時間軸圧縮曲線から引き出される時間曲線を示すグラフである。

【図13】発明の実施形態による圧縮曲線を提供するための装置を示すブロック概略図である。

【図14】発明の別の実施形態による音声信号復号器を示すブロック概略図である。

【図15】発明の実施形態による別の時間軸圧縮曲線計算機を示すブロック概略図である。

【図16a】発明の実施形態による時間軸圧縮ノード値の計算結果を示すグラフである。

【図16b】発明の実施形態による時間軸圧縮ノード値の計算結果を示すグラフである。

【図17】発明の実施形態による別の音声信号符号器を示すブロック概略図である。

【図18】発明の実施形態による別の音声信号復号器を示すブロック概略図である。

【図19a】発明の実施形態による音声ストリームの構文要素を示す図である。

【図19b】発明の実施形態による音声ストリームの構文要素を示す図である。

【図19c】発明の実施形態による音声ストリームの構文要素を示す図である。

【図19d】発明の実施形態による音声ストリームの構文要素を示す図である。

【図19e】発明の実施形態による音声ストリームの構文要素を示す図である。

【図19f】発明の実施形態による音声ストリームの構文要素を示す図である。

【発明を実施するための形態】

【0031】

（図１の時間軸圧縮音声信号符号器）
本発明は、時間軸圧縮音声信号の符号化および時間軸圧縮音声信号の復号化に関するので、本発明が適用される原型の時間軸圧縮音声信号符号器および時間軸圧縮音声信号復号器の短い概観が与えられる。

【0032】

図１は、本発明のいくつかの様相および実施形態が集積された時間軸圧縮音声信号符号器のブロック概略図を示す。図１の音声信号符号器１００は、入力音声信号１１０を受信して、フレームの系列の中に入力音声信号１１０の符号化表現を提供するように構成されている。音声信号符号器１００はサンプル抽出器１０４を含む。サンプル抽出器１０４は、入力音声信号１１０をサンプル抽出して、周波数領域変換の基礎として使用される信号ブロック（サンプル抽出された表現）１０５を引き出すように適合させられる。音声信号符号器１００はさらに変換窓計算機１０６を含む。変換窓計算機１０６は、サンプル抽出器１０４からサンプル抽出された表現１０５の出力のためのスケーリング窓を引き出すように適合させられる。スケーリング窓は、窓器（ｗｉｎｄｏｗｅｒ）１０８に入力される。窓器１０８は、サンプル抽出器１０４によって引き出された、サンプル抽出された表現１０５にスケーリング窓を適用するように適合させられる。いくつかの実施形態において、音声信号符号器１００は、さらに、抽出されてスケーリングされた表現１０５の周波数領域表現（例えば、変換係数の形式で）を引き出すために、周波数領域変換器１０８ａを含んでもよい。周波数領域表現は、音声信号１１０の符号化された表現として、処理される、または、さらに伝送される。

【0033】

音声信号符号器１００は、さらに、音声信号１１０のピッチ曲線１１２を使用する。ピッチ曲線１１２は、音声信号符号器１００に提供される、または、音声信号符号器１００によって引き出される。従って、音声信号符号器１００は、ピッチ曲線１１２を引き出すために、任意にピッチ評価器を含む。サンプル抽出器１０４は、入力音声信号１１０の連続した表現上で動作する。あるいは、サンプル抽出器１０４は、入力音声信号１１０の既にサンプル抽出された表現上で動作する。後者の場合において、サンプル抽出器１０４は音声信号１１０を再サンプル抽出する。例えば、サンプル抽出器１０４は、時間軸圧縮された隣接して重複している音声ブロックに適合させられる。その結果、重複部分は、サンプル抽出の後のそれぞれの入力ブロックの中で、一定のピッチまたは減少しているピッチ変化をもつ。

【0034】

変換窓計算機１０６は、サンプル抽出器１０４によって実行された時間軸圧縮に依存している音声ブロックのためのスケーリング窓を引き出す。このために、任意のサンプル抽出速度調整器１１４が、サンプル抽出器１０４によって使用される時間軸圧縮規則を定義するために存在する。時間軸圧縮規則は、変換窓計算機１０６にも提供される。代わりの実施形態では、サンプル抽出速度調整器１１４が省略され、そして、ピッチ曲線１１２が、直接に変換窓計算機１０６に提供される。変換窓計算機１０６は、それ自体で適切な計算を実行する。さらに、サンプル抽出器１０４は、適切なスケーリング窓の計算を可能にするために、適用されるサンプル抽出を変換窓計算機１０６に通信する。

【0035】

時間軸圧縮は、サンプル抽出器１０４によって時間軸圧縮されてサンプル抽出された音声ブロックのピッチ曲線が、入力ブロック内の元の音声信号１１０のピッチ曲線より一定であるように、実行される。

【0036】

（図２の時間軸圧縮音声信号復号器）
図２は時間軸圧縮音声信号復号器２００のブロック概略図を示す。時間軸圧縮音声信号復号器２００は、第２のフレームが第１のフレームに続くフレームの系列を有する音声信号の第１および第２のフレームの、第１の時間軸圧縮されてサンプル抽出された表現、または、第１の単に時間軸圧縮された表現を処理する。時間軸圧縮音声信号復号器２００は、さらに、音声信号の第２のフレームおよびフレーム系列の中の第２のフレームに続く第３のフレームの、第２の時間軸圧縮された表現を処理する。音声信号復号器２００は変換窓計算機２１０を含む。変換窓計算機２１０は、第１および第２のフレームのピッチ曲線２１２の情報を使用して、第１の時間軸圧縮された表現２１１ａのための第１のスケーリング窓を引き出すように適合される。さらに、変換窓計算機２１０は、第２および第３のフレームのピッチ曲線の情報を使用して、第２の時間軸圧縮された表現２１１ｂのための第２のスケーリング窓を引き出すように適合される。ここで、スケーリング窓は同じ数のサンプルを有し、第１のスケーリング窓をフェードアウトするために使用される１番目のサンプルは、第２のスケーリング窓をフェードインするために使用される２番目のサンプルと異なる。音声信号復号器２００は更に窓化器２１６を含む。窓化器２１６は、第１のスケーリング窓を第１の時間軸圧縮された表現に適用するように、そして、第２のスケーリング窓を第２の時間軸圧縮された表現に適用するように適合させられる。さらに、音声信号復号器２００は再サンプル抽出器２１８を含む。再サンプル抽出器２１８は、第１および第２のフレームのピッチ曲線の情報を使用して、第１のサンプル抽出された表現を引き出すために、第１のスケーリングされた時間軸圧縮表現を、逆に時間軸圧縮するように適合させられる。さらに、再サンプル抽出器２１８は、第１および第２のフレームのピッチ曲線の情報を使用して、第２のサンプル抽出された表現を引き出すために、第２のスケーリングされた表現を、逆に時間軸圧縮するように適合させられる。その結果、第２のフレームに対応する第１のサンプル抽出された表現の部分は、予め決められた許容範囲内で、第２のフレームに対応する第２のサンプル抽出された表現の部分のピッチ曲線と等しいピッチ曲線を含む。スケーリング窓を引き出すために、変換窓計算機２１０は、直接にピッチ曲線２１２を受信するか、または、任意のサンプル抽出速度調整器２２０から時間軸圧縮の情報を受信する。サンプル抽出速度調整器２２０は、ピッチ曲線２１２を受信して、重複領域のサンプルのための線形時間スケール上のサンプルの位置を、特定または略特定し、かつ、周期的に分離されるような、逆時間軸圧縮方法を引き出す。その結果、ピッチが重複領域の中で同じになり、そして、任意に、逆時間軸圧縮の前には、重複窓の一部分の異なるフェード長が、逆時間軸圧縮の後には、同じ長さになる。

【0037】

さらに、音声信号復号器２００は任意の加算器２３０を含む。加算器２３０は、第２のフレームに対応する第１のサンプル抽出された表現の部分と、第２のフレームに対応する第２のサンプル抽出された表現の部分とを加算して、出力信号２３２として音声信号の第２のフレームの再構成された表現を引き出すように適合させられる。本実施形態では、第１の時間軸圧縮された表現と第２の時間軸圧縮された表現とが、入力として音声信号復号器２００に提供される。別の実施形態では、音声信号復号器２００は、任意に、逆周波数領域変換器２４０を含んでもよい。逆周波数領域変換器２４０は、逆周波数領域変換器２４０の入力に提供される第１および第２の時間軸圧縮された表現の周波数領域表現から、第１および第２の時間軸圧縮された表現を引き出す。

【0038】

（図３の時間軸圧縮音声信号復号器）
以下では、簡易型の音声信号復号器が説明される。図３はこの簡易型の音声信号復号器３００のブロック概略図を示す。音声信号復号器３００は、符号化された音声信号表現３１０を受信して、それに基づいて、復号化された音声信号表現３１２を提供するように構成されている。符号化された音声信号表現３１０は、時間軸圧縮曲線進展情報３１６を含む。音声信号復号器３００は、時間軸圧縮曲線進展情報３１６に基づいて、時間軸圧縮曲線データ３２２を発生するように構成された、時間軸圧縮曲線計算機３２０を含む。時間軸圧縮曲線進展情報３１６は、時間軸圧縮曲線の時間的進展を説明し、符号化された音声信号表現３１０に含まれている。時間軸圧縮曲線データ３２２を時間軸圧縮曲線進展情報３１６から引き出すとき、時間軸圧縮曲線計算機３２０は、以下で詳細に説明されるように、予め決められた時間軸圧縮曲線開始値から繰り返して再開始する。再開始は、時間軸圧縮曲線が不連続（時間軸圧縮曲線進展情報３１６によって符号化されたステップより大きい階段状変化）を含むという結果を有する。音声信号復号器３００は、さらに、少なくとも時間軸圧縮曲線データ３２２の一部分を再スケールするように構成されている、時間軸圧縮曲線データ再スケーラ３３０を含む。その結果、時間軸圧縮曲線計算の再開始時点における不連続が、時間軸圧縮曲線の再スケールバージョン３３２において、避けられる、または、減少する、または、排除される。

【0039】

また、音声信号復号器３００は、符号化された音声信号表現３１０に基づいて、かつ、時間軸圧縮曲線の再スケールバージョン３３２を使用して、復号化された音声信号表現３１２を提供するように構成されている圧縮復号器３４０を含む。

【0040】

時間軸圧縮音声復号の文脈の中に音声信号復号器３００を入れるために、符号化された音声信号表現３１０が、変換係数２１１の符号化された表現と、ピッチ曲線２１２（時間軸圧縮曲線としても示される）の符号化された表現と、を含むことに注目するべきである。時間軸圧縮曲線計算機３２０と時間軸圧縮曲線データ再スケーラ３３０とは、時間軸圧縮曲線の再スケールバージョン３３２の形式の中に、ピッチ曲線２１２の再構成された表現を提供するように構成されている。例えば、圧縮復号器３４０は、窓化（窓化器）２１６、再サンプル抽出器２１８、サンプル抽出速度調整器２２０、および窓形状調整（変換窓計算機）２１０の機能を引き継ぐ。さらに、圧縮復号器３４０は、例えば、任意に、逆変換（逆周波数領域変換器）２４０および重複／加算（加算器）２３０の機能を含む。その結果、復号された音声信号表現３１２は、時間軸圧縮音声復号器２００の出力音声信号２３２と同等である。

【0041】

時間軸圧縮曲線データ３２２に再スケールを適用することによって、時間軸圧縮曲線の連続した（少なくとも殆んど連続した）再スケールバージョン３３２が得られる。その結果、符号化のために効率の良い相対的変化時間軸圧縮曲線進展情報を使用するときでさえ、数値オーバーフローまたは数値アンダーフローが確実に避けられる。

【0042】

（図４の復号化された音声信号表現を提供する方法）
図４は、符号化された音声信号表現に基づいて復号化された音声信号表現を提供する方法のフローチャート図を示す。符号化された音声信号表現は、図３の音声信号復号器３００によって実行される時間軸圧縮曲線進展情報を含む。方法４００は時間軸圧縮曲線データを発生させる第１のステップ４１０を含む。第１のステップ４１０は、時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から繰り返して再開始する。

【0043】

方法４００は、さらに、再開始のうちの１つの再開始における不連続が、時間軸圧縮曲線の再スケールバージョンの中で、避けられる、または、減少する、または、排除されるように、少なくとも時間軸圧縮制御データの一部分を再スケールするステップ４２０を含む。

【0044】

方法４００は、さらに、時間軸圧縮曲線の再スケールバージョンを使用して、符号化された音声信号表現に基づいて復号化された音声信号表現を提供するステップ４３０を含む。

【0045】

（図５ａ〜図９ｃの本発明に係る実施形態の詳細な説明）
以下において、本発明に係る実施形態が、図５ａ〜図９ｃを参照して詳細に説明される。

【0046】

図５ａおよび図５ｂは、時間軸圧縮曲線進展情報５１０に基づいて時間軸圧縮制御情報５１２を提供する装置５００のブロック概略図を示す。装置５００は、時間軸圧縮曲線進展情報５１０に基づいて再構成された時間軸圧縮曲線情報５２２を提供するための手段５２０、および、再構成された時間軸圧縮曲線情報５２２に基づいて時間軸圧縮制御情報５１２を提供するための時間軸圧縮制御情報計算機５３０を含む。

【0047】

（再構成された時間軸圧縮曲線情報を提供するための手段５２０）
以下では、手段５２０の構造と機能が説明される。手段５２０は時間軸圧縮曲線計算機５４０を含む。時間軸圧縮曲線計算機５４０は、時間軸圧縮曲線進展情報５１０を受信して、それに基づいて、新しい時間軸圧縮曲線部分情報５４２を提供するように構成されている。例えば、時間軸圧縮曲線進展情報５１０の１セットが、再構成されるべき音声信号の各フレームごとに装置５００に伝送される。それにも関わらず、再構成されるべき一つの音声信号のフレームに関係した時間軸圧縮曲線進展情報５１０の１セットは、音声信号の複数のフレームの再構成のために使用される。同様に、時間軸圧縮曲線進展情報５１０の複数のセットが、以下で詳細に議論するように、音声信号の単一のフレームの音声内容の再構成のために使用される。結論として、いくつかの実施形態において、時間軸圧縮曲線進展情報５１０は、再構成または更新されるべき音声信号の変換領域係数のセットと同じ速度（音声信号の１フレーム当たり１つの時間軸圧縮曲線部分）で更新されると主張される。

【0048】

時間軸圧縮曲線計算機５４０は圧縮ノード値計算機５４４を含む。圧縮ノード値計算機５４４は、複数（または、時系列）の時間軸圧縮曲線比率値（または、時間軸圧縮比率インデックス）に基づいて、複数（または、時系列）の圧縮曲線ノード値を計算するように構成されている。時間軸圧縮曲線比率値は時間軸圧縮曲線進展情報５１０によって構成されている。このために、圧縮ノード値計算機５４４は、予め決められた開始値（例えば、１）で、時間軸圧縮曲線ノード値の提供を開始して、以下で議論するように、時間軸圧縮曲線比率値を使用して、その後の時間軸圧縮曲線ノード値を計算するように構成されている。

【0049】

さらに、時間軸圧縮曲線計算機５４０は、任意に、連続した時間軸圧縮曲線ノード値の間を補間するように構成された補間器５４８を含む。従って、新しい時間軸圧縮曲線部分の記述５４２が得られる。新しい時間軸圧縮曲線部分は、通常、圧縮ノード値計算機５４４によって使用される、予め決められた開始値から開始する。さらに、手段５２０は、完全な時間軸圧縮曲線部分の提供のために、追加時間軸圧縮曲線部分、すなわち、いわゆる「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を考慮するように構成されている。このために、手段５２０は、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を、図５ａに図示しないメモリの中に格納するように構成されている。

【0050】

しかしながら、手段５２０は再スケーラ５５０も含む。再スケーラ５５０は、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を再スケールして、完全な時間軸圧縮曲線部分の不連続を避ける（または、減少する、または、排除する）ように構成されている。完全な時間軸圧縮曲線部分は、「最後の時間軸圧縮曲線部分」、「現在の時間軸圧縮曲線部分」および「新しい時間軸圧縮曲線部分」に基づいている。このために、再スケーラ５５０は、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」の格納された記述を受信して、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を共に再スケールし、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」の再スケールバージョンを得るように構成されている。再スケーラ５５０によって実行される再スケールに関する詳細が、図７ａ、図７ｂおよび図８を参照して、以下で議論される。

【0051】

また、再スケーラ５５０は、例えば、図５ａに図示しないメモリから、「最後の時間軸圧縮曲線部分」に関係している合計値と、「現在の時間軸圧縮曲線部分」に関係している別の合計値と、を受信するように構成されている。これらの合計値は、それぞれ、「ｌａｓｔ＿ｗａｒｐ＿ｓｕｍ」および「ｃｕｒ＿ｗａｒｐ＿ｓｕｍ」としても示される。再スケーラ５５０は、対応する時間軸圧縮曲線部分が再スケールされるのと同じ再スケール係数を使用して、時間軸圧縮曲線部分に関係している合計値を再スケールするように構成されている。従って、再スケールされた合計値が得られる。

【0052】

いくつかの場合において、手段５２０は更新器５６０を含む。更新器５６０は、再スケーラ５５０に入力する時間軸圧縮曲線部分および合計値を繰り返して更新するように構成されている。例えば、更新器５６０は、フレーム速度で前述の情報を更新するように構成されている。例えば、現在のフレームサイクルの「新しい時間軸圧縮曲線部分」は、次のフレームサイクルの中の「現在の時間軸圧縮曲線部分」として役立つ。同様に、現在のフレームサイクルの再スケールされた「現在の時間軸圧縮曲線部分」は、次のフレームサイクルの中の「最後の時間軸圧縮曲線部分」として役立つ。従って、メモリの効率の良い実行が創出される。なぜなら、現在のフレームサイクルの「最後の時間軸圧縮曲線部分」は、現在のフレームサイクルが終了すると、廃却されるからである。

【0053】

以上をまとめると、手段５２０は、それぞれのフレームサイクル（いくつかの特別なフレームサイクル、例えば、フレーム系列の開始のフレームサイクル、フレーム系列の終わりのフレームサイクル、または、時間軸圧縮が不活発であるフレームサイクルを除いて）ごとに、「新しい時間軸圧縮曲線部分」、「再スケールされた現在の時間軸圧縮曲線部分」および「再スケールされた最後の時間軸圧縮曲線部分」の記述を含む時間軸圧縮曲線区間の記述を提供するように構成されている。さらに、手段５２０は、それぞれのフレームサイクル（上記の特別なフレームサイクルを除いて）ごとに、例えば、「新しい時間軸圧縮曲線部分合計値」、「再スケールされた現在の時間軸圧縮曲線部分合計値」および「再スケールされた最後の時間軸圧縮曲線部分合計値」を含む時間軸圧縮曲線部分合計値の表現を提供する。

【0054】

時間軸圧縮制御情報計算機５３０は、手段５２０によって提供された、再構成された時間軸圧縮曲線情報５２２に基づいて、時間軸圧縮制御情報５１２を計算するように構成されている。例えば、時間軸圧縮制御情報計算機５３０は、時間軸曲線計算機５７０を含む。時間軸曲線計算機５７０は、再構成された時間軸圧縮制御情報に基づいて、時間軸曲線５７２を計算するように構成されている。さらに、時間軸圧縮曲線情報計算機５３０は、サンプル位置計算機５７４を含む、サンプル位置計算機５７４は、時間軸曲線５７２を受信して、それに基づいて、例えば、サンプル位置ベクトル５７６の形式で、サンプル位置情報を提供するように構成されている。サンプル位置ベクトル５７６は、例えば、再サンプル抽出器２１８によって実行された時間軸圧縮を説明する。

【0055】

また、時間軸圧縮制御情報計算機５３０は、転移長計算機５８０を含む。転移長計算機５８０は、再構成された時間軸圧縮制御情報から転移長情報５８２を引き出すように構成されている。例えば、転移長情報５８２は、左転移長を説明する情報と右転移長を説明する情報とを含む。例えば、転移長は「最後の時間軸圧縮曲線部分」、「現在の時間軸圧縮曲線部分」および「新しい時間軸圧縮曲線部分」によって説明された時間区間の長さに依存する。例えば、仮に、「最後の時間軸圧縮曲線部分」によって説明された時間区間の時間拡張が、「現在の時間軸圧縮曲線部分」によって説明された時間区間の時間拡張より短いならば、または、仮に、「新しい時間軸圧縮曲線部分」によって説明された時間区間の時間拡張が、「現在の時間軸圧縮曲線部分」によって説明された時間区間の時間拡張より短いならば、転移長は、初期設定の転移長と比較して、短くされる。

【0056】

さらに、時間軸圧縮制御情報計算機５３０は、最初および最後の位置計算機５８４を含む。最初および最後の位置計算機５８４は、左右の転移長情報５８２に基づいて、いわゆる「最初の位置」および「最後の位置」５８６を計算するように構成されている。「最初の位置」および「最後の位置」５８６は、再サンプル抽出器２１８の効率を増加させる。なぜなら、これらの位置の外側領域は、窓化後にゼロに一致し、従って、時間軸圧縮の間、考慮する必要がないからである。ここで、サンプル位置ベクトル５７６が、例えば、再サンプル抽出器２１８によって実行された時間軸圧縮によって要求される情報を含むことに注目するべきである。さらに、左右の転移長情報５８２、「最初の位置」および「最後の位置」５８６は、例えば、窓器２１６によって要求される情報を構成する。

【0057】

従って、手段５２０および時間軸圧縮制御情報計算機５３０は、サンプル抽出速度調整器２２０、変換窓計算機２１０およびサンプル抽出位置計算器２１９の機能を共に引き継ぐ、と言える。

【0058】

以下において、手段５２０および時間軸圧縮制御情報計算機５３０を含む音声信号復号器の機能が、図６ａ、図６ｂ、図７ａ、図７ｂ、図８、図９ａ〜図９ｃ、図１０ａ〜図１０ｇ、図１１ａ、図１１ｂ−１、図１１ｂ−２及び図１２を参照して説明される。

【0059】

図６ａは、本発明に係る実施形態の、音声信号の符号化された表現を復号化するための方法のフローチャートを示す。方法６００は、再構成された時間軸圧縮曲線情報５２２を提供するステップと、時間軸圧縮ノード値の間を補間するステップ６２０と、１つ以上前に計算された時間軸圧縮曲線部分および１つ以上前に計算された時間軸圧縮曲線部分合計値を再スケールするステップ６３０と、を含む。再構成された時間軸圧縮曲線情報５２２を提供するステップは、時間軸圧縮ノード値を計算するステップ６１０を含む。方法６００は、さらに、ステップ６１０，６２０の中で得られた「新しい時間軸圧縮曲線部分」、ならびに、再スケールされた、一つ以上前に計算された時間軸圧縮曲線部分（「現在の時間軸圧縮曲線部分」と「最後の時間軸圧縮曲線部分」）を使用して、また、任意に、再スケールされた、一つ以上前に計算された圧縮曲線合計値を使用して、時間軸圧縮制御情報を計算するステップ６４０を含む。その結果、時間軸曲線情報、サンプル位置情報、転移長情報、および／または、最初および最後の位置情報が、ステップ６４０で得られる。

【0060】

方法６００は、さらに、ステップ６４０で得られた時間軸圧縮制御情報を使用して、時間軸圧縮された信号の再構成を実行するステップ６５０を含む。時間軸圧縮された信号の再構成に関する詳細は、次に説明される。

【0061】

また、方法６００は、以下で説明されるように、メモリを更新するステップ６６０を含む。

【0062】

（時間軸圧縮曲線部分の計算）
以下では、時間軸圧縮曲線部分の計算に関する詳細が、図７ａ、図７ｂ、図８、図９a、図９ｂ及び図９ｃを参照して説明される。

【0063】

初期状態は図７ａのグラフ表示７１０に記載されている状態であると想定する。第１の時間軸圧縮曲線部分７１６と第２の時間軸圧縮曲線部分７１８とが存在している。それぞれの時間軸圧縮曲線部分７１６，７１８は、通常、メモリに格納されている複数の離散的な時間軸圧縮曲線データ値を含む。異なる時間軸圧縮曲線データ値は時間値に関係している。時間は横軸７１２で示されている。時間軸圧縮曲線データ値の大きさは縦軸７１４で示されている。第１の時間軸圧縮曲線部分７１６は、終了値が１である。そして、第２の時間軸圧縮曲線部分は、開始値が１である。ここでは、１の値が「予め決められた値」であると見做される。第１の時間軸圧縮曲線部分７１６は、「最後の時間軸圧縮曲線部分」（「ｌａｓｔ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ」としても示される）と考えられ、一方、第２の時間軸圧縮曲線部分７１８は、「現在の時間軸圧縮曲線部分」（「ｃｕｒ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ」としても示される）と考えられることに注目すべきである。

【0064】

初期状態から開始して、例えば、方法６００のステップ６１０，６２０の中で、新しい時間軸圧縮曲線部分７２２が計算される。従って、第３の時間軸圧縮曲線部分（「新しい時間軸圧縮曲線部分」または「ｎｅｗ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ」としても示される）の時間軸圧縮曲線データ値が計算される。例えば、計算は、図９ａ−１に示されている、アルゴリズム９１０に従う時間軸圧縮ノード値の計算と、アルゴリズム９２０に従う圧縮ノード値の間の補間６２０の計算と、に分離される。従って、新しい時間軸圧縮曲線部分７２２が得られる。新しい時間軸圧縮曲線部分７２２は、予め決められた値（例えば、１）から開始し、図７ａのグラフ表示７２０の中に示されている。第１の時間軸圧縮曲線部分７１６、第２の時間軸圧縮曲線部分７１８および第３の新しい時間軸圧縮曲線部分７２２が、連続かつ隣接の時間間隔で関係している。さらに、第２の時間軸圧縮曲線部分７１８の終了点７１８ｂと第３の時間軸圧縮曲線部分７２２の開始点７２２ａとの間には、不連続７２４があることが認められる。

【0065】

ここで、不連続７２４は、通常、時間軸圧縮曲線部分の中で、時間軸圧縮曲線のどんな２つの時間的に隣接している時間軸圧縮曲線データ値の間の変化より大きい大きさを含む、ことに注目すべきである。これは、第３の時間軸圧縮曲線部分７２２の開始値７２２ａが、予め決められた値（例えば、１）に強く影響され、第２の時間軸圧縮曲線部分７１８の終了値７１８ｂから独立している、という事実のためである。従って、不連続７２４が、２つの隣接する離散的な時間軸圧縮曲線データ値の間の避けられない変化より大きい、ことに注目すべきである。

【0066】

それにも関わらず、第２の時間軸圧縮曲線部分７１８と第３の時間軸圧縮曲線部分７２２との間のこの不連続７２４は、時間軸圧縮曲線データ値の更なる使用に対して有害である。

【0067】

従って、第１の時間軸圧縮曲線部分７１６および第２の時間軸圧縮曲線部分７１８が、方法６００のステップ６３０で共に再スケールされる。例えば、第１の時間軸圧縮曲線部分７１６の時間軸圧縮曲線データ値と、第２の時間軸圧縮曲線部分７１８の時間軸圧縮曲線データ値とが、再スケール係数（「ｎｏｒｍ＿ｆａｃ」としても示される）で乗算されて再スケールされる。従って、第１の時間軸圧縮曲線部分７１６の再スケールバージョン７１６´と、第２の時間軸圧縮曲線部分７１８の再スケールバージョン７１８´が得られる。対照的に、第３の時間軸圧縮曲線部分７２２は、図７ａのグラフ表示７３０で示すように、通常、この再スケールするステップの中で、影響を受けないで維持される。再スケールは、再スケールされた終了点７１８ｂ´が、第３の時間軸圧縮曲線部分７２２の開始点７２２ａと少なくとも殆んど同じデータ値を含むように、実行される。従って、第１の時間軸圧縮曲線部分７１６の再スケールバージョン７１６´、第２の時間軸圧縮曲線部分７１８の再スケールバージョン７１８´および第３の時間軸圧縮曲線部分７２２が、（殆んど）連続した時間軸圧縮曲線区間を共に形成する。特に、スケーリングは、再スケールされた終了点７１８ｂ´と開始点７２２ａのデータ値の間の差が、時間軸圧縮曲線部分７１６´，７１８´，７２２のどんな２つの隣接データ値の間の最大差よりも大きくならないように、実行される。

【0068】

従って、再スケールされた時間軸圧縮曲線部分７１６´，７１８´を含む、殆んど連続した時間軸圧縮曲線区間と、元の時間軸圧縮曲線部分７２２とが、ステップ６４０で実行される時間軸圧縮制御情報の計算のために使用される。例えば、時間軸圧縮制御情報は、第２の時間軸圧縮曲線部分７１８に時間的に関係した音声フレームに対して計算される。

【0069】

しかしながら、ステップ６４０における時間軸圧縮制御情報の計算において、時間軸圧縮された信号の再構成が、ステップ６５０で実行される。ステップ６５０は、以下でさらに詳細に説明される。

【0070】

続いて、次の音声フレームのための時間軸圧縮制御情報を得ることが必要である。このために、第１の時間軸圧縮曲線部分７１６の再スケールバージョン７１６´が、メモリを確保するために廃却される。もはや必要ないからである。しかしながら、再スケールバージョン７１６´は、どんな目的のためにも自然に保存される。さらに、第２の時間軸圧縮曲線部分７１８の再スケールバージョン７１８´は、図７ｂのグラフ表示７４０で示すように、新しい計算のために、「最後の時間軸圧縮曲線部分７１６」に代わる。さらに、前の計算の中で「新しい時間軸圧縮曲線部分」に代わった、第３の時間軸圧縮曲線部分７２２が、次の計算のために、「現在の時間軸圧縮曲線部分」の役割をする。関係はグラフ表示７４０の中に示されている。

【0071】

メモリのこの更新（方法６００のステップ６６０）に続いて、グラフ表示７５０で示すように、新しい時間軸圧縮曲線部分７５２が計算される。このために、方法６００のステップ６１０，６２０が、新しい入力データで再実行される。第４の時間軸圧縮曲線部分７５２が、当分、「新しい時間軸圧縮曲線部分」の役割をする。第３の時間軸圧縮曲線部分７２２の終了点７２２ｂと第４の時間軸圧縮曲線部分７５２の開始点７５２ａとの間には、通常、不連続７５４がある。この不連続７５４は、第２の時間軸圧縮曲線部分７１８の再スケールバージョン７１８´と、第３の時間軸圧縮曲線部分７２２の元のバージョンとの連続した再スケール（方法６００のステップ６３０）によって、減少する、または、排除される。従って、第２の時間軸圧縮曲線部分７１８の二度再スケールバージョン７１８´´と、第３の時間軸圧縮曲線部分７２２の一度再スケールバージョン７２２´とが、図７ｂのグラフ表示７６０に示すように、得られる。時間軸圧縮曲線部分７１８´´，７２２´，７５２は、少なくとも殆んど連続した時間軸圧縮曲線区間を形成し、ステップ６４０の再実行の中で、時間軸圧縮制御情報の計算のために使用される。例えば、時間軸圧縮制御情報が、時間軸圧縮曲線部分７１８´´，７２２´，７５２に基づいて計算される。ここで、時間軸圧縮制御情報は、第２の時間軸圧縮曲線部分７１８を中心とした音声信号時間フレームに関係している。

【0072】

いくつかの場合において、時間軸圧縮曲線部分ごとに、関係した時間軸圧縮曲線合計値を有することが望ましいことに注目すべきである。例えば、第１の時間軸圧縮曲線合計値は、第１の時間軸圧縮曲線部分に関係し、第２の時間軸圧縮曲線合計値は、第２の時間軸圧縮曲線部分に関係しているなどです。例えば、時間軸圧縮曲線合計値は、ステップ６４０の中の時間軸圧縮制御情報の計算のために使用される。

【0073】

例えば、時間軸圧縮曲線合計値は、それぞれの時間軸圧縮曲線部分の時間軸圧縮曲線データ値の合計を表す。しかしながら、時間軸圧縮曲線部分がスケーリングされるときは、時間軸圧縮曲線合計値もスケーリングすることが、しばしば望ましい。その結果、時間軸圧縮曲線合計値が、それに関係している時間軸圧縮曲線部分の特性に従う。従って、第２の時間軸圧縮曲線部分７１８が、再スケールバージョン７１８´を得るためにスケーリングされるとき、第２の時間軸圧縮曲線部分７１８に関係した時間軸圧縮曲線合計値は、例えば、同じスケール係数でスケーリングされる。同様に、第１の時間軸圧縮曲線部分７１６が、再スケールバージョン７１６´を得るためにスケーリングされるとき、仮に望むならば、第１の時間軸圧縮曲線部分７１６に関係した時間軸圧縮曲線合計値が、例えば、同じスケール係数でスケーリングされる。

【0074】

さらに、新しい時間軸圧縮曲線部分の考慮を進展する場合、再関係（または、メモリ再配分）が実行される。例えば、第２の時間軸圧縮曲線部分７１８のスケーリングされたバージョン７１８´に関係している時間軸圧縮曲線合計値は、時間軸圧縮曲線部分７１６´，７１８´，７２２に関係している時間軸圧縮制御情報の計算のためには、「現在の時間軸圧縮合計値」の役割をするが、時間軸圧縮曲線部分７１８´，７２２´，７５２に関係している時間軸圧縮制御情報の計算のためには、「最後の時間軸圧縮合計値」として考えられる。同様に、第３の時間軸圧縮曲線部分７２２に関係している時間軸圧縮曲線合計値は、時間軸圧縮曲線部分７１６´，７１８´，７２２に関係している時間軸圧縮制御情報の計算のためには、「新しい時間軸圧縮合計値」として考えられるが、時間軸圧縮曲線部分７１８´´，７２２´，７５２に関係している時間軸圧縮制御情報の計算のためには、「現在の時間軸圧縮合計値」として機能するように写像される。さらに、第４の時間軸圧縮曲線部分７５２の新たに計算された時間軸圧縮曲線合計値が、時間軸圧縮曲線部分７１８´´，７２２´，７５２に関係している時間軸圧縮制御情報の計算のために、「新しい時間軸圧縮曲線合計値」の役割をする。

【0075】

（図８の実施例）
図８は、本発明に係る実施形態によって解決される問題を例証するグラフ表示を示す。第１のグラフ表示８１０は、いくつかの従来例で得られる、再構成された相対的ピッチの時間的進展を示す。横軸８１２は時間を表し、縦軸８１４は相対的ピッチを表す。曲線８１６は、時間が経過するにつれての相対的ピッチの時間的進展を示す。相対的ピッチの時間的進展は、相対的ピッチ情報から再構成される。相対的ピッチ曲線の再構成に関して、時間軸圧縮された変形離散余弦変換（ＭＤＣＴ）の応用には、実際のフレーム内のピッチの相対的変化に関する知識のみが必要であることに注目すべきである。これを理解するために、相対的ピッチ曲線から時間軸曲線を得るための計算ステップを参照する。計算ステップは、同じ相対的ピッチ曲線のスケーリングされたバージョンに対して一致した時間軸曲線に導く。従って、絶対的ピッチの値の代わりに相対的ピッチの値を符号化するだけで十分である。それは、符号化効率を増加させる。符号化効率をさらに増加させるために、実際の量子化された値は、相対的ピッチではなく、ピッチの相対的変化、すなわち、前の相対的ピッチに対する現在の相対的ピッチの比率（以下で詳細に議論する）である。例えば、信号が倍音構造を全く示さない、いくつかのフレームの中で、時間軸圧縮は望まれない。そのような場合、追加フラグは、任意に、前述した方法で平坦なピッチ曲線の符号化の代わりに、平坦なピッチ曲線を示す。実際の世界の信号の中で、そのようなフレームの量が、通常、十分高いので、いつも加えられる追加ビットと非圧縮フレーム毎に保存されたビットとの間の交換取引は、ビット保存に有利である。

【0076】

ピッチ変化（相対的ピッチ曲線、または、時間軸圧縮曲線）の計算のための開始値は、恣意的に選択され、符号器と復号器とで異なる。時間軸圧縮ＭＤＣＴ（ＴＷ−ＭＤＣＴ）の本質のため、ピッチ変化の異なる開始値は、ＴＷ−ＭＤＣＴを実行するために、同じサンプル位置および適合した窓形状をもたらす。

【0077】

例えば、（音声）符号器は、あらゆるノードのためのピッチ曲線を得る。ピッチ曲線は、任意の有声／無声の仕様に関係するサンプルの中の、実際のピッチ立ち遅れとして表される。ピッチ曲線は、例えば、音声符号化から知られている、ピッチ評価と有声／無声の決定とを適用することによって得られる。仮に、現在のノードに対して、有声の決定または無声の決定に設定される分類が、利用可能であるならば、符号器は、実際のピッチ立ち遅れの間の比率を計算して、その比率を量子化する。あるいは、仮に無声であるならば、その比率を１に設定する。別の例では、ピッチ変化が、適切な方法（例えば、信号変化評価）によって、直接に評価される。

【0078】

復号器では、符号化された音声の開始位置での第１の相対的ピッチの開始値は、任意の値、例えば１に設定される。従って、復号化された相対的ピッチ曲線は、もはや符号器ピッチ曲線の同じ絶対的範囲内に存在しないが、符号器ピッチ曲線のスケーリングされたバージョン内に存在する。それでも、前述したように、ＴＷ−ＭＤＣＴアルゴリズムは同じサンプル位置および窓形状に導く。さらに、仮に、符号化されたピッチ比率が、平坦なピッチ曲線を発生させるならば、符号器は、完全に符号化された曲線を送ることは決定しないが、代わりに、アクティブピッチデータ（「ａｃｔｉｖｅＰｉｔｃｈＤａｔａ」）フラグを０に設定することを決定し、このフレームの中のビット（例えば、「ｎｕｍＰｉｔｃｈｂｉｔｓ＊ｎｕｍＰｉｔｃｈｅｓ」ビット）を保存する。

【0079】

以下では、本発明の逆ピッチ曲線の再規格化がないときに起こる問題が、議論される。前述のように、ＴＷ−ＭＤＣＴに対して、現在のブロックの周囲の所定の制限時間内の相対的ピッチ変化だけが、時間軸圧縮および正しい窓形状適合の計算に必要である（前述の説明を参照）。時間軸圧縮は、ピッチ変化が検出されて、他のすべての場合において一定に維持している区域（図８のグラフ表示８１０を参照）の復号化された曲線に従う。１ブロックの窓とサンプル抽出位置の計算のために、３つの連続した相対的ピッチ曲線区域（例えば、３つの時間軸圧縮曲線部分）が必要である。第３の相対的ピッチ曲線区域は、フレームの中で新しく伝送された相対的ピッチ曲線区域（「新しい時間軸圧縮曲線部分」としても示される）である。そして、他の２つの相対的ピッチ曲線区域は、過去（例えば、「最後の時間軸圧縮曲線部分」と「現在の時間軸圧縮曲線部分」としても示される）から一時的にメモリに移動される。

【0080】

実施例を得るために、例えば、図７ａ、図７ｂおよび図８のグラフ表示８１０，８６０を参照して説明される。例えば、フレーム１の（または、フレーム１に関係した）窓のサンプル抽出位置を計算するために、フレーム０、１および２の（または、フレーム０、１および２に関係した）ピッチ曲線が必要である。フレーム１は、フレーム０からフレーム２に延びる。ビットストリームの中で、フレーム２のピッチ情報だけが、現在のフレームに送られる。そして、他の２つのフレーム０，１は、過去から取られる。ここで説明したように、ピッチ曲線は、第１の復号化された相対的ピッチ比率を、フレーム１の最後のピッチに適用して、フレーム２の第１のノードなどでのピッチを得ることによって連続する。信号の特性のため、仮に、ピッチ曲線が簡単に連続するならば（すなわち、ピッチ曲線の新たに伝送された部分が、少しの変更もなく、既存の２つの部分に繋がるならば）、符号化器の内部の番号形式の中の領域オーバーフローが、所定の時間後に発生するということは、可能である。例えば、信号は、強い倍音特性の区域から開始し、区域の至る所で減少している開始位置における高いピッチ値は、相対的ピッチの減少をもたらす。次に、ピッチ情報を有さない区域が続き、その結果、相対的ピッチが一定値を維持する。次に、倍音区域は、再び、前の区域の最後の絶対的ピッチより高い絶対的ピッチから開始して、再び下方に向かう。しかしながら、仮に、相対的ピッチが簡単に連続するならば、最後の倍音区域の終了点と同じであり、さらに、下方に向かう。仮に、信号が十分強く、図８のグラフ表示８１０で示すように、倍音の区域の中で上昇または下降する全体的な傾向を有するならば、遅かれ早かれ、相対的ピッチは、内部の番号形式の領域の境界に達する。スピーチ信号が、実際にそのような特性を示すことは、スピーチ符号化から、よく知られている。従って、前述した従来の方法を使用するとき、スピーチを含んでいる実世界の信号の連結したセットの符号化が、比較的短い時間の後に、相対的ピッチのために使用される浮遊値の範囲を実際に超えることが、驚くことなく、もたらされる。

【0081】

以上をまとめると、ピッチが決定される音声信号区域（または、音声信号フレーム）に対して、相対的ピッチ曲線（または、時間軸圧縮曲線）の適切な進展が、決定される。例えば、音声信号区域が雑音のようであるので、ピッチが決定されない音声信号区域（または、音声信号フレーム）に対して、相対的ピッチ曲線（または、時間軸圧縮曲線）が、一定値に維持される。従って、仮に、増加するピッチを有する音声信号区域と減少するピッチを有する音声信号区域との間の不均衡があれば、相対的ピッチ曲線（または、時間軸圧縮曲線）は、数値アンダーフローまたは数値オーバーフローのいずれか一方となる。

【0082】

例えば、グラフ表示８１０では、相対的ピッチ曲線が、減少するピッチを有する複数の音声信号区域（相対的ピッチ曲線部分）８２０ａ，８２０ｂ，８２０ｃ、８２０ｄと、減少するピッチを有さない、いくつかの音声信号区域８２２ａ，８２２ｂと、が存在し、増加するピッチを有する音声信号区域が全く無い場合のものが示されている。従って、相対的ピッチ曲線８１６が、数値アンダーフロー（少なくとも非常に不利な状況）となることが分る。

【0083】

以下では、この問題の解決策が説明される。前述の問題、特に、数値アンダーフローまたは数値オーバーフローを防ぐために、本発明の観点に従って、周期的な相対的ピッチ曲線の再規格が導入される。ここで説明されるように、圧縮された時間曲線と窓形状との計算のみが、前述の３つの相対的ピッチ曲線区域（「時間軸圧縮曲線部分」としても示される）の上の相対的変化を当てにするので、（例えば音声信号の）あらゆるフレーム毎に、この曲線（例えば「時間軸圧縮曲線部分」の３つの要素で構成されている時間軸圧縮曲線）を、同じ結果で新しく規格化することが可能である。

【0084】

このために、参照が、例えば、第２の相対的ピッチ曲線区域（第２の「時間軸圧縮曲線部分」としても示される）の最後のサンプルになるように選択される。曲線が、そのような方法で、（例えば、線形領域の中で乗法的に）規格化される。その結果、このサンプルは、１．０の値を有する（図８のグラフ表示８６０を参照）。

【0085】

図８のグラフ表示８６０は、相対的ピッチ曲線の規格化を表す。横軸８６２はフレーム（フレーム０，１，２）で細分された時間を示す。縦軸８６４は相対的ピッチ曲線の値を示す。

【0086】

規格化前の相対的ピッチ曲線は、符号８７０で指定され、２つのフレーム（例えば、フレーム番号０とフレーム番号１）に適用される。予め決められた相対的ピッチ曲線開始値（または、時間軸圧縮曲線開始値）から開始する、新しい相対的ピッチ曲線区域（「時間軸圧縮曲線部分」としても示される）は、符号８７４で指定される。予め決められた相対的なピッチ曲線開始値（例えば、１）からの新しい相対的ピッチ曲線区域８７４の再開始は、時間内の再開始点に先行する相対的ピッチ曲線区域８７０と新しい相対的ピッチ曲線区域８７４との間の不連続をもたらす。不連続は符号８７８で指定される。この不連続は、時間軸圧縮制御情報を相対的ピッチ曲線から引き出すための厳しい問題をもたらし、音声歪みを結果としてもたらす。従って、再開始時間内の再開始点に先行する、以前に得られた相対的ピッチ曲線区域８７０は、再スケールされた相対的ピッチ曲線区域８７０´を得るために、再スケールされる（または、規格化される）。規格化は、相対的ピッチ曲線区域８７０の最後のサンプルが、予め決められた相対的ピッチ曲線開始値（例えば、１．０）に合わせてスケールされるように実行される。

【0087】

（アルゴリズムの詳細な説明）
以下では、本発明の実施形態に係る音声復号器によって実行されるアルゴリズムのいくつかが詳細に説明される。このために、図５ａ、図５ｂ、図６ａ、図６ｂ、図９ａ、図９ｂ、図９ｃ及び図１０ａ〜図１０ｇを参照する。さらに、図１１ａ、図１１ｂ−１及び図１１ｂ−２のデータ要素、補助要素および定数に関する説明を参照する。

【0088】

一般的に、ここで説明された方法は、時間軸圧縮された変形離散余弦変換（ＴＷ−ＭＤＣＴ）に従って符号化された音声ストリームを、復号化するために使用される、と言うことができる。従って、ＴＷ−ＭＤＣＴが音声ストリームに対して有効であるとき、時間軸圧縮のフィルタバンクおよびブロック切り換えは、標準のフィルタバンクおよびブロック切り換えに代わる。音声ストリームは、フラグ、例えば「ｔｗＭｄｃｔ」と称されるフラグによって示され、特定構造情報の中に含まれている。さらに、逆変形離散余弦変換（ＩＭＤＣＴ）に対して、時間軸圧縮のフィルタバンクおよびブロック切り換えは、任意に区切られた時間グリッドから規格で周期的に区切られた時間グリッドに時間領域写像するための時間領域と、対応する窓形状の適合と、を含む。

【0089】

以下において、復号化過程が説明される。第１のステップでは、時間軸圧縮曲線が復号化される。例えば、時間軸圧縮曲線は、時間軸圧縮曲線ノードのコード表インデックスリストを使用して符号化される。時間軸圧縮曲線ノードのコード表インデックスリストは、例えば、図９ａ−１のグラフ表示９１０で示されたアルゴリズムを使用して、復号化される。前記アルゴリズムによると、圧縮比率値（ｗａｒｐ＿ｖａｌｕｅ＿ｔｂｌ）が、例えば、図９ｃの写像表９９０によって定義された写像を使用して、圧縮比率コード表インデックスリスト（ｔｗ＿ｒａｔｉｏ）から引き出される。符号９１０として示されたアルゴリズムから分るように、仮に、フラグ（ｔｗ＿ｄａｔａ＿ｐｒｅｓｅｎｔ）が、時間軸圧縮データが存在していないことを示すならば、時間軸圧縮ノード値は、一定の予め決められた値に設定される。対照的に、仮に、フラグが、時間軸圧縮データが存在していることを示すならば、１番目の圧縮ノード値は、予め決められた時間軸圧縮曲線開始値（例えば、１）に設定される。次に、時間軸圧縮曲線部分の圧縮ノード値は、複数の時間軸圧縮比率値の積の形成に基づいて決定される。例えば、１番目の圧縮ノード（ｉ＝０）直後のノードの圧縮ノード値は、１番目の圧縮比率値と等しい（開始値が１であれば）、または、１番目の圧縮比率値と開始値との積と等しい。その後の時間軸圧縮ノード値（ｉ＝２、３、…ｎｕｍ＿ｔｗ＿ｎｏｄｅｓ）は、複数の時間軸圧縮比率値の積を形成することによって計算される。仮に、開始値が１と異なるならば、開始値を任意に考慮する。当然のことながら、積の形成の順は任意である。しかしながら、ｉ番目の圧縮ノード値と、時間軸圧縮曲線の２つの連続したノード値の間の比率を説明する、単一の圧縮比率値と、を乗算することによって、ｉ番目の圧縮ノード値から（ｉ＋１）番目の圧縮ノード値を引き出すことが有利である。

【0090】

符号９１０で示されたアルゴリズムから分るように、１つの音声フレーム当たり１つの時間軸圧縮曲線部分に対して、複数の圧縮比率コード表インデックスが存在する。時間軸圧縮曲線部分と音声フレームとの間には、１対１の対応が存在する。

【0091】

以上をまとめると、複数の時間軸圧縮ノード値が、例えば、圧縮ノード値計算機５４４を使用して、ステップ６１０における特定の時間軸圧縮曲線部分（または、特定の音声フレーム）ごとに得られる。次に、線形補間が、時間軸圧縮ノード値（ｗａｒｐ＿ｎｏｄｅ＿ｖａｌｕｅｓ［ｉ］）の間で実行される。例えば、「新しい時間軸圧縮曲線部分」の時間軸圧縮曲線データ値（ｎｅｗ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ）を得るために、図９ａ−１の符号９２０に示されたアルゴリズムが使用される。例えば、新しい時間軸圧縮曲線部分のサンプルの数は、逆変形離散余弦変換の時間領域のサンプルの数の半分と等しい。この問題に関して、隣接している音声信号フレームが、通常、ＭＤＣＴまたはＩＭＤＣＴの時間領域のサンプルの数の半分だけ、シフトする（少なくとも、近似的に）ことに注目すべきである。言い換えれば、サンプル（Ｎ＿ｌｏｎｇｓａｍｐｌｅｓ）の「新しい時間軸圧縮曲線部分」の時間軸圧縮曲線データ値（ｎｅｗ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ［］）を得るために、時間軸圧縮ノード値（ｗａｒｐ＿ｎｏｄｅ＿ｖａｌｕｅｓ［］）が、符号９２０で示されたアルゴリズムを使用して、等しく区切られた（ｉｎｔｅｒｐ＿ｄｉｓｔａｐａｒｔ）ノードの間に線形的に補間される。

【0092】

例えば、補間は、図５ａの補間器５４８によって、または、アルゴリズム６００のステップ６２０の中で実行される。

【0093】

このフレーム（すなわち、現在、考慮中のフレーム）のために完全な圧縮曲線を得る前に、過去からのバッファ値が再スケールされる。その結果、「過去の圧縮曲線（ｐａｓｔ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ［］）」の最後の圧縮値は、１（または、望ましくは、新しい時間軸圧縮曲線部分の開始値と等しい、別の予め決められた値）と等しい。

【0094】

ここで、用語「過去の圧縮曲線」は、望ましくは、前述の「最後の時間軸圧縮曲線部分」と「現在の時間軸圧縮曲線部分」とを含むことに注目すべきである。また、「過去の圧縮曲線」は、通常、ＩＭＤＣＴの時間領域のサンプル数と等しい長さを含むことに注目すべきである。その結果、「過去の圧縮曲線」の値は、０と２＊ｎ＿ｌｏｎｇ−１との間のインデックスで指定される。従って、「ｐａｓｔ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ［２＊ｎ＿ｌｏｎｇ−１］」は、「過去の圧縮曲線」の最後の圧縮値を指定する。従って、規格化係数（ｎｏｒｍ＿ｆａｃ）が、図９ａ−２における符号９３０に示された方程式によって、計算される。従って、過去の圧縮曲線（「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を含む）が、図９ａ−２における符号９３２に示された方程式によって、乗法的に再スケールされる。さらに、「最後の圧縮曲線合計値（ｌａｓｔ＿ｗａｒｐ＿ｓｕｍ）」および「現在の圧縮曲線合計値（ｃｕｒ＿ｗａｒｐ＿ｓｕｍ）」が、図９ａ−２の符号９３４と９３６に示されるように、乗法的に再スケールされる。再スケールは、図５ａの再スケール器５５０によって、または、図６ａの方法６００のステップ６３０の中で、実行される。

【0095】

例えば、符号９３０にて説明した規格化は、「１」の開始値を別の所望の予め決められた値に替えることによって、変更されることに注目すべきである。

【0096】

規格化を適用することによって、「時間軸圧縮曲線区域」としても示される「ｆｕｌｌｗａｒｐ＿ｃｏｎｔｏｕｒ［］」は、「ｐａｓｔ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ」と「ｎｅｗ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ」を連結することによって得られる。従って、３つの時間軸圧縮曲線部分（「最後の時間軸圧縮曲線部分」、「現在の時間軸圧縮曲線部分」および「新しい時間軸圧縮曲線部分」）は、「完全な圧縮曲線」を形成し、計算の更なるステップで適用される。

【0097】

さらに、圧縮曲線合計値（（ｎｅｗ＿ｗａｒｐ＿ｓｕｍ）が、すべての「ｎｅｗ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ［］」値の合計として計算される。例えば、新しい圧縮曲線合計値が、図９ａ−２における符号９４０に示されたアルゴリズムによって、計算される。

【0098】

以上の説明された計算に続いて、時間軸圧縮制御情報計算機５３０によって、または、方法６００のステップ６４０によって要求される入力情報は、利用可能である。従って、時間軸圧縮制御情報の計算６４０は、例えば、時間軸圧縮制御情報計算機５３０によって実行される。また、時間軸圧縮信号再構成６５０は、音声復号器によって実行される。計算６４０および時間軸圧縮信号再構成６５０は、共に、以下でさらに詳細に説明される。

【0099】

しかしながら、現在のアルゴリズムが繰り返して続くことに注目することは、重要である。従って、メモリを更新することは、計算上効率が良い。例えば、最後の時間軸圧縮曲線部分に関する情報を廃却することは、可能である。さらに、次の計算サイクルの中に、「最後の時間軸圧縮曲線部分」として、現在の「現在の時間軸圧縮曲線部分」を使用することは、推薦される。さらに、次の計算サイクルの中に、「現在の時間軸圧縮曲線部分」として、現在の「新しい時間軸圧縮曲線部分」を使用することは、推薦される。この課題は、図９ｂにおける符号９５０に示された方程式を使用することで作られる。ここで、「ｗａｒｐ＿ｃｏｎｔｏｕｒ［ｎ］」は、「２＊ｎ＿ｌｏｎｇ≦ｎ＜３・ｎ＿ｌｏｎｇ」に対して、現在の「新しい時間軸圧縮曲線部分」を示す。

【0100】

適切な課題が、図９ｂの符号９５２，９５４で見られる。

【0101】

言い換えれば、次のフレームを復号化するために使用されるメモリバッファが、符号９５０，９５２，９５４で示された方程式によって、更新される。

【0102】

仮に、適切な情報が、前のフレームに対して発生していないならば、方程式９５０，９５２，９５４に従った更新が、妥当な結果を提供しないことに注意するべきである。従って、１番目のフレームを復号化する前に、または、仮に、最後のフレームが、切り換えられた符号器の文脈の中で異なるタイプの符号器（例えば、ＬＰＣ領域符号器）で符号化されるならば、メモリの状態が、図９ｂの符号９６０，９６２，９６４に示された方程式によって、設定される。

【0103】

（時間軸圧縮制御情報の計算）
以下では、時間軸圧縮制御情報が、時間軸圧縮曲線（例えば、３つの時間軸圧縮曲線部分を含む）および圧縮曲線合計値に基づいて、どのように計算されるかを簡潔に説明される。

【0104】

例えば、時間軸圧縮曲線を使用して、時間曲線を再構成することが望まれる。このために、図１０ａの符号１０１０，１０１２に示されているアルゴリズムが使用される。時間曲線は、インデックスｉ（０≦ｉ≦３・ｎ＿ｌｏｎｇ）を、対応する時間軸圧縮値の上に写像する。そのような写像の一例が、図１２に示されている。

【0105】

時間曲線の計算に基づいて、線形時間スケールの時間軸圧縮サンプルの位置を示すサンプル位置（「ｓａｍｐｌｅ＿ｐｏｓ［］」）を計算することが、通常、必要である。そのような計算が、図１０ｂの符号１０３０で示されているアルゴリズムを使用して実行される。アルゴリズム１０３０において、図１０ａの符号１０２０と１０２２で示されている補助関数が使用される。従って、サンプル時間の情報が得られる。

【0106】

さらに、いくつかの時間軸圧縮転移長（「ｗａｒｐｅｄ＿ｔｒａｎｓ＿ｌｅｎ＿ｌｅｆｔ」；「ｗａｒｐｅｄ＿ｔｒａｎｓ＿ｌｅｎ＿ｒｉｇｈｔ」）が、例えば、図１０ｂに示されているアルゴリズム１０３２を使用して計算される。任意に、時間軸圧縮転移長は、例えば、図１０ｂの符号１０３４に示されたアルゴリズムを使用して、窓のタイプ、または、変換長さに依存して適合される。さらに、いわゆる「最初の位置」および「最後の位置」が、例えば、図１０ｂの符号１０３６に示されたアルゴリズムを使用して、転移長の情報に基づいて計算される。まとめると、サンプル位置および窓長の調整は、時間軸圧縮制御情報計算機５３０によって、または、方法６００のステップ６４０の中で実行される。「ｗａｒｐ＿ｃｏｎｔｏｕｒ［］」から、線形時間スケールで時間軸圧縮されたサンプルのサンプル位置ベクトル（ｓａｍｐｌｅ＿ｐｏｓ［］）が、計算される。このため、先ず、時間曲線が、符号１０１０，１０１２で示されたアルゴリズムを使用して発生する。符号１０２０，１０２２で示された補助関数「ｗａｒｐ＿ｉｎ＿ｖｅｃ（）」および「ｗａｒｐ＿ｔｉｍｅ＿ｉｎｖ（）」と共に、サンプル位置ベクトル（「ｓａｍｐｌｅ＿ｐｏｓ［］」）および転移長（「ｗａｒｐｅｄ＿ｔｒａｎｓ＿ｌｅｎ＿ｌｅｆｔ」と「ｗａｒｐｅｄ＿ｔｒａｎｓ＿ｌｅｎ＿ｒｉｇｈｔ」）が、例えば、符号１０３０，１０３２，１０３４，１０３６で示されたアルゴリズムを使用して、計算される。従って、時間軸圧縮制御情報５１２が得られる。

【0107】

（時間軸圧縮信号再構成）
以下では、時間軸圧縮制御情報５１２に基づいて実行される時間軸圧縮信号再構成が、簡潔に議論され、時間軸圧縮曲線の計算が、適切な文脈の中に入れられる。

【0108】

音声信号の再構成は、逆変形離散余弦変換の実現（当業者に周知であるので、ここでは詳細に説明しない）を含む。逆変形離散余弦変換は、１セットの周波数領域係数に基づいて、圧縮時間領域サンプルを再構成する。例えば、ＩＭＤＣＴの実現は、フレーム類を実行する。それは、例えば、２０４８個の圧縮時間領域サンプルの１フレームが、１セットの１０２４個の周波数領域係数に基づいて、再構成されていることを意味する。正しい再構成のために、３つ以上の連続した窓が重複しないことが必要である。ＴＷ−ＭＤＣＴの特性によれば、１つのフレームの逆時間軸圧縮部分が非隣接フレームに拡張することが起こる。従って、前記前提条件に違反する。故に、窓形状のフェード長が、前述の適切な「ｗａｒｐｅｄ＿ｔｒａｎｓ＿ｌｅｎ＿ｌｅｆｔ」値および「ｗａｒｐｅｄ＿ｔｒａｎｓ＿ｌｅｎ＿ｒｉｇｈｔ」値を計算することによって、短くされる必要がある。

【0109】

次に、窓化およびブロック切り替えステップ６５０Ｂが、ＩＭＤＣＴから得られた時間領域サンプルに適用される。窓化とブロック切り換えは、時間軸圧縮制御情報に依存してＩＭＤＣＴステップ６５０Ａによって提供された、圧縮時間領域サンプルに適用されて、窓付けされた圧縮時間領域サンプルを得る。例えば、「窓形状（「ｗｉｎｄｏｗ＿ｓｈａｐｅ」）」情報または要素によって、異なる過剰サンプル抽出された変換窓の原型が使用される。過剰サンプル抽出された窓の長さは、図１０ｃの符号１０４０で示された方程式で与えられる。例えば、第１の型の窓形状（例えば、「ｗｉｎｄｏｗ＿ｓｈａｐｅ」＝１）に対して、窓係数は、図１０ｃの符号１０４２で示された定義に従って、カイザー−ベッセル派生（ＫＢＤ）窓によって与えられる。ここで、「カイザー−ベッセル・カーネル窓関数」である「Ｗ´」は、図１０ｃの符号１０４４で示されているように定義される。

【0110】

別の方法は、異なる窓形状が使用されるとき（例えば、仮に、「ｗｉｎｄｏｗ＿ｓｈａｐｅ」＝０であれば）、正弦窓が符号１０４６の定義に従って使われる。すべての種類の窓系列（「ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅｓ」）に対して、左側窓形状のために使用される原型は、前のブロックの窓形状によって決定される。図１０ｃの符号１０４８で示された公式は、この事実を表現する。同様に、右側窓形状のための原型は、図１０ｃの符号１０５０で示された公式によって決定される。

【0111】

以下では、前述の窓の、ＩＭＤＣＴによって提供された圧縮時間領域サンプルへの応用が説明される。いくつかの実施形態において、フレームの情報は、複数の短い系列（例えば、８つの短系列）によって提供される。別の実施形態では、フレームの情報は、異なる長さのブロックを使用して提供される。この場合、特別な処理が、開始系列、終了系列、および／または、標準的でない長さの系列に必要である。しかしながら、転移長は、前述したように決定されるので、８つの短系列（「ｅｉｇｈｔ＿ｓｈｏｒｔ＿ｓｅｑｕｅｎｃｅ」という適切なフレーム型情報によって示される）を使用して符号化されたフレームと他の全てのフレームとを区別することは、十分である。

【0112】

例えば、８つの短系列によって説明されたフレームにおいて、図１０ｄ−１の符号１０６０で示されたアルゴリズムは、窓化のために適用される。対照的に、他の情報を使用して符号化されたフレームに対しては、図１０ｅの符号１０６４で示されたアルゴリズムが適用される。言い換えれば、図１０ｄ−１の符号１０６０で示されたＣコードのような部分は、窓化、および、いわゆる「８つの短系列」の内部重複加算を説明する。対照的に、図１０ｅの符号１０６４で示されたＣコードのような部分は、他の場合における窓化を説明する。

【0113】

（再サンプル抽出）
以下では、時間軸圧縮制御情報に依存した、窓付けされた圧縮時間領域サンプルの逆時間軸圧縮ステップ６５０Ｃが説明される。そこでは、周期的にサンプル抽出された時間領域サンプル、または、単なる時間領域サンプルが、時間変化している再サンプル抽出によって得られる。時間変化している再サンプル抽出において、窓付けされたブロック「ｚ［］」は、例えば、図１０ｆの符号１０７０で示されたインパルス応答を使用して、抽出位置に従って再サンプル抽出される。再サンプル抽出の前に、窓付けされたブロックは、図１０ｆの符号１０７２で示されるように、両端にゼロを入れる。再サンプル抽出自体は、図１０ｆの符号１０７４で示された仮コード区域によって説明される。

【0114】

（後再サンプル抽出器のフレーム処理）
以下では、時間領域サンプルの任意の後ステップ６５０Ｄが説明される。いくつかの実施形態では、後再サンプル抽出フレーム処理が、窓系列の型に依存して実行される。パラメータ「ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ」によって、所定の更なる処理ステップが適用される。

【0115】

例えば、仮に、窓系列が、いわゆる「８つの短系列（ＥＩＧＨＴ＿ＳＨＯＲＴ＿ＳＥＱＵＥＮＣＥ）」、「長い開始系列（ＬＯＮＧ＿ＳＴＡＲＴ＿ＳＥＱＵＥＮＣＥ）」、「停止開始系列（ＳＴＯＰ＿ＳＴＡＲＴ＿ＳＥＱＵＥＮＣＥ）」、「停止開始１１５２系列（ＳＴＯＰ＿ＳＴＡＲＴ＿１１５２＿ＳＥＱＵＥＮＣＥ）」、「ＬＰＤ系列（ＬＰＤ＿ＳＥＱＵＥＮＣＥ）」であるならば、符号１０８０ａ，１０８０ｂ，１０８２で示された後処理が実行される。

【0116】

例えば、仮に、次の窓系列がいわゆる「ＬＰＤ系列」であれば、修正窓Ｗｃｏｒｒ（ｎ）は、符号１０８０ｂで示された定義を考慮に入れて、符号１０８０ａで示されているように計算される。また、修正窓Ｗｃｏｒｒ（ｎ）は、図１０ｇの符号１０８２で示されているように適用される。

【0117】

他のすべての場合に対しては、図１０ｇの符号１０８４で見るように、何も成されない。

【0118】

（前の窓系列との重複および加算）
さらに、現在の時間領域サンプルと１つ以上の前の時間領域サンプルとの重複および加算ステップ６５０Ｅが、実行される。重複および加算ステップ６５０Ｅは、すべての系列に対して同じであり、図１０ｇの符号１０８６で示されているように、数学的に説明される。

【0119】

（説明）
また、与えられた表記に関して、その索引が図１１ａ、図１１ｂ−１及び図１１ｂ−２に示された説明図に成されている。通常、逆変換の合成窓長Ｎは、特に、構文要素「窓系列（ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅ）」とアルゴリズムの文脈との関数である。例えば、それは、図１１ｂ−２の符号１１９０で示されるように定義される。

【0120】

（図１３の実施形態）
図１３は、再構成された時間軸圧縮曲線情報を提供するための手段１３００のブロック概略図を示す。手段１３００は、図５ａを参照して説明された手段５２０の機能を引き継ぐ。しかしながら、データ経路とバッファが、さらに詳細に示される。手段１３００は、圧縮ノード値計算機５４４の機能を取る圧縮ノード値計算機１３４４を含む。圧縮ノード値計算機１３４４は、符号化された圧縮比率情報として、圧縮比率のコード表インデックス「ｔｗ＿ｒａｔｉｏ［］」を受信する。圧縮ノード値計算機１３４４は、例えば、図９ｃに表された時間軸圧縮比率値上への時間軸圧縮比率インデックスの写像を表す、圧縮値表を含む。圧縮ノード値計算機１３４４は、さらに、図９ａ−１の符号９１０で表されたアルゴリズムを実行するための乗算器を含む。従って、圧縮ノード値計算機１３４４は、圧縮ノード値「ｗａｒｐ＿ｎｏｄｅ＿ｖａｌｕｅｓ［ｉ］」を提供する。さらに、手段１３００は、圧縮曲線補間器１３４８を含む。圧縮曲線補間器１３４８は、補間器５４０ａの機能を取り、図９ａ−１の符号９２０で示されたアルゴリズムを実行するように構成されている。その結果、新しい圧縮曲線（「ｎｅｗ＿ｗａｒｐ＿ｃｏｎｔｏｕｒ」）の値を得る。手段１３００は、さらに、新しい圧縮曲線バッファ１３５０を含む。新しい圧縮曲線バッファ１３５０は、新しい圧縮曲線（すなわち、「ｗａｒｐ＿ｃｏｎｔｏｕｒ［ｉ］」、２・ｎ＿ｌｏｎｇ≦ｉ＜３・ｎ＿ｌｏｎｇ）の値を格納する。手段１３００は、さらに、過去の圧縮曲線バッファ／更新器１３６０を含む。過去の圧縮曲線バッファ／更新器１３６０は、「最後の時間軸圧縮曲線部分」と「現在の時間軸圧縮曲線部分」を格納して、再スケールおよび現在のフレームの処理の完成に対応して、記憶内容を更新する。従って、過去の圧縮曲線バッファ／更新器１３６０は、過去の圧縮曲線再スケーラ１３７０と協働する。その結果、過去の圧縮曲線バッファ／更新器１３６０と過去の圧縮曲線再スケーラ１３７０とは、共にアルゴリズム９３０，９３２，９３４，９３６，９５０，９６０の機能を十分に満たす。また、任意に、過去の圧縮曲線バッファ／更新器１３６０は、アルゴリズム９３２，９３６，９５２，９５４，９６２，９６４の機能を引き継ぐ。

【0121】

従って、手段１３００は、圧縮曲線（「ｗａｒｐ＿ｃｏｎｔｏｕｒ」）を提供して、圧縮曲線合計値を最適に提供する。

【0122】

（図１４の音声信号符号器）
以下では、本発明に係る音声信号符号器が説明される。図１４の音声信号符号器は、符号１４００でその全体が指定される。音声信号符号器１４００は、音声信号１４１０と、音声信号１４１０に関係した、任意に外部的に提供された圧縮曲線情報１４１２と、を受信するように構成されている。さらに、音声信号符号器１４００は、音声信号１４１０の符号化された表現１４１４を提供するように構成されている。

【0123】

音声信号符号器１４００は時間軸圧縮曲線符号器１４２０を含む。時間軸圧縮曲線符号器１４２０は、音声信号１４１０に関係した時間軸圧縮曲線情報１４２２を受信して、それに基づいて、符号化した時間軸圧縮曲線情報１４２４を提供するように構成されている。

【0124】

音声信号符号器１４００は、さらに、時間軸圧縮信号処理器（または、時間軸圧縮信号符号器）１４３０を含む。時間軸圧縮信号処理器１４３０は、音声信号１４１０を受信して、それに基づいて、時間軸圧縮曲線情報１４２２によって説明された時間軸圧縮を考慮に入れて、音声信号１４１０の時間軸圧縮符号化表現１４３２を提供するように構成されている。音声信号１４１０の符号化された表現１４１４は、符号化された時間軸圧縮曲線情報１４２４と、音声信号１４１０のスペクトルの時間軸圧縮符号化表現１４３２と、を含む。

【0125】

任意に、音声信号符号器１４００は圧縮曲線情報計算機１４４０を含む。圧縮曲線情報計算機１４４０は、音声信号１４１０に基づいて時間軸圧縮曲線情報１４２２を提供するように構成されている。しかしながら、時間軸圧縮曲線情報１４２２は、２者択一的に、外部的に提供された圧縮曲線情報１４１２に基づいても提供される。

【0126】

時間軸圧縮曲線符号器１４２０は、時間軸圧縮曲線情報１４２４によって説明された時間軸圧縮曲線の連続したノード値の間の比率を、計算するように構成されている。例えば、ノード値は、時間軸圧縮曲線情報１４２４によって表された時間軸圧縮曲線のサンプル値である。例えば、仮に、時間軸圧縮曲線情報１４２４が、音声信号１４１０の各フレームごとに、複数の値を含むならば、時間軸圧縮ノード値は、この時間軸圧縮曲線情報１４２４の真の部分集合である。例えば、時間軸圧縮ノード値は、時間軸圧縮曲線値の周期的な真の部分集合である。時間軸圧縮曲線ノード値は、Ｎ個の音声サンプルごとに存在する。ここで、Ｎは２以上である。

【0127】

時間軸圧縮曲線ノード値比率計算機は、時間軸圧縮曲線の連続した時間軸圧縮ノード値の間の比率を計算して、時間軸圧縮曲線の連続したノード値の間の比率を説明する情報を提供するように、構成されている。時間軸圧縮曲線符号器１４２０の比率符号器は、時間軸圧縮曲線の連続したノード値の間の比率を符号化するように、構成されている。例えば、比率符号器は、異なる比率を、異なるコード表インデックスに写像する。例えば、写像化は、時間軸圧縮曲線ノード値比率計算機によって提供された比率が、０．９〜１．１の範囲内、または、０．９５〜１．０５の範囲内にさえあるように、選ばれる。従って、比率符号器は、この範囲を、異なるコード表インデックスに写像するように構成されている。例えば、図９ｃの表に示された対応は、この写像化の中で補助点として機能する。その結果、例えば、１の比率が、３のコード表インデックスに写像される。一方、１．００５７の比率が、４のコード表インデックスに写像される（図９ｃを比較してください）。図９ｃの表に示された対応の間の比率値は、適したコード表インデックスに、例えば、図９ｃの表の中で与えられる最も近い比率値のコード表インデックスに、写像される。

【0128】

当然のことながら、異なる符号化が使用されてもよい。その結果、例えば、利用可能なコード表インデックスの数字は、ここで示された数字より大きい数字、または、より小さい数字が選ばれてもよい。また、圧縮曲線ノード値とコード表値のインデックスとの間の関連が、適切に選ばれてもよい。また、例えば、コード表インデックスは、二進符号化を使用して、任意にエントロピー符号化を使用して、符号化されてもよい。

【0129】

従って、時間軸圧縮曲線情報（符号化された比率）１４２４が得られる。

【0130】

時間軸圧縮信号処理器１４３０は、時間軸圧縮時間領域−周波数領域変換器１４３４を含む。変換器１４３４は、音声信号１４１０と音声信号１４１０（または、その符号化されたバージョン）に関係した時間軸圧縮曲線情報１４２２ａとを受信して、それぞれに基づいて、スペクトル領域（周波数領域）表現１４３６を提供するように構成されている。

【0131】

時間軸圧縮曲線情報１４２２ａは、望ましくは、圧縮復号器１４２５を使用して、時間軸圧縮曲線符号器１４２０によって提供された時間軸圧縮曲線情報１４２４から引き出される。このようにして、符号器（特に時間軸圧縮信号処理器１４３０自身）と復号器（音声信号の符号化された表現１４１４を受信する）とが、同じ圧縮曲線、すなわち、復号化された（時間軸）圧縮曲線上で作動することが、達成される。しかしながら、簡素な実施形態においては、時間軸圧縮信号処理器１４３０によって使用される時間軸圧縮曲線情報１４２２ａは、時間軸圧縮曲線符号器１４２０によって入力された時間軸圧縮曲線情報１４２２と同一のものである。

【0132】

時間軸圧縮時間領域−周波数領域変換器１４３４は、例えば、音声信号１４１０の時間変化再サンプル抽出操作を使用して、スペクトル領域表現１４３６を形成するとき、時間軸圧縮を考える。しかしながら、２者択一的に、時間変化再サンプル抽出と時間領域−周波数領域変換とは、１つの処理ステップの中に合成されてもよい。また、時間軸圧縮信号処理器１４３０は、スペクトル領域表現１４３６を符号化するように構成されているスペクトル値符号器１４３８を含む。スペクトル値符号器１４３８は、例えば、知覚マスキングを考慮するように構成されている。また、スペクトル値符号器１４３８は、周波数帯域の知覚関係に符号化精度を適合させて、エントロピー符号化を適用するように構成されている。従って、音声信号１４１０の符号化された表現１４３２が得られる。

【0133】

（図１５の時間軸圧縮曲線計算機）
図１５は、本発明の別の実施形態に係る時間軸圧縮曲線計算機１５００のブロック概略図を示す。時間軸圧縮曲線計算機１５００は、符号化された圧縮比率情報１５１０を受信して、それに基づいて、複数の圧縮曲線ノード値１５１２を提供するように構成されている。時間軸圧縮曲線計算機１５００は、例えば、圧縮比率復号器１５２０を含む。圧縮比率復号器１５２０は、圧縮比率値１５２２の系列を、符号化された圧縮比率情報１５１０から引き出すように構成されている。また、時間軸圧縮曲線計算機１５００は、圧縮曲線ノード値計算機１５３０を含む。圧縮曲線ノード値計算機１５３０は、圧縮曲線ノード値１５１２の系列を、圧縮比率値１５２２の系列から引き出すように構成されている。例えば、圧縮曲線ノード値計算機１５３０は、圧縮曲線開始値から開始する圧縮曲線開始ノード値を得るように構成されている。圧縮曲線ノード値計算機１５３０の中で、圧縮曲線開始ノードに関係した圧縮曲線開始値と圧縮曲線ノード値との間の比率が、圧縮比率値１５２２によって決定される。また、圧縮曲線ノード値計算機１５３０は、乗算形式に基づいて、特定の圧縮曲線ノードの圧縮曲線ノード値１５１２を計算するように構成されている。特定の圧縮曲線ノードは、中間圧縮曲線ノードによって、圧縮曲線開始ノードから区切られている。前記乗算形式は、係数として、圧縮曲線開始値（例えば、１）と中間圧縮曲線ノードの圧縮曲線ノード値との間の比率、ならびに、中間圧縮曲線ノードの圧縮曲線ノード値と特定の圧縮曲線ノードの圧縮曲線ノード値との間の比率を含む。

【0134】

以下では、時間軸圧縮曲線計算機１５００の操作が、図１６ａと図１６ｂに従って簡潔に議論される。

【0135】

図１６ａは時間軸圧縮曲線の連続した計算のグラフ表示を示す。第１のグラフ表示１６１０は、時間軸圧縮比率コード表インデックス１５１０（インデックス＝０、インデックス＝１、インデックス＝２、インデックス＝３、インデックス＝７）の系列を示す。さらに、グラフ表示１６１０は、コード表インデックス１５１０に関係した圧縮比率値（０．９８３，０．９８８，０．９９４，１．０００，１．０２３）の系列を示す。さらに、１番目の圧縮ノード値１６２１（ｉ＝０）が１に選ばれていることがわかる（ここで、１は開始値である）。２番目の圧縮ノード値１６２２（ｉ＝１）は、開始値１と、１番目の圧縮比率値０．９８３（１番目のインデックス０に関係している）と、を積算することによって得られる。さらに、３番目の圧縮ノード値１６２３（ｉ＝２）は、２番目の圧縮ノード値１６２２の０．９８３と、２番目の圧縮比率値０．９８８（２番目のインデックス１に関係している）と、を積算することによって得られる。同様にして、４番目の圧縮ノード値１６２４（ｉ＝３）は、３番目の圧縮ノード値１６２３と、３番目の圧縮比率値０．９９４（３番目のインデックス２に関係している）と、を積算することによって得られる。

【0136】

従って、圧縮ノード値１６２１〜１６２６の系列が得られる。

【0137】

それぞれの圧縮ノード値１６２２〜１６２６が、開始値（例えば、１）と全ての中間圧縮比率値（開始圧縮ノード１６２１とそれぞれの圧縮ノード値１６２２〜１６２６との間に存在する）との積となるように、効率良く得られる。

【0138】

グラフ表示１６４０は、圧縮ノード値１６２１〜１６２６の間の線形補間を例証する。例えば、補間値１６２１ａ，１６２１ｂ，１６２１ｃは、例えば、線形補間を利用して、音声信号復号器の中で、２つの隣接する時間軸圧縮ノード値１６２１と１６２２との間で得られる。

【0139】

図１６ｂは、予め決められた開始値からの周期的な再開始を使用した、時間軸圧縮曲線再構成のグラフ表示を示す。時間軸圧縮曲線再構成は、任意に、時間軸圧縮曲線計算機１５００の中で実行される。言い換えれば、符号器側における、または、復号器側における、他の適切な測定によって、数値オーバーフローを避けることが提供されるならば、繰り返し、または、周期的な再開始は、基本的な特徴ではない。圧縮曲線部分は、圧縮曲線ノード１６６１，１６６２，１６６３，１６６４が決定される開始ノード１６６０から開始することができる。このために、圧縮比率値（０．９８３，０．９８８，０．９６５，１．０００）が考えられ、その結果、第１の時間軸圧縮曲線部分の隣接圧縮曲線ノード１６６１〜１６６４が、これらの圧縮比率値によって決定された比率によって離される。しかしながら、第２の時間軸圧縮曲線部分は、第１の圧縮曲線部分（ノード１６６０〜１６６４を含む）の終了ノード１６６４に達した後に、開始させられる。第２の時間軸圧縮曲線部分は、新しい開始ノード１６６５から開始する。新しい開始ノード１６６５は、予め決められた開始値（１）を取り、どんな圧縮比率値からも、独立している。従って、第２の時間軸圧縮曲線部分の圧縮ノード値は、第２の時間軸圧縮曲線部分の圧縮比率値に基づいて、第２の時間軸圧縮曲線部分の開始ノード１６６５からの開始を計算する。その後、第３の時間軸圧縮曲線部分は、対応する開始ノード１６７０から開始する。開始ノード１６７０は、再び、どんな圧縮比率値からも独立した、予め決められた開始値（１）を取る。従って、時間軸圧縮曲線部分の周期的な再開始が得られる。任意に、繰り返しの再規格化が、前述で詳細に説明したように、適用される。

【0140】

（図１７の音声信号符号器）
以下では、本発明の別の実施形態に係る音声信号符号器が、図１７を参照して簡潔に説明される。音声信号符号器１７００は、マルチチャンネル音声信号１７１０を受信して、マルチチャンネル音声信号１７１０の符号化された音声表現１７１２を提供するように構成されている。音声信号符号器１７００は、符号化音声表現提供装置１７２０を含む。符号化音声表現提供装置１７２０は、共通してマルチチャンネル音声信号の複数の音声チャンネルに関係した共通圧縮曲線情報を含む音声表現、または、複数の音声チャンネルの異なる音声チャンネルに個別に関係した個別の圧縮曲線情報を含む符号化音声表現を、選択的に提供するように構成されている。それらの表現は、複数の音声チャンネルの音声チャンネルに関係した圧縮曲線の間の類似または相違を説明する情報に依存している。

【0141】

例えば、音声信号符号器１７００は、圧縮曲線類似計算機または圧縮曲線相違計算機１７３０を含む。圧縮曲線類似計算機または圧縮曲線相違計算機１７３０は、音声チャンネルに関係した圧縮曲線の間の類似または相違を説明する情報１７３２を提供するように構成されている。符号化音声表現提供装置１７２０は、例えば、時間軸圧縮曲線情報１７２４および情報１７３２を受信するように構成された選択的時間軸圧縮曲線符号器１７２２を含む。時間軸圧縮曲線情報１７２４は、外部から提供される、または、任意の時間軸圧縮曲線情報計算機１７３４によって提供される。仮に、情報１７３２が、２つ以上の音声チャンネルの時間軸圧縮曲線が十分に類似であることを示すならば、選択的時間軸圧縮曲線符号器１７２２は、共通符号化時間軸圧縮曲線情報を提供するように構成されている。共通符号化時間軸圧縮曲線情報は、例えば、２つ以上のチャンネルの圧縮曲線情報の平均に基づいている。しかしながら、２者択一的に、共通符号化時間軸圧縮曲線情報は、一つの音声チャンネルの単一の圧縮曲線情報であるが、複数のチャンネルに共通して関係している圧縮曲線情報に基づいている。

【0142】

しかしながら、仮に、情報１７３２が、複数の音声チャンネルの圧縮曲線が十分類似でないことを示すならば、選択的時間軸圧縮曲線符号器１７２２は、異なった時間軸圧縮曲線の別々の符号化情報を提供する。

【0143】

また、符号化音声表現提供装置１７２０は、時間軸圧縮信号処理器１７２６を含む。時間軸圧縮信号処理器１７２６は、時間軸圧縮曲線情報１７２４とマルチチャンネル音声信号１７１０を受信して、音声信号１７１０の複数のチャンネルを符号化するように構成されている。時間軸圧縮信号処理器１７２６は、異なる操作モードを含む。例えば、時間軸圧縮信号処理器１７２６は、相互チャネル類似性を利用して、選択的に個別に音声チャンネルを符号化する、または、共通してそれらを符号化するように構成される。いくつかの場合、時間軸圧縮信号処理器１７２６は、共通の時間軸圧縮曲線情報を持つ複数の音声チャンネルを、共通して符号化できることが好ましい。左の音声チャンネルと右の音声チャンネルとは、同じ相対的ピッチ進展を示すが、別の異なる信号特性、例えば、異なる絶対基本周波数または異なるスペクトルエンベロープ（包絡線）を、持つ場合がある。この場合、左の音声チャンネルと右の音声チャンネルとの間の著しい相違のため、左の音声チャンネルと右の音声チャンネルとを共同して符号化することは、望ましくない。それにもかかわらず、左の音声チャンネルおよび右の音声チャンネルにおける相対的ピッチ進展は、並列である。その結果、共通時間軸圧縮の応用は、非常に効率の良い解決策である。そのような音声信号の例は多音音楽である。多音音楽においては、複数の音声チャンネルの内容が、例えば、異なる歌手や楽器によって支配される著しい相違を示すが、類似のピッチ変化を示す。従って、符号化効率は、複数の音声チャンネルの時間軸圧縮曲線を共同して符号化させる可能性を提供することによって、非常に向上される。一方、共通のピッチ曲線情報が提供される、異なる音声チャンネルの周波数スペクトルを別々に符号化する選択肢は、維持される。

【0144】

符号化音声表現提供装置１７２０は、任意に、サイド情報符号器１７２８を含む。サイド情報符号器１７２８は、情報１７３２を受信して、共通の符号化された圧縮曲線を複数の音声チャンネルに提供するか否か、または、個別の符号化された圧縮曲線を複数の音声チャンネルに提供するか否かを示すサイド情報を提供する、ように構成されている。例えば、そのようなサイド情報は、１ビットフラグ（「ｃｏｍｍｏｎ＿ｔｗ」と称する）の形式で提供される。

【0145】

以上をまとめると、選択的時間軸圧縮曲線符号器１７２２は、複数の音声信号に関係した時間軸圧縮音声曲線の個別の符号化された表現、または、複数の音声チャンネルに関係した単一の共通時間軸圧縮曲線を表す、共同して符号化された時間軸圧縮曲線表現を、選択的に提供する。サイド情報符号器１７２８は、任意に、個別の時間軸圧縮曲線表現、または、共通時間軸圧縮曲線表現のいずれか一方が提供されることを示すサイド情報を提供する。時間軸圧縮信号処理器１７２６は、複数の音声チャンネルの符号化された表現を提供する。任意に、共通符号化情報は、複数の音声チャンネルに提供される。しかしながら、通常、共通時間軸圧縮曲線表現が利用可能である複数の音声チャンネルの、個別の符号化された表現を提供することは、可能である。従って、異なる音声内容を持つが、同じ時間軸圧縮を持っている異なる音声チャンネルが、適切に表現される。その結果、符号化された音声表現１７１２は、選択的時間軸圧縮曲線符号器１７２２と、時間軸圧縮信号処理器１７２６と、任意のサイド情報符号器１７２８と、によって提供された符号化された情報を含む。

【0146】

（図１８の音声信号復号器）
図１８は、本発明の実施形態に係る音声信号復号器のブロック概略図を示す。音声信号復号器１８００は、符号化された音声信号表現１８１０（例えば、符号化された表現１７１２）を受信して、それに基づいて、マルチチャンネル音声信号の復号化された表現１８１２を提供するように構成されている。音声信号復号器１８００は、サイド情報抽出器１８２０と時間軸圧縮復号器１８３０とを含む。サイド情報抽出器１８２０は、時間軸圧縮曲線応用情報１８２２および圧縮曲線情報１８２４を、符号化された音声信号表現１８１０から引き出すように構成されている。例えば、サイド情報抽出器１８２０は、単一の共通の時間軸圧縮情報が、符号化された音声信号の複数のチャンネルに利用可能であるか否か、または、別々の時間軸圧縮曲線情報が、複数のチャンネルに利用可能であるか否か、を識別するように構成されている。従って、サイド情報抽出器１８２０は、時間軸圧縮曲線応用情報１８２２（共通のまたは個別の時間軸圧縮曲線情報が利用可能であるか否かを示す）と、時間軸圧縮曲線情報１８２４（共通（共同）時間軸圧縮曲線または個別の時間軸圧縮曲線の時間的進展を説明する）と、を共に提供する。時間軸圧縮復号器１８３０は、情報１８２２，１８２４によって説明された時間軸圧縮を考慮に入れて、符号化された音声信号表現１８１０に基づいて、マルチチャンネル音声信号の復号化された表現１８１２を再構成するように構成されている。例えば、時間軸圧縮復号器１８３０は、個別の符号化された周波数領域情報が利用可能である異なる音声チャンネルを復号化するために、共通の時間軸圧縮曲線を適用するように構成されている。従って、時間軸圧縮復号器１８３０は、例えば、類似の、または、同じ時間軸圧縮を含むが、異なるピッチを含むマルチチャンネル音声信号の、異なるチャンネルを再構成する。

【0147】

（図１９ａ〜図１９ｅの音声ストリーム）
以下では、１つ以上の音声信号チャンネルと１つ以上の時間軸圧縮曲線との符号化された表現を含む音声ストリームが説明される。

【0148】

図１９ａは、いわゆる「ｕｓａｃ＿ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」データストリーム要素のグラフ表示を示す。「ｕｓａｃ＿ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」データストリーム要素は、単一チャンネル要素（ｓｉｎｇｌｅｃｈａｎｎｅｌｅｌｅｍｅｎｔ）、チャンネルペア要素（ｃｈａｎｎｅｌｐａｉｒｅｌｅｍｅｎｔ）、または、１つ以上の単一チャンネル要素、および／または、１つ以上のチャンネルペア要素の結合を含む。

【0149】

「ｕｓａｃ＿ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」は、通常、符号化された音声データのブロックを含む。一方、追加時間軸圧縮曲線情報は、分離データストリーム要素の中に提供される。それにもかかわらず、通常、いくつかの時間軸圧縮曲線データを「ｕｓａｃ＿ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」の中に符号化することは、可能である。

【0150】

図１９ｂから分るように、単一チャンネル要素は、通常、周波数領域チャンネルストリーム（「ｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ」）を含む。周波数領域チャンネルストリームは、図１９ｄを参照して詳細に説明される。

【0151】

図１９ｃから分るように、チャンネルペア要素（「ｃｈａｎｎｅｌ＿ｐａｉｒ＿ｅｌｅｍｅｎｔ」）は、通常、複数の周波数領域チャンネルストリームを含む。また、チャンネルペア要素は時間軸圧縮情報を含む。例えば、構成データストリーム要素、または、「ｕｓａｃ＿ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」の中に伝送される、時間軸圧縮起動フラグ（「ｔｗ＿ＭＤＣＴ」フラグ）は、時間軸圧縮情報がチャンネルペア要素の中に含まれているか否かを決定する。例えば、仮に、「ｔｗ＿ＭＤＣＴ」フラグが、時間軸圧縮が起動していることを示すならば、チャンネルペア要素は、チャンネルペア要素の音声チャンネルのための共通時間軸圧縮が存在するか否かを示すフラグ（「ｃｏｍｍｏｎ＿ｔｗ」）を含む。仮に、前記フラグ（ｃｏｍｍｏｎ＿ｔｗ）が、複数の音声チャンネルのための共通の時間軸圧縮が存在することを示すならば、共通の時間軸圧縮情報（ｔｗ＿ｄａｔａ）は、チャンネルペア要素の中に含まれ、例えば、周波数領域チャンネルストリームから分離される。

【0152】

図１９ｄを参照して、周波数領域チャンネルストリームが説明される。図１９ｄから分るように、周波数領域チャンネルストリームは、例えば、全体利得情報を含む。また、仮に、時間軸圧縮が起動し（フラグ「ｔｗ＿ＭＤＣＴ」が起動し）、かつ、複数の音声信号チャンネルのための共通の時間軸圧縮情報が存在しなければ（フラグ「ｃｏｍｍｏｎ＿ｔｗ」が不起動であれば）、周波数領域チャンネルストリームは、時間軸圧縮データを含む。

【0153】

さらに、周波数領域チャンネルストリームは、スケール係数データ（「ｓｃａｌｅ＿ｆａｃｔｏｒ＿ｄａｔａ」）と、符号化されたスペクトルデータ（例えば、算術的に符号化されたスペクトルデータ「ａｃ＿ｓｐｅｃｔｒａｌ＿ｄａｔａ」）と、を含む。

【0154】

図１９ｅを参照して、時間軸圧縮データの構文が簡潔に議論される。時間軸圧縮データは、例えば、任意に、時間軸圧縮データが存在するか否かを示すフラグ（例えば、「ｔｗ＿ｄａｔａ＿ｐｒｅｓｅｎｔ」または「ａｃｔｉｖｅＰｉｔｃｈＤａｔａ」）を含む。仮に、時間軸圧縮データが存在するならば（すなわち、時間軸圧縮曲線は平坦でないならば）、時間軸圧縮データは、複数の符号化された時間軸圧縮比率値の系列（例えば、「ｔｗ＿ｒａｔｉｏ［ｉ］」または「ｐｉｔｃｈＩｄｘ［ｉ］」）を含む。前記時間軸圧縮比率値の系列は、例えば、図９ｃのコード表テーブルに従って符号化される。

【0155】

従って、仮に、時間軸圧縮曲線が一定であるならば（時間軸圧縮比率が１．０００に殆んど等しいならば）、時間軸圧縮データは、利用可能な時間軸圧縮データが存在しないことを示すフラグを含む。フラグは、音声信号符号器によって設定される。対照的に、仮に、時間軸圧縮曲線が変化するならば、連続した時間軸圧縮曲線ノードの間の比率は、「ｔｗ＿ｒａｔｉｏ」情報を作るコード表インデックスを使用して、符号化される。

【0156】

（結論）
以上をまとめると、本発明に係る実施形態は、時間軸圧縮の分野の中で異なる改良をもたらす。

【0157】

ここで説明した発明の様相は、時間軸圧縮ＭＤＣＴ変換符号器（例えば、特許文献１を参照）の文脈の中にある。本発明に係る実施形態は、時間軸圧縮ＭＤＣＴ変換符号化器の性能を向上させるための方法を提供する。

【0158】

本発明の様相によれば、特に効率の良いビットストリーム形式が提供される。ビットストリーム形式の記述は、ＭＰＥＧ−２ＡＡＣビットストリーム構文（例えば、非特許文献１を参照）に基き、そして、それを高める。しかし、ビットストリーム形式の記述は、もちろん、ストリームの開始位置の概説ヘッダーと、個別のフレームの情報構文と、を有する全てのビットストリーム形式に適用できる。

【0159】

例えば、以下のサイド情報はビットストリームの中に伝送される。

【0160】

一般に、１ビットのフラグ（例えば、「ｔｗ＿ＭＤＣＴ」と称する）は、時間軸圧縮が起動しているか否かを示す一般的な音声特定構成（ＧＡＳＣ）の中に存在する。ピッチデータは、図１９ｅに示した構文、または、図１９ｆに示した構文を使用して、伝送される。図１９ｆの構文では、ピッチの数（「ｎｕｍＰｉｔｃｈｅｓ」）は１６と等しい。そして、「ｎｕｍＰｉｔｃｈＢｉｔｓ」の中のピッチビットの数は３と等しい。言い換えれば、時間軸圧縮曲線部分（または音声信号フレーム）当たり１６個の符号化された圧縮比率値が存在する。そして、それぞれの圧縮曲線比率値は、３ビットを使用して符号化される。

【0161】

さらに、単一チャンネル要素（ＳＣＥ）の場合において、仮に、時間軸圧縮が起動されているならば、ピッチデータ（「ｐｉｔｃｈ＿ｄａｔａ［］」）は、個別のチャンネルの中において、区域データの前に位置する。

【0162】

チャンネルペア要素（ＣＰＥ）の場合において、仮に、両方のチャンネルのための共通ピッチデータが存在するならば、共通ピッチフラグ信号は、区域データの後に続く。仮に、両方のチャンネルのための共通ピッチデータが存在しないならば、個別のピッチ曲線は、個別のチャンネルの中に見つけられる。

【0163】

以下では、チャンネルペア要素のために提出された例である。１つの例が、ステレオパノラマの中に置かれた、単一倍音源の信号である。この場合、第１のチャンネルおよび第２のチャンネルのための相対的ピッチ曲線は、等しい、または、変化に関する評価におけるいくつかの小さい誤りのため僅かだけ異なる。この場合、符号器は、各チャンネルのために２つの分離符号化ピッチ曲線を送信する代わりに、第１および第２のチャンネルのピッチ曲線の平均である１つのピッチ曲線だけを送信して、両方のチャンネル上のＴＷ−ＭＤＣＴを適用する際に、同じ曲線を使用することを決定する。他方で、ピッチ曲線に関する評価が第１および第２のチャンネルそれぞれのために異なる結果をもたらす信号が、存在する。この場合、個々に符号化されたピッチ曲線は、対応するチャンネルの中に送信される。

【0164】

以下では、ピッチ曲線データの有利な復号化が、本発明の様相に従って説明される。例えば、仮に、「ａｃｔｉｖｅＰｉｔｃｈＤａｔａ」フラグが０であれば、ピッチ曲線は、フレームの中の全てのサンプルに対して１に設定される。さもなければ、個別のピッチ曲線ノードは、以下の通り計算される。
１．（「ｎｕｍＰｉｔｃｈｅｓ」＋１）個のノードが存在する。
２．「ｎｏｄｅ［０］」は常に１．０である。
３．関係式ｎｏｄｅ［ｉ］＝ｎｏｄｅ［ｉ−１］・ｒｅｌＣｈａｎｇｅ［ｉ］（ｉ＝１．．「ｎｕｍＰｉｔｃｈｅｓ」＋１）
ここで、「ｒｅｌＣｈａｎｇｅ［ｉ］」は、「ｐｉｔｃｈＩｄｘ［ｉ］」の逆量子化によって得られる。

【0165】

ピッチ曲線は、ノード間の線形補間によって発生される。ここで、ノードサンプル位置は、「０：ｆｒａｍｅＬｅｎ／ｎｕｍＰｉｔｃｈｅｓ：ｆｒａｍｅＬｅｎ」である。

【0166】

（２者択一の実施例）
所定の実施例の要求に依存して、本発明の実施形態が、ハードウェアまたはソフトウェアの中で実行される。実施例は、電子的に読み込み可能な制御信号を格納するデジタル格納媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、または、フラッシュメモリを使用して実行される。デジタル格納媒体は、プログラマブルコンピュータシステムと協働する（または、共に操作できる）。その結果、それぞれの方法が実行される。

【0167】

本発明に係るいくつかの実施形態は、電子的に読み込み可能な制御信号を有するデータキャリアを含む。データキャリアは、プログラマブルコンピュータシステムと共に操作できる。その結果、ここで説明された方法の１つが実行される。

【0168】

一般に、本発明に係る実施形態は、プログラムコードを有するコンピュータプログラム製品として実行される。コンピュータプログラム製品が、コンピュータ上で稼動するとき、プログラムコードは、方法の１つを実行するために操作される。プログラムコードは、例えば、機械読み込み可能なキャリヤー上に格納される。

【0169】

別の実施形態は、ここで説明された方法の１つを実行するためのコンピュータプログラムを含む。コンピュータプログラムは、機械読み込み可能なキャリヤー上に格納される。

【0170】

言い換えれば、本発明の方法に係る実施形態は、コンピュータプログラムが、コンピュータ上で稼動するとき、ここで説明した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0171】

本発明の方法の別の実施形態は、その上に記録された、ここで説明された方法の１つを実行するためのコンピュータプログラムを含む、データキャリア（または、デジタル格納媒体、または、コンピュータ読み込み可能な媒体）ある。

【0172】

本発明の方法の別の実施形態は、ここで説明された方法の１つを実行するためのコンピュータプログラムを表示するデータストリームまたは信号系列である。データストリームまたは信号系列は、データ通信接続、例えば、インターネットを通して、伝送されるように構成されている。

【0173】

別の実施形態は、ここで説明された方法の１つを実行するように構成された、または適合させた処理手段（例えば、コンピュータ、または、プログラム可能論理回路装置）を含む。

【0174】

別の実施形態は、ここで説明された方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

【0175】

いくつかの実施形態において、プログラム可能論理回路装置（例えば、電界プログラマブルゲートアレイ）は、ここで説明された方法のいくつかの、または、全ての機能を実行するように使用される。いくつかの実施形態において、電界プログラマブルゲートアレイは、ここで説明された方法の１つを実行するために、マイクロ処理器と協働する。

【図1】