特許6109162 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オランジュの特許一覧

特許6109162遅延が最適化された重み付け窓（ＷｅｉｇｈｔｉｎｇＷｉｎｄｏｗ）を用いて符号化／復号化する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6109162

(24)【登録日】2017年3月17日

(45)【発行日】2017年4月5日

(54)【発明の名称】遅延が最適化された重み付け窓（ＷｅｉｇｈｔｉｎｇＷｉｎｄｏｗ）を用いて符号化／復号化する方法

(51)【国際特許分類】

G10L 19/022 20130101AFI20170327BHJP

G10L 25/45 20130101ALI20170327BHJP

【ＦＩ】

G10L19/022

G10L25/45

【請求項の数】15

【全頁数】20

(21)【出願番号】特願2014-517886(P2014-517886)

(86)(22)【出願日】2012年6月26日

(65)【公表番号】特表2014-523544(P2014-523544A)

(43)【公表日】2014年9月11日

(86)【国際出願番号】FR2012051463

(87)【国際公開番号】WO2013001226

(87)【国際公開日】20130103

【審査請求日】2015年6月1日

(31)【優先権主張番号】1155769

(32)【優先日】2011年6月28日

(33)【優先権主張国】FR

(73)【特許権者】

【識別番号】591034154

【氏名又は名称】オランジュ

(74)【代理人】

【識別番号】100123788

【弁理士】

【氏名又は名称】宮崎昭夫

(74)【代理人】

【識別番号】100127454

【弁理士】

【氏名又は名称】緒方雅昭

(72)【発明者】

【氏名】フォーレ、ジュリアン

(72)【発明者】

【氏名】フィリップ、ピエリック

【審査官】安田勇太

(56)【参考文献】

【文献】特表２０１１−５０７４４０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００ −１９／２６

Ｇ１０Ｌ２５／００ −２５／９４

(57)【特許請求の範囲】

【請求項1】

デジタル信号を符号化する方法であって、前記信号は複数のサンプルの連続している複数のブロックからなり、前記符号化は、オーバーラップ型の変換であって、分析時に、Ｍ個のサンプルの２つの連続しているブロックにわたって重み付け窓を適用することを含み、
前記重み付け窓は、非対称であって、前記２つのブロックにわたって連続して延びている４つの別個の部分を有しており、前記４つの別個の部分は、
−第１の部分（ｗ_１）、複数のサンプルの第１の間隔にわたって増加、
−第２の部分（ｗ_２）、第２の間隔にわたって値１で一定、
−第３の部分（ｗ_３）、第３の間隔にわたって減少、
−第４の部分（ｗ_４）、第４の間隔にわたって値０で一定、
であり、
前記第１、第２、および第３の間隔は、前記第４の間隔（Ｍ_ｚ）の関数として少なくとも計算されることを特徴とする方法。

【請求項2】

Ｃ_１およびＲ_１は０よりも大きい定数とすると、前記窓は、Ｒ_１で表される前記第１の間隔にわたって、以下の型の関数ｗ_１

【数1】

として変化することを特徴とする、請求項１に記載の方法。

【請求項3】

前記冪数Ｃ_１は、３から５の間にあることを特徴とする、請求項２に記載の方法。

【請求項4】

Ｃ_１およびＲ_１は０よりも大きい定数とすると、前記窓は、Ｒ_２で表される前記第３の間隔にわたって、以下の型の関数ｗ_３

【数2】

として変化することを特徴とする請求項１に記載の方法。

【請求項5】

前記冪数Ｃ_２は、０．８５から１．０５の間にあることを特徴とする、請求項４に記載の方法。

【請求項6】

表記式

【数3】

がｘ以上で、かつｘに最も近い整数を表し、Ｍが前記ブロックの継続期間に相当するとした場合、Ｍ_ｚと表記される前記第４の間隔の継続期間は、

【数4】

と選択されることを特徴とする、請求項１に記載の方法。

【請求項7】

Ｍは、前記ブロックの継続期間に相当し、表記式

【数5】

は、ｘ以下で、かつｘに最も近い整数を表す場合、Ｒ_１と表される前記第１の間隔は、

【数6】

で与えられる継続期間を有することを特徴とする、請求項２に記載の方法。

【請求項8】

Ｍは、前記ブロックの継続期間に相当し、表記式

【数7】

は、ｘ以下で、かつｘに最も近い整数を表す場合、Ｒ_２と表される前記第３の間隔は、

【数8】

で与えられる継続期間を有することを特徴とする、請求項４に記載の方法。

【請求項9】

Ｍは前記ブロックの継続期間に相当し、Ｍ_ｚは前記第４の間隔の継続期間に相当している場合、Ｒ_１と表される前記第１の間隔は、

【数9】

で与えられる継続期間を有することを特徴とする、請求項１に記載の方法。

【請求項10】

Ｍは前記ブロックの継続期間に相当し、Ｍ_ｚは前記第４の間隔の継続期間に相当している場合、Ｒ_２と表される前記第３の間隔は、

【数10】

で与えられる継続期間を有することを特徴とする、請求項９に記載の方法。

【請求項11】

非対称で前記４つの部分を有している連続した複数の前記窓を、連続している複数の対の前記ブロックに対して適用することを含むことを特徴とする、請求項１に記載の方法。

【請求項12】

請求項１に記載の方法の実装によって符号化されているデジタル信号を復号する方法であって、前記復号化は、オーバーラップ型の変換であって、合成時に、重み付け窓を符号化されている複数のサンプルの２つの連続しているブロックに適用することを含み、
前記重み付け窓は、前記合成時に、前記符号化で使用された前記分析窓の時間反転と同一であることを特徴とする方法。

【請求項13】

コンピュータプログラムを記録した記録媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されたときに、請求項１から１１の１項に記載の符号化方法または請求項１２に記載の復号化方法を実現するための複数の命令を有する、記録媒体。

【請求項14】

請求項１ないし１１のいずれか１項に記載の符号化方法を実現するために、分析重み付け窓のデータを保存するための手段（ＭＥＭ）と、当該データを計算のための手段（μＰ）との少なくとも一方を有することを特徴とする、信号符号化装置。

【請求項15】

請求項１２に記載の復号化方法を実現するために、合成重み付け窓のデータを保存するための手段（ＭＥＭ’）と、当該データを計算するための手段（μＰ）の少なくとも一方を有することを特徴とする、信号復号化装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、デジタル音声信号の符号化／復号化の分野に関し、特には、いわゆる「オーバーラップを伴う音声変換符号化／復号化」の分野に関する。

【背景技術】

【0002】

「変換符号化」は、時間領域の信号を変換（周波数）領域に符号化することである。この変換は、符号化効率の最適化および向上のために、特に、音声信号（音楽や会話など）の複数の周波数特性を使用することを可能にする。例えば、倍音は、周波数領域において、有限でより少ない数のスペクトル線で表されるという事実、つまり、簡潔に符号化できるという事実から使用される。また、例えば、符号化雑音をできるだけ聞こえないようにフォーマットする周波数マスク効果についても有利である。

【0003】

標準的な変換符号化技術は、以下のようにまとめられる。

【0004】

所定のサンプリング周波数Ｆｓを有する符号化されるデジタル音声ストリームは、有限のサンプル数２Ｍの複数のフレーム（より一般的には、複数の「ブロック」）に分割される。各フレームは、従来、先行するフレームと５０％重なっている。重み付け窓ｈ_ａ（「分析窓」と呼ばれる）は、各フレームに適用される。

【0005】

そして、その信号に変換が適用される。「ＭＤＣＴ」（「修正離散コサイン変換」）と呼ばれる変換の場合、特定の形態において、重み付けされたフレームは、２Ｍ個のサンプルからＭ個のサンプルへの変換によって「折りたたまれる」。その後、変換された領域において大きさがＭのフレームを得るために、ＩＶタイプのＤＣＴ変換が折りたたまれたフレームに適用される。

【0006】

そして、変換された領域のフレームは、適切な量子化器を使用して量子化される。この量子化によって、データの大きさを減らすことができるが、元のフレームの中に雑音（可聴または非可聴）が入り込んでしまう。符号化器のビットレートが高くなるほど、この雑音が減少し、量子化されたフレームは元のフレームに近づく。

【0007】

そして、復号化時に、逆ＭＤＣＴ変換が量子化されたフレームに適用される。大きさがＭの量子化されたフレームは、逆ＩＶタイプのＤＣＴが使用されることで、時間領域における大きさがＭのフレームに変換される。次に、Ｍから２Ｍへの「展開」変換が大きさＭの時間領域のフレームに適用される。

【0008】

それから、複数のいわゆる「合成」重み付け窓ｈ_ｓが２Ｍの大きさの複数のフレームに適用される。

【0009】

それから、復号化された音声ストリームが、オーバーラップしている部分を集めることによって合成される。

【0010】

合成窓および所定のオーバーラップ部分のために、分析窓は、（量子化なしに）符号化される信号の完全再構成を得ることができるように決定される。

【0011】

変換符号化において従来から使用されている窓は、サイン型の窓であり、分析と合成の両方において同一である。この構成において、符号化系に起因する最小のアルゴリズム的な遅延は２Ｍ／Ｆｓ秒である。

【0012】

この遅延を減少させるために、合成窓の最初と分析窓の最後とを０にすることができる。信号に「０」を乗算した結果は予め知られているので、窓の位置に対するフレームレートをオフセットすることができる。これらの対称的な窓は、例えば、以下の構成を有する。
−保存させるアルゴリズム的な遅延の半分に相当する間隔にわたって延びている一定の０の数Ｍ_ｚ
長さＭ−２Ｍｚのサイン立ち上がり部分
値が１の２Ｍｚの部分
添付の図１で示されているように、窓の第１の半分を対称的に反映している最後の窓の第２の半分
これらの窓はアルゴリズム的な遅延（２Ｍ−２Ｍｚ）／Ｆｓ秒を有しており、このため、遅延を２Ｍｚ／Ｆｓ秒ほど減少させることを可能にしている。

【0013】

しかし、そのような技術では、遅延を減少させることができるが、その一方で、遅延の減少が大きくなると、長方形の窓に似る傾向がある。このような窓の形態は、周波数選択性が非常に低く、その結果、符号化された信号の音声品質を際だって低下させる。さらに、このような窓の形態は、４Ｍｚ個のサンプルがその構成に配置されるため、窓を大きく拘束する。特に、際だった周波数選択性をもたらす符号化に効果的な窓を提案するための自由度は高くない。

【0014】

特許文献１はこの問題を緩和するために非対称な窓の使用を提案している。分析からは。これらの窓は、分析窓の最後のみが複数の０から構成されている。必要な保存領域を限定するために、合成窓は、分析窓の時間反転となるように選択される。この技術によって、符号化遅延だけでなく、特に復号化遅延の減少が可能となる。上記の対称な窓の０の総数の半分の０の総数Ｍｚで、遅延の改善は同じである。０の数が減少すると、このような非対称の窓の周波数の選択性は対称な窓の周波数選択性よりも大きくなる。復号化された信号の音声の品質がそれによって向上する。

【0015】

特に、特許文献１は、

【0016】

【数1】

【0017】

で与えられる初期窓ｈ（ｎ）と、

【0018】

【数2】

【0019】

で与えられる、完全再構成条件を持たせることを可能にする修正要素Δ（ｎ）とから得られる、２つの部分ｈａ１およびｈａ２で構成されている分析窓ｈａ（ｎ）を示している。

【0020】

分析窓ｈ_ａは、

【0021】

【数3】

【0022】

で与えられる。

【0023】

合成窓ｈｓ（ｎ）は、以下のように分析窓の時間反転となる。

【0024】

【数4】

【0025】

このような２個の窓は、同一の遅延改善において、対称な窓よりも、周波数選択性がより良好のため品質が高い。

【先行技術文献】

【特許文献】

【0026】

【特許文献1】国際公開第２００９／０８１００３号

【発明の概要】

【発明が解決しようとする課題】

【0027】

しかしながら、従来技術が有利であり、以前の技術に比べて品質の向上を提案したとしても、例えば、０の数ＭｚをＭ／４（Ｍはフレーム期間）よりも多くして、より顕著な遅延の改善を伴う解決策を模索して、このような窓を適用すると、聞き取ることができる品質低下が観察される。これは、特に、図２に示しているように窓の一部が１よりもはるかに大きい高い値を取るからである。このため、デジタル信号処理においては、固定小数点の実装のために、絶対値が１未満の値の重み付けを使用することが一般に好ましい。

【0028】

本発明は、この状況を改善する。

【課題を解決するための手段】

【0029】

この目的のために、複数のサンプルの連続している複数のブロックから構成されるデジタル信号を符号化する方法であり、かつ、オーバーラップ型の変換である符号化の方法であって、分析時に、重み付け窓を２つの連続しているＭ個のサンプルのブロックに適用するステップを有している方法を提案する。特に、上記の重み付け窓は、非対称であって、２つのブロックにわたって連続して延びている以下の４つの別個の部分を有している。

【0030】

第１の部分：複数のサンプルの第１の間隔にわたって増加
第２の部分：第２の間隔にわたって、値１で一定
第３の部分：第３の間隔にわたって減少
第４の部分：第４の間隔にわたって、値０で一定。

【0031】

後述するように、本発明によって得られる利点の１つとして、第２の間隔の間に窓が１で一定であることで、後で図３から分かるように、遅延が少ないという利点を維持しつつ、音声表現の品質を向上させながら特許文献１に記載のような従来技術の窓の使用の複雑さを減少させることが可能になる。

【0032】

また、第１、第２および第３の間隔は、以下の複数の実施形態においてわかるように、上記の遅延を設定し、アルゴリズム的な遅延に丸めることができる第４の間隔（窓の最後の部分の０の数）の継続期間の関数として少なくとも計算されることが有利である。同様に、それぞれ増加および減少している立ち上がりと立ち下がりの両方の端は、特に第４の間隔の継続期間の関数として最適化することができる。第４の間隔（以降ではＭｚと表す）は、ブロックあたりのサンプルの数であるＭの関数として、そしてもちろん所望の最大遅延の関数として自己表記される。

【0033】

複数の分析窓の連続は、上記の特許文献１に記載の特徴と同様な特徴を示す。特に、第１と第２の分析窓によってそれぞれ重み付けされている、同じ大きさの２Ｍ個のサンプルの２つのブロックにおいて、第２の窓の立ち上がりの端は、第１の窓を時間反転とした立ち下がりの端とは異なるようにすることができる。そのため、これらの端は、本質的に対称ではない。

【0034】

さらに、本発明の実装において、符号化時に、上記の特徴（立ち上がり、一定で１、立ち下がり、０で一定）を有している同一の複数の分析窓は、図１０に示しているように、Ｍ個のサンプルが重なっている２Ｍ個のサンプルの複数の連続しているブロックに連続して適用することができる。そのため、一般的に本発明の方法は、非対称であり、かつ、上記の４つの部分を有している複数の連続している窓を連続している複数の対のブロックへ適用するステップを有している。したがって、特許文献１のように、この場合でも、非対称の窓が適用されるときに、特定の遷移窓は設けられていない。

【0035】

特定の実施形態では、窓は、Ｒ_１で表される第１の間隔において、以下の型の関数ｗ_１として変化する。

【0036】

【数5】

【0037】

ここで、Ｃ_１およびＲ_１は０より大きい定数である。

【0038】

例えば、最適化によって、１５から３０ｍｓ程度の遅延範囲では、Ｃ_１は３から５までの間にできることがわかる。特定の典型的な実施形態では、Ｃ_１＝４．８４２５である。

【0039】

Ｒ_１で表される第１の間隔は、この典型的な実施形態では、

【0040】

【数6】

【0041】

で与えられる継続期間を有する。ここで、Ｍは、１ブロックの継続期間に相当する。また、表記

【0042】

【数7】

【0043】

は、ｘ以下で、かつｘに最も近い整数を表している。

【0044】

典型的な実施形態では、窓の第２の部分に関して、後者は、Ｒ_２で表される第３の間隔において、以下の型の関数ｗ_３として変化することができる.

【0045】

【数8】

【0046】

ここで、Ｃ_１およびＲ_１は０より大きい定数である。

【0047】

実施された複数の最適化試験によれば、乗数Ｃ_２は０．８５から１．０５までの間にあることが好ましく、特定の典型的な実施形態では、Ｃ_２＝０．９６５９である。

【0048】

Ｒ_２と表される第３の間隔は、この典型的な実施形態では、

【0049】

【数9】

【0050】

で与えられる継続期間を有する。ここでＭは、１ブロックの継続期間に相当する。また、表記

【0051】

【数10】

【0052】

は、ｘ以下で、かつｘに最も近い整数を表している。

【0053】

この典型的な実施形態において、Ｍ_ｚと表される第４の間隔は、

【0054】

【数11】

【0055】

で与えられる継続期間を有するように最初に選択される。ここで、表記

【0056】

【数12】

【0057】

は、ｘ以上で、かつｘに最も近い整数を表しており、Ｍはブロックの継続期間に相当している。

【0058】

当然ながら、他の遅延に適用することが可能であり、このため、第４の間隔Ｍｚとは異なる期間を実現することができる。以下で詳細に説明する複数の典型的な実施形態において与えられる表１は、さまざまな遅延の値についての、つまり、さまざまな第４の継続期間Ｍｚについての、パラメータＣ_１とＣ_２および間隔Ｒ_１とＲ_２の値を示している。

【0059】

したがって、本方法は、窓の形態の最適化の予備ステップを有することが有利であって、この最適化は、上記の最適なパラメータＣ_１およびＣ_２とＲ_１およびＲ_２との少なくとも一方に到達するための少なくとも１つのコスト関数予測に基づいている。

【0060】

全体として、最適化が行われれば、特に良質な音声表現のためには、窓内の「１」の総数が０の数の約２倍になるようにすることが有利である。

【0061】

したがって、他の特定の典型的な実施形態においては、Ｒ_１で表される第１の間隔は、例えば、

【0062】

【数13】

【0063】

で与えられる継続期間を有することとなる。ここでＭは、１ブロックの継続期間に相当し、Ｍ_ｚは第４の間隔の継続期間に相当している。

【0064】

この例では、第３の間隔Ｒ_２は、

【0065】

【数14】

【0066】

で与えられる継続期間となる。ここでＭは、１ブロックの継続期間に相当し、Ｍ_ｚは第４の間隔の継続期間に相当している。

【0067】

以下で詳細に説明する典型的な複数の実施形態において与えられる表２は、間隔Ｒ_１とＲ_２がこのように設定されているときのさまざまな遅延の値について、つまり、さまざまな第４の継続期間Ｍｚについて、パラメータＣ_１とＣ_２の複数の値を示している。

【0068】

したがって、本発明は、特許文献１に示されているタイプの０の選択された数を有する完全再構成を有する非対称窓の原理に基づいて、効果的な実装を保証しながら良好な音声表現を可能にする、最適化されている分析窓と合成窓の使用を提案する。図３は、２６ｍｓの遅延についての本発明の窓（参照番号ＩＮＶ）、特許文献の窓（参照番号ＡＡ）、および従来のサイン窓（ＳＩＮ）の間の音声品質についての性能の比較を示している。参照番号のない他の点は、他の従来技術の技術に関連している。本発明は、特許文献１に記載の実装によって達成される遅延の改善と同等な遅延の改善をもたらしながら従来の窓（ＳＩＮ）を使用して達成される音声品質と同様の音声品質を維持することを可能にしていることがわかる。そして、以下の記述において知覚品質が保持されており、評価基準として、変換の再構成の誤差は知覚については既定の知覚閾値について依然として無視できる。

【0069】

本発明は、上記の方法を実行することによって符号化されたデジタル信号を復号化する方法も目標としており、オーバーラップ型の変換のある復号化であって、合成時に、重み付け窓を複数の符号化されているサンプルの２つの連続しているブロックに適用するステップを有している。具体的には、後で分かるように、例えば、完全再構成特性を保証するために、合成時に、重み付け窓は、符号化時に使用された分析窓の時間反転と同じである。

【0070】

本発明は、符号化装置または復号化装置のメモリに記録されることを意図したコンピュータプログラムであって、装置のプロセッサによって実行されるときに上記の符号化方法または上記の復号化方法を実現するための複数の特定の命令を有しているコンピュータプログラムも目的にしている。特に、コンピュータプログラムは、符号化に特化している第１の部分と復号化に特化している第２の部分とを有しているコンピュータプログラムとすることができる。後述する図７は、このようなプログラムの一般的なアルゴリズムの流れ図の例であって、図８は、特定の実施形態において、本発明の符号化／復号化方法が使用する分析と合成の窓の事前構成用の複数の命令をこのプログラムが特に有している場合に、このプログラムのアルゴリズムが特に有している複数の予備ステップを示している。

【0071】

図９に模式的に示しているように、本発明は、本発明の符号化方法を実現するために、分析重み付け窓のデータを保存するための手段ＭＥＭと、そのデータを計算するための計手段μＰとの少なくとも一方を有している信号符号化装置ＣＯＤも目標にしている。同様に、図９に模式的に示しているように、本発明は、本発明の復号化方法を実現するために、合成重み付け窓のデータを保存するための手段ＭＥＭ’と、そのデータを計算するための計算用手段μＰと少なくとも一方を有している信号復号化装置ＤＥＣＯＤも目標にしている。特に、符号化と復号化の両方について、（ＭＥＭとＭＥＭ’の少なくとも一方に保存されている）事前に初期化されている分析の窓と合成の窓の複数の値の少なくとも一方から開始することと、これらの値を実行中に（計算手段μＰの実装によって）最適化することが可能である。

【0072】

本発明の他の利点と特徴とは、非限定的な実施形態の例として以下に示している詳細な説明と添付の図面とを読むことで明らかになろう。

【図面の簡単な説明】

【0073】

【図1】遅延が少なく、窓の最初と最後に複数のゼロを有している従来の対称な窓の外形の図である。

【図2】４０ｍｓのフレーム２Ｍについての遅延の改善が１５ｍｓの国際公開第２００９／０８１００３号に記載の非対称な窓の外形の図である。

【図3】２６ｍｓの遅延についての本発明の窓ＩＮＶ、図１のサイン窓ＳＩＮ、および図２の窓ＡＡの間の音声品質の比較の図である。

【図4】本発明の分析窓の構成のための第１の典型的な初期化窓ｈ_ｉの図である。

【図5】本発明の分析窓の構成のための第２の典型的な初期化窓ｈ_ｉの図である。

【図6】図５に示されている型の初期化窓から得られた本発明の典型的な分析窓の図である。

【図7】本発明の状況を示す典型的な変換符号化／復号化方法の複数のステップの模式図である。

【図8】本発明の方法を実装する分析窓および合成窓の典型的な構成の複数のステップの模式図である。

【図9】本発明の実装のための符号化装置および復号化装置を示している模式図である。

【図10】重なりをもって適用されている連続している本発明の複数の分析窓の図である。

【発明を実施するための形態】

【0074】

先ず、図７を参照して、本発明の実施のための一般的な枠組みとして、オーバーラップ変換によって、（ステップ７０で与えられる）デジタル信号を符号化／復号化する方法を説明する。本方法は、デジタル音声信号を、長さＭの複数のフレームに分割するステップ７１を有している。ここで、各フレームは、５０％重なっている先行するフレームとグループ化されている。次のステップ７２において、分析窓ｈ_ａがこの２つのフレームの組に適用される。図６は、本発明の分析窓ｈ_ａの一例（サンプル数「ＮｂＥｃｈ」の関数として、０から１まで振幅）を示している。ただし、分析窓ｈ_ａは、Ｍｚ個目の０で終了し、全長が２Ｍである。

【0075】

次のステップ７３では、窓ｈ_ａによって重み付けされた２つのフレームのブロックに対して、例えばＭＤＣＴ型式の変換を適用し、それからステップＳ７４として、変換領域内の複数の値に量子化する。

【0076】

ステップ７５では、復号化時に逆変換によって複数の値を時間領域に再変換することが可能になる。符号化時の変換が例えばＭＤＣＴ型である場合、復号化時には逆変換ｉＭＤＣＴが適用可能である。

【0077】

ステップ７６おいて、完全再構成の条件を保証するように、合成窓ｈ_ｓが２つの復号化されるフレームに適用される。国際公開第２００９／０８１００３号に記載されているように、この条件によって分析窓ｈ_ａを得るために初期化窓ｈ_ｉに適用される修正係数１／Δｎ（以下で詳細に説明される）が課される。合成窓ｈ_ｓは分析窓ｈ_ａの時間反転で表現され、以下の関係がある。

【0078】

【数15】

【0079】

ステップ７７において、オーバーラップした複数のブロックが集められ、復号化された信号が最後に送達され、完全な信号の再構成が保証される。

【0080】

ここで図６を参照して、特に符号化に関するこの方法で使用される分析窓ｈ_ａの外形をより詳細に説明する。分析窓は、４つの別個の区分ｗ１、ｗ２、ｗ３、およびｗ４から構成されている。分析窓の時間反転として表現される合成窓ｈ_ｓも同様である。

【0081】

以下でＲ_１と表される第１の間隔において、分析窓は以下の型の関数ｗ_１として変化する。

【0082】

【数16】

【0083】

また、分析窓は、第２の間隔において、一定であって、値ｗ２＝１を有している。

【0084】

以下のようにＲ_２で表される第３の間隔において、窓は以下の型の関数ｗ_３として変化する。

【0085】

【数17】

【0086】

最後に、第４の間隔Ｍｚにおいて、分析窓は、一定であって、値ｗ４＝０を有している。

【0087】

従来技術である国際公開第２００９／０８１００３号と比べて、このような窓の形態によって、際だった遅延の改善（場合によっては、例えば４０％まで及ぶ）について最適な音声品質が保証されることを以下で示している。そのような窓（増加、１で一定、減少、０で一定の一般的な変形例）の使用は、１つの型の変換ＭＤＣＴに限定されていない。それらの窓は、例えば符号化が符号化される信号の一部にだけ（例えば、他の符号化技術と比較して符号化誤差を処理するために音声帯域の一部にだけ）関連している場合にも使用可能である。

【0088】

次に、図８を参照して、図７を参照して上で説明した方法において、窓ｈ_ａを取得する方法を説明する。

【0089】

初期化ステップ８０に続いて、初期化パラメータＲ_１、Ｒ_２、Ｃ_１およびＣ_２がステップ８１で定義される。次のステップ８２において、初期化窓ｈ_ｉはこれらの初期化パラメータから計算される。図４および５に示しているように、この初期化窓ｈ_ｉは４つの区分Ｗ_１、Ｗ_２、Ｗ_３、およびＷ_４から構成されている。

【0090】

長さＲ_１の第１の区分Ｗ_１は以下の式によって定義される。

【0091】

【数18】

【0092】

ここで、Ｃ_１は定数＞０である。

【0093】

長さがＬ＝２Ｍ−Ｒ_１−Ｒ_２−Ｍ_ｚである第２の区分Ｗ_２は、１の値で構成されている。

【0094】

長さＲ_２の第３の区分Ｗ_３は、以下の式によって定義される。

【0095】

【数19】

【0096】

ここで、Ｃ_２は定数＞０である。

【0097】

長さがＭ_ｚの第４の区分Ｗ_４は、全てが０の値から構成されている。

【0098】

したがって、初期化窓ｈ_ｉ（ｎ）は以下のように与えられる。

【0099】

【数20】

【0100】

ステップ８３において、係数１／Δ_ｎが初期化窓ｈ_ｉに適用され、それによって完全再構成の条件を保証することができるようにし、合成窓は分析窓の時間反転であって、復号化時の変換は双対である（例えば、ＭＤＣＴ変換が符号化時に適用されている場合、ｉＭＤＣＴ変換）という仮定の下で完全再構成を保証している。

【0101】

項Δ_ｎは、以下によって与えられる。

【0102】

【数21】

【0103】

それから、完全再構成を有する分析窓ｈ_ａは以下で与えられる。

【0104】

【数22】

【0105】

ただし、厳密に「１」である値は、重み付けの乗算が一切必要ない。したがって、本発明によって得られる他の利点によれば、以下の表で示しているように、複雑さにおいて予測される改善は、従来技術に比べて際だっている。

【0106】

【表1】

【0107】

したがって、所定の遅延の改善（所定のゼロの数Ｍ_ｚ）に対して、考え得る最適な音声品質を有することを可能にする分析窓と合成窓の正確な形態を定義している４つのパラメータＲ_１、Ｒ_２、Ｃ_１、およびＣ_２の最適な組み合わせが存在する。これらのパラメータは、図８を再び参照して後述するように、連続した反復を使用した最適化によって得ることができる。

【0108】

例えば、３５％の遅延の改善（本明細書で説明する４０ｍｓのフレームについては１４ｍｓに相当）は、符号化器のアルゴリズム遅延に単純に相当している。説明している例においては２６ｍｓとなる遅延は、以下の数Ｍｚのゼロを課す。

【0109】

【数23】

【0110】

ここで、

【0111】

【数24】

【0112】

は、ｘ以上で、かつｘに最も近い整数を表している。そして、Ｍ＝４０ｍｓに対してＭ_ｚ＝１４ｍｓであることがわかる。

【0113】

この選択を行うと、分析窓と合成窓の複数のパラメータの値は、例えば以下のように与えることができる。

【0114】

【数25】

【0115】

ここで、

【0116】

【数26】

【0117】

は、ｘ以下で、かつｘに最も近い整数を表している。

【0118】

このような実施形態は、図４に示している初期化窓に対応している。

【0119】

他の典型的なアプローチは、初期化窓の探索されるパラメータの数を減少させることを可能にする。このアプローチは、窓ｈ_ｉ内の「１」の数は「０」の数の２倍でなければならないと考えることと、図５に示しているように窓ｈ_ｉの対称の軸は、区分Ｗ_２の中央に相当していることに起因する。これらの条件において、間隔Ｒ_２およびＲ_１の値は、間隔Ｍ_ｚの範囲（つまり、初期化窓の最後の「０」の選択された数）のみに依存している。

【0120】

これらの条件

【0121】

【数27】

【0122】

において、Ｇ_{ｄｅｌａｙ}は遅延についてのｍｓで表した所望の改善であって、ＦＬはフレーム２Ｍのｍｓで表した長さである（サンプリング周波数は、ミリ秒つまり「ｍｓ」で数えた場合にＦｓ＝２Ｍ／ＦＬｘ１０００で与えられる）。

【0123】

それから図８のステップ８４において、例えば、反復最適化（例えば、いわゆる「勾配」技術）の実装によって、定数Ｃ_１およびＣ_２（並びに、可能であればＲ_１およびＲ_２）を求めようとする。

【0124】

例えば、Ｒ_１、Ｒ_２、Ｃ_１、およびＣ_２の値としてそれぞれ２Ｍ_ｚ、Ｍ_ｚ、１、および１の複数の初期パラメータを選択するステップ８１から開始して、以下に適用されるコスト関数がステップ８４で計算される。
−上記の型式の形態を有している初期化窓から発展した分析窓
−完全再構成を保証する分析窓の双対の合成用窓
コスト関数は、試験８５において確認される一式の基準から構成することができる。非限定的な態様として挙げることができる例には以下が含まれている。
−窓の１次微分の分析

【0125】

【数28】

【0126】

−窓の２次微分の分析

【0127】

【数29】

【0128】

−例えば、国際公開第２００９／０８１００３号で定義されているような符号化利得探索
−本発明による分析窓および合成窓の両方を適用することによる所定の音声サンプルに対する、非符号化信号と誤差との間の対数として表現される、信号対雑音比「ＳＮＲ」の最大化
試験８５において、最適化基準の最後に到達したかどうかを確認することができる（コスト関数値、複数のパラメータの値の変動、その他）。適切であれば（ＯＫの矢印）、複数の最適化されたパラメータの値が最後のステップ８７で見出される。そうでなく、逆の場合（ＫＯの矢印）、コスト関数が減少するように、Ｒ_１、Ｒ_２、Ｃ_１、およびＣ_２の値が修正される。

【0129】

したがって、初期パラメータＲ_１、Ｒ_２、Ｃ_１、およびＣ_２をそれぞれ２Ｍ_ｚ、Ｍ_ｚ、１、および１と選択することから開始することによって最適化すると、これら４つすべてのパラメータの最適化を選択した場合、

【0130】

【数30】

【0131】

となり、２つのパラメータＣ_１とＣ_２だけを最適化すると選択した場合、
−５に近い値のＣ_１と、
−１に近い値のＣ_２となる。

【0132】

そのため、この第２の選択において、図５に示しているように、１の数が０の数の２倍であることと、窓の対称軸が区分Ｗ_２の中央に相当することとが仮定される場合、複数の最適な値の探索をＣ_１とＣ_２に限定することができる。

【0133】

ただし、上記の第１の選択（４つのパラメータ全ての最適化）の場合、（以前のような２６ｍｓの代わりに）２８ｍｓの遅延について、この最適化技術によって、Ｃ_１＝４．１５８２とＣ_２＝０．９１８１であることがわかる。

【0134】

より一般的には、以下の表１は、それぞれ異なる遅延、そのため異なる「０」サンプルの数（Ｍ_ｚ）による最適化パラメータＲ_１、Ｒ_２、Ｃ_１、およびＣ_２を組を示している。フレームあたりのサンプルの数Ｍは、４８０００ＭＨｚサンプル化周波数と２０ｍｓのフレームによって与えられる。

【0135】

【表2】

【0136】

この表のデータは、以下のように第４の間隔Ｍ_ｚにおける「０」サンプルの数の関数として特に表されている。

【0137】

【表3】

【0138】

以下の表４は、間隔Ｒ_１およびＲ_２をゼロの数Ｍ_ｚの関数として設定することによって、上記の第２の選択によって最適化されたＣ_１およびＣ_２を示している。フレームあたりのサンプルの数Ｍは、４８０００ＭＨｚサンプル化周波数と２０ｍｓのフレームによって与えられる。

【0139】

【表4】

【0140】

当然ながら、本発明は、例として説明した上記の実施形態に限定されてはおらず、他の変形例にも拡張される。

【0141】

例えば、上記のような繰り返しによる最適化の方法は、いわゆる「勾配」型の方法とすることができるが、他の変形例ももちろん可能である。また、例えば、最適化過程内で、複数の音声サンプルを比較的一定な重みを使用して処理するように、窓ｈ_ａの最大値を１に設定することも可能である。

【0142】

より一般的には、分析窓および合成窓の値は、（上記のような最適化によって）事前に決定し、それから符号化または復号化の方法で使用するように、符号化装置または復号化装置のメモリ内にしっかりと保存することができる。変形例において、複数の初期化窓を定義し、上記の２つの装置のメモリに保存し、例えば通信状態によってそれらを最適化することができる。

【図1】