特許第6109162号(P6109162)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オランジュの特許一覧

特許6109162遅延が最適化された重み付け窓(Weighting Window)を用いて符号化/復号化する方法
<>
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000046
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000047
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000048
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000049
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000050
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000051
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000052
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000053
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000054
  • 特許6109162-遅延が最適化された重み付け窓(Weighting  Window)を用いて符号化/復号化する方法 図000055
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6109162
(24)【登録日】2017年3月17日
(45)【発行日】2017年4月5日
(54)【発明の名称】遅延が最適化された重み付け窓(Weighting Window)を用いて符号化/復号化する方法
(51)【国際特許分類】
   G10L 19/022 20130101AFI20170327BHJP
   G10L 25/45 20130101ALI20170327BHJP
【FI】
   G10L19/022
   G10L25/45
【請求項の数】15
【全頁数】20
(21)【出願番号】特願2014-517886(P2014-517886)
(86)(22)【出願日】2012年6月26日
(65)【公表番号】特表2014-523544(P2014-523544A)
(43)【公表日】2014年9月11日
(86)【国際出願番号】FR2012051463
(87)【国際公開番号】WO2013001226
(87)【国際公開日】20130103
【審査請求日】2015年6月1日
(31)【優先権主張番号】1155769
(32)【優先日】2011年6月28日
(33)【優先権主張国】FR
(73)【特許権者】
【識別番号】591034154
【氏名又は名称】オランジュ
(74)【代理人】
【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【弁理士】
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】フォーレ、 ジュリアン
(72)【発明者】
【氏名】フィリップ、 ピエリック
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特表2011−507440(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00 −19/26
G10L 25/00 −25/94
(57)【特許請求の範囲】
【請求項1】
デジタル信号を符号化する方法であって、前記信号は複数のサンプルの連続している複数のブロックからなり、前記符号化は、オーバーラップ型の変換であって、分析時に、M個のサンプルの2つの連続しているブロックにわたって重み付け窓を適用することを含み、
前記重み付け窓は、非対称であって、前記2つのブロックにわたって連続して延びている4つの別個の部分を有しており、前記4つの別個の部分は、
−第1の部分(w)、複数のサンプルの第1の間隔にわたって増加、
−第2の部分(w)、第2の間隔にわたって値1で一定、
−第3の部分(w)、第3の間隔にわたって減少、
−第4の部分(w)、第4の間隔にわたって値0で一定、
であり、
前記第1、第2、および第3の間隔は、前記第4の間隔(M)の関数として少なくとも計算されることを特徴とする方法。
【請求項2】
およびRは0よりも大きい定数とすると、前記窓は、Rで表される前記第1の間隔にわたって、以下の型の関数w
【数1】
として変化することを特徴とする、請求項に記載の方法。
【請求項3】
前記冪数Cは、3から5の間にあることを特徴とする、請求項に記載の方法。
【請求項4】
およびRは0よりも大きい定数とすると、前記窓は、Rで表される前記第3の間隔にわたって、以下の型の関数w
【数2】
として変化することを特徴とする請求項1に記載の方法。
【請求項5】
前記冪数Cは、0.85から1.05の間にあることを特徴とする、請求項に記載の方法。
【請求項6】
表記式
【数3】
がx以上で、かつxに最も近い整数を表し、Mが前記ブロックの継続期間に相当するとした場合、Mと表記される前記第4の間隔の継続期間は、
【数4】
と選択されることを特徴とする、請求項に記載の方法。
【請求項7】
Mは、前記ブロックの継続期間に相当し、表記式
【数5】
は、x以下で、かつxに最も近い整数を表す場合、Rと表される前記第1の間隔は、
【数6】
で与えられる継続期間を有することを特徴とする、請求項に記載の方法。
【請求項8】
Mは、前記ブロックの継続期間に相当し、表記式
【数7】
は、x以下で、かつxに最も近い整数を表す場合、Rと表される前記第3の間隔は、
【数8】
で与えられる継続期間を有することを特徴とする、請求項に記載の方法。
【請求項9】
Mは前記ブロックの継続期間に相当し、Mは前記第4の間隔の継続期間に相当している場合、Rと表される前記第1の間隔は、
【数9】
で与えられる継続期間を有することを特徴とする、請求項に記載の方法。
【請求項10】
Mは前記ブロックの継続期間に相当し、Mは前記第4の間隔の継続期間に相当している場合、Rと表される前記第3の間隔は、
【数10】
で与えられる継続期間を有することを特徴とする、請求項に記載の方法。
【請求項11】
非対称で前記4つの部分を有している連続した複数の前記窓を、連続している複数の対の前記ブロックに対して適用することを含むことを特徴とする、請求項1に記載の方法。
【請求項12】
請求項1に記載の方法の実装によって符号化されているデジタル信号を復号する方法であって、前記復号化は、オーバーラップ型の変換であって、合成時に、重み付け窓を符号化されている複数のサンプルの2つの連続しているブロックに適用することを含み、
前記重み付け窓は、前記合成時に、前記符号化で使用された前記分析窓の時間反転と同一であることを特徴とする方法。
【請求項13】
ンピュータプログラムを記録した記録媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されたときに、請求項1から11の1項に記載の符号化方法または請求項12に記載の復号化方法を実現するための複数の命令を有する、記録媒体
【請求項14】
請求項1ないし11のいずれか1項に記載の符号化方法を実現するために、分析重み付け窓のデータを保存するための手段(MEM)と、当該データを計算のための手段(μP)との少なくとも一方を有することを特徴とする、信号符号化装置。
【請求項15】
請求項1に記載の復号化方法を実現するために、合成重み付け窓のデータを保存するための手段(MEM’)と、当該データを計算するための手段(μP)の少なくとも一方を有することを特徴とする、信号復号化装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル音声信号の符号化/復号化の分野に関し、特には、いわゆる「オーバーラップを伴う音声変換符号化/復号化」の分野に関する。
【背景技術】
【0002】
「変換符号化」は、時間領域の信号を変換(周波数)領域に符号化することである。この変換は、符号化効率の最適化および向上のために、特に、音声信号(音楽や会話など)の複数の周波数特性を使用することを可能にする。例えば、倍音は、周波数領域において、有限でより少ない数のスペクトル線で表されるという事実、つまり、簡潔に符号化できるという事実から使用される。また、例えば、符号化雑音をできるだけ聞こえないようにフォーマットする周波数マスク効果についても有利である。
【0003】
標準的な変換符号化技術は、以下のようにまとめられる。
【0004】
所定のサンプリング周波数Fsを有する符号化されるデジタル音声ストリームは、有限のサンプル数2Mの複数のフレーム(より一般的には、複数の「ブロック」)に分割される。各フレームは、従来、先行するフレームと50%重なっている。重み付け窓h(「分析窓」と呼ばれる)は、各フレームに適用される。
【0005】
そして、その信号に変換が適用される。「MDCT」(「修正離散コサイン変換」)と呼ばれる変換の場合、特定の形態において、重み付けされたフレームは、2M個のサンプルからM個のサンプルへの変換によって「折りたたまれる」。その後、変換された領域において大きさがMのフレームを得るために、IVタイプのDCT変換が折りたたまれたフレームに適用される。
【0006】
そして、変換された領域のフレームは、適切な量子化器を使用して量子化される。この量子化によって、データの大きさを減らすことができるが、元のフレームの中に雑音(可聴または非可聴)が入り込んでしまう。符号化器のビットレートが高くなるほど、この雑音が減少し、量子化されたフレームは元のフレームに近づく。
【0007】
そして、復号化時に、逆MDCT変換が量子化されたフレームに適用される。大きさがMの量子化されたフレームは、逆IVタイプのDCTが使用されることで、時間領域における大きさがMのフレームに変換される。次に、Mから2Mへの「展開」変換が大きさMの時間領域のフレームに適用される。
【0008】
それから、複数のいわゆる「合成」重み付け窓hが2Mの大きさの複数のフレームに適用される。
【0009】
それから、復号化された音声ストリームが、オーバーラップしている部分を集めることによって合成される。
【0010】
合成窓および所定のオーバーラップ部分のために、分析窓は、(量子化なしに)符号化される信号の完全再構成を得ることができるように決定される。
【0011】
変換符号化において従来から使用されている窓は、サイン型の窓であり、分析と合成の両方において同一である。この構成において、符号化系に起因する最小のアルゴリズム的な遅延は2M/Fs秒である。
【0012】
この遅延を減少させるために、合成窓の最初と分析窓の最後とを0にすることができる。信号に「0」を乗算した結果は予め知られているので、窓の位置に対するフレームレートをオフセットすることができる。これらの対称的な窓は、例えば、以下の構成を有する。
−保存させるアルゴリズム的な遅延の半分に相当する間隔にわたって延びている一定の0の数M
長さM−2Mzのサイン立ち上がり部分
値が1の2Mzの部分
添付の図1で示されているように、窓の第1の半分を対称的に反映している最後の窓の第2の半分
これらの窓はアルゴリズム的な遅延(2M−2Mz)/Fs秒を有しており、このため、遅延を2Mz/Fs秒ほど減少させることを可能にしている。
【0013】
しかし、そのような技術では、遅延を減少させることができるが、その一方で、遅延の減少が大きくなると、長方形の窓に似る傾向がある。このような窓の形態は、周波数選択性が非常に低く、その結果、符号化された信号の音声品質を際だって低下させる。さらに、このような窓の形態は、4Mz個のサンプルがその構成に配置されるため、窓を大きく拘束する。特に、際だった周波数選択性をもたらす符号化に効果的な窓を提案するための自由度は高くない。
【0014】
特許文献1はこの問題を緩和するために非対称な窓の使用を提案している。分析からは。これらの窓は、分析窓の最後のみが複数の0から構成されている。必要な保存領域を限定するために、合成窓は、分析窓の時間反転となるように選択される。この技術によって、符号化遅延だけでなく、特に復号化遅延の減少が可能となる。上記の対称な窓の0の総数の半分の0の総数Mzで、遅延の改善は同じである。0の数が減少すると、このような非対称の窓の周波数の選択性は対称な窓の周波数選択性よりも大きくなる。復号化された信号の音声の品質がそれによって向上する。
【0015】
特に、特許文献1は、
【0016】
【数1】
【0017】
で与えられる初期窓h(n)と、
【0018】
【数2】
【0019】
で与えられる、完全再構成条件を持たせることを可能にする修正要素Δ(n)とから得られる、2つの部分ha1およびha2で構成されている分析窓ha(n)を示している。
【0020】
分析窓hは、
【0021】
【数3】
【0022】
で与えられる。
【0023】
合成窓hs(n)は、以下のように分析窓の時間反転となる。
【0024】
【数4】
【0025】
このような2個の窓は、同一の遅延改善において、対称な窓よりも、周波数選択性がより良好のため品質が高い。
【先行技術文献】
【特許文献】
【0026】
【特許文献1】国際公開第2009/081003号
【発明の概要】
【発明が解決しようとする課題】
【0027】
しかしながら、従来技術が有利であり、以前の技術に比べて品質の向上を提案したとしても、例えば、0の数MzをM/4(Mはフレーム期間)よりも多くして、より顕著な遅延の改善を伴う解決策を模索して、このような窓を適用すると、聞き取ることができる品質低下が観察される。これは、特に、図2に示しているように窓の一部が1よりもはるかに大きい高い値を取るからである。このため、デジタル信号処理においては、固定小数点の実装のために、絶対値が1未満の値の重み付けを使用することが一般に好ましい。
【0028】
本発明は、この状況を改善する。
【課題を解決するための手段】
【0029】
この目的のために、複数のサンプルの連続している複数のブロックから構成されるデジタル信号を符号化する方法であり、かつ、オーバーラップ型の変換である符号化の方法であって、分析時に、重み付け窓を2つの連続しているM個のサンプルのブロックに適用するステップを有している方法を提案する。特に、上記の重み付け窓は、非対称であって、2つのブロックにわたって連続して延びている以下の4つの別個の部分を有している。
【0030】
第1の部分:複数のサンプルの第1の間隔にわたって増加
第2の部分:第2の間隔にわたって、値1で一定
第3の部分:第3の間隔にわたって減少
第4の部分:第4の間隔にわたって、値0で一定。
【0031】
後述するように、本発明によって得られる利点の1つとして、第2の間隔の間に窓が1で一定であることで、後で図3から分かるように、遅延が少ないという利点を維持しつつ、音声表現の品質を向上させながら特許文献1に記載のような従来技術の窓の使用の複雑さを減少させることが可能になる。
【0032】
また、第1、第2および第3の間隔は、以下の複数の実施形態においてわかるように、上記の遅延を設定し、アルゴリズム的な遅延に丸めることができる第4の間隔(窓の最後の部分の0の数)の継続期間の関数として少なくとも計算されることが有利である。同様に、それぞれ増加および減少している立ち上がりと立ち下がりの両方の端は、特に第4の間隔の継続期間の関数として最適化することができる。第4の間隔(以降ではMzと表す)は、ブロックあたりのサンプルの数であるMの関数として、そしてもちろん所望の最大遅延の関数として自己表記される。
【0033】
複数の分析窓の連続は、上記の特許文献1に記載の特徴と同様な特徴を示す。特に、第1と第2の分析窓によってそれぞれ重み付けされている、同じ大きさの2M個のサンプルの2つのブロックにおいて、第2の窓の立ち上がりの端は、第1の窓を時間反転とした立ち下がりの端とは異なるようにすることができる。そのため、これらの端は、本質的に対称ではない。
【0034】
さらに、本発明の実装において、符号化時に、上記の特徴(立ち上がり、一定で1、立ち下がり、0で一定)を有している同一の複数の分析窓は、図10に示しているように、M個のサンプルが重なっている2M個のサンプルの複数の連続しているブロックに連続して適用することができる。そのため、一般的に本発明の方法は、非対称であり、かつ、上記の4つの部分を有している複数の連続している窓を連続している複数の対のブロックへ適用するステップを有している。したがって、特許文献1のように、この場合でも、非対称の窓が適用されるときに、特定の遷移窓は設けられていない。
【0035】
特定の実施形態では、窓は、Rで表される第1の間隔において、以下の型の関数wとして変化する。
【0036】
【数5】
【0037】
ここで、CおよびRは0より大きい定数である。
【0038】
例えば、最適化によって、15から30ms程度の遅延範囲では、Cは3から5までの間にできることがわかる。特定の典型的な実施形態では、C=4.8425である。
【0039】
で表される第1の間隔は、この典型的な実施形態では、
【0040】
【数6】
【0041】
で与えられる継続期間を有する。ここで、Mは、1ブロックの継続期間に相当する。また、表記
【0042】
【数7】
【0043】
は、x以下で、かつxに最も近い整数を表している。
【0044】
典型的な実施形態では、窓の第2の部分に関して、後者は、Rで表される第3の間隔において、以下の型の関数wとして変化することができる.
【0045】
【数8】
【0046】
ここで、CおよびRは0より大きい定数である。
【0047】
実施された複数の最適化試験によれば、乗数Cは0.85から1.05までの間にあることが好ましく、特定の典型的な実施形態では、C=0.9659である。
【0048】
と表される第3の間隔は、この典型的な実施形態では、
【0049】
【数9】
【0050】
で与えられる継続期間を有する。ここでMは、1ブロックの継続期間に相当する。また、表記
【0051】
【数10】
【0052】
は、x以下で、かつxに最も近い整数を表している。
【0053】
この典型的な実施形態において、Mと表される第4の間隔は、
【0054】
【数11】
【0055】
で与えられる継続期間を有するように最初に選択される。ここで、表記
【0056】
【数12】
【0057】
は、x以上で、かつxに最も近い整数を表しており、Mはブロックの継続期間に相当している。
【0058】
当然ながら、他の遅延に適用することが可能であり、このため、第4の間隔Mzとは異なる期間を実現することができる。以下で詳細に説明する複数の典型的な実施形態において与えられる表1は、さまざまな遅延の値についての、つまり、さまざまな第4の継続期間Mzについての、パラメータCとCおよび間隔RとRの値を示している。
【0059】
したがって、本方法は、窓の形態の最適化の予備ステップを有することが有利であって、この最適化は、上記の最適なパラメータCおよびCとRおよびRとの少なくとも一方に到達するための少なくとも1つのコスト関数予測に基づいている。
【0060】
全体として、最適化が行われれば、特に良質な音声表現のためには、窓内の「1」の総数が0の数の約2倍になるようにすることが有利である。
【0061】
したがって、他の特定の典型的な実施形態においては、Rで表される第1の間隔は、例えば、
【0062】
【数13】
【0063】
で与えられる継続期間を有することとなる。ここでMは、1ブロックの継続期間に相当し、Mは第4の間隔の継続期間に相当している。
【0064】
この例では、第3の間隔Rは、
【0065】
【数14】
【0066】
で与えられる継続期間となる。ここでMは、1ブロックの継続期間に相当し、Mは第4の間隔の継続期間に相当している。
【0067】
以下で詳細に説明する典型的な複数の実施形態において与えられる表2は、間隔RとRがこのように設定されているときのさまざまな遅延の値について、つまり、さまざまな第4の継続期間Mzについて、パラメータCとCの複数の値を示している。
【0068】
したがって、本発明は、特許文献1に示されているタイプの0の選択された数を有する完全再構成を有する非対称窓の原理に基づいて、効果的な実装を保証しながら良好な音声表現を可能にする、最適化されている分析窓と合成窓の使用を提案する。図3は、26msの遅延についての本発明の窓(参照番号INV)、特許文献の窓(参照番号AA)、および従来のサイン窓(SIN)の間の音声品質についての性能の比較を示している。参照番号のない他の点は、他の従来技術の技術に関連している。本発明は、特許文献1に記載の実装によって達成される遅延の改善と同等な遅延の改善をもたらしながら従来の窓(SIN)を使用して達成される音声品質と同様の音声品質を維持することを可能にしていることがわかる。そして、以下の記述において知覚品質が保持されており、評価基準として、変換の再構成の誤差は知覚については既定の知覚閾値について依然として無視できる。
【0069】
本発明は、上記の方法を実行することによって符号化されたデジタル信号を復号化する方法も目標としており、オーバーラップ型の変換のある復号化であって、合成時に、重み付け窓を複数の符号化されているサンプルの2つの連続しているブロックに適用するステップを有している。具体的には、後で分かるように、例えば、完全再構成特性を保証するために、合成時に、重み付け窓は、符号化時に使用された分析窓の時間反転と同じである。
【0070】
本発明は、符号化装置または復号化装置のメモリに記録されることを意図したコンピュータプログラムであって、装置のプロセッサによって実行されるときに上記の符号化方法または上記の復号化方法を実現するための複数の特定の命令を有しているコンピュータプログラムも目的にしている。特に、コンピュータプログラムは、符号化に特化している第1の部分と復号化に特化している第2の部分とを有しているコンピュータプログラムとすることができる。後述する図7は、このようなプログラムの一般的なアルゴリズムの流れ図の例であって、図8は、特定の実施形態において、本発明の符号化/復号化方法が使用する分析と合成の窓の事前構成用の複数の命令をこのプログラムが特に有している場合に、このプログラムのアルゴリズムが特に有している複数の予備ステップを示している。
【0071】
図9に模式的に示しているように、本発明は、本発明の符号化方法を実現するために、分析重み付け窓のデータを保存するための手段MEMと、そのデータを計算するための計手段μPとの少なくとも一方を有している信号符号化装置CODも目標にしている。同様に、図9に模式的に示しているように、本発明は、本発明の復号化方法を実現するために、合成重み付け窓のデータを保存するための手段MEM’と、そのデータを計算するための計算用手段μPと少なくとも一方を有している信号復号化装置DECODも目標にしている。特に、符号化と復号化の両方について、(MEMとMEM’の少なくとも一方に保存されている)事前に初期化されている分析の窓と合成の窓の複数の値の少なくとも一方から開始することと、これらの値を実行中に(計算手段μPの実装によって)最適化することが可能である。
【0072】
本発明の他の利点と特徴とは、非限定的な実施形態の例として以下に示している詳細な説明と添付の図面とを読むことで明らかになろう。
【図面の簡単な説明】
【0073】
図1】遅延が少なく、窓の最初と最後に複数のゼロを有している従来の対称な窓の外形の図である。
図2】40msのフレーム2Mについての遅延の改善が15msの国際公開第2009/081003号に記載の非対称な窓の外形の図である。
図3】26msの遅延についての本発明の窓INV、図1のサイン窓SIN、および図2の窓AAの間の音声品質の比較の図である。
図4】本発明の分析窓の構成のための第1の典型的な初期化窓hの図である。
図5】本発明の分析窓の構成のための第2の典型的な初期化窓hの図である。
図6図5に示されている型の初期化窓から得られた本発明の典型的な分析窓の図である。
図7】本発明の状況を示す典型的な変換符号化/復号化方法の複数のステップの模式図である。
図8】本発明の方法を実装する分析窓および合成窓の典型的な構成の複数のステップの模式図である。
図9】本発明の実装のための符号化装置および復号化装置を示している模式図である。
図10】重なりをもって適用されている連続している本発明の複数の分析窓の図である。
【発明を実施するための形態】
【0074】
先ず、図7を参照して、本発明の実施のための一般的な枠組みとして、オーバーラップ変換によって、(ステップ70で与えられる)デジタル信号を符号化/復号化する方法を説明する。本方法は、デジタル音声信号を、長さMの複数のフレームに分割するステップ71を有している。ここで、各フレームは、50%重なっている先行するフレームとグループ化されている。次のステップ72において、分析窓hがこの2つのフレームの組に適用される。図6は、本発明の分析窓hの一例(サンプル数「Nb Ech」の関数として、0から1まで振幅)を示している。ただし、分析窓hは、Mz個目の0で終了し、全長が2Mである。
【0075】
次のステップ73では、窓hによって重み付けされた2つのフレームのブロックに対して、例えばMDCT型式の変換を適用し、それからステップS74として、変換領域内の複数の値に量子化する。
【0076】
ステップ75では、復号化時に逆変換によって複数の値を時間領域に再変換することが可能になる。符号化時の変換が例えばMDCT型である場合、復号化時には逆変換iMDCTが適用可能である。
【0077】
ステップ76おいて、完全再構成の条件を保証するように、合成窓hが2つの復号化されるフレームに適用される。国際公開第2009/081003号に記載されているように、この条件によって分析窓hを得るために初期化窓hに適用される修正係数1/Δn(以下で詳細に説明される)が課される。合成窓hは分析窓hの時間反転で表現され、以下の関係がある。
【0078】
【数15】
【0079】
ステップ77において、オーバーラップした複数のブロックが集められ、復号化された信号が最後に送達され、完全な信号の再構成が保証される。
【0080】
ここで図6を参照して、特に符号化に関するこの方法で使用される分析窓hの外形をより詳細に説明する。分析窓は、4つの別個の区分w1、w2、w3、およびw4から構成されている。分析窓の時間反転として表現される合成窓hも同様である。
【0081】
以下でRと表される第1の間隔において、分析窓は以下の型の関数wとして変化する。
【0082】
【数16】
【0083】
また、分析窓は、第2の間隔において、一定であって、値w2=1を有している。
【0084】
以下のようにRで表される第3の間隔において、窓は以下の型の関数wとして変化する。
【0085】
【数17】
【0086】
最後に、第4の間隔Mzにおいて、分析窓は、一定であって、値w4=0を有している。
【0087】
従来技術である国際公開第2009/081003号と比べて、このような窓の形態によって、際だった遅延の改善(場合によっては、例えば40%まで及ぶ)について最適な音声品質が保証されることを以下で示している。そのような窓(増加、1で一定、減少、0で一定の一般的な変形例)の使用は、1つの型の変換MDCTに限定されていない。それらの窓は、例えば符号化が符号化される信号の一部にだけ(例えば、他の符号化技術と比較して符号化誤差を処理するために音声帯域の一部にだけ)関連している場合にも使用可能である。
【0088】
次に、図8を参照して、図7を参照して上で説明した方法において、窓hを取得する方法を説明する。
【0089】
初期化ステップ80に続いて、初期化パラメータR、R、CおよびCがステップ81で定義される。次のステップ82において、初期化窓hはこれらの初期化パラメータから計算される。図4および5に示しているように、この初期化窓hは4つの区分W、W、W、およびWから構成されている。
【0090】
長さRの第1の区分Wは以下の式によって定義される。
【0091】
【数18】
【0092】
ここで、Cは定数>0である。
【0093】
長さがL=2M−R−R−Mである第2の区分Wは、1の値で構成されている。
【0094】
長さRの第3の区分Wは、以下の式によって定義される。
【0095】
【数19】
【0096】
ここで、Cは定数>0である。
【0097】
長さがMの第4の区分Wは、全てが0の値から構成されている。
【0098】
したがって、初期化窓h(n)は以下のように与えられる。
【0099】
【数20】
【0100】
ステップ83において、係数1/Δが初期化窓hに適用され、それによって完全再構成の条件を保証することができるようにし、合成窓は分析窓の時間反転であって、復号化時の変換は双対である(例えば、MDCT変換が符号化時に適用されている場合、iMDCT変換)という仮定の下で完全再構成を保証している。
【0101】
項Δは、以下によって与えられる。
【0102】
【数21】
【0103】
それから、完全再構成を有する分析窓hは以下で与えられる。
【0104】
【数22】
【0105】
ただし、厳密に「1」である値は、重み付けの乗算が一切必要ない。したがって、本発明によって得られる他の利点によれば、以下の表で示しているように、複雑さにおいて予測される改善は、従来技術に比べて際だっている。
【0106】
【表1】
【0107】
したがって、所定の遅延の改善(所定のゼロの数M)に対して、考え得る最適な音声品質を有することを可能にする分析窓と合成窓の正確な形態を定義している4つのパラメータR、R、C、およびCの最適な組み合わせが存在する。これらのパラメータは、図8を再び参照して後述するように、連続した反復を使用した最適化によって得ることができる。
【0108】
例えば、35%の遅延の改善(本明細書で説明する40msのフレームについては14msに相当)は、符号化器のアルゴリズム遅延に単純に相当している。説明している例においては26msとなる遅延は、以下の数Mzのゼロを課す。
【0109】
【数23】
【0110】
ここで、
【0111】
【数24】
【0112】
は、x以上で、かつxに最も近い整数を表している。そして、M=40msに対してM=14msであることがわかる。
【0113】
この選択を行うと、分析窓と合成窓の複数のパラメータの値は、例えば以下のように与えることができる。
【0114】
【数25】
【0115】
ここで、
【0116】
【数26】
【0117】
は、x以下で、かつxに最も近い整数を表している。
【0118】
このような実施形態は、図4に示している初期化窓に対応している。
【0119】
他の典型的なアプローチは、初期化窓の探索されるパラメータの数を減少させることを可能にする。このアプローチは、窓h内の「1」の数は「0」の数の2倍でなければならないと考えることと、図5に示しているように窓hの対称の軸は、区分Wの中央に相当していることに起因する。これらの条件において、間隔RおよびRの値は、間隔Mの範囲(つまり、初期化窓の最後の「0」の選択された数)のみに依存している。
【0120】
これらの条件
【0121】
【数27】
【0122】
において、Gdelayは遅延についてのmsで表した所望の改善であって、FLはフレーム2Mのmsで表した長さである(サンプリング周波数は、ミリ秒つまり「ms」で数えた場合にFs=2M/FLx1000で与えられる)。
【0123】
それから図8のステップ84において、例えば、反復最適化(例えば、いわゆる「勾配」技術)の実装によって、定数CおよびC(並びに、可能であればRおよびR)を求めようとする。
【0124】
例えば、R、R、C、およびCの値としてそれぞれ2M、M、1、および1の複数の初期パラメータを選択するステップ81から開始して、以下に適用されるコスト関数がステップ84で計算される。
−上記の型式の形態を有している初期化窓から発展した分析窓
−完全再構成を保証する分析窓の双対の合成用窓
コスト関数は、試験85において確認される一式の基準から構成することができる。非限定的な態様として挙げることができる例には以下が含まれている。
−窓の1次微分の分析
【0125】
【数28】
【0126】
−窓の2次微分の分析
【0127】
【数29】
【0128】
−例えば、国際公開第2009/081003号で定義されているような符号化利得探索
−本発明による分析窓および合成窓の両方を適用することによる所定の音声サンプルに対する、非符号化信号と誤差との間の対数として表現される、信号対雑音比「SNR」の最大化
試験85において、最適化基準の最後に到達したかどうかを確認することができる(コスト関数値、複数のパラメータの値の変動、その他)。適切であれば(OKの矢印)、複数の最適化されたパラメータの値が最後のステップ87で見出される。そうでなく、逆の場合(KOの矢印)、コスト関数が減少するように、R、R、C、およびCの値が修正される。
【0129】
したがって、初期パラメータR、R、C、およびCをそれぞれ2M、M、1、および1と選択することから開始することによって最適化すると、これら4つすべてのパラメータの最適化を選択した場合、
【0130】
【数30】
【0131】
となり、2つのパラメータCとCだけを最適化すると選択した場合、
−5に近い値のCと、
−1に近い値のCとなる。
【0132】
そのため、この第2の選択において、図5に示しているように、1の数が0の数の2倍であることと、窓の対称軸が区分Wの中央に相当することとが仮定される場合、複数の最適な値の探索をCとCに限定することができる。
【0133】
ただし、上記の第1の選択(4つのパラメータ全ての最適化)の場合、(以前のような26msの代わりに)28msの遅延について、この最適化技術によって、C=4.1582とC=0.9181であることがわかる。
【0134】
より一般的には、以下の表1は、それぞれ異なる遅延、そのため異なる「0」サンプルの数(M)による最適化パラメータR、R、C、およびCを組を示している。フレームあたりのサンプルの数Mは、48000MHzサンプル化周波数と20msのフレームによって与えられる。
【0135】
【表2】
【0136】
この表のデータは、以下のように第4の間隔Mにおける「0」サンプルの数の関数として特に表されている。
【0137】
【表3】
【0138】
以下の表4は、間隔RおよびRをゼロの数Mの関数として設定することによって、上記の第2の選択によって最適化されたCおよびCを示している。フレームあたりのサンプルの数Mは、48000MHzサンプル化周波数と20msのフレームによって与えられる。
【0139】
【表4】
【0140】
当然ながら、本発明は、例として説明した上記の実施形態に限定されてはおらず、他の変形例にも拡張される。
【0141】
例えば、上記のような繰り返しによる最適化の方法は、いわゆる「勾配」型の方法とすることができるが、他の変形例ももちろん可能である。また、例えば、最適化過程内で、複数の音声サンプルを比較的一定な重みを使用して処理するように、窓hの最大値を1に設定することも可能である。
【0142】
より一般的には、分析窓および合成窓の値は、(上記のような最適化によって)事前に決定し、それから符号化または復号化の方法で使用するように、符号化装置または復号化装置のメモリ内にしっかりと保存することができる。変形例において、複数の初期化窓を定義し、上記の2つの装置のメモリに保存し、例えば通信状態によってそれらを最適化することができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10