特表2016-537667(P2016-537667A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特表2016-537667確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
<>
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000069
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000070
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000071
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000072
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000073
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000074
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000075
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000076
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000077
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000078
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000079
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000080
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000081
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000082
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000083
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000084
  • 特表2016537667-確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 図000085
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2016-537667(P2016-537667A)
(43)【公表日】2016年12月1日
(54)【発明の名称】確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
(51)【国際特許分類】
   G10L 19/083 20130101AFI20161104BHJP
   G10L 19/12 20130101ALI20161104BHJP
【FI】
   G10L19/083
   G10L19/12
【審査請求】有
【予備審査請求】有
【全頁数】47
(21)【出願番号】特願2016-524410(P2016-524410)
(86)(22)【出願日】2014年10月10日
(85)【翻訳文提出日】2016年5月30日
(86)【国際出願番号】EP2014071769
(87)【国際公開番号】WO2015055532
(87)【国際公開日】20150423
(31)【優先権主張番号】13189392.7
(32)【優先日】2013年10月18日
(33)【優先権主張国】EP
(31)【優先権主張番号】14178785.3
(32)【優先日】2014年7月28日
(33)【優先権主張国】EP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】フッハス,ギローム
(72)【発明者】
【氏名】ムルトルス,マルクス
(72)【発明者】
【氏名】ラベリー,エマニュエル
(72)【発明者】
【氏名】シュネル,マルクス
(57)【要約】
オーディオ信号を符号化する符号器は、オーディオ信号(102)のある無声フレームから予測係数(122;322)と残差信号とを導出するよう構成された分析部(120;320)と、無声フレームについて、確定的コードブックに関連する第1励振信号(c(n))を定義する第1ゲインパラメータ(gc)と、ノイズ状信号に関連する第2励振信号(n(n))を定義する第2ゲインパラメータ(gn)とを計算するよう構成されたゲインパラメータ計算部(550;550’)と、有声信号フレームに関連する情報(142)と第1ゲインパラメータ(gc)情報と第2ゲインパラメータ(gn)情報とに基づいて、出力信号(692)を形成するよう構成されたビットストリーム形成部(690)とを含む。
【選択図】図6
【特許請求の範囲】
【請求項1】
オーディオ信号を符号化する符号器であって、
前記オーディオ信号(102)のある無声フレームから予測係数(122;322)と残差信号とを導出するよう構成された分析部(120;320)と、
前記無声フレームについて、確定的コードブックに関連する第1励振信号(c(n))を定義する第1ゲインパラメータ(gc)情報と、ノイズ状信号に関連する第2励振信号(n(n))を定義する第2ゲインパラメータ(gn)情報とを計算するよう構成されたゲインパラメータ計算部(550;550')と、
有声信号フレームに関連する情報(142)と前記第1ゲインパラメータ(gc)情報と前記第2ゲインパラメータ(gn)情報とに基づいて、出力信号(692)を形成するよう構成されたビットストリーム形成部(690)と、
を含む符号器。
【請求項2】
請求項1に記載の符号器において、
前記ゲインパラメータ計算部(550;550')は、第1ゲインパラメータ(gc)と第2ゲインパラメータ(gn)とを計算するよう構成され、前記ビットストリーム形成部(690)は前記第1ゲインパラメータ(gc)と前記第2ゲインパラメータ(gn)とに基づいて前記出力信号(692)を形成するよう構成されるか、又は
前記ゲインパラメータ計算部(550;550')は、前記第1ゲインパラメータ(gc)を量子化して第1量子化済みゲインパラメータ
を取得し、かつ前記第2ゲインパラメータ(gn)を量子化して第2量子化済みゲインパラメータ
を取得するよう構成された量子化部(170−1、170−2)を含み、前記ビットストリーム形成部(690)は前記第1量子化済みゲインパラメータ
と前記第2量子化済みゲインパラメータ
とに基づいて前記出力信号(692)を形成するよう構成された、符号器。
【請求項3】
請求項1又は2に記載の符号器において、
前記予測係数(122;322)からスピーチ関連のスペクトル整形情報(162)を計算するよう構成されたフォルマント情報計算部(160)をさらに含み、前記ゲインパラメータ計算部(550;550')は、前記スピーチ関連のスペクトル整形情報(162)に基づいて前記第1ゲインパラメータ(gc)と前記第2ゲインパラメータ(gn)とを計算するよう構成された、符号器。
【請求項4】
請求項1〜3のいずれか一項に記載の符号器において、
前記ゲインパラメータ計算部(550')は、
前記第1ゲインパラメータ(gc)を適用することによって前記第1励振信号(c(n))を増幅し、第1の増幅された励振信号(550f)を得るよう構成された第1増幅部(550e)と、
前記第2ゲインパラメータ(gn)を適用することによって前記第1励振信号(c(n))とは異なる前記第2励振信号(n(n))を増幅し、第2の増幅された励振信号(350g;550h)を得るよう構成された第2増幅部(350e;550g)と、
前記第1の増幅された励振信号(550f)と前記第2の増幅された励振信号(350g;550h)とを結合して、結合済み励振信号(550k;550k')を得るよう構成された結合部(550i)と、
合成フィルタを用いて前記結合済み励振信号(550k;550k')をフィルタリングして合成信号(350l')を取得し、前記合成信号(350i')と前記オーディオ信号フレーム(102)とを比較して比較結果を取得し、前記比較結果に基づいて前記第1ゲインパラメータ(gc)又は前記第2ゲインパラメータ(gn)を適応するよう構成された制御部(550n)と、を含み、
前記ビットストリーム形成部(690)は、前記第1ゲインパラメータ(gc)及び前記第2ゲインパラメータ(gn)に関連する情報
に基づいて前記出力信号(692)を形成するよう構成された、符号器。
【請求項5】
請求項1〜4のいずれか一項に記載の符号器において、
前記ゲインパラメータ制御部(550;550')は、スペクトル整形情報(162)に基づいて、前記第1励振信号(c(n))若しくはそれから導出された信号、又は前記第2励振信号(n(n))若しくはそれから導出された信号をスペクトル的に整形するよう構成された、少なくとも1つの整形器(350;550b)をさらに含む、符号器。
【請求項6】
請求項1〜5のいずれか一項に記載の符号器において、
前記符号器は前記オーディオ信号(102)をフレームシーケンスの中でフレーム毎に符号化するよう構成され、前記ゲインパラメータ計算部(550;550')は、処理済みフレームの複数のサブフレームの各々について前記第1ゲインパラメータ(gc)及び前記第2ゲインパラメータ(gn)を決定するよう構成され、前記ゲインパラメータ制御部(550;550')は、前記処理済みフレームに関連した平均エネルギー値を決定するよう構成された、符号器。
【請求項7】
請求項1〜6のいずれか一項に記載の符号器において、
前記予測係数(122;322)から少なくとも第1のスピーチ関連のスペクトル整形情報を計算するよう構成されたフォルマント情報計算部(160)と、
前記残差信号が無声信号オーディオフレームから決定されたか否かを判定するよう構成された判定部(130)と、
をさらに含む符号器。
【請求項8】
請求項1〜7のいずれか一項に記載の符号器において、
前記ゲインパラメータ制御部(550;550')は、次式に基づいて前記第1ゲインパラメータ(gc)を決定するよう構成された制御部(550n)を含み、
ここで、cw(n)は革新的コードブックのフィルタ済み励振信号であり、xw(n)はCELP符号器において計算された知覚的目標励振であり、
前記制御部(550n)は、前記第1ゲインパラメータの量子化値
と、前記第1励振及び前記第2励振の間の二乗平方根エネルギー比
とに基づいて、量子化済みノイズゲイン
を決定するよう構成され、
ここでLsfはサンプル内のサブフレームのサイズである、符号器。
【請求項9】
請求項1〜8のいずれか一項に記載の符号器において、
前記第1ゲインパラメータ(gc)を量子化して量子化済み第1ゲインパラメータ
を取得するよう構成された量子化部(170−1、170−2)を更に含み、
前記ゲインパラメータ制御部(550n)は、次式に基づいて前記第1ゲインパラメータ(gc)を決定するよう構成され、
ここで、gcは前記第1ゲインパラメータであり、Lsfはサンプル内のサブフレームのサイズであり、cw(n)は前記第1の整形済み励振信号であり、xw(n)は符号励振線形予測符号化信号であり、
前記ゲインパラメータ制御部(550n)又は前記量子化部(170−1、170−2)は、前記第1ゲインパラメータ(gc)を正規化して、次式に基づいて正規化済み第1ゲインパラメータを得るようさらに構成され、
ここで、gncは前記正規化済み第1ゲインパラメータを示し、
は前記無声残差信号の全体フレームにわたる平均エネルギーの尺度であり、
前記量子化部(170−1、170−2)は、前記正規化済み第1ゲインパラメータを量子化して前記量子化済み第1ゲインパラメータ
を得るよう構成された、符号器。
【請求項10】
請求項9に記載の符号器において、
前記量子化部(170−1、170−2)は、前記第2ゲインパラメータ(gn)を量子化して量子化済み第2ゲインパラメータ
を得るよう構成され、前記ゲインパラメータ制御部(550;550')は、次式に基づいて誤差の値を決定することにより前記第2ゲインパラメータ(gn)を決定するよう構成され、
ここで、0.5と1との間の範囲内にある可変の減衰ファクタであり、Lsfは処理済みオーディオフレームのサブフレームのサイズに対応し、cw(n)は前記第1の整形済み励振信号(c(n))を示し、xw(n)は符号励振線形予測符号化信号を示し、gnは前記第2ゲインパラメータを示し、
は量子化済み第1ゲインパラメータを示し、
前記ゲインパラメータ制御部(550;550')は、前記現在のサブフレームについて前記誤差を決定するよう構成され、前記量子化部(170−1、170−2)は、前記誤差を最小化する前記量子化済み第2ゲイン
を決定し、かつ次式に基づいて前記量子化済み第2ゲイン
を取得するよう構成され、
ここで、Q(indexn)は可能な値の有限集合からのスカラー値を示す、符号器。
【請求項11】
請求項10に記載の符号器において、
前記結合部(550i)は、前記第1ゲインパラメータ(gc)と前記第2ゲインパラメータ(gn)とを結合して、次式
に基づいて結合済み励振信号(e(n))を得るよう構成された、符号器。
【請求項12】
予測係数(122)に関連する情報を含む受信されたオーディオ信号(1002)を復号化する復号器(1000)であって、
合成信号(1062)の一部分のために、確定的コードブックから第1励振信号(1012)を生成するよう構成された第1信号生成部(1010)と、
前記合成信号(1062)の前記一部分のために、ノイズ状信号から第2励振信号(1022)を生成するよう構成された第2信号生成部(1020)と、
前記第1励振信号(1012)と前記第2励振信号(1022)とを結合して、前記合成信号(1062)の前記一部分のための結合済み励振信号(1052)を生成するよう構成された結合部(1050)と、
前記結合済み励振信号(1052)と前記予測係数(122)とから前記合成信号(1062)の前記一部分を合成するよう構成された合成部(1060)と、
を含む復号器。
【請求項13】
請求項12に記載の復号器において、
前記受信されたオーディオ信号(1002)は、第1ゲインパラメータ(gc)と第2ゲインパラメータ(gn)とに関連する情報を含み、前記復号器は、
前記第1ゲインパラメータ(gc)を適用することによって前記第1励振信号(1012)又はそれから導出された信号を増幅して、第1の増幅済み励振信号(1012’)を得るよう構成された第1増幅部(254;350e;550e)と、
前記第2ゲインパラメータを適用することによって前記第2励振信号(1022)又はそれから導出された信号を増幅して、第2の増幅済み励振信号(1022')を得るよう構成された第2増幅部(254;350e;550e)と、
をさらに含む復号器。
【請求項14】
請求項12又は13に記載の復号器において、
前記予測係数(122;322)から第1のスペクトル整形情報(1092a)と第2のスペクトル整形情報(1092b)とを計算するよう構成されたフォルマント情報計算部(160;1090)と、
前記第1のスペクトル整形情報(1092a)を使用して、前記第1励振信号(1012)又はそれから導出された信号のスペクトルをスペクトル的に整形するよう構成された第1整形器(1070)と、
前記第2のスペクトル整形情報(1092b)を使用して、前記第2励振信号(1022)又はそれから導出された信号のスペクトルをスペクトル的に整形するよう構成された第2整形器(1080)と、
をさらに含む復号器。
【請求項15】
予測係数(122;322)に関連する情報と、
確定的コードブックに関連する情報と、
第1ゲインパラメータ(gc)及び第2ゲインパラメータ(gn)に関連する情報と、
有声及び無声の信号フレームに関連する情報(142)と、
を含む符号化済みオーディオ信号(692;1002)。
【請求項16】
オーディオ信号(102)を符号化する方法(1400)であって、
前記オーディオ信号(102)のある無声フレームから予測係数(122;322)と残差信号とを導出するステップ(1410)と、
前記無声フレームについて、確定的コードブックに関連する第1励振信号(c(n))を定義する第1ゲインパラメータ情報
を計算し、かつノイズ状信号に関連する第2励振信号(n(n))を定義する第2ゲインパラメータ情報
を計算するステップ(1420)と、
有声信号フレームに関連する情報(142)と前記第1ゲインパラメータ情報
と前記第2ゲインパラメータ情報
とに基づいて、出力信号(692;1002)を形成するステップ(1430)と、
を含む方法。
【請求項17】
予測係数(122;322)に関連する情報を含む受信されたオーディオ信号(692;1002)を復号化する方法(1500)であって、前記復号器(1000)は、
合成信号(1062)の一部分のために、確定的コードブックから第1励振信号(1012,1012')を生成するステップ(1510)と、
前記合成信号(1062)の前記一部分のために、ノイズ状信号(n(n))から第2励振信号(1022;1022')を生成するステップ(1520)と、
前記第1励振信号(1012;1012')と前記第2励振信号(1022;1022')とを結合して、前記合成信号(1062)の前記一部分のための結合済み励振信号(1052)を生成するステップ(1530)と、
前記結合済み励振信号(1052)と前記予測係数(122;322)とから前記合成信号(1062)の前記一部分を合成するステップ(1540)と、
を含む方法。
【請求項18】
コンピュータ上で作動されたとき、請求項16又は17に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号、特にスピーチ関連オーディオ信号を符号化する符号器に関する。本発明はまた、符号化済みオーディオ信号を復号化する復号器及び方法に関する。本発明はさらに、符号化済みオーディオ信号と、低ビットレートでの先進的スピーチ無声符号化(advanced speech unvoiced coding)とに関する。
【背景技術】
【0002】
低ビットレートでのスピーチ符号化は、ビットレートを低減しながらスピーチ品質を維持するために、無声フレームについての特殊なハンドリングから利益を得ることができる。無声フレームは、周波数ドメインと時間ドメインの双方で整形されるランダム励振として知覚的にモデル化され得る。その波形及び励振がガウスホワイトノイズとほぼ同様に見えかつ聞こえるので、その波形符号化は合成的に生成されたホワイトノイズによって緩和されかつ置換され得る。次に、この符号化は、信号の時間及び周波数ドメイン形状を符号化することにより構成されるであろう。
【0003】
図16は、パラメトリック無声符号化スキームの概略ブロック図を示す。合成フィルタ1202は、声道(vocal tract)をモデル化するよう構成され、LPC(線形予測符号化)パラメータによってパラメータ化されている。フィルタ関数A(z)を含む導出されたLPCフィルタから、LPC係数を重み付けすることによって知覚的重み付きフィルタが導出され得る。知覚的フィルタfw(n)は通常、以下の形式の伝達関数を有する。
[数1]
ここで、wは1より小さい。ゲインパラメータgnは、知覚ドメインにおいて元のエネルギーと適合する合成済みエネルギーを得るために、次式に従って計算される。
[数2]
ここで、sw(n)及びnw(n)は、知覚的フィルタによってフィルタリングされた入力信号と生成済みノイズとをそれぞれ示す。ゲインgnはサイズLsの各サブフレームについて計算される。例えば、1つのオーディオ信号が20msの長さを持つ複数のフレームへと分割されてもよい。各フレームは複数のサブフレームにサブ分割されてもよく、例えばそれぞれ5msの長さを有する4個のサブフレームに分割されてもよい。
【0004】
符号励振線形予測(CELP)符号化スキームは、スピーチ通信に広く使用され、スピーチを符号化する非常に効率的な手法である。CELP符号化はパラメトリック符号化よりも自然なスピーチ品質を与えるが、より高いレートを必要とする。CELPはオーディオ信号を、LPC合成フィルタと呼ばれる線形予測フィルタへと搬送することにより合成する。そのLPC合成フィルタは、1/A(z)の形式の2つの励振の合計を含んでもよい。1つの励振は、適応型コードブック(adaptive codebook)と呼ばれる復号化された過去の励振からもたらされる。他方の寄与は、固定コードが蓄えられた革新的コードブック(innovative codebook)からもたらされる。しかしながら、低ビットレートでは、革新的コードブックは、スピーチの微細構造又は無声のノイズ状励振を効率的にモデル化するためには十分に蓄えられていない。したがって、知覚的品質が劣化し、特に無声フレームがクリスピーでかつ不自然に聞こえる。
【0005】
低ビットレートでの符号化アーチファクトを緩和するために、異なる解決法がすでに提案されている。非特許文献1及び特許文献1では、革新的コードブックのコードが、現フレームのフォルマントに対応してスペクトル領域を強調することによって、適応的かつスペクトル的に整形される。このフォルマント位置及び形状はLPC係数から直接的に差し引かれることができ、その係数は符号器側及び復号器側の双方ですでに利用可能である。コードc(n)のフォルマント強調は、次式に従う簡易なフィルタリングによって実行される。
[数3]
ここで、*は畳み込み演算子を示し、fe(n)は次式に示す伝達関数のフィルタのインパルス応答である。
[数4]
【0006】
ここで、w1及びw2は、伝達関数Ffe(z)のフォルマント構造を大きく又は小さく強調する2つの重み付け定数である。結果として得られる整形済み符号はスピーチ信号の特性を引き継ぎ、合成信号はより明瞭に聞こえる。
【0007】
CELPでは、スペクトル傾斜を革新的コードブックの復号器へ付加することは、また通常のことである。それは、以下のフィルタを用いてコードをフィルタリングすることによって実行される。
[数5]
【0008】
ファクタβは通常は前フレームのボイシング(voicing)に関係しかつ左右される。即ち、変化する。ボイシングは適応型コードブックからのエネルギー寄与から推定され得る。前フレームが有声である場合には、現フレームもまた有声であろうと予想され、そのコードは低周波数においてより大きなエネルギーを有する筈である、すなわち負の傾斜を示すはずであると予想される。これと対照的に、付加されるスペクトル傾斜は無声フレームについては正であろうし、より大きなエネルギーが高周波にむかって分配されるであろう。
【0009】
復号器の出力のスピーチ強調及びノイズ低減のためのスペクトル整形の使用は、通常の慣用である。後フィルタリングとしての所謂フォルマント強調は、適応型後フィルタリングからなり、その係数は復号器のLPCパラメータから導出される。その後フィルタは、上述のようにある種のCELPコーダにおいて革新的励振を整形するために用いられる後フィルタ(fe(n))と同様に見える。しかしながら、そのような場合、後フィルタリングは復号器プロセスの終端でのみ適用され、符号器側では適用されない。
【0010】
従来のCELP(CELP=(コード)ブック励振線形予測)においては、周波数形状はLP(線形予測)合成フィルタによってモデル化される一方で、時間ドメイン形状は全てのサブフレームに対して送られた励振ゲインによって近似され得る。しかし、長期予測(LTP)と革新的コードブックとは、無声フレームのノイズ状励振のモデル化に通常は適していない。無声スピーチの良好な品質を達成するには、CELPは比較的高いビットレートを必要とする。
【0011】
有声音又は無声音の特徴付けは、スピーチを複数の部分に区分化することに関連してもよく、かつそれら部分の各々をスピーチの異なるソースモデルへと関連付けさせてもよい。CELPスピーチ符号化スキームにおいて用いられているソースモデルは、声門を通過する空気流れをシミュレートしている適応型ハーモニック励振と、生成された空気流れによって励振された声道をモデル化している共鳴フィルタとに依存している。そのようなモデルは、有声状の音素については良好な結果を提供し得るが、声門によって生成されないスピーチ部分について、特に無声音素“s”や“f”のように声帯が振動していない場合には、不正確なモデリングをもたらす可能性がある。
【0012】
一方で、パラメトリックスピーチコーダはまた、ボコーダとも呼ばれ、無声フレームについて単一のソースモデルを採用している。これは非常に低いビットレートを達成し得るが、遥かに高いレートでCELP符号化スキームによって配信される品質ほど自然ではない、所謂合成品質をもたらしてしまう。
【0013】
よって、オーディオ信号を強化する必要性が生じる。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】[2] 米国特許第5,444,816号, “Dynamic codebook for efficient speech coding based on algebraic codes”
【非特許文献】
【0015】
【非特許文献1】[1] Recommendation ITU-T G.718 : “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”
【非特許文献2】[3] Jelinek, M.; Salami, R., "Wideband Speech Coding Advances in VMR-WB Standard," Audio, Speech, and Language Processing, IEEE Transactions on , vol.15, no.4, pp.1167,1179, May 2007
【発明の概要】
【発明が解決しようとする課題】
【0016】
本発明の目的は、低ビットレートで音声品質を向上させること、及び/又は良好な音声品質のためのビットレートを低減することである。
【課題を解決するための手段】
【0017】
この目的は、独立請求項に従う符号器、復号器、符号化済みオーディオ信号、及びその方法によって達成される。
【0018】
本発明者らは以下のような発見をした。即ち、第1の態様において、復号化されたオーディオ信号の品質であって、そのオーディオ信号の無声フレームに関連する品質は、あるスピーチ関連の整形情報を、信号の増幅についてのゲインパラメータ情報がそのスピーチ関連の整形情報から導出され得るような方法で、決定することにより、改善すなわち強化され得るという発見である。更に、あるスピーチ関連の整形情報は、復号化済み信号をスペクトル的に整形するために使用され得る。これにより、スピーチにとってより高い重要性を有する周波数領域、例えば4kHzを下回る低周波数は、それらの誤差がより少なくなるように処理され得る。
【0019】
本発明者らは更に、以下のような発見もした。即ち、第2の態様において、合成信号のフレーム又はサブフレーム(部分)についての確定的コードブック(deterministic codebook)から第1励振信号を生成し、また、合成信号のフレーム又はサブフレーム(部分)についてのノイズ状信号から第2励振信号を生成し、更に第1励振信号と第2励振とを結合して結合済み励振信号を生成することで、合成信号の品質が改善すなわち強化され得る、という発見である。特に、背景ノイズを有するスピーチ信号を含むオーディオ信号の各部分にとって、サウンド品質はノイズ状信号を追加することにより改善され得る。第1励振信号を増幅するためのゲインパラメータは、任意選択的に符号器において決定されてもよく、そのパラメータに関連する情報は、符号化済みオーディオ信号と一緒に伝送されてもよい。
【0020】
代替的又は追加的に、合成されたオーディオ信号の強化は、少なくとも部分的に、オーディオ信号を符号化する際のビットレートを低減するために活用されてもよい。
【0021】
第1の態様に係る符号器は、オーディオ信号のあるフレームから予測係数と残差信号とを導出するよう構成された分析部を含む。その符号器は、予測係数からスピーチ関連のスペクトル整形情報を計算するよう構成されたフォルマント情報計算部を更に含む。その符号器は、無声残差信号とスペクトル整形情報とからゲインパラメータを計算するよう構成されたゲインパラメータ計算部と、有声信号フレームに関連する情報とゲインパラメータ又は量子化済みゲインパラメータと予測係数とに基づいて出力信号を形成するよう構成されたビットストリーム形成部と、を更に含む。
【0022】
第1の態様に係る更なる実施形態は、符号化済みのオーディオ信号であって、そのオーディオ信号の有声フレーム及び無声フレームについての予測係数情報と、有声信号フレームに関連する更なる情報と、無声フレームについてのゲインパラメータ又は量子化済みゲインパラメータと、を含む符号化済みのオーディオ信号を提供する。これにより、スピーチ関連情報を効率的に伝送することが可能になり、符号化済みオーディオ信号を復号化して、高いオーディオ品質を有する合成された(復元された)信号を得ることが可能になる。
【0023】
第1の態様に係る他の実施形態は、予測係数を含む受信信号を復号化する復号器を提供する。その復号器は、フォルマント情報計算部とノイズ生成部と整形器と合成部とを含む。フォルマント情報計算部は、予測係数からスピーチ関連のスペクトル整形情報を計算するよう構成されている。ノイズ生成部は、復号化ノイズ状信号を生成するよう構成されている。整形器は、スペクトル整形情報を使用して、復号化ノイズ状信号又はその増幅された表現のスペクトルを整形し、整形済み復号化ノイズ状信号を取得するよう構成されている。合成部は、増幅された整形済み符号化ノイズ状信号と予測係数とから合成信号を合成するよう構成されている。
【0024】
第1の態様に係る別の実施形態は、オーディオ信号を符号化する方法と、受信オーディオ信号を復号化する方法と、コンピュータプログラムとに関する。
【0025】
第2の態様に係る実施形態は、オーディオ信号を符号化する符号器を提供する。その符号器は、オーディオ信号の無声フレームから予測係数と残差信号とを導出するよう構成された分析部を含む。その符号器は、その無声フレームのために、確定的コードブックに関連する第1励振信号を定義する第1ゲインパラメータ情報を計算し、かつノイズ状信号に関連する第2励振信号を定義する第2ゲインパラメータ情報を計算するよう構成された、ゲインパラメータ計算部を更に含む。その符号器は、有声信号フレームに関連する情報と第1ゲインパラメータ情報と第2ゲインパラメータ情報とに基づいて、出力信号を形成するよう構成されたビットストリーム形成部を更に含む。
【0026】
第2の態様に係る更なる実施形態は、予測係数に関連する情報を含む受信オーディオ信号を復号化する復号器を提供する。その復号器は、合成信号の一部分のために、確定的コードブックから第1励振信号を生成するよう構成された第1信号生成部を含む。その復号器は、合成信号の前記一部分のために、ノイズ状信号から第2励振信号を生成するよう構成された第2信号生成部を更に含む。その復号器は、結合部と合成部とを更に含み、結合部は、第1励振信号と第2励振信号とを結合して、合成信号の前記一部分のための結合済み励振信号を生成するよう構成されている。
【0027】
第2の態様に係る他の実施形態は、予測係数に関連する情報と、確定的コードブックに関連する情報と、第1ゲインパラメータ及び第2ゲインパラメータに関連する情報と、有声及び無声の信号フレームに関連する情報とを含む、符号化済みオーディオ信号を提供する。
【0028】
第2の態様に係る別の実施形態は、オーディオ信号を符号化する方法と、受信オーディオ信号を復号化する方法と、コンピュータプログラムとを提供する。
【0029】
以下に、本願発明の好ましい実施形態について添付の図面を参照しながら説明する。
【図面の簡単な説明】
【0030】
図1】第1の態様の一実施形態に従う、オーディオ信号を符号化する符号器の概略ブロック図を示す。
図2】第1の態様の一実施形態に従う、受信された入力信号を復号化する復号器の概略ブロック図を示す。
図3】第1の態様の一実施形態に従う、オーディオ信号を符号化する更なる符号器の概略ブロック図を示す。
図4】第1の態様の一実施形態に従う、図3とは異なるゲインパラメータ計算部を含む符号器の概略ブロック図を示す。
図5】第2の態様の一実施形態に従う、第1ゲインパラメータ情報を計算しかつコード励振信号を整形するよう構成されたゲインパラメータ計算部の概略ブロック図を示す。
図6】第2の態様の一実施形態に従う、オーディオ信号を符号化しかつ図5に示すゲインパラメータ計算部を含む符号器の概略ブロック図を示す。
図7】第2の態様の一実施形態に従う、図5の実例とは異なりノイズ状信号を整形するよう構成された更なる整形器を含む、ゲインパラメータ計算部の概略ブロック図を示す。
図8】第2の態様の一実施形態に従う、CELPのための無声符号化スキームの概略ブロック図を示す。
図9】第1の態様の一実施形態に従う、パラメトリック無声符号化の概略ブロック図を示す。
図10】第2の態様の一実施形態に従う、符号化済みオーディオ信号を復号化する復号器の概略ブロック図を示す。
図11a】第1の態様の一実施形態に従う、図2に示す整形器とは異なる構造を構成する整形器の概略ブロック図を示す。
図11b】第1の態様の一実施形態に従う、図2に示す整形器とは更に異なる構造を構成する更なる整形器の概略ブロック図を示す。
図12】第1の態様の一実施形態に従う、オーディオ信号を符号化する方法の概略的フローチャートを示す。
図13】第1の態様の一実施形態に従う、予測係数とゲインパラメータとを含む受信オーディオ信号を復号化する方法の概略的フローチャートを示す。
図14】第2の態様の一実施形態に従う、オーディオ信号を符号化する方法の概略的フローチャートを示す。
図15】第2の態様の一実施形態に従う、受信オーディオ信号を復号化する方法の概略的フローチャートを示す。
図16】パラメトリック無声符号化スキームの概略ブロック図である。
【発明を実施するための形態】
【0031】
同一若しくは同等の構成要素又は同一若しくは同等の機能を有する構成要素は、異なる図面の中に記載されている場合でも、以下の説明において、同一若しくは同等の参照符号を用いて示されている。
【0032】
以下の説明において、本発明の実施形態をより完全に説明するために、多くの詳細が述べられる。しかしながら、本発明の実施形態がこれらの特別な詳細なしでも実施可能であることは、当業者には自明であろう。他の例において、公知の構造及び装置は、本発明の実施形態の不明瞭を防止する目的で、詳細よりもブロック図の形式で示されている。加えて、以下に記載する異なる実施形態の各特徴は、特に組合せ不可能の記載がない限り、互いに組み合せられてもよい。
【0033】
以下の説明では、オーディオ信号の修正について説明する。オーディオ信号は、オーディオ信号の一部分を増幅及び/又は減衰させることで修正されてもよい。オーディオ信号の一部分とは、例えば時間ドメインにおけるオーディオ信号の1つの列であってもよく、及び/又は、周波数ドメインにおける1つのスペクトルであってもよい。周波数ドメインに関し、そのスペクトルは、周波数又は周波数領域の内部又は上に配置されたスペクトル値を増幅又は減衰されることで修正されてもよい。オーディオ信号のスペクトルの修正は、第1周波数又は周波数領域の増幅及び/又は減衰、及びそれに後続する第2周波数又は周波数領域の増幅及び/又は減衰などのように、一連の操作を含み得る。周波数ドメインにおける修正は、スペクトル値とゲイン値及び/又は減衰値との、例えば乗算、除算、合計その他の計算として表現されてもよい。修正は、例えばまずスペクトル値を第1乗算値と乗算し、次に第2乗算値と乗算するなど、順序的に実行されてもよい。まず第2乗算値と乗算し、次に第1乗算値と乗算することは、同一又は略同一の結果を受け取ることになり得る。また、第1乗算値と第2乗算値とがまず結合され、次に結合された乗算値としてスペクトル値に対して適用されてもよく、これも演算の同一又は匹敵する結果を受け取ることになり得る。このように、以下に記載するようなオーディオ信号のスペクトルを形成又は修正するよう構成された修正ステップは、記載された順序に限定されるものではなく、変更された順序で実行されることも可能であり、その一方で同一の結果及び/又は効果を受け取ることも可能である。
【0034】
図1は、オーディオ信号102を符号化する符号器100の概略ブロック図を示す。符号器100は、オーディオ信号102に基づいてフレーム列112を生成するよう構成されたフレーム構築部110を含む。列112は複数のフレームを含み、オーディオ信号102の各フレームは時間ドメインにおけるある長さ(持続時間)を含む。例えば各フレームは、10ms,20ms又は30msの長さを含んでもよい。
【0035】
符号器100は、オーディオ信号の1つのフレームから予測係数(LPC=線形予測係数)122と残差信号124とを導出するよう構成された分析部120を含む。フレーム構築部110又は分析部120は、オーディオ信号102の周波数ドメインにおける表現を決定するよう構成されている。代替的に、オーディオ信号102は、既に周波数ドメインにおける表現であってもよい。
【0036】
予測係数122は、例えば線形予測係数であってもよい。代替的に、予測部120が非線形予測係数を決定するよう、非線形予測が適用されてもよい。線形予測の長所として、予測係数を決定するための演算量を低減できることが挙げられる。
【0037】
符号器100は、残差信号124が無声オーディオフレームから決定されたか否かを判定するよう構成された、有声/無声の判定部130を含む。判定部130は、残差信号124が有声信号フレームから決定された場合にはその残差信号を有声フレームコーダ140へと供給し、残差信号124が無声オーディオフレームから決定された場合にはその残差信号をゲインパラメータ計算部150へと供給するよう構成されている。残差信号124が有声又は無声の信号フレームから決定されたことを判定するために、判定部130は、残差信号のサンプルの自己相関など、種々の手法を用いてもよい。信号フレームが有声であったか無声であったかを判定するための方法は、例えばITU(国際電気通信連合)−T(電気通信標準化部門)の標準G.718で提供されている。低周波数に配分された多量のエネルギーは、信号の有声部分を示し得る。代替的に、無声信号は、高周波数に多量のエネルギーが存在する結果となり得る。
【0038】
符号器100は、予測係数122からスピーチ関連のスペクトル整形情報を計算するよう構成されたフォルマント情報計算部160を含む。
【0039】
スピーチ関連のスペクトル整形情報は、例えば周囲のフレームよりも多量のエネルギーを含む処理済みオーディオフレームの周波数又は周波数領域を決定することにより、フォルマント情報を考慮してもよい。スペクトル整形情報は、スピーチの大きさスペクトルを、フォルマント即ちこぶ部と非フォルマント即ち谷部との周波数領域へと区分できる。スペクトルのフォルマント領域は、例えば予測係数122のイミタンス・スペクトル周波数(ISF)又は線スペクトル周波数(LSF)表現を使用することで導出できる。実際、ISF又はLSFは、予測係数122を使用する合成フィルタが共振する周波数を表現している。
【0040】
スピーチ関連のスペクトル整形情報162と無声残差とは、ゲインパラメータ計算部150へと出力され、この計算部150は無声残差信号とスペクトル整形情報162とからゲインパラメータgnを計算するよう構成されている。ゲインパラメータgnは、1つ又は複数のスカラー値であってもよい。即ち、ゲインパラメータは、増幅又は減衰されるべき信号のスペクトルの複数の周波数領域内における、スペクトル値の増幅又は減衰に関連する複数の値を含んでもよい。復号器は、受信された符号化済みオーディオ信号の複数の部分が、復号化の過程において、ゲインパラメータに基づいて増幅又は減衰されるように、受信された符号化済みオーディオ信号の情報に対してゲインパラメータgnを適用するよう構成されてもよい。ゲインパラメータ計算部150は、ゲインパラメータgnを、連続的な値をもたらす1つ又は複数の数学的表現又は決定規則により決定するよう構成されてもよい。例えばプロセッサを用いてデジタル的に実行される演算は、限られたビット数を用いてある変数をもたらす結果を表現するものであり、量子化されたゲイン
をもたらしてもよい。代替的に、ある量子化されたゲイン情報が得られるように、量子化スキームに従ってその結果が更に量子化されてもよい。従って、符号器100は量子化部170を含んでもよい。その量子化部170は、決定されたゲインパラメータgnを、符号器100のデジタル演算によってサポートされた最も近いデジタル値へと量子化するよう構成されてもよい。代替的に、量子化部170は、既にデジタル化され従って量子化済みのゲインファクタgnに対してある量子化関数(線形又は非線形)を適用するよう構成されてもよい。非線形の量子化関数は、例えば、低い音圧レベルにおいては高い感度を示し、高い音圧レベルにおいてはより低い感度を示す人間の聴覚の対数依存性を考慮に入れてもよい。
【0041】
符号器100は、予測係数122から予測係数関連情報182を導出するよう構成された、情報導出ユニット180を更に含んでもよい。革新的コードブックを励振するために使用される線形予測係数などのような予測係数は、歪み又はエラーに対して低いロバスト性を有する。従って、例えば、線形予測係数をスペクトル間周波数(ISF)へと変換し、及び/又は線スペクトルペア(LSP)を導出し、それに関連する情報を符号化済みオーディオ信号と一緒に伝送することが知られている。LSP及び/又はISF情報は、伝送媒体内における歪み、例えばエラーや計算エラーに対するより高いロバスト性を有する。情報導出ユニット180は、LSF及び/又はISP情報に関し、量子化された情報を提供するよう構成された量子化部を更に含んでもよい。
【0042】
代替的に、情報導出ユニットは、予測係数122を転送するよう構成されてもよい。代替的に、符号器100は、情報導出ユニット180なしで実現されてもよい。代替的に、量子化部は、ゲインパラメータ計算部150又はビットストリーム形成部190の一機能ブロックであってもよく、それにより、ビットストリーム形成部190がゲインパラメータgnを受け取り、かつそれに基づいて量子化済みゲイン
を導出してもよい。代替的に、ゲインパラメータgnが既に量子化されている場合には、符号器100は量子化部170を持たずに実現されてもよい。
【0043】
符号器100は、有声信号、即ち符号化済みオーディオ信号の各有声フレームにそれぞれ関連し有声フレームコーダ140によって提供される有声情報142を受け取り、量子化済みゲイン
と予測係数関連情報182とを受け取り、それらに基づいて出力信号192を形成するよう構成された、ビットストリーム形成部190を含む。
【0044】
符号器100は、固定又は携帯電話などの音声符号化装置や、コンピュータ、タブレットPCなどのようなオーディオ信号の伝送用のマイクロホンを含む装置の一部であってもよい。出力信号192又はそこから導出された信号は、例えば移動通信(無線)を介し、又はネットワーク信号などの有線通信を介して伝送されてもよい。
【0045】
この符号器100の利点として、出力信号192が、量子化済みゲイン
に変換されたスペクトル整形情報から導出された情報を含むことが挙げられる。これにより、出力信号192の復号化は、スピーチに関連する更なる情報を達成又は獲得することが可能になり、従って、取得され復号化された信号がスピーチの品質の知覚レベルに関して高い品質を有するように、その信号を復号化することが可能になる。
【0046】
図2は、受信された入力信号202を復号化する復号器200の概略ブロック図を示す。受信された入力信号202は、例えば符号器100により供給された出力信号192に対応してもよく、その出力信号192は、高レベルレイヤ符号器によって符号化され、ある媒体を介して伝送され、高レイヤで復号化する受信装置により受信されて、復号器200への入力信号202となったものであり得る。
【0047】
復号器200は、入力信号202を受信するビットストリーム・デフォーマ(デマルチプレクサ、DE−MUX)を含む。ビットストリーム・デフォーマ210は、予測係数122と、量子化済みゲイン
と、有声情報142とを提供するよう構成されている。予測係数122を取得するために、ビットストリーム・デフォーマは、情報導出ユニット180と比較したときに逆の操作を実行する、逆情報導出ユニットを含んでもよい。代替的に、復号器200は、情報導出ユニット180とは逆の操作を実行するよう構成された、図示されない逆情報導出ユニットを含み得る。換言すれば、予測係数が復号化され、即ち復元される。
【0048】
復号器200は、フォルマント情報計算部160について上述したように、予測係数122からスピーチ関連のスペクトル整形情報を計算するよう構成された、フォルマント情報計算部220を含む。フォルマント情報計算部220は、スピーチ関連のスペクトル整形情報222を提供するよう構成されている。代替的に、入力信号202がスピーチ関連のスペクトル整形情報222を含んでいてもよいが、スピーチ関連のスペクトル整形情報222の代わりに、予測係数又はそれに関連する情報、例えば量子化済みLSF及び/又はISFなどを伝送することにより、入力信号202のビットレートをより低くすることが可能となる。
【0049】
復号器200は、ノイズ信号と単に称され得るノイズ状信号を生成するよう構成されたランダムノイズ生成部240を含む。ランダムノイズ生成部240は、例えばノイズ信号を測定し記憶するときに取得されたノイズ信号を再生するよう構成されてもよい。ノイズ信号は、例えば抵抗器又は他の電気的部品における熱ノイズを生成し、記録されたデータをメモリに格納することで、測定されかつ記録されてもよい。ランダムノイズ生成部240は、ノイズ(状)信号n(n)を提供するよう構成されている。
【0050】
復号器200は、整形処理部252と可変増幅部254とを含む整形器250を含む。整形器250は、ノイズ信号n(n)のスペクトルをスペクトル的に整形するよう構成されている。整形処理部252は、スピーチ関連のスペクトル整形情報を受信し、更に、例えばノイズ信号n(n)のスペクトルのスペクトル値にスペクトル整形情報の値を乗算することで、ノイズ信号n(n)のスペクトルを整形するよう構成されている。この操作はまた、時間ドメインにおいて、ノイズ信号n(n)をスペクトル整形情報によって与えられたフィルタを用いて畳み込むことによっても実行され得る。整形処理部252は、整形済みノイズ信号256とそのスペクトルをそれぞれ可変増幅部254へと提供するよう構成されている。可変増幅部254は、ゲインパラメータgnを受信し、かつ整形済みノイズ信号256のスペクトルを増幅して、増幅された整形済みノイズ信号258を取得するよう構成されている。増幅部は、整形済みノイズ信号256のスペクトル値にゲインパラメータgnの値を乗算するよう構成されてもよい。上述したように、整形器250は、可変増幅部254がノイズ信号n(n)を受信して、増幅されたノイズ信号を整形処理部252へと供給し、整形処理部252が増幅されたノイズ信号を整形するように、構成されてもよい。代替的に、整形処理部252は、スピーチ関連のスペクトル整形情報222とゲインパラメータgnとを受信し、ノイズ信号n(n)に対して両方の情報を次から次へと順序的に適用してもよく、又は、例えば乗算若しくは他の計算法により両方の情報を結合して、結合済みパラメータをノイズ信号n(n)に対して適用してもよい。
【0051】
スピーチ関連のスペクトル整形情報によって整形されたノイズ状信号n(n)又はその増幅されたバージョンにより、復号化されたオーディオ信号282が、より良好なスピーチ関連の(自然な)音声品質を含むようになり得る。これにより、高品質のオーディオ信号を得ることを可能にし、及び/又は、符号器側においてはビットレートを低減し、他方で復号器においては低減された範囲で出力信号282を維持又は強化することを可能にする。
【0052】
復号器200は、予測係数122と増幅された整形済みノイズ信号258とを受信し、増幅された整形済みノイズ信号258と予測係数122とから合成信号262を合成するよう構成された合成部260を含む。合成部260はフィルタを含んでもよく、そのフィルタを予測係数に適応させるよう構成されてもよい。その合成部は、フィルタを用いて、増幅された整形済みノイズ状信号258をフィルタリングするよう構成されてもよい。そのフィルタはソフトウエア又はハードウエア構造として構成されてもよく、無限インパルス応答(IIR)又は有限インパルス応答(FIR)構造を含んでもよい。
【0053】
合成信号は復号器200の出力信号282の無声の復号化済みフレームに対応している。出力信号282は、連続的なオーディオ信号に変換され得るフレーム列を含む。
【0054】
ビットストリーム・デフォーマ210は、入力信号202から有声情報信号142を分離しかつ供給するよう構成されている。復号器200は、その有声情報(信号)142に基づいて有声フレームを提供するよう構成された、有声フレームデコーダ270を含む。有声フレームデコーダ(有声フレーム処理部)は、有声情報(信号)142に基づいて有声信号272を決定するよう構成されている。有声信号272は、復号器100の有声オーディオフレーム及び/又は有声残差に対応してもよい。
【0055】
復号器200は、無声の復号化済みフレーム262と有声フレーム272とを結合して、復号化済みオーディオ信号282を取得するよう構成された結合部280を含む。
【0056】
代替的に、整形器250は増幅部なしで実現されてもよく、その場合、整形器250はノイズ状信号n(n)のスペクトルを整形するよう構成され、取得された信号を更に増幅することはない。これにより、入力信号222によって伝送される情報量を低減でき、従って、入力信号202の列の低減されたビットレート又はより短い持続時間が可能となる。代替的に又は加えて、復号器200は、無声フレームだけを復号化するよう構成されてもよいし、ノイズ信号n(n)をスペクトル的に整形しかつ有声及び無声フレームについて合成信号262を合成することで、有声及び無声フレームの両方を処理するよう構成されてもよい。この場合、有声フレームデコーダ270なしで、及び/又は結合部280なしで復号器200を構成することができ、その結果、復号器200の複雑性が低減されることになる。
【0057】
出力信号192及び/又は入力信号202は、予測係数122に関連する情報、処理されたフレームが有声か無声かを示すフラッグなどの有声フレームと無声フレームとについての情報、及び、符号化済み有声信号などの有声信号フレームに関連する更なる情報を含む。出力信号192及び/又は入力信号202は、無声フレームのためのゲインパラメータ又は量子化済みゲインパラメータを更に含み、その無声フレームが予測係数122とゲインパラメータgn
とにそれぞれ基づいて復号化されるよう構成されてもよい。
【0058】
図3はオーディオ信号102を符号化する符号器300の概略ブロック図を示す。符号器300は、フレーム構築部110と、フレーム構築部110により出力されたフレーム列112に対してフィルタA(z)を適用することにより、線形予測係数322及び残差信号324を決定するよう構成された予測部320とを含む。符号器300は、判定部130と、有声信号情報142を取得するための有声フレームコーダ140とを含む。符号器300は、フォルマント情報計算部160と、ゲインパラメータ計算部350とを更に含む。
【0059】
ゲインパラメータ計算部350は、上述したようにゲインパラメータgnを提供するよう構成されている。ゲインパラメータ計算部350は、符号化ノイズ状信号350bを生成するランダムノイズ生成部350aを含む。ゲインパラメータ計算部350は、整形処理部350dと可変増幅部350eとを有する整形器350cを更に含む。整形処理部350dは、スピーチ関連の整形情報162とノイズ状信号350bとを受信し、整形器250について上述した通り、スピーチ関連のスペクトル整形情報162を用いてノイズ状信号350bのスペクトルを整形するよう構成されている。可変増幅部350eは、整形済みノイズ状信号350fを、制御部350kから受信された一時的ゲインパラメータであるゲインパラメータgn(temp)を用いて増幅するよう構成されている。可変増幅部350eは更に、増幅されたノイズ状信号258について上述した通り、増幅された整形済みノイズ状信号350gを提供するよう構成されている。整形器250について上述したように、ノイズ状信号を整形しかつ増幅する順序は、図3とは異なるように結合され又は変更されてもよい。
【0060】
ゲインパラメータ計算部350は、判定部130により提供された無声残差と、増幅された整形済みノイズ状信号350gと、を比較するよう構成された比較部350hを含む。比較部は、無声残差と増幅された整形済みノイズ状信号350gとの類似性の尺度を得るよう構成されている。例えば、比較部350hは、両信号の相互相関を決定するよう構成されてもよい。代替的又は追加的に、比較部350hは、幾つか又は全ての周波数binにおける両信号のスペクトル値を比較するよう構成されてもよい。比較部350hは、比較結果350iを取得するよう更に構成されている。
【0061】
ゲインパラメータ計算部350は、比較結果350iに基づいてゲインパラメータgn(temp)を決定するよう構成された制御部350kを含む。例えば、比較結果350iが、増幅された整形済みノイズ状信号が無声残差の対応する振幅又は大きさよりも低い振幅又は大きさを含む、と示した場合、制御部は、増幅されたノイズ状信号350gの幾つか又は全ての周波数についてのゲインパラメータgn(temp)の一つ以上の値を増大させるよう構成されてもよい。代替的又は追加的に、比較結果350iが、増幅された整形済みノイズ状信号の大きさ又は振幅が高すぎる、即ち増幅された整形済みノイズ状信号のラウドネスが大き過ぎる、と示した場合、制御部は、ゲインパラメータgn(temp)の一つ以上の値を減少させるよう構成されてもよい。ランダムノイズ生成部350a、整形器350c、比較部350h及び制御部350kは、ゲインパラメータgn(temp)を決定するために閉ループ最適化を実施するよう構成されてもよい。無声残差と増幅された整形済みノイズ状信号350gとの類似性の尺度であって、例えば両方の信号の差分として表現された尺度により、その類似性がある閾値を超えると示された場合、制御部350kは、決定されたゲインパラメータgnを提供するよう構成されている。量子化部370は、このゲインパラメータgnを量子化して量子化済みゲインパラメータ
を得るよう構成されている。
【0062】
ランダムノイズ生成部350aは、ガウス状ノイズを供給する構成されてもよい。ランダムノイズ生成部350aは、−1などの下限(最小値)と+1などの上限(最大値)との間でn個の均一な分布でランダム発生器を作動させる(呼び出す)よう構成されてもよい。例えば、ランダムノイズ生成部350は、ランダム発生器を3回呼び出すよう構成される。デジタル的に構成されているランダムノイズ生成部は疑似ランダム値を出力してもよく、複数又は多数の疑似ランダム関数の加算又は重畳により、十分にランダム分布された関数を得ることが可能になり得る。この手順は中心極限定理(Central Limit Theorem)に従うものである。ランダムノイズ生成部350aは、以下の疑似コードで示されるように、少なくとも2回、3回又はそれ以上、ランダム発生器を呼び出すよう構成されてもよい。
【0063】
[数6]
【0064】
代替的に、ランダムノイズ生成部350aは、ランダムノイズ生成部240について説明したのと同様に、ノイズ状信号をメモリから生成してもよい。代替的に、ランダムノイズ生成部350aは、あるコードを実行するか、又は熱ノイズのような物理的効果を測定することによって、ノイズ信号を生成するための、例えば電気的抵抗又は他の手段を含んでもよい。
【0065】
整形処理部350bは、上述したようにfe(n)を用いてノイズ状信号350bをフィルタリングすることで、ノイズ状信号350bに対してフォルマント的構造と傾きとを付加するよう構成されてもよい。その傾きは、次式に基づく伝達関数を含むフィルタt(n)を用いて信号をフィルタリングすることで、付加されてもよい。
[数7]
ここで、ファクタβは前サブフレームのボイシングから推定されてもよい。
[数8]
ここで、ACは適応型コードブックの省略形であり、ICは革新的コードブックの省略形である。
[数9]
【0066】
ゲインパラメータgnと量子化済みゲインパラメータ
とは、符号化済み信号と、復号器200のような復号器で復号化された対応する復号化済み信号と、の間の誤差又はミスマッチを低減し得る、追加的な情報の供給をそれぞれ可能にするものである。
【0067】
次式の判定規則について、
[数10]
パラメータw1は、最大で1.0である正の非ゼロ値を含んでもよく、好ましくは少なくとも0.7でかつ最大で0.8であり、更に好ましくは0.75の値を含んでもよい。パラメータw2は、最大で1.0である正の非ゼロのスカラー値を含んでもよく、好ましくは少なくとも0.8でかつ最大で0.93であり、更に好ましくは0.9の値を含んでもよい。パラメータw2は、好ましくはw1よりも大きい。
【0068】
図4は、符号器400の概略ブロック図を示す。符号器400は、符号器100と300とに関して上述したように、有声信号情報142を提供するよう構成されている。符号器300と比較すると、符号器400は異なるゲインパラメータ計算部350’を含む。比較部350h’は、オーディオフレーム112と合成信号350l’とを比較して、比較結果350i’を得るよう構成されている。ゲインパラメータ計算部350’は、増幅された整形済みノイズ状信号350gと予測係数122とに基づいて、合成信号350l’を合成するよう構成された合成部350m’を含む。
【0069】
基本的に、ゲインパラメータ計算部350’は、合成信号350l’を合成することで、少なくとも部分的に復号器を構成している。無声残差と増幅された整形済みノイズ状信号とを比較するよう構成された比較部350hを含む符号器300と比べた場合、符号器400は、(おそらく完全な)オーディオフレームと合成信号とを比較するよう構成された比較部350h’を含む。信号のフレーム及びそれらのパラメータを含むものが互いに比較されることから、より高い精度が達成され得る。残差信号及び増幅された整形済みノイズ状情報と比べて、オーディオフレーム122及び合成信号350l’はより高度な複雑さを含み得るため、両方の信号を比較することはより複雑となり、高い精度はより大きな演算量を必要とする可能性がある。加えて、合成部350m’による合成の計算には、演算量が要求される。
【0070】
ゲインパラメータ計算部350’は、符号化ゲインパラメータgn又はその量子化済みバージョン
を含む符号化情報を記録するよう構成されたメモリ350n’を含む。これにより、制御部350kは、後続のオーディオフレームを処理するときに、記憶されたゲイン値を取得することが可能になる。例えば、制御部は、第1の値(第1セットの値)、即ち、前のオーディオフレームについてのgnの値に基づいた又は等しいゲインファクタgn(temp)の第1の実例を決定するよう構成されてもよい。
【0071】
図5は、第2の態様の一実施形態に従う、第1ゲインパラメータ情報gnを計算するよう構成されたゲインパラメータ計算部550の概略ブロック図を示す。ゲインパラメータ計算部550は、励振信号c(n)を生成するよう構成された信号生成部550aを含む。信号生成部550aは、信号c(n)を生成するために確定的コードブックとその中のインデックスとを含む。即ち、予測係数122などの入力情報は、確定的な励振信号c(n)をもたらす。信号生成部550aは、CELP符号化スキームの革新的コードブックに従って励振信号c(n)を生成するよう構成されてもよい。そのコードブックは、先行する較正ステップにおいて測定されたスピーチデータに従って決定され又はトレーニングされてもよい。ゲインパラメータ計算部は、コード信号c(n)のためのスピーチ関連整形情報550cに基づいて、コード信号c(n)のスペクトルを整形するよう構成された整形器550bを含む。スピーチ関連整形情報550cは、フォルマント情報計算部160から取得されてもよい。整形器550bは、コード信号を整形するための整形情報550cを受信するよう構成された整形処理部550dを含む。整形器550bは、整形済みコード信号c(n)を増幅し、増幅された整形済みコード信号550fを取得するよう構成された、可変増幅部550eを更に含む。このように、コードゲインパラメータは、確定的コードブックに関連するコード信号c(n)を定義するよう構成されている。
【0072】
ゲインパラメータ計算部550は、ノイズ(状の)信号n(n)を提供するよう構成されたノイズ生成部350aと、ノイズゲインパラメータgnに基づいてノイズ信号n(n)を増幅して増幅されたノイズ信号550hを取得するよう構成された増幅部550gと、を含む。ゲインパラメータ計算部は、増幅された整形済みコード信号550fと増幅されたノイズ信号550hとを結合して結合済み励振信号550kを得るよう構成された、結合部550iを含む。結合部550iは、例えば、増幅された整形済みコード信号550fと増幅されたノイズ信号550hとのスペクトル値をスペクトル的に加算するか又は乗算するよう構成されてもよい。代替的に、結合部550iは両方の信号550f及び550hを畳み込むよう構成されてもよい。
【0073】
整形器350cに関して上述したように、整形器550bは、コード信号c(n)がまず可変増幅部550eにより増幅され、その後で整形処理部550dにより整形されるように構成されてもよい。代替的に、コード信号c(n)のための整形情報550cがコードゲインパラメータ情報gcと結合され、その結合情報がコード信号c(n)に対して適用されてもよい。
【0074】
ゲインパラメータ計算部550は、結合済み励振信号550kと有声/無声判定部130によって取得された無声残差信号とを比較するよう構成された、比較部550lを含む。比較部550lは、比較部550hであってもよく、比較結果、即ち、結合済み励振信号550kと無声残差信号との類似性についての尺度550mを提供するよう構成されている。コードゲイン計算部は、コードゲインパラメータ情報gc及びノイズゲインパラメータ情報gnを制御するよう構成された制御部550nを含む。コードゲインパラメータgc及びノイズゲインパラメータ情報gnは、ノイズ信号n(n)もしくはそこから導出された信号の周波数領域に関係するか、又は、コード信号c(n)もしくはそこから導出された信号のスペクトルに関係し得る、複数又は多数のスカラー値又は虚数値を含んでもよい。
【0075】
代替的に、ゲインパラメータ計算部550は、整形処理部550dを持たずに構成されてもよい。代替的に、整形処理部550dは、ノイズ信号n(n)を整形し、整形済みノイズ信号を可変増幅部550gへと提供するよう構成されてもよい。
【0076】
このように、両方のゲインパラメータ情報gc及びgnを制御することで、結合済み励振信号550kと無声残差との類似性が高くなり、その結果、コードゲインパラメータ情報gc及びノイズゲインパラメータ情報gnに関する情報を受信する復号器が、良好な音声品質を有するオーディオ信号を再生できるようになる。制御部550nは、コードゲインパラメータ情報gc及びノイズゲインパラメータ情報gnに関する情報を含む出力信号550oを提供するよう構成されている。例えば、信号550oは、両方のゲインパラメータ情報gn及びgcを、スカラー値もしくは量子化済み値として、又はそれらから導出された値、例えば符号化済み値として含んでもよい。
【0077】
図6は、オーディオ信号102を符号化し、図5に記載のゲインパラメータ計算部550を含む符号器600の概略ブロック図を示す。符号器600は、例えば符号器100又は300を修正することで取得し得る。符号器600は、第1量子化部170−1と第2量子化部170−2とを含む。第1量子化部170−1は、ゲインパラメータ情報gcを量子化して、量子化済みゲインパラメータ情報
を取得するよう構成されている。第2量子化部170−2は、ノイズゲインパラメータ情報gnを量子化して、量子化済みノイズゲインパラメータ情報
を取得するよう構成されている。ビットストリーム形成部690は、有声信号情報142と、LPC関連情報122と、両方の量子化済みゲインパラメータ情報
と、を含む出力信号692を生成するよう構成されている。出力信号192と比べて、出力信号692は、量子化済みゲインパラメータ情報
により拡張又はアップグレードされている。代替的に、量子化部170−1及び/又は170−2は、ゲインパラメータ計算部550の一部であってもよい。更に、量子化部170−1及び/又は170−2の一方が両方の量子化済みゲインパラメータ
を取得するよう構成されてもよい。
【0078】
代替的に、符号器600は、コードゲインパラメータ情報gc及びノイズゲインパラメータ情報gnを量子化して量子化済みパラメータ情報
を取得するよう構成された、1つの量子化部を含むよう構成されてもよい。両方のゲインパラメータ情報は、例えば順次的に量子化されてもよい。
【0079】
フォルマント情報計算部160は、予測係数122からスピーチ関連のスペクトル整形情報550cを計算するよう構成されている。
【0080】
図7は、ゲインパラメータ計算部550と比べて修正された、ゲインパラメータ計算部550’の概略ブロック図を示す。ゲインパラメータ計算部550’は、増幅部550gの代わりに、図3に記載の整形器350を含む。整形器350は、増幅された整形済みノイズ信号350gを提供するよう構成されている。結合部550iは、増幅された整形済みコード信号550fと増幅された整形済みノイズ信号350gとを結合して、結合済み励振信号550k’を提供するよう構成されている。フォルマント情報計算部160は、両方のスピーチ関連フォルマント情報162及び550cを提供するよう構成されている。スピーチ関連フォルマント情報550c及び162は同一であってもよい。代替的に、双方の情報550c及び162は互いに異なっていてもよい。これにより、コード生成された信号c(n)とn(n)との個別のモデリング、即ち整形が可能になる。
【0081】
制御部550nは、処理済みオーディオフレームの各サブフレームについて、ゲインパラメータ情報gcとgnとを決定するよう構成されてもよい。制御部は、以下のような詳細に基づいて、ゲインパラメータ情報gcとgnとを決定、即ち計算するよう構成されてもよい。
【0082】
まず、LPC分析の期間中に使用可能なオリジナル短時間予測残差信号について、即ち無声残差信号について、サブフレームの平均エネルギーが計算されてもよい。そのエネルギーは、現フレームの4個のサブフレームにわたり、次式により対数ドメインにおいて平均される。
[数11]
【0083】
ここで、Lsfはサンプル内のサブフレームのサイズである。この場合、フレームは4個のサブフレームへと分割される。平均化されたエネルギーは、次に事前にトレーニングされた確率論的コードブック(stochastic codebook)を使用して、例えば3、4又は5のような幾つかのビットを用いて符号化されてもよい。確率論的コードブックは、例えば3ビットの数について8のサイズ、4ビットの数について16のサイズ、又は、5ビットの数について32のサイズなど、ビットの数により表され得る幾つかの異なる値に従って、幾つかのエントリー(サイズ)を含み得る。量子化済みゲイン
が、そのコードブックの選択された符号語から決定されてもよい。各サブフレームについて、2個のゲイン情報gcとgnが計算される。コードgcのゲインは、例えば次式に基づいて計算されてもよい。
[数12]
ここで、cw(n)は、例えば信号生成550aに含まれ、知覚的重み付きフィルタによりフィルタリングされた固定コードブックから選択された固定の励振である。表示xw(n)は、CELP符号器内で計算された従来型の知覚的目標励振に対応する。コードゲイン情報gcは次に、正規化されたゲインgncを得るために、次式に基づいて正規化されてもよい。
[数13]
【0084】
正規化されたゲインgncは、例えば量子化部170−1により量子化されてもよい。量子化は、線形又は対数スケールに従って実行されてもよい。対数スケールは、4、5又はそれ以上のビットのサイズのスケールを含んでもよい。例えば、対数スケールは、5ビットのサイズを含む。量子化は次式に基づいて実行されてもよい。
[数14]
ここで、対数スケールが5ビットを含む場合、Indexncは0〜31の間に制限されてもよい。Indexncは量子化済みゲインパラメータ情報であってもよい。コード
の量子化済みゲインは次に、次式に基づいて表現され得る。
[数15]
【0085】
コードのゲインが、次式の平均二乗根誤差又は平均二乗誤差(MSE)を最小化する目的で計算されてもよい。
[数16]
ここで、Lsfは予測係数122から決定された線スペクトル周波数に対応する。
【0086】
ノイズゲインパラメータ情報が、次式に基づいて誤差を最小化することにより、エネルギーミスマッチに関して決定されてもよい。
[数17]
【0087】
変数kは、予測係数に依存して又は基づいて変化し得る減衰ファクタであり、ここで予測係数は、スピーチが少量の背景ノイズを含むか又は更には全く背景ノイズを含まない(クリーンなスピーチ)かの判定を可能にする。代替的に、オーディオ信号又はそのフレームが無声フレームと非無声フレームとの間の変化を含む場合には、その信号はノイズが多いスピーチとして判定されてもよい。変数kは、クリーンなスピーチに対しては、少なくとも0.85の値、少なくとも0.95の値、又は値1にさえも設定することができ、その場合、エネルギーの高いダイナミックが知覚的に重要となる。変数kは、ノイズの多いスピーチに対しては、少なくとも0.6かつ最大で0.9の値、好ましくは少なくとも0.7かつ最大で0.85の値、更に好ましくは0.8の値に設定することができ、その場合、無声フレームと非無声フレームとの間の出力エネルギーにおける変動を防止するために、ノイズ励振はより控えめとされる。これらの量子化済みゲイン候補
の各々のために、誤差(エネルギーミスマッチ)が計算されてもよい。4個のサブフレームへ分割された1つのフレームは、4個の量子化済みゲイン候補
がもたらしてもよい。誤差を最小にする1つの候補が制御部によって出力されてもよい。ノイズの量子化済みゲイン(ノイズゲインパラメータ情報)が、次式に基づいて計算され得る。
[数18]
ここで、Indexnは4個の候補により0と3の間に限定される。励振信号550kや550k’などの結果的な結合済み励振信号は、次式に基づいて取得され得る。
[数19]
ここで、e(n)は結合済み励振信号550k又は550k’である。
【0088】
ゲインパラメータ計算部550若しくは550’を含む符号器600又は修正された符号器600は、CELP符号化スキームに基づいて無声符号化を可能にし得る。CELP符号化スキームは、無声フレームを取り扱う以下のような例示的な詳細に基づいて修正されてもよい。
・無声フレーム内には周期性が殆どなく、結果として得られる符号化ゲインが非常に低いため、LTPパラメータは伝送されない。適応型励振はゼロに設定される。
・節約ビットが固定コードブックへと報告される。同じビットレートに対してより多くのパルスが符号化されることができ、従って品質が改善され得る。
・低いレートにおいて、即ち6〜12kbpsのレートについて、無声フレームのノイズ状目標励振を適切にモデル化するために、パルス符号化は十分でない。最終的な励振を構築するために、固定コードブックに対してガウスコードブックが付加される。
【0089】
図8は、第2の態様に従う、CELPのための無声符号化スキームの概略ブロック図を示す。修正された制御部810は、比較部550lと制御部550nとの両方の機能を含む。制御部810は、合成による分析に基づいて、即ち、合成信号と、s(n)として示され例えば無声残差である入力信号と、を比較することにより、コードゲインパラメータ情報gcとノイズゲインパラメータ情報gnとを決定するよう構成されている。制御部810は、信号生成部(革新的励振)550aのための励振を生成し、かつゲインパラメータ情報gc及びgnを提供するよう構成された、合成による分析のフィルタ820を含む。合成による分析のブロック810は、提供されたパラメータと情報とに従ってフィルタを適応させることで内部的に合成された信号と、結合済み励振信号550k’とを比較するよう構成されている。
【0090】
制御部810は、分析部320が予測係数122を取得する場合について上述したように予測係数を取得するよう構成された、分析ブロックを含む。制御部は、結合済み励振信号550kを合成フィルタ840でフィルタリングする合成フィルタ840を更に含み、合成フィルタ840はフィルタ係数122により適応される。更なる比較部が、入力信号s(n)と、例えば復号化された(復元された)オーディオ信号である合成信号
と、を比較するよう構成されてもよい。更に、メモリ350nが配置されており、制御部810は予測された信号及び/又は予測された係数をメモリ内に記憶するよう構成されている。信号生成部850は、メモリ350n内に記憶された予測に基づいて、適応的型励振信号を提供するよう構成されており、それにより以前の結合済み励振信号に基づいて適応型励振を強化することが可能になる。
【0091】
図9は第1の態様に従うパラメトリック無声符号化の概略ブロック図を示す。増幅された整形済みノイズ信号は、決定されたフィルタ係数(予測係数)122によって適応された合成フィルタ910の入力信号であってもよい。合成フィルタにより出力される合成信号912は、例えばオーディオ信号であり得る入力信号s(n)と比較されてもよい。合成信号912は、入力信号s(n)と比べて誤差を含む。ゲインパラメータ計算部150又は350と対応し得る分析ブロック920によりノイズゲインパラメータgnを修正することで、誤差は低減又は最小化され得る。増幅された整形済みノイズ信号350fをメモリ350n内に記憶することで、適応型コードブックの更新が実行されてもよい。その結果、有声オーディオフレームの処理もまた、無声オーディオフレームの改善された符号化に基づいて強化され得る。
【0092】
図10は、例えば符号化済みオーディオ信号692である符号化済みオーディオ信号を復号化する、復号器1000の概略ブロック図を示す。復号器1000は、信号生成部1010と、ノイズ状信号1022を生成するよう構成されたノイズ生成部1020と、を含む。受信信号1002はLPC関連情報を含み、ビットストリーム・デフォーマ1040は、予測係数関連情報に基づいて予測係数122を提供するよう構成されている。例えば、復号器1040は予測係数122を抽出するよう構成されている。信号生成部1010は、信号生成部558に関して上述したように、コード励振された励振信号1012を生成するよう構成されている。復号器1000の結合部1050は、結合部550に関して上述したように、コード励振された信号1012とノイズ状信号1022とを結合して、結合済み励振信号1052を取得するよう構成されている。復号器1000は、予測係数122で適応されるフィルタを有する合成部1060を含み、その合成部は、適応されたフィルタで結合済み励振信号1052をフィルタリングして、無声の復号化済みフレーム1062を取得するよう構成されている。復号器1000はまた、無声の復号化済みフレームと有声フレーム272とを結合してオーディオ信号列282を得る、結合部284を含む。復号器200とは異なり、復号器1000は、コード励振された励振信号1012を提供するよう構成された第2の信号生成部を含む。ノイズ状励振信号1022は、例えば図2に示されたノイズ状信号n(n)であってもよい。
【0093】
オーディオ信号列282は、符号化された入力信号と比べた場合、良好な品質と高い類似性とを持ち得る。
【0094】
他の実施形態は、コード生成された(コード励振された)励振信号1012及び/又はノイズ状信号1022を整形及び/又は増幅することで、復号器1000を強化する復号器を提供する。つまり、復号器1000は、信号生成部1010と結合部1050との間、ノイズ生成部1020と結合部1050との間、にそれぞれ配置された整形処理部及び/又は可変増幅部を含んでもよい。入力信号1002は、コードゲインパラメータ情報gc及び/又はノイズゲインパラメータ情報に関連する情報を含んでもよく、復号器は、コードゲインパラメータ情報gcを使用することで、コード生成された励振信号1012又はその整形済みバージョンを増幅するための増幅部を適応するよう構成されてもよい。代替的又は追加的に、復号器1000は、ノイズゲインパラメータ情報を使用することで、ノイズ状信号1022又はその整形済みバージョンを増幅するための増幅部を適応、すなわち制御するよう構成されてもよい
【0095】
代替的に、復号器1000は、点線で示すように、コード励振された励振信号1012を整形するよう構成された整形器1070、及び/又はノイズ状信号1022を整形するよう構成された整形器1080を含んでもよい。整形器1070及び/又は1080は、ゲインパラメータgc及び/又はgn、及び/又はスピーチ関連整形情報を受信してもよい。整形器1070及び/又は1080は、上述した整形器250、350c及び/又は550bと同様に形成されてもよい。
【0096】
復号器1000は、フォルマント情報計算部160について上述したように、整形器1070及び/又は1080のためのスピーチ関連整形情報1092を提供する、フォルマント情報計算部1090を含んでもよい。フォルマント情報計算部1090は、整形器1070及び/又は1080に対し、異なるスピーチ関連整形情報(1092a;1092b)を提供するよう構成されてもよい。
【0097】
図11aは、整形器250と比べて代替的な構造を実装している整形器250’の概略ブロック図を示す。整形器250’は、整形情報222とノイズ関連のゲインパラメータgnとを結合して結合済み情報259を取得する、結合部257を含む。修正された整形処理部252’は、結合済み情報259を使用することでノイズ状信号n(n)を整形して、増幅された整形済みノイズ状信号258を得るよう構成されている。整形情報222とゲインパラメータgnとの両方が乗算ファクタとして解釈され得るので、両方の乗算ファクタは結合部257を使用して乗算され、次に結合済みの形態でノイズ状信号n(n)へと適用されてもよい。
【0098】
図11bは、整形器250と比べてさらに代替的な構造を実装する整形器250’’の概略ブロック図を示す。整形器250と比較すると、最初に可変増幅部254が配置され、これがゲインパラメータgnを用いてノイズ状信号n(n)を増幅することで、増幅されたノイズ状信号を生成するよう構成されている。整形処理部252は、整形情報222を用いて増幅された信号を整形し、増幅された整形済み信号258を取得するよう構成されている。
【0099】
図11a及び図11bは、整形器250に関連してその変形例を説明しているが、上述の説明は整形器350c、550b、1070及び/又は1080に対しても同様に当てはまる。
【0100】
図12は、第1の態様に従う、オーディオ信号を符号化する方法1200の概略フローチャートを示す。この方法1210は、オーディオ信号フレームから予測係数と残差信号とを導出することを含む。方法1200は、無声残差信号及びスペクトル整形情報からゲインパラメータを計算するステップ1230と、有声信号フレームに関連する情報、ゲインパラメータ又は量子化済みゲインパラメータ、及び予測係数に基づいて出力信号を形成するステップ1240と、を含む。
【0101】
図13は、第1の態様に従う、予測係数とゲインパラメータとを含む受信オーディオ信号を復号化する方法1300の概略フローチャートを示す。その方法1300は、予測係数からスピーチ関連のスペクトル整形情報を計算するステップ1310を含む。ステップ1320では、復号化ノイズ状信号が生成される。ステップ1330では、復号化ノイズ状信号又はその増幅された表現のスペクトルが、スペクトル整形情報を使用して整形され、整形復号化ノイズ状信号が取得される。方法1300のステップ1340では、増幅された整形済み符号化ノイズ状信号及び予測係数から合成信号が合成される。
【0102】
図14は、第2の態様に従う、オーディオ信号を符号化する方法1400の概略フローチャートを示す。その方法1400は、オーディオ信号の無声フレームから予測係数と残差信号とを導出するステップ1410を含む。方法1400のステップ1420では、確定的コードブックに関連する第1励振信号を定義する第1ゲインパラメータ情報と、ノイズ状信号に関連する第2励振信号を定義する第2ゲインパラメータ情報とが、無声フレームのために計算される。
【0103】
方法1400のステップ1430では、有声信号フレームに関連する情報と第1ゲインパラメータ情報と第2ゲインパラメータ情報とに基づいて、出力信号が形成される。
【0104】
図15は、第2の態様に従う、受信オーディオ信号を復号化する方法1500の概略フローチャートを示す。受信オーディオ信号は予測係数に関連する情報を含む。方法1500は、合成信号の一部分のために確定的コードブックから第1励振信号を生成するステップ1510を含む。方法1500のステップ1520では、合成信号のその一部分のために、ノイズ状信号から第2励振信号が生成される。方法1000のステップ1530では、第1励振信号と第2励振信号とが結合されて、合成信号のその一部分のための結合済み励振信号が生成される。方法1500のステップ1540では、合成信号のその一部分が結合済み励振信号と予測係数から合成される。
【0105】
換言すれば、本発明の各態様は、無声フレームを符号化する新たな方法を提案するものであり、そこでは、フォルマント構造及びスペクトル傾斜を加えることでランダムに生成されたガウスノイズを整形する。そのスペクトル的整形は、合成フィルタを励振する前に、励振ドメインにおいて実行される。その結果として、整形された励振は、後続の適応型コードブックを生成するために長期予測のメモリの中で更新されるであろう。
【0106】
無声でない後続フレームもまた、スペクトル整形からの利益を受けるであろう。後フィルタリングにおけるフォルマント強化とは異なり、提案のノイズ整形は、符号器側及び復号器側の両方において実行される。
【0107】
このような励振は、非常に低いビットレートを目標とするパラメトリック符号化スキームの中で直接的に使用され得る。しかしながら、本発明では、そのような励振を、CELP符号化スキーム内の従来の革新的コードブックと組合せて関連付けることも提案する。
【0108】
両方の方法について、本発明は、クリーンなスピーチと背景ノイズを有するスピーチとの両方に対して特に効率的な、新たなゲイン符号化を提案する。本発明は、オリジナルエネルギーにできるだけ近く、しかし同時に、非無声フレームの耳障り過ぎる遷移を回避し、かつゲイン量子化に起因する望ましくない不安定性をも回避する、幾つかのメカニズムを提案する。
【0109】
第1の態様は、毎秒2.8及び4キロビット(kbps)のレートを用いた無声符号化を目標としている。無声フレームが最初に検出される。この検出は、非特許文献2から知られる可変レートマルチモード広帯域(VMR-WB)において実行されるように、通常のスピーチ分類によって実行され得る。
【0110】
この段階でスペクトル整形を行うことには2つの主要な利点がある。第1に、スペクトル整形が励振のゲイン計算を考慮に入れることである。ゲイン計算は励振生成の中の唯一の非ブラインドモジュールであるため、整形の後の一連の操作の最後にゲイン計算を行うことは大きな利点を生む。第2に、それにより、LTPのメモリ内の強化された励振を節約することが可能になることである。よって、そのような強化が、後続の非無声フレームにも役立つであろう。
【0111】
量子化部170、170−1及び170−2は、量子化済みパラメータ
を取得するよう構成されていると説明したが、量子化済みパラメータは、それらに関連する情報として提供されてもよく、即ち、エントリーが量子化済みゲインパラメータ
を含むあるデータベースのエントリーのインデックス又は識別子として提供されてもよい。
【0112】
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
【0113】
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
【0114】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0115】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0116】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0117】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0118】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0119】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。
【0120】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0121】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0122】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0123】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0124】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11a
図11b
図12
図13
図14
図15
図16
【手続補正書】
【提出日】2016年5月31日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ信号を符号化する符号器であって、
前記オーディオ信号(102)のある無声フレームから予測係数(122;322)と残差信号とを導出するよう構成された分析部(120;320)と、
前記無声フレームについて、確定的コードブックに関連する第1励振信号(c(n))を定義する第1ゲインパラメータ(gc)情報と、ノイズ状信号に関連する第2励振信号(n(n))を定義する第2ゲインパラメータ(gn)情報とを計算するよう構成されたゲインパラメータ計算部(550;550’)と、
有声信号フレームに関連する情報(142)と前記第1ゲインパラメータ(gc)情報と前記第2ゲインパラメータ(gn)情報とに基づいて、出力信号(692)を形成するよう構成されたビットストリーム形成部(690)と、
を含む符号器。
【請求項2】
請求項1に記載の符号器において、
前記ゲインパラメータ計算部(550;550’)は、第1ゲインパラメータ(gc)と第2ゲインパラメータ(gn)とを計算するよう構成され、前記ビットストリーム形成部(690)は前記第1ゲインパラメータ(gc)と前記第2ゲインパラメータ(gn)とに基づいて前記出力信号(692)を形成するよう構成されるか、又は
前記ゲインパラメータ計算部(550;550’)は、前記第1ゲインパラメータ(gc)を量子化して第1量子化済みゲインパラメータ
を取得し、かつ前記第2ゲインパラメータ(gn)を量子化して第2量子化済みゲインパラメータ
を取得するよう構成された量子化部(170−1、170−2)を含み、前記ビットストリーム形成部(690)は前記第1量子化済みゲインパラメータ
と前記第2量子化済みゲインパラメータ
とに基づいて前記出力信号(692)を形成するよう構成された、符号器。
【請求項3】
請求項1又は2に記載の符号器において、
前記予測係数(122;322)からスピーチ関連のスペクトル整形情報(162)を計算するよう構成されたフォルマント情報計算部(160)をさらに含み、前記ゲインパラメータ計算部(550;550’)は、前記スピーチ関連のスペクトル整形情報(162)に基づいて前記第1ゲインパラメータ(gc)と前記第2ゲインパラメータ(gn)とを計算するよう構成された、符号器。
【請求項4】
請求項1〜3のいずれか一項に記載の符号器において、
前記ゲインパラメータ計算部(550’)は、
前記第1ゲインパラメータ(gc)を適用することによって前記第1励振信号(c(n))を増幅し、第1の増幅された励振信号(550f)を得るよう構成された第1増幅部(550e)と、
前記第2ゲインパラメータ(gn)を適用することによって前記第1励振信号(c(n))とは異なる前記第2励振信号(n(n))を増幅し、第2の増幅された励振信号(350g;550h)を得るよう構成された第2増幅部(350e;550g)と、
前記第1の増幅された励振信号(550f)と前記第2の増幅された励振信号(350g;550h)とを結合して、結合済み励振信号(550k;550k’)を得るよう構成された結合部(550i)と、
合成フィルタを用いて前記結合済み励振信号(550k;550k’)をフィルタリングして合成信号(350l’)を取得し、前記合成信号(350i’)と前記オーディオ信号(102)のフレームとを比較して比較結果を取得し、前記比較結果に基づいて前記第1ゲインパラメータ(gc)又は前記第2ゲインパラメータ(gn)を適応するよう構成された制御部(550n)と、を含み、
前記ビットストリーム形成部(690)は、前記第1ゲインパラメータ(gc)及び前記第2ゲインパラメータ(gn)に関連する情報
に基づいて前記出力信号(692)を形成するよう構成された、符号器。
【請求項5】
請求項1〜4のいずれか一項に記載の符号器において、
前記ゲインパラメータ計算部(550;550’)は、スペクトル整形情報(162)に基づいて、前記第1励振信号(c(n))若しくはそれから導出された信号、又は前記第2励振信号(n(n))若しくはそれから導出された信号をスペクトル的に整形するよう構成された、少なくとも1つの整形器(350c;550b)をさらに含む、符号器。
【請求項6】
請求項1〜5のいずれか一項に記載の符号器において、
前記符号器は前記オーディオ信号(102)をフレームシーケンスの中でフレーム毎に符号化するよう構成され、前記ゲインパラメータ計算部(550;550’)は、処理済みフレームの複数のサブフレームの各々について前記第1ゲインパラメータ(gc)及び前記第2ゲインパラメータ(gn)を決定するよう構成され、前記ゲインパラメータ計算部(550;550’)は、前記処理済みフレームに関連した平均エネルギー値を決定するよう構成された、符号器。
【請求項7】
請求項1〜6のいずれか一項に記載の符号器において、
前記予測係数(122;322)から少なくとも第1のスピーチ関連のスペクトル整形情報を計算するよう構成されたフォルマント情報計算部(160)と、
前記残差信号が前記オーディオ信号の無声フレームから決定されたか否かを判定するよう構成された判定部(130)と、
をさらに含む符号器。
【請求項8】
請求項1〜7のいずれか一項に記載の符号器において、
前記ゲインパラメータ計算部(550;550’)は、次式に基づいて前記第1ゲインパラメータ(gc)を決定するよう構成された制御部(550n)を含み、
ここで、cw(n)は革新的コードブックのフィルタ済み励振信号であり、xw(n)はCELP符号器において計算された知覚的目標励振であり、
前記制御部(550n)は、前記第1ゲインパラメータの量子化値
と、前記第1励振及び前記第2励振の間の二乗平方根エネルギー比
とに基づいて、量子化済みノイズゲイン
を決定するよう構成され、
ここでLsfはサンプル内のサブフレームのサイズである、符号器。
【請求項9】
請求項1〜8のいずれか一項に記載の符号器において、
前記第1ゲインパラメータ(gc)を量子化して量子化済み第1ゲインパラメータ
を取得するよう構成された量子化部(170−1、170−2)を更に含み、
前記制御部(550n)は、次式に基づいて前記第1ゲインパラメータ(gc)を決定するよう構成され、
ここで、gcは前記第1ゲインパラメータであり、Lsfはサンプル内のサブフレームのサイズであり、cw(n)は前記第1の整形済み励振信号であり、xw(n)は符号励振線形予測符号化信号であり、
前記制御部(550n)又は前記量子化部(170−1、170−2)は、前記第1ゲインパラメータ(gc)を正規化して、次式に基づいて正規化済み第1ゲインパラメータを得るようさらに構成され、
ここで、gncは前記正規化済み第1ゲインパラメータを示し、
は前記無声残差信号の全体フレームにわたる平均エネルギーの尺度であり、
前記量子化部(170−1、170−2)は、前記正規化済み第1ゲインパラメータを量子化して前記量子化済み第1ゲインパラメータ
を得るよう構成された、符号器。
【請求項10】
請求項9に記載の符号器において、
前記量子化部(170−1、170−2)は、前記第2ゲインパラメータ(gn)を量子化して量子化済み第2ゲインパラメータ
を得るよう構成され、前記ゲインパラメータ計算部(550;550’)は、次式に基づいて誤差の値を決定することにより前記第2ゲインパラメータ(gn)を決定するよう構成され、
ここで、kは0.5と1との間の範囲内にある可変の減衰ファクタであり、Lsfは処理済みオーディオフレームのサブフレームのサイズに対応し、cw(n)は前記第1の整形済み励振信号(c(n))を示し、xw(n)は符号励振線形予測符号化信号を示し、gnは前記第2ゲインパラメータを示し、
は量子化済み第1ゲインパラメータを示し、
前記ゲインパラメータ計算部(550;550’)は、前記現在のサブフレームについて前記誤差を決定するよう構成され、前記量子化部(170−1、170−2)は、前記誤差を最小化する前記量子化済み第2ゲインパラメータ
を決定し、かつ次式に基づいて前記量子化済み第2ゲインパラメータ
を取得するよう構成され、
ここで、Q(indexn)は可能な値の有限集合からのスカラー値を示す、符号器。
【請求項11】
請求項10に記載の符号器において、
前記結合部(550i)は、前記第1ゲインパラメータ(gc)と前記第2ゲインパラメータ(gn)とを結合して、次式
に基づいて結合済み励振信号(e(n))を得るよう構成された、符号器。
【請求項12】
予測係数(122)に関連する情報を含む受信されたオーディオ信号(1002)を復号化する復号器(1000)であって、
合成信号(1062)の一部分のために、確定的コードブックから第1励振信号(1012)を生成するよう構成された第1信号生成部(1010)と、
前記合成信号(1062)の前記一部分のために、ノイズ状信号から第2励振信号(1022)を生成するよう構成された第2信号生成部(1020)と、
前記第1励振信号(1012)と前記第2励振信号(1022)とを結合して、前記合成信号(1062)の前記一部分のための結合済み励振信号(1052)を生成するよう構成された結合部(1050)と、
前記結合済み励振信号(1052)と前記予測係数(122)とから前記合成信号(1062)の前記一部分を合成するよう構成された合成部(1060)と、
を含む復号器。
【請求項13】
請求項12に記載の復号器において、
前記受信されたオーディオ信号(1002)は、第1ゲインパラメータ(gc)と第2ゲインパラメータ(gn)とに関連する情報を含み、前記復号器は、
前記第1ゲインパラメータ(gc)を適用することによって前記第1励振信号(1012)又はそれから導出された信号を増幅して、第1の増幅済み励振信号(1012’)を得るよう構成された第1増幅部(550e)と、
前記第2ゲインパラメータを適用することによって前記第2励振信号(1022)又はそれから導出された信号を増幅して、第2の増幅済み励振信号(1022’)を得るよう構成された第2増幅部(254;350e;550g)と、
をさらに含む復号器。
【請求項14】
請求項12又は13に記載の復号器において、
前記予測係数(122;322)から第1のスペクトル整形情報(1092a)と第2のスペクトル整形情報(1092b)とを計算するよう構成されたフォルマント情報計算部(160;1090)と、
前記第1のスペクトル整形情報(1092a)を使用して、前記第1励振信号(1012)又はそれから導出された信号のスペクトルをスペクトル的に整形するよう構成された第1整形器(1070)と、
前記第2のスペクトル整形情報(1092b)を使用して、前記第2励振信号(1022)又はそれから導出された信号のスペクトルをスペクトル的に整形するよう構成された第2整形器(1080)と、
をさらに含む復号器。
【請求項15】
予測係数(122;322)に関連する情報と、
確定的コードブックに関連する情報と、
第1ゲインパラメータ(gc)及び第2ゲインパラメータ(gn)に関連する情報と、
有声及び無声の信号フレームに関連する情報(142)と、
を含む符号化済みオーディオ信号(692;1002)。
【請求項16】
オーディオ信号(102)を符号化する方法(1400)であって、
前記オーディオ信号(102)のある無声フレームから予測係数(122;322)と残差信号とを導出するステップ(1410)と、
前記無声フレームについて、確定的コードブックに関連する第1励振信号(c(n))を定義する第1ゲインパラメータ(gc情報を計算し、かつノイズ状信号に関連する第2励振信号(n(n))を定義する第2ゲインパラメータ(gn情報を計算するステップ(1420)と、
有声信号フレームに関連する情報(142)と前記第1ゲインパラメータ(gc情報と前記第2ゲインパラメータ(gn情報とに基づいて、出力信号(692;1002)を形成するステップ(1430)と、
を含む方法。
【請求項17】
予測係数(122;322)に関連する情報を含む受信されたオーディオ信号(692;1002)を復号化する方法(1500)であって、
合成信号(1062)の一部分のために、確定的コードブックから第1励振信号(1012,1012’)を生成するステップ(1510)と、
前記合成信号(1062)の前記一部分のために、ノイズ状信号(n(n))から第2励振信号(1022;1022’)を生成するステップ(1520)と、
前記第1励振信号(1012;1012’)と前記第2励振信号(1022;1022’)とを結合して、前記合成信号(1062)の前記一部分のための結合済み励振信号(1052)を生成するステップ(1530)と、
前記結合済み励振信号(1052)と前記予測係数(122;322)とから前記合成信号(1062)の前記一部分を合成するステップ(1540)と、
を含む方法。
【請求項18】
コンピュータ上で作動されたとき、請求項16又は17に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0023
【補正方法】変更
【補正の内容】
【0023】
第1の態様に係る他の実施形態は、予測係数を含む受信信号を復号化する復号器を提供する。その復号器は、フォルマント情報計算部とノイズ生成部と整形器と合成部とを含む。フォルマント情報計算部は、予測係数からスピーチ関連のスペクトル整形情報を計算するよう構成されている。ノイズ生成部は、復号化ノイズ状信号を生成するよう構成されている。整形器は、スペクトル整形情報を使用して、復号化ノイズ状信号又はその増幅された表現のスペクトルを整形し、整形済み復号化ノイズ状信号を取得するよう構成されている。合成部は、整形済み復号化ノイズ状信号と予測係数とから合成信号を合成するよう構成されている。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0041
【補正方法】変更
【補正の内容】
【0041】
符号器100は、予測係数122から予測係数関連情報182を導出するよう構成された、情報導出ユニット180を更に含んでもよい。革新的コードブックを励振するために使用される線形予測係数などのような予測係数は、歪み又はエラーに対して低いロバスト性を有する。従って、例えば、線形予測係数をイミタンス・スペクトル周波数(ISF)へと変換し、及び/又は線スペクトルペア(LSP)を導出し、それに関連する情報を符号化済みオーディオ信号と一緒に伝送することが知られている。LSP及び/又はISF情報は、伝送媒体内における歪み、例えばエラーや計算エラーに対するより高いロバスト性を有する。情報導出ユニット180は、LSF及び/又はISF情報に関し、量子化された情報を提供するよう構成された量子化部を更に含んでもよい。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0074
【補正方法】変更
【補正の内容】
【0074】
ゲインパラメータ計算部550は、結合済み励振信号550kと有声/無声判定部130によって取得された無声残差信号とを比較するよう構成された、比較部550lを含む。比較部550lは、比較部350hであってもよく、比較結果、即ち、結合済み励振信号550kと無声残差信号との類似性についての尺度550mを提供するよう構成されている。コードゲイン計算部は、コードゲインパラメータ情報gc及びノイズゲインパラメータ情報gnを制御するよう構成された制御部550nを含む。コードゲインパラメータgc及びノイズゲインパラメータ情報gnは、ノイズ信号n(n)もしくはそこから導出された信号の周波数領域に関係するか、又は、コード信号c(n)もしくはそこから導出された信号のスペクトルに関係し得る、複数又は多数のスカラー値又は虚数値を含んでもよい。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0080
【補正方法】変更
【補正の内容】
【0080】
図7は、ゲインパラメータ計算部550と比べて修正された、ゲインパラメータ計算部550’の概略ブロック図を示す。ゲインパラメータ計算部550’は、増幅部550gの代わりに、図3に記載の整形器350cを含む。整形器350cは、増幅された整形済みノイズ信号350gを提供するよう構成されている。結合部550iは、増幅された整形済みコード信号550fと増幅された整形済みノイズ信号350gとを結合して、結合済み励振信号550k’を提供するよう構成されている。フォルマント情報計算部160は、両方のスピーチ関連フォルマント情報162及び550cを提供するよう構成されている。スピーチ関連フォルマント情報550c及び162は同一であってもよい。代替的に、双方の情報550c及び162は互いに異なっていてもよい。これにより、コード生成された信号c(n)とn(n)との個別のモデリング、即ち整形が可能になる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0090
【補正方法】変更
【補正の内容】
【0090】
制御部810は、分析部320が予測係数122を取得する場合について上述したように予測係数を取得するよう構成された、分析ブロック830を含む。制御部は、結合済み励振信号550kをフィルタリングする合成フィルタ840を更に含み、合成フィルタ840はフィルタ係数122により適応される。更なる比較部が、入力信号s(n)と、例えば復号化された(復元された)オーディオ信号である合成信号
と、を比較するよう構成されてもよい。更に、メモリ350nが配置されており、制御部810は予測された信号及び/又は予測された係数をメモリ内に記憶するよう構成されている。信号生成部850は、メモリ350n内に記憶された予測に基づいて、適応的型励振信号を提供するよう構成されており、それにより以前の結合済み励振信号に基づいて適応型励振を強化することが可能になる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0092
【補正方法】変更
【補正の内容】
【0092】
図10は、例えば符号化済みオーディオ信号692である符号化済みオーディオ信号を復号化する、復号器1000の概略ブロック図を示す。復号器1000は、信号生成部1010と、ノイズ状信号1022を生成するよう構成されたノイズ生成部1020と、を含む。受信信号1002はLPC関連情報を含み、ビットストリーム・デフォーマ1040は、予測係数関連情報に基づいて予測係数122を提供するよう構成されている。例えば、復号器1040は予測係数122を抽出するよう構成されている。信号生成部1010は、信号生成部550aに関して上述したように、コード励振された励振信号1012を生成するよう構成されている。復号器1000の結合部1050は、結合部550に関して上述したように、コード励振された信号1012とノイズ状信号1022とを結合して、結合済み励振信号1052を取得するよう構成されている。復号器1000は、予測係数122で適応されるフィルタを有する合成部1060を含み、その合成部は、適応されたフィルタで結合済み励振信号1052をフィルタリングして、無声の復号化済みフレーム1062を取得するよう構成されている。復号器1000はまた、無声の復号化済みフレームと有声フレーム272とを結合してオーディオ信号列282を得る、結合部280を含む。復号器200とは異なり、復号器1000は、コード励振された励振信号1012を提供するよう構成された第2の信号生成部を含む。ノイズ状励振信号1022は、例えば図2に示されたノイズ状信号n(n)であってもよい。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0100
【補正方法】変更
【補正の内容】
【0100】
図12は、第1の態様に従う、オーディオ信号を符号化する方法1200の概略フローチャートを示す。この方法1200は、オーディオ信号フレームから予測係数と残差信号とを導出するステップ1210を含む。方法1200は、予測係数からスピーチ関連のスペクトル整形情報を計算するステップ1220を含む。方法1200は、無声残差信号及びスペクトル整形情報からゲインパラメータを計算するステップ1230と、有声信号フレームに関連する情報、ゲインパラメータ又は量子化済みゲインパラメータ、及び予測係数に基づいて出力信号を形成するステップ1240と、を含む。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0101
【補正方法】変更
【補正の内容】
【0101】
図13は、第1の態様に従う、予測係数とゲインパラメータとを含む受信オーディオ信号を復号化する方法1300の概略フローチャートを示す。その方法1300は、予測係数からスピーチ関連のスペクトル整形情報を計算するステップ1310を含む。ステップ1320では、復号化ノイズ状信号が生成される。ステップ1330では、復号化ノイズ状信号又はその増幅された表現のスペクトルが、スペクトル整形情報を使用して整形され、整形済み復号化ノイズ状信号が取得される。方法1300のステップ1340では、整形済み復号化ノイズ状信号及び予測係数から合成信号が合成される。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0104
【補正方法】変更
【補正の内容】
【0104】
図15は、第2の態様に従う、受信オーディオ信号を復号化する方法1500の概略フローチャートを示す。受信オーディオ信号は予測係数に関連する情報を含む。方法1500は、合成信号の一部分のために確定的コードブックから第1励振信号を生成するステップ1510を含む。方法1500のステップ1520では、合成信号のその一部分のために、ノイズ状信号から第2励振信号が生成される。方法1500のステップ1530では、第1励振信号と第2励振信号とが結合されて、合成信号のその一部分のための結合済み励振信号が生成される。方法1500のステップ1540では、合成信号のその一部分が結合済み励振信号と予測係数から合成される。
【手続補正11】
【補正対象書類名】図面
【補正対象項目名】図7
【補正方法】変更
【補正の内容】
図7
【手続補正12】
【補正対象書類名】図面
【補正対象項目名】図13
【補正方法】変更
【補正の内容】
図13
【国際調査報告】