特許第6643285号(P6643285)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6643285オーディオ符号器及びオーディオ符号化方法
<>
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000004
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000005
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000006
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000007
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000008
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000009
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000010
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000011
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000012
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000013
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000014
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000015
  • 特許6643285-オーディオ符号器及びオーディオ符号化方法 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6643285
(24)【登録日】2020年1月8日
(45)【発行日】2020年2月12日
(54)【発明の名称】オーディオ符号器及びオーディオ符号化方法
(51)【国際特許分類】
   G10L 19/012 20130101AFI20200130BHJP
   G10L 19/02 20130101ALI20200130BHJP
   G10L 21/038 20130101ALI20200130BHJP
【FI】
   G10L19/012
   G10L19/02 150
   G10L21/038
【請求項の数】7
【全頁数】30
(21)【出願番号】特願2017-144156(P2017-144156)
(22)【出願日】2017年7月26日
(62)【分割の表示】特願2015-184693(P2015-184693)の分割
【原出願日】2012年2月14日
(65)【公開番号】特開2017-223968(P2017-223968A)
(43)【公開日】2017年12月21日
【審査請求日】2017年7月26日
(31)【優先権主張番号】61/442,632
(32)【優先日】2011年2月14日
(33)【優先権主張国】US
【前置審査】
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ゼチァヴァン,パンジ
(72)【発明者】
【氏名】ヴィルデ,ステファン
(72)【発明者】
【氏名】ロンバード,アンソニー
(72)【発明者】
【氏名】ディーツ,マルチン
【審査官】 岩田 淳
(56)【参考文献】
【文献】 特表2003−501925(JP,A)
【文献】 国際公開第2006/082636(WO,A1)
【文献】 特開2010−079275(JP,A)
【文献】 特開平10−326100(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/012
G10L 19/02
G10L 21/038
(57)【特許請求の範囲】
【請求項1】
入力オーディオ信号のスペクトル分解表現に基づき、該入力オーディオ信号の背景ノイズをパラメータ化することにより、前記入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすパラメトリック背景ノイズ推定を決定する背景ノイズ推定器(12)と、
活性期の期間中に前記入力オーディオ信号をデータストリームへと符号化するための符号器(14)と、
前記入力オーディオ信号に基づいて前記活性期に続く不活性期の開始を検出する検出器(16)と、を備えたオーディオ符号器であって、
前記オーディオ符号器は、前記不活性期において前記パラメトリック背景ノイズ推定を前記データストリームへと符号化するように構成されており、
前記背景ノイズ推定器は、複素値フィルタバンクドメインを使用して、前記入力オーディオ信号のスペクトル分解表現における極小値を識別し、前記識別された極小値の間の補間を使用して前記入力オーディオ信号の背景ノイズのスペクトル包絡を推定するように構成されており、
前記符号器は、前記入力オーディオ信号の符号化において、前記入力オーディオ信号の前記スペクトル分解表現の低周波部分の符号化に予測及び/又は変換符号化を使用するとともに、前記入力オーディオ信号の前記スペクトル分解表現の高周波部分のスペクトル包絡をパラメトリック符号化を使用して符号化するか、又は前記入力オーディオ信号の前記高周波部分を符号化しないかを選択するように構成されている、
オーディオ符号器。
【請求項2】
前記背景ノイズ推定器は、前記活性期において、前記入力オーディオ信号の前記スペクトル分解表現内のノイズ成分と有用な信号成分との間の区別を行ない、前記ノイズ成分だけから前記パラメトリック背景ノイズ推定を決定することで、前記パラメトリック背景ノイズ推定の決定を実行する、請求項1に記載のオーディオ符号器。
【請求項3】
前記符号器は、前記入力オーディオ信号の符号化の際に、前記入力オーディオ信号の前記スペクトル分解表現の低周波部分の符号化に予測及び/又は変換符号化を使用し、前記入力オーディオ信号の前記スペクトル分解表現の高周波部分のスペクトル包絡の符号化にパラメトリック符号化を使用するように構成されている、請求項1又は2に記載のオーディオ符号器。
【請求項4】
前記符号器は、不活性期において、前記予測及び/又は変換符号化と前記パラメトリック符号化とを中断するか、あるいは予測及び/又は変換符号化を中断し、かつ前記入力オーディオ信号の前記スペクトル分解表現の前記高周波部分のスペクトル包絡のパラメトリック符号化を、前記活性期における前記パラメトリック符号化の使用と比べて低い時間/周波数分解能で実行するかのいずれかである、請求項1〜3のいずれか一項に記載のオーディオ符号器。
【請求項5】
前記符号器は、前記入力オーディオ信号を、前記低周波部分を形成する一組のサブバンドおよび前記高周波部分を形成する一組のサブバンドへとスペクトル的に分解するために、フィルタバンクを使用する、請求項1〜4のいずれか一項に記載のオーディオ符号器。
【請求項6】
入力オーディオ信号のスペクトル分解表現に基づき、該入力オーディオ信号の背景ノイズをパラメータ化することにより、前記入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすパラメトリック背景ノイズ推定を決定するステップと、
活性期の期間中に前記入力オーディオ信号をデータストリームへと符号化するステップと、
前記入力オーディオ信号に基づいて前記活性期に続く不活性期の開始を検出するステップと、
前記不活性期の期間中に前記パラメトリック背景ノイズ推定を前記データストリームへと符号化するステップと、を含むオーディオ符号化方法であって、
前記パラメトリック背景ノイズ推定を決定するステップは、複素値フィルタバンクドメインを使用して、前記入力オーディオ信号の前記スペクトル分解表現における極小値を識別し、前記識別された極小値の間の補間を使用して前記入力オーディオ信号の背景ノイズのスペクトル包絡を推定するステップを含み、
前記符号化するステップは、前記入力オーディオ信号の符号化において、前記入力オーディオ信号の前記スペクトル分解表現の低周波部分の符号化に予測及び/又は変換符号化を使用するとともに、前記入力オーディオ信号の前記スペクトル分解表現の高周波部分のスペクトル包絡をパラメトリック符号化を使用して符号化するか、又は前記入力オーディオ信号の前記高周波部分を符号化しないかを選択する、
オーディオ符号化方法。
【請求項7】
コンピュータ上での実行時に請求項6に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、不活性期におけるノイズ合成を支援するオーディオコーデックに関する。
【背景技術】
【0002】
スピーチまたは他のノイズ源の不活性期間を利用することによって伝送帯域幅を削減できる可能性が、この技術分野において知られている。そのような仕組みは、一般に、不活性(又は無音)期と活性(有音)期とを区別するための何らかの形態の検出を使用する。不活性期間中に、記録された信号を正確に符号化する通常のデータストリームの伝送を停止させ、代わりに無音挿入記述子(SID)の更新だけを送信することによって、ビットレートをより低減できる。SIDの更新は、定期的な間隔で伝送することができ、あるいは背景ノイズの特性の変化が検出されたときに伝送することができる。復号側においては、SIDフレームを、活性期における背景ノイズに類似した特性を有する背景ノイズを生成するために使用することで、記録された信号を符号化する通常のデータストリームの伝送が停止した場合でも、受信者側に活性期から不活性期への不快な遷移をもたらさないようにすることができる。
【0003】
しかしながら、伝送レートをさらに低減する必要性が依然として存在する。携帯電話機の台数の増加などのビットレートの消費者数の増加や、無線伝送によるブロードキャストなどの多かれ少なかれビットレートを集中的に消費するアプリケーションの数の増加により、消費されるビットレートの着実な削減が必要とされる。
【0004】
他方で、合成されたノイズは、合成であることをユーザに気付かれることがないよう、実際のノイズに近いように模擬しなければならない。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】ISO/IEC CD 23003-3 dated September 24, 2010
【非特許文献2】R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, 2001
【発明の概要】
【発明が解決しようとする課題】
【0006】
従って、本発明の1つの目的は、不活性期の期間中にノイズ合成を支援するオーディオコーデックの仕組みであって、伝送ビットレートの低減を可能にし、及び/又は達成可能なノイズ生成品質を高めるうえで役に立つオーディオコーデックの仕組みを提供することにある。
【0007】
この目的は、本願の独立請求項の一部を構成する要旨によって達成される。
【0008】
本発明の目的は、不活性期間中に合成ノイズ生成を支援するオーディオコーデックであって、例えばビットレート及び/又は演算の複雑さに関して穏当なオーバーヘッドでより現実に近いノイズ生成を可能にするオーディオコーデックを提供することにある。
【0009】
後者の目的も、本願の独立請求項の他の一部を構成する要旨によって達成される。
【課題を解決するための手段】
【0010】
特に、本発明の根底にある基本的な知見は、スペクトルドメインをきわめて効果的に使用して背景ノイズをパラメータ化することによって、より現実に近く、従ってより気付かれにくい活性期から不活性期への切換えにつながる背景ノイズ合成をもたらすことができるという知見である。さらには、スペクトルドメインで背景ノイズをパラメータ化することによって、ノイズを有用信号から分離することが可能となることが分かっており、従って、スペクトルドメインで背景ノイズをパラメータ化することは、活性期間におけるパラメトリック背景ノイズ推定の上述の連続的な更新と組み合わせた場合に、有利であることが分かって来た。なぜなら、ノイズと有用信号との間のより良好な分離がスペクトルドメインにおいて達成可能となるため、本願の2つの好都合な態様を組み合わせたときに、1つのドメインから他のドメインへの追加的な遷移が不要となるからである。
【0011】
特定の実施形態によれば、活性期の後で不活性期に入るとすぐにノイズ生成を開始できるよう、活性期間中にパラメトリック背景ノイズ推定を連続的に更新することによって、不活性期間内におけるノイズ生成の品質を保ちつつ、貴重なビットレートを節約することができる。例えば、連続的な更新は復号側において実行されてもよく、この場合、不活性期の検出直後のウォームアップ期間に背景ノイズの符号化済み表現を復号側へと事前に供給するというような、貴重なビットレートを消費すると考えられる方法は必要でなくなる。なぜなら、復号側が活性期間中にパラメトリック背景ノイズ推定を連続的に更新しており、従って適切なノイズ生成を伴って不活性期へと速やかに入れるように常に準備できているためである。同様に、パラメトリック背景ノイズ推定が符号化側において行なわれる場合でも、そのようなウォームアップ期を回避することは可能である。不活性期に入ったことを検出するとすぐに、従来どおりに符号化された背景ノイズの表現を事前に復号側に供給することによって、背景ノイズを認知し、かつ認知段階の後に対応する情報を復号側へ送るという方法に代えて、符号器は、過去の活性期間中に連続的に更新されていたパラメトリック背景ノイズ推定に代用することによって、不活性期に入ったことを検出するとすぐに、必要なパラメトリック背景ノイズ推定を復号器へと提供することができ、その結果、必要以上に背景ノイズを符号化するような、ビットレートを消費する事前的なさらなる作業を回避することができる。
【0012】
本発明の実施形態のさらなる好都合な詳細は、特許請求の範囲の従属請求項の要旨として示される。本願の好ましい実施形態を、図面を参照しながら後述する。
【図面の簡単な説明】
【0013】
図1】一実施形態によるオーディオ符号器を示すブロック図である。
図2】符号化エンジン14の可能な一実施例を示す。
図3】一実施形態によるオーディオ復号器のブロック図である。
図4】一実施形態による図3の復号化エンジンの可能な一実施例を示す。
図5】前記実施形態のさらに詳細な説明に係るオーディオ符号器のブロック図である。
図6】一実施形態に従って図5の符号器に関連して使用することができる復号器のブロック図である。
図7】前記実施形態のさらに詳細な説明に係るオーディオ復号器のブロック図である。
図8】一実施形態によるオーディオ符号器のスペクトル帯域幅拡張部のブロック図である。
図9】一実施形態による図8のCNG(コンフォートノイズ生成)スペクトル帯域幅拡張符号器の実施例を示す。
図10】スペクトル帯域幅拡張を使用する実施形態によるオーディオ復号器のブロック図である。
図11】スペクトル帯域幅複製を使用する可能なオーディオ復号器の一実施形態をさらに詳細に説明するブロック図である。
図12】スペクトル帯域幅拡張を使用するさらなる実施形態によるオーディオ符号器のブロック図である。
図13】オーディオ復号器のさらなる実施形態のブロック図である。
【発明を実施するための形態】
【0014】
図1は、本発明の実施形態によるオーディオ符号器を示している。図1のオーディオ符号器は、背景ノイズ推定器12と、符号化エンジン14と、検出器16と、オーディオ信号入力18と、データストリーム出力20とを備えている。背景ノイズ推定器12と符号化エンジン14と検出器16とは、オーディオ信号入力18へと接続された入力をそれぞれ有している。推定器12および符号化エンジン14の出力は、スイッチ22を介してデータストリーム出力20へとそれぞれ接続されている。スイッチ22と推定器12と符号化エンジン14とは、検出器16の出力へと接続された制御入力をそれぞれ有している。
【0015】
符号器14は、活性期24の期間中に入力オーディオ信号をデータストリーム30へと符号化し、検出器16は、入力信号に基づいて活性期24に続く不活性期28の開始点34を検出するように構成されている。データストリーム30のうち符号化エンジン14によって出力された部分が参照番号44で示されている。
【0016】
背景ノイズ推定器12は、入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすようなパラメトリック背景ノイズ推定を、入力オーディオ信号のスペクトル分解表現に基づいて決定するように構成されている。その決定は、不活性期38へ入ってからすぐに始められてもよい。即ち、検出器16が不活性を検出した時点34の直後に始められてもよい。その場合、データストリーム30の通常部分44が不活性期内へとわずかに拡張しがちである。即ち、通常部分44は、背景ノイズ推定器12が入力信号から背景ノイズを認知/推定するために充分な追加の短い期間分だけ継続し、その後で、背景ノイズのみで構成されると想定される場合が多い。
【0017】
しかしながら、後述する実施形態は別の方針をとる。後述する代替的な実施形態によれば、前記決定を活性期間中に連続的に実行して推定を更新し、不活性期へ入るやいなや即時使用できるようにしてもよい。
【0018】
いずれにせよ、オーディオ符号器10は、不活性期28の期間中に、SIDフレーム32及び38を使用するなどにより、パラメトリック背景ノイズ推定をデータストリーム30へと符号化するように構成される。
【0019】
従って、以下で説明する実施形態の多くは、ノイズ合成を速やかに始めることができるよう、ノイズ推定が活性期間中に連続的に実行される事例に言及するが、必ずしもノイズ推定が活性期間中に連続的に実行される必要はなく、別の実施例も可能である。一般に、これらの好都合な実施形態について示す詳細のすべてを、例えばそれぞれのノイズ推定が不活性期の検出時に行なわれる実施形態も説明または開示するものと理解すべきである。
【0020】
従って、入力18においてオーディオ符号器10に入力される入力オーディオ信号に基づき、活性期24の期間中にパラメトリック背景ノイズ推定を連続的に更新するように、背景ノイズ推定器12を構成することができる。図1は、背景ノイズ推定器12が、入力18に入力されるオーディオ信号に基づいてパラメトリック背景ノイズ推定の連続的な更新を導出できると提案しているが、必ずしもそうである必要はない。代替的または追加的に、背景ノイズ推定器12は、破線26によって示すように、符号化エンジン14からオーディオ信号の1つのバージョンを取得してもよい。その場合、背景ノイズ推定器12は、代替的または追加的に、接続線26および符号化エンジン14をそれぞれ介して間接的に入力18へと接続されると考えられる。特に、背景ノイズ推定器12が背景ノイズ推定を連続的に更新する方法に関しては幾つかの異なる可能性が存在し、それらの可能性の中の幾つかについて後述する。
【0021】
符号化エンジン14は、活性期24の期間中に、入力18に到着する入力オーディオ信号をデータストリームへと符号化するように構成される。活性期とは、スピーチ又はノイズ源の他の有用なサウンドなどの有用な情報がオーディオ信号内に含まれている、すべての時間を包含する。他方で、例えば話者の背景の雨または往来によって引き起こされる時間的に定常なスペクトルなどのおおむね時間定常性の特性を有するサウンドは、背景ノイズとして分類され、この背景ノイズだけが存在するそれぞれの時間期間が不活性期28として分類される。検出器16は、入力18における入力オーディオ信号に基づいて、活性期24の後で不活性期28に入ったことを検出する役割を果たす。換言すると、検出器16が、2つの時期、すなわち活性期と不活性期とを区別し、どちらの時期が現時点において存在しているのかを判断する。検出器16は現時点において存在している時期を符号化エンジン14に知らせ、上述したように、符号化エンジン14は、入力オーディオ信号のデータストリームへの符号化を活性期24の期間内に実行する。符号化エンジン14によって出力されたデータストリームが出力20において出力されるように、検出器16がスイッチ22を相応に制御する。不活性期間中には、符号化エンジン14は入力オーディオ信号の符号化を停止してもよい。少なくとも出力20において出力されるデータストリームが、符号化エンジン14によって出力された可能性のあるデータストリームによって供給されるという状態ではなくなる。さらに、符号化エンジン14は、何らかの状態変数の更新によって推定器12を支援する最小限の処理だけを実行してもよい。このような操作が演算能力を大きく軽減することもある。スイッチ22は、例えば符号化エンジンの出力の代わりに推定器12の出力が出力20へと接続されるようにも設定される。このようにして、出力20に出力されるビットストリームを伝送するための貴重な伝送ビットレートが軽減される。
【0022】
既に上述したように、活性期24の期間中に背景ノイズ推定器12が入力オーディオ信号18に基づいてパラメトリック背景ノイズ推定を連続的に更新するように構成されている場合には、活性期24から不活性期28への遷移の直後に、すなわち不活性期28に入った直後に、推定器12が、活性期24の期間中に連続的に更新したパラメトリック背景ノイズ推定を、出力20において出力されるデータストリーム30内へと挿入することができる。例えば、活性期24の終点の直後であって、不活性期28に入ったことを検出器16が検出した時点34の直後に、背景ノイズ推定器22が無音挿入記述子フレーム32をデータストリーム30へと挿入してもよい。換言すると、活性期24の期間中に背景ノイズ推定器がパラメトリック背景ノイズ推定を連続的に更新しているがゆえに、不活性期28に入ったことを検出器が検出した時点とSID32の挿入との間には、いかなる時間的なギャップも存在する必要がない。
【0023】
従って、図1の実施形態を実施する好ましい選択肢に係る図1のオーディオ符号器10についての上述の説明を要約すると、オーディオ符号器10は以下のように動作してもよい。例示の目的で、現時点において活性期24が存在していると仮定する。この場合、現時点において、符号化エンジン14が入力18における入力オーディオ信号をデータストリーム20へと符号化する。スイッチ22は、符号化エンジン14の出力を出力20へと接続する。符号化エンジン14は、入力オーディオ信号18をデータストリームへと符号化するために、パラメトリック符号化/変換符号化を使用してもよい。特に、符号化エンジン14は入力オーディオ信号をフレーム単位で符号化してもよく、この場合、各々のフレームは入力オーディオ信号の連続的な(互いに部分的に重なり合っている)時間区間のうちの1つを符号化したものである。さらに、符号化エンジン14は、データストリームの連続的なフレームの間で異なる符号化モードの間の切換えを実行できてもよい。例えば、一部のフレームをCELP符号化などの予測符号化を使用して符号化してもよく、他の一部のフレームをTCXまたはAAC符号化などの変換符号化を使用して符号化してもよい。例えば、非特許文献1に記載のUSAC及びその符号化モードを参照されたい。
【0024】
背景ノイズ推定器12は、活性期24の期間中にパラメトリック背景ノイズ推定を連続的に更新する。従って、背景ノイズ推定器12を、入力オーディオ信号内のノイズ成分と有用な信号成分との間の区別を実行するよう構成して、パラメトリック背景ノイズ推定をそのノイズ成分だけから決定してもよい。背景ノイズ推定器12は、この更新を、符号化エンジン14内での変換符号化にも使用されるスペクトルドメインなどのスペクトルドメインにおいて実行する。さらに、背景ノイズ推定器12は、入力18に入力されるオーディオ信号又は損失が多い状態でデータストリームへと符号化されるオーディオ信号の代わりに、例えば入力信号のLPCベースでフィルタ処理されたバージョンを変換符号化する際に符号化エンジン14内で中間結果として得られた励起信号または残余信号に基づいて、この更新を実行してもよい。そのようにすることによって、入力オーディオ信号内の有用な信号成分の多くが既に取り除かれた状態となり、背景ノイズ推定器12がノイズ成分を検出することが容易になる可能性がある。スペクトルドメインとして、MDCTドメインなどの重複変換(lapped transform)ドメインや、QMFドメインなどの複素数値フィルタバンクドメインなどのフィルタバンクドメインを使用することができる。
【0025】
活性期24の期間中には、不活性期28へ入ったときにこれを検出できるよう、検出器16も連続的に作動している。検出器16を、ボイス/サウンド活性検出器(VAD/SAD)として具現化でき、あるいは有用な信号成分が現時点において入力オーディオ信号内に存在するか否かを判断する何らかの他の手段として具現化することができる。活性期24が続いているか否かを判断するための検出器16の基本的な判断基準は、低域通過フィルタ処理後の入力オーディオ信号のパワーが特定のしきい値未満であるか否かを調べることであってよく、このしきい値を超えるやいなや不活性期に入ったと推定されてもよい。
【0026】
活性期24の後で不活性期28に入ったことを検出器16がどのように検出するかに拘わらず、検出器16は、不活性期28に入ったことを他の要素12、14、及び22に速やかに知らせる。背景ノイズ推定器が活性期24の期間内にパラメトリック背景ノイズ推定の更新を続けている場合には、出力20で出力されるデータストリーム30への符号化エンジン14からのさらなる供給を即時停止してもよい。その場合、背景ノイズ推定器12は、不活性期28に入ったことを知るとすぐに、パラメトリック背景ノイズ推定の最後の更新についての情報を、SIDフレーム32の形態でデータストリーム30へと挿入してもよい。すなわち、符号化エンジンの最後のフレームであって、不活性期に入ったことを検出器16が検出した時間区間に関するオーディオ信号のフレームを符号化エンジンが符号化しているフレームの直後に、SIDフレーム32が続くことができる。
【0027】
通常は、背景ノイズはきわめて頻繁には変化しない。多くの場合、背景ノイズは、時間定常性の傾向にある。従って、検出器16が不活性期28の開始を検出した直後に背景ノイズ推定器12がSIDフレーム32を挿入した後には、あらゆるデータストリームの伝送を中断してもよく、この中断期34においては、データストリーム30はいかなるビットレートも消費せず、あるいは何らかの伝送の目的に必要な最小限のビットレートしか消費しない。最小限のビットレートを保つために、背景ノイズ推定器12は、SID32の出力を間欠的に繰り返してもよい。
【0028】
しかしながら、時間変化しないという背景ノイズの傾向にもかかわらず、背景ノイズに変化が生じる可能性もある。例えば、携帯電話のユーザが自動車から離れ、従ってユーザの電話の最中に背景ノイズがエンジンのノイズから自動車の外部の交通ノイズへと変化する場合が考えられる。背景ノイズのそのような変化を追跡するために、背景ノイズ推定器12を、不活性期28においても背景ノイズを連続的に調べるよう構成することができる。背景ノイズ推定器12は、パラメトリック背景ノイズ推定の変化量が何らかのしきい値を超えると判断したときは常に、パラメトリック背景ノイズ推定の更新後のバージョンを、別のSID38を介してデータストリーム20へと挿入してもよく、その後に次の中断期40が例えば次の活性期42の開始が検出器16によって検出されるまで続いてもよく、以下同様である。当然ながら、パラメトリック背景ノイズ推定の変化とは無関係に、現時点において更新されたパラメトリック背景ノイズ推定を示すSIDフレームを、代替的または追加的に、不活性の期間内に中間的な方法で点在させてもよい。
【0029】
当然ながら、符号化エンジン14によって出力されかつ図1では斜線を用いて示すデータストリーム44の方が、不活性期28の期間内に伝送されるデータストリーム部分32及び38よりも多くの伝送ビットレートを消費しており、上述の方法によるビットレートの節約は顕著である。
【0030】
さらに、背景ノイズ推定器12が、任意ではあるが上述した連続的な推定の更新を用いてデータストリーム30に対する供給を即時開始できる場合には、不活性期の検出の時点34を超えて符号化エンジン14のデータストリーム44の伝送を事前的に続ける必要がないため、全体として消費されるビットレートがさらに削減される。
【0031】
より具体的な実施形態に関してさらに詳しく後述するように、符号化エンジン14は、入力オーディオ信号を符号化する際に、入力オーディオ信号を線形予測係数と励起信号とに予測的に符号化して、データストリーム30及び44のそれぞれへと、励起信号を変換符号化し、線形予測係数を符号化するよう構成されてもよい。1つの可能性のある実施例を図2に示す。図2によれば、符号化エンジン14が、変換器50と、周波数ドメインノイズ整形器(FDNS)52と、量子化器54とを、符号化エンジン14のオーディオ信号入力56とデータストリーム出力58との間に、上記の順序で直列に接続して備えている。さらに、図2の符号化エンジン14は、線形予測分析モジュール60を備えており、線形予測分析モジュール60は、オーディオ信号の各部分にそれぞれの分析窓を掛け、窓掛けされた各部分に自己相関を適用することによって、オーディオ信号56から線形予測係数(LPC)を決定するように構成されるか、又は、変換器50によって出力される入力オーディオ信号のパワースペクトルを使用しかつそれに逆DFTを適用するような変換ドメインでの変換に基づいて自己相関を決定し、次いで(Wiener−)Levinson−Durbinアルゴリズムの使用など、その自己相関に基づくLPCの推定を実行するように構成されている。
【0032】
線形予測分析モジュール60によって決定された線形予測係数に基づき、出力58におけるデータストリーム出力に、LPCについてのそれぞれの情報が供給され、周波数ドメインノイズ整形器が、モジュール60によって出力された線形予測係数によって決定される線形予測分析フィルタの伝達関数に対応する伝達関数に従ってオーディオ信号のスペクトログラムをスペクトル的に整形するように制御される。LPCをデータストリーム内で伝送するためのLPCの量子化を、分析器60内での分析レートと比べて伝送レートを低減できるように、LSP/LSF(線スペクトル対/線スペクトル周波数)ドメインで実行しさらに補間を使用して実行することができる。さらに、FDNSにおいて実行されるLPCからスペクトルへの重み付き変換は、LPCへのODFTの適用と、結果として得られた重み付き値を除数として変換器のスペクトルに適用することを含むことができる。
【0033】
次いで、量子化器54が、スペクトル的に整形された(平坦化された)スペクトログラムの変換係数を量子化する。例えば変換器50がMDCTなどの重複変換を使用してオーディオ信号を時間ドメインからスペクトルドメインへと変換し、その結果、入力オーディオ信号の重なり合う窓掛けされた部分に対応する連続的な変換が取得され、次いで、周波数ドメインのノイズ整形器52がLP分析フィルタの伝達関数に従ってこれらの変換を重み付けすることで、スペクトル的に整形される。
【0034】
整形されたスペクトログラムは励起信号と解釈されてもよく、破線の矢印62によって示すように、背景ノイズ推定器12はこの励起信号を使用してパラメトリック背景ノイズ推定を更新するよう構成されてもよい。代替的に、破線の矢印64によって示すように、背景ノイズ推定器12は、変換器50によって出力された重複変換表現を更新のための基礎として直接的に使用してもよく、即ち、ノイズ整形器52による周波数ドメインのノイズ整形を行なわずに使用してもよい。
【0035】
図1及び図2に示した構成要素について可能な実施例に関するさらなる詳細は、後述するより詳細な実施形態から導出可能であり、それら詳細のすべてが、図1及び図2の構成要素に対して個別に置き換え可能であることに注意すべきである。
【0036】
しかしながら、それらのより詳細な実施形態を説明する前に、代替的または追加的に、パラメトリック背景ノイズ推定を復号器側で実行できる例を示す図3について説明する。
【0037】
図3のオーディオ復号器80は、復号器80の入力82に入力されるデータストリームを復号し、復号器80の出力84において出力されるべきオーディオ信号を復元するよう構成されている。データストリームは、少なくとも1つの活性期86と、それに続く不活性期88とを含んでいる。オーディオ復号器80は、背景ノイズ推定器90と、復号化エンジン92と、パラメトリック・ランダム発生器94と、背景ノイズ発生器96とを内部的に備えている。復号化エンジン92は入力82と出力84との間に接続され、背景ノイズ推定器90と背景ノイズ発生器96とパラメトリック・ランダム発生器94との直列接続も、入力82と出力84との間に接続されている。復号器92は、活性期間中に、出力84において出力されるオーディオ信号98がノイズ及び有用なサウンドを適切な品質で含むように、データストリームからオーディオ信号を復元するよう構成されている。
【0038】
背景ノイズ推定器90は、データストリームから得られる入力オーディオ信号のスペクトル分解表現に基づいて、入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすようなパラメトリック背景ノイズ推定を決定するよう構成されている。パラメトリック・ランダム発生器94および背景ノイズ発生器96は、不活性期間中にパラメトリック背景ノイズ推定を用いてパラメトリック・ランダム発生器94を制御することによって、不活性期間中のオーディオ信号を復元するよう構成されている。
【0039】
しかしながら、図3において破線によって示されるとおり、オーディオ復号器80は推定器90を備えなくてもよい。その代わりに、上述のように、データストリームが背景ノイズのスペクトル包絡をスペクトル的に表わす符号化済みのパラメトリック背景ノイズ推定を有してもよい。その場合、復号器92は、活性期間中にはデータストリームからオーディオ信号を復元するよう構成される一方で、不活性期88の期間中には、パラメトリック背景ノイズ推定に応じてパラメトリック・ランダム発生器94を制御することによって、パラメトリック・ランダム発生器94と背景ノイズ発生器96とが協働して、不活性期におけるオーディオ信号を発生器96が合成するよう構成されてもよい。
【0040】
しかしながら、推定器90が存在する場合には、不活性期開始フラグの使用などにより、データストリーム88によって不活性期106の開始点106を図3の復号器80に知らせることができる。これにより、復号器92は、事前的にさらに供給された部分102を継続して復号することができ、背景ノイズ推定器は、時点106に続くこの事前的な時間内に、背景ノイズを認知/推定することができる。しかしながら、図1及び図2で上述した実施形態に従えば、背景ノイズ推定器90は、活性期間中にデータストリームからパラメトリック背景ノイズ推定を連続的に更新するよう構成することが可能である。
【0041】
背景ノイズ推定器90を入力82へと直接的に接続する代わりに、破線100によって示すように復号化エンジン92を介して入力82へと接続し、オーディオ信号の何らかの復元されたバージョンを復号化エンジン92から取得するようにしてもよい。原理的には、背景ノイズ推定器90の動作は背景ノイズ推定器12と極めて類似するよう構成できるが、背景ノイズ推定器90がオーディオ信号の復元可能な(即ち、符号化側での量子化によって引き起こされるロスを含む)バージョンにしかアクセスできないという事実は別である。
【0042】
パラメトリック・ランダム発生器94は、1つまたは複数の真正または擬似的な乱数発生器を備えることができ、それによって出力される値の並びは、背景ノイズ発生器96を介してパラメータ的に設定可能な統計的分布と一致してもよい。
【0043】
背景ノイズ発生器96は、不活性期88の期間中に背景ノイズ推定器90から得られるパラメトリック背景ノイズ推定に応じてパラメトリック・ランダム発生器94を制御することによって、不活性期88におけるオーディオ信号98を合成するよう構成される。要素96と94との両方が直列に接続されると示しているが、直列接続に限ると解釈されるべきではない。発生器96及び94は相互結合されてもよい。実際に、発生器94を、発生器96の一部と解釈することもできる。
【0044】
このように、図3の好都合な実施例によれば、図3におけるオーディオ復号器80の動作のモードは以下のとおりであってもよい。活性期86の期間中には、入力82に、活性期86において復号化エンジン92によって処理されるべきデータストリーム部分102が連続的に供給される。次いで、入力82に進入するデータストリーム104が、復号化エンジン92専用のデータストリーム部分102の伝送をある時点106において停止する。すなわち、時点106においては、エンジン92による復号に使用可能なデータストリーム部分のさらなるフレームは存在しない。不活性期88に入ったことを報せる信号は、データストリーム部分102の伝送の途絶であってもよく、又は不活性期88の開始の直後に配置された何らかの情報108によって伝えられてもよい。
【0045】
いずれにせよ、不活性期88の開始はきわめて急に生じるが、このことは、背景ノイズ推定器90が活性期86の期間中にデータストリーム部分102に基づいてパラメトリック背景ノイズ推定を連続的に更新しているがゆえに、問題ではない。この更新によって、不活性期88が時点106において始まるや否や、背景ノイズ推定器90は、パラメトリック背景ノイズ推定の最新バージョンを背景ノイズ発生器96に提供することができる。従って、時点106から後は復号化エンジン92に対するデータストリーム部分102のさらなる供給がないため、復号化エンジン92はオーディオ信号の復元の出力を停止させるが、しかし一方で、パラメトリック・ランダム発生器94は、背景ノイズの模倣を時点106の直後に出力84に出力できるよう、背景ノイズ発生器96によってパラメトリック背景ノイズ推定に従って制御されているので、時点106まで復号化エンジン92によって出力された復元オーディオ信号に隙間なく続くことができる。エンジン92によって出力される活性期の最後の復元フレームから、パラメトリック背景ノイズ推定の直近に更新されたバージョンによって決定される背景ノイズへの遷移に、クロスフェードが使用されてもよい。
【0046】
背景ノイズ推定器90は、活性期86の期間中にデータストリーム104からパラメトリック背景ノイズ推定を連続的に更新するよう構成されていることに加え、背景ノイズ推定器90は、データストリーム104から復元されたオーディオ信号のバージョン内におけるノイズ成分と有用な信号成分とを活性期86の期間中に区別して、有用な信号成分ではなく、ノイズ成分だけからパラメトリック背景ノイズ推定を決定するよう構成されてもよい。背景ノイズ推定器90がこの区別/分離を実行する方法は、背景ノイズ推定器12に関して上述した方法に相当する。例えば、復号化エンジン92内でデータストリーム104から内部的に復元された励起信号または残余信号を使用してもよい。
【0047】
図2と同様に、図4は復号化エンジン92について可能性のある実施例を示している。図4によれば、復号化エンジン92は、データストリーム部分102を受け取るための入力110と、活性期86の期間中に復元されたオーディオ信号を出力するための出力112とを備えている。復号化エンジン92は、逆量子化器114と、周波数ドメインノイズ整形器116と、逆変換器118とを、入力110と出力112との間に上記言及の順序で直列に接続して備えている。入力110に到着するデータストリーム部分102は、逆量子化器114の入力へと供給される励起信号の変換符号化されたバージョン、即ちそれを表わす変換係数レベルと、周波数ドメインノイズ整形器116へと供給される線形予測係数についての情報とを含んでいる。逆量子化器114は、励起信号のスペクトル表現を逆量子化して周波数ドメインノイズ整形器116へと送り、次に、周波数ドメインノイズ整形器116は、線形予測合成フィルタに相当する伝達関数に従って励起信号(フラット量子化ノイズとともに)のスペクトログラムをスペクトル的に整形することによって、量子化ノイズを整形する。原理的には、図4のFDNS116は、図2のFDNSと同様に機能する。即ちデータストリームからLPCが抽出され、次いで例えば抽出されたLPCに対してODFTを加えることによってLPC−スペクトル重み変換が加えられ、その結果として得られたスペクトル重みが、逆量子化器114から到着する逆量子化されたスペクトルに対して乗法子として適用される。次いで、再変換器118は、このようにして得られたオーディオ信号の復元をスペクトルドメインから時間ドメインへと変換し、この変換によって得られた復元オーディオ信号を出力112に出力する。IMDCTを用いるような重複変換が、逆変換器118によって使用されてもよい。破線の矢印120によって示すように、励起信号のスペクトログラムは、背景ノイズ推定器90によるパラメトリックな背景ノイズの更新のために使用されてもよい。又は、破線の矢印122によって示すように、オーディオ信号自身のスペクトログラムが使用されてもよい。
【0048】
図2及び図4に関して、符号化/復号化エンジンの実施例に関するこれらの実施形態を限定的に解釈してはならないことに注意すべきである。別の実施形態も実現可能である。さらに、符号化/復号化エンジンはマルチモード・コーデックの形式であってもよく、その場合、図2及び図4の各部は特定のフレーム符号化モードが関連付けられているフレームについての符号化/復号化だけを担当する一方で、他のフレームについては、図2及び図4には示されていない符号化/復号化エンジンの他の部分に委ねられてもよい。そのような他のフレーム符号化モードも、例えば線形予測符号化を使用するが、変換符号化を使用するよりもむしろ時間ドメインにおける符号化を伴う予測符号化モードであってもよい。
【0049】
図5図1の符号器のさらに詳細な実施形態を示す。特に背景ノイズ推定器12は、図5の中では特定の実施形態に従ってさらに詳しく示されている。
【0050】
図5によれば、背景ノイズ推定器12は、変換器140と、FDNS142と、LP分析モジュール144と、ノイズ推定器146と、パラメータ推定器148と、定常度測定器150と、量子化器152とを備えている。上述の構成要素の内のいくつかは、符号化エンジン14によって部分的または完全に共有されてもよい。例えば、変換器140と図2の変換器50とが同じであってもよく、LP分析モジュール60と144とが同じであってもよく、FDNS52と142とが同じであってもよく、及び/又は量子化器54と152とを1つのモジュール内に実現してもよい。
【0051】
さらに、図5は、図1のスイッチ22の動作について受動的な役割を果たすビットストリーム・パッケージャ154を示している。特に、図5の符号器では検出器16が例示的にそう呼ばれているVAD(ボイス活性検出器)が、オーディオ符号化の経路14と背景ノイズ推定器12との経路のどちらの経路をとるべきかを単純に決定する。より正確には、符号化エンジン14と背景ノイズ推定器12との両者が、入力18とパッケージャ154との間に並列に接続されており、背景ノイズ推定器12内においては、変換器140とFDNS142とノイズ推定器146とパラメータ推定器148と量子化器152とが、入力18とパッケージャ154との間に直列に(上記言及の順序で)接続されている。他方、LP分析モジュール144が、入力18とFDNSモジュール142のLPC入力との間と、量子化器152のさらなる入力と、に対してそれぞれ接続され、定常度測定器150が、LP分析モジュール144と量子化器152の制御入力との間にさらに接続されている。ビットストリーム・パッケージャ154は、自身の入力へと接続されたいずれかの要素から入力を受け取った場合に、パッケージングを単純に実行する。
【0052】
ゼロフレームを伝送する場合、すなわち不活性期の中断期の期間中には、検出器16は、背景ノイズ推定器12、特に量子化器152に対し、処理を停止してビットストリーム・パッケージャ154に何も送信しないよう通知する。
【0053】
図5によれば、検出器16は、活性期/不活性期を検出するために、時間ドメイン及び/又は変換/スペクトルドメインで作動してもよい。
【0054】
図5の符号器の作動モードは以下のとおりである。以下に明らかになるとおり、図5の符号器は、自動車ノイズ、多数の話し手によるバブルノイズ、複数の楽器などのように一般的には定常雑音であるコンフォートノイズや、特に雨だれなどのように高いハーモニックスを持つノイズの品質を改善することができる。
【0055】
特に、図5の符号器は、復号側のランダム発生器を制御して、符号化側において検出されたノイズがエミュレートされるように変換係数を励起させる。従って、図5の符号器の機能についてさらに説明する前に、図5の符号器によって指示されるとおりに復号側においてコンフォートノイズをエミュレートできる復号器について、可能性のある一実施形態を示す図6を参照して簡単に説明する。より一般的には、図6は、図1の符号器に適合する復号器について、可能性のある一実施例を示している。
【0056】
特に、図6の復号器は、活性期間中にデータストリーム部分44を復号する復号化エンジン160と、不活性期28に関してデータストリーム内に供給される情報32及び38に基づいてコンフォートノイズを生成するコンフォートノイズ生成部162とを備えている。コンフォートノイズ生成部162は、パラメトリック・ランダム発生器164と、FDNS166と、逆変換器(または、合成器)168とを備えている。モジュール164〜168は互いに直列に接続されており、その結果、合成器168の出力においてコンフォートノイズが生成され、このコンフォートノイズは、図1に関して説明したように、復号化エンジン160によって出力される復元されたオーディオ信号の間の隙間である不活性期28の期間中を満たすものである。プロセッサのFDNS166と逆変換器168とは、復号化エンジン160の一部であってもよい。特に、例えば図4のFDNS116及び118と同じであってもよい。
【0057】
図5及び図6における個々のモジュールの作動モード及び機能が以下の説明からさらに明らかになるであろう。
【0058】
特に、変換器140は、重複変換などを使用ことにより、入力信号をスペクトログラムへとスペクトル的に分解する。ノイズ推定器146は、それらスペクトログラムからノイズパラメータを決定するよう構成されている。同時に、ボイスまたはサウンド活性検出器16は、入力信号から導出された特徴を評価し、活性期から不活性期への遷移またはその反対の遷移が生じたか否かを検出する。検出器16によって使用されるこれらの特徴は、過渡/オンセットの検出器、調性の測定、及びLPC残余の測定の形態であってもよい。過渡/オンセットの検出器を、クリーンな環境またはノイズ除去された信号内においてアタック(エネルギーの急激な増加)または活性スピーチの開始を検出するために使用し、調性の測定を、サイレン、電話の音、及び音楽などの有用な背景ノイズを区別するために使用し、さらに、LPC残余を、信号内におけるスピーチの存在通知を得るために使用してもよい。これらの特徴に基づき、検出器16は、現在のフレームを例えばスピーチ、無音、音楽、またはノイズのいずれに分類できるかについての情報を大まかに与えることができる。
【0059】
非特許文献2に提案されるように、ノイズ推定器146が、スペクトログラム内のノイズをスペクトログラム内の有用な信号成分から区別する役割を果たす一方で、パラメータ推定器148は、ノイズ成分を統計的に分析し、かつ各々のスペクトル成分について例えばノイズ成分に基づいてパラメータを決定する役割を果たしてもよい。
【0060】
ノイズ推定器146は、例えばスペクトログラムにおける極小値を検索するよう構成されてもよく、パラメータ推定器148は、スペクトログラムにおけるそれら極小値が主として前面のサウンドよりもむしろ背景ノイズの属性であると仮定した上で、これら極小値部分におけるノイズ統計を決定するよう構成されてもよい。
【0061】
途中の注意として、極小値は成形されていないスペクトルにおいても生じるため、ノイズ推定器による推定は、FDNS142なしでも実行できることを強調しておく。その場合でも、図5の説明の大部分には変化がない。
【0062】
次に、パラメータ量子化器152は、パラメータ推定器148によって推定されたパラメータを量子化するよう構成されてもよい。例えば、パラメータは、ノイズ成分が関係する限りにおいて、平均振幅および入力信号のスペクトログラムにおけるスペクトル値の分布の一次または高次のモーメントを記述してもよい。ビットレートを節約するために、パラメータは、変換器140によって供給されたスペクトル分解能よりも低いスペクトル分解能で、データストリーム内へと挿入するためにSIDフレーム内でデータストリームへと送られてもよい。
【0063】
定常度測定器150は、ノイズ信号の定常度の測度を導出するよう構成されてもよい。次いで、パラメータ推定器148がその定常度の測度を使用して、図1のフレーム38のような別のSIDフレームを送信することによってパラメータの更新を実行すべきか否かを判断してもよく、又はパラメータが推定される方法に影響を与えてもよい。
【0064】
モジュール152は、パラメータ推定器148及びLP分析144によって計算されたパラメータを量子化し、これを復号側へと伝える。特に、量子化に先立ち、スペクトル成分はグループへとグループ化されてもよい。そのようなグループ化は、バーク尺度などへの準拠など、音響心理的な側面に従って選択することができる。検出器16は量子化器152に対し、量子化の実行の要否を知らせる。量子化が不要である場合には、ゼロフレームが後続することになる。
【0065】
次に、活性期から不活性期への切換わりに関する具体的なシナリオについて説明するが、図5のモジュールは以下のように機能する。
【0066】
活性期間中に、符号化エンジン14は、パッケージャを介してオーディオ信号のビットストリーム内への符号化を継続する。符号化は、フレームごとに実行されてもよい。データストリームの各フレームが、オーディオ信号の1つの時間部分/区間を表わしてもよい。オーディオ符号器14は、LPC符号化を使用してすべてのフレームを符号化するよう構成されてもよい。オーディオ符号器14は、図2に関して説明したように、幾つかのフレームを例えばTCXフレーム符号化モードと呼ばれる符号化を使用して符号化するよう構成されてもよい。残りのフレームは、例えばACELP符号化モードなどの符号励起線形予測(CELP)符号化を使用して符号化することができる。すなわち、データストリームの一部分44が、フレームレート以上である可能性のあるいずれかのLPC伝送レートを使用して、LPC係数の連続的な更新を含んでいてもよい。
【0067】
これと並行して、ノイズ推定器146が、LPC平坦化(LCP分析フィルタ処理)済みのスペクトルを検査して、これらの一連のスペクトルによって表わされるTCXスペクトログラム内の極小値kminを識別する。当然ながら、これらの極小値は、時間tにつれて変化する可能性があり、すなわちkmin(t)である。しかしながら、極小値は、FDNS142によって出力されるスペクトログラムに痕跡を形成することができ、従って時点tiにおける各々の連続的なスペクトルiについて、極小値を先行および後続のそれぞれのスペクトルにおける極小に関連付けることが可能であってよい。
【0068】
次いで、パラメータ推定器は、例えば種々のスペクトル成分または帯域についての代表値m(平均、中央値など)及び/又はばらつきd(標準偏差、分散など)などの背景ノイズ推定パラメータを、それら極小値から導出する。この導出は、極小値におけるスペクトログラムのスペクトルの連続的なスペクトル係数の統計的分析を含んでもよく、その結果、kminに位置する各極小値についてのm及びdを取得してもよい。他の所定のスペクトル成分または帯域についてのm及びdを得るために、上述のスペクトルの極小値の間のスペクトル次元に沿った補間を実行してもよい。代表値(平均)の導出及び/又は補間と、ばらつき(標準偏差、分散など)の導出とに係るスペクトル分解能は異なっていてもよい。
【0069】
上述のパラメータは、例えばFDNS142によって出力されるスペクトルごとに連続的に更新される。
【0070】
不活性期の開始を検出器16が検出するや否や、検出器16はその旨をエンジン14に通知して、さらなる活性フレームがパッケージャ154に送られないようにしてもよい。代わりに、量子化器152が、不活性期内の最初のSIDフレーム内で上述の統計的なノイズパラメータを出力する。最初のSIDフレームは、LPCの更新を含んでも、含まなくてもよい。LPC更新が存在する場合には、そのLPC更新は、部分44において使用されるフォーマットでSIDフレーム32内においてデータストリーム内へと運ばれても良い。即ち、活性期間中に使用されるフォーマットであって、LSF/LSPドメインにおける量子化を使用するものや、他の場合には、活性期間を処理する際に符号化エンジン14の枠組み内においてFDNS142によって適用可能であったLPC分析フィルタまたはLPC合成フィルタの伝達関数に対応するスペクトル重み付けを使用するなどのフォーマットで運ばれてもよい。
【0071】
不活性期間中に、ノイズ推定器146とパラメータ推定器148と定常度測定器150とが協働し続け、その結果、復号化側は背景ノイズの変化について更新され続ける。特に、測定器150はLPCによって定義されるスペクトル重み付けをチェックして変化を識別し、SIDフレームを復号器へと送信すべき場合には推定器148に通知する。例えば、測定器150は、上述の定常性の測度が所定の大きさを超えるLPCの変動の程度を示すときにはいつも、推定器を相応に動作させることができる。追加的又は代替的に、推定器は、更新されたパラメータを規則的なベースで送信するようトリガーされてもよい。これらのSID更新フレーム40の間には、データストリームにおいて何も送信されず、すなわち「ゼロフレーム」である。
【0072】
復号器側では、活性期において、復号化エンジン160がオーディオ信号の復元を担当する。不活性期が始まるや否や、適応型パラメータランダム発生器164が、不活性期間中にパラメータ量子化器150からデータストリームにおいて送信される逆量子化されたランダム発生器パラメータを使用してランダムスペクトル成分を生成し、次に、スペクトル・エネルギー・プロセッサ166内でスペクトル的に形成されるランダムスペクトログラムを形成し、次いで合成器168がスペクトルドメインから時間ドメインへの再変換を実行する。FDNS166内におけるスペクトル形成のために、直近の活性フレームからの直近のLPC係数を使用してもよく、又はFDNS166によって適用されるべきスペクトル重み付けを、外挿法によってそこから導出してもよく、若しくはSIDフレーム32自身が情報を運んでもよい。このような手段により、不活性期の開始時において、到来するスペクトルのスペクトル的な重み付けを、FDNS166がLPC合成フィルタの伝達関数に従って継続し、このときLPC合成フィルタを定義するLPSは、活性期のデータ部分44またはSIDフレーム32から導出される。しかしながら、不活性期の開始とともに、FDNS166によって成形されるべきスペクトルは、TCXフレーム符号化モードの場合のように変換符号化されたスペクトルよりもむしろランダムに生成されたスペクトルとなる。さらに、FDNS166において適用されるスペクトル成形は、SIDフレーム38の使用によって不連続的にのみ更新される。中断期36の期間中に、或るスペクトル成形の定義から次の定義へと緩やかに切り換えるために、補間またはフェーディングを実行することができる。
【0073】
図6に示されるように、適応型パラメトリック・ランダム発生器164は、追加的かつ任意ではあるが、データストリームの最後の活性期の直近の部分、即ち不活性期の開始時の直前のデータストリーム部分44に含まれる逆量子化された変換係数を使用してもよい。例えば、この使用により、活性期におけるスペクトログラムから不活性期におけるランダムスペクトログラムへと滑らかな移行を実行することができる。
【0074】
図1及び図3を再び簡単に参照すると、図5及び図6(並びに後段で説明する図7)の実施形態から、符号器及び/又は復号器において生成されるパラメトリック背景ノイズ推定は、バーク帯域または種々のスペクトル成分などの別個のスペクトル部分についての時間的に連続するスペクトル値の分布に関する統計情報を含んでもよい。そのような各スペクトル部分に関し、例えば、統計情報はばらつきの測度を含むことができる。その場合、ばらつきの測度がスペクトル的に解明された手法でスペクトル情報の中で定義され、すなわちスペクトル部分において/又はスペクトル部分についてサンプリングされることになる。スペクトル分解能、すなわちスペクトル軸に沿って散らばるばらつき及び代表値についての測度の数は、例えばばらつきの測度と任意に存在する平均または代表値の測度との間で異なってもよい。統計情報はSIDフレームに含まれる。その統計情報は、LPC分析フィルタ処理済みの(即ちLPC平坦化済みの)スペクトルなどの成形されたスペクトルに関連してもよく、つまり、統計スペクトルに従ってランダムスペクトルを合成し、次にLPC合成フィルタの伝達関数に従って逆成形することによって合成を可能にするような、成形されたMDCTスペクトルなどに関連してもよい。その場合、スペクトル成形情報はSIDフレームの中に存在してもよいが、例えば最初のSIDフレーム32には存在しなくてもよい。他方では、後段で示すように、この統計情報は非成形のスペクトルに関連してもよい。さらに、MDCTなどの実数値のスペクトル表現を使用する代わりに、オーディオ信号のQMFスペクトルなどの複素値のフィルタバンクスペクトルを使用してもよい。例えば、非成形の形態のオーディオ信号のQMFスペクトルが使用され、統計情報によって統計的に表わされてもよく、その場合には、統計情報そのものに含まれる以外のスペクトル成形は存在しない。
【0075】
図1の実施形態に対する図3の実施形態の関係と同様に、図7図3の復号器について可能性のある実施例を示している。図5と同じ参照符号の使用することで分るように、図7の復号器は、図5の同じ構成要素と同様に作動するノイズ推定器146とパラメータ推定器148と定常度測定器150とを備えてもよいが、但し図7のノイズ推定器146は、図4の120または122などで示す伝送されかつ逆量子化されたスペクトログラムに対して作動する。パラメータ推定器146は図5において説明したパラメータ推定器と同様に作動する。同様のことが、エネルギー及びスペクトル値又はLPCデータに対して作動する定常度測定器148に関しても当てはまる。そのLPCデータとは、活性期間中にデータストリームを介して/又はデータストリームから伝送および逆量子化されるLPC分析フィルタ(又はLPC合成フィルタ)のスペクトルの時間的推移を示すものである。
【0076】
構成要素146、148及び150が図3の背景ノイズ推定器90として機能する一方で、図7の復号器は、適応型パラメトリック・ランダム発生器164及びFDNS166並びに逆変換器168をさらに備え、これらが図6と同様に互いに直列に接続されており、合成器168の出力にコンフォートノイズを出力する。モジュール164、166及び168は図3の背景ノイズ発生器96として機能し、モジュール164はパラメトリック・ランダム発生器94の機能を担当する。適応型パラメトリック・ランダム発生器94又は164は、パラメータ推定器148によって決定されるパラメータに従って、スペクトログラムのランダムに生成されるスペクトル成分を出力し、パラメータ推定器148は、定常度測定器150によって出力される定常度の測度を使用してトリガーされる。次いで、プロセッサ166が、このようにして生成されたスペクトログラムをスペクトル的に成形し、次いで逆変換器168がスペクトルドメインから時間ドメインへの遷移を実行する。不活性期88の期間中に復号器が情報108を受信しているとき、背景ノイズ推定器90がノイズ推定の更新を実行しており、その後何らかの補間の手段を実行することに注意すべきである。他の方法として、ゼロフレームが受信される場合に、単に補間及び/又はフェーディングなどの処理を行なうこともある。
【0077】
図5図7を要約すると、これらの実施形態は、制御されたランダム発生器164を適用してTCX係数を励起することが技術的に可能であることを示しており、TCX係数は、MDCTなどにおいては実数値であってよく、FFTなどにおいては複素値であってもよい。フィルタバンクによって一般的に達成される係数のグループに対してランダム発生器164を適用することも、好都合であるかもしれない。
【0078】
ランダム発生器164は、好ましくは、ノイズのタイプが可能な限り近くなるようにモデル化するよう制御される。これは、目的とするノイズが事前に知られている場合に達成できる。幾つかのアプリケーションはこれを可能にすることができる。対象者がさまざまなタイプのノイズに遭遇しうる多くの現実的なアプリケーションにおいては、図5図7に示す適応的な方法が必要とされる。そのため、簡単にはg=f(x)と定義することができる適応型パラメータランダム発生器164が使用され、ここでx=(x1,x2,・・・)は、パラメータ推定器148によってそれぞれ提供されるランダム発生器パラメータの組である。
【0079】
パラメトリック・ランダム発生器を適応型とするために、パラメータ推定器148はランダム発生器を適切に制御する。データが統計的に不充分であると判断される場合を補償するために、バイアス補償を備えることができる。このバイアス補償は、過去のフレームに基づいて統計的にマッチしたノイズのモデルを生成するために行なわれ、推定されたパラメータを常に更新する。ランダム発生器164がガウスノイズを生成する場合を想定する。この場合には、例えば、平均および分散のパラメータだけが必要であってもよく、さらにバイアスを計算してそれらパラメータに適用することが可能である。さらに進歩した方法は、あらゆるタイプのノイズ及び分布を取り扱うことができ、パラメータが必ずしも分布のモーメントである必要がない。
【0080】
非定常なノイズは定常性の測度を有する必要があり、したがって比較的適応型ではないパラメトリック・ランダム発生器を使用することができる。測定器148によって決定される定常性の測度を、例えばItakuraの距離測度、Kullback−Leiblerの距離測度、などの種々の方法を使用して入力信号のスペクトル形状から導出することができる。
【0081】
図1に符号38によって示すようなSIDフレームを介して送信されるノイズ更新の不連続な性質に対処するために、ノイズのエネルギー及びスペクトル形状などの追加の情報が、通常は送信される。この情報は、復号器において、不活性期間内での不連続の期間においても滑らかな遷移を有するノイズを生成するために有用である。最後に、種々の平滑化またはフィルタ処理技術がコンフォートノイズ・エミュレータの品質向上を助けるために適用可能である。
【0082】
既に上述したように、図5及び図6を一方とし、図7を他方とすれば、これらは異なる筋書きに属する。図5及び図6に対応する1つの筋書きにおいては、パラメトリック背景ノイズ推定が処理済みの入力信号に基づいて符号器において実行され、その後にパラメータが復号器へと伝送される。図7は、活性期間中に復号器が過去に受信したフレームに基づいてパラメトリック背景ノイズ推定を担当することができる別の筋書きに相当する。ボイス/信号活性検出器またはノイズ推定器を使用することは、例えば活性的なスピーチの最中でもノイズ成分の抽出を助けるために有益となりうる。
【0083】
図5図7に示した筋書きの中では、伝送されるビットレートが比較的低くなるという理由で、図7の筋書きが好ましい場合がある。しかしながら、図5及び図6の筋書きは、より正確なノイズ推定が得られるという利点を有する。
【0084】
上述の実施形態のすべては、スペクトル帯域複製(SBR)などの帯域幅拡張の技術と組み合わせることが可能であるが、帯域幅の拡張技術全般を使用することができる。
【0085】
これを説明するために、図8を参照する。図8は、入力信号の高周波部分についてパラメトリック符号化を実行するように図1及び図5の符号器を拡張できるモジュールを示す。特に、図8によれば、時間ドメインの入力オーディオ信号が、図8に示すQMF分析フィルタバンクなどの分析フィルタバンク200によってスペクトル的に分解される。次いで、図1及び図5の上述の実施形態が、フィルタバンク200によって生成されたスペクトル分解の低周波部分にのみ適用される。高周波部分についての情報を復号器側へと伝えるために、パラメトリック符号化も使用される。この目的のため、活性期間中に通常のスペクトル帯域複製符号器202が高周波部分をパラメータ化し、その高周波部分についての情報をスペクトル帯域複製情報の形態でデータストリーム内で復号側へと供給するよう構成される。スイッチ204をQMFフィルタバンク200の出力とスペクトル帯域複製符号器202の入力との間に設け、フィルタバンク200の出力と符号器202に並列に接続されたスペクトル帯域複製符号器206の入力とを接続して、不活性期間中に帯域幅拡張を担当させてもよい。即ちスイッチ204を、図1のスイッチ22と同様に制御することができる。さらに詳しく後述するように、スペクトル帯域複製符号器モジュール206は、スペクトル帯域複製符号器202と同様に動作するよう構成されてもよい。つまり両者とも、高周波部分、即ち例えば符号化エンジンによるコア符号化が加えられない残りの高周波部分における入力オーディオ信号のスペクトル包絡をパラメータ化するよう構成されてもよい。しかしながら、スペクトル帯域複製符号器モジュール206は、スペクトル包絡をパラメータ化してデータストリーム内で伝送する最小限の時間/周波数分解能を使用できる一方で、スペクトル帯域複製符号器202は、オーディオ信号内での過渡の発生に基づくなどのように、入力オーディオ信号に時間/周波数分解能を適合させるよう構成されてもよい。
【0086】
図9は、帯域幅拡張符号化モジュール206について可能性のある実施例を示す。時間/周波数グリッド設定器208、エネルギー計算器210、及びエネルギー符号器212が、符号化モジュール206の入力と出力との間に互いに直列に接続されている。時間/周波数グリッド設定器208は、高周波部分の包絡を決定する時間/周波数分解能を設定するよう構成されてもよい。例えば、最小の許容時間/周波数分解能が、符号化モジュール206によって継続的に使用される。次いで、エネルギー計算器210は、時間/周波数分解能に対応する時間/周波数タイルにて高周波部分内においてフィルタバンク200によって出力されたスペクトログラムの高周波部分のエネルギーを決定してもよく、エネルギー符号器212は、エントロピー符号化を使用することで、例えばSIDフレーム38などのSIDフレーム内で、不活性期間中に計算器210によって計算されたエネルギーをデータストリーム40(図1を参照)内へと挿入してもよい。
【0087】
図8及び図9の実施形態に従って生成された帯域幅拡張情報を、図3図4及び図7など、上述したいずれかの実施形態による復号器の使用との関連においても使用できることに注意すべきである。
【0088】
すなわち、図8及び図9は、図1図7に関連して説明したコンフォートノイズの生成を、スペクトル帯域複製に関連して使用することもできることを明らかにしている。例えば、上述のオーディオ符号器および復号器は種々の作動モードで作動することができ、そのうちの一部はスペクトル帯域複製を含んでもよく、他の一部はスペクトル帯域複製を含まなくてよい。例えばスーパー広帯域作動モードがスペクトル帯域複製を含んでいてもよい。いずれの場合も、コンフォートノイズの生成の例を示している図1図7の上述の実施形態を、図8及び図9に関して説明した方法で帯域幅拡張の技術と組み合わせることができる。不活性期間中に帯域幅拡張を担当するスペクトル帯域複製符号化モジュール206は、きわめて低い時間分解能および周波数分解能で作動するように構成されてもよい。通常のスペクトル帯域複製処理と比較して、符号器206は異なる周波数分解能で作動することができ、その場合は極めて低い周波数分解能を有する追加的な周波数帯域テーブルとIIR平滑化フィルタとが復号器内で全てのコンフォートノイズ生成スケールファクタ帯域について必要となり、不活性期間中に包絡調整器内で適用されるエネルギースケールファクタを補間する。上述のように、時間/周波数グリッドは可能性のある最低の時間分解能に対応するよう構成されてもよい。
【0089】
すなわち、無音期または活性期のいずれが存在するかに依存して、帯域幅拡張符号化はQMFドメインまたはスペクトルドメインにおいて異なるように実行されてもよい。活性期すなわち活性フレームの期間中は、通常のSBR符号化が符号器202によって実行され、結果としてデータストリーム44及び102のそれぞれに付随する通常のSBRデータストリームがもたらされる。不活性期またはSIDフレームに分類されるフレームの期間中は、エネルギースケールファクタとして表わされるスペクトル包絡についての情報だけが、きわめて低い周波数分解能および例えば可能性のある最低の時間分解能を呈する時間/周波数グリッドの適用によって抽出されてもよい。結果として得られるスケールファクタは、符号器212によって効率的に符号化されてデータストリームへと書き込まれてもよい。ゼロフレームまたは中断期36の期間中には、いかなるサイド情報もスペクトル帯域複製符号化モジュール206によってデータストリームに書き込まれなくてよく、従って計算器210によってエネルギーの計算を実行する必要はない。
【0090】
図8との整合性を持ちながら、図10は、図3及び図7の復号器の実施形態を帯域幅拡張符号化技術へと拡張する場合の可能性のある拡張例を示す。より正確には、図10は本願によるオーディオ復号器について可能性のある実施形態を示す。コア復号器92は、コンフォートノイズ発生器と並列に接続されており、コンフォートノイズ発生器は参照符号220によって示され、例えばノイズ生成モジュール162又は図3のモジュール90、94、及び96を含んでいる。スイッチ222はデータストリーム104及び30のフレームを、フレームタイプに応じ、すなわち活性期に関係もしくは属するフレームであるか、又はSIDフレームもしくは中断期に関するゼロフレームなどの不活性期に関係もしくは属するフレームであるかに応じて、それぞれコア復号器92またはコンフォートノイズ発生器220へと分配するものとして示されている。コア復号器92及びコンフォートノイズ発生器220の出力はスペクトル帯域幅拡張復号器224の入力へと接続され、スペクトル帯域幅拡張復号器224の出力は復元されたオーディオ信号を表している。
【0091】
図11は帯域幅拡張復号器224の可能性のある構成のさらに詳細な実施形態を示す。
【0092】
図11に示すように、図11の実施形態に係る帯域幅拡張復号器224は、復元すべきオーディオ信号全体の内の低周波部分の時間ドメインの復元信号を受け取るための入力226を備えている。入力226が、帯域幅拡張復号器224をコア復号器92及びコンフォートノイズ発生器220の出力に接続しており、入力226における時間ドメイン入力は、ノイズ及び有用な成分の両方を含んでいるオーディオ信号の復元された低周波部分、又は活性期同士間の時間を埋めるよう生成されたコンフォートノイズのいずれかであってもよい。
【0093】
図11の実施形態によれば、帯域幅拡張復号器224はスペクトル帯域複製を実行するよう構成されているため、復号器224は以下ではSBR復号器と呼ばれる。しかしながら、図8図10に関しては、これらの実施形態がスペクトル帯域複製に限らないことを強調しておく。むしろ、帯域幅拡張のより一般的な別の手法をこれらの実施形態に関して同様に使用することが可能である。
【0094】
さらに、図11のSBR復号器224は、活性期または不活性期のいずれかにおける最終的な復元オーディオ信号を出力するための時間ドメイン出力228を備えている。SBR復号器224は、入力226と出力228との間に、図11に示すようなQMF分析フィルタバンクなどの分析フィルタバンクであってもよいスペクトル分解器230と、HF発生器232と、包絡調整器234と、図11に示すようなQMF合成フィルタバンクなどの合成フィルタバンクとして具現化できるスペクトル−時間ドメイン変換器236とを、上記言及の順序で直列に接続して備えている。
【0095】
モジュール230〜236は以下のように作動する。スペクトル分解器230は時間ドメイン入力信号をスペクトル的に分解し、復元された低周波部分を得る。HF発生器232は復元された低周波部分に基づいて高周波複製部分を生成し、包絡調整器234は、未だ説明していないが図11において包絡調整器234の上方に示すモジュールによってもたらされ、SBRデータストリーム部分を介して運ばれる高周波部分のスペクトル包絡の表現を使用して、高周波複製をスペクトル的に形成または成形する。このように包絡調整器234は、伝送された高周波包絡の時間/周波数グリッド表現に従って高周波複製部分の包絡を調整し、こうして得られた高周波部分を、全周波数スペクトル(即ちスペクトル的に形成された高周波部分および復元された低周波部分)を出力228における時間ドメインの復元信号へと変換するために、スペクトル−時間ドメイン変換器236へと送る。
【0096】
図8図10に関して既に上述したように、高周波部分のスペクトル包絡をエネルギースケールファクタの形態でデータストリームの中で運ぶことができ、SBR復号器224は、この高周波部分のスペクトル包絡についての情報を受け取るための入力238を備えている。図11に示すとおり、活性期の場合、即ち活性期間中にデータストリーム内に存在する活性フレームの場合には、各入力238を、フレーム毎にスイッチ240を介して包絡調整器234のスペクトル包絡入力へと直接接続することができる。しかしながら、SBR復号器224は、スケールファクタ結合器242と、スケールファクタデータ保存部244と、IIRフィルタ処理ユニットなどの補間フィルタ処理ユニット246と、ゲイン調整器248とをさらに備える。モジュール242、244、246及び248は、入力238と包絡調整器234のスペクトル包絡入力との間に互いに直列に接続され、スイッチ240がゲイン調整器248と包絡調整器234との間に接続され、さらなるスイッチ250がスケールファクタデータ保存部244とフィルタ処理ユニット246との間に接続されている。スイッチ250は、このスケールファクタデータ保存部244を、フィルタ処理ユニット246の入力またはスケールファクタデータ復元部252のいずれかに接続するよう構成されている。不活性期間中のSIDフレームの場合(さらに任意ではあるが、高周波部分のスペクトル包絡について非常に粗い表現が容認される活性フレームの場合)、スイッチ250及び240は、一連のモジュール242〜248を入力238と包絡調整器234との間に接続する。スケールファクタ結合器242は、データストリームを介して伝送された高周波部分のスペクトル包絡の周波数分解能を、包絡調整器234が受け取りを期待する分解能へと調節し、結果として得られたスペクトル包絡をスケールファクタデータ保存部244が次の更新まで保存する。フィルタ処理ユニット246は、時間及び/又はスペクトル次元においてスペクトル包絡をフィルタ処理し、ゲイン調整器248は、高周波部分のスペクトル包絡のゲインを調節する。この目的のため、ゲイン調整器は、ユニット246によって得られた包絡線データを、QMFフィルタバンク出力から導出できる実際の包絡線と結合することができる。スケールファクタデータ復元部252は、中断期間内またはゼロフレーム内におけるスペクトル包絡を表わすスケールファクタデータを、スケールファクタデータ保存部244によって保存された通りに復元する。
【0097】
したがって、復号器側で以下の処理を実行することができる。活性フレーム内または活性期間中では、通常のスペクトル帯域複製処理が適用されてもよい。これらの活性期間中において、典型的にはコンフォートノイズ生成処理と比べてより多数のスケールファクタ帯域に対して利用可能なデータストリームからのスケールファクタが、スケールファクタ結合器242によってコンフォートノイズ生成の周波数分解能へと変換される。スケールファクタ結合器は、異なる周波数帯域テーブルの共通の周波数帯域境界を利用することによって、高周波数分解能のスケールファクタを結合させ、その結果、CNGに適合する数のスケールファクタを得る。結果として得られたスケールファクタ結合ユニット242の出力におけるスケールファクタ値は、ゼロフレーム内での再使用および復元部252による後の復元のために保存され、次いでCNG動作モードのためのフィルタ処理ユニット246の更新に使用される。SIDフレーム内では、データストリームからスケールファクタ情報を抽出する修正済みSBRデータストリーム読み取り器が適用される。SBR処理の残りの構成は所定の値で初期化され、時間/周波数グリッドは、符号器において使用されたものと同じ時間/周波数分解能へと初期化される。抽出されたスケールファクタはフィルタ処理ユニット246へと送られ、このフィルタ処理ユニット246においては、例えば1つのIIR平滑化フィルタが、1つの低分解能スケールファクタ帯域についてのエネルギーの時間的推移を補間する。ゼロフレームの場合には、いかなるペイロードもビットストリームから読み取られず、時間/周波数グリッドを含むSBRの構成は、SIDフレームにおいて用いられたものと同じである。ゼロフレームにおいては、フィルタ処理ユニット246の平滑化フィルタに対し、スケールファクタ結合ユニット242から出力されたスケールファクタ値であって、有効なスケールファクタ情報を含む最後のフレーム内に保存されていた値が供給される。現在のフレームが不活性フレームまたはSIDフレームに分類される場合には、コンフォートノイズがTCXドメインにおいて生成され、時間ドメインへと戻し変換される。次いで、コンフォートノイズを含む時間ドメインの信号がSBRモジュール224のQMF分析フィルタバンク230へと送られる。QMFドメインにおいて、コンフォートノイズの帯域幅拡張がHF発生器232内におけるコピーアップ転置によって実行され、最終的に、人工的に生成された高周波部分のスペクトル包絡は、包絡調整器234内でのエネルギースケールファクタ情報の適用によって調整される。これらのエネルギースケールファクタは、フィルタ処理ユニット246の出力によって得られ、包絡調整器234における適用に先立ってゲイン調整ユニット248によって調節される。このゲイン調整ユニット248内では、信号の低周波部分と高周波成分との間の境界における大きなエネルギー差を補償するために、スケールファクタ調整のためのゲイン値が計算されて適用される。
【0098】
上述の実施形態は、図12および図13の実施形態に共通に使用される。図12は本願の実施形態に係るオーディオ符号器の実施形態を示しており、図13はオーディオ復号器の実施形態を示している。これらの図に関して開示される詳細は、既に述べた構成要素へと個別に、同様に適用可能である。
【0099】
図12のオーディオ符号器は、入力オーディオ信号をスペクトル的に分解するためのQMF分析フィルタバンク200を備えている。検出器270及びノイズ推定器262がQMF分析フィルタバンク200の出力と接続されている。ノイズ推定器262が背景ノイズ推定器12の機能を担当する。活性期間中に、QMF分析フィルタバンクからのQMFスペクトルは、スペクトル帯域複製パラメータ推定器260及び後続の何らかのSBR符号器264を一方とし、QMF合成フィルタバンク272及び後続のコア符号器14の連鎖を他方とする並列接続によって処理される。並列な両方の経路が、ビットストリーム・パッケージャ266のそれぞれの入力へと接続されている。SIDフレームの出力の場合には、SIDフレーム符号器274がノイズ推定器262からのデータを受け取り、SIDフレームをビットストリーム・パッケージャ266へと出力する。
【0100】
推定器260によって出力されるスペクトル帯域幅拡張データは、QMF分析フィルタバンク200によって出力されるスペクトログラムまたはスペクトルの高周波部分のスペクトル包絡を表わし、後にSBR符号器264によってエントロピー符号化などによって符号化される。データストリーム・マルチプレクサ266は、活性期におけるスペクトル帯域幅拡張データをマルチプレクサ266の出力268から出力されるデータストリームへと挿入する。
【0101】
検出器270は現時点において活性期または不活性期のどちらの状態であるかを検出する。この検出に基づき、活性フレーム、SIDフレーム、又はゼロフレーム即ち不活性フレームが現時点において出力されることとなる。換言すると、モジュール270は活性期または不活性期のどちらの状態であるかを判断し、不活性期である場合には、SIDフレームを出力すべきであるか否かを判断する。この判断は、図12において、ゼロフレームについてはIを使用し、活性フレームについてはAを使用し、SIDフレームについてはSを使用して示す。活性期が存在する入力信号の時間区間に相当するAフレームは、QMF合成フィルタバンク272及びコア符号器14の連鎖にも送られる。QMF合成フィルタバンク272は、QMF分析フィルタバンク200と比べてより低い周波数分解能を有し、又はより少数のQMFサブバンドで作動し、そのサブバンド数の比によって入力信号の活性フレーム部分を時間ドメインへ再変換する際に対応するダウンサンプリングレートを達成する。特に、QMF合成フィルタバンク272は、活性フレーム内のQMF分析フィルタバンク・スペクトログラムの低周波部分または低周波サブバンドに適用される。したがって、コア符号器14は、QMF分析フィルタバンク200へと入力された元の入力信号の低周波部分だけをカバーする入力信号のダウンサンプリングされたバージョンを受け取る。残りの高周波部分は、モジュール260及び264によってパラメトリック的に符号化される。
【0102】
SIDフレーム(又はより正確には、SIDフレームによって運ばれる情報)は、例えば図5のモジュール152の機能を担当するSID符号器274へと送られる。唯一の相違点は、モジュール262がLPC成形を伴わずに直接的に入力信号のスペクトルに対して作動する点である。さらに、QMF分析フィルタ処理が使用されるので、モジュール262の動作は、コア符号器によって選択されたフレームのモードとは無関係であり、又は任意のスペクトル帯域幅拡張が適用されるか否かとは無関係である。図5のモジュール148及び150の作動をモジュール274内で実行してもよい。
【0103】
マルチプレクサ266は、それぞれの符号化済みの情報をデータストリーム内へと多重化して出力268から出力する。
【0104】
図13のオーディオ復号器は、図12の符号器によって出力されたデータストリームに対して作動することができる。すなわち、モジュール280はデータストリームを受け取り、データストリーム内のフレームを例えば活性フレーム、SIDフレーム、及びゼロフレーム(即ちデータストリーム内にフレームが存在しない)へと分類するよう構成される。活性フレームは、コア復号器92、QMF分析フィルタバンク282、及びスペクトル帯域幅拡張モジュール284の連鎖へと送られる。任意ではあるが、ノイズ推定器286がQMF分析フィルタバンクの出力へと接続される。ノイズ推定器286は、このノイズ推定器が励起スペクトルよりもむしろ非成形のスペクトルに対して作動する点を除き、例えば図3の背景ノイズ推定器90と同様に動作でき、図3の背景ノイズ推定器90の機能を担うことができる。モジュール92、282及び284の連鎖は、QMF合成フィルタバンク288の入力へと接続されている。SIDフレームは、例えば図3の背景ノイズ発生器96の機能を担うSIDフレーム復号器290へと送られる。コンフォートノイズ生成パラメータ更新部292に対し、復号器290及びノイズ推定器286からの情報が提供され、この更新部292は、図3のパラメトリック・ランダム発生器の機能を担当するランダム発生器294に影響を与える。不活性又はゼロフレームは欠落しているため、どこにも送られる必要はないが、しかしそれらのフレームはランダム発生器294の別のランダム発生サイクルをトリガーする。ランダム発生器294の出力がQMF合成フィルタバンク288へと接続され、QMF合成フィルタバンク288の出力は無音および活性期の復元オーディオ信号を時間ドメインで表している。
【0105】
したがって、活性期間中に、コア復号器92がノイズ及び有用な信号成分の両方を含むオーディオ信号の低周波部分を復元する。QMF分析フィルタバンク282は復元された信号をスペクトル的に分解し、スペクトル帯域幅拡張モジュール284は、データストリーム内および活性フレーム内のそれぞれのスペクトル帯域幅拡張情報を使用して、高周波部分を追加する。ノイズ推定器286が存在する場合には、コア復号器によって復元されたスペクトル部分、即ち低周波部分に基づいて、ノイズ推定を実行する。不活性期間においては、SIDフレームが、符号器側においてノイズ推定262によって導出された背景ノイズ推定をパラメータ的に表わす情報を運んでいる。パラメータ更新部292は、主にパラメトリック背景ノイズ推定を更新するために、その符号器情報を使用してもよく、SIDフレームに関する伝送損失がある場合にはノイズ推定器286から提供される情報を主に代替位置として使用してもよい。QMF合成フィルタバンク288は、活性期内にスペクトル帯域複製モジュール284によって出力されたスペクトル的に分解された信号とコンフォートノイズの生成された信号スペクトルとを時間ドメインに変換する。このように、図12及び図13は、QMFフィルタバンクの枠組みをQMFベースのコンフォートノイズ生成のための基礎として使用できることを明らかにしている。QMFの枠組みは、符号器内において入力信号をコア符号器のサンプリングレートへとダウンサンプルするための好都合な手法、又は復号器側においてはQMF合成フィルタバンク288を使用してコア復号器92のコア復号器出力信号をアップサンプルするための好都合な手法を提供する。同時に、QMFの枠組みは、コア符号器14及びコア復号器モジュール92によって処理されない信号の高周波成分を抽出および処理するために、帯域幅拡張と組み合わせて使用されてもよい。したがって、QMFフィルタバンクは、種々の信号処理ツールのための共通の枠組みを提供することができる。図12及び図13の実施形態によれば、コンフォートノイズ生成がこの枠組みへと成功裏に組み込まれる。
【0106】
特に、図12及び図13の実施形態によれば、例えばQMF合成フィルタバンク288の各QMF係数の実数部および虚数部を励起するためにランダム発生器294を適用することにより、QMF分析の後でかつQMF合成の前に復号器側においてコンフォートノイズを生成できることを見て取ることができる。ランダムシーケンスの振幅は、例えば生成されたコンフォートノイズのスペクトルが実際の入力背景ノイズ信号のスペクトルと類似するように、各QMF帯域において個別に計算される。これは、符号化側で各QMF帯域においてQMF分析の後にノイズ推定器を使用することで達成可能である。次いで、これらのパラメータはSIDフレームを介して送信されて、復号器側で各QMF帯域に適用されるランダムシーケンスの振幅を更新するために使用されてもよい。
【0107】
理想的には、符号器側において適用されるノイズ推定262は、不活性期(即ちノイズのみ)及び活性期(典型的にはノイズを含むスピーチを含む)の両方の期間中において作動可能とすべきであり、その結果、コンフォートノイズのパラメータは各活性期の終点において速やかに更新可能となることに注意すべきである。加えて、ノイズ推定は復号器側においても同様に使用可能である。ノイズだけのフレームは、DTXベースの符号化/復号化システムにおいては廃棄されるため、復号器側でのノイズ推定は、ノイズを含むスピーチコンテンツについて好都合に作動することができる。符号器側に加えて復号器側においてもノイズ推定を実行する利点は、符号器から復号器へのパケットの伝送が活性期間に続く最初のSIDフレームに関して失敗した場合にも、コンフォートノイズのスペクトル形状を更新できる点にある。
【0108】
ノイズ推定は、背景ノイズのスペクトルコンテンツの変動に正確かつ迅速に追従できなければならず、理想的には、上述のように活性および不活性フレームの両方の期間中において実行できなければならない。これらの目標を達成するための1つの方法は、非特許文献2において提案されているように、有限長のスライドする窓を使用してパワースペクトルによって各帯域において取られる極小値を追跡することである。この背後にある考え方は、ノイズを含むスピーチスペクトルのパワーが、例えば単語または音節の間で背景ノイズのパワーに頻繁にかき消されることである。このとき、パワースペクトルの極小値を追跡することで、スピーチ活性中であっても、各帯域におけるノイズフロアの推定が提供される。しかしながら、これらのノイズフロアは、一般に少なく推定される。さらには、スペクトルパワーの素速い変動、特に急激なエネルギーの増加を捕えることができない。
【0109】
それでもなお、各帯域において上述のように計算されるノイズフロアは、ノイズ推定の第2段階を適用するための極めて有用なサイド情報を提供する。実際、ノイズを含むスペクトルのパワーは不活性期間中には推定されたノイズフロアに近くなると予想できる一方で、そのスペクトルのパワーは活性期間中にはそのノイズフロアをはるかに上回ることが予想できる。従って、各帯域において別々に計算されたノイズフロアを、各帯域についての大まかな活性検出器として使用することができる。この知見に基づき、背景ノイズのパワーを、
【数1】
のようにパワースペクトルの再帰的に平滑化されたバージョンとして容易に推定することができ、ここでσx2(m,k)はフレームmおよび帯域kにおける入力信号のパワースペクトル密度を示し、σN2(m,k)はノイズパワーの推定を示し、β(m,k)は、各帯域および各フレームの平滑化の量を個別に制御する忘却因子(必然的に0と1との間である)である。活性状態を反映するためにノイズフロア情報を使用する場合、その情報は不活性期間中(即ちパワースペクトルがノイズフロアに近いとき)には小さな値をとるはずである一方で、活性フレームの期間中には、より強い(理想的には、σN2(m,k)を一定に保つような)平滑化を適用するために大きな値が選択されるべきである。これを達成するために、
【数2】
のように忘却因子を計算することによって、軟判定を行なうことができ、ここでσNF2はノイズフロアのパワーであり、aは制御パラメータである。aについての値が大きいほど忘却因子が大きくなり、したがって全体としてのさらなる平滑化が引き起こされる。
【0110】
以上のように、人工ノイズが変換ドメインにおいて復号器側で生成されるコンフォートノイズ生成(CNG)の考え方を説明した。上述の実施形態は、時間ドメイン信号を複数のスペクトル帯域へと分解する、実質的に任意の種類のスペクトル−時間分析ツール(即ち変換またはフィルタバンク)と組み合わせて適用することができる。
【0111】
スペクトルドメイン単独の使用が、背景ノイズのより正確な推定をもたらし、活性期間中に推定を連続的に更新する上述の可能性を使用することなく利点を達成することに、再度注目すべきである。従って、幾つかのさらなる実施形態は、パラメトリック背景ノイズ推定の連続的な更新というこの特徴を使用しない点で、上述の実施形態から相違する。これら代替的な実施形態は、スペクトルドメインを使用してノイズ推定をパラメータ的に決定する。
【0112】
従って、さらなる実施形態においては、背景ノイズ推定器12は入力オーディオ信号のスペクトル分解表現に基づいてパラメトリック背景ノイズ推定を決定するよう構成され、そのパラメトリック背景ノイズ推定が入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすよう構成されてもよい。この決定は不活性期に入るとすぐに開始することができ、又は上述の利点を共通に使用することができ、この決定は活性期間中に連続的に実行して、不活性期が開始するとすぐに使用できるように推定を更新してもよい。符号器14は活性期間中に入力オーディオ信号をデータストリーム内へと符号化し、検出器16は活性期に続く不活性期の開始を入力信号に基づいて検出するよう構成されてもよい。符号器はさらに、パラメトリック背景ノイズ推定をデータストリーム内へと符号化するよう構成されてもよい。背景ノイズ推定器はパラメトリック背景ノイズ推定の決定を活性期内に実行するよう構成されてもよく、このとき入力オーディオ信号のスペクトル分解表現内でのノイズ成分と有用な信号成分との間を区別して、ノイズ成分だけからパラメトリック背景ノイズ推定を決定するよう構成されてもよい。別の実施形態においては、符号器は、入力オーディオ信号の符号化において、入力オーディオ信号を線形予測係数および励起信号へと予測符号化し、励起信号のスペクトル分解を変換符号化し、線形予測係数をデータストリーム内へと符号化するよう構成されてもよく、このとき背景ノイズ推定器は、励起信号のスペクトル分解を、パラメトリック背景ノイズ推定の決定における入力オーディオ信号のスペクトル分解表現として使用するよう構成されてもよい。
【0113】
さらに、背景ノイズ推定器は、励起信号のスペクトル表現において極小値を識別し、識別された極小値の間の補間を支持点として使用して入力オーディオ信号の背景ノイズのスペクトル包絡を推定するよう構成されてもよい。
【0114】
さらなる実施形態においては、オーディオ復号器がデータストリームからオーディオ信号を復元すべくデータストリームの復号を行ない、データストリームは少なくとも1つの活性期とそれに続く1つの不活性期とを含んでいる。オーディオ復号器は背景ノイズ推定器90を備えており、その推定器は、入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすパラメトリック背景ノイズ推定を、データストリームから得られる入力オーディオ信号のスペクトル分解表現に基づいて決定するように構成されてもよい。復号器92を、活性期間中にデータストリームからオーディオ信号を復元するように構成することができる。不活性期間中にパラメトリック背景ノイズ推定を用いてパラメトリック・ランダム発生器を制御することによって、パラメトリック・ランダム発生器94および背景ノイズ発生器96を、不活性期間中のオーディオ信号を復元するよう構成することができる。
【0115】
別の実施形態によれば、背景ノイズ推定器を、活性期においてパラメトリック背景ノイズ推定の決定を実行するように構成することができ、入力オーディオ信号のスペクトル分解表現内のノイズ成分と有用な信号成分との間の区別により、ノイズ成分だけからパラメトリック背景ノイズ推定を決定するように構成することができる。
【0116】
さらなる実施形態においては、復号器を、データストリームからのオーディオ信号の復元において、データストリーム内へと変換符号化された励起信号のスペクトル分解の成形を、やはりデータへと符号化された線形予測係数に従って適用するように構成することができる。背景ノイズ推定器を、パラメトリック背景ノイズ推定の決定において入力オーディオ信号のスペクトル分解表現として励起信号のスペクトル分解を使用するようにさらに構成することができる。
【0117】
さらなる実施形態によれば、背景ノイズ推定器は、励起信号のスペクトル表現において極小値を識別し、識別された極小値の間の補間を支持点として使用して入力オーディオ信号の背景ノイズのスペクトル包絡を推定するよう構成されてもよい。
【0118】
このように、上述の実施形態では、基本的なコンフォートノイズ発生器が残余をモデル化するためにランダムパルスを使用するTCXベースのCNGを説明した。
【0119】
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路等のハードウエアにより(を使用して)実行されても良い。幾つかの実施形態においては、最も重要な方法ステップの内の1つ又は複数のステップはそのような装置によって実行されても良い。
【0120】
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどを使用して実行することができる。従って、そのデジタル記憶媒体はコンピュータ読み取り可能であっても良い。
【0121】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含んでも良い。
【0122】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動する。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。
【0123】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
【0124】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0125】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、典型的には有形であり、及び/又は一時的でない。
【0126】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
【0127】
他の実施形態は、上述した方法の1つを実行するように構成又は適用された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0128】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0129】
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを受信機へと(例えば電子的または光学的に)転送するよう構成された装置またはシステムを含む。受信機は、例えばコンピュータ、携帯デバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えばコンピュータプログラムを受信機へと転送するためのファイルサーバを備えることができる。
【0130】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0131】
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13