特許第5969513号(P5969513)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許5969513不活性相の間のノイズ合成を用いるオーディオコーデック
<>
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000003
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000004
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000005
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000006
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000007
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000008
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000009
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000010
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000011
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000012
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000013
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000014
  • 特許5969513-不活性相の間のノイズ合成を用いるオーディオコーデック 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5969513
(24)【登録日】2016年7月15日
(45)【発行日】2016年8月17日
(54)【発明の名称】不活性相の間のノイズ合成を用いるオーディオコーデック
(51)【国際特許分類】
   G10L 19/012 20130101AFI20160804BHJP
   G10L 25/87 20130101ALI20160804BHJP
【FI】
   G10L19/012
   G10L25/87
【請求項の数】28
【全頁数】30
(21)【出願番号】特願2013-553903(P2013-553903)
(86)(22)【出願日】2012年2月14日
(65)【公表番号】特表2014-505907(P2014-505907A)
(43)【公表日】2014年3月6日
(86)【国際出願番号】EP2012052462
(87)【国際公開番号】WO2012110481
(87)【国際公開日】20120823
【審査請求日】2013年10月9日
(31)【優先権主張番号】61/442,632
(32)【優先日】2011年2月14日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085464
【弁理士】
【氏名又は名称】野口 繁雄
(72)【発明者】
【氏名】パンジ・ゼティアヴァン
(72)【発明者】
【氏名】コンスタンティン・シュミット
(72)【発明者】
【氏名】シュテファン・ヴィルデ
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開平10−190498(JP,A)
【文献】 特表2003−501925(JP,A)
【文献】 特開平10−39898(JP,A)
【文献】 特開2007−65636(JP,A)
【文献】 特開2000−357000(JP,A)
【文献】 "A SILENCE COMPRESSION SCHEME FOR G.729 OPTIMIZED FOR TERMINALS CONFORMING TO RECOMMENDATION V.70",ITU-T Recommendation G.729 - Annex B,INTERNATIONAL TELECOMMUNICATION UNION,1996年11月,pp.1-16
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26,25/00−25/93
(57)【特許請求の範囲】
【請求項1】
オーディオエンコーダであって、
非無音相(24)の間に、入力オーディオ信号に基づいて、パラメトリック背景ノイズ推定を連続的に更新するように構成された背景ノイズ推定器(12)と、
前記非無音相の間に、前記入力オーディオ信号をデータストリーム(30)に符号化するためのエンコーダ(14)と、
前記入力オーディオ信号に基づいて、無音相と非無音相とを区別し、かつ前記非無音相(24)に続く無音相(28)の入口を検出するように現時点でどちらの相が存在するかを決定するように構成された検出器(16)と、を備え、
該オーディオエンコーダは、前記無音相の入口が検出されると、前記検出された無音相に先行する前記非無音相の間に連続的に更新された前記パラメトリック背景ノイズ推定を前記データストリームに符号化するように構成されているオーディオエンコーダ。
【請求項2】
前記背景ノイズ推定器(12)は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記入力オーディオ信号内のノイズ成分と有益な信号成分とを区別し、かつ前記パラメトリック背景ノイズ推定を前記ノイズ成分からだけで決定するように構成されている請求項1に記載のオーディオエンコーダ。
【請求項3】
前記エンコーダ(14)は、前記入力オーディオ信号を前記データストリーム(30)に符号化する符号化において、前記入力オーディオ信号を線形予測係数と励振信号に予測符号化し、かつ前記励振信号を変換符号化し、前記線形予測係数を符号化するように構成されている請求項1又は2に記載のオーディオエンコーダ。
【請求項4】
前記背景ノイズ推定器(12)は、前記非無音相の間、前記励振信号を用いて前記パラメトリック背景ノイズ推定を更新するように構成されている請求項3に記載のオーディオエンコーダ。
【請求項5】
前記背景ノイズ推定器は、前記パラメトリック背景ノイズ推定の更新において、前記励振信号における局所的極小を識別し、かつ前記局所的極小において、前記パラメトリック背景ノイズ推定を導出すべく前記励振信号の統計分析を実行するように構成されている請求項3又は4に記載のオーディオエンコーダ。
【請求項6】
前記エンコーダは、前記入力オーディオ信号の符号化において、前記入力オーディオ信号のより低い周波数部分を符号化すべく予測及び/又は変換符号化を用い、かつ前記入力オーディオ信号のより高い周波数部分のスペクトル包絡線を符号化すべくパラメトリック符号化を用いるように構成されている請求項1から5のいずれか一項に記載のオーディオエンコーダ。
【請求項7】
前記エンコーダは、前記入力オーディオ信号の符号化において、前記入力オーディオ信号のより低い周波数部分を符号化すべく予測及び/又は変換符号化を用い、かつ前記入力オーディオ信号のより高い周波数部分のスペクトル包絡線を符号化すべくパラメトリック符号化を用いること、又は前記入力オーディオ信号の前記より高い周波数部分を符号化せずにおくことを選択するように構成されている請求項1から6のいずれか一項に記載のオーディオエンコーダ。
【請求項8】
前記エンコーダは、無音相における前記予測及び/又は変換符号化ならびに前記パラメトリック符号化を中断するか、又は前記予測及び/又は変換符号化を中断し、かつ前記入力オーディオ信号の前記より高い周波数部分の前記スペクトル包絡線の前記パラメトリック符号化を前記非無音相における前記パラメトリック符号化の使用よりも低い時間/周波数分解能で実行するように構成されている請求項6又は7に記載のオーディオエンコーダ。
【請求項9】
前記エンコーダは、前記入力オーディオ信号を、前記より低い周波数部分を形成するサブバンドの集合と、前記より高い周波数部分を形成するサブバンドの集合とにスペクトル分解するためにフィルタバンクを用いる請求項6、7又は8に記載のオーディオエンコーダ。
【請求項10】
前記背景ノイズ推定器は、前記非無音相において、前記入力オーディオ信号の前記より低い周波数部分及びより高い周波数部分に基づいて前記パラメトリック背景ノイズ推定を更新するように構成されている請求項9に記載のオーディオエンコーダ。
【請求項11】
前記背景ノイズ推定器は、前記パラメトリック背景ノイズ推定の更新において、前記入力オーディオ信号の前記より低い周波数部分及びより高い周波数部分における局所的極小を識別し、かつ前記局所的極小において、前記パラメトリック背景ノイズ推定を導出すべく前記入力オーディオ信号の前記より低い周波数部分及びより高い周波数部分の統計分析を実行するように構成されている請求項10に記載のオーディオエンコーダ。
【請求項12】
前記背景ノイズ推定器は、前記無音相の間であっても前記パラメトリック背景ノイズ推定の連続的な更新を継続するように構成され、
該オーディオエンコーダは、前記無音相の間に連続的に更新された前記パラメトリック背景ノイズ推定の更新を断続的に符号化するように構成されている請求項1から11に記載のオーディオエンコーダ。
【請求項13】
該オーディオエンコーダは、前記パラメトリック背景ノイズ推定の前記更新を一定の時間間隔又は可変の時間間隔で断続的に符号化するように構成されている請求項12に記載のオーディオエンコーダ。
【請求項14】
無音相(88)に先行する非無音相(86)を少なくとも1つ含むデータストリーム(104)を復号して前記データストリーム(104)からオーディオ信号を再構成するためのオーディオデコーダであって、該オーディオデコーダは、
前記非無音相(86)の間に前記データストリーム(104)からのパラメトリック背景ノイズ推定を連続的に更新するように構成された背景ノイズ推定器(90)と、
前記非無音相の間に前記データストリームから前記オーディオ信号を再構成するように構成されたデコーダ(92)と、
パラメータランダム発生器(94)と、
前記無音相(88)の間に前記パラメトリック背景ノイズ推定に依存して前記パラメータランダム発生器(94)を制御することによって、前記無音相(88)の間の前記オーディオ信号を合成するように構成された背景ノイズ発生器(96)と、を備え、
前記デコーダ(92)は、前記データストリームからの前記オーディオ信号の再構成において、前記データストリームに変換符号化された励振信号を、同じく前記データストリームに符号化された線形予測係数に従って整形するように構成されており、
前記背景ノイズ推定器(90)は、前記励振信号を用いて前記パラメトリック背景ノイズ推定を更新するように構成されているオーディオデコーダ。
【請求項15】
前記背景ノイズ推定器(90)は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記非無音相(86)において前記データストリーム(104)から再構成されたバージョンの前記オーディオ信号におけるノイズ成分と有益な信号成分とを区別し、かつ前記パラメトリック背景ノイズ推定を前記ノイズ成分からだけで決定するように構成されている請求項14に記載のオーディオデコーダ。
【請求項16】
前記背景ノイズ推定器は、前記パラメトリック背景ノイズ推定の更新において、前記励振信号における局所的極小を識別し、かつ前記局所的極小において、前記パラメトリック背景ノイズ推定を導出すべく前記励振信号の統計分析を実行するように構成されている請求項14又は15に記載のオーディオデコーダ。
【請求項17】
前記デコーダは、前記オーディオ信号の再構成において、前記データストリームから前記オーディオ信号のより低い周波数部分を再構成すべく予測及び/又は変換復号を用い、かつ前記オーディオ信号のより高い周波数部分を合成するように構成されている請求項14から16のいずれか一項に記載のオーディオデコーダ。
【請求項18】
前記デコーダは、前記オーディオ信号の前記より高い周波数部分を、前記データストリームにパラメトリックに符号化された、前記オーディオ信号の前記より高い周波数部分のスペクトル包絡線から合成するように、又は前記オーディオ信号の前記より高い周波数部分を、前記より低い周波数部分に基づいてブラインド帯域幅拡張により合成するように構成されている請求項17に記載のオーディオデコーダ。
【請求項19】
前記デコーダは、無音相において前記予測及び/又は変換復号を中断し、前記非無音相における前記スペクトル包絡線に従って前記オーディオ信号の前記より低い周波数部分の複製をスペクトル的に形成することにより前記オーディオ信号の前記より高い周波数部分の前記合成を実行し、かつ前記無音相における前記スペクトル包絡線に従って前記合成されたオーディオ信号の複製をスペクトル的に形成するように構成されている請求項18に記載のオーディオデコーダ。
【請求項20】
前記デコーダは、前記より低い周波数部分のサブバンド集合、及び前記より高い周波数部分のサブバンド集合から前記オーディオ信号をスペクトル的に構成するために逆フィルタバンクを備えている請求項18又は19に記載のオーディオデコーダ。
【請求項21】
該オーディオデコーダは、前記無音相の入口を、前記データストリームが中断される度に、かつ/又は前記データストリームが前記入口を示す信号がくる度に検出するように構成されている請求項14から20までのいずれか一項に記載のオーディオデコーダ。
【請求項22】
前記背景ノイズ発生器(96)は、非無音相から無音相への移行直後の前記データストリームにパラメトリック背景ノイズ推定情報が存在しない場合だけ前記背景ノイズ推定器により連続的に更新された前記パラメトリック背景ノイズ推定に依存して、前記無音相(88)の間に前記パラメータランダム発生器(94)を制御することにより、前記無音相(88)の間の前記オーディオ信号を合成するように構成されている請求項14から21のいずれか一項に記載のオーディオデコーダ。
【請求項23】
前記背景ノイズ推定器(90)は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記デコーダ(92)から再構成された前記オーディオ信号のスペクトル分解を用いるように構成されている請求項14から22のいずれか一項に記載のオーディオデコーダ。
【請求項24】
前記背景ノイズ推定器(90)は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記デコーダ(92)から再構成された前記オーディオ信号のQMFスペクトルを用いるように構成されている請求項14から請求項23のいずれか一項に記載のオーディオデコーダ。
【請求項25】
オーディオ符号化方法であって、
非無音相(24)の間に入力オーディオ信号に基づいてパラメトリック背景ノイズ推定を連続的に更新することと、
前記非無音相の間に前記入力オーディオ信号をデータストリームに符号化することと、
前記入力オーディオ信号に基づいて、無音相と非無音相とを区別し、かつ前記非無音相(24)に続く無音相(28)の入口を検出するように現時点でどちらの相が存在するかを決定することと、
前記無音相の前記入口が検出されると、前記検出された無音相に先行する前記非無音相の間に連続的に更新された前記パラメトリック背景ノイズ推定を前記データストリームに符号化することと、を含むオーディオ符号化方法。
【請求項26】
無音相(88)に先行する非無音相(86)を少なくとも1つ含むデータストリーム(104)を復号して前記データストリーム(104)からオーディオ信号を再構成するためのオーディオ復号方法であって、該オーディオ復号方法は、
前記非無音相(86)の間に前記データストリーム(104)からのパラメトリック背景ノイズ推定を連続的に更新することと、
前記非無音相の間に前記データストリームから前記オーディオ信号を再構成することと、
前記無音相(88)の間に前記パラメトリック背景ノイズ推定に依存してパラメータランダム発生器(94)を制御することにより、前記無音相(88)の間の前記オーディオ信号を合成することと、を含み、
前記データストリームから前記オーディオ信号への再構成は、前記データストリームに変換符号化された励振信号を、同じく前記データストリームに符号化された線形予測係数に従って整形することを含み、
前記パラメトリック背景ノイズ推定の連続的な更新は、前記励振信号を用いて行われるオーディオ復号方法。
【請求項27】
コンピュータに請求項25に記載の方法を実行させるためのコンピュータプログラム。
【請求項28】
コンピュータに請求項26に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、不活性相の間のノイズ合成をサポートするオーディオコーデックに関する。
【背景技術】
【0002】
伝送帯域幅を、音声又は他のノイズソースの不活性期間を利用することによって低減する可能性は、技術上知られている。このようなスキームは、概して、何らかの形式の検出を用いて不活性(又は無音)相と活性(非無音)相とを区別する。不活性相の間は、記録信号を精確に符号化する通常のデータストリームの送信を停止し、代わりに無音挿入記述子(SID:silence insertion description)の更新のみを送信することによって、より低いビットレートが達成される。SIDの更新は、規則的間隔で、又は背景ノイズの特徴に変化が検出されたときに送信することができる。よって、SIDフレームは、復号側において、活性相の間の背景ノイズに類似する特徴を有する背景ノイズを発生するように使用することができ、よって、記録信号を符号化する通常のデータストリームの伝送の停止が、受信者側での活性相から不活性相への移行を不快なものにすることはない。
【0003】
しかしながら、それでもなお、伝送速度をさらに低減することが必要とされている。携帯電話の数の増加等のビットレート消費者の数の増加、及び無線送信放送等の多かれ少なかれビットレート集約的なアプリケーションの数の増加は、消費されるビットレートの安定した減少を要求している。
【0004】
一方で、合成ノイズは、合成がユーザにとって透明であるように、実際のノイズを厳密にエミュレートすべきである。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、本発明の1つの目的は、達成可能なノイズ発生品質を維持しながら伝送ビットレートを低減できるようにする、不活性相の間のノイズ発生をサポートするオーディオ・コーデック・スキームを提供することにある。
【課題を解決するための手段】
【0006】
この目的は、係属中の独立請求項の一部に記載された発明対象によって達成される。
【0007】
本発明の基本的考案は、活性相に続く不活性相に入った時点でノイズ発生を直ちに開始できるように活性相の間にパラメトリック背景ノイズ推定が連続的に更新されれば、不活性相におけるノイズ発生品質を維持しながら貴重なビットレートを節約できる、というものである。例えば、連続的な更新は復号側で実行でき、よって復号側が活性相の間にパラメトリック背景ノイズ推定を連続的に更新していて、いつでも適切なノイズ発生で不活性相へと即入る準備がなされているので、不活性相の検出直後のウォームアップ相の間に、背景ノイズのコード化された表現を復号側へ予備的に提供する必要はない。この提供を行えば、貴重なビットレートを消費することになる。同様に、パラメトリック背景ノイズ推定が符号化側で行われれば、このようなウォームアップ相は回避できる。背景ノイズを学習し、この学習相の後に復号側へ適宜知らせるために、不活性相の入口を検出した時点で復号側へ背景ノイズの従来方法でコード化された表現を提供することを予備的に継続する代わりに、エンコーダは、過ぎたばかりの活性相の間に連続的に更新されたパラメトリック背景ノイズ推定に頼り、これにより、背景ノイズを必要以上に符号化する予備的なさらなる実行によるビットレートの消費を回避することによって、不活性相の入口を検出した時点で直ちにデコーダへ必要なパラメトリック背景ノイズ推定を提供することができる。
【0008】
本発明の具体的な実施形態によれば、例えばビットレート及び計算の複雑さに関する適度の経費において、より現実的なノイズ発生が達成される。具体的には、これらの実施形態によれば、背景ノイズをパラメータ化するためにスペクトル領域が使用され、これにより、さらに現実的であり、よってさらに透明な活性−不活性相スイッチングに繋がる背景ノイズ合成がもたらされる。さらに、スペクトル領域における背景ノイズのパラメータ化は、有効な信号からのノイズの分離を有効化し、従って、スペクトル領域における背景ノイズのパラメータ化は、先に述べた活性相の間のパラメトリック背景ノイズ推定の連続的な更新と組み合わされると優位点を有することが発見されているが、これは、本出願の双方の効果的態様を組み合わせると、ノイズと有益な信号との間のより良い分離がスペクトル領域において、1つの領域から他の領域への追加的移行が不要であるように達成できることに起因する。
【0009】
本発明の実施形態のさらなる効果的詳細は、係属中のクレームセットの従属請求項の主題となっている。
【0010】
以下、諸図面に関連して、本出願の好適な実施形態を説明する。
【図面の簡単な説明】
【0011】
図1図1はある実施形態によるオーディオエンコーダを示すブロック図である。
図2図2は符号化エンジン14の可能な一実施を示す。
図3図3はある実施形態によるオーディオデコーダを示すブロック図である。
図4図4はある実施形態による、図3の復号エンジンの可能な一実施を示す。
図5図5は前記実施形態のより詳細なさらなる説明によるオーディオエンコーダを示すブロック図である。
図6図6はある実施形態による図5のエンコーダに関連して使用される可能性のあるデコーダを示すブロック図である。
図7図7は前記実施形態のより詳細なさらなる説明によるオーディオデコーダを示すブロック図である。
図8図8はある実施形態によるオーディオデコーダのスペクトル帯域幅拡張部を示すブロック図である。
図9図9はある実施形態による図8のCNGスペクトル帯域幅拡張エンコーダの一実施を示す。
図10図10はスペクトル帯域幅拡張を用いる一実施形態によるオーディオデコーダを示すブロック図である。
図11図11はスペクトル帯域幅複製を用いるオーディオデコーダの一実施形態に関する可能かつより詳細な説明を示すブロック図である。
図12図12はスペクトル帯域幅拡張を用いるさらなる実施形態によるオーディオデコーダを示すブロック図である。
図13図13はオーディオデコーダのさらなる実施形態を示すブロック図である。
【発明を実施するための形態】
【0012】
図1は、本発明の一実施形態によるオーディオエンコーダを示す。図1のオーディオエンコーダは、背景ノイズ推定器12と、符号化エンジン14と、検出器16と、オーディオ信号入力18と、データストリーム出力20とを備えている。プロバイダ12、符号化エンジン14及び検出器16は、各々オーディオ信号入力18へ接続される入力を有する。推定器12及び符号化エンジン14の出力は、各々、スイッチ22を介してデータストリーム出力20へ接続される。スイッチ22、推定器12及び符号化エンジン14は、各々、検出器16の出力へ接続される制御入力を有する。
【0013】
背景ノイズ推定器12は、活性相24の間中に、入力18においてオーディオエンコーダ10に進入する入力オーディオ信号に基づいてパラメトリック背景ノイズ推定を連続的に更新するように構成されている。図1は、背景ノイズ推定器12が、パラメトリック背景ノイズ推定の連続的な更新を、入力18における入力としてのオーディオ信号に基づいて導出できることを示唆しているが、必ずしもこの通りである必要はない。それに代えて又はそれに加えて、背景ノイズ推定器12は、点線26が示すように、符号化エンジン14からある種のオーディオ信号を取得してもよい。その場合、背景ノイズ推定器12は、図1の構成に代えて又はそれに加えて、各々接続回線26及び符号化エンジン14を介して入力18へ間接的に接続されることになる。具体的には、背景ノイズ推定器12が背景ノイズ推定を連続的に更新することに関しては異なる可能性が存在し、以下、これらの可能性の幾つかについてさらに述べる。
【0014】
符号化エンジン14は、活性相24の間中に、入力18に到達する入力オーディオ信号をデータストリームに符号化するように構成されている。活性相は、オーディオ信号の内部に、音声又はノイズソースの他の有益な音等の有益な情報が含まれている全ての時間を包含する。一方で、例えば話者の背景における雨又は交通により引き起こされるような時不変スペクトル等のほぼ時不変の特徴を有する音は、背景ノイズとして分類され、かつ単にこの背景ノイズしか存在しない場合、個々の時間期間は常に不活性相28として分類される。検出器16は、活性相24に続く不活性相28の入口を、入力18における入力オーディオ信号に基づいて検出する働きをする。言い替えれば、検出器16は、2つの相の間、即ち活性相と不活性相とを区別し、現時点でどちらの相が存在するかを決定する。検出器16は、その時点で存在する相について符号化エンジン14に通知し、既に述べたように、符号化エンジン14は、活性相24の間中に入力オーディオ信号のデータストリームへの符号化を実行する。検出器16は、符号化エンジン14により出力されるデータストリームが出力20において出力されるように、適宜、スイッチ22を制御する。不活性相の間、符号化エンジン14は、入力オーディオ信号の符号化を停止してもよい。少なくとも、出力20において出力されるデータストリームは、もはや、おそらくは符号化エンジン14により出力される如何なるデータストリームによっても搬送されない。これに加えて、符号化エンジン14は、推定器12を何らかの状態変数更新によってサポートする最小限の処理しか実行しなくてもよい。この行動は、計算電力を大幅に低減させる。スイッチ22は、例えば、符号化エンジンの出力ではなく、推定器12の出力が出力20へ接続されるように設定される。こうして、出力20において出力されるビットストリームを伝送するための貴重な伝送ビットレートが低減される。
【0015】
背景ノイズ推定器12は、先に既に述べたように、活性相24の間、入力されるオーディオ信号18に基づいてパラメトリック背景ノイズ推定を連続的に更新するように構成され、これにより、推定器12は、出力20において出力されるデータストリーム30へ、活性相24から不活性相28への移行直後、即ち不活性相28へ進入するとすぐに、活性相24の間の連続的な更新に伴って、パラメトリック背景ノイズ推定を挿入することができる。背景ノイズ推定器12は、例えば、無音挿入記述子フレーム32をデータストリーム30へ、活性相24の終わりに即続いて、かつ検出器16が不活性相28の入口を検出した瞬間34に即続いて挿入することができる。言い替えれば、活性相24の間に背景ノイズ推定器がパラメトリック背景ノイズ推定を連続的に更新することにより、検出器による不活性相28の入口の検出と、必要なSID32の挿入との間に時間的なギャップは存在しない。
【0016】
したがって、上述の説明を要約すると、図1のオーディオエンコーダ10は、次のように動作することができる。例示を目的として、現時点で活性相24が存在するものと想定されたい。この場合、符号化エンジン14は、目下、入力18における入力オーディオ信号をデータストリーム20に符号化している。スイッチ22は、符号化エンジン14の出力を出力20へ接続している。符号化エンジン14は、入力オーディオ信号18をデータストリームに符号化するために、パラメトリック符号化及び/変換符号化を用いることができる。具体的には、符号化エンジン14は、入力オーディオ信号をフレーム単位で符号化することができ、各フレームは、入力オーディオ信号の連続する−部分的に互いに重なり合う−時間間隔のうちの1つを符号化する。符号化エンジン14は、さらに、データストリームの連続するフレーム間で異なる符号化モードを切り換える能力をもつことができる。例えば、フレームの中には、CELP符号化等の予測符号化を用いて符号化できるものもあれば、他に、TCX又はAAC符号化等の変換符号化を用いて符号化できるものもある。例えば、2010年9月24日付けのISO/IEC CD23003−3に記述されているUSAC及びその符号化方法を参照されたい。
【0017】
背景ノイズ推定器12は、活性相24の間に、パラメトリック背景ノイズ推定を連続的に更新する。したがって、背景ノイズ推定器12は、パラメトリック背景ノイズ推定をノイズ成分のみから決定するために、入力オーディオ信号内のノイズ成分と有益な信号成分とを区別するように構成することができる。さらに後述する実施形態によれば、背景ノイズ推定器12は、この更新を、符号化エンジン14内部の変換符号化でも使用されるスペクトル領域等のスペクトル領域において実行することができる。しかしながら、時間領域等の他の代替領域も同じく利用可能である。スペクトル領域である場合、これは、MDCT領域等の重複変換領域であっても、QMF領域等の複素数値フィルタバンク領域のようなフィルタバンク領域であってもよい。
【0018】
さらに、背景ノイズ推定器12は、この更新を、入力18へ進入又はデータストリームに非可逆符号化されるオーディオ信号ではなく、むしろ、例えば予測及び/又は変換符号化の間に符号化エンジン14内部の中間結果として取得される励振又は残留信号に基づいて実行することができる。このように行うことにより、入力オーディオ信号内の有益な信号成分の大部分は、背景ノイズ推定器12にとってノイズ成分の検出がより容易であるように、既に除去されていたものとなろう。
【0019】
活性相24の間は、検出器16もまた、不活性相28の入口の検出を連続的に実行している。検出器16は、音声/音響活動検出器(VAD/SAD)として具現されても、入力オーディオ信号内にその時点で有益な信号成分が存在するか否かを決定する他の何らかの手段として具現されてもよい。活性相24が継続しているかどうかの決定に際しての検出器16の基準は、しきい値が超過されると直ちに不活性相に入るものと想定して、入力オーディオ信号の低域通過フィルタリングされた電力が所定のしきい値より下のままであるかどうかをチェックすることであるとできる。
【0020】
検出器16が活性相24に続く不活性相28の入口の検出を実行する実際の方法とは独立して、検出器16は、直ちに、他の構成要素12、14及び22に不活性相28の入口を知らせる。活性相24の間の背景ノイズ推定器によるパラメトリック背景ノイズ推定の連続的な更新により、出力20において出力されるデータストリーム30は、直ちに、符号化エンジン14からそれ以上供給されないように防止することができる。どちらかと言えば、背景ノイズ推定器12は、不活性相28の入口が知らされた時点で直ちに、データストリーム30へ、パラメトリック背景ノイズ推定の最新の更新に関する情報をSIDフレーム32の形式で挿入する。即ち、SIDフレーム32は、検出器16が不活性相の入口を検出した時間間隔に関するオーディオ信号のフレームを符号化する符号化エンジンの最終フレームの直後に続くことができる。
【0021】
通常、背景ノイズは、さほど頻繁には変化しない。ほとんどの場合、背景ノイズは、時間的に不変な何かである傾向がある。したがって、検出器16による不活性相28の始まりの検出直後に背景ノイズ推定器12がSIDフレーム32を挿入した後は、あらゆるデータストリーム伝送を中断することができ、よって、この中断相34において、データストリーム30は、如何なるビットレートも消費せず、又は単に何らかの伝送目的で必要とされる最小限のビットレートしか消費しない。最小限のビットレートを保持するために、背景ノイズ推定器12は、SID32の出力を断続的に反復してもよい。
【0022】
しかしながら、背景ノイズは経時変化しないという傾向にも関わらず、背景ノイズが変わるということが起こる場合がある。例えば、携帯電話のユーザが車を離れ、よって背景ノイズがモータノイズから、ユーザが電話している間の車外の交通ノイズに変わる場合を想像されたい。背景ノイズのこのような変化を追跡するために、背景ノイズ推定器12は、不活性相28の間でも連続的に背景ノイズを調査するように構成することができる。背景ノイズ推定器12が、パラメトリック背景ノイズ推定が何らかのしきい値を超える量だけ変化していると決定する場合、背景ノイズ推定器12は常に、パラメトリック背景ノイズ推定の更新されたバージョンをデータストリーム20へ別のSID38を介して挿入してもよく、この後、例えば別の活性相42が検出器16により検出されたとして開始されるまでは、別の中断相40が続き、以後同様に続いてもよい。当然ながら、その時点で更新されるパラメトリック背景ノイズ推定を明らかにするSIDフレームは、代替として、又は追加的に、パラメトリック背景ノイズ推定の変化とは独立して、不活性相の内部に中間式に散在されてもよい。
【0023】
明らかに、符号化エンジン14により出力され、図1においてハッチングにより示されているデータストリーム44は、不活性相28の間に伝送されるべきデータストリームの断片32及び38より多い伝送ビットレートを消費し、よって、ビットレートの節約量は多大である。さらに、背景ノイズ推定器12は、データストリーム30のさらなる供給へと進むことを直ちに開始できることから、符号化エンジン14のデータストリーム44の伝送を予備的に時間34における不活性相の検出ポイントを超えて続ける必要はなく、これにより、消費されるビットレートの全体量はさらに低減される。
【0024】
後に、より具体的な実施形態に関連してさらに詳細に説明するように、符号化エンジン14は、入力オーディオ信号の符号化において、励振信号及び線形予測係数を各々データストリーム30及び44へ符号化する変換によって、入力オーディオ信号を線形予測係数及び励振信号に予測的に符号化するように構成することができる。図2には、実施の可能性の1つが示されている。図2によれば、符号化エンジン14は、変換器50と、周波数領域ノイズシェーパ(FDNS:frequency domain noise shaper)52と、量子化器54とを備え、これらは、符号化エンジン14のオーディオ信号入力56とデータストリーム出力58との間に言及した順序で直列に接続されている。さらに、図2の符号化エンジン14は、線形予測(LP:linear prediction)分析モジュール60を備え、これは、オーディオ信号の部分を個々に分析ウィンドウ処理しかつウィンドウ処理された部分に自己相関を適用することによりオーディオ信号56から線形予測係数(LPC:linear prediction coefficient)を決定するように構成され、又は変換器50により出力される入力オーディオ信号の変換領域における変換に基づいて、その電力スペクトルを使用しかつ自己相関を決定すべくこれに逆DFTを適用することによって自己相関を決定するように構成され、後続のLPC推定は、(ウィーナ)レヴィンソン−ダービンの算法の使用等の自己相関に基づいて実行される。
【0025】
線形予測分析モジュール60により決定される線形予測係数に基づいて、出力58において出力されるデータストリームにはLPCに関する個々の情報が供給され、周波数領域ノイズシェーパは、モジュール60が出力する線形予測係数により決定される線形予測分析フィルタの伝達関数に対応する伝達関数に従ってオーディオ信号のスペクトログラムをスペクトル整形するように制御される。データストリームにおいて伝送するためのLPCの量子化は、LSP/LSF領域において、分析器60における分析速度に比べて伝送速度を低減させるべく補間を用いて実行することができる。さらに、FDNSにおいて実行されるLPC−スペクトル重み付け変換は、LPCにODFTを適用すること、及び結果として得られる重み付け値を変換器のスペクトルに除数として適用することを包含することができる。
【0026】
量子化器54は、次に、スペクトル的に形成された(扁平にされた)スペクトログラムの変換係数を量子化する。例えば、変換器50は、MDCT等の重複変換を用いてオーディオ信号を時間領域からスペクトル領域へ伝達し、これにより、入力オーディオ信号のオーバーラップしてウィンドウ処理された部分に対応する連続する変換を取得する。これは、次に、周波数領域ノイズシェーパ52により、これらの変換にLP分析フィルタの伝達関数に従って重み付けすることによってスペクトル的に形成される。
【0027】
整形されたスペクトログラムは励振信号と解釈することができ、破線矢印62によって示されているように、背景ノイズ推定器12は、この励振信号を用いてパラメトリック背景ノイズ推定を更新するように構成することができる。あるいは、破線矢印64によって示されているように、背景ノイズ推定器12は、変換器50による出力としての重複変換表現を、更新の基礎として直接、即ちノイズシェーパ52による周波数領域ノイズ整形なしに用いることもできる。
【0028】
図1から図2までに示されている要素の可能な実施に関するさらなる詳細は、さらに詳細な後続の実施形態から導き出すことができるが、これらの詳細が全て、個々に、図1及び図2の要素に移転可能であることに留意すべきである。
【0029】
しかしながら、これらのより詳細な実施形態について説明する前に、パラメトリック背景ノイズ推定の更新がデコーダ側で実行できることを、代替として、又は追加的に示す図3を参照して説明する。
【0030】
図3のオーディオデコーダ80は、デコーダ80の入力82へ入るデータストリームを復号し、これから、デコーダ80の出力84において出力されるべきオーディオ信号を再構成するように構成されている。データストリームは、不活性相88に先行する活性相86を少なくとも1つ含む。内部的には、オーディオデコーダ80は、背景ノイズ推定器90と、復号エンジン92と、パラメータランダム発生器94と、背景ノイズ発生器96とを備えている。復号エンジン92は、入力82と出力84との間に接続され、同様に、プロバイダ90、背景ノイズ発生器96及びパラメータランダム発生器94による直列接続も、入力82と出力84との間に接続されている。デコーダ92は、活性相の間にデータストリームからオーディオ信号を再構成するように構成され、よって、出力84において出力されるオーディオ信号98は、ノイズ及び適切な品質の有益な音を含む。背景ノイズ推定器90は、活性相の間にデータストリームからパラメトリック背景ノイズ推定を連続的に更新するように構成されている。この目的に沿って、背景ノイズ推定器90は、入力82へ直接接続されるのではなく、復号エンジン92から何らかの再構成されたバージョンのオーディオ信号を取得すべく、破線100で示されているように、復号エンジン92を介して接続されてもよい。背景ノイズ推定器90は再構成可能バージョンのオーディオ信号、即ち符号化側における量子化によって生じる損失を含むオーディオ信号へアクセスするだけという事実を除いて、原則的には、背景ノイズ推定器90は背景ノイズ推定器12に酷似する動作をするように構成することができる。
【0031】
パラメータランダム発生器94は、1つ以上の真又は擬似乱数発生器を備えることができ、これにより出力される値のシーケンスは、背景ノイズ発生器96を介してパラメトリックに設定できる統計分布に適合することができる。
【0032】
背景ノイズ発生器96は、背景ノイズ推定器90から取得されるパラメトリック背景ノイズ推定に依存して不活性相88の間にパラメータランダム発生器94を制御することにより、不活性相88の間のオーディオ信号98を合成するように構成されている。構成要素96及び94の双方は、直列に接続されるように示されているが、この直列接続は限定的であるものと解釈されるべきではない。発生器96及び94は、連結される可能性もある。実際に、発生器94は発生器96の一部であると解釈することもできる。
【0033】
したがって、図3のオーディオデコーダ80の動作モードは、次のようなものということができる。活性相86の間、入力82は、活性相86の間に復号エンジン92によって処理されるべきデータストリーム部分102を連続的に含んでいる。入力82において進入するデータストリーム104は、次に、何らかの瞬間106において、復号エンジン92専用のデータストリーム部分102の伝送を停止する。即ち、瞬間106においては、復号エンジン92による復号のためにデータストリーム部分のフレームをそれ以上利用することができない。不活性相88の入口の信号化は、データストリーム部分102の伝送途絶、又は、不活性相88の始まりで直ちに整えられる何らかの情報108による信号の何れであってもよい。
【0034】
何れにしても、不活性相88の入口は極めて突然に発生するが、背景ノイズ推定器90が活性相86の間にデータストリーム部分102に基づいてパラメトリック背景ノイズ推定を連続的に更新してきていることから、この点は問題ではない。このことによって、背景ノイズ推定器90は、不活性相88が瞬間106において開始されると直ちに、背景ノイズ発生器96へ最新バージョンのパラメトリック背景ノイズ推定を提供することができる。したがって、瞬間106以降、復号エンジン92は、復号エンジン92にデータストリーム部分102がさらに供給されなくなることからオーディオ信号再構成の出力を停止するが、パラメータランダム発生器94は、瞬間106まで復号エンジン92により出力された再構成されたオーディオ信号に隙間なく続くべく瞬間106直後に出力84において背景ノイズのエミュレーションが出力されるように、背景ノイズ発生器96によりパラメトリック背景ノイズ推定に従って制御される。エンジン92によって出力される活性相最後の再構成フレームから、更新された最新バージョンのパラメトリック背景ノイズ推定により決定された背景ノイズへの移行には、クロスフェードを使用することができる。
【0035】
背景ノイズ推定器90は活性相86の間にデータストリーム104からのパラメトリック背景ノイズ推定を連続的に更新するように構成されているものであることから、背景ノイズ推定器90は、活性相86においてデータストリーム104から再構成されるオーディオ信号バージョン内のノイズ成分と有益な信号成分とを区別し、かつパラメトリック背景ノイズ推定を、有益な信号成分ではなくむしろ単にノイズ成分から決定するように構成することができる。背景ノイズ推定器90がこの区別化/分離を実行する方法は、背景ノイズ推定器12に関して先に概説した方法と一致する。例えば、復号エンジン92内でデータストリーム104から内部的に再構成される励振又は残留信号を使用することができる。
【0036】
図2と同様に、図4は、復号エンジン92の可能な実施を示している。図4によれば、復号エンジン92は、データストリーム部分102を受信するための入力110と、活性相86内で再構成されたオーディオ信号を出力するための出力112とを備えている。復号エンジン92は、これらの間に直列に接続されている逆量子化器114、周波数領域ノイズシェーパ116及び逆変換器118を備え、これらは、入力110と出力112との間に言及した順序で接続されている。入力110に到達するデータストリーム部分102は、逆量子化器114の入力へ供給される変換符号化バージョンの励振信号、即ち励振信号を表す変換係数レベル、並びに、周波数領域ノイズシェーパ116へ供給される線形予測係数に関する情報を含む。逆量子化器114は、励振信号のスペクトル表現を量子化し、かつこれを周波数領域ノイズシェーパ116へ転送する。周波数領域ノイズシェーパ116は、次に、線形予測合成フィルタに一致する伝達関数に従って励振信号(平坦な量子化ノイズも共に)のスペクトログラムをスペクトル的に形成し、これにより、量子化ノイズが形成される。原則的には、図4のFDNS116は図2のFDNSと同様に動作する。即ち、LPCがデータストリームから抽出され、次いで、例えば抽出されたLPCにODFTを適用することによってLPC−スペクトル重み付け変換を施され、結果として得られるスペクトル重み付けが、次に、逆量子化器114から着信する逆量子化スペクトル上へ乗法子として適用される。逆変換器118は、次に、こうして取得されたオーディオ信号再構成をスペクトル領域から時間領域へ伝達し、こうして取得された再構成オーディオ信号を出力112において出力する。逆変換器118は、IMDCT等によって重複変換を用いることができる。破線矢印120が示すように、励振信号のスペクトログラムは、背景ノイズ推定器90により、パラメトリック背景ノイズを更新するために使用することができる。また、破線矢印122が示すように、背景ノイズ推定器90はオーディオ信号自体のスペクトログラムを使用することもできる。
【0037】
図2及び図4に関連して、符号化/復号エンジンの実施についてのこれらの実施形態が限定的に解釈されるものでないことは留意されるべきである。別の実施形態も実現可能である。さらに、符号化/復号エンジンは、図2及び図4のパーツが単に関連する特有のフレーム符号化モードを有するフレームの符号化/復号の働きのみを想定するが、他のフレームは、符号化/復号エンジンの図2及び図4に示されていない他のパーツの制御下にあるような、マルチモード・コーデック・タイプであってもよい。このような別のフレーム符号化モードは、変換符号化を用いるのではなく、どちらかといえば、例えば線形予測コーディングを用いる、但し符号化は時間領域において行われる予測符号化モードとすることもできる。
【0038】
図5は、図1のエンコーダのより詳細な実施形態を示す。具体的には、図5には、背景ノイズ推定器12が、ある特有の実施形態に従ってより詳細に示されている。
【0039】
図5によれば、背景ノイズ推定器12は、変換器140と、FDNS142と、LP分析モジュール144と、ノイズ推定器146と、パラメータ推定器148と、定常性測定器150と、量子化器152とを備えている。言及したコンポーネントのうちの幾つかは、符号化エンジン14によって部分的に、又は完全に共同所有することができる。例えば、変換器140と図2の変換器50とは同じであってもよく、LP分析モジュール60と144とは同じであってもよく、FDNS52と142とは同じであってもよく、かつ/又は量子化器54及び152は1つのモジュール内に実装してもよい。
【0040】
図5は、図1におけるスイッチ22の動作に対する受動的な役割を果たすビットストリームパッケージャ154も示している。具体的には、図5のエンコーダの検出器16としてのVADは、例示的に挙げたものであって、単に、オーディオ符号化14の経路、又は背景ノイズ推定器12の経路のどちらの経路がとられるべきかを決定する。より精確に言えば、符号化エンジン14及び背景ノイズ推定器12は、共に入力18とパッケージャ154との間へ並列に接続され、背景ノイズ推定器12内部では、変換器140、FDNS142、ノイズ推定器146、パラメータ推定器148及び量子化器152が入力18とパッケージャ154との間に(言及した順序で)直列に接続され、一方でLP分析モジュール144は、入力18と、FDNSモジュール142のLPC入力及び量子化器152のさらなる入力との間に接続され、さらには、定常性測定器150がLP分析モジュール144と量子化器152の制御入力との間に接続されている。ビットストリームパッケージャ154は、単に、その入力へ接続される任意の構成要素から入力を受信すれば、パッケージングを実行する。
【0041】
ゼロフレームを伝送する場合、即ち、不活性相の中断相の間、検出器16は、背景ノイズ推定器12に、具体的には量子化器152に、処理を停止しビットストリームパッケージャ154へ何も送信しないように通知する。
【0042】
図5によれば、検出器16は、活性/不活性相を検出するために、時間及び/又は変換/スペクトル領域において動作することができる。
【0043】
図5のエンコーダの動作モードは、次のようなものである。後に明らかとなるであろうが、図5のエンコーダは、車の騒音、多くの話者によるがやがやとしたしゃべり声、なんらかの楽器及び特に、雨滴等のハーモニクス豊かなもの等の一般に定常ノイズのような快適ノイズの品質を高めることができる。
【0044】
具体的には、図5のエンコーダは、符号化側で検出されるノイズがエミュレートされるように、変換係数を励起すべくデコーダ側でランダム発生器を制御する。したがって、図5のエンコーダの機能性をさらに論じる前に、図5のエンコーダによる指示通りにデコーダ側で快適ノイズをエミュレートすることができると思われるデコーダの可能な一実施形態を示す図6を簡単に参照する。より一般的には、図6は、図1のエンコーダに適合するデコーダの可能な一実施形態を示す。
【0045】
具体的には、図6のデコーダは、活性相の間にデータストリーム部分44を復号するための復号エンジン160と、データストリーム内に与えられた不活性相28に関する情報32及び38に基づいて快適ノイズを発生するための快適ノイズ発生部分162とを備えている。快適ノイズ発生部分162は、パラメータランダム発生器164と、FDNS166と、逆変換器(又は合成器)168とを備えている。モジュール164からモジュール168までは、合成器168の出力において結果的に、図1に関連して論じたように、不活性相28の間に復号エンジン160により出力される再構成オーディオ信号間の隙間を埋める快適ノイズが生じるように、互いに直列に接続されている。プロセッサであるFDNS166及び逆変換器168は、復号エンジン160の一部であってもよい。具体的には、これらは、例えば図4におけるFDNS116及び118と同じものであってもよい。
【0046】
図5及び図6の個々のモジュールの動作モード及び機能性は、以下の論考からより明らかとなるであろう。
【0047】
具体的には、変換器140は、入力信号を、重複変換の使用等によってスペクトル的にスペクトログラムに分解する。ノイズ推定器146は、これからノイズパラメータを決定するように構成されている。同時に、音声/音響活動検出器16は、活性相から不活性相への、又は逆の移行が生じているかどうかを検出するように、入力信号から導出される特徴を評価する。検出器16により使用されるこれらの特徴は、過渡/発現検出器、調性測定及びLPC残留測定の形式であってもよい。過渡/発現検出器は清浄環境又はノイズ除去信号における活性音声の発出(突然のエネルギー増加)又は始まりを検出するために使用することができ、調性測定はサイレン、電話の呼出し音及び音楽等の有益な背景ノイズを区別するために使用することができ、LPC残留は信号における音声存在の指示を得るために使用することができる。これらの特徴に基づいて、検出器16は、現行フレームを、例えば音声、無音、音楽又はノイズとして分類できるかどうかに関する情報をおおまかに与えることができる。
【0048】
ノイズ推定器146は、[R.Martin著「最適平滑化及び最小統計に基づくノイズパワースペクトル密度の推定」、2001年]において提案されているように、スペクトログラム内のノイズを同スペクトログラム内の有益な信号成分から区別する役割を果たすことができ、一方、パラメータ推定器148は、ノイズ成分を統計的に分析しかつ例えばこのノイズ成分に基づいてスペクトル成分毎のパラメータを決定する役割を果たすことができる。
【0049】
ノイズ推定器146は、例えば、スペクトログラムにおける局所的極小を探索するように構成することができ、パラメータ推定器148は、スペクトログラムにおける極小が主として前景音ではなく背景ノイズの属性であるものと想定して、これらの部分におけるノイズ統計を決定するように構成することができる。
【0050】
中間的な留意点として、極小は非整形スペクトルでも発生することから、推定をノイズ推定器によりFDNS142なしで実行することも可能である場合があることを強調しておく。FDNS142なしでも図5に関する説明の大部分に変わりはない。
【0051】
次に、量子化器152は、パラメータ推定器148により推定されるパラメータをパラメータ化するように構成することができる。例えば、ノイズ成分に関する限り、パラメータは、入力信号のスペクトログラムにおけるスペクトル値の平均振幅、及び1次又は高次の運動量を記述してもよい。ビットレートを節約するために、パラメータは、変換器140により提供されるスペクトル分解能より低いスペクトル分解能でデータストリームのSIDフレーム内へ挿入されるべく、データストリームへ転送することができる。
【0052】
定常性測定器150は、ノイズ信号の定常性の尺度を導出するように構成することができる。次に、パラメータ推定器148は、定常性の尺度を用いて、パラメータ更新が、図1におけるフレーム38等の別のSIDフレームを送信することによって開始されるべきか否かを決定し、又はパラメータが推定される方法に影響を与えることができる。
【0053】
モジュール152は、パラメータ推定器148及びLP分析144によって計算されるパラメータを量子化し、これをデコーダ側へ信号として送る。具体的には、量子化に先立って、スペクトル成分がグループに分類することができる。このようなグループ化は、バーク尺度又はこれに類似するものへの適合等の音響心理学的態様に従って選択することができる。検出器16は、量子化器152へ、量子化の実行が必要とされるか否かを知らせる。量子化が不要である場合には、ゼロフレームが続くことになる。
【0054】
上記説明を、活性相から不活性相へ切り換える具体的なシナリオへ振り替える場合、図5のモジュールは、次のように作用する。
【0055】
活性相の間、符号化エンジン14は、パッケージャを介してビットストリームへとオーディオ信号を符号化し続ける。符号化は、フレームワイズで実行することができる。データストリームの各フレームは、オーディオ信号の1つの時間部分/間隔を表すことができる。オーディオエンコーダ14は、全てのフレームを、LPC符号化を用いて符号化するように構成することができる。オーディオエンコーダ14は、幾つかのフレームを、図2に関連して説明したように、例えばTCXフレーム符号化モードと呼ばれるものによって符号化するように構成することができる。残りのフレームは、例えばACELP符号化モード等の符号励振線形予測(CELP)符号化を用いて符号化することができる。即ち、データストリームの部分44は、フレームレート以上とできる何らかのLPC伝送速度を用いるLPC係数の連続的な更新を含することができる。
【0056】
並行して、ノイズ推定器146は、LPC平坦化(LPC分析フィルタリングされた)スペクトルを調べて、これらのスペクトルのシーケンスにより表現されるTCXスペクトログラム内の極小kminを識別する。当然ながら、これらの極小は、時間tにおいて変わる場合があり、kmin(t)となる。しかしながら、極小は、FDNS142により出力されるスペクトログラムにトレースを形成する場合があり、よって、時間tiにおける各連続スペクトル毎に、極小は、先行スペクトル及び後続スペクトルの各々における極小に関連づけることができる。
【0057】
次に、パラメータ推定器は、これから、異なるスペクトル成分又は帯域の、例えば中心傾向(平均、中央値又はこれらに類似するもの)m及び/又は分散(標準偏差、変動又はこれらに類似するもの)d等の背景ノイズ推定パラメータを導出する。この導出は、極小におけるスペクトログラムのスペクトルの連続するスペクトル係数の統計分析を包含してもよく、これにより、kminにおける各極小のm及びdがもたらされる。予め決められた他のスペクトル成分又は帯域のm及びdを取得するために、前述のスペクトル極小間のスペクトルの大きさに沿って補間を実行することができる。中心傾向(平均)の導出及び/又は補間のスペクトル分解能と、分散(標準偏差、変動又はこれらに類似するもの)の導出とは、異なる場合がある。
【0058】
いま述べたパラメータは、例えばFDNS142により出力されるスペクトル毎に連続的に更新される。
【0059】
検出器16は、不活性相の入口を検出するとすぐに、エンジン14に、パッケージャ154へそれ以上活性フレームが転送されないように適宜知らせることができる。しかしながら、代わりに、量子化器152は、いま述べた統計ノイズパラメータを不活性相内の最初のSIDフレームにおいて出力してもよい。最初のSIDフレームは、LPCの更新を含んでいても、含んでいなくてもよい。LPCの更新が存在すれば、これは、SIDフレーム32におけるデータストリーム内で部分44で使用されるフォーマットで、即ち活性相の間に、LSF/LSP領域における量子化等を用いて運搬されてもよく、あるいはこれとは違って、活性相の進行において符号化エンジン14のフレームワーク内でFDNS142により適用されていたと思われる等のLPC分析又はLPC合成フィルタの伝達関数に対応するスペクトル重み付け等を用いて運搬されてもよい。
【0060】
不活性相の間、ノイズ推定器146、パラメータ推定器148及び定常性測定器150は、デコーダ側を背景ノイズの変化が更新される状態に保つべく共働し続ける。具体的には、測定器150は、LPCにより規定されるスペクトル重み付けをチェックして変化を識別し、推定器148にSIDフレームがデコーダへ送られるべき時を知らせる。例えば、測定器150は、前述の定常性尺度が所定の量を超えるLPCの変動度を示す場合は常に、推定器を適宜起動することもできる。あるいは、又は追加的に、推定器は、更新されるパラメータを定期的に送信するようにトリガできる。これらのSID更新フレーム40とSID更新フレーム40の間では、データストリームにおいて何も送信されず、「ゼロフレーム」となる。
【0061】
デコーダ側において、活性相の間、復号エンジン160は、オーディオ信号の再構成の役割を果たす。不活性相が開始されるとすぐに、適応パラメータランダム発生器164は、不活性相の間にデータストリーム内でパラメータ量子化器152から送信される逆量子化されたランダム発生器パラメータを用いてランダムスペクトル成分を発生し、これにより、スペクトル・エネルギー・プロセッサ166内でスペクトル的に形成されるランダムスペクトログラムを形成し、次いで、合成器168がスペクトル領域から時間領域への再変換を実行する。FDNS166内のスペクトル形成に関しては、最新の活性フレームからの最新のLPC係数が使用するか、もしくはFDNS166によって適用されるべきスペクトル重み付けを外挿法により導出してもよく、又はSIDフレーム32自体が情報を伝達してもよい。この方法により、不活性相の始まりにおいて、FDNS166は、LPC合成フィルタの伝達関数に従って着信スペクトルへスペクトル的に重み付けすることを続け、LPSは、活性データ部分44又はSIDフレーム32から導出されるLPC合成フィルタを規定する。しかしながら、不活性相の始まりにおいて、FDNS166により整形されるべきスペクトルは、TCXフレーム符号化モードの場合のような変換符号化されたものではなく、ランダムに発生されたスペクトルである。さらに、FDNS166において適用されるスペクトル整形は、SIDフレーム38を使用して不連続的に更新されるにすぎない。補間又はフェーデングは、中断相36の間に、あるスペクトル整形規定から次のそれへ徐々に切換するように実行することができる。
【0062】
図6に示されているように、適応パラメータランダム発生器164は、さらに、場合により、データストリームにおける最後の活性相の最新部分、即ち不活性相の入口直前のデータストリーム部分44、内に含まれる逆量子化された変換係数を用いることができる。したがって、例えば、この変換係数の使用により、活性相内のスペクトログラムから不活性相内のランダムなスペクトログラムへの滑らかな移行が実現できる。
【0063】
図1及び図3を簡単に振り返ると、図5及び図6(及び、続いて説明する図7)から次のことがいえる。すなわち、エンコーダ及び/又はデコーダ内で発生されるパラメトリック背景ノイズ推定は、バークバンド又は異なるスペクトル成分等の区別可能なスペクトル部分の時間的に連続するスペクトル値の分布に関する統計情報を含むことができる。このようなスペクトル部分の各々で、例えば、統計情報は分散尺度を含むことができる。したがって、分散尺度は、スペクトル情報においてスペクトル的に分解された方法で、即ち、スペクトル部分で又はスペクトル部分に関してサンプリングされた方法で定義される。スペクトル分解能、即ち分散尺度の数と、スペクトル軸に沿って広がる中心傾向は、例えば、分散尺度と、場合により存在する平均又は中心傾向の尺度との間で異なってもよい。統計情報はSIDフレーム内に含まれる。これは、整形されたMDCTスペクトルのようなLPC分析フィルタリング(即ち、LPCで平坦化された)スペクトル等の整形されたスペクトルを指すことができる。MDCTスペクトルは、ランダムスペクトルを統計スペクトルに従って合成し、かつこれをLPC合成フィルタの伝達関数に従って逆整形することによる合成を有効化するものである。この場合、スペクトル整形情報はSIDフレーム内に存在してもよいが、例えば、最初のSIDフレーム32にはなくてもよい。しかしながら、後に示すように、この統計情報は、代替的に非整形スペクトルを指してもよい。さらに、MDCT等の実数値スペクトル表現を用いる代わりに、オーディオ信号のQMFスペクトル等の複素数値フィルタバンクスペクトルを使用してもよい。例えば、非整形形式のオーディオ信号のQMFスペクトルを使用し、統計情報によって統計的に記述してもよく、この場合、統計情報自体に含まれる以外にスペクトル整形は存在しない。
【0064】
図1の実施形態に対する図3の実施形態の関係と同様に、図7は、図3のデコーダの可能な一実施形態を示す。図5の場合と同じ参照記号の使用によって示されるように、図7のデコーダは、ノイズ推定器146と、パラメータ推定器148と、定常性測定器150とを備え、これらは、図5における同じ要素と同様に動作するが、図7のノイズ推定器146は、図4における120又は122等の伝送されかつ逆量子化されたスペクトログラムに対して動作する。よって、パラメータ推定器146は、図5において論じたもののように動作する。このことは、定常性測定器150に関しても当てはまり、これは、エネルギーと、活性相の間にデータストリームを介して、又はデータストリームから伝送されて逆量子化されたLPC分析フィルタ(又はLPC合成フィルタ)のスペクトルの時間発展を明らかにするスペクトル値又はLPCデータに対して動作する。
【0065】
要素146、148及び150は、図3の背景ノイズ推定器90のように動作するが、図7のデコーダは、適応パラメータランダム発生器164、FDNS166、並びに逆変換器168も備え、これらは、合成器168の出力において快適ノイズを出力するように、図6の場合と同様に互いに直列に接続されている。モジュール164、166及び168は、図3の背景ノイズ発生器96と同様に作用し、モジュール164は、パラメータランダム発生器94の機能を果たす。適応パラメータランダム発生器94又は164は、パラメータ推定器148により決定されたパラメータに従ってスペクトログラムのランダムに発生されるスペクトル成分を出力するが、パラメータ推定器148は、定常性測定器150によって出力された定常性尺度を用いてトリガされる。プロセッサ166は、次に、こうして発生されるスペクトログラムを逆変換器168でスペクトル整形し、次に、スペクトル領域から時間領域への移行が実行される。ここで、不活性相88の間、デコーダが情報108を受信していれば、背景ノイズ推定器90はノイズ推定の更新を実行し、それに何らかの補間手段が続くことに留意されたい。そうでなく、ゼロフレームが受信されれば、背景ノイズ推定器90は、単に補間及び/又はフェーディング等の処理を行う。
【0066】
図5から図7を要約すると、これらの実施形態は、制御式のランダム発生器164をTCX係数を励振するために適用することが技術的に可能であることを示している。TCX係数は、MDCTにおけるような実数値でも、FFTにおけるような複素数値でもあり得る。また、ランダム発生器164を、通常はフィルタバンクを介して達成される係数グループに対して適用することも効果的な場合がある。
【0067】
ランダム発生器164は、好ましくは、これがノイズのタイプを可能な限り厳密にモデリングするように制御される。これは、標的ノイズが事前に知られていれば達成できる。用途の中にはこれを可能にし得るものがある。対象が種々のタイプのノイズに遭遇し得る多くの現実的な用途では、図5から図7までに示されているような適応的方法が要求される。したがって、適応パラメータランダム発生器164が使用され、それは簡単にいえばg=f(x)と定義できる。但し、x=(x1,x2,...)は、パラメータ推定器146及び150により各々与えられるランダム発生器パラメータの集合である。
【0068】
パラメータランダム発生器を適応的にするために、ランダム発生器パラメータ推定器146はランダム発生器を適切に制御する。データが統計学的に不十分であると見なされる場合を補償するためにバイアス補償を含むことができる。これは、過去のフレームに基づいて統計的に一致するノイズモデルを生成するために行われ、推定されるパラメータを常に更新する。ランダム発生器164がガウス雑音を発生するものとされる場合がその一例である。この場合は、例えば、必要とされ得るのは平均パラメータと変動パラメータのみであり、バイアスを計算してこれらのパラメータに適用することができる。さらに高度な方法であれば、如何なるタイプのノイズ又は分布にも対処することができ、パラメータは必ずしも分布のモーメントとはならない。
【0069】
非定常ノイズの場合、定常性尺度を有することが必要であり、よって低適応性のパラメータランダム発生器を使用することができる。測定器150により決定される定常性尺度は、例えば、Itakuraの距離尺度、Kullback-Leiblerの距離尺度、他のような様々な方法を用いて、入力信号のスペクトル形状から導出することができる。
【0070】
図1における38等で示されているSIDフレームを介して送信されるノイズ更新の不連続性に対処するために、通常、ノイズのエネルギー及びスペクトル形状等の追加的情報が送信されている。この情報は、デコーダにおいて、不活性相内で不連続期間中でも滑らかな移行を有するノイズを発生するために有益である。最終的には、様々な平滑化又はフィルタリング技術を適用して、快適ノイズエミュレータの品質を高める手助けとすることができる。
【0071】
既に述べたように、図5及び図6のシナリオと、図7のシナリオは異なる。図5及び図6に対応する一方のシナリオでは、エンコーダにおいて、処理された入力信号に基づいてパラメトリック背景ノイズ推定が行われ、後に、パラメータがデコーダへ送信される。図7に対応するもう一方のシナリオでは、デコーダが、活性相内で過去に受信したフレームに基づいてパラメトリック背景ノイズ推定をすることができる。例えば、音声/信号活動検出器又はノイズ推定器の使用は、活性音声の間であってもノイズ成分の抽出を促進する上で有益である可能性がある。
【0072】
図5から図7までに示されているシナリオの中で、図7のシナリオは、伝送されるビットレートがより低くなるという理由で好ましいかも知れない。しかしながら、図5及び図6のシナリオには、より正確で利用可能なノイズ推定を有するという優位点がある。
【0073】
上述の実施形態は全て、帯域幅拡張技術、例えばスペクトル帯域複製(SBR:spectral band replication)と組み合わすことができる。ただし、帯域幅拡張技術としては、一般的なものを使用してもよい。
【0074】
これを説明するために、図8を参照されたい。図8は、入力信号のより高い周波数部分に関してパラメトリック符号化を実行するために、図1及び図5のエンコーダを拡張することができるモジュールを示す。具体的には、図8によれば、時間領域の入力オーディオ信号は、図8に示されているようなQMF分析フィルタバンク等の分析フィルタバンク200によってスペクトル分解される。すると、先に述べた図1及び図5の実施形態は、フィルタバンク200により発生されるスペクトル分解のより低い周波数部分にのみ適用されることになる。より高い周波数部分に関する情報をデコーダ側へ伝達するために、パラメトリック符号化も使用される。この目的に沿って、正規のスペクトル帯域複製エンコーダ202は、活性相の間により高い周波数部分をパラメータ化し、これに関する情報をデータストリームにおいてスペクトル帯域複製情報の形式でデコーダ側へ供給するように構成されている。QMFフィルタバンク200の出力とスペクトル帯域複製エンコーダ202の入力との間には、フィルタバンク200の出力をエンコーダ202と並列に接続されたスペクトル帯域複製エンコーダ206の入力へ接続して不活性相の間に帯域幅拡張を行うために、スイッチ204を設けることができる。即ち、スイッチ204は、図1におけるスイッチ22のように制御することができる。後により詳細に説明されるように、スペクトル帯域複製エンコーダモジュール206は、スペクトル帯域複製エンコーダ202に類似して動作するように構成することができる。即ち、スペクトル帯域複製エンコーダ202と206は、より高い周波数部分内、即ち例えば符号化エンジンによるコア符号化を受けない残りのより高い周波数部分内、の入力オーディオ信号のスペクトル包絡線をパラメータ化するように構成することができる。しかしながら、スペクトル帯域複製エンコーダモジュール206は、スペクトル包絡線をパラメータ化しデータストリーム内部で伝達する時間/周波数分解能として最小時間/周波数分解能を用いることができるのに対して、スペクトル帯域複製エンコーダ202は、その時間/周波数分解能を、オーディオ信号内部の過渡の発生等に依存して入力オーディオ信号へ適応させるように構成することができる。
【0075】
図9は、実施の可能性のある帯域幅拡張符号化モジュール206を示す。時間/周波数グリッド設定器208、エネルギー計算器210及びエネルギーエンコーダ212は、符号化モジュール206の入力と出力との間に互いに直列に接続されている。時間/周波数グリッド設定器208は、より高い周波数部分の包絡線を決定する時間/周波数分解能を設定するように構成することができる。例えば、許容される最小の時間/周波数分解能が、符号化モジュール206によって連続的に使用される。次に、エネルギー計算器210は、フィルタバンク200により出力されるスペクトログラムのより高い周波数部分のエネルギーを、時間/周波数分解能に一致する時間/周波数タイルにおけるより高い周波数部分内で決定することができ、エネルギーエンコーダ212は、エントロピー符号化を用いて、例えば、計算器210により計算されたエネルギーを不活性相の間にSIDフレーム38等のSIDフレーム内等でデータストリーム40(図1参照)に挿入することができる。
【0076】
図8及び図9の実施形態によって発生される帯域幅拡張情報は、図3図4及び図7等で先に概説した任意の実施形態によるデコーダの使用に関連して使用することもできることは留意されるべきである。
【0077】
したがって、図8及び図9は、図1から図7までに関連して説明した快適ノイズの発生は、スペクトル帯域複製に関しても使用できることを明らかにしている。例えば、これまでに述べたオーディオエンコーダ及びデコーダは種々の動作モードで動作することができ、これらの動作モードの中には、スペクトル帯域複製を含み得るものもあれば、含み得ないものもある。例えば、超広帯域動作モードはスペクトル帯域複製を含むことができる。何れにしても、快適ノイズの発生に関する例を示している先に述べた図1から図7までの実施形態は、図8及び図9に関連して説明した方法で帯域幅拡張技術と組み合わすことができる。不活性相の間の帯域幅拡張を行うスペクトル帯域複製符号化モジュール206は、極めて低い時間分解能と周波数分解能に対して作用するように構成することができる。正規のスペクトル帯域複製処理に比較して、エンコーダ206は異なる周波数分解能で動作することができるが、不活性相の間に包絡線調整器に印加されるエネルギー換算係数を補間する換算係数帯域を発するあらゆる快適ノイズに対して、デコーダ内にIIR平滑化フィルタと共に極めて低い周波数分解能を有する追加的な周波数帯域テーブルを必要とする。いま述べたように、時間/周波数グリッドは、可能な時間分解能の最も低いものに対応するように構成することができる。
【0078】
即ち、帯域幅拡張符号化は、存在するのが無音であるか活性相であるかによって、QMF領域又はスペクトル領域で異なって実行することができる。活性相では、即ち活性フレームの間は、エンコーダ202によって正規のSBR符号化が実行され、結果的に、各々データストリーム44及び102を伴う通常のSBRデータストリームが生じる。不活性相では、又はSIDフレームとして分類されるフレームの間は、極めて低い周波数分解能と例えば最も低い可能な時間分解能を呈する時間/周波数グリッドの印加によって、エネルギー換算係数として表現されるスペクトル包絡線に関する情報のみを抽出することができる。結果として得られる換算係数は、エンコーダ212によって効率的に符号化され、データストリームへ書き込まれる場合もある。ゼロフレームでは、又は中断相36の間は、スペクトル帯域複製符号化モジュール206によるデータストリームへのサイド情報の書込みは行わなくてもよく、よって、計算器210によるエネルギー計算は実行しないようにすることができる。
【0079】
図8に適合して、図10は、図3及び図7におけるデコーダ実施形態の帯域幅拡張符号化技術への可能な拡張を示す。より明確には、図10は、本出願によるオーディオデコーダの可能な一実施形態を示している。コアデコーダ92が快適ノイズ発生器と並列に接続されている。快適ノイズ発生器は参照記号220で示されていて、例えば、ノイズ発生モジュール162又は図3のモジュール90、94及び96を備えている。スイッチ222は、フレームのタイプに依存して、データストリーム104及び30内のフレームをコアデコーダ92又は快適ノイズ発生器220へ各々配分するものとして示されている。フレームのタイプとは、フレームが活性相に関連するかもしくは属するか、又はSIDフレーム等の不活性相もしくは中断相に関連するゼロフレームに関連するかもしくは属するかということである。コアデコーダ92及び快適ノイズ発生器220の出力は、スペクトル帯域幅拡張デコーダ224の入力へと接続され、スペクトル帯域幅拡張デコーダ224の出力が再構成オーディオ信号となる。
【0080】
図11は、帯域幅拡張デコーダ224の可能な一実施のより詳細な実施形態を示す。
【0081】
図11に示されているように、図11の実施形態による帯域幅拡張デコーダ224は、再構成されるべき完全なオーディオ信号の低周波数部分の時間領域再構成を受信するための入力226を備えている。入力226において入力される時間領域入力が、ノイズ及び有益成分の双方を含むオーディオ信号の再構成されたより低い周波数部分、又は活性相間の時間をつなぎ合わせるために発生された快適ノイズの何れであってもよいように、帯域幅拡張デコーダ224をコアデコーダ92及び快適ノイズ発生器220の出力と接続するのがこの入力226である。
【0082】
図11の実施形態によれば、帯域幅拡張デコーダ224は、スペクトル帯域幅複製を実行するように構成されることから、以下、デコーダ224をSBRデコーダと称する。しかしながら、図8から図10までに関連しては、これらの実施形態はスペクトル帯域幅複製に限定されないことを強調しておく。これらの実施形態に関しては、どちらかと言えば、帯域幅拡張のより一般的な代替方法も使用できる。
【0083】
さらに、図11のSBRデコーダ224は、最終的に再構成されたオーディオ信号を、即ち活性相又は不活性相の何れかにおいて出力するための時間領域出力228を備えている。SBRデコーダ224は、入力226と出力228との間に、図11に示されているようにQMF分析フィルタバンク等の分析フィルタバンクとすることのできるスペクトル分解器230と、HF発生器232と、包絡線調整器234と、図11に示されているようにQMF合成フィルタバンク等の合成フィルタバンクとして実現できるスペクトル−時間領域変換器236とをこの順に直列に接続して備えている。
【0084】
モジュール230からモジュール236までは次のように動作する。スペクトル分解器230は、時間領域入力信号をスペクトル分解して再構成された低周波数部分を取得する。HF発生器232は再構成された低周波数部分に基づいて高周波数複製部分を発生し、包絡線調整器234は、SBRデータストリーム部分を介して伝達されかつ未だ論じていないが図11において包絡線調整器234より上に示されているモジュールにより提供される高周波数部分のスペクトル包絡線の表現を用いて、高周波数複製をスペクトル的に形成又は整形する。したがって、包絡線調整器234は、送信される高周波数包絡線の時間/周波数グリッド表現に従って高周波数複製部分の包絡線を調整し、かつこうして取得される高周波数部分を、スペクトル−時間領域変換器236へ転送する。スペクトル−時間領域変換器236は、周波数スペクトル全体、即ちスペクトル的に形成された高周波数部分と再構成された低周波数部分、を出力228における再構成された時間領域信号へ変換する。
【0085】
図8から図10に関連して既に述べたように、高周波数部分のスペクトル包絡線は、データストリーム内でエネルギー換算係数の形式で伝達され、よってSBRデコーダ224は、高周波数部分のスペクトル包絡線に関する情報を受信するための入力238を備えている。図11に示されているように、活性相の場合、即ち活性相の間にデータストリーム内に存在する活性フレームの場合、入力238はスイッチ240を介して包絡線調整器234のスペクトル包絡線入力へ直に接続することができる。しかしながら、SBRデコーダ224は、さらに、換算係数コンバイナ242と、換算係数データストア244と、IIRフィルタリングユニット等の補間フィルタリングユニット246と、利得調整器248とを備えている。モジュール242、244、246及び248は、入力238と包絡線調整器234のスペクトル包絡線入力との間に互いに直列に接続され、スイッチ240が利得調整器248と包絡線調整器234との間に接続され、かつさらなるスイッチ250が換算係数データストア244とフィルタリングユニット246との間に接続されている。スイッチ250は、この換算係数データストア244をフィルタリングユニット246又は換算係数データ復元器252の何れかへ接続するように構成されている。不活性相の間のSIDフレームの場合と、ときには高周波数部分のスペクトル包絡線の極めて粗い表現を容認できる活性フレームの場合も、スイッチ250及び240は、モジュール242から248までの回路を入力238と包絡線調整器234との間に接続する。換算係数コンバイナ242は、高周波数部分のスペクトル包絡線がデータストリームを介して伝送された周波数分解能を包絡線調整器234が受信しようとする分解能に適応させ、換算係数データストア244は、結果として得られたスペクトル包絡線を次の更新まで格納する。フィルタリングユニット246は、スペクトル包絡線を時間及び/又はスペクトル次元においてフィルタリングし、利得調整器248は高周波数部分のスペクトル包絡線の利得を適応させる。その目的のために、利得調整器は、ユニット246により取得される包絡線データを、QMFフィルタバンク出力から導き出せる実際の包絡線と組み合わせることができる。換算係数データ復元器252は、中断相又はゼロフレーム内で、換算係数ストア244により格納されたスペクトル包絡線を表現する換算係数データを再現する。
【0086】
したがって、デコーダ側では、次のような処理が実行できる。活性フレームで、又は活性相の間、正規のスペクトル帯域複製処理を施すことができる。これらの活性期間中、データストリームからの換算係数は、換算係数コンバイナ242によって快適ノイズ発生周波数分解能に変換される。これらの活性期間中のデータストリームからの換算係数は、典型的には快適ノイズ発生処理よりも多数の換算係数帯域に使用可能である。換算係数コンバイナは、種々の周波数帯域テーブルの共通する周波数帯域境界を活用することにより、結果的にCNGに適合する幾つかの換算係数をもたらすように、より高い周波数分解能の換算係数を結合する。換算係数結合ユニット242の出力において結果的に生じる換算係数値は、ゼロフレームにおける再使用及び復元器252による後の再現のために格納され、続いて、CNG動作モード用にフィルタリングユニット246を更新するために使用される。SIDフレームでは、データストリームから換算係数情報を抽出する修正SBRデータストリーム・リーダが適用される。SBR処理の残りの設定は、予め規定された値に初期化され、時間/周波数グリッドは、エンコーダで使用された同じ時間/周波数分解能に初期化される。抽出された換算係数は、フィルタリングユニット246へ供給され、ここで、例えばIIR平滑化フィルタが、1つの低分解能換算係数帯域の経時的なエネルギー進行を補間する。ゼロフレームの場合、ビットストリームから読み取られるペイロードはなく、時間/周波数グリッドを含むSBR構成は、SIDフレームにおいて使用されるものと同じである。ゼロフレームでは、フィルタリングユニット246における平滑化フィルタに、換算係数結合ユニット242から出力された換算係数値が供給される。その換算係数値は、有効な換算係数情報を含み、最終フレームに格納されていたものである。現行フレームが不活性フレーム又はSIDフレームとして分類される場合、快適ノイズはTCX領域において発生され、時間領域へ変換し戻される。続いて、快適ノイズを含む時間領域信号が、SBRモジュール224のQMF分析フィルタバンク230へ供給される。QMF領域では、HF発生器232内で、コピーアップ転置によって快適ノイズの帯域幅拡張が実行され、最終的に、人工的に生成された高周波数部のスペクトル包絡線が、包絡線調整器234におけるエネルギー換算係数情報の適用によって調整される。これらのエネルギー換算係数は、フィルタリングユニット246の出力によって取得され、かつ、包絡線調整器234における適用に先立って利得調整ユニット248によりスケーリングされる。この利得調整ユニット248では、換算係数をスケーリングするための利得値が計算され、その利得値は信号の低周波数部分と高周波数コンテンツとの境界における多大なエネルギー差を補償するために適用される。
【0087】
上述の実施形態は、図12及び図13の実施形態に共通して使用される。図12は本出願の一実施形態によるオーディオエンコーダの一実施形態を示し、図13はオーディオデコーダの一実施形態を示している。これらの図面に関連して開示される詳細は、これまでに述べた個々の要素に等しく当てはまるものである。
【0088】
図12のオーディオエンコーダは、入力オーディオ信号をスペクトル分解するためのQMF分析フィルタバンク200を備えている。QMF分析フィルタバンク200の出力へは、検出器270及びノイズ推定器262が接続されている。ノイズ推定器262は背景ノイズ推定器12の機能を行う。活性相の間、QMF分析フィルタバンクからのQMFスペクトルは、スペクトル帯域複製パラメータ推定器260及びこれに続く何らかのSBRエンコーダ264と、QMF合成フィルタバンク272及びこれに続くコアエンコーダ14の回路への並列接続によって処理される。双方の並列経路は、ビットストリームパッケージャ266のそれぞれの入力へ接続されている。SIDフレームを出力する場合は、SIDフレームエンコーダ274がノイズ推定器262からデータを受信し、ビットストリームパッケージャ266へSIDフレームを出力する。
【0089】
推定器260により出力されるスペクトル帯域幅拡張データは、スペクトログラムの高周波数部分のスペクトル包絡線、又はQMF分析フィルタバンク200により出力されるスペクトルを記述する。次にスペクトル帯域幅拡張データは、SBRエンコーダ264によりエントロピー符号化等で符号化される。データストリーム・マルチプレクサ266は、活性相において、スペクトル帯域幅拡張データをマルチプレクサ266の出力268において出力されるデータストリームに挿入する。
【0090】
検出器270は、現時点で活性相がアクティブであるか、不活性相がアクティブであるかを検出する。この検出に基づいて、活性フレーム、又はSIDフレームもしくはゼロフレーム即ち不活性フレームが、その時点で出力されるべきものとなる。言い替えれば、モジュール270は、活性相がアクティブであるか、不活性相がアクティブであるかを決定し、不活性相がアクティブであれば、SIDフレームが出力されるべきか否かを決定する。図12では、この決定が、ゼロフレームではI、活性フレームではA、及びSIDフレームではSを用いて示されている。活性相が存在する場合、入力信号の時間間隔に対応するフレームも、QMF合成フィルタバンク272とコアエンコーダ14とからなる回路へ転送される。QMF合成フィルタバンク272は、QMF分析フィルタバンク200に比べてより低い周波数分解能を有し、又はより少数のQMFサブバンドで動作し、入力信号の活性フレーム部分を再度時間領域へ伝達する際に、サブバンド数比によって対応するダウンサンプリング速度を達成する。具体的には、QMF合成フィルタバンク272が、活性フレーム内のQMF分析フィルタバンクスペクトログラムのより低い周波数部分又はより低い周波数サブバンドへ適用される。よって、コアエンコーダ14はダウンサンプルされた入力信号バージョンを受信するが、その入力信号バージョンはQMF分析フィルタバンク200へ入力された原初の入力信号のより低い周波数部分のみをカバーしている。残りのより高い周波数部分は、モジュール260及び264によってパラメータ的に符号化される。
【0091】
SIDフレーム(又は、より精確には、SIDフレームにより伝達されるべき情報)は、例えば図5のモジュール152の機能を行うSIDエンコーダ274へ転送される。唯一の相違点は、モジュール262が、入力信号のスペクトルにLPC整形なしで直接作用することにある。さらに、QMF分析フィルタリングが使用されることから、モジュール262の動作は、コアコーダにより選択されるフレームモード、又はスペクトル帯域幅拡張オプションが適用されているか否か、とは関係がない。図5のモジュール148及び150の機能はモジュール274内で実現することができる。
【0092】
マルチプレクサ266は、出力268においてそれぞれの符号化情報をデータストリームに多重化する。
【0093】
図13のオーディオデコーダは、図12のエンコーダにより出力されるデータストリームに対して動作することができる。即ち、モジュール280は、データストリームを受信し、例えばデータストリーム内のフレームを、活性フレーム、SIDフレーム及びゼロフレーム即ちデータストリームにフレームが存在しないもの、に分類するように構成されている。活性フレームは、コアデコーダ92、QMF分析フィルタバンク282及びスペクトル帯域幅拡張モジュール284の一連の回路へ転送される。ノイズ推定器286がQMF分析フィルタバンクの出力へ接続されているが、これは任意である。ノイズ推定器286は、例えば図3の背景ノイズ推定器90のように動作し、かつ背景ノイズ推定器90の機能を果たすことができるが、例外として、このノイズ推定器は、励振スペクトルではなく非整形スペクトルに対して動作する。モジュール92、282及び284の一連の回路は、QMF合成フィルタバンク288の入力へ接続されている。SIDフレームは、例えば、図3の背景ノイズ発生器96の機能を果たすSIDフレームデコーダ290へ転送される。快適ノイズ発生パラメータアップデータ292は、デコーダ290とノイズ推定器286から情報の供給を受け、ランダム発生器294を制御いる。ランダム発生器294は図3のパラメータランダム発生器の機能を果たす。不活性フレーム又はゼロフレームは存在せず、よってどこへも転送される必要はないが、これらは、ランダム発生器294の別のランダム発生サイクルをトリガする。
ランダム発生器294の出力は、QMF合成フィルタバンク288へ接続され、QMF合成フィルタバンク288の出力には時間領域において無音相と活性相からなる再構成されたオーディオ信号が現れる。
【0094】
したがって、活性相の間、コアデコーダ92は、ノイズ成分及び有益な信号成分の双方を含むオーディオ信号の低周波数部分を再構成する。QMF分析フィルタバンク282は再構成された信号をスペクトル分解し、スペクトル帯域幅拡張モジュール284はデータストリーム内のスペクトル帯域幅拡張情報、及び活性フレームを各々用いて、より高い周波数部分を追加する。ノイズ推定器286が設けられていれば、ノイズ推定器286はコアデコーダにより再構成されたスペクトル部分、即ち低周波数部分に基づいてノイズ推定を実行する。不活性相では、SIDフレームが、エンコーダ側でノイズ推定器262により導出された背景ノイズ推定をパラメータ的に記述する情報を伝達する。パラメータアップデータ292は、そのパラメトリック背景ノイズ推定を更新するために、主としてエンコーダ情報を用いることができるが、主としてSIDフレームに関する伝送損失の場合の代替としてノイズ推定器286により提供された情報を用いる。QMF合成フィルタバンク288は、活性相においてスペクトル帯域複製モジュール284により出力されたスペクトル分解された信号、及び快適ノイズ発生信号スペクトルを時間領域において変換する。したがって、図12及び図13は、QMFフィルタバンクのフレームワークがQMFベースの快適ノイズ発生の基礎として使用できることを明らかにしている。QMFフレームワークは、エンコーダにおいて入力信号をコアコーダのサンプリング速度まで下げてリサンプリングし、又はデコーダ側において、QMF合成フィルタバンク288を用いてコアデコーダ92のコアデコーダ出力信号をアップサンプリングする簡易な方法を提供する。これと同時に、QMFフレームワークは、コアコーダモジュール14及びコアデコーダモジュール92が使い残す信号の高周波数成分を抽出しかつ処理するために、帯域幅拡張と組み合わせて使用することもできる。したがって、QMFフィルタバンクは、様々な信号処理ツールに共通するフレームワークを提供することができる。図12及び図13の実施形態によれば、快適ノイズの発生は、このフレームワークに首尾良く包含される。
【0095】
具体的には、図12及び図13の実施形態によれば、例えば、QMF合成フィルタバンク288の各QMF係数の実数部及び虚数部を励振すべくランダム発生器294を適用することによって、デコーダ側で快適ノイズを、QMF分析の後、但しQMF合成より前に発生することが可能であることが理解できる。ランダムシーケンスの振幅は、発生される快適ノイズのスペクトルが実際に入力される背景ノイズ信号のスペクトルに似るように、例えば、各QMF帯域において個々に計算される。これは、エンコーダ側で、各QMF帯域において、QMF分析後のノイズ推定を用いて達成することができる。これらのパラメータは、次に、デコーダ側で各QMF帯域に印加されるランダムシーケンスの振幅を更新するために、SIDフレームを介して伝送することができる。
【0096】
理想的には、各活性期間の終わりで直ちに快適ノイズパラメータを更新できるように、エンコーダ側で適用されるノイズ推定262は、不活性期間(即ち、ノイズのみ)及び活性期間(典型的には、騒がしい音声を含む)の双方において動作可能であるべき点に留意されたい。さらに、ノイズ推定は、デコーダ側でも同様に使用される場合がある。ノイズのみのフレームは、DTXベースの符号化/復号システムでは無視されることから、デコーダ側でのノイズ推定は、騒がしい音声コンテンツに対して好都合に働くことができる。エンコーダ側に加えてデコーダ側でノイズ推定を実行する優位点は、エンコーダからデコーダへのパケット伝送が活動期間に続く最初のSIDフレームで失敗した場合でも、快適ノイズのスペクトル形状を更新できることにある。
【0097】
ノイズ推定は、背景ノイズのスペクトルコンテンツの変動に精確かつ迅速に従うことができるべきであり、理想的には、先に述べたように、活性フレームの間及び不活性フレームの間の双方で実行可能であるべきである。この目的を達成する1つの方法は、[R.Martin著「最適平滑化及び最小統計に基づくノイズパワースペクトル密度の推定(Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics)」、2001年]において提案されているように、有限長さのスライディングウィンドウを用いて、電力スペクトルにより各帯域内で得られる極小を追跡することである。この背後にある考えは、騒がしい音声のスペクトルの電力は、しばしば背景ノイズ、例えば単語間又は音節間の背景ノイズ、の電力まで減衰する、というものである。したがって、電力スペクトルの極小を追跡すると、音声活動の間であっても、各帯域におけるノイズフロアを推定できる。しかしながら、概して、これらのノイズフロアは過小評価される。さらに、これらのノイズフロアでは、スペクトル電力の迅速な変動、特に突然のエネルギー増加を捕捉できない。
【0098】
しかしながら、各帯域において上述のように計算されるノイズフロアは、ノイズ推定の第2の段階を適用する上で極めて有益なサイド情報を提供する。実際に、非活動の間は騒がしいスペクトルの電力は推定されるノイズフロアに近いものと期待することができるのに対して、活動の間のスペクトル電力はノイズフロアより遙かに高くなる。故に、各帯域において別々に計算されるノイズフロアは、各帯域のおおまかな活動検出器として使用することができる。この知識に基づいて、背景ノイズの電力は、次式(1)のように、電力スペクトルの反復平滑化バージョンとして容易に推定することができる。
σN2(m,k)=β(m,k)・σN2(m-1,k)+(1−β(m,k))・σN2(m,k) (1)
ここで、σX2(m,k)はフレームm及び帯域kにおける入力信号の電力スペクトル密度を示し、σN2(m,k)はノイズ電力推定を指し、β(m,k)は各帯域及び各フレームの平滑化量を別々に制御する忘却係数(必ず、0から1までの間)である。ノイズフロア情報を用いて活動ステータスを反映しようとすると、ノイズフロア情報は、不活性期間(即ち、電力スペクトルがノイズフロアに近いとき)の間は小値をとるべきであるのに対して、活性フレームの間はさらなる平滑化(理想的には、σN2(m,k)は一定を維持)を適用するために、高値が選択されるべきである。これを達成するためには、次式(2)のように、忘却係数を計算することによって軟判定が行うことができる。
ここで、σNF2はノイズフロア電力であり、αは制御パラメータである。αの値が高いほど忘却係数は大きくなり、故に、全体として平滑化が進む。
【0099】
このようにして、デコーダ側で変換領域において人工ノイズが生成される快適ノイズ発生(CNG)概念が記述された。上述の実施形態は、時間領域信号を複数のスペクトル帯域に分解する事実上任意のタイプのスペクトル−時間分析ツール(即ち、変換又はフィルタバンク)と組み合わせて適用することができる。
【0100】
したがって、上述の実施形態は、とりわけ、基本的な快適ノイズ発生器がランダムパルスを使用して残留をモデリングするTCXベースのCNGについて記述している。
【0101】
これまでは、幾つかの態様を装置について説明してきたが、これらの態様が、対応する方法の説明をも表すことは明らかであり、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップについて記述された態様も、対応する装置の対応するブロック、項目又は特徴に関する記述を表す。方法ステップの幾つか又は全ては、例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又はこれを用いて)実行することができる。実施形態によっては、最も重要な方法ステップのうちの何らかの1つ又はそれ以上がこのような装置によって実行することができる。
【0102】
所定の実施の要請によっては、本発明の実施形態は、ハードウェアによってもソフトウェアによっても実施することができる。その実施は、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリなどのデジタル記憶媒体を用いて実行することができる。そのようなデジタル記憶媒体は、それぞれの方法を実行するようにプログラマブル・コンピュータ・システムと共働する(又は、共働することができる)電子的に読取り可能な制御信号を格納している。したがって、デジタル記憶媒体はコンピュータ読取り可能とすることができる。
【0103】
本発明の幾つかの実施形態は、本発明方法の1つを実行するようにプログラマブル・コンピュータ・システムと共働することのできる電子的に読取り可能な制御信号を有するデータキャリアを含む。
【0104】
一般に、本発明の幾つかの実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、そのプログラムコードはこのコンピュータプログラム製品がコンピュータ上で作動すると本発明方法のうちの1つを実行するように動作する。そのプログラムコードは、例えば、機械読取り可能なキャリア上に格納することができる。
【0105】
他の幾つかの実施形態は、機械読取り可能なキャリア上に格納され、本発明方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0106】
したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると、本発明方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0107】
したがって、本発明方法のさらなる実施形態は、本発明方法のうちの1つを実行するためのコンピュータプログラムを記録して備えたデータキャリア(又は、デジタル記憶媒体又はコンピュータ読取り可能な媒体)である。そのデータキャリア、デジタル記憶媒体又は記録ずみの媒体は、典型的には、有形でありかつ/又は非移行性である。
【0108】
したがって、本発明方法のさらなる実施形態は、本発明方法のうちの1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号シーケンスである。そのデータストリーム又は信号シーケンスは、例えば、データ通信接続、例えばインターネットを介して伝達されるように構成することができる。
【0109】
さらなる実施形態は、本発明方法のうちの1つを実行するように構成又は適合化された処理手段、例えばコンピュータ又はプログラマブル論理デバイスを含む。
【0110】
さらなる実施形態は、本発明方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0111】
本発明によるさらなる実施形態は、本発明方法のうちの1つを実行するためのコンピュータプログラムを受信機へ(例えば、電子的又は光学的に)伝達するように構成された装置又はシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス又はこれらに類似するものとすることができる。その装置又はシステムは、例えば、コンピュータプログラムを受信機へ伝達するためのファイルサーバを備えることができる。
【0112】
幾つかの実施形態において、本発明方法の機能のうちの幾つか、又は全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用することができる。幾つかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、本発明方法のうちの1つを実行するためにマイクロプロセッサと共働することができる。一般に、これらの方法は、好ましくは任意のハードウェア装置によって実行される。
【0113】
これまでに述べた実施形態は、単に、本発明の原理を例示するものである。本明細書に記述している装置及び詳細の変更及び変形が、他の当業者にとって明らかであることが理解される。したがって、本発明は、本明細書における実施形態の記述及び説明によって提示された特有の詳細ではなく、添付の特許請求の範囲によってのみ限定されることが意図される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13