【課題を解決するための手段】
【0007】
1つの態様において、本発明は、符号化済みのオーディオビットストリームを処理するよう構成された復号器を提供し、その復号器は、
ビットストリームから復号化済みオーディオ信号を導出するよう構成されたビットストリーム復号器であって、その復号化済みオーディオ信号が少なくとも1つの復号化済みフレームを含む、ビットストリーム復号器と、
復号化済みオーディオ信号内のノイズのレベル及び/又はスペクトル形状の推定を含むノイズ推定信号を生成するよう構成されたノイズ推定装置と、
ノイズ推定信号からコンフォートノイズ信号を導出するよう構成されたコンフォートノイズ生成装置と、
復号化済みオーディオ信号の復号化済みフレームとコンフォートノイズ信号とを結合してオーディオ出力信号を得るよう構成された結合部と、を含む。
【0008】
ビットストリーム復号器は、オーディオ情報を含むデジタルデータストリームである、オーディオビットストリームを復号化できる装置又はコンピュータプログラムであってもよい。復号化処理の結果として、デジタルの復号化済みオーディオ信号が生成され、これがA/D変換器へと供給されてアナログのオーディオ信号が生成され、その信号が次にラウドスピーカへと供給されて可聴信号が生成されてもよい。
【0009】
復号化済みオーディオ信号は所謂フレームへと分割され、これらフレームの各々が、ある時間区間に関連するオーディオ情報を含んでいる。そのようなフレームは、活性フレームと不活性フレームとに分類されてもよく、活性フレームとは、スピーチや音楽などのオーディオ情報の所望の成分を含むフレームであり、一方、不活性フレームとは、オーディオ情報の如何なる所望の成分をも含まないフレームである。不活性フレームは通常、音楽やスピーチなどの所望の成分が存在しないようなポーズ期間中に発生する。したがって、不活性フレームは通常は背景ノイズだけを含む。
【0010】
オーディオ信号の不連続な伝送(DTX)においては、不活性フレームの期間中、符号器はビットストリーム内にオーディオ信号を伝送しないので、ビットストリームを復号化することによって、復号化済みオーディオ信号の活性フレームだけが取得される。
【0011】
オーディオ信号の非不連続な伝送(non−DTX)においては、ビットストリームを復号化することによって、活性フレーム及び不活性フレームが取得される。
【0012】
ビットストリーム復号器によりビットストリームを復号化することで取得されるフレームは、復号化済みフレームと呼ばれる。
【0013】
ノイズ推定装置は、復号化済みオーディオ信号内のノイズのレベル及び/又はスペクトル形状の推定を含むノイズ推定信号を生成するよう構成されている。更に、コンフォートノイズ生成装置は、ノイズ推定信号からコンフォートノイズ信号を導出するよう構成されている。ノイズ推定信号は、復号化済みオーディオ信号内にパラメトリック形式で含まれているノイズの特性に関する情報を含む信号であってもよい。コンフォートノイズ信号とは、復号化済みオーディオ信号に含まれたノイズに対応する人工的なオーディオ信号である。これらの特徴により、ビットストリーム内の背景ノイズに関する如何なるサイド情報も必要とせずに、コンフォートノイズが実際の背景ノイズのように聴こえることができる。
【0014】
結合部は、復号化済みオーディオ信号の復号化済みフレームとコンフォートノイズ信号とを結合して、オーディオ出力信号を取得するよう構成されている。その結果、オーディオ出力信号は、人工的ノイズを含む復号化済みフレームを含む。復号化済みフレーム内の人工的ノイズにより、特にビットストリームが低ビットレートで伝送される場合に、オーディオ出力信号内のアーチファクトをマスキングできるようになる。それは、通常観測される揺らぎを平滑化し、その一方で、優勢な符号化アーチファクトをマスキングする。
【0015】
先行技術とは対照的に、本発明は、復号化済みフレームに対して人工的なコンフォートノイズを付加するという原理を適用する。本発明の概念は、DTX及び非DTXの両方のモードにおいて適用可能である。
【0016】
本発明は、低ビットレートで符号化されかつ伝送されるノイズの多いスピーチの品質を向上させる方法を提供する。低ビットレートでは、ノイズの多いスピーチ、即ち背景ノイズと一緒に録音されたスピーチの符号化は、通常、明瞭なスピーチの符号化ほど効率的でない。復号化された合成信号は、通常、アーチファクトを持つ傾向にある。2つの異なる種類の音源、即ちノイズとスピーチとは、単一音源モデルに依存する1つの符号化スキームによって効率的に符号化され得ない。本発明は、復号器側において背景ノイズをモデル化しかつ合成する概念を提供し、サイド情報を極少量しか必要としないか又は全く必要としない。このことは、背景ノイズのレベル及びスペクトル形状を復号器側で推定し、かつコンフォートノイズを人工的に生成することによって達成される。生成されたノイズは、復号化済みオーディオ信号と結合され、符号化アーチファクトのマスキングを可能にする。
【0017】
更に、本発明の概念は、符号器側において適用されるノイズ低減手法と組み合わせることができる。ノイズ低減は信号対ノイズ比(SNR)レベルを改善し、後続のオーディオ符号化の性能を向上させる。復号化済みオーディオ信号内のノイズの消失量は、次に復号器側でコンフォートノイズによって補償される。しかし、それは通常、より劣化した又は不自然に聴こえるものである。なぜなら、ノイズ低減がオーディオ成分を歪ませ、符号化アーチファクトに加えて、可聴の楽音ノイズアーチファクトを引き起こし得るからである。本発明の一つの特徴は、そのような不快な歪みを、復号器側でコンフォートノイズを付加することによりマスキングすることである。ノイズ低減手法を使用する場合、コンフォートノイズの付加はSNRを劣化させない。更に、コンフォートノイズが、ノイズ低減技術で典型的に生じる悩ましい楽音ノイズの大部分を隠蔽する。
【0018】
本発明の好ましい一実施形態において、復号化済みフレームは活性フレームである。この特徴は、コンフォートノイズの付加の原理を復号化済み活性フレームに拡張するものである。
【0019】
本発明の好ましい一実施形態において、復号化済みフレームは不活性フレームである。この特徴は、コンフォートノイズの付加の原理を復号化済み不活性フレームに拡張するものである。
【0020】
本発明の好ましい一実施形態において、ノイズ推定装置は、復号化済みオーディオ信号内のノイズのレベルとスペクトル形状とを含む分析信号を生成するよう構成されたスペクトル分析装置と、その分析信号に基づいてノイズ推定信号を生成するよう構成されたノイズ推定生成装置と、を含む。
【0021】
本発明の好ましい一実施形態において、コンフォートノイズ生成装置は、ノイズ推定信号に基づいて周波数ドメインのコンフォートノイズ信号を生成するよう構成されたノイズ生成部と、その周波数ドメインのコンフォートノイズ信号に基づいてコンフォートノイズ信号を生成するよう構成されたスペクトル合成部と、を含む。
【0022】
本発明の好ましい一実施形態において、復号器は、第1操作モード又は第2操作モードへとニ者択一的に復号器を切り替えるよう構成されたスイッチ装置を含み、第1操作モードにおいてはコンフォートノイズ信号が結合部へと供給され、一方、第2操作モードにおいてはコンフォートノイズ信号が結合部に供給されない。これらの特徴により、人工的なコンフォートノイズが不要な状況下では人工的なコンフォートノイズの使用を中止させることが可能になる。
【0023】
本発明の好ましい一実施形態において、復号器は、スイッチ装置を自動的に制御するよう構成された制御装置を含み、その制御装置は、復号化済みオーディオ信号の信号対ノイズ比に依存してスイッチ装置を制御するよう構成されたノイズ検出部を含み、復号器は、信号対ノイズ比が低い状況下では第1操作モードへと切り替えられ、信号対ノイズ比が高い状況下では第2操作モードへと切り替えられる。これらの特徴により、コンフォートノイズは、ノイズの多いスピーチシナリオにおいてだけトリガーされることができ、明瞭なスピーチ又は明瞭な音楽の状況においてはトリガーされない。信号対ノイズ比が低い状況と信号対ノイズ比が高い状況とを区別する目的で、信号対ノイズ比の閾値が定義され使用されてもよい。
【0024】
本発明の好ましい一実施形態において、制御装置は、ビットストリーム内に含まれた、復号化済みオーディオ信号の信号対ノイズ比に対応するサイド情報を受信し、かつ、ノイズ検出信号を生成するよう構成されたサイド情報受信部を含み、ノイズ検出部はそのノイズ検出信号に依存してスイッチ装置を制御する。これらの特徴により、受信されたビットストリームを生成及び/又は処理する外部装置によって実行された信号分析に基づいて、スイッチ装置を制御することが可能になる。その外部装置は、特に、ビットストリームを生成している符号器であってもよい。
【0025】
本発明の好ましい一実施形態において、復号化済みオーディオ信号の信号対ノイズ比に対応するサイド情報は、ビットストリーム内の少なくとも1つの専用ビットから構成される。一般的に、専用ビットとは、それ単独で、又は他の専用ビットと共に、定義された情報を含む1つのビットのことである。ここでは、専用ビットは、信号対ノイズ比が所定の閾値より上か下かを示してもよい。
【0026】
本発明の好ましい一実施形態において、制御装置は、復号化済みオーディオ信号の所望信号のエネルギーを決定するよう構成された所望信号エネルギー推定部と、復号化済みオーディオ信号のノイズのエネルギーを決定するよう構成されたノイズエネルギー推定部と、所望信号のエネルギー及びノイズのエネルギーに基づいて復号化済みオーディオ信号の信号対ノイズ比を決定するよう構成された信号対ノイズ比推定部と、を含み、スイッチ装置はこの制御装置によって決定された信号対ノイズ比に依存して切り替えられる。この場合、ビットストリーム内のサイド情報は必要でない。所望信号のエネルギーは通常、復号化済み信号のノイズのエネルギーより大きいので、所望信号のエネルギーとノイズのエネルギーとを含む復号化済みオーディオ信号の全エネルギーによって、復号化済みオーディオ信号の所望信号のエネルギーの粗い推定が得られる。この理由により、信号対ノイズ比は、復号化済みオーディオ信号の全エネルギーを復号化済み信号のノイズのエネルギーで除算することにより、近似的に計算されてもよい。
【0027】
本発明の好ましい一実施形態において、ビットストリームは活性フレームと不活性フレームとを含み、制御装置は、復号化済みオーディオ信号の所望信号のエネルギーを活性フレームの期間中に決定し、復号化済みオーディオ信号のノイズのエネルギーを不活性フレームの期間中に決定するよう構成されている。これにより、信号対ノイズ比を推定するときの高度な正確性が容易な方法で達成され得る。
【0028】
本発明の好ましい一実施形態において、ビットストリームは活性フレームと不活性フレームとを含み、復号器はサイド情報受信部を含み、そのサイド情報受信部は、現在のフレームが活性か不活性かを示すビットストリーム内のサイド情報に基づいて、活性フレームと不活性フレームとを区別するよう構成されている。この特徴により、活性フレーム又は不活性フレームはそれぞれ、計算労力なく識別され得る。
【0029】
本発明の好ましい一実施形態において、現在のフレームが活性か不活性かを示すサイド情報は、ビットストリーム内の少なくとも1つの専用ビットから構成される。
【0030】
本発明の好ましい一実施形態において、制御装置は、復号化済みオーディオ信号の所望信号のエネルギーを分析信号に基づいて決定するよう構成されている。この場合、通常はノイズ推定の目的で計算されるべき分析信号が再使用されることができ、その結果、複雑さが低減され得る。
【0031】
本発明の好ましい一実施形態において、制御装置は、復号化済みオーディオ信号のノイズのエネルギーをノイズ推定信号に基づいて決定するよう構成されている。そのような実施形態においては、典型的にはコンフォートノイズ生成の目的で計算されるべきノイズ推定信号が再使用されることができ、その結果、複雑さが更に低減され得る。
【0032】
本発明の好ましい一実施形態において、コンフォートノイズ生成装置は、目標コンフォートノイズレベル信号に基づいてコンフォートノイズ信号を生成するよう構成されている。付加されるコンフォートノイズのレベルは、了解度と品質を保存するために制限される必要がある。この点については、事前に決定された目標ノイズレベルを示す目標ノイズ信号を使用してコンフォートノイズをスケールすることで達成可能である。
【0033】
本発明の好ましい一実施形態において、目標コンフォートノイズレベル信号は、ビットストリームのビットレートに依存して調整される。典型的に、復号化済みオーディオ信号は、特に符号化アーチファクトが最も激しい低ビットレートにおいて、オリジナル入力信号よりも高い信号対ノイズ比を示す。スピーチ符号化におけるノイズレベルのこのような減衰は、入力としてスピーチを有することを想定しているソースモデルパラダイムに起因する。その他の場合には、そのソースモデルの符号化は全く適切ではなく、非スピーチ成分の全体エネルギーを再生できないであろう。それ故、目標コンフォートノイズレベル信号は、符号化プロセスによって固有に導入されたノイズ減衰を大まかに補償するために、ビットレートに依存して調整されてもよい。
【0034】
本発明の好ましい一実施形態において、目標コンフォートノイズレベル信号は、ビットストリームに適用されたノイズ低減法によって引き起こされたノイズ減衰レベルに依存して調整される。この特徴により、符号器内のノイズ低減モジュールによって引き起こされたノイズ減衰が補償され得る。
【0035】
本発明の好ましい一実施形態において、ランダムノイズw(k)の周波数ドメインのコンフォートノイズ信号のエネルギーは、目標コンフォートノイズレベル信号に依存して調整される。その目標コンフォートノイズレベル信号は目標コンフォートノイズレベルg
tarを示し、各周波数kについて次式の通りである。
【数1】
【0036】
ここで、
は、周波数kにおける復号化済みオーディオ信号のノイズのエネルギーの推定値であり、ノイズ推定生成装置によって供給されたものである。これらの特徴により、出力信号の了解度及び品質が向上され得る。
【0037】
本発明の好ましい実施形態において、復号器は更なるビットストリーム復号器を含み、前記ビットストリーム復号器とその更なるビットストリーム復号器とは異なるタイプのものであり、復号器はスイッチを含み、そのスイッチは、ビットストリーム復号器からの復号化済み信号、又は更なるビットストリーム復号器からの復号化済み信号のいずれかを、ノイズ推定装置と結合部とに供給するよう構成されている。ビットストリーム復号器を使用する場合と同様に、更なるビットストリーム復号器を使用する場合でも、コンフォートノイズの付加が実行されるので、ビットストリーム復号器と更なるビットストリーム復号器とを切り替えるときの遷移アーチファクトは最小化され得る。例えば、ビットストリーム復号器は代数符号励振線形予測(ACELP)ビットストリーム復号器であってもよく、他方、更なるビットストリーム復号器は変換ベースのコア(TCX)ビットストリーム復号器であってもよい。
【0038】
本発明は更に、オーディオビットストリームを生成するよう構成されたオーディオ信号処理符号器を提供し、その符号器は、
オーディオ入力信号に対応する符号化済みオーディオ信号を生成し、その符号化済みオーディオ信号からビットストリームを導出するよう構成されたビットストリーム符号器と、
所望信号エネルギー推定部により決定されたオーディオ信号の所望信号のエネルギーと、ノイズエネルギー推定部により決定されたオーディオ入力信号のノイズのエネルギーとに基づいて、オーディオ入力信号の信号対ノイズ比を決定するよう構成された信号対ノイズ比推定部を有する、信号分析部と、
ノイズ低減済みオーディオ信号を生成するよう構成されたノイズ低減装置と、
オーディオ入力信号の決定された信号対ノイズ比に依存して、オーディオ入力信号又はノイズ低減済みオーディオ信号のいずれかを、これら各信号を符号化するために、ビットストリーム符号器に対して供給するよう構成されたスイッチ装置であって、ビットストリーム符号器は、オーディオ入力信号又はノイズ低減済みオーディオ信号のどちらが符号化されているかを示すサイド情報を、ビットストリーム内で伝送するよう構成されている、スイッチ装置と、を含む。
【0039】
ビットストリーム符号器は、オーディオ情報を含むデジタルデータ信号であるオーディオ信号を符号化できる装置またはコンピュータプログラムであってもよい。符号化処理の結果、デジタルビットストリームが生成され、それがデジタルデータリンクを介して遠位の復号器へと伝送されてもよい。
【0040】
オーディオ入力信号はビットストリーム符号器によって直接的に符号化される。ビットストリーム符号器は、スピーチ符号器であってもよいし、スピーチコーダACELPと変換ベースのオーディオコーダTCXとの間を切り替える低遅延のスキームであってもよい。ビットストリーム符号器は、オーディオ入力信号を符号化し、さらにそのオーディオ信号を復号化するために必要なビットストリームを生成する役割を担う。これと並行して、入力信号は、信号分析器と称される何らかのモジュールによって分析される。好ましい一実施形態において、その信号分析はG.718において使用されているものと同じである。信号分析は、スペクトル分析装置と、それに続くノイズ推定生成装置とにより構成されている。オリジナル信号と推定されたノイズとの両方のスペクトルがノイズ低減モジュールに入力される。ノイズ低減は、周波数ドメインにおいて背景ノイズレベルを減衰させる。その低減量は、目標減衰レベルによって与えられる。強化された時間ドメイン信号(ノイズ低減済みオーディオ信号)は、スペクトル合成の後で生成される。その信号は、幾つかの特徴、即ち活性フレームと不活性フレームとを区別するためにVADにより活用されるピッチ安定度など、を推論するために使用される。その分類の結果は、符号器モジュールによってさらに利用されてもよい。好ましい実施形態において、特定の符号化モードが不活性フレームを取り扱うために使用される。このようにして、復号器は、専用ビットを必要とせずに、ビットストリームからVADフラグを推論できる。
【0041】
ノイズのない状態(明瞭なスピーチ又は明瞭な音楽)における不要な歪みを回避するために、ノイズ低減はノイズの多いスピーチの場合にのみ適用され、その他の場合には迂回される。ノイズが多い信号とノイズが無い信号との間の区別は、ノイズと所望信号(スピーチ又は音楽)との両者の長期間エネルギーを推定することで達成される。活性フレームの期間中は、長期間エネルギーは入力フレームエネルギーの一次の自己回帰フィルタリングにより計算され、一方で不活性フレームの期間中は、長期間エネルギーはノイズ推定モジュールの出力を使用して計算される。このようにして信号対ノイズ比の推定が計算されることができ、その推定はノイズの長期間エネルギーに対するスピーチ又は音楽の長期間エネルギーの比として定義される。信号対ノイズ比が所定の閾値を下回る場合、そのフレームはノイズの多いスピーチとして認識され、その他の場合には明瞭なスピーチとして分類される。ビットストリーム符号器は、オーディオ入力信号又はノイズ低減済みオーディオ信号のいずれが符号化されているかを示すサイド情報を、ビットストリームの中で伝送するよう構成されているため、復号器は、目標コンフォートノイズレベル信号を、符号器の操作モードに対して自動的に調整することができる。
【0042】
本発明の好ましい一実施形態において、活性フレームの期間中に、長期間のスピーチ/音楽エネルギー推定だけが更新される。不活性フレームの期間中には、ノイズエネルギー推定だけが更新される。
【0043】
本発明は更に、オーディオ信号処理復号器とオーディオ信号処理符号器とを含むシステムを提供し、その復号器は特許請求の範囲に従って設計されており、及び/又はその符号器は特許請求の範囲に従って設計されている。
【0044】
本発明の他の態様は、オーディオビットストリームを復号化する方法を提供し、その方法は、
ビットストリームから復号化済みオーディオ信号を導出するステップであって、その復号化済みオーディオ信号が少なくとも1つの復号化済みフレームを含む、ステップと、
復号化済みオーディオ信号内のノイズのレベル及び/又はスペクトル形状の推定を含むノイズ推定信号を生成するステップと、
ノイズ推定信号からコンフォートノイズ信号を導出するステップと、
復号化済みオーディオ信号の復号化済みフレームとコンフォートノイズ信号とを結合してオーディオ出力信号を得るステップと、
を含む。
【0045】
本発明は、オーディオビットストリームを生成するためのオーディオ信号符号化の方法を更に提供し、その方法は、
オーディオ入力信号の所望信号の決定されたエネルギーとオーディオ入力信号のノイズの決定されたエネルギーとに基づいて、オーディオ入力信号の信号対ノイズ比を決定するステップと、
ノイズ低減済みオーディオ信号を生成するステップと、
オーディオ入力信号と対応する符号化済みオーディオ信号を生成するステップであって、オーディオ入力信号の決定された信号対ノイズ比に依存して、オーディオ入力信号とノイズ低減済みオーディオ信号とのいずれかを符号化するステップと、
符号化済みオーディオ信号からビットストリームを導出するステップと、
オーディオ入力信号又はノイズ低減済みオーディオ信号のいずれが符号化されているかを示すサイド情報を、ビットストリーム内で伝送するステップと、
を含む。
【0046】
本発明は、更に、上述の方法に従って生成されたビットストリームを提供する。特許請求の範囲に記載のビットストリームは、オーディオ入力信号又はノイズ低減済みオーディオ信号のいずれが符号化されているかを示すサイド情報を含む。
【0047】
本発明の更なる態様は、コンピュータ又はプロセッサ上で作動するときに、本発明の方法を実行するコンピュータプログラムを提供する。
【0048】
本発明の好ましい実施形態を、添付の図を参照しながら以下に説明する。