(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6626123
(24)【登録日】2019年12月6日
(45)【発行日】2019年12月25日
(54)【発明の名称】オーディオ信号を符号化するためのオーディオエンコーダー及び方法
(51)【国際特許分類】
G10L 19/08 20130101AFI20191216BHJP
G10L 19/13 20130101ALI20191216BHJP
【FI】
G10L19/08 Z
G10L19/13
【請求項の数】21
【全頁数】20
(21)【出願番号】特願2017-553058(P2017-553058)
(86)(22)【出願日】2016年4月6日
(65)【公表番号】特表2018-511086(P2018-511086A)
(43)【公表日】2018年4月19日
(86)【国際出願番号】EP2016057514
(87)【国際公開番号】WO2016162375
(87)【国際公開日】20161013
【審査請求日】2017年12月11日
(31)【優先権主張番号】15163055.5
(32)【優先日】2015年4月9日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ベックシュトレーム トム
(72)【発明者】
【氏名】ジョキネン エマ
【審査官】
山下 剛史
(56)【参考文献】
【文献】
国際公開第2008/032828(WO,A1)
【文献】
米国特許出願公開第2002/0116182(US,A1)
【文献】
特開2001−109496(JP,A)
【文献】
米国特許出願公開第2014/0214413(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
(57)【特許請求の範囲】
【請求項1】
オーディオ信号(104)に基づいて、符号化された表現(102)を提供するためのオーディオエンコーダー(100)であって、前記オーディオエンコーダー(100)は、前記オーディオ信号(104)に含まれるノイズを記述するノイズ情報(106)を取得するように構成され、前記オーディオエンコーダー(100)は、前記ノイズ情報(106)に応じて、前記オーディオ信号(104)に含まれる前記ノイズによる影響がより大きい前記オーディオ信号(104)の部分よりも、前記オーディオ信号(104)に含まれる前記ノイズによる影響がより小さい前記オーディオ信号(104)の部分の方が、符号化精度がより高くなるように、前記オーディオ信号(104)を適応的に符号化するように構成され、
前記オーディオ信号(104)は音声信号であり、前記オーディオエンコーダー(100)は、前記音声信号(104)から残差信号(120)を導き出して、コードブック(122)を使用して前記残差信号(120)を符号化するように構成され、
前記オーディオエンコーダー(100)は、前記ノイズ情報(106)に応じて前記残差信号(120)を符号化するために、コードブック(122)の複数のコードブックエントリの中からコードブックエントリを選択するように構成され、
前記オーディオエンコーダー(100)は、知覚的な重み付けフィルタ(W)を使用して前記コードブックエントリを選択するように構成され、
前記オーディオエンコーダー(100)は、前記ノイズによる影響がより大きい前記音声信号(104)の部分よりも、前記ノイズによる影響がより小さい前記音声信号(104)の部分の方が、前記コードブックエントリの前記選択のためにより加重が付けられるように、前記知覚的な重み付けフィルタ(W)を調節するように構成され、
前記オーディオエンコーダー(100)は、前記知覚的な重み付けフィルタ(W)によって重み付けされた前記残差信号(126)の合成され重み付けられた量子化エラーが減少する又は最小化するように、前記残差信号(120)のための前記コードブックエントリを選択するように構成される、オーディオエンコーダー(100)。
【請求項2】
前記オーディオエンコーダー(100)は、前記ノイズ情報(106)に応じて、前記オーディオ信号(104)を符号化するために使用される知覚的な目的関数を調節することによって、前記オーディオ信号(104)を適応的に符号化するように構成される、請求項1に記載するオーディオエンコーダー(100)。
【請求項3】
前記オーディオエンコーダー(100)は、前記ノイズ情報(106)に応じて前記オーディオ信号(104)を適応的に符号化することによって、前記オーディオ信号(104)を符号化すると同時に、前記オーディオ信号(104)の前記符号化された表現(102)における前記ノイズを減らすように構成される、請求項1ないし請求項2の1つに記載するオーディオエンコーダー(100)。
【請求項4】
前記ノイズ情報(106)は信号対ノイズ比である、請求項1ないし請求項3の1つに記載するオーディオエンコーダー(100)。
【請求項5】
前記ノイズ情報(106)は前記オーディオ信号(104)に含まれる前記ノイズの推定形状である、請求項1ないし請求項3の1つに記載するオーディオエンコーダー(100)。
【請求項6】
前記オーディオエンコーダー(100)は、前記音声信号に対する声道の寄与を推定し、前記残差信号(120)を得るために、前記声道の前記推定された寄与を前記音声信号(104)から取り除くように構成される、請求項1ないし請求項5の1つに記載するオーディオエンコーダー(100)。
【請求項7】
前記オーディオエンコーダー(100)は、線形予測を使用して、前記音声信号(104)に対する前記声道の前記寄与を推定するように構成される、請求項6に記載するオーディオエンコーダー(100)。
【請求項8】
前記オーディオエンコーダーは、前記コードブックエントリの前記選択に対する前記ノイズの影響が低減されるように、前記知覚的な重み付けフィルタ(W)を調節するように構成される、請求項1ないし請求項7の1つに記載するオーディオエンコーダー(100)。
【請求項9】
前記オーディオエンコーダー(100)は、前記ノイズによる影響がより小さい前記残差信号(120)の前記部分と、量子化された残差信号(126)の前記対応する部分との間のエラーが低減されるように、前記知覚的な重み付けフィルタ(W)を調節するように構成される、請求項1ないし請求項8の1つに記載するオーディオエンコーダー(1
00)。
【請求項10】
前記オーディオエンコーダー(100)は、前記残差信号(120、x)のための前記コードブックエントリを、前記知覚的な重み付けフィルタ(W)で重み付けされた前記残差信号の合成され重み付けられた量子化エラーが低減するように、選択するように構成される、請求項1ないし請求項9の1つに記載するオーディオエンコーダー(100)。
【請求項11】
【請求項12】
前記オーディオエンコーダーは、前記ノイズ情報として、音声区間検出のために前記オーディオエンコーダーで得られる前記ノイズの形状の推定を使用するように構成される、請求項1ないし請求項11の1つに記載するオーディオエンコーダー(100)。
【請求項13】
【請求項14】
【請求項15】
オーディオ信号に基づいて符号化された表現を提供するための方法であって、
前記オーディオ信号に含まれるノイズを記述するノイズ情報を得るステップと、
前記ノイズ情報に応じて、前記オーディオ信号に含まれる前記ノイズによる影響がより大きい前記オーディオ信号の部分よりも、前記オーディオ信号に含まれる前記ノイズによる影響がより小さい前記オーディオ信号の部分の方が、符号化精度がより高くなるように、前記オーディオ信号を適応的に符号化するステップであって、前記ノイズによる損傷が少ない周波数成分はより少ないエラーで量子化されるのに対して、前記ノイズからのエラーを含む可能性がある成分は、前記量子化過程においてより低い重みを有するステップと、
前記オーディオ信号(104)は音声信号であり、
前記音声信号(104)から前記残差信号(120)を導き出して、コードブック(122)を使用して前記残差信号(120)を符号化するステップと、
前記ノイズ情報(106)に応じて前記残差信号(120)を符号化するために、コードブック(122)の複数のコードブックエントリの中からコードブックエントリを選択するステップと、
知覚的な重み付けフィルタ(W)を使用して前記コードブックエントリを選択するステップと、
前記ノイズによる影響がより大きい前記音声信号(104)の部分よりも、前記ノイズによる影響がより小さい前記音声信号(104)の部分の方が、コードブックエントリの選択のためにより加重が付けられるように、前記知覚的な重み付けフィルタ(W)を調節するステップと、
前記知覚的な重み付けフィルタ(W)によって重み付けされた前記残差信号(126)の合成され重み付けられた量子化エラーが減少する又は最小化するように、前記残差信号(120)のための前記コードブックエントリを選択するステップを含む、方法。
【請求項16】
請求項15に記載する方法を実行するコンピュータプログラムを記憶したコンピュータ可読デジタル記憶媒体。
【請求項17】
オーディオ信号(104)に基づいて、符号化された表現(102)を提供するためのオーディオエンコーダー(100)であって、前記オーディオエンコーダー(100)は、背景ノイズを記述するノイズ情報(106)を得るように構成され、前記オーディオエンコーダー(100)は、前記オーディオ信号(104)を符号化するために使用される知覚的な重み付けフィルタを前記ノイズ情報に応じて調節することによって、前記ノイズ情報(106)に応じて前記オーディオ信号(104)を適応的に符号化するように構成され、
前記オーディオ信号(104)は音声信号であり、前記オーディオエンコーダー(100)は、前記音声信号(104)から前記残差信号(120)を導き出して、コードブック(122)を使用して前記残差信号(120)を符号化するように構成され、
前記オーディオエンコーダー(100)は、前記ノイズ情報(106)に応じて前記残差信号(120)を符号化するために、コードブック(122)の複数のコードブックエントリの中からコードブックエントリを選択するように構成され、
前記オーディオエンコーダー(100)は、ノイズによる影響がより大きい前記音声信号(104)の部分よりも、ノイズによる影響がより小さい前記音声信号(104)の部分の方が、コードブックエントリの選択のためにより加重が付けられるように、前記知覚的な重み付けフィルタ(W)を調節するように構成され、
前記オーディオエンコーダー(100)は、前記知覚的な重み付けフィルタ(W)によって重み付けされた前記残差信号(126)の合成され重み付けられた量子化エラーが減少する又は最小化するように、前記残差信号(120)のためのコードブックエントリを選択するように構成される、オーディオエンコーダー(100)。
【請求項18】
【請求項19】
【請求項20】
【請求項21】
【発明の詳細な説明】
【技術分野】
【0001】
実施の形態は、オーディオ信号に基づいて符号化された表現を提供するためのオーディオエンコーダーに関する。更なる実施の形態は、オーディオ信号に基づいて符号化された表現を提供するための方法に関する。いくつかの実施の形態は、知覚的な音声やオーディオ符号器の低遅延、低複雑性、遠端ノイズ抑制に関する。
【背景技術】
【0002】
音声及びオーディオ符号器の現在の問題は、音響の入力信号が、背景ノイズ及び他のアーチファクトによって、歪まされる有害な環境で使用されることである。これは、いくつかの問題を引き起こす。符号器は、望まれた信号及び望まれていない歪みの両方とも符号化しなければならないので、コーディングの問題は、信号が2つのソースから成るため、より複雑となり、符号化の品質を減少させるだろう。しかし、たとえ単一クリーン信号として同じ品質を有する2つの経路の結合を符号化したとしても、音声部分は、クリーン信号よりもより低い品質であるだろう。失われた符号化の品質は、知覚的にいらいらさせるだけでなく、重要なことに、聴取努力を増加させ、最悪の場合、明瞭度を低下させ、又は復号化された信号の聴取努力を増加させる。
【0003】
国際公開第2005/031709号は、コードブックゲインを修正することによって、ノイズ低減を適用する音声コーディング方法を示す。詳細には、音声成分及びノイズ成分を含む音響信号は、合成法による分析を使用することによって符号化され、音響信号を符号化するために、合成された信号は、時間的な間隔のために音響信号と比較され、前記合成された信号は、固定されたコードブックや関連する固定されたゲインを使用することによって、説明される。
【0004】
米国出願公開特許第2011/076968号は、低減されたノイズ音声コーディングを有する通信機器を示す。通信機器は、メモリ、入力インターフェース、処理モジュール及びトランスミッターを含む。処理モジュールは、デジタル信号を入力インターフェースから受信し、デジタル信号は、望まれたデジタル信号成分、及び、望まれていないデジタル信号成分を含む。処理モジュールは、望まれていないデジタル信号成分に基づいて、複数のコードブックの1つを識別する。処理モジュールは、その後、選択されたコードブックエントリを生じさせるために、望まれたデジタル信号成分に基づいて複数のコードブックの1つからコードブックエントリを識別する。処理モジュールは、その後、選択されたコードブックエントリに基づいて、コード化された信号を生成し、コード化された信号は、望まれたデジタル信号成分の実質的に低減していない表現及び望まれていないデジタル信号成分の低減した表現を含む。
【0005】
米国出願公開特許第2001/001140号は、音声符号化への適用による音声強調へのモジュラーアプローチを示す。音声符号器は、入力デジタル化音声を、区間ごとに構成成分に分離する。構成成分は、ゲイン成分と、スペクトル成分と、励起信号成分とを含む。音声符号器を有する音声強調システムのセットは、各構成成分が、識別された音声強調処理自身を有するような構成成分を処理する。例えば、1つの音声強調処理が、スペクトル成分を分析するために適用され、他の音声強調処理は、励起信号成分を分析するために使用しうる。
【0006】
米国登録特許5,680,508号は、低率の音声符号器に対する背景ノイズにおいて音声コーディングの強調を開示する。音声コーディングシステムは、音声フレームのロバスト特性を測定し、その分布は、ノイズ環境で発生する入力音声に対する音声認識の決定をさせるためにノイズ/レベルによって強く影響されない。ロバスト特性及びそれぞれの重みの直線プログラミング分析は、これらの特徴の最適化された直線結合を決定するのに使用される。入力音声ベクトルは、対応する、最適に一致するコードワードを選択するために、コードワードの語彙と一致させる。適応ベクトル量子化は、静かな環境で得られるワードの語彙が、入力音声によって発生するノイズ環境のノイズ推定に基づいて上書きされ、「ノイズの多い」語彙が、その後入力音声ベクトルと最も一致するように検索する。一致するクリーンコードワードインデックスは、その後、送信するため、及び、受信の最後で合成するため選択される。
【0007】
米国出願公開特許第2006/116874号は、ノイズ依存のポストフィルタリングを示す。方法は、音響ノイズと、音声信号において音声コーディングによって引き起こされる歪みとを減らすために、音声コーディングによって引き起こされる歪みの低減に適したフィルタを提供するステップと、音声信号において音響ノイズを推定するステップと、適用されたフィルタを得るために、推定された音響ノイズに応答してフィルタを適用するステップと、適応したフィルタを音声信号に適用するステップとを伴う。
【0008】
米国登録特許6,385,573号は、合成された音声残差に対する適応チルト補償を示す。マルチレート音声符号器は、通信チャンネルの制限と一致させるために、ビットレートモデルを符号化することを適応的に選択することによって、複数の符号化されたビットレートモデルをサポートする。高いビットレートの符号化モデルにおいて、CELP(コード励起線形予測)と他の関連するモデルのパラメータとを通して音声の正確な表現は、高品質の復号化と再生のために生成される。低いビットレートの符号化モデルにおいて、高い品質に達するために、音声エンコーダーは、標準のCELP符号器の基準と一致する厳格な波形から分離し、入力信号の重大な知覚的な特徴を識別する努力をする。
【0009】
米国登録特許5,845,244号は、知覚的な重み付けを実行する合成による分析において、ノイズマスキングレベルを適応することに関する。短期の知覚的な重み付けフィルタを実行する合成による分析音声符号器において、スペクトル拡張係数の値は、短期の線形予測分析の間に得られるスペクトルパラメータに基づいて、動的に適応される。この適応に役立つスペクトルパラメータは、音声信号のスペクトルの全体的な勾配を表すパラメータと、短期の合成フィルタの共鳴特性を表すパラメータとを特に備える。
【0010】
米国登録特許4,133,976号は、低減されたノイズ効果を有する予測された音声信号コーディングを示す。予測音声信号プロセッサーは、量子化器周辺のフィードバックネットワークにおいて、適応フィルタを特徴として備える。適応フィルタは、量子化ノイズが音声信号フォルマントによってマスクされるように、量子化エラー信号と、予測パラメータ信号に関連したフォルマントと、音声スペクトルの時変フォルマント部分に対応するスペクトルのピークにおいて量子化されたエラーノイズに集中する差分信号と、を本質的に結合する。
【0011】
国際公開第9425959号は、音声合成システムの品質又はより低いビットレートを改善するための聴覚モデルの使用を示す。重み付けフィルタは、音響心理学的領域内の最適な確率的コードベクトルの探索を可能にする聴覚モデルと置き換えられる。PERCELP(知覚的に強化されたランダムコードブック励起線形予測のため)と呼ばれるアルゴリズムは、重み付けフィルタで得られるよりもかなり良い品質の音声を生成することが開示されている。
【0012】
米国出願公開特許第2008/312916号は、強化されたインテリジェント信号を生成するための入力音声信号を処理する受信機明瞭強化システムを示す。周波数領域において、遠端から受信される音声のFFTスペクトルは、強化されたインテリジェント信号を生成するために、局所的な背景ノイズのLPCスペクトルにしたがって、修正される。時間領域において、音声は、強化されたインテリジェント信号を生成するために、ノイズのLPC係数にしたがって修正される。
【0013】
米国出願公開特許第2013/030800号は、フォルマント位置を適応的に識別し、追跡する適応された音声明瞭プロセッサーを示し、したがって、フォルマントが変化する際にフォルマントを強調することができる。結果として、これらのシステム及び方法は、ノイズ環境においてさえ、近端の明瞭度を改善することができる。
【0014】
[Atal, Bishnu S., and Manfred R. Schroeder. "Predictive coding of speech signals and subjective error criteria". Acoustics, Speech and Signal Processing, IEEE Transactions on 27.3 (1979): 247-254]において、音声信号のための予測符号器で、独自の歪みを減らすための方法が、記載され、評価される。改善された音声品質は、1)量子化前にフォルマント及びピッチ関連の冗長な音声構造の効率的な除去によって、及び、2)音声信号によって量子化されたノイズの効果的なマスキングによって得られる。
【0015】
[Chen, Juin-Hwey and Allen Gersho. "Real-time vector APC speech coding at 4800 bps with adaptive postfiltering". Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP'87.. Vol. 12, IEEE, 1987] において、改善されたベクトルAPC(VAPC)音声符号器が提示され、APCとベクトル量子化を組み合わせ、合成による分析、知覚的ノイズ重み付け、及び、適応的なポストフィルタリングを組み込む。
【発明の概要】
【発明が解決しようとする課題】
【0016】
本発明の目的は、音響入力信号が、背景ノイズ及び他のアーチファクトによって歪まされるとき、聴取努力を低減すること、又は信号の質を改善すること、又は復号化された信号の明瞭度を増すことに対する概念を提供することである。
【0017】
この目的は、独立請求項によって解決される。
【0018】
有利な実装は、従属請求項によって対処される。
【課題を解決するための手段】
【0019】
実施の形態は、オーディオ信号に基づいて、符号化された表現を提供するためのオーディオエンコーダーを提供する。オーディオエンコーダーは、オーディオ信号に含まれるノイズを記述するノイズ情報を得るように構成され、オーディオエンコーダーは、ノイズ情報に応じて、オーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分よりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分の方が、符号化精度がより高くなるように、オーディオ信号を適応的に符号化するように構成される。
【0020】
本発明の概念によると、ノイズによる影響がより大きい(例えば、より低い信号対ノイズを有する)オーディオ信号の部分に対してよりも、ノイズによる影響がより小さい(例えば、より高い信号対ノイズ比を有する)オーディオ信号のこれらの部分に対して、より高い符号化精度を得るために、オーディオエンコーダーは、オーディオ信号に含まれるノイズを記述するノイズ情報に応じて、オーディオ信号を適応的に符号化する。
【0021】
通信符号器は、望まれた信号が、背景ノイズによって損傷した環境で頻繁に動作する。本明細書において開示される実施の形態は、センダー/エンコーダー側の信号が、コード化前に既に背景ノイズを有する状況に対処する。
【0022】
例えば、いくつかの実施の形態によると、符号器の知覚目的関数を修正することによって、より高い信号対ノイズ比(SNR)を有する信号のこれらの部分のコード化精度は、増加しうり、したがって、信号のノイズがない部分の品質を保持する。信号の高いSNR部分を保存することによって、送信信号の明瞭度は改善され、聴取努力は減少しうる。従来のノイズ抑制アルゴリズムは、処理前のブロックとして符号器へ実装されているが、現在の方法は、2つの直接的な利点を有する。1つ目に、ジョイントノイズ抑制及びタンデム符号化により、抑制の影響及びコーディングを回避することができる。2つ目に、提案されたアルゴリズムは、知覚目的関数の修正として実装しうるので、計算の複雑性が非常に低い。更に、通信符号器は、いずれの場合もコンフォートノイズ発生器に対して背景ノイズを推定することが多く、ノイズ推定が符号器で既に利用可能であり、余計な計算コストなしで(ノイズ情報として)使用しうる。
【0023】
更なる実施の形態は、オーディオ信号に基づいて、符号化された表現を提供するための方法に関する。符号化精度が、オーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分に対してよりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分に対してより高くなるように、方法は、オーディオ信号に含まれるノイズを記述するノイズ情報を得ること、及び、ノイズ情報に応じてオーディオ信号を適応的に符号化することを備える。
【0024】
更なる実施の形態は、オーディオ信号の符号化された表現を運ぶデータストリームに関し、オーディオ信号の符号化された表現は、オーディオ信号に含まれるノイズを記述するノイズ情報に応じてオーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分よりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分の方が、符号化精度がより高くなるように、オーディオ信号を適応的にコード化する。
【0025】
本発明の実施の形態は、添付している図を参照して、本願明細書に記載される。
【図面の簡単な説明】
【0026】
【
図1】
図1は、本発明の実施の形態に従う、オーディオ信号に基づいて符号化された表現を提供するためのオーディオエンコーダーの概略的なブロック図を示す。
【
図2a】
図2aは、本発明の実施の形態に従う、音声信号に基づいて符号化された表現を提供するためのオーディオエンコーダーの概略的なブロック図を示す。
【
図2b】
図2bは、本発明の実施の形態に従う、コードブックエントリ決定器の概略的なブロック図を示す。
【
図3】
図3は、ノイズの推定値の大きさと、周波数に渡ってプロットされたノイズに対する再構成されたスペクトルとを示す図である。
【
図4】
図4は、周波数に渡ってプロットされた異なる予測順序に対するノイズの線形予測適合の大きさを示す図である。
【
図5】
図5は、オリジナルの重み付けフィルタの逆数の大きさと、周波数に渡ってプロットされた異なる予測順序を有する提案された重み付けフィルタの逆数の大きさとを示す図である。
【
図6】
図6は、本発明の実施の形態に従う、オーディオ信号に基づいて符号化された表現を提供するための方法のフローチャートを示す。
【発明を実施するための形態】
【0027】
等しい若しくは等価である要素、又は等しい若しくは等価である機能を有する要素は、等しい若しくは等価の参照番号によって、後に説明される。
【0028】
後の説明において、複数の詳細は、本発明の実施の形態の説明を通してより多くのものを提供するために、述べられる。しかしながら、当業者にとって、本発明の実施の形態は、これらの特定の詳細なしで実行しうることは明らかであろう。他の例では、本発明の実施の形態を不明瞭となることを避けるため、周知の構造や機器は、詳細よりもむしろブロック図で示す。加えて、以下に説明する異なる実施の形態の特徴は、特に明記しない限り、互いに組合しうる。
【0029】
図1は、オーディオ信号104に基づく符号化された表現(又は、符号化されたオーディオ信号)102を提供するためのオーディオエンコーダー100の概略的なブロック図を示す。オーディオエンコーダー100は、オーディオ信号104に含まれるノイズを記述するノイズ情報106を得て、ノイズ情報106に応じて、オーディオ信号104に含まれるノイズによる影響がより大きいオーディオ信号の部分に対してよりも、オーディオ信号104に含まれるノイズによる影響がより小さいオーディオ信号の部分に対して、符号化精度がより高くなるように、オーディオ信号104を適応的に符号化するように構成される。
【0030】
例えば、オーディオエンコーダー100は、ノイズ推定器(又はノイズ決定、又はノイズアナライザー)110及び符号器112を備えうる。ノイズ推定器110は、オーディオ信号104に含まれるノイズを記述するノイズ情報106を得るように構成しうる。符号器112は、ノイズ情報106に応じて、オーディオ信号104に含まれるノイズによる影響がより大きいオーディオ信号104の部分よりも、オーディオ信号104に含まれるノイズによる影響がより小さいオーディオ信号104の部分に対して、符号化精度がより高くなるように、オーディオ信号104を適応的に符号化するように構成しうる。
【0031】
ノイズ推定器110及び符号器112は、例えば、集積回路、現場でプログラム可能なゲートアレイ、マイクロプロセッサー、プログラム可能なコンピュータ、又は電子回路のようなハードウェア装置によって(又は、使用して)実装しうる。
【0032】
実施の形態において、オーディオエンコーダー100は、ノイズ情報106に応じてオーディオ信号104を適応的に符号化することによって、オーディオ信号104を符号化すると同時に、オーディオ信号104(又は符号化されたオーディオ信号)の符号化された表現102においてノイズを低減するように構成しうる。
【0033】
実施の形態において、オーディオエンコーダー100は、知覚的な目的関数を使用してオーディオ信号104を符号化するように構成しうる。知覚的な目的関数は、ノイズ情報106に応じて調節され(又は修正され)、したがって、ノイズ情報106に応じてオーディオ信号104を適応的に符号化する。ノイズ情報106は、例えば、信号対ノイズ比又はオーディオ信号104に含まれるノイズの推定形状とすることができる。
【0034】
発明の実施の形態は、聴取努力を減少しようとする、又は、明瞭度をそれぞれ増加しようとする。ここで、実施の形態は、一般に、入力信号の最も正確な可能表現に提供されず、聴取努力又は明瞭度が最適化されるような信号の部分を送信しようとする。特に、実施の形態は、信号の質を変えるが、送信信号が聴取努力を減少せず、又は、実際に送信された信号よりも明瞭度が良くなるような方法に変更しうる。
【0035】
いくつかの実施の形態によると、符号器の知覚的な目的関数は、修正される。言い換えると、実施形態はノイズを明示的に抑制するのではなく、信号対ノイズ比が最良である信号の部分で精度がより高くなるように目的を変更する。同様に、実施の形態は、SNRが高いその部分で信号の歪みを減らす。人間の聴取者は、信号をより容易に理解することができる。低いSNRを有する信号のその部分では、精度が低い送信となるが、大部分はノイズを含むので、このような部分を正確に符号化することは重要ではない。言い換えると、高いSNR部分に精度を集中させることによって、ノイズ部分のSNRを減らす間、実施の形態は、音声部分のSNRを黙示的に改善する。
【0036】
実施の形態は、例えば、知覚的なモデルを用いるこのような符号器において、いかなる音声及びオーディオ符号器にも実装又は適用しうる。事実上、いくつかの実施の形態によると、知覚的な重み付け関数は、ノイズ特性を基礎として修正しうる(又は調節しうる)。例えば、ノイズ信号の平均的なスペクトルエンベロープは、推定され、知覚的な目的関数を修正しうる。
【0037】
本明細書に開示される実施の形態は、好ましくは、CELP型(CELP=符号励振線形予測)の音声符号器、又は知覚的なモデルが重み付けフィルタによって表現することができる他の符号器に適用可能である。しかしながら、実施の形態も、TCX型符号器(TCX=変換符号化された励起)と同様に、他の周波数領域符号器も使用しうる。さらに、実施の形態のより好ましい使用例は、音声コード化であるが、実施の形態も、いかなる音声及びオーディオ符号器にも、より一般的に使用しうる。ACELP(ACELP=代数符号励振線形予測)は、典型的な適用であるので、ACELPにおける実施の形態の適用を、以下に詳細に説明する。周波数領域符号器を含め、他の符号器における実施の形態の応用は、これらの当業者にとって明らかであるだろう。
【0038】
音声及びオーディオ符号器において、ノイズ抑制のための従来のアプローチは、コード化の前にノイズを取り除く目的で分離して事前処理されたブロックのように、それを適用することである。しかしながら、ブロックを分離するためにそれを分離することによって、2つの主な不利な点がある。第1に、ノイズサプレッサーは、一般的にノイズを取り除くだけでなく、望まれた信号も歪ませるので、符号器は、したがって、実際に歪まされた信号を符号化しようとする。符号器は、間違ったターゲットを有し、効果や、精度を失うだろう。これも、後続のブロックが、積み重なる独立したエラーを生成するタンデム問題の一例として見うる。ジョイントノイズの抑制やコーディングによって、実施の形態は、タンデム問題を避ける。第2に、ノイズサプレッサーは、別々の事前処理ブロックに、従来のように実装されるので、コンピュータによる複雑性と遅延は高まる。対照的に、実施の形態によると、ノイズサプレッサーは、符号器に埋め込まれているので、とても低い複雑性と遅延に適用することができる。これは、従来のノイズの抑制に対する計算能力を有さない、低価格の装置において特に有益である。
【0039】
説明は、最も一般的に使用される音声符号器を記載した時点であるので、AMR−WB符号器(AMR−WB=適応可能な多数比率帯域)についての適用を更に議論するだろう。実施の形態は、3GPP向上された音声サービス又はG.718のような他の音声符号器に対して簡単に適用しうる。実施の形態は、ビットストリームのフォーマットを変更せずに符号器に適用しうるので、実施の形態の好ましい使用方法は、存在する基準へアドオンすることに留意されたい。
【0040】
図2aは、実施の形態による音声信号104を基礎とした符号化された表現102を提供するためのオーディオエンコーダー100の概略的なブロック図を示す。オーディオエンコーダー100は、音声信号104から残差信号120を導き出して、コードブック122を使用して残差信号120を符号化するように構成しうる。詳しくは、オーディオエンコーダー100は、ノイズ情報106に応じて残差信号120を符号化するためのコードブック122の複数のコードブックエントリの中からコードブックエントリを選択するように構成しうる。例えば、オーディオエンコーダー100は、コードブック122を備えるコードブックエントリ決定器124を備えうり、コードブックエントリ決定器124が、ノイズ情報106に応じて、残差信号120を符号化するためコードブック122の複数のコードブックエントリの中からコードブックエントリを選択するように構成しうり、それによって、量子化された残差126を得ることができる。
【0041】
オーディオエンコーダー100は、残差信号120を得るために、音声信号104に対する声道の寄与を推定し、声道の推定寄与を音声信号104から取り除くように構成しうる。例えば、オーディオエンコーダー100は、声道推定器130及び声道除去器132を備えることができる。声道推定器130は、音声信号104を受信し、音声信号104に対する声道の寄与を推定し、音声信号104に対する声道128の推定寄与を、声道除去器132に提供するように構成しうる。声道除去器132は、残差信号120を得るために、声道128の推定寄与を音声信号104から取り除くように構成しうる。音声信号104に対する声道の寄与は、例えば、直線予測を使用して推定しうる。
【0042】
オーディオエンコーダー100は、量子化された残差126と、音声信号(又は、符号化された音声信号)を基礎とした符号化された表現のように、声道128の推定寄与(又は、声道104の推定寄与128を記述するフィルターパラメータ)を提供するように構成しうる。
【0044】
コードブックエントリ決定器124は、声道A(z)の推定寄与から量子化声道合成フィルタHを決定するように構成される量子化声道合成フィルタ決定器144を備えることができる。
【0045】
更に、コードブックエントリ決定器124は、コードブックエントリの選択に対するノイズの影響が低減されるように、知覚的な重み付けフィルタWを調節するように構成される知覚的な重み付けフィルタ調節器142を備えうる。例えば、ノイズによる影響がより小さい音声信号の部分が、ノイズによる影響がより大きい音声信号の部分よりも、コードブックエントリの選択についてより重み付けられるように、知覚的な重み付けフィルタWは調節しうる。更に(或いは)、ノイズによる影響がより小さい残差信号120の部分と、量子化された残差信号126の対応する部分との間のエラーが低減されるように、知覚的な重み付けフィルタWは調節しうる。
【0048】
アプリケーションのシナリオにおいて、追加の遠端のノイズは、着信音声信号に存在しうる。したがって、信号は、y(t)=s(t)+n(t)である。この場合、声道モデルA(z)及びオリジナルの残差の両方とも、ノイズに含まれる。声道モデルにおいてノイズを無視し、残差においてノイズに焦点を当てる単純化から始まるので、アイデア(実施の形態による)は、追加のノイズが、残差の選択において低減されるように、知覚的な重み付けをガイドすることである。当初と量子化された残差との間の通常のエラーは、音声スペクトルエンベロープに似ていることが望まれるので、実施の形態によると、ノイズに対してより丈夫な箇所におけるエラーが低減される。言い換えれば、実施の形態によると、ノイズによる損傷が少ない周波数成分は、より少ないエラーで量子化されるのに対して、ノイズからのエラーを含む可能性がある低振幅成分が、量子化過程においてより低い重みを有する。
【0049】
望まれた信号に対するノイズ影響を考慮に入れると、第1のノイズ信号の推定は、必要とされる。ノイズの推定は、多くの方法が存在する典型的なトピックである。いくつかの実施の形態は、エンコーダーにおいて既に存在する情報が使用されることによって、低複雑性の方法を提供する。好ましいアプローチにおいて、音声区間検出(VAD)のために保存される背景ノイズの形状の推定は、使用しうる。この推定は、増加する幅を有する12の周波数帯において、背景ノイズのレベルを含む。スペクトルは、オリジナルのデータポイント間の補完を有する線形周波数スケールへそれをマッピングすることによって、この推定から構築しうる。オリジナルの背景推定及び再構成されたスペクトルの例は、
図3によって示される。詳細には、
図3は、平均SNR−10dBを有する車のノイズに対するオリジナルの背景推定及び再構成されたスペクトルを示す。再構成されたスペクトルからの自動的相関関係は、レビンソン・ダービン再帰法を有する経路順序線形予測(LP)係数を導き出すために使用される。p=2...6を有する得られたLP適合の例は、
図4において示される。詳細には、
図4は、異なった予測順序(p=2...6)を有する背景ノイズに対して得られた線形予測を示す。背景ノイズとは、平均SNR−10dBを有する車のノイズである。
【0051】
図5において、異なる予測順序を有するオリジナルの重み付けフィルタの逆数と、提案された重み付けフィルタの逆数との例が示される。図の場合、強調されていないフィルタは使用されていない。言い換えれば、
図5は、異なる予測順序を有する当初及び提案された重み付けフィルタの逆数の周波数応答を示す。背景ノイズとは、平均SNR−10dBを有する車のノイズである。
【0052】
図6は、オーディオ信号に基づく符号化された表現を提供するための方法のフローチャートを示す。方法は、オーディオ信号に含まれるノイズを記述するノイズ情報を得るステップ202を備える。更に、方法200は、ノイズ情報に応じて、オーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分よりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分の方が、符号化精度がより高くなるように、オーディオ信号を適応的に符号化するステップ204を備える。
【0053】
いくつかの態様が、装置との関係において述べられているけれども、これらの態様が、対応する方法の説明も示すことは明らかであり、ブロック又は装置が、方法ステップ又は方法ステップの特徴に相当する。同様に、方法ステップとの関係において述べられる態様は、対応するブロック又はアイテムの説明、又は対応する装置の特徴も示す。方法ステップのいくつか又はすべては、例えば、マイクロプロセッサー、又はプログラム可能なコンピュータ、又は電子回路のような、ハードウェア装置によって(又は使用して)実行しうる。いくつかの実施の形態において、最も重要な方法ステップのうち1つ以上は、このような装置によって実行しうる。
【0054】
本発明の符号化されたオーディオ信号は、デジタル記録媒体に保存しても良いし、又は無線送信媒体若しくはインターネットのような有線送信媒体などの送信媒体で送信しても良い。
【0055】
特定の実施要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて実装しうる。実装は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働しうるか、(又は協働することが可能であり、)そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、ブルーレイディスク(登録商標)、CD、ROM、PROM、EPROM、EEPROM(登録商標)、またはFLASHメモリ、を使用して実行しうる。
【0056】
本発明によるいくつかの実施の形態は、プログラム可能なコンピュータシステムと協働することができる電気的に読み込み可能な制御信号を有するデータキャリアを備え、本願明細書において記載される方法の1つが実行される。
【0057】
通常、本発明の実施の形態は、プログラムコードを有するコンピュータプログラム製品として実施しうり、コンピュータプログラム製品がコンピュータ上で動くときに、プログラムコードは、方法の1つを実行するために動作される。例えば、プログラムコードは、機械読み取り可能なキャリアに保存しうる。
【0058】
他の実施の形態は、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムを備え、機械読み取り可能なキャリアに保存される。
【0059】
言い換えれば、本発明の方法の実施の形態は、それゆえに、コンピュータプログラムがコンピュータ上で実行するときに、本願明細書において記載されている方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0060】
本発明の方法の更なる実施形態は、それゆえに、本願明細書において記載される方法の1つを実行するためのコンピュータプログラムを備え、記録されるデータキャリア(又はデジタル記憶媒体またはコンピュータ可読媒体)である。
【0061】
本発明の方法の更なる実施形態は、それゆえに、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は一連の信号である。データストリーム又は一連の信号は、例えば、データ通信接続を経て、例えばインターネットを経て、送信されるように構成しうる。
【0062】
更なる実施の形態は、本願明細書において記載されている方法の1つを実行するように構成、若しくは、適合された、例えばコンピュータのような処理手段又はプログラム可能な論理装置を備える。
【0063】
更なる実施の形態は、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムがインストールされるコンピュータを備える。
【0064】
本発明による更なる実施の形態は、本願明細書において記載される方法の1つを実行するためのコンピュータプログラムを受信装置に(例えば、電子的もしくは、光学的に)送信するように構成される装置またはシステムを備える。受信装置は、例えば、コンピュータ、モバイル機器、メモリ装置または類似の装置でもよい。装置またはシステムは、例えば、コンピュータプログラムを受信装置に送信するためのファイルサーバを備えうる。
【0065】
いくつかの実施の形態では、プログラム可能な論理装置(例えば、現場でプログラム可能なゲートアレイ)が、本願明細書において記載される方法の機能性のいくつか又は全てを実行するために使用しうる。いくつかの実施の形態では、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサーと協働できる。一般に、方法は、好ましくは、いかなるハードウェア装置によって、実行しうる。
【0066】
本明細書において記載される装置は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータとの組み合わせを使用して実装しうる。
【0067】
本願明細書において記載される方法は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータとの組み合わせを使用して実行しうる。
【0068】
上述した実施の形態は、本発明の原理の例を表すだけである。本願明細書に記載された構成及び詳細の修正及び変形は、当業者には明らかであることが理解される。それゆえに、本発明は、添付の特許請求の範囲によってのみ限定され、本願明細書の実施の形態の記述及び説明のための特定の詳細によっては限定されないことが意図される。