(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5749275
(24)【登録日】2015年5月22日
(45)【発行日】2015年7月15日
(54)【発明の名称】オーディオ透かしによって音響エコーをキャンセルするための方法および装置
(51)【国際特許分類】
H04B 3/23 20060101AFI20150625BHJP
H04M 1/00 20060101ALI20150625BHJP
H04M 1/60 20060101ALI20150625BHJP
【FI】
H04B3/23
H04M1/00 H
H04M1/60 D
【請求項の数】7
【全頁数】18
(21)【出願番号】特願2012-535905(P2012-535905)
(86)(22)【出願日】2010年10月27日
(65)【公表番号】特表2013-509774(P2013-509774A)
(43)【公表日】2013年3月14日
(86)【国際出願番号】FR2010052309
(87)【国際公開番号】WO2011051625
(87)【国際公開日】20110505
【審査請求日】2013年9月2日
(31)【優先権主張番号】0957636
(32)【優先日】2009年10月29日
(33)【優先権主張国】FR
(73)【特許権者】
【識別番号】509033033
【氏名又は名称】ユニベルシテ・パリ・デカルト
【氏名又は名称原語表記】UNIVERSITE PARIS DESCARTES
(74)【代理人】
【識別番号】100106297
【弁理士】
【氏名又は名称】伊藤 克博
(74)【代理人】
【識別番号】100129610
【弁理士】
【氏名又は名称】小野 暁子
(72)【発明者】
【氏名】マエ、 ガエル
(72)【発明者】
【氏名】メグハニ−マラッチ、 イーメン
(72)【発明者】
【氏名】ジェイダン、 メリエーム
(72)【発明者】
【氏名】トゥルキ、 モニア
(72)【発明者】
【氏名】ジャジリ ラルビ、 ソニア
【審査官】
前田 典之
(56)【参考文献】
【文献】
米国特許第06771769(US,B2)
【文献】
特表2003−501894(JP,A)
【文献】
特開2004−128825(JP,A)
【文献】
特開平07−303065(JP,A)
【文献】
I.Marrakchi-Mezghani, et al.,SPEECH PROCESSING IN THEWATERMARKED DOMAIN:APPLICATION IN ADAPTIVE ACOUSTIC ECHO CANCELLATION,European Signal Processing Conference,イタリア,2006年,pages.1-5,(検索日2014.11.06),インターネット<URL:http://www.eurasip.org/Proceedings/Eusipco/Eusipco2006/papers/1568982313.pdf>
【文献】
Sonia Djaziri Larbi, et al.,Audio watermarking: a way to stationnarize audio signals,IEEE Transactions on Signal Processing,米国,IEEE,2005年 1月17日,Vol.53, Issue.2,pages.816-823
(58)【調査した分野】(Int.Cl.,DB名)
H04B 3/23
H04M 1/00
H04M 1/60
(57)【特許請求の範囲】
【請求項1】
第2の信号(x)のエコー信号を含む第1の信号(y)において音響エコーをキャンセルする方法であって、
循環自己相関が単位インパルスおよび連続成分を含む疑似ランダムシーケンス(w)を、不可聴な形で前記第2の信号に挿入すること(S40)と、
前記エコー信号がたどるエコー経路を、前記挿入されたシーケンスを用いて、前記第1の信号において特徴付けること(S43)と、
前記エコー経路の前記特徴付けによって、前記第1の信号において前記エコー信号を推定すること(ESTIM)と、
前記得られた推定を用いて、前記エコー信号をキャンセルすること(S44)と、
を含み、
前記エコー経路の前記特徴付けは、
前記第2の信号の適応フィルタリングおよび/またはブロックベースのフィルタリングを行うことと、
前記疑似ランダムシーケンスと前記第1の信号の相互相関(INTERCOR)を行うことと、を含み、
前記方法は、
前記第2の信号に埋め込まれる前に、前記疑似ランダムシーケンスに整形フィルタ(SHAPE)を適用することと、
前記疑似ランダムシーケンスとの前記相互相関の前に前記第1の信号の処理を行うことであって、前記処理が、前記疑似ランダムシーケンスへの前記整形フィルタ(SHAPE)の影響をキャンセルするフィルタ(RESHAPE)の適用を含む処理を行うことと、
をさらに含むことを特徴とする方法。
【請求項2】
前記疑似ランダムシーケンスとの前記相互相関の前に、前記第1の信号を処理するステップをさらに含み、前記処理するステップが、前記第1の信号から前記第2の信号の前記フィルタリングの結果を減算することを含む、請求項1に記載の方法。
【請求項3】
プロセッサによって実行されたとき、請求項1または2に記載の方法を実施するための命令を含むコンピュータプログラム。
【請求項4】
請求項1または2に記載の方法を実施するように構成されている回路。
【請求項5】
第2の信号(x)のエコー信号を含む第1の信号(y)においてエコーをキャンセルするためのシステム(AEC)であって、
循環自己相関が単位インパルスおよび連続成分を含む疑似ランダムシーケンスを不可聴な形で前記第2の信号に挿入するためのユニット(INS)と、
前記エコー信号がたどるエコー経路を、前記挿入されたシーケンスを用いて、前記第1の信号において特徴付けるためのユニット(CHARACT)と、
前記エコー経路の前記特徴付けによって、前記第1の信号において前記エコー信号を推定するためのユニット(ESTIM)と、
前記得られた推定を用いて、前記エコー信号をキャンセルするためのユニット(CANCEL)と
を含み、
前記エコー経路を特徴付けるための前記ユニットは、
前記第2の信号のための適応フィルタおよび/またはブロックベースのフィルタと、
前記疑似ランダムシーケンスと前記第1の信号の相互相関のためのユニットと、
を含み、
前記システムは、
前記第2の信号に埋め込まれる前に、前記疑似ランダムシーケンスを整形するためのフィルタと、
前記疑似ランダムシーケンスとの前記相互相関の前に前記第1の信号の処理を行うユニットであって、前記処理は、前記疑似ランダムシーケンスへの前記整形フィルタ(SHAPE)の影響をキャンセルするフィルタ(RESHAPE)の適用を含むユニットと、
をさらに含む、システム。
【請求項6】
前記疑似ランダムシーケンスとの前記相互相関の前に、前記第1の信号を処理するためのユニットをさらに含み、前記処理することは、前記第1の信号から前記第2の信号の前記フィルタリングの結果を減算することを含む、請求項5に記載のシステム。
【請求項7】
前記第1の信号を受信するための第1の入力部(I1)と、
前記キャンセルされたエコー信号を有する前記第1の信号を送信するための第1の出力部(O1)と、
前記第2の信号を受信するための第2の入力部(I2)と、
前記埋め込まれたシーケンスを有する前記第2の信号を送信するための第2の出力部(O2)と
をさらに含む、請求項5または6に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関する。
【0002】
より詳細には、音声ピックアップシステムおよび再生システムにおける音響エコーのキャンセレーション、特に通信システムにおいて使用されるものに関する。
【背景技術】
【0003】
「ハンズフリー」音声ピックアップシステムおよび再生システム(例えば、ビデオ会議用装置)では、第1の端末が音声信号を第2の端末に送信する。次いで、第2の端末のスピーカが信号を送出する。送出された信号は、1つまたは複数の音響エコー経路に従う。次いで、第2の端末のマイクロフォンが、送出された信号のエコーを含む(および送信された信号に対応する)音声信号を拾い上げる。
【0004】
エコーは、音響エコーキャンセレーションシステム(AEC)によって抑制される。これらのシステムにおいて、1つまたは複数のエコー経路を含む再生システムと音声ピックアップシステムとの間の音響チャネルは、この音響チャネルのインパルス応答を推定することによって決まる。音響チャネルインパルス応答の推定は、通常、第2の端末で、リアルタイムに、かつ適応的な形で行われる。適応に使用されるデジタルフィルタは、第1の端末によって送信される音声信号によって制御される。
【0005】
このようなシステムの性能は、
− オーディオ信号の統計的特徴(例えば、その高い相関およびその非定常性)や、
− 第2の端末が、エコーおよび環境雑音に加えられる近端音声信号を拾い上げる場合のダブルトークの状況。実際、環境雑音に加えられる近端発話が存在すると、AECの収束に干渉する、
などのいくつかの因子によって低下する。
【0006】
適応的な方法に基づいた既存の音響エコーキャンセレーションシステムにおいて、近端発話が存在するという問題は、適応フィルタが、音響チャネルの変動に従うことがもはやできず、よって、近端発話の音響チャネルの変動に従うということにより生じる。この場合、アルゴリズムは不正確な解決に向かう。
【0007】
この問題を解決するために、従来技術では、ダブルトークが存在する場合、適応を停止することが提案されている。しかし、この解決策は、エコーを正確に推定することを妨げる。
【0008】
次に、音声通信システム(例えば、ハンズフリーモードにおける電話機)において使用される従来技術のエコーキャンセレーションシステム(AEC)を
図1を参照して説明する。
【0009】
第1の当事者が、第1の端末から信号x(n)を送り、次いでそれは、第2の端末のスピーカSPから出力される。次いで、スピーカによって送出された信号は、スピーカが設置される環境(例えば、壁)によって反射される。反射により、第2の端末のスピーカとマイクロフォンMICとの間の音声の直接通路によって生じる直接エコーと同様、エコー信号z(n)がもたらされる。
【0010】
エコー信号、環境雑音信号n(n)、および第2の当事者の発話s(n)は、第2の当事者の発話を拾い上げるために設置されたマイクロフォンMICによって拾い上げられ、次いで、端末に送信される。
【0011】
次いで、第1のスピーカによって受信される信号は、スピーカとマイクロフォンとの間の音響チャネルfによってフィルタリングされた第2の当事者の発話および第1の当事者の発話x(n)の混合(z(n)=f*x(n)、ただし、*は、畳み込みを示す)である。
【0012】
次いで、マイクロフォンによって拾い上げられた信号は、y(n)=z(n)+b(n)=(f*x(n))+b(n)であり、ただし、x(n)およびfはそれぞれ、受信用スピーカによって受信される信号、および線形であると仮定されたスピーカとマイクロフォンとの間の結合のインパルス応答とであり、b(n)=n(n)+s(n)は、環境雑音n(n)および近端発話s(n)の組合せである。
【0013】
エコーキャンセレーションシステムは、例えば、第2の端末において、信号x(n)およびy(n)を送信するライン間に設置される。
【0014】
このエコーキャンセレーションシステムは、b(n)+f*x(n)の組合せから、h(n)*x(n)で与えられる推定f*x(n)を減算するように、FIRフィルタhを使用して音響チャネルfを推定し、シミュレーションすることに関与する。
【0015】
音響伝搬チャネルは時とともに変化するので、適応アルゴリズムが使用される。
【0016】
それらの役割はまず、「学ぶ」こと、次いで、FIRフィルタh(n)の係数を継続的に更新して、これらの変化にもかかわらず優れたエコー補償を維持することである。
【0017】
しかし、これらの適応アルゴリズムは、AECを駆動する送出された音声信号x(n)の統計的特性(相関、非定常性など)が時間とともに変化するという理由から、ロバスト性問題に悩まされる。
【0018】
フィルタh(n)=[h
0(n), h
1(n)...h
P−1(n)]
Tの係数は、例えば、NLMS(Normalized Least Mean Square:正規化最小平均)タイプの正規化アルゴリズムを使用して適応される。
【0019】
このアルゴリズムは、フィルタh(n)からの出力とエコーの間の平均平方誤差を最小化する。次いで、h(n)の適応は、以下のように行われ、
【0020】
【数1】
ただし、μは、概ね固定されている適応ピッチであり、e(n)は、フィルタh(n)の適応を制御する推定誤差であり、X(n)=[x(n),x(n−1),…,x(n−P+1)]
Tは、長さPの入力ベクトルであり、εは、無音の期間中、分数についてゼロの分母を避ける低厳密に正の値である。
【0021】
信号の統計的特性を修正するために、入射信号x(n)に付加的透かしを挿入することが提案されている(S. LarbiおよびM. Jaidane、“Audio watermarking: a way to modify audio statistics”、IEEE Trans. on Signal Processing、53(2)巻、2005年)。
【0022】
しかし、この方法は、
− AECのエコー減衰は不十分であり、透かしの入った発話信号の統計値に依然敏感であり、
− ダブルトーク問題が解決されない、
という少なくとも2つの欠点を有する。
【0023】
発明者らはまた、ソース発話信号よりも優れた特性を有する信号によって音響チャネルを推定するために、ホワイトノイズを埋め込むソース発話信号へのオーディオ透かしに基づいたWAECと呼ばれるエコーキャンセレーションシステム(Marrakchiら、「Speech processing in the watermarked domain: application in adaptive acoustic echo cancellation」、European Signal Processing Conference、イタリア、2006年)を提案している。
【0024】
このシステムにおいては、2つの適応フィルタが並行して動作する。
【0025】
従来のAECよりもWAECが明らかに優れているのは、WAECの動作に必要とされる信号同士は、ほとんど無相関であり、さらにより定常であるという理由からである。このシステムにより、発明者らは、エコー減衰における著しい利得を得た。
【0026】
しかし、ダブルトークが存在する場合は特に、この構造はさらに改善し得る。
【発明の概要】
【発明が解決しようとする課題】
【0027】
そのため、エコーキャンセレーションの十分な品質を提供し、同時に音声信号の特性と、ダブルトークの存在とに感度をほとんど持たない音響エコーキャンセレーションシステムに対する必要性が存在する。
【0028】
本発明は、この状況を改善する。
【課題を解決するための手段】
【0029】
このため、本発明の第1の態様は、第2の信号のエコー信号を含む第1の信号において音響エコーをキャンセルする方法を提案する。その方法は、
− 循環自己相関が単位インパルスおよび連続成分を含む疑似ランダムシーケンスを、不可聴な形で第2の信号に挿入することと、
− エコー信号が後に続く音響チャネルを、挿入されたシーケンスによって、第1の信号において特徴付けることと、
− 音響チャネルの特徴付けによって、第1の信号においてエコー信号を推定することと、
− 得られた推定によって、エコー信号をキャンセルすることと、
を含む。
【0030】
挿入された疑似ランダムシーケンスは、近端発話信号に無関係であり、それにより、エコーチャネル(またはエコー経路)の特徴付け(または識別)が改善される。
【0031】
したがって、特徴付けの品質は、一定であり、エコーキャンセレーションに使用される信号の統計的変動にほとんど依存しない。
【0032】
本発明の方法により、特徴付けの品質は、ダブルトークの状況であっても改善される。
【0033】
本発明は、送出される発話および近端発話において統計的変動が存在する場合であっても、通話またはビデオ会議において満足のいく品質を提供する。
【0034】
さらに、本発明の方法によるエコーキャンセレーションは、従来技術よりも高速で、より正確である。
【0035】
例えば、音響チャネル(またはエコー経路)の特徴付けは、疑似ランダムシーケンスと第1の信号の相互相関によって行われる。
【0036】
これにより、疑似ランダムシーケンスおよび近端発話が統計的に依存しないので、識別中、近端発話の存在の影響は最小限に抑えられる。
【0037】
さらなる例としては、音響チャネルの特徴付けは、第2の信号の適応フィルタリングを含む。
【0038】
特徴付けはまた、第2の信号のブロックベースのフィルタリングを含んでもよい。
【0039】
疑似ランダムシーケンスを使用することにより、ダブルトークが存在する場合の信号の中断が減少する。
【0040】
いくつかの実施形態においては、音響チャネルの特徴付けは、
− 第2の信号の適応および/またはブロックベースのフィルタリングを実行するステップと、
− 疑似ランダムシーケンスと第1の信号の相互相関を実行するステップと、
を含む。
【0041】
フィルタリングは、相互相関前に第2の信号の影響をなくし、したがって、この相互相関の品質が高まる。例えば、疑似ランダムシーケンスのパワーに対して第2の信号のパワーを低下させることが可能である。
【0042】
さらに、いくつかの実施形態においては、方法は、
− 第2の信号に埋め込まれる前に、疑似ランダムシーケンスに整形フィルタを適用すること
を含む。
【0043】
例えば、整形フィルタは、心理音響モデルに基づいて、疑似ランダムシーケンスが不可聴であることを確実にするために使用される。
【0044】
この場合、フィルタは、エコーキャンセレーションにおけるその使用を最適化するために、最大のパワーで不可聴シーケンスを生成するように設計可能である。
【0045】
いくつかの実施形態においては、また、疑似ランダムシーケンスとの相関前に第1の信号を処理するステップもあり得る。この処理することは、第1の信号から第2の信号のフィルタリングの結果を減算することを含んでよい。これにより、相関の結果の品質を改善することが可能になる。
【0046】
例えば、処理するステップはまた、疑似ランダムシーケンスへの整形フィルタの影響をキャンセルするフィルタの適用を含んでもよい。
【0047】
本発明の他の態様は、
− プロセッサ、例えば、エコーキャンセレーションシステムのプロセッサによって実行されたとき、本発明の方法を実施するための命令を含むコンピュータプログラムと、
− このようなコンピュータプログラムが格納されるコンピュータ可読媒体と、
− 本発明の方法を実施するように構成されている回路と、
− 本発明の方法を実施するようになされているエコーキャンセレーションシステムと、
に関する。
【0048】
簡潔に上述したように、コンピュータプログラム、コンピュータ可読媒体、回路、およびシステムによってもたらされる利点は、本発明のエコーキャンセレーションの方法に関して上述したものと少なくとも一致している。
【0049】
本発明の他の特徴および利点は、以下の説明を読むことによりさらに明らかになるであろう。これは、単なる事例であり、
図1に加えて添付の図面に関して読むべきである。
【図面の簡単な説明】
【0050】
【
図1】従来技術のエコーキャンセレーションシステムを示す図である。
【
図2】本発明の第1の実施形態による方法を示すブロック図である。
【
図3】本発明の第2の実施形態による方法を示すブロック図である。
【
図4】本発明のいくつかの実施形態による方法の概括的なフローチャートである。
【
図5】本発明の実施形態によるエコーキャンセレーションシステムを示す図である。
【
図6】本発明によってもたらされる利点のうちのいくつかを示す試験結果を示す図である。
【
図7】本発明によってもたらされる利点のうちのいくつかを示す試験結果を示す図である。
【
図8】本発明によってもたらされる利点のうちのいくつかを示す試験結果を示す図である。
【
図9】本発明によってもたらされる利点のうちのいくつかを示す試験結果を示す図である。
【発明を実施するための形態】
【0051】
次に、第1の実施形態による方法の実装形態を
図2を参照して概略的に説明する。
【0052】
この実施形態においては、エコーキャンセレーションは、デジタルシーケンスの埋込み(デジタル透かしとも呼ぶ方法)によって、次いで、音響チャネル(またはエコー経路)の特徴付け(または識別)を実行するために、エコー信号を含む信号と、埋め込まれたシーケンスの相互相関によって生じる。エコーの最終キャンセレーションは、エコーを含む信号から、音響チャネルの識別に基づいたエコーの推定を減算することによって生じる。
【0053】
まず、関連するステップを概括的に説明することにする。次いで、ステップのそれぞれについて詳述することにする。
【0054】
例えば、この実施形態は、携帯電話機などの第1の通信端末と、ハンズフリーモードの第2の端末との間の通信の一部である。
【0055】
処理すべきエコーは、第2の端末で発生し、この第2の端末で処理される。
【0056】
エコーが第1の端末で処理される、またはエコーが通信ネットワークにおいて処理される他の実施形態も考慮可能である。
【0057】
第1の端末のユーザによって初期に送出される音声信号xは、より詳細に後述するデジタルシーケンスを挿入するための挿入ユニットINSに供給される。
【0058】
挿入される信号tは、整形ユニットSHAPEによって整形された初期信号wから生じる。この整形は、信号xに挿入されると、不可聴にするように信号wのスペクトルを適応させる。
【0059】
次いで、INSユニットからの出力として得られる信号xtは、送信され、ECHOユニットによってモデル化された1組の変換を受ける。これらの変換は、例えば、その送信および反射に対応する。
【0060】
信号zは、
図1を参照して上述したように、ECHOユニットからの出力として得られる。
【0061】
雑音信号bはまた、信号yを整形するように、この信号zに加えられる。信号yは、信号xのエコーを含む。
【0062】
次いで、信号yは、SHAPEユニットによって実行されるものの逆である信号に変換を適用する信号整形用ユニットRESHAPEに供給される。
【0063】
信号yfは、RESHAPEユニットからの出力として得られ、次いで、相互相関ユニットINTERCORに供給されて、信号wと信号yfの相互相関を実行する。
【0064】
次いで、INTERCORユニットは、ECHOユニットによって示される音響チャネルの特徴付け
【0065】
【数2】
を供給する。次いで、この特徴付けは、信号zの推定を出力するために、入力として信号xtも受信するESTIMユニットに供給される。
【0066】
次いで、信号yと、信号zの推定とは、信号yからエコーを減算するCANCELユニットに供給される。
【0067】
図3を参照して説明する第2の実施形態においては、適応フィルタリングは、相互相関の前に、音響チャネルの第1の識別を実行するため、透かしの入った信号に適用される。
【0068】
この実施形態においては、SHAPEユニット、INSユニット、ECHOユニット、CANCELユニット、INTERCORユニット、および第1の実施形態のESTIMユニットも備えられる。
【0069】
さらに、第1の実施形態と同一であり、信号xtによって供給される第2のRESHAPEユニットが存在する。この第2のRESHAPEユニットからの出力は、適応フィルタリング用ユニットADAPT1の入力に結合されている。
【0070】
信号wはやはり、第1のADAPT1ユニットのコピーである第2のADAPT2ユニットに供給される。
【0071】
この第2の実施形態においては、第1のRESHAPEユニットからの出力は、信号yfと、第1のADAPT1ユニットからの出力との間の減算を実行するための減算ユニットに供給される。この減算の結果は、フィルタリングを駆動するようにADAPT1ユニットに配信される。
【0072】
次いで、第2のADAPT2ユニットからの出力は、減算ユニットからの出力に加えられ、その合計は、INTERCORユニットに供給される。
【0073】
第2の実施形態の変形形態(図示せず)においては、ブロックベースのフィルタリングが適応フィルタリングの代わりに、または適応フィルタリングとの組合せで使用される。例えば、ウィーナー(Wiener)フィルタが実装される。
【0074】
説明する実施形態による方法のステップを
図4の概括的なフローチャートに要約する。
【0075】
第1のステップS40において、第1の端末のユーザによって送信される信号は、第2の端末によって受信され、次いで、デジタルシーケンスの挿入によってAECによって透かしが入れられる。次いで、透かしの入った信号は、ステップS41の間、第2の端末のスピーカによって送出される。
【0076】
ステップS42の間、第2の端末のマイクロフォンは、あらかじめ送信された信号のエコー信号を含む信号を受信する。
【0077】
次いで、ステップS43の間、音響チャネルの特徴付けが、透かしを入れる間に挿入されたシーケンスを使用して実行される。
【0078】
最後に、ステップS44の間、エコーは、得られた特徴付けを使用して、マイクロフォンによって受信された信号においてキャンセルされる。
【0079】
本発明の方法を実施するための命令を含むコンピュータプログラムが、
図4の概括的なフローチャートから、およびこの詳細な説明から導かれる概括的なアルゴリズムにより実行可能である。
【0080】
次に、本発明の実施形態によるエコーキャンセレーションシステムを、
図5を参照して説明する。
【0081】
このエコーキャンセレーションシステムAECは、再送信すべき信号を受信するための入力部I2と、受信され、透かしの入った信号を再送信するための出力部O2とを含む。エコーキャンセレーションシステムはまた、送信された信号のエコーを含む信号を受信するための入力部I1と、キャンセルされたエコーを有する信号を送るための出力部O1とを含む。
【0082】
AECシステムはまた、計算データを格納するためのメモリMEMを含む。いくつかの実施形態においては、メモリMEMはまた、本発明によるコンピュータプログラムも格納することが可能である。
【0083】
システムはまた、エコーキャンセレーション回路を制御するためのプロセッサPROCを含む。例えば、プロセッサは、メモリMEMに格納されたコンピュータプログラムを実行する。
【0084】
回路CIRCは、デジタルシーケンス挿入ユニットINSと、音響チャネル特徴付けユニットCHARACTと、エコー信号推定ユニットESTIMと、エコーキャンセレーションユニットCANCELとを含む。
【0085】
これらのすべての要素は、本発明のエコーキャンセレーションの方法により動作するように構成されている。
【0086】
エコーキャンセレーションシステムは、通信端末の一部であってよい。例えば、ハンズフリーモードで通信を可能にする通信端末の一部であってよい。したがって、この端末に生じるエコーは、ピックアップ音声信号が再送信される前に、直接キャンセル可能である。さらなる例として、システムは、ハンズフリーモードで通信を提供するのでなく、このような通信を可能にする端末と通信している通信端末の一部であってよい。したがって、端末は、受信された信号においてエコーをなくすことが可能である。
【0087】
さらなる例として、エコーキャンセレーションシステムは、通信サーバにおいて実施される。サーバを使用する通信ネットワークのオペレータは、次いで、その加入者にエコーキャンセレーションサービスを提供することが可能である。
【0088】
本発明のシステムは、簡潔に説明するように、当業者に知られている技術により、端末またはサーバ内に一体化可能である。
【0089】
次に、上述した様々な演算、すなわち、デジタル透かし、音響チャネルの特徴付け、エコーキャンセレーション、および適応またはブロックベースのフィルタリングをより詳細に説明する。
【0090】
最後に、本発明によってもたらされる利点のいくつかを示すために行われる試験の結果を示す。
【0091】
デジタル透かし
埋め込まれた信号w(n)は、最長シーケンス(MLS)と呼ばれる長さLの+1および−1の周期化疑似ランダムシーケンスである。その主な特性は、その循環自己相関が行われる場合、Lの周期化単位インパルスに連続成分1/Lを加えたものをもたらすことであり、
【0094】
音響信号への透かし信号の一時的な挿入は、心理音響的モデルを使用して不可聴に行われる。
【0095】
発話の場合、マスキング閾値は、係数λ<1で減衰した、20msフレームを超える信号のパワースペクトル密度(Power Spectral Density:PSD)によってアプローチされる。発話は、伝達関数1/A(z)の全極型フィルタによるホワイトノイズの分散
【0096】
【数5】
のフィルタリングによってモデル化可能であるとき、伝達関数
【0097】
【数6】
のフィルタによるホワイトノイズw(n)のフィルタリングによって得られる不可聴透かしが追加可能である。このフィルタは、Lのサンプル毎に更新される。
【0098】
相互相関によるチャネル特徴付け
これは、長さLの周期化MLSシーケンスw(n)によってチャネルを励起することが必要である。チャネルから出力される信号y(n)は、
【0099】
【数7】
であり、ただし、Pは推定すべきインパルス応答fの長さである。
【0100】
出力y(n)と入力w(n)との間の相関は、
【0103】
【数10】
はL<Pの場合、サブモデル化の効果による擾乱である。
【0104】
【数11】
は、「誤り単位インパルス」効果による擾乱である。
【0106】
【数12】
である正確なモデル化(P<L)の場合と、十分に大きいLに関して、および
【0107】
【数13】
であるこの場合とに生じる。
【0108】
エコーキャンセレーション
得られた透かし信号は、
図2に示すように音声信号に一時的に加えられる。次いで、得られた透かしの入った信号xt(n)は、識別すべき音響チャネルに送信される。得られたエコーは、
【0110】
エコー信号にSHAPEユニットの整形用フィルタgの逆数を適用することによって、
【0111】
【数15】
が得られ、ただし、xf(n)およびbf(n)は、それぞれ、フィルタg
−1によってフィルタリングされる信号x(n)およびb(n)である。
【0112】
チャネル推定は、フィルタリングされたエコー信号と、元のMLSシーケンスw(n)との間のLのサンプルのブロック毎に、相互相関を計算することによって生じる。
【0113】
【数16】
そのため、残留エコーは、
【0115】
推定の品質は、送出された音声信号の相関および非定常性に依存しない。
【0116】
適応または相補的ブロック識別
音響チャネルの高速な特徴付けでは、Lの値を限定する必要がある。
【0117】
この場合、相互相関φ
wxfは、真にゼロでなく、そのためφ
wxf(n)のものよりもわずかに低いパワーの項f*φ
wxf(n)を完全に無視することはできない。
【0118】
この問題を緩和するために、この項の影響は、適応フィルタリングステップを追加することによって相殺可能である。
【0119】
したがって、音響チャネルfの第1の推定は、
図3に示すように得られる。
【0120】
適応フィルタリングステップADAPT(長さPの適応フィルタh(n))は、フィルタリングされた透かしの入った信号xtf(n)=g
−1*xt(n)によって駆動され、適応推定誤差
【0121】
【数18】
によって制御される。ここで、v(n)=f−h(n)は、チャネルについて推定誤差を示す偏差ベクトルである。
【0122】
相関器INTERCORへの入力における信号を
【0124】
適応フィルタh(n)の収束により、誤差ξ(n)のパワーは、フィルタリングされた雑音bf(n)のパワーに向かって収束する。
【0125】
チャネル推定は、相互相関を計算することによって生じる。
【0126】
【数20】
フィルタh(n)が収束する場合、方程式の第2の項は、無視できることになり、多かれ少なかれ一定の推定品質が得られる。
【0127】
一変形形態においては、ブロックベースのフィルタリングが使用可能である。例えば、ウィーナーフィルタが使用可能である。当業者には明らかであろうように、このようなフィルタの使用は、音響信号の相関行列を反転させることが必要である場合がある。
【0128】
結果
別々の音声信号と、別々の音響チャネルとを使用して、本発明の方法を試験した。
【0129】
試験により、受信された発話の品質は、AECが直接受信された音声信号によって駆動される従来の適応方法を使用する場合よりも、提案方法の方がより明らかに良好であることが示された。
【0130】
本発明の方法により、適応時間はより高速で、エコー推定はより定常的である。
【0131】
比較し得る結果を得るために、適応段階がNLMSタイプである提案方法の性能を従来のAECの性能と比較した。
【0132】
懸案の従来のAECは、NLMSタイプの適応AECである。その入力は、推定すべき音響チャネルを駆動する入力信号x(n)である。
【0133】
同じ適応ピッチμを両方のAEC(従来のAECと本発明のAEC)用に使用した。
【0134】
使用されたシミュレーションパラメータは、近端発話が無い場合、L=511、P=200であった。
【0135】
図6は、本発明の方法に関して(AEC_INV曲線)、および従来技術の方法に関して(AEC_CLASS曲線)、二乗平均平方根偏差(root mean square deviation:RMSD)の進化を示す。RMSDは、相対推定誤差fを示し、
【0137】
RMSDは、近端発話が無い場合、およびSN比が20dBである環境雑音が存在する場合、計算される。SN比は、
【0138】
【数22】
と表現され、ただし、Pxは、入力信号x(n)のパワーであり、Pnは、環境雑音n(n)のパワーである。
【0139】
図6で分かるように、本発明の方法によって得られた収束率は、従来のAECの収束率よりも明らかに優れている。
【0140】
さらに、最終偏差は、本発明の方がより低い。
【0141】
そのため、本発明の方法は、より高速で、より正確である。
【0142】
AECの定常状態の性能を評価するために、ERLE(echo return loss enhancement:エコーリターンロス拡張)を計算した。
【0144】
【数23】
によって定義され、ただし、y(n)は、推定すべき雑音エコーであり、e(n)は、推定誤差である。
【0145】
図7および
図8は、エコー信号をもたらす初期に送出された音声信号SIGについて、近端発話が無い場合および環境雑音が有る場合において、提案された構造に関して(AEC_INV曲線)と、従来のAECに関して(NLMSタイプの例、AEC_CLASS曲線に関して)、ならびにやはり同じ条件下で、提案された構造に関してと、WAECに関して(WAEC曲線)、ERLEにおけるそれぞれの進化を示している。
【0146】
この定常状態の比較は、提案された構造は、従来のAECによって、およびWAECによって提供されたものよりも、より安定した、かつより高い品質の推定を保証することを示す。
【0147】
図9は、エコー信号をもたらす初期に送出された音声信号SIGについて、本発明の場合および従来のAECの場合において、環境雑音と、近端発話SIG_LOCとが有る場合のERLEの進化を示す。近端発話のパワーは、概して、比率
【0148】
【数24】
によってエコーのパワーと関連付けられる。
【0149】
この場合、SNR2=−20dBである。結果は、提案された構造は、近端発話が存在する場合であっても、より優れた性能を与えることを示す。
【0150】
本発明を詳細な説明で述べ、図面に示した。本発明は、本実施形態に限定されない。他の変形形態および実施形態は、この説明および添付の図面を検討すると、当業者によって推論および実施可能である。
【0151】
特許請求の範囲においては、用語「含む」および「備える」は、他の要素または他のステップを排除しない。数について、単数か複数かの区別をしていないものは、複数を排除しない。単一のプロセッサまたは他の複数のユニットを使用して、本発明を実施可能である。示され、かつ/または主張される様々な特徴は、組合せ可能である。説明における、または異なる独立請求項におけるそれらの存在は、この可能性を排除しない。参照符号は、本発明の範囲を限定すると理解すべきでない。