特許第6150988号(P6150988)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パロット オートモーティブの特許一覧

特許6150988特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置
<>
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000044
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000045
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000046
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000047
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000048
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000049
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000050
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000051
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000052
  • 特許6150988-特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 図000053
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6150988
(24)【登録日】2017年6月2日
(45)【発行日】2017年6月21日
(54)【発明の名称】特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20170612BHJP
【FI】
   H04R3/00 320
【請求項の数】8
【外国語出願】
【全頁数】19
(21)【出願番号】特願2012-125653(P2012-125653)
(22)【出願日】2012年6月1日
(65)【公開番号】特開2012-253771(P2012-253771A)
(43)【公開日】2012年12月20日
【審査請求日】2015年3月24日
(31)【優先権主張番号】1154825
(32)【優先日】2011年6月1日
(33)【優先権主張国】FR
(73)【特許権者】
【識別番号】515285327
【氏名又は名称】パロット オートモーティブ
(74)【代理人】
【識別番号】100094112
【弁理士】
【氏名又は名称】岡部 讓
(74)【代理人】
【識別番号】100106183
【弁理士】
【氏名又は名称】吉澤 弘司
(74)【代理人】
【識別番号】100114915
【弁理士】
【氏名又は名称】三村 治彦
(74)【代理人】
【識別番号】100120363
【弁理士】
【氏名又は名称】久保田 智樹
(74)【代理人】
【識別番号】100125139
【弁理士】
【氏名又は名称】岡部 洋
(72)【発明者】
【氏名】ギヨーム ヴィッテ
(72)【発明者】
【氏名】ミシャエル ヘルヴェ
【審査官】 渡邊 正宏
(56)【参考文献】
【文献】 米国特許出願公開第2002/0193130(US,A1)
【文献】 特表平11−508105(JP,A)
【文献】 特開2006−039267(JP,A)
【文献】 特開2005−049876(JP,A)
【文献】 特開2000−312395(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
G10L 15/00−17/26
G10L 19/00−19/26
G10L 21/00−21/18
G10L 25/00−25/93
G10L 99/00
H04R 1/10
H04R 3/00− 3/14
(57)【特許請求の範囲】
【請求項1】
オーディオ装置のユーザの音声をピックアップし、それぞれのノイズの多い音声信号を配信するのに適した2つのマイクロホンセンサの組と、
前記マイクロホンセンサにより配信される前記音声信号をサンプリングするためのサンプリング手段と、
音声信号のノイズ除去を行うためのノイズ除去手段において、前記2つのマイクロホンセンサにより配信される前記音声信号のサンプルを入力として受け取り、装置の前記ユーザにより発される前記音声を示すノイズ除去音声信号を出力として配信する、ノイズ除去手段とを含む、オーディオ装置であって、
前記ノイズ除去手段は、前記2つのマイクロホンセンサにより配信される前記音声信号を結合するための適応型フィルタコンバイナにおいて、前記マイクロホンセンサの一方によりピックアップされるノイズを、前記マイクロホンセンサの他方により配信される信号により与えられるノイズ参照信号に基づいて除去するように反復探索により動作する、適応型フィルタコンバイナを含む、非周波数ノイズ低減手段であり、
前記適応型フィルタコンバイナにおける適応型フィルタは、前記サンプリング手段のサンプリング周期よりも短い遅延量をモデル化するのに適した小数遅延フィルタであり、
前記装置は、音声の存在または不在を示す信号を、前記装置の前記ユーザから配信するのに適した音声活動検出器手段をさらに含み、
前記適応型フィルタは、i)音声が存在しないとき、フィルタパラメータ用の適応型探索を実行し、ii)または別に音声が存在するとき、前記フィルタのこれらのパラメータを「固定」するために、選択的に働くように、前記音声の存在または不在の信号を入力としてさらに受け取る、オーディオ装置。
【請求項2】
前記適応型フィルタは、以下のように、最適化フィルタHを推定するのに適しており、
【数1】
ここで、
【数2】
および、G(k)=sinc(k+τ/Te)
【数3】
は、小数遅延量を含むインパルス応答のために、前記2つのマイクロホンセンサ間に伝達するノイズの推定最適化フィルタHを示し、
【数4】
は、前記2つのマイクロホンセンサ間の推定小数遅延フィルタGを示し、
【数5】
は、環境の推定音響応答を示し、
【数6】
は、重畳和を示し、
x(n)は、前記フィルタHへの信号入力のサンプルの級数であり、
x’(n)は、オフセット量が遅延量τの級数x(n)であり、
Teは、前記フィルタHへの信号入力のサンプリング周期であり、
τは、Teの約数に等しい、前記小数遅延量であり、
sincは、カーディナルサイン関数を示す、請求項1に記載のオーディオ装置。
【請求項3】
前記適応型フィルタは、最小2乗平均タイプの線形予測アルゴリズムを有するフィルタである、請求項1に記載のオーディオ装置。
【請求項4】
前記装置は、前記装置の前記ユーザに向かって方向付けられ、前記ユーザの画像をピックアップするのに適したビデオカメラをさらに含み、
前記音声活動検出器手段は、前記カメラにより生成された信号を分析し、前記ユーザからの、音声の存在または不在を示す前記信号を応答的に配信するのに適したビデオ分析手段を含む、請求項1に記載のオーディオ装置。
【請求項5】
前記装置は、内部骨伝導により伝達される非音響音声振動をピックアップするために、前記装置の前記ユーザの頭部に結合するように、前記装置の前記ユーザの前記頭部と接触するのに適した生体センサをさらに含み、
前記音声活動検出器手段は、前記生体センサにより配信された信号を分析し、前記ユーザによる音声の存在または不在を示す前記信号を応答的に配信するのに適した手段を含む、請求項1に記載のオーディオ装置。
【請求項6】
前記音声活動検出器手段は、前記生体センサにより配信される前記信号のエネルギーを評価するための手段と、閾値手段とを含む、請求項5に記載のオーディオ装置。
【請求項7】
マイクロホンおよびイヤホンの組合せタイプのオーディオヘッドセットであるオーディオ装置であって、前記ヘッドセットは、
それぞれが音声信号の音声を再生するための変換器を含み、耳周囲のクッションを設けられた殻内に収容されたイヤピースと、
前記イヤピースの一方の前記殻上に配置された前記2つのマイクロホンセンサと、
前記イヤピースの一方の前記クッション内に内蔵され、前記ヘッドセットの装着者の頬またはこめかみと接触するのに適した、イヤピースの領域内に配置された前記生体センサとを含む、請求項6に記載のオーディオ装置。
【請求項8】
前記2つのマイクロホンセンサは、前記装置の前記ユーザの口に向かって方向付けられた主方向上のリニアアレイとして並ぶ、請求項7に記載のオーディオ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ノイズの多い環境における音声の処理に関する。
【0002】
本発明は、具体的には、ノイズの多い環境において使用するための「ハンズフリー」タイプの電話デバイスによりピックアップされる音声信号の処理に関する。
【背景技術】
【0003】
これらの装置は、ユーザの声だけでなく、いくつかの状況下で、話者の音声を不明瞭にまでする可能性がある妨害成分を構成する環境ノイズもピックアップする、1つまたは複数の高感度のマイクロホンを有する。同じことは、音声認識技法を実行することが望ましいときに当てはまるが、それは、高レベルのノイズに埋もれている言葉の形状認識を実行することが極めて難しいためである。
【0004】
特に、環境ノイズに関するこの問題は、自動車内の「ハンズフリー」デバイスが、自動車に内蔵される装置、または、電話通信用の信号を処理するための部品および機能のすべてを内蔵する着脱可能ユニットの形態の付属品を含むかどうかにかかわらず、それらのデバイスを拘束している。
【0005】
マイクロホン(ダッシュボード上またはキャビンの天井の上隅部に配置される)と、話者(その位置が、運転位置により決定される)との間の大きい距離は、比較的高いレベルのノイズがピックアップされ、それにより、ノイズに埋もれた有用な信号を抽出することを難しくすることを意味する。さらに、自動車環境に特有の極めてノイズの多い環境は、安定することなく、すなわち、凸凹道または丸石上の走行、動作中のカーラジオなどの運転状態に応じて予測不可能に変化するスペクトル特性を示す。
【0006】
ヘッドセットが接続される装置から生じる音源(音楽など)を聴くのに加えて、デバイスが、「ハンズフリー」電話機能などの通信機能に使用されるマイクロホンおよびイヤホンの組合せタイプのオーディオヘッドセットであるとき、同じ種類の問題が生じる。
【0007】
そうした状況下で、マイクロホンによりピックアップされる信号、すなわち、近傍の話者(ヘッドセット装着者)からの音声信号の十分な明瞭性を確実にすることが重要である。都合が悪いことに、ノイズの多い環境(地下鉄、混雑した街路、列車など)で使用する可能性があり、マイクロホンは、ヘッドセット装着者の音声だけでなく、環境の干渉ノイズもピックアップするようになる。実際に、特にヘッドセットが耳を外部から遮断する密閉イヤピースを有するモデルであるとき、装着者は、ヘッドセットによりノイズから保護され、ヘッドセットに「能動ノイズ制御」を提供されるとき、なおさらそうである。対照的に、離れた話者(通信チャネルの他端の話者)は、マイクロホンによりピックアップされる干渉ノイズを受け、干渉ノイズは、近傍の話者(ヘッドセットの装着者)からの音声信号と重なり、干渉する。特に、声を理解するために必要ないくつかの音声フォルマントは、日常の環境で通常遭遇するノイズ成分にしばしば埋もれる。
【0008】
より具体的には、本発明は、有用な音声成分を干渉ノイズ成分から遮断するために適当な方法で、両マイクロホンにより同時にピックアップされる信号を組み合わせるために、複数のマイクロホン、通常、2つのマイクロホンを実装するノイズ除去技法に関する。
【0009】
従来の技法は、一方のマイクロホンが主に話者の声をピックアップするように、そのマイクロホンを配置し、それを方向付ける一方、主マイクロホンによりピックアップされるノイズ成分よりも大きいノイズ成分をピックアップするように、他方のマイクロホンを配置することにある。次いで、ピックアップされた信号の比較は、比較的単純なソフトウェア手段を使用して、2つの信号間の空間的整合性を分析することにより、声を環境ノイズから抽出することを可能にする。
【0010】
米国特許出願公開第2008/0280653(A1)号は、1つのそうした構成を説明し、一方のマイクロホン(主に声をピックアップするマイクロホン)は、自動車ドライバに装着されるワイヤレスイヤホンのマイクロホンである一方、他方のマイクロホン(主にノイズをピックアップするマイクロホン)は、自動車キャビン内に離れて配置され、例えばダッシュボードに取り付けられる電話装置のマイクロホンである。
【0011】
それでも、この技法は、その効果がマイクロホン間の距離の増大と共に増大する互いに離間した2つのマイクロホンを必要とするという、欠点を示す。その結果、この技法は、2つのマイクロホンが自動車のカーラジオの前部に内蔵されている場合、または2つのマイクロホンがオーディオヘッドセットのイヤピースの殻の一方に配置されている場合など、2つのマイクロホンが互いに近接しているデバイスには適用することができない。
【0012】
「ビーム形成」として知られている別の技法は、マイクロホンアレイまたは「アンテナ」の信号対ノイズ比を改善するように働く指向性を作るソフトウェア手段を使用することにある。米国特許出願公開第2007/0165879(A1)号は、1つのそうした技法を説明し、背面合せで配置される無指向性のマイクロホンの対に適用される。マイクロホンがピックアップする信号の適応型フィルタリングは、音声成分が増強された出力信号を取り出すことを可能にする。
【0013】
それでも、そうした方法は、少なくとも8つのマイクロホンのアレイを有する条件でのみ良好な結果をもたらし、2つのマイクロホンのみを使用するときは、性能が極めて限定されることがわかる。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】米国特許出願公開第2008/0280653(A1)号
【特許文献2】米国特許出願公開第2007/0165879(A1)号
【特許文献3】WO2007/099222A1
【非特許文献】
【0015】
【非特許文献1】B.Widrow、Adaptive Filters、Aspect of Network and System Theory、R.E.Kalman and N.De Claris Eds.、New York、Holt,Rinehart and Winston、563〜587頁、1970年
【非特許文献2】B.Widrow et al.、Adaptive Noise Cancelling、Principles and Applications、Proc.IEEE、Vol.63、No.12 1692〜1716頁,1975年12月
【非特許文献3】B.Widrow and S.Stearns、Adaptive Signal Processing、Prentice−Hall Signal Processing Series、Alan V.Oppenheim Series Editor、1985年
【非特許文献4】G.Potamianos et al.、Audio−Visual Automatic Speech Recognition、An Overview、Audio−Visual Speech Processing、G.Bailly et al.Eds.、MIT Press、1〜30頁、2004年
【発明の概要】
【発明が解決しようとする課題】
【0016】
そうした文脈では、本発明の全体的な課題は、近傍の話者(自動車のドライバまたはヘッドセットの装着者)の環境に存在する外部ノイズの干渉成分を音声信号から除去することにより、近傍の話者により発される音声を示す音声信号を離れた話者に配信するために、効果的にノイズを除去することである。
【0017】
さらに、そうした状況では、本発明の課題は、マイクロホンの数が少なく(有利には2つのみ)、さらにマイクロホンが互いに比較的近接している(一般的には数センチメートルのみ離れて位置する)、1組のマイクロホンを使用することができることである。
【0018】
課題の別の重要な態様は、自然で明瞭な、すなわち歪みのなく、有用な周波数スペクトルがノイズ除去処理により除去されていない音声信号を再生する必要性である。
【課題を解決するための手段】
【0019】
このため、本発明は、上述した米国特許出願公開第2008/0280653(A1)号に開示された一般的なタイプのオーディオ装置、すなわち、本装置のユーザの音声をピックアップし、それぞれのノイズの多い音声信号を配信するのに適した2つのマイクロホンセンサの組と、マイクロホンセンサにより配信される音声信号をサンプリングするためのサンプリング手段と、音声信号のノイズ除去を行うためのノイズ除去手段において、2つのマイクロホンセンサにより配信される音声信号のサンプルを入力として受け取り、装置のユーザにより発される音声を示すノイズ除去音声信号を出力として配信する、ノイズ除去手段とを含む、オーディオ装置を提案する。ノイズ除去手段は、2つのマイクロホンセンサにより配信される信号を結合するための適応型フィルタコンバイナにおいて、一方のマイクロホンセンサによりピックアップされるノイズを、他方のマイクロホンセンサにより配信される信号により与えられるノイズ参照信号に基づいて除去するように反復探索により動作する、適応型フィルタコンバイナを含む、非周波数ノイズ低減手段である。
【0020】
本発明によれば、適応型フィルタは、サンプリング手段のサンプリング周期よりも短い遅延量をモデル化するのに適した小数遅延フィルタである。本装置は、音声の存在または不在を示す信号を、装置のユーザから配信するのに適した音声活動検出器手段をさらに含み、適応型フィルタは、i)音声が存在しないとき、フィルタパラメータ用の適応型探索を実行し、ii)または別に音声が存在するとき、フィルタのこれらのパラメータを「固定」するために、選択的に働くように、音声の存在または不在の信号を入力としてさらに受け取る。
【0021】
適応型フィルタは、以下のように、特に、最適化フィルタHを推定するのに適している。
【0022】
【数1】
ここで、
【数2】
および、G(k)=sinc(k+τ/Te)、
【数3】
は、小数遅延量を含むインパルス応答のために、2つのマイクロホンセンサ間に伝達するノイズの推定最適化フィルタHを示す。
【0023】
【数4】
は、2つのマイクロホンセンサ間の推定小数遅延フィルタGを示す。
【0024】
【数5】
は、環境の推定音響応答を示す。
【0025】
【数6】
は、重畳和を示す。
x(n)は、フィルタHへの信号入力のサンプルの級数である。
x’(n)は、オフセット量が遅延量τの級数x(n)である。
Teは、フィルタHへの信号入力のサンプリング周期である。
τは、Teの約数に等しい、前記小数遅延量である。
sincは、カーディナルサイン関数を示す。
【0026】
適応型フィルタは、最小2乗平均(LMS)タイプの線形予測アルゴリズムを有するフィルタであることが好ましい。
【0027】
一実施形態では、本装置は、本装置のユーザに向かって方向付けられ、ユーザの画像をピックアップするのに適したビデオカメラを含み、音声活動検出器手段は、カメラにより生成された信号を分析し、前記ユーザからの、音声の存在または不在を示す前記信号を応答的に配信するのに適したビデオ分析手段を含む。
【0028】
別の実施形態では、本装置は、内部骨伝導により伝達される非音響音声振動をピックアップするために、本装置のユーザの頭部に結合するように、ユーザの頭部と接触するのに適した生体センサを含み、音声活動検出器手段は、特に、生体センサにより配信される信号のエネルギーを評価し、それを閾値と比較することにより、生体センサにより配信された信号を分析し、前記ユーザによる音声の存在または不在を示す前記信号を応答的に配信するのに適した手段を含む。
【0029】
特に、本装置は、マイクロホンおよびイヤホンの組合せタイプのオーディオヘッドセットとすることができ、前記ヘッドセットは、それぞれが音声信号の音声を再生するための変換器を含み、耳周囲のクッションを設けられた殻内に収容されたイヤピースと、イヤピースの一方の殻上に配置された前記2つのマイクロホンセンサと、イヤピースの一方のクッション内に内蔵され、ヘッドセットの装着者の頬またはこめかみと接触するのに適した、イヤピースの領域内に配置された前記生体センサとを含む。これら2つのマイクロホンセンサは、本装置のユーザの口に向かって方向付けられた主方向上のリニアアレイとして並ぶのが好ましい。
【0030】
同一の、または機能的に類似する要素を示すのに、どの図でも同じ参照番号が使用される、添付の図面を参照して本発明のデバイスの実施形態を続いて説明する。
【図面の簡単な説明】
【0031】
図1】本発明のノイズ除去処理が実行される方法を示すブロック図である。
図2】本発明のノイズ除去処理においてモデル化されるカーディナルサイン関数を示すグラフである。
図3a】信号サンプルの級数の様々な点に関する、図2のカーディナルサイン関数を示すグラフである。
図3b】ある小数値だけ時間的にオフセットした同じ信号サンプルの級数に関する、図2のカーディナルサイン関数を示すグラフである。
図4】振幅を縦軸にプロットし、この伝達を示すフィルタの係数を横軸にプロットして、環境の音響応答を示すグラフである。
図5】カーディナルサイン応答を伴う重畳和の後の図4に対応するグラフである。
図6】音声活動を検出するためのカメラを使用することにある一実施形態を示す概略図である。
図7】本発明の教示を適用することができる、マイクロホンおよびイヤホンヘッドセットの組合せユニットの全体図である。
図8図7のヘッドセットの装着者により発される音声を示すノイズ除去信号を出力するために、信号処理をどのように実行することができるかを示す全体ブロック図である。
図9】それぞれ、マイクロホンによりピックアップされる生信号の例、および、音声時間と話者が沈黙している時間とを識別するように働く生体センサによりピックアップされる信号の例に相当する、2つのタイムチャートである。
【発明を実施するための形態】
【0032】
図1は、本発明により実行される様々な機能を示すブロック図である。
【0033】
本発明の処理は、マイクロコントローラまたはデジタル信号プロセッサにより実行される、適当なアルゴリズムに対応する様々な機能ブロックにより示されるソフトウェア手段によって実行される。明瞭に説明するために、様々な機能を異なるモジュールの形態で示すが、複数の機能は、要素を共通に利用し、実際には単一のソフトウェアにより全体が実行される複数の機能に対応する。
【0034】
ノイズ除去することが望ましい信号は、図示されている最小構成では、所定の構成で配置される2つのセンサのみのアレイを含むことができるマイクロホンセンサのアレイから生じ、各センサは、対応するそれぞれのマイクロホン10、12により構成される。
【0035】
それでも、本発明は、3つ以上のマイクロホンセンサのアレイ、ならびに/または、複数のマイクロホンの組合せ、および/もしくは他の音声センサの組合せなどの、各センサが単一のマイクロホンよりも複雑な構造により構成されるマイクロホンセンサに一般化することができる。
【0036】
マイクロホン10、12は、有効な信号源により発される信号(話者からの音声信号)をピックアップするマイクロホンであり、2つのマイクロホン間の位置の差が、有効な信号源からピックアップされる信号の位相オフセット量および振幅変動量の組をもたらす。
【0037】
実際に、両マイクロホン10および12は、自動車キャビンの天井上、カーラジオのフロントプレート上、またはダッシュボード上の適当な場所、またはオーディオヘッドセットのイヤピースの一方のシェルの真上などで互いに数センチメートルだけ離間した全方向性マイクロホンである。
【0038】
以下に説明するように、本発明の技法により、互いに極めて近接するマイクロホンを用いても、効果的なノイズ除去を行うことが可能になり、すなわち、それらのマイクロホンが互いに間隔dだけ離間しているとき、一方のマイクロホンによりピックアップされ、次いで他方のマイクロホンよりピックアップされる信号の最大位相遅延が、信号をデジタル化するのに使用されるコンバータのサンプリング周期よりも小さくなるようにする。これは、サンプリング周波数Fが8キロヘルツ(kHz)であるときの、4.7センチメートル(cm)程度の最大距離d(2倍の周波数でサンプリングするとき、間隔dはその半分など)に相当する。
【0039】
近傍の話者により発される音声信号は、他方のマイクロホンよりも前に一方のマイクロホンに到達し、したがって、遅延ひいては、ほぼ一定の位相シフト
【数7】
を示す。ノイズに関して、実際に、2つのマイクロホン10と12との間に位相シフトも存在する可能性がある。対照的に、位相シフトの概念は、入射波が進行している方向の概念に関係するので、ノイズの位相シフトは、音声の位相シフトと異なることが予想される可能性がある。例えば、指向性ノイズが、口からの方向とは反対方向に進行しているとき、指向性ノイズの位相シフトは、音声の位相シフトが
【数8】
であるとき、
【数9】
となる。
【0040】
本発明では、マイクロホン10および12によりピックアップされる信号のノイズ低減は、(従来のノイズ除去技法の場合によくあるように)周波数領域では実行されず、むしろ、時間領域で実行される。
【0041】
このノイズ低減は、LMSタイプの予測フィルタ16を実行する適応型コンバイナ14により、一方のマイクロホン(例えばマイクロホン10)と他方のマイクロホン(すなわちマイクロホン12)との間の伝達関数を探索するアルゴリズムによって実行される。フィルタ16からの出力は、フィルタ16に再び加えられるノイズ除去信号Sをもたらすために、18においてマイクロホン10からの信号より減算され、フィルタ16の予測誤差の関数として反復的に適応させることができるようにする。したがって、マイクロホン10によりピックアップされる信号に含まれるノイズ成分(ノイズの伝達を特定する伝達関数)を予測するのに、マイクロホン12によりピックアップされる信号を使用することができる。
【0042】
2つのマイクロホン間の伝達関数の適応型探索は、音声が存在しない段階中だけ実行される。このため、音声活動検出器(VAD)20がセンサ22の制御の下で近傍の話者が話していないことを示すときだけ、フィルタ16の反復適応が活動する。この機能は、スイッチ24により示され:音声活動検出器20により確認される音声信号が存在しないとき、適応型コンバイナ14は、ノイズ成分を低減するために、2つのマイクロホン10と12との間の伝達関数を最適化しようとし(図に示すように、スイッチ24は閉鎖位置である);対照的に、音声活動検出器20により確認される音声信号が存在するとき、適応型コンバイナ14は、フィルタ16のパラメータを音声が検出される直前にそれらのパラメータが有していた値に「固定」し(スイッチ24を開放する)、それにより、近傍の話者からの音声信号のいかなる劣化も回避する。
【0043】
このように進行することは、近傍の話者が話すのをやめる度にフィルタ16のパラメータの更新が行われれば、フィルタ16のパラメータの更新が極めて頻繁であるので、変化しているノイズの多い環境が存在しても、問題ないことが観測されるはずである。
【0044】
本発明によれば、適応型コンバイナ14のフィルタリングは、小数遅延(fractional delay)フィルタリングであり、すなわち、適応型コンバイナ14は、信号のデジタル化サンプルの時間よりも短い遅延量を考慮しながら、2つのマイクロホンによりピックアップされる信号間にフィルタリングを適用するように働く。
【0045】
通過帯域[0,Fe/2]の時間変化信号x(t)は、離散級数x(k)で完全に再構成することができることが知られているが、サンプルx(k)は、時刻k.Te(Te=1/Feはサンプリング周期である)において、x(t)の値に相当する。
【0046】
数式は、以下の通りである。
【0047】
【数10】
【0048】
カーディナルサイン関数sincは、以下のように定義される。
【0049】
【数11】
【0050】
図2は、この関数sinc(t)のグラフ表示である。
【0051】
わかるように、この関数は、急激に減少し、総和の中で有限で比較的少ない数の係数kで、実際の結果の極めて良好な近似値を与えるという結果を伴う。
【0052】
サンプリング周期Teでデジタル化される信号に関して、2つのサンプル間の時間間隔またはオフセット量は、時間的にTe秒(s)の時間に相当する。
【0053】
したがって、ピックアップされる信号のn個の連続するデジタル化サンプルの級数x(n)は、すべての整数nに関して以下の式により示すことができる。
【0054】
【数12】
【0055】
sinc項は、k=n以外のすべてのkに関して0であることが観測されるはずである。
【0056】
図3aは、この関数のグラフ表示を与える。
【0057】
小数値τ、すなわち1つのデジタル化サンプルの時間Teよりも短い遅延量だけオフセットした、同じ級数x(n)を計算したいとき、以上の式は、以下のようになる。
【0058】
【数13】
【0059】
図3bは、τ=0.5(サンプルの1/2)の小数値の例に関する、この関数のグラフ表示を与える。
【0060】
級数x’(n)(τオフセットした級数)は、以下のように、非因果性フィルタGによるx(n)の重畳和となることがわかる。
【0061】
【数14】
【0062】
したがって、以下のように、最適化フィルタGの推定値
【数15】
を決定することが必要である。
【0063】
【数16】
および、G(k)=sinc(k+τ/Te)
【0064】
【数17】
は、小数遅延量を含む、2つのマイクロホン間のノイズの伝達に関する推定値であり、
【数18】
は、環境の音響応答の推定値である。
【0065】
2つのマイクロホン間のノイズ伝達フィルタを推定するために、推定値
【数19】
は、以下の誤差を最小化するフィルタに相当する。
【0066】
【数20】
MicFront(n)およびMicBack(n)は、マイクロホンセンサ10および12からの信号のそれぞれの値である。
【0067】
このフィルタは、非因果性の特性を有し、すなわち、将来のサンプルを使用する。実際に、このことは、時間遅延量が、アルゴリズム処理を実行するときに導かれることを意味する。フィルタは非因果性であるので、フィルタは、小数遅延量をモデル化することができ、したがって、
【数21】
と書くことができる(一方、従来の因果性フィルタの場合には、式は
【数22】
となる)。
【0068】
具体的には、アルゴリズムでは、
【数23】
は、
【数24】
および
【数25】
を別々に推定する、いかなる必要性も存在することなく、上述の誤差e(n)を最小化することにより、直接推定される。
【0069】
従来の因果性の場合(例えばエコー除去フィルタの場合)には、最小化する誤差e(n)は、以下のような発展形式で書かれる。
【0070】
【数26】
ここで、Lは、フィルタ長である。
【0071】
本発明(非因果性フィルタ)の場合には、誤差は、以下のようになる。
【0072】
【数27】
【0073】
将来のサンプルを考慮するために、フィルタ長が2倍になることが観測されるはずである。
【0074】
フィルタHの予測値は、音声が存在しないとき、参照値としてマイクロホン12を使用して、マイクロホン10からのノイズを理想的に除去する小数遅延フィルタを与える(上述のように、音声時間中、フィルタは、局所的な音声のいかなる劣化も回避するために「固定」される)。
【0075】
具体的には、マイクロホン10とマイクロホン12との間のノイズの伝達を推定する適応型アルゴリズムにより計算されるフィルタ
【数28】
は、2つのフィルタ
【数29】
および
【数30】
の重畳和
【数31】
と見なすことができる。ここで、
【数32】
は、(カーディナルサイン波形を有する)小数部分に相当し、
【数33】
は、2つのマイクロホン間の音響伝達、すなわち、フィルタが動作している環境の音響を示す、システムの「環境」部分に相当する。
【0076】
図4は、フィルタFの係数kの関数として振幅Aを与える特性曲線の形態の、2つのマイクロホン間の音響応答の例を示す。自動車キャビンの窓または他の壁上などの環境に応じて生じる可能性がある様々な音響反射は、この音響応答特性曲線に見ることができるピークをもたらす。
【0077】
図5は、重畳和フィルタの係数kの関数として振幅Aを与える特性曲線の形態の2つのフィルタG(カーディナルサイン応答)およびF(使用環境)の重畳和
【数34】
の結果の例を示す。
【0078】
推定値
【数35】
は、最適化フィルタに収束するために、誤差
【数36】
を最小化しようとする反復LMSアルゴリズムにより計算することができる。
【0079】
LMSタイプ、または、LMSタイプの規格化バージョンである規格化LMS(NLMS)タイプのフィルタは、比較的単純であり、大量の計算資源を必要としないアルゴリズムである。これらのアルゴリズムは、それ自体、例えば以下に記載するように知られている。
[1]B.Widrow、Adaptive Filters、Aspect of Network and System Theory、R.E.Kalman and N.De Claris Eds.、New York、Holt,Rinehart and Winston、563〜587頁、1970年、
[2]B.Widrow et al.、Adaptive Noise Cancelling、Principles and Applications、Proc.IEEE、Vol.63、No.12 1692〜1716頁,1975年12月、
[3]B.Widrow and S.Stearns、Adaptive Signal Processing、Prentice−Hall Signal Processing Series、Alan V.Oppenheim Series Editor、1985年。
【0080】
上述のように、以上の処理を可能にするために、音声が存在しない段階(フィルタの適応が、ノイズ評価を最適化するように働く間)と音声が存在する段階(フィルタのパラメータが、それらの最近見つけられた値に「固定(フリーズ)」される時間)とを識別することを可能にする音声活動検出器を有することが必要である。
【0081】
より正確には、この例では、音声活動検出器は、「完全」な検出器とし、すなわち、音声活動検出器は、バイナリ信号(音声が存在するか否か)を配信するのが好ましい。したがって、この音声活動検出器は、既知のノイズ除去システムに使用されるほとんどの音声活動検出器が、連続的に、または連続したステップで0から100%の間で確率的に変化する、音声の存在確率のみを配信するため、既知のノイズ除去システムに使用される音声活動検出器とは異なる。音声の存在確率のみに基づく、そうした検出器を用いれば、ノイズの多い環境では、偽検出は、重大である可能性がある。
【0082】
「完全」であるために、音声活動検出器は、マイクロホンによりピックアップされる信号だけに依存することはできず、音声の段階と、近傍の話者が沈黙している段階とを識別することを可能にする追加情報を有しなければならない。
【0083】
そうした検出器の第1の実施例を図6に示し、音声活動検出器20は、カメラにより生成される信号に応答して動作する。
【0084】
例えば、カメラは、自動車キャビンに取り付けられ、その視野28が、あらゆる状況下で、近傍の話者であると見なされるドライバの頭部30をカバーするように方向付けられたカメラ26である。口および唇の動きに基づいて話者が話しているか否かを決定するために、カメラ26により配信された信号が分析される。
【0085】
このため、具体的に下記のものに説明されるものなどの、顔画像中の口領域を検出するためのアルゴリズム、および唇の輪郭を追跡するためのアルゴリズムを使用することができる。
[4]G.Potamianos et al.、Audio−Visual Automatic Speech Recognition、An Overview、Audio−Visual Speech Processing、G.Bailly et al.Eds.、MIT Press、1〜30頁、2004年。
【0086】
この文献は、特に劣化した音響状態の音声を認識するために、音声信号に加えて視覚情報の寄与を一般的に説明する。このように、ビデオデータは、音声情報を改善するために、従来の音声データに追加される(音声向上)。
【0087】
そうした処理は、本発明の文脈では、話者が話している段階と、話者が沈黙している段階とを識別するために使用することができる。自動車キャビン内のユーザの動きが緩慢でありながら、口の動きが速いことを考慮するために、例えば、口に焦点を合わされると、2つの連続する画像を比較し、所与のピクセルのシフトを評価することができる。
【0088】
この画像分析技法の利点は、それが音響ノイズ環境から完全に独立する追加情報を提供することである。
【0089】
音声活動の「完全」な検出に適したセンサの別の実施例は、環境ノイズが仮にあっても、それによりほとんど破壊されない、話者の一定の音声振動を検出するのに適した生体センサである。
【0090】
そうしたセンサは、特に、話者の頬またはこめかみに適用される加速度計または圧電センサにより構成することができる。
【0091】
人が音声(すなわち、声帯の振動に付随して生成される音声成分)を発しているとき、振動は、声帯から咽頭および口鼻腔に伝播し、変調され、増幅され、調整される。その際、口、軟口蓋、咽頭、副鼻腔、および鼻腔は、この音声の共鳴器として働き、それらの壁には弾性があるので、それらの壁は、次々に振動し、それらの振動は、内部骨伝導により伝達され、頬およびこめかみを介して感知することができる。
【0092】
頬およびこめかみのこれらの振動は、まさにその本質から、環境ノイズによってはほとんど破壊されない特性を示すが、外部ノイズが存在するとき、それが極めて大きいノイズであっても、頬およびこめかみの組織は、ほとんど振動することなく、このことは、外部ノイズのスペクトル成分にかかわらず、当てはまる。
【0093】
ノイズのないこれらの音声振動をピックアップする生体センサは、話者により発される音声の存在または不在を示す信号を与え、したがって、音声の段階と、話者が沈黙している段階とを極めて良好に識別する。
【0094】
そうした生体センサは、具体的には、図7に示す種類のマイクロホンおよびイヤホンの組合せヘッドセットユニットに内蔵することができる。
【0095】
この図では、符号32は、本発明のヘッドセット全体の符号であり、それは、ヘッドバンドにより結合された2つのイヤピース34を含む。イヤピースのそれぞれは、音声再生変換器を収容する密閉殻36により構成され、耳を外部から遮断する間置クッション38をユーザの耳の周りに押し当てるのが好ましい。
【0096】
音声活動を検出するのに使用される生体センサ40は、例えば、ユーザの頬またはこめかみに押し当てて可能な限り近くで結合するように、クッション38に内蔵される加速度計とすることができる。生体センサ40は、具体的には、クッション38の表皮の内側面上に配置することができ、ヘッドセットが適当な位置にくると、センサは、クッションの材料が平らになることから生じる少量の圧力の効果の下で、ユーザの頬またはこめかみに押し当てられるようにし、クッションの外表皮のみがその間に配置される。
【0097】
ヘッドセットは、さらに、話者の音声をピックアップし、そのノイズを除去するための回路を有するマイクロホン10および12を保持する。これら2つのマイクロホンは、殻36をベースとする全方向性マイクロホンであり、これらのマイクロホンは、マイクロホン10を前(ヘッドセットの装着者の口のより近く)に配置し、マイクロホン12をより後ろに配置して構成される。さらに、2つのマイクロホン10および12が並ぶ方向42は、ヘッドセットの装着者のほぼ口44の方を向く。
【0098】
図8は、図7のマイクロホンおよびヘッドセットのユニットにより実行される様々な機能を示すブロック図である。
【0099】
この図は、2つのマイクロホン10および12を音声活動検出器20と共に示す。前部マイクロホン10が、主マイクロホンであり、後部マイクロホン12が、コンバイナ14の適応型フィルタ16に入力を供給する。音声活動検出器20は、例えば、生体センサ40により配信される信号の出力を以下のように平滑化しながら、前記生体センサ40により配信される信号により制御される。
【0100】
Powersensor(n)=α.Powersensor(n−1)+(1−α).(sensor(n))
αは、1に近い平滑化定数である。その際、αは、話者が話し始めると直ちに閾値を超えるように、閾値ξを設定するのに十分となる。
【0101】
図9は、以下のような、ピックアップされる信号の外形を示す。
【0102】
・上のタイムチャートの信号S10は、前部マイクロホン10によりピックアップされる信号に相当し、この(ノイズの多い)信号に基づいて、音声が存在する段階と、音声が存在しない段階とを効果的に識別することが不可能であることがわかる。
【0103】
・下のタイムチャートの信号S40は、生体センサ40により同時に配信される信号に相当し、音声が存在し、および存在しない連続する段階は、その中で極めて明確に識別される。VADが参照されるバイナリ信号は、信号S40の出力を評価し、それを所定の閾値ξと比較した後、音声活動検出器20により配信される指示値(「1」=音声が存在する、「0」=音声が存在しない)に相当する。
【0104】
生体センサ40により配信される信号は、音声活動検出器への入力信号としてだけでなく、特にスペクトルの低周波数領域において、マイクロホン10および12によりピックアップされる信号を質的に向上させるための信号としても使用することができる。
【0105】
当然、音声に相当する、生体センサにより配信される信号は、音声が声から形成されるだけでなく、声帯から生じたものでない成分も含むので、適切に話す音声ではないが、周波数成分は、例えば、咽頭から生じ、口から発する音声を極めて豊富にすることができる。さらに、内部骨伝導および皮膚を通じた伝達は、いくつかの音声成分をフィルタ除去する効果を有する。
【0106】
それに加えて、こめかみまたは頬全体にわたって伝播する振動によるフィルタリングのために、生体センサによりピックアップされる信号は、低周波数、主に音声スペクトルの低い領域(通常、0〜1500ヘルツ(Hz))でのみ使用するのに適している。
【0107】
しかし、日常の環境で通常遭遇するノイズ(街路、地下鉄、列車など)は、主に低周波数に集中しているので、生体センサからの信号は、本質的にいかなる寄生ノイズ成分もない重要な利点を提供し、その結果、この信号をスペクトルの低領域で使用する一方、マイクロホン10および12によりピックアップされる(ノイズの多い)信号が適応型コンバイナ14により実行されるノイズ低減を受けた後、それらの信号を有する、この信号をスペクトルの高領域(約1500Hz)に関係付けることができる。
【0108】
完全なスペクトルは、生体センサ40からのスペクトルの低領域に関する信号、および適応型コンバイナ14によりノイズ除去された後のマイクロホン10および12からのスペクトルの高領域に関する信号を並列に受け取る混合器ブロック46により再構成される。この再構成は、いかなる変形も回避するために混合器ブロック46に同期して加えられる信号を総和することにより実行される。
【0109】
ブロック46により配信される得られた信号は、回路48により最終的なノイズ低減を受けることができ、このノイズ低減は、最終的なノイズ除去信号Sを出力するために、例えばWO2007/099222A1(Parrot)に説明されるものに相当する従来の技法を使用して、周波数領域で実行される。
【0110】
それでも、この技法の実行は、例えば、上述の文献の教示と比較して大幅に単純化されている。現在の状況では、もはやピックアップされる信号に基づいて音声の存在確率を評価する必要がないが、それは、この情報を、生体センサ40により実行される音声の発生の検出に応答して、音声活動検出器ブロック20から直接取得することができるためである。したがって、アルゴリズムを、単純化し、より効果的、かつより高速にすることができる。
【0111】
有利なことに、周波数ノイズ低減は、音声が存在するとき、および音声が存在しないとき(完全な音声活動検出器20により与えられる情報)で別々に実行される。
【0112】
・音声が存在しないとき、ノイズ低減は、すべての周波数帯域で最大化され、すなわち、最大ノイズ除去に対応するゲインは、信号成分のすべてに同様に適用される(そうした環境の下で、信号成分は、いかなる有用な成分も含まないことは確かなので)。
【0113】
・対照的に、音声が存在するとき、ノイズ低減は、従来の方法で各周波数帯域に別々に適用される周波数低減である。
【0114】
上述のシステムは、優れた全体性能を獲得することを可能にし、ノイズ低減は、通常、近傍の話者からの音声信号に関して30デシベル(dB)〜40dB程度である。適応型コンバイナ14は、マイクロホン10および12によりピックアップされる信号に対して動作するので、適応型コンバイナ14は、高周波数範囲で極めて良好なノイズ除去性能を獲得するために、特に小数遅延フィルタリングを用いて働く。
【0115】
干渉ノイズのすべてを除去することにより、離れた話者(ヘッドセットの装着者が通信する話者)は、他の関係者(ヘッドセットの装着者)が無音の部屋にいる印象を与えられる。
図1
図2
図3a
図3b
図4
図5
図6
図7
図8
図9