(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】コヒーレンスを使用した信号コンポーネント推定
(51)【国際特許分類】
G10L 21/0232 20130101AFI20231129BHJP
G10L 25/18 20130101ALI20231129BHJP
【FI】
G10L21/0232
G10L25/18
(21)【出願番号】P 2021564798
(86)(22)【出願日】2020-04-30
(86)【国際出願番号】 US2020030742
(87)【国際公開番号】W WO2020223495
(87)【国際公開日】2020-11-05
【審査請求日】2021-11-18
(32)【優先日】2019-05-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】591009509
【氏名又は名称】ボーズ・コーポレーション
【氏名又は名称原語表記】BOSE CORPORATION
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】シウフン・チュン
(72)【発明者】
【氏名】ズクイ・ソン
(72)【発明者】
【氏名】クリスティアン・マリウス・ヘラ
(72)【発明者】
【氏名】ディヴィス・ワイ・パン
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2003-188776(JP,A)
【文献】特開2012-227566(JP,A)
【文献】特開2015-169900(JP,A)
【文献】阿部江美子 他,"音声強調における反復ウィーナーフィルタの諸特性",電子情報通信学会技術研究報告,2014年12月11日,Vol.114, No.370,pp.25-30
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-25/93
H04B 3/20
H04M 1/60
(57)【特許請求の範囲】
【請求項1】
信号コンポーネントのパワースペクトル密度を推定するための方法であって、
1つ以上の処理デバイスにおいて、マイクロホンを使用して捕捉された音声を表す入力信号を受信することであって、前記入力信号が、少なくとも、環境内の第1の音声ソースからの音響出力を表す第1の部分と、前記環境内の他の音響エネルギーを表す第2の部分と、を含む、受信することと、
前記1つ以上の処理デバイスによって、前記入力信号の周波数領域表現を反復的に修正することであって、それにより、前記修正された周波数領域表現が、前記第1及び第2の部分の選択されたもの以外の全てによる影響が実質的に低減された前記入力信号の部分を表すようになり、前記入力信号の周波数領域表現は、自動スペクトル及びクロススペクトルの密度行列を含み、前記入力信号の周波数領域表現を反復的に修正することは、自動スペクトル及びクロススペクトルの前記密度行列に対して反復行列対角化を行うことを含む、反復的に修正することと、
前記修正された周波数領域表現から、前記選択された部分のパワースペクトル密度の推定値を判定することと、
前記推定されたパワースペクトル密度に基づいてマイクロホン信号のノイズ若しくはエコーを低減することか、又は前記推定されたパワースペクトル密度に基づいて遠端システムにノイズを挿入することのうちの少なくとも1つを行うことと、を含む、方法。
【請求項2】
前記周波数領域表現
に含まれる値が、いくつもの周波数ビンの各々について、
(i)特定の周波数ビンに対する前記第1の音声ソースの音響出力のパワーを各々表す値と、
(ii)前記第1の音声ソースの前記音響出力と前記入力信号との間のコヒーレンスのレベルを各々表す値と、
によって表される、請求項1に記載の方法。
【請求項3】
前記周波数領域表現
に含まれるクロススペクトル密度行列が、前記第1の音声ソースの出力に基づいて計算されたクロススペクトル密度行列
である、請求項1に記載の方法。
【請求項4】
前記入力信号が、前記環境内の第2の音声ソースからの音響出力を表す第3の部分を含み、前記選択された部分が、前記第1、第2、又は第3の部分のうちの1つである、請求項1に記載の方法。
【請求項5】
前記周波数領域表現
に含まれる値が、いくつもの周波数ビンの各々について、
(i)前記第1及び第2の音声ソースからの音響出力間のコヒーレンスのレベルを各々表す値と、
(ii)前記第1及び第2の音声ソースの特定のものの音響出力と前記入力信号との間のコヒーレンスのレベルを各々表す値と、
(iii)前記第1及び第2の音声ソースのうちの1つの特定の周波数ビンの音響出力のパワーを各々表す値と、
によって表される、請求項
4に記載の方法。
【請求項6】
前記周波数領域表現
に含まれるクロススペクトル密度行列が、前記第1及び第2の音声ソースの出力に基づいて計算されたクロススペクトル密度行列
である、請求項
4に記載の方法。
【請求項7】
システムであって、
1つ以上の処理デバイスを含む信号分析エンジンを含み、前記信号分析エンジンが、
マイクロホンを使用して捕捉された音声を表す入力信号を受信することであって、前記入力信号が、少なくとも、環境内の第1の音声ソースからの音響出力を表す第1の部分と、前記環境内の他の音響エネルギーを表す第2の部分と、を含む、受信することと、
前記入力信号の周波数領域表現を反復的に修正することであって、それにより、前記修正された周波数領域表現が、前記第1及び第2の部分の選択されたもの以外の全てによる影響が実質的に低減された前記入力信号の部分を表すようになり、前記入力信号の周波数領域表現は、自動スペクトル及びクロススペクトルの密度行列を含み、前記入力信号の周波数領域表現を反復的に修正することは、自動スペクトル及びクロススペクトルの前記密度行列に対して反復行列対角化を行うことを含む、反復的に修正することと、
前記修正された周波数領域表現から、前記選択された部分のパワースペクトル密度の推定値を判定することと、
前記推定されたパワースペクトル密度に基づいてマイクロホン信号のノイズ若しくはエコーを低減することか、又は前記推定されたパワースペクトル密度に基づいて遠端システムにノイズを挿入することのうちの少なくとも1つを行うことと、を行うように構成されている、システム。
【請求項8】
前記周波数領域表現
に含まれる値が、いくつもの周波数ビンの各々について、
(i)特定の周波数ビンに対する前記第1の音声ソースの音響出力のパワーを各々表す値と、
(ii)前記第1の音声ソースの前記音響出力と前記入力信号との間のコヒーレンスのレベルを各々表す値と、
によって表される、請求項
7に記載のシステム。
【請求項9】
前記周波数領域表現
に含まれるクロススペクトル密度行列が、前記第1の音声ソースの出力に基づいて計算されたクロススペクトル密度行列
である、請求項
7に記載のシステム。
【請求項10】
前記入力信号が、前記環境内の第2の音声ソースからの音響出力を表す第3の部分を含み、前記選択された部分が、前記第1、第2、又は第3の部分のうちの1つである、請求項
7に記載のシステム。
【請求項11】
前記周波数領域表現
に含まれる値が、いくつもの周波数ビンの各々について、
(i)前記第1及び第2の音声ソースからの音響出力間のコヒーレンスのレベルを各々表す値と、
(ii)前記第1及び第2の音声ソースの特定のものの音響出力と前記入力信号との間のコヒーレンスのレベルを各々表す値と、
(iii)前記第1及び第2の音声ソースのうちの1つの特定の周波数ビンの音響出力のパワーを各々表す値と、
によって表される、請求項
10に記載のシステム。
【請求項12】
前記周波数領域表現
に含まれるクロススペクトル密度行列が、前記第1及び第2の音声ソースの出力に基づいて計算されたクロススペクトル密度行列
である、請求項
10に記載のシステム。
【請求項13】
1つ以上の機械可読記憶デバイスであって、前記1つ以上の機械可読記憶デバイスにおいて符号化されたコンピュータ可読命令を有し、前記コンピュータ可読命令は、1つ以上の処理デバイスに、
1つ以上の処理デバイスにおいて、マイクロホンを使用して捕捉された音声を表す入力信号を受信することであって、前記入力信号が、少なくとも、環境内の第1の音声ソースからの音響出力を表す第1の部分と、前記環境内の他の音響エネルギーを表す第2の部分と、を含む、受信することと、
前記1つ以上の処理デバイスによって、前記入力信号の周波数領域表現を反復的に修正することであって、それにより、前記修正された周波数領域表現が、前記第1及び第2の部分の選択されたもの以外の全てによる影響が実質的に低減された前記入力信号の部分を表すようになり、前記入力信号の周波数領域表現は、自動スペクトル及びクロススペクトルの密度行列を含み、前記入力信号の周波数領域表現を反復的に修正することは、自動スペクトル及びクロススペクトルの前記密度行列に対して反復行列対角化を行うことを含む、反復的に修正することと、
前記修正された周波数領域表現から、前記選択された部分のパワースペクトル密度の推定値を判定することと、
前記推定されたパワースペクトル密度に基づいてマイクロホン信号のノイズ若しくはエコーを低減することか、又は前記推定されたパワースペクトル密度に基づいて遠端システムにノイズを挿入することのうちの少なくとも1つを行うことと、を含む動作を実行させる、記憶デバイス。
【請求項14】
前記周波数領域表現
に含まれる値が、いくつもの周波数ビンの各々について、
(i)特定の周波数ビンに対する前記第1の音声ソースの音響出力のパワーを各々表す値と、
(ii)前記第1の音声ソースの前記音響出力と前記入力信号との間のコヒーレンスのレベルを各々表す値と、
によって表される、請求項
13に記載の記憶デバイス。
【請求項15】
前記周波数領域表現
に含まれるクロススペクトル密度行列が、前記第1の音声ソースの出力に基づいて計算されたクロススペクトル密度行列
である、請求項
13に記載の記憶デバイス。
【請求項16】
前記入力信号が、前記環境内の第2の音声ソースからの音響出力を表す第3の部分を含み、前記選択された部分が、前記第1、第2、又は第3の部分のうちの1つである、請求項
13に記載の記憶デバイス。
【請求項17】
前記周波数領域表現
に含まれる値が、いくつもの周波数ビンの各々について、
(i)前記第1及び第2の音声ソースからの音響出力間のコヒーレンスのレベルを各々表す値と、
(ii)前記第1及び第2の音声ソースの特定のものの音響出力と前記入力信号との間のコヒーレンスのレベルを各々表す値と、
(iii)前記第1及び第2の音声ソースのうちの1つの特定の周波数ビンの音響出力のパワーを各々表す値と、
によって表される、請求項
16に記載の記憶デバイス。
【請求項18】
前記周波数領域表現
に含まれるクロススペクトル密度行列が、前記第1及び第2の音声ソースの出力に基づいて計算されたクロススペクトル密度行列
である、請求項
16に記載の記憶デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権の主張)
本出願は、「SIGNAL COMPONENT ESTIMATION USING COHERENCE」と題する、2019年5月1日に出願された米国出願第62/841,608号に対する優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
多くの音響システム、例えば、自動車の音声システム、会議室システム、電話システムなどは、空間内の音を検出することと、空間内で音を生成することの両方を行う。これらのシステムは、再生変換器、例えば、ラウドスピーカを含んでもよいし、1つ以上のマイクロホンも含んでもよい。様々な例では、空間内の音響エネルギーは、システムによって再生される音声、ユーザ発話などの所望の信号、及びノイズを含み得る他のソースからの音声を含むことがある。音声システムから音声を再生することは、例えば、娯楽音響、遠端参加者からの音響、又は他の音響であってもよい。1つ以上のマイクロホンは、これらの音響信号のいずれか又は全てを拾い上げることができ、様々な用途のために、マイクロホン信号内の再生音響、ノイズ、又は他の信号コンポーネントのうちのいずれかのパワースペクトル密度(PSD)を推定することに利益があり得る。
【発明の概要】
【課題を解決するための手段】
【0003】
一態様では、選択された信号コンポーネントのパワースペクトル密度を推定するための方法が提供され、この方法は、1つ以上の処理デバイスにおいて、マイクロホンを使用して捕捉された音声を表す入力信号を受信することを含む。入力信号は、少なくとも、環境内の第1の音声ソース(例えば、第1のラウドスピーカ)からの音響出力を表す第1の部分と、環境内の他の音響エネルギー(ノイズコンポーネントなど)を表す第2の部分と、を含む。この方法はまた、1つ以上の処理デバイスによって、入力信号の周波数領域表現を反復的に修正することも含む。修正された周波数領域表現は、第1又は第2の部分の選択されたもの以外の全てによる影響が実質的に低減された入力信号の部分を表す。この方法は、修正された周波数領域表現から、選択された部分のパワースペクトル密度の推定値を判定することを更に含んでもよい。
【0004】
別の態様では、1つ以上の処理デバイスを有する信号分析エンジンを含むシステムが提供される。信号分析エンジンは、マイクロホンを使用して捕捉された音声を表す入力信号を受信するように構成されている。入力信号は、少なくとも、環境内の第1の音声ソース(例えば、第1のラウドスピーカ)からの音響出力を表す第1の部分と、環境内の他の音響エネルギー(ノイズコンポーネントなど)を表す第2の部分と、を含む。信号分析エンジンはまた、入力信号の周波数領域表現を反復的に修正するように構成されている。修正された周波数領域表現は、第1又は第2の部分の選択されたもの以外の全てによる影響が実質的に低減された入力信号の部分を表す。信号分析エンジンは、修正された周波数領域表現から、選択された部分のパワースペクトル密度の推定値を判定するように更に構成されている。
【0005】
別の態様では、本文書は、1つ以上の機械可読記憶デバイスを特徴とし、この記憶デバイスは、この記憶デバイスにおいて符号化されたコンピュータ可読命令を有し、コンピュータ可読命令は、1つ以上の処理デバイスに、上記の方法を実行するか、又は上記のシステムを実装するための様々な動作を実行させる。
【0006】
上記の態様の実装は、以下の特徴のうちの1つ以上を含むことができる。
【0007】
様々な例では、入力信号は、追加の部分を含んでもよく、その各々は、環境内の追加の音声ソース(例えば、追加のラウドスピーカ)を表す。選択された部分は、追加の部分のうちのいずれかであってもよい。
【0008】
選択された部分は第2の部分であってもよく、推定されたパワースペクトル密度は、ノイズなどの環境における他の音響エネルギーを表すことがある。そのようなノイズ推定パワースペクトル密度は、ノイズ低減システムによって使用されて、マイクロホン信号からのノイズを低減することができ、及び/又は静止通信システムにおけるノイズを置き換えるために使用されてもよい。選択された部分は第1の部分であってもよく、推定されたパワースペクトル密度は、残留エコー抑制システムに適用され得るエコーを表すことができる。周波数領域表現は、各周波数ビンについて、(i)1つ以上の音声ソースの音響出力間のコヒーレンスのレベルを各々表す値、(ii)音声ソース及び入力信号の特定のものの音響出力と入力信号との間のコヒーレンスのレベルを各々表す値、及び(iii)音声ソースの個々のものの特定の周波数ビンの音響出力のパワーを各々表す値のうちの1つ以上を含むことができる。周波数領域表現は、1つ以上の音声ソースの出力に基づいて計算されたクロススペクトル密度行列を含むことができる。周波数領域表現を反復的に修正することは、クロススペクトル密度行列に行列対角化プロセスを実行することを含むことができる。
【0009】
いくつかの実装では、本明細書に記載される技術は、以下の利点のうちの1つ以上を提供することができる。
【0010】
入力信号の選択された部分のパワースペクトル密度を導出することにより、選択された部分に関する周波数固有情報(様々な用途において直接使用可能である)は、選択された部分の時間波形を判定する際にコンピューティングリソースを浪費することなく直接計算することができる。単一のマイクロホンを使用して捕捉された入力信号に基づいて実装することができる技術は、(入力)音声ソースの数で拡張可能である。高度に相関する音声ソースを入力することは、本明細書に記載される行列演算における1つ以上の行低減ステップを省略することによって、単純に取り扱うことができる。場合によっては、これは、相関したソースの存在下で誤動作することが多い適応的フィルタリング技術対する著しい改善を提供することができる。
【0011】
本概要の項に記載される特徴を含む、本開示に記載される特徴のうちの2つ以上を組み合わせて、特に本明細書に記載されない実装を形成することができる。
【0012】
1つ以上の実装形態の詳細が、添付図面及び以下の説明において述べられる。他の特徴、目的、及び利点は、本説明及び図面から、並びに「特許請求の範囲」から明らかになるであろう。
【図面の簡単な説明】
【0013】
【
図1】車室内の出力音声を調整するための例示的なシステムのブロック図である。
【
図2】本明細書に記載される技術が実装され得る例示的な環境のブロック図である。
【
図3】本明細書に記載される技術を実装するために使用され得る例示的なシステムのブロック図である。
【
図4】ノイズ信号のパワースペクトル密度を推定するための例示的なプロセスのフローチャートである。
【発明を実施するための形態】
【0014】
本文書に記載される技術は、音声システム及びノイズソースの両方から捕捉された音声を表すマイクロホン信号からノイズ信号を分離することを目的とする。これは、例えば、車室内のノイズ状態の変化に応答して、音声再生を連続的かつ自動的に調整して、均一/一貫した知覚音声体験を提供する、自動車音声システムにおいて使用することができる。これはまた、例えば、スペクトル減算若しくはポストフィルタリングなどによるハンズフリー通信アプリケーションのために、及び/又は、遠端が静止しているときに電話ラインに追加される「快適ノイズ」を推定するために、マイクロホン信号のノイズコンテンツを低減するために使用することもできる。
【0015】
このような音声システムは、典型的には、ノイズを測定するために車室内に配置されるマイクロホンを含んでもよい。このようなシステムは、マイクロホン信号におけるノイズからシステム音声の寄与を分離することに依存し得る。本文書は、音響変換器の対と各音響変換器とマイクロホン信号との間のコヒーレンスを推定することに基づいて、マイクロホン信号から、複数の音響変換器からの寄与、又は音声システムの複数の入力チャネルを除去することを目的とする技術を記載する。推定及び除去は、周波数領域における行列演算を使用して反復的に行われ、これは、時変ノイズのパワースペクトル密度の推定値を直接生成する。ノイズの対応する時間領域推定を最初に推定することなく、そのような周波数固有情報を直接計算することにより、特に、異なる周波数帯域に対して利得調整が別々に行われる音声システムに対して、計算リソースの節約がもたらされる。本明細書に記載される技術は、単一のマイクロホンによって捕捉された信号を使用して実装することができ、下にある音声システム内のチャネル/音響変換器の数を増加させるように拡張可能である。
【0016】
図1は、車室内の出力音声を調整するための例示的なシステム100のブロック図である。入力音声信号105は、最初に入力音声信号105の現在のレベルを判定するために分析される。これは、例えば、ソース分析エンジン110によって行うことができる。並行して、ノイズ分析エンジン115は、車室内に存在するノイズのレベル及びプロファイルを分析するように構成することができる。いくつかの実装では、ノイズ分析エンジンは、マイクロホン信号104などの複数の入力、及び例えば、車両速度を示す入力、暖房のファン速度設定、換気、空調システム(HVAC)などを含む1つ以上の補助ノイズ入力106を使用するように構成することができる。いくつかの実装では、ラウドネス分析エンジン120は、音声出力の知覚品質を維持するために必要な任意の利得調整を計算するために、ソース分析エンジン110及びノイズ分析エンジン115の出力を分析するように配備され得る。いくつかの実装では、目標SNRは、定常状態ノイズの存在下で車室内で知覚される入力音声105の品質/レベルを示すことができる。ラウドネス分析エンジンは、利得調整回路125を制御する制御信号を生成するように構成することができ、利得調整回路125は、入力音声信号105のゲインを、おそらくは、異なるスペクトル帯域において別々に調整(例えば、トーン調整)して、出力音声信号130を生成するように構成することができる。
【0017】
マイクロホン信号104は、下にある音声システム及びノイズソースの音響変換器の両方からの寄与を含むことができる。本明細書に記載される技術は、マイクロホン信号104から、システム音声からの寄与を分離することを目的とし、それにより、(システム音声からの寄与を除去した後の)残留を、更なる処理ステップで使用され得るノイズの推定値として取得することができる。
図2は、本明細書に記載される技術が実装され得る例示的な環境200のブロック図である。環境200は、システム音声を生成する複数の音響変換器202a~202n(一般に、202)を含む。いくつかの実装では、音響変換器202は、複数のチャネルにおいてシステム音声を生成する。いくつかの実装では、音声出力の代わりに、音声入力チャネルは、システムへの入力として直接使用することができる。例えば、システム音声は、2つのチャネル(例えば、ステレオ構成で)、又は6つのチャネル(5.1のサラウンド構成で)を含むことができる。他のチャネル構成も可能である。
【0018】
図2では、(マイクロホン206を使用して捕捉された)マイクロホン信号104は、y(n)として示され、nは、離散時間インデックスである。個々の音響変換器202から放射された音声信号はx
i(n)と表され、音響変換器202とマイクロホン206との間の対応する信号経路は、h
iy(n)として表される。外部ノイズは、信号w(n)によって表される。したがって、
図2のシステムは、
【0019】
【数1】
として表すことができ、式中、*は、線形畳み込み演算を表す。周波数領域において、式(1)は、
【0020】
【数2】
として表すことができ、各変数の大文字形式は、周波数領域対応物を示す。
【0021】
この文書は、ソース信号xi(n)及びマイクロホン信号y(n)が与えられると、ノイズ信号w(n)の瞬時測定値、例えば、エネルギーレベル、パワースペクトル密度の計算を記載する。伝達関数hiy(n)は、変動しており、未知であると想定される。いくつかの実装では、ノイズ信号の瞬時測定値の判定は、単一のマイクロホン206を使用して捕捉されたマイクロホン信号を使用して、またコヒーレンスの概念を使用して行うことができる。複数のコヒーレンス計算は、例えば、ノイズ信号の瞬間的測定値を判定する際に、複数の入力ソースの各々とマイクロホンとの間で実行することができる。
【0022】
2つの音響変換器のみの場合、式(2)は、以下のようになる。
【0023】
【0024】
入力信号及び出力信号の自動スペクトル及びクロススペクトルの推定は、以下のようにクロススペクトル行列で計算及び組み立てられてもよい。
【0025】
【0026】
いくつかの実装では、ノイズ信号Gwwの自動スペクトルとして判定することができ、この自動スペクトルは、入力x1及びx2と相関するコンテンツが除去された後のマイクロホン信号Gyyの残差自動スペクトルである。これは、入力x1及びx2に対して調整されたマイクロホン信号Gyyの自動スペクトル、Gyy・1,2として表すことができる。2つの信号b及びcのクロススペクトルから1つの信号aと相関するコンテンツを除去するための一般式は、以下によって与えられる。
【0027】
【0028】
自動スペクトルGbbについて、式(4)における代入b=cは、
【0029】
【0030】
【数7】
は、aとbとの間のコヒーレンスであり、その結果、G
bb・aは、aとコヒーレントではないbの自動スペクトルのフラクションである。全ての残りの信号から1つの信号と相関するコンテンツを除去することは、クロススペクトル行列に対するガウスの消去法の1つのステップを実行することと等価である。上記クロススペクトル行列の第1の列に
【0031】
【数8】
を乗算し、生成物を第2の列から減算すると、対角化の第1のステップは、以下をもたらす。
【0032】
【0033】
式(6)は、行列の要素(2,2)及び(2,3)を再書き込みする際に使用される条件付きクロススペクトルの式を表す。反復対角化プロセスを継続して、
【0034】
【数10】
による式(6)の右辺のクロススペクトル行列の第1の列の乗算と、その生成物を第3の列から減算すると、以下をもたらす。
【0035】
【0036】
式(7)の右側は、反復行列対角化プロセスにおける点を表し、第1の音声入力及びコヒーレントなコンテンツが他の信号の自動及びクロススペクトルから除去され、右下角の2×2クロススペクトル行列は、第1の信号に対して調整された残差自動スペクトル及びクロススペクトルを表す。第2の音声入力を伴う項は、2つの音声入力が完全に独立していないが、何らかの相関を有する場合(例えば、左右のステレオチャネルの場合のように)を説明するように修正されて立っている。マイクロホン信号からの第2の音声入力の影響を更に低減するために、行列対角化(例えば、ガウスの消去法によって)を、右下角の2×2行列に対して継続することができる。これは、第2の列に
【0037】
【数12】
を乗算することと、その生成物を第3の列から減算することと、を含むことができる。
【0038】
【0039】
対角の最後の要素Gyy・1,2は、2つの音声入力に対して調整されたマイクロホン信号の自動スペクトルであり、これは、本質的にノイズ自動スペクトルGwwの推定である。上述のように、入力信号の周波数領域表現の反復修正は、したがって、様々な音響ソースによる寄与の除去を介してノイズ信号のパワースペクトル密度の推定をもたらす。
【0040】
音響変換器202などのより多くの音声入力ソースを有するシステムの場合、上述の反復プロセスは、残りの信号から1つずつの各音声入力のコンテンツの影響を低減するために、必要に応じてスケーリングすることができる。いくつかの実装では、音声入力のサブセットは、(例えば、ステレオペアが、例えば、5.1又は7.1構成のために、より多くのチャネルにアップミックスされたときに)線形従属となることがある。このような場合、行低減係数(例えば、上記のG22・1)の分母に使用される対角項は、低値(おそらくは、場合によってはゼロ)を有することができ、これにより、数値問題につながり得る。このような状況では、その特定の行を使用した行低減を省略してもよい。例えば、
【0041】
【数14】
である場合、それは、第2の音響変換器の出力の元の自動スペクトルにおけるパワーの99%が、第1の音響変換器の出力の自動及びクロススペクトルを伴う演算によって既に考慮されていることを示唆する。したがって、ノイズ推定値に実質的に影響を及ぼすことなく、第2の音響変換器の出力を使用する別個の行低減を回避することができる。
【0042】
本技術の拡張性の態様は、
図3を参照して、本明細書に記載される技術を実装するために使用され得る例示的なシステムのブロック図を示す。いくつかの実装では、システムは、
図1を参照して上述したノイズ分析エンジン115を含み、ノイズ分析エンジン115は、対応する音響変換器202を駆動する信号x
i(n)を入力として受信する。ノイズ分析エンジン115はまた、マイクロホン206によって捕捉されたマイクロホン信号y(n)を入力として受信する。
【0043】
いくつかの実装では、ノイズ分析エンジン115は、N個のシステム音声ソースxi(n)、i=1,2,...,N、並びにマイクロホン206からのy(n)の時間セグメントを捕捉/使用するように構成されている。いくつかの実装では、ノイズ分析エンジンは、時間セグメントに適切なウィンドウイングを適用するように構成されている。ノイズ分析エンジン115はまた、各入力の時間セグメントから周波数領域表現を計算するように構成されている。例えば、ノイズ分析エンジン115は、ウィンドウイングされた時間セグメントのフーリエ変換を計算して、スペクトルXi(f)及びY(f)を得ることができる。これらのスペクトルは、信号の短時間フーリエ変換(STFT)の1つのタイムスライスを本質的に表す。ノイズ分析エンジン115は、例えば、生成物を形成し、いくつかの時間スライスにわたって平均化することによってクロススペクトル密度行列を計算して、以下の行列の表現を生成するように更に構成されている。
【0044】
【0045】
【数16】
、及びG
yy=E{Y
*Y}である。いくつかの実装では、演算E{・}は、単一オーダーのローパスフィルタを適用することによって近似することができる。
【0046】
反復プロセスのために、ノイズ分析エンジン115は、行列の列に行列対角化プロセス(例えば、ガウスの消去法)を使用して、行列上三角を以下のように作製するように構成されている。
【0047】
【数17】
式中、G
ii.j!は、全ての以前のソースx
k(n)、k=1,2,...,jで調整された信号x
i(n)の自動スペクトルである。上述したように、使用される特定の対角項が小さい場合(例えば、閾値未満)、数値安定性のために行低減ステップを省略することができる。
【0048】
上側三角行列の対角上の最後の要素Gyy・xは、システム音声ソース信号xi(n)、i=1,2,...,Nで調整されたマイクロホン信号y(n)のパワースペクトル密度であり、既知のシステム音声コンテンツによらない、室内ノイズのパワースペクトル密度推定値Gwwと等価であると考えることができる。パワースペクトル密度は、周波数ベクトルの形態であり、したがって、ノイズに関する周波数固有の情報を提供する。
【0049】
上記のステップは、1つの特定の時間セグメントに対応するノイズ推定値を導出する。手順は、後続の時間セグメントについて繰り返されて、ノイズの動作中の瞬間的測定値を提供することができる。ノイズのこのような瞬間的測定値は、瞬間的ノイズに従って音声システムの利得を調整するなどの更なる処理のために使用することができる。いくつかの実装では、このような利得調整は、ベース、中間範囲、及びトレブルに対応する範囲などの異なる周波数帯域に対して別々に実行されてもよい。
【0050】
全体として、本明細書に記載される技術を使用して、自動で動的に、移動車両内のシステムによって再生される音楽又は発話信号を調整することによって、リスニング体験に対する可変ノイズの影響を軽減するために使用することができる。いくつかの実装では、この技術は、典型的には著しい手動介入を必要とすることなく、一貫したリスニング体験を促進するために使用することができる。例えば、システムは、1つ以上のノイズ検出器と通信する1つ以上のコントローラを含むことができる。ノイズ検出器の例としては、車両の車内に配置されたマイクロホンを含む。マイクロホンは、典型的には、ユーザの耳の近くの場所、例えば、客室のヘッドライナに沿って配置される。ノイズ検出器の他の例としては、毎分のエンジン回転量を測定することが可能な、速度計及び/又は電子変換器を含むことができ、これらは、客室内で知覚されるノイズレベルを示す情報を提供することができる。コントローラの例としては、プロセッサ、例えばマイクロプロセッサを含むが、これらに限定されない。システムは、ソース分析エンジン110、ラウドネス分析エンジン120、ノイズ分析エンジン115、及び利得調整回路125のうちの1つ以上を含むことができる。いくつかの実装では、システムの1つ以上のコントローラを使用して、上述のエンジンのうちの1つ以上を実装することができる。
【0051】
図4は、本明細書に記載される技術によるノイズのパワースペクトル密度を推定するための例示的なプロセス400のフローチャートである。いくつかの実装では、プロセス400の動作は、少なくとも部分的に、上述のノイズ分析エンジン115によって実行されてもよい。プロセス400の動作は、マイクロホンを使用して捕捉された音声を表す入力信号を受信することであって、入力信号は、1つ以上の音声ソースからの音響出力を表す第1の部分と、ノイズコンポーネントを表す第2の部分と、を含む、受信すること(410)を含む。いくつかの実装では、マイクロホンは、車室内に配設される。第1の部分は、例えば、マイクロホンと対応する音響変換器との間の信号経路によって処理される、1つ以上の音声ソースからの音響出力を含むことができる。いくつかの実装では、第1の部分は、3つ以上の音声ソースからの音響出力を表す。
【0052】
プロセス400の動作はまた、入力信号の周波数領域表現を反復的に修正することができ、それにより、修正された周波数領域表現は、第1の部分による影響が実質的に低減された入力信号の部分を表すようになる(420)。周波数領域表現は、入力信号の時間セグメントに基づくことができる。いくつかの実装では、周波数領域表現は、各周波数ビンについて、2つ以上の音声ソースの対からの音響出力間のコヒーレンスのレベルを各々表す値、1つ以上の音声ソースの特定の音声ソースの音響出力とマイクロホンを使用して捕捉された音響との間のコヒーレンスのレベルを各々表す値、及び1つ以上の音声ソースのうちの個々の音声ソースの特定の周波数ビンの音響出力のパワーを各々表す値を含む。いくつかの実装では、2つ以上の音声ソースの対からの音響出力間のコヒーレンスのレベルを各々表す値は、2つ以上の音声ソースの対の全ての順列に対する1つの値を含む。いくつかの実装では、1つ以上の音声ソースの特定の音声ソースの音響出力と、マイクロホンを使用して捕捉された音声との間のコヒーレンスのレベルを各々表す値は、1つ以上の音声ソースの各々に対する2つの値を含む。いくつかの実装では、1つ以上の音声ソースの個々の音声ソースの、特定の周波数ビンの音響出力のパワーを各々表す値は、1つ以上の音声ソースの各々に対する1つの値を含む。
【0053】
いくつかの実装では、周波数領域表現は、1つ以上の音声ソースの出力に基づいて計算されたクロススペクトル密度行列を含むことができる。周波数領域表現を反復的に修正することは、クロススペクトル密度行列に行列対角化プロセスを実行することを含むことができる。
【0054】
プロセス400の動作はまた、修正された周波数領域表現から、ノイズのパワースペクトル密度の推定値を判定すること(430)と、1つ以上の周波数範囲に対応する音響変換器の1つ以上の利得を調整するように構成されている制御信号を生成すること(440)と、を含む。生成される制御信号は、ノイズのパワースペクトル密度の推定に基づくことができる。例えば、音響変換器の1つ以上の利得は、ノイズのパワースペクトル密度の推定値の増加と共に増加し、パワースペクトル密度の推定値の減少と共に減少するように調整される。
【0055】
様々な例では、
図4のブロック410、420、及び430によって示される方法は、制御信号を生成すること(440)とは異なる目的で利用されてもよい。例えば、ノイズの推定されたパワースペクトル密度は、例えば、ノイズ低減のためのポストフィルタリング処理に適用されてもよい。他の例では、ノイズの推定されたパワースペクトル密度は、マイクロホン信号であり得る入力信号の総パワースペクトル密度から減算されてもよく、マイクロホン信号におけるエコーコンポーネントのパワースペクトル密度の推定値がもたらされる。エコーコンポーネントの推定されたパワースペクトル密度は、例えば、エコー低減のためのポストフィルタリング処理に適用されてもよい。一般的に、入力信号、例えば、ソース信号x
i(n)、又はノイズ信号w(n)のいずれかによって寄与されるパワースペクトル密度は、本明細書に記載されるシステム、方法、及びプロセスによって推定され、様々な目的のいずれかのために使用されてもよい。
【0056】
様々な例では、記載されたガウスの消去法が、例えば、
図3を参照して記載されたように、任意の特定の参照信号から寄与される任意の信号のコンポーネントを識別及び/又は除去するために、クロスパワースペクトル密度行列に対して実行されてもよい。原則として、1つ以上の入力及び1つ以上の出力を有する任意の線形システムでは、記載されたマルチコヒーレンス方法、例えば、クロスパワースペクトル密度、続いて行列対角化(ガウスの消去法)を適用して、出力信号を構成する各コンポーネント(例えば、入力信号の)寄与のパワースペクトル密度を推定することができる。様々な例では、そのようなものが、入力信号が相関しているか、又は相関していないかに関わらず適用されてもよい。
【0057】
例えば、入力信号は参照信号とみなすことができ、様々な例では、出力信号の総パワースペクトル密度は、入力信号によって寄与されたコンポーネントの全てのクロスパワースペクトル密度と、入力信号のいずれかによって寄与されない任意のコンポーネントのパワースペクトル密度との合計から構成される。入力信号のいずれかによって寄与されない出力信号のコンポーネントは、様々な例では、「ノイズ」信号である。
【0058】
例えば、
図2は、いくつもの入力信号、例えば、ソース信号x
i(n)、及び出力信号、例えば、マイクロホン信号y(n)を有するシステムを示すと考えることができる。出力信号は、入力信号(ソース信号x
i(n))の各々からの寄与を表すコンポーネント及び入力信号から寄与されない追加のコンポーネント(例えば、ノイズ信号w(n))のそれぞれからの寄与を表すコンポーネントを含む。寄与されたコンポーネントの各々及び追加コンポーネントのパワースペクトル密度の推定値は、本開示全体で、本明細書ではマルチコヒーレンス方法と呼ばれることがある、
図3を参照して示され説明される処理など、本明細書の様々な例に記載される処理によって判定することができる。
【0059】
いくつかの例では、出力信号、例えば、y(n)は、所望の信号及びノイズの重ね合わせであってもよい。例えば、マイクロホンが、車室内又は部屋内の音声コンテンツを拾い上げるために使用される場合、所望の信号は、音声システムによって再生されるコンテンツであってもよい。再生される信号は、システムに既知の入力信号であり、したがって参照信号として機能するであろう。マイクロホン信号からノイズレベルを低減するために、マルチコヒーレンス方法を使用して、ノイズのパワースペクトル密度を推定することができる。いくつかの例では、推定されたノイズスペクトルは、マイクロホン信号スペクトルからスペクトル的に減算され、修正されたマイクロホン信号が、より低いノイズを有することになる。
【0060】
いくつかの例では、マルチコヒーレンス方法は、残留エコー低減/抑制のために使用されてもよい。例えば、エコーキャンセルシステムでは、マルチコヒーレンス方法を使用して、残留エコー信号スペクトルを推定し、次いで、エコーキャンセラ出力から減算して、残留エコーのレベルを更に低減することができる。このような減算は、スペクトル減算であってもよい。このような例では、入力(近端)発話信号(例えば、マイクロホンから)は参照信号であってもよく、マルチコヒーレンス方法は、ガウスの消去法演算プロセスを介して残留エコーのパワースペクトル密度を(例えば、遠端発話信号から)推定してもよい。残留エコーは、送信される信号からエコースペクトルを減算することによって、エコーキャンセルシステムの出力において低減されてもよい。様々な例は、例えば、電話の会話中に音声システムによって再生される、任意の音声再生、例えば、遠端発話信号及び娯楽、ナビゲーションなどによって引き起こされるエコーコンポーネントを低減するためのこの方法を使用してもよい。
【0061】
いくつかの例は、マルチコヒーレンス方法を使用して、例えば、電話システムにおける適切な快適ノイズを推定してもよい。システムが遠端から送信される(所望の)信号の不在下で、システムが静止したときであっても、依然として回線が接続されていることをユーザに保証するために、快適ノイズ信号が回線に追加されることがある。マルチコヒーレンス方法は、対応する快適ノイズを生成するために、元のノイズのパワースペクトル密度及び全体レベルを推定するために使用することができ、したがって、2つの間のシームレスで透過性のある遷移を可能にする。いくつかの例では、既知の試験又は訓練信号を送信機で入力信号として使用して、受信機に参照信号を提供してもよい。
【0062】
本明細書に記載される主題及び機能動作の実施形態は、本明細書に開示される構造及びそれらの構造的等価物を含む、デジタル電子回路、有形的に具現化されたコンピュータソフトウェア若しくはファームウェア、コンピュータハードウェア、又はそれらの1つ以上の組み合わせにおいて実装することができる。本明細書に記載される主題の実施形態は、1つ以上のコンピュータプログラム、すなわち、データ処理装置による実行のために、又はデータ処理装置の動作を制御するための有形の非一時的な記憶媒体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実装することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダム若しくはシリアルアクセスメモリデバイス、又はそれらのうちの1つ以上の組み合わせとすることができる。
【0063】
用語「データ処理装置」は、データ処理ハードウェアを指し、データを処理するための全ての種類の装置、デバイス、及び機械を包含し、例として、プログラマブルデジタルプロセッサ、デジタルコンピュータ、又は複数のデジタルプロセッサ若しくはコンピュータを含む。この装置はまた、特別目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)とするか、又はそれを更に含むことができる。この装置は、ハードウェアに加えて、コンピュータプログラムのための実行環境、例えば、プロセッサファームウェアを構成するコード、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらのうちの1つ以上の組み合わせを作成するコードを、任意選択で含むことができる。
【0064】
プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、又はコードとも呼ばれるか、又は記載されることがあるコンピュータプログラムは、コンパイル型言語又はインタープリタ型言語、又は宣言的若しくは手続き的言語を含む、任意の形式のプログラミング言語で書いてもよく、スタンドアロンプログラムとして、又はコンピューティング環境での使用に好適なモジュール、コンポーネント、サブルーチン、又は他のユニットとして含む任意の形式で展開することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応してもよいが、対応する必要はない。プログラムは、他のプログラム若しくはデータ、例えば、マークアップ言語文書で記憶された1つ以上のスクリプトを保持するファイルの部分、問題のプログラム専用の単一ファイル、又は複数の調整ファイル、例えば、1つ以上のモジュール、サブプログラム、若しくはコードの部分を記憶するファイルに記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、又は1つのサイトに位置するか、複数のサイトにわたって分散されて、データ通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。
【0065】
本明細書に記載されるプロセス及び論理フローは、入力データに対して動作し、出力を生成することによって機能を実行する1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なコンピュータによって実行することができる。プロセス及び論理フローはまた、特別目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)として実装することができる。特定の動作又はアクションを実行するように「構成されている」1つ以上のコンピュータのシステムについては、動作の際にシステムに動作又はアクションを実行させるソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせをインストールしたシステムを意味する。特定の動作又はアクションを実行するように構成される1つ以上のコンピュータプログラムについては、データ処理装置によって実行されると、装置に動作又はアクションを実行させる命令を含む1つ以上のプログラムを意味する。
【0066】
コンピュータプログラムの実行に好適なコンピュータとしては、例として、汎用若しくは専用マイクロプロセッサ若しくはその両方、又は任意の他の種類の中央処理ユニットを含むか、又はこれらに基づくことができる。一般的に、中央処理ユニットは、読み出し専用メモリ、ランダムアクセスメモリ、又はその両方から命令及びデータを受信することになる。コンピュータの本質的要素は、命令を行う又は実行するためのプロセッサ、並びに命令及びデータを記憶するための1つ以上のメモリデバイスである。一般的に、コンピュータはまた、データを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、又は光ディスクを含むか、又はこれらからデータを受信するか、若しくはこれらにデータを転送するか、若しくはその両方を行うように動作可能に結合されることになる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。更に、コンピュータは、いくつか挙げると、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯音声若しくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又はポータブル記憶デバイス、例えば、汎用シリアルバス(USB)フラッシュドライブに埋め込むことができる。
【0067】
コンピュータプログラム命令及びデータを記憶するのに好適なコンピュータ可読媒体としては、例えば、任意の形式の不揮発性メモリ、媒体及びメモリデバイスを含み、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、及びフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスク又は取り外し可能ディスク、光磁気ディスク、並びにCD ROM及びDVD-ROMディスクを含む。プロセッサ及びメモリは、特別目的論理回路によって補完されるか、又はそこに組み込まれ得る。
【0068】
本明細書に記載される様々なシステム、又はそれらの部分の制御は、1つ以上の非一時的な機械可読記憶媒体上に記憶され、1つ以上の処理デバイス上で実行可能な命令を含むコンピュータプログラム製品内に実装することができる。本明細書に記載されるシステム、又はそれらの部分は、本明細書に記載される動作を実行するための実行可能命令を記憶するための1つ以上の処理デバイス及びメモリを含み得る装置、方法、又は電子システムとして実装することができる。
【0069】
本明細書は、多くの特定の実装詳細を含むが、これらは、いずれの請求項の範囲、又は請求項に記載されるもの範囲に対する制限として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有であり得る特徴の記載として解釈されるべきある。別個の実施形態の文脈において本明細書に記載される特定の特徴はまた、単一の実施形態において組み合わせて実装することができる。逆に、単一の実施形態の文脈で記載される様々な特徴は、複数の実施形態において別々に、又は任意の好適なサブコンビネーションで実装することができる。更に、特徴は、特定の組み合わせで作用するものとして上述されてもよく、そのようなものとして最初でも請求項に記載してもよいが、場合によっては、請求項に記載された組み合わせからの1つ以上の特徴は、場合によっては、組み合わせから切り離されてよく、請求項に記載された組み合わせは、サブコンビネーション又はサブコンビネーションの変形を対象としてもよい。
【0070】
同様に、動作が図面に特定の順序で示されているが、これは、そのような動作が示される特定の順序若しくは逐次的な順序で実行されるか、又は全ての示された動作が、所望の結果を達成するために実行されることを必要とするものとして理解するべきではない。特定の状況では、マルチタスク及び並列処理が有利であり得る。更に、上述の実施形態における様々なシステムモジュール及びコンポーネントの分離は、全ての実施形態でのこのような分離を必要とするものとして理解されるべきではなく、記載されたプログラムコンポーネント及びシステムは、一般的に、単一のソフトウェア製品にまとめて一体化されてもよく、又は複数のソフトウェア製品にパッケージ化され得ると理解されたい。
【0071】
主題の特定の実施形態が記載されている。他の実施形態は下記の特許請求の範囲内にある。例えば、特許請求の範囲に規定されたアクションは、異なる順序で実行することができ、依然として望ましい結果を達成することができる。一例として、添付の図面に示されるプロセスは、所望の結果を達成するために、示される特定の順序、又は逐次的な順序を必ずしも必要としない。場合によっては、マルチタスク及び並列処理が有利であり得る。
【符号の説明】
【0072】
100 システム
104 マイクロホン信号
105 入力音声
106 補助ノイズ入力
110 ソース分析エンジン
115 ノイズ分析エンジン
120 ラウドネス分析エンジン
125 利得調整回路
130 出力音声信号
206 マイクロホン