(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-27
(45)【発行日】2023-05-10
(54)【発明の名称】音声処理システム及び音声処理装置
(51)【国際特許分類】
H04R 3/00 20060101AFI20230428BHJP
G10L 15/00 20130101ALI20230428BHJP
G10L 15/20 20060101ALI20230428BHJP
G10L 21/0208 20130101ALI20230428BHJP
B60R 11/02 20060101ALI20230428BHJP
【FI】
H04R3/00 320
G10L15/00 200J
G10L15/20 370F
G10L15/20 370E
G10L21/0208 100B
B60R11/02 M
(21)【出願番号】P 2019180180
(22)【出願日】2019-09-30
【審査請求日】2022-04-20
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山梨 智史
(72)【発明者】
【氏名】番場 裕
【審査官】大石 剛
(56)【参考文献】
【文献】特開平6-269083(JP,A)
【文献】特開2001-13972(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 15/00
G10L 15/20
G10L 21/0208
B60R 11/02
(57)【特許請求の範囲】
【請求項1】
第1音声成分を含む第1音声信号を取得し、前記第1音声信号に基づいた第1信号を出力する第1マイクと、
それぞれが、前記第1音声成分とは異なる音声成分を含む音声信号を取得し、前記音声信号に基づいたマイク信号を出力する、1つ以上のマイクと、
前記1つ以上のマイクから、それぞれの前記マイク信号が入力され、前記マイク信号に基づいた通過信号をそれぞれ出力する、1つ以上の適応フィルタと、
前記マイク信号が音声信号間で相関がないノイズである無相関ノイズを含むかを判断する判断部と、
前記1つ以上の適応フィルタのフィルタ係数を制御する制御部と、
前記第1信号から、前記通過信号に基づいた減算信号を減算する加算部と、
を備え、
前記1つ以上のマイクは、前記第1音声成分とは異なる第2音声成分を含む第2音声信号を取得し、前記第2音声信号に基づいた第2信号を出力する第2マイクを含み、
前記判断部が、前記第2信号が前記無相関ノイズを含むと判断した場合、前記制御部は、前記適応フィルタに入力される前記第2信号のレベルをゼロにする、
音声処理システム。
【請求項2】
前記1つ以上のマイクは、前記第1音声成分および前記第2音声成分とは異なる第3音声成分を含む第3音声信号を取得し、前記第3音声信号に基づいた第3信号を出力する第3マイクを含み、
前記1つ以上の適応フィルタは、前記第2信号が入力される第1適応フィルタと、前記第3信号が入力される第2適応フィルタと、を含み、
前記判断部が、前記第2信号が前記無相関ノイズを含み、前記第3信号が前記無相関ノイズを含まないと判断した場合、前記制御部は、前記第1適応フィルタのフィルタ係数を変更せず、前記第2適応フィルタのフィルタ係数を変更する、
請求項1に記載の音声処理システム。
【請求項3】
前記1つ以上のマイクは、前記第1音声成分および前記第2音声成分とは異なる第3音声成分を含む第3音声信号を取得し、前記第3音声信号に基づいた第3信号を出力する第3マイクを含み、
前記1つ以上の適応フィルタを含む第1フィルタ部を備え、前記1つ以上の適応フィルタは、前記第2信号が入力される第1適応フィルタと、前記第3信号が入力される第2適応フィルタと、を含む、請求項1に記載の音声処理システムであって、
1つ以上の適応フィルタを含む第2フィルタ部を備え、
前記第2フィルタ部は、前記第3信号が入力され、前記第3信号に基づいた第1通過信号を出力する、前記第2適応フィルタとは異なる第3適応フィルタを含み、
前記第2フィルタ部が含む適応フィルタの数は、前記第1フィルタ部が含む適応フィルタの数よりも小さく、
前記制御部は、前記第2信号および前記第3信号に基づき、前記減算信号の生成に前記第1フィルタ部および前記第2フィルタ部のいずれを用いるかを決定する
請求項1に記載の音声処理システム。
【請求項4】
前記第2フィルタ部は、前記第3適応フィルタのみを含み、
前記第2信号が発話に由来する第1成分を含まず、前記第3信号が前記第1成分を含むと判断された場合、前記制御部は、前記第2フィルタ部を用いて前記減算信号を生成する、
請求項3に記載の音声処理システム。
【請求項5】
前記判断部は、前記マイク信号の強度が所定の値以上である場合に、前記マイク信号が前記無相関ノイズを含むと判断する、
請求項1から請求項4のいずれか一項に記載の音声処理システム。
【請求項6】
前記1つ以上のマイクは、第1マイク信号を出力する第1対象マイクと、第2マイク信号を出力し、前記第1対象マイクとは異なる第2対象マイクと、を含み、
前記判断部は、前記第1マイク信号の強度が、前記第2マイク信号の強度よりも所定の値以上大きい場合に、前記第1マイク信号が前記無相関ノイズを含むと判断する、
請求項1から請求項4のいずれか一項に記載の音声処理システム。
【請求項7】
前記判断部は、車両情報に基づいて、前記マイク信号が前記無相関ノイズを含むと判断する、
請求項1から請求項4のいずれか一項に記載の音声処理システム。
【請求項8】
第1音声成分を含む第1音声信号に基づいた第1信号を受信する第1受信部と、
それぞれが、前記第1音声成分とは異なる音声成分を含む音声信号に基づいたマイク信号を受信する、1つ以上の受信部と、
前記1つ以上の受信部から、それぞれの前記マイク信号が入力され、前記マイク信号に基づいた通過信号をそれぞれ出力する、1つ以上の適応フィルタを含むフィルタ部と、
前記マイク信号が無相関ノイズを含むかを判断する判断部と、
前記1つ以上の適応フィルタのフィルタ係数を制御する制御部と、
前記第1信号から、前記通過信号に基づいた減算信号を減算する加算部と、
を備え、
前記1つ以上の受信部は、前記第1音声成分とは異なる第2音声成分を含む第2音声信号に基づいた第2信号を受信する第2受信部を含み、
前記判断部が、前記第2信号が前記無相関ノイズを含むと判断した場合、前記制御部は、前記適応フィルタに入力される前記第2信号のレベルをゼロにする、
音声処理装置。
【請求項9】
前記1つ以上の受信部は、前記第1音声成分および前記第2音声成分とは異なる第3音声成分を含む第3音声信号に基づいた第3信号を受信し、
前記1つ以上の適応フィルタは、前記第2信号が出力される第1適応フィルタと、前記第3信号が出力される第2適応フィルタと、を含み、
前記判断部が、前記第2信号が前記無相関ノイズを含み、前記第3信号が前記無相関ノイズを含まないと判断した場合、前記制御部は、前記第1適応フィルタのフィルタ係数を変更せず、前記第2適応フィルタのフィルタ係数を変更する、
請求項8に記載の音声処理装置。
【請求項10】
前記1つ以上の受信部は、前記第1音声成分および前記第2音声成分とは異なる第3音声成分を含む第3音声信号に基づいた第3信号を受信し、
前記1つ以上の適応フィルタを含む第1フィルタ部を備え、前記1つ以上の適応フィルタは、前記第2信号が入力される第1適応フィルタと、前記第3信号が入力される第2適応フィルタと、を含む、請求項8に記載の音声処理装置であって、
1つ以上の適応フィルタを含む第2フィルタ部を備え、
前記第2フィルタ部は、前記第3信号が入力され、前記第3信号に基づいた第1通過信号を出力する、前記第2適応フィルタとは異なる第3適応フィルタを含み、
前記第2フィルタ部が含む適応フィルタの数は、前記第1フィルタ部が含む適応フィルタの数よりも小さく、
前記制御部は、前記第2信号および前記第3信号に基づき、前記減算信号の生成に前記第1フィルタ部および前記第2フィルタ部のいずれを用いるかを決定する
請求項8に記載の音声処理装置。
【請求項11】
前記第2フィルタ部は、前記第3適応フィルタのみを含み、
前記第2信号が発話に由来する第1成分を含まず、前記第3信号が前記第1成分を含むと判断された場合、前記制御部は、前記第2フィルタ部を用いて前記減算信号を生成する、
請求項10に記載の音声処理装置。
【請求項12】
前記判断部は、前記マイク信号の強度が所定の値以上である場合に、前記マイク信号が前記無相関ノイズを含むと判断する、
請求項8から請求項11のいずれか一項に記載の音声処理装置。
【請求項13】
前記マイク信号は、第1マイク信号と、前記第1マイク信号とは異なる第2マイク信号と、を含み、
前記判断部は、前記第1マイク信号の強度が、前記第2マイク信号の強度よりも所定の値以上大きい場合に、前記第1マイク信号が前記無相関ノイズを含むと判断する、
請求項8から請求項11のいずれか一項に記載の音声処理装置。
【請求項14】
前記判断部は、車両情報に基づいて、前記マイク信号が前記無相関ノイズを含むと判断する、
請求項8から請求項11のいずれか一項に記載の音声処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声処理システム及び音声処理装置に関する。
【背景技術】
【0002】
車載用の音声認識装置やハンズフリー通話において、周辺の音声を除去して話者の音声だけを認識するための、エコーキャンセラが知られている。特許文献1には、音源数に応じて、動作する適応フィルタの数やタップ数を切り替えるエコーキャンセラが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
適応フィルタを用いてエコーキャンセルを行う場合、周辺の音声が参照信号として適応フィルタに入力される。しかし、周辺の音声が無相関ノイズを含む場合、周辺の音声を用いてエコーキャンセルを行っても、周辺の音声を除去して目的の音声を得ることが難しい場合がある。周辺の音声が無相関ノイズを含む場合でも、周辺の音声を除去して目的の音声を得られると有益である。
【課題を解決するための手段】
【0005】
本開示に係る音声処理システムは、第1マイクと、1つ以上のマイクと、1つ以上の適応フィルタと、判断部と、制御部と、加算部と、を備える。第1マイクは、第1音声成分を含む第1音声信号を取得し、前記第1音声信号に基づいた第1信号を出力する。1つ以上のマイクは、それぞれが、前記第1音声成分とは異なる音声成分を含む音声信号を取得し、前記音声信号に基づいたマイク信号を出力する。1つ以上の適応フィルタは、前記1つ以上のマイクから、それぞれの前記マイク信号が入力され、前記マイク信号に基づいた通過信号をそれぞれ出力する。判断部は、前記マイク信号が音声信号間で相関がないノイズである無相関ノイズを含むかを判断する。制御部は、前記1つ以上の適応フィルタのフィルタ係数を制御する。加算部は、前記第1信号から、前記通過信号に基づいた減算信号を減算する。前記1つ以上のマイクは、前記第1音声成分とは異なる第2音声成分を含む第2音声信号を取得し、前記第2音声信号に基づいた第2信号を出力する第2マイクを含む。前記判断部が、前記第2信号が前記無相関ノイズを含むと判断した場合、前記制御部は、前記適応フィルタに入力される前記第2信号のレベルをゼロにする。
【発明の効果】
【0006】
本開示によれば、周辺の音声が無相関ノイズを含む場合でも、周辺の音声を除去して目的の音声を得られる。
【図面の簡単な説明】
【0007】
【
図1】
図1は、第1実施形態における音声処理システムの概略構成の一例を示す図である。
【
図2】
図2は、第1実施形態における音声処理装置の構成を示すブロック図である。
【
図3】
図3は、第1実施形態における音声処理装置の動作手順を示すフローチャートである。
【
図4】
図4は、音声処理装置の出力結果を示す図である。
【
図5】
図5は、第2実施形態における音声処理システムの概略構成の一例を示す図である。
【
図6】
図6は、第2実施形態における音声処理装置の構成を示すブロック図である。
【
図7】
図7は、第2実施形態における音声処理装置の動作手順を示すフローチャートである。
【発明を実施するための形態】
【0008】
以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0009】
(第1実施形態)
図1は、第1実施形態における音声処理システム5の概略構成の一例を示す図である。音声処理システム5は、例えば車両10に搭載される。以下、音声処理システム5が車両10に搭載される例について説明する。車両10の車室内には、複数の座席が設けられる。複数の座席は、例えば、運転席、助手席、および左右の後部座席の4席である。座席の数は、これに限られない。音声処理システム5は、マイクMC1、マイクMC2、マイクMC3、マイクMC4、及び音声処理装置20を含む。この例では座席の数とマイクの数とが一致しているが、マイクの数は座席の数と一致していなくてもよい。音声処理装置20の出力は、図示しない音声認識エンジンに入力される。音声認識エンジンによる音声認識結果は、電子機器50に入力される。
【0010】
マイクMC1は、運転者hm1が発話する音声を収音する。言い換えると、マイクMC1は、運転者hm1が発話する音声成分を含む音声信号を取得する。マイクMC1は、例えば運転席の右側のアシストグリップに配置される。マイクMC2は、乗員hm2が発話する音声を収音する。言い換えると、マイクMC2は、乗員hm2が発話する音声成分を含む音声信号を取得する。マイクMC2は、例えば助手席の左側のアシストグリップに配置される。マイクMC3は、乗員hm3が発話する音声を収音する。言い換えると、マイクMC3は、乗員hm3が発話する音声成分を含む音声信号を取得する。マイクMC3は、例えば後部座席の左側のアシストグリップに配置される。マイクMC4は、乗員hm4が発話する音声を収音する。言い換えると、マイクMC4は、乗員hm4が発話する音声成分を含む音声信号を取得する。マイクMC4は、例えば後部座席の右側のアシストグリップに配置される。
【0011】
マイクMC1、マイクMC2、マイクMC3、マイクMC4の配置位置は、説明した例に限られない。例えば、マイクMC1はダッシュボードの右側前面に配置されてもよい。マイクMC2は、ダッシュボードの左側前面に配置されてもよい。マイクMC3は、助手席の背もたれ部に配置されてもよい。マイクMC4は、運転席の背もたれ部に配置されてもよい。
【0012】
各マイクは、指向性マイクであってもよく、無指向性マイクであってもよい。各マイクは、小型のMEMS(Micro Electro Mechanical Systems)マイクであってもよく、ECM(Electret Condenser Microphone)であってもよい。各マイクは、ビームフォーミング可能なマイクであってもよい。例えば、各マイクは、各座席の方向に指向性を有し、指向方法の音声を収音可能なマイクアレイでもよい。
【0013】
本実施形態において、音声処理システム5は、各マイクに対応する複数の音声処理装置20を備える。具体的には、音声処理システム5は、音声処理装置21と、音声処理装置22と、音声処理装置23と、音声処理装置24とを備える。音声処理装置21は、マイクMC1に対応する。音声処理装置22は、マイクMC2に対応する。音声処理装置23は、マイクMC3に対応する。音声処理装置24は、マイクMC4に対応する。以下、音声処理装置21、音声処理装置22、音声処理装置23、および音声処理装置24をまとめて音声処理装置20と呼ぶことがある。
【0014】
図1に示される構成では、音声処理装置21、音声処理装置22、音声処理装置23、および音声処理装置24がそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20によって音声処理装置21、音声処理装置22、音声処理装置23、および音声処理装置24の機能が実現されてもよい。あるいは、音声処理装置21、音声処理装置22、音声処理装置23、および音声処理装置24のうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0015】
本実施形態において、各音声処理装置20は、対応する各マイク付近の各座席内に配置される。各音声処理装置20は、ダッシュボード内に配置されてもよい。
図2は、音声システム5の構成および音声処理装置21の構成を示すブロック図である。音声システム5は、
図2に示すように、音声処理装置21、音声処理装置22、音声処理装置23、および音声処理装置24の他に、さらに、音声認識エンジン40と電子機器50を備えている。音声処理装置20の出力は、音声認識エンジン40に入力される。音声認識エンジン40は、少なくとも1つの音声処理装置20からの出力信号に含まれる音声を認識し、音声認識結果を出力する。音声認識エンジン40は、音声認識結果や音声認識結果に基づく信号を生成する。音声認識結果に基づく信号とは、例えば電子機器50の操作信号である。音声認識エンジン40による音声認識結果は、電子機器50に入力される。音声認識エンジン40は、音声処理装置20と別体の装置であってもよい。音声認識エンジン40は、例えばダッシュボードの内部に配置される。音声認識エンジン40は、座席の内部に収容されて配置されてもよい。あるいは、音声認識エンジン40は、音声処理装置20に組み込まれた一体型の装置であってもよい。
【0016】
電子機器50には、音声認識エンジン40から出力される信号が入力される。電子機器50は、例えば、操作信号に対応する動作を行う。電子機器50は、例えば車両10のダッシュボードに配置される。電子機器50は、例えばカーナビゲーション装置である。電子機器50は、パネルメータ、テレビ、あるいは携帯端末であってもよい。
図1では、車両に4人が乗車している場合を示したが、乗車する人数はこれに限られない。乗車人数は、車両の最大乗車定員以下であればよい。例えば、車両の最大乗車定員が6人である場合、乗車人数は6人であってもよく、5人以下であってもよい。
【0017】
音声処理装置21、音声処理装置22、音声処理装置23、および音声処理装置24は、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21について説明する。音声処理装置21は、運転者hm1が発話する音声をターゲット成分とする。ここで、ターゲット成分とする、とは、取得目的の音声信号とする、と同義である。音声処理装置21は、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。ここで、クロストーク成分とは、ターゲット成分とされた音声を発話する乗員以外の乗員の音声を含むノイズ成分である。
【0018】
音声処理装置21は、
図2に示すように、音声入力部29と、ノイズ検知部30と、複数の適応フィルタを含むフィルタ部F1と、複数の適応フィルタのフィルタ係数を制御する制御部28と、加算部27と、を備える。
【0019】
音声入力部29には、マイクMC1、マイクMC2、マイクMC3、およびマイクMC4で収音された音声の音声信号が入力される。言い換えると、マイクMC1、マイクMC2、マイクMC3およびマイクMC4は、それぞれ、収音された音声の音声信号に基づく信号を音声入力部29に出力する。マイクMC1は、音声信号Aを音声入力部29に出力する。音声信号Aは、運転者hm1の音声と、運転者hm1以外の乗員の音声を含むノイズと、を含む信号である。ここで、音声処理装置21においては、運転者hm1の音声はターゲット成分であり、運転者hm1以外の乗員の音声を含むノイズは、クロストーク成分である。マイクMC1は、第1マイクに相当する。マイクMC1で収音された音声は、第1音声信号に相当する。運転者hm1の音声は、第1音声成分に相当する。運転者hm1以外の乗員の音声は、第2音声成分に相当する。音声信号Aは、第1信号に相当する。マイクMC2は、音声信号Bを音声入力部29に出力する。音声信号Bは、乗員hm2の音声と、乗員hm2以外の乗員の音声を含むノイズと、を含む信号である。マイクMC3は、音声信号Cを音声入力部29に出力する。音声信号Cは、乗員hm3の音声と、乗員hm3以外の乗員の音声を含むノイズと、を含む信号である。マイクMC4は、音声信号Dを音声入力部29に出力する。音声信号Dは、乗員hm4の音声と、乗員hm4以外の乗員の音声を含むノイズと、を含む信号である。マイクMC2、マイクMC3、およびマイクMC4は、第2マイクに相当する。マイクMC2、マイクMC3、およびマイクMC4で収音された音声は、第2音声信号に相当する。音声信号B、音声信号C、および音声信号Dは、第2信号に相当する。音声入力部29は、音声信号A、音声信号B、音声信号Cおよび音声信号Dを出力する。音声入力部29は受信部に相当する。
【0020】
本実施形態では、音声処理装置21は、すべてのマイクからの音声信号が入力される1つの音声入力部29を備えているが、対応する音声信号が入力される音声入力部29をマイクごとに備えていてもよい。例えば、マイクMC1で収音された音声の音声信号がマイクMC1に対応する音声入力部に入力され、マイクMC2で収音された音声の音声信号がマイクMC2に対応する別の音声入力部に入力され、マイクMC3で収音された音声の音声信号がマイクMC3に対応する別の音声入力部に入力され、マイクMC4で収音された音声の音声信号がマイクMC4に対応する別の音声入力部に入力されるような構成であってもよい。
【0021】
ノイズ検知部30には、音声入力部29から出力された音声信号A、音声信号B、音声信号C、および音声信号Dが入力される。ノイズ検知部30は、各音声信号について、無相関ノイズを含むかどうかを判断する。無相関ノイズとは、音声信号間で相関がないノイズである。無相関ノイズとは、例えば、風によるノイズや、回路に起因するノイズや、マイクへの接触によるタッチノイズである。無相関ノイズは、非音響ノイズとも呼ばれる。例えば、ノイズ検知部30は、ある音声信号の強度が所定の値以上である場合に、その音声信号が無相関ノイズを含むと判断する。あるいは、ノイズ検知部30は、ある音声信号の強度と、別の音声信号の強度とを比較し、ある音声信号の強度が別の音声信号の強度よりも所定の値以上大きい場合に、その音声信号が無相関ノイズを含むと判断してもよい。また、ノイズ検知部30は、車両情報に基づいて、ある音声信号が無相関ノイズを含むと判断してもよい。例えば、ノイズ検知部30は、車速と窓の開閉状態に関する情報を車両情報として受信し、車速が一定以上であり、かつ後部座席の窓が開いている場合に、音声信号Cおよび音声信号Dが無相関ノイズを含むと判断してもよい。ノイズ検知部30は、各音声信号について、無相関ノイズを含むかどうかの判断結果を制御部28に出力する。ノイズ検知部30は、各音声信号が無相関ノイズを含むかどうかの判断結果を例えばフラグとして制御部28に出力する。フラグは、各音声信号について、「1」あるいは「0」の値を示す。「1」は音声信号が無相関ノイズを含むことを意味し、「0」は音声信号が無相関ノイズを含まないことを意味する。例えば、音声信号Aおよび音声信号Bが無相関ノイズを含まず、音声信号Cおよび音声信号Dが無相関ノイズを含むと判断した場合、ノイズ検知部30は、フラグ「0、0、1、1」を判断結果として制御部28に出力する。無相関ノイズを含むかを判断した後、ノイズ検知部30は、音声信号Aを加算部27に、音声信号B、音声信号C、および音声信号Dをフィルタ部F1に出力する。ここで、ノイズ検知部30は、判断部に相当する。
【0022】
本実施形態では、音声処理装置21は、すべての音声信号が入力される1つのノイズ検知部30を備えているが、対応する音声信号が入力されるノイズ検知部30を音声信号ごとに備えていてもよい。例えば、音声信号Aがノイズ検知部301に入力され、音声信号Bがノイズ検知部302に入力され、音声信号Cがノイズ検知部303に入力され、音声信号Dがノイズ検知部304に入力されるような構成であってもよい。
【0023】
フィルタ部F1は、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cを含む。適応フィルタとは、信号処理の過程において特性を変化させる機能を備えたフィルタである。フィルタ部F1は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部F1は3つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。ここで、フィルタ部F1は、第1フィルタ部に相当する。
【0024】
適応フィルタF1Aには、参照信号として音声信号Bが入力される。適応フィルタF1Aは、フィルタ係数CBおよび音声信号Bに基づいた通過信号PBを出力する。適応フィルタF1Bには、参照信号として音声信号Cが入力される。適応フィルタF1Bは、フィルタ係数CCおよび音声信号Cに基づいた通過信号PCを出力する。適応フィルタF1Cには、参照信号として音声信号Dが入力される。適応フィルタF1Cは、フィルタ係数CDおよび音声信号Dに基づいた通過信号PDを出力する。フィルタ部F1は、通過信号PB、通過信号PCおよび通過信号PDを足し合わせて出力する。本実施形態においては、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cは、プロセッサが、メモリに格納されたプログラムを実行することにより実現される。適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cは、物理的に分離された、別々のハードウェア構成であってもよい。
【0025】
ここで、適応フィルタの動作の概略を説明する。適応フィルタは、クロストーク成分の抑圧に用いられるフィルタである。例えば、フィルタ係数の更新アルゴリズムとしてLMS(Least Mean Square)を用いる場合、適応フィルタは、誤差信号の自乗平均で定義されるコスト関数を最小にするフィルタである。ここでいう誤差信号とは、出力信号とターゲット成分との差である。
【0026】
ここでは、適応フィルタとしてFIR(Finite Impulse Response)フィルタを例示する。他の種類の適応フィルタを用いてもよい。例えば、IIR(Infinite Impulse Response)フィルタを用いてもよい。
音声処理装置21の出力信号とターゲット成分との差である誤差信号は、音声処理装置21が適応フィルタとして1つのFIRフィルタを用いる場合、以下の式(1)で示される。
【0027】
【0028】
ここで、nは時刻であり、e(n)は誤差信号であり、d(n)はターゲット成分であり、wiはフィルタ係数であり、x(n)は参照信号であり、lはタップ長である。タップ長lが大きいほど、適応フィルタが音声信号の音響特性を忠実に再現できる。残響が存在しない場合、タップ長lは1としてよい。例えば、タップ長lは一定の値に設定される。例えば、ターゲット成分が運転者hm1の音声である場合、参照信号x(n)は音声信号B,音声信号Cおよび音声信号Dである。
【0029】
加算部27は、音声入力部29から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部F1から出力される、通過信号PB、通過信号PCおよび通過信号PDを足し合わせた信号である。加算部27は、出力信号を制御部28に出力する。
【0030】
制御部28は、加算部27から出力される出力信号を出力する。制御部28の出力信号は、音声認識エンジン40に入力される。あるいは、制御部28から、電子機器50に出力信号が直接入力されてもよい。制御部28から電子機器50に出力信号が直接入力される場合、制御部28と電子機器50とは、有線で接続されていてもよく、無線で接続されていてもよい。例えば、電子機器50が携帯端末であり、制御部28から、無線通信網を介して、携帯端末に出力信号が直接入力されてもよい。携帯端末へ入力された出力信号は、携帯端末の有するスピーカから音声として出力されてもよい。
【0031】
また、制御部28は、加算部27から出力される出力信号と、ノイズ検知部30から出力された判断結果としてのフラグを参照して、各適応フィルタのフィルタ係数を更新する。
【0032】
まず、制御部28は、判断結果に基づき、フィルタ係数の更新対象とする適応フィルタを決定する。具体的には、制御部28は、ノイズ検知部30において、無相関ノイズを含まないと判断された音声信号が入力される適応フィルタをフィルタ係数の更新対象とする。また、制御部28は、ノイズ検知部30において、無相関ノイズを含むと判断された音声信号が入力される適応フィルタを、フィルタ係数の更新対象としない。例えば、ノイズ検知部30からフラグ「0、0、1、1」を受信した場合、制御部28は、音声信号Aおよび音声信号Bは無相関ノイズを含まず、音声信号Cおよび音声信号Dが無相関ノイズを含むと判断する。そして、制御部28は、適応フィルタF1Aをフィルタ係数の更新対象とし、適応フィルタF1Bおよび適応フィルタF1Cをフィルタ係数の更新対象としない。この場合、適応フィルタF1Aは第2適応フィルタに相当し、適応フィルタF1Bおよび適応フィルタF1Cは第1適応フィルタに相当する。
【0033】
そして、制御部28は、フィルタ係数の更新対象とした適応フィルタについて、式(1)における誤差信号の値が0に近づくように、フィルタ係数を更新する。
【0034】
更新アルゴリズムとしてLMSを用いる場合の、フィルタ係数の更新について説明する。時刻nにおけるフィルタ係数w(n)を更新し、時刻n+1におけるフィルタ係数w(n+1)とする場合、w(n+1)とw(n)との関係は、以下の式(2)で示される。
【0035】
【0036】
ここで、αはフィルタ係数の補正係数である。項αx(n)e(n)は、更新量に相当する。
【0037】
なお、フィルタ係数の更新時のアルゴリズムは、LMSに限られず、他のアルゴリズムを用いてもよい。例えば、ICA(Independent Component Analysis)、NLMS(Normalized Least Mean Square)といったアルゴリズムを用いてもよい。
【0038】
フィルタ係数の更新の際、制御部28は、フィルタ係数の更新対象としなかった適応フィルタについて、入力される参照信号の強度をゼロに設定する。例えば、ノイズ検知部30からフラグ「0、0、1、1」を受信した場合、制御部28は、適応フィルタF1Aに参照信号として入力される音声信号Bは、ノイズ検知部30から出力された強度のまま入力されるように設定し、適応フィルタF1Bに参照信号として入力される音声信号Cおよび適応フィルタF1Cに参照信号として入力される音声信号Dの強度をゼロに設定する。ここで、「適応フィルタに入力される参照信号の強度をゼロに設定する」とは、適応フィルタに入力される参照信号の強度をゼロ付近に抑圧することを含む。また、「適応フィルタに入力される参照信号の強度をゼロに設定する」とは、適応フィルタに参照信号を入力しないように設定することをも含む。参照信号として入力される音声信号の強度をゼロに設定しない場合、フィルタ係数の更新対象としなかった適応フィルタには、無相関ノイズを含む音声信号が入力される。例えば、大音量の風ノイズを無相関ノイズとして含む音声信号を参照信号として用いると、ターゲット成分を精度よく求めることが難しい場合がある。無相関ノイズを含む音声信号について、適応フィルタに入力される強度をゼロに設定することは、この信号を参照信号として使用しないことと等価となる。この結果、クロストーク成分が無相関ノイズを含む場合にも、ターゲット成分を精度よく求めることができる。入力される参照信号の強度がゼロに設定された適応フィルタにおいて、適応フィルタリングが行われなくてもよい。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。
【0039】
そして、制御部28は、フィルタ係数の更新対象とされた適応フィルタについてのみフィルタ係数を更新し、フィルタ係数の更新対象とされなかった適応フィルタについてはフィルタ係数を更新しない。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。
【0040】
例えば、ターゲット席を運転席とした場合、かつ、運転者hm1による発話がなく、乗員hm2、乗員hm3、および乗員hm4による発話がある場合を考える。このとき、マイクMC1で収音される音声の音声信号に、運転者hm1以外の乗員による発話が漏れこむ。言い換えると、音声信号Aにクロストーク成分が含まれることになる。音声処理装置21は、クロストーク成分をキャンセルし、誤差信号を最小化するように適応フィルタを更新してよい。この場合、運転席で発話がないので、誤差信号は、理想的には無音信号となる。また、上記の場合で運転者hm1による発話があった場合、運転者hm1による発話はマイクMC1以外のマイクに漏れこむことになる。この場合も、音声処理装置21による処理によっては、運転者hm1による発話はキャンセルされない。音声信号Aに含まれる運転者hm1による発話は、他の音声信号に含まれる、運転者hm1による発話よりも時間的に早いためである。これは因果律による。したがって、音声処理装置21は、ターゲット成分の音声信号が含まれるか、含まれないかに関わらず、誤差信号を最小化するように適応フィルタを更新することで、音声信号Aに含まれるクロストーク成分を低減できる。
【0041】
本実施形態において、音声入力部29と、ノイズ検知部30と、フィルタ部F1と、制御部28と、加算部27と、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29、ノイズ検知部30、フィルタ部F1、制御部28、および加算部27が、別々のハードウェアで構成されていてもよい。
【0042】
音声処理装置21について説明したが、音声処理装置22、音声処理装置23、および音声処理装置24についてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22は、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22は、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22は、音声信号A、音声信号C、および音声信号Dが入力されるフィルタ部を有する点で音声処理装置21と異なる。同様に、音声処理装置23は、乗員hm3が発話する音声をターゲット成分とする。音声処理装置23は、マイクMC3で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置23は、音声信号A、音声信号B、および音声信号Dが入力されるフィルタ部を有する点で音声処理装置21と異なる。音声処理装置24は、乗員hm4が発話する音声をターゲット成分とする。音声処理装置24は、マイクMC4で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置24は、音声信号A、音声信号B、および音声信号Cが入力されるフィルタ部を有する点で音声処理装置21と異なる。
【0043】
図3は、音声処理装置21の動作手順を示すフローチャートである。まず、音声入力部29に、音声信号A、音声信号B、音声信号Cおよび音声信号Dが入力される(S1)。次に、ノイズ検知部30が、各音声信号について、無相関ノイズを含むかを判断する(S2)。ノイズ検知部30はこの判断結果をフラグとして制御部28に出力する。各音声信号がいずれも無相関ノイズを含まない場合、フィルタ部F1は、以下のように減算信号を生成する(S3)。適応フィルタF1Aは、音声信号Bを通過させ、通過信号PBを出力する。適応フィルタF1Bは、音声信号Cを通過させ、通過信号PCを出力する。適応フィルタF1Cは、音声信号Dを通過させ、通過信号PDを出力する。フィルタ部F1は、通過信号PB、通過信号PCおよび通過信号PDを足し合わせて、減算信号として出力する。加算部27は、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S4)。出力信号は、制御部28に入力され、制御部28から出力される。次に、制御部28は、ノイズ検知部30から出力された判断結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cのフィルタ係数を更新する(S5)。そして、音声処理装置21は再び工程S1を行う。
【0044】
工程S2において、各音声信号のいずれかが無相関ノイズを含むと判断された場合、ノイズ検知部30は、無相関ノイズを含む音声信号がターゲット成分かどうかを判断する(S6)。具体的には、無相関ノイズを含む音声信号が音声信号Aであるかを判断する。無相関ノイズを含む音声信号がターゲット成分である場合、制御部28は、音声信号Aの強度をゼロにし、音声信号Aを出力信号として出力する(S7)。このとき、制御部28は、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cのフィルタ係数を更新しない。そして、音声処理装置21は再び工程S1を行う。
工程S6において、無相関ノイズを含む音声信号がターゲット成分でない場合、制御部28は、フィルタ部F1に入力される、無相関ノイズを含む音声信号の強度をゼロにする。例えば、音声信号Cおよび音声信号Dが無相関ノイズを含み、音声信号Bが無相関ノイズを含まない場合を考える。その場合、制御部28は、フィルタ部F1に入力される、音声信号Cおよび音声信号Dの強度をゼロにし、音声信号Bの強度は変更しない。そして、フィルタ部F1は、工程S3と同様の動作によって減算信号を生成する(S8)。加算部27は、工程S4と同様に音声信号Aから減算信号を減算し、出力信号を生成して出力する(S9)。次に、制御部28は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、無相関ノイズを含まない信号が入力される適応フィルタのフィルタ係数を更新する(S10)。例えば、音声信号Cおよび音声信号Dが無相関ノイズを含み、音声信号Bが無相関ノイズを含まない場合を考える。その場合、制御部28は、適応フィルタF1Aのフィルタ係数を更新し、適応フィルタF1Bおよび適応フィルタF1Cのフィルタ係数を更新しない。そして、音声処理装置21は再び工程S1を行う。
【0045】
このように、第1実施形態における音声処理システム5では、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第1の実施形態においては、適応フィルタを用いて減算信号を生成する際に、適応フィルタに入力される、無相関ノイズを含む音声信号の強度をゼロにしている。例えば、後部座席に風が吹き込んで、後部座席付近のマイクに大音量の風ノイズが収音される場合がある。このとき、後部座席で得られた音声信号を参照信号として用いると、特定の話者の音声を求めにくい可能性がある。一方本実施形態では、適応フィルタに入力される、無相関ノイズを含む音声信号の強度をゼロとするために、ターゲット席以外で無相関ノイズが発生した場合でも、ターゲット成分の音声信号を精度よく求めることができる。また、第1の実施形態においては、無相関ノイズを含む音声信号が入力される適応フィルタについて、フィルタ係数の更新をしない。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。
【0046】
なお、各マイクがマイクアレイである場合、収音時にマイクアレイが対応する乗員に向けて指向性を有し、その音声を取得すること、つまりビームフォーミングを行ってもよい。そのことにより、各マイクに入力される音声信号のS/N比が向上する。それにより、音声処理システム5で行われるクロストーク成分の抑圧処理の精度を高めることができる。
【0047】
図4に、音声処理装置20の出力結果を示す。
図4に示されるのは、運転者hm1、乗員hm2、乗員hm3および乗員hm4の発話がある状態で、マイクMC3およびマイクMC4に大音量の風ノイズが収音された場合の、各音声処理装置20の出力結果である。
図4(a)、
図4(b)、
図4(c)、および
図4(d)は、音声信号Cおよび音声信号Dの入力強度をゼロとせず、かつ適応フィルタF1Bおよび適応フィルタF1Cの更新を停止しなかった場合の各音声処理装置20の出力結果である。
図4(a)は音声処理装置21、
図4(b)は音声処理装置22、
図4(c)は音声処理装置23、
図4(d)は音声処理装置24の出力結果に対応する。
図4(e)、
図4(f)、
図4(g)、および
図4(h)は、音声信号Cおよび音声信号Dの入力強度をゼロとし、かつ適応フィルタF1Bおよび適応フィルタF1Cの更新を停止した場合の各音声処理装置20の出力結果である。
図4(e)は音声処理装置21、
図4(f)は音声処理装置22、
図4(g)は音声処理装置23、
図4(h)は音声処理装置24の出力結果に対応する。
【0048】
図4(a)、
図4(b)、
図4(c)、および
図4(d)より、無相関ノイズを含む音声信号を参照信号とすることで、音声処理装置21および音声処理装置22の出力信号が、非常にノイズを多く含む信号となっている。この場合、音声処理装置21および音声処理装置22の出力信号を音声認識に用いても、認識精度が低くなると考えられる。一方、
図4(e)および
図4(f)に示される音声処理装置21および音声処理装置22の出力信号では、
図4(a)および
図4(b)に示されるものよりも含まれるノイズが少なくなっていることがわかる。したがってこの場合には、音声処理装置21および音声処理装置22の出力信号を、高精度に音声認識することができる。また、
図4(g)、および
図4(h)に示される通り、音声処理装置23および音声処理装置24の出力信号の強度はゼロとなっている。
【0049】
(第2実施形態)
図5は、第2実施形態における音声処理システム5Aの概略構成の一例を示す図である。第2実施形態に係る音声処理システム5Aは、音声処理装置20に代えて音声処理装置20Aを備える点で第1実施形態に係る音声処理システム5と異なる。第2実施形態に係る音声処理装置20Aは、追加のフィルタ部を有する点で第1実施形態に係る音声処理装置20と異なる。本実施形態において、音声処理システム5Aは、各マイクに対応する複数の音声処理装置20Aを備える。具体的には、音声処理システム5Aは、音声処理装置21Aと、音声処理装置22Aと、音声処理装置23Aと、音声処理装置24Aとを備える。以下、
図6および
図7を用いて音声処理装置20Aについて説明する。第1実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。
【0050】
図6は、音声処理装置21Aの構成を示すブロック図である。音声処理装置21A、音声処理装置22A、音声処理装置23A、および音声処理装置24Aは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21Aについて説明する。音声処理装置21Aは、運転者hm1が発話する音声をターゲットとする。音声処理装置21Aは、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。
音声処理装置21Aは、音声入力部29と、ノイズ検知部30Aと、複数の適応フィルタを含むフィルタ部F1と、1つ以上の適応フィルタを含むフィルタ部F2と、フィルタ部F1の適応フィルタのフィルタ係数を制御する制御部28Aと、加算部27Aと、を備える。
【0051】
フィルタ部F2は、1つ以上の適応フィルタを含む。本実施形態において、フィルタ部F2は、適応フィルタF2Aを含む。フィルタ部F2は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。フィルタ部F2の含む適応フィルタの数は、フィルタ部F1の含む適応フィルタの数よりも小さい。本実施形態においては、フィルタ部F2は1つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。ここで、フィルタ部F2は、第2フィルタ部に相当する。
【0052】
適応フィルタF2Aには、参照信号として音声信号Bが入力される。適応フィルタF2Aは、固有のフィルタ係数CB2および音声信号Bに基づいた通過信号PB2を出力する。本実施形態においては、適応フィルタF2Aは、ソフトウェア処理によってその機能が実現される。適応フィルタF2Aは、フィルタ部F1における各適応フィルタとは物理的に分離された、別々のハードウェア構成であってもよい。ここで、適応フィルタF1Aは第2適応フィルタに相当し、適応フィルタF1Bおよび適応フィルタF1Cは第1適応フィルタに相当し、適応フィルタF2Aは第3適応フィルタに相当する。また、音声信号Bは第3信号に相当する。
【0053】
適応フィルタF2Aは、FIRフィルタであってもよく、IIRフィルタであってもよく、他の種類の適応フィルタであってもよい。適応フィルタF2Aは、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cと同じ種類の適応フィルタであると、異なる種類の適応フィルタを用いる場合と比較して処理量を低減できるので望ましい。ここでは、適応フィルタF2AとしてFIRフィルタを用いる場合について説明する。
【0054】
加算部27Aは、音声入力部29から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部F1から出力される、通過信号PB、通過信号PCおよび通過信号PDを足し合わせた信号、あるいは、フィルタ部F2から出力される、通過信号PB2である。加算部27Aは、出力信号を制御部28Aに出力する。
【0055】
制御部28Aは、加算部27Aから出力される出力信号を出力する。制御部28Aの出力信号は、音声認識エンジン40に入力される。あるいは、制御部28Aから、電子機器50に出力信号が直接入力されてもよい。制御部28Aから電子機器50に出力信号が直接入力される場合、制御部28Aと電子機器50とは、有線で接続されていてもよく、無線で接続されていてもよい。例えば、電子機器50が携帯端末であり、制御部28Aから、無線通信網を介して、携帯端末に出力信号が直接入力されてもよい。携帯端末へ入力された出力信号は、携帯端末の有するスピーカから音声として出力されてもよい。
【0056】
ノイズ検知部30A制御部は、ノイズ検知部30の機能に加えて、各音声信号が発話による音声成分を含むかの判断を行う。ノイズ検知部30Aは、各音声信号について、発話による音声成分を含むかどうかの判断結果を制御部28に出力する。ノイズ検知部30Aは、各音声信号が発話による音声成分を含むかどうかの判断結果を例えばフラグとして制御部28に出力する。フラグは、各音声信号について、「1」あるいは「0」の値を示す。「1」は音声信号が発話による音声成分を含むことを意味し、「0」は音声信号が発話による音声成分を含まないことを意味する。例えば、音声信号Aおよび音声信号Bが発話による音声成分を含み、音声信号Cおよび音声信号Dが発話による音声成分を含まないと判断した場合、ノイズ検知部30は、フラグ「1、1、0、0」を判断結果として制御部28Aに出力する。ここで、発話による音声成分は、発話に由来する第1成分に相当する。そして、制御部28Aは、各音声信号が発話による音声成分を含むかの判断結果検知部に基づき、減算信号を、フィルタ部F1およびフィルタ部F2のどちらを用いて生成するかを決定する。例えば、制御部発話による音声成分を含まないと判断された音声信号が入力される適応フィルタを、フィルタ部F1は有し、フィルタ部F2は有さない場合がある。その場合、制御部28Aは、フィルタ部F2を用いて減算信号を生成すると決定する。音声処理装置21Aは、各音声信号が発話による音声成分を含むかの判断を行う発話判断部を、ノイズ検知部30Aとは別に備えていてもよい。その場合、発話判断部は、音声入力部29とノイズ検知部30Aの間、あるいは、ノイズ検知部30Aと、フィルタ部F1およびフィルタ部F2との間に接続される。発話判断部は、例えば、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。発話判断部は、ハードウェアによってその機能が実現されてもよい。
【0057】
例えば、音声信号Bが乗員hm2の発話による音声成分を含み、音声信号Cが乗員hm3の発話による音声成分を含まず、音声信号Dが乗員hm4の発話による音声成分を含まない場合を考える。そのとき、音声信号Cおよび音声信号Dが入力される適応フィルタを、フィルタ部F1は有し、フィルタ部F2は有さない。フィルタ部F1に含まれる各適応フィルタのフィルタ係数は、例えば、すべての適応フィルタに参照信号がそれぞれ入力される場合に、誤差信号が最小になるように更新される。一方、フィルタ部F2に含まれる適応フィルタF2Aのフィルタ係数は、参照信号として音声信号Bのみを用いる場合を前提とした固有の値である。したがって、参照信号として音声信号Bのみが各フィルタ部に入力される場合を比較すると、フィルタ部F2を用いた方が、フィルタ部F1を用いた場合よりも誤差信号を小さくできる可能性がある。
【0058】
フィルタ部F2に含まれる適応フィルタの数が、フィルタ部F1に含まれる適応フィルタの数よりも少ない場合、フィルタ部F2を用いて減算信号を生成することにより、フィルタ部F1を用いて減算信号を生成するよりも、処理量を低減することができる。
【0059】
あるいは、ノイズ検知部30において、無相関ノイズを含むと判断された音声信号が入力される適応フィルタを、フィルタ部F1は有し、フィルタ部F2は有さない場合がある。その場合も、制御部28Aは、フィルタ部F2を用いて減算信号を生成すると決定する。
フィルタ部F1に含まれる各適応フィルタのフィルタ係数は、例えば、すべての適応フィルタに参照信号がそれぞれ入力される場合に、誤差信号が最小になるように更新される。一方、フィルタ部F2に含まれる適応フィルタF2Aのフィルタ係数は、参照信号として音声信号Bのみを用いる場合を前提とした固有の値である。音声信号Cおよび音声信号Dが無相関ノイズを含む場合には、フィルタ部F1に入力される音声信号Cおよび音声信号Dの強度はゼロに設定される。その場合、音声信号B、音声信号C、および音声信号Dのすべてを参照信号として用いることを前提にしているフィルタ部F1よりも、音声信号Bのみを参照信号として用いるフィルタ部F2を用いた方が、誤差信号を小さくできる場合がある。
【0060】
また、制御部28Aは、加算部27Aから出力される出力信号と、ノイズ検知部30から出力された判断結果に基づき、フィルタ部F1を用いて減算信号を生成した場合には、フィルタ部F1の各適応フィルタのフィルタ係数を更新する。フィルタ係数の更新方法については第1実施形態と同様である。
【0061】
本実施形態において、音声入力部29と、ノイズ検知部30と、フィルタ部F1と、フィルタ部F2と、制御部28Aと、加算部27Aと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。音声入力部29と、ノイズ検知部30と、フィルタ部F1と、フィルタ部F2と、制御部28Aと、加算部27Aと、は、別々のハードウェアで構成されてもよい。
【0062】
図7は、音声処理装置21Aの動作手順を示すフローチャートである。まず、音声入力部29に、音声信号A、音声信号B、音声信号Cおよび音声信号Dが入力される(S11)。次に、ノイズ検知部30が、各音声信号について、無相関ノイズを含むかを判断する(S12)。各音声信号がいずれも無相関ノイズを含まない場合、制御部28Aは、いずれのフィルタ部を用いて減算信号を生成するかを判断する(S13)。制御部28Aがフィルタ部F1を用いると判断した場合、フィルタ部F1は、実施形態1の工程S3と同様に減算信号を生成し、出力する(S14)。加算部27Aは、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S15)。出力信号は、制御部28に入力され、制御部28から出力される。次に、制御部28は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cのフィルタ係数を更新する(S16)。そして、音声処理装置21Aは再び工程S11を行う。
【0063】
工程S13において、制御部28Aがフィルタ部F2を用いると判断した場合、フィルタ部F2は、以下のように減算信号を生成する(S17)。適応フィルタF2Aは、音声信号Bを通過させ、通過信号PB2を出力する。フィルタ部F2は、通過信号PB2を、減算信号として出力する。加算部27Aは、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S18)。出力信号は、制御部28に入力され、制御部28から出力される。そして、音声処理装置21は再び工程S11を行う。
【0064】
工程S2において、各音声信号のいずれかが無相関ノイズを含むと判断された場合、ノイズ検知部30は、無相関ノイズを含む音声信号がターゲット成分かどうかを判断する(S19)。具体的には、無相関ノイズを含む音声信号が音声信号Aであるかを判断する。無相関ノイズを含む音声信号がターゲット成分である場合、制御部28は、音声信号Aの強度をゼロにし、音声信号Aを出力信号として出力する(S20)。このとき、制御部28は、適応フィルタF1A、適応フィルタF1B、および適応フィルタF1Cのフィルタ係数を更新しない。そして、音声処理装置21Aは再び工程S11を行う。
【0065】
工程S19において、無相関ノイズを含む音声信号がターゲット成分でない場合、制御部28Aは、いずれのフィルタ部を用いて減算信号を生成するかを判断する(S21)。制御部28Aがフィルタ部F1を用いると判断した場合、制御部28は、フィルタ部F1に入力される、無相関ノイズを含む音声信号の強度をゼロにする。例えば、音声信号Bが無相関ノイズを含み、音声信号Cおよび音声信号Dが無相関ノイズを含まない場合を考える。その場合、制御部28は、フィルタ部F1に入力される、音声信号Bの強度をゼロにし、音声信号Cおよび音声信号Dの強度は変更しない。そして、フィルタ部F1は、実施形態1の工程S3と同様の動作によって減算信号を生成する(S22)。加算部27Aは、実施形態1の工程S4と同様に音声信号Aから減算信号を減算し、出力信号を生成して出力する(S23)。次に、制御部28Aは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、無相関ノイズを含まない信号が入力される適応フィルタのフィルタ係数を更新する(S24)。例えば、音声信号Bが無相関ノイズを含み、音声信号Cおよび音声信号Dが無相関ノイズを含まない場合を考える。その場合、制御部28は、適応フィルタF1Bおよび適応フィルタF1Cのフィルタ係数を更新し、適応フィルタF1Aのフィルタ係数を更新しない。そして、音声処理装置21Aは再び工程S11を行う。
【0066】
工程S21において、制御部28Aがフィルタ部F2を用いると判断した場合、フィルタ部F2は、工程S17と同様に減算信号を生成する(S25)。加算部27Aは、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S26)。出力信号は、制御部28に入力され、制御部28から出力される。そして、音声処理装置21Aは再び工程S11を行う。
【0067】
このように、第2実施形態における音声処理システム5Aにおいても、音声処理システム5と同様に、ターゲット席以外で無相関ノイズが発生した場合でも、ターゲット成分の音声信号を精度よく求めることができる。また、第1の実施形態においては、無相関ノイズを含む音声信号が入力される適応フィルタについて、フィルタ係数の更新をしない。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。
【0068】
また、音声処理システム5Aにおいては、フィルタ部F1よりも含まれる適応フィルタの数が小さい追加のフィルタ部F2を備え、フィルタ部F1およびフィルタ部F2のいずれを用いるかを制御部28Aが判断する。これにより、常にフィルタ部F1を用いて減算信号を生成する場合と比較して、処理量を小さくすることができる。
【0069】
なお、本実施形態では、フィルタ部F2が固有のフィルタ係数を有する1つの適応フィルタを含む場合について説明したが、フィルタ部F2が2つ以上の適応フィルタを備えていてもよい。また、フィルタ部F2が含む適応フィルタの係数は、固有ではなく制御部28Aによって制御可能であってもよい。フィルタ係数を制御可能な適応フィルタをフィルタ部F2が含む場合は、制御部28Aは、工程S18の後に、あるいは工程S26の後に、無相関ノイズを含まない音声信号が入力される適応フィルタのフィルタ係数を更新してもよい。
【符号の説明】
【0070】
5 音声処理システム
10 車両
20、21、22、23、24 音声処理装置
27 加算部
28 制御部
29 音声入力部
30 ノイズ検知部
F1 フィルタ部
F1A、F1B、F1C 適応フィルタ
40 音声認識エンジン
50 電子機器