(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-12
(45)【発行日】2023-10-20
(54)【発明の名称】音声処理システム、音声処理装置及び音声処理方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20231013BHJP
G10L 21/0208 20130101ALI20231013BHJP
H04R 1/02 20060101ALI20231013BHJP
H04R 1/40 20060101ALI20231013BHJP
【FI】
H04R3/00 320
G10L21/0208 100A
H04R1/02 107
H04R1/40 320A
(21)【出願番号】P 2020048463
(22)【出願日】2020-03-18
【審査請求日】2022-08-18
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山梨 智史
(72)【発明者】
【氏名】番場 裕
【審査官】大野 弘
(56)【参考文献】
【文献】特開2009-276528(JP,A)
【文献】特開2013-078117(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
G10L 21/0208
H04R 1/02
(57)【特許請求の範囲】
【請求項1】
第1位置で生じる第1音声成分と、前記第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号を取得し、前記第1音声信号に基づいた第1信号を出力する、少なくとも1つの第1マイクと、
前記第1信号が入力され、前記第1信号に基づいた通過信号を出力する、少なくとも1つの適応フィルタと、
前記第1音声信号が前記第1音声成分と前記第2音声成分のいずれを多く含むかの判定を行う判定部と、
前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する制御部と、
を備える、音声処理システム。
【請求項2】
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第2音声信号を取得し、前記第2音声信号に基づいた第2信号を出力し、前記第1位置に対して少なくとも1つの前記第1マイクよりも遠くに位置する第2マイクと、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第3音声信号を取得し、前記第3音声信号に基づいた第3信号を出力し、前記第2位置に対して少なくとも1つの前記第1マイクよりも遠くに位置する第3マイクと、
を備え、
前記判定部は、前記第2信号と、前記第3信号と、に基づき、前記第1音声信号が前記第1音声成分と前記第2音声成分のいずれを多く含むかの判定を行う、
請求項1に記載の音声処理システム。
【請求項3】
前記第2信号に対して指向性制御処理を行って得られた第1指向性信号を出力し、前記第3信号に対して指向性制御処理を行って得られた第2指向性信号を出力する指向性制御部を備える、
請求項2に記載の音声処理システム。
【請求項4】
前記判定部は、前記第1指向性信号と、前記第2指向性信号と、に基づいて、前記第1音声信号が前記第1音声成分と前記第2音声成分のいずれを多く含むかの判定を行う、
請求項3に記載の音声処理システム。
【請求項5】
前記指向性制御部は、前記判定部を有する、
請求項3または請求項4に記載の音声処理システム。
【請求項6】
前記少なくとも1つの第1マイクは、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第4音声信号を取得し、前記第4音声信号に基づいた第4信号を出力する、第4マイクと、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第5音声信号を取得し、前記第5音声信号に基づいた第5信号を出力し、前記第2位置に対して前記第4マイクよりも近くに位置する、第5マイクと、を含み、
前記少なくとも1つの第1マイクの異常の有無を検知し、前記少なくとも1つの第1マイクの異常に関する異常情報を前記制御部に送信する異常検知部を備え、
前記制御部は、前記異常情報と、前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する、
請求項1から請求項4のいずれか一項に記載の音声処理システム。
【請求項7】
前記制御部は、
前記判定部が前記第4マイクの異常を検知した場合、前記適応フィルタに入力される前記第4信号の強度をゼロにし、
前記判定部が前記第5マイクの異常を検知した場合、前記適応フィルタに入力される前記第5信号の強度をゼロにする、
請求項6に記載の音声処理システム。
【請求項8】
前記異常検知部は、前記判定部を有する、
請求項6または7に記載の音声処理システム。
【請求項9】
第1位置で生じる第1音声成分と、前記第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号に基づいた第1信号を受信する、少なくとも1つの受信部と、
前記第1信号が入力され、前記第1信号に基づいた通過信号を出力する、少なくとも1つの適応フィルタと、
前記第1音声信号が前記第1音声成分と前記第2音声成分のいずれを多く含むかの判定を行う判定部と、
前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する制御部と、
を備える、音声処理装置。
【請求項10】
音声処理装置で実行される音声処理方法であって、
第1位置で生じる第1音声成分と、前記第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号に基づいた第1信号を受信する工程と、
前記第1信号が少なくとも1つの適応フィルタに入力され、前記少なくとも1つの適応フィルタが前記第1信号に基づいた通過信号を出力する工程と、
前記第1音声信号が前記第1音声成分と前記第2音声成分のいずれを多く含むかの判定を行う工程と、
前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する工程と、
を含む、音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声処理システム、音声処理装置及び音声処理方法に関する。
【背景技術】
【0002】
車載用の音声認識装置やハンズフリー通話において、周辺の音声を除去して話者の音声だけを認識するための、エコーキャンセラが知られている。特許文献1には、音源数に応じて、動作する適応フィルタの数やタップ数を切り替えるエコーキャンセラが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
適応フィルタを用いてエコーキャンセルを行う場合、収音機器によって収音された周辺の音声が参照信号として適応フィルタに入力される。例えば、音声を発し得る音源1つ1つに対応する収音機器が存在し、1つの収音機器から1つの参照信号が出力される場合、参照信号に含まれる音声は、その参照信号が出力された収音機器に対応する音源の位置で発生したものとして特定され得る。目的の音声を含む信号から、参照信号を、それに含まれる周辺の音声の発生位置を考慮した上で差し引くことにより、目的の音声を得ることができる。
【0005】
一方、音声を発し得る音源の数よりも収音機器の数の方が少ない場合、1つの参照信号に複数の音源による音声が含まれ得る。その場合、参照信号に含まれる音声が発生した位置を、参照信号のみからでは特定できない。そのため、周辺の音声を除去して目的の音声を得ることが難しい場合がある。音声を発し得る音源の数よりも収音機器の数の方が少ない場合でも、周辺の音声を除去して目的の音声を得られると有益である。また、周辺の音声を除去して目的の音声を得るための処理において、処理量を低減できると有益である。
【0006】
本開示は、適応フィルタを用いたエコーキャンセルにおいて、上記課題のうち少なくとも1つを解決することが可能な音声処理システム、音声処理装置及び音声処理方法に関する。
【課題を解決するための手段】
【0007】
本開示の一態様に係る音声処理システムは、第1位置で生じる第1音声成分と、第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号を取得し、第1音声信号に基づいた第1信号を出力する、少なくとも1つの第1マイクと、第1信号が入力され、第1信号に基づいた通過信号を出力する、少なくとも1つの適応フィルタと、第1音声信号が第1音声成分と第2音声成分のいずれを多く含むかの判定を行う判定部と、判定の結果に基づき、適応フィルタのフィルタ係数を制御する制御部と、を備える。
【0008】
本開示の一態様に係る音声処理装置は、第1位置で生じる第1音声成分と、第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号に基づいた第1信号を受信する、少なくとも1つの受信部と、第1信号が入力され、第1信号に基づいた通過信号を出力する、少なくとも1つの適応フィルタと、第1音声信号が第1音声成分と第2音声成分のいずれを多く含むかの判定を行う判定部と、判定の結果に基づき、適応フィルタのフィルタ係数を制御する制御部と、を備える。
【0009】
本開示の一態様に係る音声処理方法は、第1位置で生じる第1音声成分と、第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号に基づいた第1信号を受信する工程と、第1信号が少なくとも1つの適応フィルタに入力され、少なくとも1つの適応フィルタが第1信号に基づいた通過信号を出力する工程と、第1音声信号が第1音声成分と第2音声成分のいずれを多く含むかの判定を行う工程と、判定の結果に基づき、適応フィルタのフィルタ係数を制御する工程と、を含む。
【発明の効果】
【0010】
本開示によれば、音声を発し得る音源の数よりも収音機器の数の方が少ない場合でも、周辺の音声を除去して目的の音声を得られる。あるいは、本開示によれば、周辺の音声を除去して目的の音声を得るための処理において、処理量を低減できる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、第1実施形態における音声処理システムの概略構成の一例を示す図である。
【
図2】
図2は、第1実施形態における音声処理装置の構成を示すブロック図である。
【
図3A】
図3Aは、音声処理装置において用いられる音声信号(音声信号C)の時間波形を示す図である。
【
図3B】
図3Bは、音声処理装置において用いられる音声信号(第1指向性信号)の時間波形を示す図である。
【
図3C】
図3Cは、音声処理装置において用いられる音声信号(第2指向性信号)の時間波形を示す図である。
【
図4】
図4は、音声処理装置において用いられる音声信号の周波数スペクトルを平均化して示す図である。
【
図5】
図5は、第1実施形態における音声処理装置の動作手順を示すフローチャートである。
【
図6】
図6は、第2実施形態における音声処理システムの概略構成の一例を示す図である。
【
図7】
図7は、第2実施形態における音声処理装置の構成を示すブロック図である。
【
図8】
図8は、第2実施形態における音声処理装置の動作手順を示すフローチャートである。
【
図9】
図9は、第3実施形態における音声処理システムの概略構成の一例を示す図である。
【
図10】
図10は、第3実施形態における音声処理装置の構成を示すブロック図である。
【
図11】
図11は、第3実施形態における音声処理装置の動作手順を示すフローチャートである。
【
図12】
図12は、第4実施形態における音声処理システムの概略構成の一例を示す図である。
【
図13】
図13は、第4実施形態における音声処理装置の構成を示すブロック図である。
【
図14】
図14は、第4実施形態における音声処理装置の動作手順を示すフローチャートである。
【
図15A】
図15Aは、音声処理装置において用いられる音声信号(第1指向性信号)のスペクトルの例を示す図である。
【
図15B】
図15Bは、音声処理装置において用いられる音声信号(第2指向性信号)のスペクトルの例を示す図である。
【
図15C】
図15Cは、音声処理装置において用いられる音声信号Cのスペクトルの例を示す図である。
【
図16】
図16は、第5実施形態における音声処理システムの概略構成の一例を示す図である。
【
図17】
図17は、第5実施形態における音声処理装置の構成を示すブロック図である。
【
図18】
図18は、第5実施形態における音声処理装置の動作手順を示すフローチャートである。
【
図19】
図19は、第6実施形態における音声処理システムの概略構成の一例を示す図である。
【
図20】
図20は、第6実施形態における音声処理装置の構成を示すブロック図である。
【
図21】
図21は、第6実施形態における音声処理装置の動作手順を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0013】
(第1実施形態)
図1は、第1実施形態における音声処理システム5の概略構成の一例を示す図である。音声処理システム5は、例えば車両10に搭載される。以下、音声処理システム5が車両10に搭載される例について説明する。車両10の車室内には、複数の座席が設けられる。複数の座席は、例えば、運転席、助手席、および左右の後部座席の4席である。後部座席における右側の席は、第1位置の一例である。後部座席における左側の席は、第2位置の一例である。座席の数は、これに限られない。音声処理システム5は、マイクMC1、マイクMC2、マイクMC3、及び音声処理装置20を含む。音声処理装置20の出力は、図示しない音声認識エンジンに入力される。音声認識エンジンによる音声認識結果は、電子機器50に入力される。
【0014】
マイクMC1は、運転者hm1が発話する音声を収音する。言い換えると、マイクMC1は、運転者hm1が発話する音声成分を含む音声信号を取得する。マイクMC1は、例えばオーバーヘッドコンソールの右側に配置される。マイクMC2は、乗員hm2が発話する音声を収音する。言い換えると、マイクMC2は、乗員hm2が発話する音声成分を含む音声信号を取得する。マイクMC2は、例えばオーバーヘッドコンソールの右側に配置される。マイクMC3は、乗員hm3が発話する音声および乗員hm4が発話する音声を収音する。言い換えると、マイクMC3は、乗員hm3が発話する音声成分および乗員hm4が発話する音声成分を含む音声信号を取得する。マイクMC3は、例えば天井の後部座席中央付近に配置される。マイクMC1は、後部座席における右側の席に対して、マイクMC3よりも遠くに位置する。マイクMC2は、後部座席における左側の席に対して、マイクMC3よりも遠くに位置する。
【0015】
マイクMC1、マイクMC2、マイクMC3の配置位置は、説明した例に限られない。例えば、マイクMC1はダッシュボードの右側前面に配置されてもよい。マイクMC2は、ダッシュボードの左側前面に配置されてもよい。
【0016】
各マイクは、指向性マイクであってもよく、無指向性マイクであってもよい。各マイクは、小型のMEMS(Micro Electro Mechanical Systems)マイクであってもよく、ECM(Electret Condenser Microphone)であってもよい。各マイクは、ビームフォーミング可能なマイクであってもよい。例えば、各マイクは、各座席の方向に指向性を有し、指向方法の音声を収音可能なマイクアレイでもよい。
【0017】
本実施形態において、音声処理システム5は、各マイクに対応する複数の音声処理装置20を備える。具体的には、音声処理システム5は、音声処理装置21と、音声処理装置22と、音声処理装置23と、を備える。音声処理装置21は、マイクMC1に対応する。音声処理装置22は、マイクMC2に対応する。音声処理装置23は、マイクMC3に対応する。以下、音声処理装置21、音声処理装置22、および音声処理装置23を総称して音声処理装置20と呼ぶことがある。
【0018】
図1に示される構成では、音声処理装置21、音声処理装置22、および音声処理装置23がそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20によって音声処理装置21、音声処理装置22、および音声処理装置23の機能が実現されてもよい。あるいは、音声処理装置21、音声処理装置22、および音声処理装置23、のうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0019】
本実施形態において、各音声処理装置20は、対応する各マイク付近の各座席内に配置される。例えば、音声処理装置21は運転席内、音声処理装置22は助手席内、音声処理装置23は後部座席内に配置される。各音声処理装置20は、ダッシュボード内に配置されてもよい。
【0020】
図2は、音声システム5の構成および音声処理装置21の構成を示すブロック図である。音声システム5は、
図2に示すように、音声処理装置21、音声処理装置22、および音声処理装置23の他に、さらに、音声認識エンジン40と電子機器50を備えている。音声処理装置20の出力は、音声認識エンジン40に入力される。音声認識エンジン40は、少なくとも1つの音声処理装置20からの出力信号に含まれる音声を認識し、音声認識結果を出力する。音声認識エンジン40は、音声認識結果や音声認識結果に基づく信号を生成する。音声認識結果に基づく信号とは、例えば電子機器50の操作信号である。音声認識エンジン40による音声認識結果は、電子機器50に入力される。音声認識エンジン40は、音声処理装置20と別体の装置であってもよい。音声認識エンジン40は、例えばダッシュボードの内部に配置される。音声認識エンジン40は、座席の内部に収容されて配置されてもよい。あるいは、音声認識エンジン40は、音声処理装置20に組み込まれた一体型の装置であってもよい。
【0021】
電子機器50には、音声認識エンジン40から出力される信号が入力される。電子機器50は、例えば、操作信号に対応する動作を行う。電子機器50は、例えば車両10のダッシュボードに配置される。電子機器50は、例えばカーナビゲーション装置である。電子機器50は、パネルメータ、テレビ、あるいは携帯端末であってもよい。
【0022】
図1では、車両に4人が乗車している場合を示したが、乗車する人数はこれに限られない。乗車人数は、車両の最大乗車定員以下であればよい。例えば、車両の最大乗車定員が6人である場合、乗車人数は6人であってもよく、5人以下であってもよい。
【0023】
音声処理装置21、音声処理装置22、および音声処理装置23は、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21について説明する。音声処理装置21は、運転者hm1が発話する音声をターゲット成分とする。ここで、ターゲット成分とする、とは、取得目的の音声信号とする、と同義である。音声処理装置21は、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。ここで、クロストーク成分とは、ターゲット成分とされた音声を発話する乗員以外の乗員の音声を含むノイズ成分である。
【0024】
音声処理装置21は、
図2に示すように、音声入力部29と、指向性制御部30と、複数の適応フィルタを含むフィルタ部F1と、複数の適応フィルタのフィルタ係数を制御する制御部28と、加算部27と、を備える。
【0025】
マイクMC1、マイクMC2、およびマイクMC3は、それぞれ、音声を収音し、収音された音声の音声信号に基づく信号を音声入力部29に出力する。音声入力部29には、マイクMC1、マイクMC2、およびマイクMC3で収音された音声の音声信号が入力される。
【0026】
マイクMC1は、音声信号Aを音声入力部29に出力する。音声信号Aは、運転者hm1の音声と、運転者hm1以外の乗員の音声を含むノイズと、を含む信号である。ここで、音声処理装置21においては、運転者hm1の音声はターゲット成分であり、運転者hm1以外の乗員の音声を含むノイズは、クロストーク成分である。マイクMC1は、第2マイクに相当する。マイクMC1で収音された音声は、第2音声信号に相当する。運転者hm1以外の乗員の音声は、乗員hm3による音声と、乗員hm4による音声と、の少なくとも一方を含む。音声信号Aは、第2信号に相当する。
【0027】
マイクMC2は、音声信号Bを音声入力部29に出力する。音声信号Bは、乗員hm2の音声と、乗員hm2以外の乗員の音声を含むノイズと、を含む信号である。マイクMC2は、第3マイクに相当する。マイクMC2で収音された音声は、第3音声信号に相当する。乗員hm2以外の乗員の音声は、乗員hm3による音声と、乗員hm4による音声と、の少なくとも一方を含む。音声信号Bは、第3信号に相当する。
【0028】
マイクMC3は、音声信号Cを音声入力部29に出力する。音声信号Cは、乗員hm3の音声と、乗員hm4の音声と、乗員hm3および乗員hm4以外の乗員の音声を含むノイズと、を含む信号である。マイクMC3は、第1マイクに相当する。マイクMC3で収音された音声は、第1音声信号に相当する。乗員hm3による音声は第1音声成分に相当し、乗員hm4による音声は第2音声成分に相当する。音声信号Cは、第1信号に相当する。
【0029】
音声入力部29は、音声信号A、音声信号B、および音声信号Cを出力する。音声入力部29は受信部に相当する。
【0030】
本実施形態では、音声処理装置21は、すべてのマイクからの音声信号が入力される1つの音声入力部29を備えているが、対応する音声信号が入力される音声入力部29をマイクごとに備えていてもよい。例えば、マイクMC1で収音された音声の音声信号がマイクMC1に対応する音声入力部に入力され、マイクMC2で収音された音声の音声信号がマイクMC2に対応する別の音声入力部に入力され、マイクMC3で収音された音声の音声信号がマイクMC3に対応する別の音声入力部に入力されるような構成であってもよい。
【0031】
指向性制御部30には、音声入力部29から出力された音声信号A、音声信号B、および音声信号Cが入力される。指向性制御部30は、音声信号Aおよび音声信号Bを使用して指向性制御処理を行う。指向性制御処理とは、例えば、音声信号に基づいて、目的方向の音をより多く含む音声信号を生成する処理である。指向性制御処理とは、例えばビームフォーミングである。そして、指向性制御部30は、音声信号Aに対して指向性制御処理を行って得られた第1指向性信号を出力する。指向性制御部30は、例えば、音声信号Aに対して、マイクMC1から運転席に向かう方向の音をより多く含むように指向性制御処理を行うことにより、第1指向性信号を得る。また、指向性制御部30は、音声信号Bに対して指向性制御処理を行って得られた第2指向性信号を出力する。指向性制御部30は、例えば、音声信号Bに対して、マイクMC2から助手席に向かう方向の音をより多く含むように指向性制御処理を行うことにより、第2指向性信号を得る。
【0032】
また、指向性制御部30は、判定部35を含む。判定部35は、マイクMC3に音声成分が入力されたかを判定する。例えば、判定部35は、音声信号Cの強度が、第1指向性信号の強度および第2指向性信号の強度の少なくとも一方よりも大きい場合に、マイクMC3に音声信号が入力されたと判定し、そうでない場合に、マイクMC3に音声信号が入力されなかったと判定する。
【0033】
また、判定部35は、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。本実施形態において、判定部35は、第1指向性信号と第2指向性信号とに基づいて、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。言い換えると、判定部35は、音声信号Aと音声信号Bとに基づいて、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。例えば、乗員hm3が発話を行い、乗員hm4が発話を行っていない場合、音声信号Cには、乗員hm3による音声が含まれ、乗員hm4による音声は含まれない。しかし、音声信号Cだけでは、乗員hm3による音声と、乗員hm4による音声の、どちらが含まれているのかを判断することは難しい。そこで判定部35は、以下の方法で、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。ここで、「音声信号Cが乗員hm3による音声を多く含む」とは、音声信号Cが乗員hm3による音声を含み、乗員hm4による音声を含まない場合も含む。例えば、判定部35は、第1指向性信号と第2指向性信号との強度を比較する。そして、第1指向性信号の強度が第2指向性信号の強度よりも大きければ、音声信号Cが乗員hm3による音声を多く含むと判定部35は判定する。あるいは、第2指向性信号の強度が第1指向性信号の強度よりも大きければ、音声信号Cが乗員hm4による音声を多く含むと判定部35は判定する。判定部35は、音声信号Cが最大となるタイミングにおける第1指向性信号の強度および第2指向性信号の強度から、音声信号Cがいずれの音声を多く含むかの判定を行ってもよい。信号の強度は、信号の大きさあるいは信号のレベルと呼ばれることもある。
【0034】
本実施形態において、マイクMC3に音声成分が入力されたかの判定、および、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を、指向性制御部30に含まれる判定部35が行っているが、音声処理装置21が指向性制御部30とは別に、判定部35を備えてもよい。その場合、判定部35は、例えば音声入力部29と指向性制御部30の間に接続される。判定部35は、例えば、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。判定部35は、ハードウェアによってその機能が実現されてもよい。あるいは、音声処理装置21は判定部35のみを備え、指向性制御部30を備えなくてもよい。例えば、判定部35は、音声信号Cの強度が、音声信号Aの強度および音声信号Bの強度の少なくとも一方よりも大きい場合に、マイクMC3に音声信号が入力されたと判定し、そうでない場合に、マイクMC3に音声信号が入力されなかったと判定してもよい。また、例えば、判定部35は、音声信号Aと音声信号Bとに基づいて、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行ってもよい。
【0035】
ここで、第1指向性信号と第2指向性信号の強度を比較することで、いずれの乗員による音声が音声信号Cにより多く含まれるかを判定できる理由について説明する。後部座席の右側の席で発せられた乗員hm3による音声は、前方に向かって進むため、マイクMC1およびマイクMC2にも収音される。後部座席の右側の席とマイクMC1との間の距離と、後部座席の右側の席とマイクMC2との間の距離とでは、後者の方が大きい。したがって、乗員hm3による音声は、マイクMC2に収音されるまでにより減衰する。また、指向性制御部30が音声信号Aに対して指向性制御処理を行う際、例えば、マイクMC1から運転席に向かう方向の音をより多く含むような処理が行われる。マイクMC1に対する乗員hm3による音声の到来方向は、マイクMC1に対する乗員hm4による音声の到来方向よりも、マイクMC1から運転席に向かう方向に近い。よって、乗員hm3による発話があった場合、第1指向性信号の方が第2指向性信号よりも強度が大きくなる。
【0036】
乗員hm4による音声についても同様のことが言える。すなわち、後部座席の左側の席とマイクMC1との間の距離の方が、後部座席の左側の席とマイクMC2との間の距離より大きいため、乗員hm4による音声は、マイクMC1に収音されるまでにより減衰する。マイクMC2に対する乗員hm4による音声の到来方向は、マイクMC2に対する乗員hm3による音声の到来方向よりも、マイクMC2から助手席に向かう方向に近い。よって、乗員hm4による発話があった場合、第2指向性信号の方が第1指向性信号よりも強度が大きくなる。
【0037】
図3および
図4を用いて、いずれの乗員による音声が音声信号Cにより多く含まれるかの判定について具体的に説明する。
図3A、
図3Bおよび
図3Cは、それぞれ、指向性制御部30から出力される音声信号C、第1指向性信号、および第2指向性信号の時間波形である。縦軸が時間、横軸が振幅を示している。
図3Aに示される時間波形のうち、2つのピークを破線で囲って示す。また、
図3Aにおいて破線で囲って示されたピークとほぼ同じ位置を、
図3Bおよび
図3Cにおいても破線で囲って示す。破線で囲まれた部分を比較することにより、
図3Aで現れているピークと同様の位置に
図3Bおよび
図3Cにおいてもピークが現れていること、および、
図3Cにおいて現れているピークの方が
図3Bにおいて現れているピークよりも大きいことがわかる。したがって、音声信号Cに由来する成分が、第1指向性信号よりも第2指向性信号に多く含まれることが見て取れる。
【0038】
図3Bおよび
図3Cに示される時間波形の周波数スペクトルを平均化したものが
図4である。
図4において、実線が第1指向性信号の強度の周波数スペクトルを示し、破線が第2指向性信号の強度の周波数スペクトルを示す。
図4に示す例において、所定の時間範囲における強度の2乗平均平方根の値を算出すると、第2指向性信号の方が第1指向性信号よりも3.5dBほど大きい。この例では、音声信号Cには乗員hm4による音声が多く含まれると判断される。
【0039】
音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定方法は、上述したものに限られない。例えば、車両10が各座席に乗員が存在しているかどうかに関する着席情報を有しており、判定部35が車両10から受信した着席情報に基づいて判定を行ってもよい。例えば、後部座席の右側の席に乗員が存在しており、後部座席の左側の席に乗員が存在していないという着席情報を車両5から受信した場合、判定部35は、音声信号Cは乗員hm3による音声を多く含むと判定してよい。
【0040】
あるいは、車両10が各乗員を撮影するカメラと、カメラによって撮影された画像を分析する画像分析部を備えており、画像分析部による画像分析結果に基づいて判定部35が判定を行ってもよい。例えば、画像において乗員hm3の口が開いており、乗員hm4の口が閉じているという画像分析結果を画像分析部から受信した場合、判定部35は、音声信号Cは乗員hm3による音声を多く含むと判定してよい。
【0041】
あるいは、判定部35は、直前の判定結果から判定を行ってもよい。例えば、音声信号Cが乗員hm3による音声を多く含むと判定した場合、音声信号Cの強度が一定以下になるまでは、音声信号Cが乗員hm3による音声を多く含むと判定し続けてよい。発話が連続している場合は、同じ乗員による発話が続いている可能性が高いためである。
【0042】
判定部35は、マイクMC3に音声成分が入力されたかの判定の結果、および、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定の結果を制御部28に出力する。判定部35は、判定の結果を例えばフラグとして制御部28に出力する。フラグは、「0」あるいは「1」の値を示す。「0」は、マイクMC3に音声成分が入力されなかったことを示し、「1」は、マイクMC3に音声成分が入力されたことを示す。あるいは、「0」は、音声信号Cが乗員hm3による音声を多く含むことを示し、「1」は、音声信号Cが乗員hm4による音声を多く含むことを示す。例えば、音声信号Cが乗員hm3による音声を多く含む場合、判定部35は、フラグ「1、0」を判定結果として制御部28に出力する。この例における2つのフラグのうち、1つ目はマイクMC3に音声成分が入力されたかの判定の結果を示し、2つ目は音声信号がいずれの乗員による音声を多く含むかの判定の結果を示す。判定部35は、音声信号Cが乗員hm3による音声を多く含む場合と、音声信号Cが乗員hm4による音声を多く含む場合と、音声信号Cが乗員hm3による音声と乗員hm4による音声を同程度含む場合と、を判定可能であってもよい。判定部35は、マイクMC3に音声成分が入力されたかの判定の結果と、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定の結果を、同時に出力してもよい。あるいは、判定部35は、マイクMC3に音声成分が入力されたかの判定が完了した時点で、音声成分の入力の有無の判定の結果を出力し、次に、音声信号がいずれの乗員による音声を多く含むかの判定が完了した時点で、音声信号がいずれの乗員による音声を多く含むかの判定の結果を出力してもよい。
【0043】
また、指向性制御部30は、第1指向性信号を加算部27に、第2指向性信号と、音声信号Cと、をフィルタ部F1に出力する。
【0044】
フィルタ部F1は、適応フィルタF1A、適応フィルタF1Bおよび適応フィルタF1Cを含む。適応フィルタとは、信号処理の過程において特性を変化させる機能を備えたフィルタである。フィルタ部F1は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部F1は3つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。
【0045】
適応フィルタF1Aには、参照信号として第2指向性信号が入力される。適応フィルタF1Aは、フィルタ係数C1Aおよび第2指向性信号に基づいた通過信号P1Aを出力する。音声信号Cが乗員hm3による音声を多く含むと判定されたとき、適応フィルタF1Bに、参照信号として音声信号Cが入力される。適応フィルタF1Bは、フィルタ係数C1Bおよび音声信号Cに基づいた通過信号P1Bを出力する。一方、音声信号Cが乗員hm4による音声を多く含むと判定されたとき、適応フィルタF1Cに、参照信号として音声信号Cが入力される。判定部35が、音声信号Cが乗員hm3による音声を多く含む場合と、音声信号Cが乗員hm4による音声を多く含む場合と、音声信号Cが乗員hm3による音声と乗員hm4による音声を同程度含む場合と、を判定可能である場合、フィルタ部F1は、適応フィルタF1Dを含んでもよい。音声信号Cが乗員hm3による音声と乗員hm4による音声を同程度含むと判定されたとき、適応フィルタF1Dに、参照信号として音声信号Cが入力される。適応フィルタF1Cは、フィルタ係数C1Cおよび音声信号Cに基づいた通過信号P1Cを出力する。フィルタ部F1は、通過信号P1Aと、通過信号P1Bあるいは通過信号P1Cと、を足し合わせて出力する。フィルタ部F1が適応フィルタF1Dを含む場合、適応フィルタF1Dは、フィルタ係数C1Dおよび音声信号Cに基づいた通過信号P1Dを出力する。フィルタ部F1は、通過信号P1Aと、通過信号P1B、通過信号P1C、および通過信号P1Dのいずれかと、を足し合わせて出力する。本実施形態においては、適応フィルタF1A、適応フィルタF1Bおよび適応フィルタF1Cは、プロセッサがプログラムを実行することにより実現される。適応フィルタF1A、適応フィルタF1Bおよび適応フィルタF1Cは、物理的に分離された、別々のハードウェア構成であってもよい。
【0046】
ここで、適応フィルタの動作の概略を説明する。適応フィルタは、クロストーク成分の抑圧に用いられるフィルタである。例えば、フィルタ係数の更新アルゴリズムとしてLMS(Least Mean Square)を用いる場合、適応フィルタは、誤差信号の自乗平均で定義されるコスト関数を最小にするフィルタである。ここでいう誤差信号とは、出力信号とターゲット成分との差である。
【0047】
ここでは、適応フィルタとしてFIR(Finite Impulse Response)フィルタを例示する。他の種類の適応フィルタを用いてもよい。例えば、IIR(Infinite Impulse Response)フィルタを用いてもよい。
【0048】
音声処理装置21の出力信号とターゲット成分との差である誤差信号は、音声処理装置21が適応フィルタとして1つのFIRフィルタを用いる場合、以下の式(1)で示される。
【0049】
【0050】
ここで、nは時刻であり、e(n)は誤差信号であり、d(n)はターゲット成分であり、wiはフィルタ係数であり、x(n)は参照信号であり、lはタップ長である。タップ長lが大きいほど、適応フィルタが音声信号の音響特性を忠実に再現できる。残響が存在しない場合、タップ長lは1としてよい。例えば、タップ長lは一定の値に設定される。例えば、ターゲット成分が運転者hm1の音声である場合、参照信号x(n)は第2指向性信号および音声信号Cである。
【0051】
制御部28は、判定部35の判定の結果に基づき、適応フィルタのフィルタ係数を制御する。本実施形態において制御部28は、判定部35から出力された判断結果としてのフラグに基づき、音声信号Cを、適応フィルタFBと適応フィルタFCのいずれに入力するかを決定する。適応フィルタFBのフィルタ係数CBは、音声信号Cが乗員hm3による音声を多く含む場合に、誤差信号が最小になるように更新される。一方、適応フィルタFCのフィルタ係数CCは、音声信号Cが乗員hm4による音声を多く含む場合に、誤差信号が最小になるように更新される。したがって、音声信号Cがいずれの音声を多く含むかによって、各適応フィルタを使い分けることにより、誤差信号をより小さくできる可能性がある。
【0052】
例えば、判定部35からフラグ「0」を受信した場合、制御部28は、音声信号Cは乗員hm3による音声を多く含むと判定する。そして制御部28は、適応フィルタFBに音声信号Cが入力されるよう、フィルタ部F1を制御する。
【0053】
加算部27は、音声入力部29から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部F1から出力される、通過信号PAと、通過信号PBあるいは通過信号PCと、を足し合わせた信号である。加算部27は、出力信号を制御部28に出力する。
【0054】
制御部28は、加算部27から出力される出力信号を出力する。制御部28の出力信号は、音声認識エンジン40に入力される。あるいは、制御部28から、電子機器50に出力信号が直接入力されてもよい。制御部28から電子機器50に出力信号が直接入力される場合、制御部28と電子機器50とは、有線で接続されていてもよく、無線で接続されていてもよい。例えば、電子機器50が携帯端末であり、制御部28から、無線通信網を介して、携帯端末に出力信号が直接入力されてもよい。携帯端末へ入力された出力信号は、携帯端末の有するスピーカから音声として出力されてもよい。
【0055】
また、制御部28は、加算部27から出力される出力信号と、判定部35から出力された判断結果としてのフラグを参照して、各適応フィルタのフィルタ係数を更新する。
【0056】
まず、制御部28は、判断結果に基づき、フィルタ係数の更新対象とする適応フィルタを決定する。具体的には、制御部28は、適応フィルタF1Aと、適応フィルタF1Bおよび適応フィルタF1Cのうち、音声信号Cが入力される適応フィルタをフィルタ係数の更新対象とする。また、制御部28は、適応フィルタF1Bおよび適応フィルタF1Cのうち、音声信号Cが入力されなかった適応フィルタをフィルタ係数の更新対象としない。例えば、判定部35からフラグ「0」を受信した場合、制御部28は、音声信号Cは乗員hm3による音声を多く含むと判定する。言い換えると、制御部28は、音声信号Cを適応フィルタF1Bに入力すると判定する。そして、制御部28は、適応フィルタFBをフィルタ係数の更新対象とし、適応フィルタF1Cをフィルタ係数の更新対象としない。
【0057】
そして、制御部28は、フィルタ係数の更新対象とした適応フィルタについて、式(1)における誤差信号の値が0に近づくように、フィルタ係数を更新する。
【0058】
更新アルゴリズムとしてLMSを用いる場合の、フィルタ係数の更新について説明する。時刻nにおけるフィルタ係数w(n)を更新し、時刻n+1におけるフィルタ係数w(n+1)とする場合、w(n+1)とw(n)との関係は、以下の式(2)で示される。
【0059】
【0060】
ここで、αはフィルタ係数の補正係数である。項αx(n)e(n)は、更新量に相当する。
【0061】
なお、フィルタ係数の更新時のアルゴリズムは、LMSに限られず、他のアルゴリズムを用いてもよい。例えば、ICA(Independent Component Analysis)、NLMS(Normalized Least Mean Square)といったアルゴリズムを用いてもよい。
【0062】
フィルタ係数の更新の際、制御部28は、フィルタ係数の更新対象としなかった適応フィルタについて、入力される参照信号の強度をゼロに設定する。例えば、判定部35からフラグ「0」を受信した場合、制御部28は、適応フィルタF1Aに参照信号として入力される第2指向性信号、および適応フィルタF1Bに参照信号として入力される音声信号Cは、指向性制御部30から出力された強度のまま入力されるように設定する。一方、制御部28は、適応フィルタF1Cに参照信号として入力される音声信号Cの強度をゼロに設定する。ここで、「適応フィルタに入力される参照信号の強度をゼロに設定する」とは、適応フィルタに入力される参照信号の強度をゼロ付近に抑圧することを含む。また、「適応フィルタに入力される参照信号の強度をゼロに設定する」とは、適応フィルタに参照信号を入力しないように設定することをも含む。入力される参照信号の強度がゼロに設定された適応フィルタにおいて、適応フィルタリングが行われなくてもよい。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。
【0063】
そして、制御部28は、フィルタ係数の更新対象とされた適応フィルタについてのみフィルタ係数を更新し、フィルタ係数の更新対象とされなかった適応フィルタについてはフィルタ係数を更新しない。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。
【0064】
例えば、ターゲット席を運転席とした場合、かつ、運転者hm1、乗員hm2、および乗員hm4による発話がなく、乗員hm3による発話がある場合を考える。このとき、マイクMC1で収音される音声の音声信号に、運転者hm1以外の乗員による発話が漏れこむ。言い換えると、音声信号Aにクロストーク成分が含まれることになる。音声処理装置21は、クロストーク成分をキャンセルし、誤差信号を最小化するように適応フィルタを更新してよい。この場合、運転席で発話がないので、誤差信号は、理想的には無音信号となる。また、上記の場合で運転者hm1による発話があった場合、運転者hm1による発話はマイクMC1以外のマイクに漏れこむことになる。この場合も、音声処理装置21による処理によっては、運転者hm1による発話はキャンセルされない。音声信号Aに含まれる運転者hm1による発話は、他の音声信号に含まれる、運転者hm1による発話よりも時間的に早いためである。これは因果律による。したがって、音声処理装置21は、ターゲット成分の音声信号が含まれるか、含まれないかに関わらず、誤差信号を最小化するように適応フィルタを更新することで、音声信号Aに含まれるクロストーク成分を低減できる。
【0065】
本実施形態において、音声入力部29と、指向性制御部30と、フィルタ部F1と、制御部28と、加算部27と、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29、指向性制御部30、フィルタ部F1、制御部28、および加算部27が、別々のハードウェアで構成されていてもよい。
【0066】
音声処理装置21について説明したが、音声処理装置22、音声処理装置23、および音声処理装置24についてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22は、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22は、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22は、第1指向性信号および音声信号Cが入力されるフィルタ部を有する点で音声処理装置21と異なる。同様に、音声処理装置23は、乗員hm3、あるいはhm4が発話する音声をターゲット成分とする。音声処理装置23は、マイクMC3で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置23は、音声信号A、音声信号B、および音声信号Cが入力されるフィルタ部を有する点で音声処理装置21と異なる。
【0067】
図5は、音声処理装置21の動作手順を示すフローチャートである。まず、音声入力部29に、音声信号A、音声信号B、および音声信号Cが入力される(S1)。次に、指向性制御部30が、音声信号Aおよび音声信号Bを使用した指向性制御処理を行い、第1指向性信号と第2指向性信号を生成する(S2)。そして、判定部35が、マイクMC3に音声成分が入力されたかを判定する(S3)。判定部35は、判定結果をフラグとして制御部28に出力する。マイクMC3に音声信号が入力されなかったと判定部35が判定した場合(S3:No)、制御部28は、フィルタ部F1に入力される音声信号Cの強度をゼロにし、第2指向性信号の強度は変更しない。そして、フィルタ部F1は、以下のように減算信号を生成する(S4)。適応フィルタF1Aは、第2指向性信号を通過させ、通過信号P1Aを出力する。適応フィルタF1Bは、音声信号Cを通過させ、通過信号P1Bを出力する。適応フィルタF1Cは、音声信号Cを通過させ、通過信号P1Cを出力する。フィルタ部F1は、通過信号P1A、通過信号P1Bおよび通過信号P1Cを足し合わせて、減算信号として出力する。加算部27は、第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S5)。出力信号は、制御部28に入力され、制御部28から出力される。次に、制御部28は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF1Aのフィルタ係数を更新する(S6)。そして、音声処理装置21は再び工程S1を行う。
【0068】
判定部35が、マイクMC3に音声信号が入力されたと判定した場合(S3:Yes)、判定部35は、マイクMC3に入力された音声成分が乗員hm3と乗員hm4のいずれによるものかを判定する(S7)。言い換えると、判定部35は、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかを判定する。判定部35は、この判定結果をフラグとして制御部28に出力する。音声信号Cが乗員hm3による音声を多く含む場合(S7:hm3)、フィルタ部F1は、以下のように減算信号を生成する(S8)。制御部28は、音声信号Cが適応フィルタF1Bに入力されるようにフィルタ部F1を制御する。一方、制御部28は、音声信号Cの強度がゼロの状態で適応フィルタF1Cに入力されるようにフィルタ部F1を制御する。言い換えると、制御部28は、適応フィルタF1Aに入力される第2指向性信号および適応フィルタF1Bに入力される音声信号Cの強度は変更せず、適応フィルタF1Cに入力される音声信号Cの強度をゼロに変更する。そして、フィルタ部F1は、工程S4と同様の動作によって減算信号を生成する。加算部27は、工程S5と同様に第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S9)。次に、制御部28は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S10)。具体的には、適応フィルタF1Aおよび適応フィルタF1Bのフィルタ係数を更新する。そして、音声処理装置21は再び工程S1を行う。
【0069】
工程S7において、音声信号Cが乗員hm4による音声を多く含むと判定された場合(S7:hm4)、フィルタ部F1は、以下のように減算信号を生成する(S11)。制御部28は、音声信号Cが適応フィルタF1Cに入力されるようにフィルタ部F1を制御する。一方、制御部28は、音声信号Cの強度がゼロの状態で適応フィルタF1Bに入力されるようにフィルタ部F1を制御する。言い換えると、制御部28は、適応フィルタF1Aに入力される第2指向性信号および適応フィルタF1Cに入力される音声信号Cの強度は変更せず、適応フィルタF1Bに入力される音声信号Cの強度をゼロに変更する。そして、フィルタ部F1は、工程S4と同様の動作によって減算信号を生成する。加算部27は、工程S5と同様に第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S9)。次に、制御部28は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S10)。具体的には、適応フィルタF1Aおよび適応フィルタF1Cのフィルタ係数を更新する。そして、音声処理装置21は再び工程S1を行う。
【0070】
本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部28の処理量を低減することができる。一方で、制御部28がすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部28が常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。
【0071】
このように、第1実施形態における音声処理システム5では、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第1実施形態においては、発生する位置が異なる複数の音声を、1つのマイクによって収音できるように構成されている。具体的には、後部座席の乗員hm3の音声および乗員hm4の音声を、マイクMC3で収音している。その上で、収音した音声に基づく音声信号が複数の音声のうちいずれを含むかを判定し、どちらの音声が含まれるかによって、音声信号が入力される適応フィルタを変更している。これにより、複数の音声が1つのマイクによって収音されるような場合でも、ターゲット成分の音声信号を精度よく求めることができる。そのため、マイクを例えば座席ごとに1つずつ設けなくともよいので、コストを低減することができる。また、適応フィルタを用いてターゲット成分を求める際に、すべての席に設けられたマイクから出力される信号を参照信号として用いる場合と比較して、処理に用いる参照信号の数を減らすことができる。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。
【0072】
(第2実施形態)
第2実施形態に係る音声処理システム5Aは、音声処理装置20に代えて音声処理装置20Aを備える点、およびマイクMC4を備える点で第1実施形態に係る音声処理システム5と異なる。第2実施形態に係る音声処理装置20Aは、異常検知部を有する点および音声信号Dを用いる点で第1実施形態に係る音声処理装置20と異なる。
【0073】
第2実施形態に係る音声処理装置20Aは、それぞれのマイクにおける異常の有無を検知し、異常が検知されなかったマイクから出力される音声信号を用いて、指向性制御処理およびクロストーク成分をキャンセルする処理を行う。以下、
図6、
図7、および
図8を用いて音声処理装置20Aについて説明する。第1実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。
【0074】
図6を用いて、第2実施形態における音声処理システム5Aの詳細を説明する。
図6は、第2実施形態における音声処理システム5Aの概略構成の一例を示す図である。音声処理システム5は、マイクMC1、マイクMC2、マイクMC3、マイクMC4、及び音声処理装置20Aを含む。本実施形態においてマイクMC3は、乗員hm3が発話する音声を収音する。言い換えると、マイクMC3は、乗員hm3が発話する音声成分を含む音声信号を取得する。マイクMC3は、例えば天井の後部座席中央付近の右側に配置される。本実施形態においてマイクMC4は、乗員hm4が発話する音声を収音する。言い換えると、マイクMC4は、乗員hm4が発話する音声成分を含む音声信号を取得する。マイクMC4は、例えば天井の後部座席中央付近の左側に配置される。マイクMC1は、後部座席における右側の席に対して、マイクMC3よりも遠くに位置する。マイクMC2は、後部座席における左側の席に対して、マイクMC4よりも遠くに位置する。マイクMC4は、後部座席における左側の席に対して、マイクMC3よりも近くに位置する。
【0075】
本実施形態において、音声処理システム5Aは、各マイクに対応する複数の音声処理装置20Aを備える。具体的には、音声処理システム5Aは、音声処理装置21Aと、音声処理装置22Aと、音声処理装置23Aと、音声処理装置24Aとを備える。音声処理装置21Aは、マイクMC1に対応する。音声処理装置22Aは、マイクMC2に対応する。音声処理装置23Aは、マイクMC3に対応する。音声処理装置24Aは、マイクMC4に対応する。以下、音声処理装置21A、音声処理装置22A、音声処理装置23Aおよび音声処理装置24Aをまとめて音声処理装置20Aと呼ぶことがある。
【0076】
図6に示される構成では、音声処理装置21A、音声処理装置22A、音声処理装置23A、および音声処理装置24Aがそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20Aによって音声処理装置21A、音声処理装置22A、音声処理装置23A、および音声処理装置24Aの機能が実現されてもよい。あるいは、音声処理装置21A、音声処理装置22A、音声処理装置23A、および音声処理装置24Aのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0077】
本実施形態において、各音声処理装置20Aは、対応する各マイク付近の各座席内に配置される。例えば、音声処理装置21Aは運転席内、音声処理装置22Aは助手席内、音声処理装置23Aは後部座席の右側の席内、音声処理装置24Aは後部座席の左側の席内に配置される。各音声処理装置20Aは、ダッシュボード内に配置されてもよい。
【0078】
図7は、音声処理装置21Aの構成を示すブロック図である。音声処理装置21A、音声処理装置22A、音声処理装置23A、および音声処理装置24Aは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21Aについて説明する。音声処理装置21Aは、運転者hm1が発話する音声をターゲットとする。音声処理装置21Aは、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。
【0079】
音声処理装置21Aは、
図7に示すように、音声入力部29Aと、異常検知部31と、指向性制御部30Aと、複数の適応フィルタを含むフィルタ部F2と、フィルタ部F2の適応フィルタのフィルタ係数を制御する制御部28Aと、加算部27Aと、を備える。
【0080】
音声入力部29Aには、マイクMC1、マイクMC2、マイクMC3、およびマイクMC4で収音された音声の音声信号が入力される。言い換えると、マイクMC1、マイクMC2、マイクMC3、およびマイクMC4は、それぞれ、収音された音声の音声信号に基づく信号を音声入力部29に出力する。マイクMC1およびマイクMC2については、第1実施形態と同様であるので詳細な説明を省略する。
【0081】
マイクMC3は、音声信号Cを音声入力部29Aに出力する。音声信号Cは、乗員hm3の音声と、乗員hm3以外の乗員の音声を含むノイズと、を含む信号である。マイクMC3は、第1マイクに相当する。また、マイクMC3は、第4マイクに相当する。マイクMC3で収音された音声は、第1音声信号に相当する。また、マイクMC3で収音された音声は、第4音声信号に相当する。乗員hm3による音声は第1音声成分に相当する。音声信号Cは、第1信号に相当する。また、音声信号Cは、第4信号に相当する。
【0082】
マイクMC4は、音声信号Dを音声入力部29Aに出力する。音声信号Dは、乗員hm4の音声と、乗員hm4以外の乗員の音声を含むノイズと、を含む信号である。マイクMC4は、第1マイクに相当する。また、マイクMC4は、第5マイクに相当する。マイクMC4で収音された音声は、第1音声信号に相当する。また、マイクMC4で収音された音声は、第5音声信号に相当する。乗員hm4による音声は第2音声成分に相当する。音声信号Dは、第1信号に相当する。また、音声信号Dは、第5信号に相当する。
【0083】
音声入力部29Aは、音声信号A、音声信号B、音声信号Cおよび音声信号Dを出力する。音声入力部29Aは受信部に相当する。
【0084】
本実施形態では、音声処理装置21Aは、すべてのマイクからの音声信号が入力される1つの音声入力部29Aを備えているが、対応する音声信号が入力される音声入力部29Aをマイクごとに備えていてもよい。例えば、マイクMC1で収音された音声の音声信号がマイクMC1に対応する音声入力部に入力され、マイクMC2で収音された音声の音声信号がマイクMC2に対応する別の音声入力部に入力され、マイクMC3で収音された音声の音声信号がマイクMC3に対応する別の音声入力部に入力され、マイクMC4で収音された音声の音声信号がマイクMC4に対応する別の音声入力部に入力されるような構成であってもよい。
【0085】
異常検知部31には、音声入力部29Aから出力された音声信号A、音声信号B、音声信号C、および音声信号Dが入力される。異常検知部31は、マイクMC3およびマイクMC4における異常の有無を検知し、マイクMC3およびマイクMC4の異常に関する異常情報を制御部28Aに送信する。ここで、マイクの異常とは、マイクの故障、マイクと他の機器との接続不良、およびマイクのバッテリー切れを含む。マイクと他の機器との接続不良は、マイクと他の機器とを電気的に接続するケーブルの断線を含む。異常検知部31は、マイクMC1およびマイクMC2における異常の有無を検知可能であってもよいし、マイクMC1およびマイクMC2の異常に関する異常情報を制御部28Aに送信してもよい。異常検知部31は、例えば、各音声信号に基づき、その音声信号に対応するマイクの異常の有無を検知する。異常検知部31は、例えば、音声信号の強度が閾値よりも小さいときに、その音声信号に対応するマイクに異常があると判定する。異常検知部31は、音声信号の強度が閾値よりも小さい期間が一定以上の長さであるとき、あるいは、一定期間において、音声信号の強度が閾値よりも小さくなる頻度が一定以上であるときに、その音声信号に対応するマイクに異常があると判定してもよい。異常検知部31は、各マイクにおける異常の有無の判定結果を、例えばフラグとして制御部28Aに出力する。フラグは、異常情報の一例である。フラグは、各音声信号について、「1」あるいは「0」の値を示す。「1」は、対応するマイクに異常があると判定されたことを意味し、「0」は、対応するマイクに異常があると判定されなかったことを示す。例えば、マイクMC1、MC2、およびMC4に異常がないと判定し、マイクMC3に異常があると判定した場合、異常検知部31は、フラグ「0、0、1、0」を判定結果として制御部28に出力する。各マイクの異常の検知の後、異常検知部31は、音声信号A、音声信号B、音声信号C、および音声信号Dを指向性制御部30Aに出力する。
【0086】
本実施形態では、音声処理装置21Aは、すべての音声信号が入力される1つの異常検知部31を備えているが、対応する音声信号が入力される異常検知部31を音声信号ごとに備えていてもよい。例えば、音声処理装置21Aが、音声信号Aが入力される異常検知部と、音声信号Bが入力される異常検知部と、音声信号Cが入力される異常検知部と、音声信号Dが入力される異常検知部と、を別々に備える構成であってもよい。
【0087】
指向性制御部30Aには、異常検知部31から出力された音声信号A、音声信号B、音声信号C、および音声信号Dが入力される。指向性制御部30は、異常検知部31によって異常が検知されたマイクと、そのマイクと同じ側にあるマイクと、を除いたマイクから出力された音声信号を使用して指向性制御処理を行う。指向性制御処理とは、例えばビームフォーミングである。ここで、「同じ側にある」とは、前席側にあるか後部座席側にあるかが同じであることを指す。本実施形態においては、マイクMC1とマイクMC2とが同じ側にあり、マイクMC3とマイクMC4とが同じ側にある。例えば、マイクMC3の異常が検知された場合、指向性制御部30Aは、音声信号Aおよび音声信号Bを使用して指向性制御処理を行う。そして、指向性制御部30Aは、2つの音声信号を使用して指向性制御処理を行うことによって得られた2つの指向性信号を出力する。例えば、指向性制御部30Aは、音声信号Aに対して指向性制御処理を行って得られた第1指向性信号を出力する。また、指向性制御部30Aは、音声信号Bに対して指向性制御処理を行って得られた第2指向性信号を出力する。例えば、いずれのマイクにおいても異常が検知されなかった場合、指向性制御部30Aは、すべての音声信号を使用して指向性制御処理を行い、得られた指向性信号を出力する。例えば、指向性制御部30Aは、第1指向性信号と第2指向性信号に加えて、音声信号Cに対して指向性制御処理を行って得られた第3指向性信号と、音声信号Dに対して指向性制御処理を行って得られた第4指向性信号と、を出力する。例えば、異常検知部31がマイクMC2の異常を検知可能であり、マイクMC2において異常を検知した場合、指向性制御部30Aは、音声信号Cに対して指向性制御処理を行って得られた第3指向性信号と、音声信号Dに対して指向性制御処理を行って得られた第4指向性信号と、を出力する。
【0088】
また、指向性制御部30Aは、異常が検知されたマイクと同じ側にあるマイクに音声成分が入力されたかを判定する。例えば、マイクMC3に異常があると判定された場合、指向性制御部30Aは、マイクMC3と同じ側にあるマイクであるマイクMC4から出力された音声信号Dの強度が、第1指向性信号の強度および第2指向性信号の強度の少なくとも一方よりも大きい場合に、マイクMC4に音声信号が入力されたと判定し、そうでない場合に、マイクMC4に音声信号が入力されなかったと判定する。
【0089】
また、指向性制御部30Aは、判定部35Aを含む。判定部35Aは、異常が検知されなかったマイクから出力される音声信号に基づいて、異常が検知されたマイクと同じ側にあるマイクから出力される音声信号が、いずれの乗員による音声を多く含むかの判定を行う。そのような判定を行う理由について説明する。例えば、乗員hm3による音声を含むクロストーク成分は、マイクMC3から出力される音声信号Cを用いて、ターゲット成分から除去される。しかし、マイクMC3に異常があると判定された場合、音声信号Cにも異常が生じているため、乗員hm3による音声を含むクロストーク成分を、音声信号Cを用いて除去することは難しい。その場合、マイクMC4も乗員hm3による音声が漏れこんでいるため、マイクMC4から出力される音声信号Dを用いて乗員hm3による音声を含むクロストーク成分を除去することが考えられる。マイクMC4には、乗員hm3による音声と、乗員hm4による音声の両方が漏れこむ可能性がある。よって、音声信号Dに、乗員hm3による音声と、乗員hm4による音声のどちらが多く含まれるかを判定し、それが乗員hm3による音声を多く含むのであれば、音声信号Dを用いて乗員hm3による音声を含むクロストーク成分を除去することができる。
【0090】
例えば、判定部35Aは、マイクMC3に異常があると判定された場合、第1指向性信号と第2指向性信号とに基づいて、音声信号Dが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。言い換えると、判定部35Aは、音声信号Aと音声信号Bとに基づいて、音声信号Cが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。具体的な判定方法は、第1実施形態において説明したものと同様である。
【0091】
判定部35Aは、音声信号Cあるいは音声信号Dが、乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定の結果を制御部28Aに出力する。判定部35Aは、判定の結果を例えばフラグとして制御部28Aに出力する。フラグは、「0」あるいは「1」の値を示す。「0」は、音声信号が乗員hm3による音声を多く含むことを示し、「1」は、音声信号が乗員hm4による音声を多く含むことを示す。例えば、マイクMC1、MC2、およびMC4に異常がないと判定され、マイクMC3に異常があると判定された場合、指向性制御部30Aは、音声信号Dについての判定結果としてフラグを送信する。例えば、音声信号Dが乗員hm3による音声を多く含むと判定された場合、指向性制御部30Aは、フラグ「0」を判定結果として制御部28Aに出力する。
【0092】
例えば、マイクMC3の異常が検知された場合、指向性制御部30Aは、第1指向性信号を加算部27Aに、第2指向性信号、音声信号C、および音声信号Dをフィルタ部F2に出力する。
【0093】
本実施形態において、異常が検知されたマイクと同じ側にあるマイクに音声成分が入力されたかの判定、および、異常が検知されたマイクと同じ側にあるマイクから出力される音声信号が、いずれの乗員による音声を多く含むかの判定を、指向性制御部30Aに含まれる判定部35Aが行っているが、音声処理装置21Aが指向性制御部30Aとは別に、判定部35Aを備えてもよい。その場合、判定部35Aは、例えば異常検知部31と指向性制御部30Aの間に接続される。あるいは、音声処理装置21Aは判定部35Aのみを備え、指向性制御部30Aを備えなくてもよい。判定部35Aの構成および機能は、第1実施形態で説明したものと同様であるので詳細な説明を省略する。
【0094】
フィルタ部F2は、適応フィルタF2A、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eを含む。フィルタ部F2は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部F2は5つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。
【0095】
適応フィルタF2Aには、参照信号として第2指向性信号が入力される。適応フィルタF2Aは、フィルタ係数C2Aおよび第2指向性信号に基づいた通過信号P2Aを出力する。マイクMC4に異常があると判定され、かつ音声信号Cが乗員hm3による音声を多く含むと判定されたとき、適応フィルタF2Bに、参照信号として音声信号Cが入力される。適応フィルタF2Bは、フィルタ係数C2Bおよび音声信号Cに基づいた通過信号P2Bを出力する。マイクMC4に異常があると判定されなかった場合にも、適応フィルタF2Bに参照信号として音声信号Cが入力されてもよい。一方、マイクMC4に異常があると判定され、かつ音声信号Cが乗員hm4による音声を多く含むと判定されたとき、適応フィルタF2Cに、参照信号として音声信号Cが入力される。適応フィルタF2Cは、フィルタ係数C2Cおよび音声信号Cに基づいた通過信号2Cを出力する。同様に、マイクMC3に異常があると判定され、かつ音声信号Dが乗員hm3による音声を多く含むと判定されたとき、適応フィルタF2Dに、参照信号として音声信号Dが入力される。適応フィルタF2Dは、フィルタ係数C2Dおよび音声信号Dに基づいた通過信号P2Dを出力する。マイクMC3に異常があると判定されなかった場合にも、適応フィルタF2Dに参照信号として音声信号Dが入力されてもよい。一方、マイクMC3に異常があると判定され、かつ音声信号Dが乗員hm4による音声を多く含むと判定されたとき、適応フィルタF2Eに、参照信号として音声信号Dが入力される。適応フィルタF2Eは、フィルタ係数C2Eおよび音声信号Dに基づいた通過信号P2Eを出力する。フィルタ部F1は、通過信号P2Aと、通過信号P2Bあるいは通過信号P2Cと、通過信号P2Dあるいは通過信号P2Eと、を足し合わせて出力する。本実施形態においては、適応フィルタF2A、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eは、プロセッサがプログラムを実行することにより実現される。適応フィルタF2A、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eは、物理的に分離された別々のハードウェア構成であってもよい。
【0096】
本実施形態においては、フィルタ部F2が、音声信号Cが入力され得る適応フィルタを2つ、および、音声信号Dが入力され得る適応フィルタを2つ備えている構成であるとして説明した。フィルタ部F2が、第2指向性信号が入力され得る適応フィルタを2つ備えている構成であってもよい。例えば、異常検知部31がマイクMC2の異常を検知可能であり、マイクMC2の異常が検知された場合に第2指向性信号が入力される適応フィルタF2A1と、マイクMC2の異常が検知されなかった場合に第2指向性信号が入力される適応フィルタF2A2と、をフィルタ部F2が別々に備えていてもよい。
【0097】
制御部28Aは、異常検知部31の判定の結果と、判定部35Aの判定の結果に基づき、適応フィルタのフィルタ係数を制御する。本実施形態において制御部28Aは、異常検知部31から出力された判定の結果としてのフラグと、判定部35Aから出力された判定の結果としてのフラグに基づき、音声信号Cを、適応フィルタF2Bと適応フィルタF2Cのいずれに入力するかを決定する。また、本実施形態において制御部28Aは、異常検知部31から出力された判定の結果としてのフラグと、判定部35Aから出力された判定の結果としてのフラグに基づき、音声信号Dを、適応フィルタF2Dと適応フィルタF2Eのいずれに入力するかを決定する。適応フィルタF2Bのフィルタ係数C2Bは、音声信号Cが乗員hm3による音声を多く含む場合に、誤差信号が最小になるように更新される。また、適応フィルタF2Cのフィルタ係数C2Cは、音声信号Cが乗員hm4による音声を多く含む場合に、誤差信号が最小になるように更新される。適応フィルタF2Dのフィルタ係数C2Dは、音声信号Dが乗員hm3による音声を多く含む場合に、誤差信号が最小になるように更新される。また、適応フィルタF2Eのフィルタ係数C2Eは、音声信号Dが乗員hm4による音声を多く含む場合に、誤差信号が最小になるように更新される。したがって、音声信号Cがいずれの音声を多く含むか、あるいは音声信号Dがいずれの音声を多く含むかによって、各適応フィルタを使い分けることにより、誤差信号をより小さくできる可能性がある。フィルタ部F2が、第2指向性信号が入力され得る適応フィルタを2つ備えている場合には、制御部28Aは、第2指向性信号がいずれの適応フィルタに入力されるかを決定してもよい。
【0098】
例えば、異常検知部31からフラグ「0、0、1、0」を受信し、判定部35Aからフラグ「0」を受信した場合、制御部28Aは、マイクMC3に異常があり、かつ音声信号Dが乗員hm3による音声を多く含むと判定する。そして制御部28Aは、適応フィルタF2Dに音声信号Dが入力されるよう、フィルタ部F2を制御する。
【0099】
加算部27Aは、音声入力部29から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部F2から出力される、通過信号P2A、通過信号P2Bあるいは通過信号P2C、および、通過信号P2Dあるいは通過信号P2Eを足し合わせた信号である。加算部27Aは、出力信号を制御部28Aに出力する。
【0100】
制御部28Aは、加算部27Aから出力される出力信号を出力する。出力信号の利用については、第1実施形態と同様である。
【0101】
また、制御部28Aは、加算部27Aから出力される出力信号と、異常検知部31から出力された判定の結果としてのフラグと、判定部35A指向性制御部30Aから出力された判定の結果としてのフラグと、を参照して、各適応フィルタのフィルタ係数を更新する。
【0102】
まず、制御部28Aは、判断結果に基づき、フィルタ係数の更新対象とする適応フィルタを決定する。具体的には、制御部28Aは、適応フィルタF2Aと、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eのうち、音声信号が入力される適応フィルタをフィルタ係数の更新対象とする。また、制御部28Aは、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eのうち、音声信号が入力されなかった適応フィルタをフィルタ係数の更新対象としない。例えば、異常検知部31からフラグ「0、0、1、0」を受信し、判定部35Aからフラグ「0」を受信した場合、制御部28Aは、マイクMC3に異常があり、かつ音声信号Dが乗員hm3による音声を多く含むと判定する。言い換えると、制御部28Aは、音声信号Cを適応フィルタF2Bおよび適応フィルタF2Cのいずれにも入力せず、音声信号Dを適応フィルタF2Dに入力し、音声信号Dを適応フィルタF2Eに入力しないと判定する。そして、制御部28Aは、適応フィルタF2Dをフィルタ係数の更新対象とし、適応フィルタF2B、適応フィルタF2C、および適応フィルタF2Eをフィルタ係数の更新対象としない。
【0103】
そして、制御部28Aは、フィルタ係数の更新対象とした適応フィルタについて、式(1)における誤差信号の値が0に近づくように、フィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第1実施形態で説明したのと同様である。
【0104】
制御部28Aは、フィルタ係数の更新対象とされた適応フィルタについてのみフィルタ係数を更新し、フィルタ係数の更新対象とされなかった適応フィルタについてはフィルタ係数を更新しない。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。
【0105】
本実施形態において、音声入力部29と、異常検知部31と、指向性制御部30Aと、フィルタ部F2と、制御部28Aと、加算部27Aと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29と、異常検知部31と、指向性制御部30Aと、フィルタ部F2と、制御部28Aと、加算部27Aと、は、別々のハードウェアで構成されてもよい。
【0106】
音声処理装置21Aについて説明したが、音声処理装置22A、音声処理装置23A、および音声処理装置24Aについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22Aは、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22Aは、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22は、第1指向性信号、音声信号C、および音声信号Dが入力されるフィルタ部を有する点で音声処理装置21Aと異なる。音声処理装置23A、音声処理装置24Aについても同様である。
【0107】
図8は、音声処理装置21Aの動作手順を示すフローチャートである。まず、音声入力部29Aに、音声信号A、音声信号B、音声信号Cおよび音声信号Dが入力される(S101)。次に、異常検知部31が、各音声信号に基づき、各マイクの異常の有無を判定する(S102)。異常検知部31は、判定の結果をフラグとして制御部28Aに出力する。いずれのマイクからも異常が検知されなかった場合(S102:No)、指向性制御部30Aは、すべての音声信号を使用して指向性制御処理を行う(S103)。指向性制御部30Aは、指向性信号をフィルタ部F2に出力する。フィルタ部F2は、以下のように減算信号を生成する(S104)。適応フィルタF2Aは、第2指向性信号を通過させ、通過信号P2Aを出力する。適応フィルタF2Bは、第3指向性信号を通過させ、通過信号P2Bを出力する。適応フィルタF2Dは、第4指向性信号を通過させ、通過信号P2Dを出力する。フィルタ部F2は、通過信号P2A、通過信号P2B、および通過信号P2Dを足し合わせて、減算信号として出力する。加算部27Aは、第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S105)。出力信号は、制御部28Aに入力され、制御部28Aから出力される。次に、制御部28Aは、異常検知部31から出力された判定結果としてのフラグと、指向性制御部30Aから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF2A,適応フィルタF2B、および適応フィルタF2Dのフィルタ係数を更新する(S106)。そして、音声処理装置21Aは再び工程S1を行う。
【0108】
工程S102において、各マイクのいずれかにおいて異常が検知された場合(S102:Yes)、異常検知部31は、異常が検知されたマイクがターゲット席のマイクであるかを判定する(S107)。ここで、ターゲット席とは、ターゲット成分となる音声が取得される席のことである。音声処理装置21Aにおいては、ターゲット席は運転席であり、ターゲット席のマイクは、マイクMC1である。異常検知部31は、判定の結果をフラグとして制御部28Aに出力する。異常が検知されたマイクがターゲット席のマイクである場合、制御部28Aは、音声入力部29Aから受信した音声信号Aの強度をゼロに設定して、出力信号として出力する(S108)。このとき、制御部28Aは、適応フィルタF2A、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eのフィルタ係数を更新しない。そして、音声処理装置21Aは再び工程S101を行う。
【0109】
工程S107において、異常が検知されたマイクがターゲット席のマイクでない場合(S107:No)、異常検知部31は、異常が検知されたマイクが、ターゲット席と同じ側のマイクであるかを判定する(S109)。異常が検知されたマイクが、ターゲット席と同じ側のマイクでない場合(S109:No)、異常検知部31は、判定の結果をフラグとして制御部28Aに出力する。指向性制御部30Aは、音声信号Aおよび音声信号Bを使用した指向性制御処理を行い、第1指向性信号と第2指向性信号を生成する(S110)。そして、判定部35Aは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する(S111)。例えば、マイクMC3において異常が検知された場合、判定部35Aは、マイクMC4に乗員hm3による音声と乗員hm4による音声のいずれが入力されたかを判定する。言い換えると、判定部35Aは、音声信号Dが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかを判定する。判定部35Aは、この判定結果をフラグとして制御部28Aに出力する。以下、マイクMC3において異常が検知されたとして説明する。音声信号Dが乗員hm3による音声を多く含む場合(S111:hm3)、フィルタ部F2は、以下のように減算信号を生成する(S112)。適応フィルタF2Aは、第2指向性信号を通過させ、通過信号P2Aを出力する。制御部28Aは、音声信号Cの強度がゼロの状態で適応フィルタF2Bに入力されるようにフィルタ部F2を制御する。また、制御部28は、音声信号Cの強度がゼロの状態で適応フィルタF2Cに入力されるようにフィルタ部F2を制御する。一方、制御部28Aは、音声信号Dが適応フィルタF2Dに入力されるようにフィルタ部F2を制御する。また、制御部28Aは、音声信号Dの強度がゼロの状態で適応フィルタF2Eに入力されるようにフィルタ部F2を制御する。言い換えると、制御部28Aは、適応フィルタF2Aに入力される第2指向性信号、および適応フィルタF2Dに入力される音声信号Dの強度は変更せず、適応フィルタF2Bに入力される音声信号C、適応フィルタF2Cに入力される音声信号C、および適応フィルタF2Eに入力される音声信号Dの強度をゼロに変更する。そして、フィルタ部F2は、工程S104と同様の動作によって減算信号を生成する。加算部27Aは、工程S5と同様に第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S113)。次に、制御部28Aは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S114)。具体的には、適応フィルタF2Aおよび適応フィルタF2Dのフィルタ係数を更新する。そして、音声処理装置21は再び工程S101を行う。
【0110】
工程S111において、音声信号Dが乗員hm4による音声を多く含むと判定された場合(S1111:hm4)、フィルタ部F2は、以下のように減算信号を生成する(S115)。適応フィルタF2Aは、第2指向性信号を通過させ、通過信号P2Aを出力する。制御部28Aは、音声信号Cの強度がゼロの状態で適応フィルタF2Bに入力されるようにフィルタ部F2を制御する。また、制御部28Aは、音声信号Cの強度がゼロの状態で適応フィルタF2Cに入力されるようにフィルタ部F2を制御する。一方、制御部28Aは、音声信号Dの強度がゼロの状態で適応フィルタF2Dに入力されるようにフィルタ部F2を制御する。また、制御部28Aは、音声信号Dが適応フィルタF2Eに入力されるようにフィルタ部F2を制御する。言い換えると、制御部28は、適応フィルタF2Aに入力される第2指向性信号、および適応フィルタF2Eに入力される音声信号Dの強度は変更せず、適応フィルタF2Bに入力される音声信号C、適応フィルタF2Cに入力される音声信号C、および適応フィルタF2Dに入力される音声信号Dの強度をゼロに変更する。そして、フィルタ部F2は、工程S4と同様の動作によって減算信号を生成する。加算部27Aは、工程S5と同様に第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S116)。次に、制御部28Aは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S117)。具体的には、適応フィルタF2Aおよび適応フィルタF2Eのフィルタ係数を更新する。そして、音声処理装置21は再び工程S101を行う。
【0111】
なお、フィルタ部F2が、第2指向性信号が入力され得る適応フィルタを2つ備えている場合には、ここまでの工程を一部以下の通り変更する。例えば、異常検知部31がマイクMC2の異常を検知可能であり、マイクMC2の異常が検知された場合に第2指向性信号が入力される適応フィルタF2A1と、マイクMC2の異常が検知されなかった場合に第2指向性信号が入力される適応フィルタF2A2と、をフィルタ部F2が別々に備えている場合には、これまでの工程において第2指向性信号が入力される適応フィルタF2Aを適応フィルタF2A2と読み替えればよい。以下で説明する工程は、異常検知部31がマイクMC2の異常を検知可能であり、マイクMC2の異常が検知された場合に第2指向性信号が入力される適応フィルタF2A1と、マイクMC2の異常が検知されなかった場合に第2指向性信号が入力される適応フィルタF2A2と、をフィルタ部F2が別々に備えている場合に行われる。
【0112】
工程S109において、異常が検知されたマイクがターゲット席と同じ側のマイクである場合、異常検知部31は、判定の結果をフラグとして制御部28Aに出力する。この例においては、マイクMC2における異常が検知される。指向性制御部30Aは、音声信号Cおよび音声信号Dを用いた指向性制御処理を行い、第3指向性信号および第4指向性信号を生成する(S118)。そして、判定部35Aは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する(S119)。例えば、マイクMC2において異常が検知された場合、判定部35Aは、マイクMC1に運転手hm1による音声と乗員hm2による音声のいずれが入力されたかを判定する。言い換えると、判定部35Aは、音声信号Aが運転手hm1による音声と乗員hm2による音声のいずれを多く含むかを判定する。判定部35Aは、この判定結果をフラグとして制御部28Aに出力する。
【0113】
音声信号Aが乗員hm2による音声を多く含む場合、制御部28Aは、音声信号Aの強度をゼロに設定して、出力信号として出力する(S108)。このとき、制御部28Aは、適応フィルタF2A1、適応フィルタF2A2、適応フィルタF2B、適応フィルタF2C、適応フィルタF2D、および適応フィルタF2Eのフィルタ係数を更新しない。そして、音声処理装置21Aは再び工程S101を行う。
【0114】
音声信号Aが運転手hm1による音声を多く含む場合、フィルタ部F2は、以下のように減算信号を生成する(S120)。制御部28Aは、音声信号Bの強度がゼロの状態で適応フィルタF2A1に入力されるようにフィルタ部F2を制御する。一方、制御部28Aは、第3指向性信号が適応フィルタF2Bに入力されるようにフィルタ部F2を制御する。また、制御部28Aは、第4指向性信号が適応フィルタF2Dに入力されるようにフィルタ部F2を制御する。言い換えると、制御部28Aは、適応フィルタF2Bに入力される第3指向性信号、および適応フィルタF2Dに入力される第4指向性信号の強度は変更せず、適応フィルタF2A1に入力される音声信号Bの強度をゼロに変更する。適応フィルタF2Bは、第3指向性信号を通過させ、通過信号P2Bを出力する。適応フィルタF2Dは、第4指向性信号を通過させ、通過信号P2Dを出力する。フィルタ部F2は、通過信号P2Bと通過信号P2Dとを足し合わせて、減算信号として出力する。加算部27Aは、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S121)。出力信号は、制御部28Aに入力され、制御部28Aから出力される。次に、制御部28Aは、異常検知部31から出力された判定結果としてのフラグと、判定部35Aから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF2Bおよび適応フィルタF2Dのフィルタ係数を更新する(S122)。そして、音声処理装置21Aは再び工程S101を行う。
【0115】
なお、異常検知部31がマイクMC1およびマイクMC2の異常を検知できる場合の例について説明したが、異常検知部31はマイクMC3およびマイクMC4のみの異常を検知できてもよい。その場合、
図8に示されるフローチャートにおいて、工程S107、工程S108、工程S109、および工程S118~工程S122が省略される。
【0116】
本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部28Aの処理量を低減することができる。一方で、制御部28Aがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部28Aが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。
【0117】
このように、第2実施形態における音声処理システム5Aにおいても、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。また、第2実施形態においては、一部のマイクにおいて異常が検知された場合でも、他のマイクに漏れこむ音声に基づいて、クロストーク成分をキャンセルすることができる。これにより、マイクに異常が発生した場合でも、特定の話者の音声を高精度に求めることができる。また、第2実施形態においては、適応フィルタを用いてターゲット成分を求める際に、異常が検知されたマイクから出力される音声信号を参照信号として用いない。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。
【0118】
(第3実施形態)
第3実施形態に係る音声処理システム5Bは、音声処理装置20Aに代えて音声処理装置20Bを備える点、および指向性制御部30Aを備えない点で第2実施形態に係る音声処理システム5Aと異なる。
【0119】
第3実施形態に係る音声処理装置20Bは、それぞれのマイクにおける異常の有無を検知し、異常が検知されなかったマイクから出力される音声信号を用いて、クロストーク成分をキャンセルする処理を行う。以下、
図9、
図10および
図11を用いて音声処理装置20Bについて説明する。第1実施形態および第2実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。
【0120】
図9を用いて、第2実施形態における音声処理システム5Bの詳細を説明する。
図9は、第3実施形態における音声処理システム5Bの概略構成の一例を示す図である。音声処理システム5Bは、マイクMC1、マイクMC2、マイクMC3、マイクMC4、及び音声処理装置20Bを含む。本実施形態においてマイクMC1は、例えば運転席の右側のアシストグリップに配置される。本実施形態においてマイクMC2は、例えば助手席の左側のアシストグリップに配置される。本実施形態においてマイクMC3は、例えば後部座席の右側のアシストグリップに配置される。本実施形態においてマイクMC4は、例えば後部座席の左側のアシストグリップに配置される。マイクMC1は、後部座席における右側の席に対して、マイクMC3よりも遠くに位置する。マイクMC2は、後部座席における左側の席に対して、マイクMC4よりも遠くに位置する。マイクMC4は、後部座席における左側の席に対して、マイクMC3よりも近くに位置する。
【0121】
本実施形態において、音声処理システム5Bは、各マイクに対応する複数の音声処理装置20Bを備える。具体的には、音声処理システム5Bは、音声処理装置21Bと、音声処理装置22Bと、音声処理装置23Bと、音声処理装置24Bとを備える。音声処理装置21Bは、マイクMC1に対応する。音声処理装置22Bは、マイクMC2に対応する。音声処理装置23Bは、マイクMC3に対応する。音声処理装置24Bは、マイクMC4に対応する。以下、音声処理装置21B、音声処理装置22B、音声処理装置23Bおよび音声処理装置24Bをまとめて音声処理装置20Bと呼ぶことがある。
【0122】
図9に示される構成では、音声処理装置21B、音声処理装置22B、音声処理装置23B、および音声処理装置24Bがそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20Bによって音声処理装置21B、音声処理装置22B、音声処理装置23B、および音声処理装置24Bの機能が実現されてもよい。あるいは、音声処理装置21B、音声処理装置22B、音声処理装置23B、および音声処理装置24Bのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0123】
本実施形態においても、各音声処理装置20Bは、対応する各マイク付近の各座席内に配置される。
【0124】
図10は、音声処理装置21Bの構成を示すブロック図である。音声処理装置21B、音声処理装置22B、音声処理装置23B、および音声処理装置24Bは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21Bについて説明する。音声処理装置21Bは、運転者hm1が発話する音声をターゲットとする。音声処理装置21Bは、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。
【0125】
音声処理装置21Bは、
図10に示すように、音声入力部29Bと、異常検知部31Bと、複数の適応フィルタを含むフィルタ部F3と、フィルタ部F3の適応フィルタのフィルタ係数を制御する制御部28Bと、加算部27Bと、を備える。
【0126】
マイクMC1、マイクMC2、マイクMC3、マイクMC4、および音声入力部29Bは、第2実施形態と同様であるので説明を省略する。
【0127】
本実施形態において、異常検知部31Bは、判定部35Bを含む。判定部35Bは、異常が検知されなかったマイクから出力される音声信号に基づいて、異常が検知されたマイクと同じ側にあるマイクから出力される音声信号が、いずれの乗員による音声を多く含むかの判定を行う機能を有する。
【0128】
例えば、判定部35Bは、マイクMC3に異常があると判定した場合、音声信号Aと音声信号Bとに基づいて、音声信号Dが乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定を行う。具体的な判定方法は、第1実施形態および第2実施形態において説明したものと同様である。判定部35Bの構成および機能は、第1実施形態で説明したものと同様であるので詳細な説明を省略する。
【0129】
異常検知部31Bは、各マイクにおける異常の有無の判定の結果を制御部28Bに出力する。判定部35Bは、音声信号Cあるいは音声信号Dが、乗員hm3による音声と乗員hm4による音声のいずれを多く含むかの判定の結果を制御部28Bに出力する。判定部35Bは、判定の結果を例えばフラグとして制御部28Bに出力する。フラグは、「0」あるいは「1」の値を示す。「1」は、対応するマイクに異常があると判定されたことを意味し、「0」は、対応するマイクに異常があると判定されなかったことを示す。あるいは、「0」は、音声信号が乗員hm3による音声を多く含むことを示し、「1」は、音声信号が乗員hm4による音声を多く含むことを示す。例えば、マイクMC1、MC2、およびMC4に異常がないと判定し、マイクMC3に異常があると判定した場合、かつ、音声信号Dが乗員hm3による音声を多く含むと判定した場合、判定部35Bは、フラグ「0、0、1、0、0」を判定結果として制御部28Bに出力する。この例における5つのフラグのうち、最初の4つはマイクの異常の有無の判定の結果を示し、最後の1つは、音声信号がいずれの乗員による音声を多く含むかの判定の結果を示す。異常検知部31Bによる、マイクの異常の有無の判定の結果の出力と、判定部35Bによる、音声信号がいずれの乗員による音声を多く含むかの判定の結果の出力は、同時であってもよい。あるいは、異常検知部31Bが、マイクの異常の有無の判定が完了した時点で、マイクの異常の有無の判定の結果をフラグとして出力し、次に、判定部35Bが、音声信号がいずれの乗員による音声を多く含むかの判定が完了した時点で、音声信号がいずれの乗員による音声を多く含むかの判定の結果をフラグとして出力してもよい。
【0130】
各マイクの異常の検知の後、異常検知部31Bは、音声信号A、音声信号B、音声信号C、および音声信号Dをフィルタ部F3に出力する。
【0131】
フィルタ部F3は、適応フィルタF3A、適応フィルタF3B、適応フィルタF3C、適応フィルタF3D、および適応フィルタF3Eを含む。フィルタ部F3は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態におけるフィルタ部F3は、第2指向性信号に代えて、音声信号Bが適応フィルタF3Aに入力される点以外は、第2実施形態におけるフィルタ部F2と同様であるので、詳細な説明は省略する。適応フィルタF3Aは、フィルタ係数C3Aおよび音声信号Bに基づいた通過信号P3Aを出力する。適応フィルタF3Bは、フィルタ係数C3Bおよび音声信号Cに基づいた通過信号P3Bを出力する。適応フィルタF3Cは、フィルタ係数C3Cおよび音声信号Cに基づいた通過信号P3Cを出力する。適応フィルタF3Dは、フィルタ係数C3Dおよび音声信号Dに基づいた通過信号P3Dを出力する。適応フィルタF3Eは、フィルタ係数C3Eおよび音声信号Dに基づいた通過信号P3Eを出力する。本実施形態においても、フィルタ部F3が、音声信号Bが入力され得る適応フィルタを2つ備えている構成であってもよい。例えば、異常検知部31BがマイクMC2の異常を検知可能であって、マイクMC2の異常が検知された場合に音声信号Bが入力される適応フィルタF2A1と、マイクMC2の異常が検知されなかった場合に音声信号Bが入力される適応フィルタF2A2と、をフィルタ部F2が別々に備えていてもよい。
【0132】
制御部28Bは、異常検知部31Bの判定の結果に基づき、適応フィルタのフィルタ係数を制御する。本実施形態において制御部28Bは、異常検知部31Bおよび判定部35Bから出力された判定の結果としてのフラグに基づき、音声信号Cを、適応フィルタF3Bと適応フィルタF3Cのいずれに入力するかを決定する。また、本実施形態において制御部28Bは、異常検知部31Bおよび判定部35Bから出力された判定の結果としてのフラグに基づき、音声信号Dを、適応フィルタF3Dと適応フィルタF3Eのいずれに入力するかを決定する。フィルタ係数の制御に関しては、第2実施形態における制御部28Aと同様であるので、詳細な説明を省略する。
【0133】
加算部27Bは、音声入力部29から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部F3から出力される、通過信号P3A、通過信号P3Bあるいは通過信号P3C、および、通過信号P3Dあるいは通過信号P3Eを足し合わせた信号である。加算部27Bは、出力信号を制御部28Bに出力する。
【0134】
制御部28Bは、加算部27Bから出力される出力信号を出力する。出力信号の利用については第1実施形態と同様である。
【0135】
また、制御部28Bは、加算部27Bから出力される出力信号と、異常検知部31から出力された判定の結果としてのフラグと、判定部35Bから出力された判定の結果としてのフラグと、を参照して、各適応フィルタのフィルタ係数を更新する。フィルタ係数の更新に関しては、第2実施形態における制御部28Aと同様であるので、詳細な説明を省略する。
【0136】
本実施形態において、音声入力部29と、異常検知部31Bと、フィルタ部F3と、制御部28Bと、加算部27Bと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29と、異常検知部31Bと、フィルタ部F3と、制御部28Bと、加算部27Bと、は、別々のハードウェアで構成されてもよい。
【0137】
音声処理装置21Bについて説明したが、音声処理装置22B、音声処理装置23B、および音声処理装置24Bについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22Bは、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22Bは、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22Bは、音声信号A、音声信号C、および音声信号Dが入力されるフィルタ部を有する点で音声処理装置21Bと異なる。音声処理装置23B、音声処理装置24Bについても同様である。
【0138】
図11は、音声処理装置21Bの動作手順を示すフローチャートである。まず、音声入力部29に、音声信号A、音声信号B、音声信号Cおよび音声信号Dが入力される(S201)。次に、異常検知部31Bが、各音声信号に基づき、各マイクの異常の有無を判定する(S202)。異常検知部31Bは、この時点で判定の結果をフラグとして制御部28Bに出力してもよい。いずれのマイクからも異常が検知されなかった場合、異常検知部31Bは、すべての音声信号をフィルタ部F3に出力する。フィルタ部F3は、以下のように減算信号を生成する(S203)。適応フィルタF3Aは、音声信号Bを通過させ、通過信号P3Aを出力する。適応フィルタF3Bは、音声信号Cを通過させ、通過信号P3Bを出力する。適応フィルタF3Dは、音声信号Cを通過させ、通過信号P3Dを出力する。フィルタ部F3は、通過信号P3A、通過信号P3B、および通過信号P3Dを足し合わせて、減算信号として出力する。加算部27Bは、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S204)。出力信号は、制御部28Bに入力され、制御部28Bから出力される。次に、制御部28Bは、異常検知部31Bから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF3A、適応フィルタF3B、および適応フィルタF3Dのフィルタ係数を更新する(S205)。そして、音声処理装置21Bは再び工程S201を行う。
【0139】
工程S202において、各マイクのいずれかにおいて異常が検知された場合(S2020:Yes)、異常検知部31Bは、異常が検知されたマイクがターゲット席のマイクであるかを判定する(S206)。この時点で、異常検知部31Bは、判定の結果をフラグとして制御部28Bに出力してもよい。異常が検知されたマイクがターゲット席のマイクである場合(S206:Yes)、制御部28Bは、音声入力部29から受信した音声信号Aの強度をゼロに設定して、出力信号として出力する(S207)。このとき、制御部28Bは、適応フィルタF3A、適応フィルタF3B、適応フィルタF3C、適応フィルタF3D、および適応フィルタF3Eのフィルタ係数を更新しない。そして、音声処理装置21Bは再び工程S201を行う。
【0140】
工程S6において、異常が検知されたマイクがターゲット席のマイクでない場合(S206:No)、異常検知部31Bは、異常が検知されたマイクが、ターゲット席と同じ側のマイクであるかを判定する(S208)。異常が検知されたマイクが、ターゲット席と同じ側のマイクでない場合(S208:No)、異常検知部31Bは、この時点で判定の結果をフラグとして制御部28Bに出力してもよい。判定部35Bは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する(S209)。以下、マイクMC3において異常が検知されたとして説明する。以降は第2実施形態と同様であるので詳細な説明を省略する。音声信号Dが乗員hm3による音声を多く含むと判定された場合、フィルタ部F3は、適応フィルタF3Aおよび適応フィルタF3Dを用いて減算信号を生成する(S210)。加算部27Bは、工程S4と同様に音声信号Aから減算信号を減算し、出力信号を生成して出力する(S211)。次に、制御部28Bは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S212)。そして、音声処理装置21は再び工程S201を行う。
【0141】
工程S209において、音声信号Dが乗員hm4による音声を多く含むと判定された場合(S209:hm3)、フィルタ部F3は、適応フィルタF3Aおよび適応フィルタF3Eを用いて減算信号を生成する(S213)。加算部27Bは、工程S4と同様に音声信号Aから減算信号を減算し、出力信号を生成して出力する(S214)。次に、制御部28Aは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S215)。そして、音声処理装置21は再び工程S201を行う。
【0142】
なおフィルタ部F3が、音声信号Bが入力され得る適応フィルタを2つ備えている場合には、ここまでの工程を一部以下の通り変更する。例えば、異常検知部31BがマイクMC2の異常を検知可能であり、マイクMC2の異常が検知された場合に音声信号Bが入力される適応フィルタF3A1と、マイクMC2の異常が検知されなかった場合に音声信号Bが入力される適応フィルタF3A2と、をフィルタ部F3が別々に備えている場合には、これまでの工程において第2指向性信号が入力される適応フィルタF3Aを適応フィルタF3A2と読み替えればよい。以下で説明する工程は、異常検知部31BがマイクMC2の異常を検知可能であり、マイクMC2の異常が検知された場合に音声信号Bが入力される適応フィルタF3A1と、マイクMC2の異常が検知されなかった場合に音声信号Bが入力される適応フィルタF3A2と、をフィルタ部F3が別々に備えている場合に行われる。
【0143】
工程S208において、異常が検知されたマイクがターゲット席と同じ側のマイクである場合、異常検知部31Bは、判定の結果をフラグとして制御部28Bに出力する。この例においては、マイクMC2における異常が検知される。そして、判定部35Bは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する(S216)。例えば、マイクMC2において異常が検知された場合、判定部35Bは、マイクMC1に運転手hm1による音声と乗員hm2による音声のいずれが入力されたかを判定する。言い換えると、判定部35Bは、音声信号Aが運転手hm1による音声と乗員hm2による音声のいずれを多く含むかを判定する。判定部35Bは、この判定結果をフラグとして制御部28Bに出力する。
【0144】
音声信号Aが乗員hm2による音声を多く含む場合、制御部28Bは、音声信号Aの強度をゼロに設定して、出力信号として出力する(S207)。このとき、制御部28Bは、適応フィルタF3A1、適応フィルタF3A2、適応フィルタF3B、適応フィルタF3C、適応フィルタF3D、および適応フィルタF3Eのフィルタ係数を更新しない。そして、音声処理装置21Bは再び工程S201を行う。
【0145】
音声信号Aが運転手hm1による音声を多く含む場合、フィルタ部F3は、以下のように減算信号を生成する(S217)。制御部28Bは、音声信号Bの強度がゼロの状態で適応フィルタF3A1に入力されるようにフィルタ部F3を制御する。一方、制御部28Bは、音声信号Cが適応フィルタF3Bに入力されるようにフィルタ部F3を制御する。また、制御部28Bは、音声信号Dが適応フィルタF3Dに入力されるようにフィルタ部F3を制御する。言い換えると、制御部28Bは、適応フィルタF3Bに入力される音声信号C、および適応フィルタF3Dに入力される音声信号Dの強度は変更せず、適応フィルタF3A1に入力される音声信号Bの強度をゼロに変更する。適応フィルタF3Bは、音声信号Cを通過させ、通過信号P3Bを出力する。適応フィルタF3Dは、音声信号Dを通過させ、通過信号P3Dを出力する。フィルタ部F3は、通過信号P3Bと通過信号P3Dとを足し合わせて、減算信号として出力する。加算部27Bは、音声信号Aから減算信号を減算し、出力信号を生成して出力する(S218)。出力信号は、制御部28Bに入力され、制御部28Bから出力される。次に、制御部28Bは、異常検知部31Bから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF3Bおよび適応フィルタF3Dのフィルタ係数を更新する(S219)。そして、音声処理装置21Bは再び工程S201を行う。
【0146】
なお、異常検知部31BがマイクMC1およびマイクMC2の異常を検知できる場合の例について説明したが、異常検知部31BはマイクMC3およびマイクMC4のみの異常を検知できてもよい。その場合、
図11に示されるフローチャートにおいて、工程S206、工程S207、工程S208、および工程S216~工程S219が省略される。
【0147】
本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部28Aの処理量を低減することができる。一方で、制御部28Bがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部28Aが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。
【0148】
このように、第3実施形態における音声処理システム5Bにおいても、第2実施形態における音声処理システム5Aと同様の効果が得られる。
【0149】
(第4実施形態)
第4実施形態に係る音声処理システム5Cは、音声処理装置20に代えて音声処理装置20Cを備える点で第1実施形態に係る音声処理システム5と異なる。第4実施形態に係る音声処理装置20Cは、複数の乗員による音声が入力され得るマイクに、いずれの乗員による音声が入力されたかを特定せず、そのマイクから出力される音声信号を用いて、クロストーク成分をキャンセルする処理を行う。以下、
図12、
図13および
図14を用いて音声処理装置20Cについて説明する。第1実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。
【0150】
図12を用いて、第4実施形態における音声処理システム5Cの詳細を説明する。
図12は、第4実施形態における音声処理システム5Cの概略構成の一例を示す図である。音声処理システム5Cは、マイクMC1、マイクMC2、マイクMC3、及び音声処理装置20Cを含む。マイクMC1、マイクMC2、およびマイクMC3については、第1実施形態と同様であるので説明を省略する。
【0151】
本実施形態において、音声処理システム5Cは、各マイクに対応する複数の音声処理装置20Cを備える。具体的には、音声処理システム5Cは、音声処理装置21Cと、音声処理装置22Cと、音声処理装置23Cと、を備える。音声処理装置21Cは、マイクMC1に対応する。音声処理装置22Cは、マイクMC2に対応する。音声処理装置23Cは、マイクMC3に対応する。以下、音声処理装置21C、音声処理装置22C、および音声処理装置23Cをまとめて音声処理装置20Cと呼ぶことがある。
【0152】
図13に示される構成では、音声処理装置21C、音声処理装置22C、および音声処理装置23Cがそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20Cによって音声処理装置21C、音声処理装置22C、および音声処理装置23Cの機能が実現されてもよい。あるいは、音声処理装置21C、音声処理装置22C、および音声処理装置23Cのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0153】
本実施形態においても、各音声処理装置20Cは、対応する各マイク付近の各座席内に配置される。音声処理装置20Cの位置については、例えば第1実施形態と同様である。
【0154】
図13は、音声処理装置21Cの構成を示すブロック図である。音声処理装置21C、音声処理装置22C、および音声処理装置23Cは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21Cについて説明する。音声処理装置21Cは、運転者hm1が発話する音声をターゲット成分とする。音声処理装置21Cは、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。
【0155】
音声処理装置21Cは、
図13に示すように、音声入力部29Cと、指向性制御部30Cと、複数の適応フィルタを含むフィルタ部F4と、複数の適応フィルタのフィルタ係数を制御する制御部28Cと、加算部27Cと、を備える。
【0156】
音声入力部29Cは、第1実施形態の音声入力部29と同様であるので、説明を省略する。
指向性制御部30Cには、音声入力部29Cから出力された音声信号A、音声信号B、および音声信号Cが入力される。指向性制御部30Cは、音声信号Aおよび音声信号Bを使用して指向性制御処理を行う。そして、指向性制御部30Cは、音声信号Aに対して指向性制御処理を行って得られた第1指向性信号を出力する。また、指向性制御部30Cは、音声信号Bに対して指向性制御処理を行って得られた第2指向性信号を出力する。指向性制御部30Cは、第1指向性信号を加算部27Cに、第2指向性信号および音声信号Cをフィルタ部F4に出力する。
【0157】
また、指向性制御部30Cは、マイクMC3に音声成分が入力されたかを判定する。例えば、指向性制御部30Aは、音声信号Cの強度が、第1指向性信号の強度および第2指向性信号の強度の少なくとも一方よりも大きい場合に、マイクMC3に音声信号が入力されたと判定し、そうでない場合に、マイクMC3に音声信号が入力されなかったと判定する。
【0158】
指向性制御部30Cは、マイクMC3に音声成分が入力されたかの判定の結果を制御部28Cに出力する。指向性制御部30Cは、判定の結果を例えばフラグとして制御部28Cに出力する。フラグは、「0」あるいは「1」の値を示す。「0」は、マイクMC3に音声成分が入力されなかったことを示し、「1」は、マイクMC3に音声成分が入力されたことを示す。
【0159】
本実施形態において、マイクMC3に音声成分が入力されたかの判定を、指向性制御部30Cが行っているが、音声処理装置21Cが指向性制御部30Cとは別に、判定部としての発話判定部を備え、発話判定部が判定を行ってもよい。その場合、発話判定部は、例えば音声入力部29Cと指向性制御部30Cの間に接続される。あるいは、音声処理装置21Cは発話判定部のみを備え、指向性制御部30Cを備えなくてもよい。発話判定部の構成および機能は、第1実施形態で説明した判定部35と同様であるので詳細な説明を省略する。
【0160】
フィルタ部F4は、適応フィルタF4Aおよび適応フィルタF4Bを含む。フィルタ部F4は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部F4は2つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。
【0161】
適応フィルタF4Aには、参照信号として第2指向性信号が入力される。適応フィルタF4Aは、フィルタ係数C4Aおよび第2指向性信号に基づいた通過信号P4Aを出力する。適応フィルタF4Bには、参照信号として音声信号Cが入力される。本実施形態において、音声信号Cが乗員hm3による音声を多く含む場合にも、音声信号Cが乗員hm4による音声を多く含む場合にも、音声信号Cは適応フィルタF4Bに入力される。適応フィルタF4Bは、フィルタ係数C4Bおよび音声信号Cに基づいた通過信号P4Bを出力する。フィルタ部F4は、通過信号P4Aと、通過信号P4Bと、を足し合わせて出力する。本実施形態においては、適応フィルタF4Aおよび適応フィルタF4Bは、プロセッサがプログラムを実行することにより実現される。適応フィルタF4Aおよび適応フィルタF4Bは、物理的に分離された別々のハードウェア構成であってもよい。
【0162】
加算部27Cは、音声入力部29Cから出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部F4から出力される、通過信号P4Aおよび通過信号P4Bを足し合わせた信号である。加算部27Cは、出力信号を制御部28Cに出力する。
【0163】
制御部28Cは、加算部27Cから出力される出力信号を出力する。出力信号の利用については第1実施形態と同様である。
【0164】
また、制御部28Cは、加算部27Cから出力される出力信号を参照して、各適応フィルタのフィルタ係数を更新する。具体的には、制御部28Cは、適応フィルタF4Aおよび適応フィルタF4Bについて、式(1)における誤差信号の値が0に近づくように、フィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第1実施形態で説明したのと同様である。
【0165】
本実施形態において、音声入力部29Cと、指向性制御部30Cと、フィルタ部F4と、制御部28Cと、加算部27Cと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29Cと、指向性制御部30Cと、フィルタ部F4と、制御部28Cと、加算部27Cと、は、別々のハードウェアで構成されてもよい。
【0166】
音声処理装置21Cについて説明したが、音声処理装置22C、および音声処理装置23Cについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22Cは、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22Cは、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22Cは、第1指向性信号および音声信号Cが入力されるフィルタ部を有する点で音声処理装置21Cと異なる。音声処理装置23Cについても同様である。
【0167】
図14は、音声処理装置21Cの動作手順を示すフローチャートである。まず、音声入力部29Cに、音声信号A、音声信号B、および音声信号Cが入力される(S301)。次に、指向性制御部30Cが、音声信号Aおよび音声信号Bを使用した指向性制御処理を行い、第1指向性信号と第2指向性信号を生成する(S302)。そして、指向性制御部30Cが、マイクMC3に音声成分が入力されたかを判定する(S303)。指向性制御部30Cは、判定結果をフラグとして制御部28Cに出力する。マイクMC3に音声信号が入力されなかったと指向性制御部30Cが判定した場合(S303:No)、制御部28Cは、フィルタ部F4に入力される音声信号Cの強度をゼロにし、第2指向性信号の強度は変更しない。そして、フィルタ部F4は、以下のように減算信号を生成する(S304)。適応フィルタF4Aは、第2指向性信号を通過させ、通過信号P4Aを出力する。適応フィルタF4Bは、音声信号Cを通過させ、通過信号P4Bを出力する。フィルタ部F4は、通過信号P4A、および通過信号P4Bを足し合わせて、減算信号として出力する。加算部27Cは、第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S305)。出力信号は、制御部28Cに入力され、制御部28Cから出力される。次に、制御部28Cは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF4Aのフィルタ係数を更新する(S306)。そして、音声処理装置21は再び工程S301を行う。
【0168】
マイクMC3に音声信号が入力されたと指向性制御部30Cが判定した場合(S303:Yes)、フィルタ部F4は、以下のように減算信号を生成する(S307)。制御部28Cは、音声信号Cが適応フィルタF4Bに入力されるようにフィルタ部F4を制御する。そして、フィルタ部F4は、工程S304と同様の動作によって減算信号を生成する。加算部27Cは、工程S305と同様に第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S308)。次に、制御部28Cは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S310)。具体的には、適応フィルタF4Aおよび適応フィルタF4Bのフィルタ係数を更新する。そして、音声処理装置21Cは再び工程S301を行う。
【0169】
本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部28Cの処理量を低減することができる。一方で、制御部28Cがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部28Cが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。
【0170】
図15に、音声処理装置21Cにおける各音声信号および出力信号の例を示す。
図15Aは第1指向性信号、
図15Bは第2指向性信号、
図15Cは音声信号C、
図15Dは出力信号のスペクトルを示す。
図15には、運転者hm1、乗員hm2、乗員hm3、および乗員hm4が同時に発話している場合であって、運転者hm1は特定の単語を断続的に発話し、他の乗員は隙間なく雑談を行っている場合の例を示す。なお、第1指向性信号および第2指向性信号においては、指向性制御処理が行われているために、音声信号Cと比較してS/N比が高くなっている。
図15Aと
図15Dとを比較すると、クロストーク成分を抑圧する処理を行うことにより、出力信号では第1指向性信号よりもS/N比が高くなっていることが見て取れる。
【0171】
このように、第4実施形態における音声処理システム5Cでも、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第4実施形態においては、発生する位置が異なる複数の音声を、1つのマイクによって収音できるように構成されている。具体的には、後部座席の乗員hm3の音声および乗員hm4の音声を、マイクMC3で収音している。その上で、マイクMC3から出力される音声信号Cが乗員hm3の音声および乗員hm4の音声のいずれを含む場合でも、音声信号Cを適応フィルタF4Bに入力している。これにより、複数の音声が1つのマイクによって収音されるような場合でも、ターゲット成分の音声信号を精度よく求めることができる。そのため、マイクを例えば座席ごとに1つずつ設けなくともよいので、コストを低減することができる。また、適応フィルタを用いてターゲット成分を求める際に、すべての席に設けられたマイクから出力される信号を参照信号として用いる場合と比較して、処理に用いる参照信号の数を減らすことができる。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、第4実施形態においては、音声信号にいずれの乗員の音声が含まれるかを判定する処理を行っておらず、音声信号に音声が含まれる乗員によって適応フィルタを使い分けるような構成も取っていない。そのため、クロストーク成分をキャンセルする処理の量を低減することができ、音声処理装置5Cの構成も簡単にすることができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。
【0172】
(第5実施形態)
第5実施形態に係る音声処理システム5Dは、音声処理装置20Cに代えて音声処理装置20Dを備える点で第4実施形態に係る音声処理システム5Cと異なる。第5実施形態に係る音声処理装置20Dは、複数の乗員による音声が入力され得るマイクから出力される音声信号を、複数の適応フィルタに入力する。複数の適応フィルタは、該マイクに一方の乗員による音声が入力される場合に対応する適応フィルタと、該マイクに他の乗員による音声が入力される場合に対応する適応フィルタと、を含む。音声処理装置20Dは、いずれの適応フィルタを用いる場合にクロストーク成分をより小さくできるかを判定し、よりクロストーク成分を小さくできる適応フィルタを用いて、クロストーク成分をキャンセルする処理を行う。以下、
図16、
図17および
図18を用いて音声処理装置20Dについて説明する。第1実施形態および第4実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。
【0173】
図16を用いて、第5実施形態における音声処理システム5Dの詳細を説明する。
図16は、第5実施形態における音声処理システム5Dの概略構成の一例を示す図である。音声処理システム5Dは、マイクMC1、マイクMC2、マイクMC3、及び音声処理装置20Dを含む。マイクMC1、マイクMC2、およびマイクMC3については、第1実施形態と同様であるので説明を省略する。
【0174】
本実施形態において、音声処理システム5Dは、各マイクに対応する複数の音声処理装置20Dを備える。具体的には、音声処理システム5Dは、音声処理装置21Dと、音声処理装置22Dと、音声処理装置23Dと、を備える。音声処理装置21Dは、マイクMC1に対応する。音声処理装置22Dは、マイクMC2に対応する。音声処理装置23Dは、マイクMC3に対応する。以下、音声処理装置21D、音声処理装置22Dおよび音声処理装置23Dをまとめて音声処理装置20Dと呼ぶことがある。
【0175】
図16に示される構成では、音声処理装置21D、音声処理装置22D、および音声処理装置23Dがそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20Dによって音声処理装置21D、音声処理装置22D、および音声処理装置23Dの機能が実現されてもよい。あるいは、音声処理装置21D、音声処理装置22D、および音声処理装置23Dのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0176】
本実施形態においても、各音声処理装置20Dは、対応する各マイク付近の各座席内に配置される。音声処理装置20Dの位置については、例えば第1実施形態と同様である。
【0177】
図17は、音声処理装置21Dの構成を示すブロック図である。音声処理装置21D、音声処理装置22D、および音声処理装置23Dは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21Dについて説明する。音声処理装置21Dは、運転者hm1が発話する音声をターゲット成分とする。音声処理装置21Dは、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。
【0178】
音声処理装置21Dは、
図17に示すように、音声入力部29Dと、指向性制御部30Dと、複数の適応フィルタを含むフィルタ部F5と、複数の適応フィルタのフィルタ係数を制御する制御部28Dと、加算部27Dと、を備える。
【0179】
音声入力部29Dは、第1実施形態の音声入力部29と同様であるので、説明を省略する。
指向性制御部30Dは、第4実施形態の指向性制御部30Cと同様であるので、説明を省略する。音声処理装置5Dは、判定部としての発話判定部を備えてもよい。発話判定部を備える場合、音声処理装置5Dは、指向性制御部30Dを備えなくてもよい。
【0180】
フィルタ部F5は、適応フィルタF5A、適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dを含む。フィルタ部F5は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部F5は4つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。
【0181】
適応フィルタF5Aには、参照信号として第2指向性信号が入力される。適応フィルタF5Aは、フィルタ係数C5Aおよび第2指向性信号に基づいた通過信号P5Aを出力する。適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dには、参照信号として音声信号Cが入力される。適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dは、「2つ以上の適応フィルタ」に相当する。適応フィルタF5Bは、第1適応フィルタに相当する。適応フィルタF5Cは、第2適応フィルタに相当する。適応フィルタF5Dは、第3適応フィルタに相当する。適応フィルタF5Bは、フィルタ係数C5Bおよび音声信号Cに基づいた通過信号P5Bを出力する。通過信号P5Bは、第1通過信号に相当する。適応フィルタF5Cは、フィルタ係数C5Cおよび音声信号Cに基づいた通過信号P5Cを出力する。通過信号P5Cは、第2通過信号に相当する。適応フィルタF5Dは、フィルタ係数C5Dおよび音声信号Cに基づいた通過信号P5Dを出力する。フィルタ部F5は、通過信号P5Aと、通過信号P5Bと、を足し合わせた減算信号SSAと、通過信号P5Aと、通過信号P5Cと、を足し合わせた減算信号SSBと、通過信号P5Aと、通過信号P5Dと、を足し合わせた減算信号SSCと、を出力する。減算信号SSAは、第1減算信号に相当する。減算信号SSBは、第2減算信号に相当する。本実施形態においては、適応フィルタF5A、適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dは、プロセッサがプログラムを実行することにより実現される。適応フィルタF5A、適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dは、物理的に分離された別々のハードウェア構成であってもよい。
【0182】
適応フィルタF5Bのフィルタ係数C5Bは、音声信号Cが乗員hm3による音声を多く含む場合に、誤差信号が最小になるように更新される。また、適応フィルタF5Cのフィルタ係数C5Cは、音声信号Cが乗員hm4による音声を多く含む場合に、誤差信号が最小になるように更新される。一方、適応フィルタF5Dのフィルタ係数C5Dは、音声信号Cが乗員hm3による音声および乗員hm4による音声の両方を含む場合に、誤差信号が最小になるように更新される。
【0183】
本実施形態においてフィルタ部F5は、音声信号Cが入力される適応フィルタとして適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dを備えるが、音声信号Cが入力される適応フィルタとして適応フィルタF5Bおよび適応フィルタF5Cのみを備えてもよい。その場合、後述するクロストークキャンセルの処理量を低減することができる。
【0184】
加算部27Dは、音声入力部29Dから出力される、ターゲットの音声信号である第1指向性信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号SSAを用いた場合の出力信号OSA、減算信号SSBを用いた場合の出力信号OSB、および減算信号SSCを用いた場合の出力信号OSCがそれぞれ生成される。出力信号OSAは、第1出力信号に相当する。出力信号OSBは、第2出力信号に相当する。加算部27Dは、出力信号OSA、出力信号OSB、および出力信号OSCを制御部28Dに出力する。
【0185】
制御部28Dは、加算部27Dから出力される出力信号OSA、出力信号OSB、および出力信号OSCを参照して、誤差信号が最も小さくなる出力信号を特定する。例えば、音声信号Cが乗員hm3による音声を多く含む場合には、出力信号OSAにおいて誤差信号が最も小さくなる。例えば、音声信号Cが乗員hm4による音声を多く含む場合には、出力信号OSBにおいて誤差信号が最も小さくなる。例えば、音声信号Cが乗員hm3による音声および乗員hm4による音声の両方を含む場合には、出力信号OSCにおいて誤差信号が最も小さくなる。そして、制御部28Dは、誤差信号が最も小さくなる出力信号を生成するのに用いられた適応フィルタのフィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第1実施形態で説明したのと同様である。
【0186】
また、制御部28Dは、出力信号OSA、出力信号OSB、出力信号OSCのうち、誤差信号が最も小さくなる出力信号を出力する。出力信号の利用については第1実施形態と同様である。
【0187】
本実施形態において、音声入力部29Dと、指向性制御部30Dと、フィルタ部F5と、制御部28Dと、加算部27Dと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29Dと、指向性制御部30Dと、フィルタ部F5と、制御部28Dと、加算部27Dと、は、別々のハードウェアで構成されてもよい。
【0188】
音声処理装置21Dについて説明したが、音声処理装置22D、および音声処理装置23Dについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22Dは、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22Dは、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22Dは、第1指向性信号および音声信号Cが入力されるフィルタ部を有する点で音声処理装置21Dと異なる。音声処理装置23Dについても同様である。
【0189】
図18は、音声処理装置21Dの動作手順を示すフローチャートである。まず、音声入力部29Dに、音声信号A、音声信号B、および音声信号Cが入力される(S401)。次に、指向性制御部30Dが、音声信号Aおよび音声信号Bを使用した指向性制御処理を行い、第1指向性信号と第2指向性信号を生成する(S402)。そして、指向性制御部30Dが、第1実施形態と同様の方法で、マイクMC3に音声成分が入力されたかを判定する(S403)。指向性制御部30Dは、判定結果をフラグとして制御部28Dに出力する。マイクMC3に音声信号が入力されなかったと指向性制御部30Dが判定した場合(S403:No)、制御部28Dは、フィルタ部F5に入力される音声信号Cの強度をゼロにし、第2指向性信号の強度は変更しない。そして、フィルタ部F5は、以下のように減算信号を生成する(S404)。適応フィルタF5Aは、第2指向性信号を通過させ、通過信号P5Aを出力する。適応フィルタF5Bは、音声信号Cを通過させ、通過信号P5Bを出力する。適応フィルタF5Cは、音声信号Cを通過させ、通過信号P5Cを出力する。適応フィルタF5Dは、音声信号Cを通過させ、通過信号P5Dを出力する。フィルタ部F5は、通過信号P5A、通過信号P5B、通過信号P5C、および通過信号P5Dを足し合わせて、減算信号として出力する。加算部27Dは、第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S405)。出力信号は、制御部28Dに入力され、制御部28Dから出力される。次に、制御部28Dは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF5Aのフィルタ係数を更新する(S406)。そして、音声処理装置21は再び工程S1を行う。
【0190】
マイクMC3に音声信号が入力されたと指向性制御部30Dが判定した場合(S403:Yes)、制御部28Dは、音声信号Cが適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dのそれぞれに入力されるようにフィルタ部F5を制御する。言い換えると、制御部28Dは、適応フィルタF5Aに入力される第2指向性信号および適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dに入力される音声信号Cの強度を変更しない。そして、フィルタ部F5は、以下のように減算信号を生成する(S407)。フィルタ部F5は、通過信号P5Aと、通過信号P5Bと、を足し合わせた減算信号SSAと、通過信号P5Aと、通過信号P5Cと、を足し合わせた減算信号SSBと、通過信号P5Aと、通過信号P5Dと、を足し合わせた減算信号SSCと、を生成し、加算部27Dに出力する。加算部27Dは、以下のように出力信号を生成して制御部28Dに出力する(S408)。加算部28Dは、第1指向性信号から減算信号SSAを減算し、出力信号OSAを生成して制御部28Dに出力する。加算部28Dは、第1指向性信号から減算信号SSBを減算し、出力信号OSBを生成して制御部28Dに出力する。また、加算部28Dは、第1指向性信号から減算信号SSCを減算し、出力信号OSCを生成して制御部28Dに出力する。次に、制御部28Dは、出力信号OSA、出力信号OSB、および出力信号OSCに基づき、誤差信号が最小になるのはどの適応フィルタを用いた場合かを判定する(S409)。適応フィルタF5Bを用いた場合に誤差信号が最小になると判定したとき、制御部28Dは、出力信号OSAに含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S410)。具体的には、適応フィルタF5Aおよび適応フィルタF5Bのフィルタ係数を更新する。そして、音声処理装置21Dは再び工程S401を行う。
【0191】
工程S409において、適応フィルタF5Cを用いた場合に誤差信号が最小になると判定したとき、制御部28Dは、出力信号OSBに含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S411)。具体的には、適応フィルタF5Aおよび適応フィルタF5Cのフィルタ係数を更新する。そして、音声処理装置21Dは再び工程S401を行う。
【0192】
工程S409において、適応フィルタF5Dを用いた場合に誤差信号が最小になると判定したとき、制御部28Dは、出力信号OSCに含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S412)。具体的には、適応フィルタF5Aおよび適応フィルタF5Dのフィルタ係数を更新する。そして、音声処理装置21Dは再び工程S401を行う。
【0193】
本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部28Dの処理量を低減することができる。一方で、制御部28Dがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部28Dが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。
【0194】
このように、第5実施形態における音声処理システム5Dでも、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第5実施形態においては、発生する位置が異なる複数の音声を、1つのマイクによって収音できるように構成されている。具体的には、音声処理システム5Dは、後部座席の乗員hm3の音声および乗員hm4の音声を、マイクMC3で収音している。その上で、音声信号Cを適応フィルタF5B、適応フィルタF5C、および適応フィルタF5Dに入力した場合の出力信号をそれぞれ生成し、誤差信号が最小になる場合の出力信号を、音声処理システム5Dは特定している。これにより、複数の音声が1つのマイクによって収音されるような場合でも、ターゲット成分の音声信号を精度よく求めることができる。そのため、マイクを例えば座席ごとに1つずつ設けなくともよいので、コストを低減することができる。また、適応フィルタを用いてターゲット成分を求める際に、すべての席に設けられたマイクから出力される信号を参照信号として用いる場合と比較して、処理に用いる参照信号の数を減らすことができる。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、第5実施形態においては、音声信号にいずれの乗員の音声が含まれるかを判定する処理を行っていない。そのため、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。
【0195】
(第6実施形態)
第6実施形態に係る音声処理システム5Eは、音声処理装置20Aに代えて音声処理装置20Eを備える点で第2実施形態に係る音声処理システム5Aと異なる。第6実施形態に係る音声処理装置20Eは、複数のマイクから出力される音声信号を合算したものを参照信号として用いて、クロストーク成分をキャンセルする処理を行う。以下、
図19、
図20および
図21を用いて音声処理装置20Eについて説明する。第1実施形態および第2実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。
【0196】
図19を用いて、第6実施形態における音声処理システム5Eの詳細を説明する。
図19は、第6実施形態における音声処理システム5Eの概略構成の一例を示す図である。音声処理システム5は、マイクMC1、マイクMC2、マイクMC3、マイクMC4、及び音声処理装置20Eを含む。マイクMC1、マイクMC2、マイクMC3、およびマイクMC4については、第2実施形態と同様であるので説明を省略する。
【0197】
本実施形態において、音声処理システム5Eは、各マイクに対応する複数の音声処理装置20Eを備える。具体的には、音声処理システム5Eは、音声処理装置21Eと、音声処理装置22Eと、音声処理装置23Eと、音声処理装置24Eとを備える。音声処理装置21Eは、マイクMC1に対応する。音声処理装置22Eは、マイクMC2に対応する。音声処理装置23Eは、マイクMC3に対応する。音声処理装置24Eは、マイクMC4に対応する。以下、音声処理装置21E、音声処理装置22E、音声処理装置23Eおよび音声処理装置24Eをまとめて音声処理装置20Eと呼ぶことがある。
【0198】
図19に示される構成では、音声処理装置21E、音声処理装置22E、音声処理装置23E、および音声処理装置24Eがそれぞれ別のハードウェアで構成されることを例示しているが、1つの音声処理装置20Eによって音声処理装置21E、音声処理装置22E、音声処理装置23E、および音声処理装置24Eの機能が実現されてもよい。あるいは、音声処理装置21E、音声処理装置22E、音声処理装置23E、および音声処理装置24Eのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。
【0199】
本実施形態において、各音声処理装置20Eは、対応する各マイク付近の各座席内に配置される。音声処理装置20Eの位置については、例えば第2実施形態と同様である。
【0200】
図20は、音声処理装置21Eの構成を示すブロック図である。音声処理装置21E、音声処理装置22E、音声処理装置23E、および音声処理装置24Eは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置21Eについて説明する。音声処理装置21Eは、運転者hm1が発話する音声をターゲットとする。音声処理装置21Eは、マイクMC1で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。
【0201】
音声処理装置21Eは、
図20に示すように、音声入力部29Eと、指向性制御部30Eと、複数の適応フィルタを含むフィルタ部F6と、フィルタ部F6の適応フィルタのフィルタ係数を制御する制御部28Eと、加算部27Eと、を備える。
【0202】
音声入力部29Eは、第2実施形態の音声入力部29Aと同様であるので、説明を省略する。
【0203】
指向性制御部30Eには、音声入力部29Eから出力された音声信号A、音声信号B、音声信号C、および音声信号Dが入力される。指向性制御部30Eは、ターゲットとする乗員の座席付近のマイクと、そのマイクと同じ側にあるマイクと、から出力された音声信号を使用して指向性制御処理を行う。音声処理装置21Eでは運転者hm1が発話する音声をターゲットとしているので、指向性制御部30Eは、音声信号Aおよび音声信号Bを使用して指向性制御処理を行う。そして、指向性制御部30Eは、2つの音声信号を使用して指向性制御処理を行うことによって得られた2つの指向性信号を出力する。例えば、指向性制御部30Eは、音声信号Aに対して指向性制御処理を行って得られた第1指向性信号を出力する。また、指向性制御部30Eは、音声信号Bに対して指向性制御処理を行って得られた第2指向性信号を出力する。指向性制御部30Eは、すべての音声信号を使用して指向性制御処理を行い、得られた指向性信号を出力してもよい。例えば、指向性制御部30Eは、第1指向性信号と第2指向性信号に加えて、音声信号Cに対して指向性制御処理を行って得られた第3指向性信号と、音声信号Dに対して指向性制御処理を行って得られた第4指向性信号と、を出力する。
【0204】
また、指向性制御部30Eは、ターゲットとする乗員の座席付近のマイクと違う側にあるマイクに音声成分が入力されたかを判定する。具体的には、指向性制御部30Eは、マイクMC3およびマイクMC4に音声成分が入力されたかを判定する。例えば、指向性制御部30は、音声信号Cの強度が、第1指向性信号の強度および第2指向性信号の強度の少なくとも一方よりも大きい場合に、マイクMC3に音声信号が入力されたと判定し、そうでない場合に、マイクMC3に音声信号が入力されなかったと判定する。マイクMC4についても同様である。
【0205】
本実施形態において、ターゲットとする乗員の座席付近のマイクと違う側にあるマイクに音声成分が入力されたかの判定を、指向性制御部30Eが行っているが、音声処理装置21Eが指向性制御部30Eとは別に、判定部としての発話判定部を備え、発話判定部が判定を行ってもよい。その場合、発話判定部は、例えば音声入力部29Eと指向性制御部30Eの間に接続される。発話判定部の構成および機能は、第1実施形態で説明したものと同様であるので詳細な説明を省略する。発話判定部を備える場合、音声処理装置5Eは、指向性制御部30Eを備えなくてもよい。
【0206】
フィルタ部F6は、適応フィルタF6Aおよび適応フィルタF6Bを含む。フィルタ部F6は、マイクMC1で収音される音声に含まれる、運転者hm1の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部F6は2つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。
【0207】
適応フィルタF6Aには、参照信号として第2指向性信号が入力される。適応フィルタF6Aは、フィルタ係数C6Aおよび第2指向性信号に基づいた通過信号P6Aを出力する。適応フィルタF6Bには、参照信号として音声信号Cおよび音声信号Dが入力される。適応フィルタF6Bは、フィルタ係数C6B、音声信号C、および音声信号Dに基づいた通過信号P62Bを出力する。適応フィルタF6Bは、「第1信号および第2信号が入力される適応フィルタ」に相当する。フィルタ部F6は、通過信号P6Aと、通過信号P6Bと、を足し合わせて出力する。本実施形態においては、適応フィルタF6Aおよび適応フィルタF6Bは、プロセッサがプログラムを実行することにより実現される。適応フィルタF6Aおよび適応フィルタF6Bは、物理的に分離された別々のハードウェア構成であってもよい。
【0208】
加算部27Eは、音声入力部29Eから出力される、ターゲットの音声信号である第1指向性信号から、減算信号を減算することで、出力信号を生成する。本実施形態において減算信号は、フィルタ部F6から出力される、通過信号P6Aおよび通過信号P6Bを足し合わせた信号である。加算部27Eは、出力信号を制御部28Eに出力する。
【0209】
制御部28Eは、加算部27Eから出力される出力信号を出力する。制御部28Eの出力信号は、音声認識エンジン40に入力される。あるいは、制御部28Eから、電子機器50に出力信号が直接入力されてもよい。制御部28Eから電子機器50に出力信号が直接入力される場合、制御部28Eと電子機器50とは、有線で接続されていてもよく、無線で接続されていてもよい。例えば、電子機器50が携帯端末であり、制御部28Eから、無線通信網を介して、携帯端末に出力信号が直接入力されてもよい。携帯端末へ入力された出力信号は、携帯端末の有するスピーカから音声として出力されてもよい。
【0210】
また、制御部28Eは、加算部27Eから出力される出力信号に基づいて、各適応フィルタのフィルタ係数を更新する。制御部28Eは、各適応フィルタについて、式(1)における誤差信号の値が0に近づくように、フィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第1実施形態で説明したのと同様である。
【0211】
本実施形態において、音声入力部29Eと、指向性制御部30Eと、フィルタ部F6と、制御部28Eと、加算部27Eと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部29Eと、指向性制御部30Eと、フィルタ部F6と、制御部28Eと、加算部27Eと、は、別々のハードウェアで構成されてもよい。
【0212】
音声処理装置21Eについて説明したが、音声処理装置22E、音声処理装置23E、および音声処理装置24Eについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置22Eは、乗員hm2が発話する音声をターゲット成分とする。音声処理装置22Eは、マイクMC2で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置22Eは、第1指向性信号、音声信号C、および音声信号Dが入力されるフィルタ部を有する点で音声処理装置21Eと異なる。音声処理装置23E、音声処理装置24Eについても同様である。
【0213】
図21は、音声処理装置21Eの動作手順を示すフローチャートである。まず、音声入力部29Eに、音声信号A、音声信号B、音声信号C、および音声信号Dが入力される(S501)。次に、指向性制御部30Eが、音声信号Aおよび音声信号Bを使用した指向性制御処理を行い、第1指向性信号と第2指向性信号を生成する(S502)。そして、指向性制御部30Eが、第1実施形態と同様の方法で、マイクMC3あるいはマイクMC4に音声成分が入力されたかを判定する(S503)。指向性制御部30Eは、判定結果をフラグとして制御部28Eに出力する。マイクMC3あるいはマイクMC4に音声信号が入力されなかったと指向性制御部30Eが判定した場合(S503:No)、制御部28Eは、フィルタ部F6に入力される音声信号Cおよび音声信号Dの強度をゼロにし、第2指向性信号の強度は変更しない。そして、フィルタ部F6は、以下のように減算信号を生成する(S504)。適応フィルタF6Aは、第2指向性信号を通過させ、通過信号P6Aを出力する。適応フィルタF6Bは、音声信号Cおよび音声信号Dを通過させ、通過信号P6Bを出力する。フィルタ部F6は、通過信号P5Aおよび通過信号P5Bを足し合わせて、減算信号として出力する。加算部27Eは、第1指向性信号から減算信号を減算し、出力信号を生成して出力する(S505)。出力信号は、制御部28Eに入力され、制御部28Eから出力される。次に、制御部28Eは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタF6Aのフィルタ係数を更新する(S506)。そして、音声処理装置21Eは再び工程S501を行う。
【0214】
工程S503においてマイクMC3あるいはマイクMC4に音声信号が入力されたと指向性制御部30Eが判定した場合(S503:Yes)、制御部28Eは、強度が変更されないまま音声信号Cおよび音声信号Dが適応フィルタF6Bに入力されるようにフィルタ部F6を制御する。言い換えると、制御部28Eは、適応フィルタF6Aに入力される第2指向性信号の強度と、適応フィルタF6Bに入力される音声信号Cおよび音声信号Dの強度を変更しない。フィルタ部F6は、通過信号P6Aと、通過信号P6Bと、を足し合わせた減算信号を生成し、加算部27Eに出力する(S507)。加算部27Eは、第1指向性信号から減算信号を減算し、出力信号を生成して制御部28Eに出力する(S508)。制御部28Eは、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する(S509)。具体的には、適応フィルタF6Aおよび適応フィルタF6Bのフィルタ係数を更新する。そして、音声処理装置21Eは再び工程S501を行う。
【0215】
本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部28Eの処理量を低減することができる。一方で、制御部28Eがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部28Eが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。
【0216】
このように、第6実施形態における音声処理システム5Eでも、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第6実施形態においては、複数の音声信号を足し合わせたものを参照信号として用いている。これにより、各座席で個別に音声信号を収音可能であると同時に、座席ごとに得られたすべての信号を参照信号として用いる場合と比較して、クロストーク成分をキャンセルする処理の量を低減することができる。具体的には、音声処理システム5Eは、後部座席の乗員hm3の音声および乗員hm4の音声を、マイクMC3およびマイクMC4で個別に収音している。音声処理システム5Eは、その上で、音声信号Cと音声信号Dの両方を適応フィルタF6Bに入力させ、参照信号として用いている。また、第6実施形態においては、音声信号にいずれの乗員の音声が含まれるかを判定する処理を行っていない。そのため、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。
【0217】
項目1(第4実施形態)
第1位置で生じる第1音声成分と、前記第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号を取得し、前記第1音声信号に基づいた第1信号を出力する、第1マイクと、
前記第1信号が入力され、前記第1信号に基づいた通過信号を出力する適応フィルタと、
前記適応フィルタのフィルタ係数を制御する制御部と、
を備え、
前記第1音声信号が前記第1音声成分を含むとき、および、前記第1音声信号が前記第2音声成分を含むとき、のいずれにおいても、前記第1信号が前記適応フィルタに入力される、音声処理システム。
【0218】
項目2(第5実施形態)
第1位置で生じる第1音声成分と、前記第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号を取得し、前記第1音声信号に基づいた第1信号を出力する、第1マイクと、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第2音声信号を取得し、前記第2音声信号に基づいた第2信号を出力し、前記第1位置に対して前記第1マイクよりも遠くに位置する第2マイクと、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第3音声信号を取得し、前記第3音声信号に基づいた第3信号を出力し、前記第2位置に対して前記第1マイクよりも遠くに位置する第3マイクと、
前記第1信号が入力され、前記第1信号に基づいた通過信号を出力する、2つ以上の適応フィルタと、
前記2つ以上の適応フィルタのフィルタ係数を制御する制御部と、
前記第2信号または前記第3信号から、前記通過信号に基づいた減算信号を減算する加算部と、
を備え、
前記2つ以上の適応フィルタは、第1適応フィルタと、第2適応フィルタと、を含み、
前記第1適応フィルタは、前記第1信号が入力され、前記第1信号に基づいた第1通過信号を出力し、
前記第2適応フィルタは、前記第1信号が入力され、前記第1信号に基づいた第2通過信号を出力し、
前記加算部は、前記第2信号または前記第3信号から、前記第1通過信号に基づいた第1減算信号を減算した第1出力信号と、前記第2通過信号に基づいた第2減算信号を減算した第2出力信号と、を出力し、
前記制御部は、前記第1出力信号と、前記第2出力信号と、に基づいて、前記減算信号の生成に前記第1適応フィルタと前記第2適応フィルタとのいずれを用いるかを決定する、
音声処理システム。
【0219】
項目3
前記第1音声信号が前記第1音声成分を含むとき、前記第1信号が前記第1適応フィルタに入力され、
前記第1音声信号が前記第2音声成分を含むとき、前記第1信号が前記第2適応フィルタに入力される、
項目2に記載の音声処理システム。
【0220】
項目4
前記2つ以上の適応フィルタは、第3適応フィルタを含み、
前記第1音声信号が、前記第1音声成分と前記第2音声成分とを含むとき、前記第1信号が前記第3適応フィルタに入力される、
項目3に記載の音声処理システム。
【0221】
項目5(第6実施形態)
第1位置で生じる第1音声成分と、前記第1位置とは異なる第2位置で生じる第2音声成分と、の少なくとも一方を含む第1音声信号を取得し、前記第1音声信号に基づいた第1信号を出力する第1マイクと、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第2音声信号を取得し、前記第2音声信号に基づいた第2信号を出力し、前記第2位置に対して前記第1マイクよりも遠くに位置する第2マイクと、
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第3音声信号を取得し、前記第3音声信号に基づいた第3信号を出力し、前記第1位置に対して前記第1マイクよりも遠くに位置する、あるいは前記第2位置に対して前記第2マイクよりも遠くに位置する第3マイクと、
前記第1信号および前記第2信号が入力され、前記第1信号および前記第2信号に基づいた通過信号を出力する適応フィルタと、
前記第3信号から、前記通過信号に基づいた減算信号を減算する加算部と、
を備える、音声処理システム。
【0222】
項目6
前記第1音声成分と、前記第2音声成分と、の少なくとも一方を含む第4音声信号を取得し、前記第4音声信号に基づいた第4信号を出力し、前記第2位置に対して前記第1マイクおよび前記第2マイクよりも遠くに位置する第4マイクと、
前記第3信号に対して指向性制御処理を行って第1指向性信号を出力し、前記第4信号に対して指向性制御処理を行って第2指向性信号を出力する指向性制御部と、
を備え、
前記第3マイクは、前記第1位置に対して前記第1マイクよりも遠くに位置する、項目5に記載の音声処理システム。
【符号の説明】
【0223】
5 音声処理システム
10 車両
20、21、22、23 音声処理装置
27 加算部
28 制御部
29 音声入力部
30 指向性制御部
31 異常検知部
F1 フィルタ部
F1A、F1B、F1C 適応フィルタ
40 音声認識エンジン
50 電子機器