特許7365642 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特許7365642音声処理システム、音声処理装置及び音声処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4
5
6
7
8
9
10
11
12
13
14
15A
15B
15C
15D
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-12

(45)【発行日】2023-10-20

(54)【発明の名称】音声処理システム、音声処理装置及び音声処理方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20231013BHJP

G10L 21/0208 20130101ALI20231013BHJP

H04R 1/02 20060101ALI20231013BHJP

H04R 1/40 20060101ALI20231013BHJP

【ＦＩ】

H04R3/00 320

G10L21/0208 100A

H04R1/02 107

H04R1/40 320A

【請求項の数】 10

(21)【出願番号】P 2020048463

(22)【出願日】2020-03-18

(65)【公開番号】P2021150801

(43)【公開日】2021-09-27

【審査請求日】2022-08-18

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】山梨智史

(72)【発明者】

【氏名】番場裕

【審査官】大野弘

(56)【参考文献】

【文献】特開２００９－２７６５２８（ＪＰ，Ａ）

【文献】特開２０１３－０７８１１７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ３／００

Ｈ０４Ｒ１／４０

Ｇ１０Ｌ２１／０２０８

Ｈ０４Ｒ１／０２

(57)【特許請求の範囲】

【請求項1】

第１位置で生じる第１音声成分と、前記第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号を取得し、前記第１音声信号に基づいた第１信号を出力する、少なくとも１つの第１マイクと、
前記第１信号が入力され、前記第１信号に基づいた通過信号を出力する、少なくとも１つの適応フィルタと、
前記第１音声信号が前記第１音声成分と前記第２音声成分のいずれを多く含むかの判定を行う判定部と、
前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する制御部と、
を備える、音声処理システム。

【請求項2】

前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第２音声信号を取得し、前記第２音声信号に基づいた第２信号を出力し、前記第１位置に対して少なくとも１つの前記第１マイクよりも遠くに位置する第２マイクと、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第３音声信号を取得し、前記第３音声信号に基づいた第３信号を出力し、前記第２位置に対して少なくとも１つの前記第１マイクよりも遠くに位置する第３マイクと、
を備え、
前記判定部は、前記第２信号と、前記第３信号と、に基づき、前記第１音声信号が前記第１音声成分と前記第２音声成分のいずれを多く含むかの判定を行う、
請求項１に記載の音声処理システム。

【請求項3】

前記第２信号に対して指向性制御処理を行って得られた第１指向性信号を出力し、前記第３信号に対して指向性制御処理を行って得られた第２指向性信号を出力する指向性制御部を備える、
請求項２に記載の音声処理システム。

【請求項4】

前記判定部は、前記第１指向性信号と、前記第２指向性信号と、に基づいて、前記第１音声信号が前記第１音声成分と前記第２音声成分のいずれを多く含むかの判定を行う、
請求項３に記載の音声処理システム。

【請求項5】

前記指向性制御部は、前記判定部を有する、
請求項３または請求項４に記載の音声処理システム。

【請求項6】

前記少なくとも１つの第１マイクは、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第４音声信号を取得し、前記第４音声信号に基づいた第４信号を出力する、第４マイクと、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第５音声信号を取得し、前記第５音声信号に基づいた第５信号を出力し、前記第２位置に対して前記第４マイクよりも近くに位置する、第５マイクと、を含み、
前記少なくとも１つの第１マイクの異常の有無を検知し、前記少なくとも１つの第１マイクの異常に関する異常情報を前記制御部に送信する異常検知部を備え、
前記制御部は、前記異常情報と、前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する、
請求項１から請求項４のいずれか一項に記載の音声処理システム。

【請求項7】

前記制御部は、
前記判定部が前記第４マイクの異常を検知した場合、前記適応フィルタに入力される前記第４信号の強度をゼロにし、
前記判定部が前記第５マイクの異常を検知した場合、前記適応フィルタに入力される前記第５信号の強度をゼロにする、
請求項６に記載の音声処理システム。

【請求項8】

前記異常検知部は、前記判定部を有する、
請求項６または７に記載の音声処理システム。

【請求項9】

第１位置で生じる第１音声成分と、前記第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号に基づいた第１信号を受信する、少なくとも１つの受信部と、
前記第１信号が入力され、前記第１信号に基づいた通過信号を出力する、少なくとも１つの適応フィルタと、
前記第１音声信号が前記第１音声成分と前記第２音声成分のいずれを多く含むかの判定を行う判定部と、
前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する制御部と、
を備える、音声処理装置。

【請求項10】

音声処理装置で実行される音声処理方法であって、
第１位置で生じる第１音声成分と、前記第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号に基づいた第１信号を受信する工程と、
前記第１信号が少なくとも１つの適応フィルタに入力され、前記少なくとも１つの適応フィルタが前記第１信号に基づいた通過信号を出力する工程と、
前記第１音声信号が前記第１音声成分と前記第２音声成分のいずれを多く含むかの判定を行う工程と、
前記判定の結果に基づき、前記適応フィルタのフィルタ係数を制御する工程と、
を含む、音声処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声処理システム、音声処理装置及び音声処理方法に関する。

【背景技術】

【0002】

車載用の音声認識装置やハンズフリー通話において、周辺の音声を除去して話者の音声だけを認識するための、エコーキャンセラが知られている。特許文献１には、音源数に応じて、動作する適応フィルタの数やタップ数を切り替えるエコーキャンセラが開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第４８８９８１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

適応フィルタを用いてエコーキャンセルを行う場合、収音機器によって収音された周辺の音声が参照信号として適応フィルタに入力される。例えば、音声を発し得る音源１つ１つに対応する収音機器が存在し、１つの収音機器から１つの参照信号が出力される場合、参照信号に含まれる音声は、その参照信号が出力された収音機器に対応する音源の位置で発生したものとして特定され得る。目的の音声を含む信号から、参照信号を、それに含まれる周辺の音声の発生位置を考慮した上で差し引くことにより、目的の音声を得ることができる。

【0005】

一方、音声を発し得る音源の数よりも収音機器の数の方が少ない場合、１つの参照信号に複数の音源による音声が含まれ得る。その場合、参照信号に含まれる音声が発生した位置を、参照信号のみからでは特定できない。そのため、周辺の音声を除去して目的の音声を得ることが難しい場合がある。音声を発し得る音源の数よりも収音機器の数の方が少ない場合でも、周辺の音声を除去して目的の音声を得られると有益である。また、周辺の音声を除去して目的の音声を得るための処理において、処理量を低減できると有益である。

【0006】

本開示は、適応フィルタを用いたエコーキャンセルにおいて、上記課題のうち少なくとも１つを解決することが可能な音声処理システム、音声処理装置及び音声処理方法に関する。

【課題を解決するための手段】

【0007】

本開示の一態様に係る音声処理システムは、第１位置で生じる第１音声成分と、第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号を取得し、第１音声信号に基づいた第１信号を出力する、少なくとも１つの第１マイクと、第１信号が入力され、第１信号に基づいた通過信号を出力する、少なくとも１つの適応フィルタと、第１音声信号が第１音声成分と第２音声成分のいずれを多く含むかの判定を行う判定部と、判定の結果に基づき、適応フィルタのフィルタ係数を制御する制御部と、を備える。

【0008】

本開示の一態様に係る音声処理装置は、第１位置で生じる第１音声成分と、第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号に基づいた第１信号を受信する、少なくとも１つの受信部と、第１信号が入力され、第１信号に基づいた通過信号を出力する、少なくとも１つの適応フィルタと、第１音声信号が第１音声成分と第２音声成分のいずれを多く含むかの判定を行う判定部と、判定の結果に基づき、適応フィルタのフィルタ係数を制御する制御部と、を備える。

【0009】

本開示の一態様に係る音声処理方法は、第１位置で生じる第１音声成分と、第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号に基づいた第１信号を受信する工程と、第１信号が少なくとも１つの適応フィルタに入力され、少なくとも１つの適応フィルタが第１信号に基づいた通過信号を出力する工程と、第１音声信号が第１音声成分と第２音声成分のいずれを多く含むかの判定を行う工程と、判定の結果に基づき、適応フィルタのフィルタ係数を制御する工程と、を含む。

【発明の効果】

【0010】

本開示によれば、音声を発し得る音源の数よりも収音機器の数の方が少ない場合でも、周辺の音声を除去して目的の音声を得られる。あるいは、本開示によれば、周辺の音声を除去して目的の音声を得るための処理において、処理量を低減できる。

【図面の簡単な説明】

【0011】

【図1】図１は、第１実施形態における音声処理システムの概略構成の一例を示す図である。

【図2】図２は、第１実施形態における音声処理装置の構成を示すブロック図である。

【図3A】図３Ａは、音声処理装置において用いられる音声信号（音声信号Ｃ）の時間波形を示す図である。

【図3B】図３Ｂは、音声処理装置において用いられる音声信号（第１指向性信号）の時間波形を示す図である。

【図3C】図３Ｃは、音声処理装置において用いられる音声信号（第２指向性信号）の時間波形を示す図である。

【図4】図４は、音声処理装置において用いられる音声信号の周波数スペクトルを平均化して示す図である。

【図5】図５は、第１実施形態における音声処理装置の動作手順を示すフローチャートである。

【図6】図６は、第２実施形態における音声処理システムの概略構成の一例を示す図である。

【図7】図７は、第２実施形態における音声処理装置の構成を示すブロック図である。

【図8】図８は、第２実施形態における音声処理装置の動作手順を示すフローチャートである。

【図9】図９は、第３実施形態における音声処理システムの概略構成の一例を示す図である。

【図10】図１０は、第３実施形態における音声処理装置の構成を示すブロック図である。

【図11】図１１は、第３実施形態における音声処理装置の動作手順を示すフローチャートである。

【図12】図１２は、第４実施形態における音声処理システムの概略構成の一例を示す図である。

【図13】図１３は、第４実施形態における音声処理装置の構成を示すブロック図である。

【図14】図１４は、第４実施形態における音声処理装置の動作手順を示すフローチャートである。

【図15A】図１５Ａは、音声処理装置において用いられる音声信号（第１指向性信号）のスペクトルの例を示す図である。

【図15B】図１５Ｂは、音声処理装置において用いられる音声信号（第２指向性信号）のスペクトルの例を示す図である。

【図15C】図１５Ｃは、音声処理装置において用いられる音声信号Ｃのスペクトルの例を示す図である。

【図15D】図１５Ｄは、音声処理装置の出力信号のスペクトルの例を示す図である。

【図16】図１６は、第５実施形態における音声処理システムの概略構成の一例を示す図である。

【図17】図１７は、第５実施形態における音声処理装置の構成を示すブロック図である。

【図18】図１８は、第５実施形態における音声処理装置の動作手順を示すフローチャートである。

【図19】図１９は、第６実施形態における音声処理システムの概略構成の一例を示す図である。

【図20】図２０は、第６実施形態における音声処理装置の構成を示すブロック図である。

【図21】図２１は、第６実施形態における音声処理装置の動作手順を示すフローチャートである。

【発明を実施するための形態】

【0012】

以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

【0013】

（第１実施形態）
図１は、第１実施形態における音声処理システム５の概略構成の一例を示す図である。音声処理システム５は、例えば車両１０に搭載される。以下、音声処理システム５が車両１０に搭載される例について説明する。車両１０の車室内には、複数の座席が設けられる。複数の座席は、例えば、運転席、助手席、および左右の後部座席の４席である。後部座席における右側の席は、第１位置の一例である。後部座席における左側の席は、第２位置の一例である。座席の数は、これに限られない。音声処理システム５は、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、及び音声処理装置２０を含む。音声処理装置２０の出力は、図示しない音声認識エンジンに入力される。音声認識エンジンによる音声認識結果は、電子機器５０に入力される。

【0014】

マイクＭＣ１は、運転者ｈｍ１が発話する音声を収音する。言い換えると、マイクＭＣ１は、運転者ｈｍ１が発話する音声成分を含む音声信号を取得する。マイクＭＣ１は、例えばオーバーヘッドコンソールの右側に配置される。マイクＭＣ２は、乗員ｈｍ２が発話する音声を収音する。言い換えると、マイクＭＣ２は、乗員ｈｍ２が発話する音声成分を含む音声信号を取得する。マイクＭＣ２は、例えばオーバーヘッドコンソールの右側に配置される。マイクＭＣ３は、乗員ｈｍ３が発話する音声および乗員ｈｍ４が発話する音声を収音する。言い換えると、マイクＭＣ３は、乗員ｈｍ３が発話する音声成分および乗員ｈｍ４が発話する音声成分を含む音声信号を取得する。マイクＭＣ３は、例えば天井の後部座席中央付近に配置される。マイクＭＣ１は、後部座席における右側の席に対して、マイクＭＣ３よりも遠くに位置する。マイクＭＣ２は、後部座席における左側の席に対して、マイクＭＣ３よりも遠くに位置する。

【0015】

マイクＭＣ１、マイクＭＣ２、マイクＭＣ３の配置位置は、説明した例に限られない。例えば、マイクＭＣ１はダッシュボードの右側前面に配置されてもよい。マイクＭＣ２は、ダッシュボードの左側前面に配置されてもよい。

【0016】

各マイクは、指向性マイクであってもよく、無指向性マイクであってもよい。各マイクは、小型のＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）マイクであってもよく、ＥＣＭ（ＥｌｅｃｔｒｅｔＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ）であってもよい。各マイクは、ビームフォーミング可能なマイクであってもよい。例えば、各マイクは、各座席の方向に指向性を有し、指向方法の音声を収音可能なマイクアレイでもよい。

【0017】

本実施形態において、音声処理システム５は、各マイクに対応する複数の音声処理装置２０を備える。具体的には、音声処理システム５は、音声処理装置２１と、音声処理装置２２と、音声処理装置２３と、を備える。音声処理装置２１は、マイクＭＣ１に対応する。音声処理装置２２は、マイクＭＣ２に対応する。音声処理装置２３は、マイクＭＣ３に対応する。以下、音声処理装置２１、音声処理装置２２、および音声処理装置２３を総称して音声処理装置２０と呼ぶことがある。

【0018】

図１に示される構成では、音声処理装置２１、音声処理装置２２、および音声処理装置２３がそれぞれ別のハードウェアで構成されることを例示しているが、１つの音声処理装置２０によって音声処理装置２１、音声処理装置２２、および音声処理装置２３の機能が実現されてもよい。あるいは、音声処理装置２１、音声処理装置２２、および音声処理装置２３、のうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。

【0019】

本実施形態において、各音声処理装置２０は、対応する各マイク付近の各座席内に配置される。例えば、音声処理装置２１は運転席内、音声処理装置２２は助手席内、音声処理装置２３は後部座席内に配置される。各音声処理装置２０は、ダッシュボード内に配置されてもよい。

【0020】

図２は、音声システム５の構成および音声処理装置２１の構成を示すブロック図である。音声システム５は、図２に示すように、音声処理装置２１、音声処理装置２２、および音声処理装置２３の他に、さらに、音声認識エンジン４０と電子機器５０を備えている。音声処理装置２０の出力は、音声認識エンジン４０に入力される。音声認識エンジン４０は、少なくとも１つの音声処理装置２０からの出力信号に含まれる音声を認識し、音声認識結果を出力する。音声認識エンジン４０は、音声認識結果や音声認識結果に基づく信号を生成する。音声認識結果に基づく信号とは、例えば電子機器５０の操作信号である。音声認識エンジン４０による音声認識結果は、電子機器５０に入力される。音声認識エンジン４０は、音声処理装置２０と別体の装置であってもよい。音声認識エンジン４０は、例えばダッシュボードの内部に配置される。音声認識エンジン４０は、座席の内部に収容されて配置されてもよい。あるいは、音声認識エンジン４０は、音声処理装置２０に組み込まれた一体型の装置であってもよい。

【0021】

電子機器５０には、音声認識エンジン４０から出力される信号が入力される。電子機器５０は、例えば、操作信号に対応する動作を行う。電子機器５０は、例えば車両１０のダッシュボードに配置される。電子機器５０は、例えばカーナビゲーション装置である。電子機器５０は、パネルメータ、テレビ、あるいは携帯端末であってもよい。

【0022】

図１では、車両に４人が乗車している場合を示したが、乗車する人数はこれに限られない。乗車人数は、車両の最大乗車定員以下であればよい。例えば、車両の最大乗車定員が６人である場合、乗車人数は６人であってもよく、５人以下であってもよい。

【0023】

音声処理装置２１、音声処理装置２２、および音声処理装置２３は、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置２１について説明する。音声処理装置２１は、運転者ｈｍ１が発話する音声をターゲット成分とする。ここで、ターゲット成分とする、とは、取得目的の音声信号とする、と同義である。音声処理装置２１は、マイクＭＣ１で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。ここで、クロストーク成分とは、ターゲット成分とされた音声を発話する乗員以外の乗員の音声を含むノイズ成分である。

【0024】

音声処理装置２１は、図２に示すように、音声入力部２９と、指向性制御部３０と、複数の適応フィルタを含むフィルタ部Ｆ１と、複数の適応フィルタのフィルタ係数を制御する制御部２８と、加算部２７と、を備える。

【0025】

マイクＭＣ１、マイクＭＣ２、およびマイクＭＣ３は、それぞれ、音声を収音し、収音された音声の音声信号に基づく信号を音声入力部２９に出力する。音声入力部２９には、マイクＭＣ１、マイクＭＣ２、およびマイクＭＣ３で収音された音声の音声信号が入力される。

【0026】

マイクＭＣ１は、音声信号Ａを音声入力部２９に出力する。音声信号Ａは、運転者ｈｍ１の音声と、運転者ｈｍ１以外の乗員の音声を含むノイズと、を含む信号である。ここで、音声処理装置２１においては、運転者ｈｍ１の音声はターゲット成分であり、運転者ｈｍ１以外の乗員の音声を含むノイズは、クロストーク成分である。マイクＭＣ１は、第２マイクに相当する。マイクＭＣ１で収音された音声は、第２音声信号に相当する。運転者ｈｍ１以外の乗員の音声は、乗員ｈｍ３による音声と、乗員ｈｍ４による音声と、の少なくとも一方を含む。音声信号Ａは、第２信号に相当する。

【0027】

マイクＭＣ２は、音声信号Ｂを音声入力部２９に出力する。音声信号Ｂは、乗員ｈｍ２の音声と、乗員ｈｍ２以外の乗員の音声を含むノイズと、を含む信号である。マイクＭＣ２は、第３マイクに相当する。マイクＭＣ２で収音された音声は、第３音声信号に相当する。乗員ｈｍ２以外の乗員の音声は、乗員ｈｍ３による音声と、乗員ｈｍ４による音声と、の少なくとも一方を含む。音声信号Ｂは、第３信号に相当する。

【0028】

マイクＭＣ３は、音声信号Ｃを音声入力部２９に出力する。音声信号Ｃは、乗員ｈｍ３の音声と、乗員ｈｍ４の音声と、乗員ｈｍ３および乗員ｈｍ４以外の乗員の音声を含むノイズと、を含む信号である。マイクＭＣ３は、第１マイクに相当する。マイクＭＣ３で収音された音声は、第１音声信号に相当する。乗員ｈｍ３による音声は第１音声成分に相当し、乗員ｈｍ４による音声は第２音声成分に相当する。音声信号Ｃは、第１信号に相当する。

【0029】

音声入力部２９は、音声信号Ａ、音声信号Ｂ、および音声信号Ｃを出力する。音声入力部２９は受信部に相当する。

【0030】

本実施形態では、音声処理装置２１は、すべてのマイクからの音声信号が入力される１つの音声入力部２９を備えているが、対応する音声信号が入力される音声入力部２９をマイクごとに備えていてもよい。例えば、マイクＭＣ１で収音された音声の音声信号がマイクＭＣ１に対応する音声入力部に入力され、マイクＭＣ２で収音された音声の音声信号がマイクＭＣ２に対応する別の音声入力部に入力され、マイクＭＣ３で収音された音声の音声信号がマイクＭＣ３に対応する別の音声入力部に入力されるような構成であってもよい。

【0031】

指向性制御部３０には、音声入力部２９から出力された音声信号Ａ、音声信号Ｂ、および音声信号Ｃが入力される。指向性制御部３０は、音声信号Ａおよび音声信号Ｂを使用して指向性制御処理を行う。指向性制御処理とは、例えば、音声信号に基づいて、目的方向の音をより多く含む音声信号を生成する処理である。指向性制御処理とは、例えばビームフォーミングである。そして、指向性制御部３０は、音声信号Ａに対して指向性制御処理を行って得られた第１指向性信号を出力する。指向性制御部３０は、例えば、音声信号Ａに対して、マイクＭＣ１から運転席に向かう方向の音をより多く含むように指向性制御処理を行うことにより、第１指向性信号を得る。また、指向性制御部３０は、音声信号Ｂに対して指向性制御処理を行って得られた第２指向性信号を出力する。指向性制御部３０は、例えば、音声信号Ｂに対して、マイクＭＣ２から助手席に向かう方向の音をより多く含むように指向性制御処理を行うことにより、第２指向性信号を得る。

【0032】

また、指向性制御部３０は、判定部３５を含む。判定部３５は、マイクＭＣ３に音声成分が入力されたかを判定する。例えば、判定部３５は、音声信号Ｃの強度が、第１指向性信号の強度および第２指向性信号の強度の少なくとも一方よりも大きい場合に、マイクＭＣ３に音声信号が入力されたと判定し、そうでない場合に、マイクＭＣ３に音声信号が入力されなかったと判定する。

【0033】

また、判定部３５は、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。本実施形態において、判定部３５は、第１指向性信号と第２指向性信号とに基づいて、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。言い換えると、判定部３５は、音声信号Ａと音声信号Ｂとに基づいて、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。例えば、乗員ｈｍ３が発話を行い、乗員ｈｍ４が発話を行っていない場合、音声信号Ｃには、乗員ｈｍ３による音声が含まれ、乗員ｈｍ４による音声は含まれない。しかし、音声信号Ｃだけでは、乗員ｈｍ３による音声と、乗員ｈｍ４による音声の、どちらが含まれているのかを判断することは難しい。そこで判定部３５は、以下の方法で、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。ここで、「音声信号Ｃが乗員ｈｍ３による音声を多く含む」とは、音声信号Ｃが乗員ｈｍ３による音声を含み、乗員ｈｍ４による音声を含まない場合も含む。例えば、判定部３５は、第１指向性信号と第２指向性信号との強度を比較する。そして、第１指向性信号の強度が第２指向性信号の強度よりも大きければ、音声信号Ｃが乗員ｈｍ３による音声を多く含むと判定部３５は判定する。あるいは、第２指向性信号の強度が第１指向性信号の強度よりも大きければ、音声信号Ｃが乗員ｈｍ４による音声を多く含むと判定部３５は判定する。判定部３５は、音声信号Ｃが最大となるタイミングにおける第１指向性信号の強度および第２指向性信号の強度から、音声信号Ｃがいずれの音声を多く含むかの判定を行ってもよい。信号の強度は、信号の大きさあるいは信号のレベルと呼ばれることもある。

【0034】

本実施形態において、マイクＭＣ３に音声成分が入力されたかの判定、および、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を、指向性制御部３０に含まれる判定部３５が行っているが、音声処理装置２１が指向性制御部３０とは別に、判定部３５を備えてもよい。その場合、判定部３５は、例えば音声入力部２９と指向性制御部３０の間に接続される。判定部３５は、例えば、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。判定部３５は、ハードウェアによってその機能が実現されてもよい。あるいは、音声処理装置２１は判定部３５のみを備え、指向性制御部３０を備えなくてもよい。例えば、判定部３５は、音声信号Ｃの強度が、音声信号Ａの強度および音声信号Ｂの強度の少なくとも一方よりも大きい場合に、マイクＭＣ３に音声信号が入力されたと判定し、そうでない場合に、マイクＭＣ３に音声信号が入力されなかったと判定してもよい。また、例えば、判定部３５は、音声信号Ａと音声信号Ｂとに基づいて、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行ってもよい。

【0035】

ここで、第１指向性信号と第２指向性信号の強度を比較することで、いずれの乗員による音声が音声信号Ｃにより多く含まれるかを判定できる理由について説明する。後部座席の右側の席で発せられた乗員ｈｍ３による音声は、前方に向かって進むため、マイクＭＣ１およびマイクＭＣ２にも収音される。後部座席の右側の席とマイクＭＣ１との間の距離と、後部座席の右側の席とマイクＭＣ２との間の距離とでは、後者の方が大きい。したがって、乗員ｈｍ３による音声は、マイクＭＣ２に収音されるまでにより減衰する。また、指向性制御部３０が音声信号Ａに対して指向性制御処理を行う際、例えば、マイクＭＣ１から運転席に向かう方向の音をより多く含むような処理が行われる。マイクＭＣ１に対する乗員ｈｍ３による音声の到来方向は、マイクＭＣ１に対する乗員ｈｍ４による音声の到来方向よりも、マイクＭＣ１から運転席に向かう方向に近い。よって、乗員ｈｍ３による発話があった場合、第１指向性信号の方が第２指向性信号よりも強度が大きくなる。

【0036】

乗員ｈｍ４による音声についても同様のことが言える。すなわち、後部座席の左側の席とマイクＭＣ１との間の距離の方が、後部座席の左側の席とマイクＭＣ２との間の距離より大きいため、乗員ｈｍ４による音声は、マイクＭＣ１に収音されるまでにより減衰する。マイクＭＣ２に対する乗員ｈｍ４による音声の到来方向は、マイクＭＣ２に対する乗員ｈｍ３による音声の到来方向よりも、マイクＭＣ２から助手席に向かう方向に近い。よって、乗員ｈｍ４による発話があった場合、第２指向性信号の方が第１指向性信号よりも強度が大きくなる。

【0037】

図３および図４を用いて、いずれの乗員による音声が音声信号Ｃにより多く含まれるかの判定について具体的に説明する。図３Ａ、図３Ｂおよび図３Ｃは、それぞれ、指向性制御部３０から出力される音声信号Ｃ、第１指向性信号、および第２指向性信号の時間波形である。縦軸が時間、横軸が振幅を示している。図３Ａに示される時間波形のうち、２つのピークを破線で囲って示す。また、図３Ａにおいて破線で囲って示されたピークとほぼ同じ位置を、図３Ｂおよび図３Ｃにおいても破線で囲って示す。破線で囲まれた部分を比較することにより、図３Ａで現れているピークと同様の位置に図３Ｂおよび図３Ｃにおいてもピークが現れていること、および、図３Ｃにおいて現れているピークの方が図３Ｂにおいて現れているピークよりも大きいことがわかる。したがって、音声信号Ｃに由来する成分が、第１指向性信号よりも第２指向性信号に多く含まれることが見て取れる。

【0038】

図３Ｂおよび図３Ｃに示される時間波形の周波数スペクトルを平均化したものが図４である。図４において、実線が第１指向性信号の強度の周波数スペクトルを示し、破線が第２指向性信号の強度の周波数スペクトルを示す。図４に示す例において、所定の時間範囲における強度の２乗平均平方根の値を算出すると、第２指向性信号の方が第１指向性信号よりも３．５ｄＢほど大きい。この例では、音声信号Ｃには乗員ｈｍ４による音声が多く含まれると判断される。

【0039】

音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定方法は、上述したものに限られない。例えば、車両１０が各座席に乗員が存在しているかどうかに関する着席情報を有しており、判定部３５が車両１０から受信した着席情報に基づいて判定を行ってもよい。例えば、後部座席の右側の席に乗員が存在しており、後部座席の左側の席に乗員が存在していないという着席情報を車両５から受信した場合、判定部３５は、音声信号Ｃは乗員ｈｍ３による音声を多く含むと判定してよい。

【0040】

あるいは、車両１０が各乗員を撮影するカメラと、カメラによって撮影された画像を分析する画像分析部を備えており、画像分析部による画像分析結果に基づいて判定部３５が判定を行ってもよい。例えば、画像において乗員ｈｍ３の口が開いており、乗員ｈｍ４の口が閉じているという画像分析結果を画像分析部から受信した場合、判定部３５は、音声信号Ｃは乗員ｈｍ３による音声を多く含むと判定してよい。

【0041】

あるいは、判定部３５は、直前の判定結果から判定を行ってもよい。例えば、音声信号Ｃが乗員ｈｍ３による音声を多く含むと判定した場合、音声信号Ｃの強度が一定以下になるまでは、音声信号Ｃが乗員ｈｍ３による音声を多く含むと判定し続けてよい。発話が連続している場合は、同じ乗員による発話が続いている可能性が高いためである。

【0042】

判定部３５は、マイクＭＣ３に音声成分が入力されたかの判定の結果、および、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定の結果を制御部２８に出力する。判定部３５は、判定の結果を例えばフラグとして制御部２８に出力する。フラグは、「０」あるいは「１」の値を示す。「０」は、マイクＭＣ３に音声成分が入力されなかったことを示し、「１」は、マイクＭＣ３に音声成分が入力されたことを示す。あるいは、「０」は、音声信号Ｃが乗員ｈｍ３による音声を多く含むことを示し、「１」は、音声信号Ｃが乗員ｈｍ４による音声を多く含むことを示す。例えば、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合、判定部３５は、フラグ「１、０」を判定結果として制御部２８に出力する。この例における２つのフラグのうち、１つ目はマイクＭＣ３に音声成分が入力されたかの判定の結果を示し、２つ目は音声信号がいずれの乗員による音声を多く含むかの判定の結果を示す。判定部３５は、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合と、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合と、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声を同程度含む場合と、を判定可能であってもよい。判定部３５は、マイクＭＣ３に音声成分が入力されたかの判定の結果と、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定の結果を、同時に出力してもよい。あるいは、判定部３５は、マイクＭＣ３に音声成分が入力されたかの判定が完了した時点で、音声成分の入力の有無の判定の結果を出力し、次に、音声信号がいずれの乗員による音声を多く含むかの判定が完了した時点で、音声信号がいずれの乗員による音声を多く含むかの判定の結果を出力してもよい。

【0043】

また、指向性制御部３０は、第１指向性信号を加算部２７に、第２指向性信号と、音声信号Ｃと、をフィルタ部Ｆ１に出力する。

【0044】

フィルタ部Ｆ１は、適応フィルタＦ１Ａ、適応フィルタＦ１Ｂおよび適応フィルタＦ１Ｃを含む。適応フィルタとは、信号処理の過程において特性を変化させる機能を備えたフィルタである。フィルタ部Ｆ１は、マイクＭＣ１で収音される音声に含まれる、運転者ｈｍ１の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部Ｆ１は３つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。

【0045】

適応フィルタＦ１Ａには、参照信号として第２指向性信号が入力される。適応フィルタＦ１Ａは、フィルタ係数Ｃ１Ａおよび第２指向性信号に基づいた通過信号Ｐ１Ａを出力する。音声信号Ｃが乗員ｈｍ３による音声を多く含むと判定されたとき、適応フィルタＦ１Ｂに、参照信号として音声信号Ｃが入力される。適応フィルタＦ１Ｂは、フィルタ係数Ｃ１Ｂおよび音声信号Ｃに基づいた通過信号Ｐ１Ｂを出力する。一方、音声信号Ｃが乗員ｈｍ４による音声を多く含むと判定されたとき、適応フィルタＦ１Ｃに、参照信号として音声信号Ｃが入力される。判定部３５が、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合と、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合と、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声を同程度含む場合と、を判定可能である場合、フィルタ部Ｆ１は、適応フィルタＦ１Ｄを含んでもよい。音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声を同程度含むと判定されたとき、適応フィルタＦ１Ｄに、参照信号として音声信号Ｃが入力される。適応フィルタＦ１Ｃは、フィルタ係数Ｃ１Ｃおよび音声信号Ｃに基づいた通過信号Ｐ１Ｃを出力する。フィルタ部Ｆ１は、通過信号Ｐ１Ａと、通過信号Ｐ１Ｂあるいは通過信号Ｐ１Ｃと、を足し合わせて出力する。フィルタ部Ｆ１が適応フィルタＦ１Ｄを含む場合、適応フィルタＦ１Ｄは、フィルタ係数Ｃ１Ｄおよび音声信号Ｃに基づいた通過信号Ｐ１Ｄを出力する。フィルタ部Ｆ１は、通過信号Ｐ１Ａと、通過信号Ｐ１Ｂ、通過信号Ｐ１Ｃ、および通過信号Ｐ１Ｄのいずれかと、を足し合わせて出力する。本実施形態においては、適応フィルタＦ１Ａ、適応フィルタＦ１Ｂおよび適応フィルタＦ１Ｃは、プロセッサがプログラムを実行することにより実現される。適応フィルタＦ１Ａ、適応フィルタＦ１Ｂおよび適応フィルタＦ１Ｃは、物理的に分離された、別々のハードウェア構成であってもよい。

【0046】

ここで、適応フィルタの動作の概略を説明する。適応フィルタは、クロストーク成分の抑圧に用いられるフィルタである。例えば、フィルタ係数の更新アルゴリズムとしてＬＭＳ（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ）を用いる場合、適応フィルタは、誤差信号の自乗平均で定義されるコスト関数を最小にするフィルタである。ここでいう誤差信号とは、出力信号とターゲット成分との差である。

【0047】

ここでは、適応フィルタとしてＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを例示する。他の種類の適応フィルタを用いてもよい。例えば、ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いてもよい。

【0048】

音声処理装置２１の出力信号とターゲット成分との差である誤差信号は、音声処理装置２１が適応フィルタとして１つのＦＩＲフィルタを用いる場合、以下の式（１）で示される。

【0049】

【数1】

【0050】

ここで、ｎは時刻であり、ｅ（ｎ）は誤差信号であり、ｄ（ｎ）はターゲット成分であり、ｗｉはフィルタ係数であり、ｘ（ｎ）は参照信号であり、ｌはタップ長である。タップ長ｌが大きいほど、適応フィルタが音声信号の音響特性を忠実に再現できる。残響が存在しない場合、タップ長ｌは１としてよい。例えば、タップ長ｌは一定の値に設定される。例えば、ターゲット成分が運転者ｈｍ１の音声である場合、参照信号ｘ（ｎ）は第２指向性信号および音声信号Ｃである。

【0051】

制御部２８は、判定部３５の判定の結果に基づき、適応フィルタのフィルタ係数を制御する。本実施形態において制御部２８は、判定部３５から出力された判断結果としてのフラグに基づき、音声信号Ｃを、適応フィルタＦＢと適応フィルタＦＣのいずれに入力するかを決定する。適応フィルタＦＢのフィルタ係数ＣＢは、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合に、誤差信号が最小になるように更新される。一方、適応フィルタＦＣのフィルタ係数ＣＣは、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合に、誤差信号が最小になるように更新される。したがって、音声信号Ｃがいずれの音声を多く含むかによって、各適応フィルタを使い分けることにより、誤差信号をより小さくできる可能性がある。

【0052】

例えば、判定部３５からフラグ「０」を受信した場合、制御部２８は、音声信号Ｃは乗員ｈｍ３による音声を多く含むと判定する。そして制御部２８は、適応フィルタＦＢに音声信号Ｃが入力されるよう、フィルタ部Ｆ１を制御する。

【0053】

加算部２７は、音声入力部２９から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部Ｆ１から出力される、通過信号ＰＡと、通過信号ＰＢあるいは通過信号ＰＣと、を足し合わせた信号である。加算部２７は、出力信号を制御部２８に出力する。

【0054】

制御部２８は、加算部２７から出力される出力信号を出力する。制御部２８の出力信号は、音声認識エンジン４０に入力される。あるいは、制御部２８から、電子機器５０に出力信号が直接入力されてもよい。制御部２８から電子機器５０に出力信号が直接入力される場合、制御部２８と電子機器５０とは、有線で接続されていてもよく、無線で接続されていてもよい。例えば、電子機器５０が携帯端末であり、制御部２８から、無線通信網を介して、携帯端末に出力信号が直接入力されてもよい。携帯端末へ入力された出力信号は、携帯端末の有するスピーカから音声として出力されてもよい。

【0055】

また、制御部２８は、加算部２７から出力される出力信号と、判定部３５から出力された判断結果としてのフラグを参照して、各適応フィルタのフィルタ係数を更新する。

【0056】

まず、制御部２８は、判断結果に基づき、フィルタ係数の更新対象とする適応フィルタを決定する。具体的には、制御部２８は、適応フィルタＦ１Ａと、適応フィルタＦ１Ｂおよび適応フィルタＦ１Ｃのうち、音声信号Ｃが入力される適応フィルタをフィルタ係数の更新対象とする。また、制御部２８は、適応フィルタＦ１Ｂおよび適応フィルタＦ１Ｃのうち、音声信号Ｃが入力されなかった適応フィルタをフィルタ係数の更新対象としない。例えば、判定部３５からフラグ「０」を受信した場合、制御部２８は、音声信号Ｃは乗員ｈｍ３による音声を多く含むと判定する。言い換えると、制御部２８は、音声信号Ｃを適応フィルタＦ１Ｂに入力すると判定する。そして、制御部２８は、適応フィルタＦＢをフィルタ係数の更新対象とし、適応フィルタＦ１Ｃをフィルタ係数の更新対象としない。

【0057】

そして、制御部２８は、フィルタ係数の更新対象とした適応フィルタについて、式（１）における誤差信号の値が０に近づくように、フィルタ係数を更新する。

【0058】

更新アルゴリズムとしてＬＭＳを用いる場合の、フィルタ係数の更新について説明する。時刻ｎにおけるフィルタ係数ｗ（ｎ）を更新し、時刻ｎ＋１におけるフィルタ係数ｗ（ｎ＋１）とする場合、ｗ（ｎ＋１）とｗ（ｎ）との関係は、以下の式（２）で示される。

【0059】

【数2】

【0060】

ここで、αはフィルタ係数の補正係数である。項αx(n)e(n)は、更新量に相当する。

【0061】

なお、フィルタ係数の更新時のアルゴリズムは、ＬＭＳに限られず、他のアルゴリズムを用いてもよい。例えば、ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）、ＮＬＭＳ（ＮｏｒｍａｌｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅ）といったアルゴリズムを用いてもよい。

【0062】

フィルタ係数の更新の際、制御部２８は、フィルタ係数の更新対象としなかった適応フィルタについて、入力される参照信号の強度をゼロに設定する。例えば、判定部３５からフラグ「０」を受信した場合、制御部２８は、適応フィルタＦ１Ａに参照信号として入力される第２指向性信号、および適応フィルタＦ１Ｂに参照信号として入力される音声信号Ｃは、指向性制御部３０から出力された強度のまま入力されるように設定する。一方、制御部２８は、適応フィルタＦ１Ｃに参照信号として入力される音声信号Ｃの強度をゼロに設定する。ここで、「適応フィルタに入力される参照信号の強度をゼロに設定する」とは、適応フィルタに入力される参照信号の強度をゼロ付近に抑圧することを含む。また、「適応フィルタに入力される参照信号の強度をゼロに設定する」とは、適応フィルタに参照信号を入力しないように設定することをも含む。入力される参照信号の強度がゼロに設定された適応フィルタにおいて、適応フィルタリングが行われなくてもよい。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。

【0063】

そして、制御部２８は、フィルタ係数の更新対象とされた適応フィルタについてのみフィルタ係数を更新し、フィルタ係数の更新対象とされなかった適応フィルタについてはフィルタ係数を更新しない。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。

【0064】

例えば、ターゲット席を運転席とした場合、かつ、運転者ｈｍ１、乗員ｈｍ２、および乗員ｈｍ４による発話がなく、乗員ｈｍ３による発話がある場合を考える。このとき、マイクＭＣ１で収音される音声の音声信号に、運転者ｈｍ１以外の乗員による発話が漏れこむ。言い換えると、音声信号Ａにクロストーク成分が含まれることになる。音声処理装置２１は、クロストーク成分をキャンセルし、誤差信号を最小化するように適応フィルタを更新してよい。この場合、運転席で発話がないので、誤差信号は、理想的には無音信号となる。また、上記の場合で運転者ｈｍ１による発話があった場合、運転者ｈｍ１による発話はマイクＭＣ１以外のマイクに漏れこむことになる。この場合も、音声処理装置２１による処理によっては、運転者ｈｍ１による発話はキャンセルされない。音声信号Ａに含まれる運転者ｈｍ１による発話は、他の音声信号に含まれる、運転者ｈｍ１による発話よりも時間的に早いためである。これは因果律による。したがって、音声処理装置２１は、ターゲット成分の音声信号が含まれるか、含まれないかに関わらず、誤差信号を最小化するように適応フィルタを更新することで、音声信号Ａに含まれるクロストーク成分を低減できる。

【0065】

本実施形態において、音声入力部２９と、指向性制御部３０と、フィルタ部Ｆ１と、制御部２８と、加算部２７と、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部２９、指向性制御部３０、フィルタ部Ｆ１、制御部２８、および加算部２７が、別々のハードウェアで構成されていてもよい。

【0066】

音声処理装置２１について説明したが、音声処理装置２２、音声処理装置２３、および音声処理装置２４についてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置２２は、乗員ｈｍ２が発話する音声をターゲット成分とする。音声処理装置２２は、マイクＭＣ２で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２２は、第１指向性信号および音声信号Ｃが入力されるフィルタ部を有する点で音声処理装置２１と異なる。同様に、音声処理装置２３は、乗員ｈｍ３、あるいはｈｍ４が発話する音声をターゲット成分とする。音声処理装置２３は、マイクＭＣ３で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２３は、音声信号Ａ、音声信号Ｂ、および音声信号Ｃが入力されるフィルタ部を有する点で音声処理装置２１と異なる。

【0067】

図５は、音声処理装置２１の動作手順を示すフローチャートである。まず、音声入力部２９に、音声信号Ａ、音声信号Ｂ、および音声信号Ｃが入力される（Ｓ１）。次に、指向性制御部３０が、音声信号Ａおよび音声信号Ｂを使用した指向性制御処理を行い、第１指向性信号と第２指向性信号を生成する（Ｓ２）。そして、判定部３５が、マイクＭＣ３に音声成分が入力されたかを判定する（Ｓ３）。判定部３５は、判定結果をフラグとして制御部２８に出力する。マイクＭＣ３に音声信号が入力されなかったと判定部３５が判定した場合（Ｓ３：Ｎｏ）、制御部２８は、フィルタ部Ｆ１に入力される音声信号Ｃの強度をゼロにし、第２指向性信号の強度は変更しない。そして、フィルタ部Ｆ１は、以下のように減算信号を生成する（Ｓ４）。適応フィルタＦ１Ａは、第２指向性信号を通過させ、通過信号Ｐ１Ａを出力する。適応フィルタＦ１Ｂは、音声信号Ｃを通過させ、通過信号Ｐ１Ｂを出力する。適応フィルタＦ１Ｃは、音声信号Ｃを通過させ、通過信号Ｐ１Ｃを出力する。フィルタ部Ｆ１は、通過信号Ｐ１Ａ、通過信号Ｐ１Ｂおよび通過信号Ｐ１Ｃを足し合わせて、減算信号として出力する。加算部２７は、第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ５）。出力信号は、制御部２８に入力され、制御部２８から出力される。次に、制御部２８は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ１Ａのフィルタ係数を更新する（Ｓ６）。そして、音声処理装置２１は再び工程Ｓ１を行う。

【0068】

判定部３５が、マイクＭＣ３に音声信号が入力されたと判定した場合（Ｓ３：Ｙｅｓ）、判定部３５は、マイクＭＣ３に入力された音声成分が乗員ｈｍ３と乗員ｈｍ４のいずれによるものかを判定する（Ｓ７）。言い換えると、判定部３５は、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかを判定する。判定部３５は、この判定結果をフラグとして制御部２８に出力する。音声信号Ｃが乗員ｈｍ３による音声を多く含む場合（Ｓ７：ｈｍ３）、フィルタ部Ｆ１は、以下のように減算信号を生成する（Ｓ８）。制御部２８は、音声信号Ｃが適応フィルタＦ１Ｂに入力されるようにフィルタ部Ｆ１を制御する。一方、制御部２８は、音声信号Ｃの強度がゼロの状態で適応フィルタＦ１Ｃに入力されるようにフィルタ部Ｆ１を制御する。言い換えると、制御部２８は、適応フィルタＦ１Ａに入力される第２指向性信号および適応フィルタＦ１Ｂに入力される音声信号Ｃの強度は変更せず、適応フィルタＦ１Ｃに入力される音声信号Ｃの強度をゼロに変更する。そして、フィルタ部Ｆ１は、工程Ｓ４と同様の動作によって減算信号を生成する。加算部２７は、工程Ｓ５と同様に第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ９）。次に、制御部２８は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ１０）。具体的には、適応フィルタＦ１Ａおよび適応フィルタＦ１Ｂのフィルタ係数を更新する。そして、音声処理装置２１は再び工程Ｓ１を行う。

【0069】

工程Ｓ７において、音声信号Ｃが乗員ｈｍ４による音声を多く含むと判定された場合（Ｓ７：ｈｍ４）、フィルタ部Ｆ１は、以下のように減算信号を生成する（Ｓ１１）。制御部２８は、音声信号Ｃが適応フィルタＦ１Ｃに入力されるようにフィルタ部Ｆ１を制御する。一方、制御部２８は、音声信号Ｃの強度がゼロの状態で適応フィルタＦ１Ｂに入力されるようにフィルタ部Ｆ１を制御する。言い換えると、制御部２８は、適応フィルタＦ１Ａに入力される第２指向性信号および適応フィルタＦ１Ｃに入力される音声信号Ｃの強度は変更せず、適応フィルタＦ１Ｂに入力される音声信号Ｃの強度をゼロに変更する。そして、フィルタ部Ｆ１は、工程Ｓ４と同様の動作によって減算信号を生成する。加算部２７は、工程Ｓ５と同様に第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ９）。次に、制御部２８は、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ１０）。具体的には、適応フィルタＦ１Ａおよび適応フィルタＦ１Ｃのフィルタ係数を更新する。そして、音声処理装置２１は再び工程Ｓ１を行う。

【0070】

本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部２８の処理量を低減することができる。一方で、制御部２８がすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部２８が常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。

【0071】

このように、第１実施形態における音声処理システム５では、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第１実施形態においては、発生する位置が異なる複数の音声を、１つのマイクによって収音できるように構成されている。具体的には、後部座席の乗員ｈｍ３の音声および乗員ｈｍ４の音声を、マイクＭＣ３で収音している。その上で、収音した音声に基づく音声信号が複数の音声のうちいずれを含むかを判定し、どちらの音声が含まれるかによって、音声信号が入力される適応フィルタを変更している。これにより、複数の音声が１つのマイクによって収音されるような場合でも、ターゲット成分の音声信号を精度よく求めることができる。そのため、マイクを例えば座席ごとに１つずつ設けなくともよいので、コストを低減することができる。また、適応フィルタを用いてターゲット成分を求める際に、すべての席に設けられたマイクから出力される信号を参照信号として用いる場合と比較して、処理に用いる参照信号の数を減らすことができる。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。

【0072】

（第２実施形態）
第２実施形態に係る音声処理システム５Ａは、音声処理装置２０に代えて音声処理装置２０Ａを備える点、およびマイクＭＣ４を備える点で第１実施形態に係る音声処理システム５と異なる。第２実施形態に係る音声処理装置２０Ａは、異常検知部を有する点および音声信号Ｄを用いる点で第１実施形態に係る音声処理装置２０と異なる。

【0073】

第２実施形態に係る音声処理装置２０Ａは、それぞれのマイクにおける異常の有無を検知し、異常が検知されなかったマイクから出力される音声信号を用いて、指向性制御処理およびクロストーク成分をキャンセルする処理を行う。以下、図６、図７、および図８を用いて音声処理装置２０Ａについて説明する。第１実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。

【0074】

図６を用いて、第２実施形態における音声処理システム５Ａの詳細を説明する。図６は、第２実施形態における音声処理システム５Ａの概略構成の一例を示す図である。音声処理システム５は、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、マイクＭＣ４、及び音声処理装置２０Ａを含む。本実施形態においてマイクＭＣ３は、乗員ｈｍ３が発話する音声を収音する。言い換えると、マイクＭＣ３は、乗員ｈｍ３が発話する音声成分を含む音声信号を取得する。マイクＭＣ３は、例えば天井の後部座席中央付近の右側に配置される。本実施形態においてマイクＭＣ４は、乗員ｈｍ４が発話する音声を収音する。言い換えると、マイクＭＣ４は、乗員ｈｍ４が発話する音声成分を含む音声信号を取得する。マイクＭＣ４は、例えば天井の後部座席中央付近の左側に配置される。マイクＭＣ１は、後部座席における右側の席に対して、マイクＭＣ３よりも遠くに位置する。マイクＭＣ２は、後部座席における左側の席に対して、マイクＭＣ４よりも遠くに位置する。マイクＭＣ４は、後部座席における左側の席に対して、マイクＭＣ３よりも近くに位置する。

【0075】

本実施形態において、音声処理システム５Ａは、各マイクに対応する複数の音声処理装置２０Ａを備える。具体的には、音声処理システム５Ａは、音声処理装置２１Ａと、音声処理装置２２Ａと、音声処理装置２３Ａと、音声処理装置２４Ａとを備える。音声処理装置２１Ａは、マイクＭＣ１に対応する。音声処理装置２２Ａは、マイクＭＣ２に対応する。音声処理装置２３Ａは、マイクＭＣ３に対応する。音声処理装置２４Ａは、マイクＭＣ４に対応する。以下、音声処理装置２１Ａ、音声処理装置２２Ａ、音声処理装置２３Ａおよび音声処理装置２４Ａをまとめて音声処理装置２０Ａと呼ぶことがある。

【0076】

図６に示される構成では、音声処理装置２１Ａ、音声処理装置２２Ａ、音声処理装置２３Ａ、および音声処理装置２４Ａがそれぞれ別のハードウェアで構成されることを例示しているが、１つの音声処理装置２０Ａによって音声処理装置２１Ａ、音声処理装置２２Ａ、音声処理装置２３Ａ、および音声処理装置２４Ａの機能が実現されてもよい。あるいは、音声処理装置２１Ａ、音声処理装置２２Ａ、音声処理装置２３Ａ、および音声処理装置２４Ａのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。

【0077】

本実施形態において、各音声処理装置２０Ａは、対応する各マイク付近の各座席内に配置される。例えば、音声処理装置２１Ａは運転席内、音声処理装置２２Ａは助手席内、音声処理装置２３Ａは後部座席の右側の席内、音声処理装置２４Ａは後部座席の左側の席内に配置される。各音声処理装置２０Ａは、ダッシュボード内に配置されてもよい。

【0078】

図７は、音声処理装置２１Ａの構成を示すブロック図である。音声処理装置２１Ａ、音声処理装置２２Ａ、音声処理装置２３Ａ、および音声処理装置２４Ａは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置２１Ａについて説明する。音声処理装置２１Ａは、運転者ｈｍ１が発話する音声をターゲットとする。音声処理装置２１Ａは、マイクＭＣ１で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。

【0079】

音声処理装置２１Ａは、図７に示すように、音声入力部２９Ａと、異常検知部３１と、指向性制御部３０Ａと、複数の適応フィルタを含むフィルタ部Ｆ２と、フィルタ部Ｆ２の適応フィルタのフィルタ係数を制御する制御部２８Ａと、加算部２７Ａと、を備える。

【0080】

音声入力部２９Ａには、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、およびマイクＭＣ４で収音された音声の音声信号が入力される。言い換えると、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、およびマイクＭＣ４は、それぞれ、収音された音声の音声信号に基づく信号を音声入力部２９に出力する。マイクＭＣ１およびマイクＭＣ２については、第１実施形態と同様であるので詳細な説明を省略する。

【0081】

マイクＭＣ３は、音声信号Ｃを音声入力部２９Ａに出力する。音声信号Ｃは、乗員ｈｍ３の音声と、乗員ｈｍ３以外の乗員の音声を含むノイズと、を含む信号である。マイクＭＣ３は、第１マイクに相当する。また、マイクＭＣ３は、第４マイクに相当する。マイクＭＣ３で収音された音声は、第１音声信号に相当する。また、マイクＭＣ３で収音された音声は、第４音声信号に相当する。乗員ｈｍ３による音声は第１音声成分に相当する。音声信号Ｃは、第１信号に相当する。また、音声信号Ｃは、第４信号に相当する。

【0082】

マイクＭＣ４は、音声信号Ｄを音声入力部２９Ａに出力する。音声信号Ｄは、乗員ｈｍ４の音声と、乗員ｈｍ４以外の乗員の音声を含むノイズと、を含む信号である。マイクＭＣ４は、第１マイクに相当する。また、マイクＭＣ４は、第５マイクに相当する。マイクＭＣ４で収音された音声は、第１音声信号に相当する。また、マイクＭＣ４で収音された音声は、第５音声信号に相当する。乗員ｈｍ４による音声は第２音声成分に相当する。音声信号Ｄは、第１信号に相当する。また、音声信号Ｄは、第５信号に相当する。

【0083】

音声入力部２９Ａは、音声信号Ａ、音声信号Ｂ、音声信号Ｃおよび音声信号Ｄを出力する。音声入力部２９Ａは受信部に相当する。

【0084】

本実施形態では、音声処理装置２１Ａは、すべてのマイクからの音声信号が入力される１つの音声入力部２９Ａを備えているが、対応する音声信号が入力される音声入力部２９Ａをマイクごとに備えていてもよい。例えば、マイクＭＣ１で収音された音声の音声信号がマイクＭＣ１に対応する音声入力部に入力され、マイクＭＣ２で収音された音声の音声信号がマイクＭＣ２に対応する別の音声入力部に入力され、マイクＭＣ３で収音された音声の音声信号がマイクＭＣ３に対応する別の音声入力部に入力され、マイクＭＣ４で収音された音声の音声信号がマイクＭＣ４に対応する別の音声入力部に入力されるような構成であってもよい。

【0085】

異常検知部３１には、音声入力部２９Ａから出力された音声信号Ａ、音声信号Ｂ、音声信号Ｃ、および音声信号Ｄが入力される。異常検知部３１は、マイクＭＣ３およびマイクＭＣ４における異常の有無を検知し、マイクＭＣ３およびマイクＭＣ４の異常に関する異常情報を制御部２８Ａに送信する。ここで、マイクの異常とは、マイクの故障、マイクと他の機器との接続不良、およびマイクのバッテリー切れを含む。マイクと他の機器との接続不良は、マイクと他の機器とを電気的に接続するケーブルの断線を含む。異常検知部３１は、マイクＭＣ１およびマイクＭＣ２における異常の有無を検知可能であってもよいし、マイクＭＣ１およびマイクＭＣ２の異常に関する異常情報を制御部２８Ａに送信してもよい。異常検知部３１は、例えば、各音声信号に基づき、その音声信号に対応するマイクの異常の有無を検知する。異常検知部３１は、例えば、音声信号の強度が閾値よりも小さいときに、その音声信号に対応するマイクに異常があると判定する。異常検知部３１は、音声信号の強度が閾値よりも小さい期間が一定以上の長さであるとき、あるいは、一定期間において、音声信号の強度が閾値よりも小さくなる頻度が一定以上であるときに、その音声信号に対応するマイクに異常があると判定してもよい。異常検知部３１は、各マイクにおける異常の有無の判定結果を、例えばフラグとして制御部２８Ａに出力する。フラグは、異常情報の一例である。フラグは、各音声信号について、「１」あるいは「０」の値を示す。「１」は、対応するマイクに異常があると判定されたことを意味し、「０」は、対応するマイクに異常があると判定されなかったことを示す。例えば、マイクＭＣ１、ＭＣ２、およびＭＣ４に異常がないと判定し、マイクＭＣ３に異常があると判定した場合、異常検知部３１は、フラグ「０、０、１、０」を判定結果として制御部２８に出力する。各マイクの異常の検知の後、異常検知部３１は、音声信号Ａ、音声信号Ｂ、音声信号Ｃ、および音声信号Ｄを指向性制御部３０Ａに出力する。

【0086】

本実施形態では、音声処理装置２１Ａは、すべての音声信号が入力される１つの異常検知部３１を備えているが、対応する音声信号が入力される異常検知部３１を音声信号ごとに備えていてもよい。例えば、音声処理装置２１Ａが、音声信号Ａが入力される異常検知部と、音声信号Ｂが入力される異常検知部と、音声信号Ｃが入力される異常検知部と、音声信号Ｄが入力される異常検知部と、を別々に備える構成であってもよい。

【0087】

指向性制御部３０Ａには、異常検知部３１から出力された音声信号Ａ、音声信号Ｂ、音声信号Ｃ、および音声信号Ｄが入力される。指向性制御部３０は、異常検知部３１によって異常が検知されたマイクと、そのマイクと同じ側にあるマイクと、を除いたマイクから出力された音声信号を使用して指向性制御処理を行う。指向性制御処理とは、例えばビームフォーミングである。ここで、「同じ側にある」とは、前席側にあるか後部座席側にあるかが同じであることを指す。本実施形態においては、マイクＭＣ１とマイクＭＣ２とが同じ側にあり、マイクＭＣ３とマイクＭＣ４とが同じ側にある。例えば、マイクＭＣ３の異常が検知された場合、指向性制御部３０Ａは、音声信号Ａおよび音声信号Ｂを使用して指向性制御処理を行う。そして、指向性制御部３０Ａは、２つの音声信号を使用して指向性制御処理を行うことによって得られた２つの指向性信号を出力する。例えば、指向性制御部３０Ａは、音声信号Ａに対して指向性制御処理を行って得られた第１指向性信号を出力する。また、指向性制御部３０Ａは、音声信号Ｂに対して指向性制御処理を行って得られた第２指向性信号を出力する。例えば、いずれのマイクにおいても異常が検知されなかった場合、指向性制御部３０Ａは、すべての音声信号を使用して指向性制御処理を行い、得られた指向性信号を出力する。例えば、指向性制御部３０Ａは、第１指向性信号と第２指向性信号に加えて、音声信号Ｃに対して指向性制御処理を行って得られた第３指向性信号と、音声信号Ｄに対して指向性制御処理を行って得られた第４指向性信号と、を出力する。例えば、異常検知部３１がマイクＭＣ２の異常を検知可能であり、マイクＭＣ２において異常を検知した場合、指向性制御部３０Ａは、音声信号Ｃに対して指向性制御処理を行って得られた第３指向性信号と、音声信号Ｄに対して指向性制御処理を行って得られた第４指向性信号と、を出力する。

【0088】

また、指向性制御部３０Ａは、異常が検知されたマイクと同じ側にあるマイクに音声成分が入力されたかを判定する。例えば、マイクＭＣ３に異常があると判定された場合、指向性制御部３０Ａは、マイクＭＣ３と同じ側にあるマイクであるマイクＭＣ４から出力された音声信号Ｄの強度が、第１指向性信号の強度および第２指向性信号の強度の少なくとも一方よりも大きい場合に、マイクＭＣ４に音声信号が入力されたと判定し、そうでない場合に、マイクＭＣ４に音声信号が入力されなかったと判定する。

【0089】

また、指向性制御部３０Ａは、判定部３５Ａを含む。判定部３５Ａは、異常が検知されなかったマイクから出力される音声信号に基づいて、異常が検知されたマイクと同じ側にあるマイクから出力される音声信号が、いずれの乗員による音声を多く含むかの判定を行う。そのような判定を行う理由について説明する。例えば、乗員ｈｍ３による音声を含むクロストーク成分は、マイクＭＣ３から出力される音声信号Ｃを用いて、ターゲット成分から除去される。しかし、マイクＭＣ３に異常があると判定された場合、音声信号Ｃにも異常が生じているため、乗員ｈｍ３による音声を含むクロストーク成分を、音声信号Ｃを用いて除去することは難しい。その場合、マイクＭＣ４も乗員ｈｍ３による音声が漏れこんでいるため、マイクＭＣ４から出力される音声信号Ｄを用いて乗員ｈｍ３による音声を含むクロストーク成分を除去することが考えられる。マイクＭＣ４には、乗員ｈｍ３による音声と、乗員ｈｍ４による音声の両方が漏れこむ可能性がある。よって、音声信号Ｄに、乗員ｈｍ３による音声と、乗員ｈｍ４による音声のどちらが多く含まれるかを判定し、それが乗員ｈｍ３による音声を多く含むのであれば、音声信号Ｄを用いて乗員ｈｍ３による音声を含むクロストーク成分を除去することができる。

【0090】

例えば、判定部３５Ａは、マイクＭＣ３に異常があると判定された場合、第１指向性信号と第２指向性信号とに基づいて、音声信号Ｄが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。言い換えると、判定部３５Ａは、音声信号Ａと音声信号Ｂとに基づいて、音声信号Ｃが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。具体的な判定方法は、第１実施形態において説明したものと同様である。

【0091】

判定部３５Ａは、音声信号Ｃあるいは音声信号Ｄが、乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定の結果を制御部２８Ａに出力する。判定部３５Ａは、判定の結果を例えばフラグとして制御部２８Ａに出力する。フラグは、「０」あるいは「１」の値を示す。「０」は、音声信号が乗員ｈｍ３による音声を多く含むことを示し、「１」は、音声信号が乗員ｈｍ４による音声を多く含むことを示す。例えば、マイクＭＣ１、ＭＣ２、およびＭＣ４に異常がないと判定され、マイクＭＣ３に異常があると判定された場合、指向性制御部３０Ａは、音声信号Ｄについての判定結果としてフラグを送信する。例えば、音声信号Ｄが乗員ｈｍ３による音声を多く含むと判定された場合、指向性制御部３０Ａは、フラグ「０」を判定結果として制御部２８Ａに出力する。

【0092】

例えば、マイクＭＣ３の異常が検知された場合、指向性制御部３０Ａは、第１指向性信号を加算部２７Ａに、第２指向性信号、音声信号Ｃ、および音声信号Ｄをフィルタ部Ｆ２に出力する。

【0093】

本実施形態において、異常が検知されたマイクと同じ側にあるマイクに音声成分が入力されたかの判定、および、異常が検知されたマイクと同じ側にあるマイクから出力される音声信号が、いずれの乗員による音声を多く含むかの判定を、指向性制御部３０Ａに含まれる判定部３５Ａが行っているが、音声処理装置２１Ａが指向性制御部３０Ａとは別に、判定部３５Ａを備えてもよい。その場合、判定部３５Ａは、例えば異常検知部３１と指向性制御部３０Ａの間に接続される。あるいは、音声処理装置２１Ａは判定部３５Ａのみを備え、指向性制御部３０Ａを備えなくてもよい。判定部３５Ａの構成および機能は、第１実施形態で説明したものと同様であるので詳細な説明を省略する。

【0094】

フィルタ部Ｆ２は、適応フィルタＦ２Ａ、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅを含む。フィルタ部Ｆ２は、マイクＭＣ１で収音される音声に含まれる、運転者ｈｍ１の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部Ｆ２は５つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。

【0095】

適応フィルタＦ２Ａには、参照信号として第２指向性信号が入力される。適応フィルタＦ２Ａは、フィルタ係数Ｃ２Ａおよび第２指向性信号に基づいた通過信号Ｐ２Ａを出力する。マイクＭＣ４に異常があると判定され、かつ音声信号Ｃが乗員ｈｍ３による音声を多く含むと判定されたとき、適応フィルタＦ２Ｂに、参照信号として音声信号Ｃが入力される。適応フィルタＦ２Ｂは、フィルタ係数Ｃ２Ｂおよび音声信号Ｃに基づいた通過信号Ｐ２Ｂを出力する。マイクＭＣ４に異常があると判定されなかった場合にも、適応フィルタＦ２Ｂに参照信号として音声信号Ｃが入力されてもよい。一方、マイクＭＣ４に異常があると判定され、かつ音声信号Ｃが乗員ｈｍ４による音声を多く含むと判定されたとき、適応フィルタＦ２Ｃに、参照信号として音声信号Ｃが入力される。適応フィルタＦ２Ｃは、フィルタ係数Ｃ２Ｃおよび音声信号Ｃに基づいた通過信号２Ｃを出力する。同様に、マイクＭＣ３に異常があると判定され、かつ音声信号Ｄが乗員ｈｍ３による音声を多く含むと判定されたとき、適応フィルタＦ２Ｄに、参照信号として音声信号Ｄが入力される。適応フィルタＦ２Ｄは、フィルタ係数Ｃ２Ｄおよび音声信号Ｄに基づいた通過信号Ｐ２Ｄを出力する。マイクＭＣ３に異常があると判定されなかった場合にも、適応フィルタＦ２Ｄに参照信号として音声信号Ｄが入力されてもよい。一方、マイクＭＣ３に異常があると判定され、かつ音声信号Ｄが乗員ｈｍ４による音声を多く含むと判定されたとき、適応フィルタＦ２Ｅに、参照信号として音声信号Ｄが入力される。適応フィルタＦ２Ｅは、フィルタ係数Ｃ２Ｅおよび音声信号Ｄに基づいた通過信号Ｐ２Ｅを出力する。フィルタ部Ｆ１は、通過信号Ｐ２Ａと、通過信号Ｐ２Ｂあるいは通過信号Ｐ２Ｃと、通過信号Ｐ２Ｄあるいは通過信号Ｐ２Ｅと、を足し合わせて出力する。本実施形態においては、適応フィルタＦ２Ａ、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅは、プロセッサがプログラムを実行することにより実現される。適応フィルタＦ２Ａ、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅは、物理的に分離された別々のハードウェア構成であってもよい。

【0096】

本実施形態においては、フィルタ部Ｆ２が、音声信号Ｃが入力され得る適応フィルタを２つ、および、音声信号Ｄが入力され得る適応フィルタを２つ備えている構成であるとして説明した。フィルタ部Ｆ２が、第２指向性信号が入力され得る適応フィルタを２つ備えている構成であってもよい。例えば、異常検知部３１がマイクＭＣ２の異常を検知可能であり、マイクＭＣ２の異常が検知された場合に第２指向性信号が入力される適応フィルタＦ２Ａ１と、マイクＭＣ２の異常が検知されなかった場合に第２指向性信号が入力される適応フィルタＦ２Ａ２と、をフィルタ部Ｆ２が別々に備えていてもよい。

【0097】

制御部２８Ａは、異常検知部３１の判定の結果と、判定部３５Ａの判定の結果に基づき、適応フィルタのフィルタ係数を制御する。本実施形態において制御部２８Ａは、異常検知部３１から出力された判定の結果としてのフラグと、判定部３５Ａから出力された判定の結果としてのフラグに基づき、音声信号Ｃを、適応フィルタＦ２Ｂと適応フィルタＦ２Ｃのいずれに入力するかを決定する。また、本実施形態において制御部２８Ａは、異常検知部３１から出力された判定の結果としてのフラグと、判定部３５Ａから出力された判定の結果としてのフラグに基づき、音声信号Ｄを、適応フィルタＦ２Ｄと適応フィルタＦ２Ｅのいずれに入力するかを決定する。適応フィルタＦ２Ｂのフィルタ係数Ｃ２Ｂは、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合に、誤差信号が最小になるように更新される。また、適応フィルタＦ２Ｃのフィルタ係数Ｃ２Ｃは、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合に、誤差信号が最小になるように更新される。適応フィルタＦ２Ｄのフィルタ係数Ｃ２Ｄは、音声信号Ｄが乗員ｈｍ３による音声を多く含む場合に、誤差信号が最小になるように更新される。また、適応フィルタＦ２Ｅのフィルタ係数Ｃ２Ｅは、音声信号Ｄが乗員ｈｍ４による音声を多く含む場合に、誤差信号が最小になるように更新される。したがって、音声信号Ｃがいずれの音声を多く含むか、あるいは音声信号Ｄがいずれの音声を多く含むかによって、各適応フィルタを使い分けることにより、誤差信号をより小さくできる可能性がある。フィルタ部Ｆ２が、第２指向性信号が入力され得る適応フィルタを２つ備えている場合には、制御部２８Ａは、第２指向性信号がいずれの適応フィルタに入力されるかを決定してもよい。

【0098】

例えば、異常検知部３１からフラグ「０、０、１、０」を受信し、判定部３５Ａからフラグ「０」を受信した場合、制御部２８Ａは、マイクＭＣ３に異常があり、かつ音声信号Ｄが乗員ｈｍ３による音声を多く含むと判定する。そして制御部２８Ａは、適応フィルタＦ２Ｄに音声信号Ｄが入力されるよう、フィルタ部Ｆ２を制御する。

【0099】

加算部２７Ａは、音声入力部２９から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部Ｆ２から出力される、通過信号Ｐ２Ａ、通過信号Ｐ２Ｂあるいは通過信号Ｐ２Ｃ、および、通過信号Ｐ２Ｄあるいは通過信号Ｐ２Ｅを足し合わせた信号である。加算部２７Ａは、出力信号を制御部２８Ａに出力する。

【0100】

制御部２８Ａは、加算部２７Ａから出力される出力信号を出力する。出力信号の利用については、第１実施形態と同様である。

【0101】

また、制御部２８Ａは、加算部２７Ａから出力される出力信号と、異常検知部３１から出力された判定の結果としてのフラグと、判定部３５Ａ指向性制御部３０Ａから出力された判定の結果としてのフラグと、を参照して、各適応フィルタのフィルタ係数を更新する。

【0102】

まず、制御部２８Ａは、判断結果に基づき、フィルタ係数の更新対象とする適応フィルタを決定する。具体的には、制御部２８Ａは、適応フィルタＦ２Ａと、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅのうち、音声信号が入力される適応フィルタをフィルタ係数の更新対象とする。また、制御部２８Ａは、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅのうち、音声信号が入力されなかった適応フィルタをフィルタ係数の更新対象としない。例えば、異常検知部３１からフラグ「０、０、１、０」を受信し、判定部３５Ａからフラグ「０」を受信した場合、制御部２８Ａは、マイクＭＣ３に異常があり、かつ音声信号Ｄが乗員ｈｍ３による音声を多く含むと判定する。言い換えると、制御部２８Ａは、音声信号Ｃを適応フィルタＦ２Ｂおよび適応フィルタＦ２Ｃのいずれにも入力せず、音声信号Ｄを適応フィルタＦ２Ｄに入力し、音声信号Ｄを適応フィルタＦ２Ｅに入力しないと判定する。そして、制御部２８Ａは、適応フィルタＦ２Ｄをフィルタ係数の更新対象とし、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、および適応フィルタＦ２Ｅをフィルタ係数の更新対象としない。

【0103】

そして、制御部２８Ａは、フィルタ係数の更新対象とした適応フィルタについて、式（１）における誤差信号の値が０に近づくように、フィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第１実施形態で説明したのと同様である。

【0104】

制御部２８Ａは、フィルタ係数の更新対象とされた適応フィルタについてのみフィルタ係数を更新し、フィルタ係数の更新対象とされなかった適応フィルタについてはフィルタ係数を更新しない。これにより、適応フィルタを用いてのクロストーク抑圧処理の処理量を低減することができる。

【0105】

本実施形態において、音声入力部２９と、異常検知部３１と、指向性制御部３０Ａと、フィルタ部Ｆ２と、制御部２８Ａと、加算部２７Ａと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部２９と、異常検知部３１と、指向性制御部３０Ａと、フィルタ部Ｆ２と、制御部２８Ａと、加算部２７Ａと、は、別々のハードウェアで構成されてもよい。

【0106】

音声処理装置２１Ａについて説明したが、音声処理装置２２Ａ、音声処理装置２３Ａ、および音声処理装置２４Ａについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置２２Ａは、乗員ｈｍ２が発話する音声をターゲット成分とする。音声処理装置２２Ａは、マイクＭＣ２で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２２は、第１指向性信号、音声信号Ｃ、および音声信号Ｄが入力されるフィルタ部を有する点で音声処理装置２１Ａと異なる。音声処理装置２３Ａ、音声処理装置２４Ａについても同様である。

【0107】

図８は、音声処理装置２１Ａの動作手順を示すフローチャートである。まず、音声入力部２９Ａに、音声信号Ａ、音声信号Ｂ、音声信号Ｃおよび音声信号Ｄが入力される（Ｓ１０１）。次に、異常検知部３１が、各音声信号に基づき、各マイクの異常の有無を判定する（Ｓ１０２）。異常検知部３１は、判定の結果をフラグとして制御部２８Ａに出力する。いずれのマイクからも異常が検知されなかった場合（Ｓ１０２：Ｎｏ）、指向性制御部３０Ａは、すべての音声信号を使用して指向性制御処理を行う（Ｓ１０３）。指向性制御部３０Ａは、指向性信号をフィルタ部Ｆ２に出力する。フィルタ部Ｆ２は、以下のように減算信号を生成する（Ｓ１０４）。適応フィルタＦ２Ａは、第２指向性信号を通過させ、通過信号Ｐ２Ａを出力する。適応フィルタＦ２Ｂは、第３指向性信号を通過させ、通過信号Ｐ２Ｂを出力する。適応フィルタＦ２Ｄは、第４指向性信号を通過させ、通過信号Ｐ２Ｄを出力する。フィルタ部Ｆ２は、通過信号Ｐ２Ａ、通過信号Ｐ２Ｂ、および通過信号Ｐ２Ｄを足し合わせて、減算信号として出力する。加算部２７Ａは、第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ１０５）。出力信号は、制御部２８Ａに入力され、制御部２８Ａから出力される。次に、制御部２８Ａは、異常検知部３１から出力された判定結果としてのフラグと、指向性制御部３０Ａから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ２Ａ，適応フィルタＦ２Ｂ、および適応フィルタＦ２Ｄのフィルタ係数を更新する（Ｓ１０６）。そして、音声処理装置２１Ａは再び工程Ｓ１を行う。

【0108】

工程Ｓ１０２において、各マイクのいずれかにおいて異常が検知された場合（Ｓ１０２：Ｙｅｓ）、異常検知部３１は、異常が検知されたマイクがターゲット席のマイクであるかを判定する（Ｓ１０７）。ここで、ターゲット席とは、ターゲット成分となる音声が取得される席のことである。音声処理装置２１Ａにおいては、ターゲット席は運転席であり、ターゲット席のマイクは、マイクＭＣ１である。異常検知部３１は、判定の結果をフラグとして制御部２８Ａに出力する。異常が検知されたマイクがターゲット席のマイクである場合、制御部２８Ａは、音声入力部２９Ａから受信した音声信号Ａの強度をゼロに設定して、出力信号として出力する（Ｓ１０８）。このとき、制御部２８Ａは、適応フィルタＦ２Ａ、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅのフィルタ係数を更新しない。そして、音声処理装置２１Ａは再び工程Ｓ１０１を行う。

【0109】

工程Ｓ１０７において、異常が検知されたマイクがターゲット席のマイクでない場合（Ｓ１０７：Ｎｏ）、異常検知部３１は、異常が検知されたマイクが、ターゲット席と同じ側のマイクであるかを判定する（Ｓ１０９）。異常が検知されたマイクが、ターゲット席と同じ側のマイクでない場合（Ｓ１０９：Ｎｏ）、異常検知部３１は、判定の結果をフラグとして制御部２８Ａに出力する。指向性制御部３０Ａは、音声信号Ａおよび音声信号Ｂを使用した指向性制御処理を行い、第１指向性信号と第２指向性信号を生成する（Ｓ１１０）。そして、判定部３５Ａは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する（Ｓ１１１）。例えば、マイクＭＣ３において異常が検知された場合、判定部３５Ａは、マイクＭＣ４に乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれが入力されたかを判定する。言い換えると、判定部３５Ａは、音声信号Ｄが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかを判定する。判定部３５Ａは、この判定結果をフラグとして制御部２８Ａに出力する。以下、マイクＭＣ３において異常が検知されたとして説明する。音声信号Ｄが乗員ｈｍ３による音声を多く含む場合（Ｓ１１１：ｈｍ３）、フィルタ部Ｆ２は、以下のように減算信号を生成する（Ｓ１１２）。適応フィルタＦ２Ａは、第２指向性信号を通過させ、通過信号Ｐ２Ａを出力する。制御部２８Ａは、音声信号Ｃの強度がゼロの状態で適応フィルタＦ２Ｂに入力されるようにフィルタ部Ｆ２を制御する。また、制御部２８は、音声信号Ｃの強度がゼロの状態で適応フィルタＦ２Ｃに入力されるようにフィルタ部Ｆ２を制御する。一方、制御部２８Ａは、音声信号Ｄが適応フィルタＦ２Ｄに入力されるようにフィルタ部Ｆ２を制御する。また、制御部２８Ａは、音声信号Ｄの強度がゼロの状態で適応フィルタＦ２Ｅに入力されるようにフィルタ部Ｆ２を制御する。言い換えると、制御部２８Ａは、適応フィルタＦ２Ａに入力される第２指向性信号、および適応フィルタＦ２Ｄに入力される音声信号Ｄの強度は変更せず、適応フィルタＦ２Ｂに入力される音声信号Ｃ、適応フィルタＦ２Ｃに入力される音声信号Ｃ、および適応フィルタＦ２Ｅに入力される音声信号Ｄの強度をゼロに変更する。そして、フィルタ部Ｆ２は、工程Ｓ１０４と同様の動作によって減算信号を生成する。加算部２７Ａは、工程Ｓ５と同様に第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ１１３）。次に、制御部２８Ａは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ１１４）。具体的には、適応フィルタＦ２Ａおよび適応フィルタＦ２Ｄのフィルタ係数を更新する。そして、音声処理装置２１は再び工程Ｓ１０１を行う。

【0110】

工程Ｓ１１１において、音声信号Ｄが乗員ｈｍ４による音声を多く含むと判定された場合（Ｓ１１１１：ｈｍ４）、フィルタ部Ｆ２は、以下のように減算信号を生成する（Ｓ１１５）。適応フィルタＦ２Ａは、第２指向性信号を通過させ、通過信号Ｐ２Ａを出力する。制御部２８Ａは、音声信号Ｃの強度がゼロの状態で適応フィルタＦ２Ｂに入力されるようにフィルタ部Ｆ２を制御する。また、制御部２８Ａは、音声信号Ｃの強度がゼロの状態で適応フィルタＦ２Ｃに入力されるようにフィルタ部Ｆ２を制御する。一方、制御部２８Ａは、音声信号Ｄの強度がゼロの状態で適応フィルタＦ２Ｄに入力されるようにフィルタ部Ｆ２を制御する。また、制御部２８Ａは、音声信号Ｄが適応フィルタＦ２Ｅに入力されるようにフィルタ部Ｆ２を制御する。言い換えると、制御部２８は、適応フィルタＦ２Ａに入力される第２指向性信号、および適応フィルタＦ２Ｅに入力される音声信号Ｄの強度は変更せず、適応フィルタＦ２Ｂに入力される音声信号Ｃ、適応フィルタＦ２Ｃに入力される音声信号Ｃ、および適応フィルタＦ２Ｄに入力される音声信号Ｄの強度をゼロに変更する。そして、フィルタ部Ｆ２は、工程Ｓ４と同様の動作によって減算信号を生成する。加算部２７Ａは、工程Ｓ５と同様に第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ１１６）。次に、制御部２８Ａは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ１１７）。具体的には、適応フィルタＦ２Ａおよび適応フィルタＦ２Ｅのフィルタ係数を更新する。そして、音声処理装置２１は再び工程Ｓ１０１を行う。

【0111】

なお、フィルタ部Ｆ２が、第２指向性信号が入力され得る適応フィルタを２つ備えている場合には、ここまでの工程を一部以下の通り変更する。例えば、異常検知部３１がマイクＭＣ２の異常を検知可能であり、マイクＭＣ２の異常が検知された場合に第２指向性信号が入力される適応フィルタＦ２Ａ１と、マイクＭＣ２の異常が検知されなかった場合に第２指向性信号が入力される適応フィルタＦ２Ａ２と、をフィルタ部Ｆ２が別々に備えている場合には、これまでの工程において第２指向性信号が入力される適応フィルタＦ２Ａを適応フィルタＦ２Ａ２と読み替えればよい。以下で説明する工程は、異常検知部３１がマイクＭＣ２の異常を検知可能であり、マイクＭＣ２の異常が検知された場合に第２指向性信号が入力される適応フィルタＦ２Ａ１と、マイクＭＣ２の異常が検知されなかった場合に第２指向性信号が入力される適応フィルタＦ２Ａ２と、をフィルタ部Ｆ２が別々に備えている場合に行われる。

【0112】

工程Ｓ１０９において、異常が検知されたマイクがターゲット席と同じ側のマイクである場合、異常検知部３１は、判定の結果をフラグとして制御部２８Ａに出力する。この例においては、マイクＭＣ２における異常が検知される。指向性制御部３０Ａは、音声信号Ｃおよび音声信号Ｄを用いた指向性制御処理を行い、第３指向性信号および第４指向性信号を生成する（Ｓ１１８）。そして、判定部３５Ａは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する（Ｓ１１９）。例えば、マイクＭＣ２において異常が検知された場合、判定部３５Ａは、マイクＭＣ１に運転手ｈｍ１による音声と乗員ｈｍ２による音声のいずれが入力されたかを判定する。言い換えると、判定部３５Ａは、音声信号Ａが運転手ｈｍ１による音声と乗員ｈｍ２による音声のいずれを多く含むかを判定する。判定部３５Ａは、この判定結果をフラグとして制御部２８Ａに出力する。

【0113】

音声信号Ａが乗員ｈｍ２による音声を多く含む場合、制御部２８Ａは、音声信号Ａの強度をゼロに設定して、出力信号として出力する（Ｓ１０８）。このとき、制御部２８Ａは、適応フィルタＦ２Ａ１、適応フィルタＦ２Ａ２、適応フィルタＦ２Ｂ、適応フィルタＦ２Ｃ、適応フィルタＦ２Ｄ、および適応フィルタＦ２Ｅのフィルタ係数を更新しない。そして、音声処理装置２１Ａは再び工程Ｓ１０１を行う。

【0114】

音声信号Ａが運転手ｈｍ１による音声を多く含む場合、フィルタ部Ｆ２は、以下のように減算信号を生成する（Ｓ１２０）。制御部２８Ａは、音声信号Ｂの強度がゼロの状態で適応フィルタＦ２Ａ１に入力されるようにフィルタ部Ｆ２を制御する。一方、制御部２８Ａは、第３指向性信号が適応フィルタＦ２Ｂに入力されるようにフィルタ部Ｆ２を制御する。また、制御部２８Ａは、第４指向性信号が適応フィルタＦ２Ｄに入力されるようにフィルタ部Ｆ２を制御する。言い換えると、制御部２８Ａは、適応フィルタＦ２Ｂに入力される第３指向性信号、および適応フィルタＦ２Ｄに入力される第４指向性信号の強度は変更せず、適応フィルタＦ２Ａ１に入力される音声信号Ｂの強度をゼロに変更する。適応フィルタＦ２Ｂは、第３指向性信号を通過させ、通過信号Ｐ２Ｂを出力する。適応フィルタＦ２Ｄは、第４指向性信号を通過させ、通過信号Ｐ２Ｄを出力する。フィルタ部Ｆ２は、通過信号Ｐ２Ｂと通過信号Ｐ２Ｄとを足し合わせて、減算信号として出力する。加算部２７Ａは、音声信号Ａから減算信号を減算し、出力信号を生成して出力する（Ｓ１２１）。出力信号は、制御部２８Ａに入力され、制御部２８Ａから出力される。次に、制御部２８Ａは、異常検知部３１から出力された判定結果としてのフラグと、判定部３５Ａから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ２Ｂおよび適応フィルタＦ２Ｄのフィルタ係数を更新する（Ｓ１２２）。そして、音声処理装置２１Ａは再び工程Ｓ１０１を行う。

【0115】

なお、異常検知部３１がマイクＭＣ１およびマイクＭＣ２の異常を検知できる場合の例について説明したが、異常検知部３１はマイクＭＣ３およびマイクＭＣ４のみの異常を検知できてもよい。その場合、図８に示されるフローチャートにおいて、工程Ｓ１０７、工程Ｓ１０８、工程Ｓ１０９、および工程Ｓ１１８～工程Ｓ１２２が省略される。

【0116】

本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部２８Ａの処理量を低減することができる。一方で、制御部２８Ａがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部２８Ａが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。

【0117】

このように、第２実施形態における音声処理システム５Ａにおいても、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。また、第２実施形態においては、一部のマイクにおいて異常が検知された場合でも、他のマイクに漏れこむ音声に基づいて、クロストーク成分をキャンセルすることができる。これにより、マイクに異常が発生した場合でも、特定の話者の音声を高精度に求めることができる。また、第２実施形態においては、適応フィルタを用いてターゲット成分を求める際に、異常が検知されたマイクから出力される音声信号を参照信号として用いない。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。

【0118】

（第３実施形態）
第３実施形態に係る音声処理システム５Ｂは、音声処理装置２０Ａに代えて音声処理装置２０Ｂを備える点、および指向性制御部３０Ａを備えない点で第２実施形態に係る音声処理システム５Ａと異なる。

【0119】

第３実施形態に係る音声処理装置２０Ｂは、それぞれのマイクにおける異常の有無を検知し、異常が検知されなかったマイクから出力される音声信号を用いて、クロストーク成分をキャンセルする処理を行う。以下、図９、図１０および図１１を用いて音声処理装置２０Ｂについて説明する。第１実施形態および第２実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。

【0120】

図９を用いて、第２実施形態における音声処理システム５Ｂの詳細を説明する。図９は、第３実施形態における音声処理システム５Ｂの概略構成の一例を示す図である。音声処理システム５Ｂは、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、マイクＭＣ４、及び音声処理装置２０Ｂを含む。本実施形態においてマイクＭＣ１は、例えば運転席の右側のアシストグリップに配置される。本実施形態においてマイクＭＣ２は、例えば助手席の左側のアシストグリップに配置される。本実施形態においてマイクＭＣ３は、例えば後部座席の右側のアシストグリップに配置される。本実施形態においてマイクＭＣ４は、例えば後部座席の左側のアシストグリップに配置される。マイクＭＣ１は、後部座席における右側の席に対して、マイクＭＣ３よりも遠くに位置する。マイクＭＣ２は、後部座席における左側の席に対して、マイクＭＣ４よりも遠くに位置する。マイクＭＣ４は、後部座席における左側の席に対して、マイクＭＣ３よりも近くに位置する。

【0121】

本実施形態において、音声処理システム５Ｂは、各マイクに対応する複数の音声処理装置２０Ｂを備える。具体的には、音声処理システム５Ｂは、音声処理装置２１Ｂと、音声処理装置２２Ｂと、音声処理装置２３Ｂと、音声処理装置２４Ｂとを備える。音声処理装置２１Ｂは、マイクＭＣ１に対応する。音声処理装置２２Ｂは、マイクＭＣ２に対応する。音声処理装置２３Ｂは、マイクＭＣ３に対応する。音声処理装置２４Ｂは、マイクＭＣ４に対応する。以下、音声処理装置２１Ｂ、音声処理装置２２Ｂ、音声処理装置２３Ｂおよび音声処理装置２４Ｂをまとめて音声処理装置２０Ｂと呼ぶことがある。

【0122】

図９に示される構成では、音声処理装置２１Ｂ、音声処理装置２２Ｂ、音声処理装置２３Ｂ、および音声処理装置２４Ｂがそれぞれ別のハードウェアで構成されることを例示しているが、１つの音声処理装置２０Ｂによって音声処理装置２１Ｂ、音声処理装置２２Ｂ、音声処理装置２３Ｂ、および音声処理装置２４Ｂの機能が実現されてもよい。あるいは、音声処理装置２１Ｂ、音声処理装置２２Ｂ、音声処理装置２３Ｂ、および音声処理装置２４Ｂのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。

【0123】

本実施形態においても、各音声処理装置２０Ｂは、対応する各マイク付近の各座席内に配置される。

【0124】

図１０は、音声処理装置２１Ｂの構成を示すブロック図である。音声処理装置２１Ｂ、音声処理装置２２Ｂ、音声処理装置２３Ｂ、および音声処理装置２４Ｂは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置２１Ｂについて説明する。音声処理装置２１Ｂは、運転者ｈｍ１が発話する音声をターゲットとする。音声処理装置２１Ｂは、マイクＭＣ１で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。

【0125】

音声処理装置２１Ｂは、図１０に示すように、音声入力部２９Ｂと、異常検知部３１Ｂと、複数の適応フィルタを含むフィルタ部Ｆ３と、フィルタ部Ｆ３の適応フィルタのフィルタ係数を制御する制御部２８Ｂと、加算部２７Ｂと、を備える。

【0126】

マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、マイクＭＣ４、および音声入力部２９Ｂは、第２実施形態と同様であるので説明を省略する。

【0127】

本実施形態において、異常検知部３１Ｂは、判定部３５Ｂを含む。判定部３５Ｂは、異常が検知されなかったマイクから出力される音声信号に基づいて、異常が検知されたマイクと同じ側にあるマイクから出力される音声信号が、いずれの乗員による音声を多く含むかの判定を行う機能を有する。

【0128】

例えば、判定部３５Ｂは、マイクＭＣ３に異常があると判定した場合、音声信号Ａと音声信号Ｂとに基づいて、音声信号Ｄが乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定を行う。具体的な判定方法は、第１実施形態および第２実施形態において説明したものと同様である。判定部３５Ｂの構成および機能は、第１実施形態で説明したものと同様であるので詳細な説明を省略する。

【0129】

異常検知部３１Ｂは、各マイクにおける異常の有無の判定の結果を制御部２８Ｂに出力する。判定部３５Ｂは、音声信号Ｃあるいは音声信号Ｄが、乗員ｈｍ３による音声と乗員ｈｍ４による音声のいずれを多く含むかの判定の結果を制御部２８Ｂに出力する。判定部３５Ｂは、判定の結果を例えばフラグとして制御部２８Ｂに出力する。フラグは、「０」あるいは「１」の値を示す。「１」は、対応するマイクに異常があると判定されたことを意味し、「０」は、対応するマイクに異常があると判定されなかったことを示す。あるいは、「０」は、音声信号が乗員ｈｍ３による音声を多く含むことを示し、「１」は、音声信号が乗員ｈｍ４による音声を多く含むことを示す。例えば、マイクＭＣ１、ＭＣ２、およびＭＣ４に異常がないと判定し、マイクＭＣ３に異常があると判定した場合、かつ、音声信号Ｄが乗員ｈｍ３による音声を多く含むと判定した場合、判定部３５Ｂは、フラグ「０、０、１、０、０」を判定結果として制御部２８Ｂに出力する。この例における５つのフラグのうち、最初の４つはマイクの異常の有無の判定の結果を示し、最後の１つは、音声信号がいずれの乗員による音声を多く含むかの判定の結果を示す。異常検知部３１Ｂによる、マイクの異常の有無の判定の結果の出力と、判定部３５Ｂによる、音声信号がいずれの乗員による音声を多く含むかの判定の結果の出力は、同時であってもよい。あるいは、異常検知部３１Ｂが、マイクの異常の有無の判定が完了した時点で、マイクの異常の有無の判定の結果をフラグとして出力し、次に、判定部３５Ｂが、音声信号がいずれの乗員による音声を多く含むかの判定が完了した時点で、音声信号がいずれの乗員による音声を多く含むかの判定の結果をフラグとして出力してもよい。

【0130】

各マイクの異常の検知の後、異常検知部３１Ｂは、音声信号Ａ、音声信号Ｂ、音声信号Ｃ、および音声信号Ｄをフィルタ部Ｆ３に出力する。

【0131】

フィルタ部Ｆ３は、適応フィルタＦ３Ａ、適応フィルタＦ３Ｂ、適応フィルタＦ３Ｃ、適応フィルタＦ３Ｄ、および適応フィルタＦ３Ｅを含む。フィルタ部Ｆ３は、マイクＭＣ１で収音される音声に含まれる、運転者ｈｍ１の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態におけるフィルタ部Ｆ３は、第２指向性信号に代えて、音声信号Ｂが適応フィルタＦ３Ａに入力される点以外は、第２実施形態におけるフィルタ部Ｆ２と同様であるので、詳細な説明は省略する。適応フィルタＦ３Ａは、フィルタ係数Ｃ３Ａおよび音声信号Ｂに基づいた通過信号Ｐ３Ａを出力する。適応フィルタＦ３Ｂは、フィルタ係数Ｃ３Ｂおよび音声信号Ｃに基づいた通過信号Ｐ３Ｂを出力する。適応フィルタＦ３Ｃは、フィルタ係数Ｃ３Ｃおよび音声信号Ｃに基づいた通過信号Ｐ３Ｃを出力する。適応フィルタＦ３Ｄは、フィルタ係数Ｃ３Ｄおよび音声信号Ｄに基づいた通過信号Ｐ３Ｄを出力する。適応フィルタＦ３Ｅは、フィルタ係数Ｃ３Ｅおよび音声信号Ｄに基づいた通過信号Ｐ３Ｅを出力する。本実施形態においても、フィルタ部Ｆ３が、音声信号Ｂが入力され得る適応フィルタを２つ備えている構成であってもよい。例えば、異常検知部３１ＢがマイクＭＣ２の異常を検知可能であって、マイクＭＣ２の異常が検知された場合に音声信号Ｂが入力される適応フィルタＦ２Ａ１と、マイクＭＣ２の異常が検知されなかった場合に音声信号Ｂが入力される適応フィルタＦ２Ａ２と、をフィルタ部Ｆ２が別々に備えていてもよい。

【0132】

制御部２８Ｂは、異常検知部３１Ｂの判定の結果に基づき、適応フィルタのフィルタ係数を制御する。本実施形態において制御部２８Ｂは、異常検知部３１Ｂおよび判定部３５Ｂから出力された判定の結果としてのフラグに基づき、音声信号Ｃを、適応フィルタＦ３Ｂと適応フィルタＦ３Ｃのいずれに入力するかを決定する。また、本実施形態において制御部２８Ｂは、異常検知部３１Ｂおよび判定部３５Ｂから出力された判定の結果としてのフラグに基づき、音声信号Ｄを、適応フィルタＦ３Ｄと適応フィルタＦ３Ｅのいずれに入力するかを決定する。フィルタ係数の制御に関しては、第２実施形態における制御部２８Ａと同様であるので、詳細な説明を省略する。

【0133】

加算部２７Ｂは、音声入力部２９から出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部Ｆ３から出力される、通過信号Ｐ３Ａ、通過信号Ｐ３Ｂあるいは通過信号Ｐ３Ｃ、および、通過信号Ｐ３Ｄあるいは通過信号Ｐ３Ｅを足し合わせた信号である。加算部２７Ｂは、出力信号を制御部２８Ｂに出力する。

【0134】

制御部２８Ｂは、加算部２７Ｂから出力される出力信号を出力する。出力信号の利用については第１実施形態と同様である。

【0135】

また、制御部２８Ｂは、加算部２７Ｂから出力される出力信号と、異常検知部３１から出力された判定の結果としてのフラグと、判定部３５Ｂから出力された判定の結果としてのフラグと、を参照して、各適応フィルタのフィルタ係数を更新する。フィルタ係数の更新に関しては、第２実施形態における制御部２８Ａと同様であるので、詳細な説明を省略する。

【0136】

本実施形態において、音声入力部２９と、異常検知部３１Ｂと、フィルタ部Ｆ３と、制御部２８Ｂと、加算部２７Ｂと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部２９と、異常検知部３１Ｂと、フィルタ部Ｆ３と、制御部２８Ｂと、加算部２７Ｂと、は、別々のハードウェアで構成されてもよい。

【0137】

音声処理装置２１Ｂについて説明したが、音声処理装置２２Ｂ、音声処理装置２３Ｂ、および音声処理装置２４Ｂについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置２２Ｂは、乗員ｈｍ２が発話する音声をターゲット成分とする。音声処理装置２２Ｂは、マイクＭＣ２で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２２Ｂは、音声信号Ａ、音声信号Ｃ、および音声信号Ｄが入力されるフィルタ部を有する点で音声処理装置２１Ｂと異なる。音声処理装置２３Ｂ、音声処理装置２４Ｂについても同様である。

【0138】

図１１は、音声処理装置２１Ｂの動作手順を示すフローチャートである。まず、音声入力部２９に、音声信号Ａ、音声信号Ｂ、音声信号Ｃおよび音声信号Ｄが入力される（Ｓ２０１）。次に、異常検知部３１Ｂが、各音声信号に基づき、各マイクの異常の有無を判定する（Ｓ２０２）。異常検知部３１Ｂは、この時点で判定の結果をフラグとして制御部２８Ｂに出力してもよい。いずれのマイクからも異常が検知されなかった場合、異常検知部３１Ｂは、すべての音声信号をフィルタ部Ｆ３に出力する。フィルタ部Ｆ３は、以下のように減算信号を生成する（Ｓ２０３）。適応フィルタＦ３Ａは、音声信号Ｂを通過させ、通過信号Ｐ３Ａを出力する。適応フィルタＦ３Ｂは、音声信号Ｃを通過させ、通過信号Ｐ３Ｂを出力する。適応フィルタＦ３Ｄは、音声信号Ｃを通過させ、通過信号Ｐ３Ｄを出力する。フィルタ部Ｆ３は、通過信号Ｐ３Ａ、通過信号Ｐ３Ｂ、および通過信号Ｐ３Ｄを足し合わせて、減算信号として出力する。加算部２７Ｂは、音声信号Ａから減算信号を減算し、出力信号を生成して出力する（Ｓ２０４）。出力信号は、制御部２８Ｂに入力され、制御部２８Ｂから出力される。次に、制御部２８Ｂは、異常検知部３１Ｂから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ３Ａ、適応フィルタＦ３Ｂ、および適応フィルタＦ３Ｄのフィルタ係数を更新する（Ｓ２０５）。そして、音声処理装置２１Ｂは再び工程Ｓ２０１を行う。

【0139】

工程Ｓ２０２において、各マイクのいずれかにおいて異常が検知された場合（Ｓ２０２０：Ｙｅｓ）、異常検知部３１Ｂは、異常が検知されたマイクがターゲット席のマイクであるかを判定する（Ｓ２０６）。この時点で、異常検知部３１Ｂは、判定の結果をフラグとして制御部２８Ｂに出力してもよい。異常が検知されたマイクがターゲット席のマイクである場合（Ｓ２０６：Ｙｅｓ）、制御部２８Ｂは、音声入力部２９から受信した音声信号Ａの強度をゼロに設定して、出力信号として出力する（Ｓ２０７）。このとき、制御部２８Ｂは、適応フィルタＦ３Ａ、適応フィルタＦ３Ｂ、適応フィルタＦ３Ｃ、適応フィルタＦ３Ｄ、および適応フィルタＦ３Ｅのフィルタ係数を更新しない。そして、音声処理装置２１Ｂは再び工程Ｓ２０１を行う。

【0140】

工程Ｓ６において、異常が検知されたマイクがターゲット席のマイクでない場合（Ｓ２０６：Ｎｏ）、異常検知部３１Ｂは、異常が検知されたマイクが、ターゲット席と同じ側のマイクであるかを判定する（Ｓ２０８）。異常が検知されたマイクが、ターゲット席と同じ側のマイクでない場合（Ｓ２０８：Ｎｏ）、異常検知部３１Ｂは、この時点で判定の結果をフラグとして制御部２８Ｂに出力してもよい。判定部３５Ｂは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する（Ｓ２０９）。以下、マイクＭＣ３において異常が検知されたとして説明する。以降は第２実施形態と同様であるので詳細な説明を省略する。音声信号Ｄが乗員ｈｍ３による音声を多く含むと判定された場合、フィルタ部Ｆ３は、適応フィルタＦ３Ａおよび適応フィルタＦ３Ｄを用いて減算信号を生成する（Ｓ２１０）。加算部２７Ｂは、工程Ｓ４と同様に音声信号Ａから減算信号を減算し、出力信号を生成して出力する（Ｓ２１１）。次に、制御部２８Ｂは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ２１２）。そして、音声処理装置２１は再び工程Ｓ２０１を行う。

【0141】

工程Ｓ２０９において、音声信号Ｄが乗員ｈｍ４による音声を多く含むと判定された場合（Ｓ２０９：ｈｍ３）、フィルタ部Ｆ３は、適応フィルタＦ３Ａおよび適応フィルタＦ３Ｅを用いて減算信号を生成する（Ｓ２１３）。加算部２７Ｂは、工程Ｓ４と同様に音声信号Ａから減算信号を減算し、出力信号を生成して出力する（Ｓ２１４）。次に、制御部２８Ａは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ２１５）。そして、音声処理装置２１は再び工程Ｓ２０１を行う。

【0142】

なおフィルタ部Ｆ３が、音声信号Ｂが入力され得る適応フィルタを２つ備えている場合には、ここまでの工程を一部以下の通り変更する。例えば、異常検知部３１ＢがマイクＭＣ２の異常を検知可能であり、マイクＭＣ２の異常が検知された場合に音声信号Ｂが入力される適応フィルタＦ３Ａ１と、マイクＭＣ２の異常が検知されなかった場合に音声信号Ｂが入力される適応フィルタＦ３Ａ２と、をフィルタ部Ｆ３が別々に備えている場合には、これまでの工程において第２指向性信号が入力される適応フィルタＦ３Ａを適応フィルタＦ３Ａ２と読み替えればよい。以下で説明する工程は、異常検知部３１ＢがマイクＭＣ２の異常を検知可能であり、マイクＭＣ２の異常が検知された場合に音声信号Ｂが入力される適応フィルタＦ３Ａ１と、マイクＭＣ２の異常が検知されなかった場合に音声信号Ｂが入力される適応フィルタＦ３Ａ２と、をフィルタ部Ｆ３が別々に備えている場合に行われる。

【0143】

工程Ｓ２０８において、異常が検知されたマイクがターゲット席と同じ側のマイクである場合、異常検知部３１Ｂは、判定の結果をフラグとして制御部２８Ｂに出力する。この例においては、マイクＭＣ２における異常が検知される。そして、判定部３５Ｂは、異常が検知されたマイクと同じ側にあり、かつ異常が検知されなかったマイクに、いずれの音声成分が入力されたかを判定する（Ｓ２１６）。例えば、マイクＭＣ２において異常が検知された場合、判定部３５Ｂは、マイクＭＣ１に運転手ｈｍ１による音声と乗員ｈｍ２による音声のいずれが入力されたかを判定する。言い換えると、判定部３５Ｂは、音声信号Ａが運転手ｈｍ１による音声と乗員ｈｍ２による音声のいずれを多く含むかを判定する。判定部３５Ｂは、この判定結果をフラグとして制御部２８Ｂに出力する。

【0144】

音声信号Ａが乗員ｈｍ２による音声を多く含む場合、制御部２８Ｂは、音声信号Ａの強度をゼロに設定して、出力信号として出力する（Ｓ２０７）。このとき、制御部２８Ｂは、適応フィルタＦ３Ａ１、適応フィルタＦ３Ａ２、適応フィルタＦ３Ｂ、適応フィルタＦ３Ｃ、適応フィルタＦ３Ｄ、および適応フィルタＦ３Ｅのフィルタ係数を更新しない。そして、音声処理装置２１Ｂは再び工程Ｓ２０１を行う。

【0145】

音声信号Ａが運転手ｈｍ１による音声を多く含む場合、フィルタ部Ｆ３は、以下のように減算信号を生成する（Ｓ２１７）。制御部２８Ｂは、音声信号Ｂの強度がゼロの状態で適応フィルタＦ３Ａ１に入力されるようにフィルタ部Ｆ３を制御する。一方、制御部２８Ｂは、音声信号Ｃが適応フィルタＦ３Ｂに入力されるようにフィルタ部Ｆ３を制御する。また、制御部２８Ｂは、音声信号Ｄが適応フィルタＦ３Ｄに入力されるようにフィルタ部Ｆ３を制御する。言い換えると、制御部２８Ｂは、適応フィルタＦ３Ｂに入力される音声信号Ｃ、および適応フィルタＦ３Ｄに入力される音声信号Ｄの強度は変更せず、適応フィルタＦ３Ａ１に入力される音声信号Ｂの強度をゼロに変更する。適応フィルタＦ３Ｂは、音声信号Ｃを通過させ、通過信号Ｐ３Ｂを出力する。適応フィルタＦ３Ｄは、音声信号Ｄを通過させ、通過信号Ｐ３Ｄを出力する。フィルタ部Ｆ３は、通過信号Ｐ３Ｂと通過信号Ｐ３Ｄとを足し合わせて、減算信号として出力する。加算部２７Ｂは、音声信号Ａから減算信号を減算し、出力信号を生成して出力する（Ｓ２１８）。出力信号は、制御部２８Ｂに入力され、制御部２８Ｂから出力される。次に、制御部２８Ｂは、異常検知部３１Ｂから出力された判定結果としてのフラグを参照して、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ３Ｂおよび適応フィルタＦ３Ｄのフィルタ係数を更新する（Ｓ２１９）。そして、音声処理装置２１Ｂは再び工程Ｓ２０１を行う。

【0146】

なお、異常検知部３１ＢがマイクＭＣ１およびマイクＭＣ２の異常を検知できる場合の例について説明したが、異常検知部３１ＢはマイクＭＣ３およびマイクＭＣ４のみの異常を検知できてもよい。その場合、図１１に示されるフローチャートにおいて、工程Ｓ２０６、工程Ｓ２０７、工程Ｓ２０８、および工程Ｓ２１６～工程Ｓ２１９が省略される。

【0147】

本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部２８Ａの処理量を低減することができる。一方で、制御部２８Ｂがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部２８Ａが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。

【0148】

このように、第３実施形態における音声処理システム５Ｂにおいても、第２実施形態における音声処理システム５Ａと同様の効果が得られる。

【0149】

（第４実施形態）
第４実施形態に係る音声処理システム５Ｃは、音声処理装置２０に代えて音声処理装置２０Ｃを備える点で第１実施形態に係る音声処理システム５と異なる。第４実施形態に係る音声処理装置２０Ｃは、複数の乗員による音声が入力され得るマイクに、いずれの乗員による音声が入力されたかを特定せず、そのマイクから出力される音声信号を用いて、クロストーク成分をキャンセルする処理を行う。以下、図１２、図１３および図１４を用いて音声処理装置２０Ｃについて説明する。第１実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。

【0150】

図１２を用いて、第４実施形態における音声処理システム５Ｃの詳細を説明する。図１２は、第４実施形態における音声処理システム５Ｃの概略構成の一例を示す図である。音声処理システム５Ｃは、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、及び音声処理装置２０Ｃを含む。マイクＭＣ１、マイクＭＣ２、およびマイクＭＣ３については、第１実施形態と同様であるので説明を省略する。

【0151】

本実施形態において、音声処理システム５Ｃは、各マイクに対応する複数の音声処理装置２０Ｃを備える。具体的には、音声処理システム５Ｃは、音声処理装置２１Ｃと、音声処理装置２２Ｃと、音声処理装置２３Ｃと、を備える。音声処理装置２１Ｃは、マイクＭＣ１に対応する。音声処理装置２２Ｃは、マイクＭＣ２に対応する。音声処理装置２３Ｃは、マイクＭＣ３に対応する。以下、音声処理装置２１Ｃ、音声処理装置２２Ｃ、および音声処理装置２３Ｃをまとめて音声処理装置２０Ｃと呼ぶことがある。

【0152】

図１３に示される構成では、音声処理装置２１Ｃ、音声処理装置２２Ｃ、および音声処理装置２３Ｃがそれぞれ別のハードウェアで構成されることを例示しているが、１つの音声処理装置２０Ｃによって音声処理装置２１Ｃ、音声処理装置２２Ｃ、および音声処理装置２３Ｃの機能が実現されてもよい。あるいは、音声処理装置２１Ｃ、音声処理装置２２Ｃ、および音声処理装置２３Ｃのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。

【0153】

本実施形態においても、各音声処理装置２０Ｃは、対応する各マイク付近の各座席内に配置される。音声処理装置２０Ｃの位置については、例えば第１実施形態と同様である。

【0154】

図１３は、音声処理装置２１Ｃの構成を示すブロック図である。音声処理装置２１Ｃ、音声処理装置２２Ｃ、および音声処理装置２３Ｃは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置２１Ｃについて説明する。音声処理装置２１Ｃは、運転者ｈｍ１が発話する音声をターゲット成分とする。音声処理装置２１Ｃは、マイクＭＣ１で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。

【0155】

音声処理装置２１Ｃは、図１３に示すように、音声入力部２９Ｃと、指向性制御部３０Ｃと、複数の適応フィルタを含むフィルタ部Ｆ４と、複数の適応フィルタのフィルタ係数を制御する制御部２８Ｃと、加算部２７Ｃと、を備える。

【0156】

音声入力部２９Ｃは、第１実施形態の音声入力部２９と同様であるので、説明を省略する。
指向性制御部３０Ｃには、音声入力部２９Ｃから出力された音声信号Ａ、音声信号Ｂ、および音声信号Ｃが入力される。指向性制御部３０Ｃは、音声信号Ａおよび音声信号Ｂを使用して指向性制御処理を行う。そして、指向性制御部３０Ｃは、音声信号Ａに対して指向性制御処理を行って得られた第１指向性信号を出力する。また、指向性制御部３０Ｃは、音声信号Ｂに対して指向性制御処理を行って得られた第２指向性信号を出力する。指向性制御部３０Ｃは、第１指向性信号を加算部２７Ｃに、第２指向性信号および音声信号Ｃをフィルタ部Ｆ４に出力する。

【0157】

また、指向性制御部３０Ｃは、マイクＭＣ３に音声成分が入力されたかを判定する。例えば、指向性制御部３０Ａは、音声信号Ｃの強度が、第１指向性信号の強度および第２指向性信号の強度の少なくとも一方よりも大きい場合に、マイクＭＣ３に音声信号が入力されたと判定し、そうでない場合に、マイクＭＣ３に音声信号が入力されなかったと判定する。

【0158】

指向性制御部３０Ｃは、マイクＭＣ３に音声成分が入力されたかの判定の結果を制御部２８Ｃに出力する。指向性制御部３０Ｃは、判定の結果を例えばフラグとして制御部２８Ｃに出力する。フラグは、「０」あるいは「１」の値を示す。「０」は、マイクＭＣ３に音声成分が入力されなかったことを示し、「１」は、マイクＭＣ３に音声成分が入力されたことを示す。

【0159】

本実施形態において、マイクＭＣ３に音声成分が入力されたかの判定を、指向性制御部３０Ｃが行っているが、音声処理装置２１Ｃが指向性制御部３０Ｃとは別に、判定部としての発話判定部を備え、発話判定部が判定を行ってもよい。その場合、発話判定部は、例えば音声入力部２９Ｃと指向性制御部３０Ｃの間に接続される。あるいは、音声処理装置２１Ｃは発話判定部のみを備え、指向性制御部３０Ｃを備えなくてもよい。発話判定部の構成および機能は、第１実施形態で説明した判定部３５と同様であるので詳細な説明を省略する。

【0160】

フィルタ部Ｆ４は、適応フィルタＦ４Ａおよび適応フィルタＦ４Ｂを含む。フィルタ部Ｆ４は、マイクＭＣ１で収音される音声に含まれる、運転者ｈｍ１の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部Ｆ４は２つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。

【0161】

適応フィルタＦ４Ａには、参照信号として第２指向性信号が入力される。適応フィルタＦ４Ａは、フィルタ係数Ｃ４Ａおよび第２指向性信号に基づいた通過信号Ｐ４Ａを出力する。適応フィルタＦ４Ｂには、参照信号として音声信号Ｃが入力される。本実施形態において、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合にも、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合にも、音声信号Ｃは適応フィルタＦ４Ｂに入力される。適応フィルタＦ４Ｂは、フィルタ係数Ｃ４Ｂおよび音声信号Ｃに基づいた通過信号Ｐ４Ｂを出力する。フィルタ部Ｆ４は、通過信号Ｐ４Ａと、通過信号Ｐ４Ｂと、を足し合わせて出力する。本実施形態においては、適応フィルタＦ４Ａおよび適応フィルタＦ４Ｂは、プロセッサがプログラムを実行することにより実現される。適応フィルタＦ４Ａおよび適応フィルタＦ４Ｂは、物理的に分離された別々のハードウェア構成であってもよい。

【0162】

加算部２７Ｃは、音声入力部２９Ｃから出力されるターゲットの音声信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号は、フィルタ部Ｆ４から出力される、通過信号Ｐ４Ａおよび通過信号Ｐ４Ｂを足し合わせた信号である。加算部２７Ｃは、出力信号を制御部２８Ｃに出力する。

【0163】

制御部２８Ｃは、加算部２７Ｃから出力される出力信号を出力する。出力信号の利用については第１実施形態と同様である。

【0164】

また、制御部２８Ｃは、加算部２７Ｃから出力される出力信号を参照して、各適応フィルタのフィルタ係数を更新する。具体的には、制御部２８Ｃは、適応フィルタＦ４Ａおよび適応フィルタＦ４Ｂについて、式（１）における誤差信号の値が０に近づくように、フィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第１実施形態で説明したのと同様である。

【0165】

本実施形態において、音声入力部２９Ｃと、指向性制御部３０Ｃと、フィルタ部Ｆ４と、制御部２８Ｃと、加算部２７Ｃと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部２９Ｃと、指向性制御部３０Ｃと、フィルタ部Ｆ４と、制御部２８Ｃと、加算部２７Ｃと、は、別々のハードウェアで構成されてもよい。

【0166】

音声処理装置２１Ｃについて説明したが、音声処理装置２２Ｃ、および音声処理装置２３Ｃについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置２２Ｃは、乗員ｈｍ２が発話する音声をターゲット成分とする。音声処理装置２２Ｃは、マイクＭＣ２で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２２Ｃは、第１指向性信号および音声信号Ｃが入力されるフィルタ部を有する点で音声処理装置２１Ｃと異なる。音声処理装置２３Ｃについても同様である。

【0167】

図１４は、音声処理装置２１Ｃの動作手順を示すフローチャートである。まず、音声入力部２９Ｃに、音声信号Ａ、音声信号Ｂ、および音声信号Ｃが入力される（Ｓ３０１）。次に、指向性制御部３０Ｃが、音声信号Ａおよび音声信号Ｂを使用した指向性制御処理を行い、第１指向性信号と第２指向性信号を生成する（Ｓ３０２）。そして、指向性制御部３０Ｃが、マイクＭＣ３に音声成分が入力されたかを判定する（Ｓ３０３）。指向性制御部３０Ｃは、判定結果をフラグとして制御部２８Ｃに出力する。マイクＭＣ３に音声信号が入力されなかったと指向性制御部３０Ｃが判定した場合（Ｓ３０３：Ｎｏ）、制御部２８Ｃは、フィルタ部Ｆ４に入力される音声信号Ｃの強度をゼロにし、第２指向性信号の強度は変更しない。そして、フィルタ部Ｆ４は、以下のように減算信号を生成する（Ｓ３０４）。適応フィルタＦ４Ａは、第２指向性信号を通過させ、通過信号Ｐ４Ａを出力する。適応フィルタＦ４Ｂは、音声信号Ｃを通過させ、通過信号Ｐ４Ｂを出力する。フィルタ部Ｆ４は、通過信号Ｐ４Ａ、および通過信号Ｐ４Ｂを足し合わせて、減算信号として出力する。加算部２７Ｃは、第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ３０５）。出力信号は、制御部２８Ｃに入力され、制御部２８Ｃから出力される。次に、制御部２８Ｃは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ４Ａのフィルタ係数を更新する（Ｓ３０６）。そして、音声処理装置２１は再び工程Ｓ３０１を行う。

【0168】

マイクＭＣ３に音声信号が入力されたと指向性制御部３０Ｃが判定した場合（Ｓ３０３：Ｙｅｓ）、フィルタ部Ｆ４は、以下のように減算信号を生成する（Ｓ３０７）。制御部２８Ｃは、音声信号Ｃが適応フィルタＦ４Ｂに入力されるようにフィルタ部Ｆ４を制御する。そして、フィルタ部Ｆ４は、工程Ｓ３０４と同様の動作によって減算信号を生成する。加算部２７Ｃは、工程Ｓ３０５と同様に第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ３０８）。次に、制御部２８Ｃは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ３１０）。具体的には、適応フィルタＦ４Ａおよび適応フィルタＦ４Ｂのフィルタ係数を更新する。そして、音声処理装置２１Ｃは再び工程Ｓ３０１を行う。

【0169】

本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部２８Ｃの処理量を低減することができる。一方で、制御部２８Ｃがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部２８Ｃが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。

【0170】

図１５に、音声処理装置２１Ｃにおける各音声信号および出力信号の例を示す。図１５Ａは第１指向性信号、図１５Ｂは第２指向性信号、図１５Ｃは音声信号Ｃ、図１５Ｄは出力信号のスペクトルを示す。図１５には、運転者ｈｍ１、乗員ｈｍ２、乗員ｈｍ３、および乗員ｈｍ４が同時に発話している場合であって、運転者ｈｍ１は特定の単語を断続的に発話し、他の乗員は隙間なく雑談を行っている場合の例を示す。なお、第１指向性信号および第２指向性信号においては、指向性制御処理が行われているために、音声信号Ｃと比較してＳ／Ｎ比が高くなっている。図１５Ａと図１５Ｄとを比較すると、クロストーク成分を抑圧する処理を行うことにより、出力信号では第１指向性信号よりもＳ／Ｎ比が高くなっていることが見て取れる。

【0171】

このように、第４実施形態における音声処理システム５Ｃでも、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第４実施形態においては、発生する位置が異なる複数の音声を、１つのマイクによって収音できるように構成されている。具体的には、後部座席の乗員ｈｍ３の音声および乗員ｈｍ４の音声を、マイクＭＣ３で収音している。その上で、マイクＭＣ３から出力される音声信号Ｃが乗員ｈｍ３の音声および乗員ｈｍ４の音声のいずれを含む場合でも、音声信号Ｃを適応フィルタＦ４Ｂに入力している。これにより、複数の音声が１つのマイクによって収音されるような場合でも、ターゲット成分の音声信号を精度よく求めることができる。そのため、マイクを例えば座席ごとに１つずつ設けなくともよいので、コストを低減することができる。また、適応フィルタを用いてターゲット成分を求める際に、すべての席に設けられたマイクから出力される信号を参照信号として用いる場合と比較して、処理に用いる参照信号の数を減らすことができる。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、第４実施形態においては、音声信号にいずれの乗員の音声が含まれるかを判定する処理を行っておらず、音声信号に音声が含まれる乗員によって適応フィルタを使い分けるような構成も取っていない。そのため、クロストーク成分をキャンセルする処理の量を低減することができ、音声処理装置５Ｃの構成も簡単にすることができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。

【0172】

（第５実施形態）
第５実施形態に係る音声処理システム５Ｄは、音声処理装置２０Ｃに代えて音声処理装置２０Ｄを備える点で第４実施形態に係る音声処理システム５Ｃと異なる。第５実施形態に係る音声処理装置２０Ｄは、複数の乗員による音声が入力され得るマイクから出力される音声信号を、複数の適応フィルタに入力する。複数の適応フィルタは、該マイクに一方の乗員による音声が入力される場合に対応する適応フィルタと、該マイクに他の乗員による音声が入力される場合に対応する適応フィルタと、を含む。音声処理装置２０Ｄは、いずれの適応フィルタを用いる場合にクロストーク成分をより小さくできるかを判定し、よりクロストーク成分を小さくできる適応フィルタを用いて、クロストーク成分をキャンセルする処理を行う。以下、図１６、図１７および図１８を用いて音声処理装置２０Ｄについて説明する。第１実施形態および第４実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。

【0173】

図１６を用いて、第５実施形態における音声処理システム５Ｄの詳細を説明する。図１６は、第５実施形態における音声処理システム５Ｄの概略構成の一例を示す図である。音声処理システム５Ｄは、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、及び音声処理装置２０Ｄを含む。マイクＭＣ１、マイクＭＣ２、およびマイクＭＣ３については、第１実施形態と同様であるので説明を省略する。

【0174】

本実施形態において、音声処理システム５Ｄは、各マイクに対応する複数の音声処理装置２０Ｄを備える。具体的には、音声処理システム５Ｄは、音声処理装置２１Ｄと、音声処理装置２２Ｄと、音声処理装置２３Ｄと、を備える。音声処理装置２１Ｄは、マイクＭＣ１に対応する。音声処理装置２２Ｄは、マイクＭＣ２に対応する。音声処理装置２３Ｄは、マイクＭＣ３に対応する。以下、音声処理装置２１Ｄ、音声処理装置２２Ｄおよび音声処理装置２３Ｄをまとめて音声処理装置２０Ｄと呼ぶことがある。

【0175】

図１６に示される構成では、音声処理装置２１Ｄ、音声処理装置２２Ｄ、および音声処理装置２３Ｄがそれぞれ別のハードウェアで構成されることを例示しているが、１つの音声処理装置２０Ｄによって音声処理装置２１Ｄ、音声処理装置２２Ｄ、および音声処理装置２３Ｄの機能が実現されてもよい。あるいは、音声処理装置２１Ｄ、音声処理装置２２Ｄ、および音声処理装置２３Ｄのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。

【0176】

本実施形態においても、各音声処理装置２０Ｄは、対応する各マイク付近の各座席内に配置される。音声処理装置２０Ｄの位置については、例えば第１実施形態と同様である。

【0177】

図１７は、音声処理装置２１Ｄの構成を示すブロック図である。音声処理装置２１Ｄ、音声処理装置２２Ｄ、および音声処理装置２３Ｄは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置２１Ｄについて説明する。音声処理装置２１Ｄは、運転者ｈｍ１が発話する音声をターゲット成分とする。音声処理装置２１Ｄは、マイクＭＣ１で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。

【0178】

音声処理装置２１Ｄは、図１７に示すように、音声入力部２９Ｄと、指向性制御部３０Ｄと、複数の適応フィルタを含むフィルタ部Ｆ５と、複数の適応フィルタのフィルタ係数を制御する制御部２８Ｄと、加算部２７Ｄと、を備える。

【0179】

音声入力部２９Ｄは、第１実施形態の音声入力部２９と同様であるので、説明を省略する。
指向性制御部３０Ｄは、第４実施形態の指向性制御部３０Ｃと同様であるので、説明を省略する。音声処理装置５Ｄは、判定部としての発話判定部を備えてもよい。発話判定部を備える場合、音声処理装置５Ｄは、指向性制御部３０Ｄを備えなくてもよい。

【0180】

フィルタ部Ｆ５は、適応フィルタＦ５Ａ、適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄを含む。フィルタ部Ｆ５は、マイクＭＣ１で収音される音声に含まれる、運転者ｈｍ１の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部Ｆ５は４つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。

【0181】

適応フィルタＦ５Ａには、参照信号として第２指向性信号が入力される。適応フィルタＦ５Ａは、フィルタ係数Ｃ５Ａおよび第２指向性信号に基づいた通過信号Ｐ５Ａを出力する。適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄには、参照信号として音声信号Ｃが入力される。適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄは、「２つ以上の適応フィルタ」に相当する。適応フィルタＦ５Ｂは、第１適応フィルタに相当する。適応フィルタＦ５Ｃは、第２適応フィルタに相当する。適応フィルタＦ５Ｄは、第３適応フィルタに相当する。適応フィルタＦ５Ｂは、フィルタ係数Ｃ５Ｂおよび音声信号Ｃに基づいた通過信号Ｐ５Ｂを出力する。通過信号Ｐ５Ｂは、第１通過信号に相当する。適応フィルタＦ５Ｃは、フィルタ係数Ｃ５Ｃおよび音声信号Ｃに基づいた通過信号Ｐ５Ｃを出力する。通過信号Ｐ５Ｃは、第２通過信号に相当する。適応フィルタＦ５Ｄは、フィルタ係数Ｃ５Ｄおよび音声信号Ｃに基づいた通過信号Ｐ５Ｄを出力する。フィルタ部Ｆ５は、通過信号Ｐ５Ａと、通過信号Ｐ５Ｂと、を足し合わせた減算信号ＳＳＡと、通過信号Ｐ５Ａと、通過信号Ｐ５Ｃと、を足し合わせた減算信号ＳＳＢと、通過信号Ｐ５Ａと、通過信号Ｐ５Ｄと、を足し合わせた減算信号ＳＳＣと、を出力する。減算信号ＳＳＡは、第１減算信号に相当する。減算信号ＳＳＢは、第２減算信号に相当する。本実施形態においては、適応フィルタＦ５Ａ、適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄは、プロセッサがプログラムを実行することにより実現される。適応フィルタＦ５Ａ、適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄは、物理的に分離された別々のハードウェア構成であってもよい。

【0182】

適応フィルタＦ５Ｂのフィルタ係数Ｃ５Ｂは、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合に、誤差信号が最小になるように更新される。また、適応フィルタＦ５Ｃのフィルタ係数Ｃ５Ｃは、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合に、誤差信号が最小になるように更新される。一方、適応フィルタＦ５Ｄのフィルタ係数Ｃ５Ｄは、音声信号Ｃが乗員ｈｍ３による音声および乗員ｈｍ４による音声の両方を含む場合に、誤差信号が最小になるように更新される。

【0183】

本実施形態においてフィルタ部Ｆ５は、音声信号Ｃが入力される適応フィルタとして適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄを備えるが、音声信号Ｃが入力される適応フィルタとして適応フィルタＦ５Ｂおよび適応フィルタＦ５Ｃのみを備えてもよい。その場合、後述するクロストークキャンセルの処理量を低減することができる。

【0184】

加算部２７Ｄは、音声入力部２９Ｄから出力される、ターゲットの音声信号である第１指向性信号から、減算信号を減算することで、出力信号を生成する。本実施形態において、減算信号ＳＳＡを用いた場合の出力信号ＯＳＡ、減算信号ＳＳＢを用いた場合の出力信号ＯＳＢ、および減算信号ＳＳＣを用いた場合の出力信号ＯＳＣがそれぞれ生成される。出力信号ＯＳＡは、第１出力信号に相当する。出力信号ＯＳＢは、第２出力信号に相当する。加算部２７Ｄは、出力信号ＯＳＡ、出力信号ＯＳＢ、および出力信号ＯＳＣを制御部２８Ｄに出力する。

【0185】

制御部２８Ｄは、加算部２７Ｄから出力される出力信号ＯＳＡ、出力信号ＯＳＢ、および出力信号ＯＳＣを参照して、誤差信号が最も小さくなる出力信号を特定する。例えば、音声信号Ｃが乗員ｈｍ３による音声を多く含む場合には、出力信号ＯＳＡにおいて誤差信号が最も小さくなる。例えば、音声信号Ｃが乗員ｈｍ４による音声を多く含む場合には、出力信号ＯＳＢにおいて誤差信号が最も小さくなる。例えば、音声信号Ｃが乗員ｈｍ３による音声および乗員ｈｍ４による音声の両方を含む場合には、出力信号ＯＳＣにおいて誤差信号が最も小さくなる。そして、制御部２８Ｄは、誤差信号が最も小さくなる出力信号を生成するのに用いられた適応フィルタのフィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第１実施形態で説明したのと同様である。

【0186】

また、制御部２８Ｄは、出力信号ＯＳＡ、出力信号ＯＳＢ、出力信号ＯＳＣのうち、誤差信号が最も小さくなる出力信号を出力する。出力信号の利用については第１実施形態と同様である。

【0187】

本実施形態において、音声入力部２９Ｄと、指向性制御部３０Ｄと、フィルタ部Ｆ５と、制御部２８Ｄと、加算部２７Ｄと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部２９Ｄと、指向性制御部３０Ｄと、フィルタ部Ｆ５と、制御部２８Ｄと、加算部２７Ｄと、は、別々のハードウェアで構成されてもよい。

【0188】

音声処理装置２１Ｄについて説明したが、音声処理装置２２Ｄ、および音声処理装置２３Ｄについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置２２Ｄは、乗員ｈｍ２が発話する音声をターゲット成分とする。音声処理装置２２Ｄは、マイクＭＣ２で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２２Ｄは、第１指向性信号および音声信号Ｃが入力されるフィルタ部を有する点で音声処理装置２１Ｄと異なる。音声処理装置２３Ｄについても同様である。

【0189】

図１８は、音声処理装置２１Ｄの動作手順を示すフローチャートである。まず、音声入力部２９Ｄに、音声信号Ａ、音声信号Ｂ、および音声信号Ｃが入力される（Ｓ４０１）。次に、指向性制御部３０Ｄが、音声信号Ａおよび音声信号Ｂを使用した指向性制御処理を行い、第１指向性信号と第２指向性信号を生成する（Ｓ４０２）。そして、指向性制御部３０Ｄが、第１実施形態と同様の方法で、マイクＭＣ３に音声成分が入力されたかを判定する（Ｓ４０３）。指向性制御部３０Ｄは、判定結果をフラグとして制御部２８Ｄに出力する。マイクＭＣ３に音声信号が入力されなかったと指向性制御部３０Ｄが判定した場合（Ｓ４０３：Ｎｏ）、制御部２８Ｄは、フィルタ部Ｆ５に入力される音声信号Ｃの強度をゼロにし、第２指向性信号の強度は変更しない。そして、フィルタ部Ｆ５は、以下のように減算信号を生成する（Ｓ４０４）。適応フィルタＦ５Ａは、第２指向性信号を通過させ、通過信号Ｐ５Ａを出力する。適応フィルタＦ５Ｂは、音声信号Ｃを通過させ、通過信号Ｐ５Ｂを出力する。適応フィルタＦ５Ｃは、音声信号Ｃを通過させ、通過信号Ｐ５Ｃを出力する。適応フィルタＦ５Ｄは、音声信号Ｃを通過させ、通過信号Ｐ５Ｄを出力する。フィルタ部Ｆ５は、通過信号Ｐ５Ａ、通過信号Ｐ５Ｂ、通過信号Ｐ５Ｃ、および通過信号Ｐ５Ｄを足し合わせて、減算信号として出力する。加算部２７Ｄは、第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ４０５）。出力信号は、制御部２８Ｄに入力され、制御部２８Ｄから出力される。次に、制御部２８Ｄは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ５Ａのフィルタ係数を更新する（Ｓ４０６）。そして、音声処理装置２１は再び工程Ｓ１を行う。

【0190】

マイクＭＣ３に音声信号が入力されたと指向性制御部３０Ｄが判定した場合（Ｓ４０３：Ｙｅｓ）、制御部２８Ｄは、音声信号Ｃが適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄのそれぞれに入力されるようにフィルタ部Ｆ５を制御する。言い換えると、制御部２８Ｄは、適応フィルタＦ５Ａに入力される第２指向性信号および適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄに入力される音声信号Ｃの強度を変更しない。そして、フィルタ部Ｆ５は、以下のように減算信号を生成する（Ｓ４０７）。フィルタ部Ｆ５は、通過信号Ｐ５Ａと、通過信号Ｐ５Ｂと、を足し合わせた減算信号ＳＳＡと、通過信号Ｐ５Ａと、通過信号Ｐ５Ｃと、を足し合わせた減算信号ＳＳＢと、通過信号Ｐ５Ａと、通過信号Ｐ５Ｄと、を足し合わせた減算信号ＳＳＣと、を生成し、加算部２７Ｄに出力する。加算部２７Ｄは、以下のように出力信号を生成して制御部２８Ｄに出力する（Ｓ４０８）。加算部２８Ｄは、第１指向性信号から減算信号ＳＳＡを減算し、出力信号ＯＳＡを生成して制御部２８Ｄに出力する。加算部２８Ｄは、第１指向性信号から減算信号ＳＳＢを減算し、出力信号ＯＳＢを生成して制御部２８Ｄに出力する。また、加算部２８Ｄは、第１指向性信号から減算信号ＳＳＣを減算し、出力信号ＯＳＣを生成して制御部２８Ｄに出力する。次に、制御部２８Ｄは、出力信号ＯＳＡ、出力信号ＯＳＢ、および出力信号ＯＳＣに基づき、誤差信号が最小になるのはどの適応フィルタを用いた場合かを判定する（Ｓ４０９）。適応フィルタＦ５Ｂを用いた場合に誤差信号が最小になると判定したとき、制御部２８Ｄは、出力信号ＯＳＡに含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ４１０）。具体的には、適応フィルタＦ５Ａおよび適応フィルタＦ５Ｂのフィルタ係数を更新する。そして、音声処理装置２１Ｄは再び工程Ｓ４０１を行う。

【0191】

工程Ｓ４０９において、適応フィルタＦ５Ｃを用いた場合に誤差信号が最小になると判定したとき、制御部２８Ｄは、出力信号ＯＳＢに含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ４１１）。具体的には、適応フィルタＦ５Ａおよび適応フィルタＦ５Ｃのフィルタ係数を更新する。そして、音声処理装置２１Ｄは再び工程Ｓ４０１を行う。

【0192】

工程Ｓ４０９において、適応フィルタＦ５Ｄを用いた場合に誤差信号が最小になると判定したとき、制御部２８Ｄは、出力信号ＯＳＣに含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ４１２）。具体的には、適応フィルタＦ５Ａおよび適応フィルタＦ５Ｄのフィルタ係数を更新する。そして、音声処理装置２１Ｄは再び工程Ｓ４０１を行う。

【0193】

本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部２８Ｄの処理量を低減することができる。一方で、制御部２８Ｄがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部２８Ｄが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。

【0194】

このように、第５実施形態における音声処理システム５Ｄでも、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第５実施形態においては、発生する位置が異なる複数の音声を、１つのマイクによって収音できるように構成されている。具体的には、音声処理システム５Ｄは、後部座席の乗員ｈｍ３の音声および乗員ｈｍ４の音声を、マイクＭＣ３で収音している。その上で、音声信号Ｃを適応フィルタＦ５Ｂ、適応フィルタＦ５Ｃ、および適応フィルタＦ５Ｄに入力した場合の出力信号をそれぞれ生成し、誤差信号が最小になる場合の出力信号を、音声処理システム５Ｄは特定している。これにより、複数の音声が１つのマイクによって収音されるような場合でも、ターゲット成分の音声信号を精度よく求めることができる。そのため、マイクを例えば座席ごとに１つずつ設けなくともよいので、コストを低減することができる。また、適応フィルタを用いてターゲット成分を求める際に、すべての席に設けられたマイクから出力される信号を参照信号として用いる場合と比較して、処理に用いる参照信号の数を減らすことができる。これにより、クロストーク成分をキャンセルする処理の量を低減することができる。また、第５実施形態においては、音声信号にいずれの乗員の音声が含まれるかを判定する処理を行っていない。そのため、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。

【0195】

（第６実施形態）
第６実施形態に係る音声処理システム５Ｅは、音声処理装置２０Ａに代えて音声処理装置２０Ｅを備える点で第２実施形態に係る音声処理システム５Ａと異なる。第６実施形態に係る音声処理装置２０Ｅは、複数のマイクから出力される音声信号を合算したものを参照信号として用いて、クロストーク成分をキャンセルする処理を行う。以下、図１９、図２０および図２１を用いて音声処理装置２０Ｅについて説明する。第１実施形態および第２実施形態で説明した構成や動作と同一の構成や動作については、同一の符号を用いることで、その説明を省略又は簡略化する。

【0196】

図１９を用いて、第６実施形態における音声処理システム５Ｅの詳細を説明する。図１９は、第６実施形態における音声処理システム５Ｅの概略構成の一例を示す図である。音声処理システム５は、マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、マイクＭＣ４、及び音声処理装置２０Ｅを含む。マイクＭＣ１、マイクＭＣ２、マイクＭＣ３、およびマイクＭＣ４については、第２実施形態と同様であるので説明を省略する。

【0197】

本実施形態において、音声処理システム５Ｅは、各マイクに対応する複数の音声処理装置２０Ｅを備える。具体的には、音声処理システム５Ｅは、音声処理装置２１Ｅと、音声処理装置２２Ｅと、音声処理装置２３Ｅと、音声処理装置２４Ｅとを備える。音声処理装置２１Ｅは、マイクＭＣ１に対応する。音声処理装置２２Ｅは、マイクＭＣ２に対応する。音声処理装置２３Ｅは、マイクＭＣ３に対応する。音声処理装置２４Ｅは、マイクＭＣ４に対応する。以下、音声処理装置２１Ｅ、音声処理装置２２Ｅ、音声処理装置２３Ｅおよび音声処理装置２４Ｅをまとめて音声処理装置２０Ｅと呼ぶことがある。

【0198】

図１９に示される構成では、音声処理装置２１Ｅ、音声処理装置２２Ｅ、音声処理装置２３Ｅ、および音声処理装置２４Ｅがそれぞれ別のハードウェアで構成されることを例示しているが、１つの音声処理装置２０Ｅによって音声処理装置２１Ｅ、音声処理装置２２Ｅ、音声処理装置２３Ｅ、および音声処理装置２４Ｅの機能が実現されてもよい。あるいは、音声処理装置２１Ｅ、音声処理装置２２Ｅ、音声処理装置２３Ｅ、および音声処理装置２４Ｅのうち、一部が共通のハードウェアで構成され、残りがそれぞれ別のハードウェアで構成されてもよい。

【0199】

本実施形態において、各音声処理装置２０Ｅは、対応する各マイク付近の各座席内に配置される。音声処理装置２０Ｅの位置については、例えば第２実施形態と同様である。

【0200】

図２０は、音声処理装置２１Ｅの構成を示すブロック図である。音声処理装置２１Ｅ、音声処理装置２２Ｅ、音声処理装置２３Ｅ、および音声処理装置２４Ｅは、後述するフィルタ部の一部の構成を除いていずれも同様の構成および機能を有する。ここでは、音声処理装置２１Ｅについて説明する。音声処理装置２１Ｅは、運転者ｈｍ１が発話する音声をターゲットとする。音声処理装置２１Ｅは、マイクＭＣ１で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。

【0201】

音声処理装置２１Ｅは、図２０に示すように、音声入力部２９Ｅと、指向性制御部３０Ｅと、複数の適応フィルタを含むフィルタ部Ｆ６と、フィルタ部Ｆ６の適応フィルタのフィルタ係数を制御する制御部２８Ｅと、加算部２７Ｅと、を備える。

【0202】

音声入力部２９Ｅは、第２実施形態の音声入力部２９Ａと同様であるので、説明を省略する。

【0203】

指向性制御部３０Ｅには、音声入力部２９Ｅから出力された音声信号Ａ、音声信号Ｂ、音声信号Ｃ、および音声信号Ｄが入力される。指向性制御部３０Ｅは、ターゲットとする乗員の座席付近のマイクと、そのマイクと同じ側にあるマイクと、から出力された音声信号を使用して指向性制御処理を行う。音声処理装置２１Ｅでは運転者ｈｍ１が発話する音声をターゲットとしているので、指向性制御部３０Ｅは、音声信号Ａおよび音声信号Ｂを使用して指向性制御処理を行う。そして、指向性制御部３０Ｅは、２つの音声信号を使用して指向性制御処理を行うことによって得られた２つの指向性信号を出力する。例えば、指向性制御部３０Ｅは、音声信号Ａに対して指向性制御処理を行って得られた第１指向性信号を出力する。また、指向性制御部３０Ｅは、音声信号Ｂに対して指向性制御処理を行って得られた第２指向性信号を出力する。指向性制御部３０Ｅは、すべての音声信号を使用して指向性制御処理を行い、得られた指向性信号を出力してもよい。例えば、指向性制御部３０Ｅは、第１指向性信号と第２指向性信号に加えて、音声信号Ｃに対して指向性制御処理を行って得られた第３指向性信号と、音声信号Ｄに対して指向性制御処理を行って得られた第４指向性信号と、を出力する。

【0204】

また、指向性制御部３０Ｅは、ターゲットとする乗員の座席付近のマイクと違う側にあるマイクに音声成分が入力されたかを判定する。具体的には、指向性制御部３０Ｅは、マイクＭＣ３およびマイクＭＣ４に音声成分が入力されたかを判定する。例えば、指向性制御部３０は、音声信号Ｃの強度が、第１指向性信号の強度および第２指向性信号の強度の少なくとも一方よりも大きい場合に、マイクＭＣ３に音声信号が入力されたと判定し、そうでない場合に、マイクＭＣ３に音声信号が入力されなかったと判定する。マイクＭＣ４についても同様である。

【0205】

本実施形態において、ターゲットとする乗員の座席付近のマイクと違う側にあるマイクに音声成分が入力されたかの判定を、指向性制御部３０Ｅが行っているが、音声処理装置２１Ｅが指向性制御部３０Ｅとは別に、判定部としての発話判定部を備え、発話判定部が判定を行ってもよい。その場合、発話判定部は、例えば音声入力部２９Ｅと指向性制御部３０Ｅの間に接続される。発話判定部の構成および機能は、第１実施形態で説明したものと同様であるので詳細な説明を省略する。発話判定部を備える場合、音声処理装置５Ｅは、指向性制御部３０Ｅを備えなくてもよい。

【0206】

フィルタ部Ｆ６は、適応フィルタＦ６Ａおよび適応フィルタＦ６Ｂを含む。フィルタ部Ｆ６は、マイクＭＣ１で収音される音声に含まれる、運転者ｈｍ１の音声以外のクロストーク成分を抑圧する処理に用いられる。本実施形態においては、フィルタ部Ｆ６は２つの適応フィルタを含むが、適応フィルタの数は、入力される音声信号の数およびクロストーク抑圧処理の処理量に基づいて適宜設定される。クロストークを抑圧する処理については、詳細は後述する。

【0207】

適応フィルタＦ６Ａには、参照信号として第２指向性信号が入力される。適応フィルタＦ６Ａは、フィルタ係数Ｃ６Ａおよび第２指向性信号に基づいた通過信号Ｐ６Ａを出力する。適応フィルタＦ６Ｂには、参照信号として音声信号Ｃおよび音声信号Ｄが入力される。適応フィルタＦ６Ｂは、フィルタ係数Ｃ６Ｂ、音声信号Ｃ、および音声信号Ｄに基づいた通過信号Ｐ６２Ｂを出力する。適応フィルタＦ６Ｂは、「第１信号および第２信号が入力される適応フィルタ」に相当する。フィルタ部Ｆ６は、通過信号Ｐ６Ａと、通過信号Ｐ６Ｂと、を足し合わせて出力する。本実施形態においては、適応フィルタＦ６Ａおよび適応フィルタＦ６Ｂは、プロセッサがプログラムを実行することにより実現される。適応フィルタＦ６Ａおよび適応フィルタＦ６Ｂは、物理的に分離された別々のハードウェア構成であってもよい。

【0208】

加算部２７Ｅは、音声入力部２９Ｅから出力される、ターゲットの音声信号である第１指向性信号から、減算信号を減算することで、出力信号を生成する。本実施形態において減算信号は、フィルタ部Ｆ６から出力される、通過信号Ｐ６Ａおよび通過信号Ｐ６Ｂを足し合わせた信号である。加算部２７Ｅは、出力信号を制御部２８Ｅに出力する。

【0209】

制御部２８Ｅは、加算部２７Ｅから出力される出力信号を出力する。制御部２８Ｅの出力信号は、音声認識エンジン４０に入力される。あるいは、制御部２８Ｅから、電子機器５０に出力信号が直接入力されてもよい。制御部２８Ｅから電子機器５０に出力信号が直接入力される場合、制御部２８Ｅと電子機器５０とは、有線で接続されていてもよく、無線で接続されていてもよい。例えば、電子機器５０が携帯端末であり、制御部２８Ｅから、無線通信網を介して、携帯端末に出力信号が直接入力されてもよい。携帯端末へ入力された出力信号は、携帯端末の有するスピーカから音声として出力されてもよい。

【0210】

また、制御部２８Ｅは、加算部２７Ｅから出力される出力信号に基づいて、各適応フィルタのフィルタ係数を更新する。制御部２８Ｅは、各適応フィルタについて、式（１）における誤差信号の値が０に近づくように、フィルタ係数を更新する。具体的なフィルタ係数の更新方法に関しては、第１実施形態で説明したのと同様である。

【0211】

本実施形態において、音声入力部２９Ｅと、指向性制御部３０Ｅと、フィルタ部Ｆ６と、制御部２８Ｅと、加算部２７Ｅと、は、プロセッサがメモリに保持されたプログラムを実行することで、その機能が実現される。あるいは、音声入力部２９Ｅと、指向性制御部３０Ｅと、フィルタ部Ｆ６と、制御部２８Ｅと、加算部２７Ｅと、は、別々のハードウェアで構成されてもよい。

【0212】

音声処理装置２１Ｅについて説明したが、音声処理装置２２Ｅ、音声処理装置２３Ｅ、および音声処理装置２４Ｅについてもフィルタ部以外はほぼ同様の構成を有する。音声処理装置２２Ｅは、乗員ｈｍ２が発話する音声をターゲット成分とする。音声処理装置２２Ｅは、マイクＭＣ２で収音される音声信号からクロストーク成分を抑圧した音声信号を、出力信号として出力する。したがって、音声処理装置２２Ｅは、第１指向性信号、音声信号Ｃ、および音声信号Ｄが入力されるフィルタ部を有する点で音声処理装置２１Ｅと異なる。音声処理装置２３Ｅ、音声処理装置２４Ｅについても同様である。

【0213】

図２１は、音声処理装置２１Ｅの動作手順を示すフローチャートである。まず、音声入力部２９Ｅに、音声信号Ａ、音声信号Ｂ、音声信号Ｃ、および音声信号Ｄが入力される（Ｓ５０１）。次に、指向性制御部３０Ｅが、音声信号Ａおよび音声信号Ｂを使用した指向性制御処理を行い、第１指向性信号と第２指向性信号を生成する（Ｓ５０２）。そして、指向性制御部３０Ｅが、第１実施形態と同様の方法で、マイクＭＣ３あるいはマイクＭＣ４に音声成分が入力されたかを判定する（Ｓ５０３）。指向性制御部３０Ｅは、判定結果をフラグとして制御部２８Ｅに出力する。マイクＭＣ３あるいはマイクＭＣ４に音声信号が入力されなかったと指向性制御部３０Ｅが判定した場合（Ｓ５０３：Ｎｏ）、制御部２８Ｅは、フィルタ部Ｆ６に入力される音声信号Ｃおよび音声信号Ｄの強度をゼロにし、第２指向性信号の強度は変更しない。そして、フィルタ部Ｆ６は、以下のように減算信号を生成する（Ｓ５０４）。適応フィルタＦ６Ａは、第２指向性信号を通過させ、通過信号Ｐ６Ａを出力する。適応フィルタＦ６Ｂは、音声信号Ｃおよび音声信号Ｄを通過させ、通過信号Ｐ６Ｂを出力する。フィルタ部Ｆ６は、通過信号Ｐ５Ａおよび通過信号Ｐ５Ｂを足し合わせて、減算信号として出力する。加算部２７Ｅは、第１指向性信号から減算信号を減算し、出力信号を生成して出力する（Ｓ５０５）。出力信号は、制御部２８Ｅに入力され、制御部２８Ｅから出力される。次に、制御部２８Ｅは、出力信号に基づき、出力信号に含まれるターゲット成分が最大となるように、適応フィルタＦ６Ａのフィルタ係数を更新する（Ｓ５０６）。そして、音声処理装置２１Ｅは再び工程Ｓ５０１を行う。

【0214】

工程Ｓ５０３においてマイクＭＣ３あるいはマイクＭＣ４に音声信号が入力されたと指向性制御部３０Ｅが判定した場合（Ｓ５０３：Ｙｅｓ）、制御部２８Ｅは、強度が変更されないまま音声信号Ｃおよび音声信号Ｄが適応フィルタＦ６Ｂに入力されるようにフィルタ部Ｆ６を制御する。言い換えると、制御部２８Ｅは、適応フィルタＦ６Ａに入力される第２指向性信号の強度と、適応フィルタＦ６Ｂに入力される音声信号Ｃおよび音声信号Ｄの強度を変更しない。フィルタ部Ｆ６は、通過信号Ｐ６Ａと、通過信号Ｐ６Ｂと、を足し合わせた減算信号を生成し、加算部２７Ｅに出力する（Ｓ５０７）。加算部２７Ｅは、第１指向性信号から減算信号を減算し、出力信号を生成して制御部２８Ｅに出力する（Ｓ５０８）。制御部２８Ｅは、出力信号に含まれるターゲット成分が最大となるように、音声信号が入力される適応フィルタのフィルタ係数を更新する（Ｓ５０９）。具体的には、適応フィルタＦ６Ａおよび適応フィルタＦ６Ｂのフィルタ係数を更新する。そして、音声処理装置２１Ｅは再び工程Ｓ５０１を行う。

【0215】

本実施形態において、音声信号の強度がゼロの状態で入力される適応フィルタに関しては、フィルタ係数の更新を行っていない。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、制御部２８Ｅの処理量を低減することができる。一方で、制御部２８Ｅがすべての適応フィルタについて常にフィルタ係数の更新を行ってもよい。すべての適応フィルタについて常にフィルタ係数の更新を行うことで、制御部２８Ｅが常に同じ処理を行うことができるため、処理が簡易になる。また、すべての適応フィルタについて常にフィルタ係数の更新を行うことで、例えば、ある適応フィルタについて、強度がゼロである音声信号が入力される状態から、強度がゼロでない音声信号が入力される状態に変わった直後でも、フィルタ係数を精度よく更新することができる。

【0216】

このように、第６実施形態における音声処理システム５Ｅでも、複数のマイクによって複数の音声信号を取得し、ある音声信号から、他の音声信号を参照信号として、適応フィルタを用いて生成した減算信号を減算することにより、特定の話者の音声を高精度に求める。第６実施形態においては、複数の音声信号を足し合わせたものを参照信号として用いている。これにより、各座席で個別に音声信号を収音可能であると同時に、座席ごとに得られたすべての信号を参照信号として用いる場合と比較して、クロストーク成分をキャンセルする処理の量を低減することができる。具体的には、音声処理システム５Ｅは、後部座席の乗員ｈｍ３の音声および乗員ｈｍ４の音声を、マイクＭＣ３およびマイクＭＣ４で個別に収音している。音声処理システム５Ｅは、その上で、音声信号Ｃと音声信号Ｄの両方を適応フィルタＦ６Ｂに入力させ、参照信号として用いている。また、第６実施形態においては、音声信号にいずれの乗員の音声が含まれるかを判定する処理を行っていない。そのため、クロストーク成分をキャンセルする処理の量を低減することができる。また、音声信号の強度がゼロの状態で入力される適応フィルタに関して、フィルタ係数の更新を行わなくてもよい。これにより、すべての適応フィルタについて常にフィルタ係数の更新を行う場合と比較して、処理量をさらに低減することができる。

【0217】

項目１（第４実施形態）
第１位置で生じる第１音声成分と、前記第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号を取得し、前記第１音声信号に基づいた第１信号を出力する、第１マイクと、
前記第１信号が入力され、前記第１信号に基づいた通過信号を出力する適応フィルタと、
前記適応フィルタのフィルタ係数を制御する制御部と、
を備え、
前記第１音声信号が前記第１音声成分を含むとき、および、前記第１音声信号が前記第２音声成分を含むとき、のいずれにおいても、前記第１信号が前記適応フィルタに入力される、音声処理システム。

【0218】

項目２（第５実施形態）
第１位置で生じる第１音声成分と、前記第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号を取得し、前記第１音声信号に基づいた第１信号を出力する、第１マイクと、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第２音声信号を取得し、前記第２音声信号に基づいた第２信号を出力し、前記第１位置に対して前記第１マイクよりも遠くに位置する第２マイクと、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第３音声信号を取得し、前記第３音声信号に基づいた第３信号を出力し、前記第２位置に対して前記第１マイクよりも遠くに位置する第３マイクと、
前記第１信号が入力され、前記第１信号に基づいた通過信号を出力する、２つ以上の適応フィルタと、
前記２つ以上の適応フィルタのフィルタ係数を制御する制御部と、
前記第２信号または前記第３信号から、前記通過信号に基づいた減算信号を減算する加算部と、
を備え、
前記２つ以上の適応フィルタは、第１適応フィルタと、第２適応フィルタと、を含み、
前記第１適応フィルタは、前記第１信号が入力され、前記第１信号に基づいた第１通過信号を出力し、
前記第２適応フィルタは、前記第１信号が入力され、前記第１信号に基づいた第２通過信号を出力し、
前記加算部は、前記第２信号または前記第３信号から、前記第１通過信号に基づいた第１減算信号を減算した第１出力信号と、前記第２通過信号に基づいた第２減算信号を減算した第２出力信号と、を出力し、
前記制御部は、前記第１出力信号と、前記第２出力信号と、に基づいて、前記減算信号の生成に前記第１適応フィルタと前記第２適応フィルタとのいずれを用いるかを決定する、
音声処理システム。

【0219】

項目３
前記第１音声信号が前記第１音声成分を含むとき、前記第１信号が前記第１適応フィルタに入力され、
前記第１音声信号が前記第２音声成分を含むとき、前記第１信号が前記第２適応フィルタに入力される、
項目２に記載の音声処理システム。

【0220】

項目４
前記２つ以上の適応フィルタは、第３適応フィルタを含み、
前記第１音声信号が、前記第１音声成分と前記第２音声成分とを含むとき、前記第１信号が前記第３適応フィルタに入力される、
項目３に記載の音声処理システム。

【0221】

項目５（第６実施形態）
第１位置で生じる第１音声成分と、前記第１位置とは異なる第２位置で生じる第２音声成分と、の少なくとも一方を含む第１音声信号を取得し、前記第１音声信号に基づいた第１信号を出力する第１マイクと、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第２音声信号を取得し、前記第２音声信号に基づいた第２信号を出力し、前記第２位置に対して前記第１マイクよりも遠くに位置する第２マイクと、
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第３音声信号を取得し、前記第３音声信号に基づいた第３信号を出力し、前記第１位置に対して前記第１マイクよりも遠くに位置する、あるいは前記第２位置に対して前記第２マイクよりも遠くに位置する第３マイクと、
前記第１信号および前記第２信号が入力され、前記第１信号および前記第２信号に基づいた通過信号を出力する適応フィルタと、
前記第３信号から、前記通過信号に基づいた減算信号を減算する加算部と、
を備える、音声処理システム。

【0222】

項目６
前記第１音声成分と、前記第２音声成分と、の少なくとも一方を含む第４音声信号を取得し、前記第４音声信号に基づいた第４信号を出力し、前記第２位置に対して前記第１マイクおよび前記第２マイクよりも遠くに位置する第４マイクと、
前記第３信号に対して指向性制御処理を行って第１指向性信号を出力し、前記第４信号に対して指向性制御処理を行って第２指向性信号を出力する指向性制御部と、
を備え、
前記第３マイクは、前記第１位置に対して前記第１マイクよりも遠くに位置する、項目５に記載の音声処理システム。

【符号の説明】

【0223】

５音声処理システム
１０車両
２０、２１、２２、２３音声処理装置
２７加算部
２８制御部
２９音声入力部
３０指向性制御部
３１異常検知部
Ｆ１フィルタ部
Ｆ１Ａ、Ｆ１Ｂ、Ｆ１Ｃ適応フィルタ
４０音声認識エンジン
５０電子機器

【図1】