特許7435948 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック　インテレクチュアル　プロパティ　コーポレーション　オブ　アメリカの特許一覧

特許7435948収音装置、収音方法及び収音プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-13

(45)【発行日】2024-02-21

(54)【発明の名称】収音装置、収音方法及び収音プログラム

(51)【国際特許分類】

G10L 21/034 20130101AFI20240214BHJP

G10L 21/0272 20130101ALI20240214BHJP

G10L 25/84 20130101ALI20240214BHJP

H04R 3/00 20060101ALI20240214BHJP

H04R 1/40 20060101ALI20240214BHJP

【ＦＩ】

G10L21/034

G10L21/0272 100A

G10L25/84

H04R3/00 320

H04R1/40 320A

【請求項の数】 14

(21)【出願番号】P 2020043913

(22)【出願日】2020-03-13

(65)【公開番号】P2021081696

(43)【公開日】2021-05-27

【審査請求日】2022-12-23

(31)【優先権主張番号】62/936,787

(32)【優先日】2019-11-18

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】514136668

【氏名又は名称】パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ

【氏名又は名称原語表記】ＰａｎａｓｏｎｉｃＩｎｔｅｌｌｅｃｔｕａｌＰｒｏｐｅｒｔｙＣｏｒｐｏｒａｔｉｏｎｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100115381

【弁理士】

【氏名又は名称】小谷昌崇

(74)【代理人】

【識別番号】100118049

【弁理士】

【氏名又は名称】西谷浩治

(72)【発明者】

【氏名】古川博基

(72)【発明者】

【氏名】杠慎一

【審査官】大石剛

(56)【参考文献】

【文献】特開２０１０－２３２７１７（ＪＰ，Ａ）

【文献】特開２０１１－０３００２２（ＪＰ，Ａ）

【文献】特開２００６－０５８３９５（ＪＰ，Ａ）

【文献】特開２０１２－０４８１１９（ＪＰ，Ａ）

【文献】特開２０１２－０２７１０１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／０３４

Ｇ１０Ｌ２１／０２７２

Ｇ１０Ｌ２５／８４

Ｈ０４Ｒ３／００

Ｈ０４Ｒ１／４０

(57)【特許請求の範囲】

【請求項1】

複数のマイクロホン素子と、
前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、
発話者の音声を目的音として検出する目的音検出部と、
前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、
前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、
を備え、
前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音装置。

【請求項2】

前記目的音検出部は、前記複数のマイクロホン素子のうちの１つのマイクロホン素子の出力信号が前記音声と前記音声以外の非音声とのいずれであるかを判定する音声判定部を含む、
請求項１記載の収音装置。

【請求項3】

前記目的音検出部は、前記１つのマイクロホン素子の出力信号から特定の帯域の信号を抽出する第１抽出部を含み、
前記音声判定部は、前記第１抽出部によって抽出された前記信号に対して前記音声と前記非音声とのいずれであるかを判定する、
請求項２記載の収音装置。

【請求項4】

前記目的音検出部は、
前記複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から前記目的音が到来しているか否かを判定する目的音方向判定部と、
前記目的音方向判定部によって前記目的音方向から前記目的音が到来していると判定され、かつ前記音声判定部によって前記１つのマイクロホン素子の出力信号が前記音声であると判定された場合、前記目的音が検出されたと判定する目的音判定部と、
を含む、
請求項２又は３記載の収音装置。

【請求項5】

前記目的音検出部は、前記複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する第２抽出部を含み、
前記目的音方向判定部は、前記第２抽出部によって抽出された前記信号に対して前記目的音方向から前記目的音が到来しているか否かを判定する、
請求項４記載の収音装置。

【請求項6】

前記目的音方向判定部は、
前記複数のマイクロホン素子の出力信号の位相差を用いて、前記目的音が到来する方向を推定する方向推定部と、
前記方向推定部によって推定された前記方向が、予め決められた前記目的音方向であるか否かを判定する方向判定部と、
を含む、
請求項４又は５記載の収音装置。

【請求項7】

前記目的音方向判定部は、
前記複数のマイクロホン素子の出力信号を用いて前記目的音方向の信号を強調することにより前記目的音方向に指向性を形成する第１指向性合成部と、
前記複数のマイクロホン素子の出力信号を用いて前記目的音方向に感度の死角を形成する第２指向性合成部と、
前記第１指向性合成部からの出力信号の出力レベルと、前記第２指向性合成部からの出力信号の出力レベルとを比較し、前記目的音方向から前記目的音が到来しているか否かを判定するレベル比較判定部と、
を含む、
請求項４又は５記載の収音装置。

【請求項8】

前記ゲイン制御部は、
前記複数のマイクロホン素子それぞれの出力信号の出力レベルを検出するレベル検出部と、
前記目的音検出部によって前記発話者の前記音声が検出された場合に、前記レベル検出部によって検出された各出力レベルの時間平均レベルを算出する時間平均レベル算出部と、
前記時間平均レベル算出部によって算出された前記時間平均レベルから、前記ゲインを更新した補正ゲインを算出する補正ゲイン算出部と、
を含む、
請求項１～７のいずれか１項に記載の収音装置。

【請求項9】

前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている１つのマイクロホン素子の前記時間平均レベルを基準として、前記１つのマイクロホン素子以外の他のマイクロホン素子の前記時間平均レベルが前記１つのマイクロホン素子の前記時間平均レベルと同じになるように前記他のマイクロホン素子の前記補正ゲインを算出する、
請求項８記載の収音装置。

【請求項10】

前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている少なくとも２つのマイクロホン素子の前記時間平均レベルの平均値を基準として、前記複数のマイクロホン素子の前記時間平均レベルが前記少なくとも２つのマイクロホン素子の前記時間平均レベルの前記平均値と同じになるように前記複数のマイクロホン素子の前記補正ゲインを算出する、
請求項８記載の収音装置。

【請求項11】

前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号から特定の帯域の信号を抽出する第３抽出部を含み、
前記レベル検出部は、前記第３抽出部によって抽出された各信号の出力レベルを検出する、
請求項８～１０のいずれか１項に記載の収音装置。

【請求項12】

前記特定の帯域は、２００Ｈｚから５００Ｈｚの帯域である、
請求項１１記載の収音装置。

【請求項13】

コンピュータが、
複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正し、
発話者の音声を目的音として検出し、
前記目的音の検出結果に基づいて前記ゲインを制御し、
補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音し、
前記ゲインの制御において、前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音方法。

【請求項14】

複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、
発話者の音声を目的音として検出する目的音検出部と、
前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、
前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部としてコンピュータを機能させ、
前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、複数のマイクロホン素子を用いて目的音を収音する技術に関するものである。

【背景技術】

【0002】

従来、少なくとも２つのマイクロホン素子からの出力信号を用いて指向性を制御するビームフォーマが知られている。そして、このビームフォーマを用いて、周囲ノイズを抑圧し、目的音を周囲ノイズから分離して収音する収音装置がある。ビームフォーマのノイズ抑圧性能は、少なくとも２つのマイクロホン素子間の感度ばらつきにより劣化するおそれがある。

【0003】

例えば、特許文献１は、一般化サイドローブキャンセラ（以下、ＧＳＣ（ＧｅｎｅｒａｌＳｉｄｅｌｏｂｅＣａｎｃｅｌｌｅｒ）と呼ぶ）に自動キャリブレーション処理を組み合わせたビームフォーマを開示している。特許文献１においては、周囲ノイズによって複数のマイクロホン間の感度ばらつきが補正されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特許第４７３４０７０号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記従来の技術では、指向性合成におけるノイズ抑圧性能が低下するおそれがあるので、更なる改善が必要とされていた。

【0006】

本開示は、上記の問題を解決するためになされたもので、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高Ｓ／Ｎ比で収音することができる技術を提供することを目的とする。

【課題を解決するための手段】

【0007】

本開示の一態様に係る収音装置は、複数のマイクロホン素子と、前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、を備え、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。

【発明の効果】

【0008】

本開示によれば、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高Ｓ／Ｎ比で収音することができる。

【図面の簡単な説明】

【0009】

【図1】本開示の実施の形態１における収音装置の構成を示すブロック図である。

【図2】本開示の実施の形態１におけるマイクロホンアレイの設置位置の一例を示す図である。

【図3】本開示の実施の形態１におけるマイクロホンアレイのマイクロホン素子の配置例を示す図である。

【図4】本開示の実施の形態１における収音装置の目的音検出部の構成を示すブロック図である。

【図5】本開示の実施の形態１における収音装置の音声判定部の構成を示すブロック図である。

【図6】本開示の実施の形態１における収音装置の感度補正制御部の構成を示すブロック図である。

【図7】本開示の実施の形態１における収音装置の動作について説明するためのフローチャートである。

【図8】本開示の実施の形態２における収音装置の構成を示すブロック図である。

【図9】本開示の実施の形態２における収音装置の目的音検出部の構成を示すブロック図である。

【図10】本開示の実施の形態２における収音装置の目的音方向判定部の構成を示すブロック図である。

【図11】本開示の実施の形態２の変形例における収音装置の目的音方向判定部の構成を示すブロック図である。

【発明を実施するための形態】

【0010】

（本開示の基礎となった知見）
上記のように、従来技術においては、周囲ノイズによって複数のマイクロホン間の感度ばらつきが補正されている。

【0011】

しかしながら、ノイズ源が、複数のマイクロホン素子で構成されるマイクロホンアレイの近傍にある場合、ノイズ源と各マイクロホン素子との距離差を無視することができず、ノイズ源から発生したノイズが各マイクロホン素子の位置での音圧差となって表れる。このようなマイクロホンアレイの近傍にあるノイズ源から発生したノイズによって複数のマイクロホン素子の感度補正又は自動キャリブレーションが行われた場合、正しく感度補正又は自動キャリブレーションが行えず、かえってその後段のビームフォーマの出力の性能を劣化させるおそれがあった。

【0012】

特に、ＧＳＣにおいては、ブロッキングマトリックスが、目的音方向に感度の死角を持つノイズ参照信号を作成する。しかしながら、複数のマイクロホン素子間に感度ばらつきがあると、目的音方向に感度の死角が形成できず、ノイズ参照信号に目的音が漏れこむ。この場合、後段の適応ノイズキャンセリングを経由した目的音が漏れ込んだノイズ参照信号が、重み付き和ビームフォーマの出力から差引かれることで、出力信号の目的音に歪を与えることがある。ノイズ参照信号に目的音が漏れ込まないようにするためには、少なくとも複数のマイクロホン素子間の感度を揃える必要がある。

【0013】

以上の課題を解決するために、本開示の一態様に係る収音装置は、複数のマイクロホン素子と、前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、を備え、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。

【0014】

この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。

【0015】

したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高Ｓ／Ｎ比で収音することができる。

【0016】

また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子のうちの１つのマイクロホン素子の出力信号が前記音声と前記音声以外の非音声とのいずれであるかを判定する音声判定部を含んでもよい。

【0017】

この構成によれば、複数のマイクロホン素子のうちの１つのマイクロホン素子の出力信号が音声と非音声とのいずれであるかが判定されることにより、発話者の音声を容易に検出することができる。

【0018】

また、上記の収音装置において、前記目的音検出部は、前記１つのマイクロホン素子の出力信号から特定の帯域の信号を抽出する第１抽出部を含み、前記音声判定部は、前記第１抽出部によって抽出された前記信号に対して前記音声と前記非音声とのいずれであるかを判定してもよい。

【0019】

この構成によれば、１つのマイクロホン素子の出力信号から抽出された特定の帯域の信号に対して音声と非音声とのいずれであるかが判定されるので、より高い精度で発話者の音声を検出することができる。

【0020】

また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から前記目的音が到来しているか否かを判定する目的音方向判定部と、前記目的音方向判定部によって前記目的音方向から前記目的音が到来していると判定され、かつ前記音声判定部によって前記１つのマイクロホン素子の出力信号が前記音声であると判定された場合、前記目的音が検出されたと判定する目的音判定部と、を含んでもよい。

【0021】

音声が検出されたか否かの判定のみでは、目的音方向以外の方向から発話があった場合も音声が検出されたと判定されてしまうおそれがある。一方、上記の構成によれば、音声が検出され、且つ目的音方向から目的音が到来している場合のみ、目的音が検出されたと判定され、ゲインが更新されるので、より高い精度で目的音を用いて感度差を補正することができる。

【0022】

また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する第２抽出部を含み、前記目的音方向判定部は、前記第２抽出部によって抽出された前記信号に対して前記目的音方向から前記目的音が到来しているか否かを判定してもよい。

【0023】

この構成によれば、複数のマイクロホン素子の出力信号から抽出された特定の帯域の信号に対して目的音方向から目的音が到来しているか否かが判定されるので、より高い精度で目的音方向から目的音が到来しているか否かを判定することができる。

【0024】

また、上記の収音装置において、前記目的音方向判定部は、前記複数のマイクロホン素子の出力信号の位相差を用いて、前記目的音が到来する方向を推定する方向推定部と、前記方向推定部によって推定された前記方向が、予め決められた前記目的音方向であるか否かを判定する方向判定部と、を含んでもよい。

【0025】

目的音が到来する方向は、複数のマイクロホン素子の出力信号の位相差を用いることによって容易に推定することができる。そのため、目的音方向から目的音が到来しているか否かは、予め目的音方向が既知であれば、目的音が到来する方向の推定結果に基づいて容易に判定することができる。

【0026】

また、上記の収音装置において、前記目的音方向判定部は、前記複数のマイクロホン素子の出力信号を用いて前記目的音方向の信号を強調することにより前記目的音方向に指向性を形成する第１指向性合成部と、前記複数のマイクロホン素子の出力信号を用いて前記目的音方向に感度の死角を形成する第２指向性合成部と、前記第１指向性合成部からの出力信号の出力レベルと、前記第２指向性合成部からの出力信号の出力レベルとを比較し、前記目的音方向から前記目的音が到来しているか否かを判定するレベル比較判定部と、を含んでもよい。

【0027】

目的音方向から目的音が到来している場合、第１指向性合成部からの出力信号レベルは、第２指向性合成部からの出力信号レベルより大きくなる。そのため、第１指向性合成部からの出力信号レベルが、第２指向性合成部からの出力信号レベルより大きい場合、目的音方向から目的音が到来していると判定することができる。一方、目的音方向から目的音が到来していない場合、第１指向性合成部及び第２指向性合成部の出力信号には、周辺ノイズのみが含まれる。したがって、第１指向性合成部からの出力信号レベルは、第２指向性合成部からの出力信号レベルとほぼ等しくなるか、第２指向性合成部からの出力信号レベルよりも小さくなる。そのため、第１指向性合成部からの出力信号レベルが、第２指向性合成部からの出力信号レベル以下である場合、目的音方向から目的音が到来していないと判定することができる。

【0028】

また、上記の収音装置において、前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号の出力レベルを検出するレベル検出部と、前記目的音検出部によって前記発話者の前記音声が検出された場合に、前記レベル検出部によって検出された各出力レベルの時間平均レベルを算出する時間平均レベル算出部と、前記時間平均レベル算出部によって算出された前記時間平均レベルから、前記ゲインを更新した補正ゲインを算出する補正ゲイン算出部と、を含んでもよい。

【0029】

この構成によれば、発話者の音声が検出された場合に、複数のマイクロホン素子それぞれの出力信号の出力レベルの時間平均レベルが算出される。そして、算出された時間平均レベルから、ゲインを更新した補正ゲインが算出されるので、複数のマイクロホン素子の出力信号に算出された補正ゲインを掛けることにより複数のマイクロホン素子間の感度差を補正することができる。

【0030】

また、上記の収音装置において、前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている１つのマイクロホン素子の前記時間平均レベルを基準として、前記１つのマイクロホン素子以外の他のマイクロホン素子の前記時間平均レベルが前記１つのマイクロホン素子の前記時間平均レベルと同じになるように前記他のマイクロホン素子の前記補正ゲインを算出してもよい。

【0031】

この構成によれば、複数のマイクロホン素子のうちの予め決められている１つのマイクロホン素子の出力レベルに対して、他のマイクロホン素子の出力レベルが揃うように、複数のマイクロホン素子間の感度差を補正することができる。

【0032】

また、上記の収音装置において、前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている少なくとも２つのマイクロホン素子の前記時間平均レベルの平均値を基準として、前記複数のマイクロホン素子の前記時間平均レベルが前記少なくとも２つのマイクロホン素子の前記時間平均レベルの前記平均値と同じになるように前記複数のマイクロホン素子の前記補正ゲインを算出してもよい。

【0033】

この構成によれば、複数のマイクロホン素子のうちの予め決められている少なくとも２つのマイクロホン素子の出力レベルの平均値に対して、複数のマイクロホン素子の出力レベルが揃うように、複数のマイクロホン素子間の感度差を補正することができる。

【0034】

また、上記の収音装置において、前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号から特定の帯域の信号を抽出する第３抽出部を含み、前記レベル検出部は、前記第３抽出部によって抽出された各信号の出力レベルを検出してもよい。

【0035】

この構成によれば、複数のマイクロホン素子それぞれの出力信号から抽出された特定の帯域の各信号の出力レベルが検出されるので、目的音以外のノイズによる影響を低減することができる。

【0036】

また、上記の収音装置において、前記特定の帯域は、２００Ｈｚから５００Ｈｚの帯域であってもよい。

【0037】

この構成によれば、複数のマイクロホン素子それぞれの出力信号から抽出された２００Ｈｚから５００Ｈｚの帯域の各信号の出力レベルが検出される。したがって、２００Ｈｚ以下の低域ノイズが除去されることで低域ノイズの影響を低減することができる。また、５００Ｈｚ以上の帯域が除去されることでマイクロホンアレイの大きさよりも十分長い波長の音に限定し、マイクロホンアレイを構成するマイクロホン素子の位置による音圧の差異が少なくなる。これにより、精度良い感度補正が可能となる。

【0038】

本開示の他の態様に係る収音方法は、コンピュータが、複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正し、発話者の音声を目的音として検出し、前記目的音の検出結果に基づいて前記ゲインを制御し、補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音し、前記ゲインの制御において、前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。

【0039】

【0040】

【0041】

本開示の他の態様に係る収音プログラムは、複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部としてコンピュータを機能させ、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。

【0042】

【0043】

【0044】

以下、本開示の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

【0045】

（実施の形態１）
図１は、本開示の実施の形態１における収音装置の構成を示すブロック図である。

【0046】

図１に示す収音装置１０１は、マイクロホンアレイ１、感度補正部２、目的音検出部３、感度補正制御部（ゲイン制御部）４及び指向性合成部５を備える。

【0047】

マイクロホンアレイ１は、音響信号を電気信号に変換するｎ個（ｎは自然数）のマイクロホン素子１１，１２，・・・，１ｎを含む。マイクロホンアレイ１は、複数のマイクロホン素子を含む。

【0048】

図２は、本開示の実施の形態１におけるマイクロホンアレイの設置位置の一例を示す図であり、図３は、本開示の実施の形態１におけるマイクロホンアレイのマイクロホン素子の配置例を示す図である。

【0049】

図２に示すように、本実施の形態１におけるマイクロホンアレイ１は、車両内のディスプレイ２０１の近傍に配置される。ディスプレイ２０１は、カーナビゲーションシステムの構成要素である。また、ディスプレイ２０１の下方には、空気調和機の吹き出し口２０２が設けられている。吹き出し口２０２からは、冷却された空気又は暖められた空気が出力される。

【0050】

また、図３に示すマイクロホンアレイ１は、例えば、４つのマイクロホン素子１１，１２，１３，１４を備える。マイクロホン素子１１，１２，１３，１４は、四角形の基板上の四隅にそれぞれ配置される。基板の下部に配置されたマイクロホン素子１１，１２の水平方向の間隔は、例えば２ｃｍである。また、基板の上部に配置されたマイクロホン素子１３，１４の水平方向の間隔は、例えば２ｃｍである。さらに、マイクロホン素子１１，１３の垂直方向の間隔は、例えば２ｃｍであり、マイクロホン素子１２，１４の垂直方向の間隔は、例えば２ｃｍである。

【0051】

マイクロホンアレイ１と吹き出し口２０２との間隔は、例えば２ｃｍである。マイクロホンアレイ１は、運転席に座る発話者の音声を目的音として取得する。このとき、吹き出し口２０２から出力される空気の音がノイズとして目的音に含まれる。吹き出し口２０２に最も近いマイクロホン素子１３と、吹き出し口２０２との間隔は２ｃｍであり、吹き出し口２０２から最も遠いマイクロホン素子１１と、吹き出し口２０２との間隔は４ｃｍである。マイクロホン素子１１と吹き出し口２０２との間隔は、マイクロホン素子１３と吹き出し口２０２との間隔の２倍となる。

【0052】

この場合、ノイズ源である吹き出し口２０２と各マイクロホン素子１１，１３との距離差は無視することができず、吹き出し口２０２から発生したノイズが各マイクロホン素子１１，１３の位置での音圧差となって表れる。このようなマイクロホンアレイ１の近傍にあるノイズ源から発生したノイズを用いてマイクロホン素子１１～１４の感度補正が行われた場合、正しく感度補正が行えず、かえってその後段の指向性合成部（ビームフォーマ）の出力の性能を劣化させるおそれがあった。そこで、本実施の形態１における収音装置１０１は、目的音を用いてマイクロホン素子１１～１４の感度補正を行う。

【0053】

なお、マイクロホンアレイ１が備えるマイクロホン素子の数は、４つに限定されない。また、複数のマイクロホン素子の配置位置についても、図３に示す配置位置に限定されない。

【0054】

マイクロホン素子１１，１２，・・・，１ｎのうちの１つのマイクロホン素子１１の出力信号は、目的音検出部３に入力される。また、マイクロホン素子１１，１２，・・・，１ｎの各出力信号は、感度補正部２及び感度補正制御部４に入力される。

【0055】

感度補正部２は、複数のマイクロホン素子１１，１２，・・・，１ｎの出力信号にゲインを掛けることにより複数のマイクロホン素子１１，１２，・・・，１ｎ間の感度差を補正する。感度補正部２は、各マイクロホン素子１１，１２，・・・，１ｎの出力信号に指定されたゲインを乗じることにより各マイクロホン素子１１，１２，・・・，１ｎの感度のばらつきを補正する。感度補正部２は、複数のマイクロホン素子１１，１２，・・・，１ｎ間の感度を揃える。

【0056】

目的音検出部３は、発話者の音声を目的音として検出する。目的音検出部３は、マイクロホン素子１１，１２，・・・，１ｎのうちの１つのマイクロホン素子１１の出力信号を取得し、マイクロホンアレイ１で収音する目的音の有無を検出する。なお、本実施の形態１では、音声判定部３２は、マイクロホン素子１１の出力信号を用いて、目的音の有無を検出しているが、本開示は特にこれに限定されない。音声判定部３２は、マイクロホン素子１１，１２，・・・，１ｎのうちのいずれか１つの出力信号を用いて目的音の有無を検出してもよい。

【0057】

なお、目的音検出部３の構成については、図４及び図５を用いて更に詳細に説明する。

【0058】

感度補正制御部４は、目的音検出部３の検出結果に基づいてゲインを制御する。感度補正制御部４は、各マイクロホン素子１１，１２，・・・，１ｎの出力信号を取得し、目的音検出部３によって目的音が検出された場合に、感度補正部２における各マイクロホン素子１１，１２，・・・，１ｎからの出力信号に対する感度補正ゲインを算出する。

【0059】

感度補正制御部４は、目的音検出部３によって発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインを更新し、目的音検出部３によって発話者の音声が検出されない場合、ゲインを更新しない。なお、感度補正制御部４の構成については、図６を用いて更に詳細に説明する。

【0060】

指向性合成部（ビームフォーマ）５は、感度補正部２によって補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音を強調して収音する。指向性合成部５は、感度補正部２によって補正された各マイクロホン素子１１，１２，・・・，１ｎの出力信号を取得し、目的音のＳ／Ｎ比を改善する。

【0061】

続いて、図１に示す目的音検出部３の構成について更に説明する。

【0062】

図４は、本開示の実施の形態１における収音装置の目的音検出部の構成を示すブロック図である。

【0063】

図４に示す目的音検出部３は、帯域通過フィルタ部（第１抽出部）３１及び音声判定部３２を備える。

【0064】

帯域通過フィルタ部３１は、複数のマイクロホン素子１１，１２，・・・，１ｎのうちの１つのマイクロホン素子１１の出力信号から特定の帯域の信号を抽出する。帯域通過フィルタ部３１は、マイクロホン素子１１の出力信号から、例えば２００Ｈｚから５００Ｈｚの帯域の信号を抽出する。帯域通過フィルタ部３１は、マイクロホン素子１１の出力信号から、人の発話した音声を抽出可能な帯域の信号を抽出する。

【0065】

音声判定部３２は、複数のマイクロホン素子１１，１２，・・・，１ｎのうちの１つのマイクロホン素子１１の出力信号が音声と音声以外の非音声とのいずれであるかを判定する。音声判定部３２は、帯域通過フィルタ部３１によって抽出された信号に対して音声と非音声とのいずれであるかを判定する。

【0066】

続いて、図４に示す音声判定部３２の構成について更に説明する。

【0067】

図５は、本開示の実施の形態１における収音装置の音声判定部の構成を示すブロック図である。

【0068】

音声判定部３２は、レベル検出部３２１、ノイズレベル検出部３２２、比較部３２３、時間－周波数変換部３２４、音声特徴量抽出部３２５及び判定部３２６を備える。

【0069】

レベル検出部３２１は、マイクロホン素子１１の出力信号の信号レベルを検出する。

【0070】

ノイズレベル検出部３２２は、レベル検出部３２１によって検出された信号レベルのミニマム値をホールドすることでノイズレベルを検出する。

【0071】

比較部３２３は、レベル検出部３２１の出力とノイズレベル検出部３２２の出力とを比較して波形レベルでの音声の有無を判定する。例えば、比較部３２３は、ノイズレベル検出部３２２によって検出されたノイズレベルの２倍の値を閾値に設定する。そして、比較部３２３は、レベル検出部３２１によって検出された信号レベルが閾値以上であるか否かを判定する。比較部３２３は、レベル検出部３２１によって検出された信号レベルが閾値以上である場合、マイクロホン素子１１の出力信号に音声が含まれると判定する。一方、比較部３２３は、レベル検出部３２１によって検出された信号レベルが閾値より小さい場合、マイクロホン素子１１の出力信号に音声が含まれないと判定する。

【0072】

時間－周波数変換部３２４は、マイクロホン素子１１の時間領域の出力信号を周波数領域の出力信号に変換する。

【0073】

音声特徴量抽出部３２５は、周波数領域の出力信号から音声特徴量を抽出する。音声特徴量は、音声を示す特徴量である。音声特徴量抽出部３２５は、特許第５４５０２９８号明細書に示すような音声ピッチを用いて音声特徴量を抽出する方法、又は、特許第３８４９１１６号明細書に示すような調波構造の性質を特徴量として用いて音声特徴量を抽出する方法を用いてもよい。収音装置１０１が車載される場合には、図２に示すように、コンソールに埋め込まれたディスプレイ２０１周辺にマイクロホンアレイ１が組み込まれる。そのため、ノイズ源は、空気調和機の吹き出し口２０２となる。この場合、雑音のスペクトルは比較的単調であるため、音声特徴量抽出部３２５は、振幅スペクトルの交流成分又は振幅スペクトルのピークとディップとの比を音声特徴量として抽出してもよい。これにより、空気調和機の吹き出し口２０２から発生するノイズと音声とを判別することができる。

【0074】

判定部３２６は、比較部３２３によってマイクロホン素子１１の出力信号に音声が含まれると判定され、かつ音声特徴量抽出部３２５によってマイクロホン素子１１の出力信号から音声特徴量が抽出された場合、マイクロホン素子１１の出力信号が音声であると判定する。一方、判定部３２６は、比較部３２３によってマイクロホン素子１１の出力信号に音声が含まれないと判定された場合、又は音声特徴量抽出部３２５によってマイクロホン素子１１の出力信号から音声特徴量が抽出されない場合、マイクロホン素子１１の出力信号が非音声であると判定する。判定部３２６は、音声及び非音声のいずれかを示す判定結果信号Ｏｄｅｔ（ｊ）を感度補正制御部４へ出力する。なお、ｊは時間に対応するサンプル番号を示す。

【0075】

その結果、目的音検出部３は、マイクロホン素子１１の出力信号が音声であると判定した場合、判定結果信号Ｏｄｅｔ（ｊ）＝１を出力し、マイクロホン素子１１の出力信号が非音声であると判定した場合、判定結果信号Ｏｄｅｔ（ｊ）＝０を出力する。

【0076】

続いて、図１に示す感度補正制御部４の構成について更に説明する。

【0077】

図６は、本開示の実施の形態１における収音装置の感度補正制御部の構成を示すブロック図である。

【0078】

感度補正制御部４は、第１～ｎ帯域通過フィルタ部（第３抽出部）４１１～４１ｎ、第１～ｎレベル検出部４２１～４２ｎ、第１～ｎ平均レベル算出部（時間平均レベル算出部）４３１～４３ｎ及び補正ゲイン算出部４４を備える。第１～ｎ帯域通過フィルタ部４１１～４１ｎ、第１～ｎレベル検出部４２１～４２ｎ及び第１～ｎ平均レベル算出部４３１～４３ｎは、それぞれマイクロホン素子１１～１ｎの数に応じて設けられる。例えば、マイクロホン素子１１の出力信号ｘ（１，ｊ）は、第１帯域通過フィルタ部４１１に入力される。

【0079】

第１～ｎ帯域通過フィルタ部４１１～４１ｎは、複数のマイクロホン素子１１～１ｎそれぞれの出力信号から特定の帯域の信号を抽出する。なお、特定の帯域は、２００Ｈｚから５００Ｈｚの帯域である。

【0080】

第１～ｎレベル検出部４２１～４２ｎは、複数のマイクロホン素子１１～１ｎそれぞれの出力信号の出力レベルを検出する。

【0081】

第１～ｎレベル検出部４２１～４２ｎは、各マイクロホン素子の出力信号ｘ（ｉ，ｊ）の出力レベルＬｘ（ｉ，ｊ）を下記の一般的な振幅平滑化の式（１）を用いて検出する。

【0082】

Ｌｘ（ｉ，ｊ）＝ｂｅｔａ１・｜ｘ（ｉ，ｊ）｜＋（１－ｂｅｔａ１）・Ｌｘ（ｉ，ｊ－１）・・・（１）

【0083】

式（１）において、ｉはマイクロホン素子番号を示し、ｊは時間に対応するサンプル番号を示す。また、式（１）において、ｂｅｔａ１は、重み係数を示し、平均化の速度を決めるパラメータである。

【0084】

また、本実施の形態１では、第１～ｎ帯域通過フィルタ部４１１～４１ｎを通過した出力信号ｘｂｐｆ（ｉ，ｊ）が第１～ｎレベル検出部４２１～４２ｎに入力される。そのため、第１～ｎレベル検出部４２１～４２ｎは、第１～ｎ帯域通過フィルタ部４１１～４１ｎによって抽出された各マイクロホン素子の出力信号ｘｂｐｆ（ｉ，ｊ）の出力レベルＬｘ（ｉ，ｊ）を下記の一般的な振幅平滑化の式（２）を用いて検出する。

【0085】

Ｌｘ（ｉ，ｊ）＝ｂｅｔａ１・｜ｘｂｐ（ｉ，ｊ）｜＋（１－ｂｅｔａ１）・Ｌｘ（ｉ，ｊ－１）・・・（２）

【0086】

第１～ｎ平均レベル算出部４３１～４３ｎは、目的音検出部３によって発話者の音声が検出された場合に、第１～ｎレベル検出部４２１～４２ｎによって検出された各出力レベルＬｘ（ｉ，ｊ）の時間平均レベルＡｖｅｘ（ｉ，ｊ）を算出する。

【0087】

第１～ｎ平均レベル算出部４３１～４３ｎは、目的音検出部３によって目的音が検出される期間（判定結果信号Ｏｄｅｔ（ｊ）＝１）のみ、各マイクロホン素子の出力レベルＬｘ（ｉ，ｊ）の長時間の平均値（時間平均レベルＡｖｅｘ（ｉ，ｊ））を下記の式（３）を用いて算出する。また、第１～ｎ平均レベル算出部４３１～４３ｎは、目的音検出部３によって目的音が検出されない期間（判定結果信号Ｏｄｅｔ（ｊ）＝０）、時間平均レベルＡｖｅｘ（ｉ，ｊ）を下記の式（４）を用いて算出する。すなわち、第１～ｎ平均レベル算出部４３１～４３ｎは、目的音検出部３によって発話者の音声が検出されなかった場合に、前回算出された時間平均レベルＡｖｅｘ（ｉ，ｊ－１）を今回の時間平均レベルＡｖｅｘ（ｉ，ｊ）として算出する。

【0088】

Ａｖｅｘ（ｉ，ｊ）＝ｂｅｔａ２・｜Ｌｘ（ｉ，ｊ）｜＋（１－ｂｅｔａ２）・Ａｖｅｘ（ｉ，ｊ－１）ｉｆＯｄｅｔ（ｊ）＝１・・・（３）

【0089】

Ａｖｅｘ（ｉ，ｊ）＝Ａｖｅｘ（ｉ，ｊ－１）ｉｆＯｄｅｔ（ｊ）＝０・・・（４）

【0090】

式（３）及び式（４）において、ｉはマイクロホン素子番号を示し、ｊは時間に対応するサンプル番号を示す。また、式（３）において、ｂｅｔａ２は、重み係数であり、平均化の速度を決めるパラメータである。また、ｂｅｔａ１＞＞ｂｅｔａ２である。例えば、サンプリング周波数が１６ｋＨｚである場合、ｂｅｔａ１は、１００ｍ秒での平均レベルとなるように０．０００６２５に設定され、ｂｅｔａ２は、５秒での平均となるように０．００００１２５に設定される。マイクロホン素子の感度補正に用いる平均信号レベルに長時間の平均レベルが用いられることで正確に感度補正ゲインを算出することができる。

【0091】

補正ゲイン算出部４４は、第１～ｎ平均レベル算出部４３１～４３ｎによって算出された時間平均レベルから、ゲインを更新した感度補正ゲインを算出する。

【0092】

補正ゲイン算出部４４は、複数のマイクロホン素子１１～１ｎのうちの予め決められている１つのマイクロホン素子１１の時間平均レベルを基準として、１つのマイクロホン素子１１以外の他のマイクロホン素子１２～１ｎの時間平均レベルが１つのマイクロホン素子１１の時間平均レベルと同じになるように他のマイクロホン素子１２～１ｎの感度補正ゲインを算出する。すなわち、補正ゲイン算出部４４は、第１～ｎ平均レベル算出部４３１～４３ｎによって算出された各マイクロホン素子１１～１ｎの時間平均レベルＡｖｅｘ（ｉ，ｊ）と、マイクロホン素子１１の時間平均レベルＡｖｅｘ（１，ｊ）とを用いて、下記の式（５）により感度補正ゲインＧ（ｉ，ｊ）を算出する。

【0093】

Ｇ（ｉ，ｊ）＝Ａｖｅｘ（１，ｊ）／Ａｖｅｘ（ｉ，ｊ）・・・（５）

【0094】

上記の式（５）の感度補正ゲインが用いられる場合は、マイクロホン素子１１を基準として、その他のマイクロホン素子１２～１ｎの出力レベルが揃うように感度補正が行われることになる。

【0095】

なお、上記の式（５）では、補正ゲイン算出部４４は、予め決められている１つのマイクロホン素子１１の時間平均レベルを基準として感度補正ゲインを算出しているが、本開示は特にこれに限定されない。補正ゲイン算出部４４は、マイクロホン素子１１とは異なる他の１つのマイクロホン素子の時間平均レベルを基準として感度補正ゲインを算出してもよい。

【0096】

また、補正ゲイン算出部４４は、複数のマイクロホン素子１１～１ｎのうちの予め決められている少なくとも２つのマイクロホン素子の時間平均レベルの平均値を基準として、複数のマイクロホン素子１１～１ｎの時間平均レベルが少なくとも２つのマイクロホン素子の時間平均レベルの平均値と同じになるように複数のマイクロホン素子１１～１ｎの感度補正ゲインを算出してもよい。すなわち、補正ゲイン算出部４４は、第１～ｎ平均レベル算出部４３１～４３ｎによって算出された各マイクロホン素子１１～１ｎの時間平均レベルＡｖｅｘ（ｉ，ｊ）と、時間平均レベルＡｖｅｘ（ｉ，ｊ）の平均値とを用いて、下記の式（６）により感度補正ゲインＧ（ｉ，ｊ）を算出してもよい。

【0097】

Ｇ（ｉ，ｊ）＝｛Ａｖｅｘ（１，ｊ）＋Ａｖｅｘ（２，ｊ）＋・・・＋Ａｖｅｘ（ｎ，ｊ）｝／ｎ／Ａｖｅｘ（ｉ，ｊ）・・・（６）

【0098】

なお、上記の式（６）では、補正ゲイン算出部４４は、マイクロホン素子１１～１ｎのうちの全てのマイクロホン素子１１～１ｎの時間平均レベルの平均値を基準として感度補正ゲインを算出しているが、本開示は特にこれに限定されない。補正ゲイン算出部４４は、マイクロホン素子１１～１ｎのうちの少なくとも２つのマイクロホン素子の時間平均レベルの平均値を基準として感度補正ゲインを算出してもよい。

【0099】

感度補正部２は、感度補正制御部４によって算出された各マイクロホン素子１１～１ｎに対応する感度補正ゲインＧ（ｉ，ｊ）を各マイクロホン素子１１～１ｎの出力信号ｘ（ｉ，ｊ）に乗じることで感度補正を行う。

【0100】

指向性合成部５は、感度補正部２によって補正された出力信号Ｇ（ｉ，ｊ）・ｘ（ｉ，ｊ）を用いて、特許文献１に示されるＧＳＣにより指向性合成（ビームフォーミング）する。また、指向性合成部５は、ＧＳＣ以外のビームフォーミング処理、例えば、ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ法又はＭｉｎｉｍｕｍＶａｒｉａｎｃｅ法などの既存のビームフォーミング処理によりビームフォーミングしてもよい。

【0101】

続いて、本開示の実施の形態１における収音装置１０１の動作について説明する。

【0102】

図７は、本開示の実施の形態１における収音装置の動作について説明するためのフローチャートである。

【0103】

まず、ステップＳ１において、目的音検出部３は、マイクロホン素子１１から出力信号を取得し、感度補正部２及び感度補正制御部４、各マイクロホン素子１１～１ｎから出力信号を取得する。

【0104】

次に、ステップＳ２において、目的音検出部３は、マイクロホン素子１１の出力信号から目的音（音声）が検出されたか否かを判定する。目的音検出部３は、マイクロホン素子１１の出力信号から目的音が検出されたか否かを示す判定結果信号を感度補正制御部４へ出力する。

【0105】

ここで、マイクロホン素子１１の出力信号から目的音が検出されたと判定された場合（ステップＳ２でＹＥＳ）、ステップＳ３において、感度補正制御部４は、複数のマイクロホン素子１１～１ｎの出力信号に基づいて感度補正ゲインを更新する。

【0106】

一方、マイクロホン素子１１の出力信号から目的音が検出されなかったと判定された場合（ステップＳ２でＮＯ）、感度補正ゲインが更新されずに、ステップＳ４に処理が移行する。

【0107】

次に、ステップＳ４において、感度補正部２は、各マイクロホン素子１１～１ｎの出力信号に感度補正ゲインを掛けることにより各マイクロホン素子間の感度差を補正する。

【0108】

次に、ステップＳ５において、指向性合成部５は、感度補正部２によって補正された各マイクロホン素子１１～１ｎの出力信号を用いて、指向性を合成する。指向性が合成されることにより、所定の方向から到来する目的音が強調して収音される。

【0109】

上記のように、複数のマイクロホン素子１１～１ｎの出力信号にゲインを掛けることにより複数のマイクロホン素子１１～１ｎ間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子１１～１ｎの出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子１１～１ｎの出力信号を用いて、所定の方向から到来する目的音が強調して収音される。

【0110】

したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子１１～１ｎ間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子１１～１ｎ間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高Ｓ／Ｎ比で収音することができる。

【0111】

（実施の形態２）
上記の実施の形態１では、目的音検出部３は、１つのマイクロホン素子の出力信号が音声と非音声とのいずれであるかを判定している。これに対し、実施の形態２では、目的音検出部は、複数のマイクロホン素子の出力信号を用いて予め決められた目的音方向から目的音が到来しているか否かをさらに判定する。

【0112】

図８は、本開示の実施の形態２における収音装置の構成を示すブロック図である。

【0113】

図８に示す収音装置１０２は、マイクロホンアレイ１、感度補正部２、感度補正制御部４、指向性合成部５及び目的音検出部６を備える。実施の形態１の収音装置１０１と異なる点は、目的音検出部６に複数のマイクロホン素子１１、１２，・・・，１ｎからの出力信号が入力されている点である。なお、本実施の形態２において、実施の形態１と同じ構成については同じ符号が付され、説明が省略される。

【0114】

図９は、本開示の実施の形態２における収音装置の目的音検出部の構成を示すブロック図である。

【0115】

図９に示す目的音検出部６は、帯域通過フィルタ部３１、音声判定部３２、帯域通過フィルタ部（第２抽出部）６３、目的音方向判定部６４及び目的音判定部６５を備える。実施の形態１の目的音検出部３に対して、実施の形態２の目的音検出部６には、帯域通過フィルタ部６３、目的音方向判定部６４及び目的音判定部６５が追加されている。

【0116】

帯域通過フィルタ部６３は、複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する。帯域通過フィルタ部６３は、マイクロホン素子１１～１ｎそれぞれの出力信号から、例えば２００Ｈｚから５００Ｈｚの帯域の信号を抽出する。

【0117】

目的音方向判定部６４は、複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から目的音が到来しているか否かを判定する。目的音方向判定部６４は、帯域通過フィルタ部６３によって抽出された信号に対して目的音方向から目的音が到来しているか否かを判定する。ここで、車内に配置された収音装置１０２が、運転者の発話音声を収音する場合、運転者の発話音声がマイクロホンアレイ１に入射する角度は予め決められる。そのため、目的音方向判定部６４は、発話音声の入射角度を予め記憶している。なお、目的音方向判定部６４の構成については、図１０及び図１１を用いて更に詳細に説明する。

【0118】

目的音判定部６５は、音声判定部３２と目的音方向判定部６４との２つの判定結果を用いて、目的音の有無を判定する。目的音判定部６５は、目的音方向判定部６４によって目的音方向から目的音が到来していると判定され、かつ音声判定部３２によって１つのマイクロホン素子の出力信号が音声であると判定された場合、目的音が検出されたと判定する。また、目的音判定部６５は、目的音方向判定部６４によって目的音方向から目的音が到来していないと判定された場合、又は音声判定部３２によって１つのマイクロホン素子の出力信号が音声ではないと判定された場合、目的音が検出されていないと判定する。

【0119】

続いて、図９に示す目的音方向判定部６４の構成について更に説明する。

【0120】

図１０は、本開示の実施の形態２における収音装置の目的音方向判定部の構成を示すブロック図である。なお、図１０では、説明の都合上、２つのマイクロホン素子１１，１２からの出力信号が目的音方向判定部６４に入力される例について説明する。

【0121】

目的音方向判定部６４は、遅延和指向性合成部（遅延和ビームフォーマ）（第１指向性合成部）６４１、傾度型指向性合成部（傾度型ビームフォーマ）（第２指向性合成部）６４２、目的音レベル検出部６４３、非目的音レベル検出部６４４及びレベル比較判定部６４５を備える。

【0122】

遅延和指向性合成部６４１は、複数のマイクロホン素子１１～１ｎの出力信号を用いて目的音方向の信号を強調することにより目的音方向に指向性を形成する。遅延和指向性合成部６４１は、目的音方向に高い指向性感度を有する。図１０に示す指向特性６４１１は、遅延和指向性合成部６４１の指向特性を示している。遅延和指向性合成部６４１の指向特性６４１１は、目的音方向に指向性を有しており、目的音方向の信号を強調する。

【0123】

遅延和指向性合成部６４１は、マイクロホン素子１１とマイクロホン素子１２との間の距離をｄとし、目的音方向からの入射角度をθとすると、マイクロホン素子１１からの出力信号を経路差Δ（Δ＝ｄｓｉｎθ）だけ遅延させる。そして、遅延和指向性合成部６４１は、遅延させたマイクロホン素子１１からの出力信号とマイクロホン素子１２からの出力信号とを加算する。なお、距離ｄ及び入射角度θは、不図示のメモリに予め記憶されている。

【0124】

傾度型指向性合成部６４２は、複数のマイクロホン素子１１，１２の出力信号を用いて目的音方向に感度の死角を形成する。図１０に示す指向特性６４２１は、傾度型指向性合成部６４２の指向特性を示している。傾度型指向性合成部６４２の指向特性６４２１は、目的音方向に死角を有しており、目的音方向に垂直な方向の信号（ノイズ）を強調する。

【0125】

傾度型指向性合成部６４２は、マイクロホン素子１１とマイクロホン素子１２との間の距離をｄとし、目的音方向からの音の入射角度をθとすると、マイクロホン素子１１からの出力信号を経路差Δ（Δ＝ｄｓｉｎθ）だけ遅延させる。そして、傾度型指向性合成部６４２は、遅延させたマイクロホン素子１１からの出力信号から、マイクロホン素子１２からの出力信号を減算する。なお、距離ｄ及び入射角度θは、予め記憶されている。

【0126】

目的音レベル検出部６４３は、遅延和指向性合成部６４１の出力信号レベルを検出する。

【0127】

非目的音レベル検出部６４４は、傾度型指向性合成部６４２の出力信号レベルを検出する。

【0128】

レベル比較判定部６４５は、遅延和指向性合成部６４１からの出力信号の出力レベルと、傾度型指向性合成部６４２からの出力信号の出力レベルとを比較し、目的音方向から目的音が到来しているか否かを判定する。レベル比較判定部６４５は、目的音レベル検出部６４３によって検出された出力信号レベルと、非目的音レベル検出部６４４によって検出された出力信号レベルとを比較し、目的音方向から目的音が到来しているか否かを判定する。

【0129】

遅延和指向性合成部６４１は目的音方向に指向性を有している。そのため、目的音である発話者の音声は、遅延和指向性合成部６４１の出力に含まれる。一方、傾度型指向性合成部６４２は目的音方向に死角を有している。そのため、目的音である発話者の音声は、傾度型指向性合成部６４２の出力に殆ど含まれない。したがって、目的音方向から目的音が到来している場合、目的音レベル検出部６４３によって検出される出力信号レベルは大きくなり、非目的音レベル検出部６４４によって検出される出力信号レベルは小さくなる。レベル比較判定部６４５は、目的音レベル検出部６４３によって検出される出力信号レベル（目的音レベル）が非目的音レベル検出部６４４によって検出される出力信号レベル（非目的音レベル）より大きい場合、目的音方向から目的音が到来していると判定する。

【0130】

一方、目的音方向から目的音が到来していない場合、遅延和指向性合成部６４１及び傾度型指向性合成部６４２の出力には、周辺ノイズのみが含まれる。したがって、目的音レベル検出部６４３によって検出される出力信号レベルは、非目的音レベル検出部６４４によって検出される出力信号レベルとほぼ等しくなるか、非目的音レベル検出部６４４によって検出される出力信号レベルよりも小さくなる。レベル比較判定部６４５は、目的音レベル検出部６４３によって検出される出力信号レベル（目的音レベル）が非目的音レベル検出部６４４によって検出される出力信号レベル（非目的音レベル）以下である場合、目的音方向から目的音が到来していないと判定する。

【0131】

実施の形態１では、音声が検出されると目的音が検出されたと判定していたため、目的音方向以外の方向から発話があった場合も目的音が検出されたと判定されてしまい、感度補正が行われる。一方、実施の形態２では、音声が検出され、且つ目的音方向から目的音が到来している場合のみ、目的音が検出されたと判定される。したがって、実施の形態２の収音装置１０２は、実施の形態１の収音装置１０１よりも精度良く目的音を用いて感度補正を行うことができる。

【0132】

続いて、本実施の形態２の変形例における目的音方向判定部の構成について更に説明する。

【0133】

図１１は、本開示の実施の形態２の変形例における収音装置の目的音方向判定部の構成を示すブロック図である。なお、図１１では、説明の都合上、２つのマイクロホン素子１１，１２からの出力信号が目的音方向判定部６４Ａに入力される例について説明する。また、図９に示す目的音検出部６は、図９に示す目的音方向判定部６４に替えて、図１１に示す目的音方向判定部６４Ａを備える。

【0134】

目的音方向判定部６４Ａは、目的音方向推定部（方向推定部）６４６及び方向判定部６４７を備える。

【0135】

目的音方向推定部６４６は、複数のマイクロホン素子の出力信号の位相差を用いて、目的音が到来する方向を推定する。不図示のメモリは、マイクロホン素子１１とマイクロホン素子１２との間の距離ｄを予め記憶している。目的音方向推定部６４６は、マイクロホン素子１１とマイクロホン素子１２との位相差と、マイクロホン素子１１とマイクロホン素子１２との間の距離ｄとに基づき、目的音方向からの音の入射角度θを推定する。

【0136】

方向判定部６４７は、目的音方向推定部６４６によって推定された方向が、予め決められた目的音方向であるか否かを判定する。方向判定部６４７は、目的音方向推定部６４６によって推定された方向が、予め記憶されている目的音方向を含む所定の範囲に入っている場合、目的音方向から目的音が到来していると判定する。一方、方向判定部６４７は、目的音方向推定部６４６によって推定された方向が、予め記憶されている目的音方向を含む所定の範囲に入っていない場合、目的音方向から目的音が到来していないと判定する。例えば、方向判定部６４７は、目的音方向推定部６４６によって推定された音の入射角度が、予め記憶されている目的音方向の角度の－５度～＋５度の範囲に入っているか否かを判定してもよい。なお、不図示のメモリは、目的音方向の角度を予め記憶している。

【0137】

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

【0138】

本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

【0139】

また、本開示の実施の形態に係る装置の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

【0140】

また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

【0141】

また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

【産業上の利用可能性】

【0142】

本開示に係る技術は、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高Ｓ／Ｎ比で収音することができるので、複数のマイクロホン素子を用いて目的音を収音する技術に有用である。

【符号の説明】

【0143】

１マイクロホンアレイ
２感度補正部
３，６目的音検出部
４感度補正制御部
５指向性合成部
１１～１ｎマイクロホン素子
３１帯域通過フィルタ部
３２音声判定部
４４補正ゲイン算出部
６３帯域通過フィルタ部
６４，６４Ａ目的音方向判定部
６５目的音判定部
２０１ディスプレイ
２０２吹き出し口
３２１レベル検出部
３２２ノイズレベル検出部
３２３比較部
３２４時間－周波数変換部
３２５音声特徴量抽出部
３２６判定部
４１１～４１ｎ第１～ｎ帯域通過フィルタ部
４２１～４２ｎ第１～ｎレベル検出部
４３１～４３ｎ第１～ｎ平均レベル算出部
６４１遅延和指向性合成部
６４２傾度型指向性合成部
６４３目的音レベル検出部
６４４非目的音レベル検出部
６４５レベル比較判定部
６４６目的音方向推定部
６４７方向判定部

【図1】