IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

<>
  • 特許-収音装置、収音方法及び収音プログラム 図1
  • 特許-収音装置、収音方法及び収音プログラム 図2
  • 特許-収音装置、収音方法及び収音プログラム 図3
  • 特許-収音装置、収音方法及び収音プログラム 図4
  • 特許-収音装置、収音方法及び収音プログラム 図5
  • 特許-収音装置、収音方法及び収音プログラム 図6
  • 特許-収音装置、収音方法及び収音プログラム 図7
  • 特許-収音装置、収音方法及び収音プログラム 図8
  • 特許-収音装置、収音方法及び収音プログラム 図9
  • 特許-収音装置、収音方法及び収音プログラム 図10
  • 特許-収音装置、収音方法及び収音プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-13
(45)【発行日】2024-02-21
(54)【発明の名称】収音装置、収音方法及び収音プログラム
(51)【国際特許分類】
   G10L 21/034 20130101AFI20240214BHJP
   G10L 21/0272 20130101ALI20240214BHJP
   G10L 25/84 20130101ALI20240214BHJP
   H04R 3/00 20060101ALI20240214BHJP
   H04R 1/40 20060101ALI20240214BHJP
【FI】
G10L21/034
G10L21/0272 100A
G10L25/84
H04R3/00 320
H04R1/40 320A
【請求項の数】 14
(21)【出願番号】P 2020043913
(22)【出願日】2020-03-13
(65)【公開番号】P2021081696
(43)【公開日】2021-05-27
【審査請求日】2022-12-23
(31)【優先権主張番号】62/936,787
(32)【優先日】2019-11-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100118049
【弁理士】
【氏名又は名称】西谷 浩治
(72)【発明者】
【氏名】古川 博基
(72)【発明者】
【氏名】杠 慎一
【審査官】大石 剛
(56)【参考文献】
【文献】特開2010-232717(JP,A)
【文献】特開2011-030022(JP,A)
【文献】特開2006-058395(JP,A)
【文献】特開2012-048119(JP,A)
【文献】特開2012-027101(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/034
G10L 21/0272
G10L 25/84
H04R 3/00
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
複数のマイクロホン素子と、
前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、
発話者の音声を目的音として検出する目的音検出部と、
前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、
前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、
を備え、
前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音装置。
【請求項2】
前記目的音検出部は、前記複数のマイクロホン素子のうちの1つのマイクロホン素子の出力信号が前記音声と前記音声以外の非音声とのいずれであるかを判定する音声判定部を含む、
請求項1記載の収音装置。
【請求項3】
前記目的音検出部は、前記1つのマイクロホン素子の出力信号から特定の帯域の信号を抽出する第1抽出部を含み、
前記音声判定部は、前記第1抽出部によって抽出された前記信号に対して前記音声と前記非音声とのいずれであるかを判定する、
請求項2記載の収音装置。
【請求項4】
前記目的音検出部は、
前記複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から前記目的音が到来しているか否かを判定する目的音方向判定部と、
前記目的音方向判定部によって前記目的音方向から前記目的音が到来していると判定され、かつ前記音声判定部によって前記1つのマイクロホン素子の出力信号が前記音声であると判定された場合、前記目的音が検出されたと判定する目的音判定部と、
を含む、
請求項2又は3記載の収音装置。
【請求項5】
前記目的音検出部は、前記複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する第2抽出部を含み、
前記目的音方向判定部は、前記第2抽出部によって抽出された前記信号に対して前記目的音方向から前記目的音が到来しているか否かを判定する、
請求項4記載の収音装置。
【請求項6】
前記目的音方向判定部は、
前記複数のマイクロホン素子の出力信号の位相差を用いて、前記目的音が到来する方向を推定する方向推定部と、
前記方向推定部によって推定された前記方向が、予め決められた前記目的音方向であるか否かを判定する方向判定部と、
を含む、
請求項4又は5記載の収音装置。
【請求項7】
前記目的音方向判定部は、
前記複数のマイクロホン素子の出力信号を用いて前記目的音方向の信号を強調することにより前記目的音方向に指向性を形成する第1指向性合成部と、
前記複数のマイクロホン素子の出力信号を用いて前記目的音方向に感度の死角を形成する第2指向性合成部と、
前記第1指向性合成部からの出力信号の出力レベルと、前記第2指向性合成部からの出力信号の出力レベルとを比較し、前記目的音方向から前記目的音が到来しているか否かを判定するレベル比較判定部と、
を含む、
請求項4又は5記載の収音装置。
【請求項8】
前記ゲイン制御部は、
前記複数のマイクロホン素子それぞれの出力信号の出力レベルを検出するレベル検出部と、
前記目的音検出部によって前記発話者の前記音声が検出された場合に、前記レベル検出部によって検出された各出力レベルの時間平均レベルを算出する時間平均レベル算出部と、
前記時間平均レベル算出部によって算出された前記時間平均レベルから、前記ゲインを更新した補正ゲインを算出する補正ゲイン算出部と、
を含む、
請求項1~7のいずれか1項に記載の収音装置。
【請求項9】
前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている1つのマイクロホン素子の前記時間平均レベルを基準として、前記1つのマイクロホン素子以外の他のマイクロホン素子の前記時間平均レベルが前記1つのマイクロホン素子の前記時間平均レベルと同じになるように前記他のマイクロホン素子の前記補正ゲインを算出する、
請求項8記載の収音装置。
【請求項10】
前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている少なくとも2つのマイクロホン素子の前記時間平均レベルの平均値を基準として、前記複数のマイクロホン素子の前記時間平均レベルが前記少なくとも2つのマイクロホン素子の前記時間平均レベルの前記平均値と同じになるように前記複数のマイクロホン素子の前記補正ゲインを算出する、
請求項8記載の収音装置。
【請求項11】
前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号から特定の帯域の信号を抽出する第3抽出部を含み、
前記レベル検出部は、前記第3抽出部によって抽出された各信号の出力レベルを検出する、
請求項8~10のいずれか1項に記載の収音装置。
【請求項12】
前記特定の帯域は、200Hzから500Hzの帯域である、
請求項11記載の収音装置。
【請求項13】
コンピュータが、
複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正し、
発話者の音声を目的音として検出し、
前記目的音の検出結果に基づいて前記ゲインを制御し、
補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音し、
前記ゲインの制御において、前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音方法。
【請求項14】
複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、
発話者の音声を目的音として検出する目的音検出部と、
前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、
前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部としてコンピュータを機能させ、
前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、複数のマイクロホン素子を用いて目的音を収音する技術に関するものである。
【背景技術】
【0002】
従来、少なくとも2つのマイクロホン素子からの出力信号を用いて指向性を制御するビームフォーマが知られている。そして、このビームフォーマを用いて、周囲ノイズを抑圧し、目的音を周囲ノイズから分離して収音する収音装置がある。ビームフォーマのノイズ抑圧性能は、少なくとも2つのマイクロホン素子間の感度ばらつきにより劣化するおそれがある。
【0003】
例えば、特許文献1は、一般化サイドローブキャンセラ(以下、GSC(General Sidelobe Canceller)と呼ぶ)に自動キャリブレーション処理を組み合わせたビームフォーマを開示している。特許文献1においては、周囲ノイズによって複数のマイクロホン間の感度ばらつきが補正されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第4734070号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来の技術では、指向性合成におけるノイズ抑圧性能が低下するおそれがあるので、更なる改善が必要とされていた。
【0006】
本開示は、上記の問題を解決するためになされたもので、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様に係る収音装置は、複数のマイクロホン素子と、前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、を備え、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。
【発明の効果】
【0008】
本開示によれば、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。
【図面の簡単な説明】
【0009】
図1】本開示の実施の形態1における収音装置の構成を示すブロック図である。
図2】本開示の実施の形態1におけるマイクロホンアレイの設置位置の一例を示す図である。
図3】本開示の実施の形態1におけるマイクロホンアレイのマイクロホン素子の配置例を示す図である。
図4】本開示の実施の形態1における収音装置の目的音検出部の構成を示すブロック図である。
図5】本開示の実施の形態1における収音装置の音声判定部の構成を示すブロック図である。
図6】本開示の実施の形態1における収音装置の感度補正制御部の構成を示すブロック図である。
図7】本開示の実施の形態1における収音装置の動作について説明するためのフローチャートである。
図8】本開示の実施の形態2における収音装置の構成を示すブロック図である。
図9】本開示の実施の形態2における収音装置の目的音検出部の構成を示すブロック図である。
図10】本開示の実施の形態2における収音装置の目的音方向判定部の構成を示すブロック図である。
図11】本開示の実施の形態2の変形例における収音装置の目的音方向判定部の構成を示すブロック図である。
【発明を実施するための形態】
【0010】
(本開示の基礎となった知見)
上記のように、従来技術においては、周囲ノイズによって複数のマイクロホン間の感度ばらつきが補正されている。
【0011】
しかしながら、ノイズ源が、複数のマイクロホン素子で構成されるマイクロホンアレイの近傍にある場合、ノイズ源と各マイクロホン素子との距離差を無視することができず、ノイズ源から発生したノイズが各マイクロホン素子の位置での音圧差となって表れる。このようなマイクロホンアレイの近傍にあるノイズ源から発生したノイズによって複数のマイクロホン素子の感度補正又は自動キャリブレーションが行われた場合、正しく感度補正又は自動キャリブレーションが行えず、かえってその後段のビームフォーマの出力の性能を劣化させるおそれがあった。
【0012】
特に、GSCにおいては、ブロッキングマトリックスが、目的音方向に感度の死角を持つノイズ参照信号を作成する。しかしながら、複数のマイクロホン素子間に感度ばらつきがあると、目的音方向に感度の死角が形成できず、ノイズ参照信号に目的音が漏れこむ。この場合、後段の適応ノイズキャンセリングを経由した目的音が漏れ込んだノイズ参照信号が、重み付き和ビームフォーマの出力から差引かれることで、出力信号の目的音に歪を与えることがある。ノイズ参照信号に目的音が漏れ込まないようにするためには、少なくとも複数のマイクロホン素子間の感度を揃える必要がある。
【0013】
以上の課題を解決するために、本開示の一態様に係る収音装置は、複数のマイクロホン素子と、前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、を備え、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。
【0014】
この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。
【0015】
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。
【0016】
また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子のうちの1つのマイクロホン素子の出力信号が前記音声と前記音声以外の非音声とのいずれであるかを判定する音声判定部を含んでもよい。
【0017】
この構成によれば、複数のマイクロホン素子のうちの1つのマイクロホン素子の出力信号が音声と非音声とのいずれであるかが判定されることにより、発話者の音声を容易に検出することができる。
【0018】
また、上記の収音装置において、前記目的音検出部は、前記1つのマイクロホン素子の出力信号から特定の帯域の信号を抽出する第1抽出部を含み、前記音声判定部は、前記第1抽出部によって抽出された前記信号に対して前記音声と前記非音声とのいずれであるかを判定してもよい。
【0019】
この構成によれば、1つのマイクロホン素子の出力信号から抽出された特定の帯域の信号に対して音声と非音声とのいずれであるかが判定されるので、より高い精度で発話者の音声を検出することができる。
【0020】
また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から前記目的音が到来しているか否かを判定する目的音方向判定部と、前記目的音方向判定部によって前記目的音方向から前記目的音が到来していると判定され、かつ前記音声判定部によって前記1つのマイクロホン素子の出力信号が前記音声であると判定された場合、前記目的音が検出されたと判定する目的音判定部と、を含んでもよい。
【0021】
音声が検出されたか否かの判定のみでは、目的音方向以外の方向から発話があった場合も音声が検出されたと判定されてしまうおそれがある。一方、上記の構成によれば、音声が検出され、且つ目的音方向から目的音が到来している場合のみ、目的音が検出されたと判定され、ゲインが更新されるので、より高い精度で目的音を用いて感度差を補正することができる。
【0022】
また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する第2抽出部を含み、前記目的音方向判定部は、前記第2抽出部によって抽出された前記信号に対して前記目的音方向から前記目的音が到来しているか否かを判定してもよい。
【0023】
この構成によれば、複数のマイクロホン素子の出力信号から抽出された特定の帯域の信号に対して目的音方向から目的音が到来しているか否かが判定されるので、より高い精度で目的音方向から目的音が到来しているか否かを判定することができる。
【0024】
また、上記の収音装置において、前記目的音方向判定部は、前記複数のマイクロホン素子の出力信号の位相差を用いて、前記目的音が到来する方向を推定する方向推定部と、前記方向推定部によって推定された前記方向が、予め決められた前記目的音方向であるか否かを判定する方向判定部と、を含んでもよい。
【0025】
目的音が到来する方向は、複数のマイクロホン素子の出力信号の位相差を用いることによって容易に推定することができる。そのため、目的音方向から目的音が到来しているか否かは、予め目的音方向が既知であれば、目的音が到来する方向の推定結果に基づいて容易に判定することができる。
【0026】
また、上記の収音装置において、前記目的音方向判定部は、前記複数のマイクロホン素子の出力信号を用いて前記目的音方向の信号を強調することにより前記目的音方向に指向性を形成する第1指向性合成部と、前記複数のマイクロホン素子の出力信号を用いて前記目的音方向に感度の死角を形成する第2指向性合成部と、前記第1指向性合成部からの出力信号の出力レベルと、前記第2指向性合成部からの出力信号の出力レベルとを比較し、前記目的音方向から前記目的音が到来しているか否かを判定するレベル比較判定部と、を含んでもよい。
【0027】
目的音方向から目的音が到来している場合、第1指向性合成部からの出力信号レベルは、第2指向性合成部からの出力信号レベルより大きくなる。そのため、第1指向性合成部からの出力信号レベルが、第2指向性合成部からの出力信号レベルより大きい場合、目的音方向から目的音が到来していると判定することができる。一方、目的音方向から目的音が到来していない場合、第1指向性合成部及び第2指向性合成部の出力信号には、周辺ノイズのみが含まれる。したがって、第1指向性合成部からの出力信号レベルは、第2指向性合成部からの出力信号レベルとほぼ等しくなるか、第2指向性合成部からの出力信号レベルよりも小さくなる。そのため、第1指向性合成部からの出力信号レベルが、第2指向性合成部からの出力信号レベル以下である場合、目的音方向から目的音が到来していないと判定することができる。
【0028】
また、上記の収音装置において、前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号の出力レベルを検出するレベル検出部と、前記目的音検出部によって前記発話者の前記音声が検出された場合に、前記レベル検出部によって検出された各出力レベルの時間平均レベルを算出する時間平均レベル算出部と、前記時間平均レベル算出部によって算出された前記時間平均レベルから、前記ゲインを更新した補正ゲインを算出する補正ゲイン算出部と、を含んでもよい。
【0029】
この構成によれば、発話者の音声が検出された場合に、複数のマイクロホン素子それぞれの出力信号の出力レベルの時間平均レベルが算出される。そして、算出された時間平均レベルから、ゲインを更新した補正ゲインが算出されるので、複数のマイクロホン素子の出力信号に算出された補正ゲインを掛けることにより複数のマイクロホン素子間の感度差を補正することができる。
【0030】
また、上記の収音装置において、前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている1つのマイクロホン素子の前記時間平均レベルを基準として、前記1つのマイクロホン素子以外の他のマイクロホン素子の前記時間平均レベルが前記1つのマイクロホン素子の前記時間平均レベルと同じになるように前記他のマイクロホン素子の前記補正ゲインを算出してもよい。
【0031】
この構成によれば、複数のマイクロホン素子のうちの予め決められている1つのマイクロホン素子の出力レベルに対して、他のマイクロホン素子の出力レベルが揃うように、複数のマイクロホン素子間の感度差を補正することができる。
【0032】
また、上記の収音装置において、前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている少なくとも2つのマイクロホン素子の前記時間平均レベルの平均値を基準として、前記複数のマイクロホン素子の前記時間平均レベルが前記少なくとも2つのマイクロホン素子の前記時間平均レベルの前記平均値と同じになるように前記複数のマイクロホン素子の前記補正ゲインを算出してもよい。
【0033】
この構成によれば、複数のマイクロホン素子のうちの予め決められている少なくとも2つのマイクロホン素子の出力レベルの平均値に対して、複数のマイクロホン素子の出力レベルが揃うように、複数のマイクロホン素子間の感度差を補正することができる。
【0034】
また、上記の収音装置において、前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号から特定の帯域の信号を抽出する第3抽出部を含み、前記レベル検出部は、前記第3抽出部によって抽出された各信号の出力レベルを検出してもよい。
【0035】
この構成によれば、複数のマイクロホン素子それぞれの出力信号から抽出された特定の帯域の各信号の出力レベルが検出されるので、目的音以外のノイズによる影響を低減することができる。
【0036】
また、上記の収音装置において、前記特定の帯域は、200Hzから500Hzの帯域であってもよい。
【0037】
この構成によれば、複数のマイクロホン素子それぞれの出力信号から抽出された200Hzから500Hzの帯域の各信号の出力レベルが検出される。したがって、200Hz以下の低域ノイズが除去されることで低域ノイズの影響を低減することができる。また、500Hz以上の帯域が除去されることでマイクロホンアレイの大きさよりも十分長い波長の音に限定し、マイクロホンアレイを構成するマイクロホン素子の位置による音圧の差異が少なくなる。これにより、精度良い感度補正が可能となる。
【0038】
本開示の他の態様に係る収音方法は、コンピュータが、複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正し、発話者の音声を目的音として検出し、前記目的音の検出結果に基づいて前記ゲインを制御し、補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音し、前記ゲインの制御において、前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。
【0039】
この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。
【0040】
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。
【0041】
本開示の他の態様に係る収音プログラムは、複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部としてコンピュータを機能させ、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。
【0042】
この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。
【0043】
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。
【0044】
以下、本開示の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
【0045】
(実施の形態1)
図1は、本開示の実施の形態1における収音装置の構成を示すブロック図である。
【0046】
図1に示す収音装置101は、マイクロホンアレイ1、感度補正部2、目的音検出部3、感度補正制御部(ゲイン制御部)4及び指向性合成部5を備える。
【0047】
マイクロホンアレイ1は、音響信号を電気信号に変換するn個(nは自然数)のマイクロホン素子11,12,・・・,1nを含む。マイクロホンアレイ1は、複数のマイクロホン素子を含む。
【0048】
図2は、本開示の実施の形態1におけるマイクロホンアレイの設置位置の一例を示す図であり、図3は、本開示の実施の形態1におけるマイクロホンアレイのマイクロホン素子の配置例を示す図である。
【0049】
図2に示すように、本実施の形態1におけるマイクロホンアレイ1は、車両内のディスプレイ201の近傍に配置される。ディスプレイ201は、カーナビゲーションシステムの構成要素である。また、ディスプレイ201の下方には、空気調和機の吹き出し口202が設けられている。吹き出し口202からは、冷却された空気又は暖められた空気が出力される。
【0050】
また、図3に示すマイクロホンアレイ1は、例えば、4つのマイクロホン素子11,12,13,14を備える。マイクロホン素子11,12,13,14は、四角形の基板上の四隅にそれぞれ配置される。基板の下部に配置されたマイクロホン素子11,12の水平方向の間隔は、例えば2cmである。また、基板の上部に配置されたマイクロホン素子13,14の水平方向の間隔は、例えば2cmである。さらに、マイクロホン素子11,13の垂直方向の間隔は、例えば2cmであり、マイクロホン素子12,14の垂直方向の間隔は、例えば2cmである。
【0051】
マイクロホンアレイ1と吹き出し口202との間隔は、例えば2cmである。マイクロホンアレイ1は、運転席に座る発話者の音声を目的音として取得する。このとき、吹き出し口202から出力される空気の音がノイズとして目的音に含まれる。吹き出し口202に最も近いマイクロホン素子13と、吹き出し口202との間隔は2cmであり、吹き出し口202から最も遠いマイクロホン素子11と、吹き出し口202との間隔は4cmである。マイクロホン素子11と吹き出し口202との間隔は、マイクロホン素子13と吹き出し口202との間隔の2倍となる。
【0052】
この場合、ノイズ源である吹き出し口202と各マイクロホン素子11,13との距離差は無視することができず、吹き出し口202から発生したノイズが各マイクロホン素子11,13の位置での音圧差となって表れる。このようなマイクロホンアレイ1の近傍にあるノイズ源から発生したノイズを用いてマイクロホン素子11~14の感度補正が行われた場合、正しく感度補正が行えず、かえってその後段の指向性合成部(ビームフォーマ)の出力の性能を劣化させるおそれがあった。そこで、本実施の形態1における収音装置101は、目的音を用いてマイクロホン素子11~14の感度補正を行う。
【0053】
なお、マイクロホンアレイ1が備えるマイクロホン素子の数は、4つに限定されない。また、複数のマイクロホン素子の配置位置についても、図3に示す配置位置に限定されない。
【0054】
マイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号は、目的音検出部3に入力される。また、マイクロホン素子11,12,・・・,1nの各出力信号は、感度補正部2及び感度補正制御部4に入力される。
【0055】
感度補正部2は、複数のマイクロホン素子11,12,・・・,1nの出力信号にゲインを掛けることにより複数のマイクロホン素子11,12,・・・,1n間の感度差を補正する。感度補正部2は、各マイクロホン素子11,12,・・・,1nの出力信号に指定されたゲインを乗じることにより各マイクロホン素子11,12,・・・,1nの感度のばらつきを補正する。感度補正部2は、複数のマイクロホン素子11,12,・・・,1n間の感度を揃える。
【0056】
目的音検出部3は、発話者の音声を目的音として検出する。目的音検出部3は、マイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号を取得し、マイクロホンアレイ1で収音する目的音の有無を検出する。なお、本実施の形態1では、音声判定部32は、マイクロホン素子11の出力信号を用いて、目的音の有無を検出しているが、本開示は特にこれに限定されない。音声判定部32は、マイクロホン素子11,12,・・・,1nのうちのいずれか1つの出力信号を用いて目的音の有無を検出してもよい。
【0057】
なお、目的音検出部3の構成については、図4及び図5を用いて更に詳細に説明する。
【0058】
感度補正制御部4は、目的音検出部3の検出結果に基づいてゲインを制御する。感度補正制御部4は、各マイクロホン素子11,12,・・・,1nの出力信号を取得し、目的音検出部3によって目的音が検出された場合に、感度補正部2における各マイクロホン素子11,12,・・・,1nからの出力信号に対する感度補正ゲインを算出する。
【0059】
感度補正制御部4は、目的音検出部3によって発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインを更新し、目的音検出部3によって発話者の音声が検出されない場合、ゲインを更新しない。なお、感度補正制御部4の構成については、図6を用いて更に詳細に説明する。
【0060】
指向性合成部(ビームフォーマ)5は、感度補正部2によって補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音を強調して収音する。指向性合成部5は、感度補正部2によって補正された各マイクロホン素子11,12,・・・,1nの出力信号を取得し、目的音のS/N比を改善する。
【0061】
続いて、図1に示す目的音検出部3の構成について更に説明する。
【0062】
図4は、本開示の実施の形態1における収音装置の目的音検出部の構成を示すブロック図である。
【0063】
図4に示す目的音検出部3は、帯域通過フィルタ部(第1抽出部)31及び音声判定部32を備える。
【0064】
帯域通過フィルタ部31は、複数のマイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号から特定の帯域の信号を抽出する。帯域通過フィルタ部31は、マイクロホン素子11の出力信号から、例えば200Hzから500Hzの帯域の信号を抽出する。帯域通過フィルタ部31は、マイクロホン素子11の出力信号から、人の発話した音声を抽出可能な帯域の信号を抽出する。
【0065】
音声判定部32は、複数のマイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号が音声と音声以外の非音声とのいずれであるかを判定する。音声判定部32は、帯域通過フィルタ部31によって抽出された信号に対して音声と非音声とのいずれであるかを判定する。
【0066】
続いて、図4に示す音声判定部32の構成について更に説明する。
【0067】
図5は、本開示の実施の形態1における収音装置の音声判定部の構成を示すブロック図である。
【0068】
音声判定部32は、レベル検出部321、ノイズレベル検出部322、比較部323、時間-周波数変換部324、音声特徴量抽出部325及び判定部326を備える。
【0069】
レベル検出部321は、マイクロホン素子11の出力信号の信号レベルを検出する。
【0070】
ノイズレベル検出部322は、レベル検出部321によって検出された信号レベルのミニマム値をホールドすることでノイズレベルを検出する。
【0071】
比較部323は、レベル検出部321の出力とノイズレベル検出部322の出力とを比較して波形レベルでの音声の有無を判定する。例えば、比較部323は、ノイズレベル検出部322によって検出されたノイズレベルの2倍の値を閾値に設定する。そして、比較部323は、レベル検出部321によって検出された信号レベルが閾値以上であるか否かを判定する。比較部323は、レベル検出部321によって検出された信号レベルが閾値以上である場合、マイクロホン素子11の出力信号に音声が含まれると判定する。一方、比較部323は、レベル検出部321によって検出された信号レベルが閾値より小さい場合、マイクロホン素子11の出力信号に音声が含まれないと判定する。
【0072】
時間-周波数変換部324は、マイクロホン素子11の時間領域の出力信号を周波数領域の出力信号に変換する。
【0073】
音声特徴量抽出部325は、周波数領域の出力信号から音声特徴量を抽出する。音声特徴量は、音声を示す特徴量である。音声特徴量抽出部325は、特許第5450298号明細書に示すような音声ピッチを用いて音声特徴量を抽出する方法、又は、特許第3849116号明細書に示すような調波構造の性質を特徴量として用いて音声特徴量を抽出する方法を用いてもよい。収音装置101が車載される場合には、図2に示すように、コンソールに埋め込まれたディスプレイ201周辺にマイクロホンアレイ1が組み込まれる。そのため、ノイズ源は、空気調和機の吹き出し口202となる。この場合、雑音のスペクトルは比較的単調であるため、音声特徴量抽出部325は、振幅スペクトルの交流成分又は振幅スペクトルのピークとディップとの比を音声特徴量として抽出してもよい。これにより、空気調和機の吹き出し口202から発生するノイズと音声とを判別することができる。
【0074】
判定部326は、比較部323によってマイクロホン素子11の出力信号に音声が含まれると判定され、かつ音声特徴量抽出部325によってマイクロホン素子11の出力信号から音声特徴量が抽出された場合、マイクロホン素子11の出力信号が音声であると判定する。一方、判定部326は、比較部323によってマイクロホン素子11の出力信号に音声が含まれないと判定された場合、又は音声特徴量抽出部325によってマイクロホン素子11の出力信号から音声特徴量が抽出されない場合、マイクロホン素子11の出力信号が非音声であると判定する。判定部326は、音声及び非音声のいずれかを示す判定結果信号Odet(j)を感度補正制御部4へ出力する。なお、jは時間に対応するサンプル番号を示す。
【0075】
その結果、目的音検出部3は、マイクロホン素子11の出力信号が音声であると判定した場合、判定結果信号Odet(j)=1を出力し、マイクロホン素子11の出力信号が非音声であると判定した場合、判定結果信号Odet(j)=0を出力する。
【0076】
続いて、図1に示す感度補正制御部4の構成について更に説明する。
【0077】
図6は、本開示の実施の形態1における収音装置の感度補正制御部の構成を示すブロック図である。
【0078】
感度補正制御部4は、第1~n帯域通過フィルタ部(第3抽出部)411~41n、第1~nレベル検出部421~42n、第1~n平均レベル算出部(時間平均レベル算出部)431~43n及び補正ゲイン算出部44を備える。第1~n帯域通過フィルタ部411~41n、第1~nレベル検出部421~42n及び第1~n平均レベル算出部431~43nは、それぞれマイクロホン素子11~1nの数に応じて設けられる。例えば、マイクロホン素子11の出力信号x(1,j)は、第1帯域通過フィルタ部411に入力される。
【0079】
第1~n帯域通過フィルタ部411~41nは、複数のマイクロホン素子11~1nそれぞれの出力信号から特定の帯域の信号を抽出する。なお、特定の帯域は、200Hzから500Hzの帯域である。
【0080】
第1~nレベル検出部421~42nは、複数のマイクロホン素子11~1nそれぞれの出力信号の出力レベルを検出する。
【0081】
第1~nレベル検出部421~42nは、各マイクロホン素子の出力信号x(i,j)の出力レベルLx(i,j)を下記の一般的な振幅平滑化の式(1)を用いて検出する。
【0082】
Lx(i,j)=beta1・|x(i,j)|+(1-beta1)・Lx(i,j-1)・・・(1)
【0083】
式(1)において、iはマイクロホン素子番号を示し、jは時間に対応するサンプル番号を示す。また、式(1)において、beta1は、重み係数を示し、平均化の速度を決めるパラメータである。
【0084】
また、本実施の形態1では、第1~n帯域通過フィルタ部411~41nを通過した出力信号xbpf(i,j)が第1~nレベル検出部421~42nに入力される。そのため、第1~nレベル検出部421~42nは、第1~n帯域通過フィルタ部411~41nによって抽出された各マイクロホン素子の出力信号xbpf(i,j)の出力レベルLx(i,j)を下記の一般的な振幅平滑化の式(2)を用いて検出する。
【0085】
Lx(i,j)=beta1・|xbp(i,j)|+(1-beta1)・Lx(i,j-1)・・・(2)
【0086】
第1~n平均レベル算出部431~43nは、目的音検出部3によって発話者の音声が検出された場合に、第1~nレベル検出部421~42nによって検出された各出力レベルLx(i,j)の時間平均レベルAvex(i,j)を算出する。
【0087】
第1~n平均レベル算出部431~43nは、目的音検出部3によって目的音が検出される期間(判定結果信号Odet(j)=1)のみ、各マイクロホン素子の出力レベルLx(i,j)の長時間の平均値(時間平均レベルAvex(i,j))を下記の式(3)を用いて算出する。また、第1~n平均レベル算出部431~43nは、目的音検出部3によって目的音が検出されない期間(判定結果信号Odet(j)=0)、時間平均レベルAvex(i,j)を下記の式(4)を用いて算出する。すなわち、第1~n平均レベル算出部431~43nは、目的音検出部3によって発話者の音声が検出されなかった場合に、前回算出された時間平均レベルAvex(i,j-1)を今回の時間平均レベルAvex(i,j)として算出する。
【0088】
Avex(i,j)=beta2・|Lx(i,j)|+(1-beta2)・Avex(i,j-1) if Odet(j)=1・・・(3)
【0089】
Avex(i,j)=Avex(i,j-1) if Odet(j)=0・・・(4)
【0090】
式(3)及び式(4)において、iはマイクロホン素子番号を示し、jは時間に対応するサンプル番号を示す。また、式(3)において、beta2は、重み係数であり、平均化の速度を決めるパラメータである。また、beta1>>beta2である。例えば、サンプリング周波数が16kHzである場合、beta1は、100m秒での平均レベルとなるように0.000625に設定され、beta2は、5秒での平均となるように0.0000125に設定される。マイクロホン素子の感度補正に用いる平均信号レベルに長時間の平均レベルが用いられることで正確に感度補正ゲインを算出することができる。
【0091】
補正ゲイン算出部44は、第1~n平均レベル算出部431~43nによって算出された時間平均レベルから、ゲインを更新した感度補正ゲインを算出する。
【0092】
補正ゲイン算出部44は、複数のマイクロホン素子11~1nのうちの予め決められている1つのマイクロホン素子11の時間平均レベルを基準として、1つのマイクロホン素子11以外の他のマイクロホン素子12~1nの時間平均レベルが1つのマイクロホン素子11の時間平均レベルと同じになるように他のマイクロホン素子12~1nの感度補正ゲインを算出する。すなわち、補正ゲイン算出部44は、第1~n平均レベル算出部431~43nによって算出された各マイクロホン素子11~1nの時間平均レベルAvex(i,j)と、マイクロホン素子11の時間平均レベルAvex(1,j)とを用いて、下記の式(5)により感度補正ゲインG(i,j)を算出する。
【0093】
G(i,j)=Avex(1,j)/Avex(i,j)・・・(5)
【0094】
上記の式(5)の感度補正ゲインが用いられる場合は、マイクロホン素子11を基準として、その他のマイクロホン素子12~1nの出力レベルが揃うように感度補正が行われることになる。
【0095】
なお、上記の式(5)では、補正ゲイン算出部44は、予め決められている1つのマイクロホン素子11の時間平均レベルを基準として感度補正ゲインを算出しているが、本開示は特にこれに限定されない。補正ゲイン算出部44は、マイクロホン素子11とは異なる他の1つのマイクロホン素子の時間平均レベルを基準として感度補正ゲインを算出してもよい。
【0096】
また、補正ゲイン算出部44は、複数のマイクロホン素子11~1nのうちの予め決められている少なくとも2つのマイクロホン素子の時間平均レベルの平均値を基準として、複数のマイクロホン素子11~1nの時間平均レベルが少なくとも2つのマイクロホン素子の時間平均レベルの平均値と同じになるように複数のマイクロホン素子11~1nの感度補正ゲインを算出してもよい。すなわち、補正ゲイン算出部44は、第1~n平均レベル算出部431~43nによって算出された各マイクロホン素子11~1nの時間平均レベルAvex(i,j)と、時間平均レベルAvex(i,j)の平均値とを用いて、下記の式(6)により感度補正ゲインG(i,j)を算出してもよい。
【0097】
G(i,j)={Avex(1,j)+Avex(2,j)+・・・+Avex(n,j)}/n/Avex(i,j)・・・(6)
【0098】
なお、上記の式(6)では、補正ゲイン算出部44は、マイクロホン素子11~1nのうちの全てのマイクロホン素子11~1nの時間平均レベルの平均値を基準として感度補正ゲインを算出しているが、本開示は特にこれに限定されない。補正ゲイン算出部44は、マイクロホン素子11~1nのうちの少なくとも2つのマイクロホン素子の時間平均レベルの平均値を基準として感度補正ゲインを算出してもよい。
【0099】
感度補正部2は、感度補正制御部4によって算出された各マイクロホン素子11~1nに対応する感度補正ゲインG(i,j)を各マイクロホン素子11~1nの出力信号x(i,j)に乗じることで感度補正を行う。
【0100】
指向性合成部5は、感度補正部2によって補正された出力信号G(i,j)・x(i,j)を用いて、特許文献1に示されるGSCにより指向性合成(ビームフォーミング)する。また、指向性合成部5は、GSC以外のビームフォーミング処理、例えば、Maximum Likelihood法又はMinimum Variance法などの既存のビームフォーミング処理によりビームフォーミングしてもよい。
【0101】
続いて、本開示の実施の形態1における収音装置101の動作について説明する。
【0102】
図7は、本開示の実施の形態1における収音装置の動作について説明するためのフローチャートである。
【0103】
まず、ステップS1において、目的音検出部3は、マイクロホン素子11から出力信号を取得し、感度補正部2及び感度補正制御部4、各マイクロホン素子11~1nから出力信号を取得する。
【0104】
次に、ステップS2において、目的音検出部3は、マイクロホン素子11の出力信号から目的音(音声)が検出されたか否かを判定する。目的音検出部3は、マイクロホン素子11の出力信号から目的音が検出されたか否かを示す判定結果信号を感度補正制御部4へ出力する。
【0105】
ここで、マイクロホン素子11の出力信号から目的音が検出されたと判定された場合(ステップS2でYES)、ステップS3において、感度補正制御部4は、複数のマイクロホン素子11~1nの出力信号に基づいて感度補正ゲインを更新する。
【0106】
一方、マイクロホン素子11の出力信号から目的音が検出されなかったと判定された場合(ステップS2でNO)、感度補正ゲインが更新されずに、ステップS4に処理が移行する。
【0107】
次に、ステップS4において、感度補正部2は、各マイクロホン素子11~1nの出力信号に感度補正ゲインを掛けることにより各マイクロホン素子間の感度差を補正する。
【0108】
次に、ステップS5において、指向性合成部5は、感度補正部2によって補正された各マイクロホン素子11~1nの出力信号を用いて、指向性を合成する。指向性が合成されることにより、所定の方向から到来する目的音が強調して収音される。
【0109】
上記のように、複数のマイクロホン素子11~1nの出力信号にゲインを掛けることにより複数のマイクロホン素子11~1n間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子11~1nの出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子11~1nの出力信号を用いて、所定の方向から到来する目的音が強調して収音される。
【0110】
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子11~1n間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子11~1n間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。
【0111】
(実施の形態2)
上記の実施の形態1では、目的音検出部3は、1つのマイクロホン素子の出力信号が音声と非音声とのいずれであるかを判定している。これに対し、実施の形態2では、目的音検出部は、複数のマイクロホン素子の出力信号を用いて予め決められた目的音方向から目的音が到来しているか否かをさらに判定する。
【0112】
図8は、本開示の実施の形態2における収音装置の構成を示すブロック図である。
【0113】
図8に示す収音装置102は、マイクロホンアレイ1、感度補正部2、感度補正制御部4、指向性合成部5及び目的音検出部6を備える。実施の形態1の収音装置101と異なる点は、目的音検出部6に複数のマイクロホン素子11、12,・・・,1nからの出力信号が入力されている点である。なお、本実施の形態2において、実施の形態1と同じ構成については同じ符号が付され、説明が省略される。
【0114】
図9は、本開示の実施の形態2における収音装置の目的音検出部の構成を示すブロック図である。
【0115】
図9に示す目的音検出部6は、帯域通過フィルタ部31、音声判定部32、帯域通過フィルタ部(第2抽出部)63、目的音方向判定部64及び目的音判定部65を備える。実施の形態1の目的音検出部3に対して、実施の形態2の目的音検出部6には、帯域通過フィルタ部63、目的音方向判定部64及び目的音判定部65が追加されている。
【0116】
帯域通過フィルタ部63は、複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する。帯域通過フィルタ部63は、マイクロホン素子11~1nそれぞれの出力信号から、例えば200Hzから500Hzの帯域の信号を抽出する。
【0117】
目的音方向判定部64は、複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から目的音が到来しているか否かを判定する。目的音方向判定部64は、帯域通過フィルタ部63によって抽出された信号に対して目的音方向から目的音が到来しているか否かを判定する。ここで、車内に配置された収音装置102が、運転者の発話音声を収音する場合、運転者の発話音声がマイクロホンアレイ1に入射する角度は予め決められる。そのため、目的音方向判定部64は、発話音声の入射角度を予め記憶している。なお、目的音方向判定部64の構成については、図10及び図11を用いて更に詳細に説明する。
【0118】
目的音判定部65は、音声判定部32と目的音方向判定部64との2つの判定結果を用いて、目的音の有無を判定する。目的音判定部65は、目的音方向判定部64によって目的音方向から目的音が到来していると判定され、かつ音声判定部32によって1つのマイクロホン素子の出力信号が音声であると判定された場合、目的音が検出されたと判定する。また、目的音判定部65は、目的音方向判定部64によって目的音方向から目的音が到来していないと判定された場合、又は音声判定部32によって1つのマイクロホン素子の出力信号が音声ではないと判定された場合、目的音が検出されていないと判定する。
【0119】
続いて、図9に示す目的音方向判定部64の構成について更に説明する。
【0120】
図10は、本開示の実施の形態2における収音装置の目的音方向判定部の構成を示すブロック図である。なお、図10では、説明の都合上、2つのマイクロホン素子11,12からの出力信号が目的音方向判定部64に入力される例について説明する。
【0121】
目的音方向判定部64は、遅延和指向性合成部(遅延和ビームフォーマ)(第1指向性合成部)641、傾度型指向性合成部(傾度型ビームフォーマ)(第2指向性合成部)642、目的音レベル検出部643、非目的音レベル検出部644及びレベル比較判定部645を備える。
【0122】
遅延和指向性合成部641は、複数のマイクロホン素子11~1nの出力信号を用いて目的音方向の信号を強調することにより目的音方向に指向性を形成する。遅延和指向性合成部641は、目的音方向に高い指向性感度を有する。図10に示す指向特性6411は、遅延和指向性合成部641の指向特性を示している。遅延和指向性合成部641の指向特性6411は、目的音方向に指向性を有しており、目的音方向の信号を強調する。
【0123】
遅延和指向性合成部641は、マイクロホン素子11とマイクロホン素子12との間の距離をdとし、目的音方向からの入射角度をθとすると、マイクロホン素子11からの出力信号を経路差Δ(Δ=dsinθ)だけ遅延させる。そして、遅延和指向性合成部641は、遅延させたマイクロホン素子11からの出力信号とマイクロホン素子12からの出力信号とを加算する。なお、距離d及び入射角度θは、不図示のメモリに予め記憶されている。
【0124】
傾度型指向性合成部642は、複数のマイクロホン素子11,12の出力信号を用いて目的音方向に感度の死角を形成する。図10に示す指向特性6421は、傾度型指向性合成部642の指向特性を示している。傾度型指向性合成部642の指向特性6421は、目的音方向に死角を有しており、目的音方向に垂直な方向の信号(ノイズ)を強調する。
【0125】
傾度型指向性合成部642は、マイクロホン素子11とマイクロホン素子12との間の距離をdとし、目的音方向からの音の入射角度をθとすると、マイクロホン素子11からの出力信号を経路差Δ(Δ=dsinθ)だけ遅延させる。そして、傾度型指向性合成部642は、遅延させたマイクロホン素子11からの出力信号から、マイクロホン素子12からの出力信号を減算する。なお、距離d及び入射角度θは、予め記憶されている。
【0126】
目的音レベル検出部643は、遅延和指向性合成部641の出力信号レベルを検出する。
【0127】
非目的音レベル検出部644は、傾度型指向性合成部642の出力信号レベルを検出する。
【0128】
レベル比較判定部645は、遅延和指向性合成部641からの出力信号の出力レベルと、傾度型指向性合成部642からの出力信号の出力レベルとを比較し、目的音方向から目的音が到来しているか否かを判定する。レベル比較判定部645は、目的音レベル検出部643によって検出された出力信号レベルと、非目的音レベル検出部644によって検出された出力信号レベルとを比較し、目的音方向から目的音が到来しているか否かを判定する。
【0129】
遅延和指向性合成部641は目的音方向に指向性を有している。そのため、目的音である発話者の音声は、遅延和指向性合成部641の出力に含まれる。一方、傾度型指向性合成部642は目的音方向に死角を有している。そのため、目的音である発話者の音声は、傾度型指向性合成部642の出力に殆ど含まれない。したがって、目的音方向から目的音が到来している場合、目的音レベル検出部643によって検出される出力信号レベルは大きくなり、非目的音レベル検出部644によって検出される出力信号レベルは小さくなる。レベル比較判定部645は、目的音レベル検出部643によって検出される出力信号レベル(目的音レベル)が非目的音レベル検出部644によって検出される出力信号レベル(非目的音レベル)より大きい場合、目的音方向から目的音が到来していると判定する。
【0130】
一方、目的音方向から目的音が到来していない場合、遅延和指向性合成部641及び傾度型指向性合成部642の出力には、周辺ノイズのみが含まれる。したがって、目的音レベル検出部643によって検出される出力信号レベルは、非目的音レベル検出部644によって検出される出力信号レベルとほぼ等しくなるか、非目的音レベル検出部644によって検出される出力信号レベルよりも小さくなる。レベル比較判定部645は、目的音レベル検出部643によって検出される出力信号レベル(目的音レベル)が非目的音レベル検出部644によって検出される出力信号レベル(非目的音レベル)以下である場合、目的音方向から目的音が到来していないと判定する。
【0131】
実施の形態1では、音声が検出されると目的音が検出されたと判定していたため、目的音方向以外の方向から発話があった場合も目的音が検出されたと判定されてしまい、感度補正が行われる。一方、実施の形態2では、音声が検出され、且つ目的音方向から目的音が到来している場合のみ、目的音が検出されたと判定される。したがって、実施の形態2の収音装置102は、実施の形態1の収音装置101よりも精度良く目的音を用いて感度補正を行うことができる。
【0132】
続いて、本実施の形態2の変形例における目的音方向判定部の構成について更に説明する。
【0133】
図11は、本開示の実施の形態2の変形例における収音装置の目的音方向判定部の構成を示すブロック図である。なお、図11では、説明の都合上、2つのマイクロホン素子11,12からの出力信号が目的音方向判定部64Aに入力される例について説明する。また、図9に示す目的音検出部6は、図9に示す目的音方向判定部64に替えて、図11に示す目的音方向判定部64Aを備える。
【0134】
目的音方向判定部64Aは、目的音方向推定部(方向推定部)646及び方向判定部647を備える。
【0135】
目的音方向推定部646は、複数のマイクロホン素子の出力信号の位相差を用いて、目的音が到来する方向を推定する。不図示のメモリは、マイクロホン素子11とマイクロホン素子12との間の距離dを予め記憶している。目的音方向推定部646は、マイクロホン素子11とマイクロホン素子12との位相差と、マイクロホン素子11とマイクロホン素子12との間の距離dとに基づき、目的音方向からの音の入射角度θを推定する。
【0136】
方向判定部647は、目的音方向推定部646によって推定された方向が、予め決められた目的音方向であるか否かを判定する。方向判定部647は、目的音方向推定部646によって推定された方向が、予め記憶されている目的音方向を含む所定の範囲に入っている場合、目的音方向から目的音が到来していると判定する。一方、方向判定部647は、目的音方向推定部646によって推定された方向が、予め記憶されている目的音方向を含む所定の範囲に入っていない場合、目的音方向から目的音が到来していないと判定する。例えば、方向判定部647は、目的音方向推定部646によって推定された音の入射角度が、予め記憶されている目的音方向の角度の-5度~+5度の範囲に入っているか否かを判定してもよい。なお、不図示のメモリは、目的音方向の角度を予め記憶している。
【0137】
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0138】
本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0139】
また、本開示の実施の形態に係る装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
【0140】
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
【0141】
また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
【産業上の利用可能性】
【0142】
本開示に係る技術は、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができるので、複数のマイクロホン素子を用いて目的音を収音する技術に有用である。
【符号の説明】
【0143】
1 マイクロホンアレイ
2 感度補正部
3,6 目的音検出部
4 感度補正制御部
5 指向性合成部
11~1n マイクロホン素子
31 帯域通過フィルタ部
32 音声判定部
44 補正ゲイン算出部
63 帯域通過フィルタ部
64,64A 目的音方向判定部
65 目的音判定部
201 ディスプレイ
202 吹き出し口
321 レベル検出部
322 ノイズレベル検出部
323 比較部
324 時間-周波数変換部
325 音声特徴量抽出部
326 判定部
411~41n 第1~n帯域通過フィルタ部
421~42n 第1~nレベル検出部
431~43n 第1~n平均レベル算出部
641 遅延和指向性合成部
642 傾度型指向性合成部
643 目的音レベル検出部
644 非目的音レベル検出部
645 レベル比較判定部
646 目的音方向推定部
647 方向判定部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11