(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】収音装置、収音プログラム及び収音方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240730BHJP
G10L 25/51 20130101ALI20240730BHJP
【FI】
H04R3/00 320
G10L25/51 400
(21)【出願番号】P 2023006991
(22)【出願日】2023-01-20
【審査請求日】2023-01-20
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究/革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発 課題オ 超臨場感コミュニケーションシステム」、産業技術力強化法第17条の適用を受ける特許出願)
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】▲高▼橋 悠介
【審査官】金子 秀彦
(56)【参考文献】
【文献】特開2013-183358(JP,A)
【文献】特開2018-170718(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得する指向性形成手段と、
それぞれの前記マイクロホンアレイの前記目的方向音に基づいて、それぞれの前記マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得する目的エリア音抽出手段と、
前記目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行う目的エリア音有無判定手段と、
前記目的エリア音有無判定手段で、目的エリア音が有ると判定された際に、それぞれの前記マイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行い、推定した前記到来方向推定値を出力する到来方向推定手段と、
前記指向性形成手段に対して、それぞれの前記マイクロホンアレイの指向性を前記到来方向推定手段が出力した前記到来方向推定値に応じた方向となるように補正させる指向性補正手段と
を有することを特徴とする収音装置。
【請求項2】
前記目的エリア音有無判定手段で、前記目的エリア音抽出音に目的エリア音が有ると判定された場合に、前記目的エリア音抽出音を出力する出力手段をさらに備えることを特徴とする請求項1に記載の収音装置。
【請求項3】
前記目的エリア音有無判定手段は、前記目的エリア音抽出音に基づく判定値と所定の閾値との比較結果に基づいて、前記目的エリア音抽出音における目的エリア音の有無を判定することを特徴とする請求項2に記載の収音装置。
【請求項4】
それぞれの前記マイクロホンアレイは2つのマイクロホンを備え、
前記到来方向推定手段は、
それぞれの前記マイクロホンアレイについて、前記入力信号の周波数成分ごとに前記マイクロホン間の前記入力信号の位相差を取得し、取得した位相差に基づいて、前記周波数成分の音が到来する周波数成分到来方向を算出する到来方向算出手段と、
それぞれの前記マイクロホンアレイについて、前記到来方向算出手段で算出された前記周波数成分到来方向について統計的に分析することで、目的エリア音の到来方向を推定する統計処理手段と
をさらに有することを特徴とする請求項3に記載の収音装置。
【請求項5】
前記統計処理手段は、それぞれの前記マイクロホンアレイについて、前記到来方向算出
手段で算出された前記周波数成分到来方向から、
前記周波数成分到来方向に対応する前記周波数成分ごとのパワー値の大きさに応じて所定数の前記周波数成分到来方向を抽出し、抽出した前記周波数成分到来方向の中央値を算出し、前記中央値に基づいて前記目的エリア音の前記到来方向を推定することを特徴とする請求項4に記載の収音装置。
【請求項6】
前記統計処理手段は、それぞれの前記マイクロホンアレイについて、前記到来方向算出
手段で算出された前記周波数成分到来方向から、
前記周波数成分到来方向に対応する前記周波数成分ごとのパワー値の大きさに応じて所定数の前記周波数成分到来方向を抽出し、抽出した前記周波数成分到来方向についてカーネル密度を推定し、推定したカーネル密度がピークとなる前記周波数成分到来方向に基づいて、前記目的エリア音の前記到来方向を推定することを特徴とする請求項4に記載の収音装置。
【請求項7】
前記到来方向推定手段には、前記マイクロホンアレイごとに設定可能な指向性の範囲を示す指向性範囲情報が設定されており、前記到来方向推定処理の結果取得された前記到来方向推定値が前記指向性範囲情報に基づく範囲外であった場合は、前記指向性範囲情報に基づく範囲内のいずれかの値を前記到来方向推定値として選択して出力することを特徴とする請求項1に記載の収音装置。
【請求項8】
コンピュータを、
複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得する指向性形成手段と、
それぞれの前記マイクロホンアレイの前記目的方向音に基づいて、それぞれの前記マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得する目的エリア音抽出手段と、
前記目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行う目的エリア音有無判定手段と、
前記目的エリア音有無判定手段で、目的エリア音が有ると判定された際に、それぞれの前記マイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行い、推定した前記到来方向推定値を出力する到来方向推定手段と、
前記指向性形成手段に対して、それぞれの前記マイクロホンアレイの指向性を前記到来方向推定手段が出力した前記到来方向推定値に応じた方向となるように補正させる指向性補正手段と
して機能させることを特徴とする収音プログラム。
【請求項9】
収音装置が行う収音方法において、
前記収音装置は、指向性形成手段、目的エリア音抽出手段、目的エリア音有無判定手段、到来方向推定手段、指向性補正手段を備え、
前記指向性形成手段は、複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得し、
前記目的エリア音抽出手段は、それぞれの前記マイクロホンアレイの前記目的方向音に基づいて、それぞれの前記マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得し、
前記目的エリア音有無判定手段は、前記目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行い、
前記到来方向推定手段は、前記目的エリア音有無判定手段で、目的エリア音が有ると判定された際に、それぞれの前記マイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行い、推定した前記到来方向推定値を出力し、
前記指向性補正手段は、前記指向性形成手段に対して、それぞれの前記マイクロホンアレイの指向性を前記到来方向推定手段が出力した前記到来方向推定値に応じた方向となるように補正させる
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、収音装置、収音プログラム及び収音方法に関し、例えば、特定のエリアの目的音を強調し、それ以外のエリアの音を抑圧するシステムにおいて、位置が変化する目的音を収音するために、目的音の到来方向を推定し、収音するエリアの範囲を調整する装置に適用しうる。
【背景技術】
【0002】
目的音が雑音源に囲まれている状況で、目的音のみを抽出する手段として、例えば、目的音の存在するエリア(以下、「目的エリア」とする)を空間上で区切って、目的エリア音だけを収音する、特許文献1のような方式が提案されている。
【0003】
特許文献1では、目的エリア音のみを収音することを目的として、複数のマイクロホンアレイを用い、それぞれ別の方向から目的音に指向性を向け、指向性を目的エリアで交差させることで、目的エリア音を収音する手法を提案している。
【0004】
ここで、特許文献1の技術について説明する。
【0005】
複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーミング(Beam Forming;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する音の時間差を利用して指向性を形成する技術である(非特許文献1参照)。
【0006】
従来、BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0007】
図8は、マイクロホンMの数が2個の場合の減算型BFに係る構成を示すブロック図である。
【0008】
図9は、2個のマイクロホンM1、M2を用いた減算型BFにより形成される指向性フィルタの例について示した説明図である。
【0009】
図9に示す減算型BF300は、遅延器310と減算器320を備えている。
【0010】
減算型BF300は、まず遅延器310により目的とする方向に存在する音(以下、「目的方向音」と呼ぶ)が各マイクロホンM1、M2に到来する音の時間差を算出し、遅延を加えることにより目的方向音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。
【0011】
なお、ここで、dはマイクロホンM1、M2間の距離、cは音速、τLは遅延量である。またθLは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。さらに、ここで、マイクロホンM1、M2の時間領域の入力信号はそれぞれx1(t)、x2(t)、である。
【0012】
ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器310は、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算型BF300では、以下の(2)式に従い処理(減算処理)を行う。
【0013】
減算型BF300の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)式のように変更される。ここで、マイクロホンM1、M2の周波数領域の入力信号はそれぞれX1(t)、X2(t)である。
【0014】
【0015】
ここで、θ
L=±π/2の場合、減算型BF300により形成される指向性は
図9(a)に示すように、カージオイド型の単一指向性となる。
【0016】
また、「θ
L=0,π」の場合、減算型BF300により形成される指向性は、
図9(b)のような8の字型の双指向性となる。
【0017】
以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
【0018】
また、減算器320では、スペクトル減算法(Spectral Subtr action;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。
【0019】
以下の(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。ここでβは、SSの強度を調節するための係数である。また、減算器320では、減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF300の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的方向音を強調することができる。
【0020】
|Y(f)|=|X1(f)|-β|M(f)| …(4)
【0021】
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。
【0022】
そこで、特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けて指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。
【0023】
例えば、2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、nはフーリエ変換のフレームインデックス、Y1f(n)は第1のマイクロホンアレイのBF出力の振幅スペクトルであり、Y2f(n)は第2のマイクロホンアレイのBF出力の振幅スペクトルであり、Nは周波数ビンの総数である。
【0024】
また、ここで、α1(n)、α2(n)は各マイクロホンアレイのBF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値を表し、medeianは中央値を表している。
【0025】
【0026】
以上の処理により、減算器320は、補正係数α1(n)、α2(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器320は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
【0027】
特許文献1のエリア収音処理では、第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N1(n)を抽出する際、例えば、(9)式に示すように、第1のマイクロホンアレイのBF出力Y1(n)から第2のマイクロホンアレイのBF出力Y2(n)に振幅スペクトル補正係数α2を掛けたものをSSする。また、特許文献1のエリア収音処理では、同様に、以下の(10)式に従い、第2のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N2(n)を抽出する。
【0028】
その後、特許文献1のエリア収音処理は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイM1を基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイM2を基準として目的エリア音を抽出する場合の処理を示している。ここでγ1(n)、γ2(n)は、SS時の強度を変更するための係数である。
【0029】
|N1(n)|=|Y1(n)|-α2(n)|Y2(n)| …(9)
|N2(n)|=|Y2(n)|-α1(n)|Y1(n)| …(10)
|Z1(n)|=|Y1(n)|-γ1(n)|N1(n)| …(11)
|Z2(n)|=|Y2(n)|-γ2(n)|N2(n)| …(12)
【0030】
ところで、背景雑音が強い場合、目的エリア音Z1(n)、Z2(n)には消しきれなかった雑音が残り、ミュージカルノイズなどの耳障りな異音が発生することがある。そこで、特許文献1のエリア収音処理では、マイクアレイの入力信号と抽出した目的エリア音とを比較して、目的エリア音の有無を判定して、目的エリア音が存在しない場合には、無音もしくは小さな音を出力するようにする。具体的には、(13)、(14)式によって周波数ごとの振幅比の和Rを計算する。そして、Rが所定の閾値以上であれば目的エリア音が存在すると判定し、Rが該閾値未満であれば、(13)式の周波数ごとの振幅比Rfと所定の閾値とを比較して、Rfが所定の閾値以上であれば目的エリア音が存在すると判定し、Rfが該閾値未満であれば、目的エリア音は存在しないと判定する。なお、目的エリア音の有無の判定は、目的エリア音が存在すると判定した場合、その後の数秒間は、判定結果に関わらず、目的エリア音が存在すると判定する処理(ハングオーバー機能に対応する処理)を追加するようにしてもよい。ここで、X1fは、マイクロホンアレイMA1の入力信号X1(第1のマイクロホンM1の入力信号)における周波数fの振幅スペクトルであり、Z1fは目的エリア音における周波数fの振幅スペクトルである。また、flowは処理対象の周波数の下限、fuppは周波数の上限である。さらに、周波数ごと(周波数ビンごと)の振幅比の和Rは、振幅比Rfの周波数f=flow、・・・、fuppまでの和である。
【0031】
【0032】
以上のように、特許文献1に記載のエリア収音処理(収音装置)は、複数のマイクロホンアレイで構成され、各マイクロホンアレイはビームフォーミングによって目的エリア方向への指向性を形成し、すべてのビームフォーミング出力に含まれる目的エリア音のパワーが等しくなるようにパワーを補正し、それぞれのビームフォーミング出力をスペクトル減算することで非目的エリア音を抽出し、各ビームフォーミング出力から非目的エリア音をスペクトル減算することで、目的エリア音を抽出し、入力音に含まれる目的エリア音の大きさの関係から、全周波数成分と各周波数成分で出力の有無の判定を行い、目的エリア音が存在する判定の場合、目的エリア音を出力して、目的エリア音が存在しない判定の場合、無音もしくは小さな音を出力する。
【先行技術文献】
【特許文献】
【0033】
【非特許文献】
【0034】
【文献】浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,日本音響学会編,コロナ社,2011年2月25日発行
【発明の概要】
【発明が解決しようとする課題】
【0035】
しかしながら、特許文献1のエリア収音処理では、各マイクロホンアレイを用いたビームフォーミングの指向性が交差する部分を、目的エリアとして強調しているため、目的エリアの位置、範囲は固定されている。従って、特許文献1のエリア収音処理では、目的音の音源の位置が目的エリア外に移動してしまう場合、目的音の収音ができなくなってしまうという問題がある。
【0036】
以上のような問題に鑑みて、目的音の音源の位置が変動する場合であっても、安定的に目的音を収音する収音装置、収音プログラム及び収音方法が望まれている。
【課題を解決するための手段】
【0037】
第1の本発明は、複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得する指向性形成手段と、それぞれの前記マイクロホンアレイの前記目的方向音に基づいて、それぞれの前記マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得する目的エリア音抽出手段と、前記目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行う目的エリア音有無判定手段と、前記目的エリア音有無判定手段で、目的エリア音が有ると判定された際に、それぞれの前記マイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行い、推定した前記到来方向推定値を出力する到来方向推定手段と、前記指向性形成手段に対して、それぞれの前記マイクロホンアレイの指向性を前記到来方向推定手段が出力した前記到来方向推定値に応じた方向となるように補正させる指向性補正手段とを有することを特徴とする。
【0038】
第2の本発明は、コンピュータを、複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得する指向性形成手段と、それぞれの前記マイクロホンアレイの前記目的方向音に基づいて、それぞれの前記マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得する目的エリア音抽出手段と、前記目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行う目的エリア音有無判定手段と、前記目的エリア音有無判定手段で、目的エリア音が有ると判定された際に、それぞれの前記マイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行い、推定した前記到来方向推定値を出力する到来方向推定手段と、前記指向性形成手段に対して、それぞれの前記マイクロホンアレイの指向性を前記到来方向推定手段が出力した前記到来方向推定値に応じた方向となるように補正させる指向性補正手段として機能させることを特徴とする。
【0039】
第3の本発明は、収音装置が行う収音方法において、前記収音装置は、指向性形成手段、目的エリア音抽出手段、目的エリア音有無判定手段、到来方向推定手段、指向性補正手段を備え、前記指向性形成手段は、複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得し、前記目的エリア音抽出手段は、それぞれの前記マイクロホンアレイの前記目的方向音に基づいて、それぞれの前記マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得し、前記目的エリア音有無判定手段は、前記目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行い、前記到来方向推定手段は、前記目的エリア音有無判定手段で、目的エリア音が有ると判定された際に、それぞれの前記マイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行い、推定した前記到来方向推定値を出力し、前記指向性補正手段は、前記指向性形成手段に対して、それぞれの前記マイクロホンアレイの指向性を前記到来方向推定手段が出力した前記到来方向推定値に応じた方向となるように補正させることを特徴とする。
【発明の効果】
【0040】
本発明によれば、目的音源の位置が変動する場合であっても、安定的に目的音を収音する収音装置、収音プログラム及び収音方法を提供することができる。
【図面の簡単な説明】
【0041】
【
図1】第1の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図2】第1の実施形態に係る到来方向推定手段の機能的構成について示したブロック図である。
【
図3】第1の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。
【
図4】第1の実施形態に係る収音装置による目的音源の追跡動作について示した図である。
【
図5】第1の実施形態に係るマイクロホンアレイの配置構成の例について示した図である。
【
図6】第2の実施形態に係る到来方向推定手段の機能的構成について示したブロック図である。
【
図7】第3の実施形態に係る到来方向推定手段の機能的構成について示したブロック図である。
【
図8】従来の減算型ビームフォーミングに係る構成を示すブロック図である。
【
図9】従来の減算型ビームフォーミングにより形成される指向性フィルタの例について示した説明図である。
【発明を実施するための形態】
【0042】
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第1の実施形態を、図面を参照しながら詳述する。
【0043】
(A-1)第1の実施形態の構成
図1は、この実施形態の収音装置10の機能構成を示したブロック線図である。
【0044】
図1において括弧内の符号は、後述する第2又は第3の実施形態で用いられる符号である。
【0045】
収音装置は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
【0046】
マイクロホンアレイMA1、MA2は、目的エリアが存在する空間の任意の場所に配置される。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイ(MA1、MA2)に、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイは、2chマイクロホンアレイを構成している。
【0047】
次に、収音装置10の内部構成について説明する。
【0048】
収音装置10は、周波数解析手段11、2つの指向性形成手段12(12-1、12-2)、目的エリア音抽出手段13、目的エリア音有無判定手段14、到来方向推定手段15、指向性正面補正記憶部16及び目的エリア音出力手段17を有している。
【0049】
図2は、到来方向推定手段15の内部構成について示した図である。
【0050】
図2に示すように、到来方向推定手段15は、到来方向算出部151、到来方向記憶部152、パワー判定部153及び中央値算出部154を有している。
【0051】
この実施形態において、収音装置10は、2つのマイクロホンアレイMA(MA1、MA2)で収音された音響信号に基づいて、目的エリア内の音源(以下、「目的音源」と呼ぶ)の位置に関する特徴量を算出し、その特徴量に基づいて目的音源の位置を自動で調整する。収音装置10を構成する各要素の処理の詳細については後述する。
【0052】
次に、
図3を用いて、収音装置10のハードウェア構成について説明する。
【0053】
図3は、収音装置10のハードウェア構成の例について示したブロック図である。
【0054】
収音装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0055】
図3では、収音装置10を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
【0056】
図3に示す収音装置10は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ200を有している。また、コンピュータ200は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
【0057】
図3に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
【0058】
なお、コンピュータ200の具体的な構成は
図3の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部203については除外した構成としてもよい。
【0059】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施例の収音装置10の動作を説明する。
【0060】
各マイクロホンアレイは、収音された音響信号をアナログ信号からデジタル信号に変換して、得られたデジタル信号を周波数解析手段11に供給する。
【0061】
周波数解析手段11は、供給されたデジタル信号に対して任意の周波数解析を行い、得られた入力スペクトル(周波数領域の入力信号)を各指向性形成手段12(12-1、12-2)に供給する。周波数解析手段11において、周波数解析方法に制限はなく、例えば、高速フーリエ変換やウェーブレット変換でも良い。この実施形態では、各マイクロホンアレイにおいて、マイクロホンM1、M2の入力信号を、それぞれX1、X2とする。また、この実施形態では、マイクロホンアレイMA1の入力スペクトルが指向性形成手段12-1に供給され、マイクロホンアレイMA2の入力スペクトルが指向性形成手段12-2に供給されるものとする。
【0062】
指向性形成手段12(12-1、12-2)では、供給された複数の入力スペクトルに対して任意のビームフォーミング処理を行い、設定された方向に指向性を形成し、得られたビームフォーミングの出力スペクトル(以下、「BF出力」とも呼ぶ)を目的エリア音抽出手段13に供給する。各指向性形成手段12に設定する指向性の方向については後述する。
【0063】
指向性形成手段12におけるビームフォーミング方法には、任意の方法を用いることができるが、この実施形態では各マイクロホンアレイを構成するマイクロホンの数が2個であるため、(3)式及び(4)式によるビームフォーミング方法を用いるのが好適である。具体的には、目的エリア音抽出手段13では、(3)式によって2つの入力スペクトルX1(f)、X2(f)から非目的音のスペクトルM(f)を抽出し、(4)式によって入力信号の振幅スペクトル|X1(f)|から抽出した非目的音の振幅スペクトル|M(f)|をスペクトル減算することで、目的音方向をそれぞれ強調することができる。
【0064】
目的エリア音抽出手段13は、各ビームフォーミングの出力スペクトルを(9)式、もしくは(10)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出手段13は、抽出した雑音を各BFの出力から(11)式もしくは(12)式に従いSSすることにより目的エリア音を抽出する。以下では、目的エリア音抽出手段13が、目的エリア音を抽出した結果得られた音を「目的エリア音抽出音」と呼ぶものとする。
【0065】
次に、目的エリア音有無判定手段14の動作について説明する。
【0066】
目的エリア音有無判定手段14は、目的エリア音抽出手段13から取得した目的エリア音抽出音に基づく判定値(以下、「目的エリア音判定値」と呼ぶ)と、予め定めた閾値の比較結果に基づき、目的エリア音の有無(目的エリア音抽出音に目的音が含まれるか否か)について判定を行う。目的エリア音判定値は、例えば、目的エリア音抽出音に目的エリア音(目的音)が含まれることを示す「目的エリア音有り」又は、目的エリア音抽出音に目的エリア音(目的音)が含まれないことを示す「目的エリア音無し」のいずれかの値(例えば、「1」又は「0」の2値)としてもよい。ここで、目的エリア音判定値について具体的に示す。まず、周波数ごとに、データ入力部から取得した入力信号X1fと、目的エリア音取得部から取得した目的エリア音Z1fを用いて、周波数ごとの振幅比Rfを算出する。具体的には、(13)式に基づき周波数毎の振幅比Rfを算出する。目的エリア音判定値は、振幅比Rfの周波数f=flow,・・・,fuppまでの和Rである。具体的には、(14)式に基づき周波数毎の振幅比の和を算出する。
【0067】
そして、目的エリア音有無判定手段14は、振幅比の和に基づく判定値Rを、あらかじめ定めた閾値と比較して、目的エリア音の有無を判定し、判定結果(目的エリア音判定値)を、到来方向推定手段15及び目的エリア音出力手段17に供給する。
【0068】
次に、到来方向推定手段15内部の動作について説明する。
【0069】
到来方向推定手段15は、各マイクロホンアレイ(MA1、MA2)について目的エリア音の到来方向を推定する処理(以下、「到来方向推定処理」と呼ぶ)を行い、推定した到来方向(以下、「到来方向推定値φ」と呼ぶ)を指向性正面補正記憶部16に記憶させる。
【0070】
この実施形態の到来方向推定手段15では、到来方向算出部151、到来方向記憶部152、パワー判定部153及び中央値算出部154により、到来方向推定処理が行われるものとする。
【0071】
到来方向算出部151は、目的エリア音有無判定手段14で目的エリア音有りと判定された場合に、各マイクロホンアレイの複数の入力スペクトルから、2つのマイクロホンの入力スペクトルの位相差θの算出処理(以下、「位相差算出処理」と呼ぶ)を行い、位相差算出処理により求めた位相差θに基づいて到来方向を推定して到来方向推定値φを取得する処理(到来方向推定処理)を行う。
【0072】
まず、到来方向算出部151において、位相差を算出する処理について説明する。位相差は、2つのマイクロホンM1、M2の入力スペクトルX1、X2におけるクロススペクトルから算出する。2つのマイクロホンM1、M2のクロススペクトルCMA1は、(15)式によって計算できる。ここで、クロススペクトルの位相θは、2つのマイクロホンM1、M2の入力スペクトルX1、X2の位相差を表すため、2つのマイクロホンM1、M2における位相差は(16)式によって計算できる。
【0073】
【0074】
次に、到来方向算出部151において、各マイクロホンアレイ(MA1、MA2)について、周波数ごとに位相差θ(2つのマイクロホンM1、M2の入力信号間の位相差)から、目的エリア音の到来方向φを算出する処理について説明する。
【0075】
到来方向算出部151では、各マイクロホンアレイ(MA1、MA2)について、周波数fごとの到来方向φは(17)式によって計算できる。これにより、到来方向算出部151では、より目的エリア音らしい到来方向値を抽出可能となる。
【0076】
【0077】
到来方向算出部151は、各マイクロホンアレイ(MA1、MA2)について、抽出した到来方向値(周波数ビンごとの到来方向値)を、あらかじめ定めたフレーム分、到来方向記憶部152に記憶させる。この時、到来方向記憶部152では、到来方向値とともに、各周波数ビンでの振幅スペクトル値、又はパワースペクトル値が記憶される。到来方向記憶部152に記憶される到来方向値のフレーム数(以下、「フレームバッファ長」と呼ぶ)は、目的エリア付近で突発的に発生した雑音に頑強にするために、例えば1秒に相当するフレーム数程度とするのが好ましい。つまり、到来方向算出部151、マイクロホンアレイMA1、MA2のそれぞれについてフレームバッファ長分の到来方向値(周波数ビンごとの到来方向値)を保持する。
【0078】
パワー判定部153は、各マイクロホンアレイ(MA1、MA2)について、到来方向推定手段15で記憶されている到来方向値のうち、振幅スペクトル値またはパワースペクトル値の値が大きい上位10%を抽出する。これにより、より振幅値の大きな目的エリア音らしい到来方向値を抽出することができる。
【0079】
中央値算出部154は、各マイクロホンアレイ(MA1、MA2)について、パワー判定部153で抽出された到来方向値を統計的に処理して到来方向推定値φ(目的エリア音の到来方向)を求める。具体的には、中央値算出部154は、各マイクロホンアレイ(MA1、MA2)について、パワー判定部153で抽出された到来方向値の中央値を到来方向推定値φ(目的エリア音の到来方向)として取得するものとする。中央値算出部154で推定された到来方向推定値φ(マイクロホンアレイごとの到来方向推定値)は、指向性正面補正記憶部16に供給される。各指向性形成手段12(12-1、12-2)では、この指向性正面補正記憶部16に記憶された到来方向推定値φの方向を正面方向として強調する。つまり、指向性形成手段12-1ではマイクロホンアレイMA1についての到来方向推定値φが供給され、指向性形成手段12-2ではマイクロホンアレイMA2についての到来方向推定値第が供給されることになる。言い換えると、指向性正面補正記憶部16は、各指向性形成手段12(12-1、12-2)に対して、到来方向推定値φに応じた方向となるように指向性を補正させる手段(指向性補正手段)として機能する。
【0080】
各指向性形成手段12(12-1、12-2)では、指向性正面補正記憶部16から供給された到来方向推定値φの方向に対して、各マイクロホンM1、M2に到来する音の時間差を算出し、遅延を加えることにより、到来方向推定値φの方向から到来する音の位相を合わせる。上述の時間差は、(18)式により算出することができる。ここで、τLestは遅延量である。さらに、各指向性形成手段12(12-1、12-2)は、以下の(19)式に従い処理(減算処理)を行い、到来方向推定値φの方向を正面方向(目的方向)として強調している。
【0081】
【0082】
目的エリア音出力手段17は、目的エリア音有無判定手段14で目的エリア音判定値が目的エリア音有りの場合に、入力された目的エリア音を出力する。目的エリア音出力手段17により出力される目的エリア音の形式は限定されないものである。目的エリア音出力手段17は、目的エリア音について、例えば、周波数領域(周波数スペクトル)の信号のまま出力するようにしてもよいし、時間領域のデジタル信号として出力するようにしてもよいし、アナログ形式の音響信号として出力するようにしてもよい。目的エリア音出力手段17において、周波数領域の信号を時間領域に変換する際の、周波数解析方法に制限はなく、例えば、逆高速フーリエ変換や逆ウェーブレット変換でも良い。
【0083】
次に、収音装置10において指向性形成手段12-1、12-2の指向性が調整される処理について、
図4を用いて説明する。
【0084】
図4は、目的音源の位置が移動した場合における指向性形成手段12-1、12-2の指向性及び目的エリアの変動する様子について示した図である。
【0085】
図4(a)、
図4(b)、
図4(c)は、それぞれ目的音源の位置がP1、P2、P3の順で移動した場合について示している。
図4においては、説明を簡易とするため、目的音源の位置と到来方向推定値φは一致しているものとする。
【0086】
図4では、マイクロホンアレイMA1、MA2の指向性を、それぞれD1(一点鎖線で挟まれた領域)、D2(二点鎖線で挟まれた領域)としている。また、
図4では、マイクロホンアレイMA1、MA2の指向性の正面方向(到来方向推定値φの方向)を、それぞれDF1、DF2(鎖線)としている。さらに、
図4(a)、(b)、(c)では、目的エリア音抽出手段13によりエリア収音される領域(目的エリア;収音エリア)を、それぞれTA101、TA102、TA103(縦線のパターンが付与された領域)としている。
【0087】
図4(a)では、目的エリアTA101内に目的音源の位置P1が存在する。
図4(a)の状態では、目的エリア音抽出手段13は、目的エリア音有りと判断することになる。
【0088】
その後、目的音源の位置がP1から、目的エリアTA101内のP2に移動したものとする。そうすると、目的エリア音有無判定手段14では、目的エリア音有りと判断される。そして、到来方向推定手段15により新たな到来方向推定値φが推定され、指向性形成手段12-1、12-2の指向性の正面がP2に向くように補正される。そうすると、
図4(b)に示すように、指向性形成手段12-1、12-2の指向性の正面がP2に向けられ、目的エリアTA102の中心がP2となる。
【0089】
さらに、その後、目的音源の位置がP2から、同じく目的エリアTA102内のP3に移動したものとする。そうすると、目的エリア音有無判定手段14では、目的エリア音有りと判断される。そして、到来方向推定手段15により新たな到来方向推定値φが推定され、指向性形成手段12-1、12-2の指向性の正面がP3に向くように補正される。そうすると、
図4(c)に示すように、指向性形成手段12-1、12-2の指向性の正面がP3に向けられ、目的エリアTA103の中心がP3となる。
【0090】
図4に示すように、収音装置10では、目的エリア音有りと判断された場合に、目的エリア音(目的音)の到来方向を推定し、その推定結果(到来方向推定値φ)に基づいて指向性形成手段12-1、12-2(マイクロホンアレイMA1、MA2)に設定する指向性の正面方向を補正している。これにより、収音装置10では、目的音源の位置の移動目的エリア(収音エリア)の中心位置が目的音源の位置となるように(目的音源の位置が目的エリア外とならないように)、指向性形成手段12-1、12-2(マイクロホンアレイMA1、MA2)の指向性を追跡(追随)させている。
【0091】
図5は、この実施形態におけるマイクロホンアレイMA1、MA2の配置構成の例について示した図である。
【0092】
図5(a)、
図5(b)は、それぞれマイクロホンアレイMA1、MA2の配置構成の例について示している。また、
図5(a)、
図5(b)においては、初期の目的エリアの領域をTA200(縦線のパターンが付与された領域)としている。
【0093】
図5(a)では、初期の目的エリアTA200の周辺で各マイクロホンアレイ(MA1、MA2)の各マイクロホン(M1、M2)が一直線上に並ぶように配置されている。
【0094】
図5(b)では、各マイクロホンアレイ(MA1、MA2)について、正面方向(マイクロホンM1、M2の間を結んだ線と直交する方向)に初期の目的エリアTA200の領域が重なるように配置されている。
【0095】
収音装置10の動作の初期(最初に目的エリア音抽出手段13がエリア収音をする際)における指向性形成手段12-1、12-2に設定する指向性(すなわち、初期に設定する目的エリアの範囲)については、限定されないものである。例えば、収音装置10において、動作の初期において、指向性形成手段12-1、12-2の指向性を正面方向(すなわちθL=0°となる方向)のままとしてもよいし、正面方向以外の所定の値(例えば、設計上の目的エリアとして好適な方向)としてもよい。
【0096】
(A-3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0097】
この実施形態の収音装置10では、目的エリア音の到来方向(到来方向推定値φ)を逐次推定し、その推定結果をもとに各マイクロホンアレイのビームフォーミングの指向性を調整することで、目的エリアの位置を、目的エリア音の位置に合わせて調整(追跡)することが可能になる。これにより、この実施形態の収音装置10では、目的音源の移動によって発生する音切れや、目的音源が目的エリアから離れることで収音できなくなることを抑制することができる。
【0098】
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を、図面を参照しながら詳述する。
【0099】
(B-1)第2の実施形態の構成及び動作
第2の実施形態の収音装置10Aの機能的構成についても、上述の
図1を用いて示すことができる。
【0100】
以下では、第2の実施形態の収音装置10Aの構成及び動作について、第1の実施形態との差異を説明する。
【0101】
第1の実施形態の収音装置10では、指向性正面補正記憶部16に記憶される到来方向推定値φについて制限を設定していなかった。そのため、第1の実施形態の各マイクロホンアレイ(MA1、MA2)では、360°すべての方向に指向性を形成することが可能な構成としている。つまり、第1の実施形態の収音装置10では、目的音源の位置移動に伴って各マイクロホンアレイ(MA1、MA2)の指向性を制限なく操作することで、ユーザの意図しない位置に目的エリアを形成し、妨害音を目的エリア音ととらえて収音してしまったり、ユーザにとって目的エリアの範囲を把握することが困難になってしまったりするおそれがある。そのため、第2の実施形態の収音装置10Aでは、指向性正面補正記憶部16に記憶される到来方向推定値φの範囲に制限を設ける構成となっている。
【0102】
図6は、第2の実施形態における到来方向推定手段15Aの機能的構成について示したブロック図である。
【0103】
第2の実施形態の収音装置10Aでは、到来方向推定手段15が到来方向推定手段15Aに置き換えられている点で第1の実施形態と異なっている。
【0104】
到来方向推定手段15Aでは、指向性正面補正記憶部16に記憶に記憶させる到来方向推定値φを制限するための制限処理部155が追加されている点で異なっている。
【0105】
制限処理部155には、マイクロホンアレイ(MA1、MA2)ごとに、到来方向推定値φに対する下限値φminと上限値φmaxが設定されているものとする。到来方向推定値φの取り得る範囲は、(20)式で表せる。
【0106】
φmin≦φ(f)≦φmax …(20)
【0107】
制限処理部155は、到来方向推定手段15で推定した到来方向推定値φの値が、φminより小さい場合はφ=φminとして指向性正面補正記憶部16に記憶させる到来方向推定値φを制限する。同様に、制限処理部155は、到来方向推定手段15で推定した到来方向推定値φの値が、φmaxより大きい場合はφ=φmaxとして指向性正面補正記憶部16に記憶させる。なお、制限処理部155では、各マイクロホンアレイ(MA1、MA2)の設置位置に基づいて、動的に制限範囲(φmin、φmax)を設定するようにしてもよい。
【0108】
(B-2)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0109】
第2の実施形態の収音装置10Aでは、指向性正面補正記憶部16に記憶させる到来方向推定値φに制限を設けることで、ユーザが意図した範囲内のみに目的エリア内を設定することができる。これにより、第2の実施形態の収音装置10Aでは、妨害音を目的エリア音ととらえて収音してしまったり、ユーザにとって目的エリアの範囲を把握することが困難になってしまったりすること等を抑制して、安定的に目的エリア音を収音することができる。
【0110】
(C)第3の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第3の実施形態を、図面を参照しながら詳述する。
【0111】
(C-1)第3の実施形態の構成及び動作
第3の実施形態の収音装置10Bの機能的構成についても、上述の
図1を用いて示すことができる。
【0112】
以下では、第3の実施形態の収音装置10Bの構成及び動作について、第1の実施形態との差異を説明する。
【0113】
第1の実施形態の収音装置10では、パワー判定部153で抽出された到来方向値の中央値を目的エリア音の到来方向推定値φとして取得している。これに対して、第3の実施形態では、到来方向記憶部152で記憶された1秒に相当するフレーム数の到来方向値を標本データとして密度推定(例えば、カーネル密度推定)を行い、母集団の分布である目的エリア音の到来方向分布を推定し、到来方向分布のピーク値を目的エリア音の到来方向推定値として決定するものとする。
【0114】
図7は、第3の実施形態における到来方向推定手段15Bの機能的構成について示したブロック図である。
【0115】
第3の実施形態の到来方向推定手段15Bでは、中央値算出部154が密度算出部156に置き換わっている点で第1の実施形態と異なっている。
【0116】
次に、密度算出部156が、カーネル密度推定により到来方向推定値φを取得する処理について説明する。カーネル密度推定とは、ある母集団の標本データが与えられた際に、その標本データをもとに母集団の分布を推定する統計的手法である。
【0117】
ここで、パワー判定部153で抽出された到来方向推定値のデータをxi(i=1,・・・,m)、カーネル関数をK、バンド幅をhとすると、カーネル密度推定量は(19)式で計算できる。また、カーネル関数Kには、ガウス分布や三角分布などを用いることができる。さらに、(19)式で求めたカーネル密度推定量のピークは、fhの最大値を取り出すことで求めることができる。
【0118】
【0119】
なお、密度算出部156において、カーネル密度推定の標本データに制限はなく、第1の実施例と同様に、パワー判定部153で抽出された到来方向値を標本データとしてカーネル密度推定を行い、母集団の分布である目的エリア音の到来方向分布を推定し、到来方向分布のピーク値を目的エリア音の到来方向推定値として決定してもよい。
【0120】
(C-2)第3の実施形態の効果
第3の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0121】
第1の実施形態の収音装置10では、周囲の騒音レベルが高い環境や、音響的に残響が起こりやすい環境では、雑音、反射音の影響で目的エリア音の到来方向推定分布の形状が崩れ、中央値による目的エリア音の到来方向推定の精度を劣化させる可能性が生じていた。これに対して、第3の実施形態の収音装置10Bでは、カーネル密度関数のピークを到来方向推定値φとしているため、到来方向推定分布の形状変化の影響を低減し、到来方向推定値φの精度を維持することが可能になる。
【0122】
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0123】
(D-1)上記の各実施形態の到来方向推定手段15において、到来方向推定処理の方法に制限はなく、例えば、2つのマイクロホンM1、M2に供給される入力信号の到来する時間差に基づいた処理としてもよい。
【符号の説明】
【0124】
10、10A、10B…収音装置、11…周波数解析手段、12、12-1、12-2…指向性形成手段、13…目的エリア音抽出手段、14…目的エリア音有無判定手段、15、15A、15B…到来方向推定手段、16…指向性正面補正記憶部、17…目的エリア音出力手段、151…到来方向算出部、152…到来方向記憶部、153…パワー判定部、154…中央値算出部、155…制限処理部、156…密度算出部、M、M1、M2…マイクロホン、MA、MA1、MA2…マイクロホンアレイ。
【要約】
【課題】 目的音源の位置が変動する場合であっても、安定的に目的エリア音を収音する。
【解決手段】 本発明は、収音装置に関する。そして、本発明の収音装置は、複数のマイクロホンアレイのそれぞれの入力信号に対して、任意の方向に指向性を形成することで目的方向音を取得する指向性形成手段と、マイクロホンアレイの指向性が重なる目的エリアを音源とする音を抽出することで目的エリア音抽出音を取得し、目的エリア音抽出音における目的エリア音の有無を判定する目的エリア音有無判定処理を行い、目的エリア音が有ると判定された際にそれぞれのマイクロホンアレイにおける目的エリア音の到来方向を推定して到来方向推定値を取得する到来方向推定処理を行って到来方向推定値を出力し、指向性形成手段に対してそれぞれのマイクロホンアレイの指向性を到来方向推定値に応じた方向となるように補正させることを特徴とする。
【選択図】
図1