(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023177213
(43)【公開日】2023-12-13
(54)【発明の名称】収音装置、収音プログラム及び収音方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20231206BHJP
H04R 1/40 20060101ALI20231206BHJP
【FI】
H04R3/00 320
H04R1/40 320Z
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022203002
(22)【出願日】2022-12-20
(31)【優先権主張番号】P 2022089418
(32)【優先日】2022-06-01
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】石黒 高詩
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC01
5D220BC05
(57)【要約】
【課題】 目的方向収音処理においてより高音質な収音結果を得る。
【解決手段】 本発明は、収音装置に関する。そして、本発明の収音装置は、第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、選択処理で選択した成分から非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段とを有することを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、
周波数ごとに、前記第1のマイクロホンからの第1の入力信号の成分と前記第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段と
を有することを特徴とする収音装置。
【請求項2】
前記目的方向音抽出手段は、前記選択処理において、周波数ごとに前記第1の入力信号の成分と前記第2の入力信号の成分のうち強度の大きい方を選択することを特徴とする請求項1に記載の収音装置。
【請求項3】
コンピュータを、
第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、
周波数ごとに、前記第1のマイクロホンからの第1の入力信号の成分と前記第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段と
して機能させることを特徴とする収音プログラム。
【請求項4】
収音装置が行う収音方法において、
前記収音装置は、非目的エリア音抽出手段及び目的方向音抽出手段を備え、
前記非目的エリア音抽出手段は、第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出し、
前記目的方向音抽出手段は、周波数ごとに、前記第1のマイクロホンからの第1の入力信号の成分と前記第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する
ことを特徴とする収音方法。
【請求項5】
2つのマイクロホンを備える複数のマイクロホンアレイのそれぞれについて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、
それぞれのマイクロホンアレイについて、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段と、
それぞれの前記マイクロホンアレイの前記目的方向音抽出信号を用いて前記目的エリアを音源とする目的エリア音を収音するエリア収音手段と
を有することを特徴とする収音装置。
【請求項6】
コンピュータを、
2つのマイクロホンを備える複数のマイクロホンアレイのそれぞれについて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、
それぞれのマイクロホンアレイについて、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段と、
それぞれの前記マイクロホンアレイの前記目的方向音抽出信号を用いて前記目的エリアを音源とする目的エリア音を収音するエリア収音手段と
して機能させることを特徴とする収音プログラム。
【請求項7】
収音装置が行う収音方法において、
前記収音装置は、非目的エリア音抽出手段、目的方向音抽出手段及びエリア収音手段を有し、
前記非目的エリア音抽出手段は、2つのマイクロホンを備える複数のマイクロホンアレイのそれぞれについて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出し、
前記目的方向音抽出手段は、それぞれのマイクロホンアレイについて、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得し、
前記エリア収音手段は、それぞれの前記マイクロホンアレイの前記目的方向音抽出信号を用いて前記目的エリアを音源とする目的エリア音を収音する
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、収音装置、収音プログラム及び収音方法に関し、例えば、特定のエリアへの方向の音を強調し、それ以外の方向の音を抑制するシステムに適用し得る。
【背景技術】
【0002】
従来、目的音の音源が存在する特定の目的エリアの方向(以下、「目的方向」と呼ぶ)からの音を強調し、それ以外の方向の音を抑制する処理(以下、「目的方向収音処理」又は単に「収音処理」と呼ぶ)として特許文献1や非特許文献1のような技術が存在する。
【0003】
特許文献1及び非特許文献1の目的方向収音処理では、2つのマイクロホンを備えるマイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」と呼ぶ)出力により、目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的方向の音を強調する処理が用いられている。
【0004】
BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。
特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0005】
図9は、マイクロホン数が2個(M1、M2)の場合の減算型BF400に係る構成を示すブロック図である。
【0006】
減算型BF400は、遅延器410と減算器420を有している。
【0007】
減算型BF400は、目的方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延器410により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記(1)式により算出される。ここで、dはマイクロホン間の距離であり、cは音速であり、τLは遅延量であり、θLは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
【0008】
また、ここで、遅延器410は、死角がマイクロホンM1とマイクロホンM2の中心に対し、マイクロホンM1の方向に存在する場合、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算器420が、(2)式に従った減算処理を行う。
【0009】
減算器420では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下の(3)式のように変更される。
【0010】
【0011】
ここでθ
L=±π/2の場合、形成される指向性は
図10(a)に示すように、カージオイド型の単一指向性となり、θ
L=0,πの場合は、
図10(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。
【0012】
減算器420では、スペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。(4)式に従ってSSの処理を行う際、減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的方向を強調することができる。
【0013】
Y(n)=X1(n)-βM(n) …(4)
【0014】
以上のように特許文献1及び非特許文献1の記載技術では、2つのマイクロホンを用いたマイクロホンアレイにおいて、双指向性フィルタにより目的方向以外に存在する音(=非目的音)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算(SS)することで、目的方向の音を強調する方法(目的方向収音処理方法)が示されている。
【先行技術文献】
【特許文献】
【0015】
【非特許文献】
【0016】
【非特許文献1】浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,日本音響学会編,コロナ社,2011年2月25日発行
【発明の概要】
【発明が解決しようとする課題】
【0017】
ところで、上記の通り、従来の目的方向収音処理において、(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。
【0018】
また、例えば、目的音のみが直接マイクロホンに到達するだけではなく、目的音が壁などに反射してマイクロホンに入力された場合には、目的音と反射音が合成されマイクロホンに入力されるので、周波数によっては、反射音の影響により、マイクロホンへの入力信号が減衰することがあり、音質劣化の原因となり得る。
【0019】
以上のような問題点に鑑みて、目的方向収音処理においてより高音質な収音結果を得ることができる収音装置、収音プログラム及び収音方法が望まれている。
【課題を解決するための手段】
【0020】
第1の本発明の収音装置は、第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、周波数ごとに、前記第1のマイクロホンからの第1の入力信号の成分と前記第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段とを有することを特徴とする。
【0021】
第2の本発明の収音プログラムは、コンピュータを、第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、周波数ごとに、前記第1のマイクロホンからの第1の入力信号の成分と前記第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段として機能させることを特徴とする。
【0022】
第3の本発明は、収音装置が行う収音方法において、前記収音装置は、非目的エリア音抽出手段及び目的方向音抽出手段を備え、前記非目的エリア音抽出手段は、第1のマイクロホンと第2のマイクロホンとを備えるマイクロホンアレイから供給される入力信号に基づいて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出し、前記目的方向音抽出手段は、周波数ごとに、前記第1のマイクロホンからの第1の入力信号の成分と前記第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得することを特徴とする。
【0023】
第4の本発明の収音装置において、2つのマイクロホンを備える複数のマイクロホンアレイのそれぞれについて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、それぞれのマイクロホンアレイについて、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段と、それぞれの前記マイクロホンアレイの前記目的方向音抽出信号を用いて前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを有することを特徴とする。
【0024】
第5の本発明の収音プログラムは、コンピュータを、2つのマイクロホンを備える複数のマイクロホンアレイのそれぞれについて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出する非目的エリア音抽出手段と、それぞれのマイクロホンアレイについて、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得する目的方向音抽出手段と、それぞれの前記マイクロホンアレイの前記目的方向音抽出信号を用いて前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させることを特徴とする。
【0025】
第6の本発明は、収音装置が行う収音方法において、前記収音装置は、非目的エリア音抽出手段、目的方向音抽出手段及びエリア収音手段を有し、前記非目的エリア音抽出手段は、2つのマイクロホンを備える複数のマイクロホンアレイのそれぞれについて、前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリアへの目的方向以外からの非目的方向音を抽出し、前記目的方向音抽出手段は、それぞれのマイクロホンアレイについて、周波数ごとに、第1のマイクロホンからの第1の入力信号の成分と第2のマイクロホンからの第2の入力信号の成分のいずれかを選択する選択処理を行い、周波数ごとに、前記選択処理で選択した成分から前記非目的エリア音抽出手段が抽出した非目的方向音の成分を減算して目的方向からの目的方向音を抽出した目的方向音抽出信号を取得し、前記エリア収音手段は、それぞれの前記マイクロホンアレイの前記目的方向音抽出信号を用いて前記目的エリアを音源とする目的エリア音を収音することを特徴とする。
【発明の効果】
【0026】
本発明によれば、目的方向収音処理においてより高音質な収音結果を得ることができる。
【図面の簡単な説明】
【0027】
【
図1】第1の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図2】第1の実施形態に係る収音処理部の目的方向収音処理による収音エリアの例について示した図である。
【
図3】第1の実施形態に係る収音処理部による目的音方向収音処理の内容を説明するための環境モデル(説明用環境モデル)について示した図である。
【
図4】第1の実施形態に係るシミュレーションにおける環境モデル(シミュレーション用環境モデル)について示した説明図(その1)である。
【
図5】第1の実施形態に係るシミュレーションにおける環境モデル(シミュレーション用環境モデル)について示した説明図(その2)である。
【
図6】第1の実施形態に係るシミュレーション結果の評価において、2値の分類問題を場合分けした表である。
【
図7】第1の実施形態に係る収音処理部の収音結果をt検定の分析ツールで評価した結果について示した図である。
【
図8】第1の実施形態に係る収音処理部における再現率の改善量の分布(改善量ごとのデータ数)について示したヒストグラムである。
【
図9】従来の減算型BF(マイクロホンの数が2個の場合)の構成を示すブロック図。
【
図10】従来の減算型BF(マイクロホンの数が2個の場合)により形成される指向性フィルタの例について示した説明図。
【
図11】第2の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図12】第2の実施形態に係るマイクロホンアレイの配置構成の例について示した図である。
【
図13】第2の実施形態に係るマイクロホンアレイのビームフォーマ出力について周波数領域で示したグラフ(イメージ図)である。
【
図14】第2の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージ図)である。
【
図15】第2の実施形態における各信号の成分をベン図(論理式)の形式で表した図である。
【
図16】第2の実施形態に係るシミュレーションにおける環境モデル(シミュレーション用環境モデル)について示した説明図(その1)である。
【
図17】第2の実施形態に係るシミュレーションにおける環境モデル(シミュレーション用環境モデル)について示した説明図(その2)である。
【
図18】第2の実施形態に係る収音処理部の収音結果をt検定の分析ツールで評価した結果について示した図である。
【
図19】第2の実施形態に係る収音処理部における再現率の改善量の分布(改善量ごとのデータ数)について示したヒストグラムである。
【
図20】第3の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図21】第3の実施形態における各信号の成分をベン図(論理式)の形式で表した図である。
【
図22】第4実施形態に係る収音装置の機能的構成について示したブロック図である。
【発明を実施するための形態】
【0028】
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第1の実施形態を図面を参照しながら詳述する。
【0029】
(A-1)第1の実施形態の構成
図1は、この実施形態に係る収音装置10の機能的構成を示すブロック図である。
【0030】
収音装置10は、マイクロホンアレイMAから供給される音響信号に基づいて目的方向収音処理を行い、収音処理した結果を出力する装置である。
【0031】
マイクロホンアレイMAは、2つのマイクロホンM(M1、M2)を備えているものとする。各マイクロホンM(M1、M2)が捕捉した音響に基づく音響信号は、収音装置10に供給されることになる。各マイクロホンM(M1、M2)については、例えば、指向性を持たない全指向性マイク(例えば、全指向性のMEMS(Micro Elerctronics Mechanical System)マイク)を適用することができる。
【0032】
次に、収音装置10の構成概要について説明する。
【0033】
収音装置10は、データ入力部11、収音処理部12、及び出力部13を有している。
【0034】
収音装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の音声プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0035】
データ入力部11は、マイクロホンアレイMAで捕捉した音響信号をアナログ信号からディジタル信号に変換して収音処理部12に供給する。また、データ入力部11は、当該ディジタル信号を時間領域から周波数領域に変換(例えば、FFT(Fast Fourier Transform)等のフーリエ変換処理)する。以下では、データ入力部11から、収音処理部12に供給される信号(周波数領域の信号)を「入力信号」と呼ぶものとする。
【0036】
以下では、マイクロホンM1、M2からの入力信号を、それぞれX1、X2と表すものとする。
【0037】
収音処理部12は、マイクロホンアレイMAの入力信号から、目的エリア(目的音の音源)からの目的方向音を収音する目的方向収音処理を行い、目的方向音を抽出した信号(目的方向音を強調した信号;以下、「目的方向音抽出信号」と呼ぶ)Y(n)を取得し、出力部13に供給する。
【0038】
図2は、収音処理部12の目的方向収音処理による収音エリアの例について示した図である。
【0039】
図2では、マイクロホンM1、M2との間の中間点の位置をPMとしている。また、
図2では、目的エリア(目的音の音源の存在する領域)をAとし、位置PMから目的エリアA(目的エリアAへの中心位置)への方向(目的方向)の矢印にDTを付している。
【0040】
ここで、収音処理部12は、マイクロホンアレイMA(マイクロホンM1、M2)の入力信号X
1(n),X
2(n)に基づき、位置PMから目的方向DT(目的エリアAへの方向)へ指向性を向けて目的音収音処理を行うものとする。ここでは、収音処理部12は、位置PMから目的方向DTへ死角を向けた双指向性フィルタを形成し、当該双指向性フィルタを用いて目的方向以外の方向からの非目的音を抽出し、抽出した非目的音の振幅スペクトルをいずれかの入力信号の振幅スペクトルから減算することで、目的方向収音処理(目的方向音を強調する処理)を行うものとする。
図2では、当該双指向性フィルタの指向特性(位置PMを基準とする指向特性)の曲線を一点鎖線で図示し、当該双指向性フィルタを用いた目的方向収音処理による収音エリアの外形を2点鎖線で示している。
【0041】
具体的には、収音処理部12は、周波数ごとに以下の(5)の計算処理を行うことで、目的方向音抽出信号Y(n)を取得するものとする。
【0042】
(5)式において、βは上記の(4)式のときと同様にSSの強度を調節するための係数である。また、(5)式において、非目的音M(n)は上記の(3)式により求めることができる。さらに、(5)式において、max(X1(n),X2(n))は、X1(n)又はX2(n)のうち大きい方を選択することを意味している。例えば、ある周波数fnにおいて、X1(n)>X2(n)である場合、max(X1(n),X2(n))=X1(n)となる。つまり、収音処理部12は、(5)式に基づき、周波数毎に、入力信号X1と入力信号X2の信号(成分)の大きい方から、非目的音βMを差し引くことにより、目的方向音抽出信号Yを取得する。
【0043】
Y(n)=max(X1(n),X2(n))-βM(n) …(5)
【0044】
出力部13は、供給された目的方向音抽出信号を所定の方式/形式で出力する。出力部13が出力する信号(以下、「出力信号」とも呼ぶものとする)の形式は限定されないものであり、種々の形式を適用することができる。例えば、出力部13は、出力信号を所定の形式のディジタル音響信号(例えば、PCM形式の信号)や所定のコーデックにより符号化して出力(出力する方式については限定されない)するようにしてもよい。また、出力部13は、出力信号を、アナログ音響信号として出力(例えば、図示しないスピーカに出力)するようにしてもよい。さらに、出力部13は、出力信号を周波数領域の形式で出力するようにしてもよいし時間領域の形式で出力するようにしてもよい。
【0045】
次に、収音処理部12において、目的方向収音処理に上記の(5)式を用いることの理論的な効果について説明する。
【0046】
ここで、収音処理部12による目的方向収音処理について
図3に示す環境モデルを用いて説明する。
【0047】
図3は、収音処理部12による目的音方向収音処理の内容を説明するための環境モデル(以下、「説明用環境モデル」と呼ぶ)について示した図である。なお、
図3に示す説明用環境モデルでは、説明を簡易とするため、実際よりも要素を単純化している。
【0048】
図3では、マイクロホンアレイMA(マイクロホンM1、M2)と目的エリアAの周辺に壁Wが存在している。壁Wは、位置PMから目的エリアAの方向を見た場合に右側に壁Wが存在する状態となっている。また、
図3では、目的エリアAから位置PMの方に向かう目的音の周波数をf1、壁Wから位置PMの方に向かう妨害音の周波数をf2とそれぞれ図示している。さらに、
図3では、目的エリアAからの目的音が壁Wに反射して位置PMに向かう音を反射音として図示している。なお、ここでは、説明の単純化のために、目的音f1及び妨害音f2をそれぞれ単周波の音として説明するものとする。また、f1とf2は異なる周波数であるものとする。
【0049】
次に、説明用環境モデルにおいて、仮に反射音が存在しないとした場合(壁Wが存在しない場合)における収音処理部12による目的音方向収音処理について説明する。このとき、マイクロホンアレイMAの正面方向(PMから目的エリアAへの方向)から入力される目的音f1は、マイクロホンM1、M2に同じ振幅で且つ同相で入力されたものとする。また、このとき、妨害音f2は、マイクロホンM1,M2に同じ振幅で異なる位相で入力されたものとする。そうすると、この場合(反射音が存在しないとした場合)、マイクロホンM1,M2では目的音も妨害音も同じ振幅となる。
【0050】
次に、説明用環境モデルにおいて、反射音が存在するとした場合(壁Wが存在する場合)における収音処理部12による目的音方向収音処理について説明する。このとき、
図3に示すように、マイクロホンアレイMA(位置PM)の近くに壁Wがあったとすると、マイクロホンアレイMAの各マイクロホンM1、M2には、目的方向と壁Wの両方から周波数f1の成分(目的エリアAから発せられた音の成分)が入力されることになる。つまり、説明用環境モデルにおいて、反射音が存在するとした場合、
図3に示すように、目的エリアAから各マイクロホンM1、M2に到達する目的音と、壁Wの方向から各マイクロホンM1、M2に到達する反射音の両方に周波数f1の成分が含まれることになる。
【0051】
ここで、反射音が存在するとした場合(壁Wが存在する場合)において、目的音に含まれる周波数f1の成分の振幅a1を1とし、反射音に含まれる周波数f1の成分の振幅a2をk(つまりa2をa1のk倍;例えば、k=0.5程度)とする。また、ここで、目的エリアAにおける目的音の位相を基準とし、マイクロホンM1で捕捉される入力信号X1での目的音と反射音の位相差をθ1、マイクロホンM2で捕捉される入力信号X2での目的音と反射音の位相差をθ2とする。そうすると、X1、X2はそれぞれ以下の(6)式、(7)式で示すことができる。さらに、|X1|、|X2|はそれぞれ以下の(8)式、(9)式で示すことができる。
【0052】
【0053】
このとき、θ1≠θ2であることは自明であるので、ほとんどのケースで|X1|≠|X2|となり、X1とX2に振幅の差分が生じることになる。また、このとき、X1とX2のどちらの振幅がより大きく減衰するかは一意に定まらない。従って、従来における目的方向収音処理(上記の(4)式に基づく収音処理)のように、基準となるマイクロホンを固定するよりも、この実施形態の目的方向収音処理(上記の(5)式に基づく収音処理)のように、周波数毎に、入力信号X1と入力信号X2の信号の大きい方から、非目的音βMを差し引くことにより、収音結果における反射音の影響を低減することができることが分かる。
【0054】
(A-2)第1の実施形態の動作
次に、以上のような構成を有するこの実施形態の収音装置10の動作(実施形態の収音方法)を説明する。
【0055】
データ入力部11は、マイクロホンアレイMAで収音した音響信号をアナログ信号からディジタル信号に変換する。さらに、データ入力部11は、ディジタル信号をさらに時間領域から周波数領域に変換して入力信号X1、X2として取得し、収音処理部12に供給する。
【0056】
収音処理部12は、マイクロホンアレイMAの入力信号X1、X2に基づき、目的方向収音処理を行って目的方向音抽出信号Yを取得して出力部13に供給する。このとき、収音処理部12は、周波数毎に、入力信号X1の成分と入力信号X2の成分を比較していずれかを選択する選択処理を行い、選択した入力信号の成分から、非目的音の成分(βM)を差し引く(減算する)ことにより、目的方向音抽出信号Yを取得する。具体的には、収音処理部12は、周波数ごとに上記の(5)の計算処理を行うことで、目的方向音抽出信号Y(n)を取得する。
【0057】
出力部13は、供給された目的方向音抽出信号Y(n)を所定の方式/形式で出力信号として出力する。
【0058】
(A-3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0059】
この実施形態の収音装置10(収音処理部12)は、周波数毎に、入力信号X1の成分と入力信号X2の成分を比較していずれかを選択する選択処理を行い、選択処理により選択した入力信号の成分から、非目的音の成分(βM)を差し引く(減算する)ことにより、目的方向音抽出信号Yを取得する。これにより、この実施形態の収音装置10では、従来よりも収音結果における反射音の影響を低減することができる。
【0060】
上記の
図3の説明用環境モデルを用いた説明の通り、収音装置10の目的方向収音処理では、従来よりも収音結果における反射音の影響を低減することができることは理論的に説明可能であるが、本願発明者は、さらにシミュレーション(以下、「第1の本シミュレーション」と呼ぶ)によってもこの実施形態における収音装置10の効果(従来よりも収音結果における反射音の影響等を低減することができるという特有な効果)を奏することを確認した。
【0061】
以下、第1の本シミュレーションにおける条件とその結果について説明する。
【0062】
図4、
図5は、第1の本シミュレーションにおける環境モデル(以下、「第1のシミュレーション用環境モデル」と呼ぶ)について示した説明図である。
【0063】
第1の本シミュレーションでは、
図4、
図5のような第1のシミュレーション用環境モデルにおいて各マイクロホンM1、M2で捕捉される音響信号を取得(コンピュータ上のシミュレーションにより取得)し、さらに取得した音響信号を、実際に構築(同様にコンピュータ上で構築)した収音装置10に入力して結果を評価した。また、第1の本シミュレーションでは、PyRoomAcousticsを用いて、
図4、
図5のような第1のシミュレーション用環境モデルを設定してインパルス応答を取得し、取得したインパルス応答をドライソース信号(目的エリア音又は指向性雑音(妨害音)のサンプルとなるドライソース信号)に畳み込むことで、マイクロホンM1、M2の観測信号X
1、X
2を得た。PyRoomAcousticsは、音響アレイ信号処理に関するアルゴリズムの迅速な開発や評価を目的としてインターネット上で公開されているオープンソースのライブラリである。
【0064】
第1の本シミュレーションでは、目的音源及び指向性雑音のドライソース信号として、既存の音声信号のサンプルを適用した。具体的には、第1の本シミュレーションでは、ATR音声言語データベースから、ドライソースとして用いる音声信号のサンプルを取得した。ATR音声言語データベースは、株式会社ATR-Promotionsが提供する音声サンプルのデータベースであり、標準的な音声データベースとして音声認識等の研究に幅広く利用されている。第1の本シミュレーションでは、目的音源のドライソース信号として、ATR音声言語データベースから男女各々3話者の2センテンス(計12パターン)を取得した。また、第1の本シミュレーションでは、指向性雑音のドライソース信号として、目的音源とは異なる男女各3話者の1センテンス(計6パターン)を取得した。
【0065】
図4、
図5に示す第1のシミュレーション用環境モデルでは、マイクロホンアレイMA、目的音源の位置PO及び指向性雑音の音源の位置PIは全て同じ平面上に存在するものとする。具体的には、第1のシミュレーション用環境モデルでは、マイクロホンアレイMA、目的音源の位置PO及び指向性雑音の位置PIは全て床面から高さ15cmの平面上に存在するものとする。
【0066】
また、
図4、
図5において、上側を「奥」、下側を「手前」、左側を「左」、右側を「右」とそれぞれ呼ぶものとする。また、
図4、
図5において、縦方向(垂直方向)を「奥行方向」と呼び、横方向(水平方向)を「幅方向」と呼ぶものとする。
【0067】
そして、第1のシミュレーション用環境モデルでは複数の条件下でのシミュレーションを行うが、マイクロホンアレイMAと、目的音源の位置POと、指向性雑音の位置PIとの相対的な位置関係は
図4に示す関係で統一されているものとする。
図4では、マイクロホンアレイの位置PMから奥側に0.3m離れた位置に目的音源の位置POが配置され、目的音源の位置POから右側に1.0m離れた位置に指向性雑音の位置PIが配置されている。
また、第1のシミュレーション用環境モデルでは、マイクロホンM1、M2の間の距離は3cmであるものとする。
【0068】
また、第1の本シミュレーションでは、
図5に示すように、幅方向X[m]×奥行き方向Y[m]×高さ方向Z[m]のサイズの部屋のモデル(以下、「シミュレーション用部屋モデル」と呼ぶ)に、マイクロホンアレイMA及び各音源を配置した環境モデルを適用するものとする。具体的には、第1の本シミュレーションでは、「奥行X=6m、幅y=6m、高さ=3m」のシミュレーション用部屋モデル(以下、「第1のシミュレーション用部屋モデル」と呼ぶ)と、「奥行X=9m、幅Y=9m、高さZ=3m」のシミュレーション用部屋モデル(以下、「第2のシミュレーション用部屋モデル」と呼ぶ)を用意して、それぞれのシミュレーション用部屋モデルで目的方向収音処理を行った。
【0069】
第1の本シミュレーションでは、
図5に示すようなシミュレーション用部屋モデル内の複数の位置にマイクロホンアレイMA及び各音源の位置(目的音源の位置PO及び指向性雑音の位置PI)を配置して目的方向収音処理を行った。具体的には、
図5に示すように、シミュレーション用部屋モデルの中で、マイクロホンアレイMAの位置を、中央の位置PM_D、中央奥側の位置PM_F、中央手前側の位置PM_B、左側手前の位置PM_A、左側の位置PM_C及び左奥側の位置PM_Eの6か所に変化させて目的方向収音処理を行った。具体的には、
図5に示すように、位置PM_DからX/3[m]左側に離れたところに位置PM_Cを配置し、位置PM_DからY/3[m]手前側に離れたところに位置PM_Bを配置し、位置PM_DからY/3[m]奥側に離れたところに位置PM_Fを配置し、位置PM_CからY/3[m]手前側に離れたところに位置PM_Aを配置し、位置PM_CからY/3[m]奥側に離れたところに位置PM_Eを配置するものとする。
図5では、位置PM_A~位置PM_Fのそれぞれに対応する目的音源の位置をPO_A~PO_Fとして図示している。例えば、マイクロホンアレイMAの位置が位置PM_Aにある場合、目的音源の位置はPO_Aとなる。なお、
図5では、図示を簡易とするため、マイクロホンアレイMAの各位置PM_A~PM_Fのそれぞれに応じて、指向性雑音の位置PIも変化するが、指向性雑音の各位置については図示を省略している。
【0070】
また、第1の本シミュレーションでは、各シミュレーション用部屋モデルについて、壁の吸音率を0.3、0.6、0.9の3パターンに変化させて目的方向収音処理を行った。さらに、第1の本シミュレーションでは、各シミュレーション用部屋モデルにおいて、壁面での最大反射階数を30回とした。
【0071】
以上のように、第1の本シミュレーションでは、シミュレーション用部屋モデルが2パターン、各部屋モデルにおけるマイクロホンアレイMAの位置が6パターン、壁の吸収率が3パターンとなるので、シミュレーション用環境モデルが2×6×3=36パターン存在することになる。また、第1の本シミュレーションでは、目的音源のドライソース信号が12パターン、指向性雑音のドライソース信号が6パターン存在するので、ドライソース信号の組合せパターンが12×6=72パターン存在することになる。したがって、第1の本シミュレーションでは、シミュレーション用部屋モデルのパターンが36パターン、ドライソース信号の組合せパターンが72パターン存在するので、シミュレーションの条件(シミュレーション用部屋モデルとドライソース信号の組合せにより定まる条件)が計2592パターン(36×72=2592)存在することになる。
【0072】
第1の本シミュレーションでは、上記の2592パターンの各条件について、コンピュータ上で、従来の目的方向収音処理(上記の(4)式に基づく処理)による収音結果(以下、「従来の収音処理結果」とも呼ぶ)と、この実施形態の目的方向収音処理(上記の(5)式に基づく処理)による収音結果(以下、「本実施形態の収音処理結果」とも呼ぶ)とを比較評価し、有意差があるかを確認した。ここでは、収音結果(音質)の評価方法として、t検定(t検定ツール)の手法を用いた。t検定とは、分散が等しくないと仮定した2標本による検定手法である。
【0073】
また、ここでは、t検定に適用する評価指標の一つとして、音切れを評価する指標(以下、「音切れ評価指標」と呼ぶ)を用いるものとする。ここでは、音切れ評価指標として、F値(F-measure)を構成する再現率(recall)を用いるものとする。
【0074】
F値及び再現率の詳細については、例えば、以下の参考文献1に記載されている。
【0075】
参考文献1:「F値(F-measure)」、朱鷺の杜Wiki(ときのもり うぃき)、産業技術総合研究所、[online]<URL:https://ibisforest.org/index.php?F%E5%80%A4>
F値は、予測結果の評価尺度の一つである。F値は、再現率と適合率(precision)の調和平均により表される。再現率とは、実際(真)に正であるもののうち、正であると予測されたものの割合である。適合率は、正と予測したデータのうち、実際に正であるものの割合である。
【0076】
ここで、再現率と適合率の算出にあたって、2値(正と負の2クラス)の分類問題を検討する。ここで、評価対象となるデータにおける「予測結果」と「真の結果」との関係について
図6のように整理する。
【0077】
【0078】
図6では、予測結果及び真の結果の両方が正のデータ数を「TP」、予測結果及び真の結果の両方が負のデータ数を「TN」、予測結果が正で真の結果が負のデータ数を「FP」、予測結果が負で真の結果が正のデータ数を「FN」としている。
【0079】
そうすると、再現率(recall)と適合率(precision)は、それぞれ以下の(10)式、(11)式のように示すことができる。そして、再現率と適合率を以下の(12)式に当てはめるとF値(F-measure)を算出することができる。
【0080】
【0081】
ここでは、上記の2592パターンのデータ(サンプル)について、目的方向収音処理による収音結果を予測結果とし、目的音のドライソース信号を真の結果とした場合における再現率(recall)を算出することで評価(音切れの評価)を行った。つまり。上記の2592パターンのデータ(サンプル)について、従来の収音処理結果と本実施形態の収音処理結果のそれぞれの再現率を算出してt検定(t検定の分析ツール)を用いて評価することで、本実施形態の収音処理結果の評価を行った。
【0082】
ここでは、t検定の分析ツールとして、Microsoft(登録商標)社がExcel(登録商標)上で提供するツール(詳細については以下の参考文献2のwebページの「t検定」のタブを参照)を適用した。
【0083】
参考文献2:「分析ツールを使用して統計学的および工学的分析を行う(「t検定」タブ)」、Microsoft、[online]<URL:https://support.microsoft.com/ja-jp/office/分析ツールを使用して統計学的および工学的分析を行う-6c67ccf0-f4a9-487c-8dec-bdb5a2cefab6>
図7は、従来の収音処理結果と本実施形態の収音処理結果のそれぞれの再現率を算出し、上記のt検定の分析ツールにそれぞれの再現率のデータを入力して得られた結果について示した図である。
【0084】
図8は、従来の収音処理結果と本実施形態の収音処理結果との間の「再現率の改善量」の分布(改善量ごとのデータ数)について示したヒストグラムである。
【0085】
なお、
図7、
図8において「データ」とは再現率の値のことである。また、
図7において、「平均」は各データの平均値であり、「分散」は各データの不偏分散であり、「観測数」は、各データのサンプルサイズであり、「プールされた分散」は2つのデータの分散を併合した値であり、「仮説平均との差異」は仮説平均との差異に設定した値である。さらに、
図7において、「t」はデータから算出されたt値であり、「P(T<=t)両側」は両側検定の場合のP値であり、「t境界値両側」は両側検定の場合の棄却限界値(この値をt値が超えると有意)である。
【0086】
図7において、「自由度」については下記のように定義される値である。
【0087】
ここで、2つのデータサンプルの不変分散が等しくないと仮定した際は、例えば、Welch=Satterthwaiteの式を用いてt分布の自由度について計算することができる。具体的には、例えば、以下の(13)式により、t分布の自由度について計算することができる。Welch=Satterthwaiteの式の詳細については、例えば、以下の参考文献3に記載されている(参考文献3では、「Welchの方法」と記載されている)。
【0088】
(13)式は、2標本の母平均の差の検定を行う際の計算方法の一つであり、t検定におけるt0値を算出し、2標本の母集団の平均値が等しいという帰無仮説を検定することができる。(13)式において、(n1,n2)は母集団からサンプリングした2標本のサンプルサイズ、(^x1,^x2)(許明細書における表記の都合上(13)式におけるxに対するオーバーラインを「^」で代用)は当該2標本の平均値、(s1
2,s2
2)は当該2標本の不偏分散をそれぞれ示している。そして、(13)式に、S1
2=0.02386236、S2
2=0.012784826、n1=n2=2592のように第1の本シミュレーションにおけるパラメータを代入すると、自由度df=4748(小数点以下は四捨五入)という結果を得ることができる。
【0089】
参考文献3:「Welchの方法(Welch’s method)」、統計用語集、株式会社 社会情報サービス、[online]<URL:https://bellcurve.jp/statistics/glossary/1898.html>
【0090】
【0091】
ここで、
図7に示すt検定の結果を参照すると、本実施形態の収音処理結果では、従来の収音処理結果と比較して、再現率が平均して0.17程度向上しており、かつ、「t(4748)=45.1」、「p<0.01」となっている。このことから、本実施形態の収音処理結果では、従来の収音処理結果と比較して有意差があることがわかる。つまり、第1の本シミュレーションの結果から、本実施形態の収音処理結果では、従来の収音処理結果と比較して、明らかに音質(音切れ)が改善していることが確認できた。
【0092】
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を図面を参照しながら詳述する。
【0093】
(B-1)第2の実施形態の構成及び動作
図11は、この実施形態に係る収音装置10Aの機能的構成を示すブロック図である。
【0094】
第1の実施形態の収音装置10では、1つのマイクロホンアレイMAの入力信号に基づいて目的方向DT(目的エリアAへの方向)へ指向性を向けて目的音収音処理を行っていたが、第2の実施形態の収音装置10Aでは、2つのマイクロホンアレイMA(MA1、MA2)の入力信号に基づいて、目的エリアAを音源とする音をエリア収音処理する構成となっている。
【0095】
マイクロホンアレイMA1、MA2は、目的エリアAが存在する空間の任意の場所に配置される。目的エリアAに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアAでのみ重なればどこでも良い。各マイクロホンアレイMAは2つのマイクロホンM(M1、M2)から構成されている。
【0096】
第2の実施形態の収音装置10Aでは、データ入力部11、収音処理部12が、データ入力部11A、収音処理部12Aに置き換わっている点で第1の実施形態と異なっている。以下、第2の実施形態について第1の実施形態との差異を説明する。
【0097】
データ入力部11Aは、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からディジタル信号に変換する。
【0098】
収音処理部12Aは、マイクロホンアレイMA1、MA2の入力信号から、目的エリアAを音源とする目的エリア音を収音するエリア収音処理を行って目的エリア音抽出信号Z(n)を取得し、出力部13に供給する。
【0099】
出力部13は、供給された目的エリア音抽出信号Z(n)を所定の方式/形式で出力信号として出力する。
【0100】
次に、収音処理部12Aの処理の詳細について説明する。
【0101】
この実施形態では、マイクロホンアレイMA1を構成するマイクロホンM1、M2の入力信号をそれぞれX11(n)、X12(n)と表し、マイクロホンアレイMA2を構成するマイクロホンM1、M2の入力信号をそれぞれX21(n)、X22(n)と表すものとする。また、この実施形態では、マイクロホンアレイMA1、MA2から目的エリアAへの目的方向音抽出信号を、それぞれY1、Y2と表すものとする。さらに、この実施形態では、マイクロホンアレイMA1、MA2から見て目的方向以外に存在する非目的音を、それぞれM1、M2とする。さらにまた、この実施形態では、目的方向音抽出信号Y1、Y2に含まれる非目的エリア音(雑音)の成分を、それぞれN1、N2とする。
【0102】
図12は、2つのマイクロホンアレイMA1、MA2を用いて、目的エリアAの音源からの目的エリア音を収音する場合における各マイクロホンアレイMA1、MA2の構成例について示した説明図である。
【0103】
図13は、
図12に示すマイクロホンアレイMA1、MA2のそれぞれのBF出力について周波数領域で示した説明図(グラフ)である。
図13(a)、
図13(b)は、それぞれマイクロホンアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。
【0104】
図14は、
図12に示すマイクロホンアレイMA1、MA2を用いて取得したBF出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージ図)である。
【0105】
図15は、第2の実施形態における各信号の成分をベン図(論理式)の形式で表した図である。
【0106】
この実施形態において、収音処理部12Aは、
図12~
図15に示すような処理により、目的エリア音Zを取得するものとする。収音処理部12Aは、まず各マイクロホンアレイMA1、MA2から目的エリアAへの目的方向音を、第1の実施形態と同様の処理により抽出するものとする。
【0107】
このとき、目的方向音抽出信号Y1、Y2は、(14)式、(15)式のようになる。(14)式において、max(X11,X12)は、X11(n)又はX12(n)のうち大きい方を選択することを意味している。また、(15)式において、max(X21,X22)は、X21(n)又はX22(n)のうち大きい方を選択することを意味している。
【0108】
Y1=max(X11,X12)-βM1 …(14)
Y2=max(X21,X22)-βM2 …(15)
【0109】
ここで、(16)式、(17)式に示すようにX1、X2を定めると、Y1、Y2は、それぞれ(18)式、(19)式のように示すことができる。
【0110】
X1=max(X11,X12) …(16)
X2=max(X21,X22) …(17)
Y1=X1-βM1 …(18)
Y2=X2-βM2 …(19)
【0111】
そうすると、非目的エリア音N1、N2は、それぞれ(20)式、(21)式のように示すことができる。αはBF出力に対するパワー補正係数である。
【0112】
N1=Y1-αY2 …(20)
N2=Y2-αY1 …(21)
【0113】
収音処理部12では、以上の処理による非目的エリア音N
1、N
2のいずれかを用いることで、(22)式又は(23)式に示すように目的エリア音抽出信号Zを求めることができる。なお、Y
1、Y
2、N
1、N
2、Zの関係をベン図/論理式で表すと
図15のような関係となる。また、γはSS時の強度を変更するための係数である。
【0114】
Z=Y1-γN1 …(22)
Z=Y2-γN2 …(23)
【0115】
以上のように、収音処理部12Aは、周波数ごとに、各マイクロホンアレイについていずれかのマイクロホンの入力信号を選択する選択処理を行い、選択結果に基づいて目的エリア音抽出信号Z(n)を取得する。具体的には、収音処理部12Aは、周波数ごとに、(14)式、(15)式により、目的方向音抽出信号Y1、Y2を取得し、取得した目的方向音抽出信号Y1、Y2を用いて(22)式又は(23)式により目的エリア音抽出信号Zを取得する処理を行う。なお、ここでは、上記のような処理により収音処理部12Aが、目的方向音抽出信号Y1、Y2に基づいて目的エリア音抽出信号Zを取得する例について示したが、上記の(14)式、(15)式のように求めたY1、Y2に基づいた処理であれば他の処理に置き換えるようにしてもよい。
【0116】
(B-2)第2の実施形態の効果
この実施形態によれば、第1の実施形態と比較して以下のような効果を奏することができる。
【0117】
第2の実施形態の収音装置10Aでは、2つのマイクロホンアレイMA(MA1、MA2)の入力信号に基づいたエリア収音処理により、目的エリアAを音源とする目的エリア音抽出信号Z(n)を取得することができる。
【0118】
また、第2の実施形態の収音装置10Aでは、第1の実施形態と同様に、周波数ごとに各マイクロホンアレイについていずれかのマイクロホンの入力信号を選択する選択処理を行い、選択結果に基づいて目的エリア音抽出信号Z(n)を取得する。これにより、この実施形態の収音装置10Aにおいても、第1の実施形態と同様に従来よりも収音結果における反射音等の影響を低減することができる。
【0119】
本願発明者は、第2の実施形態の収音装置10Aの構成についてもシミュレーション(以下、「第2の本シミュレーション」と呼ぶ)を行うことにより、この実施形態における収音装置10Aの効果(従来よりも収音結果における反射音の影響等を低減することができるという特有な効果)を奏することを確認した。
【0120】
以下、第2の本シミュレーションにおける条件とその結果について説明する。
【0121】
図16、
図17は、第2の本シミュレーションにおける環境モデル(以下、「第2のシミュレーション用環境モデル」と呼ぶ)について示した説明図である。
【0122】
第2の本シミュレーションでは、
図16、
図17のような第2のシミュレーション用環境モデルにおいてマイクロホンアレイMA1、MA2の各マイクロホンM1、M2で捕捉される音響信号を取得(コンピュータ上のシミュレーションにより取得)し、さらに取得した音響信号を、実際に構築(同様にコンピュータ上で構築)した収音装置10Aに入力して結果を評価した。また、第2の本シミュレーションでは、第1の本シミュレーションと同様にPyRoomAcousticsを用いて、
図16、
図17のような第2のシミュレーション用環境モデルを設定してインパルス応答を取得し、取得したインパルス応答をドライソース信号(目的エリア音又は指向性雑音(妨害音)のサンプルとなるドライソース信号)に畳み込むことで、各観測信号X
11、X
12、X
21、X
22を得た。
【0123】
第2の本シミュレーションでは、目的音源及び指向性雑音のドライソース信号として、第1の本シミュレーションと同様のサンプルを適用した。
【0124】
図16、
図17に示す第2のシミュレーション用環境モデルでは、第1の本シミュレーションと同様にマイクロホンアレイMA1、MA2、目的音源の位置PO及び指向性雑音の音源の位置PIは全て床面から高さ15cmの平面上に存在するものとする。
【0125】
そして、第2のシミュレーション用環境モデルでは複数の条件下でのシミュレーションを行うが、マイクロホンアレイMA1、MA2と、目的音源の位置POと、指向性雑音の位置PIとの相対的な位置関係は
図16に示す関係で統一されているものとする。
図16では、マイクロホンアレイMA1、MA2の中心位置(マイクロホンM1、M2の間の中点)を、それぞれPM1、PM2としている。そして、
図16では、マイクロホンアレイMA1、MA2の位置PM1、PM2の間の中間点(中点)の位置をPCとしている。また、
図16に示すように、マイクロホンアレイMA1、MA2の中間位置PCから目的音源の位置POへの方向と、マイクロホンアレイMA1、MA2の中心位置PM1、PM2の間を結んだ線とは直交する関係にあるものとする。さらに、
図16に示すように、マイクロホンアレイMA1、MA2の正面方向(指向性)は目的音源の位置POに向けられているものとする。さらにまた、
図16に示すように、マイクロホンアレイMA1、MA2の位置PM1、PM2の間の距離は0.6m(0.3m+0.3m)であるものとする。また、
図16に示すように、マイクロホンアレイMA1は位置PCの左方向に配置されており、マイクロホンアレイMA2は位置PCの右方向に配置されている。さらに、
図16に示すように、マイクロホンアレイMA1、MA2の中間位置PCから奥側に0.3m離れた位置に目的音源の位置POが配置され、目的音源の位置POから右側に1.0m離れた位置に指向性雑音の位置PIが配置されている。さらにまた、第2のシミュレーション用環境モデルでは、各マイクロホンアレイMA1、MA2において、マイクロホンM1、M2の間の距離は3cmであるものとする。
【0126】
第2の本シミュレーションでは、
図17に示すように、第1の本シミュレーションと同様のシミュレーション用部屋モデルが用意されているものとする。
【0127】
第2の本シミュレーションでは、
図17に示すようなシミュレーション用部屋モデル内の複数の位置にマイクロホンアレイMA及び各音源の位置(目的音源の位置PO及び指向性雑音の位置PI)を配置して目的方向収音処理を行った。具体的には、
図17に示すように、シミュレーション用部屋モデルの中で、マイクロホンアレイMA1、MA2の中間位置PCを、中央の位置PC_D、中央奥側の位置PC_F、中央手前側の位置PC_B、左側手前の位置PC_A、左側の位置PC_C及び左奥側の位置PC_Eの6か所に変化させて目的方向収音処理を行った。具体的には、
図17に示すように、位置PC_DからX/3[m]左側に離れたところに位置PC_Cを配置し、位置PC_DからY/3[m]手前側に離れたところに位置PC_Bを配置し、位置PC_DからY/3[m]奥側に離れたところに位置PC_Fを配置し、位置PC_CからY/3[m]手前側に離れたところに位置PC_Aを配置し、位置PC_CからY/3[m]奥側に離れたところに位置PC_Eを配置するものとする。
図17では、位置PC_A~位置PC_Fのそれぞれに対応する目的音源の位置をPO_A~PO_Fとして図示している。なお、
図17では、図示を簡易とするため、マイクロホンアレイMAの各位置PC_A~PC_Fのそれぞれに応じて、指向性雑音の位置PIも変化するが、指向性雑音の各位置については図示を省略している。
【0128】
また、第2の本シミュレーションでは、第1の本シミュレーションと同様に各シミュレーション用部屋モデルについて、壁の吸音率を0.3、0.6、0.9の3パターンに変化させて目的方向収音処理を行った。さらに、第2の本シミュレーションでは、第1の本シミュレーションと同様に各シミュレーション用部屋モデルにおいて、壁面での最大反射階数を30回とした。
【0129】
第2の本シミュレーションでは、第1の本シミュレーションと同様に、シミュレーション用部屋モデルのパターンが36パターン、ドライソース信号の組合せパターンが72パターン存在するので、シミュレーションの条件(シミュレーション用部屋モデルとドライソース信号の組合せにより定まる条件)が計2592パターン(36×72=2592)存在する。
【0130】
第2の本シミュレーションでは、上記の2592パターンの各条件について、第1の本シミュレーションと同様の手法(t検定による音切れ評価指標)を用いて評価した。
【0131】
図18は、従来の収音処理結果とこの実施形態の収音処理結果のそれぞれの再現率を算出し、上記のt検定の分析ツールにそれぞれの再現率のデータを入力して得られた結果について示した図である。
【0132】
図19は、従来の収音処理結果と本実施形態の収音処理結果との間の「再現率の改善量」の分布(改善量ごとのデータ数)について示したヒストグラムである。
【0133】
ここで、(13)式に、S1
2=0.054721995、S2
2=0.013708308、n1=n2=2592のように第2の本シミュレーションにおけるパラメータを代入すると、自由度df=3745(小数点以下は四捨五入)という結果を得ることができる。
【0134】
ここで、
図18に示すt検定の結果を参照すると、本実施形態の収音処理結果では、従来の収音処理結果と比較して、再現率が平均して0.15程度向上しており、かつ、「t(4748)=29.7」、「p<0.01」となっている。このことから、この実施形態の収音処理結果では、従来の収音処理結果と比較して有意差があることがわかる。つまり、第2の本シミュレーションの結果から、この実施形態のような複数マイクロホンアレイ(例えば、2マイクロホンアレイ)の構成の収音処理結果では、従来の収音処理結果と比較して、明らかに音質(音切れ)が改善していることが確認できた。
【0135】
(C)第3の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第3の実施形態を図面を参照しながら詳述する。
【0136】
(C-1)第3の実施形態の構成及び動作
図20は、この実施形態に係る収音装置10Bの機能的構成を示すブロック図である。
【0137】
第2の実施形態の収音装置10Aでは、2つのマイクロホンアレイMA(MA1、MA2)の入力信号に基づいて、目的エリアAを音源とする音をエリア収音処理する構成となっているが、第3の実施形態の収音装置10Bでは、3つのマイクロホンアレイMA(MA1、MA2、MA3)の入力信号に基づいて、目的エリアAを音源とする音をエリア収音処理する構成となっている。
【0138】
マイクロホンアレイMA1~MA3は、目的エリアAが存在する空間の任意の場所に配置される。目的エリアAに対するマイクロホンアレイMA1~MA3の位置は、指向性が目的エリアAでのみ重なればどこでも良い。また、この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとする。
【0139】
第3の実施形態の収音装置10Bでは、データ入力部11A、収音処理部12Aが、データ入力部11B、収音処理部12Bに置き換わっている点で第2の実施形態と異なっている。以下、第3の実施形態について第2の実施形態との差異を説明する。
【0140】
データ入力部11Bは、各マイクロホンアレイMA1~MA3で収音した音響信号をアナログ信号からディジタル信号に変換する。
【0141】
この実施形態では、マイクロホンアレイMA1を構成するマイクロホンM1、M2の入力信号をそれぞれX11(n)、X12(n)と表し、マイクロホンアレイMA2を構成するマイクロホンM1、M2の入力信号をそれぞれX21(n)、X22(n)と表し、マイクロホンアレイMA3を構成するマイクロホンM1、M2の入力信号をそれぞれX31(n)、X32(n)と表すものとする。また、この実施形態では、マイクロホンアレイMA1、MA2、MA3から目的エリアAへの目的方向音抽出信号を、それぞれY1、Y2、Y3と表すものとする。さらに、この実施形態では、マイクロホンアレイMA1、MA2、MA3から見て目的方向以外に存在する非目的音を、それぞれM1、M2、M3とする。さらにまた、この実施形態では、目的方向音抽出信号Y1、Y2、Y3に含まれる非目的エリア音(雑音)の成分を、それぞれN1、N2、N3とする。
【0142】
収音処理部12Bは、マイクロホンアレイMA1~MA3の入力信号から、目的エリアAを音源とする目的エリア音を収音するエリア収音処理を行って目的エリア音抽出信号Z(n)を取得し、出力部13に供給する。
【0143】
出力部13は、供給された目的エリア音抽出信号Z(n)を所定の方式/形式で出力信号として出力する。
【0144】
次に、収音処理部12Bによるエリア収音処理の詳細について説明する。
【0145】
収音処理部12Bは、まず各マイクロホンアレイMA1~MA3から目的エリアAへの目的方向音抽出信号Y1、Y2、Y3を、第2の実施形態と同様の処理により抽出するものとする。そうすると、目的方向音抽出信号Y1、Y2、Y3は、(24)式、(25)式、(26)式のようになる。(24)式において、max(X11,X12)は、X11(n)又はX12(n)のうち大きい方を選択することを意味している。また、(25)式において、max(X21, X22)は、X21(n)又はX22(n)のうち大きい方を選択することを意味している。さらに、(26)式において、max(X31,X32)は、X31(n)又はX32(n)のうち大きい方を選択することを意味している。
【0146】
Y1=max(X11,X12)-βM1 …(24)
Y2=max(X21,X22)-βM2 …(25)
Y3=max(X31,X32)-βM3 …(26)
【0147】
ここで、(27)式、(28)式、(29)式に示すようにX1、X2、X3を定めると、Y1、Y2、Y3は、それぞれ(30)式、(31)式、(32)式のように示すことができる。
【0148】
X1=max(X11,X12) …(27)
X2=max(X21,X22) …(28)
X3=max(X31,X32) …(29)
Y1=X1-βM1 …(30)
Y2=X2-βM2 …(31)
Y3=X3-βM3 …(32)
【0149】
図21は、第3の実施形態における各信号の成分をベン図(論理式)の形式で表した図である。
【0150】
図21(a)では、目的方向音抽出信号Y
1、Y
2で重なる部分の音の成分をZ
12としている。Z
12は、マイクロホンアレイMA1、MA2の指向性が重なる部分の領域を音源とする音の成分であるといえる。
【0151】
そして、
図21(b)に示すように、Z
12と目的方向音抽出信号Y
3で重なる部分の音が、求めるべき目的エリア音抽出信号Zとなる。また、
図21(b)に示すように、Z
12と目的方向音抽出信号Y
3で重なる部分は、目的方向音抽出信号Y
1、Y
2、Y
3で重なる部分の音(すなわち、マイクロホンアレイMA1~MA3の全ての指向性が重なる部分の領域を音源とする音)と一致する。
【0152】
そうすると、非目的エリア音N1、N2は、それぞれ(33)式、(34)式のように示すことができる。また、Z12は、以下の(35)式又は(36)式のように示すことができる。さらに、(37)式に示すように目的方向音抽出信号Y3とZ12を用いることで非目的エリア音N3が求まり、(38)式に示すように目的エリア音抽出信号Zを求めることができる。
【0153】
N1=Y1-αY2 …(33)
N2=Y2-αY1 …(34)
Z12=Y1-γN1 …(35)
Z12=Y2-γN2 …(36)
N3=Y3-αZ12 …(37)
Z=Y3-γN3 …(38)
【0154】
以上のように、収音処理部12Bは、周波数ごとに、各マイクロホンアレイについていずれかのマイクロホンの入力信号を選択する選択処理を行い、選択結果に基づいて目的エリア音抽出信号Z(n)を取得する。具体的には、収音処理部12Bは、周波数ごとに、(24)式、(25)式、(26)式により、目的方向音抽出信号Y1、Y2、Y3を取得し、取得した目的方向音抽出信号Y1、Y2、Y3を用いて(38)式等により目的エリア音抽出信号Z(n)を取得する処理を行う。なお、ここでは、上記のような処理により収音処理部12Bが、目的方向音抽出信号Y1、Y2、Y3に基づいて目的エリア音抽出信号Zを取得する例について示したが、上記の(24)式、(25)式、(26)式のように求めたY1、Y2、Y3に基づいた処理であれば他の処理に置き換えるようにしてもよい。
【0155】
(C-2)第3の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0156】
第3の実施形態の収音装置10Bでは、3つのマイクロホンアレイMA(MA1、MA2、MA3)の入力信号に基づいて、目的エリアAを音源とする目的エリア音抽出信号Z(n)を取得することができる。また、上記の第1及び第2の本シミュレーションの結果から、3以上のマイクロホンアレイを用いたエリア収音処理を行う第3の実施形態の収音装置10Bにおいても、第2の実施形態と同様に従来の収音処理結果と比較して、音質(音切れ)が改善するという効果を奏することができる。
【0157】
(D)第4の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第4の実施形態を図面を参照しながら詳述する。
【0158】
(D-1)第4の実施形態の構成及び動作
図22は、この実施形態に係る収音装置10Cの機能的構成を示すブロック図である。
【0159】
第2の実施形態の収音装置10Aでは、4つのマイクロホンを用いて2つのマイクロホンアレイMA1、MA2を構成していた。これに対して、第4の実施形態では、
図22に示すように、3つのマイクロホンM1、M2、M3を用いて2つの2chマイクロホンアレイMA1、MA2が構成されている。
図22に示すように、第4の実施形態では、マイクロホンM1、M2を用いて第1のマイクロホンアレイMA1が構成されており、マイクロホンM2、M3を用いて第2のマイクロホンアレイMA2が構成されている。つまり、第4の実施形態では、2つのマイクロホンアレイMA1、MA2でマイクロホンM2が共通して用いられる構成となっている。
【0160】
第4の実施形態の収音装置10Cでは、データ入力部11A、収音処理部12Aが、データ入力部11C、収音処理部12Cに置き換わっている点で第2の実施形態と異なっている。以下、第4の実施形態について第2の実施形態との差異を説明する。
【0161】
データ入力部11Cは、2つのマイクロホンアレイMA1、MA2を構成する3つのマイクロホンM1~M3で収音した音響信号をアナログ信号からディジタル信号に変換する。以下では、マイクロホンM1、M2、M3の入力信号をそれぞれX101(n)、X102(n)、X103(n)と表すものとする。そうすると、この実施形態では、マイクロホンアレイMA1からの入力信号がX101(n)、X102(n)となり、マイクロホンアレイMA2からの入力信号がX102(n)、X103(n)となる。
【0162】
収音処理部12Cは、マイクロホンアレイMA1、MA2の入力信号(X101(n)、X102(n)、X103(n))から、目的エリアAを音源とする目的エリア音抽出信号Z(n)を収音するエリア収音処理を行って目的エリア音抽出信号Z(n)を取得し、出力部13に供給する。上記の通り、第4の実施形態では、マイクロホンアレイMA1からの入力信号がX101(n)、X102(n)となり、マイクロホンアレイMA2からの入力信号がX102(n)、X103(n)となること以外は第2の実施形態と同様の処理により目的エリア音抽出信号Z(n)を取得できるので詳しい説明を省略する。
【0163】
(D-2)第4の実施形態の効果
第4の実施形態の収音装置10Cでは、3つのマイクロホンM1~M3により構成された2つのマイクロホンアレイMA(MA1、MA2)の入力信号に基づいて、目的エリアAを音源とする目的エリア音抽出信号Z(n)を取得することができる。つまり、第4の実施形態では、第2の実施形態よりも少ない総数のマイクロホンを用いて同様の効果を奏するエリア収音処理を実現することができる。
【0164】
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0165】
(E-1)上記の実施形態において収音処理部12は、周波数毎に、入力信号X1の成分と入力信号X2の成分を比較していずれかを選択する選択処理を行い、選択した入力信号の成分から、非目的音の成分(βM)を差し引く(減算する)ことにより、目的方向音抽出信号Yを取得する。ここで、例えば、ある周波数fnにおいて、非目的音の影響から入力信号X1の成分と入力信号X2の成分の大小関係が頻繁に入れ替わるような場合、目的方向収音処理の音質が劣化する可能性がある。そのため、収音処理部12において、周波数ごとに、入力信号X1の成分と入力信号X2の成分の選択結果が切り替わる頻度が短くなり過ぎないように制御してもよい。例えば、収音処理部12において、入力信号X1の成分と入力信号X2の成分の選択結果が切り替わる頻度の最低期間を設定するようにしてもよい。また、例えば、収音処理部12において、入力信号X1の成分と入力信号X2の成分について、直近の一定期間内のサンプル(所定数のサンプル)の平均又は加重平均を比較し、その比較結果に基づいて選択する入力信号(基準となる選択信号)を決定するようにしてもよい。さらにまた、例えば、収音処理部12において、入力信号X1の成分と入力信号X2の成分とのそれぞれの直近の一定期間内のサンプル(所定数のサンプル)について時定数フィルタや忘却係数を用いた計算結果(加算結果)を比較し、その比較結果に基づいて選択する入力信号(基準となる選択信号)を決定するようにしてもよい。また、例えば、収音処理部12において、周波数ごとに、選択する入力信号が切り替わる際の基準を非対称に設定するようにしてもよい。例えば、収音処理部12において、入力信号X1の成分が選択されているときに、単純に入力信号X2の値が入力信号X1の値を超えただけでは選択する入力信号の切替をおこなわずに、入力信号X2の値が入力信号X1の値を一定以上超えた場合(例えば、入力信号X2の値が入力信号X1の1.1倍以上となった場合)に、選択する入力信号をX1からX2に切り替えるようにしてもよい。
【0166】
(E-2)上記の各実施形態において、アナログMEMSマイクの代わりにディジタルMEMSマイクを用いるようにして、ディジタルMEMSマイクからのディジタル信号を入力するようにしても良い。その場合、データ入力部11にはインタフェース変換やデシメーションフィルタの機能を具備するようにしても良い。デシメーションフィルタはサンプリング周波数を間引くとともに、音声帯域のみを通過させる低域透過フィルタである。
【0167】
(E-3)第4の実施形態では、3つのマイクロホンアレイを用いてエリア収音する構成について説明したが、4つ以上のマイクロホンアレイを用いてエリア収音する構成としてもよい。
【符号の説明】
【0168】
10…収音装置、11…データ入力部、12…収音処理部、13…出力部、MA…マイクロホンアレイ、M1、M2…マイクロホン。