(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024032124
(43)【公開日】2024-03-12
(54)【発明の名称】収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240305BHJP
H04R 1/40 20060101ALI20240305BHJP
G10L 21/0272 20130101ALI20240305BHJP
【FI】
H04R3/00 320
H04R1/40 320A
G10L21/0272 100
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022135599
(22)【出願日】2022-08-29
(11)【特許番号】
(45)【特許公報発行日】2023-11-15
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究/革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発 課題オ 超臨場感コミュニケーションシステム」、産業技術力強化法第17条の適用を受ける特許出願)
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】原 宗大
【テーマコード(参考)】
5D018
5D220
【Fターム(参考)】
5D018BB22
5D220BA06
5D220BC05
(57)【要約】
【課題】 雑音・妨害音の誤検知や、目的音の誤棄却を抑制する収音装置、収音プログラム及び収音方法、判定装置、判定プログラム及び判定方法を提供する。
【解決手段】 本発明は、収音装置に関する。そして本発明の収音装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力に基づいて目的エリア音抽出信号と非目的エリア音抽出信号を取得する手段と、目的エリア音抽出信号に目的エリア音が存在するか否かを目的エリア音閾値を用いて判定する手段と、非目的エリア音抽出信号に非目的エリア音が存在するか否かを判定する手段と、判定処理の結果に基づいて目的エリア音閾値を調整する手段と、目的エリア音の判定処理結果従って目的エリア音抽出信号を出力する手段とを有することを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、
それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、
前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、
前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、
前記目的エリア音判定手段により目的エリア音が存在すると判断された前記目的エリア音抽出信号を出力する出力手段と
を有することを特徴とする収音装置。
【請求項2】
前記目的エリア音判定手段は、前記入力信号と前記目的エリア音抽出信号との間の比に関する判定値と前記目的エリア音閾値との比較結果に基づいて、前記目的エリア音判定処理を行うことを特徴とする請求項1に記載の収音装置。
【請求項3】
前記目的エリア音判定手段は、前記入力信号と前記目的エリア音抽出信号との比に関する判定値が、前記目的エリア音閾値よりも大きい場合に、前記目的エリア音抽出信号に目的エリア音が存在すると判断する請求項2に記載の収音装置。
【請求項4】
前記目的エリア音判定手段、前記非目的エリア音判定手段、前記閾値調整手段、及び前記出力手段は、時系列順のフレーム毎に信号処理を行い、
前記目的エリア音判定手段は、処理対象のフレームに係る前記目的エリア音抽出信号について前記目的エリア音判定処理を行って第1の判定結果を取得し、
前記閾値調整手段は、前記第1の判定結果を用いて前記目的エリア音閾値を調整して調整処理済の前記目的エリア音閾値を取得し、
前記目的エリア音判定手段は、前記処理対象のフレームに係る前記目的エリア音抽出信号について、前記調整処理済の前記目的エリア音閾値を用いて前記目的エリア音判定処理を行って第2の判定結果を取得し、
前記出力手段は、前記処理対象のフレームに係る前記目的エリア音抽出信号について、前記第2の判定結果に基づいて処理する
ことを特徴とする請求項1に記載の収音装置。
【請求項5】
前記非目的エリア音判定手段は、前記入力信号と前記非目的エリア音抽出信号との比に関する判定値が、非目的エリア音閾値よりも大きい場合に、前記非目的エリア音抽出信号に非目的エリア音が存在すると判断する請求項1に記載の収音装置。
【請求項6】
コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、
それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、
前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、
前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、
前記目的エリア音判定手段により目的エリア音が存在すると判断された前記目的エリア音抽出信号を出力する出力手段と
して機能させることを特徴とする収音プログラム。
【請求項7】
収音装置が行う収音方法において、
前記収音装置は、目的エリア音取得手段、非目的エリア音取得手段、目的エリア音判定手段、閾値調整手段、非目的エリア音判定手段及び出力手段を有し、
前記目的エリア音取得手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得し、
前記非目的エリア音取得手段は、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、
前記目的エリア音判定手段は、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行い、
前記非目的エリア音判定手段は、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行い、
前記閾値調整手段は、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整し、
前記出力手段は、前記目的エリア音判定手段により目的エリア音が存在すると判断された前記目的エリア音抽出信号を出力する
ことを特徴とする収音方法。
【請求項8】
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、
それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、
前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、
前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、
前記目的エリア音判定処理の結果を出力する出力手段と
を有することを特徴とする判定装置。
【請求項9】
前記出力手段は、前記目的エリア音判定処理の結果に、前記入力信号に基づく信号又は前記目的エリア音抽出信号を付加して出力することを特徴とする請求項8に記載の判定装置。
【請求項10】
コンピュータを
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、
それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、
前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、
前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、
前記目的エリア音判定処理の結果を出力する出力手段と
して機能させることを特徴とする判定プログラム。
【請求項11】
判定装置が行う判定方法において、
前記判定装置は、目的エリア音取得手段、非目的エリア音取得手段、目的エリア音判定手段、閾値調整手段、非目的エリア音判定手段及び出力手段を有し、
前記目的エリア音取得手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得し、
前記非目的エリア音取得手段は、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、
前記目的エリア音判定手段は、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行い、
前記非目的エリア音判定手段は、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行い、
前記閾値調整手段は、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整し、
前記出力手段は、前記目的エリア音判定処理の結果を出力する
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、収音装置、収音プログラム及び収音方法に関し、例えば、特定のエリアの音を強調してそれ以外のエリアの音を抑制するシステムや、音声区間検出を必要とする音声認識システム等に適用し得る。
【背景技術】
【0002】
雑音下での音声認識では、雑音の影響により音声認識の精度が下がるため、発話していない雑音区間を除外し、利用者の発話のみを切り出す音声区間検出には、高い精度が要求される。従来、音声区間検出を行う方式として、音声と雑音のパワー比に基づき区別する方式や、スペクトルの形状のような音声らしさに基づき区別する方式などが多数紹介されている。一方で、従来、目的音の存在するエリアを空間上で区切って、その区切られた音を使用して区間検出する方式として、特許文献1、特許文献2のような方式も提案されている。以下、特許文献1、2の記載技術について説明する。
【0003】
特許文献1の記載技術では、背景雑音が強い環境下でエリアにある音を抽出する処理を行うと、ミュージカルノイズが残留してしまい、特に、エリアに音がない区間では、顕著に耳障りになるという問題を設定している。それに対して、特許文献1では、エリアを空間上で区切って、その区切られた音の情報に基づいて、エリアの音の有無を判定して、音が無い場合は処理結果を出力しないことを提案している。
【0004】
一方で、特許文献1の記載技術では、背景雑音が強い環境でのミュージカルノイズへ対処できたが、SN比が悪いことに変わりはない。そのため、特許文献2では、エリアを空間上で区切って得られた音において、目的音が雑音に埋もれてしまい、特に無声子音はもともとパワーが小さく検出できないという問題を設定している。それに対して、特許文献2では、特許文献1の記載技術で無音と判定された場合であっても、エリアの音を周波数成分ごとに再判定する方式を提案している。
【0005】
ここで、特許文献1、2の背景技術について記載する。
【0006】
従来、複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する音の時間差を利用して指向性を形成する技術である(非特許文献1参照)。
【0007】
従来、BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0008】
図10は、マイクロホンMの数が2個の場合の減算型BF400に係る構成を示すブロック図である。
【0009】
図11は、2個のマイクロホンM1、M2を用いた減算型BF400により形成される指向性フィルタの例について示した説明図である。
【0010】
減算型BF400は、まず遅延器410により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンM1、M2に到来する音の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。
【0011】
ここで、dはマイクロホンM1、M2間の距離、cは音速、τLは遅延量である。また、ここでθLは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。
【0012】
また、ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器は、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算型BF400では、以下の(2)式に従い処理(減算処理)を行う。減算型BF400の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)のように変更される。
【0013】
【0014】
ここでθ
L=±π/2の場合、減算型BF400により形成される指向性は
図11(a)に示すように、カージオイド型の単一指向性となる。また、「θ
L=0,π」の場合、減算型BF400により形成される指向性は、
図11(b)のような8の字型の双指向性となる。以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
【0015】
また、減算器420では、スペクトル減算法(Spectral Subtraction;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。以下の(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。
【0016】
ここでβは、SSの強度を調節するための係数である。また、減算器420では、減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF400の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
【0017】
Y(n)=X1(n)-βM(n)…(4)
【0018】
ここで、ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1、特許文献2では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。
【0019】
エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。
【0020】
図12は、従来のマイクロホンアレイを用いたエリア収音処理の例について示した図である。
【0021】
例えば、
図12に示すように、2つのマイクロホンアレイMA1、MA2を使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、Y
1k(n)は第1のマイクロホンアレイMA1のBF出力の振幅スペクトルであり、Y
2k(n)は第2のマイクロホンアレイMA2のBF出力の振幅スペクトルであり、Nは周波数ビンの総数であり、kは周波数である。また、ここで、α
1(n)、α
2(n)は各BF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値を表し、medeianは中央値を表している。
【0022】
【0023】
以上の処理により、減算器420は、補正係数α1(n)、α2(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器420は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
【0024】
減算型BF400は、第1のマイクロホンアレイMA1からみた目的エリア方向に存在する非目的エリア音N1(n)を抽出する際、例えば、(9)式に示すように、第1のマイクロホンアレイMA1のBF出力Y1(n)から第2のマイクロホンアレイMA2のBF出力Y2(n)に振幅スペクトル補正係数α2を掛けたものをSSする。減算型BF400は、同様に、以下の(10)式に従い、第2のマイクロホンアレイMA2からみた目的エリア方向に存在する非目的エリア音N2(n)を抽出する。
【0025】
その後、減算型BF400は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイMA1を基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイMA2を基準として目的エリア音を抽出する場合の処理を示している。ここでγ1(n)、γ2(n)は、SS時の強度を変更するための係数である。
【0026】
N1(n)=Y1(n)-α2(n)Y2(n)…(9)
N2(n)=Y2(n)-α1(n)Y1(n)…(10)
Z1(n)=Y1(n)-γ1(n)N1(n)…(11)
Z2(n)=Y2(n)-γ2(n)N2(n)…(12)
【0027】
以上のように、特許文献1、2に記載技術では、複数のマイクロホンアレイで構成され、各マイクロホンアレイはビームフォーマによって目的エリア方向への指向性を形成し、すべてのビームフォーマ出力に含まれる目的エリア音のパワーが等しくなるようにパワーを補正し、それぞれのビームフォーマ出力をスペクトル減算することで非目的エリア音を抽出し、各ビームフォーマ出力から非目的エリア音をスペクトル減算することで、目的エリア音を抽出する。
【先行技術文献】
【特許文献】
【0028】
【特許文献1】特開2016-127457号公報
【特許文献2】特開2018-164156号公報
【非特許文献】
【0029】
【非特許文献1】浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,日本音響学会編,コロナ社,2011年2月25日発行
【発明の概要】
【発明が解決しようとする課題】
【0030】
しかしながら、従来のエリア収音処理においても、雑音が支配的な区間で雑音を誤検知したり、目的音が支配的な区間で目的音を誤棄却したりするという課題があった。具体的には、従来のエリア収音処理では、雑音が支配的な区間(つまり、目的音となる音声が無く雑音のみの区間)で、エリアの音を抽出する音処理において雑音の消し残りがあった場合に、誤って雑音のみの区間を目的音の区間と検知してしまうことがある。また、従来のエリア収音処理では、目的音が支配的な区間(つまり、目的音が存在する区間)において、無声子音などのパワーが小さい区間を誤って棄却して、処理結果を出力しないことがある。
【0031】
以上のような問題に鑑みて、雑音・妨害音の誤検知や、目的音の誤棄却を抑制することができる収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法が望まれている。
【課題を解決するための手段】
【0032】
第1の本発明の収音装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、前記目的エリア音判定手段により目的エリア音が存在すると判断された前記目的エリア音抽出信号を出力する出力手段とを有することを特徴とする。
【0033】
第2の本発明の収音プログラムは、コンピュータを、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、前記目的エリア音判定手段により目的エリア音が存在すると判断された前記目的エリア音抽出信号を出力する出力手段とて機能させることを特徴とする。
【0034】
第3の本発明は、収音装置が行う収音方法において、前記収音装置は、目的エリア音取得手段、非目的エリア音取得手段、目的エリア音判定手段、閾値調整手段、非目的エリア音判定手段及び出力手段を有し、前記目的エリア音取得手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得し、前記非目的エリア音取得手段は、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、前記目的エリア音判定手段は、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行い、前記非目的エリア音判定手段は、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行い、前記閾値調整手段は、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整し、前記出力手段は、前記目的エリア音判定手段により目的エリア音が存在すると判断された前記目的エリア音抽出信号を出力することを特徴とする。
【0035】
第4の本発明は、判定装置において、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、前記目的エリア音判定処理の結果を出力する出力手段とを有することを特徴とする。
【0036】
第5の本発明の判定プログラムは、コンピュータを複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得する目的エリア音取得手段と、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得する非目的エリア音取得手段と、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行う目的エリア音判定手段と、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行う非目的エリア音判定手段と、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整する閾値調整手段と、前記目的エリア音判定処理の結果を出力する出力手段として機能させることを特徴とする判定プログラム。
【0037】
第6の本発明は、判定装置が行う判定方法において、前記判定装置は、目的エリア音取得手段、非目的エリア音取得手段、目的エリア音判定手段、閾値調整手段、非目的エリア音判定手段及び出力手段を有し、前記目的エリア音取得手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号を取得し、前記非目的エリア音取得手段は、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、前記目的エリア音判定手段は、前記目的エリア音抽出信号に所定の基準を超える目的エリア音が存在するか否かを、目的エリア音閾値を用いて判定する目的エリア音判定処理を行い、前記非目的エリア音判定手段は、前記非目的エリア音抽出信号に所定の基準を超える非目的エリア音が存在するか否かを判定する非目的エリア音判定処理を行い、前記閾値調整手段は、前記目的エリア音判定手段の判定結果と前記非目的エリア音判定手段の判定結果とに基づいて前記目的エリア音閾値を調整し、前記出力手段は、前記目的エリア音判定処理の結果を出力することを特徴とする収音方法。
【発明の効果】
【0038】
本発明によれば、雑音・妨害音の誤検知や、目的音の誤棄却を抑制する収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法を提供することができる。
【図面の簡単な説明】
【0039】
【
図1】第1の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図2】第1の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。
【
図3】第1の実施形態に係る目的エリア音取得部の機能的構成の例について示したブロック図である。
【
図4】第1の実施形態に係る目的エリア音出力判定部の機能的構成の例について示したブロック図である。
【
図5】第1の実施形態に係る閾値調整部が閾値を調整する例について表形式で示した図である。
【
図6】第3の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図7】第3の実施形態に係る目的エリア音取得部の機能的構成の例について示したブロック図である。
【
図8】第4の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図9】第5の実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図10】従来の減算型に係る構成を示すブロック図である。
【
図11】従来の減算型BFにより形成される指向性フィルタの例について示した説明図である。
【
図12】従来のマイクロホンアレイを用いたエリア収音処理の例について示した図である。
【発明を実施するための形態】
【0040】
(A)第1の実施形態
以下、本発明による収音装置、プログラム及び収音方法の第1の実施形態を、図面を参照しながら詳述する。
【0041】
(A-1)第1の実施形態の構成
図1は、この実施形態の収音装置10の全体構成を示すブロック図である。
【0042】
なお、
図1において、括弧内の符号は後述する第2の実施形態でのみ用いられる符号である。
【0043】
収音装置は、2つのマイクロホンアレイMA(MA1、MA2)からの入力信号を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
【0044】
マイクロホンアレイMA1、MA2は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。
【0045】
次に、収音装置10の内部構成について説明する。
【0046】
収音装置10は、データ入力部11、目的エリア音取得部12、非目的エリア音取得部13、及び目的エリア音出力判定部14を有している。収音装置10の各要素の詳細構成については後述する。
【0047】
データ入力部11は、各マイクロホンアレイ(MA1、MA2)で収音した音響信号をアナログ信号からデジタル信号に変換し、さらに時間領域から周波数領域に変換した入力信号として取得する。
【0048】
目的エリア音取得部12は、各マイクロホンアレイ(MA1、MA2)の入力信号に基づいて、目的エリアに対するエリア収音処理を行い、目的エリア音を取得する処理を行う。
【0049】
非目的エリア音取得部13は、いずれかの入力信号から、非目的エリア(目的エリア以外のエリア)を音源とする非目的エリア音を抽出して取得する処理を行う。例えば、非目的エリア音取得部13は、いずれかの入力信号から、目的エリア音取得部12が取得した目的エリア音を減算することで、非目的エリア音を抽出するようにしてもよい。
【0050】
目的エリア音出力判定部14は、目的エリア音取得部12が取得した目的エリア音を出力するか否かを判定する処理(以下、「目的エリア音判定処理」と呼ぶ)を行い、その結果に応じて目的エリア音の出力を制御する処理を行う。
【0051】
目的エリア音出力判定部14は、目的エリア音取得部12から供給される目的エリア音について、時系列順のフレーム(周波数領域で表現された1つの時系列の信号)ごとに目的エリア音判定処理を行い、目的エリア音が存在すると判定されたフレーム(信号)についてのみ出力する。つまり、目的エリア音出力判定部14は、目的エリア音が存在すると判定されたフレーム(信号)についてはそのまま所定の形式/手段により出力する処理を行い、目的エリア音が存在しないと判定されたフレーム(信号)については出力しない。なお、このとき、目的エリア音出力判定部14は、目的エリア音が存在しないと判定されたフレーム(信号)に替えて、別のダミーの信号(例えば、無音の信号等)を出力するようにしてもよい。目的エリア音出力判定部14による目的エリア音判定処理の詳細については後述する。
【0052】
目的エリア音出力判定部14の出力形式については限定されないものであり、種々の出力形式/手段を適用することができる。例えば、目的エリア音出力判定部14は、周波数領域で表現された目的エリア音をそのまま出力するようにしてもよいし、時間領域の信号/データ(例えば、PCMや所定のコーデックの信号/データ)に変換して出力するようにしてもよい。また、目的エリア音出力判定部14は、目的エリア音をデジタル信号で出力してもよいしアナログ信号に変換して出力するようにしてもよい。
【0053】
次に、収音装置10のハードウェア構成の例について説明する。
【0054】
収音装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0055】
図2は、収音装置10のハードウェア構成の例について示したブロック図である。
【0056】
図2では、収音装置10を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
【0057】
図2に示す収音装置10は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ200を有している。また、コンピュータ200は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
【0058】
図2に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
【0059】
なお、コンピュータ200の具体的な構成は
図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部203については除外した構成としてもよい。
【0060】
次に、目的エリア音取得部12の内部構成の例について
図3を用いて説明する。
【0061】
図3は、この実施形態の目的エリア音取得部12の機能的構成の例について示したブロック図である。
【0062】
この実施形態において、目的エリア音取得部12による目的エリア音の取得は、例えば、
図3に示す構成により実現されるものとして説明するが、その他の方式を用いて目的エリア音の取得を行う構成を適用するようにしてもよい。
【0063】
図3に示すように、この実施形態の例では、目的エリア音取得部12は、雑音抑圧部121、指向性形成部122、遅延補正部123、補正係数導出部と、空間座標データ保持部125と、目的エリア音抽出部124を有しているものとして説明する。目的エリア音取得部12の各要素の詳細構成については後述する。
【0064】
次に、目的エリア音出力判定部14の内部構成の例について
図4を用いて説明する。
【0065】
図4は、この実施形態の目的エリア音出力判定部14の機能的構成の例について示したブロック図である。
【0066】
図4に示すように、この実施形態の例では、目的エリア音出力判定部14は、目的エリア音閾値判定部141、非目的エリア音閾値判定部142、閾値調整部143、及び目的エリア音出力部144を有しているものとして説明する。この実施形態において、目的エリア音出力判定部14による目的エリア音出力判定は、例えば、
図3に示す構成により実現されるものとして説明するが、その他の方式を用いて目的エリア音出力判定を行う構成を適用するようにしてもよい。
【0067】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置10の動作(実施形態に係る収音方法)を説明する。
【0068】
まず、データ入力部11の動作について説明する。
【0069】
データ入力部11は、各マイクロホンアレイ(MA1、MA2)で収音した音響信号をアナログ信号からデジタル信号に変換する。そして、データ入力部11は、当該デジタル信号を時間領域から周波数領域の信号に変換する。データ入力部11は、例えば、高速フーリエ変換を用いて時間領域から周波数領域へ変換するようにしてもよい。なお、ここでは、各マイクロホンアレイにおいて、マイクロホンM1、M2の入力スペクトル(周波数領域の入力信号)を、それぞれX1、X2とする。
【0070】
次に、目的エリア音取得部12の動作について
図3を用いて説明する。
【0071】
雑音抑圧部121は、データ入力部11から取得した音に含まれる背景雑音の成分を推定し、抑圧する。雑音抑圧部121による雑音抑圧には、例えば、SSやウィーナーフィルタリング法(Wiener Filltering)などを用いることができる。
【0072】
指向性形成部122は、マイクロホンアレイ毎に雑音抑圧部121により背景雑音を抑圧した信号に対し、(4)式に従いBFにより目的エリア方向に指向性を形成する。
【0073】
遅延補正部123は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。遅延補正部123は、まず空間座標データ保持部125から目的エリアの位置と各マイクロホンアレイの位置を取得し、各マイクロホンアレイヘの目的エリア音の到達時間の差を算出する。次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。
【0074】
空間座標データ保持部125は、全ての目的エリアと各マイクロホンアレイを構成するマイクロホンの位置情報を保持している。空間座標データ保持部125が各マイクロホンアレイの各マイクロホンの位置情報を保持する方法や、空間座標データ保持部125が保持する位置情報の具体的な形式は限定されないものであり、種々のデータ形式を適用することができる。
【0075】
補正係数算出部126は、各BF出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を(5)、(6)式または(7)、(8)式に従い算出する。
【0076】
目的エリア音抽出部124は、補正係数算出部126で算出した補正係数により補正しBF出力データを(9)、もしくは(10)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部124は、抽出した雑音を各BFの出力から(11)、もしくは(12)式に従いSSすることにより目的エリア音を抽出する。
【0077】
次に、非目的エリア音取得部13の動作について説明する。
【0078】
非目的エリア音取得部13は、データ入力部11から取得した入力信号から、目的エリア音取得部12から取得した目的エリア音を減算することで、非目的エリア音として抽出する。減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。具体的には、(13)式に基づき非目的エリア音を算出する。ここで、X1kは、マイクロホンアレイMA1の入力信号X1(第1のマイクロホンM1の入力信号)における周波数kの振幅スペクトルであり、V1kは、非目的エリア音V1における周波数kの振幅スペクトルであり、Z1kは目的エリア音出力データにおける周波数kの振幅スペクトルである。
【0079】
V1k=X1k-Z1k…(13)
【0080】
なお、非目的エリア音取得部13は、この実施形態の例では、(13)式に示す方法で非目的エリア音として抽出したが、他の抽出方法でもよい。例えば、非目的エリア音取得部13では、(9)式に示すように、第1のマイクロホンアレイのBF出力Y1(n)から第2のマイクロホンアレイのBF出力Y2(n)に振幅スペクトル補正係数α2を掛けたものをSSして抽出する方法や、同様に、(10)式に示すように、第2のマイクロホンアレイのBF出力Y2(n)から第1のマイクロホンアレイのBF出力Y1(n)に振幅スペクトル補正係数α1を掛けたものをSSして抽出する方法により、非目的エリア音を取得するようにしてもよい。
【0081】
次に、目的エリア音出力判定部14の動作について
図4を用いて説明する。
【0082】
目的エリア音閾値判定部141は、時系列順のフレームごとに目的エリア音取得部12から取得した目的エリア音Z1kに目的エリア音が存在するか否か(所定の基準を超える音の成分が含まれているか否か)を判定する処理(以下、「目的エリア音判定処理」と呼ぶ)を行う。目的エリア音閾値判定部141は、目的エリア音判定処理の結果、目的エリア音が存在すると判定した場合判定値として「1」を出力し、目的エリア音が存在しないと判定した場合判定値として「0」を出力するものとする。この実施形態では、上記の通り目的エリア音閾値判定部141の出力する判定値は1又は0の2値であるものとして説明するが、目的エリア音閾値判定部141の出力する判定値の形式は上記の例に限定されず種々の形式を適用することができる。
【0083】
目的エリア音閾値判定部141は、まず、周波数ごとに、データ入力部11から取得した入力信号X1kと、目的エリア音取得部12から取得した目的エリア音Z1kを用いて、周波数ごとの振幅比RAkを算出する。具体的には、目的エリア音閾値判定部141は、(14)式に基づき周波数毎の振幅比を算出する。ここで、X1kは、マイクロホンアレイMA1の入力信号X1(第1のマイクロホンM1の入力信号)における周波数kの振幅スペクトルであり、Z1kは目的エリア音における周波数kの振幅スペクトルである。また、mは処理対象の周波数の下限、nは周波数の上限である。
【0084】
【0085】
次に、目的エリア音閾値判定部141は、あらかじめ設定された閾値TAと、振幅比RAkの周波数k=m,…,nまでの和に基づく判定値RAを比較する。具体的には、目的エリア音閾値判定部141は、(15)式に基づき周波数毎の振幅比の和を算出する。目的エリア音閾値判定部141は、判定値RAが閾値TAを超える場合には、目的エリア音が存在すると判定して「1」を判定値(判定結果)とし、判定値RAが閾値TAを超えない場合には、目的エリア音が存在しないと判定して「0」を判定値(判定結果)とする。
【0086】
【0087】
なお、目的エリア音閾値判定部141は、この実施形態の例では、(14)式に示すように判定値に、目的エリア音の振幅スペクトルZ1kと入力信号の振幅スペクトルX1kの振幅比を用いたが、他の判定値でもよい。例えば、目的エリア音閾値判定部141において、目的エリア音のパワー「(Z1k)2」と入力信号のパワー「(X1k)2」のパワー比を判定値として用いてもよい。
【0088】
非目的エリア音閾値判定部142は、非目的エリア音取得部13から取得した非目的エリア音V1kに非目的エリア音が存在するか否か(所定の基準を超える音の成分が含まれているか否か)を判定する処理(以下、「非目的エリア音判定処理」と呼ぶ)を行う。非目的エリア音閾値判定部142は、非目的エリア音判定処理の結果、非目的エリア音が存在すると判定した場合判定値(判定結果)として「1」を出力し、非目的エリア音が存在しないと判定した場合判定値(判定結果)として「0」を出力するものとする。この実施形態では、上記の通り非目的エリア音閾値判定部142の出力する判定値は1又は0の2値であるものとして説明するが、非目的エリア音閾値判定部142の出力する判定値の形式は上記の例に限定されず種々の形式を適用することができる。
【0089】
非目的エリア音閾値判定部142は、まず、周波数ごとに、データ入力部11から取得した入力信号X1kと、非目的エリア音取得部13から取得した非目的エリア音V1kを用いて周波数ごとの振幅比RBkを算出する。具体的には、非目的エリア音閾値判定部142は、(16)式に基づき周波数毎の振幅比を算出する。V1kは非目的エリア音における周波数kの振幅である。
【0090】
【0091】
次に、非目的エリア音閾値判定部142は、あらかじめ設定された閾値TBと、振幅比RBkの周波数k=m,…,nまでの和に基づく判定値RBを比較する。具体的には、非目的エリア音閾値判定部142は、(17)式に基づき周波数毎の振幅比の和を算出する。非目的エリア音閾値判定部142は、判定値RBが閾値TBを超える場合には、非目的エリア音が存在すると判定して「1」を判定値(判定結果)とし、判定値RBが閾値TBを超えない場合には、非目的エリア音が存在しないと判定して「0」を判定値(判定結果)とする。
【0092】
【0093】
なお、非目的エリア音閾値判定部142では、この実施形態の例では、(16)式に示すように判定値に、非目的エリア音の振幅スペクトルV1kと入力信号の振幅スペクトルX1kの振幅比を用いたが、他の判定値でもよく、例えば、非目的エリア音のパワー「(V1k)2」と入力信号のパワー「(X1k)2」のパワー比を用いてもよい。
【0094】
閾値調整部143は、目的エリア音閾値判定部141と非目的エリア音閾値判定部142からそれぞれで取得した判定値(判定結果)から、適切な閾値TAを設定(閾値TAを調整;閾値TAを制御;閾値TAを補正)する。以下の例では、閾値調整部143は、閾値TAの初期値をTiniとし、目的エリア音閾値判定部141と非目的エリア音閾値判定部142の判定値に応じて閾値TAを調整(Tiniから調整)するものとして説明する。
【0095】
図5は、目的エリア音閾値判定部141と非目的エリア音閾値判定部142の判定値に応じて、閾値調整部143が閾値TAを調整する処理の内容(閾値TAの補正内容)について表形式で示した図である。
【0096】
閾値調整部143は、
図5に示すように、目的エリア音閾値判定部141の判定値が「0」で、かつ、非目的エリア音閾値判定部142の判定値が「0」である場合、閾値TAに、初期閾値T
iniを設定する(つまり、閾値TAを初期閾値T
iniのまま調整しない)。また、閾値調整部143は、目的エリア音閾値判定部141の判定値が「1」で、かつ、非目的エリア音閾値判定部142の判定値が「1」である場合も、閾値TAに初期閾値T
iniを設定する。さらに、閾値調整部143は、目的エリア音閾値判定部141の判定値が「1」で、かつ、非目的エリア音閾値判定部142の判定値が「0」である場合、閾値TAに、(T
ini-p1)を設定し、目的エリア音を抽出しやすくする。さらにまた、閾値調整部143は、目的エリア音閾値判定部141の判定値が「0」で、かつ、非目的エリア音閾値判定部142の判定値が「1」である場合、閾値TAに、(T
ini+p2)を設定し、非目的エリア音を抽出しにくくする。
【0097】
つまり、閾値調整部143は、目的エリア音又は非目的エリア音のいずれか一方のみが存在する場合(所定の基準以上の音である場合;2つの判定値のうち一方のみが1の場合)に、閾値TAを調整する。具体的には上記の通り閾値調整部143は、目的エリア音のみが存在する場合閾値TAを下げる調整を行って目的エリア音を抽出(出力)しやすくし、非目的エリア音のみが存在する場合閾値TAを上げる調整を行って非目的エリア音を抽出(出力)しにくくする処理を行う。
【0098】
なお、p1とp2は、あらかじめ設定された任意の値としてもよいし、ユーザ(オペレータ)の操作により任意の値に設定可能な値としてもよい。つまり、p1、p2は、ユーザによる使用環境や実験等により求められた好適な値が設定されることが望ましい。また、P1とP2は同じ値としてもよいし、異なる値としてもよい。
【0099】
閾値調整部143が、閾値を設定することができるタイミングは複数存在する。したがって、閾値調整部143において、閾値を設定するタイミングは後述するタイミングのいずれかを適用するようにしてもよい。例えば、閾値調整部143は、目的エリア音閾値判定部141から取得した今回のフレームの判定値より、次回のフレームの閾値TAを調整してもよい。また、閾値調整部143は、目的エリア音閾値判定部141から取得した前回のフレームの判定値より、今回のフレームの閾値TAを調整してもよい。
【0100】
以上のように、閾値調整部143は、閾値TAを調整する処理を行う。
【0101】
目的エリア音出力部144は、目的エリア音閾値判定部141の判定結果に基づいて、出力する信号を制御する。具体的には、目的エリア音出力部144は、目的エリア音閾値判定部141から取得した判定値が「1」となるフレーム(信号)についてのみ出力する。
【0102】
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0103】
第1の実施形態の収音装置10では、非目的エリア音のみが存在する場合、誤って目的エリア音と判定しにくくするために、目的エリア音用の閾値TAを上げておくことで、雑音や妨害音の誤検知を防ぐことができる。
【0104】
また、第1の実施形態の収音装置10では、目的エリア音のみが存在する区間で、誤って目的エリア音がないと判定されにくくするために、目的エリア音用の閾値TAを下げておくことで、無声子音などのパワーが小さい音声による、目的音の誤棄却を防ぐことができる。
【0105】
以上のように、第1の実施形態の収音装置では、雑音や妨害音の誤検知や、目的音の誤棄却を低減することができる。
【0106】
(B)第2の実施形態
以下、本発明による収音装置、プログラム及び収音方法の第2の実施形態を、図面を参照しながら詳述する。
【0107】
(B-1)第2の実施形態の構成
第2の実施形態に係る収音装置10Aの構成についても、第1の実施形態と同様に上述の
図1~
図5、
図10を用いて示すことができる。なお、
図1~
図5、
図10において、括弧内の符号は第2の実施形態でのみ用いられる符号である。以下では、第2の実施形態について第1の実施形態との差異のみを説明する。
【0108】
第1の実施形態では、閾値調整部143の閾値の設定のタイミングについては、「目的エリア音閾値判定部141から取得した今回のフレームの判定値より、次回のフレームの閾値TAを調整する場合」と、「目的エリア音閾値判定部141から取得した前回のフレームの判定値より、今回のフレームの閾値TAを調整する場合」の2つを挙げていた。しかしながら、第1の実施形態の収音装置10では、どちらの場合も過去のフレームの判定値を使って取得した閾値に基づいて、現在のフレームの判定値を出力していたため、過去の情報と現在の情報に、判定結果に影響を及ぼすような差があった場合に、誤った判定値を出力する懸念があった。そのため、第2の実施形態の収音装置10Aでは、第1の実施形態の課題を解決するために、現在(今回;最新)のフレームの判定値を使って取得した閾値に基づいて、現在のフレームの判定値を出力するように構成されている。
【0109】
図1に示すように、収音装置10Aでは、目的エリア音出力判定部14が目的エリア音出力判定部14Aに置き換わっている点で第1の実施形態と異なっている。また、
図4に示すように、目的エリア音出力判定部14Aでは、目的エリア音閾値判定部141と、閾値調整部143と、目的エリア音出力部144Aとが、それぞれ、目的エリア音閾値判定部141Aと、閾値調整部143Aと、目的エリア音出力部144Aとに置き換わっている点で第1の実施形態と異なっている。
【0110】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置10の動作(実施形態に係る収音方法)について第1の実施形態との差異のみを説明する。
【0111】
上記の通り、第2の実施形態では、目的エリア音閾値判定部141A、閾値調整部143A及び目的エリア音出力部144Aの動作のみが異なる。
【0112】
第2の実施形態の目的エリア音出力判定部14Aは、今回(最新)に到来した処理対象のフレーム(以下、「処理対象フレーム」と呼ぶ)について目的エリア音閾値判定処理及び非目的エリア音閾値判定処理を行い、その結果に応じて閾値TAを調整した後に、再度処理対象フレームについて目的エリア音閾値判定処理を行い、再度行った目的エリア音閾値判定処理を用いて最終的な目的エリア音判定処理を行う。つまり、第2の実施形態の目的エリア音出力判定部14Aでは、1つの処理対象フレームについて目的エリア音閾値判定処理が2度行われる。以下では、任意の処理対象フレームについて行われる最初の目的エリア音閾値判定処理の判定値を第1の判定値と呼び、2度目の目的エリア音閾値判定処理の判定値を第2の判定値と呼ぶ。また以下では、第1の判定値に基づいて調整される前の閾値TAを第1の閾値TA1と呼び、第1の判定値に基づいて調整された後の閾値TAを第2の閾値TA2と呼ぶものとする。
【0113】
次に、目的エリア音出力判定部14Aにおける1つの処理対象フレーム(今回のフレーム)に対する処理の詳細について説明する。
【0114】
まず、目的エリア音閾値判定部141Aにより、処理対象フレームの振幅比と第1の閾値TA1を用いて第1の判定値が取得される。
【0115】
次に、閾値調整部143Aにより、目的エリア音閾値判定部141Aで取得された第1の判定値に基づいて、第1の閾値TA1が第2の閾値TA2に調整される。なお、上記の
図5に示すように、TA1とTA2は、閾値調整部143Aによる処理(閾値調整の処理)の結果同じ値となる場合もあり得る。
【0116】
次に、目的エリア音閾値判定部141Aにより、処理対象フレームの振幅比と第2の閾値TA2に基づいて第2の判定値が取得される。
【0117】
次に、目的エリア音出力部144Aにより、第2の判定値に基づいて、処理対象フレーム(目的エリア音抽出音)が処理(出力が制御)される。この場合、目的エリア音出力部144Aは、第2の判定値が「1」である場合のみ、処理対象フレームについて出力(目的エリア音が存在すると判定して出力)する制御を行う。
【0118】
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0119】
第2の実施形態の収音装置10Aでは、目的音の発話開始時や発話終了時、または、雑音や妨害音の発話開始時や発話終了時などのタイミングにおいて、目的音の誤棄却や雑音や妨害音の誤検知を引き起こさないように、過去の情報に基づいて現在のフレームの出力判定を行うのではなく、現在の情報に基づいて現在のフレームの出力判定を行うことで、上記のタイミングでの誤作動を防ぐことができる。これにより、第2の実施形態の収音装置10Aでは、第1の実施形態と比較して、目的音の発話開始時や発話終了時、または、雑音や妨害音の発話開始時や発話終了時にも、雑音や妨害音の誤検知や、目的音の誤棄却を減らすことができる。
【0120】
(C)第3の実施形態
以下、本発明による判定装置、判定プログラム及び判定方法の一実施形態(第3の実施形態)を、図面を参照しながら詳述する。
【0121】
(C-1)第3の実施形態の構成
図6は、第3の実施形態に係る判定装置20の機能的構成について示したブロック図である。
【0122】
第1及び第2の実施形態の収音装置10、10Aは、目的エリア音判定処理の結果に応じて出力音を出力しているが、第3の実施形態の判定装置20は、目的エリア音判定処理の判定結果を出力する処理を行う。言い換えると、第3の実施形態の判定装置20は、目的エリア音の存在する区間(以下、「目的エリア有音区間」とも呼ぶ)と目的エリア音の存在しない区間(以下、「目的エリア無音区間」とも呼ぶ)を判定して、その判定結果(つまり目的エリア音判定処理の判定結果)を出力する。
【0123】
判定装置20は、目的エリア音出力判定部14が目的エリア音出力判定部14Bに置き換わっている点で、第1及び第2の実施形態に係る収音装置10、10Aと異なっている。
【0124】
判定装置20は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。判定装置20は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の判定プログラムを含む)をインストールすることにより構成するようにしてもよい。例えば、判定装置20についても、上述の
図2に示すようなコンピュータ200に、実施形態に係る判定プログラムをインストールすることにより構成してもよい。
【0125】
図7は、目的エリア音出力判定部14Bの機能的構成について示したブロック図である。
【0126】
目的エリア音出力判定部14Bでは、目的エリア音出力部144が除外されている点で、第1及び第2の実施形態と異なっている。また、目的エリア音出力判定部14Bでは、目的エリア音閾値判定部141の判定結果がそのまま出力される構成となっている。なお、目的エリア音閾値判定部141は、閾値調整部143により調整済の閾値TAに基づいた判定結果のみを出力するようにしても良い。
【0127】
(C-2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の判定装置20の動作(実施形態に係る判定方法)について、が第1及び第2の実施形態との差異のみを説明する。
【0128】
上記の通り第3の実施形態の判定装置20では、目的エリア音出力判定部14Bのみが第1及び第2の実施形態と異なっているので、目的エリア音出力判定部14Bの動作についてのみ説明する。
【0129】
目的エリア音出力判定部14Bは、目的エリア音閾値判定部141で取得される目的エリア音判定処理の判定結果を出力データとして出力する。なお、目的エリア音閾値判定部141は、閾値調整部143により調整済の閾値TAに基づいた判定結果のみを出力するようにしても良い。目的エリア音出力判定部14Bの出力形式については限定されないものであり、種々の出力形式/手段を適用することができる。例えば、目的エリア音出力判定部14Bは、出力データ(0又は1の判定結果のデータ)をそのまま出力するようにしてもよいし、任意の電文の形式で出力するようにしてもよい。目的エリア音出力判定部14Bから出力される出力データは、例えば、任意の音声認識処理装置等に供給される。
【0130】
また、目的エリア音出力判定部14Bは、目的エリア音判定処理の判定結果と共に、判定結果を出力するタイミングを示す情報(以下、単に「タイミング情報」と呼ぶ)を出力してもよい。タイミング情報としては、例えば、目的エリア音出力判定部14Bが判定結果を出力するタイミングを示す情報(例えば、タイムスタンプ等の時刻情報)としてもよいし、目的エリア音判定処理に係る入力信号と同期したタイミングを示す情報(例えば、タイムスタンプ等の時刻情報)としてもよい。
【0131】
(C-3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
【0132】
第3の実施形態の判定装置20では、非目的エリア音のみが存在する場合、誤って目的エリア音が存在すると判定しにくくするために、目的エリア音用の閾値TAを上げておくことで、雑音や妨害音の誤検知を防ぐことができる。
【0133】
また、第3の実施形態の判定装置20では、目的エリア音のみが存在する区間で、誤って目的エリア音無音区間と判定されにくくするために、目的エリア音用の閾値TAを下げておくことで、無声子音などのパワーが小さい音声による誤判定(目的エリア音が存在する場合でも目的エリア無音区間と誤判定しまうこと)を防ぐことができる。
【0134】
以上のように、第3の実施形態の判定装置20では、雑音や妨害音の誤検知や、目的エリア音が存在する場合でも目的エリア無音区間と誤判定しまうことを低減することができる。
【0135】
(D)第4の実施形態
以下、本発明による判定装置、判定プログラム及び判定方法の一実施形態(第4の実施形態)を、図面を参照しながら詳述する。
【0136】
(D-1)第4の実施形態の構成
図8は、第4の実施形態に係る判定装置20Aの機能的構成について示したブロック図である。
【0137】
第4の実施形態の判定装置20Aは、目的エリア音判定処理の判定結果に、入力信号を付加して出力する点で第3の実施形態と異なっている。
【0138】
第4の実施形態の判定装置20Aでは、データ入力部11がデータ入力部11Aに置き換わっており、さらに、入力信号選択部15及び出力部16が追加されている点で第3の実施形態と異なっている。また、第4の実施形態では、目的エリア音出力判定部14Bから出力される判定結果が、出力部16に供給される構成となっている。
【0139】
(D-2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態の判定装置20Aの動作(実施形態に係る判定方法)について、第3の実施形態との差異のみを説明する。
【0140】
データ入力部11Aは、各マイクロホンアレイMA1、MA2の各マイクロホンM1、M2の入力信号(時間領域のデジタル信号)を、入力信号選択部15に供給する。
【0141】
入力信号選択部15は、データ入力部11Aから供給される入力信号に基づいた信号を取得し、出力部16に供給する処理を行う。例えば、入力信号選択部15は、いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号を選択(任意の入力信号を選択)して、出力部16に供給するようにしてもよい。また、入力信号選択部15は、いずれかのマイクロホンアレイ(任意のマイクロホン)を選択し、選択したマイクロホンアレイの2つのマイクロホンM1、M2の入力信号を混合した信号(例えば、2つの信号の平均値)を取得し、出力部16に供給してもよい。
【0142】
出力部16は、目的エリア音判定処理の判定結果に入力信号選択部15から供給された信号を付加して出力する。以下では、出力部16が、目的エリア音判定処理の判定結果に付加する信号を「出力信号」と呼ぶ。出力部16は、例えば、所定の区間ごと(例えば、フレームごとや所定期間ごと)に、目的エリア音判定処理の判定結果と、出力信号(入力信号選択部15から供給された信号)とを対応付けて(セットで)出力する。
【0143】
なお、出力部16は、目的エリア音判定処理の判定結果が「1」(目的エリア音有が存在する)だった場合にのみ目的エリア音判定処理の判定結果に出力信号を付加し、目的エリア音判定処理の判定結果が「0」(目的エリア音が存在しない)だった場合には目的エリア音判定処理の判定結果のみ出力したり、任意のダミーデータ(例えば、無音データ)を付加するようにしてもよい。
【0144】
(D-3)第4の実施形態の効果
第4の実施形態では、第3の実施形態の効果に加えて以下のような効果を奏することができる。
【0145】
第4の実施形態では、判定装置20Aが目的エリア音判定処理の判定結果に入力信号選択部15から供給された信号を付加したデータを出力データとして出力する。これにより、第4の実施形態では、出力データの供給を受けた音声認識処理装置において、目的エリア音判定処理の判定結果を利用して高精度な音声認識処理を行うこと(例えば、目的エリア音が存在する区間に対してのみ音声認識処理を行うこと)ができる。
【0146】
(E)第5の実施形態
以下、本発明による判定装置、判定プログラム及び判定方法の一実施形態(第5の実施形態)を、図面を参照しながら詳述する。
【0147】
(E-1)第5の実施形態の構成
図9は、第5の実施形態に係る判定装置20Aの機能的構成について示したブロック図である。
【0148】
第5の実施形態の判定装置20Aは、目的エリア音判定処理の判定結果に、目的エリア音の信号を付加して出力する点で第4の実施形態と異なっている。
【0149】
第5の実施形態の判定装置20Aでは、データ入力部11Aがデータ入力部11(第1及び第2の実施形態と同様の構成)に戻っており、さらに、入力信号選択部15が周波数・時間変換部17に置き換わっている点で第4の実施形態と異なっている。
【0150】
また、第5の実施形態では、目的エリア音取得部12で取得された目的エリア音が、周波数・時間変換部17に供給される点で、第4の実施形態と異なっている。
【0151】
(E-2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態の判定装置20Aの動作(実施形態に係る判定方法)について、が第4の実施形態との差異のみを説明する。
【0152】
目的エリア音取得部12は、取得した目的エリア音の信号(周波数領域の信号)を、周波数・時間変換部17に供給する。
【0153】
周波数・時間変換部17は、目的エリア音取得部12から供給された目的エリア音の信号(周波数領域の信号)を時間領域の信号に変換して出力部16に供給する。
【0154】
出力部16は、目的エリア音判定処理の判定結果に、周波数・時間変換部17から供給された目的エリア音の信号を出力信号として付加して出力する。なお、出力部16は、第4の実施形態と同様に、目的エリア音判定処理の判定結果が「1」(目的エリア音が存在する)だった場合にのみ目的エリア音判定処理の判定結果に出力信号を付加するようにしてもよい。
【0155】
(E-3)第5の実施形態の効果
第5の実施形態では、第3の実施形態の効果に加えて以下のような効果を奏することができる。
【0156】
第5の実施形態では、判定装置20Bが目的エリア音判定処理の判定結果に目的エリア音を付加したデータを出力データとして出力する。これにより、第5の実施形態では、第4の実施形態と同様に、出力データの供給を受けた音声認識処理装置において、目的エリア音判定処理の判定結果を利用して高精度な音声認識処理を行うこと(例えば、目的エリア音が存在する区間に対してのみ音声認識処理を行うこと)ができる。
【0157】
(F)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0158】
(F-1)上記の各実施形態において、目的エリア音閾値判定部141は、入力信号X1kと目的エリア音Z1kの比に関するその他の判定値を用いることで、目的エリア音判定処理を行うようにしてもよい。
【0159】
例えば、周波数ごとの入力信号X1kの合計値をSUM_X、周波数ごとの目的エリア音Z1kの合計値をSUM_Zとした場合、目的エリア音閾値判定部141において、SUM_Z/SUM_Xを判定値として用いるようにしてよい。
【0160】
また、目的エリア音閾値判定部141では、上記の(15)式のように、全ての周波数(成分)の振幅比の合計値ではなく、一部の周波数(成分)の振幅比について除外(例えば、所定以下及び又は所定以上の周波数の成分に関する振幅比を除外)した合計値を判定値として用いるようにしてもよい。
【0161】
(F-2)上記の各実施形態において、非目的エリア音閾値判定部142は、入力信号X1kと非目的エリア音V1kの比に関するその他の判定値を用いることで、目的エリア音判定処理を行うようにしてもよい。
【0162】
例えば、周波数ごとの入力信号X1kの合計値をSUM_X、周波数ごとの非目的エリア音V1kの合計値をSUM_Vとした場合、非目的エリア音閾値判定部142において、SUM_V/SUM_Xを判定値として用いるようにしてよい。
【0163】
また、非目的エリア音閾値判定部142では、上記の(17)式のように、全ての周波数(成分)の振幅比の合計値ではなく、一部の周波数(成分)の振幅比について除外(例えば、所定以下及び又は所定以上の周波数の成分に関する振幅比を除外)した合計値を判定値として用いるようにしてもよい。
【符号の説明】
【0164】
10、10A…収音装置、11…データ入力部、12…目的エリア音取得部、13…非目的エリア音取得部、14、14A、14B…目的エリア音出力判定部、15…入力信号選択部、16…出力部、17…周波数・時間返還部、121…雑音抑圧部、122…指向性形成部、123…遅延補正部、124…目的エリア音抽出部、125…空間座標データ保持部、126…補正係数算出部、141、141A…目的エリア音閾値判定部、142…非目的エリア音閾値判定部、143、143A…閾値調整部、144、144A…目的エリア音出力部、M、M1、M2…マイクロホン、MA、MA1、MA2…マイクロホンアレイ、20…判定装置、