IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2024-110015収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法
<>
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図1
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図2
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図3
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図4
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図5
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図6
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図7
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図8
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図9
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図10
  • 特開-収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110015
(43)【公開日】2024-08-15
(54)【発明の名称】収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240807BHJP
   H04R 1/40 20060101ALI20240807BHJP
【FI】
H04R3/00 320
H04R1/40 320A
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023006668
(22)【出願日】2023-01-19
(11)【特許番号】
(45)【特許公報発行日】2024-08-06
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究/革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発 課題オ 超臨場感コミュニケーションシステム」、産業技術力強化法第17条の適用を受ける特許出願)
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】原 宗大
【テーマコード(参考)】
5D018
5D220
【Fターム(参考)】
5D018BB22
5D220BA06
5D220BA11
5D220BB01
5D220BC05
(57)【要約】
【課題】 環境が変化する場合でも、エリア収音処理した結果に対する目的エリア音の有無を判定する処理を安定的に行う。
【解決手段】 本発明は、目的エリアを音源とする音を収音する収音装置に関する。そして、本発明の収音装置は、複数のマイクロホンアレイのビームフォーマ出力に基づいて目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、抽出音に基づく判定値と閾値との比較結果に基づいて目的エリア音有り状態又は目的エリア音無し状態を判定し、目的エリア音有り状態の区間の抽出音を出力し、目的エリア音有り状態と判定された区間の抽出音と目的エリア音無し状態の入力信号とに基づいてSNRの推定値を算出し、SNRの推定値に基づいて閾値を決定することを特徴とする。
【選択図】 図1
【特許請求の範囲】
【請求項1】
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力する出力手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
を有することを特徴とする収音装置。
【請求項2】
前記閾値調整手段は、前記SNRの推定値と前記閾値との対応関係が定義されたSNR対閾値定義データに基づいて、前記SNRの推定値から前記閾値を決定することを特徴とする請求項1に記載の収音装置。
【請求項3】
前記判定処理の判定結果が、前記目的エリア音有り状態から前記目的エリア音無し状態に切り替わった後、所定のハングオーバ期間を計時するハングオーバカウント手段と、
前記出力手段は、前記ハングオーバカウント手段が前記ハングオーバ期間を計時している間、前記判定処理の結果に関わらず前記抽出音を出力する
ことを特徴とする請求項2に記載の収音装置。
【請求項4】
前記閾値調整手段は、前記第1の信号に基づく特徴量を第1の期間分蓄積する第1のバッファと、前記第2の信号に基づく特徴量を第2の期間分蓄積する第2のバッファとを備え、前記第1のバッファに蓄積された特徴量に基づく第1の統計値と、前記第2のバッファに蓄積された特徴量に基づく第2の統計値に基づいて前記SNRの推定値を算出することを特徴とする請求項3に記載の収音装置。
【請求項5】
前記閾値調整手段は、前記ハングオーバカウント手段が前記ハングオーバ期間を計時している間、前記判定処理の結果に関わらず、前記第2の信号を前記第2のバッファに蓄積せずに、前記第1の信号を前記第1のバッファに蓄積することを特徴とする請求項4に記載の収音装置。
【請求項6】
前記閾値調整手段は、最新に算出した前記第1の平均値に第1の忘却係数であるαを乗じた値と前回算出した前記第1の平均値に(1-α)を乗じた値とを加算した第1の更新値と、最新に算出した前記第2の平均値に第2の忘却係数であるβを乗じた値と前回算出した前記第2の平均値に(1-β)を乗じた値とを加算した第2の更新値とを取得し、前記第1の更新値と前記第2の更新値に基づいて前記SNRの推定値を算出することを特徴とする請求項4に記載の収音装置。
【請求項7】
コンピュータを、
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力する出力手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
して機能させることを特徴とする収音プログラム。
【請求項8】
収音装置が行う収音方法において、
前記収音装置は、指向性形成手段、目的エリア音取得手段、判定手段、出力手段及び閾値調整手段を備え、
前記指向性形成手段は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得し、
前記目的エリア音取得手段は、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、
前記判定手段は、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行い、
前記出力手段は、前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力し、
前記閾値調整手段は、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する
ことを特徴とする収音方法。
【請求項9】
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
を有することを特徴とする判定装置。
【請求項10】
コンピュータを、
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
して機能させることを特徴とする判定プログラム。
【請求項11】
判定装置が行う判定方法において、
前記判定装置は、指向性形成手段、目的エリア音取得手段、判定手段及び閾値調整手段を備え、
前記指向性形成手段は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得し、
前記目的エリア音取得手段は、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、
前記判定手段は、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行い、
前記閾値調整手段は、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する
ことを特徴とする判定方法。


【発明の詳細な説明】
【技術分野】
【0001】
この発明は、収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法に関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。
【背景技術】
【0002】
雑音下での音声認識では、雑音の影響により音声認識の精度が下がるため、発話していない雑音区間を除外し、利用者の発話のみを切り出す音声区間検出には、高い精度が要求される。従来、音声区間検出を行う方式として、音声と雑音のパワー比に基づき区別する方式や、スペクトルの形状のような音声らしさに基づき区別する方式などが多数紹介されている。一方で、複数のマイクロホンアレイのビームフォーマ出力に基づく目的方向信号を取得し、取得した目的方向信号をもう一方の目的方向信号からスペクトル減算処理することで非目的エリア音を抽出し、目的方向信号から非目的エリア音をスペクトル減算することで目的エリア音を抽出し、入力信号に目的エリア音が含まれるか否かによって、音声区間検出する方式として、特許文献1、2のような方式も提案されている。特許文献1、2では、区間検出を行うために、雑音環境に応じた閾値の調整が必要であり、その閾値の調整の手間を省く方式として、特許文献3のような方式も提案されている。特許文献3では、騒音計を用いずに背景雑音を取得する方法が提案されており、マイクへの入力音のみから閾値を調整することが可能となっている。
【0003】
特許文献1では、背景雑音が強い環境下でエリアにある音を抽出する処理を行うと、ミュージカルノイズが残留してしまい、特に、エリアに音がない区間では、顕著に耳障りになるという課題について記載されている。それに対して、特許文献1に記載された方式では、入力信号に目的エリア音が含まれるか否かを、入力信号と目的エリア音のパワー比と閾値との関係から判定して、目的エリア音が無い場合は処理結果を出力しない構成となっている。
【0004】
一方で、特許文献1に記載の方式では、背景雑音が強い環境でのミュージカルノイズへ対処できたが、SNRが悪いことに変わりはない。そのため、特許文献2では、目的音が雑音に埋もれてしまい、特に無声子音のようにもともとパワーが小さくなる場合には検出できないという課題について記載されている。それに対して、特許文献2では、特許文献1に記載の方式で音が無いと判定された場合であっても、エリアの音を周波数成分ごと、若しくは、周波数帯域ごとに再判定する構成としている。
【0005】
特許文献3では、閾値を調整するために、装置を設置する現場に人が赴いて、騒音計を用いて背景雑音を計測し、入力音声との差分を算出するという、一連の工程に対する課題について記載されている。具体的には、特許文献3では、騒音計を扱える専門知識が必要であることや、設置する環境が変わるごとに有識者が現場に赴く必要があり手間がかかることについて記載されている。これらの課題に対して、特許文献3の方式では、騒音計を用いずに、収音装置を設置する現場の背景雑音の音量を算出する構成となっている。具体的には、特許文献3に記載の方式では、あらかじめ、騒音計で測定した測定値と、マイクロホンを用いて測定した音量の測定値の相関関係データ表を作成しておくことで、マイクロホンで測定した音量の測定値から相関関係データ表を参照して、騒音計の音圧レベルを推定する構成となっている。
【0006】
ここで、特許文献2に記載されたエリア収音処理について説明する。
【0007】
複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する音の時間差を利用して指向性を形成する技術である(非特許文献1参照)。
【0008】
従来、BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0009】
図9は、マイクロホンMの数が2個の場合の減算型BF200に係る構成を示すブロック図である。
【0010】
図10は、2個のマイクロホンM1、M2を用いた減算型BF200により形成される指向性フィルタの例について示した説明図である。
【0011】
減算型BF200は、まず遅延器210により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンM1、M2に到来する音の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。
【0012】
ここで、dはマイクロホンM1、M2間の距離、cは音速、τは遅延量である。またθは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。
【0013】
また、ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器210は、マイクロホンM1の入力信号x(t)(時間領域の入力信号)に対し遅延処理を行う。その後、減算型BF200では、減算器220が、以下の(2)式に従い処理(減算処理)を行う。減算器220の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)のように変更される。ここで、マイクロホンM1、M2の周波数領域の入力信号はそれぞれX(t)、X(t)である。
【0014】
【数1】
【0015】
ここでθ=±π/2の場合、減算型BF200により形成される指向性は図10(a)に示すように、カージオイド型の単一指向性となる。また、「θ=0,π」の場合、減算型BF200により形成される指向性は、図10(b)のような8の字型の双指向性となる。
【0016】
以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
【0017】
また、減算器220では、スペクトル減算法(Spectral Subtr action;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。
【0018】
以下の(4)式では、マイクロホンM1の入力信号Xを用いているが、マイクロホンM2の入力信号Xでも同様の効果を得ることができる。ここでβは、SSの強度を調節するための係数である。また、減算器220では、減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF200の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
【0019】
Y(n)=X(n)-βM(n) …(4)
【0020】
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。
【0021】
そこで、特許文献2では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けて指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。
【0022】
図11は、2つのマイクロホンアレイMA1、MA2を用いて目的エリアを音源とする目的エリア音をエリア収音処理する例について示した図である。
【0023】
例えば、図11に示すように、2つのマイクロホンアレイMA1、MA2(マイクロホンM1、M2を備える2chマイクロホンアレイ)を使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、Y1k(n)は第1のマイクロホンアレイMA1のBF出力の振幅スペクトルであり、Y2k(n)は第2のマイクロホンアレイMA2のBF出力の振幅スペクトルであり、Nは周波数ビンの総数であり、kは周波数である。また、ここで、α(n)、α(n)は各マイクロホンアレイのBF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値を表し、medeianは中央値を表している。
【0024】
【数2】
【0025】
以上の処理により、減算器220は、補正係数α(n)、α(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器220は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
【0026】
減算型BF200は、第1のマイクロホンアレイMA1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する際、例えば、(9)式に示すように、第1のマイクロホンアレイMA1のBF出力Y(n)から第2のマイクロホンアレイのBF出力Y(n)に振幅スペクトル補正係数αを掛けたものをSSする。減算型BF200は、同様に、以下の(10)式に従い、第2のマイクロホンアレイMA2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。
【0027】
その後、減算型BF200は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイMA1を基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイMA2を基準として目的エリア音を抽出する場合の処理を示している。ここでγ(n)、γ(n)は、SS時の強度を変更するための係数である。
【0028】
(n)=Y(n)-α(n)Y(n) …(9)
(n)=Y(n)-α(n)Y(n) …(10)
(n)=Y(n)-γ(n)N(n) …(11)
(n)=Y(n)-γ(n)N(n) …(12)
【0029】
背景雑音が強い場合、目的エリア音Z(n)、Z(n)には消しきれなかった雑音が残り、ミュージカルノイズなどの耳障りな異音が発生することがある。そこで、マイクロホンアレイの入力信号と抽出した目的エリア音とを比較して目的エリア音の有無を判定して、目的エリア音が存在しない場合には、無音もしくは小さな音を出力するようにする。具体的には、(13)、(14)式によって周波数ごとの振幅比の和Rを計算する。そして、Rが判定閾値以上であれば目的エリア音有りと判定し、Rが該閾値未満であれば、(13)式の周波数ごとの振幅比Rと判定閾値とを比較して、Rが判定閾値以上であれば目的エリア音有りと判定し、Rが該閾値未満であれば、目的エリア音は存在しないと判定する。なお、目的エリア音の有無の判定は、目的エリア音有りと判定した場合、その後の数秒間は、判定結果に関わらず、目的エリア音有りと判定する処理(ハングオーバー機能に対応する処理)を追加するようにしてもよい。ここで、X1kは、マイクロホンアレイMA1の入力信号X(第1のマイクロホンM1の入力信号)における周波数kの振幅スペクトルであり、Z1kは目的エリア音における周波数kの振幅スペクトルである。また、ここで、mは処理対象の周波数の下限、nは周波数の上限である。さらに、ここで、周波数ごとの振幅比の和Rは、振幅比Rの周波数k=m,・・・,nまでの和である。
【0030】
【数3】
【0031】
以上のように、特許文献2に記載の方式では、複数のマイクロホンアレイのビームフォーマによって目的エリア方向への指向性を形成し、すべてのビームフォーマ出力に含まれる目的エリア音のパワーが等しくなるようにパワーを補正し、それぞれのビームフォーマ出力をスペクトル減算することで非目的エリア音を抽出している。そして、特許文献2に記載の方式では、各ビームフォーマ出力から非目的エリア音をスペクトル減算することで、目的エリア音を抽出し、入力音に含まれる目的エリア音の大きさの関係から、全周波数成分と各周波数成分で出力の有無の判定を行っている。そして、特許文献2に記載の方式では、目的エリア音が存在する判定の場合、目的エリア音を出力して、目的エリア音が存在しない判定の場合、無音もしくは小さな音を出力する。
【先行技術文献】
【特許文献】
【0032】
【特許文献1】特開2016-127457号公報
【特許文献2】特開2018-164156号公報
【特許文献3】特開2021-128180号公報
【発明の概要】
【発明が解決しようとする課題】
【0033】
しかしながら、特許文献1、2の方式において、環境変化に応じて閾値を調整しないと、判定精度が落ちる。また、特許文献3に記載の方式において、マイクで測定した音量を用いて音圧レベルを決定することができるが、自動で又はリアルタイムに閾値を調整することができない。そのため、特許文献1~3に記載の方式では、環境が変化するたびに現場に行き閾値を手動で調整する手間がかかるという課題があった。
【0034】
以上のような問題に鑑みて、環境が変化する場合でも、エリア収音処理した結果に対する目的エリア音の有無を判定する処理を安定的に行うことができる収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法が望まれている。
【課題を解決するための手段】
【0035】
第1の本発明の収音装置は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力する出力手段と、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段とを有することを特徴とする。
【0036】
第2の本発明の収音プログラムは、コンピュータを、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力する出力手段と、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段として機能させることを特徴とする。
【0037】
第3の本発明は、収音装置が行う収音方法において、前記収音装置は、指向性形成手段、目的エリア音取得手段、判定手段、出力手段及び閾値調整手段を備え、前記指向性形成手段は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得し、前記目的エリア音取得手段は、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、前記判定手段は、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行い、前記出力手段は、前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力し、前記閾値調整手段は、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定することを特徴とする。
【0038】
第4の本発明の判定装置は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段とを有することを特徴とする。
【0039】
第5の本発明の判定プログラムは、コンピュータを、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段として機能させることを特徴とする。
【0040】
第6の本発明は、判定装置が行う判定方法において、前記判定装置は、指向性形成手段、目的エリア音取得手段、判定手段及び閾値調整手段を備え、前記指向性形成手段は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得し、前記目的エリア音取得手段は、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、前記判定手段は、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行い、前記閾値調整手段は、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定することを特徴とする。
【発明の効果】
【0041】
本発明によれば、環境が変化する場合でも、エリア収音処理した結果に対する目的エリア音の有無を判定する処理を安定的に行うことができる。
【図面の簡単な説明】
【0042】
図1】第1の実施形態に係る収音装置の機能的構成を示すブロック図である。
図2】第1の実施形態に係る目的エリア音取得部内部の機能的構成を示すブロック図である。
図3】第1の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。
図4】第1の実施形態に係る閾値調整部15で保持されるバッファの構成例について示した図である。
図5】第1の実施形態に係るSNR対判定閾値定義データの構成例について示した図である。
図6】第2の実施形態に係る収音装置の機能的構成を示すブロック図である。
図7】第3の実施形態に係る判定装置の機能的構成を示すブロック図である。
図8】第4の実施形態に係る判定装置の機能的構成を示すブロック図である。
図9】従来のマイクロホンMの数が2個の場合の減算型ビームフォーマBFに係る構成を示すブロック図である。
図10】従来の2個のマイクロホンを用いた減算型ビームフォーマにより形成される指向性フィルタの例について示した説明図である。
図11】従来の2つのマイクロホンアレイを用いて目的エリアを音源とする目的エリア音をエリア収音処理する例について示した図である。
【発明を実施するための形態】
【0043】
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第1の実施形態を、図面を参照しながら詳述する。
【0044】
(A-1)第1の実施形態の構成
図1は、この実施形態の収音装置10の機能的構成について示したブロック図である。
【0045】
収音装置10は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアを音源とする目的エリア音を収音するエリア収音処理を行う装置である。
【0046】
マイクロホンアレイMA1、MA2は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイを配置する必要がある。
【0047】
次に、収音装置10の内部構成について説明する。
【0048】
図1に示すように、収音装置10は、データ入力部11、目的エリア音取得部12、目的エリア音有無判定部13、出力判定部14、閾値調整部15、SNR対判定閾値定義データ記憶部16、及びハングオーバカウント部17を有している。収音装置10の各構成の詳細処理については後述する。
【0049】
図2は、目的エリア音取得部12の内部構成について示したブロック図である。
【0050】
図2に示すように、目的エリア音取得部12は、雑音抑圧部121、指向性形成部122、遅延補正部123、目的エリア音抽出部124、空間座標データ記憶部125及び補正係数導出部126を有している。目的エリア音取得部12の各構成の詳細処理については後述する。
【0051】
次に、図3を用いて、収音装置10のハードウェア構成について説明する。
【0052】
図3は、収音装置10のハードウェア構成の例について示したブロック図である。
【0053】
収音装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0054】
図3では、収音装置10を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
【0055】
図3に示す収音装置10は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ300を有している。また、コンピュータ300は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
【0056】
図3に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303を有している。一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。
【0057】
なお、コンピュータ300の具体的な構成は図3の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部303については除外した構成としてもよい。
【0058】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置10の動作(実施形態に係る収音方法)を説明する。
【0059】
データ入力部11は、各マイクロホンアレイ(MA1、MA2)で収音した音響信号をアナログ信号からデジタル信号(時間領域のデジタル信号)に変換し、さらに当該デジタル信号を周波数領域の信号に変換(例えば、高速フーリエ変換等により変換)し、入力信号として取得する。この実施形態では、各マイクロホンアレイ(MA1、MA2)において、マイクロホンM1、M2の入力信号(周波数領域の入力信号)を、それぞれX、Xとする。また、以下では、kは周波数であり、m~nの間で変化(k=m,・・・,n;mが最低周波数でありnが最高周波数である)するものとする。
【0060】
目的エリア音取得部12は、各マイクロホンアレイ(MA1、MA2)のビームフォーマ出力に基づいて、目的エリアを音源とする音を抽出して取得する。以下では、目的エリア音取得部12が取得(抽出)する音を「目的エリア音抽出音」とも呼ぶものとする。
【0061】
この実施形態において、目的エリア音取得部12による目的エリア音の取得は、例えば、図2に示す構成により実現されるものとして説明するが、その他の方式を用いて目的エリア音の取得を行う構成を適用するようにしてもよい。
【0062】
次に、図2に示す目的エリア音取得部12の各構成要素の動作について説明する。
【0063】
雑音抑圧部121は、データ入力部11から取得した音に含まれる背景雑音の成分を推定し、抑圧する。雑音抑圧部121による雑音抑圧には、例えば、SSやウィーナーフィルタリング法(Wiener Filltering)などを用いることができる。
【0064】
指向性形成部122は、マイクロホンアレイ毎に雑音抑圧部121により背景雑音を抑圧した信号に対し、(4)式に従いBFにより目的エリア方向に指向性を形成する。
【0065】
空間座標データ記憶部125は、全ての目的エリアと各マイクロホンアレイ(MA1、MA2)を構成する各マイクロホン(M1、M2)の位置情報(以下、「空間座標データ」と呼ぶ)を保持している。空間座標データ記憶部125が各マイクロホンアレイを構成する各マイクロホンの位置情報を保持する方法や、空間座標データ記憶部125が保持する位置情報の具体的な形式は限定されないものであり、種々のデータ形式を適用することができる。
【0066】
遅延補正部123は、目的エリアと各マイクロホンアレイ(MA1、MA2)の距離の違いにより発生する遅延を算出し、補正する。遅延補正部123は、まず空間座標データ記憶部125で保持されている空間座標データから、目的エリアの位置と各マイクロホンアレイ(MA1、MA2)の位置を取得し、各マイクロホンアレイヘの目的エリア音の到達時間の差を算出する。次に、遅延補正部123は、最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。
【0067】
補正係数導出部126は、各マイクロホンアレイのBF出力に含まれる目的エリア音成分の振幅スペクトルを同じ(同レベル)にするための補正係数を(5)、(6)式または(7)、(8)式に従い算出する。
【0068】
目的エリア音抽出部124は、補正係数導出部126で算出した補正係数により補正した各BF出力データを(9)式、もしくは(10)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部124は、抽出した雑音を各BFの出力から(11)式、もしくは(12)式に従いSSすることにより目的エリア音を抽出して目的エリア音抽出音Z(Z又はZ)を取得する。
【0069】
ここでは、(11)式は、マイクロホンアレイMA1を基準として、目的エリア音を抽出する場合の処理を示しており、(12)式は、マイクロホンアレイMA2を基準として目的エリア音を抽出する場合の処理を示しているものとする。上記の通り、目的エリア音抽出部124では、(11)式もしくは(12)式のいずれを用いてもよいが、ここでは、マイクロホンアレイMA1を基準とした(11)式を用いて目的エリア音抽出音Zを取得する例について説明する。
【0070】
次に、目的エリア音有無判定部13の動作の詳細について説明する。
【0071】
目的エリア音有無判定部13は、目的エリア音取得部12から取得した目的エリア音抽出音に基づく判定値(以下、「目的エリア音判定値R」と呼ぶ)と、閾値調整部15から取得した閾値(以下、「判定閾値」と呼ぶ)の比較結果に基づき、目的エリア音の有無判定を行う。
【0072】
ここで、目的エリア音判定値について具体的に示す。
【0073】
目的エリア音有無判定部13は、まず、周波数ごとに、データ入力部11から取得した入力信号X1kと、目的エリア音取得部12から取得した目的エリア音Z1kを用いて、周波数ごとの振幅比Rを算出する。目的エリア音有無判定部13は、具体的には、(13)式に基づき周波数毎の振幅比Rを算出する。
【0074】
なお、ここで、目的エリア音判定値Rは、振幅比Rの周波数k=m,・・・,nまでの和である。目的エリア音有無判定部13は、具体的には、(14)式に基づき周波数毎の振幅比の和を目的エリア音判定値Rとして算出する。
【0075】
【数4】
【0076】
次に、目的エリア音有無判定部13は、目的エリア音判定値Rを、閾値調整部15から取得した判定閾値と比較することで、目的エリア音抽出音に目的エリア音(目的音)が存在するか否かを判定する処理(以下、「目的エリア音有無判定処理」と呼ぶ)を行う。例えば、目的エリア音有無判定部13は、目的エリア音判定値Rが判定閾値より大きい場合に目的エリア音有りと判定し、そうでない場合(目的エリア音判定値Rが判定閾値以下の場合)に目的エリア音無しと判定するようにしてもよい。目的エリア音有無判定部13は、目的エリア音有無判定処理の結果として、「目的エリア音有り」又は「目的エリア音無し」のいずれかを示す信号(例えば、「1」又は「0」の2値)を出力する。
【0077】
次に、出力判定部14の動作の詳細について説明する。
【0078】
出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音有りの間目的エリア音抽出音を出力音として出力し、目的エリア音有無判定部13の判定結果が目的エリア音無しの判定結果だった場合目的エリア音抽出音を出力音として出力しない。出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音無しだった場合は、出力音として何も出力しない処理としてもよいし、所定のダミー音(例えば、予め保持した無音や所定の小さい音)を出力音として出力するようにしてもよい。
【0079】
ただし、出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音有りだった場合、その後所定期間(以下、この期間を「ハングオーバ期間」と呼ぶ)の間、目的エリア音有無判定部13の判定結果に関わらず、目的エリア音抽出音を出力音として出力する処理(以下、「ハングオーバ処理」と呼ぶ)を行うものとする。つまり、出力判定部14は、ハングオーバ期間の間は、目的エリア音有無判定部13の判定結果が目的エリア音有りであった場合と同じ動作(目的エリア音抽出音を出力音として出力する処理)を行う。
【0080】
出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音有りだった場合、ハングオーバカウント部17を用いてハングオーバ期間を計時する。
【0081】
ハングオーバカウント部17は、目的エリア音有無判定部13の判定結果に応じてハングオーバ期間を計時する。ハングオーバカウント部17では、ハングオーバ期間をカウント(計時)するためのカウンタを備えており、ここでは当該カウンタのカウンタ値を「c」とする。なおここでは、カウンタ値cは、0未満(マイナスの値)の値を取り得るものとする。カウンタ値cの最大値(以下、「最大カウント値C」と呼ぶ)については、収音装置10を使用する環境に応じて好適な値を適用することが望ましい。例えば、話者(人間)が発話する際の音と音の間隔や、語尾切れを考慮すると、最大カウント値Cは、1~2秒に相当する値となるように設定することが好ましい。例えば、入力信号のサンプリング間隔が1/100秒だった場合、2秒に相当する最大カウント値Cは200となる。例えば、ハングオーバカウント部17は、目的エリア音有無判定部13の判定結果が目的エリア音有りだった場合、カウンタ値cを最大カウント値Cに設定(c=C)し、目的エリア音有無判定部13の判定結果が目的エリア音無しだった場合カウンタ値cを1減算(デクリメント;c=c-1)するようにしてもよい。
【0082】
出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音有りだった場合、出力音として目的エリア音抽出音を出力する。また、出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音無しだった場合、ハングオーバカウント部17のカウント値cが0以上(c≧0)であれば、出力音として目的エリア音抽出音を出力する。さらに、出力判定部14は、目的エリア音有無判定部13の判定結果が目的エリア音無しだった場合、ハングオーバカウント部17からのハングオーバのカウント値cが0より小さければ(c<0)、上記のダミー音を出力する。なお、この実施形態の例では、ハングオーバ処理を行うためにハングオーバカウント部17の結果を判断基準に入れているが、ハングオーバ処理を行わない場合は、目的エリア音有無判定部13から目的エリア音が存在しないという結果が得られた場合、上記のダミー音を出力するようにしてもよい。
【0083】
次に、閾値調整部15の動作の詳細について説明する。
【0084】
閾値調整部15は、判定閾値を算出する処理(以下、「判定閾値算出処理」と呼ぶ)を行って取得した判定閾値を出力する処理を行う。また、この実施形態では、閾値調整部15は、SNR対判定閾値定義データ記憶部16に格納されたデータ(詳細については後述)を利用して判定閾値算出処理を行うものとする。
【0085】
閾値調整部15は、目的エリア音(目的音)に基づく特徴量を保持するための音声バッファ151と、目的音以外の雑音に基づく特徴量を格納するための雑音バッファ152を備え、これらのバッファで保持された特徴量を判定閾値算出処理に用いる。この実施形態では、音声バッファ151には、目的エリア音有無判定部13で目的エリア音有りと判定された区間(以下、「目的エリア音有り区間」と呼ぶ)の目的エリア音抽出音に基づく特徴量が格納されるものとする。また、この実施形態では、雑音バッファ152には、目的エリア音有無判定部13で目的エリア音無しと判定された区間(以下、「目的エリア音無し区間」と呼ぶ)の入力信号(いずれかのマイクロホンの入力信号)に基づく特徴量が格納されるものとする。
【0086】
図4は、音声バッファ151と雑音バッファ152の構成について示した図である。
【0087】
図4に示すように、音声バッファ151は、目的エリア音有り区間の目的エリア音抽出音を構成する1フレーム分のデータ(当該フレームの周波数ビンごとの成分の値)に基づく特徴量を格納するためのデータ格納部D1がP個リング状(循環的)に連結された構成となっている。図4では、音声バッファ151は、P個のデータ格納部D1(D1-1~D1-P)を有している。また、図4に示すように、雑音バッファ152は、目的エリア音無し区間の入力信号を構成する1フレーム分のデータ(当該フレームの周波数ビンごとの成分の値)に基づく特徴量を格納するためのデータ格納部D2がQ個リング状(循環的)連結された構成となっている。図4では、雑音バッファ152は、Q個のデータ格納部D2(D2-1~D2-Q)を有している。つまり、音声バッファ151、雑音バッファ152は、それぞれバッファ長P、Qとするリングバッファ(循環バッファ)の構造なっている。例えば、音声バッファ151では、時系列順にデータ格納部D1-1、D1-2、・・・、D1-P、D1―1、・・・の順に特徴量が格納される。雑音バッファ152でも同様に、時系列順にデータ格納部D2-1、D2-2、・・・、D2-Q、D2―1、・・・の順に特徴量が格納される。
【0088】
以下では、音声バッファ151においてデータ格納部D1-1~D1-Pのそれぞれのフレーム(位置)を識別する番号(ID)を1~Pとし、任意の時点の特徴量が格納される際のフレーム(位置)を識別する変数を「p」と表すものとする。また、以下では、雑音バッファ152において、データ格納部D2-1~D2-Qのそれぞれのフレーム(位置)を識別する番号(ID)を1~Qとし、任意の時点の特徴量が格納される際のフレーム(位置)を識別する変数を「q」と表すものとする。つまり、pは、1を初期値とし、以後2、3、・・・、P、1、2、・・・の順にインクリメントされる変数であるものとする。また、qは、1を初期値とし、以後2、3、・・・、Q、1、2、・・・の順にインクリメントされる変数であるものとする。なお、PとQは同じ値でなくてもよい。
【0089】
この実施形態では、音声バッファ151にはマイクロホンアレイMA1を基準として算出された目的エリア音抽出音Zの特徴量(目的エリア音有り区間の特徴量)が保持され、雑音バッファ152には基準となったマイクロホンアレイMA1のマイクロホンアレイM1の入力信号Xの特徴量(目的エリア音無し区間の特徴量)が保持されるものとして説明する。なお、雑音バッファ152には、マイクロホンアレイMA1のマイクロホンアレイM2からの入力信号Xに基づく特徴量を保持するようにしてもよい。また、音声バッファ151にはマイクロホンアレイMA2を基準として算出された目的エリア音抽出音Zの特徴量を保持させ、雑音バッファ152にマイクロホンアレイMA2のいずれかのマイクロホンの入力信号(X又はX)の特徴量を保持させるようにしてもよい。
【0090】
この実施形態では、閾値調整部15は、目的エリア音有り区間の目的エリア音抽出音を構成する各フレームのデータの特徴量として、全ての周波数成分の値の和(以下、「全成分和」と呼ぶ)を算出して音声バッファ151に格納するものとする。また、閾値調整部15は、目的エリア音無し区間の入力信号を構成する各フレームのデータの特徴量として、全成分和を算出して雑音バッファ152に格納するものとする。
【0091】
ここで、目的エリア音抽出音Zを構成する任意のフレームの周波数kの成分の値をZ1kとし、音声バッファ151におけるpフレーム目(データ格納部D1-p)に格納された目的エリア音抽出音Zの全成分和(特徴量)をZonとする。Zonは、Z1kの周波数k=m,・・・,nまでの和であり、以下の(15)式に基づき求めることができる。
【0092】
また、ここで、入力信号Xを構成する周波数kの成分の値をX1kとし、雑音バッファ152におけるqフレーム目(データ格納部D2-q)に格納された入力信号Xの全成分和(特徴量)をXoffとする。Xoffは、X1kの周波数k=m,・・・,nまでの和であり、以下の(16)式に基づき求めることができる。
【0093】
【数5】
【0094】
閾値調整部15は、変数p,qを用いて各バッファ上で特徴量(全成分和)を格納する位置を管理する。つまり、閾値調整部15は、目的エリア音有り区間となると、1フレーム分の目的エリア音抽出音Zに基づいて特徴量Zonを求めて、音声バッファ151のp番目のデータ格納部D1-pに格納し、pをインクリメント(p=p+1)する。また、閾値調整部15は、目的エリア音無し区間となると、1フレーム分の入力信号Xに基づいて特徴量Xoffを求めて、雑音バッファ152のq番目のデータ格納部D2-qに格納し、qをインクリメント(q=q+1)する。なお、閾値調整部15は、p=Pもしくはq=Qとなった場合、次のフレームの格納場所をp=1、またはq=1とするため、p=Pの次はp=1、q=Qの次はq=1として、各バッファの値を更新し続ける。
【0095】
そして、閾値調整部15は、所定のタイミング(以下、「判定閾値決定タイミング」と呼ぶ)となると、音声バッファ151及び雑音バッファ152に格納された特徴量に基づいてSNR(Signal-to-Noise Ratio;信号対雑音比)を推定した値(以下、単に「SNR」と呼ぶ)を算出し、算出したSNRに基づいて判定閾値の決定を行う。例えば、閾値調整部15は、p=Pもしくはq=Qとなったタイミングを判定閾値決定タイミングとしてもよい。
【0096】
なお、具体的なPやQの値は、収音装置10を使用する環境に依存するが、適切な値を決定するには、環境変化が起こる速度や、設定した閾値における収音処理の即応性や、バッファの容量を考慮に入れて、約120秒に相当する値を設定するようにしてもよい。
【0097】
例えば、閾値調整部15は、判定閾値決定タイミングとなると、音声バッファ151の各フレーム(データ格納部D1-1~D1-P)の特徴量の統計値Zon(この例では平均値)と、雑音バッファ152の各フレーム(データ格納部D2-1~D2-Q)の特徴量の統計値Xoff(この例では平均値)とを、それぞれ(17)式、(18)式に基づき算出するようにしてもよい。
【0098】
なお、上記の例では、ZonとXoffついては、特徴量の統計値として平均値を用いているが、特徴量のピーク値(最大値)や特徴量の中央値を適用するようにしてもよい。例えば、Zonに音声バッファ151の各フレーム(データ格納部D1-1~D1-P)のピーク値(最大値)を適用し、Xoffに雑音バッファ152の各フレーム(データ格納部D2-1~D2-Q)の特徴量の最大値を適用するようにしてもよい。また、例えば、Zonに音声バッファ151の各フレーム(データ格納部D1-1~D1-P)の中央値を適用し、Xoffに雑音バッファ152の各フレーム(データ格納部D2-1~D2-Q)の特徴量の中央値を適用するようにしてもよい。
【0099】
【数6】
【0100】
次に、閾値調整部15は、ZonとXoffを用いて、SNRを算出(SNRを推定)する。閾値調整部15は、例えば、以下の(19)式に基づき、SNR(SNRの推定値)を算出するようにしてもよい。
【0101】
【数7】
【0102】
そして、閾値調整部15は、算出したSNRに基づいて判定閾値を決定し、目的エリア音有無判定部13に設定する。閾値調整部15は、例えば、SNRと判定閾値の対応関係を定義したデータ(以下、「SNR対判定閾値定義データ」と呼ぶ)に基づいて、SNRから判定閾値を求めるようにしてもよい。この実施形態では、SNR対判定閾値定義データは、SNR対判定閾値定義データ記憶部16に格納されている。なお、閾値調整部15において、SNR対判定閾値定義データを用いずにSNRを算出により求める場合は、収音装置10からSNR対判定閾値定義データ記憶部16を除外した構成としてもよい。例えば、閾値調整部15は、SNRに基づく所定の算出処理(例えば、SNRに所定の係数を乗じて判定閾値を算出する処理や、SNRを入力変数として判定閾値を求めることができる所定の関数を用いた処理)により判定閾値を求めるようにしてもよい。
【0103】
図5は、SNR対判定閾値定義データの構成例について表形式で示した図である。
【0104】
図5に示すSNR対判定閾値定義データは、SNRの範囲ごとに対応する判定閾値の値を設定した構造となっている。図5では、SNRが-10未満の場合(SNR<-10)の判定閾値を2、SNRが-10以上0未満の場合(-10≦SNR<0)の判定閾値を4、SNRが0以上5未満の場合(0≦SNR<5)の判定閾値を5、SNRが5以上10未満の場合(5≦SNR<10)の判定閾値を6、SNRが10以上15未満の場合(10≦SNR<15)の判定閾値を7、SNRが15以上20未満の場合(15≦SNR<20)の判定閾値を9、SNRが20以上の場合(20≦SNR)の場合の判定閾値を10としている。
【0105】
SNR対判定閾値定義データに設定する「範囲」や「範囲と判定閾値の組み合わせの数」は限定されないものであり種々の構成を適用することができる。
【0106】
SNR対判定閾値定義データ記憶部16に設定するSNR対判定閾値定義データについては、予め設定されたデータとしてもよいし、ユーザ/オペレータにより任意の範囲と値に設定可能とする構成としてもよい。
【0107】
(A-3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0108】
この実施形態の収音装置10では、SNRを逐次推定することで、推定したSNRに対応する判定閾値が環境の変化に応じて自動で設定されるので、環境が変化するたびに閾値を手動で設定する手間を省くことができる。これにより、第1の実施形態の収音装置10では、環境変化に応じた閾値の調整の手間を減らすことで利便性を向上させることができる。
【0109】
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を、図面を参照しながら詳述する。
【0110】
(B-1)第2の実施形態の構成
図6は、第2の実施形態の収音装置10Aの機能的構成について示したブロック図である。
【0111】
以下では、第2の実施形態の収音装置10Aについて第1の実施形態との差異を説明する。
【0112】
図6に示すように、第2の実施形態の収音装置10Aでは、閾値調整部15が閾値調整部15Aに置き換わっている点で第1の実施形態と異なっている。また、第2の実施形態の収音装置10Aでは、ハングオーバカウント部17から閾値調整部15にもカウンタ値c(計時中のハングオーバ時間)が供給される点で第1の実施形態と異なっている。
【0113】
第1の実施形態の閾値調整部15では、ハングオーバ処理前の目的エリア音有り区間と目的エリア音無し区間の信号に基づき、SNRを推定していた。ここで、ハングオーバ処理は、無音区間(目的エリア音有り区間)で分断されている目的エリア音有り区間を繋ぐことで、収音結果(出力音)における音声の途切れや語尾の途切れを改善している。そのため、ハングオーバ処理前で目的エリア音無し区間の入力信号や目的エリア音抽出信号には、音声の途切れや語尾の途切れが含まれることがある。つまり、目的エリア音有無判定部13で目的エリア音無し区間(雑音バッファ152に保持する特徴量の元になる入力信号)に、発話音声の語尾などが入ってしまう可能性があった。
【0114】
そこで、第2の実施形態の閾値調整部15Aは、ハングオーバ処理後の判定結果、つまり、ハングオーバカウント部17のハングオーバ期間のカウントを加味して、閾値調整部15で閾値を調整する。具体的には、第2の実施形態の閾値調整部15Aは、目的エリア音有無判定部13の判定結果が目的エリア音有りから目的エリア音無しに切り替わった後のハングオーバ期間の間は、目的エリア音有無判定部13の判定結果に関わらず目的エリア音有り区間と同様の動作(目的エリア音抽出音に基づく特徴量を音声バッファ151に格納する処理)を継続する。言い換えると、第2の実施形態の閾値調整部15Aは、ハングオーバ期間の間のフレームについては、雑音バッファ152に対する特徴量の追加は行わない。
【0115】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置10の動作(実施形態に係る収音方法)を説明する。
【0116】
以下では、第2の実施形態の収音装置10Aの動作について、第1の実施形態との差異を中心に説明する。
【0117】
上記の通り、第2の実施形態の収音装置10Aでは、閾値調整部15Aの処理のみが第1の実施形態と異なっている。そのため、以下では、第2の実施形態における閾値調整部15Aの動作のみを説明する。
【0118】
上記の通り、閾値調整部15Aは、目的エリア音有無判定部13の判定結果が目的エリア音有りから目的エリア音無しに切り替わった後のハングオーバ期間の間は、目的エリア音有無判定部13の判定結果に関わらず目的エリア音有り区間と同様の動作(目的エリア音抽出音に基づく特徴量を音声バッファ151に格納する処理)を継続する。
【0119】
例えば、閾値調整部15Aは、ハングオーバカウント部17から供給されるハングオーバ期間のカウント値cが0より小さい区間では、入力音X1kに基づく特徴量Xoffを雑音バッファ152のデータ格納部D2-qに格納してqをインクリメントするようにしてもよい。また、例えば、閾値調整部15Aは、カウント値cが0以上の区間では目的エリア音Z1kに基づく特徴量Zonを音声バッファ151のデータ格納部D1-pに格納してpをインクリメントするようにしてもよい。
【0120】
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0121】
第2の実施形態の収音装置10Aでは、判定閾値を調整するためのSNRを推定する際に、雑音バッファ152に格納する特徴量から、目的エリア音区間を繋ぐための無音区間や語尾の区間を排除することができるため、音切れや語尾切れを引き起こしやすい声色の話者の音を目的エリア音として収音する際でも判定閾値を精度良く設定できる。これにより、第2の実施形態の収音装置10Aでは、第1の実施形態よりも判定閾値の推定精度を向上させることができる。
【0122】
(C)第3の実施形態
以下、本発明による判定装置、判定プログラム及び判定方法の一実施形態(第3の実施形態)を、図面を参照しながら詳述する。
【0123】
(C-1)第3の実施形態の構成及び動作
以下では、第3の実施形態の判定装置の構成及び動作(実施形態に係る判定方法)について第1の実施形態との差異を中心に説明する。
【0124】
図7は、第3の実施形態の判定装置20の機能的構成について示したブロック図である。
【0125】
第1の実施形態の収音装置10は、出力音を出力する構成となっていたが第3の実施形態の判定装置20は目的エリア音抽出音に目的エリア音(目的音)の有無の判定結果(目的エリア音有り又は目的エリア音無しのいずれかの判定結果)を出力する点で第1の実施形態と異なっている。以下では、第3の実施形態の判定装置20が出力する判定結果を「出力判定結果」と呼ぶものとする。出力判定結果の形式については限定されないものであり、例えば、「目的エリア音有り」又は「目的エリア音無し」のいずれかを示す信号(例えば、「1」又は「0」の2値)を出力するようにしても良い。
【0126】
図7に示すように、判定装置20は、第1の実施形態の収音装置10において、出力判定部14を出力部18に置き換えた点で異なっている。
【0127】
出力部18は、目的エリア音有無判定部13の判定結果をそのまま出力判定結果として出力するようにしてもよいし、ハングオーバ期間を考慮した結果を出力判定結果としてもよい。例えば、出力部18は、目的エリア音有無判定部13の判定結果が目的エリア音無しだった場合、カウント値cが0以上(c≧0)であれば出力判定結果として目的エリア音有りを出力し、カウント値cが0より小さければ(c<0)出力判定結果として目的エリア音無しを出力するようにしてもよい。
【0128】
判定装置20は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。判定装置20は、例えば、プロセッサ及びメモリを有するコンピュータ(例えば、上述の図3に示すようなコンピュータ300)にプログラム(実施形態の判定プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0129】
(C-2)第3の実施形態の効果
第3の実施形態では、以下のような効果を奏することができる。
【0130】
第3の実施形態の実施形態の判定装置20では、第1の実施形態と同様に、環境変化に応じた閾値の調整の手間を減らすことができる。
【0131】
(D)第4の実施形態
以下、本発明による判定装置、判定プログラム及び判定方法の一実施形態(第4の実施形態)を、図面を参照しながら詳述する。
【0132】
(D-1)第4の実施形態の構成及び動作
以下では、第4の実施形態の判定装置の構成及び動作(実施形態に係る判定方法)について第2の実施形態との差異を中心に説明する。
【0133】
図8は、第4の実施形態の判定装置20Cの機能的構成について示したブロック図である。
【0134】
第4の実施形態の判定装置20Cは、第2の実施形態の収音装置10Aについて、第3の実施形態と同様に出力判定結果を出力する判定装置として構成したものである。
【0135】
以下では、第4の実施形態の判定装置20Cについて第2の実施形態との差異を説明する。
【0136】
図8に示すように、判定装置20Cは、第2の実施形態の収音装置10Aにおいて、出力判定部14を出力部18に置き換えた点で異なっている。出力部18は、第3の実施形態と同様の機能を備えるものであるため、詳しい説明を省略する。
【0137】
判定装置20Cは、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。判定装置20Cは、例えば、プロセッサ及びメモリを有するコンピュータ(例えば、上述の図3に示すようなコンピュータ300)にプログラム(実施形態の判定プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0138】
(D-2)第4の実施形態の効果
第4の実施形態では、以下のような効果を奏することができる。
【0139】
第4の実施形態の実施形態の判定装置20Cでは、判定閾値の推定精度が第2の実施形態の収音装置10Aと同様となる。つまり、第4の実施形態の実施形態の判定装置20Cでは、第3の実施形態よりも判定閾値の推定精度を向上させることができる。
【0140】
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0141】
(E-1)上記の各実施形態では、閾値調整部15は、目的エリア音有り区間において、目的エリア音抽出音Zに基づく特徴量(Zon)を音声バッファ151に格納しているが、これに代えて、入力信号Xに基づく特徴量(以下、「Xon」と表す)や、指向性形成部122から取得した音(マイクロホンアレイMA1のBF出力)に基づく特徴量(全成分和)を音声バッファ151に格納するようにしてもよい。
【0142】
(E-2)上記の各実施形態では、閾値調整部15は、目的エリア音無し区間において、入力信号Xに基づく特徴量(Xoff)を雑音バッファ152に格納しているが、これに代えて、雑音抑圧部121から取得した音(入力信号Xに対して雑音抑圧処理した音)に基づく特徴量や、入力信号Xから目的エリア音抽出音をスペクトル減算した音に基づく特徴量や、入力信号Xから指向性形成部122で取得した音(マイクロホンアレイMA1のBF出力)をスペクトル減算した音に基づく特徴量を雑音バッファ152に格納するようにしてもよい。
【0143】
(E-3)上記の各実施形態において、閾値調整部15は、p=Pもしくはq=Qとなったタイミングを判定閾値決定タイミングとしているが、他のタイミングに置き換えるようにしてもよい。
【0144】
例えば、上記のように、p=Pもしくはq=Qとなったタイミングを判定閾値決定タイミングとすると、判定閾値決定タイミングが変動して挙動が分かりにくいため、閾値を更新するタイミングを一定にしてもよい。
【0145】
具体的には、例えば、閾値調整部15において、新たに、判定閾値を設定するフレーム数をカウントするためのカウンタ値u(初期値は1)を導入し、目的エリア音有無判定部13で目的エリア音有無判定処理が行われて判定結果が出力される度にインクリメントしていき、uが所定の最大値U(u=U)となったタイミングを判定閾値決定タイミングとしてもよい。この場合、閾値調整部15は、判定閾値決定タイミングとなるとカウンタ値uを初期化(u=1に初期化)するようにしてもよい。
【0146】
また、上記の各実施形態において、閾値調整部15は、「SNRの推定(算出)」と「判定閾値の決定・設定」を、同時に行っているが、別々のタイミングに行ってもよい。例えば、閾値調整部15は、p=Pもしくはq=QとなったタイミングでSNRを推定(算出)する処理を行い、u=Uとなったタイミングで判定閾値を決定・設定するタイミングとしてもよい。
【0147】
(E-4)上記の各実施形態において、閾値調整部15は、ZonとXoffの算出過程で、平均値を使用しているが、現在(直近)の情報の影響を大きくし且つ過去の情報の影響を小さくするために、忘却係数を使用して重み加算した値を使用してもよい。例えば、閾値調整部15は、目的エリア音有り区間において(20)式を更新してZonを算出し、目的エリア音無し区間において(21)式を更新してXoffを算出するようにしてもよい。なお、ここで、α(0<α<1)、β(0<β<1)は、忘却係数を示している。また、ここで、Zonnowは、現在の時点で音声バッファ151の各フレーム(データ格納部D1-1~D1-P)の特徴量(全成分和)の平均値を算出した結果である。また、ここで、Xoffnowは、現在の時点で雑音バッファ152の各フレーム(データ格納部D2-1~D2-Q)の特徴量(全成分和)の平均値を算出した結果である。
【0148】
【数8】
【0149】
(E-5)第1及び第2の実施形態に示す収音装置10、10Aの出力判定部14は、出力音のみを出力する構成となっているが、出力音と共に出力判定結果(第3及び第4の実施形態の判定装置が出力する出力判定結果と同様の信号)を出力するようにしてもよい。
【符号の説明】
【0150】
10、10A…収音装置、11…データ入力部、12…目的エリア音取得部、13…目的エリア音有無判定部、14…出力判定部、15…閾値調整部、15…10以上SNR未満、15A…閾値調整部、16…SNR対判定閾値定義データ記憶部、17…ハングオーバカウント部、18…出力部、20、20C…判定装置、121…雑音抑圧部、122…指向性形成部、123…遅延補正部、124…目的エリア音抽出部、125…空間座標データ記憶部、126…補正係数導出部、151…音声バッファ、152…雑音バッファ、M、M1、M2…マイクロホン、MA、MA1、MA2…マイクロホンアレイ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【手続補正書】
【提出日】2024-05-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力する出力手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
を有することを特徴とする収音装置。
【請求項2】
前記閾値調整手段は、前記SNRの推定値と前記閾値との対応関係が定義されたSNR対閾値定義データに基づいて、前記SNRの推定値から前記閾値を決定することを特徴とする請求項1に記載の収音装置。
【請求項3】
前記判定処理の判定結果が、前記目的エリア音有り状態から前記目的エリア音無し状態に切り替わった後、所定のハングオーバ期間を計時するハングオーバカウント手段と、
前記出力手段は、前記ハングオーバカウント手段が前記ハングオーバ期間を計時している間、前記判定処理の結果に関わらず前記抽出音を出力する
ことを特徴とする請求項2に記載の収音装置。
【請求項4】
前記閾値調整手段は、前記第1の信号に基づく特徴量を第1の期間分蓄積する第1のバッファと、前記第2の信号に基づく特徴量を第2の期間分蓄積する第2のバッファとを備え、前記第1のバッファに蓄積された特徴量に基づく第1の統計値と、前記第2のバッファに蓄積された特徴量に基づく第2の統計値に基づいて前記SNRの推定値を算出することを特徴とする請求項3に記載の収音装置。
【請求項5】
前記閾値調整手段は、前記ハングオーバカウント手段が前記ハングオーバ期間を計時している間、前記判定処理の結果に関わらず、前記第2の信号を前記第2のバッファに蓄積せずに、前記第1の信号を前記第1のバッファに蓄積することを特徴とする請求項4に記載の収音装置。
【請求項6】
前記閾値調整手段は、最新に算出した前記第1の統計値に第1の忘却係数であるαを乗じた値と前回算出した前記第1の統計値に(1-α)を乗じた値とを加算した第1の更新値と、最新に算出した前記第2の統計値に第2の忘却係数であるβを乗じた値と前回算出した前記第2の統計値に(1-β)を乗じた値とを加算した第2の更新値とを取得し、前記第1の更新値と前記第2の更新値に基づいて前記SNRの推定値を算出することを特徴とする請求項4に記載の収音装置。
【請求項7】
コンピュータを、
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力する出力手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
して機能させることを特徴とする収音プログラム。
【請求項8】
収音装置が行う収音方法において、
前記収音装置は、指向性形成手段、目的エリア音取得手段、判定手段、出力手段及び閾値調整手段を備え、
前記指向性形成手段は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得し、
前記目的エリア音取得手段は、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、
前記判定手段は、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行い、
前記出力手段は、前記判定処理で前記目的エリア音有り状態と判定された区間の前記抽出音を出力し、
前記閾値調整手段は、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する
ことを特徴とする収音方法。
【請求項9】
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
を有することを特徴とする判定装置。
【請求項10】
コンピュータを、
複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得する指向性形成手段と、
それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得する目的エリア音取得手段と、
前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行う判定手段と、
前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する閾値調整手段と
して機能させることを特徴とする判定プログラム。
【請求項11】
判定装置が行う判定方法において、
前記判定装置は、指向性形成手段、目的エリア音取得手段、判定手段及び閾値調整手段を備え、
前記指向性形成手段は、複数のマイクロホンアレイの入力信号から目的エリアの方向に指向性を向けたビームフォーマ出力を取得し、
前記目的エリア音取得手段は、それぞれの前記ビームフォーマ出力に基づいて前記目的エリアを音源とする目的エリア音を抽出した結果の抽出音を取得し、
前記判定手段は、前記抽出音に基づく判定値と閾値との比較結果に基づいて、前記抽出音に前記目的エリア音が含まれる目的エリア音有り状態又は、前記抽出音に前記目的エリア音が含まれない目的エリア音無し状態のいずれの状態であるかを判定する判定処理を行い、
前記閾値調整手段は、前記判定処理で前記目的エリア音有り状態と判定された区間における前記抽出音、前記入力信号又は前記ビームフォーマ出力のいずれかを適用した第1の信号と、前記判定処理で前記目的エリア音無し状態と判定された区間における前記入力信号、前記入力信号から前記抽出音を減算した信号又は前記入力信号から前記ビームフォーマ出力を減算した信号のいずれかを適用した第2の信号とに基づいてSNRの推定値を算出するSNR推定処理を行い、前記SNRの推定値に基づいて、前記閾値を決定して前記判定手段に設定する
ことを特徴とする判定方法。