IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2022-135110収音装置、収音プログラム、及び収音方法
<>
  • 特開-収音装置、収音プログラム、及び収音方法 図1
  • 特開-収音装置、収音プログラム、及び収音方法 図2
  • 特開-収音装置、収音プログラム、及び収音方法 図3
  • 特開-収音装置、収音プログラム、及び収音方法 図4
  • 特開-収音装置、収音プログラム、及び収音方法 図5
  • 特開-収音装置、収音プログラム、及び収音方法 図6
  • 特開-収音装置、収音プログラム、及び収音方法 図7
  • 特開-収音装置、収音プログラム、及び収音方法 図8
  • 特開-収音装置、収音プログラム、及び収音方法 図9
  • 特開-収音装置、収音プログラム、及び収音方法 図10
  • 特開-収音装置、収音プログラム、及び収音方法 図11
  • 特開-収音装置、収音プログラム、及び収音方法 図12
  • 特開-収音装置、収音プログラム、及び収音方法 図13
  • 特開-収音装置、収音プログラム、及び収音方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022135110
(43)【公開日】2022-09-15
(54)【発明の名称】収音装置、収音プログラム、及び収音方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20220908BHJP
   H04R 1/40 20060101ALI20220908BHJP
【FI】
H04R3/00 320
H04R1/40 320A
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021034712
(22)【出願日】2021-03-04
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(平成21年度~平成27年度国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究/革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発 課題オ 超臨場感コミュニケーションシステム」、産業技術力強化法第17条の適用を受ける特許出願)
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】原 宗大
(72)【発明者】
【氏名】片桐 一浩
【テーマコード(参考)】
5D018
5D220
【Fターム(参考)】
5D018BB22
5D220BA06
5D220BC05
(57)【要約】
【課題】 話者の発話位置によらず安定的に収音する収音装置を提供する。
【解決手段】 本発明は、目的エリアを音源する目的エリア音を収音する収音装置に関する。そして、本発明の収音装置は、収音する目的位置の位置情報を保持する目的位置情報保持手段と、複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、目的位置の位置情報と、マイクロホンアレイの設置状態情報とに基づいて、それぞれのマイクロホンアレイから目的位置への角度と距離を算出する算出手段と、それぞれのマイクロホンアレイからの入力信号について、算出手段の算出結果に基づき、目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれのビームフォーマ出力を用いて、目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段とを有することを特徴とする。
【選択図】 図1
【特許請求の範囲】
【請求項1】
収音する目的位置の位置情報を保持する目的位置情報保持手段と、
複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、
前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出する算出手段と、
それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段の算出結果に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と
を有することを特徴とする収音装置。
【請求項2】
前記設置状態情報には、それぞれの前記マイクロホンアレイの位置と角度の情報が含まれることを特徴とする請求項1に記載の収音装置。
【請求項3】
前記目的位置情報保持手段は、話者の口元の位置を前記目的位置として取得することを特徴とする請求項1又は2に記載の収音装置。
【請求項4】
前記目的位置情報保持手段は、距離画像センサにより撮像された距離画像と、イメージセンサにより撮像されたイメージセンサ画像とを用いて、前記話者の前記口元の位置を前記目的位置として取得することを特徴とする請求項3に記載の収音装置。
【請求項5】
コンピュータを、
収音する目的位置の位置情報を保持する目的位置情報保持手段と、
複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、
前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出する算出手段と、
それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段の算出結果に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と
して機能させることを特徴とする収音プログラム。
【請求項6】
収音装置が行う収音方法において、
目的位置情報保持手段、マイクロホンアレイ設置状態情報保持手段、算出手段、及び目的エリア音抽出手段を有し、
前記目的位置情報保持手段は、収音する目的位置の位置情報を保持し、
前記マイクロホンアレイ設置状態情報保持手段は、複数のマイクロホンアレイの設置状態に関する設置状態情報を保持し、
前記算出手段は、前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出し、
前記目的エリア音抽出手段は、それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段の算出結果に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収音装置、プログラム及び方法に関し、例えば、目的エリアの位置を推定し、そのエリアを中心に収音する処理に適用し得る。
【背景技術】
【0002】
従来、音声通信システムを利用する場合、複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」と表す)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。
【0003】
BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0004】
図10は、従来の減算型BFに係る構成を示すブロック図である。
【0005】
図10に示す従来の減算型BFでは、マイクロホン数が2個となっている。
【0006】
従来の減算型BFは、まず遅延器により目的とする方向に存在する音(以下、「目的音」とも呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。従来の減算型BFの遅延器では、時間差は下記(1)式により算出される。
【0007】
下記の(1)式において、dはマイクロホン間の距離、cは音速、τiは遅延量である。また、下記の(1)式において、θLは、各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
τ=(dsinθ)/c…(1)
【0008】
ここで、死角が第1のマイクロホンと第2のマイクロホンの中心に対し、第1のマイクロホンの方向に存在する場合、従来の減算型BFにおける遅延器は、第1のマイクロホンの入力信号x1(t)に対し遅延処理を行う。その後、遅延処理された入力信号x1(t)は、(2)式に従い減算処理される。
A(t)=x(t)-x(t-τ)…(2)
【0009】
減算処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)式のように変更される。
【数1】
【0010】
ここでθL=±π/2の場合、形成される指向性は図11(A)に示すように、カージオイド型の単一指向性となり、θL=0,πの場合は、図11(B)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
【0011】
またスペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性の形成は、(4)式に従う。(4)式では、第1のマイクロホンM1の入力信号Xを用いているが、第2のマイクロホンM2の入力信号Xでも同様の効果を得ることができる。(4)式において、βはSSの強度を調節するための係数である。減算時に値がマイナスとなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」とも呼ぶ)を抽出し、抽出した非目的音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的音を強調することができる。
|Y(ω)|=|X(ω)|-β|A(ω)|…(4)
【0012】
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」とも呼ぶ)も収音してしまう可能性がある。そこで特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法を提案している。
【0013】
図12は、2つのマイクロホンアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する場合における各マイクロホンアレイの構成例について示した説明図である。
【0014】
図13は、図12に示すマイクロホンアレイMA1、MA2のそれぞれのBF出力について周波数領域で示した説明図(グラフ)である。図13(a)、図13(b)は、それぞれマイクロホンアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。
【0015】
特許文献1に記載された手法では、まず各マイクロホンアレイMA1、MA2のBF出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。例として2つのマイクロホンアレイMA1、MA2を使用する場合、目的エリア音パワーの補正係数は、(5)式または(6)式により算出される。
【数2】
【0016】
ここで|Y1k|,|Y2k|はマイクロホンアレイMA1、MA2のBF出力の周波数kのパワー、Nは周波数ビンの総数、αはBF出力に対するパワー補正係数である。また、modeは最頻値、medianは中央値を表している。その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各BFの出力からSSすることにより自的エリア音を抽出することができる。
【0017】
図14は、図12に示すマイクロホンアレイMA1、MA2を用いて取得したBF出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージを図)である。
【0018】
まず、マイクロホンアレイMA1の入力信号X1から、非目的エリア音N2を抑圧したBF出力Y1を得る(図14(a)参照)。
【0019】
マイクロホンアレイMA1からみた目的エリア方向に存在する非目的エリア音N1(n)を抽出するには、(7)式に示すように、マイクロホンアレイMA1のBF出力Y2(n)からマイクロホンアレイMA2のBF出力Y2(n)にパワー補正係数αを掛けたものをSSする(図14(b)参照)。その後、(8)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する(図14(c)参照)。γ(n)はSS時の強度を変更するための係数である。
=Y-αY…(7)
=Y-γN…(8)
【先行技術文献】
【特許文献】
【0020】
【特許文献1】特開2014-72708号公報
【発明の概要】
【発明が解決しようとする課題】
【0021】
しかしながら、特許文献1の記載技術は、各マイクロホンアレイを用いたBFで指向性を形成することでその交差部分を目的エリアとして強調できるが、あらかじめその目的エリアを設定するために事前に用意された角度θLを使用している。従って、利用者の発話位置が目的エリア外にある場合、つまり利用者の方向が角度θLでない場合は収音できないという問題がある。
【0022】
つまり、特許文献1の記載技術を用いて話者の発話音を収音する場合、あらかじめ設定された固定の場所でしか収音しないので、話者はその場所で発話する必要がある。そのため、話者がその固定の場所から離れてしまうと収音することができない。
【0023】
以上のような従来技術の問題に鑑みて、話者の発話位置によらず安定的に収音できる収音装置、及びプログラム及び方法が望まれている。
【課題を解決するための手段】
【0024】
第1の本発明の収音装置は、(1)収音する目的位置の位置情報を保持する目的位置情報保持手段と、(2)複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、(3)前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出する算出手段と、(4)それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段の算出結果に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段とを有することを特徴とする。
【0025】
第2の本発明の収音プログラムは、コンピュータを、(1)収音する目的位置の位置情報を保持する目的位置情報保持手段と、(2)複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、(3)前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出する算出手段と、(4)それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段の算出結果に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段として機能させることを特徴とする。
【0026】
第3の本発明は、収音装置が行う収音方法において、(1)目的位置情報保持手段、マイクロホンアレイ設置状態情報保持手段、算出手段、及び目的エリア音抽出手段を有し、(2)前記目的位置情報保持手段は、収音する目的位置の位置情報を保持し、(3)前記マイクロホンアレイ設置状態情報保持手段は、複数のマイクロホンアレイの設置状態に関する設置状態情報を保持し、(4)前記算出手段は、前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出し、(5)前記目的エリア音抽出手段は、それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段の算出結果に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出することを特徴とする。
【発明の効果】
【0027】
本発明によれば、話者の発話位置によらず収音する収音装置を提供することができる。
【図面の簡単な説明】
【0028】
図1】実施形態に係る収音装置の機能的構成について示したブロック図である。
図2】実施形態に係る収音装置を構成するセンサ部の内部構成について示したブロック図である。
図3】実施形態に係る収音装置を構成する収音部の内部構成について示したブロック図である。
図4】実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。
図5】実施形態に係る目的位置認識処理部の処理の例について示した説明図である。
図6】実施形態に係る極座標取得部がイメージセンサ画像上で目的位置を認識する処理の例について示した図である。
図7】実施形態に係る座標算出部が、目標位置の極座標(φ、θ、R)を直交座標系(X,Y,Z)に変換する処理について示した説明図である。
図8】実施形態に係るマイクロホンアレイ設置情報保持部が保持するマイクロホンアレイ設置情報の例について示した図である。
図9】実施形態に係るビームフォーマ角度距離算出部の処理の例について示した図である。
図10】従来のマイクロホン数が2個の場合の減算型BFに係る構成を示すブロック図である。
図11】従来の2個のマイクロホンを用いた減算型BFにより形成される指向特性を示す図である。
図12】従来の2つのマイクロホンアレイを用いて、目的エリアの音源からの目的エリア音を収音する場合における各マイクロホンアレイの構成例について示した説明図である。
図13】従来の2つマイクロホンアレイのそれぞれのBF出力について周波数領域で示した説明図である。
図14】従来の2つのマイクロホンアレイを用いて取得したBF出力に基づいてエリア収音処理した場合における各成分のパワースペクトルの変化について示した説明図である。
【発明を実施するための形態】
【0029】
(A)主たる実施形態
以下、本発明による収音装置、及びプログラム及び方法の一実施形態を、図面を参照しながら詳述する。
【0030】
(A-1)実施形態の構成
図1は、この実施形態に係る収音装置1の機能的構成を示すブロック図である。
【0031】
収音装置1は、2つのマイクロホンアレイMA1、MA2を用いて、目的エリアの音源(目的音源)からの目的エリア音を収音する目的エリア音収音処理を行う。以下では、マイクロホンアレイMA1、MA2を総称してマイクロホンアレイMAとも呼ぶものとする。
【0032】
マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM1、M2が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイMAは、2chマイクロホンアレイを構成しているものとする。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。
【0033】
また、収音装置1は、センサ装置SEを用いて、目的エリアの位置(以下、「目的位置」と呼ぶ)を認識する処理(以下、「目的エリア認識処理」と呼ぶ)を行う。
【0034】
センサ装置SEも、目的エリア(目的音源)及びマイクロホンアレイMAと同じ空間の任意の場所に配置されているのとする。
【0035】
センサ装置SEは、1又は複数のセンサを用いて目的位置を認識するためのセンシングを行うことが可能なデバイスである。目的位置のセンシングが可能であればセンサ装置SEが備えるセンサ種類や数については限定されないものである。この実施形態の例では、センサ装置SEには、距離画像センサS1とイメージセンサS2の2つのセンサが搭載される例について説明する。以下では、距離画像センサS1により得られる画像を「距離画像」と呼び、イメージセンサS2により得られる画像を「イメージセンサ画像」と呼ぶものとする。
【0036】
距離画像センサS1は、3次元空間内の方向ごとの対象物までの距離(センサ光を反射する対象物までの距離)を測定することで、距離画像(距離を画素値とする画像)を得ることができるセンサである。距離画像センサS1としては、種々の距離画像センサを適用することができる。
【0037】
イメージセンサS2は、いわゆるディジタルカメラのセンサである。イメージセンサS2としては種々のディジタルカメラを構成するセンサを適用することができる。
【0038】
以下では、目的位置、マイクロホンアレイMA、及びセンサ装置SE(各センサを含む)の3D空間内の各位置を説明する際には、X軸、Y軸及びZ軸が存在する三次元直交座標系(以下、単に「直交座標系」とも呼ぶ)を主座標系として用いるものとする。また、上記の直交座標系(3D空間)では、Z軸を垂直方向(高さ方向)とし、X軸及びY軸を水平方向(横方向)とするものとして説明する。さらに、以下では、上記の直交座標系は、センサ装置SEの位置(例えば、距離画像センサS1による測定距離が0となる位置)を原点O(X=0、Y=0、Z=0)とした座標系として説明する。さらにまた、以下では、目的位置をPTとも表すものとする。
【0039】
ここでは、距離画像センサS1は、X-Y平面(X軸とY軸により形成される平面;水平面)上の方向を示す角度(以下、「方位角」と呼ぶ)φと、水平面(X-Y平面)を基準とした上下方向(Z軸方向)の角度(以下、「仰俯角」と呼ぶ)θの組み合わせごとに距離Rを測定することが可能であるものとする。すなわち、距離画像は、方位角φと仰俯角θの組合せごとの距離Rにより形成されるものとする。言い換えると、距離画像は、方位角φ、仰俯角θ及び距離Rを組み合わせた三次元極座標(以下、単に「極座標」とも呼ぶものとする)の集合体であると言える。
【0040】
図5は、距離画像センサS1が測定する極座標の例について示した図である。
【0041】
図5では、任意の位置Pにおける方位角φ、仰俯角θ及び距離Rを示している。
【0042】
また、この実施形態では、イメージセンサS2が撮像するイメージセンサ画像(2D画像)の座標を「2D座標」と呼ぶものとする。2D座標は垂直方向の座標(Y座標)と水平方向の座標(X座標)で表される二次元の座標系(二次元の直交座標系)であるものとする。
【0043】
次に、収音装置1の内部構成について図1を用いて説明する。
【0044】
図1に示す通り、収音装置1は、収音部10、マイクロホンアレイ設置情報保持部20、目的位置認識処理部30、及びビームフォーマ角度距離算出部40を有している。
【0045】
マイクロホンアレイ設置情報保持部20は、各マイクロホンアレイMAの設置状態に関する情報(以下、「マイクロホンアレイ設置情報」と呼ぶ)を保持する機能を担っている。マイクロホンアレイ設置情報の詳細については後述する。
【0046】
目的位置認識処理部30は、センサ装置SEが取得した検知結果に基づき、目的位置を認識する機能を担っている。この実施形態では、目的位置認識処理部30は、センサ装置SE(距離画像センサS1及びイメージセンサS2)が撮像した距離画像及びイメージセンサ画像により、センサ装置SEの検知範囲内(視野内)の話者(人間)の口元の位置を目的位置として取得するものとして説明する。目的位置認識処理部30の処理の詳細については後述する。
【0047】
ビームフォーマ角度距離算出部40は、各マイクロホンアレイMAから、目的位置認識処理部30が認識した目的位置への角度(方向)及び距離を計算して取得する機能を担っている。
【0048】
収音部10は、各マイクロホンアレイMAのビームフォーマ出力に基づいて目的位置を含む目的エリアからの目的エリア音を収音する機能を担っている。収音部10は、ビームフォーマ角度距離算出部40の計算結果に従って、各マイクロホンアレイMAから目的位置の方向に指向性を形成したビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリア音を抽出して取得する。
【0049】
次に、目的位置認識処理部30の内部構成の例について、図2を用いて説明する。
【0050】
図2に示すように、目的位置認識処理部30は、極座標取得部31及び座標算出部32を有している。
【0051】
極座標取得部31は、距離画像とイメージセンサ画像に基づいて、原点Oから目的位置への極座標(φ、θ、R)を取得する処理を行う。極座標取得部31が目的位置への極座標を得る処理の詳細については後述する。
【0052】
座標算出部32は、極座標取得部31が取得した極座標(φ、θ、R)から直交座標(X、Y、Z)を算出して取得する処理を行う。
【0053】
次に、収音部10の内部構成の例について、図3を用いて説明する。
【0054】
図3に示すように、収音部10は、データ入力部11、指向性形成部12、遅延補正部13、補正係数算出部14、及び目的エリア音抽出部15を有している。収音部10の各要素の処理の詳細については後述する。
【0055】
収音装置1は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置1は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0056】
次に、図4を用いて、収音装置1のハードウェア構成について説明する。
【0057】
図4は、収音装置1のハードウェア構成の例について示したブロック図である。
【0058】
収音装置1は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置1は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0059】
図4では、収音装置1を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
【0060】
図4に示す収音装置1は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ200を有している。また、コンピュータ200は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
【0061】
図4に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
【0062】
なお、コンピュータ200の具体的な構成は図4の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部203については除外した構成としてもよい。
【0063】
(A-2)実施形態の動作
次に、以上のような構成を有するこの実施形態の収音装置1の動作(実施形態の収音方法)を説明する。
【0064】
まず、目的位置認識処理部30の動作について説明する。
【0065】
上述の通り、極座標取得部31は、距離画像とイメージセンサ画像に基づいて、原点Oから目的位置への極座標(φ、θ、R)を取得する処理を行う。
【0066】
この実施形態の例では、極座標取得部31は、イメージセンサ画像(2D画像)に映っている話者(人間)の口元の位置(2D座標)を目的位置(2D画像上の目的位置)として取得し、取得した目的位置の2D座標を、極座標(φ、θ、R)に変換するものとする。
【0067】
例えば、極座標取得部31は、イメージセンサ画像で、人間の顔が写っている領域、及び当該人間の口元が写っている領域を認識し、その口元が写っている領域の中心位置をイメージセンサ画像(2D画像)上の目的位置として認識するようにしてもよい。極座標取得部31では、種々の顔認識処理により、イメージセンサ画像から人間の口元(人間の特定部位)の写っている領域を認識することができる。
【0068】
図6は、極座標取得部31がイメージセンサ画像上で目的位置を認識する処理の例について示した図である。
【0069】
図6(a)は、イメージセンサ画像の例について示した図である。
【0070】
図6(a)に示すイメージセンサ画像G101では、1人の話者(人間)が写っており、顔認識処理(具体的な方式については限定されないものである)により当該話者の顔を含む矩形の領域をバウンディングボックス(外接矩形)として切り出すことができる。図6(a)では、話者の顔を含むバウンディングボックスBB1について点線の枠を図示している。
【0071】
図6(b)は、図6(a)に示すバウンディングボックスBB1を拡大して示した図である。
【0072】
そして、ここでは、極座標取得部31は、顔認識処理(具体的な方式については限定されないものである)により、バウンディングボックスBB1から、口元(口)が写っている領域を含むバウンディングボックスBB2を抽出したものとする。そして、ここでは、極座標取得部31は、バウンディングボックスBB2の中心位置の2D座標をイメージセンサ画像(2D画像)上の目的位置PTとして取得したものとする。
【0073】
そして、極座標取得部31は目的位置PTの2D座標を極座標(φ、θ、R)に変換して取得する。例えば、イメージセンサS2の位置と原点Oとの相対的な位置関係が把握されていれば(例えば、距離画像センサS1とイメージセンサS2とが同じ位置に設定されている場合)、極座標取得部31が、イメージセンサ画像(2D画像)上の座標(2D座標)を極座標上の方向(φ、θ)に変換し、距離画像から当該方向の距離Rを取得することは、種々の座標変換処理(2D座標を極座標や3D座標に変換する処理)により実現することができる。
【0074】
以上のように、極座標取得部31では、距離画像とイメージセンサ画像に基づいて、原点Oから目的位置への極座標(φ、θ、R)を取得し、座標算出部32に供給することができる。
【0075】
そして、座標算出部32は、供給された極座標(φ、θ、R)を直交座標(X、Y、Z)に変換し、収音部10に供給する。極座標(φ、θ、R)を直交座標(X、Y、Z)に変換することは、種々の座標変換処理により実現可能である。
【0076】
図7は、座標算出部32が、目標位置PTの極座標(φ、θ、R)を直交座標(X,Y,Z)に変換する処理について示した説明図である。
【0077】
例えば、座標算出部32は、図7に示すように、X=Rsinθcosφ、Y=Rsinθsinφ、Z=Rsinθと算出することで、極座標(φ、θ、R)に基づき直交座標系(X,Y,Z)を取得することができる。
【0078】
次に、マイクロホンアレイ設置情報保持部20が保持するマイクロホンアレイ設置情報の例について図8図9を用いて説明する。
【0079】
ここでは、マイクロホンアレイ設置情報保持部20には、マイクロホンアレイMA1、MA2の位置と、マイクロホンアレイMA1、MA2の設置されている角度(姿勢;以下、「マイクロホンアレイ角度」と呼ぶ)の情報が保持されているものとする。
【0080】
図8図9では、マイクロホンアレイMA1、MA2の位置をそれぞれP1、P2としている。図8図9では、各マイクロホンアレイMAの位置(P1、P2)を、マイクロホンM1とマイクロホンM2の位置を結んだ線の中点としている。以下では、マイクロホンアレイMA1の位置P1の直交座標を(X,Y,Z)=(MA1x,MA1y,MA1z)と表し、マイクロホンアレイMA2の位置P2の直交座標を(X,Y,Z)=(MA2x,MA2y,MA2z)とする。
【0081】
なお、図8図9では、説明を簡易とするため、各マイクロホンアレイMA(MA1、MA2)の各マイクロホンM(M1、M2)のZ軸方向の位置は全て同じ(Z軸の座標は全て同じ)である場合について図示している。
【0082】
また、図8図9では、X軸からマイクロホンアレイMA1の各マイクロホン(M1、M2)を通る線をL11とし、線L11とX軸が成す角をφMA1としている。さらに、図8では、X軸からマイクロホンアレイMA2の各マイクロホン(M1、M2)を通る線をL21とし、線L21とX軸が成す角をφMA2としている。
【0083】
ここでは、マイクロホンアレイ設置情報保持部20には、マイクロホンアレイMA1、MA2の位置情報としてP1、P2の座標が保持され、マイクロホンアレイMA1、MA2のマイクロホンアレイ角度としてφMA1、φMA2が保持されているものとする。
【0084】
次に、ビームフォーマ角度距離算出部40の処理の例について図9を用いて説明する。
【0085】
ビームフォーマ角度距離算出部40は、マイクロホンアレイ設置情報(位置及びマイクロホンアレイ角度)と目的位置の座標に基づき、各マイクロホンアレイMAのビームフォーマの向き(指向性の向き)を算出する。言い換えると、ビームフォーマ角度距離算出部40は、各マイクロホンアレイMAから目的位置PTへの方向(角度)を算出する。
【0086】
ビームフォーマ角度距離算出部40は、各マイクロホンアレイMAについて、仮原点を置き、当該仮原点からマイクロホンアレイ角度分傾けた直交座標系において、その直交座標系のY軸と仮原点から目的位置までの方向との成す角度をビームフォーマ角度として取得する。また、ビームフォーマ角度距離算出部40は、そのときの仮原点から目的位置までの距離をビームフォーマ距離として取得する。
【0087】
図9では、マイクロホンアレイMA1について位置P1を仮原点O’と置いた場合において、直交座標系のX軸とY軸をマイクロホンアレイ角度φMA1分傾けた場合のY’軸として線L12を図示している。また、図9では、Y’軸(線L12)と原点O’から目的位置PTへの方向との成す角度をφBF1としている。さらに、図9では、原点O’と目的位置PTとの間の距離(ビームフォーマ距離)をd_BF1としている。
【0088】
図9では、マイクロホンアレイMA2について位置P2を仮原点O’’と置いた場合において、直交座標系のX軸とY軸をマイクロホンアレイ角度φMA2分傾けた場合のY’’軸として線L22を図示している。また、図9では、Y’’軸(線L22)と原点O’’から目的位置PTへの方向との成す角度をφBF2としている。さらに、図9では、原点O’’と目的位置PTとの間の距離(ビームフォーマ距離)をd_BF2としている。
【0089】
このとき、d_BF1、d_BF2は、それぞれ(9)式、(10)式で示すことができる。
【0090】
なお、ビームフォーマ角度距離算出部40は、マイクロホンアレイMAが仰俯角方向(Δθ)に傾いているときは、(9)式、(10)式においてθを「θ+Δθ」としてビームフォーマ距離を計算するものとする。
【数3】
【0091】
次に、収音部10の動作について説明する。
【0092】
データ入力部11は、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からディジタル信号に変換する。そして、データ入力部111は、当該ディジタル信号について、変換処理(例えば、高速フーリエ変換等を用いて時間領域から周波数領域へ変換する処理)を行う。
【0093】
指向性形成部12では、マイクロホンアレイMA1、MA2毎に、ビームフォーマ角度方向φBF1、φBF2を目的方向として、目的方向以外に存在する非目的エリア音を抽出(例えば、双指向性フィルタにより抽出)し、抽出した非目的エリア音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的エリア方向に指向性を形成した音(BF出力)を取得する。
【0094】
具体的には、指向性形成部12は、例えばマイクロホンアレイMA1では、(11)式のように第1のマイクロホンM1と第2のマイクロホンM2の遅延時間を求め、それを基に(12)式のように減算処理を行う。ここで、死角が第1のマイクロホンM1と第2のマイクロホンM2の中心に対し、第1のマイクロホンM1の方向に存在する場合、減算型BFにおける遅延器は、第1のマイクロホンM1の入力信号x1(t)に対し遅延処理を行う。
【0095】
その後、遅延処理された入力信号x1(t)は、(12)式に従い減算処理される。減算処理は周波数領域でも同様に行うことができ、その場合(12)式は(13)式のように変更される。最終的に(4)式に従いBFにより目的エリア方向に指向性を形成した音をBF出力として取得する。マイクロホンアレイMA2でも同様にして、目的エリア方向に指向性を形成した音をBF出力として取得する。
【数4】
【0096】
遅延補正部13は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出して補正する。遅延補正部13は、マイクロホンアレイMA(MA1、MA2)のビームフォーマ方向距離の差分から、各マイクロホンアレイMA(MA1、MA2)への目的エリア音の到達時間の差を算出する。そして、最も目的エリアから遠い位置に配置されたマイクロホンアレイMA(MA1、MA2)を基準として、全てのマイクロホンアレイMA(MA1、MA2)に目的エリア音が同時に到達するように遅延を加える。
【0097】
補正係数算出部14は、各BF出力に含まれる目的エリア音成分のパワーを同じにするための補正係数を(5)式または(6)式に従い算出する。
【0098】
目的エリア音抽出部15は、補正係数算出部14で算出した補正係数により補正した各BF出力データを(7)式に従いSSし、目的エリア方向に存在する雑音を抽出する。さらに、目的エリア音抽出部15は、抽出した雑音を各BFの出力から(8)式に従いSSすることにより目的エリア音を抽出する。
【0099】
そして、目的エリア音抽出部15は、抽出した目的エリア音を出力する。目的エリア音抽出部15は、が出力する信号の形式は限定されないものであり、種々の形式を適用することができる。例えば、目的エリア音抽出部15は、目的エリア音を所定の形式のディジタル音響信号(例えば、PCM形式の信号)や所定のコーデックにより符号化して出力(出力する方式については限定されない)するようにしてもよい。また、目的エリア音抽出部15は、抽出した目的エリア音を、アナログ音響信号として出力(例えば、図示しないスピーカに出力)するようにしてもよい。
【0100】
(A-3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0101】
この実施形態の、収音装置1では、センサ装置SEを用いて目的位置を特定し、各マイクロホンアレイのビームフォーマの指向性を当該目的位置に向けて目的エリア音を抽出するため、話者の発話位置(話者の口元の位置)によらず話者の発話音声を安定的に収音することができる。
【0102】
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0103】
(B-1)この実施形態では、三次元空間内における話者の口元の位置を認識するためのセンサとして距離画像センサS1及びイメージセンサS2を備えるセンサ装置SEを用いたが、話者の口元の位置を認識可能であればその他のセンサであってもよい。例えば、距離画像センサS1を、その他の距離測定(深度測定)可能なセンサ(例えば、複数のカメラにより深度マッピング可能なステレオカメラ等)に置き換えるようにしてもよい。
【0104】
また、上記の実施形態の収音装置1では、センサ装置SEを用いて目的位置を認識しているが、目的位置の極座標(又は直交座標)自体が外部から供給される構成としてもよい。
【0105】
(B-2)上記の実施形態では、目的位置認識処理部30は、極座標取得部31と座標算出部32を備えているが、極座標を経由せずに直接直交座標(X,Y,Z)を取得(例えば、2D画像から直接座標変換により3D座標を取得)する構成としてもよい。
【符号の説明】
【0106】
1…収音装置、10…収音部、11…データ入力部、12…指向性形成部、13…遅延補正部、14…補正係数算出部、15…目的エリア音抽出部、20…マイクロホンアレイ設置情報保持部、30…目的位置認識処理部、31…極座標取得部、32…座標算出部、40…ビームフォーマ角度距離算出部、MA、MA1、MA2…マイクロホンアレイ、M、M1、M2…マイクロホン、SE…センサ装置、S1…距離画像センサ、S2…イメージセンサ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14