(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-15
(45)【発行日】2022-12-23
(54)【発明の名称】信号処理装置及び信号処理方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20221216BHJP
G06T 7/60 20170101ALI20221216BHJP
G10K 11/34 20060101ALI20221216BHJP
H04R 1/40 20060101ALI20221216BHJP
【FI】
H04R3/00 320
G06T7/60 180B
G10K11/34 100
H04R1/40 320A
(21)【出願番号】P 2018229368
(22)【出願日】2018-12-06
【審査請求日】2021-11-11
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100199314
【氏名又は名称】竹内 寛
(72)【発明者】
【氏名】宇佐見 陽
(72)【発明者】
【氏名】廣瀬 良文
(72)【発明者】
【氏名】足立 祐介
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特開2011-071686(JP,A)
【文献】国際公開第2018/193826(WO,A1)
【文献】米国特許出願公開第2018/0231653(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/60
G10K 11/00-13/00
H03F 1/00- 3/45
H03F 3/50- 3/52
H03F 3/62- 3/64
H03F 3/68- 3/72
H03G 1/00- 3/34
H04R 1/20- 1/40
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
音源となる物体から出力される目的音を収音する信号処理装置であって、
カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、
前記画像データと前記音響信号の少なくともいずれか一方に基づいて、前記マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における前記音響信号の収音方向を制御する制御部と、
を有し、
前記制御部は、
前記画像データから前記物体に取り付けられている所定のマーカーを検出し、検出した前記マーカーに基づいて、前記マイクアレイから前記音源までの距離を推定して、前記推定した距離を示す距離情報を出力する距離推定部と、
前記距離情報に基づいて前記目的音を補正する目的音補正部と、
を含む、信号処理装置。
【請求項2】
前記マーカーは、所定サイズを有し、
前記距離推定部は、前記画像データにおける前記マーカーの画像サイズに基づいて、前記カメラから前記マーカーまでの距離を算出することにより、前記マイクアレイから前記音源までの距離を推定する、
請求項1に記載の信号処理装置。
【請求項3】
前記マーカーは、前記音源の属性を識別する属性情報を含み、
前記制御部は、前記画像データから前記属性情報を取得する属性取得部をさらに含み、
前記目的音補正部は、前記距離情報と前記属性情報とに基づいて前記目的音を補正する、
請求項1に記載の信号処理装置。
【請求項4】
前記制御部は、
前記画像データに基づいて前記物体の位置を検出して、検出した前記物体の位置を示す物体位置情報を出力する物体検出部と、
前記音響信号に基づいて前記音源の位置を推定して、推定した前記音源の位置を示す音源位置情報を出力する音源推定部と、
前記物体位置情報と前記音源位置情報とに基づいて前記収音方向を決定する方向決定部と、
前記収音方向に基づいて前記音響信号から前記目的音を抽出するようにビームフォームを設定するビームフォーム部と、
を含む、請求項1に記載の信号処理装置。
【請求項5】
前記音源推定部は、前記音響信号から水平方向及び垂直方向の少なくとも一方において前記音源の存在確率を算出し、前記音源の存在確率を前記距離情報に基づいて変更して前記音源位置情報を生成する、
請求項4に記載の信号処理装置。
【請求項6】
前記方向決定部は、前記収音方向を決定するときの、前記物体位置情報と前記音源位置情報の優先度を前記距離情報に基づいて変更する、
請求項4に記載の信号処理装置。
【請求項7】
前記ビームフォーム部は、前記距離情報に基づいて前記収音方向を含むビーム幅を変更する、
請求項4に記載の信号処理装置。
【請求項8】
前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える、
請求項1に記載の信号処理装置。
【請求項9】
音源となる物体から出力される目的音を収音する信号処理装置であって、
カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、
前記画像データと前記音響信号の少なくともいずれか一方に基づいて、前記マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における前記音響信号の収音方向を制御する制御部と、
を有し、
前記制御部は、
前記画像データに基づいて前記物体の位置を検出して、検出した前記物体の位置を示す物体位置情報を出力する物体検出部と、
前記音響信号に基づいて前記音源の位置を推定して、推定した前記音源の位置を示す音源位置情報を出力する音源推定部と、
前記画像データから前記物体に取り付けられている所定のマーカーを検出し、検出した前記マーカーに基づいて、前記マイクアレイから前記音源までの距離を推定し、前記推定した距離を示す距離情報を出力する距離推定部と、
を含み、
前記物体位置情報と前記音源位置情報と前記距離情報とに基づいて、前記目的音の収音を制御する、
信号処理装置。
【請求項10】
演算部により、音源となる物体から出力される目的音を収音する信号処理方法であって、
カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力するステップと、
前記画像データにおいて、前記物体に取り付けられている所定のマーカーを検出し、検出した前記マーカーに基づいて、前記マイクアレイから前記音源までの距離を推定するステップと、
前記画像データと前記音響信号の少なくともいずれか一方に基づいて、前記マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における前記音響信号の収音方向を決定するステップと、
前記収音方向に基づいて前記音響信号から前記目的音を抽出するようにビームフォームを設定するステップと、
前記目的音を前記推定した距離に基づいて補正するステップと、
を含む、信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音響信号を信号処理する信号処理装置及び信号処理方法に関する。
【背景技術】
【0002】
特許文献1は、音の到来方向の算出と音の異常性の判定とを行う音監視装置を開示している。音監視装置は、音の到来方向についての情報と音の異常性についての情報とを組み合わせた情報を、撮像した画像に重ねて表示している。この組み合わせた情報が画像を表示する表示手段の表示範囲外に存在する場合には、音の到来方向に対応する表示範囲の上端、下端、左端又は右端に組み合わせた情報を表示している。これにより、異常音が音監視装置の表示範囲外で生じた場合であっても異常音の到来方向を認識することができるようにしている。
【0003】
特許文献2は、画像情報と音声などの二次感覚情報とに基づいて、主被写体の注視又は追尾を自動的に行う主被写体推定装置を開示している。主被写体推定装置は、画像情報により検出された特定人と二次感覚情報により検出された特定人とが一致している場合に、画像情報から検出された特定人の位置及び検出結果の信頼度と、二次感覚情報から検出された特定人の位置及び検出結果の信頼度とに基づいて、一致する特定人の位置を推定している。これにより、注視又は追尾すべき主被写体を見失うことなく適正に検出し続けることができるようにしている。
【先行技術文献】
【特許文献】
【0004】
【文献】特許5235070号公報
【文献】特許4669150号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、精度の良い目的音が得られる信号処理装置及び信号処理方法を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様の信号処理装置は、音源となる物体から出力される目的音を収音する信号処理装置であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、画像データと音響信号の少なくともいずれか一方に基づいて、マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を制御する制御部と、を有し、制御部は、画像データから物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定して、推定した距離を示す距離情報を出力する距離推定部と、距離情報に基づいて目的音を補正する目的音補正部と、を含む。
【0007】
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
【発明の効果】
【0008】
本開示の信号処理装置及び信号処理方法によれば、収音した目的音をマイクアレイから音源までの距離に基づいて補正するため、精度の良い目的音が得られる。
【図面の簡単な説明】
【0009】
【
図1】第1~第3実施形態の信号処理装置の構成を示すブロック図
【
図2】第1実施形態の制御部の機能の一例を示すブロック図
【
図4】第1実施形態の信号処理方法を示すフローチャート
【
図5A】画像データ内の判定領域を説明するための図
【
図5B】水平角における音源の方向を説明するための図
【
図5C】垂直角における音源の方向を説明するための図
【
図7】ビームフォーミングによる目的音の収音を説明するための図
【
図9】物体に取り付けられているマーカーの一例を示す図
【
図10】マーカーの画像サイズの算出を説明するための図
【
図11】目的音源までの距離の算出を説明するための図
【
図13】第2実施形態の制御部の機能の一例を示すブロック図
【
図15】第2の実施形態の信号処理方法を示すフローチャート
【
図16】第3実施形態の制御部の機能の一例を示すブロック図
【
図17】第3実施形態における距離に応じた音源の位置推定を説明するための図
【
図18】第3実施形態における距離に応じた収音方向の決定を説明するための図
【
図19】第3実施形態における距離に応じた収音の範囲を説明するための図
【
図20】第3実施形態のビームフォーミングの例を説明するための図
【
図21】他の実施形態における信号処理装置の構成を示すブロック図
【発明を実施するための形態】
【0010】
(本開示の基礎となった知見)
従来、音源となる物体の位置が水平方向及び垂直方向の二次元で特定され、特定された位置に基づいて目的音が収音されていた。しかし、マイクアレイから音源までの距離が遠い場合、精度の良い目的音を得ることが難しい。例えば、点音源の場合、音源からの距離がr[m]且つ音源からの基準距離がr0[m](例えば、r0=1)とすると、音の減衰量Q[dB]は、「Q=20×log10(r/r0)」となる。よって、マイクアレイから音源までの距離が遠くなると、音の減衰量は多くなる。よって、従来のように、水平方向及び垂直方向の二次元で特定した位置に基づく収音では、所望の目的音を得ることが難しかった。
【0011】
本開示の信号処理装置及び信号処理方法は、音源となる物体の位置を特定することによって収音した目的音を、マイクアレイから音源までの距離に応じて補正する。具体的には、本開示の信号処理装置及び信号処理方法は、物体に取り付けられている所定のマーカーを検出することによって、マイクアレイから音源までの距離を推定する。例えば、マイクアレイから音源までの距離が遠いほど、収音した目的音の音量をより多く増幅する。換言すると、本開示の信号処理装置及び信号処理方法によれば、水平方向及び垂直方向で特定された音源の位置と奥行き方向の音源までの距離とに基づいて目的音を取得する。よって、精度の良い目的音が得られる。
【0012】
(第1実施形態)
以下、実施形態について、図面を参照しながら説明する。本実施形態では、人の音声を収音する例について説明する。
【0013】
1. 信号処理装置の構成
図1は、本開示の信号処理装置の構成を示している。信号処理装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60を備える。信号処理装置1は、例えば、工場内で使用され、工場内にいる人の音声を収音する。本実施形態において、信号処理装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60が一体化された専用の収音機である。
【0014】
カメラ10は、CCDイメージセンサ、CMOSイメージセンサ、又はNMOSイメージセンサなどのイメージセンサを備える。カメラ10は、映像信号である画像データを生成して、出力する。
【0015】
マイクアレイ20は、複数のマイクロホンを備える。マイクアレイ20は、音波を受信して、電気信号である音響信号に変換して出力する。
【0016】
制御部30は、カメラ10から得られた画像データと、マイクアレイ20から得られた音響信号に基づいて、収音方向を決定する。収音方向は、目的音源が存在する方向である。目的音源は、目的音を出力する音源である。本実施形態では、目的音源は人であり、人の音声が目的音である。制御部30は、収音方向から到来する音を強調するような信号処理を行うことによって、マイクアレイ20が出力した音響信号から目的音を取り出す。制御部30は、半導体素子などで実現可能である。制御部30は、例えば、マイコン、CPU、MPU、DSP、FPGA、又はASICで構成することができる。
【0017】
記憶部40は、例えば、ハードディスク(HDD)、SSD、RAM、DRAM、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。カメラ10から得られた画像データ及びマイクアレイ20から得られた音響信号が記憶部40に格納されてもよい。
【0018】
入出力インタフェース部50は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、LAN、Wi-Fi(登録商標)、Bluetooth(登録商標)、USB、及びHDMI(登録商標)を含む。
【0019】
バス60は、カメラ10、マイクアレイ20、制御部30、記憶部40、及び入出力インタフェース部50を電気的に接続する信号線である。
【0020】
制御部30が画像データをカメラ10から取得又は記憶部40から取り出すときは、制御部30が画像データの入力部に相当する。制御部30が音響信号をマイクアレイ20から取得又は記憶部40から取り出すときは、制御部30が音響信号の入力部に相当する。
【0021】
図2は、第1実施形態における制御部30の機能的構成を示している。制御部30の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。
【0022】
制御部30は、物体検出部31、音源推定部32、方向決定部33、目的音収音部34、距離推定部35、及び目的音補正部36を含む。音源推定部32、方向決定部33、及び目的音収音部34は、収音制御部300を構成する。
【0023】
物体検出部31は、カメラ10によって生成された画像データvから目的物を検出する。物体検出部31は、検出した目的物の位置を示す情報である物体位置情報を出力する。目的物は、目的音を発する物体の全部又は一部である。本実施形態では、目的音を発する物体が人であり、目的物は人の顔である。物体検出部31は、例えば、動画1フレーム分又は静止画1枚分に相当する画像データv内の複数の判定領域r(θ,φ)内のそれぞれの画像が目的物である確率Pv(θ,φ)を算出する。以下、確率Pv(θ,φ)を「目的物確率」とも称する。物体検出部31は、画像データv内の各判定領域r(θ,φ)における目的物確率Pv(θ,φ)を物体位置情報として出力する。判定領域r(θ,φ)については後述する。
【0024】
音源推定部32は、マイクアレイ20から得られる音響信号sから音源の位置を算出することにより、音源の位置を推定する。音源推定部32は、推定した音源の位置を示す音源位置情報を出力する。具体的には、音源推定部32は、信号処理装置1に対する水平角θ及び垂直角φによって特定される方向に音源が存在する確率Ps(θ,φ)を算出する。以下、確率Ps(θ,φ)を「音源確率」とも称する。音源推定部32は、音源確率Ps(θ,φ)を音源位置情報として出力する。
【0025】
方向決定部33は、目的物確率Pv(θ,φ)と音源確率Ps(θ,φ)とに基づいて、収音方向を決定する。収音方向は、例えば、信号処理装置1に対する水平角θc及び垂直角φcで示される。
【0026】
目的音収音部34は、マイクアレイ20が出力した音響信号sに対して、収音方向から到来する音を強調するような信号処理を行って、音響信号sから目的音を取り出す。目的音収音部34は、さらに、雑音が低減されたクリアな音声を収音するために、収音方向以外の方向から到来する音を抑圧するような信号処理を行ってもよい。本実施形態において、目的音収音部34は、収音方向に基づいて音響信号sから目的音を抽出するようにビームフォームを設定するビームフォーム部である。
【0027】
距離推定部35は、マーカー情報41を参照して、画像データvからマーカーを検出し、検出したマーカーの画像サイズに基づいて、カメラ10からマーカーまでの距離を算出する。これにより、マイクアレイ20から目的音源までの距離が推定される。距離推定部35は、推定した距離を示す距離情報を出力する。
【0028】
マーカー情報41は、記憶部40に格納されている。マーカー情報41は、マイクアレイ20から目的音源までの距離の測定に使用されるマーカーに関する情報を含む。マーカーは、所定サイズである。マーカー情報41に含まれるマーカーの種類は、1つであってもよいし、複数であってもよい。マーカー情報41は、例えば、マーカーのサイズ及びマーカーの画像の特徴量を含む。
【0029】
距離推定部35は、例えば、画像データvから抽出した特徴量をマーカー情報41が示す特徴量と照合することによって、画像データv内からマーカーを検出する。距離推定部35は、検出したマーカーの画像サイズを、マーカー情報41が示すサイズと比較することによって、カメラ10から検出したマーカーまでの距離を推定する。これにより、マイクアレイ20から目的音源までの距離を推定する。距離推定部35は、画像データvから複数のマーカーを検出して、検出した複数のマーカーの画像サイズに基づいて、カメラ10から各マーカーまでの距離の比を算出してもよい。
【0030】
目的音補正部36は、目的音収音部34が取り出した目的音に対して、距離推定部35が推定した距離に応じた補正を行う。例えば、目的音補正部36は、音声信号を増幅する増幅器を含み、距離が遠いほど目的音の音量を増幅するような信号処理を行う。目的音補正部36は、目的音の周波数特性を距離に応じて変更してもよい。
【0031】
2. 信号処理装置の動作
2.1 目的音の収音の概要
図3は、収音環境の一例を模式的に示している。
図3において、信号処理装置1は、床面と平行になるように設置されている。
図3において、X軸及びY軸は信号処理装置1の向きを基準にした水平方向及び垂直方向をそれぞれ示し、Z軸は信号処理装置1の位置を基準にした奥行き方向を示す。例えば、マイクアレイ20から出力される音響信号のみによって収音方向を決定した場合、周囲の雑音源120が発する雑音が、人110の音声よりも大きいときに、目的音源の方向として雑音源120の方向が検出されてしまう。この場合、目的音として大きな雑音を収音してしまい、人の音声をクリアに収音することができない。マイクアレイ20と共にカメラ10を併用して収音方向を決定する場合、カメラ10の画像データに含まれる人110の顔の位置を検出することによって、人がいる方向を目的音源の方向として特定できる。これにより、人の音声を目的音として収音することができる。しかし、マイクアレイ20から人110までの距離d110が遠いと、人110の音声をクリアに収音することができない。例えば、音の減衰により、収音される音声の音量が小さくなる。よって、本実施形態では、収音した目的音を、マイクアレイ20から目的音源までの距離d110に応じて、補正する。
【0032】
2.2 信号処理装置の全体動作
図4は、第1実施形態の信号処理方法である制御部30による収音動作を示している。制御部30は、カメラ10によって生成された画像データvとマイクアレイ20から出力された音響信号sとを入力する(S1)。例えば、画像データv及び音響信号sが記憶部40に格納されているときは、制御部30は記憶部40から画像データv及び音響信号sを読み出す。物体検出部31は、画像データvに基づいて、目的物の位置を検出する(S2)。音源推定部32は、音響信号sに基づいて、音源の位置を推定する(S3)。方向決定部33は、物体検出部31が検出した目的物の位置と音源推定部32が推定した音源の位置とに基づいて、収音方向を決定する(S4)。目的音収音部34は、ビームフォーミングにより、収音方向に指向性を形成して目的音を収音する(S5)。距離推定部35は、画像データvに基づいて、マイクアレイ20から目的音源までの距離を推定する(S6)。目的音補正部36は、マイクアレイ20から目的音源までの距離に基づいて目的音を補正する(S7)。
【0033】
図4において、ステップS2の目的物の位置検出と、ステップS3の音源の位置推定の順序は、逆であってもよい。ステップS6の距離推定は、ステップS7の目的音の補正よりも前であればよく、例えば、ステップS2とステップS3との間であってもよい。
【0034】
2.3 目的物の位置検出
目的物の位置検出(S2)の詳細について説明する。
【0035】
図5Aは、画像データv内における目的物の位置を検出するための判定領域r(θ,φ)を示している。カメラ10が生成する画像データvは、カメラ10の水平画角及び垂直画角に応じた複数の判定領域r(θ,φ)に分割されうる。なお、カメラ10の種類に応じて、画像データvは、円周状に分割されてもよいし、格子状に分割されてもよい。
【0036】
ステップS2において、物体検出部31は、判定領域r(θ,φ)毎に目的物が存在するか否かを判定する。具体的には、物体検出部31は、画像データv内において判定領域r(θ,φ)内の画像が目的物である確率Pv(θ,φ)を算出する。目的物の検出方法は、任意である。一例として、目的物の検出は、各判定領域r(θ,φ)が目的物の特徴と一致しているか否かを判定することによって行う(「Rapid Object Detection using a Boosted Cascade of Simple Features」 ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001を参照)。
【0037】
本実施形態では目的物として人の顔を検出するため、例えば、物体検出部31は、顔の異なる特徴を示す情報を有するN個の弱識別器を備える。物体検出部31は、N個の弱識別器により、判定領域r(θ,φ)内の画像が顔であると判定した回数C(r(θ,φ))を計算する。物体検出部31は、画像データv内の全ての判定領域r(θ,φ)について、顔であるか否かの判定を行うと、式(1)によって、画像データv内において水平角θ及び垂直角φで特定される位置の画像が顔である確率Pv(θ,φ)を算出する。
【0038】
【0039】
2.4 音源の位置推定
音源の位置推定(S3)の詳細について説明する。
図5Bは、マイクアレイ20に到来する音波の水平方向の位置を模式的に示している。
図5Cは、マイクアレイ20に到来する音波の垂直方向の位置を模式的に示している。
【0040】
ステップS3において、音源推定部32は、水平角θ及び垂直角φで特定される方向に音源が存在する確率Ps(θ,φ)を算出する。音源の位置の推定方法は、任意である。例えば、音源の位置推定は、CSP(Cross-Power Spectrum Phase Analysis)法又はMUSIC(Multiple Signal Classification)法を使用して行うことができる。
【0041】
ステップS3における音源の位置推定方法の一例であるCSP法について説明する。
図6は、音波がマイクアレイ20のマイクロホン20i及び20jに到来する状態を模式的に示している。マイクロホン20i及び20j間の距離dに応じて、音波がマイクロホン20i及び20jに到来するときに時間差τが生じる。音源推定部32は、水平角θにおいて、音源が存在する確率Ps(θ)を、CSP係数を用いた式(2)により算出する。
【0042】
【0043】
ここで、CSP係数は、式(3)によって求めることができる(電子情報通信学会論文誌 D-II Vol.J83-D-II No.8 pp.1713-1721、「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」を参照)。式(3)において、nは時間、Si(n)はマイクロホン20iで受音した音響信号、Sj(n)はマイクロホン20jで受音した音響信号を示している。式(3)において、DFTは、離散フーリエ変換を示す。また、*は共役複素数を示す。
【0044】
【0045】
時間差τは、音速c、マイクロホン20i,20j間の距離d、及びサンプリング周波数Fsを用いて、式(4)によって表せる。
【0046】
【0047】
よって、式(5)に示すように、式(2)のCSP係数を式(4)によって時間軸から方向軸に変換することによって、水平角θにおいて音源が存在する確率Ps(θ)を算出できる。
【0048】
【0049】
垂直角φにおける音源が存在する確率Ps(φ)は、水平角θにおける確率Ps(θ)と同様に、CSP係数と時間差τによって算出できる。また、確率Ps(θ)及び確率Ps(φ)に基づいて、水平角θ且つ垂直角φに音源が存在する確率Ps(θ,φ)を算出できる。
【0050】
2.5 収音方向の決定
収音方向の決定(S4)の詳細について説明する。
図5A~
図5Cに示すように、カメラ10が生成する画像データv内の座標系の位置は、カメラ10の画角に応じて、マイクアレイ20に到来する音波の発生方向を示す水平角θ及び垂直角φに対応付けられる。ステップS4において、方向決定部33は、目的物確率Pv(θ,φ)と音源確率Ps(θ,φ)とを用いて、目的音を発する人がいる確率P(θ,φ)を式(6)によって算出する。
【0051】
【0052】
それから、方向決定部33は、式(7)により、確率P(θ,φ)が最大となる水平角θ及び垂直角φを収音方向として決定する。
【0053】
【0054】
2.6 目的音の収音
目的音の収音(S5)の詳細について説明する。
図7は、目的音収音部34によるビームフォーミングを例示している。
図7では、マイクアレイ20が2つのマイクロホン20i,20jを含む例を示している。本実施形態では、マイクアレイ20が2つのマイクロホン20i及び20jを含む例について説明するが、マイクアレイ20は2つ以上のマイクロホンを含んでもよい。マイクロホン20i,20jにおける水平角θの方向から到来する音波の受信のタイミングは、マイクロホン20i,20j間の距離dに応じて異なる。具体的には、マイクロホン20jにおいては、距離dcosθに応じた分の伝搬遅延が発生する。すなわち、マイクロホン20i,20jから出力される音響信号において位相差が生じる。
【0055】
本実施形態では、目的音収音部34は、遅延器34a及び加算器34bを有する。ステップS5において、目的音収音部34は、マイクアレイ20が出力した音響信号に対して、ビームフォーミングにより、収音方向である水平角θc且つ垂直角φcから到来する音を強調するような信号処理を行う。具体的には、遅延器34aは、収音方向である水平角θcに応じた遅延量に基づいて、マイクロホン20iに入力された入力信号Si(n)について、マイクロホン20jに入力された入力信号Sj(n)との到来時間差を補正する。加算器34bは、補正後の入力信号Si(n)と入力信号Sj(n)の和に基づいて出力信号T(n)を生成する。
【0056】
加算器34bの入力において、収音方向である水平角θcから到来する信号の位相は一致するため、出力信号T(n)において収音方向から到来する信号は強調される。一方、水平角θc以外の方向から到来した信号は、互いに位相が一致しないため、水平角θcから到来した信号ほど強調されることはない。よって、例えば、加算器34bの出力を用いることによって、水平角θcの方向に指向性が形成される。これにより、収音方向である水平角θcから到来する音波が目的音として収音される。
図7の例では、水平角θcにおける収音方向について例示しているが、垂直角φcにおける収音方向についても同様に、指向性を形成することができる。なお、ビームフォーミングの方法は任意であり、
図7に示す方法以外で行ってもよい。
【0057】
2.7 目的物までの距離の推定
目的物までの距離の推定(S6)の詳細について説明する。
図8は、距離推定部35によるマイクアレイ20から目的音源までの距離の推定動作(S6の詳細)を示している。
図9は、距離の推定に使用されるマーカーの一例を示している。
図10は、マーカーの画像サイズの算出を説明するための図である。
図11は、マーカーの画像サイズに基づく目的音源までの距離の推定を説明するための図である。
【0058】
距離推定部35は、記憶部40に格納されているマーカー情報41に基づいて、カメラ10が生成した画像データvからマーカーを検出する(S601)。
図9に示すように、本実施形態におけるマーカー70は帽子に付いているマークである。例えば、このようなマークは、所定の原寸サイズで統一されている。本実施形態において、少なくとも目的音を発する人は、マーカー70が付いた帽子をかぶっている。例えば、工場内で作業している作業員全員がこの帽子をかぶっていてもよい。本実施形態において、マーカー70は正方形である。しかし、マーカー70の形状は正方形に限らず、例えば、三角形、5角以上の多角形、又は円形であってもよい。マーカー70は、サイズが固定であって、目的音を発する物体に取り付け可能なものであればよい。マーカー70は、平面状であってもよいし、他の形状であってもよい。
【0059】
距離推定部35は、検出したマーカー70の画像サイズを算出する(S602)。例えば、
図10に示すように、距離推定部35は、画像データv内に含まれる全てのマーカー70の画像サイズm1,m2を算出してもよい。距離推定部35は、収音方向である水平角θc且つ垂直角φcにあるマーカー70についてのみ、画像サイズm2を算出してもよい。画像サイズは、例えば、ピクセル値で表される。
【0060】
距離推定部35は、マーカー70の画像サイズに基づいて、マイクアレイ20から目的音源までの距離を推定する(S603)。例えば、
図11に示すように、距離推定部35は、記憶部40に格納されているマーカー情報41が示すマーカーのサイズと、ステップS602で算出したマーカーの画像サイズとに基づいて、カメラ10からマーカーまでの距離を算出する。これにより、マイクアレイ20から目的音源までの距離である絶対距離を推定する。例えば、距離推定部35は、収音方向である水平角θc且つ垂直角φcにあるマーカー70が目的音源に対応すると判断して、マイクアレイ20から目的音源までの距離を推定する。ステップS601において、画像データv内においてマーカー70を1つしか検出しなかった場合は、そのマーカー70までの距離を目的音源までの距離として推定してもよい。距離推定部35は、画像データv内に含まれる複数のマーカー70の画像サイズm1,m2に基づいて、マイクアレイ20から目的音源までの相対的な距離に関して、例えば「d2/d1」を算出してもよい。
【0061】
2.8 目的音の補正
目的音の補正(S7)の詳細について説明する。
図12は、目的音補正部36による目的音の補正の一例であって、目的音補正部36に入力される信号の波形と目的音補正部36から出力される信号の波形を示している。例えば、目的音補正部36は、マイクアレイ20から目的音源までの距離が遠いときに、目的音収音部34から出力される音声信号の振幅を増幅する。これにより、マイクアレイ20から目的音源までの距離が遠く音の減衰量が多い場合であっても、音量を増幅した目的音が得られる。マイクアレイ20から目的音源までの距離に応じて増幅量を異ならせてもよい。例えば、距離が遠いほど増幅量を増加させてもよい。目的音補正部36は、
図12に示すように、目的音が含まれる区間の信号の振幅を増幅する。目的音補正部36は、マイクアレイ20から目的音源までの距離に応じて目的音の音声信号の周波数特性を変更してもよい。例えば、距離が遠いほどノイズをより多く低減するようなノイズリダクションを行ってもよい。例えば、距離が遠いほど、高域側の帯域の周波数成分をより強調してもよい。目的音補正部36は、マイクアレイ20から目的音源までの絶対距離を所定の閾値と比較して、絶対距離が閾値以上のときに、目的音を補正してもよい。目的音補正部36は、例えば、人Aに対する人Bの相対距離を所定の閾値と比較して、相対距離が閾値以上のときに、人Bが発する目的音を補正してもよい。
【0062】
3. 効果及び補足
本実施形態の信号処理装置1は、音源となる物体から出力される目的音を収音する収音機である。信号処理装置1は、カメラ10によって生成された画像データvとマイクアレイ20から出力された音響信号sとを入力する入力部と、画像データvと音響信号sとに基づいて音響信号sの収音方向を制御する制御部30とを有する。入力部は、例えば、画像データvをカメラ10から取得又は記憶部40から読み出す制御部30である。入力部は、例えば、音響信号sをマイクアレイ20から取得又は記憶部40から読み出す制御部30である。制御部30は、距離推定部35と目的音補正部36とを含む。距離推定部35は、画像データvから目的物に取り付けられているマーカー70を検出し、検出したマーカー70に基づいて、マイクアレイ20から目的音源までの距離を推定して、推定した距離を示す距離情報を出力する。目的音補正部36は、距離情報に基づいて目的音を補正する。
【0063】
このように、信号処理装置1は、カメラ10とマイクアレイ20を使用して音源となる物体の位置を特定することによって収音した目的音を、マイクアレイ20から目的音源までの距離に応じて補正する。換言すると、信号処理装置1は、水平方向及び垂直方向で特定された位置と奥行き方向の距離とに基づいて所望の目的音を取得する。よって、精度の良い目的音が得られる。補正後の目的音を、例えば、音声認識に使用する場合、補正前の目的音を使用する場合と比較して、音声認識の精度が良くなる。
【0064】
マーカー70は、所定サイズを有し、距離推定部35は、画像データにおけるマーカー70の画像サイズに基づいて、カメラ10からマーカー70までの距離を算出することにより、マイクアレイ20から目的音源までの距離を推定する。これにより、精度良く、マイクアレイ20から目的音源までの距離を推定することができる。
【0065】
(第2実施形態)
第1実施形態では、マイクアレイ20から目的音源までの距離に応じて目的音を補正した。本実施形態では、距離に加えて、目的音源の属性に基づいて目的音を補正する。
【0066】
図13は、第2実施形態における制御部30の機能的構成を示している。本実施形態の制御部30は、第1実施形態の制御部30の機能的構成に加え、属性取得部37をさらに備える。属性取得部37は、画像データvから属性情報を取得する。
【0067】
図14は、属性情報を含むマーカーの一例を示している。属性情報は、音源の属性を識別する情報であり、本実施形態では目的音源である人に関する属性を示す。属性情報は、例えば、人の性別を示す。属性情報は、工場で働いている人を識別する情報であってもよい。属性情報を含むマーカー70は、例えば、QRコード(登録商標)又はARマーカーである。属性情報は、マーカー70の一部に含まれもよいし、マーカー70の全体で表されてもよい。
【0068】
図15は、第2実施形態における信号処理装置1の制御部30の動作を示している。
図5のステップS11~S16は、第1実施形態の
図4のステップS1~S6と同一である。本実施形態では、属性取得部37は、画像データvから属性情報を取得して、目的音源の属性を識別する(S17)。属性取得部37は、ステップS16において検出したマーカー70の画像内から属性情報を取得して、例えば、目的物の性別を識別する。QRコードを解析するためのプログラムが記憶部40に格納されていてもよい。
【0069】
目的音補正部36は、ステップS16で推定された距離と、ステップS17で識別された属性とに基づいて、目的音を補正する(S18)。例えば、目的音補正部36は、マイクアレイ20から人までの距離に応じて音声信号を増幅すると共に、その人の性別に応じて音声信号の周波数特性を変更する。
【0070】
このように、本実施形態では、マーカー70は、目的音源の属性を識別する属性情報を含む。制御部30は、画像データvから属性情報を取得する属性取得部37をさらに含み、目的音補正部36は、距離情報と属性情報とに基づいて目的音を補正する。これにより、より精度の良い目的音が得られる。
【0071】
(第3実施形態)
第1実施形態において、制御部30は、収音した目的音をカメラ10からマーカー70までの距離に応じて補正した。本実施形態では、制御部30は、目的音の補正に加え、カメラ10からマーカー70までの距離に応じて収音を制御する。すなわち、本実施形態では、目的音を収音した後だけでなく、目的音を収音するときに、カメラ10からマーカー70までの距離の情報を使用する。
【0072】
図16は、第3実施形態における制御部30の機能的構成を示している。本実施形態では、カメラ10からマーカー70までの距離を示す距離情報が、距離推定部35から収音制御部300に出力される。音源推定部32は、カメラ10からマーカー70までの距離に応じて、音源の位置を推定する。方向決定部33は、収音方向を決定するときに、カメラ10からマーカー70までの距離に応じて、物体位置情報と音源位置情報の優先度、すなわち、目的物確率Pv(θ,φ)に対する音源確率Ps(θ,φ)の重みを変更する。目的音収音部34は、カメラ10からマーカー70までの距離に応じて、収音方向の範囲、すなわち、収音方向を示す水平角θc及び垂直角φcのビーム幅を変更する。なお、本実施形態では、音源推定部32、方向決定部33、及び目的音収音部34の全てが、距離情報を使用する例について説明するが、音源推定部32、方向決定部33、及び目的音収音部34の少なくともいずれか一つが距離情報を使用する構成であってもよい。
【0073】
図17は、距離に応じた音源の位置推定を説明するための図である。マイクアレイ20から音源までの距離が遠いほど、音響信号sから推定される音源確率Ps(θ,φ)が低くなる。よって、例えば、音源推定部32は、上記式(5)により算出される音源確率Ps(θ)に対して、カメラ10からマーカー70までの距離が遠いほど係数kの値が大きくなるように係数kを水平角θ毎に設定して、「Ps(θ)×k(θ)」を算出してもよい。垂直角φについても同様に、カメラ10からマーカー70までの距離が遠いほど、係数kの値が大きくなるように係数kを垂直角φ毎に設定して、「Ps(φ)×k(φ)」を算出してもよい。音源推定部32は、「Ps(θ,φ)×k(θ,φ)」を音源位置情報として方向決定部33に出力してもよい。
【0074】
図18は、方向決定部33による収音方向の決定を説明するための図である。例えば、方向決定部33は、上記式(6)に基づく方向の決定において、カメラ10からマーカー70までの距離が遠いほど、音源確率Ps(θ,φ)の重みWが小さくなるようにして、「Pv(θ,φ)+W×Ps(θ,φ)」により、目的音源である人がいる確率P(θ,φ)を算出してもよい。このように、カメラ10からマーカー70までの距離に応じて、画像データから得られた目的物確率Pv(θ,φ)と音響信号から得られた音源確率Ps(θ,φ)の優先度を変えてもよい。例えば、
図18において、目的物確率Pv(θ)が優先された場合は実線181に示す確率分布となり、音源確率Ps(θ)が優先された場合は破線182で示す確率分布となる。
【0075】
図19は、目的音収音部34による目的音の収音の範囲を模式的に示している。目的音収音部34は、例えば、決定された収音方向の水平角θcに対して実際に指向性を形成する範囲であるビーム幅「θc±α」を、マイクアレイ20から目的音源までの距離が遠いほど小さくなるように角度αを設定してもよい。収音方向の垂直角φcに対しても同様に、マイクアレイ20から目的音源までの距離が遠いほど、指向性を形成する範囲であるビーム幅「φc±β」が小さくなるように角度βを設定してもよい。
【0076】
図20に、第3実施形態におけるマイクアレイ20と目的音収音部34の構成の一例を示す。本実施形態では、マイクアレイ20は3つ以上のマイクロホン201a~201nを含む。目的音収音部34は、
図20に示すように、複数の遅延器341a~341n、複数のフィルタ342a~342n、及び加算器343を含む、所謂、遅延和ビームフォーミングの構成を有する。複数の遅延器341a~341nは、水平方向においては水平角「θc-α」から水平角「θc+α」の範囲に対応する遅延量D1~Dn、垂直方向においては垂直角「φc-β」から「φc+β」の範囲に対応する遅延量D1~Dnにより、入力した音響信号を遅延させて出力する。この角度α及び角度βをマイクアレイ20から目的音源までの距離に応じて変更するように、各々の遅延量D1~Dnを適宜、変化させることで、ビーム幅を任意に変えることができる。なお、ビーム幅は、決定した収音方向の水平角θc、垂直角φcを中心とした幅でなくてもよい。
【0077】
以上のように、音源推定部32が、音響信号から音源確率Ps(θ,φ)を算出し、音源確率を距離情報に基づいて変更して音源位置情報を生成してもよい。方向決定部33が、収音方向を決定するときの、物体位置情報と音源位置情報の優先度を距離情報に基づいて変更してもよい。目的音収音部34が、距離情報に基づいて収音方向を含むビーム幅を変更してもよい。このように、カメラ10からマーカー70までの距離、すなわちマイクアレイ20から目的音源までの距離に応じて収音を制御することで、より精度の良い目的音が得られる。
【0078】
(他の実施形態)
以上のように、本出願において開示する技術の例示として、第1~第3実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態1~3で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。
【0079】
信号処理装置1は、カメラ10とマイクアレイ20のいずれか一方又は両方を内蔵していなくてもよい。例えば、
図21に示すように、信号処理装置1は、外付けのカメラ10及びマイクアレイ20と電気的に接続されてもよい。信号処理装置1は、カメラ10を備えたスマートフォンなどの電子機器であって、マイクアレイ20を備えた外部機器と電気的及び機械的に接続されてもよい。入出力インタフェース部50が信号処理装置1に外付けされたカメラ10から画像データを入力するときは、入出力インタフェース部50が画像データの入力部に相当する。入出力インタフェース部50が信号処理装置1に外付けされたマイクアレイ20から音響信号を入力するときは、入出力インタフェース部50が音響信号の入力部に相当する。
【0080】
上記実施形態では、目的音補正部36は、マイクアレイ20から目的音源までの距離に基づいて目的音を補正したが、信号処理装置1は目的音補正部36を備えなくてもよい。この場合、収音制御部300がカメラ10からマーカー70までの距離に基づいて収音を制御するだけであってもよい。例えば、音源推定部32、方向決定部33、及び目的音収音部34のうちの少なくともいずれか一つが、カメラ10からマーカー70までの距離を示す距離情報を使用する構成であってもよい。
【0081】
上記実施形態では、制御部30は、カメラ10から得られた画像データとマイクアレイ20から得られた音響信号の両方に基づいて収音方向を決定した。しかし、収音方向の決定を画像データのみで行ってもよく、この場合、制御部30は、音源推定部32を備えなくてもよい。収音方向の決定を音響信号のみで行ってもよく、この場合、制御部30は、物体検出部31を備えなくてもよい。例えば、
図3に示すような収音環境において、雑音源120が存在しても人が1人しか存在しない場合は画像データのみで収音方向を決定してもよい。例えば、複数の人が存在し且つ雑音源120が存在しない場合は、音響信号のみで収音方向を決定してもよい。
【0082】
上記実施形態では、収音方向として、水平角θc及び垂直角φcをそれぞれ決定する場合について説明したが、水平角θc及び垂直角φcの少なくともいずれか一方のみで、目的音源の方向を特定できる場合は、水平角θc及び垂直角φcの少なくともいずれか一方を決定するだけであってもよい。
【0083】
上述のマーカー情報41を使用した処理は、深層学習等の機械学習を利用して入力画像からマーカーを検出するように学習した学習済みモデルを用いて実現されてもよい。
【0084】
上記実施形態においては、人の顔を検出する例について説明したが、人の音声を収音する場合、目的物は、人の顔に限らず、人として認識できる部分であればよい。例えば、目的物は、人の身体又は唇であってもよい。
【0085】
上記実施形態において、例えば、目的音源が複数の場合、複数の目的音源の各々の収音方向である水平角θc且つ垂直角φcに応じて、ビーム幅を調整してもよい。
【0086】
上記実施形態においては、人の音声を目的音として収音したが、目的音は人の音声に限らない。例えば、目的音は、車の音、動物の鳴き声、又は工場内の設備の動作音であってもよい。例えば、目的音がモータの動作音である場合、信号処理装置1により得られた目的音の信号を使用して、モータの動作音が正常か異常かを精度良く判定することが可能となる。
【0087】
(実施形態の概要)
(1)本開示の信号処理装置は、音源となる物体から出力される目的音を収音する信号処理装置であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、画像データと音響信号の少なくともいずれか一方に基づいて、マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を制御する制御部と、を有し、制御部は、画像データから物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定して、推定した距離を示す距離情報を出力する距離推定部と、距離情報に基づいて目的音を補正する目的音補正部と、を含む。
【0088】
これにより、精度の良い目的音が得られる。
【0089】
(2)(1)の信号処理装置において、マーカーは、所定サイズを有し、距離推定部は、画像データにおけるマーカーの画像サイズに基づいて、カメラからマーカーまでの距離を算出することにより、マイクアレイから音源までの距離を推定してもよい。
【0090】
これにより、精度良く、マイクアレイから音源までの距離を推定することができる。
【0091】
(3)(1)の信号処理装置において、マーカーは、音源の属性を識別する属性情報を含み、制御部は、画像データから属性情報を取得する属性取得部をさらに含み、目的音補正部は、距離情報と属性情報とに基づいて目的音を補正してもよい。
【0092】
これにより、より精度の良い目的音が得られる。
【0093】
(4)(1)の信号処理装置において、制御部は、画像データに基づいて物体の位置を検出して、検出した物体の位置を示す物体位置情報を出力する物体検出部と、音響信号に基づいて音源の位置を推定して、推定した音源の位置を示す音源位置情報を出力する音源推定部と、物体位置情報と音源位置情報とに基づいて収音方向を決定する方向決定部と、収音方向に基づいて音響信号から目的音を抽出するようにビームフォームを設定するビームフォーム部とを含んでもよい。
【0094】
(5)(4)の信号処理装置において、音源推定部は、音響信号から水平方向及び垂直方向の少なくとも一方において音源の存在確率を算出し、音源の存在確率を距離情報に基づいて変更して音源位置情報を生成してもよい。
【0095】
(6)(4)の信号処理装置において、方向決定部は、収音方向を決定するときの、物体位置情報と音源位置情報の優先度を距離情報に基づいて変更してもよい。
【0096】
(7)(4)の信号処理装置において、ビームフォーム部は、距離情報に基づいて収音方向を含むビーム幅を変更してもよい。
【0097】
(8)(1)の信号処理装置は、カメラ及びマイクアレイのうちの少なくとも一方を備えてもよい。
【0098】
(9)本開示の他の信号処理装置は、音源となる物体から出力される目的音を収音する信号処理装置であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、画像データと音響信号の少なくともいずれか一方に基づいてマイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を制御する制御部と、を有し、制御部は、画像データに基づいて物体の位置を検出して、検出した物体の位置を示す物体位置情報を出力する物体検出部と、音響信号に基づいて音源の位置を推定して、推定した音源の位置を示す音源位置情報を出力する音源推定部と、画像データから物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定し、推定した距離を示す距離情報を出力する距離推定部と、を含み、物体位置情報と音源位置情報と距離情報とに基づいて、目的音の収音を制御する。
【0099】
(10)本開示の信号処理方法は、演算部により、音源となる物体から出力される目的音を収音する信号処理方法であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力するステップと、画像データにおいて、物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定するステップと、画像データと音響信号の少なくともいずれか一方に基づいて、マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を決定するステップと、収音方向に基づいて音響信号から目的音を抽出するようにビームフォームを設定するステップと、目的音を推定した距離に基づいて補正するステップと、を含む。
【0100】
これにより、精度の良い目的音が得られる。
【0101】
本開示の全請求項に記載の信号処理装置及び信号処理方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。
【産業上の利用可能性】
【0102】
本開示の信号処理装置は、例えば、会話中の人の音声を収音する装置として、有用である。
【符号の説明】
【0103】
1 信号処理装置
10 カメラ
20 マイクアレイ
30 制御部
40 記憶部
50 入出力インタフェース部
60 バス
31 物体検出部
32 音源推定部
33 方向決定部
34 目的音収音部
35 距離推定部
36 目的音補正部
37 属性取得部