7194897 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7194897信号処理装置及び信号処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-15

(45)【発行日】2022-12-23

(54)【発明の名称】信号処理装置及び信号処理方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20221216BHJP

G06T 7/60 20170101ALI20221216BHJP

G10K 11/34 20060101ALI20221216BHJP

H04R 1/40 20060101ALI20221216BHJP

【ＦＩ】

H04R3/00 320

G06T7/60 180B

G10K11/34 100

H04R1/40 320A

【請求項の数】 10

(21)【出願番号】P 2018229368

(22)【出願日】2018-12-06

(65)【公開番号】P2020092358

(43)【公開日】2020-06-11

【審査請求日】2021-11-11

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100106518

【弁理士】

【氏名又は名称】松谷道子

(74)【代理人】

【識別番号】100199314

【弁理士】

【氏名又は名称】竹内寛

(72)【発明者】

【氏名】宇佐見陽

(72)【発明者】

【氏名】廣瀬良文

(72)【発明者】

【氏名】足立祐介

【審査官】渡邊正宏

(56)【参考文献】

【文献】特開２０１１－０７１６８６（ＪＰ，Ａ）

【文献】国際公開第２０１８／１９３８２６（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１８／０２３１６５３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／６０

Ｇ１０Ｋ１１／００－１３／００

Ｈ０３Ｆ１／００－３／４５

Ｈ０３Ｆ３／５０－３／５２

Ｈ０３Ｆ３／６２－３／６４

Ｈ０３Ｆ３／６８－３／７２

Ｈ０３Ｇ１／００－３／３４

Ｈ０４Ｒ１／２０－１／４０

Ｈ０４Ｒ３／００－３／１４

(57)【特許請求の範囲】

【請求項1】

音源となる物体から出力される目的音を収音する信号処理装置であって、
カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、
前記画像データと前記音響信号の少なくともいずれか一方に基づいて、前記マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における前記音響信号の収音方向を制御する制御部と、
を有し、
前記制御部は、
前記画像データから前記物体に取り付けられている所定のマーカーを検出し、検出した前記マーカーに基づいて、前記マイクアレイから前記音源までの距離を推定して、前記推定した距離を示す距離情報を出力する距離推定部と、
前記距離情報に基づいて前記目的音を補正する目的音補正部と、
を含む、信号処理装置。

【請求項2】

前記マーカーは、所定サイズを有し、
前記距離推定部は、前記画像データにおける前記マーカーの画像サイズに基づいて、前記カメラから前記マーカーまでの距離を算出することにより、前記マイクアレイから前記音源までの距離を推定する、
請求項１に記載の信号処理装置。

【請求項3】

前記マーカーは、前記音源の属性を識別する属性情報を含み、
前記制御部は、前記画像データから前記属性情報を取得する属性取得部をさらに含み、
前記目的音補正部は、前記距離情報と前記属性情報とに基づいて前記目的音を補正する、
請求項１に記載の信号処理装置。

【請求項4】

前記制御部は、
前記画像データに基づいて前記物体の位置を検出して、検出した前記物体の位置を示す物体位置情報を出力する物体検出部と、
前記音響信号に基づいて前記音源の位置を推定して、推定した前記音源の位置を示す音源位置情報を出力する音源推定部と、
前記物体位置情報と前記音源位置情報とに基づいて前記収音方向を決定する方向決定部と、
前記収音方向に基づいて前記音響信号から前記目的音を抽出するようにビームフォームを設定するビームフォーム部と、
を含む、請求項１に記載の信号処理装置。

【請求項5】

前記音源推定部は、前記音響信号から水平方向及び垂直方向の少なくとも一方において前記音源の存在確率を算出し、前記音源の存在確率を前記距離情報に基づいて変更して前記音源位置情報を生成する、
請求項４に記載の信号処理装置。

【請求項6】

前記方向決定部は、前記収音方向を決定するときの、前記物体位置情報と前記音源位置情報の優先度を前記距離情報に基づいて変更する、
請求項４に記載の信号処理装置。

【請求項7】

前記ビームフォーム部は、前記距離情報に基づいて前記収音方向を含むビーム幅を変更する、
請求項４に記載の信号処理装置。

【請求項8】

前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える、
請求項１に記載の信号処理装置。

【請求項9】

音源となる物体から出力される目的音を収音する信号処理装置であって、
カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、
前記画像データと前記音響信号の少なくともいずれか一方に基づいて、前記マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における前記音響信号の収音方向を制御する制御部と、
を有し、
前記制御部は、
前記画像データに基づいて前記物体の位置を検出して、検出した前記物体の位置を示す物体位置情報を出力する物体検出部と、
前記音響信号に基づいて前記音源の位置を推定して、推定した前記音源の位置を示す音源位置情報を出力する音源推定部と、
前記画像データから前記物体に取り付けられている所定のマーカーを検出し、検出した前記マーカーに基づいて、前記マイクアレイから前記音源までの距離を推定し、前記推定した距離を示す距離情報を出力する距離推定部と、
を含み、
前記物体位置情報と前記音源位置情報と前記距離情報とに基づいて、前記目的音の収音を制御する、
信号処理装置。

【請求項10】

演算部により、音源となる物体から出力される目的音を収音する信号処理方法であって、
カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力するステップと、
前記画像データにおいて、前記物体に取り付けられている所定のマーカーを検出し、検出した前記マーカーに基づいて、前記マイクアレイから前記音源までの距離を推定するステップと、
前記画像データと前記音響信号の少なくともいずれか一方に基づいて、前記マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における前記音響信号の収音方向を決定するステップと、
前記収音方向に基づいて前記音響信号から前記目的音を抽出するようにビームフォームを設定するステップと、
前記目的音を前記推定した距離に基づいて補正するステップと、
を含む、信号処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音響信号を信号処理する信号処理装置及び信号処理方法に関する。

【背景技術】

【0002】

特許文献１は、音の到来方向の算出と音の異常性の判定とを行う音監視装置を開示している。音監視装置は、音の到来方向についての情報と音の異常性についての情報とを組み合わせた情報を、撮像した画像に重ねて表示している。この組み合わせた情報が画像を表示する表示手段の表示範囲外に存在する場合には、音の到来方向に対応する表示範囲の上端、下端、左端又は右端に組み合わせた情報を表示している。これにより、異常音が音監視装置の表示範囲外で生じた場合であっても異常音の到来方向を認識することができるようにしている。

【0003】

特許文献２は、画像情報と音声などの二次感覚情報とに基づいて、主被写体の注視又は追尾を自動的に行う主被写体推定装置を開示している。主被写体推定装置は、画像情報により検出された特定人と二次感覚情報により検出された特定人とが一致している場合に、画像情報から検出された特定人の位置及び検出結果の信頼度と、二次感覚情報から検出された特定人の位置及び検出結果の信頼度とに基づいて、一致する特定人の位置を推定している。これにより、注視又は追尾すべき主被写体を見失うことなく適正に検出し続けることができるようにしている。

【先行技術文献】

【特許文献】

【0004】

【文献】特許５２３５０７０号公報

【文献】特許４６６９１５０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、精度の良い目的音が得られる信号処理装置及び信号処理方法を提供する。

【課題を解決するための手段】

【0006】

本開示の一態様の信号処理装置は、音源となる物体から出力される目的音を収音する信号処理装置であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、画像データと音響信号の少なくともいずれか一方に基づいて、マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を制御する制御部と、を有し、制御部は、画像データから物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定して、推定した距離を示す距離情報を出力する距離推定部と、距離情報に基づいて目的音を補正する目的音補正部と、を含む。

【0007】

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

【発明の効果】

【0008】

本開示の信号処理装置及び信号処理方法によれば、収音した目的音をマイクアレイから音源までの距離に基づいて補正するため、精度の良い目的音が得られる。

【図面の簡単な説明】

【0009】

【図1】第１～第３実施形態の信号処理装置の構成を示すブロック図

【図2】第１実施形態の制御部の機能の一例を示すブロック図

【図3】収音環境の一例を模式的に示す図

【図4】第１実施形態の信号処理方法を示すフローチャート

【図5A】画像データ内の判定領域を説明するための図

【図5B】水平角における音源の方向を説明するための図

【図5C】垂直角における音源の方向を説明するための図

【図6】音源の位置の推定を説明するための図

【図7】ビームフォーミングによる目的音の収音を説明するための図

【図8】距離の推定の詳細を示すフローチャート

【図9】物体に取り付けられているマーカーの一例を示す図

【図10】マーカーの画像サイズの算出を説明するための図

【図11】目的音源までの距離の算出を説明するための図

【図12】目的音の補正を説明するための図

【図13】第２実施形態の制御部の機能の一例を示すブロック図

【図14】属性情報を含むマーカーの一例を示す図

【図15】第２の実施形態の信号処理方法を示すフローチャート

【図16】第３実施形態の制御部の機能の一例を示すブロック図

【図17】第３実施形態における距離に応じた音源の位置推定を説明するための図

【図18】第３実施形態における距離に応じた収音方向の決定を説明するための図

【図19】第３実施形態における距離に応じた収音の範囲を説明するための図

【図20】第３実施形態のビームフォーミングの例を説明するための図

【図21】他の実施形態における信号処理装置の構成を示すブロック図

【発明を実施するための形態】

【0010】

（本開示の基礎となった知見）
従来、音源となる物体の位置が水平方向及び垂直方向の二次元で特定され、特定された位置に基づいて目的音が収音されていた。しかし、マイクアレイから音源までの距離が遠い場合、精度の良い目的音を得ることが難しい。例えば、点音源の場合、音源からの距離がｒ［ｍ］且つ音源からの基準距離がｒ０［ｍ］（例えば、ｒ０＝１）とすると、音の減衰量Ｑ［ｄＢ］は、「Ｑ＝２０×ｌｏｇ_１０（ｒ／ｒ０）」となる。よって、マイクアレイから音源までの距離が遠くなると、音の減衰量は多くなる。よって、従来のように、水平方向及び垂直方向の二次元で特定した位置に基づく収音では、所望の目的音を得ることが難しかった。

【0011】

本開示の信号処理装置及び信号処理方法は、音源となる物体の位置を特定することによって収音した目的音を、マイクアレイから音源までの距離に応じて補正する。具体的には、本開示の信号処理装置及び信号処理方法は、物体に取り付けられている所定のマーカーを検出することによって、マイクアレイから音源までの距離を推定する。例えば、マイクアレイから音源までの距離が遠いほど、収音した目的音の音量をより多く増幅する。換言すると、本開示の信号処理装置及び信号処理方法によれば、水平方向及び垂直方向で特定された音源の位置と奥行き方向の音源までの距離とに基づいて目的音を取得する。よって、精度の良い目的音が得られる。

【0012】

（第１実施形態）
以下、実施形態について、図面を参照しながら説明する。本実施形態では、人の音声を収音する例について説明する。

【0013】

１．信号処理装置の構成
図１は、本開示の信号処理装置の構成を示している。信号処理装置１は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、入出力インタフェース部５０、及びバス６０を備える。信号処理装置１は、例えば、工場内で使用され、工場内にいる人の音声を収音する。本実施形態において、信号処理装置１は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、入出力インタフェース部５０、及びバス６０が一体化された専用の収音機である。

【0014】

カメラ１０は、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、又はＮＭＯＳイメージセンサなどのイメージセンサを備える。カメラ１０は、映像信号である画像データを生成して、出力する。

【0015】

マイクアレイ２０は、複数のマイクロホンを備える。マイクアレイ２０は、音波を受信して、電気信号である音響信号に変換して出力する。

【0016】

制御部３０は、カメラ１０から得られた画像データと、マイクアレイ２０から得られた音響信号に基づいて、収音方向を決定する。収音方向は、目的音源が存在する方向である。目的音源は、目的音を出力する音源である。本実施形態では、目的音源は人であり、人の音声が目的音である。制御部３０は、収音方向から到来する音を強調するような信号処理を行うことによって、マイクアレイ２０が出力した音響信号から目的音を取り出す。制御部３０は、半導体素子などで実現可能である。制御部３０は、例えば、マイコン、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡ、又はＡＳＩＣで構成することができる。

【0017】

記憶部４０は、例えば、ハードディスク（ＨＤＤ）、ＳＳＤ、ＲＡＭ、ＤＲＡＭ、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。カメラ１０から得られた画像データ及びマイクアレイ２０から得られた音響信号が記憶部４０に格納されてもよい。

【0018】

入出力インタフェース部５０は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＳＢ、及びＨＤＭＩ（登録商標）を含む。

【0019】

バス６０は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、及び入出力インタフェース部５０を電気的に接続する信号線である。

【0020】

制御部３０が画像データをカメラ１０から取得又は記憶部４０から取り出すときは、制御部３０が画像データの入力部に相当する。制御部３０が音響信号をマイクアレイ２０から取得又は記憶部４０から取り出すときは、制御部３０が音響信号の入力部に相当する。

【0021】

図２は、第１実施形態における制御部３０の機能的構成を示している。制御部３０の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。

【0022】

制御部３０は、物体検出部３１、音源推定部３２、方向決定部３３、目的音収音部３４、距離推定部３５、及び目的音補正部３６を含む。音源推定部３２、方向決定部３３、及び目的音収音部３４は、収音制御部３００を構成する。

【0023】

物体検出部３１は、カメラ１０によって生成された画像データｖから目的物を検出する。物体検出部３１は、検出した目的物の位置を示す情報である物体位置情報を出力する。目的物は、目的音を発する物体の全部又は一部である。本実施形態では、目的音を発する物体が人であり、目的物は人の顔である。物体検出部３１は、例えば、動画１フレーム分又は静止画１枚分に相当する画像データｖ内の複数の判定領域ｒ（θ，φ）内のそれぞれの画像が目的物である確率Ｐｖ（θ，φ）を算出する。以下、確率Ｐｖ（θ，φ）を「目的物確率」とも称する。物体検出部３１は、画像データｖ内の各判定領域ｒ（θ，φ）における目的物確率Ｐｖ（θ，φ）を物体位置情報として出力する。判定領域ｒ（θ，φ）については後述する。

【0024】

音源推定部３２は、マイクアレイ２０から得られる音響信号ｓから音源の位置を算出することにより、音源の位置を推定する。音源推定部３２は、推定した音源の位置を示す音源位置情報を出力する。具体的には、音源推定部３２は、信号処理装置１に対する水平角θ及び垂直角φによって特定される方向に音源が存在する確率Ｐｓ（θ，φ）を算出する。以下、確率Ｐｓ（θ，φ）を「音源確率」とも称する。音源推定部３２は、音源確率Ｐｓ（θ，φ）を音源位置情報として出力する。

【0025】

方向決定部３３は、目的物確率Ｐｖ（θ，φ）と音源確率Ｐｓ（θ，φ）とに基づいて、収音方向を決定する。収音方向は、例えば、信号処理装置１に対する水平角θｃ及び垂直角φｃで示される。

【0026】

目的音収音部３４は、マイクアレイ２０が出力した音響信号ｓに対して、収音方向から到来する音を強調するような信号処理を行って、音響信号ｓから目的音を取り出す。目的音収音部３４は、さらに、雑音が低減されたクリアな音声を収音するために、収音方向以外の方向から到来する音を抑圧するような信号処理を行ってもよい。本実施形態において、目的音収音部３４は、収音方向に基づいて音響信号ｓから目的音を抽出するようにビームフォームを設定するビームフォーム部である。

【0027】

距離推定部３５は、マーカー情報４１を参照して、画像データｖからマーカーを検出し、検出したマーカーの画像サイズに基づいて、カメラ１０からマーカーまでの距離を算出する。これにより、マイクアレイ２０から目的音源までの距離が推定される。距離推定部３５は、推定した距離を示す距離情報を出力する。

【0028】

マーカー情報４１は、記憶部４０に格納されている。マーカー情報４１は、マイクアレイ２０から目的音源までの距離の測定に使用されるマーカーに関する情報を含む。マーカーは、所定サイズである。マーカー情報４１に含まれるマーカーの種類は、１つであってもよいし、複数であってもよい。マーカー情報４１は、例えば、マーカーのサイズ及びマーカーの画像の特徴量を含む。

【0029】

距離推定部３５は、例えば、画像データｖから抽出した特徴量をマーカー情報４１が示す特徴量と照合することによって、画像データｖ内からマーカーを検出する。距離推定部３５は、検出したマーカーの画像サイズを、マーカー情報４１が示すサイズと比較することによって、カメラ１０から検出したマーカーまでの距離を推定する。これにより、マイクアレイ２０から目的音源までの距離を推定する。距離推定部３５は、画像データｖから複数のマーカーを検出して、検出した複数のマーカーの画像サイズに基づいて、カメラ１０から各マーカーまでの距離の比を算出してもよい。

【0030】

目的音補正部３６は、目的音収音部３４が取り出した目的音に対して、距離推定部３５が推定した距離に応じた補正を行う。例えば、目的音補正部３６は、音声信号を増幅する増幅器を含み、距離が遠いほど目的音の音量を増幅するような信号処理を行う。目的音補正部３６は、目的音の周波数特性を距離に応じて変更してもよい。

【0031】

２．信号処理装置の動作
２．１目的音の収音の概要
図３は、収音環境の一例を模式的に示している。図３において、信号処理装置１は、床面と平行になるように設置されている。図３において、Ｘ軸及びＹ軸は信号処理装置１の向きを基準にした水平方向及び垂直方向をそれぞれ示し、Ｚ軸は信号処理装置１の位置を基準にした奥行き方向を示す。例えば、マイクアレイ２０から出力される音響信号のみによって収音方向を決定した場合、周囲の雑音源１２０が発する雑音が、人１１０の音声よりも大きいときに、目的音源の方向として雑音源１２０の方向が検出されてしまう。この場合、目的音として大きな雑音を収音してしまい、人の音声をクリアに収音することができない。マイクアレイ２０と共にカメラ１０を併用して収音方向を決定する場合、カメラ１０の画像データに含まれる人１１０の顔の位置を検出することによって、人がいる方向を目的音源の方向として特定できる。これにより、人の音声を目的音として収音することができる。しかし、マイクアレイ２０から人１１０までの距離ｄ１１０が遠いと、人１１０の音声をクリアに収音することができない。例えば、音の減衰により、収音される音声の音量が小さくなる。よって、本実施形態では、収音した目的音を、マイクアレイ２０から目的音源までの距離ｄ１１０に応じて、補正する。

【0032】

２．２信号処理装置の全体動作
図４は、第１実施形態の信号処理方法である制御部３０による収音動作を示している。制御部３０は、カメラ１０によって生成された画像データｖとマイクアレイ２０から出力された音響信号ｓとを入力する（Ｓ１）。例えば、画像データｖ及び音響信号ｓが記憶部４０に格納されているときは、制御部３０は記憶部４０から画像データｖ及び音響信号ｓを読み出す。物体検出部３１は、画像データｖに基づいて、目的物の位置を検出する（Ｓ２）。音源推定部３２は、音響信号ｓに基づいて、音源の位置を推定する（Ｓ３）。方向決定部３３は、物体検出部３１が検出した目的物の位置と音源推定部３２が推定した音源の位置とに基づいて、収音方向を決定する（Ｓ４）。目的音収音部３４は、ビームフォーミングにより、収音方向に指向性を形成して目的音を収音する（Ｓ５）。距離推定部３５は、画像データｖに基づいて、マイクアレイ２０から目的音源までの距離を推定する（Ｓ６）。目的音補正部３６は、マイクアレイ２０から目的音源までの距離に基づいて目的音を補正する（Ｓ７）。

【0033】

図４において、ステップＳ２の目的物の位置検出と、ステップＳ３の音源の位置推定の順序は、逆であってもよい。ステップＳ６の距離推定は、ステップＳ７の目的音の補正よりも前であればよく、例えば、ステップＳ２とステップＳ３との間であってもよい。

【0034】

２．３目的物の位置検出
目的物の位置検出（Ｓ２）の詳細について説明する。

【0035】

図５Ａは、画像データｖ内における目的物の位置を検出するための判定領域ｒ（θ，φ）を示している。カメラ１０が生成する画像データｖは、カメラ１０の水平画角及び垂直画角に応じた複数の判定領域ｒ（θ，φ）に分割されうる。なお、カメラ１０の種類に応じて、画像データｖは、円周状に分割されてもよいし、格子状に分割されてもよい。

【0036】

ステップＳ２において、物体検出部３１は、判定領域ｒ（θ，φ）毎に目的物が存在するか否かを判定する。具体的には、物体検出部３１は、画像データｖ内において判定領域ｒ（θ，φ）内の画像が目的物である確率Ｐｖ（θ，φ）を算出する。目的物の検出方法は、任意である。一例として、目的物の検出は、各判定領域ｒ（θ，φ）が目的物の特徴と一致しているか否かを判定することによって行う（「Rapid Object Detection using a Boosted Cascade of Simple Features」 ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001を参照）。

【0037】

本実施形態では目的物として人の顔を検出するため、例えば、物体検出部３１は、顔の異なる特徴を示す情報を有するＮ個の弱識別器を備える。物体検出部３１は、Ｎ個の弱識別器により、判定領域ｒ（θ，φ）内の画像が顔であると判定した回数Ｃ（ｒ（θ，φ））を計算する。物体検出部３１は、画像データｖ内の全ての判定領域ｒ（θ，φ）について、顔であるか否かの判定を行うと、式（１）によって、画像データｖ内において水平角θ及び垂直角φで特定される位置の画像が顔である確率Ｐｖ（θ，φ）を算出する。

【0038】

【数1】

【0039】

２．４音源の位置推定
音源の位置推定（Ｓ３）の詳細について説明する。図５Ｂは、マイクアレイ２０に到来する音波の水平方向の位置を模式的に示している。図５Ｃは、マイクアレイ２０に到来する音波の垂直方向の位置を模式的に示している。

【0040】

ステップＳ３において、音源推定部３２は、水平角θ及び垂直角φで特定される方向に音源が存在する確率Ｐｓ（θ，φ）を算出する。音源の位置の推定方法は、任意である。例えば、音源の位置推定は、ＣＳＰ（Cross-Power Spectrum Phase Analysis）法又はＭＵＳＩＣ（Multiple Signal Classification）法を使用して行うことができる。

【0041】

ステップＳ３における音源の位置推定方法の一例であるＣＳＰ法について説明する。図６は、音波がマイクアレイ２０のマイクロホン２０ｉ及び２０ｊに到来する状態を模式的に示している。マイクロホン２０ｉ及び２０ｊ間の距離ｄに応じて、音波がマイクロホン２０ｉ及び２０ｊに到来するときに時間差τが生じる。音源推定部３２は、水平角θにおいて、音源が存在する確率Ｐｓ（θ）を、ＣＳＰ係数を用いた式（２）により算出する。

【0042】

【数2】

【0043】

ここで、ＣＳＰ係数は、式（３）によって求めることができる（電子情報通信学会論文誌Ｄ－ＩＩＶｏｌ．Ｊ８３－Ｄ－ＩＩＮｏ．８ｐｐ．１７１３－１７２１、「マイクロホンアレーを用いたＣＳＰ法に基づく複数音源位置推定」を参照）。式（３）において、ｎは時間、Ｓ_ｉ（ｎ）はマイクロホン２０ｉで受音した音響信号、Ｓ_ｊ（ｎ）はマイクロホン２０ｊで受音した音響信号を示している。式（３）において、ＤＦＴは、離散フーリエ変換を示す。また、＊は共役複素数を示す。

【0044】

【数3】

【0045】

時間差τは、音速ｃ、マイクロホン２０ｉ，２０ｊ間の距離ｄ、及びサンプリング周波数Ｆ_ｓを用いて、式（４）によって表せる。

【0046】

【数4】

【0047】

よって、式（５）に示すように、式（２）のＣＳＰ係数を式（４）によって時間軸から方向軸に変換することによって、水平角θにおいて音源が存在する確率Ｐｓ（θ）を算出できる。

【0048】

【数5】

【0049】

垂直角φにおける音源が存在する確率Ｐｓ（φ）は、水平角θにおける確率Ｐｓ（θ）と同様に、ＣＳＰ係数と時間差τによって算出できる。また、確率Ｐｓ（θ）及び確率Ｐｓ（φ）に基づいて、水平角θ且つ垂直角φに音源が存在する確率Ｐｓ（θ，φ）を算出できる。

【0050】

２．５収音方向の決定
収音方向の決定（Ｓ４）の詳細について説明する。図５Ａ～図５Ｃに示すように、カメラ１０が生成する画像データｖ内の座標系の位置は、カメラ１０の画角に応じて、マイクアレイ２０に到来する音波の発生方向を示す水平角θ及び垂直角φに対応付けられる。ステップＳ４において、方向決定部３３は、目的物確率Ｐｖ（θ，φ）と音源確率Ｐｓ（θ，φ）とを用いて、目的音を発する人がいる確率Ｐ（θ，φ）を式（６）によって算出する。

【0051】

【数6】

【0052】

それから、方向決定部３３は、式（７）により、確率Ｐ（θ，φ）が最大となる水平角θ及び垂直角φを収音方向として決定する。

【0053】

【数7】

【0054】

２．６目的音の収音
目的音の収音（Ｓ５）の詳細について説明する。図７は、目的音収音部３４によるビームフォーミングを例示している。図７では、マイクアレイ２０が２つのマイクロホン２０ｉ，２０ｊを含む例を示している。本実施形態では、マイクアレイ２０が２つのマイクロホン２０ｉ及び２０ｊを含む例について説明するが、マイクアレイ２０は２つ以上のマイクロホンを含んでもよい。マイクロホン２０ｉ，２０ｊにおける水平角θの方向から到来する音波の受信のタイミングは、マイクロホン２０ｉ，２０ｊ間の距離ｄに応じて異なる。具体的には、マイクロホン２０ｊにおいては、距離ｄｃｏｓθに応じた分の伝搬遅延が発生する。すなわち、マイクロホン２０ｉ，２０ｊから出力される音響信号において位相差が生じる。

【0055】

本実施形態では、目的音収音部３４は、遅延器３４ａ及び加算器３４ｂを有する。ステップＳ５において、目的音収音部３４は、マイクアレイ２０が出力した音響信号に対して、ビームフォーミングにより、収音方向である水平角θｃ且つ垂直角φｃから到来する音を強調するような信号処理を行う。具体的には、遅延器３４ａは、収音方向である水平角θｃに応じた遅延量に基づいて、マイクロホン２０ｉに入力された入力信号Ｓ_ｉ（ｎ）について、マイクロホン２０ｊに入力された入力信号Ｓ_ｊ（ｎ）との到来時間差を補正する。加算器３４ｂは、補正後の入力信号Ｓ_ｉ（ｎ）と入力信号Ｓ_ｊ（ｎ）の和に基づいて出力信号Ｔ（ｎ）を生成する。

【0056】

加算器３４ｂの入力において、収音方向である水平角θｃから到来する信号の位相は一致するため、出力信号Ｔ（ｎ）において収音方向から到来する信号は強調される。一方、水平角θｃ以外の方向から到来した信号は、互いに位相が一致しないため、水平角θｃから到来した信号ほど強調されることはない。よって、例えば、加算器３４ｂの出力を用いることによって、水平角θｃの方向に指向性が形成される。これにより、収音方向である水平角θｃから到来する音波が目的音として収音される。図７の例では、水平角θｃにおける収音方向について例示しているが、垂直角φｃにおける収音方向についても同様に、指向性を形成することができる。なお、ビームフォーミングの方法は任意であり、図７に示す方法以外で行ってもよい。

【0057】

２．７目的物までの距離の推定
目的物までの距離の推定（Ｓ６）の詳細について説明する。図８は、距離推定部３５によるマイクアレイ２０から目的音源までの距離の推定動作（Ｓ６の詳細）を示している。図９は、距離の推定に使用されるマーカーの一例を示している。図１０は、マーカーの画像サイズの算出を説明するための図である。図１１は、マーカーの画像サイズに基づく目的音源までの距離の推定を説明するための図である。

【0058】

距離推定部３５は、記憶部４０に格納されているマーカー情報４１に基づいて、カメラ１０が生成した画像データｖからマーカーを検出する（Ｓ６０１）。図９に示すように、本実施形態におけるマーカー７０は帽子に付いているマークである。例えば、このようなマークは、所定の原寸サイズで統一されている。本実施形態において、少なくとも目的音を発する人は、マーカー７０が付いた帽子をかぶっている。例えば、工場内で作業している作業員全員がこの帽子をかぶっていてもよい。本実施形態において、マーカー７０は正方形である。しかし、マーカー７０の形状は正方形に限らず、例えば、三角形、５角以上の多角形、又は円形であってもよい。マーカー７０は、サイズが固定であって、目的音を発する物体に取り付け可能なものであればよい。マーカー７０は、平面状であってもよいし、他の形状であってもよい。

【0059】

距離推定部３５は、検出したマーカー７０の画像サイズを算出する（Ｓ６０２）。例えば、図１０に示すように、距離推定部３５は、画像データｖ内に含まれる全てのマーカー７０の画像サイズｍ１，ｍ２を算出してもよい。距離推定部３５は、収音方向である水平角θｃ且つ垂直角φｃにあるマーカー７０についてのみ、画像サイズｍ２を算出してもよい。画像サイズは、例えば、ピクセル値で表される。

【0060】

距離推定部３５は、マーカー７０の画像サイズに基づいて、マイクアレイ２０から目的音源までの距離を推定する（Ｓ６０３）。例えば、図１１に示すように、距離推定部３５は、記憶部４０に格納されているマーカー情報４１が示すマーカーのサイズと、ステップＳ６０２で算出したマーカーの画像サイズとに基づいて、カメラ１０からマーカーまでの距離を算出する。これにより、マイクアレイ２０から目的音源までの距離である絶対距離を推定する。例えば、距離推定部３５は、収音方向である水平角θｃ且つ垂直角φｃにあるマーカー７０が目的音源に対応すると判断して、マイクアレイ２０から目的音源までの距離を推定する。ステップＳ６０１において、画像データｖ内においてマーカー７０を１つしか検出しなかった場合は、そのマーカー７０までの距離を目的音源までの距離として推定してもよい。距離推定部３５は、画像データｖ内に含まれる複数のマーカー７０の画像サイズｍ１，ｍ２に基づいて、マイクアレイ２０から目的音源までの相対的な距離に関して、例えば「ｄ２／ｄ１」を算出してもよい。

【0061】

２．８目的音の補正
目的音の補正（Ｓ７）の詳細について説明する。図１２は、目的音補正部３６による目的音の補正の一例であって、目的音補正部３６に入力される信号の波形と目的音補正部３６から出力される信号の波形を示している。例えば、目的音補正部３６は、マイクアレイ２０から目的音源までの距離が遠いときに、目的音収音部３４から出力される音声信号の振幅を増幅する。これにより、マイクアレイ２０から目的音源までの距離が遠く音の減衰量が多い場合であっても、音量を増幅した目的音が得られる。マイクアレイ２０から目的音源までの距離に応じて増幅量を異ならせてもよい。例えば、距離が遠いほど増幅量を増加させてもよい。目的音補正部３６は、図１２に示すように、目的音が含まれる区間の信号の振幅を増幅する。目的音補正部３６は、マイクアレイ２０から目的音源までの距離に応じて目的音の音声信号の周波数特性を変更してもよい。例えば、距離が遠いほどノイズをより多く低減するようなノイズリダクションを行ってもよい。例えば、距離が遠いほど、高域側の帯域の周波数成分をより強調してもよい。目的音補正部３６は、マイクアレイ２０から目的音源までの絶対距離を所定の閾値と比較して、絶対距離が閾値以上のときに、目的音を補正してもよい。目的音補正部３６は、例えば、人Ａに対する人Ｂの相対距離を所定の閾値と比較して、相対距離が閾値以上のときに、人Ｂが発する目的音を補正してもよい。

【0062】

３．効果及び補足
本実施形態の信号処理装置１は、音源となる物体から出力される目的音を収音する収音機である。信号処理装置１は、カメラ１０によって生成された画像データｖとマイクアレイ２０から出力された音響信号ｓとを入力する入力部と、画像データｖと音響信号ｓとに基づいて音響信号ｓの収音方向を制御する制御部３０とを有する。入力部は、例えば、画像データｖをカメラ１０から取得又は記憶部４０から読み出す制御部３０である。入力部は、例えば、音響信号ｓをマイクアレイ２０から取得又は記憶部４０から読み出す制御部３０である。制御部３０は、距離推定部３５と目的音補正部３６とを含む。距離推定部３５は、画像データｖから目的物に取り付けられているマーカー７０を検出し、検出したマーカー７０に基づいて、マイクアレイ２０から目的音源までの距離を推定して、推定した距離を示す距離情報を出力する。目的音補正部３６は、距離情報に基づいて目的音を補正する。

【0063】

このように、信号処理装置１は、カメラ１０とマイクアレイ２０を使用して音源となる物体の位置を特定することによって収音した目的音を、マイクアレイ２０から目的音源までの距離に応じて補正する。換言すると、信号処理装置１は、水平方向及び垂直方向で特定された位置と奥行き方向の距離とに基づいて所望の目的音を取得する。よって、精度の良い目的音が得られる。補正後の目的音を、例えば、音声認識に使用する場合、補正前の目的音を使用する場合と比較して、音声認識の精度が良くなる。

【0064】

マーカー７０は、所定サイズを有し、距離推定部３５は、画像データにおけるマーカー７０の画像サイズに基づいて、カメラ１０からマーカー７０までの距離を算出することにより、マイクアレイ２０から目的音源までの距離を推定する。これにより、精度良く、マイクアレイ２０から目的音源までの距離を推定することができる。

【0065】

（第２実施形態）
第１実施形態では、マイクアレイ２０から目的音源までの距離に応じて目的音を補正した。本実施形態では、距離に加えて、目的音源の属性に基づいて目的音を補正する。

【0066】

図１３は、第２実施形態における制御部３０の機能的構成を示している。本実施形態の制御部３０は、第１実施形態の制御部３０の機能的構成に加え、属性取得部３７をさらに備える。属性取得部３７は、画像データｖから属性情報を取得する。

【0067】

図１４は、属性情報を含むマーカーの一例を示している。属性情報は、音源の属性を識別する情報であり、本実施形態では目的音源である人に関する属性を示す。属性情報は、例えば、人の性別を示す。属性情報は、工場で働いている人を識別する情報であってもよい。属性情報を含むマーカー７０は、例えば、ＱＲコード（登録商標）又はＡＲマーカーである。属性情報は、マーカー７０の一部に含まれもよいし、マーカー７０の全体で表されてもよい。

【0068】

図１５は、第２実施形態における信号処理装置１の制御部３０の動作を示している。図５のステップＳ１１～Ｓ１６は、第１実施形態の図４のステップＳ１～Ｓ６と同一である。本実施形態では、属性取得部３７は、画像データｖから属性情報を取得して、目的音源の属性を識別する（Ｓ１７）。属性取得部３７は、ステップＳ１６において検出したマーカー７０の画像内から属性情報を取得して、例えば、目的物の性別を識別する。ＱＲコードを解析するためのプログラムが記憶部４０に格納されていてもよい。

【0069】

目的音補正部３６は、ステップＳ１６で推定された距離と、ステップＳ１７で識別された属性とに基づいて、目的音を補正する（Ｓ１８）。例えば、目的音補正部３６は、マイクアレイ２０から人までの距離に応じて音声信号を増幅すると共に、その人の性別に応じて音声信号の周波数特性を変更する。

【0070】

このように、本実施形態では、マーカー７０は、目的音源の属性を識別する属性情報を含む。制御部３０は、画像データｖから属性情報を取得する属性取得部３７をさらに含み、目的音補正部３６は、距離情報と属性情報とに基づいて目的音を補正する。これにより、より精度の良い目的音が得られる。

【0071】

（第３実施形態）
第１実施形態において、制御部３０は、収音した目的音をカメラ１０からマーカー７０までの距離に応じて補正した。本実施形態では、制御部３０は、目的音の補正に加え、カメラ１０からマーカー７０までの距離に応じて収音を制御する。すなわち、本実施形態では、目的音を収音した後だけでなく、目的音を収音するときに、カメラ１０からマーカー７０までの距離の情報を使用する。

【0072】

図１６は、第３実施形態における制御部３０の機能的構成を示している。本実施形態では、カメラ１０からマーカー７０までの距離を示す距離情報が、距離推定部３５から収音制御部３００に出力される。音源推定部３２は、カメラ１０からマーカー７０までの距離に応じて、音源の位置を推定する。方向決定部３３は、収音方向を決定するときに、カメラ１０からマーカー７０までの距離に応じて、物体位置情報と音源位置情報の優先度、すなわち、目的物確率Ｐｖ（θ，φ）に対する音源確率Ｐｓ（θ，φ）の重みを変更する。目的音収音部３４は、カメラ１０からマーカー７０までの距離に応じて、収音方向の範囲、すなわち、収音方向を示す水平角θｃ及び垂直角φｃのビーム幅を変更する。なお、本実施形態では、音源推定部３２、方向決定部３３、及び目的音収音部３４の全てが、距離情報を使用する例について説明するが、音源推定部３２、方向決定部３３、及び目的音収音部３４の少なくともいずれか一つが距離情報を使用する構成であってもよい。

【0073】

図１７は、距離に応じた音源の位置推定を説明するための図である。マイクアレイ２０から音源までの距離が遠いほど、音響信号ｓから推定される音源確率Ｐｓ（θ，φ）が低くなる。よって、例えば、音源推定部３２は、上記式（５）により算出される音源確率Ｐｓ（θ）に対して、カメラ１０からマーカー７０までの距離が遠いほど係数ｋの値が大きくなるように係数ｋを水平角θ毎に設定して、「Ｐｓ（θ）×ｋ（θ）」を算出してもよい。垂直角φについても同様に、カメラ１０からマーカー７０までの距離が遠いほど、係数ｋの値が大きくなるように係数ｋを垂直角φ毎に設定して、「Ｐｓ（φ）×ｋ（φ）」を算出してもよい。音源推定部３２は、「Ｐｓ（θ，φ）×ｋ（θ，φ）」を音源位置情報として方向決定部３３に出力してもよい。

【0074】

図１８は、方向決定部３３による収音方向の決定を説明するための図である。例えば、方向決定部３３は、上記式（６）に基づく方向の決定において、カメラ１０からマーカー７０までの距離が遠いほど、音源確率Ｐｓ（θ，φ）の重みＷが小さくなるようにして、「Ｐｖ（θ，φ）＋Ｗ×Ｐｓ（θ，φ）」により、目的音源である人がいる確率Ｐ（θ，φ）を算出してもよい。このように、カメラ１０からマーカー７０までの距離に応じて、画像データから得られた目的物確率Ｐｖ（θ，φ）と音響信号から得られた音源確率Ｐｓ（θ，φ）の優先度を変えてもよい。例えば、図１８において、目的物確率Ｐｖ（θ）が優先された場合は実線１８１に示す確率分布となり、音源確率Ｐｓ（θ）が優先された場合は破線１８２で示す確率分布となる。

【0075】

図１９は、目的音収音部３４による目的音の収音の範囲を模式的に示している。目的音収音部３４は、例えば、決定された収音方向の水平角θｃに対して実際に指向性を形成する範囲であるビーム幅「θｃ±α」を、マイクアレイ２０から目的音源までの距離が遠いほど小さくなるように角度αを設定してもよい。収音方向の垂直角φｃに対しても同様に、マイクアレイ２０から目的音源までの距離が遠いほど、指向性を形成する範囲であるビーム幅「φｃ±β」が小さくなるように角度βを設定してもよい。

【0076】

図２０に、第３実施形態におけるマイクアレイ２０と目的音収音部３４の構成の一例を示す。本実施形態では、マイクアレイ２０は３つ以上のマイクロホン２０１ａ～２０１ｎを含む。目的音収音部３４は、図２０に示すように、複数の遅延器３４１ａ～３４１ｎ、複数のフィルタ３４２ａ～３４２ｎ、及び加算器３４３を含む、所謂、遅延和ビームフォーミングの構成を有する。複数の遅延器３４１ａ～３４１ｎは、水平方向においては水平角「θｃ－α」から水平角「θｃ＋α」の範囲に対応する遅延量Ｄ１～Ｄｎ、垂直方向においては垂直角「φｃ－β」から「φｃ＋β」の範囲に対応する遅延量Ｄ１～Ｄｎにより、入力した音響信号を遅延させて出力する。この角度α及び角度βをマイクアレイ２０から目的音源までの距離に応じて変更するように、各々の遅延量Ｄ１～Ｄｎを適宜、変化させることで、ビーム幅を任意に変えることができる。なお、ビーム幅は、決定した収音方向の水平角θｃ、垂直角φｃを中心とした幅でなくてもよい。

【0077】

以上のように、音源推定部３２が、音響信号から音源確率Ｐｓ（θ，φ）を算出し、音源確率を距離情報に基づいて変更して音源位置情報を生成してもよい。方向決定部３３が、収音方向を決定するときの、物体位置情報と音源位置情報の優先度を距離情報に基づいて変更してもよい。目的音収音部３４が、距離情報に基づいて収音方向を含むビーム幅を変更してもよい。このように、カメラ１０からマーカー７０までの距離、すなわちマイクアレイ２０から目的音源までの距離に応じて収音を制御することで、より精度の良い目的音が得られる。

【0078】

（他の実施形態）
以上のように、本出願において開示する技術の例示として、第１～第３実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態１～３で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。

【0079】

信号処理装置１は、カメラ１０とマイクアレイ２０のいずれか一方又は両方を内蔵していなくてもよい。例えば、図２１に示すように、信号処理装置１は、外付けのカメラ１０及びマイクアレイ２０と電気的に接続されてもよい。信号処理装置１は、カメラ１０を備えたスマートフォンなどの電子機器であって、マイクアレイ２０を備えた外部機器と電気的及び機械的に接続されてもよい。入出力インタフェース部５０が信号処理装置１に外付けされたカメラ１０から画像データを入力するときは、入出力インタフェース部５０が画像データの入力部に相当する。入出力インタフェース部５０が信号処理装置１に外付けされたマイクアレイ２０から音響信号を入力するときは、入出力インタフェース部５０が音響信号の入力部に相当する。

【0080】

上記実施形態では、目的音補正部３６は、マイクアレイ２０から目的音源までの距離に基づいて目的音を補正したが、信号処理装置１は目的音補正部３６を備えなくてもよい。この場合、収音制御部３００がカメラ１０からマーカー７０までの距離に基づいて収音を制御するだけであってもよい。例えば、音源推定部３２、方向決定部３３、及び目的音収音部３４のうちの少なくともいずれか一つが、カメラ１０からマーカー７０までの距離を示す距離情報を使用する構成であってもよい。

【0081】

上記実施形態では、制御部３０は、カメラ１０から得られた画像データとマイクアレイ２０から得られた音響信号の両方に基づいて収音方向を決定した。しかし、収音方向の決定を画像データのみで行ってもよく、この場合、制御部３０は、音源推定部３２を備えなくてもよい。収音方向の決定を音響信号のみで行ってもよく、この場合、制御部３０は、物体検出部３１を備えなくてもよい。例えば、図３に示すような収音環境において、雑音源１２０が存在しても人が１人しか存在しない場合は画像データのみで収音方向を決定してもよい。例えば、複数の人が存在し且つ雑音源１２０が存在しない場合は、音響信号のみで収音方向を決定してもよい。

【0082】

上記実施形態では、収音方向として、水平角θｃ及び垂直角φｃをそれぞれ決定する場合について説明したが、水平角θｃ及び垂直角φｃの少なくともいずれか一方のみで、目的音源の方向を特定できる場合は、水平角θｃ及び垂直角φｃの少なくともいずれか一方を決定するだけであってもよい。

【0083】

上述のマーカー情報４１を使用した処理は、深層学習等の機械学習を利用して入力画像からマーカーを検出するように学習した学習済みモデルを用いて実現されてもよい。

【0084】

上記実施形態においては、人の顔を検出する例について説明したが、人の音声を収音する場合、目的物は、人の顔に限らず、人として認識できる部分であればよい。例えば、目的物は、人の身体又は唇であってもよい。

【0085】

上記実施形態において、例えば、目的音源が複数の場合、複数の目的音源の各々の収音方向である水平角θｃ且つ垂直角φｃに応じて、ビーム幅を調整してもよい。

【0086】

上記実施形態においては、人の音声を目的音として収音したが、目的音は人の音声に限らない。例えば、目的音は、車の音、動物の鳴き声、又は工場内の設備の動作音であってもよい。例えば、目的音がモータの動作音である場合、信号処理装置１により得られた目的音の信号を使用して、モータの動作音が正常か異常かを精度良く判定することが可能となる。

【0087】

（実施形態の概要）
（１）本開示の信号処理装置は、音源となる物体から出力される目的音を収音する信号処理装置であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、画像データと音響信号の少なくともいずれか一方に基づいて、マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を制御する制御部と、を有し、制御部は、画像データから物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定して、推定した距離を示す距離情報を出力する距離推定部と、距離情報に基づいて目的音を補正する目的音補正部と、を含む。

【0088】

これにより、精度の良い目的音が得られる。

【0089】

（２）（１）の信号処理装置において、マーカーは、所定サイズを有し、距離推定部は、画像データにおけるマーカーの画像サイズに基づいて、カメラからマーカーまでの距離を算出することにより、マイクアレイから音源までの距離を推定してもよい。

【0090】

これにより、精度良く、マイクアレイから音源までの距離を推定することができる。

【0091】

（３）（１）の信号処理装置において、マーカーは、音源の属性を識別する属性情報を含み、制御部は、画像データから属性情報を取得する属性取得部をさらに含み、目的音補正部は、距離情報と属性情報とに基づいて目的音を補正してもよい。

【0092】

これにより、より精度の良い目的音が得られる。

【0093】

（４）（１）の信号処理装置において、制御部は、画像データに基づいて物体の位置を検出して、検出した物体の位置を示す物体位置情報を出力する物体検出部と、音響信号に基づいて音源の位置を推定して、推定した音源の位置を示す音源位置情報を出力する音源推定部と、物体位置情報と音源位置情報とに基づいて収音方向を決定する方向決定部と、収音方向に基づいて音響信号から目的音を抽出するようにビームフォームを設定するビームフォーム部とを含んでもよい。

【0094】

（５）（４）の信号処理装置において、音源推定部は、音響信号から水平方向及び垂直方向の少なくとも一方において音源の存在確率を算出し、音源の存在確率を距離情報に基づいて変更して音源位置情報を生成してもよい。

【0095】

（６）（４）の信号処理装置において、方向決定部は、収音方向を決定するときの、物体位置情報と音源位置情報の優先度を距離情報に基づいて変更してもよい。

【0096】

（７）（４）の信号処理装置において、ビームフォーム部は、距離情報に基づいて収音方向を含むビーム幅を変更してもよい。

【0097】

（８）（１）の信号処理装置は、カメラ及びマイクアレイのうちの少なくとも一方を備えてもよい。

【0098】

（９）本開示の他の信号処理装置は、音源となる物体から出力される目的音を収音する信号処理装置であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力する入力部と、画像データと音響信号の少なくともいずれか一方に基づいてマイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を制御する制御部と、を有し、制御部は、画像データに基づいて物体の位置を検出して、検出した物体の位置を示す物体位置情報を出力する物体検出部と、音響信号に基づいて音源の位置を推定して、推定した音源の位置を示す音源位置情報を出力する音源推定部と、画像データから物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定し、推定した距離を示す距離情報を出力する距離推定部と、を含み、物体位置情報と音源位置情報と距離情報とに基づいて、目的音の収音を制御する。

【0099】

（１０）本開示の信号処理方法は、演算部により、音源となる物体から出力される目的音を収音する信号処理方法であって、カメラによって生成された画像データとマイクアレイから出力された音響信号とを入力するステップと、画像データにおいて、物体に取り付けられている所定のマーカーを検出し、検出したマーカーに基づいて、マイクアレイから音源までの距離を推定するステップと、画像データと音響信号の少なくともいずれか一方に基づいて、マイクアレイに対する水平方向及び垂直方向の少なくともいずれか一方における音響信号の収音方向を決定するステップと、収音方向に基づいて音響信号から目的音を抽出するようにビームフォームを設定するステップと、目的音を推定した距離に基づいて補正するステップと、を含む。

【0100】

これにより、精度の良い目的音が得られる。

【0101】

本開示の全請求項に記載の信号処理装置及び信号処理方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。

【産業上の利用可能性】

【0102】

本開示の信号処理装置は、例えば、会話中の人の音声を収音する装置として、有用である。

【符号の説明】

【0103】

１信号処理装置
１０カメラ
２０マイクアレイ
３０制御部
４０記憶部
５０入出力インタフェース部
６０バス
３１物体検出部
３２音源推定部
３３方向決定部
３４目的音収音部
３５距離推定部
３６目的音補正部
３７属性取得部

【図1】