特許7573197 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特許7573197収音装置および収音方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-17

(45)【発行日】2024-10-25

(54)【発明の名称】収音装置および収音方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20241018BHJP

H04R 1/40 20060101ALI20241018BHJP

G10K 11/34 20060101ALI20241018BHJP

G10L 25/51 20130101ALI20241018BHJP

【ＦＩ】

H04R3/00 320

H04R1/40 320A

G10K11/34 100

G10L25/51 400

【請求項の数】 8

(21)【出願番号】P 2021554131

(86)(22)【出願日】2020-09-03

(86)【国際出願番号】 JP2020033469

(87)【国際公開番号】W WO2021084905

(87)【国際公開日】2021-05-06

【審査請求日】2023-06-30

(31)【優先権主張番号】P 2019197723

(32)【優先日】2019-10-30

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100106518

【弁理士】

【氏名又は名称】松谷道子

(74)【代理人】

【識別番号】100132241

【弁理士】

【氏名又は名称】岡部博史

(74)【代理人】

【識別番号】100135703

【弁理士】

【氏名又は名称】岡部英隆

(74)【代理人】

【識別番号】100199314

【弁理士】

【氏名又は名称】竹内寛

(72)【発明者】

【氏名】和田茉都加

(72)【発明者】

【氏名】廣瀬良文

(72)【発明者】

【氏名】足立祐介

【審査官】松崎孝大

(56)【参考文献】

【文献】特開２０１７－０３４６４５（ＪＰ，Ａ）

【文献】特開２０１９－００８１３４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ３／００

Ｈ０４Ｒ１／４０

Ｇ１０Ｋ１１／３４

Ｇ１０Ｌ２５／５１

(57)【特許請求の範囲】

【請求項1】

ユーザが音源から出力させる目的音を収音するための収音装置であって、
カメラによって生成された画像データを入力する第１の入力部と、
マイクアレイから出力された音響信号を入力する第２の入力部と、
前記画像データ及び前記音響信号に基づいて、前記目的音を収音する収音方向を決定する制御部と、
前記ユーザに提示する情報を出力する出力部とを備え、
前記制御部は、
入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断し、
前記画像及び前記音響が前記所定の状態であると判断したとき、前記ユーザに対する指示を前記出力部に出力させ、
前記指示が出力された後に更なる画像データ及び音響信号を入力して、前記指示の後に入力された画像データと当該画像データよりも前に入力された画像データ間の差分、および前記指示の後に入力された音響信号と当該音響信号よりも前に入力された音響信号間の差分を検出して、前記画像データ間の差分と前記音響信号間の差分とに基づいて前記収音方向を決定する
収音装置。

【請求項2】

前記制御部は、前記収音方向の候補とする複数の方向における各方向について、前記画像データ間の差分および前記音響信号間の差分の大きさに応じたスコアを算出し、算出されたスコアが最も大きい方向を、前記収音方向として決定する
請求項１に記載の収音装置。

【請求項3】

画像および音響の状態を分類する状態テーブルを格納する記憶部をさらに備え、
前記制御部は、前記状態テーブルを参照し、前記所定の状態であると判断したときの前記画像及び前記音響に応じて前記指示に含める情報を決定する
請求項１又は２に記載の収音装置。

【請求項4】

前記制御部は、前記画像及び前記音響が前記所定の状態でないと判断したとき、前記指示を出力せずに、前記収音方向を決定する
請求項１から３のいずれか１項に記載の収音装置。

【請求項5】

前記制御部は、
前記画像データに基づいて、前記画像において前記音源の配置を示す情報を検出し、
前記音響信号に基づいて、前記音響において前記目的音、及び雑音を検出し、
前記画像と前記音響における検出結果に応じて、前記収音方向を決定し、
前記所定の状態は、前記画像と前記音響における検出結果が、前記収音方向を決定する際の障害を含む状態である
請求項１から４のいずれか１項に記載の収音装置。

【請求項6】

前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える
請求項１から５のいずれか１項に記載の収音装置。

【請求項7】

ユーザが音源から出力させる目的音を収音するための収音方法であって、
カメラによって生成された画像データを入力するステップと、
マイクアレイから出力された音響信号を入力するステップと、
入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断するステップと、
前記画像及び前記音響が前記所定の状態であると判断したとき、前記ユーザに対する指示を出力するステップと、
前記指示が出力された後に更なる画像データ及び音響信号を入力して、前記指示の後に入力された画像データと当該画像データよりも前に入力された画像データ間の差分、および前記指示の後に入力された音響信号と当該音響信号よりも前に入力された音響信号間の差分を検出して、前記画像データ間の差分と前記音響信号間の差分とに基づいて前記目的音を収音する収音方向を決定するステップと
を含む収音方法。

【請求項8】

請求項７に記載の収音方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、目的音を収音する収音装置および収音方法に関する。

【背景技術】

【0002】

特許文献１は、一人以上の参加者による談話を記録したデータから、どの参加者がいつ発話したかを推定するための推定装置を開示している。この推定装置は、マイクロホンから出力される音響信号から得られる情報と、カメラから出力される映像信号から得られる情報とを統合することによって、談話参加者が発話した確率を算出している。これにより、談話参加者が発話のない状況で移動した場合であっても、談話参加者の位置を追跡することを可能にしている。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第５２１５８２６号公報

【非特許文献】

【0004】

【文献】"Rapid Object Detection using a Boosted Cascade of Simple Features" ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、目的音が収音され易くすることができる収音装置および収音方法を提供する。

【課題を解決するための手段】

【0006】

本開示の一態様の収音装置は、ユーザが音源から出力させる目的音を収音するための収音装置であって、第１の入力部と、第２の入力部と、制御部と、出力部とを備える。第１の入力部は、カメラによって生成された画像データを入力する。第２の入力部は、マイクアレイから出力された音響信号を入力する。制御部は、画像データ及び音響信号に基づいて、目的音を収音する収音方向を決定する。出力部は、ユーザに提示する情報を出力する。制御部は、入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断する。制御部は、画像及び音響が所定の状態であると判断したとき、ユーザに対する指示を出力部に出力させ、指示が出力された後に更なる画像データ及び音響信号を入力して、収音方向を決定する。

【0007】

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

【発明の効果】

【0008】

本開示の収音装置および収音方法によると、ユーザに対する指示を用いて、目的音が収音され易くすることができる。

【図面の簡単な説明】

【0009】

【図1】本開示の実施形態１に係る収音装置の概要を説明するための図

【図2】収音装置の構成を例示するブロック図

【図3】図２の収音装置における制御部の機能を示すブロック図

【図4】収音装置の全体動作を例示するフローチャート

【図5】収音装置の動作の概要を説明するための図

【図6】収音装置における画像状態の判定処理を例示するフローチャート

【図7】画像データにおける検出単位の領域を説明するための図

【図8】収音装置における音響状態の判定処理を例示するフローチャート

【図9】収音装置における状態テーブルを例示する図

【図10】収音装置における指示を介した収音処理を例示するフローチャート

【図11】収音装置における指示テーブルを例示する図

【図12】収音装置における指示を介さない収音処理を例示するフローチャート

【発明を実施するための形態】

【0010】

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

【0011】

なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

【0012】

（実施形態１）
以下、本開示の実施形態１について、図面を参照しながら説明する。本実施形態では、目的音の一例として人の声を収音する例について説明する。

【0013】

１．構成
１－１．概要
図１は、本実施形態に係る収音装置１０の概要を説明するための図である。本実施形態の収音装置１０は、カメラ１１とマイクアレイ１２を用いたマルチモーダルの音声強調を行う。カメラ１１は、収音の対象となる環境における検出範囲を撮影する。マイクアレイ１２は、カメラ１１と同じ検出範囲からの音波を受信する。図中では、検出範囲の水平方向に対応する水平角度θ及び垂直方向に対応する垂直角度φを例示している。

【0014】

図１は、複数の人物２１，２２及び騒音源２５が収音装置１０の検出範囲に含まれた例を示している。収音装置１０では、カメラ１１とマイクアレイ１２による検出結果に基づいて、例えば、収音装置１０から発話している人物２１などの目的音の音源に向かう方向が推定される。これにより、発話していない人物２２及び騒音源２５などを避けて、発話中の人物２１の方向からの音声のみを高感度に収音するように音声強調を行うことができる。

【0015】

本実施形態の収音装置１０は、こうした音声強調が有効に機能しない状況に陥った場合であっても目的音の収音を可能にするべく、人物２１等のユーザに対する指示を適時に出力する。以下、本実施形態の収音装置１０の構成について説明する。

【0016】

１－２．収音装置の構成
図２は、本実施形態に係る収音装置１０の構成を例示している。収音装置１０は、カメラ１１、マイクアレイ１２、制御部１３、記憶部１４、入出力インタフェース部１５、音声出力部１６、表示部１７及びバス１８を備える。本実施形態において、収音装置１０は、カメラ１１及びマイクアレイ１２を内蔵して一体化された専用の収音機である。

【0017】

なお、別の構成例では、収音装置１は、カメラ１１とマイクアレイ１２のいずれか一方又は両方を内蔵していなくてもよい。この場合、収音装置１は、外付けのカメラ１１又はマイクアレイ１２と電気的に接続される。例えば、収音装置１は、カメラ１１を備えたスマートフォン、タブレット端末或いはＰＣなどの電子機器であって、マイクアレイ１２を備えた外部機器と電気的及び機械的に接続されてもよい。

【0018】

カメラ１１は、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、又はＮＭＯＳイメージセンサなどのイメージセンサを備える。カメラ１１は、映像信号である画像データを生成して、出力する。

【0019】

マイクアレイ１２は、複数のマイクロホンを備える。マイクアレイ１２は、各マイクロホンにおいて、音波を受信して、電気信号である音響信号に変換して出力する。マイクアレイ１２は、複数のマイクロホン間の遅延量等を調整することにより収音の方向及び範囲といった指向性を制御する公知のビームフォーミング技術を適用可能である。

【0020】

制御部１３は、カメラ１１から得られた画像データと、マイクアレイ１２から得られた音響信号に基づいて、収音方向を決定する。収音方向は、目的音源が存在すると考えられることから、マイクアレイ１２から目的音を収音する方向である。目的音源は、目的音を出力する音源であり、例えば人の口元である。制御部１３は、収音方向から到来する音を強調するような信号処理を行うことによって、マイクアレイ１２が出力した音響信号から目的音を取り出す。制御部１３は、半導体素子などで実現可能である。制御部１３は、例えば、マイコン、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡ、又はＡＳＩＣで構成することができる。

【0021】

図３は、図２の収音装置１０における制御部１３の機能的構成を示している。制御部１３の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。制御部１３は、例えば図３に示ように、画像状態判定部３１、音響状態判定部３２、指示決定部３３、出力処理部３４、状態差分検出部３５、方向推定部３６、及び信号処理部３７といった機能部３１～３７を含む。各機能部３１～３７の動作については後述する。

【0022】

記憶部１４は、収音装置１０の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。記憶部１４は、例えば、ハードディスク（ＨＤＤ）、ＳＳＤ、ＲＡＭ、ＤＲＡＭ、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。カメラ１１から得られた画像データ及びマイクアレイ１２から得られた音響信号が記憶部１４に格納されてもよい。又、記憶部１４は、例えば後述する状態テーブル及び指示テーブルを格納する。記憶部１４は、収音結果の目的音データを格納してもよい。

【0023】

入出力インタフェース部１５は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＳＢ、及びＨＤＭＩ（登録商標）を含む。入出力インタフェース部１５は、外部機器に対する収音装置１０の入力部の一例であり、また出力部の一例でもある。

【0024】

音声出力部１６は、音響信号を音波に変換するスピーカ装置である。音声出力部１６は、音声出力を行って各種の情報を提示する出力部の一例である。

【0025】

表示部１７は、例えば液晶ディスプレイ又は有機ＥＬディスプレイで構成される。表示部１７は、各種の情報を表示する出力部の一例である。表示部１７は、各種プロジェクタ等であってもよい。

【0026】

バス１８は、カメラ１１、マイクアレイ１２、制御部１３、記憶部１４、入出力インタフェース部１５、音声出力部１６、及び表示部１７を電気的に接続する信号線である。

【0027】

制御部１３が画像データをカメラ１１から取得又は記憶部１４から取り出すときは、制御部１３が画像データの入力部に相当する。制御部１３が音響信号をマイクアレイ１２から取得又は記憶部１４から取り出すときは、制御部１３が音響信号の入力部に相当する。

【0028】

以上の各構成例の収音装置１０において、制御部１３が画像データを記憶部１４から取り出すときは、制御部１３又はバス１８が画像データの入力部に相当する。制御部１３が音響信号を記憶部１４から取り出すときは、制御部１３又はバス１８が音響信号の入力部に相当する。入出力インタフェース部１５が収音装置１０に外付けされたカメラ１１から画像データを入力するときは、入出力インタフェース部１５が画像データの入力部に相当する。入出力インタフェース部１５が収音装置１０に外付けされたマイクアレイ１２から音響信号を入力するときは、入出力インタフェース部１５が音響信号の入力部に相当する。

【0029】

また、以上の構成例では、収音装置１０が、音声出力部１６、表示部１７及び入出力インタフェース部１５といった複数の出力部を備える例を説明したが、収音装置１０は、こうした出力部のいずれか１つを備えてもよい。また、出力部は上記の例に限らず、例えば点滅ランプ、或いは報知ブザー等であってもよい。

【0030】

２．動作
以上のように構成される収音装置１０の動作について、以下説明する。

【0031】

図４は、本実施形態に係る収音装置１０の全体動作を例示するフローチャートである。図５は、収音装置１０の動作の概要を説明するための図である。図４のフローチャートに示す各処理は、収音装置１０の制御部１３によって実行される。

【0032】

本実施形態の収音装置１０において、制御部１３は、カメラ１１からの画像データに基づいて、画像状態判定部３１として機能する画像状態の判定処理を実行する（Ｓ１）。また、制御部１３は、マイクアレイ１２からの音響信号に基づいて、音響状態判定部３２として機能する音響状態の判定処理を実行する（Ｓ２）。

【0033】

ステップＳ１，Ｓ２では、画像データが示す画像と音響信号が示す音響とに含まれるユーザ及び環境等の現在の状態が判定される。ステップＳ１，Ｓ２の処理の詳細は後述する。なお、ステップＳ１，Ｓ２の処理を実行する順番は特に限定されず、図示した順番とは逆順であってもよいし、並列的に実行されてもよい。

【0034】

次に、制御部１３は、判定した画像と音響の現在状態が、ユーザに対する指示の対象とする所定の状態であるか否かを判断する（Ｓ３）。指示対象の状態の一例を、図５（Ａ）に例示する。

【0035】

図５（Ａ）では、発話中の人物２１（即ちユーザ）が、収音装置１０のカメラ１１及びマイクアレイ１２とは異なる向きに顔を向けた状態を例示している。このような状態においては、画像データと音響信号に基づき発話を収音するために最適な方向を求められない、或いは最適な方向からの音声を強調する処理を音響信号に施したとしても、目的音の明瞭な収音が困難になるといった事態に陥ってしまう。また、こうした事態は、人物２１の顔の向きだけでなく、例えば騒音源２５からの雑音など、収音の障害となる様々な要因で生じることが考えられる。

【0036】

そこで、本実施形態の収音装置１０は、上記のような事態に陥っているときには状態の改善をユーザに指示するべく、画像と音響の現在状態に基づきステップＳ３の判断を行う。ステップＳ３の指示対象の状態は、目的音の収音が困難であることから、ユーザに指示すべきと考えられる種々の状態に設定できる。ステップＳ３の詳細は後述する。

【0037】

制御部１３は、画像と音響の現在状態が、指示対象の状態であると判断した場合（Ｓ３でＹＥＳ）、ユーザに対する指示を介した収音処理を実行する（Ｓ４）。ステップＳ４の処理の概要を、図５（Ｂ）を用いて説明する。

【0038】

図５（Ｂ）は、図５（Ａ）の状態から指示が出力された場合を例示する。本例では、収音装置１０の音声出力部１６が、「カメラの方を向いて発話してください」という指示の音声を出力している。こうした指示の出力によると、ユーザは、発話の収音に不具合があったこと及びその理由を把握できる。

【0039】

さらに、本例において発話を収音させたい人物２１は、出力された指示に従って、顔の向きを改善して再び、発話すると考えられる。そこで、本実施形態の指示を介した収音処理（Ｓ４）では、指示前後の状態の差分に基づいて、再度の発話を収音する精度を向上する。ステップＳ４の処理の詳細は後述する。

【0040】

図４に戻り、制御部１３は、画像と音響の現在状態が、指示対象の状態でないと判断した場合（Ｓ３でＮＯ）、特に指示を介さない収音処理を実行する（Ｓ５）。ステップＳ５の処理によると、例えばユーザに指示しなくても収音可能な状態であれば、不要な指示を行わずに目的音を収音することができる。ステップＳ５の処理の詳細は後述する。

【0041】

制御部１３は、ステップＳ４又はステップＳ５の収音処理を行った後に、例えば周期的に、ステップＳ１以降の処理を繰り返す。

【0042】

以上の動作によると、収音装置１０は、画像状態および音響状態を随時判定し（Ｓ１，Ｓ２）、解消すべき状態が検知されると（Ｓ３でＹＥＳ）、ユーザに対する指示を介した収音処理（Ｓ４）を行う。これにより、ユーザに対する指示を用いて、目的音を収音し難い状態を解消させてから、収音が行えて、時間応答の良い音声強調を実現することできる。

【0043】

また、収音装置１０は、特に解消すべき状態でなければ（Ｓ３でＮＯ）、指示を介さない収音処理を行う（Ｓ５）。これにより、不要な指示が頻発してユーザにとって煩わしくなるような事態も回避できる。以上の収音装置１０の動作の詳細について、以下説明する。

【0044】

２－１．画像状態の判定処理（Ｓ１）
図４のステップＳ１の処理の詳細を、図６，７を用いて説明する。

【0045】

図６は、収音装置１０における画像状態の判定処理（Ｓ１）を例示するフローチャートである。制御部１３は、画像状態判定部３１として機能し、図６に例示するフローチャートの各処理を実行する。

【0046】

まず、画像状態判定部３１としての制御部１３は、カメラ１１からバス１８を介して画像データを入力する（Ｓ１１）。カメラ１１は、例えば所定のフレームレートにおいて、撮像された画像を示す画像データを生成する。画像データは、例えばフレーム毎に順次、入力される。

【0047】

次に、制御部１３は、入力した画像データに基づき、発話に関する画像の各種状態を検出する（Ｓ１２）。例えば、制御部１３は、画像データが示す画像において、まず人物を検出し、人物が検出された場合には画像における人物の領域において顔を検出する。また、制御部１３は、顔が検出された場合には画像における顔の向き、及び口元などのパーツを検出する。更に、複数フレーム分の検出結果に基づき、制御部１３は、例えば口元などの対象物の動きを検出する。こうした各種の検出対象は、それぞれ画像における目的音源の配置を示す情報の一例である。

【0048】

上記のようなステップＳ１２の各種検出は、例えば各部の特徴量を識別する識別器を用いて行える。例えば、機械学習が予め為された弱識別器を用いることができる（例えば非特許文献１参照）。検出された対象物の領域は、例えば画像データが示す画像における水平座標及び垂直座標で表すことができる。

【0049】

図７は、画像データｖにおける検出単位の領域ｒ（θ，φ）を示している。ステップＳ１２では、例えば水平角度θ及び垂直角度φに応じた座標において、画像データｖが示す画像を複数の領域ｒ（θ，φ）に分割し、領域ｒ（θ，φ）毎に検出結果が記録される。なお、図７では、格子状に分割し、それぞれの軸をθ，φに対応付けたが、全周カメラを使用した場合は、円周状にθ，φを対応付けるようにしてもよい。

【0050】

図６に戻り、制御部１３は、画像から検出された各種情報に基づいて、例えば予め設定された分類クラスの中で現在の画像状態を分類する（Ｓ１３）。ステップＳ１３の分類クラスは、例えば、画像上の顔の口元などの検出結果の観点において良好な画像状態から三段階に設定されるＡクラス、Ｂクラス及びＣクラスを用いる（図９参照）。なお、画像状態の分類は三段階でなくてもよい。

【0051】

画像状態に関するＡクラスは、顔とその口元が検出され、且つ、顔の向きが前向き、即ちカメラ１１に向かって正対した向きに検出された画像状態を含む。Ａクラスの画像状態によると、画像における口元の動きに基づいて発話の有無を判定可能であり、且つ、発話があったときには画像のみで発話を収音する方向を決定できると考えられる。

【0052】

画像のＢクラスは、顔とその口元は検出されたが、顔の向きが前向きとは異なる向き（例えば横向き）に検出された画像状態を含む。Ｂクラスの画像状態によると、口元の動きに基づき発話の有無の判定は実行できても、画像のみでは発話の収音方向を決定し難かったり、発話が収音可能か判定し難かったりすることが考えられる。

【0053】

画像のＣクラスは、顔や口元が検出されなかった状態である。Ｃクラスの画像状態によると、口元の動きに基づく発話の有無の判定は、実行不可である。Ｃクラスの画像状態としては、例えば、人物が検出されたとしても、人物が口元にマスクを掛けていたり、顔が後向きであったり、人物とカメラ１１間の距離が遠過ぎたり、画像が暗過ぎたりする場合が考えられる。Ｃクラスは、必ずしも人物が検出された場合に限らず、人物が検出されなかった場合を含んでもよい。

【0054】

例えば分類された画像状態がＡクラス又はＢクラスである場合、即ちＣクラスではない場合（Ｓ１４でＮＯ）、制御部１３は、画像状態の検出結果に基づいて、発話の有無を判定する（Ｓ１５）。具体的に、制御部１３は、画像状態の口元の動きが発話であるかどうかの尤度を示す発話スコアを算出し、画像状態の発話スコアを所定のしきい値と比較する。当該しきい値は、口元の動きが発話であると確信できる程度に大きい発話スコアの基準を示す。

【0055】

制御部１３は、画像状態の発話スコアがしきい値以上である場合に発話が有るという判定（Ｓ１５でＹＥＳ）の結果として、画像側の発話フラグを「ＯＮ」に設定する（Ｓ１６）。画像側の発話フラグは、画像状態による発話の有無の判定結果を管理するフラグであり、例えば記憶部１４に記憶される。

【0056】

制御部１３は、画像状態の発話スコアがしきい値未満である場合に発話が無いという判定（Ｓ１５でＮＯ）の結果として、画像側の発話フラグを「ＯＦＦ」に設定する（Ｓ１７）。画像側の発話フラグの設定（Ｓ１６，Ｓ１７）後、制御部１３は、図４のステップＳ１の処理を終了し、例えばステップＳ２に進む。

【0057】

一方、分類された画像状態がＣクラスである場合（Ｓ１４でＹＥＳ）、制御部１３は、画像状態に基づく発話の判定（Ｓ１５～Ｓ１７）を行わず、ステップＳ１の処理を終了する。

【0058】

以上の画像状態の判定処理（Ｓ１）によると、カメラ１１から順次、入力される画像データに基づいて（Ｓ１１）、画像において人物の口元などの音源の配置を示す各種情報が検出され（Ｓ１２）、現在の画像状態が判定される（Ｓ１３～Ｓ１７）。

【0059】

２－２．音響状態の判定処理（Ｓ２）
図４のステップＳ２の処理の詳細を、図８を用いて説明する。

【0060】

図８は、音響状態の判定処理（Ｓ２）を例示するフローチャートである。制御部１３は、音響状態判定部３２として機能し、図８に例示するフローチャートの各処理を実行する。

【0061】

まず、音響状態判定部３２としての制御部１３は、マイクアレイ１２からバス１８を介して音響信号を取得する（Ｓ２１）。マイクアレイ１２は順次、外部から受信される音波に応じて音響信号を生成する。ステップＳ２１では、例えば、図６のステップＳ１１で取得される画像データと同期をとって音響信号が取得される。

【0062】

次に、制御部１３は、取得した音響信号に基づき、発話に関する音響の各種状態を検出する（Ｓ２２）。ステップＳ２２の検出は、例えば図７の各検出単位の領域ｒ（θ，φ）に対応する方向（θ，φ）毎に行われる。

【0063】

例えば、制御部１３はステップＳ２２において、ＣＳＰ（Cross-Power Spectrum Phase Analysis）法又はＭＵＳＩＣ（Multiple Signal Classification）法などにより、音源の位置或いは音源から音が到来する方向を推定する演算を行う。また、制御部１３は、例えば予め学習させた音声ＧＭＭ（Gausian Mixture Model）及び非音声ＧＭＭを用いて、目的音である人の声が有する周波数帯の音声を検出したり、目的音とは異なる雑音を検出したりする。

【0064】

音響の各種検出結果に基づいて、制御部１３は、例えば画像状態の分類（Ｓ１３）と同様に、所定の分類クラスの中で現在の音響状態を分類する（Ｓ２３）。ステップＳ２３の分類クラスは、例えば、雑音の検出結果の観点において良好な音響状態から三段階に設定されるＡ，Ｂ，Ｃクラスを用いる（図９参照）。

【0065】

音響のＡクラスは、例えば雑音が検出された信号レベルが、発話などの目的音の検出に干渉し得る雑音の下限レベルを下回る音響状態を含む。Ａクラスは、周波数および位相（或いは到来方向）等の観点から、雑音と目的音とが分離可能な音響状態を含んでもよい。Ａクラスの音響状態によると、目的音の検出結果から発話の有無を判定可能であり、且つ、発話があったときには画像状態を用いなくても発話の収音方向を決定できると考えられる。

【0066】

音響のＢクラスは、例えば雑音の信号レベルが、下限レベルと上限レベルとの間で検出された音響状態を含む。雑音の上限レベルは、信号レベルの観点から雑音と目的音とが分離可能な上限を示し、下限レベルよりも大きく設定される。Ｂクラスは、例えば雑音の周波数帯が人声の周波数帯の近傍であるなど、周波数および位相等の観点から雑音と目的音とが分離し難い音響状態を含んでもよい。Ｂクラスの音響状態によると、発話の音声の有無は判定できても、画像状態を用いなければ発話の収音方向を決定し難かったり、発話の収音可否を判定し難かったりすることが考えられる。

【0067】

音響のＣクラスは、例えば雑音の信号レベルが、上限レベルを上回って検出された音響状態を含む。Ｃクラスは、周波数および位相等の観点からも雑音と目的音とが分離不可の音響状態を含んでもよい。Ｃクラスの音響状態によると、発話の音声の有無は判定不可である。

【0068】

例えば分類された音響状態がＡクラス又はＢクラスであり、Ｃクラスではない場合（Ｓ２４でＮＯ）、制御部１３は、音響状態の検出結果に基づいて、発話の有無を判定する（Ｓ２５）。具体的に、制御部１３は、検出された音声が人声であるかどうかの尤度を示す発話スコアを算出し、音響状態の発話スコアを所定のしきい値と比較する。当該しきい値は、音声が人声であると確信できる程度に大きい発話スコアの基準を示す。

【0069】

制御部１３は、音響状態の発話スコアがしきい値以上である場合には発話が有るという判定（Ｓ２５でＹＥＳ）の結果として、音響側の発話フラグを「ＯＮ」に設定する（Ｓ２６）。音響側の発話フラグは、音響状態による発話の有無の判定結果を管理するフラグであり、例えば画像側の発話フラグとは別途、記憶部１４に記憶される。

【0070】

制御部１３は、音響状態の発話スコアがしきい値未満である場合には発話が無いという判定（Ｓ２５でＮＯ）の結果として、音響側の発話フラグを「ＯＦＦ」に設定する（Ｓ２７）。音響側の発話フラグの設定（Ｓ２６，Ｓ２７）後、制御部１３は、図４のステップＳ２の処理を終了し、例えばステップＳ３に進む。

【0071】

一方、分類された音響状態がＣクラスである場合（Ｓ２４でＹＥＳ）、制御部１３は、音響状態に基づく発話の判定（Ｓ２５～Ｓ２７）を行わず、ステップＳ２の処理を終了する。

【0072】

以上の音響状態の判定処理によると、マイクアレイ１２から順次、入力される音響信号に基づいて（Ｓ２１）、目的音および雑音が検出され（Ｓ２２）、現在の音響状態が判定される（Ｓ２３～Ｓ２７）。

【0073】

２－３．指示対象の状態について（Ｓ３）
図４のステップＳ３の判断の詳細と指示対象の状態について、図９を用いて説明する。

【0074】

図９は、収音装置１０における状態テーブルＤ１を例示する図である。状態テーブルＤ１は、画像状態と音響状態とに関連付けて、指示対象の状態及び対象外の状態を管理するデータテーブルであり、例えば記憶部１４に予め格納されている。図中で各発話フラグに関する「－」は、発話の有無が判定されていないことを示す。

【0075】

本実施形態において、ステップＳ３の判断は、例えば図９に示すように、画像状態と、音響状態とを組み合わせることによって行われる。制御部１３は、状態テーブルＤ１を参照して、画像状態の判定結果（Ｓ１）及び音響状態の判定結果（Ｓ２）による現在状態が、指示対象の状態であるか否かを判断する（Ｓ３）。

【0076】

図９に例示する状態テーブルＤ１は、画像状態のＡ，Ｂ，Ｃクラス及び画像側の発話フラグのＯＮ／ＯＦＦと、音響状態のＡ，Ｂ，Ｃクラス及び音響側の発話フラグのＯＮ／ＯＦＦとの組み合わせにより、５段階の状態１～５を規定している。本実施形態において、状態改善の指示対象とする状態は状態３であり（Ｓ３でＹＥＳ）、その他の状態１，２，４，５は指示の対象外である（Ｓ３でＮＯ）。なお、状態は５段階でなくてもよい。

【0077】

状態１は、画像状態と音響状態の双方がＡクラスの状態である。状態１によると、画像状態と音響状態との双方において発話を判定可能であることから、特に状態を改善するための指示を用いなくても、発話を収音することができると考えられる。

【0078】

状態２は、画像状態と音響状態の一方がＡクラスであり、他方がＢクラス又はＣクラスの状態である。状態２によると、画像状態と音響状態の一方において発話を判定可能であることから、特に指示を用いなくても、発話を収音可能と考えられる。

【0079】

状態３は、画像状態と音響状態の双方がＢクラス又はＣクラスであり、少なくとも一方がＢクラスの状態において、画像側と音響側の発話フラグの少なくとも一方が「ＯＮ」の状態である。状態３によると、発話が有ると判定されているにも拘らず、画像状態と音響状態の双方において、発話の収音方向の決定等が困難になっている。よって、このような収音方向を決定できない障害がある状態は解消するように指示を出力することが、有用であると考えられる。

【0080】

状態４は、状態３と同様の分類クラスにおいて、画像側と音響側の発話フラグの双方が「ＯＮ」ではなく、少なくとも一方が「ＯＦＦ」の状態である。状態４によると、画像状態と音響状態の双方が収音方向等を判定し難いものの、発話が無いと判定されていることから、特に指示は出力しなくてもよいと考えられる。

【0081】

状態５は、画像状態と音響状態の双方がＣクラスの状態である。状態５によると、発話の有無も収音方向等も判定不可である。このため、発話が為されておらず特に指示が要らない場合もあり得ると共に、状態を改善するために適切な内容を指定するような指示は出力し難いことが考えられる。

【0082】

以上のような状態１～５のうちの状態３を指示対象の状態とすることにより、発話中であることが判明しているにも拘わらず、収音方向を決定できずに目的音の収音が為されないような事態を回避することができる。なお、以上に説明した指示対象及び対象外の状態は一例である。指示対象の状態は、特に上記の状態３に限らず、収音方向の決定を困難にする各種の障害を含む状態であってもよく、収音装置１０を適用する場面等に応じて適宜、設定可能である。

【0083】

２－４．指示を介した収音処理（Ｓ４）
図４のステップＳ４の処理の詳細を、図１０，１１を用いて説明する。

【0084】

図１０は、指示を介した収音処理（Ｓ４）を例示するフローチャートである。本フローチャートに示す処理は、現在状態が、図９の状態３である場合（Ｓ３でＹＥＳ）に実行される。

【0085】

まず、制御部１３は、指示決定部３３として機能し、ステップＳ１～Ｓ３で得られた現在状態に基づいて、指示に含める情報の内容を決定する（Ｓ４１）。ステップＳ４１の処理は、例えば図１１に示すような指示テーブルＤ２を参照して行われる。指示テーブルＤ２は、指示に含める情報を示す指示内容を管理するデータテーブルであり、予め記憶部１４に格納されている。

【0086】

図１１に例示する指示テーブルＤ２は、指示内容を識別するＩＤ番号と、指示内容とを関連付けて記録している。ステップＳ４１において、指示決定部３３としての制御部１３は、例えば図４のステップＳ３で判定された現在状態に基づいて、指示テーブルＤ２の中から、指示内容として決定するＩＤ番号を選択する。指示決定部３３は、ステップＳ１における各種の画像状態の検出結果（図６のＳ１２）、及びステップＳ２における各種の音響状態の検出結果（図８のＳ２２）を適宜、用いてもよい。また、状態テーブルＤ１（図９）を用いて、状態３に分類される各々の画像状態及び音響状態の組み合わせから指示内容が決定されてもよい。

【0087】

例えば、画像状態及び音響状態の双方がＢクラスの場合に、画像上で顔の向きが前向きに映っていないことから発話を収音し難い場合が考えられる（図５（Ａ）参照）。こうした場合、指示決定部３３は、ＩＤ番号Ｎ１を選択する。ＩＤ番号Ｎ１の指示内容によると、顔の向きが前向きでないといった障害がある状態を解消させる指示を実現することができる（図５（Ｂ）参照）。

【0088】

又、画像側の発話フラグがＯＮである一方、音響側の発話フラグがＯＦＦである場合、口元の動きが発話と検出されたが、発話の音声が充分に得られなかったことが想定される。この場合、指示決定部３３は、ＩＤ番号Ｎ２を選択する。また、音響状態がＣクラスであり、顕著な雑音が生じている場合に、指示決定部３３は、ＩＤ番号Ｎ３を選択する。画像状態がＣクラスであり、発話する人物が遠過ぎて口元の動きが検出できない場合に、指示決定部３３は、ＩＤ番号Ｎ４を選択する。このように、指示テーブルＤ２からの選択により、各々の障害で発話が収音できなかった状態を解消させるように、指示内容を設定できる。なお、指示決定部３３は、画像状態及び音響状態の検出結果に基づいて、各種の障害を検知可能である。

【0089】

図１０に戻り、制御部１３は、例えば指示を出力する前の画像状態および音響状態を検出する（Ｓ４２）。ステップＳ４２において、制御部１３は、例えば、画像状態判定部３１及び音響状態判定部３２として機能して図６のステップＳ１１，Ｓ１２及び図８のステップＳ２１，Ｓ２２と同様の処理を行う。ステップＳ４２では、例えば画像状態として、人の位置、顔の向き、口元の位置、人とカメラ１１間の距離などの画像状態が検出される。また、音響状態としては位相差による音声の到来方向の確率、及び方向毎の人声の尤度などが検出される。

【0090】

又、制御部１３は、出力処理部３４として機能し、決定した指示を出力するように各種の出力部を制御する指示信号を、バス１８を介して送信する（Ｓ４３）。例えば、出力処理部３４としての制御部１３は、音声出力部１６を制御して指示内容を音声出力させる。制御部１３は、表示部１７に指示内容を表示させてもよい。また、例えば外部モニタなどの外部機器を用いてユーザに指示を提示する場合、制御部１３は、外部機器に対する指示信号を、出力部としての入出力インタフェース部１５に送信する。

【0091】

次に、制御部１３は、指示後の画像状態および音響状態を検出する（Ｓ４４）。ステップＳ４４において、制御部１３は、例えば指示前の検出（Ｓ４２）と同様の検出を、指示を出力してから所定期間後に、画像状態判定部３１及び音響状態判定部３２として行う。所定期間は、ユーザが、指示に従って行動を始めることが想定される期間であり、例えば１秒である。ステップＳ４４の処理は、例えば図６のステップＳ１１，Ｓ１２及び図８のステップＳ２１，Ｓ２２と同様である。

【0092】

次に、制御部１３は、状態差分検出部３５として機能し、指示前の画像状態および音響状態（Ｓ４２）と、指示後の画像状態および音響状態（Ｓ４４）との間の差分を検出する（Ｓ４５）。この際、収音装置１０の検出範囲内において、状態改善の指示に反応したユーザが発話する箇所からは指示前後の状態間の差分が検出される一方、指示に反応しない外的な箇所からは状態間の差分が検出されないことが想定される。

【0093】

ステップＳ４５において、状態差分検出部３５としての制御部１３は、例えば画像状態の差分として、指示前後に変化した人の位置、顔の向き及び口元などを検出する。制御部１３は、例えば画像における検出単位の領域ｒ（θ，φ）毎に、検出された画像状態の差分の程度を示す差分スコアを算出する。又、制御部１３は、音響状態の差分として、例えば指示前後に変化した音声の到来方向の確率、及び各方向（θ，φ）における人声の尤度を検出する。制御部１３は、検出された音響状態の差分の程度を示す差分スコアを方向毎に算出する。

【0094】

次に、制御部１３は、方向推定部３６として機能し、検出した各状態の差分に基づいて、指示後の発話による目的音が到来する方向を推定する演算を行う（Ｓ４６）。例えば、制御部１３は、検出範囲内における各々の方向において、画像状態の差分スコアと、音響状態の差分スコアの線形和を演算し、演算結果として得られたスコアが最も高い方向を、目的音の収音方向に決定する。差分スコアの線形和は、画像状態と音響状態とにそれぞれ重み付けした重み付け和であってもよい。又、線形和の代わりに乗算或いは非線形の演算が適宜、採用されてもよい。

【0095】

次に、制御部１３は、信号処理部３７として機能し、演算結果の収音方向からの音を強調する処理を実行する（Ｓ４７）。信号処理部３７は、例えばビームフォーミングにより、収音方向にビームを向けるように信号処理を行って、目的音の収音結果を示す目的音データを生成する。信号処理部３７は、周波数フィルタ等の目的音を強調する各種の信号処理を行ってもよい。目的音データは、例えば記憶部１４に格納される。

【0096】

制御部１３は、音声強調の実行（Ｓ４７）後に、図４のステップＳ４の処理を終了する。その後、制御部１３は、例えばステップＳ１に戻り、その後の処理を再度、行う。

【0097】

以上の指示を介した収音処理（Ｓ４）によると、例えば図５（Ａ）の状態において図５（Ｂ）参照に示すようにＩＤ番号Ｎ１の指示内容が出力される（Ｓ４１～Ｓ４３）。この際、発話した人物２１が指示に従って顔の向きを改善することで、次の発話が収音可能になる。一方、発話していない人物２２および騒音源２５などは、指示に反応しない。よって、例えば指示の前後の状態間の差分として顔の向きが改善された人物２１を容易に検出でき（Ｓ４４，Ｓ４５）、収音方向を精度良く決定できる（Ｓ４６，Ｓ４７）。

【0098】

ステップＳ４６の状態間の差分としては、上記以外にも例えば、ＩＤ番号Ｎ２，Ｎ３の指示により音声状態において人声の尤度が大きくなったりする、ＩＤ番号Ｎ４の指示により画像状態において人とカメラ１１間の距離が近くなったりことが考えられる。こうした状態間の差分を用いることにより、目的音を収音する精度を良くすることができる。

【0099】

上記のステップＳ４２の処理は、指示の出力（Ｓ４３）前に限らず、例えばステップＳ４３と同時に行われてもよい。ステップＳ４２の処理は、指示後の状態検出（Ｓ４４）よりも前の範囲内で実行可能であり、例えばステップＳ４１前であってもよい。この場合、指示内容の決定（Ｓ４１）に、ステップＳ４２の検出結果が用いられてもよい。又、指示前の状態検出はステップＳ３前であってもよいことから、ステップＳ４２の処理を省略して、その代わりにステップＳ１２，Ｓ２２の検出結果が用いられてもよい。

【0100】

また、以上の説明では、収音し難い状態を解消するように指示を変化させる例を説明したが、指示は画一的であってもよい。例えば、指示内容として「カメラの方に向いて、大きな声で発話してください。」といった内容が採用されてもよい。こうした画一的な指示であっても、収音可能に状態を改善可能と考えられる。

【0101】

２－５．指示を介さない収音処理（Ｓ５）
図４のステップＳ５の処理の詳細を、図１２を用いて説明する。

【0102】

図１２は、指示を介さない収音処理（Ｓ５）を例示するフローチャートである。本フローチャートに示す処理は、現在状態が、図９の状態１，２，４，５のいずれかである場合（Ｓ３でＮＯ）に実行される。

【0103】

例えば、制御部１３は、まず、現在状態が、発話が有ると判定されたか否かを判断する（Ｓ５１）。例えば、制御部１３は、状態１，２において画像側の発話フラグと音響側の発話フラグの少なくとも一方が「ＯＮ」である場合に、ステップＳ５１でＹＥＳに進む。一方、制御部１３は、その他の場合にはステップＳ５１でＮＯに進む。

【0104】

現在状態が、発話が有ると判定された場合（Ｓ５１でＹＥＳ）、制御部１３は、方向推定部３６として機能し、収音方向の推定の演算を行う（Ｓ５２）。ステップＳ４２の処理は、例えば現在の画像状態の検出結果（図６のＳ１２）及び音響状態の検出結果（図８のＳ２２）を用いて行われる。

【0105】

次に、制御部１３は、信号処理部３７として機能し、演算結果の収音方向からの音を強調する処理を実行する（Ｓ５３）。ステップＳ５３の処理は、例えば図１０のステップＳ４７と同様に行われる。ステップＳ５３により、指示を用いず目的音が収音される。

【0106】

制御部１３は、音声強調の実行（Ｓ５３）後に、図４のステップＳ５の処理を終了する。その後、制御部１３は、例えばステップＳ１に戻り、その後の処理を再度、行う。

【0107】

一方、発話が有ると判定されなかった場合（Ｓ５１でＮＯ）、例えば制御部１３は、現在状態が、図９の状態５すなわち発話の判定不可の状態であるか否かを判断する（Ｓ５４）。

【0108】

制御部１３は、現在状態が状態５の場合（Ｓ５４でＹＥＳ）、例えばエラーの報知を各種出力部に出力させ（Ｓ５５）、ステップＳ５を終了する。例えば、制御部１３は、収音できていない音を知らせるために、エラーメッセージ等を表示部１７に表示させる。ステップＳ５４，Ｓ５５の処理は適宜、省略されてもよい。

【0109】

一方、現在状態が状態５ではない場合（Ｓ５４でＮＯ）、制御部１３は、特にステップＳ５５の処理を行わずにステップＳ５を終了する。この場合（Ｓ５１とＳ５４でＮＯ）は、状態１，２，４において発話が無いと判定された場合であることから、ステップＳ５２，Ｓ５３の処理も省略できる。

【0110】

以上の指示を介さない収音処理（Ｓ５）によると、例えば状態１，２において発話が有り、指示を用いなくても収音できる場合（Ｓ５１でＹＥＳ）、余計な指示を出力せずに収音を達成できる（Ｓ５３）。また、発話が無いことが判明している場合（Ｓ５１でＮＯ）、不要な指示が出力されないようにすることができる。

【0111】

以上の処理において、制御部１３は、例えばステップＳ５１の前に、現在状態が、前回の制御周期における状態と同じであるか否かを判断してもよく、前回と同じでないと判断した場合のみステップＳ５１以降の処理を行うようにしてもよい。現在状態が前回と同じと判断された場合、その後の処理も前回と同じ処理を適用する、例えば同じ収音方向を用いるようにしてもよい。

【0112】

３．まとめ
本開示に係る収音装置１０は、人物２１等のユーザが音源の一例として口元から出力させる発話の音声などの目的音を収音する。収音装置１０は、第１の入力部と、第２の入力部と、制御部１３と、音声出力部１６、表示部１７および入出力インタフェース部１５等の出力部とを備える。第１の入力部としての制御部１３は、カメラ１１によって生成された画像データを入力する（Ｓ１１）。第２の入力部としての制御部１３は、マイクアレイ１２から出力された音響信号を入力する（Ｓ２１）。制御部１３は、画像データ及び音響信号に基づいて、目的音を収音する収音方向を決定する（Ｓ３、Ｓ４）。出力部は、ユーザに提示する情報を出力する。制御部１３は、入力された画像データが示す画像及び入力された音響信号が示す音響が、図９の状態３等の所定の状態であるか否かを判断する（Ｓ３）。制御部１３は、画像及び音響が所定の状態であると判断したとき（Ｓ３でＹＥＳ）、ユーザに対する指示を出力部に出力させ（Ｓ４３）、指示が出力された後に更なる画像データ及び音響信号を入力して（Ｓ４４）、収音方向を決定する（Ｓ４６，Ｓ４７）。

【0113】

以上の収音装置１０によると、目的音の収音が困難と想定される状態になったとき（Ｓ３でＹＥＳ）、ユーザに指示を出力して（Ｓ４３）、その後の画像データ及び音響信号を用いて収音方向が決定される（Ｓ４６，Ｓ４７）。これにより、目的音が収音し難くなることがある状況であっても、目的音が収音され易くすることができる。

【0114】

本実施形態において、制御部１３は、指示後に入力された画像データと当該画像データよりも前に入力された画像データ間の差分、および指示後に入力された音響信号と当該音響信号よりも前に入力された音響信号間の差分を検出して（Ｓ４５）、収音方向を決定する（Ｓ４６，Ｓ４７）。これにより、ユーザが指示に従って改善した状態の変化を効率良く得て、目的音を収音する精度を良くすることができる。

【0115】

本実施形態において、制御部１３は、収音方向の候補とする検出単位の領域ｒ（θ，φ）毎の複数の方向における各方向について（図７参照）、画像データ間の差分及び音響信号間の差分の大きさに応じたスコアを算出し、算出されたスコアが最も大きい方向を、収音方向として決定する（Ｓ４６）。こうした簡単な演算処理により、目的音の収音を容易に行うことができる。

【0116】

本実施形態において、収音装置１０は、画像および音響の状態を分類する状態テーブルＤ１を格納する記憶部１４をさらに備える。制御部１３は、状態テーブルＤ１を参照し、所定の状態であると判断したときの画像及び音響に応じて指示に含める情報を決定する（Ｓ４１）。例えば、制御部１３は、図１１に例示するように、所定の状態を解消するように指示に含める情報を変化させる。画像及び音響から判定される状態に応じてユーザに例示する指示を適切に設定でき、これによって現在状態を改善し易くすることができる。

【0117】

本実施形態において、制御部１３は、画像及び音響が所定の状態でないと判断したとき（Ｓ３でＮＯ）、指示を出力せずに、収音方向を決定する（Ｓ５）。これにより、不要な指示が頻発することを回避して、ユーザにとって収音装置１０を利用し易くすることができる。

【0118】

本実施形態において、制御部１３は、画像データに基づいて、画像において音源の配置を示す情報を検出し（Ｓ１２）、音響信号に基づいて、音響において目的音、及び雑音を検出し（Ｓ２２）、画像データと音響信号の検出結果に応じて、収音方向を決定する（Ｓ３，Ｓ４）。所定の状態は、状態３のように、収音方向を決定する際の障害を含む状態である。同状態によると、制御部１３において上記の検出結果に応じて収音方向が決定されない。こうした所定の状態が生じたときに、ユーザに対する指示を出力して、障害がある状態を改善させることにより、目的音が収音され易くすることができる。

【0119】

本実施形態において、収音装置１０は、カメラ１１及びマイクアレイ１２のうちの少なくとも一方を備えてもよい。収音装置１０は、カメラ１１及びマイクアレイ１２の双方を備えなくてもよい。

【0120】

本実施形態に係る収音方法は、ユーザが音源から出力させる目的音を収音するための方法であって、カメラ１１によって生成された画像データを入力するステップ（Ｓ１１）と、マイクアレイ１２から出力された音響信号を入力するステップ（Ｓ２１）と、入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断するステップ（Ｓ３）とを含む。本方法は、画像及び音響が所定の状態であると判断したとき、ユーザに対する指示を出力するステップ（Ｓ４３）と、指示が出力された後に更なる画像データ及び音響信号を入力して、収音方向を決定するステップ（Ｓ４４～Ｓ４７）とを含む。本方法によると、目的音が収音され易くすることができる。

【0121】

本実施形態において、上記のような収音方法をコンピュータに実行させるためのプログラムが提供される。こうしたプログラムは、例えば記憶部１４を含む各種の記憶媒体に格納して提供したり、通信ネットワークを介して提供したりすることができる。

【0122】

（他の実施形態）
以上のように、本出願において開示する技術の例示として、実施形態１を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。

【0123】

上記実施形態では、収音方向として、水平角θ及び垂直角φをそれぞれ決定する場合について説明したが、水平角θ及び垂直角φの少なくともいずれか一方のみで、目的音源の方向を特定できる場合は、水平角θ及び垂直角φの少なくともいずれか一方を決定するだけであってもよい。

【0124】

上記実施形態においては、人が発話する音声を目的音として収音したが、目的音は人が発話する音声に限らず、人が発する種々の音であってもよい。目的音は、車の音、動物の鳴き声、又は設備の動作音であってもよい。こうした目的音を収音したいユーザに対して、実施形態１と同様に収音困難なときに指示を提示することにより、目的音の収音を行い易くすることができる。

【0125】

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

【0126】

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

【0127】

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。

【産業上の利用可能性】

【0128】

本開示の収音装置は、例えば、人が発話する音声を収音する装置として、有用である。

【図1】