(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-17
(45)【発行日】2024-10-25
(54)【発明の名称】収音装置および収音方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20241018BHJP
H04R 1/40 20060101ALI20241018BHJP
G10K 11/34 20060101ALI20241018BHJP
G10L 25/51 20130101ALI20241018BHJP
【FI】
H04R3/00 320
H04R1/40 320A
G10K11/34 100
G10L25/51 400
(21)【出願番号】P 2021554131
(86)(22)【出願日】2020-09-03
(86)【国際出願番号】 JP2020033469
(87)【国際公開番号】W WO2021084905
(87)【国際公開日】2021-05-06
【審査請求日】2023-06-30
(31)【優先権主張番号】P 2019197723
(32)【優先日】2019-10-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100135703
【氏名又は名称】岡部 英隆
(74)【代理人】
【識別番号】100199314
【氏名又は名称】竹内 寛
(72)【発明者】
【氏名】和田 茉都加
(72)【発明者】
【氏名】廣瀬 良文
(72)【発明者】
【氏名】足立 祐介
【審査官】松崎 孝大
(56)【参考文献】
【文献】特開2017-034645(JP,A)
【文献】特開2019-008134(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
G10K 11/34
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
ユーザが音源から出力させる目的音を収音するための収音装置であって、
カメラによって生成された画像データを入力する第1の入力部と、
マイクアレイから出力された音響信号を入力する第2の入力部と、
前記画像データ及び前記音響信号に基づいて、前記目的音を収音する収音方向を決定する制御部と、
前記ユーザに提示する情報を出力する出力部とを備え、
前記制御部は、
入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断し、
前記画像及び前記音響が前記所定の状態であると判断したとき、前記ユーザに対する指示を前記出力部に出力させ、
前記指示が出力された後に更なる画像データ及び音響信号を入力して、
前記指示の後に入力された画像データと当該画像データよりも前に入力された画像データ間の差分、および前記指示の後に入力された音響信号と当該音響信号よりも前に入力された音響信号間の差分を検出して、前記画像データ間の差分と前記音響信号間の差分とに基づいて前記収音方向を決定する
収音装置。
【請求項2】
前記制御部は、前記収音方向の候補とする複数の方向における各方向について、前記画像データ間の差分および前記音響信号間の差分の大きさに応じたスコアを算出し、算出されたスコアが最も大きい方向を、前記収音方向として決定する
請求項
1に記載の収音装置。
【請求項3】
画像および音響の状態を分類する状態テーブルを格納する記憶部をさらに備え、
前記制御部は、前記状態テーブルを参照し、前記所定の状態であると判断したときの前記画像及び前記音響に応じて前記指示に含める情報を決定する
請求項1
又は2に記載の収音装置。
【請求項4】
前記制御部は、前記画像及び前記音響が前記所定の状態でないと判断したとき、前記指示を出力せずに、前記収音方向を決定する
請求項1から
3のいずれか1項に記載の収音装置。
【請求項5】
前記制御部は、
前記画像データに基づいて、前記画像において前記音源の配置を示す情報を検出し、
前記音響信号に基づいて、前記音響において前記目的音、及び雑音を検出し、
前記画像と前記音響における検出結果に応じて、前記収音方向を決定し、
前記所定の状態は、前記画像と前記音響における検出結果が、前記収音方向を決定する際の障害を含む状態である
請求項1から
4のいずれか1項に記載の収音装置。
【請求項6】
前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える
請求項1から
5のいずれか1項に記載の収音装置。
【請求項7】
ユーザが音源から出力させる目的音を収音するための収音方法であって、
カメラによって生成された画像データを入力するステップと、
マイクアレイから出力された音響信号を入力するステップと、
入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断するステップと、
前記画像及び前記音響が前記所定の状態であると判断したとき、前記ユーザに対する指示を出力するステップと、
前記指示が出力された後に更なる画像データ及び音響信号を入力して、
前記指示の後に入力された画像データと当該画像データよりも前に入力された画像データ間の差分、および前記指示の後に入力された音響信号と当該音響信号よりも前に入力された音響信号間の差分を検出して、前記画像データ間の差分と前記音響信号間の差分とに基づいて前記目的音を収音する収音方向を決定するステップと
を含む収音方法。
【請求項8】
請求項
7に記載の収音方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、目的音を収音する収音装置および収音方法に関する。
【背景技術】
【0002】
特許文献1は、一人以上の参加者による談話を記録したデータから、どの参加者がいつ発話したかを推定するための推定装置を開示している。この推定装置は、マイクロホンから出力される音響信号から得られる情報と、カメラから出力される映像信号から得られる情報とを統合することによって、談話参加者が発話した確率を算出している。これにより、談話参加者が発話のない状況で移動した場合であっても、談話参加者の位置を追跡することを可能にしている。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】"Rapid Object Detection using a Boosted Cascade of Simple Features" ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、目的音が収音され易くすることができる収音装置および収音方法を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様の収音装置は、ユーザが音源から出力させる目的音を収音するための収音装置であって、第1の入力部と、第2の入力部と、制御部と、出力部とを備える。第1の入力部は、カメラによって生成された画像データを入力する。第2の入力部は、マイクアレイから出力された音響信号を入力する。制御部は、画像データ及び音響信号に基づいて、目的音を収音する収音方向を決定する。出力部は、ユーザに提示する情報を出力する。制御部は、入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断する。制御部は、画像及び音響が所定の状態であると判断したとき、ユーザに対する指示を出力部に出力させ、指示が出力された後に更なる画像データ及び音響信号を入力して、収音方向を決定する。
【0007】
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
【発明の効果】
【0008】
本開示の収音装置および収音方法によると、ユーザに対する指示を用いて、目的音が収音され易くすることができる。
【図面の簡単な説明】
【0009】
【
図1】本開示の実施形態1に係る収音装置の概要を説明するための図
【
図3】
図2の収音装置における制御部の機能を示すブロック図
【
図4】収音装置の全体動作を例示するフローチャート
【
図6】収音装置における画像状態の判定処理を例示するフローチャート
【
図7】画像データにおける検出単位の領域を説明するための図
【
図8】収音装置における音響状態の判定処理を例示するフローチャート
【
図10】収音装置における指示を介した収音処理を例示するフローチャート
【
図11】収音装置における指示テーブルを例示する図
【
図12】収音装置における指示を介さない収音処理を例示するフローチャート
【発明を実施するための形態】
【0010】
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0011】
なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
【0012】
(実施形態1)
以下、本開示の実施形態1について、図面を参照しながら説明する。本実施形態では、目的音の一例として人の声を収音する例について説明する。
【0013】
1.構成
1-1.概要
図1は、本実施形態に係る収音装置10の概要を説明するための図である。本実施形態の収音装置10は、カメラ11とマイクアレイ12を用いたマルチモーダルの音声強調を行う。カメラ11は、収音の対象となる環境における検出範囲を撮影する。マイクアレイ12は、カメラ11と同じ検出範囲からの音波を受信する。図中では、検出範囲の水平方向に対応する水平角度θ及び垂直方向に対応する垂直角度φを例示している。
【0014】
図1は、複数の人物21,22及び騒音源25が収音装置10の検出範囲に含まれた例を示している。収音装置10では、カメラ11とマイクアレイ12による検出結果に基づいて、例えば、収音装置10から発話している人物21などの目的音の音源に向かう方向が推定される。これにより、発話していない人物22及び騒音源25などを避けて、発話中の人物21の方向からの音声のみを高感度に収音するように音声強調を行うことができる。
【0015】
本実施形態の収音装置10は、こうした音声強調が有効に機能しない状況に陥った場合であっても目的音の収音を可能にするべく、人物21等のユーザに対する指示を適時に出力する。以下、本実施形態の収音装置10の構成について説明する。
【0016】
1-2.収音装置の構成
図2は、本実施形態に係る収音装置10の構成を例示している。収音装置10は、カメラ11、マイクアレイ12、制御部13、記憶部14、入出力インタフェース部15、音声出力部16、表示部17及びバス18を備える。本実施形態において、収音装置10は、カメラ11及びマイクアレイ12を内蔵して一体化された専用の収音機である。
【0017】
なお、別の構成例では、収音装置1は、カメラ11とマイクアレイ12のいずれか一方又は両方を内蔵していなくてもよい。この場合、収音装置1は、外付けのカメラ11又はマイクアレイ12と電気的に接続される。例えば、収音装置1は、カメラ11を備えたスマートフォン、タブレット端末或いはPCなどの電子機器であって、マイクアレイ12を備えた外部機器と電気的及び機械的に接続されてもよい。
【0018】
カメラ11は、CCDイメージセンサ、CMOSイメージセンサ、又はNMOSイメージセンサなどのイメージセンサを備える。カメラ11は、映像信号である画像データを生成して、出力する。
【0019】
マイクアレイ12は、複数のマイクロホンを備える。マイクアレイ12は、各マイクロホンにおいて、音波を受信して、電気信号である音響信号に変換して出力する。マイクアレイ12は、複数のマイクロホン間の遅延量等を調整することにより収音の方向及び範囲といった指向性を制御する公知のビームフォーミング技術を適用可能である。
【0020】
制御部13は、カメラ11から得られた画像データと、マイクアレイ12から得られた音響信号に基づいて、収音方向を決定する。収音方向は、目的音源が存在すると考えられることから、マイクアレイ12から目的音を収音する方向である。目的音源は、目的音を出力する音源であり、例えば人の口元である。制御部13は、収音方向から到来する音を強調するような信号処理を行うことによって、マイクアレイ12が出力した音響信号から目的音を取り出す。制御部13は、半導体素子などで実現可能である。制御部13は、例えば、マイコン、CPU、MPU、DSP、FPGA、又はASICで構成することができる。
【0021】
図3は、
図2の収音装置10における制御部13の機能的構成を示している。制御部13の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。制御部13は、例えば
図3に示ように、画像状態判定部31、音響状態判定部32、指示決定部33、出力処理部34、状態差分検出部35、方向推定部36、及び信号処理部37といった機能部31~37を含む。各機能部31~37の動作については後述する。
【0022】
記憶部14は、収音装置10の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。記憶部14は、例えば、ハードディスク(HDD)、SSD、RAM、DRAM、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。カメラ11から得られた画像データ及びマイクアレイ12から得られた音響信号が記憶部14に格納されてもよい。又、記憶部14は、例えば後述する状態テーブル及び指示テーブルを格納する。記憶部14は、収音結果の目的音データを格納してもよい。
【0023】
入出力インタフェース部15は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、LAN、Wi-Fi(登録商標)、Bluetooth(登録商標)、USB、及びHDMI(登録商標)を含む。入出力インタフェース部15は、外部機器に対する収音装置10の入力部の一例であり、また出力部の一例でもある。
【0024】
音声出力部16は、音響信号を音波に変換するスピーカ装置である。音声出力部16は、音声出力を行って各種の情報を提示する出力部の一例である。
【0025】
表示部17は、例えば液晶ディスプレイ又は有機ELディスプレイで構成される。表示部17は、各種の情報を表示する出力部の一例である。表示部17は、各種プロジェクタ等であってもよい。
【0026】
バス18は、カメラ11、マイクアレイ12、制御部13、記憶部14、入出力インタフェース部15、音声出力部16、及び表示部17を電気的に接続する信号線である。
【0027】
制御部13が画像データをカメラ11から取得又は記憶部14から取り出すときは、制御部13が画像データの入力部に相当する。制御部13が音響信号をマイクアレイ12から取得又は記憶部14から取り出すときは、制御部13が音響信号の入力部に相当する。
【0028】
以上の各構成例の収音装置10において、制御部13が画像データを記憶部14から取り出すときは、制御部13又はバス18が画像データの入力部に相当する。制御部13が音響信号を記憶部14から取り出すときは、制御部13又はバス18が音響信号の入力部に相当する。入出力インタフェース部15が収音装置10に外付けされたカメラ11から画像データを入力するときは、入出力インタフェース部15が画像データの入力部に相当する。入出力インタフェース部15が収音装置10に外付けされたマイクアレイ12から音響信号を入力するときは、入出力インタフェース部15が音響信号の入力部に相当する。
【0029】
また、以上の構成例では、収音装置10が、音声出力部16、表示部17及び入出力インタフェース部15といった複数の出力部を備える例を説明したが、収音装置10は、こうした出力部のいずれか1つを備えてもよい。また、出力部は上記の例に限らず、例えば点滅ランプ、或いは報知ブザー等であってもよい。
【0030】
2.動作
以上のように構成される収音装置10の動作について、以下説明する。
【0031】
図4は、本実施形態に係る収音装置10の全体動作を例示するフローチャートである。
図5は、収音装置10の動作の概要を説明するための図である。
図4のフローチャートに示す各処理は、収音装置10の制御部13によって実行される。
【0032】
本実施形態の収音装置10において、制御部13は、カメラ11からの画像データに基づいて、画像状態判定部31として機能する画像状態の判定処理を実行する(S1)。また、制御部13は、マイクアレイ12からの音響信号に基づいて、音響状態判定部32として機能する音響状態の判定処理を実行する(S2)。
【0033】
ステップS1,S2では、画像データが示す画像と音響信号が示す音響とに含まれるユーザ及び環境等の現在の状態が判定される。ステップS1,S2の処理の詳細は後述する。なお、ステップS1,S2の処理を実行する順番は特に限定されず、図示した順番とは逆順であってもよいし、並列的に実行されてもよい。
【0034】
次に、制御部13は、判定した画像と音響の現在状態が、ユーザに対する指示の対象とする所定の状態であるか否かを判断する(S3)。指示対象の状態の一例を、
図5(A)に例示する。
【0035】
図5(A)では、発話中の人物21(即ちユーザ)が、収音装置10のカメラ11及びマイクアレイ12とは異なる向きに顔を向けた状態を例示している。このような状態においては、画像データと音響信号に基づき発話を収音するために最適な方向を求められない、或いは最適な方向からの音声を強調する処理を音響信号に施したとしても、目的音の明瞭な収音が困難になるといった事態に陥ってしまう。また、こうした事態は、人物21の顔の向きだけでなく、例えば騒音源25からの雑音など、収音の障害となる様々な要因で生じることが考えられる。
【0036】
そこで、本実施形態の収音装置10は、上記のような事態に陥っているときには状態の改善をユーザに指示するべく、画像と音響の現在状態に基づきステップS3の判断を行う。ステップS3の指示対象の状態は、目的音の収音が困難であることから、ユーザに指示すべきと考えられる種々の状態に設定できる。ステップS3の詳細は後述する。
【0037】
制御部13は、画像と音響の現在状態が、指示対象の状態であると判断した場合(S3でYES)、ユーザに対する指示を介した収音処理を実行する(S4)。ステップS4の処理の概要を、
図5(B)を用いて説明する。
【0038】
図5(B)は、
図5(A)の状態から指示が出力された場合を例示する。本例では、収音装置10の音声出力部16が、「カメラの方を向いて発話してください」という指示の音声を出力している。こうした指示の出力によると、ユーザは、発話の収音に不具合があったこと及びその理由を把握できる。
【0039】
さらに、本例において発話を収音させたい人物21は、出力された指示に従って、顔の向きを改善して再び、発話すると考えられる。そこで、本実施形態の指示を介した収音処理(S4)では、指示前後の状態の差分に基づいて、再度の発話を収音する精度を向上する。ステップS4の処理の詳細は後述する。
【0040】
図4に戻り、制御部13は、画像と音響の現在状態が、指示対象の状態でないと判断した場合(S3でNO)、特に指示を介さない収音処理を実行する(S5)。ステップS5の処理によると、例えばユーザに指示しなくても収音可能な状態であれば、不要な指示を行わずに目的音を収音することができる。ステップS5の処理の詳細は後述する。
【0041】
制御部13は、ステップS4又はステップS5の収音処理を行った後に、例えば周期的に、ステップS1以降の処理を繰り返す。
【0042】
以上の動作によると、収音装置10は、画像状態および音響状態を随時判定し(S1,S2)、解消すべき状態が検知されると(S3でYES)、ユーザに対する指示を介した収音処理(S4)を行う。これにより、ユーザに対する指示を用いて、目的音を収音し難い状態を解消させてから、収音が行えて、時間応答の良い音声強調を実現することできる。
【0043】
また、収音装置10は、特に解消すべき状態でなければ(S3でNO)、指示を介さない収音処理を行う(S5)。これにより、不要な指示が頻発してユーザにとって煩わしくなるような事態も回避できる。以上の収音装置10の動作の詳細について、以下説明する。
【0044】
2-1.画像状態の判定処理(S1)
図4のステップS1の処理の詳細を、
図6,7を用いて説明する。
【0045】
図6は、収音装置10における画像状態の判定処理(S1)を例示するフローチャートである。制御部13は、画像状態判定部31として機能し、
図6に例示するフローチャートの各処理を実行する。
【0046】
まず、画像状態判定部31としての制御部13は、カメラ11からバス18を介して画像データを入力する(S11)。カメラ11は、例えば所定のフレームレートにおいて、撮像された画像を示す画像データを生成する。画像データは、例えばフレーム毎に順次、入力される。
【0047】
次に、制御部13は、入力した画像データに基づき、発話に関する画像の各種状態を検出する(S12)。例えば、制御部13は、画像データが示す画像において、まず人物を検出し、人物が検出された場合には画像における人物の領域において顔を検出する。また、制御部13は、顔が検出された場合には画像における顔の向き、及び口元などのパーツを検出する。更に、複数フレーム分の検出結果に基づき、制御部13は、例えば口元などの対象物の動きを検出する。こうした各種の検出対象は、それぞれ画像における目的音源の配置を示す情報の一例である。
【0048】
上記のようなステップS12の各種検出は、例えば各部の特徴量を識別する識別器を用いて行える。例えば、機械学習が予め為された弱識別器を用いることができる(例えば非特許文献1参照)。検出された対象物の領域は、例えば画像データが示す画像における水平座標及び垂直座標で表すことができる。
【0049】
図7は、画像データvにおける検出単位の領域r(θ,φ)を示している。ステップS12では、例えば水平角度θ及び垂直角度φに応じた座標において、画像データvが示す画像を複数の領域r(θ,φ)に分割し、領域r(θ,φ)毎に検出結果が記録される。なお、
図7では、格子状に分割し、それぞれの軸をθ,φに対応付けたが、全周カメラを使用した場合は、円周状にθ,φを対応付けるようにしてもよい。
【0050】
図6に戻り、制御部13は、画像から検出された各種情報に基づいて、例えば予め設定された分類クラスの中で現在の画像状態を分類する(S13)。ステップS13の分類クラスは、例えば、画像上の顔の口元などの検出結果の観点において良好な画像状態から三段階に設定されるAクラス、Bクラス及びCクラスを用いる(
図9参照)。なお、画像状態の分類は三段階でなくてもよい。
【0051】
画像状態に関するAクラスは、顔とその口元が検出され、且つ、顔の向きが前向き、即ちカメラ11に向かって正対した向きに検出された画像状態を含む。Aクラスの画像状態によると、画像における口元の動きに基づいて発話の有無を判定可能であり、且つ、発話があったときには画像のみで発話を収音する方向を決定できると考えられる。
【0052】
画像のBクラスは、顔とその口元は検出されたが、顔の向きが前向きとは異なる向き(例えば横向き)に検出された画像状態を含む。Bクラスの画像状態によると、口元の動きに基づき発話の有無の判定は実行できても、画像のみでは発話の収音方向を決定し難かったり、発話が収音可能か判定し難かったりすることが考えられる。
【0053】
画像のCクラスは、顔や口元が検出されなかった状態である。Cクラスの画像状態によると、口元の動きに基づく発話の有無の判定は、実行不可である。Cクラスの画像状態としては、例えば、人物が検出されたとしても、人物が口元にマスクを掛けていたり、顔が後向きであったり、人物とカメラ11間の距離が遠過ぎたり、画像が暗過ぎたりする場合が考えられる。Cクラスは、必ずしも人物が検出された場合に限らず、人物が検出されなかった場合を含んでもよい。
【0054】
例えば分類された画像状態がAクラス又はBクラスである場合、即ちCクラスではない場合(S14でNO)、制御部13は、画像状態の検出結果に基づいて、発話の有無を判定する(S15)。具体的に、制御部13は、画像状態の口元の動きが発話であるかどうかの尤度を示す発話スコアを算出し、画像状態の発話スコアを所定のしきい値と比較する。当該しきい値は、口元の動きが発話であると確信できる程度に大きい発話スコアの基準を示す。
【0055】
制御部13は、画像状態の発話スコアがしきい値以上である場合に発話が有るという判定(S15でYES)の結果として、画像側の発話フラグを「ON」に設定する(S16)。画像側の発話フラグは、画像状態による発話の有無の判定結果を管理するフラグであり、例えば記憶部14に記憶される。
【0056】
制御部13は、画像状態の発話スコアがしきい値未満である場合に発話が無いという判定(S15でNO)の結果として、画像側の発話フラグを「OFF」に設定する(S17)。画像側の発話フラグの設定(S16,S17)後、制御部13は、
図4のステップS1の処理を終了し、例えばステップS2に進む。
【0057】
一方、分類された画像状態がCクラスである場合(S14でYES)、制御部13は、画像状態に基づく発話の判定(S15~S17)を行わず、ステップS1の処理を終了する。
【0058】
以上の画像状態の判定処理(S1)によると、カメラ11から順次、入力される画像データに基づいて(S11)、画像において人物の口元などの音源の配置を示す各種情報が検出され(S12)、現在の画像状態が判定される(S13~S17)。
【0059】
2-2.音響状態の判定処理(S2)
図4のステップS2の処理の詳細を、
図8を用いて説明する。
【0060】
図8は、音響状態の判定処理(S2)を例示するフローチャートである。制御部13は、音響状態判定部32として機能し、
図8に例示するフローチャートの各処理を実行する。
【0061】
まず、音響状態判定部32としての制御部13は、マイクアレイ12からバス18を介して音響信号を取得する(S21)。マイクアレイ12は順次、外部から受信される音波に応じて音響信号を生成する。ステップS21では、例えば、
図6のステップS11で取得される画像データと同期をとって音響信号が取得される。
【0062】
次に、制御部13は、取得した音響信号に基づき、発話に関する音響の各種状態を検出する(S22)。ステップS22の検出は、例えば
図7の各検出単位の領域r(θ,φ)に対応する方向(θ,φ)毎に行われる。
【0063】
例えば、制御部13はステップS22において、CSP(Cross-Power Spectrum Phase Analysis)法又はMUSIC(Multiple Signal Classification)法などにより、音源の位置或いは音源から音が到来する方向を推定する演算を行う。また、制御部13は、例えば予め学習させた音声GMM(Gausian Mixture Model)及び非音声GMMを用いて、目的音である人の声が有する周波数帯の音声を検出したり、目的音とは異なる雑音を検出したりする。
【0064】
音響の各種検出結果に基づいて、制御部13は、例えば画像状態の分類(S13)と同様に、所定の分類クラスの中で現在の音響状態を分類する(S23)。ステップS23の分類クラスは、例えば、雑音の検出結果の観点において良好な音響状態から三段階に設定されるA,B,Cクラスを用いる(
図9参照)。
【0065】
音響のAクラスは、例えば雑音が検出された信号レベルが、発話などの目的音の検出に干渉し得る雑音の下限レベルを下回る音響状態を含む。Aクラスは、周波数および位相(或いは到来方向)等の観点から、雑音と目的音とが分離可能な音響状態を含んでもよい。Aクラスの音響状態によると、目的音の検出結果から発話の有無を判定可能であり、且つ、発話があったときには画像状態を用いなくても発話の収音方向を決定できると考えられる。
【0066】
音響のBクラスは、例えば雑音の信号レベルが、下限レベルと上限レベルとの間で検出された音響状態を含む。雑音の上限レベルは、信号レベルの観点から雑音と目的音とが分離可能な上限を示し、下限レベルよりも大きく設定される。Bクラスは、例えば雑音の周波数帯が人声の周波数帯の近傍であるなど、周波数および位相等の観点から雑音と目的音とが分離し難い音響状態を含んでもよい。Bクラスの音響状態によると、発話の音声の有無は判定できても、画像状態を用いなければ発話の収音方向を決定し難かったり、発話の収音可否を判定し難かったりすることが考えられる。
【0067】
音響のCクラスは、例えば雑音の信号レベルが、上限レベルを上回って検出された音響状態を含む。Cクラスは、周波数および位相等の観点からも雑音と目的音とが分離不可の音響状態を含んでもよい。Cクラスの音響状態によると、発話の音声の有無は判定不可である。
【0068】
例えば分類された音響状態がAクラス又はBクラスであり、Cクラスではない場合(S24でNO)、制御部13は、音響状態の検出結果に基づいて、発話の有無を判定する(S25)。具体的に、制御部13は、検出された音声が人声であるかどうかの尤度を示す発話スコアを算出し、音響状態の発話スコアを所定のしきい値と比較する。当該しきい値は、音声が人声であると確信できる程度に大きい発話スコアの基準を示す。
【0069】
制御部13は、音響状態の発話スコアがしきい値以上である場合には発話が有るという判定(S25でYES)の結果として、音響側の発話フラグを「ON」に設定する(S26)。音響側の発話フラグは、音響状態による発話の有無の判定結果を管理するフラグであり、例えば画像側の発話フラグとは別途、記憶部14に記憶される。
【0070】
制御部13は、音響状態の発話スコアがしきい値未満である場合には発話が無いという判定(S25でNO)の結果として、音響側の発話フラグを「OFF」に設定する(S27)。音響側の発話フラグの設定(S26,S27)後、制御部13は、
図4のステップS2の処理を終了し、例えばステップS3に進む。
【0071】
一方、分類された音響状態がCクラスである場合(S24でYES)、制御部13は、音響状態に基づく発話の判定(S25~S27)を行わず、ステップS2の処理を終了する。
【0072】
以上の音響状態の判定処理によると、マイクアレイ12から順次、入力される音響信号に基づいて(S21)、目的音および雑音が検出され(S22)、現在の音響状態が判定される(S23~S27)。
【0073】
2-3.指示対象の状態について(S3)
図4のステップS3の判断の詳細と指示対象の状態について、
図9を用いて説明する。
【0074】
図9は、収音装置10における状態テーブルD1を例示する図である。状態テーブルD1は、画像状態と音響状態とに関連付けて、指示対象の状態及び対象外の状態を管理するデータテーブルであり、例えば記憶部14に予め格納されている。図中で各発話フラグに関する「-」は、発話の有無が判定されていないことを示す。
【0075】
本実施形態において、ステップS3の判断は、例えば
図9に示すように、画像状態と、音響状態とを組み合わせることによって行われる。制御部13は、状態テーブルD1を参照して、画像状態の判定結果(S1)及び音響状態の判定結果(S2)による現在状態が、指示対象の状態であるか否かを判断する(S3)。
【0076】
図9に例示する状態テーブルD1は、画像状態のA,B,Cクラス及び画像側の発話フラグのON/OFFと、音響状態のA,B,Cクラス及び音響側の発話フラグのON/OFFとの組み合わせにより、5段階の状態1~5を規定している。本実施形態において、状態改善の指示対象とする状態は状態3であり(S3でYES)、その他の状態1,2,4,5は指示の対象外である(S3でNO)。なお、状態は5段階でなくてもよい。
【0077】
状態1は、画像状態と音響状態の双方がAクラスの状態である。状態1によると、画像状態と音響状態との双方において発話を判定可能であることから、特に状態を改善するための指示を用いなくても、発話を収音することができると考えられる。
【0078】
状態2は、画像状態と音響状態の一方がAクラスであり、他方がBクラス又はCクラスの状態である。状態2によると、画像状態と音響状態の一方において発話を判定可能であることから、特に指示を用いなくても、発話を収音可能と考えられる。
【0079】
状態3は、画像状態と音響状態の双方がBクラス又はCクラスであり、少なくとも一方がBクラスの状態において、画像側と音響側の発話フラグの少なくとも一方が「ON」の状態である。状態3によると、発話が有ると判定されているにも拘らず、画像状態と音響状態の双方において、発話の収音方向の決定等が困難になっている。よって、このような収音方向を決定できない障害がある状態は解消するように指示を出力することが、有用であると考えられる。
【0080】
状態4は、状態3と同様の分類クラスにおいて、画像側と音響側の発話フラグの双方が「ON」ではなく、少なくとも一方が「OFF」の状態である。状態4によると、画像状態と音響状態の双方が収音方向等を判定し難いものの、発話が無いと判定されていることから、特に指示は出力しなくてもよいと考えられる。
【0081】
状態5は、画像状態と音響状態の双方がCクラスの状態である。状態5によると、発話の有無も収音方向等も判定不可である。このため、発話が為されておらず特に指示が要らない場合もあり得ると共に、状態を改善するために適切な内容を指定するような指示は出力し難いことが考えられる。
【0082】
以上のような状態1~5のうちの状態3を指示対象の状態とすることにより、発話中であることが判明しているにも拘わらず、収音方向を決定できずに目的音の収音が為されないような事態を回避することができる。なお、以上に説明した指示対象及び対象外の状態は一例である。指示対象の状態は、特に上記の状態3に限らず、収音方向の決定を困難にする各種の障害を含む状態であってもよく、収音装置10を適用する場面等に応じて適宜、設定可能である。
【0083】
2-4.指示を介した収音処理(S4)
図4のステップS4の処理の詳細を、
図10,11を用いて説明する。
【0084】
図10は、指示を介した収音処理(S4)を例示するフローチャートである。本フローチャートに示す処理は、現在状態が、
図9の状態3である場合(S3でYES)に実行される。
【0085】
まず、制御部13は、指示決定部33として機能し、ステップS1~S3で得られた現在状態に基づいて、指示に含める情報の内容を決定する(S41)。ステップS41の処理は、例えば
図11に示すような指示テーブルD2を参照して行われる。指示テーブルD2は、指示に含める情報を示す指示内容を管理するデータテーブルであり、予め記憶部14に格納されている。
【0086】
図11に例示する指示テーブルD2は、指示内容を識別するID番号と、指示内容とを関連付けて記録している。ステップS41において、指示決定部33としての制御部13は、例えば
図4のステップS3で判定された現在状態に基づいて、指示テーブルD2の中から、指示内容として決定するID番号を選択する。指示決定部33は、ステップS1における各種の画像状態の検出結果(
図6のS12)、及びステップS2における各種の音響状態の検出結果(
図8のS22)を適宜、用いてもよい。また、状態テーブルD1(
図9)を用いて、状態3に分類される各々の画像状態及び音響状態の組み合わせから指示内容が決定されてもよい。
【0087】
例えば、画像状態及び音響状態の双方がBクラスの場合に、画像上で顔の向きが前向きに映っていないことから発話を収音し難い場合が考えられる(
図5(A)参照)。こうした場合、指示決定部33は、ID番号N1を選択する。ID番号N1の指示内容によると、顔の向きが前向きでないといった障害がある状態を解消させる指示を実現することができる(
図5(B)参照)。
【0088】
又、画像側の発話フラグがONである一方、音響側の発話フラグがOFFである場合、口元の動きが発話と検出されたが、発話の音声が充分に得られなかったことが想定される。この場合、指示決定部33は、ID番号N2を選択する。また、音響状態がCクラスであり、顕著な雑音が生じている場合に、指示決定部33は、ID番号N3を選択する。画像状態がCクラスであり、発話する人物が遠過ぎて口元の動きが検出できない場合に、指示決定部33は、ID番号N4を選択する。このように、指示テーブルD2からの選択により、各々の障害で発話が収音できなかった状態を解消させるように、指示内容を設定できる。なお、指示決定部33は、画像状態及び音響状態の検出結果に基づいて、各種の障害を検知可能である。
【0089】
図10に戻り、制御部13は、例えば指示を出力する前の画像状態および音響状態を検出する(S42)。ステップS42において、制御部13は、例えば、画像状態判定部31及び音響状態判定部32として機能して
図6のステップS11,S12及び
図8のステップS21,S22と同様の処理を行う。ステップS42では、例えば画像状態として、人の位置、顔の向き、口元の位置、人とカメラ11間の距離などの画像状態が検出される。また、音響状態としては位相差による音声の到来方向の確率、及び方向毎の人声の尤度などが検出される。
【0090】
又、制御部13は、出力処理部34として機能し、決定した指示を出力するように各種の出力部を制御する指示信号を、バス18を介して送信する(S43)。例えば、出力処理部34としての制御部13は、音声出力部16を制御して指示内容を音声出力させる。制御部13は、表示部17に指示内容を表示させてもよい。また、例えば外部モニタなどの外部機器を用いてユーザに指示を提示する場合、制御部13は、外部機器に対する指示信号を、出力部としての入出力インタフェース部15に送信する。
【0091】
次に、制御部13は、指示後の画像状態および音響状態を検出する(S44)。ステップS44において、制御部13は、例えば指示前の検出(S42)と同様の検出を、指示を出力してから所定期間後に、画像状態判定部31及び音響状態判定部32として行う。所定期間は、ユーザが、指示に従って行動を始めることが想定される期間であり、例えば1秒である。ステップS44の処理は、例えば
図6のステップS11,S12及び
図8のステップS21,S22と同様である。
【0092】
次に、制御部13は、状態差分検出部35として機能し、指示前の画像状態および音響状態(S42)と、指示後の画像状態および音響状態(S44)との間の差分を検出する(S45)。この際、収音装置10の検出範囲内において、状態改善の指示に反応したユーザが発話する箇所からは指示前後の状態間の差分が検出される一方、指示に反応しない外的な箇所からは状態間の差分が検出されないことが想定される。
【0093】
ステップS45において、状態差分検出部35としての制御部13は、例えば画像状態の差分として、指示前後に変化した人の位置、顔の向き及び口元などを検出する。制御部13は、例えば画像における検出単位の領域r(θ,φ)毎に、検出された画像状態の差分の程度を示す差分スコアを算出する。又、制御部13は、音響状態の差分として、例えば指示前後に変化した音声の到来方向の確率、及び各方向(θ,φ)における人声の尤度を検出する。制御部13は、検出された音響状態の差分の程度を示す差分スコアを方向毎に算出する。
【0094】
次に、制御部13は、方向推定部36として機能し、検出した各状態の差分に基づいて、指示後の発話による目的音が到来する方向を推定する演算を行う(S46)。例えば、制御部13は、検出範囲内における各々の方向において、画像状態の差分スコアと、音響状態の差分スコアの線形和を演算し、演算結果として得られたスコアが最も高い方向を、目的音の収音方向に決定する。差分スコアの線形和は、画像状態と音響状態とにそれぞれ重み付けした重み付け和であってもよい。又、線形和の代わりに乗算或いは非線形の演算が適宜、採用されてもよい。
【0095】
次に、制御部13は、信号処理部37として機能し、演算結果の収音方向からの音を強調する処理を実行する(S47)。信号処理部37は、例えばビームフォーミングにより、収音方向にビームを向けるように信号処理を行って、目的音の収音結果を示す目的音データを生成する。信号処理部37は、周波数フィルタ等の目的音を強調する各種の信号処理を行ってもよい。目的音データは、例えば記憶部14に格納される。
【0096】
制御部13は、音声強調の実行(S47)後に、
図4のステップS4の処理を終了する。その後、制御部13は、例えばステップS1に戻り、その後の処理を再度、行う。
【0097】
以上の指示を介した収音処理(S4)によると、例えば
図5(A)の状態において
図5(B)参照に示すようにID番号N1の指示内容が出力される(S41~S43)。この際、発話した人物21が指示に従って顔の向きを改善することで、次の発話が収音可能になる。一方、発話していない人物22および騒音源25などは、指示に反応しない。よって、例えば指示の前後の状態間の差分として顔の向きが改善された人物21を容易に検出でき(S44,S45)、収音方向を精度良く決定できる(S46,S47)。
【0098】
ステップS46の状態間の差分としては、上記以外にも例えば、ID番号N2,N3の指示により音声状態において人声の尤度が大きくなったりする、ID番号N4の指示により画像状態において人とカメラ11間の距離が近くなったりことが考えられる。こうした状態間の差分を用いることにより、目的音を収音する精度を良くすることができる。
【0099】
上記のステップS42の処理は、指示の出力(S43)前に限らず、例えばステップS43と同時に行われてもよい。ステップS42の処理は、指示後の状態検出(S44)よりも前の範囲内で実行可能であり、例えばステップS41前であってもよい。この場合、指示内容の決定(S41)に、ステップS42の検出結果が用いられてもよい。又、指示前の状態検出はステップS3前であってもよいことから、ステップS42の処理を省略して、その代わりにステップS12,S22の検出結果が用いられてもよい。
【0100】
また、以上の説明では、収音し難い状態を解消するように指示を変化させる例を説明したが、指示は画一的であってもよい。例えば、指示内容として「カメラの方に向いて、大きな声で発話してください。」といった内容が採用されてもよい。こうした画一的な指示であっても、収音可能に状態を改善可能と考えられる。
【0101】
2-5.指示を介さない収音処理(S5)
図4のステップS5の処理の詳細を、
図12を用いて説明する。
【0102】
図12は、指示を介さない収音処理(S5)を例示するフローチャートである。本フローチャートに示す処理は、現在状態が、
図9の状態1,2,4,5のいずれかである場合(S3でNO)に実行される。
【0103】
例えば、制御部13は、まず、現在状態が、発話が有ると判定されたか否かを判断する(S51)。例えば、制御部13は、状態1,2において画像側の発話フラグと音響側の発話フラグの少なくとも一方が「ON」である場合に、ステップS51でYESに進む。一方、制御部13は、その他の場合にはステップS51でNOに進む。
【0104】
現在状態が、発話が有ると判定された場合(S51でYES)、制御部13は、方向推定部36として機能し、収音方向の推定の演算を行う(S52)。ステップS42の処理は、例えば現在の画像状態の検出結果(
図6のS12)及び音響状態の検出結果(
図8のS22)を用いて行われる。
【0105】
次に、制御部13は、信号処理部37として機能し、演算結果の収音方向からの音を強調する処理を実行する(S53)。ステップS53の処理は、例えば
図10のステップS47と同様に行われる。ステップS53により、指示を用いず目的音が収音される。
【0106】
制御部13は、音声強調の実行(S53)後に、
図4のステップS5の処理を終了する。その後、制御部13は、例えばステップS1に戻り、その後の処理を再度、行う。
【0107】
一方、発話が有ると判定されなかった場合(S51でNO)、例えば制御部13は、現在状態が、
図9の状態5すなわち発話の判定不可の状態であるか否かを判断する(S54)。
【0108】
制御部13は、現在状態が状態5の場合(S54でYES)、例えばエラーの報知を各種出力部に出力させ(S55)、ステップS5を終了する。例えば、制御部13は、収音できていない音を知らせるために、エラーメッセージ等を表示部17に表示させる。ステップS54,S55の処理は適宜、省略されてもよい。
【0109】
一方、現在状態が状態5ではない場合(S54でNO)、制御部13は、特にステップS55の処理を行わずにステップS5を終了する。この場合(S51とS54でNO)は、状態1,2,4において発話が無いと判定された場合であることから、ステップS52,S53の処理も省略できる。
【0110】
以上の指示を介さない収音処理(S5)によると、例えば状態1,2において発話が有り、指示を用いなくても収音できる場合(S51でYES)、余計な指示を出力せずに収音を達成できる(S53)。また、発話が無いことが判明している場合(S51でNO)、不要な指示が出力されないようにすることができる。
【0111】
以上の処理において、制御部13は、例えばステップS51の前に、現在状態が、前回の制御周期における状態と同じであるか否かを判断してもよく、前回と同じでないと判断した場合のみステップS51以降の処理を行うようにしてもよい。現在状態が前回と同じと判断された場合、その後の処理も前回と同じ処理を適用する、例えば同じ収音方向を用いるようにしてもよい。
【0112】
3.まとめ
本開示に係る収音装置10は、人物21等のユーザが音源の一例として口元から出力させる発話の音声などの目的音を収音する。収音装置10は、第1の入力部と、第2の入力部と、制御部13と、音声出力部16、表示部17および入出力インタフェース部15等の出力部とを備える。第1の入力部としての制御部13は、カメラ11によって生成された画像データを入力する(S11)。第2の入力部としての制御部13は、マイクアレイ12から出力された音響信号を入力する(S21)。制御部13は、画像データ及び音響信号に基づいて、目的音を収音する収音方向を決定する(S3、S4)。出力部は、ユーザに提示する情報を出力する。制御部13は、入力された画像データが示す画像及び入力された音響信号が示す音響が、
図9の状態3等の所定の状態であるか否かを判断する(S3)。制御部13は、画像及び音響が所定の状態であると判断したとき(S3でYES)、ユーザに対する指示を出力部に出力させ(S43)、指示が出力された後に更なる画像データ及び音響信号を入力して(S44)、収音方向を決定する(S46,S47)。
【0113】
以上の収音装置10によると、目的音の収音が困難と想定される状態になったとき(S3でYES)、ユーザに指示を出力して(S43)、その後の画像データ及び音響信号を用いて収音方向が決定される(S46,S47)。これにより、目的音が収音し難くなることがある状況であっても、目的音が収音され易くすることができる。
【0114】
本実施形態において、制御部13は、指示後に入力された画像データと当該画像データよりも前に入力された画像データ間の差分、および指示後に入力された音響信号と当該音響信号よりも前に入力された音響信号間の差分を検出して(S45)、収音方向を決定する(S46,S47)。これにより、ユーザが指示に従って改善した状態の変化を効率良く得て、目的音を収音する精度を良くすることができる。
【0115】
本実施形態において、制御部13は、収音方向の候補とする検出単位の領域r(θ,φ)毎の複数の方向における各方向について(
図7参照)、画像データ間の差分及び音響信号間の差分の大きさに応じたスコアを算出し、算出されたスコアが最も大きい方向を、収音方向として決定する(S46)。こうした簡単な演算処理により、目的音の収音を容易に行うことができる。
【0116】
本実施形態において、収音装置10は、画像および音響の状態を分類する状態テーブルD1を格納する記憶部14をさらに備える。制御部13は、状態テーブルD1を参照し、所定の状態であると判断したときの画像及び音響に応じて指示に含める情報を決定する(S41)。例えば、制御部13は、
図11に例示するように、所定の状態を解消するように指示に含める情報を変化させる。画像及び音響から判定される状態に応じてユーザに例示する指示を適切に設定でき、これによって現在状態を改善し易くすることができる。
【0117】
本実施形態において、制御部13は、画像及び音響が所定の状態でないと判断したとき(S3でNO)、指示を出力せずに、収音方向を決定する(S5)。これにより、不要な指示が頻発することを回避して、ユーザにとって収音装置10を利用し易くすることができる。
【0118】
本実施形態において、制御部13は、画像データに基づいて、画像において音源の配置を示す情報を検出し(S12)、音響信号に基づいて、音響において目的音、及び雑音を検出し(S22)、画像データと音響信号の検出結果に応じて、収音方向を決定する(S3,S4)。所定の状態は、状態3のように、収音方向を決定する際の障害を含む状態である。同状態によると、制御部13において上記の検出結果に応じて収音方向が決定されない。こうした所定の状態が生じたときに、ユーザに対する指示を出力して、障害がある状態を改善させることにより、目的音が収音され易くすることができる。
【0119】
本実施形態において、収音装置10は、カメラ11及びマイクアレイ12のうちの少なくとも一方を備えてもよい。収音装置10は、カメラ11及びマイクアレイ12の双方を備えなくてもよい。
【0120】
本実施形態に係る収音方法は、ユーザが音源から出力させる目的音を収音するための方法であって、カメラ11によって生成された画像データを入力するステップ(S11)と、マイクアレイ12から出力された音響信号を入力するステップ(S21)と、入力された画像データが示す画像及び入力された音響信号が示す音響が、所定の状態であるか否かを判断するステップ(S3)とを含む。本方法は、画像及び音響が所定の状態であると判断したとき、ユーザに対する指示を出力するステップ(S43)と、指示が出力された後に更なる画像データ及び音響信号を入力して、収音方向を決定するステップ(S44~S47)とを含む。本方法によると、目的音が収音され易くすることができる。
【0121】
本実施形態において、上記のような収音方法をコンピュータに実行させるためのプログラムが提供される。こうしたプログラムは、例えば記憶部14を含む各種の記憶媒体に格納して提供したり、通信ネットワークを介して提供したりすることができる。
【0122】
(他の実施形態)
以上のように、本出願において開示する技術の例示として、実施形態1を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。
【0123】
上記実施形態では、収音方向として、水平角θ及び垂直角φをそれぞれ決定する場合について説明したが、水平角θ及び垂直角φの少なくともいずれか一方のみで、目的音源の方向を特定できる場合は、水平角θ及び垂直角φの少なくともいずれか一方を決定するだけであってもよい。
【0124】
上記実施形態においては、人が発話する音声を目的音として収音したが、目的音は人が発話する音声に限らず、人が発する種々の音であってもよい。目的音は、車の音、動物の鳴き声、又は設備の動作音であってもよい。こうした目的音を収音したいユーザに対して、実施形態1と同様に収音困難なときに指示を提示することにより、目的音の収音を行い易くすることができる。
【0125】
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
【0126】
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
【0127】
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。
【産業上の利用可能性】
【0128】
本開示の収音装置は、例えば、人が発話する音声を収音する装置として、有用である。