(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-30
(45)【発行日】2023-02-07
(54)【発明の名称】情報取得装置及び情報取得方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20230131BHJP
G03B 31/00 20210101ALI20230131BHJP
G03B 17/00 20210101ALI20230131BHJP
G03B 17/56 20210101ALI20230131BHJP
H04R 1/40 20060101ALI20230131BHJP
G10L 21/0272 20130101ALI20230131BHJP
H04N 23/60 20230101ALI20230131BHJP
H04N 5/77 20060101ALI20230131BHJP
【FI】
H04R3/00 320
G03B31/00 Z
G03B17/00 Q
G03B17/56 Z
H04R1/40 320B
G10L21/0272 100A
H04N5/232 300
H04N5/77
(21)【出願番号】P 2018203265
(22)【出願日】2018-10-29
【審査請求日】2021-09-02
(73)【特許権者】
【識別番号】321001056
【氏名又は名称】OMデジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002907
【氏名又は名称】弁理士法人イトーシン国際特許事務所
(72)【発明者】
【氏名】中代 貴大
(72)【発明者】
【氏名】野中 修
【審査官】辻 勇貴
(56)【参考文献】
【文献】特開2018-152724(JP,A)
【文献】特開2010-171625(JP,A)
【文献】特開2015-097317(JP,A)
【文献】特開2015-037212(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G03B 31/00
G03B 17/00
G03B 17/56
H04R 1/40
G10L 21/0272
H04N 5/232
H04N 5/77
(57)【特許請求の範囲】
【請求項1】
環境音の音声特徴情報が記憶されたデータベース部と、
撮像装置に内蔵されて前記撮像装置の周囲音声を収音する内蔵収音装置により収音された第1音声を取得して、
前記環境音の音声特徴情報を用いて前記第1音声の特徴を抽出する特徴抽出部と、
前記特徴抽出部が抽出した前記第1音声の特徴に基づいて、感度分布の方向が異なる複数のマイクロホンが収音した複数の第2音声に対する選択及び調整の少なくとも一方を行って第3音声を取得する音声取得部と、
前記音声取得部が取得した前記第3音声を前記撮像装置が撮像して得た被写体の映像に同期させる同期処理部と
、
を具備したことを特徴とする情報取得装置。
【請求項2】
前記撮像装置が撮像して得た被写体の画像の特徴を抽出する画像特徴抽出部を更に具備し、
前記特徴抽出部は、前記画像特徴抽出部により抽出された画像の特徴に基づいて前記データベース
部を参照することで前記第1音声の特徴を抽出する
ことを特徴とする請求項
1に記載の情報取得装置。
【請求項3】
前記音声取得部は、前記特徴抽出部が抽出した前記第1音声の特徴に基づいて前記複数の第2音声に対する位相及びレベルの少なくとも一方の調整を行って前記第3音声を取得する
ことを特徴とする請求項1に記載の情報取得装置。
【請求項4】
前記同期処理部により同期された前記映像及び第3音声を記録する記録部を更に具備したことを特徴とする請求項1に記載の情報取得装置。
【請求項5】
前記撮像装置による撮像時に、前記第1音声の特徴を前記音声取得部に送信する通信部を更に具備したことを特徴とする請求項1に記載の情報取得装置。
【請求項6】
特徴抽出部、音声取得部及び同期処理部を備えた情報取得装置における情報取得方法であって、
前記特徴抽出部が、撮像装置に内蔵されて前記撮像装置の周囲音声を収音する内蔵収音装置により収音された第1音声を取得して、
環境音の音声特徴情報が記憶されたデータベースを用いて前記第1音声の特徴を抽出し、
前記音声取得部が、抽出された前記第1音声の特徴に基づいて、感度分布の方向が異なる複数のマイクロホンが収音した複数の第2音声に対する選択及び調整の少なくとも一方を行って第3音声を取得し、
前記同期処理部が、取得された前記第3音声を前記撮像装置が撮像して得た被写体の映像に同期させる
ことを特徴とする情報取得方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、 撮像装置及び収音装置から映像及び音声を取得する情報取得装置及び情報取得方法に関する。
【背景技術】
【0002】
近年、デジタルカメラなどの撮影機能付き携帯機器(撮影機器)は、静止画のみならず、動画撮影機能を有するものが多い。撮影機器は、周囲の音声を収音する内蔵マイクロホンを備えており、動画撮影に際して、映像及び音声を含むAVデータを記録可能なものもある。
【0003】
更に、撮影機器においては、外部マイクロホンを取り付け可能な端子を有するものもあり、動画撮影によって得た映像と外部マイクロホンによって取得された音声とを記録可能な装置も商品化されている。例えば、撮影機器から離間した位置に外部マイクロホンを配置可能な場合には、外部マイクロホンをその収音対象である被写体の近傍に配置しておくことで、S/Nの良好な音声を外部マイクロホンから取得することも可能である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、例えば、野鳥の撮影をする場合等においては、撮影機器を携帯するユーザは被写体から比較的離れた位置であって被写体を良好に撮影できる位置に移動することができる一方、被写体近傍に配置した外部マイクロホンの移動は制限されることがあり、撮影機器によって取得した映像にふさわしい音声を外部マイクロホンによって取得することができるとは限らない。
【0006】
なお、特許文献1においては、複数のマイクやカメラを用いたTV会議システムにおいて、発言者の選択を正確に行うものが知られている。しかしながら、このシステムは、声紋登録された会議参加者を認証する声紋認証部や話者を最適に撮影するようにテレビカメラ装置を制御する撮像調整部等を有しており、装置規模が大きい。
【0007】
本発明は、内蔵収音装置が取得した音声の特徴に基づいて、外部収音装置からの音声の選択又は調整を行うことで、撮影機器によって撮影された画像とその画像に対応した好ましい音声とを取得することができる情報取得装置及び情報取得方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様による情報取得装置は、環境音の音声特徴情報が記憶されたデータベース部と、撮像装置に内蔵されて前記撮像装置の周囲音声を収音する内蔵収音装置により収音された第1音声を取得して、前記環境音の音声特徴情報を用いて前記第1音声の特徴を抽出する特徴抽出部と、前記特徴抽出部が抽出した前記第1音声の特徴に基づいて、感度分布の方向が異なる複数のマイクロホンが収音した複数の第2音声に対する選択及び調整の少なくとも一方を行って第3音声を取得する音声取得部と、前記音声取得部が取得した前記第3音声を前記撮像装置が撮像して得た被写体の映像に同期させる同期処理部と、を具備する。
【0009】
本発明の一態様による情報取得方法は、特徴抽出部、音声取得部及び同期処理部を備えた情報取得装置における情報取得方法であって、前記特徴抽出部が、撮像装置に内蔵されて前記撮像装置の周囲音声を収音する内蔵収音装置により収音された第1音声を取得して、環境音の音声特徴情報が記憶されたデータベースを用いて前記第1音声の特徴を抽出し、前記音声取得部が、抽出された前記第1音声の特徴に基づいて、感度分布の方向が異なる複数のマイクロホンが収音した複数の第2音声に対する選択及び調整の少なくとも一方を行って第3音声を取得し、前記同期処理部が、取得された前記第3音声を前記撮像装置が撮像して得た被写体の映像に同期させる。
【発明の効果】
【0012】
本発明によれば、内蔵収音装置が取得した音声の特徴に基づいて、外部収音装置からの音声の選択又は調整を行うことで、撮影機器によって撮影された画像とその画像に対応した音声とを取得することができるという効果を有する。
【図面の簡単な説明】
【0013】
【
図1】本発明の第1の実施の形態に係る情報取得装置を示すブロック図。
【
図2】カメラ10及び外部収音装置20の外観の一例を示す説明図。
【
図5】撮影時におけるカメラ10と外部収音装置20との被写体との位置関係を示す説明図。
【
図6】カメラ10の動作を説明するためのフローチャート。
【
図7】外部収音装置20の動作を説明するためのフローチャート。
【
図8】本発明の第2の実施の形態に係る情報取得装置を示すブロック図。
【
図9】カメラ50の動作を説明するためのフローチャート。
【
図10】本発明の第3の実施の形態に係る情報取得装置を示すブロック図。
【
図11】カメラ60及びレコーダ70の外観を説明するための説明図。
【
図12】ST収音部13から被写体までの角度とST収音部72から被写体までの角度との相違を説明するための説明図。
【
図13】カメラ60の動作を説明するためのフローチャート。
【
図14】レコーダ70の動作を説明するためのフローチャート。
【
図15】再生装置80の動作を説明するためのフローチャート。
【発明を実施するための形態】
【0014】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
【0015】
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る情報取得装置を示すブロック図である。また、
図2はカメラ10及び外部収音装置20の外観の一例を示す説明図である。本実施の形態は移動自在で内蔵収音装置を備えて被写体の動画撮影が可能な撮像装置を採用すると共に、複数の方向に対してそれぞれ所定の指向特性にて収音可能な外部収音装置を採用し、内蔵収音装置及び外部収音装置によって収音した音声の特徴の比較に基づいて外部収音装置からの音声の選択又は調整を行うことにより、撮像装置において取得する映像とその映像にふさわしい音声とを取得することを可能にするものである。なお、本実施の形態において、映像にふさわしい音声とは、主被写体が発生する音声が例えばなるべく高いS/Nで含まれる音声のことである。
【0016】
本実施の形態における情報取得装置は、撮像装置内に構成してもよく、外部収音装置内に構成してもよく、撮像装置及び外部収音装置内に分散して構成してもよく、更に、これらの装置とは独立した装置として構成してもよい。なお、
図1では、情報取得装置を撮像装置及び外部収音装置内に分散して構成する例を示している。
【0017】
先ず、
図2を参照して撮像装置であるカメラ10及び外部収音装置20の外観について説明する。
【0018】
図2に示すカメラ10は
図1の各回路が収納された筐体10aと後述する光学系12aが収納される鏡筒12bとを有する。筐体10aの上面には、後述する操作部15を構成するシャッタボタン15aが設けられている。
【0019】
また、
図2に示す外部収音装置20は、
図1の各回路が収納された筐体20aを有している。筐体20aは、円筒形状に構成されて、周面から後述するマルチ収音部22を構成する複数のマイクロホン22aの収音部が周囲に向けて突出して設けられている。例えば、12個のマイクロホン22aが、筐体20a側面の法線方向に30度毎に配置される。ここでのマルチ収音部は、収音時の収音できる音の分布の方向が異なる複数のマイクを表示しているが、そのマイクの数は複数あればよく、また、一体ではなく、複数の装置を組み合わせて構成してもよい。
【0020】
図1において、撮像装置を構成するカメラ10には制御部11が設けられている。制御部11は、CPUやFPGA等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
【0021】
カメラ10は、撮像部12及びST収音部13を備えている。撮像部12は、光学系12a及び図示しない撮像素子を有している。光学系12aは、ズームやフォーカシングのための図示しないレンズや絞り等を備えている。光学系12aは、これらのレンズを駆動する図示しないズーム(変倍)機構、ピント及び絞り機構を備えている。撮像素子は、CCDやCMOSセンサ等によって構成されており、光学系12aによって被写体光学像が撮像素子の撮像面に導かれるようになっている。撮像素子は、被写体光学像を光電変換して被写体の撮像画像(撮像信号)を取得する。
【0022】
制御部11に構成された撮影制御部11aは、光学系12aのズーム機構、ピント機構及び絞り機構を駆動制御して、ズーム、絞り及びピントを調節することができるようになっている。ピント、画角情報部11cは、光学系12aからズーム、絞り及びピントに関する情報を取得して撮影制御部11aに出力するようになっている。このフィードバックによって、撮影制御部11aはズーム、絞り及びピントを所望の設定値に設定することができるようになっている。撮像部12は、撮影制御部11aに制御されて撮像を行い、撮像画像(動画像及び静止画像)の撮像信号を制御部11に出力する。
【0023】
制御部11には収音制御及び処理部11eが構成されており、収音制御及び処理部11eは、ST収音部13を制御する。内蔵収音装置としてのST収音部13は、ステレオマイクロホン等により構成されており、収音制御及び処理部11eに制御されて、カメラ10の周囲の音声を収音して音声信号を取得し、取得した音声(以下、内部音声又は第1音声ともいう)を制御部11に出力することができるようになっている。なお、ST収音部13は、カメラ10の撮影方向、即ち、光学系12aの光軸方向に感度のピークを有するものとする。
【0024】
カメラ10には操作部15が設けられている。操作部15は、レリーズボタン、ファンクションボタン、撮影モード設定、パラメータ操作等の各種スイッチ、ダイヤル、リング部材等(図示省略)を含み、ユーザ操作に基づく操作信号を制御部11に出力する。制御部11は、操作部15からの操作信号に基づいて、各部を制御するようになっている。
【0025】
制御部11は、撮像部12からの撮像画像(動画像及び静止画像)を取込む。制御部11の画像処理部11bは、取込んだ撮像画像に対して、所定の信号処理、例えば、色調整処理、マトリックス変換処理、ノイズ除去処理、その他各種の信号処理を行う。
【0026】
カメラ10には表示部16が設けられており、表示部16は、例えば、LCD(液晶表示装置)等の表示画面を有している。この表示画面は例えばカメラ10の筐体背面等に設けられる。制御部11は、画像処理部11bによって信号処理された撮像画像を表示部16に表示させるようになっている。また、制御部11は、カメラ10の各種メニュー表示や警告表示等を表示部16に表示させることもできるようになっている。
【0027】
カメラ10には通信部18a,18bが設けられている。通信部18a,18bは、制御部11に制御されて、外部収音装置20との間で情報を送受することができるようになっている。通信部18aは、例えば、ブルートゥース(登録商標)等の近距離無線による通信が可能であり、通信部18bは、例えば、Wi-Fi(登録商標)等の無線LANによる通信が可能である。なお、通信部18a,18bは、ブルートゥースやWi-Fiに限らず、各種通信方式での通信を採用することが可能である。制御部11は、通信部18a又は18bを介して、外部収音装置20から音声信号を受信することができる。
【0028】
カメラ10には、記録部17が設けられている。記録部17は、所定の記録媒体によって構成されて、制御部11から与えられた情報を記録すると共に、記録されている情報を制御部11に出力することができる。記録部17としては、例えばカードインターフェースを採用することができ、記録部17はメモリカード等の記録媒体に画像データを記録可能である。
【0029】
本実施の形態においては、記録部17は、収音画像音声記録部17a、連携情報部17b及び外部音声記録部17cを有している。制御部11は、信号処理後の撮像画像を圧縮処理し、圧縮後の画像を記録部17に与えて記録させることができる。この画像は収音画像音声記録部17aに記録される。カメラ10には時計部19が設けられており、制御部11は、時計部19からの時間情報を用いて、撮像部12によって取得した動画像とST収音部13によって取得した音声とを関連付けて収音画像音声記録部17aに記録することができる。
【0030】
連携情報部17bには、外部収音装置20との間の通信に関する情報が記録されており、制御部11は、連携情報部17bから読み出した情報に基づいて通信部18a,18bを制御することで、外部収音装置20との間で通信により情報の授受が可能である。制御部11は、外部収音装置20との通信の結果、外部収音装置20から音声信号を受信することができる。制御部11は、受信した音声を外部音声(第3音声ともいう)として外部音声記録部17cに与えて記録することができるようになっている。
【0031】
本実施の形態においては、制御部11には音声取得部11fが構成されている。音声取得部11fは、外部音声として取得すべき音声を指定するするために、特徴抽出部11gを有している。特徴抽出部11gはST収音部13によって取得された内部音声の音声特徴を抽出する。音声取得部11fは、外部音声として取得すべき音声を指定するための情報として、特徴抽出部11gが取得した音声特徴を、通信部18a又は18bを介して外部収音装置20に送信するようになっている。なお、音声特徴としては、例えば、周波数範囲や周波数の変化の状態、強弱(音声振幅)の変化の状態等を分析等して判定すればよく、特徴抽出部11gは、これらの状態を公知の各種判定方法を採用して抽出してもよい。
【0032】
また、これらを総合的に判定するために、機械学習で得られた推論エンジンを使って入力された音声から特定の音成分を抽出する方法も考えられる。これには、特定の時間幅の音の情報と、そこから抽出した音声を正解データとして特定の量の教師データを作成し、これらが弁別できるような機械学習を行えばよい。さらに、同期して取得した画像の変化と合わせて解析するような方法もある。
【0033】
外部収音装置20には、制御部21が設けられている。制御部21は、CPU等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。外部収音装置20は、通信部26a,26bを有している。通信部26a,26bは、制御部21に制御されて、カメラ10との間で情報を送受することができるようになっている。通信部26aは、例えば、ブルートゥース(登録商標)等の近距離無線による通信が可能であり、通信部26bは、例えば、Wi-Fi(登録商標)等の無線LANによる通信が可能である。なお、通信部26a,26bは、ブルートゥースやWi-Fiに限らず、各種通信方式での通信を採用することが可能である。制御部21は、通信部26a又は26bを介して、カメラ10から音声特徴の情報を受信すると共に、カメラ10に対して音声信号を送信することができる。
【0034】
外部収音装置20にはマルチ収音部22が設けられており、マルチ収音部22は、例えば図示しない複数のマイクロホンにより構成されており、各マイクロホンは相互に異なる方向に所定の指向特性(感度分布)を有するように配置されている。即ち、マルチ収音部22は、相互に異なる方向に感度のピークを有する複数のマイクロホンによって収音した複数の音声(以下、外部収音音声又は第2音声ともいう)を取得するようになっている。制御部21には、収音制御部21aが構成されており、収音制御部21aは、マルチ収音部22の収音を制御することができるようになっている。
【0035】
外部収音装置20には操作部23が設けられている。操作部23は、録音モード設定、パラメータ操作等のための図示しない各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部21に出力する。制御部21は、操作部23からの操作信号に基づいて、各部を制御するようになっている。また、制御部21は、通信部26a,26bを介してカメラ10の制御部11から制御情報が与えられた場合には、この制御情報に基づいて各部を制御するようになっていてもよい。この場合には、カメラ10の制御部11によって、外部収音装置20における録音制御が可能である。
【0036】
外部収音装置20には、記録部25が設けられている。記録部25は、所定の記録媒体によって構成されて、制御部21から与えられた情報を記録すると共に、記録されている情報を制御部21に出力することができる。記録部25としては、例えばカードインターフェースを採用することができ、記録部25はメモリカード等の記録媒体に画像データを記録可能である。
【0037】
記録部25は、音声記録部25a及び連携情報部25bを有している。制御部21は、信号処理後の外部収音音声を音声記録部25aに与えて記録させることができる。外部収音装置20には時計部24が設けられており、制御部21は、時計部24からの時間情報を用いて、マルチ収音部22によって取得した外部収音音声に時間情報を付加して音声記録部25aに記録することができる。
【0038】
本実施の形態においては、カメラ10に対して送信すべき第3音声を判定するために、音声取得部21bが設けられている。音声取得部21bは、特徴抽出部21cを有している。特徴抽出部21cは、特徴抽出部11gと同様の構成であり、マルチ収音部22によって取得された複数の外部収音音声(第2音声)の音声特徴をそれぞれ抽出する。音声取得部21bは、カメラ10から通信部26a又は26bを介して、外部音声(第3音声)として送信すべき音声を指定するための情報、即ち、カメラ10において取得された内部音声(第1音声)の音声特徴の情報が与えられる。音声取得部21bは、カメラ10から受信した音声特徴と特徴抽出部21cによって抽出した各外部収音音声の音声特徴とをそれぞれ比較することで、外部音声として出力すべき外部収音音声を選択する。
【0039】
例えば、音声取得部21bは、内部音声の音声特徴との類似度が最も高い音声特徴を有する外部収音音声を選択し、選択した外部収音音声を時間情報と共に外部音声(第3音声)として通信部26a又は26bを介してカメラ10に送信するようになっている。また、音声取得部21bは、類似度が所定の閾値よりも高い音声特徴を有する外部収音音声が複数存在する場合には、これらの外部収音音声のうち最もS/Nが高い外部収音音声を外部音声として選択するようになっていてもよい。
【0040】
なお、音声取得部21bはマルチ収音部22から収音した複数の音声信号を個別にゲイン調整したり、所定の割合で合成したりする音声処理を行うことができるようになっていてもよく、音声取得部21bは、1つ以上の外部収音音声を選択し、選択した外部収音音声に対する調整を行って、外部音声(第3音声)を取得するようになっていてもよい。なお、外部音声としてステレオ音声を取得するようになっていてもよい。
【0041】
カメラ10の制御部11には同期処理部11hが構成されている。同期処理部11hは、音声取得部11fが取得した外部音声と撮像部12が取得した被写体の映像とを同期させて外部音声記録部17cに記録するようになっている。例えば、同期処理部11hは、撮像部12によって取得された映像信号と同時に収音された音声信号の波形と外部音声の波形とを比較することで、被写体の映像と外部音声との同期をとるようになっていてもよい。
【0042】
このように基準となる信号(カメラ内蔵の内部音声記録部による)があることによって、外部からの情報の同期など関連付けはシステム構成として単純化が可能となる。これは、撮像と音声取得が同じ装置内の時計信号で管理されて記録されているからで、カメラ内ですでに同期が取れているものを正しい状況として参照したり、この基準をもとに対象物が離れている分の音速分の遅れを解消したりといった操作が簡単にできるということである。
【0043】
次に、このように構成された実施の形態の動作について
図3から
図7を参照して説明する。
図3及び
図4は撮影の様子を説明するための説明図であり、
図5は撮影時におけるカメラ10と外部収音装置20との被写体との位置関係を示す説明図である。また、
図6はカメラ10の動作を説明するためのフローチャートであり、
図7は外部収音装置20の動作を説明するためのフローチャートである。
【0044】
図3及び
図4の例ではカメラ10は、筐体10aの背面に表示部16の表示画面16aが設けられている。ユーザは、例えば、筐体10aを手で把持して、表示画面16aを見ながら被写体である鳥41を視野範囲に捉えた状態で、シャッタボタン15aを押下操作することで撮影を行う。なお、
図3及び
図4ではカメラ10の撮影範囲を枠で囲って示している。
【0045】
図3の例では、鳥41は樹木31aの枝に留まっており、
図4の例では、鳥41は樹木31aの隣の樹木31bの枝に留まっている。樹木31a,31bとカメラ10との間の地面には草32が生えている。樹木31a,31bに比較的近い位置に外部収音装置20が配設されている。例えば、野鳥を撮影する場合には、野鳥が留まりやすいであろう樹木の近くに、事前に外部収音装置20を設置しておくことが考えられる。一方、カメラ10を携帯するユーザは、野鳥が逃げ出さないように、また、障害物を避けるために、比較的野鳥から離れた位置で撮影を行う。
【0046】
従って、鳥41の鳴き声を収音するものとすると、カメラ10に内蔵されているST収音部13による収音音声(第1音声)よりも、マルチ収音部22の各マイクロホン22aによる外部収音音声(第2音声)の方が良好なS/Nが得られるものと考えられる。なお、映像については、望遠レンズ等を採用することで被写体から比較的離れた位置からも十分に高画質の画像を取得することができるが、音声については、被写体からの距離が大きくなるとノイズが増加し、対象物の音声の収音品質が劣化してしまう。このため、対象物により近い位置のマイクロホンにより収音を行った方が、ノイズの少ない音声を取得することが可能である。
【0047】
カメラ10の制御部11は、電源が投入されると、
図6のステップS1において、撮像モードが指示されたか否かを判定する。撮影モードが指示されていない場合には、制御部11は、指定されたモード、例えば、外部収音装置20との連携のための設定や送受信を行う連携モードや記録画像の再生を行う再生モードに移行する。
【0048】
撮像モードが指示されると、制御部11は、次のステップS2において、外部収音装置との連携が指定されているか否かを判定する。制御部11は、連携が指定されていない場合には、処理をステップS6に移行して、記録開始操作が行われたか否か又は記録中であるか否かを判定する。連携が指定されている場合には、制御部11は、ステップS3において、ユーザ操作による実際の撮像及び録音に先立って、外部音声を指定するための撮像、録音を行う。
【0049】
制御部11の特徴抽出部11gは、次のステップS4において、ST収音部13からの内部音声(第1音声)の音声特徴を抽出し、抽出した音声特徴を通信部18a,18bを介して外部収音装置20に送信して(ステップS5)、処理をステップS6に進める。なお、ST収音部13は撮影方向にピーク感度を有しており、ST収音部13により取得された内部音声は、被写体である鳥41の鳴き声の音声特徴を有するものと考えられる。
【0050】
一方、外部収音装置20の制御部21は、電源が投入されると、
図7のステップS21において、カメラ10との連携が設定されている否かを判定する。連携が設定されていない場合には、制御部21は、処理をステップS25に移行して収音が指示されているか否かを判定する。なお、制御部21は、カメラ10から記録開始を示す情報が送信されることで、収音を指示されたものと判定するようになっていてもよい。収音が指示されていない場合には、制御部21は処理をステップS31に移行して、その他の処理、例えば、連携のための設定や送受信を行う連携モード、記録されている音声を再生する再生モード等を実行する。なお、連携モードにおいて、カメラ10の特徴抽出部11gが取得した音声特徴が通信部26a,26bによって受信されて、記録部25に記録されるようになっている。
【0051】
連携が設定されている場合には、制御部21は、カメラ10に送信する外部音声(第3音声)を決定するために、処理をステップS21からステップS22に移行して、マルチ収音部22の全てのマイクロホンでの収音を行う。制御部21は、ステップS23において、マルチ収音部22の全てのマイクロホンからの外部収音音声(第2音声)を取得すると、特徴抽出部21cによって音声特徴を抽出する。音声取得部21bは、各外部収音音声(第2音声)の音声特徴と、記録部25から読み出した内部音声(第1音声)の音声特徴との比較を行う。
【0052】
音声取得部21bは、音声特徴の比較により、外部収音音声を取得するマルチ収音部22の全てのマイクロホンのうち外部音声として出力する音声を収音するマイクロホンを決定する(ステップS24)。例えば、音声取得部21bは、第1音声と各第2音声との音声特徴の類似度を算出し、類似度が所定の閾値よりも大きい音声特徴を有する第2音声であって、S/Nが最も大きい第2音声を収音したマイクロホンを選択し、選択したマイクロホンを外部音声の収音用のマイクロホンに決定する。
【0053】
このS/N比判定は、どれが信号(S)で、どれがノイズ(N)であるかの判定が必要な場合があるが、これは、前述のような特徴判定の技術を使ってもよく、撮影対象物の画像の情報とその対象物が発する音声の関係から推測できるようにしてもよい。例えば、鳥のさえずりや人の声などは口やのどの動きと相関があるので、画像から色や陰影や形状によって特徴部を検出してその変化のパターンと音声の変化のパターンが一致するものを信号(S)として選んでもよい。この場合、その他の成分をノイズ(N)とする。また、画像から撮影者が興味を持って狙っている対象物が何であるかがわかるので(音は広がりやすいので狙いにくいが画像は光で直進してくるので狙いが明瞭)、対象物の画像特徴(形状や色の分布や動きの特徴)を、画像辞書などを使って判定し、人なら人の声の特徴に合致した音声成分を抽出し信号(S)とし、それ以外のものはノイズ(N)とするような技術的解決方法もある。鳥を検出すれば鳥の声、猫を検出したら猫の声、楽器を検出したらその楽器特有の音声が、その時得られた音声のうち、どの成分であるかは、画像と関連する音声の特徴を一覧にした辞書やデータベース、あるいは機械学習によって得られた推論モデルを用意する事によって簡単に判別が可能である。これらは記録部や演算部で構成できる。また、単に風の音や空調や雑踏のように特定の周波数や特定の変化パターンを選んでノイズ(N)と判定し、それ以外の特徴を持つ音成分を信号(S)として選んでもよい。また、水の流れと鳥の声とどちらも重要な場合もあるが、このような場合は、このどちらもきれいに採る工夫をしてもよい。複数の音声が重要である場合の判定は、機械学習によって得られた推論モデルを利用してもよい。この場合、機械学習時の教師データに複数の音成分が選ばれるようなアノテーションを行えばよい。また、マルチ収音部のマイク決定は一つのマイクのみを選ぶのではなく、複数のマイクを選んでもよい。また、複数のマイクの収音結果を使って、一つのマイクの音声を加工してもよい。ステレオ効果を重視する場合は、左右の音声ごとに同様のマイク選択をしてもよく、複数のマイクで得られた音声を自然なステレオ感になるように、内蔵マイクや画面内の対象物位置などの情報によって音声処理してもよい。
【0054】
図5は
図3及び
図4の例におけるカメラ10とマルチ収音部22と被写体(鳥41)との位置関係を示している。
図5ではカメラ10からマルチ収音部22までの距離は約Dmであり、カメラ10から被写体である鳥41までの距離は約D0mである。
図5は、外部収音装置20のマイクロホン22aとして相互に30度間隔で順次配置された12個のマイクロホンM1~M12により構成された例を示しており、破線にてマイクロホンM2,M7,M11の感度ピーク方向を示し、実線によってマイクロホンM1の感度ピーク方向DM1及びマイクロホンM12の感度ピーク方向DM2を示している。
【0055】
マイクロホンM1の感度ピーク方向DM1は、
図3における鳥41に向かう方向に一致しており、マイクロホンM12の感度ピーク方向DM2は、
図4における鳥41に向かう方向に一致している。従って、
図3の例では、マイクロホンM1による外部収音音声の音声特徴が内部音声の音声特徴に最も類似すると考えられ、また、
図4の例では、マイクロホンM12による外部収音音声の音声特徴が内部音声の音声特徴に最も類似すると考えられる。
【0056】
しかし、鳥41以外に音を発生する音源が存在しない場合等においては、複数のマイクロホンの外部収音音声の音声特徴と内部音声の音声特徴との類似度が所定の閾値よりも大きい略同様の値になることが考えられる。この場合でも、各マイクロホンの感度分布方向が異なることからピーク感度方向は異なり、マイクロホンM1~M12によって鳥41の鳴き声を収音する場合において、最も高いS/Nが得られるマイクロホンは、
図3の場合にはマイクロホンM1であるものと考えられ、
図4の場合にはマイクロホンM12であるものと考えられる。これにより、
図3の例ではマイクロホンM1が外部音声収音用のマイクロホンとして決定され、
図4の例ではマイクロホンM12が外部音声収音用のマイクロホンとして決定される。
【0057】
マルチ収音部22は、収音が指示されている場合には、ステップS25からステップS26に処理を移行して、収音を行う。制御部21は、カメラ10との連携が指定されているか否かを判定し、連携が指定されている場合には、ステップS24において選択されたマイクロホンからの音声を第3音声としてカメラ10に送信する(ステップS28)。制御部21は、ステップS29において収音の終了を判定しており、終了操作が行われるまでステップS26からS29の処理を繰り返す。収音終了が判定されると、記録されている音声をファイル化して処理をステップS21に戻す。
【0058】
一方、ユーザがカメラ10の操作部15を操作して、被写体の撮像を開始するものとする。制御部11は、ステップS6において記録開始が指示されたことを判定すると、撮像部12を制御して被写体を撮像させると共に、ST収音部13を制御して周囲音声を収音する(ステップS7)。制御部11は、記録部17の収音画像音声記録部17aへの撮像画像及び収音音声の記録を開始する。
【0059】
制御部11は、ステップS8において、外部収音装置20との連携が行われているか否かを判定する。連携が行われていない場合には、制御部11は、ステップS12において撮影終了操作が行われたか否かを判定する。一方、連携が行われている場合には、制御部11は、ステップS9において、外部収音装置20から送信されている外部音声を受信し、ステップS10において、内部音声を取得する。制御部11の同期処理部11hは、受信した外部音声を内部音声と比較することによって、外部音声を撮像部12から得られた映像に同期させて、外部音声記録部17cに記録して(ステップS11)、ステップS12に処理を移行する。
【0060】
制御部11は、ステップS12において撮影終了操作が行われたか否かを判定し、撮影終了操作が行われるまでステップS1,S2,S6~S11を繰り返す。撮影終了操作が行われると、制御部11は、記録されている画像及び音声をファイル化して(ステップS13)、処理をステップS1に戻す。
【0061】
なお、
図6及び
図7では、カメラ10における撮像及び内部音声の収音と同時に、外部収音装置20から外部音声を受信して、映像と外部音声とを同期させながら記録を行う例を説明したが、外部収音装置20において外部音声を記録しファイル化された外部音声を撮像後にカメラ10に送信することで、映像と外部音声とを同期させた状態で記録するようになっていてもよい。
【0062】
このように本実施の形態においては、複数の方向に対してそれぞれ所定の指向特性にて収音可能な外部収音装置を採用し、内蔵収音装置及び外部収音装置によって収音した音声の特徴の比較に基づいて外部収音装置からの音声の選択又は調整を行うことにより、撮像装置において取得する映像とその映像にふさわしい音声とを取得しており、撮像装置において取得した映像にふさわしい音声を映像と同期させて記録することが可能である。これにより、撮像後の編集作業によって映像とその映像に適した音声とを合成するという極めて煩雑な作業を行うことなく、自動的に最適な音声が合成された映像を得ることができる。
【0063】
なお、上述したように、情報取得装置は、カメラ10と外部収音装置20のいずれに構成してもよく、例えば、カメラ10のみに構成してもよい。この場合には、外部収音装置20としては、ピーク感度方向が異なる複数のマイクロホンと各マイクロホンが収音した音声をカメラ10に転送する通信部のみを備えた一般的なマイクロホン装置を採用することができる。
【0064】
(第2の実施の形態)
図8は本発明の第2の実施の形態に係る情報取得装置を示すブロック図である。
図8において
図1と同一の構成要素には同一符号を付して説明を省略する。第1の実施の形態においては、内蔵収音装置であるST収音部13が取得した音声から被写体が発する音声の音声特徴を抽出できることを前提にして、外部収音装置を被写体近傍に配置することで被写体が発するS/Nの良い外部音声を取得することを可能にした。しかし、ST収音部13と被写体とは比較的距離が離れていることから、ST収音部13の収音音声によって被写体が発する音声特徴を確実に抽出できないことが考えられる。そこで、本実施の形態においては、画像特徴及び音声特徴を記録したデータベースを利用することで、被写体が発生する音声特徴を確実に抽出することを可能にするものである。本実施の形態においては、カメラ50は、画像特徴抽出部14及び画像音声(データベース)DB部17dを付加した点が
図1のカメラ10と異なる。
【0065】
図8において、画像特徴抽出部14は、プロセッサ等により構成されて、撮像部12が撮像して取得した画像の画像特徴を抽出して制御部11に出力するようになっている。記録部17には画像音声データベース(DB)部17dが設けられている。画像音声DB部17dには、各種対象物の画像特徴及び各種対象物の音声特徴、即ち環境音の音声特徴の情報が記憶されている。
【0066】
音声取得部11fは、画像特徴抽出部14によって抽出された画像特徴と画像音声DB部17dに記憶されている画像特徴との比較によって、撮像部12によって撮像されている主被写体の種類を判定する。音声取得部11fは、判定した主被写体が発生する音声特徴を画像音声DB部17dから読み出し、特徴抽出部11gが取得した内部音声の音声特徴との比較によって、外部収音装置20に指示すべき音声特徴の情報を生成するようになっている。
【0067】
例えば、主被写体が鳥である場合には、音声取得部11fは、画像音声DB部17dの画像特徴から鳥の種類を判定し、判定した種類の鳥の鳴き声の音声特徴を画像音声DB部17dから読み出す。音声取得部11fは、読み出した音声特徴を利用して、収音された内部音声から雑音成分を除去して、外部収音装置20に指定する音声特徴の情報を生成する。
【0068】
また、例えば、主被写体が楽器である場合には、音声取得部11fは、画像音声DB部17dの画像特徴から楽器の種類を判定し、判定した種類の楽器の音の音声特徴を画像音声DB部17dから読み出す。音声取得部11fは、読み出した音声特徴を利用して、収音された内部音声から雑音成分を除去して、外部収音装置20に指定する音声特徴の情報を生成する。同様にして、音声取得部11fは、例えば大勢の人の中から、希望する人の声の音声特徴を抽出することも可能である。
【0069】
なお、
図8では画像特徴抽出部14によって抽出した画像特徴に基づいて対象物を判定する例を説明したが、ユーザの入力操作によって、抽出すべき音の種類を指定するようになっていてもよい。
【0070】
次に、このように構成された実施の形態の動作について、
図9のフローチャートを参照して説明する。
図9はカメラ50の動作を説明するためのフローチャートである。
図9において
図6と同一の手順には同一符号を付して説明を省略する。
図9のフローは、ステップS4に代えてステップS41を採用した点が
図6と異なる。
【0071】
ステップS41においては、音声取得部11fは、画像音声DB部17dを利用して音声特徴を抽出する。例えば、
図3及び
図4の例では、草32が風に吹かれることで、「ざわざわ」という音が生じ、この音が、被写体である鳥41の鳴き声よりも大きな音でST収音部13に収音されることがある。そこで、音声取得部11fは、画像特徴抽出部14によって抽出された画像特徴に基づいて、画像音声DB部17dに格納されている情報から主被写体を特定し、特定した主被写体についての音声特徴を画像音声DB部17dから読み出す。音声取得部11fは、読み出した音声特徴と、収音された内部音声の音声特徴とに基づいて、ノイズ成分を判定し、主被写体から発する音声の音声特徴を抽出する。音声取得部11fは、抽出した音声特徴の情報を通信部18a,18bを介して外部収音装置20に送信する。
【0072】
他の作用は、第1の実施の形態と同様である。
【0073】
このように本実施の形態においても、第1の実施の形態と同様の効果を得ることができる。更に、本実施の形態においては、外部音声の選択のための情報として、内部音声の音声特徴だけでなく画像特徴の情報を利用しており、内部音声に対象となる主被写体が発する音以外の音が含まれる場合でも、確実に主被写体が発する音に基づく音声特徴を抽出して、外部音声の選択に用いることができる。
【0074】
なお、上記各実施の形態においては、1つのマイクロホンによって収音される音声を外部音声としてカメラ10において記録する例を説明したが、外部音声としては複数の音声、例えばステレオ音声を選択して記録するようになっていてもよい。
【0075】
(第3の実施の形態)
図10は本発明の第3の実施の形態に係る情報取得装置を示すブロック図である。
図10において
図1と同一の構成要素には同一符号を付して説明を省略する。また、
図11はカメラ60及びレコーダ70の外観の一例を示す説明図である。
【0076】
上述したように、外部収音装置は、例えば被写体近傍に固定的に配置され、カメラはユーザに携帯されて被写体から比較的離れた位置に移動自在に配置される。このため、カメラと外部収音装置とは被写体に対する距離や方向が異なる場合があり、カメラによって取得する映像にふさわしい音声が外部収音装置によって取得できるとは限らない場合がある。例えば、鳥が画面内で右から左に移動した場合でも、外部音声によって鳥の移動を感じられない場合もある。そこで、本実施の形態においては、映像にふさわしい音声として、映像中の主被写体の画像中の位置と主被写体が発する音声の音像定位とがなるべく一致する音声であって、主被写体が発生する音声が例えばなるべく高いS/Nで含まれるステレオ音声を取得するようになっている。
【0077】
本実施の形態においても情報取得装置は、撮像装置内に構成してもよく、外部収音装置内に構成してもよく、撮像装置及び外部収音装置内に分散して構成してもよく、更に、これらの装置とは独立した装置内に構成してもよい。なお、
図10では、情報取得装置を、カメラ60、外部収音装置を構成するレコーダ70及び再生装置80に分散して構成する例を示している。
【0078】
先ず、
図11を参照して撮像装置であるカメラ60及び外部収音装置であるレコーダ70の外観について説明する。
【0079】
図11に示すカメラ60は
図10の各回路が収納された筐体10aと光学系12aが収納される鏡筒12bとを有する。筐体10aの上面には、操作部15を構成するシャッタボタン15aが設けられている。
【0080】
また、
図11に示すレコーダ70は、
図1の各回路が収納された筐体70aを有している。筐体70aは、立方体形状に構成されて、端部に後述するST収音部72を構成する2つのマイクロホン72R,72Lの収音部が突出して設けられている。
【0081】
図10において、撮像装置を構成するカメラ60は、記録部17に代えて記録部61を採用すると共に画像特徴抽出部14を付加した点が
図1のカメラ10と異なる。画像特徴抽出部14は、プロセッサ等により構成されて、撮像部12が撮像して取得した画像の画像特徴を抽出して制御部11に出力するようになっている。例えば、画像特徴抽出部14は、主被写体の画面上の位置やサイズの情報等を画像特徴として抽出することができる。
【0082】
記録部61は、制御部11から与えられた撮像画像及び収音されたステレオの内部音声を記録する。記録部61には連携情報部61aが設けられている。連携情報部61aには、レコーダ70及び再生装置80との間の通信に関する情報が記録されており、制御部11は、連携情報部17bから読み出した情報に基づいて通信部18a,18bを制御することで、レコーダ70及び再生装置80との間で通信により情報の授受が可能である。制御部11は、レコーダ70に対して内部音声(第1音声)の音声特徴の情報を送信すると共に、再生装置80に対して撮像して得た映像及び内部音声を送信することができるようになっている。なお、制御部11は、内部音声の音声特徴の情報と同時に画像特徴抽出部14が抽出した画像特徴の情報をレコーダ70に送信することもできるようになっている。
【0083】
レコーダ70は、マルチ収音部22、制御部21及び記録部25に夫々代えて、ST収音部72、制御部71及び記録部73を採用した点が
図1の外部収音装置20と異なる。ST収音部72は、2つのマイクロホン72R,72Lを有している。マイクロホン72R,72Lは、例えば、相互に同一の特性を有しており、感度ピーク方向が相互に所定の角度異なる方向に向くように配設されている。
【0084】
制御部71には収音制御部71a及び音声取得部71bが構成されており、収音制御部71aは、ST収音部72の収音を制御するようになっている。音声取得部71bは、ST収音部72のマイクロホン72R,72Lが収音した外部収音音声をステレオ音声として取得することができるようになっている。制御部71は、ST収音部72によって収音されたステレオ音声である外部収音音声を記録部73に与えて記録するようになっている。
【0085】
記録部73には連携情報部73aが設けられている。連携情報部73aは、カメラ60及び再生装置80との間の通信に関する情報が記録されており、制御部71は、連携情報部73aから読み出した情報に基づいて通信部26a,26bを制御することで、カメラ60及び再生装置80との間で通信により情報の授受が可能である。制御部71は、カメラ60から内部音声(第1音声)の音声特徴の情報を受信すると共に、再生装置80に対して外部音声を送信することができるようになっている。
【0086】
本実施の形態においては、音声取得部71bは、受信した内部音声の音声特徴に基づいて、収音した2つの外部収音音声を調整して外部音声を取得することができるようになっている。例えば、音声取得部71bは、内部音声の音声特徴に基づいて、収音した2つの外部収音音声の位相及びレベルを個別に調整したステレオ音声を外部音声として取得するようになっていてもよい。
【0087】
例えば、カメラ60において、画面中央に被写体が位置する状態で内部音声の収音を行うと、ST収音部13によって取得されたステレオ音声である2つの内部音声の位相及びレベルは略同一であると考えられる。これに対し、被写体とマイクロホン72R,72Lとの位置及び向きの関係によっては、マイクロホン72R,72Lによって収音される被写体の音声の位相及びレベルは相互に異なることが考えられる。そこで、マイクロホン72R,72Lによって収音された外部収音音声の位相及びレベルを調整することで、位相及びレベルを一致させたステレオ音声を外部音声として取得することができる。
【0088】
また、音声取得部71bは、ST収音部13から被写体までの距離とST収音部72から被写体までの距離とに基づいて、調整量を変化させてもよい。
図12はST収音部13から被写体までの角度とST収音部72から被写体までの角度との相違を説明するための説明図である。
図12の例はカメラ60の光軸上にレコーダ70が配置された例を示している。
図12に示すように、被写体がカメラ60の光軸からX1だけずれた位置に位置する場合には、被写体までの距離が比較的長いカメラ60(ST収音部13)については光軸からの角度がθ1であるのに対し、被写体までの距離が比較的短いレコーダ70(ST収音部72)については光軸からの角度がθ1よりも大きいθ2となる。そこで、カメラ60とレコーダ70の被写体までの距離に応じて、外部収音音声の調整量を変更することで、より映像にふさわしい外部音声を取得することができる。
【0089】
また、音声取得部71bは、画像特徴の情報を用いて、2つの外部収音音声の位相及びレベルを個別に調整するようになっていてもよい。例えば、画像特徴の情報によって被写体が画面端部に位置することが示された場合には、画像特徴に基づいて外部収音音声の位相及びレベルを相互に異ならせることで、画面上における被写体の位置に対応して、撮影者にとっての被写体が発する音の定位と外部音声によって得られる音像定位とを略一致させることが可能である。なお、音声取得部71bは、位相及びレベルに限らず、2つの外部収音音声に対して周波数領域における調整等を行ってもよい。
【0090】
音声取得部71bは、取得した外部音声を再生装置80に送信する。なお、音声取得部71bは、位相及びレベルが調整されたステレオ音声を外部音声として再生装置80に送信してもよく、位相及びレベルの調整前のステレオ音声と調整値とを外部音声の情報として再生装置80に送信してもよい。
【0091】
再生装置80は、コンピュータや、スマートフォンやタブレット端末等によって構成されていてもよい。再生装置80には、制御部81が構成されている。制御部81は、CPUやFPGA等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
【0092】
再生装置80には、操作部83が設けられている。操作部83は、再生モード設定、パラメータ操作等のための図示しない各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部81に出力する。制御部81は、操作部83からの操作信号に基づいて、各部を制御するようになっている。通信部82は、制御部81に制御されて、カメラ60及びレコーダ70との間で通信を行って情報を授受することができるようになっている。制御部81は、通信部82を介して、カメラ60からの映像及び内部音声を受信すると共に、レコーダ70からの外部音声を受信する。
【0093】
制御部81には、同期再生部81aが設けられており、同期再生部81aは、受信した内部音声、外部音声及び映像を同期させることができる。例えば、同期再生部81aは、撮像部12によって取得された映像信号と同時に収音された音声信号の波形と外部音声の波形とを比較することで、被写体の映像と外部音声との同期をとるようになっていてもよい。
【0094】
再生装置80には再生部84及び記録部85が設けられている。記録部85は、制御部81から受信された内部音声、外部音声及び映像が与えられて、これらを同期させて記録するようになっている。再生部84は、図示しない表示部及びスピーカを備えており、制御部81に制御されて、同期再生部81aによって同期がとられた外部音声及び映像を再生出力することができる。
【0095】
次に、このように構成された実施の形態の動作について
図13から
図15を参照して説明する。
図13はカメラ60の動作を説明するためのフローチャートであり、
図14はレコーダ70の動作を説明するためのフローチャートであり、
図15は再生装置80の動作を説明するためのフローチャートである。
【0096】
いま、上述した
図3及び
図4の例においてカメラ10及び外部収音装置20をそれぞれカメラ60及びレコーダ70に置き換えた例を想定する。即ち、樹木31a,31bに比較的近い位置にレコーダ70を配設し、カメラ60を携帯するユーザは、鳥41が逃げ出さないように、また、障害物を避けるために、比較的鳥41から離れた位置で撮影を行う。
【0097】
従って、この場合においても、鳥41の鳴き声を収音するものとすると、カメラ60に内蔵されているST収音部13による収音音声(第1音声)よりも、レコーダ70のST収音部72の各マイクロホン72R,72Lによる外部収音音声(第2音声)の方が良好なS/Nが得られるものと考えられる。
【0098】
カメラ60の制御部11は、電源が投入されると、
図13のステップS41において、撮像モードが指示されたか否かを判定する。撮影モードが指示されていない場合には、制御部11は、指定されたモード、例えば、レコーダ70及び再生装置80との連携のための設定や送受信を行う連携モードや記録画像の再生を行う再生モードに移行する。
【0099】
撮像モードが指示されると、制御部11は、次のステップS42において、動画の撮影、ST収音部13による収音を開始し、動画及びステレオ音声である内部音声の記録部61への記録を開始する。なお、終了操作が行われると、制御部11は、録画、録音を終了して、記録部61の映像及び内部音声をファイル化する。
【0100】
制御部11は、ステップS43において、レコーダ70との連携が指定されているか否かを判定する。制御部11は、連携が指定されていない場合には、処理をステップS41に戻し、連携が指定されている場合には、処理をステップS44に移行する。
【0101】
制御部11の特徴抽出部11gは、次のステップS44において、ST収音部13からのステレオ音声である内部音声(第1音声)の音声特徴を抽出し、抽出した音声特徴からノイズを除去した後、通信部18a,18bを介してレコーダ70に送信する(ステップS45)。
【0102】
また、画像特徴抽出部14は、撮像画像から音声に対応する画像即ち主被写体を判定し(ステップS46)、画像特徴を抽出してレコーダ70に送信して(ステップS47)、処理をステップS41に戻す。なお、ステップS46,S47の処理は、レコーダ70において外部収音音声の調整に画像特徴の情報を用いない場合には、省略することができる。
【0103】
一方、レコーダ70の制御部71は、電源が投入されると、
図14のステップS51において、録音モードが指定されているか否かを判定する。制御部71は、録音モードが指定されていない場合には、再生モード等の指定されている他のモードを実行する。録音モードが指定されると、制御部71は、次のステップS52において、ST収音部72による収音を開始し、ステレオ音声である外部収音音声の記録部73への記録を開始する。
【0104】
制御部71は、ステップS53において、カメラ60との連携が設定されている否かを判定する。連携が設定されていない場合には、制御部71は、処理をステップS56に移行して通常の録音を行う。即ち、ST収音部72によって取得されたステレオ音声である外部収音音声がそのまま記録部73に記録される。
【0105】
カメラ60との連携が設定されている場合には、制御部71は、ステップS53からS54に移行して、カメラ60からの内部音声の音声特徴や画像特徴を取得する。制御部71は、内部音声の音声特徴を時間情報を用いて、外部収音音声と共に記録部73に記録する(ステップS55)。なお、上述したように、音声取得部71bによって、内部音声の音声特徴や画像特徴を用いて、ST収音部72からの外部収音音声の位相やレベルを調整し、調整後に得た外部音声を記録部73に記録するようになっていてもよい。
【0106】
本実施の形態においては、カメラ60によって取得された映像とレコーダ70によって取得される外部音声とは、再生装置80によって同期再生されるようになっている。ユーザが操作部83を操作して動画再生を指示するものとする。制御部81は、
図15のステップS61において動画再生が指定されたか否かを判定しており、動画再生が指定されると、処理をステップS61に移行する。なお、動画再生が指定されない場合には、制御部81は、指定されている他のモードを実行する。
【0107】
ステップS62において、制御部81は、通信部82を介して、カメラ60から映像及び内部音声を取得し、レコーダ70から外部音声を取得する。なお、制御部81は、外部音声として外部収音音声及び調整値を受信する場合もある。同期再生部81aは、ステップS63において、受信した内部音声、外部音声及び映像を同期させる。即ち、同期再生部81aは、撮像部12によって取得された映像信号と同時に収音された音声信号の波形と外部音声の波形とを比較することで、被写体の映像と外部音声との同期をとり、同期した映像及び外部音声を再生部84に出力する。
【0108】
再生部84に供給される外部音声は、外部収音音声が内部音声の音声特徴や画像特徴によって調整されたものであり、映像中の主被写体の位置に応じた音像定位を有する。こうして、再生部84の表示画面に表示される映像にふさわしい音声が再生部84のスピーカから出力される。
【0109】
このように本実施の形態においては、撮像装置と外部収音装置と被写体との位置関係に拘わらず、映像にふさわしい音声を同期させて出力することが可能である。
【0110】
上記実施の形態においては、撮像のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも勿論構わない。
【0111】
本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0112】
なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。
【0113】
なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。
【0114】
なお、実施例中で、「部」(セクションやユニット)として記載した部分は、専用の回路や、複数の汎用の回路を組み合わせて構成してもよく、必要に応じて、予めプログラムされたソフトウェアに従って動作を行うマイコン、CPUなどのプロセッサ、あるいはFPGAなどシーケンサを組み合わせて構成されてもよい。また、その制御の一部または全部を外部の装置が引き受けるような設計も可能で、この場合、有線や無線の通信回路が介在する。通信は、ブルートゥースやWiFi、電話回線などで行えばよく、USBなどで行っても良い。専用の回路、汎用の回路や制御部を一体としてASICとして構成してもよい。
【符号の説明】
【0115】
10…カメラ、11…制御部、11a…撮影制御部、11b…画像処理部、11c…ピント、画角情報部、11e…収音制御及び処理部、11f…音声取得部、11g…特徴抽出部、11h…同期処理部、12…撮像部、12a…光学系、13…ST収音部、14…画像特徴抽出部、15…操作部、16…表示部、17…記録部、17a…収音画像音声記録部、17b…連携情報部、17c…外部音声記録部、17d…画像音声DB部、18a,18b,26a,26b…通信部、20…外部収音装置、21…制御部、21a…収音制御部、21b…音声取得部、21c…特徴抽出部、22…マルチ収音部、25…記録部、25a…音声情報部、25b…連携情報部、25c…音声情報部。