(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】データ作成方法及びデータ作成プログラム
(51)【国際特許分類】
H04N 23/60 20230101AFI20231205BHJP
H04N 23/611 20230101ALI20231205BHJP
H04N 5/92 20060101ALI20231205BHJP
G10L 19/00 20130101ALI20231205BHJP
H04N 5/77 20060101ALI20231205BHJP
【FI】
H04N23/60 300
H04N23/60 500
H04N23/611
H04N5/92 010
G10L19/00 312F
H04N5/77 200
(21)【出願番号】P 2021539232
(86)(22)【出願日】2020-08-05
(86)【国際出願番号】 JP2020029969
(87)【国際公開番号】W WO2021029294
(87)【国際公開日】2021-02-18
【審査請求日】2022-04-06
(31)【優先権主張番号】P 2019149048
(32)【優先日】2019-08-15
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】100083116
【氏名又は名称】松浦 憲三
(74)【代理人】
【識別番号】100170069
【氏名又は名称】大原 一樹
(74)【代理人】
【識別番号】100128635
【氏名又は名称】松村 潔
(74)【代理人】
【識別番号】100140992
【氏名又は名称】松浦 憲政
(72)【発明者】
【氏名】西山 幸徳
(72)【発明者】
【氏名】西尾 祐也
(72)【発明者】
【氏名】和田 哲
(72)【発明者】
【氏名】田中 康一
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2008-271082(JP,A)
【文献】特開2012-151544(JP,A)
【文献】特開2019-103011(JP,A)
【文献】特開2013-156543(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 23/60
H04N 23/611
H04N 5/92
G10L 19/00
H04N 5/77
(57)【特許請求の範囲】
【請求項1】
撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、
前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
前記撮像装置を用いて動画像データを録画する録画工程と、
前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
前記録画工程の間に、前記被写体の状態を自動で検出する検出工程と、
前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する識別コードを、前記動画像データに付与する付与工程と、
を含むデータ作成方法。
【請求項2】
前記検出工程では、前記動画像データにおいて画像処理により、前記被写体が声を発している状態を認識し、
前記付与工程では、声を発している前記被写体の前記音声データの音量を他の前記音声データに対して相対的に大きくする前記識別コードを前記動画像データに付与する請求項1に記載のデータ作成方法。
【請求項3】
前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が向いている方向を認識し、
前記付与工程では、前記撮像装置に対する前記各被写体の顔の方向に応じて、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項1又は2に記載のデータ作成方法。
【請求項4】
前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体と前記撮像装置との距離を認識し、
前記付与工程では、前記各被写体の前記距離に応じて、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項1から3のいずれか1項に記載のデータ作成方法。
【請求項5】
前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が前記撮像装置の画角内に存在するか否かを認識し、
前記付与工程では、前記被写体が前記撮像装置の画角内に存在するか否かで、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項1から4のいずれか1項に記載のデータ作成方法。
【請求項6】
前
記各被写体は位置検出システムを有し、前記位置検出システムから前
記各被写体の位置を得る位置取得工程を含み、
前記検出工程は、前記位置取得工程により得られた前
記各被写体の位置を検出し、
前記付与工程では、前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する前記識別コードを、前記動画像データに付与する請求項1から5のいずれか1項に記載のデータ作成方法。
【請求項7】
前記付与工程の後に、ユーザによる前記音声データの音量調節を受け付ける受付工程を含む請求項1から6のいずれか1項に記載のデータ作成方法。
【請求項8】
撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、
前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
前記撮像装置を用いて動画像データを録画する録画工程と、
前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
前記録画工程の間に、前記動画像データから前記被写体の状態を自動で検出する検出工程と、
前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する識別コードを、前記動画像データに付与する付与工程と、
を含むデータ作成プログラム。
【請求項9】
非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項
8に記載のプログラムをコンピュータに実行させる記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ作成方法及びデータ作成プログラムに関する。
【背景技術】
【0002】
従来、動画像データを撮像する撮像装置に対して、例えば無線により接続されたマイクロフォンにより音声を集音し、動画像データに同期した音声データを得る技術がある。
【0003】
特許文献1には、撮像装置に接続されたワイヤレスマイクロフォンが、撮像装置に音声信号を送信できない場合に、音声信号を記録媒体に記憶させる技術が記載されている。
【0004】
特許文献2には、マイクロフォンと無線通信装置との通信に関するログ情報と関連付けて、録音ファイルを生成する無線通信装置が記載されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2015-73170号公報
【文献】特開2015-119229号公報
【発明の概要】
【0006】
本開示の技術にかかる一つの実施形態は、複数の被写体の各々の状態に応じて、各被写体の音声の音量調節を効率的に行える動画像データの生成方法を提供する。
【課題を解決するための手段】
【0007】
本発明の一の態様であるデータ作成方法は、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、被写体の状態を自動で検出する検出工程と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程と、を含む。
【0008】
好ましくは、検出工程では、動画像データにおいて画像処理により、被写体が声を発している状態を認識し、付与工程では、声を発している被写体の音声データの音量を他の音声データに対して相対的に大きくする識別コードを動画像データに付与する。
【0009】
好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が向いている方向を認識し、付与工程では、撮像装置に対する各被写体の顔の方向に応じて、音声データの音量を調節する識別コードを動画像データに付与する。
【0010】
好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体と撮像装置との距離を認識し、付与工程では、各被写体の距離に応じて、音声データの音量を調節する識別コードを動画像データに付与する。
【0011】
好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が撮像装置の画角内に存在するか否かを認識し、付与工程では、被写体が撮像装置の画角内に存在するか否かで、音声データの音量を調節する識別コードを動画像データに付与する。
【0012】
好ましくは、複数の被写体の各々は位置検出システムを有し、位置検出システムから複数の被写体の各々の位置を得る位置取得工程を含み、検出工程は、位置取得工程により得られた複数の被写体の各々の位置を検出し、付与工程では、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。
【0013】
好ましくは、データ作成方法は、付与工程の後に、ユーザによる音声データの音量調節を受け付ける受付工程を含む。
【0014】
本発明の他の態様であるデータ作成方法は、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、被写体の状態を自動で検出する検出工程と、音声データと動画像データとを合成する合成工程と、検出工程の結果に基づいて、合成工程の前又は後に、各被写体の音声データの音量を自動で調節する調節工程と、を含む。
【0015】
好ましくは、検出工程では、動画像データにおいて画像処理により、被写体が声を発している状態を認識し、調節工程では、声を発している被写体の音声データの音量を他の音声データに対して相対的に大きくする。
【0016】
好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が向いている方向を認識し、調節工程では、撮像装置に対する各被写体の顔の方向に応じて、音声データの音量を調節する。
【0017】
好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体と撮像装置との距離を認識し、調節工程では、各被写体の距離に応じて、音声データの音量を調節する。
【0018】
好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が撮像装置の画角内に存在するか否かを認識し、調節工程では、被写体が撮像装置の画角内に存在するか否かで、音声データの音量を調節する。
【0019】
好ましくは、複数の被写体の各々は位置検出システムを有し、位置検出システムから複数の被写体の各々の位置を得る位置取得工程を含み、調節工程では、位置取得工程の結果及び検出工程の結果に基づいて、各被写体の音声データの音量の調節を行う。
【0020】
本発明の他の態様であるデータ作成プログラムは、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、動画像データから被写体の状態を自動で検出する検出工程と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程と、を含む。
【0021】
本発明の他の態様であるデータ作成プログラムは、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、動画像データから被写体の状態を自動で検出する検出工程と、音声データと動画像データとを合成する合成工程と、検出工程の結果に基づいて、合成工程の前又は後に、各被写体の音声データの音量を自動で調節する調節工程と、を含む。
【図面の簡単な説明】
【0022】
【
図1】
図1は、カメラシステムを概念的に示す図である。
【
図2】
図2は、カメラシステムの概略構成を示すブロック図である。
【
図3】
図3は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。
【
図4】
図4は、データ作成方法を説明するフローチャートである。
【
図5】
図5は、識別コードが付与された動画像データの例を説明する図である。
【
図6】
図6は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。
【
図7】
図7は、データ作成方法を説明するフローチャートである。
【
図8】
図8は、第1音声データ及び第2音声データの音量調節に関して説明する図である。
【
図9】
図9は、カメラシステムの概略構成を示すブロック図である。
【
図10】
図10は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。
【発明を実施するための形態】
【0023】
以下、添付図面に従って本発明にかかるデータ作成方法及びデータ作成プログラムの好ましい実施の形態について説明する。
【0024】
図1は、本発明のデータ作成方法が用いられるカメラシステムを概念的に示す図である。
【0025】
カメラシステム100を構成する撮像装置1は、人物A及び人物Bの動画を撮像することにより動画像データを取得する。人物Aは第1マイクロフォン12を所有しており、人物Bは第2マイクロフォン14を所有している。第1マイクロフォン12及び第2マイクロフォン14は、撮像装置1と無線により接続している。
【0026】
なお、以下の説明では二つのマイクロフォン(第1マイクロフォン12及び第2マイクロフォン14)を用いた例について説明するが、マイクロフォンの数は、特に限定されるものではなく、カメラシステム100は複数のマイクロフォンの使用が可能である。また、第1マイクロフォン12及び第2マイクロフォンは、無線により撮像装置1に接続されているが、有線により接続されてもよい。
【0027】
図2は、カメラシステム100の概略構成を示すブロック図である。
【0028】
カメラシステム100は、撮像装置1、第1マイクロフォン12及び第2マイクロフォン14から構成される。
【0029】
撮像装置1は、撮像部10、表示部16、記憶部18、音声出力部20、操作部22、CPU(Central Processing Unit)24、ROM(Read Only Memory)26、RAM(Random Access Memory)28及び第3無線通信部30等を備える。また、撮像装置1には、第1マイクロフォン12が第1無線通信部12B及び第3無線通信部30を介して、第2マイクロフォン14が第2無線通信部14B及び第3無線通信部30を介して、無線で接続されている。
【0030】
撮像部10は、動画を撮像して動画像データを取得する。撮像部10は、撮像光学系10A、撮像素子10B及び画像信号処理部10C等を備える。撮像光学系10Aは、被写体の像を撮像素子10Bの受光面上に結像させる。撮像素子10Bは、撮像光学系10Aによってその受光面上に結像された被写体の像を電気信号に変換する。画像信号処理部10Cは、撮像素子10Bから出力される信号に所定の信号処理を施して、動画像データを生成する。
【0031】
第1マイクロフォン12は、人物Aの音声(第1音声)を集音する。第1マイクロフォン12は第1音声信号処理部12A及び第1無線通信部12Bを備える。第1音声信号処理部12Aは、マイクロフォンからの信号に所定の信号処理を施して、第1音声の第1音声データを生成する。第1無線通信部12Bは、第1音声データをBluetooth(登録商標)の仕様で規定されている通信方式に従って無線信号に変換するとともに、無線通信に必要な処理を行ない、撮像装置1に無線出力する。なお、無線通信方式は、特にBluetoothに限定されるものではなく、他の方式も採用される。例えば、DECT(Digital Enhanced Cordless Telecommunication)、無線LAN(Local Area Network)、又はZigbee(登録商標)、が無線通信方式として採用される。なお、第2マイクロフォン14は、上述した第1マイクロフォン12と同様の構成を有するので説明は省略する。
【0032】
表示部16は、撮像部10で取得した動画像データに対応する動画をリアルタイムに表示する。また、表示部16は、再生される動画を表示する。また、表示部16は、必要に応じて、操作画面、メニュー画面及びメッセージ等を表示する。表示部16は、たとえば、LCD(Liquid Crystal Display)等の表示デバイス、及び、その駆動回路等を含んで構成される。
【0033】
記憶部18は、主として、取得された動画像データ及び音声データを記録する。記憶部18は、例えば、不揮発性メモリ等の記憶媒体、及び、その制御回路等を含んで構成される。
【0034】
音声出力部20は、音声データに基づいて再生された音声を出力する。また、音声出力部20は、必要に応じて警告音等を出力する。音声出力部20は、スピーカ、及び、そのスピーカから出力させる音声の音声データを処理するデータ処理回路等を含んで構成される。
【0035】
操作部22は、ユーザからの操作の入力を受け付ける。操作部22は、録画ボタン等の各種操作ボタン類、表示部16に表示されたボタン類及び、その操作の検出回路等を含んで構成される。
【0036】
CPU24は、所定の制御プログラムを実行することにより、装置全体の制御部として機能する。CPU24は、ユーザの操作に基づいて、各部の動作を制御し、装置全体の動作を統括制御する。ROM26は、CPU24が実行する各種プログラム、及び、制御に必要なデータ等を記録する。RAM28は、CPU24に作業用のメモリ空間を提供する。
【0037】
第3無線通信部30は、第1無線通信部12B及び第2無線通信部14Bから出力された無線信号を受信し、受信した無線信号をBluetoothの仕様に基づいて処理を行う。撮像装置1は、第3無線通信部30を介して、第1音声データ及び第2音声データを得る。
【0038】
<第1の実施形態>
本発明の第1の実施形態について説明する。本実施形態では、動画像データから自動で検出される被写体の状態に応じて、音声データの音量調節に関する識別コードが動画像データに付与される。これにより、本実施形態では、動画像データを取得した後に行う編集作業において、ユーザは識別コードに従って音量調節を行うことができるので、逐一画像を確認する手間を省くことができ、効率的に音声データの音量調節を行うことができる。
【0039】
図3は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。
図3に示すように、CPU24は、撮像制御部101、画像処理部102、第1音声録音部104及び第2音声録音部106等として機能する。
【0040】
撮像制御部101は、撮像部10による撮像を制御する。撮像制御部101は、撮像部10から得られる動画に基づいて、適正露出で動画が撮像されるように、撮像部10を制御する。また、撮像制御部101は、撮像部10から得られる動画に基づいて、主要被写体に焦点が合うように、撮像部10を制御する。
【0041】
画像処理部102は、撮像部10で撮像された動画をリアルタイムに表示部16に出力する。これにより、表示部16にライブビューが表示される。
【0042】
画像処理部102は、関連付け部102A、第1検出部102B、付与部102C及び録画部102Dを備える。
【0043】
関連付け部102Aは、第1マイクロフォン12と人物Aとの関連付け、第2マイクロフォン14と人物Bとの関連付けを受け付ける。関連付けの受付方法は、様々な方法が採用される。例えば、第1マイクロフォン12の関連付けを行う場合に、表示部16に人物Aを写しユーザがタッチして人物Aを選択することにより、第1マイクロフォン12と人物Aとの関連付けを行う。ここで関連付けとは、例えば人物Aの音声は第1マイクロフォン12を介して集音されることを予め設定しておくことである。
【0044】
第1検出部102Bは、撮像装置1により動画が撮像されている間に、被写体の状態を自動で検出する。第1検出部102Bは、画像処理により被写体の状態を認識できるよう様々な技術が適用される。例えば第1検出部102Bは、顔認識技術を利用して動画像データを画像処理することにより、人物A及び人物Bが声を発しているか否かの状態を認識する。
【0045】
付与部102Cは、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。付与された識別コードは、動画像データを編集する際に表示され、ユーザが識別コードを確認することができる。
【0046】
録画部102Dは、撮像部10から出力される動画像データを記憶部18に記録させることにより録画する。なお、付与部102Cで付与される識別コードが付された状態で動画像データは記録されてもよいし、識別コードが付される前の動画像データが記憶部18に記録されてもよい。録画部102Dは、ユーザからの指示に応じて、動画像データの記録を開始する。また、ユーザから指示に応じて、動画像データの記録を終了する。ユーザは、操作部22を介して、記録の開始及び終了を指示する。
【0047】
第1音声録音部104は、第1マイクロフォン12から入力される第1音声データを動画像データに同期して記憶部18に記録する。第1音声データは、動画像データに関連付けて、記憶部18に記録される。
【0048】
第2音声録音部106は、第2マイクロフォン14から入力される第2音声データを動画像データに同期して記憶部18に記録する。第2音声データは、動画像データに関連付けて、記憶部18に記録される。
【0049】
次に、
図1で説明した人物A及び人物Bの動画像データを取得する具体例を説明する。
【0050】
図4は、カメラシステム100を使用して実施されるデータ作成方法を説明するフローチャートである。
【0051】
[関連付け工程]
関連付け工程では、撮像装置1の表示部16に表示された人物Aをユーザがタッチすることにより指定して、第1マイクロフォン12と人物Aとの関連付けを行う(ステップS10)。また、撮像装置1の表示部16に表示された人物Bをユーザが指定して、第2マイクロフォン14と人物Bとの関連付けを行う(ステップS11)。
【0052】
[録画工程]
録画工程では、ユーザは操作部22を介して、動画像データの記録開始を行う(ステップS12)。その後、動画像データの記録続行の判定が撮像制御部101で行われ(ステップS20)、動画記録の中止の指示がユーザから操作部22を介して行われるまで動画記録は行われる。一方、ユーザが操作部22を介して動画記録の中止の指示を入力すると、動画像データの記録が終了する(ステップS21)。なお、録画工程の期間に、以下で説明する録音工程、検出工程及び付与工程が行われる。
【0053】
[録音工程]
録音工程では、人物Aの第1音声データを第1マイクロフォン12を用いて記憶部18に録音し、人物Bの第2音声データを第2マイクロフォン14を用いて記憶部18に録音する(ステップS13)。
【0054】
[検出工程]
検出工程では、第1検出部102Bにより画像処理で、動画像データにおいて人物Aが声を発している(話している)ことを検出する(ステップS14)。また、検出工程では、第1検出部102Bにより画像処理で、動画像データにおいて人物Bが声を発している(話している)こと検出する(ステップS15)。例えば、第1検出部102Bは、顔認識技術を使用して、人物A及び人物Bの顔を認識し、人物A及び人物Bの口元の画像を解析することにより、人物A及び人物Bが話しているか否かを検出する。
【0055】
[付与工程]
付与工程では、付与部102Cにより、人物Aが話していない場合には、第1マイクロフォン12で集音された第1音声データ(図中では第1MPと記載)の音量を相対的に小さくする識別コードが動画像データに付与される(ステップS16)。一方で、人物Aが話している場合には、第1マイクロフォン12で集音された第1音声データの音量を相対的に大きくする識別コードを動画像データに付与する(ステップS17)。また、同様に人物Bが話していない場合には、第2マイクロフォン14で集音された第2音声データ(図中では第2MPと記載)の音量を相対的に小さくする識別コードを動画像データに付与し(ステップS18)、人物Bが話している場合には、第2マイクロフォン14で集音された第2音声データの音量を相対的に大きくする識別コードを付与する(ステップS19)。以下に、識別コードが付与された動画像データについて説明する。
【0056】
図5は、識別コードが付与された動画像データの例を説明する図である。
【0057】
第1検出部102Bは、動画像データにおいてt1からt2の期間で、人物Aが話していることを検出する。そして、付与部102Cは、第1検出部102Bの検出結果に基づいて、第1マイクロフォン12の音量を大きくする識別コード「第1マイクロフォン:大」(符号130)を動画像データに付与する。また、第1検出部102Bは、動画像データにおいてt2からt3の期間で、人物Bが話していることを検出する。そして、付与部102Cは、第1検出部102Bの検出結果に基づいて、第2マイクロフォン14の音量を大きくする識別コード「第2マイクロフォン:大」(符号132)を付与する。また、第1検出部102Bは、動画像データにおいてt3からt4の期間で、人物Aが話していることを検出する。そして、付与部102Cは、第1検出部102Bの検出結果に基づいて、第1マイクロフォン12の音量を大きくする識別コード「第1マイクロフォン:大」(符号134)を動画像データに付与する。また、「第1マイクロフォン:大」の代わりに、第1マイクロフォン12の音量を相対的に大きくするため、識別コード「第2マイクロフォン:小」を動画像に付与しても良い。なお、識別コードは、上述した識別コードには限定されず、第1音声データ及び第2音声データの音量調節を表すものであれば様々な形態を採用することができる。例えば識別コードとして、「第1マイクロフォン:大」に伴って、第2音声データの音量を小さくする「第2音声データ:小」を付してもよい。また、識別コードとして、第1音声データの音量レベルを付した「第1音声データ:レベル10」の識別コードを付してもよい。なお、音量レベルは数値が大きい程、音量が大きいことを示す。
【0058】
[動画の表示工程]
動画の表示工程では、記録された動画像データに基づく動画を表示する(ステップS22)。動画像データに基づく動画は、撮像装置1とは別体で設けられたコンピュータのモニタに表示される。例えば、ユーザはモニタに動画を表示させて、動画の編集作業を行う。ユーザは、動画をモニタに表示させ、第1音声データ及び第2音声データの音量を調節する。なお、撮像装置1の表示部16に動画像データに基づく動画を表示させて編集作業を行う場合には、動画を表示部16に表示させて編集を行ってもよい。
【0059】
[音量調節の受付工程]
音量調節の受付工程では、ユーザによる音声データの音量調節を受け付ける(ステップS23)。具体的には、ユーザはモニタに表示された動画像データ及び動画像データに付与された識別コードを確認しながら、第1音声データ及び/又は第2音声データの音量調節を行う。例えばユーザは、
図5に示した識別コードが付与された動画像データを確認した場合には、t1からt2の期間では、第1音声データの音量レベルを10にし、第2音声データの音量レベルを1にして第1音声データの音量を相対的に大きくする。また、ユーザは、t2からt3の期間では、第2音声データの音量レベルを10にし、第1音声データの音量レベルを1にして第2音声データの音量を相対的に大きくする。また、ユーザは、t3からt4の期間では、第1音声データの音量レベルを10にし、第2音声データの音量レベルを1にして第1音声データの音量を相対的に大きくする。
【0060】
以上で説明したように、本実施形態のデータ作成方法は、動画像データにおいて人物A及び人物Bが話しているか否かを画像処理により自動で検出し、その検出結果に応じて動画像データに音量調節に関する識別コードを付与する。これにより、ユーザは、動画像データの編集を行う際に識別コードを確認して第1音声データ及び第2音声データの音量を調節することでき、改めて画像を確認する手間を省くことができ、人物A及び人物Bの状態に応じた音量調節を効率的に行うことができる。
【0061】
なお、上記実施形態において、各種の処理を実行する処理部(processing unit)(画像処理部102、撮像制御部101、第1音声録音部104、第2音声録音部106)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
【0062】
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
【0063】
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
【0064】
上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
【0065】
<第2の実施形態>
次に、本発明の第2の実施形態に関して説明する。本実施形態では、動画像データから自動で検出される被写体の状態に応じて、動画像データと合成される音声データに音量調節を行う。これにより、本実施形態では、被写体の状態に応じた音量調節が行われた音声付き動画像データを効率的に得ることができる。
【0066】
図6は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。なお、
図3で既に説明を行った箇所は同じ符号を付し説明を省略する。
【0067】
図6に示すように、CPU24は、撮像制御部101、画像処理部102、第1音声録音部104、第2音声録音部106、調節部108及び合成部110等として機能する。なお、本実施形態の画像処理部102は、関連付け部102A、第1検出部102B及び録画部102Dを備える。
【0068】
調節部108は、第1検出部102Bの検出結果に基づいて、記憶部18に記録される第1音声データと、記憶部18に記録される第2音声データとの音量を自動で調節する。調節部108は、第1検出部102Bの検出結果に基づいて、第1検出部102Bの被写体の状態に応じて予め設定された音量に各音声データを調節する。なお、調節部108は、合成部110で合成される前の音声データの音量を調節してもよいし、合成部110で合成された後の音声データの音量を調節してもよい。
【0069】
合成部110は、記憶部18に記録されている動画像データと音声データとを合成し、音声付き動画像データを生成する。合成部110は、動画像データと同期する音声データとを合成し、一つの動画ファイルを生成する。合成部110で生成されるファイルは、動画ファイル形式であり、例えばAVI、MP4、MOV形式のファイルが生成される。
【0070】
図7は、カメラシステム100を使用して実施されるデータ作成方法を説明するフローチャートである。以下の説明では、
図1で説明した人物A及び人物Bの動画像データを取得する具体例を説明する。なお、
図4で既に説明を行った関連付け工程、録画工程、録音工程、検出工程は同様の内容であるので、説明を簡略化している。
【0071】
[関連付け工程]
関連付け工程では、第1マイクロフォン12と人物Aと、及び第2マイクロフォン14と人物Bとの関連付けが行われる(ステップS30及びステップS31)。
【0072】
[録画工程]
録画工程では、動画像データの記録が行われ、ユーザの指示に基づいて動画像データの記録が終了する(ステップS32、ステップS41及びステップS42)。
【0073】
[録音工程]
録音工程では、第1音声データ及び第2音声データが記憶部18に録音される(ステップS33)。
【0074】
[検出工程]
検出工程では、動画像データにおいて人物Aが話しているか否かが検出される(ステップS34)。また、検出工程では、動画像データにおいて人物Bが話しているか否かが検出される(ステップS35)。
【0075】
[調節工程]
調節工程では、調節部108により、人物Aが話していない場合には、第1音声データの音量を小さくし(ステップS36)、人物Aが話している場合には、第1音声データの音量を大きくする(ステップS37)。また、同様に人物Bが話していない場合には、第2音声データの音量を小さくし(ステップS38)、人物Bが話している場合には、第2音声データの音量を大きくする(ステップS39)。以下に、音声データの音量の自動調節に関して具体的に説明する。
【0076】
図8は、第1音声データ及び第2音声データの音量調節に関して説明する図である。
【0077】
動画像データのt1からt2の期間では、人物Aが話しているので、調節部108は、第1音声データの音量をレベル10に調節する。一方、動画像データのt1からt2の期間では、人物Bは話していないので、調節部108は、第2音声データの音量をレベル1に調節する。また、動画像データのt2からt3の期間では、人物Aが話していないので、調節部108は、第1音声データの音量をレベル1に調節する。一方、動画像データのt2からt3の期間では、人物Bは話しているので、調節部108は、第2音声データの音量をレベル10に調節する。また、動画像データのt3からt4の期間では、人物Aが話しているので、調節部108は、第1音声データの音量をレベル10に調節する。一方、動画像データのt3からt4の期間では、人物Bは話していないので、調節部108は、第2音声データの音量をレベル1に調節する。なお、上述の説明では、記憶部18に記録された第1音声データ及び第2音声データの音量が調節されることに関して説明したが、本実施形態はこの例に限定されない。例えば、第1音声データ及び第2音声データが記憶部18に記録される前に、調節されてもよい。その場合には、第1音声録音部104及び第2音声録音部106に調節部108が設けられることになる。
【0078】
[合成工程]
合成工程では、合成部110により、音量調節が行われた第1音声データ及び第2音声データと動画像データの合成が行われる(ステップS40)。例えば、合成部110では、音量調節が行われた第1音声データ及び第2音声データと動画像データを合成することにより、AVI形式の動画ファイルが生成される。
【0079】
以上で説明したように、本実施形態のデータ作成方法は、動画像データにおいて人物A及び人物Bが話しているか否かを自動で検出し、その検出結果に応じて音声データの音量を調節する。これにより、ユーザは動画像データの被写体の状態に応じて、第1音声データ及び第2音声データの音量が調節された音声付き動画像データを、ユーザが手動で音量調節をすることなく効率的に取得することができる。
【0080】
次に、本発明の変形例を説明する。上述の説明では、被写体(人物A及び人物B)が話しているか否かで、音量調節が行われる例について説明を行った。しかし本発明の適用は、この例に限定されるものではない。以下に変形例として、被写体の様々な状態に応じて音量調節を行うことを説明する。なお、以下で説明する変形例は、上述した動画像データに識別コード付与する形態(第1の実施形態)、及び音声データの音量を調節する形態(第2の実施形態)に適用される。
【0081】
<変形例1>
変形例1に関して説明する。本例では、被写体の各々は位置検出システムを有し、位置検出システムから各被写体の位置を検出する。そして、検出された各被写体の位置に基づいて、音声データの音量を調節する識別コードが付与され、又は音声データの音量が調節される。
【0082】
図9は、カメラシステム100の概略構成を示すブロック図である。なお、
図2で既に説明を行った箇所は、同じ符号を付し説明は省略する。
【0083】
第1マイクロフォン12は、第1音声信号処理部12A、第1無線通信部12B及び第1位置検出システム12Cを備える。第1位置検出システム12Cは、第1マイクロフォン12の位置を検出する。例えば、第1位置検出システム12Cは、GPS(Global Positioning System)(全地球測位システム)により、第1マイクロフォン12の位置を検出する。そして、人物Aは第1マイクロフォン12を所有しているので、第1位置検出システム12Cは、人物Aの位置を検出することになる。第1位置検出システム12Cで検出された人物Aの位置は、第1無線通信部12B及び第3無線通信部30を介して、撮像装置1に入力される。なお、第2マイクロフォン14は、上述した第1マイクロフォン12と同様の構成を有するので説明は省略する。
【0084】
図10は、動画像データ及び音声データを記録する場合に、CPU24が実現する主な機能のブロック図である。なお、
図3で既に説明を行った箇所は、同じ符号を付し説明は省略する。
【0085】
図10に示すように、CPU24は、撮像制御部101、画像処理部102、第1音声録音部104、第2音声録音部106及び第2検出部112として機能する。
【0086】
第2検出部112は、第1マイクロフォン12から人物Aの位置に関する情報、及び第2マイクロフォン14から人物Bの位置に関する情報を得る。具体的には、第2検出部112は、第1マイクロフォン12の第1位置検出システム12Cで検出された人物Aの位置に関する情報、及び第2マイクロフォン14の第2位置検出システム14Cで検出された人物Bの位置に関する情報を取得する。そして、第2検出部112は、人物Aと撮像装置1との距離、人物Bと撮像装置1との距離を検出する。
【0087】
付与部102Cは、第2検出部112の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。例えば、付与部102Cは、人物Aの撮像装置1からの距離に応じて、第1音声データの音量調節に関する識別コードを付与し、人物Bの撮像装置1からの距離に応じて、第2音声データの音量調節に関する識別コードを付与する。例えば付与部102Cは、人物Aが撮像装置1から距離αよりも遠い場合には、音量を小さくする識別コードを付与する。また、付与部102Cは、人物Aが撮像装置1から距離β以内である場合には、音量を大きくする識別コードを付与する。また例えば音声データの調節としては、第1マイクロフォン12、及び第2マイクロフォン14は、人物A(又は人物B)と撮像装置1との距離が長くなるに伴って、段階的に音量を小さくしてもよい。
【0088】
以上で説明したように、本例においては位置検出システムにより、人物A及び人物Bの位置に関する情報が取得され、その位置に関する情報に基づいて第2検出部112により人物A及び人物Bの位置が正確に検出される。そして、人物A及び人物Bの位置に基づいて、効率的に音量の調節を行うことができる。
【0089】
<変形例2>
次に、変形例2に関して説明する。変形例2では、被写体が向いている方向に応じて、識別コードを付与する、又は音声データの音量調節を行う。
【0090】
本例では、第1検出部102Bは、動画像データにおいて画像処理により、各被写体が向いている方向を認識する。例えば、第1検出部102Bは、顔認識技術を使用して、人物A及び人物Bが向いている方向を認識する。そして、人物A及び人物Bが向いている方向に応じて、識別コードが付与又は音声データの音量が調節される。例えば、音声データの調節としては、人物Aが撮像装置1の方向(正面)を向いている場合には、第1音声データの音量を大きくし、人物Aが撮像装置1の方向を向いてない場合には、第1音声データの音量を小さくする。
【0091】
【0092】
図11(A)に示す場合では、人物Aは撮像装置1に対して正面を向いている。この場合には、第1検出部102Bにより人物Aが正面を向いていることが検出され、人物Aの音声データである第1音声データの音量を大きくする音量調節が行われる。一方、
図11(B)に示す場合では、人物Aは撮像装置1に対して横を向いている(正面を向いていない)。この場合には、第1検出部102Bにより人物Aが横を向いていることが検出され、人物Aの音声データである第1音声データの音量を小さくする音量調節が行われる。
【0093】
以上で説明したように、本例においては、第1検出部102Bは被写体が向いている方向を検出し、被写体が向いている方向に基づいて効率的に音量調節が行われる。
【0094】
<変形例3>
次に、変形例3に関して説明する。変形例3では、被写体の距離に応じて、音声データの音量調節に関する識別コードを付与する、又は音声データの音量調節を行う。
【0095】
本例では、第1検出部102Bは、動画像データにおいて画像処理により、各被写体と撮像装置1との距離を認識する。例えば、第1検出部102Bは、画像処理による被写体距離の推定技術により人物A及び人物Bの撮像装置1から距離を検出する。そして、人物A及び人物Bと撮像装置1との距離に応じて、識別コードが付与又は音声データが調節される。例えば、音声データの調節としては、人物Aと撮像装置1との距離が閾値γよりも大きい場合には、第1音声データの音量を小さくする。
【0096】
【0097】
図12(A)に示す場合では、人物Aは閾値γ以内に位置している。この場合には、第1検出部102Bにより人物Aが閾値γ以内に位置することを検出し、人物Aの音声データである第1音声データの音量を大きくする音量調節が行われる。一方、
図12(B)に示す場合では、人物Aは閾値γよりも離れて位置している。この場合には、第1検出部102Bにより人物Aが閾値γよりも離れて位置していることを検出し、人物Aの音声データである第1音声データの音量を小さくする音量調節が行われる。
【0098】
以上で説明したように、本例においては、被写体と撮像装置1との距離が検出され、被写体と撮像装置1との距離に基づいて効率的に音量調節が行われる。
【0099】
<変形例4>
次に、変形例4に関して説明する。変形例4では、撮像装置1の画角に被写体が存在するか否かで識別コードを付与する、又は、音声データの音量の調節を行う。
【0100】
本例では、第1検出部102Bは、動画像データにおいて画像処理により、各被写体が撮像装置1の画角内に存在するか否かを認識する。例えば第1検出部102Bは、画像認識技術を使用して、人物A及び人物Bが撮像装置1の画角内に存在するか否かを認識する。そして、人物A及び人物Bが画角内に存在するか否かに応じて、識別コードを付与又は音声データが調節される。例えば、音声データの音量の調節としては、人物Aが撮像装置1の画角内に写っている場合には、第1音声データの音量を大きくし、人物Aが撮像装置1の画角内に写っていない場合には、第1音声データの音量を小さくする。
【0101】
なお、撮像装置1の画角は、例えば特開2017-46355号公報のように、撮像装置1が撮像する動画像データの画角と、実際に記憶部18に記憶される動画像データの画角が異なる場合は、記憶部18に記憶される動画像データの画角である。
【0102】
【0103】
図13に示す場合では、人物Aは撮像装置1の画角151内に位置しており、人物Bは画角151の外に位置している。この場合には、第1検出部102Bにより人物Aが画角151内に位置していることが検出され、人物Aの音声データである第1音声データの音量を大きくする音量調節が行われる。一方、第1検出部102Bにより人物Bが画角151内に位置していないことが検出され、人物Bの音声データである第2音声データの音量を小さくする音量調節が行われる。
【0104】
以上で説明したように、本例においては、第1検出部102Bは撮像装置1の画角に被写体が存在するか否かを検出し、画角に被写体が存在するか否かで効率的に音量調節が行われる。
【0105】
<変形例5>
本例では、撮像装置1、又は、第1マイクロフォン12及び第2マイクロフォン14は、ステレオ音声の音声データを記録する。ステレオ音声は人間の左耳用の音声と右耳用の音声を含んでいる。第1検出部102Bは、動画像データにおいて画像処理により、被写体が撮像装置1の中心に対して左側に存在しているか、右側に存在しているかを認識し、識別コードを付与する、又は、音声データの音量を調節する。例えば、音声データの音量の調節としては、人物が撮像装置1に対して左側に存在している場合、左耳用の音声データの音量を相対的に大きくする。なお、人物の位置を認識するための手法としては、例えば画像認識技術を使用する方法や変形例1のようなGPSを用いた方法がある。
【0106】
【0107】
図14(A)に示す場合では、人物Aは撮像装置1の光軸Mに対してL側に位置している。この場合には、第1検出部102Bにより人物AがL側に位置していることを検出し、人物Aの音声データである第1音声データにおける左耳用の音声データを相対的に大きくする。一方、
図14(B)に示す場合では、人物Aは撮像装置1の光軸Mに対してR側に位置している。この場合には、第1検出部102Bにより人物AがR側に位置していることを検出し、人物Aの音声データである第1音声データにおける右耳用の音声データを相対的に大きくする。
【0108】
以上で説明したように、本例においては、第1検出部102Bは被写体が撮像装置1に対してどちら側に存在しているかを検出し、左耳用の音声データと右耳用の音声データの音量に差異を付けることで、より臨場感のある音声付きの動画像データとなる。
【0109】
第1マイクロフォン12及び第2マイクロフォン14は、携帯電話やスマートフォンであっても良い。この場合、携帯電話やスマートフォンが、自身と撮像装置1とを無線接続するアプリケーションを有していると好ましい。
【0110】
以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
【符号の説明】
【0111】
1 :撮像装置
10 :撮像部
10A :撮像光学系
10B :撮像素子
10C :画像信号処理部
12 :第1マイクロフォン
12A :第1音声信号処理部
12B :第1無線通信部
12C :第1位置検出システム
14 :第2マイクロフォン
14B :第2無線通信部
14C :第2位置検出システム
16 :表示部
18 :記憶部
20 :音声出力部
22 :操作部
24 :CPU
26 :ROM
28 :RAM
30 :第3無線通信部
100 :カメラシステム
101 :撮像制御部
102 :画像処理部
102A :関連付け部
102B :第1検出部
102C :付与部
102D :録画部
104 :第1音声録音部
106 :第2音声録音部
112 :第2検出部
A :人物
B :人物