特許第6167483号(P6167483)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ニコンの特許一覧

特許6167483再生処理装置、撮像装置および再生処理プログラム
<>
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000003
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000004
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000005
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000006
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000007
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000008
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000009
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000010
  • 特許6167483-再生処理装置、撮像装置および再生処理プログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6167483
(24)【登録日】2017年7月7日
(45)【発行日】2017年7月26日
(54)【発明の名称】再生処理装置、撮像装置および再生処理プログラム
(51)【国際特許分類】
   H04N 5/232 20060101AFI20170713BHJP
   H04N 5/92 20060101ALI20170713BHJP
   G03B 15/00 20060101ALI20170713BHJP
【FI】
   H04N5/232 300
   H04N5/92 020
   G03B15/00 Q
   G03B15/00 H
【請求項の数】11
【全頁数】15
(21)【出願番号】特願2012-174997(P2012-174997)
(22)【出願日】2012年8月7日
(65)【公開番号】特開2014-36257(P2014-36257A)
(43)【公開日】2014年2月24日
【審査請求日】2015年7月8日
(73)【特許権者】
【識別番号】000004112
【氏名又は名称】株式会社ニコン
(74)【代理人】
【識別番号】100072718
【弁理士】
【氏名又は名称】古谷 史旺
(74)【代理人】
【識別番号】100151002
【弁理士】
【氏名又は名称】大橋 剛之
(74)【代理人】
【識別番号】100201673
【弁理士】
【氏名又は名称】河田 良夫
(72)【発明者】
【氏名】杉原 麻理
【審査官】 鹿野 博嗣
(56)【参考文献】
【文献】 特開2011−160044(JP,A)
【文献】 特開2010−245695(JP,A)
【文献】 特開2011−254400(JP,A)
【文献】 特開2006−203867(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/232
G03B 15/00
H04N 5/92
(57)【特許請求の範囲】
【請求項1】
画像データと前記画像データ生成処理時に録音された音声データとを読み込む入力部と、
前記画像データより主要被写体を検出する被写体検出部と、
検出された前記主要被写体までの距離に関する情報を前記画像データより取得し、前記距離に関する情報と音源の方向と、前記音源が画角内か否かとに基づいて、再生時の前記音声データの音量を制御する再生制御データを生成する制御部と、
を備える再生処理装置。
【請求項2】
請求項1に記載の再生処理装置において、
前記制御部は、前記音声データから少なくとも1つの前記音声の音源の方向を求めて前記音源の音声データを生成し、前記音源の方向前記距離に関する情報および前記音源が画角内か否かに基づいて、前記音源に対する重み付けをして前記再生制御データを生成する
再生処理装置。
【請求項3】
請求項2に記載の再生処理装置において、
前記制御部は、前記音声データから複数の前記音源それぞれの方向を求めて前記各音源の音声データを生成し、前記各音源の方向前記距離に関する情報および前記音源が画角内か否かに基づいて、前記各音源に対する重み付けをして前記再生制御データを生成する
再生処理装置。
【請求項4】
請求項2または請求項3に記載の再生処理装置において、
前記画像データのシーンを判定するシーン判定部を備え、
前記制御部は、前記音源の方向前記距離に関する情報および前記音源が画角内か否かとともに、前記シーン判定部の判定結果に基づいて、前記音源に対する重み付けをする
再生処理装置。
【請求項5】
請求項2または請求項3に記載の再生処理装置において、
前記画像データは、時系列に連続して撮像された複数のフレームからなり、
前記制御部は、
前記画像データを撮像する際の撮像装置のパンニングに伴う動きを検出し、前記フレームの動きベクトルとして算出する動きベクトル算出部をさらに備え、
前記制御部は、前記音源の方向前記距離に関する情報および前記音源が画角内か否かとともに、前記各フレームの動きベクトルに基づいて、前記各フレームにおける前記音源に対する重み付けをする
再生処理装置。
【請求項6】
請求項2または請求項3に記載の再生処理装置において、
前記画像データは、時系列に連続して撮像された複数のフレームからなり、
前記制御部は、
前記主要被写体の動きを検出し、前記主要被写体の動きベクトルを算出する動きベクトル算出部をさらに備え、
前記制御部は、前記音源の方向、前記距離に関する情報および前記音源が画角内か否かとともに、前記主要被写体の動きベクトルに基づいて、前記各フレームにおける前記音源に対する重み付けをする
再生処理装置。
【請求項7】
請求項5または請求項6に記載の再生処理装置において、
前記制御部は、前記フレームにおける前記音源の前記重み付けを、隣接するフレームにおける前記音源の重み付けと加重平均する再生処理装置。
【請求項8】
請求項1ないし請求項7のいずれか1項に記載の再生処理装置において、 前記音声データを外部に音声で出力するスピーカ部を備え、
前記制御部は、前記再生制御データに基づいて前記音声データの音量を制御して前記スピーカ部に音声を出力させる
再生処理装置。
【請求項9】
請求項1ないし請求項8のいずれか1項に記載の再生処理装置において、
前記画像データを表示する表示部を備える再生処理装置。
【請求項10】
被写界を撮像して画像データを生成する撮像部と、
音声を受信して音声データを生成するマイクロホン部と、
請求項1に記載の再生処理装置と、
を備える撮像装置。
【請求項11】
画像データと前記画像データ生成処理時に録音された音声データとを読み込む入力手順、
前記画像データより主要被写体を検出する被写体検出手順、
検出された前記主要被写体までの距離に関する情報を前記画像データより取得し、前記距離に関する情報と音源の方向と、前記音源が画角内か否かとに基づいて、再生時の前記音声データの音量を制御する再生制御データを生成する制御手順、
をコンピュータに実行させる再生処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、再生処理装置、撮像装置および再生処理プログラムに関する。
【背景技術】
【0002】
従来、複数のマイクロホンを用いて録音した音声からその音声の音源の方向を取得することができる。
【0003】
例えば、複数のマイクロホンを有するデジタルカメラが、静止画像や動画を撮像するとともに音声を録音して、音声の音源ごとの方向および画像における位置を推定し、各音源の方向別音声データおよび位置データを生成して画像データに対応付けて記録する技術がある(特許文献1等参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−239348号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、画像を再生表示すると同時に、単に全ての音源または音源ごとの音声データを再生するだけで、画像のシーンや撮影者または被写体の視点等に応じて、各音源の音声データに効果や演出を施して再生することはできない。
【0006】
上記従来技術が有する問題に鑑み、本発明の目的は、音源ごとの音声データに効果や演出を施して再生することができる技術を提供することにある。
【課題を解決するための手段】
【0007】
本発明を例示する再生処理装置の一態様は、画像データと画像データ生成処理時に録音された音声データとを読み込む入力部と、画像データより主要被写体を検出する被写体検出部と、検出された主要被写体までの距離に関する情報を画像データより取得し、距離に関する情報と音源の方向と、音源が画角内か否かに基づいて、再生時の音声データの音量を制御する再生制御データを生成する制御部と、を備える。
【0008】
また、制御部は、音声データから少なくとも1つの音声の音源の方向を求めて音源の音声データを生成し、音源の方向距離に関する情報および音源が画角内か否かに基づいて、音源に対する重み付けをして再生制御データを生成してもよい。
【0009】
また、制御部は、音声データから複数の音源それぞれの方向を求めて各音源の音声データを生成し、各音源の方向、距離に関する情報および音源が画角内か否かに基づいて、各音源に対する重み付けをして再生制御データを生成してもよい。
【0010】
また、画像データのシーンを判定するシーン判定部を備え、制御部は、音源の方向距離に関する情報および音源が画角内か否かとともに、シーン判定部の判定結果に基づいて、音源に対する重み付けをしてもよい。
【0011】
また、画像データは、時系列に連続して撮像された複数のフレームからなり、制御部は、画像データを撮像する際の撮像装置のパンニングに伴う動きを検出し、フレームの動きベクトルとして算出する動きベクトル算出部をさらに備え、制御部は、音源の方向距離に関する情報および音源が画角内か否かとともに、各フレームの動きベクトルに基づいて、各フレームにおける音源に対する重み付けをしてもよい
また、画像データは、時系列に連続して撮像された複数のフレームからなり、制御部は、主要被写体の動きを検出し、主要被写体の動きベクトルを算出する動きベクトル算出部をさらに備え、制御部は、音源の方向距離に関する情報および音源が画角内か否かとともに、主要被写体の動きベクトルに基づいて、各フレームにおける音源に対する重み付けをしてもよい。
【0012】
また、制御部は、フレームにおける音源の重み付けを、隣接するフレームにおける音源の重み付けと加重平均してもよい。
【0013】
また、音声データを外部に音声で出力するスピーカ部を備え、制御部は、再生制御データに基づいて音声データの音量を制御してスピーカ部に音声を出力させてもよい。
【0014】
また、画像データを表示する表示部を備えてもよい。
【0015】
本発明を例示する撮像装置の一態様は、被写界を撮像して画像データを生成する撮像部と、音声を受信して音声データを生成するマイクロホン部と、本発明の再生処理装置と、を備える。
【0016】
本発明を例示する再生処理プログラムの一態様は、画像データと画像データ生成処理時に録音された音声データとを読み込む入力手順、画像データより主要被写体を検出する被写体検出手順、検出された主要被写体までの距離に関する情報を画像データより取得し、距離に関する情報と音源の方向と、音源が画角内か否かに基づいて、再生時の音声データの音量を制御する再生制御データを生成する制御手順、をコンピュータに実行させる。
【発明の効果】
【0017】
本発明によれば、音源ごとの音声データに効果や演出を施して再生することができる。
【図面の簡単な説明】
【0018】
図1】本発明の一の実施形態に係るコンピュータの構成を示す図
図2】一の実施形態に係るコンピュータによる再生処理を示すフローチャート
図3】被写界の一例を示す図
図4】本発明の他の実施形態に係るコンピュータにおけるCPUの構成を示す図
図5】他の実施形態に係るコンピュータによる再生処理を示すフローチャート
図6】動画の連続するフレームの一例を示す図
図7】フレームの動きベクトルの一例を示す図
図8】再生モードに応じて設定される重み係数の一覧を示す図
図9】主要被写体の動きベクトルの一例を示す図
【発明を実施するための形態】
【0019】
《一の実施形態》
図1は、本発明の一の実施形態に係る再生処理装置として動作させるコンピュータ100の構成を示す図である。
【0020】
図1(a)に示すコンピュータ100は、CPU10、記憶部11、入出力インタフェース(入出力I/F)12およびバス13から構成される。CPU10、記憶部11および入出力I/F12は、バス13を介して情報伝達可能に接続される。また、コンピュータ100には、入出力I/F12を介して、画像処理の途中経過や処理結果を表示する出力装置14、ユーザからの入力を受け付ける入力装置15がそれぞれ接続される。出力装置14には、一般的な液晶モニタやプリンタ等を用いることができ、入力装置15には、キーボードやマウス等をそれぞれ適宜選択して使用できる。なお、本実施形態のコンピュータ100は、出力装置14として、スピーカも有するものとする。また、入出力IF12は、出力装置14および入力装置15とともに、不図示のデジタルカメラをUniversal Serial Bus(USB)ケーブルなどで接続する接続部や、デジタルカメラ(不図示)に装着されたメモリカード(不図示)を差し込む差し込み口を有するものとする。
【0021】
本実施形態のコンピュータ100が処理対象とする画像は、不図示のデジタルカメラ等で撮像され、その撮像時に被写界周辺の音声をステレオ録音された音声データがヘッダ領域に付加された静止画像や動画である。なお、その静止画像や動画のヘッダ領域には、撮像時の露出条件(焦点距離、絞り値、シャッタ速度、ISO値等)とともに、少なくとも静止画像や動画に撮像された全ての主要被写体の被写体距離Dの情報を有するものとする。
【0022】
CPU10は、コンピュータ100の各部を統括的に制御するプロセッサである。例えば、CPU10は、入力装置15で受け付けたユーザからの指示に基づいて、記憶部11に記憶されている再生処理プログラムを読み込む。CPU10は、その再生処理プログラムを実行することにより、被写体検出部20およびシーン判定部21として動作し(図1(b))、処理対象の画像に対して再生処理を行う。CPU10は、静止画像や動画を出力装置14の液晶モニタに再生表示するとともに、付加された音声データの音声をスピーカに出力する。
【0023】
被写体検出部20は、処理対象の静止画像や動画の各フレームに対して被写体検出処理を施し、人物の顔領域や、建物や自動車等の画像領域を検出する。この被写体検出処理は公知のアルゴリズムによって行われる。例えば、被写体検出部20は、記憶部11に記憶された、人物や建物等の様々なパターンのテンプレートを用いて、静止画像やフレームに対しパターンマッチング処理等を施して主要被写体の画像領域を検出する。CPU10は、検出された主要被写体の画像領域の大きさや位置等を被写体情報として取得する。
【0024】
シーン判定部21は、公知の手法を用いて静止画像やフレームに撮像された被写界のシーンを判定する。なお、シーン判定部21は、読み込んだ静止画像や動画のヘッダ領域に撮像時のシーンモード情報を有する場合、そのシーンモード情報に基づいてシーンを判定する。
【0025】
記憶部11は、制御プログラムや再生処理プログラム等、およびデジタルカメラ(不図示)から読み込んだ画像を記録する。記憶部11に記憶されるプログラムや画像等は、バス13を介して、CPU10から適宜参照することができる。記憶部11には、一般的なハードディスク装置、光磁気ディスク装置等の記憶装置を選択して用いることができる。なお、記憶部11は、コンピュータ100に組み込まれるとしたが、外付けの記憶装置でもよい。この場合、記憶部11は、入出力I/F12を介してコンピュータ100に接続される。
【0026】
次に、図2のフローチャートを参照しつつ、本実施形態のコンピュータ100による再生処理について説明する。なお、本実施形態では、処理対象とする画像を、図3(a)に示すような人物30を含む被写界40が撮像された静止画像とする。ただし、図3(b)は、上記静止画像の撮像後の被写界40を示し、自動車32は、撮像時点では被写界40の外側であるが、人物30に接近しているものとする。
【0027】
ユーザは、入力装置15を用いて、再生処理プログラムのコマンドを入力、または出力装置14に表示されたそのプログラムのアイコンをダブルクリック等することにより、再生処理プログラムの起動をCPU10に指示する。CPU10は、その指示を入出力I/F12を介して受け付け、記憶部11に記憶されている再生処理プログラムを読み込み実行する。CPU10は、ステップS101からの処理を開始する。
【0028】
ステップS101:CPU10は、入力装置14を介して、ユーザにより指定された静止画像を、記憶部11または入出力I/F12を介してデジタルカメラ(不図示)から読み込む。
【0029】
ステップS102:被写体検出部20は、読み込んだ静止画像から人物30の顔領域や建物31の画像領域を検出する。CPU10は、検出された各主要被写体の画像領域の大きさや位置等を、静止画像のヘッダ領域に付加された各主要被写体の被写体距離Dと合わせて被写体情報として取得する。
【0030】
ステップS103:CPU10は、特許文献1等の公知の手法を用いて、静止画像に付加されたステレオ録音の音声データから、その音声データに含まれる音声それぞれの音源の方向を求め、音源ごとの音声信号を抽出し各音源の音声データを生成する。本実施形態では、音源として、人物30の音声、建物31から流れる音楽、および接近する自動車32のエンジン音の音源があり、CPU10は、それらの音源の音声データを生成するものとする。また、CPU10は、それらの音源が静止画像上のどこに位置するかを、被写体情報および各音源の方向に基づいて特定し、各音源の方向と特定された位置とからなる位置情報を生成する。CPU10は、音源ごとの音声データおよび位置情報を、上記被写体情報と対応付けて不図示の内部メモリに記録する。
【0031】
なお、図3(a)に示すように、自動車32は、静止画像の画角内にないことから、自動車32の被写体情報の画像領域の大きさや位置、被写体距離D(i)は、画角外を示す所定の値または無限遠等に設定されているものとする。
【0032】
ステップS104:CPU10は、各音源の音声データを再生する際の音量を、後述する静止画像に撮像されたシーンに応じて設定するために、各音源が静止画像の画角内に存在するか否かを、静止画像の画角と各音源の位置情報とに基づいて判定する。CPU10は、音源が画角内の場合、その音源のフラグUseFlag(i)を1に設定する。一方、CPU10は、音源が画角外の場合、フラグUseFlag(i)を0と設定する。ここで、係数iは各音源を示し、本実施形態では、人物30をi=0、建物31をi=1、自動車32をi=2とする。
【0033】
ステップS105:シーン判定部21は、静止画像に撮像されたシーンを判定し、CPU10は、シーン判定部21の判定結果に応じて、再生時の各音源の重み付けをする。なお、本実施形態のシーン判定部21が判定するシーンは、「スナップ」、「ポートレート」または「風景」のいずれかとする。それぞれのシーンにおけるCPU10による各音源の重み付けの設定について説明する。
A)「スナップ」の場合
CPU10は、再生時の各音源の重み付けを、静止画像の撮像時における合焦領域、例えば、人物30の顔領域からの静止画像上の距離Lに応じて変化する重み係数WT(i)=α/Lとして設定する。係数αは所定の値が設定される。なお、音源が静止画像の画角外の場合、すなわち自動車32の距離Lは、所定の値または無限遠等に設定されているものとする。
B)「ポートレート」の場合
CPU10は、人物からの音源の重み係数WT(i)が最も大きな値になるように設定する。例えば、CPU10は、人物30の重み係数WT(i)を1に設定し、建物31および自動車32の重み係数WT(i)を0.5に設定する。
C)「風景」の場合
CPU10は、人物以外からの音源の重み係数WT(i)が大きな値となるように設定する。例えば、CPU10は、人物30の重み係数WT(i)を0.2に設定し、建物31および自動車32の重み係数WT(i)を1に設定する。
【0034】
なお、各シーンにおける重み係数WT(i)の値および設定方法は一例であり、他の値または他の設定方法で設定してもよい。例えば、「ポートレート」の場合、人物30との距離に反比例するように、建物31や自動車32の重み係数WT(i)が設定されてもよい。
【0035】
ステップS106:CPU10は、ステップS105で設定された各音源の重み係数WT(i)を用いて、再生時の各音源の音量を決める増幅率AMP(i)を次式(1)に基づいて算出し、再生制御データとして生成する。
AMP(i)=UseFlag(i)×WT(i)/(β×D(i)) ・・・(1)
ここで、係数βは、各主要被写体の被写体距離D(i)を規格化する係数である。
【0036】
ステップS107:CPU10は、音源ごとに音声データと再生制御データの増幅率AMP(i)との積を計算して、各音源の再生用音声データを生成する。CPU10は、静止画像を出力装置14の液晶モニタに再生表示するとともに、出力装置14のスピーカに各音源の再生用音声データを音声として出力する。CPU10は、一連の処理を終了する。
【0037】
なお、処理対象の画像が動画の場合、コンピュータ100は、動画の各フレームに対し図2に示す再生処理を施す。すなわち、コンピュータ100は、動画の全フレームに対してステップS102〜ステップS105の処理を施した後、ステップS106へ移行して、各フレームにおける音源ごとの増幅率AMPを算出し、再生制御データを生成する。
【0038】
このように、本実施形態では、撮像された画像のシーンに応じて各音源の重み係数を設定することにより、各音源の音声データに効果や演出を施して再生することができる。
《他の実施形態》
本発明の他の実施形態に係るコンピュータは、図1に示す一の実施形態に係るコンピュータ100と同じであり、各構成要素についての詳細な説明は省略する。
【0039】
本実施形態のコンピュータ100と一の実施形態のものとの相違点は、1)処理対象となる画像は動画のみであり、2)コンピュータ100は、動画の再生において、撮影者視点か被写体視点かに応じて各音源の音声データの重み係数WTを設定する再生モードを有する点にある。ここで、再生モードの撮影者視点モードとは、デジタルカメラ(不図示)の撮影者が聞くような音声で各音源の音声データを再生するモードであり、被写体視点モードとは、主要被写体の位置で聞こえるような音声で各音源の音声データを再生するモードである。また、処理対象となる画像は動画のみとなることに伴い、本実施形態のCPU10は、再生プログラムを実行することにより、図4に示すように、被写体検出部20とともに、動きベクトル算出部22として動作する。
【0040】
ベクトル算出部22は、動画を撮像したデジタルカメラ(不図示)のパンニングに伴う動きをフレーム動きとして検出しフレームの動きベクトルを算出するとともに、主要被写体の動きを検出し主要被写体の動きベクトルを算出する。具体的には、動きベクトル算出部22は、動画の隣接する2つのフレームに公知の相関処理を施す。動きベクトル算出部22は、その相関結果に基づいて、例えば、被写体検出部20により検出された主要被写体の画像領域を除いた背景の画像領域における2つのフレーム間のズレ量から、フレーム動きを検出しフレームの動きベクトルを算出する。一方、動きベクトル算出部22は、背景の画像領域のズレ量と主要被写体の画像領域のズレ量とに基づいて、主要被写体の動きを検出しその主要被写体の動きベクトルを算出する。
【0041】
次に、図5のフローチャートを参照しつつ、本実施形態のコンピュータ100の再生処理について説明する。なお、本実施形態での処理対象の動画は、図3に示す被写界40を撮像したものである。図6(a)〜(c)は、その動画のフレームのうち、連続する3フレームを一例として示す。すなわち、図6(a)〜(c)は、k番目、k+1番目およびk+2番目のフレームを示す(kは自然数)。ただし、図6(a)、(b)は、人物30を追従するようにデジタルカメラ(不図示)をパンニングして撮像されたフレームとする。また、図6(c)は、左側から現れた自動車33が画像中心となるようにデジタルカメラ(不図示)をパンニングして撮像されたフレームとする。
【0042】
ユーザは、入力装置15を用いて、再生処理プログラムのコマンドを入力、または出力装置14に表示されたそのプログラムのアイコンをダブルクリック等することにより、再生処理プログラムの起動をCPU10に指示する。CPU10は、その指示を入出力I/F12を介して受け付け、記憶部11に記憶されている再生処理プログラムを読み込み実行する。CPU10は、ステップS201からの処理を開始する。
【0043】
ステップS201:CPU10は、入力装置14を介して、ユーザにより指定された動画を、記憶部11または入出力I/F12を介してデジタルカメラ(不図示)から読み込む。なお、CPU10は、再生したい動画の指定とともに、再生モードの指定も受け付けることが好ましい。
【0044】
ステップS202:被写体検出部20は、読み込んだ動画の各フレームから人物30等の画像領域を検出する。CPU10は、検出された各主要被写体の画像領域の大きさや位置等を、動画のヘッダ領域に付加された各主要被写体の被写体距離Dと合わせて被写体情報として取得する。
【0045】
ステップS203:CPU10は、特許文献1等の公知の手法を用いて、動画に付加されたステレオ録音の音声データから、その音声データに含まれる音声それぞれの音源の方向を求め、音源ごとの音声信号を抽出し各音源の音声データを生成する。また、CPU10は、それらの音源が各フレーム上のどこに位置するかを、被写体情報および各音源の方向に基づいて特定し、各フレームにおける各音源の方向と特定された位置とからなる位置情報を生成する。CPU10は、音源ごとの音声データおよび位置情報を、上記被写体情報と対応付けて不図示の内部メモリに記録する。
【0046】
ステップS204:動きベクトル算出部22は、隣接する2つのフレームに対して相関処理を施し、背景の画像領域におけるズレ量から、フレーム動きを検出しフレームの動きベクトルを算出する。また、動きベクトル算出部22は、背景の画像領域のズレ量と各主要被写体の画像領域におけるズレ量とから、各主要被写体の動きベクトルを算出する。CPU10は、算出されたフレームおよび各主要被写体の動きベクトルを、各フレームに対応付けて不図示の内部メモリに記録する。
【0047】
ステップS205:CPU10は、再生モードとして撮影者視点モードに設定されているか否かを判定する。CPU10は、撮影者視点モードに設定されている場合、ステップS206(YES側)へ移行し、被写体視点モードに設定されている場合、ステップS207(NO側)へ移行する。
【0048】
ステップS206:CPU10は、撮影者視点モードの場合、デジタルカメラ(不図示)の撮影者が聞くような音声で各音源の音声データを再生するために、例えば、m番目のフレームにおけるフレームの動きベクトルおよび各音源の位置情報に基づいて、m番目のフレームにおける各音源の重み係数WT(m,i)を設定する。具体的には次のように設定する。
【0049】
図7(a)〜(c)は、図6(a)〜(c)に示すk番目、k+1番目、k+2番目のフレームにおけるフレームの動きベクトルの向きを、各フレームの中心に矢印で示す。また、図8(a)は、各フレームにおいて、フレームの動きベクトルの向きおよび各音源の位置情報に基づいて設定された、各音源の重み係数WT(m,i)の一覧を示す。なお、撮影者視点モードでは、フレームの動きベクトルの向きに一致し、フレームの中心に近い音源ほど大きな値の重み係数が設定される。
【0050】
すなわち、k番目およびk+1番目のフレームは、人物30がフレームの中心に来るように撮像されたものであることから、図8(a)に示すように、人物30の重み係数が一番大きな値に設定される。また、建物31および自動車32は、フレームの動きベクトルの向いた側にあり、且つ人物30に近づくことから、建物31および自動車32の重み係数は、k番目よりもk+1番目のフレーム方が大きな値に設定される。一方、自動車33は、k番目およびk+1番目のフレームでは画角外で、フレームの動きベクトルの向きとは反対側であることから、重み係数は小さい値のままに設定される。
【0051】
一方、k+2番目のフレームは、自動車33がフレームの中心に来るようにデジタルカメラ(不図示)がパンニングされて撮像されたものであることから、自動車33の重み係数が一番大きな値に設定される。一方、人物30、建物31および自動車32は、フレームの動きベクトルの向きとは反対側であることから、それぞれの重み係数は、k番目およびk+1番目のフレームに比べて小さな値に設定される。
【0052】
なお、図8(a)に示す各フレームにおける音源ごとの重み係数WT(m,i)の値および値の設定方法は一例であり、主要被写体の数、フレームの動きベクトルの大きさや向き等に応じて適宜設定されることが好ましい。
【0053】
ステップS207:CPU10は、被写体視点モードの場合、例えば、人物30が聞くような音声で各音源の音声データを再生するために、人物30の動きベクトルの向きおよび各音源の位置情報に基づいて、m番目のフレームにおける各音源の重み係数WT(m,i)を設定する。具体的には次のように設定する。
【0054】
図9(a)〜(c)は、図7の場合と同様に、図6(a)〜(c)に示すk番目、k+1番目、k+2番目のフレームにおける人物30の動きベクトルの向きを、各フレームの中心に矢印で示す。また、図8(b)は、各フレームにおいて、人物30の動きベクトルの向きおよび各音源の位置情報に基づいて設定された、各音源の重み係数WT(m,i)の一覧を示す。なお、被写体視点モードでは、人物の動きベクトルの向きに一致し、人物30に近い音源ほど大きな値の重み係数が設定される。
【0055】
すなわち、k番目からk+2番目のフレームにおける人物30の動きベクトルは同じ向きであり、建物31および自動車32は人物30に近づくことから、図8(b)に示すように、建物31および自動車32の重み係数は、k番目からk+2番目のフレームに従い大きな値に設定される。一方、自動車33は、k番目とk+1番目とのフレームにおいて画角外であることから、0.1と小さな値の重み係数に設定されている。また、自動車33は、k+2番目のフレームの画角内で人物30に接近しているが、人物30の動きベクトルの向きと反対側であることから、他の音源の重み係数より小さな値に設定される。
【0056】
なお、被写体視点モードでは、人物30自身が聞くような音声で各音源の音声データを再生することから、図8(b)に示すように、人物30自身の音声は小さな音量で再生されるように、例えば、0.5等の所定の値の重み係数が予め設定される。
【0057】
また、図8(b)に示す各フレームにおける音源ごとの重み係数WT(m,i)の値および値の設定方法は一例であり、主要被写体の数、主要被写体の動きベクトルの大きさや向き等に応じて適宜設定されることが好ましい。
【0058】
ステップS208:CPU10は、ステップS206またはステップS207において設定したm番目のフレームにおける各音源の重み係数WT(m,i)を、次式(2)を用いて、m番目のフレームを含む隣接するN枚(<動画のフレーム総数)のフレームにおける重み係数を時間軸方向に加重平均する。
【0059】
【数1】
【0060】
ここで、係数ε(j)は、j番目のフレームにおける音源の重み係数がm番目のフレームに対して寄与する度合いを示し、j=mの時、最も寄与するように設定される。また、用いられるフレーム数Nは10枚程度以下とし、加重平均の範囲jは、mからm+N−1、m−N+1からm、またはm−N/2からm+N/2等と適宜選択して行うことが好ましい。この加重平均により、CPU10は、各音源の音量をなめらかに変化させることができる。
【0061】
ステップS209:CPU10は、ステップS208で加重平均された重み係数<WT(m,i)>を用いて、再生時の各フレームにおける各音源の音量を決める増幅率AMP(m,i)を、次式(3)を用いて算出し再生制御データを生成する。
AMP(m,i)=<WT(m,i)>/(β×D(m,i)) ・・・(3)
ここで、係数βは、m番目のフレームにおける各被写体距離D(m,i)を規格化する係数である。
【0062】
ステップS210:CPU10は、音源ごとに音声データと再生制御データの増幅率AMP(m,i)との積を計算して、各音源の再生用音声データを生成する。
【0063】
ステップS211:CPU10は、出力装置14の液晶モニタに再生表示するとともに、出力装置14のスピーカに各音源の再生用音声データを音声として出力する。CPU10は、一連の処理を終了する。
【0064】
このように、本実施形態では、撮像された各フレームにおけるフレームまたは主要被写体の動きベクトルに応じて各音源の重み係数を設定することにより、各音源の音声データに効果や演出を施して再生することができる。
《実施形態の補足事項》
(1)本発明の再生処理装置は、再生処理プログラムをコンピュータ100に実行させることにより実現させたが、本発明はこれに限定されない。本発明に係る再生処理装置における処理をコンピュータ100で実現するための再生処理プログラムおよびそれを記録した媒体に対しても適用可能である。
【0065】
また、本発明の再生処理プログラムを有したデジタルカメラに対しても適用可能である。なお、デジタルカメラが本発明の画像処理装置として動作する場合、CPU10は、被写体検出部20、シーン判定部21および動きベクトル算出部22の各処理をソフトウエア的に実現してもよいし、ASICを用いてこれらの各処理をハードウエア的に実現してもよい。この場合、デジタルカメラにより撮像された静止画像や動画のヘッダ領域には、露出条件とともに、被写体情報、音声データ、位置情報および再生制御データが付加されることが好ましい。なお、ヘッダ領域に付加される音声データは、音源ごとに抽出されたものでもよいし、抽出する前のステレオ録音されたものでもよい。
【0066】
(2)上記実施形態では、コンピュータ100が、各音源の音声データの再生とともに、静止画像や動画を再生表示したが、本発明はこれに限定されず、各音源の音声データのみ再生してもよい。
【0067】
(3)上記実施形態では、シーン判定結果または再生モードに応じて、各音源の重み係数を設定し再生制御データおよび再生音声データを生成したが、本発明はこれに限定されない。例えば、CPU10は、フレームや主要被写体の動きベクトルに基づいて、ドップラー効果等を考慮して再生制御データおよび再生音声データを生成してもよい。
【0068】
(4)上記他の実施形態では、動きベクトル算出部22が、隣接する2つのフレームに対する相関処理に基づいて、フレームおよび各主要被写体の動きベクトルを算出したが、本発明はこれに限定されない。例えば、H.264等の動画形式で動画圧縮された動画の場合には、圧縮効率を高めるために、フレーム間予測における動き補償において動きベクトルが算出される。そこで、動きベクトル算出部22は、その動きベクトルに基づいて、フレームおよび各主要被写体の動きベクトルを求めてもよい。
【0069】
また、被写体追尾機能により検出した被写体の動きを用いて動きベクトルを算出してもよい。
【0070】
また、デジタルカメラ(不図示)が加速度センサや電子ジャイロ等のセンサを備える場合、動きベクトル算出部22は、そのセンサの出力値に基づいて、フレームの動きベクトルを算出してもよい。
【0071】
(5)上記他の実施形態では、被写体視点モードにおいて、追従する主要被写体を人物30としたが、本発明はこれに限定されず、建物31や自動車32等の主要被写体を追従してもよい。
【0072】
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図する。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずであり、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物によることも可能である。
【符号の説明】
【0073】
10 CPU、11 記憶部、12 入出力I/F、13 バス、14 出力装置、15 入力装置、20 被写体検出部、21 シーン判定部、22 動きベクトル算出部、100 コンピュータ
図1
図2
図3
図4
図5
図6
図7
図8
図9