特許6167483 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ニコンの特許一覧

特許6167483再生処理装置、撮像装置および再生処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6167483

(24)【登録日】2017年7月7日

(45)【発行日】2017年7月26日

(54)【発明の名称】再生処理装置、撮像装置および再生処理プログラム

(51)【国際特許分類】

H04N 5/232 20060101AFI20170713BHJP

H04N 5/92 20060101ALI20170713BHJP

G03B 15/00 20060101ALI20170713BHJP

【ＦＩ】

H04N5/232 300

H04N5/92 020

G03B15/00 Q

G03B15/00 H

【請求項の数】11

【全頁数】15

(21)【出願番号】特願2012-174997(P2012-174997)

(22)【出願日】2012年8月7日

(65)【公開番号】特開2014-36257(P2014-36257A)

(43)【公開日】2014年2月24日

【審査請求日】2015年7月8日

(73)【特許権者】

【識別番号】000004112

【氏名又は名称】株式会社ニコン

(74)【代理人】

【識別番号】100072718

【弁理士】

【氏名又は名称】古谷史旺

(74)【代理人】

【識別番号】100151002

【弁理士】

【氏名又は名称】大橋剛之

(74)【代理人】

【識別番号】100201673

【弁理士】

【氏名又は名称】河田良夫

(72)【発明者】

【氏名】杉原麻理

【審査官】鹿野博嗣

(56)【参考文献】

【文献】特開２０１１−１６００４４（ＪＰ，Ａ）

【文献】特開２０１０−２４５６９５（ＪＰ，Ａ）

【文献】特開２０１１−２５４４００（ＪＰ，Ａ）

【文献】特開２００６−２０３８６７（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｎ５／２３２

Ｇ０３Ｂ１５／００

Ｈ０４Ｎ５／９２

(57)【特許請求の範囲】

【請求項1】

画像データと前記画像データ生成処理時に録音された音声データとを読み込む入力部と、
前記画像データより主要被写体を検出する被写体検出部と、
検出された前記主要被写体までの距離に関する情報を前記画像データより取得し、前記距離に関する情報と、音源の方向と、前記音源が画角内か否かとに基づいて、再生時の前記音声データの音量を制御する再生制御データを生成する制御部と、
を備える再生処理装置。

【請求項2】

請求項１に記載の再生処理装置において、
前記制御部は、前記音声データから少なくとも１つの前記音声の音源の方向を求めて前記音源の音声データを生成し、前記音源の方向、前記距離に関する情報および前記音源が画角内か否かに基づいて、前記音源に対する重み付けをして前記再生制御データを生成する
再生処理装置。

【請求項3】

請求項２に記載の再生処理装置において、
前記制御部は、前記音声データから複数の前記音源それぞれの方向を求めて前記各音源の音声データを生成し、前記各音源の方向、前記距離に関する情報および前記音源が画角内か否かに基づいて、前記各音源に対する重み付けをして前記再生制御データを生成する
再生処理装置。

【請求項4】

請求項２または請求項３に記載の再生処理装置において、
前記画像データのシーンを判定するシーン判定部を備え、
前記制御部は、前記音源の方向、前記距離に関する情報および前記音源が画角内か否かとともに、前記シーン判定部の判定結果に基づいて、前記音源に対する重み付けをする
再生処理装置。

【請求項5】

請求項２または請求項３に記載の再生処理装置において、
前記画像データは、時系列に連続して撮像された複数のフレームからなり、
前記制御部は、
前記画像データを撮像する際の撮像装置のパンニングに伴う動きを検出し、前記フレームの動きベクトルとして算出する動きベクトル算出部をさらに備え、
前記制御部は、前記音源の方向、前記距離に関する情報および前記音源が画角内か否かとともに、前記各フレームの動きベクトルに基づいて、前記各フレームにおける前記音源に対する重み付けをする
再生処理装置。

【請求項6】

請求項２または請求項３に記載の再生処理装置において、
前記画像データは、時系列に連続して撮像された複数のフレームからなり、
前記制御部は、
前記主要被写体の動きを検出し、前記主要被写体の動きベクトルを算出する動きベクトル算出部をさらに備え、
前記制御部は、前記音源の方向、前記距離に関する情報および前記音源が画角内か否かとともに、前記主要被写体の動きベクトルに基づいて、前記各フレームにおける前記音源に対する重み付けをする
再生処理装置。

【請求項7】

請求項５または請求項６に記載の再生処理装置において、
前記制御部は、前記フレームにおける前記音源の前記重み付けを、隣接するフレームにおける前記音源の重み付けと加重平均する再生処理装置。

【請求項8】

請求項１ないし請求項７のいずれか１項に記載の再生処理装置において、前記音声データを外部に音声で出力するスピーカ部を備え、
前記制御部は、前記再生制御データに基づいて前記音声データの音量を制御して前記スピーカ部に音声を出力させる
再生処理装置。

【請求項9】

請求項１ないし請求項８のいずれか１項に記載の再生処理装置において、
前記画像データを表示する表示部を備える再生処理装置。

【請求項10】

被写界を撮像して画像データを生成する撮像部と、
音声を受信して音声データを生成するマイクロホン部と、
請求項１に記載の再生処理装置と、
を備える撮像装置。

【請求項11】

画像データと前記画像データ生成処理時に録音された音声データとを読み込む入力手順、
前記画像データより主要被写体を検出する被写体検出手順、
検出された前記主要被写体までの距離に関する情報を前記画像データより取得し、前記距離に関する情報と、音源の方向と、前記音源が画角内か否かとに基づいて、再生時の前記音声データの音量を制御する再生制御データを生成する制御手順、
をコンピュータに実行させる再生処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、再生処理装置、撮像装置および再生処理プログラムに関する。

【背景技術】

【0002】

従来、複数のマイクロホンを用いて録音した音声からその音声の音源の方向を取得することができる。

【0003】

例えば、複数のマイクロホンを有するデジタルカメラが、静止画像や動画を撮像するとともに音声を録音して、音声の音源ごとの方向および画像における位置を推定し、各音源の方向別音声データおよび位置データを生成して画像データに対応付けて記録する技術がある（特許文献１等参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００９−２３９３４８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、画像を再生表示すると同時に、単に全ての音源または音源ごとの音声データを再生するだけで、画像のシーンや撮影者または被写体の視点等に応じて、各音源の音声データに効果や演出を施して再生することはできない。

【0006】

上記従来技術が有する問題に鑑み、本発明の目的は、音源ごとの音声データに効果や演出を施して再生することができる技術を提供することにある。

【課題を解決するための手段】

【0007】

本発明を例示する再生処理装置の一態様は、画像データと画像データ生成処理時に録音された音声データとを読み込む入力部と、画像データより主要被写体を検出する被写体検出部と、検出された主要被写体までの距離に関する情報を画像データより取得し、距離に関する情報と、音源の方向と、音源が画角内か否かに基づいて、再生時の音声データの音量を制御する再生制御データを生成する制御部と、を備える。

【0008】

また、制御部は、音声データから少なくとも１つの音声の音源の方向を求めて音源の音声データを生成し、音源の方向、距離に関する情報および音源が画角内か否かに基づいて、音源に対する重み付けをして再生制御データを生成してもよい。

【0009】

また、制御部は、音声データから複数の音源それぞれの方向を求めて各音源の音声データを生成し、各音源の方向、距離に関する情報および音源が画角内か否かに基づいて、各音源に対する重み付けをして再生制御データを生成してもよい。

【0010】

また、画像データのシーンを判定するシーン判定部を備え、制御部は、音源の方向、距離に関する情報および音源が画角内か否かとともに、シーン判定部の判定結果に基づいて、音源に対する重み付けをしてもよい。

【0011】

また、画像データは、時系列に連続して撮像された複数のフレームからなり、制御部は、画像データを撮像する際の撮像装置のパンニングに伴う動きを検出し、フレームの動きベクトルとして算出する動きベクトル算出部をさらに備え、制御部は、音源の方向、距離に関する情報および音源が画角内か否かとともに、各フレームの動きベクトルに基づいて、各フレームにおける音源に対する重み付けをしてもよい
また、画像データは、時系列に連続して撮像された複数のフレームからなり、制御部は、主要被写体の動きを検出し、主要被写体の動きベクトルを算出する動きベクトル算出部をさらに備え、制御部は、音源の方向、距離に関する情報および音源が画角内か否かとともに、主要被写体の動きベクトルに基づいて、各フレームにおける音源に対する重み付けをしてもよい。

【0012】

また、制御部は、フレームにおける音源の重み付けを、隣接するフレームにおける音源の重み付けと加重平均してもよい。

【0013】

また、音声データを外部に音声で出力するスピーカ部を備え、制御部は、再生制御データに基づいて音声データの音量を制御してスピーカ部に音声を出力させてもよい。

【0014】

また、画像データを表示する表示部を備えてもよい。

【0015】

本発明を例示する撮像装置の一態様は、被写界を撮像して画像データを生成する撮像部と、音声を受信して音声データを生成するマイクロホン部と、本発明の再生処理装置と、を備える。

【0016】

本発明を例示する再生処理プログラムの一態様は、画像データと画像データ生成処理時に録音された音声データとを読み込む入力手順、画像データより主要被写体を検出する被写体検出手順、検出された主要被写体までの距離に関する情報を画像データより取得し、距離に関する情報と、音源の方向と、音源が画角内か否かに基づいて、再生時の音声データの音量を制御する再生制御データを生成する制御手順、をコンピュータに実行させる。

【発明の効果】

【0017】

本発明によれば、音源ごとの音声データに効果や演出を施して再生することができる。

【図面の簡単な説明】

【0018】

【図1】本発明の一の実施形態に係るコンピュータの構成を示す図

【図2】一の実施形態に係るコンピュータによる再生処理を示すフローチャート

【図3】被写界の一例を示す図

【図4】本発明の他の実施形態に係るコンピュータにおけるＣＰＵの構成を示す図

【図5】他の実施形態に係るコンピュータによる再生処理を示すフローチャート

【図6】動画の連続するフレームの一例を示す図

【図7】フレームの動きベクトルの一例を示す図

【図8】再生モードに応じて設定される重み係数の一覧を示す図

【図9】主要被写体の動きベクトルの一例を示す図

【発明を実施するための形態】

【0019】

《一の実施形態》
図１は、本発明の一の実施形態に係る再生処理装置として動作させるコンピュータ１００の構成を示す図である。

【0020】

図１（ａ）に示すコンピュータ１００は、ＣＰＵ１０、記憶部１１、入出力インタフェース（入出力Ｉ／Ｆ）１２およびバス１３から構成される。ＣＰＵ１０、記憶部１１および入出力Ｉ／Ｆ１２は、バス１３を介して情報伝達可能に接続される。また、コンピュータ１００には、入出力Ｉ／Ｆ１２を介して、画像処理の途中経過や処理結果を表示する出力装置１４、ユーザからの入力を受け付ける入力装置１５がそれぞれ接続される。出力装置１４には、一般的な液晶モニタやプリンタ等を用いることができ、入力装置１５には、キーボードやマウス等をそれぞれ適宜選択して使用できる。なお、本実施形態のコンピュータ１００は、出力装置１４として、スピーカも有するものとする。また、入出力ＩＦ１２は、出力装置１４および入力装置１５とともに、不図示のデジタルカメラをUniversal Serial Bus（ＵＳＢ）ケーブルなどで接続する接続部や、デジタルカメラ（不図示）に装着されたメモリカード（不図示）を差し込む差し込み口を有するものとする。

【0021】

本実施形態のコンピュータ１００が処理対象とする画像は、不図示のデジタルカメラ等で撮像され、その撮像時に被写界周辺の音声をステレオ録音された音声データがヘッダ領域に付加された静止画像や動画である。なお、その静止画像や動画のヘッダ領域には、撮像時の露出条件（焦点距離、絞り値、シャッタ速度、ＩＳＯ値等）とともに、少なくとも静止画像や動画に撮像された全ての主要被写体の被写体距離Ｄの情報を有するものとする。

【0022】

ＣＰＵ１０は、コンピュータ１００の各部を統括的に制御するプロセッサである。例えば、ＣＰＵ１０は、入力装置１５で受け付けたユーザからの指示に基づいて、記憶部１１に記憶されている再生処理プログラムを読み込む。ＣＰＵ１０は、その再生処理プログラムを実行することにより、被写体検出部２０およびシーン判定部２１として動作し（図１（ｂ））、処理対象の画像に対して再生処理を行う。ＣＰＵ１０は、静止画像や動画を出力装置１４の液晶モニタに再生表示するとともに、付加された音声データの音声をスピーカに出力する。

【0023】

被写体検出部２０は、処理対象の静止画像や動画の各フレームに対して被写体検出処理を施し、人物の顔領域や、建物や自動車等の画像領域を検出する。この被写体検出処理は公知のアルゴリズムによって行われる。例えば、被写体検出部２０は、記憶部１１に記憶された、人物や建物等の様々なパターンのテンプレートを用いて、静止画像やフレームに対しパターンマッチング処理等を施して主要被写体の画像領域を検出する。ＣＰＵ１０は、検出された主要被写体の画像領域の大きさや位置等を被写体情報として取得する。

【0024】

シーン判定部２１は、公知の手法を用いて静止画像やフレームに撮像された被写界のシーンを判定する。なお、シーン判定部２１は、読み込んだ静止画像や動画のヘッダ領域に撮像時のシーンモード情報を有する場合、そのシーンモード情報に基づいてシーンを判定する。

【0025】

記憶部１１は、制御プログラムや再生処理プログラム等、およびデジタルカメラ（不図示）から読み込んだ画像を記録する。記憶部１１に記憶されるプログラムや画像等は、バス１３を介して、ＣＰＵ１０から適宜参照することができる。記憶部１１には、一般的なハードディスク装置、光磁気ディスク装置等の記憶装置を選択して用いることができる。なお、記憶部１１は、コンピュータ１００に組み込まれるとしたが、外付けの記憶装置でもよい。この場合、記憶部１１は、入出力Ｉ／Ｆ１２を介してコンピュータ１００に接続される。

【0026】

次に、図２のフローチャートを参照しつつ、本実施形態のコンピュータ１００による再生処理について説明する。なお、本実施形態では、処理対象とする画像を、図３（ａ）に示すような人物３０を含む被写界４０が撮像された静止画像とする。ただし、図３（ｂ）は、上記静止画像の撮像後の被写界４０を示し、自動車３２は、撮像時点では被写界４０の外側であるが、人物３０に接近しているものとする。

【0027】

ユーザは、入力装置１５を用いて、再生処理プログラムのコマンドを入力、または出力装置１４に表示されたそのプログラムのアイコンをダブルクリック等することにより、再生処理プログラムの起動をＣＰＵ１０に指示する。ＣＰＵ１０は、その指示を入出力Ｉ／Ｆ１２を介して受け付け、記憶部１１に記憶されている再生処理プログラムを読み込み実行する。ＣＰＵ１０は、ステップＳ１０１からの処理を開始する。

【0028】

ステップＳ１０１：ＣＰＵ１０は、入力装置１４を介して、ユーザにより指定された静止画像を、記憶部１１または入出力Ｉ／Ｆ１２を介してデジタルカメラ（不図示）から読み込む。

【0029】

ステップＳ１０２：被写体検出部２０は、読み込んだ静止画像から人物３０の顔領域や建物３１の画像領域を検出する。ＣＰＵ１０は、検出された各主要被写体の画像領域の大きさや位置等を、静止画像のヘッダ領域に付加された各主要被写体の被写体距離Ｄと合わせて被写体情報として取得する。

【0030】

ステップＳ１０３：ＣＰＵ１０は、特許文献１等の公知の手法を用いて、静止画像に付加されたステレオ録音の音声データから、その音声データに含まれる音声それぞれの音源の方向を求め、音源ごとの音声信号を抽出し各音源の音声データを生成する。本実施形態では、音源として、人物３０の音声、建物３１から流れる音楽、および接近する自動車３２のエンジン音の音源があり、ＣＰＵ１０は、それらの音源の音声データを生成するものとする。また、ＣＰＵ１０は、それらの音源が静止画像上のどこに位置するかを、被写体情報および各音源の方向に基づいて特定し、各音源の方向と特定された位置とからなる位置情報を生成する。ＣＰＵ１０は、音源ごとの音声データおよび位置情報を、上記被写体情報と対応付けて不図示の内部メモリに記録する。

【0031】

なお、図３（ａ）に示すように、自動車３２は、静止画像の画角内にないことから、自動車３２の被写体情報の画像領域の大きさや位置、被写体距離Ｄ（ｉ）は、画角外を示す所定の値または無限遠等に設定されているものとする。

【0032】

ステップＳ１０４：ＣＰＵ１０は、各音源の音声データを再生する際の音量を、後述する静止画像に撮像されたシーンに応じて設定するために、各音源が静止画像の画角内に存在するか否かを、静止画像の画角と各音源の位置情報とに基づいて判定する。ＣＰＵ１０は、音源が画角内の場合、その音源のフラグUseFlag（ｉ）を１に設定する。一方、ＣＰＵ１０は、音源が画角外の場合、フラグUseFlag（ｉ）を０と設定する。ここで、係数ｉは各音源を示し、本実施形態では、人物３０をｉ＝０、建物３１をｉ＝１、自動車３２をｉ＝２とする。

【0033】

ステップＳ１０５：シーン判定部２１は、静止画像に撮像されたシーンを判定し、ＣＰＵ１０は、シーン判定部２１の判定結果に応じて、再生時の各音源の重み付けをする。なお、本実施形態のシーン判定部２１が判定するシーンは、「スナップ」、「ポートレート」または「風景」のいずれかとする。それぞれのシーンにおけるＣＰＵ１０による各音源の重み付けの設定について説明する。
Ａ）「スナップ」の場合
ＣＰＵ１０は、再生時の各音源の重み付けを、静止画像の撮像時における合焦領域、例えば、人物３０の顔領域からの静止画像上の距離Ｌに応じて変化する重み係数ＷＴ（ｉ）＝α／Ｌとして設定する。係数αは所定の値が設定される。なお、音源が静止画像の画角外の場合、すなわち自動車３２の距離Ｌは、所定の値または無限遠等に設定されているものとする。
Ｂ）「ポートレート」の場合
ＣＰＵ１０は、人物からの音源の重み係数ＷＴ（ｉ）が最も大きな値になるように設定する。例えば、ＣＰＵ１０は、人物３０の重み係数ＷＴ（ｉ）を１に設定し、建物３１および自動車３２の重み係数ＷＴ（ｉ）を０．５に設定する。
Ｃ）「風景」の場合
ＣＰＵ１０は、人物以外からの音源の重み係数ＷＴ（ｉ）が大きな値となるように設定する。例えば、ＣＰＵ１０は、人物３０の重み係数ＷＴ（ｉ）を０．２に設定し、建物３１および自動車３２の重み係数ＷＴ（ｉ）を１に設定する。

【0034】

なお、各シーンにおける重み係数ＷＴ（ｉ）の値および設定方法は一例であり、他の値または他の設定方法で設定してもよい。例えば、「ポートレート」の場合、人物３０との距離に反比例するように、建物３１や自動車３２の重み係数ＷＴ（ｉ）が設定されてもよい。

【0035】

ステップＳ１０６：ＣＰＵ１０は、ステップＳ１０５で設定された各音源の重み係数ＷＴ（ｉ）を用いて、再生時の各音源の音量を決める増幅率ＡＭＰ（ｉ）を次式（１）に基づいて算出し、再生制御データとして生成する。
ＡＭＰ（ｉ）＝UseFlag（ｉ）×ＷＴ（ｉ）／（β×Ｄ（ｉ））・・・（１）
ここで、係数βは、各主要被写体の被写体距離Ｄ（ｉ）を規格化する係数である。

【0036】

ステップＳ１０７：ＣＰＵ１０は、音源ごとに音声データと再生制御データの増幅率ＡＭＰ（ｉ）との積を計算して、各音源の再生用音声データを生成する。ＣＰＵ１０は、静止画像を出力装置１４の液晶モニタに再生表示するとともに、出力装置１４のスピーカに各音源の再生用音声データを音声として出力する。ＣＰＵ１０は、一連の処理を終了する。

【0037】

なお、処理対象の画像が動画の場合、コンピュータ１００は、動画の各フレームに対し図２に示す再生処理を施す。すなわち、コンピュータ１００は、動画の全フレームに対してステップＳ１０２〜ステップＳ１０５の処理を施した後、ステップＳ１０６へ移行して、各フレームにおける音源ごとの増幅率ＡＭＰを算出し、再生制御データを生成する。

【0038】

このように、本実施形態では、撮像された画像のシーンに応じて各音源の重み係数を設定することにより、各音源の音声データに効果や演出を施して再生することができる。
《他の実施形態》
本発明の他の実施形態に係るコンピュータは、図１に示す一の実施形態に係るコンピュータ１００と同じであり、各構成要素についての詳細な説明は省略する。

【0039】

本実施形態のコンピュータ１００と一の実施形態のものとの相違点は、１）処理対象となる画像は動画のみであり、２）コンピュータ１００は、動画の再生において、撮影者視点か被写体視点かに応じて各音源の音声データの重み係数ＷＴを設定する再生モードを有する点にある。ここで、再生モードの撮影者視点モードとは、デジタルカメラ（不図示）の撮影者が聞くような音声で各音源の音声データを再生するモードであり、被写体視点モードとは、主要被写体の位置で聞こえるような音声で各音源の音声データを再生するモードである。また、処理対象となる画像は動画のみとなることに伴い、本実施形態のＣＰＵ１０は、再生プログラムを実行することにより、図４に示すように、被写体検出部２０とともに、動きベクトル算出部２２として動作する。

【0040】

ベクトル算出部２２は、動画を撮像したデジタルカメラ（不図示）のパンニングに伴う動きをフレーム動きとして検出しフレームの動きベクトルを算出するとともに、主要被写体の動きを検出し主要被写体の動きベクトルを算出する。具体的には、動きベクトル算出部２２は、動画の隣接する２つのフレームに公知の相関処理を施す。動きベクトル算出部２２は、その相関結果に基づいて、例えば、被写体検出部２０により検出された主要被写体の画像領域を除いた背景の画像領域における２つのフレーム間のズレ量から、フレーム動きを検出しフレームの動きベクトルを算出する。一方、動きベクトル算出部２２は、背景の画像領域のズレ量と主要被写体の画像領域のズレ量とに基づいて、主要被写体の動きを検出しその主要被写体の動きベクトルを算出する。

【0041】

次に、図５のフローチャートを参照しつつ、本実施形態のコンピュータ１００の再生処理について説明する。なお、本実施形態での処理対象の動画は、図３に示す被写界４０を撮像したものである。図６（ａ）〜（ｃ）は、その動画のフレームのうち、連続する３フレームを一例として示す。すなわち、図６（ａ）〜（ｃ）は、ｋ番目、ｋ＋１番目およびｋ＋２番目のフレームを示す（ｋは自然数）。ただし、図６（ａ）、（ｂ）は、人物３０を追従するようにデジタルカメラ（不図示）をパンニングして撮像されたフレームとする。また、図６（ｃ）は、左側から現れた自動車３３が画像中心となるようにデジタルカメラ（不図示）をパンニングして撮像されたフレームとする。

【0042】

【0043】

ステップＳ２０１：ＣＰＵ１０は、入力装置１４を介して、ユーザにより指定された動画を、記憶部１１または入出力Ｉ／Ｆ１２を介してデジタルカメラ（不図示）から読み込む。なお、ＣＰＵ１０は、再生したい動画の指定とともに、再生モードの指定も受け付けることが好ましい。

【0044】

ステップＳ２０２：被写体検出部２０は、読み込んだ動画の各フレームから人物３０等の画像領域を検出する。ＣＰＵ１０は、検出された各主要被写体の画像領域の大きさや位置等を、動画のヘッダ領域に付加された各主要被写体の被写体距離Ｄと合わせて被写体情報として取得する。

【0045】

ステップＳ２０３：ＣＰＵ１０は、特許文献１等の公知の手法を用いて、動画に付加されたステレオ録音の音声データから、その音声データに含まれる音声それぞれの音源の方向を求め、音源ごとの音声信号を抽出し各音源の音声データを生成する。また、ＣＰＵ１０は、それらの音源が各フレーム上のどこに位置するかを、被写体情報および各音源の方向に基づいて特定し、各フレームにおける各音源の方向と特定された位置とからなる位置情報を生成する。ＣＰＵ１０は、音源ごとの音声データおよび位置情報を、上記被写体情報と対応付けて不図示の内部メモリに記録する。

【0046】

ステップＳ２０４：動きベクトル算出部２２は、隣接する２つのフレームに対して相関処理を施し、背景の画像領域におけるズレ量から、フレーム動きを検出しフレームの動きベクトルを算出する。また、動きベクトル算出部２２は、背景の画像領域のズレ量と各主要被写体の画像領域におけるズレ量とから、各主要被写体の動きベクトルを算出する。ＣＰＵ１０は、算出されたフレームおよび各主要被写体の動きベクトルを、各フレームに対応付けて不図示の内部メモリに記録する。

【0047】

ステップＳ２０５：ＣＰＵ１０は、再生モードとして撮影者視点モードに設定されているか否かを判定する。ＣＰＵ１０は、撮影者視点モードに設定されている場合、ステップＳ２０６（ＹＥＳ側）へ移行し、被写体視点モードに設定されている場合、ステップＳ２０７（ＮＯ側）へ移行する。

【0048】

ステップＳ２０６：ＣＰＵ１０は、撮影者視点モードの場合、デジタルカメラ（不図示）の撮影者が聞くような音声で各音源の音声データを再生するために、例えば、ｍ番目のフレームにおけるフレームの動きベクトルおよび各音源の位置情報に基づいて、ｍ番目のフレームにおける各音源の重み係数ＷＴ（ｍ，ｉ）を設定する。具体的には次のように設定する。

【0049】

図７（ａ）〜（ｃ）は、図６（ａ）〜（ｃ）に示すｋ番目、ｋ＋１番目、ｋ＋２番目のフレームにおけるフレームの動きベクトルの向きを、各フレームの中心に矢印で示す。また、図８（ａ）は、各フレームにおいて、フレームの動きベクトルの向きおよび各音源の位置情報に基づいて設定された、各音源の重み係数ＷＴ（ｍ，ｉ）の一覧を示す。なお、撮影者視点モードでは、フレームの動きベクトルの向きに一致し、フレームの中心に近い音源ほど大きな値の重み係数が設定される。

【0050】

すなわち、ｋ番目およびｋ＋１番目のフレームは、人物３０がフレームの中心に来るように撮像されたものであることから、図８（ａ）に示すように、人物３０の重み係数が一番大きな値に設定される。また、建物３１および自動車３２は、フレームの動きベクトルの向いた側にあり、且つ人物３０に近づくことから、建物３１および自動車３２の重み係数は、ｋ番目よりもｋ＋１番目のフレーム方が大きな値に設定される。一方、自動車３３は、ｋ番目およびｋ＋１番目のフレームでは画角外で、フレームの動きベクトルの向きとは反対側であることから、重み係数は小さい値のままに設定される。

【0051】

一方、ｋ＋２番目のフレームは、自動車３３がフレームの中心に来るようにデジタルカメラ（不図示）がパンニングされて撮像されたものであることから、自動車３３の重み係数が一番大きな値に設定される。一方、人物３０、建物３１および自動車３２は、フレームの動きベクトルの向きとは反対側であることから、それぞれの重み係数は、ｋ番目およびｋ＋１番目のフレームに比べて小さな値に設定される。

【0052】

なお、図８（ａ）に示す各フレームにおける音源ごとの重み係数ＷＴ（ｍ，ｉ）の値および値の設定方法は一例であり、主要被写体の数、フレームの動きベクトルの大きさや向き等に応じて適宜設定されることが好ましい。

【0053】

ステップＳ２０７：ＣＰＵ１０は、被写体視点モードの場合、例えば、人物３０が聞くような音声で各音源の音声データを再生するために、人物３０の動きベクトルの向きおよび各音源の位置情報に基づいて、ｍ番目のフレームにおける各音源の重み係数ＷＴ（ｍ，ｉ）を設定する。具体的には次のように設定する。

【0054】

図９（ａ）〜（ｃ）は、図７の場合と同様に、図６（ａ）〜（ｃ）に示すｋ番目、ｋ＋１番目、ｋ＋２番目のフレームにおける人物３０の動きベクトルの向きを、各フレームの中心に矢印で示す。また、図８（ｂ）は、各フレームにおいて、人物３０の動きベクトルの向きおよび各音源の位置情報に基づいて設定された、各音源の重み係数ＷＴ（ｍ，ｉ）の一覧を示す。なお、被写体視点モードでは、人物の動きベクトルの向きに一致し、人物３０に近い音源ほど大きな値の重み係数が設定される。

【0055】

すなわち、ｋ番目からｋ＋２番目のフレームにおける人物３０の動きベクトルは同じ向きであり、建物３１および自動車３２は人物３０に近づくことから、図８（ｂ）に示すように、建物３１および自動車３２の重み係数は、ｋ番目からｋ＋２番目のフレームに従い大きな値に設定される。一方、自動車３３は、ｋ番目とｋ＋１番目とのフレームにおいて画角外であることから、０．１と小さな値の重み係数に設定されている。また、自動車３３は、ｋ＋２番目のフレームの画角内で人物３０に接近しているが、人物３０の動きベクトルの向きと反対側であることから、他の音源の重み係数より小さな値に設定される。

【0056】

なお、被写体視点モードでは、人物３０自身が聞くような音声で各音源の音声データを再生することから、図８（ｂ）に示すように、人物３０自身の音声は小さな音量で再生されるように、例えば、０．５等の所定の値の重み係数が予め設定される。

【0057】

また、図８（ｂ）に示す各フレームにおける音源ごとの重み係数ＷＴ（ｍ，ｉ）の値および値の設定方法は一例であり、主要被写体の数、主要被写体の動きベクトルの大きさや向き等に応じて適宜設定されることが好ましい。

【0058】

ステップＳ２０８：ＣＰＵ１０は、ステップＳ２０６またはステップＳ２０７において設定したｍ番目のフレームにおける各音源の重み係数ＷＴ（ｍ，ｉ）を、次式（２）を用いて、ｍ番目のフレームを含む隣接するＮ枚（＜動画のフレーム総数）のフレームにおける重み係数を時間軸方向に加重平均する。

【0059】

【数1】

【0060】

ここで、係数ε（ｊ）は、ｊ番目のフレームにおける音源の重み係数がｍ番目のフレームに対して寄与する度合いを示し、ｊ＝ｍの時、最も寄与するように設定される。また、用いられるフレーム数Ｎは１０枚程度以下とし、加重平均の範囲ｊは、ｍからｍ＋Ｎ−１、ｍ−Ｎ＋１からｍ、またはｍ−Ｎ／２からｍ＋Ｎ／２等と適宜選択して行うことが好ましい。この加重平均により、ＣＰＵ１０は、各音源の音量をなめらかに変化させることができる。

【0061】

ステップＳ２０９：ＣＰＵ１０は、ステップＳ２０８で加重平均された重み係数＜ＷＴ（ｍ，ｉ）＞を用いて、再生時の各フレームにおける各音源の音量を決める増幅率ＡＭＰ（ｍ，ｉ）を、次式（３）を用いて算出し再生制御データを生成する。
ＡＭＰ（ｍ，ｉ）＝＜ＷＴ（ｍ，ｉ）＞／（β×Ｄ（ｍ，ｉ））・・・（３）
ここで、係数βは、ｍ番目のフレームにおける各被写体距離Ｄ（ｍ，ｉ）を規格化する係数である。

【0062】

ステップＳ２１０：ＣＰＵ１０は、音源ごとに音声データと再生制御データの増幅率ＡＭＰ（ｍ，ｉ）との積を計算して、各音源の再生用音声データを生成する。

【0063】

ステップＳ２１１：ＣＰＵ１０は、出力装置１４の液晶モニタに再生表示するとともに、出力装置１４のスピーカに各音源の再生用音声データを音声として出力する。ＣＰＵ１０は、一連の処理を終了する。

【0064】

このように、本実施形態では、撮像された各フレームにおけるフレームまたは主要被写体の動きベクトルに応じて各音源の重み係数を設定することにより、各音源の音声データに効果や演出を施して再生することができる。
《実施形態の補足事項》
（１）本発明の再生処理装置は、再生処理プログラムをコンピュータ１００に実行させることにより実現させたが、本発明はこれに限定されない。本発明に係る再生処理装置における処理をコンピュータ１００で実現するための再生処理プログラムおよびそれを記録した媒体に対しても適用可能である。

【0065】

また、本発明の再生処理プログラムを有したデジタルカメラに対しても適用可能である。なお、デジタルカメラが本発明の画像処理装置として動作する場合、ＣＰＵ１０は、被写体検出部２０、シーン判定部２１および動きベクトル算出部２２の各処理をソフトウエア的に実現してもよいし、ＡＳＩＣを用いてこれらの各処理をハードウエア的に実現してもよい。この場合、デジタルカメラにより撮像された静止画像や動画のヘッダ領域には、露出条件とともに、被写体情報、音声データ、位置情報および再生制御データが付加されることが好ましい。なお、ヘッダ領域に付加される音声データは、音源ごとに抽出されたものでもよいし、抽出する前のステレオ録音されたものでもよい。

【0066】

（２）上記実施形態では、コンピュータ１００が、各音源の音声データの再生とともに、静止画像や動画を再生表示したが、本発明はこれに限定されず、各音源の音声データのみ再生してもよい。

【0067】

（３）上記実施形態では、シーン判定結果または再生モードに応じて、各音源の重み係数を設定し再生制御データおよび再生音声データを生成したが、本発明はこれに限定されない。例えば、ＣＰＵ１０は、フレームや主要被写体の動きベクトルに基づいて、ドップラー効果等を考慮して再生制御データおよび再生音声データを生成してもよい。

【0068】

（４）上記他の実施形態では、動きベクトル算出部２２が、隣接する２つのフレームに対する相関処理に基づいて、フレームおよび各主要被写体の動きベクトルを算出したが、本発明はこれに限定されない。例えば、H.264等の動画形式で動画圧縮された動画の場合には、圧縮効率を高めるために、フレーム間予測における動き補償において動きベクトルが算出される。そこで、動きベクトル算出部２２は、その動きベクトルに基づいて、フレームおよび各主要被写体の動きベクトルを求めてもよい。

【0069】

また、被写体追尾機能により検出した被写体の動きを用いて動きベクトルを算出してもよい。

【0070】

また、デジタルカメラ（不図示）が加速度センサや電子ジャイロ等のセンサを備える場合、動きベクトル算出部２２は、そのセンサの出力値に基づいて、フレームの動きベクトルを算出してもよい。

【0071】

（５）上記他の実施形態では、被写体視点モードにおいて、追従する主要被写体を人物３０としたが、本発明はこれに限定されず、建物３１や自動車３２等の主要被写体を追従してもよい。

【0072】

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図する。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずであり、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物によることも可能である。

【符号の説明】

【0073】

１０ＣＰＵ、１１記憶部、１２入出力Ｉ／Ｆ、１３バス、１４出力装置、１５入力装置、２０被写体検出部、２１シーン判定部、２２動きベクトル算出部、１００コンピュータ

【図1】