IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特開2023-146131音声映像データ同期処理装置および方法
<>
  • 特開-音声映像データ同期処理装置および方法 図1
  • 特開-音声映像データ同期処理装置および方法 図2
  • 特開-音声映像データ同期処理装置および方法 図3
  • 特開-音声映像データ同期処理装置および方法 図4
  • 特開-音声映像データ同期処理装置および方法 図5
  • 特開-音声映像データ同期処理装置および方法 図6
  • 特開-音声映像データ同期処理装置および方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023146131
(43)【公開日】2023-10-12
(54)【発明の名称】音声映像データ同期処理装置および方法
(51)【国際特許分類】
   H04N 5/93 20060101AFI20231004BHJP
   H04N 5/92 20060101ALI20231004BHJP
   H04N 23/60 20230101ALI20231004BHJP
   H04N 21/24 20110101ALI20231004BHJP
   H04N 21/8547 20110101ALI20231004BHJP
   H04N 5/04 20060101ALI20231004BHJP
   H04L 7/00 20060101ALI20231004BHJP
【FI】
H04N5/93
H04N5/92 010
H04N5/232 300
H04N21/24
H04N21/8547
H04N5/04 Z
H04L7/00 990
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2022053156
(22)【出願日】2022-03-29
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110000121
【氏名又は名称】IAT弁理士法人
(72)【発明者】
【氏名】田替藤 哲雄
(72)【発明者】
【氏名】奥田 知之
(72)【発明者】
【氏名】加納 尚幸
(72)【発明者】
【氏名】長瀬 芳伸
(72)【発明者】
【氏名】松村 謙太郎
【テーマコード(参考)】
5C053
5C122
5C164
5K047
【Fターム(参考)】
5C053GB06
5C053HA01
5C053JA21
5C053LA01
5C053LA14
5C122DA21
5C122EA06
5C122EA42
5C122EA61
5C122FA18
5C122FH18
5C122FJ01
5C122FJ04
5C122FK39
5C122FK41
5C122FK42
5C122GC52
5C122HA01
5C122HA04
5C122HB01
5C122HB05
5C164FA29
5C164MC06P
5C164SA26S
5C164SB41P
5C164YA30
5K047AA01
5K047AA18
5K047DD01
5K047DD02
(57)【要約】
【課題】同期した映像を得ることのできる音声映像データ同期処理装置および方法を提供する。
【解決手段】複数の撮影手段により撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得し、取得した音声映像データに基づいて、音声の起点となる位置を特定し、起点となる位置と取得した音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点となる位置から複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出し、取得した音声映像データのそれぞれについて、算出した音声到達時間に応じて音声と映像のタイミングを補正し、タイミング補正された複数の撮影手段により撮影された音声映像データの映像を、音声のタイミングを基準として同期させる。
【選択図】 図1
【特許請求の範囲】
【請求項1】
複数の撮影手段により撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得するデータ取得部と、
前記データ取得部が取得した前記複数の撮影手段により撮影された音声映像データに基づいて、音声の起点となる位置を特定する位置特定部と、
前記起点となる位置と前記データ取得部が取得した前記複数の撮影手段により撮影された音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、前記起点となる位置から前記複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出する時間算出部と、
前記データ取得部が取得した前記複数の撮影手段により撮影された音声映像データのそれぞれについて、前記時間算出部により算出された音声到達時間に応じて音声と映像のタイミングを補正する補正処理部と、
前記補正処理部によりタイミング補正された前記複数の撮影手段により撮影された音声映像データの映像を、音声のタイミングを基準として同期させる同期処理部と
を備えた音声映像データ同期処理装置。
【請求項2】
請求項1記載の音声映像データ同期処理装置において、
前記起点となる位置は、前記複数の撮影手段により撮影された音声映像データの被写体の位置であることを特徴とする音声映像データ同期処理装置。
【請求項3】
複数の撮影手段により撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得し、
取得した前記複数の撮影手段により撮影された音声映像データに基づいて、音声の起点となる位置を特定し、
前記起点となる位置と取得した前記複数の撮影手段により撮影された音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、前記起点となる位置から前記複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出し、
取得した前記複数の撮影手段により撮影された音声映像データのそれぞれについて、算出した音声到達時間に応じて音声と映像のタイミングを補正し、
タイミング補正された前記複数の撮影手段により撮影された音声映像データの映像を、音声のタイミングを基準として同期させる
音声映像データ同期処理方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声映像データを同期処理する装置および方法に関し、特に、複数の撮影手段により撮影された音声映像データを同期させる音声映像データ同期処理装置および方法に関する。
【背景技術】
【0002】
複数の撮影手段により撮影された音声映像データを、パノラマ、視点切り替え、あるいは3D(three dimensions)映像として合成する場合がある。
【0003】
具体的な例として、ゴルフのクラブでゴルフボールを打つプレーヤのスイング動作を複数のビデオカメラで撮影し、得られた複数の映像を同期させて再生する場合を説明する。例えば、ゴルフコースを一緒に回る組のメンバーがそれぞれビデオカメラを各自のサンバイザーに装着し、互いを撮影するものとする。互いに撮影して得られた映像を同一画面にスイング動作を表示させるとき、それらの映像に少しでも同期ズレがあると違和感が発生してしまう。特に、スイング確認のためのスロー再生時は、同期ズレの影響が大きくなってしまう。
【0004】
特許文献1には、複数のマイクとネットワークが接続され、時刻同期した複数のビデオカメラによる車外映像について、音声到達の時刻差により音源の方向を算出する技術が開示されている。特許文献2には、複数のカメラの映像について、カメラの時計を利用して時間軸を合わせることが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2013-239938号公報
【0006】
【特許文献2】特開2003-78864号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1の技術では、ネットワークを介して取得した時刻同期を利用している。特許文献2に開示の技術では、音波形や映像の顕著な変化を利用している。
【0008】
しかし、例えばゴルフ場での撮影では、ネットワークに接続して時刻を同期させることや、通信により互いに同期をとるカメラを使用することは想定されておらず、複数のカメラ間の時間を合わせることは困難である。
【0009】
本発明は、このような課題を解決し、複数の撮影手段によりそれぞれ撮影された音声映像データから同期した映像を得ることのできる音声映像データ同期処理装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の第一の側面によると、それぞれに撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある複数の音声映像データを取得するデータ取得部と、このデータ取得部が取得した複数の音声映像データから、音声の起点となる位置(起点位置)を特定する位置特定部と、起点位置と複数の音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点位置から複数の音声映像データのそれぞれの位置情報により表される位置への音声到達に要する時間(音声到達時間)を算出する時間算出部と、複数の音声映像データのそれぞれについて、音声到達時間に応じて音声と映像のタイミングを補正する補正処理部と、タイミング補正された複数の音声映像データの映像を、音声のタイミングを基準として同期させる同期処理部とを備えた音声映像データ同期処理装置が提供される。
【0011】
本発明の第二の側面によると、それぞれに撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある複数の音声映像データを取得し、取得した複数の音声映像データから、音声の起点となる位置(起点位置)を特定し、この起点位置と複数の音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点位置から複数の音声映像データのそれぞれの位置情報により表される位置への音声到達に要する時間を算出し、複数の音声映像データのそれぞれについて、音声到達に要する時間に応じて音声と映像のタイミングを補正し、タイミング補正された複数の音声映像データの映像を、音声のタイミングを基準として同期させる音声映像データ同期処理方法が提供される。
【発明の効果】
【0012】
本発明によれば、複数の映像の時間ズレの補正を自動化することができ、これにより、正確性と時間および手間の短縮、データの共有化および可視化が可能となる。
【図面の簡単な説明】
【0013】
図1図1は、本発明の実施形態に係る音声映像データ同期処理装置のブロック構成図である。
図2図2は、音声映像データの表示映像例を示す図である。
図3図3は、音声映像データ同期処理の流れを示すフローチャートである。
図4図4は、ゴルフコースを一緒に回るある組のメンバーPのプレイ状況の例を示す図である。
図5図5は、複数のビデオカメラにより撮影された音声映像データの一例を示す図である。
図6図6は、図5に示した音声映像データの音声と映像のタイミングを補正した状態を示す図である。
図7図7は、図6に示す音声映像データを同期させた後の状態を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の実施形態について説明する。
【0015】
図1は、本発明の一実施形態である音声映像データ同期処理装置1の構成例を示すブロック図である。音声映像データ同期処理装置1は、複数のビデオカメラWa,Wb・・・(以下、個々に区別する必要がない場合、ビデオカメラWと称する。他の場合も同様である。)により撮影された音声映像データを同期させて表示装置17に表示させる。図2は、その表示例である。この表示例では、5つの同期した映像(5つのビデオカメラWによりそれぞれ撮影された映像)を、1つをメイン映像、4つをサブ映像として表示している。このように複数のビデオカメラWにより撮影された音声映像データをそれぞれ同期させて同時表示することで、例えば、クラブでゴルフボールを打つメンバー(プレーヤ)の様子をプレーヤ本人や他のメンバーがビデオカメラWで撮影することにより、プレーヤ(被写体)を異なる角度から撮影した映像を同期して表示させることができる。その結果、スロー再生やコマ送り再生しても違和感がない、ゴルフショットの動作の分析に役立つ映像が得られる。
【0016】
音声映像データ同期処理装置1は、CPU(Central Processing Unit)11、バス14、I/O(Input/Output)ポート15、入力装置16、表示装置17、通信装置18および記憶装置19を有する。音声映像データ同期処理装置1は、CPU11の制御におけるプログラムや一時的なデータを記憶するROM(Read Only Memory)、RAM(Random Access Memory)などのメモリ媒体(不図示)を含んでもよい。CPU11は、バス14を介して接続されている。バス14には、I/O(Input/Output)ポート15がさらに接続されている。I/Oポート15には、入力装置16、表示装置17、通信装置18および記憶装置19が接続されている。
【0017】
入力装置16は、音声映像データ同期処理装置1に各種データ、指令を入力するためのものである。入力装置16は、例えばキーボードやマウスなどである。
【0018】
表示装置17は、各種のデータを表示するものである。表示装置17は、例えばLCD(Liquid Crystal Display)パネルや、EL(Electronic Luminescent)パネルなどである。
【0019】
通信装置18は、ネットワーク2を介して、複数のビデオカメラWと通信可能に構成されている。通信装置18は、ビデオカメラWから、ビデオカメラWにより撮影された音声映像データを収集する。
【0020】
記憶装置19には、通信装置18より収集された、ビデオカメラWにより撮影された音声映像データが記憶される。ここで「撮影」とは、映像を録画するだけでなく、音声も同時に録音することを意味する。記憶装置19に記憶される音声映像データは、メモリカードなどの記憶媒体を経由して収集したものでもよい。
【0021】
記憶装置19は、例えばハードディスクドライブである。記憶装置19は、音声映像データ同期処理アプリケーションプログラム(以下、単に音声映像データ同期処理アプリケーションとも称する)や、音声映像データ同期処理アプリケーションの作動環境を形成するオペレーティングプログラムを記憶してもよい。記憶装置19は、クラウド上の蓄積装置でもよい。
【0022】
CPU11は、記憶装置19に記憶された音声映像データ同期処理アプリケーションを実行することで、データ取得部31、位置特定部32、時間算出部33、補正処理部34、同期処理部35および合成処理部36として機能する。
【0023】
データ取得部31は、記憶装置19から、ビデオカメラWにより撮影された、時刻情報および位置情報が所定の範囲内にある音声映像データを同期処理対象のデータとして取得する。なお、ビデオカメラWにより撮影された音声映像データを、適宜、ビデオカメラWの音声映像データと称する。
【0024】
位置特定部32は、データ取得部31が取得したビデオカメラWの音声映像データに基づいて、音声の起点となる位置(以下、起点位置と称する)を特定する。
【0025】
時間算出部33は、位置特定部32により特定された起点位置と、各ビデオカメラWとの相対的な距離から、起点位置から各ビデオカメラWの位置への音声到達に要する時間(以下、適宜、音声到達時間と称する)を算出する。
【0026】
補正処理部34は、ビデオカメラWの音声映像データのそれぞれについて、音声到達時間に応じて音声と映像のタイミングを補正する。
【0027】
同期処理部35は、音声と映像のタイミングが補正されたビデオカメラWの音声映像データの映像を、音声のタイミングを基準として同期させる。
【0028】
合成処理部36は、同期したビデオカメラWの音声映像データに基づいて、表示装置17に同時表示させる(図2)。合成処理部は36は、公知の画像処理によりパノラマ、視点切り替え、3D映像などの合成加工を実施し、表示装置17に表示させてもよい。
【0029】
次に、音声映像データ同期処理装置1の音声映像データ同期処理を、図3のフローチャートを参照して説明する。この例では、ゴルフコースを回るメンバーのサンバイザーに取り付けられたそれぞれのビデオカメラWによりプレイ中撮影が行われており、その撮影により得られた音声映像データが、記憶装置19に蓄積されているものとする。
【0030】
なおビデオカメラWは、カメラとマイクが一体型のものとする。またビデオカメラWにより撮影された音声映像データにはそれぞれ、撮影時の時刻情報および位置情報を含む撮影情報が付加されているものとする。時刻情報については特に正確に時刻同期されていなくてもよい。また位置情報としてはGNSS(Global Navigation Satellite System)などを利用した高精度なものであれば好適であるが特に限定しない。位置情報の取得が困難な場合、ビデオカメラのフォーカス機能による距離検出、映像解析による距離判定から、プレーヤと撮影位置との距離を算出して音声映像データに付加してもよい。音声映像データは、撮影条件などの付随情報を含んでいてもよい。
【0031】
ステップS1において、データ取得部31は、記憶装置19から、時刻情報および位置情報が所定の範囲内にある音声映像データを同期処理対象のデータとして取得する。ステップS1では、ゴルフコースを一緒に回ったある組のメンバーのそれぞれのビデオカメラWにより撮影された音声映像データが、同期処理対象のデータとして記憶装置19から抽出される。なお取得する時刻情報および位置情報の範囲は、用途に応じて予めデフォルト設定されていてもよく、適宜入力設定することもできる。
【0032】
次に、ステップS2において、位置特定部32は、データ取得部31が取得した音声映像データに基づいて、音声の起点となる起点位置を特定する。具体的には、例えば、ビデオカメラWの音声映像データ毎に、クラブでゴルフボールを打った時に発生する打撃音が検出される。検出された打撃音の音量レベルが最も大きいまたは予め登録されている打撃音の波形と最も近い波形が録音されている音声映像データの位置情報が示す位置が起点位置とされる。
【0033】
図4は、ゴルフコースを一緒に回るある組のメンバーPのプレイ状況の例を示す図である。図4の例は、メンバーPaがプレーヤとして、クラブでゴルフボールを打ち、メンバーPb,Pcは、メンバーPa(プレーヤ)を見ている状態を示している。すなわちメンバーPaのビデオカメラWaとゴルフボール(図示せず)の距離が、他のメンバーPb,PcのビデオカメラWb,Wcとゴルフボールの距離より近いため、ビデオカメラWaにより撮影された音声映像データには最も音量レベルが高い打撃音が録音されている。この場合、ビデオカメラWaの音声映像データの、打撃音が記録されているタイミングにおける位置情報が示す位置が起点位置となる。
【0034】
図5は、図4に示したメンバーP等のビデオカメラWで撮影された音声映像データを示す図である。図中、録画Ag,Bg,Cg、および打撃音As,Bs,Cs,Dsは、メンバーPa(プレーヤー)がクラブでゴルフボールを打つ時の音声映像データを示す。また、録画Ag1,Bg1,Cg1,および録音As1,Bs1,Cs1は、メンバーPa(プレーヤー)がクラブでゴルフボールを打つ前の音声映像データを示す。録画Ag2,Bg2,Cg2、および録音As2,Bs2,Cs2は、メンバーPa(プレーヤー)がクラブでゴルフボールを打った後の音声映像データを示す。メンバーPdは、図4に示す範囲外のメンバーPaから離れた場所に位置している。メンバーPdのビデオカメラWdは、飛翔中のゴルフボールおよびそのゴルフボールが落下する様子を撮影している。ビデオカメラWdは打撃音Dsをかろうじて録音しているが、メンバーPa(プレーヤー)の方向にはビデオカメラWdを向けておらずメンバーPa(プレーヤー)の映像は録画されていない。音声映像データDg2、Ds2は、いずれもメンバーPa(プレーヤー)がクラブでゴルフボールを打った後のものである。
【0035】
メンバーPb,Pcは、メンバーPaがクラブでゴルフボールを打つ様子を見ているので、メンバーPaがクラブでゴルフボールを打ったタイミングにおいては、ビデオカメラWb,Wcはその全体の風景を撮影している(録画Bg,Cg)。メンバーPaはゴルフボールを打つタイミングにおいてはゴルフボールを見ているので、メンバーPaがクラブでゴルフボールを打ったタイミングにおいては、ビデオカメラWaはゴルフボール付近を撮影している(録画Ag)。すなわちメンバーPaがクラブでゴルフボールを打ったタイミングにおいては、ビデオカメラWaの音声映像データに録画されているゴルフボールの大きさは、ビデオカメラWb,Wcの音声映像データに録画されているゴルフボールの大きさに比べて大きい。そこで、各ビデオカメラWの音声映像データにおける打撃音が記録されている音声データに対応する映像データ(録画Ag,Bg,Cg)を分析し、最も大きいゴルフボールが録画されている音声映像データのビデオカメラWaの位置情報が示す位置を、起点位置とすることもできる。ゴルフボールの大きさは、比較対象との比率で判定してもよい。例えば、クラブの長さやプレーヤの頭の大きさとボールの直径の比率から、ボールの大きさを補正する。また、プレーヤ、比較対象が映っていない、すなわちプレーヤがボールを凝視している状況の映像の位置を起点位置としても良い。
【0036】
図4の例において、メンバーPa(プレーヤ)のビデオカメラWaの位置情報が示す位置を起点位置とすることは、メンバーPがその動きを写したい被写体(メンバーPa)の位置を起点としている、と言うことができる。
【0037】
起点位置を特定する方法は、上述した方法以外にも存在する。その他の方法については後述する。
【0038】
図3に戻り、ステップS3において、時間算出部33は、位置特定部32により特定された起点位置と、各ビデオカメラWとの相対的な距離から、起点位置から各ビデオカメラWの位置への音声到達に要する時間(音声到達時間)を算出する。具体的には、ビデオカメラWの音声映像データのそれぞれの位置情報に示される位置と起点位置から、起点位置と各ビデオカメラWとの距離が算出され、その距離に音速が除算されて音声到達時間が算出される。図4および図5の例では、ビデオカメラWaの音声映像データの、打撃音が記録されたタイミングの位置情報が示す位置、すなわちビデオカメラWaの位置である起点位置と、ビデオカメラWb,Wc,Wdの音声映像データの、打撃音が記録されたタイミングの位置情報が示す位置、すなわちビデオカメラWb,Wc,Wdの位置との距離がそれぞれ算出され、その距離に音速が除算されて音声到達時間が算出される。図4中、距離d-abは起点位置とビデオカメラWbとの距離、距離d-acは起点位置とビデオカメラWcとの距離を示している(ビデオカメラWd,距離d-adは不図示)。図5の例では、起点位置とビデオカメラWcの音声到達時間が時間T1、起点位置とビデオカメラWdの音声到達時間が時間T2の矢印の長さで示されている。起点位置とビデオカメラWbとの距離d-abは小さいことから音声到達時間はゼロとされている。
【0039】
ステップS4において、補正処理部34は、ビデオカメラWの音声映像データのそれぞれについて、音声到達時間に応じて音声と映像のタイミングを補正する。これにより、ビデオカメラWの音声映像データ毎に、音声、特に特徴のある音声あるいは特異な音声変化の発生タイミングと、その音声あるいは音声変化が発生したときの映像のタイミングとを一致させることができる。
【0040】
図6は、図5に示したビデオカメラWの音声映像データ毎に、音声と映像のタイミングを補正した状態を示す図である。この例では、ビデオカメラWcにより撮影された音声映像データの音声データの時刻を時間T1だけ早くする補正が行われ、ビデオカメラWdにより撮影された音声映像データの音声データの時刻を時間T2だけ早くする補正が行われている。
【0041】
詳述すると、音が伝わる速度は光が伝わる速度に比べ遅いため、起点位置から離れているビデオカメラWにより撮影された音声映像データでは、映像の録画タイミングに比べ音声の録音タイミングが遅れる。図4の例では、ビデオカメラWcが起点位置から距離d-acだけ離れている。そのため図5に示すように、メンバーPa(プレーヤー)がクラブでゴルフボールを打った時の音声が、映像に比べ音声到達時間T1だけ遅れて録音される。そこで図6に示すように、音声到達時間T1分だけ音声の録音時刻を早くすることで、音声と映像のタイミングを一致させることができる。
【0042】
次に、ステップS5において、同期処理部35は、音声と映像のタイミングが補正された、各ビデオカメラWの音声映像データを、音声のタイミングを基準として同期させる。
【0043】
図7は、図6に示した、音声到達時間に応じて音声と映像のタイミングが補正された各ビデオカメラWの音声映像データを、音声のタイミングを基準に同期させた状態を示す図である。タイミングが補正されたビデオカメラWa,Wb,Wc,Wdの音声映像データを、ステップS2で検出した各音声映像データにおける録音データのボールの打撃音の時間位置が互いに一致するように、タイムラインが揃えられる。具体的には、各音声映像データにおける録音データのボールの打撃音の時間位置が互いに一致し、互いのデータ長が等しくなるように、各録画データおよび各録音データの前後にダミーデータ(図中、ハッチが示されている部分)が付加される。なおメンバーPcの録音データのように他よりタイミングの早いものなどは、重要なデータでないとして適宜その部分を削除しても良い。
【0044】
次に、ステップS6において、合成処理部36は、同期した音声映像データに基づいて、表示装置17に同時表示させる(図2)。図7に示すような同期後のタイムラインを合わせた音声映像データは、マルチチャンネルとして1つのデータとして扱うことができる。あるいは、それぞれの別のデータとして、同一のタイムラインを設定しても良い。このようなデータは、パノラマ、視点切り替え、あるいは3D映像などの合成にも容易に利用することができる。ダミーデータの部分に関しては、パノラマ、視点切り替え、あるいは3D処理を強制的にオフとし、存在するデータのみで再生を継続するモードとしても良い。
【0045】
<起点位置を特定する方法>
起点位置を特定する方法としては、以下の方法を単独あるいは任意に組み合わせて実施しても良い。
・撮影者の動作に伴うセンサ情報を音声映像データとともに取得し、スイング動作や、ボールを追う撮影動作に合致するなどの所定条件を満たすセンサ情報に基づいて音源の撮影位置を特定し、その位置を起点位置とする
・あらかじめ基準のビデオカメラを指定し、その位置または撮影ポイントを起点位置とする
・音声映像データの撮影位置とステレオマイクによる音源方向検出を行い、複数の映像データより推測して特定する
・例えば規定のティーショット領域など、ゴルフコースの地図情報に基づいて特定する
・映像に拡大されたボールが映る(ボールを凝視映像が映る)画像が録画されているビデオカメラの位置を起点位置とする
・映像に人物全体が映らない、人物が認識できない映像が録画されている、人物が下を向いている映像、またあるいはボールを打つ特定のプレーヤがカメラをポケットにしまうなどの動作により暗転等した映像が録画されているなどを条件に分析しビデオカメラの位置を起点位置とする
・ゴルフボールの大きさを画像解析して距離測定し、ゴルフボールと太陽などの光源方向などから撮影向きを推定し、各音声映像データの相対的な撮影位置関係を総合的に分析(例えば3点測量などによる方法)して起点位置を特定する
【0046】
<到達時間の計算方法>
音声到達時間の算出には、距離に加え、温度、湿度、または風向きによる音速の変化を考慮することもできる。
【0047】
<音声映像データへの付随情報>
同期された音声映像データには、以下に示す情報などを追加することもできる。角度や位置情報は、3D編集の画像、音声の合成におけるデータ加算の割合、移動速度の調整に用いることができる。
・算出された打撃音の特異点、個人、クラブやボールの種類の区別、あるいは特定された飛距離
・撮影した被写体との角度、位置情報
【0048】
(効果のまとめ)
【0049】
以上のように、音声映像データ同期処理装置1は、
複数のビデオカメラWにより撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得する(ステップS1)データ取得部31と、
データ取得部31が取得した複数のビデオカメラWにより撮影された音声映像データに基づいて、音声の起点となる位置を特定する(ステップS2)位置特定部32と、
起点となる位置とデータ取得部が取得した複数のビデオカメラWにより撮影された音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点となる位置から複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出する(ステップS3)時間算出部33と、
データ取得部31が取得した複数のビデオカメラWにより撮影された音声映像データのそれぞれについて、時間算出部により算出された音声到達時間に応じて音声と映像のタイミングを補正する(ステップS4)補正処理部34と、
補正処理部34によりタイミング補正された複数のビデオカメラWにより撮影された音声映像データの映像を、音声のタイミングを基準として同期させる(ステップS5)同期処理部35と
を備えている。
【0050】
すなわち、音声の起点とビデオカメラWが離れていることから、ビデオカメラWに音が届くのが遅れ、ビデオカメラWにより録画されている画像と録音されている音声のタイミングがずれていても、音声の起点となる位置を特定し、ビデオカメラWの距離に基づく音声到達時間に応じて音声と映像のタイミングを補正するようにしたので、例えば、撮影対象が映っていないビデオカメラWの音声映像データが含まれていても、音声と映像のズレを好適に解消することができ、音声と映像のズレが解消した各ビデオカメラWの音声映像データを同期させることができる。またそれぞれの音声画像データを利用して、ゴルフのハイライトシーンを切り貼り等してダイジェスト映像を作成することが容易にできる。さらにまたゴルフボールを打つプレーヤの映像、飛翔しているボールの映像、ボールの落下の映像をそれぞれのメンバーが撮影することで、一連の映像を同期させて表示させることができる。
【0051】
また起点となる位置は、複数のビデオカメラWにより撮影された音声映像データの被写体の位置とするようにしたので、複数のビデオカメラWにより撮影された音声映像データを、被写体の動きを基準として同期させることができる。すなわち、図4の例では、メンバーPaのクラブでゴルフボールを打つ動作をいろんな角度で撮影した音声映像データを同期させることができる。
【符号の説明】
【0052】
1 音声映像データ同期処理装置
17 表示装置
19 記憶装置
31 データ取得部
32 位置特定部
33 時間算出部
34 補正処理部
35 同期処理部
36 合成処理部
図1
図2
図3
図4
図5
図6
図7