特開2023-146131 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2023-146131音声映像データ同期処理装置および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023146131

(43)【公開日】2023-10-12

(54)【発明の名称】音声映像データ同期処理装置および方法

(51)【国際特許分類】

H04N 5/93 20060101AFI20231004BHJP

H04N 5/92 20060101ALI20231004BHJP

H04N 23/60 20230101ALI20231004BHJP

H04N 21/24 20110101ALI20231004BHJP

H04N 21/8547 20110101ALI20231004BHJP

H04N 5/04 20060101ALI20231004BHJP

H04L 7/00 20060101ALI20231004BHJP

【ＦＩ】

H04N5/93

H04N5/92 010

H04N5/232 300

H04N21/24

H04N21/8547

H04N5/04 Z

H04L7/00 990

【審査請求】未請求

【請求項の数】3

【出願形態】ＯＬ

(21)【出願番号】P 2022053156

(22)【出願日】2022-03-29

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110000121

【氏名又は名称】ＩＡＴ弁理士法人

(72)【発明者】

【氏名】田替藤哲雄

(72)【発明者】

【氏名】奥田知之

(72)【発明者】

【氏名】加納尚幸

(72)【発明者】

【氏名】長瀬芳伸

(72)【発明者】

【氏名】松村謙太郎

【テーマコード（参考）】

5C053

5C122

5C164

5K047

【Ｆターム（参考）】

5C053GB06

5C053HA01

5C053JA21

5C053LA01

5C053LA14

5C122DA21

5C122EA06

5C122EA42

5C122EA61

5C122FA18

5C122FH18

5C122FJ01

5C122FJ04

5C122FK39

5C122FK41

5C122FK42

5C122GC52

5C122HA01

5C122HA04

5C122HB01

5C122HB05

5C164FA29

5C164MC06P

5C164SA26S

5C164SB41P

5C164YA30

5K047AA01

5K047AA18

5K047DD01

5K047DD02

(57)【要約】

【課題】同期した映像を得ることのできる音声映像データ同期処理装置および方法を提供する。
【解決手段】複数の撮影手段により撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得し、取得した音声映像データに基づいて、音声の起点となる位置を特定し、起点となる位置と取得した音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点となる位置から複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出し、取得した音声映像データのそれぞれについて、算出した音声到達時間に応じて音声と映像のタイミングを補正し、タイミング補正された複数の撮影手段により撮影された音声映像データの映像を、音声のタイミングを基準として同期させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の撮影手段により撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得するデータ取得部と、
前記データ取得部が取得した前記複数の撮影手段により撮影された音声映像データに基づいて、音声の起点となる位置を特定する位置特定部と、
前記起点となる位置と前記データ取得部が取得した前記複数の撮影手段により撮影された音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、前記起点となる位置から前記複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出する時間算出部と、
前記データ取得部が取得した前記複数の撮影手段により撮影された音声映像データのそれぞれについて、前記時間算出部により算出された音声到達時間に応じて音声と映像のタイミングを補正する補正処理部と、
前記補正処理部によりタイミング補正された前記複数の撮影手段により撮影された音声映像データの映像を、音声のタイミングを基準として同期させる同期処理部と
を備えた音声映像データ同期処理装置。

【請求項2】

請求項１記載の音声映像データ同期処理装置において、
前記起点となる位置は、前記複数の撮影手段により撮影された音声映像データの被写体の位置であることを特徴とする音声映像データ同期処理装置。

【請求項3】

複数の撮影手段により撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得し、
取得した前記複数の撮影手段により撮影された音声映像データに基づいて、音声の起点となる位置を特定し、
前記起点となる位置と取得した前記複数の撮影手段により撮影された音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、前記起点となる位置から前記複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出し、
取得した前記複数の撮影手段により撮影された音声映像データのそれぞれについて、算出した音声到達時間に応じて音声と映像のタイミングを補正し、
タイミング補正された前記複数の撮影手段により撮影された音声映像データの映像を、音声のタイミングを基準として同期させる
音声映像データ同期処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声映像データを同期処理する装置および方法に関し、特に、複数の撮影手段により撮影された音声映像データを同期させる音声映像データ同期処理装置および方法に関する。

【背景技術】

【0002】

複数の撮影手段により撮影された音声映像データを、パノラマ、視点切り替え、あるいは３Ｄ（three dimensions）映像として合成する場合がある。

【0003】

具体的な例として、ゴルフのクラブでゴルフボールを打つプレーヤのスイング動作を複数のビデオカメラで撮影し、得られた複数の映像を同期させて再生する場合を説明する。例えば、ゴルフコースを一緒に回る組のメンバーがそれぞれビデオカメラを各自のサンバイザーに装着し、互いを撮影するものとする。互いに撮影して得られた映像を同一画面にスイング動作を表示させるとき、それらの映像に少しでも同期ズレがあると違和感が発生してしまう。特に、スイング確認のためのスロー再生時は、同期ズレの影響が大きくなってしまう。

【0004】

特許文献１には、複数のマイクとネットワークが接続され、時刻同期した複数のビデオカメラによる車外映像について、音声到達の時刻差により音源の方向を算出する技術が開示されている。特許文献２には、複数のカメラの映像について、カメラの時計を利用して時間軸を合わせることが開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１３－２３９９３８号公報

【0006】

【特許文献2】特開２００３－７８８６４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１の技術では、ネットワークを介して取得した時刻同期を利用している。特許文献２に開示の技術では、音波形や映像の顕著な変化を利用している。

【0008】

しかし、例えばゴルフ場での撮影では、ネットワークに接続して時刻を同期させることや、通信により互いに同期をとるカメラを使用することは想定されておらず、複数のカメラ間の時間を合わせることは困難である。

【0009】

本発明は、このような課題を解決し、複数の撮影手段によりそれぞれ撮影された音声映像データから同期した映像を得ることのできる音声映像データ同期処理装置および方法を提供することを目的とする。

【課題を解決するための手段】

【0010】

本発明の第一の側面によると、それぞれに撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある複数の音声映像データを取得するデータ取得部と、このデータ取得部が取得した複数の音声映像データから、音声の起点となる位置（起点位置）を特定する位置特定部と、起点位置と複数の音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点位置から複数の音声映像データのそれぞれの位置情報により表される位置への音声到達に要する時間（音声到達時間）を算出する時間算出部と、複数の音声映像データのそれぞれについて、音声到達時間に応じて音声と映像のタイミングを補正する補正処理部と、タイミング補正された複数の音声映像データの映像を、音声のタイミングを基準として同期させる同期処理部とを備えた音声映像データ同期処理装置が提供される。

【0011】

本発明の第二の側面によると、それぞれに撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある複数の音声映像データを取得し、取得した複数の音声映像データから、音声の起点となる位置（起点位置）を特定し、この起点位置と複数の音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点位置から複数の音声映像データのそれぞれの位置情報により表される位置への音声到達に要する時間を算出し、複数の音声映像データのそれぞれについて、音声到達に要する時間に応じて音声と映像のタイミングを補正し、タイミング補正された複数の音声映像データの映像を、音声のタイミングを基準として同期させる音声映像データ同期処理方法が提供される。

【発明の効果】

【0012】

本発明によれば、複数の映像の時間ズレの補正を自動化することができ、これにより、正確性と時間および手間の短縮、データの共有化および可視化が可能となる。

【図面の簡単な説明】

【0013】

【図1】図１は、本発明の実施形態に係る音声映像データ同期処理装置のブロック構成図である。

【図2】図２は、音声映像データの表示映像例を示す図である。

【図3】図３は、音声映像データ同期処理の流れを示すフローチャートである。

【図4】図４は、ゴルフコースを一緒に回るある組のメンバーＰのプレイ状況の例を示す図である。

【図5】図５は、複数のビデオカメラにより撮影された音声映像データの一例を示す図である。

【図6】図６は、図５に示した音声映像データの音声と映像のタイミングを補正した状態を示す図である。

【図7】図７は、図６に示す音声映像データを同期させた後の状態を示す図である。

【発明を実施するための形態】

【0014】

以下、図面を参照して、本発明の実施形態について説明する。

【0015】

図１は、本発明の一実施形態である音声映像データ同期処理装置１の構成例を示すブロック図である。音声映像データ同期処理装置１は、複数のビデオカメラＷａ，Ｗｂ・・・（以下、個々に区別する必要がない場合、ビデオカメラＷと称する。他の場合も同様である。）により撮影された音声映像データを同期させて表示装置１７に表示させる。図２は、その表示例である。この表示例では、５つの同期した映像（５つのビデオカメラＷによりそれぞれ撮影された映像）を、１つをメイン映像、４つをサブ映像として表示している。このように複数のビデオカメラＷにより撮影された音声映像データをそれぞれ同期させて同時表示することで、例えば、クラブでゴルフボールを打つメンバー（プレーヤ）の様子をプレーヤ本人や他のメンバーがビデオカメラＷで撮影することにより、プレーヤ（被写体）を異なる角度から撮影した映像を同期して表示させることができる。その結果、スロー再生やコマ送り再生しても違和感がない、ゴルフショットの動作の分析に役立つ映像が得られる。

【0016】

音声映像データ同期処理装置１は、ＣＰＵ（Central Processing Unit）１１、バス１４、Ｉ/Ｏ（Input/Output）ポート１５、入力装置１６、表示装置１７、通信装置１８および記憶装置１９を有する。音声映像データ同期処理装置１は、ＣＰＵ１１の制御におけるプログラムや一時的なデータを記憶するＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などのメモリ媒体（不図示）を含んでもよい。ＣＰＵ１１は、バス１４を介して接続されている。バス１４には、Ｉ/Ｏ（Input/Output）ポート１５がさらに接続されている。Ｉ／Ｏポート１５には、入力装置１６、表示装置１７、通信装置１８および記憶装置１９が接続されている。

【0017】

入力装置１６は、音声映像データ同期処理装置１に各種データ、指令を入力するためのものである。入力装置１６は、例えばキーボードやマウスなどである。

【0018】

表示装置１７は、各種のデータを表示するものである。表示装置１７は、例えばＬＣＤ（Liquid Crystal Display）パネルや、ＥＬ（Electronic Luminescent）パネルなどである。

【0019】

通信装置１８は、ネットワーク２を介して、複数のビデオカメラＷと通信可能に構成されている。通信装置１８は、ビデオカメラＷから、ビデオカメラＷにより撮影された音声映像データを収集する。

【0020】

記憶装置１９には、通信装置１８より収集された、ビデオカメラＷにより撮影された音声映像データが記憶される。ここで「撮影」とは、映像を録画するだけでなく、音声も同時に録音することを意味する。記憶装置１９に記憶される音声映像データは、メモリカードなどの記憶媒体を経由して収集したものでもよい。

【0021】

記憶装置１９は、例えばハードディスクドライブである。記憶装置１９は、音声映像データ同期処理アプリケーションプログラム（以下、単に音声映像データ同期処理アプリケーションとも称する）や、音声映像データ同期処理アプリケーションの作動環境を形成するオペレーティングプログラムを記憶してもよい。記憶装置１９は、クラウド上の蓄積装置でもよい。

【0022】

ＣＰＵ１１は、記憶装置１９に記憶された音声映像データ同期処理アプリケーションを実行することで、データ取得部３１、位置特定部３２、時間算出部３３、補正処理部３４、同期処理部３５および合成処理部３６として機能する。

【0023】

データ取得部３１は、記憶装置１９から、ビデオカメラＷにより撮影された、時刻情報および位置情報が所定の範囲内にある音声映像データを同期処理対象のデータとして取得する。なお、ビデオカメラＷにより撮影された音声映像データを、適宜、ビデオカメラＷの音声映像データと称する。

【0024】

位置特定部３２は、データ取得部３１が取得したビデオカメラＷの音声映像データに基づいて、音声の起点となる位置（以下、起点位置と称する）を特定する。

【0025】

時間算出部３３は、位置特定部３２により特定された起点位置と、各ビデオカメラＷとの相対的な距離から、起点位置から各ビデオカメラＷの位置への音声到達に要する時間（以下、適宜、音声到達時間と称する）を算出する。

【0026】

補正処理部３４は、ビデオカメラＷの音声映像データのそれぞれについて、音声到達時間に応じて音声と映像のタイミングを補正する。

【0027】

同期処理部３５は、音声と映像のタイミングが補正されたビデオカメラＷの音声映像データの映像を、音声のタイミングを基準として同期させる。

【0028】

合成処理部３６は、同期したビデオカメラＷの音声映像データに基づいて、表示装置１７に同時表示させる（図２）。合成処理部は３６は、公知の画像処理によりパノラマ、視点切り替え、３Ｄ映像などの合成加工を実施し、表示装置１７に表示させてもよい。

【0029】

次に、音声映像データ同期処理装置１の音声映像データ同期処理を、図３のフローチャートを参照して説明する。この例では、ゴルフコースを回るメンバーのサンバイザーに取り付けられたそれぞれのビデオカメラＷによりプレイ中撮影が行われており、その撮影により得られた音声映像データが、記憶装置１９に蓄積されているものとする。

【0030】

なおビデオカメラＷは、カメラとマイクが一体型のものとする。またビデオカメラＷにより撮影された音声映像データにはそれぞれ、撮影時の時刻情報および位置情報を含む撮影情報が付加されているものとする。時刻情報については特に正確に時刻同期されていなくてもよい。また位置情報としてはＧＮＳＳ（Global Navigation Satellite System）などを利用した高精度なものであれば好適であるが特に限定しない。位置情報の取得が困難な場合、ビデオカメラのフォーカス機能による距離検出、映像解析による距離判定から、プレーヤと撮影位置との距離を算出して音声映像データに付加してもよい。音声映像データは、撮影条件などの付随情報を含んでいてもよい。

【0031】

ステップＳ１において、データ取得部３１は、記憶装置１９から、時刻情報および位置情報が所定の範囲内にある音声映像データを同期処理対象のデータとして取得する。ステップＳ１では、ゴルフコースを一緒に回ったある組のメンバーのそれぞれのビデオカメラＷにより撮影された音声映像データが、同期処理対象のデータとして記憶装置１９から抽出される。なお取得する時刻情報および位置情報の範囲は、用途に応じて予めデフォルト設定されていてもよく、適宜入力設定することもできる。

【0032】

次に、ステップＳ２において、位置特定部３２は、データ取得部３１が取得した音声映像データに基づいて、音声の起点となる起点位置を特定する。具体的には、例えば、ビデオカメラＷの音声映像データ毎に、クラブでゴルフボールを打った時に発生する打撃音が検出される。検出された打撃音の音量レベルが最も大きいまたは予め登録されている打撃音の波形と最も近い波形が録音されている音声映像データの位置情報が示す位置が起点位置とされる。

【0033】

図４は、ゴルフコースを一緒に回るある組のメンバーＰのプレイ状況の例を示す図である。図４の例は、メンバーＰａがプレーヤとして、クラブでゴルフボールを打ち、メンバーＰｂ，Ｐｃは、メンバーＰａ（プレーヤ）を見ている状態を示している。すなわちメンバーＰａのビデオカメラＷａとゴルフボール（図示せず）の距離が、他のメンバーＰｂ，ＰｃのビデオカメラＷｂ，Ｗｃとゴルフボールの距離より近いため、ビデオカメラＷａにより撮影された音声映像データには最も音量レベルが高い打撃音が録音されている。この場合、ビデオカメラＷａの音声映像データの、打撃音が記録されているタイミングにおける位置情報が示す位置が起点位置となる。

【0034】

図５は、図４に示したメンバーＰ等のビデオカメラＷで撮影された音声映像データを示す図である。図中、録画Ａｇ，Ｂｇ，Ｃｇ、および打撃音Ａｓ，Ｂｓ，Ｃｓ，Ｄｓは、メンバーＰａ（プレーヤー）がクラブでゴルフボールを打つ時の音声映像データを示す。また、録画Ａｇ１，Ｂｇ１，Ｃｇ１，および録音Ａｓ１，Ｂｓ１，Ｃｓ１は、メンバーＰａ（プレーヤー）がクラブでゴルフボールを打つ前の音声映像データを示す。録画Ａｇ２，Ｂｇ２，Ｃｇ２、および録音Ａｓ２，Ｂｓ２，Ｃｓ２は、メンバーＰａ（プレーヤー）がクラブでゴルフボールを打った後の音声映像データを示す。メンバーＰｄは、図４に示す範囲外のメンバーＰａから離れた場所に位置している。メンバーＰｄのビデオカメラＷｄは、飛翔中のゴルフボールおよびそのゴルフボールが落下する様子を撮影している。ビデオカメラＷｄは打撃音Ｄｓをかろうじて録音しているが、メンバーＰａ（プレーヤー）の方向にはビデオカメラＷｄを向けておらずメンバーＰａ（プレーヤー）の映像は録画されていない。音声映像データＤｇ２、Ｄｓ２は、いずれもメンバーＰａ（プレーヤー）がクラブでゴルフボールを打った後のものである。

【0035】

メンバーＰｂ，Ｐｃは、メンバーＰａがクラブでゴルフボールを打つ様子を見ているので、メンバーＰａがクラブでゴルフボールを打ったタイミングにおいては、ビデオカメラＷｂ，Ｗｃはその全体の風景を撮影している（録画Ｂｇ，Ｃｇ）。メンバーＰａはゴルフボールを打つタイミングにおいてはゴルフボールを見ているので、メンバーＰａがクラブでゴルフボールを打ったタイミングにおいては、ビデオカメラＷａはゴルフボール付近を撮影している（録画Ａｇ）。すなわちメンバーＰａがクラブでゴルフボールを打ったタイミングにおいては、ビデオカメラＷａの音声映像データに録画されているゴルフボールの大きさは、ビデオカメラＷｂ，Ｗｃの音声映像データに録画されているゴルフボールの大きさに比べて大きい。そこで、各ビデオカメラＷの音声映像データにおける打撃音が記録されている音声データに対応する映像データ（録画Ａｇ，Ｂｇ，Ｃｇ）を分析し、最も大きいゴルフボールが録画されている音声映像データのビデオカメラＷａの位置情報が示す位置を、起点位置とすることもできる。ゴルフボールの大きさは、比較対象との比率で判定してもよい。例えば、クラブの長さやプレーヤの頭の大きさとボールの直径の比率から、ボールの大きさを補正する。また、プレーヤ、比較対象が映っていない、すなわちプレーヤがボールを凝視している状況の映像の位置を起点位置としても良い。

【0036】

図４の例において、メンバーＰａ（プレーヤ）のビデオカメラＷａの位置情報が示す位置を起点位置とすることは、メンバーＰがその動きを写したい被写体（メンバーＰａ）の位置を起点としている、と言うことができる。

【0037】

起点位置を特定する方法は、上述した方法以外にも存在する。その他の方法については後述する。

【0038】

図３に戻り、ステップＳ３において、時間算出部３３は、位置特定部３２により特定された起点位置と、各ビデオカメラＷとの相対的な距離から、起点位置から各ビデオカメラＷの位置への音声到達に要する時間（音声到達時間）を算出する。具体的には、ビデオカメラＷの音声映像データのそれぞれの位置情報に示される位置と起点位置から、起点位置と各ビデオカメラＷとの距離が算出され、その距離に音速が除算されて音声到達時間が算出される。図４および図５の例では、ビデオカメラＷａの音声映像データの、打撃音が記録されたタイミングの位置情報が示す位置、すなわちビデオカメラＷａの位置である起点位置と、ビデオカメラＷｂ，Ｗｃ，Ｗｄの音声映像データの、打撃音が記録されたタイミングの位置情報が示す位置、すなわちビデオカメラＷｂ，Ｗｃ，Ｗｄの位置との距離がそれぞれ算出され、その距離に音速が除算されて音声到達時間が算出される。図４中、距離ｄ-abは起点位置とビデオカメラＷｂとの距離、距離ｄ-acは起点位置とビデオカメラＷｃとの距離を示している（ビデオカメラＷｄ，距離ｄ-adは不図示）。図５の例では、起点位置とビデオカメラＷｃの音声到達時間が時間Ｔ１、起点位置とビデオカメラＷｄの音声到達時間が時間Ｔ２の矢印の長さで示されている。起点位置とビデオカメラＷｂとの距離ｄ-abは小さいことから音声到達時間はゼロとされている。

【0039】

ステップＳ４において、補正処理部３４は、ビデオカメラＷの音声映像データのそれぞれについて、音声到達時間に応じて音声と映像のタイミングを補正する。これにより、ビデオカメラＷの音声映像データ毎に、音声、特に特徴のある音声あるいは特異な音声変化の発生タイミングと、その音声あるいは音声変化が発生したときの映像のタイミングとを一致させることができる。

【0040】

図６は、図５に示したビデオカメラＷの音声映像データ毎に、音声と映像のタイミングを補正した状態を示す図である。この例では、ビデオカメラＷｃにより撮影された音声映像データの音声データの時刻を時間Ｔ１だけ早くする補正が行われ、ビデオカメラＷｄにより撮影された音声映像データの音声データの時刻を時間Ｔ２だけ早くする補正が行われている。

【0041】

詳述すると、音が伝わる速度は光が伝わる速度に比べ遅いため、起点位置から離れているビデオカメラＷにより撮影された音声映像データでは、映像の録画タイミングに比べ音声の録音タイミングが遅れる。図４の例では、ビデオカメラＷｃが起点位置から距離ｄ-acだけ離れている。そのため図５に示すように、メンバーＰａ（プレーヤー）がクラブでゴルフボールを打った時の音声が、映像に比べ音声到達時間Ｔ１だけ遅れて録音される。そこで図６に示すように、音声到達時間Ｔ１分だけ音声の録音時刻を早くすることで、音声と映像のタイミングを一致させることができる。

【0042】

次に、ステップＳ５において、同期処理部３５は、音声と映像のタイミングが補正された、各ビデオカメラＷの音声映像データを、音声のタイミングを基準として同期させる。

【0043】

図７は、図６に示した、音声到達時間に応じて音声と映像のタイミングが補正された各ビデオカメラＷの音声映像データを、音声のタイミングを基準に同期させた状態を示す図である。タイミングが補正されたビデオカメラＷａ，Ｗｂ，Ｗｃ，Ｗｄの音声映像データを、ステップＳ２で検出した各音声映像データにおける録音データのボールの打撃音の時間位置が互いに一致するように、タイムラインが揃えられる。具体的には、各音声映像データにおける録音データのボールの打撃音の時間位置が互いに一致し、互いのデータ長が等しくなるように、各録画データおよび各録音データの前後にダミーデータ（図中、ハッチが示されている部分）が付加される。なおメンバーＰｃの録音データのように他よりタイミングの早いものなどは、重要なデータでないとして適宜その部分を削除しても良い。

【0044】

次に、ステップＳ６において、合成処理部３６は、同期した音声映像データに基づいて、表示装置１７に同時表示させる（図２）。図７に示すような同期後のタイムラインを合わせた音声映像データは、マルチチャンネルとして１つのデータとして扱うことができる。あるいは、それぞれの別のデータとして、同一のタイムラインを設定しても良い。このようなデータは、パノラマ、視点切り替え、あるいは３Ｄ映像などの合成にも容易に利用することができる。ダミーデータの部分に関しては、パノラマ、視点切り替え、あるいは３Ｄ処理を強制的にオフとし、存在するデータのみで再生を継続するモードとしても良い。

【0045】

＜起点位置を特定する方法＞
起点位置を特定する方法としては、以下の方法を単独あるいは任意に組み合わせて実施しても良い。
・撮影者の動作に伴うセンサ情報を音声映像データとともに取得し、スイング動作や、ボールを追う撮影動作に合致するなどの所定条件を満たすセンサ情報に基づいて音源の撮影位置を特定し、その位置を起点位置とする
・あらかじめ基準のビデオカメラを指定し、その位置または撮影ポイントを起点位置とする
・音声映像データの撮影位置とステレオマイクによる音源方向検出を行い、複数の映像データより推測して特定する
・例えば規定のティーショット領域など、ゴルフコースの地図情報に基づいて特定する
・映像に拡大されたボールが映る（ボールを凝視映像が映る）画像が録画されているビデオカメラの位置を起点位置とする
・映像に人物全体が映らない、人物が認識できない映像が録画されている、人物が下を向いている映像、またあるいはボールを打つ特定のプレーヤがカメラをポケットにしまうなどの動作により暗転等した映像が録画されているなどを条件に分析しビデオカメラの位置を起点位置とする
・ゴルフボールの大きさを画像解析して距離測定し、ゴルフボールと太陽などの光源方向などから撮影向きを推定し、各音声映像データの相対的な撮影位置関係を総合的に分析（例えば３点測量などによる方法）して起点位置を特定する

【0046】

＜到達時間の計算方法＞
音声到達時間の算出には、距離に加え、温度、湿度、または風向きによる音速の変化を考慮することもできる。

【0047】

＜音声映像データへの付随情報＞
同期された音声映像データには、以下に示す情報などを追加することもできる。角度や位置情報は、３Ｄ編集の画像、音声の合成におけるデータ加算の割合、移動速度の調整に用いることができる。
・算出された打撃音の特異点、個人、クラブやボールの種類の区別、あるいは特定された飛距離
・撮影した被写体との角度、位置情報

【0048】

（効果のまとめ）

【0049】

以上のように、音声映像データ同期処理装置１は、
複数のビデオカメラＷにより撮影された、撮影時の時刻情報および位置情報を含む撮影情報が付加された音声映像データであって、その時刻情報および位置情報が所定の範囲内にある音声映像データを取得する（ステップＳ１）データ取得部３１と、
データ取得部３１が取得した複数のビデオカメラＷにより撮影された音声映像データに基づいて、音声の起点となる位置を特定する（ステップＳ２）位置特定部３２と、
起点となる位置とデータ取得部が取得した複数のビデオカメラＷにより撮影された音声映像データのそれぞれの位置情報により示される位置との相対的な距離から、起点となる位置から複数の音声映像データのそれぞれの位置情報により示される位置への音声到達に要する時間を算出する（ステップＳ３）時間算出部３３と、
データ取得部３１が取得した複数のビデオカメラＷにより撮影された音声映像データのそれぞれについて、時間算出部により算出された音声到達時間に応じて音声と映像のタイミングを補正する（ステップＳ４）補正処理部３４と、
補正処理部３４によりタイミング補正された複数のビデオカメラＷにより撮影された音声映像データの映像を、音声のタイミングを基準として同期させる（ステップＳ５）同期処理部３５と
を備えている。

【0050】

すなわち、音声の起点とビデオカメラＷが離れていることから、ビデオカメラＷに音が届くのが遅れ、ビデオカメラＷにより録画されている画像と録音されている音声のタイミングがずれていても、音声の起点となる位置を特定し、ビデオカメラＷの距離に基づく音声到達時間に応じて音声と映像のタイミングを補正するようにしたので、例えば、撮影対象が映っていないビデオカメラＷの音声映像データが含まれていても、音声と映像のズレを好適に解消することができ、音声と映像のズレが解消した各ビデオカメラＷの音声映像データを同期させることができる。またそれぞれの音声画像データを利用して、ゴルフのハイライトシーンを切り貼り等してダイジェスト映像を作成することが容易にできる。さらにまたゴルフボールを打つプレーヤの映像、飛翔しているボールの映像、ボールの落下の映像をそれぞれのメンバーが撮影することで、一連の映像を同期させて表示させることができる。

【0051】

また起点となる位置は、複数のビデオカメラＷにより撮影された音声映像データの被写体の位置とするようにしたので、複数のビデオカメラＷにより撮影された音声映像データを、被写体の動きを基準として同期させることができる。すなわち、図４の例では、メンバーＰａのクラブでゴルフボールを打つ動作をいろんな角度で撮影した音声映像データを同期させることができる。

【符号の説明】

【0052】

１音声映像データ同期処理装置
１７表示装置
１９記憶装置
３１データ取得部
３２位置特定部
３３時間算出部
３４補正処理部
３５同期処理部
３６合成処理部

【図1】