特許7586326 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7586326メディア加工装置、メディア加工方法及びメディア加工プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】メディア加工装置、メディア加工方法及びメディア加工プログラム

(51)【国際特許分類】

H04N 21/44 20110101AFI20241112BHJP

H04N 7/14 20060101ALI20241112BHJP

【ＦＩ】

H04N21/44

H04N7/14

【請求項の数】 8

(21)【出願番号】P 2023532955

(86)(22)【出願日】2021-07-07

(86)【国際出願番号】 JP2021025654

(87)【国際公開番号】W WO2023281666

(87)【国際公開日】2023-01-12

【審査請求日】2023-11-21

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】井元麻衣子

(72)【発明者】

【氏名】深津真二

(72)【発明者】

【氏名】宮下広夢

【審査官】川中龍太

(56)【参考文献】

【文献】国際公開第２０１５／０６０３９３（ＷＯ，Ａ１）

【文献】特表２０１６－５２１４７０（ＪＰ，Ａ）

【文献】特開２０１０－１７１５９４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

Ｈ０４Ｎ７／１４－７／１５

(57)【特許請求の範囲】

【請求項1】

第１の拠点とは異なる第２の拠点のメディア加工装置であって、
前記第１の拠点でメディアが取得された第１の時刻及び前記メディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得されたメディアに関するパケットを前記第１の拠点の電子機器によって受信したことに伴う第２の時刻に基づく伝送遅延時間に関する通知を前記第１の拠点の電子機器から受信する第１の受信部と、
前記第１の拠点で取得された第１のメディアを格納したパケットを前記第１の拠点の電子機器から受信し、前記第１のメディアを提示装置に出力する第２の受信部と、
前記伝送遅延時間に基づく加工態様に応じて、前記第１のメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得された第２のメディアから第３のメディアを生成する加工部と、
前記第３のメディアを前記第１の拠点の電子機器に送信する送信部と、
を備えるメディア加工装置。

【請求項2】

前記伝送遅延時間は、前記第２の時刻と前記第１の時刻との差の値であり、
前記加工部は、前記差の値に基づき前記加工態様を変える、
請求項１に記載のメディア加工装置。

【請求項3】

第１の拠点とは異なる第２の拠点のメディア加工装置であって、
前記第１の拠点で第１の時刻に取得されたメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得されたメディアに関するパケットを第３の拠点の電子機器によって受信したことに伴う第２の時刻及び前記第１の拠点で前記第１の時刻に取得されたメディアを前記第３の拠点で再生された第３の時刻に基づく伝送遅延時間に関する通知を前記第３の拠点の電子機器から受信する第１の受信部と、
前記第１の拠点で取得された第１のメディアを格納したパケットを前記第１の拠点の電子機器から受信し、前記第１のメディアを提示装置に出力する第２の受信部と、
前記伝送遅延時間に基づく加工態様に応じて、前記第１のメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得された第２のメディアから第３のメディアを生成する加工部と、
前記第３のメディアを前記第３の拠点の電子機器に送信する送信部と、
を備えるメディア加工装置。

【請求項4】

前記伝送遅延時間は、前記第２の時刻と前記第３の時刻との差の値であり、
前記加工部は、前記差の値に基づき前記加工態様を変える、
請求項３に記載のメディア加工装置。

【請求項5】

前記加工部は、前記差の値が大きくなるにつれてメディアの質を下げるように前記加工態様を変える、請求項２又は４に記載のメディア加工装置。

【請求項6】

第１の拠点とは異なる第２の拠点のメディア加工装置によるメディア加工方法であって、
前記第１の拠点でメディアが取得された第１の時刻及び前記メディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得されたメディアに関するパケットを前記第１の拠点の電子機器によって受信したことに伴う第２の時刻に基づく伝送遅延時間に関する通知を前記第１の拠点の電子機器から受信することと、
前記第１の拠点で取得された第１のメディアを格納したパケットを前記第１の拠点の電子機器から受信することと、
前記第１のメディアを提示装置に出力することと、
前記伝送遅延時間に基づく加工態様に応じて、前記第１のメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得された第２のメディアから第３のメディアを生成することと、
前記第３のメディアを前記第１の拠点の電子機器に送信することと、
を備えるメディア加工方法。

【請求項7】

第１の拠点とは異なる第２の拠点のメディア加工装置によるメディア加工方法であって、
前記第１の拠点で第１の時刻に取得されたメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得されたメディアに関するパケットを第３の拠点の電子機器によって受信したことに伴う第２の時刻及び前記第１の拠点で前記第１の時刻に取得されたメディアを前記第３の拠点で再生された第３の時刻に基づく伝送遅延時間に関する通知を前記第３の拠点の電子機器から受信することと、
前記第１の拠点で取得された第１のメディアを格納したパケットを前記第１の拠点の電子機器から受信することと、
前記第１のメディアを提示装置に出力することと、
前記伝送遅延時間に基づく加工態様に応じて、前記第１のメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得された第２のメディアから第３のメディアを生成することと、
前記第３のメディアを前記第３の拠点の電子機器に送信することと、
を備えるメディア加工方法。

【請求項8】

請求項１乃至５の何れかのメディア加工装置が備える各部による処理をコンピュータに実行させるメディア加工プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明の一態様は、メディア加工装置、メディア加工方法及びメディア加工プログラムに関する。

【背景技術】

【0002】

近年、ある地点で撮影・収録された映像・音声をデジタル化してIP（Internet Protocol）ネットワーク等の通信回線を介して遠隔地にリアルタイム伝送し、遠隔地で映像・音声を再生する映像・音声再生装置が用いられるようになってきた。例えば、競技会場で行われているスポーツ競技試合の映像・音声やコンサート会場で行われている音楽コンサートの映像・音声を遠隔地にリアルタイム伝送するパブリックビューイング等が盛んに行われている。このような映像・音声の伝送は１対１の一方向伝送にとどまらない。スポーツ競技試合が行われている会場（以下、イベント会場とする）から映像・音声を複数の遠隔地に伝送し、それら複数の遠隔地でもそれぞれ観客がイベントを楽しんでいる映像や歓声等の音声を撮影・収録し、それらの映像・音声をイベント会場や他の遠隔地に伝送し、各拠点において大型映像表示装置やスピーカから出力する、というような双方向伝送も行なわれている。

【0003】

このような双方向での映像・音声の伝送により、イベント会場にいる選手（または演者）や観客、複数の遠隔地にいる視聴者らは、物理的に離れた場所にいるにも関わらず、あたかも同じ空間（イベント会場）にいて、同じ体験をしているかのような臨場感や一体感を得ることができる。

【0004】

IPネットワークによる映像・音声のリアルタイム伝送ではRTP（Real-time Transport Protocol）が用いられることが多いが、２拠点間でのデータ伝送時間は、その２拠点をつなぐ通信回線等により異なる。例えば、イベント会場Aで時刻Tに撮影・収録された映像・音声を２つの遠隔地Bおよび遠隔地Cに伝送し、遠隔地Bおよび遠隔地Cでそれぞれ撮影・収録された映像・音声をイベント会場Aに折り返し伝送する場合を考える。遠隔地Bにおいてイベント会場Aから伝送された、時刻Tに撮影・収録された映像・音声は時刻T_b1に再生され、遠隔地Bで時刻T_b1に撮影・収録された映像・音声はイベント会場Aに折り返し伝送され、イベント会場Aで時刻T_b2に再生される。このとき、遠隔地Cにおいてはイベント会場Aで時刻Tに撮影・収録され伝送された映像・音声は時刻T_c1（≠T_b1）に再生され、遠隔地Cで時刻T_c1に撮影・収録された映像・音声はベント会場Aに折り返し伝送され、イベント会場Aで時刻T_c2（≠T_b2）に再生される場合がある。

【0005】

このような場合、イベント会場Aにいる選手（または演者）や観客にとっては、時刻Tに自分自身が体験した出来事に対して、複数の遠隔地にいる視聴がどのような反応をしたかを示す映像・音声を、それぞれ異なる時刻（時刻T_b2と時刻T_c2）で視聴することになる。イベント会場Aにいる選手（または演者）や観客にとっては、自分自身との体験とのつながりの直感的な分かりづらさや不自然さを生じさせてしまい、遠隔地の観客との一体感を高めにくいことがある。また、遠隔地Cにおいてイベント会場Aから伝送される映像・音声と遠隔地Bから伝送される映像・音声をそれぞれ再生せるときにも、遠隔地Cにいる観客が前述したような直感的な分かりづらさや不自然さを感じてしまうことがある。

【0006】

このような直感的な分かりづらさや不自然さを解消するために、従来、イベント会場Aにおいて複数の遠隔地から伝送される複数の映像・複数の音声を同期させて再生させる方法が用いられる。映像・音声の再生タイミングを同期させる場合には、送信側・受信側がともに同じ時刻情報を管理するようにNTP（Network Time Protocol）やPTP（Precision Time Protocol）等を用いて時刻同期させ、送信時に映像・音声のデータをRTPパケットにパケット化する。このときに、映像・音声をサンプリングした瞬間の絶対時刻をRTPタイムスタンプとして付与し、受信側でその時刻情報に基づき映像と音声の少なくとも１つ以上の映像と音声を遅延させてタイミングを調整し、同期をとるのが一般的である（非特許文献１）。

【先行技術文献】

【非特許文献】

【0007】

【文献】IPネットワーク経由で配信される音響信号のための同期再生技術（徳元、池戸、金子、片岡、電子情報通信学会論文誌 D-II Vol. J87-D-II No.9 pp.1870-1883）

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、従来の映像・音声の再生同期方法では、もっとも遅延時間が大きい映像または音声に再生タイミングを合わせることになり、映像・音声の再生タイミングのリアルタイム性が失われるという課題があり、視聴者が感じる違和感を低減することは難しい。つまり、複数の拠点から異なる時刻に伝送される複数の映像・音声を再生するときに視聴者が感じる前述したような違和感を軽減するように映像・音声の再生を工夫する必要がある。また、複数の拠点から伝送される映像・音声のデータ伝送時間を短縮する必要がある。

【0009】

この発明は、上記事情に着目してなされたもので、その目的とするところは、複数の拠点から異なる時刻に伝送される複数の映像・音声が再生されるときに視聴者が感じる違和感を低減させる技術を提供することにある。

【課題を解決するための手段】

【0010】

この発明の一実施形態では、メディア加工装置は、第１の拠点とは異なる第２の拠点のメディア加工装置であって、前記第１の拠点でメディアが取得された第１の時刻及び前記メディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得されたメディアに関するパケットを前記第１の拠点の電子機器によって受信したことに伴う第２の時刻に基づく伝送遅延時間に関する通知を前記第１の拠点の電子機器から受信する第１の受信部と、前記第１の拠点で取得された第１のメディアを格納したパケットを前記第１の拠点の電子機器から受信し、前記第１のメディアを提示装置に出力する第２の受信部と、前記伝送遅延時間に基づく加工態様に応じて、前記第１のメディアを前記第２の拠点で再生する時刻に前記第２の拠点で取得された第２のメディアから第３のメディアを生成する加工部と、前記第３のメディアを前記第１の拠点の電子機器に送信する送信部と、を備える。

【発明の効果】

【0011】

この発明の一態様によれば、複数の拠点から異なる時刻に伝送される複数の映像・音声が再生されるときに視聴者が感じる違和感を低減させることができる。

【図面の簡単な説明】

【0012】

【図1】図１は、第１の実施形態に係るメディア加工システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。

【図2】図２は、第１の実施形態に係るメディア加工システムを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。

【図3】図３は、第１の実施形態に係る拠点R₁のサーバが備える映像時刻管理DBのデータ構造の一例を示す図である。

【図4】図４は、第１の実施形態に係る拠点R₁のサーバが備える音声時刻管理DBのデータ構造の一例を示す図である。

【図5】図５は、第１の実施形態に係る拠点Oにおけるサーバの映像処理手順と処理内容を示すフローチャートである。

【図6】図６は、第１の実施形態に係る拠点R₁におけるサーバの映像処理手順と処理内容を示すフローチャートである。

【図7】図７は、第１の実施形態に係る拠点Oにおけるサーバの映像V_signal1を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。

【図8】図８は、第１の実施形態に係る拠点R₁におけるサーバの映像V_signal1を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。

【図9】図９は、第１の実施形態に係る拠点R₁におけるサーバの提示時刻t₁の算出処理手順と処理内容を示すフローチャートである。

【図10】図１０は、第１の実施形態に係る拠点Oにおけるサーバの映像V_signal3を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。

【図11】図１１は、第１の実施形態に係る拠点OにおけるサーバのΔd_{x_video}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。

【図12】図１２は、第１の実施形態に係る拠点R₁におけるサーバのΔd_{x_video}を格納したRTCPパケットの受信処理手順と処理内容を示すフローチャートである。

【図13】図１３は、第１の実施形態に係る拠点R₁におけるサーバの映像V_signal2の加工処理手順と処理内容を示すフローチャートである。

【図14】図１４は、第１の実施形態に係る拠点R₁におけるサーバの映像V_signal3を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。

【図15】図１５は、第１の実施形態に係る拠点Oにおけるサーバの音声処理手順と処理内容を示すフローチャートである。

【図16】図１６は、第１の実施形態に係る拠点R₁におけるサーバの音声処理手順と処理内容を示すフローチャートである。

【図17】図１７は、第１の実施形態に係る拠点Oにおけるサーバの音声A_signal1を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。

【図18】図１８は、第１の実施形態に係る拠点R₁におけるサーバの音声A_signal1を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。

【図19】図１９は、第１の実施形態に係る拠点Oにおけるサーバの音声A_signal3を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。

【図20】図２０は、第１の実施形態に係る拠点OにおけるサーバのΔd_{x_audio}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。

【図21】図２１は、第１の実施形態に係る拠点R₁におけるサーバのΔd_{x_audio}を格納したRTCPパケットの受信処理手順と処理内容を示すフローチャートである。

【図22】図２２は、第１の実施形態に係る拠点R₁におけるサーバの音声A_signal2の加工処理手順と処理内容を示すフローチャートである。

【図23】図２３は、第１の実施形態に係る拠点R₁におけるサーバの音声A_signal3を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。

【図24】図２４は、第２の実施形態に係るメディア加工システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。

【図25】図２５は、第２の実施形態に係るメディア加工システムを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。

【図26】図２６は、第２の実施形態に係る拠点R₂のサーバが備える音声時刻管理DBのデータ構造の一例を示す図である。

【図27】図２７は、第２の実施形態に係る拠点R₁におけるサーバの映像処理手順と処理内容を示すフローチャートである。

【図28】図２８は、第２の実施形態に係る拠点R₂におけるサーバの映像処理手順と処理内容を示すフローチャートである。

【図29】図２９は、第２の実施形態に係る拠点R₂におけるサーバのΔd_{x_video}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。

【図30】図３０は、第２の実施形態に係る拠点R₁におけるサーバの音声処理手順と処理内容を示すフローチャートである。

【図31】図３１は、第２の実施形態に係る拠点R₂におけるサーバの音声処理手順と処理内容を示すフローチャートである。

【図32】図３２は、第２の実施形態に係る拠点R₂におけるサーバの音声A_signal1を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。

【図33】図３３は、第２の実施形態に係る拠点R₂におけるサーバの提示時刻t₂の算出処理手順と処理内容を示すフローチャートである。

【図34】図３４は、第２の実施形態に係る拠点R₂におけるサーバのΔd_{x_video}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。

【発明を実施するための形態】

【0013】

以下、図面を参照してこの発明に係るいくつかの実施形態を説明する。
競技会場又はコンサート会場等のイベント会場となる拠点Oにおいて映像・音声が撮影・収録された絶対時刻に対して一意に定まる時刻情報は、複数の遠隔地の拠点R₁～拠点R_n（nは２以上の整数）に伝送する映像・音声に付与される。拠点R₁～拠点R_nのそれぞれにおいて、当該時刻情報をもつ映像・音声が再生された時刻に撮影・収録された映像・音声は、当該時刻情報及び送信先拠点間とのデータ伝送時間に基づいて加工処理される。加工処理された映像・音声は、拠点O又は他の拠点Rに伝送される。

【0014】

時刻情報は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間で以下の何れかの手段により送受信される。時刻情報は、拠点R₁～拠点R_nのそれぞれで撮影・収録された映像・音声と対応付けられる。
（１）時刻情報は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間で送受信するRTPパケットのヘッダ拡張領域に格納される。例えば、時刻情報は、絶対時刻形式（hh:mm:ss.fff形式）であるが、ミリ秒形式であってもよい。
（２）時刻情報は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間で一定の間隔で送受信されるRTCP（RTP Control Protocol）におけるAPP（Application-Defined）を用いて記述される。この例では、時刻情報は、ミリ秒形式である。
（３）時刻情報は、伝送開始時に拠点Oと拠点R₁～拠点R_nのそれぞれとの間でやり取りさせる初期値パラメータを記述するSDP（Session Description Protocol）に格納される。この例では、時刻情報は、ミリ秒形式である。

【0015】

［第１の実施形態］
第１の実施形態は、拠点Oにおいて拠点R₁～拠点R_nから折り返し伝送される映像・音声を再生する実施形態である。

【0016】

映像・音声を加工処理するために用いる時刻情報は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間で送受信するRTPパケットのヘッダ拡張領域に格納される。例えば、時刻情報は、絶対時刻形式（hh:mm:ss.fff形式）である。RTPパケットは、パケットの一例である。

【0017】

映像と音声はそれぞれRTPパケット化して送受信するとして説明するが、これに限定されない。映像と音声は、同じ機能部・DB（データベース）で処理・管理されてもよい。映像と音声は、１つのRTPパケットにどちらも格納されて送受信されてもよい。映像及び音声は、メディアの一例である。

【0018】

（構成例）
図１は、第１の実施形態に係るメディア加工システムSに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。
メディア加工システムSは、拠点Oに含まれる複数の電子機器、拠点R₁～拠点R_nのそれぞれに含まれる複数の電子機器及び時刻配信サーバ１０を含む。各拠点の電子機器及び時刻配信サーバ１０は、IPネットワークを介して互いに通信可能である。

【0019】

拠点Oは、サーバ１、イベント映像撮影装置１０１、折り返し映像提示装置１０２、イベント音声収録装置１０３及び折り返し音声提示装置１０４を備える。拠点Oは、第１の拠点の一例である。

【0020】

サーバ１は、拠点Oに含まれる各電子機器を制御する電子機器である。
イベント映像撮影装置１０１は、拠点Oの映像を撮影するカメラを含む装置である。イベント映像撮影装置１０１は、映像撮影装置の一例である。
折り返し映像提示装置１０２は、拠点R₁～拠点R_nのそれぞれから拠点Oに折り返し伝送される映像を再生して表示するディスプレイを含む装置である。例えば、ディスプレイは、液晶ディスプレイである。折り返し映像提示装置１０２は、映像提示装置又は提示装置の一例である。
イベント音声収録装置１０３は、拠点Oの音声を収録するマイクを含む装置である。イベント音声収録装置１０３は、音声収録装置の一例である。
折り返し音声提示装置１０４は、拠点R₁～拠点R_nのそれぞれから拠点Oに折り返し伝送される音声を再生して出力するスピーカを含む装置である。折り返し音声提示装置１０４は、音声提示装置又は提示装置の一例である。

【0021】

サーバ１の構成例について説明する。
サーバ１は、制御部１１、プログラム記憶部１２、データ記憶部１３、通信インタフェース１４及び入出力インタフェース１５を備える。サーバ１が備える各要素は、バスを介して、互いに接続されている。

【0022】

制御部１１は、サーバ１の中枢部分に相当する。制御部１１は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）等のプロセッサを備える。制御部１１は、不揮発性のメモリ領域としてＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）を備える。制御部１１は、揮発性のメモリ領域としてＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を備える。プロセッサは、ＲＯＭ、又はプログラム記憶部１２に記憶されているプログラムをＲＡＭに展開する。プロセッサがＲＡＭに展開されるプログラムを実行することで、制御部１１は、後述する各機能部を実現する。制御部１１は、コンピュータを構成する。

【0023】

プログラム記憶部１２は、記憶媒体としてＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部１２は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部１２は、制御部１１に実現される後述する各機能部による処理をサーバ１に実行させるプログラムを記憶する。プログラム記憶部１２は、ストレージの一例である。

【0024】

データ記憶部１３は、記憶媒体としてＨＤＤ、又はＳＳＤ等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部１３は、ストレージ、又は記憶部の一例である。

【0025】

通信インタフェース１４は、IPネットワークにより定義される通信プロトコルを使用して、サーバ１を他の電子機器と通信可能に接続する種々のインタフェースを含む。

【0026】

入出力インタフェース１５は、サーバ１とイベント映像撮影装置１０１、折り返し映像提示装置１０２、イベント音声収録装置１０３及び折り返し音声提示装置１０４のそれぞれとの通信を可能にするインタフェースである。入出力インタフェース１５は、有線通信のインタフェースを備えていてもいいし、無線通信のインタフェースを備えていてもよい。

【0027】

なお、サーバ１のハードウェア構成は、上述の構成に限定されるものではない。サーバ１は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。

【0028】

拠点R₁は、サーバ２、映像提示装置２０１、オフセット映像撮影装置２０２、折り返し映像撮影装置２０３、音声提示装置２０４及び折り返し音声収録装置２０５を備える。拠点R₁は、第１の拠点とは異なる第２の拠点の一例である。

【0029】

サーバ２は、拠点R₁に含まれる各電子機器を制御する電子機器である。サーバ２は、メディア加工装置の一例である。
映像提示装置２０１は、拠点Oから拠点R₁に伝送される映像を再生して表示するディスプレイを含む装置である。映像提示装置２０１は、提示装置の一例である。
オフセット映像撮影装置２０２は、撮影時刻を記録可能な装置である。オフセット映像撮影装置２０２は、映像提示装置２０１の映像表示領域全体を撮影できるように設置されたカメラを含む装置である。オフセット映像撮影装置２０２は、映像撮影装置の一例である。
折り返し映像撮影装置２０３は、拠点R₁の映像を撮影するカメラを含む装置である。例えば、折り返し映像撮影装置２０３は、拠点Oから拠点R₁に伝送される映像を再生して表示する映像提示装置２０１の設置された拠点R₁の様子の映像を撮影する。折り返し映像撮影装置２０３は、映像撮影装置の一例である。
音声提示装置２０４は、拠点Oから拠点R₁に伝送される音声を再生して出力するスピーカを含む装置である。音声提示装置２０４は、提示装置の一例である。
折り返し音声収録装置２０５は、拠点R₁の音声を収録するマイクを含む装置である。例えば、折り返し音声収録装置２０５は、拠点Oから拠点R₁に伝送される音声を再生して出力する音声提示装置２０４の設置された拠点R₁の様子の音声を収録する。折り返し音声収録装置２０５は、音声収録装置の一例である。

【0030】

サーバ２の構成例について説明する。
サーバ２は、制御部２１、プログラム記憶部２２、データ記憶部２３、通信インタフェース２４及び入出力インタフェース２５を備える。サーバ２が備える各要素は、バスを介して、互いに接続されている。
制御部２１は、制御部１１と同様に構成され得る。プロセッサは、ＲＯＭ、又はプログラム記憶部２２に記憶されているプログラムをＲＡＭに展開する。プロセッサがＲＡＭに展開されるプログラムを実行することで、制御部２１は、後述する各機能部を実現する。制御部２１は、コンピュータを構成する。
プログラム記憶部２２は、プログラム記憶部１２と同様に構成され得る。
データ記憶部２３は、データ記憶部１３と同様に構成され得る。
通信インタフェース２４は、通信インタフェース１４と同様に構成され得る。通信インタフェース１４は、サーバ２を他の電子機器と通信可能に接続する種々のインタフェースを含む。
入出力インタフェース２５は、入出力インタフェース１５と同様に構成され得る。入出力インタフェース２５は、サーバ２と映像提示装置２０１、オフセット映像撮影装置２０２、折り返し映像撮影装置２０３、音声提示装置２０４及び折り返し音声収録装置２０５のそれぞれとの通信を可能にする。
なお、サーバ２のハードウェア構成は、上述の構成に限定されるものではない。サーバ２は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。
なお、拠点R₂～拠点R_nのそれぞれに含まれる複数の電子機器のハードウェア構成は、上述の拠点R₁と同様であるので、その説明を省略する。

【0031】

時刻配信サーバ１０は、基準システムクロックを管理する電子機器である。基準システムクロックは、絶対時刻である。

【0032】

図２は、第１の実施形態に係るメディア加工システムSを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。

【0033】

サーバ１は、時刻管理部１１１、イベント映像送信部１１２、折り返し映像受信部１１３、映像加工通知部１１４、イベント音声送信部１１５、折り返し音声受信部１１６及び音声加工通知部１１７を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。

【0034】

時刻管理部１１１は、時刻配信サーバ１０と公知のNTPやPTP等のプロトコルを用いて時刻同期を行い、基準システムクロックを管理する。時刻管理部１１１は、サーバ２が管理する基準システムクロックと同一の基準システムクロックを管理する。時刻管理部１１１が管理する基準システムクロックと、サーバ２が管理する基準システムクロックとは、時刻同期している。

【0035】

イベント映像送信部１１２は、IPネットワークを介して、イベント映像撮影装置１０１から出力される映像V_signal1を格納したRTPパケットを拠点R₁～拠点R_nのそれぞれのサーバに送信する。映像V_signal1は、拠点Oで絶対時刻である時刻T_videoに取得された映像である。映像V_signal1を取得することは、イベント映像撮影装置１０１が映像V_signal1を撮影することを含む。映像V_signal1を取得することは、イベント映像撮影装置１０１が撮影した映像V_signal1をサンプリングすることを含む。映像V_signal1を格納したRTPパケットは、時刻T_videoを付与されている。時刻T_videoは、拠点Oで映像V_signal1が取得された時刻である。映像V_signal1は、第１の映像の一例である。時刻T_videoは、第１の時刻の一例である。RTPパケットは、パケットの一例である。

【0036】

折り返し映像受信部１１３は、IPネットワークを介して、映像V_signal2から生成された映像V_signal3を格納したRTPパケットを拠点R₁～拠点R_nのそれぞれのサーバから受信する。映像V_signal2は、映像V_signal1を拠点R₁～拠点R_nの何れかの拠点で再生する時刻にこの拠点で取得された映像である。映像V_signal2を取得することは、折り返し映像撮影装置２０３が映像V_signal2を撮影することを含む。映像V_signal2を取得することは、折り返し映像撮影装置２０３が撮影した映像V_signal2をサンプリングすることを含む。映像V_signal2は、第２の映像の一例である。映像V_signal3は、Δd_{x_video}に基づく加工態様に応じて拠点R₁～拠点R_nのそれぞれのサーバにより映像V_signal2から生成された映像である。映像V_signal3は、第３の映像の一例である。映像V_signal3を格納したRTPパケットは、時刻T_videoを付与されている。映像V_signal3は映像V_signal2から生成されるので、映像V_signal3を格納したRTPパケットは、映像V_signal2に関するパケットの一例である。Δd_{x_video}は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間のデータ伝送遅延に関する値である。Δd_{x_video}は、伝送遅延時間の一例である。Δd_{x_video}は、拠点R₁～拠点R_nのそれぞれで異なる。

【0037】

映像加工通知部１１４は、拠点R₁～拠点R_nのそれぞれについてΔd_{x_video}を生成し、Δd_{x_video}を格納したRTCPパケットを拠点R₁～拠点R_nのそれぞれのサーバに送信する。Δd_{x_video}を格納したRTCPパケットは、伝送遅延時間に関する通知の一例である。RTCPパケットは、パケットの一例である。

【0038】

イベント音声送信部１１５は、IPネットワークを介して、イベント音声収録装置１０３から出力される音声A_signal1を格納したRTPパケットを拠点R₁～拠点R_nのそれぞれのサーバに送信する。音声A_signal1は、拠点Oで絶対時刻である時刻T_audioに取得された音声である。音声A_signal1を取得することは、イベント音声収録装置１０３が音声A_signal1を収録することを含む。音声A_signal1を取得することは、イベント音声収録装置１０３が収録した音声A_signal1をサンプリングすることを含む。音声A_signal1を格納したRTPパケットは、時刻T_audioを付与されている。時刻T_audioは、拠点Oで音声A_signal1が取得された時刻である。音声A_signal1は、第１の音声の一例である。時刻T_audioは、第１の時刻の一例である。

【0039】

折り返し音声受信部１１６は、IPネットワークを介して、音声A_signal2から生成された音声A_signal3を格納したRTPパケットを拠点R₁～拠点R_nのそれぞれのサーバから受信する。音声A_signal2は、音声A_signal1を拠点R₁～拠点R_nの何れかの拠点で再生する時刻にこの拠点で取得された音声である。音声A_signal2を取得することは、折り返し音声収録装置２０５が音声A_signal2を収録することを含む。音声A_signal2を取得することは、折り返し音声収録装置２０５が収録した音声A_signal2をサンプリングすることを含む。音声A_signal2は、第２の音声の一例である。音声A_signal3は、Δd_{x_audio}に基づく加工態様に応じて拠点R₁～拠点R_nのそれぞれのサーバにより音声A_signal2から生成された音声である。音声A_signal3は、第３の音声の一例である。音声A_signal3を格納したRTPパケットは、時刻T_audioを付与されている。音声A_signal3は音声A_signal2から生成されるので、音声A_signal3を格納したRTPパケットは、音声A_signal2に関するパケットの一例である。Δd_{x_audio}は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間のデータ伝送遅延に関する値である。Δd_{x_ audio}は、伝送遅延時間の一例である。Δd_{x_ audio}は、拠点R₁～拠点R_nのそれぞれで異なる。

【0040】

音声加工通知部１１７は、拠点R₁～拠点R_nのそれぞれについてΔd_{x_ audio}を生成し、Δd_{x_ audio}を格納したRTCPパケットを拠点R₁～拠点R_nのそれぞれのサーバに送信する。Δd_{x_ audio}を格納したRTCPパケットは、伝送遅延時間に関する通知の一例である。

【0041】

サーバ２は、時刻管理部２１０１、イベント映像受信部２１０２、映像オフセット算出部２１０３、映像加工受信部２１０４、折り返し映像加工部２１０５、折り返し映像送信部２１０６、イベント音声受信部２１０７、音声加工受信部２１０８、折り返し音声加工部２１０９、折り返し音声送信部２１１０、映像時刻管理DB２３１及び音声時刻管理DB２３２を備える。各機能部は、制御部２１によるプログラムの実行によって実現される。各機能部は、制御部２１又はプロセッサが備えるということもできる。各機能部は、制御部２１又はプロセッサと読み替え可能である。映像時刻管理DB２３１及び音声時刻管理DB２３２は、データ記憶部２３によって実現される。

【0042】

時刻管理部２１０１は、時刻配信サーバ１０と公知のNTPやPTP等のプロトコルを用いて時刻同期を行い、基準システムクロックを管理する。時刻管理部２１０１は、サーバ１が管理する基準システムクロックと同一の基準システムクロックを管理する。時刻管理部２１０１が管理する基準システムクロックと、サーバ１が管理する基準システムクロックとは、時刻同期している。

【0043】

イベント映像受信部２１０２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットをサーバ１から受信する。イベント映像受信部２１０２は、映像V_signal1を映像提示装置２０１に出力する。イベント映像受信部２１０２は、第２の受信部の一例である。
映像オフセット算出部２１０３は、映像提示装置２０１で映像V_signal1を再生された絶対時刻である提示時刻t₁を算出する。映像オフセット算出部２１０３は、算出部の一例である
映像加工受信部２１０４は、Δd_{x_video}を格納したRTCPパケットをサーバ１から受信する。映像加工受信部２１０４は、第１の受信部の一例である。
折り返し映像加工部２１０５は、Δd_{x_video}に基づく加工態様に応じて、映像V_signal2から映像V_signal3を生成する。折り返し映像加工部２１０５は、加工部の一例である。
折り返し映像送信部２１０６は、IPネットワークを介して、映像V_signal3を格納したRTPパケットをサーバ１に送信する。映像V_signal3を格納したRTPパケットは、映像V_signal2が撮影された絶対時刻である時刻tと一致する提示時刻t₁に関連付けられた時刻T_videoを含む。折り返し映像送信部２１０６は、送信部の一例である。

【0044】

イベント音声受信部２１０７は、IPネットワークを介して、音声A_signal1を格納したRTPパケットをサーバ１から受信する。イベント音声受信部２１０７は、音声A_signal1を音声提示装置２０４に出力する。イベント音声受信部２１０７は、第２の受信部の一例である。
音声加工受信部２１０８は、Δd_{x_audio}を格納したRTCPパケットをサーバ１から受信する。音声加工受信部２１０８は、第１の受信部の一例である。
折り返し音声加工部２１０９は、Δd_{x_audio}に基づく加工態様に応じて、音声A_signal2から音声A_signal3を生成する。折り返し音声加工部２１０９は、加工部の一例である。
折り返し音声送信部２１１０は、IPネットワークを介して、音声A_signal3を格納したRTPパケットをサーバ１に送信する。音声A_signal3を格納したRTPパケットは、時刻T_audioを含む。折り返し音声送信部２１１０は、送信部の一例である。

【0045】

図３は、第１の実施形態に係る拠点R₁のサーバ２が備える映像時刻管理DB２３１のデータ構造の一例を示す図である。
映像時刻管理DB２３１は、映像オフセット算出部２１０３から取得した時刻T_videoと提示時刻t₁とを関連付けて格納するDBである。
映像時刻管理DB２３１は、映像同期基準時刻カラムと提示時刻カラムとを備える。映像同期基準時刻カラムは、時刻T_videoを格納する。提示時刻カラムは、提示時刻t₁を格納する。

【0046】

図４は、第１の実施形態に係る拠点R₁のサーバ２が備える音声時刻管理DB２３２のデータ構造の一例を示す図である。
音声時刻管理DB２３２は、イベント音声受信部２１０７から取得した時刻T_audioと音声A_signal1とを関連付けて格納するDBである。
音声時刻管理DB２３２は、音声同期基準時刻カラムと音声データカラムとを備える。音声同期基準時刻カラムは、時刻T_audioを格納する。音声データカラムは、音声A_signal1を格納する。

【0047】

なお、拠点R₂～拠点R_nの各サーバは、拠点R₁のサーバ１と同様の機能部及びDBを含み、拠点R₁のサーバ１と同様の処理を実行する。拠点R₂～拠点R_nの各サーバに含まれる機能部の処理フローやDB構造の説明は省略する。

【0048】

（動作例）
以下では、拠点O及び拠点R₁の動作を例にして説明する。拠点R₂～拠点R_nの動作は、拠点R₁の動作と同様であってもよく、その説明を省略する。拠点R₁の表記は、拠点R₂～拠点R_nと読み替えてもよい。

【0049】

（１）折り返し映像の加工再生
拠点Oにおけるサーバ１の映像処理について説明する。
図５は、第１の実施形態に係る拠点Oにおけるサーバ１の映像処理手順と処理内容を示すフローチャートである。
イベント映像送信部１１２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットを拠点R₁のサーバ２に送信する（ステップＳ１１）。ステップＳ１１の処理の典型例については後述する。
折り返し映像受信部１１３は、IPネットワークを介して、映像V_signal3を格納したRTPパケットを拠点R₁のサーバ２から受信する（ステップＳ１２）。ステップＳ１２の処理の典型例については後述する。
映像加工通知部１１４は、拠点R₁についてΔd_{x_video}を生成し、Δd_{x_video}を格納したRTCPパケットを拠点R₁のサーバ２に送信する。（ステップＳ１３）。ステップＳ１３の処理の典型例については後述する。

【0050】

拠点R₁におけるサーバ２の映像処理について説明する。
図６は、第１の実施形態に係る拠点R₁におけるサーバ２の映像処理手順と処理内容を示すフローチャートである。
イベント映像受信部２１０２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットをサーバ１から受信する（ステップＳ１４）。ステップＳ１４の処理の典型例については後述する。
映像オフセット算出部２１０３は、映像提示装置２０１で映像V_signal1を再生された提示時刻t₁を算出する（ステップＳ１５）。ステップＳ１５の処理の典型例については後述する。
映像加工受信部２１０４は、Δd_{x_video}を格納したRTCPパケットをサーバ１から受信する（ステップＳ１６）。ステップＳ１６の処理の典型例については後述する。
折り返し映像加工部２１０５は、Δd_{x_video}に基づく加工態様に応じて、映像V_signal2から映像V_signal3を生成する（ステップＳ１７）。ステップＳ１７の処理の典型例については後述する。
折り返し映像送信部２１０６は、IPネットワークを介して、映像V_signal3を格納したRTPパケットをサーバ１に送信する（ステップＳ１８）。ステップＳ１８の処理の典型例については後述する。

【0051】

以下では、上述のサーバ１のステップＳ１１～ステップＳ１３の処理及び上述のサーバ２のステップＳ１４～ステップＳ１８の処理のそれぞれの典型例について説明する。時系列に沿った処理順で説明するため、サーバ１のステップＳ１１の処理、サーバ２のステップＳ１４の処理、サーバ２のステップＳ１５の処理、サーバ１のステップＳ１２の処理、サーバ１のステップＳ１３の処理、サーバ２のステップＳ１６の処理、サーバ２のステップＳ１７の処理、サーバ２のステップＳ１８の処理の順に説明する。

【0052】

図７は、第１の実施形態に係る拠点Oにおけるサーバ１の映像V_signal1を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。図７は、ステップＳ１１の処理の典型例を示す。
イベント映像送信部１１２は、イベント映像撮影装置１０１から出力される映像V_signal1を一定の間隔I_videoで取得する（ステップＳ１１１）。
イベント映像送信部１１２は、映像V_signal1を格納したRTPパケットを生成する（ステップＳ１１２）。ステップＳ１１２では、例えば、イベント映像送信部１１２は、取得した映像V_signal1をRTPパケットに格納する。イベント映像送信部１１２は、時刻管理部１１１で管理される基準システムクロックから、映像V_signal1をサンプリングした絶対時刻である時刻T_videoを取得する。イベント映像送信部１１２は、取得した時刻T_videoをRTPパケットのヘッダ拡張領域に格納する。
イベント映像送信部１１２は、生成した映像V_signal1を格納したRTPパケットをIPネットワークに送出する（ステップＳ１１３）。

【0053】

図８は、第１の実施形態に係る拠点R₁におけるサーバ２の映像V_signal1を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。図８は、サーバ２のステップＳ１４の処理の典型例を示す。
イベント映像受信部２１０２は、IPネットワークを介して、イベント映像送信部１１２から送出される映像V_signal1を格納したRTPパケットを受信する（ステップＳ１４１）。
イベント映像受信部２１０２は、受信した映像V_signal1を格納したRTPパケットに格納されている映像V_signal1を取得する（ステップＳ１４２）。
イベント映像受信部２１０２は、取得した映像V_signal1を映像提示装置２０１に出力する（ステップＳ１４３）。映像提示装置２０１は、映像V_signal1を再生して表示する。
イベント映像受信部２１０２は、受信した映像V_signal1を格納したRTPパケットのヘッダ拡張領域に格納されている時刻T_videoを取得する（ステップＳ１４４）。
イベント映像受信部２１０２は、取得した映像V_signal1及び時刻T_videoを映像オフセット算出部２１０３に受け渡す（ステップＳ１４５）。

【0054】

図９は、第１の実施形態に係る拠点R₁におけるサーバ２の提示時刻t₁の算出処理手順と処理内容を示すフローチャートである。図９は、サーバ２のステップＳ１５の処理の典型例を示す。
映像オフセット算出部２１０３は、映像V_signal1及び時刻T_videoをイベント映像受信部２１０２から取得する（ステップＳ１５１）。
映像オフセット算出部２１０３は、取得した映像V_signal1及びオフセット映像撮影装置２０２から入力される映像に基づき、提示時刻t₁を算出する（ステップＳ１５２）。ステップＳ１５２では、例えば、映像オフセット算出部２１０３は、オフセット映像撮影装置２０２で撮影した映像の中から公知の画像処理技術を用いて映像V_signal1を含む映像フレームを抽出する。映像オフセット算出部２１０３は、抽出した映像フレームに付与されている撮影時刻を提示時刻t₁として取得する。撮影時刻は、絶対時刻である。
映像オフセット算出部２１０３は、取得した時刻T_videoを映像時刻管理DB２３１の映像同期基準時刻カラムに格納する（ステップＳ１５３）。
映像オフセット算出部２１０３は、取得した提示時刻t₁を映像時刻管理DB２３１の提示時刻カラムに格納する（ステップＳ１５４）。

【0055】

図１０は、第１の実施形態に係る拠点Oにおけるサーバ１の映像V_signal3を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。図１０は、サーバ１のステップＳ１２の処理の典型例を示す。
折り返し映像受信部１１３は、IPネットワークを介して、折り返し映像送信部２１０６から送出される映像V_signal3を格納したRTPパケットを受信する（ステップＳ１２１）。
折り返し映像受信部１１３は、受信した映像V_signal3を格納したRTPパケットのヘッダ拡張領域に格納されている時刻T_videoを取得する（ステップＳ１２２）。
折り返し映像受信部１１３は、受信した映像V_signal3を格納したRTPパケットのヘッダに格納されている情報から送信元拠点R_x（xは1、2、…、nの何れか）を取得する（ステップＳ１２３）。

【0056】

折り返し映像受信部１１３は、受信した映像V_signal3を格納したRTPパケットに格納されている映像V_signal3を取得する（ステップＳ１２４）。
折り返し映像受信部１１３は、映像V_signal3を折り返し映像提示装置１０２に出力する（ステップＳ１２５）。ステップＳ１２５では、例えば、折り返し映像受信部１１３は、一定の間隔I_videoで映像V_signal3を折り返し映像提示装置１０２に出力する。折り返し映像提示装置１０２は、拠点R₁から拠点Oに折り返し伝送される映像V_signal3を再生して表示する。

【0057】

折り返し映像受信部１１３は、時刻管理部１１１で管理される基準システムクロックから、現在時刻T_nを取得する（ステップＳ１２６）。現在時刻T_nは、折り返し映像受信部１１３により映像V_signal3を格納したRTPパケットを受信したことに伴う時刻である。現在時刻T_nは、映像V_signal3を格納したRTPパケットの受信時刻ということもできる。現在時刻T_nは、映像V_signal3の再生時刻ということもできる。映像V_signal3を格納したRTPパケットを受信したことに伴う現在時刻T_nは、第２の時刻の一例である。
折り返し映像受信部１１３は、取得した時刻T_video、現在時刻T_n及び送信元拠点R_xを映像加工通知部１１４に受け渡す（ステップＳ１２７）。

【0058】

図１１は、第１の実施形態に係る拠点Oにおけるサーバ１のΔd_{x_video}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。図１１は、サーバ１のステップＳ１３の処理の典型例を示す。
映像加工通知部１１４は、折り返し映像受信部１１３から時刻T_video、現在時刻T_n及び送信元拠点R_xを取得する（ステップＳ１３１）。
映像加工通知部１１４は、時刻T_video及び現在時刻T_nに基づき現在時刻T_nから時刻T_videoを引いた時間（T_n - T_video）を算出する（ステップＳ１３２）。
映像加工通知部１１４は、時間（T_n - T_video）が現在のΔd_{x_video}と一致するか否かを判断する（ステップＳ１３３）。Δd_{x_video}は、現在時刻T_nと時刻T_videoとの差の値である。現在のΔd_{x_video}は、今回算出された時間（T_n - T_video）の値よりも前に算出された時間（T_n - T_video）の値である。なお、Δd_{x_video}の初期値は、０とする。時間（T_n - T_video）が現在のΔd_{x_video}と一致する場合（ステップＳ１３３、ＹＥＳ）、処理は、終了する。時間（T_n - T_video）が現在のΔd_{x_video}と一致しない場合（ステップＳ１３３、ＮＯ）、処理は、ステップＳ１３３からステップＳ１３４に遷移する。時間（T_n - T_video）が現在のΔd_{x_video}と一致しないことは、Δd_{x_video}が変化したことに対応する。

【0059】

映像加工通知部１１４は、Δd_{x_video}をΔd_{x_video} = T_n - T_videoに更新する（ステップＳ１３４）。
映像加工通知部１１４は、Δd_{x_video}を格納したRTCPパケットを送信する（ステップＳ１３５）。ステップＳ１３５では、例えば、映像加工通知部１１４は、更新したΔd_{x_video}をRTCPにおけるAPPを用いて記述する。映像加工通知部１１４は、Δd_{x_video}を格納したRTCPパケットを生成する。映像加工通知部１１４は、Δd_{x_video}を格納したRTCPパケットを、取得した送信元拠点R_xで示される拠点に送信する。

【0060】

図１２は、第１の実施形態に係る拠点R₁におけるサーバ２のΔd_{x_video}を格納したRTCPパケットの受信処理手順と処理内容を示すフローチャートである。図１２は、サーバ２のステップＳ１６の処理の典型例を示す。
映像加工受信部２１０４は、Δd_{x_video}を格納したRTCPパケットをサーバ１から受信する（ステップＳ１６１）。
映像加工受信部２１０４は、Δd_{x_video}を格納したRTCPパケットに格納されているΔd_{x_video}を取得する（ステップＳ１６２）。
映像加工受信部２１０４は、取得したΔd_{x_video}を折り返し映像加工部２１０５に受け渡す（ステップＳ１６３）。

【0061】

図１３は、第１の実施形態に係る拠点R₁におけるサーバ２の映像V_signal2の加工処理手順と処理内容を示すフローチャートである。図１３は、サーバ２のステップＳ１７の処理の典型例を示す。
折り返し映像加工部２１０５は、映像加工受信部２１０４からΔd_{x_video}を取得する（ステップＳ１７１）。
折り返し映像加工部２１０５は、折り返し映像撮影装置２０３から出力される映像V_signal2を一定の間隔I_videoで取得する（ステップＳ１７２）。映像V_signal2は、映像提示装置２０１が映像V_signal1を拠点R₁で再生する時刻に拠点R₁で取得された映像である。

【0062】

折り返し映像加工部２１０５は、取得したΔd_{x_video}に基づく加工態様に応じて、取得した映像V_signal2から映像V_signal3を生成する（ステップＳ１７３）。ステップＳ１７３では、例えば、折り返し映像加工部２１０５は、Δd_{x_video}に基づき映像V_signal2の加工態様を決定する。折り返し映像加工部２１０５は、Δd_{x_video}に基づき映像V_signal2の加工態様を変える。折り返し映像加工部２１０５は、Δd_{x_video}が大きくなるにつれて映像の質を下げるように加工態様を変える。加工態様は、映像V_signal2に対して加工処理を行うこと及び映像V_signal2に対して加工処理を行わないことの両方を含んでもよい。加工態様は、映像V_signal2に対する加工処理の程度を含む。折り返し映像加工部２１０５が映像V_signal2に対して加工処理を行う場合、映像V_signal3は映像V_signal2と異なる。折り返し映像加工部２１０５が映像V_signal2に対して加工処理を行わない場合、映像V_signal3は映像V_signal2と同じである。

【0063】

折り返し映像加工部２１０５は、Δd_{x_video}に基づき、拠点Oの折り返し映像提示装置１０２で再生したときに視認性が低くなるような加工処理を行う。視認性が低くなるような加工処理は、映像のデータサイズを縮小するような加工処理を含む。映像V_signal2を折り返し映像提示装置１０２で再生して視聴者が違和感を与えないほどΔd_{x_video}が小さければ、折り返し映像加工部２１０５は、映像V_signal2に対して加工処理を行わない。また、Δd_{x_video}が大きすぎる場合でも、折り返し映像加工部２１０５は、映像が全く視認できなくならないように、映像V_signal2に対して加工処理を行う。例えば、映像V_signal2の表示サイズを変更する加工処理の場合について説明する。映像V_signal2の横ピクセルをw、縦ピクセルをhとすると、加工態様に応じて生成される映像V_signal3の横ピクセルw’、縦ピクセルh’は、以下のとおりである。
（１）0ms ≦ Δd_{x_video} ≦ 300msのとき
w’ = w, h’ = h
（２）300ms < Δd_{x_video} ≦ 500msのとき
w’ = {-(1/400) * Δd_{x_video} + 7/4 }*w, h’ = {-(1/400) * Δd_{x_video} + 7/4 } * h
（３）500ms <Δd_{x_video} のとき
w’ = 0.5 * w, h’ = 0.5 * h
加工処理は、映像の質の変更として、上記に限定するものではなく、上記表示サイズ変更の他、ガウシアンフィルタにより画像をぼかす、画像の輝度を下げる等であってもよい。加工処理は、加工処理後の映像V_signal3が映像V_signal2よりも視認性が低下する処理であれば、他の加工処理を用いてもよい。
折り返し映像加工部２１０５は、取得した映像V_signal2及び生成した映像V_signal3を折り返し映像送信部２１０６に受け渡す（ステップＳ１７４）。

【0064】

図１４は、第１の実施形態に係る拠点R₁におけるサーバ２の映像V_signal3を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。図１４は、サーバ２のステップＳ１８の処理の典型例を示す。
折り返し映像送信部２１０６は、折り返し映像加工部２１０５から映像V_signal2及び映像V_signal3を取得する（ステップＳ１８１）。ステップＳ１８１では、例えば、折り返し映像送信部２１０６は、映像V_signal2及び映像V_signal3を一定間隔I_videoで同時に取得する。

【0065】

折り返し映像送信部２１０６は、取得した映像V_signal2が撮影された絶対時刻である時刻tを算出する（ステップＳ１８２）。ステップＳ１８２では、例えば、折り返し映像送信部２１０６は、映像V_signal2に撮影時刻を表すタイムコードT_c（絶対時刻）が付与されている場合、t = T_cとして時刻tを取得する。映像V_signal2にタイムコードT_cが付与されていない場合、折り返し映像送信部２１０６は、時刻管理部２１０１で管理される基準システムクロックから、現在時刻T_nを取得する。折り返し映像送信部２１０６は、予め決めておいた所定値t_{video_offset}（正の数）を用いてt = T_n - t_{video_offset}として時刻tを取得する。

【0066】

折り返し映像送信部２１０６は、映像時刻管理DB２３１を参照し、取得した時刻tと一致する時刻t₁をもつレコードを抽出する（ステップＳ１８３）。
折り返し映像送信部２１０６は、映像時刻管理DB２３１を参照し、抽出したレコードの映像同期基準時刻カラムの時刻T_videoを取得する（ステップＳ１８４）。
折り返し映像送信部２１０６は、映像V_signal3を格納したRTPパケットを生成する（ステップＳ１８５）。ステップＳ１８５では、例えば、折り返し映像送信部２１０６は、取得した映像V_signal3をRTPパケットに格納する。折り返し映像送信部２１０６は、取得した時刻T_videoをRTPパケットのヘッダ拡張領域に格納する。
折り返し映像送信部２１０６は、生成した映像V_signal3を格納したRTPパケットをIPネットワークに送出する（ステップＳ１８６）。

【0067】

（２）折り返し音声の加工再生
拠点Oにおけるサーバ１の音声処理について説明する。
図１５は、第１の実施形態に係る拠点Oにおけるサーバ１の音声処理手順と処理内容を示すフローチャートである。
イベント音声送信部１１５は、IPネットワークを介して、音声A_signal1を格納したRTPパケットを拠点R₁のサーバ２に送信する（ステップＳ１９）。ステップＳ１９の処理の典型例については後述する。
折り返し音声受信部１１６は、IPネットワークを介して、音声A_signal3を格納したRTPパケットを拠点R₁のサーバ２から受信する（ステップＳ２０）。ステップＳ２０の処理の典型例については後述する。
音声加工通知部１１７は、拠点R₁についてΔd_{x_audio}を生成し、Δd_{x_ audio}を格納したRTCPパケットを拠点R₁のサーバ２に送信する。（ステップＳ２１）。ステップＳ２１の処理の典型例については後述する。

【0068】

拠点R₁におけるサーバ２の音声処理について説明する。
図１６は、第１の実施形態に係る拠点R₁におけるサーバ２の音声処理手順と処理内容を示すフローチャートである。
イベント音声受信部２１０７は、IPネットワークを介して、音声A_signal1を格納したRTPパケットをサーバ１から受信する（ステップＳ２２）。ステップＳ２２の処理の典型例については後述する。
音声加工受信部２１０８は、Δd_{x_audio}を格納したRTCPパケットをサーバ１から受信する（ステップＳ２３）。ステップＳ２３の処理の典型例については後述する。
折り返し音声加工部２１０９は、Δd_{x_audio}に基づく加工態様に応じて、音声A_signal2から音声A_signal3を生成する（ステップＳ２４）。ステップＳ２４の処理の典型例については後述する。
折り返し音声送信部２１１０は、IPネットワークを介して、音声A_signal3を格納したRTPパケットをサーバ１に送信する（ステップＳ２５）。ステップＳ２５の処理の典型例については後述する。

【0069】

以下では、上述のサーバ１のステップＳ１９～ステップＳ２１の処理及び上述のサーバ２のステップＳ２２～ステップＳ２５の処理のそれぞれの典型例について説明する。時系列に沿った処理順で説明するため、サーバ１のステップＳ１９の処理、サーバ２のステップＳ２２の処理、サーバ１のステップＳ２０の処理、サーバ１のステップＳ２１の処理、サーバ２のステップＳ２３の処理、サーバ１のステップＳ２４の処理、サーバ１のステップＳ２５の処理の順に説明する。

【0070】

図１７は、第１の実施形態に係る拠点Oにおけるサーバ１の音声A_signal1を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。図１７は、サーバ１のステップＳ１９の処理の典型例を示す。

【0071】

イベント音声送信部１１５は、イベント音声収録装置１０３から出力される音声A_signal1を一定の間隔I_audioで取得する（ステップＳ１９１）。
イベント音声送信部１１５は、音声A_signal1を格納したRTPパケットを生成する（ステップＳ１９２）。ステップＳ１９２では、例えば、イベント音声送信部１１５は、取得した音声A_signal1をRTPパケットに格納する。イベント音声送信部１１５は、時刻管理部１１１で管理される基準システムクロックから、音声A_signal1をサンプリングした絶対時刻である時刻T_audioを取得する。イベント音声送信部１１５は、取得した時刻T_audioをRTPパケットのヘッダ拡張領域に格納する。
イベント音声送信部１１５は、生成した音声A_signal1を格納したRTPパケットをIPネットワークに送出する（ステップＳ１９３）。

【0072】

図１８は、第１の実施形態に係る拠点R₁におけるサーバ２の音声A_signal1を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。図１８は、サーバ２のステップＳ２２の処理の典型例を示す。
イベント音声受信部２１０７は、IPネットワークを介して、イベント音声送信部１１５から送出される音声A_signal1を格納したRTPパケットを受信する（ステップＳ２２１）。
イベント音声受信部２１０７は、受信した音声A_signal1を格納したRTPパケットに格納されている音声A_signal1を取得する（ステップＳ２２２）。
イベント音声受信部２１０７は、取得した音声A_signal1を音声提示装置２０４に出力する（ステップＳ２２３）。音声提示装置２０４は、音声A_signal1を再生して出力する。
イベント音声受信部２１０７は、受信した音声A_signal1を格納したRTPパケットのヘッダ拡張領域に格納されている時刻T_audioを取得する（ステップＳ２２４）。
イベント音声受信部２１０７は、取得した音声A_signal1及び時刻T_audioを音声時刻管理DB２３２に格納する（ステップＳ２２５）。ステップＳ２２５では、例えば、イベント音声受信部２１０７は、取得した時刻T_audioを音声時刻管理DB２３２の音声同期基準時刻カラムに格納する。イベント音声受信部２１０７は、取得した音声A_signal1を音声時刻管理DB２３２の音声データカラムに格納する。

【0073】

図１９は、第１の実施形態に係る拠点Oにおけるサーバ１の音声A_signal3を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。図１９は、サーバ１のステップＳ２０の処理の典型例を示す。
折り返し音声受信部１１６は、IPネットワークを介して、折り返し音声送信部２１１０から送出される音声A_signal3を格納したRTPパケットを受信する（ステップＳ２０１）。
折り返し音声受信部１１６は、受信した音声A_signal3を格納したRTPパケットのヘッダ拡張領域に格納されている時刻T_audioを取得する（ステップＳ２０２）。
折り返し音声受信部１１６は、受信した音声A_signal3を格納したRTPパケットのヘッダに格納されている情報から送信元拠点R_x（xは1、2、…、nの何れか）を取得する（ステップＳ２０３）。

【0074】

折り返し音声受信部１１６は、受信した音声A_signal3を格納したRTPパケットに格納されている音声A_signal3を取得する（ステップＳ２０４）。
折り返し音声受信部１１６は、音声A_signal3を折り返し音声提示装置１０４に出力する（ステップＳ２０５）。ステップＳ２０５では、例えば、折り返し音声受信部１１６は、一定の間隔I_audioで音声A_signal3を折り返し音声提示装置１０４に出力する。折り返し音声提示装置１０４は、拠点R₁から拠点Oに折り返し伝送される音声A_signal3を再生して表示する。

【0075】

折り返し音声受信部１１６は、時刻管理部１１１で管理される基準システムクロックから、現在時刻T_nを取得する（ステップＳ２０６）。現在時刻T_nは、折り返し音声受信部１１６により音声A_signal3を格納したRTPパケットを受信したことに伴う時刻である。現在時刻T_nは、音声A_signal3を格納したRTPパケットの受信時刻ということもできる。現在時刻T_nは、音声A_signal3の再生時刻ということもできる。音声A_signal3を格納したRTPパケットを受信したことに伴う現在時刻T_nは、第２の時刻の一例である。
折り返し音声受信部１１６は、取得した時刻T_audio、現在時刻T_n及び送信元拠点R_xを音声加工通知部１１７に受け渡す（ステップＳ２０７）。

【0076】

図２０は、第１の実施形態に係る拠点Oにおけるサーバ１のΔd_{x_audio}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。図２０は、サーバ１のステップＳ２１の処理の典型例を示す。
音声加工通知部１１７は、折り返し音声受信部１１６から時刻T_audio、現在時刻T_n及び送信元拠点R_xを取得する（ステップＳ２１１）。
音声加工通知部１１７は、時刻T_audio及び現在時刻T_nに基づき現在時刻T_nから時刻T_audioを引いた時間（T_n - T_audio）を算出する（ステップＳ２１２）。
音声加工通知部１１７は、時間（T_n - T_audio）が現在のΔd_{x_audio}と一致するか否かを判断する（ステップＳ２１３）。Δd_{x_audio}は、現在時刻T_nと時刻T_audioとの差の値である。現在のΔd_{x_ audio}は、今回算出された時間（T_n - T_audio）の値よりも前に算出された時間（T_n - T_audio）の値である。なお、Δd_{x_audio}の初期値は、０とする。時間（T_n - T_audio）が現在のΔd_{x_audio}と一致する場合（ステップＳ２１３、ＹＥＳ）、処理は、終了する。時間（T_n - T_audio）が現在のΔd_{x_audio}と一致しない場合（ステップＳ２１３、ＮＯ）、処理は、ステップＳ２１３からステップＳ２１４に遷移する。時間（T_n - T_audio）が現在のΔd_{x_audio}と一致しないことは、Δd_{x_audio}が変化したことに対応する。

【0077】

音声加工通知部１１７は、Δd_{x_audio}をΔd_{x_audio} = T_n - T_audioに更新する（ステップＳ２１４）。
音声加工通知部１１７は、Δd_{x_audio}を格納したRTCPパケットを送信する（ステップＳ２１５）。ステップＳ２１５では、例えば、音声加工通知部１１７は、更新したΔd_{x_audio}をRTCPにおけるAPPを用いて記述する。音声加工通知部１１７は、Δd_{x_audio}を格納したRTCPパケットを生成する。音声加工通知部１１７は、Δd_{x_ audio}を格納したRTCPパケットを、取得した送信元拠点R_xで示される拠点に送信する。

【0078】

図２１は、第１の実施形態に係る拠点R₁におけるサーバ２のΔd_{x_audio}を格納したRTCPパケットの受信処理手順と処理内容を示すフローチャートである。図２１は、サーバ２のステップＳ２３の処理の典型例を示す。
音声加工受信部２１０８は、Δd_{x_audio}を格納したRTCPパケットをサーバ１から受信する（ステップＳ２３１）。
音声加工受信部２１０８は、Δd_{x_audio}を格納したRTCPパケットに格納されているΔd_{x_audio}を取得する（ステップＳ２３２）。
音声加工受信部２１０８は、取得したΔd_{x_audio}を折り返し音声加工部２１０９に受け渡す（ステップＳ２３３）。

【0079】

図２２は、第１の実施形態に係る拠点R₁におけるサーバ２の音声A_signal2の加工処理手順と処理内容を示すフローチャートである。図２２は、サーバ２のステップＳ２４の処理の典型例を示す。
折り返し音声加工部２１０９は、音声加工受信部２１０８からΔd_{x_audio}を取得する（ステップＳ２４１）。
折り返し音声加工部２１０９は、折り返し音声収録装置２０５から出力される音声A_signal2を一定の間隔I_audioで取得する（ステップＳ２４２）。音声A_signal2は、音声提示装置２０４が音声A_signal1を拠点R₁で再生する時刻に拠点R₁で取得された音声である。

【0080】

折り返し音声加工部２１０９は、取得したΔd_{x_audio}に基づく加工態様に応じて、取得した音声A_signal2から音声A_signal3を生成する（ステップＳ２４３）。ステップＳ２４３では、例えば、折り返し音声加工部２１０９は、Δd_{x_audio}に基づき音声A_signal2の加工態様を決定する。折り返し音声加工部２１０９は、Δd_{x_audio}に基づき音声A_signal2の加工態様を変える。折り返し音声加工部２１０９は、Δd_{x_audio}が大きくなるにつれて音声の質を下げるように加工態様を変える。加工態様は、音声A_signal2に対して加工処理を行うこと及び音声A_signal2に対して加工処理を行わないことの両方を含んでもよい。加工態様は、音声A_signal2に対する加工処理の程度を含む。折り返し音声加工部２１０９が音声A_signal2に対して加工処理を行う場合、音声A_signal3は音声A_signal2と異なる。折り返し音声加工部２１０９が音声A_signal2に対して加工処理を行わない場合、音声A_signal3は音声A_signal2と同じである。

【0081】

折り返し音声加工部２１０９は、Δd_{x_audio}に基づき、拠点Oの折り返し音声提示装置１０４で再生したときに聴認性が低くなるような加工処理を行う。聴認性が低くなるような加工処理は、音声のデータサイズを縮小するような加工処理を含む。音声A_signal2を折り返し音声提示装置１０４で再生して視聴者が違和感を与えないほどΔd_{x_audio}が小さければ、折り返し音声加工部２１０９は、音声A_signal2に対して加工処理を行わない。また、Δd_{x_audio}が大きすぎる場合でも、折り返し音声加工部２１０９は、音声が全く聴認できなくならないように、音声A_signal2に対して加工処理を行う。例えば、音声A_signal2の強さを変更する加工処理の場合について説明する。音声A_signal2の強さをsとすると、加工態様に応じて生成される音声A_signal3の強さs’は、以下のとおりである。
（１）0ms ≦ Δd_{x_audio} ≦ 100msのとき s’ = s
（２）100ms < Δd_{x_audio} ≦ 300msのとき s’ ={- (1/400) * Δd_{x_audio}+ 5/4} * s
（３）300ms < Δd_{x_audio} のとき s’ = 0.5 * s
加工処理は、音声の質の変更として、上記に限定するものではなく、上記音の強さ変更の他、Δd_{x_audio}が大きいほど閾値が小さくなるようなローパスフィルタリングにより高周波数の成分を逓減させる等であってもよい。加工処理は、Δd_{x_audio}が大きいほど音が遠くから聴こえるように感じられるような、加工処理後の音声A_signal3が音声A_signal2よりも聴認性が低下する加工処理であれば、他の加工処理を用いてもよい。
折り返し音声加工部２１０９は、取得した音声A_signal2及び生成した音声A_signal3を折り返し音声送信部２１１０に受け渡す（ステップＳ２４４）。

【0082】

図２３は、第１の実施形態に係る拠点R₁におけるサーバ２の音声A_signal3を格納したRTPパケットの送信処理手順と処理内容を示すフローチャートである。図２３は、サーバ２のステップＳ２５の処理の典型例を示す。
折り返し音声送信部２１１０は、折り返し音声加工部２１０９から音声A_signal2及び音声A_signal3を取得する（ステップＳ２５１）。ステップＳ２５１では、例えば、折り返し音声送信部２１１０は、音声A_signal2及び音声A_signal3を一定間隔I_audioで同時に取得する。

【0083】

折り返し音声送信部２１１０は、音声時刻管理DB２３２を参照し、取得した音声A_signal2を含む音声データをもつレコードを抽出する（ステップＳ２５２）。折り返し音声送信部２１１０が取得した音声A_signal2は、音声提示装置２０４で再生された音声A_signal1と拠点R₁で発生した音声（拠点R₁にいる観客の歓声等）を含む。ステップＳ２５２では、例えば、折り返し音声送信部２１１０は、公知の音声分析技術により、２つの音声を分離する。折り返し音声送信部２１１０は、音声の分離により、音声提示装置２０４で再生された音声A_signal1を特定する。折り返し音声送信部２１１０は、音声時刻管理DB２３２を参照し、特定した音声提示装置２０４で再生された音声A_signal1と一致する音声データを検索する。折り返し音声送信部２１１０は、音声時刻管理DB２３２を参照し、特定した音声提示装置２０４で再生された音声A_signal1と一致する音声データをもつレコードを抽出する。

【0084】

折り返し音声送信部２１１０は、音声時刻管理DB２３２を参照し、抽出したレコードの音声同期基準時刻カラムの時刻T_audioを取得する（ステップＳ２５３）。
折り返し音声送信部２１１０は、音声A_signal3を格納したRTPパケットを生成する（ステップＳ２５４）。ステップＳ２５４では、例えば、折り返し音声送信部２１１０は、取得した音声A_signal3をRTPパケットに格納する。折り返し音声送信部２１１０は、取得した時刻T_audioをRTPパケットのヘッダ拡張領域に格納する。
折り返し音声送信部２１１０は、生成した音声A_signal3を格納したRTPパケットをIPネットワークに送出する（ステップＳ２５５）。

【0085】

（効果）
以上述べたように第１の実施形態では、サーバ２は、サーバ１からの通知で示されるΔd_{x_video}に基づく加工態様に応じて映像V_signal2から映像V_signal3を生成する。サーバ２は、映像V_signal3をサーバ１に送信する。典型例では、サーバ２は、Δd_{x_video}に基づき加工態様を変える。サーバ２は、Δd_{x_video}が大きくなるにつれて映像の質を下げるように加工態様を変えてもよい。このように、サーバ２は、再生したときに映像が目立たなくなるように映像を加工処理することができる。一般に、ある地点Xからスクリーン等に投影された映像を見る場合、地点Xからスクリーンまでの距離がある一定の範囲内であれば映像を鮮明に視認することができる。他方、距離が遠くなるに従い、映像は小さくぼやけて見えるようになり視認しづらくなる。

【0086】

サーバ２は、サーバ１からの通知で示されるΔd_{x_audio}に基づく加工態様に応じて音声A_signal2から音声A_signal3を生成する。サーバ２は、音声A_signal3をサーバ１に送信する。典型例では、サーバ２は、Δd_{x_audio}に基づき加工態様を変える。サーバ２は、Δd_{x_audio}が大きくなるにつれて音声の質を下げるように加工態様を変えてもよい。このように、サーバ２は、再生したときに音声が聞き取りにくくなるように音声を加工処理することができる。一般に、ある地点Xからスピーカ等で再生された音声を聴く場合、地点Xからスピーカ（音源）までの距離がある一定の範囲内であれば音声を音源の発生と同時に、かつ、鮮明に聴認することができる。他方、距離が遠くなるに従い、音の再生時刻から遅れて、かつ、減衰して音が伝わり聴認しづらくなる。

【0087】

サーバ２は、Δd_{x_video}又はΔd_{x_audio}に基づき上述のような視聴を再現させる加工処理を行うことで、物理的に離れた拠点にいる視聴者の様子を伝えつつも、データ伝送遅延時間の大きさによる違和感を軽減させることができる。

【0088】

このように、サーバ２は、拠点Oにおいて複数の拠点から異なる時刻に伝送される複数の映像・音声が再生されるときに視聴者が感じる違和感を低減させることができる。

【0089】

さらに、サーバ２は、拠点Oに伝送する映像・音声の加工処理を実行することで、映像・音声のデータサイズを縮小することができる。これにより、映像・音声のデータ伝送時間は短縮する。データ伝送に必要なネットワーク帯域は削減する。

【0090】

［第２の実施形態］
第２の実施形態は、ある遠隔地の拠点Rにおいて、拠点Oから伝送された映像・音声と、拠点R以外の複数の遠隔地の拠点から伝送された映像・音声を再生する実施形態である。

【0091】

映像・音声を加工処理するために用いる時刻情報は、拠点Oと拠点R₁～拠点R_nのそれぞれとの間で送受信するRTPパケットのヘッダ拡張領域に格納される。例えば、時刻情報は、絶対時刻形式（hh:mm:ss.fff形式）である。

【0092】

以下では、遠隔地として２つの拠点R₁及び拠点R₂を中心に説明し、拠点R₂において、拠点Oから伝送された映像・音声と拠点R₁から伝送された映像・音声を再生させる処理について説明する。拠点Oにおける拠点R₁及び拠点R₂から折り返し伝送された映像・音声の受信処理、拠点R₁における拠点R₂から伝送された映像・音声の受信処理及び加工処理、拠点R₂における拠点R₂で撮影・収録した映像・音声の拠点O及び拠点R₁への送信処理については、それらの説明を省略する。

【0093】

映像と音声はそれぞれRTPパケット化して送受信するとして説明するが、これに限定されない。映像と音声は、同じ機能部・DB（データベース）で処理・管理されてもよい。映像と音声は、１つのRTPパケットにどちらも格納されて送受信されてもよい。

【0094】

（構成例）
第２の実施形態では、第１の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第２の実施形態では、主として、第１の実施形態と異なる部分について説明する。

【0095】

図２４は、第２の実施形態に係るメディア加工システムSに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。
メディア加工システムSは、拠点Oに含まれる複数の電子機器、拠点R₁～拠点R_nのそれぞれに含まれる複数の電子機器及び時刻配信サーバ１０を含む。各拠点の電子機器及び時刻配信サーバ１０は、IPネットワークを介して互いに通信可能である。
拠点Oは、第１の実施形態と同様に、サーバ１、イベント映像撮影装置１０１及びイベント音声収録装置１０３を備える。拠点Oは、第１の拠点の一例である。

【0096】

拠点R₁は、第１の実施形態と同様に、サーバ２、映像提示装置２０１、オフセット映像撮影装置２０２及び音声提示装置２０４を備える。拠点R₁は、第１の実施形態と異なり、映像撮影装置２０６及び音声収録装置２０７を備える。拠点R₁は、第２の拠点の一例である。サーバ２は、メディア加工装置の一例である。
映像撮影装置２０６は、拠点R₁の映像を撮影するカメラを含む装置である。例えば、映像撮影装置２０６は、拠点Oから拠点R₁に伝送される映像を再生して表示する映像提示装置２０１の設置された拠点R₁の様子の映像を撮影する。映像撮影装置２０６は、映像撮影装置の一例である。
音声収録装置２０７は、拠点R₁の音声を収録するマイクを含む装置である。例えば、音声収録装置２０７は、拠点Oから拠点R₁に伝送される音声を再生して出力する音声提示装置２０４の設置された拠点R₁の様子の音声を収録する。音声収録装置２０７は、音声収録装置の一例である。

【0097】

拠点R₂は、サーバ３、映像提示装置３０１、オフセット映像撮影装置３０２、音声提示装置３０３及びオフセット音声収録装置３０４を備える。拠点R₂は、第１の拠点及び第２の拠点とは異なる第３の拠点の一例である。
サーバ３は、拠点R₂に含まれる各電子機器を制御する電子機器である。
映像提示装置３０１は、拠点Oから拠点R₂に伝送される映像並びに拠点R₁及び拠点R₃～拠点R_nのそれぞれから拠点R₂に伝送される映像を再生して表示するディスプレイを含む装置である。映像提示装置３０１は、提示装置の一例である。
オフセット映像撮影装置３０２は、撮影時刻を記録可能な装置である。オフセット映像撮影装置３０２は、映像提示装置３０１の映像表示領域全体を撮影できるように設置されたカメラを含む装置である。オフセット映像撮影装置３０２は、映像撮影装置の一例である。
音声提示装置３０３は、拠点Oから拠点R₂に伝送される音声並びに拠点R₁及び拠点R₃～拠点R_nのそれぞれから拠点R₂に伝送される音声を再生して出力するスピーカを含む装置である。音声提示装置３０３は、提示装置の一例である。
オフセット音声収録装置３０４は、収録時刻を記録可能な装置である。オフセット音声収録装置３０４は、音声提示装置３０３で再生された音声を収録できるように設置されたマイクを含む装置である。オフセット音声収録装置３０４は、音声収録装置の一例である。

【0098】

サーバ３の構成例について説明する。
サーバ３は、制御部３１、プログラム記憶部３２、データ記憶部３３、通信インタフェース３４及び入出力インタフェース３５を備える。サーバ３が備える各要素は、バスを介して、互いに接続されている。
制御部３１は、制御部１１と同様に構成され得る。プロセッサは、ＲＯＭ、又はプログラム記憶部３２に記憶されているプログラムをＲＡＭに展開する。プロセッサがＲＡＭに展開されるプログラムを実行することで、制御部３１は、後述する各機能部を実現する。制御部３１は、コンピュータを構成する。
プログラム記憶部３２は、プログラム記憶部１２と同様に構成され得る。
データ記憶部３３は、データ記憶部１３と同様に構成され得る。
通信インタフェース３４は、通信インタフェース１４と同様に構成され得る。通信インタフェース３４は、サーバ３を他の電子機器と通信可能に接続する種々のインタフェースを含む。
入出力インタフェース３５は、入出力インタフェース１５と同様に構成され得る。入出力インタフェース３５は、サーバ３と映像提示装置３０１、オフセット映像撮影装置３０２、音声提示装置３０３及びオフセット音声収録装置３０４のそれぞれとの通信を可能にする。
なお、サーバ３のハードウェア構成は、上述の構成に限定されるものではない。サーバ３は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。

【0099】

図２５は、第２の実施形態に係るメディア加工システムSを構成する各電子機器のソフトウェア構成の一例を示すブロック図である。

【0100】

サーバ１は、第１の実施形態と同様に、時刻管理部１１１、イベント映像送信部１１２及びイベント音声送信部１１５を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。

【0101】

サーバ２は、第１の実施形態と同様に、時刻管理部２１０１、イベント映像受信部２１０２、映像オフセット算出部２１０３、イベント音声受信部２１０７、映像時刻管理DB２３１及び音声時刻管理DB２３２を備える。サーバ２は、第１の実施形態と異なり、映像加工受信部２１１１、映像加工部２１１２、映像送信部２１１３、音声加工受信部２１１４、音声加工部２１１５及び音声送信部２１１６を備える。各機能部は、制御部２１によるプログラムの実行によって実現される。各機能部は、制御部２１又はプロセッサが備えるということもできる。各機能部は、制御部２１又はプロセッサと読み替え可能である。映像時刻管理DB２３１及び音声時刻管理DB２３２は、データ記憶部２３によって実現される。

【0102】

映像加工受信部２１１１は、Δd_{x_video}を格納したRTCPパケットを拠点R₂～拠点R_nのそれぞれのサーバから受信する。Δd_{x_video}は、拠点R₁と拠点R₂～拠点R_nのそれぞれとの間のデータ伝送遅延に関する値である。Δd_{x_video}は、伝送遅延時間の一例である。Δd_{x_video}は、拠点R₂～拠点R_nのそれぞれで異なる。Δd_{x_video}を格納したRTCPパケットは、伝送遅延時間に関する通知の一例である。RTCPパケットは、パケットの一例である。映像加工受信部２１１１は、第１の受信部の一例である。

【0103】

映像加工部２１１２は、Δd_{x_video}に基づく加工態様に応じて、映像V_signal2から映像V_signal3を生成する。映像V_signal2は、映像V_signal1を拠点R₁で再生する時刻に拠点R₁で取得された映像である。映像V_signal2を取得することは、映像撮影装置２０６が映像V_signal2を撮影することを含む。映像V_signal2を取得することは、映像撮影装置２０６が撮影した映像V_signal2をサンプリングすることを含む。映像V_signal2は、第２の映像の一例である。映像V_signal3は、第３の映像の一例である。映像加工部２１１２は、加工部の一例である。

【0104】

映像送信部２１１３は、IPネットワークを介して、映像V_signal3を格納したRTPパケットを拠点R₂～拠点R_nの何れかのサーバに送信する。映像V_signal3を格納したRTPパケットは、時刻T_videoを付与されている。映像V_signal3を格納したRTPパケットは、映像V_signal3が撮影された絶対時刻である時刻tと一致する提示時刻t₁に関連付けられた時刻T_videoを含む。映像V_signal3は映像V_signal2から生成されるので、映像V_signal3を格納したRTPパケットは、映像V_signal2に関するパケットの一例である。RTPパケットは、パケットの一例である。映像送信部２１１３は、送信部の一例である。

【0105】

音声加工受信部２１１４は、Δd_{x_audio}を格納したRTCPパケットを拠点R₂～拠点R_nのそれぞれのサーバから受信する。Δd_{x_audio}は、拠点R₁と拠点R₂～拠点R_nのそれぞれとの間のデータ伝送遅延に関する値である。Δd_{x_ audio}は、伝送遅延時間の一例である。Δd_{x_ audio}は、拠点R₂～拠点R_nのそれぞれで異なる。Δd_{x_ audio}を格納したRTCPパケットは、伝送遅延時間に関する通知の一例である。音声加工受信部２１１４は、第１の受信部の一例である。

【0106】

音声加工部２１１５は、Δd_{x_audio}に基づく加工態様に応じて、音声A_signal2から音声A_signal3を生成する。音声A_signal2は、音声A_signal1を拠点R₁で再生する時刻に拠点R₁で取得された音声である。音声A_signal2を取得することは、音声収録装置２０７が音声A_signal2を収録することを含む。音声A_signal2を取得することは、音声収録装置２０７が収録した音声A_signal2をサンプリングすることを含む。音声A_signal2は、第２の音声の一例である。音声A_signal3は、第３の音声の一例である。音声加工部２１１５は、加工部の一例である。

【0107】

音声送信部２１１６は、IPネットワークを介して、音声A_signal3を格納したRTPパケットを拠点R₂～拠点R_nの何れかのサーバに送信する。音声A_signal3を格納したRTPパケットは、時刻T_audioを付与されている。音声A_signal3は音声A_signal2から生成されるので、音声A_signal3を格納したRTPパケットは、音声A_signal2に関するパケットの一例である。音声送信部２１１６は、送信部の一例である。

【0108】

サーバ３は、時刻管理部３１１、イベント映像受信部３１２、映像オフセット算出部３１３、映像受信部３１４、映像加工通知部３１５、イベント音声受信部３１６、音声オフセット算出部３１７、音声受信部３１８、音声加工通知部３１９、映像時刻管理DB３３１及び音声時刻管理DB３３２を備える。各機能部は、制御部３１によるプログラムの実行によって実現される。各機能部は、制御部３１又はプロセッサが備えるということもできる。各機能部は、制御部３１又はプロセッサと読み替え可能である。映像時刻管理DB３３１及び音声時刻管理DB３３２は、データ記憶部３３によって実現される。

【0109】

時刻管理部３１１は、時刻配信サーバ１０と公知のNTPやPTP等のプロトコルを用いて時刻同期を行い、基準システムクロックを管理する。時刻管理部３１１は、サーバ１及びサーバ２が管理する基準システムクロックと同一の基準システムクロックを管理する。時刻管理部３１１が管理する基準システムクロックと、サーバ１及びサーバ２が管理する基準システムクロックとは、時刻同期している。

【0110】

イベント映像受信部３１２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットをサーバ１から受信する。映像V_signal1は、拠点Oで絶対時刻である時刻T_videoに取得された映像である。映像V_signal1を取得することは、イベント映像撮影装置１０１が映像V_signal1を撮影することを含む。映像V_signal1を取得することは、イベント映像撮影装置１０１が撮影した映像V_signal1をサンプリングすることを含む。映像V_signal1を格納したRTPパケットは、時刻T_videoを付与されている。時刻T_videoは、拠点Oで映像V_signal1が取得された時刻である。映像V_signal1は、第１の映像の一例である。時刻T_videoは、第１の時刻の一例である。
映像オフセット算出部３１３は、拠点R₂の映像提示装置３０１で映像V_signal1を再生された絶対時刻である提示時刻t₁を算出する。提示時刻t₁は、第３の時刻の一例である。
映像受信部３１４は、IPネットワークを介して、映像V_signal3を格納したRTPパケットを拠点R₁及び拠点R₃～拠点R_nのそれぞれのサーバから受信する
映像加工通知部３１５は、拠点R₁及び拠点R₃～拠点R_nのそれぞれについてΔd_{x_video}を生成し、Δd_{x_video}を格納したRTCPパケットを拠点R₁及び拠点R₃～拠点R_nのそれぞれのサーバに送信する。

【0111】

イベント音声受信部３１６は、IPネットワークを介して、音声A_signal1を格納したRTPパケットをサーバ１から受信する。音声A_signal1は、拠点Oで絶対時刻である時刻T_audioに取得された音声である。音声A_signal1を取得することは、イベント音声収録装置１０３が音声A_signal1を収録することを含む。音声A_signal1を取得することは、イベント音声収録装置１０３が収録した音声A_signal1をサンプリングすることを含む。音声A_signal1を格納したRTPパケットは、時刻T_audioを付与されている。時刻T_audioは、拠点Oで音声A_signal1が取得された時刻である。音声A_signal1は、第１の音声の一例である。時刻T_audioは、第１の時刻の一例である。
音声オフセット算出部３１７は、拠点R₂の音声提示装置３０３で音声A_signal1を再生された絶対時刻である提示時刻t₂を算出する。提示時刻t₂は、第３の時刻の一例である。
音声受信部３１８は、IPネットワークを介して、音声A_signal3を格納したRTPパケットを拠点R₁及び拠点R₃～拠点R_nのそれぞれのサーバから受信する。
音声加工通知部３１９は、拠点R₁及び拠点R₃～拠点R_nのそれぞれについてΔd_{x_ audio}を生成し、Δd_{x_ audio}を格納したRTCPパケットを拠点R₁及び拠点R₃～拠点R_nのそれぞれのサーバに送信する。

【0112】

映像時刻管理DB３３１は、映像時刻管理DB２３１のデータ構造と同様であり得る。映像時刻管理DB３３１は、映像オフセット算出部３１３から取得した時刻T_videoと提示時刻t₁とを関連付けて格納するDBである。

【0113】

図２６は、第２の実施形態に係る拠点R₂のサーバ３が備える音声時刻管理DB３３２のデータ構造の一例を示す図である。
音声時刻管理DB３３２は、音声オフセット算出部３１７から取得した時刻T_audioと提示時刻t₂とを関連付けて格納するDBである。
音声時刻管理DB３３２は、音声同期基準時刻カラムと提示時刻カラムとを備える。音声同期基準時刻カラムは、時刻T_audioを格納する。提示時刻カラムは、提示時刻t₂を格納する。

【0114】

（動作例）
以下では、拠点O、拠点R₁及び拠点R₂の動作を例にして説明する。

【0115】

（１）映像の加工再生
拠点Oにおけるサーバ１の映像処理について説明する。
イベント映像送信部１１２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットを拠点R₁～拠点R_nのそれぞれのサーバに送信する。映像V_signal1を格納したRTPパケットは、時刻T_videoを付与されている。時刻T_videoは、拠点O以外の各拠点（R₁、R₂、…、R_n）で映像を加工処理するために用いられる時刻情報である。イベント映像送信部１１２の処理は、図７を用いて第１の実施形態で説明した処理と同様であってもよく、その説明を省略する。

【0116】

拠点R₁におけるサーバ２の映像処理について説明する。
図２７は、第２の実施形態に係る拠点R₁におけるサーバ２の映像処理手順と処理内容を示すフローチャートである。
イベント映像受信部２１０２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットをサーバ１から受信する（ステップＳ２６）。
ステップＳ２６におけるイベント映像受信部２１０２の処理の典型例は、図８を用いて第１の実施形態で説明した処理と同様であってもよく、その説明を省略する。

【0117】

映像オフセット算出部２１０３は、映像提示装置２０１で映像V_signal1を再生された提示時刻t₁を算出する（ステップＳ２７）。
ステップＳ２７における映像オフセット算出部２１０３の処理の典型例は、図９を用いて第１の実施形態で説明した処理と同様であってもよく、その説明を省略する。

【0118】

映像加工受信部２１１１は、Δd_{x_video}を格納したRTCPパケットをサーバ３から受信する（ステップＳ２８）。
ステップＳ２８における映像加工受信部２１１１の処理の典型例は、図１２を用いて第１の実施形態で説明した映像加工受信部２１０４の処理と同様であってもよい。
図１２を用いた説明の記載において「映像加工受信部２１０４」、「折り返し映像加工部２１０５」及び「サーバ１」の表記を「映像加工受信部２１１１」、「映像加工部２１１２」及び「サーバ３」に読み替えることで、映像加工受信部２１１１の処理の説明を省略する。

【0119】

映像加工部２１１２は、Δd_{x_video}に基づく加工態様に応じて、映像V_signal2から映像V_signal3を生成する（ステップＳ２９）。
ステップＳ２９における映像加工部２１１２の処理の典型例は、図１３を用いて第１の実施形態で説明した折り返し映像加工部２１０５の処理と同様であってもよい。
図１３を用いた説明の記載において「映像加工受信部２１０４」、「折り返し映像加工部２１０５」、「折り返し映像撮影装置２０３」、「拠点O」及び「折り返し映像提示装置１０２」の表記を「映像加工受信部２１１１」、「映像加工部２１１２」、「映像撮影装置２０６」、「拠点R₂」及び「映像提示装置３０１」に読み替えることで、映像加工部２１１２の処理の説明を省略する。

【0120】

映像送信部２１１３は、IPネットワークを介して、映像V_signal3を格納したRTPパケットをサーバ３に送信する（ステップＳ３０）。
ステップＳ３０における映像送信部２１１３の処理の典型例は、図１４を用いて第１の実施形態で説明した折り返し映像送信部２１０６の処理と同様であってもよい。
図１４を用いた説明の記載において「折り返し映像加工部２１０５」及び「折り返し映像送信部２１０６」の表記を「映像加工部２１１２」及び「映像送信部２１１３」に読み替えることで、映像送信部２１１３の処理の説明を省略する。

【0121】

拠点R₂におけるサーバ３の映像処理について説明する。
図２８は、第２の実施形態に係る拠点R₂におけるサーバ３の映像処理手順と処理内容を示すフローチャートである。
イベント映像受信部３１２は、IPネットワークを介して、映像V_signal1を格納したRTPパケットをサーバ１から受信する（ステップＳ３１）。
ステップＳ３１におけるイベント映像受信部３１２の処理の典型例は、図８を用いて第１の実施形態で説明したイベント映像受信部２１０２の処理と同様であってもよい。
図８を用いた説明の記載において「イベント映像受信部２１０２」、「映像オフセット算出部２１０３」及び「映像提示装置２０１」の表記を「イベント映像受信部３１２」、「映像オフセット算出部３１３」及び「映像提示装置３０１」に読み替えることで、イベント映像受信部３１２の処理の説明を省略する。

【0122】

映像オフセット算出部３１３は、映像提示装置３０１で映像V_signal1を再生された提示時刻t₁を算出する（ステップＳ３２）。
ステップＳ３２における映像オフセット算出部３１３の処理の典型例は、図９を用いて第１の実施形態で説明した映像オフセット算出部２１０３の処理と同様であってもよい。
図９を用いた説明の記載において「イベント映像受信部２１０２」、「映像オフセット算出部２１０３」、「オフセット映像撮影装置２０２」及び「映像時刻管理DB２３１」の表記を「イベント映像受信部３１２」、「映像オフセット算出部３１３」、「オフセット映像撮影装置３０２」及び「映像時刻管理DB３３１」に読み替えることで、映像オフセット算出部３１３の処理の説明を省略する。

【0123】

映像受信部３１４は、IPネットワークを介して、映像V_signal3を格納したRTPパケットを拠点R₁のサーバ２から受信する（ステップＳ３３）。
ステップＳ３３における映像受信部３１４の処理の典型例は、図１０を用いて第１の実施形態で説明した折り返し映像受信部１１３の処理と同様であってもよい。
図１０を用いた説明の記載において「時刻管理部１１１」、「折り返し映像受信部１１３」、「映像加工通知部１１４」、「折り返し映像提示装置１０２」及び「折り返し映像送信部２１０６」の表記を「時刻管理部３１１」、「映像受信部３１４」、「映像加工通知部３１５」、「映像提示装置３０１」及び「映像送信部２１１３」に読み替えることで、映像受信部３１４の処理の説明を省略する。

【0124】

映像加工通知部３１５は、拠点R₁についてΔd_{x_video}を生成し、Δd_{x_video}を格納したRTCPパケットを拠点R₁のサーバ１に送信する（ステップＳ３４）。

【0125】

図２９は、第２の実施形態に係る拠点R₂におけるサーバ３のΔd_{x_video}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。図２９は、サーバ３のステップＳ３４の処理の典型例を示す。
映像加工通知部３１５は、映像受信部３１４から時刻T_video、現在時刻T_n及び送信元拠点R_xを取得する（ステップＳ３４１）。
映像加工通知部３１５は、映像時刻管理DB３３１を参照し、取得した時刻T_videoと一致する映像同期基準時刻をもつレコードを抽出する（ステップＳ３４２）。
映像加工通知部３１５は、映像時刻管理DB３３１を参照し、抽出したレコードの提示時刻カラムの提示時刻t₁を取得する（ステップＳ３４３）。提示時刻t₁は、拠点Oで時刻T_videoに取得された映像V_signal1を拠点R₂の映像提示装置３０１で再生された時刻である。

【0126】

映像加工通知部３１５は、現在時刻T_n及び提示時刻t₁に基づき現在時刻T_nから提示時刻t₁を引いた時間（T_n - t₁）を算出する（ステップＳ３４４）。
映像加工通知部３１５は、時間（T_n - t₁）が現在のΔd_{x_video}と一致するか否かを判断する（ステップＳ３４５）。Δd_{x_video}は、現在時刻T_nと提示時刻t₁との差の値である。現在のΔd_{x_video}は、今回算出された時間（T_n - t₁）よりも前に算出された時間（T_n - t₁）である。なお、Δd_{x_video}の初期値は、０とする。時間（T_n - t₁）が現在のΔd_{x_video}と一致する場合（ステップＳ３４５、ＹＥＳ）、処理は、終了する。時間（T_n - t₁）が現在のΔd_{x_video}と一致しない場合（ステップＳ３４５、ＮＯ）、処理は、ステップＳ３４５からステップＳ３４６に遷移する。時間（T_n - t₁）が現在のΔd_{x_video}と一致しないことは、Δd_{x_video}が変化したことに対応する。

【0127】

映像加工通知部３１５は、Δd_{x_video}をΔd_{x_video} = T_n - t₁に更新する（ステップＳ３４６）。
映像加工通知部３１５は、Δd_{x_video}を格納したRTCPパケットを送信する（ステップＳ３４７）。ステップＳ３４７では、例えば、映像加工通知部３１５は、更新したΔd_{x_video}をRTCPにおけるAPPを用いて記述する。映像加工通知部３１５は、Δd_{x_video}を格納したRTCPパケットを生成する。映像加工通知部３１５は、Δd_{x_video}を格納したRTCPパケットを、取得した送信元拠点R_xで示される拠点R₁に送信する。

【0128】

（２）音声の加工再生
拠点Oにおけるサーバ１の音声処理について説明する。
イベント音声送信部１１５は、IPネットワークを介して、音声A_signal1を格納したRTPパケットを拠点R₁～拠点R_nのそれぞれのサーバに送信する。音声A_signal1を格納したRTPパケットは、時刻T_audioを付与されている。時刻T_audioは、拠点O以外の各拠点（R₁、R₂、…、R_n）で音声を加工処理するために用いられる時刻情報である。イベント音声送信部１１５の処理は、図１７を用いて第１の実施形態で説明した処理と同様であってもよく、その説明を省略する。

【0129】

拠点R₁におけるサーバ２の音声処理について説明する。
図３０は、第２の実施形態に係る拠点R₁におけるサーバ２の音声処理手順と処理内容を示すフローチャートである。
イベント音声受信部２１０７は、IPネットワークを介して、音声A_signal1を格納したRTPパケットをサーバ１から受信する（ステップＳ３５）。
ステップＳ３５におけるイベント音声受信部２１０７の処理の典型例は、図１８を用いて第１の実施形態で説明した処理と同様であってもよく、その説明を省略する。

【0130】

音声加工受信部２１１４は、Δd_{x_audio}を格納したRTCPパケットをサーバ３から受信する（ステップＳ３６）。
ステップＳ３６における音声加工受信部２１１４の処理の典型例は、図２１を用いて第１の実施形態で説明した音声加工受信部２１０８の処理と同様であってもよい。
図２１を用いた説明の記載において「音声加工受信部２１０８」、「折り返し音声加工部２１０９」及び「サーバ１」の表記を「音声加工受信部２１１４」、「音声加工部２１１５」及び「サーバ３」に読み替えることで、音声加工受信部２１１４の処理の説明を省略する。

【0131】

音声加工部２１１５は、Δd_{x_audio}に基づく加工態様に応じて、音声A_signal2から音声A_signal3を生成する（ステップＳ３７）。
ステップＳ３７における音声加工部２１１５の処理の典型例は、図２２を用いて第１の実施形態で説明した折り返し音声加工部２１０９の処理と同様であってもよい。
図２２を用いた説明の記載において「音声加工受信部２１０８」、「折り返し音声加工部２１０９」、「折り返し音声収録装置２０５」、「拠点O」及び「折り返し音声提示装置１０４」の表記を「音声加工受信部２１１４」、「音声加工部２１１５」、「音声提示装置２０４」、「拠点R₂」及び「音声提示装置３０３」に読み替えることで、音声加工部２１１５の処理の説明を省略する。

【0132】

音声送信部２１１６は、IPネットワークを介して、音声A_signal3を格納したRTPパケットをサーバ３に送信する（ステップＳ３８）。
ステップＳ３８における音声送信部２１１６の処理の典型例は、図２３を用いて第１の実施形態で説明した折り返し音声送信部２１１０の処理と同様であってもよい。
図２３を用いた説明の記載において「折り返し音声加工部２１０９」及び「折り返し音声送信部２１１０」の表記を「音声加工部２１１５」及び「音声送信部２１１６」に読み替えることで、音声送信部２１１６の処理の説明を省略する。

【0133】

拠点R₂におけるサーバ３の音声処理について説明する。
図３１は、第２の実施形態に係る拠点R₂におけるサーバ３の音声処理手順と処理内容を示すフローチャートである。
イベント音声受信部３１６は、IPネットワークを介して、音声A_signal1を格納したRTPパケットをサーバ１から受信する（ステップＳ３９）。ステップＳ３９の処理の典型例については後述する。

【0134】

音声オフセット算出部３１７は、音声提示装置３０３で音声A_signal1を再生された提示時刻t₂を算出する（ステップＳ４０）。ステップＳ４０の処理の典型例については後述する。

【0135】

音声受信部３１８は、IPネットワークを介して、音声A_signal3を格納したRTPパケットを拠点R₁のサーバ２から受信する（ステップＳ４１）。
ステップＳ４１における音声受信部３１８の処理の典型例は、図１９を用いて第１の実施形態で説明した折り返し音声受信部１１６の処理と同様であってもよい。
図１９を用いた説明の記載において「折り返し音声受信部１１６」、「音声加工通知部１１７」、「折り返し音声提示装置１０４」及び「折り返し音声送信部２１１０」の表記を「音声受信部３１８」、「音声加工通知部３１９」、「音声提示装置３０３」及び「音声送信部２１１６」に読み替えることで、音声受信部３１８の処理の説明を省略する。

【0136】

音声加工通知部３１９は、拠点R₁についてΔd_{x_ audio}を生成し、Δd_{x_audio}を格納したRTCPパケットを拠点R₁のサーバ１に送信する（ステップＳ４２）。ステップＳ４２の処理の典型例については後述する。

【0137】

図３２は、第２の実施形態に係る拠点R₂におけるサーバ３の音声A_signal1を格納したRTPパケットの受信処理手順と処理内容を示すフローチャートである。図３２は、サーバ３のステップＳ３９の処理の典型例を示す。
イベント音声受信部３１６は、IPネットワークを介して、イベント音声送信部１１５から送出される音声A_signal1を格納したRTPパケットを受信する（ステップＳ３９１）。
イベント音声受信部３１６は、受信した音声A_signal1を格納したRTPパケットに格納されている音声A_signal1を取得する（ステップＳ３９２）。
イベント音声受信部３１６は、取得した音声A_signal1を音声提示装置３０３に出力する（ステップＳ３９３）。音声提示装置３０３は、音声A_signal1を再生して出力する。
イベント音声受信部３１６は、受信した音声A_signal1を格納したRTPパケットのヘッダ拡張領域に格納されている時刻T_audioを取得する（ステップＳ３９４）。
イベント音声受信部３１６は、取得した音声A_signal1及び時刻T_audioを音声オフセット算出部３１７に受け渡す（ステップＳ３９５）。

【0138】

図３３は、第２の実施形態に係る拠点R₂におけるサーバ３の提示時刻t₂の算出処理手順と処理内容を示すフローチャートである。図３３は、サーバ３のステップＳ４０の処理の典型例を示す。
音声オフセット算出部３１７は、音声A_signal1及び時刻T_audioをイベント音声受信部３１６から取得する（ステップＳ４０１）。
音声オフセット算出部３１７は、取得した音声A_signal1及びオフセット音声収録装置３０４から入力される音声に基づき、提示時刻t₂を算出する（ステップＳ４０２）。オフセット音声収録装置３０４が収録した音声は、音声提示装置３０３で再生された音声A_signal1と拠点R₂で発生した音声（拠点R₂にいる観客の歓声等）を含む。ステップＳ４０２では、例えば、音声オフセット算出部３１７は、公知の音声分析技術により、２つの音声を分離する。音声オフセット算出部３１７は、音声の分離により、音声提示装置３０３で音声A_signal1を再生された絶対時刻である提示時刻t₂を取得する。
音声オフセット算出部３１７は、取得した時刻T_audioを音声時刻管理DB３３２の音声同期基準時刻カラムに格納する（ステップＳ４０３）。
音声オフセット算出部３１７は、取得した提示時刻t₂を音声時刻管理DB３３２の提示時刻カラムに格納する（ステップＳ４０４）。

【0139】

図３４は、第２の実施形態に係る拠点R₂におけるサーバ３のΔd_{x_audio}を格納したRTCPパケットの送信処理手順と処理内容を示すフローチャートである。図３４は、サーバ３のステップＳ４２の処理の典型例を示す。
音声加工通知部３１９は、音声受信部３１８から時刻T_audio、現在時刻T_n及び送信元拠点R_xを取得する（ステップＳ４２１）。
音声加工通知部３１９は、音声時刻管理DB３３２を参照し、取得した時刻T_audioと一致する音声同期基準時刻をもつレコードを抽出する（ステップＳ４２２）。
音声加工通知部３１９は、音声時刻管理DB３３２を参照し、抽出したレコードの提示時刻カラムの提示時刻t₂を取得する（ステップＳ４２３）。提示時刻t₂は、拠点Oで時刻T_audioに取得された音声A_signal1を拠点R₂の音声提示装置３０３で再生された時刻である。

【0140】

音声加工通知部３１９は、現在時刻T_n及び提示時刻t₂に基づき現在時刻T_nから提示時刻t₂を引いた時間（T_n - t₂）を算出する（ステップＳ４２４）。
音声加工通知部３１９は、時間（T_n - t₂）が現在のΔd_{x_audio}と一致するか否かを判断する（ステップＳ４２５）。Δd_{x_ audio}は、現在時刻T_nと提示時刻t₂との差の値である。現在のΔd_{x_ audio}は、今回算出された時間（T_n - t₂）よりも前に算出された時間（T_n - t₂）である。なお、Δd_{x_audio}の初期値は、０とする。時間（T_n - t₂）が現在のΔd_{x_audio}と一致する場合（ステップＳ４２５、ＹＥＳ）、処理は、終了する。時間（T_n - t₂）が現在のΔd_{x_audio}と一致しない場合（ステップＳ４２５、ＮＯ）、処理は、ステップＳ４２５からステップＳ４２６に遷移する。時間（T_n - t₂）が現在のΔd_{x_audio}と一致しないことは、Δd_{x_audio}が変化したことに対応する。
音声加工通知部３１９は、Δd_{x_audio}をΔd_{x_audio} = T_n - T_audioに更新する（ステップＳ４２６）。
音声加工通知部３１９は、Δd_{x_audio}を格納したRTCPパケットを送信する（ステップＳ４２７）。ステップＳ４２７では、例えば、音声加工通知部３１９は、更新したΔd_{x_audio}をRTCPにおけるAPPを用いて記述する。音声加工通知部３１９は、Δd_{x_audio}を格納したRTCPパケットを生成する。音声加工通知部３１９は、Δd_{x_ audio}を格納したRTCPパケットを、取得した送信元拠点R_xで示される拠点に送信する。

【0141】

（効果）
以上述べたように第２の実施形態では、サーバ２は、サーバ３からの通知で示されるΔd_{x_video}に基づく加工態様に応じて映像V_signal2から映像V_signal3を生成する。サーバ２は、映像V_signal3をサーバ３に送信する。典型例では、サーバ２は、Δd_{x_video}に基づき加工態様を変える。サーバ２は、Δd_{x_video}が大きくなるにつれて映像の質を下げるように加工態様を変えてもよい。このように、サーバ２は、再生したときに映像が目立たなくなるように映像を加工処理することができる。一般に、ある地点Xからスクリーン等に投影された映像を見る場合、地点Xからスクリーンまでの距離がある一定の範囲内であれば映像を鮮明に視認することができる。他方、距離が遠くなるに従い、映像は小さくぼやけて見えるようになり視認しづらくなる。

【0142】

サーバ２は、サーバ３からの通知で示されるΔd_{x_audio}に基づく加工態様に応じて音声A_signal2から音声A_signal3を生成する。サーバ２は、映像V_signal3をサーバ３に送信する。典型例では、サーバ２は、Δd_{x_video}に基づき加工態様を変える。サーバ２は、Δd_{x_video}が大きくなるにつれて音声の質を下げるように加工態様を変えてもよい。このように、サーバ２は、再生したときに音声が聞き取りにくくなるように音声を加工処理することができる。一般に、ある地点Xからスピーカ等で再生された音声を聴く場合、地点Xからスピーカ（音源）までの距離がある一定の範囲内であれば音声を音源の発生と同時に、かつ、鮮明に聴認することができる。他方、距離が遠くなるに従い、音の再生時刻から遅れて、かつ、減衰して音が伝わり聴認しづらくなる。

【0143】

サーバ２は、Δd_{x_video}又はΔd_{x_video}に基づき上述のような視聴を再現させる加工処理を行うことで、物理的に離れた拠点にいる視聴者の様子を伝えつつも、データ伝送遅延時間の大きさによる違和感を軽減させることができる。

【0144】

このように、サーバ２は、拠点R₂において複数の拠点から異なる時刻に伝送される複数の映像・音声が再生されるときに視聴者が感じる違和感を低減させることができる。

【0145】

さらに、サーバ２は、拠点R₂に伝送する映像・音声の加工処理を実行することで、映像・音声のデータサイズを縮小することができる。これにより、映像・音声のデータ伝送時間は短縮する。データ伝送に必要なネットワーク帯域は削減する。

【0146】

［その他の実施形態］
メディア加工装置は、上記の例で説明したように１つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。

【0147】

プログラムは、電子機器に記憶された状態で譲渡されてよいし、電子機器に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、ＣＤ－ＲＯＭ、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。

【0148】

以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

【0149】

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

【符号の説明】

【0150】

１サーバ
２サーバ
３サーバ
１０時刻配信サーバ
１１制御部
１２プログラム記憶部
１３データ記憶部
１４通信インタフェース
１５入出力インタフェース
２１制御部
２２プログラム記憶部
２３データ記憶部
２４通信インタフェース
２５入出力インタフェース
３１制御部
３２プログラム記憶部
３３データ記憶部
３４通信インタフェース
３５入出力インタフェース
１０１イベント映像撮影装置
１０２折り返し映像提示装置
１０３イベント音声収録装置
１０４折り返し音声提示装置
１１１時刻管理部
１１２イベント映像送信部
１１３折り返し映像受信部
１１４映像加工通知部
１１５イベント音声送信部
１１６折り返し音声受信部
１１７音声加工通知部
２０１映像提示装置
２０２オフセット映像撮影装置
２０３折り返し映像撮影装置
２０４音声提示装置
２０５折り返し音声収録装置
２０６映像撮影装置
２０７音声収録装置
２１０１時刻管理部
２１０２イベント映像受信部
２１０３映像オフセット算出部
２１０４映像加工受信部
２１０５折り返し映像加工部
２１０６折り返し映像送信部
２１０７イベント音声受信部
２１０８音声加工受信部
２１０９折り返し音声加工部
２１１０折り返し音声送信部
２１１１映像加工受信部
２１１２映像加工部
２１１３映像送信部
２１１４音声加工受信部
２１１５音声加工部
２１１６音声送信部
２３１映像時刻管理DB
２３２音声時刻管理DB
３０１映像提示装置
３０２オフセット映像撮影装置
３０３音声提示装置
３０４オフセット音声収録装置
３１１時刻管理部
３１２イベント映像受信部
３１３映像オフセット算出部
３１４映像受信部
３１５映像加工通知部
３１６イベント音声受信部
３１７音声オフセット算出部
３１８音声受信部
３１９音声加工通知部
３３１映像時刻管理DB
３３２音声時刻管理DB
O 拠点
R₁～R_n 拠点
S メディア加工システム

【図1】