特開2023-98025 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローランド株式会社の特許一覧

特開2023-98025映像処理装置、映像処理システム及び映像処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023098025

(43)【公開日】2023-07-10

(54)【発明の名称】映像処理装置、映像処理システム及び映像処理方法

(51)【国際特許分類】

G10K 15/02 20060101AFI20230703BHJP

H04R 3/00 20060101ALI20230703BHJP

H04N 5/765 20060101ALI20230703BHJP

H04N 5/92 20060101ALI20230703BHJP

H04N 21/44 20110101ALI20230703BHJP

H04N 21/442 20110101ALI20230703BHJP

H04N 21/436 20110101ALI20230703BHJP

【ＦＩ】

G10K15/02

H04R3/00 320

H04N5/765

H04N5/92 020

H04N21/44

H04N21/442

H04N21/436

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2021214498

(22)【出願日】2021-12-28

(71)【出願人】

【識別番号】000116068

【氏名又は名称】ローランド株式会社

(74)【代理人】

【識別番号】110000534

【氏名又は名称】弁理士法人真明センチュリー

(72)【発明者】

【氏名】松本健一

【テーマコード（参考）】

5C053

5C164

5D208

5D220

【Ｆターム（参考）】

5C053FA14

5C053GB06

5C053JA23

5C053LA14

5C164GA05

5C164MA07S

5C164UA04S

5C164UB05P

5C164UB41P

5C164UB71P

5C164YA21

5D208BB07

5D208BB09

5D220BA30

(57)【要約】

【課題】映像と音声とのずれを抑制できる映像処理装置、映像処理システム及び映像処理方法を提供すること。
【解決手段】映像処理システムＳにおいてタブレット端末３０は、携帯端末７０から映像およびその映像の映像送信時刻を受信し、受信した映像の処理が完了した映像処理完了時刻を取得し、映像処理完了時刻と映像送信時刻との時間差である遅延時間を算出し、音声処理装置１に送信する。音声処理装置１で取得した音声を遅延時間だけ遅延させた遅延音声を作成し、タブレット端末３０に送信する。タブレット端末３０において処理された映像と遅延音声とを出力する。これにより、携帯端末７０でから受信した１の対象物の映像と、音声処理装置１で取得された１の対象物が発する音声とを出力する場合でも、これら映像と音声とのずれを抑制できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

接続された音声入力装置から音声を取得する音声取得手段と、
映像出力装置から映像を受信する映像受信手段と、
前記映像出力装置から、前記映像受信手段で受信された映像が前記映像出力装置から送信された時刻である映像送信時刻を受信する映像送信時刻受信手段と、
前記映像受信手段で受信された映像を処理する映像処理手段と、
その映像処理手段による処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得手段と、
その映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出手段と、
前記音声取得手段で取得された音声を、前記遅延時間算出手段で算出された遅延時間だけ遅延させた遅延音声を作成する遅延音声作成手段と、
前記映像処理手段で処理された映像と前記遅延音声作成手段で作成された遅延音声とを出力する出力手段とを備えていることを特徴とする映像処理装置。

【請求項2】

前記映像出力装置から音声を受信する音声受信手段と、
その音声受信手段で受信した音声を処理する音声処理手段とを備え、
前記出力手段は、前記映像処理手段で処理された映像と、前記音声処理手段で処理された音声と、前記遅延音声作成手段で作成された遅延音声とを出力するものであることを特徴とする請求項１記載の映像処理装置。

【請求項3】

前記映像出力装置から音声を受信する音声受信手段と、
その音声受信手段で受信した音声を処理する音声処理手段と、
前記映像出力装置から、前記音声受信手段で受信された音声が前記映像出力装置から送信された時刻である音声送信時刻を受信する音声送信時刻受信手段を備え、
前記遅延時間算出手段は、前記映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記音声送信時刻受信手段で受信した音声送信時刻との時間差を遅延時間として算出するものであることを特徴とする請求項１又は２に記載の映像処理装置。

【請求項4】

前記映像出力装置から音声を受信する音声受信手段と、
その音声受信手段で受信した音声を処理する音声処理手段と、
前記映像出力装置から、前記音声受信手段で受信された音声が前記映像出力装置から送信された時刻である音声送信時刻を受信する音声送信時刻受信手段と、
前記音声処理手段による処理が完了した時刻である音声処理完了時刻を取得する音声処理完了時刻取得手段とを備え、
前記遅延時間算出手段は、前記音声処理完了時刻取得手段で取得された音声処理完了時刻と、前記音声送信時刻受信手段で受信した音声送信時刻との時間差を遅延時間として算出するものであることを特徴とする請求項１又は２に記載の映像処理装置。

【請求項5】

前記映像出力装置から音声を受信する音声受信手段と、
その音声受信手段で受信した音声を処理する音声処理手段と、
前記音声処理手段による処理が完了した時刻である音声処理完了時刻を取得する音声処理完了時刻取得手段とを備え、
前記遅延時間算出手段は、前記音声処理完了時刻取得手段で取得された音声処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差を遅延時間として算出するものであることを特徴とする請求項１又は２に記載の映像処理装置。

【請求項6】

前記映像受信手段によって、前記映像出力装置から映像を受信した時刻である映像受信完了時刻を取得する映像受信完了時刻取得手段を備え、
前記遅延時間算出手段は、前記映像受信完了時刻取得手段で取得された映像受信完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差を遅延時間として算出するものであることを特徴とする請求項１又は２に記載の映像処理装置。

【請求項7】

前記映像出力装置から音声を受信する音声受信手段と、
その音声受信手段によって、前記映像出力装置から音声を受信した時刻である音声受信完了時刻を取得する音声受信完了時刻取得手段とを備え、
前記遅延時間算出手段は、前記音声受信完了時刻取得手段で取得された音声受信完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差を遅延時間として算出するものであることを特徴とする請求項１又は２に記載の映像処理装置。

【請求項8】

前記映像受信手段は、複数の前記映像出力装置からそれぞれの映像を受信するものであり、
前記映像送信時刻受信手段は、複数の前記映像出力装置のうちの１の前記映像出力装置から映像送信時刻を受信するものであり、
前記映像処理手段は、前記映像受信手段で受信した複数の前記映像出力装置からの映像をそれぞれ処理するものであり、
前記映像処理完了時刻取得手段は、前記映像送信時刻受信手段で映像送信時刻を受信した１の前記映像出力装置から受信した映像の処理の映像処理完了時刻を取得するものであることを特徴とする請求項１から７のいずれかに記載の映像処理装置。

【請求項9】

複数の前記映像出力装置と当該映像処理装置とは、無線通信によって接続されるものであることを特徴とする請求項１から８のいずれかに記載の映像処理装置。

【請求項10】

複数の前記映像出力装置は、それぞれ同一の前記無線通信のアクセスポイントに接続されるものであることを特徴とする請求項９記載の映像処理装置。

【請求項11】

映像出力装置から映像を受信する映像受信手段と、
前記映像出力装置から映像送信時刻を受信する映像送信時刻受信手段と、
前記映像受信手段で受信された映像を処理する映像処理手段と、
その映像処理手段による処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得手段と、
その映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出手段と、
その遅延時間算出手段で算出された遅延時間を音声処理装置に送信する遅延時間送信手段と、
前記音声処理装置から音声を受信する音声受信手段と、
前記映像処理手段で処理された映像と前記音声受信手段で受信した音声とを出力する出力手段とを備えていることを特徴とする映像処理装置。

【請求項12】

映像出力装置と、映像処理装置と、音声処理装置とから構成される映像処理システムであって、
前記映像出力装置は、
映像を撮影する撮影手段と、
その撮影手段で撮影された映像を前記映像処理装置に送信する映像送信手段と、
前記映像送信手段で映像が送信された時刻である映像送信時刻を取得する送信時刻取得手段と、
その送信時刻取得手段で取得された映像送信時刻を前記映像処理装置に送信する映像送信時刻送信手段とを備え、
前記映像処理装置は、
前記映像出力装置から映像を受信する映像受信手段と、
前記映像出力装置から映像送信時刻を受信する映像送信時刻受信手段と、
前記映像受信手段で受信された映像を処理する映像処理手段と、
その映像処理手段による処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得手段と、
その映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出手段と、
その遅延時間算出手段で算出された遅延時間を前記音声処理装置に送信する遅延時間送信手段と、
前記音声処理装置から遅延音声を受信する遅延音声受信手段と、
前記映像処理手段で処理された映像と前記遅延音声受信手段で受信した遅延音声とを出力する出力手段とを備え、
前記音声処理装置は、
接続された音声入力装置から音声を取得する音声取得手段と、
前記映像処理装置から遅延時間を受信する遅延時間受信手段と、
前記音声取得手段で取得された音声を、前記遅延時間受信手段で受信した遅延時間だけ遅延させた遅延音声を作成する遅延音声作成手段と、
その遅延音声作成手段で作成された遅延音声を前記映像処理装置に送信する遅延音声送信手段とを備えていることを特徴とする映像処理システム。

【請求項13】

音声を取得する音声取得ステップと、
映像を受信する映像受信ステップと、
前記映像受信ステップで受信された映像が送信された時刻である映像送信時刻を受信する映像送信時刻受信ステップと、
前記映像受信ステップで受信された映像を処理する映像処理ステップと、
その映像処理ステップによる処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得ステップと、
その映像処理完了時刻取得ステップで取得された映像処理完了時刻と、前記映像送信時刻受信ステップで受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出ステップと、
前記音声取得ステップで取得された音声を、前記遅延時間算出ステップで算出された遅延時間だけ遅延させた遅延音声を作成する遅延音声作成ステップと、
前記映像処理ステップで処理された映像と前記遅延音声作成ステップで作成された遅延音声とを出力する出力ステップとを備えていることを特徴とする映像処理方法。

【請求項14】

映像を受信する映像受信ステップと、
その映像受信ステップで受信された映像が送信された時刻である映像送信時刻を受信する映像送信時刻受信ステップと、
前記映像受信ステップで受信された映像を処理する映像処理ステップと、
その映像処理ステップによる処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得ステップと、
その映像処理完了時刻取得ステップで取得された映像処理完了時刻と、前記映像送信時刻受信ステップで受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出ステップと、
その遅延時間算出ステップで算出された遅延時間を送信する遅延時間送信ステップと、
音声を受信する音声受信ステップと、
前記映像処理ステップで処理された映像と前記音声受信ステップで受信した音声とを出力する出力ステップとを備えていることを特徴とする映像処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像処理装置、映像処理システム及び映像処理方法に関するものである。

【背景技術】

【0002】

特許文献１には、受信したＭＰＥＧ－２トランスポートストリーム（以下「ストリーム」と略す）の映像と音声とを同期して出力する技術が記載されている。具体的に、ストリームには「ＰＴＳ」と呼ばれる映像と音声とを同期させるための時間情報が含まれており、受信したストリームの映像を処理した時間と、ＰＴＳとの時間差が映像を処理した際の遅延とされ、音声に適用される。これにより、ストリームにおける映像と音声との遅延を抑制することができる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】米国特許第７，４６０，１７３号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１においてストリームによる映像および音声と、そのストリームを作成した装置と別の装置で取得された音声をミキシングして出力する場合、ストリームによる映像および音声と、別の装置で取得された音声との同期が取れず、これらの間にずれが生じてしまうといった問題点があった。

【0005】

本発明は、上記問題点を解決するためになされたものであり、映像と音声とのずれを抑制できる映像処理装置、映像処理システム及び映像処理方法を提供することを目的としている。

【課題を解決するための手段】

【0006】

この目的を達成するために本発明の映像処理装置は、接続された音声入力装置から音声を取得する音声取得手段と、映像出力装置から映像を受信する映像受信手段と、前記映像出力装置から、前記映像受信手段で受信された映像が前記映像出力装置から送信された時刻である映像送信時刻を受信する映像送信時刻受信手段と、前記映像受信手段で受信された映像を処理する映像処理手段と、その映像処理手段による処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得手段と、その映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出手段と、前記音声取得手段で取得された音声を、前記遅延時間算出手段で算出された遅延時間だけ遅延させた遅延音声を作成する遅延音声作成手段と、前記映像処理手段で処理された映像と前記遅延音声作成手段で作成された遅延音声とを出力する出力手段とを備えている。

【0007】

本発明の別の映像処理装置は、映像出力装置から映像を受信する映像受信手段と、前記映像出力装置から映像送信時刻を受信する映像送信時刻受信手段と、前記映像受信手段で受信された映像を処理する映像処理手段と、その映像処理手段による処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得手段と、その映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出手段と、その遅延時間算出手段で算出された遅延時間を音声処理装置に送信する遅延時間送信手段と、前記音声処理装置から音声を受信する音声受信手段と、前記映像処理手段で処理された映像と前記音声受信手段で受信した音声とを出力する出力手段とを備えている。

【0008】

本発明の映像処理システムは、映像出力装置と、映像処理装置と、音声処理装置とから構成されるシステムであり、前記映像出力装置は、映像を撮影する撮影手段と、その撮影手段で撮影された映像を前記映像処理装置に送信する映像送信手段と、前記映像送信手段で映像が送信された時刻である映像送信時刻を取得する送信時刻取得手段と、その送信時刻取得手段で取得された映像送信時刻を前記映像処理装置に送信する映像送信時刻送信手段とを備え、前記映像処理装置は、前記映像出力装置から映像を受信する映像受信手段と、前記映像出力装置から映像送信時刻を受信する映像送信時刻受信手段と、前記映像受信手段で受信された映像を処理する映像処理手段と、その映像処理手段による処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得手段と、その映像処理完了時刻取得手段で取得された映像処理完了時刻と、前記映像送信時刻受信手段で受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出手段と、その遅延時間算出手段で算出された遅延時間を前記音声処理装置に送信する遅延時間送信手段と、前記音声処理装置から遅延音声を受信する遅延音声受信手段と、前記映像処理手段で処理された映像と前記遅延音声受信手段で受信した遅延音声とを出力する出力手段とを備え、前記音声処理装置は、接続された音声入力装置から音声を取得する音声取得手段と、前記映像処理装置から遅延時間を受信する遅延時間受信手段と、前記音声取得手段で取得された音声を、前記遅延時間受信手段で受信した遅延時間だけ遅延させた遅延音声を作成する遅延音声作成手段と、その遅延音声作成手段で作成された遅延音声を前記映像処理装置に送信する遅延音声送信手段とを備えている。

【0009】

本発明の映像処理方法は、音声を取得する音声取得ステップと、映像を受信する映像受信ステップと、前記映像受信ステップで受信された映像が送信された時刻である映像送信時刻を受信する映像送信時刻受信ステップと、前記映像受信ステップで受信された映像を処理する映像処理ステップと、その映像処理ステップによる処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得ステップと、その映像処理完了時刻取得ステップで取得された映像処理完了時刻と、前記映像送信時刻受信ステップで受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出ステップと、前記音声取得ステップで取得された音声を、前記遅延時間算出ステップで算出された遅延時間だけ遅延させた遅延音声を作成する遅延音声作成ステップと、前記映像処理ステップで処理された映像と前記遅延音声作成ステップで作成された遅延音声とを出力する出力ステップとを備えている。

【0010】

また、本発明の別の映像処理方法は、映像を受信する映像受信ステップと、その映像受信ステップで受信された映像が送信された時刻である映像送信時刻を受信する映像送信時刻受信ステップと、前記映像受信ステップで受信された映像を処理する映像処理ステップと、その映像処理ステップによる処理が完了した時刻である映像処理完了時刻を取得する映像処理完了時刻取得ステップと、その映像処理完了時刻取得ステップで取得された映像処理完了時刻と、前記映像送信時刻受信ステップで受信した映像送信時刻との時間差である遅延時間を算出する遅延時間算出ステップと、その遅延時間算出ステップで算出された遅延時間を送信する遅延時間送信ステップと、音声を受信する音声受信ステップと、前記映像処理ステップで処理された映像と前記音声受信ステップで受信した音声とを出力する出力ステップとを備えている

【図面の簡単な説明】

【0011】

【図1】映像処理システムの概要を表す図である。

【図2】（ａ）は、フルオートモードにおける遅延時間の設定を説明する図であり、（ｂ）は、フルオートモードにおけるマイク、携帯端末およびタブレット端末のタイミングを表す図である。

【図3】セミオートモードにおける遅延時間の設定を説明する図である。

【図4】映像処理システムの機能ブロック図である。

【図5】映像処理システムにおける音声処理装置およびタブレット端末の電気的構成を示すブロック図である。

【図6】映像処理システムにおける携帯端末の電気的構成を示すブロック図である。

【図7】携帯メイン処理のフローチャートである。

【図8】タブレットメイン処理のフローチャートである。

【図9】遅延時間設定処理のフローチャートである。

【図10】音声メイン処理のフローチャートである。

【発明を実施するための形態】

【0012】

以下、好ましい実施例について、添付図面を参照して説明する。図１を参照して本実施形態の映像処理システムＳの概要を説明する。図１は、映像処理システムＳの概要を表す図である。図１に示す通り、映像処理システムＳは、音声処理装置１と、タブレット端末３０と、複数の携帯端末７０とで構成される。

【0013】

音声処理装置１は、タブレット端末３０に有線接続され、取得した音声を遅延させてタブレット端末３０に送信する装置である。音声処理装置１には、音声を取得するマイク１００が接続される。マイク１００から取得された音声を、タブレット端末３０から受信した後述の遅延時間分遅延させた音声である遅延音声を作成し、作成された遅延音声をタブレット端末３０に送信する。

【0014】

音声処理装置１には、設定キー１５が設けられる。設定キー１５は、具体的に、つまみ状の操作子であるツマミ１５ａと、ボタン状の操作子であるボタン１５ｂと、スライダー状の操作子であるスライダー１５ｃとで構成される。設定キー１５によって、入力された音声の音量等の調整や、遅延音声に用いる遅延時間の設定をすることができる。

【0015】

また、設定キー１５で設定値に応じた制御信号をタブレット端末３０に送信し、その制御信号によりタブレット端末３０を操作することもできる。これにより、ハードキーで構成される設定キー１５により、タブレット端末３０をより直感的に操作できる。

【0016】

タブレット端末３０は、音声処理装置１から受信した遅延音声と、携帯端末７０から受信した映像および音声とを合成して出力する映像処理装置（コンピュータ）である。タブレット端末３０には合成した映像および音声を出力する外部モニタ２００が接続される。

【0017】

タブレット端末３０は、複数の携帯端末７０のそれぞれから受信した映像および音声を適宜合成して組み合わせた映像および音声を作成したり、複数の携帯端末７０から受信した映像および音声のうち、出力する映像および音声を選択することができる。この際、映像および音声の合成や選択に、上記した音声処理装置１の設定キー１５による制御信号を用いても良い。また、タブレット端末３０のカメラやマイクで取得された画像、映像または音声や、タブレット端末３０に記憶された画像、映像または音声を、複数の携帯端末７０の受信した映像と合成する等しても良い。

【0018】

このように、携帯端末７０から取得され合成および／または選択された映像および音声に、音声処理装置１から受信した遅延音声がミキシングされて外部モニタ２００に出力されることで、外部モニタ２００に表示される。

【0019】

なお、タブレット端末３０で合成等された映像および音声は、外部モニタ２００に出力されるものに限られず、例えば、インターネット等を介して外部に配信しても良いし、記録媒体に記憶させても良い。また、出力される映像および音声において、携帯端末７０から受信した音声が含まれなくても良い。更に出力される映像および音声において、同様に携帯端末７０から受信した映像または音声が含まれなくても良い。

【0020】

携帯端末７０は、タブレット端末３０に無線接続され、映像および音声を取得する映像出力装置（情報処理装置、コンピュータ）である。携帯端末７０には、映像を取得する携帯カメラ７６（図６参照）と、音声を取得する携帯マイク７７（図６参照）とが設けられる。携帯カメラ７６で取得された映像と携帯マイク７７で取得された音声が、それぞれタブレット端末３０に送信される。なお、映像処理システムＳに含まれる携帯端末７０の台数は、複数台に限られず１台でも良い。また、携帯カメラ７６からタブレット端末３０に送信される映像および音声は、携帯カメラ７６及び携帯マイク７７から取得されるものに限られず、例えば、携帯端末７０に記憶されている映像および音声でも良いし、携帯端末７０でプレイしているゲームの映像および音声でも良い。

【0021】

携帯端末７０とタブレット端末３０とは、無線通信（例えばＷｉ－Ｆｉ（登録商標））で接続される。また、複数の携帯端末７０は、１の無線通信のアクセスポイント５０（以下「ＡＰ５０」と略す）に接続される。複数の携帯端末７０が１のＡＰ５０に接続されることで、複数の携帯端末７０が同時に映像および音声を取得し、タブレット端末３０に送信する場合でも、取得された映像および音声の間の通信によるずれ（遅延）を抑制することができる。なお、複数の携帯端末７０を１のＡＰ５０に接続されるものに限られず、異なる複数のＡＰ５０に接続しても良い。

【0022】

このように、タブレット端末３０においては、携帯端末７０で受信した映像および音声と、音声処理装置１から受信した音声とを合成して出力される。一般的に、映像の取得や映像に対する合成等の処理は、音声の取得や音声に対する合成等の処理よりも時間を要する。従って、タブレット端末３０において、携帯端末７０からの映像と、音声処理装置１から受信した音声とを合成すると、携帯端末７０からの映像の方が音声処理装置１から受信した音声よりも遅延してしまう。

【0023】

例えば、ギターを演奏している人物の映像を携帯端末７０で取得し、その人物が演奏している演奏音を音声処理装置１で取得する場合、音声処理装置１で取得されたギター音が、ギターを演奏している人物の映像よりも先に出力される、いわゆる「音ずれ」が発生してしまう。そこで本実施形態では、音声処理装置１において、マイク１００で取得された音声を、タブレット端末３０から設定された遅延時間に応じて遅延させる。これにより、携帯端末７０で受信した映像および音声と、音声処理装置１から受信した音声とのずれを抑制することができる。

【0024】

更に遅延時間の設定方式としては、携帯端末７０から映像が送信された時刻や映像が処理された時刻により、都度、遅延時間を設定する方式であるフルオートモードと、特定の音（具体的にはハンドクラップ音）を発生させその音が音声処理装置１及び携帯端末７０で観測されるタイミングに基づいて遅延時間を設定するセミオートモードとが設けられる。図２，３を参照して、フルオートモードとセミオートモードとにおける遅延時間を説明する。

【0025】

まず、フルオートモードを説明する。図２（ａ）は、フルオートモードにおける遅延時間の設定を説明する図であり、図２（ｂ）は、フルオートモードにおけるマイク１００、携帯端末７０及びタブレット端末３０のタイミングを表す図である。フルオートモードにおける遅延時間は、携帯端末７０で映像が取得された時刻と、その映像に関するタブレット端末３０の任意の処理が完了した時刻（例えば、映像の受信を完了した時刻や映像の合成を完了した時刻等）とに基づいて遅延時間が設定される。

【0026】

タブレット端末３０に携帯端末７０が接続された際、タブレット端末３０は、複数の携帯端末７０のそれぞれが内蔵するタイマ等の計時手段の時刻をリセット（例えば０時００分）させる時刻リセット指示を送信する。時刻リセット指示を送信したタブレット端末３０と、時刻リセット指示を受信した携帯端末７０とは、各自の計時手段の時刻をリセットする。

【0027】

音声処理装置１と携帯端末７０の携帯マイク７７とが、音声を実際に取得するタイミングをＴａ０とし、携帯端末７０の携帯カメラ７６が実際に映像を取得するタイミングをＴｖ０とする。これらＴａ０とＴｖ１は、同じタイミングである。

【0028】

携帯端末７０の携帯マイク７７がＴａ０において音声を取得して、携帯端末７０において必要な処理を行い、そしてタブレット端末３０に送信する時刻がＴａ１である。このタイミングＴａ１を「音声送信時刻」という。同様に、携帯端末７０の携帯カメラ７６がＴａ０において映像を取得し、携帯端末７０において必要な処理を行い、そしてタブレット端末３０に送信する時刻がＴｖ１である。このタイミングＴｖ１を「映像送信時刻」という。

【0029】

これらタイミングＴａ１，Ｔｖ１は、携帯端末７０による処理が加えられた後のため、タイミングＴａ０，Ｔｖ０よりもそれぞれ遅い時刻となる。更に映像の処理は、音声の処理よりも携帯端末７０の処理負荷が高いため、映像送信時刻Ｔｖ１は音声送信時刻Ｔａ１よりも遅い時刻となる。このような音声送信時刻Ｔａ１は、対応する音声と共にタブレット端末３０に送信され、映像送信時刻Ｔｖ１も、対応する映像と共にタブレット端末３０に送信される。

【0030】

タブレット端末３０は、携帯端末７０から受信した音声と映像との合成等の処理を行う。かかる処理において音声の処理が完了した時刻がＴａ２であり、このタイミングＴａ２を「音声処理完了時刻」という。また、かかるにおいて上記した映像の任意の処理が完了した時刻がＴｖ２であり、このタイミングＴｖ２を「映像処理完了時刻」という。携帯端末７０と同様に、映像の処理は、音声の処理よりも処理負荷が高いため、映像処理完了時刻Ｔｖ２は映像送信時刻Ｔａ２よりも遅い時刻となる。

【0031】

タブレット端末３０は、映像処理完了時刻Ｔｖ２と映像送信時刻Ｔｖ１との差を遅延時間として算出し、音声処理装置１に送信する。音声処理装置１では、マイク１００から取得した音声を、受信した遅延時間だけ遅延させた遅延音声を作成し、タブレット端末３０に送信する。

【0032】

ここで、実際に携帯端末７０が映像および音声を取得したタイミングＴａ０，Ｔｖ０は、映像および音声が情報として成立しておらず、携帯端末７０では正確に計時することができない。一方で、映像送信時刻Ｔｖ１は、映像として成立し、その後の処理が加えられた後なので、そのタイミングを正確に計時できる。

【0033】

このように、フルオートモードにおいては、映像に関して計時が可能な最速のタイミングである映像送信時刻Ｔｖ１と、タブレット端末３０において合成等の処理が完了し、外部モニタ２００に出力する直前の、映像に関して最も遅いタイミングである映像処理完了時刻Ｔｖ２との差に基づいて遅延時間が算出される。これにより、音声処理装置１において取得された音声のタイミングを、より携帯端末７０で映像が取得されたタイミングまで遅延させることができるので、音声処理装置１において取得された音声と携帯端末７０で取得された映像とのずれをより抑制できる。

【0034】

また、このように音声送信時刻Ｔａ１及び映像送信時刻Ｔｖ１を送信する携帯端末７０は、複数の携帯端末７０のうち、予め選定された１の携帯端末７０のみとされる。本実施形態において、複数の携帯端末７０のうち１の携帯端末７０を選定する方式としては、複数の携帯端末７０の接続時にそれぞれに固有に割り振られる整数の識別子のうち、最も値が低い識別子の携帯端末７０が選定される。

【0035】

これにより、タブレット端末３０を操作するユーザＨが、複数の携帯端末７０のうち遅延時間を算出する対象とされる１の携帯端末７０を都度選択する必要がない。また、タブレット端末３０において複数の携帯端末７０のそれぞれに対して遅延時間を算出する必要もないので、タブレット端末３０の処理負荷を低減させることができる。

【0036】

次に、図３を参照してセミオートモードを説明する。図３は、セミオートモードにおける遅延時間の設定を説明する図である。セミオートモードにおいては、特定の音を音声処理装置１のマイク１００と携帯端末７０の携帯マイク７７とで観測したタイミングに基づいて遅延時間が設定される。

【0037】

具体的には、特定の音、例えば、図３に示すようなユーザＨが拍手をする音（以下「ハンドクラップ音」という）を、携帯端末７０の携帯マイク７７と音声処理装置１のマイク１００とで同時に観測させ、その際に携帯端末７０の携帯マイク７７で観測された音声の波形データである音声Ｗａ１と、音声処理装置１のマイク１００で観測された音声の波形データである音声Ｗａ２とをタブレット端末３０に送信させる。なお、音声Ｗａ１を送信する携帯端末７０は、上記のフルオートモードと同様に複数の携帯端末７０のうち、最も値が低い識別子の携帯端末７０とされる。

【0038】

タブレット端末３０において、音声Ｗａ１でピークとなる時刻、即ちハンドクラップ音が観測された時刻をピーク時刻Ｔａ３とし、同様に音声Ｗａ２でピークとなる時刻をピーク時刻Ｔａ４とする。そして、ピーク時刻Ｔａ３とピーク時刻Ｔａ４との時間差を遅延時間として音声処理装置１に送信される。

【0039】

セミオートモードにおいては、携帯端末７０と音声処理装置１とで同時に観測される１の特定の音のピークに基づいて遅延時間が設定される。これにより、音声処理装置１で取得される音と携帯端末７０で取得される音とのずれを、より好適に抑制することができる。また、携帯端末７０と音声処理装置１とで観測されるピークに基づくことで、これらのずれを容易に取得し、遅延時間を算出することができる。

【0040】

次に、映像処理システムＳの機能を説明する。次に、図４を参照して映像処理システムＳの機能を説明する。図４は、映像処理システムＳの機能ブロック図である。図４に示すように、携帯端末７０は、撮影手段４００と、映像送信手段４０１と、送信時刻取得手段４０２と、映像送信時刻送信手段４０３とを有する。

【0041】

撮影手段４００は、映像を撮影する手段であり、携帯カメラ７６で実現される。映像送信手段４０１は、撮影手段４００で撮影された映像をタブレット端末３０に送信する手段であり、図６で後述のＣＰＵ７１及び無線通信装置７８で実現される。送信時刻取得手段４０２は、映像送信手段４０１で映像が送信された時刻である映像送信時刻を取得する手段であり、ＣＰＵ７１で実現される。映像送信時刻送信手段４０３は、送信時刻取得手段４０２で取得された映像送信時刻をタブレット端末３０に送信する手段であり、ＣＰＵ７１及び無線通信装置７８で実現される。

【0042】

タブレット端末３０は、映像受信手段５００と、映像送信時刻受信手段５０１と、映像処理手段５０２と、映像処理完了時刻取得手段５０３と、遅延時間算出手段５０４と、遅延時間送信手段５０５と、遅延音声受信手段５０６と、出力手段５０７を有する。

【0043】

映像受信手段５００は、携帯端末７０から映像を受信する手段であり、図５で後述のＣＰＵ３１及び無線通信装置３７で実現される。映像送信時刻受信手段５０１は、携帯端末７０から映像送信時刻を受信する手段であり、ＣＰＵ３１及び無線通信装置３７で実現される。映像処理手段５０２は、映像受信手段５００で受信した映像を処理する手段であり、ＣＰＵ３１で実現される。映像処理完了時刻取得手段５０３は、映像処理手段５０２による処理が完了した時刻である映像処理完了時刻を取得する手段であり、ＣＰＵ３１で実現される。遅延時間算出手段５０４は、映像処理完了時刻取得手段５０３で取得された時刻と、映像送信時刻受信手段５０１で受信した映像送信時刻との時間差である遅延時間を算出する手段であり、ＣＰＵ３１で実現される。

【0044】

遅延時間送信手段５０５は、遅延時間算出手段５０４で算出された遅延時間を音声処理装置１に送信する手段であり、ＣＰＵ３１及び図５で後述の入出力端子３６で実現される。遅延音声受信手段５０６は、音声処理装置１から遅延音声を受信するであり、ＣＰＵ３１及び入出力端子３６で実現される。出力手段５０７は、映像処理手段５０２で処理された映像と遅延音声受信手段５０６で受信した遅延音声とを出力する手段であり、ＣＰＵ３１で実現される。

【0045】

音声処理装置１は、音声取得手段６００と、遅延時間受信手段６０１と、遅延音声作成手段６０２と、遅延音声送信手段６０３とを有する。音声取得手段６００は、接続されたマイク１００から音声を取得する手段であり、図５で後述のＣＰＵ１０で実現される。遅延時間受信手段６０１は、タブレット端末３０から遅延時間を受信する手段であり、ＣＰＵ１０及び図５で後述の入出力端子１６で実現される。遅延音声作成手段６０２は、音声取得手段６００で取得された音声を、遅延時間受信手段６０１で受信した遅延時間だけ遅延させた遅延音声を作成する手段であり、ＣＰＵ１０で実現される。遅延音声送信手段６０３は、遅延音声作成手段６０２で作成された遅延音声をタブレット端末３０に送信する手段であり、ＣＰＵ１０及び入出力端子１６で実現される。

【0046】

映像処理システムＳにおいてタブレット端末３０は、携帯端末７０から映像およびその映像の映像送信時刻を受信し、受信した映像の処理が完了した映像処理完了時刻を取得する。そして、映像処理完了時刻と映像送信時刻との時間差である遅延時間を算出し、音声処理装置１に送信する。音声処理装置１で取得した音声を遅延時間だけ遅延させた遅延音声を作成し、タブレット端末３０に送信する。タブレット端末３０において処理された映像と遅延音声とを合成して出力する。これにより、携帯端末７０でから受信した１の対象物の映像と、音声処理装置１で取得された１の対象物が発する音声とを合成する場合でも、これら映像と音声とのずれを抑制でき、これら映像と音声とを視聴した視聴者の違和感を抑制できる。

【0047】

次に図５，６を参照して、映像処理システムＳの電気的構成を説明する。図５は、映像処理システムＳにおける音声処理装置１及びタブレット端末３０の電気的構成を示すブロック図である。音声処理装置１は、ＣＰＵ１０と、フラッシュＲＯＭ１１と、ＲＡＭ１２とを有し、これらはバスライン１３を介して入出力ポート１４にそれぞれ接続されている。入出力ポート１４には更に、上記した設定キー１５及びマイク１００と、入出力端子１６とが接続される。

【0048】

ＣＰＵ１０は、バスライン１３により接続された各部を制御する演算装置である。フラッシュＲＯＭ１１は、ＣＰＵ１０により実行されるプログラムや固定値データ等を格納した書き換え可能な不揮発性の記憶装置であり、制御プログラム１１ａが含まれる。ＣＰＵ１０によって制御プログラム１１ａが実行されると、図１０で後述の音声メイン処理が実行される。

【0049】

ＲＡＭ１２は、ＣＰＵ１０がプログラムの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するための揮発性のメモリであり、遅延時間が記憶される遅延時間メモリ１２ａが含まれる。

【0050】

入出力端子１６は、タブレット端末３０と接続するための端子である。本実施形態において、入出力端子１６はＵＳＢ（登録商標）規格に基づいて構成されるが、ＵＳＢ以外の他の通信規格に基づいても良い。

【0051】

タブレット端末３０は、ＣＰＵ３１と、フラッシュＲＯＭ３２と、ＲＡＭ３３とを有し、これらはバスライン３４を介して入出力ポート３５にそれぞれ接続されている。入出力ポート３５には更に、入出力端子３６と、無線通信装置３７と、携帯端末７０から取得された映像等が表示されるＬＣＤ３８と、ユーザＨからの指示が入力されるタッチパネル３９と、ビデオ出力装置４０とが接続される。

【0052】

ＣＰＵ３１は、バスライン３４により接続された各部を制御する演算装置である。フラッシュＲＯＭ３２は、ＣＰＵ３１により実行されるプログラムや固定値データ等を格納した書き換え可能な不揮発性の記憶装置であり、制御プログラム３２ａが含まれる。ＣＰＵ３１によって制御プログラム３２ａが実行されると、図８のタブレットメイン処理が実行される。

【0053】

ＲＡＭ３３は、ＣＰＵ３１がプログラムの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するための揮発性のメモリであり、遅延時間が記憶される遅延時間メモリ３３ａが含まれる。

【0054】

入出力端子３６は、音声処理装置１と接続するための端子である。本実施形態において、入出力端子３６はＵＳＢ規格に基づいて構成されるが、上記した入出力端子１６と通信可能な通信規格であれば、他の通信規格に基づいても良い。無線通信装置３７は、無線通信をするための装置である。無線通信装置３７は、ＡＰ５０と無線接続され、そのＡＰ５０を介して携帯端末７０に無線接続される。

【0055】

ビデオ出力装置４０は、タブレット端末３０で作成された映像および音声を出力する装置である。ビデオ出力装置４０は、外部モニタ２００と接続され、タブレット端末３０で作成された映像および音声が、ビデオ出力装置４０を介して外部モニタ２００に出力される。

【0056】

図６は、映像処理システムＳにおける携帯端末７０の電気的構成を示すブロック図である。携帯端末７０は、ＣＰＵ７１と、フラッシュＲＯＭ７２と、ＲＡＭ７３とを有し、これらはバスライン７４を介して入出力ポート７５にそれぞれ接続されている。入出力ポート７５には更に、上記した携帯カメラ７６及び携帯マイク７７と、無線通信装置７８と、携帯カメラ７６で撮影している映像等が表示されるＬＣＤ７９と、ユーザＨからの指示が入力されるタッチパネル８０とが接続される。

【0057】

ＣＰＵ７１は、バスライン７４により接続された各部を制御する演算装置である。フラッシュＲＯＭ７２は、ＣＰＵ７１により実行されるプログラムや固定値データ等を格納した書き換え可能な不揮発性の記憶装置であり、制御プログラム７２ａが含まれる。ＣＰＵ７１によって制御プログラム７２ａが実行されると図７の携帯メイン処理が実行される。

【0058】

ＲＡＭ７３は、ＣＰＵ７１がプログラムの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するための揮発性のメモリである。無線通信装置７８は、無線通信をするための装置である。無線通信装置７８は、ＡＰ５０と無線接続され、そのＡＰ５０を介してタブレット端末３０に無線接続される。

【0059】

次に、図７～１０を参照して、音声処理装置１のＣＰＵ１０、タブレット端末３０のＣＰＵ３１及び音声処理装置１のＣＰＵ１０で実行される処理を説明する。まず図７を参照して携帯端末７０の処理を説明する。図７は、携帯メイン処理のフローチャートである。携帯メイン処理は、携帯端末７０の制御プログラム７２ａに含まれる映像処理システムＳ用のアプリケーションプログラムが起動された場合に、実行される処理である。

【0060】

携帯メイン処理はまず、タブレット端末３０と接続済みかを確認する（Ｓ１）。Ｓ１の処理において、タブレット端末３０と未接続の場合は（Ｓ１：Ｎｏ）、タブレット端末３０との接続処理を実行する（Ｓ２）。一方でＳ１の処理において、タブレット端末３０と接続済みの場合は（Ｓ１：Ｙｅｓ）、Ｓ２の処理をスキップする。

【0061】

Ｓ１，Ｓ２の処理の後、タブレット端末３０から上記した時刻リセット指示を受信したかを確認する（Ｓ３）。Ｓ３の処理において、時刻リセット指示を受信した場合は（Ｓ３：Ｙｅｓ）、携帯端末７０自身が内蔵している計時手段の時刻をリセットする（Ｓ４）。一方で、Ｓ３の処理において、時刻リセット指示を受信していない場合は（Ｓ３：Ｎｏ）、Ｓ４の処理をスキップする。

【0062】

Ｓ３，Ｓ４の処理の後、携帯カメラ７６から映像を取得する（Ｓ５）。本実施形態において、Ｓ５の処理において携帯カメラ７６から１フレーム分の映像が取得されるが、所定の長さ（例えば１秒間）の映像をまとめて取得しても良い。Ｓ５の処理の後、前回のＳ７の処理によって映像を送信した時刻に、前回のＳ７の処理からの経過時間を加算した時刻、即ち図２で上記した映像送信時刻を算出する（Ｓ６）。なお、Ｓ６の処理においては、現在時刻を映像送信時刻として取得しても良い。

【0063】

Ｓ６の処理の後、Ｓ５の処理で取得された映像と、Ｓ６の処理で算出された映像送信時刻とをタブレット端末３０に送信する（Ｓ７）。

【0064】

Ｓ７の処理の後、携帯マイク７７から音声を取得する（Ｓ８）。本実施形態において、Ｓ５の処理において携帯マイクから１フレーム分の音声が取得されるが、所定の長さ（例えば１秒間）の音声をまとめて取得しても良い。Ｓ８の処理の後、前回のＳ１０の処理によって音声を送信した時刻に、前回のＳ１０の処理からの経過時間を加算した時刻、即ち図２で上記した音声送信時刻を算出する（Ｓ９）。なお、Ｓ９の処理においても、現在時刻を音声送信時刻として取得しても良い。

【0065】

Ｓ９の処理の後、Ｓ８の処理で取得された音声と、Ｓ９の処理で算出された音声送信時刻とをタブレット端末３０に送信する（Ｓ１０）。Ｓ１０の処理の後、携帯端末７０のその他の処理を実行し（Ｓ１１）、Ｓ１以下の処理を繰り返す。

【0066】

次に、図８，９を参照して、タブレット端末３０の処理を説明する。図８は、タブレットメイン処理のフローチャートである。タブレットメイン処理は、タブレット端末３０の制御プログラム３２ａに含まれる映像処理システムＳ用のアプリケーションプログラムが起動された場合に、実行される処理である。

【0067】

タブレットメイン処理はまず、新たな携帯端末７０が無線接続されたかを確認する（Ｓ３０）。Ｓ３０の処理において、新たな携帯端末７０が無線接続された場合は（Ｓ３０：Ｙｅｓ）、その新たな携帯端末７０との接続処理を実行する（Ｓ３１）。Ｓ３１の処理の後、接続されている全ての携帯端末７０に時刻リセット指示を送信し（Ｓ３２）、タブレット端末３０自身が内蔵している計時手段の時刻をリセットする（Ｓ３３）。一方で、Ｓ３０の処理において、新たな携帯端末７０が無線接続されていない場合は（Ｓ３０；Ｎｏ）、Ｓ３１～Ｓ３３の処理をスキップする。

【0068】

Ｓ３０，Ｓ３３の処理の後、携帯端末７０から映像および映像送信時刻を受信し（Ｓ３４）、携帯端末７０から音声および音声送信時刻を受信する（Ｓ３５）。Ｓ３５の処理の後、遅延時間設定処理（Ｓ３６）を実行する。ここで、図９を参照して遅延時間設定処理を説明する。

【0069】

図９は、遅延時間設定処理のフローチャートである。遅延時間設定処理においては、上記したタブレット端末３０に接続される複数の携帯端末７０のうち、最も値が低い識別子の携帯端末７０から送信された映像送信時刻や音声が用いられるものとする。

【0070】

遅延時間設定処理はまず、遅延時間設定に関する動作モードを確認する（Ｓ５０）。本実施形態において動作モードには、上記した「フルオートモード」と、セミオートモードにおける遅延時間を設定する「セミオート設定モード」と、セミオートモード及び遅延時間による音声の遅延させない「遅延なし」とが設けられる。

【0071】

ユーザＨがタブレット端末３０のタッチパネル３９で「フルオートモード／セミオートモード／遅延なし」のいずれかを選択する。若しくは、ユーザＨが音声処理装置１の設定キー１５で「フルオートモード／セミオートモード／遅延なし」のいずれかを選択すると、タブレット端末３０に制御信号が送られ、タブレット端末３０でこれらが選択される。

【0072】

セミオートモードが選択されたときは、動作モードをセミオート設定モードにする。セミオート設定モードの状態で、遅延時間が算出されたらセミオート設定モードは終了し、セミオートモードにする。また、遅延なしが選択されたときは、音声処理装置１に遅延時間として「０」を送信する。この場合、遅延時間メモリ３３ａの値は変更しない。

【0073】

Ｓ５０の処理において、動作モードがフルオートモードである場合は（Ｓ５０：「フルオートモード」）、図８のＳ３４で受信した映像送信時刻と、現在時刻、即ち受信した映像の処理が完了した映像処理完了時刻との時間差、即ち上記したフルオートモードにおける遅延時間を算出する（Ｓ５１）。

【0074】

Ｓ５１の処理の後、Ｓ５１の処理で算出された遅延時間と遅延時間メモリ３３ａの遅延時間との差の絶対値が１００ｍｓ以上かを確認する（Ｓ５２）。Ｓ５２の処理において、Ｓ５１の処理で算出された遅延時間と遅延時間メモリ３３ａの遅延時間との差の絶対値が１００ｍｓ以上の場合は（Ｓ５２：Ｙｅｓ）、Ｓ５１の処理で算出された遅延時間を遅延時間メモリ３３ａに保存する（Ｓ５３）。

【0075】

即ち遅延時間メモリ３３ａの更新は、遅延時間メモリ３３ａに記憶されている遅延時間と１００ｍｓ以上異なる遅延時間が算出された場合に限られる。これにより、遅延時間によって遅延される音声処理装置１の音声が発せられるタイミングが、頻繁に早くなったり遅くなったりするのを抑制できるので、視聴者の音声に対する違和感を低減できる。

【0076】

Ｓ５０の処理において、動作モードがセミオート設定モードである場合は（Ｓ５０：「セミオート設定モード」）、音声処理装置１から音声を受信する（Ｓ５４）。Ｓ５４の処理において音声処理装置１から受信する音声は、遅延時間による遅延音声ではなく、マイク１００から取得され、遅延させることなくそのままタブレット端末３０に送信された音声とされる。また、Ｓ５４の処理を実行する前に、予め音声処理装置１に遅延時間を０に設定する指示を送信しても良い。

【0077】

Ｓ５４の処理の後、Ｓ５４の処理で受信した音声の波形データと、図８のＳ３５の処理で受信した音声の波形データとのピークを取得する（Ｓ５５）。波形データからのピークの取得は、既知の技術によって行われる。Ｓ５５の処理の後、Ｓ５４の処理で受信した音声の波形データと、図８のＳ３５の処理で受信した音声の波形データとの両者にピークが存在するかを確認する（Ｓ５６）。

【0078】

Ｓ５６の処理において、両者にピークが存在する場合は（Ｓ５６：Ｙｅｓ）、それぞれのピークとなる時刻の時間差、即ち上記したセミオートモードにおける遅延時間を遅延時間メモリ３３ａに保存し、動作モードをセミオートモードにする（Ｓ５７）。

【0079】

Ｓ５３，Ｓ５７の処理の後、遅延時間メモリ３３ａの遅延時間を音声処理装置１に送信する（Ｓ５８）。なお、Ｓ５８の処理においては、遅延時間メモリ３３ａの遅延時間をＭＩＤＩ（Musical Instrument Digital Interface）メッセージに含めたものを送信するが、ＭＩＤＩ以外の規格のメッセージに含めて送信しても良い。

【0080】

Ｓ５０の処理において、動作モードがセミオートモード又は遅延なしの場合（Ｓ５０：「セミオートモード／遅延なし」）、Ｓ５２の処理において、Ｓ５１の処理で算出された遅延時間と遅延時間メモリ３３ａの遅延時間との差の絶対値が１００ｍｓより小さい場合（Ｓ５２：Ｎｏ）、Ｓ５６の処理において、両者にピークが存在しない場合（Ｓ５６：Ｎｏ）、又は、Ｓ５８の処理の後、遅延時間設定処理を終了する。

【0081】

図８に戻る。Ｓ３６の遅延時間設定処理の後、音声処理装置１から遅延音声を受信する（Ｓ３７）。Ｓ３７の処理の後、Ｓ３４の処理で受信した映像と、Ｓ３５の処理で受信した音声と、Ｓ３８の処理で受信した遅延音声とを合成することで、新たな映像および音声を作成する（Ｓ３８）。Ｓ３８の処理の後、Ｓ３８の処理で合成された映像および音声をビデオ出力装置４０を介して外部モニタ２００に出力する（Ｓ３９）。これにより、外部モニタ２００においてタブレット端末３０で作成された映像および音声が出力される。

【0082】

Ｓ３９の処理の後、タブレット端末３０のその他の処理を実行し（Ｓ４０）、Ｓ３０以下の処理を繰り返す。

【0083】

最後に、図１０を参照して、音声処理装置１の処理を説明する。図１０は、音声メイン処理のフローチャートである。音声メイン処理は、音声処理装置１の電源が投入された場合に、実行される処理である。

【0084】

音声メイン処理はまず、タブレット端末３０と接続済みかを確認する（Ｓ８０）。Ｓ８０の処理において、タブレット端末３０と未接続の場合は（Ｓ８０：Ｎｏ）、タブレット端末３０との接続処理を実行する（Ｓ８１）。一方でＳ８０の処理において、タブレット端末３０と接続済みの場合は（Ｓ８０：Ｙｅｓ）、Ｓ８１の処理をスキップする。

【0085】

Ｓ８０，Ｓ８１の処理の後、タブレット端末３０から遅延時間を受信したかを確認する（Ｓ８２）。Ｓ８２の処理においてタブレット端末３０から遅延時間を受信した場合は（Ｓ８２：Ｙｅｓ）、受信した遅延時間を遅延時間メモリ１２ａに保存する（Ｓ８３）。一方で、Ｓ８２の処理においてタブレット端末３０から遅延時間を受信していない場合は（Ｓ８２：Ｎｏ）、Ｓ８３の処理をスキップする。

【0086】

Ｓ８２，Ｓ８３の処理の後、マイク１００から音声を取得する（Ｓ８４）。Ｓ８４の処理の後、タブレット端末３０の動作モードがセミオート設定モードかを確認する（Ｓ８５）。なお、Ｓ８５の処理においては、音声処理装置１がタブレット端末３０の動作モードを都度確認するものに限られず、タブレット端末３０の動作モードが変わるたびに音声処理装置１に動作モードを送信し、動作モードを音声処理装置１で記憶するようにしても良い。

【0087】

Ｓ８５の処理において、タブレット端末３０の動作モードがセミオート設定モードではない場合は（Ｓ８５：Ｎｏ）、Ｓ８４の処理で取得された音声を、遅延時間メモリ１２ａの遅延時間分だけ遅延させた遅延音声をタブレット端末３０に送信する（Ｓ８６）。一方で、Ｓ８５の処理において、タブレット端末３０の動作モードがセミオート設定モードの場合は（Ｓ８５：Ｙｅｓ）、Ｓ８４の処理で取得された音声を、そのままタブレット端末３０に送信する（Ｓ８７）。かかるＳ８７の処理で送信された音声が、上記した図９のＳ５４の処理で受信される。

【0088】

Ｓ８６，Ｓ８７の処理の後、音声処理装置１のその他の処理を実行し（Ｓ８８）、Ｓ８０以下の処理を繰り返す。

【0089】

以上、上記実施形態に基づき説明したが、種々の改良変更が可能であることは容易に推察できるものである。

【0090】

上記実施形態において、フルオートモードでは、携帯端末７０から受信した映像送信時刻と、タブレット端末３０における映像処理完了時刻との時間差を遅延時間としたが、これに限られない。携帯端末７０から受信した音声送信時刻とタブレット端末３０における映像処理完了時刻との時間差を遅延時間としても良いし、携帯端末７０から受信した音声送信時刻とタブレット端末３０における音声処理完了時刻との時間差を遅延時間としても良いし、携帯端末７０から受信した映像送信時刻とタブレット端末３０における音声処理完了時刻との時間差を遅延時間としても良い。

【0091】

また、上記の遅延時間の算出において、映像処理完了時刻の代わりに、タブレット端末３０が映像の受信を完了した時刻である映像受信完了時刻を用いても良いし、タブレット端末３０が音声の受信を完了した時刻である音声受信完了時刻を用いても良い。

【0092】

上記実施形態において、フルオートモード又はセミオートモードで設定された遅延時間を用いて、音声処理装置１で取得させた音声を遅延させたがこれに限られない。例えば、設定キー１５で設定された遅延時間を用いて音声処理装置１で取得させた音声を遅延させても良い。また、フルオートモード又はセミオートモードで設定された遅延時間に、設定キー１５で設定された遅延時間を加算または減算した遅延時間を用いて、音声処理装置１で取得させた音声を遅延させても良い。

【0093】

また、ユーザＨによりセミオートモードが選択された場合、動作モードをセミオート設定モードとし、遅延時間が算出された場合に動作モードをセミオートモードとしたが、これに限られない。例えば、セミオートモードで動作している場合も、セミオート設定モードと同様に、特定の音を用いた遅延時間の算出を継続しても良い。

【0094】

更に、フルオートモードにおいても映像処理完了時刻および映像送信時刻による遅延時間の算出と共に、セミオート設定モードと同様の特定の音を用いた遅延時間の算出を行っても良い。この場合、映像処理完了時刻および映像送信時刻による遅延時間と、セミオート設定モードと同様の特定の音を用いた遅延時間との平均値を、実際に用いる遅延時間としても良いし、映像処理完了時刻および映像送信時刻とによる遅延時間とセミオート設定モードと同様の特定の音を用いた遅延時間とのうち、現状の遅延時間（即ち遅延時間メモリ３３ａに記憶されている遅延時間）に近い方を、実際に用いる遅延時間としても良い。

【0095】

上記実施形態において、遅延時間をタブレット端末３０で算出し、音声処理装置１に送信したが、これに限られない。例えば、音声処理装置１で遅延時間を算出しても良い。この場合、フルオートモードにおいては、タブレット端末３０から映像送信時刻と映像処理完了時刻とを音声処理装置１に送信すれば良い。また、セミオートモードでは、タブレット端末３０が受信した携帯端末７０の音声を音声処理装置１に送信すれば良い。

【0096】

上記実施形態において、セミオートモードにおいては、特定の音としてハンドクラップ音を例示したが、これに限られない。ユーザＨが発する音声や楽器の音色、ブザー音等、他の特徴的な音を用いても良い。また、特定の音のピークに基づいて遅延時間を算出するものに限られない。例えば、特定の音に固有の周波数を含ませておき、音声処理装置１で取得された音声と携帯端末７０で取得された音声とにおいて、その固有の周波数を観測したタイミングに基づいて遅延時間を算出しても良い。

【0097】

また上記実施形態において、音声処理装置１において取得された音声の遅延を処理したが、これに限られない。例えば、音声の遅延の処理をタブレット端末３０で行っても良い。この場合、音声処理装置１は、マイク１００から取得された音声をタブレット端末３０に送信し、タブレット端末３０は、音声処理装置１から受信した音声を、算出された遅延時間だけ遅延させて遅延音声を作成すれば良い。

【0098】

上記実施形態において、遅延時間の算出に用いられる映像送信時刻が送信される携帯端末７０を、携帯端末７０の識別子に基づいて選定したが、これに限られない。例えば、タブレット端末３０と最も早く接続された携帯端末７０を選定しても良い。また、図８のＳ３８の処理の合成に用いられる映像を取得している携帯端末７０を選定しても良いし、人物や楽器が映っている映像を取得している携帯端末７０を選定しても良い。

【0099】

また、複数の携帯端末７０から取得される映像送信時刻の平均値を遅延時間の算出に用いられる映像送信時刻としても良い。この際、極端に小さな又は大きな映像送信時刻を平均値を算出する映像送信時刻から除外すると良い。或いは、複数の携帯端末７０から取得される映像送信時刻の中央値、最小値や最大値を遅延時間の算出に用いられる映像送信時刻としても良い。

【0100】

上記実施形態において、音声処理装置１とタブレット端末３０とを有線接続したが、これに限られない。音声処理装置１とタブレット端末３０とを無線接続しても良い。また、タブレット端末３０と携帯端末７０とを無線接続したが、これに限られない。タブレット端末３０と携帯端末７０とを有線接続しても良い。

【0101】

上記実施形態において、映像処理システムＳを携帯端末７０と、タブレット端末３０と、音声処理装置１とで構成したが、これに限られない。例えば、タブレット端末３０にマイク１００を接続させ、音声処理装置１の機能もタブレット端末３０で実現することで、映像処理システムＳを携帯端末とタブレット端末３０とで構成しても良い。この場合、音声処理装置１の機能を併せ持つタブレット端末３０が「映像処理装置」とされる。

【0102】

上記実施形態において、映像を取得する映像出力装置として携帯端末７０を例示したが、これに限られない。携帯端末７０の代わりに、ビデオカメラ等の映像を取得可能な装置を用いても良い。

【0103】

上記実施形態では、映像を処理する映像処理装置として、タブレット端末３０を例示したが、これに限られない。例えば、パーソナルコンピュータや携帯端末を映像処理装置としても良い。

【0104】

上記実施形態に挙げた数値は一例であり、他の数値を採用することは当然可能である。

【符号の説明】

【0105】

１音声処理装置（映像処理装置の一部）
３０タブレット端末（映像処理装置の一部）
５０アクセスポイント
１００マイク（音声入力装置）
Ｓ８４音声取得手段
７０携帯端末（映像出力装置）
Ｓ３４映像受信手段、映像送信時刻受信手段、映像処理手段
Ｓ３５音声受信手段、音声処理手段
Ｓ５１映像処理完了時刻取得手段、遅延時間算出手段
Ｓ８６遅延音声作成手段
Ｓ３８，Ｓ３９出力手段

【図1】