(58)【調査した分野】(Int.Cl.,DB名)
請求項1に記載の映像音声配信システムにおいて、前記映像音声合成装置は、前記第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第2のモードをさらに有し、前記第1のモードと前記第2のモードとを切り換えることを特徴とする映像音声配信システム。
請求項8に記載の映像音声配信方法において、前記映像音声合成装置は、前記第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、前記同期させることなくそれぞれ合成する第2のモードをさらに有し、前記第1のモードと前記第2のモードとを切り換えるステップを有することを特徴とする音声映像配信方法。
【発明を実施するための形態】
【0017】
図1は、本発明に係る映像音声配信システムの構成を説明する図である。映像音声配信システムは、第1通信端末10、第2通信端末20、及び映像音声合成装置30を備えていて、これらの間で通信回線を介して相互にデータ送受信が可能に構成される。
第1通信端末10及び第2通信端末20は、例えば音楽スタジオ等に配置することができ、音楽家や芸術家などの演奏やパフォーマンス等の映像信号及び音声信号を収録し、映像信号及び音声信号を相互に送信して表示部やスピーカから出力することができる。
【0018】
また、第1通信端末10及び第2通信端末20で収録された映像信号及び音声信号は、映像音声合成装置30に送信される。映像音声合成装置30では、これら第1通信端末10と第2通信端末20とから送信された映像信号及び音声信号をそれぞれ合成する。つまり第1通信端末10から送信された映像信号と、第2通信端末20から送信された映像信号とを合成し、かつ、第1通信端末10から送信された音声信号と、第2通信端末から送信された音声信号とを合成する。映像信号の合成は、例えば表示部に表示させる画面を二つに分割して、それぞれの分割領域に同時に第1通信端末10で収録した映像と、第2通信端末20で収録した映像と表示させる映像信号を生成することを指す。
そして映像音声合成装置30は、合成した映像信号及び音声信号を通信回線を介して接続された複数のユーザ通信端末40(第1ユーザ通信端末40a〜第nユーザ通信端末40n)に送信可能とする。
【0019】
上記の構成で、第1通信端末10で収録された映像信号及び音声信号を第2通信端末20に送信し、第2通信端末20で表示及び音声出力させる。例えば第1スタジオで収録された演奏者等の映像及び音声を第2通信端末20で出力させる。そして第2スタジオで待機する別の演奏者等は、第2通信端末20で出力された映像及び音声に合わせて演奏等を行い、その演奏等を第2通信端末20で収録して映像音声合成装置30に送信する。
一方、第1通信端末10で収録された映像信号及び音声信号は、映像音声合成装置30にも送信される。そして、第1通信端末10で収録された映像信号及び音声信号と、第2通信端末20で収録された映像信号及び音声信号とを映像音声合成装置30で合成することで、遠隔の二つの場所で演奏等がなされた映像と音声を合成して出力させることができる。
【0020】
そして映像音声合成装置30は、映像信号及び音声信号を合成するモードとして、二つのモードを切り換え可能に制御することができる。
第1のモードは、上記のような遠隔の場所で両者の演奏等を同期させて合成するためのモードであり、コラボレーション演奏/合成モードとして使用できるものである。第1のモードでは、映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第1通信端末10から送信された映像信号及び音声信号が第2通信端末20で再生され、再生と同時に収録された映像信号及び音声信号と、を同期させて、第1通信端末10から送信された映像信号と第2通信端末20から送信された映像信号とを合成するともに、第1通信端末10から送信された音声信号と第2通信端末20から送信された音声信号とを合成する。これにより演奏時におけるリズムズレや会話時における間延びを抑え、合成した音声映像に対する違和感を低減できる。
なお、本発明における同期とは、遠隔の場所でそれぞれ収録された映像音声を合成する際に、特別な遅延量を意識的に与えることによって、データ処理時間やデータ通信時間に起因して発生する(相対的な)ズレ時間を短くすることを示し、ズレ時間としては人が違和感を感じないレベル(あるいは、認識できない)の時間(例えば0.3秒以内)に収めることが好ましい。
【0021】
また、第2のモードは、第1のモードのようなコラボレーション演奏等を意識することなく、遠隔の場所で収録された映像信号及び音声信号を、できるだけ遅延なくそのまま合成して出力させるモードである。このモードは、遠隔のユーザ同士が対話を行うときのトーク/合成モードとして使用できるものである。第1通信端末から送信された映像信号及び音声信号と、前記第2通信端末から送信された映像信号及び音声信号を、第1のモードのように同期させることなくそれぞれ合成する。
【0022】
図2は、本発明による映像音声配信システムにおける第1通信端末、第2通信端末の要部の機能を説明する図である。
第1通信端末10は、表示部11と、ユーザを撮像する撮像部12と、第2通信端末20で取得された音声信号を出力するスピーカ13と、ユーザの音声を取得するマイクロフォン14と、ユーザによる操作入力を受け付ける操作部19とを備える。
【0023】
また、制御部15は、CPUなどの制御プロセッサにより実現され、第1通信端末10の各部を制御する。記憶部16は、第1通信端末10の各機能を実現するプログラム及びデータ等を記憶する各種メモリないしHDD(Hard Disk Drive)などの記憶手段である。
映像音声処理部17は、撮像部12で撮像された映像信号、及びマイクロフォン14で取得した音声信号を圧縮符号化処理して出力する。また、通信相手となる第2通信端末20から送信された映像信号及び音声信号を復号処理して、表示部11及びスピーカ13から出力可能とする。
【0024】
通信処理部18は、映像信号及び音声信号を送受信するための通信制御処理を行う。第1通信端末10は、撮像部12で撮像した映像信号とマイクロフォン14で取得した音声信号とを第2通信端末20に送信するとともに、これら映像信号及び音声信号を映像音声合成装置30に送信する。
【0025】
第2通信端末20は、第1通信端末10と同様の機能を有する。すなわち第2通信端末20は、表示部21と、ユーザを撮像する撮像部22と、第1通信端末10で取得された音声を出力するスピーカ23と、ユーザの音声を取得するマイクロフォン24と、ユーザによる操作入力を受け付ける操作部29とを備える。
【0026】
また、制御部25は、CPUなどの制御プロセッサにより実現され、第2通信端末20の各部を制御する。記憶部26は、第2通信端末20の各機能を実現するプログラム及びデータ等を記憶する各種メモリないしHDDなどの記憶手段である。
映像音声処理部27は、撮像部22で撮像された映像信号、及びマイクロフォン24で取得した音声信号を圧縮符号化処理して出力する。また、第1通信端末10から送信された映像信号及び音声信号を復号処理して、表示部21及びスピーカ23から出力可能とする。通信処理部28は、映像信号及び音声信号を送受信するための通信制御処理を行う。
【0027】
第2通信端末20は、第1のモードでは、第1通信端末10で収録され送信された映像信号及び音声信号を再生して出力するとともに、第2通信端末20で収録された映像信号及び音声信号を第1通信端末10と映像音声合成装置30に送信する。また、第2のモードでは、第1通信端末10で収録され送信された映像信号及び音声信号を再生して出力するとともに、第2通信端末20で収録された映像信号及び音声信号を第1通信端末10及び映像音声合成装置30に送信する。
【0028】
映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とをそれぞれ合成して、合成した映像信号及び音声信号を生成する。そして生成した映像信号及び音声信号を通信回線を介して接続されたユーザ通信端末40に配信することができる。ここで映像音声合成装置30は、上述した第1のモードと第2のモードとのいずれかにより、映像信号及び音声信号を合成する。各モードの相互の切り換えは、映像音声合成装置30が備える図示しない操作入力手段に対するユーザの操作入力によって実行することができる。あるいは、第1通信端末10または第2通信端末20からの切り換え指示、もしくはネットワーク内の他の情報処理装置からの指示により、モード切り換えを実行させるようにすることもできる。
【0029】
図3は、
図2に示す第1通信端末及び第2通信端末の映像音声処理部の具体的構成例を説明するための図で、第1通信端末10で収録した映像信号及び音声信号を第2通信端末20に送信し、第2通信端末20で再生出力する機能を実現する要部を示すものである。
第1通信端末10の映像音声処理部17は、映像信号を入力して符号化(エンコード)するビデオエンコーダ171と、音声信号を入力して符号化(エンコード)するオーディオエンコーダ172を備える。映像信号は、
図2に示す撮像部12にて取得され、音声信号は、同じく
図2のマイクロフォン14で取得される。
【0030】
ビデオエンコーダ171とオーディオエンコーダ172では、それぞれ映像信号と音声信号を数百分の一のデータ量に圧縮符号化し、パケット化する。マルチメディ多重化部173では、圧縮符号化された映像信号及び音声信号を1本のストリームに多重化して出力する。通信処理部18は、マルチメディア多重化部173から出力された映像信号及び音声信号を送信する。通信処理部18には適宜バッファが設けられ、帯域変動を吸収して途切れのない映像再生を可能とする。圧縮符号化の方式としては、例えば、国際標準方式であるG.723、G.728、MPEG Audio等を適用することができる。映像信号と音声信号のビットストリームは、それぞれインターネット送出に適した形でパケット化され、同期多重されて送信される。
【0031】
映像信号及び音声信号は、各メディアのパケットに付された時刻情報であるタイムスタンプを用いて再生同期がとられる。ビデオエンコーダ171とオーディオエンコーダ172では、メディアの同期をとるためのタイムスタンプを付与してパケットに含ませる。
例えば本映像音声配信システムには、RTP(Real-time Transport Protocol)を用いてデータ配信を行うシステムを適用することができる。一般にRTPは、音声や動画映像などのデータストリームをリアルタイムに配送するためのデータ転送プロトコルである。RTPパケットを受信したホストでは、各パケットの時間の情報から時間的な関係を把握し、データを再生することができる。RTPパケットは、通信端末の映像や音声についてそれぞれ決まったパケット送出間隔で送信する。RTPヘッダにはタイムスタンプを記述することができる。
【0032】
ここでは第1通信端末10、第2通信端末20は、NTP(Network Time Protocol)に従って時刻を経時する図示しないNTPタイマを備え、NTPタイマの経時時刻によるNTPタイムスタンプを使用することができる。NTPは通信時間による時刻値の誤差を小さくするために工夫された時刻同期のためのプロトコルであり、協定世界時(UTC)を使用して時刻を送受信するものである。
【0033】
タイムスタンプは、例えば32ビットRTPペイロードの最初のデータがサンプリングされた瞬間のタイムスタンプを記述する。タイムスタンプはクロックのカウント値で示され、例えば精度は1/90Hzとされる。受信側では再生時のタイミングをこれによって決定する。また、実際の時刻とは関係なく,固定周波数でサンプリングしている場合はサンプル数を設定することができる。例えばサンプリング周波が8kHzの音声を使用する場合には、マイクロフォンで取得したアナログ音声信号は125μsに1度サンプリングされる。例えば16msに1度RTPパケットを送信する場合は、16[ms]/125[μs]=128となり,1パケットごとに128ずつ値を増加させることになる。また、初期値は乱数にすることが推奨される。ここでは送受の双方でタイミングが一致するよう、クロックリファレンスを伝送してPLL(Phase Locked Loop)を制御する。
【0034】
第2通信端末の通信処理部28は、通信回線50を介して第1通信端末10からの映像信号及び音声信号を受信する。通信処理部28には受信バッファが設けられ、バッファで一端保持した映像及び音声のビットストリームを映像音声処理部27のマルチメディア分離部271に出力する。マルチメディア分離部271では、多重化された映像信号及び音声信号を分離し、映像信号をビデオデコーダ272に出力し、音声信号をオーディオデコーダ273に出力する。ビデオデコーダ272では、圧縮符号化された映像信号を復号(デコード)する。また、オーディオデコーダ273は、圧縮符号化された音声信号を復号する。復号された映像信号と音声信号はそれぞれ遅延メモリ274,275に保持される。
【0035】
映像信号及び音声信号は、各メディアのパケットに付された時刻情報であるタイムスタンプを用いて再生同期がとられる。通信処理部28は、多重化データからビデオタイムスタンプとオーディオタイムスタンプとを取り出し、タイムスタンプ比較部276に出力する。タイムスタンプ比較部276は、各メディアのタイムスタンプを比較し、同一時刻に再生が行われるように各遅延メモリ274,275を制御する。そして遅延メモリ274,275からは、映像と音声の同期がとられた状態で映像と音声が出力され、それぞれ表示部とスピーカから出力される。
【0036】
図3の構成は、第1通信端末10から第2通信端末20に映像信号及び音声信号を送信して第2通信端末で再生出力するための構成例を示しているが、第2通信端末20で収録した映像信号及び音声信号を第1通信端末10に送信し、第1通信端末10で再生出力するために、第1通信端末10と第2通信端末20で相互に同様の構成を備えるようにする。
【0037】
図4は、第1通信端末及び第2通信端末から送信された映像信号及び音声信号を受信して合成する映像音声合成装置の要部構成例を説明する図である。
第1受信部301は、第1通信端末10から送信された映像信号及び音声信号を多重化した多重化信号を受信する。受信した多重化信号は、マルチメディア分離部302で分離され、分離された映像信号が第1ビデオデコーダ303で復号されて、第1ビデオ遅延メモリ305に保持される。また、マルチメディア分離部302で分離された音声信号は、第1オーディオデコーダ304で復号され、第1オーディオ遅延メモリ306に保持される。
【0038】
第2受信部307は、第2通信端末20から送信された映像信号及び音声信号の多重化信号を受信する。受信した多重化信号は、マルチメディア分離部308で分離され、分離された映像信号は、第2ビデオデコーダ309で復号されて、第2ビデオ遅延メモリ312に保持される。また、マルチメディア分離部308で分離された音声信号は、第2オーディオデコーダ310で復号され、第2オーディオ遅延メモリ313に保持される。
【0039】
また、第1受信部301では、第1通信端末10から送信された多重化信号から、第1ビデオタイムスタンプと第1オーディオタイムスタンプを取り出し、第1/第2タイムスタンプ比較部320に出力する。
また、第2受信部307では、第1通信端末10から送信された多重化データから、第2ビデオタイムスタンプと第2オーディオタイムスタンプを取り出し、第1/第2タイムスタンプ比較部320に出力する。
【0040】
第1/第2タイムスタンプ比較部320は、第1受信部301及び第2受信部307で取り出された各タイムスタンプを比較して、映像信号及び音声信号がタイムスタンプにより同期されるように第1ビデオ遅延メモリ305、第1オーディオ遅延メモリ306、第2ビデオ遅延メモリ312、及び第2オーディオ遅延メモリ313の遅延量を制御する。
【0041】
第1/第2タイムスタンプ比較部320でそれぞれ遅延量が制御され、第1ビデオ遅延メモリ305から出力された映像信号と、第2ビデオ遅延メモリ312から出力された映像信号とが映像合成部314で合成される。また第1オーディオ遅延メモリ306から出力された音声信号と、第2オーディオ遅延メモリ313から出力された音声信号とが音声合成部315で合成される。
映像合成部314で合成された映像信号は、ビデオエンコーダ316で符号化され、マルチメディア多重化部318に出力される。また音声合成部315から出力された音声信号は、オーディオエンコーダ317で符号化されてマルチメディア多重化部318に出力される。マルチメディア多重化部318は、入力した映像信号と音声信号を多重化し、合成動画送信部319からネットワーク上のユーザ通信端末に送信する。
【0042】
以下に、上記のようなシステム構成を備えた映像音声配信システムにおける映像信号と音声信号の合成、配信処理に係る実施形態を説明する。
(第1の実施形態)
図5は、本発明による音声映像システムで第1のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。
第1のモードは、上記のように第1通信端末10から送信された映像信号及び音声信号と、第1通信端末10から送信された映像信号及び音声信号が第2通信端末20で再生され、再生と同時に収録された映像信号及び音声信号と、を同期させて、第1通信端末10から送信された映像信号と第2通信端末20から送信された映像信号とを合成するともに、第1通信端末10から送信された音声信号と第2通信端末20から送信された音声信号とを合成するモードである。
【0043】
まず第1通信端末10では、第1音声信号と第1映像信号とを収録する(S1,S2)。第1通信端末10は、収録した第1音声信号と第1映像信号を符号化して多重化し、第2通信端末20と映像音声合成装置30に送信する。このとき、第1映像信号と第1音声信号にタイムスタンプを付与して含める。タイムスタンプのタイミングは、第1映像信号及び第1音声信号の収録時のタイミングに相当する。
【0044】
第2通信端末20では、第1通信端末10から送信された音声信号及び映像信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する(S3,S4)。このときの第1映像信号及び第1音声信号が第1通信端末10で収録されてから第2通信端末20で再生されるまでに遅延時間d1が発生する。遅延時間d1には、第1通信端末10におけるサンプリング、符号化、多重化、送信までの処理時間と、第1通信端末10から第2通信端末20までのネットワーク遅延時間と、第2通信端末20における受信、多重化分離、復号、再生までの処理時間が含まれる。
【0045】
第1通信端末10と第2通信端末20との通信には、通信データ量が異なる二つのモードを採用することができる。例えば映像及び音声の音質及び画質を重視した音質・画質優先モードと、音質・画質優先モードのデータから間引きや削除等を行い、もしくは符号化方式を変更することで、相対的にデータ量を少なくした速度優先モードとを設定できる。
第1のモードでは、第1通信端末10から第2通信端末20への映像信号と音声信号の送信を音質・画質優先モードで実行するものとする。
【0046】
第2通信端末20では、第1通信端末10から送信された第1映像信号及び第1音声信号の再生出力に合わせて、その再生出力にコラボレーションしながら別のユーザにより第2音声信号と第2映像信号が収録される(S5,S6)。第2通信端末20では、第1通信端末10で収録された音声と映像を再生させながら、さらに別のユーザによる音声及び映像を収録することができるので、例えば遠隔の二つの通信端末における演奏のリズムやテンポなどを合わせながら音声及び演奏を収録することができる。
【0047】
第2通信端末20で第2映像信号及び第2音声信号を収録すると、これら第2映像信号及び第2音声信号にタイムスタンプが付与されて、映像音声合成装置30に送信される。タイムスタンプは、第2通信端末20で第2映像信号及び第2音声信号の収録時のタイミングに相当する時刻が記述されるが、本発明に係る実施形態では、さらにこのタイムスタンプを補正して、第1通信端末10の第1音声信号及び第1映像信号と同期させるようにする。
【0048】
この実施形態では、第1通信端末10で音声信号及び映像信信号を収録した時点から、その映像信号及び音声信号が第2通信端末20で再生されるまでの遅延時間d1を予め測定しておく。そして第2通信端末20は、第2通信端末20で第2映像信号及び第2音声信号が収録される時に付与されるタイムスタンプを、遅延時間d1だけ早くなるように補正する。遅延時間d1は、複数回の測定値の平均値を採用し、予め第2通信端末20に登録しておくことができる。そして補正したタイムスタンプを第2音声信号及び第2映像信号に付与して第2通信端末20から映像音声合成装置30に送信する。
【0049】
映像音声合成装置30では、第1通信端末10から送信された第1映像信号及び第1音声信号を受信し、復号して再生する(S7,S8)。また、映像音声合成装置30では、第2通信端末20から送信された第2映像信号及び第2音声信号を受信し、復号して再生する(S9,S10)。このとき、映像音声合成装置30では、それぞれの映像信号と音声信号のタイムスタンプを比較し、タイムスタンプが一致するように遅延量を制御して合成する。合成する映像信号及び音声信号の再生開始時刻は、第2通信端末20から映像音声合成装置30へ送信され再生されるまでの遅延時間以上経過した任意の時刻を設定できる。この場合、第1通信端末10が第1映像信号及び第1音声信号を収録してから映像音声合成装置30で各映像信号と音声信号が再生されるまでの時間はd2となる。
【0050】
ここで第2通信端末20から送信されたタイムスタンプは、第1通信端末10における収録から第2通信端末20で再生されるまでの遅延時間d1だけ早くなるように補正されているので、第2通信端末20における第2映像信号及び第2音声信号の収録タイミングは、第1通信端末10における第1映像信号及び第1音声信号の収録タイミングにほぼ一致し、両者でコラボレーションにより収録された映像信号及び音声信号が違和感なく視聴できるように合成が行われる。
【0051】
映像音声合成装置30で合成された映像信号及び音声信号は、再度エンコードされる(S11,S12)。このとき、映像音声合成装置30では、エンコードする処理の時間d3だけ時間的に遅延する。
エンコードされた映像信号及び音声信号は、各ユーザ通信端末40a〜40nに配信されて再生される(S13,S14)。遅延時間d4には、映像音声合成装置30による映像信号及び音声信号の送信からネットワーク遅延時間、ユーザ通信端末における受信、デコード、再生までの時間が含まれる。
【0052】
(第2の実施形態)
上記第1の実施形態では、第2通信端末20でタイムスタンプを補正するときに、第1通信端末10で第1映像信号及び第1音声信号を収録した時点から、その映像信号及び音声信号が第2通信端末20で再生されるまでの遅延時間d1を予め測定し、第2通信端末20で第2映像信号及び第2音声信号の収録時に付与されるタイムスタンプを、遅延時間d1だけ早くなるように補正した。
これに対してタイムスタンプを補正する第2実施形態では、第2通信端末20は、第1通信端末10で第1映像信号及び第1音声信号を収録したときの時刻を記録したタイムスタンプと、その第1映像信号及び第1音声信号を符号化した符号化信号が第2通信端末20で再生されたときの時刻を示すタイムスタンプとに基づき、これらの時間差を計算して遅延時間d1とする。そして映像音声合成装置30では、第2通信端末20で第2映像信号及び第2音声信号の収録時に付与されるタイムスタンプを、遅延時間d1だけ早くなるように補正する。
【0053】
これにより、映像音声合成装置30で各映像信号と音声信号とをそれぞれタイムスタンプを一致させて合成したときに、第2通信端末20における第2映像信号及び第2音声信号の収録タイミングが、第1通信端末10における第1映像信号及び第1音声信号の収録タイミングにほぼ一致し、両者でコラボレーションにより収録された映像信号及び音声信号が違和感なく視聴できるように合成が行われる。
【0054】
(第3の実施形態)
図6は、本発明による音声映像システムで第2のモードにより映像信号及び音声信号を合成して配信するときの処理例を説明するためのタイミングチャートである。
第2のモードは、上記のように第1通信端末10から送信された第1映像信号及び第2音声信号と、第2通信端末20から送信された第2映像信号及び第2音声信号を同期させることなくそれぞれ合成するモードである。第2のモードは、第1のモードのようなコラボレーション演奏等を意識することなく、遠隔の場所で収録された映像信号及び音声信号をできるだけ遅延なくそのまま合成して出力させるモードで、例えば遠隔のユーザ同士が対話を行うときのトーク/合成モードとして使用できるものである。
【0055】
まず第1通信端末10では、第1映像信号及び第1音声信号を収録する(S21,S22)。第1通信端末10は、収録した第1映像信号と第1音声信号を符号化して多重化し、第2通信端末20と映像音声合成装置30に送信する。このとき、第1映像信号と第1音声信号にタイムスタンプを付与する。タイムスタンプのタイミングは、映像信号及び音声信号の収録時のタイミングに相当する。
【0056】
一方、第2通信端末20では、第2映像信号及び第2音声信号を収録する(S25,S26)。第2通信端末20は、収録した第2映像信号と第2音声信号を符号化して多重化し、第1通信端末10と映像音声合成装置30に送信する。このとき、第2映像信号と第2音声信号にタイムスタンプを付与して含める。タイムスタンプのタイミングは、映像信号及び音声信号の収録時のタイミングに相当する。
つまり、第1通信端末10における収録と、第2通信端末20における収録が並行して行われ、収録された各映像信号及び音声信号が相手先の通信端末に送信される。
【0057】
第1通信端末10では、第2通信端末20から送信された第2映像信号及び第2音声信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する(S23,S24)。このときの第2映像信号及び第2音声信号が第2通信端末20で収録されてから第1通信端末10で再生されるまでにそれぞれ遅延時間d11,d12が発生する。遅延時間d11,d12には、第2通信端末20におけるサンプリング、符号化、多重化、送信までの処理時間と、第2通信端末20から第1通信端末10までのネットワーク遅延時間と、第1通信端末10における受信、多重化分離、復号、再生までの処理時間が含まれる。
【0058】
この場合、映像信号と音声信号との間で符号化・復号化処理等の時間が異なるため、第1通信端末10では、両者の同期をとらずに再生準備ができた段階で再生出力を開始する。
また、第1通信端末10では、第2映像信号と第2音声信号とのタイムスタンプに基づき、これら第2映像信号と第2音声信号とを同期させて再生出力させるようにしてもよい。この場合、再生が遅くなる方のメディアに同期させてもう一方のメディの再生を行うことができる。
【0059】
同様に、第2通信端末20では、第1通信端末10から送信された第1映像信号及び第1音声信号の多重化信号を受信して復号し、スピーカ及び表示部により再生出力する(S27,S28)。このときの第1映像信号及び第1音声信号が第1通信端末10で収録されてから第2通信端末20で再生されるまでにそれぞれ遅延時間d13、d14が発生する。遅延時間d13、d14には、第1通信端末10におけるサンプリング、符号化、多重化、送信までの処理時間と、第1通信端末10から第2通信端末20までのネットワーク遅延時間と、第2通信端末20における受信、多重化分離、復号、再生までの処理時間が含まれる。
【0060】
この場合、音声信号と映像信号との間で符号化・復号化処理等の時間が異なるため、第2通信端末20では、両者の同期をとらずに再生準備ができた段階で再生出力を開始する。
また、第2通信端末20では、第1映像信号と第1音声信号とのタイムスタンプに基づき、これら第1映像信号と第1音声信号とを同期させて再生出力させるようにしてもよい。この場合、再生が遅くなる方のメディアに同期させてもう一方のメディの再生を行うことができる。
【0061】
また、第1通信端末10と第2通信端末20との通信には、通信データ量が異なる二つのモードを採用することができる。例えば映像及び音声の音質及び画質を重視した音質・画質優先モードと、音質・画質優先モードのデータから間引きや削除等を行い、もしくは符号化方式を変更することで、相対的にデータ量を少なくした速度優先モードとを設定できる。第2のモードでは、第1通信端末10から第2通信端末20への映像信号と音声信号の送信を速度優先モードで実行するものとする。これにより、よりリアルタイムに近い状態で相互の通信を行うことができ、両者の対話等に好適となる。
【0062】
映像音声合成装置30では、第1通信端末10から送信された第1映像信号及び第1音声信号を受信し、復号して再生する(S29,S30)。また、映像音声合成装置30では、第2通信端末20から送信された第2映像信号及び第2音声信号を受信し、復号して再生する(S31,S32)。そしてこれら映像信号と音声信号とをそれぞれタイムスタンプを一致させて合成する。合成させる各データの再生開始時刻は、第1通信端末10(または第2通信端末20)から映像音声合成装置30へ送信され再生されるまでの遅延時間以上経過した任意の時刻を設定できる。この場合、第1通信端末10が映像信号及び音声信号を収録してから映像音声合成装置30で各映像信号と音声信号が再生されるまでの時間はd15となる。
【0063】
映像音声合成装置30で合成された映像信号及び音声信号は、再度エンコードされる(S33,S34)。このときエンコードする処理の時間d16だけ時間的に遅延する。
エンコードされた映像音声合成信号は、各ユーザ通信端末40に配信されて再生される(S35,S36)。遅延時間d17には、映像音声合成装置30による映像信号及び音声信号の送信からネットワーク遅延時間、ユーザ通信端末における受信、デコード、再生までの時間が含まれる。
【0064】
(第4の実施形態)
上記第3の実施形態では、映像音声合成装置30では、第1通信端末10から送信された第1映像信号及び第1音声信号と、第2通信端末20から送信された第2映像信号及び第2音声信号とをタイムスタンプを使用して同期させて合成した。
これに対して第4の実施形態では、映像音声合成装置30では、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とをタイムスタンプにより同期させることなく、再生可能となった時点で随時再生し、再生された映像信号及び音声信号を合成してユーザ通信端末40に送信する。この場合、第1通信端末10から送信された第1映像信号及び第1音声信号をタイムスタンプにより同期させ、かつ第2通信端末20から送信された第2映像信号及び第2音声信号をタイムスタンプにより同期させて再生し、第1通信端末10と第2通信端末20との間では同期を考慮することなく適宜再生するものであってもよい。
【0065】
第1通信端末10及び第2通信端末20では、相手方の通信端末で収録された映像信号及び音声信号を、第1のモードのような同期を意識することなく再生させながらさらに映像及び音声を収録させることができるので、遠隔地でユーザが互いに対話するモードとして好適である。
【0066】
(第5の実施形態)
本実施形態では、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で合成が行われるまでの時間を、第1のモードと第2のモードとで同じにする。これにより、第1のモードと第2のモードとが相互に切り替えられたときにも、ユーザの違和感をできるだけ無くすようにすることができる。
【0067】
例えば
図5に示す第1のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd2が設定される。一方、
図6に示す第2のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd15が設定される。本実施形態では、映像音声合成装置30は、第1のモードの遅延時間d2と、第2のモードの遅延時間d15とを同じになるように設定する。
これにより、例えば音楽等のリズムの基準となる第1通信端末10で収録された映像信号及び音声信号の合成タイミングが第1のモードと第2のモードとで変化しないため、モード切り替え時の違和感をできるだけ抑えることができる。
【0068】
(第6の実施形態)
本実施形態では、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で合成が行われるまでの時間を、第1のモードと第2のモードの切り換え時に徐々に切り替えるようにする。これにより、第1のモードと第2のモードとが相互に切り替えられたときにも、ユーザの違和感をできるだけ無くすようにすることができる。
【0069】
例えば
図5に示す第1のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd2が設定される。一方、
図6に示す第2のモードでは、第1通信端末10で第1映像信号及び第1音声信号が収録されてから、映像音声合成装置30で再生されて合成されるまでの遅延時間としてd15が設定される。第1のモードの時間d2と、第2のモードの時間d15とは異なる時間を設定できる。例えば第1のモードでは、第1通信端末10で収録された第1映像信号及び第1音声信号が第2通信端末20で再生されてから第2通信端末20で収録が行われる。また、第2のモードでは、第1通信端末10と第2通信端末20とから並行して映像信号と音声信号とが映像音声合成装置30に送信される。このため、第1のモードの遅延時間d15は、第2のモードの遅延時間d2よりも長く設定される場合がある。
【0070】
このとき、本実施形態では、映像音声合成装置30は、第1のモードと第2のモードとが相互に切り換えられたとき、第1のモードの時間d2と、第2のモードの時間d15とが徐々に切り換えられるように設定する。切り換えるときの変化の程度(例えば完全にもモードが切り換えられるまでの時間または変化率)は適宜定めることができる。
これにより、第1のモードと第2のモードとを切り換えたときに、モード切り替え時の映像と音声の間伸びや飛びによる違和感をできるだけ抑えることができる。
【0071】
次に映像音声配信システムで映像信号及び音声信号を合成するときの外観の様子を説明する。
図7は、本発明による映像音声配信システムに使用する通信端末の外観構成例を示す図である。
図7は第1通信端末10を例とするが、第2通信端末20も同様の構成とすることができる。第1通信端末10は、表示部11が備えられ、第2通信端末20で撮像されたユーザの映像が表示される。また、スピーカ13からは、第2通信端末20で撮像されたユーザの音声が出力される。撮像部12は、表示部11の正面方向に画角を有するカメラからなり、第1通信端末10を使用するユーザを撮像する。また、マイクロフォン14は、第1通信端末10を使用するユーザの音声を取得する。撮像部12とマイクロフォン14によりそれぞれ取得された映像信号及び音声信号は、映像音声合成装置30及び第2通信端末20に送信される。
【0072】
図8は、映像音声配信システムで映像と音声の合成処理を行うときの様子の一例を示す図であり、
図8(A)は第1通信端末10の表示画像の例を示す図、
図8(B)は第2通信端末20の表示画像の例を示す図である。
映像音声配信システムでは、コレボレーション演奏等が可能な第1のモードと、遠隔地のユーザが対話するときの第2のモードとが切り換え可能に設定される。
第1のモードは、遠隔の場所で両者の演奏等を同期させて合成するためのモードであり、例えば第1通信端末10で取得された映像が、
図8(B)に示すように第2通信端末20の表示部21に表示される。このときに第1通信端末10で取得された音声信号も第2通信端末20のスピーカ23から音声出力される。
【0073】
第2通信端末20では、表示部21に表示されている映像及びスピーカ23から出力される音声に合わせて、演奏や踊りなどを演じることができる。この様子の映像は第2通信端末20の撮像部22で撮像され、その音声はマイクロフォン24により取得される。
これにより、第2通信端末20では、第1通信端末10で演じられた音楽等に合わせたリズムやテンポ等でコラボレーション演奏等を行うことができる。
また、第2通信端末20で撮影された映像信号は、第1通信端末10で表示させることができるが、この場合、デコード及びエンコードによる遅延やネットワーク通信の遅延等が含まれるため、第1のモードでは参考とされる程度となる。この場合、第2通信端末10で取得された音声は第1通信端末10では出力しないようにすることができる。
【0074】
また、同様に第2のモードでは、第1通信端末10で取得された映像信号と音声信号は、第2通信端末20の表示部21とスピーカ23からそれぞれ出力される。また、同時に第2通信端末20で取得された映像信号及び音声信号は、第1通信端末10の表示部11とスピーカ13からそれぞれ出力される。この場合には、第1通信端末10では、第2通信端末20から送信された映像信号と音声信とを同期させて、もしくは復号して再生可能となった時点で再生出力する。同様に第2通信端末20では、第1通信端末10から送信された映像信号と音声信号とを同期させて、もしくは復号して再生可能となった時点で再生出力する。
これにより、第1通信端末10と第2通信端末20のユーザは、できるだけリアルタイムに近い状態で相互に映像と音声をやりとりしながら対話等を行うことができる。
【0075】
図9は、映像音声配信システムから出力された映像信号及び音声信号をユーザ通信端末で再生している様子の一例を示す図である。例えば
図8の例で第1通信端末10と第2通信端末20で取得された映像信号及び音声信号は、それぞれ映像音声合成装置30に送信され合成されてユーザ通信端末40に配信される。
図9はこのときにユーザ通信端末40で再生される合成映像の例を示している。第1通信端末10で撮影された映像と、第2通信端末20で撮影された映像とが一画面内に合成されてユーザ通信端末40の表示部41に表示される。映像信号の合成は
図9に示すようにマルチ画面による合成表示により行うことができる。また、音声信号については、第1通信端末10と第2通信端末20とでそれぞれ出取得された音声信号が同時にスピーカ42から音声出力される。
【0076】
ここでは第1のモードと第2のモードのいずれにおいても同様の表示及び音声出力を行うことができるが、第1のモードの場合には、第1通信端末10における収録時の映像信号及び音声信号のタイムスタンプと、第1通信端末10で収録された映像信号及び音声信号の再生出力に合わせて第2通信端末20で収録された映像信号及び音声信号のタイムスタンプとが合わせて合成されているので、遠隔に離れた第1通信端末10と第2通信端末20の演奏等がほぼ違和感なく同期した状態で視聴することができる。
一方、第2のモードの場合には、第1通信端末10と第2通信端末20でできるだけリアルタイムに近い状態で収録された映像信号及び音声信号をユーザ通信端末で視聴することができる。
【0077】
図10は、本発明の映像音声配信システムにおける処理の一例を説明するためのフローチャートである。以下
図1の構成例を参照しながら説明する。
映像配信システムでは、まず第1通信端末10、第2通信端末20、及び映像音声合成装置30の通信接続を行う(ステップS1)。そして映像音声配信システムのトーク時合成スイッチがONであるか判断する(ステップS2)。トーク時合成スイッチとは、遠隔のユーザ同士の対話の合成に好適な第2のモードを選択するためのスイッチであり、例えば映像音声合成装置30、もしくは第1通信端末10または第2通信端末20のいずれかまたは複数の機器に設けられ、当該スイッチがONであるかの判断はそのスイッチが操作された機器が行うことができる。なおこのスイッチは、ボタンなどのハードキーだけでなくソフトウェア上のボタンを含む。
【0078】
トーク時合成スイッチがONでなければ、映像音声配信システムでは、第1通信端末10、第2通信端末20、及び映像音声合成装置30の通信接続を終了して(ステップS22)、処理を終了する。
また、トーク時合成スイッチがONであれば、さらにコラボ演奏時合成スイッチがONであるかを判断する(ステップS3)。コラボ演奏時合成スイッチとは、遠隔のユーザ同士コラボレーションしながら演奏等を行う場合に好適な第1のモードを選択するためのスイッチであり、例えば映像音声合成装置30、もしくは第1通信端末10または第2通信端末20のいずれかまたは複数の機器に設けられ、当該スイッチがONであるかの判断はそのスイッチが操作された機器が行うことができる。なお第1のモード、及び第2のモードを選択するための手段は、上記のようなスイッチに限ることなく適宜設計できる。
【0079】
ここでコラボ演奏時合成スイッチがONであれば、第1のモードで動作を行う。ここではまず、第1通信端末10の撮像部12とマイクロフォン14とにより、第1通信端末10のユーザの映像信号及び音声信号を収録する(ステップS4)。そして、第1通信端末10で収録した映像信号及び音声信号を符号化して第2通信端末20と映像音声合成装置30に送信する(ステップS5)。第2通信端末20では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部21とスピーカ23で再生出力させる(ステップS6)。
【0080】
そして第2通信端末10では、撮像部22とマイクロフォン24とにより、第2通信端末20のユーザの映像信号及び音声信号を収録する(ステップS7)。第2通信端末20は、第2通信端末20で音声及び映像信号の収録時に付与されるタイムスタンプを遅延時間d1だけ早くなるように補正して、第2通信端末20で収録した映像信号及び音声信号を映像音声合成装置30及び第1通信端末10に送信する(ステップS8)。
【0081】
映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とをタイムスタンプによりタイミングを同期させて再生し、再生した映像信号及び音声信号を合成して符号化する(ステップS9)。合成は、映像信号と音声信号とのそれぞれについて実行される。そして映像音声合成装置30は、符号化した映像信号及び音声信号をユーザ通信端末40に送信する(ステップS10)。ユーザ通信端末40は、受信した映像信号及び音声信号を復号して表示部とスピーカにより出力する(ステップS11)。ユーザ通信端末40における再生出力処理が終了するとステップS2戻る。
【0082】
ステップS3でコラボ演奏時合成スイッチがONでなければ、第2のモードで動作を行う。この例では、第2のモードはトーク合成スイッチがONで、かつコラボ演奏合成スイッチがONのときに設定されるものとする。
ここではまず、第1通信端末10の撮像部12とマイクロフォン14とにより、第1通信端末10のユーザの映像信号及び音声信号を収録する(ステップS12)。また、第2通信端末20では、撮像部22とマイクロフォン24とにより、第2通信端末20のユーザの映像信号及び音声信号を収録する(ステップS13)。ステップS12とステップS13とは並行して実行することができる。
【0083】
そして、第1通信端末10で収録した映像信号及び音声信号を符号化して第2通信端末20と映像音声合成装置30に送信する(ステップS14)。また、第2通信端末20で収録した映像信号及び音声信号を符号化して第1通信端末10と映像音声合成装置30に送信する(ステップS15)。これらステップS14とステップS15についても並行して実行することができる。
第1通信端末10では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部11とスピーカ13で再生出力させる(ステップS16)。また、第2通信端末20では、受信した映像信号及び音声信号を復号し、映像信号と音声信号とを同期させて表示部21とスピーカ23で再生出力させる(ステップS17)。ステップS16とステップS17の処理も並行して実行することができる。
【0084】
映像音声合成装置30は、第1通信端末10から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号とを再生し、再生した映像信号及び音声信号を合成して符号化する(ステップS18)。合成は、映像信号と音声信号とのそれぞれについて実行される。また、このときの合成は、同期を目的とする特別の遅延量を与えることなく、再生可能な状態となった映像信号及び音声信号をそれぞれ合成する。あるいは第1通信端末10と第2通信端末20のそれぞれの映像と音声信号とは同期させ、第1通信端末から送信された映像信号及び音声信号と、第2通信端末20から送信された映像信号及び音声信号との間では同期を意識することなく、順次再生可能となった時点で合成を行う。
【0085】
そして映像音声合成装置30は、符号化した映像信号及び音声信号をユーザ通信端末40に送信する(ステップS19)。ユーザ通信端末40は、受信した映像信号及び音声信号を復号して表示部とスピーカにより出力する(ステップS20)。ユーザ通信端末40における再生出力処理が終了するとステップS2戻る。
【0086】
上記本発明に係る映像音声配信システムの各要素、すなわち、第1通信端末10、第2通信端末20、及び映像音声合成装置30は、プログラムによってそれらの機能を実現することができる。すなわち第1通信端末10、第2通信端末20、及び映像音声合成装置30は、それぞれの装置の機能を実現する制御プログラムの命令を実行するCPUなどの制御部と、そのプログラムを格納したROMおよびプログラムを展開するRAMを備えた記憶部とを備えている。そして、本発明の目的は、上述した機能を実現するプログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を監視システムの各要素に供給し、そのコンピュータが記録媒体に記録されているプログラムコードを制御部が読み出して実行することによって達成可能である。また、上記監視システムの各要素を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。