特開2023-139681 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本放送協会の特許一覧

特開2023-139681同期化信号送出装置、遅延差検出装置、同期化信号送出プログラム及び遅延差検出プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023139681

(43)【公開日】2023-10-04

(54)【発明の名称】同期化信号送出装置、遅延差検出装置、同期化信号送出プログラム及び遅延差検出プログラム

(51)【国際特許分類】

H04N 21/242 20110101AFI20230927BHJP

H04N 21/233 20110101ALI20230927BHJP

H04N 21/44 20110101ALI20230927BHJP

H04N 7/04 20060101ALI20230927BHJP

【ＦＩ】

H04N21/242

H04N21/233

H04N21/44

H04N7/04 101

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022045339

(22)【出願日】2022-03-22

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】井口和久

(72)【発明者】

【氏名】近藤雄一

(72)【発明者】

【氏名】新井大地

【テーマコード（参考）】

5C063

5C164

【Ｆターム（参考）】

5C063AC01

5C063AC05

5C063CA14

5C164PA43

5C164SB01S

5C164SB04P

5C164SB10P

5C164UB01S

5C164UB05P

(57)【要約】

【課題】リップシンク信号の伝送を行うことなく、コンテンツの映像と音声との遅延差を解消できる同期システムを提供すること。
【解決手段】同期化信号送出装置１０は、映像及び音声から構成されるフレームの列が入力され、フレームの音声から音声特徴量を算出する音声特徴量算出部１２と、フレームの映像に対して、所定のオフセットフレーム数前のフレームの映像から算出された音声特徴量を重畳させる重畳部１３と、音声特徴量が重畳された映像が含まれたフレーム列を出力する出力信号選択部１４と、を備え、出力したフレーム列を受信した遅延差検出装置２０において、映像に重畳されている音声特徴量と最も類似する音声特徴量が算出される音声が含まれるフレームとオフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出させる。
【選択図】図２

【特許請求の範囲】

【請求項1】

映像及び音声から構成されるフレームの列が入力され、
フレームの音声から音声特徴量を算出する音声特徴量算出部と、
フレームの映像に対して、所定のオフセットフレーム数前のフレームの映像から算出された前記音声特徴量を重畳させる重畳部と、
前記音声特徴量が重畳された映像が含まれたフレーム列を出力する出力部と、を備え、
出力したフレーム列を受信した装置において、映像に重畳されている音声特徴量と最も類似する音声特徴量が算出される音声が含まれるフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出させる同期化信号送出装置。

【請求項2】

前記音声特徴量を重畳させる映像を含む重畳フレームを、所定の規則により決定する重畳フレーム決定部を備え、
前記出力部は、入力されたフレームの列のうち、前記重畳フレームに対しては、前記音声特徴量が重畳された映像、及び前記重畳フレームの音声から構成されるフレームを出力し、前記重畳フレーム以外のフレームに対しては、入力されたフレームをそのまま出力する請求項１に記載の同期化信号送出装置。

【請求項3】

前記重畳フレーム決定部は、前記音声特徴量を重畳させるフレームを、カットチェンジを基準に決定する請求項２に記載の同期化信号送出装置。

【請求項4】

映像及び音声から構成されるフレームの列が入力され、
フレームに含まれる音声から音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量算出部により算出された前記音声特徴量を蓄積する音声特徴量蓄積部と、
フレームに含まれる映像に重畳されている、所定のオフセットフレーム数前のフレームの映像から算出された音声特徴量を抽出する分離部と、
前記分離部により抽出された音声特徴量と最も類似した音声特徴量を、前記音声特徴量蓄積部から探索し、探索された音声特徴量の算出された音声が含まれていたフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出する音声特徴量探索部と、を備える遅延差検出装置。

【請求項5】

重畳されている前記音声特徴量を抽出するフレームを、所定の規則により決定する分離フレーム決定部を備える請求項４に記載の遅延差検出装置。

【請求項6】

前記分離フレーム決定部は、前記音声特徴量を映像から抽出するフレームを、カットチェンジを基準に決定する請求項５に記載の遅延差検出装置。

【請求項7】

前記音声特徴量探索部は、複数回の検出結果の多数決により前記遅延差を検出する請求項４から請求項６のいずれかに記載の遅延差検出装置。

【請求項8】

検出された前記遅延差に基づいて、映像及び音声の一方を遅延させることにより同期させたフレームを出力する遅延部を備える請求項４から請求項７のいずれかに記載の遅延差検出装置。

【請求項9】

請求項１から請求項３のいずれかに記載の同期化信号送出装置としてコンピュータを機能させるための同期化信号送出プログラム。

【請求項10】

請求項４から請求項８のいずれかに記載の遅延差検出装置としてコンピュータを機能させるための遅延差検出装置プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンテンツの映像と音声とを同期させるシステムに関する。

【背景技術】

【0002】

テレビ番組や動画など、映像と音声とからなるコンテンツは、その制作、伝送、又は提示を行う際に、映像の処理（カメラによる撮像、色及びレベルの調整、表示装置の信号処理など）と、音声の処理（マイクによる集音、音量の調整、スピーカの信号処理など）とに分離して処理（以後、映音別処理と呼ぶ）が行われる場合がある。映音別処理を行うと、映像及び音声の到着に遅延差（リップシンクずれ）が生じる場合がある。このため、映音別処理では、リップシンクと呼ばれる作業を行い、遅延差を解消している。

【0003】

リップシンク作業では、リップシンク信号と呼ばれるコンテンツが用いられる。リップシンク信号としては、例えば「パ、ピ、プ、ペ、ポ」と発声している人物の映像及び声を同時に収録したコンテンツ、又は映像の変化と同時に音声が変化する機械的に作られた特殊なコンテンツなどが広く用いられている（例えば、特許文献１参照）。リップシンク作業では、このようなリップシンク信号を、映音別処理を行う前の位置から送出し、映音別処理を行った後の位置で人間が視聴、あるいは機械的に測定することで、映像と音声との到着遅延差を測定する。測定した遅延差に応じて、映像又は音声にディレイを挿入することで、映音別処理により発生した映像と音声との到着遅延差が解消される。なお、映像処理と音声処理とでは、一般に映像処理の方がより時間がかかるため、ほとんどの場合では音声に対して映像が遅延し、リップシンク作業において音声にディレイが挿入される。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００７－３２９６０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、リップシンク信号は、本来伝送したいコンテンツとは異なる特別なコンテンツであり、視聴者又は観客に見せるべきコンテンツではない。したがって、リップシンク作業は、本来伝送したいコンテンツの伝送又はコンテンツ配信サービスの開始に先立って、予め行っておく作業である。

【0006】

このため、コンテンツ配信のサービス中に、伝送路のトラブル又は機器のトラブルなどにより映音別処理に関わる機器の入れ替え又はパラメータの変更などが発生した場合、映像及び音声の到着に遅延差が生じても、これを測定し解消することができなかった。すなわち、遅延差を解消しようとすると、コンテンツ配信のサービス中にリップシンク信号の伝送を行うことになり、視聴者又は観客に見せるべきではない特殊なコンテンツを見せてしまうため、サービスの品質が低下するという課題があった。

【0007】

本発明は、リップシンク信号の伝送を行うことなく、コンテンツの映像と音声との遅延差を解消できる同期システムを提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明に係る同期化信号送出装置は、映像及び音声から構成されるフレームの列が入力される入力部と、フレームの音声から音声特徴量を算出する音声特徴量算出部と、フレームの映像に対して、所定のオフセットフレーム数前のフレームの映像から算出された前記音声特徴量を重畳させる重畳部と、前記音声特徴量が重畳された映像が含まれたフレーム列を出力する出力部と、を備え、出力したフレーム列を受信した装置において、映像に重畳されている音声特徴量と最も類似する音声特徴量が算出される音声が含まれるフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出させる。

【0009】

前記同期化信号送出装置は、前記音声特徴量を重畳させる映像を含む重畳フレームを、所定の規則により決定する重畳フレーム決定部を備え、前記出力部は、入力されたフレームの列のうち、前記重畳フレームに対しては、前記音声特徴量が重畳された映像、及び前記重畳フレームの音声から構成されるフレームを出力し、前記重畳フレーム以外のフレームに対しては、入力されたフレームをそのまま出力してもよい。

【0010】

前記重畳フレーム決定部は、前記音声特徴量を重畳させるフレームを、カットチェンジを基準に決定してもよい。

【0011】

本発明に係る遅延差検出装置は、映像及び音声から構成されるフレームの列が入力される入力部と、フレームに含まれる音声から音声特徴量を算出する音声特徴量算出部と、前記音声特徴量算出部により算出された前記音声特徴量を蓄積する音声特徴量蓄積部と、フレームに含まれる映像に重畳されている、所定のオフセットフレーム数前のフレームの映像から算出された音声特徴量を抽出する分離部と、前記分離部により抽出された音声特徴量と最も類似した音声特徴量を、前記音声特徴量蓄積部から探索し、探索された音声特徴量の算出された音声が含まれていたフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出する音声特徴量探索部と、を備える。

【0012】

前記遅延差検出装置は、重畳されている前記音声特徴量を抽出するフレームを、所定の規則により決定する分離フレーム決定部を備えてもよい。

【0013】

前記分離フレーム決定部は、前記音声特徴量を映像から抽出するフレームを、カットチェンジを基準に決定してもよい。

【0014】

前記音声特徴量探索部は、複数回の検出結果の多数決により前記遅延差を検出してもよい。

【0015】

前記遅延差検出装置は、検出された前記遅延差に基づいて、映像及び音声の一方を遅延させることにより同期させたフレームを出力する遅延部を備えてもよい。

【0016】

本発明に係る同期化信号送出プログラムは、前記同期化信号送出装置としてコンピュータを機能させるためのものである。

【0017】

本発明に係る遅延差検出プログラムは、前記遅延差検出装置としてコンピュータを機能させるためのものである。

【発明の効果】

【0018】

本発明によれば、リップシンク信号の伝送を行うことなく、コンテンツの映像と音声との遅延差を解消できる。

【図面の簡単な説明】

【0019】

【図1】実施形態における同期システムの構成を示す図である。

【図2】実施形態における同期システムを構成する同期化信号送出装置の機能構成を示す図である。

【図3】実施形態における同期化信号送出装置の挙動を模式的に表わした図である。

【図4】実施形態における同期システムを構成する遅延差検出装置の機能構成を示す図である。

【図5】実施形態における遅延差検出装置の挙動を、映像及び音声が遅延差なく遅延差検出装置に届いた場合について、模式的に例示した図である。

【図6】実施形態における遅延差検出装置の挙動を、映像が音声より１フレーム遅れた場合について、模式的に例示した図である。

【図7】実施形態における遅延差検出装置の挙動を、音声が映像より１フレーム遅れた場合について、模式的に例示した図である。

【発明を実施するための形態】

【0020】

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態における同期システム１の構成を示す図である。
同期システム１は、同期化信号送出装置１０と、遅延差検出装置２０とを備える。

【0021】

同期化信号送出装置１０は、映像及び音声の信号を送出する際に、フレームを構成する映像に対して、このフレームと所定の相対位置にあるフレームに相当する期間の音声の特徴量を重畳する。
遅延差検出装置２０は、映像及び音声の信号を受信する際に、映像に重畳された音声特徴量を分離し、受信した音声から算出した音声特徴量と比較することで、映像と音声との遅延差（以後、単に遅延差と呼ぶ）を測定する。そして、遅延差検出装置２０は、測定した遅延差に応じて、映像又は音声にディレイを挿入して出力する。

【0022】

ここで、フレームとは、映像及び音声を合わせたデータを指す。また、フレームは、所定期間（例えば、１／６０ｓｅｃ）毎の時間的に連続したデータのため、時間を表す単位、あるいは、「ｘフレーム前」など、時間的な相対的位置を表現するためにも使用する。

【0023】

図２は、本実施形態における同期システム１を構成する同期化信号送出装置１０の機能構成を示す図である。
同期化信号送出装置１０は、制御部及び記憶部を備えた情報処理装置であり、サーバ又はパーソナルコンピュータなど汎用の装置の他、専用のハードウェアとして実装されてもよい。制御部は、記憶部に格納されたプログラムを読み出し実行することにより、重畳フレーム決定部１１、音声特徴量算出部１２、重畳部１３、及び出力信号選択部１４（出力部）として機能する。
同期化信号送出装置１０は、これらの機能部により、遅延差検出装置２０が遅延差を検出するために、映像に音声特徴量を多重化したフレームを出力する。

【0024】

同期化信号送出装置１０の入力及び出力は、映像及び音声から構成されるフレームの列である。入出力データは、具体的には、例えばリアルタイムシステムでは、３Ｇ－ＳＤＩ、１２Ｇ－ＳＤＩなどの映像・音声のインタフェース、又はＩＰインタフェースなどにより伝送され、ファイルベースシステムの場合はファイルにより伝送される。

【0025】

重畳フレーム決定部１１は、音声特徴量を重畳させるフレーム（以後、重畳フレーム）を、予め定めた手段で決定する。例えば、重畳フレーム決定部１１は、全てのフレームを重畳フレームとして、又は一定間隔で重畳フレームを決定してもよいが、カットチェンジ直後のフレーム、又はカットチェンジ直前のフレームを用いると、重畳による映像の変化が視認し難くなり好適である。
なお、この手段は、後述する遅延差検出装置２０が用いる手段と同じものである。

【0026】

音声特徴量算出部１２は、各フレームの音声から、予め定めた手段で音声特徴量を算出する。この音声特徴量は、短い時間（例えば、１フレーム＝約１６ｍｓｅｃ、１／４フレーム＝約４ｍｓｅｃなど）単位で測定できる指標が用いられる。例えば、ＺＣＲ（Ｚｅｒｏ－ｃｒｏｓｓｉｎｇｒａｔｅ）、音声のパワーの時間平均、ＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，メル周波数ケプストラム係数）、基本周波数などの指標が利用可能である。
なお、音声特徴量の算出手段は、後述する遅延差検出装置２０で用いる手段と同じものである。

【0027】

重畳部１３は、音声特徴量算出部１２により算出された音声特徴量を、予め定めた手段で映像に重畳する。このとき、重畳する音声特徴量は、重畳フレーム決定部１１により決定された対象となる映像のフレームより、予め定めたフレーム数（以後、オフセットフレーム数と呼ぶ）だけ前のフレームの音声から算出されたものである。

【0028】

ここで、重畳部１３は、重畳の手段として、ステガノグラフィ又は電子透しで用いられている映像へのデータハイディングを用いて映像に音声特徴量を埋め込んだり、映像の一部の領域（例えば、上部若しくは下部の１～数ライン、又は映像の隅などの目立たない領域）を、音声特徴量を画素値に変換した画像で置き換えたり、といった映像中に音声特徴量を埋め込む手段を用いる。例えば、映像の一部の領域を置き換える場合は、重畳部１３は、音声特徴量をバーコード又は２次元バーコードなどの画像に変換して用いてもよい。

【0029】

なお、データハイディングの技術は、例えば、次の参考文献に示されている。
参考文献：電子情報通信学会「知識ベース」１群－３編－１３章（ｖｅｒ．１／２０１０．８．２）情報ハイディング，＜https://www.ieice-hbkb.org/files/01/01gun_03hen_13.pdf＞

【0030】

なお、オフセットフレーム数は、後述する遅延差検出装置２０と共有され、重畳の手段は、遅延差検出装置２０により音声特徴量として読み取り可能な手段を用いる。
オフセットフレーム数は、０フレームとしてもよいが、この場合、音声特徴量を計算して求めるのに必要な時間だけ、出力をディレイさせなければならない。したがって、オフセットフレーム数は、音声特徴量を計算して求めるために必要な時間に相当するフレーム数以上とすることで、出力をディレイさせる必要は無く好適である。

【0031】

また、オフセットフレーム数は、出力のディレイなしに音声の遅延を検出できるフレーム数となるため、予想される音声の遅延量より大きなフレーム数とすると好適である。しかし、一般に音声が映像に対して遅延することはほぼ発生しないため、オフセットフレーム数は、音声特徴量の計算に必要な時間を超える最小のフレーム数とすると好適である。

【0032】

出力信号選択部１４は、通常は入力されたフレームをそのまま出力し、重畳フレームについては、重畳部１３が出力する映像と重畳フレームの音声とから構成したフレームを出力する。したがって、重畳部１３及び音声特徴量算出部１２は、重畳フレーム以外では動作させる必要はない。

【0033】

図３は、本実施形態における同期化信号送出装置１０の挙動を模式的に表わした図である。
この図では、重畳フレームとしてカットチェンジ直後のフレームが決定されることとし、オフセットフレーム数を３フレームと定めた場合を例示している。
なお、図中の大文字アルファベットが映像を、小文字アルファベットが音声を示し、括弧付きのアルファベットは音声特徴量を示す。

【0034】

この例では、同期化信号送出装置１０への入力が時間順に、映像＝Ａ・音声＝ａからなるフレーム、映像＝Ｂ・音声＝ｂからなるフレーム、映像＝Ｃ・音声＝ｃからなるフレーム、…と並んでいる。
音声特徴量算出部１２は、各フレームの音声ａ，ｂ，…から、それぞれ音声特徴量（ａ），（ｂ），…を求める。

【0035】

ここで、ＥフレームとＦフレームとの間でカットチェンジがあり、重畳フレーム決定部１１が、映像Ｆ及び音声ｆからなるフレームを重畳フレームと決定したとする。重畳部１３は、重畳フレームの映像Ｆに対し、オフセットフレーム数（＝３フレーム）前の音声から算出された音声特徴量（ｃ）を重畳した映像Ｆ＋を生成する。

【0036】

出力信号選択部１４は、通常は入力されたフレームをそのまま出力するが、重畳フレームに関しては、音声特徴量（ｃ）が重畳された映像Ｆ＋と、重畳フレームの音声ｆとからなるフレームを出力する。

【0037】

図４は、本実施形態における同期システム１を構成する遅延差検出装置２０の機能構成を示す図である。
遅延差検出装置２０は、制御部及び記憶部を備えた情報処理装置であり、サーバ又はパーソナルコンピュータなど汎用の装置の他、専用のハードウェアとして実装されてもよい。制御部は、記憶部に格納されたプログラムを読み出し実行することにより、音声特徴量算出部２１、分離フレーム決定部２２、分離部２３、音声特徴量探索部２４、コンシールメント部２５、選択部２６、遅延部２７として機能する。
また、記憶部は、音声特徴量蓄積部２８を備える。

【0038】

同期化信号送出装置１０は、これらの機能部により、同期化信号送出装置１０が出力する信号、又はこれと同等の信号を入力とし、フレームに含まれる映像と音声との間に生じた遅延差を検出するとともに、遅延差を解消して映像と音声とを同期化する。
なお、遅延差検出装置２０の入力及び出力は、同期化信号送出装置１０と同様に、映像及び音声から構成されるフレームの列である。

【0039】

音声特徴量算出部２１は、同期化信号送出装置１０の音声特徴量算出部１２と共通の手段により、入力された各フレームの音声から音声特徴量を算出し、蓄積特徴量群として音声特徴量蓄積部２８に蓄積する。
なお、蓄積するフレーム数は、遅延差検出装置２０で検出可能な映像と音声との遅延差になるため、発生が予想される遅延差より長いフレーム数にすると好適である。

【0040】

分離フレーム決定部２２は、映像に重畳された音声特徴量を抽出する対象のフレーム（以後、分離フレームと呼ぶ）を、予め定めた手段で決定する。この手段は、前述の同期化信号送出装置１０の重畳フレーム決定部１１が用いる手段と同じものである。

【0041】

分離部２３は、分離フレームの映像に対し、予め定めた手段で映像に重畳された音声特徴量（以後、分離特徴量と呼ぶ）を、映像から抽出する。
分離の手段は、前述の同期化信号送出装置１０で重畳された値を読み出せる手段である。例えば、同期化信号送出装置１０が映像の右下に２次元バーコードとして音声特徴量を埋め込んだ場合、分離部２３は、この領域をデコードして埋め込まれた音声特徴量を抽出する。同様に、データハイディングを用いて映像に音声特徴量が埋め込まれた場合は、分離部２３は、用いたデータハイディングに対応したデータ抽出手段を用いて、音声特徴量を映像から抽出する。

【0042】

音声特徴量探索部２４は、蓄積特徴量群の中から、分離部２３により抽出された分離特徴量に相当する特徴量を探索し、探索された蓄積特徴量群中の音声特徴量の算出に用いた音声が含まれるフレーム（以後、蓄積フレームと呼ぶ）を求める。そして、音声特徴量探索部２４は、分離フレームと蓄積フレームとの時間差を遅延差として求める。ただし、この遅延差にはオフセットフレーム数が含まれるため、例えば後述の遅延差検出装置２０の挙動で示すように、オフセットフレーム数を除外する処理が必要である。
なお、伝送路における圧縮符号化などの影響で、分離特徴量は蓄積特徴量群内の音声特徴量と必ずしも完全に一致するとは限らない。したがって、音声特徴量探索部２４は、探索の際に、分離特徴量と最も類似度の高い蓄積特徴量群内の音声特徴量を求めると好適である。

【0043】

コンシールメント部２５は、必要に応じて、音声特徴量の重畳によって劣化した映像のコンシールメント（修復）を行う。
例えば、重畳の手段としてデータハイディングを用いた場合、映像の変化は視認されにくいため、コンシールメント部２５と後述の選択部２６は不要である。一方、映像中の数ライン又は隅などの領域を、バーコード又は２次元バーコードのような画像として表現した音声特徴量で置き換えている場合、コンシールメント部２５は、周囲の画素から該当の領域を内挿又は外挿するなど、重畳した部分が目立たなくなる処理を行う。

【0044】

選択部２６は、コンシールメント部２５が設けられたときに必要となる機能部である。選択部２６は、通常は入力されたフレームを出力し、分離フレームについては、コンシールメント部２５の出力映像と分離フレームの音声とから構成したフレームを出力する。

【0045】

遅延部２７は、音声特徴量探索部２４により求められた遅延差に基づき、映像又は音声を遅延させたフレームを出力する。

【0046】

次に、遅延差検出装置２０の挙動を、映像と音声とに遅延差が無い場合、映像が遅れた場合、音声が遅れた場合、それぞれについて説明する。

【0047】

図５は、本実施形態における遅延差検出装置２０の挙動を、映像及び音声が遅延差なく遅延差検出装置２０に届いた場合について、模式的に例示した図である。
この例では、分離レームをカットチェンジ直後のフレーム、オフセットフレーム数を３フレームとしている。

【0048】

入力に関して、伝送路又はファイル記録時の圧縮符号化などによる映像及び音声の変化を考慮して、同期化信号送出装置１０の出力から変化する可能性のある信号には「’」を付けて示している。例えば、映像Ａは映像Ａ’に変化し、音声ａは音声ａ’に変化したことを示している。同様に、映像Ｆ＋はＦ＋’に変化し、映像に重畳された音声特徴量（ｃ）は（ｃ）’に変化している。

【0049】

音声特徴量算出部２１は、各フレームの音声ａ’，ｂ’，…から、それぞれ音声特徴量（ａ’），（ｂ’），…を求める。求めた音声特徴量は、音声特徴量蓄積部２８に蓄積される。

【0050】

ここで、Ｅ’フレームとＦ＋’フレームとの間でカットチェンジがあり、分離フレーム決定部２２が、映像Ｆ＋’及び音声ｆ’からなるフレームを分離フレームと決定したとする。
分離フレームについては、コンシールメント部２５でコンシールメントが行われ、映像Ｆ＋’－が出力される。選択部２６は、分離フレーム以外では入力フレームを出力し、分離フレームに関しては、分離フレームの映像Ｆ＋’－及び分離フレームの音声ｆ’から構成されるフレームを出力する。

【0051】

分離部２３は、分離フレームの映像Ｆ＋’に重畳された音声特徴量を抽出し分離特徴量（ｃ）’を求める。
音声特徴量探索部２４は、抽出された分離特徴量（ｃ）’と最も類似した音声特徴量を、音声特徴量蓄積部２８に蓄積された音声特徴量群から探索する。この例では、分離特徴量（ｃ）’と最も類似した音声特徴量（ｃ’）は、分離フレームより３フレーム前のフレームの音声の特徴量である。これは、予め定めたオフセットフレーム数と一致しているため、映像と音声とに遅延差は無い、ということが検出できる。
したがって、遅延部２７は、音声も映像も遅延させることなく、そのまま出力する。

【0052】

図６は、本実施形態における遅延差検出装置２０の挙動を、映像が音声より１フレーム遅れた場合について、模式的に例示した図である。
映像が１フレーム遅れたため、入力については、本来は音声ａ’とフレームを構成すべき映像Ａ’は、次の音声ｂ’とフレームを構成しており、以降のフレームでも同様に遅延差が生じている。

【0053】

この場合も、分離フレームＦ＋’から分離される分離特徴量は（ｃ）’となり、遅延差がない図５の例と同じである。
一方で、音声特徴量蓄積部２８に蓄積される音声特徴量は、遅延差がない場合より１フレームずつずれている。このため、分離特徴量（ｃ）’と最も類似したとして音声特徴量探索部２４が特定する音声特徴量（ｃ’）は、分離フレームより４フレーム前のフレームの音声の特徴量である。これは、予め定めたオフセットフレーム数より、１フレーム大きい。すなわち、遅延差は＋１フレーム（映像が音声に対して１フレーム遅れた）と検出できる。

【0054】

遅延部２７は、検出された遅延差に基づき、音声を１フレーム遅延させたフレームを構成して出力する。この結果、図に示すように、映像と音声とが同期したフレームが出力される。
なお、この模式図では、遅延差が検出されたフレームから即座に音声のディレイを開始しているが、実施の際は前後にずれた位置から音声のディレイを開始してもよい。
また、この模式図では、挙動を解りやすく示すために音声ｃ’を２回反復して示しているが、同じ音声が反復すると音声ノイズになったり不自然な聞こえ方になったりするため、音声のディレイ時には無音とすると良い。特に、無音部で音声のディレイを開始すると好適である。ただし、リップシンクのずれが明らかに目立つ場合は、音声が不自然となっても即座に音声のディレイを開始すると好適である。

【0055】

図７は、本実施形態における遅延差検出装置２０の挙動を、音声が映像より１フレーム遅れた場合について、模式的に例示した図である。
この場合、分離特徴量（ｃ）’と最も類似したとして音声特徴量探索部２４が特定する音声特徴量（ｃ’）は、分離フレームより２フレーム前のフレームの音声の特徴量である。これは、予め定めたオフセットフレーム数より、１フレーム小さい。すなわち、遅延差は－１フレーム（音声が映像に対して１フレーム遅れた）と検出できる。

【0056】

遅延部２７は、検出された遅延差に基づき、映像を１フレーム遅延させたフレームを構成して出力する。この結果、図に示すように、映像と音声とが同期したフレームが出力される。
なお、この模式図では、遅延差が検出されたフレームから即座に映像のディレイを開始しているが、実施の際は前後にずれた位置から映像のディレイを開始してもよい。
また、この模式図では挙動を解りやすく示すために映像Ｃ’を２回反復して示しているが、動きのあるシーンの途中で同じ映像が反復すると動きが不自然になるため、静止しているシーン又はカットチェンジの前後で映像のディレイを開始すると好適である。

【0057】

なお、図５～７において、圧縮符号化の影響がない場合、映像及び音声の信号は「’」を除いた同期化信号送出装置１０の出力信号と同一であるため、さらに頑健な遅延量の検出が可能である。
また、重畳フレーム及び分離フレームを、カットチェンジ直後又は直前のフレームなどと定めても、伝送路又はファイルに適用される圧縮符号化などの影響により、同期化信号送出装置１０が音声特徴量を重畳したフレームを遅延差検出装置２０が検出できないか、あるいは、重畳フレームとは異なるフレームを分離フレームとして遅延差検出装置２０が誤検出する場合がある。このため、遅延差検出装置２０は、１つの分離フレームから得られた遅延差ではなく、複数の分離フレームから得られた遅延差から、多数決などの決定手段で遅延差を決定すると好適である。

【0058】

本実施形態によれば、同期システム１は、同期化信号送出装置１０において、フレームを構成する音声から音声特徴量を算出してオフセットフレーム数後の映像に重畳させておくことにより、遅延差検出装置２０において、映像に重畳されている音声特徴量と類似した音声特徴量が算出されるフレームと、オフセットフレーム数前のフレームとの時間差を、映像及び音声の遅延差として検出する。
したがって、同期システム１は、リップシンク信号の伝送を行うことなく、すなわち、特殊なコンテンツをユーザに提示することなく、コンテンツの映像と音声との遅延差を解消し同期させることができる。

【0059】

このとき、同期化信号送出装置１０は、アンシラリ領域を用いず映像に音声特徴量を重畳させるため、圧縮符号化を伴う伝送路のようにアンシラリ情報が失われる経路を通っても、映像と音声との間に生じた遅延差の検出が可能である。

【0060】

同期化信号送出装置１０及び遅延差検出装置２０は、予め定めた共通の規則により、それぞれ重畳フレーム及び分離フレームを決定する。これにより、音声特徴量を映像に重畳させる処理及び分離する処理の頻度、並びに映像の画質劣化が抑制される。
特に、カットチェンジ直後のフレームなど、カットチェンジ検出に基づいて決定したフレームのみを重畳フレームにすることにより、同期システム１は、音声特徴量の映像への重畳で生じる映像の画質劣化がユーザに視認されにくい特長を持つ。

【0061】

また、遅延差検出装置２０は、遅延差の検出を複数回行った後、多数決により遅延差を決定してもよい。これにより、同期システム１は、圧縮符号化などの影響による誤検出を除外して精度良く遅延差を検出し、映像及び音声を同期させることができる。

【0062】

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。

【0063】

前述の実施形態では、重畳フレーム及び分離フレームをカットチェンジ直後のフレームとした場合について説明したが、これには限られない。例えば、データハイディングなど視覚的に目立たない重畳手段を用いる場合や、遅延差の測定自体を目的とし２次元バーコードなどで埋め込まれた音声特徴量が映像に存在していても問題ない場合は、全てのフレームを重畳フレーム及び分離フレームとしてもよい。この場合、重畳フレーム決定部１１や分離フレーム決定部２２は不要である。

【0064】

前述の実施形態では、音声特徴量として、１フレーム間の音声に対する特徴量を用いるとして説明したが、より短い区間の音声特徴量を算出し、より細かい精度で映像と音声との遅延差を検出してもよい。例えば、同期化信号送出装置１０は、１／４フレーム間の音声特徴量を４回算出し、これら４つを映像に重畳すれば、遅延差検出装置２０において、１／４フレームの精度で遅延差を検出し、同期させることが可能である。

【0065】

なお、前述の実施形態では、映像と音声とを同期させるまで行う例を示したが、映像と音声との遅延差を測定するだけであれば、遅延差検出装置２０に遅延部２７は不要である。この場合、さらに、コンシールメント部２５及び選択部２６を省略してもよい。

【0066】

本実施形態では、主に同期システム１の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、ディスプレイに画像を表示するための方法、又はプログラムとして構成されてもよい。

【0067】

さらに、同期システム１の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

【0068】

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

【0069】

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【符号の説明】

【0070】

１同期システム
１０同期化信号送出装置
１１重畳フレーム決定部
１２音声特徴量算出部
１３重畳部
１４出力信号選択部（出力部）
２０遅延差検出装置
２１音声特徴量算出部
２２分離フレーム決定部
２３分離部
２４音声特徴量探索部
２５コンシールメント部
２６選択部
２７遅延部
２８音声特徴量蓄積部

【図1】