(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023139681
(43)【公開日】2023-10-04
(54)【発明の名称】同期化信号送出装置、遅延差検出装置、同期化信号送出プログラム及び遅延差検出プログラム
(51)【国際特許分類】
H04N 21/242 20110101AFI20230927BHJP
H04N 21/233 20110101ALI20230927BHJP
H04N 21/44 20110101ALI20230927BHJP
H04N 7/04 20060101ALI20230927BHJP
【FI】
H04N21/242
H04N21/233
H04N21/44
H04N7/04 101
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022045339
(22)【出願日】2022-03-22
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】井口 和久
(72)【発明者】
【氏名】近藤 雄一
(72)【発明者】
【氏名】新井 大地
【テーマコード(参考)】
5C063
5C164
【Fターム(参考)】
5C063AC01
5C063AC05
5C063CA14
5C164PA43
5C164SB01S
5C164SB04P
5C164SB10P
5C164UB01S
5C164UB05P
(57)【要約】
【課題】リップシンク信号の伝送を行うことなく、コンテンツの映像と音声との遅延差を解消できる同期システムを提供すること。
【解決手段】同期化信号送出装置10は、映像及び音声から構成されるフレームの列が入力され、フレームの音声から音声特徴量を算出する音声特徴量算出部12と、フレームの映像に対して、所定のオフセットフレーム数前のフレームの映像から算出された音声特徴量を重畳させる重畳部13と、音声特徴量が重畳された映像が含まれたフレーム列を出力する出力信号選択部14と、を備え、出力したフレーム列を受信した遅延差検出装置20において、映像に重畳されている音声特徴量と最も類似する音声特徴量が算出される音声が含まれるフレームとオフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出させる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
映像及び音声から構成されるフレームの列が入力され、
フレームの音声から音声特徴量を算出する音声特徴量算出部と、
フレームの映像に対して、所定のオフセットフレーム数前のフレームの映像から算出された前記音声特徴量を重畳させる重畳部と、
前記音声特徴量が重畳された映像が含まれたフレーム列を出力する出力部と、を備え、
出力したフレーム列を受信した装置において、映像に重畳されている音声特徴量と最も類似する音声特徴量が算出される音声が含まれるフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出させる同期化信号送出装置。
【請求項2】
前記音声特徴量を重畳させる映像を含む重畳フレームを、所定の規則により決定する重畳フレーム決定部を備え、
前記出力部は、入力されたフレームの列のうち、前記重畳フレームに対しては、前記音声特徴量が重畳された映像、及び前記重畳フレームの音声から構成されるフレームを出力し、前記重畳フレーム以外のフレームに対しては、入力されたフレームをそのまま出力する請求項1に記載の同期化信号送出装置。
【請求項3】
前記重畳フレーム決定部は、前記音声特徴量を重畳させるフレームを、カットチェンジを基準に決定する請求項2に記載の同期化信号送出装置。
【請求項4】
映像及び音声から構成されるフレームの列が入力され、
フレームに含まれる音声から音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量算出部により算出された前記音声特徴量を蓄積する音声特徴量蓄積部と、
フレームに含まれる映像に重畳されている、所定のオフセットフレーム数前のフレームの映像から算出された音声特徴量を抽出する分離部と、
前記分離部により抽出された音声特徴量と最も類似した音声特徴量を、前記音声特徴量蓄積部から探索し、探索された音声特徴量の算出された音声が含まれていたフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出する音声特徴量探索部と、を備える遅延差検出装置。
【請求項5】
重畳されている前記音声特徴量を抽出するフレームを、所定の規則により決定する分離フレーム決定部を備える請求項4に記載の遅延差検出装置。
【請求項6】
前記分離フレーム決定部は、前記音声特徴量を映像から抽出するフレームを、カットチェンジを基準に決定する請求項5に記載の遅延差検出装置。
【請求項7】
前記音声特徴量探索部は、複数回の検出結果の多数決により前記遅延差を検出する請求項4から請求項6のいずれかに記載の遅延差検出装置。
【請求項8】
検出された前記遅延差に基づいて、映像及び音声の一方を遅延させることにより同期させたフレームを出力する遅延部を備える請求項4から請求項7のいずれかに記載の遅延差検出装置。
【請求項9】
請求項1から請求項3のいずれかに記載の同期化信号送出装置としてコンピュータを機能させるための同期化信号送出プログラム。
【請求項10】
請求項4から請求項8のいずれかに記載の遅延差検出装置としてコンピュータを機能させるための遅延差検出装置プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツの映像と音声とを同期させるシステムに関する。
【背景技術】
【0002】
テレビ番組や動画など、映像と音声とからなるコンテンツは、その制作、伝送、又は提示を行う際に、映像の処理(カメラによる撮像、色及びレベルの調整、表示装置の信号処理など)と、音声の処理(マイクによる集音、音量の調整、スピーカの信号処理など)とに分離して処理(以後、映音別処理と呼ぶ)が行われる場合がある。映音別処理を行うと、映像及び音声の到着に遅延差(リップシンクずれ)が生じる場合がある。このため、映音別処理では、リップシンクと呼ばれる作業を行い、遅延差を解消している。
【0003】
リップシンク作業では、リップシンク信号と呼ばれるコンテンツが用いられる。リップシンク信号としては、例えば「パ、ピ、プ、ペ、ポ」と発声している人物の映像及び声を同時に収録したコンテンツ、又は映像の変化と同時に音声が変化する機械的に作られた特殊なコンテンツなどが広く用いられている(例えば、特許文献1参照)。リップシンク作業では、このようなリップシンク信号を、映音別処理を行う前の位置から送出し、映音別処理を行った後の位置で人間が視聴、あるいは機械的に測定することで、映像と音声との到着遅延差を測定する。測定した遅延差に応じて、映像又は音声にディレイを挿入することで、映音別処理により発生した映像と音声との到着遅延差が解消される。なお、映像処理と音声処理とでは、一般に映像処理の方がより時間がかかるため、ほとんどの場合では音声に対して映像が遅延し、リップシンク作業において音声にディレイが挿入される。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、リップシンク信号は、本来伝送したいコンテンツとは異なる特別なコンテンツであり、視聴者又は観客に見せるべきコンテンツではない。したがって、リップシンク作業は、本来伝送したいコンテンツの伝送又はコンテンツ配信サービスの開始に先立って、予め行っておく作業である。
【0006】
このため、コンテンツ配信のサービス中に、伝送路のトラブル又は機器のトラブルなどにより映音別処理に関わる機器の入れ替え又はパラメータの変更などが発生した場合、映像及び音声の到着に遅延差が生じても、これを測定し解消することができなかった。すなわち、遅延差を解消しようとすると、コンテンツ配信のサービス中にリップシンク信号の伝送を行うことになり、視聴者又は観客に見せるべきではない特殊なコンテンツを見せてしまうため、サービスの品質が低下するという課題があった。
【0007】
本発明は、リップシンク信号の伝送を行うことなく、コンテンツの映像と音声との遅延差を解消できる同期システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る同期化信号送出装置は、映像及び音声から構成されるフレームの列が入力される入力部と、フレームの音声から音声特徴量を算出する音声特徴量算出部と、フレームの映像に対して、所定のオフセットフレーム数前のフレームの映像から算出された前記音声特徴量を重畳させる重畳部と、前記音声特徴量が重畳された映像が含まれたフレーム列を出力する出力部と、を備え、出力したフレーム列を受信した装置において、映像に重畳されている音声特徴量と最も類似する音声特徴量が算出される音声が含まれるフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出させる。
【0009】
前記同期化信号送出装置は、前記音声特徴量を重畳させる映像を含む重畳フレームを、所定の規則により決定する重畳フレーム決定部を備え、前記出力部は、入力されたフレームの列のうち、前記重畳フレームに対しては、前記音声特徴量が重畳された映像、及び前記重畳フレームの音声から構成されるフレームを出力し、前記重畳フレーム以外のフレームに対しては、入力されたフレームをそのまま出力してもよい。
【0010】
前記重畳フレーム決定部は、前記音声特徴量を重畳させるフレームを、カットチェンジを基準に決定してもよい。
【0011】
本発明に係る遅延差検出装置は、映像及び音声から構成されるフレームの列が入力される入力部と、フレームに含まれる音声から音声特徴量を算出する音声特徴量算出部と、前記音声特徴量算出部により算出された前記音声特徴量を蓄積する音声特徴量蓄積部と、フレームに含まれる映像に重畳されている、所定のオフセットフレーム数前のフレームの映像から算出された音声特徴量を抽出する分離部と、前記分離部により抽出された音声特徴量と最も類似した音声特徴量を、前記音声特徴量蓄積部から探索し、探索された音声特徴量の算出された音声が含まれていたフレームと前記オフセットフレーム数前のフレームとの時間差を映像及び音声の遅延差として検出する音声特徴量探索部と、を備える。
【0012】
前記遅延差検出装置は、重畳されている前記音声特徴量を抽出するフレームを、所定の規則により決定する分離フレーム決定部を備えてもよい。
【0013】
前記分離フレーム決定部は、前記音声特徴量を映像から抽出するフレームを、カットチェンジを基準に決定してもよい。
【0014】
前記音声特徴量探索部は、複数回の検出結果の多数決により前記遅延差を検出してもよい。
【0015】
前記遅延差検出装置は、検出された前記遅延差に基づいて、映像及び音声の一方を遅延させることにより同期させたフレームを出力する遅延部を備えてもよい。
【0016】
本発明に係る同期化信号送出プログラムは、前記同期化信号送出装置としてコンピュータを機能させるためのものである。
【0017】
本発明に係る遅延差検出プログラムは、前記遅延差検出装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0018】
本発明によれば、リップシンク信号の伝送を行うことなく、コンテンツの映像と音声との遅延差を解消できる。
【図面の簡単な説明】
【0019】
【
図1】実施形態における同期システムの構成を示す図である。
【
図2】実施形態における同期システムを構成する同期化信号送出装置の機能構成を示す図である。
【
図3】実施形態における同期化信号送出装置の挙動を模式的に表わした図である。
【
図4】実施形態における同期システムを構成する遅延差検出装置の機能構成を示す図である。
【
図5】実施形態における遅延差検出装置の挙動を、映像及び音声が遅延差なく遅延差検出装置に届いた場合について、模式的に例示した図である。
【
図6】実施形態における遅延差検出装置の挙動を、映像が音声より1フレーム遅れた場合について、模式的に例示した図である。
【
図7】実施形態における遅延差検出装置の挙動を、音声が映像より1フレーム遅れた場合について、模式的に例示した図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における同期システム1の構成を示す図である。
同期システム1は、同期化信号送出装置10と、遅延差検出装置20とを備える。
【0021】
同期化信号送出装置10は、映像及び音声の信号を送出する際に、フレームを構成する映像に対して、このフレームと所定の相対位置にあるフレームに相当する期間の音声の特徴量を重畳する。
遅延差検出装置20は、映像及び音声の信号を受信する際に、映像に重畳された音声特徴量を分離し、受信した音声から算出した音声特徴量と比較することで、映像と音声との遅延差(以後、単に遅延差と呼ぶ)を測定する。そして、遅延差検出装置20は、測定した遅延差に応じて、映像又は音声にディレイを挿入して出力する。
【0022】
ここで、フレームとは、映像及び音声を合わせたデータを指す。また、フレームは、所定期間(例えば、1/60sec)毎の時間的に連続したデータのため、時間を表す単位、あるいは、「xフレーム前」など、時間的な相対的位置を表現するためにも使用する。
【0023】
図2は、本実施形態における同期システム1を構成する同期化信号送出装置10の機能構成を示す図である。
同期化信号送出装置10は、制御部及び記憶部を備えた情報処理装置であり、サーバ又はパーソナルコンピュータなど汎用の装置の他、専用のハードウェアとして実装されてもよい。制御部は、記憶部に格納されたプログラムを読み出し実行することにより、重畳フレーム決定部11、音声特徴量算出部12、重畳部13、及び出力信号選択部14(出力部)として機能する。
同期化信号送出装置10は、これらの機能部により、遅延差検出装置20が遅延差を検出するために、映像に音声特徴量を多重化したフレームを出力する。
【0024】
同期化信号送出装置10の入力及び出力は、映像及び音声から構成されるフレームの列である。入出力データは、具体的には、例えばリアルタイムシステムでは、3G-SDI、12G-SDIなどの映像・音声のインタフェース、又はIPインタフェースなどにより伝送され、ファイルベースシステムの場合はファイルにより伝送される。
【0025】
重畳フレーム決定部11は、音声特徴量を重畳させるフレーム(以後、重畳フレーム)を、予め定めた手段で決定する。例えば、重畳フレーム決定部11は、全てのフレームを重畳フレームとして、又は一定間隔で重畳フレームを決定してもよいが、カットチェンジ直後のフレーム、又はカットチェンジ直前のフレームを用いると、重畳による映像の変化が視認し難くなり好適である。
なお、この手段は、後述する遅延差検出装置20が用いる手段と同じものである。
【0026】
音声特徴量算出部12は、各フレームの音声から、予め定めた手段で音声特徴量を算出する。この音声特徴量は、短い時間(例えば、1フレーム=約16msec、1/4フレーム=約4msecなど)単位で測定できる指標が用いられる。例えば、ZCR(Zero-crossing rate)、音声のパワーの時間平均、MFCC(Mel-Frequency Cepstrum Coefficient,メル周波数ケプストラム係数)、基本周波数などの指標が利用可能である。
なお、音声特徴量の算出手段は、後述する遅延差検出装置20で用いる手段と同じものである。
【0027】
重畳部13は、音声特徴量算出部12により算出された音声特徴量を、予め定めた手段で映像に重畳する。このとき、重畳する音声特徴量は、重畳フレーム決定部11により決定された対象となる映像のフレームより、予め定めたフレーム数(以後、オフセットフレーム数と呼ぶ)だけ前のフレームの音声から算出されたものである。
【0028】
ここで、重畳部13は、重畳の手段として、ステガノグラフィ又は電子透しで用いられている映像へのデータハイディングを用いて映像に音声特徴量を埋め込んだり、映像の一部の領域(例えば、上部若しくは下部の1~数ライン、又は映像の隅などの目立たない領域)を、音声特徴量を画素値に変換した画像で置き換えたり、といった映像中に音声特徴量を埋め込む手段を用いる。例えば、映像の一部の領域を置き換える場合は、重畳部13は、音声特徴量をバーコード又は2次元バーコードなどの画像に変換して用いてもよい。
【0029】
なお、データハイディングの技術は、例えば、次の参考文献に示されている。
参考文献: 電子情報通信学会「知識ベース」 1群-3編-13章(ver.1/ 2010.8.2) 情報ハイディング,<https://www.ieice-hbkb.org/files/01/01gun_03hen_13.pdf>
【0030】
なお、オフセットフレーム数は、後述する遅延差検出装置20と共有され、重畳の手段は、遅延差検出装置20により音声特徴量として読み取り可能な手段を用いる。
オフセットフレーム数は、0フレームとしてもよいが、この場合、音声特徴量を計算して求めるのに必要な時間だけ、出力をディレイさせなければならない。したがって、オフセットフレーム数は、音声特徴量を計算して求めるために必要な時間に相当するフレーム数以上とすることで、出力をディレイさせる必要は無く好適である。
【0031】
また、オフセットフレーム数は、出力のディレイなしに音声の遅延を検出できるフレーム数となるため、予想される音声の遅延量より大きなフレーム数とすると好適である。しかし、一般に音声が映像に対して遅延することはほぼ発生しないため、オフセットフレーム数は、音声特徴量の計算に必要な時間を超える最小のフレーム数とすると好適である。
【0032】
出力信号選択部14は、通常は入力されたフレームをそのまま出力し、重畳フレームについては、重畳部13が出力する映像と重畳フレームの音声とから構成したフレームを出力する。したがって、重畳部13及び音声特徴量算出部12は、重畳フレーム以外では動作させる必要はない。
【0033】
図3は、本実施形態における同期化信号送出装置10の挙動を模式的に表わした図である。
この図では、重畳フレームとしてカットチェンジ直後のフレームが決定されることとし、オフセットフレーム数を3フレームと定めた場合を例示している。
なお、図中の大文字アルファベットが映像を、小文字アルファベットが音声を示し、括弧付きのアルファベットは音声特徴量を示す。
【0034】
この例では、同期化信号送出装置10への入力が時間順に、映像=A・音声=aからなるフレーム、映像=B・音声=bからなるフレーム、映像=C・音声=cからなるフレーム、…と並んでいる。
音声特徴量算出部12は、各フレームの音声a,b,…から、それぞれ音声特徴量(a),(b),…を求める。
【0035】
ここで、EフレームとFフレームとの間でカットチェンジがあり、重畳フレーム決定部11が、映像F及び音声fからなるフレームを重畳フレームと決定したとする。重畳部13は、重畳フレームの映像Fに対し、オフセットフレーム数(=3フレーム)前の音声から算出された音声特徴量(c)を重畳した映像F+を生成する。
【0036】
出力信号選択部14は、通常は入力されたフレームをそのまま出力するが、重畳フレームに関しては、音声特徴量(c)が重畳された映像F+と、重畳フレームの音声fとからなるフレームを出力する。
【0037】
図4は、本実施形態における同期システム1を構成する遅延差検出装置20の機能構成を示す図である。
遅延差検出装置20は、制御部及び記憶部を備えた情報処理装置であり、サーバ又はパーソナルコンピュータなど汎用の装置の他、専用のハードウェアとして実装されてもよい。制御部は、記憶部に格納されたプログラムを読み出し実行することにより、音声特徴量算出部21、分離フレーム決定部22、分離部23、音声特徴量探索部24、コンシールメント部25、選択部26、遅延部27として機能する。
また、記憶部は、音声特徴量蓄積部28を備える。
【0038】
同期化信号送出装置10は、これらの機能部により、同期化信号送出装置10が出力する信号、又はこれと同等の信号を入力とし、フレームに含まれる映像と音声との間に生じた遅延差を検出するとともに、遅延差を解消して映像と音声とを同期化する。
なお、遅延差検出装置20の入力及び出力は、同期化信号送出装置10と同様に、映像及び音声から構成されるフレームの列である。
【0039】
音声特徴量算出部21は、同期化信号送出装置10の音声特徴量算出部12と共通の手段により、入力された各フレームの音声から音声特徴量を算出し、蓄積特徴量群として音声特徴量蓄積部28に蓄積する。
なお、蓄積するフレーム数は、遅延差検出装置20で検出可能な映像と音声との遅延差になるため、発生が予想される遅延差より長いフレーム数にすると好適である。
【0040】
分離フレーム決定部22は、映像に重畳された音声特徴量を抽出する対象のフレーム(以後、分離フレームと呼ぶ)を、予め定めた手段で決定する。この手段は、前述の同期化信号送出装置10の重畳フレーム決定部11が用いる手段と同じものである。
【0041】
分離部23は、分離フレームの映像に対し、予め定めた手段で映像に重畳された音声特徴量(以後、分離特徴量と呼ぶ)を、映像から抽出する。
分離の手段は、前述の同期化信号送出装置10で重畳された値を読み出せる手段である。例えば、同期化信号送出装置10が映像の右下に2次元バーコードとして音声特徴量を埋め込んだ場合、分離部23は、この領域をデコードして埋め込まれた音声特徴量を抽出する。同様に、データハイディングを用いて映像に音声特徴量が埋め込まれた場合は、分離部23は、用いたデータハイディングに対応したデータ抽出手段を用いて、音声特徴量を映像から抽出する。
【0042】
音声特徴量探索部24は、蓄積特徴量群の中から、分離部23により抽出された分離特徴量に相当する特徴量を探索し、探索された蓄積特徴量群中の音声特徴量の算出に用いた音声が含まれるフレーム(以後、蓄積フレームと呼ぶ)を求める。そして、音声特徴量探索部24は、分離フレームと蓄積フレームとの時間差を遅延差として求める。ただし、この遅延差にはオフセットフレーム数が含まれるため、例えば後述の遅延差検出装置20の挙動で示すように、オフセットフレーム数を除外する処理が必要である。
なお、伝送路における圧縮符号化などの影響で、分離特徴量は蓄積特徴量群内の音声特徴量と必ずしも完全に一致するとは限らない。したがって、音声特徴量探索部24は、探索の際に、分離特徴量と最も類似度の高い蓄積特徴量群内の音声特徴量を求めると好適である。
【0043】
コンシールメント部25は、必要に応じて、音声特徴量の重畳によって劣化した映像のコンシールメント(修復)を行う。
例えば、重畳の手段としてデータハイディングを用いた場合、映像の変化は視認されにくいため、コンシールメント部25と後述の選択部26は不要である。一方、映像中の数ライン又は隅などの領域を、バーコード又は2次元バーコードのような画像として表現した音声特徴量で置き換えている場合、コンシールメント部25は、周囲の画素から該当の領域を内挿又は外挿するなど、重畳した部分が目立たなくなる処理を行う。
【0044】
選択部26は、コンシールメント部25が設けられたときに必要となる機能部である。選択部26は、通常は入力されたフレームを出力し、分離フレームについては、コンシールメント部25の出力映像と分離フレームの音声とから構成したフレームを出力する。
【0045】
遅延部27は、音声特徴量探索部24により求められた遅延差に基づき、映像又は音声を遅延させたフレームを出力する。
【0046】
次に、遅延差検出装置20の挙動を、映像と音声とに遅延差が無い場合、映像が遅れた場合、音声が遅れた場合、それぞれについて説明する。
【0047】
図5は、本実施形態における遅延差検出装置20の挙動を、映像及び音声が遅延差なく遅延差検出装置20に届いた場合について、模式的に例示した図である。
この例では、分離レームをカットチェンジ直後のフレーム、オフセットフレーム数を3フレームとしている。
【0048】
入力に関して、伝送路又はファイル記録時の圧縮符号化などによる映像及び音声の変化を考慮して、同期化信号送出装置10の出力から変化する可能性のある信号には「’」を付けて示している。例えば、映像Aは映像A’に変化し、音声aは音声a’に変化したことを示している。同様に、映像F+はF+’に変化し、映像に重畳された音声特徴量(c)は(c)’に変化している。
【0049】
音声特徴量算出部21は、各フレームの音声a’,b’,…から、それぞれ音声特徴量(a’),(b’),…を求める。求めた音声特徴量は、音声特徴量蓄積部28に蓄積される。
【0050】
ここで、E’フレームとF+’フレームとの間でカットチェンジがあり、分離フレーム決定部22が、映像F+’及び音声f’からなるフレームを分離フレームと決定したとする。
分離フレームについては、コンシールメント部25でコンシールメントが行われ、映像F+’-が出力される。選択部26は、分離フレーム以外では入力フレームを出力し、分離フレームに関しては、分離フレームの映像F+’-及び分離フレームの音声f’から構成されるフレームを出力する。
【0051】
分離部23は、分離フレームの映像F+’に重畳された音声特徴量を抽出し分離特徴量(c)’を求める。
音声特徴量探索部24は、抽出された分離特徴量(c)’と最も類似した音声特徴量を、音声特徴量蓄積部28に蓄積された音声特徴量群から探索する。この例では、分離特徴量(c)’と最も類似した音声特徴量(c’)は、分離フレームより3フレーム前のフレームの音声の特徴量である。これは、予め定めたオフセットフレーム数と一致しているため、映像と音声とに遅延差は無い、ということが検出できる。
したがって、遅延部27は、音声も映像も遅延させることなく、そのまま出力する。
【0052】
図6は、本実施形態における遅延差検出装置20の挙動を、映像が音声より1フレーム遅れた場合について、模式的に例示した図である。
映像が1フレーム遅れたため、入力については、本来は音声a’とフレームを構成すべき映像A’は、次の音声b’とフレームを構成しており、以降のフレームでも同様に遅延差が生じている。
【0053】
この場合も、分離フレームF+’から分離される分離特徴量は(c)’となり、遅延差がない
図5の例と同じである。
一方で、音声特徴量蓄積部28に蓄積される音声特徴量は、遅延差がない場合より1フレームずつずれている。このため、分離特徴量(c)’と最も類似したとして音声特徴量探索部24が特定する音声特徴量(c’)は、分離フレームより4フレーム前のフレームの音声の特徴量である。これは、予め定めたオフセットフレーム数より、1フレーム大きい。すなわち、遅延差は+1フレーム(映像が音声に対して1フレーム遅れた)と検出できる。
【0054】
遅延部27は、検出された遅延差に基づき、音声を1フレーム遅延させたフレームを構成して出力する。この結果、図に示すように、映像と音声とが同期したフレームが出力される。
なお、この模式図では、遅延差が検出されたフレームから即座に音声のディレイを開始しているが、実施の際は前後にずれた位置から音声のディレイを開始してもよい。
また、この模式図では、挙動を解りやすく示すために音声c’を2回反復して示しているが、同じ音声が反復すると音声ノイズになったり不自然な聞こえ方になったりするため、音声のディレイ時には無音とすると良い。特に、無音部で音声のディレイを開始すると好適である。ただし、リップシンクのずれが明らかに目立つ場合は、音声が不自然となっても即座に音声のディレイを開始すると好適である。
【0055】
図7は、本実施形態における遅延差検出装置20の挙動を、音声が映像より1フレーム遅れた場合について、模式的に例示した図である。
この場合、分離特徴量(c)’と最も類似したとして音声特徴量探索部24が特定する音声特徴量(c’)は、分離フレームより2フレーム前のフレームの音声の特徴量である。これは、予め定めたオフセットフレーム数より、1フレーム小さい。すなわち、遅延差は-1フレーム(音声が映像に対して1フレーム遅れた)と検出できる。
【0056】
遅延部27は、検出された遅延差に基づき、映像を1フレーム遅延させたフレームを構成して出力する。この結果、図に示すように、映像と音声とが同期したフレームが出力される。
なお、この模式図では、遅延差が検出されたフレームから即座に映像のディレイを開始しているが、実施の際は前後にずれた位置から映像のディレイを開始してもよい。
また、この模式図では挙動を解りやすく示すために映像C’を2回反復して示しているが、動きのあるシーンの途中で同じ映像が反復すると動きが不自然になるため、静止しているシーン又はカットチェンジの前後で映像のディレイを開始すると好適である。
【0057】
なお、
図5~7において、圧縮符号化の影響がない場合、映像及び音声の信号は「’」を除いた同期化信号送出装置10の出力信号と同一であるため、さらに頑健な遅延量の検出が可能である。
また、重畳フレーム及び分離フレームを、カットチェンジ直後又は直前のフレームなどと定めても、伝送路又はファイルに適用される圧縮符号化などの影響により、同期化信号送出装置10が音声特徴量を重畳したフレームを遅延差検出装置20が検出できないか、あるいは、重畳フレームとは異なるフレームを分離フレームとして遅延差検出装置20が誤検出する場合がある。このため、遅延差検出装置20は、1つの分離フレームから得られた遅延差ではなく、複数の分離フレームから得られた遅延差から、多数決などの決定手段で遅延差を決定すると好適である。
【0058】
本実施形態によれば、同期システム1は、同期化信号送出装置10において、フレームを構成する音声から音声特徴量を算出してオフセットフレーム数後の映像に重畳させておくことにより、遅延差検出装置20において、映像に重畳されている音声特徴量と類似した音声特徴量が算出されるフレームと、オフセットフレーム数前のフレームとの時間差を、映像及び音声の遅延差として検出する。
したがって、同期システム1は、リップシンク信号の伝送を行うことなく、すなわち、特殊なコンテンツをユーザに提示することなく、コンテンツの映像と音声との遅延差を解消し同期させることができる。
【0059】
このとき、同期化信号送出装置10は、アンシラリ領域を用いず映像に音声特徴量を重畳させるため、圧縮符号化を伴う伝送路のようにアンシラリ情報が失われる経路を通っても、映像と音声との間に生じた遅延差の検出が可能である。
【0060】
同期化信号送出装置10及び遅延差検出装置20は、予め定めた共通の規則により、それぞれ重畳フレーム及び分離フレームを決定する。これにより、音声特徴量を映像に重畳させる処理及び分離する処理の頻度、並びに映像の画質劣化が抑制される。
特に、カットチェンジ直後のフレームなど、カットチェンジ検出に基づいて決定したフレームのみを重畳フレームにすることにより、同期システム1は、音声特徴量の映像への重畳で生じる映像の画質劣化がユーザに視認されにくい特長を持つ。
【0061】
また、遅延差検出装置20は、遅延差の検出を複数回行った後、多数決により遅延差を決定してもよい。これにより、同期システム1は、圧縮符号化などの影響による誤検出を除外して精度良く遅延差を検出し、映像及び音声を同期させることができる。
【0062】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0063】
前述の実施形態では、重畳フレーム及び分離フレームをカットチェンジ直後のフレームとした場合について説明したが、これには限られない。例えば、データハイディングなど視覚的に目立たない重畳手段を用いる場合や、遅延差の測定自体を目的とし2次元バーコードなどで埋め込まれた音声特徴量が映像に存在していても問題ない場合は、全てのフレームを重畳フレーム及び分離フレームとしてもよい。この場合、重畳フレーム決定部11や分離フレーム決定部22は不要である。
【0064】
前述の実施形態では、音声特徴量として、1フレーム間の音声に対する特徴量を用いるとして説明したが、より短い区間の音声特徴量を算出し、より細かい精度で映像と音声との遅延差を検出してもよい。例えば、同期化信号送出装置10は、1/4フレーム間の音声特徴量を4回算出し、これら4つを映像に重畳すれば、遅延差検出装置20において、1/4フレームの精度で遅延差を検出し、同期させることが可能である。
【0065】
なお、前述の実施形態では、映像と音声とを同期させるまで行う例を示したが、映像と音声との遅延差を測定するだけであれば、遅延差検出装置20に遅延部27は不要である。この場合、さらに、コンシールメント部25及び選択部26を省略してもよい。
【0066】
本実施形態では、主に同期システム1の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、ディスプレイに画像を表示するための方法、又はプログラムとして構成されてもよい。
【0067】
さらに、同期システム1の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0068】
ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
【0069】
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0070】
1 同期システム
10 同期化信号送出装置
11 重畳フレーム決定部
12 音声特徴量算出部
13 重畳部
14 出力信号選択部(出力部)
20 遅延差検出装置
21 音声特徴量算出部
22 分離フレーム決定部
23 分離部
24 音声特徴量探索部
25 コンシールメント部
26 選択部
27 遅延部
28 音声特徴量蓄積部