(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-04-04
(45)【発行日】2022-04-12
(54)【発明の名称】映像音声同期装置、映像音声同期方法、プログラム
(51)【国際特許分類】
H04N 21/44 20110101AFI20220405BHJP
H04N 21/442 20110101ALI20220405BHJP
【FI】
H04N21/44
H04N21/442
(21)【出願番号】P 2021012128
(22)【出願日】2021-01-28
【審査請求日】2021-01-28
(73)【特許権者】
【識別番号】000130329
【氏名又は名称】株式会社コルグ
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】大石 耕史
(72)【発明者】
【氏名】小林 正人
【審査官】岩井 健二
(56)【参考文献】
【文献】特開2003-339023(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
デジタル・ビデオ信号と、対応するデジタル・オーディオ信号とを入力とし、これらを同期させる映像音声同期装置であって、
前記デジタル・ビデオ信号の到達フレーム総数をカウントする到達フレーム数カウンターと、
前記デジタル・オーディオ信号の到達サンプル総数をカウントする到達サンプル数カウンターと、
前記到達フレーム総数または前記到達サンプル総数が基準値に達するごとに、到達フレーム総数から到達サンプル総数に基づいて算出される理論フレーム総数を差し引いた差分を求める時刻比較部と、
前記差分が1以上の場合に前記デジタル・ビデオ信号のフレームを1つ間引く処理を、前記差分が-1以下の場合に前記デジタル・ビデオ信号のフレームを1つ挿入する処理を、前記差分の絶対値が1未満になるまで実行するフレーム調整部を含む
映像音声同期装置。
【請求項2】
請求項1に記載の映像音声同期装置であって、
前記時刻比較部は、
オーディオ入力がバッファ処理されている場合に、前記理論フレーム総数を、前記到達サンプル総数をサンプルレートで除算した値と、最終バッファ到着時からのCPU経過時間に基づいて算出する
映像音声同期装置。
【請求項3】
請求項1または2に記載の映像音声同期装置であって、
前記デジタル・ビデオ信号と前記デジタル・オーディオ信号の経路の違いによって生じる遅延を補正するように前記デジタル・オーディオ信号を一定時間遅延させる遅延器を含む
映像音声同期装置。
【請求項4】
デジタル・ビデオ信号と、対応するデジタル・オーディオ信号とを入力とし、これらを同期させる映像音声同期方法であって、
前記デジタル・ビデオ信号の到達フレーム総数をカウントする到達フレーム数カウントステップと、
前記デジタル・オーディオ信号の到達サンプル総数をカウントする到達サンプル数カウントステップと、
前記到達フレーム総数または前記到達サンプル総数が基準値に達するごとに、到達フレーム総数から到達サンプル総数に基づいて算出される理論フレーム総数を差し引いた差分を求める時刻比較ステップと、
前記差分が1以上の場合に前記デジタル・ビデオ信号のフレームを1つ間引く処理を、前記差分が-1以下の場合に前記デジタル・ビデオ信号のフレームを1つ挿入する処理を、前記差分の絶対値が1未満になるまで実行するフレーム調整ステップを含む
映像音声同期方法。
【請求項5】
請求項4に記載の映像音声同期方法であって、
前記時刻比較ステップは、
オーディオ入力がバッファ処理されている場合に、前記理論フレーム総数を、前記到達サンプル総数をサンプルレートで除算した値と、最終バッファ到着時からのCPU経過時間に基づいて算出する
映像音声同期方法。
【請求項6】
請求項4または5に記載の映像音声同期方法であって、
前記デジタル・ビデオ信号と前記デジタル・オーディオ信号の経路の違いによって生じる遅延を補正するように前記デジタル・オーディオ信号を一定時間遅延させる遅延ステップを含む
映像音声同期方法。
【請求項7】
コンピュータを請求項1から3の何れかに記載の映像音声同期装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は映像と音声を同期させる映像音声同期装置、映像音声同期方法、プログラムに関する。
【背景技術】
【0002】
従来、動画配信において映像と音声にずれが生じることが知られており、例えば非特許文献1には、映像と音声がクロック同期しておらず、それぞれが内部クロックで動作するために、両者のクロック精度の違いにより、だんだんと映像と音声のずれが大きくなっていく現象とその同期方法について開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】玄光社、“TASCAM DR-701Dレポート(1)~HDMI接続でカメラと同期する映像制作のためのPCM音声レコーダー”、[online]平成28年1月20日、[令和3年1月26日検索]、インターネット〈URL:https://videosalon.jp/report/tascam-dr-701d%E3%83%AC%E3%83%9D%E3%83%BC%E3%83%88%E2%9D%B6%E3%80%9Chdmi%E6%8E%A5%E7%B6%9A%E3%81%A7%E3%82%AB%E3%83%A1%E3%83%A9%E3%81%A8%E5%90%8C%E6%9C%9F%E3%81%99%E3%82%8B%E6%98%A0%E5%83%8F%E5%88%B6/〉
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えばデジタル音声入力の場合、
図1に示すようにデジタル・ビデオ信号のビデオ・クロックを基準にオーディオにサンプルレート変換処理が施されるのが一般的であるが、この変換処理によってデジタル・オーディオ信号の音質が劣化する。
【0005】
また、例えばアナログ音声入力の場合、
図2に示すようにビデオ・クロックから生成したオーディオ・クロックでアナログ・オーディオ信号をデジタル変換するのが一般的であるが、ビデオ・クロックはオーディオ・クロックよりもジッタが大きい場合が多いため、この変換処理によってデジタル・オーディオ信号の音質が劣化する。また、ビデオ・クロックからオーディオ・クロックを生成するためには、PLL(Phase Locked Loop)回路が必要となり、ここでもジッタが増加する。
【0006】
そこで本発明では、オーディオ信号を劣化させずに映像と音声を同期することが出来る映像音声同期装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の映像音声同期装置は、デジタル・ビデオ信号と、対応するデジタル・オーディオ信号とを入力とし、これらを同期させる装置であって、到達フレーム数カウンターと、到達サンプル数カウンターと、時刻比較部と、フレーム調整部を含む。
【0008】
到達フレーム数カウンターは、デジタル・ビデオ信号の到達フレーム総数をカウントする。到達サンプル数カウンターは、デジタル・オーディオ信号の到達サンプル総数をカウントする。時刻比較部は、到達フレーム総数または到達サンプル総数が基準値に達するごとに、到達フレーム総数から到達サンプル総数に基づいて算出される理論フレーム総数を差し引いた差分を求める。フレーム調整部は、差分が1以上の場合にデジタル・ビデオ信号のフレームを1つ間引く処理を、差分が-1以下の場合にデジタル・ビデオ信号のフレームを1つ挿入する処理を、差分の絶対値が1未満になるまで実行する。
【発明の効果】
【0009】
本発明の映像音声同期装置によれば、オーディオ信号を劣化させずに映像と音声を同期することが出来る。
【図面の簡単な説明】
【0010】
【
図1】従来の映像音声同期処理(デジタル音声入力の場合)を示す図。
【
図2】従来の映像音声同期処理(アナログ音声入力の場合)を示す図。
【
図3】実施例1の映像音声同期装置の機能構成を示すブロック図。
【
図4】実施例1の映像音声同期装置の動作を示すフローチャート。
【
図5】実施例2の映像音声同期装置の機能構成を示すブロック図。
【
図6】実施例2の映像音声同期装置の動作を示すフローチャート。
【
図7】実施例3の映像音声同期装置の機能構成を示すブロック図。
【
図8】実施例3の映像音声同期装置の遅延器の動作を示すフローチャート。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0012】
以下、
図3を参照して実施例1の映像音声同期装置の機能構成を説明する。同図に示すように本実施例の映像音声同期装置1は、到達フレーム数カウンター11と、到達サンプル数カウンター12と、時刻比較部13と、フレーム調整部14と、ローカル記憶部15と、配信部16を含む。本装置には、デジタル・ビデオ信号と、対応するデジタル・オーディオ信号とが入力され、本装置からはこれらを同期させた映像が出力される。なお、アナログ・オーディオ信号が用意されている場合には、このアナログ・オーディオ信号はADコンバータ9により、デジタル・オーディオ信号に変換され、映像音声同期装置1に入力される。以下、
図4を参照して本実施例の映像音声同期装置1の動作を説明する。
【0013】
<到達フレーム数カウンター11>
到達フレーム数カウンター11は、デジタル・ビデオ信号の到達フレーム総数をカウントする(S11)。
【0014】
<到達サンプル数カウンター12>
到達サンプル数カウンター12は、デジタル・オーディオ信号の到達サンプル総数をカウントする(S12)。
【0015】
<時刻比較部13>
時刻比較部13は、到達フレーム総数または到達サンプル総数が基準値(例えば到達フレーム総数の基準値=150フレームの倍数)に達するごとに、到達フレーム総数Factualから到達サンプル総数に基づいて算出される理論フレーム総数Fidealを差し引いた差分Δfを求める(S13)。具体的には、時刻比較部13は以下の式(1)、式(2)により差分Δfを求める。
【0016】
Fideal=フレームレート[fps]×到達サンプル総数/サンプルレート[Hz]…(1)
Δf=Factual-Fideal…(2)
<フレーム調整部14>
フレーム調整部14は、差分Δfが1以上の場合にデジタル・ビデオ信号のフレームを1つ間引く処理を、差分Δfが-1以下の場合にデジタル・ビデオ信号のフレームを1つ挿入する処理を、差分Δfの絶対値が1未満になるまで実行し、処理の結果をローカル記憶部15に送信する(S14)。具体的には、フレーム調整部14は以下の(a),(b)の処理を実行する。
【0017】
(a)Δf≧1.0の場合、フレーム調整部14は、以降に到達するビデオ・フレームをΔf<1.0となるまで、間引く。なお、ビデオ・フレームをΔf<1.0となるまで間引く際に、到達フレーム数カウンター11に該当フレーム分が加算されないことに注意する。
【0018】
(b)Δf≦-1.0の場合、フレーム調整部14は、前フレームを1枚分複製し、Factualに1を加算する処理を、Δf>-1.0となるまで繰り返す。ここでFactualに1を加算する処理とは到達フレーム数カウンター11に1を加算することに該当する。
【0019】
<ローカル記憶部15>
ローカル記憶部15は、ステップS14を実行済みのデジタル・ビデオ信号、デジタル・オーディオ信号を記憶する(S15)。
【0020】
<配信部16>
配信部16は、必要に応じて、ローカル記憶部15に記憶済みのリップシンク(同期)が取れたデジタル・ビデオ信号、デジタル・オーディオ信号をインターネット・サーバにアップロードする(S16)。
【0021】
このように、本実施例の映像音声同期装置1によれば、オーディオ信号を基準としてビデオ信号のフレーム間引き/挿入処理を行うことで、映像と音声の同期を行うため、オーディオ信号を劣化させずに映像と音声を同期することが出来る。
【実施例2】
【0022】
以下、
図5を参照して、オーディオ入力がバッファ処理されている場合に好適な実施例2の映像音声同期装置の機能構成を説明する。同図に示すように本実施例の映像音声同期装置2は、到達フレーム数カウンター11と、到達サンプル数カウンター12と、オーディオ時刻補正部21と、CPUクロック22と、時刻比較部23と、フレーム調整部14と、ローカル記憶部15と、配信部16を含み、実施例1と異なる機能構成は、オーディオ時刻補正部21と、CPUクロック22と、時刻比較部23である。以下、実施例1と異なる機能構成の動作について説明する。
【0023】
<オーディオ時刻補正部21>
オーディオ時刻補正部21は、現在時刻を到達サンプル総数/サンプルレート[Hz]+最終バッファ到着時からのCPU経過時間[s]として補正する(S21)。最終バッファ到着時からのCPU経過時間[s]は後述するCPUクロック22により算出される。
【0024】
<CPUクロック22>
CPUクロック22は、CPU経過時間[s]を計測する処理を実行し続ける。
【0025】
<時刻比較部23>
時刻比較部23は、オーディオ入力がバッファ処理されている場合に、補正理論フレーム総数F'idealを、S21で補正した現在時刻から算出し、到達フレーム総数または到達サンプル総数が基準値に達するごとに、到達フレーム総数Factualから補正理論フレーム総数F'idealを差し引いた差分Δfを求める(S23)。具体的には、時刻比較部23は、以下の式により補正理論フレーム総数F'idealを以下の式(3)に基づいて算出する。
【0026】
補正理論フレーム総数F'ideal=フレームレート×(到達サンプル総数/サンプルレート[Hz]+最終バッファ到着時からのCPU経過時間[s])…(3)
このように、本実施例の映像音声同期装置2によれば、オーディオ入力がバッファ処理されている場合であっても補正理論フレーム総数を算出することにより、ビデオ信号のフレーム間引き/挿入処理を正しく実行でき、オーディオ信号を劣化させずに映像と音声を同期することが出来る。
【実施例3】
【0027】
実施例1、2では、映像と音声がクロック同期していない場合に、オーディオ信号を劣化させずに映像と音声を同期する映像音声同期装置1、2を開示した。しかしながら、仮に映像と音声がクロック同期していたとしても、映像と音声の経路の違いから、両者の間に一定量のずれが生じる場合があり、一般的に映像のスイッチャー内部の遅延量が大きいことから、音声に対して映像が数百ms程度遅れる場合がある。この種の遅延量は、クロック同期していれば一定に保たれ、上述の例のようにずれが蓄積していくことはない。実施例3の映像音声同期装置は、この一定量の遅延を補正するために、本実施例の映像音声同期装置3は、実施例2の映像音声装置2の構成に加え、到達サンプル数カウンター12とローカル記憶部15の間に遅延器37を含む構成とした。
【0028】
なお、本実施例の映像音声同期装置3は、実施例2の映像音声装置2の構成をベースに遅延器37を加える構成としているが、これ以外にも実施例1の映像音声装置1の構成をベースにして、遅延器37を加える構成とすることも可能である。
【0029】
映像音声同期装置3のステップS11~S16までの動作は、基本的には実施例1や実施例2と同様である。これらの処理に加え
図8に示すように、遅延器37は、デジタル・ビデオ信号とデジタル・オーディオ信号の経路の違いによって生じる遅延を補正するようにデジタル・オーディオ信号を一定時間遅延させる(S37)。
【0030】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0031】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0032】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0033】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0034】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0035】
上述の各種の処理は、
図9に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
【0036】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0037】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0038】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0039】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【要約】
【課題】オーディオ信号を劣化させずに映像と音声を同期することが出来る映像音声同期装置を提供する。
【解決手段】デジタル・ビデオ信号と、対応するデジタル・オーディオ信号とを入力とし、これらを同期させる映像音声同期装置であって、デジタル・ビデオ信号の到達フレーム総数をカウントする到達フレーム数カウンターと、デジタル・オーディオ信号の到達サンプル総数をカウントする到達サンプル数カウンターと、到達フレーム総数または到達サンプル総数が基準値に達するごとに、到達フレーム総数から到達サンプル総数に基づいて算出される理論フレーム総数を差し引いた差分を求める時刻比較部と、差分が1以上の場合にデジタル・ビデオ信号のフレームを1つ間引く処理を、差分が-1以下の場合にデジタル・ビデオ信号のフレームを1つ挿入する処理を、差分の絶対値が1未満になるまで実行するフレーム調整部を含む。
【選択図】
図3