IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECソリューションイノベータ株式会社の特許一覧

特許7509403同期装置、同期方法、プログラム及び記録媒体
<>
  • 特許-同期装置、同期方法、プログラム及び記録媒体 図1
  • 特許-同期装置、同期方法、プログラム及び記録媒体 図2
  • 特許-同期装置、同期方法、プログラム及び記録媒体 図3
  • 特許-同期装置、同期方法、プログラム及び記録媒体 図4
  • 特許-同期装置、同期方法、プログラム及び記録媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-24
(45)【発行日】2024-07-02
(54)【発明の名称】同期装置、同期方法、プログラム及び記録媒体
(51)【国際特許分類】
   H04N 21/233 20110101AFI20240625BHJP
   G10L 21/003 20130101ALI20240625BHJP
   G10L 25/57 20130101ALI20240625BHJP
   G11B 20/10 20060101ALI20240625BHJP
   G11B 27/00 20060101ALI20240625BHJP
   G11B 27/02 20060101ALI20240625BHJP
   G11B 27/10 20060101ALI20240625BHJP
   H04N 21/2343 20110101ALI20240625BHJP
   H04N 21/242 20110101ALI20240625BHJP
【FI】
H04N21/233
G10L21/003
G10L25/57
G11B20/10 321Z
G11B27/00 A
G11B27/00 E
G11B27/02 H
G11B27/10 A
H04N21/2343
H04N21/242
【請求項の数】 10
(21)【出願番号】P 2020036493
(22)【出願日】2020-03-04
(65)【公開番号】P2021139992
(43)【公開日】2021-09-16
【審査請求日】2023-02-02
(73)【特許権者】
【識別番号】000232092
【氏名又は名称】NECソリューションイノベータ株式会社
(74)【代理人】
【識別番号】100115255
【弁理士】
【氏名又は名称】辻丸 光一郎
(74)【代理人】
【識別番号】100201732
【弁理士】
【氏名又は名称】松縄 正登
(74)【代理人】
【識別番号】100154081
【弁理士】
【氏名又は名称】伊佐治 創
(72)【発明者】
【氏名】山田 雄紀
【審査官】大西 宏
(56)【参考文献】
【文献】特開2002-300434(JP,A)
【文献】特開2003-259302(JP,A)
【文献】特開2005-018305(JP,A)
【文献】特開2013-183280(JP,A)
【文献】特開2015-156584(JP,A)
【文献】藤本雅清他,音声情報と画像情報の統合による商品紹介映像の商品区間への分割方法,2001年電子情報通信学会情報・システムソサイエティ大会,日本,電子情報通信学会,2001年08月09日,D-14-14,244
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 -21/858
G10L 19/00 -99/00
G11B 20/10 -20/16
G11B 27/00 -27/06
G11B 27/10 -27/34
(57)【特許請求の範囲】
【請求項1】
動画マスタ取得手段、抽出手段、フレーム群形成手段、分割手段、変換手段、及び再生手段を含み、
前記動画マスタ取得手段は、動画マスタを取得し、
前記抽出手段は、前記動画マスタから、再生タイミングに紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手段は、再期間の再生開始から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生タイミングと紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生タイミングと紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手段は、「前記音声が最初に発生した再生タイミング」から「前記所定時間の経過後において最初に前記音声が発生する再生タイミングの直前の再生タイミング」までの前記音声を1単位として分割し、
前記変換手段は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手段は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、同期装置。
【請求項2】
さらに、選択手段を含み、
前記選択手段は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手段は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手段は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、請求項1記載の同期装置。
【請求項3】
前記再生手段は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、請求項2記載の同期装置。
【請求項4】
動画マスタ取得工程、抽出工程、フレーム群形成工程、分割工程、変換工程、及び再生工程を含み、
前記動画マスタ取得工程は、動画マスタを取得し、
前記抽出工程は、前記動画マスタから、再生タイミングに紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成工程は、再期間の再生開始から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生タイミングと紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生タイミングと紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割工程は、「前記音声が最初に発生した再生タイミング」から「前記所定時間の経過後において最初に前記音声が発生する再生タイミングの直前の再生タイミング」までの前記音声を1単位として分割し、
前記変換工程は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生工程は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、同期方法。
【請求項5】
さらに、選択工程を含み、
前記選択工程は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換工程は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生工程は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、請求項4記載の同期方法。
【請求項6】
前記再生工程は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、請求項5記載の同期方法。
【請求項7】
コンピュータに、動画マスタ取得手順、抽出手順、フレーム群形成手順、分割手順、変換手順、及び再生手順を含む手順を実行させるためのプログラムであって、
前記動画マスタ取得手順は、動画マスタを取得し、
前記抽出手順は、前記動画マスタから、再生タイミングに紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手順は、再期間の再生開始から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生タイミングと紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生タイミングと紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手順は、「前記音声が最初に発生した再生タイミング」から「前記所定時間の経過後において最初に前記音声が発生する再生タイミングの直前の再生タイミング」までの前記音声を1単位として分割し、
前記変換手順は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手順は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、プログラム。
【請求項8】
さらに、選択手順を含み、
前記選択手順は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手順は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手順は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、請求項7記載のプログラム。
【請求項9】
前記再生手順は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、請求項8記載のプログラム。
【請求項10】
請求項7から9のいずれか一項に記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、同期装置、同期方法、プログラム及び記録媒体に関する。
【背景技術】
【0002】
動画マスタから、映像と音声とを抽出し、前記映像中の人物や前記音声を、別の人物や音声に変換する技術が報告されている(例えば、特許文献1等)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2000-112488号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、変換した映像及び音声を用いて再生すると、映像と音声との再生のタイミングに大きな乖離が生じるという問題がある。
【0005】
そこで、本発明は、再生される映像と音声とのタイミングの乖離を抑制可能な同期装置、及び、同期方法の提供を目的とする。
【課題を解決するための手段】
【0006】
前記目的を達成するために、本発明の同期装置は、
動画マスタ取得手段、抽出手段、フレーム群形成手段、分割手段、変換手段、及び再生手段を含み、
前記動画マスタ取得手段は、動画マスタを取得し、
前記抽出手段は、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手段は、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手段は、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を1単位として分割し、
前記変換手段は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手段は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、装置である。
【0007】
本発明の同期方法は、
動画マスタ取得工程、抽出工程、フレーム群形成工程、分割工程、変換工程、及び再生工程を含み、
前記動画マスタ取得工程は、動画マスタを取得し、
前記抽出工程は、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成工程は、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割工程は、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を1単位として分割し、
前記変換工程は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生工程は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、方法である。
【0008】
本発明のプログラムは、
コンピュータに、動画マスタ取得手順、抽出手順、フレーム群形成手順、分割手順、変換手順、及び再生手順を含む手順を実行させるためのプログラムであって、
前記動画マスタ取得手順は、動画マスタを取得し、
前記抽出手順は、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手順は、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手順は、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を1単位として分割し、
前記変換手順は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手順は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、プログラムである。
【発明の効果】
【0009】
本発明によれば、再生される映像と音声とのタイミングの乖離を抑制することができる。
【図面の簡単な説明】
【0010】
図1図1は、実施形態1の装置の一例の構成を示すブロック図である。
図2図2は、実施形態1の装置のハードウエア構成の一例を示すブロック図である。
図3図3は、実施形態1の装置における処理の一例を示すフローチャートである。
図4図4は、実施形態1の装置におけるフレーム群形成手段及び分割手段における処理の一例を示す模式図である。
図5図5は、実施形態1の装置が選択手段を含む場合の使用の一例を示す模式図である。
【発明を実施するための形態】
【0011】
本発明の同期装置は、例えば、さらに、選択手段を含み、
前記選択手段は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手段は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手段は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、という態様であってもよい。
【0012】
本発明の同期装置において、例えば、前記再生手段は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、という態様であってもよい。
【0013】
本発明の同期方法は、例えば、さらに、選択工程を含み、
前記選択工程は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換工程は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生工程は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、という態様であってもよい。
【0014】
本発明の同期方法において、例えば、前記再生工程は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、という態様であってもよい。
【0015】
本発明のプログラムは、例えば、さらに、選択手順を含み、
前記選択手順は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手順は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手順は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、という態様であってもよい。
【0016】
本発明のプログラムにおいて、例えば、前記再生手順は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、という態様であってもよい。
【0017】
本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。
【0018】
本発明の適用分野は、特に制限されず、動画を視聴する分野であれば適用可能である。特に、本発明は、教育機関(学校、予備校等)等の教育支援の分野や、講演会やセミナー等のイベント分野において、有用である。
【0019】
本発明において、「マスタ」とは、マスターデータを意味する。
【0020】
本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。
【0021】
[実施形態1]
図1は、本実施形態の同期装置10の一例の構成を示すブロック図である。図1に示すように、本装置10は、動画マスタ取得手段11、抽出手段12、フレーム群形成手段13、分割手段14、変換手段15、及び再生手段16を含む。
【0022】
本装置10は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置10は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)等があげられる。無線通信としては、例えば、WiFi(Wireless Fidelity)、Bluetooth(登録商標)等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、アクセスポイントを介した間接通信のいずれであってもよい。本装置10は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置10は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。さらに、本装置10は、例えば、動画マスタ取得手段11、抽出手段12、フレーム群形成手段13、分割手段14、及び変換手段15がサーバ上にあり、再生手段16がユーザ端末上にあるような、クラウドコンピューティングの形態であってもよい。
【0023】
図2に、本装置10のハードウエア構成のブロック図を例示する。本装置10は、例えば、中央演算装置(CPU,GPU等)101、メモリ102、バス103、記憶装置104、入力装置105、表示装置106、通信デバイス107等を有する。本装置10のハードウエア構成の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。
【0024】
中央演算装置(中央処理装置)101は、本装置10の全体の制御を担う。本装置10において、中央演算装置101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央演算装置101が、動画マスタ取得手段11、抽出手段12、フレーム群形成手段13、分割手段14、変換手段15、及び再生手段16として機能する。
【0025】
バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、外部データベース、プリンター、記憶装置等があげられる。本装置10は、例えば、バス103に接続された通信デバイス107により、前記通信回線網に接続でき、前記通信回線網を介して、外部装置と接続することもできる。
【0026】
メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。中央演算装置101が処理を行う際には、例えば、後述する記憶装置104に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、中央演算装置101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。
【0027】
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置104は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ(HDD)、及びソリッドステートドライブ(SSD)であってもよい。
【0028】
本装置10において、メモリ102及び記憶装置104は、管理者からのアクセス情報及びログ情報、並びに、外部データベース(図示せず)から取得した情報を記憶することも可能である。
【0029】
本装置10は、例えば、さらに、入力装置105、表示装置106を有する。入力装置105は、例えば、タッチパネル、キーボード、マウス等である。表示装置106は、例えば、LEDディスプレイ、液晶ディスプレイ等が挙げられる。
【0030】
つぎに、本実施形態の同期方法の一例を、図3のフローチャートに基づき説明する。本実施形態の同期方法は、例えば、図1の同期装置10を用いて、次のように実施する。なお、本実施形態の同期方法は、図1の同期装置10の使用には限定されない。
【0031】
まず、動画マスタ取得手段11により、動画マスタを取得する(S1)。前記動画マスタは、特に制限されず、例えば、講義や講演中の講師や講演者を撮像した動画、アニメーション等の人工的に作成された動画等の動画である。前記取得の形式は、特に制限されず、例えば、通信デバイス107を介して、外部の撮像装置(カメラ等)が撮像した前記動画を取得してもよい。また、本装置10が、さらに、撮像手段を含み、前記動画を撮像することで、取得してもよい。前記撮像手段は、例えば、カメラ等の撮像装置によって機能する。
【0032】
次に、抽出手段12により、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出する(S2)。以下、前記抽出した映像と音声とを、それぞれ、映像マスタ及び音声マスタともいう。前記映像マスタ及び前記音声マスタは、例えば、メモリ102及び記憶装置104等に保存されてもよい。前記映像マスタ及び前記音声マスタの抽出は、例えば、公知技術(例えば、OpenCV、FFmpeg等)を用いて抽出できる。
【0033】
次に、フレーム群形成手段13により、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成する(S3)。前記所定時間は、特に制限されず、任意に設定できる。「前記音声が最初に発生した再生時間」の「最初に」とは、例えば、前記所定時間の経過後からカウントした「最初」でもよいし、前記音声マスタの全体からカウントした「最初」でもよい。また、前記「直前のフレーム」とは、例えば、最初に前記音声が流れた再生時間と紐づけられている前記フレームの1つ前のフレームである。具体的には、後述する。
【0034】
次に、分割手段14により、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を1単位として分割する(S4)。「前記音声が最初に発生した再生時間」の「最初に」とは、例えば、前記所定時間の経過後からカウントした「最初」でもよいし、前記音声マスタの全体からの再生時間からカウントした「最初」でもよい。また、前記「直前の音声」とは、例えば、最初に前記音声が発生する再生時間の任意の時間(例えば、1秒、0.5秒等)前の再生時間である。具体的には、後述する。なお、前記工程(S4)は、前記工程(S3)の前に処理してもよいし、前記工程(S3)と並行して処理してもよい。
【0035】
次に、変換手段15により、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換する(S5)。以下、前記変換した音声を「変換済み音声」ともいい、前記変換した映像を「変換済み映像」ともいう。前記他の音声は、特に制限されず、例えば、歌手、声優、芸能人、著名人等の実在する人物の声でもよいし、コンピュータによって人工的に生成された合成音声、任意のキャラクターの声等でもよい。前記他の人物は、特に制限されず、例えば、歌手、声優、芸能人、著名人等の実在する人物でもよいし、キャラクター、人工的に生成された人物等でもよい。前記機械学習は、例えば、深層学習であり、前記変換の方法を自動的に学習する。前記変換の方法は、特に制限されず、例えば、前記音声の場合は、StyarGAN-VC、VQ-VAE、Voice Conversion Using Input-to-Output Highway Networks、NSF法、deep_VoiceChanger、become-yukarin等の方法があり、前記映像の場合は、talking-head-anime、Everybody Dance Now等の方法がある。具体的には、例えば、大学の講義を撮像した動画の場合、前記映像マスタにおいて、講義をしている教授を任意のキャラクターに変換して、前記任意のキャラクターが講義しているように学習させる。また、前記音声マスタにおいて、例えば、前記講義をしている教授の音声を任意の人物に変換して、前記任意の人物が講義しているように学習させる。これにより、例えば、後述の再生手段16において、任意のキャラクターが任意の人物の声で講義しているように再生される。なお、前記他の音声と前記他の人物とは、対応関係がなくともいい。具体的には、例えば、前記変換済み映像における前記任意のキャラクターと、前記変換済み音声における前記任意のキャラクターとの声は、異なっていてもよい。
【0036】
そして、再生手段16により、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生し(S6)、終了する(END)。
【0037】
図4に、フレーム群形成手段13及び分割手段14の処理の一例を示す。図4において、上から下方向に向かって、再生時間が進行するものとする。また、音声マスタ及び変換済み音声の系列において、円形で示す箇所は、音声が発生していることを示し、映像マスタ及び変換済み映像の系列において、一部のフレームを省略している。図4に示すように、フレーム群形成手段13は、「前記音声が最初に発生した再生時間Aと紐づけられているフレーム1a」から「前記所定時間の経過後において最初に前記音声が発生した再生時間Aと紐づけられている前記フレームの直前のフレーム1b」までを一連のフレームとしてフレーム群を形成する。分割手段14は、「前記音声が最初に発生した再生時間A」から「前記所定時間の経過後において最初に前記音声が発生する再生時間Aの直前の再生時間B」までの前記音声を1単位として分割する。このように、前記音声の1単位には、音声が発生していない時間と音声が発生している時間を含む。そして、図4に示すように、変換手段15により、それぞれ変換し、再生手段16により、前記変換済み音声と前記変換済み映像とを合わせて動画(同期済み動画ともいう)として再生する。
【0038】
さらに、本装置10は、例えば、選択手段を含んでもよい。前記選択手段は、例えば、前記工程(S5)の前に、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択する。この場合、変換手段15は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換する。本装置10は、例えば、前記通信回線網を介して、前記モデルデータベースと通信可能である。前記モデル人物は、特に制限されず、例えば、実在する人物(歌手、声優、芸能人、著名人等)でもよいし、キャラクターでもよいし、コンピュータによって生成された架空の人物等でもよい。前記モデル音声は、特に制限されず、例えば、実在する人物(歌手、声優、芸能人、著名人等)の音声でもよいし、キャラクターの音声でもよいし、コンピュータによって人工的に生成された合成音声でもよい。そして、再生手段16により、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行してもよい。また、再生手段16は、例えば、前記変換したモデル人物と、前記変換したモデル音声とを合成してから前記再生を実行してもよい。図5に、本装置10が前記選択手段を含む場合の使用の一例を示す。図5において、本装置10は、PCとして示す。
【0039】
本実施形態の同期装置10によれば、前記フレーム群毎に、前記変換済み音声の再生開始時間を合わせることで、再生される映像と音声とのタイミングの乖離を抑制することができる。また、本装置10によれば、例えば、再生した動画を違和感なく視聴することができる。このため、ユーザは、動画形式の講義や講演等の視聴に集中することができる。さらに、本装置10によれば、ユーザの好みに適した前記人物及び前記音声に変換可能であるため、より集中することができたり、動画の視聴が楽しくなるという効果がある。また、本装置10によれば、動画マスタ内の人物及び音声を変換可能であるため、前記動画マスタ内の人物に関する情報を秘匿可能であり、前記動画マスタ内の人物が不特定多数の人物にさらされるリスクを低減することができる。
【0040】
[実施形態
本実施形態のプログラムは、本発明の方法の各工程を、手順として、コンピュータに実行させるためのプログラムである。本発明において、「手順」は、「処理」と読み替えてもよい。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されていてもよい。前記記録媒体としては、特に限定されず、例えば、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク等が挙げられる。
【0041】
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。
【産業上の利用可能性】
【0042】
本発明によれば、再生される映像と音声とのタイミングの乖離を抑制することができる。このため、本発明は、例えば、動画形式での授業を行う学校や予備校等の教育施設や、動画形式での講演を行う講演会やセミナー等のイベントにおいて、特に有用である。
【符号の説明】
【0043】
10 同期装置
11 動画マスタ取得手段
12 抽出手段
13 フレーム群形成手段
14 分割手段
15 変換手段
16 再生手段

図1
図2
図3
図4
図5