特許7509403 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣソリューションイノベータ株式会社の特許一覧

特許7509403同期装置、同期方法、プログラム及び記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-24

(45)【発行日】2024-07-02

(54)【発明の名称】同期装置、同期方法、プログラム及び記録媒体

(51)【国際特許分類】

H04N 21/233 20110101AFI20240625BHJP

G10L 21/003 20130101ALI20240625BHJP

G10L 25/57 20130101ALI20240625BHJP

G11B 20/10 20060101ALI20240625BHJP

G11B 27/00 20060101ALI20240625BHJP

G11B 27/02 20060101ALI20240625BHJP

G11B 27/10 20060101ALI20240625BHJP

H04N 21/2343 20110101ALI20240625BHJP

H04N 21/242 20110101ALI20240625BHJP

【ＦＩ】

H04N21/233

G10L21/003

G10L25/57

G11B20/10 321Z

G11B27/00 A

G11B27/00 E

G11B27/02 H

G11B27/10 A

H04N21/2343

H04N21/242

【請求項の数】 10

(21)【出願番号】P 2020036493

(22)【出願日】2020-03-04

(65)【公開番号】P2021139992

(43)【公開日】2021-09-16

【審査請求日】2023-02-02

(73)【特許権者】

【識別番号】000232092

【氏名又は名称】ＮＥＣソリューションイノベータ株式会社

(74)【代理人】

【識別番号】100115255

【弁理士】

【氏名又は名称】辻丸光一郎

(74)【代理人】

【識別番号】100201732

【弁理士】

【氏名又は名称】松縄正登

(74)【代理人】

【識別番号】100154081

【弁理士】

【氏名又は名称】伊佐治創

(72)【発明者】

【氏名】山田雄紀

【審査官】大西宏

(56)【参考文献】

【文献】特開２００２－３００４３４（ＪＰ，Ａ）

【文献】特開２００３－２５９３０２（ＪＰ，Ａ）

【文献】特開２００５－０１８３０５（ＪＰ，Ａ）

【文献】特開２０１３－１８３２８０（ＪＰ，Ａ）

【文献】特開２０１５－１５６５８４（ＪＰ，Ａ）

【文献】藤本雅清他，音声情報と画像情報の統合による商品紹介映像の商品区間への分割方法，2001年電子情報通信学会情報・システムソサイエティ大会，日本，電子情報通信学会，2001年08月09日，D-14-14，244

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

Ｇ１０Ｌ１９／００－９９／００

Ｇ１１Ｂ２０／１０－２０／１６

Ｇ１１Ｂ２７／００－２７／０６

Ｇ１１Ｂ２７／１０－２７／３４

(57)【特許請求の範囲】

【請求項1】

動画マスタ取得手段、抽出手段、フレーム群形成手段、分割手段、変換手段、及び再生手段を含み、
前記動画マスタ取得手段は、動画マスタを取得し、
前記抽出手段は、前記動画マスタから、再生タイミングに紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手段は、再生期間の再生開始から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生タイミングと紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生タイミングと紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手段は、「前記音声が最初に発生した再生タイミング」から「前記所定時間の経過後において最初に前記音声が発生する再生タイミングの直前の再生タイミング」までの前記音声を１単位として分割し、
前記変換手段は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手段は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、同期装置。

【請求項2】

さらに、選択手段を含み、
前記選択手段は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手段は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手段は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、請求項１記載の同期装置。

【請求項3】

前記再生手段は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、請求項２記載の同期装置。

【請求項4】

動画マスタ取得工程、抽出工程、フレーム群形成工程、分割工程、変換工程、及び再生工程を含み、
前記動画マスタ取得工程は、動画マスタを取得し、
前記抽出工程は、前記動画マスタから、再生タイミングに紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成工程は、再生期間の再生開始から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生タイミングと紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生タイミングと紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割工程は、「前記音声が最初に発生した再生タイミング」から「前記所定時間の経過後において最初に前記音声が発生する再生タイミングの直前の再生タイミング」までの前記音声を１単位として分割し、
前記変換工程は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生工程は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、同期方法。

【請求項5】

さらに、選択工程を含み、
前記選択工程は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換工程は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生工程は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、請求項４記載の同期方法。

【請求項6】

前記再生工程は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、請求項５記載の同期方法。

【請求項7】

コンピュータに、動画マスタ取得手順、抽出手順、フレーム群形成手順、分割手順、変換手順、及び再生手順を含む手順を実行させるためのプログラムであって、
前記動画マスタ取得手順は、動画マスタを取得し、
前記抽出手順は、前記動画マスタから、再生タイミングに紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手順は、再生期間の再生開始から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生タイミングと紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生タイミングと紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手順は、「前記音声が最初に発生した再生タイミング」から「前記所定時間の経過後において最初に前記音声が発生する再生タイミングの直前の再生タイミング」までの前記音声を１単位として分割し、
前記変換手順は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手順は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、プログラム。

【請求項8】

さらに、選択手順を含み、
前記選択手順は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手順は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手順は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、請求項７記載のプログラム。

【請求項9】

前記再生手順は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、請求項８記載のプログラム。

【請求項10】

請求項７から９のいずれか一項に記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、同期装置、同期方法、プログラム及び記録媒体に関する。

【背景技術】

【0002】

動画マスタから、映像と音声とを抽出し、前記映像中の人物や前記音声を、別の人物や音声に変換する技術が報告されている（例えば、特許文献１等）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０００－１１２４８８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、変換した映像及び音声を用いて再生すると、映像と音声との再生のタイミングに大きな乖離が生じるという問題がある。

【0005】

そこで、本発明は、再生される映像と音声とのタイミングの乖離を抑制可能な同期装置、及び、同期方法の提供を目的とする。

【課題を解決するための手段】

【0006】

前記目的を達成するために、本発明の同期装置は、
動画マスタ取得手段、抽出手段、フレーム群形成手段、分割手段、変換手段、及び再生手段を含み、
前記動画マスタ取得手段は、動画マスタを取得し、
前記抽出手段は、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手段は、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手段は、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を１単位として分割し、
前記変換手段は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手段は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、装置である。

【0007】

本発明の同期方法は、
動画マスタ取得工程、抽出工程、フレーム群形成工程、分割工程、変換工程、及び再生工程を含み、
前記動画マスタ取得工程は、動画マスタを取得し、
前記抽出工程は、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成工程は、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割工程は、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を１単位として分割し、
前記変換工程は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生工程は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、方法である。

【0008】

本発明のプログラムは、
コンピュータに、動画マスタ取得手順、抽出手順、フレーム群形成手順、分割手順、変換手順、及び再生手順を含む手順を実行させるためのプログラムであって、
前記動画マスタ取得手順は、動画マスタを取得し、
前記抽出手順は、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出し、
前記フレーム群形成手順は、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成し、
前記分割手順は、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を１単位として分割し、
前記変換手順は、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換し、
前記再生手順は、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生する、プログラムである。

【発明の効果】

【0009】

本発明によれば、再生される映像と音声とのタイミングの乖離を抑制することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施形態１の装置の一例の構成を示すブロック図である。

【図2】図２は、実施形態１の装置のハードウエア構成の一例を示すブロック図である。

【図3】図３は、実施形態１の装置における処理の一例を示すフローチャートである。

【図4】図４は、実施形態１の装置におけるフレーム群形成手段及び分割手段における処理の一例を示す模式図である。

【図5】図５は、実施形態１の装置が選択手段を含む場合の使用の一例を示す模式図である。

【発明を実施するための形態】

【0011】

本発明の同期装置は、例えば、さらに、選択手段を含み、
前記選択手段は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手段は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手段は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、という態様であってもよい。

【0012】

本発明の同期装置において、例えば、前記再生手段は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、という態様であってもよい。

【0013】

本発明の同期方法は、例えば、さらに、選択工程を含み、
前記選択工程は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換工程は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生工程は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、という態様であってもよい。

【0014】

本発明の同期方法において、例えば、前記再生工程は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、という態様であってもよい。

【0015】

本発明のプログラムは、例えば、さらに、選択手順を含み、
前記選択手順は、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択し、
前記変換手順は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換し、
前記再生手順は、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行する、という態様であってもよい。

【0016】

本発明のプログラムにおいて、例えば、前記再生手順は、前記変換したモデル人物と、前記変換したモデル音声とを合成してから再生する、という態様であってもよい。

【0017】

本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。

【0018】

本発明の適用分野は、特に制限されず、動画を視聴する分野であれば適用可能である。特に、本発明は、教育機関（学校、予備校等）等の教育支援の分野や、講演会やセミナー等のイベント分野において、有用である。

【0019】

本発明において、「マスタ」とは、マスターデータを意味する。

【0020】

本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。

【0021】

［実施形態１］
図１は、本実施形態の同期装置１０の一例の構成を示すブロック図である。図１に示すように、本装置１０は、動画マスタ取得手段１１、抽出手段１２、フレーム群形成手段１３、分割手段１４、変換手段１５、及び再生手段１６を含む。

【0022】

本装置１０は、例えば、前記各部を含む１つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置１０は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）等があげられる。無線通信としては、例えば、ＷｉＦｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、アクセスポイントを介した間接通信のいずれであってもよい。本装置１０は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置１０は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。さらに、本装置１０は、例えば、動画マスタ取得手段１１、抽出手段１２、フレーム群形成手段１３、分割手段１４、及び変換手段１５がサーバ上にあり、再生手段１６がユーザ端末上にあるような、クラウドコンピューティングの形態であってもよい。

【0023】

図２に、本装置１０のハードウエア構成のブロック図を例示する。本装置１０は、例えば、中央演算装置（ＣＰＵ，ＧＰＵ等）１０１、メモリ１０２、バス１０３、記憶装置１０４、入力装置１０５、表示装置１０６、通信デバイス１０７等を有する。本装置１０のハードウエア構成の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス１０３を介して相互に接続されている。

【0024】

中央演算装置（中央処理装置）１０１は、本装置１０の全体の制御を担う。本装置１０において、中央演算装置１０１により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央演算装置１０１が、動画マスタ取得手段１１、抽出手段１２、フレーム群形成手段１３、分割手段１４、変換手段１５、及び再生手段１６として機能する。

【0025】

バス１０３は、例えば、外部装置とも接続できる。前記外部装置は、例えば、外部データベース、プリンター、記憶装置等があげられる。本装置１０は、例えば、バス１０３に接続された通信デバイス１０７により、前記通信回線網に接続でき、前記通信回線網を介して、外部装置と接続することもできる。

【0026】

メモリ１０２は、例えば、メインメモリ（主記憶装置）が挙げられる。中央演算装置１０１が処理を行う際には、例えば、後述する記憶装置１０４に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ１０２が読み込み、中央演算装置１０１は、メモリ１０２からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、ＲＡＭ（ランダムアクセスメモリ）である。また、メモリ１０２は、例えば、ＲＯＭ（読み出し専用メモリ）であってもよい。

【0027】

記憶装置１０４は、例えば、前記メインメモリ（主記憶装置）に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置１０４には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置１０４は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、ＨＤ（ハードディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＭＯ、ＤＶＤ、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置１０４は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ（ＨＤＤ）、及びソリッドステートドライブ（ＳＳＤ）であってもよい。

【0028】

本装置１０において、メモリ１０２及び記憶装置１０４は、管理者からのアクセス情報及びログ情報、並びに、外部データベース（図示せず）から取得した情報を記憶することも可能である。

【0029】

本装置１０は、例えば、さらに、入力装置１０５、表示装置１０６を有する。入力装置１０５は、例えば、タッチパネル、キーボード、マウス等である。表示装置１０６は、例えば、ＬＥＤディスプレイ、液晶ディスプレイ等が挙げられる。

【0030】

つぎに、本実施形態の同期方法の一例を、図３のフローチャートに基づき説明する。本実施形態の同期方法は、例えば、図１の同期装置１０を用いて、次のように実施する。なお、本実施形態の同期方法は、図１の同期装置１０の使用には限定されない。

【0031】

まず、動画マスタ取得手段１１により、動画マスタを取得する（Ｓ１）。前記動画マスタは、特に制限されず、例えば、講義や講演中の講師や講演者を撮像した動画、アニメーション等の人工的に作成された動画等の動画である。前記取得の形式は、特に制限されず、例えば、通信デバイス１０７を介して、外部の撮像装置（カメラ等）が撮像した前記動画を取得してもよい。また、本装置１０が、さらに、撮像手段を含み、前記動画を撮像することで、取得してもよい。前記撮像手段は、例えば、カメラ等の撮像装置によって機能する。

【0032】

次に、抽出手段１２により、前記動画マスタから、再生時間に紐づけて、複数のフレームから構成される映像と音声とを抽出する（Ｓ２）。以下、前記抽出した映像と音声とを、それぞれ、映像マスタ及び音声マスタともいう。前記映像マスタ及び前記音声マスタは、例えば、メモリ１０２及び記憶装置１０４等に保存されてもよい。前記映像マスタ及び前記音声マスタの抽出は、例えば、公知技術（例えば、ＯｐｅｎＣＶ、ＦＦｍｐｅｇ等）を用いて抽出できる。

【0033】

次に、フレーム群形成手段１３により、前記再生時間の再生開始時から前記音声が所定時間発生しなかった場合に、「前記音声が最初に発生した再生時間と紐づけられている前記フレーム」から「前記所定時間の経過後において最初に前記音声が発生した再生時間と紐づけられている前記フレームの直前のフレーム」までを一連のフレームとしてフレーム群を形成する（Ｓ３）。前記所定時間は、特に制限されず、任意に設定できる。「前記音声が最初に発生した再生時間」の「最初に」とは、例えば、前記所定時間の経過後からカウントした「最初」でもよいし、前記音声マスタの全体からカウントした「最初」でもよい。また、前記「直前のフレーム」とは、例えば、最初に前記音声が流れた再生時間と紐づけられている前記フレームの１つ前のフレームである。具体的には、後述する。

【0034】

次に、分割手段１４により、「前記音声が最初に発生した再生時間」から「前記所定時間の経過後において最初に前記音声が発生する再生時間の直前の再生時間」までの前記音声を１単位として分割する（Ｓ４）。「前記音声が最初に発生した再生時間」の「最初に」とは、例えば、前記所定時間の経過後からカウントした「最初」でもよいし、前記音声マスタの全体からの再生時間からカウントした「最初」でもよい。また、前記「直前の音声」とは、例えば、最初に前記音声が発生する再生時間の任意の時間（例えば、１秒、０．５秒等）前の再生時間である。具体的には、後述する。なお、前記工程（Ｓ４）は、前記工程（Ｓ３）の前に処理してもよいし、前記工程（Ｓ３）と並行して処理してもよい。

【0035】

次に、変換手段１５により、機械学習により、前記音声の単位毎に前記音声を他の音声に変換し、且つ前記フレーム群毎に前記映像内の人物を他の人物に変換する（Ｓ５）。以下、前記変換した音声を「変換済み音声」ともいい、前記変換した映像を「変換済み映像」ともいう。前記他の音声は、特に制限されず、例えば、歌手、声優、芸能人、著名人等の実在する人物の声でもよいし、コンピュータによって人工的に生成された合成音声、任意のキャラクターの声等でもよい。前記他の人物は、特に制限されず、例えば、歌手、声優、芸能人、著名人等の実在する人物でもよいし、キャラクター、人工的に生成された人物等でもよい。前記機械学習は、例えば、深層学習であり、前記変換の方法を自動的に学習する。前記変換の方法は、特に制限されず、例えば、前記音声の場合は、StyarGAN-VC、VQ-VAE、Voice Conversion Using Input-to-Output Highway Networks、NSF法、deep_VoiceChanger、become-yukarin等の方法があり、前記映像の場合は、talking-head-anime、Everybody Dance Now等の方法がある。具体的には、例えば、大学の講義を撮像した動画の場合、前記映像マスタにおいて、講義をしている教授を任意のキャラクターに変換して、前記任意のキャラクターが講義しているように学習させる。また、前記音声マスタにおいて、例えば、前記講義をしている教授の音声を任意の人物に変換して、前記任意の人物が講義しているように学習させる。これにより、例えば、後述の再生手段１６において、任意のキャラクターが任意の人物の声で講義しているように再生される。なお、前記他の音声と前記他の人物とは、対応関係がなくともいい。具体的には、例えば、前記変換済み映像における前記任意のキャラクターと、前記変換済み音声における前記任意のキャラクターとの声は、異なっていてもよい。

【0036】

そして、再生手段１６により、前記フレーム群における最初のフレームの再生開始時間毎に、前記変換した音声の単位毎における最初の音声の再生開始時間を同期して再生し（Ｓ６）、終了する（ＥＮＤ）。

【0037】

図４に、フレーム群形成手段１３及び分割手段１４の処理の一例を示す。図４において、上から下方向に向かって、再生時間が進行するものとする。また、音声マスタ及び変換済み音声の系列において、円形で示す箇所は、音声が発生していることを示し、映像マスタ及び変換済み映像の系列において、一部のフレームを省略している。図４に示すように、フレーム群形成手段１３は、「前記音声が最初に発生した再生時間Ａと紐づけられているフレーム１ａ」から「前記所定時間の経過後において最初に前記音声が発生した再生時間Ａと紐づけられている前記フレームの直前のフレーム１ｂ」までを一連のフレームとしてフレーム群を形成する。分割手段１４は、「前記音声が最初に発生した再生時間Ａ」から「前記所定時間の経過後において最初に前記音声が発生する再生時間Ａの直前の再生時間Ｂ」までの前記音声を１単位として分割する。このように、前記音声の１単位には、音声が発生していない時間と音声が発生している時間を含む。そして、図４に示すように、変換手段１５により、それぞれ変換し、再生手段１６により、前記変換済み音声と前記変換済み映像とを合わせて動画（同期済み動画ともいう）として再生する。

【0038】

さらに、本装置１０は、例えば、選択手段を含んでもよい。前記選択手段は、例えば、前記工程（Ｓ５）の前に、モデル人物及びモデル音声が格納されたモデルデータベースから、任意のモデル人物及びモデル音声の少なくとも一方を選択する。この場合、変換手段１５は、さらに、前記映像内の人物及び前記音声を、前記選択したモデル人物及びモデル音声の少なくとも一方に変換する。本装置１０は、例えば、前記通信回線網を介して、前記モデルデータベースと通信可能である。前記モデル人物は、特に制限されず、例えば、実在する人物（歌手、声優、芸能人、著名人等）でもよいし、キャラクターでもよいし、コンピュータによって生成された架空の人物等でもよい。前記モデル音声は、特に制限されず、例えば、実在する人物（歌手、声優、芸能人、著名人等）の音声でもよいし、キャラクターの音声でもよいし、コンピュータによって人工的に生成された合成音声でもよい。そして、再生手段１６により、前記変換したモデル人物及びモデル音声の少なくとも一方を用いて、前記再生を実行してもよい。また、再生手段１６は、例えば、前記変換したモデル人物と、前記変換したモデル音声とを合成してから前記再生を実行してもよい。図５に、本装置１０が前記選択手段を含む場合の使用の一例を示す。図５において、本装置１０は、ＰＣとして示す。

【0039】

本実施形態の同期装置１０によれば、前記フレーム群毎に、前記変換済み音声の再生開始時間を合わせることで、再生される映像と音声とのタイミングの乖離を抑制することができる。また、本装置１０によれば、例えば、再生した動画を違和感なく視聴することができる。このため、ユーザは、動画形式の講義や講演等の視聴に集中することができる。さらに、本装置１０によれば、ユーザの好みに適した前記人物及び前記音声に変換可能であるため、より集中することができたり、動画の視聴が楽しくなるという効果がある。また、本装置１０によれば、動画マスタ内の人物及び音声を変換可能であるため、前記動画マスタ内の人物に関する情報を秘匿可能であり、前記動画マスタ内の人物が不特定多数の人物にさらされるリスクを低減することができる。

【0040】

［実施形態２］
本実施形態のプログラムは、本発明の方法の各工程を、手順として、コンピュータに実行させるためのプログラムである。本発明において、「手順」は、「処理」と読み替えてもよい。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されていてもよい。前記記録媒体としては、特に限定されず、例えば、読み出し専用メモリ（ＲＯＭ）、ハードディスク（ＨＤ）、光ディスク等が挙げられる。

【0041】

以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。

【産業上の利用可能性】

【0042】

本発明によれば、再生される映像と音声とのタイミングの乖離を抑制することができる。このため、本発明は、例えば、動画形式での授業を行う学校や予備校等の教育施設や、動画形式での講演を行う講演会やセミナー等のイベントにおいて、特に有用である。

【符号の説明】

【0043】

１０同期装置
１１動画マスタ取得手段
１２抽出手段
１３フレーム群形成手段
１４分割手段
１５変換手段
１６再生手段

【図1】