(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-04
(54)【発明の名称】自然言語翻訳ビデオにおけるリップ・シンクの最適化
(51)【国際特許分類】
H04N 21/8547 20110101AFI20240927BHJP
G10L 15/00 20130101ALI20240927BHJP
G10L 13/00 20060101ALI20240927BHJP
G06F 40/58 20200101ALI20240927BHJP
G06T 1/40 20060101ALI20240927BHJP
【FI】
H04N21/8547
G10L15/00 200C
G10L13/00 100G
G06F40/58
G06T1/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024515318
(86)(22)【出願日】2022-09-22
(85)【翻訳文提出日】2024-03-08
(86)【国際出願番号】 CN2022120554
(87)【国際公開番号】W WO2023046016
(87)【国際公開日】2023-03-30
(32)【優先日】2021-09-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】サンサー、サティヤ
(72)【発明者】
【氏名】カナン、シュリデヴィ
(72)【発明者】
【氏名】ラクシット、サルバジット ケイ
(72)【発明者】
【氏名】ジャワハルラール、サミュエル、マシュー
【テーマコード(参考)】
5B057
5C164
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CB08
5B057CB12
5B057CE05
5B057DA08
5B057DA16
5B057DB02
5B057DB09
5B057DC40
5C164MA07S
5C164MC06P
5C164PA44
5C164SB04S
(57)【要約】
ソース言語からターゲット言語に翻訳された話者の最適化ビデオを、話者の唇が翻訳された音声に同期した状態で、ターゲット言語への翻訳の最適化のバランスをとりながら生成するための手法。ソース・ビデオは、ニューラル機械翻訳モデルに供給することができる。モデルは、複数の潜在的翻訳を同期させることができる。翻訳は、各翻訳のビデオを生成し、翻訳を、同期または同期外れとして分類する敵対的生成ネットワークによって受信することができる。リップ・シンク・スコアは、同期として分類された生成されたビデオの各々についてのものであり得る。
【特許請求の範囲】
【請求項1】
ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化するためのコンピュータ実装方法であって、
プロセッサによって、ソース言語において話者のソース・ビデオを受信することと、
ニューラル機械翻訳モデルに基づいて、ターゲット言語における前記ソース・ビデオの複数の音声翻訳を同期させることであって、前記ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる、同期させることと、
敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、前記複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することと、
敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することと、
同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することと、
を含む、コンピュータ実装方法。
【請求項2】
前記ターゲット言語における前記ビデオの前記複数の音声翻訳を同期させることは、
前記ソース・ビデオからオーディオ・データを抽出することと、
前記抽出されたオーディオ・データについて、前記ソース言語におけるトランスクリプトを生成することと、
前記ソース言語における前記トランスクリプトに基づいて、前記ターゲット言語における少なくとも1つの翻訳スクリプトを生成することであって、前記翻訳スクリプトの数は、前記可変ビーム幅に基づく、生成することと、
テキスト・ツー・音声システムに基づいて各翻訳スクリプトを音声に変換することと、
を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することは、
ソース言語で発話する話者のオーディオおよびビデオ・データのコーパスを、前記ターゲット言語におけるリップ・シンク・ビデオを生成するために初期化された生成サブ・モデルに適用することであって、前記コーパスは、複数の元の例から構成される、適用することと、
前記ターゲット言語において、提供されたオーディオ・データの各々のリップ・シンク・ビデオ・データを生成することと、
生成された各ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの敵対的生成ネットワーク損失を計算することと、
前記計算された敵対的生成ネットワーク損失を用いて前記生成サブ・モデルを更新することと、
を更に含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記ターゲット言語における生成された各リップ・シンク・ビデオを、前記ソース言語におけるリップ・シンク・ビデオを生成するために初期化された前記生成サブ・モデルに適用することと、
前記ソース言語における生成された各リップ・シンク・ビデオについて、セカンダリ・リップ・シンク・ビデオ・データを生成することと、
生成された各セカンダリ・ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの第2の敵対的生成ネットワーク損失を計算することと、
前記ターゲット言語におけるリップ・シンクを生成するために初期化された前記生成サブ・モデルを、前記第2の敵対的生成ネットワーク損失を用いて更新することと、
を更に含む、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記ニューラル機械翻訳モデルは、少なくとも2つのリカレント・ニューラル・ネットワークと、最も可能性の高い翻訳の確率を生成するための完全に接続されたニューラル・ネットワークとからなるオート・エンコーダ・モデルに基づく、請求項1に記載のコンピュータ実装方法。
【請求項7】
同期として分類された各リップ・シンク・ビデオをスコアリングすることは、
同期として分類された各リップ・シンク・ビデオを、ソフトマックス出力を有する完全に接続されたニューラル・ネットワークに適用することを更に含み、前記ソフトマックス出力は、前記翻訳されたスクリプトおよびリップ・シンク・ビデオが最も確からしい結果である確率である、請求項1に記載のコンピュータ実装方法。
【請求項8】
ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化するためのコンピュータ・システムであって、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、
コンピュータ・プログラム命令であって、
ソース言語において話者のソース・ビデオを受信することと、
ニューラル機械翻訳モデルに基づいて、ターゲット言語における前記ソース・ビデオの複数の音声翻訳を同期させることであって、前記ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる、同期させることと、
敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、前記複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することと、
敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することと、
同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することと、
を行うための、前記コンピュータ・プログラム命令と、
を備える、コンピュータ・システム。
【請求項9】
前記ターゲット言語における前記ビデオの前記複数の音声翻訳を同期させることは、
前記ソース・ビデオからオーディオ・データを抽出することと、
前記抽出されたオーディオ・データについて、前記ソース言語におけるトランスクリプトを生成することと、
前記ソース言語における前記トランスクリプトに基づいて、前記ターゲット言語における少なくとも1つの翻訳スクリプトを生成することであって、前記翻訳スクリプトの数は、前記可変ビーム幅に基づく、生成することと、
テキスト・ツー・音声システムに基づいて各翻訳スクリプトを音声に変換することと、
を更に含む、請求項8に記載のコンピュータ・システム。
【請求項10】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成するための命令を更に含む、請求項8に記載のコンピュータ・システム。
【請求項11】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することは、
ソース言語で発話する話者のオーディオおよびビデオ・データのコーパスを、前記ターゲット言語におけるリップ・シンク・ビデオを生成するために初期化された生成サブ・モデルに適用することであって、前記コーパスは、複数の元の例から構成される、適用することと、
前記ターゲット言語において、提供されたオーディオ・データの各々のリップ・シンク・ビデオ・データを生成することと、
生成された各ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの敵対的生成ネットワーク損失を計算することと、
前記計算された敵対的生成ネットワーク損失を用いて前記生成サブ・モデルを更新することと、
を更に含む、請求項10に記載のコンピュータ・システム。
【請求項12】
前記ターゲット言語における生成された各リップ・シンク・ビデオを、前記ソース言語におけるリップ・シンク・ビデオを生成するために初期化された前記生成サブ・モデルに適用することと、
前記ソース言語における生成された各リップ・シンク・ビデオについて、セカンダリ・リップ・シンク・ビデオ・データを生成することと、
生成された各セカンダリ・ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの第2の敵対的生成ネットワーク損失を計算することと、
前記ターゲット言語におけるリップ・シンクを生成するために初期化された前記生成サブ・モデルを、前記第2の敵対的生成ネットワーク損失を用いて更新することと、
を行うための命令を更に備える、請求項11に記載のコンピュータ・システム。
【請求項13】
前記ニューラル機械翻訳モデルは、少なくとも2つのリカレント・ニューラル・ネットワークと、最も可能性の高い翻訳の確率を生成するための完全に接続されたニューラル・ネットワークとからなるオート・エンコーダ・モデルに基づく、請求項8に記載のコンピュータ・システム。
【請求項14】
同期として分類された各リップ・シンク・ビデオをスコアリングすることは、
同期として分類された各リップ・シンク・ビデオを、ソフトマックス出力を有する完全に接続されたニューラル・ネットワークに適用することを更に含み、前記ソフトマックス出力は、前記翻訳されたスクリプトおよびリップ・シンク・ビデオが最も確からしい結果である確率である、請求項13に記載のコンピュータ・システム。
【請求項15】
ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体上でソートされたプログラム命令とを含み、前記プログラム命令は、
ソース言語において話者のソース・ビデオを受信することと、
ニューラル機械翻訳モデルに基づいて、ターゲット言語における前記ソース・ビデオの複数の音声翻訳を同期させることであって、前記ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる、同期させることと、
敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、前記複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することと、
敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することと、
同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することと、
を行うための命令を含む、コンピュータ・プログラム製品。
【請求項16】
前記ターゲット言語における前記ビデオの前記複数の音声翻訳を同期させることは、
前記ソース・ビデオからオーディオ・データを抽出することと、
前記抽出されたオーディオ・データについて、前記ソース言語におけるトランスクリプトを生成することと、
前記ソース言語における前記トランスクリプトに基づいて、前記ターゲット言語における少なくとも1つの翻訳スクリプトを生成することであって、前記翻訳スクリプトの数は、前記可変ビーム幅に基づく、生成することと、
テキスト・ツー・音声システムに基づいて各翻訳スクリプトを音声に変換することと、
を更に含む、請求項15に記載のコンピュータ・プログラム製品。
【請求項17】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成するための命令を更に含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項18】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することは、
ソース言語で発話する話者のオーディオおよびビデオ・データのコーパスを、前記ターゲット言語におけるリップ・シンク・ビデオを生成するために初期化された生成サブ・モデルに適用することであって、前記コーパスは、複数の元の例から構成される、適用することと、
前記ターゲット言語において、提供されたオーディオ・データの各々のリップ・シンク・ビデオ・データを生成することと、
生成された各ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの敵対的生成ネットワーク損失を計算することと、
前記計算された敵対的生成ネットワーク損失を用いて前記生成サブ・モデルを更新することと、
を更に含む、請求項17に記載のコンピュータ・プログラム製品。
【請求項19】
前記ターゲット言語における生成された各リップ・シンク・ビデオを、前記ソース言語におけるリップ・シンク・ビデオを生成するために初期化された前記生成サブ・モデルに適用することと、
前記ソース言語における生成された各リップ・シンク・ビデオについて、セカンダリ・リップ・シンク・ビデオ・データを生成することと、
生成された各セカンダリ・ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの第2の敵対的生成ネットワーク損失を計算することと、
前記ターゲット言語におけるリップ・シンクを生成するために初期化された前記生成サブ・モデルを、前記第2の敵対的生成ネットワーク損失を用いて更新することと、
を行うための命令を更に備える、請求項18に記載のコンピュータ・プログラム製品。
【請求項20】
前記ニューラル機械翻訳モデルは、少なくとも2つのリカレント・ニューラル・ネットワークと、最も可能性の高い翻訳の確率を生成するための完全に接続されたニューラル・ネットワークとからなるオート・エンコーダ・モデルに基づく、請求項15に記載のコンピュータ・プログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、自然言語処理に関し、より詳細には、ソース言語における話者のビデオをターゲット言語に翻訳し、話者の唇の動きがターゲット言語に同期されたビデオを生成することに関する。
【背景技術】
【0002】
敵対的生成ネットワーク(generative adversarial network:GAN)は、生成モデリングのためにディープ・ラーニング法を利用した機械学習における革新である。GANは、2つのサブ・モデル、すなわち、新たな例を生成するようにトレーニングされた生成器モデルと、生成された例を真または偽として分類する分類器モデルとからなることができる。2つのモデルは、分類モデルが、生成された例の概ね半分を真として分類するまで、敵対的ループにおいて共にトレーニングされる。
【0003】
自然言語処理は、ソフトウェアによる自然言語の自動操作である。自然言語は、英語、アラビア語、スペイン語または日本語等の、人間が理解する話し言葉および書き言葉である。自然言語処理は、1つの自然言語から別のものに音声およびテキストを翻訳すること等の操作を含むことができる。加えて、自然言語処理は、自然言語をコンピュータが理解するフォーマットに操作することを含むことができ、ワードおよびセンテンスをベクトルまたは類似の表現に変換することによって意味論的意味を提供する。
【発明の概要】
【0004】
本開示の実施形態は、ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびシステムを含む。実施形態は、プロセッサによって、ソース言語において話者のソース・ビデオを受信することを含むことができる。実施形態は、ニューラル機械翻訳モデルに基づいて、ターゲット言語におけるソース・ビデオの複数の音声翻訳を同期させることも含み、ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる。さらに、実施形態は、敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することを含むことができる。さらに、実施形態は、敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することを含むことができる。実施形態は、同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することも含むことができる。
【0005】
上記の概要は、本開示の全ての実施の示される各実施形態を記載することを意図したものではない。
【図面の簡単な説明】
【0006】
【
図1】本発明の実施形態による、自然言語翻訳の最適化および自然言語翻訳とのリップ・シンクを有するビデオの生成のためのビデオ翻訳およびリップ・シンク最適化環境100を大まかに示す機能ブロック図である。
【
図2】本発明の実施形態による、ビデオ翻訳およびリップ・シンク最適化エンジンのブロック図である。
【
図3】本発明の実施形態による、自然言語翻訳の最適化および自然言語翻訳とのリップ・シンクを有するビデオの生成のためのサイクル敵対的生成ネットワークのトレーニングのための例示的なフローである。
【
図4】本発明の実施形態による、自然言語翻訳の最適化および自然言語翻訳とのリップ・シンクを有するビデオの生成のための方法の動作ステップを示すフローチャートである。
【
図5】本発明の実施形態による、ビデオ翻訳およびリップ・シンク最適化環境100内の例示的なコンピューティング・システムの機能ブロック図である。
【
図6】本発明の実施形態による、クラウド・コンピューティング環境を示す図である。
【
図7】本発明の実施形態による、抽象化モデル・レイヤを示す機能ブロック図である。
【発明を実施するための形態】
【0007】
本明細書に記載の実施形態は、様々な変形および代替の形態が可能であるが、その詳細は、図面に例として示されており、詳細に説明される。しかしながら、記載される特定の実施形態は、限定の意味で解釈されないことが理解されるべきである。それどころか、本開示の範囲内にある全ての変形、等価物および代替を包含することが意図される。
【0008】
本明細書に示され、記載される実施形態は、自然言語翻訳を用いて生成されたビデオにおけるリップ・シンクの最適化の利点を認識する。多くの翻訳されたビデオにおいて、元のソースオーディオは単純に除去され、ターゲット言語はビデオ自体の上に吹き替えられる。これは、ビデオにおける話者の口の動きまたは唇とオーディオとの不一致につながる。人間は、リップ・シンクおよび発話における任意の不一致に敏感である。音声発話と同期した現実的なリップ・アニメーションは、人間の眼にとって快いのみでなく、唇とオーディオとの同期がとれていないことに起因して、気が散ること、場合によっては、人物がビデオを停止するかまたはオフにすることを阻止することができる。
【0009】
ソース言語からターゲット言語への発話の機械翻訳は、場合によっては、発話者の唇と翻訳されたオーディオとの同期に関する課題を引き起こす。これは、翻訳におけるワードの長さまたはワード数に関する課題であり得る。翻訳が不正確である可能性があるか、またはテキスト・ツー・音声吹き替えのスタイルが、生成されたリップ・シンクと互換性がないということも生じ得る。本明細書に記載の実施形態は、話者の唇と、生成されたオーディオ翻訳との間に適切な同期を有するビデオを生成するために、発話の2つ以上の機械翻訳を要する場合があることを理解する。とはいえ、本明細書に提示される実施形態は、最適なリップ・シンクを有する一致したビデオと共に、ターゲット言語における最適な翻訳を提供することによって、ユーザ体験の向上を提供することができる。本明細書全体を通じて、リップ・シンク、口の動きおよび唇の動きという用語は交換可能に用いることができることに留意されたい。上述した用語は、話者のビデオのオーディオおよび視覚データが同期または一致し、このため快適なユーザ体験を提供することを指すことを意図する。
【0010】
本発明の実施形態において、ニューラル機械翻訳システムは、ソース言語におけるビデオについて、ターゲット言語における最も可能性の高い候補翻訳を生成することができる。敵対的生成ネットワークは、候補翻訳を受信し、候補翻訳の各々についてビデオを生成することができる。敵対的生成ネットワークは、生成されたビデオの各々を、(i)唇が翻訳されたテキスト・ツー音声吹き替えに同期している、または(ii)唇が翻訳されたテキスト・ツー音声吹き替えに同期していない、として分類することができる。加えて、テキスト・ツー・音声に対し同期した唇を有すると分類された任意の生成されたビデオについて、リップ・シンク・スコアを生成することができる。
【0011】
加えて、いくつかの実施形態では、ニューラル機械翻訳システムは、ソース言語におけるソース・ビデオの、ターゲット言語における1つまたは複数の翻訳の出力を生成することができる。出力は、所定のまたは動的に決定されたビーム幅選択に基づいて、確からしい出力のターゲット言語の上位K個の結果または最も可能性の高い出力とすることができる。いくつかの実施形態では、ビーム幅は、トレーニング・プロセスにおいて最適化することができるニューラル機械翻訳システムの学習可能なパラメータとすることができる。
【0012】
実施形態において、敵対的生成ネットワークは、サイクル・アーキテクチャ(「サイクルGAN」)を利用することができ、サイクルGANでは、ソース・ビデオと生成されたビデオとの比較に基づいて、弁別器サブ・モデルから生成器サブ・モデルにサイクル一貫性損失が継続的にフィードバックされる(以下でより詳細に説明される)。このプロセスは反復的形式で実行することができ、サイクルGANを更に調整し、より現実的な生成された翻訳リップ・シンク・ビデオを生成する。例えば、ソース・ビデオは、サイクルGANに供給することができ、結果として、出力された複数の翻訳および翻訳のために生成されたビデオが得られる。リップ・シンクは、全ての生成されたビデオについてソース・ビデオと比較することができる。任意の計算された損失は、生成器サブ・モデルを調整する生成器サブ・モデルに組み込むことができる。
【0013】
敵対的生成ネットワークは、少なくとも2つのサブ・モデルを有する機械学習モデルであり、1つのモデルが(例えばビデオについて)単数または複数の画像を生成し、分類サブ・モデルを、生成された画像を真として分類するように欺くことを試みる。本発明の場合、実施形態は、唇の動きおよび翻訳オーディオ・データに関して同期として分類されたビデオの生成を試みる。敵対的生成ネットワークのトレーニングにおいて、複数のタイプの画像が提供され、そのうちのいくつかは一致またはリップ・シンク・ビデオを有するのに対し、他のものは、同期外れのオーディオおよび唇の動きを有する。次に、敵対的生成ネットワークは、生成された翻訳ビデオが、概ね50%の時間、同期として分類されるまでトレーニングされる。
【0014】
本発明の実施形態において決定サブ・モデルは、話者の顔におけるランドマーク(例えば、唇、口、頬等)を利用して、生成された音声について高度に現実的な顔の状態を生成するリカレント・ニューラル・ネットワークとすることができる。例えば、決定サブ・モデルは、トレーニング中、自己教師あり方式で音素-口形素マッピングに関連付けられた顔のランドマークを学習する能力を有することができる。実施形態において、決定サブ・モデルは、任意の不規則性を平滑化する追加の完全に接続されたレイヤを有するリカレント・ニューラル・ネットワークとすることができる。これにより、決定サブ・モデルが言語非依存となることが可能になり、これにより、結果として、複数のターゲット言語のためのリップ・シンク・ビデオを生成することができるシステムを得ることができる。
【0015】
本発明の実施形態において、リップ・シンク・スコアリング機能が存在する場合がある。例えば、完全に接続されたニューラル・ネットワークは、リップ・シンクとしてラベル付けまたは分類された、翻訳されたリップ・シンク・ビデオを受信するためにソフトマックス・レイヤとして作用することができる。リップ・シンク・スコアは、予測されるリップ・ランドマークに対する音素の正確性、音声における表情に対する声の定型化、もしくは予測される音素と比較した顔/唇のランドマークのタイミング、またはそれらの組み合わせの尺度とすることができる。複数の翻訳されたリップ・シンク・ビデオがリップ・シンクとしてラベル付けされた状況において、リップ・シンク・スコアは、いずれの生成されたビデオが提示されるべきかの決定を可能にすることができる。
【0016】
図面を参照して実施形態を詳細に説明する際、「実施形態」、「他の実施形態」等への明細書における言及は、記載される実施形態が特定の特徴、構造または特性を含むことができることを示すが、全ての実施形態がその特定の特徴、構造または特性を必ずしも含まない場合があることに留意すべきである。さらに、このような語句は、必ずしも同じ実施形態を参照するものではない。さらに、実施形態に関して特定の特徴、構造、または特性を記載するとき、当業者は、明示的に記載されていてもいなくても、他の実施形態に関するそのような特徴、構造、または特性に影響を及ぼすための知識を有する。
【0017】
図1は、ビデオ翻訳およびリップ・シンク最適化環境100を大まかに示す機能ブロック図である。ビデオ翻訳およびリップ・シンク最適化環境100内には、サーバ102およびネットワーク120が示される。また、
図1には、ビデオ翻訳およびリップ・シンク最適化エンジン110も示される。
【0018】
サーバ102は、スタンドアローン・コンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、または、データを受信、送信および処理することが可能な任意の他の電子デバイスまたはコンピューティング・システムとすることができる。他の実施形態において、サーバ102は、複数のコンピュータをサーバ・システムとして利用してサーバ・コンピューティング・システムを表すことができる。
図1には1つのサーバおよび1つのクライアント・コンピュータが示されているが、ビデオ翻訳およびリップ・シンク最適化環境100は、任意の数のサーバおよびクライアント・コンピュータ(例えば、1、2、n…n+1)を有することができることに留意されたい。別の実施形態において、サーバ102は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ、デスクトップ・コンピュータ、またはネットワーク120を介してビデオ翻訳およびリップ・シンク最適化環境100内の他のコンピューティング・デバイス(図示せず)と通信することが可能な任意のプログラム可能電子デバイスとすることができる。
【0019】
別の実施形態において、サーバ102は、ビデオ翻訳およびリップ・シンク最適化環境100内でアクセスされるとき、シームレス・リソースの単一のプールとして作用することができるクラスタ化されたコンピュータおよび構成要素(例えば、データベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータ等)を利用するコンピューティング・システムを表す。サーバ102は、示され、
図5に関して更に詳細に記載されるように、内部および外部ハードウェア構成要素を含むことができる。
【0020】
実施形態において、ビデオ翻訳およびリップ・シンク最適化エンジン110は、ソース言語で話しているビデオから、唇および口の動きが生成された翻訳に同期した、ターゲット言語における話者の翻訳ビデオを生成するコンピュータ・プログラムとすることができる。ビデオ翻訳およびリップ・シンク最適化エンジン110は、ターゲット言語における話者のソース・ビデオを受信し、ターゲット言語における複数の最良の翻訳を生成し、翻訳へのリップ・シンクを有する各翻訳のビデオを生成し、各翻訳を同期または非同期として分類し、同期として分類された任意の生成されたビデオのリップ・シンク・スコアを生成するための複数のコンピュータ・モジュール(以下でより詳細に説明される)を有することができる。
【0021】
ネットワーク120は、例えば、ローカル・エリア・ネットワーク(LAN)、インターネット等の広域ネットワーク(WAN)、または2つの組み合わせとすることができ、有線、無線または光ファイバ接続を含むことができる。一般に、ネットワーク120は、サーバ102と、ビデオ翻訳およびリップ・シンク最適化環境100内の他のコンピューティング・デバイス(図示せず)との間の通信をサポートする接続およびプロトコルの任意の組み合わせとすることができる。
【0022】
図2は、ビデオ翻訳およびリップ・シンク最適化エンジン110のブロック図である。ビデオ翻訳およびリップ・シンク最適化エンジン110上には、オーディオ抽出モジュール202、自動音声認識モジュール204、ニューラル機械翻訳モジュール206、テキスト・ツー・音声モジュール208、敵対的生成ネットワーク210、ビデオ抽出モジュール216、およびリップ・シンク・スコアリング218が示される。
【0023】
オーディオ抽出モジュール202は、話者のビデオからオーディオ・データを抽出することができるコンピュータ・モジュールである。さらに、いくつかの実施形態では、オーディオ抽出モジュール202は、ソース・ビデオからのオーディオ・データ内の他の雑音またはサウンドから、自然言語発話を分離することができる。例えば、ビデオ翻訳およびリップ・シンク最適化エンジン110は、話者のビデオを受信することができる。ビデオは、話者および周囲の背景雑音(例えば、鳥の鳴き声、イヌの吠声、通過する車両)のオーディオ・データを有することができる。オーディオ抽出モジュール202は、いずれかのデータ・ポイントに関連付けられた認識可能なウェーブ・パターンに基づいて、自然言語発話または周囲雑音を分離することができる。
【0024】
自動音声認識モジュール204は、自然言語発話を分離し、オーディオ・データのテキスト・ベースの表現またはトランスクリプトを生成することができるコンピュータ・モジュールである。実施形態において、自動音声認識モジュール204は、オーディオ・データにおける自然言語発話を分離することができる。自動音声認識モジュール204は、オーディオ・データにおける認識可能なパターンに基づいて音素を識別し、音素の最も確からしい組み合わせに基づいてワードを生成することができる。例えば、オーディオ・データは、ニューラル・ネットワーク(例えば、リカレント・ニューラル・ネットワーク、長短期記憶等)に供給することができ、音素の最も可能性の高い組み合わせに基づいてワードを生成することができる。さらに、いくつかのニューラル・ネットワークにおいて、ワードの組み合わせは、最も可能性の高いワードの組み合わせまたはワードの関連付けに基づいて決定することができる。
【0025】
ニューラル機械翻訳モジュール206は、ソース言語におけるテキストをターゲット言語におけるテキストに翻訳することができるコンピュータ・プログラムである。実施形態において、ニューラル機械翻訳モジュール206は、ソース言語におけるテキストを受信し、複数の翻訳スクリプトを生成することができる。翻訳スクリプトの数は、ビーム検索アルゴリズムに基づくことができる。ビーム検索アルゴリズムは、ニューラル機械翻訳モジュールが、ソース・センテンスに基づいて、ソース・ワードをターゲット・ワードに翻訳することを可能にするトレーニング可能なパラメータである。ターゲット言語における複数のワードは、入力センテンス(すなわち、上位「k」個のワードまたはビーム幅)について決定することができる。潜在的なターゲット・ワードの数により、条件付き確率および動的に決定されるまたはユーザにより選択されるビーム幅(例えば「k」)に基づいて、各タイムスタンプにおいて入力センテンスのための複数の代替を可能にすることができる。
【0026】
実施形態において、ニューラル機械翻訳モジュール206は、トレーニング中に最適化されたビーム幅「k」パラメータに基づいて、ターゲット言語における上位「k」個の最良の翻訳されたテスト・スクリプトを生成することができる。ソース・テキストは、入力ベクトルに変換することができる。入力ベクトルは、各用語、エンティティもしくは概念またはその両方について符号化ベクトルを作成するために、複数のノード(例えば、リカレント・ニューラル・ネットワーク、翻訳機等)から作製されたエンコーダに供給することができる。符号化ベクトルは、複数のノード(例えば、リカレント・ニューラル・ネットワーク、翻訳機等)から作製されたデコーダに供給することができる。出力ベクトルは、出力ベクトルに基づいて最も確からしい単数または複数のワードを予測するようにトレーニングされた完全に接続されたニューラル・ネットワークに供給することができる。さらに、別の実施形態において、完全に接続されたレイヤは、出力ベクトルに基づいて、最良のワードまたは上位「k」個のスクリプトを予測するように最適化することができる。
【0027】
テキスト・ツー・音声モジュール208は、ターゲット言語においてテキストもしくはトランスクリプトまたはその両方を受信し、音声を生成することができるコンピュータ・モジュールである。実施形態において、テキスト・ツー・音声モジュール208は、翻訳されたテキストまたはトランスクリプトにおけるテキストに関連付けられた音素を生成して、ターゲット言語におけるオーディオ・データを生成することができる。実施形態において、テキスト・ツー・音声モジュール208は、ソース言語における話者に関連付けられたオーディオ・データのコーパスを用いてトレーニングすることができる。テキスト・ツー・音声モジュール208は、ソース言語の音素の組み合わせに基づいて、話者の抑揚、ペースおよび声の定型化を正確に複製して、翻訳されるソース・ビデオを複製するようにトレーニングすることができる。
【0028】
敵対的生成ネットワーク210は、それに対し動作可能な2つの別個のサブ・モデルを有することができるコンピュータ・モジュールである。生成器サブ・モデル212は、話者のビデオ・データを受信し、トランスクリプトを話している場合の口および唇の位置に対応する口および唇の位置を有する話者の新たな画像を合成することができるニューラル・ネットワークである。実施形態において、生成器サブ・モデル212は、話者の口の動きが、翻訳された音声に関連付けられた音素に一致する、テキスト・ツー・音声モジュールからの音声のタイムスタンプに関連付けられた静止画像を生成することができる。複数の静止画像が作成され、組み合わされて、話者の口/唇が音声に同期されたシームレスなモーション・ピクチャが作成される。
【0029】
実施形態において、生成器サブ・モデル212は、ニューラル・ネットワークの複数のレイヤからなるものとすることができる。例えば、話者からの口のランドマークを識別し、完全に接続されたニューラル・ネットワークに供給することができる。完全に接続されたニューラル・ネットワークに続いて、畳込みニューラル・ネットワークの複数のレイヤを利用して、正確な口の位置決めを有する合成画像を生成することができる。
【0030】
分類サブ・モデル214は、画像またはビデオが関連付けられた音声と同期しているか否かを識別することができるニューラル・ネットワークである。実施形態において、分類サブ・モデル214は、1つまたは複数の生成された静止画像と、関連付けられた音声タイムスタンプとを受信することができる。分類サブ・モデル214は、音声に関連付けられた音素に基づいて、唇または口の形状が正しいか否かを識別することができる。例えば、分類サブ・モデル214は、入力画像およびワード/音素を分析するためのマルチレイヤ畳込みニューラル・ネットワーク等の複数のニューラル・ネットワーク・レイヤを有することができる。マルチレイヤ畳込みニューラル・ネットワークの後に、最後の畳込みニューラル・ネットワークの入力を受信し、単数または複数の画像を同期または同期外れ(すなわち、1または0)として分類するように構成された出力ソフトマックス・レイヤが後続することができる。
【0031】
ビデオ抽出モジュール216は、ソース・ビデオの視覚データを分離することができるコンピュータ・モジュールとすることができる。ビデオ抽出モジュール216は、静止画像と、各画像に関連付けられたタイムスタンプとを抽出することができる。さらに、ビデオ抽出モジュール216は、抽出された視覚データを敵対的生成ネットワーク210に供給することができる。
【0032】
リップ・シンク・スコアリングモジュール218は、同期として分類された敵対的生成ネットワーク110によって生成された、翻訳されたビデオのリップ・シンク・スコアを生成することができるコンピュータ・モジュールである。実施形態において、リップ・シンク・スコアリングモジュール218は、同期として分類された、生成されたビデオの翻訳を受信することができる、完全に接続されたニューラル・ネットワークを有することができる。ニューラル・ネットワークは、リップ・シンク・スコアを生成するように構成された出力ソフトマックス・レイヤを有することができる(例えば、対応する翻訳の確率は正しいかまたは最良の翻訳である)。翻訳は、完全に接続されたニューラル・ネットワークに供給することができる。
【0033】
図3は、本発明の実施形態による、リップ・シンク最適化環境100内のサイクリック敵対的生成ネットワークをトレーニングするための例示的なフローであり、全体として300で示される。ソース・ビデオ302は、オーディオ抽出モジュール202およびビデオ抽出モジュール216に供給されるものとすることができる。ソース・ビデオ302は、ソース言語において話者を特徴付けるビデオのコーパスからのビデオとすることができる。ソース・ビデオ302は、既知の最良の翻訳または複数の既知の翻訳を有することができる。抽出されたオーディオ・データは、自動音声認識モジュール204によって受信することができる。自動音声認識モジュール204は、オーディオ・データに対応するテキストを生成することができる。ニューラル機械翻訳モジュール206は、ビーム幅に基づいて、生成されたテキストを、複数のターゲット言語トランスクリプトに翻訳することができる。翻訳されたテキスト・トランスクリプトは、テキスト・ツー・音声モジュール208によって、ターゲット言語における対応する数のオーディオ音声記録に変換することができる。ビデオ抽出モジュール216は、ソース・ビデオ302から抽出された視覚データを送信することができる。生成器サブ・モデル212Aは、各翻訳された音声記録についてリップ・シンク・ビデオを生成することができる。分類サブ・モデル214Aは、生成された各リップ・シンク・ビデオを、同期または同期外れとして分類することができる。GAN損失Aは、同期外れとして分類された、生成されたビデオから計算することができ、生成器サブ・モデル212Aは、GAN損失Aを用いて更新することができる。
【0034】
生成されたビデオ304は、同じネットワーク・アーキテクチャに供給することができるが、モジュールは、前の段落に記載したプロセスを逆に行うように構成される。ここで、自動音声認識モジュール204はターゲット言語を認識するように構成され、ニューラル機械翻訳モデル206は、テキスト・ターゲット言語を構成可能な数のソース言語トランスクリプトに翻訳するように構成され、テキスト・ツー・音声モジュール208は、ソース言語におけるテキストを、ソース言語における音声に変換するように構成される。とはいえ、敵対的生成ネットワークB210Bは、生成された音声に基づいてリップ・シンク・ビデオを生成することができ、分類サブ・モデルB214Bは、生成されたビデオを同期または同期外れとして分類することができる。GAN損失Bは、同期外れとして分類された、生成されたビデオに基づいて計算することができる。さらに、サイクル一貫性損失は、分類サブ・モデルB214Bによって同期として分類された生成器サブ・モデルB212Bによって生成されたビデオと、元のソース・ビデオ302との比較に基づいて計算することができる。
【0035】
図4は、ビデオ400における自然言語翻訳のリップ・シンク最適化の動作ステップを示すフローチャートである。ステップ402において、ソース言語におけるビデオは、ビデオ翻訳およびリップ・シンク最適化エンジン110によって受信することができる。ステップ404において、ニューラル機械翻訳モジュール206は、ターゲット言語において1つまたは複数の翻訳を生成することができる。ステップ406において、敵対的生成ネットワーク210は、音声翻訳の各々についてリップ・シンク・ビデオを生成することができる。ステップ408において、敵対的生成ネットワーク210は、生成されたリップ・シンク・ビデオを、同期または同期外れとして分類することができる。決定ステップ410において、分類サブ・モデル214は、生成されたリップ・シンク・ビデオが同期(すなわち、同期している)として分類されるか否かを判断することができる。ビデオが同期として分類された場合、プロセスはステップ412に進む。ビデオが同期外れ(すなわち、非同期である)として分類された場合、プロセスは停止する。ステップ412において、リップ・シンク・スコアリングモジュール218は、同期として分類された、生成されたリップ・シンク・ビデオのリップ・シンク・スコアを生成することができる。
【0036】
図5は、動的切り替えユーザ・インタフェース・コンピュータ10を表す例示のコンピュータ・システムであるコンピュータ・システム10を示す。コンピュータ・システム10は、コンピュータ・プロセッサ14と、メモリ16と、永続ストレージ18と、ネットワーク・アダプタ28と、入力/出力(I/O)インタフェース26との間の通信を提供する通信ファブリック12を含む。通信ファブリック12は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサ等)、システム・メモリ、周辺デバイス、およびシステム内の任意の他のハードウェア構成要素間でデータを渡し、もしくは情報を制御し、またはその両方を行うために設計された任意のアーキテクチャを用いて実施することができる。例えば、通信ファブリック12は、1つまたは複数のバスを用いて実施することができる。
【0037】
コンピュータ・システム10は、プロセッサ14と、キャッシュ22と、メモリ16と、永続ストレージ18と、ネットワーク・アダプタ28と、入力/出力(I/O)インタフェース26と、通信ファブリック12とを含む。通信ファブリック12は、キャッシュ22と、メモリ16と、永続ストレージ18と、ネットワーク・アダプタ28と、入力/出力(I/O)インタフェース26との間の通信を提供する。通信ファブリック12は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサ等)、システム・メモリ、周辺デバイス、およびシステム内の任意の他のハードウェア構成要素間でデータを渡し、もしくは情報を制御し、またはその両方を行うために設計された任意のアーキテクチャを用いて実施することができる。例えば、通信ファブリック12は、1つもしくは複数のバスまたはクロスバー・スイッチを用いて実施することができる。
【0038】
メモリ16および永続ストレージ18はコンピュータ可読記憶媒体である。この実施形態において、メモリ16は、ランダム・アクセス・メモリ(RAM)20を含む。一般的に、メモリ16は、任意の適切な揮発性または不揮発性のコンピュータ可読記憶媒体を含むことができる。キャッシュ22は、メモリ16から最近アクセスされたデータおよび最近アクセスされたデータの近くのデータを保持することにより、プロセッサ14の性能を向上させる高速メモリである。以下に更に示され、説明されるように、メモリ16は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュール24のうちの少なくとも1つを含むことができる。
【0039】
少なくとも1つのプログラム・モジュール24を有するプログラム/ユーティリティが、限定ではなく例として、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様にメモリ16に記憶されてもよい。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、またはその何らかの組み合わせのそれぞれが、ネットワーキング環境の実装を含んでもよい。プログラム・モジュール24は、概して、本明細書に記載される本発明の実施形態の機能もしくは手順またはその両方を実行する。
【0040】
本発明の実施形態を実施するのに用いられるプログラム命令およびデータは、キャッシュ22を介してそれぞれのプロセッサ14のうちの1つまたは複数によって実行するために、永続ストレージ18およびメモリ16に記憶することができる。実施形態において、永続ストレージ18は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代わりに、またはこれに加えて、永続ストレージ18は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROM)、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を記憶することが可能な任意の他のコンピュータ可読記憶媒体を含むことができる。
【0041】
永続ストレージ18により用いられる媒体は、リムーバブルであってもよい。例えば、リムーバブル・ハード・ドライブが永続ストレージ18のために用いられてもよい。他の例は、光学および磁気ディスク、サム・ドライブ、および、永続ストレージ18の一部でもある別のコンピュータ可読記憶媒体上への転送のためにドライブに挿入されるスマート・カードを含む。
【0042】
これらの例において、ネットワーク・アダプタ28は、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例において、ネットワーク・アダプタ28は、1つまたは複数のネットワーク・インタフェース・カードを含む。ネットワーク・アダプタ28は、物理および無線通信リンクのいずれかまたは両方の使用を通じた通信を提供することができる。本発明の実施形態を実施するために用いられるプログラム命令およびデータは、ネットワーク・アダプタ28を通じて永続ストレージ18にダウンロードすることができる。
【0043】
I/Oインタフェース26は、各コンピュータ・システムに接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインタフェース26は、キーボード、キーパッド、タッチ・スクリーン、もしくは他の適切な入力デバイス、またはそれらの組み合わせ等の外部デバイス30への接続を提供することができる。外部デバイス30は、例えば、サム・ドライブ、ポータブル光または磁気ディスク、およびメモリ・カード等のポータブル・コンピュータ可読記憶媒体も含むことができる。本発明の実施形態を実施するために用いられるソフトウェアおよびデータは、そのようなポータブル・コンピュータ可読記憶媒体に記憶することができ、I/Oインタフェース26を介して永続ストレージ18にロードすることができる。I/Oインタフェース26は、ディスプレイ32にも接続する。
【0044】
ディスプレイ32は、データをユーザに表示するための機構を提供し、例えば、コンピュータ・モニタまたは仮想グラフィック・ユーザ・インタフェースであってもよい。
【0045】
本明細書に記載の構成要素は、本発明の特定の実施形態において実施される用途に基づいて識別することができる。しかしながら、本明細書における任意の特定の構成要素の命名は単に便宜上のものであり、このため、本発明は、そのような命名によって識別されるかもしくは暗示されるかまたはその両方の任意の特定の用途のみに用いられることに限定されるべきでないことが理解されるべきである。
【0046】
本発明は、システム、方法もしくはコンピュータ・プログラム製品、またはそれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。
【0047】
コンピュータ可読記憶媒体は、命令実行デバイスによって用いるための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、限定ではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または上記の任意の適切な組み合わせとすることができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(登録商標)・ディスク、命令が記録された溝内のパンチ・カードまたは隆起構造等の機械的に符号化されたデバイス、および上記の任意の適切な組み合わせを含む。本明細書において用いられるとき、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、または配線を介して送信される電気信号等の、一過性の信号自体であると解釈されるべきではない。
【0048】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワークまたはそれらの組み合わせを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバまたはそれらの組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。
【0049】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(登録商標)、C++等のオブジェクト指向プログラミング言語、「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語等を含む、1つもしくは複数のプログラミング言語の任意の組み合わせで記述された、ソースコードもしくはオブジェクトコードのいずれかとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータもしくはサーバ上で実行されてもよい。後者の場合、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む、任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は外部コンピュータに対して(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)行ってもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個人化することにより、コンピュータ可読プログラム命令を実行してもよい。
【0050】
本発明の態様について、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら本明細書において説明している。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施され得ることが理解される。
【0051】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実装するための手段を作成するように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供され、マシンを生じさせることができる。これらのコンピュータ可読プログラム命令はまた、コンピュータ可読記憶媒体に格納され、コンピュータ、プログラマブルデータ処理装置、もしくは他のデバイスまたはそれらの組み合わせに、特定の方法で機能するように指示することができるものであってもよく、それにより、命令が格納されたコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の単数または複数のブロックで指定された機能/動作の態様を実施する命令を含む製品を含む。
【0052】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上にロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させ、コンピュータ実装プロセスを生成させ、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックで指定される機能/動作を実施するようにしてもよい。
【0053】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能性および動作を示す。なお、フローチャートまたはブロック図の各ブロックは、指定される論理機能を実装するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表す場合がある。いくつかの代替の実装形態では、ブロックに記載されている機能は、図に記載されている順序とは異なる順序で行われてもよい。例えば、連続して示されている2つのブロックは、関与する機能性に応じて、実際には実質的に同時に実行されてもよく、またはそれらのブロックは場合によっては逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定される機能もしくは動作を実行するか、または専用ハードウェアとコンピュータ命令との組み合わせを遂行する専用ハードウェア・ベースのシステムによって実施され得ることにも留意されたい。
【0054】
本開示は、クラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載の教示の実施は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られている、または後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。
【0055】
クラウド・コンピューティングは、最小限の管理労力およびサービス・プロバイダとの対話で迅速にプロビジョニングおよびリリースすることができる、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス)の共有プールへの好都合でオン・デマンドのネットワーク・アクセスを可能にするためのサービス送達のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含むことができる。
【0056】
特性は以下の通りである。
【0057】
オン・デマンドのセルフ・サービス:クラウド消費者は、サービス・プロバイダとの人間の対話を必要とすることなく、自動的に必要に応じて、サーバ時間およびネットワーク・ストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。
【0058】
ブロード・ネットワーク・アクセス:能力は、ネットワークを介して利用可能にされ、異種シンまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップおよびPDA)による使用を促進する標準的なメカニズムを通じてアクセスされる。
【0059】
リソース・プーリング:マルチ・テナント・モデルを用いて複数の消費者にサービングするために、プロバイダのコンピューティング・リソースがプールされ、異なる物理的リソースおよび仮想リソースは、要求に従って動的に割当ておよび再割当てされる。消費者が、通常、提供されるリソースの厳密な場所に対する制御も知識も有しないが、より高い抽象度(例えば、国、州またはデータ・センタ)で場所を指定することが可能であり得るという点で、場所独立性の意義がある。
【0060】
高速な弾力性:能力は、場合によっては自動的に、即座にスケール・アウトするように高速かつ弾力的にプロビジョニングされ、即座にスケール・インするように高速に解放され得る。消費者に対しては、プロビジョニングに利用可能な能力が、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。
【0061】
測定されるサービス:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、アクティブなユーザ・アカウント)に適したある抽象度において計測能力を活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリング、制御、および報告することができ、利用サービスのプロバイダおよび消費者の両方に透明性がもたらされる。
【0062】
サービス・モデルは、以下の通りである。
【0063】
サービスとしてのソフトウェア(SaaS):消費者に提供される能力は、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用する能力である。アプリケーションは、ウェブ・ブラウザ等のシン・クライアント・インタフェース(例えば、ウェブ・ベースの電子メール)を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または更には個々のアプリケーション能力を含む、基礎となるクラウド・インフラを管理または制御しない。
【0064】
サービスとしてのプラットフォーム(PaaS):消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して生成された、消費者が作成または取得したアプリケーションを、クラウド・インフラ上に展開する能力である。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラを管理または制御しないが、展開されたアプリケーション、および、場合によっては、アプリケーション・ホスティング環境構成に対して制御を行う。
【0065】
サービスとしてのインフラ(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な、他の基本コンピューティング・リソースをプロビジョニングする能力である。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対して制御を行い、かつ場合によっては、選択ネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
【0066】
展開モデルは、以下の通りである。
【0067】
プライベート・クラウド:クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理されてもよく、構内または構外に存在し得る。
【0068】
コミュニティ・クラウド:クラウド・インフラは、複数の組織によって共有され、共有の関心事(例えば、任務、セキュリティ要件、ポリシ、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラは、その組織または第三者によって管理されてもよく、構内または構外に存在し得る。
【0069】
パブリック・クラウド:クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。
【0070】
ハイブリッド・クラウド:クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術(例えば、クラウド間のロード・バランシングのためのクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
【0071】
クラウド・コンピューティング環境は、無国籍、低結合、モジュール性、および意味相互運用性に焦点を当てたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。
【0072】
図6は、本発明の少なくとも1つの実施形態による、クラウド・コンピューティング環境50を示すブロック図である。クラウド・コンピューティング環境50は、クラウド消費者によって使用されるローカル・コンピューティング・デバイス、例えば、携帯情報端末(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、もしくは自動車コンピュータ・システム54N、またはそれらの組み合わせが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード40を含む。ノード40は、互いに通信することができる。それらは、上述のようなプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせ等の、1つまたは複数のネットワーク内で物理的または仮想的にグループ化されてもよい(図示せず)。これによって、クラウド・コンピューティング環境50が、インフラ、プラットフォーム、もしくはソフトウェア、またはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。
図6に示されるコンピューティング・デバイス54A~Nのタイプは、単なる例示であることを意図し、コンピューティング・ノード40およびクラウド・コンピューティング環境50は、任意の種類のネットワークもしくはネットワーク・アドレス可能な接続またはその両方を経て(例えば、ウェブ・ブラウザを用いて)、任意の種類のコンピュータ化デバイスと通信し得ると理解される。
【0073】
図7は、本発明の少なくとも1つの実施形態による、
図6に示すクラウド・コンピューティング環境50によって提供される機能抽象化モデル・レイヤのセットを示すブロック図である。
図7に示されるコンポーネント、レイヤ、および機能は、単なる例示であることを意図し、本発明の実施形態は、それらに限定されないと、予め理解されるべきである。図示するように、以下のレイヤおよび対応する機能が提供される。
【0074】
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、縮小命令セット・コンピュータ(RISC)、アーキテクチャ・ベース・サーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66を含む。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0075】
仮想化レイヤ70は、仮想エンティティの以下の例、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75が提供され得る、抽象レイヤを提供する。
【0076】
一例では、管理レイヤ80は、後述する機能を提供することができる。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定82は、リソースがクラウド・コンピューティング環境内で利用されるときにコスト追跡を提供し、これらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクについての本人確認を提供する。ユーザ・ポータル83は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース配分および管理を提供する。サービス水準合意(SLA)計画および遂行85は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
【0077】
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ解析処理94、トランザクション処理95、および自然言語翻訳およびリップ・シンク最適化96を含む。
【0078】
本発明の様々な実施形態の説明が、例示の目的で提示されたが、包括であることも、開示される実施形態に限定されることも意図されていない。本発明の範囲から逸脱することなく、多くの変更形態および変形形態が当業者に明らかとなろう。本明細書において用いられる用語は、実施形態の原理、実際の用途、もしくは市場に見られる技術を上回る技術の改善を最も良好に説明し、他の当業者が、本明細書に開示される実施形態を理解することを可能にするために選択された。
【手続補正書】
【提出日】2024-04-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータの情報処理により、ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化す
る方法であって、
プロセッサによって、ソース言語において話者のソース・ビデオを受信することと、
ニューラル機械翻訳モデルに基づいて、ターゲット言語における前記ソース・ビデオの複数の音声翻訳を同期させることであって、前記ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる、同期させることと、
敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、前記複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することと、
敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することと、
同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することと、
を含
む方法。
【請求項2】
前記ターゲット言語における前記ビデオの前記複数の音声翻訳を同期させることは、
前記ソース・ビデオからオーディオ・データを抽出することと、
前記抽出されたオーディオ・データについて、前記ソース言語におけるトランスクリプトを生成することと、
前記ソース言語における前記トランスクリプトに基づいて、前記ターゲット言語における少なくとも1つの翻訳スクリプトを生成することであって、前記翻訳スクリプトの数は、前記可変ビーム幅に基づく、生成することと、
テキスト・ツー・音声システムに基づいて各翻訳スクリプトを音声に変換することと、
を更に含む、請求項1に記載
の方法。
【請求項3】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することを更に含む、請求項1に記載
の方法。
【請求項4】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することは、
ソース言語で発話する話者のオーディオおよびビデオ・データのコーパスを、前記ターゲット言語におけるリップ・シンク・ビデオを生成するために初期化された生成サブ・モデルに適用することであって、前記コーパスは、複数の元の例から構成される、適用することと、
前記ターゲット言語において、提供されたオーディオ・データの各々のリップ・シンク・ビデオ・データを生成することと、
生成された各ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの敵対的生成ネットワーク損失を計算することと、
前記計算された敵対的生成ネットワーク損失を用いて前記生成サブ・モデルを更新することと、
を更に含む、請求項3に記載
の方法。
【請求項5】
前記ターゲット言語における生成された各リップ・シンク・ビデオを、前記ソース言語におけるリップ・シンク・ビデオを生成するために初期化された前記生成サブ・モデルに適用することと、
前記ソース言語における生成された各リップ・シンク・ビデオについて、セカンダリ・リップ・シンク・ビデオ・データを生成することと、
生成された各セカンダリ・ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの第2の敵対的生成ネットワーク損失を計算することと、
前記ターゲット言語におけるリップ・シンクを生成するために初期化された前記生成サブ・モデルを、前記第2の敵対的生成ネットワーク損失を用いて更新することと、
を更に含む、請求項4に記載
の方法。
【請求項6】
前記ニューラル機械翻訳モデルは、少なくとも2つのリカレント・ニューラル・ネットワークと、最も可能性の高い翻訳の確率を生成するための完全に接続されたニューラル・ネットワークとからなるオート・エンコーダ・モデルに基づく、請求項1に記載
の方法。
【請求項7】
同期として分類された各リップ・シンク・ビデオをスコアリングすることは、
同期として分類された各リップ・シンク・ビデオを、ソフトマックス出力を有する完全に接続されたニューラル・ネットワークに適用することを更に含み、前記ソフトマックス出力は、前記翻訳されたスクリプトおよびリップ・シンク・ビデオが最も確からしい結果である確率である、請求項1に記載
の方法。
【請求項8】
ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化するためのコンピュータ・システムであって、
ソース言語において話者のソース・ビデオを受信することと、
ニューラル機械翻訳モデルに基づいて、ターゲット言語における前記ソース・ビデオの複数の音声翻訳を同期させることであって、前記ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる、同期させることと、
敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、前記複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することと、
敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することと、
同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することと、
を行
うコンピュータ・システム。
【請求項9】
前記ターゲット言語における前記ビデオの前記複数の音声翻訳を同期させることは、
前記ソース・ビデオからオーディオ・データを抽出することと、
前記抽出されたオーディオ・データについて、前記ソース言語におけるトランスクリプトを生成することと、
前記ソース言語における前記トランスクリプトに基づいて、前記ターゲット言語における少なくとも1つの翻訳スクリプトを生成することであって、前記翻訳スクリプトの数は、前記可変ビーム幅に基づく、生成することと、
テキスト・ツー・音声システムに基づいて各翻訳スクリプトを音声に変換することと、
を更に含む、請求項8に記載のコンピュータ・システム。
【請求項10】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成する
ことを更に含む、請求項8に記載のコンピュータ・システム。
【請求項11】
前記敵対的生成ネットワーク・アーキテクチャをトレーニングしてリップ・シンク・ビデオを生成することは、
ソース言語で発話する話者のオーディオおよびビデオ・データのコーパスを、前記ターゲット言語におけるリップ・シンク・ビデオを生成するために初期化された生成サブ・モデルに適用することであって、前記コーパスは、複数の元の例から構成される、適用することと、
前記ターゲット言語において、提供されたオーディオ・データの各々のリップ・シンク・ビデオ・データを生成することと、
生成された各ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの敵対的生成ネットワーク損失を計算することと、
前記計算された敵対的生成ネットワーク損失を用いて前記生成サブ・モデルを更新することと、
を更に含む、請求項10に記載のコンピュータ・システム。
【請求項12】
前記ターゲット言語における生成された各リップ・シンク・ビデオを、前記ソース言語におけるリップ・シンク・ビデオを生成するために初期化された前記生成サブ・モデルに適用することと、
前記ソース言語における生成された各リップ・シンク・ビデオについて、セカンダリ・リップ・シンク・ビデオ・データを生成することと、
生成された各セカンダリ・ビデオ・データを、同期または非同期として分類することと、
前記元の例に対し、生成された各ビデオの第2の敵対的生成ネットワーク損失を計算することと、
前記ターゲット言語におけるリップ・シンクを生成するために初期化された前記生成サブ・モデルを、前記第2の敵対的生成ネットワーク損失を用いて更新することと、
を行
う、請求項11に記載のコンピュータ・システム。
【請求項13】
前記ニューラル機械翻訳モデルは、少なくとも2つのリカレント・ニューラル・ネットワークと、最も可能性の高い翻訳の確率を生成するための完全に接続されたニューラル・ネットワークとからなるオート・エンコーダ・モデルに基づく、請求項8に記載のコンピュータ・システム。
【請求項14】
同期として分類された各リップ・シンク・ビデオをスコアリングすることは、
同期として分類された各リップ・シンク・ビデオを、ソフトマックス出力を有する完全に接続されたニューラル・ネットワークに適用することを更に含み、前記ソフトマックス出力は、前記翻訳されたスクリプトおよびリップ・シンク・ビデオが最も確からしい結果である確率である、請求項13に記載のコンピュータ・システム。
【請求項15】
ニューラル機械翻訳のために、生成されたリップ・シンク・ビデオを最適化するためのコンピュータ・プログラ
ムであっ
て、
ソース言語において話者のソース・ビデオを受信することと、
ニューラル機械翻訳モデルに基づいて、ターゲット言語における前記ソース・ビデオの複数の音声翻訳を同期させることであって、前記ニューラル機械翻訳モデルは、可変ビーム幅に基づいて、可変数の翻訳を同期させるようにトレーニングされる、同期させることと、
敵対的生成ネットワーク・アーキテクチャ内の生成サブ・モデルに基づいて、前記複数の同期された音声翻訳の各々についてリップ・シンク・ビデオを生成することと、
敵対的生成ネットワーク内の分類サブ・モデルに基づいて、各リップ・シンク・ビデオを、同期または非同期として分類することと、
同期として分類された各リップ・シンク・ビデオについてリップ・シンク・スコアを生成することと、
を行うための命令を含む、コンピュータ・プログラ
ム。
【請求項16】
請求項15に記載のコンピュータ・プログラムを記録した、コンピュータ可読な記憶媒体。
【国際調査報告】