特表2024-520059 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フローレスホールディングスリミティドの特許一覧

特表2024-520059映画におけるオブジェクトの修正

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-21

(54)【発明の名称】映画におけるオブジェクトの修正

(51)【国際特許分類】

G06T 19/00 20110101AFI20240514BHJP

G06T 1/00 20060101ALI20240514BHJP

G06T 5/60 20240101ALI20240514BHJP

H04N 23/60 20230101ALI20240514BHJP

H04N 5/222 20060101ALI20240514BHJP

【ＦＩ】

G06T19/00 A

G06T1/00 340A

G06T5/60

H04N23/60 500

H04N5/222 800

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023573083

(86)(22)【出願日】2022-05-26

(85)【翻訳文提出日】2023-11-24

(86)【国際出願番号】 GB2022051338

(87)【国際公開番号】W WO2022248863

(87)【国際公開日】2022-12-01

(31)【優先権主張番号】63/193,553

(32)【優先日】2021-05-26

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/203,354

(32)【優先日】2021-07-19

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/561,356

(32)【優先日】2021-12-23

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】523444800

【氏名又は名称】フローレスホールディングスリミティド

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100153729

【弁理士】

【氏名又は名称】森本有一

(72)【発明者】

【氏名】スコットマン

(72)【発明者】

【氏名】ヒョンウキム

(72)【発明者】

【氏名】ショーンダニシェフスキー

(72)【発明者】

【氏名】ロブホール

(72)【発明者】

【氏名】ギャリーマイルズスクリオン

【テーマコード（参考）】

5B050

5B057

5C122

【Ｆターム（参考）】

5B050BA09

5B050BA12

5B050CA07

5B050DA04

5B050EA07

5B050EA18

5B050EA19

5B050EA27

5B050EA28

5B050FA02

5B050GA08

5B057BA02

5B057CA12

5B057CA16

5B057CB13

5B057CB17

5B057CD14

5B057CF10

5B057DA08

5B057DA16

5B057DC09

5B057DC17

5B057DC40

5C122DA42

5C122EA61

5C122FH04

5C122FH10

5C122FH11

5C122FH12

5C122FH14

5C122FH18

5C122FH22

5C122FH23

5C122GA01

5C122HA13

5C122HA35

5C122HA42

5C122HA46

5C122HB01

5C122HB02

5C122HB05

5C122HB06

(57)【要約】

オブジェクトの第１のインスタンスを含む画像フレームの第１のシーケンスを含むビデオデータを処理するコンピュータ実行方法。方法は、画像フレームの第１のシーケンス内でオブジェクトの第１のインスタンスを分離することと、オブジェクトの分離された第１のインスタンスを使用して、オブジェクトの合成モデルの第１のパラメータ値を決定することと、オブジェクトの合成モデルの第１のパラメータ値を修正することと、訓練された機械学習モデル及びオブジェクトの合成モデルの修正された第１パラメータ値を使用して、オブジェクトをレンダリングすることと、画像フレームの第１シーケンス内のオブジェクトの第１インスタンスの少なくとも一部を、オブジェクトの修正された第１のインスタンスの対応する少なくとも一部に置換することと、を備える。

【特許請求の範囲】

【請求項1】

画像フレームのシーケンスを含むビデオデータを処理するコンピュータ実行方法であって、
前記画像フレームの前記シーケンス内のオブジェクトのインスタンスを分離することと、
機械学習モデルを使用して、前記オブジェクトの修正された前記インスタンスを生成することと、
前記画像フレームの前記シーケンスのサブシーケンスに亘って、前記オブジェクトの分離された前記インスタンスの少なくとも一部と前記オブジェクトの修正された前記インスタンスの対応する少なくとも一部との間で漸進的に遷移するように前記ビデオデータを修正することと、
を備えるコンピュータ実行方法。

【請求項2】

前記ビデオデータを修正することは、
前記オブジェクトの合成モデルのパラメータ値を決定することであって、第１のパラメータ値は、前記オブジェクトの分離された前記インスタンスに対応することと、
前記オブジェクトの前記合成モデルの第２のパラメータ値を決定するために、前記オブジェクトの前記合成モデルの前記第１のパラメータ値を修正することであって、前記第２のパラメータ値は、前記オブジェクトの修正された前記インスタンスに対応することと、
前記画像フレームの前記シーケンスの前記サブシーケンスに亘って前記第１のパラメータ値と前記第２のパラメータ値との間を段階的に補間し、それによって、前記オブジェクトの前記合成モデルの補間されたパラメータ値を決定することと、
前記機械学習モデルを使用して、補間された前記パラメータ値に基づいて、前記オブジェクトの段階的に修正された前記インスタンスを生成することと、
前記オブジェクトの分離された前記インスタンスを、前記画像フレームの前記シーケンスの前記サブシーケンス内で前記オブジェクトの段階的に修正された前記インスタンスに置換することと、
を備える、請求項１に記載のコンピュータ実行方法。

【請求項3】

前記ビデオデータを修正することは、
前記画像フレームの前記シーケンスの前記サブシーケンスについて、前記オブジェクトの前記インスタンスを前記オブジェクトの修正された前記インスタンスに関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、
前記オブジェクトの段階的にワーピングした前記インスタンスを決定するために、前記画像フレームの前記シーケンスの前記サブシーケンスに亘って、推定された前記ワーピングを前記オブジェクトの前記インスタンスに段階的に適用することと、
前記オブジェクトの段階的にワーピングした修正された前記インスタンスを決定するために、前記画像フレームの前記シーケンスの前記サブシーケンスに亘って、推定された前記ワーピングの逆を前記オブジェクトの修正された前記インスタンスに段階的に適用することと、
前記画像フレームの前記シーケンスの前記サブシーケンスに亘って、前記オブジェクトの段階的にワーピングした第１のインスタンスを段階的にワーピングした前記オブジェクトの修正された前記第１のインスタンスに段階的にディゾルブすることと、
を備える、請求項１又は２に記載のコンピュータ実行方法。

【請求項4】

段階的にディゾルブすることは、所定のディゾルブレートで行われ、
推定された前記ワーピング及び推定された前記ワーピングの逆を段階的に適用することは、所定のワーピングレートで行われ、
前記ワーピングレートに対する前記ディゾルブレートの比は、前記画像フレームの前記シーケンスの前記サブシーケンス内で最大値まで増加した後に減少する、請求項３に記載のコンピュータ実行方法。

【請求項5】

前記画像フレームの前記シーケンスに亘って前記オブジェクトの前記インスタンスを前記オブジェクトの修正された前記インスタンスに関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、
前記オブジェクトのワーピングした前記インスタンスを決定するために、推定されたワーピングを前記オブジェクトの前記インスタンスに適用することと、
前記オブジェクトのワーピングした前記インスタンスをぼかすことと、
前記オブジェクトの修正された前記インスタンスをぼかすことと、
前記オブジェクトのカラーグレーディングした修正された前記インスタンスを生成するために、前記オブジェクトのぼかされているワーピングした前記インスタンスと前記オブジェクトのぼかされている修正された前記インスタンスとの画素単位との比に基づいて、前記オブジェクトの修正された前記インスタンスの色を調整することと、
ビデオデータの修正の前に、前記オブジェクトの修正された前記インスタンスを、前記オブジェクトのカラーグレーディングした修正された前記インスタンスに更新することと、
を更に備える、請求項１～３のいずれか一項に記載のコンピュータ実行方法。

【請求項6】

前記オブジェクトのワーピングした前記インスタンスをぼかすこと及び前記オブジェクトの修正された前記インスタンスをぼかすことの各々を、３～２０画素の固有長スケールを有するぼかしフィルタを使用して実行する、請求項５に記載のコンピュータ実行方法。

【請求項7】

前記オブジェクトは、人間の顔である、請求項１～５のいずれか一項に記載のコンピュータ実行方法。

【請求項8】

前記オブジェクトの分離された前記インスタンスの少なくとも一部は、人間の顔の口を含むが目を除く、請求項７に記載のコンピュータ実行方法。

【請求項9】

前記画像フレームの前記シーケンス及び／又は前記画像フレームの前記シーケンスに関連付けられたオーディオトラックのイベントを検出することと、
検出された前記イベントが発生する前記画像フレームの前記シーケンスのうちの一つ以上の画像フレームを決定することと、
検出された前記イベントが発生する決定した一つ以上の画像フレームに応じて、前記画像フレームの前記シーケンスの前記サブシーケンスを決定することと、
を更に備える、請求項１～８のいずれか一項に記載のコンピュータ実行方法。

【請求項10】

前記画像フレームの前記シーケンスの前記サブシーケンスを決定することは、前記イベントが発生する前に前記サブシーケンスが終了するようにすることである、請求項９に記載のコンピュータ実行方法。

【請求項11】

前記オブジェクトは人間の顔であり、前記イベントは人間の顔が話し始めることである、請求項９又は１０に記載のコンピュータ実行方法。

【請求項12】

前記画像フレームの前記シーケンスの前記サブシーケンスは、前記画像フレームの前記シーケンスの第１のサブシーケンスであり、
前記ビデオデータを修正することは、前記オブジェクトの分離された前記インスタンスの少なくとも一部から前記オブジェクトの修正された前記インスタンスの対応する少なくとも一部に漸進的に遷移することであり、
前記画像フレームの前記シーケンスの第２のサブシーケンスに亘って、前記オブジェクトの修正された前記インスタンスの少なくとも一部から前記オブジェクトの修正された前記インスタンスの対応する少なくとも一部に漸進的に遷移するために前記ビデオデータを更に修正することを備える、請求項１～１１のいずれか一項に記載のコンピュータ実行方法。

【請求項13】

前記オブジェクトの修正された前記インスタンスを生成することは、
前記オブジェクトの分離された前記インスタンスを使用して、前記オブジェクトの合成モデルのパラメータ値を決定することと、
前記オブジェクトの前記合成モデルのパラメータ値を修正することと、
訓練された前記機械学習モデル及び前記オブジェクトの前記合成モデルの修正された前記パラメータ値を使用して、前記オブジェクトの修正された前記インスタンスをレンダリングすることと、
を備える、請求項１～１２のいずれか一項に記載のコンピュータ実行方法。

【請求項14】

前記画像フレームの前記シーケンスは、前記画像フレームの第１のシーケンスであり、前記オブジェクトの前記インスタンスは、前記オブジェクトの第１のインスタンスであり、前記オブジェクトの前記インスタンスの前記パラメータ値は、前記オブジェクトの第２のインスタンスについての第２のパラメータ値であり、
前記画像フレームの複数の第２のシーケンス内で前記オブジェクトの各々の前記第２のインスタンスを識別することと、
前記オブジェクトの識別された前記第２のインスタンスの少なくともいくつかについて、
前記オブジェクトの前記インスタンスを含む前記画像フレーム内で前記オブジェクトの前記第２のインスタンスを分離することと、
前記オブジェクトの分離された前記第２のインスタンスを使用して、前記オブジェクトの前記合成モデルの関連する前記第２のパラメータ値を決定することと、
前記オブジェクトの分離された前記第２のインスタンス及び前記オブジェクトの前記合成モデルの関連する前記第２のパラメータ値を使用して、前記オブジェクトの前記合成モデルの関連する第２のパラメータ値に少なくとも部分的に基づいて、前記オブジェクトの分離された前記第２のインスタンスを再構築するために、前記機械学習モデルを訓練することと、
を更に備える、請求項１３に記載のコンピュータ実行方法。

【請求項15】

プログラムがコンピュータによって実行されるとき、請求項１～１４のいずれか一項に記載の方法を前記コンピュータに実行させる命令を備えるコンピュータプログラム製品。

【請求項16】

ビデオデータを記憶する非一時的な記憶媒体であって、前記ビデオデータは、
オブジェクトの写真表現を含む画像フレームの第１のシーケンスと、
前記オブジェクトの前記写真表現の少なくとも一部が前記オブジェクトの合成表現の対応する少なくとも一部に置換される前記画像フレームの第２のシーケンスと、
前記画像フレームの前記第１のシーケンスと前記画像フレームの前記第２のシーケンスとの間の前記画像フレームの第３のシーケンスであって、前記画像フレームの前記第１のシーケンスの最後にある前記オブジェクトの前記写真表現の少なくとも一部と前記画像フレームの前記第２のシーケンスの最初にある前記オブジェクトの前記合成表現の対応する少なくとも一部との間で漸進的に遷移するために、前記オブジェクトの前記写真表現の少なくとも一部が修正された、第３のシーケンスと、
を含む、非一時的な記憶媒体。

【請求項17】

前記オブジェクトの前記合成表現は、ニューラルレンダラーを使用して生成された合成表現である、請求項１６に記載の非一時的な記憶媒体。

【請求項18】

前記オブジェクトの前記写真表現の少なくとも一部を修正することは、前記オブジェクトの前記写真表現の少なくとも一部の前記オブジェクトの前記合成表現の少なくとも一部へのワーピング及びディゾルブを同時に行うことを備え、
前記ワーピングは、所定のワーピングレートで段階的に行われ、
前記ディゾルブは、所定のディゾルブレートで段階的に行われ、
前記ワーピングレートに対する前記ディゾルブレートの比は、前記画像フレームの前記第３のシーケンス内で最大値まで増加した後に減少する、請求項１６又は１７に記載の非一時的な記憶媒体。

【請求項19】

前記オブジェクトの前記合成表現は、前記オブジェクトの第１の合成表現であり、
前記オブジェクトの前記写真表現の少なくとも一部を修正することは、前記オブジェクトの第２の合成表現と前記オブジェクトの前記第１の合成表現との間を段階的に補間することを備え、
前記オブジェクトの前記第２の合成表現は、前記オブジェクトの前記写真表現に幾何学的に対応する、請求項１６～１８のいずれか一項に記載の非一時的な記憶媒体。

【請求項20】

前記オブジェクトは人間の顔である、請求項１６～１９のいずれか一項に記載の非一時的な記憶媒体。

【請求項21】

前記オブジェクトの分離されたインスタンスの少なくとも一部は、人間の顔の口を含むが目を除く、請求項１９に記載の非一時的な記憶媒体。

【請求項22】

請求項１～１４のいずれかに記載の方法を使用して製造されたオーディオビジュアル製品。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映画内のオブジェクト又はオブジェクトの一部を修正することに関する。本発明は、外国語長編映画の視覚的ダビングに特に関連するが、それに限定されるものではない。

【背景技術】

【0002】

実写長編映画の制作（映画制作）は、時間のかかる高価なプロセスであり、典型的には、時間及び資源に関する厳しい制約の下で多数の相互依存的なタスクを実行する多数の熟練した専門家の関与を必要とする。典型的な映画制作プロセスは、複数の撮影にまたがる制作段階を含み、そこでは、映画の各シーンの複数のテイクについて、（音声を伴う）生のビデオ映像が撮影される。撮影後の段階では、オフライン編集を行うために、編集者や監督によって選択された部分が組み立てられる前に生の映像がコピーされるとともに圧縮される。その後、オフライン編集に対応する生のビデオ映像のセクションを取得し、音声が混合され、編集され、必要に応じて再録音される間に必要に応じて視覚効果（ＶＦＸ）が適用される。映画のマスターコピーが納品される前に、出来上がった映像及び音声は、カラーグレーディングのような追加工程を行ってもよい仕上げ段階に入る。

【0003】

映画製作プロセスに関わる作業の高コスト及び相互依存性並びに典型的な時間的制約及び天候及び俳優の利用可能性のような要因の変動性は、映画のシーンを撮り直すことがほとんど実行可能でないことを意味する。したがって、映画を、必要に応じてＶＦＸが適用される最初の制作段階で作成された映像から構成する必要がある。制作段階は、典型的には、何百時間もの高解像度の生のビデオ映像を生成するが、最終的に映画に使用されるのはそのうちのごく一部である。生の映像は、俳優の（一つ以上の）演技及び天候、背景、照明等のような条件の望ましい組み合わせを捉えていない可能性があり、条件を、ＶＦＸ段階及び仕上げ段階中に限られた範囲でのみ修正することができる。

【発明の概要】

【発明が解決しようとする課題】

【0004】

映画制作プロセスが完了するとき、映画のマスターコピーは、映画館、ストリーミングサービス、テレビ等での上映用に配信される。映画によっては、外国語版がオリジナル映画と並行して制作され、外国語版がオリジナル映画と同時に配信されることもある。映画の外国語版は、典型的には、希望の言語で台詞を再現するためにテキスト字幕又は音声ダビングを使用する。いずれの場合も、外国語版はオリジナル映画のニュアンス及びクオリティの多くを失うと一般的に受け止められている。

【課題を解決するための手段】

【0005】

第１の態様によれば、複数の画像フレームのシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンスの少なくともいくつか内のオブジェクトの各々のインスタンスを識別することを有する。オブジェクトの識別されたインスタンスの少なくともいくつかについて、方法は、オブジェクトの前記インスタンスを含む画像フレーム内でオブジェクトの前記インスタンスを分離することと、オブジェクトの分離されたインスタンスを使用して、オブジェクトの合成モデルの関連するパラメータ値を決定することと、を有する。方法は、オブジェクトの合成モデルの関連するパラメータ値に少なくとも部分的に基づいて、分離されたオブジェクトのインスタンスを再構成するために、機械学習モデルを訓練することを有する。方法は、画像フレームの第１のシーケンス内に出現するオブジェクトの第１のインスタンス及びオブジェクトの合成モデルに対する関連する第１のパラメータ値について、第１のパラメータ値を修正することと、訓練された機械学習モデル及びオブジェクトの合成モデルに対する修正された第１のパラメータ値を使用して、オブジェクトの修正された第１のインスタンスをレンダリングすることと、画像フレームの第１のシーケンス内のオブジェクトの第１のインスタンスの少なくとも一部を、オブジェクトの修正された第１のインスタンスの対応する少なくとも一部に置換することと、を有する。

【0006】

ビデオデータ内から分離されたオブジェクトのインスタンスを再構成するために機械学習モデルを訓練することによって、本方法論は、従来のＶＦＸの能力を超えるビデオデータの写真のようにリアルな描写の「ディープ編集」を可能にする。画像フレームの複数のシーケンスは、例えば、長編映画内のシーンの様々なテイクの映像に対応してもよく、比較的一貫した照明／環境条件下で機械学習モデルに豊富な学習データを提供することができる。画像フレームの第１のシーケンスは、画像フレームの複数のシーケンスのうちの一つであってもよい又は画像フレームの複数のシーケンスのうちの一つでなくてもよい。方法論は、映画制作パイプラインへの統合に適しており、機械学習モデルの訓練は、オフライン編集プロセスと並行して行われ、オフライン編集プロセスと同一のビデオデータを使用する可能性がある。

【0007】

オブジェクトは、特定の人間の顔であってもよく、この場合、方法を、映画の外国語版の視覚ダビング又は特定のシーンの特定のテイクの俳優の演技を同一のシーンの別のテイク、別のシーン若しくは別の映画に移し替える演技移し替えのような用途に使用してもよい。オブジェクトの少なくとも一部は、口を含むが目を除く人間の顔の一部であってもよい。本発明者は、顔のこの領域のみを置換することによって俳優の演技への影響を最小限に抑えながらリアルな視覚ダビング又は演技の移し替えを実現できることを見い出した。

【0008】

第１のパラメータ値を修正することは、オブジェクトの合成モデルに対する目標パラメータ値を決定することと、画像フレームの第１のシーケンスのサブシーケンスに亘って第１のパラメータ値と目標パラメータ値との間を漸進的に補間することと、を有してもよい。補間は、線形補間及び／又は非線形補間を有してもよい。このようにして、元の第１のインスタンスを、平滑で継ぎ目のない様式で、修正された第１のインスタンスに漸進的に遷移できるようにしてもよい。さらに、元の第１のインスタンスからの修正された第１のインスタンスの偏差を、オブジェクトインスタンスの連続的なディープ編集を可能にするために増大及び減少させることができる。例えば、第１のインスタンスを修正する目的がオーディオトラックと一致させることである場合、偏差は、元の第１のインスタンスとオーディオトラックとの間の不一致が最も顕著になるときに最大になり得る。これにより、所望の結果を達成しながら元の映像において知覚される影響を最小限に抑えることができる。

【0009】

上述したように第１のパラメータ値が漸進的に補間される例において、コンピュータ実行方法は、画像フレームのシーケンス及び／又は画像フレームの第１のシーケンスに関連付けられたオーディオトラックにおいてイベントを検出することと、検出されたイベントが発生する画像フレームの第１のシーケンスの一つ以上の画像フレームを決定することと、検出されたイベントが発生する決定された一つ以上の画像フレームに応じて、画像フレームの第１のシーケンスのサブシーケンスを決定することと、を更に有してもよい。例えば、画像フレームの第１のシーケンスのサブシーケンスを、イベントが発生する前にサブシーケンスが終了するように決定してもよい。したがって、オブジェクトの第１のインスタンスは、イベント発生時に最大の修正を受ける可能性がある。視覚ダビングとの関連で、イベントは、例えば、第一言語又は第二言語のいずれかで破裂音又は両唇鼻音が発声されるイベントであってもよく、その理由は、これが第一言語と第二言語との間の視覚的不一致が最も顕著になるときであるからである。

【0010】

機械学習モデルは、出力画像を生成するために一つ以上の入力画像を処理するように構成されたディープニューラルネットワークを有してもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、オブジェクトのインスタンスを分離することは、オブジェクトのインスタンスを含む前記画像フレームの各々の登録された部分を生成することを有してもよく、機械学習モデルを訓練することは、前記オブジェクトのインスタンスを含む前記画像フレームの各々について、前記合成モデル及び前記合成モデルの関連するパラメータ値を使用して、前記オブジェクトのインスタンスの一部の合成画像をレンダリングすることと、前記オブジェクトのインスタンスを含む前記画像フレームの各々について、各々の合成画像を生成するために、前記オブジェクトのインスタンスの前記一部の合成画像を、前記オブジェクトのインスタンスを含む前記画像フレームの各々の登録された部分に重ね合わせることと、前記オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像を処理するようにディープニューラルネットワークを敵対的に訓練することと、を有してもよい。合成画像をディープニューラルネットワークへの入力として提供することによって、ネットワークは、照明、色及び修正されるオブジェクトインスタンスの少なくとも一部の外側の領域から導出可能な他の特性を考慮する方法を学習することができ、同時に、オブジェクトインスタンスの修正された部分を元の画像フレームにシームレスに統合するための現実的な修復を実行することを学習することもできる。他の例において、合成画像に加えて又は合成画像の代替として、オブジェクトのインスタンス全体の合成画像を、ディープニューラルネットワークへの入力として提供してもよい。

【0011】

ディープニューラルネットワークは、出力画像を生成するために、一つ以上の入力画像の各々と共にアテンションマスクを処理するように構成されてもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、機械学習モデルを訓練することは、オブジェクトの前記インスタンスを含む前記画像フレームの各々について、オブジェクトの前記インスタンスの一つ以上の特徴を強調する各々のアテンションマスクを生成することと、オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像と共に各々のアテンションマスクを処理するようにディープニューラルネットワークを訓練することと、を有してもよい。ディープニューラルネットワークに独立した入力としてアテンションマスクを提供することによって、ネットワークは、アテンションマスクによって誘導されるように、合成画像の特定の領域に注意を集中させることを学習してもよい。アテンションマスクは、オブジェクトの種々の特徴を強調する一つ以上のレイヤーを有してもよい。各々のアテンションマスクは、例えば、オブジェクトのインスタンスを背景領域から分離するセグメンテーションマスク、及び／又は、オブジェクトが顔である場合の顔の特徴のような他の特徴を示すマスクを有してもよい。アテンションマスクを、合成画像と共にオブジェクトの合成モデルから生成してもよい。ディープニューラルネットワークの敵対的訓練は、アテンションマスクによって規定されたオブジェクト領域に限定された敵対的損失を使用してもよく、オブジェクト領域を忠実に再構成するためにディープニューラルネットワークの努力を集中させる。

【0012】

ディープニューラルネットワークの敵対的訓練は、敵対的損失及び一つ以上の別の損失関数、例えば、オブジェクトの分離されたインスタンスの少なくとも一つのフレームとオブジェクトの分離されたインスタンスの再構成された少なくとも一つのフレームとの間の測光差を示す知覚的損失関数又は測光的損失関数を使用してもよい。（一つ以上の）別の損失関数を、各々のアテンションマスクによって規定されるオブジェクト領域に限定してもよい。測光的損失及び／又は知覚的損失を敵対的損失と組み合わせて使用することにより、ネットワークは、オブジェクトの元のインスタンスの写真のようにリアルな描写の再構成を生成することを教示する。測光的損失は、小さな測光差の寄与を低減するように修正されたＬ２損失であってもよく、本発明者は、ディープニューラルネットワークによって生成されるレンダリングにおけるアーティファクトを低減することを見い出した。

【0013】

ディープニューラルネットワークは、出力画像を生成するために、一つ以上の入力画像の各々と共に投影ＳＴマップを処理するように構成されてもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、機械学習モデルを訓練することは、オブジェクトの前記インスタンスを含む前記画像フレームの各々について各々の投影ＳＴマップを生成することであって、各々の投影ＳＴマップは、オブジェクトの合成モデルのテクスチャ座標に対応する画素値を有することと、オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像と共に各々の投影ＳＴマップを処理するようにディープニューラルネットワークを訓練することと、を有してもよい。投影ＳＴマップは、ディープニューラルネットワークがオブジェクトの表面領域を合成画像の位置に関連付けるために使用することができる入力を提供してもよく、オブジェクトのインスタンスを正確に再構成するために、ディープニューラルネットワークの能力を高める。

【0014】

ディープニューラルネットワークは、出力画像を生成するために、一つ以上の入力画像の各々と共に投影ノイズマップを処理するように構成されてもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、機械学習モデルを訓練することは、オブジェクトの前記インスタンスを含む前記画像フレームの各々について各々の投影ノイズマップを生成することであって、各々の投影ノイズマップは、オブジェクトの合成モデルに適用されるノイズテクスチャの値に対応する画素値を有することと、オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像と共に各々の投影ノイズマップを処理するようにディープニューラルネットワークを訓練することと、を有してもよい。投影ノイズマップは、ディープラーニングモデルがそのレンダリング出力内で空間依存テクスチャを構築することを学習することができる追加の入力を提供する。

【0015】

コンピュータ実行方法は、オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、オブジェクトの分離されたインスタンスを色正規化することを有してもよく、機械学習モデルの訓練は、オブジェクトの色正規化した分離されたインスタンスを使用してもよい。分離されたインスタンスを色正規化することにより、学習データ全体を通して同様の照明条件がシミュレートされ、機械学習モデルのタスクが簡素化される。

【0016】

例において、オブジェクトの各々のインスタンスを識別することは、オブジェクトのインスタンスが画像フレームと共平面の軸に対して所定の範囲外の角度だけ回転している画像フレームを破棄することを有してもよい。場合によっては、全ての可能な向きでオブジェクトのインスタンスを再構成するために機械学習モデルを訓練することが困難なことがある。この問題に対処するため、方法は、異なる視点からのオブジェクトのビューを全く異なるオブジェクトとして扱い、それに応じて、これらのために別々のモデルを訓練してもよい。

【0017】

オブジェクトの識別されたインスタンスの前記少なくともいくつかに対する合成モデルの関連するパラメータ値は、オブジェクトのベースジオメトリをエンコードするベースパラメータ値と、オブジェクトのインスタンスを含む各前記画像フレームについてオブジェクトのベースジオメトリの変形をエンコードする変形パラメータ値と、を有してもよい。そして、合成モデルの第１のパラメータ値は、画像フレームの第１のシーケンスの画像フレームの各々についてオブジェクトのベースジオメトリの各々の変形をエンコードする第１の変形パラメータ値を有してもよい。第１のパラメータ値を修正することは、第１の変形パラメータ値を修正することを有してもよい。いくつかの使用例において、オブジェクトの所望の修正は、非剛体オブジェクトの変形であり、この場合、変形パラメータ値のみを修正する必要があってもよい。

【0018】

第１の変形パラメータ値を修正することは、第２のオブジェクト（第２のオブジェクトは、第１のオブジェクトと同一のオブジェクトであってもよい又は第１のオブジェクトとは異なるオブジェクトであってもよい）のインスタンスを含む画像フレームの第２のシーケンスを取得することと、分離された第２のインスタンスデータを生成するために、画像フレームの第２のシーケンス内で第２のオブジェクトのインスタンスを分離することと、分離された第２のインスタンスデータを使用して、合成モデルの第２のパラメータ値を決定することであって、第２のパラメータ値は、画像フレームの前記第２のシーケンスの画像フレームの各々に対する第２のオブジェクトのベースジオメトリの変形をエンコードする第２の変形パラメータ値を含むことと、第２の変形パラメータ値を使用して第１の変形パラメータ値を更新することと、を有してもよい。このようにして、画像フレームの第２のシーケンスは、第１の変形パラメータ値を修正するためのドライビングデータとして使用される。視覚ダビングの場合、第２のオブジェクトは、典型的には、ダビングを行う俳優の顔に対応する。演技の移し替えの場合、第２のオブジェクトは、典型的には、元の俳優の顔に対応する。

【0019】

画像フレームの第１のシーケンスは、画像フレームの複数のシーケンスよりも高い解像度であってもよい。この場合、オブジェクトの修正された第１のインスタンスをレンダリングすることは、複数の画像フレームと一致する解像度で中間的な第１のインスタンスをレンダリングすることと、修正された第１のインスタンスをレンダリングするために中間的な第１のインスタンスに超解像ニューラルネットワークを適用することと、を有してもよい。これにより、機械学習モデルを低解像度の画像データを使用して訓練することが可能になり、訓練の計算要求が大幅に低減され、同時に、高解像度のビデオデータに組み込むのに適した高解像度のレンダリングを生成することが可能になる。

【0020】

オブジェクトの第１のインスタンスは、オブジェクトの識別されたインスタンスのうちの前記少なくともいくつかのインスタンスのいずれとも異なる形態であってもよく、この場合、方法は、画像フレームの第１のシーケンスを取得することと、画像フレームの第１のシーケンス内でオブジェクトの前記第１のインスタンスを分離することと、オブジェクトの分離された第１のインスタンスを使用して、オブジェクトの合成モデルのための第１のパラメータ値を決定することと、を更に有してもよい。代替的には、オブジェクトの第１のインスタンスは、オブジェクトの識別されたインスタンスの前記少なくともいくつかのうちの一つであってもよい。

【0021】

第２の態様によれば、複数の画像フレームのシーケンスを含むソースビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンスの少なくともいくつか内でオブジェクトの各々のインスタンスを検出することと、画像フレームの第１のシーケンス内で検出されたオブジェクトの第１のインスタンスについて、画像フレームの第１のシーケンスのオブジェクトの第１のインスタンスのフレーム単位の位置及びサイズを決定することと、オブジェクトの修正されたインスタンスを含む置換ビデオデータを取得するために、ニューラルレンダラを使用することと、画像フレームの第１のシーケンスのオブジェクトの第１のインスタンスの少なくとも一部をオブジェクトの修正されたインスタンスの少なくとも一部に置換するために、決定されたフレーム単位の位置及びサイズを使用することと、を有する。

【0022】

置換ビデオデータを取得することは、ソースビデオデータの画像フレームの各々のシーケンス内で検出されたオブジェクトの一つ以上のインスタンスの各々について、オブジェクトの各々のインスタンスの３次元合成モデルを生成するために、画像フレームのシーケンスの各々の画像フレームの各々の少なくとも一部を処理することと、オブジェクトの各々のインスタンスの３次元合成モデルから合成画像の各々のシーケンスを生成することと、合成画像の各々のシーケンスを使用してオブジェクトの各々のインスタンスを再構成するために、ニューラルレンダラを訓練することと、を有してもよい。オブジェクトの第１のインスタンスの３次元合成モデルについて、方法は、３次元合成モデルを修正することと、修正された３次元合成モデルから合成画像の第１のシーケンスを生成することと、訓練されたニューラルレンダラ及び生成された合成画像の第１のシーケンスを使用して置換ビデオデータを生成することと、を有してもよい。

【0023】

方法は、オブジェクトの一つ以上のインスタンスの各々について、画像フレームの各々のシーケンス内のオブジェクトの各々のインスタンスを含むボックスのフレーム単位の位置を決定することと、画像フレームのシーケンスの各々の画像フレームの各々の少なくとも一部を、ボックス内に含まれる部分として決定することと、を有してもよい。方法は、画像フレームの各々のシーケンスの全ての画像フレームについて、各々のインスタンスがボックス内に含まれるように、ボックスのサイズを決定することを更に有してもよい。

【0024】

オブジェクトの一つ以上のインスタンスの各々について、３次元合成モデルを生成することは、オブジェクトの各々のインスタンスのランドマークを追跡することと、追跡されたランドマークの位置に応じて、３次元合成モデルを生成することと、を有してもよい。

【0025】

方法は、オブジェクトの一つ以上のインスタンスの各々について、生成された３次元合成モデルを使用して、画像フレームの各々のシーケンスの画像フレームの各々についてオブジェクトの各々のインスタンスのポーズを決定することと、画像フレームのシーケンスの各々の画像フレーム各々について決定されたポーズを使用して、画像フレームのシーケンスの各々の画像フレーム間で略一定のサイズになるようにオブジェクトの各々のインスタンスを正規化することと、を有してもよい。

【0026】

オブジェクトは、第１のオブジェクトであってもよく、方法は、画像フレームのシーケンスの少なくともいくつか内でオブジェクトの各々のインスタンスを検出することと、オブジェクトの検出されたインスタンスの識別子を決定するために、オブジェクト認識を実行することと、第１のオブジェクトの複数のインスタンスの各々を共通の識別子を有するものとして識別することと、共通の識別子を有するものとして識別された第１のオブジェクトの複数のインスタンスの各々を再構成するために、ニューラルレンダラを訓練することと、を有してもよい。

【0027】

オブジェクトは、人間の顔であってもよく、オブジェクトの第１のインスタンスの前記少なくとも一部は、口を含むとともに目を除く顔の一部であってもよい。オブジェクトが顔である例において、３次元合成モデルを修正することは、発話を含むオーディオ及び／又はビデオの記録を含むドライビングデータを取得することと、発話に対応する３次元合成モデルの修正パラメータ値を決定するために、ドライビングデータを処理することと、３次元合成モデルを修正するために、修正パラメータ値を使用することと、を有してもよい。例えば、オブジェクトの第１のインスタンスは、第一言語で話す顔のインスタンスであってもよく、オーディオ及び／又はビデオの記録は、第一言語とは異なる第二言語による発話であってもよい。

【0028】

３次元合成モデルを修正することは、ドライビングデータにおいて発話が行われているときに応じて、３次元合成モデルのための修正されていないパラメータ値と３次元モデルのための修正されたパラメータ値との間を漸進的に遷移することを有してもよい。このようにして、表現の急激な変化を回避することができる。例えば、ドライビングデータにおける無関係な表情が処理後のビデオデータに出現することを回避するために、ドライビングデータにおいて発話が検出されたときにのみ修正パラメータ値を使用することが好適であることがある。例えば、ドライビングデータにおける発話に先行する時刻又は発話に後続する時刻において修正されていないパラメータ値の間で漸進的に遷移すること又はドライビングデータにおける発話に先行する時刻又は発話に後続する時刻において中立的な表情に対応するパラメータ値の間で漸進的に遷移することが好適であることがある。

【0029】

３次元合成モデルを修正することは、画像フレームの第１のシーケンスにおいて顔が話しているときを判定することと、画像フレームの第１のシーケンスにおいてオブジェクトの第１のインスタンスが話していると判定したときに、３次元合成モデルの口の動きの振幅を低減することと、を有してもよい。例えば、第一言語の俳優が話しているが、第二言語の俳優が話していないときに、第一言語の俳優の口の動きを抑制してもよい。

【0030】

３次元合成モデルを修正することは、ドライビングデータで検出された破裂音又は両唇鼻音に一致するように３次元合成モデルの口形状を修正することを有してもよい。破裂音又は両唇鼻音中の不正確な口形状は、視聴者にとって特に検出しやすく、したがって、これらの瞬時における合成モデルの正確な制御が特に適切であることがある。

【0031】

上記の方法のいずれかは、オブジェクトの修正されたインスタンスの少なくとも一部のフレーム単位の形状を示すマスクデータを取得することを有してもよく、所定のオブジェクトの少なくとも第１のインスタンスを所定のオブジェクトの置換されたインスタンスの少なくとも一部に置換することは、マスクデータを使用してもよい。例えば、マスクデータは、第１のマスクデータであってもよく、方法は、オブジェクトの第１のインスタンスの少なくとも一部のフレーム単位の形状を示す第２のマスクデータを取得することを有してもよい。オブジェクトの第１のインスタンスの少なくとも一部をオブジェクトの修正されたインスタンスの少なくとも一部に置換することは、第１のマスクデータと第２のマスクデータとの間の比較に基づいて、オブジェクトの第１のインスタンスの少なくとも一部の境界がオブジェクトの修正されたインスタンスの少なくとも一部の境界を超えると判定することと、オブジェクトの第１のインスタンスの少なくとも一部の境界とオブジェクトの修正されたインスタンスの少なくとも一部との間の画像フレームのシーケンス領域においてクリーンな背景生成を実行することと、を有してもよい。クリーンな背景生成は、修正されたインスタンスによる置換後に第１のインスタンスの意図しないアーティファクトが残る場合にオブジェクトの修正されたインスタンスのもっともらしい挿入を可能にすることがある。

【0032】

方法は、オブジェクトの第１のインスタンスのカラーパレットを、画像フレームのシーケンス全体を通して一貫するように調整することを有してもよい。これによって、照明の変化等に起因するカラーパレットの変動をモデル化する必要がなくなるので、機械学習モデル又はニューラルレンダラのタスクが簡素化される可能性がある。

【0033】

オブジェクトの第１のインスタンスの少なくとも一部をオブジェクトの修正されたインスタンスの少なくとも一部に置換することは、置換された部分と基礎となる画像フレームとの間の緩やかなブレンドを達成するために、オブジェクトの修正されたインスタンスの少なくとも一部のエッジを和らげることを有してもよい。

【0034】

上述した方法のいずれかについて、オブジェクトの第１のインスタンスの少なくとも一部を置換することは、時間窓内に入る画像フレームの第１のシーケンスのサブセットについて、オブジェクトの第１のインスタンスとオブジェクトの修正された第１のインスタンスとを関連付けるワーピングを推定するオプティカルフローデータを決定することと、オブジェクトの段階的にワーピングした第１のインスタンスを決定するために、画像フレームの第１のシーケンスのサブセットに亘って、推定されたワーピングをオブジェクトの第１のインスタンスに段階的に適用することと、オブジェクトの段階的にワーピングした修正された第１のインスタンスを決定するために、画像フレームの第１のシーケンスのサブセットに亘って、推定されたワーピングの逆をオブジェクトの修正された第１のインスタンスに段階的に適用することと、画像フレームの第１のシーケンスのサブセットに亘って、オブジェクトの段階的にワーピングした第１のインスタンスをオブジェクトの段階的にワーピングした修正された第１のインスタンスに段階的にディゾルブすることと、を有する。画像を段階的にワーピング及びディゾルブすることにより、段階的な変化が見えるような状況において、修正された第１のインスタンスを画像フレームの第１のシーケンスにシームレスに組み込むことが可能になる。

【0035】

段階的にディゾルブすることは、所定のディゾルブレートで行われてもよく、推定されたワーピング及び推定されたワーピングの逆を段階的に適用することは所定の、ワーピングレートで行われてもよい。ワーピングレートに対するディゾルブレートの比は、画像フレームのシーケンスのサブシーケンス内で最大値まで増加した後に減少してもよい。このようにして、段階的にディゾルブすることを、例えば、サブセットの画像フレームの中心セット内に集中してもよい。本発明者は、このようにディゾルブを集中させることによってオブジェクトの第１のインスタンスとオブジェクトの修正された第１のインスタンスとの間の更にシームレスな遷移を達成することができ、ワーピングの間に画像の鮮明さを維持することができることを見い出した。

【0036】

上述した方法のいずれかについて、オブジェクトの第１のインスタンスの少なくとも一部を置換することは、オブジェクトの第１のインスタンスとオブジェクトの修正された第１のインスタンスとを関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、オブジェクトのワーピングした第１のインスタンスを決定するために、推定されたワーピングをオブジェクトの第１のインスタンスに適用することと、オブジェクトのワーピングした第１のインスタンスをぼかすことと、オブジェクトの修正された第１のインスタンスをぼかすステップと、オブジェクトのカラーグレーディングした修正された第１のインスタンスを生成するために、オブジェクトのぼかされているワーピングした第１のインスタンスとオブジェクトのぼかされている修正された第１のインスタンスの画素単位の比に基づいて、オブジェクトの修正された第１のインスタンスの色を調整することと、オブジェクトの第１のインスタンスの少なくとも一部を、オブジェクトのカラーグレーディングした修正された第１のインスタンスの対応する少なくとも一部に置換することと、を有する。ぼかされているワーピングした第１のインスタンスとぼかされている修正された第１のインスタンスの画素単位の比は、修正された第１のインスタンスの色をオブジェクトの元の第１のインスタンスに一致させるためのカラーグレーディングマップを表し、オブジェクトの修正された第１のインスタンスに照明及び色の短いスケールの局所的な変化を再現することを可能にする。オブジェクトのワーピングしたインスタンスをぼかすこと及びオブジェクトの修正されたインスタンスをぼかすことを、３～２０画素の固有長スケールを有するぼかしフィルタを使用して実行してもよい。

【0037】

上述した方法のいずれかについて、オブジェクトの第１のインスタンスの少なくとも一部を置換することは、オブジェクトの第１のインスタンスとオブジェクトの修正された第１のインスタンスとを関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、オブジェクトのワーピングした第１のインスタンスを決定するために、推定されたワーピングをオブジェクトの第１のインスタンスに適用することと、オブジェクトのワーピングした第１のインスタンスをぼかすことと、オブジェクトの修正された第１のインスタンスをぼかすことと、オブジェクトのカラーグレーディングした修正されたインスタンスを生成するために、オブジェクトのぼかされているワーピングしたインスタンスとオブジェクトのぼかされている修正されたインスタンスとの画素単位の比に基づいて、オブジェクトの修正された前記インスタンスの色を調整することと、オブジェクトの第１のインスタンスの少なくとも一部を、オブジェクトのカラーグレーディングした修正された第１のインスタンスの対応する少なくとも一部に置換することと、を有する。ぼかされているワーピングした第１のインスタンスとぼかされている修正された第１のインスタンスの画素単位の比は、修正された第１のインスタンスの色をオブジェクトの元の第１のインスタンスに一致させるためのカラーグレーディングマップを表し、オブジェクトの修正された第１のインスタンスに照明及び色の短いスケールの局所的な変化を再現することを可能にする。オブジェクトのワーピングしたインスタンスをぼかすこと及びオブジェクトの修正されたインスタンスをぼかすことを、３～２０画素の固有長スケールを有するぼかしフィルタを使用して実行してもよい。

【0038】

第３の態様によれば、画像フレームの複数のシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンスの少なくともいくつか内でオブジェクトの各々のインスタンスを識別することを有する。オブジェクトの識別されたインスタンスの少なくともいくつかについて、方法は、オブジェクトの前記インスタンスを含む画像フレーム内でオブジェクトの前記インスタンスを分離することと、オブジェクトの分離されたインスタンスを使用して、オブジェクトの合成モデルの関連パラメータ値を決定することと、を有する。方法は、オブジェクトの合成モデルの関連パラメータ値に少なくとも部分的に基づいて、分離されたオブジェクトのインスタンスを再構成するために機械学習モデルを訓練することを有する。

【0039】

第４の態様によれば、オブジェクトの第１のインスタンスを含む画像フレームの第１のシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームの第１のシーケンス内でオブジェクトの前記第１のインスタンスを分離することと、オブジェクトの分離された第１のインスタンスを使用して、オブジェクトの合成モデルのための第１のパラメータ値を決定することと、第１のパラメータ値を修正することと、訓練された機械学習モデル及び修正された第１のパラメータ値を使用して、オブジェクトの修正された第１のインスタンスをレンダリングすることと、画像フレームの第１のシーケンス内のオブジェクトの第１のインスタンスの少なくとも一部を、オブジェクトの修正された第１のインスタンスの対応する少なくとも一部に置換することと、を有する。

【0040】

第５の態様によれば、画像フレームのシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンス内でオブジェクトのインスタンスを分離することと、機械学習モデルを使用して、オブジェクトの修正されたインスタンスを生成することと、画像フレームのシーケンスのサブシーケンスに亘って、オブジェクトの分離されたインスタンスの少なくとも一部とオブジェクトの修正されたインスタンスの対応する少なくとも一部との間で漸進的に遷移するようにビデオデータを修正することと、を有する。

【0041】

画像フレームのシーケンスのサブシーケンスは、画像フレームのシーケンスの第１のサブシーケンスであってもよく、前記ビデオデータを修正することは、オブジェクトの分離されたインスタンスの少なくとも一部からオブジェクトの修正されたインスタンスの対応する少なくとも一部に漸進的に遷移することであってもよい。方法は、画像フレームのシーケンスの第２のサブシーケンスに亘って、オブジェクトの修正されたインスタンスの少なくとも一部からオブジェクトの分離されたインスタンスの対応する少なくとも一部に戻るように漸進的に遷移するようにビデオデータを修正することを更に有してもよい。このようにして、方法は、例えば、ビデオデータ及び／又は関連するオーディオデータ内の特定のイベントに応じて、オブジェクトの分離されたインスタンスからオブジェクトの修正されたインスタンスまで平滑に又は漸進的に遷移して再び戻るようにしてもよい。

【0042】

第６の態様によれば、ビデオデータを記憶する非一時的な記憶媒体を提供する。ビデオデータは、オブジェクトの写真表現を含む画像フレームの第１のシーケンスと、オブジェクトの写真表現の少なくとも一部がオブジェクトの合成表現の対応する少なくとも一部に置換される画像フレームの第２のシーケンスと、画像フレームの第１のシーケンスと画像フレームの第２のシーケンスとの間の画像フレームの第３のシーケンスと、を含む。画像フレームの第３のシーケンスにおいて、画像フレームの第１のシーケンスの最後にあるオブジェクトの写真表現の少なくとも一部と、画像フレームの第２のシーケンスの最初にあるオブジェクトの合成表現の対応する少なくとも一部との間で漸進的に遷移するために、オブジェクトの写真表現の少なくとも一部が修正される。

【0043】

オブジェクトの写真表現の少なくとも一部を修正することは、オブジェクトの写真表現の少なくとも一部のオブジェクトの合成表現の少なくとも一部へのワーピング及びディゾルブを同時に行うことを有してもよい。ワーピングを、所定のワーピングレートで段階的に行ってもよく、ディゾルブを、所定のディゾルブレートで段階的に行ってもよく、ワーピングレートに対するディゾルブレートの比は、画像フレームの第３のシーケンス内で最大値まで増加した後に減少してもよい。これにより、ディゾルブを、サブシーケンスの画像フレームの中心セット内に集中することができ、オブジェクトの写真表現とオブジェクトの合成表現との間のシームレスな移行を達成することができるのと同時にワーピングの間に画像の鮮明さを維持することができる。

【0044】

オブジェクトの合成表現は、オブジェクトの第１の合成表現であってもよく、オブジェクトの写真表現の少なくとも一部を修正することは、オブジェクトの第２の合成表現とオブジェクトの第１の合成表現との間を段階的に補間することを有してもよく、オブジェクトの第２の合成表現は、オブジェクトの写真表現に幾何学的に対応する。したがって、オブジェクトの写真表現を、合成表現を修正又は変形する前に、幾何学的に対応する合成表現に置換することができる。合成表現を、写真表現で実現不可能な方法で変形又は修正してもよい。写真表現及び合成表現を空間的又は幾何学的に位置合わせすることによって、写真表現を修正する効果を得ることができる。

【0045】

第７の態様によれば、上述した方法のいずれかを実行するための手段を備えるデータ処理システムを提供する。データ処理システムは、一つ以上のプロセッサ及びメモリを有してもよく、メモリは、一つ以上のプロセッサによって実行されるときに、一つ以上のプロセッサに上述の方法のいずれかを実行させる機械可読命令を記憶する。

【0046】

第８の態様によれば、プログラムがコンピュータによって実行されるときに、コンピュータに上述の方法のいずれかを実行させる命令を含むコンピュータプログラム製品（例えば、非一時的な記憶媒体に記憶されたコンピュータプログラム）を提供する。

【0047】

第９の態様によれば、上述した方法のいずれかを使用して製造されたオーディオビジュアル製品を提供する。

【0048】

本発明の更なる特徴及び利点は、添付図面を参照することによって例としてのみ与えられる本発明の好適な実施形態の以下の説明から明らかになる。

【図面の簡単な説明】

【0049】

【図1】図１は、実施例による配置されたデータ処理システムを概略的に示す。

【0050】

【図2】図２は、実施例による機械学習モデルを訓練する方法を概略的に示す。

【0051】

【図3】図３は、画像フレームのシーケンスから分離されるオブジェクトのインスタンスの例を示す。

【0052】

【図4】図４は、実施例によるディープニューラルネットワークモデルを訓練する方法を概略的に示す。

【0053】

【図5A】図５Ａは、ディープニューラルネットワークへの入力の例を示す。

【図5B】図５Ｂは、ディープニューラルネットワークへの入力の例を示す。

【図5C】図５Ｃは、ディープニューラルネットワークへの入力の例を示す。

【0054】

【図6】図６は、画像フレームのシーケンスのオブジェクトのインスタンスを修正する方法を概略的に示す。

【0055】

【図7】図７は、ビデオドライビングデータに基づいてオブジェクトのインスタンスを修正する例を模式的に示す。

【0056】

【図8】図８は、図４のディープニューラルネットワークを使用して画像フレームのシーケンスのオブジェクトのインスタンスを修正する方法を概略的に示す。

【0057】

【図9】図９は、実施例による程度を変化させることによってオブジェクトのインスタンスを修正する例を示す。

【0058】

【図10】図１０は、実施例による画像フレームのシーケンスのオブジェクトのインスタンスからオブジェクトの修正されたインスタンスに遷移する方法を概略的に示す。

【0059】

【図11】図１１は、図１０の方法によるビデオデータを処理する例を示す。

【0060】

【図12】図１２は、実施例による画像フレームのシーケンスのオブジェクトのインスタンスからオブジェクトの修正されたインスタンスに遷移するときに自動カラーグレーディングを実行する方法を概略的に示す。

【0061】

【図13】図１３は、実施例による視覚ダビングを含む映画の外国語版のための映画製作パイプラインを概略的に示す。

【発明を実施するための形態】

【0062】

実施例によるシステム及び方法の詳細は、図面を参照した以下の説明から明らかになる。本明細書において、説明のために、特定の実施例の多数の具体的な詳細を記載する。本明細書において、「一実施例」又は類似の言語への言及は、実施例に関連して説明される特徴、構造又は特性が少なくともその一つの実施例に含まれるが必ずしも他の実施例に含まれるとは限らないことを意味する。さらに、特定の実施例が実施例の基礎となる概念の説明及び理解を容易にするために特定の特徴を省略及び／又は必然的に簡略化して概略的に記載されていることに留意すべきである。

【0063】

本開示の実施形態は、映画のオブジェクトを修正することに関する。本開示において、映画は、任意の形式のデジタルビデオデータ又はオーディオビジュアル製品を指す場合がある。特に、本明細書で説明する実施形態は、出力の品質という点及び関連するプロセスを映画制作ワークフローに統合するという点の両方でシームレスな方法で長編映画内のオブジェクトを修正することに関連する課題に対処する。本明細書で開示される技術は、外国語映画の視覚ダビング、映画シーン間の演技の遷移及び映画内の背景オブジェクトの修正のようなタスクに関連する方法を提供する。

【0064】

図１は、実施例によるデータ処理システム１００を概略的に示す。データ処理システム１００は、ネットワーク１０４を介してリモートデバイスと通信を行うためのネットワークインターフェース１０２を有する。データ処理システム１００は、サーバコンピュータのような単一のデバイスであってもよい、又は、複数のデバイス、例えば、ネットワークを介して接続された複数のサーバコンピュータを有してもよい。データ処理システム１００は、メモリ１０６を有し、本開示では、不揮発性記憶装置と揮発性及び不揮発性のワーキングメモリの両方を指す。メモリ１０６は、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、ニューラル処理装置（ＮＰＵ）又はニューラルネットワークアクセラレータ（ＮＮＡ）、一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）等のような任意の数の処理装置を有してもよい処理回路１０８に通信可能に結合される。

【0065】

メモリ１０６は、以下で説明する方法を実施するための様々なタイプのデータを記憶するように配置される。特に、メモリ１０６は、画像フレームのシーケンスを含むビデオデータ１１０を記憶してもよく、画像フレームのシーケンスは、一つ以上のカメラによってキャプチャされた生ビデオ映像及び／又は処理されたビデオ映像に対応してもよい。ビデオデータ１１０は、例えば、映画の制作中にキャプチャされたピクチャラッシュを有してもよい、及び／又は、圧縮された映像又は他の方法で処理された映像を有してもよい。ビデオデータ１１０は、本明細書で説明する方法を適用した結果として修正されたビデオ映像を有してもよい。

【0066】

メモリ１０６は、ビデオデータ１１０内に出現する一つ以上のオブジェクトの分離されたインスタンスを示す分離されたインスタンスデータ１１２を更に記憶してもよい。本開示において、オブジェクトのインスタンスは、広義には、画像フレームのシーケンス内にオブジェクトが途切れることなく出現することを指す。例えば、映画の所定のシーンにおいて、オブジェクトは、画像フレームの第１のシーケンス内に出現し、その後、画像フレームの第２のシーケンスにおいて塞がれ、又は、カメラの視野外に移動し、その後、画像フレームの第３のシーケンスにおいて再び出現することがあり、この場合、オブジェクトの二つのインスタンスが記録される。分離されたインスタンスデータ１１２は、ビデオデータ１１０から抽出された画像フレームのシーケンスを含んでもよい、及び／又は、インスタンスが出現するビデオフレームの各々におけるオブジェクトの位置、スケール及び／又は向きと共に所定のインスタンスがビデオデータ１１０のどの部分に出現するかを示すタイムスタンプのようなメタデータを有してもよい。分離されたインスタンスデータ１１２は、インスタンスが出現する画像フレームの各々の登録された部分、例えば、以下で更に詳しく説明するようにサイズ変更、回転及び／又は安定化してもよいバウンディングボックスを更に有してもよい。

【0067】

メモリ１０６は、ビデオデータ１１０に出現する一つ以上のオブジェクトの合成モデルをエンコードした合成モデルデータ１１４を更に記憶してもよい。オブジェクトの合成モデルは、オブジェクトの色、テクスチャ及び他の視覚的特徴だけでなく、オブジェクトの幾何学的特徴を近似してもよい。合成モデルは、所定のカメラ位置及び向きからの合成モデルのビューに対応する２次元合成画像をレンダリングすることを可能にする３次元モデルであってもよい。合成モデルは、モデルの態様を制御するための調整可能なパラメータを有してもよい。例えば、合成モデルは、特定のクラス又はタイプのオブジェクトに対応してもよく、クラス内の異なるオブジェクト及び／又はクラス内の所定のオブジェクトの異なるインスタンスに対応する種々の値を有する調整可能なパラメータを有してもよい。例えば、「人間の顔」のクラスに対する合成モデルは、合成モデルの調整可能なパラメータの値を指定することによって、人間の顔の範囲及び向き、表情等の範囲を表すことができるようにしてもよい。代替的には、合成モデルが特定のオブジェクトに対応してもよい。例えば、合成モデルは、異なる変形が合成モデルの調整可能なパラメータの異なる値に対応するような非剛体オブジェクトの変形可能なモデルであってもよい。

【0068】

メモリ１０６は、機械学習モデルに対応する機械学習モデルデータ１１６を更に記憶してもよい。機械学習モデルは、人間によって手動でプログラムする代わりにデータから学習されるパラメータ値に少なくとも部分的に基づいて出力データを生成するアルゴリズムのクラスである。本開示に特に関連するのは、以下で更に詳しく説明するように、機械学習が一つ以上のディープニューラルネットワークのパラメータ値を学習するために使用される深層学習モデルである。データ処理システム１００は、他のタスクの中で特に、オブジェクトの合成モデルのパラメータ値に少なくとも部分的に基づいて、ビデオに組み込むためのオブジェクトの写真のようにリアルな描写のインスタンスをレンダリングするために機械学習モデルを使用してもよい。機械学習データ１１６は、以下で更に詳しく説明するように、ビデオデータ１１０及び他のデータに応じて学習したパラメータ値を有してもよい。

【0069】

メモリ１０６は、本明細書に記載のコンピュータ実行方法を実施するためのルーチンを含むプログラムコード１１８を更に記憶してもよい。ルーチンは、本明細書で説明する方法の完全に自動化された実行を可能にしてよい、及び／又は、処理の様々な態様を制御するためのユーザ入力を可能にしてよい。プログラムコード１１８は、例えば、ユーザがビデオデータのオブジェクトのディープ編集を実行できるようにするためのソフトウェアツールを規定してもよい。

【0070】

図２は、実施例による機械学習モデルを訓練するためにビデオデータ２０２を処理する方法を示す。方法を、任意の適切なデータ処理システム、例えば、図１のデータ処理システム１００によって実行してもよい。機械学習モデルを、訓練されるとき、ビデオに組み込むためのオブジェクトの写真のようにリアルな描写のインスタンスを生成するために使用してもよい。ビデオデータ２０２は、画像フレームの複数のシーケンスを含み、そのうちの画像フレームのシーケンスＡ及び画像フレームのシーケンスＢを示す。画像フレームの各シーケンスは、長編映画のシーン又はシーンの一部の各々のテイクの映像に対応してもよい。ビデオデータ２１０は、映画の全てのシーンの全てのテイク（すなわち、全てのピクチャラッシュ）又はそのサブセットを含んでもよい。図２の方法を実行する前に、オプションで、映像の小型化又は圧縮及び／又は一般的なフォーマットへの変換を行ってもよい。例えば、映像を、２Ｋフォーマット（すなわち、水平寸法が約２０００画素であるフォーマット）に変換してもよい。このようにして、（例えば、解像度、画素深度、カラーフォーマットを含む）映像データ２１０のフォーマットは、以下で説明する処理のために一貫性を持たせてもよい。さらに、映像を小型化することによって、機械学習モデルの訓練にかかる計算コストを大幅に削減することができる。従来の映画制作プロセスの間、このプロセスは、オフライン編集プロセスで扱うために更に少ないボリュームのデータを生成するために一般的に実行される。ビデオデータ２０２は、オフライン編集に使用されるのと同一のデータであってもよい。

【0071】

図２の方法は、画像フレームのシーケンスの各々に対するオブジェクト検出及び分離２０４を実行することに進む。これに関連して、オブジェクト検出は、所定のクラスのオブジェクトのインスタンスを含む画像フレームを識別するとともに画像フレームの各々のそのようなオブジェクトの各々の位置を示すメタデータを生成してもよい。メタデータは、例えば、オブジェクトを含む画像フレームの各々のオブジェクトの境界ボックスの位置及び寸法が含んでもよい。オブジェクト検出アルゴリズムに応じて、境界ボックスは、所定の寸法 (例えば、一つ以上の固定サイズの固定アスペクト比の正方形又は長方形) を有してもよい、又は、可変の寸法を有してもよい。所定のインスタンスの境界ボックスは、例えば、所定のインスタンスが当該インスタンスが出現する全ての画像フレームの境界ボックス内に完全に含まれるように決定された固定寸法を有してもよい。オブジェクトの見かけのサイズがインスタンス間及び／又は画像フレーム間で変化するのが一般的であり、したがって、オブジェクト検出アルゴリズムは、好適には、複数のスケールでオブジェクトを検出することができる。オブジェクト検出アルゴリズムは、深層学習アルゴリズムのような機械学習アルゴリズムであってもよい。適切なオブジェクト検出アルゴリズムの例は、領域ベースの畳み込みニューラルネットワーク (Ｒ－ＣＮＮ)、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、領域ベースの完全畳み込みネットワーク (Ｒ－ＦＣＮ)、ＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ (ＳＳＤ)及びＯｎｌｙＬｏｏｋＯｎｃｅ (ＹＯＬＯ－執筆時点ではｖ５までの複数のバージョンが利用可能)である。特定のタスクに望ましい演技レベルを達成させるために、これらのアルゴリズムの訓練中に、データ選択、データ拡張及びブートストラップを含む様々な手法を使用してもよい。

【0072】

オブジェクトの検出及び分離２０４により、所定のオブジェクトの複数のインスタンスを検出及び分離してもよい。この例において、インスタンスＡが画像フレームのシーケンスＡで検出され、インスタンスＢ及びインスタンスＣが画像フレームのシーケンスＢで検出される (オブジェクトが画像フレームのシーケンスＢ内で視界から消えて再び出現したことを示す)。

【0073】

所定のクラスのオブジェクトの検出インスタンスに加えて、オブジェクトの検出及び分離２０４は、同一のクラスの別個のオブジェクトを認識することを有してもよい。オブジェクトが人間の顔である例において、顔のインスタンスが検出される度に、方法は、顔が新しい顔であるか以前に検出された顔であるかを決定するために、顔認識を実行してもよい。このようにして、第１のオブジェクトのインスタンスを第２のオブジェクトのインスタンスと区別することができる、等々。したがって、オブジェクトの検出されたインスタンスと共に記憶されるメタデータは、オブジェクトの識別子を含んでもよい。

【0074】

オブジェクトの検出及び分離２０４は、オブジェクトのインスタンスを検出することに加えて、オブジェクトの分離されたインスタンスの２次元ランドマークのまばらなセットの位置を決定することを有してもよい。２次元ランドマークは、オブジェクトを大まかに表す２次元の特徴点である。これらのランドマークを、以下で説明するように、合成モデルのフィッティングを支援するために使用してもよい。オブジェクトが人間の顔である場合、ランドマークは、例えば、目及び口の周囲並びに鼻の隆起に続く点を含んでもよい。２次元ランドマークを、まばらなキーポイント検出方法を使用してフレームごとに検出してもよい。さらに、オプティカルフローを、検出されたランドマークの時間的に一貫した軌跡を決定してランドマークの位置の推定精度を向上させるために、画像フレームのシーケンスに亘って使用してもよい。

【0075】

オブジェクトの検出及び分離２０４は、オブジェクトの分離されたインスタンスを安定化及び／又は登録することを更に有してもよい。安定化及び／又は登録することを、例えば、所定の分離されたインスタンスのフレームの各々についてオブジェクトが画像フレームの平面に垂直な軸に対して相対的に一定の回転角度で出現することを保証するために実行してもよい。オブジェクトがフレーム間で略一定のサイズで表示されるように、正規化ステップを適用してもよい。したがって、オブジェクトの検出及び分離２０４は、オブジェクトのインスタンスを含む前記画像フレームの各々で安定化点を決定することを有してもよく、安定化点を、例えば、一つ以上の２次元ランドマークの位置に応じて決定してもよい。次に、方法は、安定化点が固定位置に留まるとともにオブジェクトがこの点の周りであまり回転しないように、決定された安定点の周りでオブジェクトのインスタンスを安定させることを有してもよい。この安定化を、任意の適切な画像登録技術を使用して実行してもよく、２次元ランドマークが決定されている場合にはそれを利用してもよい。場合によっては、安定点を規定する必要なく登録を実行してもよい。本発明者は、合成モデルフィッティング及び／又は機械学習を含む下流タスクの困難を軽減するためにオブジェクトインスタンスを安定させることが有益であることを見い出した。置換されるオブジェクトインスタンスの部分内又はその近くにある安定化点を決定することが特に有益であることを見い出した。視覚ダビング又は人間の顔の演技の遷移の場合、安定点は、口の中心であってもよい。

【0076】

分離されたインスタンスの各々を、例えば、どの画像フレームがインスタンスを含むかを示すデータ並びにインスタンスを含む各画像フレーム内のインスタンスの位置、サイズ及び向きを含むメタデータと共にビデオクリップとして記憶してもよい。位置、サイズ及び向きを、例えば、画像フレーム内の境界ボックスの左上隅及び右下隅の座標として記憶してもよい。他のメタデータは、オブジェクトを識別する情報、画像フレームの解像度及びフレームレートを含む。分離されたインスタンスを、オプションで、関連するガイドオーディオと共に記憶してもよい。

【0077】

メタデータは、分離されたインスタンスから再構築される画像フレームのシーケンスの一部に必要な情報を含む。図３は、本明細書で説明する方法を使用して外国語バージョンが生成される映画のシーンの特定のテイクの映像に対応する画像フレーム３０２のシーケンスの例を示す。この例において、第１の俳優のインスタンス３０４、第２の俳優のインスタンス３０６及び第３の俳優のインスタンス３０８が検出及び認識され、異なる俳優は、本開示の意味において異なる「オブジェクト」として扱われる。この例において、第３の俳優のインスタンス３０８は、横顔で出現するが、第１の俳優のインスタンス３０４及び第２の俳優のインスタンス３０６は、略正面で出現する。いくつかの例において、特定の俳優の横顔ビュー（又は、更に一般的には、画像フレームと同一の平面の軸に対するオイラー角が所定の範囲外にあるビュー）を、同一の俳優の正面ビューとは異なるオブジェクトとして扱ってもよい。インスタンス３０４，３０６は、それぞれのメタデータ３１４，３１６と共に、分離されたインスタンス３１０，３１２を生成するために分離される。この例において、第３の俳優がシーン内で話さないと判断され、したがって、第３の俳優のインスタンス３０８が分離されない。メタデータ３１４，３１６は、分離されたインスタンス３１０，３１２から画像フレーム３０８のシーケンスを生成することを可能にし、これは、画像フレーム３０２のシーケンスの元の位置におけるインスタンス３０４，３０６の再構成３２０，３２２を含む生成される重ね合わせフレームのシーケンス３１８を含む。

【0078】

図２の方法は、オブジェクトの合成モデルのパラメータ値を決定するためにオブジェクトの分離されたインスタンスを使用する合成モデルフィッティング２０６を引き続き実行する。合成モデルは、オブジェクトの３次元モーファブルモデル（３ＤＭＭ）のような合成高密度３次元モデルであってもよく、各々が辺及び頂点を有する三角形及び／又は四角形のような多角形で形成されるメッシュモデルで構成されてもよい。合成モデルを、固定パラメータのセット及び可変パラメータのセットによってパラメータ化してもよい。固定パラメータは、画像フレーム間で変化すると予想されない（又は変化しないと合理的にモデル化できる）オブジェクトの特性をエンコードするのに対し、可変パラメータは、画像フレーム間で変化する可能性のある特性をエンコードする。固定パラメータは、変形が適用される開始点として扱われるオブジェクトのベースジオメトリ（例えば、神経表現による顔のジオメトリ）をエンコードするための基本パラメータ値を有してもよい。ベースジオメトリは、例えば、メッシュモデルの頂点のセットの位置を有してもよい。可変パラメータは、オブジェクトのベースジオメトリへの変更をエンコードするための変形パラメータを有してもよい。これらの変形パラメータは、例えば、メッシュの各々の頂点の変形を制御してもよい。代替的には、変形パラメータは、ブレンドシェイプの所定のセットの線形結合の重み付けを制御してもよく、ブレンドシェイプの各々は、ベースジオメトリの特定のグローバル変形に対応する。代替的には、変形パラメータは、デルタブレンド形状の所定のセットの線形結合に対する重み付けを制御してもよく、デルタブレンド形状の各々は、頂点の特定のサブセットに亘る変形に対応する。特定の重み付けを指定することによって、ブレンドシェイプ又はデルタブレンドシェイプの線形結合が、ベースジオメトリに対する広範囲の変形を表現することができる。

【0079】

合成モデルの固定パラメータは、基本パラメータに加えて、合成モデルを画像平面に投影するための固有のカメラパラメータ値と共にオブジェクトの表面（及び／又はオブジェクトの他の表面特性）の反射モデルをエンコードするパラメータを有してもよい。(ただし、場合によっては、固有のカメラパラメータ値が既知であるとともに決定する必要がない場合もある)。反射モデルは、オブジェクトの表面を、入射照明を全方向に均等に散乱させる完全な拡散表面として扱ってもよい。そのようなモデルは、ランバート反射モデルと呼ばれることがある。このモデルは、複雑さと現実的な結果との間の合理的なトレードオフを達成することがわかっている。

【0080】

可変パラメータは、所定の点でのオブジェクトの放射照度を特徴付ける照明モデルと共にオブジェクトの分離されたインスタンス内で見られるカメラに対するオブジェクトの位置及び／又は向きをエンコードするパラメータを更に有してもよい。照明モデルは、所定の数の球面調和基底関数（例えば、球面調和基底関数の最初の三つのバンドＬ０，Ｌ１，Ｌ２）を使用してオブジェクトの表面の所定の点における照明をモデル化することができる。反射モデルと照明モデルを組み合わせることにより、モデルのフィッティング中に決定されるパラメータ値のセットに応じてオブジェクトの表面の所定の点での放射照度をモデル化することができる。

【0081】

上述したように、オブジェクトの合成モデルのパラメータ値は、オブジェクトのインスタンスごとに決定され、パラメータ値の少なくとも一部は、フレーム単位で決定される。図２の例において、パラメータ値の各々のセットは、２０４で検出されたオブジェクトのインスタンスＡ、インスタンスＢ及びインスタンスＣの各々について決定される。合成モデルのパラメータ値を、オブジェクトのインスタンスごとに独立して決定してもよい。代替的には、(ベースジオメトリ及び反射モデルをエンコードする固定パラメータ値のような)固定パラメータ値の一部を、オブジェクトの複数のインスタンスに亘ってフィッティングしてもよく、これにより、特に、比較的少数の画像フレームを含む又はオブジェクトがはっきりと見えないオブジェクトのインスタンスの精度が向上する可能性がある。

【0082】

オブジェクトの合成モデルを、オブジェクトの特定の分離されたインスタンスに対して決定されたパラメータ値と共に、画像平面へのオブジェクトの投影に対応する合成画像を生成するために使用してもよい。これらの合成画像を分離されたインスタンスの対応するフレームと比較することによって、合成画像と分離されたインスタンスの対応するフレームとの間の偏差を特徴付ける計量差又は損失関数を最小化するパラメータ値を決定してもよい。このようにして、合成モデルをオブジェクトの分離されたインスタンスにフィッティングさせるパラメータ値を決定してもよい。例えば、オブジェクトの分離されたインスタンスで検出された２次元ランドマークの位置と合成モデルの対応する特徴頂点と比較する損失項又はオブジェクトの分離されたインスタンスの輪郭と合成モデルの対応する輪郭とを比較する損失項を含むモデルフィッティングの精度を向上させるために、追加の技術を使用してもよい。

【0083】

図２の方法は、オブジェクトの分離されたインスタンスを再構成するために機械学習モデルの訓練にオブジェクトの分離されたインスタンス及び合成モデルの関連パラメータ値が使用される機械学習２０８を引き続き実行する。オブジェクトの複数のインスタンス (例えば、映画のシーンの複数のテイクからのインスタンス) に対してこの訓練を実行することにより、機械学習モデルは、合成モデルのパラメータ値のセットに基づいてオブジェクトの写真のようにリアルな描写のインスタンスを生成することを学習してもよい。機械学習２０８のプロセスは、機械学習モデルの訓練されたパラメータ値２１０を生成する。

【0084】

機械学習モデルは、一つ以上のニューラルネットワークを有してもよい。例えば、機械学習モデルは、合成モデルのパラメータ値に応じて画像を生成するように構成された生成ネットワーク及び所定の画像が本物であるか生成ネットワークによって生成されたかを予測するように構成された識別ネットワーク及びを有する条件付き敵対的生成ネットワーク（ＧＡＮ）を有してもよい。生成ネットワーク及び識別ネットワークを、正確な予測を行った識別ネットワークに報酬を与えるとともに識別ネットワークに間違った予測をさせた生成ネットワークに報酬を与える敵対的損失関数を使用して互いに並行して訓練してもよい。このタイプの訓練は、敵対的訓練と呼ばれる場合がある。敵対的損失関数を、オブジェクトの分離されたインスタンスの画素値と生成ネットワークによって出力される画像の画素値との間の差異にペナルティを課す測光損失関数及び／又は生成ネットワークによって出力された画像と(ＩｍａｇｅＮｅｔで訓練されたＶＧＧネットのような)画像エンコーダの特徴空間の分離されたインスタンスとを比較する知覚損失関数のような一つ以上の別の損失関数で補ってもよい。敵対的損失関数と測光損失関数及び／又は知覚損失関数と組み合わせることにより、生成ネットワークは、オブジェクトの分離されたインスタンスと測光的に類似するとともにオブジェクトの分離されたインスタンスとスタイル的に区別できない画像のシーケンスを生成することを学習してもよい。このようにして、生成ネットワークは、オブジェクトの分離されたインスタンスの写真のようにリアルな描写の再構成を生成することを学習してもよい。

【0085】

一例において、機械学習モデルは、オブジェクトの分離されたインスタンスの一つ以上のフレームのシーケンスから導出されるパラメータ値のセットを入力として受け取るとともに出力画像を生成する生成ネットワークを有してもよい。訓練中に、出力画像を、シーケンスの所定のフレーム (例えば、中間フレーム又は最後のフレーム) と比較してもよく、その場合、生成ネットワークは、当該フレームを再構成することを学習してもよい。複数のフレームからのパラメータ値を使用することによって、生成ネットワークは、再構築されるフレームの前及び／又は後の情報を考慮してもよく、これにより、生成ネットワークは、オブジェクトの動的特性を考慮することができるようになってもよい。

【0086】

合成モデルのパラメータ値の直接処理の代替として、機械学習モデルは、合成モデルそれ自体から導出された入力を受け取るように配置される。例えば、機械学習モデルを、合成モデルからレンダリングされた合成画像に少なくとも部分的に基づいて入力データを処理するように配置してもよい。図４は、ニューラルネットワークの入力データを生成するために、オブジェクトの合成モデルからレンダリングされるとともにオブジェクトの分離されたインスタンス４０４に対応する合成画像４０２のシーケンスを使用する方法の一例を示す。合成画像４０２の各々は、オブジェクトの全体又はオブジェクトの一部、例えば、置換又は修正されるオブジェクトの一部を含んでもよい。合成画像は、オブジェクト又はオブジェクトの一部を囲む背景領域を透明として指定するアルファマット又はバイナリマスクをエンコードするアルファチャネルを含んでもよい。分離されたインスタンス４０４は、オプションで、色の正規化４０６を受けるが、色の正規化を、フレームごとに又は分離されたインスタンス４０４の全てのフレームに対して行ってもよい。色の正規化を行うと、オブジェクトの全ての分離されたインスタンスに亘って同様の粗い照明条件をシミュレートし、これは、機械学習モデルが生成するために学習する必要がある画像の空間の範囲を削減することによって後に説明する学習プロセスを支援してもよい。

【0087】

オブジェクトの分離されたインスタンス４０４を含むフレームの各々について、対応する合成画像４０２の一部は、分離されたインスタンス４０４の（場合によっては色の正規化された）フレームに重ね合わせられ、合成画像４０８となる。上述したように、分離されたインスタンス４０４のフレームの各々は、オブジェクトのインスタンスを含む画像フレームの登録された部分であってもよい。重ね合わせられる合成画像４０２の部分を、オブジェクトの合成モデルを使用して生成してもよいセグメンテーションマスクを使用して規定してもよい。マスクを生成するために、赤チャネル及び緑チャネルにそれぞれエンコードされたＵとＶの値が線形に増加するＳＴマップを取得する。次に、ＳＴマップを合成モデルにマッピングするために、ＵＶマッピングを使用してもよい。マスクに適した領域を、手動又は自動で、例えば、合成モデルの所定の特徴頂点を参照することによって（上述したように）ＳＴマップに規定してもよい。次に、マッピングされた領域の投影が、合成画像４０２の各々についてレンダリングされ、レンダリングされた投影を、重ね合わせプロセスのためのマスクの幾何学的形状を規定するために使用してもよい。このアプローチにより、合成モデルのジオメトリに準拠したマスクを取得し、このアプローチを、特定のオブジェクト又はオブジェクトの特定のインスタンスに対して１回定義するだけで済む。重ね合わせに使用されるマスクは、通常のバイナリセグメンテーションマスク又はソフトマスクであってもよく、後者は、分離されたインスタンス４０４と合成画像４０２の重ね合わされた部分との間の段階的なブレンドをもたらす。

【0088】

図５Ａは、顔の合成モデルからレンダリングされた顔の合成画像の一部５０２が顔の分離されたインスタンスを含むフレーム５０４に重ね合わされた上述した合成画像の一例を示す。この例の部分５０２は、口を含むが目を除いており、上述したようにＳＴマップを使用して生成されたバイナリマスクを使用して規定される。

【0089】

図４に戻ると、合成画像４１０は、生成ネットワーク４１２への入力として提供される。生成ネットワーク４１２は、オブジェクトのインスタンスの再構成候補４１４を生成するために合成画像４１０を処理するように構成される。合成モデルによって生成された完全な合成画像４０２の代わりに合成画像４１０を処理することによって、特に置換される部分の周囲の領域における再構築されるインスタンスの照明及び色の特性に関する更に多くの情報を生成ネットワーク４１２によって利用可能となる。これにより、オブジェクトの再構築された部分がオブジェクトの周囲の領域にシームレスに溶け込むように修復を実行する方法を生成ネットワーク４１２によって学習される際にオブジェクトのインスタンスを再構築する生成ネットワーク４１２の能力が強化されることが判明した。この例において、合成画像が生成ネットワーク４１２への入力として提供されるが、他の例において、代替的に又は追加的に、合成モデルの完全なレンダリングを入力として提供してもよいことに留意されたい。

【0090】

単一の順方向パスにおいて、生成ネットワーク４１２を、合成画像４１０の予め決定された一つ以上に対応する再構成候補４１４の一つ以上のフレームを生成するために所定数の合成画像４１０（例えば、１，２，５，１０又は任意の他の適切な数の合成画像４１０）を含む時空間ボリュームを処理するように構成してもよい。この文脈における時空ボリュームは、時間ウィンドウ内に連続して出現する画像の集合を指す。生成ネットワーク４１２は、例えば、時空間ボリュームの最後の合成画像４１０に対応する単一のフレームの再構成候補を出力してもよい。複数の合成画像４１０を同時に処理することによって、生成ネットワーク４１２は、更に現実的な出力を達成するために、時間の経過と共にオブジェクトがどのように移動するかについての情報を使用することを学習してもよい。この処理を時間的にスライディングウィンドウ方式で実行することによって、生成ネットワーク４１２は、オブジェクトの分離されたインスタンスを含むフレームの各々についてオブジェクトの再構成候補を生成してもよい。最初の数フレーム又は最後の数フレームについて、時空間ボリュームを規定しなくてもよい。代替的には、時空間ボリュームを、最初のフレーム及び／又は最後のフレームをＸ回複製することによって拡張してもよく、ここで、Ｘは、ディリクレ境界条件に効果的に影響を及ぼすことができる時間ウィンドウのサイズである。このように、時空間ボリュームが規定されたままであるが、最初と最後のいくつかの画像フレームで偏る。時空間ボリュームを拡張するために、他の境界条件を代わりに使用してもよい。

【0091】

生成ネットワークは、時空間ボリュームを低次元潜在空間の潜在変数にマッピングするように構成されたエンコーダ部分及び潜在変数をオブジェクトの再構成候補を含む一つ以上のフレームにマッピングするように構成されたデコーダ部分を備えるエンコーダ－デコーダアーキテクチャを有してもよい。エンコーダ部分は、入力の解像度を下げる可能性のあるいくつかのダウンサンプリングコンポーネントで構成されてもよい。所定のダウンサンプリングコンポーネントは、畳み込みフィルタ及び(正規化線形ユニットＲｅＬＵ、活性化関数のような) 非線形活性化関数を含んでもよい。デコーダ部分は、入力の解像度を高めることができるいくつかのアップサンプリングコンポーネントで構成されてもよい。所定のアップサンプリングコンポーネントは、畳み込みフィルタ及び非線形活性化関数をオプションで他のレイヤー又はフィルタと共に含んでもよい。エンコーダ部分及び／又はデコーダ部分の少なくともいくつかのコンポーネントは、訓練中にバッチ正規化及び／又はドロップアウトを利用してもよい。特定の例において、生成ネットワーク４１２は、解像度を２５６×２５６から３２×３２に下げるための八つのダウンサンプリングコンポーネントと、解像度を２５６×２５６に戻すための八つのアップサンプリングコンポーネントと、を有する。ダウンサンプリングコンポーネントの各々は、ストライド２で４×４畳み込み層を使用し、その後に、バッチ正規化、ドロップアウト、リーキーＲｅＬＵ活性化関数を使用する。アップサンプリングコンポーネントの各々は、カスケードリファインメント戦略を利用し、ストライド２で４×４デコンボリューションフィルタを使用し、その後に、バッチ正規化、ドロップアウト及びＲｅＬＵ活性化関数を使用し、続いて、ストライド１で二つの３×３畳み込みフィルタをそれぞれ使用し、その後に、別のＲｅＬＵ活性化関数が続く。最終的なアップサンプリングコンポーネントの出力はオブジェクトの再構築されたインスタンスの候補の単一のフレームが生成するために、ＴａｎＨ活性化関数を介して渡される。バッチ正規化を、最初のダウンサンプリングコンポーネントと最後のアップサンプリングコンポーネントから省略してもよく、改良点として、アーキテクチャは、ネットワークが詳細な構造を転送できるようにするために、入力層から一つ以上のデコーダコンポーネントへのスキップ接続を採用してもよい。生成ネットワーク１４２に他のアーキテクチャも可能であるとともに本アーキテクチャは例としてのみ提供されることが理解される。

【0092】

生成ネットワーク４１２は、オブジェクトの分離されたインスタンス４０４を再構築するように敵対的に訓練される。この例において、再構成されたインスタンス４１４の一つ以上のフレームを生成するために生成ネットワーク４１２によって使用される合成画像４１０の同一の時空間ボリュームを生成ネットワーク４１２によって生成される再構成されたインスタンス４１４の一つ以上のフレーム又は（この文脈では「グランドトゥルース」とみなされる場合がある）分離されたインスタンス４０２の対応する一つ以上のフレーム共に入力として受け取る識別ネットワーク４１６を使用する。識別ネットワークは、再構成されたインスタンス４１４を受け取ったかグランドトゥルースの分離されたインスタンス４１２を受け取ったのかを予測することを試みる。正確な予測を行ったことに対して識別ネットワーク４１６に報酬を与えるとともに識別ネットワーク４１６に間違った予測をさせた生成ネットワーク４１２に報酬を与える敵対的損失４１８が決定される。次に、生成ネットワーク４１２及び識別ネットワーク４１６のパラメータに対する敵対的損失４１８の勾配を決定するために、（図４において破線の矢印で示す）逆伝播を使用し、生成ネットワーク４１２及び識別ネットワーク４１６のパラメータ値は、例えば、確率的勾配降下法又はその変形を使用して、敵対的損失の決定された勾配に応じて更新される。敵対的損失４１８は、分離されたインスタンス４０２の画素値と生成ネットワーク４１２によって出力される再構成されたインスタンス４１４の画素値との間の差異にペナルティを課す測光損失又は分離されたインスタンス４０２の画像特徴と生成ネットワーク４１２によって出力される再構成されたインスタンス４１４の画像特徴との間の差異にペナルティを課す知覚損失のような一つ以上の別の損失（図示せず）で補ってもよい。測光損失は、例えば、Ｌ１損失、Ｌ２損失又は分離されたインスタンス４０２の画素値と再構成されたインスタンス４１４の画素値との間の比に基づく他の任意の適切な損失であってもよい。特定の例において、測光損失は、小さな測光差の寄与を低減するように修正された修正Ｌ２損失であってもよい。このようにして、生成ネットワーク４１２がうまく機能する訓練サンプル（すなわち、簡単なサンプル）からの寄与は、生成ネットワーク４１２が苦労する訓練サンプル（すなわち、難しいサンプル）からの寄与と比較して減少する。例えば、測光損失は、所定の値未満の測光差の寄与を低減するシグモイド関数又はソフトステップ関数を二乗測光差に乗算する修正Ｌ２損失であってもよい。本発明者は、訓練中にこのタイプの損失関数を使用することにより生成ネットワーク４１２が他の損失関数よりもアーティファクトが少ない高精度のレンダリングを生成することを見い出した。

【0093】

敵対的損失関数を測光損失関数と組み合わせることにより、生成ネットワーク４１２は、オブジェクトのグラウンドトゥルースのインスタンスと測光的に類似するとともにオブジェクトのグランドトゥルースのインスタンスとスタイル的に区別できないオブジェクトの再構築されたインスタンスを生成することを学習することができ、これは、再構築されたインスタンスが分離されたインスタンスの特異性を保持することを意味する。

【0094】

生成ネットワーク４１２は、合成画像４１０の各々と共にアテンションマスク４２０を処理するように更に構成されてもよく、アテンションマスク４２０は、マスキング動作４２２，４２４の間に識別ネットワーク４１６の入力に適用されてもよい。これは、損失関数をアテンションマスク４２０によって規定される領域に制限する効果がある。（存在する場合の）測光損失も、同様に、アテンションマスク４２０によって規定される領域に制限してもよい。アテンションマスク４２０は、通常のバイナリマスク又はソフトマスクであってもよく、オブジェクトの全体又はオブジェクトの一部を含む領域の境界を定めてもよい。アテンションマスク４２０を、オブジェクトの合成モデルから出力してもよい、又は、例えば、セマンティックセグメンテーションを使用してオブジェクトの分離されたインスタンスから生成してもよい。アテンションマスク４２０を生成ネットワーク４１２への追加入力として提供するとともにアテンションマスク４２０によって規定される領域に損失関数を制限することによって、生成ネットワーク４１２は、背景ではなくオブジェクトに注意を集中させることを学習してもよい。これは、映画で予想されるような動的な背景の場合に特に重要になる可能性がある。生成ネットワーク４１２が、修正される部分の周囲の領域に注意を集中するように、アテンションマスク４２０は、修正及び置換されるオブジェクトの部分よりも大きな領域を規定することができ、それによって、置換される部分をオブジェクトの周囲の領域と統合することを学習する。代替的に又は追加敵に、アテンションマスク４２０を生成ネットワーク４１２への入力として提供するために、合成画像が生成ネットワーク４１２に入力される前に、アテンションマスク４２０を合成画像に適用してもよい。これらの場合のいずれかにおいて、生成ネットワーク４１２は、アテンションマスク４２０の外側の領域に対して「幻覚」出力を生成する可能性がある。これは、出力のこれらの領域に関連する訓練信号がないためである。図５Ｂは、図５Ａの合成画像に対応するアテンションマスクの例を示す。この場合、アテンションマスクが置換される顔の部分５０２よりも大きな顔の領域を規定することが観察される。

【0095】

生成ネットワーク４１２を、合成画像フレーム４１０の各々と共に投影ＳＴマップ（図４には図示せず）を処理するように更に構成してもよい。上述したように、投影ＳＴマップを、合成画像４０４が生成される合成モデルを使用して生成してもよい。特に、赤チャネル及び緑チャネルにそれぞれエンコードされたＵの値及びＶの値が線形に増加する一般的なＳＴマップを取得してもよい。ＳＴマップは、ＵＶマッピングを使用して合成モデルに適用され、合成画像４０４の各々について、ＳＴマップの投影をレンダリングしてもよい。図５Ｃは、図５Ａの合成画像及び図５Ｂのアテンションマスクに対応する投影ＳＴマップの例を示す。顔の左側から右側に向かって(見ると)赤 (Ｒ) が増加するとともに顔の下部分から顔の上部分に向かって(見ると)緑 (Ｇ) が増加するように投影ＳＴマップの色が顔の表面全体で変化することが観察される。ＳＴマップが合成モデルの表面に準拠しているので、二つの異なる合成画像内の顔の同一の位置に対応する画素は、共通の画素値 (色) を有する。投影ＳＴマップは、生成ネットワーク４１２が合成モデルの表面領域を合成画像内の位置に関連付けることを可能にして生成ネットワーク４１２がオブジェクトの一貫した位置で表面詳細を生成するのを支援してもよい。他の例において、投影法線座標コード（ＰＮＣＣ）画像を、生成ネットワーク４１２への空間依存入力としてＳＴマップの代わりに使用してもよい。しかしながら、投影ＳＴマップがオブジェクトの表面領域を合成画像内の位置に更に直接的にマップピングするとともにＰＮＣＣ画像の３チャネルと比較して２チャネルのみを使用するので、投影ＳＴマップが好適である場合がある。別の例において、投影ＳＴマップ又はＰＮＣＣ画像に追加して又はその代替として、他のタイプの投影されたマップを生成ネットワーク４１２に入力してもよく、これにより、生成ネットワーク４１２の出力の品質を更に改善することができる。例えば、オブジェクトの特定の特徴又は態様を強調するために、一つ以上の投影されたマップを合成モデルから生成してもよい。例えば、オブジェクト表面のトポロジーを示す投影されたトポロジーマップを生成してもよい。これは、生成ネットワーク４１２がオブジェクト表面のトポロジーと一致する詳細を生成するのに役立つことがある。オブジェクトが人間の顔である例において、トポロジーマップは、鼻及び口のような顔の特徴のトポロジーを示してもよい。

【0096】

生成ネットワーク４１２を、合成画像フレーム４１０の各々（及びオプションの一つ以上の他のマップ）と共に投影されたノイズマップ（図示せず）を処理するように更に構成してもよい。投影ＳＴマップと同様に、投影されたノイズマップを、合成画像４０４が生成される合成モデルを使用して生成してもよい。特に、画素値が同一分布の確率変数（ガウス変数など）に依存しないノイズマップ又はノイズ画素値が依存するノイズマップを取得してもよい。特定の例において、ノイズマップを、パーリンノイズマップであってもよい。ノイズマップは、ＵＶマッピングを使用して合成モデルに適用してもよい、合成画像４０４の各々について、ノイズマップの投影をレンダリングしてもよい。ノイズマップは、オブジェクトの表面に準拠するリッチテクスチャを生成するために生成ネットワーク４１２が使用できる追加のリソースを提供する。パーリンノイズは、複雑な自然のテクスチャを表現するのに特に適している。例えば、ノイズマップは、(ＳＴマップがデフォルトで赤のチャネルと緑のチャネルのみを使用するので)ＳＴマップの青チャネルに保存してもよく、この場合、ＵＶマッピングを１回実行するだけで済む。生成ネットワーク４１２によってレンダリングされる出力の品質を向上させるために、追加のマップをジェネレータへの入力として（例えば、ＳＴ及び／又はノイズマップの追加のチャネルとして）更に提供してもよい。例えば、粒子の詳細をエミュレートする汎用マップ又は法線マップ及び／又はディスプレイスメントマップのようなオブジェクトの合成モデルから派生した一つ以上のマップを生成ネットワーク４１２に提供してもよい。

【0097】

上記の方法を使用して訓練された機械学習モデルを、後に説明するように、オブジェクトの写真のようにリアルな描写の修正されたインスタンスを生成するために使用してもよい。図６は、画像フレームの第１のシーケンス６０２のオブジェクトのインスタンスを修正するために図２の機械学習モデルを訓練されたパラメータ値２１０と共に使用する方法を示す。第１のシーケンス６０２は、機械学習モデルを訓練するために使用される画像フレームのシーケンスの一つに対応してもよいが、いくつかの例において、第１のシーケンス６０２は、訓練プロセスに関連して説明したダウンサイジング又は圧縮を受けていなくてもよい。その理由は、この段階の目的がオブジェクトの最高品質であるとともに最も写真のようにリアルな描写のレンダリングインスタンスを生成することであるとともに訓練中よりも計算コストが問題にならないからである。映画製作パイプラインとの関係において、画像フレームの第１のシーケンス６０２は、映画を配信する必要がある最高の解像度であってもよい。第１のシーケンス６０２を、手動で決定してもよい（例えば、このシーケンスのオブジェクトのインスタンスを置換する必要があるとユーザが決定してもよい）、又は、例えば、視覚ダビングとの関係において話しているキャラクターを検出した場合に自動的に決定してもよい。第１のシーケンス６０２は、機械学習モデルを訓練するために使用される画像フレームのシーケンスの一つであってもよいが、これは必須ではない。

【0098】

図６の方法は、オブジェクトの検出及び分離６０４に進み、この例において、上述したように、オブジェクトの分離された第１のインスタンス及びオブジェクトの第１のインスタンスを置換するためのメタデータを取得する。次に、オブジェクトの合成モデルの第１のパラメータ値６１０を生成するために、合成モデルフィッティング６０８を実行する。訓練に使用される解像度と比べて第１のインスタンス６０６の解像度が増加することによって更に正確な合成モデルフィッティング６０８を取得してもよい。第１のシーケンス６０２が機械学習モデルを訓練するために使用される画像フレームのシーケンスの一つである他の例において、オブジェクトの検出及び分離６０４及び／又は合成モデルフィッティング６０８のステップは、訓練中に第１のインスタンス６０６に対して既に実行されている可能性があるので、これらのステップを再度実行する必要がない可能性がある。

【0099】

合成モデルの第１のパラメータ値６１０は、６１２で修正され、修正された第１のパラメータ値６１４を取得する。第１のパラメータ値６１０の修正６１２により、合成モデルの外観が修正され、最終的には、オブジェクトの修正されたインスタンスのレンダリングが可能になる。第１のパラメータ値の修正を、例えば、修正された第１のパラメータ値を導出できるユーザインターフェイスを介してユーザ入力を受け取ることによって手動で実行して、通常のＶＦＸ技術を使用して達成できるものを超えたオブジェクトンスタンスのディープ編集が可能になるようにしてもよい。代替的には、第１のパラメータ値６１０の修正６１２を、例えば、ビデオドライビングデータ及び／又はオーディオドライビングデータのようなドライビングデータに応じて、少なくとも部分的に自動的に実行してもよい。

【0100】

図７は、特定の人間の顔の合成モデルのパラメータ値をビデオドライビングデータ７０４に応じて修正する例を示す。その結果、顔のインスタンス７０２を修正してもよい。インスタンス７０２は、例えば、映画のセリフを第一言語で話す俳優に対応し、ビデオドライビングデータ７０４は、同一のセリフの翻訳を第二言語で話すダビング俳優に対応してもよい。この例において、ビデオドライビングデータ７０４及び／又はインスタンス７０２は、ビデオドライビングデータ７０４及びインスタンス７０２が同一の数のフレームに亘るようにクリップされている。この例において、上述の方法を使用して、プライマリ合成モデルパラメータ７０６が、インスタンス７０２に対して導出される。プライマリ合成モデルパラメータは、固有のカメラパラメータ、ベースジオメトリ及び反射モデルをエンコードする固定パラメータと、ベースジオメトリに対する各々のポーズ及び変形をエンコードするインスタンス７０２のフレームの各々の可変パラメータと、を含む。次いで、セカンダリモデルパラメータ７０８が、上述したのと同一の方法を使用して、ビデオドライビングデータ７０４に対して導出される。セカンダリパラメータ値７０８は、ビデオドライビングデータ７０４のフレームの各々に対するセカンダリ変形パラメータ値７１０を含み、セカンダリ変形パラメータ値７１０は、吹き替え俳優に対して決定された基本ジオメトリの変形を示す（人間の顔との関係において、変形は、顔の表情を表してもよい）。スタイル変換７１２は、オプションで実行され、この場合、セカンダリ変形パラメータ値７１０は、プライマリオブジェクト（この場合、第一言語アクター）に対して導出された変形パラメータ値とのスタイルの一貫性のために調整される。スタイル変換７１２を、例えば、ＶＦＸアーティストによって手動で実行してもよい、又は、自動若しくは半自動で実行してもよい。スタイル変換７１２を、プライマリソースから導出される変形パラメータとのスタイルの一貫性のために、セカンダリソース（例えば、ビデオソース）から導出される変形パラメータ値を修正するように訓練されたスタイル変換ニューラルネットワークを使用して実行してもよい。訓練を、プライマリ変形パラメータ値をセカンダリ変形パラメータ値に変換するとともに再びその逆に戻すようにそれぞれ構成された二つのスタイル変換ニューラルネットワークを使用して実行してもよい。生成ネットワークを、循環一貫性を備えて敵対的に訓練してもよい。

【0101】

スタイル変換７１２は、所定のセカンダリソースから導出された変形をプライマリオブジェクトのスタイル的に一貫した変形に「変換」することを可能にする。スタイル変換７１２は、例えば、セカンダリソースがプライマリソースとスタイル的に類似している場合又はプライマリソースとセカンダリソースが同一のオブジェクトを描写している場合のように場合によっては不必要であることがある。後者は、例えば、俳優の演技があるシーンのテイクから別のシーンのテイクに移されるときに生じる。

【0102】

合成モデルの修正されたパラメータ値７１４を生成するために、プライマリ変形パラメータ値を除く合成モデルのプライマリパラメータ値７０６を、（場合によってはスタイル変換された）セカンダリ変形パラメータ値７１０と結合してもよい。

【0103】

図７の例において、ビデオドライビングデータを使用して合成モデルの修正されたパラメータ値を決定するのに対して、他の例において、オーディオドライビングデータ又はビデオドライビングデータとオーディオドライビングデータとの組合せを使用して合成モデルの修正されたパラメータ値を決定してもよいことに留意されたい。これらの場合、合成モデルのパラメータ値を決定するために、別のオーディオドライビングニューラルネットワーク又は混合モードニューラルネットワークを訓練してもよい。

【0104】

図６に戻ると、レンダリング６１６を実行し、この場合、機械学習モデルは、機械学習モードの訓練されたパラメータ値２１０を使用して、オブジェクトの合成モデルについての修正された第１のパラメータ値６１４に応じて、オブジェクトの修正された第１のインスタンス６１８をレンダリングする。レンダリング６１６は、例えば、条件付きＧＡＮを使用して、修正された第１のパラメータ値６１４を処理することを有してもよい。代替的には、レンダリングは、オブジェクトの合成モデルから合成画像を生成することと、オブジェクトの修正された第１のインスタンス６１８を生成するために合成画像を使用することと、を有してもよい。

【0105】

図８は、図２の訓練された生成ネットワーク２１２を使用してオブジェクトの修正されたインスタンスをレンダリングする方法の例を示す。方法は、図２の方法と同等であるが、識別ネットワーク４１６及び生成ネットワーク２１２を訓練する関連の機能がない。図８の合成画像８０４は、修正されたパラメータ値を使用して合成モデルからレンダリングされる。したがって、合成画像８１０は、重ね合わされる合成画像の部分が分離されたインスタンスの残りの部分とは異なるパラメータ値に対応するハイブリッド画像である。それにも関わらず、訓練された生成ネットワーク２１２は、これらのハイブリッド画像をオブジェクトの写真のようにリアルな描写の修正インスタンスに変換する。

【0106】

分離されたインスタンス８０２、したがって、合成画像８１０が生成ネットワーク２１２を訓練するために使用される画像よりも高い解像度であってもよいことに留意されたい。いくつかの例において、生成ネットワーク２１２は、完全畳み込みネットワークであってもよい (すなわち、完全に接続されたレイヤーを含まない)。この場合、生成ネットワーク２１２は、低解像度画像で訓練されているにもかかわらず高解像度出力画像を生成するために高解像度入力画像を処理することができるようにしてもよい。代替的には、分離されたインスタンス８０２（又は合成画像８１０）を、生成ネットワーク２１２に入力する前にダウンサイズ又は圧縮してもよい。この場合、適切な解像度で写真のようにリアルな描写の出力を生成するために、超解像度ニューラルネットワークを生成ネットワーク２１２の出力に適用してもよい。発明者は、後者のアプローチが非常に妥当性の高いレンダリング出力を生成することを見い出した。

【0107】

上記の図７の例のようないくつかの例において、オブジェクトの分離されたインスタンスから導出されるパラメータ値を、ドライビングデータソースから導出されるパラメータ値に置換する。したがって、オブジェクトのインスタンスを、オブジェクトのインスタンスを含む全ての画像フレームに対して修正してもよい。他の例において、例えば、オブジェクトの修正されていないインスタンスとオブジェクトの修正されたオブジェクトのインスタンスの間を平滑に遷移するために、オブジェクトのインスタンスを含むフレームのサブセットに対してのみオブジェクトのインスタンスを修正するだけで十分であることもあり、実際には、好適であることもある。視覚ダビングの場合、第一言語の俳優を含む全ての画像フレーム又は第一言語の俳優が話す第一言語の俳優を含む全ての画像フレームに対して第一言語の俳優の口の形を修正することによって、視聴体験に悪影響を及ぼす非現実的な結果が生じる可能性がある。発明者は、例えば、大抵の発生音と互換性のないものとして容易に検出可能である第一言語の俳優又は第二言語の俳優のいずれかが口を閉じている特定の時間にのみ第一言語の俳優の口の形状を修正することによって視聴体験への悪影響が少なくなる可能性があることを見い出した。さらに、非対話瞬時における第一言語の俳優の演技と、対話瞬時又は少なくとも第二言語の俳優が話しているときの第二言語の俳優の演技との間を平滑に遷移することが好適であることがある。

【0108】

図９は、オブジェクトの合成モデルに対して２組のパラメータ値を導出する例を示す。特に、パラメータ値のプライマリセットは、オブジェクトのインスタンスを含むプライマリビデオソースから導出され、パラメータ値のセカンダリセットは、(例えば、ビデオソース又はオーディオソースであってもよい)セカンダリドライビングデータソースから導出される。この例において、パラメータ値のプライマリセット及びパラメータ値のセカンダリセットは、変形パラメータ値のみが異なる。合成モデルの変形パラメータ値をプライマリ値とセカンダリ値との間で補間することによって、対応する変形間で変化するように合成モデルを制御してもよい。このようにして、オブジェクトを修正する範囲を、制御してもよい、例えば、所定のイベントが発生したときにのみ最大化してもよい又はオブジェクトを修正する範囲を制限するために緩和してもよい。例えば、第一言語の俳優の顔の合成モデルを、第一言語の俳優の演技と第二言語の俳優の演技の間で変更してもよい。結果として得られるブレンドされた演技は、俳優が話している期間全体を通じて第一言語の俳優の演技を最大限に修正するよりも好適である場合がある。図９の例において、変形パラメータ値は、第一言語の俳優の演技Ｐと第二言語の俳優の演技Ｓとの間で補間される。特に、第二言語の俳優の演技は、第二言語の俳優の俳優の口が閉じられるイベント９０２の周囲及び第一言語の俳優の口が閉じられるイベント９０４の周囲でフェーズイン及びフェーズアウトされる。イベント９０２で第二言語の俳優が(文字“ｐ”のような)破裂音を発するときに、第二言語の俳優の口が短時間閉じられ、第一言語の俳優が( 文字“ｍ”のような）両唇鼻音を発するときに、第一言語の俳優の口が長時間閉じられる。代替的には、イベント９０２は、第一言語の俳優が話していることを示してもよく、イベント９０４は、第二言語の俳優が話していることを示してもよい。

【0109】

イベント９０２及び９０４を、例えば、編集者が第一言語の俳優及び第二言語の俳優の映像を検討するとともに口を閉じたイベントのような所定のイベントが発生する時間をマークすることによって、手動で決定してもよい。代替的には、そのようなイベントを、オーディオデータ又はビデオデータから自動的に検出してもよい。例えば、オーディオデータ内の破裂音若しくは両唇鼻音又は特定の人の発話のような特定の聴覚イベントを識別するために、適切なオーディオフィルタ又は機械学習モデル（例えば、再帰型ニューラルネットワーク又は時間畳み込みニューラルネットワーク）を使用してもよい。代替的には、そのようなイベントを視覚的に識別するために、適切な機械学習モデルを訓練してもよい。図９の例において、イベント９０４及び９０２は、それぞれプライマリオーディオトラック９０６及びセカンダリオーディオトラック９０８においてそれぞれ自動的に検出され、イベント９０２，９０４の所定時間前に第二言語の俳優の演技が漸進的に又は段階的にフェーズインするとともにイベント９０２，９０４の所定時間後に第二言語の俳優の演技が漸進的に又は段階的にフェーズアウトするように、変形パラメータ値の補間を自動化してもよい。

【0110】

変形パラメータ値の補間を使用することの他の効果は、変形パラメータ値によって制御可能な表現の振幅を増幅又は抑制することを含む。例えば、第一言語の俳優が話しているが第二言語の俳優が話していないとき、第二言語の俳優から派生した変形パラメータ値に置換する代わりに、略中立な口の形状に対応するために第一言語の俳優の口の動きの振幅を減少させるように変形パラメータ値を調整してもよい。別の例として、第二言語の俳優が破裂音又は両唇子音を発するときに、生成された口の形状がそのようなときに閉じられることを確実にするために、変形パラメータ値を自動又は手動で調整してもよい。

【0111】

オブジェクトの修正された第１のインスタンス６１８をレンダリングした後、図６の方法は、オブジェクト置換６２０に進み、この場合、オブジェクトの第１のインスタンス６０６の少なくとも一部を、オブジェクトの修正された第１のインスタンス６１８の対応する少なくとも一部に置換する。この置換を、修正された第１のインスタンス６１８を画像フレームの第１のシーケンス６０２に合成することによって実現してもよく、この場合、合成プロセスは、オブジェクトの第１のインスタンス６０６に関連付けて記憶されるメタデータを使用して、オブジェクト（又はその一部）の修正された第１のインスタンス６１８を画像フレーム６０２の第１のシーケンスに重ね合わせることを有する。第１のインスタンス６０６の分離中に適用される安定化、登録又は色の正規化は、重ね合わせの前に修正された第１のインスタンス６１８に逆に適用される（すなわち、反対にする）。置換された部分とその下にある画像フレームとの間の段階的なブレンドを実現するために、ソフトマスク (アルファマット) を、重ね合わされるオブジェクトの修正された第１のインスタンスの一部 (例えば、口を含むともに目を除く顔の下部領域) に適用してもよい。マスクを、オブジェクトの合成モデルを使用して生成してもよい。特に、適切な領域を、上述したＳＴマップに規定し、ＵＶマッピングを使用して合成モデルに適用し、かつ、オブジェクトの修正されたインスタンスの画像フレームの各々について、投影をレンダリングしてもよい。レンダリングされた投影を、合成プロセスのマスクのジオメトリを規定するために使用してもよい。このアプローチにより、オブジェクトのジオメトリに準拠したマスクを取得し、このアプローチを、特定のオブジェクト又はオブジェクトの特定のインスタンスに対して１回定義するだけで済む。ＳＴマップの領域を、手動又は自動で、例えば、（上述の合成モデルフィッティングに使用されるものとして）合成モデルの所定の特徴頂点を参照することによって規定してもよい。ＳＴマップは、図７を参照して説明したように、合成画像を生成するために使用されるマップと同一であってもよい。

【0112】

オブジェクトの第１のインスタンス６０６をオブジェクトの修正された第１のインスタンス６１８に正確に置換することを容易にするために、第１のインスタンス６０６（又はその一部）のフレーム方向の形状を示す第１のマスクデータ及び修正された第１のインスタンス６１８（又はその一部）のフレーム方向の形状を示す第２のマスクデータを生成するように、オブジェクトの合成モデルを使用してもよい。次に、オブジェクト置換６２０は、第１のインスタンス６０６が置換される画像フレームのいずれかについて第１のインスタンス６０６の境界が第１のインスタンス６１８の境界を超えるか否かを判定するために、第１のマスクデータと第２のマスクデータを比較することを有してもよい。これは、例えば、第１のインスタンス６０６が口を開けた顔を表すのに対して修正された第１のインスタンス６１８が口を閉じた顔を表す場合に発生する可能性がある。この場合、第１のインスタンス６０６の一部は、置換された第１のインスタンス６１８の重ね合わせ後でも見える可能性がある。そのような場合、例えば、ＢｏｒｉｓＦＸ（ＲＴＭ）のＭｏｃｈａＰｒｏのような視覚効果ツールを使用して又はアプリケーションディープインペインティング技術によって第１のインスタンス６０６のトレースを適切な背景に置換するために、クリーンな背景生成を実行してもよい。

【0113】

いくつかの例において、（オブジェクトのレンダリングされた部分には出現しない可能性がある）画像フレームの第１のシーケンスに出現するデジタルノイズ又はグレインに一致するように、ノイズをオブジェクトの置換された部分に適用してもよい。例えば、パーリンノイズを、画像フレーム内に出現するデジタルノイズと一致するスケール及び強度で適用してもよい。

【0114】

合成プロセスは、オブジェクトのインスタンスを置換した修正された画像フレームのシーケンスを生成する。場合によっては、修正された画像フレームのシーケンスは、ビデオデータの元の画像フレームを簡単に置換することができる。これは、オブジェクトのインスタンスが見える画像フレームごとにオブジェクトのインスタンスを置換又は修正する場合に可能であることがある。他の場合において、元の画像フレームから修正された画像フレームに直接遷移することにより望ましくない効果及びアーティファクトが生じることがある。視覚ダビングの例において、第一言語で話す俳優の映像から第二言語で話す俳優の合成レンダリングに遷移することにより、例えば、俳優の口の形状が開いた位置から閉じた位置又はその逆に瞬時に変化することがある。これらの問題を軽減するために、発明者は、オブジェクトの元のインスタンスからオブジェクトの修正されたインスタンスに又はその逆に更にシームレスに遷移できる技術を開発した。

【0115】

図１０は、元の画像フレームのシーケンス１００２及び修正された画像フレームのシーケンス１００４を含むビデオデータを処理する方法の例を示す。修正された画像フレーム１００４は、修正された画像フレーム１００４において画像フレーム内に出現するオブジェクトのインスタンスが本明細書で説明される技術を使用して修正及び置換された点を除いて、元の画像フレーム１００２と同一である。修正された画像フレーム１００４を生成するために、オブジェクトの修正されたインスタンスの少なくとも一部が元の画像フレーム１００４と合成され、それによって、オブジェクトの元のインスタンスが置換される。この例において、元の画像フレームのシーケンス１００２は、対応する修正された画像フレームに置換される別の元の画像フレームのシーケンス（図示せず）に先行する。別の画像フレームのシーケンスは、例えば、第二言語に吹き替えられる第一言語で話す俳優の映像を含んでもよい。元の画像フレームのシーケンス１００２は、俳優が最初に第一言語で話し始める画像フレーム又は俳優が最初に第一言語で話し始める直前の画像フレームを含んでもよい。

【0116】

方法は、オプティカルフロー決定１００６に進む。元の画像フレーム１００２及び対応する修正された画像フレーム１００４について、変位した画素が修正された画像フレーム１００４の画像に略一致するように元の画像フレーム１００２の画素を変位させる方法を決定するオプティカルフローデータ１００８を生成する。オプティカルフローデータ１００８は、元の画像フレーム１００２の画素の各々について又は置換されるオブジェクトが出現する元の画像フレーム１００２の部分領域について、変位又は速度を表示又はエンコードしてもよい。オプティカルフローは、オブジェクトの映像を含む画像フレームのシーケンス内でオブジェクトがどのように移動するかを推定するために通常使用される。この場合、代わりに、オブジェクトの元の映像からオブジェクトの合成レンダリングの画素位置への画素位置のマッピングを決定するために、オプティカルフローを使用する。これは、本明細書で説明する機械学習モデルによって生成された写真のようにリアルな描写のレンダリングによって可能になる。オプティカルフロー決定１００８を、任意の適切な方法、例えば、位相相関、ブロックベースの方法、差動法、一般変分法又は離散最適化法を使用して実行してもよい。

【0117】

図１０の方法は、ワーピング１０１０を引き続き実行し、この場合、元のフレーム１００２の画素をオプティカルフローデータ１００８によって示される方向に変位させ、ワーピングした元の画像フレーム１０１２を生成し、修正された画像フレーム１００４の画素を、オプティカルフローデータ１００８によって示される方向と反対の方向に、生成されたワーピングした修正された画像フレーム１０１４に変位させるために、オプティカルフローデータ１００８を使用する。このプロセスにより、元の画像フレーム１００２に出現するオブジェクトが修正された画像フレーム１００４に出現するオブジェクトに向かうワーピング及びその逆が行われる。元の画像フレーム１００２を修正された画像フレーム１００４に段階的にワーピングするために、元の画像フレーム１００２の画素及び修正された画像フレーム１００４の画素が変位される距離は、画像フレームごとに異なる。シーケンスの開始時に、元の画像フレーム１００２は修正されず、修正された画像フレーム１００４は、（オプティカルフローデータ１００８によって示される距離の１００％だけ移動される画素に対応する）最大限にワーピングされる。シーケンスの次の時間ステップにおいて、元の画像フレーム１００２の画素は、オプティカルフローデータ１００８によって示される距離の割合Ｆ１（例えば、Ｆ１＝５％、１０％、２０％又は他の適切な値）だけ変位され、修正された画像フレーム１００４の画素は、最大距離の１００％－Ｆ１の割合だけ変位される。シーケンスの次のステップにおいて、元の画像フレーム１００２の画素は、オプティカルフローデータ１００８によって示される距離の割合Ｆ２だけ変位され、修正された画像フレーム１００４の画素は、オプティカルフローデータ１００８によって示される最大距離の１００％－Ｆ２の割合だけ変位され、この場合、Ｆ２＞Ｆ１である。このプロセスは、元の画像フレーム１００２が最大限にワーピングされるとともに修正された画像フレーム１００４が変更されないシーケンスの最後の時間ステップまで、時間ステップの各々で割合Ｆ１，Ｆ２，Ｆ３．．．を増加させながら段階的に継続する。このようにして、時間ステップの各々において、ワーピングした元の画像フレーム１０１２とワーピングした修正された画像フレーム１０１４の画素は互いに略一致する。割合Ｆ１，Ｆ２，Ｆ３．．．は、フレーム番号に応じて直線的に増加してもよい又はフレーム番号の別の増加関数に従って増加してもよい。

【0118】

方法は、ディゾルブ１０１６に進み、この場合、ワーピングした元の画像フレーム１０１２は、合成画像フレーム１０１８を生成するために、ワーピングした修正された画像フレーム１０１４に段階的にディゾルブされる。これによって、合成画像フレーム１０１８は、シーケンスの開始時の元の画像フレーム１００２からシーケンスの終了時の修正された画像フレーム１００４まで遷移する。シーケンスの少なくともいくつかの時間ステップについて、ディゾルブ１０１６は、ワーピングした元のフレーム１０１２の画素値及びワーピングした修正された画像フレーム１０１４の画素値の加重平均に基づいて合成画像フレーム１０１８の画素値を決定してもよく、この場合、ワーピングした元の画像フレーム１０１２の重み付けは、時間ステップごとに減少し、ワーピングした修正された画像フレーム１０１４の重み付けは、時間ステップごとに増加する。ワーピングした元の画像フレーム１０１２の重み付けは、フレーム番号の線形関数又は非線形関数に従って１から０に減少してもよいのに対して、ワーピングした修正された画像フレーム１０１４の重み付けは、フレーム番号の線形関数又は非線形関数に従って０から１に増加してもよい。したがって、増分ディゾルブは、ワーピングした元の画像フレーム１０１２の画素値とワーピングした修正された画像フレーム１０１４の画素値との間の増分補間として実現される。

【0119】

発明者は、元の画像フレーム１００２から修正された画像フレーム１００４へのワーピング（又はその逆）のときに画像の鮮明さを維持する更に本物に近い遷移を増分ワーピング１０１０が実行される画像フレームの中央セット内の増分ディゾルブ１０１６に集中することによって実現できることを見い出した。例えば、増分ディゾルブ１０１６のレートは、増分ワーピング１０１０のレートに関連して増加した後に減少してもよい。増分ディゾルブ１０１６を、増分ワーピング１０１０の中間あたりで、増分ワーピング１０１０と比較して迅速に実行してもよい。ディゾルブ１０１６を、ワーピング１０１０よりも後のフレーム番号で開始するとともにワーピング１０１０よりも前のフレーム番号で終了してもよい、及び／又は、ディゾルブ１０１６を、ワーピング１０１０よりも急速に変化する関数を使用して実行してもよい。このようにして、増分ディゾルブを、増分ワーピング１０１０が実行される中央のいくつかの画像フレーム内で集中させる。一例において、増分ワーピング１０１０を線形に実行してもよいのに対し、増分ディゾルブ１０１６を、０の略平坦な水平セクションから１の略平坦な水平セクションに平滑に遷移する平滑ステップ関数又はシグモイド状関数に対応する係数によって実行してもよい。

【0120】

方法を説明するために、図１１は、元の画像フレームＯ１～Ｏ５のシーケンス及び修正された画像フレームＭ１～Ｍ５のシーケンスの例を示す。オプティカルフローデータＯＦ１～ＯＦ５は、時間ステップごとに決定され、この場合、所定の時間ステップのオプティカルフローデータは、元の画像フレームと修正された画像フレームとを関連付ける推定されたワーピングを示す。例えば、オプティカルフローデータＯＦ１は、元の画像フレームＯ１を修正された画像フレームＭ１に変換するための推定ワーピングを示す。グラフは、増分ワーピング及び増分ディゾルブがどのように適用されるかの例を示す。増分ワーピングの場合、縦軸の係数は、画素が変位する距離を、オプティカルフローデータによって示される最大距離の割合として表す。０の係数は、画素が元の位置にとどまることを意味し、１の係数は、画素が最大距離だけ変位することを意味する。増分ディゾルブについては、縦軸の係数は、（ワーピングした）元の画像フレームが（ワーピングした）修正された画像フレームによってどの程度置き換えられるかを表す。０の係数は、 (ワーピングした) 元の画像フレームに対応し、１の係数は、 (ワーピングした) 修正された画像フレームに対応する。

【0121】

この例において、ワーピングは、線形的に増加する増分で適用され、第１のワーピングしたフレームはフレーム番号１である。ディゾルブは、平滑ステップ関数で適用される。平滑ステップ関数の最も急速に変化するセクションの前では、増分ディゾルブが発生するレートは、増分ワーピングが発生するレートに比べて増加する。平滑ステップ関数の最も急速に変化するセクションの後では、増分ディゾルブが発生するレートは、増分ワーピングが発生するレートに比べて減少する。増分ディゾルブは、増分ワーピングの中央フレーム内に集中する。この例において、ワーピングのレートに対するディゾルブのレートは、平滑に増減するが、他の例において、ワーピングのレートに対するディゾルブのレートは、例えば、瞬間的に非平滑に増減してもよい。

【0122】

本明細書で説明される機械学習モデルは、訓練データに一貫して出現する照明及び色の特性を再作成することを学習できるようにしてもよいが、場合によっては、オブジェクトのレンダリングされたインスタンスは、局所的に又はあるインスタンスから別のインスタンスに変化する他の照明又は色の特性をキャプチャできない場合がある。これは、例えば、映画のシーンで影がオブジェクトを横切って移動する場合に発生する可能性がある。そのような問題を、コントラスト、色、彩度のような画像の視覚的属性を変化させるカラーグレーディングを使用して対処してもよい。カラーグレーディングを手動で実行してもよいが、これは、熟練したＶＦＸアーティストからの入力を必要とする時間のかかるプロセスである。

【0123】

図１２は、上述した手動カラーグレーディングの代わりに又はそれに加えて使用することができる自動カラーグレーディングを実行する方法の一例を示す。方法は、元の画像フレーム１２０２のシーケンス及び修正された画像フレーム１２０４のシーケンスを含むビデオデータを処理することを有し、この場合、修正された画像フレームにおいて、オブジェクトのインスタンスは、本明細書に記載の技術を使用して修正される。修正された画像フレーム１２０４の色及び照明特性が対応する元の画像フレーム１２０２の色及び照明特性によく似ていることが好適であるが、それは、オブジェクトの修正されたインスタンスを含む領域については保証されない可能性がある。これを実現するために、方法は、オブジェクトの元のインスタンスをオブジェクトの修正されたインスタンスに関連付けるワーピングを推定するためにオプティカルフロー決定１２０６に進む。推定されたワーピングは、元の画像フレーム１２０２の画素の各々又は置換されるオブジェクトが出現する元の画像フレーム１２０２のサブ領域についての変位又は速度を表示又はエンコードしてもよいオプティカルフローデータ１２０８によって示される。方法は、ワーピング１２１０を引き続き実行し、この場合、ワーピングした元の画像フレーム１２１２を生成するために、オプティカルフローデータ１００８を使用して、元のフレーム１２０２の画素をオプティカルフローデータ１２０８によって示される方向に変位させる。ワーピングを増分的に実行する図１０の方法とは異なり、図１２のワーピング１２１０を、元の画像フレーム１２０２についてオプティカルフローデータ１２０８によって示される範囲まで実行してもよい。その結果、ワーピングした元の画像フレーム１２１２の画素及び修正された画像フレーム１２０４の画素は、略一致する。別の例において、修正された画像フレーム１２０４を、元の画像フレーム１２０２と一致するようにワーピングしてもよい。更に別の例において、部分的なワーピングを、元の画像フレーム１２０２及び修正された画像フレーム１２０４で実行してもよい（これらの別の例のいずれかにおいて、カラーグレーディングプロセス後に、修正された画像フレーム１２０４の画素を元の位置にワーピングして戻す必要がある。）。

【0124】

方法は、ぼかし１２１４を引き続き実行し、この場合、ぼかされているワーピングした元の画像フレーム１２１６を生成するために、ぼかしフィルタが、ワーピングした元の画像フレーム１２１２に適用されぼかされている修正された画像フレーム１２１８を生成するために、ぼかしフィルタが、修正された画像フレーム１２０４に適用される。ぼかしフィルタは、２次元ガウスフィルタ、ボックスブラーフィルタ又は他の適切な形式のローパスフィルタであってもよい。ぼかしフィルタは、有限のサイズ又は数画素の範囲、例えば、３～２０画素又は５～１０画素の固有サイズを有してもよい。２次元ガウスフィルタとの関連で、特性サイズは、ガウスフィルタ分布の標準偏差を指してもよい。ぼかし１２１４の効果は、結果として得られる画像フレームの画素がそれらの画素の領域内の周囲の色を表すように高解像度の詳細を除去することである。ぼかしフィルタに適切なサイズを選択することによって、周囲の色及び照明の局所的な変化を比較的短いスケールでキャプチャすることができる。

【0125】

方法は、カラーグレーディング１２２０に進み、この場合、修正された画像フレーム１２０４の色特性を修正してカラーグレーディングした修正された画像フレーム１２２０を生成するために、ぼかされているワーピングした元の画像フレーム１２１６及びぼかされている修正された画像フレーム１２１８を使用する。ワーピングした元の画像フレーム１２１２が、修正された画像フレーム１２０４に近似するので、ぼかされているワーピングした元の画像フレーム１２１６の画素は、修正された画像フレーム１２０４の対応する画素の所望の周囲色を表す。したがって、ぼかされている修正された画像フレーム１２１８の画素値に対するぼかされているワーピングした元の画像フレーム１２１６の画素値の比は、修正された画像フレーム１２０４に適用される空間的に変化する色補正マップを表す。したがって、カラーグレーディング１２２０を、ぼかされているワーピングした元の画像フレーム１２１６をぼかされている修正された画像フレーム１２１８により画素単位で分割するとともに結果に修正された画像フレーム１２０４を画素単位で乗算する（又は同等の数学的演算を実行する）ことによって実行してもよい。結果として得られるカラーグレーディングした修正された画像フレーム１２２２は、修正された画像フレーム１２２２の細かいスケールの詳細を保持しながら元の画像フレーム１２０２の局所的な色特性を保持する。

【0126】

図１３は、本明細書に記載の特定の方法に従って視覚ダビングが実行される映画の外国語版の映画製作パイプラインを示す。図１３の実線の矢印は、ビデオデータのパスを表し、破線の矢印は、オーディオデータのパスを表す。この例において、プロダクションピクチャラッシュ１３０２は、俳優の顔のインスタンスが検出されるとともに分離される（場合によっては解像度が低下した）フェイスオフプロセス１３０４を受ける。結果として生じる俳優の顔の分離されたインスタンスは、ニューラルネットワーク訓練１３０６に使用される。この例において、（異なるシーンは異なる視覚的特徴を有する可能性が高いという事実のために）各シーンで話す俳優ごとに別個のニューラルネットワークが訓練される。

【0127】

ニューラルネットワーク訓練１３０６が行われている間、プロダクションピクチャラッシュ１３０２及び関連するプロダクションオーディオラッシュ１３０８は、プロダクションピクチャラッシュからの最終作品に選ばれる映像が編集されるオフライン編集を含む第一言語（ＰＬ）編集ワークフロー１３１０で使用される。結果として得られるオフライン編集（画像及び音声）は、第二言語（ＳＬ）記録１３１２をガイドするために使用され、これは、第一言語の複数の俳優についての第二言語の複数の俳優及び／又は複数の第二言語での第二言語の複数の俳優の音声を記録することを有してもよい。この例において、ＳＬ記録１３１２は、ビデオ記録及びオーディオ記録を含む。他の例において、ＳＬ記録は、音声記録のみを含んでもよい。さらに、第一言語の俳優の顔のどのインスタンスを翻訳する必要があるかを決定するために、オフライン編集を使用してもよい。

【0128】

ＳＬ記録１３１２から得られるビデオデータ及び／又はオーディオデータは、視覚翻訳１３１４のためのドライビングデータとして使用され、この場合、映画に組み込むために必要に応じて第一言語の俳優の顔の写真のようにリアルな描写の翻訳されたインスタンスを生成するために、１３０６で訓練されたニューラルネットワークを使用する。結果として生じる翻訳されたインスタンスは、翻訳されたインスタンスがフル解像度マスター画像と結合されるフェイスオンプロセス１３１６を受ける。次に、必要に応じてＶＦＸ１３１８が適用され、その後、配信用の最終的な第二言語マスター画像１３２２を作成するために、フル解像度マスター画像と第二言語オーディオのマスタリング１３２０を行う。

【0129】

上記の実施形態は、本発明の例示的な例として理解されるべきである。本発明の別の実施形態が想定される。例えば、視覚ダビングとの関連で、様々な映画のような様々なソースからの俳優の映像で機械学習モデルを訓練し、機械学習モデルを、後に新しい映画での俳優の視覚ダビングに使用することができる。(例えば、更に洗練された照明モデルを含む)十分に表現力豊かな合成モデルが使用される場合、本明細書で説明する方法は、異なる視覚的特徴を持つシーン又は映画内の俳優の写真のようにリアルな描写のレンダリング又は実際には異なる俳優のレンダリングを生成できるようにしてもよい。後者の場合、一般的な機械学習モデルは、例えば、オプションで様々な視覚的特徴を持つシーンで多くの異なる人間の顔のインスタンスで訓練されてもよく、十分に表現力豊かな合成モデルのパラメータ値に応じて、様々な異なる人間の顔の写真のようにリアルなレンダリングを生成できるようにしてもよい。さらに、合成モデル及び機械学習モデルを使用してオブジェクトの修正されたインスタンスをレンダリングするための本明細書に記載の特定の技術が例示にすぎず、オブジェクトの第１のインスタンスをオブジェクトの修正された第１のインスタンスに置換するための本明細書に記載の方法を修正された第１のインスタンスを生成する他の方法と同様に使用することができることに留意されるべきである。そのような方法のいくつかは、合成モデルと上述したニューラルネットワークモデルのような機械学習モデルとの組合せを利用するのに対し、他の方法は、明示的な合成モデルの使用を省略し、代わりに、ニューラルラディアンスフィールド並びにＳｔｙｌｅＧＡＮ及びその変形のような特定のＧＡＮベースのアプローチの場合のように、ニューラルネットワークによって暗黙的にオブジェクトをモデル化してもよい。オブジェクトの明示的モデル又は暗黙的モデルに基づいてオブジェクトの写真のようにリアルな描写のインスタンスを生成するように構成及び訓練されたニューラルネットワークは、ニューラルレンダラと呼ばれる場合がある。

【0130】

本明細書で説明する方法を、映画内に出現する人間の顔以外のオブジェクトの詳細な編集に使用してもよい。例えば、方法を、人間全体、動物、乗り物等を巧みに処理するために使用してもよい。さらに、例えば、修正の結果としてオブジェクトの輪郭が移動する場合、修正されたオブジェクトをビデオに合成し直すために、ディープ修復を使用してもよい。

【0131】

任意の一つの実施形態に関連して説明される任意の特徴を単独で又は説明される他の特徴と組み合わせて使用してもよいこと及び任意の一つの実施形態に関連して説明される任意の特徴を任意の他の実施形態の一つ以上の特徴と組み合わせて又は他の実施形態と任意に組み合わせて使用してもよいことを理解されたい。さらに、添付した特許請求の範囲で定義される本発明の範囲から逸脱することなく、上記に記載されていない均等物及び変更を使用してもよい。

【図1】