IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フローレス ホールディングス リミティドの特許一覧

<>
  • 特表-映画におけるオブジェクトの修正 図1
  • 特表-映画におけるオブジェクトの修正 図2
  • 特表-映画におけるオブジェクトの修正 図3
  • 特表-映画におけるオブジェクトの修正 図4
  • 特表-映画におけるオブジェクトの修正 図5A
  • 特表-映画におけるオブジェクトの修正 図5B
  • 特表-映画におけるオブジェクトの修正 図5C
  • 特表-映画におけるオブジェクトの修正 図6
  • 特表-映画におけるオブジェクトの修正 図7
  • 特表-映画におけるオブジェクトの修正 図8
  • 特表-映画におけるオブジェクトの修正 図9
  • 特表-映画におけるオブジェクトの修正 図10
  • 特表-映画におけるオブジェクトの修正 図11
  • 特表-映画におけるオブジェクトの修正 図12
  • 特表-映画におけるオブジェクトの修正 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-21
(54)【発明の名称】映画におけるオブジェクトの修正
(51)【国際特許分類】
   G06T 19/00 20110101AFI20240514BHJP
   G06T 1/00 20060101ALI20240514BHJP
   G06T 5/60 20240101ALI20240514BHJP
   H04N 23/60 20230101ALI20240514BHJP
   H04N 5/222 20060101ALI20240514BHJP
【FI】
G06T19/00 A
G06T1/00 340A
G06T5/60
H04N23/60 500
H04N5/222 800
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023573083
(86)(22)【出願日】2022-05-26
(85)【翻訳文提出日】2023-11-24
(86)【国際出願番号】 GB2022051338
(87)【国際公開番号】W WO2022248863
(87)【国際公開日】2022-12-01
(31)【優先権主張番号】63/193,553
(32)【優先日】2021-05-26
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/203,354
(32)【優先日】2021-07-19
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/561,356
(32)【優先日】2021-12-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523444800
【氏名又は名称】フローレス ホールディングス リミティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【弁理士】
【氏名又は名称】森本 有一
(72)【発明者】
【氏名】スコット マン
(72)【発明者】
【氏名】ヒョンウ キム
(72)【発明者】
【氏名】ショーン ダニシェフスキー
(72)【発明者】
【氏名】ロブ ホール
(72)【発明者】
【氏名】ギャリー マイルズ スクリオン
【テーマコード(参考)】
5B050
5B057
5C122
【Fターム(参考)】
5B050BA09
5B050BA12
5B050CA07
5B050DA04
5B050EA07
5B050EA18
5B050EA19
5B050EA27
5B050EA28
5B050FA02
5B050GA08
5B057BA02
5B057CA12
5B057CA16
5B057CB13
5B057CB17
5B057CD14
5B057CF10
5B057DA08
5B057DA16
5B057DC09
5B057DC17
5B057DC40
5C122DA42
5C122EA61
5C122FH04
5C122FH10
5C122FH11
5C122FH12
5C122FH14
5C122FH18
5C122FH22
5C122FH23
5C122GA01
5C122HA13
5C122HA35
5C122HA42
5C122HA46
5C122HB01
5C122HB02
5C122HB05
5C122HB06
(57)【要約】
オブジェクトの第1のインスタンスを含む画像フレームの第1のシーケンスを含むビデオデータを処理するコンピュータ実行方法。方法は、画像フレームの第1のシーケンス内でオブジェクトの第1のインスタンスを分離することと、オブジェクトの分離された第1のインスタンスを使用して、オブジェクトの合成モデルの第1のパラメータ値を決定することと、オブジェクトの合成モデルの第1のパラメータ値を修正することと、訓練された機械学習モデル及びオブジェクトの合成モデルの修正された第1パラメータ値を使用して、オブジェクトをレンダリングすることと、画像フレームの第1シーケンス内のオブジェクトの第1インスタンスの少なくとも一部を、オブジェクトの修正された第1のインスタンスの対応する少なくとも一部に置換することと、を備える。
【特許請求の範囲】
【請求項1】
画像フレームのシーケンスを含むビデオデータを処理するコンピュータ実行方法であって、
前記画像フレームの前記シーケンス内のオブジェクトのインスタンスを分離することと、
機械学習モデルを使用して、前記オブジェクトの修正された前記インスタンスを生成することと、
前記画像フレームの前記シーケンスのサブシーケンスに亘って、前記オブジェクトの分離された前記インスタンスの少なくとも一部と前記オブジェクトの修正された前記インスタンスの対応する少なくとも一部との間で漸進的に遷移するように前記ビデオデータを修正することと、
を備えるコンピュータ実行方法。
【請求項2】
前記ビデオデータを修正することは、
前記オブジェクトの合成モデルのパラメータ値を決定することであって、第1のパラメータ値は、前記オブジェクトの分離された前記インスタンスに対応することと、
前記オブジェクトの前記合成モデルの第2のパラメータ値を決定するために、前記オブジェクトの前記合成モデルの前記第1のパラメータ値を修正することであって、前記第2のパラメータ値は、前記オブジェクトの修正された前記インスタンスに対応することと、
前記画像フレームの前記シーケンスの前記サブシーケンスに亘って前記第1のパラメータ値と前記第2のパラメータ値との間を段階的に補間し、それによって、前記オブジェクトの前記合成モデルの補間されたパラメータ値を決定することと、
前記機械学習モデルを使用して、補間された前記パラメータ値に基づいて、前記オブジェクトの段階的に修正された前記インスタンスを生成することと、
前記オブジェクトの分離された前記インスタンスを、前記画像フレームの前記シーケンスの前記サブシーケンス内で前記オブジェクトの段階的に修正された前記インスタンスに置換することと、
を備える、請求項1に記載のコンピュータ実行方法。
【請求項3】
前記ビデオデータを修正することは、
前記画像フレームの前記シーケンスの前記サブシーケンスについて、前記オブジェクトの前記インスタンスを前記オブジェクトの修正された前記インスタンスに関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、
前記オブジェクトの段階的にワーピングした前記インスタンスを決定するために、前記画像フレームの前記シーケンスの前記サブシーケンスに亘って、推定された前記ワーピングを前記オブジェクトの前記インスタンスに段階的に適用することと、
前記オブジェクトの段階的にワーピングした修正された前記インスタンスを決定するために、前記画像フレームの前記シーケンスの前記サブシーケンスに亘って、推定された前記ワーピングの逆を前記オブジェクトの修正された前記インスタンスに段階的に適用することと、
前記画像フレームの前記シーケンスの前記サブシーケンスに亘って、前記オブジェクトの段階的にワーピングした第1のインスタンスを段階的にワーピングした前記オブジェクトの修正された前記第1のインスタンスに段階的にディゾルブすることと、
を備える、請求項1又は2に記載のコンピュータ実行方法。
【請求項4】
段階的にディゾルブすることは、所定のディゾルブレートで行われ、
推定された前記ワーピング及び推定された前記ワーピングの逆を段階的に適用することは、所定のワーピングレートで行われ、
前記ワーピングレートに対する前記ディゾルブレートの比は、前記画像フレームの前記シーケンスの前記サブシーケンス内で最大値まで増加した後に減少する、請求項3に記載のコンピュータ実行方法。
【請求項5】
前記画像フレームの前記シーケンスに亘って前記オブジェクトの前記インスタンスを前記オブジェクトの修正された前記インスタンスに関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、
前記オブジェクトのワーピングした前記インスタンスを決定するために、推定されたワーピングを前記オブジェクトの前記インスタンスに適用することと、
前記オブジェクトのワーピングした前記インスタンスをぼかすことと、
前記オブジェクトの修正された前記インスタンスをぼかすことと、
前記オブジェクトのカラーグレーディングした修正された前記インスタンスを生成するために、前記オブジェクトのぼかされているワーピングした前記インスタンスと前記オブジェクトのぼかされている修正された前記インスタンスとの画素単位との比に基づいて、前記オブジェクトの修正された前記インスタンスの色を調整することと、
ビデオデータの修正の前に、前記オブジェクトの修正された前記インスタンスを、前記オブジェクトのカラーグレーディングした修正された前記インスタンスに更新することと、
を更に備える、請求項1~3のいずれか一項に記載のコンピュータ実行方法。
【請求項6】
前記オブジェクトのワーピングした前記インスタンスをぼかすこと及び前記オブジェクトの修正された前記インスタンスをぼかすことの各々を、3~20画素の固有長スケールを有するぼかしフィルタを使用して実行する、請求項5に記載のコンピュータ実行方法。
【請求項7】
前記オブジェクトは、人間の顔である、請求項1~5のいずれか一項に記載のコンピュータ実行方法。
【請求項8】
前記オブジェクトの分離された前記インスタンスの少なくとも一部は、人間の顔の口を含むが目を除く、請求項7に記載のコンピュータ実行方法。
【請求項9】
前記画像フレームの前記シーケンス及び/又は前記画像フレームの前記シーケンスに関連付けられたオーディオトラックのイベントを検出することと、
検出された前記イベントが発生する前記画像フレームの前記シーケンスのうちの一つ以上の画像フレームを決定することと、
検出された前記イベントが発生する決定した一つ以上の画像フレームに応じて、前記画像フレームの前記シーケンスの前記サブシーケンスを決定することと、
を更に備える、請求項1~8のいずれか一項に記載のコンピュータ実行方法。
【請求項10】
前記画像フレームの前記シーケンスの前記サブシーケンスを決定することは、前記イベントが発生する前に前記サブシーケンスが終了するようにすることである、請求項9に記載のコンピュータ実行方法。
【請求項11】
前記オブジェクトは人間の顔であり、前記イベントは人間の顔が話し始めることである、請求項9又は10に記載のコンピュータ実行方法。
【請求項12】
前記画像フレームの前記シーケンスの前記サブシーケンスは、前記画像フレームの前記シーケンスの第1のサブシーケンスであり、
前記ビデオデータを修正することは、前記オブジェクトの分離された前記インスタンスの少なくとも一部から前記オブジェクトの修正された前記インスタンスの対応する少なくとも一部に漸進的に遷移することであり、
前記画像フレームの前記シーケンスの第2のサブシーケンスに亘って、前記オブジェクトの修正された前記インスタンスの少なくとも一部から前記オブジェクトの修正された前記インスタンスの対応する少なくとも一部に漸進的に遷移するために前記ビデオデータを更に修正することを備える、請求項1~11のいずれか一項に記載のコンピュータ実行方法。
【請求項13】
前記オブジェクトの修正された前記インスタンスを生成することは、
前記オブジェクトの分離された前記インスタンスを使用して、前記オブジェクトの合成モデルのパラメータ値を決定することと、
前記オブジェクトの前記合成モデルのパラメータ値を修正することと、
訓練された前記機械学習モデル及び前記オブジェクトの前記合成モデルの修正された前記パラメータ値を使用して、前記オブジェクトの修正された前記インスタンスをレンダリングすることと、
を備える、請求項1~12のいずれか一項に記載のコンピュータ実行方法。
【請求項14】
前記画像フレームの前記シーケンスは、前記画像フレームの第1のシーケンスであり、前記オブジェクトの前記インスタンスは、前記オブジェクトの第1のインスタンスであり、前記オブジェクトの前記インスタンスの前記パラメータ値は、前記オブジェクトの第2のインスタンスについての第2のパラメータ値であり、
前記画像フレームの複数の第2のシーケンス内で前記オブジェクトの各々の前記第2のインスタンスを識別することと、
前記オブジェクトの識別された前記第2のインスタンスの少なくともいくつかについて、
前記オブジェクトの前記インスタンスを含む前記画像フレーム内で前記オブジェクトの前記第2のインスタンスを分離することと、
前記オブジェクトの分離された前記第2のインスタンスを使用して、前記オブジェクトの前記合成モデルの関連する前記第2のパラメータ値を決定することと、
前記オブジェクトの分離された前記第2のインスタンス及び前記オブジェクトの前記合成モデルの関連する前記第2のパラメータ値を使用して、前記オブジェクトの前記合成モデルの関連する第2のパラメータ値に少なくとも部分的に基づいて、前記オブジェクトの分離された前記第2のインスタンスを再構築するために、前記機械学習モデルを訓練することと、
を更に備える、請求項13に記載のコンピュータ実行方法。
【請求項15】
プログラムがコンピュータによって実行されるとき、請求項1~14のいずれか一項に記載の方法を前記コンピュータに実行させる命令を備えるコンピュータプログラム製品。
【請求項16】
ビデオデータを記憶する非一時的な記憶媒体であって、前記ビデオデータは、
オブジェクトの写真表現を含む画像フレームの第1のシーケンスと、
前記オブジェクトの前記写真表現の少なくとも一部が前記オブジェクトの合成表現の対応する少なくとも一部に置換される前記画像フレームの第2のシーケンスと、
前記画像フレームの前記第1のシーケンスと前記画像フレームの前記第2のシーケンスとの間の前記画像フレームの第3のシーケンスであって、前記画像フレームの前記第1のシーケンスの最後にある前記オブジェクトの前記写真表現の少なくとも一部と前記画像フレームの前記第2のシーケンスの最初にある前記オブジェクトの前記合成表現の対応する少なくとも一部との間で漸進的に遷移するために、前記オブジェクトの前記写真表現の少なくとも一部が修正された、第3のシーケンスと、
を含む、非一時的な記憶媒体。
【請求項17】
前記オブジェクトの前記合成表現は、ニューラルレンダラーを使用して生成された合成表現である、請求項16に記載の非一時的な記憶媒体。
【請求項18】
前記オブジェクトの前記写真表現の少なくとも一部を修正することは、前記オブジェクトの前記写真表現の少なくとも一部の前記オブジェクトの前記合成表現の少なくとも一部へのワーピング及びディゾルブを同時に行うことを備え、
前記ワーピングは、所定のワーピングレートで段階的に行われ、
前記ディゾルブは、所定のディゾルブレートで段階的に行われ、
前記ワーピングレートに対する前記ディゾルブレートの比は、前記画像フレームの前記第3のシーケンス内で最大値まで増加した後に減少する、請求項16又は17に記載の非一時的な記憶媒体。
【請求項19】
前記オブジェクトの前記合成表現は、前記オブジェクトの第1の合成表現であり、
前記オブジェクトの前記写真表現の少なくとも一部を修正することは、前記オブジェクトの第2の合成表現と前記オブジェクトの前記第1の合成表現との間を段階的に補間することを備え、
前記オブジェクトの前記第2の合成表現は、前記オブジェクトの前記写真表現に幾何学的に対応する、請求項16~18のいずれか一項に記載の非一時的な記憶媒体。
【請求項20】
前記オブジェクトは人間の顔である、請求項16~19のいずれか一項に記載の非一時的な記憶媒体。
【請求項21】
前記オブジェクトの分離されたインスタンスの少なくとも一部は、人間の顔の口を含むが目を除く、請求項19に記載の非一時的な記憶媒体。
【請求項22】
請求項1~14のいずれかに記載の方法を使用して製造されたオーディオビジュアル製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映画内のオブジェクト又はオブジェクトの一部を修正することに関する。本発明は、外国語長編映画の視覚的ダビングに特に関連するが、それに限定されるものではない。
【背景技術】
【0002】
実写長編映画の制作(映画制作)は、時間のかかる高価なプロセスであり、典型的には、時間及び資源に関する厳しい制約の下で多数の相互依存的なタスクを実行する多数の熟練した専門家の関与を必要とする。典型的な映画制作プロセスは、複数の撮影にまたがる制作段階を含み、そこでは、映画の各シーンの複数のテイクについて、(音声を伴う)生のビデオ映像が撮影される。撮影後の段階では、オフライン編集を行うために、編集者や監督によって選択された部分が組み立てられる前に生の映像がコピーされるとともに圧縮される。その後、オフライン編集に対応する生のビデオ映像のセクションを取得し、音声が混合され、編集され、必要に応じて再録音される間に必要に応じて視覚効果(VFX)が適用される。映画のマスターコピーが納品される前に、出来上がった映像及び音声は、カラーグレーディングのような追加工程を行ってもよい仕上げ段階に入る。
【0003】
映画製作プロセスに関わる作業の高コスト及び相互依存性並びに典型的な時間的制約及び天候及び俳優の利用可能性のような要因の変動性は、映画のシーンを撮り直すことがほとんど実行可能でないことを意味する。したがって、映画を、必要に応じてVFXが適用される最初の制作段階で作成された映像から構成する必要がある。制作段階は、典型的には、何百時間もの高解像度の生のビデオ映像を生成するが、最終的に映画に使用されるのはそのうちのごく一部である。生の映像は、俳優の(一つ以上の)演技及び天候、背景、照明等のような条件の望ましい組み合わせを捉えていない可能性があり、条件を、VFX段階及び仕上げ段階中に限られた範囲でのみ修正することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
映画制作プロセスが完了するとき、映画のマスターコピーは、映画館、ストリーミングサービス、テレビ等での上映用に配信される。映画によっては、外国語版がオリジナル映画と並行して制作され、外国語版がオリジナル映画と同時に配信されることもある。映画の外国語版は、典型的には、希望の言語で台詞を再現するためにテキスト字幕又は音声ダビングを使用する。いずれの場合も、外国語版はオリジナル映画のニュアンス及びクオリティの多くを失うと一般的に受け止められている。
【課題を解決するための手段】
【0005】
第1の態様によれば、複数の画像フレームのシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンスの少なくともいくつか内のオブジェクトの各々のインスタンスを識別することを有する。オブジェクトの識別されたインスタンスの少なくともいくつかについて、方法は、オブジェクトの前記インスタンスを含む画像フレーム内でオブジェクトの前記インスタンスを分離することと、オブジェクトの分離されたインスタンスを使用して、オブジェクトの合成モデルの関連するパラメータ値を決定することと、を有する。方法は、オブジェクトの合成モデルの関連するパラメータ値に少なくとも部分的に基づいて、分離されたオブジェクトのインスタンスを再構成するために、機械学習モデルを訓練することを有する。方法は、画像フレームの第1のシーケンス内に出現するオブジェクトの第1のインスタンス及びオブジェクトの合成モデルに対する関連する第1のパラメータ値について、第1のパラメータ値を修正することと、訓練された機械学習モデル及びオブジェクトの合成モデルに対する修正された第1のパラメータ値を使用して、オブジェクトの修正された第1のインスタンスをレンダリングすることと、画像フレームの第1のシーケンス内のオブジェクトの第1のインスタンスの少なくとも一部を、オブジェクトの修正された第1のインスタンスの対応する少なくとも一部に置換することと、を有する。
【0006】
ビデオデータ内から分離されたオブジェクトのインスタンスを再構成するために機械学習モデルを訓練することによって、本方法論は、従来のVFXの能力を超えるビデオデータの写真のようにリアルな描写の「ディープ編集」を可能にする。画像フレームの複数のシーケンスは、例えば、長編映画内のシーンの様々なテイクの映像に対応してもよく、比較的一貫した照明/環境条件下で機械学習モデルに豊富な学習データを提供することができる。画像フレームの第1のシーケンスは、画像フレームの複数のシーケンスのうちの一つであってもよい又は画像フレームの複数のシーケンスのうちの一つでなくてもよい。 方法論は、映画制作パイプラインへの統合に適しており、機械学習モデルの訓練は、オフライン編集プロセスと並行して行われ、オフライン編集プロセスと同一のビデオデータを使用する可能性がある。
【0007】
オブジェクトは、特定の人間の顔であってもよく、この場合、方法を、映画の外国語版の視覚ダビング又は特定のシーンの特定のテイクの俳優の演技を同一のシーンの別のテイク、別のシーン若しくは別の映画に移し替える演技移し替えのような用途に使用してもよい。オブジェクトの少なくとも一部は、口を含むが目を除く人間の顔の一部であってもよい。本発明者は、顔のこの領域のみを置換することによって俳優の演技への影響を最小限に抑えながらリアルな視覚ダビング又は演技の移し替えを実現できることを見い出した。
【0008】
第1のパラメータ値を修正することは、オブジェクトの合成モデルに対する目標パラメータ値を決定することと、画像フレームの第1のシーケンスのサブシーケンスに亘って第1のパラメータ値と目標パラメータ値との間を漸進的に補間することと、を有してもよい。補間は、線形補間及び/又は非線形補間を有してもよい。このようにして、元の第1のインスタンスを、平滑で継ぎ目のない様式で、修正された第1のインスタンスに漸進的に遷移できるようにしてもよい。さらに、元の第1のインスタンスからの修正された第1のインスタンスの偏差を、オブジェクトインスタンスの連続的なディープ編集を可能にするために増大及び減少させることができる。例えば、第1のインスタンスを修正する目的がオーディオトラックと一致させることである場合、偏差は、元の第1のインスタンスとオーディオトラックとの間の不一致が最も顕著になるときに最大になり得る。これにより、所望の結果を達成しながら元の映像において知覚される影響を最小限に抑えることができる。
【0009】
上述したように第1のパラメータ値が漸進的に補間される例において、コンピュータ実行方法は、画像フレームのシーケンス及び/又は画像フレームの第1のシーケンスに関連付けられたオーディオトラックにおいてイベントを検出することと、検出されたイベントが発生する画像フレームの第1のシーケンスの一つ以上の画像フレームを決定することと、検出されたイベントが発生する決定された一つ以上の画像フレームに応じて、画像フレームの第1のシーケンスのサブシーケンスを決定することと、を更に有してもよい。例えば、画像フレームの第1のシーケンスのサブシーケンスを、イベントが発生する前にサブシーケンスが終了するように決定してもよい。したがって、オブジェクトの第1のインスタンスは、イベント発生時に最大の修正を受ける可能性がある。視覚ダビングとの関連で、イベントは、例えば、第一言語又は第二言語のいずれかで破裂音又は両唇鼻音が発声されるイベントであってもよく、その理由は、これが第一言語と第二言語との間の視覚的不一致が最も顕著になるときであるからである。
【0010】
機械学習モデルは、出力画像を生成するために一つ以上の入力画像を処理するように構成されたディープニューラルネットワークを有してもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、オブジェクトのインスタンスを分離することは、オブジェクトのインスタンスを含む前記画像フレームの各々の登録された部分を生成することを有してもよく、機械学習モデルを訓練することは、前記オブジェクトのインスタンスを含む前記画像フレームの各々について、前記合成モデル及び前記合成モデルの関連するパラメータ値を使用して、前記オブジェクトのインスタンスの一部の合成画像をレンダリングすることと、前記オブジェクトのインスタンスを含む前記画像フレームの各々について、各々の合成画像を生成するために、前記オブジェクトのインスタンスの前記一部の合成画像を、前記オブジェクトのインスタンスを含む前記画像フレームの各々の登録された部分に重ね合わせることと、前記オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像を処理するようにディープニューラルネットワークを敵対的に訓練することと、を有してもよい。合成画像をディープニューラルネットワークへの入力として提供することによって、ネットワークは、照明、色及び修正されるオブジェクトインスタンスの少なくとも一部の外側の領域から導出可能な他の特性を考慮する方法を学習することができ、同時に、オブジェクトインスタンスの修正された部分を元の画像フレームにシームレスに統合するための現実的な修復を実行することを学習することもできる。他の例において、合成画像に加えて又は合成画像の代替として、オブジェクトのインスタンス全体の合成画像を、ディープニューラルネットワークへの入力として提供してもよい。
【0011】
ディープニューラルネットワークは、出力画像を生成するために、一つ以上の入力画像の各々と共にアテンションマスクを処理するように構成されてもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、機械学習モデルを訓練することは、オブジェクトの前記インスタンスを含む前記画像フレームの各々について、オブジェクトの前記インスタンスの一つ以上の特徴を強調する各々のアテンションマスクを生成することと、オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像と共に各々のアテンションマスクを処理するようにディープニューラルネットワークを訓練することと、を有してもよい。ディープニューラルネットワークに独立した入力としてアテンションマスクを提供することによって、ネットワークは、アテンションマスクによって誘導されるように、合成画像の特定の領域に注意を集中させることを学習してもよい。アテンションマスクは、オブジェクトの種々の特徴を強調する一つ以上のレイヤーを有してもよい。各々のアテンションマスクは、例えば、オブジェクトのインスタンスを背景領域から分離するセグメンテーションマスク、及び/又は、オブジェクトが顔である場合の顔の特徴のような他の特徴を示すマスクを有してもよい。アテンションマスクを、合成画像と共にオブジェクトの合成モデルから生成してもよい。ディープニューラルネットワークの敵対的訓練は、アテンションマスクによって規定されたオブジェクト領域に限定された敵対的損失を使用してもよく、オブジェクト領域を忠実に再構成するためにディープニューラルネットワークの努力を集中させる。
【0012】
ディープニューラルネットワークの敵対的訓練は、敵対的損失及び一つ以上の別の損失関数、例えば、オブジェクトの分離されたインスタンスの少なくとも一つのフレームとオブジェクトの分離されたインスタンスの再構成された少なくとも一つのフレームとの間の測光差を示す知覚的損失関数又は測光的損失関数を使用してもよい。(一つ以上の)別の損失関数を、各々のアテンションマスクによって規定されるオブジェクト領域に限定してもよい。測光的損失及び/又は知覚的損失を敵対的損失と組み合わせて使用することにより、ネットワークは、オブジェクトの元のインスタンスの写真のようにリアルな描写の再構成を生成することを教示する。測光的損失は、小さな測光差の寄与を低減するように修正されたL2損失であってもよく、本発明者は、ディープニューラルネットワークによって生成されるレンダリングにおけるアーティファクトを低減することを見い出した。
【0013】
ディープニューラルネットワークは、出力画像を生成するために、一つ以上の入力画像の各々と共に投影STマップを処理するように構成されてもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、機械学習モデルを訓練することは、オブジェクトの前記インスタンスを含む前記画像フレームの各々について各々の投影STマップを生成することであって、各々の投影STマップは、オブジェクトの合成モデルのテクスチャ座標に対応する画素値を有することと、オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像と共に各々の投影STマップを処理するようにディープニューラルネットワークを訓練することと、を有してもよい。投影STマップは、ディープニューラルネットワークがオブジェクトの表面領域を合成画像の位置に関連付けるために使用することができる入力を提供してもよく、オブジェクトのインスタンスを正確に再構成するために、ディープニューラルネットワークの能力を高める。
【0014】
ディープニューラルネットワークは、出力画像を生成するために、一つ以上の入力画像の各々と共に投影ノイズマップを処理するように構成されてもよい。オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、機械学習モデルを訓練することは、オブジェクトの前記インスタンスを含む前記画像フレームの各々について各々の投影ノイズマップを生成することであって、各々の投影ノイズマップは、オブジェクトの合成モデルに適用されるノイズテクスチャの値に対応する画素値を有することと、オブジェクトの分離されたインスタンスの少なくとも一つのフレームを再構成するために、生成された合成画像と共に各々の投影ノイズマップを処理するようにディープニューラルネットワークを訓練することと、を有してもよい。投影ノイズマップは、ディープラーニングモデルがそのレンダリング出力内で空間依存テクスチャを構築することを学習することができる追加の入力を提供する。
【0015】
コンピュータ実行方法は、オブジェクトの識別されたインスタンスの前記少なくともいくつかについて、オブジェクトの分離されたインスタンスを色正規化することを有してもよく、機械学習モデルの訓練は、オブジェクトの色正規化した分離されたインスタンスを使用してもよい。分離されたインスタンスを色正規化することにより、学習データ全体を通して同様の照明条件がシミュレートされ、機械学習モデルのタスクが簡素化される。
【0016】
例において、オブジェクトの各々のインスタンスを識別することは、オブジェクトのインスタンスが画像フレームと共平面の軸に対して所定の範囲外の角度だけ回転している画像フレームを破棄することを有してもよい。場合によっては、全ての可能な向きでオブジェクトのインスタンスを再構成するために機械学習モデルを訓練することが困難なことがある。この問題に対処するため、方法は、異なる視点からのオブジェクトのビューを全く異なるオブジェクトとして扱い、それに応じて、これらのために別々のモデルを訓練してもよい。
【0017】
オブジェクトの識別されたインスタンスの前記少なくともいくつかに対する合成モデルの関連するパラメータ値は、オブジェクトのベースジオメトリをエンコードするベースパラメータ値と、オブジェクトのインスタンスを含む各前記画像フレームについてオブジェクトのベースジオメトリの変形をエンコードする変形パラメータ値と、を有してもよい。そして、合成モデルの第1のパラメータ値は、画像フレームの第1のシーケンスの画像フレームの各々についてオブジェクトのベースジオメトリの各々の変形をエンコードする第1の変形パラメータ値を有してもよい。第1のパラメータ値を修正することは、第1の変形パラメータ値を修正することを有してもよい。いくつかの使用例において、オブジェクトの所望の修正は、非剛体オブジェクトの変形であり、この場合、変形パラメータ値のみを修正する必要があってもよい。
【0018】
第1の変形パラメータ値を修正することは、第2のオブジェクト(第2のオブジェクトは、第1のオブジェクトと同一のオブジェクトであってもよい又は第1のオブジェクトとは異なるオブジェクトであってもよい)のインスタンスを含む画像フレームの第2のシーケンスを取得することと、分離された第2のインスタンスデータを生成するために、画像フレームの第2のシーケンス内で第2のオブジェクトのインスタンスを分離することと、分離された第2のインスタンスデータを使用して、合成モデルの第2のパラメータ値を決定することであって、第2のパラメータ値は、画像フレームの前記第2のシーケンスの画像フレームの各々に対する第2のオブジェクトのベースジオメトリの変形をエンコードする第2の変形パラメータ値を含むことと、第2の変形パラメータ値を使用して第1の変形パラメータ値を更新することと、を有してもよい。このようにして、画像フレームの第2のシーケンスは、第1の変形パラメータ値を修正するためのドライビングデータとして使用される。視覚ダビングの場合、第2のオブジェクトは、典型的には、ダビングを行う俳優の顔に対応する。演技の移し替えの場合、第2のオブジェクトは、典型的には、元の俳優の顔に対応する。
【0019】
画像フレームの第1のシーケンスは、画像フレームの複数のシーケンスよりも高い解像度であってもよい。この場合、オブジェクトの修正された第1のインスタンスをレンダリングすることは、複数の画像フレームと一致する解像度で中間的な第1のインスタンスをレンダリングすることと、修正された第1のインスタンスをレンダリングするために中間的な第1のインスタンスに超解像ニューラルネットワークを適用することと、を有してもよい。これにより、機械学習モデルを低解像度の画像データを使用して訓練することが可能になり、訓練の計算要求が大幅に低減され、同時に、高解像度のビデオデータに組み込むのに適した高解像度のレンダリングを生成することが可能になる。
【0020】
オブジェクトの第1のインスタンスは、オブジェクトの識別されたインスタンスのうちの前記少なくともいくつかのインスタンスのいずれとも異なる形態であってもよく、この場合、方法は、画像フレームの第1のシーケンスを取得することと、画像フレームの第1のシーケンス内でオブジェクトの前記第1のインスタンスを分離することと、オブジェクトの分離された第1のインスタンスを使用して、オブジェクトの合成モデルのための第1のパラメータ値を決定することと、を更に有してもよい。代替的には、オブジェクトの第1のインスタンスは、オブジェクトの識別されたインスタンスの前記少なくともいくつかのうちの一つであってもよい。
【0021】
第2の態様によれば、複数の画像フレームのシーケンスを含むソースビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンスの少なくともいくつか内でオブジェクトの各々のインスタンスを検出することと、画像フレームの第1のシーケンス内で検出されたオブジェクトの第1のインスタンスについて、画像フレームの第1のシーケンスのオブジェクトの第1のインスタンスのフレーム単位の位置及びサイズを決定することと、オブジェクトの修正されたインスタンスを含む置換ビデオデータを取得するために、ニューラルレンダラを使用することと、画像フレームの第1のシーケンスのオブジェクトの第1のインスタンスの少なくとも一部をオブジェクトの修正されたインスタンスの少なくとも一部に置換するために、決定されたフレーム単位の位置及びサイズを使用することと、を有する。
【0022】
置換ビデオデータを取得することは、ソースビデオデータの画像フレームの各々のシーケンス内で検出されたオブジェクトの一つ以上のインスタンスの各々について、オブジェクトの各々のインスタンスの3次元合成モデルを生成するために、画像フレームのシーケンスの各々の画像フレームの各々の少なくとも一部を処理することと、オブジェクトの各々のインスタンスの3次元合成モデルから合成画像の各々のシーケンスを生成することと、合成画像の各々のシーケンスを使用してオブジェクトの各々のインスタンスを再構成するために、ニューラルレンダラを訓練することと、を有してもよい。オブジェクトの第1のインスタンスの3次元合成モデルについて、方法は、3次元合成モデルを修正することと、修正された3次元合成モデルから合成画像の第1のシーケンスを生成することと、訓練されたニューラルレンダラ及び生成された合成画像の第1のシーケンスを使用して置換ビデオデータを生成することと、を有してもよい。
【0023】
方法は、オブジェクトの一つ以上のインスタンスの各々について、画像フレームの各々のシーケンス内のオブジェクトの各々のインスタンスを含むボックスのフレーム単位の位置を決定することと、画像フレームのシーケンスの各々の画像フレームの各々の少なくとも一部を、ボックス内に含まれる部分として決定することと、を有してもよい。方法は、画像フレームの各々のシーケンスの全ての画像フレームについて、各々のインスタンスがボックス内に含まれるように、ボックスのサイズを決定することを更に有してもよい。
【0024】
オブジェクトの一つ以上のインスタンスの各々について、3次元合成モデルを生成することは、オブジェクトの各々のインスタンスのランドマークを追跡することと、追跡されたランドマークの位置に応じて、3次元合成モデルを生成することと、を有してもよい。
【0025】
方法は、オブジェクトの一つ以上のインスタンスの各々について、生成された3次元合成モデルを使用して、画像フレームの各々のシーケンスの画像フレームの各々についてオブジェクトの各々のインスタンスのポーズを決定することと、画像フレームのシーケンスの各々の画像フレーム各々について決定されたポーズを使用して、画像フレームのシーケンスの各々の画像フレーム間で略一定のサイズになるようにオブジェクトの各々のインスタンスを正規化することと、を有してもよい。
【0026】
オブジェクトは、第1のオブジェクトであってもよく、方法は、画像フレームのシーケンスの少なくともいくつか内でオブジェクトの各々のインスタンスを検出することと、オブジェクトの検出されたインスタンスの識別子を決定するために、オブジェクト認識を実行することと、第1のオブジェクトの複数のインスタンスの各々を共通の識別子を有するものとして識別することと、共通の識別子を有するものとして識別された第1のオブジェクトの複数のインスタンスの各々を再構成するために、ニューラルレンダラを訓練することと、を有してもよい。
【0027】
オブジェクトは、人間の顔であってもよく、オブジェクトの第1のインスタンスの前記少なくとも一部は、口を含むとともに目を除く顔の一部であってもよい。オブジェクトが顔である例において、3次元合成モデルを修正することは、発話を含むオーディオ及び/又はビデオの記録を含むドライビングデータを取得することと、発話に対応する3次元合成モデルの修正パラメータ値を決定するために、ドライビングデータを処理することと、3次元合成モデルを修正するために、修正パラメータ値を使用することと、を有してもよい。例えば、オブジェクトの第1のインスタンスは、第一言語で話す顔のインスタンスであってもよく、オーディオ及び/又はビデオの記録は、第一言語とは異なる第二言語による発話であってもよい。
【0028】
3次元合成モデルを修正することは、ドライビングデータにおいて発話が行われているときに応じて、3次元合成モデルのための修正されていないパラメータ値と3次元モデルのための修正されたパラメータ値との間を漸進的に遷移することを有してもよい。このようにして、表現の急激な変化を回避することができる。例えば、ドライビングデータにおける無関係な表情が処理後のビデオデータに出現することを回避するために、ドライビングデータにおいて発話が検出されたときにのみ修正パラメータ値を使用することが好適であることがある。例えば、ドライビングデータにおける発話に先行する時刻又は発話に後続する時刻において修正されていないパラメータ値の間で漸進的に遷移すること又はドライビングデータにおける発話に先行する時刻又は発話に後続する時刻において中立的な表情に対応するパラメータ値の間で漸進的に遷移することが好適であることがある。
【0029】
3次元合成モデルを修正することは、画像フレームの第1のシーケンスにおいて顔が話しているときを判定することと、画像フレームの第1のシーケンスにおいてオブジェクトの第1のインスタンスが話していると判定したときに、3次元合成モデルの口の動きの振幅を低減することと、を有してもよい。例えば、第一言語の俳優が話しているが、第二言語の俳優が話していないときに、第一言語の俳優の口の動きを抑制してもよい。
【0030】
3次元合成モデルを修正することは、ドライビングデータで検出された破裂音又は両唇鼻音に一致するように3次元合成モデルの口形状を修正することを有してもよい。破裂音又は両唇鼻音中の不正確な口形状は、視聴者にとって特に検出しやすく、したがって、これらの瞬時における合成モデルの正確な制御が特に適切であることがある。
【0031】
上記の方法のいずれかは、オブジェクトの修正されたインスタンスの少なくとも一部のフレーム単位の形状を示すマスクデータを取得することを有してもよく、所定のオブジェクトの少なくとも第1のインスタンスを所定のオブジェクトの置換されたインスタンスの少なくとも一部に置換することは、マスクデータを使用してもよい。例えば、マスクデータは、第1のマスクデータであってもよく、方法は、オブジェクトの第1のインスタンスの少なくとも一部のフレーム単位の形状を示す第2のマスクデータを取得することを有してもよい。オブジェクトの第1のインスタンスの少なくとも一部をオブジェクトの修正されたインスタンスの少なくとも一部に置換することは、第1のマスクデータと第2のマスクデータとの間の比較に基づいて、オブジェクトの第1のインスタンスの少なくとも一部の境界がオブジェクトの修正されたインスタンスの少なくとも一部の境界を超えると判定することと、オブジェクトの第1のインスタンスの少なくとも一部の境界とオブジェクトの修正されたインスタンスの少なくとも一部との間の画像フレームのシーケンス領域においてクリーンな背景生成を実行することと、を有してもよい。クリーンな背景生成は、修正されたインスタンスによる置換後に第1のインスタンスの意図しないアーティファクトが残る場合にオブジェクトの修正されたインスタンスのもっともらしい挿入を可能にすることがある。
【0032】
方法は、オブジェクトの第1のインスタンスのカラーパレットを、画像フレームのシーケンス全体を通して一貫するように調整することを有してもよい。これによって、照明の変化等に起因するカラーパレットの変動をモデル化する必要がなくなるので、機械学習モデル又はニューラルレンダラのタスクが簡素化される可能性がある。
【0033】
オブジェクトの第1のインスタンスの少なくとも一部をオブジェクトの修正されたインスタンスの少なくとも一部に置換することは、置換された部分と基礎となる画像フレームとの間の緩やかなブレンドを達成するために、オブジェクトの修正されたインスタンスの少なくとも一部のエッジを和らげることを有してもよい。
【0034】
上述した方法のいずれかについて、オブジェクトの第1のインスタンスの少なくとも一部を置換することは、時間窓内に入る画像フレームの第1のシーケンスのサブセットについて、オブジェクトの第1のインスタンスとオブジェクトの修正された第1のインスタンスとを関連付けるワーピングを推定するオプティカルフローデータを決定することと、オブジェクトの段階的にワーピングした第1のインスタンスを決定するために、画像フレームの第1のシーケンスのサブセットに亘って、推定されたワーピングをオブジェクトの第1のインスタンスに段階的に適用することと、オブジェクトの段階的にワーピングした修正された第1のインスタンスを決定するために、画像フレームの第1のシーケンスのサブセットに亘って、推定されたワーピングの逆をオブジェクトの修正された第1のインスタンスに段階的に適用することと、画像フレームの第1のシーケンスのサブセットに亘って、オブジェクトの段階的にワーピングした第1のインスタンスをオブジェクトの段階的にワーピングした修正された第1のインスタンスに段階的にディゾルブすることと、を有する。画像を段階的にワーピング及びディゾルブすることにより、段階的な変化が見えるような状況において、修正された第1のインスタンスを画像フレームの第1のシーケンスにシームレスに組み込むことが可能になる。
【0035】
段階的にディゾルブすることは、所定のディゾルブレートで行われてもよく、推定されたワーピング及び推定されたワーピングの逆を段階的に適用することは所定の、ワーピングレートで行われてもよい。ワーピングレートに対するディゾルブレートの比は、画像フレームのシーケンスのサブシーケンス内で最大値まで増加した後に減少してもよい。このようにして、段階的にディゾルブすることを、例えば、サブセットの画像フレームの中心セット内に集中してもよい。本発明者は、このようにディゾルブを集中させることによってオブジェクトの第1のインスタンスとオブジェクトの修正された第1のインスタンスとの間の更にシームレスな遷移を達成することができ、ワーピングの間に画像の鮮明さを維持することができることを見い出した。
【0036】
上述した方法のいずれかについて、オブジェクトの第1のインスタンスの少なくとも一部を置換することは、オブジェクトの第1のインスタンスとオブジェクトの修正された第1のインスタンスとを関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、オブジェクトのワーピングした第1のインスタンスを決定するために、推定されたワーピングをオブジェクトの第1のインスタンスに適用することと、オブジェクトのワーピングした第1のインスタンスをぼかすことと、オブジェクトの修正された第1のインスタンスをぼかすステップと、オブジェクトのカラーグレーディングした修正された第1のインスタンスを生成するために、オブジェクトのぼかされているワーピングした第1のインスタンスとオブジェクトのぼかされている修正された第1のインスタンスの画素単位の比に基づいて、オブジェクトの修正された第1のインスタンスの色を調整することと、オブジェクトの第1のインスタンスの少なくとも一部を、オブジェクトのカラーグレーディングした修正された第1のインスタンスの対応する少なくとも一部に置換することと、を有する。ぼかされているワーピングした第1のインスタンスとぼかされている修正された第1のインスタンスの画素単位の比は、修正された第1のインスタンスの色をオブジェクトの元の第1のインスタンスに一致させるためのカラーグレーディングマップを表し、オブジェクトの修正された第1のインスタンスに照明及び色の短いスケールの局所的な変化を再現することを可能にする。オブジェクトのワーピングしたインスタンスをぼかすこと及びオブジェクトの修正されたインスタンスをぼかすことを、3~20画素の固有長スケールを有するぼかしフィルタを使用して実行してもよい。
【0037】
上述した方法のいずれかについて、オブジェクトの第1のインスタンスの少なくとも一部を置換することは、オブジェクトの第1のインスタンスとオブジェクトの修正された第1のインスタンスとを関連付ける推定されたワーピングを示すオプティカルフローデータを決定することと、オブジェクトのワーピングした第1のインスタンスを決定するために、推定されたワーピングをオブジェクトの第1のインスタンスに適用することと、オブジェクトのワーピングした第1のインスタンスをぼかすことと、オブジェクトの修正された第1のインスタンスをぼかすことと、オブジェクトのカラーグレーディングした修正されたインスタンスを生成するために、オブジェクトのぼかされているワーピングしたインスタンスとオブジェクトのぼかされている修正されたインスタンスとの画素単位の比に基づいて、オブジェクトの修正された前記インスタンスの色を調整することと、オブジェクトの第1のインスタンスの少なくとも一部を、オブジェクトのカラーグレーディングした修正された第1のインスタンスの対応する少なくとも一部に置換することと、を有する。ぼかされているワーピングした第1のインスタンスとぼかされている修正された第1のインスタンスの画素単位の比は、修正された第1のインスタンスの色をオブジェクトの元の第1のインスタンスに一致させるためのカラーグレーディングマップを表し、オブジェクトの修正された第1のインスタンスに照明及び色の短いスケールの局所的な変化を再現することを可能にする。オブジェクトのワーピングしたインスタンスをぼかすこと及びオブジェクトの修正されたインスタンスをぼかすことを、3~20画素の固有長スケールを有するぼかしフィルタを使用して実行してもよい。
【0038】
第3の態様によれば、画像フレームの複数のシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンスの少なくともいくつか内でオブジェクトの各々のインスタンスを識別することを有する。オブジェクトの識別されたインスタンスの少なくともいくつかについて、方法は、オブジェクトの前記インスタンスを含む画像フレーム内でオブジェクトの前記インスタンスを分離することと、オブジェクトの分離されたインスタンスを使用して、オブジェクトの合成モデルの関連パラメータ値を決定することと、を有する。方法は、オブジェクトの合成モデルの関連パラメータ値に少なくとも部分的に基づいて、分離されたオブジェクトのインスタンスを再構成するために機械学習モデルを訓練することを有する。
【0039】
第4の態様によれば、オブジェクトの第1のインスタンスを含む画像フレームの第1のシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームの第1のシーケンス内でオブジェクトの前記第1のインスタンスを分離することと、オブジェクトの分離された第1のインスタンスを使用して、オブジェクトの合成モデルのための第1のパラメータ値を決定することと、第1のパラメータ値を修正することと、訓練された機械学習モデル及び修正された第1のパラメータ値を使用して、オブジェクトの修正された第1のインスタンスをレンダリングすることと、画像フレームの第1のシーケンス内のオブジェクトの第1のインスタンスの少なくとも一部を、オブジェクトの修正された第1のインスタンスの対応する少なくとも一部に置換することと、を有する。
【0040】
第5の態様によれば、画像フレームのシーケンスを含むビデオデータを処理するコンピュータ実行方法を提供する。方法は、画像フレームのシーケンス内でオブジェクトのインスタンスを分離することと、機械学習モデルを使用して、オブジェクトの修正されたインスタンスを生成することと、画像フレームのシーケンスのサブシーケンスに亘って、オブジェクトの分離されたインスタンスの少なくとも一部とオブジェクトの修正されたインスタンスの対応する少なくとも一部との間で漸進的に遷移するようにビデオデータを修正することと、を有する。
【0041】
画像フレームのシーケンスのサブシーケンスは、画像フレームのシーケンスの第1のサブシーケンスであってもよく、前記ビデオデータを修正することは、オブジェクトの分離されたインスタンスの少なくとも一部からオブジェクトの修正されたインスタンスの対応する少なくとも一部に漸進的に遷移することであってもよい。方法は、画像フレームのシーケンスの第2のサブシーケンスに亘って、オブジェクトの修正されたインスタンスの少なくとも一部からオブジェクトの分離されたインスタンスの対応する少なくとも一部に戻るように漸進的に遷移するようにビデオデータを修正することを更に有してもよい。このようにして、方法は、例えば、ビデオデータ及び/又は関連するオーディオデータ内の特定のイベントに応じて、オブジェクトの分離されたインスタンスからオブジェクトの修正されたインスタンスまで平滑に又は漸進的に遷移して再び戻るようにしてもよい。
【0042】
第6の態様によれば、ビデオデータを記憶する非一時的な記憶媒体を提供する。ビデオデータは、オブジェクトの写真表現を含む画像フレームの第1のシーケンスと、オブジェクトの写真表現の少なくとも一部がオブジェクトの合成表現の対応する少なくとも一部に置換される画像フレームの第2のシーケンスと、画像フレームの第1のシーケンスと画像フレームの第2のシーケンスとの間の画像フレームの第3のシーケンスと、を含む。画像フレームの第3のシーケンスにおいて、画像フレームの第1のシーケンスの最後にあるオブジェクトの写真表現の少なくとも一部と、画像フレームの第2のシーケンスの最初にあるオブジェクトの合成表現の対応する少なくとも一部との間で漸進的に遷移するために、オブジェクトの写真表現の少なくとも一部が修正される。
【0043】
オブジェクトの写真表現の少なくとも一部を修正することは、オブジェクトの写真表現の少なくとも一部のオブジェクトの合成表現の少なくとも一部へのワーピング及びディゾルブを同時に行うことを有してもよい。ワーピングを、所定のワーピングレートで段階的に行ってもよく、ディゾルブを、所定のディゾルブレートで段階的に行ってもよく、ワーピングレートに対するディゾルブレートの比は、画像フレームの第3のシーケンス内で最大値まで増加した後に減少してもよい。これにより、ディゾルブを、サブシーケンスの画像フレームの中心セット内に集中することができ、オブジェクトの写真表現とオブジェクトの合成表現との間のシームレスな移行を達成することができるのと同時にワーピングの間に画像の鮮明さを維持することができる。
【0044】
オブジェクトの合成表現は、オブジェクトの第1の合成表現であってもよく、オブジェクトの写真表現の少なくとも一部を修正することは、オブジェクトの第2の合成表現とオブジェクトの第1の合成表現との間を段階的に補間することを有してもよく、オブジェクトの第2の合成表現は、オブジェクトの写真表現に幾何学的に対応する。したがって、オブジェクトの写真表現を、合成表現を修正又は変形する前に、幾何学的に対応する合成表現に置換することができる。合成表現を、写真表現で実現不可能な方法で変形又は修正してもよい。写真表現及び合成表現を空間的又は幾何学的に位置合わせすることによって、写真表現を修正する効果を得ることができる。
【0045】
第7の態様によれば、上述した方法のいずれかを実行するための手段を備えるデータ処理システムを提供する。データ処理システムは、一つ以上のプロセッサ及びメモリを有してもよく、メモリは、一つ以上のプロセッサによって実行されるときに、一つ以上のプロセッサに上述の方法のいずれかを実行させる機械可読命令を記憶する。
【0046】
第8の態様によれば、プログラムがコンピュータによって実行されるときに、コンピュータに上述の方法のいずれかを実行させる命令を含むコンピュータプログラム製品(例えば、非一時的な記憶媒体に記憶されたコンピュータプログラム)を提供する。
【0047】
第9の態様によれば、上述した方法のいずれかを使用して製造されたオーディオビジュアル製品を提供する。
【0048】
本発明の更なる特徴及び利点は、添付図面を参照することによって例としてのみ与えられる本発明の好適な実施形態の以下の説明から明らかになる。
【図面の簡単な説明】
【0049】
図1図1は、実施例による配置されたデータ処理システムを概略的に示す。
【0050】
図2図2は、実施例による機械学習モデルを訓練する方法を概略的に示す。
【0051】
図3図3は、画像フレームのシーケンスから分離されるオブジェクトのインスタンスの例を示す。
【0052】
図4図4は、実施例によるディープニューラルネットワークモデルを訓練する方法を概略的に示す。
【0053】
図5A図5Aは、ディープニューラルネットワークへの入力の例を示す。
図5B図5Bは、ディープニューラルネットワークへの入力の例を示す。
図5C図5Cは、ディープニューラルネットワークへの入力の例を示す。
【0054】
図6図6は、画像フレームのシーケンスのオブジェクトのインスタンスを修正する方法を概略的に示す。
【0055】
図7図7は、ビデオドライビングデータに基づいてオブジェクトのインスタンスを修正する例を模式的に示す。
【0056】
図8図8は、図4のディープニューラルネットワークを使用して画像フレームのシーケンスのオブジェクトのインスタンスを修正する方法を概略的に示す。
【0057】
図9図9は、実施例による程度を変化させることによってオブジェクトのインスタンスを修正する例を示す。
【0058】
図10図10は、実施例による画像フレームのシーケンスのオブジェクトのインスタンスからオブジェクトの修正されたインスタンスに遷移する方法を概略的に示す。
【0059】
図11図11は、図10の方法によるビデオデータを処理する例を示す。
【0060】
図12図12は、実施例による画像フレームのシーケンスのオブジェクトのインスタンスからオブジェクトの修正されたインスタンスに遷移するときに自動カラーグレーディングを実行する方法を概略的に示す。
【0061】
図13図13は、実施例による視覚ダビングを含む映画の外国語版のための映画製作パイプラインを概略的に示す。
【発明を実施するための形態】
【0062】
実施例によるシステム及び方法の詳細は、図面を参照した以下の説明から明らかになる。本明細書において、説明のために、特定の実施例の多数の具体的な詳細を記載する。本明細書において、「一実施例」又は類似の言語への言及は、実施例に関連して説明される特徴、構造又は特性が少なくともその一つの実施例に含まれるが必ずしも他の実施例に含まれるとは限らないことを意味する。さらに、特定の実施例が実施例の基礎となる概念の説明及び理解を容易にするために特定の特徴を省略及び/又は必然的に簡略化して概略的に記載されていることに留意すべきである。
【0063】
本開示の実施形態は、映画のオブジェクトを修正することに関する。本開示において、映画は、任意の形式のデジタルビデオデータ又はオーディオビジュアル製品を指す場合がある。特に、本明細書で説明する実施形態は、出力の品質という点及び関連するプロセスを映画制作ワークフローに統合するという点の両方でシームレスな方法で長編映画内のオブジェクトを修正することに関連する課題に対処する。本明細書で開示される技術は、外国語映画の視覚ダビング、映画シーン間の演技の遷移及び映画内の背景オブジェクトの修正のようなタスクに関連する方法を提供する。
【0064】
図1は、実施例によるデータ処理システム100を概略的に示す。データ処理システム100は、ネットワーク104を介してリモートデバイスと通信を行うためのネットワークインターフェース102を有する。データ処理システム100は、サーバコンピュータのような単一のデバイスであってもよい、又は、複数のデバイス、例えば、ネットワークを介して接続された複数のサーバコンピュータを有してもよい。データ処理システム100は、メモリ106を有し、本開示では、不揮発性記憶装置と揮発性及び不揮発性のワーキングメモリの両方を指す。メモリ106は、中央処理装置(CPU)、グラフィック処理装置(GPU)、ニューラル処理装置(NPU)又はニューラルネットワークアクセラレータ(NNA)、一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)等のような任意の数の処理装置を有してもよい処理回路108に通信可能に結合される。
【0065】
メモリ106は、以下で説明する方法を実施するための様々なタイプのデータを記憶するように配置される。特に、メモリ106は、画像フレームのシーケンスを含むビデオデータ110を記憶してもよく、画像フレームのシーケンスは、一つ以上のカメラによってキャプチャされた生ビデオ映像及び/又は処理されたビデオ映像に対応してもよい。ビデオデータ110は、例えば、映画の制作中にキャプチャされたピクチャラッシュを有してもよい、及び/又は、圧縮された映像又は他の方法で処理された映像を有してもよい。ビデオデータ110は、本明細書で説明する方法を適用した結果として修正されたビデオ映像を有してもよい。
【0066】
メモリ106は、ビデオデータ110内に出現する一つ以上のオブジェクトの分離されたインスタンスを示す分離されたインスタンスデータ112を更に記憶してもよい。本開示において、オブジェクトのインスタンスは、広義には、画像フレームのシーケンス内にオブジェクトが途切れることなく出現することを指す。例えば、映画の所定のシーンにおいて、オブジェクトは、画像フレームの第1のシーケンス内に出現し、その後、画像フレームの第2のシーケンスにおいて塞がれ、又は、カメラの視野外に移動し、その後、画像フレームの第3のシーケンスにおいて再び出現することがあり、この場合、オブジェクトの二つのインスタンスが記録される。分離されたインスタンスデータ112は、ビデオデータ110から抽出された画像フレームのシーケンスを含んでもよい、及び/又は、インスタンスが出現するビデオフレームの各々におけるオブジェクトの位置、スケール及び/又は向きと共に所定のインスタンスがビデオデータ110のどの部分に出現するかを示すタイムスタンプのようなメタデータを有してもよい。分離されたインスタンスデータ112は、インスタンスが出現する画像フレームの各々の登録された部分、例えば、以下で更に詳しく説明するようにサイズ変更、回転及び/又は安定化してもよいバウンディングボックスを更に有してもよい。
【0067】
メモリ106は、ビデオデータ110に出現する一つ以上のオブジェクトの合成モデルをエンコードした合成モデルデータ114を更に記憶してもよい。オブジェクトの合成モデルは、オブジェクトの色、テクスチャ及び他の視覚的特徴だけでなく、オブジェクトの幾何学的特徴を近似してもよい。合成モデルは、所定のカメラ位置及び向きからの合成モデルのビューに対応する2次元合成画像をレンダリングすることを可能にする3次元モデルであってもよい。合成モデルは、モデルの態様を制御するための調整可能なパラメータを有してもよい。例えば、合成モデルは、特定のクラス又はタイプのオブジェクトに対応してもよく、クラス内の異なるオブジェクト及び/又はクラス内の所定のオブジェクトの異なるインスタンスに対応する種々の値を有する調整可能なパラメータを有してもよい。例えば、「人間の顔」のクラスに対する合成モデルは、合成モデルの調整可能なパラメータの値を指定することによって、人間の顔の範囲及び向き、表情等の範囲を表すことができるようにしてもよい。代替的には、合成モデルが特定のオブジェクトに対応してもよい。例えば、合成モデルは、異なる変形が合成モデルの調整可能なパラメータの異なる値に対応するような非剛体オブジェクトの変形可能なモデルであってもよい。
【0068】
メモリ106は、機械学習モデルに対応する機械学習モデルデータ116を更に記憶してもよい。機械学習モデルは、人間によって手動でプログラムする代わりにデータから学習されるパラメータ値に少なくとも部分的に基づいて出力データを生成するアルゴリズムのクラスである。本開示に特に関連するのは、以下で更に詳しく説明するように、機械学習が一つ以上のディープニューラルネットワークのパラメータ値を学習するために使用される深層学習モデルである。データ処理システム100は、他のタスクの中で特に、オブジェクトの合成モデルのパラメータ値に少なくとも部分的に基づいて、ビデオに組み込むためのオブジェクトの写真のようにリアルな描写のインスタンスをレンダリングするために機械学習モデルを使用してもよい。機械学習データ116は、以下で更に詳しく説明するように、ビデオデータ110及び他のデータに応じて学習したパラメータ値を有してもよい。
【0069】
メモリ106は、本明細書に記載のコンピュータ実行方法を実施するためのルーチンを含むプログラムコード118を更に記憶してもよい。ルーチンは、本明細書で説明する方法の完全に自動化された実行を可能にしてよい、及び/又は、処理の様々な態様を制御するためのユーザ入力を可能にしてよい。プログラムコード118は、例えば、ユーザがビデオデータのオブジェクトのディープ編集を実行できるようにするためのソフトウェアツールを規定してもよい。
【0070】
図2は、実施例による機械学習モデルを訓練するためにビデオデータ202を処理する方法を示す。方法を、任意の適切なデータ処理システム、例えば、図1のデータ処理システム100によって実行してもよい。機械学習モデルを、訓練されるとき、ビデオに組み込むためのオブジェクトの写真のようにリアルな描写のインスタンスを生成するために使用してもよい。ビデオデータ202は、画像フレームの複数のシーケンスを含み、そのうちの画像フレームのシーケンスA及び画像フレームのシーケンスBを示す。画像フレームの各シーケンスは、長編映画のシーン又はシーンの一部の各々のテイクの映像に対応してもよい。ビデオデータ210は、映画の全てのシーンの全てのテイク(すなわち、全てのピクチャラッシュ)又はそのサブセットを含んでもよい。図2の方法を実行する前に、オプションで、映像の小型化又は圧縮及び/又は一般的なフォーマットへの変換を行ってもよい。例えば、映像を、2Kフォーマット(すなわち、水平寸法が約2000画素であるフォーマット)に変換してもよい。このようにして、(例えば、解像度、画素深度、カラーフォーマットを含む)映像データ210のフォーマットは、以下で説明する処理のために一貫性を持たせてもよい。さらに、映像を小型化することによって、機械学習モデルの訓練にかかる計算コストを大幅に削減することができる。従来の映画制作プロセスの間、このプロセスは、オフライン編集プロセスで扱うために更に少ないボリュームのデータを生成するために一般的に実行される。ビデオデータ202は、オフライン編集に使用されるのと同一のデータであってもよい。
【0071】
図2の方法は、画像フレームのシーケンスの各々に対するオブジェクト検出及び分離204を実行することに進む。これに関連して、オブジェクト検出は、所定のクラスのオブジェクトのインスタンスを含む画像フレームを識別するとともに画像フレームの各々のそのようなオブジェクトの各々の位置を示すメタデータを生成してもよい。メタデータは、例えば、オブジェクトを含む画像フレームの各々のオブジェクトの境界ボックスの位置及び寸法が含んでもよい。オブジェクト検出アルゴリズムに応じて、境界ボックスは、所定の寸法 (例えば、一つ以上の固定サイズの固定アスペクト比の正方形又は長方形) を有してもよい、又は、可変の寸法を有してもよい。所定のインスタンスの境界ボックスは、例えば、所定のインスタンスが当該インスタンスが出現する全ての画像フレームの境界ボックス内に完全に含まれるように決定された固定寸法を有してもよい。オブジェクトの見かけのサイズがインスタンス間及び/又は画像フレーム間で変化するのが一般的であり、したがって、オブジェクト検出アルゴリズムは、好適には、複数のスケールでオブジェクトを検出することができる。オブジェクト検出アルゴリズムは、深層学習アルゴリズムのような機械学習アルゴリズムであってもよい。適切なオブジェクト検出アルゴリズムの例は、領域ベースの畳み込みニューラル ネットワーク (R-CNN)、Fast R-CNN、Faster R-CNN、領域ベースの完全畳み込みネットワーク (R-FCN)、Single Shot Detector (SSD)及び Only Look Once (YOLO-執筆時点では v5までの複数のバージョンが利用可能)である。特定のタスクに望ましい演技レベルを達成させるために、これらのアルゴリズムの訓練中に、データ選択、データ拡張及びブートストラップを含む様々な手法を使用してもよい。
【0072】
オブジェクトの検出及び分離204により、所定のオブジェクトの複数のインスタンスを検出及び分離してもよい。この例において、インスタンスAが画像フレームのシーケンスAで検出され、インスタンスB及びインスタンスCが画像フレームのシーケンスBで検出される (オブジェクトが画像フレームのシーケンスB内で視界から消えて再び出現したことを示す)。
【0073】
所定のクラスのオブジェクトの検出インスタンスに加えて、オブジェクトの検出及び分離204は、同一のクラスの別個のオブジェクトを認識することを有してもよい。オブジェクトが人間の顔である例において、顔のインスタンスが検出される度に、方法は、顔が新しい顔であるか以前に検出された顔であるかを決定するために、顔認識を実行してもよい。このようにして、第1のオブジェクトのインスタンスを第2のオブジェクトのインスタンスと区別することができる、等々。したがって、オブジェクトの検出されたインスタンスと共に記憶されるメタデータは、オブジェクトの識別子を含んでもよい。
【0074】
オブジェクトの検出及び分離204は、オブジェクトのインスタンスを検出することに加えて、オブジェクトの分離されたインスタンスの2次元ランドマークのまばらなセットの位置を決定することを有してもよい。2次元ランドマークは、オブジェクトを大まかに表す2次元の特徴点である。これらのランドマークを、以下で説明するように、合成モデルのフィッティングを支援するために使用してもよい。オブジェクトが人間の顔である場合、ランドマークは、例えば、目及び口の周囲並びに鼻の隆起に続く点を含んでもよい。2次元ランドマークを、まばらなキーポイント検出方法を使用してフレームごとに検出してもよい。さらに、オプティカルフローを、検出されたランドマークの時間的に一貫した軌跡を決定してランドマークの位置の推定精度を向上させるために、画像フレームのシーケンスに亘って使用してもよい。
【0075】
オブジェクトの検出及び分離204は、オブジェクトの分離されたインスタンスを安定化及び/又は登録することを更に有してもよい。安定化及び/又は登録することを、例えば、所定の分離されたインスタンスのフレームの各々についてオブジェクトが画像フレームの平面に垂直な軸に対して相対的に一定の回転角度で出現することを保証するために実行してもよい。オブジェクトがフレーム間で略一定のサイズで表示されるように、正規化ステップを適用してもよい。したがって、オブジェクトの検出及び分離204は、オブジェクトのインスタンスを含む前記画像フレームの各々で安定化点を決定することを有してもよく、安定化点を、例えば、一つ以上の2次元ランドマークの位置に応じて決定してもよい。次に、方法は、安定化点が固定位置に留まるとともにオブジェクトがこの点の周りであまり回転しないように、決定された安定点の周りでオブジェクトのインスタンスを安定させることを有してもよい。この安定化を、任意の適切な画像登録技術を使用して実行してもよく、2次元ランドマークが決定されている場合にはそれを利用してもよい。場合によっては、安定点を規定する必要なく登録を実行してもよい。本発明者は、合成モデルフィッティング及び/又は機械学習を含む下流タスクの困難を軽減するためにオブジェクトインスタンスを安定させることが有益であることを見い出した。置換されるオブジェクトインスタンスの部分内又はその近くにある安定化点を決定することが特に有益であることを見い出した。視覚ダビング又は人間の顔の演技の遷移の場合、安定点は、口の中心であってもよい。
【0076】
分離されたインスタンスの各々を、例えば、どの画像フレームがインスタンスを含むかを示すデータ並びにインスタンスを含む各画像フレーム内のインスタンスの位置、サイズ及び向きを含むメタデータと共にビデオクリップとして記憶してもよい。位置、サイズ及び向きを、例えば、画像フレーム内の境界ボックスの左上隅及び右下隅の座標として記憶してもよい。他のメタデータは、オブジェクトを識別する情報、画像フレームの解像度及びフレームレートを含む。分離されたインスタンスを、オプションで、関連するガイドオーディオと共に記憶してもよい。
【0077】
メタデータは、分離されたインスタンスから再構築される画像フレームのシーケンスの一部に必要な情報を含む。図3は、本明細書で説明する方法を使用して外国語バージョンが生成される映画のシーンの特定のテイクの映像に対応する画像フレーム302のシーケンスの例を示す。この例において、第1の俳優のインスタンス304、第2の俳優のインスタンス306及び第3の俳優のインスタンス308が検出及び認識され、異なる俳優は、本開示の意味において異なる「オブジェクト」として扱われる。この例において、第3の俳優のインスタンス308は、横顔で出現するが、第1の俳優のインスタンス304及び第2の俳優のインスタンス306は、略正面で出現する。いくつかの例において、特定の俳優の横顔ビュー(又は、更に一般的には、画像フレームと同一の平面の軸に対するオイラー角が所定の範囲外にあるビュー)を、同一の俳優の正面ビューとは異なるオブジェクトとして扱ってもよい。インスタンス304,306は、それぞれのメタデータ314,316と共に、分離されたインスタンス310,312を生成するために分離される。この例において、第3の俳優がシーン内で話さないと判断され、したがって、第3の俳優のインスタンス308が分離されない。メタデータ314,316は、分離されたインスタンス310,312から画像フレーム308のシーケンスを生成することを可能にし、これは、画像フレーム302のシーケンスの元の位置におけるインスタンス304,306の再構成320,322を含む生成される重ね合わせフレームのシーケンス318を含む。
【0078】
図2の方法は、オブジェクトの合成モデルのパラメータ値を決定するためにオブジェクトの分離されたインスタンスを使用する合成モデルフィッティング206を引き続き実行する。合成モデルは、オブジェクトの3次元モーファブルモデル(3DMM)のような合成高密度3次元モデルであってもよく、各々が辺及び頂点を有する三角形及び/又は四角形のような多角形で形成されるメッシュモデルで構成されてもよい。合成モデルを、固定パラメータのセット及び可変パラメータのセットによってパラメータ化してもよい。固定パラメータは、画像フレーム間で変化すると予想されない(又は変化しないと合理的にモデル化できる)オブジェクトの特性をエンコードするのに対し、可変パラメータは、画像フレーム間で変化する可能性のある特性をエンコードする。固定パラメータは、変形が適用される開始点として扱われるオブジェクトのベースジオメトリ(例えば、神経表現による顔のジオメトリ)をエンコードするための基本パラメータ値を有してもよい。ベースジオメトリは、例えば、メッシュモデルの頂点のセットの位置を有してもよい。可変パラメータは、オブジェクトのベースジオメトリへの変更をエンコードするための変形パラメータを有してもよい。これらの変形パラメータは、例えば、メッシュの各々の頂点の変形を制御してもよい。代替的には、変形パラメータは、ブレンドシェイプの所定のセットの線形結合の重み付けを制御してもよく、ブレンドシェイプの各々は、ベースジオメトリの特定のグローバル変形に対応する。代替的には、変形パラメータは、デルタブレンド形状の所定のセットの線形結合に対する重み付けを制御してもよく、デルタブレンド形状の各々は、頂点の特定のサブセットに亘る変形に対応する。特定の重み付けを指定することによって、ブレンドシェイプ又はデルタブレンドシェイプの線形結合が、ベースジオメトリに対する広範囲の変形を表現することができる。
【0079】
合成モデルの固定パラメータは、基本パラメータに加えて、合成モデルを画像平面に投影するための固有のカメラパラメータ値と共にオブジェクトの表面(及び/又はオブジェクトの他の表面特性)の反射モデルをエンコードするパラメータを有してもよい。(ただし、場合によっては、固有のカメラパラメータ値が既知であるとともに決定する必要がない場合もある)。反射モデルは、オブジェクトの表面を、入射照明を全方向に均等に散乱させる完全な拡散表面として扱ってもよい。そのようなモデルは、ランバート反射モデルと呼ばれることがある。このモデルは、複雑さと現実的な結果との間の合理的なトレードオフを達成することがわかっている。
【0080】
可変パラメータは、所定の点でのオブジェクトの放射照度を特徴付ける照明モデルと共にオブジェクトの分離されたインスタンス内で見られるカメラに対するオブジェクトの位置及び/又は向きをエンコードするパラメータを更に有してもよい。照明モデルは、所定の数の球面調和基底関数(例えば、球面調和基底関数の最初の三つのバンドL0,L1,L2)を使用してオブジェクトの表面の所定の点における照明をモデル化することができる。反射モデルと照明モデルを組み合わせることにより、モデルのフィッティング中に決定されるパラメータ値のセットに応じてオブジェクトの表面の所定の点での放射照度をモデル化することができる。
【0081】
上述したように、オブジェクトの合成モデルのパラメータ値は、オブジェクトのインスタンスごとに決定され、パラメータ値の少なくとも一部は、フレーム単位で決定される。図2の例において、パラメータ値の各々のセットは、204で検出されたオブジェクトのインスタンスA、インスタンスB及びインスタンスCの各々について決定される。合成モデルのパラメータ値を、オブジェクトのインスタンスごとに独立して決定してもよい。代替的には、(ベースジオメトリ及び反射モデルをエンコードする固定パラメータ値のような)固定パラメータ値の一部を、オブジェクトの複数のインスタンスに亘ってフィッティングしてもよく、これにより、特に、比較的少数の画像フレームを含む又はオブジェクトがはっきりと見えないオブジェクトのインスタンスの精度が向上する可能性がある。
【0082】
オブジェクトの合成モデルを、オブジェクトの特定の分離されたインスタンスに対して決定されたパラメータ値と共に、画像平面へのオブジェクトの投影に対応する合成画像を生成するために使用してもよい。これらの合成画像を分離されたインスタンスの対応するフレームと比較することによって、合成画像と分離されたインスタンスの対応するフレームとの間の偏差を特徴付ける計量差又は損失関数を最小化するパラメータ値を決定してもよい。このようにして、合成モデルをオブジェクトの分離されたインスタンスにフィッティングさせるパラメータ値を決定してもよい。例えば、オブジェクトの分離されたインスタンスで検出された2次元ランドマークの位置と合成モデルの対応する特徴頂点と比較する損失項又はオブジェクトの分離されたインスタンスの輪郭と合成モデルの対応する輪郭とを比較する損失項を含むモデルフィッティングの精度を向上させるために、追加の技術を使用してもよい。
【0083】
図2の方法は、オブジェクトの分離されたインスタンスを再構成するために機械学習モデルの訓練にオブジェクトの分離されたインスタンス及び合成モデルの関連パラメータ値が使用される機械学習208を引き続き実行する。オブジェクトの複数のインスタンス (例えば、映画のシーンの複数のテイクからのインスタンス) に対してこの訓練を実行することにより、機械学習モデルは、合成モデルのパラメータ値のセットに基づいてオブジェクトの写真のようにリアルな描写のインスタンスを生成することを学習してもよい。機械学習208のプロセスは、機械学習モデルの訓練されたパラメータ値210を生成する。
【0084】
機械学習モデルは、一つ以上のニューラルネットワークを有してもよい。例えば、機械学習モデルは、合成モデルのパラメータ値に応じて画像を生成するように構成された生成ネットワーク及び所定の画像が本物であるか生成ネットワークによって生成されたかを予測するように構成された識別ネットワーク及びを有する条件付き敵対的生成ネットワーク(GAN)を有してもよい。生成ネットワーク及び識別ネットワークを、正確な予測を行った識別ネットワークに報酬を与えるとともに識別ネットワークに間違った予測をさせた生成ネットワークに報酬を与える敵対的損失関数を使用して互いに並行して訓練してもよい。このタイプの訓練は、敵対的訓練と呼ばれる場合がある。敵対的損失関数を、オブジェクトの分離されたインスタンスの画素値と生成ネットワークによって出力される画像の画素値との間の差異にペナルティを課す測光損失関数及び/又は生成ネットワークによって出力された画像と(ImageNetで訓練されたVGGネットのような)画像エンコーダの特徴空間の分離されたインスタンスとを比較する知覚損失関数のような一つ以上の別の損失関数で補ってもよい。敵対的損失関数と測光損失関数及び/又は知覚損失関数と組み合わせることにより、生成ネットワークは、オブジェクトの分離されたインスタンスと測光的に類似するとともにオブジェクトの分離されたインスタンスとスタイル的に区別できない画像のシーケンスを生成することを学習してもよい。このようにして、生成ネットワークは、オブジェクトの分離されたインスタンスの写真のようにリアルな描写の再構成を生成することを学習してもよい。
【0085】
一例において、機械学習モデルは、オブジェクトの分離されたインスタンスの一つ以上のフレームのシーケンスから導出されるパラメータ値のセットを入力として受け取るとともに出力画像を生成する生成ネットワークを有してもよい。訓練中に、出力画像を、シーケンスの所定のフレーム (例えば、中間フレーム又は最後のフレーム) と比較してもよく、その場合、生成ネットワークは、当該フレームを再構成することを学習してもよい。複数のフレームからのパラメータ値を使用することによって、生成ネットワークは、再構築されるフレームの前及び/又は後の情報を考慮してもよく、これにより、生成ネットワークは、オブジェクトの動的特性を考慮することができるようになってもよい。
【0086】
合成モデルのパラメータ値の直接処理の代替として、機械学習モデルは、合成モデルそれ自体から導出された入力を受け取るように配置される。例えば、機械学習モデルを、合成モデルからレンダリングされた合成画像に少なくとも部分的に基づいて入力データを処理するように配置してもよい。図4は、ニューラルネットワークの入力データを生成するために、オブジェクトの合成モデルからレンダリングされるとともにオブジェクトの分離されたインスタンス404に対応する合成画像402のシーケンスを使用する方法の一例を示す。合成画像402の各々は、オブジェクトの全体又はオブジェクトの一部、例えば、置換又は修正されるオブジェクトの一部を含んでもよい。合成画像は、オブジェクト又はオブジェクトの一部を囲む背景領域を透明として指定するアルファマット又はバイナリマスクをエンコードするアルファチャネルを含んでもよい。分離されたインスタンス404は、オプションで、色の正規化406を受けるが、色の正規化を、フレームごとに又は分離されたインスタンス404の全てのフレームに対して行ってもよい。色の正規化を行うと、オブジェクトの全ての分離されたインスタンスに亘って同様の粗い照明条件をシミュレートし、これは、機械学習モデルが生成するために学習する必要がある画像の空間の範囲を削減することによって後に説明する学習プロセスを支援してもよい。
【0087】
オブジェクトの分離されたインスタンス404を含むフレームの各々について、対応する合成画像402の一部は、分離されたインスタンス404の(場合によっては色の正規化された)フレームに重ね合わせられ、合成画像408となる。上述したように、分離されたインスタンス404のフレームの各々は、オブジェクトのインスタンスを含む画像フレームの登録された部分であってもよい。重ね合わせられる合成画像402の部分を、オブジェクトの合成モデルを使用して生成してもよいセグメンテーションマスクを使用して規定してもよい。マスクを生成するために、赤チャネル及び緑チャネルにそれぞれエンコードされたUとVの値が線形に増加するSTマップを取得する。次に、STマップを合成モデルにマッピングするために、UVマッピングを使用してもよい。マスクに適した領域を、手動又は自動で、例えば、合成モデルの所定の特徴頂点を参照することによって(上述したように)STマップに規定してもよい。次に、マッピングされた領域の投影が、合成画像402の各々についてレンダリングされ、レンダリングされた投影を、重ね合わせプロセスのためのマスクの幾何学的形状を規定するために使用してもよい。このアプローチにより、合成モデルのジオメトリに準拠したマスクを取得し、このアプローチを、特定のオブジェクト又はオブジェクトの特定のインスタンスに対して1回定義するだけで済む。重ね合わせに使用されるマスクは、通常のバイナリセグメンテーションマスク又はソフトマスクであってもよく、後者は、分離されたインスタンス404と合成画像402の重ね合わされた部分との間の段階的なブレンドをもたらす。
【0088】
図5Aは、顔の合成モデルからレンダリングされた顔の合成画像の一部502が顔の分離されたインスタンスを含むフレーム504に重ね合わされた上述した合成画像の一例を示す。この例の部分502は、口を含むが目を除いており、上述したようにSTマップを使用して生成されたバイナリマスクを使用して規定される。
【0089】
図4に戻ると、合成画像410は、生成ネットワーク412への入力として提供される。生成ネットワーク412は、オブジェクトのインスタンスの再構成候補414を生成するために合成画像410を処理するように構成される。合成モデルによって生成された完全な合成画像402の代わりに合成画像410を処理することによって、特に置換される部分の周囲の領域における再構築されるインスタンスの照明及び色の特性に関する更に多くの情報を生成ネットワーク412によって利用可能となる。これにより、オブジェクトの再構築された部分がオブジェクトの周囲の領域にシームレスに溶け込むように修復を実行する方法を生成ネットワーク412によって学習される際にオブジェクトのインスタンスを再構築する生成ネットワーク412の能力が強化されることが判明した。この例において、合成画像が生成ネットワーク412への入力として提供されるが、他の例において、代替的に又は追加的に、合成モデルの完全なレンダリングを入力として提供してもよいことに留意されたい。
【0090】
単一の順方向パスにおいて、生成ネットワーク412を、合成画像410の予め決定された一つ以上に対応する再構成候補414の一つ以上のフレームを生成するために所定数の合成画像410(例えば、1,2,5,10又は任意の他の適切な数の合成画像410)を含む時空間ボリュームを処理するように構成してもよい。この文脈における時空ボリュームは、時間ウィンドウ内に連続して出現する画像の集合を指す。生成ネットワーク412は、例えば、時空間ボリュームの最後の合成画像410に対応する単一のフレームの再構成候補を出力してもよい。複数の合成画像410を同時に処理することによって、生成ネットワーク412は、更に現実的な出力を達成するために、時間の経過と共にオブジェクトがどのように移動するかについての情報を使用することを学習してもよい。この処理を時間的にスライディングウィンドウ方式で実行することによって、生成ネットワーク412は、オブジェクトの分離されたインスタンスを含むフレームの各々についてオブジェクトの再構成候補を生成してもよい。最初の数フレーム又は最後の数フレームについて、時空間ボリュームを規定しなくてもよい。代替的には、時空間ボリュームを、最初のフレーム及び/又は最後のフレームをX回複製することによって拡張してもよく、ここで、Xは、ディリクレ境界条件に効果的に影響を及ぼすことができる時間ウィンドウのサイズである。このように、時空間ボリュームが規定されたままであるが、最初と最後のいくつかの画像フレームで偏る。 時空間ボリュームを拡張するために、他の境界条件を代わりに使用してもよい。
【0091】
生成ネットワークは、時空間ボリュームを低次元潜在空間の潜在変数にマッピングするように構成されたエンコーダ部分及び潜在変数をオブジェクトの再構成候補を含む一つ以上のフレームにマッピングするように構成されたデコーダ部分を備えるエンコーダ-デコーダアーキテクチャを有してもよい。エンコーダ部分は、入力の解像度を下げる可能性のあるいくつかのダウンサンプリングコンポーネントで構成されてもよい。所定のダウンサンプリングコンポーネントは、畳み込みフィルタ及び(正規化線形ユニットReLU、活性化関数のような) 非線形活性化関数を含んでもよい。デコーダ部分は、入力の解像度を高めることができるいくつかのアップサンプリングコンポーネントで構成されてもよい。所定のアップサンプリングコンポーネントは、畳み込みフィルタ及び非線形活性化関数をオプションで他のレイヤー又はフィルタと共に含んでもよい。エンコーダ部分及び/又はデコーダ部分の少なくともいくつかのコンポーネントは、訓練中にバッチ正規化及び/又はドロップアウトを利用してもよい。特定の例において、生成ネットワーク412は、解像度を256×256から32×32に下げるための八つのダウンサンプリングコンポーネントと、解像度を256×256に戻すための八つのアップサンプリングコンポーネントと、を有する。ダウンサンプリングコンポーネントの各々は、ストライド2で4×4畳み込み層を使用し、その後に、バッチ正規化、ドロップアウト、リーキーReLU活性化関数を使用する。アップサンプリングコンポーネントの各々は、カスケードリファインメント戦略を利用し、ストライド2で4×4デコンボリューションフィルタを使用し、その後に、バッチ正規化、ドロップアウト及びReLU活性化関数を使用し、続いて、ストライド1で二つの3×3畳み込みフィルタをそれぞれ使用し、その後に、別のReLU活性化関数が続く。最終的なアップサンプリングコンポーネントの出力はオブジェクトの再構築されたインスタンスの候補の単一のフレームが生成するために、TanH活性化関数を介して渡される。バッチ正規化を、最初のダウンサンプリングコンポーネントと最後のアップサンプリングコンポーネントから省略してもよく、改良点として、アーキテクチャは、ネットワークが詳細な構造を転送できるようにするために、入力層から一つ以上のデコーダコンポーネントへのスキップ接続を採用してもよい。生成ネットワーク142に他のアーキテクチャも可能であるとともに本アーキテクチャは例としてのみ提供されることが理解される。
【0092】
生成ネットワーク412は、オブジェクトの分離されたインスタンス404を再構築するように敵対的に訓練される。この例において、再構成されたインスタンス414の一つ以上のフレームを生成するために生成ネットワーク412によって使用される合成画像410の同一の時空間ボリュームを生成ネットワーク412によって生成される再構成されたインスタンス414の一つ以上のフレーム又は(この文脈では「グランドトゥルース」とみなされる場合がある)分離されたインスタンス402の対応する一つ以上のフレーム共に入力として受け取る識別ネットワーク416を使用する。識別ネットワークは、再構成されたインスタンス414を受け取ったかグランドトゥルースの分離されたインスタンス412を受け取ったのかを予測することを試みる。正確な予測を行ったことに対して識別ネットワーク416に報酬を与えるとともに識別ネットワーク416に間違った予測をさせた生成ネットワーク412に報酬を与える敵対的損失418が決定される。次に、生成ネットワーク412及び識別ネットワーク416のパラメータに対する敵対的損失418の勾配を決定するために、(図4において破線の矢印で示す)逆伝播を使用し、生成ネットワーク412及び識別ネットワーク416のパラメータ値は、例えば、確率的勾配降下法又はその変形を使用して、敵対的損失の決定された勾配に応じて更新される。敵対的損失418は、分離されたインスタンス402の画素値と生成ネットワーク412によって出力される再構成されたインスタンス414の画素値との間の差異にペナルティを課す測光損失又は分離されたインスタンス402の画像特徴と生成ネットワーク412によって出力される再構成されたインスタンス414の画像特徴との間の差異にペナルティを課す知覚損失のような一つ以上の別の損失(図示せず)で補ってもよい。測光損失は、例えば、L1損失、L2損失又は分離されたインスタンス402の画素値と再構成されたインスタンス414の画素値との間の比に基づく他の任意の適切な損失であってもよい。特定の例において、測光損失は、小さな測光差の寄与を低減するように修正された修正L2損失であってもよい。このようにして、生成ネットワーク412がうまく機能する訓練サンプル(すなわち、簡単なサンプル)からの寄与は、生成ネットワーク412が苦労する訓練サンプル(すなわち、難しいサンプル)からの寄与と比較して減少する。例えば、測光損失は、所定の値未満の測光差の寄与を低減するシグモイド関数又はソフトステップ関数を二乗測光差に乗算する修正L2損失であってもよい。本発明者は、訓練中にこのタイプの損失関数を使用することにより生成ネットワーク412が他の損失関数よりもアーティファクトが少ない高精度のレンダリングを生成することを見い出した。
【0093】
敵対的損失関数を測光損失関数と組み合わせることにより、生成ネットワーク412は、オブジェクトのグラウンドトゥルースのインスタンスと測光的に類似するとともにオブジェクトのグランドトゥルースのインスタンスとスタイル的に区別できないオブジェクトの再構築されたインスタンスを生成することを学習することができ、これは、再構築されたインスタンスが分離されたインスタンスの特異性を保持することを意味する。
【0094】
生成ネットワーク412は、合成画像410の各々と共にアテンションマスク420を処理するように更に構成されてもよく、アテンションマスク420は、マスキング動作422,424の間に識別ネットワーク416の入力に適用されてもよい。これは、損失関数をアテンションマスク420によって規定される領域に制限する効果がある。(存在する場合の)測光損失も、同様に、アテンションマスク420によって規定される領域に制限してもよい。アテンションマスク420は、通常のバイナリマスク又はソフトマスクであってもよく、オブジェクトの全体又はオブジェクトの一部を含む領域の境界を定めてもよい。アテンションマスク420を、オブジェクトの合成モデルから出力してもよい、又は、例えば、セマンティックセグメンテーションを使用してオブジェクトの分離されたインスタンスから生成してもよい。アテンションマスク420を生成ネットワーク412への追加入力として提供するとともにアテンションマスク420によって規定される領域に損失関数を制限することによって、生成ネットワーク412は、背景ではなくオブジェクトに注意を集中させることを学習してもよい。これは、映画で予想されるような動的な背景の場合に特に重要になる可能性がある。生成ネットワーク412が、修正される部分の周囲の領域に注意を集中するように、アテンションマスク420は、修正及び置換されるオブジェクトの部分よりも大きな領域を規定することができ、それによって、置換される部分をオブジェクトの周囲の領域と統合することを学習する。代替的に又は追加敵に、アテンションマスク420を生成ネットワーク412への入力として提供するために、合成画像が生成ネットワーク412に入力される前に、アテンションマスク420を合成画像に適用してもよい。これらの場合のいずれかにおいて、生成ネットワーク412は、アテンションマスク420の外側の領域に対して「幻覚」出力を生成する可能性がある。これは、出力のこれらの領域に関連する訓練信号がないためである。図5Bは、図5Aの合成画像に対応するアテンションマスクの例を示す。この場合、アテンションマスクが置換される顔の部分502よりも大きな顔の領域を規定することが観察される。
【0095】
生成ネットワーク412を、合成画像フレーム410の各々と共に投影STマップ(図4には図示せず)を処理するように更に構成してもよい。上述したように、投影STマップを、合成画像404が生成される合成モデルを使用して生成してもよい。特に、赤チャネル及び緑チャネルにそれぞれエンコードされたUの値及びVの値が線形に増加する一般的なSTマップを取得してもよい。STマップは、UVマッピングを使用して合成モデルに適用され、合成画像404の各々について、STマップの投影をレンダリングしてもよい。図5Cは、図5Aの合成画像及び図5Bのアテンションマスクに対応する投影STマップの例を示す。顔の左側から右側に向かって(見ると)赤 (R) が増加するとともに顔の下部分から顔の上部分に向かって(見ると)緑 (G) が増加するように投影STマップの色が顔の表面全体で変化することが観察される。STマップが合成モデルの表面に準拠しているので、二つの異なる合成画像内の顔の同一の位置に対応する画素は、共通の画素値 (色) を有する。投影STマップは、生成ネットワーク412が合成モデルの表面領域を合成画像内の位置に関連付けることを可能にして生成ネットワーク412がオブジェクトの一貫した位置で表面詳細を生成するのを支援してもよい。他の例において、投影法線座標コード(PNCC)画像を、生成ネットワーク412への空間依存入力としてSTマップの代わりに使用してもよい。しかしながら、投影STマップがオブジェクトの表面領域を合成画像内の位置に更に直接的にマップピングするとともにPNCC画像の3チャネルと比較して2チャネルのみを使用するので、投影STマップが好適である場合がある。別の例において、投影STマップ又はPNCC画像に追加して又はその代替として、他のタイプの投影されたマップを生成ネットワーク412に入力してもよく、これにより、生成ネットワーク412の出力の品質を更に改善することができる。例えば、オブジェクトの特定の特徴又は態様を強調するために、一つ以上の投影されたマップを合成モデルから生成してもよい。例えば、オブジェクト表面のトポロジーを示す投影されたトポロジーマップを生成してもよい。これは、生成ネットワーク412がオブジェクト表面のトポロジーと一致する詳細を生成するのに役立つことがある。オブジェクトが人間の顔である例において、トポロジーマップは、鼻及び口のような顔の特徴のトポロジーを示してもよい。
【0096】
生成ネットワーク412を、合成画像フレーム410の各々(及びオプションの一つ以上の他のマップ)と共に投影されたノイズマップ(図示せず)を処理するように更に構成してもよい。投影STマップと同様に、投影されたノイズマップを、合成画像404が生成される合成モデルを使用して生成してもよい。特に、画素値が同一分布の確率変数(ガウス変数など)に依存しないノイズマップ又はノイズ画素値が依存するノイズマップを取得してもよい。特定の例において、ノイズマップを、パーリンノイズマップであってもよい。ノイズマップは、UVマッピングを使用して合成モデルに適用してもよい、合成画像404の各々について、ノイズマップの投影をレンダリングしてもよい。ノイズマップは、オブジェクトの表面に準拠するリッチテクスチャを生成するために生成ネットワーク412が使用できる追加のリソースを提供する。パーリンノイズは、複雑な自然のテクスチャを表現するのに特に適している。例えば、ノイズマップは、(STマップがデフォルトで赤のチャネルと緑のチャネルのみを使用するので)STマップの青チャネルに保存してもよく、この場合、UVマッピングを1回実行するだけで済む。生成ネットワーク412によってレンダリングされる出力の品質を向上させるために、追加のマップをジェネレータへの入力として(例えば、ST及び/又はノイズマップの追加のチャネルとして)更に提供してもよい。例えば、粒子の詳細をエミュレートする汎用マップ又は法線マップ及び/又はディスプレイスメントマップのようなオブジェクトの合成モデルから派生した一つ以上のマップを生成ネットワーク412に提供してもよい。
【0097】
上記の方法を使用して訓練された機械学習モデルを、後に説明するように、オブジェクトの写真のようにリアルな描写の修正されたインスタンスを生成するために使用してもよい。 図6は、画像フレームの第1のシーケンス602のオブジェクトのインスタンスを修正するために図2の機械学習モデルを訓練されたパラメータ値210と共に使用する方法を示す。第1のシーケンス602は、機械学習モデルを訓練するために使用される画像フレームのシーケンスの一つに対応してもよいが、いくつかの例において、第1のシーケンス602は、訓練プロセスに関連して説明したダウンサイジング又は圧縮を受けていなくてもよい。その理由は、この段階の目的がオブジェクトの最高品質であるとともに最も写真のようにリアルな描写のレンダリングインスタンスを生成することであるとともに訓練中よりも計算コストが問題にならないからである。映画製作パイプラインとの関係において、画像フレームの第1のシーケンス602は、映画を配信する必要がある最高の解像度であってもよい。第1のシーケンス602を、手動で決定してもよい(例えば、このシーケンスのオブジェクトのインスタンスを置換する必要があるとユーザが決定してもよい)、又は、例えば、視覚ダビングとの関係において話しているキャラクターを検出した場合に自動的に決定してもよい。第1のシーケンス602は、機械学習モデルを訓練するために使用される画像フレームのシーケンスの一つであってもよいが、これは必須ではない。
【0098】
図6の方法は、オブジェクトの検出及び分離604に進み、この例において、上述したように、オブジェクトの分離された第1のインスタンス及びオブジェクトの第1のインスタンスを置換するためのメタデータを取得する。次に、オブジェクトの合成モデルの第1のパラメータ値610を生成するために、合成モデルフィッティング608を実行する。訓練に使用される解像度と比べて第1のインスタンス606の解像度が増加することによって更に正確な合成モデルフィッティング608を取得してもよい。第1のシーケンス602が機械学習モデルを訓練するために使用される画像フレームのシーケンスの一つである他の例において、オブジェクトの検出及び分離604及び/又は合成モデルフィッティング608のステップは、訓練中に第1のインスタンス606に対して既に実行されている可能性があるので、これらのステップを再度実行する必要がない可能性がある。
【0099】
合成モデルの第1のパラメータ値610は、612で修正され、修正された第1のパラメータ値614を取得する。第1のパラメータ値610の修正612により、合成モデルの外観が修正され、最終的には、オブジェクトの修正されたインスタンスのレンダリングが可能になる。第1のパラメータ値の修正を、例えば、修正された第1のパラメータ値を導出できるユーザインターフェイスを介してユーザ入力を受け取ることによって手動で実行して、通常のVFX技術を使用して達成できるものを超えたオブジェクト ンスタンスのディープ編集が可能になるようにしてもよい。代替的には、第1のパラメータ値610の修正612を、例えば、ビデオドライビングデータ及び/又はオーディオドライビングデータのようなドライビングデータに応じて、少なくとも部分的に自動的に実行してもよい。
【0100】
図7は、特定の人間の顔の合成モデルのパラメータ値をビデオドライビングデータ704に応じて修正する例を示す。その結果、顔のインスタンス702を修正してもよい。インスタンス702は、例えば、映画のセリフを第一言語で話す俳優に対応し、ビデオドライビングデータ704は、同一のセリフの翻訳を第二言語で話すダビング俳優に対応してもよい。この例において、ビデオドライビングデータ704及び/又はインスタンス702は、ビデオドライビングデータ704及びインスタンス702が同一の数のフレームに亘るようにクリップされている。この例において、上述の方法を使用して、プライマリ合成モデルパラメータ706が、インスタンス702に対して導出される。プライマリ合成モデルパラメータは、固有のカメラパラメータ、ベースジオメトリ及び反射モデルをエンコードする固定パラメータと、ベースジオメトリに対する各々のポーズ及び変形をエンコードするインスタンス702のフレームの各々の可変パラメータと、を含む。次いで、セカンダリモデルパラメータ708が、上述したのと同一の方法を使用して、ビデオドライビングデータ704に対して導出される。セカンダリパラメータ値708は、ビデオドライビングデータ704のフレームの各々に対するセカンダリ変形パラメータ値710を含み、セカンダリ変形パラメータ値710は、吹き替え俳優に対して決定された基本ジオメトリの変形を示す(人間の顔との関係において、変形は、顔の表情を表してもよい)。スタイル変換712は、オプションで実行され、この場合、セカンダリ変形パラメータ値710は、プライマリオブジェクト(この場合、第一言語アクター)に対して導出された変形パラメータ値とのスタイルの一貫性のために調整される。スタイル変換712を、例えば、VFXアーティストによって手動で実行してもよい、又は、自動若しくは半自動で実行してもよい。スタイル変換712を、プライマリソースから導出される変形パラメータとのスタイルの一貫性のために、セカンダリソース(例えば、ビデオソース)から導出される変形パラメータ値を修正するように訓練されたスタイル変換ニューラルネットワークを使用して実行してもよい。訓練を、プライマリ変形パラメータ値をセカンダリ変形パラメータ値に変換するとともに再びその逆に戻すようにそれぞれ構成された二つのスタイル変換ニューラルネットワークを使用して実行してもよい。生成ネットワークを、循環一貫性を備えて敵対的に訓練してもよい。
【0101】
スタイル変換712は、所定のセカンダリソースから導出された変形をプライマリオブジェクトのスタイル的に一貫した変形に「変換」することを可能にする。スタイル変換712は、例えば、セカンダリソースがプライマリソースとスタイル的に類似している場合又はプライマリソースとセカンダリソースが同一のオブジェクトを描写している場合のように場合によっては不必要であることがある。後者は、例えば、俳優の演技があるシーンのテイクから別のシーンのテイクに移されるときに生じる。
【0102】
合成モデルの修正されたパラメータ値714を生成するために、プライマリ変形パラメータ値を除く合成モデルのプライマリパラメータ値706を、(場合によってはスタイル変換された)セカンダリ変形パラメータ値710と結合してもよい。
【0103】
図7の例において、ビデオドライビングデータを使用して合成モデルの修正されたパラメータ値を決定するのに対して、他の例において、オーディオドライビングデータ又はビデオドライビングデータとオーディオドライビングデータとの組合せを使用して合成モデルの修正されたパラメータ値を決定してもよいことに留意されたい。これらの場合、合成モデルのパラメータ値を決定するために、別のオーディオドライビングニューラルネットワーク又は混合モードニューラルネットワークを訓練してもよい。
【0104】
図6に戻ると、レンダリング616を実行し、この場合、機械学習モデルは、機械学習モードの訓練されたパラメータ値210を使用して、オブジェクトの合成モデルについての修正された第1のパラメータ値614に応じて、オブジェクトの修正された第1のインスタンス618をレンダリングする。レンダリング616は、例えば、条件付きGANを使用して、修正された第1のパラメータ値614を処理することを有してもよい。代替的には、レンダリングは、オブジェクトの合成モデルから合成画像を生成することと、オブジェクトの修正された第1のインスタンス618を生成するために合成画像を使用することと、を有してもよい。
【0105】
図8は、図2の訓練された生成ネットワーク212を使用してオブジェクトの修正されたインスタンスをレンダリングする方法の例を示す。方法は、図2の方法と同等であるが、識別ネットワーク416及び生成ネットワーク212を訓練する関連の機能がない。図8の合成画像804は、修正されたパラメータ値を使用して合成モデルからレンダリングされる。したがって、合成画像810は、重ね合わされる合成画像の部分が分離されたインスタンスの残りの部分とは異なるパラメータ値に対応するハイブリッド画像である。それにも関わらず、訓練された生成ネットワーク212は、これらのハイブリッド画像をオブジェクトの写真のようにリアルな描写の修正インスタンスに変換する。
【0106】
分離されたインスタンス802、したがって、合成画像810が生成ネットワーク212を訓練するために使用される画像よりも高い解像度であってもよいことに留意されたい。いくつかの例において、生成ネットワーク212は、完全畳み込みネットワークであってもよい (すなわち、完全に接続されたレイヤーを含まない)。この場合、生成ネットワーク212は、低解像度画像で訓練されているにもかかわらず高解像度出力画像を生成するために高解像度入力画像を処理することができるようにしてもよい。代替的には、分離されたインスタンス802(又は合成画像810)を、生成ネットワーク212に入力する前にダウンサイズ又は圧縮してもよい。この場合、適切な解像度で写真のようにリアルな描写の出力を生成するために、超解像度ニューラルネットワークを生成ネットワーク212の出力に適用してもよい。発明者は、後者のアプローチが非常に妥当性の高いレンダリング出力を生成することを見い出した。
【0107】
上記の図7の例のようないくつかの例において、オブジェクトの分離されたインスタンスから導出されるパラメータ値を、ドライビングデータソースから導出されるパラメータ値に置換する。したがって、オブジェクトのインスタンスを、オブジェクトのインスタンスを含む全ての画像フレームに対して修正してもよい。他の例において、例えば、オブジェクトの修正されていないインスタンスとオブジェクトの修正されたオブジェクトのインスタンスの間を平滑に遷移するために、オブジェクトのインスタンスを含むフレームのサブセットに対してのみオブジェクトのインスタンスを修正するだけで十分であることもあり、実際には、好適であることもある。視覚ダビングの場合、第一言語の俳優を含む全ての画像フレーム又は第一言語の俳優が話す第一言語の俳優を含む全ての画像フレームに対して第一言語の俳優の口の形を修正することによって、視聴体験に悪影響を及ぼす非現実的な結果が生じる可能性がある。発明者は、例えば、大抵の発生音と互換性のないものとして容易に検出可能である第一言語の俳優又は第二言語の俳優のいずれかが口を閉じている特定の時間にのみ第一言語の俳優の口の形状を修正することによって視聴体験への悪影響が少なくなる可能性があることを見い出した。さらに、非対話瞬時における第一言語の俳優の演技と、対話瞬時又は少なくとも第二言語の俳優が話しているときの第二言語の俳優の演技との間を平滑に遷移することが好適であることがある。
【0108】
図9は、オブジェクトの合成モデルに対して2組のパラメータ値を導出する例を示す。 特に、パラメータ値のプライマリセットは、オブジェクトのインスタンスを含むプライマリビデオソースから導出され、パラメータ値のセカンダリセットは、(例えば、ビデオソース又はオーディオソースであってもよい)セカンダリドライビングデータソースから導出される。この例において、パラメータ値のプライマリセット及びパラメータ値のセカンダリセットは、変形パラメータ値のみが異なる。合成モデルの変形パラメータ値をプライマリ値とセカンダリ値との間で補間することによって、対応する変形間で変化するように合成モデルを制御してもよい。このようにして、オブジェクトを修正する範囲を、制御してもよい、例えば、所定のイベントが発生したときにのみ最大化してもよい又はオブジェクトを修正する範囲を制限するために緩和してもよい。例えば、第一言語の俳優の顔の合成モデルを、第一言語の俳優の演技と第二言語の俳優の演技の間で変更してもよい。結果として得られるブレンドされた演技は、俳優が話している期間全体を通じて第一言語の俳優の演技を最大限に修正するよりも好適である場合がある。図9の例において、変形パラメータ値は、第一言語の俳優の演技Pと第二言語の俳優の演技Sとの間で補間される。特に、第二言語の俳優の演技は、第二言語の俳優の俳優の口が閉じられるイベント902の周囲及び第一言語の俳優の口が閉じられるイベント904の周囲でフェーズイン及びフェーズアウトされる。イベント902で第二言語の俳優が(文字“p”のような)破裂音を発するときに、第二言語の俳優の口が短時間閉じられ、第一言語の俳優が( 文字“m”のような)両唇鼻音を発するときに、第一言語の俳優の口が長時間閉じられる。代替的には、イベント902は、第一言語の俳優が話していることを示してもよく、イベント904は、第二言語の俳優が話していることを示してもよい。
【0109】
イベント902及び904を、例えば、編集者が第一言語の俳優及び第二言語の俳優の映像を検討するとともに口を閉じたイベントのような所定のイベントが発生する時間をマークすることによって、手動で決定してもよい。代替的には、そのようなイベントを、オーディオデータ又はビデオデータから自動的に検出してもよい。例えば、オーディオデータ内の破裂音若しくは両唇鼻音又は特定の人の発話のような特定の聴覚イベントを識別するために、適切なオーディオフィルタ又は機械学習モデル(例えば、再帰型ニューラルネットワーク又は時間畳み込みニューラルネットワーク)を使用してもよい。代替的には、そのようなイベントを視覚的に識別するために、適切な機械学習モデルを訓練してもよい。図9の例において、イベント904及び902は、それぞれプライマリオーディオトラック906及びセカンダリオーディオトラック908においてそれぞれ自動的に検出され、イベント902,904の所定時間前に第二言語の俳優の演技が漸進的に又は段階的にフェーズインするとともにイベント902,904の所定時間後に第二言語の俳優の演技が漸進的に又は段階的にフェーズアウトするように、変形パラメータ値の補間を自動化してもよい。
【0110】
変形パラメータ値の補間を使用することの他の効果は、変形パラメータ値によって制御可能な表現の振幅を増幅又は抑制することを含む。例えば、第一言語の俳優が話しているが第二言語の俳優が話していないとき、第二言語の俳優から派生した変形パラメータ値に置換する代わりに、略中立な口の形状に対応するために第一言語の俳優の口の動きの振幅を減少させるように変形パラメータ値を調整してもよい。別の例として、第二言語の俳優が破裂音又は両唇子音を発するときに、生成された口の形状がそのようなときに閉じられることを確実にするために、変形パラメータ値を自動又は手動で調整してもよい。
【0111】
オブジェクトの修正された第1のインスタンス618をレンダリングした後、図6の方法は、オブジェクト置換620に進み、この場合、オブジェクトの第1のインスタンス606の少なくとも一部を、オブジェクトの修正された第1のインスタンス618の対応する少なくとも一部に置換する。この置換を、修正された第1のインスタンス618を画像フレームの第1のシーケンス602に合成することによって実現してもよく、この場合、合成プロセスは、オブジェクトの第1のインスタンス606に関連付けて記憶されるメタデータを使用して、オブジェクト(又はその一部)の修正された第1のインスタンス618を画像フレーム602の第1のシーケンスに重ね合わせることを有する。第1のインスタンス606の分離中に適用される安定化、登録又は色の正規化は、重ね合わせの前に修正された第1のインスタンス618に逆に適用される(すなわち、反対にする)。置換された部分とその下にある画像フレームとの間の段階的なブレンドを実現するために、ソフトマスク (アルファマット) を、重ね合わされるオブジェクトの修正された第1のインスタンスの一部 (例えば、口を含むともに目を除く顔の下部領域) に適用してもよい。マスクを、オブジェクトの合成モデルを使用して生成してもよい。特に、適切な領域を、上述したSTマップに規定し、UVマッピングを使用して合成モデルに適用し、かつ、オブジェクトの修正されたインスタンスの画像フレームの各々について、投影をレンダリングしてもよい。レンダリングされた投影を、合成プロセスのマスクのジオメトリを規定するために使用してもよい。このアプローチにより、オブジェクトのジオメトリに準拠したマスクを取得し、このアプローチを、特定のオブジェクト又はオブジェクトの特定のインスタンスに対して1回定義するだけで済む。STマップの領域を、手動又は自動で、例えば、(上述の合成モデルフィッティングに使用されるものとして)合成モデルの所定の特徴頂点を参照することによって規定してもよい。STマップは、図7を参照して説明したように、合成画像を生成するために使用されるマップと同一であってもよい。
【0112】
オブジェクトの第1のインスタンス606をオブジェクトの修正された第1のインスタンス618に正確に置換することを容易にするために、第1のインスタンス606(又はその一部)のフレーム方向の形状を示す第1のマスクデータ及び修正された第1のインスタンス618(又はその一部)のフレーム方向の形状を示す第2のマスクデータを生成するように、オブジェクトの合成モデルを使用してもよい。次に、オブジェクト置換620は、第1のインスタンス606が置換される画像フレームのいずれかについて第1のインスタンス606の境界が第1のインスタンス618の境界を超えるか否かを判定するために、第1のマスクデータと第2のマスクデータを比較することを有してもよい。これは、例えば、第1のインスタンス606が口を開けた顔を表すのに対して修正された第1のインスタンス618が口を閉じた顔を表す場合に発生する可能性がある。この場合、第1のインスタンス606の一部は、置換された第1のインスタンス618の重ね合わせ後でも見える可能性がある。そのような場合、例えば、Boris FX (RTM) の Mocha Pro のような視覚効果ツールを使用して又はアプリケーションディープインペインティング技術によって第1のインスタンス606のトレースを適切な背景に置換するために、クリーンな背景生成を実行してもよい。
【0113】
いくつかの例において、(オブジェクトのレンダリングされた部分には出現しない可能性がある)画像フレームの第1のシーケンスに出現するデジタルノイズ又はグレインに一致するように、ノイズをオブジェクトの置換された部分に適用してもよい。例えば、パーリンノイズを、画像フレーム内に出現するデジタルノイズと一致するスケール及び強度で適用してもよい。
【0114】
合成プロセスは、オブジェクトのインスタンスを置換した修正された画像フレームのシーケンスを生成する。場合によっては、修正された画像フレームのシーケンスは、ビデオデータの元の画像フレームを簡単に置換することができる。これは、オブジェクトのインスタンスが見える画像フレームごとにオブジェクトのインスタンスを置換又は修正する場合に可能であることがある。他の場合において、元の画像フレームから修正された画像フレームに直接遷移することにより望ましくない効果及びアーティファクトが生じることがある。視覚ダビングの例において、第一言語で話す俳優の映像から第二言語で話す俳優の合成レンダリングに遷移することにより、例えば、俳優の口の形状が開いた位置から閉じた位置又はその逆に瞬時に変化することがある。これらの問題を軽減するために、発明者は、オブジェクトの元のインスタンスからオブジェクトの修正されたインスタンスに又はその逆に更にシームレスに遷移できる技術を開発した。
【0115】
図10は、元の画像フレームのシーケンス1002及び修正された画像フレームのシーケンス1004を含むビデオデータを処理する方法の例を示す。修正された画像フレーム1004は、修正された画像フレーム1004において画像フレーム内に出現するオブジェクトのインスタンスが本明細書で説明される技術を使用して修正及び置換された点を除いて、元の画像フレーム1002と同一である。修正された画像フレーム1004を生成するために、オブジェクトの修正されたインスタンスの少なくとも一部が元の画像フレーム1004と合成され、それによって、オブジェクトの元のインスタンスが置換される。この例において、元の画像フレームのシーケンス1002は、対応する修正された画像フレームに置換される別の元の画像フレームのシーケンス(図示せず)に先行する。別の画像フレームのシーケンスは、例えば、第二言語に吹き替えられる第一言語で話す俳優の映像を含んでもよい。元の画像フレームのシーケンス1002は、俳優が最初に第一言語で話し始める画像フレーム又は俳優が最初に第一言語で話し始める直前の画像フレームを含んでもよい。
【0116】
方法は、オプティカルフロー決定1006に進む。元の画像フレーム1002及び対応する修正された画像フレーム1004について、変位した画素が修正された画像フレーム1004の画像に略一致するように元の画像フレーム1002の画素を変位させる方法を決定するオプティカルフローデータ1008を生成する。オプティカルフローデータ1008は、元の画像フレーム1002の画素の各々について又は置換されるオブジェクトが出現する元の画像フレーム1002の部分領域について、変位又は速度を表示又はエンコードしてもよい。オプティカルフローは、オブジェクトの映像を含む画像フレームのシーケンス内でオブジェクトがどのように移動するかを推定するために通常使用される。この場合、代わりに、オブジェクトの元の映像からオブジェクトの合成レンダリングの画素位置への画素位置のマッピングを決定するために、オプティカルフローを使用する。これは、本明細書で説明する機械学習モデルによって生成された写真のようにリアルな描写のレンダリングによって可能になる。オプティカルフロー決定1008を、任意の適切な方法、例えば、位相相関、ブロックベースの方法、差動法、一般変分法又は離散最適化法を使用して実行してもよい。
【0117】
図10の方法は、ワーピング1010を引き続き実行し、この場合、元のフレーム1002の画素をオプティカルフローデータ1008によって示される方向に変位させ、ワーピングした元の画像フレーム1012を生成し、 修正された画像フレーム1004の画素を、オプティカルフローデータ1008によって示される方向と反対の方向に、生成されたワーピングした修正された画像フレーム1014に変位させるために、オプティカルフローデータ1008を使用する。このプロセスにより、元の画像フレーム1002に出現するオブジェクトが修正された画像フレーム1004に出現するオブジェクトに向かうワーピング及びその逆が行われる。元の画像フレーム1002を修正された画像フレーム1004に段階的にワーピングするために、元の画像フレーム1002の画素及び修正された画像フレーム1004の画素が変位される距離は、画像フレームごとに異なる。シーケンスの開始時に、元の画像フレーム1002は修正されず、修正された画像フレーム1004は、(オプティカルフローデータ1008によって示される距離の100%だけ移動される画素に対応する)最大限にワーピングされる。シーケンスの次の時間ステップにおいて、元の画像フレーム1002の画素は、オプティカルフローデータ1008によって示される距離の割合F1(例えば、F1=5%、10%、20%又は他の適切な値)だけ変位され、修正された画像フレーム1004の画素は、最大距離の100%-F1の割合だけ変位される。シーケンスの次のステップにおいて、元の画像フレーム1002の画素は、オプティカルフローデータ1008によって示される距離の割合F2だけ変位され、修正された画像フレーム1004の画素は、オプティカルフローデータ1008によって示される最大距離の100%-F2の割合だけ変位され、この場合、F2>F1である。このプロセスは、元の画像フレーム1002が最大限にワーピングされるとともに修正された画像フレーム1004が変更されないシーケンスの最後の時間ステップまで、時間ステップの各々で割合F1,F2,F3...を増加させながら段階的に継続する。このようにして、時間ステップの各々において、ワーピングした元の画像フレーム1012とワーピングした修正された画像フレーム1014の画素は互いに略一致する。割合F1,F2,F3...は、フレーム番号に応じて直線的に増加してもよい又はフレーム番号の別の増加関数に従って増加してもよい。
【0118】
方法は、ディゾルブ1016に進み、この場合、ワーピングした元の画像フレーム1012は、合成画像フレーム1018を生成するために、ワーピングした修正された画像フレーム1014に段階的にディゾルブされる。これによって、合成画像フレーム1018は、シーケンスの開始時の元の画像フレーム1002からシーケンスの終了時の修正された画像フレーム1004まで遷移する。シーケンスの少なくともいくつかの時間ステップについて、ディゾルブ1016は、ワーピングした元のフレーム1012の画素値及びワーピングした修正された画像フレーム1014の画素値の加重平均に基づいて合成画像フレーム1018の画素値を決定してもよく、この場合、ワーピングした元の画像フレーム1012の重み付けは、時間ステップごとに減少し、ワーピングした修正された画像フレーム1014の重み付けは、時間ステップごとに増加する。ワーピングした元の画像フレーム1012の重み付けは、フレーム番号の線形関数又は非線形関数に従って1から0に減少してもよいのに対して、ワーピングした修正された画像フレーム1014の重み付けは、フレーム番号の線形関数又は非線形関数に従って0から1に増加してもよい。したがって、増分ディゾルブは、ワーピングした元の画像フレーム1012の画素値とワーピングした修正された画像フレーム1014の画素値との間の増分補間として実現される。
【0119】
発明者は、元の画像フレーム1002から修正された画像フレーム1004へのワーピング(又はその逆)のときに画像の鮮明さを維持する更に本物に近い遷移を増分ワーピング1010が実行される画像フレームの中央セット内の増分ディゾルブ1016に集中することによって実現できることを見い出した。例えば、増分ディゾルブ1016のレートは、増分ワーピング1010のレートに関連して増加した後に減少してもよい。増分ディゾルブ1016を、増分ワーピング1010の中間あたりで、増分ワーピング1010と比較して迅速に実行してもよい。ディゾルブ1016を、ワーピング1010よりも後のフレーム番号で開始するとともにワーピング1010よりも前のフレーム番号で終了してもよい、及び/又は、ディゾルブ1016を、ワーピング1010よりも急速に変化する関数を使用して実行してもよい。このようにして、増分ディゾルブを、増分ワーピング1010が実行される中央のいくつかの画像フレーム内で集中させる。一例において、増分ワーピング1010を線形に実行してもよいのに対し、増分ディゾルブ1016を、0の略平坦な水平セクションから1の略平坦な水平セクションに平滑に遷移する平滑ステップ関数又はシグモイド状関数に対応する係数によって実行してもよい。
【0120】
方法を説明するために、図11は、元の画像フレームO1~O5のシーケンス及び修正された画像フレームM1~M5のシーケンスの例を示す。オプティカルフローデータOF1~OF5は、時間ステップごとに決定され、この場合、所定の時間ステップのオプティカルフローデータは、元の画像フレームと修正された画像フレームとを関連付ける推定されたワーピングを示す。例えば、オプティカルフローデータOF1は、元の画像フレームO1を修正された画像フレームM1に変換するための推定ワーピングを示す。グラフは、増分ワーピング及び増分ディゾルブがどのように適用されるかの例を示す。増分ワーピングの場合、縦軸の係数は、画素が変位する距離を、オプティカルフローデータによって示される最大距離の割合として表す。0の係数は、画素が元の位置にとどまることを意味し、1の係数は、画素が最大距離だけ変位することを意味する。増分ディゾルブについては、縦軸の係数は、(ワーピングした)元の画像フレームが(ワーピングした)修正された画像フレームによってどの程度置き換えられるかを表す。0の係数は、 (ワーピングした) 元の画像フレームに対応し、1の係数は、 (ワーピングした) 修正された画像フレームに対応する。
【0121】
この例において、ワーピングは、線形的に増加する増分で適用され、第1のワーピングしたフレームはフレーム番号1である。ディゾルブは、平滑ステップ関数で適用される。平滑ステップ関数の最も急速に変化するセクションの前では、増分ディゾルブが発生するレートは、増分ワーピングが発生するレートに比べて増加する。平滑ステップ関数の最も急速に変化するセクションの後では、増分ディゾルブが発生するレートは、増分ワーピングが発生するレートに比べて減少する。増分ディゾルブは、増分ワーピングの中央フレーム内に集中する。この例において、ワーピングのレートに対するディゾルブのレートは、平滑に増減するが、他の例において、ワーピングのレートに対するディゾルブのレートは、例えば、瞬間的に非平滑に増減してもよい。
【0122】
本明細書で説明される機械学習モデルは、訓練データに一貫して出現する照明及び色の特性を再作成することを学習できるようにしてもよいが、場合によっては、オブジェクトのレンダリングされたインスタンスは、局所的に又はあるインスタンスから別のインスタンスに変化する他の照明又は色の特性をキャプチャできない場合がある。これは、例えば、映画のシーンで影がオブジェクトを横切って移動する場合に発生する可能性がある。そのような問題を、コントラスト、色、彩度のような画像の視覚的属性を変化させるカラーグレーディングを使用して対処してもよい。カラーグレーディングを手動で実行してもよいが、これは、熟練したVFXアーティストからの入力を必要とする時間のかかるプロセスである。
【0123】
図12は、上述した手動カラーグレーディングの代わりに又はそれに加えて使用することができる自動カラーグレーディングを実行する方法の一例を示す。方法は、元の画像フレーム1202のシーケンス及び修正された画像フレーム1204のシーケンスを含むビデオデータを処理することを有し、この場合、修正された画像フレームにおいて、オブジェクトのインスタンスは、本明細書に記載の技術を使用して修正される。修正された画像フレーム1204の色及び照明特性が対応する元の画像フレーム1202の色及び照明特性によく似ていることが好適であるが、それは、オブジェクトの修正されたインスタンスを含む領域については保証されない可能性がある。これを実現するために、方法は、オブジェクトの元のインスタンスをオブジェクトの修正されたインスタンスに関連付けるワーピングを推定するためにオプティカルフロー決定1206に進む。推定されたワーピングは、元の画像フレーム1202の画素の各々又は置換されるオブジェクトが出現する元の画像フレーム1202のサブ領域についての変位又は速度を表示又はエンコードしてもよいオプティカルフローデータ1208によって示される。方法は、ワーピング1210を引き続き実行し、この場合、ワーピングした元の画像フレーム1212を生成するために、オプティカルフローデータ1008を使用して、元のフレーム1202の画素をオプティカルフローデータ1208によって示される方向に変位させる。ワーピングを増分的に実行する図10の方法とは異なり、図12のワーピング1210を、元の画像フレーム1202についてオプティカルフローデータ1208によって示される範囲まで実行してもよい。その結果、ワーピングした元の画像フレーム1212の画素及び修正された画像フレーム1204の画素は、略一致する。別の例において、修正された画像フレーム1204を、元の画像フレーム1202と一致するようにワーピングしてもよい。更に別の例において、部分的なワーピングを、元の画像フレーム1202及び修正された画像フレーム1204で実行してもよい(これらの別の例のいずれかにおいて、カラーグレーディングプロセス後に、修正された画像フレーム1204の画素を元の位置にワーピングして戻す必要がある。)。
【0124】
方法は、ぼかし1214を引き続き実行し、この場合、ぼかされているワーピングした元の画像フレーム1216を生成するために、ぼかしフィルタが、ワーピングした元の画像フレーム1212に適用されぼかされている修正された画像フレーム1218を生成するために、ぼかしフィルタが、修正された画像フレーム1204に適用される。ぼかしフィルタは、2次元ガウスフィルタ、ボックスブラーフィルタ又は他の適切な形式のローパスフィルタであってもよい。ぼかしフィルタは、有限のサイズ又は数画素の範囲、例えば、3~20画素又は5~10画素の固有サイズを有してもよい。2次元ガウスフィルタとの関連で、特性サイズは、ガウスフィルタ分布の標準偏差を指してもよい。ぼかし1214の効果は、結果として得られる画像フレームの画素がそれらの画素の領域内の周囲の色を表すように高解像度の詳細を除去することである。ぼかしフィルタに適切なサイズを選択することによって、周囲の色及び照明の局所的な変化を比較的短いスケールでキャプチャすることができる。
【0125】
方法は、カラーグレーディング1220に進み、この場合、修正された画像フレーム1204の色特性を修正してカラーグレーディングした修正された画像フレーム1220を生成するために、ぼかされているワーピングした元の画像フレーム1216及びぼかされている修正された画像フレーム1218を使用する。ワーピングした元の画像フレーム1212が、修正された画像フレーム1204に近似するので、ぼかされているワーピングした元の画像フレーム1216の画素は、修正された画像フレーム1204の対応する画素の所望の周囲色を表す。したがって、ぼかされている修正された画像フレーム1218の画素値に対するぼかされているワーピングした元の画像フレーム1216の画素値の比は、修正された画像フレーム1204に適用される空間的に変化する色補正マップを表す。したがって、カラーグレーディング1220を、ぼかされているワーピングした元の画像フレーム1216をぼかされている修正された画像フレーム1218により画素単位で分割するとともに結果に修正された画像フレーム1204を画素単位で乗算する(又は同等の数学的演算を実行する)ことによって実行してもよい。結果として得られるカラーグレーディングした修正された画像フレーム1222は、修正された画像フレーム1222の細かいスケールの詳細を保持しながら元の画像フレーム1202の局所的な色特性を保持する。
【0126】
図13は、本明細書に記載の特定の方法に従って視覚ダビングが実行される映画の外国語版の映画製作パイプラインを示す。図13の実線の矢印は、ビデオデータのパスを表し、破線の矢印は、オーディオデータのパスを表す。この例において、プロダクションピクチャラッシュ1302は、俳優の顔のインスタンスが検出されるとともに分離される(場合によっては解像度が低下した)フェイスオフプロセス1304を受ける。結果として生じる俳優の顔の分離されたインスタンスは、ニューラルネットワーク訓練1306に使用される。この例において、(異なるシーンは異なる視覚的特徴を有する可能性が高いという事実のために)各シーンで話す俳優ごとに別個のニューラルネットワークが訓練される。
【0127】
ニューラルネットワーク訓練1306が行われている間、プロダクションピクチャラッシュ1302及び関連するプロダクションオーディオラッシュ1308は、プロダクションピクチャラッシュからの最終作品に選ばれる映像が編集されるオフライン編集を含む第一言語(PL)編集ワークフロー1310で使用される。結果として得られるオフライン編集(画像及び音声)は、第二言語(SL)記録1312をガイドするために使用され、これは、第一言語の複数の俳優についての第二言語の複数の俳優及び/又は複数の第二言語での第二言語の複数の俳優の音声を記録することを有してもよい。この例において、SL記録1312は、ビデオ記録及びオーディオ記録を含む。他の例において、SL記録は、音声記録のみを含んでもよい。さらに、第一言語の俳優の顔のどのインスタンスを翻訳する必要があるかを決定するために、オフライン編集を使用してもよい。
【0128】
SL記録1312から得られるビデオデータ及び/又はオーディオデータは、視覚翻訳1314のためのドライビングデータとして使用され、この場合、映画に組み込むために必要に応じて第一言語の俳優の顔の写真のようにリアルな描写の翻訳されたインスタンスを生成するために、1306で訓練されたニューラルネットワークを使用する。結果として生じる翻訳されたインスタンスは、翻訳されたインスタンスがフル解像度マスター画像と結合されるフェイスオンプロセス1316を受ける。次に、必要に応じてVFX1318が適用され、その後、配信用の最終的な第二言語マスター画像1322を作成するために、フル解像度マスター画像と第二言語オーディオのマスタリング1320を行う。
【0129】
上記の実施形態は、本発明の例示的な例として理解されるべきである。本発明の別の実施形態が想定される。例えば、視覚ダビングとの関連で、様々な映画のような様々なソースからの俳優の映像で機械学習モデルを訓練し、機械学習モデルを、後に新しい映画での俳優の視覚ダビングに使用することができる。(例えば、更に洗練された照明モデルを含む)十分に表現力豊かな合成モデルが使用される場合、本明細書で説明する方法は、異なる視覚的特徴を持つシーン又は映画内の俳優の写真のようにリアルな描写のレンダリング又は実際には異なる俳優のレンダリングを生成できるようにしてもよい。後者の場合、一般的な機械学習モデルは、例えば、オプションで様々な視覚的特徴を持つシーンで多くの異なる人間の顔のインスタンスで訓練されてもよく、十分に表現力豊かな合成モデルのパラメータ値に応じて、様々な異なる人間の顔の写真のようにリアルなレンダリングを生成できるようにしてもよい。さらに、合成モデル及び機械学習モデルを使用してオブジェクトの修正されたインスタンスをレンダリングするための本明細書に記載の特定の技術が例示にすぎず、オブジェクトの第1のインスタンスをオブジェクトの修正された第1のインスタンスに置換するための本明細書に記載の方法を修正された第1のインスタンスを生成する他の方法と同様に使用することができることに留意されるべきである。そのような方法のいくつかは、合成モデルと上述したニューラルネットワークモデルのような機械学習モデルとの組合せを利用するのに対し、他の方法は、明示的な合成モデルの使用を省略し、代わりに、ニューラルラディアンスフィールド並びにStyleGAN及びその変形のような特定のGANベースのアプローチの場合のように、ニューラルネットワークによって暗黙的にオブジェクトをモデル化してもよい。オブジェクトの明示的モデル又は暗黙的モデルに基づいてオブジェクトの写真のようにリアルな描写のインスタンスを生成するように構成及び訓練されたニューラルネットワークは、ニューラルレンダラと呼ばれる場合がある。
【0130】
本明細書で説明する方法を、映画内に出現する人間の顔以外のオブジェクトの詳細な編集に使用してもよい。例えば、方法を、人間全体、動物、乗り物等を巧みに処理するために使用してもよい。さらに、例えば、修正の結果としてオブジェクトの輪郭が移動する場合、修正されたオブジェクトをビデオに合成し直すために、ディープ修復を使用してもよい。
【0131】
任意の一つの実施形態に関連して説明される任意の特徴を単独で又は説明される他の特徴と組み合わせて使用してもよいこと及び任意の一つの実施形態に関連して説明される任意の特徴を任意の他の実施形態の一つ以上の特徴と組み合わせて又は他の実施形態と任意に組み合わせて使用してもよいことを理解されたい。さらに、添付した特許請求の範囲で定義される本発明の範囲から逸脱することなく、上記に記載されていない均等物及び変更を使用してもよい。
図1
図2
図3
図4
図5A
図5B
図5C
図6
図7
図8
図9
図10
図11
図12
図13
【国際調査報告】