(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-15
(54)【発明の名称】ビデオ生成方法及び機器
(51)【国際特許分類】
G06T 5/60 20240101AFI20250107BHJP
G06V 10/82 20220101ALI20250107BHJP
G06T 7/00 20170101ALI20250107BHJP
【FI】
G06T5/60
G06V10/82
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024538088
(86)(22)【出願日】2022-12-22
(85)【翻訳文提出日】2024-06-21
(86)【国際出願番号】 SG2022050927
(87)【国際公開番号】W WO2023121571
(87)【国際公開日】2023-06-29
(31)【優先権主張番号】202111609441.8
(32)【優先日】2021-12-24
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521388058
【氏名又は名称】レモン インコーポレイテッド
【氏名又は名称原語表記】Lemon Inc.
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】シ,イチュン
(72)【発明者】
【氏名】ヤン,シャオ
(72)【発明者】
【氏名】シェン,シャオホイ
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057DB02
5B057DB09
5B057DC01
5B057DC40
5L096AA06
5L096CA04
5L096EA33
5L096FA32
5L096GA30
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
本開示の実施例はビデオ生成方法及び機器を提供し、該方法は、第1の画像において、第1の画像特徴を抽出するステップと、第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第1の画像から第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップと、を含む。それにより、非線形補間により、中間画像特徴の品質を向上させ、さらにターゲットビデオの中間フレームの画像品質を向上させ、すなわち、ターゲットビデオのビデオ品質を向上させる。
【特許請求の範囲】
【請求項1】
ビデオ生成方法であって、
第1の画像において、第1の画像特徴を抽出するステップと、
前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、
前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップとを含む、ビデオ生成方法。
【請求項2】
前記第1の画像特徴及び第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る前記ステップは、
前記第1の画像特徴及び前記第2の画像特徴に基づき、第3の画像特徴を生成するステップと、
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第3の画像特徴を調整するステップと、
前記第1の画像特徴、前記第2の画像特徴及び調整された第3の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得るステップとを含む、請求項1に記載のビデオ生成方法。
【請求項3】
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第3の画像特徴を調整する前記ステップは、
前記特徴空間における平均画像特徴を取得するステップと、
前記平均画像特徴に基づき、前記第3の画像特徴を初期調整するステップと、
前記第1の画像特徴及び前記第2の画像特徴を、前記ニューラルネットワークに入力し、前記初期調整された偏差を反映する前記ニューラルネットワークの出力データを得るステップと、
前記出力データに基づき、初期調整された第3の画像特徴を再び調整するステップとを含む、請求項2に記載のビデオ生成方法。
【請求項4】
前記平均画像特徴に基づき、前記第3の画像特徴を初期調整する前記ステップは、
前記第3の画像特徴及び前記平均画像特徴の平均値を決定するステップと、
前記初期調整された第3の画像特徴が前記平均値であることを決定するステップとを含む、請求項3に記載のビデオ生成方法。
【請求項5】
前記ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、前記規則性制約は、前記ニューラルネットワークに基づいて調整された画像特徴と前記特徴空間に基づいて調整された画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記ニューラルネットワークに基づいて調整された画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる、請求項2~4のいずれか一項に記載のビデオ生成方法。
【請求項6】
前記第1の画像特徴、前記第2の画像特徴及び調整された第3の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得る前記ステップは、
前記第1の画像特徴、前記第2の画像特徴及び前記第3の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、
前記補間曲線においてサンプリングし、前記複数の中間画像特徴を得るステップとを含む、請求項2~5のいずれか一項に記載のビデオ生成方法。
【請求項7】
前記画像生成モデルはStyleGANモデル又はStyleGAN2モデルである、請求項1~6のいずれか一項に記載のビデオ生成方法。
【請求項8】
モデル決定方法であって、
複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするステップを含み、
前記ニューラルネットワークの一回のトレーニング過程は、
第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む、モデル決定方法。
【請求項9】
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整する前記ステップは、
規則性制約及び類似度制約によって、前記ニューラルネットワークのターゲット最適化関数を決定するステップと、
前記ターゲット最適化関数、前記ターゲット偏差、前記再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含み、
前記規則性制約は、前記再び調整されたターゲット画像特徴と前記初期調整されたターゲット画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記再び調整されたターゲット画像特徴と前記第1のトレーニング画像の画像特徴、前記第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられることを特徴とする、請求項8に記載のモデル決定方法。
【請求項10】
ビデオ生成機器であって、
第1の画像において、第1の画像特徴を抽出するための抽出ユニットと、
前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る補間ユニットと、
前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備える、ビデオ生成機器。
【請求項11】
モデル決定機器であって、
複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするためのトレーニングユニットを備え、
前記ニューラルネットワークの一回のトレーニング過程は、
第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む、モデル決定機器。
【請求項12】
少なくとも1つのプロセッサとメモリとを備える電子機器であって、
前記メモリは、コンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサは、前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも1つのプロセッサに請求項1~7のいずれか一項に記載のビデオ生成方法を実行させ、又は、前記少なくとも1つのプロセッサに請求項8又は9に記載のモデル決定方法を実行させる、電子機器。
【請求項13】
コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行すると、請求項1~7のいずれか一項に記載のビデオ生成方法を実現し、又は、請求項8又は9に記載のモデル決定方法を実現する、コンピュータ読み取り可能な記憶媒体。
【請求項14】
コンピュータ実行命令を含み、プロセッサが前記コンピュータ実行命令を実行する時、請求項1~7のいずれか一項に記載のビデオ生成方法を実現し、又は、請求項8又は9に記載のモデル決定方法を実現する、コンピュータプログラム製品。
【請求項15】
プロセッサに実行されると、請求項1~7のいずれか一項に記載のビデオ生成方法を実現し、又は、請求項8又は9に記載のモデル決定方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年12月24日に中国特許庁に提出され、出願番号が202111609441.8であり、発明名称が「ビデオ生成方法及び機器」である中国特許出願の優先権を主張し、その全内容が引用によって本明細書に組み込まれる。
【0002】
本開示の実施例はコンピュータ技術分野に関し、特にビデオ生成方法及び機器に関する。
【背景技術】
【0003】
従来のコンピュータ視覚技術、深層学習技術において、2つの画像に基づいて2つの画像の間が漸進的に変化するビデオを生成することができ、例えば、深層学習モデルに、2つの顔画像を入力し、2つの顔画像の間が漸進的に変化するビデオを生成し、該ビデオ中のビデオフレームが1つの顔画像から別の顔画像に漸進的に変化する。該技術は、例えば特殊効果の生成に用いられ、ビデオの面白さを向上させることができる。
【0004】
ビデオ生成の過程において、2つの画像に基づいてビデオ中の複数のビデオフレームを生成し、該2つの画像の間に漸進的に変化するビデオを得る必要がある。しかしながら、現在、2つの画像に基づいて生成された複数のビデオフレームの品質、特にビデオの中間フレームの画像品質を向上させる必要がある。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施例は、少ない数の画像に基づいてビデオを生成する際にビデオの中間フレームの画像品質を向上させる必要があるという問題を解決するために、ビデオ生成方法及び機器を提供する。
【0006】
第1の態様によれば、本開示の実施例はビデオ生成方法を提供し、
第1の画像において、第1の画像特徴を抽出するステップと、
前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、
前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップとを含む。
【0007】
第2の態様によれば、本開示の実施例はモデル決定方法を提供し、
複数のトレーニング画像及び画像生成モデルによって、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするステップを含み、
前記ニューラルネットワークの一回のトレーニング過程は、
第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む。
【0008】
第3の態様によれば、本開示の実施例はビデオ生成機器を提供し、
第1の画像において、第1の画像特徴を抽出するための抽出ユニットと、
前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るための補間ユニットと、
前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備える。
【0009】
第4の態様によれば、本開示の実施例はモデル決定機器を提供し、
複数のトレーニング画像及び画像生成モデルによって、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするためのトレーニングユニットを備え、
前記ニューラルネットワークの一回のトレーニング過程は、
第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む。
【0010】
第5の態様によれば、本開示の実施例は、少なくとも1つのプロセッサとメモリとを備える電子機器を提供し、
前記メモリは、コンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサは、前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも1つのプロセッサに第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実行させ、又は、前記少なくとも1つのプロセッサに第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実行させる。
【0011】
第6の態様によれば、本開示の実施例はコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行する時、第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実現する。
【0012】
第7の態様によれば、本開示の1つ又は複数の実施例に基づき、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品はコンピュータ実行命令を含み、プロセッサが前記コンピュータ実行命令を実行する時、第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実現する。
【0013】
第8の態様によれば、本開示の1つ又は複数の実施例に基づき、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサに実行される時、第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実現する。
【0014】
本実施例が提供するビデオ生成方法及び機器は、第1の画像の第1の画像特徴及び第2の画像の第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得て、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第1の画像から第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成する。それにより、非線形補間により、中間画像特徴の品質を向上させ、ターゲットビデオの中間フレームと第1の画像、第2の画像との類似度を確保することに基づき、ターゲットビデオの中間フレームの画像品質を向上させ、さらにターゲットビデオのビデオ品質を向上させる。
【0015】
本開示の実施例又は従来技術の技術的解決手段をより明確に説明するために、以下、実施例又は従来技術の記載に使用する必要がある図面を簡単に紹介し、明らかなように、下記説明における図面は、本開示の一部の実施例であり、当業者にとって、創造的な労働を必要としない前提において、これらの図面に基づいて他の図面を得ることができる。
【図面の簡単な説明】
【0016】
【
図1】
図1は本開示の実施例が適用する応用シーンの模式図である。
【
図2】
図2は本開示の実施例が提供するビデオ生成方法のプロセス模式
図1である。
【
図3a】
図3aは本開示の実施例が提供するビデオ生成方法のプロセス模式
図2である。
【
図3b】
図3bは本開示の実施例が提供する順に画像生成モデルの特徴空間及びニューラルネットワークに基づいて第3の画像特徴を調整するプロセス模式図である。
【
図4】
図4は本開示の実施例が提供する特徴空間及びニューラルネットワークに基づく非線形補間のフレームワークの例を示す図である。
【
図5】
図5は本開示の実施例が提供するモデル決定方法のプロセス模式図である。
【
図6】
図6は本開示の実施例が提供するニューラルネットワークのトレーニングフレームワークの模式図である。
【
図7】
図7は本開示の実施例が提供するビデオ生成機器の構造ブロック図である。
【
図8】
図8は本開示の実施例が提供するモデル決定機器の構造ブロック図である。
【
図9】
図9は本開示の実施例が提供する電子機器のハードウェア構造の模式図である。
【発明を実施するための形態】
【0017】
本開示の実施例の目的、技術的解決手段、及びメリットをより明確にするために、以下、本開示の実施例の図面を参照しながら本開示の実施例の技術的解決手段について明確でかつ完全に説明する。明らかなように、説明された実施例は本開示の一部の実施例であり、全ての実施例ではない。本開示の実施例に基づいて、当業者が創造的な労働を必要としない前提において得ることができるその他の実施例は、いずれも本開示の保護範囲に属するものとなる。
【0018】
2つの入力画像の間が漸進的に変化するビデオを生成する場合、一般的には、2種の入力画像の画像特徴に対して線形補間を行い、中間画像特徴を得て、中間画像特徴を利用してビデオの中間フレームを生成する。該方式によってビデオフレームの連続性、類似性を確保することができるが、線形補間後の中間画像特徴が実際のビデオ中のビデオ画面の画像特徴の分布規則(又は変化規則)に合致しないことが多いため、中間フレームの画像品質が悪くなり、美観性、真実性が不十分になる。
【0019】
上記問題を解決するために、本開示の実施例はビデオ生成方法及び機器を提供し、第1の画像の第1の画像特徴及び第2の画像の第2の画像特徴に基づき、非線形補間によって、複数の中間画像特徴を得て、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、ターゲットビデオを生成する。ターゲットビデオは、第1の画像から第2の画像に漸進的に変化する過程を示すために使用される。実際のビデオ画面の変化過程が非線形変化であり、従って、線形補間方式に比べて、本開示の実施例は非線形補間を用い、中間画像特徴の品質を向上させ、ターゲットビデオの中間フレームの品質を向上させ、これにより、ターゲットビデオのビデオ画面が非線形変化になり、真実性、美観性がより高い。中間画像特徴の品質を向上させることは、中間画像特徴の真実性を向上させることと、中間画像と第1の画像及び第2の画像との類似度を向上させることとを含む。ターゲットビデオの中間フレームの品質を向上させることは、中間フレームの美観性及び真実性を向上させることと、中間フレームと第1の画像及び第2の画像との類似度を向上させることとを含む。
【0020】
図1を参照すると、
図1は本開示の実施例が適用する応用シーンの模式図である。
【0021】
図1に示すように、該応用シーンにおいて、関する機器はビデオ生成機器101を含み、ビデオ生成機器101が端末又はサーバであってもよく、
図1はビデオ生成機器101がサーバであることを例とする。ビデオ生成機器101において、2つの画像を処理し、2つの画像の間の漸進変化効果を示すためのビデオを生成することができる。
【0022】
1つの実施例では、該応用シーンに係る機器は画像収集機器102をさらに含み、画像収集機器102も端末又はサーバであってもよく、例えば、端末がユーザーにより入力された画像を収集し、又は端末がカメラによって現在のシーンでの画像を収集し、又は、サーバがネットワークに公開され且つ公衆の使用を許可する画像をネットワークから収集する。
図1は画像収集機器102が端末であることを例とする。画像収集機器102は収集された画像をビデオ生成機器101に送信し、ビデオ生成機器101によって、収集された画像から別の画像(画像収集機器102又は他の機器からのものである)に漸進的に変化することを示すためのビデオ、又は別の画像から収集された画像に漸進的に変化することを示すためのビデオを生成する。
【0023】
ビデオ生成機器101と画像収集機器102とは同じ機器であってもよく、又は、異なる機器であってもよい。
【0024】
ビデオ生成機器101と画像収集機器102とは同じ機器である場合、例えば、ユーザーが携帯電話で自分撮りを行い、自分撮りアバターを得て、且つ携帯電話から別の画像を選択し、携帯電話がユーザーの自分撮りアバター及びユーザーにより選択された画像に基づいてビデオを生成し、該ビデオのビデオ内容が、ユーザーの自分撮りアバターからユーザーにより選択された画像に漸進的に変化する過程である。
【0025】
ビデオ生成機器101と画像収集機器102とは異なる機器である場合、例えば、ユーザーが携帯電話で自分撮りを行い、自分撮りアバターを得て、且つ携帯電話から別の画像を選択し、携帯電話が自分撮り画像及びユーザーにより選択された画像をサーバに送信し、サーバがビデオを生成し且つ該ビデオを携帯電話に戻し、該ビデオのビデオ内容が、ユーザーの自分撮りアバターからユーザーにより選択された画像に漸進的に変化する過程である。
【0026】
端末は、パーソナルデジタルアシスタント(personal digital assistant、PDA)機器、携帯機器(例えば、スマートフォン、タブレットコンピュータ)、コンピューティング機器(例えば、パーソナルコンピュータ(personal computer、PC))、車載機器、ウェアラブル機器(例えば、スマートウォッチ、スマートブレスレット)、及びスマートホーム機器(例えば、スマートディスプレイ機器)等であってもよい。サーバは、分散型サーバ、集中型サーバ、クラウドサーバ等であってもよい。
【0027】
以下、本開示の複数の実施例を提供する。本開示の複数の実施例の実行本体は電子機器であってもよく、電子機器は端末又はサーバであってもよい。
【0028】
図2を参照すると、
図2は本開示の実施例が提供するビデオ生成方法のプロセス模式
図1である。
図2に示すように、該ビデオ生成方法は、ステップ201~ステップ203を含む。
【0029】
S201、第1の画像において、第1の画像特徴を抽出する。
【0030】
第1の画像がユーザーにより入力された画像、他の機器からの画像、又は現在の実行機器により撮影された画像であってもよい。例えば、現在の実行機器が端末である場合、端末はユーザーにより入力された第1の画像を取得し、又は端末のカメラにより撮影された第1の画像を取得することができる。また、例えば、現在の実行機器がサーバである場合、サーバは端末により送信されたユーザーにより入力された第1の画像を受信することができる。
【0031】
第1の画像特徴は第1の画像の画像特徴である。
【0032】
本実施例では、エンコーダで第1の画像を符号化し、第1の画像特徴を得て、この時、第1の画像特徴とは、具体的に、第1の画像を符号化した後に得た画像特徴を指す。
【0033】
S202、第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る。
【0034】
第2の画像と第1の画像とは異なる画像である。
【0035】
第2の画像特徴とは、具体的に、第2の画像を符号化した後に得た画像特徴を指す。
【0036】
1つの例では、複数の画像及び複数の画像を符号化した後に得た画像特徴を予め記憶することができる。記憶された複数の画像の画像特徴から、第2の画像特徴を取得する。1つの方式では、ユーザーが予め記憶された複数の画像から第2の画像を指定し、該複数の画像の画像特徴から、第2の画像の画像特徴、すなわち、第2の画像特徴を取得することができ、別の方式では、複数の画像の画像特徴から第2の画像特徴を予め設定した順序(例えば画像記憶順序)又はランダムに取得することができる。
【0037】
例えば、ユーザーが第1の画像を入力する操作に応答し、端末にユーザーに選択される複数の画像を表示し、ユーザーが複数の画像から第2の画像を選択し、且つ第1の画像から第2の画像に漸進的に変化するビデオを生成する要求を端末に入力し、端末が該要求に応答し、予め記憶された複数の画像の画像特徴から第2の画像の画像特徴、すなわち、第2の画像特徴を取得する。
【0038】
別の例では、ユーザーにより入力された、他の機器により送信され又は現在の実行機器により撮影された第2の画像を取得し、第2の画像を符号化し、第2の画像特徴を得ることができる。
【0039】
本実施例では、第2の画像特徴を取得した後、第1の画像特徴及び第2の画像特徴を非線形補間過程における2つの既知量として、予め設定した非線形補間方法を用い、非線形補間を行い、補間関数を得て、すなわち、補間曲線を得る。補間曲線において、第1の画像特徴に対応する点と第2の画像特徴に対応する点との間にサンプリングし、複数の中間画像特徴を得る。中間画像特徴がビデオの中間フレームを生成することに用いられる。
【0040】
1つの実施例では、補間曲線において等間隔的にサンプリングすることにより、補間により得られた隣接する中間画像特徴の間の変化程度を近くし、その後に生成されたビデオの品質を向上させる。
【0041】
S203、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第1の画像から第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成する。
【0042】
画像生成モデルが画像生成又は画像再構成のためのニューラルネットワークであってもよく、その入力データが符号化後の画像特徴であり、その出力データが再構成画像である。ネットワークに公開されたトレーニング済みの画像生成モデルを用いてもよく、トレーニングデータ(複数のトレーニング画像を含む)によってニューラルネットワークをトレーニングし、画像生成モデルを得てもよく、該モデルのトレーニング過程について制限されない。
【0043】
本実施例では、複数の中間画像特徴が得られた後、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴をそれぞれ画像生成モデルに入力し、第1の画像特徴に対応する再構成画像、第2の画像特徴に対応する再構成画像及び各中間画像特徴にそれぞれ対応する再構成画像を得ることができる。第1の画像特徴、第2の画像特徴及び中間画像特徴の補間曲線における分布順序に従って、該複数の再構成画像を順序付けて組み合わせ、ターゲットビデオを得ることができる。ターゲットビデオにおいて、第1のフレームの画像が第1の画像特徴に対応する再構成画像であり、最後のフレームの画像が第2の画像特徴に対応する再構成画像であり、中間フレームが中間画像特徴に対応する再構成画像である。
【0044】
本開示の実施例では、第1の画像を符号化して得た第1の画像特徴及び第2の画像を符号化して得た第2の画像特徴に基づき、非線形補間を行い、複数の中間画像特徴を得て、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、画像生成モデルに基づいて再構成画像を出力する。
【0045】
従って、2つの画像を符号化して得た画像特徴に基づいて非線形補間を行う方式で、補間により得られた中間画像特徴の真実性及び中間画像特徴と2つの最初の画像の画像特徴との類似度を向上させ、さらにビデオの中間フレームの真実性、美観性を向上させ、中間フレームと、第1のフレームの画像及び最後のフレームの画像との類似度を向上させ、ビデオ品質を向上させる。
【0046】
画像生成モデルについて、以下のいくつかの選択可能な実施例を有する。
【0047】
いくつかの実施例では、画像生成モデルは敵対的生成ネットワーク(generative adversarial networks、GAN)であり、それにより、GANの画像生成の面での長所を利用し、画像生成モデルの画像再構成の品質を向上させ、ターゲットビデオの画像フレームの品質を向上させる。
【0048】
いくつかの実施例では、画像生成モデルは敵対的スタイル生成ネットワーク(style-based architecture for GANs、StyleGAN)モデル又はStyleGAN2モデルである。それにより、StyleGANモデル又はStyleGAN2モデルの画像生成の面での長所を利用し、画像生成モデルの画像再構成の品質を向上させ、ターゲットビデオの画像フレームの品質を向上させる。
【0049】
非線形補間過程について、いくつかの実施例では、画像生成モデルの特徴空間、ニューラルネットワークを用いて非線形補間を補助することができる。後続、実施例により該補助過程を説明する。
【0050】
図3aを参照すると、
図3aは本開示の実施例が提供するビデオ生成方法のプロセス模式
図2である。
図3aに示すように、該ビデオ生成方法は、ステップS301~ステップS305を含む。
【0051】
S301、第1の画像において、第1の画像特徴を抽出する。
【0052】
S301の実現原理及び技術的効果は上記実施例を参照することができ、ここでは説明しない。
【0053】
S302、第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、第3の画像特徴を生成する。
【0054】
第2の画像特徴の取得過程は上記実施例を参照することができ、ここでは説明しない。
【0055】
1つの例では、第1の画像特徴と第2の画像特徴の平均値を決定し、該平均値がすなわち第3の画像特徴である。具体的には、第1の画像特徴と第2の画像特徴の対応する位置の特徴値を加算した後に平均し、第1の画像特徴と第2の画像特徴の平均値を得ることができる。
【0056】
別の例では、第1の画像特徴と第2の画像特徴を加重合計し、第3の画像特徴を得る。第1の画像特徴、第2の画像特徴にそれぞれ対応する加重を予め設定することができる。
【0057】
S303、順に画像生成モデルの特徴空間と、特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、第3の画像特徴を調整する。
【0058】
画像生成モデルの特徴空間は画像生成モデルの入力空間として理解することができ、該入力空間における特徴サンプルが所定の確率分布に合致する。
【0059】
1つの実施例では、画像生成モデルが敵対的生成ネットワークである場合、画像生成モデルの特徴空間は画像生成モデルに対応する潜在空間(latent space)であり、エンコーダによって第1の画像、第2の画像を符号化して得た画像特徴が潜在コード(latent code)であり、すなわち、第1の画像特徴が第1の潜在コードと呼ぶことができ、第2の画像特徴が第2の潜在コードと呼ぶことができる。
【0060】
本実施例では、第3の画像特徴が得られた後、まず画像生成モデルの特徴空間における特徴サンプルに基づき、第3の画像特徴を調整することができ、これにより、第3の画像特徴を特徴空間における特徴サンプルにより接近させることで、第3の画像特徴に基づいて画像を再構成して得た再構成画像の画像品質を向上させ、すなわち、中間フレームの画像品質を向上させる。
【0061】
本実施例では、特徴空間に基づいて第3の画像特徴を調整することに所定の偏差が存在する可能性があり、それにより、第3の画像特徴と第1の画像特徴、第2の画像特徴との類似度が低下することを考慮し、従って、該問題を解決するために、特徴空間に基づいて第3の画像特徴を調整した後、ニューラルネットワークモデルによって、第3の画像特徴を再び調整することにより、第3の画像特徴と第1の画像特徴、第2の画像特徴との類似度を向上させる。
【0062】
ニューラルネットワークをトレーニングすることにより、ニューラルネットワークが特徴空間に基づいて画像特徴を調整する偏差を学習することができる必要があり、具体的なトレーニング過程は後続の実施例を参照する。
【0063】
1つの実施例では、ニューラルネットワークはフルリンクニューラルネットワークである。それにより、ニューラルネットワークの学習タスクが単一化し、入力データ及び出力データがいずれも画像特徴である場合、ネットワークパラメータの多いフルリンクニューラルネットワークによって、第3の画像特徴を調整する正確性を向上させる。
【0064】
1つの可能な実現方式では、
図3bを参照すると、
図3bは本開示の実施例が提供する順に画像生成モデルの特徴空間及びニューラルネットワークに基づいて第3の画像特徴を調整する(すなわち、S303)プロセス模式図である。
図3bに示すように、順に画像生成モデルの特徴空間及びニューラルネットワークに基づいて第3の画像特徴を調整する過程(すなわち、S303の1つの可能な実現方式)は、ステップS3031~ステップS3034を含む。
【0065】
S3031、特徴空間における平均画像特徴を取得する。S3032、平均画像特徴に基づき、第3の画像特徴を初期調整する。S3033、第1の画像特徴及び第2の画像特徴をニューラルネットワークに入力し、初期調整の偏差を反映するニューラルネットワークの出力データを得る。S3034、出力データに基づき、初期調整された第3の画像特徴を再び調整する。
【0066】
ニューラルネットワークの出力データは、特徴空間の平均画像特徴に基づいて第3の画像特徴を初期調整した後に生じた特徴偏差を反映する。
【0067】
本実施例では、特徴空間が合致する確率分布に基づき、特徴空間における平均画像特徴を決定することができる。特徴空間が合致する確率分布は、例えば、ガウス分布である。平均画像特徴を決定した後、平均画像特徴を利用し、第3の画像特徴を初期調整することにより、第3の画像特徴を該平均画像特徴に類似させ、第3の画像特徴の品質を向上させる。さらに第1の画像特徴及び第2の画像特徴をニューラルネットワークに入力し、ニューラルネットワークの出力データを得て、ニューラルネットワークの出力データも画像特徴である。ニューラルネットワークの出力データに基づき、初期調整された第3の画像特徴を再び調整することにより、第3の画像特徴を第1の画像特徴及び第2の画像特徴に類似させ、第3の画像特徴と第1の画像特徴、第2の画像特徴との類似度を向上させる。
【0068】
1つの実施例では、平均画像特徴に基づき、第3の画像特徴を初期調整することは、第3の画像特徴及び平均画像特徴の平均値を決定し、初期調整された第3の画像特徴が該平均値であることを決定することを含む。それにより、第3の画像特徴と平均画像特徴の平均値を求める方式で、第3の画像特徴に対する特徴トリミング(すなわち、初期調整)を実現する。
【0069】
1つの実施例では、出力データに基づき、初期調整された第3の画像特徴を再び調整することは、出力データと初期調整された第3の画像特徴を加算し、再び調整された第3の画像特徴を得ることを含む。それにより、初期調整された第3の画像特徴に、ニューラルネットワークにより学習された初期調整過程による特徴偏差を加算する方式で、第3の画像特徴と第1の画像特徴、第2の画像特徴との類似度を向上させる。
【0070】
S304、第1の画像特徴、第2の画像特徴及び調整後の第3の画像特徴に基づき、非線形補間を行い、複数の中間画像特徴を得る。
【0071】
本実施例では、第1の画像特徴、第2の画像特徴及び最終的に調整された第3の画像特徴を得た後、第1の画像特徴、第2の画像特徴及び第3の画像特徴を3つの既知量として、非線形補間方式によって、補間曲線を得て、補間曲線においてサンプリングして複数の中間画像特徴を得る。それにより、第1の画像特徴及び第2の画像特徴以外に、非線形補間過程において品質が高く且つ第1の画像特徴及び第2の画像特徴との類似度が比較的高い第3の画像特徴がさらに利用されるため、非線形補間の正確性が効果的に向上し、中間画像特徴の品質も向上する。
【0072】
1つの可能な実現方式では、非線形補間方式は三次スプライン補間(cubic spline interpolation)を用いる。この時、S304は、第1の画像特徴、第2の画像特徴及び第3の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、補間曲線においてサンプリングし、複数の中間画像特徴を得るステップと、を含む。それにより、三次スプライン補間を利用し、非線形補間の正確性を向上させ、中間画像特徴の品質を向上させる。
【0073】
具体的には、第3の画像特徴を第1の画像特徴、第2の画像特徴とともに三次スプライン補間に入力し、補間関数を得て、すなわち、補間曲線を得ることができる。さらに、補間曲線においてサンプリングし、複数の中間画像特徴を得る。
【0074】
S305、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第1の画像から第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成する。
【0075】
S305の実現原理及び技術的効果は上記実施例を参照することができ、ここでは説明しない。
【0076】
本開示の実施例では、第1の画像を符号化して得た第1の画像特徴及び第2の画像を符号化して得た第2の画像特徴に基づき、特徴空間及びニューラルネットワークに基づく非線形補間を用い、複数の中間画像特徴を得て、非線形補間の正確性を効果的に向上させ、さらに中間画像特徴の品質を向上させ、ビデオの中間フレームの画像品質を向上させ、さらにビデオ品質を向上させる。
【0077】
例示的に、
図4を参照すると、
図4は本開示の実施例が提供する特徴空間及びニューラルネットワークに基づく非線形補間のフレームワークの例を示す図である。
図4に示すように、まず潜在コード1(この場合、第1の画像特徴に相当)及び潜在コード2(この場合、第2の画像特徴に相当)の平均値(この場合、第3の画像特徴に相当)を決定し、特徴空間に基づいて該平均値をトリミングし、トリミングされた平均値(この場合、初期調整した第3の画像特徴に相当)を得て、次に、潜在コード1及び潜在コード2をニューラルネットワークに入力し、ニューラルネットワークにより出力された特徴偏差を得て、そして、トリミングされた平均値に該特徴偏差を加算する(この場合、再び調整した第3の画像特徴を得ることに相当)。このように、最終的に潜在コード1、潜在コード2及び該平均値をスプライン補間に用い、複数の補間結果(すなわち、複数の中間画像特徴)を得る。
【0078】
なお、上記実施例は特徴空間及びニューラルネットワークと組み合わせて画像特徴を調整する方法を提供しており、実際の応用において、単独に特徴空間に基づいて画像特徴を調整してもよく、すなわち、特徴空間の調整による特徴偏差を無視する。
【0079】
いくつかの実施例では、非線形補間の効果を向上させるために、ニューラルネットワークを予めトレーニングすることにより、ニューラルネットワークが画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習することができる。以下、ニューラルネットワークトレーニングの実施例を提供する。
【0080】
なお、ニューラルネットワークのトレーニング過程及び上記実施例のビデオ生成過程は、同じ機器に実行されてもよく、異なる機器に実行されてもよい。
【0081】
図5を参照すると、
図5は本開示の実施例が提供するモデル決定方法のプロセス模式図である。
図5に示すように、該モデル決定方法は、ステップS501を含む。
【0082】
S501、複数のトレーニング画像及び画像生成モデルに基づき、画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングする。
【0083】
ニューラルネットワークの一回のトレーニング過程において、S501は、ステップS5011~ステップS5014を含む。
【0084】
S5011、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成する。
【0085】
本実施例では、毎回のトレーニング過程において、複数のトレーニング画像から2つのトレーニング画像を取得することができ、区別の便宜上、2つのトレーニング画像をそれぞれ第1のトレーニング画像及び第2のトレーニング画像と呼ぶ。エンコーダによって2つのトレーニング画像を符号化し、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴を得ることができる。第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に対して特徴融合処理を行い、ターゲット画像特徴を得る。
【0086】
1つの例では、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に対して特徴融合処理を行い、ターゲット画像特徴を得ることは、第1のトレーニング画像の画像特徴と第2のトレーニング画像の画像特徴の平均値を決定するステップであって、該平均値がすなわちターゲット画像特徴である、ステップを含む。具体的には、第1のトレーニング画像の画像特徴と第2のトレーニング画像の画像特徴上の対応する位置の固有値を加算した後に平均し、該平均値を得ることができる。
【0087】
別の例では、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴を加重合計し、ターゲット画像特徴を得る。第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴にそれぞれ対応する加重を予め設定することができる。
【0088】
S5012、特徴空間に基づき、ターゲット画像特徴を初期調整する。
【0089】
本実施例では、特徴空間が合致する確率分布に基づき、特徴空間における平均画像特徴を決定することができる。該平均画像特徴を利用し、ターゲット画像特徴を初期調整することにより、ターゲット画像特徴を該平均画像特徴に類似させ、ターゲット画像特徴の品質を向上させる。
【0090】
1つの実施例では、平均画像特徴に基づき、ターゲット画像特徴を初期調整することは、ターゲット画像特徴と平均画像特徴の平均値を決定し、初期調整されたターゲット画像特徴が該平均値であることを決定することを含む。それにより、ターゲット画像特徴と平均画像特徴の平均値を求める方式で、ターゲット画像特徴の特徴トリミング(すなわち、初期調整)を実現する。
【0091】
S5013、ニューラルネットワークによって初期調整に対応するターゲット偏差を学習し、且つターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整する。
【0092】
本実施例では、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴をニューラルネットワークに入力し、ニューラルネットワークの出力データを得て、すなわち、初期調整に対応するターゲット偏差を学習して得る。ニューラルネットワークにより学習して得られた初期調整に対応するターゲット偏差に基づき、初期調整したターゲット画像特徴を再び調整することにより、ターゲット画像特徴を第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に類似させ、すなわち、ターゲット画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との類似度を向上させる。
【0093】
1つの実施例では、ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整することは、ターゲット偏差と初期調整されたターゲット画像特徴を加算し、再び調整されたターゲット画像特徴を得ることを含む。それにより、初期調整されたターゲット画像特徴に、ニューラルネットワークにより学習された初期調整過程に生じた特徴偏差を加算する方式で、ターゲット画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との類似度を向上させる。
【0094】
S5014、ターゲット偏差、再び調整されたターゲット画像特徴、第1のトレーニング画像及び第2のトレーニング画像に基づき、ニューラルネットワークのモデルパラメータを調整する。
【0095】
本実施例では、ターゲット偏差、再び調整したターゲット画像特徴、第1のトレーニング画像及び第2のトレーニング画像に基づき、ニューラルネットワークのトレーニング誤差を決定し、該トレーニング誤差に基づき、ニューラルネットワークのモデルパラメータを調整することができる。例えば、再び調整したターゲット画像特徴と第1のトレーニング画像の画像特徴との間の差異、及び/又は、再び調整したターゲット画像特徴と第2のトレーニング画像の画像特徴との間の差異に基づき、トレーニング誤差を決定する。
【0096】
1つの例では、ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、規則性制約は、ニューラルネットワークに基づいて調整された画像特徴と特徴空間に基づいて調整された画像特徴(すなわち、初期調整したターゲット画像特徴)との間の差異を最小化することに用いられ、類似度制約は、ニューラルネットワークに基づいて調整された画像特徴(すなわち、再び調整したターゲット画像特徴)と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。
【0097】
この時、S5014は、規則性制約及び類似度制約によって、ニューラルネットワークのターゲット最適化関数を決定するステップと、ターゲット最適化関数、ターゲット偏差、再び調整されたターゲット画像特徴、第1のトレーニング画像及び第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップと、を含む。
【0098】
具体的には、規則性制約及び類似度制約に基づき、ニューラルネットワークのターゲット最適化関数を予め決定することができる。ニューラルネットワークのトレーニング過程において、ターゲット偏差、第1のトレーニング画像及び第2のトレーニング画像に基づき、ターゲット最適化関数の関数値、すなわち、ニューラルネットワークのトレーニング誤差を決定する。該トレーニング誤差に基づき、ニューラルネットワークのモデルパラメータを最適化する。最適化アルゴリズムは、例えば、勾配降下アルゴリズムである。
【0099】
具体的には、上記実施例に言及されている画像特徴がいずれも符号化後の画像特徴である。したがって、モデルトレーニングの正確性を向上させるために、再び調整したターゲット画像特徴を得た後、ターゲット画像特徴をそれぞれ画像生成モデルに入力し、中間再構成画像(すなわち、ターゲット画像特徴に対応する再構成画像)を得て、そして、特徴抽出ネットワークによって、第1のトレーニング画像、第2のトレーニング画像及び中間再構成画像に対して特徴抽出をそれぞれ行い、第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴、中間再構成画像の画像特徴を得ることができる。例えば、第1のトレーニング画像、第2のトレーニング画像、中間再構成画像がいずれも顔画像である場合、顔特徴抽出ネットワークを用い、これらの画像に対して特徴抽出を行うことができる。次に、中間再構成画像の画像特徴と第1のトレーニング画像の画像特徴(特徴抽出ネットワークにより抽出された特徴)との差異、中間再構成画像の画像特徴と第2のトレーニング画像の画像特徴(特徴抽出ネットワークにより抽出された特徴)との差異を決定し、該2種の差異及びニューラルネットワークの出力データに基づき、トレーニング誤差を決定する。
【0100】
1つの例では、ニューラルネットワークのターゲット最適化関数は以下のように示すことができ、
【数1】
x
1、x
2がそれぞれ第1のトレーニング画像、第2のトレーニング画像を示し、w
1が第1のトレーニング画像を符号化した後に得られた画像特徴を示し、w
2が第2のトレーニング画像を符号化した後に得られた画像特徴を示し、w
3がターゲット画像特徴を示し、f()がニューラルネットワークを示し、G()が画像生成モデルを示し、Ф()が特徴抽出ネットワークを示し、λが予め設定したパラメータである。
【数2】
が類似度制約であり、
【数3】
が規則性制約である。
【0101】
このように、上記ステップを繰り返して実行し、ニューラルネットワークを複数回調整する。
【0102】
例示的に、
図6を参照すると、
図6は本開示の実施例が提供するニューラルネットワークのトレーニングフレームワークの模式図である。
図6に示すように、トレーニング過程は、まず潜在コード1(入力画像1を符号化した後に得られた画像特徴)と潜在コード2(入力画像2を符号化した後に得られた画像特徴)の平均値を決定するステップと、画像生成モデルの特徴空間に基づき、該平均値に対して特徴トリミングを行い(すなわち、初期調整する)、トリミングされた平均値を得るステップと、そして、潜在コード1及び潜在コード2をニューラルネットワークに入力し、ニューラルネットワークにより出力された特徴偏差に基づき、規則性制約という部分のトレーニング誤差を決定することができるステップと、トリミングされた平均値にニューラルネットワークにより出力された特徴偏差を加算し、該平均値を画像生成モデルに入力し、再構成画像を得るステップと、最終的に、特徴抽出ネットワークによって該再構成画像と入力画像1との特徴差異、該再構成画像と入力画像2との特徴差異を決定し、該2種の特徴差異に基づき、類似度制約という部分のトレーニング誤差を決定するステップと、を含む。このように、規則性制約という部分のトレーニング誤差及び類似度制約という部分のトレーニング誤差に基づき、ニューラルネットワークのモデルパラメータを調整する。
【0103】
上記実施例におけるビデオ生成方法に対応し、
図7は本開示の実施例が提供するビデオ生成機器の構造ブロック図である。説明の便宜上、本開示の実施例に関連する部分のみを示す。
図7を参照すると、ビデオ生成機器は、抽出ユニット701と補間ユニット702とを備える。
【0104】
抽出ユニット701は、第1の画像において、第1の画像特徴を抽出することに用いられる。
【0105】
補間ユニット702は、第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得ることに用いられる。
【0106】
ビデオ生成ユニット703は、第1の画像特徴、第2の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第1の画像から第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成することに用いられる。
【0107】
いくつかの実施例では、補間ユニット702はさらに、第1の画像特徴及び第2の画像特徴に基づき、第3の画像特徴を生成することと、順に画像生成モデルの特徴空間と、特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、第3の画像特徴を調整することと、第1の画像特徴、第2の画像特徴及び調整後の第3の画像特徴に基づき、非線形補間を行い、複数の中間画像特徴を得ることと、に用いられる。
【0108】
いくつかの実施例では、補間ユニット702はさらに、特徴空間における平均画像特徴を取得することと、平均画像特徴に基づき、第3の画像特徴を初期調整することと、第1の画像特徴及び第2の画像特徴をニューラルネットワークに入力し、初期調整の偏差を反映するニューラルネットワークの出力データを得ることと、出力データに基づき、初期調整した第3の画像特徴を再び調整することと、に用いられる。
【0109】
いくつかの実施例では、補間ユニット702はさらに、第3の画像特徴と平均画像特徴の平均値を決定することと、初期調整した第3の画像特徴が平均値であることを決定することと、に用いられる。
【0110】
いくつかの実施例では、ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、規則性制約は、ニューラルネットワークに基づいて調整した画像特徴と特徴空間に基づいて調整した画像特徴との間の差異を最小化することに用いられ、類似度制約は、ニューラルネットワークに基づいて調整した画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。
【0111】
いくつかの実施例では、補間ユニット702はさらに、第1の画像特徴、第2の画像特徴及び第3の画像特徴に基づき、三次スプライン補間によって補間曲線を得ることと、補間曲線においてサンプリングし、複数の中間画像特徴を得ることと、に用いられる。
【0112】
いくつかの実施例では、画像生成モデルはStyleGANモデル又はStyleGAN2モデルである。
【0113】
本実施例が提供するビデオ生成機器は、ビデオ生成方法に関連する上記実施例の技術的解決手段を実行することに用いることができ、その実現原理及び技術的効果が類似するため、本実施例では、ここで説明しない。
【0114】
上記実施例におけるモデル決定方法に対応し、
図8は本開示の実施例が提供するモデル決定機器の構造ブロック図である。説明の便宜上、本開示の実施例に関連する部分のみを示す。
図8を参照すると、モデル決定機器は、トレーニングユニット801を備える。
【0115】
トレーニングユニット801は、複数のトレーニング画像及び画像生成モデルに基づき、画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングすることに用いられる。
【0116】
ニューラルネットワークの一回のトレーニング過程は、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、特徴空間に基づき、ターゲット画像特徴を初期調整するステップと、ニューラルネットワークによって初期調整に対応するターゲット偏差を学習し、且つターゲット偏差に基づき、初期調整したターゲット画像特徴を再び調整するステップと、ターゲット偏差、再び調整したターゲット画像特徴、第1のトレーニング画像及び第2のトレーニング画像に基づき、ニューラルネットワークのモデルパラメータを調整するステップと、を含む。
【0117】
いくつかの実施例では、トレーニングユニット801はさらに、規則性制約及び類似度制約によって、ニューラルネットワークのターゲット最適化関数を決定することと、ターゲット最適化関数、ターゲット偏差、再び調整されたターゲット画像特徴、第1のトレーニング画像及び第2のトレーニング画像に基づき、ニューラルネットワークのモデルパラメータを調整することと、に用いられ、規則性制約は、再び調整されたターゲット画像特徴と初期調整したターゲット画像特徴との間の差異を最小化することに用いられ、類似度制約は、再び調整されたターゲット画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。
【0118】
本実施例が提供するモデル決定機器は、モデル決定方法に関連する上記実施例の技術的解決手段を実行することに用いることができ、その実現原理及び技術的効果が類似するため、本実施例では、ここで説明しない。
【0119】
図9を参照すると、本開示の実施例を実現することに適される電子機器900の構造模式図を示し、該電子機器900は端末機器又はサーバであってもよい。端末機器は、例えば、携帯電話、ラップトップ、デジタル放送受信機、パーソナルデジタルアシスタント(personal digital assistant、PDA)、タブレットコンピュータ(portable android device、PAD)、ポータブルマルチメディアプレーヤー(portable media player、PMP)、車載端末(例えば、車載ナビゲーション端末)等の移動端末、及び、例えば、デジタルTV、デスクトップコンピュータ等の固定端末を含むが、これらに限定されない。
図9に示される電子機器は単に1つの例であり、本開示の実施例の機能及び使用範囲を制限すべきではない。
【0120】
図9に示すように、電子機器900は、処理装置(例えば、中央プロセッサ、グラフィックプロセッサ等)901を含むことができ、リードオンリーメモリ(read only memory、ROM)902に記憶されたプログラム又は記憶装置908からランダムアクセスメモリ(random access memory、RAM)903にロードされたプログラムに基づいて様々な適当な動作及び処理を実行することができる。RAM 903において、電子機器900の操作に必要な様々なプログラム及びデータがさらに記憶される。処理装置901、ROM 902及びRAM 903がバス904を介して互いに接続されている。入力/出力(input/output、I/O)インタフェース905もバス904に接続される。
【0121】
通常、以下の装置はI/Oインタフェース905に接続することができる。例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープ等を含む入力装置906、例えば、液晶ディスプレイ(Liquid Crystal Display、LCD)、スピーカ、発振器等を含む出力装置907、例えば、テープ、ハードディスク等を含む記憶装置908、及び通信装置909。通信装置909は、電子機器900が他の機器と無線又は有線の通信を行ってデータを交換することを許可することができる。
図9は様々な装置を有する電子機器900を示しているが、示されたすべての装置を実施又は備える必要がないことが理解されるべきである。代替的に、より多く又はより少ない装置を実施又は備えることができる。
【0122】
特に、本開示の実施例によれば、フローチャートを参照して説明した上記過程はコンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それがコンピュータ読み取り可能な媒体にロードされたコンピュータプログラムを含み、該コンピュータプログラムがフローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムが通信装置909によってネットワークからダウンロードしてインストールされてもよく、又は記憶装置908からインストールされてもよく、又はROM 902からインストールされてもよい。該コンピュータプログラムが処理装置901に実行される時、本開示の実施例の方法に限定された上記機能を実行する。
【0123】
なお、本開示の上記コンピュータ読み取り可能な媒体はコンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体が、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は任意の以上の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例とは、1つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能及びプログラマブルリードオンリーメモリ(erasable programmable read-only memory、EPROM)、光ファイバー、ポータブルコンパクト磁気ディスクリードオンリーメモリ(compact disc read-only memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又はそれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示では、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスによって使用する、又はそれらと組み合わせて使用することができる。本開示では、コンピュータ読み取り可能な信号媒体は、ベースバンドにおいて又は搬送波の一部として伝播されるデータ信号を含んでもよく、それにコンピュータ読み取り可能なプログラムコードがロードされている。このように伝播されるデータ信号が複数種の形式を用いることができ、電磁信号、光信号又はそれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体はさらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な信号媒体は、命令実行システム、装置又はデバイスによって使用され又はそれらと組み合わせて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、任意の適当な媒体で伝送することができ、ワイヤー、ケーブル、無線周波数(radio frequency、RF)等、又はそれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0124】
上記コンピュータ読み取り可能な媒体は上記電子機器に含まれてもよく、該電子機器に組み立てられていない、単独に存在してもよい。
【0125】
上記コンピュータ読み取り可能な媒体に1つ又は複数のプログラムがロードされ、上記1つ又は複数のプログラムが該電子機器に実行される時、該電子機器に上記実施例に示される方法を実行させる。
【0126】
1種又は複数種のプログラム設計言語又はその組み合わせで、本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラム設計言語は、Java、Smalltalk、C++など、オブジェクト指向のプログラム設計言語、「C」言語又は類似するプログラム設計言語など、一般的な手続き型プログラム設計言語を含む。プログラムコードがユーザーコンピュータに完全に実行されてもよく、ユーザーコンピュータに部分的に実行されてもよく、独立した1つのパッケージソフトウェアとして実行されてもよく、一部がユーザーコンピュータに実行されて他部が遠隔コンピュータに実行されてもよく、又は遠隔コンピュータ又はサーバに完全に実行されてもよい。遠隔コンピュータに関する場合、遠隔コンピュータは、ローカルエリアネットワーク(local area network、LAN)又は広域エリアネットワーク(wide area network、WAN)を含む任意の種類のネットワークを介してユーザーコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい(例えば、インターネットサービスプロバイダーを利用してインターネットを介して接続される)。
【0127】
図面におけるフローチャート及びブロック図は、本公開の様々な実施例のシステム、方法及びコンピュータプログラム製品並びにコンピュータプログラムの実現可能なアーキテクチャ、機能及び操作を図示する。この点において、フローチャート又はブロック図内の各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、該モジュール、プログラムセグメント、又はコードの一部は規定されたロジック機能を実現するための1つ又は複数の実行可能命令を含む。なお、いくつかの代替実現において、ブロック内にマークされた機能は、図面にマークされた順序と異なる順序で実行されてもよい。例えば、連続的に示された2つのブロックは実際に実質的に並行して実行される場合もあり、逆の順序で実行される場合もあり、これは関連する機能に応じて決定される。なお、ブロック図及び/又はフローチャート内の各ブロック、及びブロック図及び/又はフローチャート内のブロックの組み合わせは、規定された機能又は操作を実行するための、ハードウェアに基づく専用のシステムによって実現されてもよく、又は専用ハードウェアとコンピュータ命令の組み合わせによって実現されてもよい。
【0128】
本開示の実施例に係るユニットはソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ユニットの名称は、ある場合、該ユニット自体への限定を構成せず、例えば、取得ユニットはさらに「ターゲット音声取得ユニット」として説明されてもよい。
【0129】
本明細書において説明された上記機能は1つ又は複数のハードウェアロジック部材によって少なくとも部分的に実行することができる。例えば、制限せずに、使用可能なハードウェアロジック部材のタイプの例には、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、専用集積回路(application specific integrated circuit、ASIC)、専用標準製品(application specific standard parts、ASSP)、システムオンチップ(system on chip、SOC)、複雑なプログラマブルロジック機器(complex programmable logic device、CPLD)等を含む。
【0130】
本開示の文脈において、機器読み取り可能な媒体は有形媒体であってもよく、命令実行システム、装置又は機器によって使用され、又は、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか、又は記憶することができる。機器読み取り可能な媒体が機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であってもよい。機器読み取り可能な媒体は、電気、磁気、光学、電磁、赤外線、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むが、これらに限定されない。機器読み取り可能な記憶媒体のより具体的な例は、1つ又は複数の導線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能及びプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。
【0131】
第1の態様によれば、本開示の1つ又は複数の実施例に基づき、ビデオ生成方法を提供し、第1の画像において、第1の画像特徴を抽出するステップと、前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップと、を含む。
【0132】
本開示の1つ又は複数の実施例に基づき、前記第1の画像特徴及び第2の画像特徴に基づき、非線形補間によって、複数の中間画像特徴を得る前記ステップは、前記第1の画像特徴及び前記第2の画像特徴に基づき、第3の画像特徴を生成するステップと、順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴調整を行う偏差を学習するためのニューラルネットワークとに基づき、前記第3の画像特徴を調整するステップと、前記第1の画像特徴、前記第2の画像特徴及び調整された第3の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得るステップと、を含む。
【0133】
本開示の1つ又は複数の実施例に基づき、順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第3の画像特徴を調整する前記ステップは、前記特徴空間における平均画像特徴を取得するステップと、前記平均画像特徴に基づき、前記第3の画像特徴を初期調整するステップと、前記第1の画像特徴及び前記第2の画像特徴を、前記ニューラルネットワークに入力し、前記初期調整の偏差を反映する前記ニューラルネットワークの出力データを得るステップと、前記出力データに基づき、初期調整された第3の画像特徴を再び調整するステップと、を含む。
【0134】
本開示の1つ又は複数の実施例に基づき、前記平均画像特徴に基づき、前記第3の画像特徴を初期調整する前記ステップは、前記第3の画像特徴と前記平均画像特徴の平均値を決定するステップと、前記初期調整された第3の画像特徴が前記平均値であることを決定するステップと、を含む。
【0135】
本開示の1つ又は複数の実施例に基づき、前記ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、前記規則性制約は、前記ニューラルネットワークに基づいて調整された画像特徴と前記特徴空間に基づいて調整された画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記ニューラルネットワークに基づいて調整された画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。
【0136】
本開示の1つ又は複数の実施例に基づき、前記第1の画像特徴、前記第2の画像特徴及び前記第3の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得る前記ステップは、前記第1の画像特徴、前記第2の画像特徴及び前記第3の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、前記補間曲線においてサンプリングし、前記複数の中間画像特徴を得るステップと、を含む。
【0137】
本開示の1つ又は複数の実施例に基づき、前記画像生成モデルはStyleGANモデル又はStyleGAN2モデルである。
【0138】
第2の態様によれば、本開示の1つ又は複数の実施例に基づき、モデル決定方法を提供し、複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするステップを含む。前記ニューラルネットワークの一回のトレーニング過程は、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップと、を含む。
【0139】
本開示の1つ又は複数の実施例に基づき、前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整する前記ステップは、規則性制約及び類似度制約によって、前記ニューラルネットワークのターゲット最適化関数を決定するステップと、前記ターゲット最適化関数、前記ターゲット偏差、前記再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップと、を含み、前記規則性制約は、前記再び調整されたターゲット画像特徴と前記初期調整されたターゲット画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記再び調整されたターゲット画像特徴と前記第1のトレーニング画像の画像特徴、前記第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。
【0140】
第3の態様によれば、本開示の1つ又は複数の実施例に基づき、ビデオ生成機器を提供し、第1の画像において、第1の画像特徴を抽出するための抽出ユニットと、前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るための補間ユニットと、前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備える。
【0141】
第4の態様によれば、本開示の1つ又は複数の実施例に基づき、モデル決定機器を提供し、複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするためのトレーニングユニットを備える。前記ニューラルネットワークの一回のトレーニング過程において、トレーニングモジュールは、第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成することと、前記特徴空間に基づき、前記ターゲット画像特徴を初期調整することと、前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整することと、前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整することと、に用いられる。
【0142】
第5の態様によれば、本開示の1つ又は複数の実施例に基づき、電子機器を提供し、少なくとも1つのプロセッサとメモリとを備え、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサは前記メモリに記憶されているコンピュータ実行命令を実行することにより、前記少なくとも1つのプロセッサに第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実行させ、又は、前記少なくとも1つのプロセッサに第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実行させる。
【0143】
第6の態様によれば、本開示の1つ又は複数の実施例に基づき、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行する場合、第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実現する。
【0144】
第7の態様によれば、本開示の1つ又は複数の実施例に基づき、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品はコンピュータ実行命令を含み、プロセッサが前記コンピュータ実行命令を実行する場合、第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実現する。
【0145】
第8の態様によれば、本開示の1つ又は複数の実施例に基づき、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサに実行される時、第1の態様又は第1の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第2の態様又は第2の態様の様々な可能な設計に記載のモデル決定方法を実現する。
【0146】
以上の説明は本開示の好ましい実施例及び用いられた技術原理に対する説明に過ぎない。当業者であれば、本開示に係る開示範囲は、上記技術的特徴の特定の組み合わせにより構成された技術的解決手段に限定されず、また、上記開示の構想から逸脱しない場合、上記技術的特徴又はその等価特徴を任意に組み合わせて形成された他の技術的解決手段を含むべきであることを理解すべきである。例えば、上記特徴が本開示に開示されている(これらに限定されない)、類似する機能を有する技術的特徴と相互に置換して形成された技術的解決手段である。
【0147】
また、特定の手順で各操作について説明されていたが、これらの操作が示された特定の手順又は順序で実行されるように要求すると理解されるべきではない。所定の場合では、マルチタスク及び並列処理が有利になる可能性がある。同様に、上記説明には複数の具体的な実現詳細が含まれているが、これらは本開示の範囲に対する制限として解釈されるべきではない。単独した実施例の文脈に説明されたある特徴は、単一の実施例に組み合わせて実現することもできる。逆に、単一の実施例の文脈に説明された様々な特徴は、複数の実施例において単独で又は任意の適切なサブ組み合わせの方式で実現することもできる。
【0148】
本主題は、構造特徴及び/又は方法の論理動作に固有の言語を用いて説明されているが、添付の特許請求の範囲に限定された主題が必ずしも上記の特定の特徴又は動作に限定されないことを理解すべきである。逆に、上記の特定の特徴及び動作が特許請求の範囲を実現する例示的な形式に過ぎない。
【手続補正書】
【提出日】2024-06-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオ生成方法であって、
第1の画像において、第1の画像特徴を抽出するステップと、
前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、
前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップとを含む、ビデオ生成方法。
【請求項2】
前記第1の画像特徴及び第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る前記ステップは、
前記第1の画像特徴及び前記第2の画像特徴に基づき、第3の画像特徴を生成するステップと、
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第3の画像特徴を調整するステップと、
前記第1の画像特徴、前記第2の画像特徴及び調整された第3の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得るステップとを含む、請求項1に記載のビデオ生成方法。
【請求項3】
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第3の画像特徴を調整する前記ステップは、
前記特徴空間における平均画像特徴を取得するステップと、
前記平均画像特徴に基づき、前記第3の画像特徴を初期調整するステップと、
前記第1の画像特徴及び前記第2の画像特徴を、前記ニューラルネットワークに入力し、前記初期調整された偏差を反映する前記ニューラルネットワークの出力データを得るステップと、
前記出力データに基づき、初期調整された第3の画像特徴を再び調整するステップとを含む、請求項2に記載のビデオ生成方法。
【請求項4】
前記平均画像特徴に基づき、前記第3の画像特徴を初期調整する前記ステップは、
前記第3の画像特徴及び前記平均画像特徴の平均値を決定するステップと、
前記初期調整された第3の画像特徴が前記平均値であることを決定するステップとを含む、請求項3に記載のビデオ生成方法。
【請求項5】
前記ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、前記規則性制約は、前記ニューラルネットワークに基づいて調整された画像特徴と前記特徴空間に基づいて調整された画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記ニューラルネットワークに基づいて調整された画像特徴と第1のトレーニング画像の画像特徴、第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられる、請求項2~4のいずれか一項に記載のビデオ生成方法。
【請求項6】
前記第1の画像特徴、前記第2の画像特徴及び調整された第3の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得る前記ステップは、
前記第1の画像特徴、前記第2の画像特徴及び前記第3の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、
前記補間曲線においてサンプリングし、前記複数の中間画像特徴を得るステップとを含む、請求項2~4のいずれか一項に記載のビデオ生成方法。
【請求項7】
前記画像生成モデルはStyleGANモデル又はStyleGAN2モデルである、請求項1~4のいずれか一項に記載のビデオ生成方法。
【請求項8】
モデル決定方法であって、
複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするステップを含み、
前記ニューラルネットワークの一回のトレーニング過程は、
第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む、モデル決定方法。
【請求項9】
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整する前記ステップは、
規則性制約及び類似度制約によって、前記ニューラルネットワークのターゲット最適化関数を決定するステップと、
前記ターゲット最適化関数、前記ターゲット偏差、前記再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含み、
前記規則性制約は、前記再び調整されたターゲット画像特徴と前記初期調整されたターゲット画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記再び調整されたターゲット画像特徴と前記第1のトレーニング画像の画像特徴、前記第2のトレーニング画像の画像特徴との間の差異を最小化することに用いられることを特徴とする、請求項8に記載のモデル決定方法。
【請求項10】
ビデオ生成機器であって、
第1の画像において、第1の画像特徴を抽出するための抽出ユニットと、
前記第1の画像特徴及び第2の画像の画像特徴である第2の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る補間ユニットと、
前記第1の画像特徴、前記第2の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第1の画像から前記第2の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備える、ビデオ生成機器。
【請求項11】
モデル決定機器であって、
複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするためのトレーニングユニットを備え、
前記ニューラルネットワークの一回のトレーニング過程は、
第1のトレーニング画像の画像特徴及び第2のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第1のトレーニング画像及び前記第2のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む、モデル決定機器。
【請求項12】
少なくとも1つのプロセッサとメモリとを備える電子機器であって、
前記メモリは、コンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサは、前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも1つのプロセッサに請求項1~4のいずれか一項に記載のビデオ生成方法を実行させ、又は、前記少なくとも1つのプロセッサに請求項8又は9に記載のモデル決定方法を実行させる、電子機器。
【請求項13】
コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行すると、請求項1~4のいずれか一項に記載のビデオ生成方法を実現し、又は、請求項8又は9に記載のモデル決定方法を実現する、コンピュータ読み取り可能な記憶媒体。
【請求項14】
コンピュータ実行命令を含み、プロセッサが前記コンピュータ実行命令を実行する時、請求項1~4のいずれか一項に記載のビデオ生成方法を実現し、又は、請求項8又は9に記載のモデル決定方法を実現する、コンピュータプログラム製品。
【請求項15】
プロセッサに実行されると、請求項1~4のいずれか一項に記載のビデオ生成方法を実現し、又は、請求項8又は9に記載のモデル決定方法を実現する、コンピュータプログラム。
【国際調査報告】