IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-161345画像スタイルの遷移方法、装置、電子機器及び記憶媒体
<>
  • 特開-画像スタイルの遷移方法、装置、電子機器及び記憶媒体 図1
  • 特開-画像スタイルの遷移方法、装置、電子機器及び記憶媒体 図2
  • 特開-画像スタイルの遷移方法、装置、電子機器及び記憶媒体 図3
  • 特開-画像スタイルの遷移方法、装置、電子機器及び記憶媒体 図4
  • 特開-画像スタイルの遷移方法、装置、電子機器及び記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024161345
(43)【公開日】2024-11-19
(54)【発明の名称】画像スタイルの遷移方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G06T 13/80 20110101AFI20241112BHJP
   G06N 3/0475 20230101ALI20241112BHJP
【FI】
G06T13/80 B
G06N3/0475
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024098387
(22)【出願日】2024-06-19
(31)【優先権主張番号】202410649351.9
(32)【優先日】2024-05-23
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS PHONE
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ハオゥラン ワーン
(72)【発明者】
【氏名】ゾーァコーァ シエ
(72)【発明者】
【氏名】ユインフオン ツァイ
(72)【発明者】
【氏名】ミーンミーン スゥン
(57)【要約】
【課題】本開示は画像スタイルの遷移方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】本開示は、人工知能技術分野に関し、特に深層学習、AIGC(人工知能によるコンテンツ生成)などの技術分野に関する。画像スタイルの遷移方法は、参照画像と記述テキストを取得することと、記述テキストのテキスト特徴を抽出することと、事前トレーニングされた拡散モデルに基づいて、拡散モデルの各時間ステップにおいて、第1画像特徴とテキスト特徴との第1交差注意特徴を計算し、参照画像の第2画像特徴とテキスト特徴との第2交差注意特徴を取得し、第2交差注意特徴に基づいて、第1交差注意特徴を編集して、第3交差注意特徴を得て、第3交差注意特徴及びテキスト特徴に基づいて、該時間ステップの結果画像特徴を生成し、最後の時間ステップの結果画像特徴を復号して、ターゲット画像を生成するという操作を行って、ターゲット画像を生成することとを含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
画像スタイルの遷移方法であって、
参照画像と記述テキストを取得し、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むことと、
前記記述テキストのテキスト特徴を抽出することと、
事前トレーニングされた拡散モデルに基づいて、
前記拡散モデルの各時間ステップにおいて、
第1画像特徴と前記テキスト特徴との第1交差注意特徴を計算し、第1時間ステップにおける前記第1画像特徴は予め設定された初期画像の画像特徴であり、第2時間ステップ以降の各時間ステップにおける前記第1画像特徴は前の時間ステップで生成された結果画像特徴であり、
前記参照画像の第2画像特徴と前記テキスト特徴との第2交差注意特徴を取得し、
前記第2交差注意特徴に基づいて、前記第1交差注意特徴を編集して、第3交差注意特徴を得て、
前記第3交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成し、
最後の時間ステップの結果画像特徴を復号して、ターゲット画像を生成するという操作を行って、前記ターゲット画像を生成することとを含む、画像スタイルの遷移方法。
【請求項2】
前記第1交差注意特徴は、前記コンテンツ記述テキストに対応する第1コンテンツサブ特徴と、前記スタイル記述テキストに対応する第1スタイルサブ特徴と、を含み、前記第2交差注意特徴は、前記コンテンツ記述テキストに対応する第2コンテンツサブ特徴と、前記スタイル記述テキストに対応する第2スタイルサブ特徴とを含み、前記第3交差注意特徴は、前記コンテンツ記述テキストに対応する第3コンテンツサブ特徴と、前記スタイル記述テキストに対応する第3スタイルサブ特徴とを含み、前記第2交差注意特徴に基づいて、前記第1交差注意特徴を編集して、第3交差注意特徴を得ることは、
前記第2コンテンツサブ特徴に基づいて、前記第1コンテンツサブ特徴を修正して、前記第3コンテンツサブ特徴を取得することと、
前記第1スタイルサブ特徴に基づいて、前記第3スタイルサブ特徴を確定することとを含む、請求項1に記載の方法。
【請求項3】
前記第2コンテンツサブ特徴に基づいて、前記第1コンテンツサブ特徴を修正することは、
前記第1コンテンツサブ特徴を、前記第2コンテンツサブ特徴と第1因子との積に置き換えることを含み、前記第1因子は、前記ターゲット画像のコンテンツと前記参照画像のコンテンツとの一致度を示す、請求項2に記載の方法。
【請求項4】
前記第1スタイルサブ特徴に基づいて、前記第3スタイルサブ特徴を確定することは、
前記第1スタイルサブ特徴と第2因子との積を前記第3スタイルサブ特徴とすることを含み、前記第2因子は、前記スタイルの適用度を示す、請求項2に記載の方法。
【請求項5】
前記記述テキストのテキスト特徴を抽出することは、
前記コンテンツ記述テキストを符号化して、前記コンテンツ記述テキストの第1テキスト特徴を取得することと、
前記参照画像の情報を前記スタイル記述テキストに導入して、拡張されたスタイル記述テキストを取得することと、
前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第2テキスト特徴を得ることとを含み、
前記テキスト特徴は、前記第1テキスト特徴及び前記第2テキスト特徴を含む、請求項1に記載の方法。
【請求項6】
前記拡張されたスタイル記述テキストは、前記スタイル記述テキストと、前記参照画像のスタイル記述識別子とを含み、前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第2テキスト特徴を得ることは、
テキストエンコーダを利用して前記スタイル記述テキストの第1テキストサブ特徴を抽出することと、
画像エンコーダを利用して前記参照画像の第3画像特徴を抽出し、前記画像エンコーダ及び前記テキストエンコーダはそれぞれ画像及びテキストを同じ特徴空間にマッピングするように構成されることと、
前記第3画像特徴を前記スタイル記述識別子の第2テキストサブ特徴とすることとを含み、
前記第2テキスト特徴は、前記第1テキストサブ特徴及び前記第2テキストサブ特徴を含む、請求項5に記載の方法。
【請求項7】
前記参照画像は、参照ビデオにおける任意の画像フレームであり、ここで、前記画像エンコーダを利用して前記参照画像の第3画像特徴を抽出することは、
前記画像エンコーダを利用して前記参照ビデオにおける1つ又は複数の画像フレームの画像特徴を、前記参照画像の第3画像特徴として抽出することを含む、請求項6に記載の方法。
【請求項8】
前記第1画像特徴と前記テキスト特徴との第1交差注意特徴を計算することは、
前記第1画像特徴の自己注意特徴を計算することと、
前記自己注意特徴及び前記第1画像特徴に基づいて、第4画像特徴を生成することと、
前記第4画像特徴と前記テキスト特徴との第1交差注意特徴を計算することとを含む、請求項1に記載の方法。
【請求項9】
前記参照画像は、参照ビデオにおける第1画像フレーム以外の任意の画像フレームであり、ここで、前記自己注意特徴及び前記第1画像特徴に基づいて、第4画像特徴を生成することは、
前記自己注意特徴に対応する履歴自己注意特徴に基づいて、前記自己注意特徴を調整して、調整された自己注意特徴を得、ここで、前記履歴自己注意特徴は、前記拡散モデルを用いて前記参照画像の履歴画像フレームをスタイル遷移して得られた、位置が前記自己注意特徴と同じである注意特徴であることと、
前記調整された自己注意特徴と前記第1画像特徴とに基づいて、前記第4画像特徴を生成することとを含む、請求項8に記載の方法。
【請求項10】
画像スタイルの遷移装置であって、
参照画像と記述テキストを取得するように構成される取得モジュールであって、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むものと、
前記記述テキストのテキスト特徴を抽出するように構成される抽出モジュールと、
事前トレーニングされた拡散モデルに基づいて前記ターゲット画像を生成するように構成される生成モジュールとを含み、前記生成モジュールは、
前記拡散モデルの各時間ステップにおいて、
第1画像特徴と前記テキスト特徴との第1交差注意特徴を計算し、第1時間ステップにおける前記第1画像特徴は予め設定された初期画像の画像特徴であり、第2時間ステップ以降の各時間ステップにおける前記第1画像特徴は前の時間ステップで生成された結果画像特徴であり、
前記参照画像の第2画像特徴と前記テキスト特徴との第2交差注意特徴を取得し、
前記第2交差注意特徴に基づいて、前記第1交差注意特徴を編集して、第3交差注意特徴を得て、
前記第3交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成するように構成される注意編集ユニットと、
最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するように構成される復号ユニットとを含む、画像スタイルの遷移装置。
【請求項11】
前記第1交差注意特徴は、前記コンテンツ記述テキストに対応する第1コンテンツサブ特徴と、前記スタイル記述テキストに対応する第1スタイルサブ特徴と、を含み、前記第2交差注意特徴は、前記コンテンツ記述テキストに対応する第2コンテンツサブ特徴と、前記スタイル記述テキストに対応する第2スタイルサブ特徴とを含み、前記第3交差注意特徴は、前記コンテンツ記述テキストに対応する第3コンテンツサブ特徴と、前記スタイル記述テキストに対応する第3スタイルサブ特徴とを含み、前記注意編集ユニットは、
前記第2コンテンツサブ特徴に基づいて前記第1コンテンツサブ特徴を修正して、前記第3コンテンツサブ特徴を得るように構成されるコンテンツ編集サブユニットと、
前記第1スタイルサブ特徴に基づいて、前記第3スタイルサブ特徴を確定するように構成されるスタイル編集サブユニットとを含む、請求項10に記載の装置。
【請求項12】
前記コンテンツ編集サブユニットは、さらに、
前記第1コンテンツサブ特徴を、前記第2コンテンツサブ特徴と第1因子との積に置き換えるように構成され、前記第1因子は、前記ターゲット画像のコンテンツと前記参照画像のコンテンツとの一致度を示す、請求項11に記載の装置。
【請求項13】
前記スタイル編集サブユニットは、さらに、
前記第1スタイルサブ特徴と第2因子との積を前記第3スタイルサブ特徴とするように構成され、前記第2因子は、前記スタイルの適用度を示す、請求項11に記載の装置。
【請求項14】
前記抽出モジュールは、
前記コンテンツ記述テキストを符号化して、前記コンテンツ記述テキストの第1テキスト特徴を取得するように構成される第1符号化ユニットと、
前記参照画像の情報を前記スタイル記述テキストに導入して、拡張されたスタイル記述テキストを取得するように構成される導入ユニットと、
前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第2テキスト特徴を得るように構成される第2符号化ユニットとを含み、
前記テキスト特徴は、前記第1テキスト特徴及び前記第2テキスト特徴を含む、請求項10に記載の装置。
【請求項15】
前記拡張されたスタイル記述テキストは、前記スタイル記述テキストと、前記参照画像のスタイル記述識別子とを含み、前記第2符号化ユニットは、
テキストエンコーダを利用して前記スタイル記述テキストの第1テキストサブ特徴を抽出するように構成される第1符号化サブユニットと、
画像エンコーダを利用して前記参照画像の第3画像特徴を抽出するように構成される第2符号化サブユニットであって、前記画像エンコーダ及び前記テキストエンコーダはそれぞれ画像及びテキストを同じ特徴空間にマッピングするように構成されるものと、
前記第3画像特徴を、前記スタイル記述識別子の第2テキストサブ特徴とするように構成される確定サブユニットとを含み、
前記第2テキスト特徴は、前記第1テキストサブ特徴及び前記第2テキストサブ特徴を含む、請求項14に記載の装置。
【請求項16】
前記参照画像は、参照ビデオにおける任意の画像フレームであり、ここで、前記第2符号化サブユニットは、さらに、
前記画像エンコーダを利用して前記参照ビデオにおける1つ又は複数の画像フレームの画像特徴を、前記参照画像の第3画像特徴として抽出するように構成される、請求項15に記載の装置。
【請求項17】
前記注意編集ユニットは、
前記第1画像特徴の自己注意特徴を計算するように構成される第1計算サブユニットと、
前記自己注意特徴及び前記第1画像特徴に基づいて、第4画像特徴を生成するように構成される生成サブユニットと、
前記第4画像特徴と前記テキスト特徴との第1交差注意特徴を計算するように構成される第2計算サブユニットとを含む、請求項10に記載の装置。
【請求項18】
前記参照画像は、参照ビデオにおける第1画像フレーム以外の任意の画像フレームであり、ここで、前記生成サブユニットは、さらに、
前記自己注意特徴に対応する履歴自己注意特徴に基づいて、前記自己注意特徴を調整して、調整された自己注意特徴を得、ここで、前記履歴自己注意特徴は、前記拡散モデルを用いて前記参照画像の履歴画像フレームをスタイル遷移して得られた、位置が前記自己注意特徴と同じである注意特徴であり、
前記調整された自己注意特徴と前記第1画像特徴とに基づいて、前記第4画像特徴を生成するように構成される、請求項17に記載の装置。
【請求項19】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~9のいずれか一項に記載の方法を実行させることを可能にする、電子機器。
【請求項20】
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~9のいずれか一項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
【請求項21】
コンピュータプログラム命令を含むコンピュータプログラム製品であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項1~9のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、特に、深層学習、AIGC(人工知能生成コンテンツ)等の技術分野に関し、具体的に、画像スタイルの遷移方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
画像スタイル遷移とは、原画像(すなわち、参照画像)のコンテンツをほぼ一定に保ちながら、原画像のスタイルを変更することで、原画像のコンテンツと新しいスタイルとを併せ持つ新たな画像(すなわち、ターゲット画像)を得ることを意味する。例えば、原画像は、通りを歩いている犬が写っている写真(すなわち、フォトスタイル)であり、指定された新スタイルは、アニメスタイルである。原画像をスタイル遷移することで、通りを歩く犬が1匹いる様子をアニメ風に描いた新しい画像を得ることができる。
【0003】
当該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、当該部分に記載されているいずれの方法は、当該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、当該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【0004】
本開示は、画像スタイルの遷移方法及び装置、電子装置、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
【0005】
本開示の一態様によれば、画像スタイルの遷移方法を提供し、参照画像と記述テキストを取得し、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むことと、前記記述テキストのテキスト特徴を抽出することと、事前トレーニングされた拡散モデルに基づいて、前記拡散モデルの各時間ステップにおいて、第1画像特徴と前記テキスト特徴との第1交差注意特徴を計算し、第1時間ステップにおける前記第1画像特徴は予め設定された初期画像の画像特徴であり、第2時間ステップ以降の各時間ステップにおける前記第1画像特徴は前の時間ステップで生成された結果画像特徴であり、前記参照画像の第2画像特徴と前記テキスト特徴との第2交差注意特徴を取得し、前記第2交差注意特徴に基づいて、前記第1交差注意特徴を編集して、第3交差注意特徴を得て、前記第3交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成し、最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するという操作を行って、前記ターゲット画像を生成することとを含む。
【0006】
本開示の一態様によれば、画像スタイルの遷移装置を提供し、参照画像と記述テキストを取得するように構成される取得モジュールであって、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むものと、前記記述テキストのテキスト特徴を抽出するように構成される抽出モジュールと、事前トレーニングされた拡散モデルに基づいて前記ターゲット画像を生成するように構成される生成モジュールとを含み、前記生成モジュールは、前記拡散モデルの各時間ステップにおいて、第1画像特徴と前記テキスト特徴との第1交差注意特徴を計算し、第1時間ステップにおける前記第1画像特徴は予め設定された初期画像の画像特徴であり、第2時間ステップ以降の各時間ステップにおける前記第1画像特徴は前の時間ステップで生成された結果画像特徴であり、前記参照画像の第2画像特徴と前記テキスト特徴との第2交差注意特徴を取得し、前記第2交差注意特徴に基づいて、前記第1交差注意特徴を編集して、第3交差注意特徴を得て、前記第3交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成するように構成される注意編集ユニットと、最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するように構成される復号ユニットとを含む。
【0007】
本開示の一態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上述の方法を実行させることを可能にする。
【0008】
本開示の一態様によれば、コンピュータに上記に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0009】
本開示の一態様によれば、プロセッサによって実行されると、上記に記載の方法を実現するコンピュータプログラム命令を含むコンピュータプログラム製品を提供する。
【0010】
本開示の1つ又は複数の実施例によれば、注意編集に基づく非学習式の画像スタイル遷移方法を提供する。当該方法は汎用の、事前トレーニングされた拡散モデルを使用して高品質の画像スタイル遷移を実現することができ、大量のラベルデータを利用して拡散モデルに対してさらにトレーニング(微調整)を行うことを必要とせず、画像スタイル遷移の効率を向上させ、良好な汎化性を有する。
【0011】
理解すべきこととして、該部分に説明されるコンテンツは、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施例を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
図1】本開示の実施例による、本明細書で説明される各方法を実施することができる例示的なシステムを示す概略図である。
図2】本開示の実施例による、画像スタイルの遷移方法のフローチャートである。
図3】本開示の実施例による、ビデオスタイル遷移プロセスの概略図である。
図4】本開示の実施例による、画像スタイル遷移装置の構成を示すブロック図である。
図5】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に合わせて本開示の例示的な実施例を説明するが、それに含まれる本開示の実施例における様々な詳細は理解を助けるためものであるので、それらは単に例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭性と簡潔性のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0014】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1の要素と第2要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0015】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しない場合、要素は1つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。「複数」は2つ以上を意味する。
【0016】
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
【0017】
画像スタイル遷移とは、原画像のコンテンツをほぼ一定に保ちながら、原画像のスタイルを変更することで、原画像のコンテンツと新しいスタイルとを併せ持つ新たな画像を得ることを意味する。スタイルの遷移を行う画像数によっては、画像遷移タスクは、さらに、1枚画像のスタイル遷移タスクと、ビデオスタイル遷移タスクとに分けることができる。
【0018】
関連技術では、一般に、微調整した拡散モデルを用いて画像スタイル遷移を実現する。すなわち、まず、基礎的なテキストからイメージを生成する能力を有する事前トレーニングされた拡散モデルを取得する。次に、画像スタイル遷移タスクのための大量のトレーニングデータ(すなわち、サンプル参照画像、サンプルスタイル記述テキスト、サンプルターゲット画像からなるラベルデータ)を用いて事前にトレーニングされた拡散モデルを微調整し、微調整された拡散モデルを用いて画像スタイル遷移を実現する。具体的には、スタイル遷移対象の参照画像にノイズを加え、拡散モデルに入力すべき初期画像を得る。初期画像とスタイル記述テキストを拡散モデルに入力して、拡散モデルがスタイル記述テキストを条件に初期画像に対して複数回ノイズ除去を行い、スタイル遷移後のターゲット画像を得る。
【0019】
上述した関連技術では、遷移後のターゲット画像の視覚効果を保証するために、拡散モデルの微調整ステップが必要となる。しかし、拡散モデルに対するトレーニング(微調整)に時間がかかり、効率が低く、拡散モデルのスタイル遷移効果がトレーニングデータの分布に依存するため、オーバーフィッティング現象が起こりやすく、汎化性が悪い。
【0020】
上記問題に対し、本開示は、注意編集に基づく非学習式画像スタイルの遷移方法を提供する。拡散モデルの画像生成過程に算出された第1交差注意特徴を、参照画像の画像特徴とテキスト特徴の第2交差注意特徴とを用いて編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。
【0021】
本開示は汎用の、事前トレーニングされた拡散モデルを使用して高品質の画像スタイル遷移を実現することができ、大量のラベルデータを利用して拡散モデルに対してさらにトレーニング(微調整)を行うことを必要とせず、画像スタイル遷移の効率を向上させ、画像スタイル遷移サービスの配置及び使用コストを低減し、良好な汎化性を有する。
【0022】
以下、図面を参照して本開示の実施例について詳細に説明する。
【0023】
図1は、本開示の実施例によると、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。図1を参照すると、該システム100は、1つ以上のクライアントデバイス101、102、103、104、105と106、サーバ120、及び1つ以上のクライアントデバイスをサーバ120に結合する1つ以上の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、1つ以上のアプリケーションを実行するように構成されることが可能である。
【0024】
本開示の実施例では、クライアントデバイス101、102、103、104、105、106及びサーバ120は、画像スタイルの遷移方法の実行を可能にする1つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。
【0025】
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0026】
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つ以上のアセンブリを含んでもよい。これらのアセンブリは、1つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、1つ以上のクライアントアプリケーションを順次利用してサーバ120とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0027】
クライアントデバイス101、102、103、104、105及び/又は106は、クライアントデバイスのユーザがクライアントデバイスとインタラクションするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0028】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、車載機器、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT(登録商標) Windows(登録商標)、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステムなどの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Android(登録商標)などの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他のデバイスを含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネット(Internet)関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0029】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、1つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネット(登録商標)ベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、Wi-Fi)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
【0030】
サーバ120は、1つ以上の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する1つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの1つ以上のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する1つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0031】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む1つ以上のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか1つを実行することもできる。
【0032】
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための1つ以上のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の1つ以上のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する1つ以上のアプリケーションを含んでもよい。
【0033】
いくつかの実施例では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0034】
システム100は、1つ以上のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの1つ以上は、音声ファイルや動画ファイルのような情報を記憶するために使用できる。データベース130は、様々な位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、様々なタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0035】
いくつかの実施例では、データベース130のうちの1つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0036】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
【0037】
いくつかの実施例によれば、クライアントデバイス101~106は、ユーザが入力した参照画像及び記述テキストを取得することができ、記述テキストは、例えば「犬が通りを歩いている」などの参照画像を記述するコンテンツ記述テキスト、及び生成すべきターゲット画像のスタイルを記述する例えば「アニメスタイル」などのスタイル記述テキストを含むことができる。クライアントデバイス101~106は、ユーザが入力した参照画像と記述テキストとに基づいて、画像スタイル遷移要求をサーバ120に送信する。サーバ120は、クライアントデバイス101~106からの画像スタイル遷移要求に応じて、本開示の実施例に係る画像スタイルの遷移方法を実行することにより、ユーザが指定した参照画像とコンテンツが一致し、かつ指定のスタイルを有するターゲット画像を生成し、生成されたターゲット画像をクライアントデバイス101~106に返信する。
【0038】
いくつかの実施例によれば、クライアントデバイス101~106は、本開示の実施例による画像スタイルの遷移方法を実行することもできる。具体的には、クライアントデバイス101~106は、ユーザにより入力された参照画像及び記述テキストを取得し、参照画像及び記述テキストに基づいて、ユーザが指定した参照画像にコンテンツが一致し、かつ指定されたスタイルを有するターゲット画像を生成するために、本開示の実施例に係る画像スタイルの遷移方法を実行することができる。
【0039】
図2は、本開示の実施例による画像スタイルの遷移方法200のフローチャートである。上述したように、方法200の実行主体は、図1に示すクライアントデバイス101~106などのクライアントデバイスであってもよい。また、図1に示すサーバ120などのサーバであってもよい。
【0040】
図2に示すように、方法200は、ステップS210~S270を含む。
【0041】
ステップS210では、参照画像と記述テキストを取得する。記述テキストは、参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含む。
【0042】
ステップS220では、記述テキストのテキスト特徴を抽出する。
【0043】
事前トレーニングされた拡散モデルに基づいてステップS230~S270を実行して、ターゲット画像を生成する。
【0044】
ステップS230では、拡散モデルの各時間ステップにおいて、第1画像特徴とテキスト特徴との第1交差注意特徴を計算する。第1時間ステップにおける第1画像特徴は予め設定された初期画像の画像特徴であり、第2以降の各時間ステップにおける第1画像特徴は前の時間ステップで生成された結果画像特徴である。
【0045】
ステップS240では、参照画像の第2画像特徴とテキスト特徴の第2交差注意特徴を取得する。
【0046】
ステップS250では、第2交差注意特徴に基づいて、第1交差注意特徴を編集して、第3交差注意特徴を得る。
【0047】
ステップS260では、第3交差注意特徴及びテキスト特徴に基づいて、該時間ステップの結果画像特徴を生成する。
【0048】
ステップS270では、最後の時間ステップの結果画像特徴を復号して、ターゲット画像を生成する。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。
【0049】
本開示の実施例によれば、注意編集に基づく非学習式画像スタイルの遷移方法を提供する。該方法は、拡散モデルの画像生成過程に算出された第1交差注意特徴を、参照画像の画像特徴とテキスト特徴の第2交差注意特徴とを用いて編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。
【0050】
本開示は汎用の、事前トレーニングされた拡散モデルを使用して高品質の画像スタイル遷移を実現することができ、大量のラベルデータを利用して拡散モデルに対してさらにトレーニング(微調整)を行うことを必要とせず、画像スタイル遷移の効率を向上させ、画像スタイル遷移サービスの配置及び使用コストを低減し、良好な汎化性を有する。
【0051】
方法200の各ステップを以下に詳細に説明する。
【0052】
ステップS210では、参照画像と記述テキストを取得する。
【0053】
参照画像は、ユーザによって入力され得る。いくつかの実施例によれば、ユーザは、参照画像として一枚の画像を入力することができる。他の実施例によれば、ユーザは、参照ビデオを入力することができ、それに対応して、参照画像は、該参照ビデオにおける任意の画像フレームであってもよい。
【0054】
記述テキストは、コンテンツ記述テキスト及びスタイル記述テキストをさらに含む。
【0055】
コンテンツ記述テキストは、参照画像のコンテンツを説明するために使用される。いくつかの実施例によれば、コンテンツ記述テキストは、ユーザにより入力されるものであってもよい。例えば、ユーザは、参照画像を指定し、該参照画像のコンテンツ記述テキスト「犬が通りを歩いている」を入力することができる。
【0056】
他の実施例によれば、コンテンツ記述テキストは、参照画像から自動的に生成されるものであってもよい。例えば、ユーザが指定した参照画像をトレーニング済み画像理解モデルに入力することにより、画像理解モデルが出力した該参照画像のコンテンツ記述テキストを得る。画像理解モデルは、例えば、大言語モデル、画像エンコーダ及びテキストデコーダを含むニューラルネットワークモデル等であってもよい。
【0057】
スタイル記述テキストは、参照画像が遷移する新たなスタイル、すなわち、写真スタイル、アニメスタイル、スケッチスタイル、水墨画スタイルなど、生成すべきターゲット画像のスタイルを記述するために用いられる。スタイル記述テキストは、ユーザによって入力され得る。
【0058】
ステップS220では、記述テキストのテキスト特徴を抽出する。
【0059】
いくつかの実施例によれば、記述テキスト全体をトレーニング済みテキストエンコーダに入力して、テキストエンコーダによって出力された該記述テキストのテキスト特徴を得ることができる。テキストエンコーダは、例えば、CLIP(Contrastive Language-Image Pretraining)テキストエンコーダ、BERT(Bidirectional Encoder Representations from Transformers)モデル、word2vecモデルなどであってもよい。一般に、テキストエンコーダは、記述テキストを複数のトークン(token)に分割し、各トークンを符号化して、各トークンの特徴ベクトルを得る。各トークンの特徴ベクトルをつなぎ合わせて、記述テキストのテキスト特徴を得る。
【0060】
理解できるように、記述テキストは、コンテンツ記述テキストとスタイル記述テキストの2つの部分を含むので、それに応じて、記述テキストのテキスト特徴も、2つの部分を含み、すなわち、記述テキストのテキスト特徴は、コンテンツ記述テキストの第1テキスト特徴と、スタイル記述テキストの第2テキスト特徴とを含む。第1テキスト特徴は、コンテンツ記述テキストにおける各トークンの特徴ベクトルを含む。第2テキスト特徴は、スタイル記述テキストにおける各トークンの特徴ベクトルを含む。
【0061】
いくつかの実施例によれば、ステップS220は、ステップS221~S223を含むことができる。
【0062】
ステップS221では、コンテンツ記述テキストを符号化して、コンテンツ記述テキストの第1テキスト特徴を得る。
【0063】
ステップS222では、参照画像の情報をスタイル記述テキストに導入して、拡張されたスタイル記述テキストを得る。
【0064】
ステップS223では、拡張されたスタイル記述テキストを符号化して、拡張されたスタイル記述テキストの第2テキスト特徴を得る。ここでは、記述テキストのテキスト特徴は、第1テキスト特徴及び第2テキスト特徴を含む。
【0065】
上記実施例によれば、コンテンツ記述テキストとスタイル記述テキストとを別々に符号化し、スタイル記述テキストに参照画像の情報を導入することで、スタイル遷移過程において、参照画像のコンテンツの保存度合と新たなスタイルの適用度とを別々に制御して、スタイル遷移過程をより制御可能にし、スムーズにすることができる。
【0066】
いくつかの実施例によれば、ステップS221では、コンテンツ記述テキストをテキストエンコーダに入力して、テキストエンコーダから出力された該コンテンツ記述テキストの第1テキスト特徴を得ることができる。理解できるように、第1テキスト特徴は、コンテンツ記述テキストにおける各トークンの特徴ベクトルを含む。
【0067】
いくつかの実施例によれば、ステップS222では、参照画像のスタイル記述識別子を取得することができ、参照画像のスタイル記述識別子は、参照画像のスタイルを示す。元のスタイル記述テキストと参照画像のスタイル記述識別子とをつなぎ合わせて、拡張されたスタイル記述テキストを得る。すなわち、拡張されたスタイル記述テキストは、元のスタイル記述テキストと、参照画像のスタイル記述識別子とを含む。
【0068】
いくつかの実施例によれば、参照画像のスタイル記述識別子は、例えば「写真」、「スケッチ」など、用語集に既に存在するトークンであってもよい。この場合、参照画像のスタイル記述識別子は、トレーニング済みスタイル認識モデルを用いて認識して得ることができる。具体的には、参照画像をスタイル認識モデルに入力して、スタイル認識モデルが出力した参照画像のスタイルタイプを得ることができる。スタイル認識モデルは、例えば、畳み込みニューラルネットワークであってもよい。
【0069】
スタイル記述識別子が用語集に既に存在するトークンであることに応じて、ステップS223は、拡張されたスタイル記述テキストをテキストエンコーダに入力して、テキストエンコーダが出力した該拡張されたスタイル記述テキストの第2テキスト特徴を得ることを含むことができる。理解できるように、第2テキスト特徴は、拡張されたスタイル記述テキストにおける各トークンの特徴ベクトルを含む。
【0070】
いくつかの実施例によれば、参照画像のスタイル記述識別子は、例えば[S*]と表せる単語集に現れていない視覚識別子であってもよい。該視覚識別子は単語集に現れたことがないので、テキストエンコーダを用いて該視覚識別子の特徴ベクトルを得ることができない。
【0071】
スタイル記述識別子が単語集に現れていない視覚識別子であることに応じて、ステップS223は、ステップS2231~S2233を含むことができる。
【0072】
ステップS2231では、テキストエンコーダを用いてスタイル記述テキストの第1テキストサブ特徴を抽出する。
【0073】
ステップS2232では、画像エンコーダを用いて、参照画像の第3画像特徴を抽出する。画像エンコーダ及びテキストエンコーダは、それぞれ、画像及びテキストを同じ特徴空間にマッピングするように構成される。
【0074】
ステップS2233では、第3画像特徴をスタイル記述識別子の第2テキストサブ特徴とする。拡張されたスタイル記述テキストの第2テキスト特徴は、第1テキストサブ特徴及び第2テキストサブ特徴を含む。
【0075】
上記実施例によれば、クロスモーダルのテキストエンコーダ及び画像エンコーダを利用して拡張されたスタイル記述テキストにおけるテキスト情報及び画像情報をそれぞれ符号化し、クロスモーダル特徴を正確に抽出することができ、それにより参照画像の視覚スタイル特徴を正確に表現し、スタイル遷移の精度を向上させる。
【0076】
いくつかの実施例によれば、ステップS2231におけるテキストエンコーダはCLIPテキストエンコーダであってもよく、ステップS2232における画像エンコーダは、CLIP画像エンコーダであってもよい。CLIPテキストエンコーダ及びCLIP画像エンコーダは、テキスト及び画像を同じ特徴空間にマッピングし、モーダルにまたがる、均一な特徴表現を実現することができる。
【0077】
いくつかの実施例によれば、参照画像がコンテキストを有しない独立画像である場合、ステップS2232において、参照画像を画像エンコーダに入力して、画像エンコーダが出力した第3画像特徴を得ることができる。
【0078】
いくつかの実施例によれば、参照画像が参照ビデオにおける任意の画像フレームである場合、ステップS2232において、画像エンコーダを利用して参照ビデオにおける1つ又は複数の画像フレームの画像特徴を抽出し、参照画像の第3画像特徴とすることができる。例えば、参照ビデオの第1画像フレームを画像エンコーダに入力して、画像エンコーダを利用して出力された該画像フレームの画像特徴を得ることができる。該参照ビデオにおける各画像フレームを参照画像としてスタイル遷移を行う場合、いずれも参照ビデオにおける最初の画像フレームの画像特徴を該参照画像の第3画像特徴とする。
【0079】
上述した実施例によれば、同じ参照ビデオにおける各画像フレームは同じ第3画像特徴を多重化することができ、第3画像特徴の重複計算を避け、かつビデオスタイル遷移タスクにおける各画像フレームのスタイル遷移の一致性を向上させるのに有利である。
【0080】
本開示の実施例は、事前トレーニングされた拡散モデルを利用してターゲット画像を生成する。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。
【0081】
本開示の実施例では、事前トレーニングされた拡散モデルは、基礎的なテキストからイメージを生成する能力を有するが、画像スタイル移動タスクに対しては微調整されない。
【0082】
事前トレーニングされた拡散モデルは、テキスト特徴を条件に、予め設定された初期画像に対してノイズ除去操作(即ち、逆拡散操作)を複数回行って、最終的にターゲット画像を得る。拡散モデルの各ノイズ除去操作は、1つの時間ステップに対応する。
【0083】
事前トレーニングされた拡散モデルは、交差注意層を含む。該拡散モデルの画像生成過程は、以下のとおりである。各時間ステップt(t=T、T-1、T-2、...、2、1であり、Tは予め設定される1より大きい整数であり、例えば50、100などである)において、交差注意層は、現在生成されている第1画像特徴I及び記述テキストのテキスト特徴Textを入力として、交差注意機構を利用して第1画像特徴Iとテキスト特徴Textとの第1交差注意特徴
【数1】
(以下、「M 」と表記する。)(すなわち、第1注意マップ、attention map)を計算し、さらに、第1交差注意特徴M とテキスト特徴Textに基づいて、該時間ステップの結果画像特徴Oを生成する。最後の時間ステップ(t=1)の結果画像特徴Oを復号化して、ターゲット画像を生成する。
【0084】
なお、第1時間ステップt=Tについて、第1画像特徴Iは、初期画像の画像特性である。初期画像は、例えば、ランダムノイズ画像であってもよいし、参照画像にノイズを加えた画像であってもよい。第2以降の各時間ステップtについて、第1画像特徴Iは前の時間ステップ(t+1)で生成された結果画像特徴Ot+1である。
【0085】
本開示の実施例は、事前トレーニングされた拡散モデルをもとに注意編集機構を導入し、これにより、拡散モデルへの更なる微調整を必要とせずに、高品質の画像スタイル遷移が実現される。具体的には、参照画像の画像特徴とテキスト特徴との第2交差注意特徴Mを利用して拡散モデルの画像生成過程において計算された第1交差注意特徴M を編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。
【0086】
ステップS230~S270は、事前トレーニングされた拡散生成モデルに注意編集機構を導入した後のターゲット画像の生成過程を説明する。
【0087】
ステップS230では、拡散モデルの各時間ステップt(t=T、T-1、T-2、...、2、1であり、Tは、予め設定された1より大きい整数であり、例えば50、100等)において、第1画像特徴Iとテキスト特徴Textとの第1交差注意特徴M を計算する。第1時間ステップt=Tにおける第1画像特徴Iは、予め設定された初期画像の画像特性である。初期画像は、例えば、ランダムノイズ画像であってもよいし、参照画像にノイズを加えた画像であってもよい。初期画像の画像特徴は、画像エンコーダ(例えば、CLIP画像エンコーダ)を用いて抽出することができる。第2以降の各時間ステップt=T-1、T-2、...、2、1における第1画像特徴Iは前の時間ステップt+1で生成された結果画像特徴Ot+1である。
【0088】
上述したように、拡散モデルは、交差注意層を含む。交差注意層は、クエリ(Query)変換行列W、キー(Key)変換行列Wと値(Value)変換行列Wの3つのパラメータを含む。
【0089】
交差注意層は、第1画像特徴Iと記述テキストのテキスト特徴Textを入力とする。クエリ変換行列Wを利用して第1画像特徴Iに線形変換を行って、クエリ行列Q=I・Wを得る。それぞれキー変換行列Wと値変換行列Wを利用してテキスト特徴Textを線形変換し、キー行列K=Text・Wと値行列V=Text・Wを得る。以下の式(1)により第1交差注意特徴M を計算する:
【数2】
上式において、
【数3】
はキー行列Kの行数又は列数であり、それはキー行列Kにおける各ベクトルの長さを示す。理解できるように、第1交差注意特徴M は本質的には、注意マップ(attention map)であり、このマップにおける座標が(i,j)である要素は、第1画像特徴Iにおける特徴位置i(現在画像における画素iに対応する)とテキスト特徴Textにおける特徴位置j(記述テキストにおけるj番目のトークンに対応する)との相関度を示す。
【0090】
いくつかの実施例によれば、拡散モデルは、自己注意層も含むことができる。自己注意層の出力端は、交差注意層の入力端に接続することができる。これに対応して、ステップS230は、ステップS231~S233を含むことができる。
【0091】
ステップS231では、第1画像特徴の自己注意特徴を計算する。
【0092】
ステップS232では、自己注意特徴と第1画像特徴とに基づいて、第4画像特徴を生成する。
【0093】
ステップS233では、第4画像特徴とテキスト特徴との第1交差注意特徴を計算する。
【0094】
上記実施例によれば、自己注意機構によって第1画像特徴内部の情報集約を実現することによって、画素点間の相関性をキャッチでき、集約された第1画像特徴(すなわち、第4画像特徴)が、生成画像の情報をより正確に表現することができるようにする。第4画像特徴を用いて第1交差注意特徴を計算することにより、第1交差注意特徴が生成画像の情報を正確に表現することができ、これにより、生成されたターゲット画像の品質を向上させる。
【0095】
上記ステップS231では、自己注意層を用いて第1画像特徴Iの自己注意特徴Ms,tを計算することができる。具体的には、自己注意層はクエリ変換行列
【数4】
(以下、「W 」と表記する)、キー変換行列
【数5】
(以下、「W 」と表記する)と値変換行列
【数6】
(以下、「W 」と表記する)の3つのパラメータを有する。クエリ変換行列W 、キー変換行列W と値変換行列W をそれぞれ利用して第1画像特徴Iを線形変換して、
【数7】
【数8】
及び
【数9】
を得る。次式(2)により自己注意特徴Ms,tを計算する:
【数10】
上式において、
【数11】
はキー行列Ks,tの行数又は列数であり、それはキー行列Ks,tにおける各ベクトルの長さを示す。理解できるように、自己注意特徴Ms,tは本質的に注意マップ(attention map)であり、このマップにおける座標が(i,j)である要素は、第1画像特徴Iにおける特徴位置i(現在画像における画素iに対応する)と特徴位置j(現在画像における画素jに対応する)との相関度を示す。
【0096】
ステップS232では、自己注意特徴Ms,tを第1画像特徴Iによって計算された値行列Vs,tに乗算することにより、第4画像特徴Is,tを得ることができ、すなわち更新された第1画像特徴である。つまり、該実施例では、第4画像特徴Is,tは次式(3)によって計算される。
【数12】
いくつかの実施例によれば、ビデオスタイル遷移タスクにおいて、参照ビデオにおける各画像フレームは、いずれも参照画像としてスタイル遷移を行う。参照画像が、参照ビデオにおける最初の画像フレーム以外の任意の画像フレームである場合、該参照画像の前に1つ又は複数の画像フレームがあり、これらの画像フレームは、参照画像の履歴画像フレームとして記される。したがって、ステップS232は、ステップS2321及びS2322を含むことができる。
【0097】
ステップS2321では、自己注意特徴Ms,tに対応する履歴自己注意特徴に基づいて、該自己注意特徴Ms,tを調整して、調整された自己注意特徴Ms,t’を得る。履歴自己注意特徴は、拡散モデルを用いて該参照画像の履歴画像フレームをスタイル遷移して得られる、位置が該自己注意特徴Ms,tと同じ注意特徴である。
【0098】
ステップS2322では、調整された自己注意特徴Ms,t’と第1画像特徴Iに基づいて、第4画像特徴Is,tを得る。第4画像特徴Is,tは、次の式(4)により計算できる。
【数13】
上記実施例によれば、ビデオスタイルの遷移タスクに対して、各画像フレーム間の関連性を構築でき、生成されたスタイル遷移後の各画像フレームは、良好なタイミング一致性を有する。
【0099】
上述したステップS2321に関して、各履歴画像フレームは、1つの履歴自己注意特徴に対応することが理解されたい。履歴画像フレームが複数ある場合に、複数の履歴自己注意特徴を得ることができる。
【0100】
いくつかの実施例によれば、自己注意特徴Ms,tと各履歴自己注意特徴の平均値を調整後の自己注意特徴Ms,t’とすることができる。
【0101】
他の実施例によれば、自己注意特徴Ms,tと各履歴自己注意特徴との重み付け和を調整後の自己注意特徴Ms,t’とすることができる。各履歴自己注意特徴の重みは、対応する履歴画像フレームから参照画像までの距離に負の相関を有することができ、すなわち、履歴画像フレームが参照画像に近い(小さい)ほど、該履歴画像フレームに対応する履歴自己注意特徴の重みが大きい。
【0102】
ステップS233では、交差注意層を用いて第4画像特徴Is,tとテキスト特徴Textとの交差注意特徴を計算し、上記第1注意交差特徴M とする。具体的には、第4画像特徴Is,tとテキスト特徴Textの交差注意特徴は、上述した第1画像特徴Iとテキスト特徴Textとの交差注意特徴の計算方式と同じであり、異なるのは、上記計算処理(上記式(1)を参照)における第1画像特徴Iを第4画像特徴Is,tに置換することだけである。
【0103】
ステップS240では、参照画像の第2画像特徴とテキスト特徴の第2交差注意特徴を取得する。
【0104】
参照画像の第2画像特徴Fは、画像エンコーダ(例えば、CLIP画像エンコーダ)を用いて抽出することができる。
【0105】
参照画像の第2画像特徴Fとテキスト特徴Textとの第2交差注意特徴Mは同様に、拡散モデルの交差注意層を用いて得ることができる。具体的には、クエリ変換行列Wを利用して第2画像特徴Fを線形変換して、クエリ行列Q=F・Wを得る。それぞれキー変換行列Wと値変換行列Wを利用してテキスト特徴Textを線形変換し、キー行列K=Text・Wと値行列V=Text・Wを得、理解できるように、ここでは、Kは上記のKと同じであり、Vは上記のVと同じである。次式(5)により第2交叉注意特徴Mを計算する:
【数14】
上式において、
【数15】
はキー行列K(すなわちK)の行数又は列数であり、それはキー行列K(すなわちK)における各ベクトルの長さを示す。理解できるように、第1交差注意特徴Mは本質的には、注意重みマップでもあり、この重みマップにおける座標が(i,j)である要素は、第2画像特徴Fにおける特徴位置i(参照画像における画素iに対応する)とテキスト特徴Textにおける特徴位置j(記述テキストにおけるj番目のトークンに対応する)との相関度を示す。
【0106】
ステップS250では、第2交差注意特徴に基づいて、第1交差注意特徴を編集して、第3交差注意特徴を得る。第3交差注意特徴は、編集された第1交差注意特徴であることを理解されたい。
【0107】
上述したように、記述テキストのテキスト特徴は、コンテンツ記述テキストの第1テキスト特徴と、スタイル記述テキストの第2テキスト特徴との2つの部分を含む。したがって、第1交差注意特徴、第2交差注意特徴、及び第3注意交差特徴は、それぞれ、2つのサブ特徴に分割可能であり、一方のサブ特徴は、コンテンツ記述テキストに対応し、他方のサブ特徴は、スタイル記述テキストに対応する。具体的には、第1交差注意特徴は、コンテンツ記述テキストに対応する第1コンテンツサブ特徴と、スタイル記述テキストに対応する第1スタイルサブ特徴とを含む。第2交差注意特徴は、コンテンツ記述テキストに対応する第2コンテンツサブ特徴と、スタイル記述テキストに対応する第2スタイルサブ特徴とを含む。第3交差注意特徴は、コンテンツ記述テキストに対応する第3コンテンツサブ特徴と、スタイル記述テキストに対応する第3スタイルサブ特徴とを含む。
【0108】
上述したサブ特徴を分割する実施例に応じて、ステップS250は、ステップS251及びS252をさらに含むことができる。
【0109】
ステップS251では、第2コンテンツサブ特徴に基づいて、第1コンテンツサブ特徴を修正して、第3コンテンツサブ特徴を取得する。
【0110】
ステップS252では、第1スタイルサブ特徴に基づいて、第3スタイルサブ特徴を確定する。
【0111】
上記実施例によれば、コンテンツサブ特徴とスタイルサブ特徴とを別々に編集して、参照画像が主にターゲット画像のコンテンツに影響し、新しいスタイルの適用に過度に影響することを避ける。
【0112】
ターゲット画像のコンテンツは、参照画像のコンテンツに依存する。いくつかの実施例によれば、ステップS251では、第1コンテンツサブ特徴を、第2コンテンツサブ特徴と第1因子との積に置換することができる。すなわち、第3コンテンツサブ特徴は、第2コンテンツサブ特徴と第1因子との積である。第1因子は、ターゲット画像のコンテンツと参照画像のコンテンツとの一致度を示し、すなわち、参照画像コンテンツの保持度を示す。
【0113】
いくつかの実施例によれば、第1因子は正の数であり、したがって、第1因子の値は、参照画像コンテンツの保持度と正の相関を有する。第1因子の値を調整することにより、スタイル遷移過程における参照画像コンテンツの保持度を制御することができる。具体的には、第1因子の値が大きいほど、参照画像コンテンツの保持度が大きくなり、ターゲット画像コンテンツと参照画像コンテンツとの一致度が高い。第1因子の値が小さいほど、参照画像コンテンツの保持度が小さくなり、ターゲット画像コンテンツと参照画像コンテンツとの一致度が低い。
【0114】
いくつかの実施例によれば、ステップS251では、第1コンテンツサブ特徴と第2コンテンツサブ特徴との重み和は、第3コンテンツサブ特徴とすることができる。第2コンテンツサブ特徴の重みは、ターゲット画像コンテンツと参照画像コンテンツとの一致度を示すことができ、すなわち、参照画像コンテンツの保持度を示す。第2コンテンツサブ特徴の重みを調整することによって、スタイル遷移過程における参照画像コンテンツの保持度を制御することができる。
【0115】
ターゲット画像のスタイルはスタイル記述テキストに依存し、参照画像から受けられる影響が小さい。したがって、いくつかの実施例によれば、ステップS252では、第1スタイルサブ特徴のみに基づいて、第3スタイルサブ特徴を確定することができる。なお、上記ステップS222で、参照画像の情報をスタイル記述テキストに導入した場合、拡張されたスタイル記述テキストは、参照画像の情報も含んでいるため、第1スタイルサブ特徴のみに基づいて第3スタイルサブ特徴を確定しても、依然としてターゲット画像のスタイルが参照画像情報からガイドされて、ターゲット画像が参照画像に対してスムーズにスタイル遷移し、あまりにも急なスタイルの変化を引き起こすことに至らない。
【0116】
いくつかの実施例によれば、ステップS252では、第1スタイルサブ特徴と第2因子との積を第3スタイルサブ特徴とすることができる。第2因子は、新しいスタイル(すなわち、スタイル記述テキストによって示されるスタイル)の適用度を示す。
【0117】
いくつかの実施例によれば、第2因子は正の数であり、したがって、第2因子の値は、新しいスタイルの適用度と正の相関を有する。第2因子の値を調整することによって、スタイル遷移過程における新しいスタイルの適用度を制御することができる。具体的には、第2因子の値が大きいほど、新しいスタイルの適用度が大きくなる。第2因子の値が小さいほど、新しいスタイルの適用度が小さくなる。
【0118】
いくつかの実施例によれば、ステップS250の注意編集過程は、次式(6)のように表すことができる。
【数16】
上式において、
【数17】
(以下、「M **」と表記する。)はそれぞれt番目の時間ステップにおける第1交差注意特徴、第2交差注意特徴と第3交差注意特徴である。Edit( )は注意編集関数である。i、jは、それぞれ、交差注意特徴とテキスト特徴における特徴位置を表す。α、βはそれぞれ第1因子、第2因子である。画像スタイル遷移タスクにおいて、α、βの値は、ユーザによってカスタマイズすることができる。
【0119】
ステップS260では、第3交差注意特徴及びテキスト特徴に基づいて、該時間ステップの結果画像特徴を生成する。
【0120】
いくつかの実施例によれば、ステップS260では、第3注意特徴M **をテキスト特徴から計算された値行列Vと乗算することにより、結果画像特徴Oを得ることができる。本実施例では、結果画像特徴Oは次式(7)により計算する。
【数18】
いくつかの実施例によれば、ステップS260では、第3注意特徴M **をテキスト特徴から計算された値行列Vと乗算することにより、ノイズ画像特徴Nを得ることができる。現在生成されている第1画像特徴Iからノイズ画像特徴Nを引くと、結果画像特徴Oを得る。本実施例では、結果画像特徴Oは次式(8)と(9)により計算する。
【数19】
なお、結果画像特徴Oの具体的な計算方法は、拡散モデルのタイプによって決まる。拡散モデルが各時間ステップの結果画像を直接予測すれば、上式(7)を用いて結果画像特徴を計算する。拡散モデルが各時間ステップのノイズを予測すれば、上式(8)及び(9)を用いて結果画像特徴を計算する。
【0121】
ステップS270では、最終の時間ステップの結果画像特徴を復号して、ターゲット画像を生成する。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。
【0122】
いくつかの実施例によれば、事前トレーニングされた拡散モデルは、デコーダを含むことができる。最後の時間ステップの結果画像特徴を該デコーダで復号することにより、スタイル遷移後のターゲット画像を得ることができる。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。
【0123】
図3は本開示の実施例による、ビデオスタイル遷移プロセスの概略図である。該ビデオスタイル遷移過程は、ビデオスタイル遷移サービスによって実現される。図3に示すように、ビデオスタイル遷移サービスは、テキスト特徴マッピングモジュール310、注意編集モジュール320、及びビデオ生成モジュール330を含む。
【0124】
テキスト特徴マッピングモジュール310は、ユーザから与えられた記述テキストD=“X,Y”を取得し、ここで、Xはコンテンツ記述テキストであり、参照ビデオVにおけるコンテンツを記述するために用いられ、Yは、生成すべき目標ビデオのスタイルを記述するためのスタイル記述テキストである。図3に示すように、コンテンツ記述テキストX=“There is a dog that is walking on the street”であり、スタイル記述テキストY=“anime style”である。
【0125】
より多くの参照ビデオVのコンテンツ特性を保持するために、記述テキストDに参照ビデオVのコンテンツ情報を導入し、記述テキストDを、D*=“X,Y*”に更新し、ここで、Y*=“Y of [S*]”=“anime style of [S*]”,[S*]は、参照画像Vのスタイル記述識別子である。
【0126】
テキスト特徴マッピングモジュール310は、事前トレーニングされたCLIPモデルを使用して、更新された記述テキストD*を符号化して、D*のテキスト特徴を得る。具体的には、D*における自然言語トークン(token)、すなわちXとY*における“anime style of”部分に対して、CLIPモデルのテキストエンコーダ312を用いてそのテキスト特徴を抽出する。スタイル記述識別子[S*]については、用語集に現われていないトークンであり、CLIPモデルにおける視覚エンコーダ(すなわち、画像エンコーダ)314を用いて参照ビデオVの第1フレームの視覚特徴を抽出する。CLIPモデルは視覚特徴とテキスト特徴を同じ特徴空間にマッピングできるため、該特徴をスタイル記述識別子[S*]に対応するテキスト特徴とする。次に、2つの部分特徴をつなぎ合わせて、記述テキストD*の完全なテキスト特徴を得る。
【0127】
注意編集モジュール320は、記述テキストD*のテキスト特徴と参照ビデオVを入力とし、参照ビデオVと記述テキストとの交差注意機構を編集して、スタイル遷移時のビデオ生成過程における新しい注意特徴を取得し、かつ新しい注意特徴を事前トレーニングされた基本モデル、すなわち、安定拡散(Stable Diffusion)モデル334の推論過程に導入する。
【0128】
推論過程のt番目の時間ステップにおいて、現在生成されているビデオフレームの特徴符号とD*のテキスト特徴との交差注意特徴M を計算し、かつ参照ビデオVの特徴符号化とそのコンテンツ記述テキストXのテキスト特徴との交差注意特徴Mを取得する。
【数20】
は、ビデオフレーム特徴位置iとD*のトークンテキスト特徴位置jとの交差注意機構の編集関数を表す。
【0129】
注意編集モジュール320は、ビデオを生成する過程において、生成されたビデオフレームの特徴符号化とD*のテキスト特徴との交差注意特徴M を計算するとき、参照ビデオVの特徴符号化とXのテキスト特徴との交差注意特徴で置換され、M ビデオフレームの特徴符号化とXテキスト特徴の注意特徴部分を生成し、すなわち:
【数21】
ここで、α及びβは、注意編集過程における力パラメータ(それぞれ、上記の第1因子及び第2因子に対応する)である。αは、参照ビデオコンテンツの保持度を調整するために使用され、αが大きいほど、参照ビデオの保持度が大きくなる。βは新しいスタイルの適用度を調整するために使用され、βが大きいほど新しいスタイルの適用度が大きくなる。αとβの値は互いに独立しており、どちらもユーザによりカスタマイズ可能である。
【0130】
ビデオ生成モジュール330は、安定拡散モデル334に基づいて、スタイル遷移後のビデオV’を生成する。ビデオ生成モジュール330は、エンコーダ332を用いて参照ビデオVを符号化し、参照ビデオVの特徴符号化fを得る。エンコーダ332は、例えば、CLIP視覚エンコーダであってもよい。特徴符号fにノイズ(例えばガウス分布に合うランダムノイズ)を加えることで特徴符号fを得る。特徴コード化fを、安定拡散モデル334の初期画像特徴、すなわち逆拡散操作の開始点とする。
【0131】
各ビデオフレームの生成過程において、編集された交差注意特徴を用いて、安定拡散モデル334において計算された元の交差注意特徴を置換する。同時に、履歴ビデオフレームの自己注意特徴を用いて安定拡散モデル334において計算された元の自己注意特徴を置換して、各ビデオフレームの関連付けを構築して、生成されたビデオがタイミング一致性においてより良く表現されるようにする。
【0132】
図3に示すビデオスタイル遷移過程は、以下の利点を有する。
【0133】
1. 大量のデータを使用してモデルをトレーニングすることを必要とせず、サービスの配置と使用コストを削減できる。
【0134】
2. ユーザはスタイル化度αとβをカスタマイズできる。
【0135】
3. 生成されたスタイル遷移後のビデオは、タイミングの一致性に優れている。
【0136】
本開示の一実施例によれば、画像スタイルの遷移装置も提供される。図4は、本開示の実施例による画像スタイル遷移装置400の構成を示すブロック図である。図4に示すように、装置400は、取得モジュール410と、抽出モジュール420と、生成モジュール430とを含む。
【0137】
取得モジュール410は、参照画像と記述テキストを取得するように構成され、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含む。
【0138】
抽出モジュール420は、前記記述テキストのテキスト特徴を抽出するように構成される。
【0139】
生成モジュール430は事前トレーニングされた拡散モデルに基づいて前記ターゲット画像を生成するように構成される。生成モジュール430は、注意編集ユニット432及び復号ユニット434をさらに含む。
【0140】
注意編集ユニット432は、前記拡散モデルの各時間ステップにおいて、第1画像特徴と前記テキスト特徴との第1交差注意特徴を計算し、第1時間ステップにおける前記第1画像特徴は予め設定された初期画像の画像特徴であり、第2以降の各時間ステップにおける前記第1画像特徴は前の時間ステップで生成された結果画像特徴であり、前記参照画像の第2画像特徴と前記テキスト特徴との第2交差注意特徴を取得し、前記第2交差注意特徴に基づいて、前記第1交差注意特徴を編集して、第3交差注意特徴を得て、前記第3交差注意特徴と前記テキスト特徴とに基づいて、時間ステップの結果画像特徴を生成するように構成される。
【0141】
復号ユニット434は、最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するように構成される。
【0142】
本開示の実施例によれば、注意力編集に基づく非学習式画像スタイル遷移装置を提供する。該装置は、拡散モデルの画像生成過程に算出された第1交差注意力特徴を、参照画像の画像特徴とテキスト特徴の第2交差注意力特徴とを用いて編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。
【0143】
本開示は汎用の、事前トレーニングされた拡散モデルを使用して高品質の画像スタイル遷移を実現することができ、大量のラベルデータを利用して拡散モデルに対してさらにトレーニング(微調整)を行うことを必要とせず、画像スタイル遷移の効率を向上させ、画像スタイル遷移サービスの配置及び使用コストを低減し、良好な汎化性を有する。
【0144】
いくつかの実施例によれば、前記第1交差注意特徴は、前記コンテンツ記述テキストに対応する第1コンテンツサブ特徴と、前記スタイル記述テキストに対応する第1スタイルサブ特徴と、を含み、前記第2交差注意特徴は、前記コンテンツ記述テキストに対応する第2コンテンツサブ特徴と、前記スタイル記述テキストに対応する第2スタイルサブ特徴とを含み、前記第3交差注意特徴は、前記コンテンツ記述テキストに対応する第3コンテンツサブ特徴と、前記スタイル記述テキストに対応する第3スタイルサブ特徴とを含み、前記注意編集ユニットは、前記第2コンテンツサブ特徴に基づいて前記第1コンテンツサブ特徴を修正して、前記第3コンテンツサブ特徴を得るように構成されるコンテンツ編集サブユニットと、前記第1スタイルサブ特徴に基づいて、前記第3スタイルサブ特徴を確定するように構成されるスタイル編集サブユニットとを含む。
【0145】
いくつかの実施例によれば、前記コンテンツ編集サブユニットは、さらに、前記第1コンテンツサブ特徴を、前記第2コンテンツサブ特徴と第1因子との積に置き換えるように構成され、前記第1因子は、前記ターゲット画像のコンテンツと前記参照画像のコンテンツとの一致度を示す。
【0146】
いくつかの実施例によれば、前記スタイル編集サブユニットは、さらに、前記第1スタイルサブ特徴と第2因子との積を前記第3スタイルサブ特徴とするように構成され、前記第2因子は、前記スタイルの適用度を示す。
【0147】
いくつかの実施例によれば、前記抽出モジュールは、前記コンテンツ記述テキストを符号化して、前記コンテンツ記述テキストの第1テキスト特徴を取得するように構成される第1符号化ユニットと、前記参照画像の情報を前記スタイル記述テキストに導入して、拡張されたスタイル記述テキストを取得するように構成される導入ユニットと、前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第2テキスト特徴を得るように構成される第2符号化ユニットとを含み、前記テキスト特徴は前記第1テキスト特徴と前記第2テキスト特徴を含む。
【0148】
いくつかの実施例によれば、前記拡張されたスタイル記述テキストは、前記スタイル記述テキストと、前記参照画像のスタイル記述識別子とを含み、前記第2符号化ユニットは、テキストエンコーダを利用して前記スタイル記述テキストの第1テキストサブ特徴を抽出するように構成される第1符号化サブユニットと、画像エンコーダを利用して前記参照画像の第3画像特徴を抽出するように構成される第2符号化サブユニットであって、前記画像エンコーダ及び前記テキストエンコーダはそれぞれ画像及びテキストを同じ特徴空間にマッピングするように構成されるものと、前記第3画像特徴を、前記スタイル記述識別子の第2テキストサブ特徴とするように構成される確定サブユニットとを含み、前記第2テキスト特徴は前記第1テキストサブ特徴と前記第2テキストサブ特徴を含む。
【0149】
いくつかの実施例によれば、前記参照画像は、参照ビデオにおける任意の画像フレームであり、ここで、前記第2符号化サブユニットは、さらに、前記画像エンコーダを利用して前記参照ビデオにおける1つ又は複数の画像フレームの画像特徴を、前記参照画像の第3画像特徴として抽出するように構成される。
【0150】
いくつかの実施例によれば、前記注意編集ユニットは、前記第1画像特徴の自己注意特徴を計算するように構成される第1計算サブユニットと、前記自己注意特徴及び前記第1画像特徴に基づいて、第4画像特徴を生成するように構成される生成サブユニットと、前記第4画像特徴と前記テキスト特徴との第1交差注意特徴を計算するように構成される第2計算サブユニットとを含む。
【0151】
いくつかの実施例によれば、前記参照画像は、参照ビデオにおける第1画像フレーム以外の任意の画像フレームであり、ここで、前記生成サブユニットは、さらに、前記自己注意特徴に対応する履歴自己注意特徴に基づいて、前記自己注意特徴を調整して、調整された自己注意特徴を得、ここで、前記履歴自己注意特徴は、前記拡散モデルを用いて前記参照画像の履歴画像フレームをスタイル遷移して得られた、位置が前記自己注意特徴と同じである注意特徴であり、前記調整された自己注意特徴と前記第1画像特徴とに基づいて、前記第4画像特徴を生成するように構成される。
【0152】
図4に示す装置400の各モジュール及びユニットは、図2を参照して説明した方法200の各ステップに対応することができることを理解されたい。したがって、方法200に関して上述した動作、特徴、及び利点は、装置400、及びそれに含まれるモジュールとユニットに等しく適用可能である。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。
【0153】
特定の機能は上記で特定のモジュールを参照して論じられているが、本明細書で論じた各モジュールの機能は複数のモジュールに分割されてもよく、及び/又は複数のモジュールの少なくともいくつかの機能は単一のモジュールに組み合わせてもよいことに留意されたい。
【0154】
本明細書では、ソフトウェアハードウェア要素又はプログラムモジュールの一般的なコンテキストで様々な技術を説明することができることも理解されたい。図4に関して説明した各ユニットは、ハードウェアにおいて、又はソフトウェア及び/又はファームウェアと組み合わせられたハードウェアにおいて実現され得る。例えば、これらのユニットは、1つ又は複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されたコンピュータプログラムコード/命令として実装することができる。選択的に、これらのユニットはハードウェアロジック/回路として実装することができる。例えば、いくつかの実施例では、モジュール410~430のうちの1つ又は複数は、システムオンチップ(System on Chip, SoC)で一緒に実装されてもよい。SoCは、集積回路チップ(例えば、プロセッサ(例えば、中央処理ユニット(Central Processing Unit、CPU)、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)などを含む)、メモリ、1つ又は複数の通信インターフェース、及び/又は他の回路中の1つ又は複数のコンポーネント)を含んでもよく、オプションで受信したプログラムコードの実行、及び/又は埋め込みファームウェアを含むことで機能を実行することができる。
【0155】
本開示の実施例によれば、電子機器をさらに提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続するメモリとを含み、該メモリには上記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、該命令が上記少なくとも1つのプロセッサにより実行されると、上記少なくとも1つのプロセッサに、本開示の実施例による画像スタイルの遷移方法を実行させることを可能にする。
【0156】
本開示の実施例によれば、コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体も提供し、該コンピュータ命令は、コンピュータに、本開示の実施例による画像スタイルの遷移方法を実行させるために用いられる。
【0157】
本開示の実施例によれば、プロセッサにより実行されると、本開示の実施例による画像スタイルの遷移方法を実現するコンピュータプログラム命令を含むコンピュータプログラム製品も提供する。
【0158】
次に、図5を参照して、本開示のサーバ又はクライアントとして機能する電子機器500の構成ブロック図について説明し、それは、本開示の各態様に適用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0159】
図5に示すように、電子機器500は、読取り専用メモリ(ROM)502に記憶されたコンピュータプログラム、又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット501を含む。また、RAM503には、電子機器500の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット501、ROM502、RAM503は、バス504を介して互いに接続されている。入力/出力(I/O)インターフェース505もバス504に接続されている。
【0160】
電子機器500における、入力ユニット506、出力ユニット507、記憶ユニット508、通信ユニット509を含む複数のコンポーネントは、I/Oインターフェース505に接続される。入力ユニット506は、電子機器500に情報を入力可能な任意のタイプのデバイスであってもよく、入力ユニット506は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成してもよく、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク、及び/又はリモコンを含むがこれらに限定されない。出力ユニット507は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、動画/音声出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット508は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット509は、電子機器500がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報/データを交換することを可能にし、また、モデム、ネットワークカード、赤外線通信装置、無線通信トランシーバ、及び/又はチップセット(例えば、Bluetooth(登録商標)装置、802.11装置、Wi-Fi装置、WiMAX装置、セルラ通信装置、及び/又は同様のもの)を含むことができるが、これらに限定されない。
【0161】
計算ユニット501は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントとすることができる。計算ユニット501のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は上記内容で説明した各方法と処理、例えば方法200を実行する。例えば、いくつかの実施例では、方法200は、機械可読媒体、例えば記憶ユニット508内に有形的に具現化されるコンピュータソフトウェアプログラムとして実装することができる。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM502及び/又は通信ユニット509を経由して電子機器500にロード及び/又はインストールされてよい。コンピュータプログラムがRAM503にロードされ、計算ユニット501によって実行されると、上述した方法200の1つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット501は、他の任意の適切な方法で(例えば、ファームウェアによって)これらの方法200を実行するように構成される。
【0162】
本明細書で上述したシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施例は、1つ以上のコンピュータプログラムに実施され、該1つ以上のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも1つの入力装置、該少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0163】
本開示の方法を実施するプログラムコードは1つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行されるときに、流れ図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0164】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記コンテンツのいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記コンテンツのいかなる適切な組み合わせを含む。
【0165】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0166】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施例とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
【0167】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互いにクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0168】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0169】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本開示の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
図1
図2
図3
図4
図5
【外国語明細書】