特開2024-161345 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特開2024-161345画像スタイルの遷移方法、装置、電子機器及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024161345

(43)【公開日】2024-11-19

(54)【発明の名称】画像スタイルの遷移方法、装置、電子機器及び記憶媒体

(51)【国際特許分類】

G06T 13/80 20110101AFI20241112BHJP

G06N 3/0475 20230101ALI20241112BHJP

【ＦＩ】

G06T13/80 B

G06N3/0475

【審査請求】有

【請求項の数】21

【出願形態】ＯＬ

【外国語出願】

【公開請求】

(21)【出願番号】P 2024098387

(22)【出願日】2024-06-19

(31)【優先権主張番号】202410649351.9

(32)【優先日】2024-05-23

(33)【優先権主張国・地域又は機関】CN

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＷＩＮＤＯＷＳＰＨＯＮＥ

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】ハオゥランワーン

(72)【発明者】

【氏名】ゾーァコーァシエ

(72)【発明者】

【氏名】ユインフオンツァイ

(72)【発明者】

【氏名】ミーンミーンスゥン

(57)【要約】

【課題】本開示は画像スタイルの遷移方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】本開示は、人工知能技術分野に関し、特に深層学習、ＡＩＧＣ（人工知能によるコンテンツ生成）などの技術分野に関する。画像スタイルの遷移方法は、参照画像と記述テキストを取得することと、記述テキストのテキスト特徴を抽出することと、事前トレーニングされた拡散モデルに基づいて、拡散モデルの各時間ステップにおいて、第１画像特徴とテキスト特徴との第１交差注意特徴を計算し、参照画像の第２画像特徴とテキスト特徴との第２交差注意特徴を取得し、第２交差注意特徴に基づいて、第１交差注意特徴を編集して、第３交差注意特徴を得て、第３交差注意特徴及びテキスト特徴に基づいて、該時間ステップの結果画像特徴を生成し、最後の時間ステップの結果画像特徴を復号して、ターゲット画像を生成するという操作を行って、ターゲット画像を生成することとを含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

画像スタイルの遷移方法であって、
参照画像と記述テキストを取得し、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むことと、
前記記述テキストのテキスト特徴を抽出することと、
事前トレーニングされた拡散モデルに基づいて、
前記拡散モデルの各時間ステップにおいて、
第１画像特徴と前記テキスト特徴との第１交差注意特徴を計算し、第１時間ステップにおける前記第１画像特徴は予め設定された初期画像の画像特徴であり、第２時間ステップ以降の各時間ステップにおける前記第１画像特徴は前の時間ステップで生成された結果画像特徴であり、
前記参照画像の第２画像特徴と前記テキスト特徴との第２交差注意特徴を取得し、
前記第２交差注意特徴に基づいて、前記第１交差注意特徴を編集して、第３交差注意特徴を得て、
前記第３交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成し、
最後の時間ステップの結果画像特徴を復号して、ターゲット画像を生成するという操作を行って、前記ターゲット画像を生成することとを含む、画像スタイルの遷移方法。

【請求項2】

前記第１交差注意特徴は、前記コンテンツ記述テキストに対応する第１コンテンツサブ特徴と、前記スタイル記述テキストに対応する第１スタイルサブ特徴と、を含み、前記第２交差注意特徴は、前記コンテンツ記述テキストに対応する第２コンテンツサブ特徴と、前記スタイル記述テキストに対応する第２スタイルサブ特徴とを含み、前記第３交差注意特徴は、前記コンテンツ記述テキストに対応する第３コンテンツサブ特徴と、前記スタイル記述テキストに対応する第３スタイルサブ特徴とを含み、前記第２交差注意特徴に基づいて、前記第１交差注意特徴を編集して、第３交差注意特徴を得ることは、
前記第２コンテンツサブ特徴に基づいて、前記第１コンテンツサブ特徴を修正して、前記第３コンテンツサブ特徴を取得することと、
前記第１スタイルサブ特徴に基づいて、前記第３スタイルサブ特徴を確定することとを含む、請求項１に記載の方法。

【請求項3】

前記第２コンテンツサブ特徴に基づいて、前記第１コンテンツサブ特徴を修正することは、
前記第１コンテンツサブ特徴を、前記第２コンテンツサブ特徴と第１因子との積に置き換えることを含み、前記第１因子は、前記ターゲット画像のコンテンツと前記参照画像のコンテンツとの一致度を示す、請求項２に記載の方法。

【請求項4】

前記第１スタイルサブ特徴に基づいて、前記第３スタイルサブ特徴を確定することは、
前記第１スタイルサブ特徴と第２因子との積を前記第３スタイルサブ特徴とすることを含み、前記第２因子は、前記スタイルの適用度を示す、請求項２に記載の方法。

【請求項5】

前記記述テキストのテキスト特徴を抽出することは、
前記コンテンツ記述テキストを符号化して、前記コンテンツ記述テキストの第１テキスト特徴を取得することと、
前記参照画像の情報を前記スタイル記述テキストに導入して、拡張されたスタイル記述テキストを取得することと、
前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第２テキスト特徴を得ることとを含み、
前記テキスト特徴は、前記第１テキスト特徴及び前記第２テキスト特徴を含む、請求項１に記載の方法。

【請求項6】

前記拡張されたスタイル記述テキストは、前記スタイル記述テキストと、前記参照画像のスタイル記述識別子とを含み、前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第２テキスト特徴を得ることは、
テキストエンコーダを利用して前記スタイル記述テキストの第１テキストサブ特徴を抽出することと、
画像エンコーダを利用して前記参照画像の第３画像特徴を抽出し、前記画像エンコーダ及び前記テキストエンコーダはそれぞれ画像及びテキストを同じ特徴空間にマッピングするように構成されることと、
前記第３画像特徴を前記スタイル記述識別子の第２テキストサブ特徴とすることとを含み、
前記第２テキスト特徴は、前記第１テキストサブ特徴及び前記第２テキストサブ特徴を含む、請求項５に記載の方法。

【請求項7】

前記参照画像は、参照ビデオにおける任意の画像フレームであり、ここで、前記画像エンコーダを利用して前記参照画像の第３画像特徴を抽出することは、
前記画像エンコーダを利用して前記参照ビデオにおける１つ又は複数の画像フレームの画像特徴を、前記参照画像の第３画像特徴として抽出することを含む、請求項６に記載の方法。

【請求項8】

前記第１画像特徴と前記テキスト特徴との第１交差注意特徴を計算することは、
前記第１画像特徴の自己注意特徴を計算することと、
前記自己注意特徴及び前記第１画像特徴に基づいて、第４画像特徴を生成することと、
前記第４画像特徴と前記テキスト特徴との第１交差注意特徴を計算することとを含む、請求項１に記載の方法。

【請求項9】

前記参照画像は、参照ビデオにおける第１画像フレーム以外の任意の画像フレームであり、ここで、前記自己注意特徴及び前記第１画像特徴に基づいて、第４画像特徴を生成することは、
前記自己注意特徴に対応する履歴自己注意特徴に基づいて、前記自己注意特徴を調整して、調整された自己注意特徴を得、ここで、前記履歴自己注意特徴は、前記拡散モデルを用いて前記参照画像の履歴画像フレームをスタイル遷移して得られた、位置が前記自己注意特徴と同じである注意特徴であることと、
前記調整された自己注意特徴と前記第１画像特徴とに基づいて、前記第４画像特徴を生成することとを含む、請求項８に記載の方法。

【請求項10】

画像スタイルの遷移装置であって、
参照画像と記述テキストを取得するように構成される取得モジュールであって、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むものと、
前記記述テキストのテキスト特徴を抽出するように構成される抽出モジュールと、
事前トレーニングされた拡散モデルに基づいて前記ターゲット画像を生成するように構成される生成モジュールとを含み、前記生成モジュールは、
前記拡散モデルの各時間ステップにおいて、
第１画像特徴と前記テキスト特徴との第１交差注意特徴を計算し、第１時間ステップにおける前記第１画像特徴は予め設定された初期画像の画像特徴であり、第２時間ステップ以降の各時間ステップにおける前記第１画像特徴は前の時間ステップで生成された結果画像特徴であり、
前記参照画像の第２画像特徴と前記テキスト特徴との第２交差注意特徴を取得し、
前記第２交差注意特徴に基づいて、前記第１交差注意特徴を編集して、第３交差注意特徴を得て、
前記第３交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成するように構成される注意編集ユニットと、
最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するように構成される復号ユニットとを含む、画像スタイルの遷移装置。

【請求項11】

前記第１交差注意特徴は、前記コンテンツ記述テキストに対応する第１コンテンツサブ特徴と、前記スタイル記述テキストに対応する第１スタイルサブ特徴と、を含み、前記第２交差注意特徴は、前記コンテンツ記述テキストに対応する第２コンテンツサブ特徴と、前記スタイル記述テキストに対応する第２スタイルサブ特徴とを含み、前記第３交差注意特徴は、前記コンテンツ記述テキストに対応する第３コンテンツサブ特徴と、前記スタイル記述テキストに対応する第３スタイルサブ特徴とを含み、前記注意編集ユニットは、
前記第２コンテンツサブ特徴に基づいて前記第１コンテンツサブ特徴を修正して、前記第３コンテンツサブ特徴を得るように構成されるコンテンツ編集サブユニットと、
前記第１スタイルサブ特徴に基づいて、前記第３スタイルサブ特徴を確定するように構成されるスタイル編集サブユニットとを含む、請求項１０に記載の装置。

【請求項12】

前記コンテンツ編集サブユニットは、さらに、
前記第１コンテンツサブ特徴を、前記第２コンテンツサブ特徴と第１因子との積に置き換えるように構成され、前記第１因子は、前記ターゲット画像のコンテンツと前記参照画像のコンテンツとの一致度を示す、請求項１１に記載の装置。

【請求項13】

前記スタイル編集サブユニットは、さらに、
前記第１スタイルサブ特徴と第２因子との積を前記第３スタイルサブ特徴とするように構成され、前記第２因子は、前記スタイルの適用度を示す、請求項１１に記載の装置。

【請求項14】

前記抽出モジュールは、
前記コンテンツ記述テキストを符号化して、前記コンテンツ記述テキストの第１テキスト特徴を取得するように構成される第１符号化ユニットと、
前記参照画像の情報を前記スタイル記述テキストに導入して、拡張されたスタイル記述テキストを取得するように構成される導入ユニットと、
前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第２テキスト特徴を得るように構成される第２符号化ユニットとを含み、
前記テキスト特徴は、前記第１テキスト特徴及び前記第２テキスト特徴を含む、請求項１０に記載の装置。

【請求項15】

前記拡張されたスタイル記述テキストは、前記スタイル記述テキストと、前記参照画像のスタイル記述識別子とを含み、前記第２符号化ユニットは、
テキストエンコーダを利用して前記スタイル記述テキストの第１テキストサブ特徴を抽出するように構成される第１符号化サブユニットと、
画像エンコーダを利用して前記参照画像の第３画像特徴を抽出するように構成される第２符号化サブユニットであって、前記画像エンコーダ及び前記テキストエンコーダはそれぞれ画像及びテキストを同じ特徴空間にマッピングするように構成されるものと、
前記第３画像特徴を、前記スタイル記述識別子の第２テキストサブ特徴とするように構成される確定サブユニットとを含み、
前記第２テキスト特徴は、前記第１テキストサブ特徴及び前記第２テキストサブ特徴を含む、請求項１４に記載の装置。

【請求項16】

前記参照画像は、参照ビデオにおける任意の画像フレームであり、ここで、前記第２符号化サブユニットは、さらに、
前記画像エンコーダを利用して前記参照ビデオにおける１つ又は複数の画像フレームの画像特徴を、前記参照画像の第３画像特徴として抽出するように構成される、請求項１５に記載の装置。

【請求項17】

前記注意編集ユニットは、
前記第１画像特徴の自己注意特徴を計算するように構成される第１計算サブユニットと、
前記自己注意特徴及び前記第１画像特徴に基づいて、第４画像特徴を生成するように構成される生成サブユニットと、
前記第４画像特徴と前記テキスト特徴との第１交差注意特徴を計算するように構成される第２計算サブユニットとを含む、請求項１０に記載の装置。

【請求項18】

前記参照画像は、参照ビデオにおける第１画像フレーム以外の任意の画像フレームであり、ここで、前記生成サブユニットは、さらに、
前記自己注意特徴に対応する履歴自己注意特徴に基づいて、前記自己注意特徴を調整して、調整された自己注意特徴を得、ここで、前記履歴自己注意特徴は、前記拡散モデルを用いて前記参照画像の履歴画像フレームをスタイル遷移して得られた、位置が前記自己注意特徴と同じである注意特徴であり、
前記調整された自己注意特徴と前記第１画像特徴とに基づいて、前記第４画像特徴を生成するように構成される、請求項１７に記載の装置。

【請求項19】

電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに請求項１～９のいずれか一項に記載の方法を実行させることを可能にする、電子機器。

【請求項20】

コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～９のいずれか一項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。

【請求項21】

コンピュータプログラム命令を含むコンピュータプログラム製品であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項１～９のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能の技術分野に関し、特に、深層学習、ＡＩＧＣ（人工知能生成コンテンツ）等の技術分野に関し、具体的に、画像スタイルの遷移方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

【背景技術】

【0002】

画像スタイル遷移とは、原画像（すなわち、参照画像）のコンテンツをほぼ一定に保ちながら、原画像のスタイルを変更することで、原画像のコンテンツと新しいスタイルとを併せ持つ新たな画像（すなわち、ターゲット画像）を得ることを意味する。例えば、原画像は、通りを歩いている犬が写っている写真（すなわち、フォトスタイル）であり、指定された新スタイルは、アニメスタイルである。原画像をスタイル遷移することで、通りを歩く犬が１匹いる様子をアニメ風に描いた新しい画像を得ることができる。

【0003】

当該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、当該部分に記載されているいずれの方法は、当該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、当該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。

【発明の概要】

【0004】

本開示は、画像スタイルの遷移方法及び装置、電子装置、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。

【0005】

本開示の一態様によれば、画像スタイルの遷移方法を提供し、参照画像と記述テキストを取得し、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むことと、前記記述テキストのテキスト特徴を抽出することと、事前トレーニングされた拡散モデルに基づいて、前記拡散モデルの各時間ステップにおいて、第１画像特徴と前記テキスト特徴との第１交差注意特徴を計算し、第１時間ステップにおける前記第１画像特徴は予め設定された初期画像の画像特徴であり、第２時間ステップ以降の各時間ステップにおける前記第１画像特徴は前の時間ステップで生成された結果画像特徴であり、前記参照画像の第２画像特徴と前記テキスト特徴との第２交差注意特徴を取得し、前記第２交差注意特徴に基づいて、前記第１交差注意特徴を編集して、第３交差注意特徴を得て、前記第３交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成し、最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するという操作を行って、前記ターゲット画像を生成することとを含む。

【0006】

本開示の一態様によれば、画像スタイルの遷移装置を提供し、参照画像と記述テキストを取得するように構成される取得モジュールであって、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含むものと、前記記述テキストのテキスト特徴を抽出するように構成される抽出モジュールと、事前トレーニングされた拡散モデルに基づいて前記ターゲット画像を生成するように構成される生成モジュールとを含み、前記生成モジュールは、前記拡散モデルの各時間ステップにおいて、第１画像特徴と前記テキスト特徴との第１交差注意特徴を計算し、第１時間ステップにおける前記第１画像特徴は予め設定された初期画像の画像特徴であり、第２時間ステップ以降の各時間ステップにおける前記第１画像特徴は前の時間ステップで生成された結果画像特徴であり、前記参照画像の第２画像特徴と前記テキスト特徴との第２交差注意特徴を取得し、前記第２交差注意特徴に基づいて、前記第１交差注意特徴を編集して、第３交差注意特徴を得て、前記第３交差注意特徴及び前記テキスト特徴に基づいて、該時間ステップの結果画像特徴を生成するように構成される注意編集ユニットと、最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するように構成される復号ユニットとを含む。

【0007】

本開示の一態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに上述の方法を実行させることを可能にする。

【0008】

本開示の一態様によれば、コンピュータに上記に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。

【0009】

本開示の一態様によれば、プロセッサによって実行されると、上記に記載の方法を実現するコンピュータプログラム命令を含むコンピュータプログラム製品を提供する。

【0010】

本開示の１つ又は複数の実施例によれば、注意編集に基づく非学習式の画像スタイル遷移方法を提供する。当該方法は汎用の、事前トレーニングされた拡散モデルを使用して高品質の画像スタイル遷移を実現することができ、大量のラベルデータを利用して拡散モデルに対してさらにトレーニング（微調整）を行うことを必要とせず、画像スタイル遷移の効率を向上させ、良好な汎化性を有する。

【0011】

理解すべきこととして、該部分に説明されるコンテンツは、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。

【図面の簡単な説明】

【0012】

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施例を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。

【図1】本開示の実施例による、本明細書で説明される各方法を実施することができる例示的なシステムを示す概略図である。

【図2】本開示の実施例による、画像スタイルの遷移方法のフローチャートである。

【図3】本開示の実施例による、ビデオスタイル遷移プロセスの概略図である。

【図4】本開示の実施例による、画像スタイル遷移装置の構成を示すブロック図である。

【図5】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。

【発明を実施するための形態】

【0013】

以下、図面に合わせて本開示の例示的な実施例を説明するが、それに含まれる本開示の実施例における様々な詳細は理解を助けるためものであるので、それらは単に例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭性と簡潔性のために、以下の説明では公知の機能及び構造についての説明を省略している。

【0014】

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第１の要素と第２要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

【0015】

本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しない場合、要素は１つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び／又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。「複数」は２つ以上を意味する。

【0016】

本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。

【0017】

画像スタイル遷移とは、原画像のコンテンツをほぼ一定に保ちながら、原画像のスタイルを変更することで、原画像のコンテンツと新しいスタイルとを併せ持つ新たな画像を得ることを意味する。スタイルの遷移を行う画像数によっては、画像遷移タスクは、さらに、１枚画像のスタイル遷移タスクと、ビデオスタイル遷移タスクとに分けることができる。

【0018】

関連技術では、一般に、微調整した拡散モデルを用いて画像スタイル遷移を実現する。すなわち、まず、基礎的なテキストからイメージを生成する能力を有する事前トレーニングされた拡散モデルを取得する。次に、画像スタイル遷移タスクのための大量のトレーニングデータ（すなわち、サンプル参照画像、サンプルスタイル記述テキスト、サンプルターゲット画像からなるラベルデータ）を用いて事前にトレーニングされた拡散モデルを微調整し、微調整された拡散モデルを用いて画像スタイル遷移を実現する。具体的には、スタイル遷移対象の参照画像にノイズを加え、拡散モデルに入力すべき初期画像を得る。初期画像とスタイル記述テキストを拡散モデルに入力して、拡散モデルがスタイル記述テキストを条件に初期画像に対して複数回ノイズ除去を行い、スタイル遷移後のターゲット画像を得る。

【0019】

上述した関連技術では、遷移後のターゲット画像の視覚効果を保証するために、拡散モデルの微調整ステップが必要となる。しかし、拡散モデルに対するトレーニング（微調整）に時間がかかり、効率が低く、拡散モデルのスタイル遷移効果がトレーニングデータの分布に依存するため、オーバーフィッティング現象が起こりやすく、汎化性が悪い。

【0020】

上記問題に対し、本開示は、注意編集に基づく非学習式画像スタイルの遷移方法を提供する。拡散モデルの画像生成過程に算出された第１交差注意特徴を、参照画像の画像特徴とテキスト特徴の第２交差注意特徴とを用いて編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。

【0021】

本開示は汎用の、事前トレーニングされた拡散モデルを使用して高品質の画像スタイル遷移を実現することができ、大量のラベルデータを利用して拡散モデルに対してさらにトレーニング（微調整）を行うことを必要とせず、画像スタイル遷移の効率を向上させ、画像スタイル遷移サービスの配置及び使用コストを低減し、良好な汎化性を有する。

【0022】

以下、図面を参照して本開示の実施例について詳細に説明する。

【0023】

図１は、本開示の実施例によると、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム１００の概略図を示す。図１を参照すると、該システム１００は、１つ以上のクライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６、サーバ１２０、及び１つ以上のクライアントデバイスをサーバ１２０に結合する１つ以上の通信ネットワーク１１０を含む。クライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６は、１つ以上のアプリケーションを実行するように構成されることが可能である。

【0024】

本開示の実施例では、クライアントデバイス１０１、１０２、１０３、１０４、１０５、１０６及びサーバ１２０は、画像スタイルの遷移方法の実行を可能にする１つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。

【0025】

いくつかの実施例では、サーバ１２０は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、ｗｅｂベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス（ＳａａＳ）モデルでクライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザに提供される。

【0026】

図１に示す構成では、サーバ１２０は、サーバ１２０により実行される機能を実現する１つ以上のアセンブリを含んでもよい。これらのアセンブリは、１つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、１つ以上のクライアントアプリケーションを順次利用してサーバ１２０とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム１００とは異なってもよいことを理解されたい。したがって、図１は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。

【0027】

クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６は、クライアントデバイスのユーザがクライアントデバイスとインタラクションするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。図１では６つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。

【0028】

クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６は、携帯型ハンドヘルドデバイス、汎用コンピュータ（例えば、パーソナルコンピュータやノートパソコン）、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、車載機器、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、ＭＩＣＲＯＳＯＦＴ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）、ＡＰＰＬＥｉＯＳ、類ＵＮＩＸ（登録商標）オペレーティングシステム、Ｌｉｎｕｘ（登録商標）又は類Ｌｉｎｕｘ（登録商標）オペレーティングシステムなどの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓＭｏｂｉｌｅＯＳ、ｉＯＳ、ＷｉｎｄｏｗｓＰｈｏｎｅ、Ａｎｄｒｏｉｄ（登録商標）などの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント（ＰＤＡ）などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ（例えば、スマートグラス）と他のデバイスを含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネット（Ｉｎｔｅｒｎｅｔ）関連アプリケーション、通信アプリケーション（例えば、電子メールアプリケーション）、ショートメッセージサービス（ＳＭＳ）アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。

【0029】

ネットワーク１１０は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか１つ（ＴＣＰ／ＩＰ、ＳＮＡ、ＩＰＸなどを含むがこれらに限定されない）を使用することができる。例として、１つ又は複数のネットワーク１１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネット（登録商標）ベースのネットワーク、トークンループ、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（例えば、ブルートゥース（登録商標）、Ｗｉ－Ｆｉ）、及び／又はこれら及び／又はその他のネットワークの任意の組み合わせであってもよい。

【0030】

サーバ１２０は、１つ以上の汎用コンピュータ、専用サーバコンピュータ（例えば、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ）、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び／又は組み合わせを含んでもよい。サーバ１２０は、仮想オペレーティングシステムを実行する１つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ（例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの１つ以上のフレキシブルプール）を含んでもよい。様々な実施例では、サーバ１２０は、以下に説明する機能を提供する１つ以上のサービス又はソフトウェアアプリケーションを実行することができる。

【0031】

サーバ１２０における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む１つ以上のオペレーティングシステムを実行することができる。サーバ１２０は、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び／又は中間層アプリケーションのいずれか１つを実行することもできる。

【0032】

いくつかの実施例では、サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザから受信したデータフィード及び／又はイベントの更新を分析及び統合するための１つ以上のアプリケーションを含んでもよい。サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６の１つ以上のディスプレイデバイスを介してデータフィード及び／又はリアルタイムイベントを表示する１つ以上のアプリケーションを含んでもよい。

【0033】

いくつかの実施例では、サーバ１２０は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ１２０は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。

【0034】

システム１００は、１つ以上のデータベース１３０を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース１３０のうちの１つ以上は、音声ファイルや動画ファイルのような情報を記憶するために使用できる。データベース１３０は、様々な位置に配置することができる。例えば、サーバ１２０が使用するデータベースは、サーバ１２０のローカルにあってもよいし、サーバ１２０から離れて、ネットワーク又は専用の接続を介してサーバ１２０と通信してもよい。データベース１３０は、様々なタイプであってもよい。いくつかの実施例では、サーバ１２０が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。

【0035】

いくつかの実施例では、データベース１３０のうちの１つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。

【0036】

図１のシステム１００は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。

【0037】

いくつかの実施例によれば、クライアントデバイス１０１～１０６は、ユーザが入力した参照画像及び記述テキストを取得することができ、記述テキストは、例えば「犬が通りを歩いている」などの参照画像を記述するコンテンツ記述テキスト、及び生成すべきターゲット画像のスタイルを記述する例えば「アニメスタイル」などのスタイル記述テキストを含むことができる。クライアントデバイス１０１～１０６は、ユーザが入力した参照画像と記述テキストとに基づいて、画像スタイル遷移要求をサーバ１２０に送信する。サーバ１２０は、クライアントデバイス１０１～１０６からの画像スタイル遷移要求に応じて、本開示の実施例に係る画像スタイルの遷移方法を実行することにより、ユーザが指定した参照画像とコンテンツが一致し、かつ指定のスタイルを有するターゲット画像を生成し、生成されたターゲット画像をクライアントデバイス１０１～１０６に返信する。

【0038】

いくつかの実施例によれば、クライアントデバイス１０１～１０６は、本開示の実施例による画像スタイルの遷移方法を実行することもできる。具体的には、クライアントデバイス１０１～１０６は、ユーザにより入力された参照画像及び記述テキストを取得し、参照画像及び記述テキストに基づいて、ユーザが指定した参照画像にコンテンツが一致し、かつ指定されたスタイルを有するターゲット画像を生成するために、本開示の実施例に係る画像スタイルの遷移方法を実行することができる。

【0039】

図２は、本開示の実施例による画像スタイルの遷移方法２００のフローチャートである。上述したように、方法２００の実行主体は、図１に示すクライアントデバイス１０１～１０６などのクライアントデバイスであってもよい。また、図１に示すサーバ１２０などのサーバであってもよい。

【0040】

図２に示すように、方法２００は、ステップＳ２１０～Ｓ２７０を含む。

【0041】

ステップＳ２１０では、参照画像と記述テキストを取得する。記述テキストは、参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含む。

【0042】

ステップＳ２２０では、記述テキストのテキスト特徴を抽出する。

【0043】

事前トレーニングされた拡散モデルに基づいてステップＳ２３０～Ｓ２７０を実行して、ターゲット画像を生成する。

【0044】

ステップＳ２３０では、拡散モデルの各時間ステップにおいて、第１画像特徴とテキスト特徴との第１交差注意特徴を計算する。第１時間ステップにおける第１画像特徴は予め設定された初期画像の画像特徴であり、第２以降の各時間ステップにおける第１画像特徴は前の時間ステップで生成された結果画像特徴である。

【0045】

ステップＳ２４０では、参照画像の第２画像特徴とテキスト特徴の第２交差注意特徴を取得する。

【0046】

ステップＳ２５０では、第２交差注意特徴に基づいて、第１交差注意特徴を編集して、第３交差注意特徴を得る。

【0047】

ステップＳ２６０では、第３交差注意特徴及びテキスト特徴に基づいて、該時間ステップの結果画像特徴を生成する。

【0048】

ステップＳ２７０では、最後の時間ステップの結果画像特徴を復号して、ターゲット画像を生成する。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。

【0049】

本開示の実施例によれば、注意編集に基づく非学習式画像スタイルの遷移方法を提供する。該方法は、拡散モデルの画像生成過程に算出された第１交差注意特徴を、参照画像の画像特徴とテキスト特徴の第２交差注意特徴とを用いて編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。

【0050】

【0051】

方法２００の各ステップを以下に詳細に説明する。

【0052】

ステップＳ２１０では、参照画像と記述テキストを取得する。

【0053】

参照画像は、ユーザによって入力され得る。いくつかの実施例によれば、ユーザは、参照画像として一枚の画像を入力することができる。他の実施例によれば、ユーザは、参照ビデオを入力することができ、それに対応して、参照画像は、該参照ビデオにおける任意の画像フレームであってもよい。

【0054】

記述テキストは、コンテンツ記述テキスト及びスタイル記述テキストをさらに含む。

【0055】

コンテンツ記述テキストは、参照画像のコンテンツを説明するために使用される。いくつかの実施例によれば、コンテンツ記述テキストは、ユーザにより入力されるものであってもよい。例えば、ユーザは、参照画像を指定し、該参照画像のコンテンツ記述テキスト「犬が通りを歩いている」を入力することができる。

【0056】

他の実施例によれば、コンテンツ記述テキストは、参照画像から自動的に生成されるものであってもよい。例えば、ユーザが指定した参照画像をトレーニング済み画像理解モデルに入力することにより、画像理解モデルが出力した該参照画像のコンテンツ記述テキストを得る。画像理解モデルは、例えば、大言語モデル、画像エンコーダ及びテキストデコーダを含むニューラルネットワークモデル等であってもよい。

【0057】

スタイル記述テキストは、参照画像が遷移する新たなスタイル、すなわち、写真スタイル、アニメスタイル、スケッチスタイル、水墨画スタイルなど、生成すべきターゲット画像のスタイルを記述するために用いられる。スタイル記述テキストは、ユーザによって入力され得る。

【0058】

ステップＳ２２０では、記述テキストのテキスト特徴を抽出する。

【0059】

いくつかの実施例によれば、記述テキスト全体をトレーニング済みテキストエンコーダに入力して、テキストエンコーダによって出力された該記述テキストのテキスト特徴を得ることができる。テキストエンコーダは、例えば、ＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅｔｒａｉｎｉｎｇ）テキストエンコーダ、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）モデル、ｗｏｒｄ２ｖｅｃモデルなどであってもよい。一般に、テキストエンコーダは、記述テキストを複数のトークン（ｔｏｋｅｎ）に分割し、各トークンを符号化して、各トークンの特徴ベクトルを得る。各トークンの特徴ベクトルをつなぎ合わせて、記述テキストのテキスト特徴を得る。

【0060】

理解できるように、記述テキストは、コンテンツ記述テキストとスタイル記述テキストの２つの部分を含むので、それに応じて、記述テキストのテキスト特徴も、２つの部分を含み、すなわち、記述テキストのテキスト特徴は、コンテンツ記述テキストの第１テキスト特徴と、スタイル記述テキストの第２テキスト特徴とを含む。第１テキスト特徴は、コンテンツ記述テキストにおける各トークンの特徴ベクトルを含む。第２テキスト特徴は、スタイル記述テキストにおける各トークンの特徴ベクトルを含む。

【0061】

いくつかの実施例によれば、ステップＳ２２０は、ステップＳ２２１～Ｓ２２３を含むことができる。

【0062】

ステップＳ２２１では、コンテンツ記述テキストを符号化して、コンテンツ記述テキストの第１テキスト特徴を得る。

【0063】

ステップＳ２２２では、参照画像の情報をスタイル記述テキストに導入して、拡張されたスタイル記述テキストを得る。

【0064】

ステップＳ２２３では、拡張されたスタイル記述テキストを符号化して、拡張されたスタイル記述テキストの第２テキスト特徴を得る。ここでは、記述テキストのテキスト特徴は、第１テキスト特徴及び第２テキスト特徴を含む。

【0065】

上記実施例によれば、コンテンツ記述テキストとスタイル記述テキストとを別々に符号化し、スタイル記述テキストに参照画像の情報を導入することで、スタイル遷移過程において、参照画像のコンテンツの保存度合と新たなスタイルの適用度とを別々に制御して、スタイル遷移過程をより制御可能にし、スムーズにすることができる。

【0066】

いくつかの実施例によれば、ステップＳ２２１では、コンテンツ記述テキストをテキストエンコーダに入力して、テキストエンコーダから出力された該コンテンツ記述テキストの第１テキスト特徴を得ることができる。理解できるように、第１テキスト特徴は、コンテンツ記述テキストにおける各トークンの特徴ベクトルを含む。

【0067】

いくつかの実施例によれば、ステップＳ２２２では、参照画像のスタイル記述識別子を取得することができ、参照画像のスタイル記述識別子は、参照画像のスタイルを示す。元のスタイル記述テキストと参照画像のスタイル記述識別子とをつなぎ合わせて、拡張されたスタイル記述テキストを得る。すなわち、拡張されたスタイル記述テキストは、元のスタイル記述テキストと、参照画像のスタイル記述識別子とを含む。

【0068】

いくつかの実施例によれば、参照画像のスタイル記述識別子は、例えば「写真」、「スケッチ」など、用語集に既に存在するトークンであってもよい。この場合、参照画像のスタイル記述識別子は、トレーニング済みスタイル認識モデルを用いて認識して得ることができる。具体的には、参照画像をスタイル認識モデルに入力して、スタイル認識モデルが出力した参照画像のスタイルタイプを得ることができる。スタイル認識モデルは、例えば、畳み込みニューラルネットワークであってもよい。

【0069】

スタイル記述識別子が用語集に既に存在するトークンであることに応じて、ステップＳ２２３は、拡張されたスタイル記述テキストをテキストエンコーダに入力して、テキストエンコーダが出力した該拡張されたスタイル記述テキストの第２テキスト特徴を得ることを含むことができる。理解できるように、第２テキスト特徴は、拡張されたスタイル記述テキストにおける各トークンの特徴ベクトルを含む。

【0070】

いくつかの実施例によれば、参照画像のスタイル記述識別子は、例えば［Ｓ＊］と表せる単語集に現れていない視覚識別子であってもよい。該視覚識別子は単語集に現れたことがないので、テキストエンコーダを用いて該視覚識別子の特徴ベクトルを得ることができない。

【0071】

スタイル記述識別子が単語集に現れていない視覚識別子であることに応じて、ステップＳ２２３は、ステップＳ２２３１～Ｓ２２３３を含むことができる。

【0072】

ステップＳ２２３１では、テキストエンコーダを用いてスタイル記述テキストの第１テキストサブ特徴を抽出する。

【0073】

ステップＳ２２３２では、画像エンコーダを用いて、参照画像の第３画像特徴を抽出する。画像エンコーダ及びテキストエンコーダは、それぞれ、画像及びテキストを同じ特徴空間にマッピングするように構成される。

【0074】

ステップＳ２２３３では、第３画像特徴をスタイル記述識別子の第２テキストサブ特徴とする。拡張されたスタイル記述テキストの第２テキスト特徴は、第１テキストサブ特徴及び第２テキストサブ特徴を含む。

【0075】

上記実施例によれば、クロスモーダルのテキストエンコーダ及び画像エンコーダを利用して拡張されたスタイル記述テキストにおけるテキスト情報及び画像情報をそれぞれ符号化し、クロスモーダル特徴を正確に抽出することができ、それにより参照画像の視覚スタイル特徴を正確に表現し、スタイル遷移の精度を向上させる。

【0076】

いくつかの実施例によれば、ステップＳ２２３１におけるテキストエンコーダはＣＬＩＰテキストエンコーダであってもよく、ステップＳ２２３２における画像エンコーダは、ＣＬＩＰ画像エンコーダであってもよい。ＣＬＩＰテキストエンコーダ及びＣＬＩＰ画像エンコーダは、テキスト及び画像を同じ特徴空間にマッピングし、モーダルにまたがる、均一な特徴表現を実現することができる。

【0077】

いくつかの実施例によれば、参照画像がコンテキストを有しない独立画像である場合、ステップＳ２２３２において、参照画像を画像エンコーダに入力して、画像エンコーダが出力した第３画像特徴を得ることができる。

【0078】

いくつかの実施例によれば、参照画像が参照ビデオにおける任意の画像フレームである場合、ステップＳ２２３２において、画像エンコーダを利用して参照ビデオにおける１つ又は複数の画像フレームの画像特徴を抽出し、参照画像の第３画像特徴とすることができる。例えば、参照ビデオの第１画像フレームを画像エンコーダに入力して、画像エンコーダを利用して出力された該画像フレームの画像特徴を得ることができる。該参照ビデオにおける各画像フレームを参照画像としてスタイル遷移を行う場合、いずれも参照ビデオにおける最初の画像フレームの画像特徴を該参照画像の第３画像特徴とする。

【0079】

上述した実施例によれば、同じ参照ビデオにおける各画像フレームは同じ第３画像特徴を多重化することができ、第３画像特徴の重複計算を避け、かつビデオスタイル遷移タスクにおける各画像フレームのスタイル遷移の一致性を向上させるのに有利である。

【0080】

本開示の実施例は、事前トレーニングされた拡散モデルを利用してターゲット画像を生成する。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。

【0081】

本開示の実施例では、事前トレーニングされた拡散モデルは、基礎的なテキストからイメージを生成する能力を有するが、画像スタイル移動タスクに対しては微調整されない。

【0082】

事前トレーニングされた拡散モデルは、テキスト特徴を条件に、予め設定された初期画像に対してノイズ除去操作（即ち、逆拡散操作）を複数回行って、最終的にターゲット画像を得る。拡散モデルの各ノイズ除去操作は、１つの時間ステップに対応する。

【0083】

事前トレーニングされた拡散モデルは、交差注意層を含む。該拡散モデルの画像生成過程は、以下のとおりである。各時間ステップｔ（ｔ＝Ｔ、Ｔ－１、Ｔ－２、．．．、２、１であり、Ｔは予め設定される１より大きい整数であり、例えば５０、１００などである）において、交差注意層は、現在生成されている第１画像特徴Ｉ_ｔ及び記述テキストのテキスト特徴Ｔｅｘｔを入力として、交差注意機構を利用して第１画像特徴Ｉ_ｔとテキスト特徴Ｔｅｘｔとの第１交差注意特徴

【数1】

（以下、「Ｍ_ｔ ^＊」と表記する。）（すなわち、第１注意マップ、ａｔｔｅｎｔｉｏｎｍａｐ）を計算し、さらに、第１交差注意特徴Ｍ_ｔ ^＊とテキスト特徴Ｔｅｘｔに基づいて、該時間ステップの結果画像特徴Ｏ_ｔを生成する。最後の時間ステップ（ｔ＝１）の結果画像特徴Ｏ_１を復号化して、ターゲット画像を生成する。

【0084】

なお、第１時間ステップｔ＝Ｔについて、第１画像特徴Ｉ_Ｔは、初期画像の画像特性である。初期画像は、例えば、ランダムノイズ画像であってもよいし、参照画像にノイズを加えた画像であってもよい。第２以降の各時間ステップｔについて、第１画像特徴Ｉ_ｔは前の時間ステップ（ｔ＋１）で生成された結果画像特徴Ｏ_ｔ＋１である。

【0085】

本開示の実施例は、事前トレーニングされた拡散モデルをもとに注意編集機構を導入し、これにより、拡散モデルへの更なる微調整を必要とせずに、高品質の画像スタイル遷移が実現される。具体的には、参照画像の画像特徴とテキスト特徴との第２交差注意特徴Ｍ_ｔを利用して拡散モデルの画像生成過程において計算された第１交差注意特徴Ｍ_ｔ ^＊を編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。

【0086】

ステップＳ２３０～Ｓ２７０は、事前トレーニングされた拡散生成モデルに注意編集機構を導入した後のターゲット画像の生成過程を説明する。

【0087】

ステップＳ２３０では、拡散モデルの各時間ステップｔ（ｔ＝Ｔ、Ｔ－１、Ｔ－２、．．．、２、１であり、Ｔは、予め設定された１より大きい整数であり、例えば５０、１００等）において、第１画像特徴Ｉ_ｔとテキスト特徴Ｔｅｘｔとの第１交差注意特徴Ｍ_ｔ ^＊を計算する。第１時間ステップｔ＝Ｔにおける第１画像特徴Ｉ_Ｔは、予め設定された初期画像の画像特性である。初期画像は、例えば、ランダムノイズ画像であってもよいし、参照画像にノイズを加えた画像であってもよい。初期画像の画像特徴は、画像エンコーダ（例えば、ＣＬＩＰ画像エンコーダ）を用いて抽出することができる。第２以降の各時間ステップｔ＝Ｔ－１、Ｔ－２、．．．、２、１における第１画像特徴Ｉ_ｔは前の時間ステップｔ＋１で生成された結果画像特徴Ｏ_ｔ＋１である。

【0088】

上述したように、拡散モデルは、交差注意層を含む。交差注意層は、クエリ（Ｑｕｅｒｙ）変換行列Ｗ^Ｑ、キー（Ｋｅｙ）変換行列Ｗ^Ｋと値（Ｖａｌｕｅ）変換行列Ｗ^Ｖの３つのパラメータを含む。

【0089】

交差注意層は、第１画像特徴Ｉ_ｔと記述テキストのテキスト特徴Ｔｅｘｔを入力とする。クエリ変換行列Ｗ^Ｑを利用して第１画像特徴Ｉ_ｔに線形変換を行って、クエリ行列Ｑ_ｔ＝Ｉ_ｔ・Ｗ^Ｑを得る。それぞれキー変換行列Ｗ^Ｋと値変換行列Ｗ^Ｖを利用してテキスト特徴Ｔｅｘｔを線形変換し、キー行列Ｋ_ｔ＝Ｔｅｘｔ・Ｗ^Ｋと値行列Ｖ_ｔ＝Ｔｅｘｔ・Ｗ^Ｖを得る。以下の式（１）により第１交差注意特徴Ｍ_ｔ ^＊を計算する：

【数2】

上式において、

【数3】

はキー行列Ｋ_ｔの行数又は列数であり、それはキー行列Ｋ_ｔにおける各ベクトルの長さを示す。理解できるように、第１交差注意特徴Ｍ_ｔ ^＊は本質的には、注意マップ（ａｔｔｅｎｔｉｏｎｍａｐ）であり、このマップにおける座標が（ｉ，ｊ）である要素は、第１画像特徴Ｉ_ｔにおける特徴位置ｉ（現在画像における画素ｉに対応する）とテキスト特徴Ｔｅｘｔにおける特徴位置ｊ（記述テキストにおけるｊ番目のトークンに対応する）との相関度を示す。

【0090】

いくつかの実施例によれば、拡散モデルは、自己注意層も含むことができる。自己注意層の出力端は、交差注意層の入力端に接続することができる。これに対応して、ステップＳ２３０は、ステップＳ２３１～Ｓ２３３を含むことができる。

【0091】

ステップＳ２３１では、第１画像特徴の自己注意特徴を計算する。

【0092】

ステップＳ２３２では、自己注意特徴と第１画像特徴とに基づいて、第４画像特徴を生成する。

【0093】

ステップＳ２３３では、第４画像特徴とテキスト特徴との第１交差注意特徴を計算する。

【0094】

上記実施例によれば、自己注意機構によって第１画像特徴内部の情報集約を実現することによって、画素点間の相関性をキャッチでき、集約された第１画像特徴（すなわち、第４画像特徴）が、生成画像の情報をより正確に表現することができるようにする。第４画像特徴を用いて第１交差注意特徴を計算することにより、第１交差注意特徴が生成画像の情報を正確に表現することができ、これにより、生成されたターゲット画像の品質を向上させる。

【0095】

上記ステップＳ２３１では、自己注意層を用いて第１画像特徴Ｉ_ｔの自己注意特徴Ｍ_ｓ，ｔを計算することができる。具体的には、自己注意層はクエリ変換行列

【数4】

（以下、「Ｗ_ｓ ^Ｑ」と表記する）、キー変換行列

【数5】

（以下、「Ｗ_ｓ ^Ｋ」と表記する）と値変換行列

【数6】

（以下、「Ｗ_ｓ ^Ｖ」と表記する）の３つのパラメータを有する。クエリ変換行列Ｗ_ｓ ^Ｑ、キー変換行列Ｗ_ｓ ^Ｋと値変換行列Ｗ_ｓ ^Ｖをそれぞれ利用して第１画像特徴Ｉ_ｔを線形変換して、

【数7】

【数8】

及び

【数9】

を得る。次式（２）により自己注意特徴Ｍ_ｓ，ｔを計算する：

【数10】

上式において、

【数11】

はキー行列Ｋ_ｓ，ｔの行数又は列数であり、それはキー行列Ｋ_ｓ，ｔにおける各ベクトルの長さを示す。理解できるように、自己注意特徴Ｍ_ｓ，ｔは本質的に注意マップ（ａｔｔｅｎｔｉｏｎｍａｐ）であり、このマップにおける座標が（ｉ，ｊ）である要素は、第１画像特徴Ｉ_ｔにおける特徴位置ｉ（現在画像における画素ｉに対応する）と特徴位置ｊ（現在画像における画素ｊに対応する）との相関度を示す。

【0096】

ステップＳ２３２では、自己注意特徴Ｍ_ｓ，ｔを第１画像特徴Ｉ_ｔによって計算された値行列Ｖ_ｓ，ｔに乗算することにより、第４画像特徴Ｉ_ｓ，ｔを得ることができ、すなわち更新された第１画像特徴である。つまり、該実施例では、第４画像特徴Ｉ_ｓ，ｔは次式（３）によって計算される。

【数12】

いくつかの実施例によれば、ビデオスタイル遷移タスクにおいて、参照ビデオにおける各画像フレームは、いずれも参照画像としてスタイル遷移を行う。参照画像が、参照ビデオにおける最初の画像フレーム以外の任意の画像フレームである場合、該参照画像の前に１つ又は複数の画像フレームがあり、これらの画像フレームは、参照画像の履歴画像フレームとして記される。したがって、ステップＳ２３２は、ステップＳ２３２１及びＳ２３２２を含むことができる。

【0097】

ステップＳ２３２１では、自己注意特徴Ｍ_ｓ，ｔに対応する履歴自己注意特徴に基づいて、該自己注意特徴Ｍ_ｓ，ｔを調整して、調整された自己注意特徴Ｍ_ｓ，ｔ’を得る。履歴自己注意特徴は、拡散モデルを用いて該参照画像の履歴画像フレームをスタイル遷移して得られる、位置が該自己注意特徴Ｍ_ｓ，ｔと同じ注意特徴である。

【0098】

ステップＳ２３２２では、調整された自己注意特徴Ｍ_ｓ，ｔ’と第１画像特徴Ｉ_ｔに基づいて、第４画像特徴Ｉ_ｓ，ｔを得る。第４画像特徴Ｉ_ｓ，ｔは、次の式（４）により計算できる。

【数13】

上記実施例によれば、ビデオスタイルの遷移タスクに対して、各画像フレーム間の関連性を構築でき、生成されたスタイル遷移後の各画像フレームは、良好なタイミング一致性を有する。

【0099】

上述したステップＳ２３２１に関して、各履歴画像フレームは、１つの履歴自己注意特徴に対応することが理解されたい。履歴画像フレームが複数ある場合に、複数の履歴自己注意特徴を得ることができる。

【0100】

いくつかの実施例によれば、自己注意特徴Ｍ_ｓ，ｔと各履歴自己注意特徴の平均値を調整後の自己注意特徴Ｍ_ｓ，ｔ’とすることができる。

【0101】

他の実施例によれば、自己注意特徴Ｍ_ｓ，ｔと各履歴自己注意特徴との重み付け和を調整後の自己注意特徴Ｍ_ｓ，ｔ’とすることができる。各履歴自己注意特徴の重みは、対応する履歴画像フレームから参照画像までの距離に負の相関を有することができ、すなわち、履歴画像フレームが参照画像に近い（小さい）ほど、該履歴画像フレームに対応する履歴自己注意特徴の重みが大きい。

【0102】

ステップＳ２３３では、交差注意層を用いて第４画像特徴Ｉ_ｓ，ｔとテキスト特徴Ｔｅｘｔとの交差注意特徴を計算し、上記第１注意交差特徴Ｍ_ｔ ^＊とする。具体的には、第４画像特徴Ｉ_ｓ，ｔとテキスト特徴Ｔｅｘｔの交差注意特徴は、上述した第１画像特徴Ｉ_ｔとテキスト特徴Ｔｅｘｔとの交差注意特徴の計算方式と同じであり、異なるのは、上記計算処理（上記式（１）を参照）における第１画像特徴Ｉ_ｔを第４画像特徴Ｉ_ｓ，ｔに置換することだけである。

【0103】

ステップＳ２４０では、参照画像の第２画像特徴とテキスト特徴の第２交差注意特徴を取得する。

【0104】

参照画像の第２画像特徴Ｆは、画像エンコーダ（例えば、ＣＬＩＰ画像エンコーダ）を用いて抽出することができる。

【0105】

参照画像の第２画像特徴Ｆとテキスト特徴Ｔｅｘｔとの第２交差注意特徴Ｍ_ｔは同様に、拡散モデルの交差注意層を用いて得ることができる。具体的には、クエリ変換行列Ｗ^Ｑを利用して第２画像特徴Ｆを線形変換して、クエリ行列Ｑ＝Ｆ・Ｗ^Ｑを得る。それぞれキー変換行列Ｗ^Ｋと値変換行列Ｗ^Ｖを利用してテキスト特徴Ｔｅｘｔを線形変換し、キー行列Ｋ＝Ｔｅｘｔ・Ｗ^Ｋと値行列Ｖ＝Ｔｅｘｔ・Ｗ^Ｖを得、理解できるように、ここでは、Ｋは上記のＫ_ｔと同じであり、Ｖは上記のＶ_ｔと同じである。次式（５）により第２交叉注意特徴Ｍ_ｔを計算する：

【数14】

上式において、

【数15】

はキー行列Ｋ（すなわちＫ_ｔ）の行数又は列数であり、それはキー行列Ｋ（すなわちＫ_ｔ）における各ベクトルの長さを示す。理解できるように、第１交差注意特徴Ｍ_ｔは本質的には、注意重みマップでもあり、この重みマップにおける座標が（ｉ，ｊ）である要素は、第２画像特徴Ｆにおける特徴位置ｉ（参照画像における画素ｉに対応する）とテキスト特徴Ｔｅｘｔにおける特徴位置ｊ（記述テキストにおけるｊ番目のトークンに対応する）との相関度を示す。

【0106】

ステップＳ２５０では、第２交差注意特徴に基づいて、第１交差注意特徴を編集して、第３交差注意特徴を得る。第３交差注意特徴は、編集された第１交差注意特徴であることを理解されたい。

【0107】

上述したように、記述テキストのテキスト特徴は、コンテンツ記述テキストの第１テキスト特徴と、スタイル記述テキストの第２テキスト特徴との２つの部分を含む。したがって、第１交差注意特徴、第２交差注意特徴、及び第３注意交差特徴は、それぞれ、２つのサブ特徴に分割可能であり、一方のサブ特徴は、コンテンツ記述テキストに対応し、他方のサブ特徴は、スタイル記述テキストに対応する。具体的には、第１交差注意特徴は、コンテンツ記述テキストに対応する第１コンテンツサブ特徴と、スタイル記述テキストに対応する第１スタイルサブ特徴とを含む。第２交差注意特徴は、コンテンツ記述テキストに対応する第２コンテンツサブ特徴と、スタイル記述テキストに対応する第２スタイルサブ特徴とを含む。第３交差注意特徴は、コンテンツ記述テキストに対応する第３コンテンツサブ特徴と、スタイル記述テキストに対応する第３スタイルサブ特徴とを含む。

【0108】

上述したサブ特徴を分割する実施例に応じて、ステップＳ２５０は、ステップＳ２５１及びＳ２５２をさらに含むことができる。

【0109】

ステップＳ２５１では、第２コンテンツサブ特徴に基づいて、第１コンテンツサブ特徴を修正して、第３コンテンツサブ特徴を取得する。

【0110】

ステップＳ２５２では、第１スタイルサブ特徴に基づいて、第３スタイルサブ特徴を確定する。

【0111】

上記実施例によれば、コンテンツサブ特徴とスタイルサブ特徴とを別々に編集して、参照画像が主にターゲット画像のコンテンツに影響し、新しいスタイルの適用に過度に影響することを避ける。

【0112】

ターゲット画像のコンテンツは、参照画像のコンテンツに依存する。いくつかの実施例によれば、ステップＳ２５１では、第１コンテンツサブ特徴を、第２コンテンツサブ特徴と第１因子との積に置換することができる。すなわち、第３コンテンツサブ特徴は、第２コンテンツサブ特徴と第１因子との積である。第１因子は、ターゲット画像のコンテンツと参照画像のコンテンツとの一致度を示し、すなわち、参照画像コンテンツの保持度を示す。

【0113】

いくつかの実施例によれば、第１因子は正の数であり、したがって、第１因子の値は、参照画像コンテンツの保持度と正の相関を有する。第１因子の値を調整することにより、スタイル遷移過程における参照画像コンテンツの保持度を制御することができる。具体的には、第１因子の値が大きいほど、参照画像コンテンツの保持度が大きくなり、ターゲット画像コンテンツと参照画像コンテンツとの一致度が高い。第１因子の値が小さいほど、参照画像コンテンツの保持度が小さくなり、ターゲット画像コンテンツと参照画像コンテンツとの一致度が低い。

【0114】

いくつかの実施例によれば、ステップＳ２５１では、第１コンテンツサブ特徴と第２コンテンツサブ特徴との重み和は、第３コンテンツサブ特徴とすることができる。第２コンテンツサブ特徴の重みは、ターゲット画像コンテンツと参照画像コンテンツとの一致度を示すことができ、すなわち、参照画像コンテンツの保持度を示す。第２コンテンツサブ特徴の重みを調整することによって、スタイル遷移過程における参照画像コンテンツの保持度を制御することができる。

【0115】

ターゲット画像のスタイルはスタイル記述テキストに依存し、参照画像から受けられる影響が小さい。したがって、いくつかの実施例によれば、ステップＳ２５２では、第１スタイルサブ特徴のみに基づいて、第３スタイルサブ特徴を確定することができる。なお、上記ステップＳ２２２で、参照画像の情報をスタイル記述テキストに導入した場合、拡張されたスタイル記述テキストは、参照画像の情報も含んでいるため、第１スタイルサブ特徴のみに基づいて第３スタイルサブ特徴を確定しても、依然としてターゲット画像のスタイルが参照画像情報からガイドされて、ターゲット画像が参照画像に対してスムーズにスタイル遷移し、あまりにも急なスタイルの変化を引き起こすことに至らない。

【0116】

いくつかの実施例によれば、ステップＳ２５２では、第１スタイルサブ特徴と第２因子との積を第３スタイルサブ特徴とすることができる。第２因子は、新しいスタイル（すなわち、スタイル記述テキストによって示されるスタイル）の適用度を示す。

【0117】

いくつかの実施例によれば、第２因子は正の数であり、したがって、第２因子の値は、新しいスタイルの適用度と正の相関を有する。第２因子の値を調整することによって、スタイル遷移過程における新しいスタイルの適用度を制御することができる。具体的には、第２因子の値が大きいほど、新しいスタイルの適用度が大きくなる。第２因子の値が小さいほど、新しいスタイルの適用度が小さくなる。

【0118】

いくつかの実施例によれば、ステップＳ２５０の注意編集過程は、次式（６）のように表すことができる。

【数16】

上式において、

【数17】

（以下、「Ｍ_ｔ ^＊＊」と表記する。）はそれぞれｔ番目の時間ステップにおける第１交差注意特徴、第２交差注意特徴と第３交差注意特徴である。Ｅｄｉｔ（）は注意編集関数である。ｉ、ｊは、それぞれ、交差注意特徴とテキスト特徴における特徴位置を表す。α、βはそれぞれ第１因子、第２因子である。画像スタイル遷移タスクにおいて、α、βの値は、ユーザによってカスタマイズすることができる。

【0119】

ステップＳ２６０では、第３交差注意特徴及びテキスト特徴に基づいて、該時間ステップの結果画像特徴を生成する。

【0120】

いくつかの実施例によれば、ステップＳ２６０では、第３注意特徴Ｍ_ｔ ^＊＊をテキスト特徴から計算された値行列Ｖ_ｔと乗算することにより、結果画像特徴Ｏ_ｔを得ることができる。本実施例では、結果画像特徴Ｏ_ｔは次式（７）により計算する。

【数18】

いくつかの実施例によれば、ステップＳ２６０では、第３注意特徴Ｍ_ｔ ^＊＊をテキスト特徴から計算された値行列Ｖ_ｔと乗算することにより、ノイズ画像特徴Ｎ_ｔを得ることができる。現在生成されている第１画像特徴Ｉ_ｔからノイズ画像特徴Ｎ_ｔを引くと、結果画像特徴Ｏ_ｔを得る。本実施例では、結果画像特徴Ｏ_ｔは次式（８）と（９）により計算する。

【数19】

なお、結果画像特徴Ｏ_ｔの具体的な計算方法は、拡散モデルのタイプによって決まる。拡散モデルが各時間ステップの結果画像を直接予測すれば、上式（７）を用いて結果画像特徴を計算する。拡散モデルが各時間ステップのノイズを予測すれば、上式（８）及び（９）を用いて結果画像特徴を計算する。

【0121】

ステップＳ２７０では、最終の時間ステップの結果画像特徴を復号して、ターゲット画像を生成する。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。

【0122】

いくつかの実施例によれば、事前トレーニングされた拡散モデルは、デコーダを含むことができる。最後の時間ステップの結果画像特徴を該デコーダで復号することにより、スタイル遷移後のターゲット画像を得ることができる。ターゲット画像のコンテンツは、参照画像のコンテンツと一致し、スタイル記述テキストが示すスタイルを有する。

【0123】

図３は本開示の実施例による、ビデオスタイル遷移プロセスの概略図である。該ビデオスタイル遷移過程は、ビデオスタイル遷移サービスによって実現される。図３に示すように、ビデオスタイル遷移サービスは、テキスト特徴マッピングモジュール３１０、注意編集モジュール３２０、及びビデオ生成モジュール３３０を含む。

【0124】

テキスト特徴マッピングモジュール３１０は、ユーザから与えられた記述テキストＤ＝“Ｘ，Ｙ”を取得し、ここで、Ｘはコンテンツ記述テキストであり、参照ビデオＶにおけるコンテンツを記述するために用いられ、Ｙは、生成すべき目標ビデオのスタイルを記述するためのスタイル記述テキストである。図３に示すように、コンテンツ記述テキストＸ＝“Ｔｈｅｒｅｉｓａｄｏｇｔｈａｔｉｓｗａｌｋｉｎｇｏｎｔｈｅｓｔｒｅｅｔ”であり、スタイル記述テキストＹ＝“ａｎｉｍｅｓｔｙｌｅ”である。

【0125】

より多くの参照ビデオＶのコンテンツ特性を保持するために、記述テキストＤに参照ビデオＶのコンテンツ情報を導入し、記述テキストＤを、Ｄ＊＝“Ｘ，Ｙ＊”に更新し、ここで、Ｙ＊＝“Ｙｏｆ［Ｓ＊］”＝“ａｎｉｍｅｓｔｙｌｅｏｆ［Ｓ＊］”，［Ｓ＊］は、参照画像Ｖのスタイル記述識別子である。

【0126】

テキスト特徴マッピングモジュール３１０は、事前トレーニングされたＣＬＩＰモデルを使用して、更新された記述テキストＤ＊を符号化して、Ｄ＊のテキスト特徴を得る。具体的には、Ｄ＊における自然言語トークン（ｔｏｋｅｎ）、すなわちＸとＹ＊における“ａｎｉｍｅｓｔｙｌｅｏｆ”部分に対して、ＣＬＩＰモデルのテキストエンコーダ３１２を用いてそのテキスト特徴を抽出する。スタイル記述識別子［Ｓ＊］については、用語集に現われていないトークンであり、ＣＬＩＰモデルにおける視覚エンコーダ（すなわち、画像エンコーダ）３１４を用いて参照ビデオＶの第１フレームの視覚特徴を抽出する。ＣＬＩＰモデルは視覚特徴とテキスト特徴を同じ特徴空間にマッピングできるため、該特徴をスタイル記述識別子［Ｓ＊］に対応するテキスト特徴とする。次に、２つの部分特徴をつなぎ合わせて、記述テキストＤ＊の完全なテキスト特徴を得る。

【0127】

注意編集モジュール３２０は、記述テキストＤ＊のテキスト特徴と参照ビデオＶを入力とし、参照ビデオＶと記述テキストとの交差注意機構を編集して、スタイル遷移時のビデオ生成過程における新しい注意特徴を取得し、かつ新しい注意特徴を事前トレーニングされた基本モデル、すなわち、安定拡散（ＳｔａｂｌｅＤｉｆｆｕｓｉｏｎ）モデル３３４の推論過程に導入する。

【0128】

推論過程のｔ番目の時間ステップにおいて、現在生成されているビデオフレームの特徴符号とＤ＊のテキスト特徴との交差注意特徴Ｍ_ｔ ^＊を計算し、かつ参照ビデオＶの特徴符号化とそのコンテンツ記述テキストＸのテキスト特徴との交差注意特徴Ｍ_ｔを取得する。

【数20】

は、ビデオフレーム特徴位置ｉとＤ＊のトークンテキスト特徴位置ｊとの交差注意機構の編集関数を表す。

【0129】

注意編集モジュール３２０は、ビデオを生成する過程において、生成されたビデオフレームの特徴符号化とＤ＊のテキスト特徴との交差注意特徴Ｍ_ｔ ^＊を計算するとき、参照ビデオＶの特徴符号化とＸのテキスト特徴との交差注意特徴で置換され、Ｍ_ｔ ^＊ビデオフレームの特徴符号化とＸテキスト特徴の注意特徴部分を生成し、すなわち：

【数21】

ここで、α及びβは、注意編集過程における力パラメータ（それぞれ、上記の第１因子及び第２因子に対応する）である。αは、参照ビデオコンテンツの保持度を調整するために使用され、αが大きいほど、参照ビデオの保持度が大きくなる。βは新しいスタイルの適用度を調整するために使用され、βが大きいほど新しいスタイルの適用度が大きくなる。αとβの値は互いに独立しており、どちらもユーザによりカスタマイズ可能である。

【0130】

ビデオ生成モジュール３３０は、安定拡散モデル３３４に基づいて、スタイル遷移後のビデオＶ’を生成する。ビデオ生成モジュール３３０は、エンコーダ３３２を用いて参照ビデオＶを符号化し、参照ビデオＶの特徴符号化ｆ_１を得る。エンコーダ３３２は、例えば、ＣＬＩＰ視覚エンコーダであってもよい。特徴符号ｆ_１にノイズ（例えばガウス分布に合うランダムノイズ）を加えることで特徴符号ｆ_２を得る。特徴コード化ｆ_２を、安定拡散モデル３３４の初期画像特徴、すなわち逆拡散操作の開始点とする。

【0131】

各ビデオフレームの生成過程において、編集された交差注意特徴を用いて、安定拡散モデル３３４において計算された元の交差注意特徴を置換する。同時に、履歴ビデオフレームの自己注意特徴を用いて安定拡散モデル３３４において計算された元の自己注意特徴を置換して、各ビデオフレームの関連付けを構築して、生成されたビデオがタイミング一致性においてより良く表現されるようにする。

【0132】

図３に示すビデオスタイル遷移過程は、以下の利点を有する。

【0133】

１．大量のデータを使用してモデルをトレーニングすることを必要とせず、サービスの配置と使用コストを削減できる。

【0134】

２．ユーザはスタイル化度αとβをカスタマイズできる。

【0135】

３．生成されたスタイル遷移後のビデオは、タイミングの一致性に優れている。

【0136】

本開示の一実施例によれば、画像スタイルの遷移装置も提供される。図４は、本開示の実施例による画像スタイル遷移装置４００の構成を示すブロック図である。図４に示すように、装置４００は、取得モジュール４１０と、抽出モジュール４２０と、生成モジュール４３０とを含む。

【0137】

取得モジュール４１０は、参照画像と記述テキストを取得するように構成され、前記記述テキストは、前記参照画像のコンテンツを記述するコンテンツ記述テキストと、生成すべきターゲット画像のスタイルを記述するスタイル記述テキストとを含む。

【0138】

抽出モジュール４２０は、前記記述テキストのテキスト特徴を抽出するように構成される。

【0139】

生成モジュール４３０は事前トレーニングされた拡散モデルに基づいて前記ターゲット画像を生成するように構成される。生成モジュール４３０は、注意編集ユニット４３２及び復号ユニット４３４をさらに含む。

【0140】

注意編集ユニット４３２は、前記拡散モデルの各時間ステップにおいて、第１画像特徴と前記テキスト特徴との第１交差注意特徴を計算し、第１時間ステップにおける前記第１画像特徴は予め設定された初期画像の画像特徴であり、第２以降の各時間ステップにおける前記第１画像特徴は前の時間ステップで生成された結果画像特徴であり、前記参照画像の第２画像特徴と前記テキスト特徴との第２交差注意特徴を取得し、前記第２交差注意特徴に基づいて、前記第１交差注意特徴を編集して、第３交差注意特徴を得て、前記第３交差注意特徴と前記テキスト特徴とに基づいて、時間ステップの結果画像特徴を生成するように構成される。

【0141】

復号ユニット４３４は、最後の時間ステップの結果画像特徴を復号して、前記ターゲット画像を生成するように構成される。

【0142】

本開示の実施例によれば、注意力編集に基づく非学習式画像スタイル遷移装置を提供する。該装置は、拡散モデルの画像生成過程に算出された第１交差注意力特徴を、参照画像の画像特徴とテキスト特徴の第２交差注意力特徴とを用いて編集することにより、参照画像における情報を拡散モデルの画像生成過程に継続的に導入することができ、それにより、参照画像における情報を効果的に利用して拡散モデルの画像生成をガイドし、生成されたターゲット画像が参照画像のコンテンツと一致できるとともに、指定のスタイルを持つことを保証する。

【0143】

【0144】

いくつかの実施例によれば、前記第１交差注意特徴は、前記コンテンツ記述テキストに対応する第１コンテンツサブ特徴と、前記スタイル記述テキストに対応する第１スタイルサブ特徴と、を含み、前記第２交差注意特徴は、前記コンテンツ記述テキストに対応する第２コンテンツサブ特徴と、前記スタイル記述テキストに対応する第２スタイルサブ特徴とを含み、前記第３交差注意特徴は、前記コンテンツ記述テキストに対応する第３コンテンツサブ特徴と、前記スタイル記述テキストに対応する第３スタイルサブ特徴とを含み、前記注意編集ユニットは、前記第２コンテンツサブ特徴に基づいて前記第１コンテンツサブ特徴を修正して、前記第３コンテンツサブ特徴を得るように構成されるコンテンツ編集サブユニットと、前記第１スタイルサブ特徴に基づいて、前記第３スタイルサブ特徴を確定するように構成されるスタイル編集サブユニットとを含む。

【0145】

いくつかの実施例によれば、前記コンテンツ編集サブユニットは、さらに、前記第１コンテンツサブ特徴を、前記第２コンテンツサブ特徴と第１因子との積に置き換えるように構成され、前記第１因子は、前記ターゲット画像のコンテンツと前記参照画像のコンテンツとの一致度を示す。

【0146】

いくつかの実施例によれば、前記スタイル編集サブユニットは、さらに、前記第１スタイルサブ特徴と第２因子との積を前記第３スタイルサブ特徴とするように構成され、前記第２因子は、前記スタイルの適用度を示す。

【0147】

いくつかの実施例によれば、前記抽出モジュールは、前記コンテンツ記述テキストを符号化して、前記コンテンツ記述テキストの第１テキスト特徴を取得するように構成される第１符号化ユニットと、前記参照画像の情報を前記スタイル記述テキストに導入して、拡張されたスタイル記述テキストを取得するように構成される導入ユニットと、前記拡張されたスタイル記述テキストを符号化して、前記拡張されたスタイル記述テキストの第２テキスト特徴を得るように構成される第２符号化ユニットとを含み、前記テキスト特徴は前記第１テキスト特徴と前記第２テキスト特徴を含む。

【0148】

いくつかの実施例によれば、前記拡張されたスタイル記述テキストは、前記スタイル記述テキストと、前記参照画像のスタイル記述識別子とを含み、前記第２符号化ユニットは、テキストエンコーダを利用して前記スタイル記述テキストの第１テキストサブ特徴を抽出するように構成される第１符号化サブユニットと、画像エンコーダを利用して前記参照画像の第３画像特徴を抽出するように構成される第２符号化サブユニットであって、前記画像エンコーダ及び前記テキストエンコーダはそれぞれ画像及びテキストを同じ特徴空間にマッピングするように構成されるものと、前記第３画像特徴を、前記スタイル記述識別子の第２テキストサブ特徴とするように構成される確定サブユニットとを含み、前記第２テキスト特徴は前記第１テキストサブ特徴と前記第２テキストサブ特徴を含む。

【0149】

いくつかの実施例によれば、前記参照画像は、参照ビデオにおける任意の画像フレームであり、ここで、前記第２符号化サブユニットは、さらに、前記画像エンコーダを利用して前記参照ビデオにおける１つ又は複数の画像フレームの画像特徴を、前記参照画像の第３画像特徴として抽出するように構成される。

【0150】

いくつかの実施例によれば、前記注意編集ユニットは、前記第１画像特徴の自己注意特徴を計算するように構成される第１計算サブユニットと、前記自己注意特徴及び前記第１画像特徴に基づいて、第４画像特徴を生成するように構成される生成サブユニットと、前記第４画像特徴と前記テキスト特徴との第１交差注意特徴を計算するように構成される第２計算サブユニットとを含む。

【0151】

いくつかの実施例によれば、前記参照画像は、参照ビデオにおける第１画像フレーム以外の任意の画像フレームであり、ここで、前記生成サブユニットは、さらに、前記自己注意特徴に対応する履歴自己注意特徴に基づいて、前記自己注意特徴を調整して、調整された自己注意特徴を得、ここで、前記履歴自己注意特徴は、前記拡散モデルを用いて前記参照画像の履歴画像フレームをスタイル遷移して得られた、位置が前記自己注意特徴と同じである注意特徴であり、前記調整された自己注意特徴と前記第１画像特徴とに基づいて、前記第４画像特徴を生成するように構成される。

【0152】

図４に示す装置４００の各モジュール及びユニットは、図２を参照して説明した方法２００の各ステップに対応することができることを理解されたい。したがって、方法２００に関して上述した動作、特徴、及び利点は、装置４００、及びそれに含まれるモジュールとユニットに等しく適用可能である。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。

【0153】

特定の機能は上記で特定のモジュールを参照して論じられているが、本明細書で論じた各モジュールの機能は複数のモジュールに分割されてもよく、及び／又は複数のモジュールの少なくともいくつかの機能は単一のモジュールに組み合わせてもよいことに留意されたい。

【0154】

本明細書では、ソフトウェアハードウェア要素又はプログラムモジュールの一般的なコンテキストで様々な技術を説明することができることも理解されたい。図４に関して説明した各ユニットは、ハードウェアにおいて、又はソフトウェア及び／又はファームウェアと組み合わせられたハードウェアにおいて実現され得る。例えば、これらのユニットは、１つ又は複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されたコンピュータプログラムコード／命令として実装することができる。選択的に、これらのユニットはハードウェアロジック／回路として実装することができる。例えば、いくつかの実施例では、モジュール４１０～４３０のうちの１つ又は複数は、システムオンチップ（System on Chip, SoC）で一緒に実装されてもよい。ＳｏＣは、集積回路チップ（例えば、プロセッサ（例えば、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）などを含む）、メモリ、１つ又は複数の通信インターフェース、及び／又は他の回路中の１つ又は複数のコンポーネント）を含んでもよく、オプションで受信したプログラムコードの実行、及び／又は埋め込みファームウェアを含むことで機能を実行することができる。

【0155】

本開示の実施例によれば、電子機器をさらに提供し、前記電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続するメモリとを含み、該メモリには上記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、該命令が上記少なくとも１つのプロセッサにより実行されると、上記少なくとも１つのプロセッサに、本開示の実施例による画像スタイルの遷移方法を実行させることを可能にする。

【0156】

本開示の実施例によれば、コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体も提供し、該コンピュータ命令は、コンピュータに、本開示の実施例による画像スタイルの遷移方法を実行させるために用いられる。

【0157】

本開示の実施例によれば、プロセッサにより実行されると、本開示の実施例による画像スタイルの遷移方法を実現するコンピュータプログラム命令を含むコンピュータプログラム製品も提供する。

【0158】

次に、図５を参照して、本開示のサーバ又はクライアントとして機能する電子機器５００の構成ブロック図について説明し、それは、本開示の各態様に適用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限しない。

【0159】

図５に示すように、電子機器５００は、読取り専用メモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム、又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット５０１を含む。また、ＲＡＭ５０３には、電子機器５００の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット５０１、ＲＯＭ５０２、ＲＡＭ５０３は、バス５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に接続されている。

【0160】

電子機器５００における、入力ユニット５０６、出力ユニット５０７、記憶ユニット５０８、通信ユニット５０９を含む複数のコンポーネントは、Ｉ／Ｏインターフェース５０５に接続される。入力ユニット５０６は、電子機器５００に情報を入力可能な任意のタイプのデバイスであってもよく、入力ユニット５０６は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び／又は機能制御に関するキー信号入力を生成してもよく、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク、及び／又はリモコンを含むがこれらに限定されない。出力ユニット５０７は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、動画／音声出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット５０８は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット５０９は、電子機器５００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して他の機器と情報／データを交換することを可能にし、また、モデム、ネットワークカード、赤外線通信装置、無線通信トランシーバ、及び／又はチップセット（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）装置、８０２．１１装置、Ｗｉ-Ｆｉ装置、ＷｉＭＡＸ装置、セルラ通信装置、及び／又は同様のもの）を含むことができるが、これらに限定されない。

【0161】

計算ユニット５０１は、処理及び計算能力を有する様々な汎用及び／又は専用処理コンポーネントとすることができる。計算ユニット５０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット５０１は上記内容で説明した各方法と処理、例えば方法２００を実行する。例えば、いくつかの実施例では、方法２００は、機械可読媒体、例えば記憶ユニット５０８内に有形的に具現化されるコンピュータソフトウェアプログラムとして実装することができる。いくつかの実施例において、コンピュータプログラムの一部の又は全てはＲＯＭ５０２及び／又は通信ユニット５０９を経由して電子機器５００にロード及び／又はインストールされてよい。コンピュータプログラムがＲＡＭ５０３にロードされ、計算ユニット５０１によって実行されると、上述した方法２００の１つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット５０１は、他の任意の適切な方法で（例えば、ファームウェアによって）これらの方法２００を実行するように構成される。

【0162】

本明細書で上述したシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装することができる。これらの様々な実施例は、１つ以上のコンピュータプログラムに実施され、該１つ以上のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び／又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも１つの入力装置、該少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

【0163】

本開示の方法を実施するプログラムコードは１つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行されるときに、流れ図及び／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

【0164】

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記コンテンツのいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又は上記コンテンツのいかなる適切な組み合わせを含む。

【0165】

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、及びキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

【0166】

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施例とのインタラクションを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、インターネットとブロックチェーンネットワークを含む。

【0167】

コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互いにクライアント側－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。

【0168】

理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

【0169】

本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本開示の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

【図1】

【図2】

【図3】

【図4】

【図5】

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版