特開2024-177159 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧 ▶ カーネギー−メロン　ユニバーシティの特許一覧

特開2024-177159相互アテンションを介して無料で位置特定されたテキスト・ツー・イメージ生成のためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024177159

(43)【公開日】2024-12-19

(54)【発明の名称】相互アテンションを介して無料で位置特定されたテキスト・ツー・イメージ生成のためのシステム及び方法

(51)【国際特許分類】

G06T 11/00 20060101AFI20241212BHJP

G06V 10/86 20220101ALI20241212BHJP

G06T 7/00 20170101ALI20241212BHJP

G06V 10/82 20220101ALI20241212BHJP

G06N 3/0475 20230101ALI20241212BHJP

【ＦＩ】

G06T11/00 110

G06V10/86

G06T7/00 350C

G06V10/82

G06N3/0475

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024093881

(22)【出願日】2024-06-10

(31)【優先権主張番号】18/208,075

(32)【優先日】2023-06-09

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(71)【出願人】

【識別番号】591236068

【氏名又は名称】カーネギー－メロンユニバーシティ

【氏名又は名称原語表記】ＣＡＲＮＥＧＩＥ－ＭＥＬＬＯＮＵＮＩＶＥＲＳＩＴＹ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ユートンハ

(72)【発明者】

【氏名】バハレアザリー

(72)【発明者】

【氏名】フィリペジェイ．カブリタコンデッサ

(72)【発明者】

【氏名】ジェレミージーグコルター

(72)【発明者】

【氏名】ジョアンセメド

(72)【発明者】

【氏名】マーカスペレイラ

(72)【発明者】

【氏名】ルスランサラフトディノフ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA16

5L096DA01

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】テキスト・ツー・イメージ生成システムなどの機械学習ネットワークを利用した画像生成方法及びシステムを提供する。
【解決手段】合成画像データを生成する方法は、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信し、相互アテンション層を有するモデルを利用し、第１のテキストデータと第２のテキストデータとを連結し、プロンプトを生成し、ロケーションから構築されたロケーションマスクを生成し、第２のテキストデータに関連付けられたオールワン行列を生成し、線形射影を利用してキー行列及び値行列を計算し、線形射影を利用してクエリ行列を計算し、ロケーションマスクとオールワン行列を連結してロケーション行列を生成し、クエリ行列、キー行列及びロケーション行列を利用して、相互アテンションマップを生成し、最終画像を出力する。
【選択図】なし

【特許請求の範囲】

【請求項1】

合成画像データを生成する、コンピュータ実装された方法であって、
事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信するステップであって、前記第１のテキストデータは、前記第１のオブジェクトのロケーションの記述を含む、ステップと、
前記相互アテンション層を有する事前トレーニングされたモデルを利用し、前記第１のテキストデータと前記第２のテキストデータとを連結し、前記第１のテキストデータと前記第２のテキストデータとを記述する単一のプロンプトを生成するステップと、
前記第１のテキストデータを利用して、前記第１のオブジェクトに関連付けられたピクセルを示す前記第１のオブジェクトの少なくとも前記ロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、
前記第２のテキストデータを利用して、前記第１のシーンが記述された前記第２のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、前記ブロードキャストされたオールワン行列は、前記第１のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、
前記単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、
（ｉ）先行の層の出力又は（ｉｉ）前記事前トレーニングされたモデルへの前記入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、
前記ブロードキャストされたロケーションマスクと前記ブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、
前記クエリ行列、前記キー行列及び前記ブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、
前記事前トレーニングされたモデルの前記相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力するステップと、
を含む方法。

【請求項2】

前記相互アテンションマップは、少なくともソフトマックス関数を利用して生成される、請求項１に記載の方法。

【請求項3】

前記相互アテンションマップは、前記ブロードキャストされたロケーション行列との要素ごとの乗算と、前記クエリ行列及び前記キー行列の行列乗算とを利用して生成される、請求項１に記載の方法。

【請求項4】

前記事前トレーニングされたモデルは、少なくともステイブルディフュージョンモデルを含む、請求項１に記載の方法。

【請求項5】

前記事前トレーニングされたモデルは、前記相互アテンション層のうちの１つ又は複数の層を含み、第１の層は、第２の層に送信される出力を生成するように構成されている、請求項１に記載の方法。

【請求項6】

第２の反復が、第３の反復に送信される出力を生成するように構成されている、請求項１に記載の方法。

【請求項7】

前記相互アテンション層は、前記第１のテキストデータ及び前記第２のテキストデータに関連付けられた前記最終画像を出力する最終層を含む、請求項１に記載の方法。

【請求項8】

前記事前トレーニングされたモデルは、前記相互アテンションマップに関連付けられた重みに応じて、各トークンの効果を調整するように構成されている、請求項１に記載の方法。

【請求項9】

第２のオブジェクトを記述する第３のテキストデータを受信するステップを含む、請求項１に記載の方法。

【請求項10】

前記第３のテキストデータは、前記第２のオブジェクトに関連付けられた第２のロケーションを記述する、請求項９に記載の方法。

【請求項11】

合成画像データを生成する、コンピュータ実装された方法であって、
モデルの相互アテンション層において、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信するステップであって、前記第１のテキストデータは、前記第１のオブジェクトのロケーションの記述を含む、ステップと、
前記相互アテンション層を有する前記モデルを利用し、前記第１のテキストデータと前記第２のテキストデータとを連結し、前記第１のテキストデータと前記第２のテキストデータとを記述するプロンプトを生成するステップと、
前記第１のテキストデータを利用して、前記第１のオブジェクトに関連付けられたピクセルを示す前記第１のオブジェクトの少なくとも前記ロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、
前記第２のテキストデータを利用して、前記第１のシーンが記述された前記第２のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、前記ブロードキャストされたオールワン行列は、前記第１のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、
前記プロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、
（ｉ）先行の層の出力又は（ｉｉ）事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、
前記ブロードキャストされたロケーションマスクと前記ブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、
前記クエリ行列、前記キー行列及び前記ブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、
前記モデルの最終層から、固定数の反復を実行することに応じて最終画像を出力するステップと、
を含む方法。

【請求項12】

前記固定数の反復は、前記相互アテンション層に対応する、請求項１１に記載の方法。

【請求項13】

前記モデルは、入力画像モデルを含む、請求項１１に記載の方法。

【請求項14】

前記モデルは、前記相互アテンションマップに関連付けられた重みに応じて、各トークンの効果を調整するように構成されている、請求項１１に記載の方法。

【請求項15】

前記最終画像は、前記第１のテキストデータ及び前記第２のテキストデータに関連付けられる、請求項１１に記載の方法。

【請求項16】

第２のオブジェクトを記述する第３のテキストデータと、前記第２のオブジェクトに関連付けられた第２のロケーションとを受信するステップを含む、請求項１１に記載の方法。

【請求項17】

クエリを受信するように構成された入力インタフェースと、
前記入力インタフェースと通信するプロセッサと、
を備えるシステムであって、
前記プロセッサは、
事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信し、前記第１のテキストデータは、前記第１のオブジェクトのロケーションの記述を含み、
前記相互アテンション層を有する事前トレーニングされたモデルを利用し、前記第１のテキストデータと前記第２のテキストデータとを連結し、前記第１のテキストデータと前記第２のテキストデータとを記述する単一のプロンプトを生成し、
前記第１のテキストデータを利用して、前記第１のオブジェクトに関連付けられたピクセルを示す前記第１のオブジェクトの少なくとも前記ロケーションから構築された、ブロードキャストされたロケーションマスクを生成し、
前記第２のテキストデータを利用して、前記第１のシーンが記述された前記第２のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成し、前記ブロードキャストされたオールワン行列は、前記第１のシーンに関連付けられた全てのピクセルを含むマスクであり、
前記単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を決定し、
（ｉ）先行の層の出力又は（ｉｉ）前記事前トレーニングされたモデルへの前記入力のいずれかの線形射影を利用して、クエリ行列を決定し、
前記ブロードキャストされたロケーションマスクと前記ブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成し、
前記クエリ行列、前記キー行列及び前記ブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成し、
前記事前トレーニングされたモデルの前記相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力する
ようにプログラミングされている、システム。

【請求項18】

前記プロセッサは、第２のオブジェクトを記述する第３のテキストデータと、前記第２のオブジェクトに関連付けられた第２のロケーションとを受信するようにプログラミングされている、請求項１７に記載のシステム。

【請求項19】

前記相互アテンションマップは、少なくともソフトマックス関数を利用して生成される、請求項１７に記載のシステム。

【請求項20】

前記相互アテンションマップは、前記ブロードキャストされたロケーション行列との要素ごとの乗算と、前記クエリ行列及び前記キー行列の行列乗算とを利用して生成される、請求項１７に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、テキスト・ツー・イメージ生成システムなどの機械学習ネットワークを利用した画像生成に関する。

【背景技術】

【0002】

背景技術
近年、テキスト・ツー・イメージ生成モデルは、優れた性能を示している。ステイブルディフュージョン（Stable Diffusion）及びＤａｌｌ－Ｅなどのモデルは、任意のテキストプロンプトから高品質で多様な画像の生成が可能である。しかしながら、これらのモデルが直面する大きな課題は、生成プロセスにわたるコンテンツ制御を単にテキストプロンプトのみに依存していることであり、これは、多くの用途については不十分となる場合がある。特に、生成を制御する最も直感的でユーザフレンドリな方法の１つは、画像内の特定の要素を生成する場所をモデルにガイドする位置特定情報を提供することである。残念ながら、現在の事前トレーニングされたモデルは、位置特定された生成を実行する能力において限界に直面している。これらの限界は、ロケーション情報を入力として組み込むことができないことからだけでなく、多くのマルチモーダル基盤モデルにとって既知の課題である構成性に関連付けられた固有の困難さからも生じる。

【発明の概要】

【発明が解決しようとする課題】

【0003】

この問題に対処する既存の方法は、典型的には、３つの主なカテゴリに、すなわち、完全に新規のモデルをトレーニングすること、既存のモデルをタスク固有のエンコーダなどの付加的コンポーネントを用いて微調整すること、又は、複数のサンプルを戦略的に１つに結合することに分類される。これらのアプローチは、多くの場合、大量のトレーニングデータ、リソース、及び／又は、推論時間の延長を必要とする可能性があり、時間及びリソースを大量に消費する性質上、実際の用途には実用的ではない。一方、プロンプト間画像編集においては、テキスト・ツー・イメージ生成モデルにおいて相互アテンションマップを操作することにより、修正されたテキストプロンプトに基づいて生成された画像を編集することができる。注目すべきは、この研究では、プロンプト内の特定のフレーズに関連付けられて生成されたオブジェクトの空間レイアウトを制御する上で相互アテンション層が極めて重要な役割を果たすことも示していることである。

【課題を解決するための手段】

【0004】

概要
第１の実施形態によれば、合成画像データを生成する、コンピュータ実装された方法は、事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信するステップであって、第１のテキストデータは、第１のオブジェクトのロケーションの記述を含む、ステップを開示する。本方法はまた、相互アテンション層を有する事前トレーニングされたモデルを利用し、第１のテキストデータと第２のテキストデータとを連結し、第１のテキストデータと第２のテキストデータとを記述する単一のプロンプトを生成するステップと、第１のテキストデータを利用して、第１のオブジェクトに関連付けられたピクセルを示す第１のオブジェクトの少なくともロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、第２のテキストデータを利用して、第１のシーンが記述された第２のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、ブロードキャストされたオールワン行列は、第１のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、（ｉ）先行の層の出力又は（ｉｉ）事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、ブロードキャストされたロケーションマスクとブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、クエリ行列、キー行列及びブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、事前トレーニングされたモデルの相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力するステップと、を含む。

【0005】

第２の実施形態によれば、コンピュータ実装された方法は、モデルの相互アテンション層において、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信するステップであって、第１のテキストデータは、第１のオブジェクトのロケーションの記述を含む、ステップと、相互アテンション層を有するモデルを利用し、第１のテキストデータと第２のテキストデータとを連結し、第１のテキストデータと第２のテキストデータとを記述するプロンプトを生成するステップと、第１のテキストデータを利用して、第１のオブジェクトに関連付けられたピクセルを示す第１のオブジェクトの少なくともロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、第２のテキストデータを利用して、第１のシーンが記述された第２のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、ブロードキャストされたオールワン行列は、第１のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、プロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、ｉ）先行の層の出力又は（ｉｉ）事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、ブロードキャストされたロケーションマスクとブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、クエリ行列、キー行列及びブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、モデルの最終層から、固定数の反復を実行することに応じて最終画像を出力するステップと、を開示する。

【0006】

第３の実施形態によれば、システムは、クエリを受信するように構成された入力インタフェースと、入力インタフェースと通信するプロセッサと、を備えており、当該プロセッサは、事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第１のオブジェクトを記述する第１のテキストデータと、第１のシーンを記述する第２のテキストデータとを受信し、ここで、第１のテキストデータは、第１のオブジェクトのロケーションの記述を含み、相互アテンション層を有する事前トレーニングされたモデルを利用し、第１のテキストデータと第２のテキストデータとを連結し、第１のテキストデータと第２のテキストデータとを記述する単一のプロンプトを生成し、第１のテキストデータを利用して、第１のオブジェクトに関連付けられたピクセルを示す第１のオブジェクトの少なくともロケーションから構築された、ブロードキャストされたロケーションマスクを生成し、第２のテキストデータを利用して、第１のシーンが記述された第２のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成し、ここで、ブロードキャストされたオールワン行列は、第１のシーンに関連付けられた全てのピクセルを含むマスクであり、単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を決定し、（ｉ）先行の層の出力又は（ｉｉ）事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を決定し、ブロードキャストされたロケーションマスクとブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成し、クエリ行列、キー行列及びブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成し、事前トレーニングされたモデルの相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力するようにプログラミングされている。

【図面の簡単な説明】

【0007】

【図1】カメラデバイス、プロセッサ、モバイルデバイス、及び、本明細書に記載される他の計算デバイスなどの計算デバイスの例示的なアーキテクチャを示すブロック図の実施形態を示した図である。

【図2】相互アテンション制御（ＣＡＣ）を用いたテキスト・ツー・イメージ生成を利用するプロセスの一実施形態を示した図である。

【図3】図示の実施形態を利用した位置特定されたテキスト・ツー・イメージ生成の例を示した図である。

【発明を実施するための形態】

【0008】

詳細な説明
１つの実施形態においては、本システム及び本方法は、より良好な開放語彙位置特定能力を有する事前トレーニングされたテキスト・ツー・イメージモデルを提供するために、相互アテンション制御（ＣＡＣ）を使用することを提案する。バウンディングボックス及びセマンティックセグメンテーションマップなどのキャプション及び位置特定情報が、それらの対応するテキスト記述と共に与えられると、システムは、最初に、キャプションとロケーション情報に関連付けられた全てのプロンプトとを連結することによって新たなテキスト入力を構築することができる。次いで、システムは、この新たなテキストプロンプトから相互アテンションマップを計算し、位置特定情報に従って、相互アテンションマップに位置特定制約を適用することができる。そのような方法は、タスク固有のエンコーダを設計するような任意の付加的トレーニング又はモデルアーキテクチャの修正を必要とするものではない。また、固定的な語彙セット又は言語解析器を使用するなど、いかなる言語制限も課すことはない。その上さらに、高度な可搬性を有し、数行のコードのみを用いて任意の相互アテンションに基づくテキスト・ツー・イメージ生成フレームワークにおいて単一の順方向経路に容易に統合することができ、したがって、余分な推論時間を必要としない。

【0009】

図１は、カメラデバイス、プロセッサ、モバイルデバイス、及び、本明細書において説明する他の計算デバイスなどの計算デバイスの例示的なアーキテクチャを示すブロック図の実施形態を示している。全てのユーザデバイスがアーキテクチャ１００のコンポーネントの全てを含むわけではないことが理解され、いくつかのユーザデバイスは、アーキテクチャ１００内に示されていない付加的コンポーネントを含み得る。アーキテクチャ１００は、命令を実行し、非一時的なコンピュータ可読記憶素子１０２に格納されたデータを取得するための１つ又は複数の処理要素１０４を含み得る。この処理要素１０４は、少なくとも１つのプロセッサを含み得る。任意の適当なプロセッサ又は複数のプロセッサが使用されるものとしてよい。例えば、処理要素１０４は、１つ又は複数のデジタル信号プロセッサ（ＤＳＰ）及び／又は画像信号プロセッサ（ＩＳＰ）を含み得る。いくつかの例においては、処理要素１０４は、上述したように、生成器及び／又は識別器の１つ又は複数の機能を実行するために効果的であり得る。記憶素子１０２は、アーキテクチャ１００内の異なる目的に費やされる１つ又は複数の異なるタイプの非一時的なコンピュータ可読メモリ、データストレージ、又は、コンピュータ可読記憶媒体を含み得る。例えば、記憶素子１０２は、フラッシュメモリ、ランダムアクセスメモリ、ディスクを基礎とするストレージなどを含み得る。記憶素子１０２の異なる部分は、例えば、処理要素１０４による実行のためのプログラム命令、画像若しくは他のデジタル作品の格納、及び／又は、データを他のデバイスに転送するためのリムーバブルストレージなどのために使用されるものとしてよい。

【0010】

記憶素子１０２は、処理要素１０４によって実行されるソフトウェアも格納することができる。オペレーティングシステム１２２は、ユーザデバイスを操作するためのインタフェースをユーザに提供することができ、アーキテクチャ１００上で実行されるアプリケーションと、それらの様々なハードウェアとの間の通信及びコマンドを容易にすることができる。転送アプリケーション１２４は、他のデバイス（例えば、モバイルデバイス、イメージ捕捉デバイス、及び／又は、ディスプレイデバイス）から、又は、アーキテクチャ１００に含まれるイメージセンサ１３２から、画像及び／又はビデオを受信するように構成されるものとしてよい。いくつかの例においては、転送アプリケーション１２４は、受信した画像を、本明細書に記載されるような処理を実行し得る他のデバイス（例えば、モバイルデバイス及び／又は他の計算デバイス）にアップロードするように構成されるものとしてもよい。

【0011】

いくつかのユーザデバイスにおいて実装される場合、アーキテクチャ１００は、ディスプレイコンポーネント１０６も有し得る。このディスプレイコンポーネント１０６は、１つ又は複数の発光ダイオード（ＬＥＤ）、又は、他の適当なディスプレイランプを含み得る。また、いくつかの例においては、ディスプレイコンポーネント１０６は、例えば、ブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）スクリーン、ガスプラズマに基づくフラットパネルディスプレイ、ＬＣＤプロジェクタ、ラスタプロジェクタ、赤外線プロジェクタ、又は、他のタイプのディスプレイデバイスなどの１つ又は複数のデバイスを含み得る。

【0012】

アーキテクチャ１００は、ユーザからの入力を受信するように動作可能な１つ又は複数の入力デバイス１０８も含み得る。この入力デバイス１０８は、例えば、プッシュボタン、タッチパッド、タッチスクリーン、ホイール、ジョイスティック、キーボード、マウス、トラックボール、キーパッド、ライトガン、ゲームコントローラ、又は、ユーザがアーキテクチャ１００に入力を提供し得る任意の他のそのようなデバイス若しくは要素を含み得る。これらの入力デバイス１０８は、アーキテクチャ１００に組み込まれるものとしてよく、又は、有線若しくは無線インタフェースを介してアーキテクチャ１００と動作可能に結合されるものとしてよい。いくつかの例においては、アーキテクチャ１００は、例えば音声コマンドなどの音声を捕捉するためのマイクロフォン１７０を含み得る。音声認識エンジン１８０は、マイクロフォン１７０によって捕捉された音の音響信号を解釈することができる。いくつかの例においては、音声認識エンジン１８０は、マイクロフォン１７０によって受信される「ウェイクワード」についてリスニングすることができる。ウェイクワードを受信すると、音声認識エンジン１８０は、分析のために音声認識サーバに音声をストリーミングすることができる。様々な例においては、音声認識エンジン１８０は、通信インタフェース１１２を介して外部の計算デバイスに音声をストリーミングすることができる。

【0013】

ディプレイコンポーネント１０６が接触感知ディスプレイを含む場合、入力デバイス１０８は、ユーザが（例えば指先又は電子ペンを用いた）接触入力を使用してディプレイコンポーネント１０６により表示される画像と対話することを可能にするために、ディプレイコンポーネント１０６に関連して動作するタッチセンサを含み得る。アーキテクチャ１００は、有線交流（ＡＣ）変換器、従来のプラグインアプローチを介して、又は、容量性若しくは誘導性充電などの他のアプローチを介して再充電されるように動作可能な再充電可能バッテリなどの電源１１４も含み得る。

【0014】

通信インタフェース１１２は、１つ又は複数の他のユーザデバイスと通信するように動作可能な１つ又は複数の有線又は無線コンポーネントを含み得る。例えば、通信インタフェース１１２は、ＩＥＥＥ８０２．１１又は他の適当な無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコルなどの任意の適当な無線プロトコルに従って、ネットワーク上で通信するように構成された無線通信モジュール１３６を含み得る。短距離インタフェース１３４は、例えば、近距離通信（ＮＦＣ）、ブルートゥース（登録商標）、ブルートゥースＬＥ（登録商標）などの１つ又は複数の短距離無線プロトコルを使用して通信するように構成されるものとしてよい。モバイルインタフェース１４０は、セルラプロトコル又は他のモバイルプロトコルを利用して通信するように構成されるものとしてよい。全地球測位システム（ＧＰＳ）インタフェース１３８は、アーキテクチャ１００の位置を識別するために、１つ又は複数の地球周回衛星又は他の適当な位置特定システムと通信するものとしてよい。有線通信モジュール１４２は、ＵＳＢプロトコル又は任意の他の適当なプロトコルに従って通信するように構成されるものとしてよい。様々な例においては、モバイルインタフェース１４０は、計算デバイスを、本明細書に記載される技術の様々な態様を実行するために使用され得る１つ又は複数の他の計算デバイスと通信可能にさせることができる。

【0015】

アーキテクチャ１００は、１つ又は複数のセンサ１３０、例えば、１つ又は複数の位置センサ、イメージセンサ、及び／又は、運動センサも含み得るものである。１つのイメージセンサ１３２が示される場合もある。アーキテクチャ１００のいくつかの例は、複数のイメージセンサ１３２を含み得る。例えば、パノラマカメラシステムは、複数のイメージセンサ１３２を含み得るものであり、その結果として、複数の画像及び／又はビデオフレームが生じ、これらは、シームレスなパノラマ出力を形成するために切り替えられ、ブレンドされるものとしてよい。イメージセンサ１３２の一例は、カメラ又は他のイメージセンサであり得る。様々な例においては、イメージセンサ１３２は、色情報、ＩＲ画像データ、画像幾何形状情報、及び／又は、周辺光情報を捕捉するように構成されるものとしてよい。

【0016】

運動センサは、例えばジャイロセンサ及び加速度計を含む、アーキテクチャの運動を感知する任意のセンサを含み得る。運動センサは、いくつかの例においては、カメラの、例えばピッチ角及び／又はロール角などの姿勢を特定するために使用されるものとしてよい。ジャイロセンサは、回転運動及び／又はアーキテクチャの姿勢の変化（例えば、運動の大きさ及び／又は方向、又は、姿勢の変化）を示す信号を生成するように構成されるものとしてよい。例えば、リングレーザジャイロ、光ファイバジャイロ、流体ジャイロ、振動ジャイロなどを含む任意の適当なジャイロセンサが使用されるものとしてよい。いくつかの例においては、加速度計は、加速度（例えば、加速度の大きさ及び／又は方向）を示す信号を生成することができる。例えばピエゾ抵抗型加速度計、容量型加速度計などを含む任意の適当な加速度計が使用されるものとしてよい。いくつかの例においては、ＧＰＳインタフェース１３８が運動センサとして利用されるものとしてよい。例えば、ＧＰＳインタフェース１３８によって特定されるようなアーキテクチャ１００の位置における変化は、ＧＰＳインタフェース１３８の運動を示すことができる。上述したように、いくつかの例においては、イメージセンサ１３２は、赤外光を検出するために効果的な場合がある。少なくともいくつかの例においては、アーキテクチャ１００は、周囲環境を照明する赤外線光源を含み得る。

【0017】

図２は、相互アテンション制御（ＣＡＣ）を用いたテキスト・ツー・イメージ生成を利用するプロセスの説明を開示している。このシステムは、既製の大規模な事前トレーニングされた認識モデルを使用して、位置特定されたテキスト・ツー・イメージ生成タスクのための評価メトリックの標準化された一組を利用することができる。システムは、ＣＡＣを様々な最新のベースラインのテキスト・ツー・イメージ生成モデルに適用し、バウンディングボックス及びセマンティックセグメンテーションマップを含む異なる形態の位置特定情報を用いて実験することができる。このシステム及び方法は、ＣＡＣが、新たな位置特定された生成能力を有する、事前トレーニングされた標準のテキスト・ツー・イメージモデルを提供し、その上さらに、位置特定された生成のために特別にトレーニングされたモデルを改善することを実証することができる。付加的に、本実施形態は、テキストプロンプト内のコンポーネントを空間的に分離する簡素なヒューリスティクスにより、本方法がテキスト・ツー・イメージ生成モデルの合成能力を大幅に改善できることを示す場合がある。

【0018】

この研究の目標は、事前トレーニングされたテキスト・ツー・イメージ生成モデルが与えられた場合に、位置特定されたテキスト・ツー・イメージ生成を実行することである。ユーザによって提供される位置特定情報は、コンテンツと、画像空間におけるこれらのコンテンツに関連付けられ制約された空間ロケーションとを記述するテキストフレーズから成るはずのものである。共通のロケーション情報には、バウンディングボックスやセマンティックセグメンテーションマップが含まれる。その上さらに、本システムは、（１）付加的なトレーニング又は微調整を行わず、（２）モデルアーキテクチャを修正せず、（３）余分な推論時間をかけず、（４）元のモデルから入力テキスト空間をさらに制限することなく、このタスクを実行することを目指すことができる。提供された事前トレーニングされたモデルは、位置特定情報を用いてトレーニングすること、又は、テキスト－イメージ対を用いて単独でトレーニングすることのいずれかが可能である。

【0019】

形式的には、事前トレーニングされたテキスト・ツー・イメージ生成モデルρ_θ、長さη_０のテキストプロンプトｙ_０∈Ｙ^ｎ０、及び、位置特定情報

【数1】

のセットが与えられる場合、１つの目標は、ｙ_０で提供される全体的なテキスト記述と、ｇで提供される位置特定された記述とが視覚的に一致する画像

【数2】

を生成することであるものとしてよい。ここで、γは、テキストプロンプトの語彙空間を表し、Ｃ，Ｈ，Ｗは、出力画像の次元性であり、各ｉ∈｛１，．．．，ｍ｝について，ｇ_ｉ＝（ｙ_ｉ，ｂ_ｉ）∈Ｙ^ｎｉ＊［０，１］^Ｈ＊Ｗであり、ここで、ｙ_ｉは、ｉ番目の位置特定された領域のテキスト記述であり、ｂ_ｉは、当該記述に対応する空間制約マスクである。事前トレーニングされたモデルｐ_θは、ｐ_θ（ｘ｜ｙ_０）又はｐ_θ（ｘ｜ｙ_０，ｇ）のいずれかからサンプリングすることができる。このシステムは、事前トレーニングされたモデルが、テキスト画像の調整のために相互アテンション機構を使用することを想定することができる。

【0020】

最新のテキスト・ツー・イメージ生成モデルは、相互アテンション機構を用いて、その成功を達成することができる。１つの実施形態においては、本システムは、バックボーンモデルとしてステイブルディフュージョンを選択することができる。しかしながら、代替的な実施形態においては、ＩｍａｇｅｎやＧＡＮ、例えばＧｉｇａＧＡＮなどの他の相互アテンションに基づく拡散モデルにも適用できるシステム及び方法を考慮に入れることができる。

【0021】

ｘ∈ｐ_θ（ｘ＼ｙ_０）、ただし、ｘ∈Ｘ，ｙ_０∈Ｙ^ｎからサンプリングするタスクについては、ｐ_θ内の相互アテンション層ｌは、符号化されたテキストプロンプト

【数3】

と、ネットワーク内の先行の層及び先行の拡散タイムステップによって処理された中間サンプル

【数4】

とを入力として受信する。例えば、ｎ_０，ｄ_ｅは、テキスト長さ及びテキスト埋め込み次元であり、Ｃ^（ｌ），Ｈ^（ｌ），Ｗ^（ｌ）は、層ｌの知覚次元を表し、これらは、Ｕ－Ｎｅｔ構造のためＣ’，Ｈ’，Ｗ’とは異なる可能性がある。次いで、本システムは、ｚ^（＜１）をクエリ行列

【数5】

に射影することができ、ｈは、マルチヘッドアテンションのためのヘッド数であり、ｄは、クエリ２１１及びキー２０７の特徴射影次元であり、ｄ_ｖは、値の特徴射影次元である。次いで、層ｌにおける相互アテンションマップは、以下のように、

【数6】

計算される。

【0022】

次式、

【数7】

は、ｌの出力であり、ｌ_０は、別の線形射影である。

【0023】

本システムは、

【数8】

における各エントリ

【数9】

を、画像においてｊ番目の画素ブロックを生成するときに、ｒ番目のヘッドがｙ_０におけるｋ番目のトークンに払う注意の程度として解釈することができる。層出力は、値特徴の加重平均であり、ここで、重みは、全ヘッドからのアテンションマップによって割り当てられる。

【0024】

一例においては、プロンプト２０１は、テキスト記述（「犬」）を含み得るものであり、行列又はマップに適用される第１のプロンプトに関連付けられたロケーション２０２のインジケータを伴う。第２のプロンプト２０３は、記述「猫」を含み得るものであり、オブジェクトに付属するものとして第１のプロンプトに関連付けられたロケーション２０４を示すことができる。別のプロンプト２０５でシーンを示すことができる。

【0025】

各位置特定情報対ｇ_ｉ＝（ｙ_ｉ，ｂ_ｉ）は、モデルが、ｂ_ｉ＞０である画素ロケーションにおいて、テキストプロンプトｙ_ｉによって記述し得るコンテンツを生成すべきであることを示している。したがって、先行の解釈及び発見に基づいて、アテンションマップにおける（ｒ，ｊ，ｋ）番目の要素は、空間制約マスクｂ_ｉにおけるｊ番目のエントリｂ_{ｉ，（ｊ）}が正である場合にのみ、ｙ_ｉにおけるｋ番目のトークンからアテンションを受けるべきである。

【0026】

その結果、本システムは、最初に、元のロケーションマスクｂ_ｉを補間して、層ｌの知覚フィールドの次元と一致する

【数10】

を得ることができる。次式、

【数11】

が

【数12】

から構築された、平滑化されブロードキャストされたロケーションマスク２０９を表し、次式、

【数13】

がｙ_ｉから計算されたキー行列２０７を表すものとすれば、これは、式１を以下のように

【数14】

拡張することができる。

【0027】

次いで、本システムは、一例においては、ｍ＋１個のアテンションマップ

【数15】

を組み合わせることができる。一例においては、アテンションマップ２１５ａ，２１５ｂ，２１５ｃが生成されるものとしてよい。１つの実施形態においては、本システムは、平均マップ

【数16】

を計算することができる。しかしながら、このアテンションマップに対応する「平均」値行列２１７が何であるかは不明である。他の試みは、行列

【数17】

を別個に計算することであり、ここで

【数18】

であり、次いで、平均出力行列

【数19】

又は

【数20】

を層の出力として計算することである。これは、それらの標準的なテキスト・ツー・イメージ生成タスクには適しているが、当方の設定における小さいオブジェクトに関連付けられた位置特定情報によってレンダリングされた非常にまばらなアテンションマップは、予期しない挙動につながる可能性がある。

【0028】

本システムは、ｉ＝１，．．．，ｍの全てについて、ｙ_ｉが全てのｙ_０の部分文字列であると想定することができる。例えば、ユーザが「ダイニングテーブルにカップが置かれたダイニングルームの写真」を生成し、「カップ」及び「ダイニングテーブル」のためにバウンディングボックスを提供することを望んだ場合、本システムは、ロケーション情報を使用して、「カップ」及び「ダイニングテーブル」についてのトークンに関連付けられたキャプションのためのアテンションマップの部分（すなわち、

【数21】

）を直接マスクすることができる。形式的には、ｙ_ｉがｙ_０における（ｊ_ｉ＋ｎ_ｉ）番目のトークンに対するｊ_ｉ番目のトークンに対応すると想定すると、本システムは、以下のように、

【数22】

直接計算することができる。

【0029】

ここで、

【数23】

は、マスクであり、ここで、

【数24】

は、３次元のｊ_ｉ番目から（ｊ_ｉ＋ｎ_ｉ）番目のサブ行列にのみブロードキャストされ、それに対して、残余の要素は、全てゼロに維持される。次いで、本システムは、

【数25】

を計算することができる。

【0030】

しかしながら、この想定は常に成り立つわけではない。例えば、ユーザは、シーンの全ての詳細を記述することなく「ダイニングルームの写真」を生成することを要求することができるが、それらはまだキャプションにおいてそれらの記述なしでバウンディングボックスを用いて「カップ」及び「ダイニングテーブル」のロケーションを指定することができる。したがって、この想定なしで本方法を全ての入力に適用するために、本システムは、以下のように、

【数26】

全ての入力プロンプトの連結により、新たなテキストプロンプトを構築することができる。

【0031】

ここで、

【数27】

は、連結を表す。１つの実施形態においては、本システム及び本方法は、全ての特殊トークンをエンコーディングから保持し、連結後に結果として生じたプロンプトを埋め込むことができる。テキストプロンプトと同様に、本システムは、全てのマスクを連結して、以下を

【数28】

作成することもできる。

【0032】

本システム及び本方法は、実際には、キャプションｙ_０及び特殊トークンのためのロケーションマスクとして、オールワン行列２１３を使用することができる。プロンプト・ツー・プロンプト編集と同様に、本システムは、アテンションマップに重み

【数29】

の別個のセットを適用して、各トークンが結果として生じる生成に与える影響を調整することもできる。

【数30】

を用いることにより、本システムは、集約されたアテンションマップを、次式、

【数31】

として計算することができる。

【0033】

最後に、層２１９の出力は、ｚ^（ｌ）＝ｌ_０（Ｍ^（ｌ）Ｖ^（ｌ））として計算することができ、そのフレームワークは、図２に描写されている。本システム及び本方法は、サンプリング時に事前トレーニングされたモデルの順方向経路を変更するだけでよいため、さらなるトレーニング又はモデルアーキテクチャの修正のいずれも必要とせず、さらに固定された語彙セット又は言語パーサなど、他のいかなる言語制限又は事前設定も要求しない。これはまた、元の最適化された変換フレームワークにもうまくパッケージ化されており、したがって、付加的な推論時間を必要としない。最小限の想定のため、本方法は、テキストガイダンスのために相互アテンションを使用する全てのテキスト・ツー・イメージ生成モデルのためのオープン語彙プラグインであり、追加費用は不要である。

【0034】

相互アテンションに対して付加的に、自己アテンション層もコヒーレント空間レイアウトを生成するための多くのテキスト・ツー・イメージ生成モデルに不可欠である。例えば、相互アテンション制御に対して付加的に、拡散プロセスの小さい部分に自己アテンション制御を適用することで、さらに一貫性のある幾何形状及びカラーパレットを提供することができる。ただし、自己アテンション制御では、編集において軽微ではあるが、本願の設定においては、異なる位置特定プロンプトについてのロケーション情報が互いに重なり、その結果として重なり合ったピクセルで信号が衝突し、マスクが曖昧になる可能性もあるため複雑化が生じる。

【0035】

自己アテンション制御を組み込むための１つのアプローチは、全ての領域を共に結合する前に、異なる位置特定プロンプトに従って、各領域を別個に最適化することである。自己アテンション制御及び相互アテンション制御の両方を全ての拡散ステップに適用する場合には、これに対する解は、大まかなマルチディフュージョンに低減されるものであり得る。その結果として、本システムは、所望の効果を得るために、最初に拡散プロセスの小さい部分にマルチディフュージョンを適用し、次いで、拡散タイムステップの残余に対しては、上述したように、相互アテンション制御ディフュージョンを実行することが可能である。本システムにおいては、学習された自己アテンション制御を提供するために、位置特定情報に基づいて微調整されるＧＬＩＧＥＮのようなモデルもまた使用することができる。

【0036】

１つの例示的な実施形態及び方法においては、本システムは、より良好な位置特定能力を提供するために、マルチディフュージョン及びＧＬＩＧＥＮのためのプラグインとみなされるものとしてよく、そのような実行に対しては、２つのアルゴリズムに対する追加コストの加算なしで行うことが可能である。

【0037】

図３は、位置特定されたテキスト・ツー・イメージ生成のための既存の方法に対するプラグインとしての相互アテンション制御の例を示している。相互アテンション制御は、異なるベースモデル（例えば、ステイブルディフュージョン及びＧＬＩＧＥＮ）を用いて、多様なタイプの位置特定（バウンディングボックス、セマンティックセグメンテーションマップ、及び、位置特定されたスタイル）を改善することができる。図３に示されているように、バウンディングボックスが入力として利用されるものとしてよい。バウンディングボックスは、「乗馬する宇宙飛行士」や「桃色の旗」のようにオブジェクトを反映したものであってよい。キャプションは、１つの実施形態においては「火星の風景」を示すことができる。位置特定されたプロンプトは、「乗馬する宇宙飛行士」及び「桃色の旗」を示すことができ、入力に対応している。バウンディングボックスは、シーン及びシーンに関連付けられたオブジェクトを含み得る。ＣＡＣの例に示されているように、「乗馬する宇宙飛行士」の配置は、ベースラインモデルよりも正確である。付加的に、旗は、適当な形状及びロケーションのものであってよい。

【0038】

他の例においては、入力は、セマンティックセグメンテーションマップを利用することができる。セマンティックセグメンテーションマップは、画像に対応してオブジェクト又は拡張されたオブジェクトを写像することができる。一例においては、セマンティックセグメンテーションマップは、片目が青色で片目が緑色の猫に対応することができる。キャプションは、「かわいい猫」であるものとしてよい。位置特定されたプロンプトは、「青色の目」及び「緑色の目」であるものとしてよい。相互アテンション制御モデルは、他のバージョンよりも正確で高品質な画像を出力することができる。もちろん、他の例も図３には示されている。

【0039】

本明細書においては、本開示の実施形態が説明されている。しかしながら、開示された実施形態は、単なる例であり、他の実施形態においては、様々な代替的形態を取ることが可能であることを理解されたい。図面は、必ずしも縮尺通りではなく、いくつかの特徴は、特定のコンポーネントの詳細を示すために、誇張されて又は最小化されている可能性もある。したがって、本明細書に開示される特定の構造的及び機能的詳細は、限定的に解釈されるべきではなく、むしろこれらの実施形態の様々な利用に対する当業者への教示のための代表的な基礎として解釈されるべきであろう。当業者には理解されるように、図面のいずれか１つに関連して描写され説明される様々な特徴は、１つ又は複数の他の図面に描写される特徴と組み合わせて、明示的に描写又は説明されていない実施形態を生成することができる。描写された特徴の組合せにより、典型的な用途のための代表的な実施形態が提供される。しかしながら、本開示の教示と一致する特徴の様々な組合せ及び修正が、特定の用途又は実装のためには望ましい可能性もある。

【0040】

本明細書において使用される「Ａ」、「ａｎ」及び「ｔｈｅ」は、文脈上明らかにそうでない場合を除き、単数及び複数両方の参照対象を指す。例として、種々の機能を実行するようにプログラミングされた「プロセッサ」とは、各機能を実行するようにプログラミングされた１つのプロセッサを指し、又は、様々な機能の各々を実行するように集合的にプログラミングされた複数のプロセッサを指す。

【0041】

例示的な実施形態を上述してきたが、これらの実施形態は、特許請求の範囲に包含される全ての可能な形態の説明を意図したものではない。本明細書において使用されている用語は、限定ではなく説明の用語であり、本開示の精神及び範囲から逸脱することなく、様々な変更を行うことが可能であることが理解されよう。前述したように、明示的には説明又は描写されていない可能性のある本発明のさらなる実施形態を形成するために様々な実施形態の特徴を組み合わせることができる。様々な実施形態は、１つ又は複数の所望の特徴に関して、他の実施形態又は従来技術の実装を凌ぐ利点を提供するものとして又はより好ましいものとして説明することができたが、当業者には、特定の用途及び実装に依存して、全体として望ましいシステム属性を達成するためには１つ又は複数の機能又は特徴は妥協があり得ることが認識される。これらの属性には、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、包装、サイズ、保守性、重量、製造可能性、組立て容易性などが含まれ得るが、これらに限定されるものではない。そのようなものであっても、任意の実施形態が、１つ又は複数の特徴に関して他の実施形態又は従来技術の実装よりも望ましくないものとして記載されるまでは、これらの実施形態は、本開示の範囲外にあるわけではなく、特定の用途にとっては望ましい可能性もある。

【図1】

【図2】

【図3】

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版