(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024177159
(43)【公開日】2024-12-19
(54)【発明の名称】相互アテンションを介して無料で位置特定されたテキスト・ツー・イメージ生成のためのシステム及び方法
(51)【国際特許分類】
G06T 11/00 20060101AFI20241212BHJP
G06V 10/86 20220101ALI20241212BHJP
G06T 7/00 20170101ALI20241212BHJP
G06V 10/82 20220101ALI20241212BHJP
G06N 3/0475 20230101ALI20241212BHJP
【FI】
G06T11/00 110
G06V10/86
G06T7/00 350C
G06V10/82
G06N3/0475
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024093881
(22)【出願日】2024-06-10
(31)【優先権主張番号】18/208,075
(32)【優先日】2023-06-09
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(71)【出願人】
【識別番号】591236068
【氏名又は名称】カーネギー-メロン ユニバーシティ
【氏名又は名称原語表記】CARNEGIE-MELLON UNIVERSITY
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ユートン ハ
(72)【発明者】
【氏名】バハレ アザリー
(72)【発明者】
【氏名】フィリペ ジェイ. カブリタ コンデッサ
(72)【発明者】
【氏名】ジェレミー ジーグ コルター
(72)【発明者】
【氏名】ジョアン セメド
(72)【発明者】
【氏名】マーカス ペレイラ
(72)【発明者】
【氏名】ルスラン サラフトディノフ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA16
5L096DA01
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】テキスト・ツー・イメージ生成システムなどの機械学習ネットワークを利用した画像生成方法及びシステムを提供する。
【解決手段】合成画像データを生成する方法は、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信し、相互アテンション層を有するモデルを利用し、第1のテキストデータと第2のテキストデータとを連結し、プロンプトを生成し、ロケーションから構築されたロケーションマスクを生成し、第2のテキストデータに関連付けられたオールワン行列を生成し、線形射影を利用してキー行列及び値行列を計算し、線形射影を利用してクエリ行列を計算し、ロケーションマスクとオールワン行列を連結してロケーション行列を生成し、クエリ行列、キー行列及びロケーション行列を利用して、相互アテンションマップを生成し、最終画像を出力する。
【選択図】なし
【特許請求の範囲】
【請求項1】
合成画像データを生成する、コンピュータ実装された方法であって、
事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信するステップであって、前記第1のテキストデータは、前記第1のオブジェクトのロケーションの記述を含む、ステップと、
前記相互アテンション層を有する事前トレーニングされたモデルを利用し、前記第1のテキストデータと前記第2のテキストデータとを連結し、前記第1のテキストデータと前記第2のテキストデータとを記述する単一のプロンプトを生成するステップと、
前記第1のテキストデータを利用して、前記第1のオブジェクトに関連付けられたピクセルを示す前記第1のオブジェクトの少なくとも前記ロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、
前記第2のテキストデータを利用して、前記第1のシーンが記述された前記第2のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、前記ブロードキャストされたオールワン行列は、前記第1のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、
前記単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、
(i)先行の層の出力又は(ii)前記事前トレーニングされたモデルへの前記入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、
前記ブロードキャストされたロケーションマスクと前記ブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、
前記クエリ行列、前記キー行列及び前記ブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、
前記事前トレーニングされたモデルの前記相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力するステップと、
を含む方法。
【請求項2】
前記相互アテンションマップは、少なくともソフトマックス関数を利用して生成される、請求項1に記載の方法。
【請求項3】
前記相互アテンションマップは、前記ブロードキャストされたロケーション行列との要素ごとの乗算と、前記クエリ行列及び前記キー行列の行列乗算とを利用して生成される、請求項1に記載の方法。
【請求項4】
前記事前トレーニングされたモデルは、少なくともステイブルディフュージョンモデルを含む、請求項1に記載の方法。
【請求項5】
前記事前トレーニングされたモデルは、前記相互アテンション層のうちの1つ又は複数の層を含み、第1の層は、第2の層に送信される出力を生成するように構成されている、請求項1に記載の方法。
【請求項6】
第2の反復が、第3の反復に送信される出力を生成するように構成されている、請求項1に記載の方法。
【請求項7】
前記相互アテンション層は、前記第1のテキストデータ及び前記第2のテキストデータに関連付けられた前記最終画像を出力する最終層を含む、請求項1に記載の方法。
【請求項8】
前記事前トレーニングされたモデルは、前記相互アテンションマップに関連付けられた重みに応じて、各トークンの効果を調整するように構成されている、請求項1に記載の方法。
【請求項9】
第2のオブジェクトを記述する第3のテキストデータを受信するステップを含む、請求項1に記載の方法。
【請求項10】
前記第3のテキストデータは、前記第2のオブジェクトに関連付けられた第2のロケーションを記述する、請求項9に記載の方法。
【請求項11】
合成画像データを生成する、コンピュータ実装された方法であって、
モデルの相互アテンション層において、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信するステップであって、前記第1のテキストデータは、前記第1のオブジェクトのロケーションの記述を含む、ステップと、
前記相互アテンション層を有する前記モデルを利用し、前記第1のテキストデータと前記第2のテキストデータとを連結し、前記第1のテキストデータと前記第2のテキストデータとを記述するプロンプトを生成するステップと、
前記第1のテキストデータを利用して、前記第1のオブジェクトに関連付けられたピクセルを示す前記第1のオブジェクトの少なくとも前記ロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、
前記第2のテキストデータを利用して、前記第1のシーンが記述された前記第2のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、前記ブロードキャストされたオールワン行列は、前記第1のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、
前記プロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、
(i)先行の層の出力又は(ii)事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、
前記ブロードキャストされたロケーションマスクと前記ブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、
前記クエリ行列、前記キー行列及び前記ブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、
前記モデルの最終層から、固定数の反復を実行することに応じて最終画像を出力するステップと、
を含む方法。
【請求項12】
前記固定数の反復は、前記相互アテンション層に対応する、請求項11に記載の方法。
【請求項13】
前記モデルは、入力画像モデルを含む、請求項11に記載の方法。
【請求項14】
前記モデルは、前記相互アテンションマップに関連付けられた重みに応じて、各トークンの効果を調整するように構成されている、請求項11に記載の方法。
【請求項15】
前記最終画像は、前記第1のテキストデータ及び前記第2のテキストデータに関連付けられる、請求項11に記載の方法。
【請求項16】
第2のオブジェクトを記述する第3のテキストデータと、前記第2のオブジェクトに関連付けられた第2のロケーションとを受信するステップを含む、請求項11に記載の方法。
【請求項17】
クエリを受信するように構成された入力インタフェースと、
前記入力インタフェースと通信するプロセッサと、
を備えるシステムであって、
前記プロセッサは、
事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信し、前記第1のテキストデータは、前記第1のオブジェクトのロケーションの記述を含み、
前記相互アテンション層を有する事前トレーニングされたモデルを利用し、前記第1のテキストデータと前記第2のテキストデータとを連結し、前記第1のテキストデータと前記第2のテキストデータとを記述する単一のプロンプトを生成し、
前記第1のテキストデータを利用して、前記第1のオブジェクトに関連付けられたピクセルを示す前記第1のオブジェクトの少なくとも前記ロケーションから構築された、ブロードキャストされたロケーションマスクを生成し、
前記第2のテキストデータを利用して、前記第1のシーンが記述された前記第2のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成し、前記ブロードキャストされたオールワン行列は、前記第1のシーンに関連付けられた全てのピクセルを含むマスクであり、
前記単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を決定し、
(i)先行の層の出力又は(ii)前記事前トレーニングされたモデルへの前記入力のいずれかの線形射影を利用して、クエリ行列を決定し、
前記ブロードキャストされたロケーションマスクと前記ブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成し、
前記クエリ行列、前記キー行列及び前記ブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成し、
前記事前トレーニングされたモデルの前記相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力する
ようにプログラミングされている、システム。
【請求項18】
前記プロセッサは、第2のオブジェクトを記述する第3のテキストデータと、前記第2のオブジェクトに関連付けられた第2のロケーションとを受信するようにプログラミングされている、請求項17に記載のシステム。
【請求項19】
前記相互アテンションマップは、少なくともソフトマックス関数を利用して生成される、請求項17に記載のシステム。
【請求項20】
前記相互アテンションマップは、前記ブロードキャストされたロケーション行列との要素ごとの乗算と、前記クエリ行列及び前記キー行列の行列乗算とを利用して生成される、請求項17に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキスト・ツー・イメージ生成システムなどの機械学習ネットワークを利用した画像生成に関する。
【背景技術】
【0002】
背景技術
近年、テキスト・ツー・イメージ生成モデルは、優れた性能を示している。ステイブルディフュージョン(Stable Diffusion)及びDall-Eなどのモデルは、任意のテキストプロンプトから高品質で多様な画像の生成が可能である。しかしながら、これらのモデルが直面する大きな課題は、生成プロセスにわたるコンテンツ制御を単にテキストプロンプトのみに依存していることであり、これは、多くの用途については不十分となる場合がある。特に、生成を制御する最も直感的でユーザフレンドリな方法の1つは、画像内の特定の要素を生成する場所をモデルにガイドする位置特定情報を提供することである。残念ながら、現在の事前トレーニングされたモデルは、位置特定された生成を実行する能力において限界に直面している。これらの限界は、ロケーション情報を入力として組み込むことができないことからだけでなく、多くのマルチモーダル基盤モデルにとって既知の課題である構成性に関連付けられた固有の困難さからも生じる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
この問題に対処する既存の方法は、典型的には、3つの主なカテゴリに、すなわち、完全に新規のモデルをトレーニングすること、既存のモデルをタスク固有のエンコーダなどの付加的コンポーネントを用いて微調整すること、又は、複数のサンプルを戦略的に1つに結合することに分類される。これらのアプローチは、多くの場合、大量のトレーニングデータ、リソース、及び/又は、推論時間の延長を必要とする可能性があり、時間及びリソースを大量に消費する性質上、実際の用途には実用的ではない。一方、プロンプト間画像編集においては、テキスト・ツー・イメージ生成モデルにおいて相互アテンションマップを操作することにより、修正されたテキストプロンプトに基づいて生成された画像を編集することができる。注目すべきは、この研究では、プロンプト内の特定のフレーズに関連付けられて生成されたオブジェクトの空間レイアウトを制御する上で相互アテンション層が極めて重要な役割を果たすことも示していることである。
【課題を解決するための手段】
【0004】
概要
第1の実施形態によれば、合成画像データを生成する、コンピュータ実装された方法は、事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信するステップであって、第1のテキストデータは、第1のオブジェクトのロケーションの記述を含む、ステップを開示する。本方法はまた、相互アテンション層を有する事前トレーニングされたモデルを利用し、第1のテキストデータと第2のテキストデータとを連結し、第1のテキストデータと第2のテキストデータとを記述する単一のプロンプトを生成するステップと、第1のテキストデータを利用して、第1のオブジェクトに関連付けられたピクセルを示す第1のオブジェクトの少なくともロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、第2のテキストデータを利用して、第1のシーンが記述された第2のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、ブロードキャストされたオールワン行列は、第1のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、(i)先行の層の出力又は(ii)事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、ブロードキャストされたロケーションマスクとブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、クエリ行列、キー行列及びブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、事前トレーニングされたモデルの相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力するステップと、を含む。
【0005】
第2の実施形態によれば、コンピュータ実装された方法は、モデルの相互アテンション層において、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信するステップであって、第1のテキストデータは、第1のオブジェクトのロケーションの記述を含む、ステップと、相互アテンション層を有するモデルを利用し、第1のテキストデータと第2のテキストデータとを連結し、第1のテキストデータと第2のテキストデータとを記述するプロンプトを生成するステップと、第1のテキストデータを利用して、第1のオブジェクトに関連付けられたピクセルを示す第1のオブジェクトの少なくともロケーションから構築された、ブロードキャストされたロケーションマスクを生成するステップと、第2のテキストデータを利用して、第1のシーンが記述された第2のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成するステップであって、ブロードキャストされたオールワン行列は、第1のシーンに関連付けられた全てのピクセルを含むマスクである、ステップと、プロンプトの別個の線形射影を利用して、キー行列及び値行列を計算するステップと、i)先行の層の出力又は(ii)事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を計算するステップと、ブロードキャストされたロケーションマスクとブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成するステップと、クエリ行列、キー行列及びブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成するステップと、モデルの最終層から、固定数の反復を実行することに応じて最終画像を出力するステップと、を開示する。
【0006】
第3の実施形態によれば、システムは、クエリを受信するように構成された入力インタフェースと、入力インタフェースと通信するプロセッサと、を備えており、当該プロセッサは、事前トレーニングされたモデルへの入力を含む事前トレーニングされたモデルの相互アテンション層において、第1のオブジェクトを記述する第1のテキストデータと、第1のシーンを記述する第2のテキストデータとを受信し、ここで、第1のテキストデータは、第1のオブジェクトのロケーションの記述を含み、相互アテンション層を有する事前トレーニングされたモデルを利用し、第1のテキストデータと第2のテキストデータとを連結し、第1のテキストデータと第2のテキストデータとを記述する単一のプロンプトを生成し、第1のテキストデータを利用して、第1のオブジェクトに関連付けられたピクセルを示す第1のオブジェクトの少なくともロケーションから構築された、ブロードキャストされたロケーションマスクを生成し、第2のテキストデータを利用して、第1のシーンが記述された第2のテキストデータに関連付けられた、ブロードキャストされたオールワン行列を生成し、ここで、ブロードキャストされたオールワン行列は、第1のシーンに関連付けられた全てのピクセルを含むマスクであり、単一のプロンプトの別個の線形射影を利用して、キー行列及び値行列を決定し、(i)先行の層の出力又は(ii)事前トレーニングされたモデルへの入力のいずれかの線形射影を利用して、クエリ行列を決定し、ブロードキャストされたロケーションマスクとブロードキャストされたオールワン行列とを連結することに応じて、ブロードキャストされたロケーション行列を生成し、クエリ行列、キー行列及びブロードキャストされたロケーション行列を利用して、相互アテンションマップを生成し、事前トレーニングされたモデルの相互アテンション層に対応する固定数の反復を実行することに応じて最終画像を出力するようにプログラミングされている。
【図面の簡単な説明】
【0007】
【
図1】カメラデバイス、プロセッサ、モバイルデバイス、及び、本明細書に記載される他の計算デバイスなどの計算デバイスの例示的なアーキテクチャを示すブロック図の実施形態を示した図である。
【
図2】相互アテンション制御(CAC)を用いたテキスト・ツー・イメージ生成を利用するプロセスの一実施形態を示した図である。
【
図3】図示の実施形態を利用した位置特定されたテキスト・ツー・イメージ生成の例を示した図である。
【発明を実施するための形態】
【0008】
詳細な説明
1つの実施形態においては、本システム及び本方法は、より良好な開放語彙位置特定能力を有する事前トレーニングされたテキスト・ツー・イメージモデルを提供するために、相互アテンション制御(CAC)を使用することを提案する。バウンディングボックス及びセマンティックセグメンテーションマップなどのキャプション及び位置特定情報が、それらの対応するテキスト記述と共に与えられると、システムは、最初に、キャプションとロケーション情報に関連付けられた全てのプロンプトとを連結することによって新たなテキスト入力を構築することができる。次いで、システムは、この新たなテキストプロンプトから相互アテンションマップを計算し、位置特定情報に従って、相互アテンションマップに位置特定制約を適用することができる。そのような方法は、タスク固有のエンコーダを設計するような任意の付加的トレーニング又はモデルアーキテクチャの修正を必要とするものではない。また、固定的な語彙セット又は言語解析器を使用するなど、いかなる言語制限も課すことはない。その上さらに、高度な可搬性を有し、数行のコードのみを用いて任意の相互アテンションに基づくテキスト・ツー・イメージ生成フレームワークにおいて単一の順方向経路に容易に統合することができ、したがって、余分な推論時間を必要としない。
【0009】
図1は、カメラデバイス、プロセッサ、モバイルデバイス、及び、本明細書において説明する他の計算デバイスなどの計算デバイスの例示的なアーキテクチャを示すブロック図の実施形態を示している。全てのユーザデバイスがアーキテクチャ100のコンポーネントの全てを含むわけではないことが理解され、いくつかのユーザデバイスは、アーキテクチャ100内に示されていない付加的コンポーネントを含み得る。アーキテクチャ100は、命令を実行し、非一時的なコンピュータ可読記憶素子102に格納されたデータを取得するための1つ又は複数の処理要素104を含み得る。この処理要素104は、少なくとも1つのプロセッサを含み得る。任意の適当なプロセッサ又は複数のプロセッサが使用されるものとしてよい。例えば、処理要素104は、1つ又は複数のデジタル信号プロセッサ(DSP)及び/又は画像信号プロセッサ(ISP)を含み得る。いくつかの例においては、処理要素104は、上述したように、生成器及び/又は識別器の1つ又は複数の機能を実行するために効果的であり得る。記憶素子102は、アーキテクチャ100内の異なる目的に費やされる1つ又は複数の異なるタイプの非一時的なコンピュータ可読メモリ、データストレージ、又は、コンピュータ可読記憶媒体を含み得る。例えば、記憶素子102は、フラッシュメモリ、ランダムアクセスメモリ、ディスクを基礎とするストレージなどを含み得る。記憶素子102の異なる部分は、例えば、処理要素104による実行のためのプログラム命令、画像若しくは他のデジタル作品の格納、及び/又は、データを他のデバイスに転送するためのリムーバブルストレージなどのために使用されるものとしてよい。
【0010】
記憶素子102は、処理要素104によって実行されるソフトウェアも格納することができる。オペレーティングシステム122は、ユーザデバイスを操作するためのインタフェースをユーザに提供することができ、アーキテクチャ100上で実行されるアプリケーションと、それらの様々なハードウェアとの間の通信及びコマンドを容易にすることができる。転送アプリケーション124は、他のデバイス(例えば、モバイルデバイス、イメージ捕捉デバイス、及び/又は、ディスプレイデバイス)から、又は、アーキテクチャ100に含まれるイメージセンサ132から、画像及び/又はビデオを受信するように構成されるものとしてよい。いくつかの例においては、転送アプリケーション124は、受信した画像を、本明細書に記載されるような処理を実行し得る他のデバイス(例えば、モバイルデバイス及び/又は他の計算デバイス)にアップロードするように構成されるものとしてもよい。
【0011】
いくつかのユーザデバイスにおいて実装される場合、アーキテクチャ100は、ディスプレイコンポーネント106も有し得る。このディスプレイコンポーネント106は、1つ又は複数の発光ダイオード(LED)、又は、他の適当なディスプレイランプを含み得る。また、いくつかの例においては、ディスプレイコンポーネント106は、例えば、ブラウン管(CRT)、液晶ディスプレイ(LCD)スクリーン、ガスプラズマに基づくフラットパネルディスプレイ、LCDプロジェクタ、ラスタプロジェクタ、赤外線プロジェクタ、又は、他のタイプのディスプレイデバイスなどの1つ又は複数のデバイスを含み得る。
【0012】
アーキテクチャ100は、ユーザからの入力を受信するように動作可能な1つ又は複数の入力デバイス108も含み得る。この入力デバイス108は、例えば、プッシュボタン、タッチパッド、タッチスクリーン、ホイール、ジョイスティック、キーボード、マウス、トラックボール、キーパッド、ライトガン、ゲームコントローラ、又は、ユーザがアーキテクチャ100に入力を提供し得る任意の他のそのようなデバイス若しくは要素を含み得る。これらの入力デバイス108は、アーキテクチャ100に組み込まれるものとしてよく、又は、有線若しくは無線インタフェースを介してアーキテクチャ100と動作可能に結合されるものとしてよい。いくつかの例においては、アーキテクチャ100は、例えば音声コマンドなどの音声を捕捉するためのマイクロフォン170を含み得る。音声認識エンジン180は、マイクロフォン170によって捕捉された音の音響信号を解釈することができる。いくつかの例においては、音声認識エンジン180は、マイクロフォン170によって受信される「ウェイクワード」についてリスニングすることができる。ウェイクワードを受信すると、音声認識エンジン180は、分析のために音声認識サーバに音声をストリーミングすることができる。様々な例においては、音声認識エンジン180は、通信インタフェース112を介して外部の計算デバイスに音声をストリーミングすることができる。
【0013】
ディプレイコンポーネント106が接触感知ディスプレイを含む場合、入力デバイス108は、ユーザが(例えば指先又は電子ペンを用いた)接触入力を使用してディプレイコンポーネント106により表示される画像と対話することを可能にするために、ディプレイコンポーネント106に関連して動作するタッチセンサを含み得る。アーキテクチャ100は、有線交流(AC)変換器、従来のプラグインアプローチを介して、又は、容量性若しくは誘導性充電などの他のアプローチを介して再充電されるように動作可能な再充電可能バッテリなどの電源114も含み得る。
【0014】
通信インタフェース112は、1つ又は複数の他のユーザデバイスと通信するように動作可能な1つ又は複数の有線又は無線コンポーネントを含み得る。例えば、通信インタフェース112は、IEEE802.11又は他の適当な無線ローカルエリアネットワーク(WLAN)プロトコルなどの任意の適当な無線プロトコルに従って、ネットワーク上で通信するように構成された無線通信モジュール136を含み得る。短距離インタフェース134は、例えば、近距離通信(NFC)、ブルートゥース(登録商標)、ブルートゥースLE(登録商標)などの1つ又は複数の短距離無線プロトコルを使用して通信するように構成されるものとしてよい。モバイルインタフェース140は、セルラプロトコル又は他のモバイルプロトコルを利用して通信するように構成されるものとしてよい。全地球測位システム(GPS)インタフェース138は、アーキテクチャ100の位置を識別するために、1つ又は複数の地球周回衛星又は他の適当な位置特定システムと通信するものとしてよい。有線通信モジュール142は、USBプロトコル又は任意の他の適当なプロトコルに従って通信するように構成されるものとしてよい。様々な例においては、モバイルインタフェース140は、計算デバイスを、本明細書に記載される技術の様々な態様を実行するために使用され得る1つ又は複数の他の計算デバイスと通信可能にさせることができる。
【0015】
アーキテクチャ100は、1つ又は複数のセンサ130、例えば、1つ又は複数の位置センサ、イメージセンサ、及び/又は、運動センサも含み得るものである。1つのイメージセンサ132が示される場合もある。アーキテクチャ100のいくつかの例は、複数のイメージセンサ132を含み得る。例えば、パノラマカメラシステムは、複数のイメージセンサ132を含み得るものであり、その結果として、複数の画像及び/又はビデオフレームが生じ、これらは、シームレスなパノラマ出力を形成するために切り替えられ、ブレンドされるものとしてよい。イメージセンサ132の一例は、カメラ又は他のイメージセンサであり得る。様々な例においては、イメージセンサ132は、色情報、IR画像データ、画像幾何形状情報、及び/又は、周辺光情報を捕捉するように構成されるものとしてよい。
【0016】
運動センサは、例えばジャイロセンサ及び加速度計を含む、アーキテクチャの運動を感知する任意のセンサを含み得る。運動センサは、いくつかの例においては、カメラの、例えばピッチ角及び/又はロール角などの姿勢を特定するために使用されるものとしてよい。ジャイロセンサは、回転運動及び/又はアーキテクチャの姿勢の変化(例えば、運動の大きさ及び/又は方向、又は、姿勢の変化)を示す信号を生成するように構成されるものとしてよい。例えば、リングレーザジャイロ、光ファイバジャイロ、流体ジャイロ、振動ジャイロなどを含む任意の適当なジャイロセンサが使用されるものとしてよい。いくつかの例においては、加速度計は、加速度(例えば、加速度の大きさ及び/又は方向)を示す信号を生成することができる。例えばピエゾ抵抗型加速度計、容量型加速度計などを含む任意の適当な加速度計が使用されるものとしてよい。いくつかの例においては、GPSインタフェース138が運動センサとして利用されるものとしてよい。例えば、GPSインタフェース138によって特定されるようなアーキテクチャ100の位置における変化は、GPSインタフェース138の運動を示すことができる。上述したように、いくつかの例においては、イメージセンサ132は、赤外光を検出するために効果的な場合がある。少なくともいくつかの例においては、アーキテクチャ100は、周囲環境を照明する赤外線光源を含み得る。
【0017】
図2は、相互アテンション制御(CAC)を用いたテキスト・ツー・イメージ生成を利用するプロセスの説明を開示している。このシステムは、既製の大規模な事前トレーニングされた認識モデルを使用して、位置特定されたテキスト・ツー・イメージ生成タスクのための評価メトリックの標準化された一組を利用することができる。システムは、CACを様々な最新のベースラインのテキスト・ツー・イメージ生成モデルに適用し、バウンディングボックス及びセマンティックセグメンテーションマップを含む異なる形態の位置特定情報を用いて実験することができる。このシステム及び方法は、CACが、新たな位置特定された生成能力を有する、事前トレーニングされた標準のテキスト・ツー・イメージモデルを提供し、その上さらに、位置特定された生成のために特別にトレーニングされたモデルを改善することを実証することができる。付加的に、本実施形態は、テキストプロンプト内のコンポーネントを空間的に分離する簡素なヒューリスティクスにより、本方法がテキスト・ツー・イメージ生成モデルの合成能力を大幅に改善できることを示す場合がある。
【0018】
この研究の目標は、事前トレーニングされたテキスト・ツー・イメージ生成モデルが与えられた場合に、位置特定されたテキスト・ツー・イメージ生成を実行することである。ユーザによって提供される位置特定情報は、コンテンツと、画像空間におけるこれらのコンテンツに関連付けられ制約された空間ロケーションとを記述するテキストフレーズから成るはずのものである。共通のロケーション情報には、バウンディングボックスやセマンティックセグメンテーションマップが含まれる。その上さらに、本システムは、(1)付加的なトレーニング又は微調整を行わず、(2)モデルアーキテクチャを修正せず、(3)余分な推論時間をかけず、(4)元のモデルから入力テキスト空間をさらに制限することなく、このタスクを実行することを目指すことができる。提供された事前トレーニングされたモデルは、位置特定情報を用いてトレーニングすること、又は、テキスト-イメージ対を用いて単独でトレーニングすることのいずれかが可能である。
【0019】
形式的には、事前トレーニングされたテキスト・ツー・イメージ生成モデルρ
θ、長さη
0のテキストプロンプトy
0∈Y
n0、及び、位置特定情報
【数1】
のセットが与えられる場合、1つの目標は、y
0で提供される全体的なテキスト記述と、gで提供される位置特定された記述とが視覚的に一致する画像
【数2】
を生成することであるものとしてよい。ここで、γは、テキストプロンプトの語彙空間を表し、C,H,Wは、出力画像の次元性であり、各i∈{1,...,m}について,g
i=(y
i,b
i)∈Y
ni*[0,1]
H*Wであり、ここで、y
iは、i番目の位置特定された領域のテキスト記述であり、b
iは、当該記述に対応する空間制約マスクである。事前トレーニングされたモデルp
θは、p
θ(x|y
0)又はp
θ(x|y
0,g)のいずれかからサンプリングすることができる。このシステムは、事前トレーニングされたモデルが、テキスト画像の調整のために相互アテンション機構を使用することを想定することができる。
【0020】
最新のテキスト・ツー・イメージ生成モデルは、相互アテンション機構を用いて、その成功を達成することができる。1つの実施形態においては、本システムは、バックボーンモデルとしてステイブルディフュージョンを選択することができる。しかしながら、代替的な実施形態においては、ImagenやGAN、例えばGigaGANなどの他の相互アテンションに基づく拡散モデルにも適用できるシステム及び方法を考慮に入れることができる。
【0021】
x∈p
θ(x\y
0)、ただし、x∈X,y
0∈Y
nからサンプリングするタスクについては、p
θ内の相互アテンション層lは、符号化されたテキストプロンプト
【数3】
と、ネットワーク内の先行の層及び先行の拡散タイムステップによって処理された中間サンプル
【数4】
とを入力として受信する。例えば、n
0,d
eは、テキスト長さ及びテキスト埋め込み次元であり、C
(l),H
(l),W
(l)は、層lの知覚次元を表し、これらは、U-Net構造のためC’,H’,W’とは異なる可能性がある。次いで、本システムは、z
(<1)をクエリ行列
【数5】
に射影することができ、hは、マルチヘッドアテンションのためのヘッド数であり、dは、クエリ211及びキー207の特徴射影次元であり、d
vは、値の特徴射影次元である。次いで、層lにおける相互アテンションマップは、以下のように、
【数6】
計算される。
【0022】
次式、
【数7】
は、lの出力であり、l
0は、別の線形射影である。
【0023】
本システムは、
【数8】
における各エントリ
【数9】
を、画像においてj番目の画素ブロックを生成するときに、r番目のヘッドがy
0におけるk番目のトークンに払う注意の程度として解釈することができる。層出力は、値特徴の加重平均であり、ここで、重みは、全ヘッドからのアテンションマップによって割り当てられる。
【0024】
一例においては、プロンプト201は、テキスト記述(「犬」)を含み得るものであり、行列又はマップに適用される第1のプロンプトに関連付けられたロケーション202のインジケータを伴う。第2のプロンプト203は、記述「猫」を含み得るものであり、オブジェクトに付属するものとして第1のプロンプトに関連付けられたロケーション204を示すことができる。別のプロンプト205でシーンを示すことができる。
【0025】
各位置特定情報対gi=(yi,bi)は、モデルが、bi>0である画素ロケーションにおいて、テキストプロンプトyiによって記述し得るコンテンツを生成すべきであることを示している。したがって、先行の解釈及び発見に基づいて、アテンションマップにおける(r,j,k)番目の要素は、空間制約マスクbiにおけるj番目のエントリbi,(j)が正である場合にのみ、yiにおけるk番目のトークンからアテンションを受けるべきである。
【0026】
その結果、本システムは、最初に、元のロケーションマスクb
iを補間して、層lの知覚フィールドの次元と一致する
【数10】
を得ることができる。次式、
【数11】
が
【数12】
から構築された、平滑化されブロードキャストされたロケーションマスク209を表し、次式、
【数13】
がy
iから計算されたキー行列207を表すものとすれば、これは、式1を以下のように
【数14】
拡張することができる。
【0027】
次いで、本システムは、一例においては、m+1個のアテンションマップ
【数15】
を組み合わせることができる。一例においては、アテンションマップ215a,215b,215cが生成されるものとしてよい。1つの実施形態においては、本システムは、平均マップ
【数16】
を計算することができる。しかしながら、このアテンションマップに対応する「平均」値行列217が何であるかは不明である。他の試みは、行列
【数17】
を別個に計算することであり、ここで
【数18】
であり、次いで、平均出力行列
【数19】
又は
【数20】
を層の出力として計算することである。これは、それらの標準的なテキスト・ツー・イメージ生成タスクには適しているが、当方の設定における小さいオブジェクトに関連付けられた位置特定情報によってレンダリングされた非常にまばらなアテンションマップは、予期しない挙動につながる可能性がある。
【0028】
本システムは、i=1,...,mの全てについて、y
iが全てのy
0の部分文字列であると想定することができる。例えば、ユーザが「ダイニングテーブルにカップが置かれたダイニングルームの写真」を生成し、「カップ」及び「ダイニングテーブル」のためにバウンディングボックスを提供することを望んだ場合、本システムは、ロケーション情報を使用して、「カップ」及び「ダイニングテーブル」についてのトークンに関連付けられたキャプションのためのアテンションマップの部分(すなわち、
【数21】
)を直接マスクすることができる。形式的には、y
iがy
0における(j
i+n
i)番目のトークンに対するj
i番目のトークンに対応すると想定すると、本システムは、以下のように、
【数22】
直接計算することができる。
【0029】
ここで、
【数23】
は、マスクであり、ここで、
【数24】
は、3次元のj
i番目から(j
i+n
i)番目のサブ行列にのみブロードキャストされ、それに対して、残余の要素は、全てゼロに維持される。次いで、本システムは、
【数25】
を計算することができる。
【0030】
しかしながら、この想定は常に成り立つわけではない。例えば、ユーザは、シーンの全ての詳細を記述することなく「ダイニングルームの写真」を生成することを要求することができるが、それらはまだキャプションにおいてそれらの記述なしでバウンディングボックスを用いて「カップ」及び「ダイニングテーブル」のロケーションを指定することができる。したがって、この想定なしで本方法を全ての入力に適用するために、本システムは、以下のように、
【数26】
全ての入力プロンプトの連結により、新たなテキストプロンプトを構築することができる。
【0031】
ここで、
【数27】
は、連結を表す。1つの実施形態においては、本システム及び本方法は、全ての特殊トークンをエンコーディングから保持し、連結後に結果として生じたプロンプトを埋め込むことができる。テキストプロンプトと同様に、本システムは、全てのマスクを連結して、以下を
【数28】
作成することもできる。
【0032】
本システム及び本方法は、実際には、キャプションy
0及び特殊トークンのためのロケーションマスクとして、オールワン行列213を使用することができる。プロンプト・ツー・プロンプト編集と同様に、本システムは、アテンションマップに重み
【数29】
の別個のセットを適用して、各トークンが結果として生じる生成に与える影響を調整することもできる。
【数30】
を用いることにより、本システムは、集約されたアテンションマップを、次式、
【数31】
として計算することができる。
【0033】
最後に、層219の出力は、z
(l)=l
0(M
(l)V
(l))として計算することができ、そのフレームワークは、
図2に描写されている。本システム及び本方法は、サンプリング時に事前トレーニングされたモデルの順方向経路を変更するだけでよいため、さらなるトレーニング又はモデルアーキテクチャの修正のいずれも必要とせず、さらに固定された語彙セット又は言語パーサなど、他のいかなる言語制限又は事前設定も要求しない。これはまた、元の最適化された変換フレームワークにもうまくパッケージ化されており、したがって、付加的な推論時間を必要としない。最小限の想定のため、本方法は、テキストガイダンスのために相互アテンションを使用する全てのテキスト・ツー・イメージ生成モデルのためのオープン語彙プラグインであり、追加費用は不要である。
【0034】
相互アテンションに対して付加的に、自己アテンション層もコヒーレント空間レイアウトを生成するための多くのテキスト・ツー・イメージ生成モデルに不可欠である。例えば、相互アテンション制御に対して付加的に、拡散プロセスの小さい部分に自己アテンション制御を適用することで、さらに一貫性のある幾何形状及びカラーパレットを提供することができる。ただし、自己アテンション制御では、編集において軽微ではあるが、本願の設定においては、異なる位置特定プロンプトについてのロケーション情報が互いに重なり、その結果として重なり合ったピクセルで信号が衝突し、マスクが曖昧になる可能性もあるため複雑化が生じる。
【0035】
自己アテンション制御を組み込むための1つのアプローチは、全ての領域を共に結合する前に、異なる位置特定プロンプトに従って、各領域を別個に最適化することである。自己アテンション制御及び相互アテンション制御の両方を全ての拡散ステップに適用する場合には、これに対する解は、大まかなマルチディフュージョンに低減されるものであり得る。その結果として、本システムは、所望の効果を得るために、最初に拡散プロセスの小さい部分にマルチディフュージョンを適用し、次いで、拡散タイムステップの残余に対しては、上述したように、相互アテンション制御ディフュージョンを実行することが可能である。本システムにおいては、学習された自己アテンション制御を提供するために、位置特定情報に基づいて微調整されるGLIGENのようなモデルもまた使用することができる。
【0036】
1つの例示的な実施形態及び方法においては、本システムは、より良好な位置特定能力を提供するために、マルチディフュージョン及びGLIGENのためのプラグインとみなされるものとしてよく、そのような実行に対しては、2つのアルゴリズムに対する追加コストの加算なしで行うことが可能である。
【0037】
図3は、位置特定されたテキスト・ツー・イメージ生成のための既存の方法に対するプラグインとしての相互アテンション制御の例を示している。相互アテンション制御は、異なるベースモデル(例えば、ステイブルディフュージョン及びGLIGEN)を用いて、多様なタイプの位置特定(バウンディングボックス、セマンティックセグメンテーションマップ、及び、位置特定されたスタイル)を改善することができる。
図3に示されているように、バウンディングボックスが入力として利用されるものとしてよい。バウンディングボックスは、「乗馬する宇宙飛行士」や「桃色の旗」のようにオブジェクトを反映したものであってよい。キャプションは、1つの実施形態においては「火星の風景」を示すことができる。位置特定されたプロンプトは、「乗馬する宇宙飛行士」及び「桃色の旗」を示すことができ、入力に対応している。バウンディングボックスは、シーン及びシーンに関連付けられたオブジェクトを含み得る。CACの例に示されているように、「乗馬する宇宙飛行士」の配置は、ベースラインモデルよりも正確である。付加的に、旗は、適当な形状及びロケーションのものであってよい。
【0038】
他の例においては、入力は、セマンティックセグメンテーションマップを利用することができる。セマンティックセグメンテーションマップは、画像に対応してオブジェクト又は拡張されたオブジェクトを写像することができる。一例においては、セマンティックセグメンテーションマップは、片目が青色で片目が緑色の猫に対応することができる。キャプションは、「かわいい猫」であるものとしてよい。位置特定されたプロンプトは、「青色の目」及び「緑色の目」であるものとしてよい。相互アテンション制御モデルは、他のバージョンよりも正確で高品質な画像を出力することができる。もちろん、他の例も
図3には示されている。
【0039】
本明細書においては、本開示の実施形態が説明されている。しかしながら、開示された実施形態は、単なる例であり、他の実施形態においては、様々な代替的形態を取ることが可能であることを理解されたい。図面は、必ずしも縮尺通りではなく、いくつかの特徴は、特定のコンポーネントの詳細を示すために、誇張されて又は最小化されている可能性もある。したがって、本明細書に開示される特定の構造的及び機能的詳細は、限定的に解釈されるべきではなく、むしろこれらの実施形態の様々な利用に対する当業者への教示のための代表的な基礎として解釈されるべきであろう。当業者には理解されるように、図面のいずれか1つに関連して描写され説明される様々な特徴は、1つ又は複数の他の図面に描写される特徴と組み合わせて、明示的に描写又は説明されていない実施形態を生成することができる。描写された特徴の組合せにより、典型的な用途のための代表的な実施形態が提供される。しかしながら、本開示の教示と一致する特徴の様々な組合せ及び修正が、特定の用途又は実装のためには望ましい可能性もある。
【0040】
本明細書において使用される「A」、「an」及び「the」は、文脈上明らかにそうでない場合を除き、単数及び複数両方の参照対象を指す。例として、種々の機能を実行するようにプログラミングされた「プロセッサ」とは、各機能を実行するようにプログラミングされた1つのプロセッサを指し、又は、様々な機能の各々を実行するように集合的にプログラミングされた複数のプロセッサを指す。
【0041】
例示的な実施形態を上述してきたが、これらの実施形態は、特許請求の範囲に包含される全ての可能な形態の説明を意図したものではない。本明細書において使用されている用語は、限定ではなく説明の用語であり、本開示の精神及び範囲から逸脱することなく、様々な変更を行うことが可能であることが理解されよう。前述したように、明示的には説明又は描写されていない可能性のある本発明のさらなる実施形態を形成するために様々な実施形態の特徴を組み合わせることができる。様々な実施形態は、1つ又は複数の所望の特徴に関して、他の実施形態又は従来技術の実装を凌ぐ利点を提供するものとして又はより好ましいものとして説明することができたが、当業者には、特定の用途及び実装に依存して、全体として望ましいシステム属性を達成するためには1つ又は複数の機能又は特徴は妥協があり得ることが認識される。これらの属性には、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、包装、サイズ、保守性、重量、製造可能性、組立て容易性などが含まれ得るが、これらに限定されるものではない。そのようなものであっても、任意の実施形態が、1つ又は複数の特徴に関して他の実施形態又は従来技術の実装よりも望ましくないものとして記載されるまでは、これらの実施形態は、本開示の範囲外にあるわけではなく、特定の用途にとっては望ましい可能性もある。
【外国語明細書】