IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー コーポレイション オブ アメリカの特許一覧

特開2024-12131オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成
<>
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図1
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図2
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図3
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図4
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図5
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図6A
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図6B
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図7A
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図7B
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図7C
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図8
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図9
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図10
  • 特開-オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024012131
(43)【公開日】2024-01-25
(54)【発明の名称】オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成
(51)【国際特許分類】
   G06N 3/08 20230101AFI20240118BHJP
   G06N 3/0455 20230101ALI20240118BHJP
   G06N 3/0475 20230101ALI20240118BHJP
【FI】
G06N3/08
G06N3/0455
G06N3/0475
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023111286
(22)【出願日】2023-07-06
(31)【優先権主張番号】63/368,264
(32)【優先日】2022-07-13
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18/177,084
(32)【優先日】2023-03-01
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
2.BLUETOOTH
3.WCDMA
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】504257564
【氏名又は名称】ソニー コーポレイション オブ アメリカ
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100141553
【弁理士】
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】マルズィエ エドラキ
(72)【発明者】
【氏名】中村 章
(57)【要約】      (修正有)
【課題】オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための電子装置及び方法を提供する。
【解決手段】ネットワーク環境100において、第1の画像セットを含む第1の訓練データに基づいて、エンコーダモデル、学習済みコードブック、生成器モデル及び識別器モデルを含むオートエンコーダモデル並びにトランスフォーマモデルを微調整する電子装置は、第1の訓練データから画像サブセットを選択し、選択された画像サブセットにエンコーダモデルを適用し、エンコーダモデルの適用に基づいて、第2の画像セットを含む第2の訓練データを生成し、生成した第2の訓練データに基づいてオートエンコーダモデルの次世代を作成するようにオートエンコーダモデルを事前訓練する。生成された第2の訓練データは、選択された画像サブセットの量子化潜在表現に対応する。
【選択図】図1
【特許請求の範囲】
【請求項1】
回路を備えた電子装置であって、前記回路は、
第1の画像セットを含む第1の訓練データに基づいて、オートエンコーダモデルと、該オートエンコーダモデルに関連するトランスフォーマモデルとを微調整することであって、前記オートエンコーダモデルは、エンコーダモデルと、前記トランスフォーマモデルに関連する学習済みコードブックと、生成器モデルと、識別器モデルとを含む、ことと、
前記第1の訓練データから画像サブセットを選択することと、
前記学習済みコードブックに基づいて、前記選択された画像サブセットに前記エンコーダモデルを適用して符号化画像サブセットを決定することと、
前記エンコーダモデルの適用に基づいて、前記選択された画像サブセットの量子化潜在表現に対応する、第2の画像セットを含む第2の訓練データを生成することと、
前記生成された第2の訓練データに基づいて前記オートエンコーダモデルの次世代を作成するように前記オートエンコーダモデルを事前訓練することと、
を行うように構成される、
ことを特徴とする電子装置。
【請求項2】
前記回路は、
前記トランスフォーマモデルを適用して、新たな合成画像の各々のトークン列を該トークン列の開始に基づいて予測し、
前記学習済みコードブックに基づいて、前記予測されたトークン列を量子化潜在表現に変換し、
前記量子化潜在表現に前記生成器モデルを適用して新たな合成画像を生成し、
前記生成された新たな合成画像に対応する第3の画像セットを含む第3の訓練データを生成し、
前記生成された第3の訓練データに基づいて、前記トランスフォーマモデルの次世代を作成するように前記トランスフォーマモデルを事前訓練する、
ようにさらに構成される、請求項1に記載の電子装置。
【請求項3】
前記予測されたトークン列は、前記学習済みコードブックからのインデックス列に対応する、
請求項2に記載の電子装置。
【請求項4】
前記オートエンコーダモデル及び前記トランスフォーマモデルの微調整、並びに前記オートエンコーダモデルの事前訓練は、反復学習モデル(ILM)に対応する、
請求項1に記載の電子装置。
【請求項5】
前記オートエンコーダモデルは、ベクトル量子化敵対的生成ネットワーク(VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応する、
請求項1に記載の電子装置。
【請求項6】
前記回路は、前記選択された画像サブセットに対する前記エンコーダモデルの適用に基づいて、前記選択された画像サブセットを画像空間から信号空間にマッピングするようにさらに構成される、
請求項1に記載の電子装置。
【請求項7】
前記信号空間は、前記学習済みコードブックに対応する、
請求項6に記載の電子装置。
【請求項8】
前記選択された画像サブセットの前記量子化潜在表現は、前記選択された画像サブセットに関連する多次元コードベクトルセットの各ベクトルを前記学習済みコードブックからの最も近いエントリに置き換えることに基づいて決定される、
請求項7に記載の電子装置。
【請求項9】
前記回路は、
前記エンコーダモデル、前記学習済みコードブック及び前記生成器モデルに関連する第1の損失関数を決定し、
前記オートエンコーダモデルに関連する第2の損失関数を決定し、
前記エンコーダモデルに関連する第3の損失関数を決定する、
ようにさらに構成され、前記オートエンコーダモデルの事前訓練は、前記決定された第1の損失関数、前記決定された第2の損失関数、及び前記決定された第3の損失関数にさらに基づく、
請求項1に記載の電子装置。
【請求項10】
前記第3の損失関数の決定は、前記学習済みコードブックに対する、前記オートエンコーダモデルの次世代のエンコーダモデルに関連する第2のノルムに基づく、
請求項9に記載の電子装置。
【請求項11】
回路を備えた電子装置であって、前記回路は、
第1の画像セットを含む第1の訓練データに基づいて、エンコーダモデルと、トランスフォーマモデルに関連する学習済みコードブックと、生成器モデルと、識別器モデルとを含むオートエンコーダモデルを微調整し、
前記学習済みコードブックに基づいて前記第1の画像セットに前記エンコーダモデルを適用して、前記第1の画像セットの量子化潜在表現に対応する第1の符号化画像セットを決定し、
前記第1の訓練データからの画像サブセット、及び該画像サブセットの量子化潜在表現に基づいて、第2の画像データセットを含む第2の訓練データを生成し、
前記生成された第2の訓練データに基づいて、前記オートエンコーダモデルの次世代を作成するように前記オートエンコーダモデルを事前訓練し、
前記オートエンコーダモデルの最終世代に基づいて前記トランスフォーマモデルを微調整する、
ように構成される、
ことを特徴とする電子装置。
【請求項12】
前記オートエンコーダモデルの微調整、前記オートエンコーダの事前訓練、及び前記トランスフォーマモデルの微調整は、反復学習モデル(ILM)に対応する、
請求項11に記載の電子装置。
【請求項13】
前記オートエンコーダモデルは、ベクトル量子化敵対的生成ネットワーク(VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応する、
請求項11に記載の電子装置。
【請求項14】
前記回路は、前記第1の画像セットに対する前記エンコーダモデルの適用に基づいて、前記第1の画像セットを画像空間から信号空間にマッピングするようにさらに構成される、
請求項11に記載の電子装置。
【請求項15】
前記信号空間は、前記学習済みコードブックに対応する、
請求項14に記載の電子装置。
【請求項16】
前記第1の画像セットの前記量子化潜在表現は、前記第1の画像セットに関連する多次元コードベクトルセットの各ベクトルを前記学習済みコードブックからの最も近いエントリに置き換えることに基づいて決定される、
請求項15に記載の電子装置。
【請求項17】
回路を備えた電子装置であって、前記回路は、
第1の画像セットを含む第1の訓練データに基づいて、オートエンコーダモデルと、該オートエンコーダモデルに関連するトランスフォーマモデルとを微調整することであって、前記オートエンコーダモデルは、エンコーダモデルと、前記トランスフォーマモデルに関連する学習済みコードブックと、生成器モデルと、識別器モデルとを含む、ことと、
前記トランスフォーマモデルを適用して、新たな合成画像の各々のトークン列を該トークン列の開始位置に基づいて予測することと、
前記学習済みコードブックに基づいて、前記予測されたトークン列を量子化潜在表現に変換することと、
前記量子化潜在表現に前記生成器モデルを適用して新たな合成画像を生成することと、
前記生成された新たな合成画像に対応する第3の画像セットを含む第3の訓練データを生成することと、
前記生成された第3の訓練データに基づいて、前記トランスフォーマモデルの次世代を作成するように前記トランスフォーマモデルを事前訓練することと、
を行うように構成される、
ことを特徴とする電子装置。
【請求項18】
前記オートエンコーダモデル及び前記トランスフォーマモデルの微調整、並びに前記オートエンコーダモデルの事前訓練は、反復学習モデル(ILM)に対応する、
請求項17に記載の電子装置。
【請求項19】
電子装置において、
第1の画像セットを含む第1の訓練データに基づいて、オートエンコーダモデルと、該オートエンコーダモデルに関連するトランスフォーマモデルとを微調整することであって、前記オートエンコーダモデルは、エンコーダモデルと、前記トランスフォーマモデルに関連する学習済みコードブックと、生成器モデルと、識別器モデルとを含む、ことと、
前記第1の訓練データから画像サブセットを選択することと、
前記学習済みコードブックに基づいて、前記選択された画像サブセットに前記エンコーダモデルを適用して符号化画像サブセットを決定することと、
前記エンコーダモデルの適用に基づいて、前記選択された画像サブセットの量子化潜在表現に対応する、第2の画像セットを含む第2の訓練データを生成することと、
前記生成された第2の訓練データに基づいて前記オートエンコーダモデルの次世代を作成するように前記オートエンコーダモデルを事前訓練することと、
を含むことを特徴とする方法。
【請求項20】
前記トランスフォーマモデルを適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測することと、
前記学習済みコードブックに基づいて、前記予測されたトークン列を量子化潜在表現に変換することと、
前記量子化潜在表現に前記生成器モデルを適用して新たな合成画像を生成することと、
前記生成された新たな合成画像に対応する第3の画像セットを含む第3の訓練データを生成することと、
前記生成された第3の訓練データに基づいて、前記トランスフォーマモデルの次世代を作成するように前記トランスフォーマモデルを事前訓練することと、
をさらに含む、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照/引用による組み入れ〕
本出願は、2022年7月13日に出願された米国仮特許出願シリアル番号第63/368,264号も参照する。上記特許出願は、その全体が引用により本明細書に組み入れられる。
【0002】
本開示の様々な実施形態は、画像処理に関する。具体的には、本開示の様々な実施形態は、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための電子装置及び方法に関する。
【背景技術】
【0003】
人工知能(AI)分野の進歩により、画像処理の分野でもAIモデルが使用されるようになってきた。人間の脳は、感覚系から構成的及び抽象的表現を抽出し、これらの表現を結びつけるルールを学習することに長けている。このような能力は、人間が新たな状況に瞬時に適応することを可能にする。一方で、新たな状況に瞬時に適応するという特性は、現在のAIモデルに欠けている重要な特徴であると考えることができる。AIモデルは、訓練データからの分布シフト(distributional shift)が存在する時には性能が低下することがある。完全に構成的な画像表現への探求は、モデル一般化可能性(model generalizability)を高めて未知のシナリオに対応するための、コンピュータビジョン及び機械学習の分野における未解決問題のうちの1つであると考えられる。構成性の概念は、言語学及び数理論理学の分野における確立された原理であることができる。構成性の概念は、全体の構成単位としての構成要素に、これらの構成要素の結び付け方に関するルールセットを加えたものに依拠することができる。言語の分野では、構成要素であるサブワードの意味と、サブワードを組み合わせるために使用されるルール又は文法とに基づいて、構成性を文の意味の推論に関連付けることができる。しかしながら、画像領域では、画像概念が高次元連続空間内で絡み合うことがあるため、構成性の定義がより困難なものとなり得る。
【発明の概要】
【発明が解決しようとする課題】
【0004】
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。
【課題を解決するための手段】
【0005】
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための電子装置及び方法を提供する。
【0006】
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0007】
図1】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的なネットワーク環境を示すブロック図である。
図2】本開示の実施形態による、図1の例示的な電子装置を示すブロック図である。
図3】本開示の実施形態による、例示的なベクトル量子化敵対的生成ネットワーク(VQGAN)を示す図である。
図4】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な処理パイプラインを示す図である。
図5】本開示の実施形態による、トランスフォーマモデルを事前訓練する例示的な処理パイプラインを示す図である。
図6A】本開示の実施形態による、オートエンコーダモデルに対する反復学習の適用に基づく画像成分生成のための例示的な処理パイプラインを示す図である。
図6B】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な処理パイプラインを示す図である。
図7A】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルの微調整の例示的なシナリオを示す図である。
図7B】本開示の実施形態による、第2のデータ及び第3のデータの決定のための例示的なシナリオを示す図である。
図7C】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルの事前訓練のための例示的なシナリオを示す図である。
図8】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な方法の動作を示すフローチャートである。
図9】本開示の実施形態による、トランスフォーマモデルを事前訓練する例示的な方法の動作を示すフローチャートである。
図10】本開示の実施形態による、オートエンコーダモデルに対する反復学習の適用に基づく画像成分生成のための例示的な方法の動作を示すフローチャートである。
図11】本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な方法の動作を示すフローチャートである。
【発明を実施するための形態】
【0008】
オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための電子装置及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づいて画像成分を生成する動作を実行できる電子装置(例えば、サーバ、デスクトップ、ラップトップ、又はパーソナルコンピュータ)を提供することができる。電子装置は、第1の画像セットを含む第1の訓練データに基づいて、オートエンコーダモデル、及びオートエンコーダモデルに関連するトランスフォーマモデルを微調整することができる。オートエンコーダモデルは、エンコーダモデル、トランスフォーマモデルに関連する学習済みコードブック、生成器モデル、及び識別器モデルを含むことができる。例えば、オートエンコーダモデルは、ベクトル量子化敵対的生成ネットワーク(vector quantized generative adversarial network:VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応することができる。電子装置は、第1の訓練データから画像サブセットを選択することができる。電子装置は、学習済みコードブックに基づいて、選択された画像サブセットにエンコーダモデルを適用して符号化画像サブセットを決定することができる。電子装置は、エンコーダモデルの適用に基づいて、第2の画像セットを含む第2の訓練データを生成することができる。生成された第2の訓練データは、選択された画像サブセットの量子化潜在表現(quantized latent representation)に対応することができる。電子装置は、生成された第2の訓練データに基づいて、オートエンコーダモデルの次世代を作成するようにオートエンコーダモデルを事前訓練することができる。ある例では、オートエンコーダモデル及びトランスフォーマモデルの微調整、並びにオートエンコーダモデルの事前訓練が、反復学習モデル(ILM)に対応することができる。
【0009】
電子装置は、トランスフォーマモデルをさらに適用して、選択された画像サブセットの各々のトークン列をトークン列の開始に基づいて予測することができる。電子装置は、学習済みコードブックに基づいて、予測されたトークン列を量子化潜在表現に変換することができる。電子装置は、量子化潜在表現に生成器モデルを適用して新たな合成画像を生成することができる。電子装置は、生成された新たな合成画像に対応する第3の画像データセットを含む第3の訓練データを生成することができる。電子装置は、生成された第3の訓練データに基づいて、トランスフォーマモデルの次世代を作成するようにトランスフォーマモデルを事前訓練することができる。ある例では、トランスフォーマモデルの事前訓練もILMに対応することができる。
【0010】
通常、人間の脳は、感覚系から構成的及び抽象的表現を抽出し、これらの表現を結びつけるルールを学習することに長けていると考えられる。このような能力は、人間が新たな状況に瞬時に適応することを可能にすることができる。一方で、新たな状況に瞬時に適応するという特性は、現在のAIモデルに欠けている重要な特徴であると考えることができる。AIモデルは、訓練データからの分布シフトが存在する時には性能が低下することがある。完全に構成的な画像表現への探求は、モデル一般化可能性を高めて未知のシナリオに対応し及び/又はこのようなシナリオを管理するための、コンピュータビジョン及び機械学習の分野における未解決問題のうちの1つであると考えられる。さらに、画像領域では、画像概念が高次元連続空間内で絡み合うことがあるため、構成性の定義がより困難なものとなり得る。
【0011】
本開示は、画像成分生成に関する課題に対処するために、入力画像のための構成表現を見出すことができる。オートエンコーダモデルは、より速く下流の識別タスクに適応してより良く一般化することができる。さらに、学習済みコードブックのコードブックエントリの解釈可能性を改善することもできる。従って、生成画像の様々な特性は、学習済みコードブック内の一群の同様に挙動するコードブックエントリに起因することができる。本開示のトランスフォーマモデルは訓練シーケンスを記憶することができる。オートエンコーダモデル及びトランスフォーマモデルにILMを適用することで、オートエンコーダモデル及びトランスフォーマモデルの新世代の生成において役立つことができるデータ増強をもたらすことができる。オートエンコーダモデル及びトランスフォーマモデルは、各世代において、下流のタスクでより良い性能を発揮するように適合することができる。
【0012】
図1は、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的なネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、電子装置102、サーバ104、データベース106、及び通信ネットワーク108を含むことができる。電子装置102は、モデルセット110に関連することができる。モデルセット110は、オートエンコーダモデル112及びトランスフォーマモデル114を含むことができる。オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。データベース106は、訓練データセット116を記憶することができる。訓練データセット116は、第1の訓練データ116A、第2の訓練データ116B、及び第3の訓練データ116Cを含むことができる。訓練データセット116は、画像セット118に関連することができる。画像セット118は、第1の画像セット118A、第2の画像セット118B、及び第3の画像セット118Cを含むことができる。図1には、電子装置102に関連することができるユーザ120をさらに示す。
【0013】
電子装置102は、(第1の画像セット118Aを含むことができる)第1の訓練データ116Aに基づいて、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。電子装置102は、第1の訓練データ116Aから画像サブセットを選択することができる。電子装置102は、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定することができる。電子装置102は、エンコーダモデル112Aの適用に基づいて、第2の画像セット118Bを含む第2の訓練データ116Bなどの第2の訓練データを生成することができる。第2の訓練データ116Bなどの生成された第2の訓練データは、選択された画像サブセットの量子化潜在表現に対応することができる。電子装置102は、第2の訓練データ116B(例えば、第2の画像セット118B)などの第2の訓練データに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練することができる。ある例では、オートエンコーダモデル112及びトランスフォーマモデル114の微調整、並びにオートエンコーダモデル112の事前訓練が、反復学習モデル(ILM)に対応することができる。いくつかのシナリオでは、電子装置102が、第3の訓練データ116C(例えば、第3の画像セット118C)などの第3の訓練データに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練することができる。このような事例では、トランスフォーマモデルの事前訓練もILMに対応ことができる。電子装置102の例としては、以下に限定するわけではないが、コンピュータ装置、スマートフォン、携帯電話機、ゲーム装置、メインフレームマシン、サーバ、コンピュータワークステーション、及び/又は消費者電子(CE)装置を挙げることができる。
【0014】
サーバ104は、オートエンコーダモデル及びトランスフォーマモデルの微調整のための動作、エンコーダモデル適用のための動作、第2の訓練データ生成のための動作、及びオートエンコーダモデルの事前訓練のための動作などの動作を実行するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。いくつかのシナリオでは、これらの動作が、トランスフォーマモデルの事前訓練のための動作をさらに含むことができる。1又は2以上の実施形態では、サーバ104が、電子装置102に関連する少なくとも1つの動作を実行することができる。サーバ104はクラウドサーバとして実装することができ、ウェブアプリケーション、クラウドアプリケーション、HTTPリクエスト、リポジトリ動作及びファイル転送などを通じて動作を実行することができる。サーバ104の他の実装例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、メディアサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。
【0015】
少なくとも1つの実施形態では、当業者に周知の複数の技術を使用することにより、サーバ104を複数の分散型クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲を2つの個別エンティティとしてのサーバ104及び電子装置102の実装に限定しないこともできると理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ104の機能を全体的に又は少なくとも部分的に電子装置102に組み込むこともできる。いくつかの実施形態では、サーバ104がデータベース106をホストすることができる。或いは、サーバ104は、データベース106から分離してデータベース106に通信可能に結合することもできる。
【0016】
データベース106は、第1の訓練データ116A、第2の訓練データ116B及び第3の訓練データ116Cを含む訓練データセット116を記憶するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。データベース106は、第1の画像セット118A、第2の画像セット118B及び第3の画像セット118Cなどの画像セット118をさらに記憶することができる。ある例では、第1の訓練データ116Aが第1の画像セット118Aを含むことができ、第2の訓練データ116Bが第2の画像セット118Bを含むことができ、第3の訓練データ116Cが第3の画像セット118Aを含むことができる。データベース106は、サーバ(例えば、サーバ104)又は電子装置102などの装置に記憶又はキャッシュすることができる。データベース106を記憶する装置は、画像セット118を含む訓練データセット116を求めるクエリを受け取るように構成することができる。これに応答して、データベース106を記憶する装置は、画像セット118を含む訓練データセット116を検索して電子装置102に提供することができる。
【0017】
いくつかの実施形態では、データベース106を、同じ場所又は異なる場所に記憶された複数のサーバ上にホストすることができる。データベース106の動作は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実行することができる。他のいくつかの事例では、データベース106を、ソフトウェアを使用して実装することができる。
【0018】
通信ネットワーク108は、電子装置102とサーバ104とが互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク108は、有線接続又は無線接続のいずれかであることができる。通信ネットワーク108の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、(ロングタームエボリューション及び第5世代(5G)新無線(NR)などの)セルラー又は無線モバイルネットワーク、(低軌道衛星セットのネットワークなどの)衛星ネットワーク、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)などを挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク108に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、及びBluetooth(BT)通信プロトコルのうちの少なくとも1つを挙げることができる。
【0019】
オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。ここでは、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C及び識別器モデル112Dに関する詳細を示す。
【0020】
エンコーダモデル112Aは、画像を圧縮して画像の圧縮表現を生成するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。圧縮表現は、以下の式(1)に従って取得することができ、
(1)
ここで、
は画像の圧縮表現であることができ、「R」は実数空間であることができる。さらに、「h」、「w」及び「d」は、例えば画像の高さを「H」として画像の幅を「W」とすることができる「H」×「W」などの解像度の画像の圧縮高さ、圧縮幅及びチャンネル数をそれぞれ表すことができる。
【0021】
学習済みコードブック112Bは、画像の圧縮表現を量子化するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。学習済みコードブック112Bは、以下の式(2)に従って表すことができ、
(2)
ここで、Nはベクトルの「d」次元コードブックの数であることができる。量子化関数
は、潜在表現の「h×w」格子内の「d」次元ベクトルの各ベクトルを学習済みコードブック112Bからの最も近いエントリに置き換えるために使用することができる。
【0022】
生成器モデル112Cは、トークン列から再構成画像を生成するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。ここでは、トークン列の各々を画素値にマッピングして画素値セットを取得することができる。画素値セットは、再構成画像に関連することができる。
【0023】
識別器モデル112Dは、再構成画像が本物であるか、それとも偽物であるかを判定するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。識別器モデル112Dは、再構成画像に関連する画素値セットを処理して、画素値が本物であるか、それとも偽物であるかを判定することができる。識別器モデル112Dは、本物の再構成画像と偽の再構成画像とを区別することができる。オートエンコーダモデル112は、識別器モデル112Dを使用して、生成器モデル112Cによって決定された再構成画像の品質/精度を高めることができる。
【0024】
トランスフォーマモデル114は、トランスフォーマモデル114を事前訓練又は微調整するために、トランスフォーマモデル114を適用して、選択された画像サブセットの各々のトークン列をトークン列の開始に基づいて予測するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。画像のトークン列の予測は、自然言語の文章内の単語の組み立てに類似すると考えることができる。例えば、ある実施形態では、トランスフォーマモデル114を事前訓練又は微調整する場合、画像サブセットを言語構造とみなすことができる一方で、学習済みコードブック112Bのエントリは言語の単語に対応することができる。さらに、トランスフォーマモデル114は、トランスフォーマモデル114を事前訓練又は微調整する特定のシーケンス内の単語の組み立てに基づいて言語の文章を作成するために使用できる、その言語の文法に対応することができる。
【0025】
ある実施形態では、オートエンコーダモデル112及び/又はトランスフォーマモデル114を、1又は2以上のニューラルネットワークモデルを使用して実装することができる。1又は2以上のニューラルネットワークモデルの各々は、ノードとしての複数の層状に配置されたコンピュータネットワーク又は人工ニューロンのシステムであることができる。ニューラルネットワークモデルの複数の層は、入力層、1又は2以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、1又は2以上のノード(又は、例えば円によって表される人工ニューロン)を含むことができる。入力層における全てのノードの出力は、(単複の)隠れ層の少なくとも1つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワークモデルの他の層における少なくとも1つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークモデルの他の層における少なくとも1つのノードの入力に結合することができる。最終層の(単複の)ノードは、少なくとも1つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、ニューラルネットワークモデルのハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセット(例えば、訓練データセット116)に基づくニューラルネットワークモデルの訓練前、訓練中、又は訓練後に設定することができる。
【0026】
ニューラルネットワークモデルの各ノードは、ニューラルネットワークモデルの訓練中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット(rectified linear unit))に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、ニューラルネットワークモデルの他の(単複の)層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。ニューラルネットワークモデルのノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。
【0027】
ニューラルネットワークモデルの訓練では、(訓練データセットからの)所与の入力に対する最終層の出力がニューラルネットワークモデルの損失関数に基づく正しい結果に一致するかどうかに基づいてニューラルネットワークモデルの各ノードの1又は2以上のパラメータを更新することができる。上記の過程は、損失関数の最小値が達成されて訓練エラーが最小化されるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。
【0028】
ニューラルネットワークモデルは、例えば電子装置102及び/又はサーバ104上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。ニューラルネットワークモデルは、電子装置102の回路(例えば、図2の回路202)などのコンピュータ装置による実行のために、ライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。ニューラルネットワークモデルは、反復学習の適用に基づく画像成分生成のための1又は2以上の動作を図2の回路202などのコンピュータ装置が実行できるようにするように構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、ニューラルネットワークモデルは、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、ニューラルネットワークモデルを、ハードウェア及びソフトウェアの両方の組み合わせを使用して実装することもできる。ニューラルネットワークモデルの例としては、以下に限定するわけではないが、エンコーダネットワークモデル、デコーダネットワークモデル、トランスフォーマネットワークモデル、深層学習モデル、畳み込みニューラルネットワークモデル、ディープベイジアンニューラルネットワークモデル、又は敵対的生成ネットワーク(GAN)モデルを挙げることができる。
【0029】
訓練データセット116は、第1の訓練データ116A、第2の訓練データ116B、及び第3の訓練データ116Cを含むことができる。訓練データセット116の各訓練データは、画像セット118に関連することができる。例えば、第1の訓練データ116Aは第1の画像セット118Aを含むことができ、第2の訓練データ116Bは第2の画像セット118Bを含むことができ、第3の訓練データ116Cは第3の画像セット118Cを含ことができる。訓練データセット116は、モデルセット110を訓練するために使用することができる。例えば、第1の画像セット118Aを含む第1の訓練データ116Aは、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するために使用することができる。
【0030】
動作時には、電子装置102を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。オートエンコーダモデル112及びトランスフォーマモデル114は、オートエンコーダモデル112及びトランスフォーマモデル114の精度を高めるために、第1の訓練データ116Aに基づいて微調整することができる。微調整及びオートエンコーダモデル112に関する詳細については、例えば図4(402)にさらに示す。
【0031】
電子装置102は、第1の訓練データ116Aから画像サブセットを選択するように構成することができる。回路202は、第1の画像セット118Aから画像サブセットをランダムに選択することができる。画像サブセットの選択に関する詳細については、例えば図4(404)にさらに示す。
【0032】
電子装置102は、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定するように構成することができる。符号化画像サブセットを決定するために、選択された画像サブセットの各画像をエンコーダモデル112Aに供給することができる。エンコーダモデル112Aは、選択された画像サブセットの各画像を圧縮して符号化することができる。画像サブセットの符号化に関する詳細については、例えば図4(406)にさらに示す。
【0033】
電子装置102は、エンコーダモデル112Aの適用に基づいて、第2の画像セット118Bを含む第2の訓練データ116Bを生成するように構成することができる。生成された第2の訓練データ116Bは、選択された画像サブセットの量子化潜在表現に対応することができる。第2の訓練データ116Bは、選択された画像サブセットと、選択された各画像サブセットの量子化潜在表現とを含む。従って、第2の訓練データ116Bを使用して、画像を量子化潜在空間にマッピングすることに関する情報を転送することができる。第2の訓練データに関する詳細については、例えば図4(408)にさらに示す。
【0034】
電子装置102は、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するように構成することができる。オートエンコーダモデル112の事前訓練は、エンコーダモデル112Aを事前訓練し、学習済みコードブック112Bを更新し、生成器モデル112Cを事前訓練し、識別器モデル112Dも事前訓練することができる。オートエンコーダモデル112の事前訓練に関する詳細については、例えば図4(410)にさらに示す。
【0035】
ある実施形態では、電子装置102を、トランスフォーマモデル114を適用して新たな画像(例えば、新たな合成画像)を生成するように構成することができる。トランスフォーマモデル114は、各新たな画像のトークン列の開始位置に基づいてトークン列を予測するために使用することができる。トークン列の決定に関する詳細については、例えば図5(502)にさらに示す。
【0036】
電子装置102は、学習済みコードブック112Bに基づいて、予測されたトークン列を(「Zq」で示す)量子化潜在表現に変換するように構成することができる。予測された列を量子化潜在表現に変換することに関する詳細については、例えば図5(504)にさらに示す。
【0037】
電子装置102は、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成するように構成することができる。生成器モデル112Cは、量子化潜在表現に基づいて新たな合成画像を生成することができる。トークン列は、トランスフォーマモデル114の適用に基づいて予測することができる。換言すれば、生成器モデル112Cは、トランスフォーマモデル114が予測できるトークン列に基づいて新たな合成画像を生成することができる。生成器モデル112Cは、トークン列に対応する第3の訓練データ116Cを生成することができる。生成器モデルの適用に関する詳細については、例えば図5(506)にさらに示す。
【0038】
電子装置102は、生成された新たな合成画像に対応する第3の画像セット118Cを含む第3の訓練データ116Cを生成するように構成することができる。第3の訓練データ生成に関する詳細については、例えば図5(508)にさらに示す。
【0039】
電子装置102は、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するよう構成することができる。トランスフォーマモデル114の次世代は、前世代のオートエンコーダコンポーネント(例えば、前世代のエンコーダモデル112A、前世代の学習済みコードブック112B、及び前世代の生成器モデル112C)を使用することによって、生成された第3の訓練データ116Cに基づいて事前訓練できる新たなトランスフォーマモデル(Tn)であることができる。トランスフォーマモデルの事前訓練に関する詳細については、例えば図5(510)にさらに示す。
【0040】
ある実施形態では、電子装置102を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C及び識別器モデル112Dを含むことができるオートエンコーダモデル112を微調整するように構成することができる。オートエンコーダモデル112の微調整に関する詳細については、例えば図6Aにさらに示す。
【0041】
電子装置102は、学習済みコードブック112Bに基づいて第1の画像セット118Aにエンコーダモデル112Aを適用して、第1の画像セット118Aの量子化潜在表現に対応できる第1の符号化画像セットを決定するように構成することができる。エンコーダモデル112Aの適用に関する詳細については、例えば図6Aにさらに示す。
【0042】
電子装置102は、第1の訓練データ116Aからの画像サブセットと、画像サブセットの量子化潜在表現とに基づいて、第2の画像データセットを含む第2の訓練データ116Bを生成するように構成することができる。第2の訓練データ116Bの生成に関する詳細については、例えば図6Aにさらに示す。
【0043】
電子装置102は、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するよう構成することができる。オートエンコーダモデル112の事前訓練に関する詳細については、例えば図6Aにさらに示す。
【0044】
電子装置102は、オートエンコーダモデル112の最終世代に基づいてトランスフォーマモデル114を微調整するように構成することができる。トランスフォーマモデル114の微調整に関する詳細については、例えば図6Aにさらに示す。トランスフォーマモデル114の微調整に関する詳細については、例えば図6Aにさらに示す。
【0045】
ある実施形態では、電子装置102を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C及び識別器モデル112Dを含むオートエンコーダモデル112、並びにオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成することができる。オートエンコーダモデル112及びトランスフォーマモデル114の微調整に関する詳細については、例えば図6Bにさらに示す。
【0046】
電子装置102は、第1の訓練データ116Aから画像サブセットを選択するように構成することができる。画像サブセットに関する詳細については、例えば図6Bにさらに示す。
【0047】
電子装置102は、トランスフォーマモデル114を適用して、各新たな合成画像のトークン列をトークン列の開始に基づいて予測するように構成することができる。トークン列の予測に関する詳細については、例えば図6Bにさらに示す。
【0048】
電子装置102は、学習済みコードブック112Bに基づいて、予測されたトークン列を量子化潜在表現に変換するように構成することができる。予測されたトークン列の変換に関する詳細については、例えば図6Bにさらに示す。
【0049】
電子装置102は、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成するように構成することができる。生成器モデル112Cの適用に関する詳細については、例えば図6Bにさらに示す。
【0050】
電子装置102は、生成された新たな合成画像に対応する第3の画像セット118Cを含む第3の訓練データ116Cを生成するように構成することができる。第3の訓練データ116Cの生成に関する詳細については、例えば図6Bにさらに示す。
【0051】
電子装置102は、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するよう構成することができる。トランスフォーマモデル114の事前訓練に関する詳細については、例えば図6Bにさらに示す。
【0052】
本開示の電子装置102は、オートエンコーダモデル112及びトランスフォーマモデル114に対する反復学習モデル(ILM)の適用に基づいて効果的に画像成分を生成することができる。電子装置102は、ILMの適用に基づいて入力画像のための構成表現を見出すことができる。オートエンコーダモデル112は、より速く下流の識別タスクに適応することができ、より良く一般化することができる。さらに、学習済みコードブックのコードブックエントリの解釈可能性を改善することもできる。従って、生成画像の様々な特性は、一群の同様に挙動するコードブックエントリに起因することができる。本開示のトランスフォーマモデル114は、訓練シーケンスを記憶することができる。トランスフォーマモデル114に対するILMの適用は、データ増強法として機能するとともに、トランスフォーマモデル114の訓練の各世代にわたってトランスフォーマモデル114の精度を高めることができる。
【0053】
図2は、本開示の実施形態による、図1の例示的な電子装置を示すブロック図である。図2の説明は図1の要素に関連して行う。図2には電子装置102を示す。電子装置102は、回路202、メモリ204、入力/出力(I/O)装置206、及びネットワークインターフェイス208を含むことができる。入力/出力(I/O)装置206は、ディスプレイ装置210を含むことができる。電子装置102は、オートエンコーダモデル112及びトランスフォーマモデル114を含むモデルセット110をさらに含むことができる。オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。学習済みコードブック112Bはトランスフォーマモデル114に関連することができる。
【0054】
回路202は、電子装置102によって実行される異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。回路202は、オートエンコーダモデル112及びトランスフォーマモデル114を微調整するように構成することができる。回路202は、第1の訓練データ116Aから画像サブセットを選択するように構成することができる。回路202は、選択された画像サブセットにエンコーダモデル112Aを適用するように構成することができる。回路202は、第2の訓練データ116Bを生成するように構成することができる。回路202は、オートエンコーダモデル112を事前訓練するように構成することができる。回路202は、トランスフォーマモデル114を事前訓練するようにさらに構成することができる。回路202は、独立したプロセッサとして実装できる1又は2以上の処理ユニットを含むことができる。ある実施形態では、1又は2以上の処理ユニットを、1又は2以上の特殊処理ユニットの機能をまとめて実行する統合プロセッサ又はプロセッサ群として実装することができる。回路202は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。回路202の実装例は、X86ベースのプロセッサ、グラフィックプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の制御回路であることができる。
【0055】
メモリ204は、回路202によって実行される1又は2以上の命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。メモリ204は、モデルセット110及び(画像セット118を含む)訓練データセット116を記憶するように構成することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードなどを挙げることができる。
【0056】
I/O装置206は、入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。例えば、I/O装置206は、第1の訓練データ116Aに対応する第1のユーザ入力を受け取ることができる。I/O装置206は、オートエンコーダモデル112又はトランスフォーマモデル114の少なくとも一方を事前訓練する命令を示す第2のユーザ入力をさらに受け取ることができる。I/O装置206は、第1の訓練データ116Aに含まれる第1の画像セット118A、第2の訓練データ116Bに含まれる第2の画像セット118B、又は第3の訓練データ116Cに含まれる第3の画像セット118Cのうちの少なくとも1つを表示するようにさらに構成することができる。I/O装置206は、ディスプレイ装置210を含むことができる。I/O装置206の例としては、以下に限定するわけではないが、タッチ画面、ディスプレイ装置(例えば、ディスプレイ装置210)、キーボード、マウス、ジョイスティック、マイク、又はスピーカを挙げることができる。
【0057】
ネットワークインターフェイス208は、通信ネットワーク108を介した電子装置102とサーバ104との間の通信を容易にするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、様々な既知の技術を使用して電子装置102と通信ネットワーク112との間の有線又は無線通信をサポートするように実装することができる。ネットワークインターフェイス208は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、加入者IDモジュール(SIM)カード、又はローカルバッファ回路を含むことができる。
【0058】
ネットワークインターフェイス208は、インターネット、イントラネット、無線ネットワーク、セルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)又はメトロポリタンエリアネットワーク(MAN)などのネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、ロングタームエボリューション(LTE)、第5世代(5G)新無線(NR)、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11a、IEEE802.11b、IEEE802.11g又はIEEE802.11nなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(Wi-MAX)、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス(SMS)などの複数の通信標準、プロトコル及び技術のうちの1つ又は2つ以上を使用するように構成することができる。
【0059】
ディスプレイ装置210は、第1の画像セット118A、第2の画像セット118B及び/又は第3の画像セット118Cを表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ディスプレイ装置210は、ユーザ(例えば、ユーザ120)がディスプレイ装置210を介してユーザ入力を提供できるようにするタッチ画面であることができる。タッチ画面は、抵抗膜式タッチ画面、静電容量式タッチ画面、又は熱式タッチ画面のうちの少なくとも1つであることができる。ディスプレイ装置210は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術、又はその他のディスプレイ装置のうちの少なくとも1つなどの複数の既知の技術を通じて実現することができる。ある実施形態によれば、ディスプレイ装置210は、ヘッドマウント装置(HMD)のディスプレイ画面、スマートメガネ装置、シースルーディスプレイ、投影型ディスプレイ、エレクトロクロミックディスプレイ、又は透明ディスプレイを意味することができる。オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための回路202の様々な動作については、例えば図3でさらに説明する。
【0060】
図3は、本開示の実施形態による、ベクトル量子化敵対的生成ネットワーク(VQGAN)の例示的なシナリオを示す図である。図3の説明は、図1及び図2の要素に関連して行う。図3には例示的なシナリオ300を示す。シナリオ300は、画像302、エンコーダモデル112A、圧縮画像304、量子化潜在表現306、生成器モデル112C、再構成画像308、識別器モデル112D、学習済みコードブック112B、トランスフォーマモデル114、及び識別器出力310を含むことができる。ここでは、シナリオ300に関連する一連の動作について説明する。なお、図3のシナリオ300は例示を目的とするものであり、本開示の範囲を限定するように解釈すべきではない。
【0061】
画像生成のためのVQGANは密度推定モデルであることを観察することができる。例えば、画像生成のためのVQGANの場合には、画像302をエンコーダモデル112Aに通すことができる。エンコーダモデル112Aは、画像302を圧縮することができる。ある例では、画像302の解像度が、「H」の高さ及び「W」の幅に対応することができる。ここでは、圧縮画像304の圧縮高さが「H」、圧縮幅が「W」、チャンネル数が「d」であるように画像302を圧縮することができる。圧縮画像304は、学習済みコードブック112Bを使用して量子化することができる。上述したように、式(2)より、学習済みコードブック112Bに関連する量子化関数
は、潜在表現の「h×w」格子内の「d」次元ベクトルの各ベクトルを学習済みコードブック112Bからの最も近いエントリに置き換えて量子化潜在表現(「zq」)306を取得することができる。量子化潜在表現306は生成器モデル112Cに供給することができる。生成器モデル112Cは、量子化潜在表現306に基づいて画像を再構成して再構成画像308を取得することができる。再構成画像308は、識別器出力310を提供できる識別器モデル112Dに入力として提供することができる。識別器出力310は、生成画像308が本物であるか、それとも偽物であるかを分析することができる。
【0062】
ある実施形態では、オートエンコーダモデル112及びトランスフォーマモデル114の微調整、並びにオートエンコーダモデル112の事前訓練が、反復学習モデル(ILM)に対応することができる。反復学習モデル(ILM)は、人間の自然言語に重点を置くことができる認知科学ベースの学習モデルであることができる。反復学習モデルによれば、自然言語の進化は、言語の他の側面よりも言語再生(language reproduction)を優先できる適応的学習過程とみなすことができる。例えば、ある言語が世代を超えて(例えば、親から子へ)存在し続ける場合には、その言語が構造保持的(structure preserving)であることが必要となり得る。言語の構造保持属性は、その言語における構成性及び規則性を促すことにより、世代間の(例えば、子供の心への)ボトルネックを通過するにもかかわらず言語の再生を容易にすることができる。言語の構成要素を深く学習することで、馴染みのない文及び新手の文を一般化する人間の能力が向上し、無意味な文でさえ理解できるようになると考えられる。ILMは、4つの構成要素、すなわち意味空間、信号空間、少なくとも1つの学習エージェント、及び少なくとも1つの成人エージェント(adult agent)を有する。意味空間は、言語が伝えると考えられる一連の概念であることができる。信号空間は、概念を表すために使用できる一連の可能な記号であることができる。例えば、英語の信号空間は、長さに制約のないa~zの文字列によって表すことができる。各ILMエージェントは、意味のための信号を生成するメカニズム、アルゴリズム又は技法であることができる。メカニズムは、各意味のための信号を生成することができる。アルゴリズムは、意味空間から信号空間へのマッピングであることができる。アルゴリズムは、(意味、信号)のペアを所与とする表現を誘導することができる。成人エージェントは、意味空間のサブセットのための信号を生成することができる。意味及び信号のサブセットは、次の学習世代のための訓練データの構築に使用することができる。各世代は、限られた訓練データの情報のギャップを埋めようと試みることができる。訓練過程は世代を超えて継続することができる。
【0063】
図4は、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な処理パイプラインを示す図である。図4の説明は、図1図2及び図3の要素に関連して行う。図4には、402~410の例示的な動作を示す例示的な処理パイプライン400を示す。例示的な動作402~410は、例えば図1の電子装置102又は図2の回路202などのいずれかのコンピュータシステムによって実行することができる。例示的な処理パイプライン400は、モデルセット110をさらに示す。モデルセット110は、オートエンコーダモデル112及びトランスフォーマモデル114を含むことができる。オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。
【0064】
402において、オートエンコーダモデル及びトランスフォーマモデルの微調整のための動作を実行することができる。ある実施形態では、回路202を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。なお、事前訓練された機械学習(ML)の微調整は、(特定のタスクのために事前訓練しておくことができる)事前訓練されたMLを、MLモデルが別のタスクを実行できるように微調整されるよう適合させることができると理解することができる。さらに、事前訓練されたMLモデルの微調整は、MLモデルの精度を高めることもできる。なお、オートエンコーダモデル112及びトランスフォーマモデル114もMLモデルであることができる。従って、オートエンコーダモデル112及びトランスフォーマモデル114は、第1の訓練データ116Aに基づいて微調整することができる。
【0065】
ある実施形態では、オートエンコーダモデル112が、ベクトル量子化敵対的生成ネットワーク(VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応することができる。CNNモデルは、画像に関連する用途に使用できる深層学習ネットワークのクラスであると理解することができる。CNNモデルは、1又は2以上のCNN層と、後続の全結合層とを含むことができる。CNNモデルは、シフト不変かつ空間不変であることができ、従って画像分類及び自然言語処理などの下流のタスクに使用することができる。ベクトル量子化敵対的生成ネットワークは敵対的生成ネットワークモデルの一種であることができ、生成器モデル112C及び識別器モデル112Dなどの2つのニューラルネットワークモデルを含むことができる。敵対的生成ネットワークモデルの生成器モデル112C及び識別器モデル112Dは、競合し合って精度を高めることができる。ベクトル量子化敵対的生成ネットワークは、(第1の訓練データ116Aなどの)データセットの変形形態を作成するために使用することができる。これらの変形形態に基づいて(第1の訓練データ116Aなどの)データセットを増強することができる。ある実施形態では、生成器モデル112C及び識別器モデル112Dの両方を別々に訓練することができる。その後に、生成器モデル112Cに図3の量子化潜在表現306(例えば、一連の記号)を供給することができる。その後、生成器モデル112Cは、図3の生成画像308などの出力を生成することができる。さらに、図3の画像302などの実際のサンプル又はグランドトゥルースを使用して識別器モデル112Dを訓練することができる。その後、生成器モデル112Cの出力を識別器モデル112Dに供給することができる。識別器モデル112Dは、生成器モデル112Cの出力が実際のサンプルに類似しているかどうかを判定することができる。換言すれば、識別器モデル112Dは、生成画像308が(実際のサンプルと区別可能な)偽の画像であるか、それとも(実際のサンプルに類似する)本物の画像であるかを判定することができる。ある例では、識別器モデル112Dが、生成器モデル112Cの出力が実際のサンプルに類似している時には2値出力「1」を提供し、生成器モデル112Cの出力が実際のサンプルに類似していない時には2値出力「0」を提供することができる。
【0066】
404において、第1の訓練データから画像サブセットを選択する動作を実行することができる。ある実施形態では、回路202を、第1の訓練データ116Aから画像サブセットを選択するように構成することができる。第1の訓練データ116Aは、第1の画像セット118Aを含む。回路202は、第1の画像セット118Aから画像サブセットをランダムに選択することができる。例えば、回路202は、第1の画像セット118Aの1000枚の画像から100枚の画像を画像サブセットとしてランダムに選択することができる。
【0067】
406において、エンコーダモデル適用動作を実行することができる。回路202は、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定するように構成することができる。選択された画像サブセットの各画像は、エンコーダモデル112Aに受け渡される。エンコーダモデル112Aは、選択された画像サブセットの各画像を圧縮して符号化することができる。例えば、学習済みコードブック112Bに基づいて、選択された画像サブセットの各画像の画素に意味を割り当てて符号化することができる。ある実施形態では、符号化画像サブセットが量子化潜在表現に対応することができる。
【0068】
408において、第2の訓練データ生成動作を実行することができる。ある実施形態では、回路202を、エンコーダモデル112Aの適用に基づいて、第2の画像セット118Bを含む第2の訓練データ116Bを生成するように構成することができる。生成された第2の訓練データ116Bは、選択された画像サブセットの量子化潜在表現に対応することができる。第2の訓練データ116Bは、選択された画像サブセットと、選択された各画像サブセットの量子化潜在表現とを含むことができる。従って、第2の訓練データ116Bを使用して、画像を量子化潜在にマッピングすることに関する情報を転送することができる。第2の訓練データ116Bは以下の式(3)によって表すことができ、
(3)
ここで、
は第2の訓練データ116Bであることができ、「x」は選択された画像サブセットであることができ、「zqn-1」は選択された画像サブセットの量子化潜在表現であることができ、「Dr」は第1の訓練データ116Aであることができ、「En-1(x)」はエンコーダモデル112Aであることができる。ここでは、「En-1(x)」が、エンコーダモデル112Aの前世代に対応することができる。
【0069】
ある実施形態では、回路202を、選択された画像サブセットに対するエンコーダモデル112Aの適用に基づいて、選択された画像サブセットを画像空間から信号空間にマッピングするようにさらに構成することができる。画像空間は、ユーザが伝えたいと望む画像の概念を含むことができる意味空間とみなすことができる。信号空間は、画像を表すことができるトークン列又はインデックス列であることができる。選択された画像サブセットの各々は、画像空間から信号空間にマッピングすることができる。
【0070】
ある実施形態では、信号空間が学習済みコードブック112Bに対応することができる。例えば、言語領域における信号空間は、長さに制約のないa~zの文字列によって表すことができる。別の例では、数理論理領域における信号空間を一連の英数字によって表すことができる。
【0071】
ある実施形態では、選択された画像サブセットの量子化潜在表現を、選択された画像サブセットに関連する多次元コードベクトルセットの各ベクトルを学習済みコードブック112Bからの最も近いエントリに置き換えることに基づいて決定することができる。この例では、選択された画像サブセットの各画像が、行の数を「n」として列の数を「m」とする「n×m」の解像度を有することができる。各ベクトルは画像の行に対応することができる。従って、各行の画素値は、以下に限定するわけではないが、長さに制約のない文字a~zの文字列又は一連の英数字などの、学習済みコードブック112Bからの最も近いエントリに置き換えることができる。
【0072】
410において、オートエンコーダモデルの事前訓練動作を実行することができる。ある実施形態では、回路202を、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するよう構成することができる。オートエンコーダモデル112の事前訓練は、エンコーダモデル112Aの事前訓練、学習済みコードブック112Bの更新、生成器モデル112Cの事前訓練、及び識別器モデル112Dの事前訓練に対応することができる。なお、オートエンコーダモデル112の事前訓練は、生成された第2の訓練データ116Bに基づいてオートエンコーダモデル112を再訓練してオートエンコーダモデル112の次世代を取得することができると理解することができる。
【0073】
ある実施形態では、回路202を、エンコーダモデル112A、学習済みコードブック112B及び生成器モデル112Cに関連する第1の損失関数を決定するようにさらに構成することができる。回路202は、オートエンコーダモデル112に関連する第2の損失関数を決定するようにさらに構成することができる。回路202は、エンコーダモデル112Aに関連する第3の損失関数を決定するようにさらに構成することができる。オートエンコーダモデル112の事前訓練は、決定された第1の損失関数、決定された第2の損失関数、及び決定された第3の損失関数にさらに基づくことができる。なお、エンコーダモデル112A、生成器モデル112C及び識別器モデル112Dはランダムに初期化することができ、以下のような式(4)に従う目的関数の最適化に基づいて事前訓練することができ、
(4)
ここで、「QILM」は目的関数であることができ、「LVQ」は第1の損失関数であることができ、「LGAN」は第2の損失関数であることができ、「LILM」は第3の損失関数であることができ、「En」はエンコーダモデル112Aであることができ、「Zn」は学習済みコードブック112Bであることができ、「Gn」は生成器モデル112Cであることができ、「λ」は、目的関数「QILM」に対する第2の損失関数「LGAN」の寄与を制御できるハイパーパラメータであることができる。同様に、「γ」は、目的関数「QILM」に対する第3の損失関数「LILM」の寄与を制御できるハイパーパラメータであることができる。
【0074】
ある実施形態では、第3の損失関数の決定が、学習済みコードブック112Bに対する、オートエンコーダモデル112の次世代のエンコーダモデル112Aに関連する第2のノルムに基づくことができる。第3の損失関数は、以下の式(5)に従って決定することができ、
(5)
ここで、「En(x)」は次世代エンコーダモデル112Aであることができ、
は前世代の学習済みコードブック112Bであることができる。
【0075】
ある実施形態では、オートエンコーダモデル112及びトランスフォーマモデル114の微調整、並びにオートエンコーダモデル112の事前訓練が、反復学習モデル(ILM)に対応することができる。なお、ある実施形態では、回路202を、トランスフォーマモデル114を画像成分生成過程のために事前訓練するようにさらに構成することができる。トランスフォーマモデル114の事前訓練のための例示的な処理パイプラインについては、例えば図5でさらに説明する。
【0076】
図5は、本開示の実施形態による、トランスフォーマモデルを事前訓練するための例示的な処理パイプラインを示す図である。図5の説明は、図1図2図3及び図4の要素に関連して行う。図5には、トランスフォーマモデル114を事前訓練するための502~510の例示的な動作を示す例示的な処理パイプライン500を示す。例示的な動作502~510は、例えば図1の電子装置102又は図2の回路202などのいずれかのコンピュータシステムによって実行することができる。例示的な処理パイプライン500には、トランスフォーマモデル114をさらに示す。
【0077】
502において、トランスフォーマモデル適用動作を実行することができる。ある実施形態では、回路202を、トランスフォーマモデル114を適用して、新たな各合成画像のトークン列(「S」)をトークン列の開始に基づいて予測するように構成することができる。例えば、トランスフォーマモデル114を使用して、以下のような式(6)に従って、トークンの事前分布に基づいてトークンの接合分布(joint distribution)を決定することができ、
(6)
ここで、「p(S)」はトークンの接合分布であることができ、「Si」は「i番目」のトークンであることができ、「h×w」は潜在表現に関連する格子の次元に対応することができる。ある実施形態では、トランスフォーマモデル114の適用前に、回路202が、トークン列を予測するために図4の動作402~410を実行することができる。
【0078】
504において、予測されたトークン列の変換動作を実行することができる。ある実施形態では、回路202を、学習済みコードブック112Bに基づいて、インデックス列(「S」)として知られている予測されたトークン列を量子化潜在表現(「Zq」)に変換するように構成することができる。ある実施形態では、予測されたトークン列が、学習済みコードブック112Bからのインデックス列に対応することができる。インデックスは、画像の圧縮表現を量子化するために使用できる学習済みコードブック112Bの要素であることができる。例えば、エンコーダモデル112Aは画像の画素値を符号化し、学習済みコードブック112Bからの対応するインデックスと相関させて画像の量子化潜在表現を取得することができる。符号化された画素値に対応するインデックスを列の形で配置してインデックス列を取得することができる。
【0079】
506において、生成器モデル適用動作を実行することができる。ある実施形態では、回路202を、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成するように構成することができる。説明したように、生成器モデル112Cは、量子化潜在表現に基づいて画像を生成することができる。トークン列は、トランスフォーマモデル114の適用に基づいて決定することができる。生成器モデル112Cは、トークン列に対応する第3の訓練データ116Cを生成することができる。
【0080】
508において、第3の訓練データ生成動作を実行することができる。ある実施形態では、回路202を、生成された新たな合成画像に対応する第3の画像データセットを含む第3の訓練データ116Cを生成するように構成することができる。第3の画像データセット118Cは、以下の式(7)に基づいて決定することができ、
(7)
ここで、
は、生成された第3の訓練データ116Cであることができ、「x’」は第3の画像セット118Cであることができ、「Gn-1()」は生成器モデル112Cであることができ、「qs(.)」は、トークン列(「Si、j」)を学習済みコードブック112B(「Z」)からの対応するエントリに置き換えることに基づいてトークン列(S)を潜在表現(「zq」)にマッピングすることができ、「Tn-1()」はトランスフォーマモデル114であることができ、「sos」はトークン列(「S」)の開始であることができる。
【0081】
510において、トランスフォーマモデル事前訓練動作を実行することができる。ある実施形態では、回路202を、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するよう構成することができる。トランスフォーマモデル114の次世代は、前世代のオートエンコーダコンポーネントを使用することによって式(7)の生成された第3の訓練データ「D’n」に基づいて事前訓練できる新たなトランスフォーマモデル(Tn)であることができる。例えば、前世代のオートエンコーダコンポーネントとしては、以下に限定するわけではないが、前世代のエンコーダモデル112A(「En-1」)、前世代の学習済みコードブック112B(「Zn-1」)、及び前世代の生成器モデル112C(「Gn-1」)を挙げることができる。
【0082】
図6Aは、本開示の実施形態による、オートエンコーダモデルに対する反復学習の適用に基づく画像成分生成のための例示的な処理パイプラインを示す図である。図6Aの説明は、図1図2図3図4及び図5の要素に関連して行う。図6Aには、オートエンコーダモデル112に対する反復学習の適用に基づく画像成分生成のための602~610の例示的な動作を示す例示的な処理パイプライン600Aを示す。例示的な動作602~610は、例えば図1の電子装置102又は図2の回路202などのいずれかのコンピュータシステムによって実行することができる。例示的な処理パイプライン600Aには、オートエンコーダモデル112及びトランスフォーマモデル114を含むモデルセット110をさらに示す。オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。
【0083】
602において、オートエンコーダモデルの微調整動作を実行することができる。ある実施形態では、回路202を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいてオートエンコーダモデル112を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。オートエンコーダモデル112及びトランスフォーマモデル114は、オートエンコーダモデル112及びトランスフォーマモデル114の精度を高めるために、第1の訓練データ116Aに基づいて微調整することができる。さらに、オートエンコーダモデル112及びトランスフォーマモデル114の微調整は、オートエンコーダモデル112及びトランスフォーマモデル114を画像生成用途のために調整することができる。ある実施形態では、オートエンコーダモデル112が、ベクトル量子化敵対的生成ネットワーク(VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応することができる。微調整及びオートエンコーダモデル112に関する詳細については、例えば図4(402)にさらに示している。
【0084】
604において、エンコーダモデル適用動作を実行することができる。回路202は、学習済みコードブック112Bに基づいて第1の画像セット118Aにエンコーダモデル112Aを適用して、第1の画像セット118Aの量子化潜在表現に対応できる第1の符号化画像セットを決定するように構成することができる。説明したように、エンコーダモデル112Aは、第1の画像セット118Aの各画像を圧縮して符号化することができる。ある実施形態では、回路202を、第1の画像セットに対するエンコーダモデル112Aの適用に基づいて、第1の画像セットを画像空間から信号空間にマッピングするようにさらに構成することができる。エンコーダモデルの適用に関する詳細については、例えば図4(406)にさらに示している。
【0085】
606において、第2の訓練データ生成動作を実行することができる。ある実施形態では、回路202を、第1の訓練データ116Aからの画像サブセット及び画像サブセットの量子化潜在表現に基づいて、第2の画像データセット(例えば、第2の画像セット118B)を含む第2の訓練データ(例えば、第2の訓練データ116B)を生成するようにさらに構成することができる。第2の訓練データの生成に関する詳細については、例えば図4(408)にさらに示している。
【0086】
608において、オートエンコーダ事前訓練動作を実行することができる。回路202は、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するようさらに構成することができる。オートエンコーダモデル112の次世代は、前世代のオートエンコーダコンポーネントを使用することによって生成された第2の訓練データ116Bに基づいて事前訓練できる新たなオートエンコーダモデル(「En」)であることができる。オートエンコーダモデル112の事前訓練に関する詳細については、例えば図4(410)にさらに示している。
【0087】
610において、トランスフォーマモデル微調整動作を実行することができる。回路202は、オートエンコーダモデル(「En-1」)の最終世代に基づいてトランスフォーマモデル114を微調整するようにさらに構成することができる。前世代のオートエンコーダコンポーネントの例としては、以下に限定するわけではないが、前世代のエンコーダモデル112A(「En-1」)、前世代の学習済みコードブック112B(「Zn-1」)、及び前世代の生成器モデル112C(「Gn-1」)を挙げることができる。ある実施形態では、オートエンコーダモデル112の微調整、オートエンコーダモデル112の事前訓練、及びトランスフォーマモデル114の微調整が、反復学習モデル(ILM)に対応することができる。反復学習モデルに関する詳細については、例えば図3にさらに示している。
【0088】
図6Bは、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な処理パイプラインを示す図である。図6Bの説明は、図1図2図3図4図5及び図6Aの要素に関連して行う。図6Bには、オートエンコーダモデル112及びトランスフォーマモデル114に対する反復学習の適用に基づく画像成分生成のための612~622の例示的な動作を示す例示的な処理パイプライン600Bを示す。例示的な動作612~622は、例えば図1の電子装置102又は図2の回路202などのいずれかのコンピュータシステムによって実行することができる。例示的な処理パイプライン600Bには、オートエンコーダモデル112及びトランスフォーマモデル114を含むモデルセット110をさらに示す。オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。
【0089】
612において、オートエンコーダモデル及びトランスフォーマモデルの微調整動作を実行することができる。ある実施形態では、回路202を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、トランスフォーマモデル114を含む学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。オートエンコーダモデル112及びトランスフォーマモデル114は、オートエンコーダモデル112及びトランスフォーマモデル114の精度を高めるために、第1の訓練データ116Aに基づいて微調整することができる。さらに、オートエンコーダモデル112及びトランスフォーマモデル114の微調整は、オートエンコーダモデル112及びトランスフォーマモデル114を画像生成用途のために調整することができる。ある実施形態では、オートエンコーダモデル112が、ベクトル量子化敵対的生成ネットワーク(VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応することができる。微調整、オートエンコーダモデル及びトランスフォーマモデルに関する詳細については、例えば図4(402)にさらに示している。
【0090】
614において、トランスフォーマモデル適用動作を実行することができる。ある実施形態では、回路202を、トランスフォーマモデル114を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測するようにさらに構成することができる。トランスフォーマモデルの適用に関する詳細については、例えば図5(502)にさらに示している。
【0091】
616において、予測されたトークン列決定の変換動作を実行することができる。ある実施形態では、回路202は、学習済みコードブック112Bに基づいて、予測されたトークン列Sを量子化潜在表現(「Zq」)に変換するようにさらに構成することができる。トークン列の決定に関する詳細については、例えば図5(504)にさらに示している。
【0092】
618において、生成器モデル適用動作を実行することができる。ある実施形態では、回路202を、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成するようにさらに構成することができる。説明したように、生成器モデル112Cは、量子化潜在表現に基づいて画像を生成することができる。トークン列は、トランスフォーマモデル114の適用に基づいて決定することができる。さらに、生成器モデル112Cは、トークン列に対応する第3の訓練データ116Cを生成することができる。
【0093】
620において、第3の訓練データ生成動作を実行することができる。ある実施形態では、回路202を、生成された新たな合成画像に対応する第3の画像データセット(例えば、第3の画像セット118C)を含む第3の訓練データ(例えば、第3の訓練データ116C)を生成するようにさらに構成することができる。第3の訓練データ116Cは、以下の式(8)に基づいて決定することができ、
(8)
ここで、
は生成された第3の訓練データであることができ、「x’」は第3の画像データセットであることができ、「Gn-1()」は生成器モデル112Cであることができ、「qs(.)」は、トークン列(「Si、j」)を学習済みコードブック112Bからの対応するエントリ(「Z」)に置き換えることによってトークン列(「S」)を潜在表現(「zq」)にマッピングすることができ、「Tn-1()」は、トランスフォーマモデル114であることができ、「sos」はトークン列(「S」)の開始であることができる。
【0094】
622において、トランスフォーマモデル事前訓練動作を実行することができる。回路202は、生成された第3の訓練データ(例えば、第3の訓練データ116C)に基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するようさらに構成することができる。トランスフォーマモデル114の次世代は、前世代のオートエンコーダコンポーネントを使用することによって式(8)の生成された第2の訓練データ
に基づいて事前訓練された新たなトランスフォーマモデル(Tn)であることができる。前世代のオートエンコーダコンポーネントの例としては、以下に限定するわけではないが、前世代のエンコーダモデル112A(「En-1」)、前世代の学習済みコードブック112B(「Zn-1」)、及び前世代の生成器モデル112C(「Gn-1」)を挙げることができる。ある実施形態では、オートエンコーダモデル112及びトランスフォーマモデル114の微調整、並びにトランスフォーマモデル114の事前訓練が、反復学習モデル(ILM)に対応することができる。反復学習モデルに関する詳細については、例えば図3にさらに示している。
【0095】
図7Aは、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルの微調整の例示的なシナリオを示す図である。図7Aの説明は、図1図2図3図4図5及び図6の要素に関連して行う。図7Aには例示的なシナリオ700Aを示す。シナリオ700Aは、訓練データセット116、第1の画像セット702、エンコーダモデル112A、学習済みコードブック112B、トークン列(S)704A、トランスフォーマモデル114、トークン列(S’)704B、生成/再構成画像706A、及び識別器モデル112Dを含むことができる。シナリオ700Aには、動作708をさらに示す。ここでは、シナリオ700Aに関連する一連の動作について説明する。
【0096】
例えば、図7Aからは、回路202が(第1の画像セット702を含む)第1の訓練データに基づいてオートエンコーダモデル112及びトランスフォーマモデル114を微調整することを観察することができる。オートエンコーダモデル112の微調整は、エンコーダモデル112Aの微調整、学習済みコードブック112Bの更新、トークン列(S)の生成/更新704A、及び識別器モデル112Dの微調整に対応することができる。ここでは、第1の画像セット702を入力としてエンコーダモデル112Aに受け渡すことができる。エンコーダモデル112Aは、第1の画像702を符号化して、トークン列(S)704Aに変換できる量子化潜在表現を決定する。量子化潜在表現は、生成器モデル112Cに入力として提供することができる。生成器モデル112Cは、第1の符号化画像セット702に基づいて生成/再構成画像706Aを決定することができる。再構成画像706Aは、識別器モデル112Dに供給することができる。識別器モデル112Dの出力は、再構成画像706Aが本物であるか否かを判定するために使用することができる。708において、再構成画像706Aが本物であるか否かを判定する動作を実行することができる。回路202は、再構成画像706Aが本物であるか否かを判定することができる。再構成画像706Aの判定については、例えば図4でさらに説明している。
【0097】
図7Bは、本開示の実施形態による、第2のデータ及び第3のデータの決定のための例示的なシナリオを示す図である。図7Bの説明は、図1図2図3図4図5図6A図6B及び図7Aの要素に関連して行う。図7Bには例示的なシナリオ700Bを示す。シナリオ700Bは、合成データ生成710のためのブロック図と、第2のデータ決定718のためのブロック図とを含むことができる。合成データ生成710のためのブロック図は、トランスフォーマモデル114、予測されたトークン列(S’)712、生成器モデル112C、学習済みコードブック112B、第3の画像データセット714、及び第3の訓練データ716を含むことができる。第2のデータ決定718のためのブロック図は、訓練データセット116、第1の画像セット702、エンコーダモデル112A、学習済みコードブック112B、量子化潜在表現306、生成器モデル112C、生成/再構成画像706B、及び第2の訓練データ720を含むことができる。ここでは、シナリオ700Bに関連する一連の動作について説明する。
【0098】
例えば、図7Bからは、第3の訓練データ716を合成データと呼ぶこともできることを観察することができる。トランスフォーマモデル114から取得されたトークン列(S’)712は、生成器モデル112Cに入力として提供することができる。生成器モデル112Cは、トークン列(S’)712及び学習済みコードブック112Bに基づいて第3の画像データセット714を生成することができる。例えば、トークン列(S’)712は、学習済みコードブック112Bから量子化潜在表現にマッピングすることができる。生成器モデル112Cは、第3の訓練データ716の各画像に関連する画素を決定するために使用することができる。第3の訓練データ716からは、第3の画像データセット714を決定することができる。図7Bからは、トークン列(S)704Aを決定するために第1の画像セット702をエンコーダモデル112Aに入力として提供できることを観察することもできる。トークン列(S)704A及び第1の画像セット702は、第2の訓練データ720を決定するために使用することができる。第2の訓練データの生成については、例えば図4及び図6Aでさらに説明している。第3の訓練データの生成については、例えば図5及び図6Bでさらに説明している。
【0099】
図7Cは、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルの事前訓練のための例示的なシナリオを示す図である。図7Cの説明は、図1図2図3図4図5図6A図6B図7A及び図7Bの要素に関連して行う。図7Cには例示的なシナリオ700Cを示す。シナリオ700Cは、トランスフォーマ事前訓練722のためのブロック図及びオートエンコーダ事前訓練726のためのブロック図を含むことができる。トランスフォーマ事前訓練722のためのブロック図は、第3の訓練データ716、第3の画像データセット714、エンコーダモデル112A、トークン列(S)704A、トークン列(S’)704B、トランスフォーマモデル(新)724、及び学習済みコードブック112Bを含むことができる。オートエンコーダ事前訓練726のためのブロック図は、第2の訓練データ720、第2の画像セット728、エンコーダモデル(新)730、トークン列(S)704A、学習済みコードブック112B、生成器モデル(新)732、及び識別器モデル(新)734を含むことができる。ここでは、シナリオ700Cに関連する一連の動作について説明する。
【0100】
なお、図7B及び図7Cは、知識移転フェーズ(knowledge transfer phase)と呼ぶことができる。知識移転フェーズの実行の各エポック/反復の最後には、オリジナルデータセットに基づいてオートエンコーダモデル112及びトランスフォーマモデル114の新世代のための微調整フェーズを実行することができる。例えば、図7Cからは、トランスフォーマモデル(新)724がトランスフォーマモデル114の次世代であることを観察することができる。エンコーダモデル(新)730は、エンコーダモデル112Aの次世代であることができる。さらに、生成器モデル(新)732は、生成器モデル112Cの次世代であることができる。識別器モデル(新)734は、識別器モデル112Dの次世代であることができる。トランスフォーマ事前訓練722では、トランスフォーマモデル(新)724などのトランスフォーマモデル114の次世代を生成することができる。オートエンコーダ事前訓練726では、エンコーダモデル112Aの次世代(例えば、エンコーダモデル(新)730)、生成器モデル112Cの次世代(例えば、生成器モデル(新)732)、及び識別器モデル112Dの次世代(例えば、識別器モデル(新)734)を生成することができる。トランスフォーマ事前訓練722は、第3の訓練データ716に基づいて実行することができる。オートエンコーダ事前訓練726は、第2の訓練データ720に基づいて実行することができる。オートエンコーダモデルの事前訓練については、例えば図4でさらに説明している。トランスフォーマモデルの事前訓練については、例えば図5及び図6Bでさらに説明している。
【0101】
本開示の電子装置102は、オートエンコーダモデル112及びトランスフォーマモデル114に対する反復学習モデル(ILM)の適用に基づいて効果的に画像成分を生成することができる。さらに、VQGANモデルに対するILMの適用は、入力画像の構成表現を見出すことができるモデルをもたらすことができる。VQGANモデルは、不要な入力画像の詳細ではなく基本的な成分を学習しておくことができるので、オートエンコーダモデル112などのVQGANモデルのオートエンコーダコンポーネントは、より速く下流の識別タスクに適応してより良く一般化することができる。さらに、VQGANモデルにILMを適用することで、学習済みコードブック112Bのコードブックエントリの解釈可能性を改善することもできる。従って、生成画像の様々な特性は、画像の高さを「h」として幅を「w」とすることができる「h×w」の潜在表現格子上の同じ空間位置に存在する場合、一群の同様に挙動するコードブックエントリに起因することができる。トランスフォーマモデル114は、訓練シーケンスの記憶に弱みを有することがある。従って、トランスフォーマモデル114にILMを適用することで、記憶のリスクを抑えることによって生成画像の多様性を高めることができる。例えば、トランスフォーマモデル114に対するILMの適用は、データ増強法として機能することができる。
【0102】
なお、図7A図7B及び図7Cのシナリオ700A、700B及び700Cは例示を目的とするものであり、本開示の範囲を限定するように解釈すべきではない。
【0103】
図8は、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な方法の動作を示すフローチャートである。図8の説明は、図1図2図3図4図5図6A図6B図7A図7B及び図7Cの要素に関連して行う。図8にはフローチャート800を示す。フローチャート800は802~812の動作を含むことができ、図1の電子装置102又は図2の回路202によって実行することができる。フローチャート800は、802から開始して804に進むことができる。
【0104】
804において、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C及び識別器モデル112Dを含むことができるオートエンコーダモデル112、並びにオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整することができる。ある実施形態では、回路202を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。説明したように、オートエンコーダモデル112及びトランスフォーマモデル114は、オートエンコーダモデル112及びトランスフォーマモデル114の精度を高めるために、第1の訓練データ116Aに基づいて微調整することができる。微調整及びオートエンコーダモデル112に関する詳細については、例えば図4(402)にさらに示している。
【0105】
806において、第1の訓練データ116Aから画像サブセットを選択することができる。ある実施形態では、回路202を、第1の訓練データ116Aから画像サブセットを選択するように構成することができる。回路202は、第1の画像セット118Aから画像サブセットをランダムに選択することができる。画像サブセットの選択に関する詳細については、例えば図4(404)にさらに示している。
【0106】
808において、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定することができる。ある実施形態では、回路202を、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定するように構成することができる。選択された画像サブセットの各画像は、エンコーダモデル112Aに供給することができる。エンコーダモデル112Aは、選択された画像サブセットの各画像を圧縮して符号化することができる。画像サブセットの符号化に関する詳細については、例えば図4(406)にさらに示している。
【0107】
810において、エンコーダモデル112Aの適用に基づいて、選択された画像サブセットの量子化潜在表現に対応できる、第2の画像セット118Aを含む第2の訓練データ116Bを生成することができる。ある実施形態では、回路202を、エンコーダモデル112Aの適用に基づいて、第2の画像セット118Aを含む第2の訓練データ116Bを生成するように構成することができる。生成された第2の訓練データ116Bは、選択された画像サブセットの量子化潜在表現に対応することができる。第2の訓練データ116Bは、選択された画像サブセットと、選択された各画像サブセットの量子化潜在表現とを含むことができる。従って、第2の訓練データ116Bを使用して、画像を量子化潜在表現にマッピングすることに関する情報を転送することができる。第2の訓練データの生成に関する詳細については、例えば図4(408)にさらに示している。
【0108】
812において、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練することができる。ある実施形態では、回路202を、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するよう構成することができる。オートエンコーダモデル112の事前訓練は、エンコーダモデル112Aを事前訓練し、学習済みコードブック112Bを更新し、生成器モデル112Cを事前訓練し、識別器モデル112Dを事前訓練することができる。オートエンコーダモデルの事前訓練に関する詳細については、例えば図4(410)にさらに示している。制御は終了に進むことができる。
【0109】
フローチャート800については、804、806、808、810及び812などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。
【0110】
図9は、本開示の実施形態による、トランスフォーマモデルを事前訓練する例示的な方法の動作を示すフローチャートである。図9の説明は、図1図2図3図4図5図6.A、図6B図7A図7B図7C及び図8の要素に関連して行う。図9にはフローチャート900を示す。フローチャート900は、902~912の動作を含むことができ、図1の電子装置102又は図2の回路202によって実行することができる。フローチャート900は、902から開始して904に進むことができる。
【0111】
904において、トランスフォーマモデル114を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測することができる。ある実施形態では、回路202を、トランスフォーマモデル114を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測するように構成することができる。トランスフォーマモデルの適用に関する詳細については、例えば図5(502)にさらに示している。
【0112】
906において、学習済みコードブック112Bに基づいて、予測されたトークン列を量子化潜在表現に変換することができる。ある実施形態では、回路202を、学習済みコードブック112Bに基づいて、予測されたトークン列を量子化潜在表現に変換するように構成することができる。トークン列の決定に関する詳細については、例えば図5(504)にさらに示している。
【0113】
908において、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成することができる。ある実施形態では、回路202を、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成するように構成することができる。生成器モデル112Cは、量子化潜在表現に基づいて新たな合成画像を生成することができる。トークン列は、トランスフォーマモデル114の適用に基づいて決定することができ、生成器モデル112Cは、トークン列に対応する第3の訓練データ116Cを生成することができる。生成器モデルの適用に関する詳細については、例えば図5(506で)にさらに示している。
【0114】
910において、第3の画像セット118Cを含む第3の訓練データ116Cを生成することができる。ある実施形態では、回路202を、生成された新たな合成画像に対応する第3の画像セット118Cを含む第3の訓練データ116Cを生成するように構成することができる。第3の訓練データ生成に関する詳細については、例えば図5(508)にさらに示している。
【0115】
912において、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練することができる。ある実施形態では、回路202を、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するよう構成することができる。トランスフォーマモデル114の次世代は、前世代のオートエンコーダコンポーネント(例えば、前世代のエンコーダモデル112A(「En-1」)、前世代の学習済みコードブック112B(「Zn-1」)、及び前世代の生成器モデル112C(「Gn-1」)を使用することによって、生成された第3の訓練データ
に基づいて事前訓練できる新たなトランスフォーマモデル(「Tn」)であることができる。トランスフォーマモデルの事前訓練に関する詳細については、例えば図5(510)にさらに示している。制御は終了に進むことができる。
【0116】
フローチャート900は、904、906、908、910及び912などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。
【0117】
図10は、本開示の実施形態による、オートエンコーダモデルに対する反復学習の適用に基づく画像成分生成のための例示的な方法の動作を示すフローチャートである。図10の説明は、図1図2図3図4図5図6A図6B図7A図7B図7C図8及び図9の要素に関連して行う。図10にはフローチャート1000を示す。フローチャート1000は1002~1012の動作を含み、図1の電子装置102又は図2の回路202によって実行することができる。フローチャート1000は、1002から開始して1004に進むことができる。
【0118】
1004において、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C及び識別器モデル112Dを含むことができるオートエンコーダモデル112を微調整することができる。ある実施形態では、回路202を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいてオートエンコーダモデル112を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、学習済みコードブック112B、トランスフォーマモデル114、生成器モデル112C、及び識別器モデル112Dを含むことができる。オートエンコーダモデル112及びトランスフォーマモデル114は、オートエンコーダモデル112及びトランスフォーマモデル114の精度を高めるために、第1の訓練データ116Aに基づいて微調整することができる。オートエンコーダモデル112の微調整に関する詳細については、例えば図6A(602)にさらに示している。
【0119】
1006において、学習済みコードブック112Bに基づいて第1の画像セット118Aにエンコーダモデル112Aを適用して、第1の画像セット118Aの量子化潜在表現に対応できる第1の符号化画像セットを決定することができる。ある実施形態では、回路202を、学習済みコードブック112Bに基づいて、第1の画像セット118Aのサブセットにエンコーダモデル112Aを適用して符号化画像セットを決定するように構成することができる。第1の符号化画像セットは、第1の画像セットの第1のサブセット118Aの量子化潜在表現に対応し、第2の訓練データを構築することができる。エンコーダモデルの適用に関する詳細については、例えば図6A(604)にさらに示している。
【0120】
1008において、第1の訓練データ116Aからの画像サブセットと、画像サブセットの量子化潜在表現とに基づいて、第2の画像データセットを含む第2の訓練データ116Bを生成することができる。ある実施形態では、回路202を、第1の訓練データ116Aからの画像サブセットと、画像サブセットの量子化潜在表現とに基づいて、第2の画像データセットを含む第2の訓練データ116Bを生成するようにさらに構成することができる。第2の訓練データ116Bの生成に関する詳細については、例えば図6A(606)にさらに示している。
【0121】
1010において、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練することができる。ある実施形態では、回路202を、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するようさらに構成することができる。オートエンコーダモデル112の事前訓練に関する詳細については、例えば図6A(608)にさらに示している。
【0122】
1012において、オートエンコーダモデル112の最終世代に基づいてトランスフォーマモデル114を微調整することができる。ある実施形態では、回路202を、オートエンコーダモデル112の最終世代に基づいてトランスフォーマモデル114を微調整するようにさらに構成することができる。トランスフォーマモデル114の微調整に関する詳細については、例えば図6A(610)にさらに示している。制御は終了に進むことができる。
【0123】
フローチャート1000は、1004、1006、1008、1010、及び1012などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。
【0124】
図11は、本開示の実施形態による、オートエンコーダモデル及びトランスフォーマモデルに対する反復学習の適用に基づく画像成分生成のための例示的な方法の動作を示すフローチャートである。図11の説明は、図1図2図3図4図5図6A図6B図7A図7B図7C図8図9及び図10の要素に関連して行う。図11にはフローチャート1100を示す。フローチャート1100は、1102~1114の動作を含むことができ、図1の電子装置102又は図2の回路202によって実行することができる。フローチャート1100は、1102から開始して1104に進むことができる。
【0125】
1104において、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C及び識別器モデル112Dを含むことができるオートエンコーダモデル112、並びにオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整することができる。ある実施形態では、回路202を、第1の画像セット118Aを含む第1の訓練データ116Aに基づいて、オートエンコーダモデル112、及びオートエンコーダモデル112に関連するトランスフォーマモデル114を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル112A、トランスフォーマモデル114に関連する学習済みコードブック112B、生成器モデル112C、及び識別器モデル112Dを含むことができる。説明したように、オートエンコーダモデル112及びトランスフォーマモデル114は、オートエンコーダモデル112及びトランスフォーマモデル114の精度を高めるために、第1の訓練データ116Aに基づいて微調整することができる。オートエンコーダモデル112及びトランスフォーマモデル114の微調整に関する詳細については、例えば図6B(612)にさらに示している。
【0126】
1106において、トランスフォーマモデル114を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測することができる。ある実施形態では、回路202を、トランスフォーマモデル114を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測するように構成することができる。トランスフォーマモデル114の適用に関する詳細については、例えば図6B(616)にさらに示している。
【0127】
1108において、学習済みコードブック112Bに基づいて、予測されたトークン列を量子化潜在表現に変換することができる。ある実施形態では、回路202を、学習済みコードブック112Bに基づいて、予測されたトークン列を量子化潜在表現に変換するように構成することができる。予測されたトークン列の変換に関する詳細については、例えば図6B(618)にさらに示す。
【0128】
1110において、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成することができる。ある実施形態では、回路202を、量子化潜在表現に生成器モデル112Cを適用して新たな合成画像を生成するように構成することができる。生成器モデル112Cの適用に関する詳細については、例えば図6B(620)にさらに示している。
【0129】
1112において、生成された新たな合成画像に対応する第3の画像セット118Cを含む第3の訓練データ116Cを生成することができる。ある実施形態では、回路202を、生成された新たな合成画像に対応する第3の画像セット118Cを含む第3の訓練データ116Cを生成するように構成することができる。第3の訓練データ生成に関する詳細については、例えば図6B(622)にさらに示している。
【0130】
1114において、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練することができる。ある実施形態では、回路202を、生成された第3の訓練データ116Cに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するよう構成することができる。トランスフォーマモデルの事前訓練に関する詳細については、例えば図7C(722)にさらに示している。
【0131】
フローチャート1100については、1104、1106、1108、1110、1112及び1114などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。
【0132】
本開示の様々な実施形態は、機械及び/又はコンピュータが電子装置(例えば、図1の電子装置102)を動作させるために実行できるコンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。このような命令は、オートエンコーダモデル(例えば、図1のオートエンコーダモデル112)、及びオートエンコーダモデル112に関連するトランスフォーマモデル(例えば、図1のトランスフォーマモデル114)を、第1の画像セット(例えば、図1の第1の画像セット118A)を含む第1の訓練データ(例えば、図1の第1の訓練データ116A)に基づいて微調整することを含むことができる動作を電子装置102に実行させることができる。オートエンコーダモデルは、エンコーダモデル(例えば、図1のエンコーダモデル112A)、トランスフォーマモデル114に関連する学習済みコードブック(例えば、図1の学習済みコードブック112B)、生成器モデル(例えば、図1の生成器モデル112C)、及び識別器モデル(例えば、図1の識別器モデル112D)を含むことができる。動作は、第2の訓練データ116Bを構築するために第1の訓練データ116Aから画像サブセットを選択することをさらに含むことができる。この動作は、第2の訓練データ116Bを構築するために、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定することをさらに含むことができる。動作は、エンコーダモデル112Aの適用に基づいて、第2の画像セット(例えば、第2の画像セット118B)を含む第2の訓練データ(例えば、第2の訓練データ116B)を生成することをさらに含むことができる。生成された第2の訓練データ116Bは、選択された画像サブセットの量子化潜在表現に対応することができる。動作は、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練することをさらに含むことができる。
【0133】
本開示の様々な実施形態は、機械及び/又はコンピュータが電子装置(例えば、図1の電子装置102)を動作させるために実行できるコンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。このような命令は、オートエンコーダモデル(例えば、図1のオートエンコーダモデル112)、及びオートエンコーダモデル112に関連するトランスフォーマモデル(例えば、図1のトランスフォーマモデル114)を、第1の画像セット(例えば、図1の第1の画像セット118A)を含む第1の訓練データ(例えば、図1の第1の訓練データ116A)に基づいて微調整することを含むことができる動作を電子装置102に実行させることができる。オートエンコーダモデル112は、エンコーダモデル(例えば、図1のエンコーダモデル112A)、トランスフォーマモデル114に関連する学習済みコードブック(例えば、図1の学習済みコードブック112B)、生成器モデル(例えば、図1の生成器モデル112C)、及び識別器モデル(例えば、識別器モデル112D)を含むことができる。動作は、トランスフォーマモデル(例えば、図1のトランスフォーマモデル114)を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測することをさらに含むことができる。動作は、学習済みコードブック(例えば、図1の学習済みコードブック112B)に基づいて、予測されたトークン列を量子化潜在表現に変換することをさらに含むことができる。動作は、量子化潜在表現に生成器モデル(例えば、図1の生成器モデル112C)を適用して新たな合成画像を生成することをさらに含むことができる。動作は、生成された新たな合成画像に対応する第3の画像セットを含む第3の訓練データを生成することをさらに含むことができる。動作は、生成された第2の訓練データ116Bに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練することをさらに含むことができる。
【0134】
本開示の例示的な態様は、回路(回路202など)を含む電子装置(図1の電子装置102など)を提供することができる。回路202は、第1の画像セット(例えば、図1の第1の画像セット118A)を含む第1の訓練データ(例えば、図1の第1の訓練データ116A)に基づいて、オートエンコーダモデル(例えば、図1のオートエンコーダモデル112)、及びオートエンコーダモデル112に関連するトランスフォーマモデル(例えば、図1のトランスフォーマモデル114)を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル(例えば、図1のエンコーダモデル112A)と、トランスフォーマモデル114に関連する学習済みコードブック(例えば、図1の学習済みコードブック112B)と、生成器モデル(例えば、図1の生成器モデル112C)と、識別器モデル(例えば、図1の識別器モデル112D)とを含むことができる。回路202は、第1の訓練データ116Aから画像サブセットを選択するように構成することができる。回路202は、学習済みコードブック112Bに基づいて、選択された画像サブセットにエンコーダモデル112Aを適用して符号化画像サブセットを決定するように構成することができる。回路202は、エンコーダモデル112Aの適用に基づいて、第2の画像セット(例えば、第2の画像セット118B)を含む第2の訓練データ(例えば、第2の訓練データ116B)を生成するように構成することができる。生成された第2の訓練データ116Bは、選択された画像サブセットの量子化潜在表現に対応することができる。回路202は、生成された第2の訓練データ116Bに基づいて、オートエンコーダモデル112の次世代を作成するようにオートエンコーダモデル112を事前訓練するよう構成することができる。
【0135】
本開示の例示的な態様は、(回路202などの)回路を含む(図1の電子装置102などの)電子装置を提供することができる。回路202は、第1の画像セット(例えば、図1の第1の画像セット118A)を含む第1の訓練データ(例えば、図1の第1の訓練データ116A)に基づいて、オートエンコーダモデル(例えば、図1のオートエンコーダモデル112)、及びオートエンコーダモデル112に関連するトランスフォーマモデル(例えば、図1のトランスフォーマモデル114)を微調整するように構成することができる。オートエンコーダモデル112は、エンコーダモデル(例えば、図1のエンコーダモデル112A)と、トランスフォーマモデル114に関連する学習済みコードブック(例えば、図1の学習済みコードブック112B)と、生成器モデル(例えば、図1の生成器モデル112C)と、識別器モデル(例えば、識別器モデル112Dとを含むことができる。回路202は、学習済みコードブック112Bに基づいて、第1の画像セット118Aにエンコーダモデル112Aを適用して第1の符号化画像セットを決定するように構成することができる。第1の符号化画像セットは、第1の画像セット118Aの量子化潜在表現に対応することができる。回路202は、トランスフォーマモデル(例えば、図1のトランスフォーマモデル114)を適用して、新たな合成画像の各々のトークン列をトークン列の開始に基づいて予測するように構成することができる。回路202は、学習済みコードブック(例えば、図1の学習済みコードブック112B)に基づいて、予測されたトークン列を量子化潜在表現に変換するように構成することができる。回路202は、量子化潜在表現に生成器モデル(例えば、図1の生成器モデル112C)を適用して新たな合成画像を生成するように構成することができる。回路202は、生成された新たな合成画像に対応する第3の画像セットを含む第3の訓練データを生成するように構成することができる。回路202は、生成された第2の訓練データ116Bに基づいて、トランスフォーマモデル114の次世代を作成するようにトランスフォーマモデル114を事前訓練するよう構成することができる。ある実施形態では、予測されたトークン列が、学習済みコードブック112Bからのインデックス列に対応することができる。
【0136】
ある実施形態では、オートエンコーダモデル112及びトランスフォーマモデル114の微調整、並びにオートエンコーダモデル112の事前訓練が、反復学習モデル(ILM)に対応することができる。別の実施形態では、オートエンコーダモデル112及びトランスフォーマモデル114の微調整、並びにトランスフォーマモデル114の事前訓練が、反復学習モデル(ILM)に対応することができる。
【0137】
ある実施形態では、オートエンコーダモデル112が、ベクトル量子化敵対的生成ネットワーク(VQGAN)に基づく畳み込みニューラルネットワーク(CNN)モデルに対応することができる。
【0138】
ある実施形態では、回路202を、選択された画像サブセットに対するエンコーダモデル112Aの適用に基づいて、選択された画像サブセットを画像空間から信号空間にマッピングするようにさらに構成することができる。ある実施形態では、信号空間が学習済みコードブック112Bに対応することができる。
【0139】
ある実施形態では、選択された画像サブセットに関連する多次元コードベクトルセットの各ベクトルを学習済みコードブック112Bからの最も近いエントリに置き換えることに基づいて、選択された画像サブセットの量子化潜在表現を決定することができる。
【0140】
ある実施形態では、回路202を、エンコーダモデル112A、学習済みコードブック112B及び生成器モデル112Cに関連する第1の損失関数を決定するようにさらに構成することができる。回路202は、オートエンコーダモデル112に関連する第2の損失関数を決定するようにさらに構成することができる。回路202は、エンコーダモデル112Aに関連する第3の損失関数を決定するようにさらに構成することができる。オートエンコーダモデル112の事前訓練は、決定された第1の損失関数、決定された第2の損失関数、及び決定された第3の損失関数にさらに基づくことができる。
【0141】
ある実施形態では、第3の損失関数の決定が、学習済みコードブック112Bに対する、オートエンコーダモデル112の次世代のエンコーダモデルに関連する第2のノルムに基づくことができる。
【0142】
本開示は、本明細書で説明した方法の実行を可能にする全ての機能を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品内に位置付けることもできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0143】
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
図1
図2
図3
図4
図5
図6A
図6B
図7A
図7B
図7C
図8
図9
図10
図11
【外国語明細書】