IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パロ アルト リサーチ センター インコーポレイテッドの特許一覧

特許7554657局在編集を用いた合成画像生成のためのシステム及び方法
<>
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図1A
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図1B
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図2
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図3
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図4A
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図4B
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図5A
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図5B
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図6
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図7
  • 特許-局在編集を用いた合成画像生成のためのシステム及び方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-11
(45)【発行日】2024-09-20
(54)【発明の名称】局在編集を用いた合成画像生成のためのシステム及び方法
(51)【国際特許分類】
   G06T 11/80 20060101AFI20240912BHJP
   G06T 1/40 20060101ALI20240912BHJP
【FI】
G06T11/80 A
G06T1/40
【請求項の数】 20
(21)【出願番号】P 2020208781
(22)【出願日】2020-12-16
(65)【公開番号】P2021111372
(43)【公開日】2021-08-02
【審査請求日】2023-12-15
(31)【優先権主張番号】16/737,702
(32)【優先日】2020-01-08
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】504407000
【氏名又は名称】パロ アルト リサーチ センター,エルエルシー
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ラジャ・バラ
(72)【発明者】
【氏名】ロバート・アール.・プライス
(72)【発明者】
【氏名】エド・コリンズ
【審査官】岡本 俊威
(56)【参考文献】
【文献】国際公開第2019/118990(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/00-11/80
G06T 1/40
(57)【特許請求の範囲】
【請求項1】
局在編集を用いて合成画像を生成するための方法であって、
画像合成のための入力として元画像及び対象画像を取得することと、
第1の人工知能(AI)モデルを適用することによって前記元画像及び対象画像からそれぞれの特徴ベクトルを抽出することと、
前記元画像からセマンティック要素を選択することであって、前記セマンティック要素が、前記元画像内に描写されたオブジェクトのセマンティックに意味を有する部分を示す、選択することと、
前記元画像及び対象画像に関連付けられたそれぞれのスタイル情報を判定することと、
前記セマンティック要素に局在する前記スタイル情報から前記セマンティック要素のスタイルを決定することと、
第2のAIモデルを使用して、前記特徴ベクトルに基づいて、前記元画像から前記対象画像に選択された前記セマンティック要素の前記スタイルを転送することによって合成画像を生成し、それにより、前記対象画像の局在編集を容易にすることと、を含む、方法。
【請求項2】
前記セマンティック要素の前記スタイルの前記転送の強度を取得することと、
前記強度に基づいて前記セマンティック要素の前記スタイルを転送することと、を更に含む、請求項1に記載の方法。
【請求項3】
前記第2のAIモデルは、敵対的生成ネットワーク(GAN)を含み、前記GANが、StyleGANを含む、請求項1に記載の方法。
【請求項4】
前記元画像及び対象画像と関連付けられた前記特徴ベクトルとして前記第1のAIモデルの1つ以上の層から対応する埋め込みを取得することと、
前記特徴ベクトルに基づいてクラスタのセットを生成することであって、それぞれのクラスタが、前記元画像のセマンティック要素に対応する、生成することと、を更に含む、請求項1に記載の方法。
【請求項5】
前記クラスタのセットが、K平均クラスタリング、球面K平均クラスタリング、及び非負行列因数分解のうちの1つ以上に基づいて生成される、請求項4に記載の方法。
【請求項6】
前記第1のAIモデルはStyleGANを含み、前記元画像及び前記対象画像が、前記StyleGANによって生成された合成画像であり、前記特徴ベクトルが、前記StyleGANの1つ以上の隠れ層の埋め込みに対応する、請求項1に記載の方法。
【請求項7】
前記元画像及び対象画像が、自然画像であり、
前記方法が、前記元画像及び対象画像をそれぞれのStyleGAN表現に変換することを更に含む、請求項1に記載の方法。
【請求項8】
前記セマンティック要素を転送することが、前記元画像からの前記セマンティック要素の外部のスタイルの転送を抑制することを更に含む、請求項1に記載の方法。
【請求項9】
前記セマンティック要素の前記スタイルを転送することが、前記セマンティック要素と関連付けられた局在化条件行列に基づいて、前記元画像と前記対象画像との間のスタイル補間を実行することを更に含む、請求項1に記載の方法。
【請求項10】
前記元画像から前記セマンティック要素を選択するユーザ入力を取得することができるユーザインターフェースを提示することを更に含み、前記ユーザインターフェースが、前記元画像上の前記セマンティック要素の空間的位置の選択及び前記セマンティック要素のカタログからの選択のうちの1つ以上に基づいて、前記ユーザ入力を取得するように構成されている、請求項1に記載の方法。
【請求項11】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、コンピュータによって実行されるとき、前記コンピュータに、局在編集でセマンティック画像を生成する方法を実行させ、前記方法が、
画像合成のための入力として元画像及び対象画像を取得することと、
第1の人工知能(AI)モデルを適用することによって前記元画像及び対象画像からそれぞれの特徴ベクトルを抽出することと、
前記元画像からセマンティック要素を選択することであって、前記セマンティック要素が、前記元画像内に描写されたオブジェクトのセマンティックに意味を有する部分を示す、選択することと、
前記元画像及び対象画像に関連付けられたそれぞれのスタイル情報を判定することと、
前記セマンティック要素に局在する前記スタイル情報から前記セマンティック要素のスタイルを決定することと、
第2のAIモデルを使用して、特徴ベクトルに基づいて、前記元画像から前記対象画像に選択された前記セマンティック要素の前記スタイルを転送することによって合成画像を生成し、それにより、前記対象画像の局在編集を容易にすることと、を含む、非一時的コンピュータ可読記憶媒体。
【請求項12】
前記方法が、
前記セマンティック要素の前記スタイルの前記転送の強度を取得することと、
前記強度に基づいて前記セマンティック要素の前記スタイルを転送することと、を更に含む、請求項11に記載のコンピュータ可読記憶媒体。
【請求項13】
前記第2のAIモデルは、敵対的生成ネットワーク(GAN)を含み、前記GANが、StyleGANを含む、請求項11に記載のコンピュータ可読記憶媒体。
【請求項14】
前記方法が、
前記元画像及び対象画像と関連付けられた前記特徴ベクトルとして前記第1のAIモデルの1つ以上の層から対応する埋め込みを取得することと、
前記特徴ベクトルに基づいてクラスタのセットを生成することであって、それぞれのクラスタが、前記元画像のセマンティック要素に対応する、生成することと、更に含む、請求項11に記載のコンピュータ可読記憶媒体。
【請求項15】
前記クラスタのセットが、K平均クラスタリング、球面K平均クラスタリング、及び非負行列因数分解のうちの1つ以上に基づいて生成される、請求項14に記載のコンピュータ可読記憶媒体。
【請求項16】
前記第1のAIモデルはStyleGANを含み、前記元画像及び対象画像が、前記StyleGANによって生成された合成画像であり、前記特徴ベクトルが、前記StyleGANの1つ以上の隠れ層の埋め込みに対応する、請求項11に記載のコンピュータ可読記憶媒体。
【請求項17】
前記元画像及び前記対象画像が、自然画像であり、
前記方法が、前記元画像及び対象画像をそれぞれのStyleGAN表現に変換することを更に含む、請求項14に記載のコンピュータ可読記憶媒体。
【請求項18】
前記セマンティック要素を転送することが、前記元画像からの前記セマンティック要素の外部のスタイルの転送を抑制することを更に含む、請求項11に記載のコンピュータ可読記憶媒体。
【請求項19】
前記セマンティック要素の前記スタイルを転送することが、前記セマンティック要素に関連付けられた局在化条件行列に基づいて、前記元画像と前記対象画像との間のスタイル補間を実行することを更に含む、請求項11に記載のコンピュータ可読記憶媒体。
【請求項20】
前記方法が、前記元画像から前記セマンティック要素を選択するユーザ入力を取得することができるユーザインターフェースを提示することを更に含み、前記ユーザインターフェースが、前記元画像上の前記セマンティック要素の空間的位置の選択、及びセマンティック要素のカタログからの選択のうちの1つ以上に基づいて、前記ユーザ入力を取得するように構成されている、請求項11に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、人工知能(artificial intelligence、AI)の分野に関連する。より具体的には、本開示は、セマンティック情報を組み込んだ拡張敵対的生成ネットワーク(GAN)を使用して、局在カスタマイズを用いて合成画像を生成するためのシステム及び方法に関する。
【背景技術】
【0002】
ニューラルネットワークなどのAIを用いた技術が指数関数的に発展したことで、それらが様々なアプリケーションで利用される合成データを生成するための媒体として普及している。近年、敵対的生成ネットワーク(GAN)は、合成ではあるがリアルな画像など、合成データを生成する手段として人気が高まってきている。これを行うために、GANは、典型的には、生成器ニューラルネットワーク(生成器と称される)と、識別器ニューラルネットワーク(識別器と称される)と、を含む。
【0003】
生成器は、合成画像サンプルを出力として生成することができる。生成器は、これらの画像が実画像である識別子を「納得させる」ことによって、合成画像サンプルの品質を改善することを試みることができる。識別器は、実在画像サンプルと生成された合成画像サンプルとを見分けることを課せられる。識別器は、画像が全体として実在であるか否かを判定する。結果として、複数回のイテレーションにより、生成器は、実在画像の統計的特性を組み入れた合成画像を生成することを学習する。
【0004】
GANは、セマンティック画像編集にも使用することができる。例えば、GANは、GANによって促進された潜在空間内の自然画像のためのマニホールドを学習し得、このマニホールドを横断するか、又はこのマニホールドに近い位置にあるセマンティック編集を実行する。GANは、自動エンコーダを使用して、画像をセマンティックな部分空間に分離し、画像を再構成し、個々の部分空間に沿ったセマンティックな編集を容易にすることができる。分離は、画像のセマンティックに意味を有する要素とみなすことができる対象の属性が、他の属性とは独立して操作することができることを示す。このようなGANは、色、照明、ポーズ、顔の表情、年齢、髪の外観、眼鏡、及びヘッドウェアの変化を表すいくつかの編集を実行することができる。
【0005】
GANは合成画像生成に多くの望ましい特徴をもたらすが、合成画像生成プロセスの局在カスタマイズを容易にするためには、いくつかの問題が未解決のままである。
【発明の概要】
【0006】
本明細書に記載された実施形態は、局在編集を用いて合成画像を生成するためのシステムを提供する。動作中、システムは、画像合成のための元画像と対象画像を取得し、元画像と対象画像からそれぞれの特徴表現を抽出する。システムはまた、元画像からセマンティック要素を選択する。このセマンティック要素は、元画像に描かれたオブジェクトのセマンティックに意味を有する部分を示す。次いで、システムは、元画像と対象画像に関連付けられたスタイル情報を決定する。続いて、特徴表現に基づいて、セマンティック要素のスタイルを元画像から対象画像に転送して合成画像を生成する。このようにして、システムは、対象画像の局在編集を容易にすることができる。
【0007】
この実施形態の変形例では、システムは、セマンティック要素のスタイルの転送の強さを取得し、その強さに基づいてセマンティック要素のスタイルを転送する。
【0008】
この実施形態の変形例では、合成画像は、StyleGANのような敵対的生成ネットワーク(GAN)によって生成される。
【0009】
この実施形態の変形例では、システムは、元画像及び対象画像に関連付けられた特徴表現としての特徴ベクトルを取得する。次いで、システムは、特徴ベクトルに基づいてクラスタのセットを生成する。それぞれのクラスタは、元画像のセマンティック要素に対応する。
【0010】
更なる変形例では、クラスタのセットは、K平均クラスタリング、球面K平均クラスタリング、及び非負行列因数分解のうちの1つ以上に基づいて生成される。
【0011】
更なる変形例では、元画像及び対象画像は、StyleGANによって生成された合成画像である。次いで、特徴ベクトルは、StyleGANの1つ以上の隠れ層の埋め込みに対応することができる。
【0012】
この実施形態の変形例では、元画像及び対象画像は、自然画像である。次いで、システムは、元画像及び対象画像をそれぞれのStyleGAN表現に変換する。
【0013】
この実施形態の変形例では、セマンティック要素を転送することは、また、元画像からのセマンティック要素の外部のスタイルの転送を抑制することも含む。
【0014】
この実施形態の変形例では、セマンティック要素のスタイルを転送することは、セマンティック要素に関連付けられた局在化条件行列に基づいて、元画像と対象画像との間でスタイル補間を実行することも含む。
【0015】
この実施形態の変形例では、システムは、元画像からセマンティック要素を選択するユーザ入力を得られるユーザインターフェースを提示する。ユーザインターフェースは、元画像上のセマンティック要素の空間的位置の選択、及びセマンティック要素のカタログからの選択のうちの1つ以上に基づいて、ユーザ入力を取得することができる。
【0016】
この実施形態の変形例では、システムは、(i)明示的又は外部の空間局在確認操作、及び(ii)外部の監視形態がない場合に、局在編集を行うことができる。
【図面の簡単な説明】
【0017】
図1A】本出願の一実施形態に係る、局在カスタマイズを可能にする例示的な合成画像生成システムを示す。
【0018】
図1B】本出願の一実施形態に係る、合成画像生成プロセスのための例示的な局所編集を示す。
【0019】
図2】本出願の一実施形態に係る、画像の、セマンティックに意味を有する要素を表す例示的なクラスタを示す。
【0020】
図3】本出願の一実施形態に係る、局在編集を用いて合成画像を生成するための例示的な拡張GANを示す。
【0021】
図4A】本出願の一実施形態に係る、局在編集に基づいて生成された例示的な合成画像を示す。
【0022】
図4B】本出願の一実施形態に係る、編集の局在確認を示す例示的な画像差分を示す。
【0023】
図5A】本出願の一実施形態に係る、画像内のセマンティック要素を表す合成画像生成システムの画像特徴をクラスタリングする方法のフローチャートを示す。
【0024】
図5B】本出願の一実施形態に係る、局在編集を用いて合成画像を生成する合成画像生成システムの方法のフローチャートを示す。
【0025】
図6】本出願の一実施形態に係る、局在編集を用いた合成画像生成を容易にする合成画像生成システムのユーザインターフェースの方法のフローチャートを示す。
【0026】
図7】本出願の一実施形態に係る、局在編集を用いた合成画像生成を容易にする例示的なコンピュータシステムを示す。
【0027】
図8】本出願の一実施形態に係る、局在編集を用いた合成画像生成を容易にする例示的な装置を示す。
【0028】
図面中、同じ参照番号は、同じ図形要素を指す。
【発明を実施するための形態】
【0029】
以下の説明は、当業者が実施形態を製造及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施形態に対する様々な修正は、当業者には容易に明らかとなり、本明細書に定義される一般原理は、本開示の趣旨及び範囲から逸脱することなく、他の実施形態及び用途に適用され得る。したがって、本明細書に記載される実施形態は、示される実施形態に限定されるものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
概要
【0030】
本明細書に記載される実施形態は、(i)特徴クラスタリングを使用して画像のセマンティックに意味を有するセグメントを決定することと、(ii)画像合成プロセスにセマンティックに意味を有するセグメントに関連付けられた特徴情報を組み込むことによって、局在編集を用いて合成画像を生成するという問題を解決する。システムは、合成画像を生成するために、敵対的生成ネットワーク(GAN)を使用してもよい。
【0031】
既存の技術では、合成画像を生成している間のGAN学習の正確なモデルが明らかではない場合がある。この問題に対処するために、PG-GAN(Progressive Growing GAN)やStyleGANのような拡張画像GANは、プログレッシブトレーニングを使用して、各層が与えられた画像解像度で示されるバリエーションをモデル化するように奨励している。プログレッシブトレーニングに基づいて、これらのGANバリエーションのモデルは、画像特徴の分離された表現を示すことが多い。分離は、画像のセマンティック要素(例えば、顔の目、寝室の窓)などの対象の属性が、他の属性とは独立して操作することができることを示し得る。しかしながら、拡張画像GANは、通常、画像合成中に局在編集を容易にするために、分離を利用しない。
【0032】
この問題を解決するために、本明細書に記載される実施形態は、分離されたセマンティック情報に基づいて、画像合成中に局在編集を組み込む、効率的な合成画像生成システムを提供する。システムは、GANの出力に対して、空間的な局在セマンティック編集を実行することができる。システムは、情報、特に、そのスタイルは、元画像のセマンティック要素に関連付けられたスタイルを対象画像に転送することによって、編集を実行することができる。元画像及び対象画像のうちの画像の一方又は両方は、実画像又は合成画像(例えば、GANの出力)であってもよい。追加のデータセット及びトレーニングしたネットワーク、又は複雑な空間動作を必要とする従来の画像モーフィング方法に頼る代わりに、システムは、画像の特徴ベクトル(例えば、ニューラルネットワーク層の埋め込み)を使用する。その結果、システムは、GANによって学習したセマンティック表現を利用することができる。
【0033】
既存の解決策とは異なり、システムにより、元画像から対象画像へのセマンティック要素のスタイルを転送する、特定の形態のセマンティックな編集が容易になる。画像のセマンティック要素は、その画像のコンテキスト内でセマンティックに意味を有する画像セグメントであってもよい。例えば、目、口、及び鼻は、顔画像内のセマンティック要素とすることができ、ベッド、枕、及び窓は、屋内の生活シーンを描写する画像内のセマンティック要素とすることができる。システムは、画像全体をモルフィングする代わりに、入力パラメータとして1対の画像を受信するが、システムは、対象画像の残りの部分を変更しないまま、元画像から対象画像にセマンティック要素を転送するだけである。このセマンティック要素の転送は、(例えば、顔交換アプリケーションにおいて必要とされるように)ワーピング及び合成などの、明示的な空間処理を必要としない。更に、システムは、事前トレーニングされた画像セグメンテーションモデルによって外部の監視を伴わずに、本質的に分離された構造を使用して、局在編集を実行することができる。
【0034】
動作中、システムは元画像の特徴情報を取得することができる。特徴情報は、特徴ベクトルによって表すことができる。システムは、自然画像上に、敵対的AIモデル(例えば、ニューラルネットワーク)を適用することによって、特徴ベクトルを得ることができる。一方、元画像が合成画像である場合、システムは、画像合成プロセスの隠れ層アクティブ化に関連付けられた埋め込みを取得することができる。システムは、特徴ベクトル(例えば、PG-GAN及びStyleGANなどの敵対的モデルの活性化テンソル)を解析し、クラスタリング技術(例えば、球面k平均クラスタリング)を適用することによって、特徴ベクトルをクラスタ化することができる。生成されたクラスタは、顔画像用の目、鼻、及び口などの画像内のコヒーレントなセマンティック要素及び副要素、並びに寝室画像のベッド、枕、及び窓に空間的に広がることができる。
【0035】
いくつかの実施形態では、システムは、ユーザが元画像及び対象画像を選択することを可能にする(例えば、ローカルコンピュータシステムをブラウジングすることによって、又は予め定義されたリポジトリから)元画像を選択することができる。ユーザは、インターフェースを使用して、元画像上のセマンティック要素を(例えば、ポインティングデバイス又はタッチスクリーンを使用して)選択することができる。インターフェースはまた、ユーザがセマンティック要素を選択できるセマンティック要素のリストを(例えば、ドロップダウンメニュー内に)提示してもよい。クラスタは元画像の対応するセマンティック要素を表すので、システムは、元画像の選択されたセマンティック要素に対応するクラスタを選択することができる。このシステムは、GAN(例えばStyleGAN)を、選択されたセマンティック要素に対応するクラスタ内の特徴情報に基づいて、元画像から対象画像に選択されたセマンティック要素のスタイルを転送することによって画像を合成することができ、それにより、画像合成における局在編集を容易にする。
例示的なシステム
【0036】
図1Aは、本出願の一実施形態に係る、局在カスタマイズを可能にする例示的な合成画像生成システムを示す。この例では、画像管理環境100は、合成画像を使用する1つ以上のアプリケーションをホストすることができるアプリケーションサーバ134を含む。このようなアプリケーションとしては、これらに限定されるものではないが、新しい内部/産業設計の視覚化、アパレル及びアクセサリの新しいデザイン、並びにコンピュータゲーム及びアニメーションにおける場面が挙げられる。環境100の画像生成サーバ132は合成画像を生成し、合成画像をアプリケーションサーバ134.に提供することができる。いくつかの実施形態では、画像生成サーバ132は、ローカル又は広域ネットワークであってもよいネットワーク130を介してアプリケーションサーバ134と通信する。
【0037】
画像生成サーバ132は、GANを使用して合成画像を生成することができる。既存の技術では、合成画像を生成する間にサーバ132のGANが学習する正確なモデルは明らかではない場合がある。この問題に対処するために、サーバ132は、所与の画像解像度で示されるバリエーションをモデル化するように各層に促すためにプログレッシブトレーニングを使用するPG-GANやStyleGANのような拡張画像GANを利用することができる。プログレッシブトレーニングに基づいて、これらのGANのモデルのバリエーションは、多くの場合、画像特徴の分離された表現を示すことが多い。しかしながら、拡張画像GANは、通常、画像合成中に局在編集を容易にするために、分離を利用しない。結果として、サーバ132は、元画像104のローカル及びセマンティックな特徴を対象画像102と共に組み込むことができない場合がある。
【0038】
この問題を解決するために、効率的な合成画像生成システム110は、分離されたセマンティック情報に基づいて、画像合成中に局在編集を組み込むことができる。システム110は、GANの出力に対して、空間的に局在セマンティック編集を実行することができる。システム110は、情報、特に元画像104のセマンティック要素に関連付けられたスタイルを対象画像102に転送することによって、編集を実行することができる。画像102及び画像104の一方又は両方は、実画像又は合成画像(例えば、GANの出力)であってもよい。追加のデータセット及びトレーニングされたネットワーク、又は複雑な空間動作を必要とする伝統的な画像モーフィング方法に頼る代わりに、システム110は、元画像102の特徴ベクトルを使用する。特徴ベクトルでは、システム110が元画像104内のセマンティック表現を利用できる。
【0039】
既存の解決策とは異なり、システム110により、元画像104から対象画像102へセマンティック要素のスタイルを転送する、特定の形態のセマンティックな編集が容易になる。元画像104のセマンティック要素は、元画像104のコンテキスト内でセマンティックに意味を有する画像セグメントであってもよい。例えば、元画像104が顔、目、口、及び鼻の画像である場合、元画像のセマンティック要素とすることができる。同様に、元画像104が屋内の生活のシーンを示す場合、ベッド、枕、及びウィンドウは、元画像104内のセマンティック要素であってもよい。システム110が入力パラメータとしてモーフィング画像102の代わりに、1対の画像102及び104を受信しても、システム110は、元画像104から対象画像102へのセマンティック要素のみを転送する一方で、対象画像102の残りの部分は変更しない。このセマンティック要素の転送は、ワーピング及び合成などの明示的な空間処理を必要としない。更に、システム110は、事前トレーニングされた画像セグメンテーションモデルによって、外部の監視を行わずに、本質的に分離された構造を使用して、局在編集を実行することができる。
【0040】
システム110は、特徴分析モジュール112、セマンティック解析モジュール114、及び拡張GAN116を備えることができる。動作中、特徴分析モジュール112は、元画像104の特徴情報を取得することができる。特徴情報は、特徴ベクトルのセット142によって表すことができる。特徴分析モジュール112は、自然画像上に、敵対的AIモデル(例えば、ニューラルネットワーク)を適用することによって、特徴ベクトル142を取得してもよい。一方、元画像104が合成画像である場合、特徴分析モジュール112は、画像合成プロセスの隠れ層アクティブ化に関連付けられた埋め込みを特徴ベクトル142として取得することができる。セマンティック解析モジュール114は、特徴ベクトル142(例えば、PG-GAN及びStyleGANなどの、敵対的モデルの起動テンソル)を分析し、特徴ベクトル142内の特徴情報をクラスタ化して、特徴クラスタのセット144を生成することができる。いくつかの実施形態では、セマンティック解析モジュール114は、特徴ベクトル142上に、球面k平均クラスタリングなどのクラスタリング技術を適用することができる。生成された特徴クラスタ144は、元画像104内のコヒーレントなセマンティック要素及びサブ要素に空間的に広がることができる。
【0041】
いくつかの実施形態では、システム110は、ユーザがユーザ入力160を提供できる画像セレクタ152を備えたユーザインターフェース150を提示することができる。ユーザ入力160は、タッチスクリーン上のポインティングデバイス又はタッチ操作のクリック操作に基づいて取得することができる。ユーザ入力160は、元画像104及び対象画像102を選択することを含む。画像セレクタ152を使用して、ユーザは、ローカルストレージデバイスから、分散ストレージデバイスから(例えば、クラウドから)、又はシステム110の予め定義されたリポジトリから元画像104及び対象画像102を選択することができる。その後、ユーザは、インターフェース150を使用して、ユーザ入力160の一部として元画像104上のセマンティック要素を選択することができる。ユーザは、ユーザインターフェース150内の元画像104の特定の要素をクリックして、元画像上のセマンティック要素の空間的位置を選択してもよい。そのクリックに基づいて、システム110は、ユーザが、元画像104のどのセマンティック要素を対象画像102へ転送したいかを判定することができる。
【0042】
インターフェース150はまた、元画像104から選択される可能性のあるセマンティック要素のカタログを提示し得る、セマンティック要素セレクタ154(例えば、ドロップダウンメニュー)を提示してもよい。システム110は、元画像104に示されるオブジェクトの種類に基づいて、セマンティック要素のセットを決定することができる。いくつかの実施形態では、システム110は、対応するセマンティックに意味を有するラベルでクラスタ144の各クラスタをラベル付けし、ラベルをカタログに組み合わせることによって、カタログを生成することができる。ユーザは、セマンティック要素セレクタ154からセマンティック要素を選択してもよい。例えば、元画像104が顔の画像である場合、対応するカタログは、元画像104のセマンティック要素として、目、鼻、口、及び毛髪を含むことができる。次いで、セマンティック要素セレクタ154は、元画像104から選択される可能性のある要素として目、鼻、口、及び毛髪をリスト化することができる。
【0043】
インターフェース150はまた、セマンティック要素の転送の程度又は強度を示す、スライドバーであってもよい、強度セレクタ156を含むことができる。強度セレクタ156は、0~1のスケールを使用してもよく、0は変化を示さず、1は強い転送を示す。ユーザ入力160を取得すると(例えば、インターフェース150を介したユーザ提出に基づいて)、システム110は、元画像104の選択されたセマンティック要素に関連付けられたクラスタ144からクラスタを選択することができる。システム110は、拡張GAN116(例えば、StyleGAN)を使用して、選択されたセマンティック要素の形式を選択されたセマンティック要素に対応するクラスタの特徴情報に基づいて、選択されたセマンティック要素のスタイルを元画像104から対象画像102に転送することによって、出力画像106を合成することができる。スタイルの転送を局在化することによって、システム110は、画像合成における局在編集を容易にする。次いで、システム110は、インターフェース150内に出力画像106を表示することができる。
【0044】
図1Bは、本願の実施形態による合成画像生成プロセスのための例示的な局在編集を示す。ユーザ入力160が元画像104からセマンティック要素172を選択すると仮定する。元画像104が顔を描写する場合、セマンティック要素170は顔の目に対応し得る。クラスタ144は、元画像104,システム110の目、鼻、及び口などの対応するセマンティック要素を表すので、元画像104のセマンティック要素172に対応するクラスタ174を選択することができる。システム110は、インターフェース150から選択を取得し(例えば、クリック又は特徴カタログからのいずれか)、クラスタ144内の対応するクラスタ174を決定することができる。
【0045】
GAN116は、選択されたセマンティック要素と関連付けられたクラスタ174内の特徴情報に基づいて、選択されたセマンティック要素172のスタイルを元画像104から対象画像102に転送することによって、出力画像106を合成することができる。GAN116は、元画像104から対象画像102にスタイルを転送することによって画像を合成するようにトレーニングできる。例えば、GAN116がStyleGANに基づく場合、GAN116の生成器ニューラルネットワークは、元画像104のセマンティック要素に対して空間的に分離された表現を学習することができる。換言すれば、GAN 116の潜在的表現は、元画像104内のセマンティック要素を空間的に分離する。その結果、元画像104内の異なる要素に対応する埋め込みは、明確かつ一貫した特徴空間を表す。システム110は、選択されたセマンティック要素の埋め込みを利用して、スタイル内挿を対象画像102に指示することができる。
【0046】
システム110は、クラスタ174で表される情報(すなわち、対応する埋め込み内)を提供することによって、元画像104の選択されたセマンティック要素172へのスタイルの転送を局在化することができる。したがって、GAN116の合成プロセスは、元画像104のセマンティック要素172によって示される選択された領域に主に表されるスタイルを転送し、対応する合成出力画像106を生成する。スタイルの転送の場所は、元画像104内の他の要素から、セマンティック要素172が分離される程度に依存し得る。GAN116の潜在的表現は著しく分離される可能性があるため、システム110は、対象画像102内の未編集要素から出力画像106内の編集済み要素へのシームレスな遷移を容易にすることができる。この例では、元画像104に描かれている顔の眼は、対象画像102に描かれた顔とシームレスに統合することができる。このようにして、合成プロセス中に局在的な情報を組み込むことによって、システム110は、編集領域を定義するための任意の外部監視又は複雑な空間操作なしに、画像合成における局在編集を容易にする。
セマンティック構造
【0047】
図2は、本出願の一実施形態に係る、画像の、セマンティックに意味を有する要素を表す例示的なクラスタを示す。深特徴因数分解(DFF)は、隠れ層興奮の行列を因数分解することによって、AIモデル(例えば、畳み込みニューラルネットワーク(CNN))の学習を表すことができることを示す。この因数分解では、特性マップのセットで表現することができる。このような因数分解は、画像分類について訓練されたAIモデルが、画像のためのセマンティック要素検出器として機能する特徴を学習し得ることを示す。
【0048】
同様に、元画像104がGAN116、特徴分析モジュール112によって生成された合成画像である場合、画像合成プロセス中にGAN116によって学習された埋め込みを取得して、類似の特徴を実証することができる。セマンティック解析モジュール114は、クラスタリング技術(例えば、球面k平均クラスタリング)を活性化ベクトルに適用することによって、画像104の合成プロセスの活性化ベクトルをクラスタ化することができる。次に、セマンティック解析モジュール114は、クラスタを表すセマンティック表現210を生成する。いくつかの実施形態では、起動ベクトルは、GAN116の生成器ネットワークの様々な層における起動テンソルに対応するC次元活性化ベクトルである。セマンティック表現210に示されるように、得られたクラスタは、元画像104に描かれた顔に対応する目、鼻、口、及び顎などのコヒーレントなセマンティックオブジェクトに空間的に広がる。例えば、クラスタ212及び214は、眼及び口に対応することができる。
【0049】
セマンティック表現210は、GAN116の生成器ネットワークが、元画像104に描写された顔のセマンティック要素に対して空間的に分離された表現を学習し得ることを示す。換言すれば、異なるセマンティック要素は、別個の一貫した特徴空間に埋め込まれ、独立して転送することができる。結果として、ユーザが元画像104,システム110に描かれている顔の眼を転送したい場合、GAN116の合成プロセスにおいて、クラスタ212内に情報を組み込むことができる。したがって、元画像104に描かれた顔の目は、対象画像に描かれた顔とシームレスに統合することができる。
拡張GANアーキテクチャ
【0050】
図3は、本出願の一実施形態に係る、局在編集を用いて合成画像を生成するための例示的な拡張GANを示す。動作中、GAN 116(例えば、StyleGAN)は、サンプリング空間Zからzと称され得る潜在性ベクトル302をランダムにサンプリングする。続いて、GAN116は、zを、w∈Wと称され得る中間潜在性ベクトル308に変換する。GAN116は、正規化動作304及びマッピングネットワーク306に基づいて変換動作を実行することができる。GAN116の生成器ネットワークは、一定の入力312(例えば、学習した一定の画像)を組み込む畳み込みニューラルネットワークであってもよい。
【0051】
ベクトルwは、パー層式を介して生成器ネットワークにアクセスすることができ、y=(y,y)=S(w)(式中、Sは学習された求心変換であり得、2つのサブベクトル[y,y]は、それぞれ、スケール及びシフト動作を実行するために使用される。X’’∈R(C×H×W)は、いくつかの所与の層における畳み込み操作によって生成される特徴マップであると仮定する。それぞれのチャネルcのスタイリング特徴部マップXは、適応的インスタンス正規化(AdaIN)動作314を使用して、X’’及びyから生成することができる。ここで、
【数1】
であり、式中、
【数2】
は、
【数3】
として表すことができる。各チャネル1≦c≦Cは、その空間的位置全体にわたって正規化されてX’を作成することができ、次いで、スタイルyに基づいてスケーリング及びシフトされる。
【0052】
GAN116を使用して、システム110は、選択されたセマンティック要素を元画像から対象画像に転送することができる。y(s)及びy(t)が、それぞれ、元画像及び対象画像を生成する2つの異なる種子z(s)及びz(t)に対応する2種類の同じ層であると仮定する。画像合成の場合、それらは、局在的に及び/又は全体的に変化し得る2つの異なるアイデンティティに対応する。システム110は、適切な補間パラメータλに対してスタイルベクトルy(λ)=y(t)+λ(y(s)-y(t))を更新することによって、スタイルベクトルy(s)とy(t)との間の線形補間に基づいて、元画像(「S」で示される)から対象画像(「T」で示される)へ、スタイルを徐々に転送することができる。
【0053】
しかしながら、このような更新動作は、y(s)の全てのスタイル特性をy(λ)に転送することができる。結果として、y(t)の全ての対応するスタイル特性がモーフィングされる。選択的局在編集を可能にするために、システム110は、行列変換:y(λ)=y(t)+Q(y(s)-y(t))を用いてスタイル補間を制御することができる。ここで、行列Qは正の半明確であり、y(λ)の変化がy(t)において局在的となるように選択される。換言すれば、行列Qは、y(λ)がy(s)からy(t)への局在スタイルの転送をもたらすように選択される。行列Qは、要素がq∈[0,1]を形成し、クエリ行列と称され得る対角行列とすることができる。図1Bの例では、局在的なセマンティックな編集は、元と対象スタイルとの間の要素固有の(例えば、元画像104の目を表すセマンティック要素172)クエリ行列上での補間によって実行される。対照的に、グローバル補間は、元画像104から目、鼻、及び口を転送する。
【0054】
生成器ネットワークの出力の全ての変動は、各層のスタイルへの変更によって決定される。GAN116’出力を編集するために、システム110は、y(又はその上流「祖先」w若しくはz)を操作する。したがって、システム110は、yの寸法が選択されたセマンティック要素に関連し、元画像内の要素の残りの部分に比較的低い関連性を有するように、qを決定する。スタイルyは全体的に(例えば、全ての空間位置で)適用されるため、元画像内の要素間の全ての空間的差別化は、正規化された特徴マップX’に符号化される。x’∈Rが、元画像内のセマンティック要素を表す埋め込みであると仮定する。x’は、クエリオブジェクト(すなわち、選択されたセマンティック要素)であるX’の適切な空間位置から描かれたサンプルを表すことができる。
【0055】
スケールベクトルyに関して、x’のエントリは、yのエントリが選択されたセマンティック要素に影響を及ぼし得るかを示すことに留意されたい。絶対値が小さいx’のエントリは、スケーリングされたときでさえも小さくとどまり得るが、絶対値が大きいエントリはスケーリングによって有意に影響を受ける。したがって、システム110は、qのエントリが|x’|に比例することを確実にするために、ベクトルyを変化させなくてもよい。したがって、システム110が、x’の絶対値とオフセット項yの全てのゼロとに比例するエントリを有する対角行列としてQを決定する場合、得られた調整補間は、xによって表される部分に有意な影響を有するy(λ)内のエントリのみに影響を及ぼし得る。
【0056】
加えて、y内のどのエントリが、そのセマンティック要素に対する固有の帰属を有すると判定するために、システム110は、c番目の次元に重みhを割り当てることができる。いくつかの実施形態では、システム110は、球面k平均クラスタリングから現れるK個の重心の行列V∈RK×Cにわたって測定されたHoyerの希薄に基づいて、hを決定することができる。システム110は、
【数4】
として、大規模な試料バッチの活性化に関してhを計算することができる。システム110は、対応する活性化が元画像内の1つの固有のセマンティック要素に影響を及ぼすときhが1であり、対応する活性化が全てのセマンティック要素に影響を及ぼすときにhが0であるように、この尺度を正規化することができる。したがって、システム110は、選択されたセマンティック要素に関連付けられた寸法がスタイルの内挿を方向付ける際により強い影響を及ぼすように、hを決定する。
【0057】
要素固有ベクトルx’及び寸法選択性重み付けhに基づいて、システム110は、qの対応するqを分として決定することができ
【数5】
式中、λは標準補間で使用されて、移送の強度を決定する。図1Aの強度セレクタ156によって示される転送の程度又は強度は、パラメータλに対応し得ることに留意されたい。λの値が低いほど、選択された要素の転送を容易にすることができ、λの値が高いほど、より大域的な転送が示され得る。補間パラメータλが、各チャネルの重みが1であるように十分に高く設定されると、その結果は、その層でのグローバル転送である。
【数6】
を決定することによって、システム110は、特徴興奮と対応するセマンティック要素との間の固有の対応を利用して、局在編集を容易にする。このプロセスは、編集プロセスの局在確認を決定するための明示的な空間関数に依存しない。
【0058】
図4Aは、本願の実施形態に従って、局在編集に基づいて生成された例示的な合成画像を示す。この例では、異なるセマンティック要素が元画像402、404、406、及び408から対象画像400に転送される。列412、414、及び416は、それぞれ402、404、406、及び408から対象画像400への目、鼻、及び口の転送に対応する。それぞれのセマンティック要素は、対象画像400の残りの部分に著しい修正なしにシームレスに転送される。このようにして、セマンティック要素の局在的な転送は、画像合成中の局在編集を容易にすることができる。
【0059】
図4Bは、本出願の一実施形態に係る、編集の局在確認を示す、対象画像と対応する出力画像との間の例示的な画像差を示す。画像差452及び454は、編集済み及び元の対象画像の50,000対を介して計算された平均画素ごとの画像差を示す。編集済み画像は、局在編集に基づいて生成される。画像差452及び454は、それぞれ、目及び口のために局在的に編集された画像の画像差を示す。画像差452及び454は、画像合成中の局在編集が有効となり得ることを示す。
【0060】
局在編集は、実際の編集プロセスにおいて、明示的な空間局在確認操作(例えば、空間的注意又は重みマップ)を必要としない。更に、このような局在編集は、外部の形態の監視(例えば、セマンティックな部分的セグメンテーション)に依存しない。その代わりに、局在確認は、画像のセマンティック要素と自然に位置合わせされる、拡張GANの隠れ層の埋め込みに固有の構造を利用することによって達成される。
操作
【0061】
図5Aは、本出願の一実施形態に係る、画像内のセマンティック要素を表す合成画像生成システムの画像特徴をクラスタリングする方法を示すフローチャート500を提示する。動作中、システムは、元画像及び対象画像を判定する(すなわち、受信する)(動作502)。次いで、システムは、元画像及び対象画像の特徴ベクトルのそれぞれのセットを取得する(動作504)。いくつかの実施形態では、特徴ベクトルは、GANの隠れ層の埋め込み(例えば、アクティブ化)である。次いで、システムは、クラスタリング技術を使用して特徴ベクトルをクラスタ化する(動作506)。システムがk平均クラスタリングを使用する場合、システムは、kクラスタ(又は重心)を生成することができる。次いで、システムは、それぞれのクラスタに関連付けられたセマンティック定義を決定する(動作508)。ユーザは、クラスタのセマンティック定義を容易にするために、それぞれのクラスタをラベル付けすることができる。
【0062】
図5Bは、本出願の一実施形態に係る、局在編集を用いて合成画像を生成する合成画像生成システムの方法のフローチャート550を示す。動作中、システムは元画像及び対象画像を取得し(動作552)、元画像内のセマンティック要素の選択を取得する(操作554)。次いで、このシステムは、選択されたセマンティック要素に対応するスタイル転送のための局在セマンティック空間を決定する(操作556)。続いて、システムは、対応するクラスタによって表される決定されたセマンティック空間に関連付けられたスタイル転送情報を決定する(動作558)。次いで、システムは、スタイル転送情報に基づいて、元画像及び対象画像から、局在編集を用いて合成出力画像を生成する(動作560)。図3の例では、スタイル転送情報は、
【数7】
に基づいて決定することができる。
【0063】
図6は、本出願の一実施形態に係る、局在編集を用いた合成画像生成を容易にする合成画像生成システムのユーザインターフェースの方法を示すフローチャート600を示す。動作中、インターフェースは、対象画像及び元画像のそれぞれのアップロードオプションを提示する(動作602)。次いで、インターフェースは、元画像内のセマンティック要素を決定する(動作604)。インターフェースは、元画像の画像タイプのための、予め記入されたセマンティック要素のカタログを使用してもよい。次に、インターフェースは、スタイル転送のためのセマンティック要素を選択するためのそれぞれのオプション、及びスタイルの転送の強度を提示する(動作606)。次いで、インターフェースは、セマンティック要素及びスタイルの転送の強度を選択するユーザ入力を取得し(動作608)、画像合成を開始する命令(例えば、提出)を取得する(動作610)。
例示的なコンピュータシステム及び装置
【0064】
図7は、本出願の一実施形態に係る、セマンティック情報に基づく合成画像生成を容易にする例示的なコンピュータシステムを示す。コンピュータシステム700は、プロセッサ702、メモリデバイス704、及び記憶デバイス708を含む。メモリデバイス704は、揮発性メモリデバイス(例えば、デュアルインラインメモリモジュール(dual in-line memory module、DIMM))を含むことができる。更に、コンピュータシステム700は、ディスプレイデバイス710、キーボード712、及びポインティングデバイス714に連結することができる。記憶装置708は、オペレーティングシステム716、合成画像生成システム718、データ736を記憶することができる。合成画像生成システム718は、システム110の動作を組み込むことができる。
【0065】
合成画像生成システム718は、コンピュータシステム700によって実行されると、コンピュータシステム700に本開示に記載の方法及び/又はプロセスを実行させることができる命令を含むことができる。具体的には、合成画像生成システム718は、ユーザが元画像及び対象画像を選択することを可能にするユーザインターフェース、並びに元画像(ユーザインターフェースモジュール720)内のセマンティック要素を提供するための命令を含むことができる。合成画像生成システム718はまた、元及び/又は対象画像に関連付けられた特徴ベクトルを決定するための命令(特徴分析モジュール722)を含むことができる。更に、合成画像生成システム718は、クラスタリング技術を使用して特徴ベクトルをクラスタリングし、それぞれのクラスタにセマンティックラベルを割り当てるための命令を含む(セマンティック解析モジュール724)。
【0066】
合成画像生成システム718はまた、選択されたセマンティック要素(画像生成モジュール726)に関連付けられた局在編集を用いて、元画像及び対象画像に基づいて合成出力画像を生成するための命令を含むことができる。合成画像生成システム718は、メッセージを送受信するための命令(通信モジュール728)を更に含んでもよい。データ736は、特徴分析モジュール112,セマンティック解析モジュール114,及び拡張GAN116のうちの1つ以上の動作を容易にすることができる任意のデータを含むことができる。データ736は、画像サンプル、特徴ベクトル、特徴ベクトルのクラスタ、クラスタと対応するセマンティック要素との間の関連性、クエリ行列、及び合成出力画像のうちの1つ以上を含んでもよい。
【0067】
図8は、本出願の一実施形態に係る、意味情報に基づく合成画像生成を容易にする例示的な装置を示す。合成画像生成装置800は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信してもよい複数のユニット又は装置を構成することができる。装置800は、1つ以上の集積回路を使用して実現され得、図8に示されているものよりも少ない又は多いユニット又は装置を含み得る。更に、装置800は、コンピュータシステムに統合されていてもよく、又は他のコンピュータシステム及び/若しくは装置と通信可能な別個の装置として実現されていてもよい。具体的には、装置800は、図7のコンピュータシステム700のモジュール720~728と同様の機能又は操作を実行するユニット802~810を構成することができ、これには、ユーザインターフェースユニット802;特徴分析ユニット804;セマンティック解析ユニット806;画像生成ユニット808;及び通信ユニット810が含まれる。
【0068】
「発明を実施するための形態」に記載されるデータ構造及びコードは、典型的には、コンピュータ可読記憶媒体に記憶され、コンピュータ可読記憶媒体は、コンピュータシステムが使用するためのコード及び/又はデータを記憶することができる任意のデバイス又は媒体であり得る。コンピュータ可読記憶媒体としては、揮発性メモリ、不揮発性メモリ、ディスク、磁気テープ、CD(compact disc、コンパクトディスク)、DVD(digital versatile disc、デジタル多用途ディスク、又はdigital video disc、デジタルビデオディスク)などの磁気及び光学ストレージデバイス、又は現在知られている若しくは今後開発されるコンピュータ可読メディア媒体を記憶できる他の媒体が挙げられるが、これらに限定されない。
【0069】
「発明を実施するための形態」の節に記載される方法及びプロセスは、上に論じられるようなコンピュータ可読記憶媒体内に記憶され得るコード及び/又はデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び/又はデータを読み取って実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及び処理を実行する。
【0070】
更に、上述の方法及びプロセスは、ハードウェアモジュールに含めることができる。例えば、ハードウェアモジュールとしては、特定用途向け集積回路(application-specific integrated circuit、ASIC)チップ、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、及び現在知られている又は今後開発される他のプログラム可能論理デバイスを含むことができるが、これらに限定されない。ハードウェアモジュールが起動されると、ハードウェアモジュールは、ハードウェアモジュール内に含まれる方法及びプロセスを実行する。
【0071】
本明細書に記載される前述の実施形態は、例示及び説明のみを目的として提示されている。これらは、網羅的であること、又は本明細書に記載される実施形態を開示される形態に限定することを意図するものではない。したがって、多くの修正及び変形が、当業者には明らかであろう。加えて、上記の開示は、本明細書に記載される実施形態を限定することを意図するものではない。本明細書に記載される実施形態の範囲は、添付の特許請求の範囲によって定義される。
図1A
図1B
図2
図3
図4A
図4B
図5A
図5B
図6
図7
図8