IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コルバート,マーカス シー.の特許一覧

特許7507791モデルのアパレルアンサンブルを合成するためのシステムおよび方法
<>
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図1
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図2
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図3
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図4
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図5
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図6
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図7
  • 特許-モデルのアパレルアンサンブルを合成するためのシステムおよび方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-20
(45)【発行日】2024-06-28
(54)【発明の名称】モデルのアパレルアンサンブルを合成するためのシステムおよび方法
(51)【国際特許分類】
   G06T 1/40 20060101AFI20240621BHJP
   G06T 19/20 20110101ALI20240621BHJP
   G06N 3/0455 20230101ALI20240621BHJP
   G06N 3/09 20230101ALI20240621BHJP
【FI】
G06T1/40
G06T19/20
G06N3/0455
G06N3/09
【請求項の数】 12
(21)【出願番号】P 2021569899
(86)(22)【出願日】2020-05-01
(65)【公表番号】
(43)【公表日】2022-07-27
(86)【国際出願番号】 US2020031014
(87)【国際公開番号】W WO2020242718
(87)【国際公開日】2020-12-03
【審査請求日】2023-04-20
(31)【優先権主張番号】16/422,278
(32)【優先日】2019-05-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521510914
【氏名又は名称】コルバート,マーカス シー.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】コルバート,マーカス シー.
【審査官】益戸 宏
(56)【参考文献】
【文献】米国特許出願公開第2014/0010449(US,A1)
【文献】特開2018-129007(JP,A)
【文献】Xintong Han et al.,Compatible and Diverse Fashion Image Inpainting,arXiv,2019年02月04日,[online],[retrieved on 2024.05.10], Retrieved from the Internet: <URL: https://arxiv.org/pdf/1902.01096v1>
【文献】久保静真 他3名,服の領域を考慮した写真上の人物の自動着せ替えに関する研究,情報処理学会論文誌,2019年03月15日,Vol.60, No.3,pp.870-879
【文献】Nikolay Jetchev et al.,The Conditional Analogy GAN: Swapping Fashion Articles on People Images,IEEE International Conference on Computer Vision,2017年10月,pp.2287-2292
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 19/00
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
方法であって、
Zベクターを生成する減少トポロジ入力セクションおよび前記Zベクターに基づいて合成画像を生成する拡大トポロジ出力セクションを有する多層ニューラルネットワークを初期化するステップと、
前記多層ニューラルネットワークを訓練データセットで訓練するステップと、を含み、各訓練データセットは、
i)アパレルの第1のアイテムを示す第1の訓練画像と、
ii)アパレルの第2の異なるアイテムの2つの図を示す2つの第2の訓練画像と、
iii)アパレルの前記第1のアイテムおよびアパレルの前記第2の異なるアイテムを着ているモデルを示す訓練ターゲット画像と、を備え、
前記訓練するステップは、訓練された画像合成ネットワークを生成するためであり、
前記方法は、インスタンスデータセットを前記訓練された画像合成ネットワークに提供するステップを含み、前記インスタンスデータセットは、
I)アパレルの第1のインスタンスアイテムを示す第1のインスタンス画像と、
II)アパレルの第2の異なるインスタンスアイテムの2つの図を示す2つの第2のインスタンス画像と、を備え、
前記方法は、
前記インスタンスデータセットに基づいて、前記減少トポロジ入力セクションからインスタンスZベクターを取得するステップと、
前記インスタンスZベクターに基づいて、前記拡大トポロジ出力セクションから合成インスタンス画像をエクスポートするステップと、を含み、
前記合成インスタンス画像は、アパレルの前記第1のインスタンスアイテムおよびアパレルの前記第2のインスタンスアイテムを着ているモデルを示すように見える、
方法。
【請求項2】
訓練の間、前記Zベクターの結果に影響を与える要素を識別するステップと、
前記インスタンスZベクターの結果に影響を与える要素を調整し、前記合成インスタンス画像の特性を変えるステップと、
をさらに含む、
請求項1に記載の方法。
【請求項3】
各訓練データセットは、
iv)中立姿勢の人間の姿を示す訓練モデル画像をさらに備え、
前記訓練ターゲット画像(iii)は、アパレルの前記第1のアイテムおよびアパレルの前記第2の異なるアイテムを着用している前記人間の姿を示し、
前記インスタンスデータセットは、
III)中立姿勢の人を示すモデルインスタンス画像をさらに備え、
前記合成画像は、アパレルの前記第1のインスタンスアイテムおよびアパレルの前記第2のインスタンスアイテムを着用している前記人を示すように見え、前記合成画像内の前記人の姿勢は、前記モデルインスタンス画像の前記中立姿勢と異なる、
請求項1に記載の方法。
【請求項4】
各訓練データセットは、
v)前記第1の訓練画像に関する少なくとも1つの非画像データをさらに備える、
請求項1に記載の方法。
【請求項5】
前記少なくとも1つの非画像データは、テキストタグ、衣類材料、衣類サイズおよび衣類寸法からなる群から選択される、
請求項4に記載の方法。
【請求項6】
アパレルの前記第1のアイテムは、シャツ、ブラウス、ドレス、スカートおよびズボンからなる群から選択される、
請求項1に記載の方法。
【請求項7】
アパレルの前記第1のアイテムは、平坦であるが、平坦面に対して無拘束で描写される、
請求項6に記載の方法。
【請求項8】
アパレルの前記第2の異なるアイテムは、靴、ハンドバッグ、帽子およびブレスレットからなる群から選択される、
請求項1に記載の方法。
【請求項9】
アパレルの複数のアイテムを着用しているモデルの画像を合成するためにニューラルネットワークを訓練するための方法であって、
アパレルの第1のアイテムの自動的に操作可能なモデルを構築するステップと、
アパレルの前記第1のアイテムの画像をレンダリングし、第1の訓練画像を生成するステップと、
アパレルの第2の異なるアイテムの自動的に操作可能なモデルを構築するステップと、
アパレルの前記第2の異なるアイテムの2つの画像をレンダリングし、第2の訓練画像の対を生成するステップと、
人間の姿の自動的に操作可能なモデルを構築するステップと、
前記人間の姿の前記モデルを自動的に操作し、ポーズをとった姿のモデルを生成するステップと、
アパレルの前記第1のアイテムの前記モデルおよびアパレルの前記第2のアイテムの前記モデルにより、前記ポーズをとった姿のモデルに自動的に服を着せ、服を着た姿のモデルを生成するステップと、
前記服を着た姿のモデルの画像をレンダリングし、第3の訓練画像を生成するステップと、
前記第1、第2および第3の訓練画像をニューラルネットワークに適用するステップであって、前記ニューラルネットワークを訓練し、前記第1の訓練画像および前記第2の訓練画像の対に類似のインスタンス画像から前記第3の訓練画像に類似の画像を合成するステップと、
を含む方法。
【請求項10】
前記適用するステップは、訓練されたニューラルネットワークを生成し、前記方法は、
アパレルの第1のインスタンスアイテムを撮影することによって、アパレルの前記第1のインスタンスアイテムの第1のインスタンス画像を取得するステップと、
2つの異なる視点からアパレルの第2のインスタンスアイテムを撮影することによって、アパレルの前記第2のインスタンスアイテムの画像の第2のインスタンスの対を取得するステップと、
前記第1のインスタンス画像および前記第2のインスタンス画像の対を前記訓練されたニューラルネットワークに送達するステップと、
前記訓練されたニューラルネットワークからターゲット画像を受信するステップと、をさらに含み、前記ターゲット画像は、アパレルの前記第1のインスタンスアイテムおよびアパレルの前記第2のインスタンスアイテムを着ている存在しない人間の姿に似ている、
請求項9に記載の方法。
【請求項11】
前記適用するステップは、訓練されたニューラルネットワークを生成し、前記方法は、
中立姿勢の前記モデルとともに、前記人間の姿の前記モデルの中立姿勢画像をレンダリングするステップと、
前記第1、第2および第3の訓練画像とともに、前記中立姿勢画像を前記ニューラルネットワークに適用するステップと、をさらに含む、
請求項9に記載の方法。
【請求項12】
前記適用するステップは、訓練されたニューラルネットワークを生成し、前記方法は、
アパレルの第1のインスタンスアイテムを撮影することによって、アパレルの前記第1のインスタンスアイテムの第1のインスタンス画像を取得するステップと、
2つの異なる視点からアパレルの第2のインスタンスアイテムを撮影することによって、アパレルの前記第2のインスタンスアイテムの画像の第2のインスタンスの対を取得するステップと、
中立姿勢の人を撮影することによって、前記人の第3のインスタンス画像を取得するステップと、
前記第1のインスタンス画像および前記第2のインスタンス画像の対および前記第3のインスタンス画像を前記訓練されたニューラルネットワークに送達するステップと、
前記訓練されたニューラルネットワークからターゲット画像を受信するステップと、をさらに含み、前記ターゲット画像は、アパレルの前記第1のインスタンスアイテムおよびアパレルの前記第2のインスタンスアイテムを着ている前記人に似ており、
前記ターゲット画像内の前記人の姿勢は、前記中立姿勢と異なるか、または、
前記ターゲット画像内の前記人の見かけの体重は、前記第3のインスタンス画像内の前記人の見かけの体重と異なる、
請求項11に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
連続性および優先権の主張
この国際特許出願は、2019年5月24日に出願された米国特許出願第16/422,278号の優先権を主張する。親出願は、2017年6月27日に出願された米国特許出願第15/634,171号(2019年5月28日に公開された米国特許第10,304,227号)の一部継続出願である。従来の開示は、この参照によって含まれる。
【0002】
技術分野
本発明は、自動画像生成に関する。より詳しくは、本発明は、画像対の訓練セットに基づいて合成画像を作成する方法に関する。一旦訓練されると、一実施形態は、画像対の1つの部材に類似する新しい画像を受け入れ、対の他の画像が見えるかもしれないものを表現する合成画像を作成することができる。
【背景技術】
【0003】
ニューラルネットワークは、生物学的プロセスによって引き起こされるコンピュータシステムである。特に、それらは、生物学的ニューロンが機能すると考えられる方法と同様に動作するように設計される複数のモジュールを備える。ニューロンは、しばしば、十分な入力が十分にアクティブである場合「点火する」、複数入力、単一出力閾値化アキュムレータとしてモデル化される(1つのモデルニューロンの出力は、多くの次のニューロンモデル入力に、または、フィードバックループの以前のニューロンモデルにさえ接続されうる)。単一のニューロンモデルの機能は非常に単純であるが、適切に構成または「訓練」される、同時に動作する多数のモデルは、従来のデータ処理またはプログラミング技法では対処が困難な問題に対して驚くほど良好な結果を生成することができるということが観察されてきた。
【0004】
1つの一般的なニューラルネットワークのタスクは画像認識である。複数のニューロンは、画像の各ピクセルのための入力ニューロンのアレイによってピラミッドのような階層に配置され、1つまたは複数のサイズが減少するニューロンの層が続き、出力ニューロンは、入力画像が関心の特性を有するかを示すように指定される。この種のネットワークは、関心の特性が存在するかまたは不在である画像セットへの露出によって「訓練」可能である。例えば、特性は、ペンギンが画像内に存在するかでもよい。一旦訓練されると、ネットワークは、訓練セットの一部ではなく、ペンギンが新しい画像内に描写されるかをかなり正確に決定可能になりうる。
【0005】
ニューラルネットワークを用いて、従来の訓練およびランダムシードに基づいて、新しい情報を生成または合成することもできる。例えば、生物物理学者マイク タイカ博士は、ニューラルネットワークの訓練を試み、人間の顔の芸術的な描写に似ている画像を生成したが、その画像には、実際の被写体は含まれておらず、個人とのいかなる類似点も純粋に偶発的である。
【0006】
ニューラルネットワークが絶対確実というわけでない(認識部はターゲットを誤認しうるし、または、生成ネットワークは意図された目的のために使うことができない出力を構築しうる)が、それらは、しばしば、決定論的な方法があまりに遅いか、あまりに複雑であるか、あまりに高価である用途において実用に適している。したがって、ニューラルネットワークは、コンピュータ上で実施するのが容易である機械的方法と、人間の判断に依存して最善の結果を達成する労働集約型の方法と、の間のギャップを埋めることができる。
【発明の概要】
【課題を解決するための手段】
【0007】
ニューラルネットワークは、画像セットによって訓練され、各セットの2つ以上の画像は、アパレルのアイテム(衣類、靴、アクセサリなど)を示し、1つの画像は、アパレルのアイテムを着用しているモデルを示す。一旦訓練されると、「アパレル」画像の新しいセットは、ネットワークに提示され、アパレルのアイテムを着用しているモデルに似ている合成画像は、自動的に生成される。合成画像は、ユーザに表示される。
【図面の簡単な説明】
【0008】
図1】本発明の一実施形態による方法を概説するフローチャートである。
図2】本発明の一実施形態を実施するニューラルネットワークによるデータフローの簡略表現である。
図3】「モデルの姿勢」画像制御パラメータが変化するときに作成される合成画像の範囲を示す。
図4】一実施形態のより総合的な適用を概説するフローチャートである。
図5】一実施形態の他の適用を概説するフローチャートである。
図6】本発明の一実施形態を実施するニューラルネットワークによるデータフローの簡略表現である。
図7】本発明の一実施形態を実施するニューラルネットワークによるデータフローのより詳細な表現である。
図8】本発明の一実施形態を実施するニューラルネットワークを訓練する有効な方法を概説するフローチャートである。
【発明を実施するための形態】
【0009】
大部分の人々は衣服を着るし、多くの人々は、購入の前に衣類を試着する機会を顧客に提供しない(できない)販売会社から自分の衣服のいくつかを選択し、購入する。カタログおよびオンライン小売店は(とりわけ)、代表するモデルが着用し、一般的な状況において提示される衣類の写真を生成するために、しばしば大抵のことをする。これらの写真は、直接それを見ることができない顧客に、衣類のフィット感および見かけの印象を伝えるために重要である。
【0010】
本発明の実施形態は、ニューラルネットワークを用いて、衣類のみのより低価格の画像から、衣類を着ているモデルの画像を合成する。有益に、合成プロセスは、合成画像の特性を調整するために使用可能な制御を露出させる。例えば、合成画像内のモデルの肌色、体形、姿勢および他の特性は、有用な範囲にわたり変化してもよい。これにより、ユーザ(例えば顧客)は、合成した「着用したときの」画像を自分により似せるように調整することができる。したがって、代表的な写真を生成するためのコストを削減することに加えて、一実施形態によって、ユーザは、自分が着用したとき、特定の衣類がどのように見えうるかについて、より良く理解することができる。この改善された表現は、小売業者の販売の可能性を向上させうる(または、購入者が着てみると気に入らなかった衣類を返却するのを回避する)。
【0011】
実施形態は、「ニューラルネットワーク」として知られているソフトウェアシステムの力を利用することによって、この合成を達成する。ニューラルネットワークは、しばしば、画像内の対象物および特徴の自動認識を実行するために用いられ、それらは、「この画像はエッフェル塔を示すか?」または「この画像は帽子をかぶっている人を含むか?」のような質問に答えることができる。ニューラルネットワークはまた、それらが訓練された他の画像に類似している新しい画像を生成または合成するように構成可能である。ニューラルネットワークのこれらの2つのタイプ(認識および合成)がともに推測されるとき、それらは、敵対的生成ネットワーク(「GAN」)を形成し、合成部は、その出力を最適化し、認識部に「はい」と答えさせる画像を生成し、認識部は、その分析を最適化し、合成画像によって「だまされる」という可能性を減少する。したがって、1つの可能なGANは訓練され、帽子をかぶっている人のより良好な画像を生成することができる(「帽子をかぶっている人」のいくつかの合成画像は、帽子をかぶっている人のように見えず、認識部をだますかもしれないが、一般的に、ネットワークの訓練が慎重に実行される場合、多くまたは大部分の合成画像は、人間が「帽子をかぶっている人の写真」と認識する画像を必要とするプロセスにおいて有用であることを認識されたい)。図1は、一実施形態の動作の中心部の概要を示す。方法は、ニューラルネットワークを初期化することから開始する(100)。このネットワークは、一対の画像を用いて訓練され(110)、各対の一方の画像は、衣類(例えば、中立面上に平たく広げられた衣類)を示し、各対の他方の画像は、衣類を着用しているモデルを示す。一旦訓練が終了すると、「Zベクター」(後述する)から有用なパラメータが識別される(120)。
【0012】
ここで、典型的な使用では、衣類画像は、訓練されたネットワークに提供される(130)。衣類画像は、訓練画像の1つである必要はないが(好ましくは訓練画像の1つではないが)、その代わりに、対応する片方のない画像である。ネットワークは、ネットワークの訓練およびZベクターのパラメータに基づいて、この衣類の画像をモデル上に合成する(140)。合成画像は、ユーザに表示される(150)。ユーザは、Zベクターパラメータを調整してもよく(160)、新しい画像は、合成され(140)、表示される(150)。調整および再合成は、衣類を着用しているモデルのさまざまな合成画像を生成するために、所望の回数繰り返してもよい。
【0013】
Zベクターパラメータは、特性、例えば、モデルの肌色、体形およびサイズ、姿勢または位置、さらにはアクセサリ(例えば、靴のスタイル、ハンドバッグ、眼鏡、スカーフまたは宝石)さえも制御してもよく、その結果、ユーザは、自分が身に着けた場合、衣類が見えるだろうものにより酷似する画像を生成するために、合成プロセスを制御することが可能でもよい。
【0014】
図2は、本発明の一実施形態で使用可能なニューラルネットワークの1つのタイプである敵対的生成ネットワークの概念上の表現を示す。情報は、概して、図面全体において左から右に通過するとして理解可能である。衣類の画像210は、第1のニューラルネットワーク220の入力層221に伝えられる。入力層は、入力画像内のピクセルとほぼ同数の入力要素(すなわち、この図面に示されるより多くの要素)を有してもよい。または、入力層は、各入力ピクセルのカラーチャネルごとに要素を備えてもよい(例えば、ピクセルごとに赤、緑および青要素)。入力層221は、可変結合荷重222のネットワークによって中間層223に結合され、中間層223は、類似のネットワーク224によって出力層225に結合されている。結合は、すべて対すべてで示されるが、各結合は、可変荷重に関連付けられてもよいので、いくつかの結合は、事実上不在でもよい(荷重=0)。層対層の結合に加えて、一実施形態は、フィードバック結合226を用いてもよく、フィードバック結合226は、すぐ前の層に、または、より前の層に行ってもよい。各ニューラルネットワークは、ここで示される3層より多くを有してもよい。好ましい実施形態において、約7層が用いられる。
【0015】
(左から右に進行する)ニューラルネットワーク220の各層が前の層より小さいことに留意されたい。したがって、ネットワークは、一種の圧縮を実行するとみなすことができ、結果としてZベクター250を生じ、Zベクター250は、多くの実施形態において、ネットワーク220の最後の層の出力を備える実数のベクターである。
【0016】
Zベクター250は、第2のニューラルネットワーク230への入力として用いられる。このネットワーク(可変荷重結合232、234によって相互接続されるモデルニューロン231、233および235の層を備える)は、構造の点でネットワーク220に類似するが、各層の要素の数は、(データフローの方向に)増加している。ネットワーク220と同様に、ネットワーク230は、データを「逆の」方向に運ぶフィードバック結合(例えば236)を含んでもよい。ネットワーク230の出力は、一旦GANが訓練されると、モデルが着用すると衣類210が見えうるものを表現する合成画像240である。
【0017】
さまざまなネットワーク内接続に加えて、一実施形態は、ネットワーク間接続227、228または237を用いてもよい。これらは、典型的には、同程度の深さの層を結合(227、237)するが、異なる深さの間の結合(228)が提供されてもよい(ここで、「深さ」は、ネットワークが互いにある程度ミラー画像であるという事実を認めて、「左側のネットワーク220の入力から離れたレベルまたは右側のネットワーク230の出力から離れたレベル」を意味する)。これらの接続は、「スキップ接続」と称してもよい。概念的には、スキップ接続は、ネットワークが、「圧縮」および「合成」動作にあまり影響を及ぼさない情報を通過させる単純で直接的な方法を提供する。例えば、衣類色は、図においてどのように織物が吊るされ、かかっている傾向があるかの質問に対して主に直角である。等価な構造の赤いドレスおよび青いドレスは、色自体を除いて、モデル上でほぼ同じに見える。したがって、入力ネットワークが色を認識し、それを、Zベクターを通して生成ネットワークに伝えるのに依存するよりはむしろ、スキップ接続は、サンプル画像の色を出力ネットワークまで直接運ぶことができる。
【0018】
ネットワーク220が圧縮のような何かを実行するという考えに戻って、Zベクター要素のいくつかは、訓練画像対を処理した後にGANが認識すること(および画像合成において使用すること)を学習した特性をコード化することがわかる。例えば、1つのZベクター要素は、モデルの肌色を制御してもよい。他の要素は、(モデルがカメラに向かっているかまたは一方に向いているかまたは腕もしくは脚の位置を含む)モデルの姿勢を制御してもよい。要素は、合成画像において描写される靴のスタイルを制御してもよい。これらは、訓練画像から学習されるスタイルの1つに類似してもよいが、出力画像の靴は、訓練画像モデルの脚の1つから単に複製されるものではない。その代わりに、生成ネットワーク230は、靴または他のアクセサリを含む画像を構築し、その画像は、入力画像210が対応するモデル衣類の対の一方の画像を有した場合、訓練画像の中で見られたかもしれないもののように見える。そして決定的に、Zベクター要素を調整することは、生成ネットワークに、異なる肌色、モデルの姿勢または靴のスタイルを有する新しい画像を作成させることができる。Zベクター要素はまた、詳細、例えばドレスの長さ、袖の長さまたは襟のスタイルを制御してもよい。すなわち、合成画像は、衣類が変えられるかもしれない方法ならびにモデルが変えられるかもしれない方法を示してもよい。1つの例示的な実施形態では、入力ドレス画像が正面から示される場合であっても、Zベクター要素は、モデルの回転を制御し、妥当と思われる範囲でドレスを着たモデル画像を、その範囲にわたり左から右へのモデルの回転をともなって生成することができる。この例を図3に示す。全25の画像は、さまざまな服装/モデル対の写真によって訓練されたネットワークによって、黒いドレスの単一の画像から合成された。
【0019】
図2を参照して描写および記載されている敵対的生成ネットワーク(「GAN」)が一実施形態で用いられるのに適切なニューラルネットワークの1つのタイプであるが、他の周知のタイプも使うことができる。例えば、回帰型ニューラルネットワーク(「RNN」)、回帰型インタフェースマシン(「RIM」)および変分オートエンコーダー(「VAE」)として従来技術において周知のネットワーク構成は、すべて上述したように画像の対によって訓練可能であり、新しい入力画像のもっともらしい一対-片方でありうる新しい合成画像を生成することができ、合成画像の特徴または特性を調整するために比例して変化可能な定量的制御パラメータを露出させる。ニューラルネットワークの上述の態様は、本発明の実施形態における使用に重要であり、すなわち、
●画像の対によって学習可能である
●新しい入力画像から合成画像を生成し、合成画像は、新しい入力画像に対応する「対」画像に似ている(すなわち、新しい入力画像および合成画像は、もっともらしく訓練セット内で対でありえた)
●以下のような特性を含む合成画像の特性を変化させるように操作可能な定量的制御パラメータを露出させる。
〇モデルの肌色
〇モデルの姿勢
〇モデルの体重、体形
〇アクセサリ
〇衣類の長さ
〇衣類の袖のスタイル
〇衣類の襟のスタイル
〇衣類のフィット感
【0020】
一実施形態の使用に適しているニューラルネットワークの1つの特徴は、簡単に上で言及されたが、さらなる考察を行う。図2において、特定のレベルの各ノードは、次のレベルですべてのノードに結合されるように描写された。加えて、いくつかのレベル間の結合が示された。しかしながら、ニューラルネットワークは、完全に結合されてもよい。各ノードの加重出力は、(ノード自体さえを含む)すべての他のノードに対する入力信号の一部を形成してもよい。この種のネットワークは、2次元の図において描写するのが非常に困難であるが、それは、当業者に周知の一般的なトポロジである。他の代替例は、畳み込みニューラルネットワークである。このトポロジは、完全に結合されたネットワークより空間効率的であるので、それは、しばしば、より大きな入力画像に動作することができ(そして、より高い解像度の出力画像を生成することができる)。また、畳み込みネットワークは、当業者に周知であり、本明細書において記載されている原則および方法を支持することによって、有効に使用可能である。
【0021】
敵対的生成ネットワークを用いた本発明の例示的な実施形態では、入力画像は、各ピクセル用の3つのカラーチャネル(赤、緑および青)を有する約192×256ピクセルでもよい。したがって、入力層は、192×256の×3=147,456のニューロンモデル要素を備える。次の層は、2分の1に減少し、Zベクターは、512×4×3=6,144スカラーとして終わる。生成ネットワークは、入力ネットワークを反映してもよく、Zベクターから開始し、192×256の合成カラー画像を放出する。
【0022】
Zベクターのすべての要素が、「肌色」、「ドレスの長さ」、「靴のスタイル」または「モデルの姿勢」のような認識可能な特性に対応するというわけではない。個々のベクター要素(および、ベクターのサブセット)の影響は、経験的に、または、(例えば、画像に特性説明をタグ付けすることによって)訓練画像対について追加情報を提供し、訓練の間、ネットワークを通して追加情報を伝搬することによって決定されてもよい。
【0023】
Zベクター構成要素の影響を決定する1つの好ましい方法は、Zベクターの主成分分析(「PCA」)を実行し、構成要素が主に線形独立であるより小さいベクターZ’を識別することである。Z’の要素は、テストされ、それらの影響を決定してもよく、関心の特性に影響を及ぼす要素は、ユーザに露出され、合成画像生成を制御してもよい。
【0024】
図4は、本発明の一実施形態による画像合成部のまわりで構築される完全な適用により用いられる方法を概説する。開始するために、システムオペレータは、画像対の訓練セットを用いて上述したようにニューラルネットワークを初期化し、訓練し、各対の一方の部材は、衣類を描写し、各対の他方の部材は、衣類を着用しているモデルを描写する(410)。次に、衣類画像のデータベースは、データが読み込まれる(420)。これらの画像は、訓練セットの第1の画像に類似し、訓練画像を含むことさえできる。これらは、例えば、システムオペレータによって販売される衣類の画像である。
【0025】
顧客がオペレータのシステムを訪問するとき(例えば、顧客が電子商取引ウェブサイトにアクセスするとき)、彼女は任意の適切な従来技術の方法を用いて、衣類のカタログを検索または閲覧してもよい(430)。例えば、衣類は、色、スタイル、重さ、デザイナー、サイズ、価格または他の任意の所望のアレンジによって分類され、提示されてもよい。ユーザが衣類を選択するとき(440)、システムは、衣類の画像をモデル上に合成し、表示する(450)。ユーザには、Zベクターの適切な要素に結合されている制御アレイが提供されてもよく、彼女は、要望通りそれらのパラメータを調整してもよい(460)。パラメータが調整されると、システムは、衣類の新しい画像をモデル上に合成し、表示する(450)。
【0026】
例えば「戻る」ボタンをクリックするかまたは検索結果のリストに戻ることによって、ユーザがこの衣類を購入しないことを決める場合(470)、彼女は、販売中の他の衣類を見るのを継続してもよい(430)。ユーザが衣類を購入することを決める場合(480)、選択された衣類に関する情報(例えばSKU)は、次の活動のために、従来技術の受注処理プロセスに伝えられる(490)。
【0027】
本発明の実施形態は、衣類選択制御を、画像生成の他の態様(肌色、姿勢、体形、アクセサリなど)のための制御と組み合わせてもよい。次に、この複数の制御のうちの個々の制御を操作することによって、ユーザは、(肌色、姿勢およびアクセサリのみを残し)衣類を変えることができるか、または、(肌色、姿勢および衣類のみを残し)アクセサリを切り替えることができる。この実施形態は、人間のファッションコーディネータによって大きな費用をかけて提供され、したがって通常または乏しい財力の買い物客は大抵利用できない完全な「一式」または「外観」の可能性の中で、迅速で自発的な比較を可能にする。
【0028】
図5は、上述した画像合成ネットワークの他の適用を概説する。上述したように、方法は、画像対の訓練セットを用いて画像合成ネットワークを初期化し、訓練することから開始する(500)。次に、システムは、衣類画像を獲得し(510)、衣類の画像をモデル上に合成し(520)、合成画像を格納する(530)。処理すべき衣類画像がまだある場合(540)、これらのステップは繰り返され、結果として、画像が獲得および処理されたさまざまな衣類を示す合成画像のライブラリを生ずる。画像合成は、合成画像ライブラリ内のさまざまな異なるモデルの肌色、体形、姿勢およびアクセサリを生ずる、ランダムに選択されたZベクターパラメータを用いてもよい。
【0029】
処理すべき衣類画像がないとき(550)、ライブラリからの合成画像は、カタログレイアウト内に組み込まれてもよく(560)、印刷されてもよいか(570)、または、1つもしくは複数の合成画像を備える複数の静的ウェブページが生成されてもよく(580)、それらのウェブページは、ウェブサイトへの訪問客に提供されてもよい(590)。このプロセスは、製品画像のカタログまたは多くの衣類を表示するウェブサイトを生成するためのコストを減少することができる。
【0030】
方法が従来技術の衣類処理シーケンス、例えばさまざまな製造業者から多くの外注の衣類を受け取る委託販売業者と統合されてもよいことを認識されたい。これらの衣類は、保管または運搬の匂いを消すため、および、しわを取り除くために、蒸気室を通過してもよい。衣類は、このプロセスの間、マネキン上に配置されてもよく、新たに蒸気に当てられた衣類の画像は、最後に自動的にキャプチャされてもよい。この画像は、図5において概説されるプロセスに、510の「獲得画像」として送達されてもよい。衣類の複数の図が獲得されてもよく、ニューラルネットワークが、対応してよりさまざまな画像対によって訓練されたならば、よりさまざまな「モデル上の衣類」画像の合成を可能にしてもよい。
【0031】
この出願に記載されているニューラルネットワークベースの画像合成システムは、上述した概念から実質的に逸脱することなく、より複雑で有用なタスクを実行するために拡張可能である。拡張は、概して、入力画像セットを用いてニューラルネットワークを訓練し、画像は多くのカテゴリに分類される。訓練の後、ニューラルネットワークを用いて、好ましくは訓練カテゴリに適合する見たことのない画像を含む新しい合成画像を入力から作成する。これを具体的に表現するために、第1の画像が衣類のみを示し、第2の画像が衣類を着用しているモデルを示す画像の対を用いて上述したシステムが訓練されることを思い出しなさい。一旦訓練されると、衣類のみの新しい画像が提示され、ネットワークは、新しい画像を合成し、その新しい画像では、衣類を着用している仮定的モデルに似ている。システムは、入力される衣類以外の特徴を含んだモデルの合成画像を生成することができるが、ただし、訓練画像のいくつかがこの種の要素を示したという条件である。例えば、上述したように、Zベクターの要素は、描写される靴のスタイルを制御しうる。しかし、靴は、モデル自体と同様に、完全に、画像合成部の製作であった。入力解析部または圧縮部は、靴を履いているモデルを含む訓練画像に出会い、この種の靴を含みうるもっともらしい合成画像を生成することを「学習した」。
【0032】
後述するシステムでは、訓練画像は、2つ以上の関連した「構成要素」画像のグループまたはセット、すなわち、衣類、靴およびアクセサリ(例えば、ハンドバッグ、ブレスレット、帽子など)と、衣類、靴およびアクセサリを着用しているモデルの「ターゲット」画像と、を含む。訓練のゴールは、ネットワークを「教育し」、モデルが構成要素画像において描写されるアパレルアイテムを着用していることを示すターゲット画像の特徴を認識することである。最後に、敵対的生成ネットワーク(「GAN」)の慣習に従って、画像合成部ネットワークは、認識部と比較対照されるので、合成部は、認識部が入力された衣類およびアクセサリを着用しているモデルの有効またはもっともらしい写真として認識する新しい画像を作成することを学習する。一旦このシステムが訓練されると、本当のモデルがアイテムを身に着け、写真セッションに現れる必要なく、それは、衣類、靴およびアクセサリを着用しているモデルのように見える画像を生成することができる。もちろん、上述した合成制御パラメータ(すなわちZベクターの要素)を用いて、同様に、このより複雑なシステムによって合成される画像を調整することができる。
【0033】
図6は、左のサンプル入力カテゴリと、右のサンプル出力(または訓練)画像と、ニューラルネットワーク600と、を有する本発明のシステムの概要を示し、ニューラルネットワーク600は、減少トポロジを有し、Zベクター650を生成する入力認識(「圧縮」)ネットワーク620として表現され、拡大トポロジを有する出力「合成」ネットワーク630によって動作され、アパレルのさまざまな入力アイテムを着用しているもっともらしいモデルを示す合成画像を生成する。このシステムの一実施形態は、少なくとも2つの異なるタイプの入力アパレルデータを受け入れ、ネットワークの訓練が与えられてもっともらしい方法に入力を組み合わせる少なくとも1つの合成画像を生成する。ここで、「もっともらしい」とは、「ある部分が入力画像の部分で置換された前に見た訓練画像のコピー」を意味しない。その代わりに、「もっともらしい」画像は、(訓練の後)認識部が、入力された衣類およびアクセサリを着用しているモデルを示す画像であるとして評価するものである。
【0034】
図6のニューラルネットワークのブラックボックスの単純な実施態様は、入力画像データのすべてを単一の大きな画像に単に合成することができ、次に、訓練プロセスに依存し、大きな画像のさまざまな部分を認識するようにネットワークを教育することができ、次に、入力アイテムのすべてを着用しているモデルの画像を合成することができる。しかしながら、図7に示されるより高度な実施態様は、より効率的により単純な訓練のために、入力情報をニューラルネットワークに送達することができる。それはまた、より有効な制御特徴をユーザに露出し、システムがほぼ「モジュラ」方法でも用いられるのを可能にする。
【0035】
好ましい実施形態において、2つ以上の入力ネットワーク721、722、…、729は、異なるカテゴリの入力を受信する。1つのネットワーク721は、衣類711の画像を受信してもよく、他のネットワーク729は、靴719a、bの画像を受信してもよい(発明者は、「靴」のネットワーク性能が、同じ靴の複数の画像(例えば正面および側面からの画像)を提供することによって改善できる点に注目した)。各入力ネットワークは、各レベルのノードの数が減少する分離した多層ニューラルネットワークでもよく、上述した圧縮のようなプロセスにより、そのそれぞれの入力の情報を対応するZベクター751、752、…、759に抽出する。
【0036】
これらのZベクターから、基本的な本発明の原則に従って独立して動作する複数の出力ネットワーク731、732、…、739は、訓練され、モデルおよびそれらのそれぞれの入力を含む合成画像を生成することができる。「衣類」のネットワークは、入力された衣類を着用しているモデルの画像を生成することができ、「靴」のネットワークは、入力された靴を履いているモデルの片脚(または両脚)の画像を生成することができる。しかし、この好ましい実施形態において、別々のZベクター751、752、…、759は、結合され(例えば連結され)、結合したZベクター760を形成し、これは、多数要素の画像合成部ニューラルネットワーク770に送達される。この出力ネットワークは、衣類および靴(+その画像が他の入力ネットワークに提供され、複合Zベクター760に連結された他の任意のアクセサリ、例えば、画像が入力ニューラルネットワーク722を通して提供されたズボン712)を着用しているモデルの画像を作成する。
【0037】
入力ネットワークがこのように分離されるとき、それらは、別々に使用可能であり、独立して訓練/再訓練可能である。この構成はまた、出力画像の態様に影響を及ぼすさまざまなZベクターの要素の識別を単純化する。これらの要素は、上述したように主成分分析PCAを介して識別されてもよい。合成画像の有用な特性を制御する要素は、「結果に影響を与える」と記載されてもよい。例えば、1つのZベクター要素(または共変する要素のセット)は、モデルの肌色を制御するのに効果的でもよい。他の結果に影響を与える変数は、モデルの姿勢を変えてもよい(例えば、左もしくは右を向いているか、または、腕もしくは脚の位置を変えるかなど)。いくつかの結果に影響を与える変数は、アパレルのアイテムの特性、例えば、織物のひだの柔らかさや硬さ、袖や襟の長さまたは靴のヒールの高さを制御してもよい。
【0038】
この点について、2つの特に有用な結果に影響を与える変数が(架空の合成された)モデルの体のサイズまたは比率および衣服のきつさを制御すると認識されたい。これらの変数はともに、ユーザが異なる衣類のサイズのフィット感を視覚化することを可能にする。
【0039】
靴719aおよび719bの異なる図を描写する複数の画像を受信して、Zベクター759を生成する入力「認識部」ネットワーク729は、靴の写真をモデルの足749上に合成することができるよう提案されることに留意されたい。足は、説明の便宜上3つの黒い点によって示される。これらの点は、見えないメタデータとして画像内に実際に記録される。それらは、合成されたモデルの姿勢についての追加情報を運ぶので、(例えば)合成ネットワークは、モデルの体の部分が不可能な構成(例えば、左足が前方を向くが右足が後方を向く)である合成画像を生成するのを回避することができる。「姿勢」情報に加えて、画像を認識または合成するのを支援する他の情報はまた、ニューラルネットワークに提供され、その性能を改善してもよい。
【0040】
入力の新しいカテゴリを追加することは、訓練問題の複雑さを増加させ、ニューラルネットワークが所望の画像を認識および合成可能であるために必要な訓練画像の数を増加させると認識されたい。例えば、1着のドレス、1足の靴および1つのハンドバッグについて、(モデルは裸足でバッグなしの)ドレスのみを有する「モデル」画像、靴を有するがバッグなしのモデル、バッグを有するが靴なしのモデル、および、靴およびバッグを有するモデルを提示することは好ましい。システムが複数のモデルの姿勢を学習し、合成する場合、より多くのモデル画像が必要となりえ、訓練画像の要件は、システムが扱うことが望ましいアパレルの物品ならびにモデルの体形、サイズおよび姿勢の数で指数的に増加する。
【0041】
図8で概説される好ましい訓練プロセスにおいて、訓練画像は、さまざまな入力-カテゴリアイテムの3次元モデルから合成される。これらの3次元モデルは、高価であり、作成するのに時間がかかるが、それらは異なるグループ化に自動的に組み込み可能であり、写真のようにリアルなレンダリングは、パラメータを使って生成されたモデル特性および姿勢によって自動的に作成可能である。したがって、任意にかなりの数の訓練画像は、ニューラルネットワークに作成および提示することができる。さらに、これらの訓練画像は、生きているモデルの実際の写真内に存在する照明アーチファクト、軽微な姿勢変化および他の欠陥なしで作成可能である。訓練画像に対するこのきめ細かい制御および任意の数の画像を自動的に生成する能力により、ニューラルネットワークは、効率的に訓練可能であり、無関係な情報を認識または反応するようにネットワークを不注意に訓練する危険性を減少することができる。
【0042】
このプロセスによれば、ユーザは、アパレルのいくつかのアイテムから3次元モデルを構築する(800)。これらは、例えば、シャツ、ズボン、ジャケット、ドレス、スカーフ、帽子または靴でもよい。モデルは、写真のようにリアルな画像をレンダリングするのを支持する情報、例えば、材料特性、織り、色、パターンなどを含んでもよい。モデルは、例えば、彼らの身体的な特徴および力、例えば、彼らの材料上の重力および慣性の影響をシミュレーションすることによって、自動的に操作可能である。モデルのサイズおよび寸法もまた、自動的に操作可能である。例えば、スカートの裾の長さ、または、袖の円周サイズは増減可能である。
【0043】
次に、モデルの画像は、レンダリングされる(810)。これらの画像は、好ましくは、実際の衣類の写真を生成するときを模倣するのに安価である配向および条件にある。例えば、背景に対して平たく広げられたドレスの写真は、マネキン上に配置される同じドレスの写真より生成するのが高価ではない。したがって、同様にレンダリングされた画像のために、平坦面に対してドレスを示すことが好ましい。3次元モデルが平坦面に対して配置される場合であっても、衣類に関する情報(材料、色など)を用いて、現実的な層およびしわをレンダリングすることができる(すなわち、レンダリングは、完全に平坦である必要はなく、むしろ、プレスされたり拘束されずに、本当の衣類が平坦面に平たく広げられた場合に見えるものについて示さなければならない)。
【0044】
最後に、多くの訓練画像の生成の準備のために、人間の姿の3D姿勢可能なモデルが作成される(820)。この姿は、身長、体重、体部位の長さおよび胴回り、髪および肌の色などのような情報を含んでもよい(事実、多くの異なる人間の姿のモデルが作成されてもよい)。これらのモデルはまた、彼らの部位が本当の人にとって可能なように位置決めされうるかまたはポーズがとられうるという点で、自動的に操作可能である。
【0045】
次に、必要なだけ多くの異なる訓練画像のために、人間の姿のモデルは、ポーズをとり(830)、アパレルの入力アイテムの一部もしくは全部を着る(840)。「着ている」とは、人間の姿のモデルの表面から適切な距離にアパレルを配置する干渉認識ソフトウェアプロセスを用いて、人間の姿のモデルをアパレルモデルと結合することを意味し、服を着たモデルのレンダリングされた画像が現実的に見えるように重力のような影響をシミュレーションする。
【0046】
ここで、ポーズをとり、服を着たモデルの写真のようにリアルな画像は、レンダリングすることによって作成され(850)、810からの入力画像および850からのポーズをとり、服を着た「ターゲット」画像を用いて、ニューラルネットワークを訓練する(860)。追加の訓練画像は、人間の姿のモデルに再びポーズをとらせ、再び服を着せ、他のターゲット画像をレンダリングすることにより、作成可能である。有益に、ポージングはソフトウェアによって自動的にかつパラメータを用いて行うことができるので、意図された姿勢の間の殆どまたは全く相違を有さないターゲット画像を生成することができる。換言すれば、例えば、異なる見かけの体重またはふくよかさの2人の人間の姿のモデルの場合、両方のモデルは、正確に同じ位置でポーズをとることができるので、レンダリングされた画像の間の任意の違いは、本当の写真撮影において同じ位置を仮定するように試みる2人の実際のモデルの姿勢の間の不注意な違いの人為的な結果よりむしろ、モデルの体重に関するように、ニューラルネットワークによって学習可能である。
【0047】
一旦ニューラルネットワークが訓練されると(数千または数万の自動的に生成された訓練画像を必要としうる)、アパレルのいくつかの本当のアイテムの写真画像が取得される(870)。上述したように、これらの画像は、訓練アパレルアイテムが810で準備されたものに類似の条件で作成されなければならない。これらの写真画像は、訓練されたニューラルネットワークに提供され、訓練されたニューラルネットワークは、写真画像のアパレルを着ているモデルを示すように見える対応する合成画像を送達する(880)。この合成写真において、アパレルの一部または全部は本当でもよいが(それらの画像はニューラルネットワークに提供されている)、モデルは本物ではない。ニューラルネットワークは、その訓練により、(例えばジャケットをシャツの上に描き、または、靴をソックスの上に描くことによって)適切に重ね着をすることができる。最後に、合成画像は、表示されてもよい(890)。
【0048】
なお、衣類、靴、アクセサリなどの3次元モデルの写真のようにリアルなレンダリングでネットワークを訓練することは、非常に時間がかかり、資源集約型であるが、結果として生じる訓練されたネットワークは、取得するのに著しくより容易かつより低価格である入力から、所望の合成画像を生成することができる。一旦訓練されると、ネットワークは、衣類の基本的に「平坦な」画像(すなわち、平面背景に対して平たく広げられた衣類の画像)、靴の正面および側面画像ならびに各アクセサリタイプの1つまたは少数の画像に動作することができる。訓練プロセスは、「アクセサリなし」、「靴なし」のオプションを学習することを含むことができるので、合成部は、靴、バッグ、宝石および他の特徴の任意の所望の組み合わせを有する画像と同様に、それらの画像を生成することができる。本発明の一実施形態によるコンポジットネットワークは、入力サブネットワークを含み、以下を含む画像および関連付けられた情報を受信することができる。
●平坦な衣類画像
●マネキンの衣類画像
●靴画像(好ましくは2つまたは3つの図)
●ハンドバッグ画像(好ましくは2つまたは3つの図)
●帽子画像
●ネックレス画像
●ブレスレット画像
●指輪画像
●スカーフ画像
●ネクタイ画像
【0049】
訓練画像に加えて、本発明の一実施形態は、テキストおよび他のデータソースから学習することができる。これによって、相当するテキストおよび/または他のデータが後の動作において利用できるとき、合成または画像生成部ネットワークは、より良好な結果を生成できるようになる。例えば、画像に関連付けられたテキストの「タグ」は、ときどき利用できる。「衣類」の適用では、タグは、色、パターン、サイズ、寸法、襟形状、織物組成または特性などのようなものを記載してもよい。これらのタグは、画像が入力アイテムのすべてをもっともらしく描写するかを認識部が決めるのを支援してもよい。タグが衣類色を「青」または「パターンあり」と記載する場合、赤か無地の衣類を示す出力画像はもっともらしいと考えられそうにない。改善された認識/区別性能は、ネットワークの生成部分が、より良好な合成画像を生成し、認識部を「だます」ことを強いる。システムの所望の出力が実像のように「見える」合成画像であるので、(テキストタグのような)追加情報をネットワークに提供することは、合成部により良好な結果を生成させる。
【0050】
本明細書に記載されるような複数入力のニューラルネットワークにおいて、入力の1つは、中立姿勢で立っている人(裸または無彩色のボディスーツを着ている)の画像でもよいことを認識されたい。この画像が入力認識部に提供され、ネットワークが、整合する出力画像を生成するように訓練される場合、全体システムは、アパレルの選択を着用している特定の個人であるように見える画像を合成することができる。したがって、(制御可能な身長、体重、肌色、姿勢および他の特性を有する)一般的なモデルをただ示す代わりに、合成画像は、中立姿勢の写真が提供され、同じアパレルを着用する特定の個人を示すことができる。本実施形態において、一実施形態によって生成される他の任意の合成画像に影響を及ぼす同じZベクター制御を用いて、(本当の)モデルの姿勢または彼女の見かけの身長または体重を調整することが依然として可能である。したがって、出力は、モデル画像を塞ぐような衣類の単なるモーフィングまたは補間ではない。その代わりに、(本当の人の画像を含む)入力画像のすべては、Zベクターまで「圧縮され」、生成ネットワークは(おそらく修正された)結合Zベクターに基づいて新しい画像を合成する。この種の合成画像の明白な際立った特性は、モデルが入力モデル画像と異なる姿勢であるということである。例えば、入力モデル画像は、まっすぐに立ち、前方を向いていてもよいが、合成画像は、左または右を向いていてもよいし、または、その腕または脚が異なる位置にあってもよい。しかしながら、Zベクターは、体重が増えるかまたは減る場合、人がどのように見えうるかについて示す画像を生成するように調整可能である。この使用モデルは、特に有用になりうる。
【0051】
発明者は、訓練の間、合成画像の品質を改善するために、ネットワークに提供可能な1つの追加の入力データタイプを識別した。これは、「姿勢」データである。人間の姿の3次元モデルが用いられるとき、骨格関節のための基準点を介してその姿勢を特定することは比較的一般的である。例えば、頭、肩、肘、手首、臀部、膝および足首の位置は、関連した関節の性質によって規定される制限範囲にわたって変化できるだけである。角度、配向および関節対関節の距離を特定することによって、訓練する人の姿勢を効率的に定義することができる。この情報が、訓練の間、衣類、タグおよび他の情報とともに提供される場合、ニューラルネットワークは、さまざまな姿勢の架空のモデルを描写する合成画像を生成することを学習することができる。一連の連続した姿勢の画像を生成することさえ可能であり、それは、連続して表示され、ファッションショーのように、衣類およびアクセサリを示すモデルのアニメーションを生成してもよい。体部位の胴回りデータは、姿勢または関節位置データのように、ニューラルネットワークが異なる体重のモデルを描写することを学習するのを支援するために用いてもよい。
【0052】
上述した概念および手順の一部または全部は、有用なシステムを形成するさまざまな方法に組み込み可能である。例えば、1つの態様では、システムは、Zベクターを生成する減少トポロジ入力セクションおよびZベクターに基づいて合成画像を生成する拡大トポロジ出力セクションを有する多層ニューラルネットワークを初期化し、多層ニューラルネットワークを訓練データセットで訓練してもよく、各訓練データセットは、(i)アパレルの第1のアイテムを示す第1の訓練画像と、(ii)アパレルの第2の異なるアイテムの2つの図を示す第2の訓練画像と、(iii)アパレルの第1のアイテムおよびアパレルの第2の異なるアイテムを着ているモデルを示す訓練ターゲット画像と、を備え、前記訓練するステップは、訓練された画像合成ネットワークを生成するためであり、次に、システムを使用し、インスタンスデータセットを訓練された画像合成ネットワークに提供することができ、前記インスタンスデータセットは、(I)アパレルの第1のインスタンスアイテムを示す第1のインスタンス画像と、(II)アパレルの第2の異なるインスタンスアイテムの2つの図を示す第2のインスタンス画像と、を備え、システムを使用し、インスタンスデータセットに基づいて、減少トポロジ入力セクションからインスタンスZベクターを取得することができ、インスタンスZベクターに基づいて、拡大トポロジ出力セクションから合成インスタンス画像をエクスポートすることができ、前記合成インスタンス画像は、アパレルの第1のインスタンスアイテムおよびアパレルの第2のインスタンスアイテムを着ているモデルを示すように見える。
【0053】
前述のようなシステムにおいて、さらなる改良は、訓練の間、Zベクターの結果に影響を与える要素を識別するステップと、インスタンスZベクターの結果に影響を与える要素を調整し、合成インスタンス画像の特性を変えるステップと、を含んでもよい。他の改良は、中立姿勢の人間の姿を示す訓練モデル画像を使用することを含んでもよく、訓練ターゲット画像(iii)は、アパレルの第1のアイテムおよびアパレルの第2の異なるアイテムを着用している人間の姿を示し、インスタンスデータセットは、(III)中立姿勢の人を示すモデルインスタンス画像をさらに含み、合成画像は、アパレルの第1のインスタンスアイテムおよびアパレルの第2のインスタンスアイテムを着用している人を示すように見え、合成画像内の人の姿勢は、モデルインスタンス画像の中立姿勢と異なる。
【0054】
システムに対する他の改良は、第1の訓練画像に関する少なくとも1つの非画像データを訓練データ内に含むことである。非画像データは、とりわけ、テキストタグ、衣類材料、衣類サイズおよび衣類寸法でもよい。システムを適用する有用な方法は、アパレルが平坦であるが、平坦面に対して無拘束で描写される画像を使用することである。アパレルのアイテムは、例えば、シャツ、ブラウス、ドレス、スカートまたはズボンを含んでもよい。多視点から撮影される画像から利益を得るアパレルのアイテムは、例えば、靴、ハンドバッグ、帽子、ブレスレットおよび他の宝石を含んでもよい。
【0055】
他の態様において、一実施形態によるシステムは、アパレルの第1のアイテムの自動的に操作可能なモデルを構築することと、アパレルの第1のアイテムの画像をレンダリングし、第1の訓練画像を生成することと、アパレルの第2の異なるアイテムの自動的に操作可能なモデルを構築することと、アパレルの第2の異なるアイテムの2つの画像をレンダリングし、第2の訓練画像の対を生成することと、人間の姿の自動的に操作可能なモデルを構築することと、人間の姿のモデルを自動的に操作し、ポーズをとった姿のモデルを生成することと、アパレルの第1のアイテムのモデルおよびアパレルの第2のアイテムのモデルにより、ポーズをとった姿のモデルに自動的に服を着せ、服を着た姿のモデルを生成することと、服を着た姿のモデルの画像をレンダリングし、第3の訓練画像を生成することと、第1、第2および第3の訓練画像をニューラルネットワークに適用し、ニューラルネットワークを訓練し、第1の訓練画像および第2の訓練画像の対に類似のインスタンス画像から第3の訓練画像に類似の画像を合成することと、により訓練画像セットを作成してもよい。
【0056】
記載されているように生成される画像セットによって訓練されるニューラルネットワークを用いて、アパレルの第1のインスタンスアイテムを撮影することによって、アパレルの第1のインスタンスアイテムの第1のインスタンス画像を取得し、2つの異なる視点からアパレルの第2のインスタンスアイテムを撮影することによって、アパレルの第2のインスタンスアイテムの画像の第2のインスタンスの対を取得し、第1のインスタンス画像および第2のインスタンス画像の対を訓練されたニューラルネットワークに送達し、訓練されたニューラルネットワークからターゲット画像を受信してもよく、前記ターゲット画像は、アパレルの第1のインスタンスアイテムおよびアパレルの第2のインスタンスアイテムを着ている存在しない人間の姿に似ている。
【0057】
ニューラルネットワーク訓練画像は、中立姿勢のモデルとともに、人間の姿のモデルのレンダリングされた中立姿勢画像を含んでもよく、訓練されたネットワークは、中立姿勢の特定の人の画像を受信してもよいので、合成画像は、アパレルのアイテムを着用しているその特定の人を示すように見える。
【0058】
上述したように訓練されるニューラルネットワークは、アパレルの第1のインスタンスアイテムを撮影することによって、アパレルの第1のインスタンスアイテムの第1のインスタンス画像を取得することと、2つの異なる視点からアパレルの第2のインスタンスアイテムを撮影することによって、アパレルの第2のインスタンスアイテムの画像の第2のインスタンスの対を取得することと、中立姿勢の人を撮影することによって、人の第3のインスタンス画像を取得することと、第1のインスタンス画像および第2のインスタンス画像の対および第3のインスタンス画像を訓練されたニューラルネットワークに送達することと、訓練されたニューラルネットワークからターゲット画像を受信することと、によって、商業ワークフロー内に組み込まれてもよい。前記ターゲット画像は、アパレルの第1のインスタンスアイテムおよびアパレルの第2のインスタンスアイテムを着ている人に似ており、ターゲット画像内の人の姿勢は、中立姿勢と異なるか、または、ターゲット画像の人の見かけの体重は、第3のインスタンス画像内の人の見かけの体重と異なる。
【0059】
本発明の実施形態は、機械可読媒体でもよく、非一時的な機械可読媒体を含むがこれに限定されるものではなく、データおよび命令を格納し、プログラマブルプロセッサに上述したように動作を実行させる。他の実施形態では、動作は、ハードワイヤードのロジックを含む特定のハードウェア構成要素によって実行されてもよい。代替的には、それらの動作は、プログラムされたコンピュータ構成要素およびカスタムハードウェア構成要素の任意の組み合わせによって実行されてもよい。
【0060】
プログラマブルプロセッサのための命令は、プロセッサによって直接実行可能である形(「オブジェクト」または「実行可能な」形)で格納されてもよいか、または、命令は、実行コードを生成する「コンパイラ」として一般に知られている開発ツールによって自動的に処理可能な「ソースコード」と呼ばれている人間が読み取れるテキスト形式で格納されてもよい。命令はまた、基本的なソースコードの所定のバージョンからの違いまたは「デルタ」として特定されてもよい。デルタ(「パッチ」とも呼ばれる)を用いて、命令を準備し、本発明の一実施形態を実施することができ、一実施形態を含まない一般に利用できるソースコードパッケージから開始する。
【0061】
いくつかの実施形態において、プログラマブルプロセッサのための命令は、データとして扱われてもよく、リモートレシーバにその後送信可能である搬送波信号を変調するために用いてもよく、信号は、命令を回復するために復調され、命令は、リモートレシーバで一実施形態の方法を実施するために実行される。専門語において、この種の変調および伝送は、命令を「提供する」こととして知られているが、受信および復調は、しばしば「ダウンロード」と呼ばれている。換言すれば、一実施形態は、しばしばインターネットのような分散データネットワークを介して、一実施形態の命令をクライアントに「提供する」(すなわち、コード化し、送信する)。したがって、送信される命令は、レシーバでハードディスクまたは他のデータ記憶装置に保存され、本発明の他の実施形態を作成することができ、上述した動作のいくつかを実行するデータおよび命令を格納している非一時的な機械可読媒体の説明を満たす。レシーバでこの種の一実施形態をコンパイルし(必要に応じて)、実行することの結果として、レシーバは、第3の実施形態に従って動作を実行してもよい。
【0062】
以前の記述において、多数の詳細が記載されてきた。しかしながら、本発明がこれらの特定の詳細のいくつかなしで実施されうることは、当業者にとって明らかである。いくつかの例では、周知の構造およびデバイスは、本発明を曖昧にすることを回避するために、詳細であるよりはむしろブロック図の形で示される。
【0063】
詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビット上の動作のアルゴリズムおよび象徴的な表現に関して提示されてきた。これらのアルゴリズム記述および表現は、データ処理技術に熟練した人々によって最も効果的に彼らの仕事の内容を他の当業者に伝えるために用いられる手段である。アルゴリズムは、ここにあり、概して、所望の結果に至る首尾一貫した一連のステップであると理解される。ステップは、物理的量の物理的操作を要求するものである。必ずしもというわけではないが、大抵、これらの量は、格納、転送、結合、比較および操作が可能な電気または磁気信号という形をとる。これらの信号をビット,値,要素,シンボル,キャラクタ,ターム,数字等と呼ぶことは、主として一般的な用法という理由からときどき便利であることがわかっている。
【0064】
しかしながら、これらのすべてに類似する語句は適当な物理量に関連付けられるべきであり、主にこれらの量を適用する便利なラベルであると心にとどめるべきである。前の考察から明らかなように他の意味で特に述べられない限り、説明の全体にわたって、「処理する」または「コンピューティング」または「計算する」または「決定する」または「表示する」などのような用語を利用する考察は、コンピュータシステムまたは類似の電子コンピューティングデバイス、伝送もしくはディスプレイ装置のアクションおよびプロセスに関連し、コンピュータシステムは、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表現されるデータを操作し、コンピュータシステムメモリまたはレジスタまたは他のこの種の情報記憶装置内の物理量と同じように表現される他のデータに変換することを認識されたい。
【0065】
本発明はまた、本明細書に記載の動作を実行する装置に関する。この装置は、要求された目的のために特別に構築されてもよいし、コンピュータ内に格納されたコンピュータプログラムによって選択的に作動または再構成される汎用コンピュータを備えてもよい。この種のコンピュータプログラムは、コンピュータ可読の記憶媒体内に格納されてもよく、記憶媒体は、限定することなく任意のタイプのディスク、すなわち、フロッピーディスク、光ディスク、コンパクトディスク読み出し専用メモリ(「CD-ROM」)および磁気光ディスク、読み出し専用メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、消去可能なプログラマブル読み出し専用メモリ(「EPROM」)、電気的に消去可能な読み出し専用メモリ(「EEPROM」)、磁気もしくは光カードまたはコンピュータ命令を格納するのに適している任意のタイプの媒体を含む。
【0066】
本明細書において提示されるアルゴリズムおよびディスプレイは、いかなる特定のコンピュータまたは他の装置にも本質的に関連しない。さまざまな汎用システムが本明細書の教示に従ってプログラムによって用いられてもよいし、または、いくつかの方法ステップを実行するためのより専門的な装置を構築することが都合がよいと判明する場合もある。さまざまなこれらのシステムのための必要な構造は、以下の請求項において詳述される。加えて、本発明は、なんらかの特定のプログラミング言語に関して記載されているものではない。さまざまなプログラミング言語を用いて、本明細書において記載されている本発明の教示を実施してもよいことを認識されたい。
【0067】
本発明の適用は、主に特定の例を参照することによって、および、特定のハードウェアおよび/またはソフトウェア構成要素に対する機能の特定の割り当てに関して記載されてきた。しかしながら、当業者は、衣類単独の画像に基づいて衣類を着用しているモデルの構成可能な合成画像が、本明細書において記載されているものとは異なって、本発明の実施形態の機能を分配するソフトウェアおよびハードウェアによって生成可能であることを認識するものである。この種のバリエーションおよび実施態様は、以下の請求項に従って保護されると理解されたい。
図1
図2
図3
図4
図5
図6
図7
図8