特許7746503 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社スタートトゥデイの特許一覧

特許7746503情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-09-19

(45)【発行日】2025-09-30

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06T 11/00 20060101AFI20250922BHJP

G06F 16/532 20190101ALI20250922BHJP

G06T 5/60 20240101ALI20250922BHJP

G06N 3/0475 20230101ALI20250922BHJP

G06Q 50/10 20120101ALI20250922BHJP

【ＦＩ】

G06T11/00

G06F16/532

G06T5/60

G06N3/0475

G06Q50/10

【請求項の数】 15

(21)【出願番号】P 2024179863

(22)【出願日】2024-10-15

【審査請求日】2024-10-15

(73)【特許権者】

【識別番号】505300841

【氏名又は名称】株式会社ＺＯＺＯ

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】古澤拓也

(72)【発明者】

【氏名】後藤亮介

(72)【発明者】

【氏名】斎藤侑輝

【審査官】鈴木肇

(56)【参考文献】

【文献】特開２０２０－０９８５２１（ＪＰ，Ａ）

【文献】韓国公開特許第１０－２０１９－０１０９６５２（ＫＲ，Ａ）

【文献】特表２０２２－５１５６１７（ＪＰ，Ａ）

【文献】特許第７５５０２６４（ＪＰ，Ｂ１）

【文献】韓国公開特許第１０－２０１７－００９６９７１（ＫＲ，Ａ）

【文献】中国特許出願公開第１１０９０９７５４（ＣＮ，Ａ）

【文献】中国特許出願公開第１１１８６１６７２（ＣＮ，Ａ）

【文献】中国特許出願公開第１１３２９８９０６（ＣＮ，Ａ）

【文献】米国特許第１１６４５８３７（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｑ５０／００－５０／２０

Ｇ０６Ｑ５０／２６－９９／００

Ｇ０６Ｔ１／００－１／４０

Ｇ０６Ｔ３／００－５／９４

Ｇ０６Ｔ１１／００－１９／２０

(57)【特許請求の範囲】

【請求項1】

ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像をそれぞれとの調和を考慮して生成する画像生成部を備える
ことを特徴とする情報処理装置。

【請求項2】

画像生成条件を設定する設定部を備え、
前記画像生成部は、前記設定された画像生成条件に従って、アイテム画像を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

１つ以上の固定アイテム画像を取得する取得部を備え、
前記画像生成部は、ノイズ画像からアイテム画像を生成する際に、前記取得された固定アイテム画像との調和も考慮して生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

１つ以上の編集前アイテム画像を取得する取得部と、
画像編集条件を設定する設定部と、
を備え、
前記画像生成部は、前記設定された画像編集条件に従って、前記取得された編集前アイテム画像からノイズ画像を経てアイテム画像を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項5】

調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する構築部を備え、
前記画像生成部は、前記構築された拡散モデルを用いて、アイテム画像を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項6】

ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いてコーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から生成された個々のアイテム画像を提供することで、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を提供する提供部を備える
ことを特徴とする情報処理装置。

【請求項7】

前記提供されたアイテム画像をクエリ画像として、アイテム又はコーディネートといったコンテンツを検索する検索処理部を備え、
前記提供部は、前記検索されたコンテンツを提供する、
ことを特徴とする請求項６に記載の情報処理装置。

【請求項8】

画像生成条件を取得する取得部を備え、
前記提供部は、前記取得された画像生成条件に従って生成されたアイテム画像を提供する、
ことを特徴とする請求項６に記載の情報処理装置。

【請求項9】

１つ以上の編集前アイテム画像と画像編集条件とを取得する取得部を備え、
前記提供部は、前記取得された画像編集条件に従って、前記取得された編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を提供する、
ことを特徴とする請求項６に記載の情報処理装置。

【請求項10】

前記検索処理部は、前記提供された複数のアイテム画像を複数のクエリ画像として、それぞれアイテムを検索し、
前記提供部は、前記検索されたそれぞれのアイテムを提供する、
ことを特徴とする請求項７に記載の情報処理装置。

【請求項11】

前記検索処理部は、前記提供された複数のアイテム画像のうち、ユーザが指定したアイテム画像をクエリ画像として、アイテムを検索し、
前記提供部は、前記検索されたアイテムを提供する、
ことを特徴とする請求項７に記載の情報処理装置。

【請求項12】

情報処理装置が実行する情報処理方法であって、
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像をそれぞれとの調和を考慮して生成する画像生成工程を含む
ことを特徴とする情報処理方法。

【請求項13】

情報処理装置が実行する情報処理方法であって、
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いてコーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から生成された個々のアイテム画像を提供することで、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を提供する提供工程を含む
ことを特徴とする情報処理方法。

【請求項14】

ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する画像生成手順
をコンピュータに実行させることを特徴とする情報処理プログラム。

【請求項15】

ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いてコーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から生成された個々のアイテム画像を提供することで、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を提供する提供手順
をコンピュータに実行させることを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

従来、ファッションコーディネートを生成するための技術が知られている。例えば、所定のルールに基づいて、ファッションのコーディネートを生成する技術が知られている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１３－２３５５２８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の技術では、全てのアイテムの調和具合に基づいてコーディネートを生成することができないため、コーディネート全体として調和の高い情報を提供することができなかった。

【0005】

本願は、上記に鑑みてなされたものであって、コーディネート全体として調和の高い情報を提供することを目的とする。

【課題を解決するための手段】

【0006】

本願に係る情報処理装置は、ノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する画像生成部を備えることを特徴とする。

【発明の効果】

【0007】

実施形態の一態様によれば、コーディネート全体として調和の高い情報を提供することができるという効果を奏する。

【図面の簡単な説明】

【0008】

【図1】図１は、実施形態に係る情報処理システムの概要を示す説明図である。

【図2】図２は、サーバ装置が調和を考慮して画像を生成する際に用いる画像生成モデルＵＮの構成例を示す図である。

【図3】図３は、画像生成条件を指定するためのＵＩの第１の例を示す図である。

【図4】図４は、画像生成条件を指定するためのＵＩの第２の例を示す図である。

【図5】図５は、Outfit Diffusionのアーキテクチャの設計思想の概要を示す説明図である。

【図6】図６は、コーディネートの結果の例を示す図である。

【図7】図７は、実施形態に係る端末装置の構成例を示す図である。

【図8】図８は、実施形態に係るサーバ装置の構成例を示す図である。

【図9】図９は、実施形態に係る処理手順を示すフローチャートである。

【図10】図１０は、ハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0009】

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と記載する）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0010】

〔１．情報処理システムの概要〕
まず、図１を参照し、実施形態に係る情報処理システムの概要について説明する。図１は、実施形態に係る情報処理システムの概要を示す説明図である。図１に示すように、実施形態に係る情報処理システム１は、端末装置１０とサーバ装置１００とを含む。これらの各種装置は、ネットワークＮを介して、有線又は無線により互いに通信可能に接続される。これにより、端末装置１０は、サーバ装置１００と連携可能である。ネットワークＮは、例えば、ＬＡＮ（Local Area Network）や、インターネット等のＷＡＮ（Wide Area Network）である。

【0011】

端末装置１０は、利用者Ｕ（ユーザ）によって使用される情報処理装置である。例えば、端末装置１０は、スマートフォン（スマホ）やタブレット端末等のスマートデバイス、フィーチャーフォン（ガラケー・ガラホ）等の携帯電話、ＰＣ（Personal Computer）、ＰＤＡ（Personal Digital Assistant）、通信機能を備えたゲーム機やＡＶ機器、情報家電・デジタル家電、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ、スマートグラス等のウェアラブルデバイス（Wearable Device）等である。また、端末装置１０は、ＩＯＴ（Internet of Things）に対応した住宅・建物、車、家電製品、電子機器等であってもよい。

【0012】

本実施形態では、端末装置１０は、利用者Ｕにより使用されるスマートフォンやタブレット端末等のスマートデバイスであり、ＬＴＥ（Long Term Evolution）、４Ｇ（4th Generation）、５Ｇ（5th Generation：第５世代移動通信システム）等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置１０は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者Ｕから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作としてもよい。また、端末装置１０は、スマートデバイスのみならず、デスクトップＰＣ（Personal Computer）やノートＰＣ等の情報処理装置であってもよい。

【0013】

また、かかる端末装置１０は、ＬＴＥ、４Ｇ、５Ｇ等の無線通信網や、Bluetooth（登録商標）、又は無線ＬＡＮ（Local Area Network）等の近距離無線通信を介してネットワークＮに接続し、サーバ装置１００と通信することができる。

【0014】

サーバ装置１００は、例えばＰＣやブレードサーバ（blade server）等のコンピュータ、あるいはメインフレーム又はワークステーション等である。なお、サーバ装置１００は、クラウドコンピューティングにより実現されてもよい。

【0015】

本実施形態では、サーバ装置１００は、各利用者Ｕの端末装置１０と連携し、各利用者Ｕの端末装置１０に対して、各種アプリケーション（以下、アプリ）等に対するＡＰＩ（Application Programming Interface）サービス等と、各種データを提供する情報処理装置であり、コンピュータやクラウドシステム等により実現される。

【0016】

また、サーバ装置１００は、各利用者Ｕの端末装置１０に対して、オンラインで何らかのＷｅｂサービスを提供する情報処理装置であってもよい。例えば、サーバ装置１００は、Ｗｅｂサービスとして、インターネット接続、検索サービス、ＳＮＳ（Social Networking Service）、電子商取引（ＥＣ：Electronic Commerce）、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報等のサービスを提供してもよい。実際には、サーバ装置１００は、上記のようなＷｅｂサービスを提供する各種サーバと連携し、Ｗｅｂサービスを仲介してもよいし、Ｗｅｂサービスの処理を担当してもよい。

【0017】

なお、サーバ装置１００は、利用者Ｕに関する利用者情報を取得可能である。例えば、サーバ装置１００は、利用者情報として、利用者Ｕの性別、年代、居住地域といった利用者Ｕの属性に関する情報（属性情報）を取得する。また、サーバ装置１００は、利用者Ｕのデモグラフィック（人口統計学的属性）、サイコグラフィック（心理学的属性）、ジオグラフィック（地理学的属性）、ベヘイビオラル（行動学的属性）等の属性に関する情報を取得可能である。また、サーバ装置１００は、利用者情報として、マーケティングの分野において利用者Ｕの属するセグメントやペルソナ（人物像）等を取得してもよい。そして、サーバ装置１００は、利用者Ｕを示す識別情報（利用者ＩＤ等）とともに利用者Ｕの属性に関する情報（属性情報）を記憶して管理する。

【0018】

また、サーバ装置１００は、利用者Ｕの端末装置１０から、あるいは利用者ＩＤ等に基づいて各種サーバ等から、利用者Ｕの行動を示す各種の履歴情報（ログデータ）を取得する。例えば、サーバ装置１００は、利用者Ｕの位置や日時の履歴である位置履歴を端末装置１０から取得する。また、サーバ装置１００は、利用者Ｕが入力した検索クエリの履歴である検索履歴を電子商取引サーバやコンテンツサーバや検索サーバ（検索エンジン）などから取得する。また、サーバ装置１００は、利用者Ｕが閲覧したコンテンツ（ファッションアイテムやファッションコーディネートなど）の履歴である閲覧履歴を電子商取引サーバやコンテンツサーバなどから取得する。また、サーバ装置１００は、利用者Ｕの商品購入や決済処理の履歴である購入履歴（決済履歴）を電子商取引サーバや決済処理サーバなどから取得する。また、サーバ装置１００は、利用者Ｕのマーケットプレイスへの出品の履歴である出品履歴や販売履歴を電子商取引サーバや決済処理サーバなどから取得してもよい。また、サーバ装置１００は、利用者Ｕの投稿の履歴である投稿履歴を口コミの投稿サービスを提供する投稿サーバやＳＮＳサーバや電子商取引サーバなどから取得する。なお、上記の各種サーバ等は、サーバ装置１００自体であってもよい。すなわち、サーバ装置１００が上記の各種サーバ等として機能してもよい。

【0019】

また、図１に示す情報処理システム１に含まれる各装置の数は図示したものに限られない。例えば、図１では、図示の簡略化のため、端末装置１０を１台のみ示したが、これはあくまでも例示であって限定されるものではなく、２台以上であってもよい。

【0020】

〔２．拡散モデルを用いたコーディネート画像生成〕
拡散モデル（Diffusion Model）は、生成ＡＩ（Artificial Intelligence）の一種で、対象の画像に段階的にノイズを加えて劣化させる過程（拡散過程）と、劣化の過程を遡るように段階的にノイズを除去（デノイズ）して画像を再構築していく過程（逆拡散過程）を学習させた生成モデルである。

【0021】

サーバ装置１００は、拡散モデルを用いて、ノイズ画像からアイテム画像（商品画像）を生成する。例えば、サーバ装置１００は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する。例えば、サーバ装置１００は、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のアイテム画像を生成する。コーディネートは、アイテムの組である。

【0022】

ここで、サーバ装置１００が複数のノイズ画像から複数のアイテム画像をそれぞれとの調和を考慮して生成する処理の詳細について説明する。図１では１つのUNetであるが、実際には、生成する画像の数だけUNetが存在している。例えば、３つの画像を同時に生成する場合には、３つのUNetが存在している。各UNetについて、UNetの任意の層にSet Transformer層（“Set Transformer” layer）が組み込まれている。Set Transformer層は、他のUNetの同じ層に配置されたSet Transformer層と接続されており、各UNetのSet Transformer層の値に基づいた値を出力するように構成されている。

【0023】

図２は、サーバ装置１００が調和を考慮して画像を生成する際に用いる画像生成モデルＵＮの構成例を示す図である。図２に示すように、画像生成モデルＵＮは、複数のネットワークＵＮ１、ＵＮ２を有する。なお、実際には、画像生成モデルＵＮは、同時に生成する画像の数と同数のネットワークを有するが、図２に示す例では、２つのネットワークＵＮ１、ＵＮ２を示した。

【0024】

ネットワークＵＮ１は、ノイズ画像Ｎ１から、画像Ｐ１を生成するニューラルネットワークであり、いわゆる拡散モデルにより実現される。より具体的には、ネットワークＵＮ１は、ノイズ画像Ｎ１と、画像を生成する対象（例えば、トップス（シャツなど）、ジャケット／アウター（コートなど）、パンツ、スカート、ワンピース、帽子、バッグ、シューズ、レッグウェア（ソックスなど）、アクセサリ（ネックレス、リング、ピアス、イヤリングなど）といったファッションアイテムのカテゴリ）を示すカテゴリ情報Ｃ１を入力すると、ノイズ画像Ｎ１から、カテゴリ情報Ｃ１が示す対象の画像（対象が撮影された画像、対象を含む画像など）を生成するように学習が行われたニューラルネットワークである。なお、このようなネットワークＵＮ１は、いわゆる拡散モデルと呼ばれる公知技術のモデルの学習方法と同様の学習方法により実現可能である。

【0025】

ネットワークＵＮ２は、ネットワークＵＮ１と同様に、ノイズ画像Ｎ２から、カテゴリ情報Ｃ２が示す対象の画像Ｐ２を生成するニューラルネットワークであり、いわゆる拡散モデルの学習方法により実現される。

【0026】

ここで、ネットワークＵＮ１、ＵＮ２（以下、ネットワークＵＮと総称する場合がある。）は、UNetとよばれる構造を有する。例えば、ネットワークＵＮ１は、中間層であるレイヤＵＮ１－１、ＳＴ１－１、ＵＮ１－２、ＳＴ１－２、ＵＮ１－３、ＳＴ１－３、ＵＮ１－４、ＳＴ１－４、ＵＮ１－５、ＳＴ１－５を有する。レイヤＵＮ１－１、ＵＮ１－２、ＵＮ１－３、ＵＮ１－４、ＵＮ１－５（以下、レイヤＵＮ１と総称する）は、いわゆるUNetを構成するレイヤ（layer）である。図２に示すように、ネットワークＵＮ１は、レイヤＵＮ１－１、ＵＮ１－２、ＵＮ１－３、ＵＮ１－４、ＵＮ１－５により構成されるUNetの各レイヤの後段に、Set Transformer層であるレイヤＳＴ１－１、ＳＴ１－２、ＳＴ１－３、ＳＴ１－４、ＳＴ１－５（以下、レイヤＳＴ１と総称する）を有する構成を有する。

【0027】

また、例えば、ネットワークＵＮ２は、中間層であるレイヤＵＮ２－１、ＳＴ２－１、ＵＮ２－２、ＳＴ２－２、ＵＮ２－３、ＳＴ２－３、ＵＮ２－４、ＳＴ２－４、ＵＮ２－５、ＳＴ２－５を有する。レイヤＵＮ２－１、ＵＮ２－２、ＵＮ２－３、ＵＮ２－４、ＵＮ２－５（以下、レイヤＵＮ２と総称する）は、いわゆるUNetを構成するレイヤである。図２に示すように、ネットワークＵＮ２は、レイヤＵＮ２－１、ＵＮ２－２、ＵＮ２－３、ＵＮ２－４、ＵＮ２－５により構成されるUNetの各レイヤの後段に、Set Transformer層であるレイヤＳＴ２－１、ＳＴ２－２、ＳＴ２－３、ＳＴ２－４、ＳＴ２－５（以下、レイヤＳＴ５と総称する）を有する構成を有する。

【0028】

ここで、レイヤＳＴ１とレイヤＳＴ２とは、相互に接続されており、前段のレイヤ（つまりレイヤＵＮ１、ＵＮ２）から出力された値と、接続された他のレイヤが受け付けた値とに基づいて算出された値を出力するように学習が行われるアテンションレイヤである。例えば、レイヤＳＴ１－１は、レイヤＵＬ１－１が出力した値を受け付ける。また、レイヤＳＴ２－１は、レイヤＵＬ２－１が出力した値を受け付ける。このような場合、レイヤＳＴ１－１は、レイヤＵＬ１－１から受け付けた値のみならず、レイヤＳＴ２－１がレイヤＵＬ２－１から受け付けた値を考慮して、出力する値の算出を行う。同様に、レイヤＳＴ２－１は、レイヤＵＬ２－１から受け付けた値のみならず、レイヤＳＴ１－１がレイヤＵＬ１－１から受け付けた値を考慮して、出力する値の算出を行う。

【0029】

同様に、レイヤＳＴ１－２～ＳＴ１－５とレイヤＳＴ２－２～ＳＴ２－５も同様に接続されており、前段のレイヤからの出力のみならず、接続されている他のレイヤが前段のレイヤから受け付けた値を考慮して出力する値を算出する。なお、ネットワークＵＮ１、ＵＮ２以外にも、ネットワークが存在する場合、各ネットワークは同じ構造を有し、同じ位置に配置されたレイヤＳＴは、相互に接続されることとなる。このため、例えば、画像生成モデルＵＮにネットワークＵＮ３が存在し、ネットワークＵＮ３に、レイヤＳＴ３－１がレイヤＳＴ１－１、レイヤＳＴ２－１と同じ位置に配置されている場合、レイヤＳＴ１―１は、レイヤＳＴ１－１、レイヤＳＴ１－２、レイヤＳＴ１－３が受け付けた値をすべて考慮してレイヤＳＴ１－１が前段のレイヤから受け付けた値から出力する値を算出することとなる。

【0030】

このような複数のネットワークからなる画像生成モデルＵＮは、複数のノイズ画像と、複数のカテゴリ情報とから、それぞれ異なる画像を生成（復元）するように拡散モデルと同様の学習が行われることとなる。この際、学習データとして、調和がとれている複数の対象の画像群と、各対象を示す複数のカテゴリ情報とを準備することにより、画像生成モデルＵＮは、複数のカテゴリ情報を受け付けた際に、各カテゴリ情報が示す対象を含む画像の組であって、全体として調和がとれている複数の対象の画像群を生成することができる。

【0031】

例えば、サーバ装置１００は、学習データとして、雑誌や電子商取引サイトに掲載された（すなわち、掲載者が調和がとれていると評価した）コーディネートや、ＳＮＳ等に投稿された（すなわち、投稿者が調和がとれていると評価した）コーディネートや、これらコーディネートのうち、閲覧者の評価が良かった（すなわち、閲覧者も調和がとれていると評価した）コーディネートを構成する複数の商品の画像群と、各商品を示す複数のカテゴリ情報とを正解データとして取得する。また、サーバ装置１００は、例えば、スタイリストなどによって人手で選択された複数の商品の画像群と、各商品を示す複数のカテゴリ情報とを、調和がとれていると評価されたコーディネートを構成する商品の画像群と、各商品を示す複数のカテゴリ情報として取得してもよい。このような手法以外にも、調和がとれていると評価されうる複数の商品について、各商品の画像と、各商品を示すカテゴリ情報とを取得するのであれば、任意の手法、任意の評価軸で収集された複数の画像と複数のカテゴリ情報との組を正解データとして取得してよい。なお、調和がとれているとは、総合的な観点で調和がとれているでもよいし、所定の観点（例えば、カラー、シルエット、サイズ、デザインなどであって、例示したものに限らない）で調和がとれているでもよい。また、サーバ装置１００は、学習データとして、ブランド、カラー、シルエット、サイズ、デザイン、素材、着心地、アイテムのイメージ、ジャンル（大人カジュアルなど）、シーズン（冬コーデなど）、オケージョン（結婚式など）、年代（2000年前後のトレンドを取り入れたY2Kなど）、着用者（体型、肌色などを含む身体情報など）、いいね数、希望するコーディネートのイメージなどに関する情報を取得し、拡散モデルに学習させてもよい。

【0032】

続いて、サーバ装置１００は、ある正解データについて、その正解データに含まれる各画像に段階的にノイズを加えた画像を生成する。そして、サーバ装置１００は、例えば、ｎ段階のノイズを加えた複数の画像と、複数のカテゴリ情報とを、画像生成モデルＵＮに入力した際に、ｎ－１段階のノイズを加えた画像を生成するように、拡散モデルと同様の各種公知の学習手法により、画像生成モデルＵＮに含まれるネットワークの接続係数を修正する。このような学習を繰り返し行うことで、画像生成モデルＵＮは、単に複数の画像を生成するのではなく、生成する各画像に含まれる複数の対象が調和する（例えば、外観が調和する）ような画像を生成するようになる。

【0033】

そして、サーバ装置１００は、このような学習が行われた画像生成モデルＵＮに対し、複数のノイズ画像と、画像生成を所望する複数の対象の各カテゴリを示すカテゴリ情報とを入力し、画像生成モデルＵＮが生成した画像を繰り返し画像生成モデルＵＮにカテゴリ情報とともに入力することで、カテゴリ情報が示す各対象であって、全体的に外観の調和がとれている画像（すなわち、ＳＮＳなどで評価が良いと推定されうるような画像や、スタイリストなどによって人手でコーディネートが生成されうるような画像など）を生成することができる。

【0034】

なお、サーバ装置１００は、例えば、ネットワークＵＮ１、ＵＮ２にそれぞれ固定のカテゴリの対象の画像を生成させる場合は、カテゴリ情報を入力せずともよい。例えば、ネットワークＵＮ１が被服、ネットワークＵＮ２が靴に対応する場合、サーバ装置１００は、学習データとして、調和がとれていると評価されている被服と靴との画像の組を収集する。そして、サーバ装置１００は、ノイズ画像をネットワークＵＮ１、ＵＮ２に入力した際に、ネットワークＵＮ１が正解データとなる被服の画像を復元し、ネットワークＵＮ２が正解データとなる靴の画像（ネットワークＵＮ１が復元する画像の被服と調和がとれていると評価された靴の画像）を復元するように、学習を行えばよい。このような学習が行われた画像生成モデルＵＮは、例えば、複数のノイズ画像を入力するだけで、調和がとれていると推定されうる被服の画像と靴の画像とを出力するようになる。

【0035】

このとき、サーバ装置１００は、画像生成条件を設定してもよい。そして、サーバ装置１００は、画像生成条件に従って、アイテム画像を生成する。なお、画像生成条件は、各アイテムに対する画像生成条件と、全体に対する画像生成条件とがあってもよい。例えば、各アイテムに対する画像生成条件としては、カテゴリ、ブランド、カラー、シルエット、サイズ、デザイン、素材、着心地、希望するアイテムのイメージなどを指定する画像生成条件であってもよく、例示したものに限らない。そして、画像生成条件は、特定の部分に関する画像生成条件であってもよい。例えば、襟部分に関するシルエットを指定する画像生成条件であってもよい。また、例えば、全体に対する画像生成条件としては、ジャンル（大人カジュアルなど）、シーズン（冬コーデなど）、オケージョン（結婚式など）、年代（2000年前後のトレンドを取り入れたY2Kなど）、着用者（体型、肌色などを含む身体情報など）、いいね数、希望するコーディネートのイメージなどを指定する画像生成条件であってもよく、例示したものに限らない。なお、各アイテムに対する画像生成条件として例示したものを、全体に対する画像生成条件としてもよいし、全体に対する画像生成条件として例示したものを、各アイテムに対する画像生成条件としてもよい。

【0036】

また、サーバ装置１００は、１つ以上の固定アイテム画像を取得してもよい。そして、サーバ装置１００は、アイテム画像を、固定アイテム画像との調和も考慮して生成する。なお、固定アイテム画像は、ユーザが所有するアイテムの画像、ユーザがお気に入り登録したアイテムの画像、ユーザが検索・閲覧したアイテムの画像などであって、コーディネートに含めたいアイテムの画像である。そして、サーバ装置１００は、固定アイテム画像として、電子商取引サイトやコーディネートサイトなどに登録や投稿されている画像を取得してもよいし、ユーザがアップロードした画像を取得してもよい。

【0037】

また、サーバ装置１００は、１つ以上の編集前アイテム画像を取得し、画像編集条件を設定し、画像編集条件に従って、編集前アイテム画像からノイズ画像を経てアイテム画像を生成する。具体的には、サーバ装置１００は、画像編集条件に従って、編集前アイテム画像の全部又は一部（編集すべき部分ともいい、例えば、ワンピースの襟のシルエットを指定する画像編集条件であれば襟部分）にノイズを加え、そのノイズを除去してアイテム画像を生成する。なお、編集前アイテム画像は、ユーザが所有するアイテムの画像、ユーザがお気に入り登録したアイテムの画像、ユーザが検索・閲覧したアイテムの画像などであって、コーディネートに含めたいアイテムのイメージに近いアイテムの画像である。そして、サーバ装置１００は、編集前アイテム画像として、電子商取引サイトやコーディネートサイトなどに登録や投稿されている画像を取得してもよいし、ユーザがアップロードした画像を取得してもよい。また、画像編集条件は、各編集前アイテムに対する画像編集条件と、全体に対する画像編集条件とがあってもよい。例えば、各編集前アイテムに対する画像編集条件としては、カテゴリ、ブランド、カラー、シルエット、サイズ、デザイン、素材、着心地、希望するアイテムのイメージなどを指定する画像編集条件であってもよく、例示したものに限らない。そして、画像編集条件は、特定の部分に関する画像編集条件であってもよい。例えば、襟部分に関するシルエットを指定する画像編集条件であってもよい。また、例えば、全体に対する画像編集条件としては、ジャンル（大人カジュアルなど）、シーズン（冬コーデなど）、オケージョン（結婚式など）、年代（2000年前後のトレンドを取り入れたY2Kなど）、着用者（体型、肌色などを含む身体情報など）、いいね数、希望するコーディネートのイメージなどを指定する画像編集条件であってもよく、例示したものに限らない。なお、各編集前アイテムに対する画像編集条件として例示したものを、全体に対する画像編集条件としてもよいし、全体に対する画像編集条件として例示したものを、各編集前アイテムに対する画像生成条件としてもよい。

【0038】

また、サーバ装置１００は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する。そして、サーバ装置１００は、拡散モデルを用いて、アイテム画像を生成する。

【0039】

また、利用者Ｕの端末装置１０は、サーバ装置１００と連携し、ノイズ画像から生成されたアイテム画像を表示する。例えば、利用者Ｕの端末装置１０は、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示する。

【0040】

また、利用者Ｕの端末装置１０は、サーバ装置１００と連携し、生成されたアイテム画像をクエリ画像として表示する。その後、利用者Ｕの端末装置１０は、表示されたクエリ画像に基づいて、コンテンツ（アイテム、コーディネート）を検索する。そして、利用者Ｕの端末装置１０は、検索結果であるコンテンツを表示する。

【0041】

また、利用者Ｕの端末装置１０は、利用者Ｕから、画像生成条件を受け付ける。なお、利用者Ｕの端末装置１０は、利用者Ｕから、固定アイテム画像を受け付けてもよい。そして、利用者Ｕの端末装置１０は、サーバ装置１００と連携し、画像生成条件に従って、生成されたアイテム画像を表示する。

【0042】

また、利用者Ｕの端末装置１０は、利用者Ｕから、１つ以上の編集前アイテム画像と画像編集条件とを受け付ける。そして、利用者Ｕの端末装置１０は、サーバ装置１００と連携し、画像編集条件に従って、編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を表示する。

【0043】

また、利用者Ｕの端末装置１０は、サーバ装置１００と連携し、複数のクエリ画像それぞれに基づいて、アイテムやコーディネートを検索する。また、利用者Ｕの端末装置１０は、検索結果を表示する。

【0044】

また、利用者Ｕの端末装置１０は、サーバ装置１００と連携し、複数のクエリ画像のうち、利用者Ｕが指定したクエリ画像に基づいて、アイテムを検索する。利用者Ｕの端末装置１０は、検索結果を表示する。

【0045】

例えば、図１に示すように、サーバ装置１００は、ネットワークＮを介して、利用者Ｕの端末装置１０から、画像生成条件を受け付け、画像生成条件を設定する（ステップＳ１）。このとき、利用者Ｕの端末装置１０は、画像生成条件を指定するためのＵＩ（User Interface）を表示する。

【0046】

図３及び図４を参照して、画像生成条件を指定するためのＵＩのイメージについて説明する。図３は、画像生成条件を指定するためのＵＩの第１の例を示す図である。図４は、画像生成条件を指定するためのＵＩの第２の例を示す図である。

【0047】

図３及び図４に示すように、画像生成条件や画像編集条件を指定するためのＵＩには、テキスト入力欄ＴＸと、条件設定ボタンＢ１（画像生成ボタンともいう）と、アイテム画像表示欄ＩＭＧと、カテゴリ等選択欄ＣＳと、アイテムを固定する設定を行うアイテム固定のチェックボックスＣＢと、アイテム検索ボタンＢ２と、アイテム検索結果表示欄ＳＲとが設けられている。

【0048】

テキスト入力欄ＴＸは、画像生成条件や画像編集条件をテキスト入力するための欄である。なお、画像生成条件として、テキスト入力欄ＴＸにプロンプト（Prompt：指示文）を入力してもよい。条件設定ボタンＢ１は、ユーザにより押下されると、入力されたテキストや、選択されたカテゴリ等を画像生成条件や画像編集条件として設定する。そして、その画像生成条件や画像編集条件に従って、アイテム画像が生成される。

【0049】

アイテム画像表示欄ＩＭＧは、アイテム画像を登録するための欄である。また、生成されたアイテム画像を表示するための欄である。登録されるアイテム画像は、コーディネートに含めたいアイテムのアイテム画像（固定アイテム画像）であったり、コーディネートに含めたいアイテムのイメージに近く、編集を行う前のアイテムのアイテム画像（編集前アイテム画像）である。本実施形態では、複数のアイテム画像が登録される。このとき、１つのアイテム画像表示欄ＩＭＧに、１つのアイテム画像が表示される。また、ユーザにより条件設定ボタンＢ１が押下されると、アイテム画像表示欄ＩＭＧに、新たに又は編集前アイテム画像に代えて、生成されたアイテム画像が表示される。このとき、１つのアイテム画像表示欄ＩＭＧに、１つのアイテム画像が表示される。そして、アイテム画像表示欄ＩＭＧに表示されたアイテム画像がクエリ画像となる。

【0050】

カテゴリ等選択欄ＣＳと、アイテム固定のチェックボックスＣＢとは、それぞれアイテムの画像の数だけ存在する。すなわち、アイテム画像表示欄ＩＭＧの数だけ存在する。なお、アイテム画像表示欄ＩＭＧの数は、利用者Ｕが増やすことができる。

【0051】

カテゴリ等選択欄ＣＳは、生成したいアイテムのカテゴリ等（画像生成条件や画像編集条件）を選択するための欄である。アイテムのカテゴリ等を指定した場合には、ユーザにより条件設定ボタンＢ１が押下された際に、指定したカテゴリ等に従って、アイテム画像が生成される。反対に、アイテムのカテゴリ等を指定しない場合には、カテゴリ等に関係なくランダム（無作為）にアイテム画像が生成される。なお、アイテムのカテゴリ等を指定しない場合であっても、テキスト入力欄ＴＸにテキスト入力されている場合には、そのテキスト入力に従って、アイテム画像が生成される。

【0052】

アイテム固定のチェックボックスＣＢは、アイテムを固定する設定を行うための構成であり、アイテム固定のチェックボックスＣＢをチェックしてアイテムを固定した場合、対応するアイテム画像は固定アイテム画像となり、コーディネート内においてそのアイテムは固定され不変となる。すなわち、コーディネート内のアイテムの編集を行う際に他のアイテムの画像に変更されなくなる。なお、チェックボックス以外にも、ラジオボタン等の他の構成を用いてもよい。

【0053】

アイテム検索ボタンＢ２は、ユーザにより押下されると、アイテム画像表示欄ＩＭＧに表示されたクエリ画像を用いて、アイテムの検索を行う。検索結果は、アイテム検索結果表示欄ＳＲに表示される。アイテム検索結果表示欄ＳＲは、図３の例ではアイテムの画像ごとに存在している（アイテムの画像の数と同数である）が、図４の例ではアイテムの画像全体で（コーディネート単位で）１つにまとめられている。

【0054】

なお、アイテム検索結果表示欄ＳＲに表示されたアイテム画像をアイテム画像表示欄ＩＭＧに登録することで、そのアイテム画像を次の固定アイテム画像や編集前アイテム画像にすることができる。このとき、コーディネート単位で、コーディネート内のアイテム画像を全てアイテム画像表示欄ＩＭＧに登録することも可能である。

【0055】

なお、図３及び図４では、テキスト入力欄ＴＸと、条件設定ボタンＢ１と、アイテム画像表示欄ＩＭＧと、カテゴリ等選択欄ＣＳと、チェックボックスＣＢとが１組分設けられているが、複数組分設けられていてもよい。また、テキスト入力欄ＴＸと、条件設定ボタンＢ１と、カテゴリ等選択欄ＣＳと、チェックボックスＣＢとのいずれか１つ以上は、複数組で共通のものとして設けられていてもよい。すなわち、画像生成条件や画像編集条件を組ごとに変えて、アイテム画像を生成させてもよいし、画像生成条件や画像編集条件を複数の組で同じにして、アイテム画像を生成させてもよい。そして、ユーザは、複数のアイテム画像の組のうち、気に入ったアイテム画像の組を選択し、それらをクエリ画像としてアイテム検索させてもよい。

【0056】

続いて、サーバ装置１００は、複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する（ステップＳ２）。なお、ステップＳ２は、ステップＳ１よりも前に実行されてもよい。

【0057】

続いて、サーバ装置１００は、拡散モデルを用いて、ノイズ画像からアイテム画像を生成する（ステップＳ３）。このとき、サーバ装置１００は、１つ以上の固定アイテム画像を取得し、画像生成条件や画像編集条件に従って固定アイテム画像との調和を考慮してアイテム画像を生成し、利用者Ｕの端末装置１０に表示する。あるいは、サーバ装置１００は、１つ以上の編集前アイテム画像を取得し、画像編集条件に従って編集前アイテム画像からノイズ画像を経てアイテム画像を生成し、利用者Ｕの端末装置１０に表示する。

【0058】

続いて、サーバ装置１００は、生成されたアイテム画像や固定アイテム画像をクエリ画像の候補として利用者Ｕの端末装置１０に表示する（ステップＳ４）。なお、生成されたアイテム画像が気に入らない場合は、再度、画像生成条件や画像編集条件を指定して、アイテム画像を生成させてもよいし、同じ画像生成条件や画像編集条件で、再度、アイテム画像を生成させてもよい。また、生成されたそれぞれのアイテム画像のうち、気に入ったアイテム画像がある場合は、そのアイテム画像を固定して、他のアイテム画像を生成させてもよい。

【0059】

続いて、サーバ装置１００は、複数のクエリ画像それぞれに基づいて、又は複数のクエリ画像のうち、利用者Ｕ（ユーザ）が指定したクエリ画像に基づいて、アイテムを検索し、利用者Ｕの端末装置１０に検索結果を表示する（ステップＳ５）。

【0060】

〔２－１．コーディネートを考慮したアイテム画像生成〕
従来、入力された複数のアイテム群同士の相性度を示すセットマッチングスコア（SetMatchingscore）を出力するセットマッチングモデルを用いたコーディネートの提案が行われている。しかしながら、セットマッチングモデルに入力されるアイテムの特徴量（実際のアイテムを抽出する特徴量でもある）は人間には理解できない。そのため、提案したコーディネートをユーザが気に入っていない場合、アイテムの特徴量がユーザに適したものではないのか（アイテムの特徴量を変えるべきなのか）、アイテムの特徴量に基づいて抽出した実際のアイテムがユーザに適したものではないのか（アイテムの特徴量を変えずに、抽出する実際のアイテムを変えるべきなのか）がわからず、真に理想的なコーディネートを提案できないおそれがあった。

【0061】

本実施形態では、サーバ装置１００は、実際のアイテムを検索する前に、検索に用いられるアイテム画像（クエリ画像）を生成することで、アイテムの特徴量を可視化することができ、真に理想的なコーディネートを提案することができる。また、サーバ装置１００は、可視化しながらインタラクティブにアイテム画像の生成・編集ができる。

【0062】

そのためには、以下の二つの性質を満たすアーキテクチャ（architecture）が必要となる。
・コーディネート内のアイテムの入れ替え対称性
・アイテムの画像のパッチに対する可変性

【0063】

そこで、図１に示すように、拡散モデルのUNetにSet Transformer層（“Set Transformer” layer）を追加し、コーディネート内のアイテム間の相互作用を取り入れる。UNetは、FCN（fully convolution network）の１つであり、画像のセグメンテーション（物体がどこにあるか）を推定するためのネットワークである。Set Transformerの層（“Set Transformer” layer）は主に以下の（Ａ）、（Ｂ）の２つからなる。

【0064】

（Ａ）SA+FF（SelfAttention ＋ FeedForward）
height、widthについて和をとり、SelfAttentionを計算することで、コーディネートのアイテム間の相互作用を計算する。

【0065】

（Ｂ）CA+FF（CrossAttention ＋ FeedForward）
SA+FFのアウトプットと元の画像のCrossAttentionを計算することで、コーディネートのアイテム間の相互作用を反映した、アイテム画像の変換が行われる。

【0066】

また、応用として、サーバ装置１００は、カテゴリなどの条件（condition）を入れてコーディネートを生成する。条件（condition）として入れられそうなものとして、例えば、カテゴリ、ブランド、色、時間、素材、ZOZOTOWN（登録商標）上の利用シーン、コーディネートの説明文、各アイテムの説明文、場所・旅行先・シーン、User情報（ユーザクラスタ・閲覧履歴）、いいね数、等が考えられる。ただし、実際には、これらの例に限定されない。このとき、サーバ装置１００は、以下のような情報処理を行うことができる。

【0067】

（１）アイテム検索
サーバ装置１００は、ユーザが実際に持っているアイテムの画像に基づいて、検索対象のアイテムの画像を生成する。ユーザが実際に持っているアイテムの画像の取得については、ユーザから持っているアイテムの画像の登録を受け付けてもよいし、過去の購入履歴等に含まれているアイテム（購入した記録のあるアイテム）の画像を抽出してもよい。すなわち、サーバ装置１００は、固定アイテム画像や編集前アイテム画像に基づいて、１つ以上のアイテム画像（クエリ画像）を生成することができる。これにより、サーバ装置１００は、ユーザが実際に持っているアイテムの着回し方の提案や、調和性の高いアイテムの検索を行うことができるようになる。また、画像生成の利点として、アイテム検索に用いられるクエリ画像を可視化できる。

【0068】

そして、サーバ装置１００は、検索対象のアイテムの画像を生成した後、ユーザインタラクションとして、ユーザに検索に用いられるクエリ画像となる画像を提示して「このクエリでいいですか？」等の確認・問い合わせを行う。具体的には、サーバ装置１００は、アイテム画像表示欄ＩＭＧに生成されたアイテム画像などを表示するとともに、「このクエリでいいですか？」等の確認・問い合わせを行う。あるいは、サーバ装置１００は、ユーザから、カラーイメージ、Vネックなどのアトリビュート（attribute：属性）の指定を受け付け（ユーザから画像生成条件や画像編集条件を受け付け）、それに従ってクエリ画像となる画像を生成してもよい。また、サーバ装置１００は、生成されたそれぞれの画像をユーザに提示して、その中からクエリ画像となる画像をユーザに選択してもらうようにしてもよい。

【0069】

（２）架空のアイテムの仮想試着
サーバ装置１００は、アイテム画像を生成したのち、別手法の仮想試着などでスナップ写真を生成する。具体的には、サーバ装置１００は、生成された１つ以上のアイテム画像と、ユーザ画像とに基づいて、ユーザが生成された１つ以上のアイテムを着用している画像を生成する。なお、サーバ装置１００は、固定アイテム画像が設定されている場合は、ユーザが固定アイテムも着用している画像を生成する。これによって、検索されるアイテムのイメージを持ちながら、生成されたアイテム画像がクエリ画像として適切かをユーザが判断することができる。

【0070】

（３）アイテム検索、コーディネート検索
サーバ装置１００は、類似アイテム検索や類似コーディネート検索の技術を組み合わせて実際のアイテムやコーディネートを検索する。具体的には、サーバ装置１００は、生成された各アイテム画像や生成されたコーディネート画像（生成された各アイテム画像を組み合わせることで生成されたコーディネート画像を含む）も分散表現空間に埋め込み、分散表現空間におけるベクトルの類似性に基づいて、実際のアイテムのアイテム画像や実際のアイテムを用いたコーディネート画像を検索する。

【0071】

（４）いいね数向上
サーバ装置１００は、コーディネートを構成する複数のアイテムの一部又は全部のアイテム画像を生成して、「これを着たらよりいいね数が増えます」とユーザに提案する。具体的には、サーバ装置１００は、画像生成条件や画像編集条件として、ユーザが希望するいいね数や、いいね数が増えそうなコーディネートというようなテキストを受け付け、ユーザが希望するいいね数が獲得できそうなコーディネートや、いいね数が増えそうなコーディネートを構成する複数のアイテムの一部又は全部のアイテム画像を生成するとともに、「これを着たらよりいいね数が増えます」とユーザに提案する。そして、いいね数が増えそうなアイテムやコーディネートを検索できそうなクエリ画像であるかを、アイテム検索前にユーザが判断することができる。なお、サーバ装置１００は、学習データとして、いいね数ごとのコーディネートを構成する複数のアイテムの画像群と、各アイテムを示す複数のカテゴリ情報とを正解データとして取得して、拡散モデルを学習させる。

【0072】

（５）予測・流行関連
サーバ装置１００は、流行分析として、「現在なにが流行っているか」や「〇〇年に流行っていたコーディネート」といったプロンプト（Prompt：指示文）に応じた生成画像の平均画像的なものを生成する。例えば、サーバ装置１００は、ＧＡＮ（Generative Adversarial Networks：敵対的生成ネットワーク）のinterpolation的な処理を行う。これにより、例えば大人カジュアルの平均画像の時間的変遷を知ることができる。

【0073】

また、サーバ装置１００は、次に求められるアイテムの画像を生成する。例えば、サーバ装置１００は、情報源として、どういう画像がよく生成されているか、どういうニュースがあったときに、どんなものが売れるか、というものに基づいて、未来のニュースを予測してアイテムの画像を生成する。

【0074】

また、サーバ装置１００は、２０００年っぽいコーディネートや、２０２５年（未来）に流行りそうなコーディネートというような画像生成条件や画像編集条件を受け付け、各アイテム画像を生成する。一般的には、ファッションのトレンドは２０年周期とも言われており、過去のトレンドを学習することによって、未来のトレンドを反映したコーディネートも提案することができる。なお、サーバ装置１００は、学習データとして、年代ごとのコーディネートを構成する複数のアイテムの画像群と、各アイテムを示す複数のカテゴリ情報とを正解データとして取得して、拡散モデルを学習させる。

【0075】

（６）パーソナライズ
サーバ装置１００は、個々のユーザについて、個人ごとにネガティブプロンプトを学習していく。

【0076】

（７）コーディネートの生成
サーバ装置１００は、ユーザが実際に持っているアイテムをもとにコーディネートを生成する。そして、サーバ装置１００は、生成結果をもとにZOZOTOWN（登録商標）内を画像検索する。インタラクティブにもできる点が集合検索との違いである。具体的には、サーバ装置１００は、ユーザが実際に持っている２つ以上のアイテムの画像（編集前アイテム画像）を取得し、取得された２つ以上のアイテムの画像それぞれからクエリ画像を生成する。そして、サーバ装置１００は、生成された２つ以上のクエリ画像を用いて、実際の２つ以上のアイテムの画像を検索して表示する。

【0077】

（８）コーディネート内のアイテムの編集
サーバ装置１００は、コーディネート内のアイテムの編集を行う。このとき、サーバ装置１００は、インタラクティブな編集を行う。編集の方向性としては、例えば「1990年代のアイテム画像を使ったコーディネートを今っぽく（現代風に）したらどうなるか？」等の方向性であってもよい。具体的には、サーバ装置１００は、コーディネートを構成する１９９０年代の２つ以上のアイテムの画像（編集前アイテム画像）と、２０２４年っぽいコーデという画像編集条件（とを取得し、画像編集条件に従って、取得された２つ以上のアイテムの画像それぞれから、それぞれとの調和を考慮しながら新たなアイテムの画像を生成する。

【0078】

また、サーバ装置１００は、画像編集条件として取得された特定のタグ（大人カジュアルなどのスタイル情報）に従って、コーディネート内のアイテムの編集を行ってもよい。また、サーバ装置１００は、ユーザに似合うことを示すために、いいね数が増える方向のコーディネートである旨を表示する。

【0079】

また、サーバ装置１００は、「古いアイテム（e.g. 2019年）にどのようなアイテムを加えたら今（e.g. 2024年）っぽくなるか？」といった観点でコーディネートの生成を行う（Fill in the n blanks）。具体的には、サーバ装置１００は、２０１９年の１つ以上のアイテムの画像（固定アイテム画像）と、２０２４年っぽいコーデという画像生成条件とを取得し、画像生成条件に従って、固定アイテム画像との調和を考慮しながら追加すべきアイテムの画像を生成する。アイテムの360度画像を１つの組（set）とみなすことで、360度一貫した（consistentな）アイテムの生成・編集が可能になる。

【0080】

（９）新しい検索の形
本実施形態により、新しい検索の形が作れるのではないかと期待できる。例えば、ユーザが検索ワード（画像生成条件や画像編集条件）を入れる、自分の持っている商品（固定アイテム画像や編集前アイテム画像）を元にワンクリックレコメンド、等をした時に「こんな画像がイメージに近いですか？」と複数の画像（生成されたクエリ画像）が候補として出てきて、その中から選ぶ形の検索方式が実現できる（選択されたクエリ画像と類似する実際のアイテムの画像を検索できる）。

【0081】

（１０）自作アバター作成の補助
サーバ装置１００は、自作アバター作成の補助を行うこともできる。例えば、ゲーム等で自分のアバターが着る服を作る機能があるが、一から作るのは面倒なので文章（画像生成条件）からコーディネート（それぞれとの調和を考慮して生成された複数のアイテム画像から成るコーディネート画像）を作れると便利である。コーディネートが気に入らない場合は、その後にユーザが自分で細かい部分を修正できるようにしてもよい（生成されたアイテム画像を編集前アイテム画像とし、画像編集条件に従って、再度、アイテム画像を生成できるようにしてもよい）。また、ユーザ（自分）が現実に着ている衣装等をアバターに着させることができる。

【0082】

このように、サーバ装置１００は、拡散モデルを使ってノイズから商品画像を生成する。特に、サーバ装置１００は、Set Transformerによるアイテム間の相互作用を計算して、条件として設定したアイテムに相性の良さそうな画像を生成する。これにより、コーディネートの欠損を埋めることができる。また、コーディネートを制限なく無数に生成してみることも可能となる。

【0083】

なお、生成される対象は、アイテムの画像に限らない。例えば、サーバ装置１００は、アイテムの画像に限らず、スナップ写真（コーディネートの画像、アイテムを着用している画像、コーディネートを着用している画像など）を生成するようにしてもよい。ＳＮＳ等で特定の投稿者が投稿するスナップ写真は好みが似ているので調和している。例えば、サーバ装置１００は、特定の投稿者が投稿するような複数のスナップ写真を生成してもよい。具体的には、サーバ装置１００は、特定の投稿者が投稿した複数のスナップ写真が学習データとして学習された拡散モデルを用いて、ノイズ画像から複数のスナップ写真をそれぞれとの調和を考慮しながら生成してもよい。

【0084】

また、サーバ装置１００は、スコア出力モジュールの追加を行い、マッチ度合い・似合う度合いを測れるようにしてもよい。

【0085】

また、サーバ装置１００は、他のモデルとの組み合わせにより、セットマッチングのスコアが高まるようなアイテム集合を生成してもよい。また、サーバ装置１００は、FashionGPTとの組み合わせによりアイテム集合を生成してもよい。

【0086】

〔２－２．Outfit Diffusionのアーキテクチャの設計思想〕
満たすべき性質は、以下の３つである。
（ａ）コーディネート内のアイテムの入れ替え対称性（商品画像の順序に寄らない）
（ｂ）コーディネート内のアイテム数に対する可変性（コーディネートを構成する商品画像の枚数を任意に設定したい）
（ｃ）アイテムの画像のパッチに対する可変性（StableDiffusionのようにHeightとWidthを任意に設定したい）

【0087】

以下のように処理が行われれば、上記の３つ（上記（ａ）～（ｃ））を満たすことができる。

【0088】

（１）商品画像の特徴量の入力
サーバ装置１００は、コーディネートを構成する商品画像の特徴量の入力を受け付ける。各商品の特徴量の形状は画像のような形（Height,Width,Channel）である。例えば、画像特徴はバッチサイズ×系列長×特徴次元の立体のような形で表現される。

【0089】

（２）全体的な特徴を表す特徴量の作成
サーバ装置１００は、各商品画像のパッチ状の特徴量から、各商品の全体的な特徴を表す特徴量を作成する（画像ごとの変換）。

【0090】

例えば、特徴量の作成方法としては、以下の方法などが考えられる。
・Vision Transformer（ViT）のようにclassifier tokenを使用する方法
・Q-former（クエリ変換器）を使用する方法
・単にpatchごとの特徴量についてHeight、Widthに対する和を取る方法

【0091】

（３）入れ替え対称性を考慮した特徴量への変換
サーバ装置１００は、上記（２）で得られた特徴量を入れ替え対称性を考慮した特徴量に変換する（コーディネート全体に対する変換）。典型的には、SA+FF（SelfAttention ＋ FeedForward）である。これであれば、上記（ａ）と上記（ｂ）を満たすことができる。また、コーディネート内の他商品の特徴量を参考に変換し、自然なコーディネートになる商品画像の全体的な特徴を取得する。

【0092】

（４）入力特徴量の変換
サーバ装置１００は、画像ごとに、上記（３）で得られた特徴量に基づき、入力特徴量を変換する（画像ごとの変換）。典型的には、CA+FF（CrossAttention ＋ FeedForward）である。これであれば、上記（ｃ）の性質を満たすことができる。

【0093】

（５）商品画像の特徴量の出力
サーバ装置１００は、変換された商品画像の特徴量を出力する。

【0094】

上記の内容を図にすると図５のような形になる。図５は、Outfit Diffusionのアーキテクチャの設計思想の概要を示す説明図である。

【0095】

例えば、図５に示すように、サーバ装置１００は、ST部（Set Transformer module）のQF（Q-Former）を利用して、各画像の特徴量を抽出する（ステップＳ１１）。例えば、サーバ装置１００は、QF（Q-Former）に商品画像を入力（input）することで、商品画像の全体的な特徴を抽出する。QF（Q-Former）は、画像変換器とテキスト変換器との２つのサブモジュールからなるが、今回は画像変換器において、入力画像を受け付けた画像エンコーダ（Image Encoder）と対話して視覚特徴を抽出する。

【0096】

続いて、サーバ装置１００は、抽出された商品画像の全体的な特徴について、ST部のSA+FF（SelfAttention ＋ FeedForward）を利用して、コーディネート性を考慮した変換を行う（ステップＳ１２）。

【0097】

続いて、サーバ装置１００は、ST部のCA+FF（CrossAttention ＋ FeedForward）を利用して、コーディネート性を考慮した特徴量をもとに、元々の商品画像を変換する（ステップＳ１３）。

【0098】

図６は、コーディネートの結果の例を示す図である。本実施形態の実施結果として、（１）IQQN3000のコーディネートをベースに、（２）カテゴリが同一のコーディネートを生成したもの、（３）Fill in the n blanksにより帽子・ピアス・コート・スカートをノイズ画像から生成したもの、（４）コーディネート編集したもの、（５）一部コーディネート編集したものを示す。元々のコーディネートである（１）はモノトーンのコーディネートであるが、（２）のコーディネートでは、各アイテムのカテゴリを維持したまま（各アイテムに対する画像編集条件として、元々のカテゴリを設定し）、調和する各アイテム（シューズ、帽子、ピアス、コート、スカート、手袋、セーター）をノイズ画像から生成している。一例として、コートが黒色から水色にものに、スカートが黒色から茶色のものに変更されている。（３）のコーディネートでは、元々のシューズと手袋とセーターとを固定し、他の各アイテム（帽子、ピアス、コート、スカート）のカテゴリを維持したまま、それらに調和する他の各アイテムをノイズ画像から生成している。一例として、コートが青色であり、ゆったりとしたものに、スカートは紺色の柄物のものに変更されている。さらに、帽子とピアスが茶色のものに変更され、全体的な色味にアクセントが加わったコーディネートに変更されている。（４）のコーディネートや（５）のコーディネートでは、全体としてのコーディネートや各アイテムの雰囲気は維持しつつ、質感などが変更されている。

【0099】

〔２－３．補足〕
サーバ装置１００は、生成した複数商品画像に基づいたコーディネートの提案を行う。サーバ装置１００では、アーキテクチャとして、複数同じ接続係数のUNetがあって、これを相互通信させている。毎回画像間の特徴量をまとめている。このとき、画像間の特徴量の一部だけまとめるようにしてもよい。

【0100】

なお、サーバ装置１００は、カテゴリがあらかじめ与えられていたら、最後の何回かだけにSet Transformerを入れてもよい。反対に、サーバ装置１００は、カテゴリがあらかじめ与えられていなければ、最初からSet Transformerを入れる必要がある。さもなくば、例えば靴が二つ出る可能性がある。

【0101】

また、サーバ装置１００は、拡散モデルと、セットマッチングモデルとを組み合わせて、アイテムの画像を生成してもよい。なお、セットマッチングモデルとは、少なくとも、第１のアイテム群（複数のアイテム画像）と、第２のアイテム群（複数のアイテム画像）とが入力されると、第１のアイテム群と第２のアイテム群との相性度を示すセットマッチングスコアを出力するように学習されたモデルである。なお、第１のアイテム群と第２のアイテム群とに加え、付加情報（例えば、各アイテムを着用するユーザのユーザ情報（例えば、体型や肌色といった身体情報を含む）など）が入力されると、第１のアイテム群と第２のアイテム群と付加情報との相性度を示すセットマッチングスコアを出力するように学習されたモデルであってもよい。また、セットマッチングモデルは、電子商取引サイト、コーディネート投稿サイト、各種ＳＮＳサイトなどに投稿されたコーディネートを着用したユーザの画像やユーザ情報を学習データ（正解データ）として学習していてもよいし、電子商取引サイト、コーディネート投稿サイト、各種ＳＮＳサイトなどに投稿されたコーディネートを着用したユーザの画像やユーザ情報のうち、閲覧者や評価者によって評価された（例えば、似合っていると評価された、調和していると評価された）画像やユーザ情報学習データ（正解データ）として学習していてもよい。すなわち、セットマッチングモデルは、入力データが正解データに近いほど、高いセットマッチングスコアを出力するように学習されていてもよい。また、サーバ装置１００は、拡散モデルを用いて、ノイズ画像からアイテム画像を生成（復元）する途中の途中画像を少なくともセットマッチングモデルに入力し、セットマッチングスコアをセットマッチングモデルに出力（算出）させるとともに、セットマッチングスコアが高くなるようなアイテム画像の生成（復元）を拡散モデルにさせてもよい。ネットワークは、UNet以外にも、ControlNetであってもよい。ControlNetは、線画を作成し、線画を元に画像を生成することが可能である。線画の例としては、カテゴリに対応する線画や、ユーザが希望する線画等が考えられる。

【0102】

また、サーバ装置１００は、実際に持っている画像にノイズを加えてノイズ画像を作成し、復元データを作成せずに、入力画像とこのノイズ画像との比較でノイズを除去して戻していく。

【0103】

サーバ装置１００は、カテゴリを入れなくてもいいところまで復元する。サーバ装置１００は、ユーザが持っているアイテム以外のアイテムを見つけ出すことができればよい。また、穴埋め的に戻してくれる機能を有する専用モデルがあってもよい。

【0104】

〔３．端末装置の構成例〕
次に、図７を用いて、端末装置１０の構成について説明する。図７は、実施形態に係る端末装置１０の構成例を示す図である。図７に示すように、端末装置１０は、通信部１１と、表示部１２と、入力部１３と、測位部１４と、センサ部２０と、制御部３０（コントローラ）と、記憶部４０とを備える。

【0105】

（通信部１１）
通信部１１は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、サーバ装置１００との間で情報の送受信を行う。例えば、通信部１１は、ＮＩＣ（Network Interface Card）やアンテナ等によって実現される。

【0106】

（表示部１２）
表示部１２は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部１２は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）や有機ＥＬディスプレイ（Organic Electro-Luminescent Display）である。また、表示部１２は、タッチパネル式のディスプレイであるが、これに限定されるものではない。

【0107】

（入力部１３）
入力部１３は、利用者Ｕから各種操作を受け付ける入力デバイスである。例えば、入力部１３は、文字や数字等を入力するためのボタン等を有する。なお、入力部１３は、入出力ポート（I/O port）やＵＳＢ（Universal Serial Bus）ポート等であってもよい。また、表示部１２がタッチパネル式のディスプレイである場合、表示部１２の一部が入力部１３として機能する。また、入力部１３は、利用者Ｕから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。

【0108】

（測位部１４）
測位部１４は、ＧＰＳ（Global Positioning System）の衛星から送出される信号（電波）を受信し、受信した信号に基づいて、自装置である端末装置１０の現在位置を示す位置情報（例えば、緯度及び経度）を取得する。すなわち、測位部１４は、端末装置１０の位置を測位する。なお、ＧＰＳは、ＧＮＳＳ（Global Navigation Satellite System）の一例に過ぎない。

【0109】

また、測位部１４は、ＧＰＳ以外にも、種々の手法により位置を測位することができる。例えば、測位部１４は、位置補正等のための補助的な測位手段として、下記のように、端末装置１０の様々な通信機能を利用して位置を測位してもよい。

【0110】

（Ｗｉ－Ｆｉ測位）
例えば、測位部１４は、端末装置１０のＷｉ－Ｆｉ（登録商標）通信機能や、各通信会社が備える通信網を利用して、端末装置１０の位置を測位する。具体的には、測位部１４は、Ｗｉ－Ｆｉ通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置１０の位置を測位する。

【0111】

（ビーコン測位）
また、測位部１４は、端末装置１０のBluetooth（登録商標）機能を利用して位置を測位してもよい。例えば、測位部１４は、Bluetooth（登録商標）機能によって接続されるビーコン（beacon）発信機と接続することにより、端末装置１０の位置を測位する。

【0112】

（地磁気測位）
また、測位部１４は、予め測定された構造物の地磁気のパターンと、端末装置１０が備える地磁気センサとに基づいて、端末装置１０の位置を測位する。

【0113】

（ＲＦＩＤ測位）
また、例えば、端末装置１０が駅改札や店舗等で使用される非接触型ＩＣカードと同等のＲＦＩＤ（Radio Frequency Identification）タグの機能を備えている場合、もしくはＲＦＩＤタグを読み取る機能を備えている場合、端末装置１０によって決済等が行われた情報とともに、使用された位置が記録される。測位部１４は、かかる情報を取得することで、端末装置１０の位置を測位してもよい。また、位置は、端末装置１０が備える光学式センサや、赤外線センサ等によって測位されてもよい。

【0114】

測位部１４は、必要に応じて、上述した測位手段の一つ又は組合せを用いて、端末装置１０の位置を測位してもよい。

【0115】

（センサ部２０）
センサ部２０は、端末装置１０に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置１０以外の検知装置であってもよい。図７に示す例では、センサ部２０は、加速度センサ２１と、ジャイロセンサ２２と、気圧センサ２３と、気温センサ２４と、音センサ２５と、光センサ２６と、磁気センサ２７と、画像センサ（カメラ）２８とを備える。

【0116】

なお、上記した各センサ２１～２８は、あくまでも例示であって限定されるものではない。すなわち、センサ部２０は、各センサ２１～２８のうちの一部を備える構成であってもよいし、各センサ２１～２８に加えてあるいは代えて、湿度センサ等その他のセンサを備えてもよい。

【0117】

加速度センサ２１は、例えば、３軸加速度センサであり、端末装置１０の移動方向、速度、及び、加速度等の端末装置１０の物理的な動きを検知する。ジャイロセンサ２２は、端末装置１０の角速度等に基づいて３軸方向の傾き等の端末装置１０の物理的な動きを検知する。気圧センサ２３は、例えば端末装置１０の周囲の気圧を検知する。

【0118】

端末装置１０は、上記した加速度センサ２１やジャイロセンサ２２、気圧センサ２３等を備えることから、これらの各センサ２１～２３等を利用した歩行者自律航法（ＰＤＲ：Pedestrian Dead-Reckoning）等の技術を用いて端末装置１０の位置を測位することが可能になる。これにより、ＧＰＳ等の測位システムでは取得することが困難な屋内での位置情報を取得することが可能になる。

【0119】

例えば、加速度センサ２１を利用した歩数計により、歩数や歩くスピード、歩いた距離を算出することができる。また、ジャイロセンサ２２を利用して、利用者Ｕの進行方向や視線の方向、体の傾きを知ることができる。また、気圧センサ２３で検知した気圧から、利用者Ｕの端末装置１０が存在する高度やフロアの階数を知ることもできる。

【0120】

気温センサ２４は、例えば端末装置１０の周囲の気温を検知する。音センサ２５は、例えば端末装置１０の周囲の音を検知する。光センサ２６は、端末装置１０の周囲の照度を検知する。磁気センサ２７は、例えば端末装置１０の周囲の地磁気を検知する。画像センサ２８は、端末装置１０の周囲の画像を撮像する。

【0121】

上記した気圧センサ２３、気温センサ２４、音センサ２５、光センサ２６及び画像センサ２８は、それぞれ気圧、気温、音、照度を検知したり、周囲の画像を撮像したりすることで、端末装置１０の周囲の環境や状況等を検知することができる。また、端末装置１０の周囲の環境や状況等から、端末装置１０の位置情報の精度を向上させることが可能になる。

【0122】

（制御部３０）
制御部３０は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路等のハードウェアで構成されてもよい。制御部３０は、送信部３１と、受信部３２と、処理部３３とを有する。

【0123】

（送信部３１）
送信部３１は、例えば入力部１３を用いて利用者Ｕにより入力された各種情報や、端末装置１０に搭載又は接続された各センサ２１～２８によって検知された各種情報、測位部１４によって測位された端末装置１０の位置情報等を、通信部１１を介してサーバ装置１００へ送信することができる。

【0124】

（受信部３２）
受信部３２は、通信部１１を介して、サーバ装置１００から提供される各種情報や、サーバ装置１００からの各種情報の要求を受信することができる。

【0125】

（処理部３３）
処理部３３は、表示部１２等を含め、端末装置１０全体を制御する。例えば、処理部３３は、送信部３１によって送信される各種情報や、受信部３２によって受信されたサーバ装置１００からの各種情報を表示部１２へ出力して表示させることができる。

【0126】

また、処理部３３は、アプリ等を起動することで、以下に示すような、受付部３３Ａ、検索部３３Ｂ、表示制御部３３Ｃとして機能（動作）してもよい。すなわち、処理部３３は、受付部３３Ａと、検索部３３Ｂと、表示制御部３３Ｃとを含む。

【0127】

（受付部３３Ａ）
受付部３３Ａは、入力部１３を介して、利用者Ｕから画像生成条件を受け付ける。また、受付部３３Ａは、１つ以上の固定アイテム画像を受け付ける。また、受付部３３Ａは、１つ以上の編集前アイテム画像と画像編集条件とを受け付ける。

【0128】

（検索部３３Ｂ）
検索部３３Ｂは、通信部１１を介してサーバ装置１００と連携し、クエリ画像に基づいて、アイテム又はコーディネートといったコンテンツを検索する。例えば、検索部３３Ｂは、複数のクエリ画像それぞれに基づいて、アイテムを検索する。あるいは、検索部３３Ｂは、複数のクエリ画像のうち、ユーザが指定したクエリ画像に基づいて、アイテムを検索する。なお、検索部３３Ｂは、受付部３３Ａにより受け付けた固定アイテム画像や編集前アイテム画像をクエリ画像としてもよい。

【0129】

（表示制御部３３Ｃ）
表示制御部３３Ｃは、通信部１１を介してサーバ装置１００と連携し、検索部３３Ｂによる検索結果であるコンテンツを表示部１２に表示する。例えば、表示制御部３３Ｃは、複数のクエリ画像それぞれの検索結果を表示部１２に表示する。あるいは、表示制御部３３Ｃは、ユーザが指定したクエリ画像に基づく検索結果を表示部１２に表示する。

【0130】

また、表示制御部３３Ｃは、受付部３３Ａにより受け付けた画像生成条件に従って、生成されたアイテム画像を表示部１２に表示する。また、表示制御部３３Ｃは、受付部３３Ａにより受け付けた画像編集条件に従って、編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を表示部１２に表示する。

【0131】

表示制御部３３Ｃは、通信部１１を介してサーバ装置１００と連携し、ノイズ画像から生成されたアイテム画像を表示部１２に表示する。例えば、表示制御部３３Ｃは、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示部１２に表示する。

【0132】

（記憶部４０）
記憶部４０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置によって実現される。かかる記憶部４０には、各種プログラムや各種データ等が記憶される。

【0133】

〔４．サーバ装置の構成例〕
次に、図８を用いて、実施形態に係るサーバ装置１００の構成について説明する。図８は、実施形態に係るサーバ装置１００の構成例を示す図である。図８に示すように、サーバ装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを備える。

【0134】

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。また、通信部１１０は、ネットワークＮと有線又は無線で接続される。

【0135】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ＨＤＤ、ＳＳＤ、光ディスク等の記憶装置によって実現される。記憶部１２０は、利用者Ｕを示す識別情報（利用者ＩＤ等）とともに、利用者Ｕの属性情報や履歴情報（ログデータ）を記憶してもよい。

【0136】

（制御部１３０）
制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、サーバ装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。図８に示す例では、制御部１３０は、取得部１３１と、設定部１３２と、構築部１３３と、画像生成部１３４と、提供部１３５とを有する。

【0137】

（取得部１３１）
取得部１３１は、利用者Ｕ（ユーザ）により入力された検索クエリを取得する。例えば、取得部１３１は、利用者Ｕが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部１１０を介して、当該検索クエリを取得する。すなわち、取得部１３１は、通信部１１０を介して、利用者Ｕにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。

【0138】

また、取得部１３１は、通信部１１０を介して、利用者Ｕに関する利用者情報を取得する。例えば、取得部１３１は、利用者Ｕの端末装置１０から、利用者Ｕを示す識別情報（利用者ＩＤ等）や、利用者Ｕの位置情報、利用者Ｕの属性情報等を取得する。また、取得部１３１は、利用者Ｕのユーザ登録時に、利用者Ｕを示す識別情報や、利用者Ｕの属性情報等を取得してもよい。そして、取得部１３１は、利用者情報を記憶部１２０に記憶する。

【0139】

また、取得部１３１は、通信部１１０を介して、利用者Ｕの行動を示す各種の履歴情報（ログデータ）を取得する。例えば、取得部１３１は、利用者Ｕの端末装置１０から、あるいは利用者ＩＤ等に基づいて各種サーバ等から、利用者Ｕの行動を示す各種の履歴情報を取得する。そして、取得部１３１は、各種の履歴情報を記憶部１２０に記憶する。

【0140】

また、取得部１３１は、１つ以上の固定アイテム画像を取得する。また、取得部１３１は、１つ以上の編集前アイテム画像を取得する。例えば、取得部１３１は、通信部１１０を介して、利用者Ｕの端末装置１０から、検索対象のクエリ画像となるアイテム画像を取得する。

【0141】

（設定部１３２）
設定部１３２は、画像生成条件を設定する。例えば、設定部１３２は、通信部１１０を介して、利用者Ｕの端末装置１０から画像生成条件の指示を受け付け、画像生成条件を設定する。また、設定部１３２は、画像編集条件を設定する。例えば、設定部１３２は、通信部１１０を介して、利用者Ｕの端末装置１０から画像編集条件の指示を受け付け、画像編集条件を設定する。

【0142】

（構築部１３３）
構築部１３３は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する。すなわち、構築部１３３は、機械学習により拡散モデルを生成する学習部である。

【0143】

（画像生成部１３４）
画像生成部１３４は、拡散モデルを用いて、アイテム画像を生成する。また、画像生成部１３４は、画像生成条件に従って、アイテム画像を生成する。

【0144】

また、画像生成部１３４は、ノイズ画像からアイテム画像を生成する。例えば、画像生成部１３４は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する。

【0145】

また、画像生成部１３４は、アイテム画像を、取得部１３１により取得された１以上の固定アイテム画像との調和も考慮して生成する。

【0146】

また、画像生成部１３４は、画像編集条件に従って、取得部１３１により取得された１以上の編集前アイテム画像からノイズ画像を経て、それぞれとの調和を考慮してアイテム画像を生成する。

【0147】

（提供部１３５）
提供部１３５は、通信部１１０を介して、利用者Ｕの端末装置１０に、生成されたアイテム画像を提供する。例えば、提供部１３５は、通信部１１０を介して、利用者Ｕの端末装置１０に、コーディネート内のアイテムの画像を提供する。また、提供部１３５は、通信部１１０を介して、利用者Ｕの端末装置１０に、クエリ画像に基づくアイテム検索の検索結果を提供する。

【0148】

〔５．処理手順〕
次に、図９を用いて実施形態に係るサーバ装置１００による処理手順について説明する。図９は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、サーバ装置１００の制御部１３０によって繰り返し実行される。

【0149】

例えば、図９に示すように、サーバ装置１００の取得部１３１は、１つ以上の固定アイテム画像や、１つ以上の編集前アイテム画像を取得する（ステップＳ１０１）。なお、このステップは省略されてもよい。

【0150】

続いて、サーバ装置１００の設定部１３２は、通信部１１０を介して、利用者Ｕの端末装置１０から画像生成条件や画像編集条件の指示を受け付け、画像生成条件や画像編集条件を設定する（ステップＳ１０２）。

【0151】

続いて、サーバ装置１００の構築部１３３は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する（ステップＳ１０３）。なお、このステップは、ステップＳ１０１より前や、ステップＳ１０２より前に行われてもよい。

【0152】

続いて、サーバ装置１００の画像生成部１３４は、画像生成条件や画像編集条件に従って、拡散モデルを用いて、ノイズ画像からアイテム画像をそれぞれとの調和を考慮しながら生成する（ステップＳ１０４）。なお、サーバ装置１００の画像生成部１３４は、編集前アイテム画像と、画像編集条件とに従って、アイテム画像を生成する場合は、編集前アイテム画像の全部又は一部にノイズを加えた後、そこからアイテム画像をそれぞれとの調和を考慮しながら生成する。

【0153】

続いて、サーバ装置１００の提供部は、通信部１１０を介して、利用者Ｕの端末装置１０に、生成されたアイテム画像を提供する（ステップＳ１０５）。このとき、利用者Ｕの端末装置１０は、生成されたアイテム画像を表示する。

【0154】

続いて、サーバ装置１００の制御部１３０は、生成されたアイテム画像（クエリ画像）に基づいて、実際のアイテムのアイテム画像を検索する（ステップＳ１０６）。なお、サーバ装置１００の制御部１３０は、生成されたアイテム画像のうち、ユーザにより指定されたアイテム画像（クエリ画像）に基づいて、実際のアイテムのアイテム画像を検索してもよい。なお、検索された実際のアイテムのアイテム画像は、クエリ画像１つに対して１つではなく、複数であってもよい。

【0155】

続いて、サーバ装置１００の提供部１３６は、通信部１１０を介して、利用者Ｕの端末装置１０に、検索結果（実際のアイテムのアイテム画像）を提供する（ステップＳ１０７）。このとき、利用者Ｕの端末装置１０は、検索結果（実際のアイテムのアイテム画像）を表示する。なお、サーバ装置１００の提供部１３６は、クエリ画像１つに対して複数の実際のアイテムのアイテム画像がある場合は、クエリ画像と類似する実際のアイテムのアイテム画像ほど、優先的に提供してもよい。具体的には、利用者Ｕの端末装置１０は、クエリ画像と類似する実際のアイテムのアイテム画像ほど、目立つ位置や上位の位置に表示する。

【0156】

〔６．変形例〕
上述した端末装置１０及びサーバ装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。

【0157】

上記の実施形態において、サーバ装置１００が実行している処理の一部又は全部は、実際には、利用者Ｕの端末装置１０（又は端末上で動作するアプリ）が実行してもよい。例えば、スタンドアローン（Stand-alone）で（端末装置１０単体で）処理が完結してもよい。この場合、端末装置１０に、上記の実施形態におけるサーバ装置１００の機能が備わっているものとする。また、上記の実施形態では、端末装置１０はサーバ装置１００と連携しているため、利用者Ｕから見れば、サーバ装置１００の処理も端末装置１０が実行しているように見える。すなわち、他の観点では、端末装置１０は、サーバ装置１００を備えているともいえる。

【0158】

また、上記の実施形態において、利用者Ｕの端末装置１０が実行している処理の一部又は全部は、実際には、サーバ装置１００が実行してもよい。

【0159】

また、上記の実施形態において、利用者Ｕの端末装置１０及びサーバ装置１００は同一の装置（１台の装置）であってもよい。すなわち、利用者Ｕの端末装置１０及びサーバ装置１００それぞれが実行している処理は、同一の装置（１台の装置）で実行してもよい。

【0160】

また、上記の実施形態において、アイテムの画像は、動画や、多視点画像であってもよい。また、アイテムの画像は、イラストであってもよい。

【0161】

〔７．効果〕
上述してきたように、本願に係る情報処理装置（端末装置１０及びサーバ装置１００）は、ノイズ画像からアイテム画像を生成する画像生成部１３４を備え、画像生成部１３４は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する。

【0162】

また、本願に係る情報処理装置は、画像生成条件を設定する設定部１３２を備え、画像生成部１３４は、画像生成条件に従って、アイテム画像を生成する。

【0163】

また、本願に係る情報処理装置は、１つ以上の固定アイテム画像を取得する取得部１３１を備え、画像生成部１３４は、アイテム画像を、固定アイテム画像との調和も考慮して生成する。

【0164】

また、本願に係る情報処理装置は、１つ以上の編集前アイテム画像を取得する取得部１３１と、画像編集条件を設定する設定部１３２と、を備え、画像生成部１３４は、画像編集条件に従って、編集前アイテム画像からノイズ画像を経てアイテム画像を生成する。

【0165】

また、本願に係る情報処理装置は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する構築部１３３を備え、画像生成部１３４は、拡散モデルを用いて、アイテム画像を生成する。

【0166】

別の観点では、本願に係る情報処理装置本願に係る情報処理装置（端末装置１０及びサーバ装置１００）は、ノイズ画像から生成されたアイテム画像を表示する表示部１２を備え、表示部１２は、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示する。

【0167】

また、本願に係る情報処理装置は、クエリ画像に基づいて、アイテム又はコーディネートといったコンテンツを検索する検索部３３Ｂを備え、表示部１２は、検索結果であるコンテンツを表示する。

【0168】

また、本願に係る情報処理装置は、画像生成条件を受け付ける受付部３３Ａを備え、表示部１２は、画像生成条件に従って、生成されたアイテム画像を表示する。

【0169】

また、本願に係る情報処理装置は、１つ以上の編集前アイテム画像と画像編集条件とを受け付ける受付部３３Ａを備え、表示部１２は、画像編集条件に従って、編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を表示する。

【0170】

また、検索部３３Ｂは、複数のクエリ画像それぞれに基づいて、アイテムを検索し、表示部１２は、それぞれの検索結果を表示する。

【0171】

また、検索部３３Ｂは、複数のクエリ画像のうち、ユーザが指定したクエリ画像に基づいて、アイテムを検索し、表示部１２は、検索結果を表示する。

【0172】

上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、コーディネート全体として調和の高い情報を提供することができる。

【0173】

〔８．ハードウェア構成〕
また、上述した実施形態に係る端末装置１０やサーバ装置１００は、例えば図１０に示すような構成のコンピュータ１０００によって実現される。以下、サーバ装置１００を例に挙げて説明する。図１０は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力Ｉ／Ｆ（Interface）１０６０、入力Ｉ／Ｆ１０７０、ネットワークＩ／Ｆ１０８０がバス１０９０により接続された形態を有する。

【0174】

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置１０３０は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等により実現される。

【0175】

一次記憶装置１０４０は、ＲＡＭ（Random Access Memory）等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等により実現される。二次記憶装置１０５０は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置１０５０は、ＵＳＢ（Universal Serial Bus）メモリやＳＤ（Secure Digital）メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置１０５０は、クラウドストレージ（オンラインストレージ）やＮＡＳ（Network Attached Storage）、ファイルサーバ等であってもよい。

【0176】

出力Ｉ／Ｆ１０６０は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインターフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力Ｉ／Ｆ１０７０は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置１０２０から情報を受信するためのインターフェースであり、例えば、ＵＳＢ等により実現される。

【0177】

また、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０はそれぞれ出力装置１０１０及び入力装置１０２０と無線で接続してもよい。すなわち、出力装置１０１０及び入力装置１０２０は、ワイヤレス機器であってもよい。

【0178】

また、出力装置１０１０及び入力装置１０２０は、タッチパネルのように一体化していてもよい。この場合、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０も、入出力Ｉ／Ｆとして一体化していてもよい。

【0179】

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。

【0180】

ネットワークＩ／Ｆ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

【0181】

演算装置１０３０は、出力Ｉ／Ｆ１０６０や入力Ｉ／Ｆ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

【0182】

例えば、コンピュータ１０００がサーバ装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器から取得したプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。

【0183】

〔９．その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

【0184】

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0185】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

【0186】

例えば、上述したサーバ装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。

【0187】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0188】

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

【符号の説明】

【0189】

１情報処理システム
１０端末装置
１２表示部
１３入力部
３３Ａ受付部
３３Ｂ検索部
３３Ｃ表示制御部
１００サーバ装置
１１０通信部
１２０記憶部
１３０制御部
１３１取得部
１３２設定部
１３３構築部
１３４画像生成部
１３５提供部

【要約】

【課題】コーディネート全体として調和の高い情報を提供する。
【解決手段】本願に係る情報処理装置は、ノイズ画像からアイテム画像を生成する画像生成部を備え、画像生成部は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成することを特徴とする。また、本願に係る情報処理装置は、ノイズ画像から生成されたアイテム画像を表示する表示部を備え、表示部は、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示することを特徴とする。
【選択図】図１