IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社スタートトゥデイの特許一覧

特許7746503情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図5
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図6
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図7
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図8
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図9
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-09-19
(45)【発行日】2025-09-30
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06T 11/00 20060101AFI20250922BHJP
   G06F 16/532 20190101ALI20250922BHJP
   G06T 5/60 20240101ALI20250922BHJP
   G06N 3/0475 20230101ALI20250922BHJP
   G06Q 50/10 20120101ALI20250922BHJP
【FI】
G06T11/00
G06F16/532
G06T5/60
G06N3/0475
G06Q50/10
【請求項の数】 15
(21)【出願番号】P 2024179863
(22)【出願日】2024-10-15
【審査請求日】2024-10-15
(73)【特許権者】
【識別番号】505300841
【氏名又は名称】株式会社ZOZO
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】古澤 拓也
(72)【発明者】
【氏名】後藤 亮介
(72)【発明者】
【氏名】斎藤 侑輝
【審査官】鈴木 肇
(56)【参考文献】
【文献】特開2020-098521(JP,A)
【文献】韓国公開特許第10-2019-0109652(KR,A)
【文献】特表2022-515617(JP,A)
【文献】特許第7550264(JP,B1)
【文献】韓国公開特許第10-2017-0096971(KR,A)
【文献】中国特許出願公開第110909754(CN,A)
【文献】中国特許出願公開第111861672(CN,A)
【文献】中国特許出願公開第113298906(CN,A)
【文献】米国特許第11645837(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 18/00-18/40
G06N 3/00-99/00
G06Q 50/00-50/20
G06Q 50/26-99/00
G06T 1/00- 1/40
G06T 3/00- 5/94
G06T 11/00-19/20
(57)【特許請求の範囲】
【請求項1】
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像をそれぞれとの調和を考慮して生成する画像生成部を備える
ことを特徴とする情報処理装置。
【請求項2】
画像生成条件を設定する設定部を備え、
前記画像生成部は、前記設定された画像生成条件に従って、アイテム画像を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
1つ以上の固定アイテム画像を取得する取得部を備え、
前記画像生成部は、ノイズ画像からアイテム画像を生成する際に、前記取得された固定アイテム画像との調和も考慮して生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
1つ以上の編集前アイテム画像を取得する取得部と、
画像編集条件を設定する設定部と、
を備え、
前記画像生成部は、前記設定された画像編集条件に従って、前記取得された編集前アイテム画像からノイズ画像を経てアイテム画像を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する構築部を備え、
前記画像生成部は、前記構築された拡散モデルを用いて、アイテム画像を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項6】
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いてコーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から生成された個々のアイテム画像を提供することで、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を提供する提供部を備える
ことを特徴とする情報処理装置。
【請求項7】
前記提供されたアイテム画像をクエリ画像として、アイテム又はコーディネートといったコンテンツを検索する検索処理部を備え、
前記提供部は、前記検索されたコンテンツを提供する、
ことを特徴とする請求項6に記載の情報処理装置。
【請求項8】
画像生成条件を取得する取得部を備え、
前記提供部は、前記取得された画像生成条件に従って生成されたアイテム画像を提供する、
ことを特徴とする請求項6に記載の情報処理装置。
【請求項9】
1つ以上の編集前アイテム画像と画像編集条件とを取得する取得部を備え、
前記提供部は、前記取得された画像編集条件に従って、前記取得された編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を提供する、
ことを特徴とする請求項6に記載の情報処理装置。
【請求項10】
前記検索処理部は、前記提供された複数のアイテム画像を複数のクエリ画像として、それぞれアイテムを検索し、
前記提供部は、前記検索されたそれぞれのアイテムを提供する、
ことを特徴とする請求項7に記載の情報処理装置。
【請求項11】
前記検索処理部は、前記提供された複数のアイテム画像のうち、ユーザが指定したアイテム画像をクエリ画像として、アイテムを検索し、
前記提供部は、前記検索されたアイテムを提供する、
ことを特徴とする請求項7に記載の情報処理装置。
【請求項12】
情報処理装置が実行する情報処理方法であって、
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像をそれぞれとの調和を考慮して生成する画像生成工程を含む
ことを特徴とする情報処理方法。
【請求項13】
情報処理装置が実行する情報処理方法であって、
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いてコーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から生成された個々のアイテム画像を提供することで、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を提供する提供工程を含む
ことを特徴とする情報処理方法。
【請求項14】
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する画像生成手順
をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項15】
ノイズを含むノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いてコーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から生成された個々のアイテム画像を提供することで、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を提供する提供手順
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、ファッションコーディネートを生成するための技術が知られている。例えば、所定のルールに基づいて、ファッションのコーディネートを生成する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-235528号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、全てのアイテムの調和具合に基づいてコーディネートを生成することができないため、コーディネート全体として調和の高い情報を提供することができなかった。
【0005】
本願は、上記に鑑みてなされたものであって、コーディネート全体として調和の高い情報を提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、ノイズ画像から当該ノイズを除去してアイテム画像を生成するように学習が行われた拡散モデルによって実現されたニューラルネットワークを複数有する画像生成モデルを用いて、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のノイズ画像から個々のアイテム画像を生成することで、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する画像生成部を備えることを特徴とする。
【発明の効果】
【0007】
実施形態の一態様によれば、コーディネート全体として調和の高い情報を提供することができるという効果を奏する。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係る情報処理システムの概要を示す説明図である。
図2図2は、サーバ装置が調和を考慮して画像を生成する際に用いる画像生成モデルUNの構成例を示す図である。
図3図3は、画像生成条件を指定するためのUIの第1の例を示す図である。
図4図4は、画像生成条件を指定するためのUIの第2の例を示す図である。
図5図5は、Outfit Diffusionのアーキテクチャの設計思想の概要を示す説明図である。
図6図6は、コーディネートの結果の例を示す図である。
図7図7は、実施形態に係る端末装置の構成例を示す図である。
図8図8は、実施形態に係るサーバ装置の構成例を示す図である。
図9図9は、実施形態に係る処理手順を示すフローチャートである。
図10図10は、ハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と記載する)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.情報処理システムの概要〕
まず、図1を参照し、実施形態に係る情報処理システムの概要について説明する。図1は、実施形態に係る情報処理システムの概要を示す説明図である。図1に示すように、実施形態に係る情報処理システム1は、端末装置10とサーバ装置100とを含む。これらの各種装置は、ネットワークNを介して、有線又は無線により互いに通信可能に接続される。これにより、端末装置10は、サーバ装置100と連携可能である。ネットワークNは、例えば、LAN(Local Area Network)や、インターネット等のWAN(Wide Area Network)である。
【0011】
端末装置10は、利用者U(ユーザ)によって使用される情報処理装置である。例えば、端末装置10は、スマートフォン(スマホ)やタブレット端末等のスマートデバイス、フィーチャーフォン(ガラケー・ガラホ)等の携帯電話、PC(Personal Computer)、PDA(Personal Digital Assistant)、通信機能を備えたゲーム機やAV機器、情報家電・デジタル家電、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ、スマートグラス等のウェアラブルデバイス(Wearable Device)等である。また、端末装置10は、IOT(Internet of Things)に対応した住宅・建物、車、家電製品、電子機器等であってもよい。
【0012】
本実施形態では、端末装置10は、利用者Uにより使用されるスマートフォンやタブレット端末等のスマートデバイスであり、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation:第5世代移動通信システム)等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置10は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者Uから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作としてもよい。また、端末装置10は、スマートデバイスのみならず、デスクトップPC(Personal Computer)やノートPC等の情報処理装置であってもよい。
【0013】
また、かかる端末装置10は、LTE、4G、5G等の無線通信網や、Bluetooth(登録商標)、又は無線LAN(Local Area Network)等の近距離無線通信を介してネットワークNに接続し、サーバ装置100と通信することができる。
【0014】
サーバ装置100は、例えばPCやブレードサーバ(blade server)等のコンピュータ、あるいはメインフレーム又はワークステーション等である。なお、サーバ装置100は、クラウドコンピューティングにより実現されてもよい。
【0015】
本実施形態では、サーバ装置100は、各利用者Uの端末装置10と連携し、各利用者Uの端末装置10に対して、各種アプリケーション(以下、アプリ)等に対するAPI(Application Programming Interface)サービス等と、各種データを提供する情報処理装置であり、コンピュータやクラウドシステム等により実現される。
【0016】
また、サーバ装置100は、各利用者Uの端末装置10に対して、オンラインで何らかのWebサービスを提供する情報処理装置であってもよい。例えば、サーバ装置100は、Webサービスとして、インターネット接続、検索サービス、SNS(Social Networking Service)、電子商取引(EC:Electronic Commerce)、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報等のサービスを提供してもよい。実際には、サーバ装置100は、上記のようなWebサービスを提供する各種サーバと連携し、Webサービスを仲介してもよいし、Webサービスの処理を担当してもよい。
【0017】
なお、サーバ装置100は、利用者Uに関する利用者情報を取得可能である。例えば、サーバ装置100は、利用者情報として、利用者Uの性別、年代、居住地域といった利用者Uの属性に関する情報(属性情報)を取得する。また、サーバ装置100は、利用者Uのデモグラフィック(人口統計学的属性)、サイコグラフィック(心理学的属性)、ジオグラフィック(地理学的属性)、ベヘイビオラル(行動学的属性)等の属性に関する情報を取得可能である。また、サーバ装置100は、利用者情報として、マーケティングの分野において利用者Uの属するセグメントやペルソナ(人物像)等を取得してもよい。そして、サーバ装置100は、利用者Uを示す識別情報(利用者ID等)とともに利用者Uの属性に関する情報(属性情報)を記憶して管理する。
【0018】
また、サーバ装置100は、利用者Uの端末装置10から、あるいは利用者ID等に基づいて各種サーバ等から、利用者Uの行動を示す各種の履歴情報(ログデータ)を取得する。例えば、サーバ装置100は、利用者Uの位置や日時の履歴である位置履歴を端末装置10から取得する。また、サーバ装置100は、利用者Uが入力した検索クエリの履歴である検索履歴を電子商取引サーバやコンテンツサーバや検索サーバ(検索エンジン)などから取得する。また、サーバ装置100は、利用者Uが閲覧したコンテンツ(ファッションアイテムやファッションコーディネートなど)の履歴である閲覧履歴を電子商取引サーバやコンテンツサーバなどから取得する。また、サーバ装置100は、利用者Uの商品購入や決済処理の履歴である購入履歴(決済履歴)を電子商取引サーバや決済処理サーバなどから取得する。また、サーバ装置100は、利用者Uのマーケットプレイスへの出品の履歴である出品履歴や販売履歴を電子商取引サーバや決済処理サーバなどから取得してもよい。また、サーバ装置100は、利用者Uの投稿の履歴である投稿履歴を口コミの投稿サービスを提供する投稿サーバやSNSサーバや電子商取引サーバなどから取得する。なお、上記の各種サーバ等は、サーバ装置100自体であってもよい。すなわち、サーバ装置100が上記の各種サーバ等として機能してもよい。
【0019】
また、図1に示す情報処理システム1に含まれる各装置の数は図示したものに限られない。例えば、図1では、図示の簡略化のため、端末装置10を1台のみ示したが、これはあくまでも例示であって限定されるものではなく、2台以上であってもよい。
【0020】
〔2.拡散モデルを用いたコーディネート画像生成〕
拡散モデル(Diffusion Model)は、生成AI(Artificial Intelligence)の一種で、対象の画像に段階的にノイズを加えて劣化させる過程(拡散過程)と、劣化の過程を遡るように段階的にノイズを除去(デノイズ)して画像を再構築していく過程(逆拡散過程)を学習させた生成モデルである。
【0021】
サーバ装置100は、拡散モデルを用いて、ノイズ画像からアイテム画像(商品画像)を生成する。例えば、サーバ装置100は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する。例えば、サーバ装置100は、コーディネートの構成要素であるアイテム間の相互作用を取り入れて個々のアイテム画像を生成する。コーディネートは、アイテムの組である。
【0022】
ここで、サーバ装置100が複数のノイズ画像から複数のアイテム画像をそれぞれとの調和を考慮して生成する処理の詳細について説明する。図1では1つのUNetであるが、実際には、生成する画像の数だけUNetが存在している。例えば、3つの画像を同時に生成する場合には、3つのUNetが存在している。各UNetについて、UNetの任意の層にSet Transformer層(“Set Transformer” layer)が組み込まれている。Set Transformer層は、他のUNetの同じ層に配置されたSet Transformer層と接続されており、各UNetのSet Transformer層の値に基づいた値を出力するように構成されている。
【0023】
図2は、サーバ装置100が調和を考慮して画像を生成する際に用いる画像生成モデルUNの構成例を示す図である。図2に示すように、画像生成モデルUNは、複数のネットワークUN1、UN2を有する。なお、実際には、画像生成モデルUNは、同時に生成する画像の数と同数のネットワークを有するが、図2に示す例では、2つのネットワークUN1、UN2を示した。
【0024】
ネットワークUN1は、ノイズ画像N1から、画像P1を生成するニューラルネットワークであり、いわゆる拡散モデルにより実現される。より具体的には、ネットワークUN1は、ノイズ画像N1と、画像を生成する対象(例えば、トップス(シャツなど)、ジャケット/アウター(コートなど)、パンツ、スカート、ワンピース、帽子、バッグ、シューズ、レッグウェア(ソックスなど)、アクセサリ(ネックレス、リング、ピアス、イヤリングなど)といったファッションアイテムのカテゴリ)を示すカテゴリ情報C1を入力すると、ノイズ画像N1から、カテゴリ情報C1が示す対象の画像(対象が撮影された画像、対象を含む画像など)を生成するように学習が行われたニューラルネットワークである。なお、このようなネットワークUN1は、いわゆる拡散モデルと呼ばれる公知技術のモデルの学習方法と同様の学習方法により実現可能である。
【0025】
ネットワークUN2は、ネットワークUNと同様に、ノイズ画像N2から、カテゴリ情報C2が示す対象の画像P2を生成するニューラルネットワークであり、いわゆる拡散モデルの学習方法により実現される。
【0026】
ここで、ネットワークUN1、UN2(以下、ネットワークUNと総称する場合がある。)は、UNetとよばれる構造を有する。例えば、ネットワークUN1は、中間層であるレイヤUN1-1、ST1-1、UN1-2、ST1-2、UN1-3、ST1-3、UN1-4、ST1-4、UN1-5、ST1-5を有する。レイヤUN1-1、UN1-2、UN1-3、UN1-4、UN1-5(以下、レイヤUN1と総称する)は、いわゆるUNetを構成するレイヤ(layer)である。図2に示すように、ネットワークUN1は、レイヤUN1-1、UN1-2、UN1-3、UN1-4、UN1-5により構成されるUNetの各レイヤの後段に、Set Transformer層であるレイヤST1-1、ST1-2、ST1-3、ST1-4、ST1-5(以下、レイヤST1と総称する)を有する構成を有する。
【0027】
また、例えば、ネットワークUN2は、中間層であるレイヤUN2-1、ST2-1、UN2-2、ST2-2、UN2-3、ST2-3、UN2-4、ST2-4、UN2-5、ST2-5を有する。レイヤUN2-1、UN2-2、UN2-3、UN2-4、UN2-5(以下、レイヤUN2と総称する)は、いわゆるUNetを構成するレイヤである。図2に示すように、ネットワークUN2は、レイヤUN2-1、UN2-2、UN2-3、UN2-4、UN2-5により構成されるUNetの各レイヤの後段に、Set Transformer層であるレイヤST2-1、ST2-2、ST2-3、ST2-4、ST2-5(以下、レイヤST5と総称する)を有する構成を有する。
【0028】
ここで、レイヤST1とレイヤST2とは、相互に接続されており、前段のレイヤ(つまりレイヤUN1、UN2)から出力された値と、接続された他のレイヤが受け付けた値とに基づいて算出された値を出力するように学習が行われるアテンションレイヤである。例えば、レイヤST1-1は、レイヤUL1-1が出力した値を受け付ける。また、レイヤST2-1は、レイヤUL2-1が出力した値を受け付ける。このような場合、レイヤST1-1は、レイヤUL1-1から受け付けた値のみならず、レイヤST2-1がレイヤUL2-1から受け付けた値を考慮して、出力する値の算出を行う。同様に、レイヤST2-1は、レイヤUL2-1から受け付けた値のみならず、レイヤST1-1がレイヤUL1-1から受け付けた値を考慮して、出力する値の算出を行う。
【0029】
同様に、レイヤST1-2~ST1-5とレイヤST2-2~ST2-5も同様に接続されており、前段のレイヤからの出力のみならず、接続されている他のレイヤが前段のレイヤから受け付けた値を考慮して出力する値を算出する。なお、ネットワークUN1、UN2以外にも、ネットワークが存在する場合、各ネットワークは同じ構造を有し、同じ位置に配置されたレイヤSTは、相互に接続されることとなる。このため、例えば、画像生成モデルUNにネットワークUN3が存在し、ネットワークUN3に、レイヤST3-1がレイヤST1-1、レイヤST2-1と同じ位置に配置されている場合、レイヤST1―1は、レイヤST1-1、レイヤST1-2、レイヤST1-3が受け付けた値をすべて考慮してレイヤST1-1が前段のレイヤから受け付けた値から出力する値を算出することとなる。
【0030】
このような複数のネットワークからなる画像生成モデルUNは、複数のノイズ画像と、複数のカテゴリ情報とから、それぞれ異なる画像を生成(復元)するように拡散モデルと同様の学習が行われることとなる。この際、学習データとして、調和がとれている複数の対象の画像群と、各対象を示す複数のカテゴリ情報とを準備することにより、画像生成モデルUNは、複数のカテゴリ情報を受け付けた際に、各カテゴリ情報が示す対象を含む画像の組であって、全体として調和がとれている複数の対象の画像群を生成することができる。
【0031】
例えば、サーバ装置100は、学習データとして、雑誌や電子商取引サイトに掲載された(すなわち、掲載者が調和がとれていると評価した)コーディネートや、SNS等に投稿された(すなわち、投稿者が調和がとれていると評価した)コーディネートや、これらコーディネートのうち、閲覧者の評価が良かった(すなわち、閲覧者も調和がとれていると評価した)コーディネートを構成する複数の商品の画像群と、各商品を示す複数のカテゴリ情報とを正解データとして取得する。また、サーバ装置100は、例えば、スタイリストなどによって人手で選択された複数の商品の画像群と、各商品を示す複数のカテゴリ情報とを、調和がとれていると評価されたコーディネートを構成する商品の画像群と、各商品を示す複数のカテゴリ情報として取得してもよい。このような手法以外にも、調和がとれていると評価されうる複数の商品について、各商品の画像と、各商品を示すカテゴリ情報とを取得するのであれば、任意の手法、任意の評価軸で収集された複数の画像と複数のカテゴリ情報との組を正解データとして取得してよい。なお、調和がとれているとは、総合的な観点で調和がとれているでもよいし、所定の観点(例えば、カラー、シルエット、サイズ、デザインなどであって、例示したものに限らない)で調和がとれているでもよい。また、サーバ装置100は、学習データとして、ブランド、カラー、シルエット、サイズ、デザイン、素材、着心地、アイテムのイメージ、ジャンル(大人カジュアルなど)、シーズン(冬コーデなど)、オケージョン(結婚式など)、年代(2000年前後のトレンドを取り入れたY2Kなど)、着用者(体型、肌色などを含む身体情報など)、いいね数、希望するコーディネートのイメージなどに関する情報を取得し、拡散モデルに学習させてもよい。
【0032】
続いて、サーバ装置100は、ある正解データについて、その正解データに含まれる各画像に段階的にノイズを加えた画像を生成する。そして、サーバ装置100は、例えば、n段階のノイズを加えた複数の画像と、複数のカテゴリ情報とを、画像生成モデルUNに入力した際に、n-1段階のノイズを加えた画像を生成するように、拡散モデルと同様の各種公知の学習手法により、画像生成モデルUNに含まれるネットワークの接続係数を修正する。このような学習を繰り返し行うことで、画像生成モデルUNは、単に複数の画像を生成するのではなく、生成する各画像に含まれる複数の対象が調和する(例えば、外観が調和する)ような画像を生成するようになる。
【0033】
そして、サーバ装置100は、このような学習が行われた画像生成モデルUNに対し、複数のノイズ画像と、画像生成を所望する複数の対象の各カテゴリを示すカテゴリ情報とを入力し、画像生成モデルUNが生成した画像を繰り返し画像生成モデルUNにカテゴリ情報とともに入力することで、カテゴリ情報が示す各対象であって、全体的に外観の調和がとれている画像(すなわち、SNSなどで評価が良いと推定されうるような画像や、スタイリストなどによって人手でコーディネートが生成されうるような画像など)を生成することができる。
【0034】
なお、サーバ装置100は、例えば、ネットワークUN1、UN2にそれぞれ固定のカテゴリの対象の画像を生成させる場合は、カテゴリ情報を入力せずともよい。例えば、ネットワークUN1が被服、ネットワークUN2が靴に対応する場合、サーバ装置100は、学習データとして、調和がとれていると評価されている被服と靴との画像の組を収集する。そして、サーバ装置100は、ノイズ画像をネットワークUN1、UN2に入力した際に、ネットワークUN1が正解データとなる被服の画像を復元し、ネットワークUN2が正解データとなる靴の画像(ネットワークUN1が復元する画像の被服と調和がとれていると評価された靴の画像)を復元するように、学習を行えばよい。このような学習が行われた画像生成モデルUNは、例えば、複数のノイズ画像を入力するだけで、調和がとれていると推定されうる被服の画像と靴の画像とを出力するようになる。
【0035】
このとき、サーバ装置100は、画像生成条件を設定してもよい。そして、サーバ装置100は、画像生成条件に従って、アイテム画像を生成する。なお、画像生成条件は、各アイテムに対する画像生成条件と、全体に対する画像生成条件とがあってもよい。例えば、各アイテムに対する画像生成条件としては、カテゴリ、ブランド、カラー、シルエット、サイズ、デザイン、素材、着心地、希望するアイテムのイメージなどを指定する画像生成条件であってもよく、例示したものに限らない。そして、画像生成条件は、特定の部分に関する画像生成条件であってもよい。例えば、襟部分に関するシルエットを指定する画像生成条件であってもよい。また、例えば、全体に対する画像生成条件としては、ジャンル(大人カジュアルなど)、シーズン(冬コーデなど)、オケージョン(結婚式など)、年代(2000年前後のトレンドを取り入れたY2Kなど)、着用者(体型、肌色などを含む身体情報など)、いいね数、希望するコーディネートのイメージなどを指定する画像生成条件であってもよく、例示したものに限らない。なお、各アイテムに対する画像生成条件として例示したものを、全体に対する画像生成条件としてもよいし、全体に対する画像生成条件として例示したものを、各アイテムに対する画像生成条件としてもよい。
【0036】
また、サーバ装置100は、1つ以上の固定アイテム画像を取得してもよい。そして、サーバ装置100は、アイテム画像を、固定アイテム画像との調和も考慮して生成する。なお、固定アイテム画像は、ユーザが所有するアイテムの画像、ユーザがお気に入り登録したアイテムの画像、ユーザが検索・閲覧したアイテムの画像などであって、コーディネートに含めたいアイテムの画像である。そして、サーバ装置100は、固定アイテム画像として、電子商取引サイトやコーディネートサイトなどに登録や投稿されている画像を取得してもよいし、ユーザがアップロードした画像を取得してもよい。
【0037】
また、サーバ装置100は、1つ以上の編集前アイテム画像を取得し、画像編集条件を設定し、画像編集条件に従って、編集前アイテム画像からノイズ画像を経てアイテム画像を生成する。具体的には、サーバ装置100は、画像編集条件に従って、編集前アイテム画像の全部又は一部(編集すべき部分ともいい、例えば、ワンピースの襟のシルエットを指定する画像編集条件であれば襟部分)にノイズを加え、そのノイズを除去してアイテム画像を生成する。なお、編集前アイテム画像は、ユーザが所有するアイテムの画像、ユーザがお気に入り登録したアイテムの画像、ユーザが検索・閲覧したアイテムの画像などであって、コーディネートに含めたいアイテムのイメージに近いアイテムの画像である。そして、サーバ装置100は、編集前アイテム画像として、電子商取引サイトやコーディネートサイトなどに登録や投稿されている画像を取得してもよいし、ユーザがアップロードした画像を取得してもよい。また、画像編集条件は、各編集前アイテムに対する画像編集条件と、全体に対する画像編集条件とがあってもよい。例えば、各編集前アイテムに対する画像編集条件としては、カテゴリ、ブランド、カラー、シルエット、サイズ、デザイン、素材、着心地、希望するアイテムのイメージなどを指定する画像編集条件であってもよく、例示したものに限らない。そして、画像編集条件は、特定の部分に関する画像編集条件であってもよい。例えば、襟部分に関するシルエットを指定する画像編集条件であってもよい。また、例えば、全体に対する画像編集条件としては、ジャンル(大人カジュアルなど)、シーズン(冬コーデなど)、オケージョン(結婚式など)、年代(2000年前後のトレンドを取り入れたY2Kなど)、着用者(体型、肌色などを含む身体情報など)、いいね数、希望するコーディネートのイメージなどを指定する画像編集条件であってもよく、例示したものに限らない。なお、各編集前アイテムに対する画像編集条件として例示したものを、全体に対する画像編集条件としてもよいし、全体に対する画像編集条件として例示したものを、各編集前アイテムに対する画像生成条件としてもよい。
【0038】
また、サーバ装置100は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する。そして、サーバ装置100は、拡散モデルを用いて、アイテム画像を生成する。
【0039】
また、利用者Uの端末装置10は、サーバ装置100と連携し、ノイズ画像から生成されたアイテム画像を表示する。例えば、利用者Uの端末装置10は、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示する。
【0040】
また、利用者Uの端末装置10は、サーバ装置100と連携し、生成されたアイテム画像をクエリ画像として表示する。その後、利用者Uの端末装置10は、表示されたクエリ画像に基づいて、コンテンツ(アイテム、コーディネート)を検索する。そして、利用者Uの端末装置10は、検索結果であるコンテンツを表示する。
【0041】
また、利用者Uの端末装置10は、利用者Uから、画像生成条件を受け付ける。なお、利用者Uの端末装置10は、利用者Uから、固定アイテム画像を受け付けてもよい。そして、利用者Uの端末装置10は、サーバ装置100と連携し、画像生成条件に従って、生成されたアイテム画像を表示する。
【0042】
また、利用者Uの端末装置10は、利用者Uから、1つ以上の編集前アイテム画像と画像編集条件とを受け付ける。そして、利用者Uの端末装置10は、サーバ装置100と連携し、画像編集条件に従って、編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を表示する。
【0043】
また、利用者Uの端末装置10は、サーバ装置100と連携し、複数のクエリ画像それぞれに基づいて、アイテムやコーディネートを検索する。また、利用者Uの端末装置10は、検索結果を表示する。
【0044】
また、利用者Uの端末装置10は、サーバ装置100と連携し、複数のクエリ画像のうち、利用者Uが指定したクエリ画像に基づいて、アイテムを検索する。利用者Uの端末装置10は、検索結果を表示する。
【0045】
例えば、図1に示すように、サーバ装置100は、ネットワークNを介して、利用者Uの端末装置10から、画像生成条件を受け付け、画像生成条件を設定する(ステップS1)。このとき、利用者Uの端末装置10は、画像生成条件を指定するためのUI(User Interface)を表示する。
【0046】
図3及び図4を参照して、画像生成条件を指定するためのUIのイメージについて説明する。図3は、画像生成条件を指定するためのUIの第1の例を示す図である。図4は、画像生成条件を指定するためのUIの第2の例を示す図である。
【0047】
図3及び図4に示すように、画像生成条件や画像編集条件を指定するためのUIには、テキスト入力欄TXと、条件設定ボタンB1(画像生成ボタンともいう)と、アイテム画像表示欄IMGと、カテゴリ等選択欄CSと、アイテムを固定する設定を行うアイテム固定のチェックボックスCBと、アイテム検索ボタンB2と、アイテム検索結果表示欄SRとが設けられている。
【0048】
テキスト入力欄TXは、画像生成条件や画像編集条件をテキスト入力するための欄である。なお、画像生成条件として、テキスト入力欄TXにプロンプト(Prompt:指示文)を入力してもよい。条件設定ボタンB1は、ユーザにより押下されると、入力されたテキストや、選択されたカテゴリ等を画像生成条件や画像編集条件として設定する。そして、その画像生成条件や画像編集条件に従って、アイテム画像が生成される。
【0049】
アイテム画像表示欄IMGは、アイテム画像を登録するための欄である。また、生成されたアイテム画像を表示するための欄である。登録されるアイテム画像は、コーディネートに含めたいアイテムのアイテム画像(固定アイテム画像)であったり、コーディネートに含めたいアイテムのイメージに近く、編集を行う前のアイテムのアイテム画像(編集前アイテム画像)である。本実施形態では、複数のアイテム画像が登録される。このとき、1つのアイテム画像表示欄IMGに、1つのアイテム画像が表示される。また、ユーザにより条件設定ボタンB1が押下されると、アイテム画像表示欄IMGに、新たに又は編集前アイテム画像に代えて、生成されたアイテム画像が表示される。このとき、1つのアイテム画像表示欄IMGに、1つのアイテム画像が表示される。そして、アイテム画像表示欄IMGに表示されたアイテム画像がクエリ画像となる。
【0050】
カテゴリ等選択欄CSと、アイテム固定のチェックボックスCBとは、それぞれアイテムの画像の数だけ存在する。すなわち、アイテム画像表示欄IMGの数だけ存在する。なお、アイテム画像表示欄IMGの数は、利用者Uが増やすことができる。
【0051】
カテゴリ等選択欄CSは、生成したいアイテムのカテゴリ等(画像生成条件や画像編集条件)を選択するための欄である。アイテムのカテゴリ等を指定した場合には、ユーザにより条件設定ボタンB1が押下された際に、指定したカテゴリ等に従って、アイテム画像が生成される。反対に、アイテムのカテゴリ等を指定しない場合には、カテゴリ等に関係なくランダム(無作為)にアイテム画像が生成される。なお、アイテムのカテゴリ等を指定しない場合であっても、テキスト入力欄TXにテキスト入力されている場合には、そのテキスト入力に従って、アイテム画像が生成される。
【0052】
アイテム固定のチェックボックスCBは、アイテムを固定する設定を行うための構成であり、アイテム固定のチェックボックスCBをチェックしてアイテムを固定した場合、対応するアイテム画像は固定アイテム画像となり、コーディネート内においてそのアイテムは固定され不変となる。すなわち、コーディネート内のアイテムの編集を行う際に他のアイテムの画像に変更されなくなる。なお、チェックボックス以外にも、ラジオボタン等の他の構成を用いてもよい。
【0053】
アイテム検索ボタンB2は、ユーザにより押下されると、アイテム画像表示欄IMGに表示されたクエリ画像を用いて、アイテムの検索を行う。検索結果は、アイテム検索結果表示欄SRに表示される。アイテム検索結果表示欄SRは、図3の例ではアイテムの画像ごとに存在している(アイテムの画像の数と同数である)が、図4の例ではアイテムの画像全体で(コーディネート単位で)1つにまとめられている。
【0054】
なお、アイテム検索結果表示欄SRに表示されたアイテム画像をアイテム画像表示欄IMGに登録することで、そのアイテム画像を次の固定アイテム画像や編集前アイテム画像にすることができる。このとき、コーディネート単位で、コーディネート内のアイテム画像を全てアイテム画像表示欄IMGに登録することも可能である。
【0055】
なお、図3及び図4では、テキスト入力欄TXと、条件設定ボタンB1と、アイテム画像表示欄IMGと、カテゴリ等選択欄CSと、チェックボックスCBとが1組分設けられているが、複数組分設けられていてもよい。また、テキスト入力欄TXと、条件設定ボタンB1と、カテゴリ等選択欄CSと、チェックボックスCBとのいずれか1つ以上は、複数組で共通のものとして設けられていてもよい。すなわち、画像生成条件や画像編集条件を組ごとに変えて、アイテム画像を生成させてもよいし、画像生成条件や画像編集条件を複数の組で同じにして、アイテム画像を生成させてもよい。そして、ユーザは、複数のアイテム画像の組のうち、気に入ったアイテム画像の組を選択し、それらをクエリ画像としてアイテム検索させてもよい。
【0056】
続いて、サーバ装置100は、複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する(ステップS2)。なお、ステップS2は、ステップS1よりも前に実行されてもよい。
【0057】
続いて、サーバ装置100は、拡散モデルを用いて、ノイズ画像からアイテム画像を生成する(ステップS3)。このとき、サーバ装置100は、1つ以上の固定アイテム画像を取得し、画像生成条件や画像編集条件に従って固定アイテム画像との調和を考慮してアイテム画像を生成し、利用者Uの端末装置10に表示する。あるいは、サーバ装置100は、1つ以上の編集前アイテム画像を取得し、画像編集条件に従って編集前アイテム画像からノイズ画像を経てアイテム画像を生成し、利用者Uの端末装置10に表示する。
【0058】
続いて、サーバ装置100は、生成されたアイテム画像や固定アイテム画像をクエリ画像の候補として利用者Uの端末装置10に表示する(ステップS4)。なお、生成されたアイテム画像が気に入らない場合は、再度、画像生成条件や画像編集条件を指定して、アイテム画像を生成させてもよいし、同じ画像生成条件や画像編集条件で、再度、アイテム画像を生成させてもよい。また、生成されたそれぞれのアイテム画像のうち、気に入ったアイテム画像がある場合は、そのアイテム画像を固定して、他のアイテム画像を生成させてもよい。
【0059】
続いて、サーバ装置100は、複数のクエリ画像それぞれに基づいて、又は複数のクエリ画像のうち、利用者U(ユーザ)が指定したクエリ画像に基づいて、アイテムを検索し、利用者Uの端末装置10に検索結果を表示する(ステップS5)。
【0060】
〔2-1.コーディネートを考慮したアイテム画像生成〕
従来、入力された複数のアイテム群同士の相性度を示すセットマッチングスコア(SetMatchingscore)を出力するセットマッチングモデルを用いたコーディネートの提案が行われている。しかしながら、セットマッチングモデルに入力されるアイテムの特徴量(実際のアイテムを抽出する特徴量でもある)は人間には理解できない。そのため、提案したコーディネートをユーザが気に入っていない場合、アイテムの特徴量がユーザに適したものではないのか(アイテムの特徴量を変えるべきなのか)、アイテムの特徴量に基づいて抽出した実際のアイテムがユーザに適したものではないのか(アイテムの特徴量を変えずに、抽出する実際のアイテムを変えるべきなのか)がわからず、真に理想的なコーディネートを提案できないおそれがあった。
【0061】
本実施形態では、サーバ装置100は、実際のアイテムを検索する前に、検索に用いられるアイテム画像(クエリ画像)を生成することで、アイテムの特徴量を可視化することができ、真に理想的なコーディネートを提案することができる。また、サーバ装置100は、可視化しながらインタラクティブにアイテム画像の生成・編集ができる。
【0062】
そのためには、以下の二つの性質を満たすアーキテクチャ(architecture)が必要となる。
・コーディネート内のアイテムの入れ替え対称性
・アイテムの画像のパッチに対する可変性
【0063】
そこで、図1に示すように、拡散モデルのUNetにSet Transformer層(“Set Transformer” layer)を追加し、コーディネート内のアイテム間の相互作用を取り入れる。UNetは、FCN(fully convolution network)の1つであり、画像のセグメンテーション(物体がどこにあるか)を推定するためのネットワークである。Set Transformerの層(“Set Transformer” layer)は主に以下の(A)、(B)の2つからなる。
【0064】
(A)SA+FF(SelfAttention + FeedForward)
height、widthについて和をとり、SelfAttentionを計算することで、コーディネートのアイテム間の相互作用を計算する。
【0065】
(B)CA+FF(CrossAttention + FeedForward)
SA+FFのアウトプットと元の画像のCrossAttentionを計算することで、コーディネートのアイテム間の相互作用を反映した、アイテム画像の変換が行われる。
【0066】
また、応用として、サーバ装置100は、カテゴリなどの条件(condition)を入れてコーディネートを生成する。条件(condition)として入れられそうなものとして、例えば、カテゴリ、ブランド、色、時間、素材、ZOZOTOWN(登録商標)上の利用シーン、コーディネートの説明文、各アイテムの説明文、場所・旅行先・シーン、User情報(ユーザクラスタ・閲覧履歴)、いいね数、等が考えられる。ただし、実際には、これらの例に限定されない。このとき、サーバ装置100は、以下のような情報処理を行うことができる。
【0067】
(1)アイテム検索
サーバ装置100は、ユーザが実際に持っているアイテムの画像に基づいて、検索対象のアイテムの画像を生成する。ユーザが実際に持っているアイテムの画像の取得については、ユーザから持っているアイテムの画像の登録を受け付けてもよいし、過去の購入履歴等に含まれているアイテム(購入した記録のあるアイテム)の画像を抽出してもよい。すなわち、サーバ装置100は、固定アイテム画像や編集前アイテム画像に基づいて、1つ以上のアイテム画像(クエリ画像)を生成することができる。これにより、サーバ装置100は、ユーザが実際に持っているアイテムの着回し方の提案や、調和性の高いアイテムの検索を行うことができるようになる。また、画像生成の利点として、アイテム検索に用いられるクエリ画像を可視化できる。
【0068】
そして、サーバ装置100は、検索対象のアイテムの画像を生成した後、ユーザインタラクションとして、ユーザに検索に用いられるクエリ画像となる画像を提示して「このクエリでいいですか?」等の確認・問い合わせを行う。具体的には、サーバ装置100は、アイテム画像表示欄IMGに生成されたアイテム画像などを表示するとともに、「このクエリでいいですか?」等の確認・問い合わせを行う。あるいは、サーバ装置100は、ユーザから、カラーイメージ、Vネックなどのアトリビュート(attribute:属性)の指定を受け付け(ユーザから画像生成条件や画像編集条件を受け付け)、それに従ってクエリ画像となる画像を生成してもよい。また、サーバ装置100は、生成されたそれぞれの画像をユーザに提示して、その中からクエリ画像となる画像をユーザに選択してもらうようにしてもよい。
【0069】
(2)架空のアイテムの仮想試着
サーバ装置100は、アイテム画像を生成したのち、別手法の仮想試着などでスナップ写真を生成する。具体的には、サーバ装置100は、生成された1つ以上のアイテム画像と、ユーザ画像とに基づいて、ユーザが生成された1つ以上のアイテムを着用している画像を生成する。なお、サーバ装置100は、固定アイテム画像が設定されている場合は、ユーザが固定アイテムも着用している画像を生成する。これによって、検索されるアイテムのイメージを持ちながら、生成されたアイテム画像がクエリ画像として適切かをユーザが判断することができる。
【0070】
(3)アイテム検索、コーディネート検索
サーバ装置100は、類似アイテム検索や類似コーディネート検索の技術を組み合わせて実際のアイテムやコーディネートを検索する。具体的には、サーバ装置100は、生成された各アイテム画像や生成されたコーディネート画像(生成された各アイテム画像を組み合わせることで生成されたコーディネート画像を含む)も分散表現空間に埋め込み、分散表現空間におけるベクトルの類似性に基づいて、実際のアイテムのアイテム画像や実際のアイテムを用いたコーディネート画像を検索する。
【0071】
(4)いいね数向上
サーバ装置100は、コーディネートを構成する複数のアイテムの一部又は全部のアイテム画像を生成して、「これを着たらよりいいね数が増えます」とユーザに提案する。具体的には、サーバ装置100は、画像生成条件や画像編集条件として、ユーザが希望するいいね数や、いいね数が増えそうなコーディネートというようなテキストを受け付け、ユーザが希望するいいね数が獲得できそうなコーディネートや、いいね数が増えそうなコーディネートを構成する複数のアイテムの一部又は全部のアイテム画像を生成するとともに、「これを着たらよりいいね数が増えます」とユーザに提案する。そして、いいね数が増えそうなアイテムやコーディネートを検索できそうなクエリ画像であるかを、アイテム検索前にユーザが判断することができる。なお、サーバ装置100は、学習データとして、いいね数ごとのコーディネートを構成する複数のアイテムの画像群と、各アイテムを示す複数のカテゴリ情報とを正解データとして取得して、拡散モデルを学習させる。
【0072】
(5)予測・流行関連
サーバ装置100は、流行分析として、「現在なにが流行っているか」や「〇〇年に流行っていたコーディネート」といったプロンプト(Prompt:指示文)に応じた生成画像の平均画像的なものを生成する。例えば、サーバ装置100は、GAN(Generative Adversarial Networks:敵対的生成ネットワーク)のinterpolation的な処理を行う。これにより、例えば大人カジュアルの平均画像の時間的変遷を知ることができる。
【0073】
また、サーバ装置100は、次に求められるアイテムの画像を生成する。例えば、サーバ装置100は、情報源として、どういう画像がよく生成されているか、どういうニュースがあったときに、どんなものが売れるか、というものに基づいて、未来のニュースを予測してアイテムの画像を生成する。
【0074】
また、サーバ装置100は、2000年っぽいコーディネートや、2025年(未来)に流行りそうなコーディネートというような画像生成条件や画像編集条件を受け付け、各アイテム画像を生成する。一般的には、ファッションのトレンドは20年周期とも言われており、過去のトレンドを学習することによって、未来のトレンドを反映したコーディネートも提案することができる。なお、サーバ装置100は、学習データとして、年代ごとのコーディネートを構成する複数のアイテムの画像群と、各アイテムを示す複数のカテゴリ情報とを正解データとして取得して、拡散モデルを学習させる。
【0075】
(6)パーソナライズ
サーバ装置100は、個々のユーザについて、個人ごとにネガティブプロンプトを学習していく。
【0076】
(7)コーディネートの生成
サーバ装置100は、ユーザが実際に持っているアイテムをもとにコーディネートを生成する。そして、サーバ装置100は、生成結果をもとにZOZOTOWN(登録商標)内を画像検索する。インタラクティブにもできる点が集合検索との違いである。具体的には、サーバ装置100は、ユーザが実際に持っている2つ以上のアイテムの画像(編集前アイテム画像)を取得し、取得された2つ以上のアイテムの画像それぞれからクエリ画像を生成する。そして、サーバ装置100は、生成された2つ以上のクエリ画像を用いて、実際の2つ以上のアイテムの画像を検索して表示する。
【0077】
(8)コーディネート内のアイテムの編集
サーバ装置100は、コーディネート内のアイテムの編集を行う。このとき、サーバ装置100は、インタラクティブな編集を行う。編集の方向性としては、例えば「1990年代のアイテム画像を使ったコーディネートを今っぽく(現代風に)したらどうなるか?」等の方向性であってもよい。具体的には、サーバ装置100は、コーディネートを構成する1990年代の2つ以上のアイテムの画像(編集前アイテム画像)と、2024年っぽいコーデという画像編集条件(とを取得し、画像編集条件に従って、取得された2つ以上のアイテムの画像それぞれから、それぞれとの調和を考慮しながら新たなアイテムの画像を生成する。
【0078】
また、サーバ装置100は、画像編集条件として取得された特定のタグ(大人カジュアルなどのスタイル情報)に従って、コーディネート内のアイテムの編集を行ってもよい。また、サーバ装置100は、ユーザに似合うことを示すために、いいね数が増える方向のコーディネートである旨を表示する。
【0079】
また、サーバ装置100は、「古いアイテム(e.g. 2019年)にどのようなアイテムを加えたら今(e.g. 2024年)っぽくなるか?」といった観点でコーディネートの生成を行う(Fill in the n blanks)。具体的には、サーバ装置100は、2019年の1つ以上のアイテムの画像(固定アイテム画像)と、2024年っぽいコーデという画像生成条件とを取得し、画像生成条件に従って、固定アイテム画像との調和を考慮しながら追加すべきアイテムの画像を生成する。アイテムの360度画像を1つの組(set)とみなすことで、360度一貫した(consistentな)アイテムの生成・編集が可能になる。
【0080】
(9)新しい検索の形
本実施形態により、新しい検索の形が作れるのではないかと期待できる。例えば、ユーザが検索ワード(画像生成条件や画像編集条件)を入れる、自分の持っている商品(固定アイテム画像や編集前アイテム画像)を元にワンクリックレコメンド、等をした時に「こんな画像がイメージに近いですか?」と複数の画像(生成されたクエリ画像)が候補として出てきて、その中から選ぶ形の検索方式が実現できる(選択されたクエリ画像と類似する実際のアイテムの画像を検索できる)。
【0081】
(10)自作アバター作成の補助
サーバ装置100は、自作アバター作成の補助を行うこともできる。例えば、ゲーム等で自分のアバターが着る服を作る機能があるが、一から作るのは面倒なので文章(画像生成条件)からコーディネート(それぞれとの調和を考慮して生成された複数のアイテム画像から成るコーディネート画像)を作れると便利である。コーディネートが気に入らない場合は、その後にユーザが自分で細かい部分を修正できるようにしてもよい(生成されたアイテム画像を編集前アイテム画像とし、画像編集条件に従って、再度、アイテム画像を生成できるようにしてもよい)。また、ユーザ(自分)が現実に着ている衣装等をアバターに着させることができる。
【0082】
このように、サーバ装置100は、拡散モデルを使ってノイズから商品画像を生成する。特に、サーバ装置100は、Set Transformerによるアイテム間の相互作用を計算して、条件として設定したアイテムに相性の良さそうな画像を生成する。これにより、コーディネートの欠損を埋めることができる。また、コーディネートを制限なく無数に生成してみることも可能となる。
【0083】
なお、生成される対象は、アイテムの画像に限らない。例えば、サーバ装置100は、アイテムの画像に限らず、スナップ写真(コーディネートの画像、アイテムを着用している画像、コーディネートを着用している画像など)を生成するようにしてもよい。SNS等で特定の投稿者が投稿するスナップ写真は好みが似ているので調和している。例えば、サーバ装置100は、特定の投稿者が投稿するような複数のスナップ写真を生成してもよい。具体的には、サーバ装置100は、特定の投稿者が投稿した複数のスナップ写真が学習データとして学習された拡散モデルを用いて、ノイズ画像から複数のスナップ写真をそれぞれとの調和を考慮しながら生成してもよい。
【0084】
また、サーバ装置100は、スコア出力モジュールの追加を行い、マッチ度合い・似合う度合いを測れるようにしてもよい。
【0085】
また、サーバ装置100は、他のモデルとの組み合わせにより、セットマッチングのスコアが高まるようなアイテム集合を生成してもよい。また、サーバ装置100は、FashionGPTとの組み合わせによりアイテム集合を生成してもよい。
【0086】
〔2-2.Outfit Diffusionのアーキテクチャの設計思想〕
満たすべき性質は、以下の3つである。
(a)コーディネート内のアイテムの入れ替え対称性(商品画像の順序に寄らない)
(b)コーディネート内のアイテム数に対する可変性(コーディネートを構成する商品画像の枚数を任意に設定したい)
(c)アイテムの画像のパッチに対する可変性(StableDiffusionのようにHeightとWidthを任意に設定したい)
【0087】
以下のように処理が行われれば、上記の3つ(上記(a)~(c))を満たすことができる。
【0088】
(1)商品画像の特徴量の入力
サーバ装置100は、コーディネートを構成する商品画像の特徴量の入力を受け付ける。各商品の特徴量の形状は画像のような形(Height,Width,Channel)である。例えば、画像特徴はバッチサイズ×系列長×特徴次元の立体のような形で表現される。
【0089】
(2)全体的な特徴を表す特徴量の作成
サーバ装置100は、各商品画像のパッチ状の特徴量から、各商品の全体的な特徴を表す特徴量を作成する(画像ごとの変換)。
【0090】
例えば、特徴量の作成方法としては、以下の方法などが考えられる。
・Vision Transformer(ViT)のようにclassifier tokenを使用する方法
・Q-former(クエリ変換器)を使用する方法
・単にpatchごとの特徴量についてHeight、Widthに対する和を取る方法
【0091】
(3)入れ替え対称性を考慮した特徴量への変換
サーバ装置100は、上記(2)で得られた特徴量を入れ替え対称性を考慮した特徴量に変換する(コーディネート全体に対する変換)。典型的には、SA+FF(SelfAttention + FeedForward)である。これであれば、上記(a)と上記(b)を満たすことができる。また、コーディネート内の他商品の特徴量を参考に変換し、自然なコーディネートになる商品画像の全体的な特徴を取得する。
【0092】
(4)入力特徴量の変換
サーバ装置100は、画像ごとに、上記(3)で得られた特徴量に基づき、入力特徴量を変換する(画像ごとの変換)。典型的には、CA+FF(CrossAttention + FeedForward)である。これであれば、上記(c)の性質を満たすことができる。
【0093】
(5)商品画像の特徴量の出力
サーバ装置100は、変換された商品画像の特徴量を出力する。
【0094】
上記の内容を図にすると図5のような形になる。図5は、Outfit Diffusionのアーキテクチャの設計思想の概要を示す説明図である。
【0095】
例えば、図5に示すように、サーバ装置100は、ST部(Set Transformer module)のQF(Q-Former)を利用して、各画像の特徴量を抽出する(ステップS11)。例えば、サーバ装置100は、QF(Q-Former)に商品画像を入力(input)することで、商品画像の全体的な特徴を抽出する。QF(Q-Former)は、画像変換器とテキスト変換器との2つのサブモジュールからなるが、今回は画像変換器において、入力画像を受け付けた画像エンコーダ(Image Encoder)と対話して視覚特徴を抽出する。
【0096】
続いて、サーバ装置100は、抽出された商品画像の全体的な特徴について、ST部のSA+FF(SelfAttention + FeedForward)を利用して、コーディネート性を考慮した変換を行う(ステップS12)。
【0097】
続いて、サーバ装置100は、ST部のCA+FF(CrossAttention + FeedForward)を利用して、コーディネート性を考慮した特徴量をもとに、元々の商品画像を変換する(ステップS13)。
【0098】
図6は、コーディネートの結果の例を示す図である。本実施形態の実施結果として、(1)IQQN3000のコーディネートをベースに、(2)カテゴリが同一のコーディネートを生成したもの、(3)Fill in the n blanksにより帽子・ピアス・コート・スカートをノイズ画像から生成したもの、(4)コーディネート編集したもの、(5)一部コーディネート編集したものを示す。元々のコーディネートである(1)はモノトーンのコーディネートであるが、(2)のコーディネートでは、各アイテムのカテゴリを維持したまま(各アイテムに対する画像編集条件として、元々のカテゴリを設定し)、調和する各アイテム(シューズ、帽子、ピアス、コート、スカート、手袋、セーター)をノイズ画像から生成している。一例として、コートが黒色から水色にものに、スカートが黒色から茶色のものに変更されている。(3)のコーディネートでは、元々のシューズと手袋とセーターとを固定し、他の各アイテム(帽子、ピアス、コート、スカート)のカテゴリを維持したまま、それらに調和する他の各アイテムをノイズ画像から生成している。一例として、コートが青色であり、ゆったりとしたものに、スカートは紺色の柄物のものに変更されている。さらに、帽子とピアスが茶色のものに変更され、全体的な色味にアクセントが加わったコーディネートに変更されている。(4)のコーディネートや(5)のコーディネートでは、全体としてのコーディネートや各アイテムの雰囲気は維持しつつ、質感などが変更されている。
【0099】
〔2-3.補足〕
サーバ装置100は、生成した複数商品画像に基づいたコーディネートの提案を行う。サーバ装置100では、アーキテクチャとして、複数同じ接続係数のUNetがあって、これを相互通信させている。毎回画像間の特徴量をまとめている。このとき、画像間の特徴量の一部だけまとめるようにしてもよい。
【0100】
なお、サーバ装置100は、カテゴリがあらかじめ与えられていたら、最後の何回かだけにSet Transformerを入れてもよい。反対に、サーバ装置100は、カテゴリがあらかじめ与えられていなければ、最初からSet Transformerを入れる必要がある。さもなくば、例えば靴が二つ出る可能性がある。
【0101】
また、サーバ装置100は、拡散モデルと、セットマッチングモデルとを組み合わせて、アイテムの画像を生成してもよい。なお、セットマッチングモデルとは、少なくとも、第1のアイテム群(複数のアイテム画像)と、第2のアイテム群(複数のアイテム画像)とが入力されると、第1のアイテム群と第2のアイテム群との相性度を示すセットマッチングスコアを出力するように学習されたモデルである。なお、第1のアイテム群と第2のアイテム群とに加え、付加情報(例えば、各アイテムを着用するユーザのユーザ情報(例えば、体型や肌色といった身体情報を含む)など)が入力されると、第1のアイテム群と第2のアイテム群と付加情報との相性度を示すセットマッチングスコアを出力するように学習されたモデルであってもよい。また、セットマッチングモデルは、電子商取引サイト、コーディネート投稿サイト、各種SNSサイトなどに投稿されたコーディネートを着用したユーザの画像やユーザ情報を学習データ(正解データ)として学習していてもよいし、電子商取引サイト、コーディネート投稿サイト、各種SNSサイトなどに投稿されたコーディネートを着用したユーザの画像やユーザ情報のうち、閲覧者や評価者によって評価された(例えば、似合っていると評価された、調和していると評価された)画像やユーザ情報学習データ(正解データ)として学習していてもよい。すなわち、セットマッチングモデルは、入力データが正解データに近いほど、高いセットマッチングスコアを出力するように学習されていてもよい。また、サーバ装置100は、拡散モデルを用いて、ノイズ画像からアイテム画像を生成(復元)する途中の途中画像を少なくともセットマッチングモデルに入力し、セットマッチングスコアをセットマッチングモデルに出力(算出)させるとともに、セットマッチングスコアが高くなるようなアイテム画像の生成(復元)を拡散モデルにさせてもよい。ネットワークは、UNet以外にも、ControlNetであってもよい。ControlNetは、線画を作成し、線画を元に画像を生成することが可能である。線画の例としては、カテゴリに対応する線画や、ユーザが希望する線画等が考えられる。
【0102】
また、サーバ装置100は、実際に持っている画像にノイズを加えてノイズ画像を作成し、復元データを作成せずに、入力画像とこのノイズ画像との比較でノイズを除去して戻していく。
【0103】
サーバ装置100は、カテゴリを入れなくてもいいところまで復元する。サーバ装置100は、ユーザが持っているアイテム以外のアイテムを見つけ出すことができればよい。また、穴埋め的に戻してくれる機能を有する専用モデルがあってもよい。
【0104】
〔3.端末装置の構成例〕
次に、図7を用いて、端末装置10の構成について説明する。図7は、実施形態に係る端末装置10の構成例を示す図である。図7に示すように、端末装置10は、通信部11と、表示部12と、入力部13と、測位部14と、センサ部20と、制御部30(コントローラ)と、記憶部40とを備える。
【0105】
(通信部11)
通信部11は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、サーバ装置100との間で情報の送受信を行う。例えば、通信部11は、NIC(Network Interface Card)やアンテナ等によって実現される。
【0106】
(表示部12)
表示部12は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部12は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機ELディスプレイ(Organic Electro-Luminescent Display)である。また、表示部12は、タッチパネル式のディスプレイであるが、これに限定されるものではない。
【0107】
(入力部13)
入力部13は、利用者Uから各種操作を受け付ける入力デバイスである。例えば、入力部13は、文字や数字等を入力するためのボタン等を有する。なお、入力部13は、入出力ポート(I/O port)やUSB(Universal Serial Bus)ポート等であってもよい。また、表示部12がタッチパネル式のディスプレイである場合、表示部12の一部が入力部13として機能する。また、入力部13は、利用者Uから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。
【0108】
(測位部14)
測位部14は、GPS(Global Positioning System)の衛星から送出される信号(電波)を受信し、受信した信号に基づいて、自装置である端末装置10の現在位置を示す位置情報(例えば、緯度及び経度)を取得する。すなわち、測位部14は、端末装置10の位置を測位する。なお、GPSは、GNSS(Global Navigation Satellite System)の一例に過ぎない。
【0109】
また、測位部14は、GPS以外にも、種々の手法により位置を測位することができる。例えば、測位部14は、位置補正等のための補助的な測位手段として、下記のように、端末装置10の様々な通信機能を利用して位置を測位してもよい。
【0110】
(Wi-Fi測位)
例えば、測位部14は、端末装置10のWi-Fi(登録商標)通信機能や、各通信会社が備える通信網を利用して、端末装置10の位置を測位する。具体的には、測位部14は、Wi-Fi通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置10の位置を測位する。
【0111】
(ビーコン測位)
また、測位部14は、端末装置10のBluetooth(登録商標)機能を利用して位置を測位してもよい。例えば、測位部14は、Bluetooth(登録商標)機能によって接続されるビーコン(beacon)発信機と接続することにより、端末装置10の位置を測位する。
【0112】
(地磁気測位)
また、測位部14は、予め測定された構造物の地磁気のパターンと、端末装置10が備える地磁気センサとに基づいて、端末装置10の位置を測位する。
【0113】
(RFID測位)
また、例えば、端末装置10が駅改札や店舗等で使用される非接触型ICカードと同等のRFID(Radio Frequency Identification)タグの機能を備えている場合、もしくはRFIDタグを読み取る機能を備えている場合、端末装置10によって決済等が行われた情報とともに、使用された位置が記録される。測位部14は、かかる情報を取得することで、端末装置10の位置を測位してもよい。また、位置は、端末装置10が備える光学式センサや、赤外線センサ等によって測位されてもよい。
【0114】
測位部14は、必要に応じて、上述した測位手段の一つ又は組合せを用いて、端末装置10の位置を測位してもよい。
【0115】
(センサ部20)
センサ部20は、端末装置10に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置10以外の検知装置であってもよい。図7に示す例では、センサ部20は、加速度センサ21と、ジャイロセンサ22と、気圧センサ23と、気温センサ24と、音センサ25と、光センサ26と、磁気センサ27と、画像センサ(カメラ)28とを備える。
【0116】
なお、上記した各センサ21~28は、あくまでも例示であって限定されるものではない。すなわち、センサ部20は、各センサ21~28のうちの一部を備える構成であってもよいし、各センサ21~28に加えてあるいは代えて、湿度センサ等その他のセンサを備えてもよい。
【0117】
加速度センサ21は、例えば、3軸加速度センサであり、端末装置10の移動方向、速度、及び、加速度等の端末装置10の物理的な動きを検知する。ジャイロセンサ22は、端末装置10の角速度等に基づいて3軸方向の傾き等の端末装置10の物理的な動きを検知する。気圧センサ23は、例えば端末装置10の周囲の気圧を検知する。
【0118】
端末装置10は、上記した加速度センサ21やジャイロセンサ22、気圧センサ23等を備えることから、これらの各センサ21~23等を利用した歩行者自律航法(PDR:Pedestrian Dead-Reckoning)等の技術を用いて端末装置10の位置を測位することが可能になる。これにより、GPS等の測位システムでは取得することが困難な屋内での位置情報を取得することが可能になる。
【0119】
例えば、加速度センサ21を利用した歩数計により、歩数や歩くスピード、歩いた距離を算出することができる。また、ジャイロセンサ22を利用して、利用者Uの進行方向や視線の方向、体の傾きを知ることができる。また、気圧センサ23で検知した気圧から、利用者Uの端末装置10が存在する高度やフロアの階数を知ることもできる。
【0120】
気温センサ24は、例えば端末装置10の周囲の気温を検知する。音センサ25は、例えば端末装置10の周囲の音を検知する。光センサ26は、端末装置10の周囲の照度を検知する。磁気センサ27は、例えば端末装置10の周囲の地磁気を検知する。画像センサ28は、端末装置10の周囲の画像を撮像する。
【0121】
上記した気圧センサ23、気温センサ24、音センサ25、光センサ26及び画像センサ28は、それぞれ気圧、気温、音、照度を検知したり、周囲の画像を撮像したりすることで、端末装置10の周囲の環境や状況等を検知することができる。また、端末装置10の周囲の環境や状況等から、端末装置10の位置情報の精度を向上させることが可能になる。
【0122】
(制御部30)
制御部30は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部30は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路等のハードウェアで構成されてもよい。制御部30は、送信部31と、受信部32と、処理部33とを有する。
【0123】
(送信部31)
送信部31は、例えば入力部13を用いて利用者Uにより入力された各種情報や、端末装置10に搭載又は接続された各センサ21~28によって検知された各種情報、測位部14によって測位された端末装置10の位置情報等を、通信部11を介してサーバ装置100へ送信することができる。
【0124】
(受信部32)
受信部32は、通信部11を介して、サーバ装置100から提供される各種情報や、サーバ装置100からの各種情報の要求を受信することができる。
【0125】
(処理部33)
処理部33は、表示部12等を含め、端末装置10全体を制御する。例えば、処理部33は、送信部31によって送信される各種情報や、受信部32によって受信されたサーバ装置100からの各種情報を表示部12へ出力して表示させることができる。
【0126】
また、処理部33は、アプリ等を起動することで、以下に示すような、受付部33A、検索部33B、表示制御部33Cとして機能(動作)してもよい。すなわち、処理部33は、受付部33Aと、検索部33Bと、表示制御部33Cとを含む。
【0127】
(受付部33A)
受付部33Aは、入力部13を介して、利用者Uから画像生成条件を受け付ける。また、受付部33Aは、1つ以上の固定アイテム画像を受け付ける。また、受付部33Aは、1つ以上の編集前アイテム画像と画像編集条件とを受け付ける。
【0128】
(検索部33B)
検索部33Bは、通信部11を介してサーバ装置100と連携し、クエリ画像に基づいて、アイテム又はコーディネートといったコンテンツを検索する。例えば、検索部33Bは、複数のクエリ画像それぞれに基づいて、アイテムを検索する。あるいは、検索部33Bは、複数のクエリ画像のうち、ユーザが指定したクエリ画像に基づいて、アイテムを検索する。なお、検索部33Bは、受付部33Aにより受け付けた固定アイテム画像や編集前アイテム画像をクエリ画像としてもよい。
【0129】
(表示制御部33C)
表示制御部33Cは、通信部11を介してサーバ装置100と連携し、検索部33Bによる検索結果であるコンテンツを表示部12に表示する。例えば、表示制御部33Cは、複数のクエリ画像それぞれの検索結果を表示部12に表示する。あるいは、表示制御部33Cは、ユーザが指定したクエリ画像に基づく検索結果を表示部12に表示する。
【0130】
また、表示制御部33Cは、受付部33Aにより受け付けた画像生成条件に従って、生成されたアイテム画像を表示部12に表示する。また、表示制御部33Cは、受付部33Aにより受け付けた画像編集条件に従って、編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を表示部12に表示する。
【0131】
表示制御部33Cは、通信部11を介してサーバ装置100と連携し、ノイズ画像から生成されたアイテム画像を表示部12に表示する。例えば、表示制御部33Cは、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示部12に表示する。
【0132】
(記憶部40)
記憶部40は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置によって実現される。かかる記憶部40には、各種プログラムや各種データ等が記憶される。
【0133】
〔4.サーバ装置の構成例〕
次に、図8を用いて、実施形態に係るサーバ装置100の構成について説明する。図8は、実施形態に係るサーバ装置100の構成例を示す図である。図8に示すように、サーバ装置100は、通信部110と、記憶部120と、制御部130とを備える。
【0134】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークNと有線又は無線で接続される。
【0135】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD、SSD、光ディスク等の記憶装置によって実現される。記憶部120は、利用者Uを示す識別情報(利用者ID等)とともに、利用者Uの属性情報や履歴情報(ログデータ)を記憶してもよい。
【0136】
(制御部130)
制御部130は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、サーバ装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図8に示す例では、制御部130は、取得部131と、設定部132と、構築部133と、画像生成部134と、提供部135とを有する。
【0137】
(取得部131)
取得部131は、利用者U(ユーザ)により入力された検索クエリを取得する。例えば、取得部131は、利用者Uが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部110を介して、当該検索クエリを取得する。すなわち、取得部131は、通信部110を介して、利用者Uにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。
【0138】
また、取得部131は、通信部110を介して、利用者Uに関する利用者情報を取得する。例えば、取得部131は、利用者Uの端末装置10から、利用者Uを示す識別情報(利用者ID等)や、利用者Uの位置情報、利用者Uの属性情報等を取得する。また、取得部131は、利用者Uのユーザ登録時に、利用者Uを示す識別情報や、利用者Uの属性情報等を取得してもよい。そして、取得部131は、利用者情報を記憶部120に記憶する。
【0139】
また、取得部131は、通信部110を介して、利用者Uの行動を示す各種の履歴情報(ログデータ)を取得する。例えば、取得部131は、利用者Uの端末装置10から、あるいは利用者ID等に基づいて各種サーバ等から、利用者Uの行動を示す各種の履歴情報を取得する。そして、取得部131は、各種の履歴情報を記憶部120に記憶する。
【0140】
また、取得部131は、1つ以上の固定アイテム画像を取得する。また、取得部131は、1つ以上の編集前アイテム画像を取得する。例えば、取得部131は、通信部110を介して、利用者Uの端末装置10から、検索対象のクエリ画像となるアイテム画像を取得する。
【0141】
(設定部132)
設定部132は、画像生成条件を設定する。例えば、設定部132は、通信部110を介して、利用者Uの端末装置10から画像生成条件の指示を受け付け、画像生成条件を設定する。また、設定部132は、画像編集条件を設定する。例えば、設定部132は、通信部110を介して、利用者Uの端末装置10から画像編集条件の指示を受け付け、画像編集条件を設定する。
【0142】
(構築部133)
構築部133は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する。すなわち、構築部133は、機械学習により拡散モデルを生成する学習部である。
【0143】
(画像生成部134)
画像生成部134は、拡散モデルを用いて、アイテム画像を生成する。また、画像生成部134は、画像生成条件に従って、アイテム画像を生成する。
【0144】
また、画像生成部134は、ノイズ画像からアイテム画像を生成する。例えば、画像生成部134は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する。
【0145】
また、画像生成部134は、アイテム画像を、取得部131により取得された1以上の固定アイテム画像との調和も考慮して生成する。
【0146】
また、画像生成部134は、画像編集条件に従って、取得部131により取得された1以上の編集前アイテム画像からノイズ画像を経て、それぞれとの調和を考慮してアイテム画像を生成する。
【0147】
(提供部135)
提供部135は、通信部110を介して、利用者Uの端末装置10に、生成されたアイテム画像を提供する。例えば、提供部135は、通信部110を介して、利用者Uの端末装置10に、コーディネート内のアイテムの画像を提供する。また、提供部135は、通信部110を介して、利用者Uの端末装置10に、クエリ画像に基づくアイテム検索の検索結果を提供する。
【0148】
〔5.処理手順〕
次に、図9を用いて実施形態に係るサーバ装置100による処理手順について説明する。図9は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、サーバ装置100の制御部130によって繰り返し実行される。
【0149】
例えば、図9に示すように、サーバ装置100の取得部131は、1つ以上の固定アイテム画像や、1つ以上の編集前アイテム画像を取得する(ステップS101)。なお、このステップは省略されてもよい。
【0150】
続いて、サーバ装置100の設定部132は、通信部110を介して、利用者Uの端末装置10から画像生成条件や画像編集条件の指示を受け付け、画像生成条件や画像編集条件を設定する(ステップS102)。
【0151】
続いて、サーバ装置100の構築部133は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する(ステップS103)。なお、このステップは、ステップS101より前や、ステップS102より前に行われてもよい。
【0152】
続いて、サーバ装置100の画像生成部134は、画像生成条件や画像編集条件に従って、拡散モデルを用いて、ノイズ画像からアイテム画像をそれぞれとの調和を考慮しながら生成する(ステップS104)。なお、サーバ装置100の画像生成部134は、編集前アイテム画像と、画像編集条件とに従って、アイテム画像を生成する場合は、編集前アイテム画像の全部又は一部にノイズを加えた後、そこからアイテム画像をそれぞれとの調和を考慮しながら生成する。
【0153】
続いて、サーバ装置100の提供部は、通信部110を介して、利用者Uの端末装置10に、生成されたアイテム画像を提供する(ステップS105)。このとき、利用者Uの端末装置10は、生成されたアイテム画像を表示する。
【0154】
続いて、サーバ装置100の制御部130は、生成されたアイテム画像(クエリ画像)に基づいて、実際のアイテムのアイテム画像を検索する(ステップS106)。なお、サーバ装置100の制御部130は、生成されたアイテム画像のうち、ユーザにより指定されたアイテム画像(クエリ画像)に基づいて、実際のアイテムのアイテム画像を検索してもよい。なお、検索された実際のアイテムのアイテム画像は、クエリ画像1つに対して1つではなく、複数であってもよい。
【0155】
続いて、サーバ装置100の提供部136は、通信部110を介して、利用者Uの端末装置10に、検索結果(実際のアイテムのアイテム画像)を提供する(ステップS107)。このとき、利用者Uの端末装置10は、検索結果(実際のアイテムのアイテム画像)を表示する。なお、サーバ装置100の提供部136は、クエリ画像1つに対して複数の実際のアイテムのアイテム画像がある場合は、クエリ画像と類似する実際のアイテムのアイテム画像ほど、優先的に提供してもよい。具体的には、利用者Uの端末装置10は、クエリ画像と類似する実際のアイテムのアイテム画像ほど、目立つ位置や上位の位置に表示する。
【0156】
〔6.変形例〕
上述した端末装置10及びサーバ装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。
【0157】
上記の実施形態において、サーバ装置100が実行している処理の一部又は全部は、実際には、利用者Uの端末装置10(又は端末上で動作するアプリ)が実行してもよい。例えば、スタンドアローン(Stand-alone)で(端末装置10単体で)処理が完結してもよい。この場合、端末装置10に、上記の実施形態におけるサーバ装置100の機能が備わっているものとする。また、上記の実施形態では、端末装置10はサーバ装置100と連携しているため、利用者Uから見れば、サーバ装置100の処理も端末装置10が実行しているように見える。すなわち、他の観点では、端末装置10は、サーバ装置100を備えているともいえる。
【0158】
また、上記の実施形態において、利用者Uの端末装置10が実行している処理の一部又は全部は、実際には、サーバ装置100が実行してもよい。
【0159】
また、上記の実施形態において、利用者Uの端末装置10及びサーバ装置100は同一の装置(1台の装置)であってもよい。すなわち、利用者Uの端末装置10及びサーバ装置100それぞれが実行している処理は、同一の装置(1台の装置)で実行してもよい。
【0160】
また、上記の実施形態において、アイテムの画像は、動画や、多視点画像であってもよい。また、アイテムの画像は、イラストであってもよい。
【0161】
〔7.効果〕
上述してきたように、本願に係る情報処理装置(端末装置10及びサーバ装置100)は、ノイズ画像からアイテム画像を生成する画像生成部134を備え、画像生成部134は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成する。
【0162】
また、本願に係る情報処理装置は、画像生成条件を設定する設定部132を備え、画像生成部134は、画像生成条件に従って、アイテム画像を生成する。
【0163】
また、本願に係る情報処理装置は、1つ以上の固定アイテム画像を取得する取得部131を備え、画像生成部134は、アイテム画像を、固定アイテム画像との調和も考慮して生成する。
【0164】
また、本願に係る情報処理装置は、1つ以上の編集前アイテム画像を取得する取得部131と、画像編集条件を設定する設定部132と、を備え、画像生成部134は、画像編集条件に従って、編集前アイテム画像からノイズ画像を経てアイテム画像を生成する。
【0165】
また、本願に係る情報処理装置は、調和する複数のアイテム画像それぞれにノイズを付加して複数のノイズ画像を生成する拡散過程と、複数のノイズ画像それぞれからノイズを除去して元々の複数のアイテム画像を生成する逆拡散過程とを学習した拡散モデルを構築する構築部133を備え、画像生成部134は、拡散モデルを用いて、アイテム画像を生成する。
【0166】
別の観点では、本願に係る情報処理装置本願に係る情報処理装置(端末装置10及びサーバ装置100)は、ノイズ画像から生成されたアイテム画像を表示する表示部12を備え、表示部12は、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示する。
【0167】
また、本願に係る情報処理装置は、クエリ画像に基づいて、アイテム又はコーディネートといったコンテンツを検索する検索部33Bを備え、表示部12は、検索結果であるコンテンツを表示する。
【0168】
また、本願に係る情報処理装置は、画像生成条件を受け付ける受付部33Aを備え、表示部12は、画像生成条件に従って、生成されたアイテム画像を表示する。
【0169】
また、本願に係る情報処理装置は、1つ以上の編集前アイテム画像と画像編集条件とを受け付ける受付部33Aを備え、表示部12は、画像編集条件に従って、編集前アイテム画像からノイズ画像を経て生成されたアイテム画像を表示する。
【0170】
また、検索部33Bは、複数のクエリ画像それぞれに基づいて、アイテムを検索し、表示部12は、それぞれの検索結果を表示する。
【0171】
また、検索部33Bは、複数のクエリ画像のうち、ユーザが指定したクエリ画像に基づいて、アイテムを検索し、表示部12は、検索結果を表示する。
【0172】
上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、コーディネート全体として調和の高い情報を提供することができる。
【0173】
〔8.ハードウェア構成〕
また、上述した実施形態に係る端末装置10やサーバ装置100は、例えば図10に示すような構成のコンピュータ1000によって実現される。以下、サーバ装置100を例に挙げて説明する。図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
【0174】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。
【0175】
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USB(Universal Serial Bus)メモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。
【0176】
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェースであり、例えば、USB等により実現される。
【0177】
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
【0178】
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
【0179】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。
【0180】
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0181】
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0182】
例えば、コンピュータ1000がサーバ装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
【0183】
〔9.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【0184】
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0185】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0186】
例えば、上述したサーバ装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0187】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0188】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0189】
1 情報処理システム
10 端末装置
12 表示部
13 入力部
33A 受付部
33B 検索部
33C 表示制御部
100 サーバ装置
110 通信部
120 記憶部
130 制御部
131 取得部
132 設定部
133 構築部
134 画像生成部
135 提供部
【要約】
【課題】コーディネート全体として調和の高い情報を提供する。
【解決手段】本願に係る情報処理装置は、ノイズ画像からアイテム画像を生成する画像生成部を備え、画像生成部は、複数のノイズ画像から複数のアイテム画像を、それぞれとの調和を考慮して生成することを特徴とする。また、本願に係る情報処理装置は、ノイズ画像から生成されたアイテム画像を表示する表示部を備え、表示部は、複数のノイズ画像から、それぞれとの調和を考慮して生成された複数のアイテム画像を表示することを特徴とする。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10