(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024151938
(43)【公開日】2024-10-25
(54)【発明の名称】画像提供装置、画像提供方法及び画像提供プログラム
(51)【国際特許分類】
G06T 11/80 20060101AFI20241018BHJP
G06F 16/53 20190101ALI20241018BHJP
G06T 1/00 20060101ALI20241018BHJP
G06N 20/00 20190101ALI20241018BHJP
【FI】
G06T11/80 A
G06F16/53
G06T1/00 200E
G06N20/00
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023065777
(22)【出願日】2023-04-13
(11)【特許番号】
(45)【特許公報発行日】2024-09-12
(71)【出願人】
【識別番号】505300841
【氏名又は名称】株式会社ZOZO
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】清水 良太郎
(72)【発明者】
【氏名】斎藤 侑輝
(72)【発明者】
【氏名】平川 優伎
(72)【発明者】
【氏名】古澤 拓也
【テーマコード(参考)】
5B050
5B175
【Fターム(参考)】
5B050BA06
5B050CA07
5B050EA04
5B050EA07
5B050EA18
5B050FA05
5B050GA08
5B175DA02
5B175HB03
(57)【要約】
【課題】ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供すること。
【解決手段】本願に係る画像提供装置は、取得部と、生成部と、提供部とを備える。取得部は、ファッション用語のキーワードを取得する。生成部は、取得部により取得されたキーワードに基づき所定画像からファッション画像を生成する。提供部は、生成部により生成されたファッション画像を提供する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
ファッション用語のキーワードを取得する取得部と、
前記取得部により取得されたキーワードに基づき所定画像からファッション画像を生成する生成部と、
前記生成部により生成されたファッション画像を提供する提供部と、
を有することを特徴とする画像提供装置。
【請求項2】
前記生成部は、
前記キーワードに基づき前記所定画像から複数のファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項3】
前記提供部により提供されたファッション画像の中から選択されたファッション画像を用いた画像検索に基づき商品検索を行う検索部、
を更に有することを特徴とする請求項1に記載の画像提供装置。
【請求項4】
前記取得部は、
前記所定画像のファッションの一部を示す部分情報を取得し、
前記生成部は、
前記キーワードと前記部分情報とに基づき前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項5】
前記生成部は、
利用者が指定した前記キーワードに基づき当該利用者が指定した前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項6】
前記生成部は、
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に基づいて、当該複数の学習用画像と当該所定のキーワードとの関係性を学習させたモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項7】
前記生成部は、
前記モデルを用いて生成されたファッション画像が、前記分散表現空間において、前記所定画像を前記キーワードに基づく所定方向に移動させた画像であるか否かに基づいて前記モデルを再学習させる
ことを特徴とする請求項6に記載の画像提供装置。
【請求項8】
前記生成部は、
学習用画像とキーワードとを入力した際に当該学習用画像から生成された画像が、当該学習用画像とキーワードとに対応する画像として予めアノテーションが付された画像と類似するように学習を行ったモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項9】
前記生成部は、
学習用画像とキーワードと利用者情報とを入力データとし当該入力データに対応する出力データとして予め定められた所定の学習用画像と類似する画像を出力するように学習を行ったモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項10】
前記生成部は、
キーワードを入力データとし当該入力データに対応する出力データとして予め定められた所定の学習用画像と類似する画像を出力するように学習を行ったモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項11】
コンピュータが実行する画像提供方法であって、
ファッション用語のキーワードを取得する取得工程と、
前記取得工程により取得されたキーワードに基づき所定画像からファッション画像を生成する生成工程と、
前記生成工程により生成されたファッション画像を提供する提供工程と、
を含むことを特徴とする画像提供方法。
【請求項12】
ファッション用語のキーワードを取得する取得手順と、
前記取得手順により取得されたキーワードに基づき所定画像からファッション画像を生成する生成手順と、
前記生成手順により生成されたファッション画像を提供する提供手順と、
をコンピュータに実行させることを特徴とする画像提供プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像提供装置、画像提供方法及び画像提供プログラムに関する。
【背景技術】
【0002】
従来、AIを用いて画像を生成する技術が知られている。例えば、画像から抽出した特徴を混合した画像を生成する技術(下記特許文献1)、目標とする特徴の画像に改変した画像を生成する技術(下記特許文献2)、目標画像の特徴を記述したテキストに対応する画像を生成する技術(下記特許文献3)が知られている。
【0003】
また、画像を編集することでよりファッション性の高い画像を生成する技術(下記非特許文献1)、選択した被服を試着させた画像を生成する技術(下記非特許文献2)のようなファッション画像の生成に特化した技術や、変更を所望する画像と生成を所望する画像の説明文とを与えて画像を説明文のように編集した画像を生成する技術(下記非特許文献3)、説明文から画像を生成するモデルに変更したい画像の追加学習を行わせることでその変更対象を呼び出し可能にする技術(下記非特許文献4)のような文章から画像を生成する技術が知られている。
【0004】
また、ファッション用語の解釈にVSE(Visual-Semantic Embedding)の技術を用いた技術が知られている。例えば、ファッション特有の抽象的な用語を全身画像とともに定量化することで種々の角度から各用語の解釈を可能にする技術(下記非特許文献5)が知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2020-112907号公報
【特許文献2】特開2022-157424号公報
【特許文献3】特開2022-172173号公報
【非特許文献】
【0006】
【非特許文献1】WL. Hsiao, I. Katsman, CY. Wu, D. Parikh, K. Grauman“Fashion++: Minimal Edits for Outfit Improvement”,[online],[令和5年2月6日検索],インターネット<https://arxiv.org/abs/1904.09261>
【非特許文献2】X. Han, Z. Wu, Z. Wu, R. Yu, L.S. Davis“VITON: An Image-based Virtual Try-on Network”,[online],[令和5年2月6日検索],インターネット<https://arxiv.org/abs/1711.08447>
【非特許文献3】B. Kawar, S. Zada, O. Lang, O. Tov, H. Chang, T. Dekel, I. Mosseri, M. Irani“Imagic: Text-Based Real Image Editing with Diffusion Models”,[online],[令和5年2月6日検索],インターネット<https://arxiv.org/abs/2210.09276>
【非特許文献4】N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, K. Aberman“DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation”,[online],[令和5年2月6日検索],インターネット<https://arxiv.org/abs/2208.12242>
【非特許文献5】R. Shimizu, Y. Saito, M. Matsutani, M. Goto“Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags”,[online],[令和5年2月6日検索],インターネット<https://www.sciencedirect.com/science/article/pii/S0957417422021856?via%3Dihub>
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術では、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することができなかった。
【0008】
本願は、上記に鑑みてなされたものであって、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することを目的とする。
【課題を解決するための手段】
【0009】
本願に係る画像提供装置は、ファッション用語のキーワードを取得する取得部と、前記取得部により取得されたキーワードに基づき所定画像からファッション画像を生成する生成部と、前記生成部により生成されたファッション画像を提供する提供部と、を有することを特徴とする。
【発明の効果】
【0010】
実施形態の一態様によれば、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することができるという効果を奏する。
【図面の簡単な説明】
【0011】
【
図1】
図1は、実施形態に係る情報処理システムの構成例を示す図である。
【
図2】
図2は、実施形態に係る情報処理の一例を示す図(1)である。
【
図3】
図3は、実施形態に係る情報処理の一例を示す図(2)である。
【
図4】
図4は、実施形態に係る情報処理の一例を示す図(3)である。
【
図5】
図5は、実施形態に係る利用者端末の構成例を示す図である。
【
図6】
図6は、実施形態に係る画像提供装置の構成例を示す図である。
【
図7】
図7は、実施形態に係る利用者情報記憶部の一例を示す図である。
【
図8】
図8は、実施形態に係る画像情報記憶部の一例を示す図である。
【
図9】
図9は、実施形態に係る情報処理の一例を示すフローチャートである。
【
図10】
図10は、実施形態に係る情報処理の一例を示すフローチャートである。
【
図11】
図11は、実施形態に係る情報処理の一例を示すフローチャートである。
【
図12】
図12は、画像提供装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0012】
以下に、本願に係る画像提供装置、画像提供方法及び画像提供プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る画像提供装置、画像提供方法及び画像提供プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0013】
(実施形態)
ファッション業界には「カジュアル」、「フォーマル」、「大人カジュアル」などの分野特有の抽象的で曖昧な用語が多く存在する。また、このような曖昧さが、利用者がファッションに深く興味を持つことを疎外していると考えられる。例えば、利用者が新しいファッションに挑戦する際の障壁になる場合もある。そのため、このような用語を定量化できれば、ファッション分野特有の抽象的な用語に起因する利用者の選択や行動の難しさを軽減することができるため、ファッション業界全体の更なる発展を促進させ得ると考えられる。例えば、このファッションはどのあたりが「ストリート」なのか、どのくらい「ストリート」なのか、どうしたらもう少し「ストリート」にできるかなどを知りたいといった要望を有する利用者に対しても適切な回答を用意することができる。
【0014】
従来、ファッション用語の解釈にVSEの技術を用いた研究が進められている。例えば、「カジュアル」、「大人カジュアル」、「フォーマル」などのファッション特有の抽象的な用語を全身画像とともに定量化することで種々の角度から各用語の解釈を可能にする技術(上記非特許文献5)が知られている。しかしながら、この技術では、例えば、所定の電子商店街に存在する既存のコーディネートから検索結果として相応しいものを選択し提案することができるが、所定の電子商店街で取り扱っていないアイテムや同じアイテムの新たな着用の仕方や角度などを提案することができなかった。
【0015】
また、ファッショナブルの解釈にGAN(Generative Adversarial Network)、拡散モデルやVAE(Variational Autoencoder)などの画像生成技術を用いた研究が進められている。例えば、もととなるファッション画像に対して変更を加え、よりファッショナブルな画像を生成する技術(上記非特許文献1)が知られている。しかしながら、この技術では、例えば、「カジュアル」、「フォーマル」、「大人カジュアル」、「結婚式」などの曖昧な表現に応じたファッション画像を生成することができなかった。
【0016】
近年、ファッション用語解釈の研究は従来の研究領域とは異なる完全に新しい研究領域として認められており、ファッション用語の解釈にVSEの技術を用いた研究は重要性を増している。
【0017】
本願は、上記に鑑みてなされたものであって、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することを目的とする。
【0018】
〔1.情報処理システムの構成〕
図1に示す画像提供システム1について説明する。
図1に示すように、画像提供システム1は、利用者端末10と、画像提供装置100とが含まれる。利用者端末10と、画像提供装置100とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。
図1は、実施形態に係る画像提供システム1の構成例を示す図である。
【0019】
利用者端末10は、利用者によって利用される情報処理装置である。利用者端末10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。また、利用者端末10は、画像提供装置100や、所定のサービスを提供するサーバ装置などによって配信される情報を、ウェブブラウザやアプリケーションにより表示する。なお、
図2に示す例では、利用者端末10がスマートフォンである場合を示す。
【0020】
画像提供装置100は、投稿者や利用者が入力した複数の被服(ファッションアイテムともいい、履物(シューズともいう)や帽子(キャップやハットなど)、装身具(アクセサリともいう)なども含む)の組み合わせから構成されるファッション画像及び画像生成のキーワードとなるファッション用語を受け付け、事前に学習した分散表現空間に投影する情報処理装置である。例えば、サーバ装置やクラウドシステム等により実現可能である。また、実施形態に係る分散表現空間には、画像とキーワード(タグ等も含む)とが投影されており、画像と画像、画像とキーワード、キーワードとキーワードの近さが投影されている。また、近ければ近いほど、分散表現空間上で近くなる。すなわち、画像と画像、画像とキーワード、キーワードとキーワードの類似度が分散表現空間上の距離として測定可能である。なお、実施形態に係る分散表現空間上の近さは、ユークリッド距離に基づく近さでもよいし、コサイン距離に基づく近さでもよい。
【0021】
また、例えば、画像提供装置100は、被服を提供(検索、販売等)する電子商取引サービスを提供する。また、画像提供装置100は、被服のコーディネートを示すコンテンツ(画像、動画、記事等)の投稿を利用者から受け付け、他の利用者に提供(検索、配信等)するコーディネートサービスを提供する。
【0022】
また、画像提供装置100は、サービスに係るウェブサイトを提供するウェブサーバとしての機能を有していてもよい。また、画像提供装置100は、利用者端末10にインストールされた各種サービスに関するアプリケーションに表示する情報を、利用者端末10に配信する装置であってもよい。また、画像提供装置100は、アプリケーションのデータそのものを配信する装置であってもよい。
【0023】
また、画像提供装置100は、利用者端末10に制御情報を配信する配信装置として機能してもよい。ここで、制御情報は、例えば、JavaScript(登録商標)等のスクリプト言語やCSS(Cascading Style Sheets)等のスタイルシート言語により記述される。なお、画像提供装置100から配信されるアプリケーションそのものを制御情報とみなしてもよい。
【0024】
〔2.情報処理の一例〕
次に、
図2~4を用いて、実施形態に係る画像提供装置等により実現される情報処理の一例について説明する。
【0025】
〔2-1.画像生成モデルの一例について〕
ここで、画像提供装置100は、画像とキーワード(例えば、曖昧なファッション用語を含むキーワード)とに基づいて、新たな画像を生成する処理を実行する。例えば、画像提供装置100は、ステーブルディフュージョン(Stable Diffusion)等の拡散モデルを用いた画像生成手法により、入力された画像から、入力されたキーワードと対応する画像を生成するように学習が行われたモデルを用いて、新たな画像の生成を行う。以下、このようなモデルの一例について説明する。なお、画像提供装置100は、キーワードと対応する内容の画像を生成することができるモデルを用いるのであれば、任意のモデルを採用可能である。
【0026】
例えば、モデルの学習を行う学習装置(画像提供装置100でもよい)は、学習データ(教師データともいう)として、ある学習画像と学習画像を説明するテキストとの組を取得する。このような場合、学習装置は、学習画像に対して段階的にノイズを加えたノイズ画像を複数準備する。そして、学習装置は、モデルに対してノイズ画像とアノテーションとなるテキストとを入力した際に、1段階ノイズが少ない画像を復元するような学習が行われる。このような処理を繰り返し実行することで、学習装置は、入力されたテキストと対応する内容の画像を任意のノイズ画像から生成することができるモデルを得ることができる。
【0027】
また、このようなモデルの派生形として、入力された画像を、テキストと対応する画像へと変換するようなモデルの学習が可能である。例えば、学習装置は、黒色のコートを着用する利用者の画像である第1学習画像と、赤色のコートを着用する利用者の画像である第2学習画像とを取得する。そして、学習装置は、例えば、第1学習画像と「赤色のコート」といったテキストが入力された場合に、第2学習画像を出力するようにモデルの学習を行うことで、入力された画像の内容をテキストに応じた内容の画像へと変換するようなモデルの学習を行うことができる。
【0028】
ここで、着用品(ファッション)に関する電子商取引のサービスを上述したモデルにより実現するといったことが考えらえる。また、このようなモデルの学習を行う場合、ファッションに関する画像のみならず、その画像内容に対応するテキストや、画像間の関係性を示すテキストが必要となる。そこで、画像提供装置100は、以下の処理を実行することにより、上述したモデル(入力された画像をテキストに応じて変換するモデル)を用いた電子商取引のサービスや、モデルの学習に用いるデータの抽出や利用、モデルの評価等を行うことができる。
【0029】
例えば、画像提供装置100は、VSE空間上から2つの画像を抽出するとともに、各画像のベクトル間の差分と類似するキーワードとを特定する。より直感的には、画像提供装置100は、VSE空間上に画像Aと画像Bとが投影されており、かつ、画像Aが画像Bの位置から見てキーワード「大人カジュアル」の方向に投影されている場合、画像Bを「大人カジュアル」とした画像が画像Aであるとする。そして、画像提供装置100は、画像Bと「大人カジュアル」というキーワードとをモデルに入力した際に、画像Aをモデルが出力するように、モデルの学習を行う。このような処理を繰り返し行うことで、画像提供装置100は、入力された任意の画像に撮影されている着用品を、入力された任意のキーワードの雰囲気の着用品へと変換した画像を出力するようなモデルの学習を実現することができる。
【0030】
〔2-2.第1の情報処理について〕
以下、
図2を用いて、実施形態に係る画像提供装置等により実現される第1の情報処理について説明する。
図2は、実施形態に係る情報処理の一例を示す図である。
【0031】
利用者U1は、「大人カジュアルなコーディネート例(なお、実際には存在しないコーディネート例であってもよい。)を知りたい」といった要望を有する利用者である。利用者U1は、例えば、画像G1を指定して、画像G1のコーディネートをより「大人カジュアル」にしたコーディネート画像を所望する。また、利用者U1は、「大人カジュアル」のキーワードを指定(例えば、入力)して商品検索を行う。画像提供装置100は、画像G1を取得する(ステップS101)。画像G1は、例えば、利用者U1が所有するアイテムを組み合わせた自身のコーディネート画像(例えば、所定のサイトに投稿した投稿画像や自身のスナップ画像)であってもよいし、利用者U1がお気に入り登録を行った所定のサイト上のコーディネート画像(例えば、着用モデルのスナップ画像)であってもよい。
【0032】
また、画像提供装置100は、利用者U1が指定した「大人カジュアル」のキーワードを取得する(ステップS102)。そして、画像提供装置100は、取得した「大人カジュアル」のキーワードに基づき画像G1からファッション画像G11乃至G15を生成する(ステップS103)。例えば、画像提供装置100は、画像G1のファッションの一部をより「大人カジュアル」になるように変更することでファッション画像を生成する。
【0033】
画像提供装置100は、画像G1が自身のコーディネート画像である場合は、例えば、そのコーディネート画像と「大人カジュアル」のキーワード(自然言語によるスタイル変換指示情報の一例)とをモデルに入力することで、「大人カジュアル」のキーワードに従って生成されたコーディネートを利用者U1が着用したファッション画像を生成する。これにより、画像提供装置100は、自身が所有するアイテムをベースにTPOに合わせたコーディネートの考案補助を実現することができる(この際、実際には存在しない完全に新しい画像が生成され得る)。画像提供装置100は、画像G1が所定のサイト上のコーディネート画像である場合は、例えば、そのコーディネート画像と「大人カジュアル」のキーワードとをモデルに入力することで、「大人カジュアル」のキーワードに従って生成されたコーディネートを着用モデルが着用したファッション画像を生成する。これにより、画像提供装置100は、利用者の好みのスタイルにお気に入りのアイテムを取り入れた方針(この際、実際には存在しない完全に新しい画像が生成され得る)を示すことで利用者の購買意欲を促進させることができる。また、画像提供装置100は、自身が所有するアイテムや気に入っている服装をベースに、出かけ先やシーンに適した服装に変更することもできる。
【0034】
また、画像提供装置100は、利用者U1が「上半身だけ変更して大人カジュアルにしたい」といった要望を有する場合は、利用者U1から変換部位の指定を受け付けてもよい。そして、画像提供装置100は、利用者U1が指定した変換部位のみを変更することでファッション画像の生成を行ってもよい。画像提供装置100は、画像G1が自身のコーディネート画像である場合は、例えば、そのコーディネート画像と「大人カジュアル」のキーワードと「上半身」の変換部位指定とをモデルに入力することで、「大人カジュアル」のキーワードと「上半身」の変換部位指定とに従って生成されたコーディネートを利用者U1が着用したファッション画像を生成する。これにより、画像提供装置100は、自身が所有するアイテムをベースにTPOに合わせた着回しの考案補助を実現することができる。また、画像提供装置100は、画像G1が所定のサイト上のコーディネート画像である場合は、例えば、そのコーディネート画像と「大人カジュアル」のキーワードと「上半身」の変換部位指定とをモデルに入力することで、「大人カジュアル」のキーワードと「上半身」の変換部位指定とに従って生成されたコーディネートを着用モデルが着用したファッション画像を生成する。これにより、画像提供装置100は、利用者の好みのスタイルにお気に入りのアイテムを取り入れた方針を示すことで利用者の購買意欲を促進させることができる。また、画像提供装置100は、具体的にどのパーツを変更したいのかの指定を可能にすることができるため、自身が既に所有しているアイテムや気に入っている服装をベースにそのアイテムを好みの雰囲気で着こなすにはどうすればよいかなどを利用者に把握させ易くすることができる。
【0035】
また、利用者U1が「上半身だけ変更して大人カジュアルにしたい」といった要望に加えて「類似アイテムの検索を行いたい(大人カジュアルにしたコーディネートに含まれるアイテムを購入したい、大人カジュアルにしたコーディネートに含まれるアイテムを所有しているアイテムから探したい)」といった要望を有する場合もあり得る。この場合、画像提供装置100は、生成したアイテムに類似した実際のアイテムを表示させるための処理を行ってもよい。画像提供装置100は、例えば、画像G1(自身のコーディネート画像であってもよいし所定のサイト上のコーディネート画像であってもよい)と「大人カジュアル」のキーワードと「上半身」の変換部位指定とをモデルに入力することで、「大人カジュアル」のキーワードと「上半身」の変換部位指定とに従って生成されたコーディネートを利用者U1または着用モデルが着用したファッション画像を生成するとともに所定のサイト上の類似アイテムの商品詳細へのリンク提供を行ってもよい。これにより、画像提供装置100は、所定のサイトへの購買誘導を行うことでトラフィックや売り上げの向上に貢献することができる。また、画像提供装置100は、生成されたコーディネートに含まれるアイテムに類似しているアイテムを表示させることができるため、実際に存在するアイテムの購入に導くためのサービス提供を行うことができる。実際に利用者が所有しているアイテムとの着こなしを提示してもらった上で(モデルが自身の場合は利用者がアイテムを実際に着用した後の姿を把握することが可能)、気に入った場合にアイテムが選択される可能性が高いと考えられる。購入に繋がる可能性も高いため、売り上げに好影響を与える可能性もあると考えられる。また、画像提供装置100は、例えば、画像G1(自身のコーディネート画像であってもよいし所定のサイト上のコーディネート画像であってもよい)と「大人カジュアル」のキーワードと「上半身」の変換部位指定とをモデルに入力することで、「大人カジュアル」のキーワードと「上半身」の変換部位指定とに従って生成されたコーディネートを利用者U1または着用モデルが着用したファッション画像を生成するとともに所有している類似アイテムの商品詳細へのリンク提供を行ってもよい。これにより、画像提供装置100は、所定のサービス(利用者U1が所有しているアイテムを事前に登録して管理するサービスなど)への誘導を行うことでトラフィックの向上に貢献することができる。
【0036】
なお、ファッション画像の生成処理の詳細は後述する。
図2では、生成画像として画像G11乃至G15が生成される。ここで、画像提供装置100は、生成したファッション画像を利用者U1へ提供してもよい。
図2では、画像提供装置100は、生成したファッション画像を用いて商品検索を行う(ステップS104)。具体的には、画像提供装置100は、生成したファッション画像と類似する類似画像(ファッション画像の全体と類似する類似画像でもよいし、ファッション画像の一部(例えば、上半身のアイテムの部分)と類似する類似画像でもよい)を検索する。例えば、画像提供装置100は、所定の電子商店街で取り扱っている商品の商品詳細の中から類似画像を検索する。この際、画像提供装置100は、生成したファッション画像を利用者U1へ提供し、ファッション画像の選択を受け付け、選択されたファッション画像と類似する類似画像を検索してもよい。そして、画像提供装置100は、利用者U1へ検索結果を提供する(ステップS105)。また、画像提供装置100は、指定したキーワードにどれくらい近いかを推定することも可能である。このため、画像提供装置100は、生成した各ファッション画像とともに、各ファッション画像がどれくらい「大人カジュアル」であるかを示す情報(例えば、「ファッション画像G11:「大人カジュアル」評価が90点、ファッション画像G12:「大人カジュアル」評価が80点、・・・」など)を利用者U1へ提供してもよい。また、画像提供装置100は、生成した各ファッション画像を、「大人カジュアル」に近い順番で利用者U1へ提供してもよい。例えば、画像提供装置100は、ファッション画像G11の「大人カジュアル」評価が90点であり、ファッション画像G12の「大人カジュアル」評価が80点の場合は、ファッション画像G11、ファッション画像G12の順番で、ファッション画像を提供してもよい。
【0037】
〔2-3.第2の情報処理について〕
以下、
図3を用いて、実施形態に係る画像提供装置等により実現される第2の情報処理について説明する。
図3は、実施形態に係る情報処理の一例を示す図である。第1の情報処理では、利用者がキーワードを指定することで、指定されたキーワードに基づきファッション画像を生成する場合を示したが、第2の情報処理では、タグが予め用意されており、予め用意されたタグの中から利用者がタグを選択することで、選択されたタグに基づきファッション画像を生成する。このため、第2の情報処理では、利用者がキーワードを入力する代わりに、タグを選択することで、ファッション画像の生成が可能になる。
【0038】
利用者U1は、「結婚式の2次会に相応しいミリタリー風のコーディネート例(なお、実際には存在しないコーディネート例であってもよい。)を知りたい」といった要望を有する利用者である。利用者U1は、タグを指定(例えば、選択)して、タグからコーディネート画像の生成及び商品検索を所望する。画像提供装置100は、タグ情報T1を取得する(ステップS201)。タグ情報T1には、利用者U1が指定可能なタグのうち「女性」と「30代」と「ミリタリー」と「結婚式2次会」とのタグを指定したことを示す情報が含まれる。
【0039】
また、画像提供装置100は、取得したタグ情報T1に基づき、利用者U1が指定した「女性」と「30代」と「ミリタリー」と「結婚式2次会」とのタグを特定する(ステップS202)。そして、画像提供装置100は、特定した「女性」と「30代」と「ミリタリー」と「結婚式2次会」とのタグに基づきファッション画像を生成する(ステップS203)。例えば、画像提供装置100は、「女性」と「30代」と「ミリタリー」と「結婚式2次会」との全てのタグを満たすようにファッション画像を生成する。なお、第1の情報処理と同様に、ファッション画像の生成処理の詳細は後述する。
図3では、生成画像として画像G21乃至G25が生成される。ここで、画像提供装置100は、生成したファッション画像を利用者U1へ提供してもよい。
図3では、画像提供装置100は、生成したファッション画像を用いて商品検索を行う(ステップS204)。具体的には、画像提供装置100は、生成したファッション画像と類似する類似画像を検索する。例えば、画像提供装置100は、所定の電子商店街で取り扱っている商品の商品詳細の中から類似画像を検索する。この際、画像提供装置100は、生成したファッション画像を利用者U1へ提供し、ファッション画像の選択を受け付け、選択されたファッション画像と類似する類似画像を検索してもよい。そして、画像提供装置100は、利用者U1へ検索結果を提供する(ステップS205)。
【0040】
なお、第2の情報処理では、第1の情報処理とは異なり、利用者U1が画像生成のためのベースとなる画像を指定していないが、第1の情報処理と同様に、利用者U1が画像生成のためのベースとなる画像を指定してもよい。そして、画像提供装置100は、指定された画像と、指定されたタグとに基づき、画像を生成してもよい。
【0041】
〔2-4.第3の情報処理について〕
以下、
図4を用いて、実施形態に係る画像提供装置等により実現される第3の情報処理について説明する。
図4は、実施形態に係る情報処理の一例を示す図である。
【0042】
画像提供装置100は、ファッション画像の生成時に生成画像の表示を許可するか否かの選択が可能なコンテンツC1を利用者U1へ提供する(ステップS301)。なお、コンテンツC1の利用者U1への提供タイミングはいつでもよく特に限定されなくてもよい。利用者U1は、コンテンツC1から生成画像の表示を許可するか否かの選択を行う(ステップS302)。画像提供装置100は、利用者U1から選択結果を取得すると(ステップS303)、生成画像の表示処理を行う。具体的には、画像提供装置100は、生成画像を利用者U1へ提供し(ステップS304)、利用者端末10に表示させる(ステップS305)。
図4では、利用者U1が生成画像の表示を許可しなかった場合は実際に存在するアイテムのみを用いたコーディネート画像が領域R1に表示され、利用者U1が生成画像の表示を許可した場合は実際に存在しないアイテムを含む可能性のあるコーディネート画像が領域R1に表示される。また、画像提供装置100は、コンテンツC1における背景や人物の変更要求を受け付けた場合は、利用者U1が指定した背景や人物への変更を行ってもよい。これにより、画像提供装置100は、利用者から承諾を受けた状態でサービス上に生成画像を表示することができる。
【0043】
〔3.画像生成処理について〕
以下、ファッション画像の生成処理の詳細を説明する。ファッション画像の生成処理として、5つのアプローチを例に挙げて説明するがこれらの例に特に限定されなくてもよい。また、5つのアプローチのうち第1のアプローチと第2のアプローチはVSE空間を用いたアプローチであり、第3のアプローチと第4のアプローチと第5のアプローチはVSE空間を用いないアプローチである。各アプローチについて説明する。
【0044】
〔3-1.第1のアプローチについて〕
上記非特許文献5には、ファッション用語の解釈にVSEの技術を用いて、分散表現空間上に学習用画像とキーワードとを投影させる技術が知られている。画像提供装置100は、学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分(ベクトル)と所定のキーワードとの類似性に基づいて、複数の学習用画像と所定のキーワードとの関係性を学習させたモデルを用いてファッション画像の生成を行ってもよい。アプローチ1では、画像提供装置100は、個別に予め用意されたモデル(VSE空間を用いずに用意されたモデル)を用いて、ファッション画像を生成する。そして、画像提供装置100は、このモデルを用いた生成結果を、VSE空間を用いて評価することでモデルを学習させる。例えば、画像Aとキーワードとをモデルに入力した際に画像Bを出力した場合において、画像提供装置100は、画像Aと画像BとキーワードとをVSE空間に投影する。そして、画像提供装置100は、画像Aのベクトルと画像Bのベクトルとの差分がキーワードのベクトルにどれくらい近いかを評価することで、モデルが正しい学習を行えているか否かを判定する。また、画像提供装置100は、複数画像を生成して、各画像についてキーワードの方向に変換されているか否かを評価することでモデルの学習を行ってもよい。また、画像提供装置100は、例えば、利用者ごとに「大人カジュアル」と感じてもらえる可能性があるコーディネートの提案を行ってもよい。例えば、画像提供装置100は、差分が「大人カジュアル」と「Late-20s」とを組み合わせた結果のベクトルと近いか否かに応じて、「Late-20sに大人カジュアルと感じてもらえる可能性がある」コーディネートの提案を行ってもよい。また、画像提供装置100は、例えば、種々のパターンのファッション画像の生成を行い、生成画像に対する利用者からの評価(フィードバック)を受け付け、評価結果をVSE空間に反映させてもよいし、モデルに反映させてもよい。この際、画像提供装置100は、それぞれの生成画像が変更要件をどの程度満たしているかを評価して生成画像の選択を行ってもよい。
【0045】
〔3-2.第2のアプローチについて〕
第1のアプローチでは、VSE空間を用いずに用意されたデータからモデルを学習させる場合を説明したが、第2のアプローチでは、用意されたデータがない場合であるため、VSE空間を用いて疑似データを作成することでモデルを学習させる。画像提供装置100は、生成されたファッション画像が、分散表現空間において、所定のキーワードに基づく所定方向に移動させた画像であるか否かに基づいて学習されたモデルを用いてファッション画像の生成を行ってもよい。画像提供装置100は、例えば、対象画像を「大人カジュアル」にした画像を分散表現空間上で選択することで、モデルの学習を行ってもよい。例えば、画像提供装置100は、利用者から対象画像を取得する。そして、画像提供装置100は、取得した対象画像と類似する画像のベクトルを「大人カジュアル」のベクトル方向へと移動させた位置の近傍の画像を分散表現空間から特定する。そして、画像提供装置100は、取得した対象画像と「大人カジュアル」のキーワードとを入力した際に、分散表現空間から特定した画像を出力するようにモデルを学習させる。
【0046】
〔3-3.第3のアプローチについて〕
第3のアプローチは、学習用画像とキーワードとに対応する画像として予めアノテーションが付された画像が用意されたデータがある場合のアプローチである。例えば、「対象画像を大人カジュアルにしたらこうなる」とラベル付けされた画像が予め用意されている場合である。画像提供装置100は、学習用画像とキーワードとを入力した際に学習用画像から生成された画像が、学習用画像とキーワードとに対応する画像として予めアノテーションが付された画像と類似するように学習を行ったモデルを用いてファッション画像の生成を行ってもよい。
【0047】
〔3-4.第4のアプローチについて〕
第4のアプローチは、学習用画像とキーワードとに加えて利用者情報(例えば、利用者の識別情報や属性情報など)を含めて学習させたモデルを用いてファッション画像を生成する場合のアプローチである。画像提供装置100は、学習用画像とキーワードと利用者情報とを入力した際に学習用画像から生成された画像が、学習用画像とキーワードと利用者情報とに対応する画像として予め定められた画像と類似するように学習を行ったモデルを用いてファッション画像の生成を行ってもよい。これにより、画像提供装置100は、例えば、利用者ごとに「より大人カジュアル」と感じてもらえる可能性の高い画像を生成することができる。この際、画像提供装置100は、どの程度「大人カジュアル」にしたいかの強さの指定を受け付け、指定された強さの程度に応じて画像の生成を行ってもよい。
【0048】
〔3-5.第5のアプローチについて〕
第5のアプローチは、ベースとなる画像を指定せず、キーワードに対応する種々の画像を生成するアプローチである。画像提供装置100は、キーワードを入力した際に生成された画像が、キーワードに対応する画像として予め定められた画像と類似するように学習を行ったモデルを用いてファッション画像の生成を行ってもよい。これにより、画像提供装置100は、新しさやオリジナリティを求めている利用者(例えば、デザイナーなど)にとっては新しい出会いができる可能性が高くなるため、このような利用者に対するユーザビリティの向上を促進させることができる。また、画像提供装置100は、利用者情報(例えば、属性情報など)を加味してファッション画像の生成を行ってもよい。例えば、画像提供装置100は、利用者の年齢や性別などの属性に適したファッション画像の生成を行ってもよい。画像提供装置100は、第4のアプローチと同様に、属性情報などの利用者情報を含めて学習させたモデルを用いてファッション画像を生成してもよい。
【0049】
〔3-6.その他について〕
上記アプローチ(第1のアプローチ乃至第5のアプローチ)は任意の態様で適宜組み合わせて採用されてもよい。
【0050】
〔4.情報処理のバリエーション〕
上記実施形態において、画像提供装置100は、生成画像を表示するモードと、生成画像に似た実際に存在する画像を表示するモードとの切り分けを行ってもよい。また、画像提供装置100は、このような切り分けを行うことで、利用者同意のもと、生成画像をそのまま表示できるようなアプリケーションに適用されてもよい。また、画像提供装置100は、実際に存在しないアイテムの表示を所望する場合もあり、類似するアイテムがあるか否かの情報提供を行ってもよい。例えば、画像提供装置100は、生成画像について、既に販売されているアイテム(若しくはコーディネート)とどの程度デザインに差異があるかなどの情報提供を行ってもよい。例えば、画像提供装置100は、生成画像のアイテムについて著作権などの問題がないことの保証を行ってもよい。
【0051】
〔5.利用者端末の構成〕
次に、
図5を用いて、実施形態に係る利用者端末10の構成について説明する。
図5は、実施形態に係る利用者端末10の構成例を示す図である。
図5に示すように、利用者端末10は、通信部11と、入力部12と、出力部13と、制御部14とを有する。
【0052】
(通信部11)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、所定のネットワークNと有線又は無線で接続され、所定のネットワークNを介して、画像提供装置100等との間で情報の送取得を行う。
【0053】
(入力部12)
入力部12は、利用者からの各種操作を受け付ける。
図2では、利用者U1からの各種操作を受け付ける。例えば、入力部12は、タッチパネル機能により表示面を介して利用者からの各種操作を受け付けてもよい。また、入力部12は、利用者端末10に設けられたボタンや、利用者端末10に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
【0054】
(出力部13)
出力部13は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット端末等の表示画面であり、各種情報を表示するための表示装置である。例えば、出力部13は、画像提供装置100から送信された情報を表示する。
【0055】
(制御部14)
制御部14は、例えば、コントローラ(Controller)であり、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、利用者端末10内部の記憶装置に記憶されている各種プログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。例えば、この各種プログラムには、利用者端末10にインストールされたアプリケーションのプログラムが含まれる。例えば、この各種プログラムには、画像提供装置100から送信された情報を表示させるアプリケーションのプログラムが含まれる。また、制御部14は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0056】
図5に示すように、制御部14は、受信部141と、送信部142とを有し、以下に説明する情報処理の作用を実現または実行する。
【0057】
(受信部141)
受信部141は、画像提供装置100等の他の情報処理装置から各種情報を受信する。例えば、受信部141は、画像提供装置100により生成された生成画像を受信する。また、例えば、受信部141は、生成画像をもとに検索された生成画像の類似画像を受信する。
【0058】
(送信部142)
送信部142は、画像提供装置100等の他の情報処理装置へ各種情報を送信する。例えば、送信部142は、利用者の操作に応じて指定された画像を送信する。また、例えば、送信部142は、利用者の操作に応じて指定されたキーワードを送信する。また、例えば、送信部142は、利用者の操作に応じて指定されたタグを送信してもよい。また、例えば、送信部142は、利用者情報などを送信してもよい。
【0059】
〔6.画像提供装置の構成〕
次に、
図6を用いて、実施形態に係る画像提供装置100の構成について説明する。
図6は、実施形態に係る画像提供装置100の構成例を示す図である。
図6に示すように、画像提供装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、画像提供装置100は、画像提供装置100の管理者から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0060】
(通信部110)
通信部110は、例えば、NIC等によって実現される。そして、通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、利用者端末10等との間で情報の送取得を行う。
【0061】
(記憶部120)
記憶部120は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
図6に示すように、記憶部120は、利用者情報記憶部121と、画像情報記憶部122とを有する。
【0062】
利用者情報記憶部121は、利用者情報(例えば、年齢や性別などの属性情報、購買履歴や投稿履歴などから推定された所有アイテム情報など)を記憶する。ここで、
図7に、実施形態に係る利用者情報記憶部121の一例を示す。
図7に示すように、利用者情報記憶部121は、「利用者ID」、「利用者情報」といった項目を有する。
【0063】
「利用者ID」は、利用者を識別するための識別情報を示す。「利用者情報」は、利用者情報を示す。
図7に示した例では、「利用者情報」に「利用者情報#1」や「利用者情報#2」といった概念的な情報が格納される例を示したが、実際には、年齢や性別などの情報や、利用者が所有するアイテムの識別情報などが格納される。
【0064】
画像情報記憶部122は、類似画像の検索時などに用いられる画像情報(例えば、所定の電子商店街が取り扱っているアイテムの商品詳細に含まれる画像情報や利用者U1が所有しているアイテムの商品詳細に含まれる画像情報など)を記憶する。ここで、
図8に、実施形態に係る画像情報記憶部122の一例を示す。
図8に示すように、画像情報記憶部122は、「画像ID」、「画像情報」といった項目を有する。
【0065】
「画像ID」は、画像を識別するための識別情報を示す。「画像情報」は、画像情報を示す。
図8に示した例では、「画像情報」に「画像情報#1」や「画像情報#2」といった概念的な情報が格納される例を示したが、実際には、画像データが格納される。若しくは、画像データが所在するURL(Uniform Resource Locator)、又は、これらの格納場所を示すファイルパス名などが格納されてもよい。
【0066】
(制御部130)
制御部130は、コントローラであり、例えば、CPUやMPU等によって、画像提供装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASICやFPGA等の集積回路により実現される。
【0067】
図6に示すように、制御部130は、取得部131と、生成部132と、検索部133と、提供部134とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、
図6に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0068】
(取得部131)
取得部131は、外部の情報処理装置から各種情報を取得する。取得部131は、利用者端末10等の他の情報処理装置から各種情報を取得する。
【0069】
取得部131は、記憶部120から各種情報を取得する。また、取得部131は、取得した各種情報を記憶部120に格納する。
【0070】
取得部131は、ファッション用語のキーワードを取得する。例えば、取得部131は、利用者が指定したキーワード(例えば、「大人カジュアル」など)を取得する。例えば、取得部131は、利用者が大人カジュアルなコーディネート例を知りたいといった要望を有し、「大人カジュアル」のキーワードを用いて検索を行った場合は、利用者が入力した「大人カジュアル」のキーワードを取得する。
【0071】
取得部131は、画像生成のためのベースとなる画像を取得してもよい。例えば、取得部131は、利用者が指定した所定画像のコーディネートをより「大人カジュアル」にしたコーディネートを知りたいといった要望を有する場合、利用者が指定した所定画像を取得してもよい。この際、取得部131は、利用者が変更部位を指定した場合(例えば、利用者が「上半身のみ」を変更したコーディネートを知りたいといった要望を有する場合など)は、その変更部位の情報を取得してもよい。また、取得部131は、学習用画像とキーワードとを投影したVAEなどのモデルから取得した分散表現空間に関する情報を取得してもよい。
【0072】
取得部131は、画像生成のためのベースとなるタグを取得してもよい。例えば、取得部131は、利用者が所定のタグを指定することでその指定した所定のタグを満たすコーディネートを知りたいといった要望を有する場合、利用者が指定した所定のタグを取得してもよい。
【0073】
(生成部132)
生成部132は、取得部131により取得されたキーワードに基づき1又は複数の生成画像を生成する。例えば、生成部132は、取得した「大人カジュアル」のキーワードに基づき所定の画像からファッション画像を生成する。例えば、生成部132は、取得した「大人カジュアル」のキーワードに基づき所定画像のファッションの一部をより「大人カジュアル」になるように変更することでファッション画像を生成する。
【0074】
生成部132は、利用者が指定した所定のタグに基づき、その所定のタグを満たすファッション画像を生成してもよい。例えば、生成部132は、利用者が「結婚式の2次会に相応しいミリタリー風のコーディネート例を知りたい」といった要望を有し、「女性」と「30代」と「ミリタリー」と「結婚式2次会」のタグを指定した場合は、「女性」と「30代」と「ミリタリー」と「結婚式2次会」との全てのタグを満たすファッション画像を生成してもよい。
【0075】
生成部132は、所定画像とキーワードとをモデルに入力することで、そのキーワードに従って生成されたコーディネートを利用者若しくは着用モデルが着用したファッション画像を生成してもよい。また、生成部132は、所定画像とキーワードと変換部位指定とをモデルに入力することで、そのキーワードと変換部位指定とに従って生成されたコーディネートを利用者若しくは着用モデルが着用したファッション画像を生成してもよい。
【0076】
生成部132は、分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に基づいて、複数の学習用画像と所定のキーワードとの関係性をモデルに学習させてもよい。また、生成部132は、分散表現空間において所定のキーワードに基づく所定方向に移動させた画像であるか否かに基づいてモデルの学習を行ってもよい。この際、生成部132は、そのような所定方向に移動させた画像でない場合にのみモデルの学習を行ってもよい。また、生成部132は、学習用画像とキーワードとを入力した際に学習用画像から生成された画像が、学習用画像とキーワードとに対応する画像として予めアノテーションが付された画像と類似するようにモデルを学習してもよい。また、生成部132は、学習用画像とキーワードと利用者情報とを入力した際に学習用画像から生成された画像が、学習用画像とキーワードと利用者情報とに対応する画像として予め定められた画像と類似するようにモデルを学習してもよい。また、生成部132は、キーワードを入力した際に生成された画像が、キーワードに対応する画像として予め定められた画像と類似するようにモデルを学習してもよい。
【0077】
(検索部133)
検索部133は、生成部132により生成されたファッション画像と類似する類似画像を検索する。例えば、検索部133は、所定の電子商店街で取り扱っている商品の商品詳細の中から類似画像を検索する。また、例えば、検索部133は、生成部132により生成されたファッション画像の選択を受け付け、選択されたファッション画像と類似する類似画像を検索する。
【0078】
(提供部134)
提供部134は、生成部132により生成された生成画像に基づく情報を提供する。例えば、提供部134は、生成部132により生成された生成画像を提供する。また、例えば、提供部134は、生成部132により生成された生成画像と類似する類似画像(すなわち、検索部133による検索結果)を提供する。
【0079】
〔7.情報処理のフロー〕
次に、
図9乃至11を用いて、実施形態に係る画像提供システム1による情報処理の手順について説明する。
図9乃至11は、実施形態に係る画像提供システム1による情報処理の手順を示すフローチャートである。
図9は、ファッション画像の生成処理を示すフローチャートであり、
図10及び11は、モデルの学習処理を示すフローチャートである。
【0080】
図9に示すように、画像提供装置100は、ファッション用語のキーワードを取得する(ステップS401)。
【0081】
画像提供装置100は、取得したキーワードに基づき所定画像からファッション画像を生成する(ステップS402)。
【0082】
画像提供装置100は、生成したファッション画像を提供する(ステップS403)。
【0083】
図10に示すように、画像提供装置100は、分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に関する情報を取得する(ステップS501)。
【0084】
画像提供装置100は、取得した類似性に関する情報に基づき、複数の学習用画像と所定のキーワードとの関係性をモデルに学習させる(ステップS502)。
【0085】
図11に示すように、画像提供装置100は、分散表現空間を用いてファッション画像の疑似データを生成する(ステップS601)。
【0086】
画像提供装置100は、生成したファッション画像が、分散表現空間において、所定のキーワードに基づく所定方向に移動させた画像であるか否かに基づいてモデルを学習させる(ステップS602)。
【0087】
〔8.変形例〕
上述した実施形態に係る画像提供システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、画像提供システム1の他の実施形態について説明する。
【0088】
(互いに類似していないファッション画像の表示)
キーワードに近づけたファッション画像を複数表示する場合において、単純に上位のファッション画像(例えば、トップ5のファッション画像)を表示すると、どれも似たようなファッション画像になってしまう可能性がある。画像提供装置100は、キーワードに近づけたファッション画像のうち、互いに類似していないファッション画像を複数表示させてもよい。具体的には、画像提供装置100は、キーワードに最も近いファッション画像を表示させる。そして、画像提供装置100は、キーワードに次に近いファッション画像が1つ目のファッション画像(例えば、最も近いファッション画像)と類似する場合はそのファッション画像を表示させなくしてもよい。
【0089】
(自由記入後のタグ選択に基づくファッション画像の表示)
上記実施形態において、第1の情報処理ではキーワードを自由に記入させ、第2の情報処理ではタグを選択させる場合を示したが、最初は自由記入で受け付け、その後、微調整する際などに、タグ選択で受け付けてもよい。すなわち、画像提供装置100は、キーワードを自由に記入させた上でタグを選択させてもよい。具体的な例を挙げると、複数のスタイルの混合のコーデを知りたい場合、最初は自由記入でキーワード(例えば、カジュアルなミリタリー)を受け付けるが、その結果として提案されたコーデがイメージと違った場合、キーワードを修正したくなる場合がある(例えば、ミリタリーのみにしたい場合がある)。第1の情報処理のみの場合、全てを削除して新しいキーワードを記入する必要があるが、この際、タグ選択への切り替えが可能であれば、必要のないタグ(例えば、カジュアルのタグ)を外すだけで微調整が可能になる。このように、近づけたい表現の入力において、自由記入からタグ選択への切り替えが可能であってもよい。
【0090】
(投稿画像を用いたファッション画像の表示)
上記実施形態において、画像提供装置100は、キーワードに近づけたファッション画像を生成する代わりに、他の利用者の投稿画像(例えば、実在のアイテムを使用したコーデ画像)からキーワードに近いファッション画像を(例えば、VSE空間で演算して)見つけて表示させてもよい。このように、画像提供装置100は、生成したファッション画像を表示させてもよいし、他の利用者の投稿画像を表示させてもよい。また、画像提供装置100は、利用者が指定した表示優先度に応じてどちらを優先して表示させるかを決定してもよい。例えば、画像提供装置100は、キーワードに近い他の利用者の投稿画像がある場合において、体型が違い過ぎる場合は、生成したファッション画像を表示させると決定してもよい。なお、画像提供装置100は、他の利用者の投稿画像を用いた場合は、他の利用者が使用している実在のアイテムの情報を投稿画像に紐づけておくことで、類似画像検索を行ってアイテムを特定しなくてもよい。画像提供装置100は、自由記入又はタグ選択によって、近づけたい表現の入力を受け付け、対象画像を入力された表現に近づけた場合の目標画像として、他の利用者の投稿画像又は対象画像の編集画像(利用者が指定したベース画像から生成した画像)を表示可能にしてもよい。この際、例えば、画像提供装置100は、表示優先度に応じて他の利用者の投稿画像又は対象画像の編集画像を表示可能にしてもよい。また、例えば、画像提供装置100は、他の利用者の投稿画像を表示する場合はその投稿画像で使用されているアイテムのアイテム情報を表示させ、対象画像の編集画像を表示する場合はその編集画像で使用されているアイテムと類似するアイテムのアイテム情報を表示させてもよい。また、例えば、画像提供装置100は、目標画像として、他の利用者の投稿画像の編集画像を表示させてもよい。また、画像提供装置100は、利用者の入力に限らず、身体的特徴が類似する他の利用者の投稿画像が少ない場合は対象画像の編集画像の表示優先度を上げてもよい。
【0091】
〔9.効果〕
上述してきたように、実施形態に係る画像提供装置100は、取得部131と、生成部132と、提供部134とを有する。取得部131は、ファッション用語のキーワードを取得する。生成部132は、取得部131により取得されたキーワードに基づき所定画像からファッション画像を生成する。提供部134は、生成部132により生成されたファッション画像を提供する。
【0092】
これにより、実施形態に係る画像提供装置100は、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供するができる。また、実施形態に係る画像提供装置100は、実際には存在しないアイテムを生成することや、アイテムを小さくするなどの変更を加えた画像を提供することができる。
【0093】
また、生成部132は、キーワードに基づき所定画像から複数のファッション画像を生成する。
【0094】
これにより、実施形態に係る画像提供装置100は、複数の提案を行うことができる。実施形態に係る画像提供装置100は、背景や人物などを変更した複数画像を同時に提案することができる。
【0095】
また、実施形態に係る画像提供装置100は、提供部134により提供されたファッション画像の中からから選択されたファッション画像を用いた画像検索に基づき商品検索を行う検索部133を更に有することを特徴とする。
【0096】
これにより、実施形態に係る画像提供装置100は、所定の電子商店街への購買誘導を行うことでトラフィックや売り上げの向上に貢献することができる。
【0097】
また、取得部131は、所定画像のファッションの一部を示す部分情報を取得する。また、生成部132は、キーワードと部分情報とに基づき所定画像からファッション画像を生成する。
【0098】
これにより、実施形態に係る画像提供装置100は、条件を設けた上で画像生成を行うことができる。また、実施形態に係る画像提供装置100は、利用者の好みに合わせたコーディネートの考案補助を実現することができる。
【0099】
また、生成部132は、利用者が指定したキーワードに基づき利用者が指定した所定画像からファッション画像を生成する。
【0100】
これにより、実施形態に係る画像提供装置100は、利用者の指定を受け付けることができるため、ユーザビリティの向上を促進させることができる。
【0101】
また、生成部132は、学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に基づいて、複数の学習用画像と所定のキーワードとの関係性を学習させたモデルを用いて所定画像からファッション画像を生成する。
【0102】
これにより、実施形態に係る画像提供装置100は、ファッション特有の抽象的な用語を画像とともに定量化することで種々の角度から各用語の解釈を可能にしたモデルを用いて画像を生成することができる。
【0103】
また、生成部132は、モデルを用いて生成されたファッション画像が、分散表現空間において、所定画像をキーワードに基づく所定方向に移動させた画像であるか否かに基づいてモデルを再学習させる。
【0104】
これにより、実施形態に係る画像提供装置100は、分散表現空間上の情報に基づきモデルの精度を向上させることができる。
【0105】
また、生成部132は、学習用画像とキーワードとを入力した際に学習用画像から生成された画像が、学習用画像とキーワードとに対応する画像として予めアノテーションが付された画像と類似するように学習を行ったモデルを用いて所定画像からファッション画像を生成する。
【0106】
これにより、実施形態に係る画像提供装置100は、アノテーションされたデータを学習させることで、分散表現空間上の情報を用いることなく利用者ごとに合った画像提案を行うことができる。
【0107】
また、生成部132は、学習用画像とキーワードと利用者情報とを入力データとし入力データに対応する出力データとして予め定められた所定の学習用画像と類似する画像を出力するように学習を行ったモデルを用いて所定画像からファッション画像を生成する。
【0108】
これにより、実施形態に係る画像提供装置100は、利用者情報を加味して画像生成を行うことができるため、利用者ごとに合った画像提案を行うことができる。
【0109】
また、生成部132は、キーワードを入力データとし入力データに対応する出力データとして予め定められた所定の学習用画像と類似する画像を出力するように学習を行ったモデルを用いて所定画像からファッション画像を生成する。
【0110】
これにより、実施形態に係る画像提供装置100は、ベース画像を指定することなく画像生成を行うことができるため、新しさやオリジナリティを求めている利用者に対するユーザビリティの向上を促進させることができる。
【0111】
〔10.ハードウェア構成〕
また、上述してきた実施形態に係る利用者端末10及び画像提供装置100は、例えば、
図12に示すような構成のコンピュータ1000によって実現される。
図12は、利用者端末10及び画像提供装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0112】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0113】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを取得してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0114】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
【0115】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0116】
例えば、コンピュータ1000が実施形態に係る利用者端末10及び画像提供装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部14及び130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0117】
〔11.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0118】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0119】
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0120】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0121】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0122】
1 画像提供システム
10 利用者端末
11 通信部
12 入力部
13 出力部
14 制御部
100 画像提供装置
110 通信部
120 記憶部
121 利用者情報記憶部
122 画像情報記憶部
130 制御部
131 取得部
132 生成部
133 検索部
134 提供部
141 受信部
142 送信部
N ネットワーク
【手続補正書】
【提出日】2024-06-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ファッション用語のキーワードを取得する取得部と、
前記取得部により取得されたキーワードに基づき所定画像からファッション画像を生成する生成部と、
前記生成部により生成されたファッション画像を提供する提供部と、
を有し、
前記生成部は、
前記所定画像が示すファッション性に、前記キーワードが示すファッション性を反映したファッション画像になるように前記ファッション画像を生成する
ことを特徴とする画像提供装置。
【請求項2】
前記生成部は、
前記キーワードに基づき前記所定画像から複数のファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項3】
前記提供部により提供されたファッション画像の中から選択されたファッション画像を用いた画像検索に基づき商品検索を行う検索部、
を更に有することを特徴とする請求項1に記載の画像提供装置。
【請求項4】
前記取得部は、
前記所定画像のファッションの一部を示す部分情報を取得し、
前記生成部は、
前記キーワードと前記部分情報とに基づき前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項5】
前記生成部は、
利用者が指定した前記キーワードに基づき当該利用者が指定した前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項6】
ファッション用語のキーワードを取得する取得部と、
前記取得部により取得されたキーワードに基づき所定画像からファッション画像を生成する生成部と、
前記生成部により生成されたファッション画像を提供する提供部と、
を有し、
前記生成部は、
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に基づいて、当該複数の学習用画像と当該所定のキーワードとの関係性を学習させたモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする画像提供装置。
【請求項7】
前記生成部は、
前記モデルを用いて生成されたファッション画像が、前記分散表現空間において、前記所定画像を前記キーワードに基づく所定方向に移動させた画像であるか否かに基づいて前記モデルを再学習させる
ことを特徴とする請求項6に記載の画像提供装置。
【請求項8】
前記生成部は、
学習用画像とキーワードとを入力した際に当該学習用画像から生成された画像のベクトルと、当該学習用画像とキーワードとに対応する画像として予めアノテーションが付された画像のベクトルとの差分が小さくなるように学習を行ったモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項9】
前記生成部は、
学習用画像とキーワードと利用者情報とを入力データとし当該入力データに対応する出力データとして予め定められた所定の学習用画像のベクトルとの差分が小さくなるように学習を行ったモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項10】
前記生成部は、
キーワードを入力データとし当該入力データに対応する出力データとして予め定められた所定の学習用画像のベクトルとの差分が小さくなるように学習を行ったモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする請求項1に記載の画像提供装置。
【請求項11】
コンピュータが実行する画像提供方法であって、
ファッション用語のキーワードを取得する取得工程と、
前記取得工程により取得されたキーワードに基づき所定画像からファッション画像を生成する生成工程と、
前記生成工程により生成されたファッション画像を提供する提供工程と、
を含み、
前記生成工程は、
前記所定画像が示すファッション性に、前記キーワードが示すファッション性を反映したファッション画像になるように前記ファッション画像を生成する
ことを特徴とする画像提供方法。
【請求項12】
ファッション用語のキーワードを取得する取得手順と、
前記取得手順により取得されたキーワードに基づき所定画像からファッション画像を生成する生成手順と、
前記生成手順により生成されたファッション画像を提供する提供手順と、
をコンピュータに実行させ、
前記生成手順は、
前記所定画像が示すファッション性に、前記キーワードが示すファッション性を反映したファッション画像になるように前記ファッション画像を生成する
ことを特徴とする画像提供プログラム。
【請求項13】
コンピュータが実行する画像提供方法であって、
ファッション用語のキーワードを取得する取得工程と、
前記取得工程により取得されたキーワードに基づき所定画像からファッション画像を生成する生成工程と、
前記生成工程により生成されたファッション画像を提供する提供工程と、
を含み、
前記生成工程は、
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に基づいて、当該複数の学習用画像と当該所定のキーワードとの関係性を学習させたモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする画像提供方法。
【請求項14】
ファッション用語のキーワードを取得する取得手順と、
前記取得手順により取得されたキーワードに基づき所定画像からファッション画像を生成する生成手順と、
前記生成手順により生成されたファッション画像を提供する提供手順と、
をコンピュータに実行させ、
前記生成手順は、
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に基づいて、当該複数の学習用画像と当該所定のキーワードとの関係性を学習させたモデルを用いて前記所定画像からファッション画像を生成する
ことを特徴とする画像提供プログラム。