(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-08
(45)【発行日】2022-04-18
(54)【発明の名称】情報処理装置、方法及びプログラム
(51)【国際特許分類】
G06F 16/535 20190101AFI20220411BHJP
G06Q 30/02 20120101ALI20220411BHJP
G06N 3/08 20060101ALI20220411BHJP
G06N 20/00 20190101ALI20220411BHJP
【FI】
G06F16/535
G06Q30/02 300
G06N3/08
G06N20/00 130
(21)【出願番号】P 2019084366
(22)【出願日】2019-04-25
【審査請求日】2021-07-28
【早期審査対象出願】
(73)【特許権者】
【識別番号】517182918
【氏名又は名称】ピクシーダストテクノロジーズ株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech特許業務法人
(72)【発明者】
【氏名】佐々木 誠幸
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特許第6448839(JP,B2)
【文献】特開2019-046390(JP,A)
【文献】米国特許出願公開第2018/0314716(US,A1)
【文献】米国特許出願公開第2019/0026274(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
G06N 3/00-99/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
学習済みの生成モデル、及び、前記生成モデルへ入力する変数を推定するための推定モデルを記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備え、
前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、
ユーザに関連付けられる第1の入力値を取得するステップと、
前記推定モデルに対し前記第1の入力値を入力することで、推定結果として第1の変数を推定するステップと、
前記第1の変数を前記生成モデルに入力することにより第1のデータを生成するステップと、
生成された前記第1のデータを前記ユーザに提示するステップと、を行う、情報処理装置。
【請求項2】
前記記憶部は、前記生成モデルに入力する変数と、当該変数を入力することで生成されるデータに対して関連付けられるタグ情報とを記憶するように構成されており、
前記一又は複数のコンピュータプロセッサは、
前記記憶される複数の前記変数及び前記タグ情報を分析することにより、前記推定モデルを決定するステップを行い、
前記推定モデルは、前記タグ情報に関する入力値に応じて前記変数を推定する、請求項1に記載の情報処理装置。
【請求項3】
前記生成モデルは、変数の入力に応答して画像データを生成するものであり、
前記タグ情報は、画像データとして生成される対象物に関する情報、又は、当該対象物に対するユーザの評価項目に関する情報の少なくともいずれかを含む、請求項2に記載の情報処理装置。
【請求項4】
前記タグ情報は、前記対象物に関する情報であり、
前記対象物には、ファッションアイテム、日用品、
又は、芸術作
品の物品が含まれ、
前記対象物に関する情報には、前記物品の出所に関する情報、前記物品が生成された時期の情報、前記物品の色彩に関する情報の少なくともいずれかを含む、請求項3に記載の情報処理装置。
【請求項5】
前記タグ情報は、前記対象物に対するユーザの評価項目に関する情報であり、
前記対象物に関するユーザの評価項目に関する情報は、ユーザの趣味嗜好に適合する度合を示す情報、ユーザの感情の評価値の情報の少なくともいずれかを含む、請求項3に記載の情報処理装置。
【請求項6】
前記対象物には、製品、人、又は、動物が含まれ、
前記対象物に関するユーザの評価項目に関する情報は、生成される前記画像データに含まれる製品、人又は動物に対して前記趣味嗜好に適合する度合を示す情報、前記感情の評価値の情報の少なくともいずれかを含む、請求項5に記載の情報処理装置。
【請求項7】
前記一又は複数のコンピュータプロセッサは
、
学習データに基づいて、前記生成モデルを学習するステップを行い、
前記学習するステップにおいて、一又は複数の特定のブランドの製品の画像データを学習データとして前記生成モデルを学習し、
前記第1の入力値を取得するステップにおいて、前記第1の入力値として、前記ブランドに関する情報を受け付ける、請求項4から6のいずれか1項に記載の情報処理装置。
【請求項8】
前記第1の入力値を取得するステップにおいて、前記ユーザに対し、前記第1の入力値の入力を受け付けるための第1のインタフェースを提示し、
前記推定するステップにおいて、前記第1のインタフェースに対する入力結果を前記推定モデルに入力する、請求項1から7のいずれか1項に記載の情報処理装置。
【請求項9】
前記第1の入力値は、複数の入力項目の情報を含み、
前記第1の入力値を取得するステップにおいて、前記ユーザに対し、複数の入力項目について前記第1の入力値の入力を受け付け、
前記推定するステップにおいて、前記複数の入力項目の情報を含む前記第1の入力値に応答して前記第1の変数を推定する、請求項8に記載の情報処理装置。
【請求項10】
前記第1の入力値を取得するステップにおいて、前記ユーザに対し、多次元の入力を受け付ける画像を前記第1のインタフェースとして提示する、請求項9に記載の情報処理装置。
【請求項11】
前記提示するステップにおいて、前記第1の入力値の入力を受け付けるための前記第1のインタフェースと、生成される前記第1のデータと、前記
第1の入力値と、当該第1のデータを前記ユーザが確定する操作を受け付けるための第2のインタフェースとを一画面で前記ユーザに提示し、
前記一又は複数のコンピュータプロセッサは、前記確定する操作を受け付けることにより、前記
第1の入力値をタグ情報として前記第1
のデータと関連付けて前記記憶部に記憶させるステップを行う、請求項8から10のいずれか1項に記載の情報処理装置。
【請求項12】
前記一又は複数のコンピュータプロセッサは、ユーザの行動のログを取得するステップを行い、
前記第1の入力値を取得するステップにおいて、前記ユーザの行動のログに基づき前記第1の入力値を取得する、請求項1から11のいずれか1項に記載の情報処理装置。
【請求項13】
第3のインタフェースにより、所定の情報を前記ユーザに提示し、前記ユーザからの応答の内容に基づいて、前記第1の入力値を取得する、請求項1から12のいずれか1項に記載の情報処理装置。
【請求項14】
前記一又は複数のコンピュータプロセッサは
、
学習データに基づいて、前記生成モデルを学習するステップを行い、
前記学習するステップにおいて、データを生成する生成器と、
前記学習データ及び前記生成器により生成されたデータを識別する識別器と、を含む敵対的ネットワークの学習方法により、前記生成モデルを学習する、請求項1から
6のいずれか1項に記載の情報処理装置。
【請求項15】
コンピュータにより実行される方法であって、
前記コンピュータは、学習済みの生成モデル、及び、前記生成モデルへ入力する変数を推定するための推定モデルを記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備え、
前記方法は、前記一又は複数のコンピュータプロセッサが、コンピュータ読み取り可能な命令を実行することにより、
ユーザに関連付けられる第1の入力値を取得するステップと、
前記推定モデルに対し前記第1の入力値を入力することで、推定結果として第1の変数を推定するステップと、
前記第1の変数を前記生成モデルに入力することにより第1のデータを生成するステップと、
生成された前記第1のデータを前記ユーザに提示するステップと、を行うことを含む、方法。
【請求項16】
コンピュータにより実行されるプログラムであって、
前記コンピュータは、学習済みの生成モデル、及び、前記生成モデルへ入力する変数を推定するための推定モデルを記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備え、
前記プログラムは、前記一又は複数のコンピュータプロセッサに、
ユーザに関連付けられる第1の入力値を取得するステップと、
前記推定モデルに対し前記第1の入力値を入力することで、推定結果として第1の変数を推定するステップと、
前記第1の変数を前記生成モデルに入力することにより第1のデータを生成するステップと、
生成された前記第1のデータを前記ユーザに提示するステップと、を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書における開示は、情報処理装置、方法及びプログラムに関する。
【背景技術】
【0002】
学習データを用いて学習された学習済モデルを用いて、新たなデータを生成することが知られている。
【0003】
このような学習済みモデルを得る方法として、敵対的ネットワーク(GAN:Generative Adversarial Networks)、変分自己符号化器(VAE:Variational Auto Encoder)などの深層学習を利用する技術が知られている。例えば、特開2018-139071号公報(特許文献1)には、敵対的ネットワーク(GAN)を利用した学習方法について記載されている。GANは、生成器(Generator)と識別器(Discriminator)の2つのネットワークから構成されている。識別器は、入力されたデータが学習データであるか、又は、生成器によって生成されたものかを識別する。生成器は、学習データと同じようなデータを生成しようとする。生成器は、より精巧な偽物のデータを生成しようとし、識別器は、より正確に偽物のデータを見分けるように学習する。このように生成器と識別器とが学習を繰り返すことにより、学習データとは見分けのつかないデータを生成器が生成できるようにする。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
GANにより、学習データとは一見して見分けがつかない画像を生成することができる。一方、ユーザの趣味嗜好は様々である。そのため、GANにより生成される多様な画像には、ユーザの趣味嗜好に適合しないものも含まれる。ユーザが所望するものを考慮して生成器で画像を生成しようとすると、これらユーザの希望が反映された学習済みモデルを予め用意しておく必要がある。
【0006】
しかしながら、学習済みモデルを構築するには時間を要するため、ユーザの希望に応じた画像の生成にも長時間を要する。
したがって、ユーザの希望に応じた画像の生成を、よりいっそう容易にする技術が必要とされている。
【課題を解決するための手段】
【0007】
本開示に示す一実施形態によると、情報処理装置は、学習済みの生成モデル、及び、生成モデルへ入力する変数を推定するための関数を記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備える。一又は複数コンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、ユーザに関連付けられる第1の入力値を取得するステップと、推定モデルに対し第1の入力値を入力することで、推定結果として第1の変数を推定するステップと、第1の変数を生成モデルに入力することにより第1のデータを生成するステップと、生成された第1のデータをユーザに提示するステップと、を行う。
【発明の効果】
【0008】
一実施形態によると、ユーザの希望に応じたデータを生成するための時間を短縮化することができ、ユーザの操作感がよりいっそう向上する。
【図面の簡単な説明】
【0009】
【
図1】本実施形態の端末装置10のハードウェア構成例を示す図である。
【
図2】端末装置10の機能的な構成を示す図である。
【
図3】生成モデル学習モジュール1042の詳細を説明する図である。
【
図4】端末装置10が保持するデータのデータ構造を示す図である。
【
図5】推定モデル決定モジュール1043が、推定モデル183を得る過程を示す図である。
【
図7】端末装置10の動作を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、説明を繰り返さない。
【0011】
<概要>
本実施形態では、データ(例えば、画像データ)を生成するための学習済みモデルに潜在変数を与えることにより、当該潜在変数に応じたデータを得て、当該データに対し、ユーザの入力などによりタグ情報を設定する。学習済みモデルに対して様々な潜在変数を与えることにより、潜在変数に応じたデータが生成される。そのため、(i)入力となる潜在変数と、(ii)学習済みモデルにより生成されるデータと、(iii)当該データに設定されるタグとがデータベースに蓄積されていくこととなる。
【0012】
ここで、タグ情報を指定した場合に潜在変数を推定するモデルを用意しておくとする。この場合、当該指定されるタグ情報に基づいて潜在変数を推定し、推定した潜在変数を学習済みモデルに入力することでデータを得ることができる。ユーザが趣味嗜好等に基づいて入力操作によりタグ情報を指定した場合、これにより推定される潜在変数に基づき学習済みモデルで生成するデータは、ユーザの趣味嗜好等が反映されたものといえる。
【0013】
<構成>
図1は、本実施形態の端末装置10のハードウェア構成例を示す図である。端末装置10は、各ユーザが操作する装置である。端末装置10は、例えば据え置き型のPC(Personal Computer)、ラップトップPC、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末などにより実現される。端末装置10は、プロセッサ101と、メモリ102と、記憶部103と、入力装置104と、出力装置106と、通信IF(Interface)107とを備える。
【0014】
端末装置10は、ネットワークを介してサーバ等の他の装置(図示しない)と通信可能に接続される。端末装置10は、所定の通信規格に対応した無線基地局、IEEE802.11などの無線LAN規格に対応した無線LANルータ等の通信機器と通信することによりネットワークに接続される。ユーザは、例えば、オフィスに設置されるPC、外出時に使用する携帯端末のいずれからでもサーバと通信して、サーバを介したデータの入出力操作を行うことができる。例えば、ユーザは、オフィス滞在時であっても、外出時であっても、端末装置10によりサーバと通信し、サーバで管理される各種データを参照し、データを入力することができる。
【0015】
プロセッサ101は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。端末装置10は、一又は複数のコンピュータプロセッサを含んで構成されている。
【0016】
メモリ102は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
【0017】
記憶部103は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。
【0018】
入力装置104は、ユーザからの入力操作を受け付けるための装置(例えば、タッチセンシティブデバイス、マウス等のポインティングデバイス、キーボード、マイクロフォン、モーションセンサ等)である。
【0019】
出力装置106は、ユーザに対し情報を提示するための装置(ディスプレイ、スピーカ等)である。
【0020】
通信IF107は、端末装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。
【0021】
なお、
図1の例では、端末装置10は、単一のコンピュータにより構成されているが、これに限らず、例えばネットワークを介して接続された複数のコンピュータにより構成された形態であってもよい。
【0022】
また、図示していないが、端末装置10は、GPS(Global Positioning System)モジュール等により端末装置10の位置を検出する位置情報センサを含んでいてもよい。端末装置10は、端末装置10を使用するユーザの現在地を、位置情報センサにより取得することができる。この他にも、端末装置10は、端末装置10を振動させ、振動によりユーザに通知を行うためのバイブレータを含んでいてもよい。
【0023】
次に、端末装置10の機能的な構成について説明する。
図2は、端末装置10の機能的な構成を示す図である。
図2に示すように、端末装置10Aは、通信部107Aと、記憶部103Aと、制御部101Aとしての機能を発揮する。
【0024】
制御部101Aは、端末装置10Aのプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。各モジュールの詳細は後述する。
【0025】
記憶部103Aは、端末装置10が使用するデータ及びプログラムを記憶する。記憶部103Aは、生成モデル181と、生成画像データベース182と、推定モデル183と、ユーザ行動ログデータベース184とを記憶している。
【0026】
生成モデル181は、後述する生成モデル学習モジュールにより得られるモデルである。本実施形態では、生成モデル181は、潜在変数を入力とすることで、画像データを生成する。
【0027】
生成画像データベース182は、生成モデル181に入力として与える潜在変数と、生成モデル181によって生成された画像と、当該画像に対して設定されるタグ情報とを含むデータベースである。
【0028】
推定モデル183は、後述する推定モデル決定モジュール1043により得られるモデルである。
【0029】
ユーザ行動ログデータベース184は、ユーザが行動した内容をログとして記録するデータベースである。ユーザが行動した内容の情報としては、例えば、端末装置10又はユーザが装着するウェアラブルデバイスなど、ユーザが所持するデバイスのセンサ装置等により取得されるライフログデータがある。例えば、ユーザの位置情報、ユーザの音声、ユーザの生体情報その他の情報がライフログデータに含まれる。この他に、ユーザが行動した内容の情報としては、ユーザがブラウザ等によりウェブサイトにアクセスした履歴も含まれる。アクセスの履歴としては、例えば、ユーザがEC(electronic commerce)サイトを閲覧した場合に、当該ウェブサイトを閲覧していた時間、商品を指定したこと、購買を行ったことその他の情報がある。
【0030】
通信部107Aは、端末装置10Aが外部の装置と通信するための処理を行う。
【0031】
操作内容取得モジュール1041は、入力装置104に対するユーザの入力操作を取得して、操作内容を判別する。
【0032】
生成モデル学習モジュール1042は、データを生成するためのモデルを学習する。生成モデル学習モジュール1042は、学習済みのモデルを、生成モデル181として記憶部103に記憶させる。詳細は後述するが、本実施形態では、深層学習を利用してモデルを得るものとして説明する。具体的には、生成モデル学習モジュール1042は、敵対的ネットワーク(GAN)を利用して、画像データを生成するためのモデルを学習する。
【0033】
推定モデル決定モジュール1043は、生成モデル181に入力として与える変数(潜在変数)を推定するための関数を決定する。詳細は後述する。推定モデル決定モジュール1043は、決定した関数を、推定モデル183として記憶部103に記憶させる。
【0034】
潜在変数推定モジュール1044は、推定モデル183を利用して、生成モデル181に入力として与える変数を得る。詳細は後述するが、潜在変数推定モジュール1044は、ユーザに関連付けられる入力値を取得して、取得した入力値を推定モデル183の入力とすることで、生成モデル181に入力するための潜在変数を得ることができる。
【0035】
画像生成モジュール1045は、潜在変数推定モジュール1044により得られる潜在変数を生成モデル181の入力とすることで、データとして画像データを生成する。
【0036】
行動ログ解析モジュール1046は、ユーザ行動ログデータベース184に蓄積される、ユーザが行動した内容の情報に基づいて、潜在変数推定モジュール1044の入力とする変数を演算する。すなわち、ユーザが行動した内容の情報は、各種センサ装置等が生成した情報、ユーザがウェブサイトで行動した内容の情報などを含むため、これら情報を統合して、潜在変数推定モジュール1044の入力とするための潜在変数に変換する。
【0037】
図3は、生成モデル学習モジュール1042の詳細を説明する図である。
図3に示すように、生成モデル学習モジュール1042は、生成器301と、学習データセット302と、識別器303とを含む。上記のように、生成モデル学習モジュール1042は、敵対的ネットワークの学習方法の一例としてGANを利用するが、これに限られない。
図3において、「X」は識別器303に入力される入力変数である。「Y」は識別器303が出力する出力変数である。「Z」は生成器301に入力される入力変数(潜在変数)である。
【0038】
識別器303は、入力変数Xが学習データセット302であるか、生成器301により生成されたデータ(生成データ)であるかを識別可能なように学習される。
図3の例では、識別器303は、生成器301から生成されたデータに対し、出力Yが0になるように学習する。識別器303は、学習データセット302から選ばれた入力変数Xに対し、出力変数Yが1になるように学習する。すなわち、識別器303において、入力変数Xが生成器301により生成されたデータの場合は出力変数Yを0とし、入力変数Xが学習データセット302のものである場合は出力変数Yを1とするように、識別器303を構成する各パラメータの値が学習される。
【0039】
一方、生成器301は、識別器303が学習データセット302の学習データと識別できないデータを生成するように学習される。
図3の例では、生成器301は、ノイズzを入力とし、学習データと同じようなデータを生成するよう学習する。例えば、入力変数Xが学習データセット302の学習データである場合は出力変数Yが0になるように、生成器301を構成する各パラメータの値が学習される。上記学習を繰り返すことで、識別器303の識別精度が向上し、生成器301の生成精度(生成器301が生成するデータが学習データセット302の学習データに類似する精度)が向上する。
【0040】
上記のような学習は、以下の(式1)に示す評価関数を解くことにより実現される。(式1)において、「V」は評価値、「D」は識別器303を構成するパラメータ群、「G」は生成器301を構成するパラメータ群、E[・]は期待値、「x~pdata」はデータセットからサンプリングされた学習データの集合(入力変数X)に相当する。また、「z~pz」は潜在変数Z、D(X)は入力変数Xが入力された場合の出力変数Y、G(Z)は潜在変数Zを入力とした場合に生成されるデータに相当する。
【数1】
【0041】
(式1)の式の右辺第1項は、識別器303の評価値に相当し、識別器303の識別精度が高いほど、高い値となる。(式1)の式の右辺第2項は、生成器301の評価値に相当し、識別器303が、生成器301が生成するデータを、学習データセット302のデータであると誤認識するほど(つまり、識別器303の識別エラーが多いほど)、高い値となる。
【0042】
よって、識別器303の学習が進むほど、(式1)の右辺第1項が高くなり、右辺第2項が低くなる。また、生成器301の学習が進むほど、(式1)の右辺第1項が低くなり、右辺第2項が高くなる。
【0043】
<データ構造>
図4は、端末装置10が保持するデータのデータ構造を示す図である。
【0044】
図4に示すように、生成画像データベース182の各レコードは、項目「生成画像ID」と、項目「画像生成時の潜在変数」と、項目「タグ」とを含む。
【0045】
項目「生成画像ID」は、生成モデル181が生成した画像を特定するための識別情報である。
【0046】
項目「画像生成時の潜在変数」は、項目「生成画像ID」により特定される画像を生成モデル181が生成した際に、入力値として与えられる潜在変数である。
【0047】
項目「タグ」は、項目「生成画像ID」により特定される画像に対して設定されたタグ情報の内容を示す。
【0048】
タグ情報は、画像に含まれる対象物に関する情報であってもよい。以下に説明するように、タグ情報は、対象物の「売れやすさ」、「ブランド」、「年代」、「色彩パターン」、「ファッション系統」など、1又は複数の項目の情報を含む。
画像に含まれる対象物としては、ファッションアイテム、日用品(電化製品など)、芸術作品その他の物品がある。これらの物品は、その外観がユーザにとって鑑賞の対象となるものであり、また、購買の動機となるものである。
【0049】
タグ情報には、対象物の出所(ブランド名、販売会社など)に関する情報が含まれ得る。タグ情報には、対象物が生成された時期の情報(製作された年代、販売開始された時期、公開された時期など)が含まれる。タグ情報には、対象物の色彩に関する情報が含まれる。このように、タグ情報に設定される内容は、仮にユーザが対象物を購入する場合に、購入をする決断をするために参照される項目であるとしてもよい。例えば、生成モデル181が生成した画像に対し、ユーザが、タグ情報として特定のブランドを指定したとする。この場合、タグ情報は、画像に含まれる対象物が、「特定のブランドであろう」とユーザが評価した度合いを示すこととしてもよい。また、タグ情報には、ファッション系統の情報が含まれることとしてもよい。ファッション系統とは、「カジュアル」、「きれいめ」、「コンサバ」、「ガーリッシュ」など、ユーザの視点から分類されるカテゴリである。この場合、タグ情報は、画像に含まれる対象物が、特定の系統に適合するとユーザが評価した度合いを示すこととしてもよい。
【0050】
タグ情報は、当該対象物に対するユーザの評価項目に関する情報であってもよい。例えば、ユーザが当該画像に対して入力した評価値を含む。評価値としては、例えば、当該画像に含まれる対象物が、ファッションアイテムなどユーザの趣味嗜好により購買される傾向があるものである場合、当該対象物をユーザが評価する度合(「売れやすさ」、「流行しそう」などと表現してもよい)を数値化したものとしてもよい。また、タグ情報における評価値としては、ユーザの感情を評価した値であるとしてもよい。例えば、画像に対して、対象物を好意的に評価する「いいね」、対象物を否定的に評価する「そうでもない」をユーザが指定できることとしてもよい。
【0051】
また、画像に含まれる対象物としては、「製品」、「人物」、「動物」などが含まれ得る。タグ情報は、「製品」、「人物」、「動物」に対して趣味嗜好に適合する度合いを示す情報であるとしてもよいし、感情の評価値の情報であるとしてもよい。
【0052】
ユーザ行動ログデータベース184の各レコードは、ユーザの識別情報(ユーザID)と対応付けて、項目「サイト行動ログ」と、項目「SNS行動ログ」と、項目「ライフログデータ」とを含んで構成されている。
【0053】
項目「サイト行動ログ」は、ユーザがブラウザ等によりウェブサイトを訪問し、ウェブサイト(例えば、ECサイト)内で行った行動のログを示す。例えば、「サイト行動ログ」には、ウェブサイトにアクセスしたタイミングの情報、当該ウェブサイトでユーザが閲覧したページの情報、当該ウェブサイトでユーザが購買行動を行ったページ又は画像の情報などを含む。
【0054】
項目「SNS行動ログ」は、ユーザがSNS(Social Network Service)において行った行動のログを示す。行動のログとして、例えば、ユーザが他のユーザの情報を閲覧したこと、ユーザが画像などのデータに対してアクションを行ったこと(「いいね」を押下した分布)などが含まれる。
【0055】
項目「ライフログデータ」は、端末装置10、又は、ウェアラブル装置によって取得される各種ライフログのデータである。例えば、ユーザの位置の情報、音声の情報などが含まれる。ライフログの情報としては、他にも、ユーザが端末装置10等で動作させることで生成されるデータも含む。例えば、ユーザが端末装置10のメモ作成用のアプリケーションを実行した場合に、当該メモの内容がライフログの情報になり得る。
【0056】
図5は、推定モデル決定モジュール1043が、推定モデル183を得る過程を示す図である。
【0057】
図5(A)の状態に示すように、まず、生成モデル181(生成器301を学習させた結果)に対して潜在変数を入力することにより、画像を生成する。ここで、潜在変数は、N(Nは1以上の整数)次元の値を有するものとする。生成モデル181によって生成された画像に対して、タグ情報を設定する。
【0058】
図5(B)の状態に示すように、生成画像データベース182には、潜在変数と、タグ情報とが対応付けて記憶されている。例えば、タグ情報としてユーザの評価値(画像に含まれる製品を気に入るか否か、など)を使用することがあり得る。なお、
図5(B)の状態は、上述するように、生成画像データベース182を概念的に示したものである。
図5(B)の状態に示すように、複数の潜在変数について、(i)潜在変数と、(ii)設定されるタグ情報とが関連付けられている。これらデータセットに深層学習、又は重回帰分析などを行うことにより、推定モデル183を得る。
【0059】
図5では、タグ情報として、1次元の値を使用して、推定モデル183を得る例を示しているが、タグ情報は、多次元の値を有するベクトルであってもよい。例えば、タグ情報は、複数の項目を有しており、それぞれの項目について評価値を有することとしてもよい。例えば、タグ情報が、ファッションブランドに関する評価値と、年代に関する評価値とを有する(例えば、ファッションアイテムなど物品に関する項目として、「特定のブランドっぽさ」と、「発表された年代」などの複数の項目)といったように、別の概念の評価値を有することとしてもよい。また、タグ情報が、第1のブランドに対応する値と、第2のブランドに対応する値を有する(例えば、物品に関する項目として、「第1のブランドっぽさ」と、「第2のブランドっぽさ」などの複数の項目)といったように、同概念だが別の種類の評価値を有することとしてもよい。
【0060】
図6は、本実施形態における画面例を示す図である。
図6(A)の画面例は、生成モデル181に潜在変数Zを入力値として与えることにより生成された画像に対して、ユーザの評価を受け付ける局面を示す。これにより、生成画像データベース182において、潜在変数と、画像の識別情報と対応付けて、ユーザの評価をタグ情報として保持することができる。
【0061】
図6(A)の画面例では、一例として、出力装置106がディスプレイであり、入力装置104がタッチセンシティブデバイスである場合を示す。端末装置10は、出力装置106(ディスプレイ)に、画像表示部106Aと、評価値表示部106Bと、評価入力部106Cとを表示する。
【0062】
画像表示部106Aは、生成モデル181に潜在変数を入力することで生成された画像を表示する。
【0063】
評価値表示部106Bは、ユーザが入力している評価値を表示する。
【0064】
評価入力部106Cは、ユーザから、評価値の入力を受け付ける。評価入力部106Cは、図示するように、評価項目として、画像表示部106Aに表示される対象物(図示する例では、ファッションアイテム)に対して、売れやすさ(流行りそうか)を設定している。ユーザは、スライドバー106Dにより、売れやすさ(流行りそうか、そうではなさそうか)を入力する。ユーザは、指106Fにより、スライドバー106Dのアイコン106Eをスライドさせる。図示する例では、端末装置10は、評価値として一定の範囲の値をユーザから受け付ける。端末装置10は、ユーザがアイコン106Eをスライドバー106D上で左右に移動させることに伴って、スライドバー106D上の位置に応じた評価値の入力を受け付けて、その評価値を評価値表示部106Bに表示する。
【0065】
端末装置10は、ユーザから、対象となる評価項目(例えば、「売れやすさ」)の評価値を確定させる操作を受け付けることにより、生成画像データベース182を更新して、画像の識別情報と関連付けて(つまり、当該画像を生成モデル181により生成する際の潜在変数と関連付けて)、当該評価項目の評価値をタグ情報として保持する。
【0066】
図6(B)の画面例は、ユーザが入力値を指定することで、推定モデル183により潜在変数を推定し、推定した潜在変数により画像を生成する局面を示す。端末装置10は、出力装置106に、調整画像表示部106Gと、評価値表示部106Hと、評価値入力部106Jと、登録受付部106Lと、情報取得部106Mとを表示する。
【0067】
端末装置10は、ユーザが指106Fにより、アイコン106Eを、評価値入力部106Jに表示されるスライドバー106K上で移動させることで、入力する評価値を調整する。評価値表示部106Hは、ユーザが入力している評価値を表示するための領域である。
【0068】
端末装置10は、ユーザが評価値を変更させる操作を行うことに応答して、都度、推定モデル183により、潜在変数を推定する。端末装置10は、推定した潜在変数を生成モデル181の入力値として画像を生成し、生成した画像を調整画像表示部106Gに表示する。これにより、ユーザは、スライドバー106K上で評価値の入力を更新するたびに、画像表示部106Aに表示される画像を確認することができる。
【0069】
登録受付部106Lは、ユーザが、調整画像表示部106Gに表示される画像を保存するための操作を受け付ける。これにより、端末装置10は、調整画像表示部106Gに表示される画像の識別情報と、ユーザが入力した評価値と、推定モデル183により推定された潜在変数とを関連付けて、例えば生成画像データベース182に保持させる。端末装置10は、このようにして生成画像データベース182が更新されることに応答して、推定モデル決定モジュール1043により推定モデル183を決定することとしてもよい。
【0070】
情報取得部106Mは、ユーザのライフログ情報に基づいて、推定モデル183に入力するための値を取得する。端末装置10は、情報取得部106Mへのユーザの操作に応答して、ユーザ行動ログデータベース184の項目「ライフログデータ」を読み出し、読み出した各種ライフログのデータを参照して、ユーザの嗜好性に関する指標値を計算する。これにより、端末装置10は、指標値を推定モデル183に入力することにより潜在変数を推定し、推定した潜在変数と生成モデル181とにより調整画像表示部106Gに画像を表示することができる。
【0071】
図6(C)の画面例は、
図6(B)の画面例のように、推定モデル183により潜在変数を推定することで画像を生成する局面を示す。
図6(B)の画面例と比較すると、
図6(B)の画面例では、ユーザが入力する評価値が一次元の値であるのに対し、
図6(C)の画面例では、多次元の値である点で異なる。
【0072】
端末装置10は、
図6(B)の画面例とは異なる評価値入力部106Pと、評価値表示部106Nとを表示する。
【0073】
端末装置10は、評価値入力部106Pにおいて、多次元の値の入力をユーザから受け付ける入力受付画像106Qを表示する。
図6(C)の画面例では、一例として、3次元(x、y、z)の評価値をユーザから受け付けることとしている。端末装置10は、入力受付画像106Qとして、各次元の値を調整可能な図形を表示する。図示する例では、入力受付画像106Qは、六角形の形状を有している。当該六角形の形状において、頂点間を接続することで、3次元の値の入力を受け付ける。例えば、水平方向は、「x」の値の入力を示し、右上がりの方向は、「y」の値の入力を示し、右下がりの方向は、「z」の値の入力を示す。ユーザは、指106Fにより、アイコン106Eを、入力受付画像106Qで移動させることにより、3次元の評価値を入力することができる。
【0074】
端末装置10は、ユーザが評価値入力部106Pで入力した多次元の入力値を、評価値表示部106Nに表示する。
【0075】
以上のように、
図6(B)の画面例、
図6(C)の画面例では、スライドバー106K、評価値入力部106Pにより、ユーザが評価値を入力する例を説明した。この他に、ユーザが評価値を入力することなく、ユーザから所定の操作を受け付けることで、推定モデル183に入力する入力値を決定することとしてもよい。
【0076】
図6(D)の画面例は、端末装置10が、ユーザに対して画像などのデータを複数提示して、ユーザが選択する操作を受け付けることにより、ユーザの趣味嗜好等を推定する局面を示す。端末装置10は、このようにしてユーザの趣味嗜好等の傾向を予測することで、推定モデル183に与える入力値を決定する。
【0077】
図6(D)の画面例に示すように、端末装置10は、出力装置106に、複数の画像(画像106R1、106R2、106R3、106R4)を表示している。当該画像は、例えばファッションアイテムなどの物品の画像である。これら画像には、予め、ブランド名、製作された年代、ファッション系統等の分類が付与されている。
このように、ユーザにサンプルを提示して、ユーザの趣味嗜好等の傾向を推定する際、サンプルとして、音楽をユーザに提示することとしてもよい。例えば、ユーザに提示する音楽がカテゴリに分類されており、ユーザが選択した音楽に付与された分類に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。また、ユーザに雑誌(ファッション雑誌など)コンテンツを提示することとしてもよい。雑誌は、通常、顧客セグメントを定義して製作されていることが多いため、ユーザが選択した雑誌コンテンツに付与された情報に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。また、ユーザに、有名な人物(芸能人、著名人)の情報を提示することとしてもよい。これら人物に付与された情報(年代、ファッション傾向、製作しているコンテンツ等)に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。
【0078】
このように、端末装置10は、ユーザに複数の画像を提示して、ユーザから選択を受け付ける処理を繰り返すにつれて、選択された画像に付与された分類に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。端末装置10は、このようにして推定したユーザの趣味嗜好等の傾向のデータに基づいて、所定の処理を行うことにより、推定モデル183に入力する入力値を決定する。
【0079】
<動作>
図7は、端末装置10の動作を示すフローチャートである。
【0080】
ステップS701において、端末装置10(操作内容取得モジュール1041)は、推定モデル183に入力するための入力値をユーザから受け付けるUI(User Interface)部品を出力装置106に表示する。
図6(B)の画面例の評価値入力部106Jを表示すること等に対応する。
【0081】
ステップS705において、端末装置10(潜在変数推定モジュール1044)は、ユーザが指定した入力値を、推定モデル183に入力する。これにより、端末装置10は、潜在変数の推定結果を取得する。
【0082】
ステップS709において、端末装置10(画像生成モジュール1045)は、ステップS705で取得した潜在変数を、生成モデル181の入力とすることにより画像を生成する。
【0083】
ステップS713において、端末装置10は、生成した画像と、ユーザが指定した入力値とを出力装置106に表示する。
図6(B)の画面例の調整画像表示部106G、評価値表示部106Hを表示すること等に対応する。
【0084】
<変形例>
(1)生成モデル181の学習方法
上記の実施形態で、
図3等を用いて、生成モデル181の学習方法について説明した。ここで、学習用のデータとして、例えばファッションアイテムなどの物品において特定のブランドの画像を用いることとしてもよい。これにより、生成モデル181は、特定のブランドの物品のような画像を生成することができる。
また、学習用のデータとして、複数のブランドの画像を用いることとしてもよい。これにより、生成モデル181は、複数のブランドが混合したような画像を生成することができる。
【0085】
(2)画像生成方法を提供する態様
例えば、本実施形態における画像生成方法を、ECサイト等のウェブサイトにおいて提供することとしてもよい。例えばファッションアイテムを販売するECサイトである場合、当該ECサイトにおいてユーザが所定の行動をしたことに応答して、
図6(B)の画面例に示すようにユーザから評価値の入力を受け付けて調整画像表示部106Gに画像を表示することとしてもよい。当該
図6(B)の画面例において登録受付部106Lへの操作をユーザが行うこと等により、ECサイト側において、ユーザが所望するファッションアイテムの情報を取得することができる。
【0086】
ここで、所定の行動としては、例えば、ユーザがアイテムを検索するためにキーワードを入力したこと、ユーザがアイテムを購入するにあたりカートにアイテムを追加したこと、ユーザがアイテムを購入する決済処理を行うこと、等が含まれる。ECサイトは、ユーザがこれら所定の行動を行ったときに、抽選で、
図6(B)の画面例のようにユーザから評価値の入力を受け付ける画面を表示することとしてもよい。これにより、ECサイトでの購入体験に意外感を持たせて、継続してECサイトを訪問するよう動機づけることができ得る。
【0087】
<付記>
以上の実施形態で説明した事項を、以下に付記する。
【0088】
(付記1) 一実施形態によると、情報処理装置(10)が提供される。
情報処理装置(10)は、学習済みの生成モデル(181)、及び、生成モデルへ入力する変数を推定するための推定モデル(183)を記憶する記憶部(103A)と、一又は複数のコンピュータプロセッサ(101A)と、を備える。一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、ユーザに関連付けられる第1の入力値を取得するステップ(1041、106J、106P)と、推定モデルに対し第1の入力値を入力することで、推定結果として第1の変数を推定するステップ(1044)と、第1の変数を生成モデルに入力することにより第1のデータを生成するステップ(1045)と、生成された第1のデータをユーザに提示するステップ(106G)と、を行う。
【0089】
(付記2) (付記1)において、記憶部は、生成モデルに入力する変数と、当該変数を入力することで生成されるデータに対して関連付けられるタグ情報とを記憶するように構成されている(182)。一又は複数のコンピュータプロセッサは、記憶される複数の変数及びタグ情報を分析することにより、推定モデルを決定するステップ(10443、
図5)を行い、推定モデルは、タグ情報に関する入力値に応じて変数を推定する。
【0090】
(付記3) (付記2)において、生成モデルは、変数の入力に応答して画像データを生成するものであり、タグ情報は、画像データとして生成される対象物に関する情報、又は、当該対象物に対するユーザの評価項目に関する情報の少なくともいずれかを含む(182)。
【0091】
(付記4) (付記3)において、タグ情報は、対象物に関する情報であり、対象物には、ファッションアイテム、日用品、芸術作品その他の物品が含まれ、対象物に関する情報には、物品の出所に関する情報、物品が生成された時期の情報、物品の色彩に関する情報の少なくともいずれかを含む(182)。
【0092】
(付記5) (付記3)において、タグ情報は、対象物に対するユーザの評価項目に関する情報であり、対象物に関するユーザの評価項目に関する情報は、ユーザの趣味嗜好に適合する度合を示す情報、ユーザの感情の評価値の情報の少なくともいずれかを含む(182)。
【0093】
(付記6) (付記5)において、対象物には、製品、人、又は、動物が含まれ、対象物に関するユーザの評価項目に関する情報は、生成される画像データに含まれる製品、人又は動物に対して趣味嗜好に適合する度合を示す情報、感情の評価値の情報の少なくともいずれかを含む(182)。
【0094】
(付記7) (付記4)から(付記6)のいずれかにおいて、一又は複数のコンピュータプロセッサは、学習データに基づいて、生成モデルを学習するステップを行い(1042)、学習するステップにおいて、一又は複数の特定のブランドの製品の画像データを学習データとして生成モデルを学習し、第1の入力値を取得するステップにおいて、第1の入力値として、ブランドに関する情報を受け付ける。
【0095】
(付記8) (付記1)から(付記7)のいずれかにおいて、第1の入力値を取得するステップにおいて、ユーザに対し、第1の入力値の入力を受け付けるための第1のインタフェースを提示し(106J、106P)、推定するステップにおいて、第1のインタフェースに対する入力結果を推定モデルに入力する。
【0096】
(付記9) (付記8)において、第1の入力値は、複数の入力項目の情報を含み、第1の入力値を取得するステップにおいて、ユーザに対し、複数の入力項目について第1の入力値の入力を受け付け(106P)、推定するステップにおいて、複数の入力項目の情報を含む第1の入力値に応答して第1の変数を推定する。
【0097】
(付記10) (付記9)において、第1の入力値を取得するステップにおいて、ユーザに対し、多次元の入力を受け付ける画像(106Q)を第1のインタフェースとして提示する。
【0098】
(付記11) (付記8)から(付記10)のいずれかにおいて、提示するステップにおいて、第1の入力値の入力を受け付けるための第1のインタフェース(106J)と、生成される第1のデータ(106G)と、入力値(106H)と、当該第1のデータをユーザが確定する操作を受け付けるための第2のインタフェース(106L)とを一画面でユーザに提示し、一又は複数のコンピュータプロセッサは、確定する操作を受け付けることにより、入力値をタグ情報として第1データと関連付けて記憶部に記憶させるステップを行う(182)。
【0099】
(付記12) (付記1)から(付記11)のいずれかにおいて、一又は複数のコンピュータプロセッサは、ユーザの行動のログを取得するステップを行い(184)、第1の入力値を取得するステップにおいて、ユーザの行動のログに基づき第1の入力値を取得する。
【0100】
(付記13) (付記1)から(付記12)のいずれかにおいて、第3のインタフェースにより、所定の情報をユーザに提示し(106R1、106R2、106R3、106R4)、ユーザからの応答の内容に基づいて、第1の入力値を取得する。
【0101】
(付記14) (付記1)から(付記13)のいずれかにおいて、一又は複数のコンピュータプロセッサは、学習データに基づいて、生成モデルを学習するステップを行い(1042)、学習するステップにおいて、データを生成する生成器(301)と、学習データ(302)及び生成器により生成されたデータを識別する識別器(303)と、を含む敵対的ネットワークの学習方法により、生成モデルを学習する。
【0102】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。