(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-01
(45)【発行日】2024-04-09
(54)【発明の名称】対象属性表現を生成可能な対象属性表現生成モデル、対象属性推定装置及び方法
(51)【国際特許分類】
G06Q 50/10 20120101AFI20240402BHJP
【FI】
G06Q50/10
(21)【出願番号】P 2021034208
(22)【出願日】2021-03-04
【審査請求日】2023-02-10
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】石川 雄一
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】特開2014-106943(JP,A)
【文献】特開2015-164022(JP,A)
【文献】特開2018-45505(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 16/00-16/958
G06N 99/00
(57)【特許請求の範囲】
【請求項1】
対象の表現ベクトルを、別の表現ベクトル空間の要素である別の表現ベクトルに写像するコンピュータを機能させる対象属性表現生成モデルであって、
入力された当該表現ベクトル
に対し訓練済みの写像
演算子を作用させて、当該別の表現ベクトルを
生成し、当該対象の所定属性に係る情報として出力する
、又は、訓練済みのニューラルネットワークアルゴリズムであり、当該表現ベクトルを入力として受け取って、当該別の表現ベクトルを、当該対象の所定属性に係る情報として出力する写像部
としてコンピュータを機能させ、
当該写像演算子又は当該ニューラルネットワークアルゴリズムは、前記所定属性についての当該対象間の類似の度合いに関連している若しくは関連する可能性のある、当該対象間の所定関係の強さ指標について、当該所定関係の強さ指標が、写像して得られた2つの別の表現ベクトルに係る対象同士における当該類似の度合いをより大きくするもの若しくはより大きくする可能性のあるものとなっているほど、前記2つの別の表現ベクトルの間の離隔度合いが、より小さくなるように訓練され
ている
ことを特徴とする対象属性表現生成モデル。
【請求項2】
当該写像演算子又は当該ニューラルネットワークアルゴリズムは、前記所定属性についての当該対象間の類似の度合いと正に相関する若しくは正に相関する可能性のある当該所定関係の強さ指標に関し、写像して得られた2つの別の表現ベクトルに係る対象同士がより強いものとなっているほど、前記2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されていることを特徴とする請求項1に記載の対象属性表現生成モデル。
【請求項3】
当該写像演算子又は当該ニューラルネットワークアルゴリズムは、
当該所定関係の強さ指標に関してより強いものとなっている対象同士に係る2つの別の表現ベクトルであって、前記所定属性とは別の属性に関して異なる若しくは遠い関係にある前記対象同士に係る2つの別の表現ベクトルについて、該2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されている、及び/又は、
当該所定関係の強さ指標に関してより弱いものとなっている対象同士に係る2つの別の表現ベクトルであって、前記所定属性とは別の属性に関して同一の若しくは近い関係にある前記対象同士に係る2つの別の表現ベクトルについて、該2つの別の表現ベクトルの間の離隔度合いがより大きくなるように訓練されている
ことを特徴とする請求項2に記載の対象属性表現生成モデル。
【請求項4】
当該対象は人間であって、前記所定属性はパーソナリティであり、当該所定関係の強さ指標は、血縁関係にある対象同士を、若しくは血縁関係が濃い対象同士ほどより強いものとする指標、友人・知人関係にある対象同士を、若しくは友人・知人関係が深い対象同士ほどより強いものとする指標、親しい関係にある対象同士を、若しくは親しい対象同士ほどより強いものとする指標、相性のよい対象同士を、若しくは相性がよい対象同士ほどより強いものとする指標、特定の遺伝子配列が同一である対象同士を、若しくは特定の遺伝子配列が類似している対象同士ほどより強いものとする指標、及び/又は、脳波から抽出された特徴量が類似している対象同士ほどより強いものとする指標であることを特徴とする請求項1から3のいずれか1項に記載の対象属性表現生成モデル。
【請求項5】
当該写像演算子又は当該ニューラルネットワークアルゴリズムは、前記所定属性についての当該対象間の類似の度合いと負に相関する若しくは負に相関する可能性のある当該所定関係の強さ指標に関し、写像して得られた2つの別の表現ベクトルに係る対象同士がより弱いものとなっているほど、前記2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されていることを特徴とする請求項1に記載の対象属性表現生成モデル。
【請求項6】
当該写像演算子又は当該ニューラルネットワークアルゴリズムは、
当該所定関係の強さ指標に関してより弱いものとなっている対象同士に係る2つの別の表現ベクトルであって、前記所定属性とは別の属性に関して異なる若しくは遠い関係にある前記対象同士に係る2つの別の表現ベクトルについて、該2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されている、及び/又は、
当該所定関係の強さ指標に関してより強いものとなっている対象同士に係る2つの別の表現ベクトルであって、前記所定属性とは別の属性に関して同一の若しくは近い関係にある前記対象同士に係る2つの別の表現ベクトルについて、該2つの別の表現ベクトルの間の離隔度合いがより大きくなるように訓練されている
ことを特徴とする請求項5に記載の対象属性表現生成モデル。
【請求項7】
当該対象はユーザであって、前記所定属性はパーソナリティであり、
当該表現ベクトルは、ユーザ属性情報生成モデルによって生成された、当該ユーザのパーソナリティを含むユーザ属性を表現した情報であるユーザ属性表現ベクトルであり、
前記ユーザ属性情報生成モデルは、
複数の行動ドメインの行動ドメイン毎に設定されたドメイン特定回帰ニューラルネットワーク(RNN)セルであって、当該行動ドメインにおける当該ユーザの行動に係る情報であるドメイン行動情報を受け取り、前の時点で自ら生成した隠れ状態情報であるドメイン特定隠れ状態情報に対し当該ドメイン行動情報を反映させて、新たなドメイン特定隠れ状態情報を生成する複数のドメイン特定RNNセルと、
当該ユーザを識別する情報から当該ユーザ属性表現ベクトルを生成する、前記複数のドメイン特定RNNセルと合せて訓練されるユーザ表現生成部と、
生成された当該ドメイン特定隠れ状態情報と、生成された当該ユーザ属性表現ベクトルとを受け取り、前の時点で自ら生成した隠れ状態情報であるドメイン非依存隠れ状態情報に対し、当該ドメイン特定隠れ状態情報及び当該ユーザ属性表現ベクトルを反映させて、新たなドメイン非依存隠れ状態情報を生成するドメイン非依存RNNセルと
してコンピュータを機能させるモデルである
ことを特徴とする請求項1から6のいずれか1項に記載の対象属性表現生成モデル。
【請求項8】
当該対象はユーザであって、前記所定属性はパーソナリティであり、
当該表現ベクトルは、当該ユーザにおける所定の行動に係る情報を用い、ユーザ表現学習(URL,User Representation Learning)技術に係る手法によって算出された、当該ユーザのユーザ属性を表現したユーザ属性表現ベクトルであることを特徴とする請求項1から6のいずれか1項に記載の対象属性表現生成モデル。
【請求項9】
前記ユーザ表現学習技術に係る手法は、行列因子分解(Matrix factorization)法であることを特徴とする請求項8に記載の対象属性表現生成モデル。
【請求項10】
請求項1から9のいずれか1項に記載の対象属性表現生成モデルを用いて当該別の表現ベクトルを生成し、生成した当該別の表現ベクトルを、当該対象の前記所定属性に係る情報として出力することを特徴とする対象属性推定装置。
【請求項11】
訓練済みの当該写像演算子又は訓練済みの当該ニューラルネットワークアルゴリズムを得るように訓練を行うことによって、請求項1から9のいずれか1項に記載の対象属性表現生成モデルを構築し、
構築した前記対象属性表現生成モデルを用いて当該別の表現ベクトルを生成し、生成した当該別の表現ベクトルを、当該対象の前記所定属性に係る情報として出力する
ことを特徴とする、コンピュータに
よって実施される対象属性推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象の有する属性、例えばユーザ属性の分散表現を取り扱う技術に関する。
【背景技術】
【0002】
人間の性格、人格、気質や、個性、さらには価値観といったような精神面の指標を全体的に捉えた特性であるパーソナリティは、各種商品・サービスの購入・選択といった様々な行動領域(行動ドメイン)における行動内容に少なからぬ影響を与えることが知られている。このため近年、ユーザの行動を予測したり、提供する商品・サービスをパーソナライズしたりすることを目的として、ユーザのパーソナリティを把握する試みが盛んに行われている。
【0003】
今日、人間のパーソナリティは「特性論」と呼ばれる考え方に従い把握するのが一般的である。この特性論では、人間のパーソナリティは、複数の特性で構成されていて各特性の高低(スコア)で表現することができるとしている。例えば、特性論に基づくパーソナリティモデルの代表例である「Big Five」は、人間のパーソナリティが知的好奇心(O: Openness to experience)、誠実性(C: Conscientiousness)、外向性(E: Extraversion)、協調性(A: Agreeableness)、及び情緒安定性(N: Neuroticism)の5つの特性で構成されるとしており、人間の性格をこれら5特性(OCEAN)のスコアの組で表現する。
【0004】
このようなパーソナリティを測定する手法として、質問紙調査がよく用いられる。例えば、Big Five測定用の質問紙として代表的な「Big Five Scales」は、合計60の項目からなる質問群を被験者に回答させるものであり、例えば知的好奇心(O)の測定においては、「独創的な」や「多才の」等の質問に対し「まったくあてはまらない(1点)」~「非常にあてはまる(7点)」の7段階で回答させ、全質問の合計得点で知的好奇心(O)のスコアを決定する仕組みとなっている。
【0005】
一方、膨大なユーザに対し質問紙調査を実施することは多大な時間とコストがかかることを踏まえ、最初に少数のユーザに対して質問紙調査を実施し、その回答結果と当該ユーザの行動データとを用いて当該ユーザのパーソナリティを推定する技術の研究も広く行われている。
【0006】
非特許文献1はこのような技術のサーベイ論文であり、例えば、SNS(Social Networking Service)への投稿内容や、SNSで繋がっている友人の数、携帯端末の発信履歴や、端末位置情報に基づき導出される移動パターン、さらには通話における発話の速度・抑揚や、声の大小等、様々なユーザの行動データを用いて、当該ユーザのパーソナリティを推定する技術が紹介されている。
【先行技術文献】
【非特許文献】
【0007】
【文献】A. Vinciarelli and G. Mohammadi, "A Survey of Personality Computing,", IEEE Transactions on Affective Computing, vol. 5, no. 3, pp. 273-291, 2014年,<https://doi.org/10.1109/TAFFC.2014.2330816>
【文献】Donkers, T., Loepp, B., & Ziegler, J., "Sequential user-based recurrent neural network recommendations", RecSys'17 - Proceedings of the 11th ACM Conference on Recommender Systems, pp. 152-160, 2017年, <https://doi.org/10.1145/3109859.3109877>
【発明の概要】
【発明が解決しようとする課題】
【0008】
以上説明したように従来、パーソナリティの測定手法として様々な技術が開発されてきたが、これらの技術に共通する解決すべき課題として、(a)測定粒度(情報粒度)の粗さと、(b)信頼性の低さとが挙げられる。
【0009】
最初に上記(a)の測定粒度の粗さであるが、これは、ユーザの行動データから当該ユーザのパーソナリティを推定する技術を含め、「特性論」に基づきパーソナリティを把握する技術に顕著な課題となっている。例えば、Big Fiveの5つの特性は元来、辞書から抜き出した膨大な数の性格表現単語を、統計的な手法によって5つの類似概念単語グループに集約し、この集約結果に基づいて人間が解釈し易いように決定されたものである。
【0010】
ここで、この集約の過程において、性格表現単語の本来有する意味合いにおける細かな若しくは微妙な相違部分が失われてしまっている。例えば、Big Fiveのうちの1つである誠実性(C)は、「真面目」「勤勉」「計画性がある」等の性格表現を一特性に集約したものとなっており、この誠実性(C)の測定結果として得られるのは単一のスコアに過ぎず、集約前の性格表現1つ1つの意味合いの相違部分は、測定結果から失われているのである。
【0011】
次に上記(b)の信頼性の低さであるが、これは特に、質問紙調査によるパーソナリティ測定を含む技術に顕著な課題となっている。例えば、質問紙の質問に対する被験者の回答態度には通常、相当のばらつきが存在する。具体的には、自分の本来の考えではなく「こうあるべき」との考えに基づいて回答を行うケースや、回答自体を面倒な作業と捉えて出鱈目な回答を行うケースが生じることも少なくない。その結果、パーソナリティの測定結果における信頼性が低下してしまうのである。
【0012】
また、仮に本来想定する(素直な且つ真面目な)回答態度が担保されたとしても、そもそも質問紙調査で設定されるような質問項目や回答方法では、測定対象とする特性の領域全てを測定し切れない可能性が高く、測定結果における信頼性は低くならざるを得ない。例えば、Big Fiveの質問紙は20種以上存在するが、質問数、質問表現や、(5段階で回答するか、はい/いいえで回答するか等の)回答方法は、それぞれで相当に異なるものとなっている。またその影響もあって、同一の被験者であっても回答する質問紙の種別によって測定結果が相違することは広く知られており、2つの質問紙間において、協調性(A)の測定結果の相関rが0.40を下回るケースも発生している。
【0013】
さらに、ユーザの行動データから当該ユーザのパーソナリティを推定する技術においても、使用する推定モデルは通常、質問紙調査による測定結果を用いて訓練・構築されるので、以上に説明した上記(b)の信頼性の低さが、解決すべき重大な課題となっているのである。
【0014】
一方、パーソナリティの測定手法ではないが、特に商品・サービスのレコメンド(推薦)技術の分野において、現在、調査用紙によるアンケートを行うことなく、ユーザの属性を表現可能とするユーザ表現学習(URL,User Representation Learning)技術が精力的に研究されている。
【0015】
具体的にこのURL技術は、音楽再生、動画閲覧や、広告クリック、さらにはアイテム購入等のユーザの行動データから、例えば音楽・映画の好みや、購入アイテムの傾向といったようなユーザ属性の分散表現(通常は数百次元のベクトル(多数の数値の羅列)による表現)を獲得する技術である。したがって、ユーザ属性についてではあるが、測定粒度(情報粒度)は十分に高く(細かく)なっており、その結果、URL技術は、上記(a)の測定粒度の粗さの課題を解決し得るものと言えるのである。
【0016】
ここで、URL技術は、行列因子分解(Matrix factorization)法を代表例とする、行動履歴の順序関係を反映していない非時系列の行動データを用いるStatic URL技術と、行動履歴の順序関係を反映した時系列の行動データを用いるSequential URL技術とに大別される。
【0017】
このうち後者のSequential URL技術は、前者のStatic URL技術とは異なり、変化し得る動的なユーザ属性と、変化しない静的なユーザ属性とを分離して抽出可能となっている。このSequential URL技術として例えば非特許文献2には、ユーザの映画視聴についての時系列行動データを、回帰ニューラルネットワーク(RNN, Recurrent Neural Network)の一種であるGRU(Gated Recurrent Unit)へ入力し、ユーザ属性の分散表現を獲得する技術が開示されている。
【0018】
具体的に、この非特許文献2に記載された技術では、ユーザの識別情報を入力とする分散表現抽出部から出力された当該ユーザの分散表現と、当該ユーザによって視聴された映画の識別情報を入力とする分散表現抽出器から出力された当該映画の分散表現とを入力とするGRUセルが開示されている。ここで非特許文献2は、十分な量のデータによってこのGRUセル及び分散表現抽出器を訓練することによって、分散表現抽出部から出力される当該ユーザの分散表現には、静的であって容易には変化しないユーザ属性、例えば当該ユーザの映画の好み、が反映されるとしている。
【0019】
しかしながら、このようなSequential URL技術によって獲得されるユーザ属性の分散表現は当然ながら、使用する行動データの属する行動ドメイン(領域)に強く依存する量となっており、ユーザの(精神面の指標を全体的に捉えた特性である)パーソナリティと解釈されるものとは全くなっていない。例えば、映画視聴との行動ドメインに係る行動データを用いた場合、例えば当該ユーザの映画の好み、といったような映画視聴に係るユーザ属性しか抽出することができない。またそれ故従来、Sequential URL技術を用いてユーザのパーソナリティを推定する試みは、何らなされてこなかったのである。
【0020】
さらに、上述したStatic URL技術はそもそも、ユーザ属性に関し行動ドメインへの依存の度合いや静的か動的かについての分離若しくは抽出を行うものとはなっていない。したがって、Static URL技術で生成されたユーザの分散表現を、当該ユーザのパーソナリティと解釈することも、到底できないのである。
【0021】
そこで、本発明は、対象におけるパーソナリティといったような所定の属性が、より高い信頼性をもって表現された属性表現を生成することの可能な対象属性表現生成モデル、対象属性推定装置、及び対象属性推定方法を提供することを目的とする。
【課題を解決するための手段】
【0022】
本発明によれば、対象の表現ベクトルを、別の表現ベクトル空間の要素である別の表現ベクトルに写像するコンピュータを機能させる対象属性表現生成モデルであって、
入力された当該表現ベクトルに対し訓練済みの写像演算子を作用させて、当該別の表現ベクトルを生成し、当該対象の所定属性に係る情報として出力する、又は、訓練済みのニューラルネットワークアルゴリズムであり、当該表現ベクトルを入力として受け取って、当該別の表現ベクトルを、当該対象の所定属性に係る情報として出力する写像部
としてコンピュータを機能させ、
当該写像演算子又は当該ニューラルネットワークアルゴリズムは、所定属性についての当該対象間の類似の度合いに関連している若しくは関連する可能性のある、当該対象間の所定関係の強さ指標について、当該所定関係の強さ指標が、写像して得られた2つの別の表現ベクトルに係る対象同士における当該類似の度合いをより大きくするもの若しくはより大きくする可能性のあるものとなっているほど、これら2つの別の表現ベクトルの間の離隔度合いが、より小さくなるように訓練されている
ことを特徴とする対象属性表現生成モデルが提供される。
【0023】
この本発明による対象属性表現生成モデルの一実施形態として、当該写像演算子又は当該ニューラルネットワークアルゴリズムは、所定属性についての当該対象間の類似の度合いと正に相関する若しくは正に相関する可能性のある当該所定関係の強さ指標に関し、写像して得られた2つの別の表現ベクトルに係る対象同士がより強いものとなっているほど、これら2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されていることも好ましい。
【0024】
また上記の実施形態において、当該写像演算子又は当該ニューラルネットワークアルゴリズムは、
当該所定関係の強さ指標に関してより強いものとなっている対象同士に係る2つの別の表現ベクトルであって、所定属性とは別の属性に関して異なる若しくは遠い関係にある当該対象同士に係る2つの別の表現ベクトルについて、これら2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されている、及び/又は、
当該所定関係の強さ指標に関してより弱いものとなっている対象同士に係る2つの別の表現ベクトルであって、所定属性とは別の属性に関して同一の若しくは近い関係にある当該対象同士に係る2つの別の表現ベクトルについて、これら2つの別の表現ベクトルの間の離隔度合いがより大きくなるように訓練されている
ことも好ましい。
【0025】
さらに、本発明に係る所定関係の強さ指標について、当該対象は人間であって所定属性はパーソナリティである場合に、
当該所定関係の強さ指標は、
(ア)血縁関係にある対象同士を、若しくは血縁関係が濃い対象同士ほどより強いものとする指標、
(イ)友人・知人関係にある対象同士を、若しくは友人・知人関係が深い対象同士ほどより強いものとする指標、
(ウ)親しい関係にある対象同士を、若しくは親しい対象同士ほどより強いものとする指標、
(エ)相性のよい対象同士を、若しくは相性がよい対象同士ほどより強いものとする指標、
(オ)特定の遺伝子配列が同一である対象同士を、若しくは特定の遺伝子配列が類似している対象同士ほどより強いものとする指標、及び/又は、
(カ)脳波から抽出された特徴量が類似している対象同士ほどより強いものとする指標
であることも好ましい。
【0026】
また、本発明による対象属性表現生成モデルの他の実施形態として、当該写像演算子又は当該ニューラルネットワークアルゴリズムは、所定属性についての当該対象間の類似の度合いと負に相関する若しくは負に相関する可能性のある当該所定関係の強さ指標に関し、写像して得られた2つの別の表現ベクトルに係る対象同士がより弱いものとなっているほど、これら2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されていることも好ましい。
【0027】
さらに、負の相関に係る所定関係の強さ指標を用いる上記の実施形態において、当該写像演算子又は当該ニューラルネットワークアルゴリズムは、
当該所定関係の強さ指標に関してより弱いものとなっている対象同士に係る2つの別の表現ベクトルであって、所定属性とは別の属性に関して異なる若しくは遠い関係にある当該対象同士に係る2つの別の表現ベクトルについて、これら2つの別の表現ベクトルの間の離隔度合いがより小さくなるように訓練されている、及び/又は、
当該所定関係の強さ指標に関してより強いものとなっている対象同士に係る2つの別の表現ベクトルであって、所定属性とは別の属性に関して同一の若しくは近い関係にある当該対象同士に係る2つの別の表現ベクトルについて、これら2つの別の表現ベクトルの間の離隔度合いがより大きくなるように訓練されている
ことも好ましい。
【0028】
また、本発明に係る写像前の表現ベクトルについて、当該対象はユーザであって所定属性はパーソナリティである場合に、
当該表現ベクトルは、ユーザ属性情報生成モデルによって生成された、当該ユーザのパーソナリティを含むユーザ属性を表現した情報であるユーザ属性表現ベクトルであり、
上記のユーザ属性情報生成モデルは、
複数の行動ドメインの行動ドメイン毎に設定されたドメイン特定回帰ニューラルネットワーク(RNN)セルであって、当該行動ドメインにおける当該ユーザの行動に係る情報であるドメイン行動情報を受け取り、前の時点で自ら生成した隠れ状態情報であるドメイン特定隠れ状態情報に対し当該ドメイン行動情報を反映させて、新たなドメイン特定隠れ状態情報を生成する複数のドメイン特定RNNセルと、
当該ユーザを識別する情報から当該ユーザ属性表現ベクトルを生成する、上記の複数のドメイン特定RNNセルと合せて訓練されるユーザ表現生成部と、
生成された当該ドメイン特定隠れ状態情報と、生成された当該ユーザ属性表現ベクトルとを受け取り、前の時点で自ら生成した隠れ状態情報であるドメイン非依存隠れ状態情報に対し、当該ドメイン特定隠れ状態情報及び当該ユーザ属性表現ベクトルを反映させて、新たなドメイン非依存隠れ状態情報を生成するドメイン非依存RNNセルと
してコンピュータを機能させるモデルである
ことも好ましい。
【0029】
さらに、本発明に係る写像前の表現ベクトルについて、当該対象はユーザであって所定属性はパーソナリティである場合に、
当該表現ベクトルは、当該ユーザにおける所定の行動に係る情報を用い、ユーザ表現学習(URL,User Representation Learning)技術に係る手法によって算出された、当該ユーザのユーザ属性を表現したユーザ属性表現ベクトルであることも好ましい。また、このユーザ表現学習技術に係る手法は具体的に、行列因子分解(Matrix factorization)法であることも好ましい。
【0030】
本発明によれば、また、以上に述べた対象属性表現生成モデルを用いて当該別の表現ベクトルを生成し、生成した当該別の表現ベクトルを、当該対象の所定属性に係る情報として出力する対象属性推定装置が提供される。
【0031】
本発明によれば、さらに、
以上に述べた訓練済みの写像演算子又は訓練済みのニューラルネットワークアルゴリズムを得るように訓練を行うことによって、請求項1から9のいずれか1項に記載の対象属性表現生成モデルを構築し、
構築した対象属性表現生成モデルを用いて当該別の表現ベクトルを生成し、生成した当該別の表現ベクトルを、当該対象の所定属性に係る情報として出力する
ことを特徴とする、コンピュータによって実施される対象属性推定方法が提供される。
【発明の効果】
【0032】
本発明の対象属性表現生成モデル、対象属性推定装置、及び対象属性推定方法によれば、対象におけるパーソナリティといったような所定の属性が、より高い信頼性をもって表現された属性表現を生成することができる。
【図面の簡単な説明】
【0033】
【
図1】本発明による対象属性表現生成モデル、及びユーザ属性情報生成モデルの一実施形態、またこれらのモデルを搭載した対象属性推定装置の一実施形態を示す模式図である。
【
図2】本発明による対象属性表現生成モデルの写像部で実施される写像処理の一実施形態を説明するための模式図である。
【
図3】本発明に係るユーザ属性情報生成モデルの一実施形態を示す模式図である。
【
図4】本発明に係るユーザ属性情報生成モデルの他の実施形態を示す模式図である。
【発明を実施するための形態】
【0034】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0035】
[対象属性表現生成モデル,ユーザ属性情報生成モデル]
図1は、本発明による対象属性表現生成モデル、及びユーザ属性情報生成モデルの一実施形態、またこれらのモデルを搭載した対象属性推定装置の一実施形態を示す模式図である。
【0036】
最初に、
図1に示したユーザ属性情報生成モデル2は、後に詳細に説明するが、特定の行動ドメイン(領域)における対象(本実施形態ではユーザ)の行動に係る情報である「ドメイン行動情報」から、対象の属性(ユーザ属性)に係る情報である「ユーザ属性表現ベクトルr_u」を生成し出力する機械学習モデルである。
【0037】
ここで、出力される「ユーザ属性表現ベクトルr_u」は、これも後に詳述するが、対象(ユーザ)における「所定属性(本実施形態ではパーソナリティ)に係る情報」を包含する情報となっている。なお以下、「表現ベクトル」とは、単語分散表現に代表される公知の分散表現(埋め込み(embedding))技術で扱われる、多次元の(例えば数十~数百次元の)ベクトルであり、多数の数値の羅列となっているベクトル量を指すものとする。
【0038】
同じく
図1において、本実施形態の対象属性表現生成モデル1は、
(a)ユーザ属性情報生成モデル2から、生成された「ユーザ属性表現ベクトルr_u」を受け取り、
(b)受け取った「ユーザ属性表現ベクトルr_u」から、対象(ユーザ)における所定属性(パーソナリティ)を表現した「対象属性表現ベクトル」(本実施形態ではパーソナリティ表現ベクトルM(r_u))を生成し出力する
機械学習モデルとなっている。
【0039】
このように対象属性表現生成モデル1は、受け取った「ユーザ属性表現ベクトルr_u」から、そこに包含されている「所定属性(パーソナリティ)に係る情報」を、「対象属性表現ベクトル(パーソナリティ表現ベクトル)M(r_u)」として分離抽出するモデルであると捉えることもできる。
【0040】
この点、この対象属性表現生成モデル1は、その特徴として、
(A)ある表現ベクトル空間の要素である対象(ユーザ)の「ユーザ属性表現ベクトルr_u」を写像して得られた(別の表現ベクトル空間における)別の表現ベクトルである「対象属性表現ベクトル(パーソナリティ表現ベクトル)M(r_u)」を、「対象(ユーザ)の所定属性(パーソナリティ)に係る情報」として出力する写像部10
としてコンピュータを機能させるモデルとなっており、それ故、上述したような対象属性表現(ユーザのパーソナリティ表現)を分離抽出するモデルと捉えることも可能となるのである。
【0041】
またさらに、この写像部10は、その特徴として、
(B)所定属性(パーソナリティ)についての対象間(ユーザ間)の類似の度合いに関連している若しくは関連する可能性のある「対象間の所定関係の強さ指標」を用いて特定の訓練(学習)を施されたもの
となっている。ちなみに、この「対象間の所定関係の強さ指標」としては、後に詳細に説明するが、例えば血縁関係指標、友人・知人関係指標、親しさ指標、相性指標、遺伝子配列指標や、脳波特徴量指標、さらには仲の悪さ指標等を採用することができる。
【0042】
ここでより具体的に、写像部10は、
(C)この「対象間の所定関係の強さ指標」が、写像して得られた2つの「対象属性表現ベクトル(パーソナリティ表現ベクトル)」に係る対象同士(ユーザ同士)における所定属性(パーソナリティ)の類似の度合いをより大きくする若しくはより大きくする可能性のあるものとなっているほど、これら2つの「対象属性表現ベクトル(パーソナリティ表現ベクトル)」の間の離隔度合いが、より小さくなるように訓練されたものとなっているのである。
【0043】
またこのような訓練の結果、対象属性表現生成モデル1(写像部10)は、「対象間の所定関係の強さ指標」を手掛かりにした写像Mを用いて、受け取った「ユーザ属性表現ベクトルr_u」を、所定属性(パーソナリティ)が類似しているほどその間の離隔度合いが小さくなるような「対象属性表現ベクトル(パーソナリティ表現ベクトル)M(r_u)」へと仕立てることができる。
【0044】
この「対象属性表現ベクトル(パーソナリティ表現ベクトル)M(r_u)」はまさに、所定属性(パーソナリティ)をより高い信頼性をもって表現した情報となっているのであり、すなわち、対象属性表現生成モデル1はまさに、所定属性(パーソナリティ)をより高い信頼性をもって表現した属性表現としての表現ベクトルを生成することができるのである。
【0045】
また、この「対象属性表現ベクトル(パーソナリティ表現ベクトル)M(r_u)」は、上述したように多次元の(例えば数十~数百次元の)ベクトルであるので、所定属性(パーソナリティ)の表現における測定粒度(情報粒度)は、十分に高い(細かい)ものとなっている。例えば、パーソナリティでいえば、その情報粒度は、(パーソナリティを5次元で表現する)Big Fiveに代表される従来のパーソナリティ指標と比較して各段に高いものとなっている。
【0046】
以下、「対象」がユーザ(人間)であって、「所定属性」がパーソナリティであるとして、以上に述べたことをより詳細に説明する。なお勿論、本発明は「対象」及び「所定属性」を上記のものに限定するものではなく、例えば「対象」を何らかの製品として、「所定属性」を当該製品の総合的な性能又は品質とすることも可能である(この場合、例えば関係指標として、当該製品の製造バージョン・時期や使用履歴・環境等を用いることができる)。しかしながら以下、説明の便宜のため、上記のものに限定することとする。
【0047】
ここでより詳細な説明を行うにあたり、
図1の上方に示した、ユーザ属性を分類したユーザ属性分類グラフを用いる。一般に、(パーソナリティを含む広い意味での)ユーザ属性は、
(a)動的な(時間に依存する、又は時間変化し易い)属性か、静的な(時間に依存しない、又は時間変化し難い)属性か、及び
(b)ドメイン依存的な(特定の行動ドメインにのみ影響を与える、又は特定の行動ドメインに係るものである)属性か、ドメイン非依存的な(様々な行動ドメインの行動に影響し得る、又は特定の行動ドメインにのみ係るものではない)属性か
といった観点から、4つのグループに分類することができる。
【0048】
具体的に、当該4つのグループはそれぞれ、上記(a)に係る横軸と上記(b)に係る縦軸とで構成される(
図1上方の)ユーザ属性分類グラフにおける第1~第4象限に係るグループとなっている。ちなみに、ユーザ属性の1つであるパーソナリティは、静的であって且つドメイン非依存であるので、第1象限に係るグループに属することになる。
【0049】
同じく
図1において、ユーザ属性情報生成モデル2が生成し出力したユーザ属性表現ベクトルr_uは、後に詳細に説明するが、上記のユーザ属性分類グラフにおける第1象限に属するユーザ属性を表現したものとなっている。この第1象限に属するユーザ属性には、その主要な成分としてパーソナリティが含まれているが、他にも(ユーザの)性別、年代、職業、収入や居住地等のユーザ属性が、(各行動ドメインでの行動に影響を及ぼす程度をもって)含まれている。
【0050】
したがって、ユーザ属性情報生成モデル2が出力したこのユーザ属性表現ベクトルr_uは、ユーザのパーソナリティを表現した表現ベクトルとして取り扱うことも可能となっているが、その表現の信頼性を更に高めることが大いに望まれるものともなっているのである。
【0051】
一方、対象属性表現生成モデル1が生成し出力したパーソナリティ表現ベクトルM(r_u)は、上記(C)のように訓練された写像部10が、このようなユーザ属性表現ベクトルr_uに対し写像Mを施した結果得られたものであるので、ユーザのパーソナリティを表現した表現ベクトルとしてより信頼性の高いものとなっている。言い換えれば、パーソナリティ表現ベクトルM(r_u)は、上記のユーザ属性分類グラフにおける第1象限に属するユーザ属性からパーソナリティ成分を分離抽出した(若しくは強調した)表現ベクトルとなっているのである。
【0052】
ちなみに、このようなユーザのパーソナリティを表現したパーソナリティ表現ベクトル(personality embedding vector)は、今回、本願発明者が独自に創作したものである。
【0053】
ここで、人工知能による自然言語処理において欠かせない技術となっている単語分散表現では、1つ1つの単語が、例えば数百次元の(多数の数値の羅列である)word embedding vectorで表現され、意味の近い単語同士ほどこのベクトル間の離隔度合いが小さくなる。すなわちword embedding vectorは、対応する単語の意味が埋め込まれたものと捉えることができる。また、word embedding vector同士の演算も可能となっており、例えば有名な例として、"king"-"man"+"woman"="queen"といったような加減算を行うことが可能となっている。
【0054】
これと同様にして、本願発明者の創作によるパーソナリティ表現ベクトル(personality embedding vector)も、対応するユーザのパーソナリティの特徴が埋め込まれたものと捉えることができるので、ベクトル間の距離の逆数や内積等を(ユーザ間における)パーソナリティの類似度としたり、またベクトル同士の演算を行ったりして、パーソナリティに関しさらに有益な情報が導出・生成可能となることも期待されるのである。
【0055】
さらに、分散表現としてのパーソナリティ表現ベクトル(personality embedding vector)は、人間が直接に解釈できるものではないが、例えば、様々な用途の機械学習モデルにおける入力データとして利用され、人工知能がユーザのパーソナリティを詳細に理解して、当該ユーザの行動予測やサービスのパーソナライズ等をより的確に実施するようなことも可能になると期待される。
【0056】
次いで、
図2を用いて、上記(C)で述べた写像部10における訓練についてより詳細に説明を行う。
【0057】
図2は、対象属性表現生成モデル1の写像部10で実施される写像処理の一実施形態を説明するための模式図である。
【0058】
図2に示した実施形態によれば、対象属性表現生成モデル1における上記(C)のように訓練された写像部10において実施される写像Mは、(ユーザ属性情報生成モデル2から出力される)様々なユーザについてのユーザ属性表現ベクトルr_uが張るユーザ属性表現ベクトル空間V_uから、(対象属性表現生成モデル1で生成される)当該様々なユーザについてのパーソナリティ表現ベクトルM(r_u)が張るパーソナリティ表現ベクトル空間V_pへの写像(M:V_u→V_p)となっている。
【0059】
ここで本実施形態において、上記(C)の写像部10の訓練は、「所定関係の強さ指標」として、
(ア)血縁関係指標:血縁関係にある対象同士を、又は血縁関係が濃い対象同士ほどより強いものとする指標
を採用している。この血縁関係指標は、パーソナリティ心理学における「パーソナリティは遺伝によりその半分が決定される」との知見、「血縁関係にある(遺伝上のつながりがある)人同士はパーソナリティが類似する」との知見や、「共通する遺伝子が多いほどパーソナリティが類似する(例えば二卵性双生児よりも一卵性双生児の方がパーソナリティについて類似する)」との知見等に基づき設定されたものである。
【0060】
実際、上記の知見からして、血縁関係指標は、パーソナリティについてのユーザ間の類似の度合いと、(強いものとなっているほど類似の度合いが大きくなる傾向にあるという意味で)正に相関する又は正に相関する可能性のある指標となっていることが理解される。
【0061】
本実施形態では、写像部10は、このような血縁関係指標に関し、写像して得られた2つのパーソナリティ表現ベクトルM(r_u)に係るユーザ同士がより強いものとなっているほど、これら2つのパーソナリティ表現ベクトルM(r_u)の間の離隔度合い(例えば空間V_pで定義された距離)がより小さくなるように訓練されているのである。
【0062】
またその結果、
図2に示したように、例えば互いに血縁関係にあるユーザ"父1"、ユーザ"兄1"及びユーザ"弟1"の3つのユーザ属性表現ベクトルr_uは、ユーザ属性表現ベクトル空間V_u上では(パーソナリティのみを表現しているわけではないので)互いに離隔しているが、写像Mを施された後の対応する(ユーザ"父1"、ユーザ"兄1"及びユーザ"弟1"の)3つのパーソナリティ表現ベクトルM(r_u)は、パーソナリティ表現ベクトル空間V_p上では(互いに血縁関係にあることを反映して)互いに近接している。また、彼らとは別の血縁関係にあるユーザ"父2"、ユーザ"姉2"及びユーザ"弟2"も同様の態様をとっているのである。
【0063】
このように、写像Mを施す表現ベクトルに係るユーザの血縁関係情報を取得して、上記の血縁関係指標に基づき、写像Mを行う写像部10を訓練することによって、パーソナリティの互いに類似するユーザのパーソナリティ表現ベクトルM(r_u)が、パーソナリティ表現ベクトル空間V_p上において互いに近接するようにすることができる。すななち、ユーザのパーソナリティをより高い信頼性をもって表現しているパーソナリティ表現ベクトルM(r_u)が生成可能となるのである。
【0064】
なお、このような写像Mを行う写像部10は例えば、入力されたユーザ属性表現ベクトルr_uに対し、写像演算子としての行列を作用させる(積算する)ものであってもよく、このような行列の積算後、さらにバイアスベクトルを加算するものであってもよい。また、このようにして得られた値をsigmoid関数、tanh関数や、ReLu関数等に入力して関数値を出力するものとすることもできる。さらに、順伝播型ニューラルネットワーク、特に多層パーセプトロン(Multi-layer perceptron)であってもよい。
【0065】
また、このような写像部10の訓練(学習)は例えば、写像M後の表現ベクトルM(r_u)間の離隔度合いに関し、血縁関係にある血縁ユーザの方が血縁関係にない非血縁ユーザよりも小さく、且つ両者の離隔度合いの差ができるだけ大きくなるように損失関数を設定することにより実施することができる。
【0066】
<血縁関係の有無を反映した損失関数>
例えば、特定のユーザu1に係る損失関数lossとして、次式
(1) loss(u1,u2,u3)
=Σu2Σu3 max[0, margin-M(r_u1)・M(r_u2)+M(r_u1)・M(r_u3)]
を採用してもよい。ここで、u2はユーザu1の血縁ユーザであり、u3はユーザu1の非血縁ユーザである。またM(r_ui)は、ユーザuiのパーソナリティ表現ベクトルである。さらに、Σu2はユーザu1の血縁ユーザ全員についての総和であり、Σu3はユーザu1の非血縁ユーザ全員についての総和となっている。またmax[0, α]は、αが正値であればα、αが非正であれば0をとる関数であって、さらにmarginは、括弧[]内の後ろの値を調整するための正の定数である。
【0067】
上式(1)の損失関数lossは、ユーザu1における血縁者との内積M(r_u1)・M(r_u2)が非血縁者との内積M(r_u1)・M(r_u3)よりも大きくなるほど、小さい値をとる。ここで、この内積は、写像M後の表現ベクトルM(r_u)間の離隔度合いの逆数とも言うべき量となっており、したがって損失関数lossは、写像部10の訓練に好適な関数となっているのである。
【0068】
なお、写像部10の訓練に用いることのできる損失関数は当然、上式(1)に限定されるものではない。例えば上式(1)では、写像M後の表現ベクトルM(r_u)間の離隔度合いに係る量として内積を用いているが、代わりにコサイン類似度やユークリッド距離等を用いて損失関数を設定することも可能である。また、血縁ユーザu2や非血縁ユーザu3は、ユーザu1の全ての血縁ユーザや非血縁ユーザをとるのではなく、その一部をとったものであってもよい。
【0069】
また、写像部10の訓練(学習)では、上記のような損失関数を計算するために、ユーザの血縁関係の情報を取得する必要があるが、一度訓練が完了すれば、パーソナリティ表現ベクトルM(r_u)を導出する際に、当該血縁関係の情報は不要となるのである。
【0070】
<血縁関係の強弱(濃さ)を反映した損失関数>
上式(1)の損失関数lossはいわば、ユーザ間における血縁関係の有無を反映した損失関数となっているが、その変更態様として、ユーザ間における血縁関係の濃さを反映した損失関数を設定することも可能である。例えば血縁関係について、一卵性双生児の遺伝子情報は互いに一致するので、お互いのパーソナリティの類似度は最も大きくなる、若しくは最も大きくなる可能性が高いとすることができる。一方、従兄弟、 従姉妹や叔父叔母等は、勿論血縁関係にはあるが、共有する遺伝子情報の割合は兄弟や親子よりも低く、お互いのパーソナリティの類似度は相対的に低くなると考えられる。したがって、血縁関係が濃いほどパーソナリティの類似度は大きくなる(傾向にある)ことに基づく損失関数を設定することができるのである。
【0071】
具体的に、このような損失関数loss'として、次式
(2) loss(u1,u2,u2')
=Σu2Σu2' max[0, margin-M(r_u1)・M(r_u2)+M(r_u1)・M(r_u2')]
を採用してもよい。ここで、u2及びu2'はともにユーザu1の血縁ユーザであるが、u2はu2'よりもu1との血縁関係が濃いユーザとなっている。また、Σu2はユーザu2(u1との血縁関係が濃い血縁ユーザ)全員についての総和であり、Σu3はユーザu2'(u1との血縁関係がu2ほどは濃くない血縁ユーザ)全員についての総和となっている。
【0072】
このように、写像部10の訓練(学習)に用いる損失関数に、血縁関係の濃さを反映させることにより、訓練後の写像部10から導出されるパーソナリティ表現ベクトルM(r_u)の信頼性をより高めることも可能となる。すなわち、パーソナリティの表現としてより正確であることが期待される表現ベクトルを生成することができるのである。
【0073】
<血縁関係以外の関係の利用>
以上、「所定関係の強さ指標」として、上記(ア)の血縁関係指標を用いた訓練(損失関数の設定)について説明を行ったが、「所定関係の強さ指標」は当然、この血縁関係指標に限定されるものではない。例えば、
(イ)友人・知人関係指標:友人・知人関係にあるユーザ同士を、若しくは友人・知人関係が深いユーザ同士ほどより強いものとする指標、
(ウ)親しさ指標:親しい関係にあるユーザ同士を、若しくは親しいユーザ同士ほどより強いものとする指標、
(エ)相性指標:相性のよいユーザ同士を、若しくは相性がよいユーザ同士ほどより強いものとする指標、
(オ)遺伝子配列指標:特定の遺伝子配列が同一であるユーザ同士を、若しくは特定の遺伝子配列が類似しているユーザ同士ほどより強いものとする指標、又は、
(カ)脳波特徴量指標:脳波から抽出された特徴量が類似しているユーザ同士ほどより強いものとする指標
を「所定関係の強さ指標」として採用することもできる。すなわち上記(ア)~(カ)のいずれにしても、当該関係の有無に係る上式(1)や、当該関係の強弱に係る上式(2)のような損失関数を設定することが可能となるのである。
【0074】
このように「所定関係の強さ指標」に関し選択肢を揃えておくことによって、例えば、ユーザの血縁関係の情報が取得できない場合に、取得可能となっているユーザの友人・知人関係の情報を取得して、写像部10の訓練に適用するといったことも可能となるのである。
【0075】
ここで、上記(イ)の友人・知人関係指標における「友人・知人関係の深さ」は、例えば所定のSNS(Social Networking Service)上におけるコミュニケーション頻度(例えばメッセージ交換の頻度やチャットを行う頻度)、コミュニケーション形態(例えば、非リアルタイムのメッセージ交換のみを行う形態、リアルタイムのチャットも行う形態や、ビデオ通話も行う形態等)や、コミュニケーション時間(「友達」関係が登録されている期間や、総通話時間等)等の情報を定量化したものとすることもできる。すなわち、当該SNS情報から自動的に生成することも可能となるのである。
【0076】
また、上記(ア)~(カ)のうちの複数、例えば全部を「所定関係の強さ指標」として採用してもよい。例えば、血縁関係指標の強さも、遺伝子配列指標の強さもともに考慮して損失関数を設定することも可能である。
【0077】
ちなみに、上記(イ)~(エ)の強さ指標は、「パーソナリティの類似する者同士ほど、友人・知人関係や親しい関係になり易く、また、互いに相性がよい傾向にある」との知見に基づき設定されるものとなっている。さらに、上記(オ)及び(カ)の強さ指標は、パーソナリティと生体情報との関係についての、以下に述べるような近年の研究結果に基づき設定可能となっているのである。
【0078】
例えば、ヒトのドーパミンD4受容体の遺伝子には、特定の48塩基の単位からなる繰り返し配列が存在しており、また、この繰り返しの回数については、2~11回の間で個人差(多型)がみられ、さらに、繰り返し配列内にも多くのSNPs(一塩基多型)が存在していることが分かっている。ここで、この繰り返し配列については、当該分野の2つの研究グループによって、繰り返しの回数が多いヒトほど好奇心が強く、いわゆる怖いもの知らずの傾向にあり、また、 ドーパミンD4受容体をノックアウトしたマウスは好奇心が低下し、探索行動が観察され難くなるとの報告がなされている。さらに、イヌのドーパミンD4受容体遺伝子にも、ある配列の欠損や挿入による8種の多型の存在することが明らかになっており、例えば攻撃性の強いシバイヌとおとなしい気質のゴールデンレトリバーとでは遺伝子型に相応の違いのあることも知られている。
【0079】
またさらに脳波についても、脳波から抽出された特徴量がパーソナリティにおける特定の特性との間で有意な相関を示すことが、数多くの研究の結果として報告されている。
【0080】
以上に述べたような研究結果・知見に基づいて、上記(オ)の遺伝子配列指標や上記(カ)の脳波特徴量指標を採用し、ユーザの遺伝子配列や脳波特徴量を予め測定しておいた上で、例えば、ドーパミンD4受容体の繰り返し回数や繰り返し配列のパターンが類似しているユーザ同士ほど、また、パーソナリティとの間で相関を示す脳波特徴量が類似するユーザ同士ほど、対応するパーソナリティ表現ベクトルの間の離隔度合いをより小さくするように写像部10を訓練することも好ましいのである。
【0081】
なお、以上に説明した上記(ア)~(カ)の「所定関係の強さ指標」はいずれも、パーソナリティについてのユーザ間の類似の度合いと(強いものとなっているほど類似の度合いが大きくなる傾向にあるという意味で)正に相関する若しくは正に相関する可能性のある指標となっている。この場合、このような「所定関係の強さ指標」に関し、写像して得られた2つのパーソナリティ表現ベクトルに係るユーザ同士がより強いものとなっているほど、これら2つのパーソナリティ表現ベクトルの間の離隔度合いがより小さくなるように、写像部10を訓練することができるのである。
【0082】
一方、上記(ア)~(カ)とは異なり、パーソナリティについてのユーザ間の類似の度合いと(強いものとなっているほど類似の度合いが小さくなる傾向にあるという意味で)負に相関する若しくは負に相関する可能性のある「所定関係の強さ指標」を採用することも可能である。例えば、
(キ)仲の悪さ指標:仲の悪いユーザ同士を、又は仲の悪いユーザ同士ほどより強いものとする指標
を採用してもよい。
【0083】
このような負の相関に係る「所定関係の強さ指標」を採用する場合は、この「所定関係の強さ指標」に関し、写像して得られた2つのパーソナリティ表現ベクトルに係るユーザ同士がより弱いものとなっているほど、これら2つのパーソナリティ表現ベクトルの間の離隔度合いがより小さくなるように、写像部10を訓練することができる。
【0084】
また、「所定関係の強さ指標」の更なる変更態様として、パーソナリティの類似の度合いとの間で正や負の相関を示すものではないが、パーソナリティの類似の度合いに関連している若しくは関連する可能性のある「所定関係の強さ指標」を採用することも可能である。例えば、特定の指標値をとる場合にパーソナリティの類似の度合いが極大化又は極小化するような「所定関係の強さ指標」についても、写像部10の訓練に用いることができるのである。
【0085】
<パーソナリティ以外のユーザ属性の利用>
以上、様々な種類の「所定関係の強さ指標」を用いて写像部10の訓練(学習)が実施可能となっていることを説明した。ここで、訓練についての好適な他の態様として、パーソナリティとは別のユーザ属性、例えば居住地、職業や、年代等を利用した訓練について説明を行う。
【0086】
最初に、上記(ア)~(カ)のような正の相関に係る「所定関係の強さ指標」を用いる場合を説明する。この場合、写像部10は、
(a)このような「所定関係の強さ指標」に関してより強いものとなっているユーザ同士に係る2つのパーソナリティ表現ベクトルであって、パーソナリティとは別のユーザ属性(例えば居住地)に関して異なる若しくは遠い関係にある当該ユーザ同士に係る2つのパーソナリティ表現ベクトルについて、これら2つのパーソナリティ表現ベクトルの間の離隔度合いがより小さくなるように訓練されることも好ましい。
【0087】
例えば、訓練を行うに当たり、血縁関係にあるユーザに係る(ユーザ属性表現ベクトルを含む)訓練データを選択する際には、できるだけ(パーソナリティ以外のユーザ属性としての)居住地の異なる若しくは遠く離れたユーザに係る訓練データを選択することも好ましいのである。
【0088】
また、写像部10は、
(b)このような「所定関係の強さ指標」に関してより弱いものとなっているユーザ同士に係る2つのパーソナリティ表現ベクトルであって、パーソナリティとは別のユーザ属性(例えば居住地)に関して同一の若しくは近い関係にある当該ユーザ同士に係る2つのパーソナリティ表現ベクトルについて、これら2つのパーソナリティ表現ベクトルの間の離隔度合いがより大きくなるように訓練されることも好ましい。
【0089】
例えば、訓練を行うに当たり、非血縁関係にあるユーザに係る(ユーザ属性表現ベクトルを含む)訓練データを選択する際には、できるだけ(パーソナリティ以外のユーザ属性としての)居住地が同じ若しくは近いユーザに係る訓練データを選択することも好ましいのである。
【0090】
ここで、写像部10は、上記(a)の訓練、及び上記(b)の訓練のいずれか一方又は両方を受けてもよい。いずれにしても、パーソナリティとは別のユーザ属性として、パーソナリティとは一般に関連しない(とされている)ユーザ属性を選択して訓練に用いることによって、パーソナリティ表現ベクトルにおけるパーソナリティとは別のユーザ属性の表現分を低減・除去することが可能となる。すなわち、より信頼性の高いパーソナリティ表現ベクトルを導出することができるのである。
【0091】
例えば、写像部10において、パーソナリティの異なるユーザ同士に係る2つのパーソナリティ表現ベクトルを、互いに離隔させるように訓練したとしても、当該ユーザ同士の居住地が異なっている(例えば居住地がそれぞれ北海道及び沖縄である)場合、これら2つのパーソナリティ表現ベクトルの離隔度合いには、居住地の違いも反映されてしまう可能性が生じてしまう。これに対し、このような2つのパーソナリティ表現ベクトルに係るユーザ同士として同じ居住地である(例えばともに北海道である)ユーザ同士を選択することによって、これら2つのパーソナリティ表現ベクトルにおける居住地の表現分を低減・除去することができるのである。
【0092】
次いで、上記(キ)のような負の相関に係る「所定関係の強さ指標」を用いる場合を説明する。この場合、写像部10は、
(c)このような「所定関係の強さ指標」に関してより弱いものとなっているユーザ同士に係る2つのパーソナリティ表現ベクトルであって、パーソナリティとは別のユーザ属性(例えば居住地)に関して異なる若しくは遠い関係にある当該ユーザ同士に係る2つのパーソナリティ表現ベクトルについて、これら2つのパーソナリティ表現ベクトルの間の離隔度合いがより小さくなるように訓練されることも好ましい。
【0093】
また、写像部10は、
(d)このような「所定関係の強さ指標」に関してより強いものとなっているユーザ同士に係る2つのパーソナリティ表現ベクトルであって、パーソナリティとは別のユーザ属性(例えば居住地)に関して同一の若しくは近い関係にある当該ユーザ同士に係る2つのパーソナリティ表現ベクトルについて、これら2つのパーソナリティ表現ベクトルの間の離隔度合いがより大きくなるように訓練されることも好ましい。
【0094】
さらに、写像部10は、上記(c)の訓練、及び上記(d)の訓練のいずれか一方又は両方を受けてもよいのである。いずれにしても、このような訓練を実施することによって、パーソナリティ表現ベクトルにおけるパーソナリティとは別のユーザ属性の表現分を低減・除去し、より信頼性の高いパーソナリティ表現ベクトルを導出可能とするのである。
【0095】
[ユーザ属性情報生成モデルの一実施形態]
図3は、本発明に係るユーザ属性情報生成モデルの一実施形態を示す模式図である。
【0096】
図3に示した本実施形態のユーザ属性情報生成モデル2は、
(a)ユーザ属性推定対象のユーザにおける複数の行動ドメイン(
図3では「アイテム購入」及び「動画閲覧」の2つ)に関する情報である「行動ドメイン情報」を用いて、
(b)推定対象ユーザのユーザ属性を表現した情報である「ユーザ属性表現ベクトル」を生成する
機械学習モデルである。
【0097】
具体的に、ユーザ属性情報生成モデル2は、
(A)複数の行動ドメインの行動ドメイン毎に設定されたドメイン特定回帰ニューラルネットワーク(RNN)セルであって、当該行動ドメインにおける推定対象ユーザの「ドメイン行動情報」を受け取り、前の時点で自ら生成した隠れ状態情報である「ドメイン特定隠れ状態情報」に対し「ドメイン行動情報」を反映させて、新たな「ドメイン特定隠れ状態情報」を生成する複数のドメイン特定RNNセル(
図3ではDSL(Domain Specific Layer)1セル21及びDSL2セル22の2つ)と、
(B)推定対象ユーザを識別する情報である「ユーザ識別情報」から、推定対象ユーザを表現する情報である「ユーザ属性表現ベクトル」を生成するユーザ表現生成部(
図3ではユーザ分散表現抽出部20u)と、
(C)上記(A)で生成された「ドメイン特定隠れ状態情報」と、上記(B)で生成された「ユーザ属性表現ベクトル」とを受け取り、前の時点で自ら生成した隠れ状態情報である「ドメイン非依存隠れ状態情報」に対し、「ドメイン特定隠れ状態情報」及び「ユーザ属性表現ベクトル」を反映させて、新たな「ドメイン非依存隠れ状態情報」を生成するドメイン非依存RNNセル(
図3ではDIL(Domain Independent layer)20)と
してコンピュータを機能させる機械学習モデルとなっている。
【0098】
ここで本実施形態において、上記(A)の「行動ドメイン情報」は、推定対象ユーザの当該行動ドメインにおける(購入や閲覧といった)行動の内容を示す情報(例えば購入したアイテムや閲覧した動画の識別情報)を受け取った行動表現生成部(
図3ではアイテム分散表現抽出部21iや動画分散表現抽出部22m)において生成される行動表現情報となっている。したがって、「行動ドメイン情報」(行動表現情報)は、各行動ドメインにおいて行動が発生する度に生成され、その結果、全体として時系列データ群をなすものとなる。
【0099】
また、上記(B)のユーザ表現生成部(ユーザ分散表現抽出部20u)は、後に詳細に説明するが、複数のドメイン特定RNNセル(DSL1セル21及びDSL2セル22)と合せて訓練されるのであり、結果的に当該訓練後は、特定の行動ドメインに偏らないドメイン非依存の表現生成演算(分散表現抽出演算)を実行する。これにより、ここで生成される「ユーザ属性表現ベクトル」は、推定対象ユーザのユーザ属性情報として把握されるものとなるのである。
【0100】
言い換えると、「ユーザ属性表現ベクトル」や上述した「ドメイン非依存隠れ状態情報」は、このように互いに異なる複数の又は多数の行動ドメインに係るセルからの「ドメイン特定隠れ状態情報」を受けてドメイン非依存化しているのであり、このうち特に「ユーザ属性表現ベクトル」は、推定対象ユーザにおける静的且つドメイン非依存のユーザ属性に係る情報、
図1上方のユーザ属性分類グラフでいえばその第1象限に属するユーザ属性情報、と捉えることができるのである。したがって、「ユーザ属性表現ベクトル」はまさに、「パーソナリティ」を含む静的且つドメイン非依存のユーザ属性を表現したものとなっているのである。
【0101】
さらに、この「ユーザ属性表現ベクトル」は、推定対象ユーザの「ユーザ識別情報」(例えば当該ユーザを示すone-hotベクトル)を受け取ったユーザ表現生成部(ユーザ分散表現抽出部20u)が出力する、多次元の(例えば数十~数百次元の)表現ベクトルであり、例えば多数の数値の羅列となっている。したがって、「ユーザ属性表現ベクトル」のユーザ属性に関する測定粒度(情報粒度)は、非常に高い(細かい)ものとなるのである。
【0102】
なお、以上に説明したドメイン特定RNNセル(DSL1セル21及びDSL2セル22)、及びドメイン非依存RNNセル(DILセル20)は、GRU(Gated Recurrent Unit)や、LSTM(Long-Short Term Memory)といったような公知のRNNで構成されたものとすることができる。
【0103】
また、ユーザ属性情報生成モデル2において、ドメイン特定RNNセルの数、すなわち取り扱う行動ドメインの数は、当然、
図3に示したような2つに限定されるものではなく、3つ以上とすることも可能である。また、取り扱う行動ドメインも、
図3に示したアイテム購入や動画閲覧に限定されるものではなく、行動主体のユーザ属性に依存する又はその影響を受け得る行動に係るドメインであれば種々様々なものが、行動ドメインとして採用可能である。例えば、行動ドメイン「広告クリック」の時系列データが取得される場合に、「広告クリック」に係るドメイン行動情報を取り込むドメイン特定DNNセルを追加して、ユーザ属性情報生成モデル2を構成してもよい。
【0104】
以下、本実施形態のユーザ属性情報生成モデル2の構成について、より詳細に説明を行う。同じく
図3によれば、ユーザ属性情報生成モデル2は、
(ア)行動ドメイン「アイテム購入」に係るドメイン特定RNNセルとしてのDSL1セル21と、ユーザ分散表現抽出部21uと、アイテム分散表現抽出部21iと、出力層21oと、
(イ)行動ドメイン「動画閲覧」に係るドメイン特定RNNセルとしてのDSL2セル22と、ユーザ分散表現抽出部22uと、動画分散表現抽出部22mと、出力層22oと、
(ウ)ドメイン非依存RNNセルとしてのDILセル20と、ユーザ表現生成部としてのユーザ分散表現抽出部20uと、出力層20oと
を、コンピュータ(に搭載されたプログラム)によって具現される機能構成部として備えている。
【0105】
ここで
図3には、上述した(ア)~(ウ)の機能構成部(
図3の左端側の機能ブロック群)が実行する処理を、時間経過の向きが右向きとなっている時間軸上で展開した様子が示されている。なお、上記(ア)~(ウ)の各々について設定された計3つの時間軸は、それぞれ独自の値をとる時点についての時間軸となっている。
【0106】
また、各時間軸における時点の表記であるが、例えばDSL2セル22に係る時点(t2+1)は、DSL2セル22が時点t2でドメイン行動情報(動画embedding vector)を受け取った後、次にドメイン行動情報(動画embedding vector)を受け取った時点を意味するものとする。ここでその次に受け取った時点は当然、(t2+2)となる。さらに、時点(t2+1)から見て、時点t2は「前の時点」となるのである。また、この時点(t2+1)で処理を行うDSL2セル22を、以後行う説明の便宜上、DSL2セル22(t2+1)と称することにする。またさらに、DSL1セル21やDILセル20についても以後、同様の処理時点の表記、及び処理時点を含む表記を行うこととする。
【0107】
以下、上述した各機能構成部について具体的に説明を行う。同じく
図3において、時点t1におけるアイテム分散表現抽出部21iであるアイテム分散表現抽出部21i(t1)は、時点t1において「(推定対象ユーザである)ユーザUserAによってアイテムitem1が購入された」とのイベントを受けて、
(a)アイテムitem1のアイテム識別情報であるone-hotベクトルi1
(t1)を受け取り、
(b)受け取ったone-hotベクトルi1
(t1)に対し、アイテム分散表現抽出演算子としての行列W
i
DSL1を作用させて(積算して)、アイテムitem1のアイテム表現ベクトル(ドメイン行動情報)r_i1
(t1)を生成する。
【0108】
また、時点t1におけるユーザ分散表現抽出部21uであるユーザ分散表現抽出部21u(t1)は、上記(a)のone-hotベクトルi1(t1)の受け取りに合わせ、
(c)ユーザUserAのユーザ識別情報であるone-hotベクトルua(t1)を受け取り、
(d)受け取ったone-hotベクトルua(t1)に対し、ユーザ分散表現抽出演算子としての行列Wu
DSL1を作用させて(積算して)、ユーザUserAのユーザ属性表現ベクトルr_ua(t1)を生成する。
【0109】
同じく
図3において、時点t1におけるDSL1セル21であるDSL1セル21(t1)は、
(e)上記(b)で生成されたアイテム表現ベクトル(ドメイン行動情報)r_i1
(t1)と、上記(d)で生成されたユーザ属性表現ベクトルr_ua
(t1)とを受け取り、さらに、
(f)(この後詳細に説明するが、)上記(e)のドメイン行動情報(r_i1
(t1))を受け取る時点t1からみて最近に(
図3では時点tIに)生成されたドメイン非依存隠れ状態情報h
DIL,(tI)も受け取り、
(g)前の時点(t1-1)で自ら生成したドメイン特定隠れ状態情報h
DSL1,(t1-1)に対し、受け取ったアイテム表現ベクトル(ドメイン行動情報)r_i1
(t1)、ユーザ属性表現ベクトルr_ua
(t1)及びドメイン非依存隠れ状態情報h
DIL,(tI)を反映させて、新たなドメイン特定隠れ状態情報h
DSL1,(t1)を生成する。
【0110】
以上、アイテム分散表現抽出部21i、ユーザ分散表現抽出部21u、及びDSL1セル21における時点t1での処理について説明を行ったが、勿論他の時点での処理、例えば次の時点(t1+1)に係るアイテム分散表現抽出部21i(t1+1)、ユーザ分散表現抽出部21u(t1+1)、及びDSL1セル21(t1+1)での処理、についても上記(a)~(g)と同様の処理が実行される。
【0111】
さらに、他の行動ドメイン(動画閲覧)に係る動画分散表現抽出部22m、ユーザ分散表現抽出部22u、及びDSL2セル22における各時点での処理、例えば時点t2に係る動画分散表現抽出部22m(t2)、ユーザ分散表現抽出部22u(t2)、及びDSL2セル22(t2)での処理、についても、上記(a)~(g)と同様の処理が実行される。ただし、この場合、例えば時点t2での動画分散表現抽出部22m(t2)は、
(b’)受け取った(ユーザUserAによって閲覧された動画Mov1を示す)one-hotベクトルm1(t2)に対し、動画分散表現抽出演算子としての行列Wm
DSL2を作用させて(積算して)、動画Mov1の動画表現ベクトル(ドメイン行動情報)r_m1(t2)を生成する
のである。また、DSL2セル22(t2)は、このドメイン行動情報r_m1(t2)を取り入れて処理を行うことになる。
【0112】
同じく
図3において、時点tIにおけるユーザ分散表現抽出部(ユーザ表現生成部)20uであるユーザ分散表現抽出部20u(tI)は、
(h)ユーザUserAのユーザ識別情報であるone-hotベクトルua
(tI)を受け取り、
(i)受け取ったone-hotベクトルua
(tI)に対し、ユーザ分散表現抽出演算子としての行列W
u
DILを作用させて(積算して)、ユーザUserAのユーザ属性表現ベクトルr_ua
(tI)を生成する。
【0113】
また、時点tIにおけるDILセル20であるDILセル20(tI)は、
(j)上記(i)で生成されたユーザ属性表現ベクトルr_ua
(tI)を受け取り、さらに、
(k)時点tIからみて最近に(
図3では時点t2に)生成されたドメイン特定隠れ状態情報h
DSL2,(t2)も受け取り、
(l)前の時点(tI-1)で自ら生成したドメイン非依存隠れ状態情報h
DIL,(tI-1)に対し、受け取ったユーザ属性表現ベクトルr_ua
(tI)及びドメイン特定隠れ状態情報h
DSL2,(t2)を反映させて、新たなドメイン非依存隠れ状態情報h
DIL,(tI)を生成する。
【0114】
なお、以上説明した処理(h)~(l)に係る時点tIは、例えば定期的に(所定時間経過毎に)設定された時点(の1つ)とすることも可能ではあるが、本実施形態ではより好適な設定として、いずれかのドメイン特定RNNセル(
図3ではDSL1セル21及びDSL2セル22のいずれか)においてドメイン特定隠れ状態情報が生成された直後の時点となっている。
【0115】
言い換えると、例えば以上に説明した場合においては、時点t2においてDSL2セル22(t2)がドメイン特定隠れ状態情報h
DSL2,(t2)を生成したのを受けて、その直後(すなわち時点tI)に、上記処理(h)~(l)が発動するのである。またさらに、同じく
図3に示したように、時点t1においてDSL1セル21(t1)がドメイン特定隠れ状態情報h
DSL1,(t1)を生成したのを受け、その直後(時点tI+1)に、生成された直後のドメイン特定隠れ状態情報h
DSL1,(t1)を受け取って、上記処理(h)~(l)と同様の処理が実行されるのである。
【0116】
このように本実施形態では、DILセル20は、いずれかのドメイン特定RNNセルでドメイン特定隠れ状態情報が生成される度に、当該ドメイン特定隠れ状態情報を受け取って、「ドメイン非依存隠れ状態情報」を生成する。
【0117】
ここで
図3において、推定対象であるユーザUserAは、「(時点t2で)動画Mov1を閲覧」→「(時点t1で)アイテムitem1を購入」→「(時点t2+1で)動画Mov2を閲覧」をこの順で行っている。DILセル20は、これらの行動に係る表現ベクトル(ドメイン行動情報)を順次受け取ったドメイン特定RNNセルで生成されたドメイン特定隠れ状態情報を順次受け取り、これにより、これらのドメイン特定隠れ状態情報の生成(受け取り)順序や前後関係の情報も加味されており、特定の行動ドメインでの行動内容だけに依存することのない(ドメイン非依存化した)「ドメイン非依存隠れ状態」を生成することが可能となるのである。
【0118】
さらに本実施形態では、上記(f)で述べたように、このような特徴的な「ドメイン非依存隠れ状態」が適宜、ドメイン特定RNNセル(DSL1セル21やDSL2セル22)への入力として用いられる。その結果、後にDILセル20が受け取るドメイン特定隠れ状態情報も、上述したような特徴が反映されたものとなり、その結果、「ドメイン非依存隠れ状態」のドメイン非依存化が促進する。言い換えると、DILセル20はさらに、特定の行動ドメインに依存しない、推定対象ユーザの全体的な属性を反映した情報処理を実行することができるようになるのである。
【0119】
次いで以下、ユーザ属性情報生成モデル2の訓練(学習)について説明を行う。
【0120】
最初に、DSL1セル21、アイテム分散表現抽出部21i及びユーザ分散表現抽出部21uの訓練においては、多数のユーザについて各ユーザが購入したアイテムの識別情報であるone-hotベクトルの時系列データを準備し、これを順次アイテム分散表現抽出部21iへ入力する。また合わせて、当該ユーザのユーザ識別情報であるone-hotベクトルをユーザ分散表現抽出部21uへ入力する。これにより、DSL1セル21は、各時点において前の時点でのドメイン特定隠れ状態情報を更新して当該時点でのドメイン特定隠れ状態情報を生成し、これを受けて出力層21oが、購入アイテムの予測結果(次の時点に当該ユーザが購入すると予測されるアイテムの識別情報、又は各候補アイテムの購入される確率)を出力する(本実施形態において、出力層21oはそのような出力を行うように設定されている)。
【0121】
ここで、出力されたアイテムの予測結果と正解のアイテムの識別情報(実際に購入されたアイテムのone-hotベクトル)との差異を損失とし、公知のRNNの誤差逆伝播法を用いて、DSL1セル21内の各パラメータ(重み行列やバイアスベクトルを決めるパラメータ等)や、行列Wi
DSL1及び行列Wu
DSL1を決めるパラメータを調整する訓練を行うのである。
【0122】
なお、DSL2セル22、動画分散表現抽出部22m及びユーザ分散表現抽出部22uの訓練についても、上記のDSL1セル21等の訓練と同様にして実施することができる。具体的にこの場合、出力層22oから出力された閲覧動画の予測結果(次の時点に当該ユーザが閲覧すると予測される動画の識別情報、又は各候補動画の閲覧される確率)と正解の動画の識別情報(実際に閲覧された動画のone-hotベクトル)との差異を損失とし、公知のRNNの誤差逆伝播法を用いて、DSL2セル22内の各パラメータ(重み行列やバイアスベクトルを決めるパラメータ等)や、行列Wm
DSL2及び行列Wu
DSL2を決めるパラメータを調整する訓練を行うのである。さらに、3つ目又はそれ以降のドメイン特定RNNセル系が設定されている場合も、同様にして訓練することが可能である。
【0123】
次いで、DILセル20及びユーザ分散表現抽出部20uの訓練においては、各ドメイン特定RNNセル(DSL1セル21及びDSL2セル22の各々)における上述した損失を、各ドメイン特定RNNセルとDILセル20との間のリンクを通して、DILセル20及びユーザ分散表現抽出部20uへ逆伝播させて訓練を行う。例えば、
図3において、DSL1セル21での時点t1までの入力に基づく購入アイテムの予測結果と正解アイテムの識別情報との差異である損失は、ドメイン非依存隠れ状態情報h
DIL,(tI)の伝達されるリンクを通して逆伝播し、DILセル20内の各パラメータ(重み行列やバイアスベクトルを決めるパラメータ等)や、ユーザ分散表現抽出部20uの行列W
u
DILを決めるパラメータの訓練に用いられる。
【0124】
すなわち本実施形態において、DILセル20及びユーザ分散表現抽出部20uの訓練は、ドメイン非依存RNNセル独自の教師データを用いることなく、ドメイン特定RNNセル(DSL1セル21及びDSL2セル22)からの誤差逆伝播のみで実施されるのである。
【0125】
以上説明したように訓練(学習)されたDILセル20及びユーザ分散表現抽出部20uは、複数のドメイン特定RNNセル(DSL1セル21及びDSL2セル22)からドメイン特定隠れ状態情報を適宜受け取り、さらに各ドメイン特定RNNセルへ適宜ドメイン非依存隠れ状態情報を与えてきた過程でドメイン非依存化する。ここで特に、ユーザ分散表現抽出部20u(の行列Wu
DIL)は、ユーザの識別情報を受けて、当該ユーザの静的な且つ非ドメイン依存の(すなわち当該ユーザのパーソナリティを包含する)ユーザ属性に係る情報を出力するようになっているのである。
【0126】
[ユーザ属性情報生成モデルの他の実施形態]
図4は、本発明に係るユーザ属性情報生成モデルの他の実施形態を示す模式図である。
【0127】
図4によれば、本実施形態のユーザ属性情報生成モデル3は、行列因子分解(Matrix factorization)法を用いて、推定対象のユーザに係るユーザ属性表現ベクトルを生成し、対象属性表現生成モデル1’へ出力するモデルとなっている。また、この対象属性表現生成モデル1’は、対象属性表現生成モデル1と同様、例えば血縁関係指標を用いて訓練された写像部10’を備えており、受け取ったこのユーザ属性表現ベクトルに対し写像M'を施して、当該ユーザのパーソナリティ表現ベクトルを生成するのである。
【0128】
ここで、ユーザ属性表現ベクトルの生成に利用される行列因子分解法は、公知の手法であって、特に商品・サービスのレコメンド(推薦)技術の分野で精力的に研究されているユーザ表現学習(URL)技術のうちの、非時系列の行動データを用いるStatic URL技術の代表例となっている。
【0129】
具体的に、ユーザ属性情報生成モデル3は本実施形態において、この行列因子分解法に従い、
(a)多数(m人)のユーザの各々が様々な(n種類の)アイテムの各々を購入した事実の記録であるアイテム購入履歴から、各行のユーザが各列のアイテムを購入したか否かを示す値を行列成分とするm×nの「アイテム購入行列」を生成し、
(b)生成した「アイテム購入行列」を次元削減処理によって、m×kの「ユーザ行列」とk×nの「アイテム行列」とに分解し(ここで0<k<m)、
(c)分解して得られた「ユーザ行列」において、行毎の行列成分で構成されるベクトルを、当該行に対応するユーザのユーザ属性表現ベクトルとして出力する
のである。
【0130】
図4では(容易な理解のためユーザ数及びアイテム数を極端に小さくした4×5の「アイテム購入行列」を示しているが)、4×3の「ユーザ行列」における第1行の行列成分で構成されるベクトルが、この第1行に対応するユーザp1のユーザ属性表現ベクトルr_p1として出力されている。
【0131】
ここで、ユーザ属性情報生成モデル3から出力されたユーザp1のユーザ属性表現ベクトルr_p1は、行列因子分解法(Static URL技術)の性格上、ユーザ属性に関し動的/静的の、さらにはドメイン依存的/ドメイン非依存的の分離若しくは抽出を経たものとはなっていない。いわば
図1上方のユーザ属性分類グラフにおける第1~第4象限に係るグループ分けはできていない状態の表現ベクトルとなっている。
【0132】
対象属性表現生成モデル1’は、このようなユーザ属性表現ベクトルr_p1を受け取り、これに対し写像M'を施すことによって、いわばこのユーザ属性表現ベクトルr_p1から、ユーザp1のパーソナリティ成分を抽出した(若しくはあぶり出した)結果としてのパーソナリティ表現ベクトルM'(r_p1)を生成することができるのである。
【0133】
なお本実施形態では、ユーザ属性情報生成モデル3は、行動ドメイン「アイテム購入」に係る「アイテム購入行列」を利用してユーザ属性表現を生成しているが、勿論、他の行動ドメイン、例えば「動画閲覧」や「広告クリック」に係る行列を利用することも可能である。
【0134】
また、本発明による対象属性表現生成モデルへ入力されるユーザ属性表現ベクトルも、当然、上記のような行列因子分解法を実施するモデルや、上述したユーザ属性情報生成モデル2(
図3)から出力されるものに限定されない。例えば、
図1上方のユーザ属性分類グラフにおける第1象限を包含する情報を出力可能な「URL技術によるユーザ属性情報生成モデル」からのユーザ属性表現ベクトルならば、それを受け取った対象属性表現生成モデルは、パーソナリティ表現ベクトルを生成することが可能となるのである。
【0135】
[パーソナリティ推定装置・プログラム・方法]
以下、
図1に戻って、以上詳細に説明したユーザ属性情報生成モデル2と対象属性表現生成モデル1とを合わせたモデルであるパーソナリティ推定モデル8を搭載しており、推定対象ユーザのパーソナリティを推定するパーソナリティ推定装置9について説明する。
【0136】
具体的に
図1下方の機能ブロック図において、パーソナリティ推定装置9の入力部91は、通信機能を備えていて、例えば外部に設置された行動ドメイン関連の管理サーバ(例えばウェブショッピング管理サーバや動画配信管理サーバ)から、多数のユーザにおける各行動ドメインでの行動に係る時系列情報を取得し、訓練部92へ出力する。また、これらのユーザにおける血縁関係情報も、例えば外部に設置されたアンケート調査結果管理サーバから取得し、訓練部92へ出力する。さらに入力部91は、推定対象ユーザに係る情報を受け取り、パーソナリティ推定部93へ出力する。
【0137】
訓練部92は、受け取った多数のユーザにおける各行動ドメインでの行動に係る時系列情報から訓練データを生成し、これを用いてパーソナリティ推定モデル8におけるユーザ属性情報生成モデル2部分の訓練(学習)を実施する。また、受け取ったこれらのユーザの血縁関係情報と、ユーザ属性情報生成モデル2部分から出力されたユーザ属性表現ベクトルとから訓練データを生成し、これを用いてパーソナリティ推定モデル8における対象属性表現生成モデル1部分の訓練(学習)を実施する。
【0138】
パーソナリティ推定部93は、受け取った推定対象ユーザに係る情報から、推定対象ユーザのユーザ識別情報(one-hotベクトル)を生成して、これを、訓練(学習)済みのパーソナリティ推定モデル8(のユーザ属性情報生成モデル2部分)へ入力し、パーソナリティ推定モデル8(の対象属性表現生成モデル1部分)から、推定対象ユーザのパーソナリティ表現ベクトルを取得する。このパーソナリティ表現ベクトルはすで説明したように、推定対象ユーザのパーソナリティの分散表現と捉えることができ、測定粒度の高い(細かい)且つ信頼性の高いパーソナリティ情報となっているのである。
【0139】
出力部94は、受け取ったパーソナリティ表現ベクトル(personality embedding vector)を、推定対象ユーザのパーソナリティ情報として(通信機能を備えている場合に)外部の情報処理装置へ送信したり、(表示機能を備えている場合に)表示したりする。
【0140】
ここで、訓練部92及びパーソナリティ推定部93は、本発明によるパーソナリティ推定方法の一実施形態を実施する主要機能構成部であり、また、本発明によるパーソナリティ推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることもできる。またこのことから、パーソナリティ推定装置9は、パーソナリティ推定の専用装置であってもよいが、本発明によるパーソナリティ推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。
【0141】
なお、パーソナリティ推定モデル8を構成するユーザ属性情報生成モデル及び対象属性表現生成モデルは当然、上記のものに限定されるものではなく、例えばユーザ属性情報生成モデル3(
図4)及び対象属性表現生成モデル1’(
図4)とすることも可能である。
また、搭載されるパーソナリティ推定モデル8は、対象属性表現生成モデルそのものであって、パーソナリティ推定装置9は、ユーザ属性情報生成モデルを搭載した外部の装置からユーザ属性表現ベクトルを受け取って、パーソナリティ表現ベクトルを生成するものであってもよい。
【0142】
以上詳細に説明したように、本発明によれば、対象(例えばユーザ)の表現ベクトルを、別の表現ベクトル空間の別の表現ベクトルに写像することができ、その際、対象の所定属性(例えばユーザのパーソナリティ)についての類似の度合いに関連する(可能性のある)強さ指標(例えば血縁関係指標)について、この強さ指標(血縁関係指標)が、当該類似の度合いをより大きくする(可能性のある)ものとなっているほど、対応する別の表現ベクトルの間の離隔度合いがより小さくなるような訓練処理を行っておくことによって、写像後の別の表現ベクトルを、対象(ユーザ)における所定属性(パーソナリティ)がより高い信頼性をもって表現された属性表現とすることが可能となる。
【0143】
例えば、本発明の1つの応用例ではあるが、従来使用されてきた質問紙調査によるパーソナリティ測定結果を用いることなく又はそれに依存することなく、推定対象ユーザの行動ドメイン情報から、情報粒度及び信頼性のより高いパーソナリティ情報を生成することも可能となる。さらに、このように生成したユーザのパーソナリティ情報を用いて、例えばマーケティングの分野において、提供する商品・サービスをパーソナライズし、例えば好適な又は有効なレコメンド等を実施することもできるのである。
【0144】
また、例えば子供達に対し質の高い、且つ個々の性格に合った教育を提供するために、本発明によって生成した当該子供達の(例えばその行動内容から推定した)詳細な且つ高信頼度のパーソナリティ情報を活用することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標4「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。
【0145】
さらに、例えば大人達に対し、環境に害を及ぼさないディーセント・ワーク(働きがいのある人間らしい仕事)や、質の高い、且つ個々の性格に適した仕事を提供するために、本発明によって生成した当該大人達の(例えばその行動内容から推定した)詳細な且つ高信頼度のパーソナリティ情報を活用することもできる。すなわち本発明によれば、国連が主導するSDGsの目標8「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することも可能となるのである。
【0146】
またさらに、例えば消費者に対し、当該消費者の性格や生活行動の現状に沿った、持続可能な消費とライフスタイルについての教育を提供するために、本発明によって生成した当該消費者の(例えばその行動内容から推定した)詳細な且つ高信頼度のパーソナリティ情報や生活行動履歴・消費活動履歴を活用することもできる。すなわち本発明によれば、国連が主導するSDGsの目標12「持続可能な消費と生産のパターンを確保する」に貢献することも可能となるのである。
【0147】
上述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。上述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0148】
1、1’ 対象属性表現生成モデル
10、10’ 写像部
2、3 ユーザ属性情報生成モデル
20 DILセル(ドメイン非依存RNNモデル)
20o、21o、22o 出力層
20u ユーザ分散表現抽出部(ユーザ表現生成部)
21 DSL1セル(ドメイン特定RNNモデル)
21i アイテム分散表現抽出部
21u、22u ユーザ分散表現抽出部
22 DSL2セル(ドメイン特定RNNモデル)
22m 動画分散表現抽出部
8 パーソナリティ推定モデル
9 パーソナリティ推定装置
91 入力部
92 訓練部
93 パーソナリティ推定部
94 出力部