(58)【調査した分野】(Int.Cl.,DB名)
前記第2の商品選択手段は、前記選択された第1の商品の第2の単語特徴量、および前記商品の第2の単語特徴量に基づいて算出された多様性に重み係数を乗算した重み多様性と、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第2の商品を選択する、
ことを特徴とする請求項1、または2に記載の情報処理装置。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について詳細に説明する。
【0013】
まず、本実施形態の情報処理装置1のハードウェア構成について
図1を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などがある。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置1の構成は、
図1に示したものと必ずしも同じ構成である必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばパーソナルコンピュータ、タブレット端末、スマートフォンななどであればマウスや入力キーで構成されるキーボードなどの入力装置や、液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置や、CD、もしくはDVDなどに記憶されているデータを読み書きする光学ドライブなどを備えていてもよい。
【0014】
情報処理装置1は、所定のプログラムを実行することにより、情報処理装置1の全体の制御を実現するためのCPU10と、情報処理装置1の電源が投入されたときにCPU10が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクROM、EPROM、またはSSDなどと、CPU10がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるSRAMやDRAMなどから構成されるメモリ11、情報処理装置1の電源が切断されたときに種々のデータの記録を保持することが可能なHDD12と、を備えている。
【0015】
また、情報処理装置1は、通信I/F13を更に備えている。情報処理装置1は通信I/F13を介してネットワーク200に接続されている。通信I/F13は、CPU10の動作に基づいてネットワーク200経由でアクセス可能な各種情報にアクセスするものであり、通信I/F13の具体的としてUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
【0016】
図2は、本発明の実施形態にかかる情報処理装置1の機能ブロック図である。
図2に示すように、本発明にかかる情報処理装置1は、ドキュメント解析手段100と、商品解析手段101と、類似度算出手段102と、第1の商品選択手段103と、第2の商品選択手段104と、を備えている。
【0017】
情報処理装置1のドキュメント解析手段100は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第1の単語特徴量を算出する。尚、本実施形態において「指定ドキュメント」とは、コンピュータ、もしくはユーザ自身の何かしらの操作に基づいてネットワーク200経由で取得された文章データ等を意味する。例えば表示装置を備えるようなパーソナルコンピュータなどであれば、ネットワーク200を経由で取得された文章データ等が、表示装置に指定ドキュメントとして表示される。「第1の単語特徴量」については後述にて説明を行う。
【0018】
ここで、指定ドキュメントとしての一例を
図3に示すことにする。これは、例えばユーザが検索エンジンとして知られている「Google」(登録商標)や「Yahoo」(登録商標)などにネットワーク200経由でアクセスを行い、取得された文章データの一例である。取得する指定ドキュメントはこのような文章データに限定されず、動画や画像などを含んでいてもよい。
【0019】
ドキュメント解析の手法の一つとして形態素解析がある。形態素解析により指定ドキュメントを構成する文章を単語レベルに分解して抽出する。また言語解析の分野では公知であるが、例えばHDD12などに予め備えている単語辞書等で関連性の高い単語をグループ化して記憶しておくことができる。例えば、人物「A山B夫」を指す単語を、グループ「A山B夫」に含めるものとする場合、苗字の「A山」、名前の「B夫」、もしくは愛称などを予めグループ「A山B夫」と関連付けることで、それらの単語が所定のドキュメントに出現した際に一律してグループ「A山B夫」に属すると判断できるわけである。
【0020】
図4は形態素解析におけるグループ化の一例である。例えばグループ「アニメA」であれば、指定ドキュメントにおいて「アニメA」、「キャラクタA」、「キャラクタB」などが出現した場合に一律してグループ「アニメA」に属すると判断されるように規定する。同様にグループ「声優B」であれば、声優Bの苗字である「○山」、名前である「△子」、および愛称である「△ちゃん」などが指定ドキュメントに出現した場合に一律してグループ「声優B」に属すると判断されるように規定する。尚、本実施形態では、説明の簡素化のために3つのグループに限定しているが、これに限定されない。また、グルーピングの条件なども様々である。このように
図3の指定ドキュメントを形態素解析し、予め定められているグルーピングの規定に基づいて単語解析が行われる。
【0021】
図5は、
図3の指定ドキュメントに出現する単語を予めグルーピングの規定に基づいてグループ化を行い、指定ドキュメントの特徴を表した一例である。ここでの第1の特徴量は、指定ドキュメントの全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで示したものである。例えば、グループ「アニメA」であれば、指定ドキュメント全体のウェイトを100%に対して、「アニメA」に属する単語の出現頻度の合計が50%の割合であることを意味している。その他のグループにおいても同様に第1の特徴量が算出される。指定ドキュメントを構成する文章に出現する単語の単語量は膨大であるため、本実施形態では、単語量をできるだけ抑制するためグループ化しているが、グループ化せずに個々の単語ごとに指定ドキュメントに対する出現頻度として第1の特徴量を算出してもよい。また、第1の特徴量はパーセント表記に限定されず、分数の形で表記してもよい。
【0022】
情報処理装置1のドキュメント解析手段100は、CPU10がメモリ11に記憶されている所定のドキュメント解析方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算結果などがメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
【0023】
情報処理装置1の商品解析手段101は、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第2の単語特徴量を算出する。ここでの「商品」とは、例えば、ECサイトとしての「Amazon」(登録商標)、「楽天」(登録商標)、「iTunes」(登録商標)からユーザに提供される商品、「ぐるなび」(登録商標)、「食べログ」(登録商標)、「Yelp」(登録商標)、「ホットペッパー\HOTPEPPER」(登録商標)などからユーザに対して無償で紹介される情報、もしくはユーザに対して無償で紹介される動画や画像などネットワーク200経由で取得可能な多岐に渡るコンテンツを指す。また、第2の単語特徴量については後述にて説明を行う。
【0024】
図6は、商品の情報の一例を示したものである。商品は予め上記のようなサイトから情報を取得し、データベース形式でHDD12などに備えておいてもよいし、指定ドキュメントが取得されたタイミングで、指定ドキュメントから所定の方法に基づいてキーワードを抽出し、そのキーワードに基づいてその都度商品の情報を取得してもよい。例えば複数のコンピュータにネットワーク200を通じて処理要求を行うホストコンピュータやサーバであれば、予め上記のようなサイトから商品の情報を取得し、商品データベースとして備えておくことも可能である。また、
図6のような商品名や商品説明についての文書のみの情報だけでなく、例えば商品の外観が認識できる画像、および動画などを併せて取得することも可能である。また、文章情報としては、その商品を使用したユーザのコメント、更にユーザが購入する商品であれば価格情報などを併せて取得してもよい。また、商品に関連する情報としては、商品の広告を掲載する際の広告単価、および表示された広告に対するクリック数、広告の表示回数などの広告価格情報なども併せて取得が可能である。
【0025】
商品解析の手法の一つとして、ドキュメント解析手段100での解析手法と同様に形態素解析を用いる。形態素解析により
図6の商品の商品名、および商品の説明を構成する文章を単語レベルに分解して抽出する。また、ドキュメント解析手段100の解析手法と同様に、HDD12などに予め備えている単語辞書等で関連性の高い単語をグループとしてまとめることができる。
【0026】
図7は、
図6の商品の商品名、および商品の説明に出現する単語を予めグルーピングの規定に基づいてグループ化を行い、商品の特徴を表した一例である。ここでの第2の特徴量は、商品の商品名、および商品の説明に出現する全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで示したものである。例えば、商品番号1であれば、商品番号1の商品名、および商品の説明に出現する単語全体のウェイトを100%に対して、「アニメA」というグループに属する単語の出現頻度が60%の割合であり、グループ「テレビ」に属する単語の出現頻度が40%の割合であることを意味している。2〜9の商品についても同様に商品を構成するグルーピングが設定され、第2の特徴量が算出される。尚、本実施形態では説明の簡素化のために商品のカテゴリを「アニメA」、「声優B」、「俳優C」と分けて表記しているが、カテゴリに分けず、個々の商品ごとに商品についての説明に出現する単語の、商品についての説明に対する出現頻度として第2の単語特徴量を算出してもよい。また、商品を商品番号ではなく特有のIDと関連付けて記憶させることも可能である。
【0027】
情報処理装置1の商品解析手段101は、CPU10がメモリ11に記憶されている所定の商品解析方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算結果などがメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
【0028】
情報処理装置1の類似度算出手段102は、指定ドキュメントの第1の単語特徴量、および商品の第2の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する。2つの比較対象での類似度算出の一例として、本実施形態ではコサイン類似度を用いて指定ドキュメントと、商品との類似度を算出する。
【0029】
例えば文章に出現する単語の出現回数を単語ベクトル成分としてコサイン類似度を算出する手法は公知である。本実施形態では、指定ドキュメントの単語ベクトル成分として、
図5の各グループでの第1の特徴量を用いて表記すると、(0.5、0.3、0.15、0.02、0.01、0.01、0.01)と定めることができる。そして、商品の単語ベクトル成分として、
図7の例えば商品番号1の第2の特徴量を用いて表記すると、(0.6、0、0、0.4、0、0、0)と定めることができる。商品番号2〜9においても同様に単語ベクトル成分を定めることができる。
【0030】
上記のとおり、指定ドキュメントの単語ベクトル成分と、商品の単語ベクトル成分を用いてコサイン類似度を算出できる。コサイン類似度の計算式については公知であるため詳細な計算方法は割愛する。商品番号1〜9について、それぞれ計算結果を表記すると
図8のようになる。
図8より、商品番号1〜9の商品の中で、指定ドキュメントと最も類似度が高い商品は類似度が0.76の商品番号3であることがわかる。また、最も類似度が低い商品は類似度が0.18の商品番号9であることがわかる。尚、類似度の算出手段としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。
【0031】
情報処理装置1の類似度算出手段102は、CPU10がメモリ11に記憶されている所定の類似度演算方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算された類似度がメモリ11、およびHDD12などの記憶装置に記憶されている商品の第2の特徴量と関連付けて記憶される。
【0032】
情報処理装置1の第1の商品選択手段103は、類似度に基づいて、指定ドキュメントに関連する第1の商品を選択する。ここで選択されるべき商品は、類似度が最も高い商品である。つまり、
図8より商品番号3の商品が選択されることになる。尚、本実施形態では商品の数は9個だけであると想定しているが、予め類似度に所定のしきい値を設定しておき、そのしきい値以下の商品は選択対象外としてもよい。
【0033】
情報処理装置1の第1の商品選択手段103は、CPU10がメモリ11に記憶されている所定の商品選択方式が書き込まれているプログラム、および商品の類似度の情報を読み出して演算処理等が実行される。第1の商品として選択された情報がメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
【0034】
<多様性に基づいた商品選択の第1の実施例>
情報処理装置1の第2の商品選択手段104は、選択された第1の商品の第2の単語特徴量、および商品の第2の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第2の商品を選択する。ここで、「選択された第1の商品」は商品番号3であるものとする。また、「第2の商品」は未選択である商品番号1、2、4〜9のいずれかであるものとする。また、「多様性」については後述にて説明を行う。
【0035】
本実施形態では、第1の商品を指定ドキュメントと類似度が最も高いものを優先的に選択し、第2の商品は、指定ドキュメントとの類似度と、商品のバリエーションを考慮した「多様性」との観点から評価を行い、その評価値が高いものを優先的に取得する。本実施形態では「多様性」の考え方の一つとして、情報エントロピーを用いることにする。情報エントロピーは、事象の起こり得る確率に基づいて情報の大きさを数値化したものであり、本実施形態における商品の選択判断に用いることは適切であると言える。尚、情報の数値化という観点で考えると、「多様性」は情報エントロピーに限定されず例えば情報利得の概念で用いられるカルバック・ライブラー情報量を用いてもよい。
【0036】
多様性を示す情報エントロピーの値を求めてみる。まず、情報エントロピーにおける事象を、本実施形態では「アニメA」、「声優B」、「俳優C」などの単語ベクトル成分とする。商品が選択される度に、単語ベクトル成分の第2の特徴量が合成される。今、第1の商品として選択済の商品番号3の単語ベクトル成分は、(「アニメA」、「グッズ」)として、(0.7、0.3)と表記される。
【0037】
次に、未選択である商品番号1、2、4〜9のそれぞれの単語ベクトル成分を合成する。例えば、商品番号1の単語ベクトル成分を合成する場合を考えてみると、合成後の単語グループの表記は、(「アニメA」、「グッズ」、「テレビ」)であり、それぞれの単語ベクトル成分を合成すると(1.3、0.3、0.4)となる。商品番号3と商品番号1の重複事象である「アニメA」に関しては0.7+0.6で単純に和を取る。そして新事象である「テレビ」が新たに追加される。
【0038】
このように選択済の商品の単語ベクトル成分に対して、未選択の商品の単語ベクトル成分を合成して情報エントロピーが算出できる。情報エントロピーHの演算式は公知であり、H=−ΣP
ilogP
iで表される。P
iは単語ベクトル成分全体に対する特定の単語ベクトル成分の割合で表すことができ、例えば単語ベクトル成分の合成後の「アニメA」の単語ベクトル成分の割合は、単語ベクトル成分全体を2とすると、1.3/2で表され、同様に「グッズ」は0.3/2、「テレビ」は0.4/2で表される。この値を各々事象ごとに情報エントロピーHの式に当てはめると、
図9のように0.38という値が算出される。尚、
図9では「多様性」に該当する値がこの情報エントロピーHの値であるとする。同様に、商品2、4〜9それぞれの情報エントロピーHを算出する。
【0039】
以上のように求められた情報エントロピーHを用いて、未選択の商品を評価する。本実施形態では、類似度と情報エントロピーHを用いて、商品評価値を類似度+(重み係数×H)という式で表すことにする。重み係数は任意の値であり、重み係数を大きくするほど多様性、つまり情報エントロピーの値が重視され、重み係数を小さくほど類似度が重視されるようになる。この値は、例えば実際に社会一般のサイトから取得されるドキュメントの分析を行い、最適な値を設定することもできる。本実施形態では、重み係数4という数値を一例で用いているが、この数値に限定されず、多様性の概念を考慮して商品を評価できればその他の値を用いてもよい。
【0040】
上記の式に基づいて、未選択の商品の商品評価値を算出すると、商品番号4が最も高い数値となった。つまり、2商品目として選択される商品が商品番号4の商品となる。従来であれば、指定ドキュメントとの類似度が高い商品番号1、もしくは商品番号2などの商品が優先的に選択されていたが、多様性の概念を踏まえて商品番号1、もしくは商品番号2よりも優先的に類似度の低い商品番号4の商品を2商品目に選択することができるわけである。尚、第1の商品選択の時と同様に、予め類似度に所定のしきい値を設定しておき、まず、そのしきい値以下の商品は選択対象外とする処理を事前に行ってもよい。
【0041】
次に、3商品目を選択する場合を考えてみる。2商品目を選択した場合と同様に、選択済の商品番号3、および4で合成された単語ベクトル成分(「アニメA」、「グッズ」、「声優B」、「音楽」)でそれぞれ(0.7、0.3、0.7、0.3)を基準として未選択の商品番号1、2、5〜9を選択する場合の情報エントロピーHを算出して、商品評価値を算出する。算出結果として
図10に示したとおりであり、商品番号7が最も高い数値となった。つまり、3商品目として選択される商品が商品番号7の商品となる。
【0042】
次に、4商品目を選択する場合を考えてみる。2商品目、および3商品目を選択した場合と同様に選択済の商品番号3、4、および7で合成された単語ベクトル成分(「アニメA」、「グッズ」、「声優B」、「音楽」、「俳優C」、「テレビ」)でそれぞれ(0.7、0.3、0.7、0.3、0.7、0.3)を基準として未選択の商品番号1、2、5〜6、8〜9を選択する場合の情報エントロピーHを算出して、商品評価値を算出する。算出結果として
図11に示したとおりであり、商品番号2が最も高い数値となった。つまり、4商品目として選択される商品が商品番号2の商品となる。以後、予め定められた選択数を満たすまで第2の商品の選択が繰り返される。
【0043】
以上のように、本実施形態では、商品を選択する順番として、まず類似度に基づいて「アニメA」に関連する商品が選択され、次に多様性を踏まえた評価に基づいて「声優B」に関連する商品が選択され、更に「俳優C」に関連する商品が選択される。従来の類似度を基準とした選択であれば、「アニメA」に関連する商品が優先的に選択されるが、本実施形態では、「アニメA」、「声優B」、「俳優C」などカテゴリの異なる商品をバランスよく選択することが可能となる。
【0044】
情報処理装置1の第2の商品選択手段104は、CPU10がメモリ11に記憶されている所定の商品選択方式が書き込まれているプログラム、および商品の類似度、および第2の特徴量の情報を読み出して演算処理等が実行される。第2の商品として選択された情報がメモリ11、およびHDD12などの記憶装置に一時的に記憶される。
【0045】
<多様性に基づいた商品選択の第2の実施例>
多様性に基づいた商品選択として、第2の実施例について説明する。
図6に記載されている商品などを指定ドキュメントに広告として掲載する場合では、広告を掲載することで個人や企業が収入を得ることができる。商品ごとに広告単価が定められており、その広告単価に基づいて得られる収入が決まるわけである。広告掲載による得られる収入は、広告の掲載契約が成立した時点で算出されたり、ユーザの情報端末に広告が表示された回数に基づいて算出されたり、表示された広告に対するユーザのクリック数などに基づいて算出されたりなど様々である。
【0046】
多様性に基づいた商品選択の第2の実施例として、商品の広告価格情報に基づいて商品を選択する。ここでの実施例としては、まず、類似度算出手段102により算出された指定ドキュメントと、商品と、の類似度に基づいて、所定のしきい値を満たす商品だけに絞り込むことにする。ここでの処理は予めメモリ11に記憶させた所定のしきい値を読み出しプログラムに基づいてCPU10が演算処理等を行う。次に、所定の類似度を満たした商品の中から広告価格情報に基づいて指定ドキュメントに関連する第1の商品を選択する。
【0047】
第1の商品を選択する際に、選択の基準となる広告価格情報は、広告単価そのものでもよいし、広告単価に、表示された広告に対するユーザのクリック数、もしくは表示回数などを重み付けたものであってもよい。選択される第1の商品は、広告単価が高いもの、もしくは広告単価に所定の重み付けをした広告価格情報が大きいものであることが好ましい。次に、選択された第1の商品の単語特徴量、および商品の単語特徴量に基づいて算出された多様性と、広告価格情報と、に基づいて、指定ドキュメントに関連する第2の商品を選択する。ここでの「第1の商品の単語特徴量」、および「商品の単語特徴量」は、例えば第1の実施例と同様に
図7に示したような商品の商品名、および商品の説明に出現する全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで表すことができる。また、グルーピングせずに商品ごとに商品についての説明に出現する単語ごとの、商品についての説明に対する出現頻度で表してもよい。
【0048】
「多様性」においては、例えば第1の実施例と同様に情報エントロピーHを用いてもよい。このように定義することで、未選択である第2の商品の商品評価値を算出する式を広告価格情報+(重み係数×情報エントロピー)とすることができる。重み係数は任意の値であり、重み係数を大きくするほど多様性、つまり情報エントロピーの値が重視され、重み係数を小さくほど広告価格情報が重視されるようになる。第1の実施例と同様に選択済の商品の単語ベクトル成分に、未選択である商品の単語ベクトル成分を合成し、選択済の商品と未選択の商品との多様性を考慮して第2の商品が選択される。以後、予め定められた選択数を満たすまで第2の商品の選択が繰り返される。
【0049】
このように第2の実施例では、指定ドキュメントと商品との類似性が高い商品に予め絞り込み、商品の広告価格情報と多様性を加味した商品選択の実現を可能としている。このように商品の選択を行うことで、指定ドキュメントに対する類似性を維持しつつ、例えば広告単価が高いもの、もしくは広告価格情報が大きいものに偏らせることなく、バリエーションに富んだ商品の選択が可能となる。
【0050】
図12は、本発明の実施形態にかかる商品選択のフローチャートの一例である。
【0051】
まず、指定ドキュメントに出現する単語の指定ドキュメントに対する出現頻度を示す第1の特徴量を算出する(ステップ1)。商品についての説明に出現する単語の商品についての説明に対する出現頻度を示す第2の特徴量を算出する(ステップ2)。第1の特徴量と、第2の特徴量と、に基づいて指定ドキュメントと商品の類似度を算出する(ステップ3)。
【0052】
類似度に基づいて指定ドキュメントに類似する商品を第1商品として選択する(ステップ4)。選択された第1商品および未選択の商品の第2の特徴量に基づいて算出された多様性と、類似度と、に基づいて第2商品を選択する(ステップ5)。以後、所定の選択数を満たすまでステップ5の処理が繰り返し行われる(ステップ6)。
【0053】
本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施例に限定されない。