(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
<本実施形態について>
本実施形態では、例えば推薦情報を取得するための検索情報(例えば、検索キーワード、ユーザプロファイル、推薦情報の概要文等)の特徴量に基づく単語関連度と、検索結果から得られた推薦情報(例えば、番組情報、商品、音楽等の各種コンテンツやアイテム)の特徴量に基づく単語関連度とを用いて、各単語間の関連度を計算し、計算した関連度に基づく順位に応じて所定数の単語を出力する。また、本実施形態では、出力した単語、又はその単語を用いて生成した文章等を推薦理由に関する情報として出力する。なお、本実施形態では、上述した各単語の特徴量の計算に、例えば事前の用意されたICA(Independent Component Analysis;独立成分分析)基底等の行列情報等を用いることができるが、これに限定されるものではない。
【0014】
以下に、推薦理由提示装置及び推薦理由提示プログラムを好適に実施した形態について、図面等を用いて詳細に説明する。
【0015】
<推薦理由提示装置の機能構成例>
図1は、推薦理由提示装置の機能構成の一例を示す図である。
図1における推薦理由提示装置10は、検索キーワード入力手段11と、キーワード解析手段(検索情報解析手段)12と、単語情報格納手段13と、特徴量計算手段14と、ICA基底格納手段15と、関連度計算手段16と、単語関連度格納手段17と、推薦アイテム入力手段18と、アイテム解析手段(推薦情報解析手段)19と、キーワード・アイテム単語関連度計算手段20と、単語関連度順位取得手段21と、出力手段22とを有する。なお、
図1の例では、特徴量計算手段14−1,14−2、関連度計算手段16−1,16−2、及び単語関連度格納手段17−1,17−2のように、それぞれ2つの構成を用いているが、これに限定されるものではなく、それぞれが1つの構成であってもよい。
【0016】
検索キーワード入力手段11は、推薦されたアイテム(例えば、番組、商品、音楽等のコンテンツ)等の推薦を受けるために、ユーザ等によりキーボードやタッチパネル上の操作ボタン等からの入力された検索キーワードを受け付ける。
【0017】
なお、検索キーワード入力手段11は、上述した検索情報の一例であり、例えばユーザプロファイルやユーザが現在視聴している番組情報等を入力してもよい。ユーザプロファイルとは、例えばあるユーザ(例えば、ユーザA)は、「サッカーが好きで、特にバルセロナが好き」といった嗜好情報であるが、これに限定されるものではなく、例えばそのユーザの嗜好や興味を関連のある単語で表現したものであればよい。上述したようなユーザプロファイルは、例えばユーザAにより事前に複数の番組を見たいか見たくないかでレーティングした結果に基づいて、レーティングが高い番組に共通して現れる単語には、高い興味がある等とし、各単語への興味の度合いを計算することで生成することができるが、これに限定されるものではない。
【0018】
キーワード解析手段12は、検索キーワード入力手段11により入力されたキーワードと、予め記憶された単語情報格納手段13に含まれる単語との間で、TFとDFとを求め、TF−IDF(Term Frequency−Inverse Document Frequency)を計算する。
【0019】
TF−IDFは、例えば文章中に含まれる単語の重みを設定するのに一般に使われる手法である。TF−IDFは、例えば検索対象文章群のうち、文章中の単語の出現頻度を表すTF(文章中での単語の重要度)と、その単語が現れる文章数(DF)の逆数を表すIDFとを用いて、TFとIDFとの積で表される。なお、IDFは、検索対象文章群全体での重要度であり、多くの文章に出てくる単語はそれほど重要ではないという考え方である。
【0020】
単語情報格納手段13は、例えば予め設定された文章等の情報に含まれる単語と、その出現頻度(例えば、DF)の情報等が格納される。予め設定された文章とは、例えば推薦アイテム入力手段18で入力される推薦情報等であるが、これに限定されるものではない。
【0021】
単語情報格納手段13に格納される単語は、名詞であるが、これに限定されるものではなく、動詞や形容詞等を含めてもよい。例えば、本実施形態により、人手による検索に対する推薦理由を取得したい場合には、ユーザが検索キーワードとして名詞を入力する可能性が高いため、名詞だけを格納してもよい。また、本実施形態により、番組から番組への推薦に対する推薦理由を取得したい場合には、名詞だけ動詞等も含めたほうがよい。
【0022】
また、単語情報格納手段13は、出現頻度が少ない単語については、検索時にノイズになってしまう場合があるため、所定の出現頻度(例えば、3)以上の単語のみ格納するようにしてもよい。
【0023】
また、単語情報格納手段13に格納される単語は、例えば先頭からの格納順序に応じて識別情報(ID)を付与して管理してもよい。これにより、後述の処理では、このIDを用いてベクトルや行列等による計算を行うことができる。
【0024】
特徴量計算手段14−1は、キーワード解析手段12により得られたTF−IDFの値をICA基底に射影し、ICA基底の次元数と同じ数のパラメータを持つ特徴量に変換する。ICA基底については、後述する。
【0025】
関連度計算手段16−1は、特徴量計算手段14−1で得られた特徴量を、予め記憶されたICA基底格納手段15に記憶されたICAの基底の列(縦)ベクトルとの類似度計算により、検索キーワード入力手段11で入力されたキーワード(各単語)と単語情報格納手段13に含まれる各単語との間の関連度を計算する。
【0026】
なお、類似度とは、検索キーワードがどれだけICA基底のベクトルに近いかの計算により得られることができる。類似度計算には、例えばコサイン類似度を使用することができるが、これに限定されるものではなく、他のベクトルの類似度計算を利用してもよい。関連度計算手段16−1は、計算されたキーワードに対する単語関連度を単語関連度格納手段17−1に格納する。
【0027】
推薦アイテム入力手段18は、検索キーワード入力手段11により入力された検索キーワードを用いて、予め設定された多数の推薦情報が含まれる検索対象文章群を検索し、検索により抽出された推薦情報(推薦アイテム)を入力情報として受け付ける。つまり、推薦アイテム入力手段18には、検索キーワードにより検索された結果として得られる推薦情報が入力される。
【0028】
なお、検索対象文章群から推薦情報を抽出する手法については、例えば検索対象文章群に含まれる各推薦情報中のキーワードと検索キーワードとのマッチングにより同一又は類似するキーワードを有する推薦情報を抽出する手法等があるが、これに限定されるものではない。例えば、ジャンル等の情報種別や重要度等を組み合わせて推薦情報を抽出してもよく、その他の一般的な検索手法を用いて推薦情報を抽出してもよい。
【0029】
また、推薦情報(推薦アイテム)としては、例えば番組情報や映画情報、音楽情報、各種商品情報、サービス情報等のコンテンツの概要文(文字情報)等であるが、これに限定されるものではない。
【0030】
アイテム解析手段19は、推薦アイテム入力手段18により入力された推薦アイテムと、予め記憶された単語情報格納手段13に含まれる単語との間で、TFとDFとを求め、TF−IDFを計算する。なお、アイテム解析手段19で使用された単語情報格納手段13は、上述したキーワード解析手段12で使用された単語情報格納手段13と同一のものであることが好ましい。
【0031】
特徴量計算手段14−2は、アイテム解析手段19により得られたTF−IDFの値をICA基底に射影し、ICA基底の次元数と同じ数のパラメータを持つ特徴量に変換する。
【0032】
関連度計算手段16−2は、特徴量計算手段14−2で得られた特徴量を、予め記憶されたICA基底格納手段15に記憶されたICAの基底の列(縦)ベクトルとの類似度計算(例えば、コサイン類似度計算)により、推薦アイテム入力手段18に入力された推薦情報に含まれる単語と単語情報格納手段13に含まれる各単語との間の関連度を計算する。関連度計算手段16−2は、計算された単語に対する単語関連度を単語関連度格納手段17−2に格納する。
【0033】
キーワード・アイテム単語関連度計算手段20は、例えば単語関連度格納手段17−1,17−2にそれぞれ記憶された単語関連度を用いて、単語毎の積を計算する。キーワード・アイテム単語関連度計算手段20は、例えば各単語に対応する重み付け値を付与して積を計算してもよい。
【0034】
単語関連度順位取得手段21は、キーワード・アイテム単語関連度計算手段20により計算されたそれぞれの積を基準として、積の大きい単語順に並べ替える。
【0035】
出力手段22は、単語関連度に対する予め設定された条件に基づいて、所定数の単語を、推薦情報に対する推薦理由として出力する。
【0036】
出力手段22は、例えば「順位の高い上位5個を出力する」、「順位が高く、推薦アイテム入力手段18に入力された概要文に含まれる単語を出力する」等の条件に基づいて対象の情報を出力することができるが、これに限定されるものではない。
【0037】
また、出力手段22は、単語のみを出力してもよく、単語から文章を生成して出力してもよい。例えば、推薦理由として「サッカー」、「スポーツ」が得られた場合に、その単語そのものを関連キーワードや推薦理由等として出力してもよく、また「この推薦情報が抽出された理由は、"サッカー"、"スポーツ"という単語が概要文に含まれているためです。」といった所定の文章等を生成して出力してもよい。出力手段22における出力手法は、画面に表示してもよく、音声出力してもよく、これらを組み合わせてもよい。また、推薦理由は、上述した検索キーワードにより検索された推薦情報と共に出力してもよい。これにより、ユーザへの推薦情報に対する適切な推薦理由を提示することができる。
【0038】
なお、上述した出力手段22では、推薦理由提示装置10におけるそれまでの計算処理等において、例えばベクトルや行列等による演算を行っているため、単語関連度順位取得手段21から得られる情報としては、予め設定された単語の識別情報(ID)しか出力できない場合がある。したがって、出力手段22は、
図1に示すように、単語情報格納手段13に記憶された単語情報を用いることで、単語関連度順位取得手段21から取得した単語IDに相当する単語を抽出することができる。出力手段22から出力される情報は、例えば検索キーワードを入力したユーザやこのサービスの管理者等に、推薦理由情報として提示される。
【0039】
ここで、本実施形態における推薦理由提示装置10は、例えばインタネットやLAN(Local Area Network)等に代表される通信ネットワークを介して接続された外部装置で事前処理された単語関連度格納手段17−1,17−2の情報を取得して、後続の処理を行う構成であってもよい。
【0040】
また、推薦理由提示装置10は、上述した単語情報格納手段13やICA基底格納手段15についても通信ネットワークを介して接続された外部装置から取得してもよい。
【0041】
更に、推薦理由提示装置10は、検索キーワード入力手段11で入力された検索キーワードを用いて予め設定された複数の推薦情報が含まれる検索対象文章群を検索し、検索キーワードに対応する推薦情報を抽出する検索手段を有していてもよい。これにより、推薦理由提示装置10が、検索キーワードに対する推薦情報と、その推薦理由情報とを提示することができる。
【0042】
<推薦理由提示処理例>
次に、本実施形態における推薦理由提示処理の一例について、フローチャートを用いて説明する。
図2は、推薦理由提示処理の一例を示すフローチャートである。
【0043】
図2の例において、検索キーワード入力手段11は、ユーザ等による検索キーワードの入力を受け付ける(S01)。次に、キーワード解析手段12は、単語情報格納手段13に含まれる情報を用いてS01の処理で得られたキーワードの解析を行う(S02)。
【0044】
次に、特徴量計算手段14−2は、S02の処理で得られた解析結果と、ICA基底格納手段15に記憶された情報とを用いて特徴量を計算する(S03)。次に、関連度計算手段16−1は、S03で得られた特徴量と、ICA基底格納手段15に記憶された情報とを用いて、推薦アイテムの各単語の関連度を計算し(S04)、S04の処理で得られた計算結果を単語関連度格納手段17−1に記憶する(S05)。
【0045】
次に、推薦アイテム入力手段18は、上述した検索キーワードにより検索された推薦アイテム(例えば、番組等)に関連する情報(例えば、概要文や説明文、紹介文等)の入力を受け付ける(S06)。次に、アイテム解析手段19は、単語情報格納手段13に含まれる情報を用いて、S06の処理で得られた推薦アイテム(例えば、推薦アイテムの概要文に含まれる単語)を解析する(S07)。
【0046】
次に、特徴量計算手段14−2は、S07の処理で得られた解析結果と、ICA基底格納手段15に記憶された情報とを用いて特徴量を計算する(S08)。次に、関連度計算手段16−2は、S08で得られた特徴量と、ICA基底格納手段15に記憶された情報とを用いて、推薦アイテムの各単語の関連度を計算し(S09)、S09の処理で得られた計算結果を単語関連度格納手段17−2に記憶する(S10)。
【0047】
次に、キーワード・アイテム単語関連度計算手段20は、単語関連度格納手段17−1に記憶された検索キーワードの単語関連度と、単語関連度格納手段17−2に記憶された推薦アイテムの単語関連度とを用いて、各単語の関連度を計算する(S11)。
【0048】
次に、単語関連度順位取得手段21は、S11の結果に基づき、単語関連度の順位を取得する(S12)。また、出力手段22は、S12の処理により取得した順位に対して予め設定された条件に基づく所定数の単語等を推薦理由情報として出力する(S13)。
【0049】
<検索キーワード以外の入力について>
上述したように、本実施形態ではユーザの操作により入力された検索キーワードを用いて、ユーザの嗜好に合わせた推薦情報と、その推薦理由とを提示することができるが、これに限定されるものではなく、例えばユーザプロファイルを用いてユーザの嗜好に合わせた推薦情報と、その推薦理由とを提示することができる。
【0050】
ユーザの興味や関心は、ユーザプロファイルとして表現することができる。ユーザプロファイルは、上述したように、本実施形態のために特別に生成したユーザプロファイルを用いてもよく、また例えば多段グラフマイニング手法(例えば、松井淳,宮▲崎▼太郎,山田一郎,藤井真人,苗村昌秀,"多段グラフマイニングによる新規アイテム推薦,"映情学技報,37(20),ME2013−61,AIT2013−120,pp1−4,2013.)等、他の手法により生成されたユーザプロファイルを用いることもできるが、これに限定されるものではない。
【0051】
多段グラフマイニングでは、例えばユーザと番組、そして番組に関連する名詞群をノードとしたグラフ構造を生成する。また、ユーザの番組に対する興味の度合いをユーザ番組間のノードを結ぶエッジの重みとして与え、既存のグラフ構造解析処理により、ユーザノードから各名詞ノードへの到達可能性(遷移確率)を計算する。この値をユーザの名詞に対する興味の度合いと解釈することで、ユーザプロファイルとすることができる。
【0052】
<推薦理由を提示するための単語抽出例>
ここで、推薦理由を提示するための単語抽出例について説明する。
図3は、推薦理由を提示するための単語抽出例を説明するための図である。
図3(A)は、ICA基底の生成例を示し、
図3(B)は、単語毎の関連度の計算例を示している。
【0053】
本実施形態として、例えば番組(推薦情報)の推薦理由情報として提示する単語は、その単語が番組の内容を表す単語あり、かつユーザの興味と合致する単語であることが好ましい。
【0054】
したがって、本実施形態では、番組の内容を表す単語を抽出するために、ICA(独立成分分析)を用いて推薦情報である番組の概要文や説明文等(以下、「番組概要文」という)から意味毎のまとまりを表す基底を生成する。例えば、
図3(A)のように、横(行)に各番組、縦(列)に各番組に含まれる各単語を有する特徴量行列からICAの基底行列を生成する。この場合、行は次元数を示し、列は単語数(各単語)を示す。
【0055】
このICA基底を用いて、例えば
図3(B)に示すように、番組概要文から各単語への関連度を計算する。
図3(B)では、まず番組概要文に現れる単語数をカウントし、TF−IDFで重み付けしたTF−IDFベクトルを生成する。このTF−IDFベクトルと基底行列(
図3(B)中のTは、転置行列を示す)から、圧縮した次元内で単語毎の関連度を計算する。
【0056】
なお、ユーザプロファイルを用いた各単語への関連度は、
図3(B)に示す番組概要文の代わりにユーザプロファイルを用いることで計算することができる。この場合、例えばユーザプロファイルから求めた単語への関連度p
Userと、番組概要文から求めた単語への関連度p
progとを用いて、キーワード・アイテム単語関連度計算手段20により、単語間の関連度Pを取得することができる。
【0057】
また、キーワード・アイテム単語関連度計算手段20では、2つの単語関連度の重み付け和を計算する。このときの計算は、重み付け値をαとすると、例えば「関連度P=α・p
prog+(1−α)・p
User(0≦α≦1)」等を用いることができるが、これに限定されるものではない。また、本実施形態では、計算した結果に対し、単語関連度順位取得手段21により降順に並べ、出力手段22により上位から所定数の単語を出力することで推薦理由の単語を提示することができる。
【0058】
<ICA基底格納手段15について>
次に、上述したICA基底格納手段15について具体的に説明する。
図3(A)に示すようなICA基底の生成は、推薦理由提示処理の事前処理として行っておく必要がある。なお、ICA基底格納手段15は、例えば推薦理由提示装置10内で生成してもよく、上述した通信ネットワーク等に接続された外部装置から取得してもよい。なお、推薦理由提示装置10で生成する場合には、ICA基底生成部等を設けてもよい。
【0059】
ここで、ICA基底生成処理の一例についてフローチャートを用いて説明する。
図4は、ICA基底生成処理の一例を示すフローチャートである。
図4の例において、推薦理由提示装置10は、予め設定された複数の推薦アイテムの元となる検索対象文章群等の入力を受け付け(S21)、受け付けた検索対象文章群から文章中にどの単語が使用されているかを抽出する(S22)。
【0060】
次に、推薦理由提示装置10は、S22の処理で得られた使用単語を用いて、それぞれの単語が「幾つの文章で使用されたか(=DF)」、言い換えれば「単語の出現した文章数」を計算する(S23)。なお、S23の処理で得られた結果は、例えばDF格納手段等に格納しておいてもよい。
【0061】
次に、推薦理由提示装置10は、各単語が「各文中で何回使われたか(=TF)」、言い換えれば「ある文章に対する単語の出現頻度(単語の重要度)」を計算する(S24)。
【0062】
次に、推薦理由提示装置10は、S23の処理で得られたDFの値と、S24の処理で得られたTFの値とからTF−IDFを計算し(S25)、その結果を用いてICAの基底を計算する(S26)。なお、TF−IDFの計算において、IDFは、DFの逆数のlogを計算したものである。IDFは、その単語が一般的によく使用される場合には値が小さくなり、特定の場面で使用される場合には値が大きくなる。また、TF−IDFは、例えばTFとIDFとの積で求められる。
【0063】
<本実施形態における関連度計算手法について>
次に、上述した本実施形態における関連度計算手法について具体的に説明する。例えば、単語情報格納手段13に「単語群」として3つの単語があったとする。キーワード解析手段12やアイテム解析手段19は、入力データ(検索キーワードや推薦アイテム等)から、「単語群」に含まれる全単語の出現頻度を計算し、TF−IDFを求めたベクトルwを以下に示す(1)式で表す。
【0064】
【数1】
なお、上述した(1)式におけるw
1,w
2,w
3は、それぞれ「単語群」に含まれる単語のTF−IDFである。
【0065】
また、ICAの基底は、以下に示す(2)式で表される。
【0066】
【数2】
ここで、ICAの基底の次元数を2とする。ここで、ベクトルwを射影した特徴ベクトルpは、以下に示す(3)式で表される。
【0067】
【数3】
なお、特徴ベクトルpは、基底の次元数分の要素を持つ。つまり、出現頻度ベクトルwとICA基底Iから、特徴ベクトルpと基底の各次元との関連度が得られる。
【0068】
これらから、例えば単語1の関連度r
1は、基底Iの1列目の列(縦)ベクトルと、特徴ベクトルpとのコサイン類似度で表すことができ、例えば以下に示す(4)式で表される。
【0069】
【数4】
なお、cos(A,B)は、ベクトルAとベクトルBとのコサイン類似度を表す。また、上述した(4)式を用いて、基底Iの2列目以降についても同様に関連度rを計算することができる。
【0070】
ここで、検索キーワードD
queryとi番目の単語の関連度をr
query(i)とし、推薦アイテムD
recommendとi番目の単語の関連度をr
recommend(i)とすると、i番目の単語の検索キーワードと推薦するアイテムの間を結び付けている度合いは、例えば「r(i)=r
query(i)・r
recommend(i)」等と表すことができるが、これに限定されるものではない。例えば、重み付け値αを用いて、「r(i)=α・r
query(i)+(1−α)・r
recommend(i)」等のように重み付け和の形でも表すことができる。
【0071】
上述した手法により得られるR(i)を大きい順に並べることで、「なぜその検索キーワードからその番組が得られたのか」の理由となる単語が順位付けて得られることになる。なお、r
query(i)、r
recommend(i)が共に負の場合は、r(i)が大きくなるが、欲しい単語ではないのでペナルティを付与する。
【0072】
<ICA以外の基底生成方法について>
なお、本実施形態では、上述したようにICAに基づく基底を生成したが、本実施形態においては、これに限定されるものではなく、例えばPCA(Principal Component Analysis;主成分分析)やNMF(Non−negative Matrix Factorization;非負値行列因子分解)等を用いることができる。
【0073】
なお、PCA(主成分分析)には、「基底の直交条件」というものがあり、分布を最も圧縮する方向には基底を生成できるが、単語に最も適応した基底ができるというわけではなく、ICAの方が、分布に即した基底が生成できるため、本実施形態のような用途であればPCAよりICAの方が高い性能が期待できる。
【0074】
また、NMF(非負値行列因子分解)は、例えばトピック分類等でよく使用されている手法である。NMFでは、得られる基底が全て正の値になるため、「この単語が現れた場合はこの話題ではないだろう」というような方向への推定はできない。ただし、元々単語の出現頻度等は正の値しか取らず、その方が自然と考える場合もある。
【0075】
本実施形態では、上述したICA(独立成分分析)、PCA(主成分分析)、及びNMF(非負値行列因子分解)のうち、少なくとも1つを用いて基底を生成し、抽象化を行うことができる。なお、基底の生成方法については、これらの手法に限定されるものではない。
【0076】
<他の実施形態>
次に、上述した実施形態の他の実施形態について説明する。
図5は、他の実施形態における推薦理由提示装置の機能構成の一例を示す図である。なお、上述した推薦理由提示装置10と同様の処理を行う機能構成については同一の符号を付するものとし、共通の内容に対するここでの具体的な説明は省略する。
【0077】
図5に示す推薦理由提示装置30は、検索キーワード入力手段11と、キーワード解析手段12と、単語情報格納手段13と、特徴量計算手段14と、ICA基底格納手段15と、関連度計算手段16と、単語関連度格納手段17と、推薦アイテム入力手段18と、アイテム解析手段19と、キーワード・アイテム単語関連度計算手段20'と、単語関連度順位取得手段21と、出力手段22とを有する。
【0078】
図5に示す推薦理由提示装置30は、上述した推薦理由提示装置10と比較すると、アイテム解析手段19により得られたTF−IDFの値をキーワード・単語関連度計算部20'に入力している。
【0079】
つまり、
図5の例では、キーワード・アイテム単語関連度計算手段20'にTF−IDFを計算した結果を入れることで、単語関連度格納手段17−1,17−2から得られる単語の関連度と、TF−IDF値による単語の重要度(重み付け値)に基づいて、より適切な単語関連度の計算を行うことができる。したがって、出力手段22からは、キーワード・アイテム単語関連度計算手段20'により得られた関連度と重要度とに基づいて計算された結果から適切な推薦理由情報を出力することができる。
【0080】
なお、
図5の例では、アイテム解析手段19から得られたTF−IDFの値をキーワード・アイテム単語関連度計算手段20'に入力しているが、これに限定されるものではなく、例えばキーワード解析手段12から得られたTF−IDFの値を用いてもよく、また両方のTF−IDFの値を用いてもよい。
【0081】
<具体例>
次に、本実施形態を用いた推薦理由提示処理の具体例について説明する。
図6,
図7は、推薦理由提示処理の具体例を説明するための図(その1,その2)である。なお、以下の説明では、単語情報格納手段13に含まれる単語のうち、「サッカー」、「代表」、「自然」の3単語を用いて説明する。この3単語に関わる部分のICA基底を取り出したものが、
図6の(a)に示す2次元の基底Iの行列で表されるものとする。この場合、行列の各列は、それぞれサッカー(1列),代表(2列),自然(3列)に相当する。
【0082】
図6の例において、ユーザが検索キーワードとして「サッカー」を入力する。キーワード解析手段12は、単語情報格納手段13に含まれる単語(サッカー,代表,自然)に対して、w=(1,0,0)となる。このベクトル出現頻度ベクトルwは、実際には単語情報格納手段13に格納された単語数分の要素を持つ。
【0083】
また、キーワード解析手段12は、IDFを乗算してTF−IDFを計算し、単語(サッカー,代表,自然)に対して出現頻度ベクトルw'=(0.25,0,0)とした解析結果を取得する。
【0084】
次に、特徴量計算手段14−1は、ICAの基底に射影して特徴量を求める。特徴量計算手段14−1は、
図6に示すような計算を行い、「サッカー」と基底の各次元の関連度0.2,0.025を取得する。
【0085】
次に、関連度計算手段16−1は、ICAの基底の列ベクトルとのコサイン類似度より、
図6に示すような計算を行い、行列1列目の関連度r
1=0.99,r
2=0.84,r
3=0.43の値が得られる。この各関連度r
1,r
2,r
3が、それぞれ入力単語の「サッカー」と、単語情報格納手段13にある「サッカー」、「代表」、「自然」との間の関連度になる。
図6の例では、「サッカー」が高い値となっている。
【0086】
また、
図7の例において、推薦アイテム入力手段18は、ある番組の概要文を入力し、アイテム解析手段19により推薦アイテムの解析を行う。
図7の例では、推薦アイテムの概要文に含まれる単語(サッカー,代表,自然)に対して、w=(1,3,0)となる。なお、「代表」に対するw=3とは、入力した概要文中に「代表」という単語が3個あることを示している。
【0087】
次に、アイテム解析手段19は、TF−IDFを計算して単語(サッカー,代表,自然)に対して出現頻度ベクトルw'=(0.25,1.10,0)とした解析結果を取得する。
【0088】
次に、特徴量計算手段14−2は、ICAの基底に射影して特徴量を求める。
特徴量計算手段14−2は、
図7に示すような計算を行い、ICAの基底に射影して番組概要文と基底の各次元の関連度0.86,0.245を取得する。
【0089】
次に、関連度計算手段16−2は、ICAの基底の列ベクトルとコサイン類似度により、
図7に示すような計算を行い、r
1=0.89,r
2=0.96,r
3=0.66を取得する。各関連度r
1,r
2,r
3が、番組概要文と単語情報格納手段13にある「サッカー」、「代表」、「自然」との間の関連度になる。
図7の例では、「代表」が高い値となっている。
【0090】
次に、キーワード・アイテム単語関連度計算手段20は、上述した処理結果を用いてそれぞれから求めた単語の関連度を計算する。例えば、キーワード・アイテム単語関連度計算手段20は、各単語の関連度の積で計算した場合、「r
1=0.99・0.89=0.88」、「r
2=0.84・0.96=0.81」、「r
3=0.43・0.66=0.28」となる。
【0091】
なお、キーワード・アイテム単語関連度計算手段20は、単純な積の計算だけでなく、例えば上述したようにアイテム解析手段19で得られたTF−IDFの値(重み付け値)を用いて、それぞれから求めた単語の関連度に対して、上述した重み付け和の計算をすることで単語関連度を計算してもよい。
【0092】
次に、単語関連度順位取得手段21は、キーワード・アイテム単語関連度計算手段20により得られた関連度を大きい順に並べることで、検索結果に出てきた番組と入力した単語を結び付けている単語が何かを得ることができる。
【0093】
なお、本実施形態では、ICAの基底を介することで、検索キーワードや推薦アイテムに現れない単語の関連度も計算できる。上述の例では、「代表」は、検索キーワードに含まれていないが高い値が得られる。また、「自然」は、検索キーワードにも概要文にも含まれていないが計算が可能となるが、結果的に関連が薄い単語であるため、低い値になる。
【0094】
<出力例>
次に、出力例について説明する。
図8は、本実施形態における出力例を示す図である。例えば、
図8(A)に示すように、画面上のキーワード入力領域41に検索キーワード(
図8の例では、「サッカー」)を入力して検索ボタン42を入力すると、上述した処理が行われ、例えば
図8(B−1)〜(B−3)に示すような検索結果(推薦情報)が得られたとする。
【0095】
この場合、本実施形態では、得られた各推薦情報について上述した推薦理由提示処理を行う。そして、出力手段22は、推薦情報と共に本実施形態により得られる推薦理由を表示する。例えば、本実施形態では、
図8(B−1)〜(B−3)に示すように、推薦情報の一例としての番組タイトル43(「サッカータイム」、「テレビ中継「日本対ブラジル」、「スポーツニュース」)を表示し、その下に推薦理由情報44として関連度の高い上位3個の単語が表示する。
【0096】
図8(B−1)における推薦理由情報44として、「サッカー」、「スポーツ」、「J1」が提示され、
図8(B−2)における推薦理由情報44として、「サッカー」、「日本代表」、「○○○カップ」が提示され、
図8(B−3)における推薦理由情報44として、「スポーツ」、「日本代表」、「ブラジル」が提示される。
【0097】
なお、推薦理由情報44の表示内容やレイアウト、推薦理由として出力される単語数等については、これに限定されるものではない。本実施形態では、例えば
図8に示すように番組のオープニング画面(タイトル画面)を提示してもよく、推薦理由情報をその単語関連度と共に表示してもよく、推薦理由の単語を用いて所定の文章を生成して表示してもよい。
【0098】
これにより、本実施形態では、検索結果の推薦情報と共に推薦理由情報44を表示することで、ユーザはその推薦情報(推薦アイテム)を選んだ理由を把握することができるため、より推薦情報に関心を持つことになる。
【0099】
なお、本実施形態において提示される推薦理由情報は、ユーザに関心を持たせる用途以外にも、例えば何故この推薦情報が出力されたのかの裏付け情報として利用することができる。また、本実施形態では、取得した推薦理由情報の各単語を用いて、検索対象文章群を検索(2次検索)し、追加の推薦情報を提示することもできる。
【0100】
<実行プログラム>
ここで、上述した推薦理由提示装置10,30は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
【0101】
したがって、推薦理由提示装置10,30が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
【0102】
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(推薦理由提示プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、推薦理由提示処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、例えば上述した各処理を実現することができる。
【0103】
上述したように本実施形態によれば、ユーザの嗜好に合わせた適切な推薦理由を提示することができる。例えば、ユーザの嗜好に合わせた推薦理由の提示が行えることで、ユーザにより親しみやすいコンテンツ(番組、音楽等)の推薦を行うことができる。
【0104】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。