【新規性喪失の例外の表示】特許法第30条第2項適用 電子情報通信学会 マルチメディア・仮想環境基礎研究会(MVE) 平成26年10月9日 〔刊行物等〕 First International Workshop on Internet−Scale Multimedia Management 平成26年11月7日 〔刊行物等〕 WISMM’14 Proceedings of the First International Workshop on Internet−Scale Multimedia Management
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0016】
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る評価値演算装置1は、
図1に例示するように、制御部11と記憶部12と操作部13と表示部14と通信部15とを含んで構成され、ネットワーク等の情報通信手段を介して、サーバ2(複数あってもよい)等との間で通信可能に接続されている。
【0017】
ここでサーバ2は、
図2に例示するように、ネットワーク等の情報通信手段を介して配信可能に設定された複数のコンテンツ(C)と、当該複数のコンテンツの各々に関するポイント値(P)と、当該コンテンツ(C)に関係するユーザ(コンテンツを登録したユーザ、あるいはコンテンツの連絡先や発注先であるユーザ等)を特定するユーザ特定情報(U)とを関連付けて保持している。またここでコンテンツ(C)は例えば写真や楽曲等のメディアデータ等、主たる情報であるリソース情報(R)のほか、このコンテンツ情報に関連して検索の対象となる文字列情報(タグ情報や説明文の情報)等(G)とを含むものとする。ここで当該文字列情報に含まれる単語やタグ等(G)が本発明の情報要素の一例に相当する。なお、ここではコンテンツ(C)に情報要素であるタグ等(G)が含まれるものとしているが、タグ等はコンテンツ(C)に関連付けて記憶されていれば(コンテンツ(C)に係るものであれば)、必ずしもコンテンツ(C)に含まれている必要はない。
【0018】
またポイント値(P)は、コンテンツ(C)ごとの評価値に相当するものであり、例えば閲覧者が任意に付した評価点の合計点であってもよいし、閲覧数であってもよい。
【0019】
なお、本実施の形態においてサーバ2は、ウェブサーバであり、コンテンツ(C)はそれぞれ参照情報(URL:Uniform Resource Locator)によって識別されるものとする。
【0020】
制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、情報要素の評価値を演算する処理を実行する。この制御部11の詳しい処理の内容については後に述べる。
【0021】
記憶部12は、メモリデバイス等であり、制御部11によって実行されるプログラムを保持する。このプログラムは、DVD−ROM等のコンピュータ可読、かつ持続的(non-transitory)な記録媒体によって提供され、この記憶部12に複写されたものであってもよいし、ネットワーク等の通信回線を介して提供され、この記憶部12に複写されたものであってもよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。
【0022】
操作部13は、マウスやキーボード等であり、ユーザの指示操作を受け入れて、当該受け入れた指示操作の内容を表す情報を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示する。
【0023】
通信部15は、ネットワーク等の情報通信手段に接続される。この通信部15は、ネットワーク等を介して情報を受信し、当該受信した情報を制御部11に出力する。またこの通信部15は、制御部11から入力される指示に従い、指示された情報(情報の取得要求等を含む)を、ネットワークを介して送出する。
【0024】
ここで制御部11の動作について述べるが、本実施の形態では、情報要素の評価値を演算する方法として、
(1)関連付けに基づく方法
(2)単語の重要度に基づく方法
との二通りの方法で情報要素の評価値を演算できるので、以下、これらを分けて説明する。
【0025】
[関連付けに基づく方法]
関連付けに基づく方法で情報要素の評価値を演算する本実施の形態の制御部11は、
図3に例示するように、記憶部12に格納されたプログラムを実行することにより、ポイント値取得部21と、情報要素列挙部22と、繰り返し演算部23と、収束判定部24と、評価値出力部25とを機能的に実現する。
【0026】
ポイント値取得部21は、サーバ2に格納されているコンテンツ(C)ごとのポイント値を取得する。ポイント値取得部21は、各コンテンツを識別する情報(例えばそのURL等でよい)と、当該情報で識別されるコンテンツに関連付けてサーバ2が保持していたポイント値(取得した値)とを関連付けて記憶部12にポイント値データベースとして格納する。
【0027】
情報要素列挙部22は、サーバ2に格納されているコンテンツ(C)ごとに、当該コンテンツに含まれる所定の情報要素を取得する。具体的にここでは、コンテンツに含まれる検索対象の文字列情報(説明文やタグ等)を取得する。ここで情報要素列挙部22は、取得した文字列情報がタグであれば、各タグを処理対象として以下の処理を行う。また、取得した文字列情報が説明文等の自然文であれば、所定の方法(広く知られた形態素解析等でよい)を用いて単語に分割し、分割して得た各単語を処理対象として以下の処理を行う。
【0028】
情報要素列挙部22は、各コンテンツのそれぞれから得られた、処理対象となった情報要素を、重複を除いて列挙し、情報要素列を生成する。具体的に、あるコンテンツαについて「鳥」,「フクロウ」といったタグが含まれ、さらに別のコンテンツγについて「鳥」,「飛ぶ」といったタグが含まれる場合、これらから得られた、重複を除いて情報要素(タグ)を列挙した結果は、「鳥」,「フクロウ」,「飛ぶ」の3つの要素を含む情報要素のセットとなる。なお、ここで重複は完全一致を条件とし、「鳥」と「大きい鳥」とは異なる情報要素として列挙してもよいし、部分一致(例えば名詞が一致するなど)あるいは、予め用意されたシソーラスを用いて同一概念を表すものと判断される情報要素を重複しているものとして扱うようにしてもよい(その場合は同一概念を表す情報要素のいずれかを代表として、同じ概念の情報要素については当該代表の情報要素で置き換えて以下の処理を行う)。
【0029】
制御部11は、繰り返し演算部23及び収束判定部24の動作として、次の
図4に例示する処理を行う。まず、繰り返し演算部23が、情報要素列挙部22が列挙した情報要素Ei(i=1,2,…,N)の各々についての評価値wi(i=1,2,…,N)を表す要素を配列したベクトルPを生成し、その各要素を所定値(例えば「1」)に初期化する。つまり、wi=1(i=1,2,…,N)とする(S1)。
【0030】
繰り返し演算部23は、情報要素列挙部22が列挙した情報要素の各々を注目要素として、注目要素と注目要素を含むコンテンツとをそれぞれノードとしてリンクした無向グラフを生成し(S2)、当該無向グラフの各情報要素についての隣接行列Aを求める(S3)。具体的に上述のコンテンツα,γに「鳥」,「フクロウ」,「飛ぶ」といったタグが含まれるコンテンツβを加えた、コンテンツα,β,γを例とする場合、
図5に例示する無向グラフが得られる。
図5では、情報要素のノードを円、コンテンツのノードを矩形で図示している。この
図5の例に対応する隣接行列Aは、
【数1】
となる。この隣接行列Aにおいては、各行は列挙された各情報要素に対応し、各列はコンテンツに対応する。そしてこの隣接行列Aは、「情報要素がコンテンツに含まれる」リンクについての隣接行列であり、ある情報要素がコンテンツに含まれる場合に対応する要素を「1」、含まれない場合に対応する要素を「0」としている。繰り返し演算部23は、この隣接行列Aの各列の値に、対応するコンテンツについてポイント値取得部21が得ているポイント値の重みを乗じる(S4)。
【0031】
そして繰り返し演算部23は、この
ポイントの重みを乗じた後の隣接行列Aの各列について要素の総和が既定値(ここでは「1」)となるよう定めた確率行列tAを求める(S5)。
具体的にこの
確率行列tAは、コンテンツα,β,γのそれぞれに対応して取得されたポイント値を40,7,3とすると、次のようになる。
【数2】
なお、ここでの要素の値は、行方向に
要素の数で正規化したもので、例えば第1行目について
要素の数が、
【数3】
となるので、当該行の各値にこの値1/2を乗じて正規化したものである。
【0032】
この行列tAは、次の行確率行列Bw及び列確率行列Btとを用いて演算できる。これらの行列Bw,Btは、N×M(ただしNは情報要素の数であり、Mはコンテンツの数である)の行列であり、行列Bwは、そのi番目の行ベクトルが、i番目の情報要素が付されたコンテンツのポイント値を正規化したもの(行内でのポイント値の総和が「1」となるよう演算したもの)となるよう設定したもので、上述の例のようにコンテンツα,β,γのそれぞれに対応して取得されたポイント値が40,7,3であれば、
【数4】
となる。
【0033】
またBtは、j番目の列ベクトルのi番目の要素が、j番目のコンテンツにi番目の情報要素が付されている場合に、1/s、付されていない場合に0としたものである。ここでsは、j番目のコンテンツに付されている情報要素の数であり、従ってこの行列Btのj番目の列ベクトルの要素の和は「1」となる。具体的に上述の例であれば、Btは、
【数5】
となる。
【0034】
繰り返し演算部23は、そして行列tAを、tA=Bw×Bt
Tとして演算する。なお、Bt
Tは行列Btの転置行列を意味する。
【0035】
繰り返し演算部23は、繰り返し演算を開始し(S6:ループ始)、当該確率行列tAに右側から前記ベクトルPを乗じて得たベクトルP′により、ベクトルPを更新する(S7)。
【0036】
つまり、
【数6】
として、第n世代目のベクトルPnを求めていく。ここでIは、ベクトルPと同じ次元で、各要素が「1」であるようなベクトルである。またaは実験的あるいは経験的方法により定められるダンピングファクターである。ダンピングファクターとその設定の方法は、ページランクの演算における同種の方法で広く知られているので、ここでの詳しい説明を省略する。
【0037】
次に収束判定部24が、ベクトルPnが収束したか否かを、所定の収束条件を満足しているか否かにより判断する(S8)。ここで収束条件は、ベクトルPnと、ベクトルPn-1との差のノルム(ユークリッドノルムでよい)が所定のしきい値未満である、などの条件としておけばよい。収束判定部24は、ベクトルPnが収束したと判断すると、その時点でのベクトルPnの値を評価値出力部25に出力する(S9)。またこの収束判定部24は、処理S8において収束条件を満足していないと判断すると、繰り返し演算部23に対してベクトルPを更新させる処理(処理S7)を繰り返させる(ループ)。
【0038】
具体的に上述の例の場合、ダンピングファクターa=0.15とすると、初回の更新でベクトルPの各要素は1.28,1.13,0.58となり、繰り返し演算の後、1.07,1.00,0.93に収束する。
【0039】
評価値出力部25は、収束判定部24が出力するベクトルPの値を得て、この値に基づく表示を行う。このベクトルPは、各要素の値が各情報要素の評価値を表す値となっている。そこで評価値出力部25は例えば、この要素の値を降順(大きいものから小さいものの順)に並べ替え、その上位所定数までの要素の値に対応する情報要素を高評価値の情報要素として表示することとしてもよい。
【0040】
上記の例では、「鳥」に対応する値が1.07、「フクロウ」に対応する値が1.00、「飛ぶ」に対応する値が0.93であるので、例えば上位2つまでの「鳥」,「フクロウ」を有効な情報要素として提示する。
【0041】
[単語の重要度に基づく方法]
また本実施の形態の制御部11は単語の重要度に基づいて情報要素の評価値を演算してもよい。この例の制御部11は、
図6に例示するように、記憶部12に格納されたプログラムを実行することにより、ポイント値取得部21と、情報要素列挙部22と、回帰演算部31と、出現頻度演算部32と、評価値演算部33と、評価値出力部25とを機能的に実現する。なお、既に説明したものと同様の構成をとるものについては、同じ符号を付して説明を簡略にする。
【0042】
ポイント値取得部21は、サーバ2に格納されているコンテンツ(C)ごとのポイント値を取得する。ポイント値取得部21は、各コンテンツを識別する情報(例えばそのURL等でよい)と、当該情報で識別されるコンテンツに関連付けてサーバ2が保持していたポイント値(取得した値)とを関連付けて記憶部12にポイント値データベースとして格納する。
【0043】
情報要素列挙部22は、サーバ2に格納されているコンテンツ(C)ごとに、当該コンテンツに含まれる所定の情報要素を取得する。具体的にここでは、コンテンツに含まれる検索対象の文字列情報(説明文やタグ等)を取得する。ここで情報要素列挙部22は、取得した文字列情報がタグであれば、各タグを処理対象として以下の処理を行う。また、取得した文字列情報が説明文等の自然文であれば、所定の方法(広く知られた形態素解析等でよい)を用いて単語に分割し、分割して得た各単語を処理対象として、各コンテンツのそれぞれから得られた、処理対象となった情報要素を、重複を除いて列挙し、情報要素列を生成する。以下の説明ではここで生成した情報要素列に含まれる情報要素の個数をNとする。
【0044】
回帰演算部31は、各コンテンツj(j=1,2…,M)のいずれかを注目コンテンツjnとして、注目コンテンツjnに含まれる情報要素に対応する要素を第1の所定値(例えば「1」)、含まれない情報要素に対応する要素を第2の所定値(例えば「0」)としたN次元の特徴ベクトルxjnと、注目コンテンツjに関するポイント値yjn(jn=1,2…,M)とを用いて注目コンテンツごとに数式yjn=w・xjn(ここでw=(w1,w2,…,wN)は重みベクトルであり、「・」は内積を表す)を得る。そして回帰演算部31は、コンテンツごとに得られた数式yj=w・xj(j=1,2…,M)に基づく回帰分析処理により重みベクトルwを求める。この回帰分析処理は、SVR(Support Vector Regression)等の広く知られた処理を用いることができるので、ここでの詳しい説明を省略する。
【0045】
出現頻度演算部32は、情報要素列挙部22が生成した情報要素列に含まれる各情報要素のコンテンツごとの出現頻度Freq[t,j](t=1,2,…N、j=1,2,…M)を演算し、その総和を求める。つまり出現頻度演算部32は、各情報要素t(t=1,2,…N)のすべてのコンテンツ内での出現頻度
Freq[t]=ΣFreq[t,j](t=1,2,…N)
(ただしΣは、jについて和をとることを意味する)を求める。
【0046】
評価値演算部33は、回帰演算部31が求めた重みベクトルw=(w1,w2,…,wN)の各成分について、当該成分に対応する情報要素の出現頻度の情報(出現頻度演算部32にて演算された情報)を乗じて、情報要素p(p=1,2,…N)についての評価値Vpを、Vp=wp×Freq[p](p=1,2,…N)として求めて出力する。
【0047】
評価値出力部25は、評価値演算部33が出力する情報要素p(p=1,2,…N)についての評価値を得て、この評価値に基づく表示を行う。評価値出力部25は例えば、この評価値Vpを降順(大きいものから小さいものの順)に並べ替え、その上位所定数までの評価値Vpに対応する情報要素pを高評価値の情報要素として表示することとしてもよい。
【0048】
[動作例]
本実施の形態の評価値演算装置1は、以上の構成を備えており、次のように動作する。すなわち本実施の形態の評価値演算装置1は、ユーザから処理の対象とするデータセットの指定を受け入れる。本実施の形態の評価値演算装置1はデータセットとして、データセットコンテンツと、コンテンツに与えられたポイント情報(評価点や閲覧数等の情報)とを含むデータを選択する。
【0049】
この指定は処理の対象となるコンテンツのURLのリスト、あるいは当該リストを入手可能なURLを入力することで行う。具体的に、写真共有サイトであるflickr(登録商標)においては、flickr.phots.search APIを用いて、所定の期間にアップロードされたコンテンツのURLのリストを得ることができる。本実施の形態の評価値演算装置1は、こうしたサイトにおいてはサイトごとに規定されたAPI(Application Program Interface)を用いてコンテンツのURLのリストを得る。
【0050】
また評価値演算装置1は、得られたリストに含まれるURLで特定される複数のコンテンツのそれぞれから、少なくとも処理の対象とする情報要素であるテキスト等(例えばタグ等)を取得するとともに、各コンテンツのポイント情報を取得する。一例としてここではタグを処理対象の情報要素として取得することとするが、説明文等、複数の単語を含むテキストを処理対象とする場合は、既に述べたように、形態素解析処理により単語に分割し、分割により得られた各単語を処理対象の情報要素として取得することとしてもよい。
【0051】
評価値演算装置1は、そして、(1)関連付けに基づく方法、または(2)単語の重要度に基づく方法のいずれかの方法によって、コンテンツのポイント情報を用いて、取得した処理対象の情報要素であるタグごとの評価値を演算する。そして演算した評価値を例えば降順に並べ替えて、その上位所定数までの評価値に対応するタグを高評価値の情報要素として表示する。
【0052】
ユーザは、これにより、比較的高いポイント情報(評価が高い、あるいは閲覧数の多い)を得やすいタグの一覧を得ることができる。そしてユーザは、コンテンツにどのようなタグを含めればより高い評価が得られるか、あるいは閲覧数を多くできるかを知ることができるようになる。
【0053】
[関連付けるべき情報要素の案内]
また本実施の形態の評価値演算装置1は、ユーザにより指定されたコンテンツ等の対象コンテンツに含めることにより、コンテンツのポイント情報を向上できると判断される情報要素を案内する処理を行ってもよい。
【0054】
具体的にこの例の評価値演算装置1は、処理の対象とするデータセットの指定とともに対象コンテンツの指定をユーザから受け入れる。ここで対象コンテンツの指定は、そのURLを指定することで行うことができる。評価値演算装置1は、指定されたURLから対象コンテンツに含まれる所定の情報要素を重複を除いて列挙した対象情報要素群を求める。
【0055】
評価値演算装置1は、処理の対象とするデータセットである複数のコンテンツ(対象コンテンツを含んでもよい。以下、区別のためデータセットコンテンツと呼ぶ)のそれぞれから、少なくとも処理の対象とする情報要素であるテキスト等(例えばタグ等)を取得するとともに、各データセットコンテンツに係るポイント情報を取得する。この処理は既に述べた例と同様のものであるので、繰り返しての説明を省略する。
【0056】
評価値演算装置1は、そして、上記(2)単語の重要度に基づく方法等によって、処理対象の情報要素ごとの評価値を演算する。また評価値演算装置1は、複数のデータセットコンテンツのそれぞれについて、各データセットコンテンツに含まれる情報要素の重複を除いたリスト(比較情報要素群)を生成する。そして評価値演算装置1は、対象コンテンツから列挙された対象情報要素群を参照し、対象情報要素群と、各データセットコンテンツに係る比較情報要素群とを比較して、相関性に係る情報が、予め定めた基準より高い相関を表すものとなっているデータセットコンテンツに係る比較情報要素群を少なくとも一つ取り出す(協調フィルタリング処理)。
【0057】
具体的にここで相関性に係る情報は、対象情報要素群と、比較情報要素群とに共通して含まれる情報要素の数で構わない。例えば対象情報要素群に含まれる情報要素が{x1,x2,x3,x4}であり、ある比較情報要素群に含まれる情報要素が{x1,x3,x5,x7}であれば、これらに共通して含まれる情報要素は{x1,x3}であり、これらの相関性に係る情報は、当該共通して含まれる情報要素の数「2」とする。この場合、上記基準は、対象情報要素群に含まれる情報要素の数に基づいて定められるしきい値(例えば対象情報要素群に含まれる情報要素の数のr%)とすればよい。
【0058】
評価値演算装置1は、協調フィルタリング処理で取り出した比較情報要素群に含まれる情報要素を重複なく列挙し、当該列挙した情報要素から、対象情報要素群に含まれる情報要素を除いて候補情報要素群とする。これにより、対象情報要素群に含まれる情報要素と類似の情報要素が含まれている比較情報要素群から取り出された情報要素であって、対象情報要素群に含まれていない情報要素が得られる。
【0059】
評価値演算装置1は、候補情報要素群が空であれば、推薦できる情報要素がない旨表示して処理を終了してもよい。また候補情報要素群が空でなければ、候補情報要素群に含まれる情報要素についての評価値(先に演算したもの)を参照し、当該評価値が予め定めたしきい値を超えている情報要素を提示する。なお、ここで当該評価値が予め定めたしきい値を超えている情報要素のうち、評価値が上位である所定数個の情報要素を列挙して提示してもよい。
【0060】
また評価値演算装置1は協調フィルタリング処理を行うことなく、関連付けに基づく情報要素の評価方法を用いてコンテンツのポイント情報を向上できると判断される情報要素を案内する処理を行ってもよい。
【0061】
この例の評価値演算装置1は、
図4に例示した処理を行うものであるが、処理S1に代えて、各データセットコンテンツから取り出して列挙した情報要素Ei(i=1,2,…,N)の各々についての評価値wi(i=1,2,…,N)を表す要素を配列したベクトルPを生成し、その各要素のうち、対象情報要素群に含まれる情報要素に対応するベクトルPの要素を第1の所定値(例えば「0」)に初期化し、対象情報要素群に含まれない情報要素に対応するベクトルPの要素を、第1の所定値とは異なる第2の所定値(例えば「1」)に初期化する点が異なる。この例の評価値演算装置1は、処理S2以下の処理については、
図4に例示した例と同様に実行する。
【0062】
この例では、評価値演算装置1は、対象情報要素群に含まれていない情報要素についての評価値を演算することとなる。そして評価値演算装置1は、当該演算された評価値に基づく表示を行う。例えば、この評価値を降順(大きいものから小さいものの順)に並べ替え、その上位所定数までの評価値に対応する情報要素を、対象コンテンツに含めるべき情報要素として表示することとしてもよい。
【0063】
[負の評価]
また本実施の形態に係る評価値演算装置1は、情報要素ごとの評価値を、降順で(評価が高いものから順に)提示するだけでなく、所定のしきい値よりも評価が低いことを表す評価値に対応する情報要素を提示するようにしてもよい。これによると情報要素ごとの評価値の情報に基づいて、避けるべき情報要素が案内されることとなる。
【0064】
[説明文への応用例]
またここまでの説明において述べたように、情報要素は、タグのみならず、説明文等から形態素解析等の処理によって抽出された単語であってもよい。この場合、データセットを所定種類の商品を販売するウェブページのコンテンツとし、ポイント情報を各コンテンツでの販売実績とする。
【0065】
この例によると、販売実績が比較的高いウェブページ(コンテンツ)に含まれる説明文で用いられる単語が提示されることとなり、ユーザは説明文の推敲に当該提示された情報を役立てることが可能となる。
【0066】
[文字列以外の情報への応用例]
さらにここまでの説明では情報要素はタグや、説明文から抽出された単語等文字列であるとしたが、本実施の形態の情報要素はこれだけに限られない。本実施の形態の情報要素は、符号化でき、コンテンツとの関係が定められるものであれば、どのようなものであっても構わない。例えば、コンテンツに含まれる写真画像の数や、サイズ(ウェブページに占める面積を10%単位で分類した結果(0%以上10%未満、10%以上20%未満…のいずれかなど))等の値を情報要素としても構わない。