(58)【調査した分野】(Int.Cl.,DB名)
取得したコンテンツに含まれる特徴量の出現頻度を管理する管理装置と、コンテンツに対するユーザの興味度を学習する情報処理装置とがネットワークを介して接続された情報処理システムであって、
前記管理装置は、
取得したコンテンツに含まれる特徴量の出現頻度を算出する出現頻度算出手段と、
前記コンテンツに含まれる特徴量と前記出現頻度算出手段により算出された出現頻度を前記情報処理装置に送信する出現頻度送信手段と、を備え、
前記情報処理装置は、
前記コンテンツに含まれる特徴量と前記出現頻度算出手段により算出された出現頻度を受信する受信手段と、
前記受信手段により受信した出現頻度を前記コンテンツに含まれる特徴量に対応させて記憶する第1の記憶手段と、
前記受信手段により受信した前記コンテンツに含まれる特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として記憶する第2の記憶手段と、
所定の処理が実行されたコンテンツに含まれる特徴量に基づいて前記第2の記憶手段に記憶された学習情報を更新する学習手段と、
前記出現頻度と前記第2の記憶手段に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価する興味度評価手段と、
を備えることを特徴とする情報処理システム。
前記興味度評価手段は、前記第2の記憶手段に記憶された学習情報としての所定の処理が実行されたコンテンツに前記特徴量が含まれる確率と、前記所定の処理が実行されたコンテンツ及び所定の処理が未実行であるコンテンツに前記特徴量が含まれる確率との差分に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価することを特徴とする請求項1記載の情報処理システム。
前記出現頻度送信手段は、前記コンテンツに含まれる特徴量として予め定められた特徴量を前記情報処理装置に送信することを特徴とする請求項1から3の何れか1項に記載の情報処理システム。
取得したコンテンツに含まれる特徴量の出現頻度を管理する管理装置と、コンテンツに対するユーザの興味度を学習する情報処理装置とがネットワークを介して接続された情報処理システムであって、
取得したコンテンツに含まれる特徴量の出現頻度を算出する出現頻度算出手段と、
前記出現頻度算出手段により算出された出現頻度を前記コンテンツに含まれる特徴量に対応させて記憶する第1の記憶手段と、
前記第1の記憶手段に記憶された前記コンテンツに含まれる特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として記憶する第2の記憶手段と、
所定の処理が実行されたコンテンツに含まれる特徴量に基づいて前記第2の記憶手段に記憶された学習情報を更新する学習手段と、
前記出現頻度と前記第2の記憶手段に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価する興味度評価手段と、
を備えることを特徴とする情報処理システム。
取得したコンテンツに含まれる特徴量の出現頻度を管理する管理装置と、コンテンツに対するユーザの興味度を学習する情報処理装置とがネットワークを介して接続された情報処理システムの情報処理方法であって、
前記管理装置は、
取得したコンテンツに含まれる特徴量の出現頻度を算出するステップと、
前記コンテンツに含まれる特徴量と算出された出現頻度を前記情報処理装置に送信するステップと、を実行し、
前記情報処理装置は、
前記コンテンツに含まれる特徴量と算出された出現頻度を受信するステップと、
受信した出現頻度を前記コンテンツに含まれる特徴量に対応させて第1の記憶部に記憶するステップと、
受信した前記コンテンツに含まれる特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として第2の記憶部に記憶するステップと、
所定の処理が実行されたコンテンツに含まれる特徴量に基づいて前記第2の記憶部に記憶された学習情報を更新するステップと、
前記出現頻度と前記第2の記憶部に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価するステップと、
を実行することを特徴とする情報処理方法。
取得したコンテンツに含まれる特徴量の出現頻度を管理する管理装置と、コンテンツに対するユーザの興味度を学習する情報処理装置とがネットワークを介して接続された情報処理システムの情報処理方法であって、
前記情報処理システムは、
取得したコンテンツに含まれる特徴量の出現頻度を算出するステップと、
算出された出現頻度を前記コンテンツに含まれる特徴量に対応させて第1の記憶部に記憶するステップと、
前記第1の記憶部に記憶された前記コンテンツに含まれる特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として第2の記憶部に記憶するステップと、
所定の処理が実行されたコンテンツに含まれる特徴量に基づいて前記第2の記憶部に記憶された学習情報を更新するステップと、
前記出現頻度と前記第2の記憶部に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価するステップと、
を実行することを特徴とする情報処理方法。
取得したコンテンツに含まれる特徴量の出現頻度を管理する管理装置と、コンテンツに対するユーザの興味度を学習する情報処理装置とがネットワークを介して接続された情報処理システムに実行させるコンピュータ読取可能なプログラムであって、
前記管理装置は、
取得したコンテンツに含まれる特徴量の出現頻度を算出する処理と、
前記コンテンツに含まれる特徴量と算出された出現頻度を前記情報処理装置に送信する処理と、を含み、
前記情報処理装置は、
前記コンテンツに含まれる特徴量と算出された出現頻度を受信する処理と、
受信した出現頻度を前記コンテンツに含まれる特徴量に対応させて第1の記憶部に記憶する処理と、
受信した前記コンテンツに含まれる特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として第2の記憶部に記憶する処理と、
所定の処理が実行されたコンテンツに含まれる特徴量に基づいて前記第2の記憶部に記憶された学習情報を更新する処理と、
前記出現頻度と前記第2の記憶部に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価する処理と、
を含むことを特徴とするプログラム。
取得したコンテンツに含まれる特徴量の出現頻度を管理する管理装置と、コンテンツに対するユーザの興味度を学習する情報処理装置とがネットワークを介して接続された情報処理システムに実行させるコンピュータ読取可能なプログラムであって、
取得したコンテンツに含まれる特徴量の出現頻度を算出する処理と、
算出された出現頻度を前記コンテンツに含まれる特徴量に対応させて第1の記憶部に記憶する処理と、
前記第1の記憶部に記憶された前記コンテンツに含まれる特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として第2の記憶部に記憶する処理と、
所定の処理が実行されたコンテンツに含まれる特徴量に基づいて前記第2の記憶部に記憶された学習情報を更新する処理と、
前記出現頻度と前記第2の記憶部に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価する処理と、
を含むことを特徴とするプログラム。
【発明を実施するための形態】
【0010】
本発明の実施形態の情報処理システムについて図面を用いて以下説明する。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。また、以下に記載する実施形態は本発明の最良の形態であって、本発明に係る特許請求の範囲を限定するものではない。
【0011】
本実施形態における情報処理システムの構成について
図1を参照して説明する。本実施形態における情報処理システムは、管理装置10と情報処理装置20とがネットワークを介して接続され構成されている。ネットワークは例えばWANやLAN等で構成されており、無線でも有線でも構わない。
【0012】
管理装置10は、取得したコンテンツに含まれる特徴量の出現頻度を管理する。管理装置10はコンテンツサーバ30からコンテンツを取得する。コンテンツには、例えば、HTMLコンテンツ自身と、Webサイトの見出しや要約などのメタデータを構造化して記述する XMLベースのフォーマットであるRSSと、テレビ放送等により提供される番組コンテンツ、ビデオオンデマンドにより提供される映像コンテンツ等が含まれる。本実施形態については、コンテンツとしてRSSを用いて説明する。
【0013】
コンテンツに含まれる特徴量には、例えばRSSに含まれる要約を構成する単語情報や番組コンテンツに含まれるジャンル情報に加え、色合い、音の大きさ等、分類可能なその他の属性が含まれてもよい。特徴量の出現頻度は、例えばRSSに含まれる単語情報でいえば各単語が要約等に含まれる度合いをいう。
【0014】
情報処理装置20は、コンテンツに対するユーザの興味度を学習する、例えばパーソナルコンピュータ、スマートフォン、及びテレビジョン等のユーザがコンテンツを処理するための処理装置をいう。本実施形態において「処理」には、例えばコンテンツの閲覧、確認、視聴、記録、複写、録画、保存、削除、送受信、及び転送等その他のコンテンツがユーザの所望する形態で実行される全ての処理が含まれる。これらの処理の組み合わせにより、当該コンテンツへのユーザの興味を推定する。
【0015】
管理装置10は、コンテンツ取得部11と、コンテンツ管理部12と、特徴量集計部13と、出現頻度テーブル14と、出現頻度送信部15と、通信部16を含み構成されている。
【0016】
コンテンツ取得部11は、コンテンツサーバ30からコンテンツを取得する、例えばネットワークインタフェース等によりその機能が実現される。本実施形態においては、コンテンツ取得部11は、RSSフィードを受信するRSSフィード受信部として機能する。
【0017】
コンテンツ管理部12は、取得したコンテンツを記憶したり、削除したり、整理したり、他の機能部に転送するなど、コンテンツの管理手段として機能する。本実施形態では、コンテンツ管理部12は、RSSフィードを記憶するRSSフィードキャッシュとして機能する。コンテンツ管理部12は、例えばHDD等の記憶装置等によってその機能が実現される。
【0018】
特徴量集計部13は、RSSフィードに含まれる要約等の記事を単語情報に分割し、要約に含まれる単語情報の出現頻度情報を算出する出現頻度算出手段として機能する。なお、RSSフィードから単語情報を特定する手法としては、例えば形態素解析等を用いればよい。特徴量集計部13が有する機能は例えばCPU等により、その機能を実現する所定のプログラムがROM等からRAM等に読み出されて実行されることによって実現される。
【0019】
出現頻度テーブル14は、単語情報の出現頻度情報を蓄積する、例えばHDD等の記憶装置である。
【0020】
出現頻度送信部15は、コンテンツに含まれる特徴量と特徴量集計部13により算出された出現頻度を情報処理装置20に送信する出現頻度送信手段として機能する、例えばネットワークインタフェース等によりその機能が実現される。本実施形態においては、出現頻度送信部15は、単語情報と、その出現頻度情報を情報処理装置20に送信する。
【0021】
通信部16は、各種コンテンツを情報処理装置20に送信する通信手段であり、例えばネットワークインタフェース等によりその機能が実現される。
【0022】
情報処理装置20は、コンテンツ受信部12と、出現頻度受信部22と、コンテンツ記憶部23と、出現頻度記憶部24と、学習部25と、学習情報記憶部26と、興味度評価部27と、入力部28と、出力部29を含み構成されている。
【0023】
コンテンツ受信部12は、管理装置10から送信されたコンテンツを受信する、例えばネットワークインタフェース等によりその機能が実現される。
【0024】
出現頻度受信部22は、コンテンツに含まれる特徴量と特徴量集計部13により算出された出現頻度を受信する受信手段であり、例えばネットワークインタフェース等によりその機能が実現される。
【0025】
コンテンツ記憶部23は、コンテンツ受信部21により管理装置10から受信したコンテンツを記憶する例えばHDD等の記憶装置である。本実施形態では、コンテンツ記憶部23は受信したRSSフィードを記憶する。
【0026】
出現頻度記憶部24は、出現頻度受信部22により受信した出現頻度をコンテンツに含まれる特徴量に対応させて記憶する第1の記憶手段として機能する、例えばHDD等の記憶装置である。本実施形態では、出現頻度記憶部24は単語情報の出現頻度を記憶する。
【0027】
学習部25は、所定の処理が実行されたコンテンツに含まれる特徴量に基づいて学習情報記憶部26に記憶された学習情報を更新する学習手段として機能する。学習部25の詳細については後述するが、例えば、所定の処理が実行されたコンテンツに含まれる単語情報について、例えば1カウントを付与する等、単語情報について重み付けを行う等の処理であればよい。なお、学習部25の機能は、情報処理装置20が有するCPU等により、その機能を実現する所定のプログラムがROM等の記憶部からRAM等の一時記憶部に読み出されて実行されることによって、実現される。
【0028】
学習情報記憶部26は、各特徴量が所定の処理が実行されたコンテンツに含まれる確率を学習情報として記憶する第2の記憶手段として機能する、例えばHDD等の記憶装置である。本実施形態では、学習情報記憶部26は、各単語情報について、例えば閲覧等したRSSフィードに含まれた確率を記憶するデータベースとして機能する。なお、本実施形態において、出現頻度記憶部24を第1の記憶手段として、学習情報記憶部26を第2の記憶手段として定義したのは、形式的なものであり、これら記憶部の序列等の優位関係を定義したものではない。
【0029】
興味度評価部27は、出現頻度と学習情報記憶部26に記憶された学習情報に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価する興味度評価手段として機能する。そして、興味度評価部27は、学習情報記憶部26に記憶された学習情報としての所定の処理が実行されたコンテンツに単語情報が含まれる確率と、所定の処理が実行されたコンテンツ及び所定の処理が未実行であるコンテンツに単語情報が含まれる確率との差分に基づいて、取得したコンテンツに含まれる特徴量に対する興味度を評価する。興味度評価部27の詳細については後述するが、興味度を評価する機能を実現する手法の一つとして、本実施形態ではナイーブベイズを用いている。
【0030】
入力部28は、ユーザによる情報処理装置20に対する入力・操作を受け付ける入力受付手段として機能する、例えばキーボードやマウス等の入力デバイスである。あるコンテンツを処理するための、入力部28を用いたユーザの入力を受け、学習部25は、そのコンテンツについて所定の処理が実行されたか否かを判断する。
【0031】
出力部29は、例えば、コンテンツやRSSフィード等を表示するディスプレイ等の表示手段、コンテンツに含まれる音声データを出力するスピーカ等の音声出力手段として機能する。
【0032】
なお、管理装置10は、取得したコンテンツに含まれる特徴量を所定の識別情報に変換する変換手段を備えていてもよい。具体的には、出現頻度テーブルが変換手段としての機能を有するものであってよい。そして、出現頻度送信部15は、出現頻度テーブルにおいてコンテンツに含まれる特徴量から変換された識別情報と、特徴量集計部13により算出されたコンテンツに含まれる特徴量の出現頻度とを情報処理装置20に送信し、出現頻度受信部22は、コンテンツに含まれる特徴量から変換された識別情報と特徴量集計部13により算出された出現頻度とを受信すると、出現頻度記憶部24は、出現頻度受信部22により受信した出現頻度をコンテンツに含まれる特徴量から変換された識別情報に対応させて記憶する。
【0033】
また、管理装置10における出現頻度送信部15は、コンテンツに含まれる特徴量として予め定められた特徴量を情報処理装置20に送信することとしてもよい。予め定められた特徴量とは、例えば、各コンテンツに含まれる単語情報を、例えばTeam Frequency(TF)/Inverse Document Frequency(IDF)等を用いて絞られた重要単語などのことをいう。
【0034】
[ナイーブベイズを用いた興味度評価の従来の問題点]
本実施形態が特に有効に動作する事例として、ナイーブベイズを用いた興味度評価がある。この問題点について
図5を参照して説明する。ここでは、まず[1]に示すように「サッカーの○○代表が▽▽スタジアムで□□□の代表とのワールドカップ△△大会××最終予選に挑む。」というRSSフィード中の要約(文章)を単語の集合体とする。つまり、
図5の下線で示すように、要約の一例である[1]の文章は、「サッカー」、「○○代表」、「▽▽スタジアム」、「□□□」、「代表」、「ワールドカップ」、「△△」、「大会」、「××」、「最終予選」、「挑」の単語情報の集合体ということになる。
【0035】
そして、[2]に示すように、所定の処理として、ここでは「見た」RSSフィードに含まれる要約を興味有とし、他方「見なかった」RSSフィードに含まれる要約を興味無とし、これらの要約に含まれる単語情報から、各単語情報に対するユーザの興味度を推定する。[1]の文章をユーザが「見た」とすると、「サッカー」、「日本代表」、「▽▽」、「スタジアム」等が興味有とされた要約に含まれる単語情報ということになる。他方、「F」、「リーグ」、「●●杯」、「■■」、「◎◎◎」等の単語情報が「見なかった」要約の一例に含まれているものとする。
【0036】
そして、複数の要約について、これらの単語情報を集計した結果、
図5に示すように、興味有の要約が133、興味無の要約が2147となっているものの内、興味有の要約133に「日本代表」が75含まれ、「△△」が23含まれ、「■■」が4含まれている。他方、興味無の要約2147には「日本代表」が20含まれ、「△△」が15含まれ、「■■」が279含まれている。このとき、「日本代表」に対する単語評価値が1.7であり、「△△」に対する単語評価値が1.3であり、「■■」に対する単語評価値が−0.7であるとの学習(推定)結果が学習部25と興味度評価部27による処理に基づいて得られているとする。
【0037】
そして、興味度評価部27は、「F」、「リーグ」、「第三幕」、「◆◆◆◆◆」の各単語情報が含まれる要約を取得すると、上記の学習結果に基づいて各単語について興味度の評価を行う。ここでは、興味度評価部27により、「F」が−0.1、「リーグ」が0.3、「第三幕」が0.0、「◆◆◆◆◆」が−1.4との各単語の評価結果が得られ、要約全体としては−3.2の評価結果となっている。
【0038】
以上から、従来の手法では、興味無の要約2147についても興味度の評価処理を行っている。その結果、ユーザに読まれない大量の未読コンテンツを学習するため、それだけ演算量も学習する情報量も膨大になり、装置負荷が過大になってしまう。
【0039】
[ナイーブベイズ式の変換]
そこで、本願の発明者は、以下に示すようにナイーブベイズ式を変換することにより、未読コンテンツについての学習が不要になることを新たに見出した。以下に、変換式を示す。
【0041】
式[1]は、文章を読む尤度λを求める式であり、読んだ要約(コンテンツ)中の単語情報の出現率P(token|read)の総積Πに要約を読む確率P(read)を乗じたもの(分子)を、読まなかった要約中の単語情報の出現率P(token|ignore)の総積Πに要約を読まない確率P(ignore)を乗じたもの(分母)で除することで求められる。
【0043】
式[2]は、式[1]を対数変換したものである。P(token|read)を対数変換したものの総和とP(read)を対数変換したものとの和から、P(token|ignore)を対数変換したものの総和とP(ignore)の和を減じたものがlog(λ)は要約の評価値となる。
【0045】
式[3]は、式[2]を整理したものである。log(λ)は、P(token|read)を対数変換したものからP(token|ignore)を対数変換したものを減じたものの総和と、P(read)からP(ignore)を減じたものとの和ということになる。なお、P(read)からP(ignore)を減じたものは全ての要約について等しくなることが推定されるため、例えば2つの要約のうちどちらかを見るかについての相対値を確認する場合は、無視してもよい。
【0047】
式[4]は、式[3]におけるΣの中身を示したものである。ここでは単語jに着目し、Tjが単語jに対する評価値を示す。Tjは、読んだ要約数mに対する単語jが出現する読んだ要約rjの割合の対数(以下「前式」という。)から、読まなかった要約m’に対する単語jが出現する読まなかった要約ijの割合の対数(以下「後式」という。)を減じることで求められる。そして、後式における「読まなかった要約m’に対する単語jが出現する読まなかった要約の割合」は、総要約数から読んだ要約数を減じたものに対する、単語jの全体での出現頻度と総要約数との積からrjを減じたものの割合ということになる。
【0049】
式[5]は、式[4]について、mが無視できるほどMがmより十分大きく、したがってajMがrjが無視できるほど大きい場合、式[4]の前式から要約jの全体での出現頻度を減ずるだけで、単語jの興味度を評価することができる。言い換えれば、各単語の出現頻度を別途入手できるのであれば、読んだ要約の学習だけで、文章の評価を式[4]における評価値に近似させることが可能となる。
【0050】
次に、管理装置10の出現頻度テーブル14に記憶される情報について
図2を参照して説明する。出現頻度テーブル14に記憶される情報は、
図2に示すように、単語文字列141と、単語ID142と、対象RSS要約143と、出現頻度144である。
【0051】
単語文字列141は、文字通り単語の文字列であり、コンテンツサーバ30において必要な情報である。なお、管理装置10及び情報処理装置20においては、後述する単語IDに代えてもよい。
【0052】
単語ID142は、管理装置10において割り当てられる単語の一意のIDである。単語ID142は、単語の文字列として代替することとしてもよい。単語をIDに変換することにより、データ量を圧縮できるとともに、情報処理装置20における学習情報記憶部26ベースのレコードを固定長とすることができる。
【0053】
対象RSS要約143は、単語の出現したRSSフィードである。コンテンツサーバ30が有するデータベースでは記憶することを要しないが、管理装置10と情報処理装置20との間における通信時、又は情報処理装置20におけるキャッシュ時は必須となる。
【0054】
出現頻度144は、単語の出現頻度情報である。
【0055】
次に、本実施形態における興味度評価手順について
図3を参照して説明する。まず、コンテンツ取得部11がコンテンツサーバ30からコンテンツを取得する(ステップS1)。
【0056】
次に、特徴量集計部13が単語情報の出現頻度を算出する(ステップS2)。算出された出現頻度は出現頻度テーブル14に
図2で示した状態で記憶される。
【0057】
その後、出現頻度送信部15により単語情報と出現頻度が情報処理装置20に送信される(ステップS3)。情報処理装置20では、出現頻度受信部22で受信した出現頻度が出現頻度記憶部24に記憶される。
【0058】
他方、学習部25は、コンテンツ受信部21が受信したコンテンツについて所定の処理がなされたか否かを記録する(ステップS4)。学習部25は、所定の処理がなされなかったコンテンツについては記録(学習)を行わない。ただし、所定の処理がなされたコンテンツ、又は、なされなかったコンテンツの蓄積量が少なく、例えば十分な学習情報が得られていない場合等は、所定の処理がなされなかったコンテンツについての学習を行ってもよい。
【0059】
学習情報記憶部26に、所定の処理がなされたコンテンツに単語情報が含まれる確率が学習情報として記憶される(ステップS5)。なお、既に学習情報記憶部26に確率が学習情報として記憶されている単語情報については、学習部25が新たに取得したコンテンツに同一の単語情報が含まれる確率に基づいて更新してもよい。
【0060】
興味度評価部27は、出現頻度記憶部24に記憶された出現頻度と学習情報記憶部26に記憶された学習情報に基づいて取得したコンテンツに対する興味度を評価する(ステップS6)。
【0061】
[変形例]
次に、本実施形態の変形例に係る情報処理システムについて
図4を参照して説明する。なお、上述した本実施形態における情報処理システムと重複する構成についての説明は省略する。上述の本実施形態と異なる点は、管理装置100が学習部125と、学習情報記憶部126と、興味度評価部127と、ユーザコンテンツ管理部128を備え、情報処理装置200が、上述した本実施形態における出現頻度受信部22と、出現頻度記憶部24と、学習部25と、学習情報記憶部26と、興味度評価部27を備えていないことである。ユーザコンテンツ管理部128は、ユーサ毎に推薦するコンテンツ情報を記憶する。なお、破線で囲まれる機能部をまとめてユーザ別演算部120としているが形式的な名称にすぎない。
【0062】
本変形例では、情報処理装置200の入力部28を介してコンテンツに対する所定の処理がなされたか否かについての入力データのみを管理装置100が受け取るのみで、管理装置10において学習処理及び興味度評価処理まで行うことで、情報処理装置200における処理負荷をより一層低減することが可能となる。
【0063】
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、上述した本実施形態の情報処理システムにおける各処理を、ハードウェア、又は、ソフトウェア、あるいは、両者の複合構成を用いて実行することも可能である。
【0064】
なお、ソフトウェアを用いて処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させることが可能である。あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。