(58)【調査した分野】(Int.Cl.,DB名)
ネットワーク経由でアクセス可能なドキュメントである全体ドキュメントに出現する単語であるタームの出現頻度を、前記タームの出現傾向が類似する前記ドキュメントをグループ化した全体ドキュメントクラスタごとに全体データベースとして記憶する全体データベース記憶手段と、
指定されたドキュメントから単語を抽出する抽出手段と、
前記抽出された単語に基づいて、前記指定されたドキュメントに関連する前記全体ドキュメントクラスタを特定する全体ドキュメントクラスタ特定手段と、
前記特定された全体ドキュメントクラスタに出現する前記タームをキーワードとして選定するキーワード選定手段と、
前記選定されたキーワードに関連するコンテンツをネットワークから取得するコンテンツ取得手段と、
前記取得されたコンテンツを前記全体データベースに基づいて並べ替えるランキング手段と、
前記並べ替えられたコンテンツを前記指定されたドキュメントとともに表示する表示手段と、
を備え、
前記全体データベース記憶手段は、ソーシャルネットワークサービスにおける言及頻度が高く、かつネットワーク経由でアクセス可能なドキュメントであるソーシャルドキュメントに出現する前記タームの出現頻度を、前記全体ドキュメントクラスタごとにソーシャルデータベースとして記憶する、
ことを特徴とする情報処理装置。
前記キーワード選定手段は、前記全体データベースにおける前記特定された全体ドキュメントクラスタでの出現頻度と、前記ソーシャルデータベースにおける前記特定された全体ドキュメントクラスタでの出現頻度とを比較することで前記タームごとに算出される興味度が高いタームを前記キーワードとして選定することを特徴とする、請求項1に記載の情報処理装置。
前記ソーシャルネットワークサービスにおける言及頻度は、不特定多数のユーザによる所定のトピックにおけるコメント、前記ソーシャルドキュメントへのアクセス回数で定められる、
ことを特徴とする請求項1、または2に記載の情報処理装置。
ネットワーク経由でアクセス可能なドキュメントである全体ドキュメントに出現する単語であるタームの出現頻度を、前記タームの出現傾向が類似する前記ドキュメントをグループ化した全体ドキュメントクラスタごとに全体データベースとして記憶するステップと、
指定されたドキュメントから単語を抽出するステップと、
前記抽出された単語に基づいて、前記指定されたドキュメントに関連する前記全体ドキュメントクラスタを特定するステップと、
前記特定された全体ドキュメントクラスタに出現する前記タームをキーワードとして選定するステップと、
前記選定されたキーワードに関連するコンテンツをネットワークから取得するステップと、
前記取得されたコンテンツを前記全体データベースに基づいて並べ替えるステップと、
前記並べ替えられたコンテンツを前記指定されたドキュメントとともに表示するステップと、
を有し、
前記全体データベースには、ソーシャルネットワークサービスにおける言及頻度が高く、かつネットワーク経由でアクセス可能なドキュメントであるソーシャルドキュメントに出現する前記タームの出現頻度を、前記全体ドキュメントクラスタごとにソーシャルデータベースとして記憶するステップと、
をコンピュータに実行させることを特徴とするプログラム。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について詳細に説明する。
【0016】
まず、本実施形態の情報処理装置1のハードウェア構成について
図1を用いて説明する。尚、情報処理装置1の構成は、
図1に示したものと必ずしも同じ構成である必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。
【0017】
情報処理装置1は、所定のプログラムを実行することにより、情報処理装置1の全体の制御を実現するためのCPU101と、情報処理装置1の電源が投入されたときにCPU101が読出すプログラムを記憶する読出専用メモリ(Read Only Memory(ROM))102と、CPU101が作業用メモリとして使用するランダム・アクセス・メモリ(Random Access Memory(RAM))103と、情報端末3の電源が切断されたときに種々のデータの記録を保持することが可能なHDD104と、マウスや入力キーで構成される入力装置105と、液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置106と、を備えている。
【0018】
また、情報処理装置1は、記憶部107と、通信I/F108を更に備えている。通信I/F108は、ネットワーク401を介して接続されている。情報処理装置1は、ユーザの操作によってネットワーク401経由でアクセス可能な各種情報にアクセスするものであり、パーソナルコンピュータやタブレット端末、スマートフォンなどが該当するが、これに限られるものではない。
【0019】
情報処理装置1の記憶部107は、各種データを不揮発に記憶する。各種データは、通信I/F108によりネットワーク401から受信されるものであってもよく、他の機器から受信されるものであってもよい。具体的にはHDDなどの不揮発記憶装置などがあるがこれに限定されない。
【0020】
情報処理装置1の通信I/F108は、情報端末3をネットワーク401に接続し、情報の送受信を行う。通信I/F108は、具体的にはUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
【0021】
図2は、本発明の実施形態にかかる情報処理装置1の機能ブロック図である。
図2に示すように、本発明にかかる情報処理装置1は、全体データベース記憶手段10と、抽出手段11と、全体ドキュメントクラスタ特定手段12と、キーワード選定手段13と、コンテンツ取得手段14と、ランキング手段15、表示手段16と、を備えている。
【0022】
全体データベース記憶手段10は、ネットワーク経由でアクセス可能なドキュメントである全体ドキュメントに出現する単語であるタームの出現頻度を、前記タームの出現傾向が類似する前記ドキュメントをグループ化した全体ドキュメントクラスタごとに全体データベースとして記憶する。尚、全体データベース記憶手段10は、ソーシャルネットワークサービスにおける言及頻度が高く、かつネットワーク経由でアクセス可能なドキュメントであるソーシャルドキュメントに出現する前記タームの出現頻度を、前記全体ドキュメントクラスタごとにソーシャルデータベースとして記憶する。
【0023】
不特定多数のユーザが自由に発言したり、WEBリンクを張り付けたりできるソーシャルネットワークサービスの1例として、ツイッタ−やSNSなどがある。あるトピックに対しての不特定ユーザの書き込みやアクセス回数などから現在の流行や注目されていることなどがわかる。全体データベース記憶手段10は、それらのトピックに関連するドキュメントをネットワーク経由で取得し、データベース化して記憶する。どのトピックに関連するドキュメントを取得するかは、例えばソーシャルネットワークのランキングサイトなどに常時アクセスできるようにしておき、そのランキング上位のトピックに関連するドキュメントを取得するなどの方法がある。
【0024】
まず、全体ドキュメントは、新聞記事や書籍、雑誌など定期的に商用で閲覧できるWEBデータ上のドキュメントを指すものとし、その他で言えば、yahooなどの総合情報サイトなどもある。
【0025】
全体データベースについて説明する。
図5(a)に示すように全体データベース記憶手段では、ドキュメントをX軸方向に、タームをY軸方向に並べた表としてデータを記憶している。ドキュメントとタームとの交点にある値は、そのドキュメントにそのタームが出現する頻度を示す。
図5(a)では、出現頻度として出現回数と出現確率の両方が記載されているが、いずれか一方のみであってもよい。例えば、出現回数のみを記憶しておき、確率は都度計算することもできる。
【0026】
図5(a)では、簡略化のため4つのドキュメントクラスタと4つのタームとの関係を示しているが、尚、タームについてもドキュメントと同様にクラスタ化して記憶することが可能である。例えば、「リオネルメッシ」「ネイマール」などのドキュメントにおける出現傾向が「バルセロナFC」と類似している場合、これらのタームをグループ化したタームクラスタとしてもよい。また、クラスタ化される前の個々のドキュメントないしタームの値がクラスタの値とあわせて記憶されていてもよい。
【0027】
なお、
図5(a)では、出現確率を、全ドキュメントに出現するすべてのタームの延べ出現回数の合計を分母とし、あるドキュメントクラスタに含まれるドキュメントにおけるあるタームの延べ出現回数を分子として算出している。このように算出した出現確率により、タームの属するドキュメントクラスタに固有の特性を見ることができる。
【0028】
図5(a)より、例えばターム「バルセロナFC」のドキュメントクラスタBに含まれるドキュメントに出現した回数が700回であり、全ドキュメントに出現したすべてのタームの中での出現確率が0.14であることを読み取ることができる。出現確率はある特定のドキュメントクラスタ内で、そのタームに対する興味度として扱うことができる。ここまでが全体データベース記憶手段で記憶されるデータの説明である。
【0029】
次にソーシャルネットワークによりアクセス可能なソーシャルドキュメントのデータベースについて説明する。データベースとしては、全体ドキュメントデータベースと同様にドキュメントをX軸方向に、タームをY軸方向に並べた表として記憶される。全体ドキュメントデータベースは全体ドキュメントから生成されたものであったのに対し、ソーシャルドキュメントのデータベースはソーシャルネットワークのトピックに関連するドキュメントから生成されるという点で異なっている。ソーシャルドキュメントのデータベースの例を
図5(b)に示す。
図5(b)でドキュメントとタームとの交点にある値は、ソーシャルネットワークでの関心性の高いトピックに関連するドキュメント全体に対して、そのタームに対する興味度として扱うことができる。
【0030】
図5(a)、(b)出現確率から興味度を比較することもできる。
図5(b)より、例えばターム「バルセロナFC」がドキュメントクラスタBに含まれるドキュメントに出現した回数が2回であり、全ドキュメントに出現したすべてのタームの中で出現確率は0.04であると読み取ることができる。
図5(a)の全体ドキュメント記憶手段に記憶されているデータと比較すると、ドキュメントクラスタBに含まれる「バルセロナFC」というタームは、新聞や書籍などの全体ドキュメントによるものよりもツイッタ−やSNSでのソーシャルネットワークによるものの方が、興味度が高いということになる。
【0031】
全体データベース、およびソーシャルドキュメントのデータベースは例えば記憶部107に所定のデータを記憶するとともに、処理部101で所定のデータベース管理プログラムを実行することにより実施可能である。
【0032】
抽出手段11は、指定されたドキュメントから単語を抽出する。ここで指定されたドキュメントとは、対応づけられたテキストを有するコンテンツであり、例えば今現在ユーザが閲覧しているニュース記事が記載されたWebページなどである。ここで指定とは、複数の対象から選択することを言い、選択はユーザが行ってもよいし、所定のアルゴリズムに従って情報端末が行ってもよい。
【0033】
単語の抽出は、例えば指定されたドキュメントに対応するテキストの形態素解析により可能である。抽出手段11は、CPU101で所定のデータベース管理プログラムを実行することにより実施可能である。
【0034】
全体ドキュメントクラスタ特定手段12は、抽出された単語に基づいて、指定されたドキュメントに関連する全体ドキュメントクラスタを特定する。例えば抽出された単語に該当するタームの出現頻度が高く、抽出された単語以外のタームの出現頻度の低い全体ドキュメントクラスタを、関連する全体ドキュメントクラスタとして特定することが可能である。また、例えば抽出された単語で構成されるベクトルと全体ドキュメントクラスタにおける各タームの出現頻度で構成されるベクトルとで構成される距離の小さい全体ドキュメントクラスタを、関連する全体ドキュメントクラスタとして特定することも可能である。
【0035】
指定されたドキュメントから「バルセロナFC」という単語が5回、「サポーター」という単語が2回抽出され、このドキュメントに関連するドキュメントクラスタを、
図5(a)に例示したデータの中から特定することを考える。
【0036】
まず、抽出された単語に該当するタームの出現頻度が高く、抽出された単語以外のタームの出現頻度の低い全体ドキュメントクラスタを、関連する全体ドキュメントクラスタとして特定する場合を考える。抽出された単語に該当する「バルセロナFC」「サポーター」の各ドキュメントクラスタにおける出現頻度の順位は、A:2位 1位、B:2位 4位、C:1位 2位、D:2位 3位 である。また、抽出された単語以外の「ロナウド」「世界遺産」の各ドキュメントクラスタにおける出現頻度の順位は、A:2位 4位、B:3位 1位、C:3位 4位、D:3位 1位 である。1位を4点、2位を3点、3位を2点、4位を1点として出現回数を抽出された単語ごとに掛けて加算すると、A:23点、B:17点、C:26点、D:19点となる。よって、スコアの大きいドキュメントクラスタCが関連するドキュメントクラスタとして特定される。
尚、出現回数に依存せず、抽出された単語のスコア加算、抽出されなかった単語(ここではロナウド、世界遺産)にはスコアにマイナス1を乗じて合計してもよい。
【0037】
次に、抽出された単語で構成されるベクトルとドキュメントクラスタにおける各タームの出現頻度で構成されるベクトルとで構成される距離の小さいドキュメントクラスタを、関連するドキュメントクラスタとして特定する場合を考える。「バルセロナFC」「サポーター」が抽出された場合、これらの単語で構成されたベクトルは、合計が0になるよう正規化すると(0.71,0,0,0.29)となる。一方、各ドキュメントクラスタにおける各タームの出現頻度で構成されるベクトルは、同様に正規化して、A:(0.20,0.20,0.00,0.60)、B:(0.32,0.27,0.36,0.05)、C:(0.55,0.20,0.00,0.25)、D:(0.25,0.00,0.75,0.00)となる。これらのベクトルで構成される距離を、各タームに対応する値の差の絶対値の合計として求めると、A:1.02、B:1.27、C:0.40、D:1.50となる。このとき、距離の小さいドキュメントクラスタCが関連するドキュメントクラスタとして特定される。
【0038】
尚、
図5(a)は新聞記事や書籍、雑誌などの全体ドキュメントから生成したデータからのドキュメントクラスタの特定であり、
図5(b)を用いて同様の方法でソーシャルデータベースのドキュメントクラスタを特定することができる。
いずれの場合においても、スコアないし距離の計算方法は一例に過ぎず、他の計算方法も適用可能である。例えば、ベクトルで構成される距離としてユークリッド距離を用いてもよいし、コサイン類似度を用いてもよい。
【0039】
全体ドキュメントクラスタ特定手段12は、CPU101が所定のプログラムを実行することにより実施可能である。
【0040】
キーワード選定手段13は、特定された全体ドキュメントクラスタに出現するタームをキーワードとして選定する。例えば特定された全体ドキュメントクラスタにおいて出現頻度が高いタームを、キーワードとして選定することができる。また、あるタームに対して、全体ドキュメントによるデータから特定されたドキュメントクラスタと、ソーシャルドキュメントによるデータから特定されたソーシャルデータベースのドキュメントクラスタ(以下ソーシャルドキュメントクラスタと表記)と、で出現する頻度を比較し、ソーシャルドキュメントクラスタによる出現頻度が高いものを選定することもできる。
【0041】
指定されたドキュメントから「バルセロナFC」「サポーター」が抽出され、このドキュメントに関連するドキュメントクラスタとして
図5(a)に例示したデータの中から特定されたドキュメントクラスタCに出現するタームをキーワードとして選定することを考える。
【0042】
図5(a)においてドキュメントクラスタCに出現するタームは「バルセロナFC」「ロナウド」「サポーター」であり、これらのいずれであってもドキュメントクラスタCと何らかの関係を有するものであるので、キーワードとして選定することができる。
【0043】
これらのうち、特定されたドキュメントクラスタCにおける出現頻度の高い「バルセロナFC」、「サポーター」は、ドキュメントクラスタCに属するドキュメントに高い頻度で出現するものであるので、ドキュメントに追加するコンテンツを取得するためのキーワードとして選定するのに好適である。尚、キーワードを選定するに当って、所定の出現頻度以上のキーワードを選定するようにしてもよい。
【0044】
また、
図5(b)のデータからタームをキーワードとして選定するにあたり、特定されたドキュメントクラスタCにおける出現頻度の高い「バルセロナFC」を選定することができる。
図5(a)においては、「バルセロナFC」、「サポーター」は共に高い出現頻度を示していたが、
図5(b)つまりソーシャルメディアに基づいて抽出されたソーシャルドキュメントのデータベースでも「バルセロナFC」、「サポーター」の出現頻度が高いことを示している。更に、
図5(a)、
図5(b)のデータより全体ドキュメントに対するソーシャルドキュメントの興味度からは「バルセロナFC」が選定される。尚、興味度においても所定の興味度以上のキーワードを選定するようにしてもよい。
【0045】
キーワード選定手段13は、CPU101が所定のプログラムを実行することにより実施可能である。
【0046】
コンテンツ取得手段14は、選定されたキーワードに関連するコンテンツをネットワークから取得する。キーワードに関連するコンテンツの取得は、例えばネットワーク401を介して接続される検索サーバ等にキーワードとともに検索要求を送信し、検索サーバ等からキーワードと所定の関連を有する情報である検索結果を受信することによって実行される。コンテンツ取得手段は、CPU101が所定のプログラムを実行し、必要に応じて通信I/F108がネットワーク401を介した通信を行うことで実施可能である。
【0047】
表示手段15は、取得されたコンテンツを指定されたドキュメントとともに表示する。指定されたドキュメントと取得されたコンテンツとをともに表示することで、ユーザはドキュメントとともに関連するコンテンツにアクセスすることができる。
【0048】
コンテンツは、画面におけるドキュメントと別の領域に表示してもよいし、ドキュメント内に追加して表示してもよい。また、ドキュメントが一画面に収まり切らない場合に、コンテンツを一画面に収まり切っていないドキュメントの領域に追加して表示してもよい。この場合、コンテンツはスクロール操作により初めてユーザに視認可能となるが、そうであってもユーザは、そのコンテンツがドキュメントと関連して表示されていることを容易に把握することができる。
【0049】
表示手段15は、CPU108が所定のプログラムを実行し、表示装置106の表示内容を制御することで実施可能である。
【0050】
次に、本実施形態の情報処理システムのハードウェア構成について
図3を用いて説明する。尚、情報処理システムの構成は、
図3に示したものと必ずしも同じ構成である必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。尚、情報端末3は
図1の情報処理装置の構成と同様の機能を有しているため詳細な説明は省略する。
【0051】
サーバ2は、所定のプログラムを実行することにより、サーバ2の全体の制御を行う制御部201と、通信I/F202と、記憶部203と、検索部204と、を備えている。情報端末3は、所定のプログラムを実行することにより、情報端末3の全体の制御を実現するためのCPU301と、情報端末3の電源が投入されたときにCPU301が読出すプログラムを記憶する読出専用メモリ(Read Only Memory(ROM))302と、CPU301が作業用メモリとして使用するランダム・アクセス・メモリ(Random Access Memory(RAM))303と、情報端末3の電源が切断されたときに種々のデータの記録を保持することが可能なHDD304と、マウスや入力キーで構成される入力装置305と、液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置306と、を備えている。
【0052】
また、情報端末3は、記憶部307と、通信I/F308を更に備えている。サーバ2と情報端末3とは、ネットワーク401を介して接続されている。情報端末3は、ユーザの操作によってネットワーク401経由でアクセス可能な各種情報にアクセスするものであり、パーソナルコンピュータやタブレット端末、スマートフォンなどが該当するが、これに限られるものではない。
【0053】
サーバ2の通信I/F202は、サーバ2をネットワーク401に接続し、情報の送受信を行う。通信I/F202は、具体的にはUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
【0054】
サーバ2の記憶部203は、各種データを不揮発に記憶する。各種データは、通信I/F202によりネットワーク401から受信されるものであってもよく、他の機器から受信されるものであってもよい。具体的には、HDDなどの不揮発記憶装置により構成が可能となる。
【0055】
サーバ2の検索部204は、通信I/F202がネットワーク401経由で受け付ける検索要求に応じて検索を実行し、検索結果を要求元に送信する。ここでの検索は検索要求に含まれるキーワードと所定の関連を有する情報の特定である。サーバ2自体の有するデータだけでなく、サーバ2とは別の情報保有装置に要求して行わせることも可能である。
【0056】
図4は、本発明の実施形態にかかる情報処理システムの機能ブロック図である。
図4に示すように、本発明にかかる情報処理システムは、サーバ2が、全体データベース記憶手段20と、抽出手段21と、全体ドキュメントクラスタ特定手段22と、第1のキーワード選定手段23と、第1のコンテンツ取得手段24と、第1のランキング手段25と、を備えており、情報端末3が、表示手段31と、を備えている。
【0057】
ここで、サーバ2の機能は
図2の情報処理装置1の機能をそのまま同様に行えるものとなっており、例えば全体データベース記憶手段20は全体データベース記憶手段10に、第1の抽出手段21は抽出手段11に、全体ドキュメントクラスタ特定手段22は全体ドキュメントクラスタ特定手段12に、第1のキーワード選定手段23はキーワード選定手段13に該当し、第1のコンテンツ取得手段24はコンテンツ取得手段14に、第1のランキング手段25はランキング手段15に該当する。サーバ2で情報処理装置1と同様の処理を行えるものとする。また、情報端末3においても、コンテンツ取得手段30はコンテンツ取得手段14、表示手段31は表示手段16に該当しており、同様の処理を行えるものとする。
【0058】
情報処理装置1のCPU101が行っていた処理を、サーバ2では処理部201が、情報端末3ではCPU301が行えるものとし、情報処理装置1のハードウェアが行う処理は、サーバ2、および情報端末3の各々の該当するハードウェアが行えるものとする。
【0059】
次に
図6について説明を行う。
図6(a)は
図5(a)と同様のため詳細な説明は省略する。
図6(b)はユーザが情報端末3を用いて操作し、閲覧したドキュメントであるユーザドキュメントと、ユーザドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似するユーザドキュメントをグループ化したユーザドキュメントクラスタをX軸方向に、タームをY軸方向に並べた表としてデータであり、情報端末3が
図6(a)、(b)を記憶手段として所定の機能に記憶しておくことができる。
【0060】
図6(a)は
図5(a)と同形式のデータであり、全体ドキュメントにおけるドキュメントクラスタとタームの情報を示し、
図6(b)は
図5(b)に該当するものであるが、
図5(b)がソーシャルネットワークのトピックに関連するドキュメントにおけるドキュメントクラスタとタームの情報であるのに対し、
図6(b)は情報端末3を用いてユーザが操作、閲覧したドキュメントにおけるドキュメントクラスタとタームの情報である点で異なっている。いずれにしてもサーバ2、および情報端末3は
図6の情報より、例えば指定されたドキュメントのドキュメントクラスタを特定すること、および特定されたドキュメントからキーワードを選定すること、など情報処理装置1で行っていた処理を同様に行うよう構成することが可能である。例えば
図5での処理と同様の指定されたドキュメントからキーワードを選定する場合に、仮に指定されたドキュメントからドキュメントクラスタCが特定されたとすると、特定されたドキュメントクラスタCにおける出現頻度、および全体ドキュメントに対するユーザドキュメントの興味度からは共に「ロナウド」がキーワードとして選定される。このように
図5のソーシャルドキュメントにおけるデータベースと、
図6におけるユーザドキュメントにおけるデータベースに出現するタームの出現頻度の違いから異なるキーワードを選定することも可能である。
【0061】
また、情報端末3は、
図6のデータより、コンテンツ取得手段24が取得したコンテンツ情報を受信し、受信したコンテンツをユーザの嗜好に適切となるようランキング付けを行う。例えば、取得したコンテンツに関連するドキュメントに出現するタームを抽出し、該タームのユーザデータベースにおける興味度を見ることで判断を行うことができる。判断の指標としては興味度だけではなく、出現回数など出現頻度に関連するものからも判断を行うことができる。
【0062】
また、上記判断手段は、サーバ2で取得したコンテンツと、情報端末3で取得したコンテンツの2種のコンテンツより、真にユーザの嗜好に適切なものであるかを判断することもできる。判断方法は、例えば、2種のコンテンツを
図6(b)のタームの興味度を基準にコンテンツの順位付けを行い、上位のコンテンツがユーザの嗜好に適切なものであると判断する方法である。言うまでもないが、興味度が高いコンテンツを上位としてユーザの嗜好に適切なコンテンツであると判断する。勿論、このような判断は行わず、サーバ2で一度ランキング化されたコンテンツにおけるランキング上位のコンテンツをそのまま情報端末3で表示出力することも可能である。
【0063】
次に、
図7〜10を参照して本実施形態の装置、および情報処理システムを実行する処理の流れを説明する。
図7は、本発明の実施形態にかかる情報処理装置の処理に関するフローチャートである。
【0064】
まず、情報処理装置の処理に関するフローについて説明する。指定されたドキュメントから単語を抽出する(ステップ1)。次に抽出された単語から、指定されたドキュメントに関連する全体ドキュメントクラスタを特定する(ステップ2)。尚、全体ドキュメントクラスタを特定できたら、特定された全体ドキュメントクラスタからキーワードを選定する(ステップ3)。尚、キーワードを選定の際は、
図5(a)の全体ドキュメントより生成したデータによるタームと、
図5(b)のソーシャルネットワークのトピックに関連するドキュメントより生成したデータによるタームの出現確率を比較して選定してもよいし、しなくてもよい。
【0065】
抽出したキーワードに関連するコンテンツをネットワークから取得する(ステップ4)。取得したコンテンツを全体データベースに基づいてランキング化する(ステップ5)。尚、ランキング化に基づくデータベースは
図5(a)の新聞記事や書籍、雑誌などの全体ドキュメントにおけるデータベース、もしくは
図5(b)のソーシャルネットワークのトピックに関連するドキュメントにおけるデータベースなどを用いてもよい。次にランキング上位のコンテンツを指定されたドキュメントとともに表示装置から表示する(ステップ6)。尚、表示するコンテンツの数に特に制限は設けないが、ランキング上位のキーワードのうち、ベスト3のコンテンツを指定されたドキュメントとともに表示するなどとしてもよい。
【0066】
次に、サーバと情報端末で処理を分けるシステムについての説明をする。特に情報端末は個人で扱うパーソナルコンピュータやタブレット端末などは予め備えているHDDの容量などが小さいため、負荷の大きな処理はある程度大型のコンピュータであるサーバなどに行わることが好ましい。
図8は本発明の第1の実施形態にかかる情報処理システムのフローチャートである。尚、
図8の第1の実施形態は
図7の情報処理装置1で行っていた処理をサーバ2と情報端末3に分けて行っている。
【0067】
まずサーバ2は、指定されたドキュメントから単語を抽出する(ステップ7)。次に抽出された単語から、指定されたドキュメントに関連する全体ドキュメントクラスタを特定する(ステップ8)。全体ドキュメントクラスタを特定できたら、特定された全体ドキュメントクラスタからキーワードを選定する(ステップ9)。ここまでは
図7のフローチャートと同じ処理となる。
【0068】
次にサーバ2は、選定したキーワードに関連するコンテンツをネットワークから取得する(ステップ10)。取得したコンテンツを全体データベースに基づいてランキング化する(ステップ11)。尚、ランキング化に基づくデータベースは
図5(a)の新聞記事や書籍、雑誌などの全体ドキュメントにおけるデータベース、もしくは
図5(b)のソーシャルネットワークのトピックに関連するドキュメントにおけるデータベースなどを用いてもよい。次にランキング上位のコンテンツ情報を情報端末に伝送する(ステップ12)。ここまでがサーバ側で行う処理となる。
【0069】
次に情報端末側で処理となる。サーバより伝送されたコンテンツ情報を受信し、指定されたドキュメントとともに表示する(ステップ13)。ここまでが情報端末側で行う処理である。キーワードの選定、および選定されたキーワードに基づくコンテンツの取得までをホストコンピュータとしてのサーバで行い、情報端末側で行う処理はサーバ側で取得したコンテンツを表示することだけであるため、情報端末側の処理の負担を大幅に削減することが可能となる。また、サーバ側で取得したコンテンツはソーシャルネットワークのトピックに関連するものであるため、ユーザの嗜好を大きく外さない程度のものとなっている。
【0070】
図9は、本発明の第2の実施形態にかかる情報処理システムのフローチャートである。第2の実施形態では、情報端末側でもユーザドキュメントデータベースを保持し、
サーバ側で取得し、ランキング化されたコンテンツを情報端末側で更にランキング化を行う。
【0071】
まずサーバ2は、指定されたドキュメントから単語を抽出する(ステップ14)。次に抽出された単語から、指定されたドキュメントに関連する全体ドキュメントクラスタを特定する(ステップ15)。全体ドキュメントクラスタを特定できたら、特定されたソーシャルドキュメントクラスタからキーワードを選定する(ステップ16)。
【0072】
次にサーバ2は、選定したキーワードに関連するコンテンツをネットワークから取得する(ステップ17)。取得したコンテンツを全体データベースに基づいてランキング化する(ステップ18)。尚、ランキング化に基づくデータベースは
図5(a)の新聞記事や書籍、雑誌などの全体ドキュメントにおけるデータベース、もしくは
図5(b)のソーシャルネットワークのトピックに関連するドキュメントにおけるデータベースなどを用いてもよい。次にランキング上位のコンテンツ情報を情報端末に伝送する(ステップ19)。ここまでがサーバ側で行う処理となる。
【0073】
情報端末3はサーバよりランキング上位のコンテンツを受信し、情報端末3が記憶しているユーザデータベースに基づいて、再度受信したコンテンツの再ランキング化を行う(ステップ20)。更なるランキングによりランキング上位となったコンテンツを指定されたドキュメントとともに表示装置などに表示する(ステップ21)。キーワードの選定、およびコンテンツの取得をサーバ側で行い、取得されたコンテンツ情報を情報端末3に伝送し、更にユーザデータベースに基づいて受信したコンテンツを更に並べ替えることで、表示されるコンテンツ情報はユーザ個人の嗜好をより反映したものとすることができる。
【0074】
図10は、本発明の第3の実施形態にかかる情報処理システムのフローチャートである。第3の実施形態では、情報端末側でもユーザドキュメントデータベースを保持し、更にユーザドキュメントデータベースに基づいてキーワードの選定を行い、コンテンツを取得する。
【0075】
まずサーバ2は、指定されたドキュメントから単語を抽出する(ステップ22)。次に抽出された単語から、指定されたドキュメントに関連する全体ドキュメントクラスタを特定する(ステップ23)。全体ドキュメントクラスタを特定できたら、特定されたソーシャルドキュメントクラスタからキーワードを選定する(ステップ24)。
【0076】
次にサーバ2は、次にサーバ2は、選定したキーワードに関連するコンテンツをネットワークから取得する(ステップ25)。取得したコンテンツを全体データベースに基づいてランキング化する(ステップ26)。尚、ランキング化に基づくデータベースは
図5(a)の新聞記事や書籍、雑誌などの全体ドキュメントにおけるデータベース、もしくは
図5(b)のソーシャルネットワークのトピックに関連するドキュメントにおけるデータベースなどを用いてもよい。次にランキング上位のコンテンツ情報を情報端末に伝送する(ステップ27)。ここまでがサーバ側で行う処理となる。
【0077】
情報端末3は、指定されたドキュメントから単語を抽出する(ステップ28)。抽出された単語から、指定されたドキュメントに関連するドキュメントクラスタをユーザドキュメントデータベースから特定する(ステップ29)。ここで、ユーザドキュメントデータベースはユーザが情報端末を用いて過去に閲覧したドキュメントより生成されるものであり、ある程度のドキュメント情報量が充足していれば、必然とユーザドキュメントクラスタは、サーバ2で特定された全体ドキュメントクラスタと同一のドキュメントクラスタとなる可能性が高い。
【0078】
次に情報端末3は特定されたドキュメントクラスタからキーワードを選定する(ステップ30)。更に選定されたドキュメントに関連するコンテンツをネットワークから取得する(ステップ31)。取得したコンテンツをユーザドキュメントデータベースに基づいてランキング化する(ステップ32)。更にサーバ2より伝送されたコンテンツ情報を受信し、サーバ側から伝送されたコンテンツと情報端末3で取得したコンテンツとで更なるランキング化を行う(ステップ33)。
【0079】
更なるランキング化により上位となったコンテンツを特定されたドキュメントとともに表示装置に表示する(ステップ34)。キーワードの選定、およびコンテンツの取得を情報端末側でも行い、取得したコンテンツ情報とサーバ側より伝送されたコンテンツとを更に並び替えることで、ユーザの嗜好を適切に反映し、かつ世間一般で話題になっているコンテンツを提供することが可能となる。
【0080】
以上のような処理を実行することにより、ユーザ個人の情報端末から抽出されるキーワードと世間一般の興味度の高いキーワードから、ユーザの嗜好をより適切に反映しつつ、ユーザがこれまで目の届かなかったコンテンツを提供することも可能となる。また、サーバと情報端末の負荷を分散させることで、快適に処理を行うことが可能になる。
【0081】
本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施例に限定されない。
【0082】
実施形態変更の1例として、
図9の情報処理システムのフローにおいて、サーバ2、および情報端末3に、処理負荷の軽減のため新聞や書籍などの全体ドキュメントを備えないようにする構成は可能である。また、情報端末3で、ユーザドキュメントを備えず、ユーザドキュメントクラスタを特定するステップを無くすことは可能である。また、ユーザドキュメントクラスタからキーワードを選定するステップを無くすことは可能である。
【0083】
いずれにしても、ソーシャルネットワークのトピックに関連するドキュメントのソーシャルドキュメントクラスタを特定し、特定されたソーシャルドキュメントクラスタから選定されたキーワードはユーザの嗜好を大きく外すことはない。またユーザがこれまで目の届かなかったコンテンツまで併せて提供できる点で、ユーザ側のコンピュータの処理を大幅に削減することができるのである。しかし、ユーザの嗜好をより反映させてキーワードを選定したいと考えると、ユーザ自身の何かしらの操作履歴情報は必要であると考えることが自然である。
【0084】
本発明により、ユーザ個人の情報端末から抽出されるキーワードと世間一般の興味度の高いキーワードから、ユーザの嗜好をより適切に反映しつつ、ユーザがこれまで目の届かなかったコンテンツを提供することも可能となる。また、ユーザ自身が所有する情報端末が、購入して間もないため操作履歴の情報量が乏しい場合でもソーシャルネットワークのトピックに関連するドキュメントのデータからユーザの嗜好を大きく外さない程度に適切なコンテンツを提供することも可能となる。