【文献】
中田 豊久,個人ホームページのハイパーリンク分析による暗示的コミュニティの抽出,第53回 知識ベースシステム研究会資料,日本,社団法人人工知能学会,2001年 9月14日,19〜24頁
【文献】
大野 成義他,Max Flowアルゴリズムを用いたWebページのクラスタリング方法とその評価,情報処理学会論文誌,日本,社団法人情報処理学会,2006年 3月15日,第47巻 No.SIG4(TOD29),p.65〜75
(58)【調査した分野】(Int.Cl.,DB名)
前記第1の生成部は、前記クラスタに属する個人ウェブサイトと当該クラスタ外の個人ウェブサイトとの組み合わせに関する前記第1の指標を、所定の規則に従ってクラスタとクラスタ、又はクラスタと個人ウェブサイトの組み合わせに関する第2の指標に統合し、前記第1の指標又は前記第2の指標に基づいて、個人ウェブサイトと個人ウェブサイト、個人ウェブサイトとクラスタ、又はクラスタとクラスタとを結合したクラスタを生成する処理を、前記第1の指標及び前記第2の指標が所定値に満たなくなるまで繰り返す請求項1又は請求項2に記載のID割当装置。
前記第1の生成部は、前記クラスタに属する個人ウェブサイトと当該クラスタ外の個人ウェブサイトとの組み合わせに関する前記第1の指標の最大値を前記第2の指標とする請求項4に記載のID割当装置。
前記複数の個人ウェブサイトそれぞれのURLに基づいて分類される利用形態を表す所定数の種別、及び前記ハイパーリンクの入出力関係の構造に基づいて、予め設定されている所定の入出力の関係にある所定種別の個人ウェブサイトの組み合わせを結合して前記クラスタを生成する第2の生成部を備える請求項1から請求項5のいずれかに記載のID割当装置。
前記複数の個人ウェブサイトそれぞれのURLにより識別可能なサービスプロバイダのアカウントに基づいて、当該アカウントが同一の個人ウェブサイトを結合して前記クラスタを生成する第3の生成部を備える請求項1から請求項6のいずれかに記載のID割当装置。
前記算出部は、前記ハイパーリンクの入次数及び出次数が所定の条件を満たす個人ウェブサイト、及び当該個人ウェブサイトに関する前記リンク情報を除いて、前記第1の指標を算出する請求項1から請求項7のいずれかに記載のID割当装置。
前記入次数又は前記出次数は、隣接する個人ウェブサイトが当該個人ウェブサイトのURLに基づいて分類される利用形態を表す所定の種別である場合のハイパーリンクの数である請求項8に記載のID割当装置。
前記算出部は、前記リンク情報のうち、所定の期間以外に発生したハイパーリンクを除いて、前記第1の指標を算出する請求項1から請求項9のいずれかに記載のID割当装置。
前記算出部は、前記リンク情報のうち、所定の期間に同一の個人ウェブサイト間で発生したハイパーリンクの数が所定数に満たない場合、当該ハイパーリンクを除いて、前記第1の指標を算出する請求項1から請求項10のいずれかに記載のID割当装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の手法は、ウェブサイトのリンクを抽出し、リンク先のウェブサイトを再帰的に、リンクがなくなるまで収集するものであるため、リンクで紐付けられている全てのウェブサイトが同一のコミュニティとみなされる。
【0006】
ところが、上述のオンラインの個人は、互いにリンクされた複数の個人ウェブサイトを管理しているが、これらの個人ウェブサイトには、同一のオンラインの個人を特定する情報(ID)が含まれていない。また、個人ウェブサイトは、上述のように、他のオンラインの個人が管理する個人ウェブサイトともリンクで紐付けられている。したがって、リンクの有無からだけでは、同一のオンラインの個人が管理する個人ウェブサイトを特定することはできなかった。
【0007】
そこで、オンラインの個人による複数の個人ウェブサイトの管理方法に関する事例に基づいて、ある条件を仮定することにより、複数の個人ウェブサイトを管理者であるオンラインの個人毎に分類する手法も考えられる。
しかしながら、この仮定された条件に合致しない事例が出現すると、分類の精度が低下してしまうという課題があった。
【0008】
本発明は、複数の個人ウェブサイトを、管理者であるオンラインの個人毎に分類できるID割当装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明では、以下のような解決手段を提供する。
【0010】
(1)複数の個人ウェブサイト、及び当該複数の個人ウェブサイト間におけるハイパーリンクによる隣接関係を示したリンク情報を記憶する記憶部と、前記リンク情報に基づいて、2つの個人ウェブサイトが共通の隣接する個人ウェブサイトを有する程度を示す第1の指標を算出する算出部と、前記第1の指標に基づいて、1以上の個人ウェブサイトからなるクラスタの集合を生成する第1の生成部と、前記複数の個人ウェブサイトに対して、前記クラスタ毎に異なり、かつ、当該クラスタ内で同一の管理者IDを割り当てる割当部と、を備えるID割当装置。
【0011】
このような構成によれば、ID割当装置は、2つの個人ウェブサイトが共通の隣接する個人ウェブサイトを有する程度を示す指標に基づいて、複数の個人ウェブサイトからクラスタの集合を生成する。ID割当装置は、これらのクラスタに対して別々の管理者IDを割り当てることにより、複数の個人ウェブサイトを、管理者であるオンラインの個人毎に分類できる。したがって、ID割当装置は、普遍的な指標を用いることにより、同一管理者の個人ウェブサイトを、より正確に推定できる。
この結果、ID割当装置は、同一のオンラインの個人が管理する個人ウェブサイトに関する情報を容易に取得できるので、教師や保護者等は、このID割当装置を子供達(特に中高生)が作成した個人ウェブサイトの監視に役立てることができる。
【0012】
(2)前記算出部は、前記隣接する個人ウェブサイトとして自身を含めて、前記第1の指標を算出する(1)に記載のID割当装置。
【0013】
このような構成によれば、ID割当装置は、隣接する個人ウェブサイトとして自身を含める。同一管理者の個人ウェブサイトは、互いに隣接していることが多いので、隣接している個人ウェブサイトのペアに対して重み付けされることにより、ID割当装置は、同一管理者の個人ウェブサイトを、より正確に推定できる。
【0014】
(3)前記第1の生成部は、前記第1の指標が所定以上に大きい個人ウェブサイトの組み合わせを同一のクラスタに含める(1)又は(2)に記載のID割当装置。
【0015】
このような構成によれば、ID割当装置は、第1の指標が所定以上に大きい個人ウェブサイトの組み合わせを同一のクラスタに含めるので、所定以上に類似した隣接関係を持つ個人ウェブサイトの管理者が同一であるとして、容易にクラスタを生成できる。
【0016】
(4)前記第1の生成部は、前記クラスタに属する個人ウェブサイトと当該クラスタ外の個人ウェブサイトとの組み合わせに関する前記第1の指標を、所定の規則に従ってクラスタとクラスタ、又はクラスタと個人ウェブサイトの組み合わせに関する第2の指標に統合し、前記第1の指標又は前記第2の指標に基づいて、個人ウェブサイトと個人ウェブサイト、個人ウェブサイトとクラスタ、又はクラスタとクラスタとを結合したクラスタを生成する処理を、前記第1の指標及び前記第2の指標が所定値に満たなくなるまで繰り返す(1)又は(2)に記載のID割当装置。
【0017】
このような構成によれば、ID割当装置は、第1の指標を、クラスタとクラスタ、又はクラスタと個人ウェブサイトの組み合わせに関する第2の指標に統合し、この第2の指標に基づいて、これらの組み合わせを結合したクラスタを生成できる。したがって、ID割当装置は、第1の指標を基にして、管理者が同一のクラスタを順次生成、拡大させることにより、管理者IDを割り当てることができる。
【0018】
(5)前記第1の生成部は、前記クラスタに属する個人ウェブサイトと当該クラスタ外の個人ウェブサイトとの組み合わせに関する前記第1の指標の最大値を前記第2の指標とする(4)に記載のID割当装置。
【0019】
このような構成によれば、ID割当装置は、クラスタが生成された際に、このクラスタとの組み合わせに関する第2の指標を、クラスタに属する個人ウェブサイトとの組み合わせに関する指標の最大値として容易に求めることができる。
【0020】
(6)前記複数の個人ウェブサイトそれぞれのURLに基づいて分類される利用形態を表す所定数の種別、及び前記ハイパーリンクの入出力関係の構造に基づいて、予め設定されている所定の入出力の関係にある所定種別の個人ウェブサイトの組み合わせを結合して前記クラスタを生成する第2の生成部を備える(1)から(5)のいずれかに記載のID割当装置。
【0021】
このような構成によれば、ID割当装置は、予め設定されている所定の入出力の関係にある所定種別の個人ウェブサイトの組み合わせを結合してクラスタを生成する。したがって、ID割当装置は、事例に基づく所定の条件を加味して、より正確に管理者IDを割り当てることができる。
【0022】
(7)前記複数の個人ウェブサイトそれぞれのURLにより識別可能なサービスプロバイダのアカウントに基づいて、当該アカウントが同一の個人ウェブサイトを結合して前記クラスタを生成する第3の生成部を備える(1)から(6)のいずれかに記載のID割当装置。
【0023】
このような構成によれば、ID割当装置は、サービスプロバイダのアカウントが同一の個人ウェブサイトを結合してクラスタを生成するので、より正確に管理者IDを割り当てることができる。
【0024】
(8)前記算出部は、前記ハイパーリンクの入次数及び出次数が所定の条件を満たす個人ウェブサイト、及び当該個人ウェブサイトに関する前記リンク情報を除いて、前記第1の指標を算出する(1)から(7)のいずれかに記載のID割当装置。
【0025】
このような構成によれば、ID割当装置は、ハイパーリンクの入次数及び出次数が所定の条件によって、特定の種類の個人ウェブサイト及び隣接するハイパーリンクを除外して指標を算出する。したがって、ID割当装置は、管理者IDの割り当て対象外であるサイトをノイズとして除去できるので、より正確に管理者IDを割り当てることができる。
【0026】
(9)前記入次数又は前記出次数は、隣接する個人ウェブサイトが当該個人ウェブサイトのURLに基づいて分類される利用形態を表す所定の種別である場合のハイパーリンクの数である(8)に記載のID割当装置。
【0027】
このような構成によれば、ID割当装置は、サイトの種別に基づいて管理者IDの割り当て対象外であるサイトをノイズとして、より確実に除去できる。
【0028】
(10)前記算出部は、前記リンク情報のうち、所定の期間以外に発生したハイパーリンクを除いて、前記第1の指標を算出する(1)から(9)のいずれかに記載のID割当装置。
【0029】
このような構成によれば、ID割当装置は、所定の期間以外に発生したハイパーリンクを除いて指標を算出するので、最近の情報、又は特定の期間等に限定して精度を向上させると共に、処理負荷を低減できる。
【0030】
(11)前記算出部は、前記リンク情報のうち、所定の期間に同一の個人ウェブサイト間で発生したハイパーリンクの数が所定数に満たない場合、当該ハイパーリンクを除いて、前記第1の指標を算出する(1)から(10)のいずれかに記載のID割当装置。
【0031】
このような構成によれば、ID割当装置は、所定の期間に同一の個人ウェブサイト間で発生したハイパーリンクの数が所定数に満たない場合、これらのハイパーリンクを除いて指標を算出する。したがって、ID割当装置は、所定以上の強さで結び付いているハイパーリンクを対象としてノイズを除去するので、より確実に管理者の同一を判定できる。
【0032】
(12)前記所定数は、前記ハイパーリンクのリンク元の個人ウェブサイトのURLに基づいて分類される利用形態を表す種別毎に設定される(11)に記載のID割当装置。
【0033】
このような構成によれば、ID割当装置は、リンク元の種別毎にハイパーリンクの強さの閾値を設定するので、利用形態によって異なるハイパーリンクの発生傾向に対応して、より確実にノイズを除去できる。
【0034】
(13)複数の個人ウェブサイトそれぞれに対して、コンピュータが管理者IDを割り当てるID割当方法であって、前記コンピュータが前記複数の個人ウェブサイト、及び当該複数の個人ウェブサイト間におけるハイパーリンクによる隣接関係を示したリンク情報を記憶し、前記リンク情報に基づいて、2つの個人ウェブサイトが共通の隣接する個人ウェブサイトを有する程度を示す第1の指標を算出する算出ステップと、前記第1の指標に基づいて、1以上の個人ウェブサイトからなるクラスタの集合を生成する生成ステップと、前記複数の個人ウェブサイトに対して、前記クラスタ毎に異なり、かつ、当該クラスタ内で同一の管理者IDを割り当てる割当ステップと、を実行する方法。
【0035】
このような構成によれば、ID割当方法をコンピュータが実行することにより、(1)と同様の効果が期待できる。
【0036】
(14)複数の個人ウェブサイトそれぞれに対して、コンピュータに管理者IDを割り当てさせるためのID割当プログラムであって、前記コンピュータは、前記複数の個人ウェブサイト、及び当該複数の個人ウェブサイト間におけるハイパーリンクによる隣接関係を示したリンク情報を記憶し、前記リンク情報に基づいて、2つの個人ウェブサイトが共通の隣接する個人ウェブサイトを有する程度を示す第1の指標を算出する算出ステップと、前記第1の指標に基づいて、1以上の個人ウェブサイトからなるクラスタの集合を生成する生成ステップと、前記複数の個人ウェブサイトに対して、前記クラスタ毎に異なり、かつ、当該クラスタ内で同一の管理者IDを割り当てる割当ステップと、を実行させるためのID割当プログラム。
【0037】
このような構成によれば、ID割当プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
【発明の効果】
【0038】
本発明によれば、複数の個人ウェブサイトを、管理者であるオンラインの個人毎に分類できる。
【発明を実施するための形態】
【0040】
以下、本発明の実施形態の一例について説明する。
本実施形態に係るID割当装置1は、オンラインの個人が管理する個人ウェブサイトに対して、このオンラインの個人を識別するオンラインIDを割り当てる装置である。なお、ID割当装置1は、サーバ装置やPC(Personal Computer)等、様々な情報処理装置(コンピュータ)であってよい。
【0041】
図1は、本実施形態に係る個人ウェブサイトと、その管理者との関係を示す図である。
現実の人物であるオフラインの個人は、ネットワーク(インターネット)上で、1又は複数のオンラインの個人を管理している。また、オンラインの個人は、1又は複数の個人ウェブサイトを管理している。
【0042】
各オンラインの個人は、例えば、同じ学校の生徒であったり、同じ趣味を持つグループの一員であったり、オンラインの他者と一定の人間関係を持っている。そのため、複数のオンラインの個人がそれぞれ管理している個人ウェブサイトの間は、ハイパーリンクで参照されていることも多い。
【0043】
ここで、個人ウェブサイトとは、オンラインの個人が、自身に関する情報を公開したり、オンラインの他者とメッセージを交換したりするためのウェブサイトをいう。例えば、以下のタイプの個人ウェブサイトがそれぞれ複数のサービスプロバイダにより提供されている。
【0044】
プロフ(プロフィール)・・・個人のプロフィールを公開できるサイト。
ゲスブ(ゲストブック)・・・訪問者が履歴としてコメントを投稿できるサイト。
リアル(リアルタイム)・・・個人の現況を短い文章で投稿できるサイト。
ブログ・・・日々更新される日記を公開できるサイト。
マイリンク・・・他者の個人ウェブサイトへのリンクを掲載できるサイト。
ホムペ(ホームページ)・・・個人用のサイト。
【0045】
オンラインの個人は、上記の複数のタイプの個人ウェブサイトを、サービスプロバイダ毎に異なるアカウントで作成しているため、同一のIDによる紐付け(名寄せ)ができていないことが多い。例えば、「オンラインID(OnID)=1」であるオンラインの個人は、プロフ、ゲスブ及びリアルを管理している。これらの個人ウェブサイトは、「OnID=1」の情報を有しておらず、異なるアカウントID(1及び2)で管理されている。
【0046】
ID割当装置1は、後述の処理により、管理者であるオンラインの個人が同一である個人ウェブサイトに対して、同一のオンラインID(OnID)を割り当て、複数の個人ウェブサイトをオンラインの個人毎に分類する。
【0047】
図2は、本実施形態に係るID割当装置1によりオンラインIDが割り当てられた結果を示す概要図である。
【0048】
以下、本実施形態においてIDの割り当ての対象とする個人ウェブサイトは、サイトの利用形態を表す次の3種類の種別(クラスA、クラスB及びクラスC)に分類されるものとする。なお、これらのクラス及び上記のタイプは、個人ウェブサイトのURLから判別できるものとする。
【0049】
クラスA(プロフ、ホムペ)・・・オンラインの個人が他者と識別するために作成する個人ウェブサイト。
クラスB(ゲスブ、マイリンク)・・・オンラインの個人がクラスAのサイトに付随して作成する個人ウェブサイト。
クラスC(リアル、ブログ)・・・オンラインの個人が他者と識別するために単体で、又はクラスAのサイトに付随して作成する個人ウェブサイト。
【0050】
なお、同一の個人ウェブサイトがクラスAを含んで複数のタイプ(例えば、プロフとマイリンク等)を持つ場合もある。この場合、URLから判別されるクラスは、クラスAとなる。
【0051】
図3は、本実施形態に係るID割当装置1の機能構成を示すブロック図である。
ID割当装置1は、制御部10と、記憶部20と、通信部30と、入力部40と、出力部50とを備える。
【0052】
制御部10は、ID割当装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、上記のハードウェアと協働し、本実施形態における各種機能を実現している。制御部10は、CPU(Central Processing Unit)であってよい。なお、制御部10が備える各部の機能は後述する。
【0053】
記憶部20は、ハードウェア群をID割当装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ハードディスク(HDD)であってよい。具体的には、記憶部20には、本実施形態の各種機能を実現させるため制御部10に実行させるプログラム(ID割当プログラム)が記憶される。
【0054】
さらに、記憶部20は、サイト保存DB21と、サイト管理DB22とを備える。サイト保存DB21は、プログラムにて取得される個人ウェブサイトのページデータ(HTMLファイル群)を記憶する。また、サイト管理DB22は、プログラムにて作成又は編集される後述の収集履歴管理テーブル及びサイト間リレーションテーブルを記憶する。
【0055】
通信部30は、ID割当装置1が他の装置と情報を送受信する場合のネットワーク・アダプタであり、ネットワーク(インターネット)を介して個人ウェブサイトを管理しているサーバ100にアクセスし、個人ウェブサイトのページデータを取得して制御部10へ提供する。
【0056】
入力部40は、ID割当装置1に対する利用者からの指示入力を受け付けるインタフェース装置である。入力部40は、例えば、キーボード、マウス及びタッチパネル等により構成される。
【0057】
出力部50は、利用者にデータの入力を受け付ける画面を表示したり、ID割当装置1による処理結果の画面を表示したりするディスプレイ装置を含む。さらに、出力部50は、ブラウン管表示装置(CRT)や液晶表示装置(LCD)等のディスプレイ装置の他、プリンタ等の各種出力装置を含んでよい。
【0058】
次に、制御部10の機能を詳述する。
まず、本実施形態において使用する記号を説明する。
−個人ウェブサイトのネットワーク(有向グラフ):G=(V,E)
・個人ウェブサイト(ノード):v
i∈V,(i=1,2,・・・,|V|)
個人ウェブサイトの数(グラフのサイズ):|V|
・v
iからv
jへのハイパーリンク:(v
i,v
j)∈E, (v
i,v
j∈V)
ハイパーリンクの数:|E|
−個人ウェブサイトの属性
・URL:URL(v
i)
・タイプ:TYPE(v
i)
・クラス:C(v
i)
・サービスプロバイダ:SP(v
i)
・アカウントID:ACID(v
i)
・管理者のID(OnID):ONID(v
i)
−ハイパーリンクの属性
・ハイパーリンクの強さ:|(v
i,v
j)|
具体的には、v
iからv
jへのハイパーリンクの本数を表す。
・時刻t0,t1間のハイパーリンクの強さ:|(v
i,v
j)|
t0→t1
ブログ、リアル、ゲスブでのコメント投稿で発生するハイパーリンク等、時刻情報を持つハイパーリンクのうち、指定された期間内(時刻t0からt1まで)のハイパーリンクの本数を表す。ただし、プロフ、ホムペ、マイリンクで発生するハイパーリンク等、時刻情報を持たないハイパーリンクは、全期間において発生しているものとみなす。
【0059】
制御部10は、サイト収集部11(収集部)と、メトリック算出部12(算出部)と、アカウントクラスタ生成部13a(第3の生成部)と、種別クラスタ生成部13b(第2の生成部)と、メトリッククラスタ生成部13c(第1の生成部)と、ID割当部14(割当部)と、アプリケーション部15とを備える。各部は、ID割当プログラムを実行することにより実現される機能ブロックである。
【0060】
サイト収集部11は、個人ウェブサイトに含まれるハイパーリンクを抽出し、さらにこのハイパーリンクの参照先である別の個人ウェブサイトのページデータを取得する。そして、サイト収集部11は、サイト保存DB21にページデータを記憶すると共に、複数の個人ウェブサイトのリスト(収集履歴管理テーブル)、並びに複数の個人ウェブサイト間におけるハイパーリンクによる隣接関係及び入出力関係を示したリンク情報のリスト(サイト間リレーションテーブル)にそれぞれデータ追加し、サイト管理DB22を更新する。
【0061】
例えば、サイト収集部11は、まず、収集処理の元になるルートの個人ウェブサイトのURLと、このルートの個人ウェブサイトからハイパーリンク(HTMLにおける<a>リンク)を幾つ辿るか(リンクホップ数)等の収集範囲の指定とを受け付ける。
【0062】
次に、サイト収集部11は、インターネットにアクセスし、ルートの個人ウェブサイトのページデータをサイト保存DB21に記憶する。さらに、このルートの個人ウェブサイトのURLを、収集履歴管理テーブルに追加する。
【0063】
また、サイト収集部11は、個人ウェブサイトからハイパーリンクを取得し、リンク先が個人ウェブサイトでないものを除いて、リンク元のURLとリンク先のURLとの組合せをサイト間リレーションテーブルに追加する。
【0064】
さらに、サイト収集部11は、リンク先のURLから取得した個人ウェブサイトのページデータをサイト保存DB21に、このURLを収集履歴管理テーブルにそれぞれ記憶する。そして、サイト収集部11は、指定された収集範囲まで、全てのURLが収集履歴管理テーブルに記憶されると収集処理を終了する。また、サイト収集部11は、指定された収集範囲までURLを収集できていない場合には、ハイパーリンクの取得、サイト間リレーションテーブルの更新、ページデータの記憶及び収集履歴管理テーブルの更新を繰り返す。
【0065】
図4は、本実施形態に係るサイト管理DB22に格納される収集履歴管理テーブルを示す図である。
【0066】
収集履歴管理テーブルは、収集ID、ルートURL、リンク元URL、個人ウェブサイトURL、個人ウェブサイトのクラス、保存先、サイトホップ数、管理者ID(OnID)及び収集日時を記憶する。
【0067】
ここで、収集IDは、上記の収集処理毎に付与される識別番号である。ルートURLは、収集処理を行うために指定された個人ウェブサイトのURLである。保存先は、サイト保存DB21内における対象の個人ウェブサイトの記憶場所を示すURLである。OnIDは、後述のID割当部14によって割り当てられるオンラインの個人を識別するIDである。
【0068】
また、サイトホップ数は、指定された個人ウェブサイトをルートノードとし、リンクされた隣接する個人ウェブサイト間のハイパーリンクを1ホップとしたときの、ルートノードからのホップ数である。
【0069】
図5は、本実施形態に係るサイト管理DB22に格納されるサイト間リレーションテーブルを示す図である。
【0070】
サイト間リレーションテーブルは、収集IDと、リンク元の個人ウェブサイト及びリンク先の個人ウェブサイトそれぞれのURL、タイプ、クラス、サービスプロバイダの識別データ(SP)、及びサービスプロバイダにおけるアカウントID(ACID)と、ハイパーリンクの発生日時と、収集日時とを記憶する。
【0071】
なお、SP及びACIDは、個人ウェブサイトのURLによって識別される。ここで、同一のSPにおいてACIDが同一であれば、管理者(オンラインの個人)は同一であると見なせるが、SPが異なれば、ACIDが同一であっても管理者が同一であるとは限らない。
【0072】
また、ハイパーリンクの発生日時は、個人ウェブサイトへのコメント投稿等によりハイパーリンクが書き込まれた日時である。なお、個人ウェブサイトの作成時から存在するハイパーリンク等、時刻情報が紐付いていないハイパーリンクの場合、発生日時は特定されないが、全期間において発生しているものとみなして後述の処理で利用する。
【0073】
メトリック算出部12は、サイト間リレーションテーブルのリンク情報に基づいて、2つの個人ウェブサイトが共通の隣接する個人ウェブサイトを有する程度を示すメトリック(第1の指標)を算出する。
【0074】
具体的には、v
iとv
jのメトリックとして、以下に示す2種類の類似度(Similarity)のいずれかが用いられる。
(1)Similarity=|Γ(v
i)∩Γ(v
j)|/|V|
ただし、
Γ(v
i)={w|(v
i,w)∈E or (w,v
i)∈E}
は、隣接する個人ウェブサイト(隣接ノード)の集合であり、ハイパーリンクの向きに依存しない。また、
|Γ(v
i)∩Γ(v
j)|
は、共通の隣接ノードの数である。
【0075】
(2)Similarity=|Γ
+(v
i)∩Γ
+(v
j)|/|V|
ただし、
Γ
+(v
i)={w|(v
i,w)∈E or (w,v
i)∈E}∪{v
i}
は、Γ(v
i)と同様に隣接ノードの集合であるが、自ノード(v
i)を含む。また、
|Γ
+(v
i)∩Γ
+(v
j)|
は、共通の隣接ノードの数である。
【0076】
図6は、本実施形態に係る個人ウェブサイト間のSimilarityの算出例を示す図である。
7つのノードが図のようにハイパーリンクによって隣接している。具体的には、算出方法(1)の場合、ノードv
1及びノードv
2の隣接ノードは、
Γ(v
1)={v
2,v
3,v
4,v
5,v
6}
Γ(v
2)={v
1,v
3,v
4,v
5}
である。このとき、共通の隣接ノードは、
Γ(v
1)∩Γ(v
2)={v
3,v
4,v
5}
である。したがって、
Similarity=3/7
となる。
【0077】
また、算出方法(2)の場合、ノードv
1及びノードv
2の隣接ノードは、
Γ
+(v
1)={v
1,v
2,v
3,v
4,v
5,v
6}
Γ
+(v
2)={v
1,v
2,v
3,v
4,v
5}
である。このとき、共通の隣接ノードは、
Γ
+(v
1)∩Γ
+(v
2)={v
1,v
2,v
3,v
4,v
5}
である。したがって、
Similarity=5/7
となる。
【0078】
なお、いずれの算出方法も、同一管理者の個人ウェブサイトは、共通の隣接ノードを多数保有する傾向があることに基づいている。
以下、自ノードを含む(2)の算出方法を用いて説明する。
【0079】
また、メトリック算出部12は、ハイパーリンクの入次数及び出次数が所定の条件を満たす個人ウェブサイト、及びこの個人ウェブサイトに関するリンク情報を除いて、Similarityを算出する。
ここで、入次数又は出次数は、隣接する個人ウェブサイトが所定のクラス又はタイプである場合のハイパーリンクの数に限定してもよい。
【0080】
また、メトリック算出部12は、リンク情報のうち、所定の期間(例えば、過去1年間)以外に発生したハイパーリンクを除いて、Similarityを算出する。
さらに、メトリック算出部12は、リンク情報のうち、所定の期間に同一の個人ウェブサイト間で発生したハイパーリンクの強さが所定値に満たない場合、このハイパーリンクを除いて、Similarityを算出する。なお、所定値は、ハイパーリンクのリンク元のクラス又はタイプ毎に設定される。
【0081】
アカウントクラスタ生成部13aは、複数の個人ウェブサイトそれぞれのURLにより識別可能なサービスプロバイダのアカウントID(ACID)に基づいて、このACIDが同一の個人ウェブサイトを結合してクラスタを生成する。
【0082】
種別クラスタ生成部13bは、複数の個人ウェブサイトそれぞれのクラス、及びハイパーリンクの入出力関係の構造に基づいて、予め設定されている所定の入出力の関係にある所定クラスの個人ウェブサイトの組み合わせを結合してクラスタを生成する。
【0083】
例えば、種別クラスタ生成部13bは、経験則に基づく以下の仮説(A)、(B)に基づいて、クラスAからクラスBへのハイパーリンクがある場合に、このハイパーリンクのリンク元及びリンク先の個人ウェブサイトを結合してクラスタを生成する。
(A)管理者は、クラスAの個人ウェブサイトから他者の個人ウェブサイトへハイパーリンクを張らない。
(B)管理者は、自身の個人ウェブサイトから他者のクラスBの個人ウェブサイトへハイパーリンクを張らない。
【0084】
メトリッククラスタ生成部13cは、メトリックに基づいて、Similarityが所定以上に大きい個人ウェブサイトの組み合わせを同一のクラスタに含めることにより、1以上の個人ウェブサイトからなるクラスタの集合を生成する。
【0085】
具体的には、メトリッククラスタ生成部13cは、クラスタに属する個人ウェブサイトと、このクラスタ外の個人ウェブサイトとの組み合わせに関するSimilarity(第1の指標)を、所定の規則に従ってクラスタとクラスタ、又はクラスタと個人ウェブサイトの組み合わせに関するSimilarity(第2の指標)に統合する。そして、メトリッククラスタ生成部13cは、これら第1の指標又は前記第2の指標が大きいものから順に、個人ウェブサイトと個人ウェブサイト、個人ウェブサイトとクラスタ、又はクラスタとクラスタとを結合したクラスタを生成する処理を、第1の指標及び前記第2の指標が所定値に満たなくなるまで繰り返す。
【0086】
なお、本実施形態において、第2の指標は、クラスタに属する個人ウェブサイトと、このクラスタ外の個人ウェブサイトとの組み合わせに関する第1の指標の最大値とする。
【0087】
図7は、本実施形態に係るクラスタ間のSimilarityの算出例を示す図である。
ノードv
1及びv
2からなるクラスタCL(v
1,v
2)と、ノードv
3及びv
4からなるクラスタCL(v
3,v
4)との組み合わせに関するSimilarity(第2の指標)は、各ノード間のSimilarity(第1の指標)から求められる。
【0088】
ここで、各ノード間のSimilarityは、
|Γ
+(v
1)∩Γ
+(v
3)|/|V|=4/7
|Γ
+(v
2)∩Γ
+(v
3)|/|V|=4/7
|Γ
+(v
1)∩Γ
+(v
4)|/|V|=5/7
|Γ
+(v
2)∩Γ
+(v
4)|/|V|=5/7
である。したがって、これらの最大値を用いて、クラスタ間のSimilarityは、
Similarity=5/7
となる。
【0089】
ID割当部14は、複数の個人ウェブサイトに対して、クラスタ毎に異なり、かつ、クラスタ内で同一の管理者ID(OnID)を割り当て、収集履歴管理テーブルを更新する。
【0090】
アプリケーション部15は、入力部40を介して利用者からの指示入力を受け付け、サイト管理DB22に蓄積された情報を出力部50へ出力して利用者に提供する。具体的には、アプリケーション部15は、収集履歴管理テーブル及びサイト間リレーションテーブルに基づいて、個人ウェブサイト間のハイパーリンク、又はクラスタ間のハイパーリンク、さらにはその強さを可視化して出力する。これにより、管理者であるオンラインの個人のネットワークが可視化される。
【0091】
次に、OnIDを割り当てる処理の手順を詳述する。
図8は、本実施形態に係る制御部10における処理を示すフローチャートである。
なお、処理対象とする範囲の個人ウェブサイトの収集は終了し、サイト管理DB22に記憶されているものとする。ただし、収集履歴管理テーブルのOnIDは空欄である。
【0092】
ステップS1において、制御部10は、サイト管理DB22からG(V,E)のデータを取得する。
【0093】
ステップS2において、制御部10(メトリック算出部12)は、ステップS1で取得したG(V,E)の中から、入次数がAD_Deg_{in}以上で、かつ出次数がAD_Deg_{out}以下のノード及び接するリンクを除去する。
【0094】
ここで、広告サイト等、不特定の相手に自身がリンク先となるハイパーリンクを多数発生させるが、逆向きのハイパーリンクはほとんど発生しないサイトを除去するために、例えば、「AD_Deg_{in}=1000」、「AD_Deg_{out}=5」といった値が用いられる。このとき、リンク元をクラスB又はクラスCに限定してもよい。
【0095】
また、詩や歌詞等を公開しているサイトは、不特定の相手のクラスAの個人ウェブサイトから多数の参照を受けるため、例えば、「AD_Deg_{in}=500」、「AD_Deg_{out}=10」といった値が用いられる。このとき、リンク元をクラスAに限定してもよい。
【0096】
ステップS3において、制御部10(メトリック算出部12)は、ステップS1で取得したG(V,E)の中から、出次数がCELEB_Deg_{out}以上のノード及び接するリンクを除去する。また、入次数がCELEB_Deg_{in}以下の条件を付加してもよい。
【0097】
ここで、有名人の個人ウェブサイトは、特にクラスB又はクラスCの個人ウェブサイトに不特定の相手から多数のコメントを受けるため、自身がリンク元となるハイパーリンクが多数発生する。そこで、例えば、「CELEB_Deg_{out}=10000」、「CELEB_Deg_{in}=100」といった値が用いられる。このとき、リンク元をクラスB又はクラスCに限定してもよい。
【0098】
ステップS4において、制御部10(メトリック算出部12)は、ステップS1で取得したG(V,E)の中から、指定した期間(例えば、過去1年間)でのハイパーリンクの強さがStrength以下のリンクを除去する。このStrengthは、リンク元のクラス毎に予め設定される。
【0099】
ステップS5において、制御部10(メトリック算出部12)は、G(V,E)内の全てのノードのペアについて、Similarityを算出する。
【0100】
ステップS6において、制御部10(アカウントクラスタ生成部13a)は、個人ウェブサイトのURLから識別されるアカウントID(ACID)が共通のノードがある場合、これらのノードを含む新たなクラスタを生成する。このとき、ノードが既にクラスタに属している場合、制御部10(アカウントクラスタ生成部13a)は、このクラスタに属している全てのノードを含む新たなクラスタを生成する。
【0101】
ステップS7において、制御部10(種別クラスタ生成部13b)は、クラスAからクラスBへのハイパーリンクがある場合、このハイパーリンクの両端のノードを含む新たなクラスタを生成する。このとき、ノードが既にクラスタに属している場合、制御部10(種別クラスタ生成部13b)は、このクラスタに属している全てのノードを含む新たなクラスタを生成する。
【0102】
ステップS8において、制御部10(メトリッククラスタ生成部13c)は、全てのノード及びクラスタのペアの中で最もSimilarityが高いペアを結合し、新たなクラスタを生成する。
【0103】
ステップS9において、制御部10(メトリッククラスタ生成部13c)は、全てのノード及びクラスタのペアのSimilarityが閾値Th未満か否かを判定する。この判定がYESの場合、処理はステップS10に移り、判定がNOの場合、処理はステップS8に戻ってクラスタの生成が繰り返される。
【0104】
ステップS10において、制御部10(ID割当部14)は、各ノード及びクラスタに対して、それぞれに固有のOnIDを割り当てる。
【0105】
なお、上記のTh、AD_Deg_{in}、AD_Deg_{out}、CELEB_Deg_{out}、CELEB_Deg_{in}、期間、Strengthは、入力部40を介して利用者から予め受け付ける。
【0106】
図9〜
図13は、本実施形態に係るOnIDの割当処理の手順を示す図である。
図9のように、7つの個人ウェブサイト(ノード)がハイパーリンクによってリンクされているものとする。
V={v
1,v
2,v
3,v
4,v
5,v
6,v
7}
ただし、v
1,v
7:クラスA、v
2,v
6:クラスB、v
3,v
4,v
5:クラスC
E={(v
1,v
2),(v
2,v
3),(v
2,v
4),(v
2,v
5),(v
3,v
1),(v
3,v
4),(v
4,v
1),(v
4,v
5),(v
5,v
1),(v
6,v
1),(v
6,v
7),(v
7,v
6)}
【0107】
このとき、各ノードの組み合わせ21通りのSimilarityは、表のように、「0/7」から「5/7」の範囲で算出される。
以下、クラスタ生成時の閾値は、「Th=5/7」であるとする。
【0108】
まず、
図10のように、クラスAからクラスBへのハイパーリンク(v
1,v
2)について、両端のノードを結合したクラスタCL(v
1,v
2)が生成される。
このとき、Similarityの表において、ノードv
1及びv
2が削除されると共に、これらがクラスタCL(v
1,v
2)に結合される。
【0109】
また、CL(v
1,v
2)に関するSimilarityは、v
1,v
2に関するSimilarityの最大値が採用される。例えば、CL(v
1,v
2)とv
3とのペアに対しては、「4/7」となり、CL(v
1,v
2)とv
6とのペアに対しては、「2/7」及び「1/7」の最大値である「2/7」となる。
【0110】
さらに、
図11のように、クラスAからクラスBへのハイパーリンク(v
7,v
6)について、両端のノードを結合したクラスタCL(v
6,v
7)が生成される。
このとき、Similarityの表において、ノードv
6及びv
7が削除されると共に、これらがクラスタCL(v
6,v
7)に結合される。
【0111】
次に、
図11において、Similarityが最も高いペアであるCL(v
1,v
2)とv
4との組み合わせが結合され、
図12のように、新たなクラスタCL(v
1,v
2,v
4)が生成される。
【0112】
この結果、
図12において、Similarityが全て閾値Th=5を下回ったので、クラスタの生成は終了する。
そして、
図13のように、各ノード及びクラスタに対して、4つのOnIDが割り当てられる。
【0113】
以上のように、本実施形態によれば、ID割当装置1は、2つの個人ウェブサイトが共通の隣接する個人ウェブサイトを有する程度を示す指標(メトリック)であるSimilarityに基づいて、複数の個人ウェブサイトからクラスタの集合を生成する。ID割当装置1は、これらのクラスタに対して別々の管理者IDを割り当てることにより、複数の個人ウェブサイトを、管理者であるオンラインの個人毎に分類できる。したがって、ID割当装置1は、普遍的なメトリックを用いることにより、同一管理者の個人ウェブサイトを、より正確に推定できる。
この結果、ID割当装置1は、同一のオンラインの個人が管理する個人ウェブサイトに関する情報を容易に取得できるので、教師や保護者等は、このID割当装置1を子供達(特に中高生)が作成した個人ウェブサイトの監視に役立てることができる。
【0114】
また、ID割当装置1は、隣接する個人ウェブサイトとして自身を含める。同一管理者の個人ウェブサイトは、互いに隣接していることが多いので、隣接している個人ウェブサイトのペアに対して重み付けされることにより、ID割当装置1は、同一管理者の個人ウェブサイトを、より正確に推定できる。
【0115】
また、ID割当装置1は、第1の指標が所定以上に大きい個人ウェブサイトの組み合わせを同一のクラスタに含めるので、所定以上に類似した隣接関係を持つ個人ウェブサイトの管理者が同一であるとして、容易にクラスタを生成できる。
【0116】
また、ID割当装置1は、第1の指標を、クラスタとクラスタ、又はクラスタと個人ウェブサイトの組み合わせに関する第2の指標に統合し、この第2の指標に基づいて、これらの組み合わせを結合したクラスタを生成できる。したがって、ID割当装置1は、第1の指標を基にして、管理者が同一のクラスタを順次生成、拡大させることにより、OnIDを割り当てることができる。
さらに、ID割当装置1は、クラスタが生成された際に、このクラスタとの組み合わせに関する第2の指標を、クラスタに属する個人ウェブサイトとの組み合わせに関する指標の最大値として容易に求めることができる。
【0117】
また、ID割当装置1は、予め設定されている所定の入出力の関係にある所定クラスの個人ウェブサイトの組み合わせを結合してクラスタを生成する。したがって、ID割当装置1は、事例に基づく所定の条件を加味して、より正確にOnIDを割り当てることができる。
【0118】
また、ID割当装置1は、サービスプロバイダのアカウントが同一の個人ウェブサイトを結合してクラスタを生成するので、より正確にOnIDを割り当てることができる。
【0119】
また、ID割当装置1は、ハイパーリンクの入次数及び出次数が所定の条件によって、特定の種類の個人ウェブサイト及び隣接するハイパーリンクを除外してSimilarityを算出する。したがって、ID割当装置1は、OnIDの割り当て対象外であるサイトをノイズとして除去できるので、より正確にOnIDを割り当てることができる。
さらに、ID割当装置1は、サイトのクラスに基づいてOnIDの割り当て対象外であるサイトをノイズとして、より確実に除去できる。
【0120】
また、ID割当装置1は、所定の期間以外に発生したハイパーリンクを除いてSimilarityを算出するので、最近の情報、又は特定の期間等に限定して精度を向上させると共に、処理負荷を低減できる。
【0121】
また、ID割当装置1は、所定の期間に同一の個人ウェブサイト間で発生したハイパーリンクの強さが所定値Strengthに満たない場合、これらのハイパーリンクを除いてSimilarityを算出する。したがって、ID割当装置1は、所定以上の強さで結び付いているハイパーリンクを対象としてノイズを除去するので、より確実に管理者の同一を判定できる。
さらに、ID割当装置1は、リンク元の種別毎にハイパーリンクの強さの閾値であるStrengthを設定するので、利用形態によって異なるハイパーリンクの発生傾向に対応して、より確実にノイズを除去できる。
【0122】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0123】
前述の実施形態では、ノードv
i及びv
jに関するメトリックとして、2種類のSimilarityのいずれかを用いることとしたが、メトリックは、これらには限られない。例えば、Jaccard係数を採用して、
(3)Similarity=|Γ(v
i)∩Γ(v
j)|/|Γ(v
i)∪Γ(v
j)|
又は、
(4)Similarity=|Γ
+(v
i)∩Γ
+(v
j)|/|Γ
+(v
i)∪Γ
+(v
j)|
としてもよい。このように、分母をv
i又はv
jに隣接したノードの総数とすることにより、ID割当装置1は、収集したノードの数|V|に依存しない閾値を設定することができる。