【国等の委託研究の成果に係る記載事項】(出願人による申告)平成23年度、独立行政法人情報通信研究機構「高度通信・放送研究開発委託研究/インターネット上の違法・有害情報の検出技術の研究」、産業技術力強化法第19条の適用を受ける特許出願
(58)【調査した分野】(Int.Cl.,DB名)
前記特定コミュニティへの参加度は、利用者のコミュニティへの参加時間の累積値に基づいて決定されたスコアであることを特徴とする請求項1に記載のリンク生成装置。
前記特定コミュニティへの特化度は、一般コミュニティへの投稿記事に含まれるキーワードと特定コミュニティへの投稿記事に含まれるキーワードとを比較した場合に、特定コミュニティに偏って出現するキーワードに対して高いスコアが付けられていることを特徴とする請求項1または2に記載のリンク生成装置。
前記リンク要否判定部は、前記参加度が予め決められた参加度以下である場合に、対象キーワードの特定コミュニティへの特化度が予め決められた特化度以上の場合、対象キーワードに対して特定のWebコンテンツへのハイパーリンクを挿入することを決定することを特徴とする請求項1から3のいずれか一項に記載のリンク生成装置。
前記リンク要否記憶部は、利用者毎に、キーワードと、キーワードがクリック済みか否かを示す情報と、リンクを張らないキーワードか否かを示す情報とが関連付けられて記憶されていることを特徴とする請求項5に記載のリンク生成装置。
前記トライグラム連結決定部は、隣接単語数が4以上の場合に、3単語毎に三つの単語の連結規則を適用することにより、4単語以上が連結したキーワードを抽出することを特徴とする請求項8に記載のリンク生成装置。
二単語以上が隣接する場合に、該隣接する単語同士が連結する度合いを示す連結度を統計的に算出し、該算出した連結度に基づいて、単語を連結する連結規則を生成し、該生成した連結規則を前記規則記憶部に記憶させる規則生成部を備えることを特徴とする請求項8から10のいずれか一項に記載のリンク生成装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1の方法では、ハイパーリンクは、読み手にとっては常識的なキーワードに対するリンク表示は目障りである。また、不要なリンクはタッチパネルでの誤操作を誘発する(ハイパーリンクが隣接する場合は指によるタップでは誤る可能性が高い)など、利用者の使い勝手が悪くなってしまう問題がある。逆に特定のコミュニティ(掲示板など)に参加して間もない新人の場合は、未知の単語に辞書サイトや関連サイトへのハイパーリンクが付与されていることは有用である。ただし、この場合でも、既に覚えたキーワードに対するリンク表示は同様に目障りとなる。
【0006】
そこで本発明は、上記問題に鑑みてなされたものであり、利用者の使い勝手を向上させることを可能とするリンク生成装置、リンク生成方法及びリンク生成プログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
(1)本発明は前記事情に鑑みなされたもので、本発明の一態様は、コンテンツに含まれる文からキーワードを抽出するキーワード抽出部と、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する取得部と、前記取得部が取得した前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定部と、を備えることを特徴とするリンク生成装置である。
【0008】
(2)上記に記載のリンク生成装置において、本発明の一態様は、前記特定コミュニティへの参加度は、利用者のコミュニティへの参加時間の累積値に基づいて決定されたスコアであることを特徴とする。
【0009】
(3)上記に記載のリンク生成装置において、本発明の一態様は、前記特定コミュニティへの特化度は、一般コミュニティへの投稿記事に含まれるキーワードと特定コミュニティへの投稿記事に含まれるキーワードとを比較した場合に、特定コミュニティに偏って出現するキーワードに対して高いスコアが付けられていることを特徴とする。
【0010】
(4)上記に記載のリンク生成装置において、本発明の一態様は、前記リンク要否判定部は、前記参加度が予め決められた参加度以下である場合に、対象キーワードの特定コミュニティへの特化度が予め決められた特化度以上の場合、対象キーワードに対して特定のWebコンテンツへのハイパーリンクを挿入することを特徴とする。
【0011】
(5)上記に記載のリンク生成装置において、本発明の一態様は、前記リンク要否判定部は、リンク要否記憶部を参照してリンク挿入の要否を判定することを特徴とする。
【0012】
(6)上記に記載のリンク生成装置において、本発明の一態様は、前記リンク要否記憶部は、利用者の識別情報と、キーワードがクリック済みか否かを示す情報と、リンクを張らない単語か否かを示す情報とが関連付けられて記憶されていることを特徴とする。
【0013】
(7)上記に記載のリンク生成装置において、本発明の一態様は、前記キーワード抽出部は、特定コミュニティ内に投稿されたコンテンツに含まれる文から単語を抽出する単語抽出部と、前記単語抽出部が抽出した単語の中から、隣接している単語を抽出する隣接単語抽出部と、前記隣接単語抽出部が抽出した隣接している単語を連結してキーワードを生成する連結語生成部と、を備えることを特徴とする。
【0014】
(8)上記に記載のリンク生成装置において、本発明の一態様は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている規則記憶部を備え、前記連結語生成部は、前記キーワードが二つ隣接している場合、前記規則記憶部に記憶されている連結規則に基づいて、2単語を連結または連結せずにキーワードを生成するバイグラム連結決定部と、前記キーワードが三つ隣接している場合、前記規則記憶部に記憶されている連結規則に基づいて、3単語を連結または2単語を連結または連結せずにキーワードを生成するトライグラム決定連結部と、を備えることを特徴とする。
【0015】
(9)上記に記載のリンク生成装置において、本発明の一態様は、トライグラム連結決定部は、隣接単語数が4以上の場合に、3単語毎に三つの単語の連結規則を適用することにより、4単語以上が連結したキーワードを抽出することを特徴とする。
【0016】
(10)上記に記載のリンク生成装置において、本発明の一態様は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている規則記憶部を備え、前記取得部は、前記規則記憶部から前記キーワードの特定コミュニティへの特化度を読み出すことにより前記特化度を取得することを特徴とする。
【0017】
(11)上記に記載のリンク生成装置において、本発明の一態様は、二単語以上が隣接する場合に、該隣接する単語同士が連結する度合いを示す連結度を統計的に算出し、該算出した連結度に基づいて、単語を連結する連結規則を生成し、該生成した連結規則を前記規則記憶部に記憶させる規則生成部を備えることを特徴とする。
【0018】
(12)上記に記載のリンク生成装置において、本発明の一態様は、前記規則生成部は、二単語が連結する場合と連結しない場合の連結度を算出し、該算出した連結度に基づき、二単語を連結する連結規則を生成するバイグラム連結規則生成部と、三単語が連結する場合と三単語のうちの隣接する二単語が連結する場合と三単語のいずれも連結しない場合の連結度を算出し、該算出した連結度に基づき、三単語を連結する連結規則を生成するトライグラム連結規則生成部と、を備えることを特徴とする。
【0019】
(13)上記に記載のリンク生成装置において、本発明の一態様は、前記連結度は、赤池情報量基準であることを特徴とする。
【0020】
(14)上記に記載のリンク生成装置において、本発明の一態様は、前記単語抽出部は、前記文の正規化を行った後に前記単語を抽出することを特徴とする。
【0021】
(15)上記に記載のリンク生成装置において、本発明の一態様は、前記利用者の識別情報と、該利用者の特定コミュニティへの参加度とが関連付けられて記憶されている利用者記憶部を備え、前記取得部は、前記利用者記憶部から前記利用者の特定コミュニティへの参加度を読み出すことにより前記参加度を取得することを特徴とする。
【0022】
(16)本発明の一態様は、リンク生成方法であって、キーワード抽出部が、コンテンツに含まれる文からキーワードを抽出する手順と、取得部が、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する手順と、リンク要否判定部が、前記取得部が取得した前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定する手順と、を有することを特徴とするリンク生成方法である。
【0023】
(17)本発明の一態様は、コンピュータに、コンテンツに含まれる文からキーワードを抽出するキーワード抽出ステップと、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する取得ステップと、前記取得ステップにより取得された前記参加度及び前記特化度に基づいて、キーワードに対してハイパーリンクを挿入するか否かを判定するリンク要否判定ステップと、を実行させるためのリンク生成プログラムである。
【発明の効果】
【0024】
本発明によれば、利用者の使い勝手を向上させることができる。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態について、図面を参照して詳細に説明する。まず、本実施形態のリンク生成装置1の概要について説明する。本実施形態のリンク生成装置1は、利用者のコミュニティへの参加経過時間やコミュニティ内に流通している文書の参照頻度、およびキーワードのコミュニティ特化度合いに基づき、キーワードに対するハイパーリンクの張りと外しを切り替える。
【0027】
図1は、本実施形態におけるリンク生成装置1の概略ブロック図である。リンク生成装置1は、入力部10と、記憶部20と、表示部30と、制御部100とを備える。記憶部20は、第1の第1の文章記憶部21と、第2の文章記憶部22と、規則記憶部23と、利用者記憶部24と、リンク要否記憶部25とを備える。
第1の第1の文章記憶部21には、予め一般の文書集合D1が記憶されている。第2の文章記憶部22には、予め特定のコミュニティの文書集合D2が記憶されている。
【0028】
規則記憶部23は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とが関連付けられて記憶されている。
利用者記憶部24には、利用者の識別情報と、該利用者の特定コミュニティへの参加度とが関連付けられて記憶されている。ここで、特定コミュニティへの参加度は、利用者のコミュニティへの参加時間の累積値に基づいて決定されたスコアである。そして、特定コミュニティへの特化度は、一般コミュニティへの投稿記事に含まれるキーワードと特定コミュニティへの投稿記事に含まれるキーワードとを比較した場合に、特定コミュニティに偏って出現するキーワードに対して高いスコアが付けられている。
リンク要否記憶部25には、利用者毎に、キーワード、クリック済みか否かを示す情報及びリンクを張らないキーワードか否かを示す情報が関連付けられて記憶されている。
【0029】
入力部10は、第1の文章記憶部21に記憶されている文章集合D1に追加する文章を示す文章情報を受け付け、受け付けた文章情報を制御部100に出力する。
また、入力部10は、ウェブページの入力を受け付け、受け付けたウェブページを制御部100に出力する。
【0030】
制御部100は、入力部10から入力された文章情報を第1の文章記憶部21に記憶されている文章集合D1に追記する。
また、制御部100は、第1の文章記憶部21に記憶されている文章集合D1を読み出し、読み出した文章集合D1に基づいて、単語の連結規則を生成する。そして、制御部100は、生成した単語の連結規則を規則記憶部23に記憶させる。これにより、規則記憶部23には、二単語以上の単語が隣接する場合における該単語の連結規則が、予め記憶されていることになる。
【0031】
また、制御部100は、規則記憶部23に記憶されている連結規則を読み出し、読み出した連結規則に基づいて、入力部10から入力されたウェブページに含まれる文から、その文に含まれる重要な連結語を生成し、生成した連結語に対してリンクを埋め込む。そして、制御部100は、リンクを埋め込んだウェブページを表示部30に表示させる。これにより、リンク生成装置1は、ユーザがウェブページを入力するだけで、ウェブページに含まれるキーワードに対して辞書サイトへのリンクが付されたウェブページを表示するので、ユーザは、そのリンクを開くだけで、そのキーワードの意味を知ることができる。
【0032】
図2は、本実施形態における制御部100の概略ブロック図である。制御部100は、キーワード抽出部104と、規則生成部110と、取得部135と、リンク要否判定部136と、リンク挿入部140とを備える。ここで、キーワード抽出部104は、単語抽出部101と、重要語抽出部102と、隣接単語抽出部103と、連結語生成部130とを備える。
【0033】
続いて、各部の処理の概要について説明する。
キーワード抽出部104は、コンテンツに含まれる文からキーワードを抽出する。
リンク生成装置1が連結規則を生成する場合、単語抽出部101は、第1の文章記憶部21から文章集合Dを読み出し、文章集合Dに含まれる文から単語を抽出する。そして、単語抽出部101は、抽出した単語を隣接単語抽出部103へ出力する。
また、リンク生成装置1がウェブページに含まれるキーワードにハイパーリンクを埋め込む場合、単語抽出部101は、特定コミュニティ内に投稿されたコンテンツに含まれる文から単語を抽出し、抽出した単語を重要語抽出部102へ出力する。
なお、単語抽出部101は、文の正規化を行った後に単語を抽出してもよい。
【0034】
重要語抽出部102は、単語抽出部101が抽出した単語の中からハイパーリンクの埋め込みの候補であるキーワードを抽出し、抽出したキーワードを隣接単語抽出部103へ出力する。
【0035】
リンク生成装置1が連結規則を生成する場合、隣接単語抽出部103は、単語抽出部101が抽出した単語のうち隣接している単語を抽出し、抽出した単語を規則生成部110に出力する。
リンク生成装置1がウェブページに含まれるキーワードにハイパーリンクを埋め込む、隣接単語抽出部103は、重要語抽出部102が抽出したキーワードのうち隣接している単語を抽出し、抽出した単語を連結語生成部130に出力する。
【0036】
規則生成部110は、隣接する単語同士が連結する度合いを示す連結度を統計的に算出し、該算出した連結度に基づいて、単語を連結する連結規則を生成する。ここで、連結度は、例えば、統計モデルの良さを評価するための指標である公知の赤池情報量基準である。また、連結規則は、例えば、キーワードを連結する条件と、該条件に適合する場合に連結語生成部130が行う処理とが関連付けられたものである。
そして、規則生成部110は、生成した連結規則を規則記憶部23に記憶させる。ここで、規則生成部110は、バイグラム連結規則生成部111とトライグラム連結規則生成部112とを備える。
【0037】
バイグラム連結規則生成部111は、二つの単語の連結度を算出し、該算出した連結度に基づき、二単語を連結する連結規則を生成する。
トライグラム連結規則生成部112は、三つの単語の連結度を算出し、該算出した連結度に基づき、三単語を連結する連結規則を生成する。
【0038】
連結語生成部130は、規則記憶部23に記憶されている連結規則に基づいて、キーワードを連結した連結語を生成し、生成した連結語をリンク挿入部140に出力する。ここで、連結語生成部130は、バイグラム連結決定部131と、トライグラム連結決定部132とを備える。
バイグラム連結決定部131は、キーワードが二つ隣接している場合、規則記憶部23に記憶されている連結規則に基づいて、キーワードを連結するか否か決定する。
【0039】
トライグラム連結決定部132は、キーワードが三つ隣接している場合、規則記憶部23に記憶されている連結規則に基づいて、三つ隣接しているキーワードのうち三つのキーワードを連結するか二つのキーワードを連結するかあるいはいずれも連結しないか決定する。
また、トライグラム連結決定部132は、キーワードが四つ以上隣接している場合、四つ以上隣接しているキーワードのうち三つ隣接しているキーワードを抽出する毎に、該抽出したキーワードのうち三つのキーワードを連結するか二つのキーワードを連結するかあるいはいずれも連結しないか決定する。
【0040】
取得部135は、利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度を取得する。具体的には、例えば、取得部135は、利用者の識別情報に対応する利用者の特定コミュニティへの参加度を利用者記憶部24から読み出す。また、例えば、取得部135は、各キーワードの特定コミュニティへの特化度を規則記憶部23から読み出す。そして、取得部135は、取得した利用者の特定コミュニティへの参加度および各キーワードの特定コミュニティへの特化度をリンク要否判定部136へ出力する。
【0041】
リンク要否判定部136は、取得部135が取得した上記参加度及び上記特化度に基づいて、キーワードに対して別ページへのハイパーリンクを挿入するか否かを判定する。具体的には、例えば、リンク要否判定部136は、参加度が予め決められた参加度以下である場合に、対象キーワードの特定コミュニティへの特化度が予め決められた特化度以上の場合、対象キーワードに対して特定のWebコンテンツへのハイパーリンクを挿入することを決定する。ここで、対象キーワードは、キーワードが連結された連結語あるいは連結していないキーワードの総称である。
【0042】
また、リンク要否判定部136は、リンク要否記憶部25を参照してリンク挿入の要否を判定する。具体的には、例えば、リンク要否判定部136は、対象キーワードに対応するクリック済みか否かを示す情報とリンクを張らないキーワードか否かを示す情報とをリンク要否記憶部25から読み出す。リンク要否判定部136は、リンクを張らないキーワードか否かを示す情報がリンクを張らないキーワードである旨を示す場合、その対象キーワードについてリンクを挿入しないと判定する。
また、例えば、リンク要否判定部136は、読み出したクリック済みか否かを示す情報がクリック済みである旨を示す場合、予め決められた時間、その対象キーワードについてリンクを挿入しないと判定する。
そして、リンク要否判定部136は、判定結果をリンク挿入部140へ出力する。
【0043】
リンク挿入部140は、連結語生成部130が生成した連結語または隣接単語抽出部が抽出したキーワードに対して、特定のWebコンテンツへのハイパーリンクを挿入し、挿入後のウェブページを表示部30に表示させる。
【0044】
続いて、リンク生成装置1の処理の概要を説明する。リンク生成装置1は。ハイパーリンクの対象候補となるキーワードを抽出し、次に、その単語に対してハイパーリンクを張る。このとき、キーワードの抽出方式として、形態素解析器の出力結果に含まれる固有名詞や名詞をキーワードとする単純な方式では、ハイパーリンクを埋め込む上で最適な形でキーワードが得られる保証がないという課題がある。
【0045】
例えば、あるコミュニティに流通している文書に「連結度計算機能」というコミュニティ特有のキーワードがある場合に、この文書を形態素解析した場合、「連結」「度」「計算」「機能」といった形態素で抽出されてしまう。そのため、それらが結合可能な1つのキーワードであることを認識する必要がある。1つはこのようなキーワードをあらかじめ形態素解析辞書に手作業で登録しておく方法があるが、常に新たなキーワードを登録する必要があるなどの管理コストがかかってしまう。そこで、本実施形態におけるリンク生成装置1は、大量の過去の事例を用いて、結合されたキーワードの出現頻度などを用いた統計的な基準に基づく方式で自動的に結合したキーワードを生成する方式を採用する。
【0046】
図3は、連結規則が構築される処理の流れの一例を示すフローチャートである。
まず、ステップS1において、単語抽出部101は、文章集合Dに含まれる文章から単語を抽出する。文書集合Dは、一般の文書集合(例えば、一般ニュースのような誰もが閲覧可能な文書集合)D1と、特定のコミュニティの文書集合(例えば、特定ユーザが参加するコミュニティに属する文書集合)D2とを含む。
【0047】
具体的には、例えば、単語抽出部101は、文書集合Dに対し、形態素解析器を使うことで単語を抽出する。また、単語抽出部101は、形態素解析器の単語の抽出精度を向上させるために、文章の正規化 (例えば,小文字の英文字を大文字に置き換えること又は表記の揺れを修正すること)を行い、正規化後の文章から単語を抽出してもよい。また、単語抽出部101は、単語を抽出した後に、抽出した単語を正規化してもよい。
【0048】
次に、ステップS2において、隣接単語抽出部103は、単語抽出部101が抽出した単語のうち、隣接している単語を抽出する。この際、隣接単語抽出部103は、計算処理の時間を削減するために、一般名詞や固有名詞などの特定の品詞に該当する単語に絞り込んだ上で、隣接する単語を抽出してもよい。これにより、隣接単語抽出部103は、単語集合w={W1,W2,W3,…}を取得する。
【0049】
次に、ステップS2において、規則生成部110は、単語の連結を行うために、連結度を統計的に算出する。具体的には、例えば、規則生成部110は、赤池情報量基準(AIC)に基づいて、連結度を算出する。なお、規則生成部110は、他の情報量基準(たとえばベイズ情報量基準(BIC))などの尺度のもとで連結度を算出してもよい。
【0050】
具体的には、例えば、規則生成部110は、単語W={w1,w2,w3,…}のうち、任意の二つの単語w
iとw
jを抽出する。次に、規則生成部110は、文書集合Dにおける各文に対し、文書の先頭から1つ目と二つ目の単語を抽出する。隣接単語抽出部103が品詞の絞り込みを行っている場合、規則生成部110は、これらの単語がいずれも絞り込みの対象の品詞である場合に、これらの単語を抽出する。規則生成部110は、これらの単語をt
1とt
2とする。単語w
iとw
j、および単語t
1とt
2を使い、単語の連結規則を生成する。
【0051】
ここで、バイグラム連結規則生成部111による2単語を連結する規則である2単語連結規則の生成について説明する。バイグラム連結規則生成部111は、t
1、t
2、w
i及びw
jを用いて、以下の四つの変数(n
11、n
12、n
21、n
22)を算出する。
変数n
11は、t
1がw
iであり、t
2がw
jである、組み合わせの数である。
変数n
12は、t
1がw
iであり、t
2がw
j以外の単語である、組み合わせの数である。
変数n
21は、t
1がw
i以外の単語であり、t
2がw
jである、組み合わせの数である。
変数n
22は、t
1がw
i以外の単語であり、t
2がw
j以外の単語である、組み合わせの数である。
変数zは、全組み合わせの数(n
11+ n
12 + n
21 + n
22)である。
【0052】
これらの値を用いて、
図4に示す2x4分割表を作成する。
図4は、組み合わせ{w
i,w
j}に対する2x2分割表である。ここで、記号¬はその次に続く変数以外を示す記号であり、例えばt
1=¬w
iは、t
1がw
i以外であることを示している。同図において、上述したt
1とt
2の値の組み合わせ毎に、その組み合わせの数を示す変数(n
11、n
12、n
21又はn
22)が決められていることが示されている。例えば、1行1列目の変数n
11は、t
1がw
iであり、t
2がw
jである組み合わせの数であることを示している。
【0053】
バイグラム連結規則生成部111は、
図4における2x2分割表における各種の値を用いて、以下の計算式に従って、以下の二つの情報量基準を生成する。
まず、一つ目の情報量基準は、従属モデル(DM)の情報量基準(以下、従属情報量基準と称す)AIC(DM)である。従属情報量基準AIC(DM)は、単語w
1と単語w
2の組み合わせが特定のトピックxに関係ありの度合いを示す。但し、この従属情報量基準AIC(DM)は、値が小さいほど、特定のトピックxに関係ありの度合いが大きい。バイグラム連結規則生成部111は、従属情報量基準AIC(DM)を、以下の式(1)に従って算出する。
【0054】
MLL(DM)=n
11log n
11+n
12log n
12+n
21log n
21+n
22log n
22−Zlog Z
AIC(DM)=−2×MLL(M2)+2×3 (1)
【0055】
ここで、従属モデル(DM)は、単語w
iと単語w
jは連結するモデルである。この場合、単語w
iと単語w
jは従属関係にある。
次に、二つ目の情報量基準は、独立モデル(IM)の情報量基準(以下、独立情報量基準と称す)AIC(IM)である独立情報量基準と称す)AIC(IM)は、単語w
1も、単語w
2も、単語w
1と単語w
2の組み合わせも、全てが特定のトピックxに関係なしである度合いを示す。但し、この独立情報量基準AIC(IM)は、値が小さいほど、特定のトピックxに関係なしの度合いが大きい。バイグラム連結規則生成部111は、独立情報量基準AIC(IM)を、以下の式(2)に従って、算出する。
【0056】
MLL(IM)=(n
11+n
12)log (n
11+n
12)+(n
11+n
21)log(n
11+n
21)+(n
21+n
22)log(n
21+n
22)+(n
12 +n
22)log (n
12+n
22)−2×Zlog Z
AIC(IM)=−2×MLL(M1)+2×2 (2)
【0057】
ここで、独立モデル(IM)は、単語w
iと単語w
jは連結しないモデルである。この場合、単語w
iと単語w
jは従属関係にない。ここで、従属情報量基準AIC(DM)と、独立情報量基準AIC(IM)を総称して、二つの単語の連結度という。
なお、上記の従属情報量基準AIC(DM)の式(1)の「…+2×3」や独立情報量基準AIC(IM)の式(2)の「…+2×2」をそれぞれ、「…+2×log(3)」や「…+2×log(2)」とすることで、BIC情報量基準のもとで、従属モデルの情報量基準BIC(IM)及び独立モデルの情報量基準BIC(DM)を求める計算式となる。
【0058】
バイグラム連結規則生成部111は、従属情報量基準AIC(DM)及び独立情報量基準AIC(IM)の二つの値を算出した後、以下の処理により、条件と処理の二つの要素を含む連結規則(以下、ルールともいう)を取得する。
バイグラム連結規則生成部111は、AIC(DM)<AIC(IM)が成り立つ場合すなわち従属情報量基準AIC(DM)が独立従属情報量基準AIC(IM)より小さい場合、以下のルールを生成する。そのルールとは、t1がw
iでありt2がw
jである場合、単語w
iと単語w
jを連結するというものである。ここで、条件は、「t1がw
iでありt2がw
jである場合」であり、処理は、「単語w
iと単語w
jを連結する」ことである。
【0059】
バイグラム連結規則生成部111は、単語連結用ルールを生成するための処理を終えたのちに、文書の先頭から二つ目と三つ目の単語を抽出し、同様の処理を行う。以降、バイグラム連結規則生成部111は、単語を1つずつすらしながら、文の終わりに到達するまで繰り返す。バイグラム連結規則生成部111は、文の終わりまで到達すると、文書集合Dにおける次に文書を読み込み、同じ処理を行う。これらの処理は、文書集合Dにおける全文を処理し終えるまで繰り返す。
【0060】
上記の処理は単語を二つ与えられたときの2単語連結規則の生成処理であるが、トライグラム連結規則生成部112は、この他に隣接する単語を三つ与えられたときに、3単語連結規則を生成する。具体的には、以下の通りである。
【0061】
トライグラム連結規則生成部112は、単語W={w
1,w
2,w
3,…}のうち、任意の三つの単語w
i、w
j及びw
kを抽出する。次に,トライグラム連結規則生成部112は、文書集合Dにおける各文に対し、文書の先頭から1つ目、二つ目、三つ目の単語を抽出する。トライグラム連結規則生成部112は、隣接単語抽出機能で品詞の絞り込みを行っている場合は,三つの単語がすべて隣接しており、かつ絞り込みの対象となる品詞であった場合は,それらの単語を抽出する。これらの単語をt
1、t
2及びt
3とする。トライグラム連結規則生成部112は、単語t
1、t
2及びt
3と単語w
i、w
j及びw
kを用いて、以下の8つの変数を算出する。
【0062】
変数n
11は、t
1がw
iであり、t
2がw
jであり、t
3がw
kである、組み合わせの数である。
変数n
12は、t
1がw
iであり、t
2がw
j以外の単語であり、t
3がw
kである、組み合わせの数である。
変数n
13は、t
1がw
iであり、t
2がw
jであり、t
3がw
k以外の単語である、組み合わせの数である。
変数n
14は、t
1がw
iであり、t
2がw
j以外の単語であり、t
3がw
k以外の単語である、組み合わせの数である。
変数n
21は、t
1がw
i以外の単語であり、t
2がw
jであり、t
3がw
kである、組み合わせの数である。n
22は、t
1がw
i以外の単語であり、t
2がw
j以外の単語であり、t
3がw
kである、組み合わせの数である。
変数n
23は、t
1がw
i以外の単語であり、t
2がw
jであり、t
3がw
k以外の単語である、組み合わせの数である。
変数n
24は、t
1がw
i以外の単語であり、t
2がw
j以外の単語であり、t
3がw
k以外の単語である、組み合わせの数である。
変数zは、全組み合わせの数:(n
11+n
12+n
13+n
14+n
21+n
22+n
23+n
24)である。
【0063】
これらの値を用いて、
図5に示す2x4分割表が作成する。
図5は、組み合わせ{w
i,w
j,w
k}に対する2x4分割表である。ここで、記号∧は、「かつ」を意味しており、例えば、(t
2=w
j)∧(t
3=w
k)は、t
2がw
jかつt
3=w
kであることを示している。同図の2x4分割表において、上述したt
1とt
2とt
3の値の組み合わせ毎に、その組み合わせの数を示す変数(n
11、n
12、n
13、n
14、n
21、n
22、n
23又はn
24)が決められていることが示されている。例えば、変数n
11は、t
1がw
iでt
2=w
jかつt
3=w
kの場合の組み合わせの数である。
【0064】
トライグラム連結規則生成部112は、2x4分割表における各種の値を用いて、以下の計算式に従って四つのモデルを生成する。まず、トライグラム連結規則生成部112は、第1のモデルM1の情報量基準(以下、第1の情報量基準と称す)AIC(M1)を以下の式に従って算出する。ここで、第1のモデルM1は、単語w
iと単語w
jは連結するが、単語w
jと単語w
kは連結しないモデルである。この場合、単語w
iと単語w
jは従属関係にある。
【0065】
MLL(M1)=(n
11+n
12)log(n
11+n
12)+(n
13+n
14)log(n
13+n
14)+(n
21+n
22)log(n
21+n
22)+(n
23+n
24)log(n
23+n
24)+(n
11+n
13+n
21+n
23)log(n
11+n
13+n
21+n
23)+(n
12+n
14+n
22+n
24)log(n
12+n
14+n
21+n
23)−2×ZlogZ
AIC(M1)=−2×MLL(M1)+2×4 (3)
【0066】
次に、トライグラム連結規則生成部112は、第2のモデルM2の情報量基準(以下、第2の情報量基準と称す)AIC(M2)を以下の式に従って算出する。ここで、第2のモデルM2は、単語w
jと単語w
kは連結するが、単語w
iと単語w
jは連結しないモデルである。この場合、単語w
jと単語w
kは従属関係にある。
【0067】
MLL(M2)=(n
11+n
12+n
13+n
14)log(n
11+n
12+n
13+n
14)+(n
21+n
22+n
23+n
24)log(n
21+n
22+n
23+n
24)+(n
11+n
12)log(n
11+n
12)+(n
12+n
22)log(n
12+n
22)+(n
13+n
23)log(n
13+n
13)+(n
14+n
24)log(n
14+n
24)−2×Zlog Z
AIC(M2)=−2×MLL(M2)+2×4 (4)
【0068】
次に、トライグラム連結規則生成部112は、第3のモデルM3の情報量基準(以下、第3の情報量基準と称す)AIC(M3)を以下の式に従って算出する。ここで、第3のモデルM3は、単語w
iと単語w
jと単語w
kは連結するモデルである。この場合、単語w
iと単語w
jと単語w
kは従属関係にある。
【0069】
MLL(M3)=n
11logn
11+n
12logn
12+n
13logn
13+n
14logn
14+n
21logn
21+n
22logn
22+n
23log n
23+n
24logn
24−ZlogZ
AIC(M3)=−2×MLL(M3)+2×7 (5)
【0070】
次に、トライグラム連結規則生成部112は、第0のモデルM0の情報量基準(以下、第4の情報量基準と称す)AIC(M0)を以下の式に従って算出する。ここで、第4のモデルM0は、単語w
iと単語w
jと単語w
kを連結しないモデルである。この場合、単語w
iと単語w
jと単語w
kはいずれも独立事象にある。
【0071】
MLL(M0)=(n
11+n
12+n
13+n
14)log(n
11+n
12+n
13+n
14)+(n
11+n
12+n
21+n
22)log(n
11+n
12+n
21+n
22)+(n
11+n
13+n
21+n
23)log(n
11+n
13+n
21+n
23)+(n
21+n
22+n
23+n
24)log(n
21+n
22+n
23+n
24)+(n
13+n
14+n
23+n
24)log(n
13+n
14+n
23+n
24)+ (n
12+n
14+n
22+n
24)log(n
12+n
14+n
22+n
24)−3×ZlogZ
AIC(M0)=−2×MLL(M0)+2×3 (6)
【0072】
次に、トライグラム連結規則生成部112は、以下の処理により、ルールを取得する。そのルールは条件と処理の2部から構成されている。トライグラム連結規則生成部112は、四つの情報量基準のうちで第1の情報量基準AIC(M1)が最も小さい場合、以下のルールを形成する。そのルールとは、「t1がw
iであり,t2がw
jであり,t3がw
kである」という条件で、「単語w
iと単語w
jを連結する」という処理を行うというものである。
【0073】
次に、トライグラム連結規則生成部112は、四つの情報量基準のうちで第2の情報量基準AIC(M2)が最も小さい場合、以下のルールを形成する。そのルールとは、「t1がw
iであり,t2がw
jであり,t3がw
kである」という条件で、「単語w
jと単語w
kを連結する」という処理を行うというものである。
【0074】
次に、トライグラム連結規則生成部112は、四つの情報量基準のうちで第3の情報量基準AIC(M3)が最も小さい場合、以下のルールを形成する。そのルールとは、「t1がw
iであり,t2がw
jであり,t3がw
kである」という条件で、「単語w
iと単語w
jと単語w
kを連結する」という処理を行うというものである。
【0075】
次に、トライグラム連結規則生成部112は、四つの情報量基準のうちで第0の情報量基準AIC(M0)が最も小さい場合、ルールを生成せずに終了する。ここで、第1の情報量基準AIC(M1)と第2の情報量基準AIC(M2)と第3の情報量基準AIC(M3)と第0の情報量基準AIC(M0)とを総称して、三つの単語の連結度という。
【0076】
トライグラム連結規則生成部112は、上記の処理を終えたあと、文書の先頭から二つ目、三つ目、四つ目の単語を抽出し、同様の処理を行う。以降、トライグラム連結規則生成部112は、単語を1つずつすらしながら、文の終わりに到達するまでこの処理を繰り返す。トライグラム連結規則生成部112は、文の終わりまで到達すると、次に文書を読み込み、上記と同じ処理を行う。トライグラム連結規則生成部112は、これらの処理を、文書集合Dにおける全文を処理し終えるまで繰り返す。
【0077】
ステップS4において、規則生成部110は、ステップS3で得られたルールを規則記憶部23に記憶させる。具体的には、例えば、規則生成部110は、ステップS3で得られた各ルールに対しIDを付与したのちに、そのIDと条件と処理とを関連付けて規則記憶部23に記憶させる。
【0078】
ステップS5において、規則生成部110は、特定コミュニティに特化して出現する単語結合ルールにフラグを付与する。具体的には、規則生成部110は、特定のコミュニティ(例えば、コミュニティA)の文書集合D2から得られた単語結合規則と、一般の文書集合D1(一般)から得られた単語結合規則を比較する。そして、規則生成部110は、特定のコミュティの文書集合D2(コミュニティA)にしか出現しない単語結合規則を抽出する。そして、規則生成部110は、規則記憶部23において、抽出した単語結合規則に特定のコミュティ特化(例えば、コミュニティA特化)のフラグを立てる。これにより、規則生成部110は、キーワードと、該キーワードの連結規則と、該キーワードの特定コミュニティへの特化度とを関連付けられて規則記憶部23に記憶させることができる。以上で、本フローチャートの処理を終了する。
【0079】
図6は、規則記憶部23に記憶されている連結規則の一例である。同図において、IDと条件と処理の組が示されている。例えば、IDが1の場合、条件が、「t
1がw
iであり,t
2がw
jであり,t
3がw
kである」であり、処理が「単語w
iと単語w
jを連結する」であることが示されている。
【0080】
図7は、ウェブページにハイパーリンクを挿入する処理の流れの一例を示すフローチャートである。同図は、
図4で連結規則が規則記憶部23に構築された後の処理の流れである。
まず、ステップS6において、単語抽出部101は、入力されたウェブページから単語を抽出する。ここで、そのウェブページには、単語にハイパーリンクが挿入されていないものとする。単語抽出部101は、例えば、形態素解析器を使って単語を抽出する。このときに単語抽出部101は、形態素解析器の単語の抽出精度を向上させるために、抽出前に文の正規化 (例えば,小文字の英文字を大文字に置き換えること又は表記の揺れを修正すること)を行ってもよい。
【0081】
次に、ステップS7において、重要語抽出部102は、文書の中から、ハイパーリンクを埋め込む候補となるキーワードを抽出する。具体的には、例えば、重要語抽出部102は、特定の品詞(例:名詞一般や固有名詞)に該当する単語のみを選定する。なお、重要語抽出部102は、TF−IDF(Term Frequency−Inverse Document Frequency)などを用いて重要な単語を抽出してもよい。
【0082】
次に、ステップS8において、隣接単語抽出部103は、重要語抽出部102が抽出したキーワードのうち、互いに隣接しているキーワードを抽出し、これらを結合の候補とする。
【0083】
次に、連結語生成部130は、隣接するキーワードのうち、隣接する二つの単語(bi−gram)または三つの単語(tri−gram)が存在した場合に、それらの単語を結合するか否かを判定する。そして、連結語生成部130は、それらの単語を結合すると判定した場合、それらの単語を連結して連結語を生成する。これにより、リンク挿入部140は、適切な単語に対して、ハイパーリンクを挿入ことができる。具体的には、以下の手順に従い、連結語生成部130は、単語を連結する。
【0084】
ステップS9−1において、t
1がw
iでt
2がw
jの場合を例に、バイグラム連結決定部131の処理を説明する。このときに、バイグラム連結決定部131は、規則記憶部23に記憶されているt
1とt
2に関するルールを参照する。その際、条件が「t
1がw
iであり、t
2がw
jである」で、処理が「単語w
iと単語w
jを連結する」というルールが規則記憶部23に記憶されている場合、バイグラム連結決定部131は単語w
iと単語w
jを連結する。
【0085】
ステップS9−2において、t
1がw
iでt
2がw
jでt
3がw
kであった場合を例にトライグラム連結決定部132の処理を説明する。トライグラム連結決定部132は、規則記憶部23に記憶されているt
1とt
2とt
3に関するルールを参照する。その際、条件が「t
1がw
iであり、t
2がw
jであり、t
3がw
kである」で、処理が「単語w
iと単語w
jと単語w
kを連結する」というルールが規則記憶部23に記憶されている場合、トライグラム連結決定部132は単語w
iと単語w
jと単語w
kを連結する。
【0086】
なお、4単語以上が連続している場合、トライグラム連結決定部132は、その4単語以上が連続しているもののうち先頭から3単語に、三つの単語(tri−gram)のルールを適用する。そして、トライグラム連結決定部132は、続いて1単語ずつ後ろにずらしながら、三つの単語(tri−gram)のルールを順に適用していく。すなわち、トライグラム連結決定部132は、隣接単語数が4以上の場合に、3単語毎に三つの単語の連結規則を適用することにより、4単語以上が連結したキーワードを抽出する。これにより、トライグラム連結決定部132は、三つの単語(tri−gram)のルールを適用する毎に、単語同士を連結するか否か判定する。そして、トライグラム連結決定部132は、単語同士を連結すると判定した場合、それらの単語を連結する。
【0087】
次に、ステップS10において、リンク要否判定部136は、対象キーワードに対してハイパーリンクを挿入するか否か判定する。対象キーワードがコミュニティに特化した単語結合規則が適用されて生成された場合、リンク要否判定部136は、コミュニティの新入りが閲覧している場合に限り、その対象キーワードにリンクを挿入すると判定する。一方、対象キーワードがコミュニティに特化しない単語結合規則が適用されて生成された場合、リンク要否判定部136は、コミュニティの全員に対して、その対象キーワードにリンクを挿入すると判定する。
【0088】
ここで、リンク要否判定部136は、コミュニティでの活動履歴に基づいて、コミュニティの新入りかどうかを判定する。より詳細には、リンク要否判定部136は、(閲覧、発言(投稿)など)から得られる参加継続時間又は/及びその発生頻度に基づき、コミュニティの新入りかどうかを判定する。具体的には、例えば、リンク要否判定部136は、参加継続時間が予め決められた閾値時間以下である場合、コミュニティの新入りであると判定し、それ以外の場合、コミュニティの新入りでないと判定する。
【0089】
続いて、利用者に一度表示したキーワードへのリンクに対する処理について説明する。キーワードへのリンクが一度クリックされた場合、リンク要否判定部136は、利用者が一時的に記憶したと判断し、以降はリンクを設定しない。ただし、リンク要否判定部136は、予め決められた時間(例えば、n日)以上空けて再度リンクを提示し、クリックされなければ、そのキーワードはリンクを張らない単語としてリンク要否記憶部25に記憶させる。その場合、リンク生成装置1は、新入りの利用者がキーワードを理解したとみなしたことになる。
これにより、リンク要否記憶部25は、利用者毎に、キーワード、クリック済みか否かを示す情報及びリンクを張らないキーワードか否かを示す情報を1組のデータ(1レコード)として保持する。
【0090】
次に、ステップS11において、リンク要否判定部136は、対象キーワードに対してハイパーリンクを挿入すると判定した場合(ステップS10 YES)、リンク挿入部140は、対象キーワードに対して、ハイパーリンクを挿入する。
具体的には、例えば、リンク挿入部140は、検索エンジン用のクエリが付与されたハイパーリンクを挿入する。より詳細には、リンク挿入部140は、検索エンジン向けのクエリのテンプレートを予め保持し、検索エンジン向けのクエリのテンプレートに連結語あるいは連結していないキーワードのクエリを示す文字列を組み込んで、ハイパーリンクを生成する。
【0091】
例えば、リンク挿入部140は、商用の検索エンジンのサイトURLの後ろに、「/search?q=”<検索対象>”」と言った文字列を付与する。ここで、商用の検索エンジンのサービス(例:サービスの名称がexamplesearch)のURLはhttp://examplesearch.comであると仮定する。
【0092】
リンク挿入部140は、対象キーワードが「国会議事堂」であった場合、「http://examplesearch.com/search?q=国会議事堂」というハイパーリンクを生成する。そして、リンク挿入部140は、ウェブページ内のキーワードに生成したハイパーリンクを埋め込む。例えば、リンク挿入部140は、HTML(hypertext markup language)の場合、<a href></a>のタグで単語を囲むことで、「本日、国会議事堂において、」に対し,「本日、<a href=” http://examplesearch.com/search?q=国会議事堂”>国会議事堂</a>において、」という結果を得る。リンク挿入部140は、ハイパーリンクが埋め込まれたウェブページを表示部30に表示させる。
【0093】
なお、リンク挿入部140が、予め単語とその単語の意味を示すウェブページへのハイパーリンクとが関連付けられて記憶されている場合、入力された連結語あるいは連結していないキーワードに対応するハイパーリンクを読み出してもよい。そして、リンク挿入部140は、読み出したハイパーリンクをウェブページの当該単語の位置に埋め込んでもよい。
リンク要否判定部136が、対象キーワードに対してハイパーリンクを挿入しないと判定した場合(ステップS10 NO)、リンク生成装置1は、ウェブページを表示部30に表示させる。
以上で、本フローチャートの処理を終了する。
【0094】
<効果>
以上、本実施形態のリンク生成装置1は、コミュニティでの活動履歴(例えば、コミュニティへの参加経過時間)に基づいて、キーワードに対してリンクを挿入するか否か判定する。これにより、リンク生成装置1は、コミュニティへの参加経過時間が長いベテランの利用者に対しては、コミュニティに特化したキーワードにリンクを張らないようにすることができ、ベテランの利用者の誤操作を防止することができる。その結果、リンク生成装置1は、利用者の使い勝手を向上させることができる。
【0095】
また、リンク生成装置1は、コミュニティへの参加経過時間が短い新入りの利用者に対しては、コミュニティに特化したキーワードにリンクを張るようにすることができ、新入りの利用者の利便性が向上させることができる。その結果、リンク生成装置1は、利用者の使い勝手を向上させることができる。
【0096】
また、リンク生成装置1は、利用者に対して、キーワードに挿入されたリンクが一度クリックされた場合は、利用者が一時的に記憶したと判断し、以降はリンクを設定しない。そして、リンク生成装置1は、予め決められた時間空けて再度リンクを提示し、クリックされなければ、リンクを張らないキーワードとしてリンク要否記憶部25に記憶させる。その場合、リンク生成装置1は、利用者がキーワードを理解したとみなし、そのキーワードハイパーリンクを外すので、利用者の誤操作を防止することができる。その結果、リンク生成装置1は、利用者の使い勝手を向上させることができる。
【0097】
また、本実施形態のリンク生成装置1は、予め文章集合Dから単語の連結規則を生成し、生成した連結規則を規則記憶部23に記憶させておく。そして、リンク生成装置1は、入力されたウェブページから単語を抽出し、抽出した単語のうちキーワードを抽出する。そして、リンク生成装置1は、抽出したキーワード同士が隣接している場合、予め規則記憶部23に記憶されている連結規則を参照して、それらのキーワードを連結するか否か判定する。
【0098】
そして、リンク生成装置1は、それらのキーワードを連結すると判定した場合、それらのキーワードを連結した連結語をキーワードとして生成する。そして、リンク生成装置1は、生成したキーワードに対して、そのキーワードの意味を説明するウェブページへのハイパーリンクを埋め込む。
これにより、ユーザは、ウェブページに含まれるキーワードに埋め込まれたハイバーリンクを開くことにより、その単語の意味を知ることができる。ゆえに、リンク生成装置1は、ウェブページに含まれる単語の意味を知るのにかかる手間を軽減することができる。
【0099】
また、この連結規則は連結度に基づいて決定されているので、リンク生成装置1は、ハイパーリンクを埋め込むのに適したキーワードを生成することができる。ここで、ハイパーリンクを埋め込むのに適したキーワードとは、例えば、ネットの利用者がよく見かけるキーワード、Wikipedia(登録商標)等の辞書サイトに登録される可能性の高いキーワードである。
【0100】
ユーザは、最新の新聞記事又はインターネット上の最新記事を定期的にリンク生成装置1に入力すると、リンク生成装置1は、第1の文章記憶部21に記憶されている文書集合D1にそれらの記事を追記する。これにより、リンク生成装置1は、それらの記事に含まれる最新のキーワードに対する連結規則を生成することができる。その結果、連結規則を生成するのに、ユーザ自らが最新のキーワードを抽出してリンク生成装置1に入力する必要がないので、リンク生成装置1はユーザの処理の手間を軽減することができる。
【0101】
また、リンク生成装置1は、その最新のキーワードを含むウェブページが入力された場合、その最新のキーワードを抽出し、抽出した最新のキーワードに対してハイパーリンクを埋め込むことができる。これにより、ユーザは、最新のキーワードのハイパーリンクを開くことにより、簡単に、その最新のキーワードの意味を知ることができる。
【0102】
また、リンク生成装置1は、1単語でキーワードとなるか、2単語でキーワードとなるか、3単語でキーワードとなるかを一度に比較することができ、最も確率の高いキーワードを高精度に選択できる。
【0103】
なお、複数の装置を備えるシステムが、本実施形態のリンク生成装置1の各処理を、それらの複数の装置で分散して処理してもよい。
また、本実施形態のリンク生成装置1の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、リンク生成装置1に係る上述した種々の処理を行ってもよい。
【0104】
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0105】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0106】
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。