【文献】
多田 薫弘,事業戦略立案における質的情報分析のためのSOM適用法についての一考察,日本ファジイ学会誌,日本,日本ファジイ学会,2002年 2月15日,第14巻 第1号,p.64−73
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0017】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0018】
図1は、本発明の知識構造抽出システムの構成の一例を示すシステム構成図である。
【0019】
図1は、知識構造抽出装置100、および1又は複数の利用者端末130がローカルエリアネットワークを介して接続される構成となっている。また利用者端末130は外部ネットワーク140に接続可能な構成となっている。
【0020】
知識構造抽出装置100は、利用者端末130から取得したウェブページの閲覧履歴から、ウェブページの内容を取得・分析し、ウェブページ閲覧内容の概要を示す図を作成し、利用者端末130に返す。
【0021】
利用者端末130は、外部ネットワーク140を介して閲覧したウェブページの閲覧履歴を、知識構造抽出装置100に送り、知識構造抽出装置100により生成された閲覧内容の概要を図示したものを取得する。
【0022】
また、本実施形態の知識構造抽出システム、利用者端末130から取得する文書がウェブの閲覧履歴以外であってもよい。
【0023】
以下、
図2を用いて、
図1に示した知識構造抽出装置100、利用者端末130に適用可能な情報処理装置のハードウェア構成について説明する。
【0024】
図2は、
図1に示した知識構造抽出装置100、利用者端末130に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
【0025】
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
【0026】
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
【0027】
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)210等の表示器への表示を制御する。なお、
図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。
【0028】
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0029】
208は通信I/Fコントローラで、ネットワーク(例えば、
図1に示したLAN400)を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
【0030】
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0031】
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
【0032】
以下、本実施形態における知識構造抽出システムの全体の流れを説明する。
【0033】
利用者端末130は、利用者の指示により、特定期間におけるウェブページの閲覧履歴の全てまたは一部を知識構造抽出装置100に送信する。送信するウェブページの閲覧履歴を利用者が選択する構成にしてもよい。
【0034】
知識構造抽出装置100は、利用者端末130よりウェブページの閲覧履歴を受信すると、ウェブページの内容を分析し、抽出した知識構造を利用者端末130において表示可能な形式で返信する。
【0035】
利用者端末130は、知識構造抽出装置100から抽出した知識構造を受信すると、受信した知識構造をブラウザ121に図示する。
【0036】
本実施形態においてウェブページの分類および二次元平面上への配置において、自己組織化マップを用いる。また、自己組織化マップにより分類されたユニットのクラスタリングにウォード法を用いる。
【0037】
「参考文献」
(1)T.Kohonen,“The self-organizing map”,Proceeding of IEEE, vol.78, no.9,Sept.1990
(2)JoeH.Ward,Jr.,Hierarchical Grouping to Optimize an Objective Function, Journal of the American Statistical Association,Vol.58,1963
【0038】
以下、
図3を参照して、本実施形態の知識構造抽出システムにおける知識構造抽出処理について説明する。
【0039】
ステップS301において文書収集部101は、利用者端末130より受信したウェブページの閲覧履歴から、知識構造抽出対象となるウェブページを選別し、ウェブページの本文テキストを取得し、文書情報保存領域102に保存する。
【0040】
ステップS302おいて分野分析部103は、文書情報保存領域102に保存されたウェブページの本文テキストを解析し、分野情報104を抽出する。
【0041】
ステップS303においてキーワード抽出部105は、文書情報保存領域102に保存されたウェブページの本文テキストを解析し、キーワード情報106を抽出する。
【0042】
ステップS302およびS303は並列に処理を実行するように構成してもよいし、同一の処理において、分野情報104およびキーワード情報106の両方を抽出するように構成してもよい。
【0043】
ステップS304において文書配置部107は、分野情報104に対し自己組織化マップを用いて、各ウェブページに対し、内容の近いウェブページが二次元平面上でも近くなるような位置を決定し、文書配置情報108として生成する。
【0044】
ステップS305においてキーワード配置部109は、ステップS303において抽出されたキーワード情報106のキーワードに対し、ステップS304で生成した文書配置情報108を参照して、キーワードの二次元平面上での位置を決定し、キーワード配置情報110として生成する。また、キーワードの属する文書と、文書が属する自己組織化マップのユニットの情報から、キーワードと関連が高いクラスタを特定する。
【0045】
ステップS306においてリンク生成部111は、キーワードを、ステップS305で関連付けたクラスタの情報の階層関係に応じて、キーワード間のリンク情報を生成する。リンク情報を含め生成された各種情報を知識構造情報として知識構造情報保存領域112に保存する。
【0046】
ステップS307において表示・編集部113は、知識構造情報保存領域112に保存された知識構造情報から、
図20に示すような文書集合全体を概括するような図を生成し、利用者端末に送信する。
【0047】
図4では文書収集処理S301の詳細について記載する。
【0048】
ステップS401において文書収集部101は、利用者端末からウェブページの閲覧履歴をURL一覧として受信する。
図5にURL一覧の例を示す。
【0049】
ステップS402において文書収集部101は、受信したURL一覧に対し、ステップS407までの繰り返し処理を開始する。
【0050】
ステップS403において文書収集部101は、処理中のURLが処理の対象であるか否かを判定する。URLが処理対象である場合はステップS404に処理を移す。URLが処理対象でない場合は、ステップS407に処理を移す。
【0051】
処理の対象であるか否かの判定は、例えば閲覧時刻が直近1日以内であるとか特定のユーザのみを対象にするとか、定期的に閲覧している特定のURLを除外する等、任意の条件に基づいてよい。
【0052】
ステップS404において文書収集部101は、処理中のURLで示された文書を、ネットワークを介して取得する。
【0053】
ステップS405において文書収集部101は、取得した文書から本文テキストを抽出する。広告などの不要部分を除去する処理を行ってもよい。
【0054】
ステップS406において文書収集部101は、本文テキストをURL情報とともに文書情報保存領域102の文書情報テーブル901に保存する。
図9に文書情報テーブル901の一例を示す。
【0055】
ステップS407において文書収集部101は、次のURLがある場合、ステップS402からの処理を実施する。次のURLがない場合、処理を終了する。
【0056】
文書収集処理S301の具体例について記載する。
【0057】
ステップS401において文書収集部101は、利用者端末から
図5に示すウェブページの閲覧履歴をURL一覧として受信する。
【0058】
ステップS402において文書収集部101は、URL501に対し、ステップS407までの繰り返し処理を開始する。
【0059】
ステップS403において文書収集部101は、URL501が処理の対象であるか否かを判定する。ここではアクセスしたユーザが「nagai」であるURLを処理対象とする。URL501のユーザが「sakai」であるので、ステップS407に処理を移す。
【0060】
ステップS407において文書収集部101は、次のURL502があるので、ステップS402に処理を移す。
【0061】
以降、文書収集部101は、URL502以降のURLに対し、URL503の直前まで同様の処理を行う。
【0062】
ステップS402において文書収集部101は、URL503に対し、ステップS407までの繰り返し処理を開始する。
【0063】
ステップS403において文書収集部101は、URL503のユーザが「nagai」であるので、ステップS404に処理を移す。
【0064】
ステップS404において文書収集部101は、URL503で示された文書を、ネットワークを介して取得する。
【0065】
ステップS405において文書収集部101は、取得した文書から本文テキストを抽出する。広告などの不要部分を除去する処理を行ってもよい。
【0066】
ステップS406において文書収集部101は、抽出した本文テキストとURL情報を文書情報907として
図9に示す文書情報テーブル901に保存する。この時点では文書情報907の分野カラム905およびキーワードカラム906は空である。
【0067】
ステップS407において文書収集部101は、次のURL504があるので、ステップS402からの処理を実施する。
【0069】
図6では分野分析処理S302の詳細について記載する。
【0070】
ステップS601において分野分析部103は、文書情報保存領域102の文書情報テーブル901に保存された文書情報に対して、ステップS604までの繰り返し処理を開始する。
【0071】
ステップS602において分野分析部103は、文書情報のテキストを解析して、文書が属する分野を特定する。本発明の分野分類では、文書が属する分野を1つに決めるのではなく、
図7に示すように、複数の、特定した分野と分野に属する度合いの組として表現する。以降、文書に対する複数の分野と度合いの組を、重み付き分野情報と呼ぶ。文書の分野分類は、単純ベイズ分類器などの既存の方法を用いて実現することが可能である。
【0072】
単純ベイズ分類器では、文書を構成する単語がある分野に属する文書群において出現する頻度から、その文書が文書群に属する確率を求めることができる。この確率に基づき、分野に属する度合いを数値化し、重み付き分野情報として取得する。重み付き分野情報の取得は、単純ベイズ以外の方法で行ってもよい。
【0073】
ステップS603において分野分析部103は、ステップS602で取得した重み付き分野情報を文書情報保存領域102の文書情報テーブル901に追加する。
【0074】
ステップS604において分野分析部103は、次の文書情報がある場合、ステップS601からの処理を実施する。次の文書情報がない場合、処理を終了する。
【0075】
分野分析処理S302の具体例について記載する。
【0076】
ステップS601において分野分析部103は、文書情報テーブル901に保存された文書情報907に対して、ステップS604までの繰り返し処理を開始する。
【0077】
ステップS602において分野分析部103は、文書情報907のテキストカラム904のテキスト701を解析して、重み付き分野情報702を取得する。
【0078】
ステップS603において分野分析部103は、ステップS602で取得した重み付き分野情報702を文書情報テーブル901の文書情報907の分野カラム905に追加する。
【0079】
ステップS604において分野分析部103は、次の文書情報908があるので、ステップS601からの処理を実施する。
【0081】
図8ではキーワード抽出処理S303の詳細について記載する。
【0082】
ステップS801においてキーワード抽出部105は、文書情報保存領域102の文書情報テーブル901に保存された文書情報に対して、ステップS604までの繰り返し処理を開始する。
【0083】
ステップS802において、キーワード抽出部105は、文書情報のテキストを解析して、文書に含まれるキーワードを抽出する。
【0084】
本発明のキーワード抽出では、文書を構成するキーワードごとに他の文書と弁別するのに寄与する度合いを数値化し、弁別に寄与する度合いの高いものを、度合いの数値とともにキーワードとして抽出する。以降、キーワードと弁別に寄与する度合いの組を、重み付きキーワード情報と呼ぶ。
【0085】
キーワードの文書弁別に寄与する度合いはtf・idf値を用いることができる。キーワードの文書弁別に寄与する度合いはtf・idf値以外の値を用いてもよい。tf・idf値を求めるためには、文書集合におけるキーワードの出現頻度などの統計情報が必要となる。
【0086】
文書集合としては分析の対象とした文書全体とする場合が多いが、本発明においては、各種文書を集めた大規模な文書集合から予め抽出した統計情報を用いる。これは分析対象全体を表現し、分析対象全体でよく出現するキーワードが抽出対象外となるのを防ぐためである。
【0087】
ステップS803においてキーワード抽出部105は、ステップS802で取得した重み付きキーワード情報を文書情報保存領域102の文書情報テーブル901に追加する。
【0088】
ステップS804においてキーワード抽出部105は、次の文書情報がある場合、ステップS801からの処理を実施する。次の文書情報がない場合、処理を終了する。
【0089】
キーワード抽出処理S303の具体例について記載する。
【0090】
ステップS801においてキーワード抽出部105は、文書情報テーブル901に保存された文書情報907に対して、ステップS604までの繰り返し処理を開始する。
【0091】
ステップS802において、キーワード抽出部105は、文書情報907のテキストカラム904のテキスト701を解析して、重み付きキーワード情報2101(
図21参照)を取得する
【0092】
ステップS803においてキーワード抽出部105は、ステップS802で取得した重み付きキーワード情報2101を文書情報テーブル901の文書情報907のキーワードカラム906に追加する。
【0093】
ステップS804においてキーワード抽出部105は、次の文書情報908があるので、ステップS801からの処理を実施する。
【0095】
図10では文書配置処理S304の詳細について記載する。
【0096】
本実施形態の文書配置処理においては、重み付き分野情報をベクトルと見做し、自己組織化マップを適用することで二次元平面上に文書を配置する。
【0097】
ステップS1001において文書配置部107は、文書情報保存領域102の文書情報テーブル901に保存された文書情報に対して自己組織化マップの学習を行う。自己組織化マップの学習および分類、ウォード法によるクラスタリングに必要な、重み付き分野(ベクトル)どうしの距離の算出式の一例を
図24に示す。これ以外の方法により距離を定義してもよい。
「式1」
【0099】
図11に可視化した自己組織化マップの一例を示す。図の六角形はユニットと呼ばれ、自己組織化マップは学習が終了すると、分類対象をいずれかのユニットに分類することができるようになる。
図11におけるユニット内の番号はユニットの識別番号であり、
図12に示すユニット情報テーブルに各ユニットの情報が格納される。
【0100】
各ユニットは重み付きの分野カラム1207に分野情報を持つ。yカラム1203は左上を起点としてユニットの縦方向の位置を、xカラム1204は左上を起点としてユニットの横方向の位置を意味する。
【0101】
ステップS1002において文書配置部107は、学習が終わった自己組織化マップのユニットに対して、ウォード法などの階層的クラスタリングを実施する。階層的クラスタリングにより各ユニットは重み付き分野情報が近い順にまとめられる。
【0102】
図13に階層的クラスリングの結果の一例を示す。一番末端の番号はユニットの識別番号であり、途中の番号はクラスタの識別番号を示す。
【0103】
ステップS1003において文書配置部107は、クラスタの情報を保存する。
【0104】
図14にクラスタ情報を保存するテーブルの一例を示す。
【0105】
ステップS1004において文書配置部107は、文書情報保存領域102の文書情報テーブル901に保存された文書に対して、ステップS1007までの繰り返し処理を開始する。
【0106】
ステップS1005において文書配置部107は、処理中の文書情報が属するユニットを特定する。処理中の文書は、抽出した重み付き分野情報に最も近い重み付き分野情報を持つユニットに属すると判定される。
【0107】
ステップS1006において文書配置部107は、ユニットの情報を文書情報保存領域102の文書情報テーブル901に保存する。
【0108】
図15にユニット情報を含んだ文書情報テーブル901の一例を示す。
【0109】
ステップS1007において文書配置部107は、次の文書情報がある場合、ステップS1004からの処理を実施する。次の文書情報がない場合、処理を終了する。
【0110】
文書配置処理S304の具体例について記載する。
【0111】
ステップS1001において文書配置部107は、文書情報テーブル901に保存された文書情報に対して自己組織化マップの学習を行い、ユニット情報テーブル1201を得る。
【0112】
ステップS1002において文書配置部107は、ユニット情報テーブル1201に含まれる各ユニットに対し、分野カラム1207から求めたお互いの距離により階層的クラスタリングを実施して
図13の樹形図で示されるクラスタリング結果を得る。
【0113】
ステップS1003において文書配置部107は、
図13の樹形図で示されたクラスタリング結果を保存して、クラスタ情報テーブル1401を得る。
【0114】
ステップS1004において文書配置部107は、文書情報907に対して、ステップS1012までの繰り返し処理を開始する。
【0115】
ステップS1005において文書配置部107は、文書情報907の重み付き分野情報とユニット情報テーブル1201における各ユニットの分野カラム1207との距離を算出し、最も距離の小さいユニット情報1208を文書情報907が属するユニットとして特定する。
【0116】
ステップS1006において文書配置部107は、
図15に示すように、文書情報テーブル901の文書情報907のuidカラム1501にユニット情報1411の識別番号を追加する。
【0117】
ステップS1007において文書配置部107は、次の文書情報908があるのでステップS1004からの処理を実施する。
【0118】
以下、同様の処理を繰り返すことで、全ての文書の自己組織化マップ上での配置位置が定まる。
【0119】
図16ではキーワード配置処理S305の詳細について記載する。
【0120】
ステップS1601においてキーワード配置部109は、文書情報保存領域102の文書情報テーブル901の文書情報に対して、ステップS1607までの繰り返し処理を開始する。
【0121】
ステップS1602においてキーワード配置部109は、ステップS1601で取得された文書情報に含まれるキーワードに対し、ステップS1606までの繰り返し処理を開始する。
【0122】
ステップS1603においてキーワード配置部109は、処理中のキーワードがキーワード配置情報テーブル1701に登録されているか否かを判定する。キーワードがキーワード配置情報テーブル1701に登録済みであれば、ステップS1605に処理を移す。キーワードがキーワード配置情報テーブル1701に登録されていなければ、ステップS1604に処理を移す。
【0123】
ステップS1604においてキーワード配置部109は、処理中のキーワードをキーワード配置情報テーブル1701に登録する。
【0124】
ステップS1605においてキーワード配置部109は、キーワード配置情報テーブル1701における処理中のキーワードに対し、処理中の文書情報が属するユニットの識別番号を追加する。
【0125】
既にユニットの識別番号が登録されている場合は、出現頻度を1増やす。
【0126】
ステップS1606においてキーワード配置部109は、次のキーワードがある場合、ステップS1602からの処理を実施する。次のキーワードがない場合、ステップS1607に処理を移す。
【0127】
ステップS1607においてキーワード配置部109は、次の文書情報がある場合、ステップS1601からの処理を実施する。次のキーワードがない場合、ステップS1608に処理を移す。
【0128】
ステップS1608においてキーワード配置部109は、キーワード配置情報テーブル1701におけるキーワード配置情報に対し、ステップS1613までの繰り返し処理を開始する。
【0129】
ステップS1609においてキーワード配置部109は、処理中のキーワード配置情報のユニット識別番号と対応するユニット情報と出現頻度から位置を算出し、処理中のキーワードの位置情報とする。位置を算出する式の一例を式2に示すが、別の方法により算出してもよい。
「式2」
【0131】
ステップS1610においてキーワード配置部109は、ステップS1604で算出したキーワード配置情報の位置情報に追加する。
【0132】
ステップS1611においてキーワード配置部109は、処理中のキーワードを含むユニットの集合に対し、ステップS1008において取得したクラスタ情報を参照し、最もユニットの集合が合致するクラスタを取得する。合致の度合いの判定には式3に示す式により算出する。
「式3」
【0134】
ステップS1612においてキーワード配置部109は、ステップS1611において取得したクラスタ情報の識別番号をキーワード配置情報に追加する。
【0135】
ステップS1613においてキーワード配置部109は、次のキーワード配置情報がある場合、ステップS1608からの処理を実施する。次のキーワード配置情報がない場合、処理を終了する。
【0136】
キーワード配置処理S305の具体例について記載する。
【0137】
図16ではキーワード配置処理S305の詳細について記載する。
【0138】
ステップS1601においてキーワード配置部109は、文書情報テーブル901の文書情報907に対して、ステップS1607までの繰り返し処理を開始する。
【0139】
ステップS1602においてキーワード配置部109は、文書情報907に含まれるキーワード「高感度」に対し、ステップS1606までの繰り返し処理を開始する。
【0140】
ステップS1603においてキーワード配置部109は、処理中のキーワード「高感度」がキーワード配置情報テーブル1701に登録されていないので、ステップS1604に処理を移す。
【0141】
ステップS1604においてキーワード配置部109は、処理中のキーワード「高感度」をキーワード配置情報テーブル1701に登録する。
【0142】
ステップS1605においてキーワード配置部109は、キーワード配置情報テーブル1701における処理中のキーワード「高感度」に対し、文書情報907が属するユニットの識別番号「14」を追加する。
【0143】
ステップS1606においてキーワード配置部109は、次のキーワード「カメラ」があるので、ステップS1602からの処理を実施する。
【0144】
以下、ステップS1602〜S1606までの処理を繰り返し、文書情報907のキーワードを全て処理して、ステップS1607に処理を移す。
【0145】
ステップS1607においてキーワード配置部109は、次の文書情報908があるので、ステップS1601からの処理を実施する。
【0146】
以下、ステップS1601〜S1607までの処理を繰り返し、キーワード配置情報テーブル1701を得る。
【0147】
ステップS1608においてキーワード配置部109は、キーワード配置情報テーブル1701におけるキーワード配置情報1709に対し、ステップS1613までの繰り返し処理を開始する。
【0148】
ステップS1609においてキーワード配置部109は、キーワード配置情報1709のユニット識別番号と対応するユニット情報と出現頻度から位置を算出する。ユニット情報テーブルから、ユニット識別番号7のユニットの位置は(1, 2)を得る。他のユニット識別番号についても同様に位置を取得して、式2の式よりキーワードの位置(3.15, 2.55)を算出する。
y=(1*2+1*2+2*3+4*3+5*3+2*3+1*4+3*4+1*4)/20=3.15
x=(1*1+1*2+2*1+4*2+5*3+2*4+1*2+3*3+1*4)/20=2.55
【0149】
ステップS1610においてキーワード配置部109は、ステップS1604で算出した位置情報(3.15, 2.55)をキーワード配置情報1709のyカラム1704およびxカラム1705に追加する。
【0150】
ステップS1611においてキーワード配置部109は、キーワード配置情報1709が含むユニット集合に対し、クラスタ情報テーブル1401を参照し、最もユニットの集合が合致するクラスタを取得する。
【0151】
クラスタ情報1402は全てのユニットを含む最上位のクラスタである。キーワード配置情報1709のユニット集合とクラスタ情報1402のユニット集合の合致度を式3より算出する。
【0152】
合致するユニットの数は{7, 8, 13, 14, 15, 16, 20, 21, 22}の9であり、キーワード配置情報1709のユニット数も9である。クラスタ情報1402のユニット数は36である。
【0153】
(クラスタ情報1402との合致度)=(2*9)/(9+36)=0.4
【0154】
キーワード配置情報1709のユニット集合とクラスタ情報1403のユニット集合の合致度を式3より算出する。合致するユニットの数は{7,8,14,15,16,21,22}の7であり、キーワード配置情報1709のユニット数は{7,8,13,14,15,16,20,21,22}の9である。クラスタ情報1407のユニット数は{7,8,14,15,16,21,22}の7である。
【0155】
(クラスタ情報1407との合致度)=(2*7)/(7+9)=0.875
【0156】
このような計算を全てのクラスタについて算出し、最も合致度の高いクラスタを選択する。キーワード配置情報1709に対してはクラスタ情報1407が最も合致する。
【0157】
ステップS1612においてキーワード配置部109は、クラスタ情報1407の識別番号64をキーワード配置情報1709のクラスタ識別番号1707に追加する。
【0158】
ステップS1613においてキーワード配置部109は、次のキーワード配置情報1710があるので、ステップS1608からの処理を実施する。
【0160】
図19ではリンク生成処理S306の詳細について記載する。
【0161】
ステップS1901においてリンク生成部111は、ステップS1008で取得したクラスタ情報に対し、ステップS1912までの繰り返し処理を開始する。
【0162】
ステップS1902においてリンク生成部111は、処理中のクラスタに対応付けられたキーワードをキーワード配置情報から取得する。
【0163】
ステップS1903においてリンク生成部111は、処理中のクラスタに対応付けられたキーワードに対し、ステップS1910までの繰り返し処理を開始する。
【0164】
ステップS1904においてリンク生成部111は、処理中のクラスタの上位のクラスタを取得する。
【0165】
ステップS1905においてリンク生成部111は、ステップS1904で取得したクラスタに対応付けられたキーワードを上位キーワードとして取得する。
【0166】
ステップS1906においてリンク生成部111は、上位キーワードがあるか否かを判定する。上位キーワードがある場合、ステップS1907に移す。上位キーワードがない場合、ステップS1909に処理を移す。
【0167】
ステップS1907においてリンク生成部111は、処理中のキーワードに最も関連する上位キーワードを選択する。選択の基準としては、処理中のキーワード配置情報のユニット集合のうち、上位のキーワード配置情報のユニット集合に含まれている割合や、キーワード配置情報の位置(y, x)から算出した距離を用いることができる。他の選択基準を用いてもよい。
【0168】
ステップS1908においてリンク生成部111は、キーワード配置情報のリンク情報に上位キーワードを設定する。
【0169】
ステップS1909においてリンク生成部111は、ステップS1904で取得した上位のクラスタが最上位であるか否かを判定する。上位のクラスタが最上位である場合、ステップS1910に処理を移す。上位のクラスタが最上位でない場合、ステップS1904に処理を移す。
【0170】
ステップS1910においてリンク生成部111は、処理中のクラスタに対応付けられた次のキーワードがある場合、ステップS1903からの処理を実施する。次のキーワードがない場合、ステップS1911に処理を移す。
【0171】
ステップS1911においてリンク生成部111は、次のクラスタがある場合、ステップS1901からの処理を実施する。次のクラスタがない場合、処理を終了する。
【0172】
リンク生成処理S306の具体例について記載する。
【0173】
ステップS1901においてリンク生成部111は、クラスタ情報1402に対し、ステップS1912までの繰り返し処理を開始する。
【0174】
ステップS1902においてリンク生成部111は、クラスタ情報1402(クラスタ識別番号72)に対応付けられたキーワード配置情報1711(「高画質」)を取得する。
【0175】
ステップS1903においてリンク生成部111は、クラスタ情報1402に対応付けられたキーワード配置情報1711に対し、ステップS1910までの繰り返し処理を開始する。
【0176】
ステップS1904においてリンク生成部111は、クラスタ情報1402の上位のクラスタ情報を取得しようとするが存在しないため。上位のクラスタ情報を取得できない。
【0177】
ステップS1905においてリンク生成部111は、ステップS1904で上位のクラスタ情報を取得できなかったので、上位のキーワードも取得できない。
【0178】
ステップS1906においてリンク生成部111は、上位キーワードがないので、ステップS1909に処理を移す。
【0179】
ステップS1909においてリンク生成部111は、ステップS1904で取得した上位のクラスタ情報1402が最上位であるので、ステップS1910に処理を移す。
【0180】
ステップS1910においてリンク生成部111は、クラスタ情報1402に対応付けられた次のキーワード配置情報がないので、ステップS1911に処理を移す。
【0181】
ステップS1911においてリンク生成部111は、次のクラスタ情報1403があるので、ステップS1901からの処理を実施する。
【0182】
ステップS1901においてリンク生成部111は、クラスタ情報1403に対し、ステップS1912までの繰り返し処理を開始する。
【0183】
ステップS1902においてリンク生成部111は、クラスタ情報1403(クラスタ識別番号71)に対応付けられたキーワード配置情報1712(「非球面レンズ」)を取得する。
【0184】
ステップS1903においてリンク生成部111は、クラスタ情報1403に対応付けられたキーワード配置情報1712に対し、ステップS1910までの繰り返し処理を開始する。
【0185】
ステップS1904においてリンク生成部111は、クラスタ情報1403の上位のクラスタ情報1402を取得する。
【0186】
ステップS1905においてリンク生成部111は、ステップS1904で上位のクラスタ情報1402に(クラスタ識別番号72)に対応付けられたキーワード配置情報1711を取得する。
【0187】
ステップS1906においてリンク生成部111は、上位のキーワード配置情報があるので、ステップS1907に処理を移す。
【0188】
ステップS1907においてリンク生成部111は、キーワード配置情報1712に最も関連する上位のキーワード配置情報としてキーワード配置情報1711を選択する。
【0189】
ステップS1908においてリンク生成部111は、キーワード配置情報1712の上位キーワードカラム1708に上位キーワードの識別番号「25」を設定する。
【0190】
ステップS1910においてリンク生成部111は、クラスタ情報1403に対応付けられた次のキーワード配置情報がないので、ステップS1911に処理を移す。
【0191】
ステップS1911においてリンク生成部111は、次のクラスタ情報1404があるので、ステップS1901からの処理を実施する。
【0193】
キーワード配置情報を用いることで
図20のようなマインドマップ用の図を作成することができる。
【0194】
以上、本発明によれば、指定された文書集合から特徴的なキーワードを抽出し、抽出キーワード間の関係に基づき、関連が深い抽出キーワードを近くに配置することが可能となり、より直観的で理解しやすい図を作成することができるようになる。
【0195】
以上、実施形態例を詳述したが、本発明は、例えば、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。また、本発明におけるプログラムは、各処理方法をコンピュータが実行可能(読み取り可能)なプログラムであり、本発明の記憶媒体は、各処理方法をコンピュータが実行可能なプログラムが記憶されている。
【0196】
なお、本発明におけるプログラムは、各装置の処理方法ごとのプログラムであってもよい。
【0197】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読取り実行することによっても、本発明の目的が達成されることは言うまでもない。
【0198】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。
【0199】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,DVD−ROM,磁気テープ,不揮発性のメモリカード,ROM,EEPROM,シリコンディスク等を用いることができる。
【0200】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータで稼働しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0201】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0202】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0203】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ,データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム、あるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。