(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06F 16/34 20190101AFI20231212BHJP
【FI】
G06F16/34
(21)【出願番号】P 2020009674
(22)【出願日】2020-01-24
【審査請求日】2022-11-29
(73)【特許権者】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100122529
【氏名又は名称】藤枡 裕実
(74)【代理人】
【識別番号】100135954
【氏名又は名称】深町 圭子
(74)【代理人】
【識別番号】100119057
【氏名又は名称】伊藤 英生
(74)【代理人】
【識別番号】100131369
【氏名又は名称】後藤 直樹
(74)【代理人】
【識別番号】100171859
【氏名又は名称】立石 英之
(72)【発明者】
【氏名】小林 秀章
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2019-159920(JP,A)
【文献】岩田 具治 Tomoharu IWATA,分類の評価や特異文書の検出のための文書群の構造可視化 Visualization of Documents for Evaluation of Classification and Detection of Unique Documents,情報処理学会研究報告 Vol.2004 No.47 IPSJ SIG Technical Reports,日本,社団法人情報処理学会 Information Processing Society of Japan,2004年05月13日,第2004巻
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
各アイテムに関連する集合は、各アイテムに含まれる集合又は各アイテムに付随する集合の少なくとも一つであり、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、各アイテムをk
(k≧1)次元空間に配置する情報処理装置であって、
前記関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から各要素のエントロピーの値を算出するエントロピー算出手段と、
前記和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出する重要要素抽出手段と、
前記関心対象カテゴリに属する各アイテムについて、当該各アイテムに関連する集合と、前記抽出された重要要素との関係性に基づいて、当該アイテムについて前記抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出する特徴ベクトル算出手段と、
前記算出された各アイテムのm次元特徴ベクトルをk次元へと次元削減する次元削減手段と、
各アイテムをk次元空間に配置するアイテム配置手段と、
を有することを特徴とする情報処理装置。
【請求項2】
前記関心対象カテゴリに属する各アイテムに自然言語で記述された文章が関連付けられている場合に、前記文章に対して形態素解析を行って形態素を抽出する形態素解析手段をさらに有し、
前記エントロピー算出手段は、前記抽出された形態素を前記アイテムに関連する集合の要素として用いて、エントロピーの値を算出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記特徴ベクトル算出手段は、各前記要素を含む前記アイテムを特定し、特定された前記アイテムの数を前記m次元特徴ベクトルの算出に用いることを特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記特徴ベクトル算出手段は、前記アイテムのm次元特徴ベクトルの第i番目 (1≦i≦m) の成分の値を、当該アイテムに関連する集合が、前記重要要素の集合の第 i 番目の要素を含むか含まないかに応じて決定することを特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項5】
前記特徴ベクトル算出手段は、各アイテムのm次元特徴ベクトルを算出する際、当該アイテムのm次元特徴ベクトルの第i番目 (1≦i≦m) の成分を、前記重要要素の集合の第i番目の要素がそのアイテムに関連する集合に出現する確率と、前記重要要素の第i番目の要素が前記和集合に出現する確率との比に基づいて算出することを特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項6】
前記次元削減手段は、主成分分析を用いてm次元特徴ベクトルをk次元へと次元削減することを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置。
【請求項7】
前記次元削減手段は、独立成分分析を用いてm次元特徴ベクトルをk次元へと次元削減することを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置。
【請求項8】
各アイテムに関連する集合は、各アイテムに含まれる集合又は各アイテムに付随する集合の少なくとも一つであり、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータが、各アイテムをk
(k≧1)次元空間に配置する情報処理方法であって、
コンピュータが、
前記関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から各要素のエントロピーの値を算出し、
前記和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出し、
前記関心対象カテゴリに属する各アイテムについて、当該各アイテムに関連する集合と、前記抽出された重要要素との関係性に基づいて、当該アイテムについて前記抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出し、
前記算出された各アイテムのm次元特徴ベクトルをk次元へと次元削減し、
各アイテムをk次元空間に配置することを特徴とする情報処理方法。
【請求項9】
各アイテムに関連する集合は、各アイテムに含まれる集合又は各アイテムに付随する集合の少なくとも一つであり、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータに、各アイテムをk
(k≧1)次元空間に配置させるプログラムであって、
コンピュータを、
前記関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から各要素のエントロピーの値を算出するエントロピー算出手段、
前記和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出する重要要素抽出手段、
前記関心対象カテゴリに属する各アイテムについて、当該各アイテムに関連する集合と、前記抽出された重要要素との関係性に基づいて、当該アイテムについて前記抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出する特徴ベクトル算出手段、
前記算出された各アイテムのm次元特徴ベクトルをk次元へと次元削減する次元削減手段、
各アイテムをk次元空間に配置するアイテム配置手段、
として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、関心対象とするカテゴリに属する各アイテムに対して、それに関連するデータに基づいて各アイテムの特徴を求め、カテゴリ全体の構造を可視化する技術に関する。
【背景技術】
【0002】
近年、コンピュータネットワーク技術の発展により、膨大なデータが流通するようになってきた。これらのデータは、何らかのアイテムに関連しており、これらのデータを分析することにより、アイテム間の何らかの関係性、意味合いが導き出されることが期待される。
【0003】
このような技術の一例として、アイテムとして文書を用い、これらの文書において重要な単語を提示する技術が開発されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、文書を構成する単語を提示することはできるが、文書を構成する単語を用いて、文書の位置付け、特に多様な文書群の全体における文書の位置付けを分析することが難しいという問題がある。また、文書に限らず、多様なアイテム群の全体におけるアイテムの位置付けを分析することも難しい。
【0006】
そこで、本発明は、関心対象とするカテゴリに属する各アイテムの、カテゴリ内における位置付けを把握することが可能な情報処理装置、情報処理方法、およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明は、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、各アイテムをk次元空間に配置する情報処理装置であって、
前記関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から各要素のエントロピーの値を算出するエントロピー算出手段と、
前記和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出する重要要素抽出手段と、
前記関心対象カテゴリに属する各アイテムについて、当該各アイテムに関連する集合と、前記抽出された重要要素との関係性に基づいて、当該アイテムについて前記抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出する特徴ベクトル算出手段と、
前記生成された各アイテムのm次元特徴ベクトルをk次元へと次元削減する次元削減手段と、
各アイテムをk次元空間に配置するアイテム配置手段と、
を有することを特徴とする情報処理装置を提供する。
【0008】
また、本発明に係る情報処理装置は、
前記関心対象カテゴリに属する各アイテムに自然言語で記述された文章が関連付けられている場合に、前記文章に対して形態素解析を行って形態素を抽出する形態素解析手段をさらに有し、
前記エントロピー算出手段は、前記抽出された形態素の集合を前記アイテムに関連する集合として用いて、エントロピーの値を算出することを特徴とする。
【0009】
また、本発明に係る情報処理装置は、
前記特徴ベクトル算出手段は、各前記要素(例えば単語ti)を含む前記アイテム(例えば文書の集合V(ti)の要素)を特定し、特定された前記アイテムの数(集合V(ti)の要素の個数h(ti))を前記m次元特徴ベクトルの算出に用いることを特徴とする。
【0010】
また、本発明に係る情報処理装置は、
前記特徴ベクトル算出手段は、前記アイテムのm次元特徴ベクトルの第i番目 (1≦i≦m) の成分の値を、当該アイテムに関連する集合が、前記重要要素の集合の第 i 番目の要素を含むか含まないかに応じて決定することを特徴とする。
【0011】
また、本発明に係る情報処理装置は、
前記特徴ベクトル算出手段は、各アイテムのm次元特徴ベクトルを算出する際、当該アイテムのm次元特徴ベクトルの第i番目 (1≦i≦m) の成分を、前記重要要素の集合の第i番目の要素がそのアイテムに関連する集合に出現する確率と、前記重要要素の第i番目の要素が前記和集合に出現する確率との比に基づいて算出することを特徴とする。
【0012】
また、本発明に係る情報処理装置は、
前記次元削減手段は、主成分分析を用いてm次元特徴ベクトルをk次元へと次元削減することを特徴とする。
【0013】
また、本発明に係る情報処理装置は、
前記次元削減手段は、独立成分分析を用いてm次元特徴ベクトルをk次元へと次元削減することを特徴とする。
【0014】
また、本発明は、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータが、各アイテムをk次元空間に配置する情報処理方法であって、
コンピュータが、
前記関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から各要素のエントロピーの値を算出し、
前記和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出し、
前記関心対象カテゴリに属する各アイテムについて、当該各アイテムに関連する集合と、前記抽出された重要要素との関係性に基づいて、当該アイテムについて前記抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出し、
前記生成された各アイテムのm次元特徴ベクトルをk次元へと次元削減し、
各アイテムをk次元空間に配置することを特徴とする情報処理方法を提供する。
【0015】
また、本発明は、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータに、各アイテムをk次元空間に配置させるプログラムであって、
コンピュータを、
前記関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から各要素のエントロピーの値を算出するエントロピー算出手段、
前記和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出する重要要素抽出手段、
前記関心対象カテゴリに属する各アイテムについて、当該各アイテムに関連する集合と、前記抽出された重要要素との関係性に基づいて、当該アイテムについて前記抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出する特徴ベクトル算出手段、
前記生成された各アイテムのm次元特徴ベクトルをk次元へと次元削減する次元削減手段、
各アイテムをk次元空間に配置するアイテム配置手段、
として機能させることを特徴とするプログラムを提供する。
【発明の効果】
【0016】
本発明によれば、関心対象とするカテゴリに属する各アイテムの、カテゴリ内における位置付けを容易に把握することが可能となる。
【図面の簡単な説明】
【0017】
【
図1】本発明の一実施形態に係る情報処理装置のハードウェア構成図である。
【
図2】本発明の一実施形態に係る情報処理装置の構成を示す機能ブロック図である。
【
図3】本発明の一実施形態で用いる文書データベースに記憶された情報の一例を示す図である。
【
図4】本発明の一実施形態で用いる単語データベースに記憶された情報の一例を示す図である。
【
図5】本発明の一実施形態に係る情報処理装置の処理動作を示すフローチャートである。
【
図6】確率pとエントロピーHの関係を示す図である。
【
図7】各アイテムに対応するアイコンを配置した状態を説明するための図である。
【
図8】各アイテムの配置状態の一例を示す図である。
【
図9】行列Fを求める第2の手法を説明するための図である。
【発明を実施するための形態】
【0018】
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。
<1.装置構成>
図1は、本発明の一実施形態に係る情報処理装置100のハードウェア構成図である。本実施形態に係る情報処理装置100は、汎用のコンピュータで実現することができ、
図1に示すように、CPU(Central Processing Unit)1と、コンピュータのメインメモリであるRAM(Random Access Memory)2と、CPU1が実行するプログラムやデータを記憶するためのハードディスク、SSD(Solid State Drive)、フラッシュメモリ等の大容量の記憶装置3と、キーボード、マウス等の指示入力I/F(インターフェース)4と、データ記憶媒体等の外部装置とデータ通信するためのデータ入出力I/F(インターフェース)5と、液晶ディスプレイ等の表示デバイスである表示部6と、グラフィックスに特化した演算処理部であるGPU(Graphics Processing Unit)7と、表示部6に表示する画像を保持するフレームメモリ8と、を備え、互いにバスを介して接続されている。GPU7による演算結果はフレームメモリ8に書き込まれるため、GPU7とフレームメモリ8は、表示部6へのインタフェースを備えたビデオカードに搭載されて汎用のコンピュータにバス経由で装着されていることが多い。
【0019】
本実施形態において、CPU1は、マルチコアCPUであってもよい。この場合、CPU1は、複数のCPUコアを有し、並列処理が可能となっている。
図1の例では、RAM2が1つだけ示されているが、CPU1の各CPUコアが、1つのRAM2にアクセスするように構成されている。なお、CPU1は複数であってもよい。またマルチコアCPUは、論理的に複数のCPUコアを有するCPUであってもよい。
【0020】
図2は、本実施形態に係る情報処理装置の構成を示す機能ブロック図である。
図2において、10は単語データベース、11は文書データベース、20は演算処理部、21はエントロピー算出手段、22は重要要素抽出手段、23は特徴ベクトル算出手段、24は次元削減手段、25はアイテム配置手段、26は形態素解析手段、30は出力手段である。
【0021】
エントロピー算出手段21は、関心対象カテゴリに属する全てのアイテムに関連する集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率からエントロピーの値を算出する手段である。重要要素抽出手段22は、和集合の要素のうちエントロピーの値が一定値以上の要素である重要要素を抽出する手段である。特徴ベクトル算出手段23は、関心対象カテゴリに属する各アイテムについて、各アイテムに関連する集合と、抽出された重要要素との関係性に基づいて、アイテムについて抽出された重要要素の数m(m≧k)に対応するm次元特徴ベクトルを算出する手段である。次元削減手段24は、生成された各アイテムのm次元特徴ベクトルをk次元へと次元削減する手段である。アイテム配置手段25は、各アイテムをk次元空間に配置する手段である。形態素解析手段26は、文書データベース11から各文書を読み込み、各文書に含まれる単語を抽出する手段である。エントロピー算出手段21、重要要素抽出手段22、特徴ベクトル算出手段23、次元削減手段24、アイテム配置手段25、形態素解析手段26は、演算処理部20に含まれ、CPU1が、プログラムを実行することにより実現される。
【0022】
出力手段30は、アイテム配置手段25により各アイテムが配置されたk次元空間をグラフィカルに出力する手段であり、データ入出力I/F5を介したプリンタや、表示デバイス等の表示部6により実現される。
【0023】
単語データベース10は、単語を識別する単語IDと単語を対応付けて記憶したデータベースであり、記憶装置3により実現される。文書データベース11は、テキスト情報からなる文書を、文書を識別する文書IDと対応付けて記憶したデータベースであり、記憶装置3により実現される。文書は例えばテキストファイルの形式で提供される。
【0024】
図3は文書データベース11に記憶された情報の一例を示す図である。本実施形態では、関心対象カテゴリ(単語データベース10、文書データベース11等で管理される所定の文書群)に属する各アイテム(文書:文書の集合の要素)に関連する集合(単語の集合)を入力データとして用いて、各アイテムに対応するアイコンを所定数の次元であるk次元空間に配置する処理を行う。ここで、文書データベース11に記憶された情報、すなわち、文書の集合が関心対象カテゴリとなり、各文書が各アイテムとなる。そして、各文書に含まれる単語の集合が、各文書に関連する集合となる。各アイテムに関連する集合とは、各アイテムに関連付け(対応付け、ひも付け)されている集合を意味し、各アイテムに含まれる集合や、各アイテムに付随する集合を含む。各アイテムに含まれる集合とは、例えば、各アイテムが文書である場合に、その文書に含まれる単語の集合である。通常、文書は自然言語で記述された文章により構成されている。このため、各アイテムが文書である場合、各アイテムに自然言語で記述された文章が関連付けられていることになる。また、各アイテムに付随する集合とは、例えば、各アイテムが何らかのグループである場合に、そのグループに含まれる要素(通常は何らかの単語として表現可能)の集合である。
【0025】
例えば、関心対象カテゴリが映画であったとして、関心対象カテゴリに属する各アイテムが個々の映画作品であるとき、各アイテムに付随する集合として、その映画作品に出演した俳優の集合を採用することができる。また、例えば、関心対象カテゴリが俳優であったとして、関心対象カテゴリに属する各アイテムが個々の俳優であるとき、各アイテムに付随する集合として、その俳優が出演した映画作品の集合を採用することができる。この2例において、映画と俳優の関係は、一方が関心対象で、他方が付随集合であるというデータ構造から、その逆のデータ構造へと変換することが可能である。また、同じ変換をもう一度かけることにより、元の関係に戻すことができる。このような関係性を一般に双対(dual) という。文書と単語との関係性についても、双対な関係に変換することが可能である。すなわち、単語を関心対象とみなし、それぞれの単語を含む文書の集合を付随集合とみなすのである。
【0026】
図3に示すように、文書データベース11には、文書を識別する文書識別情報である文書IDに対応付けて、文書名、作者名、文書データが対応付けて記憶されている。文書データについては、文書IDの特定により文書データを取得可能なように、文書データの格納アドレスが記録されていればよい。
図3の例では、例えば、作者「A氏」の「〇〇〇〇〇」という文書(作品)が、文書ID「B001」として登録されていることを示している。
【0027】
図4は単語データベース10に記憶された情報の一例を示す図である。
図4に示すように、単語データベース10には、単語を識別する単語識別情報である単語IDに対応付けて、単語、その単語が出現する文書の文書IDが記憶されている。
図4の例では、1行目の単語ID「T0001」として登録されている単語が、文書ID「B001」で特定される文書に5回出現しており、文書ID「B002」で特定される文書に3回出現することを意味している。また、2行目の単語ID「T0002」として登録されている単語が、文書ID「B001」で特定される文書に3回出現しており、文書ID「B002」で特定される文書に8回出現することを意味している。
【0028】
単語データベース10に登録された各単語は、文書IDと対応付けられているため、関心対象カテゴリである文書群(文書データベース11に登録されたもの)に属する各文書に関連する要素の集合(単語の集合)を記憶していることになる。本実施形態では、この単語データベース10に記録された単語の情報を入力として、各文書を示すアイコンを所定数の次元の空間であるk次元空間に配置することになる。所定数の次元としては、1次元以上であればよく、2次元以上であることが好ましい。すなわち、k≧2であることが好ましい。ここで、単語データベース10は、
図4に示したような構成であるため、逆に文書IDで参照することにより、その文書に出現する全ての単語の単語IDを特定することもできる。
図4の例では、単語ID「T0001」として登録されている単語、単語ID「T0002」として登録されている単語のいずれも、文書ID「B001」に関連する集合にも、文書ID「B002」に関連する集合にも含まれることになる。
【0029】
図2に示した各構成手段は、現実には
図1に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。本実施形態においては、CPUがマルチコアCPUであることが好ましい。なお、本明細書において、コンピュータとは、CPU、GPU等の演算処理部を有し、データ処理が可能な装置を意味し、パーソナルコンピュータなどの汎用コンピュータだけでなく、CPUを搭載するタブレットなどの携帯端末や様々な装置に組み込まれたコンピュータも含む。
【0030】
<2.処理動作>
本実施形態における情報処理装置は、所定の情報処理を実行して、各文書(アイテム)に対応するアイコンをk次元空間に配置する。次に、本実施形態に係る情報処理方法とともに、
図1、
図2に示した情報処理装置の処理動作について説明する。
図5は、本実施形態に係る情報処理装置の処理動作を示すフローチャートである。まず、形態素解析手段26が文書データベース11から各文書を読み込み、各文書に含まれる単語を抽出する(ステップS10)。具体的には、形態素解析手段26は、抽出した文書に対して形態素解析を実行し、特定の品詞の単語を抽出する。特定の品詞としては、事前に指定されたものが用いられる。例えば、品詞を「名詞」と指定すれば、名詞の単語のみを抽出する。抽出した単語は、その文書に出現した回数とともに、
図4に示したように単語データベース10に登録される。
【0031】
ここで、文書データベース11に登録されている各文書の集合をVとする。文書の集合Vの要素数をnとする。集合を絶対値記号で挟んだ式は、その集合の要素の個数を表すものとする(以降の他の数式においても同じ)と、n=|V|と表現される。文書の集合Vの各要素、すなわち各文書をvjとする(vj∈V:j=1,2,3,・・・,n)。文書の集合が関心対象カテゴリに相当し、各文書vjがアイテムに相当する。各文書vjから、形態素解析により抽出された特定の品詞の単語の集合をTjとする。
【0032】
Tj={tj1, tj2, tj3,・・・ } , j=1,2,3,・・・,n
【0033】
各単語t
ji(単語データベース10では、単語IDで管理)には、それぞれに付随して、その単語が 文書v
j(単語データベース10では、文書IDで管理) の中で出現した回数の値が取得できている(
図4参照)。
【0034】
次に、全文書に含まれる全ての単語を抽出する(ステップS20)。具体的には、エントロピー算出手段21が、単語データベース10内の全ての単語を抽出する。上述のように、文書vjから抽出された単語の集合をTjと表現することができるが、全ての文書から抽出された単語の集合Tは、全ての集合Tj(j=1,2,3,・・・,n)の和集合として求められる。この集合Tは、単語データベース10内の全ての単語の集合となる。以降、どの文書vj に出現した単語であるかを問わず、集合Tに含まれる個々の単語を参照する際は、tiのように表記する(ti∈T)。
【0035】
次に、抽出された全ての単語について、そのエントロピーを算出する(ステップS30)。具体的には、エントロピー算出手段21が、全ての各単語ti(∈T)について、そのエントロピーの値H(ti)を算出する。エントロピーとは、ある確率分布があるとき、その確率分布に応じて定義される量であり、起こりうる個々の事象が起きたときに得られる情報量の、すべての事象にわたる平均値である。確率分布に偏りが少ないとき、すなわち、一様分布に近いとき、エントロピーの値は大きくなる。
【0036】
エントロピー算出手段21は、まず、単語tiを含む文書の集合V(ti)の要素の個数h(ti)をカウントする。具体的には、以下の〔数式1〕に基づき、単語tiを含む文書の集合V(ti)を特定し、文書の集合V(ti)の要素の個数h(ti)を求める。
【0037】
〔数式1〕
V(ti)(⊆V)={vj∈V;ti∈Tj}
h(ti)=|V(ti)|
【0038】
続いて、各単語 ti (∈T) について、文書の集合Vの中から無作為に選び出した文書vjが単語tiを含む確率 p(ti) を求める。具体的には、以下の〔数式2〕 に基づき、単語tiを含む文書の集合V(ti) の要素の個数 h(ti) を文書数nで除算することによって算出する。
【0039】
〔数式2〕
p(ti)=h(ti)/n
【0040】
次に、以下の〔数式3〕に基づき、確率p(ti)のベルヌーイ試行のエントロピーHを算出し、これを単語tiのエントロピーH(ti)とする。
【0041】
〔数式3〕
H(ti)=-p・log(p)-(1-p)・log(1-p)
【0042】
ここで、〔数式3〕に示したエントロピーH(t
i)の関数について
図6に示す。
図6左側は、確率pとエントロピーHのサンプル値を示す表であり、
図6右側は、横軸を確率p、縦軸をエントロピーHとしたエントロピーHのグラフである。
図6に示すように、エントロピーHは、確率p=0.5のとき最大値1.0をとり、確率p=0.0、確率p=1.0のとき最小値0.0をとる。ある単語t
iから算出されるエントロピーH(t
i) の値が高いとは、その単語t
iが出現するかしないかにより、すべての文書をおよそ半々に分けることができるため、その単語t
iの価値が高いことを示している。
【0043】
次に、全単語から、重要語群を抽出する(ステップS40)。重要語とは全単語のうち重要である単語であり、文書をアイテムとした場合の重要要素である。全文書に含まれる全ての単語の和集合Tを重要語群としてもよいが、和集合Tに含まれる単語数が多すぎる場合は、全単語から絞り込み重要語群を抽出する。本実施形態では、各単語tiのエントロピーの値により重要語を抽出している。具体的には、エントロピーH(ti)の値が一定のしきい値H0以上になっている単語tiだけに絞り込み、これを重要語の集合である重要語群Aとする。重要語群Aは、以下の〔数式4〕で表現される。
【0044】
〔数式4〕
A=[ti∈T; H(ti)≧ H0 ]
【0045】
しきい値H0としては、適宜設定することができるが、例えば0.5を設定することができる。エントロピーH(ti)が0.5以上は、出現確率p(ti)が0.1~0.9程度を意味する。このため、エントロピーH(ti)が0.5以上の単語を重要語として抽出することにより、出現頻度が極端に少なく特殊であると思われる単語や、出現頻度が極端に多く汎用的過ぎると思われる単語を除外することができる。
【0046】
そして、以下のように重要語群Aの要素の個数(これを重要語数と呼ぶこともある)をmとする。これは、以下の〔数式5〕で表現される。
【0047】
〔数式5〕
m=|A|
【0048】
重要語数mは、エントロピーH(ti)が比較的高く、出現頻度が程々の単語tiの数を示している。そのため、特徴ベクトルを求める際の仮の次元数として適している。特徴ベクトルの成分の数を|T|よりも削減しつつ、文書を類別する上で価値の高い単語を残しているからである。
【0049】
次に、各文書vj(∈V)について、重要語数mに対応する次元のベクトルであるm次元特徴ベクトルを求める(ステップS50)。そして、第j番目の文書の特徴ベクトルの第i成分fjiを第j行 第i列成分とするn行×m列の行列をFとすると、行列Fは以下の〔数式6〕のように表現される。なお、m次元特徴ベクトルは後に求めるk次元特徴ベクトルよりも次元数が大きいか、または、等しく、m≧kである。
【0050】
〔数式6〕
F=[fji](j=1,2,3,・・・,n;i=1,2,3,・・・, m)
【0051】
この行列Fの各行ベクトルがm次元特徴ベクトルとなる。したがって、行列Fの各成分を求めることにより、n個の各文書に対応したm次元特徴ベクトルが得られることになる。特に、本実施形態では、〔数式1〕で示したように、各要素(単語ti)を含むアイテム(文書vj:文書の集合V(ti)の要素)を特定し、特定されたアイテムの数(集合V(ti)の要素の個数h(ti))をm次元特徴ベクトルの算出に用いるため、より的確な特徴ベクトルを算出することができる。
【0052】
ステップS50において行列Fを求める手法として、本実施形態では、第1の手法と第2の手法の2通りの手法を用いている。まず、第1の手法について説明する。第1の手法では、第j番目の文書vj(∈V)と、第i番目の重要語ai(∈A)の全ての組み合わせに対し、文書vj(∈V)から抽出された単語の集合Tjが、重要要素である重要語ai(∈A)を含んでいるか否かを判定する。そして、文書vjから抽出された単語の集合Tjが、重要語aiを含む場合は、第j番目の文書の特徴ベクトルの第i成分fji=1とする。一方、文書vjから抽出された単語の集合Tjが、重要語aiを含まない場合は、第j番目の文書の特徴ベクトルの第i成分fji=0とする。これは、以下の〔数式7〕により表現される。
【0053】
〔数式7〕
fji=1(if ai∈Tj)
fji=0(othewise)
【0054】
以上のようにして、第j番目の文書の特徴ベクトルの第i成分fjiがそれぞれ算出され、n行×m列の行列F(=[fji])が得られる。この行列Fの各行の列ベクトルは、各文書vjに対応するm次元特徴ベクトルとなる。このように、第1の手法では、アイテムのm次元特徴ベクトルの第i番目 (1≦i≦m) の成分の値を、当該アイテムに関連する集合が、重要語集合の第 i 番目の要素(重要語)を含むか含まないかに応じて決定している。
【0055】
次に、第2の手法について説明する。
図9は、行列Fを求める第2の手法を説明するための図である。第2の手法では、行列Fの各成分を求めるにあたり、いくつかの定義を行う。まず、与えられた任意の単語t
iが第j番目の文書v
j(∈V)の中に出現する回数をN
j(t
i)と定義する。また、重要語に限定されない全ての単語t
iが第j番目の文書v
j(∈V)の中に出現する回数をN
jと定義する。このように定義すると、以下の〔数式8〕に示すような関係が得られる。
【0056】
〔数式8〕
Nj=ΣiNj(ti)
【0057】
さらに、与えられた任意の単語tiが全ての文書vj(∈V)の中に出現する回数をN(ti)と定義する。このように定義すると、以下の〔数式9〕に示すような関係が得られる。
【0058】
〔数式9〕
N(ti)=ΣjNj(ti)
【0059】
さらに、重要語に限定されない全ての単語tiが全ての文書vj(∈V)の中に出現する回数をNと定義する。このように定義すると、以下の〔数式10〕に示すような関係が得られる。
【0060】
〔数式10〕
N=ΣjNj=ΣjΣiNj(ti)
【0061】
〔数式8〕〔数式9〕〔数式10〕におけるΣ
i、Σ
j、N
j(t
i)、N
j、N(t
i)、Nの関係は、
図9(a)に示したようなものになる。
【0062】
次に、与えられた任意の単語tiが第j番目の文書vj(∈V)の中に出現する確率をpj(ti)と定義する。与えられた任意の単語tiが第j番目の文書vj(∈V)の中に出現する回数Nj(ti)と、重要語に限定されない全ての単語tiが第j番目の文書vj(∈V)の中に出現する回数Njにより、以下の〔数式11〕のように表現できる。
【0063】
〔数式11〕
pj(ti)=Nj(ti)/Nj
【0064】
さらに、与えられた任意の単語tiが全ての文書vj(∈V)の中に出現する確率をp(ti)と定義する。与えられた任意の単語tjが全ての文書vj(∈V)の中に出現する回数N(tj)と、重要語に限定されない全ての単語tiが全ての文書vj(∈V)の中に出現する回数Nにより、以下の〔数式12〕のように表現できる。
【0065】
〔数式12〕
p(ti)=N(ti)/N
【0066】
〔数式11〕〔数式12〕におけるp
j(t
i)、p(t
i)、N
j(t
i)、N
j、N(t
i)、Nの関係は、
図9(b)に示したようなものになる。
図9(a)(b)においては、
図9(a)上段のN
j(t
i)をN
jで除算したものが、
図9(b)上段のp
j(t
i)であり、
図9(a)下段のN(t
i)をNで除算したものが、
図9(b)下段のp(t
i)である。
【0067】
以上のように、各種の出現回数Nj(ti)、Nj、N(ti)、Nと、出現確率pj(ti)、p(ti)が定義されたら、具体的に、n行×m列の行列Fの各成分を求めていく。まず、第j番目の文書vj(∈V)と、第i番目の重要語ai(∈A)の全ての組み合わせに対し、第j番目の文書の特徴ベクトルの第i成分fjiを以下の〔数式13〕のようにして求める。
【0068】
〔数式13〕
fji=g(pj(ai)/p(ai))
【0069】
ここで、g(x)は、傾きを緩和する関数である。〔数式13〕では、与えられた任意の単語ti(ここでは重要語ai)が第j番目の文書vj(∈V)の中に出現する確率pj(ai)と、与えられた任意の単語ti(ここでは重要語ai)が全ての文書vj(∈V)の中に出現する確率p(ai)の比である(pj(ai)/p(ai))に対して、傾きを緩和する関数g(x)を用いることにより、第j番目の文書のm次元特徴ベクトルの第i成分fjiを求めている。
【0070】
g(x)は、恒等写像f(x)=x、であってもよい。しかし、その場合、最終的に得られる全アイテムのk次元空間配置において、少数のアイテムが極端に遠くに配置されるという不都合が発生することがある。そこで、本実施形態では、fjiの値があまり大きくならないように抑制する目的で、傾きを緩和する関数g(x)を用いる。具体的には、関数g(x)がxについて単調増加であり、微分関数g´(x)がxについて単調減少であるような関数をg(x)として選択する。例えば、以下の〔数式14〕に示すような関数g(x)を用いることができる。
【0071】
〔数式14〕
g(x)=log2(x+1)
【0072】
このような関数g(x)を用いることにより、第j番目の文書の特徴ベクトルの第i成分fjiがそれぞれ算出され、n行×m列の行列F(=[fji])が得られる。この行列Fの各行の列ベクトルは、各文書vjに対応するm次元特徴ベクトルとなる。以上のように、第2の手法では、各アイテムのm次元特徴ベクトルを算出する際、当該アイテムのm次元特徴ベクトルの第i番目 (1≦i≦m) の成分を、重要要素の第i番目の要素がそのアイテムに関連する集合に出現する確率と、重要要素の第i番目の要素が和集合に出現する確率との比に基づいて算出している。
【0073】
次に、次元削減を行う(ステップS60)。具体的には、m次元の特徴ベクトルをk次元へと次元削減する。「次元削減」は「次元圧縮」と表現することもでき、次元数を減らすことを意味する。次元削減には、n行×m列の行列Fを用いる。この行列Fを用いて次元削減を行ってn行×k列の行列F´を求める。そして、行列F´の各行の列ベクトルが各文書vjに対応するk次元特徴ベクトルとなる。次元削減する手法としては、主成分分析と独立成分分析の2つの手法がある。
【0074】
主成分分析とは、第1主成分の分散を最大化し、第2主成分以降は、それ以前の主成分と直交する条件において分散を最大化するように選択することにより主成分を決定していく分析手法である。独立成分分析とは、多変量の成分を複数の加法的な成分に分離することにより、独立成分を決定していく分析手法である。主成分分析、独立成分分析のいずれも公知の分析手法であり、これらを用いることにより、m次元の特徴ベクトルをk次元へと次元削減することができる。行列Fを求める2つの手法のうち第1の手法においては、各成分が0か1かの2値の値をとるのみであったが、その場合においても、行列F´の各成分は任意の実数値をとる。これを必要に応じて適正な範囲に正規化して、k次元の特徴ベクトルが得られる。
【0075】
各文書についてk次元の特徴ベクトルが得られたら、アイテム配置手段25が、各文書をk次元空間に配置する(ステップS70)。具体的には、各文書を示すアイコンと、k次元空間における特定の位置座標との対応付けを行う。k次元空間における位置座標は、k次元ベクトルの各成分に相当する値で特定される。そして、各文書のk次元空間における配置情報を表示デバイス等の出力手段30に出力する。出力手段30は、各アイテムに対応するアイコンを配置した散布状態を鳥観図、平面図等として表示する。
【0076】
<4.具体的な例>
次に、具体的なデータを用いた例で説明する。アイテムである文書として、36編の小説を用いた。このような36編の文書を、文書を識別する文書IDと対応付けて文書データベース11に登録しておく。ステップS10において、形態素解析手段26は、形態素解析を実行し、単語を抽出する。この状態で、抽出した単語を、単語を識別する単語IDと出現した文書の文書IDと対応付けて単語データベース10に登録する。
【0077】
この単語データベース10が記憶する情報から、文書IDを特定することにより、その文書IDの文書に出現する単語を特定することができる。ステップS20において、エントロピー算出手段21が、単語データベース10内の全ての単語を抽出し、ステップS30において、抽出された全ての単語について、そのエントロピーを算出する。これは、単語データベース10を、全ての文書IDで参照し、上記〔数式3〕に従った処理を実行してエントロピーを算出することにより行われる。これにより、単語データベース10内の全ての単語のエントロピーが得られる。
【0078】
そして、ステップS40にて重要要素抽出手段22が重要要素である重要語を抽出した後、ステップS50にて特徴ベクトル算出手段23が各文書のm次元特徴ベクトルを求め、ステップS60にて、次元削減手段24がm次元からk(≦m)次元に削減してk次元特徴ベクトルを得る。そして、ステップS70にて、k次元特徴ベクトルを用いて、アイテム配置手段25が、各文書をk次元空間に配置する。配置した情報を表示する際には、指定された1以上の成分に基づき、投影した2次元画像を生成し、出力手段30から出力する。
【0079】
ステップS70において、アイテム配置手段25は、k次元特徴ベクトルのk個の各成分をk個の軸で定義される空間に配置する。出力手段30として表示デバイス等に出力する場合には、k次元空間を出力することもできるが、特定の成分を指定して指定された成分数の次元で出力することもできる。指定された次元の空間には、その次元に対応する特徴ベクトルの成分に対応する位置に各文書を示すアイコンが配置される。各アイコンには、文書データベース11に登録されている文書名、作者名を表示する。以上のようにして作成された配置空間の様子を
図7に示す。
【0080】
図7は、各文書に対応するアイコンをk次元空間に配置した状態を説明するための図である。
図7の例では、3つの成分が指定された際の状態を示しており、3つの成分に対応する軸で表現された3次元空間が示されている。
図7に示すように、配置を行うことにより、各作品の位置付けが一目瞭然となる。各アイコンの下部には、k次元特徴ベクトルのk個の成分のうち指定された成分が示されている(
図7の例では3個)。
【0081】
図7は、説明の便宜上、少数の文書の例を示したが、より多数の文書を用いた場合の配置状態を
図8に示す。
図8の例は、6人の作家についての6つの文書(作品)、計36文書について対応するアイコンを配置した空間を示す図である。
図8では、関心対象カテゴリ(著名な作家群)に属する各アイテム(文書)に関連する集合(単語)を入力データとした、各アイテム(文書)をアイコンとして配置していることになる。
【0082】
図8に示すように、著名な作家群の作品全体の構造を可視化することができる。
図8の例では、k個の成分のうち3個を指定した状態を示している。そして、3個の成分全てを用いたXYZの3次元空間を右上に鳥観図として表示し、3個の成分のうち2個の成分を用いた2次元平面を平面図として3つ表示している。
図8における2次元平面はX-Z、X-Y、Z-Y成分に対応したものとなっている。なお、実際には、各文書に対応するアイコンは、著者ごとに色分けすることもできる。
【0083】
図7、
図8に示したように、関心対象カテゴリに属する各アイテムに対して、それに関連する集合(データ)を用いて各アイテムをk次元空間に配置することで、関心対象カテゴリに属するアイテムの分布の全体像を俯瞰的に眺めることができ、そのカテゴリの構造を把握することができる。特に、関心対象カテゴリに属する全てのアイテムに関連する要素の集合の和集合について、その要素がいくつのアイテムに関連する集合の要素であるかに応じて得られる確率から求めたエントロピーを用いることにより、各アイテムをその要素に応じて特徴付けることができる。また、和集合の要素のうちエントロピーの値が一定値以上の要素からなる重要語集合を用いてm次元特徴ベクトルを求めることにより、重要な要素に基づいて的確な各アイテムのm次元特徴ベクトルを求めることができる。さらに、一旦様々な特徴を組み入れたm次元特徴ベクトルを求めた後、選出されたk個の成分からなるk次元特徴ベクトルを得るため広範な特徴を加味しつつアイテム固有の特徴を特定することができる。k個の成分のうち、特定の成分を指定することにより、任意の成分による分析が可能となる。
【0084】
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、m次元特徴ベクトルをk次元へと次元削減する手法として、主成分分析と独立成分分析を用いたが、多くの次元の特徴ベクトルから少ない次元の特徴ベクトルを求めることができれば、どのような手法であってもよい。
【0085】
また、上記実施形態では、関心対象カテゴリに属する各アイテムとして自然言語で記述された文書を用い、この文書を入力データとして、各アイテムである文書を形態素解析することによって、形態素を抽出し、抽出された形態素からなる集合をもって、各アイテムに関連する集合としたが、事前に、各アイテムに関連する集合を用意しておいてもよい。例えば、上記実施形態において、文書データベース11を用いずに、予め単語データベース10だけを用意しておき、単語データベース10に記録された情報だけを用いて、k次元特徴ベクトルを作成し、各アイテムをk次元空間に配置することも可能である。
【0086】
また、上記実施形態では、関心対象カテゴリを複数の文書群、各アイテムとして自然言語で記述された文書、入力データとして文書に含まれる単語の集合を用いたが、これ以外にも様々な用途を用いることができる。例えば、複数の会社に関する記事群を収集し、これらの記事群を関心対称カテゴリとして、各会社の月別の記事をアイテムとし、各記事に含まれる単語の集合を入力データとし、各会社の記事の位置付けをk次元空間に配置することもできる。また、例えば、複数の商品に関する説明文を収集し、これらの説明文群を関心対称カテゴリとして、各商品をアイテムとし、各商品の説明文に含まれる単語の集合を入力データとし、各商品の位置付けをk次元空間に配置することもできる。
【符号の説明】
【0087】
1・・・CPU(Central Processing Unit)
2・・・RAM(Random Access Memory)
3・・・記憶装置
4・・・指示入力I/F
5・・・データ入出力I/F
6・・・表示部
7・・・GPU
8・・・フレームメモリ
10・・・単語データベース
11・・・文書データベース
20・・・演算処理部
21・・・エントロピー算出手段
22・・・重要要素抽出手段
23・・・特徴ベクトル算出手段
24・・・次元削減手段
25・・・アイテム配置手段
26・・・形態素解析手段
30・・・出力手段
100・・・情報処理装置