特許第6403850号(P6403850)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NSフィナンシャルマネジメントコンサルティング株式会社の特許一覧

特許6403850情報処理装置、情報処理方法及びプログラム
<>
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000002
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000003
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000004
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000005
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000006
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000007
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000008
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000009
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000010
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000011
  • 特許6403850-情報処理装置、情報処理方法及びプログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6403850
(24)【登録日】2018年9月21日
(45)【発行日】2018年10月10日
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20181001BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
   G06F17/30 419B
【請求項の数】14
【全頁数】25
(21)【出願番号】特願2017-165581(P2017-165581)
(22)【出願日】2017年8月30日
【審査請求日】2017年8月30日
(73)【特許権者】
【識別番号】510034258
【氏名又は名称】NSフィナンシャルマネジメントコンサルティング株式会社
(74)【代理人】
【識別番号】100117857
【弁理士】
【氏名又は名称】南林 薫
(72)【発明者】
【氏名】楠戸 健一郎
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 特開2010−231434(JP,A)
【文献】 特開2011−141801(JP,A)
【文献】 国際公開第2007/043593(WO,A1)
【文献】 特開2003−281159(JP,A)
【文献】 特開2003−099445(JP,A)
【文献】 米国特許出願公開第2011/0202886(US,A1)
【文献】 特開2003−345811(JP,A)
【文献】 特開2007−193380(JP,A)
【文献】 渡部勇,ビジュアルテキストマイニング,人工知能学会誌,日本,(社)人工知能学会,2001年 3月 1日,第16巻 第2号,pp.226〜232
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、
前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、
前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、
前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、
前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、
を有する情報処理装置。
【請求項2】
前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記単語の前記オブジェクトにおける重要性を示すスコア値を決定する第1のスコア決定手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードの前記1つ以上の区分に含まれる区分における重要性を示すスコア値を決定する第2のスコア決定手段と、
を更に有し、
前記抽出手段は、前記第1のスコア決定手段により決定されたスコア値に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記キーワード決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1記載の情報処理装置。
【請求項3】
前記第1のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。
【請求項4】
前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。
【請求項5】
前記第2の特徴量決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの特徴量を決定する請求項2乃至4何れか1項記載の情報処理装置。
【請求項6】
前記抽出手段は、前記オブジェクト文書データ群における単語の出現頻度と、前記オブジェクトを含む複数のオブジェクトそれぞれに関する複数の文書データ群における単語の希少性と、に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する請求項1乃至5何れか1項記載の情報処理装置。
【請求項7】
前記第1の特徴量決定手段は、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの重要性を示すスコア値を決定し、決定したスコア値に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴を示すベクトルを決定し、決定したベクトルを次元圧縮し、次元圧縮したベクトルを、前記オブジェクト文書データ群に含まれる文書データの特徴量として決定する請求項1乃至6何れか1項記載の情報処理装置。
【請求項8】
前記キーワード決定手段は、前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度と、前記1つ以上の区分における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1乃至7何れか1項記載の情報処理装置。
【請求項9】
前記抽出手段により抽出されたキーワードの意味を決定する意味決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記意味決定手段により決定された意味と、に基づいて、前記特徴情報を生成する請求項1乃至8何れか1項記載の情報処理装置。
【請求項10】
前記意味決定手段は、前記抽出手段により抽出されたキーワードの潜在的意味を抽出し、抽出した潜在的意味を、前記抽出手段により抽出されたキーワードの意味として決定する請求項9記載の情報処理装置。
【請求項11】
前記生成手段により生成された前記特徴情報に基づいて、前記オブジェクトにおける要素毎の特徴同士の関係を示す画像を出力する出力手段を更に有する請求項1乃至10何れか1項記載の情報処理装置。
【請求項12】
前記抽出手段は、企業である前記オブジェクトに関する複数の文書データを含む前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記分類手段は、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素である事業にそれぞれ対応する1つ以上の区分に分類する請求項1乃至11何れか1項記載の情報処理装置。
【請求項13】
情報処理装置が実行する情報処理方法であって、
オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出ステップと、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出ステップで抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出ステップで抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定ステップと、
前記第1の特徴量決定ステップで決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類ステップと、
前記分類ステップで前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出ステップで抽出されたキーワードの出現頻度に基づいて、前記抽出ステップで抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定ステップと、
前記抽出ステップで抽出されたキーワードの特徴量を決定する第2の特徴量決定ステップと、
前記第2の特徴量決定ステップで決定された特徴量に基づいて、前記抽出ステップで抽出されたキーワード同士の関連性を決定する関連性決定ステップと、
前記キーワード決定ステップで決定されたキーワードと、前記関連性決定ステップで決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成ステップと、
を含む情報処理方法。
【請求項14】
コンピュータを、請求項1乃至12何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
近年、大量の文書データが、企業等の記憶領域やインターネット上の記憶領域等に蓄積され、様々な用途に利用されている。そして、その大量の文書データをビジネス・研究等に利用しようとする動きも活発化してきている。
文書データを解析する技術には、特許文献1がある。特許文献1には、自然言語で記述された文書を解析し、予め与えられた分野の情報を抽出し、文書に含まれる単語間の関係を含む情報を一定の形式で出力する情報抽出システムであり、キーワード間の関係を認定しながら構文解析を行うことによって正しい情報を数多く、より正確に抽出する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平07−85071号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
団体(例えば、企業、学校、研究機関等)や個人等のオブジェクトに関する文書データを解析して、そのオブジェクトにどのような要素が含まれているかを把握することが望まれている。例えば、企業内にどういった特徴の事業が存在するのかを把握したいという要望や、研究機関内に、どのような研究部署が存在するのかを把握することが望まれている。そこで、オブジェクト内にどのような要素があるのかを示す情報を生成したいという要望があった。しかし、特許文献1では、オブジェクト内にどのような要素があるのかを示す情報を生成できなかった。
そこで、本発明は、オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
【課題を解決するための手段】
【0005】
そこで、本発明の情報処理装置は、オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、を有する。
【発明の効果】
【0006】
本発明によれば、オブジェクト内にどのような要素があるのかを示す情報を生成することができる。
【図面の簡単な説明】
【0007】
図1図1は、情報処理装置のハードウェア構成の一例を示す図である。
図2図2は、情報処理装置の処理の一例を示すフローチャートである。
図3図3は、抽出されたキーワードの一例を示す図である。
図4図4は、文書データの特徴量の一例を説明する図である。
図5図5は、文書データの特徴量の一例を説明する図である。
図6図6は、クラスタ毎のキーワードの一例を示す図である。
図7図7は、キーワードの特徴量の一例を説明する図である。
図8図8は、特徴情報の一例を説明する図である。
図9図9は、特徴情報の一例を説明する図である。
図10図10は、特徴情報の一例を説明する図である。
図11図11は、要素毎に構造化されたキーワードを示す画像の一例を示す図である。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(処理の概要)
例えば、企業等の団体がビジネスを推進していく際、ある団体に関する団体情報やその団体の製品・サービス情報、事業構造や団体間のビジネス構造等の特徴を捉え、各特徴がその団体におけるどの事業に関する特徴であり、各特徴同士がどのような関連性を有するかを把握することで、その団体の詳細をより容易に把握でき、団体の事業動向の詳細把握、業種・業態の明示化、ビジネスマッチング等が可能となる。
そこで、本実施形態では、情報処理装置100が、オブジェクトである団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関連性を示す特徴情報を生成する処理について説明する。
【0009】
(情報処理装置のハードウェア構成)
図1は、情報処理装置100のハードウェア構成である。情報処理装置100は、パーソナルコンピュータ、サーバ装置、タブレット装置等の情報処理装置である。
情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104を含む。各要素は、システムバス105を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリア、データの一時的な記憶場所として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置103は、各種プログラム、各種設定情報、各種文書データ等を記憶する記憶装置である。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記憶媒体を用いて実装される。ネットワークI/F104は、インターネットやLAN等のネットワークを介した外部の装置との通信に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されているプログラムに基づき処理を実行することで、情報処理装置100の機能、及び、図2で後述するフローチャートの処理、(画像出力処理)、(検索処理)で説明する処理等が実現される。
【0010】
(特徴情報の生成処理)
図2は、情報処理装置100の処理の一例を示すフローチャートである。
S201において、CPU101は、予め定められた複数の団体それぞれについて、団体に関する複数の文書データを含む文書データ群を取得する。以下では、予め定められた複数の団体を、団体群とする。また、以下では、団体に関する文書データ群を、団体文書データ群とする。団体文書データ群は、オブジェクトに関する文書データ群であるオブジェクト文書データ群の一例である。CPU101は、例えば、予め補助記憶装置103に記憶された団体群に含まれる団体それぞれに関する団体文書データ群を取得する。また、CPU101は、ネットワークI/F104を介して、インターネットを介して、外部の記憶装置から、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。また、CPU101は、検索エンジンを介して、インターネット上の団体それぞれに関する文書データを検索することで、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。
また、CPU101は、1つの団体に関する団体文書データ群を取得することとしてもよい。
S202において、CPU101は、S201で取得した複数の団体文書データ群から、単語を抽出する。CPU101は、例えば、団体文書データ群に含まれる各文書データに対して、形態素解析を行うことで、単語を抽出する。
【0011】
S203において、CPU101は、団体群に含まれる団体それぞれについて、団体文書データ群における各単語のその団体における重要度を示すスコア値を決定する。CPU101は、例えば、以下のようにして、団体群に含まれる団体(1)に関する団体文書データ群に含まれる単語(1)のスコア値を決定する。
まず、CPU101は、団体(1)に関する団体文書データ群における単語(1)の出現頻度と、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性と、を決定する。文書データ群における単語の出現頻度とは、その単語がその文書データ群中に出現する度合いを示す指標である。複数の文書データ群における単語の希少性とは、その複数の文書データ群におけるその単語の希少さの度合いを示す指標である。
【0012】
CPU101は、例えば、団体(1)に関する団体文書データ群からS202で単語が全部でA個抽出され、単語(1)がB個抽出された場合、団体(1)に関する団体文書データ群における単語(1)の出現頻度を、B/Aとして決定する。このように、団体(1)に関する団体文書データ群に含まれる単語の総数と、その団体文書データ群に含まれる単語(1)の数と、の比率は、その団体文書データ群における単語(1)の出現頻度の一例である。
また、CPU101は、例えば、団体群それぞれに関する複数の団体文書データ群に単語(1)を含む文書データを含む団体文書データ群がC個存在し、団体群それぞれに関する複数の団体文書データ群に団体文書データ群がD個存在する場合、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、Log(D/C)として決定する。また、CPU101は、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、D/Cとして決定してもよい。このように、団体群それぞれに関する複数の団体文書データ群のうち、単語(1)を含む団体文書データ群の数と、その複数の団体文書データ群に含まれる団体文書データ群の数と、の比率や、この比率の任意の正数を底とする対数等は、その複数の団体文書データ群における単語(1)の希少性の一例である。
【0013】
CPU101は、決定した出現頻度と希少性とに基づいて、団体(1)における単語(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF(Term Frequency−Inverse Document Frequency)法を用いて、単語(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、団体(1)に関する団体文書データ群で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、団体(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、団体群における各団体にとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の団体との関係を考慮した上で、団体において各単語がどの程度重要なのかをより精度よく示すスコア値を決定できる。これにより、CPU101は、S204で、他の団体との関係(例えば、他の団体との特徴の違い等)を考慮した上で、団体の特徴を示すキーワードを抽出できる。
CPU101は、以上の処理を団体(1)に関する団体文書データ群に含まれる単語全てにおいて行い、団体(1)に関する団体文書データ群における各単語のスコア値を決定する。
また、CPU101は、同様の処理を、団体群に含まれる団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれに関する複数の団体文書データ群それぞれにおける各単語のスコア値を決定する。
【0014】
本実施形態では、CPU101は、S203で団体群に含まれる団体について、団体群に含まれる複数の団体それぞれに関する複数の団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定することとした。しかし、CPU101は、例えば、S201で1つの団体に関する団体文書データ群を取得した場合、その1つの団体に関する1つの団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
その場合、CPU101は、以下のようにしてその団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
即ち、CPU101は、その団体文書データ群における各単語の出現頻度を決定し、決定した出現頻度に基づいて、各単語のスコア値を決定してもよい。CPU101は、例えば、各単語の出現頻度の値を、各単語のスコア値として決定してもよい。
【0015】
S204において、CPU101は、団体群に含まれる団体それぞれについて、団体の特徴を示すキーワードを抽出する。CPU101は、例えば、以下のようにして、団体(1)の特徴を示すキーワードを抽出する。即ち、CPU101は、団体(1)に関する団体文書データ群からS201で抽出した単語のうち、S202で決定したスコア値が、予め定められた閾値以上である単語を、団体(1)の特徴を示すキーワードとして抽出する。
また、CPU101は、同様の処理を、団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれについて、キーワードを抽出する。S204の処理は、キーワードを抽出する抽出処理の一例である。
図3は、S204で抽出された団体(1)のキーワードの一例を示す図である。図3の例は、団体(1)のキーワードとして、「部品」、「クリーン」、「ベッド」、「エンジン」、「ブレーキ」、「家具」、「エネルギー」、「エアコン」、「寝装品」、「トランスミッション」という10個の単語が決定された様子を示している。
S205において、CPU101は、団体群から、1つの団体を選択する。以下では、S205で選択された団体を選択団体とする。
【0016】
S206において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、S204で抽出された選択団体のキーワードの文書データそれぞれにおける重要性を示すスコア値を決定する。CPU101は、例えば、以下のようにして、選択団体に関する団体文書データ群に含まれる文書データ(1)におけるS204で抽出された選択団体のキーワード(1)のスコア値を決定する。S206の処理は、第1のスコア決定処理の一例である。
まず、CPU101は、文書データ(1)におけるキーワード(1)の出現頻度と、選択団体に関する団体文書データ群におけるキーワード(1)の希少性と、を決定する。文書データにおけるキーワードの出現頻度とは、そのキーワードがその文書データ中に出現する度合いを示す指標である。団体文書データ群におけるキーワードの希少性とは、その団体文書データ群に含まれる複数の文書データにおけるそのキーワードの希少さの度合いを示す指標である。
【0017】
CPU101は、例えば、文書データ(1)に単語が全部でE個含まれ、S204でキーワード(1)がF個抽出された場合、文書データ(1)におけるキーワード(1)の出現頻度を、F/Eとして決定する。このように、文書データ(1)に含まれる単語の総数と、文書データ(1)に含まれるキーワード(1)の数と、の比率は、文書データ(1)におけるキーワード(1)の出現頻度の一例である。また、CPU101は、例えば、文書データ(1)にS204で選択団体のキーワードとして抽出されたキーワードがE’個含まれ、S204でキーワード(1)がF個抽出された場合、文書データ(1)におけるキーワード(1)の出現頻度を、F/E’として決定することとしてもよい。
また、CPU101は、例えば、選択団体に関する団体文書データ群に含まれる全ての文書データにキーワード(1)を含む文書データがG個存在し、選択団体に関する団体文書データ群に文書データが全部でH個存在する場合、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、Log(H/G)として決定する。また、CPU101は、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、H/Gとして決定してもよい。このように、選択団体に関する団体文書データ群に含まれる全ての文書データのうちキーワード(1)を含む文書データの数と、その団体文書データ群に含まれる文書データの数と、の比率や、この比率の任意の正数を底とする対数等は、その団体文書データ群におけるキーワード(1)の希少性の一例である。
【0018】
CPU101は、決定した出現頻度と希少性とに基づいて、文書データ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF法を用いて、文書データ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、文書データ(1)で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれる文書データ(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各文書データにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の文書データとの関係(例えば、他の文書データとの特徴の違い等)を考慮した上で、文書データにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
【0019】
CPU101は、以上の処理を文書データ(1)に含まれるS204で抽出された選択団体のキーワード全てにおいて行い、文書データ(1)における各キーワードのスコア値を決定する。キーワード(1)が文書データ(1)に含まれない場合、CPU101は、出現頻度を0として、同様の処理で文書データ(1)におけるキーワード(1)のスコア値を決定してもよいし、文書データ(1)におけるキーワード(1)のスコア値を予め定められた値(例えば0等)に決定してもよい。
また、CPU101は、同様の処理を、選択団体に関する団体文書データ群に含まれる文書データ(1)以外の他の文書データについても行い、選択団体に関する団体文書データ群に含まれる文書データそれぞれにおける各キーワードのスコア値を決定する。
【0020】
S207において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてS206で決定した各キーワードのスコア値に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれの特徴量を決定する。CPU101は、例えば、選択団体に関する団体文書データ群に含まれる文書データの特徴量を以下のようにして決定する。即ち、CPU101は、その文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、文書データの特徴量として決定する。S207の処理は、第1の特徴量決定処理の一例である。
図4は、文書データの特徴量の一例を説明する図である。図4のテーブル400は、選択団体に関する団体文書データ群に含まれる各文書データにおける各キーワードのスコア値を示すテーブルである。図4の例では、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル400における文書データに対応する列が、その文書データにおける各キーワードのスコア値を示している。即ち、CPU101は、ある文書データに対応する列に含まれる各スコア値を要素としたベクトルを、その文書データの特徴量として決定する。
【0021】
また、CPU101は、文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、次元圧縮したベクトルを、その文書データの特徴量として決定してもよい。
例えば、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、テーブル400における文書データに対応する列に含まれる各スコア値を要素としたベクトルを生成する。そして、CPU101は、生成した各ベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて、次元圧縮し、次元圧縮した各ベクトルを、各文書データの特徴量として決定する。
図5は、文書データの特徴量の一例を説明する図である。図5のテーブル500は、選択団体に関する団体文書データ群に含まれる各文書データにおける特徴量の各要素(基底)の値を示すテーブルである。図5の例では、図4と同様に、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。テーブル500における文書データに対応する列が、その文書データの特徴量のベクトルの各要素の値を示している。即ち、テーブル500におけるある文書データに対応する列は、その文書データの特徴量のベクトルを示す。テーブル500における文書データに対応する列が示すベクトルは、図4のテーブル400におけるその文書データに対応する列が示すベクトルが次元圧縮されたベクトルとなる。このように、CPU101は、次元圧縮したベクトルを、文書データの特徴量として決定することで、S208での文書データのクラスタリングの処理の負担を軽減できる。
【0022】
S208において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてS207で決定した特徴量に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。CPU101は、例えば、k−means法、最短距離法、ウォード法等のクラスタリング手法を用いて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。CPU101は、団体文書データ群に含まれる複数の文書データを、文書データの特徴量に基づいてクラスタリングすることで、特徴が類似する文書データを1つのクラスタにまとめることができる。団体文書データ群に含まれる類似する複数の文書データは、団体に含まれる何らかの要素の特徴を示す文書データと仮定できる。そのため、CPU101は、選択団体に関する団体文書データ群に含まれる複数の文書データをクラスタリングすることで、複数の文書データそれぞれを、選択団体に含まれる要素にそれぞれ対応する1つ以上の区分(クラスタ)に分類することができる。
S209において、CPU101は、予め定められた基準に基づいて、S208でクラスタリングされた各クラスタから、選択団体における事業を示すクラスタを決定する。例えば、団体に含まれる事業に関する文書データは、事業活動が実施されている場合、一定以上の数があると仮定できる。そのため、事業に関する文書データの数は、予め定められた数以上存在することが仮定できる。そこで、CPU101は、例えば、クラスタに含まれる文書データの数が予め定められた閾値(例えば、10等)以上である場合、そのクラスタを、事業を示すクラスタとして決定する。以下では、事業を示すクラスタとして決定されたクラスタを、事業クラスタとする。
【0023】
S210において、CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、S204で抽出された選択団体のキーワードの事業クラスタそれぞれにおける重要性を示すスコア値を決定する。CPU101は、例えば、以下のようにして、S209で事業クラスタとして決定されたクラスタであるクラスタ(1)におけるS204で抽出された選択団体のキーワード(1)のスコア値を決定する。S210の処理は、第2のスコア決定処理の一例である。
まず、CPU101は、クラスタ(1)におけるキーワード(1)の出現頻度と、事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性と、を決定する。クラスタにおけるキーワードの出現頻度とは、そのキーワードがそのクラスタに含まれる文書データ中に出現する度合いを示す指標である。事業クラスタとして決定された全てのクラスタにおけるキーワードの希少性とは、その全てのクラスタにおけるそのキーワードの希少さの度合いを示す指標である。
【0024】
CPU101は、例えば、クラスタ(1)に含まれる全ての文書データに単語が全部でI個含まれ、S204でクラスタ(1)に含まれる全ての文書データからキーワード(1)がJ個抽出された場合、クラスタ(1)におけるキーワード(1)の出現頻度を、J/Iとして決定する。このように、クラスタ(1)に含まれる全ての文書データに含まれる単語の総数と、クラスタ(1)に含まれる全ての文書データに含まれるキーワード(1)の数と、の比率は、クラスタ(1)におけるキーワード(1)の出現頻度の一例である。また、CPU101は、例えば、クラスタ(1)に含まれる全ての文書データにおいてS204で選択団体のキーワードとして抽出されたキーワードが全部でI’個含まれ、S204でクラスタ(1)に含まれる全ての文書データからキーワード(1)がJ個抽出された場合、クラスタ(1)におけるキーワード(1)の出現頻度を、J/I’として決定することとしてもよい。
また、CPU101は、例えば、S209で事業クラスタとして決定された全てのクラスタに含まれるクラスタにキーワード(1)を含む文書データを含むクラスタがK個存在し、S209で事業クラスタとして決定されたクラスタの数が全部でL個存在する場合、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、Log(L/K)として決定する。また、CPU101は、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、L/Kとして決定してもよい。このように、S209で事業クラスタとして決定された全てのクラスタに含まれるキーワード(1)を含む文書データを含むクラスタの数と、その全てのクラスタに含まれるクラスタの数と、の比率や、この比率の任意の正数を底とする対数等は、その全てのクラスタにおけるキーワード(1)の希少性の一例である。
【0025】
CPU101は、決定した出現頻度と希少性とに基づいて、クラスタ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF法を用いて、クラスタ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、クラスタ(1)で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれるクラスタ(1)における特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各クラスタにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他のクラスタとの関係(例えば、他のクラスタとの特徴の違い等)を考慮した上で、クラスタにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
【0026】
CPU101は、以上の処理をクラスタ(1)に含まれるS204で抽出された選択団体のキーワード全てにおいて行い、クラスタ(1)における各キーワードのスコア値を決定する。キーワード(1)がクラスタ(1)に含まれる文書データのどれにも含まれない場合、CPU101は、出現頻度を0として、同様の処理でクラスタ(1)におけるキーワード(1)のスコア値を決定してもよいし、クラスタ(1)におけるキーワード(1)のスコア値を予め定められた値(例えば0等)に決定してもよい。
また、CPU101は、同様の処理を、S209で事業クラスタとして決定されたクラスタ(1)以外の他のクラスタについても行い、事業クラスタとして決定されたクラスタそれぞれにおける各キーワードのスコア値を決定する。
【0027】
また、クラスタが1つしかない場合(例えば、S209で事業クラスタとして決定されたクラスタが1つである場合、S208でクラスタリングされたクラスタの数が1つである場合等)、CPU101は、S210で以下のようにしてクラスタにおけるキーワードのスコア値を決定してもよい。
即ち、CPU101は、そのクラスタにおける各キーワードの出現頻度を決定し、決定した出現頻度に基づいて、各キーワードのスコア値を決定してもよい。CPU101は、例えば、各キーワードの出現頻度の値を、各キーワードのスコア値として決定してもよい。
【0028】
S211において、CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタの特徴を示すキーワードを決定する。CPU101は、例えば、以下のようにして、クラスタ(1)の特徴を示すキーワードを決定する。即ち、CPU101は、S204で選択団体について抽出されたキーワードのうち、S210でクラスタ(1)について決定したスコア値が、予め定められた閾値以上であるキーワードを、クラスタ(1)の特徴を示すキーワードとして決定する。
また、CPU101は、同様の処理を、クラスタ(1)以外のS209で事業クラスタとして決定された他のクラスタについても行い、クラスタそれぞれについて、キーワードを決定する。S211の処理は、キーワード決定処理の一例である。
図6は、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す図である。図6の例では、選択団体が団体(1)である場合に、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す。図6中の3つの枠は、それぞれ、S209で事業クラスタとして決定されたクラスタを示す。各枠内の単語は、各枠に対応するクラスタの特徴を示すキーワードである。図6の例では、「ベッド」、「寝装品」、「家具」という3つのキーワードを持つクラスタと、「エアコン」、「クリーン」、「エネルギー」という3つのキーワードを持つクラスタと、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」という4つのキーワードを持つクラスタと、が団体(1)に含まれていることが示されている。このように、CPU101は、S211の処理により、S204で抽出されたキーワードを、事業毎にグルーピングできる。
【0029】
S212において、CPU101は、S204で抽出された選択団体におけるキーワードそれぞれの特徴量を決定する。CPU101は、例えば、S210でクラスタ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定する。即ち、CPU101は、キーワードについて、クラスタ毎にS210で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定する。この特徴量は、対応するキーワードがクラスタ毎にどの程度重要であるかを示す特徴量とみなすことができる。S212の処理は、第2の特徴量決定処理の一例である。
図7は、キーワードの特徴量の一例を説明する図である。図7のテーブル700は、S209で事業クラスタとして決定された各クラスタにおける各キーワードのスコア値を示すテーブルである。図7の例では、事業クラスタとして決定されたクラスタは、クラスタ(1)〜クラスタ(k)のk個のクラスタである。また、図7の例では、S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル700におけるあるクラスタに対応する列が、そのクラスタにおける各キーワードのスコア値を示している。テーブル700におけるキーワードに対応する行が、各クラスタにおけるそのキーワードのスコア値を示している。CPU101は、各キーワードの特徴量として、テーブル700における各キーワードに対応する行が示す各スコア値を要素としたベクトルを、そのキーワードの特徴量として決定する。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルを、そのキーワードの特徴量として決定してもよい。
また、CPU101は、例えば、S206で文書データ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定することとしてもよい。即ち、CPU101は、キーワードについて、文書データ毎にS206で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定してもよい。この特徴量は、対応するキーワードが文書データ毎にどの程度重要であるかを示す特徴量とみなすことができる。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルをキーワードそれぞれの特徴量として決定してもよい。
【0030】
S213において、CPU101は、S212で決定した特徴量に基づいて、S213でクラスタ毎に決定されたキーワード同士の関連の度合いを示す関連度を、選択団体におけるキーワード同士の関連性として決定する。キーワード同士の関連性は、団体が異なれば、異なる場合がある。例えば、自動車を製造販売しているA社とB社とがあるとする。A社は、高級感のある自動車を重点的に製造・販売しており、B社は、安価な軽自動車を重点的に製造・販売しているとする。この場合、A社におけるキーワード「自動車」とキーワード「高級感」との関連性は、B社におけるキーワード「自動車」とキーワード「高級感」との関連性よりも、大きいものとなる。CPU101は、このような各団体におけるキーワード同士の関連性の違いを加味して、S213で、選択団体におけるキーワード同士の関連性を決定する。S213の処理は、関連性決定処理の一例である。
関連性のあるキーワード同士は、あるクラスタ(又は、文書データ)において一方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値が高い程、他方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値も高くなると仮定できる。即ち、関連性のあるキーワード同士のS212で決定した特徴量同士は、一方の特徴量におけるある次元の要素の値が大きい程、他方の特徴量におけるその次元における要素の値が大きくなると仮定できる。そのため、キーワード同士の特徴量同士の内積は、キーワード同士の関連性が大きい程、値が大きくなると仮定できる。そこで、CPU101は、例えば、S212で決定されたキーワード(1)の特徴量であるベクトルと、S212で決定されたキーワード(2)の特徴量であるベクトルと、の内積を、キーワード(1)とキーワード(2)との関連度として決定する。
【0031】
S214において、CPU101は、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。CPU101は、例えば、S203で決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについてS203で決定されたスコア値を、重要度として決定する。S214の処理は、重要度決定処理の一例である。
CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタ毎に決定されたキーワードの重要度に基づいて、クラスタを代表するキーワードである核キーワードを決定する。CPU101は、例えば、あるクラスタについて決定されたキーワードのうち、重要度が最も高いキーワードを、そのクラスタの核キーワードとして決定する。
また、CPU101は、例えば、S210でクラスタ毎に決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定してもよい。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについて、S211で決定されたスコア値を、重要度として決定してもよい。
本実施形態では、CPU101は、S209で事業に対応するクラスタとして決定したクラスタを用いて、S210〜S214の処理を行った。これにより、CPU101は、事業以外のクラスタについて、特徴を示すキーワードを決定する処理の負担を軽減できる。しかし、CPU101は、S208でクラスタリングされた全てのクラスタを用いて、S210〜S214の処理を行うこととしてもよい。その場合、CPU101は、S209の処理を行わないこととしてもよい。
【0032】
S215において、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行したか否かを判定する。CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行したと判定した場合、S216の処理に進む。また、CPU101は、団体群に含まれる団体の中に、S205〜S214の処理を実行していない団体があると判定した場合、S205の処理に進む。
本実施形態では、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行することとする。しかし、CPU101は、団体群に含まれる団体のうち予め定められた団体のみについて、S205〜S214の処理を実行することとしてもよい。その場合、CPU101は、S215で、その予め定められた団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
また、CPU101は、外部の情報処理装置等から、S205〜S214の処理の対象となる団体の指定を受付けることとしてもよい。その場合、CPU101は、団体群に含まれる団体のうち指定された団体のみについて、S205〜S214の処理を実行することとなる。その場合、CPU101は、S215で、指定された団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
S216において、CPU101は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれについて、意味を決定する。CPU101は、例えば、単語の共起性に着目して、その単語の意味を決定する手法であるword2vec、トピックモデル等の手法を用いて、キーワードが持つ潜在的意味を決定する。共起性とは、ある単語と他の単語とが、文書や文等において、同時に出現する傾向を示す性質である。キーワードが持つ潜在的意味は、キーワードが潜在的に有する意味であり、キーワードの意味の一例である。本実施形態では、CPU101は、キーワードそれぞれの潜在的意味を示す情報として、単語の潜在的意味を表現する意味空間におけるキーワードそれぞれに対応するベクトルを取得する。
また、CPU101は、複数の単語の意味を記憶する辞書を用いて、キーワードそれぞれの意味を決定してもよい。S216の処理は、意味決定処理の一例である。
【0033】
S217において、CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成し、生成した特徴情報を補助記憶装置103等に記憶する。
CPU101は、例えば、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、を示す情報を、特徴情報として生成する。CPU101は、例えば、図8〜10に示すようなテーブルの情報を、特徴情報として生成する。
【0034】
図8〜10は、特徴情報の一例を説明する図である。
図8のテーブル800は、団体群に含まれる団体Aについて、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を管理するキーワード管理テーブルである。テーブル800は、「キーワード」、「団体キーワードスコア」、「事業カテゴリ」、「事業キーワードスコア」の項目を含む。「キーワード」の項目は、団体Aについて、S204で抽出された各キーワードを示す。
「団体キーワードスコア」の項目は、対応するキーワードについて、S203で決定されたスコア値を示す。「事業カテゴリ」は、S209で事業カテゴリとして決定されたカテゴリを識別する情報を示す。「事業キーワードスコア」の項目は、対応する事業における対応するキーワードについて、S210で決定されたスコア値を示す。
【0035】
同一の「事業カテゴリ」に対応する「キーワード」それぞれは、対応する「事業カテゴリ」が示す事業の特徴を示すキーワードとなる。図8の例では、キーワード「word1」と「word2」とは、「category1」が示す同一の事業の特徴を示すこととなる。
また、テーブル800におけるキーワード「word15」のように、同じキーワードが、複数の事業それぞれの特徴を示すキーワードとして決定される場合もある。
CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードに基づいて、団体群に含まれる団体それぞれについて、キーワードと事業との対応関係を決定し、テーブル800における「キーワード」と「事業カテゴリ」との項目の値を決定する。CPU101は、団体群に含まれる団体それぞれについて、テーブル800と同様のキーワード管理テーブルを生成し、補助記憶装置103に記憶する。
【0036】
「団体キーワードスコア」、「事業キーワードスコア」の何れかは、S214で決定された事業におけるキーワード毎の重要度を示す。S203で決定されたスコア値が各キーワードの重要度として、S214で決定された場合、「団体キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。S210で決定されたスコア値が各キーワードの重要度として、S214で決定された場合、「事業キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。
CPU101は、S203で決定されたスコア値に基づいて、「団体キーワードスコア」の項目の値を決定し、S210で決定されたスコア値に基づいて、「事業キーワードスコア」の項目の値を決定する。
また、CPU101は、「団体キーワードスコア」、「事業キーワードスコア」のうち、事業における各キーワードの重要度を示す項目以外の項目をテーブル800に含ませないようにすることとしてもよい。
【0037】
図9のテーブル900は、団体群に含まれる団体Aについて、S213で決定されたキーワード同士の関連性を示す情報を管理する関連性管理テーブルである。
テーブル900には、団体Aについて、S212でキーワード毎に決定された特徴量の情報が格納されている。S213で説明したように、これらの特徴量の内積は、対応するキーワード同士の関連の度合いを示す。そのため、CPU101は、テーブル900における各キーワードに対応する列が示すベクトル同士の内積を求めることで、キーワード同士の関連の度合いを示す関連度を決定できる。そこで、本実施形態では、CPU101は、S212で決定した特徴量の情報を格納するテーブル900を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶することとする。CPU101は、団体群に含まれる団体それぞれについて、テーブル900と同様に関連性管理テーブルを生成し、補助記憶装置103に記憶する。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度の情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度が予め定められた閾値以上である場合、そのキーワード同士に関連があるとして、計算した関連度が予め定められた閾値未満である場合、そのキーワード同士に関連がないとして、キーワード同士の関連の有無を示す情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
【0038】
図10のテーブル1000は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれの潜在的意味の情報を管理する意味管理テーブルである。
テーブル1000における各キーワードに対応する列は、対応するキーワードの潜在的意味を示すベクトルの各基底の値を示す。CPU101は、S216で各キーワードについて抽出した潜在的意味を示すベクトルに基づいて、テーブル1000の各要素の値を決定する。
キーワード同士の潜在的意味が類似する程、キーワードの潜在的意味を示すベクトル同士も類似する。そのため、キーワードの潜在的意味を示すベクトル同士の内積は、キーワード同士の潜在的意味の類似の度合いを示す指標となる。そこで、CPU101は、テーブル1000における各キーワードに対応する列が示すベクトル同士の内積を、キーワード同士の類似の度合いを示す類似度として決定できる。
【0039】
また、CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成してもよい。
その場合、CPU101は、団体群に含まれる団体それぞれについて、図8で説明したテーブル800の項目のうち、「キーワード」、「事業カテゴリ」、の項目を含むテーブルをキーワード管理テーブルとして生成する。また、CPU101は、団体群に含まれる団体それぞれについて、図9で説明した関連性管理テーブルを生成する。
そして、CPU101は、生成したキーワード管理テーブルと、関連性管理テーブルと、を特徴情報として、補助記憶装置103に記憶する。
【0040】
(画像出力処理)
CPU101は、図2の処理により生成した特徴情報に基づいて、団体の事業毎にキーワードを構造化した画像を生成し、出力することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像の要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像を生成し、生成した画像を要求元に送信することで出力する。要求元の情報処理装置は、受信した画像を表示部に表示することで、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像をユーザに提示する。
【0041】
図11は、特徴情報に基づいて生成された、ある団体について事業毎にキーワードを構造化した画像の一例を示す図である。図11を用いて、図3、6で説明した団体(1)について、事業毎にキーワードを構造化した画像を生成する処理について説明する。
CPU101は、特徴情報から、団体(1)について、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を格納するキーワード管理テーブルを取得する。そして、CPU101は、例えば、取得したテーブルの「事業カテゴリ」の項目から、団体(1)に含まれる事業を決定する。CPU101は、決定した各事業に対応する「キーワード」の項目から、団体(1)に含まれる各事業について、事業の特徴を示すキーワードを決定する。
団体(1)は、図6で説明したように、キーワード「ベッド」、「寝装品」、「家具」に対応する事業と、キーワード「クリーン」、「エアコン」、「エネルギー」に対応する事業と、キーワード「部品」、「ブレーキ」、「トランスミッション」、「エンジン」に対応する事業と、が含まれている。そのため、CPU101は、3つの事業を決定し、決定した3つの事業それぞれに対応するキーワードとして、「ベッド」、「寝装品」、「家具」と、「クリーン」、「エアコン」、「エネルギー」と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」とを決定する。また、CPU101は、各事業に対応するクラスタを代表する核キーワードとして、「家具」、「エネルギー」、「部品」を決定する。
【0042】
CPU101は、取得したテーブルの「団体キーワードスコア」又は「事業キーワードスコア」の項目から、各キーワードの重要度を決定する。
また、CPU101は、特徴情報から、団体(1)についてキーワード同士の関連性を示す関連性管理テーブルを取得する。そして、CPU101は、取得したテーブルから各キーワードの特徴量を決定し、決定した特徴量同士の内積を求め、各キーワード同士の関連度を決定する。CPU101は、決定した関連度が、予め定められた閾値以上である場合、その関連度に対応する2つのキーワード同士に関連があると決定する。また、CPU101は、決定した関連度が、予め定められた閾値未満である場合、その関連度に対応する2つのキーワード同士に関連がないと決定する。
また、CPU101は、特徴情報から、図10で説明したテーブル1000を取得する。そして、CPU101は、テーブル1000から、団体(1)の各事業のキーワードの潜在的意味を示すベクトルを取得する。
【0043】
CPU101は、団体(1)について決定した事業毎のキーワード、各キーワード同士の関連の有無、各キーワードの重要度、各キーワードの潜在的意味、に基づいて、事業毎にキーワードを構造化した画像を生成する。
CPU101は、各キーワードを示す楕円形ブロック(以下では、キーワードブロックとする)を、対応する事業を視認できるように画像中に配置する。CPU101は、例えば、同じ事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以下となるように配置し、異なる事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以上となるように配置することで、各キーワードブロックを、対応する事業を視認できるように配置する。また、CPU101は、例えば、画像中に事業それぞれに対応する枠を記載し、各枠内に、その枠が示す事業に対応するキーワードブロックを配置するようにしてもよい。図11の例では、「ベッド」、「寝装品」、「家具」の組と、「クリーン」、「エアコン」、「エネルギー」の組と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」の組と、がそれぞれ密集している様子が示されている。
【0044】
また、CPU101は、各キーワードブロックのサイズを、各キーワードの重要度に基づいて決定する。CPU101は、例えば、各キーワードブロックのサイズを、対応するキーワードの重要度が大きい程大きくなるように決定する。これにより、CPU101は、どのキーワードが重要であるかをより容易に視認できるようにすることができる。図11の例では、「部品」の重要度が最も大きいため、「部品」のキーワードブロックが最もサイズが大きくなっている。
また、CPU101は、各キーワード同士の関連の有無に基づいて、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載する。図11の例では、関連のあるキーワードブロック同士をつなぐ線が記載されている様子が示されている。これにより、CPU101は、関連のあるキーワードに対応するキーワードブロック同士を構造化し、各事業の特徴の視認による把握をより容易にすることができる。
図11の例では、CPU101は、同じクラスタに属する関連のあるキーワードに対応するキーワードブロック同士をつなぐ線として実線を記載する。また、CPU101は、異なるクラスタに属する核キーワードに対応するキーワードブロック同士をつなぐ線として破線、二重線等の実線と異なる線を記載する。このように、CPU101は、同じクラスタに属するキーワードに対応するキーワードブロック同士をつなぐ線と異なる線を用いて、各クラスタに属する核キーワードに対応するキーワードブロック同士を接続し構造化することで、全体として団体の特徴を表す構造を表示することができる。図11には、クラスタ内のキーワードブロック同士が実線で繋がれており、クラスタそれぞれの核キーワードである「エネルギー」、「家具」、「部品」同士が破線でつながれている様子が示されている。また、CPU101は、同じ事業に対応するキーワードブロックについてのみ、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載することとしてもよい。その場合、図11の画像における「エネルギー」、「家具」、「部品」それぞれをつなぐ線が記載されないこととなる。
また、CPU101は、各キーワードの潜在的意味に応じて、各キーワードブロックの背景の表示態様(色・模様等)を決定する。キーワードの潜在的意味は、キーワードがどの団体の特徴を示すか、どの事業の特徴を示すか、とは関わりなく決定されている。そのため、団体の別、事業の別、と関わりなく、類似する潜在的意味を持つキーワードのキーワードブロックの背景は、類似する表示態様となる。そのため、CPU101は、異なる団体、異なる事業間における類似する特徴の視認による把握をより容易にできる。
【0045】
また、CPU101は、団体(1)について決定した事業毎のキーワード、各キーワード同士の関連の有無、に基づいて、事業毎にキーワードを構造化した画像を生成することしてもよい。
また、CPU101は、外部の情報処理装置から、団体群に含まれる(1つ又は複数の)団体について、事業毎にキーワードを構造化した画像の要求を受信した場合、その(1つ又は複数の)団体についてのみ、事業毎にキーワードを構造化した画像を生成し、出力してもよい。
【0046】
ユーザは、団体について事業毎にキーワードが構造化された画像を視認することで、以下のようなことを把握できる。
例えば、情報処理装置100が、ユーザが所属する企業と、その企業の競合他社と、を団体群として、特徴情報を生成したとする。そして、情報処理装置100が、ユーザが所属する企業と、その競合他社と、について、事業毎にキーワードが構造化された画像を生成した画像を生成する。ユーザは、その画像を視認することで、以下のようなことを把握できる。即ち、ユーザは、自社の事業毎にキーワードが構造化された画像を視認することで、自社の特徴を把握できる。また、ユーザは、自社の事業毎にキーワードが構造化された画像と、競合他社の事業毎にキーワードが構造化された画像と、を見比べることで、同一市場・業界の平均的な特徴、自社の強み・弱み、競合の強み・弱み等を把握できる。
また、ユーザは、複数事業を展開している企業についても、その企業のキーワードの構造と、類似したキーワードの構造を有する他の企業を把握することで、その企業が展開している事業をより正確に把握できる。
【0047】
ユーザは、このようなことを把握することで、より適切な売却先、業務提携先、資本提携先、仕入れ販売先等を見つけることができる。
本実施形態の処理は、事業会社において、企業価値向上を目指す企業の業務(自社・競合・他社把握や、提携先検討等)において活用ができる。また、仲介実施会社において、証券会社におけるM&A先の紹介、銀行におけるビジネスマッチング先紹介、等の業務においても、活用ができる。また、調査研究機関、機関投資家等において、調査研究機関や機関投資家における業界や個社動向調査においても活用ができる。
【0048】
(検索処理)
CPU101は、図2の処理により生成した特徴情報に基づいて、指定された単語と関連のある団体を検索することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、ある単語(例えば「ヘルメット」等)と関連のある団体を検索するよう要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、指定された単語と関連のある団体を団体群から検索し、検索した団体を示す情報を要求元に送信する。
CPU101は、例えば、団体群に含まれる団体それぞれについて生成されたキーワード管理テーブルの「キーワード」の項目から、指定された単語を検索する。そして、CPU101は、検索した「キーワード」に対応する重要度が予め定められた閾値以上である場合、検索した「キーワード」を含む団体を示す情報を、検索結果として要求元に送信する。
【0049】
また、CPU101は、以下のような処理を行うこととしてもよい。
CPU101は、特徴情報に含まれる団体群それぞれについて生成された関連性管理テーブルと、テーブル1000とに、基づいて、指定された単語と関連するキーワードと、指定された単語と類似するキーワードと、を検索する。そして、CPU101は、検索したキーワードのリストを、要求元に送信する。要求元の情報処理装置は、受信したキーワードのリストを表示部に表示し、ユーザに提示する。ユーザは、表示されたキーワードのリストから、団体の検索に用いられる(1つ又は複数の)単語を追加で、選択する。要求元の情報処理装置は、ユーザによって選択された単語を情報処理装置100に送信し、初めに送信した単語と、改めて送信した単語と、に関連する団体を検索するよう要求する。
例えば、要求元の情報処理装置は、初めに「ヘルメット」という単語で、団体の検索を行うよう情報処理装置100に要求したとする。その場合、情報処理装置100は、「ヘルメット」に関連するキーワード、類似するキーワードのリストを要求元に送信する。そして、ユーザは、夏場での利用を想定したヘルメットを開発している企業を探したい場合、受信したキーワードのリストから「通気性」という単語を選択する。そして、要求元の情報処理装置は、「通気性」という単語を情報処理装置100に送信し、「ヘルメット」と「通気性」とに関連する団体を検索するよう要求する。以下では、最初に指定された単語(「ヘルメット」)をオリジナル検索ワード、追加で指定された単語(「通気性」)を追加関連ワードとする。
【0050】
CPU101は、オリジナル検索ワードと、追加関連ワードと、に関連する団体を、団体群から検索する。CPU101は、団体群に含まれる団体それぞれについて生成された図8で説明したテーブルと同様のテーブルから、オリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とをキーワードとする団体を検索する。また、CPU101は、更に、オリジナル検索ワードと追加関連ワードに類似する単語とをキーワードとする団体を検索してもよい。CPU101は、テーブル1000に基づいて、追加関連ワードに類似する単語を決定できる。
CPU101は、検索した団体について、検索条件にどの程度合致しているかを示す合致スコアを決定する。CPU101は、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度に基づいて、合致スコアを決定する。CPU101は、例えば、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度が大きい程、値が大きくなるように合致スコアを決定する。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とに関連性がある団体の合致スコアを、関連性がない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワードとが、同じ事業クラスタのキーワードとなっている団体の合致スコアを、そうでない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。
【0051】
CPU101は、検索した団体の情報と、各団体の合致スコアの情報と、を要求元の情報処理装置に送信する。要求元の情報処理装置は、検索された団体の情報を、合致スコアが大きい順に並べて、表示部に表示する。ユーザは、検索された団体の情報を視認して、関連のありそうな団体を把握できる。また、要求元の情報処理装置は、合致スコアが最大のものから予め定められた数(例えば3個)の団体について、各団体の事業毎のキーワードを表示部に表示することとしてもよい。そして、ユーザは、表示されたキーワードの中から更に追加する追加関連ワードとなるキーワードを選択する。そして、要求元の情報処理装置は、選択されたキーワードの情報を情報処理装置100に送信する。情報処理装置100は、追加関連ワードに、受信したキーワードを追加する。
そして、CPU101は、オリジナル検索ワードと、受信したキーワードが追加された追加関連ワード(又は追加関連ワードに類似する単語)と、に基づいて、同様の処理を繰り返す。これにより、情報処理装置100は、ユーザが望む条件により合致する団体を検索することができる。
【0052】
また、CPU101は、図2の処理により生成した特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された団体に類似する団体を検索することができる。
CPU101は、例えば、外部の情報処理装置等から、ある団体の指定を受付け、その団体に類似する団体の検索の要求を受付ける。以下では、指定された団体を、オリジナル団体とする。CPU101は例えば、オリジナル団体に含まれるキーワード(以下では、キーワード(A)とする)それぞれについて、オリジナル団体における重要度と、他の団体(以下では、検索先団体とする)における重要度と、の積の和を、オリジナル団体と検索先団体との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先団体に含まれる団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の団体を、オリジナル団体に類似する団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
【0053】
また、CPU101は、キーワード(A)と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)それぞれについて、オリジナル団体におけるキーワード(A)の重要度と、検索先団体におけるキーワード(A)に類似するキーワードの重要度と、の積に、キーワード(A)とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B)とする)について、検索先団体においても単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(B)の重要度と、検索先団体におけるキーワード(B)の重要度と、の積に係数(以下では、第1の係数とする)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第1の係数は、例えば、2等である。このようにすることで、CPU101は、キーワード(B)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A)のうち、オリジナル団体において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C)とする)について、検索先団体においても単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(C)の重要度と、検索先団体におけるキーワード(C)の重要度と、の積に係数(以下では、第2の係数)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第2の係数は、例えば、3等の第1の係数よりも大きな値としてもよい。このようにすることで、CPU101は、キーワード(C)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
【0054】
また、CPU101は、特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された事業と類似する事業を持つ企業を検索することもできる。
CPU101は、例えば、外部の情報処理装置等から、ある団体におけるある事業の指定を受付け、その事業に類似する事業を有する団体の検索の要求を受付ける。以下では、指定された事業を、オリジナル事業とする。CPU101は例えば、オリジナル事業に含まれるキーワード(以下では、キーワード(A’)とする)それぞれについて、オリジナル事業における重要度と、他の団体に含まれる事業(以下では、検索先事業とする)における重要度と、の積の和を、オリジナル事業と検索先事業との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先事業を含む団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の事業を含む団体を、オリジナル事業に類似する事業を含む団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
【0055】
また、CPU101は、キーワード(A’)と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)それぞれについて、オリジナル事業におけるキーワード(A’)の重要度と、検索先事業におけるキーワード(A’)に類似するキーワードの重要度と、の積に、キーワード(A’)とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B’)とする)について、検索先事業に対応する単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(B’)の重要度と、検索先事業におけるキーワード(B’)の重要度と、の積に第1の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(B’)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A’)のうち、オリジナル事業において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C’)とする)について、検索先事業に対応する単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(C’)の重要度と、検索先事業におけるキーワード(C’)の重要度と、の積に第2の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(C’)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
【0056】
(まとめ)
以上、本実施形態では、情報処理装置100は、団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、団体の特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関係を示す特徴情報を生成した。これにより、情報処理装置100は、団体内にどのような事業があるのかを示す情報を生成することができる。
【0057】
<その他の実施形態>
実施形態1では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、情報処理装置100の機能及び図2のフローチャートの処理、(画像出力処理)、(検索処理)で説明した処理等が実現される。
実施形態1では、情報処理装置100は、団体について、団体に含まれる要素である事業毎の特徴同士の関係を示す特徴情報を生成することとした。しかし、情報処理装置100は、団体以外のオブジェクトについて、オブジェクトに含まれる要素毎に特徴同士の関係を示す特徴情報を生成してもよい。例えば、情報処理装置100は、個人が文書投稿サイト等に投稿した複数の文書データを含む文書データ群から、個人の特徴を示すキーワードを抽出し、文書データ群に含まれる各文書データをクラスタリングし、個人に含まれる要素(性格・趣味等)を示す各クラスタを求め、各クラスタの特徴を示すキーワードを決定し、キーワード同士の関連性を決定し、決定した各クラスタの特徴を示すキーワードと、キーワード同士の関連性と、を示す情報を、特徴情報として生成してもよい。
【0058】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。
【符号の説明】
【0059】
100 情報処理装置
101 CPU
【要約】
【課題】オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
【解決手段】オブジェクトに関する複数の文書データを含む文書データ群から、オブジェクトの特徴を示すキーワードを抽出し、オブジェクトに含まれる要素毎にキーワードをグルーピングすることで、各要素の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した要素毎のキーワードと、キーワード同士の関係性と、に基づいて、オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する。
【選択図】図2
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11