(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-03
(45)【発行日】2022-08-12
(54)【発明の名称】2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
(51)【国際特許分類】
G06F 16/34 20190101AFI20220804BHJP
【FI】
G06F16/34
(21)【出願番号】P 2020111604
(22)【出願日】2020-06-29
【審査請求日】2022-02-02
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)令和2年4月17日、ウェブサイトにおけるプレスリリースにて公開(https://www.fronteo.com/20200417)、(2)令和2年5月18日、ウェブサイトに掲載した動画(https://lifescience.fronteo.com/covid-19)およびPDFファイル(https://lifescience.fronteo.com/wp-content/uploads/2020/05/■FRONTEOのAIによるDrug-Discoveryについて.pdf)にて公開(■は、丸数字の2)、(3)令和2年5月25日、ウェブサイトに掲載した動画(https://lifescience.fronteo.com/covid-19)およびPDFファイル(https://lifescience.fronteo.com/wp-content/uploads/2020/05/FRONTEO~COMBAT~COVID-19~■COVID-19に対して行った探索.pdf)にて公開(■は、丸数字の4)、(4)令和2年6月15日、ウェブサイトに掲載した動画(https://lifescience.fronteo.com/covid-19)およびPDFファイル(https://lifescience.fronteo.com/wp-content/uploads/2020/06/FRONTEO~COMBAT~COVID-19~■探索結果(5)SARSとCOVID-19の差.pdf)にて公開(■は、丸数字の9)、(5)令和2年4月23日、日本経済新聞(令和2年4月23日付電子版)にて公開
【早期審査対象出願】
(73)【特許権者】
【識別番号】316014906
【氏名又は名称】株式会社FRONTEO
(74)【代理人】
【識別番号】100105784
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】豊柴 博義
【審査官】松尾 真人
(56)【参考文献】
【文献】国際公開第2016/171186(WO,A1)
【文献】国際公開第2019/093172(WO,A1)
【文献】特開2016-177794(JP,A)
【文献】早川 和宏,ユーザの利用履歴に基づくWWWサーバの地図型ディレクトリ,情報処理学会研究報告,社団法人情報処理学会,1997年01月16日,第97巻 第2号,pp.17~24,ISSN 0919-6072
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
G16Z 99/00
G06F 17/00-17/18
(57)【特許請求の範囲】
【請求項1】
対象情報から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する2次元マップ生成装置であって、
上記対象情報から上記特徴ベクトルを算出する特徴ベクトル算出部と、
上記特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する2次元化処理部と、
上記複数の対象情報について上記2次元化処理部により生成された複数の上記緯度経度情報に基づいて上記2次元マップを生成するマップ生成部とを備え
、
m個の対象情報(mは2以上の任意の整数)からm個の特徴ベクトルを算出して、当該m個の特徴ベクトルを次元圧縮して上記2次元マップを生成した後、x個(xは1以上の任意の整数)の対象情報を加えて上記2次元マップを再生成する場合、
上記特徴ベクトル算出部は、m+x個の対象情報から上記特徴ベクトルを再算出し、
上記2次元化処理部は、上記m個の対象情報については、上記m個の特徴ベクトルから生成されたm個の上記緯度経度情報をそのまま用いる一方、上記x個の対象情報については、上記m個の特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、上記m+x個の対象情報から算出されたx個の特徴ベクトルに対して次元圧縮の処理を行うことによってx個の上記緯度経度情報を追加生成し、
上記マップ生成部は、上記2次元化処理部により上記m個の対象情報について生成されたm個の上記緯度経度情報および上記x個の対象情報について生成されたx個の上記緯度経度情報に基づいて上記2次元マップを生成する
ことを特徴とする2次元マップ生成装置。
【請求項2】
上記2次元化処理部は、
上記特徴ベクトルの次元を削減して、原点からの距離が一定となる位置の3次元座標情報を生成する3次元化処理部と、
上記3次元化処理部により生成された上記3次元座標情報を上記緯度経度情報に置換する座標置換部とを備えた
ことを特徴とする請求項1に記載の2次元マップ生成装置。
【請求項3】
上記対象情報は文章であり、
上記特徴ベクトルは、文章がどの単語に対してどの程度寄与しているのかを表した指標値を複数の要素とするベクトルである
ことを特徴とする請求項1または2に記載の2次元マップ生成装置。
【請求項4】
対象情報である文章から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する2次元マップ生成装置であって、
m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部と、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは3より大きい任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出部と、
上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出部と、
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映したm×n個の指標値を算出する指標値算出部と、
上記m個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を上記特徴ベクトルとして特定する特徴ベクトル特定部
と、
上記特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する2次元化処理部と、
上記複数の対象情報について上記2次元化処理部により生成された複数の上記緯度経度情報に基づいて上記2次元マップを生成するマップ生成部とを備え、
上記m個の文章に加えてx個(xは1以上の任意の整数)の文章を解析対象として加える場合、
上記単語抽出部は、m+x個の文章を解析し、当該m+x個の文章から上記n個の単語を抽出し、
上記文章ベクトル算出部は、上記m+x個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm+x個の文章ベクトルを算出し、
上記単語ベクトル算出部は、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出し、
上記指標値算出部は、上記m+x個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m+x個の文章および上記n個の単語間の関係性を反映した(m+x)×n個の指標値を算出し、
上記特徴ベクトル特定部は、上記x個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を追加の特徴ベクトルとして更に特定し、
上記2次元化処理部は、上記m個の文章のそれぞれについて上記特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、上記x個の文章のそれぞれについて上記追加の特徴ベクトルに対して次元圧縮の処理を行うことにより、上記x個の文章のそれぞれについて2次元の緯度経度情報を更に生成し、
上記マップ生成部は、上記2次元化処理部により上記m個の文章について生成されたm個の上記緯度経度情報および上記x個の文章について生成されたx個の上記緯度経度情報に基づいて上記2次元マップを生成する
ことを特徴とす
る2次元マップ生成装置。
【請求項5】
上記対象情報は単語であり、
上記特徴ベクトルは、単語がどの文章に対してどの程度寄与しているのかを表した指標値を複数の要素とするベクトルである
ことを特徴とする請求項1または2に記載の2次元マップ生成装置。
【請求項6】
上記特徴ベクトル算出部は、
m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部と、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは3より大きい任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出部と、
上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出部と、
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映したm×n個の指標値を算出する指標値算出部と、
上記n個の単語のうち1つの単語についてm個の文章の指標値から成る単語指標値群を上記特徴ベクトルとして特定する特徴ベクトル特定部と
を備えた
ことを特徴とする請求項5に記載の2次元マップ生成装置。
【請求項7】
対象情報から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する2次元マップ生成方法であって、
コンピュータの特徴ベクトル算出部が、上記対象情報から上記特徴ベクトルを算出する第1のステップと、
上記
コンピュータの2次元化処理部が、上記特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する
第2のステップと、
上記コンピュータのマップ生成部が、上記複数の対象情報について上記2次元化処理部により生成された複数の上記緯度経度情報に基づいて上記2次元マップを生成する
第3のステップとを有
し、
m個の対象情報(mは2以上の任意の整数)からm個の特徴ベクトルを算出して、当該m個の特徴ベクトルを次元圧縮して上記2次元マップを生成した後、x個(xは1以上の任意の整数)の対象情報を加えて上記2次元マップを再生成する場合、
上記特徴ベクトル算出部は、m+x個の対象情報から上記特徴ベクトルを再算出し、
上記2次元化処理部は、上記m個の対象情報については、上記m個の特徴ベクトルから生成されたm個の上記緯度経度情報をそのまま用いる一方、上記x個の対象情報については、上記m個の特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、上記m+x個の対象情報から算出されたx個の特徴ベクトルに対して次元圧縮の処理を行うことによってx個の上記緯度経度情報を追加生成し、
上記マップ生成部は、上記2次元化処理部により上記m個の対象情報について生成されたm個の上記緯度経度情報および上記x個の対象情報について生成されたx個の上記緯度経度情報に基づいて上記2次元マップを生成する
ことを特徴とする2次元マップ生成方法。
【請求項8】
対象情報である文章から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する2次元マップ生成方法であって、
コンピュータの単語抽出部が、m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する第1のステップと、
上記コンピュータの文章ベクトル算出部が、上記m個の文章をそれぞれ所定のルールに従ってq次元(qは3より大きい任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する第2のステップと、
上記コンピュータの単語ベクトル算出部が、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する第3のステップと、
上記コンピュータの指標値算出部が、上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映したm×n個の指標値を算出する第4のステップと、
上記コンピュータの特徴ベクトル特定部が、上記m個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を上記特徴ベクトルとして特定する第5のステップと、
上記コンピュータの2次元化処理部が、上記特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する第6のステップと、
上記コンピュータのマップ生成部が、上記複数の対象情報について上記2次元化処理部により生成された複数の上記緯度経度情報に基づいて上記2次元マップを生成する第7のステップとを有し、
上記m個の文章に加えてx個(xは1以上の任意の整数)の文章を解析対象として加える場合、
上記単語抽出部は、m+x個の文章を解析し、当該m+x個の文章から上記n個の単語を抽出し、
上記文章ベクトル算出部は、上記m+x個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm+x個の文章ベクトルを算出し、
上記単語ベクトル算出部は、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出し、
上記指標値算出部は、上記m+x個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m+x個の文章および上記n個の単語間の関係性を反映した(m+x)×n個の指標値を算出し、
上記特徴ベクトル特定部は、上記x個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を追加の特徴ベクトルとして更に特定し、
上記2次元化処理部は、上記m個の文章のそれぞれについて上記特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、上記x個の文章のそれぞれについて上記追加の特徴ベクトルに対して次元圧縮の処理を行うことにより、上記x個の文章のそれぞれについて2次元の緯度経度情報を更に生成し、
上記マップ生成部は、上記2次元化処理部により上記m個の文章について生成されたm個の上記緯度経度情報および上記x個の文章について生成されたx個の上記緯度経度情報に基づいて上記2次元マップを生成する
ことを特徴とする2次元マップ生成方法。
【請求項9】
対象情報から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する処理をコンピュータに実行させるための2次元マップ生成用プログラムであって、
上記対象情報から上記特徴ベクトルを算出する特徴ベクトル算出手段、
上記特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する2次元化処理手段、および
上記複数の対象情報について上記2次元化処理手段により生成された複数の上記緯度経度情報に基づいて上記2次元マップを生成するマップ生成手段
として上記コンピュータを機能させ
、
m個の対象情報(mは2以上の任意の整数)からm個の特徴ベクトルを算出して、当該m個の特徴ベクトルを次元圧縮して上記2次元マップを生成した後、x個(xは1以上の任意の整数)の対象情報を加えて上記2次元マップを再生成する場合、
上記特徴ベクトル算出手段は、m+x個の対象情報から上記特徴ベクトルを再算出し、
上記2次元化処理手段は、上記m個の対象情報については、上記m個の特徴ベクトルから生成されたm個の上記緯度経度情報をそのまま用いる一方、上記x個の対象情報については、上記m個の特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、上記m+x個の対象情報から算出されたx個の特徴ベクトルに対して次元圧縮の処理を行うことによってx個の上記緯度経度情報を追加生成し、
上記マップ生成手段は、上記2次元化処理手段により上記m個の対象情報について生成されたm個の上記緯度経度情報および上記x個の対象情報について生成されたx個の上記緯度経度情報に基づいて上記2次元マップを生成する
2次元マップ生成用プログラム。
【請求項10】
対象情報である文章から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する処理をコンピュータに実行させるための2次元マップ生成用プログラムであって、
m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出手段、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは3より大きい任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出手段、
上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出手段、
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映したm×n個の指標値を算出する指標値算出手段、
上記m個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を上記特徴ベクトルとして特定する特徴ベクトル特定手段
上記特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する2次元化処理手段、および
上記複数の対象情報について上記2次元化処理手段により生成された複数の上記緯度経度情報に基づいて上記2次元マップを生成するマップ生成手段
として上記コンピュータを機能させ、
上記m個の文章に加えてx個(xは1以上の任意の整数)の文章を解析対象として加える場合、
上記単語抽出手段は、m+x個の文章を解析し、当該m+x個の文章から上記n個の単語を抽出し、
上記文章ベクトル算出手段は、上記m+x個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm+x個の文章ベクトルを算出し、
上記単語ベクトル算出手段は、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出し、
上記指標値算出手段は、上記m+x個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m+x個の文章および上記n個の単語間の関係性を反映した(m+x)×n個の指標値を算出し、
上記特徴ベクトル特定手段は、上記x個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を追加の特徴ベクトルとして更に特定し、
上記2次元化処理手段は、上記m個の文章のそれぞれについて上記特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、上記x個の文章のそれぞれについて上記追加の特徴ベクトルに対して次元圧縮の処理を行うことにより、上記x個の文章のそれぞれについて2次元の緯度経度情報を更に生成し、
上記マップ生成手段は、上記2次元化処理手段により上記m個の文章について生成されたm個の上記緯度経度情報および上記x個の文章について生成されたx個の上記緯度経度情報に基づいて上記2次元マップを生成する
2次元マップ生成用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラムに関し、特に、対象情報から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成する技術に用いて好適なものである。
【背景技術】
【0002】
従来、検索対象から生成される特徴ベクトルに基づいて2次元平面上に複数の検索対象をプロットした2次元マップを表示させ、ユーザ操作により指定した領域に含まれるプロットに対応する検索対象を抽出して一覧表示する技術が知られている(例えば、特許文献1,2参照)。
【0003】
特許文献1に記載の文書検索装置では、文書ベクトルに基づいて複数の文書を2次元平面上にプロットしたマップを表示させる。そして、このように文書間の関連性の度合いによりプロットの位置決めをした2次元マップ上でユーザが所望の領域を指定すると、指定された領域に含まれる複数の文書のクエリーベクトルを合成し、情報データベース内の文書ベクトルと合成クエリーベクトルとを比較して、合成クエリーベクトルと近い文書ベクトルに対応する文書を抽出して一覧表示する。
【0004】
この特許文献1に記載の文書検索装置において、2次元マップ作成器は、ユーザにより入力された検索キーワードに基づいて抽出した文書に対応する文書ベクトルを情報データベースから読み出し、各文書間の類似度を計算する。例えば、各文書内に含まれる単語のウエイトを要素とする文書ベクトルの内積を計算して各文書間の類似度を計算する。2次元マップ作成器は、各文書ベクトル間の類似度に基づき、類似している文書どうしが2次元マップ上で近くに配置されるように、多次元から成る文書ベクトルの次元を減らして2次元化し、x座標とy座標に変換する。2次元マップ作成器は、各文書のx座標とy座標の座標リストを作成し、当該座標リストに基づいて2次元マップを作成する。
【0005】
また、特許文献2に記載の情報検索装置では、情報アイテムの集合から、当該情報アイテムの互いの類似性に基づいて、類似する情報アイテムが近接した位置にマッピングされるように、各情報アイテムをアレー内の各位置に対応させて示した2次元マップを生成して表示させる。そして、ユーザが2次元マップ上で任意の境界領域を定義するための操作を行うと、当該定義された境界領域内に位置を示す情報として存在し、かつ、検索クエリに対応するものとしてアレー内の位置に対応する情報アイテムを特定することによって、境界領域について関連検索を行い、当該関連検索の結果として特定された情報アイテムを一覧表示する。
【0006】
この特許文献2に記載の情報検索装置において、情報アイテムは例えば文書である。情報検索装置は、文書内で用いられる用語の頻度を表す抽象表現(例えば、辞書に存在する単語が個々の文書内で出現する回数をカウントすることによって構成される用語頻度ヒストグラム)に基づいて、多次元の特徴ベクトルを生成する。そして、当該特徴ベクトルの次元を減らした後、2次元の自己組織化マップに投影することにより、意味マップを作成する。一例として、コホネンの自己組織化マップを用いた特徴ベクトルのクラスタリングにより2次元へのマッピングを行う。各文書についての特徴ベクトルをマップに与えることにより、各文書についてx座標およびy座標によるマップ位置が生じ、それがどこに存在するかによって、文書間の関係性を視覚化することができる。
【先行技術文献】
【特許文献】
【0007】
【文献】特許第5159772号公報
【文献】特許第4540970号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記特許文献1,2に記載の技術では、多次元の特徴ベクトルを2次元のxy座標情報に次元圧縮することによって、各文書の2次元マップ上でのプロット位置を決定するようにしている。xy座標を用いる座標系は、x座標の値およびy座標の値を無限に取り得る開空間である。そのため、この開空間の座標系に対して複数の文書をプロットするためには、所定の上下限値を定めることによって開空間の座標系の中に対象エリアを定義し、定義した対象エリア内に多次元のベクトル情報を移すような処理が必要となる。
【0009】
しかしながら、特徴ベクトル間の類似度を計算して各文書のプロット位置を決めるとしても、無限の開空間の中に有限の対象エリアを適切に定義すること自体が難しいため、対象エリアが狭いとプロット位置間の相対距離が適切な状態にならず、マップ上に複数の分散したクラスターができにくいという問題があった。ここでいうクラスターとは、特徴ベクトルが互いに類似する文書どうしが近接した位置にプロットされることによって形成される塊り状の領域のことを言う。上記特許文献1,2に記載の技術では、特徴ベクトルの類似関係に基づき各文書のプロット位置が決定されることにより、
図10のように文書間の関係性は視覚化されるが、元々が無限空間の座標系から限定された狭い対象エリアの中では、複数の異なるクラスターが分散した状態で可視化されることが起こりにくいという問題があった。
【0010】
本発明は、このような問題を解決するために成されたものであり、対象情報から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットすることによって生成される2次元マップに関して、複数の分散したクラスターが現れやすい2次元マップを生成できるようにすることを目的とする。
【課題を解決するための手段】
【0011】
上記した課題を解決するために、本発明では、対象情報から生成される特徴ベクトルに対して次元圧縮の処理を行うことによって2次元の緯度経度情報を生成し、複数の対象情報について生成された複数の緯度経度情報に基づいて、2次元平面上に複数の対象情報をプロットした2次元マップを生成するようにしている。
【発明の効果】
【0012】
上記のように構成した本発明において、緯度経度情報を用いてプロットされる座標系は、緯度の値および経度の値が元々有限の閉空間である。本発明によれば、この閉空間の座標系に対して複数の対象情報を特徴ベクトルに基づいてプロットすればよいため、無限の開空間の座標系の中に有限の対象エリアを定義するような処理を行う必要がなく、緯度経度に基づく広い座標空間の中で、特徴ベクトルが持つ情報の性質に応じて対象情報のプロット位置を適切に決定することができる。このため、特徴ベクトルの類似度が高い対象情報どうしが近接した位置に塊り状にプロットされる状態が複数の箇所で適切に起こりやすくなる。これにより、本発明によれば、対象情報から生成される特徴ベクトルに基づいて2次元平面上に複数の対象情報をプロットすることによって生成される2次元マップに関して、複数の分散したクラスターが現れやすい2次元マップを生成することができる。
【図面の簡単な説明】
【0013】
【
図1】第1の実施形態による2次元マップ生成装置を含む2次元マップ可視化システムの構成例を示す図である。
【
図2】第1の実施形態による2次元マップ生成装置を含む2次元マップ可視化システムの他の構成例を示す図である。
【
図3】2次元化処理部のより具体的な機能構成を示すブロック図である。
【
図4】3次元化処理部および座標置換部の処理内容を説明するための図である。
【
図5】第1の実施形態による2次元マップ生成部の動作例を示すフローチャートである。
【
図6】第2の実施形態による2次元マップ生成装置を含む2次元マップ可視化システムの構成例を示す図である。
【
図7】第2の実施形態による特徴ベクトル算出部が有する具体的な機能構成例を示すブロック図である。
【
図8】第2の実施形態の特徴ベクトル算出部により算出される特徴ベクトルの一例を示す図である。
【
図9】第2の実施形態の特徴ベクトル算出部により算出される特徴ベクトルの他の例を示す図である。
【発明を実施するための形態】
【0014】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。
図1は、第1の実施形態による2次元マップ生成装置を含む2次元マップ可視化システムの構成例を示す図である。
図1に示すように、本実施形態の2次元マップ可視化システムは、第1の実施形態による2次元マップ生成部10、マップ表示部20、対象情報DB記憶部31および表示装置32を備えて構成されている。2次元マップ生成部10は、機能構成として、2次元化処理部11およびマップ生成部12を備えている。
【0015】
上記各機能ブロック11,12,20は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11,12,20は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0016】
2次元マップ生成部10およびマップ表示部20は、例えば、1つのコンピュータに備えられる構成としてもよい。例えば、2次元マップ生成部10およびマップ表示部20を1つのパーソナルコンピュータが備える構成としてもよい。この場合、対象情報DB記憶部31および表示装置32は、パーソナルコンピュータが備える構成としてもよいし、パーソナルコンピュータに対して有線または無線で接続される構成としてもよい。
【0017】
また、2次元マップ生成部10およびマップ表示部20は、複数のコンピュータに分散して備えられる構成としてもよい。この場合の構成例を
図2に示す。
図2に示す例では、2次元マップ生成部10および対象情報DB記憶部31がサーバ装置100に備えられ、マップ表示部20および表示装置32がクライアント端末200に備えられる。サーバ装置100とクライアント端末200とはインターネット等の通信ネットワーク300により接続され、互いの通信部101,201を介してデータ通信を行うようになっている。
【0018】
例えば、クライアント端末200からサーバ装置100に対して2次元マップの表示要求を行い、それに応じてサーバ装置100の2次元マップ生成部10が以下に説明する処理を行うことによって2次元マップを生成し、これをクライアント端末200に提供する。クライアント端末200のマップ表示部20は、サーバ装置100から提供された2次元マップを表示装置32に表示させる。具体的には、クライアント端末200が備えるウェブブラウザを用いて、以上のような処理を行うようにすることが可能である。
【0019】
対象情報DB記憶部31は、対象情報に関するデータベースを記憶する不揮発性の記憶媒体である。対象情報は、2次元マップへのプロット対象とする情報であり、任意の情報を対象とすることが可能である。例えば、テキスト情報、画像情報、音声情報、振動情報、生体情報(医療機器やセンサ類等による測定情報)、気象情報などでもよく、これらに限らずあらゆる情報を対象情報として用いることが可能である。
【0020】
対象情報DB記憶部31には、対象情報に関するデータとして、対象情報から生成される特徴ベクトルのデータが少なくとも記憶される。特徴ベクトルは、対象情報が有する特徴(対象情報を識別可能な特徴)を複数の要素の値の組み合わせとして表したデータであり、要素の数が特徴ベクトルの成分の数、つまり次元数に対応する。第1の実施形態および後述する第2の実施形態では、3次元より大きい多次元の特徴ベクトルを用いる。
【0021】
第1の実施形態では、図示しない特徴ベクトル算出装置を用いて、複数の対象情報からそれぞれ特徴ベクトルをあらかじめ生成しておき、生成した特徴ベクトルのデータを対象情報DB記憶部31に記憶しておく。特徴ベクトルの生成は、公知の技術を適用して行うことが可能である。なお、対象情報DB記憶部31には、対象情報のデータとそれに対応する特徴ベクトルのデータとをデータセットとして記憶するようにしてもよい。
【0022】
2次元マップ生成部10は、対象情報から生成される特徴ベクトル(対象情報DB記憶部31に記憶されている特徴ベクトル)に基づいて2次元平面上に複数の対象情報をプロットした2次元マップを生成するものであり、特許請求の範囲の2次元マップ生成装置に相当する。以下、この2次元マップ生成部10の具体的な処理内容について、2次元化処理部11およびマップ生成部12の機能ブロックを用いて説明する。
【0023】
2次元化処理部11は、特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する。ここで、2次元化処理部11は、対象情報DB記憶部31に記憶されている複数の特徴ベクトルのそれぞれに対して次元圧縮の処理を行うことにより、複数の緯度経度情報を生成する。すなわち、2次元化処理部11は、1つの特徴ベクトルが有する多次元の成分情報を、緯度情報および経度情報から成る2次元情報に置換する。
【0024】
図3は、2次元化処理部11のより具体的な機能構成例を示すブロック図である。
図3に示すように、2次元化処理部11は、具体的な機能構成として、3次元化処理部11aおよび座標置換部11bを備えている。
図4は、3次元化処理部11aおよび座標置換部11bの処理内容を説明するための図である。以下、
図4を併用して、3次元化処理部11aおよび座標置換部11bの処理内容を説明する。
【0025】
3次元化処理部11aは、特徴ベクトルの次元を削減して、原点からの距離が一定となる位置の3次元座標情報を生成する。ここで、3次元化処理部11aは、対象情報DB記憶部31に記憶されている複数の特徴ベクトルのそれぞれに対して次元圧縮の処理を行うことにより、複数の3次元座標情報を生成する。3次元座標情報は、例えば、3次元空間内における原点からの距離rが一定となる位置という条件を課した極座標(r,θ,ψ)の情報である。また、3次元座標情報は、極座標のr値に相当するものが一定となる位置という条件を課した直交座標(x,y,z)の情報であってもよい。以下では、3次元座標情報が極座標(r,θ,ψ)(rは固定値)の情報であるものとして説明する。
【0026】
例えば、対象情報DB記憶部31に記憶されている複数の特徴ベクトルの数(対象情報の数)がM個、特徴ベクトルの次元数(特徴ベクトルが有する成分の数)がN個であると仮定した場合、M個の特徴ベクトルが有する各成分値をM行×N列の行列(以下、特徴ベクトル行列という)として表すことができる。3次元化処理部11aは、この特徴ベクトル行列に対して公知の次元圧縮処理を行うことにより、M行×3列の行列に次元圧縮する。この3列の値が極座標(r,θ,ψ)の情報である。公知の次元圧縮処理として、例えば主成分分析(PCA:Principal Component Analysis)や、特異値分解(SVD:singular value decomposition)などを用いることが可能である。
【0027】
このように、PCAまたはSVDの手法を用いて特徴ベクトル行列の次元を圧縮することにより、特徴ベクトル行列で表現される各対象情報の特徴を可能な限り損ねることなく、特徴ベクトル行列を低ランク近似することができる。
図4(a)は、3次元化処理部11aにより生成される複数の3次元座標情報で特定される各位置(極座標(r,θ,ψ)の位置)を示すイメージ図である。
図4(a)に示すように、複数の特徴ベクトルから生成された複数の3次元座標情報で特定される各位置は、原点からの距離が一定の球の表面上に存在することになる。
【0028】
座標置換部11bは、3次元化処理部11aにより生成された複数の3次元座標情報をそれぞれ緯度経度情報に置換する。上述のように、3次元化処理部11aにより生成される複数の3次元座標情報は、何れも原点からの距離が一定となる座標情報であり、その3次元座標情報で特定される位置は何れも球の表面上に存在する。この球を地球と見立てることにより、球の表面上に存在する各位置を、緯度と経度との組み合わせで捉えることが可能である。座標置換部11bは、r値が一定の3次元座標情報で特定される球の所定位置(=(r,θo,ψo)の位置)を緯度0度および経度0度の位置に設定し、この所定位置を基準として、それぞれの3次元座標情報を緯度経度情報に置換する。
【0029】
マップ生成部12は、複数の対象情報について2次元化処理部11により生成された複数の緯度経度情報に基づいて、緯度経度の2次元座標系に複数の対象情報をプロットした2次元マップを生成する。
図4(b)は、マップ生成部12により生成される2次元マップの一例を示す図である。
図4(b)に示す2次元マップは、
図4(a)に示す3次元空間を、地球表面の情報を平面に投影する「地図投影法」の処理によって展開したものに相当する。
図4(b)に示す2次元マップは、地図投影法の1つである正角図法(メルカトル図法)に従って2次元平面を表現したものであり、複数の特徴ベクトルから生成された複数の緯度経度情報で特定される各位置がこの2次元平面上にプロットされている。
【0030】
図4(b)に示すように、本実施形態により生成される2次元マップでは、複数のプロット位置が塊り状になっているクラスターが、2次元平面上の複数の箇所に分散して存在している。すなわち、複数の異なるクラスターがきれいに分離した状態で見えている。これは、従来技術によって生成される
図10のような2次元マップとの大きな相違である。
【0031】
マップ表示部20は、マップ生成部12により生成された2次元マップを表示装置32に表示させる。すなわち、マップ表示部20は、
図4(b)に示すような2次元マップを表示装置32に表示させる。なお、ここでは、2次元マップとして、正角図法(メルカトル図法)に従って2次元平面を表現したものを用いる例について説明したが、これに限定されない。例えば、モルワイデ図法などの正積図法、あるいは正距図法などに従って2次元平面を表現したものを用いるようにしてもよい。
【0032】
図5は、以上のように構成した第1の実施形態による2次元マップ生成部10の動作例を示すフローチャートである。まず、2次元マップ生成部10の2次元化処理部11は、対象情報DB記憶部31から複数の特徴ベクトルのデータを取得する(ステップS1)。2次元化処理部11が有する3次元化処理部11aは、ステップS1で取得した複数の特徴ベクトルのそれぞれに対して次元圧縮の処理を行うことにより、複数の3次元座標情報を生成する(ステップS2)。
【0033】
次いで、座標置換部11bは、3次元化処理部11aにより生成された複数の3次元座標情報をそれぞれ緯度経度情報に置換する(ステップS3)。そして、マップ生成部12は、複数の対象情報について座標置換部11bにより生成された複数の緯度経度情報に基づいて、緯度経度の2次元座標系に複数の対象情報をプロットした2次元マップを生成する(ステップS4)。
【0034】
以上詳しく説明したように、第1の実施形態では、複数の対象情報から生成されて対象情報DB記憶部31に記憶された複数の特徴ベクトルに対してそれぞれ次元圧縮の処理を行うことにより、複数の対象情報のそれぞれについて2次元の緯度経度情報を生成し、当該複数の緯度経度情報に基づいて、2次元平面上に複数の対象情報をプロットした2次元マップを生成するようにしている。
【0035】
このように構成した第1の実施形態によれば、緯度経度情報で特定される閉空間の座標系に対して複数の対象情報を特徴ベクトルに基づいてプロットすればよいため、無限の開空間の座標系の中に有限の対象エリアを定義するような処理を行う必要がなく、緯度経度に基づく広い座標空間の中で、特徴ベクトルが持つ情報の性質に応じて対象情報のプロット位置を適切に決定することができる。このため、特徴ベクトルの類似度が高い対象情報どうしが近接した位置に塊り状にプロットされる状態が複数の箇所で適切に起こりやすくなる。このように、第1の実施形態によれば、複数の分散したクラスターが現れやすい2次元マップを生成することができる。
【0036】
本実施形態の2次元マップ可視化システムは、対象情報の検索システムに応用することが可能である。例えば、以上のようにして生成した2次元マップを表示装置32に表示させ、その2次元マップにおいてユーザ操作により指定された領域に含まれるプロットに対応する対象情報を抽出して一覧表示するシステムに応用することが可能である。この場合、複数のクラスターが分散して現れた2次元マップを用いることにより、ユーザが所望する領域の指定を行いやすくすることができる。例えば、クラスターが生じている所望の領域を指定することにより、より類似度の高い(すなわち、関係性の強い)対象情報の集合を抽出することが可能である。
【0037】
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。
図6は、第2の実施形態による2次元マップ生成装置を含む2次元マップ可視化システムの構成例を示す図である。なお、この
図6において、
図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0038】
図6に示すように、本実施形態の2次元マップ可視化システムは、第2の実施形態による2次元マップ生成部10’、マップ表示部20、対象情報DB記憶部31’および表示装置32を備えて構成されている。2次元マップ生成部10’は、機能構成として、特徴ベクトル算出部60、2次元化処理部11およびマップ生成部12を備えている。なお、
図2に示した構成と同様に、2次元マップ生成部10’および対象情報DB記憶部31’をサーバ装置100が備え、マップ表示部20および表示装置32をクライアント端末200が備える構成としてもよい。
【0039】
上述した第1の実施形態では、図示しない特徴ベクトル算出装置を用いて複数の対象情報から生成した複数の特徴ベクトルのデータを対象情報DB記憶部31にあらかじめ記憶しておく例について説明した。これに対し、第2の実施形態では、2次元マップ生成部10’が特徴ベクトル算出部60を備え、当該特徴ベクトル算出部60により複数の対象情報から複数の特徴ベクトルを算出する。すなわち、対象情報DB記憶部31’は対象情報のデータを記憶しており、特徴ベクトル算出部60がこの対象情報DB記憶部31’から対象情報のデータを取得して特徴ベクトルを算出する。
【0040】
本実施形態では、対象情報の一例として、文章(テキスト情報の一例)を用いるものとして説明する。本実施形態における文章は、1つのセンテンス(句点によって区切られる単位)から成るもの(一文)であってもよいし、複数のセンテンスから成るものであってもよい。複数のセンテンスから成る文章は、1つの文書に含まれる一部または全部の文章であってもよい。
【0041】
対象情報DB記憶部31’に記憶される文章には、様々なテーマに関する文章が含まれる。例えば、文章が医療に関する論文である場合、個々の疾患をテーマとする論文が対象情報DB記憶部31’に記憶される。もちろん、対象情報DB記憶部31’に記憶される文章は論文に限らず、疾患に関する記述をした論文以外の文章が対象情報DB記憶部31’に記憶されていてもよい。さらに、対象情報DB記憶部31’に記憶される文章には、医療に関するものに限らず、様々な分野に関する文章が含まれていてもよい。
【0042】
特徴ベクトル算出部60は、対象情報(文章)の特徴を表す特徴ベクトルとして、文章がどの単語に対してどの程度寄与しているのかを表した指標値を複数の要素とするベクトルを算出する。
図7は、このような特徴ベクトルを算出するために特徴ベクトル算出部60が有する具体的な機能構成例を示すブロック図である。
【0043】
図7に示すように、本実施形態の特徴ベクトル算出部60は、対象情報DB記憶部31’から対象情報のデータとして文章データを入力し、文章とその中に含まれる単語との関係性を反映した特徴ベクトルを算出して出力するものである。特徴ベクトル算出部60は、その機能構成として、単語抽出部61、ベクトル算出部62、指標値算出部63および特徴ベクトル特定部64を備えて構成されている。ベクトル算出部62は、より具体的な機能構成として、文章ベクトル算出部62Aおよび単語ベクトル算出部62Bを備えている。
【0044】
上記各機能ブロック61~64は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック61~64は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0045】
単語抽出部61は、m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する。ここで、文章の解析としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部61は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。
【0046】
なお、m個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部61は、同じ単語を複数個抽出することはせず、1つのみ抽出する。すなわち、単語抽出部61が抽出するn個の単語とは、n種類の単語という意味である。
【0047】
ベクトル算出部62は、m個の文章およびn個の単語から、m個の文章ベクトルおよびn個の単語ベクトルを算出する。ここで、文章ベクトル算出部62Aは、単語抽出部61による解析対象とされたm個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個(qは3より大きい任意の整数)の軸成分から成るm個の文章ベクトルを算出する。また、単語ベクトル算出部62Bは、単語抽出部61により抽出されたn個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
【0048】
本実施形態では、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、m個の文章とn個の単語とから成る集合S=<d∈D,w∈W>を考える。ここで、各文章di(i=1,2,・・・,m)および各単語wj(j=1,2,・・・,n)に対してそれぞれ文章ベクトルdi→および単語ベクトルwj→(以下では、記号“→”はベクトルであることを指すものとする)を関連付ける。そして、任意の単語wjと任意の文章diに対して、次の式(1)に示す確率P(wj|di)を計算する。
【0049】
【0050】
なお、この確率P(wj|di)は、公知文献「“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014」に開示されている確率pに倣って算出することが可能な値である。この公知文献には、例えば、“the”、“cat”、“sat”という3つの単語があるときに、4つ目の単語として“on”を予測するとあり、その予測確率pの算出式が掲載されている。
【0051】
公知文献に記載されている確率p(wt|wt-k,・・・,wt+k)は、複数の単語wt-k,・・・,wt+kから別の1つの単語wtを予測したときの正解確率である。これに対し、本実施形態で用いる式(1)に示される確率P(wj|di)は、m個の文章のうち一の文章diから、n個の単語のうち一の単語wjが予想される正解確率を表している。1つの文章diから1つの単語wjを予測するというのは、具体的には、ある文章diが出現したときに、その中に単語wjが含まれる可能性を予測するということである。
【0052】
なお、この式(1)は、diとwjについて対称なので、n個の単語のうち一の単語wjから、m個の文章のうち一の文章diが予想される確率P(di|wj)を計算してもよい。1つの単語wjから1つの文章diを予測するというのは、ある単語wjが出現したときに、それが文章diの中に含まれる可能性を予測するということである。
【0053】
式(1)では、eを底とし、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章diと単語wjとの組み合わせから計算される指数関数値と、文章diとn個の単語wk(k=1,2,・・・,n)との各組み合わせから計算されるn個の指数関数値の合計値との比率を、一の文章diから一の単語wjが予想される正解確率として計算している。
【0054】
ここで、単語ベクトルwj→と文章ベクトルdi→との内積値は、単語ベクトルwj→を文章ベクトルdi→の方向に投影した場合のスカラ値、つまり、単語ベクトルwj→が有している文章ベクトルdi→の方向の成分値とも言える。これは、単語wjが文章diに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、n個の単語wk(k=1,2,・・・,n)について計算される指数関数値の合計に対する、1つの単語wjについて計算される指数関数値の比率を求めることは、1つの文章diからn個の単語のうち1つの単語wjが予想される正解確率を求めることに相当する。
【0055】
なお、ここでは、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルw→と文章ベクトルd→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。
【0056】
次に、ベクトル算出部62は、次の式(2)に示すように、式(1)により算出される確率P(wj|di)を全ての集合Sについて合計した値Lを最大化するような文章ベクトルdi→および単語ベクトルwj→を算出する。すなわち、文章ベクトル算出部62Aおよび単語ベクトル算出部62Bは、式(1)により算出される確率P(wj|di)を、m個の文章とn個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Lとして、当該目標変数Lを最大化する文章ベクトルdi→および単語ベクトルwj→を算出する。
【0057】
【0058】
m個の文章とn個の単語との全ての組み合わせについて算出した確率P(wj|di)の合計値Lを最大化するというのは、ある文章di(i=1,2,・・・,m)からある単語wj(j=1,2,・・・,n)が予想される正解確率を最大化するということである。つまり、ベクトル算出部62は、この正解確率が最大化するような文章ベクトルdi→および単語ベクトルwj→を算出するものと言える。
【0059】
ここで、本実施形態では、上述したように、ベクトル算出部62は、m個の文章diをそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルdi→を算出するとともに、n個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルwj→を算出する。これは、q個の軸方向を可変として、上述の目標変数Lが最大化するような文章ベクトルdi→および単語ベクトルwj→を算出することに相当する。
【0060】
指標値算出部63は、ベクトル算出部62により算出されたm個の文章ベクトルdi→とn個の単語ベクトルwj→との内積をそれぞれとることにより、m個の文章diおよびn個の単語wj間の関係性を反映した指標値を算出する。本実施形態では、指標値算出部63は、次の式(3)に示すように、m個の文章ベクトルdi→の各q個の軸成分(d11~dmq)を各要素とする文章行列Dと、n個の単語ベクトルwj→の各q個の軸成分(w11~wnq)を各要素とする単語行列Wとの積をとることにより、m×n個の指標値を各要素とする指標値行列DWを算出する。ここで、Wtは単語行列の転置行列である。
【0061】
【0062】
このようにして算出された指標値行列DWの各要素は、どの単語がどの文章に対してどの程度寄与しているのか、どの文章がどの単語に対してどの程度寄与しているのかを表したものと言える。例えば、1行2列の要素dw12は、単語w2が文章d1に対してどの程度寄与しているのかを表した値と言え、また、文章d1が単語w2に対してどの程度寄与しているのかを表した値と言える。これにより、指標値行列DWの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。
【0063】
特徴ベクトル特定部64は、m個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を特徴ベクトルとして特定する。すなわち、特徴ベクトル特定部64は、
図8に示すように、指標値行列DWの各行を構成しているn個の単語の指標値から成る文章指標値群を、それぞれのm個の文章に対する特徴ベクトルとして特定する。
【0064】
2次元化処理部11は、以上のようにして特徴ベクトル算出部60によりm個の文章について算出されたm個の特徴ベクトルに対して次元圧縮の処理を行うことにより、2次元の緯度経度情報を生成する。具体的には、3次元化処理部11aが、m個の特徴ベクトルが有する各n個の指標値から成るm行×n列の指標値行列DWに対してPCA、SVDなどの次元圧縮処理を行うことにより、m行×3列の行列に次元圧縮し、当該3列の値を3次元座標情報として得る。そして、座標置換部11bが、3次元化処理部11aにより生成されたm個の3次元座標情報をそれぞれ緯度経度情報に置換する。
【0065】
マップ生成部12は、m個の文章について2次元化処理部11により生成された複数の緯度経度情報に基づいて、緯度経度の2次元座標系に複数の文章をプロットした2次元マップを生成する。そして、マップ表示部20は、マップ生成部12により生成された2次元マップを表示装置32に表示させる。これにより表示される2次元マップは、
図4(b)に示したようなものとなる。
【0066】
上述したように、本実施形態の特徴ベクトル算出部60により算出される特徴ベクトルは、文章の類似性を評価するものとして使用可能な情報である。よって、従来技術のように特徴ベクトル間の類似度を算出するための処理を特に行わなくても、特徴ベクトルを次元圧縮して生成した緯度経度情報に基づいてプロットするだけで、特徴ベクトルの類似度が高い文章どうしが近接した位置に塊り状にプロットされた2次元マップが生成されるようになる。また、本実施形態によれば、無限の開空間の座標系の中に有限のプロット対象エリアを定義するような処理を行うことなく、緯度経度の座標系から成る元々の閉空間において、特徴ベクトルが持つ類似度に応じて文章のプロット位置が適切に決められる。このため、類似度に応じたクラスターの状態が複数の箇所で適切に起こりやすくなり、複数の分散したクラスターが現れやすい2次元マップを生成することができる。
【0067】
上述したように、対象情報DB記憶部31’に記憶される文章には、様々なテーマに関する文章が含まれる。ここで、特定のテーマに関する複数の文章では、同じような単語が使用される傾向がある。このため、文章がどの単語に対してどの程度寄与しているのかを表した指標値で、文章の類似性を表す文章指標値群(指標値行列DWの各行の値)を要素とする特徴ベクトルを用いて2次元マップを生成することにより、特定のテーマにより関連性が深い文章どうしでクラスターが形成される可能性が高くなる。よって、第2の実施形態による2次元マップ可視化システムを検索システムに応用した場合、所望のクラスターが生じている領域を指定することにより、特定のテーマに関連する文章を容易に抽出することが可能となる。第1の実施形態においても、第2の実施形態と同様に生成された特徴ベクトルを対象情報DB記憶部31に記憶しておけば、第2の実施形態と同様の効果を得ることが可能である。
【0068】
ところで、対象情報DB記憶部31’に記憶される文章のデータは、m個の文章から2次元マップを生成した後に追加されることがある。例えば、m個の文章に加えてx個(xは1以上の任意の整数)の文章が対象情報DB記憶部31’に記憶された場合、2次元マップ生成部10’は、m+x個の文章を解析対象として特徴ベクトルを改めて算出し、当該特徴ベクトルを次元圧縮して生成した緯度経度情報に基づいて2次元マップを再生成する。
【0069】
このとき、2次元マップ生成部10’は、m個の文章に関する緯度経度情報については改めて生成し直すことなく、先に生成した緯度経度情報を固定的に用いる一方、x個の文章に関する緯度経度情報を追加して生成する。また、x個の文章について算出したx個の特徴ベクトルを次元圧縮する際に、m個の特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて次元圧縮を行う。
【0070】
例えば、次元圧縮の処理としてPCAを用いる場合、m個の特徴ベクトルに対して次元圧縮の処理を行ったときに検出された主成分を引き継いで、x個の特徴ベクトルに対して次元圧縮の処理を行う。また、次元圧縮の処理としてSVDを用いる場合、m個の特徴ベクトルに対して次元圧縮の処理を行ったときに検出された特異値を引き継いで、x個の特徴ベクトルに対して次元圧縮の処理を行う。
【0071】
具体的には、2次元マップ生成部10’は、以下のように処理を実行する。すなわち、単語抽出部61は、m+x個の文章を解析し、当該m+x個の文章からn個の単語を抽出する。文章ベクトル算出部62Aは、m+x個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm+x個の文章ベクトルを算出する。単語ベクトル算出部62Bは、n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
【0072】
指標値算出部63は、m+x個の文章ベクトルとn個の単語ベクトルとの内積をそれぞれとることにより、m+x個の文章およびn個の単語間の関係性を反映した(m+x)×n個の指標値を算出する。特徴ベクトル特定部64は、x個の文章のそれぞれについて、1つの文章についてn個の単語の指標値から成る文章指標値群を追加の特徴ベクトルとして特定する。
【0073】
2次元化処理部11(3次元化処理部11a)は、m個の文章のそれぞれについて特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて、x個の文章のそれぞれについて追加の特徴ベクトルに対して次元圧縮の処理を行うことにより、x個の文章のそれぞれについて2次元の緯度経度情報を生成する。この次元圧縮において、特徴ベクトルから3次元座標情報を生成する際(つまり、(m+x)×nの指標値行列を(m+x)×3の行列に次元圧縮する際)に、m個の文章に関する特徴ベクトルについては、m個の文章を解析したときに算出したm個の特徴ベクトルを固定的に用いる。
【0074】
マップ生成部12は、2次元化処理部11によりm個の文章について生成されたm個の緯度経度情報(元の緯度経度情報)と、x個の文章について生成されたx個の緯度経度情報(追加された緯度経度情報)とに基づいて、緯度経度の座標系から成る2次元平面上にm+x個の文章をプロットした2次元マップを生成する。
【0075】
このように、本実施形態では、m個の文章に加えてx個の文章を解析対象とする場合に、m個の文章に関する緯度経度情報については改めて生成し直すことなく固定し、m個の特徴ベクトルに対して次元圧縮の処理を行ったときと同じ作用を有する関数を用いて次元圧縮を行うことにより、x個の文章に関する緯度経度情報を追加して生成するようにしている。このようにすることで、単に特徴ベクトルの類似度が高い文章どうしが近くにプロットされるだけでなく、経度緯度情報に基づきクラスターが形成されている領域の意味付けを明確に保持することができる。
【0076】
ここでいう意味付けとは、特定のテーマにより関連性が深い文章どうしでクラスターが形成されるということである。例えば、追加したx個の文章が特定のテーマAに関するものであった場合、当該x個の文章は、m個の文章について2次元マップを生成した際に形成されたテーマAに関するクラスターの中に追加してプロットされる可能性が高くなる。つまり、上記の構成によれば、m個の文章を対象として2次元マップを生成したときに形成されたスラスターを維持しつつ、x個の文章を追加して2次元マップを生成することができ、追加されたx個の文章については、関係性の深いクラスター上にプロットすることができる。なお、最初に形成されたクラスターと対比することなどを目的として、先に生成した緯度経度情報を固定的に用いることなく、m+x個の文章について純粋に特徴ベクトルを次元圧縮して2次元マップを生成するようにしてもよい。
【0077】
上記第2の実施形態では、2次元マップに対するプロットの対象情報が文章であり、特徴ベクトルとして、文章がどの単語に対してどの程度寄与しているのかを表した指標値(指標値行列DWの1つの行に含まれる文章指標値群)を複数の要素とするベクトルを用いる例について説明したが、これに限定されない。例えば、2次元マップに対するプロットの対象情報を単語とし、特徴ベクトルとして、単語がどの文章に対してどの程度寄与しているのかを表した指標値を複数の要素とするベクトルを用いてもよい。この場合、特徴ベクトル特定部64は、
図9に示すように、指標値行列DWにおいて、n個の単語のうち1つの単語についてm個の文章の指標値から成る単語指標値群(指標値行列DWの1つの列に含まれる単語指標値群)を特徴ベクトルとして特定する。
【0078】
また、上記第1および第2の実施形態では、多次元の特徴ベクトルを3次元座標情報に変換した後、3次元座標情報を緯度経度情報に変換する例について説明したが、多次元の特徴ベクトルを緯度経度座標にダイレクトに変換するようにしてもよい。例えば、固定値として用いたr値を作らず、θ,ψの代わりに緯度情報および経度情報を生成するようにしてもよい。
【0079】
その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0080】
10,10’ 2次元マップ生成部(2次元マップ生成装置)
11 2次元化処理部
11a 3次元化処理部
11b 座標置換部
12 マップ生成部
20 マップ表示部
31,31’ 対象情報DB記憶部
32 表示装置
60 特徴ベクトル算出部
61 単語抽出部
62 ベクトル算出部
62A 文章ベクトル算出部
62B 単語ベクトル算出部
63 指標値算出部
64 特徴ベクトル特定部