(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-17
(45)【発行日】2024-05-27
(54)【発明の名称】クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
(51)【国際特許分類】
G06T 11/20 20060101AFI20240520BHJP
G06F 16/34 20190101ALI20240520BHJP
G06F 16/35 20190101ALI20240520BHJP
【FI】
G06T11/20 600
G06F16/34
G06F16/35
(21)【出願番号】P 2021034140
(22)【出願日】2021-03-04
(62)【分割の表示】P 2020567619の分割
【原出願日】2020-05-15
【審査請求日】2023-02-21
(31)【優先権主張番号】PCT/JP2019/019715
(32)【優先日】2019-05-17
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】518368663
【氏名又は名称】株式会社アイエクセス
(74)【代理人】
【識別番号】100175075
【氏名又は名称】田中 康子
(72)【発明者】
【氏名】山▲崎▼ 邦利
(72)【発明者】
【氏名】細谷 竜一
【審査官】中田 剛史
(56)【参考文献】
【文献】米国特許第09836183(US,B1)
【文献】特開2009-093564(JP,A)
【文献】特開2018-018118(JP,A)
【文献】特開2000-172701(JP,A)
【文献】特開2014-222474(JP,A)
【文献】特開2005-122689(JP,A)
【文献】特開2004-178270(JP,A)
【文献】特開2008-059442(JP,A)
【文献】米国特許出願公開第2010/0106752(US,A1)
【文献】江上 周作 Shusaku Egami,Mapping Science - ナレッジグラフに基づく科学技術マップの高度検索と対話的操作の実現 Mapping Science - Realizing interactive operation and advanced search on science maps based on knowledge graphs,一般社団法人人工知能学会 研究会 SWO:セマンティックウェブとオントロジー研究会 SIG-SWO-047 [online] ,日本,一般社団法人人工知能学会,2019年03月10日,13-01~13-10
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/20
G06F 16/34
G06F 16/35
(57)【特許請求の範囲】
【請求項1】
コンピュータが、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析方法であって、
一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、
算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書から構成されるクラスタに分類するクラスタ分類ステップと、
前記ネットワークにおける文書の中心性を示す
、少なくとも固有ベクトル中心性、PageRank、及び媒介中心性、次数中心性のいずれかを用いた第1の指標を算出する第1の指標算出ステップと、
前記ネットワークにおける前記第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出ステップと、
文書に関して、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、前記ネットワークを示し、前記文書間の類似度の大きさに応じた表現を、文書と文書を結ぶエッジの太さで表現する第1の表示データを生成する表示データ生成ステップと、
を備えるクラスタ解析方法。
【請求項2】
前記表示データ生成ステップでは、第1の指標のオブジェクトを円で表現し、前記第2の指標のゲージを前記第1の指標の円と同心の円弧、及び前記円弧の長さで表現する表示データを生成する請求項1記載のクラスタ解析方法。
【請求項3】
前記文書は、その構成要素として、題目、要旨、及び本文の少なくとも一つを有し、
前記表示データ生成ステップは、さらに、一のクラスタに属する文書の題目、要旨、及び本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データを生成する請求項1又は2記載のクラスタ解析方法。
【請求項4】
前記文書は、その構成要素として、題目、要旨、及び本文の少なくとも一つを有し、
前記表示データ生成ステップは、さらに、一のクラスタに属する文書の題目、要旨、及び本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを生成する請求項1から3のいずれか一項に記載のクラスタ解析方法。
【請求項5】
前記文書は、学術雑誌に掲載された文書であり、前記第2の指標は、前記文書の引用に応じて算出されたものである、請求項1から4のいずれか一項に記載のクラスタ解析方法。
【請求項6】
前記文書は、ウェブ検索により所定の件数を上限として取得されたウェブサイトに記載の文書である、請求項1から4のいずれか一項に記載のクラスタ解析方法。
【請求項7】
前記第2の指標は、前記ウェブサイトへのアクセス数に応じて算出されたものである、請求項6に記載のクラスタ解析方法。
【請求項8】
前記文書に含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データを生成する請求項6又は7記載のクラスタ解析方法。
【請求項9】
前記文書に含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを生成する請求項6から8のいずれか一項に記載のクラスタ解析方法。
【請求項10】
前記文書に含まれる出願頻度の高い単語の中から指定された単語を含む文書を解析の対象から除外し、再度解析を行うステップをさらに備える請求項1から9のいずれか一項に記載のクラスタ解析方法。
【請求項11】
前記文書に含まれる出願頻度の高い単語の中から指定された単語を含む文書又はクラスタを示すノードについてネットワーク中で強調表示する第1の表示データを生成するステップをさらに備える請求項1から9のいずれか一項に記載のクラスタ解析方法。
【請求項12】
前記表示データ生成ステップは、前記ネットワーク上での文書の配置を、複数の文書が重って表示されないように、力学モデルを用いて決定する請求項1から4のいずれか一項に記載のクラスタ解析方法。
【請求項13】
前記表示データ生成ステップは、前記ネットワークを拡大及び縮小して表示することが可能であり、当該拡大及び縮小表示に応じて、前記エッジの表示数を増減して、前記第1の表示データを生成する請求項1から5のいずれか一項に記載のクラスタ解析方法。
【請求項14】
複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析システムであって、
一の文書の内容と他の文書の内容との類似度を算出する類似度算出部と、
算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書
から構成されるクラスタに分類するクラスタ分類部と、
前記ネットワークにおける文書の中心性を示す
、少なくとも固有ベクトル中心性、PageRank、及び媒介中心性、次数中心性のいずれかを用いた第1の指標を算出する第1の指標算出部と、
前記ネットワークにおける前記第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出部と、
文書に
関して、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、前記ネットワークを示し、前記文書間の類似度の大きさに応じた表現を、文書と文書を結ぶエッジの太さで表現する第1の表示データを生成する表示データ生成部と、
を備えるクラスタ解析システム。
【請求項15】
コンピュータに、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成させるクラスタ解析プログラムであって、
一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、
算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書から構成されるクラスタに分類するクラスタ分類ステップと、
前記ネットワークにおける文書の中心性を示す
、少なくとも固有ベクトル中心性、PageRank、及び媒介中心性、次数中心性のいずれかを用いた第1の指標を算出する第1の指標算出ステップと、
前記ネットワークにおける前記第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出ステップと、
文書に関して、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、前記ネットワークを示し、前記文書間の類似度の大きさに応じた表現を、文書と文書を結ぶエッジの太さで表現する第1の表示データを生成する表示データ生成ステップと、
を実行させるクラスタ解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の文書をその内容に応じてクラスタに分類し、且つ文書の関連を示す表示データを生成するクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムに関する。
【背景技術】
【0002】
従来、多数の学術論文や文献等の文書を解析する場合、人が文書を読んで内容ごとに分類する、あるいは要約を作成していた。人による解析では、時間がかかる上、複数の人が解析を行う場合、作業者の経験や知識によって分類や要約作成の精度にばらつきが生じる傾向がある。
【0003】
また、学術論文のように、複雑で専門性の高い文書は、内容を理解するために高度な専門知識を必要とする。しかし、そのような専門知識を持たない者でも最新の情報を容易に取得して理解し、活用したいという要請がある。
【0004】
例えば、概念検索により検索された技術文献に対して形態素解析を行い、そこから得られた各単語にウェイトを付加して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスタにまとめるクラスタ解析方法が提案されている(例えば、「特許文献1」。)。
【0005】
このような技術により、情報をクラスタに分類することは可能だが、文書間の関係やクラスタ間の関係等を理解するところまでは至っていない。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ文書間の関連を俯瞰できるようにすることで、より短時間で効率的に多数の文書の要旨を理解することができるクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
すなわち、本発明は、コンピュータが、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析方法であって、一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書から構成されるクラスタに分類するクラスタ分類ステップと、前記ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップと、前記ネットワークにおける前記第1の指標と異なる第2の指標を算出する第2の指標算出ステップと、文書に関して、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、前記ネットワークを示す第1の表示データを生成する表示データ生成ステップと、を備えるクラスタ解析方法である。
【0009】
また、本発明は、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析システムであって、一の文書の内容と他の文書の内容との類似度を算出する類似度算出部と、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類部と、ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出部と、ネットワークにおける第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出部と、文書について、第1の指標に応じたノードのオブジェクトの大きさの表現、第2の指標に応じたオブジェクトの形状に対応した形状のゲージ及びゲージの長さの表現、クラスタの種類に応じた表現、文書間の類似度の大きさに応じた表現で、ネットワークを示す第1の表示データを生成する表示データ生成部と、を備えるクラスタ解析システムである。
【0010】
また、本発明は、コンピュータに、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成させるクラスタ解析プログラムであって、一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類ステップと、ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップと、
ネットワークにおける第1の指標と異なる第2の指標を算出する第2の指標算出ステップと、文書について、第1の指標に応じたノードのオブジェクト の大きさの表現、第2の指標に応じたオブジェクトの形状に対応した形状のゲージ及びゲージの長さの表現、クラスタの種類に応じた表現、文書間の類似度の大きさに応じた表現で、ネットワークを示す第1の表示データを生成する表示データ生成ステップと、
を実行させるクラスタ解析プログラムである。
【発明の効果】
【0011】
本発明により、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ文書間の関連を俯瞰できるようにすることで、より短時間で効率的に多数の文書(特に膨大な数の文書)の要旨を理解することが可能となる。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態に係るクラスタ解析システムの全体構成図である。
【
図2】情報端末の出力部に表示されるクラスタ解析結果の表示例である。
【
図4】本発明の一実施形態におけるクラスタ解析システムのサーバで実行されるクラスタ解析制御ルーチンを示すフローチャートである。
【
図5】本発明の一実施形態におけるクラスタ解析システムのサーバで実行されるクラスタ解析制御ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態を図面に基づき説明する。
【0014】
図1は本発明の一実施形態に係るクラスタ解析システムを示した全体構成図であり、同図に基づき本実施形態の構成について説明する。
【0015】
図1に示すように、本実施形態に係るクラスタ解析システム1は、文書データベース2(以下、データベースを「DB」と表記する。)と、情報端末3と、サーバ4とが通信網Nを介して接続されている。通信網Nは、例えばインターネット、イントラネット、VPN(Virtual Private Network)等、であり、有線又は無線の通信手段を用いて、情報を双方向に伝達可能な通信網である。また
図1では、説明の簡略化のため一つの文書DB2及び一つの情報端末3が、一つのサーバ4に接続されているが、サーバ4は、複数の文書DB及び複数の情報端末3と接続可能である。
【0016】
文書DB2は、例えば、学術論文、特許文献、雑誌、書籍、新聞記事等の文書の情報を格納したデータベースであり、格納された文書を限定された又は非限定の者に公開している。本実施形態において、文書DB2は、医学文献の情報を格納した文書DBの例として説明する。しかしながら、本発明の文書DBに格納可能な文書の内容、分野、及び種類に制限はない。本実施形態において、医学文献の情報には、著者名や出版年、著者の所属機関等の書誌的事項、論文の題目、要旨及び本文等の論文の内容的事項、引用・被引用の件数や文献名等の引用・被引用情報、文献が掲載された学会名、雑誌名、又は出版社名等の掲載情報等が含まれる。
【0017】
本明細書において、「文書」(a document)は、「文章」(sentences)から構成され、「文章」は、二以上の「文」(a sentence)から構成され、そして「文」は、二以上の「単語」(a word)から構成される。本明細書において、「要旨」(abstract)は、一の文書の冒頭や末尾に予め配置された、その文書の概要や特徴を表現した文章である。本明細書において、「要約」又は「要約文」(いずれもsummary)は、ある対象から抽出した、その対象の概要や特徴を表現する一以上の文である。ここで、対象は、文章、文書、又はクラスタでありうる。
【0018】
また、文書DB2は、通信網Nを介してアクセス可能なネットワーク上のウェブサイトであってよく、文書記憶部20はアクセス可能なウェブサイトに記載されているテキストを文書として取得することもできる。
【0019】
ウェブサイトを文書として取得する場合には、所定の件数を上限としてウェブ検索エンジンによる検索結果を取得することができる。例えば所定の検索問い合わせに対して上位500件のウェブサイトを取得することができる。
【0020】
情報端末3は、例えばパーソナルコンピュータ(以下、「PC」という。)や、スマートフォン、タブレットPC、及び携帯電話のような携帯端末であり、出力部10、及び入力部11を有している。
【0021】
出力部10は、例えばディスプレイやプリンタのような装置であり、サーバ4で生成された表示データを視認可能に表示することができる。
【0022】
入力部11は、例えばキーボードやマウスのような装置であり、情報の入力や操作が可能である。出力部10と入力部11は、一体となって、例えばタッチパネルを構成してもよい。
【0023】
情報端末3を使用する者(ユーザ)は、サーバ4で生成された表示データを出力部10にて確認可能であるとともに、入力部11を介してサーバ4に各種指示を出すことが可能である。
【0024】
サーバ4は、複数の文書に対して、文書の内容に応じてクラスタに分類(クラスタ分け)し、且つ各文書の関連を示す表示データを生成する1又は複数のサーバ(コンピュータ)から構成されている。サーバ4は各種演算部及び記憶部を有しており、例えば文書記憶部20、類似度算出部21、クラスタ分類部22、第1の指標算出部23、第2の指標算出部24、表示データ統合部25(表示データ生成部)、学習システム26を有している。
【0025】
詳しくは、文書記憶部20は、通信網Nを介して文書DB2と接続され、文書DB2から必要な文書の情報を取得して格納する記憶部である。例えば本実施形態では、医学文献を文書DB2から取得して格納している。また文書記憶部20は検索機能を有しており、格納されている文書から特定のキーワードを含む文書を抽出すること、又は日付により特定した文書を抽出することにより、クラスタに分類する文書の母集団を取得することが可能である。文書記憶部20は、文書DB2で文書の追加や削除等の更新が行われると、これに同期して自動的に文書記憶部20内の文書の更新を行う機能も有している。
【0026】
類似度算出部21は、文書記憶部20に格納された文書又は生成された文書の母集団について一の文書の内容と他の文書の内容との類似度を算出する機能を有している。類似度の算出には、例えばTF-IDFやコサイン類似度を用いることができる。つまり、類似度算出部21は、各文書の内容について使用されている単語を抽出し、各単語に対して文書内での出現頻度(TF:Term Frequency)と、他の文書で使用されている単語に対する希少性(IDF:Inverse Document Frequency)の積から単語の重み付けを行い、文書のベクトル化を行う。そして、類似度算出部21は、ベクトル化された文書間のコサイン(cos)の値を当該文書間の類似度の値として算出する。例えば第1の文書と第2の文書との類似度は0.856、第1の文書と第3の文書との類似度は0.732というように類似度は0から1の間の値で表され、1に近いほど類似した文書であることを示す。
【0027】
クラスタ分類部22は、類似度算出部21にて算出された類似度に基づいて各文書を含めて線(以下、「エッジ」という。)で結んだネットワークを生成し、類似する文書でクラスタに分類する。クラスタ分けのアルゴリズムは特に限定されないが、例えばエッジを切り離しても、ノード同士の接続性が極力保たれるようなクラスタを反復的な計算で特定するアルゴリズム(いわゆるGirvan-Newmanアルゴリズム)を用いることができる。
【0028】
第1の指標算出部23は、クラスタ分類部22にて生成されたネットワークにおける各文書の中心性を示す第1の指標を算出する機能を有している。中心性を算出するアルゴリズムは特に限定されないが、例えば固有ベクトル中心性、PageRank、及び媒介中心性、次数中心性等を用いることができる。本実施形態では、固有ベクトル中心性を用いる。固有ベクトル中心性は、ネットワーク上における一つの文書(以下、「ノード」という。)に関して、当該ネットワーク中の任意のノードから出発して、エッジをたどることを繰り返した場合に、当該ノードを通る確率で示される。
【0029】
第2の指標算出部24は、文書記憶部20から、各文書について、第1の指標と異なる第2の指標を算出する機能を有している。第2の指標は例えば、引用・被引用情報に基づく被引用件数や、掲載情報に基づく文書が掲載された学会等のランク等に応じて算出される、いわゆるインパクトファクタである。このように、第2の指標は、ネットワークとは関係なく文書の絶対的な重要性を示す指標であってよく、例えばインパクトファクタは、クラリベイト社のウェブサイト(https://clarivate.jp/products/journal-citation-reports/impact-factor/)に掲載された説明によれば、文書が掲載されたジャーナル(学術雑誌)の影響度を数値化して評価するために、そのジャーナルが掲載したすべて論文の被引用回数の合計値(=論文群の総影響度)を、論文の掲載本数で割って算出したものである。なお、第2の指標は、その文書が示す重要性について個別に付与されるものであってよく、例えば文書の引用情報に基づき算出されたものであってよい。
【0030】
第2の指標を算出するための引用情報は、文書に含まれている情報を参照して取得することができる。また、文書が掲載された学術雑誌の情報をもとに、インパクトファクタのような既知の指標を別の情報源から入手してもよい。
【0031】
また、文書が学術論文ではなくウェブサイトである場合には、第2の指標としてウェブサイトへのアクセス数などを文書の重要性をあらわす指標として、用いることができる。
【0032】
表示データ統合部25は、各文書に関する各種の表示データを生成する機能を有しており、表示データに応じて第1の表示データ生成部25a、第2の表示データ生成部25b、及び第3の表示データ生成部25cを有している。
【0033】
図2は、情報端末の出力部に表示されるクラスタ解析結果の表示例である。同図に示すように、第1の範囲Aに示される表示データが第1の表示データであり、第2の範囲Bに示される表示データが第2の表示データであり、及び第3の範囲Cに示される表示データが第3の表示データである。
【0034】
第1の表示データ生成部25aは、各文書について、第1の指標に応じた表現、第2の指標に応じた表現、クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現により、前記ネットワークを示す第1の表示データを生成する機能を有している。
【0035】
具体的には、
図3に示すように、第1の表示データ生成部25aは、ネットワーク上の一つの文書(以下、「ノード」という。)を一つの円で示し、第1の指標を円の大きさで表現し、クラスタの種類を色で表現し、類似度の大きさをエッジの太さで表現する。また、第1の表示データ生成部25aは、第2の指標を円弧の長さで表現する。
【0036】
なお、ノードは一の文書のみを包含するものに限らず複数の文書が包含されるノードであってもよい。例えば、一つのノードは類似度の高い複数の文書同士が併合されたノードであってもよい。
【0037】
なお、ノードの形状をあらわすオブジェクトは円に限らず、例えば三角形、四角形、五角形などの多角形、楕円など円に準じた形状、ハート型、星型などマークとしてよく利用される形状であってもよい。第1の指標の大きさをオブジェクトの大きさで表現してもよい。
【0038】
第2の指標の大きさは、ノードをあらわすオブジェクトの外側に配置されるゲージ、及びゲージの長さによって表現されていてよい。好ましくは、オブジェクト形状に対応したゲージ、ゲージの長さによって第2の指標の大きさをあらわすことができる。例えばノードをあらわすオブジェクトが円である場合には、円の形状に対応したゲージの形状は円弧であり、ゲージは上記のように円弧の長さで第2の指標をあらわすことができる。この場合におけるゲージである円弧の長さは、例えばネットワーク中におけるノードのうち第2の指標の最大値を有するノードを基準として、最大値であるノードの第2の指標のゲージの表現が円であるようにし、それより第2の指標が小さいノードのゲージの表現が第2の指標の大きさに応じた円弧の長さであるように表現することができる。
【0039】
図3には、10のノード30aから30j(以下、まとめて「ノード30」とも称する。)が表示されており、左上の4つのノード30aから30dが第1のクラスタに所属し、右下の6つのノード30eから30jが第2のクラスタに所属している。なお、第1のクラスタと第2のクラスタは、第1の範囲Aにおいては異なる色で示されるが、
図3では色の違いをハッチングの違いで示している。
【0040】
ノード30の大きさは中心性の大きさを示しており、
図3においてはノード30a、ノード30eが他のノードより大きく、中心性のより高い文書であることが分かる。またノード30には、同心の円弧31の長さにより第2の指標(例えばインパクトファクタ)が示されている。したがって
図3においては、ノード30aの円弧31a、ノード30gの円弧31gが比較的長い円弧であるため、インパクトファクタがより大きい文書であることがわかる。
【0041】
また、ノード30を結ぶエッジ32の太さが当該エッジ32で結ばれている文書間の類似度の大きさを示している。したがって
図3においては、ノード30aとノード30cとの間や、ノード30eとノード30hとの間のエッジ32が比較的太いため、これらのノード間の類似度がより高いことが分かる。
【0042】
さらに、第1の表示データ生成部25aは、ネットワークの拡大表示及び縮小表示が可能であって、当該拡大表示及び縮小表示に応じて、表示するエッジの数を増減して、第1の表示データを生成する。例えば、第1の表示データ生成部25aは、縮小表示するほど値が高くなる閾値を設定し、類似度が当該閾値以上のエッジのみを表示する。これにより、ネットワークを縮小表示させるほど、表示されるノードの数は増えるのに対して、一つのノードに接続されるエッジの表示数が減少する。
【0043】
また、ネットワークの拡大表示及び縮小表示の際に、類似度が高く隣接する複数のノードを併合して表示してもよい。これにより、ネットワークを縮小表示させてもノードの数を増やさずに表示することができる。
【0044】
また、第1の表示データ生成部25aは、各ノードの位置、及び間隔、即ちエッジの長さを力学モデルによる描画アルゴリズムを用いて決定している。例えば、第1の表示データ生成部25aは、多くのエッジが接続されているノードと、当該ノードと直接接続されているノードには引力を働かせ、近くにまとまった島を形成するよう描画する。一方、島同士には反発力を生じさせて、互いに遠ざかった位置に配置されるよう描画する。このような力学モデルを用いて各ノードの位置、及び間隔を決定することで、各ノードが重複することなく適度な間隔で配置する。
【0045】
さらに、第1の表示データ生成部25aは、
図2の第4の範囲aに示すように、凡例として、各クラスタの色と、当該クラスタの要約文を表示する。具体的には、第1の表示データ生成部25aは、例えば同一クラスタ内の文書について、医学文献における各項目(研究の位置づけ、研究の背景、先行研究の課題、研究の目的、研究の貢献、研究の意義等)を構成する文章に分解し、一の又は複数の特定の項目(研究の目的、研究の意義)を構成する文章を要約要素として抽出する。そして、第1の表示データ生成部25aは、抽出した要約要素に基づいて要約文を作成する。この各文書を各項目に分解する処理は、各文書を各項目に分解する処理を機械学習したAIを用いてもよい。また、要約要素に基づいて要約文を作成する処理は、要約要素に基づいて要約文を作成するAIを用いてもよい。
【0046】
また、文書がウェブサイトである場合には、ウェブサイトに掲載されているテキストに基づいて要約文を作成してもよい。ウェブサイトは複数の文書の集合体である場合もあるので、複数の文書から構成された一つのウェブサイトをまとまりのある一つのノードとしてもよい。
【0047】
第2の表示データ生成部25bは、一のクラスタに属する文書の題目、要旨、本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データを生成する機能を有している。具体的には、
図2の第2の範囲Bに示すように、円形の枠内に、第1の範囲Aにて指定した一のクラスタ内で頻出している単語ほど大きなフォントで表現されている。例えば
図2では、「clinical」という文字が最も大きく示され、続いて「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」が大きく示されている。それぞれの単語は、他の単語と重ならないように、横方向や縦方向等、あらゆる位置関係で配置されうる。
【0048】
第3の表示データ生成部25cは、一のクラスタに属する文書の前記題目、要旨、本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを生成する機能を有している。つまり、第3の表示データ生成部25cは、第2の表示データ生成部25bにおいても抽出した指定された一のクラスタ内で頻出する単語を、出現頻度に応じて表示(いわゆるランキング表示)する。例えば
図2では、「clinical」を最上位に配置し、続いてその下に「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」を配置する。さらに、第3の表示データ生成部25cは、「clinical 100%」、「Vedolizumab 88%」のように、指定したクラスタ内の文書における単語の使用率も表示データに含むことが可能である。
【0049】
また、類似度算出部21、及びクラスタ分類部22は、抽出した出現頻度の高い単語等の特定の単語が含まれる文書を解析から除外し、再度解析した分析結果を出力し、第1の表示データ、第2の表示データ、第3の表示データに反映させる機能を有する。
【0050】
また、類似度算出部21、及びクラスタ分類部22は、抽出した出現頻度の高い単語等の、特定の単語が含まれる文書を示すノードについて、第1の表示データで示すネットワーク上で強調表示する機能を有する。
【0051】
ノードの強調方法としては、ノードの色彩を変化させたり、視覚効果を加えたりするなど、種々の方法により、選択された単語が含まれていることを表示することができる。
【0052】
表示データ統合部25は、これら第1の表示データ生成部25a、第2の表示データ生成部25b、第3の表示データ生成部25cにて生成した各表示データを
図2に示すような一画面に統合した表示データを生成して、サーバ4と通信網Nを介して接続された情報端末3に送信する。
【0053】
学習システム26は、上述した第1の表示データ生成部25aにおける各文書を各項目に分解するAI、要約要素に基づいて要約文を作成するAIを供給する機能を有している。詳しくは、学習システム26は、予め各項目が判明している文書のデータを学習用データ(教師データ)として機械学習(例えばディープラーニングやニューラルネットワーク)させることで、文書を、その構成要素である項目に分解するAI(学習済みモデル)を生成する。予め要約要素を用いた要約文を学習用データとして機械学習(例えばディープラーニングやニューラルネットワーク)させることで、要約要素に基づいて要約文を作成するAI(学習済みモデル)を生成する。
【0054】
このように構成されたクラスタ解析システム1では、例えばユーザが情報端末3の入力部11を介してサーバ4に対して特定の疾患名等の情報を入力すると、サーバ4から入力情報に応じた
図2で示したような各表示データを情報端末3の出力部10に出力する。
【0055】
図4は、クラスタ解析システム1のサーバ4で実行されるクラスタ解析制御ルーチンのフローチャートを示す。以下同フローチャートに沿って、本実施形態のクラスタ解析方法について詳しく説明する。
【0056】
サーバ4は、情報端末3から特定の疾患名等の入力情報を受信すると、ステップS1として、文書記憶部20から当該入力情報に対応する文書の母集団を取得する。
【0057】
続くステップS2では、類似度算出部21が母集団を構成する文書間の類似度を算出する。
【0058】
また、ステップS3では、クラスタ分類部22が、ステップS2で算出された類似度に基づいて文書間のネットワークを生成し、類似する文書の集合がクラスタを構成するように分類する。
【0059】
ステップS4では、第1の指標算出部23が、ステップS3で生成されたネットワークにおける文書の中心性を示す第1の指標を算出する。
【0060】
ステップS5では、第2の指標算出部24が、第2の指標を算出する。第2の指標は、例えばジャーナルのインパクトファクタである。
【0061】
ステップS6では、第1の表示データ生成部25aが第1の表示データを、第2の表示データ生成部25bが第2の表示データを、第3の表示データ生成部25cが第3の表示データを、それぞれ生成し、表示データ統合部25がこれらの各表示データを統合した表示データを生成する。そして、表示データ統合部25は統合した表示データを、情報端末3に送信して、当該ルーチンを終了する。
【0062】
図5は、特定の単語を除外して再解析を行う場合の、クラスタ解析システム1のサーバ4で実行されるクラスタ解析制御ルーチンのフローチャートを示す。なお、上記と同様のフローについては説明を省略する。
【0063】
サーバ4は、ステップS9として、情報端末3の出力部10等に第3の表示データに含まれる出現頻度の高い単語等の、文書の母集団から除外すべき文書が含む単語の候補を表示する。
【0064】
ステップS10として、ユーザは情報端末3の入力部11等を用いて、除外すべき単語を入力、又は選択する。サーバ4は、単語の入力、又は選択を受け付ける。
【0065】
ステップS11として、ステップS10で除外すべき単語が選択されると、除外すべき単語を含む文書を除いた文書の母集団を取得する。これ以降のステップS12~S16の処理の流れは、上記で説明したステップS2~S6の処理の流れと同様であるから説明を省略する。
【0066】
以上のように、本実施形態におけるクラスタ解析システム1では、文書の内容に対する自然言語処理のみによる文書間の類似度に基づいてネットワークを形成し、類似する文書のクラスタを形成し、中心性を示す第1の指標に応じた表現と、クラスタの種類に応じた表現と、類似度の大きさに応じた表現とにより、当該ネットワークを示す第1の表示データを生成することによって、各文書の情報から、文書間の関連性までを一つの表示として把握することができる。すなわち、本実施形態の第1の表示データのネットワークは、文書の引用・被引用情報を用いることなく、これら情報を除く、文書の内容のみに基づいて形成されているため、文書の内容の類似度に応じたクラスタを形成することができる。
【0067】
さらに、第1の表示データに、文書の内容に基づく第1の指標とは異なるインパクトファクタ等の第2の指標を併せて示すことで、容易に且つ多面的に、文書の位置づけや重要性を把握することができる。
【0068】
また、第1の表示データでは、第1の指標を、文書を示すノードのオブジェクトの大きさで表現し、第2の指標をオブジェクトの形状に応じた形状のゲージ、及びゲージの長さに応じて表現することで、文書の中心性と重要性を同時に直感的に把握することができる。
【0069】
また、文書に含まれる出願頻度の高い単語の中から指定された単語を含む文書を解析の対象から除外し、再度解析を行うことで、出現頻度が高くても関心の低い文書を除外して、より関心の高い文書を抽出して把握することができる。
【0070】
また、文書に含まれる出願頻度の高い単語から指定された単語を含む文書を示すノードについてネットワーク中で強調表示することにより、関心のある単語を含む文書がネットワーク上でどこに位置するか把握することができる。
【0071】
また、第1の表示データでは、ネットワーク上での各文書の配置を、複数の文書が重って示されないよう力学モデルを用いて決定することで、視認性を向上させることができる。
【0072】
さらに、第1の表示データでは、ネットワークの拡大表示及び縮小表示が可能であって、当該拡大表示及び縮小表示に応じて、表示するエッジの数を増減している。これにより、ネットワークの拡大表示及び縮小表示に応じて、エッジが煩雑に表示されることを避け、閲覧性を向上させることができる。また、これにより、ネットワークの拡大表示及び縮小表示に応じて、情報量が最適化されることから、サーバ4の処理の負担軽減及び情報端末3への情報量の削減ができ、スムーズな表示変更を行うことができる。
【0073】
また、クラスタに属する文書に含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データや、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを第1の表示データとともに生成することで、各クラスタの内容をより容易に把握することができる。特に、第2の表示データ及び第3の表示データでは、文書の少なくとも題目、要旨、本文の一つを対象として出現頻度を抽出することで、例えば題目と要旨のみしか取得できない文書、あるいは題目や要旨がなく本文のみの文書であっても出現頻度を抽出することができ、クラスタを表すのにより適切な単語を抽出することができる。
【0074】
このように本実施形態によれば、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ文書間の関連を俯瞰できるようにすることで、より短時間で効率的に多数の文書の要旨を理解することができる。
【0075】
以上、本発明の一実施形態について具体的に説明したが、本発明は当該実施形態に限定されるものではなく、それらにおける様々な変更及び改変が、当業者によって、添付の特許請求の範囲に規定される本発明の範囲又は趣旨から逸脱することなく実行され得ることが理解される。
【0076】
上記実施形態では、第1の表示データ生成部25aは、
図3で示したように、第1の指標を円の大きさで表現し、第2の指標を円弧の長さで表現した。第1の指標及び第2の指標の表現はこれに限られるものではなく、例えば、一の色で示した第1の指標を内側に、他の色で示した第2の指標を外側に配置した、二重の同心円として示すこともできる。
【0077】
また、上記実施形態では、類似度の算出にTF-IDFとコサイン類似度を、クラスタ分けのアルゴリズムとしてGirvan-Newmanアルゴリズムを、及び中心性を算出するアルゴリズムとして固有ベクトル中心性を用いている。類似度、クラスタ分け、及び中心性のそれぞれの算出手法は、これらのアルゴリズムに限られるものではなく、例えば、それぞれ他のアルゴリズムを用いてもよいし、類似度、クラスタ分け、及び中心性をまとめて、1つのアルゴリズムを用いて処理してもよい。
【符号の説明】
【0078】
1 クラスタ解析システム
2 文書DB
3 情報端末
4 サーバ
10 出力部
11 入力部
20 文書記憶部
21 類似度算出部
22 クラスタ分類部
23 第1の指標算出部
24 第2の指標算出部
25 表示データ統合部(表示データ生成部)
25a 第1の表示データ生成部
25b 第2の表示データ生成部
25c 第3の表示データ生成部
26 学習システム
30(30a~30j) ノード
31(31a~31j) 円弧
N 通信網
A 第1の範囲
B 第2の範囲
C 第3の範囲
a 第4の範囲