(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024090295
(43)【公開日】2024-07-04
(54)【発明の名称】類似医学文献検索システム及び類似医学文献検索方法
(51)【国際特許分類】
G06F 16/33 20190101AFI20240627BHJP
【FI】
G06F16/33
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022206098
(22)【出願日】2022-12-22
(71)【出願人】
【識別番号】597000618
【氏名又は名称】株式会社 ワールドフュージョン
(74)【代理人】
【識別番号】100122910
【弁理士】
【氏名又は名称】三好 広之
(72)【発明者】
【氏名】櫻井 祐樹
(72)【発明者】
【氏名】川原 弘三
(72)【発明者】
【氏名】緑川 淳
(72)【発明者】
【氏名】木村 敏郎
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175HB03
(57)【要約】
【課題】目的の内容に類似した医学文献を手間をかけずに探し出せるとともに、目的の内容に類似した医学文献を精度良く検索できる類似医学文献検索システム及び類似医学文献検索方法を提供する。
【解決手段】入力文献データ処理部3でオントロジーデータを利用して着目文献集団に出現したエンティティーを抽出し、入力文献エンティティー評価部4で抽出されたエンティティーの1回目の評価を行い、全文献エンティティー評価部6で2回目の評価を行って重要度の高いエンティティーを選別する。この選別されたエンティティーを用いて類似文献抽出部7では、類似度をユークリッド距離で測っている。これにより、手間をかけずに精度の良い類似医学文献を検索できる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
検索の元であり、複数の医学文献の集まりである着目文献集団が入力される入力部と、
オントロジーデータが入力され、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第1のエンティティーが出現した文献数を前記第1のエンティティー毎に計数する入力文献データ処理部と、
前記第1のエンティティー毎に計数された文献数を前記第1のエンティティー毎に計数された文献数の総合計で割った数値であるTF3値を算出する入力文献エンティティー評価部と、
検索対象となる医学文献集団が入力され、前記着第1のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第1のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第1のエンティティー毎に計数した文献数で割って対数を取った数値である第1のIDF値を算出する全文献データ処理部と、
前記TF3値と前記第1のIDF値との積である第1のTF―IDF値を求め、前記第1のTF―IDF値に所定の閾値を設けて前記第1のエンティティーの選別を行う全文献エンティティー評価部と、
前記選別された第2のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第2のエンティティーが含まれる文献数を第2のエンティティー毎に計数し、前記全文献の数を前記第2のエンティティー毎に計数した文献数で割って対数を取った第2のIDF値に前記TF3値を乗算して求めた第2のTF―IDF値を算出し、前記第2のTF―IDF値に前記所定の閾値と同じ数値を適用して抽出された第3のエンティティーについて第3のエンティティー毎に前記第2のTF―IDF値の2乗の値と前記検索対象医学文献集団の文献に前記第3のエンティティーが含まれていない場合は0を、含まれている場合は1を前記第2のTF―IDF値の2乗の値と乗算してユークリッド距離を算出し、ユークリッド距離の小さい検索対象医学文献から抽出できるようにした類似文献抽出部とを備えたことを特徴とする類似医学文献検索システム。
【請求項2】
前記エンティティーを選別する閾値は、0よりも大きく、25以下の範囲で設定されることを特徴とする請求項1に記載の類似医学文献検索システム。
【請求項3】
前記入力文献エンティティー評価部に入力されるオントロジーデータは、遺伝子、疾患、化合物、表現型、細胞や臓器などの組織、ウイルスや微生物を含む生物種、機能の7種類であることを特徴とする請求項1又は2に記載の類似医学文献検索システム。
【請求項4】
検索の元であり、複数の医学文献の集まりである着目文献集団とオントロジーデータとの組み合わせで、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第1のエンティティーが出現した文献数を前記第1のエンティティー毎に計数するTF2算出工程と、
前記第1のエンティティー毎に計数された文献数を前記第1のエンティティー毎に計数された文献数の総合計で割った数値であるTF3値を求めるエンティティー評価第1工程と、
検索対象となる医学文献集団について、前記第1のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第1のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第1のエンティティー毎に計数した文献数で割って対数を取った数値である第1のIDF値を算出するIDF算出工程と、
前記TF3値と前記第1のIDF値との積である第1のTF―IDF値を求め、前記第1のTF―IDF値に所定の閾値を設けて前記第1のエンティティーの選別を行うエンティティー評価第2工程と、
前記選別された第2のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第2のエンティティーが含まれる文献数を第2のエンティティー毎に計数し、前記全文献の数を前記第2のエンティティー毎に計数した文献数で割って対数を取った第2のIDF値に前記TF3値を乗算して求めた第2のTF―IDF値を算出し、前記第2のTF―IDF値に前記所定の閾値と同じ数値を適用して抽出された第3のエンティティーについて第3のエンティティー毎に前記第2のTF―IDF値の2乗の値と前記検索対象医学文献集団の文献に前記第3のエンティティーが含まれていない場合は0を、含まれている場合は1を前記第2のTF―IDF値の2乗の値と乗算してユークリッド距離を算出するユークリッド距離算出工程と、
ユークリッド距離の小さい検索対象医学文献から抽出する類似文献抽出工程とを備えたことを特徴とする類似医学文献検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は着目する医学文献集団から、類似する医学文献を探すシステム及び方法に関する。
【背景技術】
【0002】
文献検索で最も広く利用されている方法は、キーワード検索で、辞書(オントロジー)を利用した方法や利用しない方法がある。特に医学文献においてはNCBI(米国立バイオテクノロジー情報センター)が提供しているPubMed文献データベースが最も著名である。
医学文献においては、3400万以上の論文が登録されていて、そのキーワード検索にもさまざまな手法が取り入れられている。
【0003】
例えば、複数のキーワードとさらにAND、ORなどの演算子を組み合わせて検索を行ったり、検索結果の表示順序などを工夫したり、同一著者による検索により同類の論文を検索することなどが行われている。さらに、キーワード検索以外にも類似の文書を探す一般的な方法もある。類似する論文を探すには、同じ著者の論文を書籍や論文集などから探す方法がある。
【0004】
また、ITを利用した方法には、同じ単語の出現する割合を手法としたものがある。TF-IDFは、 term frequency-inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である。
【0005】
最もシンプルな順位付け関数(ranking function)(英語版)の一つは、文書に含まれる語ごとのTF-IDFの和を計算することで実装される。たくさんのより洗練された順位付け関数はこのシンプルなモデルの変形となっている。2015年に行われた研究では、電子図書館におけるテキストベースのレコメンダシステムのうち83%がTF-IDFを利用していたことがわかった。
https://ja.wikipedia.org/wiki/Tf-idf
【先行技術文献】
【特許文献】
【0006】
【非特許文献1】Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). “Research-paper recommender systems: a literature survey” (英語). International Journal on Digital Libraries 17 (4): 305-338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012.
【発明の概要】
【発明が解決しようとする課題】
【0007】
例えば、上記PubMed文献データベースには、3500万件を超えるデータが蓄積され、日々新たな論文が登録されている。このため、日々の研究において、論文を正確に探す時間を大幅に減らす方法や、類似論文を探す効率的な方法が求められる。しかしながら、従来手法では、日々の研究において、類似医学文献を探すのに多くの時間を費やしているとともに、その結果、抽出された文献を見ても、目的の内容に類似した文献でない場合が多く、類似医学文献の抽出精度が確保出来ないことにあった。
【0008】
本発明は、上述した課題を解決するために創案されたものであり、目的の内容に類似した医学文献を手間をかけずに探し出せるとともに、目的の内容に類似した医学文献を精度良く検索できる類似医学文献検索システムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明の類似医学文献検索システムは、検索の元であり、複数の医学文献の集まりである着目文献集団が入力される入力部と、オントロジーデータが入力され、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第1のエンティティーが出現した文献数を前記第1のエンティティー毎に計数する入力文献データ処理部と、前記第1のエンティティー毎に計数された文献数を前記第1のエンティティー毎に計数された文献数の総合計で割った数値であるTF3値を算出する入力文献エンティティー評価部と、検索対象となる医学文献集団が入力され、前記第1のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第1のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第1のエンティティー毎に計数した文献数で割って対数を取った数値である第1のIDF値を算出する全文献データ処理部と、前記TF3値と前記第1のIDF値との積である第1のTF―IDF値を求め、前記第1のTF―IDF値に所定の閾値を設けて前記第1のエンティティーの選別を行う全文献エンティティー評価部と、前記選別された第2のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第2のエンティティーが含まれる文献数を第2のエンティティー毎に計数し、前記全文献の数を前記第2のエンティティー毎に計数した文献数で割って対数を取った第2のIDF値に前記TF3値を乗算して求めた第2のTF―IDF値を算出し、前記第2のTF―IDF値に前記所定の閾値と同じ数値を適用して抽出された第3のエンティティーについて第3のエンティティー毎に前記第2のTF―IDF値の2乗の値と前記検索対象医学文献集団の文献に前記第3のエンティティーが含まれていない場合は0を、含まれている場合は1を前記第2のTF―IDF値の2乗の値と乗算してユークリッド距離を算出し、ユークリッド距離の小さい検索対象医学文献から抽出できるようにした類似文献抽出部とを備えたことを特徴とする。
【0010】
また、本発明の類似文献検索方法は、検索の元であり、複数の医学文献の集まりである着目文献集団とオントロジーデータとの組み合わせで、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第1のエンティティーが出現した文献数を前記第1のエンティティー毎に計数するTF2算出工程と、前記第1のエンティティー毎に計数された文献数を前記第1のエンティティー毎に計数された文献数の総合計で割った数値であるTF3値を求めるエンティティー評価第1工程と、 検索対象となる医学文献集団について、前記第1のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第1のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第1のエンティティー毎に計数した文献数で割って対数を取った数値である第1のIDF値を算出するIDF算出工程と、前記TF3値と前記第1のIDF値との積である第1のTF―IDF値を求め、前記第1のTF―IDF値に所定の閾値を設けて前記第1のエンティティーの選別を行うエンティティー評価第2工程と、前記選別された第2のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第2のエンティティーが含まれる文献数を第2のエンティティー毎に計数し、前記全文献の数を前記第2のエンティティー毎に計数した文献数で割って対数を取った第2のIDF値に前記TF3値を乗算して求めた第2のTF―IDF値を算出し、前記第2のTF―IDF値に前記所定の閾値と同じ数値を適用して抽出された第3のエンティティーについて第3のエンティティー毎に前記第2のTF―IDF値の2乗の値と前記検索対象医学文献集団の文献に前記第3のエンティティーが含まれていない場合は0を、含まれている場合は1を前記第2のTF―IDF値の2乗の値と乗算してユークリッド距離を算出するユークリッド距離算出工程と、ユークリッド距離の小さい検索対象医学文献から抽出する類似文献抽出工程とを備えたことを特徴とする類似医学文献検索方法。
【発明の効果】
【0011】
本発明によれば、医学の着目文献集団とオントロジーデータを用いてオントロジーデータとして登録されたエンティティーであるとともに、着目文献集団に出現したエンティティーを抽出して、着目文献集団内での出現頻度をもとに1回目の評価を行い、次に着目文献集団と検索対象医学文献集団とを合計した全文献において、エンティティーの出現頻度等をもとに2回目の評価を行い、2回目の評価の数値に閾値を設け、正確に類似性を判断できるエンティティーを選別抽出する。このように、選別されたエンティティーを用いて着目文献集団と、検索対象医学文献集団の各文献とのユークリッド距離を求めることで類似した文献を抽出するようにしている。
【0012】
これにより、一般的なキーワード検索の手法ではなく、複数の医学文献からなる着目文献集団を入力すると、自動的に効率よく検索できるキーワードとしてのエンティティーが決定され、それらのエンティティーを利用して検索対象医学文献集団の全文献を検索して、着目文献集団と類似した文献を自動的に抽出できる。このため、着目文献集団と類似した文献の検索が極めて簡単になり類似文献検索に費やす時間も大幅に減少させることができるともに、類似文献抽出の精度を上げることができる。
【図面の簡単な説明】
【0013】
【
図1】類似医学文献検索システムのブロック構成を示す図である。
【
図2】類似医学文献を抽出する工程を示すフローチャート図である。
【
図3】着目文献集団に用いた文献(人獣共通感染症)の一例を示す図である。
【
図4】オントロジーデータベースの内部構造を示す図である。
【
図5】全文献集団、オントロジーデータ、エンティティー、着目文献集団等の各パラメータの包含関係を示す図である。
【
図8】着目文献集団の医学文献とオントロジーデータにより、TF3が算出された一例を示す。
【
図11】着目文献集団と全文献集団により算出されたTF―IDF値に活性化関数の閾値を適用した一例を示す図である。
【
図12】ユークリッド距離の算出式を示す図である。
【
図13】着目文献集団と全文献集団によりユークリッド距離を求め、ユークリッド距離が低い文献からランキングした図である。
【
図14】着目文献集団の文献数を4とした場合のユークリッド距離算出の一例を示す図である。
【
図15】着目文献集団の文献数を13とした場合のユークリッド距離算出の一例を示す図である。
【
図16】目文献集団の数と抽出された類似文献の類似度の比較を示す図である。
【
図17】異なる内容の文献(肝毒性)を着目文献集団とした一例を示す図である。
【
図18】
図17の着目文献集団を用いて算出されたユークリッド距離によるランキングの一例を示す図である、
【
図19】
図17の着目文献集団との関係性の強さを、抽出された文献について、評価した図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本発明の一実施形態を説明する。
図1~19を用いて、本発明の類似医学文献検索システムの動作及び具体例について説明する。
【0015】
図1は、本発明の類似医学文献検索システム20の全体構成例を示す。
図2は、
図1の類似医学文献検索システムを用いて類似医学文献を抽出する工程を示す。類似医学文献検索システム20は、コンピュータ、サーバー等に構築される処理システムであり、類似医学文献検索システム20は、オントロジーデータベース群9と全文献データベース10に接続されている。オントロジーデータベース群9と全文献データベース10は、外部のものを用いても良いし、類似医学文献検索システム20と同じシステム内に設けられたものでも良い。
【0016】
類似医学文献検索システム20は、演算制御部1、入力部2、入力文献データ処理部3、入力文献エンティティー評価部4、全文献データ処理部5、全文献エンティティー評価部6、類似文献集出部7、記憶部8で構成される。演算制御部1は、2~8の各部の演算制御やデータの流れ等を制御する。入力部1には、類似文献を探したい元となる着目文献が入力される。また、全文献データベース10は、目的の内容に類似した医学文献を検索する対象となる文献が格納されたデータベースである。また、オントロジーデータベース群9は、複数の異なる種類のオントロジーデータベースにより構成されている。また、図示されているオントロジーデータベース群9は、物理的に複数個のデータベースに分離されていることを示すのではなく、複数の異なる種類のデータベースが存在することを示している。ここで、オントロジーデータベースは、「辞書」や「シソーラス(分類語彙表)」とほぼ同義の用語として用いている。
【0017】
オントロジーデータベース群8の各オントロジーデータベースの内部構造は、
図4のように構成されている。
図4は、1種類のオントロジーデータベースを取り上げて図示している。オントロジーデータベースは、プライマリー(PRIMARY)91A、シノニム(SYNOMYM)91B、リスト(LIST)91Cの3つの部分から構成される。プライマリー91Aには、エンティティーの代表名が保持されている。ここで、各オントロジーデータベースで、独立した概念をエンティティーと呼びEで表す。シノニム91BにはAlzheimer's Disease、Alzheimer Diseaseというようにターム(term)tの用語を一つのエンティティーとしてまとめていてシノニム91Bとリスト91Cに格納されている。
【0018】
実際にキーワード検索を行う際には、同じタームが他のエンティティーに存在するなど、ホモニム用語の影響があり、検索用の用語は、ノーマライズを施し、ゆらぎも含め、検索用用語のリストとしてリスト91Cに格納されている。エンティティーEはtの集団であり、Eはtを要素として含む。この関係を集合の記号で表したものが
図5に示されている。そして、オントロジーデータベースの数に合わせて、プライマリー9nA、シノニム9nB、リスト9nCが存在することになり、n=2~iとなる。
【0019】
今回実施例で使用したオントロジーの種類は遺伝子(Gene)、疾患(Disease)、化合物(Chemical)、表現型(Phenotype)、細胞や臓器などの組織(Organ)、ウイルスや微生物を含む生物種(Taxonomy)、機能(Function)の7種類である。したがって、上記nは7となる。例えば、遺伝子オントロジーには、TNF receptor superfamily member 19(TNFRSF19), ELL associated factor 2(EAF2)等、疾患オントロジーには、Communicable Diseases, HIV Infections, Alzheimer Disease等、化合物オントロジーには、Nivolumab, Rosiglitazone , Acetaminophen等、表現型オントロジーには、Asthma、Overweight、Skin Rash等、細胞や臓器などの組織オントロジーには、integumentary scale、BRAIN、Embryonic Stem Cells等、ウイルスや微生物を含む生物種オントロジーには、Ebolavirus、Primates、Danio rerio等、機能オントロジーには、progesterone receptor agonist、chemical synaptic transmission、PD-L1 Inhibitor等のエンティティーがそれぞれ記録されている。
【0020】
その他にも、症状、安全性、測定機器などに利用する計測技術、地域、これらの関係性を示す相互作用として、遺伝子やタンパク質同士での相互作用、疾患と症状の関係性、薬剤と遺伝子やタンパク質の安全性に関する関係性、疾患と遺伝子やタンパク質の関係性等が記録されたオントロジーデータベースを用いることができれば類似検索の内容や範囲を拡張することができる。
【0021】
オントロジーデータベースとして、公共のデータベースを利用した。例えば、UMLS(疾患、表現型、組織、機能)、MeSH(疾患、化合物、組織、生物種、機能)、NCBI EntrezGene(遺伝子)、NCBI Taxonomy(生物種)、GeneOntology(機能)、MedGen(疾患、表現型)、Orphanet(疾患)、Cell Line Ontology(組織)、Experimental Factor Ontology(疾患)等を用いた。上記の括弧内は、対応する種類を示す。
【0022】
本発明の概要としては、意図的にキーワード検索を行わなくともキーワードを自動抽出し、1回目の重み付けを行い、それらのキーワードで全文献データベースを検索し、さらに2回目のキーワードの重み付けと精度を下げるキーワードは利用しないというプロセスを経て文献を検索し、さらに、ユークリッド距離計算によって、類似する医学文献を抽出するシステムを構築している。
【0023】
医学、生物学分野ではさまざまな研究結果を論文化し、保存する。その論文の殆どは、英文医学文献としてNCBI(米国立バイオテクノロジー情報センター)が提供しているPubMed文献データベース(https://pubmed.ncbi.nlm.nih.gov/)に保存され要約、もしくは全文文献が参照可能である。本実施例では、一例として、全文献データベース10として上記PubMed文献データベースを用いている。
【0024】
最初に、類似医学文献を探したい元となる着目医学文献を決定する。着目医学文献は、既に共有された文献があれば、それを用いても良いし、自身が持っている文献があれば、それを用いても良い。また、一般のデータベース等から、キーワード検索で見つけた文献であっても良い。そして、複数の着目医学文献を決定し、これを着目文献集団Dとする。
【0025】
図2の類似医学文献を抽出する工程を示すフローチャート図も参照しながら説明する。
上記のように選定した着目文献の集団Dの各文献d1のデータを入力部2に入力する(ST1)。この入力方法としては、文献をテキストデータとして取り込めれば、どのような方法であっても良い。例えば、紙に印刷された文献であれば、文書をスキャナで読み込み、OCRソフトを使用してテキストデータとして入力させることが考えられる。また、特に、本発明のシステムをインターネットを介して外部のユーザーに利用してもらう場合、簡単に入力してもらうために、PubMed文献データベースに存在する文献の場合は、PubMed文献データベース内で付与されたID(PMID)を入力できるようにしている。この場合、入力部2は、全文献データベース10を参照し、当該文献のデータを取得する。全文献データベースとして他のデータベースを用いる場合でも、上記のようにIDが付与されている場合は、同じように利用できる。
【0026】
キーワードとしてのエンティティーの1回目の評価の指標となるTF2(Term Freqency 2)値とTF3(Term Freqency 3)値を算出する。
図6(a)にTF2の算出式を、
図6(b)にTF3算出式を示す。入力文献データ処理部3は、オントロジーデータベース群9を参照し、入力部2から供給された着目文献集団Dの各文献d1を用いてTF2の算出を行う。まず、オントロジーデータベース群9における各オントロジーデータベースに記録されているすべてのエンティティーEを読み出して、個々の文献d1に含まれているかどうかを照合する。
【0027】
これには、エンティティーに紐づけられ、リスト9nCに記憶されている検索用語を用いる。検索用語で個々の文献を検索し、検索用語が、ある文献の中に存在する場合は、当該文献に対して検索用語と紐づいている特定のエンティティーに関しては1、存在しない場合は前記特定のエンティティーに関しては0を付与する。このようにしてTF2値が求められる。したがって、TF2値は0又は1のいずれかを取る。
【0028】
着目文献集団Dの各文献に出現した特定のエンティティー(第1のエンティティー)については、当該エンティティーが出現した文献に1が付与される。すなわち、着目文献集団Dに含まれる各エンティティーについて、各文献d1毎にTF2の値が算出される(ST2)。これを着目文献集団のすべての文献d1について行う(ST3)。ここで、エンティティーEと検索用語tの関係は、検索用語tはエンティティーEに要素として含まれるが、同じエンティティーの中の違った検索用語が抽出されたとしても、同じ意味なので、カウントは1として算出する。
【0029】
次に、エンティティーの重要性を評価するTF3値を求める。TF3値は、上記で算出されたTF2の数値を用いる。入力文献エンティティー評価部4は、着目文献集団Dに出現したエンティティーに関し、1つのエンティティーに着目してTF2の値を合計した数値を、着目文献集団Dに出現したすべてのエンティティーに関するTF2の値を合計した数値で割ることでTF3を求める。これを、着目文献集団に出現したすべてのエンティティーについて算出する(ST4)。言い換えれば、着目文献集団に出現した1つのエンティティーに着目して、当該エンティティーが存在する着目文献集団内の文献数を算出し、これを、着目文献集団に出現したすべてのエンティティーに関してエンティティー毎に繰り返して行い、エンティティー毎に算出された文献数をエンティティー毎に算出された文献数の総合計の数値で割ったものがTF3となる。前記の処理を着目文献集団Dに出現したすべてのエンティティーについて各々算出する。TF3は、特定のエンティティーが含まれる文献が多いほど大きな値となる。
【0030】
TF2値算出の簡易例を
図7に示す。
図7は、わかりやすく説明するために簡略化している。仮に、疾患と遺伝子と化合物の3種のオントロジーデータベースに記録されたエンティティーが着目文献に出現し、TF3の計算対象となった場合の例が記載されている。着目文献数は3とした。
図7の左端の列に記載されているのが、3つの着目文献に出現したエンティティーであり、疾患のオントロジーデータベースからは、2型糖尿病、アルツハイマー病、ハンチントン病と3つのエンティティーが、遺伝子のオントロジーデータベースからは、PPARGの1つのエンティティーが、化合物のオントロジーデータベースからは、Rosiglitazoneの1つのエンティティーが、出現したと仮定している。オントロジーカテゴリーの差異に関わらず、全てのエンティティーは同列に扱われる。
【0031】
図7の上端の行には、3つの文献のIDとして、文献1、文献2、文献3と記載されている。
図7に表されている0又は1の数値がTF2値を示す。例えば、2型糖尿病というエンティティーは、文献1、2、3のいずれにも出現したということであり、Rosiglitazoneというエンティティーは、文献3のみに出現したということを示す。5つにエンティティーについて,各エンティティー毎に文献1~3までのTF2値を合計する。これが、
図6(a)のTF3算出式の分子になる。これにより、2型糖尿病とPPARGはで分子が3、アルツハイマー病は分子が2、ハンチントン病とRosiglitazoneは分子が1となる。一方、
図6(a)のTF3算出式の分母は、
図7の表に示されたTF2値の総合計になるので、10となる。したがって、TF3値は、2型糖尿病とPPARGについては、3/10=0.3、アルツハイマー病は2/10=0.2、ハンチントン病とRosiglitazoneは1/10=0.1となる。以上のようにTF2値とTF3値は求められる。
【0032】
(1回目のエンティティー評価の指標となるTF2値とTF3値の算出の実施例)
本実施例では、着目文献集団として、上記PubMed文献データベースに保存されている「人獣共通感染症」に関する13文献を入力の文献集団とした。この13文献を
図3に示す。前述したように、着目文献の抽出は、PubMed文献データベースを用いなくてもよく、全文献データベース10と同一でなくても良い。また、キーワード検索によるものでなくても良い。
【0033】
これらの13文献が着目文献集団Dである。実施例では、着目文献集団もPubMed文献データベースから引用しており、文献一つに対し個別のID(PMID)が割り当てられる。ここでは、文献IDに紐付けられたドキュメントとして、d1と定義している。つまり、実施例では、Dはd1を要素として含むとともに、類似文献の検索対象となる全文献集団をLとすると、Lは全文献データベース10のことであるので、Lはd1を要素として含み、かつ、DはLの部分集合となる。上記の関係を集合の記号で記載したものが、
図5に示されている。
【0034】
全文献データベース10として実施例で利用したPubMed文献データベースを全文献集団Lとし、その中から選んだ着目文献集団Dと着目文献集団Dに含まれる個々の文献d1の関係性と、オントロジーデータベースOに格納され、代表となるキーワードとしてのエンティティーEと各エンティティーを構成するタームtの関係を整理したものが
図5に示されている。したがって、仮に、着目文献集団Dが、全文献データベース10に存在しない場合は、全文献データベース10に格納されている全文献に着目文献集団Dの文献を加えたものが、全文献集団Lとなる。
【0035】
次に、
図3に示された「人獣共通感染症」に関する13文献について算出したTF3とエンティティーの関係を
図8に示す。
図8では、左から順に、オントロジーデータベースの種類、当該オントロジーデータベースに記録されているエンティティー、当該エンティティーが着目文献集団の13文献の中で出現した回数(すなわち、出現した文献の数)、当該エンティティーのTF3値が表示されている。
【0036】
図2のフローチャート図に戻り、説明を続ける。全文献データ処理部5では、着目文献集団に含まれていたすべてのエンティティーと、全文献データベース10に保存されている全文献集団Lを用いてTF-IDF値の算出を行う。
図9(a)にIDF値の算出式を、
図9(b)にTF-IDF値の算出式を示す。2回目のエンティティー評価の指標となるTF-IDFの算出は、以下のように実施される。まず、
図9(a)式のように、IDF値を求める。
【0037】
IDF値の算出は、最初に、全文献集団Lで、着目文献集団に出現したエンティティー(第1のエンティティー)が存在する文献数を検索して各エンティティー毎に算出する。全文献集団Lにおける全文献数を前記の各エンティティー毎に計数された文献数で割った数値の対数を取った数値であるIDF値求める(ST5)。この値が第1のIDF値に相当する。すべての第1のエンティティーに関し、第1のIDF値の算出を行う(ST6)。ここで、全文献集団Lにおける各エンティティー毎の文献数とは、全文献集団Lの全文献と着目文献集団Dに出現したエンティティーとの組み合わせで求められる前述のTF2値を個々のエンティティー毎に合計したものを意味する。対数は自然対数もしくは常用対数を利用するが、実施例では対数の底として2を使用した。
【0038】
IDF値は、出現率が少ない珍しいエンティティーほど大きな値を作る。分母が0の場合は算出対象外とする。実施例では、全文献データベース10にPubMed論文データベースを使用していて、当該データベースには着目文献集団Dも含まれているので、Nは全文献データベース10に格納された全文献集団Lの全文献数を示す。したがって、分子と分母が同数になることはない。
【0039】
次に、全文献エンティティー評価部6では、TF3と第1のIDFの積により、TF-IDF値を求める(ST7)。これが、第1のTF-IDF値に相当する。IDFは、出現率が少ない珍しいエンティティーほど大きな値になるという傾向があるので、この値が大きいほど、キーワードとしてのエンティティーの重要性が増す。一方、前述したように、着目文献集団Dで特定のエンティティーが含まれる文献が多いほど、TF3は大きな値となる。したがって、TF-IDF値はTF3とIDFの積であることから、さらに、エンティティーの重要性を評価できる。
【0040】
また、全文献エンティティー評価部6では、算出された第1のTF-IDF値に閾値を適用して第1のエンティティーの足切りを行う。これにより、閾値以上の第1のTF-IDF値を有する第1のエンティティーが選別され、重要度が高いエンティティーが残る。これが、第2のエンティティーに相当する。閾値は、最適値を得るために、個々のユーザーが設定できるようになっている。ここで、TF3の最大値は1であり、IDFの最大値は今後全文献データベース10の文献が増えることによって、若干変動はあるだろうが、まず、25を超過することは考えられないので、TF-IDFの理論的最大値もおおよそ25を考えればよい。このため、閾値の最大値を25としても良いと考えられるので、閾値の範囲として、0よりも大きく25以下の数値であれば良い。実施例では、0.05に設定した。
【0041】
次に、類似文献抽出部7では、第2のTF-IDF値とユークリッド距離の算出を行う(ST8)。閾値を有する活性化関数の数式を
図10に示す。
図10でscoreと表示されている項目はTF-IDF値のことを示す。TF-IDFで算出される値の足切りを行うことにより、閾値以上のTF-IDF値を有するエンティティーが選別されるので、ノイズが減少し、類似文献抽出の精度が良くなる。活性化関数の閾値は、上記全文献エンティティー評価部6で設定したものと同じ数値を用いる。実施例では0.05である。
【0042】
図12にユークリッド距離算出の数式を示す。文献の類似性をユークリッド距離で算出する。パラメータは全文献データベース10に保存されている全文献集団L、着目文献集団D、オントロジーデータベース群9に記録されているデータO、全文献集団Lにおいて着目文献集団Dを除く個々の文献d2である。d2は、着目文献集団Dとの類似度を測る対象となる文献である。mはオントロジーの分解要素で、Oが要素としてEを含むという関係を保持したまま、
図10で示された閾値による足切りで選別された第2のエンティティーについて、各オントロジー(遺伝子、化合物、疾患...)全種を一つにまとめた上で、任意の一つのエンティティーEの要素を表す識別番号で、例えばm=1 : 遺伝子PPARG、m=2: 疾患ハンチントン病、m=3: nivolumabなどを表わし、m=1からkまでということで、すべての第2のエンティティーを利用して、第2のTF-IDF値を求める。
【0043】
これには、全文献集団Lの全文献において第2のエンティティーが含まれる文献数を第2のエンティティー毎に計数し、全文献の数を第2のエンティティー毎に計数した文献数で割って対数を取った第2のIDF値に上記TF3値を乗算して求めた第2のTF―IDF値を算出する。ここで、第2のエンティティーを抽出した時と同じ数値の閾値を用いて、第2のTF-IDF値の足切りを行う。これにより、閾値以上の第2のTF-IDF値を有するエンティティー(第3のエンティティー)が残るので、第3のエンティティーに対応する第2のTF-IDF値の2乗を算出し、これらの総和を求める。
【0044】
次に、第2のTF-IDF値の2乗の総和を求める際には、足切りにより残った第3のエンティティーのうち特定のエンティティーが存在しない文献d2は、類似度が低くなると言えるので、ユークリッド距離の相違がより明確になるように、TF-IDF値の2乗の和に加えるようにし、一方、特定のエンティティーが存在する場合は、類似度が高くなると言えるので、TF-IDF値の2乗の和に加えないようにしたのが、
図12に記載されている数式(1―TF2(Om,d2))の意味である。
【0045】
すなわち、文献d2に特定のエンティティーが記載されている場合は、TF2(Om,d2)は0となる。他方、文献d2に特定のエンティティーが記載されていない場合は、(1―TF2(Om,d2))は1となる。最後に、上記の規則によって算出されたTF-IDF値の2乗の総和の平方根を算出する(ST8)。これが、ユークリッド距離となり、値が小さい方が、より類似度が高いと判断できる。そして、着目文献集団Dと1つの文献d1の組み合わせで、上記のように、ユークリッド距離を算出するとともに、検索対象となる個々の文献d1すべてについて着目文献集団Dとの組み合わせでユークリッド距離を算出する(ST9)。
【0046】
そして、類似文献抽出部7は。ユークリッド距離の小さい文献d1から抽出してランキングする(ST10)。
【0047】
(2回目のエンティティー評価の指標となるIDF値とTF-IDF値の算出の実施例)
1回目のエンティティー評価の指標となるTF2値とTF3値の算出の実施例で用いた
図3や
図8等を用いて、IDF値とTF-IDF値を算出した例が
図11に示されている。
図11に表されているように、TF3値とIDF値の積がTF-IDF値となっており、大きいTF-IDF値を有するエンティティーから順に並べられている。
図11では、前述したように、閾値を0.05としており、足切りによる残ったエンティティーの数は、29であるので、前述のk=29となる。
【0048】
(ユークリッド距離算出の実施例)
図13は、
図11で閾値により選別抽出されたTF-IDF値の上位の29個のエンティティーを用い、着目文献集団の13文献を除き、全文献集団Lの各文献d2とのユークリッド距離を計算して、ユークリッド距離の小さい文献から順に並べた状態を示す。ユークリッド距離が小さい文献ほど、着目文献集団の13文献と類似度が高いと判断できる。
【0049】
(オントロジーデータを用いてエンティティーを評価した場合の効果の検証)
従来の手法だと、キーワードとして利用するエンティティーは無作為抽出が主流である。しかし、本手法はライフサイエンスに特化したオントロジーデータを利用することで、その指標となるTF3の値に大きく差が出てきている。人獣共通感染症関連論文より、オントロジーデータを利用した場合と従来の無作為抽出法による比較は以下の通りである。
人獣共通感染症論文の着目文献に対して、フリーキーワード無作為抽出によるTF3平均:0.002518892、人獣共通感染症論文の着目文献に対して、オントロジーデータを使ったTF3平均:0.022222249である。
【0050】
TF3の定義では、特定のエンティティーが含まれる対象の文献集団が多いほど大きな値となることから、オントロジーデータを使ったほうが、一般的な用語などノイズ源となるキーワードは利用しなくなることから、対象となる文献に多くのエンティティーが含まれ、大きな値を取ることができる。
【0051】
(着目文献集団の数と抽出された類似文献の類似度の比較)
着目文献集団の数の違いによるユークリッド距離の違いと抽出された文献が着目文献集団の内容に近いかどうかを目で検証した。
図14は、着目文献集団を4文献とした場合、ユークリッド距離の小さいものから順に抽出された文献を並べた状態を示す。また、
図15は、着目文献集団を上記着目文献4文献に強い関係がある類似文献9件を追加し、13文献とした場合、ユークリッド距離の小さいものから順に抽出された文献を並べた状態を示す。
図14、15ともに、ユークリッド距離の小さいものから40件の文献が示されている。同一人物の目検により、着目文献集団との関係性の強さを、抽出された上位40文献について、4段階で評価した。
図16に4段階の評価を行った結果を示す。着目論文集団が4文献より13文献のほうが、後者の評価時には、前者の評価時に強い関係があるとされたランキング上位の9つの文献は対象外となっているにもかかわらず、強い関係があるという文献が増えていることがわかる。
【0052】
(肝毒性の文献を用いた実施例)
人獣感染症以外の実施例として、肝毒性に関しても評価を行った。着目文献集団として、同様にPubMed文献データベースに保存されている「肝毒性」に関する9文献を入力の文献集団とした。この9文献を
図17に示す。人獣共通感染症の場合の実施例と同様、上述した方法でユークリッド距離の算出を行った結果を
図18に示す。
図18には、ユークリッド距離上位20文献しか表示されていないが、実際には上位20文献に続く20文献を抽出し、合計40文献を、人獣共通感染症の場合と同様に、4段階で評価した。
図19に4段階の評価を行った結果を示す。
図19では、着目文献集団の内容と関係性の強い文献が抽出されていることがわかる。
図14及び15と
図18を比較すればわかるように、人獣共通感染症よりもユークリッド距離が低い値で類似文献を抽出できている。このことは、肝毒性に関連する論文母集団が多いことを示している。
【符号の説明】
【0053】
1 演算制御部
2 入力部
3 入力文献データ処理部
4 入力文献エンティティー評価部
5 全文献データ処理部
6 全文献エンティティー評価部
7 類似文献抽出部
8 記憶部
9 オントロジーデータベース群
10 全文献データベース
20 類似医学文献検索システム