特開2024-90295 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社　ワールドフュージョンの特許一覧

特開2024-90295類似医学文献検索システム及び類似医学文献検索方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024090295

(43)【公開日】2024-07-04

(54)【発明の名称】類似医学文献検索システム及び類似医学文献検索方法

(51)【国際特許分類】

G06F 16/33 20190101AFI20240627BHJP

【ＦＩ】

G06F16/33

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022206098

(22)【出願日】2022-12-22

(71)【出願人】

【識別番号】597000618

【氏名又は名称】株式会社ワールドフュージョン

(74)【代理人】

【識別番号】100122910

【弁理士】

【氏名又は名称】三好広之

(72)【発明者】

【氏名】櫻井祐樹

(72)【発明者】

【氏名】川原弘三

(72)【発明者】

【氏名】緑川淳

(72)【発明者】

【氏名】木村敏郎

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA01

5B175HB03

(57)【要約】

【課題】目的の内容に類似した医学文献を手間をかけずに探し出せるとともに、目的の内容に類似した医学文献を精度良く検索できる類似医学文献検索システム及び類似医学文献検索方法を提供する。
【解決手段】入力文献データ処理部３でオントロジーデータを利用して着目文献集団に出現したエンティティーを抽出し、入力文献エンティティー評価部４で抽出されたエンティティーの１回目の評価を行い、全文献エンティティー評価部６で２回目の評価を行って重要度の高いエンティティーを選別する。この選別されたエンティティーを用いて類似文献抽出部７では、類似度をユークリッド距離で測っている。これにより、手間をかけずに精度の良い類似医学文献を検索できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

検索の元であり、複数の医学文献の集まりである着目文献集団が入力される入力部と、
オントロジーデータが入力され、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第１のエンティティーが出現した文献数を前記第１のエンティティー毎に計数する入力文献データ処理部と、
前記第１のエンティティー毎に計数された文献数を前記第１のエンティティー毎に計数された文献数の総合計で割った数値であるＴＦ３値を算出する入力文献エンティティー評価部と、
検索対象となる医学文献集団が入力され、前記着第１のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第１のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第１のエンティティー毎に計数した文献数で割って対数を取った数値である第１のＩＤＦ値を算出する全文献データ処理部と、
前記ＴＦ３値と前記第１のＩＤＦ値との積である第１のＴＦ―ＩＤＦ値を求め、前記第１のＴＦ―ＩＤＦ値に所定の閾値を設けて前記第１のエンティティーの選別を行う全文献エンティティー評価部と、
前記選別された第２のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第２のエンティティーが含まれる文献数を第２のエンティティー毎に計数し、前記全文献の数を前記第２のエンティティー毎に計数した文献数で割って対数を取った第２のＩＤＦ値に前記ＴＦ３値を乗算して求めた第２のＴＦ―ＩＤＦ値を算出し、前記第２のＴＦ―ＩＤＦ値に前記所定の閾値と同じ数値を適用して抽出された第３のエンティティーについて第３のエンティティー毎に前記第２のＴＦ―ＩＤＦ値の２乗の値と前記検索対象医学文献集団の文献に前記第３のエンティティーが含まれていない場合は０を、含まれている場合は１を前記第２のＴＦ―ＩＤＦ値の２乗の値と乗算してユークリッド距離を算出し、ユークリッド距離の小さい検索対象医学文献から抽出できるようにした類似文献抽出部とを備えたことを特徴とする類似医学文献検索システム。

【請求項2】

前記エンティティーを選別する閾値は、０よりも大きく、２５以下の範囲で設定されることを特徴とする請求項１に記載の類似医学文献検索システム。

【請求項3】

前記入力文献エンティティー評価部に入力されるオントロジーデータは、遺伝子、疾患、化合物、表現型、細胞や臓器などの組織、ウイルスや微生物を含む生物種、機能の７種類であることを特徴とする請求項１又は２に記載の類似医学文献検索システム。

【請求項4】

検索の元であり、複数の医学文献の集まりである着目文献集団とオントロジーデータとの組み合わせで、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第１のエンティティーが出現した文献数を前記第１のエンティティー毎に計数するＴＦ２算出工程と、
前記第１のエンティティー毎に計数された文献数を前記第１のエンティティー毎に計数された文献数の総合計で割った数値であるＴＦ３値を求めるエンティティー評価第１工程と、
検索対象となる医学文献集団について、前記第１のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第１のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第１のエンティティー毎に計数した文献数で割って対数を取った数値である第１のＩＤＦ値を算出するＩＤＦ算出工程と、
前記ＴＦ３値と前記第１のＩＤＦ値との積である第１のＴＦ―ＩＤＦ値を求め、前記第１のＴＦ―ＩＤＦ値に所定の閾値を設けて前記第１のエンティティーの選別を行うエンティティー評価第２工程と、
前記選別された第２のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第２のエンティティーが含まれる文献数を第２のエンティティー毎に計数し、前記全文献の数を前記第２のエンティティー毎に計数した文献数で割って対数を取った第２のＩＤＦ値に前記ＴＦ３値を乗算して求めた第２のＴＦ―ＩＤＦ値を算出し、前記第２のＴＦ―ＩＤＦ値に前記所定の閾値と同じ数値を適用して抽出された第３のエンティティーについて第３のエンティティー毎に前記第２のＴＦ―ＩＤＦ値の２乗の値と前記検索対象医学文献集団の文献に前記第３のエンティティーが含まれていない場合は０を、含まれている場合は１を前記第２のＴＦ―ＩＤＦ値の２乗の値と乗算してユークリッド距離を算出するユークリッド距離算出工程と、
ユークリッド距離の小さい検索対象医学文献から抽出する類似文献抽出工程とを備えたことを特徴とする類似医学文献検索方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は着目する医学文献集団から、類似する医学文献を探すシステム及び方法に関する。

【背景技術】

【0002】

文献検索で最も広く利用されている方法は、キーワード検索で、辞書（オントロジー）を利用した方法や利用しない方法がある。特に医学文献においてはNCBI（米国立バイオテクノロジー情報センター）が提供しているPubMed文献データベースが最も著名である。
医学文献においては、３４００万以上の論文が登録されていて、そのキーワード検索にもさまざまな手法が取り入れられている。

【0003】

例えば、複数のキーワードとさらにＡＮＤ、ＯＲなどの演算子を組み合わせて検索を行ったり、検索結果の表示順序などを工夫したり、同一著者による検索により同類の論文を検索することなどが行われている。さらに、キーワード検索以外にも類似の文書を探す一般的な方法もある。類似する論文を探すには、同じ著者の論文を書籍や論文集などから探す方法がある。

【0004】

また、ITを利用した方法には、同じ単語の出現する割合を手法としたものがある。ＴＦ－ＩＤＦは、 term frequency－inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量（数値）である。

【0005】

最もシンプルな順位付け関数(ranking function)（英語版）の一つは、文書に含まれる語ごとのＴＦ－ＩＤＦの和を計算することで実装される。たくさんのより洗練された順位付け関数はこのシンプルなモデルの変形となっている。２０１５年に行われた研究では、電子図書館におけるテキストベースのレコメンダシステムのうち８３％がＴＦ－ＩＤＦを利用していたことがわかった。
https://ja.wikipedia.org/wiki/Tf-idf

【先行技術文献】

【特許文献】

【0006】

【非特許文献1】Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). “Research-paper recommender systems: a literature survey” (英語). International Journal on Digital Libraries 17 (4): 305-338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012.

【発明の概要】

【発明が解決しようとする課題】

【0007】

例えば、上記PubMed文献データベースには、3500万件を超えるデータが蓄積され、日々新たな論文が登録されている。このため、日々の研究において、論文を正確に探す時間を大幅に減らす方法や、類似論文を探す効率的な方法が求められる。しかしながら、従来手法では、日々の研究において、類似医学文献を探すのに多くの時間を費やしているとともに、その結果、抽出された文献を見ても、目的の内容に類似した文献でない場合が多く、類似医学文献の抽出精度が確保出来ないことにあった。

【0008】

本発明は、上述した課題を解決するために創案されたものであり、目的の内容に類似した医学文献を手間をかけずに探し出せるとともに、目的の内容に類似した医学文献を精度良く検索できる類似医学文献検索システムを提供することを目的とする。

【課題を解決するための手段】

【0009】

上記目的を達成するために、本発明の類似医学文献検索システムは、検索の元であり、複数の医学文献の集まりである着目文献集団が入力される入力部と、オントロジーデータが入力され、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第１のエンティティーが出現した文献数を前記第１のエンティティー毎に計数する入力文献データ処理部と、前記第１のエンティティー毎に計数された文献数を前記第１のエンティティー毎に計数された文献数の総合計で割った数値であるＴＦ３値を算出する入力文献エンティティー評価部と、検索対象となる医学文献集団が入力され、前記第１のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第１のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第１のエンティティー毎に計数した文献数で割って対数を取った数値である第１のＩＤＦ値を算出する全文献データ処理部と、前記ＴＦ３値と前記第１のＩＤＦ値との積である第１のＴＦ―ＩＤＦ値を求め、前記第１のＴＦ―ＩＤＦ値に所定の閾値を設けて前記第１のエンティティーの選別を行う全文献エンティティー評価部と、前記選別された第２のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第２のエンティティーが含まれる文献数を第２のエンティティー毎に計数し、前記全文献の数を前記第２のエンティティー毎に計数した文献数で割って対数を取った第２のＩＤＦ値に前記ＴＦ３値を乗算して求めた第２のＴＦ―ＩＤＦ値を算出し、前記第２のＴＦ―ＩＤＦ値に前記所定の閾値と同じ数値を適用して抽出された第３のエンティティーについて第３のエンティティー毎に前記第２のＴＦ―ＩＤＦ値の２乗の値と前記検索対象医学文献集団の文献に前記第３のエンティティーが含まれていない場合は０を、含まれている場合は１を前記第２のＴＦ―ＩＤＦ値の２乗の値と乗算してユークリッド距離を算出し、ユークリッド距離の小さい検索対象医学文献から抽出できるようにした類似文献抽出部とを備えたことを特徴とする。

【0010】

また、本発明の類似文献検索方法は、検索の元であり、複数の医学文献の集まりである着目文献集団とオントロジーデータとの組み合わせで、前記着目文献集団に出現するとともに前記オントロジーデータのエンティティーでもある第１のエンティティーが出現した文献数を前記第１のエンティティー毎に計数するＴＦ２算出工程と、前記第１のエンティティー毎に計数された文献数を前記第１のエンティティー毎に計数された文献数の総合計で割った数値であるＴＦ３値を求めるエンティティー評価第１工程と、検索対象となる医学文献集団について、前記第１のエンティティー毎に前記検索対象医学文献集団に前記着目文献集団を加えた全文献において当該第１のエンティティーが含まれる文献数を計数し、前記全文献の数を前記第１のエンティティー毎に計数した文献数で割って対数を取った数値である第１のＩＤＦ値を算出するＩＤＦ算出工程と、前記ＴＦ３値と前記第１のＩＤＦ値との積である第１のＴＦ―ＩＤＦ値を求め、前記第１のＴＦ―ＩＤＦ値に所定の閾値を設けて前記第１のエンティティーの選別を行うエンティティー評価第２工程と、前記選別された第２のエンティティーを用い、前記検索対象医学文献集団の各文献と前記着目文献集団とを組み合わせて、前記第２のエンティティーが含まれる文献数を第２のエンティティー毎に計数し、前記全文献の数を前記第２のエンティティー毎に計数した文献数で割って対数を取った第２のＩＤＦ値に前記ＴＦ３値を乗算して求めた第２のＴＦ―ＩＤＦ値を算出し、前記第２のＴＦ―ＩＤＦ値に前記所定の閾値と同じ数値を適用して抽出された第３のエンティティーについて第３のエンティティー毎に前記第２のＴＦ―ＩＤＦ値の２乗の値と前記検索対象医学文献集団の文献に前記第３のエンティティーが含まれていない場合は０を、含まれている場合は１を前記第２のＴＦ―ＩＤＦ値の２乗の値と乗算してユークリッド距離を算出するユークリッド距離算出工程と、ユークリッド距離の小さい検索対象医学文献から抽出する類似文献抽出工程とを備えたことを特徴とする類似医学文献検索方法。

【発明の効果】

【0011】

本発明によれば、医学の着目文献集団とオントロジーデータを用いてオントロジーデータとして登録されたエンティティーであるとともに、着目文献集団に出現したエンティティーを抽出して、着目文献集団内での出現頻度をもとに1回目の評価を行い、次に着目文献集団と検索対象医学文献集団とを合計した全文献において、エンティティーの出現頻度等をもとに２回目の評価を行い、２回目の評価の数値に閾値を設け、正確に類似性を判断できるエンティティーを選別抽出する。このように、選別されたエンティティーを用いて着目文献集団と、検索対象医学文献集団の各文献とのユークリッド距離を求めることで類似した文献を抽出するようにしている。

【0012】

これにより、一般的なキーワード検索の手法ではなく、複数の医学文献からなる着目文献集団を入力すると、自動的に効率よく検索できるキーワードとしてのエンティティーが決定され、それらのエンティティーを利用して検索対象医学文献集団の全文献を検索して、着目文献集団と類似した文献を自動的に抽出できる。このため、着目文献集団と類似した文献の検索が極めて簡単になり類似文献検索に費やす時間も大幅に減少させることができるともに、類似文献抽出の精度を上げることができる。

【図面の簡単な説明】

【0013】

【図1】類似医学文献検索システムのブロック構成を示す図である。

【図2】類似医学文献を抽出する工程を示すフローチャート図である。

【図3】着目文献集団に用いた文献（人獣共通感染症）の一例を示す図である。

【図4】オントロジーデータベースの内部構造を示す図である。

【図5】全文献集団、オントロジーデータ、エンティティー、着目文献集団等の各パラメータの包含関係を示す図である。

【図6】ＴＦ２とＴＦ３の算出式を示す図である。

【図7】ＴＦ２値が算出された簡易例を示す。

【図8】着目文献集団の医学文献とオントロジーデータにより、ＴＦ３が算出された一例を示す。

【図9】ＩＤＦとＴＦ―ＩＤＦの算出式を示す。

【図10】活性化関数の算出式を示す。

【図11】着目文献集団と全文献集団により算出されたＴＦ―ＩＤＦ値に活性化関数の閾値を適用した一例を示す図である。

【図12】ユークリッド距離の算出式を示す図である。

【図13】着目文献集団と全文献集団によりユークリッド距離を求め、ユークリッド距離が低い文献からランキングした図である。

【図14】着目文献集団の文献数を４とした場合のユークリッド距離算出の一例を示す図である。

【図15】着目文献集団の文献数を１３とした場合のユークリッド距離算出の一例を示す図である。

【図16】目文献集団の数と抽出された類似文献の類似度の比較を示す図である。

【図17】異なる内容の文献（肝毒性）を着目文献集団とした一例を示す図である。

【図18】図１７の着目文献集団を用いて算出されたユークリッド距離によるランキングの一例を示す図である、

【図19】図１７の着目文献集団との関係性の強さを、抽出された文献について、評価した図である。

【発明を実施するための形態】

【0014】

以下、図面を参照して本発明の一実施形態を説明する。図１～１９を用いて、本発明の類似医学文献検索システムの動作及び具体例について説明する。

【0015】

図１は、本発明の類似医学文献検索システム２０の全体構成例を示す。図２は、図１の類似医学文献検索システムを用いて類似医学文献を抽出する工程を示す。類似医学文献検索システム２０は、コンピュータ、サーバー等に構築される処理システムであり、類似医学文献検索システム２０は、オントロジーデータベース群９と全文献データベース１０に接続されている。オントロジーデータベース群９と全文献データベース１０は、外部のものを用いても良いし、類似医学文献検索システム２０と同じシステム内に設けられたものでも良い。

【0016】

類似医学文献検索システム２０は、演算制御部１、入力部２、入力文献データ処理部３、入力文献エンティティー評価部４、全文献データ処理部５、全文献エンティティー評価部６、類似文献集出部７、記憶部８で構成される。演算制御部１は、２～８の各部の演算制御やデータの流れ等を制御する。入力部１には、類似文献を探したい元となる着目文献が入力される。また、全文献データベース１０は、目的の内容に類似した医学文献を検索する対象となる文献が格納されたデータベースである。また、オントロジーデータベース群９は、複数の異なる種類のオントロジーデータベースにより構成されている。また、図示されているオントロジーデータベース群９は、物理的に複数個のデータベースに分離されていることを示すのではなく、複数の異なる種類のデータベースが存在することを示している。ここで、オントロジーデータベースは、「辞書」や「シソーラス（分類語彙表）」とほぼ同義の用語として用いている。

【0017】

オントロジーデータベース群８の各オントロジーデータベースの内部構造は、図４のように構成されている。図４は、１種類のオントロジーデータベースを取り上げて図示している。オントロジーデータベースは、プライマリー（ＰＲＩＭＡＲＹ）９１Ａ、シノニム（ＳＹＮＯＭＹＭ）９１Ｂ、リスト（ＬＩＳＴ）９１Ｃの３つの部分から構成される。プライマリー９１Ａには、エンティティーの代表名が保持されている。ここで、各オントロジーデータベースで、独立した概念をエンティティーと呼びＥで表す。シノニム９１ＢにはAlzheimer's Disease、Alzheimer Diseaseというようにターム（ｔｅｒｍ）ｔの用語を一つのエンティティーとしてまとめていてシノニム９１Ｂとリスト９１Ｃに格納されている。

【0018】

実際にキーワード検索を行う際には、同じタームが他のエンティティーに存在するなど、ホモニム用語の影響があり、検索用の用語は、ノーマライズを施し、ゆらぎも含め、検索用用語のリストとしてリスト９１Ｃに格納されている。エンティティーＥはｔの集団であり、Ｅはｔを要素として含む。この関係を集合の記号で表したものが図５に示されている。そして、オントロジーデータベースの数に合わせて、プライマリー９ｎＡ、シノニム９ｎＢ、リスト９ｎＣが存在することになり、ｎ＝２～ｉとなる。

【0019】

今回実施例で使用したオントロジーの種類は遺伝子（Gene）、疾患(Disease)、化合物(Chemical)、表現型(Phenotype)、細胞や臓器などの組織(Organ)、ウイルスや微生物を含む生物種(Taxonomy)、機能(Function)の７種類である。したがって、上記ｎは７となる。例えば、遺伝子オントロジーには、TNF receptor superfamily member 19（TNFRSF19）, ELL associated factor 2（EAF2）等、疾患オントロジーには、Communicable Diseases, HIV Infections, Alzheimer Disease等、化合物オントロジーには、Nivolumab, Rosiglitazone , Acetaminophen等、表現型オントロジーには、Asthma、Overweight、Skin Rash等、細胞や臓器などの組織オントロジーには、integumentary scale、BRAIN、Embryonic Stem Cells等、ウイルスや微生物を含む生物種オントロジーには、Ebolavirus、Primates、Danio rerio等、機能オントロジーには、progesterone receptor agonist、chemical synaptic transmission、PD-L1 Inhibitor等のエンティティーがそれぞれ記録されている。

【0020】

その他にも、症状、安全性、測定機器などに利用する計測技術、地域、これらの関係性を示す相互作用として、遺伝子やタンパク質同士での相互作用、疾患と症状の関係性、薬剤と遺伝子やタンパク質の安全性に関する関係性、疾患と遺伝子やタンパク質の関係性等が記録されたオントロジーデータベースを用いることができれば類似検索の内容や範囲を拡張することができる。

【0021】

オントロジーデータベースとして、公共のデータベースを利用した。例えば、UMLS（疾患、表現型、組織、機能）、MeSH（疾患、化合物、組織、生物種、機能）、NCBI EntrezGene（遺伝子）、NCBI Taxonomy（生物種）、GeneOntology（機能）、MedGen（疾患、表現型）、Orphanet（疾患）、Cell Line Ontology（組織）、Experimental Factor Ontology（疾患）等を用いた。上記の括弧内は、対応する種類を示す。

【0022】

本発明の概要としては、意図的にキーワード検索を行わなくともキーワードを自動抽出し、１回目の重み付けを行い、それらのキーワードで全文献データベースを検索し、さらに２回目のキーワードの重み付けと精度を下げるキーワードは利用しないというプロセスを経て文献を検索し、さらに、ユークリッド距離計算によって、類似する医学文献を抽出するシステムを構築している。

【0023】

医学、生物学分野ではさまざまな研究結果を論文化し、保存する。その論文の殆どは、英文医学文献としてNCBI（米国立バイオテクノロジー情報センター）が提供しているPubMed文献データベース（https://pubmed.ncbi.nlm.nih.gov/）に保存され要約、もしくは全文文献が参照可能である。本実施例では、一例として、全文献データベース１０として上記PubMed文献データベースを用いている。

【0024】

最初に、類似医学文献を探したい元となる着目医学文献を決定する。着目医学文献は、既に共有された文献があれば、それを用いても良いし、自身が持っている文献があれば、それを用いても良い。また、一般のデータベース等から、キーワード検索で見つけた文献であっても良い。そして、複数の着目医学文献を決定し、これを着目文献集団Ｄとする。

【0025】

図２の類似医学文献を抽出する工程を示すフローチャート図も参照しながら説明する。
上記のように選定した着目文献の集団Ｄの各文献ｄ１のデータを入力部２に入力する（ＳＴ１）。この入力方法としては、文献をテキストデータとして取り込めれば、どのような方法であっても良い。例えば、紙に印刷された文献であれば、文書をスキャナで読み込み、OCRソフトを使用してテキストデータとして入力させることが考えられる。また、特に、本発明のシステムをインターネットを介して外部のユーザーに利用してもらう場合、簡単に入力してもらうために、PubMed文献データベースに存在する文献の場合は、PubMed文献データベース内で付与されたＩＤ（ＰＭＩＤ）を入力できるようにしている。この場合、入力部２は、全文献データベース１０を参照し、当該文献のデータを取得する。全文献データベースとして他のデータベースを用いる場合でも、上記のようにＩＤが付与されている場合は、同じように利用できる。

【0026】

キーワードとしてのエンティティーの１回目の評価の指標となるＴＦ２（Term Freqency 2）値とＴＦ３（Term Freqency 3）値を算出する。図６（ａ）にＴＦ２の算出式を、図６（ｂ）にＴＦ３算出式を示す。入力文献データ処理部３は、オントロジーデータベース群９を参照し、入力部２から供給された着目文献集団Ｄの各文献ｄ１を用いてＴＦ２の算出を行う。まず、オントロジーデータベース群９における各オントロジーデータベースに記録されているすべてのエンティティーＥを読み出して、個々の文献ｄ１に含まれているかどうかを照合する。

【0027】

これには、エンティティーに紐づけられ、リスト９ｎＣに記憶されている検索用語を用いる。検索用語で個々の文献を検索し、検索用語が、ある文献の中に存在する場合は、当該文献に対して検索用語と紐づいている特定のエンティティーに関しては１、存在しない場合は前記特定のエンティティーに関しては０を付与する。このようにしてＴＦ２値が求められる。したがって、ＴＦ２値は０又は１のいずれかを取る。

【0028】

着目文献集団Ｄの各文献に出現した特定のエンティティー（第１のエンティティー）については、当該エンティティーが出現した文献に１が付与される。すなわち、着目文献集団Ｄに含まれる各エンティティーについて、各文献ｄ１毎にＴＦ２の値が算出される（ＳＴ２）。これを着目文献集団のすべての文献ｄ１について行う（ＳＴ３）。ここで、エンティティーＥと検索用語ｔの関係は、検索用語ｔはエンティティーＥに要素として含まれるが、同じエンティティーの中の違った検索用語が抽出されたとしても、同じ意味なので、カウントは１として算出する。

【0029】

次に、エンティティーの重要性を評価するＴＦ３値を求める。ＴＦ３値は、上記で算出されたＴＦ２の数値を用いる。入力文献エンティティー評価部４は、着目文献集団Ｄに出現したエンティティーに関し、１つのエンティティーに着目してＴＦ２の値を合計した数値を、着目文献集団Ｄに出現したすべてのエンティティーに関するＴＦ２の値を合計した数値で割ることでＴＦ３を求める。これを、着目文献集団に出現したすべてのエンティティーについて算出する（ＳＴ４）。言い換えれば、着目文献集団に出現した１つのエンティティーに着目して、当該エンティティーが存在する着目文献集団内の文献数を算出し、これを、着目文献集団に出現したすべてのエンティティーに関してエンティティー毎に繰り返して行い、エンティティー毎に算出された文献数をエンティティー毎に算出された文献数の総合計の数値で割ったものがＴＦ３となる。前記の処理を着目文献集団Ｄに出現したすべてのエンティティーについて各々算出する。ＴＦ３は、特定のエンティティーが含まれる文献が多いほど大きな値となる。

【0030】

ＴＦ２値算出の簡易例を図７に示す。図７は、わかりやすく説明するために簡略化している。仮に、疾患と遺伝子と化合物の３種のオントロジーデータベースに記録されたエンティティーが着目文献に出現し、ＴＦ３の計算対象となった場合の例が記載されている。着目文献数は３とした。図７の左端の列に記載されているのが、３つの着目文献に出現したエンティティーであり、疾患のオントロジーデータベースからは、２型糖尿病、アルツハイマー病、ハンチントン病と３つのエンティティーが、遺伝子のオントロジーデータベースからは、PPARGの１つのエンティティーが、化合物のオントロジーデータベースからは、Rosiglitazoneの１つのエンティティーが、出現したと仮定している。オントロジーカテゴリーの差異に関わらず、全てのエンティティーは同列に扱われる。

【0031】

図７の上端の行には、３つの文献のＩＤとして、文献１、文献２、文献３と記載されている。図７に表されている０又は１の数値がＴＦ２値を示す。例えば、２型糖尿病というエンティティーは、文献１、２、３のいずれにも出現したということであり、Rosiglitazoneというエンティティーは、文献３のみに出現したということを示す。５つにエンティティーについて,各エンティティー毎に文献１～３までのＴＦ２値を合計する。これが、図６（ａ）のＴＦ３算出式の分子になる。これにより、２型糖尿病とPPARGはで分子が３、アルツハイマー病は分子が２、ハンチントン病とRosiglitazoneは分子が１となる。一方、図６（ａ）のＴＦ３算出式の分母は、図７の表に示されたＴＦ２値の総合計になるので、１０となる。したがって、ＴＦ３値は、２型糖尿病とPPARGについては、３／１０＝０．３、アルツハイマー病は２／１０＝０．２、ハンチントン病とRosiglitazoneは１／１０＝０．１となる。以上のようにＴＦ２値とＴＦ３値は求められる。

【0032】

（１回目のエンティティー評価の指標となるＴＦ２値とＴＦ３値の算出の実施例）
本実施例では、着目文献集団として、上記PubMed文献データベースに保存されている「人獣共通感染症」に関する１３文献を入力の文献集団とした。この１３文献を図３に示す。前述したように、着目文献の抽出は、PubMed文献データベースを用いなくてもよく、全文献データベース１０と同一でなくても良い。また、キーワード検索によるものでなくても良い。

【0033】

これらの１３文献が着目文献集団Ｄである。実施例では、着目文献集団もPubMed文献データベースから引用しており、文献一つに対し個別のＩＤ（PMID）が割り当てられる。ここでは、文献ＩＤに紐付けられたドキュメントとして、ｄ１と定義している。つまり、実施例では、Ｄはｄ１を要素として含むとともに、類似文献の検索対象となる全文献集団をＬとすると、Ｌは全文献データベース１０のことであるので、Ｌはｄ１を要素として含み、かつ、ＤはＬの部分集合となる。上記の関係を集合の記号で記載したものが、図５に示されている。

【0034】

全文献データベース１０として実施例で利用したPubMed文献データベースを全文献集団Ｌとし、その中から選んだ着目文献集団Ｄと着目文献集団Ｄに含まれる個々の文献ｄ１の関係性と、オントロジーデータベースＯに格納され、代表となるキーワードとしてのエンティティーＥと各エンティティーを構成するタームｔの関係を整理したものが図５に示されている。したがって、仮に、着目文献集団Ｄが、全文献データベース１０に存在しない場合は、全文献データベース１０に格納されている全文献に着目文献集団Ｄの文献を加えたものが、全文献集団Ｌとなる。

【0035】

次に、図３に示された「人獣共通感染症」に関する１３文献について算出したＴＦ３とエンティティーの関係を図８に示す。図８では、左から順に、オントロジーデータベースの種類、当該オントロジーデータベースに記録されているエンティティー、当該エンティティーが着目文献集団の１３文献の中で出現した回数（すなわち、出現した文献の数）、当該エンティティーのＴＦ３値が表示されている。

【0036】

図２のフローチャート図に戻り、説明を続ける。全文献データ処理部５では、着目文献集団に含まれていたすべてのエンティティーと、全文献データベース１０に保存されている全文献集団Ｌを用いてＴＦ－ＩＤＦ値の算出を行う。図９（ａ）にＩＤＦ値の算出式を、図９（ｂ）にＴＦ－ＩＤＦ値の算出式を示す。２回目のエンティティー評価の指標となるＴＦ－ＩＤＦの算出は、以下のように実施される。まず、図９（ａ）式のように、ＩＤＦ値を求める。

【0037】

ＩＤＦ値の算出は、最初に、全文献集団Ｌで、着目文献集団に出現したエンティティー（第１のエンティティー）が存在する文献数を検索して各エンティティー毎に算出する。全文献集団Ｌにおける全文献数を前記の各エンティティー毎に計数された文献数で割った数値の対数を取った数値であるＩＤＦ値求める（ＳＴ５）。この値が第１のＩＤＦ値に相当する。すべての第１のエンティティーに関し、第１のＩＤＦ値の算出を行う（ＳＴ６）。ここで、全文献集団Ｌにおける各エンティティー毎の文献数とは、全文献集団Ｌの全文献と着目文献集団Ｄに出現したエンティティーとの組み合わせで求められる前述のＴＦ２値を個々のエンティティー毎に合計したものを意味する。対数は自然対数もしくは常用対数を利用するが、実施例では対数の底として２を使用した。

【0038】

ＩＤＦ値は、出現率が少ない珍しいエンティティーほど大きな値を作る。分母が０の場合は算出対象外とする。実施例では、全文献データベース１０にPubMed論文データベースを使用していて、当該データベースには着目文献集団Ｄも含まれているので、Ｎは全文献データベース１０に格納された全文献集団Ｌの全文献数を示す。したがって、分子と分母が同数になることはない。

【0039】

次に、全文献エンティティー評価部６では、ＴＦ３と第１のＩＤＦの積により、ＴＦ－ＩＤＦ値を求める（ＳＴ７）。これが、第１のＴＦ－ＩＤＦ値に相当する。ＩＤＦは、出現率が少ない珍しいエンティティーほど大きな値になるという傾向があるので、この値が大きいほど、キーワードとしてのエンティティーの重要性が増す。一方、前述したように、着目文献集団Ｄで特定のエンティティーが含まれる文献が多いほど、ＴＦ３は大きな値となる。したがって、ＴＦ－ＩＤＦ値はＴＦ３とＩＤＦの積であることから、さらに、エンティティーの重要性を評価できる。

【0040】

また、全文献エンティティー評価部６では、算出された第１のＴＦ－ＩＤＦ値に閾値を適用して第１のエンティティーの足切りを行う。これにより、閾値以上の第１のＴＦ－ＩＤＦ値を有する第１のエンティティーが選別され、重要度が高いエンティティーが残る。これが、第２のエンティティーに相当する。閾値は、最適値を得るために、個々のユーザーが設定できるようになっている。ここで、ＴＦ３の最大値は１であり、ＩＤＦの最大値は今後全文献データベース１０の文献が増えることによって、若干変動はあるだろうが、まず、２５を超過することは考えられないので、ＴＦ－ＩＤＦの理論的最大値もおおよそ２５を考えればよい。このため、閾値の最大値を２５としても良いと考えられるので、閾値の範囲として、０よりも大きく２５以下の数値であれば良い。実施例では、０．０５に設定した。

【0041】

次に、類似文献抽出部７では、第２のＴＦ－ＩＤＦ値とユークリッド距離の算出を行う（ＳＴ８）。閾値を有する活性化関数の数式を図１０に示す。図１０でscoreと表示されている項目はＴＦ－ＩＤＦ値のことを示す。ＴＦ－ＩＤＦで算出される値の足切りを行うことにより、閾値以上のＴＦ－ＩＤＦ値を有するエンティティーが選別されるので、ノイズが減少し、類似文献抽出の精度が良くなる。活性化関数の閾値は、上記全文献エンティティー評価部６で設定したものと同じ数値を用いる。実施例では０.０５である。

【0042】

図１２にユークリッド距離算出の数式を示す。文献の類似性をユークリッド距離で算出する。パラメータは全文献データベース１０に保存されている全文献集団Ｌ、着目文献集団Ｄ、オントロジーデータベース群９に記録されているデータＯ、全文献集団Ｌにおいて着目文献集団Ｄを除く個々の文献ｄ２である。ｄ２は、着目文献集団Ｄとの類似度を測る対象となる文献である。ｍはオントロジーの分解要素で、Ｏが要素としてＥを含むという関係を保持したまま、図１０で示された閾値による足切りで選別された第２のエンティティーについて、各オントロジー（遺伝子、化合物、疾患...）全種を一つにまとめた上で、任意の一つのエンティティーＥの要素を表す識別番号で、例えばｍ＝１ : 遺伝子PPARG、ｍ＝２: 疾患ハンチントン病、ｍ＝３: nivolumabなどを表わし、ｍ＝１からｋまでということで、すべての第２のエンティティーを利用して、第２のＴＦ－ＩＤＦ値を求める。

【0043】

これには、全文献集団Ｌの全文献において第２のエンティティーが含まれる文献数を第２のエンティティー毎に計数し、全文献の数を第２のエンティティー毎に計数した文献数で割って対数を取った第２のＩＤＦ値に上記ＴＦ３値を乗算して求めた第２のＴＦ―ＩＤＦ値を算出する。ここで、第２のエンティティーを抽出した時と同じ数値の閾値を用いて、第２のＴＦ－ＩＤＦ値の足切りを行う。これにより、閾値以上の第２のＴＦ－ＩＤＦ値を有するエンティティー（第３のエンティティー）が残るので、第３のエンティティーに対応する第２のＴＦ－ＩＤＦ値の２乗を算出し、これらの総和を求める。

【0044】

次に、第２のＴＦ－ＩＤＦ値の２乗の総和を求める際には、足切りにより残った第３のエンティティーのうち特定のエンティティーが存在しない文献ｄ２は、類似度が低くなると言えるので、ユークリッド距離の相違がより明確になるように、ＴＦ－ＩＤＦ値の２乗の和に加えるようにし、一方、特定のエンティティーが存在する場合は、類似度が高くなると言えるので、ＴＦ－ＩＤＦ値の２乗の和に加えないようにしたのが、図１２に記載されている数式（１―TF2(Om,d2)）の意味である。

【0045】

すなわち、文献ｄ２に特定のエンティティーが記載されている場合は、TF2(Om,d2)は０となる。他方、文献ｄ２に特定のエンティティーが記載されていない場合は、（１―TF2(Om,d2)）は１となる。最後に、上記の規則によって算出されたＴＦ－ＩＤＦ値の２乗の総和の平方根を算出する（ＳＴ８）。これが、ユークリッド距離となり、値が小さい方が、より類似度が高いと判断できる。そして、着目文献集団Ｄと１つの文献ｄ１の組み合わせで、上記のように、ユークリッド距離を算出するとともに、検索対象となる個々の文献ｄ１すべてについて着目文献集団Ｄとの組み合わせでユークリッド距離を算出する（ＳＴ９）。

【0046】

そして、類似文献抽出部７は。ユークリッド距離の小さい文献ｄ１から抽出してランキングする（ＳＴ１０）。

【0047】

（２回目のエンティティー評価の指標となるＩＤＦ値とＴＦ－ＩＤＦ値の算出の実施例）
１回目のエンティティー評価の指標となるＴＦ２値とＴＦ３値の算出の実施例で用いた図３や図８等を用いて、ＩＤＦ値とＴＦ－ＩＤＦ値を算出した例が図１１に示されている。図１１に表されているように、ＴＦ３値とＩＤＦ値の積がＴＦ－ＩＤＦ値となっており、大きいＴＦ－ＩＤＦ値を有するエンティティーから順に並べられている。図１１では、前述したように、閾値を０．０５としており、足切りによる残ったエンティティーの数は、２９であるので、前述のｋ＝２９となる。

【0048】

（ユークリッド距離算出の実施例）
図１３は、図１１で閾値により選別抽出されたＴＦ－ＩＤＦ値の上位の２９個のエンティティーを用い、着目文献集団の１３文献を除き、全文献集団Ｌの各文献ｄ２とのユークリッド距離を計算して、ユークリッド距離の小さい文献から順に並べた状態を示す。ユークリッド距離が小さい文献ほど、着目文献集団の１３文献と類似度が高いと判断できる。

【0049】

（オントロジーデータを用いてエンティティーを評価した場合の効果の検証）
従来の手法だと、キーワードとして利用するエンティティーは無作為抽出が主流である。しかし、本手法はライフサイエンスに特化したオントロジーデータを利用することで、その指標となるＴＦ３の値に大きく差が出てきている。人獣共通感染症関連論文より、オントロジーデータを利用した場合と従来の無作為抽出法による比較は以下の通りである。
人獣共通感染症論文の着目文献に対して、フリーキーワード無作為抽出によるＴＦ３平均：0.002518892、人獣共通感染症論文の着目文献に対して、オントロジーデータを使ったＴＦ３平均：0.022222249である。

【0050】

ＴＦ３の定義では、特定のエンティティーが含まれる対象の文献集団が多いほど大きな値となることから、オントロジーデータを使ったほうが、一般的な用語などノイズ源となるキーワードは利用しなくなることから、対象となる文献に多くのエンティティーが含まれ、大きな値を取ることができる。

【0051】

（着目文献集団の数と抽出された類似文献の類似度の比較）
着目文献集団の数の違いによるユークリッド距離の違いと抽出された文献が着目文献集団の内容に近いかどうかを目で検証した。図１４は、着目文献集団を４文献とした場合、ユークリッド距離の小さいものから順に抽出された文献を並べた状態を示す。また、図１５は、着目文献集団を上記着目文献４文献に強い関係がある類似文献９件を追加し、１３文献とした場合、ユークリッド距離の小さいものから順に抽出された文献を並べた状態を示す。図１４、１５ともに、ユークリッド距離の小さいものから４０件の文献が示されている。同一人物の目検により、着目文献集団との関係性の強さを、抽出された上位４０文献について、４段階で評価した。図１６に４段階の評価を行った結果を示す。着目論文集団が４文献より１３文献のほうが、後者の評価時には、前者の評価時に強い関係があるとされたランキング上位の９つの文献は対象外となっているにもかかわらず、強い関係があるという文献が増えていることがわかる。

【0052】

（肝毒性の文献を用いた実施例）
人獣感染症以外の実施例として、肝毒性に関しても評価を行った。着目文献集団として、同様にPubMed文献データベースに保存されている「肝毒性」に関する９文献を入力の文献集団とした。この９文献を図１７に示す。人獣共通感染症の場合の実施例と同様、上述した方法でユークリッド距離の算出を行った結果を図１８に示す。図１８には、ユークリッド距離上位２０文献しか表示されていないが、実際には上位２０文献に続く２０文献を抽出し、合計４０文献を、人獣共通感染症の場合と同様に、４段階で評価した。図１９に４段階の評価を行った結果を示す。図１９では、着目文献集団の内容と関係性の強い文献が抽出されていることがわかる。図１４及び１５と図１８を比較すればわかるように、人獣共通感染症よりもユークリッド距離が低い値で類似文献を抽出できている。このことは、肝毒性に関連する論文母集団が多いことを示している。

【符号の説明】

【0053】

１演算制御部
２入力部
３入力文献データ処理部
４入力文献エンティティー評価部
５全文献データ処理部
６全文献エンティティー評価部
７類似文献抽出部
８記憶部
９オントロジーデータベース群
１０全文献データベース
２０類似医学文献検索システム

【図1】