特開2022-182568 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社島津製作所の特許一覧 ▶ 国立大学法人大阪大学の特許一覧

特開2022-182568文書検索支援装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022182568

(43)【公開日】2022-12-08

(54)【発明の名称】文書検索支援装置

(51)【国際特許分類】

G06F 16/383 20190101AFI20221201BHJP

【ＦＩ】

G06F16/383

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021090190

(22)【出願日】2021-05-28

(71)【出願人】

【識別番号】000001993

【氏名又は名称】株式会社島津製作所

(71)【出願人】

【識別番号】504176911

【氏名又は名称】国立大学法人大阪大学

(74)【代理人】

【識別番号】110001069

【氏名又は名称】弁理士法人京都国際特許事務所

(72)【発明者】

【氏名】金澤慎司

(72)【発明者】

【氏名】清水悟司

(72)【発明者】

【氏名】松田史生

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FB02

5B175FB04

5B175HA01

(57)【要約】（修正有）

【課題】分析対象物を含む試料の分析データを解析した結果の解釈に有用な文献を効率よく抽出する文書検索支援装置を提供する。
【解決手段】文書検索支援装置（５０）は、分析データから、分析対象物を特定する情報である第１情報を取得する情報取得部（５１２）と、分析データの解析結果の解釈に利用される文書情報を検索するための情報である第２情報の入力を受け付ける情報受付部（５１３）と、第１情報及び第２情報に基づいて、文書情報が蓄積されたデータベース内の文書情報に含まれる用語の中から、分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部（５１４）と、複数の関連用語の各々について、第１情報と第２情報との関連性の大きさを表す関連性スコアを算出するスコア算出部として機能し、各関連用語の関連性スコアから、関連用語の統計的な確からしさの指標値を求める統計処理部（５１５）とを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

分析対象物を含む試料を分析装置を用いて分析したデータの解析結果の解釈に利用される文書情報を検索する作業を支援する装置であって、
前記分析データから、該分析対象物を特定する情報である第１情報を取得する情報取得部と、
前記分析データの解析結果の解釈に利用される文書情報を検索するための情報である第２情報の入力を受け付ける情報受付部と、
前記第１情報及び前記第２情報に基づいて、文書情報が蓄積されたデータベース内の該文書情報に含まれる用語の中から、前記分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部と、
前記複数の関連用語の各々について、前記第１情報と前記第２情報との関連性の大きさを表す関連性スコアを算出するスコア算出部と、
前記各関連用語の関連性スコアから、該関連用語の統計的な確からしさの指標値を求める統計処理部と
を備える文書検索支援装置。

【請求項2】

前記統計処理部が、前記指標値として、各関連用語の関連性スコアのｐ値を求める、
請求項１に記載の文書検索支援装置。

【請求項3】

前記統計処理部が、多重比較補正を用いて各関連用語の前記指標値を求める、請求項１に記載の文書検索支援装置。

【請求項4】

前記統計処理部が、前記指標値として、各関連用語の関連性スコアのＦＤＲを求める、請求項１に記載の文書検索支援装置。

【請求項5】

前記複数の関連用語を前記指標値が大きい順又は小さい順に並べて表示部に表示させる表示制御部を備える、
請求項１に記載の文書検索支援装置。

【請求項6】

前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にない関連用語と、前記正常範囲内にある関連用語を区別して表示部に表示させる表示制御部とを備える、
請求項１に記載の文書検索支援装置。

【請求項7】

前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にある関連用語のみを表示部に表示させる表示制御部とを備える、
請求項１に記載の文書検索支援装置。

【請求項8】

前記データベースに蓄積されている文書情報が、複数の文献のそれぞれについて設定された、文献を特定する情報と、それに対応付けられた該文献を検索するための検索用語とを含み、
前記統計処理部が、前記抽出部により抽出された複数の関連用語をカテゴリー別に分類し、エンリッチメント解析を行い、抽出された関連用語の数が統計的に有意に多いカテゴリーを求める、請求項１に記載の文書検索支援装置。

【請求項9】

前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析により、統計的に有意に多いカテゴリーを求める、請求項８に記載の文書検索支援装置。

【請求項10】

前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析と残差分析により、統計的に有意に多いカテゴリーを求める、請求項８に記載の文書検索支援装置。

【請求項11】

前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計した結果を多重検定補正する、請求項９又は１０に記載の文書検索支援装置。

【請求項12】

統計的に有意に多いカテゴリーに属する関連用語を、それ以外の関連用語と区別して表示部に表示させる表示制御部を備える、請求項８～１１のいずれかに記載の文書検索支援装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書検索支援装置に関する。

【背景技術】

【0002】

生体内では、食事、薬物、運動、各種のストレス等の環境の影響を受けてゲノム及びタンパク質の活性が変化する。環境の影響を受けた結果は、生体中の有機酸、アミノ酸等の低分子化合物をはじめとする様々な代謝物に反映されると考えられることから、生体中の代謝物を分析することにより、生体機能に関する価値ある情報が得られる。生体中の代謝物を包括的に検出し、その結果を解析する一連の技術はメタボロミクス、あるいはメタボローム解析とよばれ、病気の診断、創薬、バイオマーカの探索、生活習慣や健康に関する研究等、医学、薬学の分野はもちろん食品工学、代謝工学等の工学分野、農学分野等、幅広い分野で利用されている。

【0003】

メタボロミクスでは、ガスクロマトグラフ質量分析装置（ＧＣ／ＭＳ）又は液体クロマトグラフ質量分析装置（ＬＣ／ＭＳ）（以下、クロマトグラフ質量分析装置）を用いて、血液（血清、血漿）、尿等の生体試料に含まれる代謝物を包括的に定性分析もしくは定量分析することが一般的に行われている。クロマトグラフ質量分析装置により得られた分析データを所定の解析ツールを用いて統計解析することにより、例えば薬剤投与の結果、変化した代謝物のリスト、特定の疾患患者において生体中の含有量が増加、又は減少している代謝物のリストを得ることができる（非特許文献１）。

【0004】

代謝物リストが得られると、該代謝物リストは医学的、薬学的に解釈され、代謝物と薬剤の作用機序の関係、疾患の発症機構と代謝物との関係が推定される。代謝物リストを解釈するためには、その分野において過去に行われてきた研究の結果が報告されている多数の文献の中から適切な文献を探し出し、読み解く作業が必要となる。

【0005】

このような文献の情報が電子的に収録されている代表的なデータベースの一つに米国国立医学図書館（ＮａｔｉｏｎａｌＬｉｂｒａｒｙｏｆＭｅｄｉｃｉｎｅ：ＮＬＭ）が運営しているデータベースＭＥＤＬＩＮＥがある。ＭＥＤＬＩＮＥに収録されている文献情報は例えば米国国立医学図書館がＷｅｂ上で公開している検索エンジンであるＰｕｂＭｅｄの検索機能を用いて検索することができる（非特許文献２参照）。

【0006】

ＭＥＤＬＩＮＥに収録されている文献には、検索が適切に行われるよう、医学文献シソーラスであるМｅＳＨ（ＭｅｄｉｃａｌＳｕｂｊｅｃｔＨｅａｄｉｎｇ）の用語が、１つの文献につき複数付与されている。МｅＳＨは、同じ意味を持つ複数の異なる医学用語を統一して検索できるように設定されたものであり、例えば「癌」を表す医学用語である「cancer」、「tumor」、「neoplasm」を含む文献にはМｅＳＨ用語として「neoplasms」が付与されている。したがって、「neoplasms」をキーワードとして検索することにより、「癌」を表す用語を含む全ての医学文献を抽出することができる。

【0007】

このように、ＭＥＤＬＩＮＥに収録されている文献は、МｅＳＨ用語を用いることで、統一的な検索が可能であるものの、文献の量は膨大であり、また、同じ医学分野の文献であっても、細分化された個々の専門領域では、異なる視点で研究の結果が文献に記述されることがある。そのような文献の中から、代謝物リストの解釈に有用な情報が含まれる文献を探し出すためには、解釈担当者が、МｅＳＨ用語を含む検索キーワードを適切に設定する必要がある。適切な検索キーワードを設定できるかどうかは、解釈担当者の知識に負うところが大きい。

【0008】

これに対して、分析対象物を含む生体試料の測定データを解析した結果から、該分析対象物を特定する情報を取得し、この情報に基づいて文書情報が蓄積されたデータベースの中から分析対象物に関連する用語を抽出してユーザに提示するようにした解析装置がある（特許文献１）。この解析装置によって提示された関連用語をキーワードとして用いることにより、解釈担当者が十分な知識を有していなくても、適切な文献検索を行うことができる。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】国際公開第ＷＯ２０２０／２３０７０４号

【非特許文献】

【0010】

【非特許文献1】Garuda Platform、特定非営利活動法人システム・バイオロジー研究機構、［online］、［令和3年5月13日検索］、インターネット＜http://www.garuda-alliance.org/about.html＞

【非特許文献2】ＰｕｂＭｅｄ、［online］、［令和3年5月13日検索］、インターネット＜URL:https://www.ncbi.nlm.nih.gov/pubmed＞

【発明の概要】

【発明が解決しようとする課題】

【0011】

上記の解析装置では、複数の関連用語が抽出されると、それらすべての関連用語が同等にユーザに提示される。その場合、全ての関連用語をキーワードとして文献を検索すると、絞り込み過ぎてしまい、検索漏れが生じる恐れがある。一方、提示された関連用語のうちの一つをキーワードとして文献を検索する作業を全ての関連用語について行うと、検索漏れをなくすことができるが、その場合は、抽出される文献の数が多くなりすぎる。そこで、ユーザは、提示された関連用語の中から１つ又は複数の関連用語をキーワードとして選択することになるが、選択された関連用語が適切でなければ、解釈に有用な文献を抽出することができない。

【0012】

なお、ここでは、メタボロミクスを例に挙げて説明したが、リピドミクス（脂質解析）、プロテオミクス（タンパク質解析）、ゲノミクス（遺伝子解析）、あるいは、総合的な解析手法であるマルチオミックス等において分析データの解析結果を解釈する際にも同様の問題があった。

【0013】

本発明が解決しようとする課題は、分析対象物を含む試料の分析データを解析した結果の解釈に有用な文献を効率よく抽出できるようにすることである。

【課題を解決するための手段】

【0014】

上記課題を解決するために成された本発明に係る文書検索支援装置は、
分析対象物を含む試料を分析装置を用いて分析したデータの解析結果の解釈に利用される文書情報を検索する作業を支援する装置であって、
前記分析データから、該分析対象物を特定する情報である第１情報を取得する情報取得部と、
前記分析データの解析結果の解釈に利用される文書情報を検索するための情報である第２情報の入力を受け付ける情報受付部と、
前記第１情報及び前記第２情報に基づいて、文書情報が蓄積されたデータベース内の該文書情報に含まれる用語の中から、前記分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部と、
前記複数の関連用語の各々について、前記第１情報と前記第２情報との関連性の大きさを表す関連性スコアを算出するスコア算出部と、
前記各関連用語の関連性スコアから、該関連用語の統計的な確からしさの指標値を求める統計処理部と
を備えるものである。

【発明の効果】

【0015】

本発明によれば、抽出された複数の関連用語の各々について、その関連性スコアから統計的な確からしさの指標値が求められる。本発明における「統計的な確からしさの指標値」とは、或る関連用語が偶然に抽出されたものではないことを統計的に評価した値をいう。したがって、ユーザは、各関連用語の確からしさの指標値をみて、いずれの関連用語をキーワードとして用いるべきかを判断することができるため、その関連用語を用いることにより、解析結果の解釈に有用な文献を効率よく検索することができる。

【図面の簡単な説明】

【0016】

【図1】本発明の実施形態に係る文書検索支援装置を含む情報提供システムの概要図。

【図2】文書検索支援装置の概略的な構成を示すブロック図。

【図3】分析データから文献検索用語を抽出する処理の一例を示す説明図。

【図4】文書検索用語の抽出処理の一実施例を示すフローチャート。

【図5】ランダムデータベースの作成手順の説明図。

【図6】ランダムデータベースにおける関連性スコアの分布を帰無分布として算出される、実データベースから抽出された関連МｅＳＨ用語のｐ値及びｑ値の説明図。

【図7】表示部に表示される処理結果の一例を示す図。

【図8】表示部に表示される処理結果の別の例を示す図。

【図9】表示部に表示される処理結果のさらに別の例を示す図。

【図10】МｅＳＨ用語をカテゴリー別に分けて作成されたクロス集計表の例。

【発明を実施するための形態】

【0017】

［情報提供システムの概要］
以下、この発明の実施の形態を図面に基づいて説明する。図１は、この実施形態に係る文書検索支援装置５０を含む情報提供システムの概要図である。

【0018】

情報提供システムは、文書検索支援装置５０以外に、分析装置１０と、複数の端末装置（ここでは端末装置としてタブレット端末２１、パーソナルコンピュータ２２を示す）と、複数のデータベース４１、４２、４３、４４とを含む。複数のデータベース４１、４２、４３、４４には、それぞれ文書情報が蓄積されている。

【0019】

分析装置１０は、分析対象物を含む試料に対して機械的動作により分析を実行する装置本体１１と、装置本体１１の動作を制御するための制御ソフトウェア、装置本体１１が分析を実行することにより得られたデータを処理するための処理ソフトウェア等がインストールされたパーソナルコンピュータ１２から構成される。この実施形態では、装置本体１１が分析を実行した結果、該装置本体１１が備える検出器から出力される信号値を「生データ」と呼び、処理ソフトウェアにより生データを処理した結果得られるデータを「分析データ」と呼ぶこととする。パーソナルコンピュータ１２の記憶装置には生データ、分析データが保存される。

【0020】

分析装置１０としては、ＬＣ（液体クロマトグラフィー）、ＧＣ（ガスクロマトグラフフィー）などのクロマトグラフ装置、および、クロマトグラフ装置に質量分析計を組み合わせたＬＣ／ＭＳおよびＧＣ／ＭＳなどのクロマトグラフ質量分析装置を使用することができる。分析装置１０がクロマトグラフ質量分析装置の場合、クロマトグラム、マススペクトル等のグラフが分析データとして取得される。グラフ上の各点を表す座標データ（例えば保持時間と信号強度の組、質量電荷比m/z値と信号強度の組等である数値データ）を分析データとしても良い。分析データを解析することにより、試料に含まれる分析対象物の種類、量を特定することができれば、どのような形式の分析データでもよい。また、分析装置１０に供される試料は液体試料、気体試料、固体試料がある。液体試料として、ヒトを含む動物の尿、血液、および、生物の細胞構造を破壊して得た粗抽出物等の生体試料がある。試料が生体試料の場合、分析対象物は、代謝物、たんぱく質、脂質等である。

【0021】

文書検索支援装置５０の実体はパーソナルコンピュータまたはワークステーション等のコンピュータである。文書検索支援装置５０は、ユーザが、データベース４１、４２、４３、４４の少なくとも一つの中から、前記分析データの解析結果の解釈に利用される文書情報を検索する作業を支援する装置である。文書検索支援装置５０の詳細な構成は後述する。

【0022】

分析装置１０のパーソナルコンピュータ１２、端末装置２１、２２、及び文書検索支援装置５０とデータベース４１、４２、４３、４４とは、インターネット２０を介して接続されており、それぞれが双方向に通信可能となっている。分析装置１０のパーソナルコンピュータ１２、端末装置２１、２２、文書検索支援装置５０は、インターネット２０を介してデータベース４１、４２、４３、４４に蓄積されている文書情報を利用することが可能である。

【0023】

データベース４１、４２、４３、４４には、分析装置１０で分析される試料の種類、試料に含まれる分析対象物の種類、分析装置１０を用いて試料を分析する目的等に応じた様々なデータベースが用いられる。例えば生体試料の分析データを解析した結果の解釈に利用されるデータベースとして、遺伝子データベース、たんぱく質情報データベース、医薬品情報データベース、医学文献データベース等がある。医学文献データベースには、例えば、米国国立医学図書館（ＮａｔｉｏｎａｌＬｉｂｒａｒｙｏｆＭｅｄｉｃｉｎｅ：ＮＬＭ）が運営している医学文献データベースＭＥＤＬＩＮＥがある。データベースに蓄積されている文書情報には、論文、書籍、辞書、医薬品添付文書等が含まれる。

【0024】

［文書検索支援装置の構成］
図２は文書検索支援装置５０の概略的な構成を示すブロック図である。
文書検索支援装置５０は、装置本体６０と、この装置本体６０に接続された入力部５８及び表示部５９とを備える。装置本体６０は、制御部５１と、各種の演算処理を実行するＣＰＵなどの演算装置５２と、インターネット２０を介して分析装置１０のパーソナルコンピュータ１２から送られてくる生データ、分析データなどを記憶するための補助記憶装置５３と、インターネット２０を介してデータベース４１との間でデータを送受信する通信部５４とを備える。図２では、装置本体６０と１個のデータベース４１とが接続されている状態が示されているが、複数のデータベースが接続されていても良い。また、図２では、データベース４１としての米国国立医学図書館が運営しているＭＥＤＬＩＮＥが、ＰｕｂＭｅｄ４１１を介して接続されている状態をしめしている。ＭＥＤＬＩＮＥに収録されている文献は、ＰｕｂＭｅｄ４１１の検索機能を用いて検索することができる。

【0025】

ＭＥＤＬＩＮＥには多数の文献が電子的に収録されており、各文献には、医学文献シソーラスであるМｅＳＨ用語及びМｅＳＨＩＤが付与されている。ＭＥＤＬＩＮＥに収録されている文献に付与される多数のМｅＳＨ用語は、カテゴリー毎に分類された階層構造を有しており、或る上位概念を表すМｅＳＨ用語の下位に、複数の下位概念を表すМｅＳＨ用語が枝分かれした状態で配置されている。例えば上位概念である「消化器疾患」を表すМｅＳＨ用語の下位には、「食道疾患」、「胃腸疾患」等を表すМｅＳＨ用語が配置され、「胃腸疾患」の下位には、「胃潰瘍」、「十二指腸潰瘍」、「胃がん」、「十二指腸潰瘍」等を表すМｅＳＨ用語が配置されている。МｅＳＨＩＤは、МｅＳＨ用語のカテゴリーに応じて該МｅＳＨ用語に付与されているものである。

【0026】

制御部５１は、演算装置５２、補助記憶装置５３、通信部５４の動作を制御する。また、制御部５１は、解析処理部５１１、情報取得部５１２、情報受付部５１３、抽出部５１４、統計処理部５１５、表示制御部５１６を機能ブロックとして備える。本実施形態では、解析処理部５１１及び情報取得部５１２が本発明の第１情報取得部に相当する。情報受付部５１３、抽出部５１４、統計処理部５１５が、それぞれ本発明の第２情報受付部、抽出部、統計処理部に相当する。

【0027】

上述したように、文書検索支援装置５０の実体はコンピュータであり、該コンピュータに予めインストールされた専用のソフトウェアを当該コンピュータ上で実行することにより制御部５１の各機能が具現化される。入力部５８はコンピュータに付設されたキーボードやポインティングデバイス（マウス等）である。表示部５９はコンピュータのディスプレイモニタである。補助記憶装置５３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。演算装置５２、補助記憶装置５３および通信部５４と制御部５１とは、内部バスにより接続されている。

【0028】

［文書検索支援装置における処理］
次に、文書検索支援装置５０によって実行される処理について図３を参照しつつ説明する。図３は、一例として、２型糖尿病であると診断された複数の患者（疾患群）から採取した血液、及び複数の健常者（健常者群）から採取した血液にそれぞれ所定の前処理を行うことで得られた試料を分析装置１０（ＬＣ／ＭＳ）で分析した場合の処理の流れを示すものである。

【0029】

＜１．データ取得＞
まず、分析装置１０の装置本体１１において、疾患群及び健常者群の試料が分析され、生データがそれぞれ取得される。

【0030】

＜２．データ処理＞
次に、分析装置１０のパーソナルコンピュータ１２において生データが処理され、分析データが得られる。図３には、分析データとしてクロマトグラムが示されているが、マススペクトルでも良く、保持時間と信号強度の組から成る数値データ、ｍ／ｚ値と信号強度の組から成る数値データでもよい。また、試料に含まれる代謝物毎の含有量の時間的変化を示すグラフでもよい。
＜３．データ解析＞
続いて、分析装置１０から分析データが文書検索支援装置５０に送られ、補助記憶装置５３に保存される。また、解析処理部５１１は、補助記憶装置５３に保存されている分析データを解析して、試料に含まれる代謝物を特定可能な形態のデータ（解析データ）を作成する。そのため、解析処理部５１１には、解析データを作成するために必要な解析ツールが予め記憶されている。

【0031】

ここでは、疾患群と健常者群の試料中の代謝物の含有量をボルケーノプロット法で比較し、含有量が有意に変動した代謝物のリストが作成されることとする。ボルケーノプロットと代謝物リストが解析データに相当する。代謝物リストには、疾患群と健常者群の間で有意に含有量が変動した代謝物の名称と、その代謝物のМｅＳＨＩＤが記述されている。МｅＳＨＩＤはМｅＳＨ用語のカテゴリーに応じて該МｅＳＨ用語に付されているものであり、ＰｕｂＭｅｄから取得することができる。また、代謝物の名称をМｅＳＨＩＤに変換するためのＩＤ変換ツール（図示せず）を文書検索支援装置５０に予めインストールしておき、解析処理部５１１がＩＤ変換ツールを利用して、代謝物リストに記述される代謝物の名称をМｅＳＨＩＤに変換しても良い。

【0032】

なお、ここではボルケーノプロット法を用いて分析データを解析する例を挙げたが、これ以外に、多変量解析を用いることができる。また、代謝経路を図式化した代謝マップを作成するマッピングツールにより分析データを処理しても良い。この場合は、代謝マップが解析データとなる。

【0033】

また、本実施形態では、文書検索支援装置５０が分析データを解析する機能を有していることとして説明するが、分析装置１０が分析データを解析処理する機能を有していても良い。また、端末装置２１、２２のいずれかが分析装置１０から分析データを取得して、それを解析するようにしても良い。

【0034】

＜４．文書検索用語のレコメンド処理＞
代謝物リストが作成されると、文書検索用語のレコメンド処理が実行される。以下、レコメンド処理の実施例について説明する。

【0035】

［実施例１］
図４は、実施例１のレコメンド処理の手順を示すフローチャートである。
この実施例では、まず、情報取得部５１２が代謝物リストに記述されている代謝物名を抽出する（ステップ１０１）。図３には、代謝物リストから抽出された代謝物名としてロイシン（Leucine）、イソロイシン（Isoleucine）、及びバリン（Valine）が示されている。文書情報が蓄積されたデータベースとしてＭＥＤＬＩＮＥを利用する場合は、情報取得部５１２はＰｕｂＭＥＤに問い合わせて、代謝物リストから取得した代謝物名に対応するМｅＳＨ用語及びМｅＳＨＩＤを取得する。情報取得部５１２が取得する代謝物名、あるいは代謝物に対応するМｅＳＨ用語及びМｅＳＨＩＤは本発明の第１情報に相当する。

【0036】

続いて、制御部５１は、表示制御部５１６に、ユーザに対して入力部５８を介した第２情報の入力を促すメッセージを表示部５９に表示させる。そして、ユーザが、入力部５８を用いて第２情報を入力すると、この第２情報が情報受付部５１３に受け付けられる（ステップ１０２）。第２情報は、分析データを解析した結果の解釈に利用される文書情報を検索するために必要な情報としてユーザが入力するものであり、ユーザの既知の情報である。例として、試料に含まれる分析対象物を分析する目的、試料の種類等を考慮して選択される、薬剤、疾患、生物種、臓器、器官、人種等を表す用語が挙げられる。

【0037】

文書情報が蓄積されたデータベースとしてＭＥＤＬＩＮＥを利用する場合は、情報受付部５１３が受け付ける第２情報は、МｅＳＨ用語又はМｅＳＨＩＤである。この場合、入力部５８を介して入力された用語がМｅＳＨ用語又はМｅＳＨＩＤであれば、そのまま情報受付部５１３に受け付けられる。一方、入力部５８を介して入力された用語がМｅＳＨ用語及びМｅＳＨＩＤのいずれでもない場合は、情報受付部５１３はＰｕｂＭＥＤに問い合わせて入力された用語に対応するМｅＳＨ用語又は／及びМｅＳＨＩＤを取得する。図３では、第２情報として２型糖尿病（Diabetes Mellitus, Type 2）（のМｅＳＨ用語又は／及びМｅＳＨＩＤ）が受け付けられた例を示している。

【0038】

次に、抽出部５１４は、データベース４１に蓄積されている文書情報から、第１情報及び第２情報に関連する情報である共起データを取得する。具体的には、制御部５１は通信部５４を介してインターネット２０経由でＰuｂＭｅｄにデータの送信を要求する（ステップ１０３）。

【0039】

ＰｕｂＭｅｄは、文書検索支援装置５０からの送信要求を受信すると、ＰｕｂＭｅｄを介して利用可能なサービスの１つである、ＭＥＤＬＩＮＥＣｏ－Ｏｃｃｕｒｒｅｎｃｅ（ＭＲＣＯＣ）（ｈｔｔｐｓ：／／ｉｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ＭＲＣＯＣ．ｓｈｔｍｌ、［令和３年５月１２日検索］）から、ＭＥＤＬＩＮＥに蓄積されている文献データを入手して、これを文書検索支援装置５０に送信する。文献データを受信した制御部51は、これを補助記憶装置５３に保存する。抽出部５１４は、補助記憶装置５３に保存された文献データを読み出し、代謝物リストに含まれるすべての代謝物のМｅＳＨＩＤ（第１МｅＳＨＩＤ）、及びユーザが入力した第２情報のМｅＳＨＩＤ（第２МｅＳＨＩＤという）に共通する共起データを作成する（ステップ１０４）。共起データは、文献データに含まれる文献において、第１МｅＳＨＩＤに対応するМｅＳＨ用語（第１МｅＳＨ用語）及び第２МｅＳＨＩＤに対応するМｅＳＨ用語（第２МｅＳＨ用語）と同時に出現するМｅＳＨ用語及びそのМｅＳＨＩＤ、並びに共起頻度の値とが対応付けて記述されたテキストファイル（ＣｏＯｃｃｕｒｓ．ｔｘｔ）から成る。共起データに含まれるМｅＳＨ用語は本発明の関連用語に相当する。以下、共起データに含まれるМｅＳＨ用語を関連МｅＳＨ用語という。図３には、共起データに含まれていたＭｅＳＨ用語が「Insulin Resistance (D007333)」、「Mechanistic Target of Rapamycin Complex 1 (D000076222)」であった例を示している。

【0040】

抽出部５１４が共起データを作成すると、統計処理部５１５は、共起データに含まれる各関連МｅＳＨ用語と第１МｅＳＨ用語との間及び第２МｅＳＨ用語との間のアソシエーション分析を行い、関連МｅＳＨ用語と第１МｅＳＨ用語及び第２МｅＳＨ用語との間の関連性の大きさを表す関連性スコアを求める（ステップ１０５）。ここでは、各関連МｅＳＨ用語について、第１МｅＳＨ用語との間のＣｏｎｆｉｄｅｎｃｅ値、第２МｅＳＨ用語との間のＣｏｎｆｉｄｅｎｃｅ値を計算により求め、その積を関連性スコアとする。全ての関連МｅＳＨ用語について関連性スコアが求められると、関連性スコアの大きい順に関連МｅＳＨ用語を並べたリストを作成する（ステップ１０６）。したがって、この実施例では、抽出部５１４及びＰｕｂＭｅｄが本発明の抽出部を構成する。また、統計処理部５１５は本発明のスコア算出部として機能する。

【0041】

Ｃｏｎｆｉｄｅｎｃｅ値は条件付き確率を意味し、分母の選び方により、関連МｅＳＨ用語から第１又は第２МｅＳＨ用語への条件付き確率、第１又は第２МｅＳＨ用語から関連МｅＳＨ用語への条件付き確率の２通りがある。ここでは、関連МｅＳＨ用語から第１МｅＳＨ用語又は第２МｅＳＨ用語への条件付き確率をＣｏｎｆｉｄｅｎｃｅ値とした。すなわち、第１МｅＳＨ用語が付与されている文献の数を[Ｃ_１]、関連МｅＳＨ用語と第１МｅＳＨ用語が共起する文献の数を[Ｃ_１Ｘ]、第２МｅＳＨ用語が付与されている文献の数を[Ｃ_２]、関連МｅＳＨ用語と第２МｅＳＨ用語が共起する文献の数を[Ｃ_２Ｘ]としたとき、第１МｅＳＨ用語及び第２МｅＳＨ用語のＣｏｎｆｉｄｅｎｃｅ値、関連МｅＳＨ用語の関連性スコアは、それぞれ以下の式で表される。
Ｃｏｎｆｉｄｅｎｃｅ値＝[Ｃ_１Ｘ]／[Ｃ_１]、[Ｃ_２Ｘ]／[Ｃ_２]
関連性スコア＝（[Ｃ_１Ｘ]／[Ｃ_１]）×（[Ｃ_２Ｘ]／[Ｃ_２]）

【0042】

なお、この実施形態ではＣｏｎｆｉｄｅｎｃｅ値を用いて関連性スコアを求めることとしたが、各関連МｅＳＨ用語について、第１及び第２МｅＳＨ用語との間のＣｏｓｉｎｅ係数、Ｄｉｃｅ係数、Ｓｉｍｐｓｏｎ係数、Ｌｉｆｔ値をそれぞれ求め、これらの値の積を関連性スコアとしても良い。Ｃｏｓｉｎｅ係数、Ｄｉｃｅ係数、Ｓｉｍｐｓｏｎ係数、Ｌｉｆｔ値は以下の式で定義される。
Ｃｏｓｉｎｅ係数＝[Ｃ_１Ｘ]／√（[Ｃ_１]×[Ｘ]）、[Ｃ_２Ｘ]／√（[Ｃ_２]×[Ｘ]）
Ｄｉｃｅ係数＝[Ｃ_１Ｘ]／｛（[Ｃ_１]＋[Ｘ]）／２｝、[Ｃ_２Ｘ]／｛（[Ｃ_２]＋[Ｘ]）／２｝
Ｓｉｍｐｓｏｎ係数＝[Ｃ_１Ｘ]／ｍｉｎ（[Ｃ_１]、[Ｘ]）、[Ｃ_２Ｘ]／ｍｉｎ（[Ｃ_２]、[Ｘ]）
Ｌｉｆｔ値＝Ｃｏｎｆｉｄｅｎｃｅ値／（[Ｘ]／全文献数）
上記の式において、[Ｘ]は関連МｅＳＨ用語が付与されている文献の数を表し、ｍｉｎ（[Ｃ_１]、[Ｘ]）は[Ｃ_１]と[Ｘ]のうち少ない方の数を表す。

【0043】

続いて、統計処理部５１５は、各関連МｅＳＨ用語の関連性スコアの統計的優位性の検定を行う。具体的には、統計処理部５１５は、ＭＲＣＯＣから、ＭＥＤＬＩＮＥに蓄積されている全ての文献を入手してランダムデータベース（ＤＢ）を作成し、このランダムＤＢに含まれる文献において、第１МｅＳＨ用語及び第２МｅＳＨ用語と同時に出現する共起用語を抽出する。そして、上述したステップ１０５と同様の方法で各共起用語と第１МｅＳＨ用語との間及び第２МｅＳＨ用語との間のアソシエーション分析を行い、第１МｅＳＨ用語及び第２МｅＳＨ用語との間のＣｏｎｆｉｄｅｎｃｅ値から各共起用語の関連性スコアを算出して、その頻度分布を求める（ステップ１０７）。

【0044】

また、統計処理部５１５は、ランダムＤＢから抽出した共起用語の関連性スコアの頻度分布における各関連МｅＳＨ用語の関連性スコアの位置から、各関連МｅＳＨ用語のＦＤＲ（ＦａｌｓｅＤｉｓｃｏｖｅｒｙＲａｔｅ）を計算し、各関連МｅＳＨ用語のＦＤＲが所定範囲内にあるか否かを判定する（ステップ１０８）。つまり、本実施例では統計処理部５１５が本発明の判定部として機能する。

【0045】

図５を参照して、ランダムＤＢの作成方法について説明する。
図５（ａ）において、実データベース（ＤＢ）とは、ＭＥＤＬＩＮＥに蓄積されている文献のリストと全ての文献に付与されているМｅＳＨ用語のリストである。図５（ａ）は、文献１にМｅＳＨ用語ａ、ｂ …、ｃが付与され、文献２にМｅＳＨ用語ｄ、ｅが付与され、文献ｎにМｅＳＨ用語ａ、ｂが付与されている例を示している。

【0046】

このような実ＤＢに対して、文献の数、及び各文献に付与されているМｅＳＨ用語の数、全ての文献における各МｅＳＨ用語の登場回数が実ＤＢと同じになるように、МｅＳＨ用語をランダムシャフルしたＤＢを作成する。これがランダムＤＢである。以下に具体的には、ランダムＤＢは以下の手順で作成される。

【0047】

（１）実ＤＢの文献リストの各文献に付与されているМｅＳＨ用語を初期化する。これにより、いずれの文献にもМｅＳＨ用語が割り当てられていない文献リスト（初期化文献リスト）が作成される（図５（ａ）の右側の図）。
（２）実ＤＢの文献に付与されている全てのМｅＳＨ用語からなるリストを作る。このリストでは、実ＤＢにおける登場回数の多い順にМｅＳＨ用語を並べる（降順ソートする） (図５（ｂ）)。
（３）МｅＳＨ用語のリストの先頭のМｅＳＨ用語をＸ、その、実ＤＢにおける登場回数をＡとすると、初期化文献リストの中からランダムにＡ個の文献を選び、それらＡ個の文献にそれぞれМｅＳＨ用語Ｘを割り当てる。図５（ｂ）の例では、МｅＳＨ用語Ｘは、МｅＳＨ用語ｅにあたる。

【0048】

（４）なお、初期化文献リストの文献の数がＡ以下の場合は、該リスト中の全ての文献を選び、割り当て先のないМｅＳＨ用語は破棄する。また、実ＤＢにおけるМｅＳＨ用語の割り当て数が１であった文献に対して、МｅＳＨ用語Ｘが割り当てられた場合は、その文献は、次回以降のМｅＳＨ用語の割り当て対象から除外する。
（５）МｅＳＨ用語リストからМｅＳＨ用語Ｘを削除し、次のМｅＳＨ用語Ｙについて、先頭のМｅＳＨ用語Ｘについて行った処理（３）、（４）と同じように、そのМｅＳＨ用語Ｙの実ＤＢにおける登場回数Ｂに相当する数の文献を初期化文献リストからランダムに選び出し、該文献にМｅＳＨ用語Ｙを割り当てる。また、実ＤＢにおけるМｅＳＨ用語の割り当て数と同じ数のМｅＳＨ用語Ｘが割り当てられた文献は、次回以降のМｅＳＨ用語の割り当て対象から除外する。
（６）（５）の処理を、МｅＳＨ用語リストのМｅＳＨ用語がなくなるまで続ける。

【0049】

以上の手順により作成されたランダムＤＢを対象に、実ＤＢについて行った処理と同じようにして、共起用語を抽出し、その関連性スコアを求める。そして、抽出された共起用語の関連性スコアの頻度分布を生成し、これを帰無分布として、実ＤＢから抽出された関連МｅＳＨ用語のｐ値を計算により求める(図６（ａ））。ある関連МｅＳＨ用語の関連性スコアの値をＳとすると、その関連МｅＳＨ用語のｐ値は次の式で表される。
ｐ値＝（帰無分布において関連性スコアがＳ以上の点数）／（帰無分布の全点数）

【0050】

次に、 Benjamini ＆ Hochberg法（ＢＨ法）を用いてｐ値を補正した。ＢＨ法は、ＦＤＲ（False Discovery Rate）を調整する方法である。ＦＤＲとは、真の帰無仮説を誤って棄却（αエラー）した数に対して、帰無仮説を棄却した総数で割った値であり、ＢＨ法では次の手順で求められるｑ値がＦＤＲに相当する。まず、全てのｐ値が一様分布に従うと仮定し、その頻度分布を作成する（図６（ｂ））。そして、ｐ値をｐ値以下である確率（図６（ｂ）に示すグラフにおける、ｐ値以下の一様分布の面積）で割った値（ｑ値）を計算する。ｑ値（ＦＤＲ）の閾値は統計的に有意な値であればよく、統計解析では、ｑ値＝０．０５又は０．１が閾値として選択されることが一般的である。

【0051】

各関連МｅＳＨ用語のＦＤＲが求められると、表示制御部５１６は、関連МｅＳＨ用語を、その関連性スコア、ＦＤＲの判定結果とともに、関連性スコアの大きい順に並べた表を作成し、表示部５９に表示する（ステップ１０９）。図７は、55920個の関連МｅＳＨ用語が抽出された場合に表示部５９に表示される表の一例を示している。この表において、「Score」は関連性スコアを、「recommended term」は関連МｅＳＨ用語を表す。また、「input term compound」、「input term user」は、関連МｅＳＨ用語の抽出に用いられた第１及び第２МｅＳＨ用語を表す。また、この表では、ＦＤＲの判定結果として、ＦＤＲ≦０．１の関連МｅＳＨ用語には「TRUE」という表示が、ＦＤＲ＞０．１の関連МｅＳＨ用語には「FALSE」という表示が付与されている。

【0052】

ＦＤＲ≦０．１の関連МｅＳＨ用語は、偶然抽出されたものではないと統計的に評価されたことを示している。つまり、「TRUE」が付与された関連МｅＳＨ用語は、第１МｅＳＨ用語及び第２МｅＳＨ用語とともにキーワードとして、ＭＥＤＬＩＮＥに蓄積されている文献を検索すれば、分析データの解析結果の解釈に有用な文献を抽出できる可能性が高い用語であることを示している。したがって、ユーザは、表示部５９に表示された表に記載されているＦＤＲの判定結果を見て、文献検索のキーワードとして用いる関連МｅＳＨ用語を選択したリ、関連性スコアの大きい関連МｅＳＨ用語から順に文献検索のキーワードとして利用したりすることができる。

【0053】

図７では、抽出された全ての関連МｅＳＨ用語を関連性スコアの大きい順に並べた表を表示部５９に表示させる例を示したが、これに限られない。図８は、抽出された全ての関連МｅＳＨ用語を関連性スコアの大きい順に並べた表において、ＦＤＲが所定の範囲内（ＦＤＲ≦０．１）にある関連МｅＳＨ用語が、それ以外の関連МｅＳＨ用語と視覚的に区別可能なように、網掛け及び太線枠が付与されている例を示している。この例では、ＦＤＲが所定の範囲内にある関連МｅＳＨ用語に対応する領域が太線枠で囲まれ、該関連МｅＳＨ用語の番号が網掛けされているため、ユーザは、表示部５９に表示される表の中から文献検索に有用なキーワードとなる関連МｅＳＨ用語を容易に見つけ出すことができる。

【0054】

また、図９は、ＦＤＲが所定の範囲内（ＦＤＲ≦０．１）にある関連МｅＳＨ用語のみを、それらの関連性スコアの大きい順に並べた表が表示部５９に表示される例を示している。この例では、ユーザは、表示部５９に表示されている関連МｅＳＨ用語を使って文献検索を行えばよい。

【0055】

［実施例２］
この実施例は、各関連МｅＳＨ用語の関連性スコアから、該関連МｅＳＨ用語の統計的な確からしさの指標値を求める処理が、実施例１と異なる。それ以外の処理は実施例１と同じであるため、説明は省略する。

【0056】

まず、統計処理部５１５は、抽出された全ての関連МｅＳＨ用語（実施例１の例では図７の表に示されている全ての関連МｅＳＨ用語）を、カテゴリー別に分類し、クロス集計表を作成する。このクロス集計表は、カテゴリー毎に、ＦＤＲが０．１以下の関連МｅＳＨ用語の数（図７において「TRUE」が付された数）と、０．１より大きい関連МｅＳＨ用語の数（図７において「FALSE」が付された数）を集計した表である。例えば図１０は、「がん」のカテゴリーに属する関連МｅＳＨ用語が700個抽出された場合に、それらのうちの500個はＦＤＲが０．１以下であり、200個はＦＤＲが０．１よりも大きかったことを示しており、「感染症」のカテゴリーに属する関連МｅＳＨ用語が2800個抽出された場合に、800個はＦＤＲが０．１以下であり、2000個はＦＤＲが０．１よりも大きかったことを示している。

【0057】

次に、作成したクロス集計表に対してカイ二乗検定を行う。具体的には、クロス集計表の「ＦＤＲ≦０．１」の関連МｅＳＨ用語の数の合計、「ＦＤＲ＞０．１」の関連МｅＳＨ用語の数の合計から、各カテゴリーの「ＦＤＲ≦０．１」の関連МｅＳＨ用語の数の期待値と、「ＦＤＲ＞０．１」の関連МｅＳＨ用語の数の期待値を計算により求める。そして、それらの期待値と、実際に集計された値から計算できる以下の式で求められるカイ二乗値が、近似的にカイ二乗分布に従うと仮定し、検定を行う。

【数1】

【0058】

カイ二乗値が所定の閾値よりも大きい場合は、カテゴリー間で、「ＦＤＲ≦０．１」の関連МｅＳＨ用語の比率に差があることが分かるから、表示制御部５１６は、「ＦＤＲ≦０．１」の関連МｅＳＨ用語の比率の大きかったカテゴリー群を、分析データの解析結果の解釈に利用される文書情報の検索に有用なカテゴリー群として、表示部５９に表示する。

【0059】

なお、図１０は、抽出された関連МｅＳＨ用語が２個のカテゴリーに分類された場合の例を示しているが、カテゴリーの数が３個以上になることは当然起こり得る。カイ二乗検定では、クロス集計全体においてカテゴリー間で「ＦＤＲ≦０．１」の関連МｅＳＨ用語の比率の差があるか否かを検定できるが、どのカテゴリーにおいて、「ＦＤＲ≦０．１」の関連МｅＳＨ用語の比率が有意に多いか否かを検定することはできない。そこで、カテゴリーが３個以上の場合は残差分析を行うと良い。本実施例の残差分析では、上述の期待値と実際に抽出されたМｅＳＨ用語の数の差を残差とする。残差は標準化と補正により、正規分布に対するｐ値とみなすことができる。したがって、全てのカテゴリーに対して残差分析を行うことで、カテゴリー毎の有意性の検討が可能となる。この場合、カテゴリーの数だけ検定を行うことになるため、Benjamini ＆ Hochberg法などの多重検定補正法を用いて残差を補正すると良い。

【0060】

残差分析により、抽出された関連МｅＳＨ用語の数に占める「ＦＤＲ≦０．１」の関連МｅＳＨ用語の比率が有意に多いカテゴリー群が得られる。このようなカテゴリー群は、分析データの解析結果の解釈に利用される文書情報の検索に有用なキーワードとなり得る関連ＭｅＳＨ用語を多く含むと考えられることから、表示制御部５１６は、該カテゴリー群を、それ以外のカテゴリー群と視覚的に区別されるような形態で表示部５９に表示する。

【0061】

なお、図１０に示すクロス集計表では、ある関連МｅＳＨ用語が「がん」と「感染症」に重複して属する場合、それぞれを１個の関連МｅＳＨ用語として合計の数を求めたが、抽出された複数の関連МｅＳＨ用語の実際の個数を合計の個数としても良い。つまり、図１０に示すクロス集計表の最下段の合計の値が、「がん」及び「感染症」の数を合算した値よりも小さくなるが、統計処理上問題ない。

【0062】

［変形例］
上記実施形態では、文書検索支援装置５０を１台のパーソナルコンピュータから構成したが、文書検索支援装置５０の機能ブロックの一部は、通信回線を介して文書検索支援装置５０に接続された、別のパーソナルコンピュータ、タブレット端末等の端末装置に搭載されたものであってもよい。また、文書検索支援装置５０の各機能ブロックの実体であるソフトウェアは、文書検索支援装置５０と通信回線を介して接続されたアプリケーションサーバに記憶されていて、必要に応じて、アプリケーションサーバからソフトウェアを文書検索支援装置５０にダウンロードするようにしてもよい。

【0063】

上記実施例ではユーザによる入力部５８の操作により第２情報が文書検索支援装置５０に入力され、情報受付部５１３で取得されることとしたが、インターネット２０を介して接続された端末装置から第２情報が文書検索支援装置５０に入力されるようにしても良い。

【0064】

上記実施形態では、共起データの取得にＰｕｂＭｅｄ上で提供されるＭＲＣＯＣを利用したが、文書検索支援装置５０に共起データの生成機能を持たせるようにしてもよい。文書情報のデータベースのそれぞれに合った共起性の指標（例えば、Ｄｉｃｅ係数、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、Ｃｏｎｆｉｄｅｎｃｅ等）を採用して共起データを生成することで、検索の絞り込み候補となる関連用語の有用性を向上させることができる。

【0065】

上記実施形態では、文書情報のデータベースとしてＰｕｂＭｅｄを利用しているが、例えば出版社等が運営する文献情報提供サービス等の他のデータベースを利用してもよい。この場合には、前処理において、そのデータベースで文献類を分類するのに使用されるシソーラスに従って、キーワードおよびＩＤにより分析データ中の生体試料の含有物を特定しておく。また、データベースは、インターネット経由で利用できる既存のものだけでなく、独自に構築したものを任意の通信回線を介して利用するようにしてもよい。

【0066】

上記の実施形態では、統計処理部５１５による処理の結果が表示部５９に表示される構成としたが、用紙に印刷されるようにしても良く、音声で出力されるようにしても良い。

【0067】

上記実施形態や上述した各種の変形例も本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。

【0068】

［種々の態様］
上述した例示的な実施形態が以下の態様の具体例であることは、当業者には明らかである。

【0069】

（第１項）本発明に係る文書検索支援装置は、分析対象物を含む試料を分析装置を用いて分析したデータの解析結果の解釈に利用される文書情報を検索する作業を支援する装置であって、
前記分析データから、該分析対象物を特定する情報である第１情報を取得する情報取得部と、
前記分析データの解析結果の解釈に利用される文書情報を検索するための情報である第２情報の入力を受け付ける情報受付部と、
前記第１情報及び前記第２情報に基づいて、文書情報が蓄積されたデータベース内の該文書情報に含まれる用語の中から、前記分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部と、
前記複数の関連用語の各々について、前記第１情報と前記第２情報との関連性の大きさを表す関連性スコアを算出するスコア算出部と、
前記各関連用語の関連性スコアから、該関連用語の統計的な確からしさの指標値を求める統計処理部と
を備えるものである。

【0070】

本発明の文書検索支援装置において、前記第１情報は、例えば分析対象物の名称、分析対象物のカテゴリーを表す名称、分析対象物の名称と濃度の組み合わせ等をいう。分析対象物が複数の場合は、情報取得部は複数の分析対象物の名称、あるいは複数の分析対象物の名称と試料中に含まれる各分析対象物の含有量との組み合わせ等を第１情報として取得する。

【0071】

第２情報は、例えば分析データの解析結果を解釈する担当者により入力される情報であり、分析対象物を分析する目的を反映した情報である。分析対象物を分析する目的が薬剤の作用機序の解明の場合は、その薬剤が投与される患者の疾患の名称、該薬剤に含まれる薬効成分の名称、薬効成分が作用する組織の名称等が第２情報として解釈担当者によって入力され、情報受付部に受け付けられる。

【0072】

また、本発明における「統計的な確からしさの指標値」とは、或る関連用語が偶然抽出されたものではないことを統計的に評価した値をいう。

【0073】

第１項の文書検索支援装置によれば、抽出部によって抽出された複数の関連用語について、それぞれ統計的な確からしさの指標値が求められるため、各関連用語の指標値から、いずれの関連用語が、分析データの解析結果の解釈に必要な文献の検索に有効であるかを判断することができ、その関連用語を用いることにより、分析データの解析結果の解釈に有用な文書情報を効率よく抽出できる。

【0074】

（第２項）第１項の文書検索支援装置において、前記統計処理部が、前記指標値として、各関連用語の関連性スコアのｐ値を求めるものとすることができる。

【0075】

（第３項）第１項の文書検索支援装置において、前記統計処理部が、多重比較補正を用いて各関連用語の前記指標値を求めるものとすることができる。

【0076】

（第４項）第１項の文書検索支援装置において、前記統計処理部が、前記指標値として、各関連用語の関連性スコアのＦＤＲを求めるものとすることができる。

【0077】

第２項～第４項の文書検索支援装置によれば、統計的な仮説検定が可能となり、関連性スコアが統計的に有意かどうかがわかる。

【0078】

（第５項）第１項の文書検索支援装置において、前記複数の関連用語を前記指標値が大きい順又は小さい順に並べて表示部に表示させる表示制御部を備えるものとすることができる。

【0079】

第５項の文書検索支援装置によれば、表示部に表示される前記複数の関連用語のうち、いずれの関連用語を優先的に使って文書情報の検索を行えばよいかが分かる。

【0080】

（第６項）第１項～第５項のいずれかの文書検索支援装置において、前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にない関連用語と、前記正常範囲内にある関連用語を区別して表示部に表示させる表示制御部とを備えるものとすることができる。

【0081】

（第７項）第１項～第５項のいずれかの文書検索支援装置において、前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にある関連用語のみを表示部に表示させる表示制御部とを備えるものとすることができる。

【0082】

第６項及び第７項の文書検索支援装置によれば、文書情報の検索に有用な関連用語を容易に認識することができる。

【0083】

（第８項）第１項の文書検索支援装置において、前記データベースに蓄積されている文書情報が、複数の文献のそれぞれについて設定された、文献を特定する情報と、それに対応付けられた該文献を検索するための検索用語とを含み、
前記統計処理部が、前記抽出部により抽出された複数の関連用語をカテゴリー別に分類してエンリッチメント解析を行い、抽出された関連用語の数が統計的に有意に多いカテゴリーを求めるものとすることができる。

【0084】

第８項の文書検索支援装置によれば、抽出された関連用語の数が統計的に有意に多いと判断されたカテゴリーが、試料の分析方法を検討したり、第２情報を見直したりするきっかけとなり得る。つまり、試料を分析した目的とカテゴリーが乖離している場合は、試料の分析方法が誤っている、あるいは、第２情報として入力した用語が適切でない可能性があると推定することができる。

【0085】

（第９項）第８項の文書検索支援装置において、前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析により、統計的に有意に多いカテゴリーを求めるものとすることができる。

【0086】

（第１０項）第８項の文書検索支援装置において、前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析と残差分析により、統計的に有意に多いカテゴリーを求めるものとすることができる。

【0087】

（第１１項）第９項又は第１０項の文書検索支援装置において、前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計した結果を多重検定補正するものとすることができる。

【0088】

第９項～第１１項の文書検索支援装置によれば、抽出された複数の関連用語が、どのようなカテゴリーの関連用語が多く抽出されたかを知ることができる。例えば、或る現象、或るメカニズムに関連するカテゴリーが有意に多いという結果が出た場合に、解析担当者あるいは分析者は、その現象、そのメカニズムが自身の研究に関連があるかもしれないと気が付くことができる。

【0089】

（第１２項）第８項～第１１のいずれかの文書検索支援装置において、統計的に有意に多いカテゴリーに属する関連用語を、それ以外の関連用語と区別して表示部に表示させる表示制御部を備えるものとすることができる。

【0090】

第１２項の文書検索支援装置によれば、文書情報の検索に有用な関連用語が多く含まれるカテゴリーを容易に認識することができる。

【符号の説明】

【0091】

１０…質量分析装置
１１…装置本体
１２…パーソナルコンピュータ
２０…インターネット
２１…タブレット端末
２１…端末装置
２２…パーソナルコンピュータ
４１、４２、４３、４４…データベース
５０…文書検索支援装置
５１…制御部
５１１…解析処理部
５１２…情報取得部
５１３…情報受付部
５１４…抽出部
５１５…統計処理部
５１６…表示制御部
５２…演算装置
５３…補助記憶装置
５４…通信部
５７…表示制御部
５８…入力部
５９…表示部
６０…装置本体

【図1】