(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022182568
(43)【公開日】2022-12-08
(54)【発明の名称】文書検索支援装置
(51)【国際特許分類】
G06F 16/383 20190101AFI20221201BHJP
【FI】
G06F16/383
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021090190
(22)【出願日】2021-05-28
(71)【出願人】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(71)【出願人】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】110001069
【氏名又は名称】弁理士法人京都国際特許事務所
(72)【発明者】
【氏名】金澤 慎司
(72)【発明者】
【氏名】清水 悟司
(72)【発明者】
【氏名】松田 史生
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB02
5B175FB04
5B175HA01
(57)【要約】 (修正有)
【課題】分析対象物を含む試料の分析データを解析した結果の解釈に有用な文献を効率よく抽出する文書検索支援装置を提供する。
【解決手段】文書検索支援装置(50)は、分析データから、分析対象物を特定する情報である第1情報を取得する情報取得部(512)と、分析データの解析結果の解釈に利用される文書情報を検索するための情報である第2情報の入力を受け付ける情報受付部(513)と、第1情報及び第2情報に基づいて、文書情報が蓄積されたデータベース内の文書情報に含まれる用語の中から、分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部(514)と、複数の関連用語の各々について、第1情報と第2情報との関連性の大きさを表す関連性スコアを算出するスコア算出部として機能し、各関連用語の関連性スコアから、関連用語の統計的な確からしさの指標値を求める統計処理部(515)とを備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
分析対象物を含む試料を分析装置を用いて分析したデータの解析結果の解釈に利用される文書情報を検索する作業を支援する装置であって、
前記分析データから、該分析対象物を特定する情報である第1情報を取得する情報取得部と、
前記分析データの解析結果の解釈に利用される文書情報を検索するための情報である第2情報の入力を受け付ける情報受付部と、
前記第1情報及び前記第2情報に基づいて、文書情報が蓄積されたデータベース内の該文書情報に含まれる用語の中から、前記分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部と、
前記複数の関連用語の各々について、前記第1情報と前記第2情報との関連性の大きさを表す関連性スコアを算出するスコア算出部と、
前記各関連用語の関連性スコアから、該関連用語の統計的な確からしさの指標値を求める統計処理部と
を備える文書検索支援装置。
【請求項2】
前記統計処理部が、前記指標値として、各関連用語の関連性スコアのp値を求める、
請求項1に記載の文書検索支援装置。
【請求項3】
前記統計処理部が、多重比較補正を用いて各関連用語の前記指標値を求める、請求項1に記載の文書検索支援装置。
【請求項4】
前記統計処理部が、前記指標値として、各関連用語の関連性スコアのFDRを求める、 請求項1に記載の文書検索支援装置。
【請求項5】
前記複数の関連用語を前記指標値が大きい順又は小さい順に並べて表示部に表示させる表示制御部を備える、
請求項1に記載の文書検索支援装置。
【請求項6】
前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にない関連用語と、前記正常範囲内にある関連用語を区別して表示部に表示させる表示制御部とを備える、
請求項1に記載の文書検索支援装置。
【請求項7】
前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にある関連用語のみを表示部に表示させる表示制御部とを備える、
請求項1に記載の文書検索支援装置。
【請求項8】
前記データベースに蓄積されている文書情報が、複数の文献のそれぞれについて設定された、文献を特定する情報と、それに対応付けられた該文献を検索するための検索用語とを含み、
前記統計処理部が、前記抽出部により抽出された複数の関連用語をカテゴリー別に分類し、エンリッチメント解析を行い、抽出された関連用語の数が統計的に有意に多いカテゴリーを求める、請求項1に記載の文書検索支援装置。
【請求項9】
前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析により、統計的に有意に多いカテゴリーを求める、請求項8に記載の文書検索支援装置。
【請求項10】
前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析と残差分析により、統計的に有意に多いカテゴリーを求める、請求項8に記載の文書検索支援装置。
【請求項11】
前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計した結果を多重検定補正する、請求項9又は10に記載の文書検索支援装置。
【請求項12】
統計的に有意に多いカテゴリーに属する関連用語を、それ以外の関連用語と区別して表示部に表示させる表示制御部を備える、請求項8~11のいずれかに記載の文書検索支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索支援装置に関する。
【背景技術】
【0002】
生体内では、食事、薬物、運動、各種のストレス等の環境の影響を受けてゲノム及びタンパク質の活性が変化する。環境の影響を受けた結果は、生体中の有機酸、アミノ酸等の低分子化合物をはじめとする様々な代謝物に反映されると考えられることから、生体中の代謝物を分析することにより、生体機能に関する価値ある情報が得られる。生体中の代謝物を包括的に検出し、その結果を解析する一連の技術はメタボロミクス、あるいはメタボローム解析とよばれ、病気の診断、創薬、バイオマーカの探索、生活習慣や健康に関する研究等、医学、薬学の分野はもちろん食品工学、代謝工学等の工学分野、農学分野等、幅広い分野で利用されている。
【0003】
メタボロミクスでは、ガスクロマトグラフ質量分析装置(GC/MS)又は液体クロマトグラフ質量分析装置(LC/MS)(以下、クロマトグラフ質量分析装置)を用いて、血液(血清、血漿)、尿等の生体試料に含まれる代謝物を包括的に定性分析もしくは定量分析することが一般的に行われている。クロマトグラフ質量分析装置により得られた分析データを所定の解析ツールを用いて統計解析することにより、例えば薬剤投与の結果、変化した代謝物のリスト、特定の疾患患者において生体中の含有量が増加、又は減少している代謝物のリストを得ることができる(非特許文献1)。
【0004】
代謝物リストが得られると、該代謝物リストは医学的、薬学的に解釈され、代謝物と薬剤の作用機序の関係、疾患の発症機構と代謝物との関係が推定される。代謝物リストを解釈するためには、その分野において過去に行われてきた研究の結果が報告されている多数の文献の中から適切な文献を探し出し、読み解く作業が必要となる。
【0005】
このような文献の情報が電子的に収録されている代表的なデータベースの一つに米国国立医学図書館(National Library of Medicine:NLM)が運営しているデータベースMEDLINEがある。MEDLINEに収録されている文献情報は例えば米国国立医学図書館がWeb上で公開している検索エンジンであるPubMedの検索機能を用いて検索することができる(非特許文献2参照)。
【0006】
MEDLINEに収録されている文献には、検索が適切に行われるよう、医学文献シソーラスであるМeSH(Medical Subject Heading)の用語が、1つの文献につき複数付与されている。МeSHは、同じ意味を持つ複数の異なる医学用語を統一して検索できるように設定されたものであり、例えば「癌」を表す医学用語である「cancer」、「tumor」、「neoplasm」を含む文献にはМeSH用語として「neoplasms」が付与されている。したがって、「neoplasms」をキーワードとして検索することにより、「癌」を表す用語を含む全ての医学文献を抽出することができる。
【0007】
このように、MEDLINEに収録されている文献は、МeSH用語を用いることで、統一的な検索が可能であるものの、文献の量は膨大であり、また、同じ医学分野の文献であっても、細分化された個々の専門領域では、異なる視点で研究の結果が文献に記述されることがある。そのような文献の中から、代謝物リストの解釈に有用な情報が含まれる文献を探し出すためには、解釈担当者が、МeSH用語を含む検索キーワードを適切に設定する必要がある。適切な検索キーワードを設定できるかどうかは、解釈担当者の知識に負うところが大きい。
【0008】
これに対して、分析対象物を含む生体試料の測定データを解析した結果から、該分析対象物を特定する情報を取得し、この情報に基づいて文書情報が蓄積されたデータベースの中から分析対象物に関連する用語を抽出してユーザに提示するようにした解析装置がある(特許文献1)。この解析装置によって提示された関連用語をキーワードとして用いることにより、解釈担当者が十分な知識を有していなくても、適切な文献検索を行うことができる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】国際公開第WO2020/230704号
【非特許文献】
【0010】
【非特許文献1】Garuda Platform、特定非営利活動法人 システム・バイオロジー研究機構、[online]、[令和3年5月13日検索]、インターネット<http://www.garuda-alliance.org/about.html>
【非特許文献2】PubMed、[online]、[令和3年5月13日検索]、インターネット<URL:https://www.ncbi.nlm.nih.gov/pubmed>
【発明の概要】
【発明が解決しようとする課題】
【0011】
上記の解析装置では、複数の関連用語が抽出されると、それらすべての関連用語が同等にユーザに提示される。その場合、全ての関連用語をキーワードとして文献を検索すると、絞り込み過ぎてしまい、検索漏れが生じる恐れがある。一方、提示された関連用語のうちの一つをキーワードとして文献を検索する作業を全ての関連用語について行うと、検索漏れをなくすことができるが、その場合は、抽出される文献の数が多くなりすぎる。そこで、ユーザは、提示された関連用語の中から1つ又は複数の関連用語をキーワードとして選択することになるが、選択された関連用語が適切でなければ、解釈に有用な文献を抽出することができない。
【0012】
なお、ここでは、メタボロミクスを例に挙げて説明したが、リピドミクス(脂質解析)、プロテオミクス(タンパク質解析)、ゲノミクス(遺伝子解析)、あるいは、総合的な解析手法であるマルチオミックス等において分析データの解析結果を解釈する際にも同様の問題があった。
【0013】
本発明が解決しようとする課題は、分析対象物を含む試料の分析データを解析した結果の解釈に有用な文献を効率よく抽出できるようにすることである。
【課題を解決するための手段】
【0014】
上記課題を解決するために成された本発明に係る文書検索支援装置は、
分析対象物を含む試料を分析装置を用いて分析したデータの解析結果の解釈に利用される文書情報を検索する作業を支援する装置であって、
前記分析データから、該分析対象物を特定する情報である第1情報を取得する情報取得部と、
前記分析データの解析結果の解釈に利用される文書情報を検索するための情報である第2情報の入力を受け付ける情報受付部と、
前記第1情報及び前記第2情報に基づいて、文書情報が蓄積されたデータベース内の該文書情報に含まれる用語の中から、前記分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部と、
前記複数の関連用語の各々について、前記第1情報と前記第2情報との関連性の大きさを表す関連性スコアを算出するスコア算出部と、
前記各関連用語の関連性スコアから、該関連用語の統計的な確からしさの指標値を求める統計処理部と
を備えるものである。
【発明の効果】
【0015】
本発明によれば、抽出された複数の関連用語の各々について、その関連性スコアから統計的な確からしさの指標値が求められる。本発明における「統計的な確からしさの指標値」とは、或る関連用語が偶然に抽出されたものではないことを統計的に評価した値をいう。したがって、ユーザは、各関連用語の確からしさの指標値をみて、いずれの関連用語をキーワードとして用いるべきかを判断することができるため、その関連用語を用いることにより、解析結果の解釈に有用な文献を効率よく検索することができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態に係る文書検索支援装置を含む情報提供システムの概要図。
【
図2】文書検索支援装置の概略的な構成を示すブロック図。
【
図3】分析データから文献検索用語を抽出する処理の一例を示す説明図。
【
図4】文書検索用語の抽出処理の一実施例を示すフローチャート。
【
図6】ランダムデータベースにおける関連性スコアの分布を帰無分布として算出される、実データベースから抽出された関連МeSH用語のp値及びq値の説明図。
【
図7】表示部に表示される処理結果の一例を示す図。
【
図8】表示部に表示される処理結果の別の例を示す図。
【
図9】表示部に表示される処理結果のさらに別の例を示す図。
【
図10】МeSH用語をカテゴリー別に分けて作成されたクロス集計表の例。
【発明を実施するための形態】
【0017】
[情報提供システムの概要]
以下、この発明の実施の形態を図面に基づいて説明する。
図1は、この実施形態に係る文書検索支援装置50を含む情報提供システムの概要図である。
【0018】
情報提供システムは、文書検索支援装置50以外に、分析装置10と、複数の端末装置(ここでは端末装置としてタブレット端末21、パーソナルコンピュータ22を示す)と、複数のデータベース41、42、43、44とを含む。複数のデータベース41、42、43、44には、それぞれ文書情報が蓄積されている。
【0019】
分析装置10は、分析対象物を含む試料に対して機械的動作により分析を実行する装置本体11と、装置本体11の動作を制御するための制御ソフトウェア、装置本体11が分析を実行することにより得られたデータを処理するための処理ソフトウェア等がインストールされたパーソナルコンピュータ12から構成される。この実施形態では、装置本体11が分析を実行した結果、該装置本体11が備える検出器から出力される信号値を「生データ」と呼び、処理ソフトウェアにより生データを処理した結果得られるデータを「分析データ」と呼ぶこととする。パーソナルコンピュータ12の記憶装置には生データ、分析データが保存される。
【0020】
分析装置10としては、LC(液体クロマトグラフィー)、GC(ガスクロマトグラフフィー)などのクロマトグラフ装置、および、クロマトグラフ装置に質量分析計を組み合わせたLC/MSおよびGC/MSなどのクロマトグラフ質量分析装置を使用することができる。分析装置10がクロマトグラフ質量分析装置の場合、クロマトグラム、マススペクトル等のグラフが分析データとして取得される。グラフ上の各点を表す座標データ(例えば保持時間と信号強度の組、質量電荷比m/z値と信号強度の組等である数値データ)を分析データとしても良い。分析データを解析することにより、試料に含まれる分析対象物の種類、量を特定することができれば、どのような形式の分析データでもよい。また、分析装置10に供される試料は液体試料、気体試料、固体試料がある。液体試料として、ヒトを含む動物の尿、血液、および、生物の細胞構造を破壊して得た粗抽出物等の生体試料がある。試料が生体試料の場合、分析対象物は、代謝物、たんぱく質、脂質等である。
【0021】
文書検索支援装置50の実体はパーソナルコンピュータまたはワークステーション等のコンピュータである。文書検索支援装置50は、ユーザが、データベース41、42、43、44の少なくとも一つの中から、前記分析データの解析結果の解釈に利用される文書情報を検索する作業を支援する装置である。文書検索支援装置50の詳細な構成は後述する。
【0022】
分析装置10のパーソナルコンピュータ12、端末装置21、22、及び文書検索支援装置50とデータベース41、42、43、44とは、インターネット20を介して接続されており、それぞれが双方向に通信可能となっている。分析装置10のパーソナルコンピュータ12、端末装置21、22、文書検索支援装置50は、インターネット20を介してデータベース41、42、43、44に蓄積されている文書情報を利用することが可能である。
【0023】
データベース41、42、43、44には、分析装置10で分析される試料の種類、試料に含まれる分析対象物の種類、分析装置10を用いて試料を分析する目的等に応じた様々なデータベースが用いられる。例えば生体試料の分析データを解析した結果の解釈に利用されるデータベースとして、遺伝子データベース、たんぱく質情報データベース、医薬品情報データベース、医学文献データベース等がある。医学文献データベースには、例えば、米国国立医学図書館(National Library of Medicine:NLM)が運営している医学文献データベースMEDLINEがある。データベースに蓄積されている文書情報には、論文、書籍、辞書、医薬品添付文書等が含まれる。
【0024】
[文書検索支援装置の構成]
図2は文書検索支援装置50の概略的な構成を示すブロック図である。
文書検索支援装置50は、装置本体60と、この装置本体60に接続された入力部58及び表示部59とを備える。装置本体60は、制御部51と、各種の演算処理を実行するCPUなどの演算装置52と、インターネット20を介して分析装置10のパーソナルコンピュータ12から送られてくる生データ、分析データなどを記憶するための補助記憶装置53と、インターネット20を介してデータベース41との間でデータを送受信する通信部54とを備える。
図2では、装置本体60と1個のデータベース41とが接続されている状態が示されているが、複数のデータベースが接続されていても良い。また、
図2では、データベース41としての米国国立医学図書館が運営しているMEDLINEが、PubMed411を介して接続されている状態をしめしている。MEDLINEに収録されている文献は、PubMed411の検索機能を用いて検索することができる。
【0025】
MEDLINEには多数の文献が電子的に収録されており、各文献には、医学文献シソーラスであるМeSH用語及びМeSHIDが付与されている。MEDLINEに収録されている文献に付与される多数のМeSH用語は、カテゴリー毎に分類された階層構造を有しており、或る上位概念を表すМeSH用語の下位に、複数の下位概念を表すМeSH用語が枝分かれした状態で配置されている。例えば上位概念である「消化器疾患」を表すМeSH用語の下位には、「食道疾患」、「胃腸疾患」等を表すМeSH用語が配置され、「胃腸疾患」の下位には、「胃潰瘍」、「十二指腸潰瘍」、「胃がん」、「十二指腸潰瘍」等を表すМeSH用語が配置されている。МeSHIDは、МeSH用語のカテゴリーに応じて該МeSH用語に付与されているものである。
【0026】
制御部51は、演算装置52、補助記憶装置53、通信部54の動作を制御する。また、制御部51は、解析処理部511、情報取得部512、情報受付部513、抽出部514、統計処理部515、表示制御部516を機能ブロックとして備える。本実施形態では、解析処理部511及び情報取得部512が本発明の第1情報取得部に相当する。情報受付部513、抽出部514、統計処理部515が、それぞれ本発明の第2情報受付部、抽出部、統計処理部に相当する。
【0027】
上述したように、文書検索支援装置50の実体はコンピュータであり、該コンピュータに予めインストールされた専用のソフトウェアを当該コンピュータ上で実行することにより制御部51の各機能が具現化される。入力部58はコンピュータに付設されたキーボードやポインティングデバイス(マウス等)である。表示部59はコンピュータのディスプレイモニタである。補助記憶装置53は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等である。演算装置52、補助記憶装置53および通信部54と制御部51とは、内部バスにより接続されている。
【0028】
[文書検索支援装置における処理]
次に、文書検索支援装置50によって実行される処理について
図3を参照しつつ説明する。
図3は、一例として、2型糖尿病であると診断された複数の患者(疾患群)から採取した血液、及び複数の健常者(健常者群)から採取した血液にそれぞれ所定の前処理を行うことで得られた試料を分析装置10(LC/MS)で分析した場合の処理の流れを示すものである。
【0029】
<1.データ取得>
まず、分析装置10の装置本体11において、疾患群及び健常者群の試料が分析され、生データがそれぞれ取得される。
【0030】
<2.データ処理>
次に、分析装置10のパーソナルコンピュータ12において生データが処理され、分析データが得られる。
図3には、分析データとしてクロマトグラムが示されているが、マススペクトルでも良く、保持時間と信号強度の組から成る数値データ、m/z値と信号強度の組から成る数値データでもよい。また、試料に含まれる代謝物毎の含有量の時間的変化を示すグラフでもよい。
<3.データ解析>
続いて、分析装置10から分析データが文書検索支援装置50に送られ、補助記憶装置53に保存される。また、解析処理部511は、補助記憶装置53に保存されている分析データを解析して、試料に含まれる代謝物を特定可能な形態のデータ(解析データ)を作成する。そのため、解析処理部511には、解析データを作成するために必要な解析ツールが予め記憶されている。
【0031】
ここでは、疾患群と健常者群の試料中の代謝物の含有量をボルケーノプロット法で比較し、含有量が有意に変動した代謝物のリストが作成されることとする。ボルケーノプロットと代謝物リストが解析データに相当する。代謝物リストには、疾患群と健常者群の間で有意に含有量が変動した代謝物の名称と、その代謝物のМeSHIDが記述されている。МeSHIDはМeSH用語のカテゴリーに応じて該МeSH用語に付されているものであり、PubMedから取得することができる。また、代謝物の名称をМeSHIDに変換するためのID変換ツール(図示せず)を文書検索支援装置50に予めインストールしておき、解析処理部511がID変換ツールを利用して、代謝物リストに記述される代謝物の名称をМeSHIDに変換しても良い。
【0032】
なお、ここではボルケーノプロット法を用いて分析データを解析する例を挙げたが、これ以外に、多変量解析を用いることができる。また、代謝経路を図式化した代謝マップを作成するマッピングツールにより分析データを処理しても良い。この場合は、代謝マップが解析データとなる。
【0033】
また、本実施形態では、文書検索支援装置50が分析データを解析する機能を有していることとして説明するが、分析装置10が分析データを解析処理する機能を有していても良い。また、端末装置21、22のいずれかが分析装置10から分析データを取得して、それを解析するようにしても良い。
【0034】
<4.文書検索用語のレコメンド処理>
代謝物リストが作成されると、文書検索用語のレコメンド処理が実行される。以下、レコメンド処理の実施例について説明する。
【0035】
[実施例1]
図4は、実施例1のレコメンド処理の手順を示すフローチャートである。
この実施例では、まず、情報取得部512が代謝物リストに記述されている代謝物名を抽出する(ステップ101)。
図3には、代謝物リストから抽出された代謝物名としてロイシン(Leucine)、イソロイシン(Isoleucine)、及びバリン(Valine)が示されている。文書情報が蓄積されたデータベースとしてMEDLINEを利用する場合は、情報取得部512はPubMEDに問い合わせて、代謝物リストから取得した代謝物名に対応するМeSH用語及びМeSHIDを取得する。情報取得部512が取得する代謝物名、あるいは代謝物に対応するМeSH用語及びМeSHIDは本発明の第1情報に相当する。
【0036】
続いて、制御部51は、表示制御部516に、ユーザに対して入力部58を介した第2情報の入力を促すメッセージを表示部59に表示させる。そして、ユーザが、入力部58を用いて第2情報を入力すると、この第2情報が情報受付部513に受け付けられる(ステップ102)。第2情報は、分析データを解析した結果の解釈に利用される文書情報を検索するために必要な情報としてユーザが入力するものであり、ユーザの既知の情報である。例として、試料に含まれる分析対象物を分析する目的、試料の種類等を考慮して選択される、薬剤、疾患、生物種、臓器、器官、人種等を表す用語が挙げられる。
【0037】
文書情報が蓄積されたデータベースとしてMEDLINEを利用する場合は、情報受付部513が受け付ける第2情報は、МeSH用語又はМeSHIDである。この場合、入力部58を介して入力された用語がМeSH用語又はМeSHIDであれば、そのまま情報受付部513に受け付けられる。一方、入力部58を介して入力された用語がМeSH用語及びМeSHIDのいずれでもない場合は、情報受付部513はPubMEDに問い合わせて入力された用語に対応するМeSH用語又は/及びМeSHIDを取得する。
図3では、第2情報として2型糖尿病(Diabetes Mellitus, Type 2)(のМeSH用語又は/及びМeSHID)が受け付けられた例を示している。
【0038】
次に、抽出部514は、データベース41に蓄積されている文書情報から、第1情報及び第2情報に関連する情報である共起データを取得する。具体的には、制御部51は通信部54を介してインターネット20経由でPubMedにデータの送信を要求する(ステップ103)。
【0039】
PubMedは、文書検索支援装置50からの送信要求を受信すると、PubMedを介して利用可能なサービスの1つである、MEDLINE Co-Occurrence(MRCOC)(https://ii.nlm.nih.gov/MRCOC.shtml、[令和3年5月12日検索])から、MEDLINEに蓄積されている文献データを入手して、これを文書検索支援装置50に送信する。文献データを受信した制御部51は、これを補助記憶装置53に保存する。抽出部514は、補助記憶装置53に保存された文献データを読み出し、代謝物リストに含まれるすべての代謝物のМeSHID(第1МeSHID)、及びユーザが入力した第2情報のМeSHID(第2МeSHIDという)に共通する共起データを作成する(ステップ104)。共起データは、文献データに含まれる文献において、第1МeSHIDに対応するМeSH用語(第1МeSH用語)及び第2МeSHIDに対応するМeSH用語(第2МeSH用語)と同時に出現するМeSH用語及びそのМeSHID、並びに共起頻度の値とが対応付けて記述されたテキストファイル(CoOccurs.txt)から成る。共起データに含まれるМeSH用語は本発明の関連用語に相当する。以下、共起データに含まれるМeSH用語を関連МeSH用語という。
図3には、共起データに含まれていたMeSH用語が「Insulin Resistance (D007333)」、「Mechanistic Target of Rapamycin Complex 1 (D000076222)」であった例を示している。
【0040】
抽出部514が共起データを作成すると、統計処理部515は、共起データに含まれる各関連МeSH用語と第1МeSH用語との間及び第2МeSH用語との間のアソシエーション分析を行い、関連МeSH用語と第1МeSH用語及び第2МeSH用語との間の関連性の大きさを表す関連性スコアを求める(ステップ105)。ここでは、各関連МeSH用語について、第1МeSH用語との間のConfidence値、第2МeSH用語との間のConfidence値を計算により求め、その積を関連性スコアとする。全ての関連МeSH用語について関連性スコアが求められると、関連性スコアの大きい順に関連МeSH用語を並べたリストを作成する(ステップ106)。したがって、この実施例では、抽出部514及びPubMedが本発明の抽出部を構成する。また、統計処理部515は本発明のスコア算出部として機能する。
【0041】
Confidence値は条件付き確率を意味し、分母の選び方により、関連МeSH用語から第1又は第2МeSH用語への条件付き確率、第1又は第2МeSH用語から関連МeSH用語への条件付き確率の2通りがある。ここでは、関連МeSH用語から第1МeSH用語又は第2МeSH用語への条件付き確率をConfidence値とした。すなわち、第1МeSH用語が付与されている文献の数を[C1]、関連МeSH用語と第1МeSH用語が共起する文献の数を[C1X]、第2МeSH用語が付与されている文献の数を[C2]、関連МeSH用語と第2МeSH用語が共起する文献の数を[C2X]としたとき、第1МeSH用語及び第2МeSH用語のConfidence値、関連МeSH用語の関連性スコアは、それぞれ以下の式で表される。
Confidence値=[C1X]/[C1]、[C2X]/[C2]
関連性スコア=([C1X]/[C1])×([C2X]/[C2])
【0042】
なお、この実施形態ではConfidence値を用いて関連性スコアを求めることとしたが、各関連МeSH用語について、第1及び第2МeSH用語との間のCosine係数、Dice係数、Simpson係数、Lift値をそれぞれ求め、これらの値の積を関連性スコアとしても良い。Cosine係数、Dice係数、Simpson係数、Lift値は以下の式で定義される。
Cosine係数=[C1X]/√([C1]×[X])、[C2X]/√([C2]×[X])
Dice係数=[C1X]/{([C1]+[X])/2}、[C2X]/{([C2]+[X])/2}
Simpson係数=[C1X]/min([C1]、[X])、[C2X]/min([C2]、[X])
Lift値=Confidence値/([X]/全文献数)
上記の式において、[X]は関連МeSH用語が付与されている文献の数を表し、min([C1]、[X])は[C1]と[X]のうち少ない方の数を表す。
【0043】
続いて、統計処理部515は、各関連МeSH用語の関連性スコアの統計的優位性の検定を行う。具体的には、統計処理部515は、MRCOCから、MEDLINEに蓄積されている全ての文献を入手してランダムデータベース(DB)を作成し、このランダムDBに含まれる文献において、第1МeSH用語及び第2МeSH用語と同時に出現する共起用語を抽出する。そして、上述したステップ105と同様の方法で各共起用語と第1МeSH用語との間及び第2МeSH用語との間のアソシエーション分析を行い、第1МeSH用語及び第2МeSH用語との間のConfidence値から各共起用語の関連性スコアを算出して、その頻度分布を求める(ステップ107)。
【0044】
また、統計処理部515は、ランダムDBから抽出した共起用語の関連性スコアの頻度分布における各関連МeSH用語の関連性スコアの位置から、各関連МeSH用語のFDR(False Discovery Rate)を計算し、各関連МeSH用語のFDRが所定範囲内にあるか否かを判定する(ステップ108)。つまり、本実施例では統計処理部515が本発明の判定部として機能する。
【0045】
図5を参照して、ランダムDBの作成方法について説明する。
図5(a)において、実データベース(DB)とは、MEDLINEに蓄積されている文献のリストと全ての文献に付与されているМeSH用語のリストである。
図5(a)は、文献1にМeSH用語a、b …、cが付与され、文献2にМeSH用語d、eが付与され、文献nにМeSH用語a、bが付与されている例を示している。
【0046】
このような実DBに対して、文献の数、及び各文献に付与されているМeSH用語の数、全ての文献における各МeSH用語の登場回数が実DBと同じになるように、МeSH用語をランダムシャフルしたDBを作成する。これがランダムDBである。以下に具体的には、ランダムDBは以下の手順で作成される。
【0047】
(1)実DBの文献リストの各文献に付与されているМeSH用語を初期化する。これにより、いずれの文献にもМeSH用語が割り当てられていない文献リスト(初期化文献リスト)が作成される(
図5(a)の右側の図)。
(2)実DBの文献に付与されている全てのМeSH用語からなるリストを作る。このリストでは、実DBにおける登場回数の多い順にМeSH用語を並べる(降順ソートする) (
図5(b))。
(3)МeSH用語のリストの先頭のМeSH用語をX、その、実DBにおける登場回数をAとすると、初期化文献リストの中からランダムにA個の文献を選び、それらA個の文献にそれぞれМeSH用語Xを割り当てる。
図5(b)の例では、МeSH用語Xは、МeSH用語eにあたる。
【0048】
(4)なお、初期化文献リストの文献の数がA以下の場合は、該リスト中の全ての文献を選び、割り当て先のないМeSH用語は破棄する。また、実DBにおけるМeSH用語の割り当て数が1であった文献に対して、МeSH用語Xが割り当てられた場合は、その文献は、次回以降のМeSH用語の割り当て対象から除外する。
(5)МeSH用語リストからМeSH用語Xを削除し、次のМeSH用語Yについて、先頭のМeSH用語Xについて行った処理(3)、(4)と同じように、そのМeSH用語Yの実DBにおける登場回数Bに相当する数の文献を初期化文献リストからランダムに選び出し、該文献にМeSH用語Yを割り当てる。また、実DBにおけるМeSH用語の割り当て数と同じ数のМeSH用語Xが割り当てられた文献は、次回以降のМeSH用語の割り当て対象から除外する。
(6)(5)の処理を、МeSH用語リストのМeSH用語がなくなるまで続ける。
【0049】
以上の手順により作成されたランダムDBを対象に、実DBについて行った処理と同じようにして、共起用語を抽出し、その関連性スコアを求める。そして、抽出された共起用語の関連性スコアの頻度分布を生成し、これを帰無分布として、実DBから抽出された関連МeSH用語のp値を計算により求める(
図6(a))。ある関連МeSH用語の関連性スコアの値をSとすると、その関連МeSH用語のp値は次の式で表される。
p値=(帰無分布において関連性スコアがS以上の点数)/(帰無分布の全点数)
【0050】
次に、 Benjamini & Hochberg法(BH法)を用いてp値を補正した。BH法は、FDR(False Discovery Rate)を調整する方法である。FDRとは、真の帰無仮説を誤って棄却(αエラー)した数に対して、帰無仮説を棄却した総数で割った値であり、BH法では次の手順で求められるq値がFDRに相当する。まず、全てのp値が一様分布に従うと仮定し、その頻度分布を作成する(
図6(b))。そして、p値をp値以下である確率(
図6(b)に示すグラフにおける、p値以下の一様分布の面積)で割った値(q値)を計算する。q値(FDR)の閾値は統計的に有意な値であればよく、統計解析では、q値=0.05又は0.1が閾値として選択されることが一般的である。
【0051】
各関連МeSH用語のFDRが求められると、表示制御部516は、関連МeSH用語を、その関連性スコア、FDRの判定結果とともに、関連性スコアの大きい順に並べた表を作成し、表示部59に表示する(ステップ109)。
図7は、55920個の関連МeSH用語が抽出された場合に表示部59に表示される表の一例を示している。この表において、「Score」は関連性スコアを、「recommended term」は関連МeSH用語を表す。また、「input term compound」、「input term user」は、関連МeSH用語の抽出に用いられた第1及び第2МeSH用語を表す。また、この表では、FDRの判定結果として、FDR≦0.1の関連МeSH用語には「TRUE」という表示が、FDR>0.1の関連МeSH用語には「FALSE」という表示が付与されている。
【0052】
FDR≦0.1の関連МeSH用語は、偶然抽出されたものではないと統計的に評価されたことを示している。つまり、「TRUE」が付与された関連МeSH用語は、第1МeSH用語及び第2МeSH用語とともにキーワードとして、MEDLINEに蓄積されている文献を検索すれば、分析データの解析結果の解釈に有用な文献を抽出できる可能性が高い用語であることを示している。したがって、ユーザは、表示部59に表示された表に記載されているFDRの判定結果を見て、文献検索のキーワードとして用いる関連МeSH用語を選択したリ、関連性スコアの大きい関連МeSH用語から順に文献検索のキーワードとして利用したりすることができる。
【0053】
図7では、抽出された全ての関連МeSH用語を関連性スコアの大きい順に並べた表を表示部59に表示させる例を示したが、これに限られない。
図8は、抽出された全ての関連МeSH用語を関連性スコアの大きい順に並べた表において、FDRが所定の範囲内(FDR≦0.1)にある関連МeSH用語が、それ以外の関連МeSH用語と視覚的に区別可能なように、網掛け及び太線枠が付与されている例を示している。この例では、FDRが所定の範囲内にある関連МeSH用語に対応する領域が太線枠で囲まれ、該関連МeSH用語の番号が網掛けされているため、ユーザは、表示部59に表示される表の中から文献検索に有用なキーワードとなる関連МeSH用語を容易に見つけ出すことができる。
【0054】
また、
図9は、FDRが所定の範囲内(FDR≦0.1)にある関連МeSH用語のみを、それらの関連性スコアの大きい順に並べた表が表示部59に表示される例を示している。この例では、ユーザは、表示部59に表示されている関連МeSH用語を使って文献検索を行えばよい。
【0055】
[実施例2]
この実施例は、各関連МeSH用語の関連性スコアから、該関連МeSH用語の統計的な確からしさの指標値を求める処理が、実施例1と異なる。それ以外の処理は実施例1と同じであるため、説明は省略する。
【0056】
まず、統計処理部515は、抽出された全ての関連МeSH用語(実施例1の例では
図7の表に示されている全ての関連МeSH用語)を、カテゴリー別に分類し、クロス集計表を作成する。このクロス集計表は、カテゴリー毎に、FDRが0.1以下の関連МeSH用語の数(
図7において「TRUE」が付された数)と、0.1より大きい関連МeSH用語の数(
図7において「FALSE」が付された数)を集計した表である。例えば
図10は、「がん」のカテゴリーに属する関連МeSH用語が700個抽出された場合に、それらのうちの500個はFDRが0.1以下であり、200個はFDRが0.1よりも大きかったことを示しており、「感染症」のカテゴリーに属する関連МeSH用語が2800個抽出された場合に、800個はFDRが0.1以下であり、2000個はFDRが0.1よりも大きかったことを示している。
【0057】
次に、作成したクロス集計表に対してカイ二乗検定を行う。具体的には、クロス集計表の「FDR≦0.1」の関連МeSH用語の数の合計、「FDR>0.1」の関連МeSH用語の数の合計から、各カテゴリーの「FDR≦0.1」の関連МeSH用語の数の期待値と、「FDR>0.1」の関連МeSH用語の数の期待値を計算により求める。そして、それらの期待値と、実際に集計された値から計算できる以下の式で求められるカイ二乗値が、近似的にカイ二乗分布に従うと仮定し、検定を行う。
【数1】
【0058】
カイ二乗値が所定の閾値よりも大きい場合は、カテゴリー間で、「FDR≦0.1」の関連МeSH用語の比率に差があることが分かるから、表示制御部516は、「FDR≦0.1」の関連МeSH用語の比率の大きかったカテゴリー群を、分析データの解析結果の解釈に利用される文書情報の検索に有用なカテゴリー群として、表示部59に表示する。
【0059】
なお、
図10は、抽出された関連МeSH用語が2個のカテゴリーに分類された場合の例を示しているが、カテゴリーの数が3個以上になることは当然起こり得る。カイ二乗検定では、クロス集計全体においてカテゴリー間で「FDR≦0.1」の関連МeSH用語の比率の差があるか否かを検定できるが、どのカテゴリーにおいて、「FDR≦0.1」の関連МeSH用語の比率が有意に多いか否かを検定することはできない。そこで、カテゴリーが3個以上の場合は残差分析を行うと良い。本実施例の残差分析では、上述の期待値と実際に抽出されたМeSH用語の数の差を残差とする。残差は標準化と補正により、正規分布に対するp値とみなすことができる。したがって、全てのカテゴリーに対して残差分析を行うことで、カテゴリー毎の有意性の検討が可能となる。この場合、カテゴリーの数だけ検定を行うことになるため、Benjamini & Hochberg法などの多重検定補正法を用いて残差を補正すると良い。
【0060】
残差分析により、抽出された関連МeSH用語の数に占める「FDR≦0.1」の関連МeSH用語の比率が有意に多いカテゴリー群が得られる。このようなカテゴリー群は、分析データの解析結果の解釈に利用される文書情報の検索に有用なキーワードとなり得る関連MeSH用語を多く含むと考えられることから、表示制御部516は、該カテゴリー群を、それ以外のカテゴリー群と視覚的に区別されるような形態で表示部59に表示する。
【0061】
なお、
図10に示すクロス集計表では、ある関連МeSH用語が「がん」と「感染症」に重複して属する場合、それぞれを1個の関連МeSH用語として合計の数を求めたが、抽出された複数の関連МeSH用語の実際の個数を合計の個数としても良い。つまり、
図10に示すクロス集計表の最下段の合計の値が、「がん」及び「感染症」の数を合算した値よりも小さくなるが、統計処理上問題ない。
【0062】
[変形例]
上記実施形態では、文書検索支援装置50を1台のパーソナルコンピュータから構成したが、文書検索支援装置50の機能ブロックの一部は、通信回線を介して文書検索支援装置50に接続された、別のパーソナルコンピュータ、タブレット端末等の端末装置に搭載されたものであってもよい。また、文書検索支援装置50の各機能ブロックの実体であるソフトウェアは、文書検索支援装置50と通信回線を介して接続されたアプリケーションサーバに記憶されていて、必要に応じて、アプリケーションサーバからソフトウェアを文書検索支援装置50にダウンロードするようにしてもよい。
【0063】
上記実施例ではユーザによる入力部58の操作により第2情報が文書検索支援装置50に入力され、情報受付部513で取得されることとしたが、インターネット20を介して接続された端末装置から第2情報が文書検索支援装置50に入力されるようにしても良い。
【0064】
上記実施形態では、共起データの取得にPubMed上で提供されるMRCOCを利用したが、文書検索支援装置50に共起データの生成機能を持たせるようにしてもよい。文書情報のデータベースのそれぞれに合った共起性の指標(例えば、Dice係数、Jaccard係数、Simpson係数、Confidence等)を採用して共起データを生成することで、検索の絞り込み候補となる関連用語の有用性を向上させることができる。
【0065】
上記実施形態では、文書情報のデータベースとしてPubMedを利用しているが、例えば出版社等が運営する文献情報提供サービス等の他のデータベースを利用してもよい。この場合には、前処理において、そのデータベースで文献類を分類するのに使用されるシソーラスに従って、キーワードおよびIDにより分析データ中の生体試料の含有物を特定しておく。また、データベースは、インターネット経由で利用できる既存のものだけでなく、独自に構築したものを任意の通信回線を介して利用するようにしてもよい。
【0066】
上記の実施形態では、統計処理部515による処理の結果が表示部59に表示される構成としたが、用紙に印刷されるようにしても良く、音声で出力されるようにしても良い。
【0067】
上記実施形態や上述した各種の変形例も本発明の一例にすぎず、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
【0068】
[種々の態様]
上述した例示的な実施形態が以下の態様の具体例であることは、当業者には明らかである。
【0069】
(第1項)本発明に係る文書検索支援装置は、分析対象物を含む試料を分析装置を用いて分析したデータの解析結果の解釈に利用される文書情報を検索する作業を支援する装置であって、
前記分析データから、該分析対象物を特定する情報である第1情報を取得する情報取得部と、
前記分析データの解析結果の解釈に利用される文書情報を検索するための情報である第2情報の入力を受け付ける情報受付部と、
前記第1情報及び前記第2情報に基づいて、文書情報が蓄積されたデータベース内の該文書情報に含まれる用語の中から、前記分析データの解析結果に関連する用語である関連用語を複数抽出する抽出部と、
前記複数の関連用語の各々について、前記第1情報と前記第2情報との関連性の大きさを表す関連性スコアを算出するスコア算出部と、
前記各関連用語の関連性スコアから、該関連用語の統計的な確からしさの指標値を求める統計処理部と
を備えるものである。
【0070】
本発明の文書検索支援装置において、前記第1情報は、例えば分析対象物の名称、分析対象物のカテゴリーを表す名称、分析対象物の名称と濃度の組み合わせ等をいう。分析対象物が複数の場合は、情報取得部は複数の分析対象物の名称、あるいは複数の分析対象物の名称と試料中に含まれる各分析対象物の含有量との組み合わせ等を第1情報として取得する。
【0071】
第2情報は、例えば分析データの解析結果を解釈する担当者により入力される情報であり、分析対象物を分析する目的を反映した情報である。分析対象物を分析する目的が薬剤の作用機序の解明の場合は、その薬剤が投与される患者の疾患の名称、該薬剤に含まれる薬効成分の名称、薬効成分が作用する組織の名称等が第2情報として解釈担当者によって入力され、情報受付部に受け付けられる。
【0072】
また、本発明における「統計的な確からしさの指標値」とは、或る関連用語が偶然抽出されたものではないことを統計的に評価した値をいう。
【0073】
第1項の文書検索支援装置によれば、抽出部によって抽出された複数の関連用語について、それぞれ統計的な確からしさの指標値が求められるため、各関連用語の指標値から、いずれの関連用語が、分析データの解析結果の解釈に必要な文献の検索に有効であるかを判断することができ、その関連用語を用いることにより、分析データの解析結果の解釈に有用な文書情報を効率よく抽出できる。
【0074】
(第2項)第1項の文書検索支援装置において、前記統計処理部が、前記指標値として、各関連用語の関連性スコアのp値を求めるものとすることができる。
【0075】
(第3項)第1項の文書検索支援装置において、前記統計処理部が、多重比較補正を用いて各関連用語の前記指標値を求めるものとすることができる。
【0076】
(第4項)第1項の文書検索支援装置において、前記統計処理部が、前記指標値として、各関連用語の関連性スコアのFDRを求めるものとすることができる。
【0077】
第2項~第4項の文書検索支援装置によれば、統計的な仮説検定が可能となり、関連性スコアが統計的に有意かどうかがわかる。
【0078】
(第5項)第1項の文書検索支援装置において、前記複数の関連用語を前記指標値が大きい順又は小さい順に並べて表示部に表示させる表示制御部を備えるものとすることができる。
【0079】
第5項の文書検索支援装置によれば、表示部に表示される前記複数の関連用語のうち、いずれの関連用語を優先的に使って文書情報の検索を行えばよいかが分かる。
【0080】
(第6項)第1項~第5項のいずれかの文書検索支援装置において、前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にない関連用語と、前記正常範囲内にある関連用語を区別して表示部に表示させる表示制御部とを備えるものとすることができる。
【0081】
(第7項)第1項~第5項のいずれかの文書検索支援装置において、前記指標値が所定の正常範囲内にあるか否かを判定する判定部と、
前記指標値が前記正常範囲内にある関連用語のみを表示部に表示させる表示制御部とを備えるものとすることができる。
【0082】
第6項及び第7項の文書検索支援装置によれば、文書情報の検索に有用な関連用語を容易に認識することができる。
【0083】
(第8項)第1項の文書検索支援装置において、前記データベースに蓄積されている文書情報が、複数の文献のそれぞれについて設定された、文献を特定する情報と、それに対応付けられた該文献を検索するための検索用語とを含み、
前記統計処理部が、前記抽出部により抽出された複数の関連用語をカテゴリー別に分類してエンリッチメント解析を行い、抽出された関連用語の数が統計的に有意に多いカテゴリーを求めるものとすることができる。
【0084】
第8項の文書検索支援装置によれば、抽出された関連用語の数が統計的に有意に多いと判断されたカテゴリーが、試料の分析方法を検討したり、第2情報を見直したりするきっかけとなり得る。つまり、試料を分析した目的とカテゴリーが乖離している場合は、試料の分析方法が誤っている、あるいは、第2情報として入力した用語が適切でない可能性があると推定することができる。
【0085】
(第9項)第8項の文書検索支援装置において、前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析により、統計的に有意に多いカテゴリーを求めるものとすることができる。
【0086】
(第10項)第8項の文書検索支援装置において、前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計し、カイ二乗分析と残差分析により、統計的に有意に多いカテゴリーを求めるものとすることができる。
【0087】
(第11項)第9項又は第10項の文書検索支援装置において、前記統計処理部が、複数の関連用語をカテゴリー別にクロス集計した結果を多重検定補正するものとすることができる。
【0088】
第9項~第11項の文書検索支援装置によれば、抽出された複数の関連用語が、どのようなカテゴリーの関連用語が多く抽出されたかを知ることができる。例えば、或る現象、或るメカニズムに関連するカテゴリーが有意に多いという結果が出た場合に、解析担当者あるいは分析者は、その現象、そのメカニズムが自身の研究に関連があるかもしれないと気が付くことができる。
【0089】
(第12項)第8項~第11のいずれかの文書検索支援装置において、統計的に有意に多いカテゴリーに属する関連用語を、それ以外の関連用語と区別して表示部に表示させる表示制御部を備えるものとすることができる。
【0090】
第12項の文書検索支援装置によれば、文書情報の検索に有用な関連用語が多く含まれるカテゴリーを容易に認識することができる。
【符号の説明】
【0091】
10…質量分析装置
11…装置本体
12…パーソナルコンピュータ
20…インターネット
21…タブレット端末
21…端末装置
22…パーソナルコンピュータ
41、42、43、44…データベース
50…文書検索支援装置
51…制御部
511…解析処理部
512…情報取得部
513…情報受付部
514…抽出部
515…統計処理部
516…表示制御部
52…演算装置
53…補助記憶装置
54…通信部
57…表示制御部
58…入力部
59…表示部
60…装置本体