IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人大阪大学の特許一覧 ▶ 株式会社島津製作所の特許一覧

<>
  • 特許-解析装置および解析方法 図1
  • 特許-解析装置および解析方法 図2
  • 特許-解析装置および解析方法 図3
  • 特許-解析装置および解析方法 図4
  • 特許-解析装置および解析方法 図5
  • 特許-解析装置および解析方法 図6
  • 特許-解析装置および解析方法 図7
  • 特許-解析装置および解析方法 図8
  • 特許-解析装置および解析方法 図9
  • 特許-解析装置および解析方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-20
(45)【発行日】2024-02-29
(54)【発明の名称】解析装置および解析方法
(51)【国際特許分類】
   G06F 16/30 20190101AFI20240221BHJP
   G06F 16/9038 20190101ALI20240221BHJP
【FI】
G06F16/30
G06F16/9038
【請求項の数】 10
(21)【出願番号】P 2021519403
(86)(22)【出願日】2020-05-07
(86)【国際出願番号】 JP2020018586
(87)【国際公開番号】W WO2020230704
(87)【国際公開日】2020-11-19
【審査請求日】2021-09-24
【審判番号】
【審判請求日】2023-07-03
(31)【優先権主張番号】P 2019089616
(32)【優先日】2019-05-10
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001069
【氏名又は名称】弁理士法人京都国際特許事務所
(72)【発明者】
【氏名】松田 史生
(72)【発明者】
【氏名】金澤 慎司
【合議体】
【審判長】林 毅
【審判官】脇岡 剛
【審判官】吉田 美彦
(56)【参考文献】
【文献】特開2005-122231号公報(JP,A)
【文献】菰田文男,「単語セット」の作成と進化に基づくテキストマイニング手法,情報管理,独立行政法人科学技術振興機構,2011年12月01日,第54巻, 第9号,pp.568-578
(58)【調査した分野】(Int.Cl.,DB名)
G06F16/00-16/958
(57)【特許請求の範囲】
【請求項1】
データベースを検索して文献を抽出するためのキーワードとなる用語と、該キーワードとなる用語に付与されている識別番号とを各文献の書誌事項に与えることによって索引付けが行われた文書情報を蓄積し、蓄積されている文献の検索エンジンを備えたデータベース、および、前記検索エンジンを介して利用可能なサービスであって、問合せに応じて、前記検索エンジンが受信した識別番号の、前記データベースに蓄積されている文献における共起データを入手して送信するサービスを用いる解析装置であって、
分析装置を用いて試料に含まれる解析対象物を測定した結果から、前記データベースに蓄積された前記文書情報の前記書誌事項に与えられた前記識別番号のうちの一つであって、該解析対象物を特定する情報である第1識別情報を取得する第1情報取得手段と、
前記サービスを用いて、前記第1情報取得手段が取得した前記第1識別情報に関連する情報であって、前記第1識別情報と同時に出現する用語及び該用語に付与されている識別番号、並びに共起頻度の値とが対応付けて記述されたテキストファイルから成る共起データを、前記データベースから取得する第2情報取得手段と、
前記第2情報取得手段が取得した前記共起データについてアソシエーション分析を行うことにより、前記共起データの中から、前記解析対象物に関連する用語である関連用語として、前記第1識別情報と同時に出現する用語又は前記用語に付与されている識別番号を抽出する抽出手段と、
前記抽出手段が抽出した、前記関連用語をユーザに提示する提示手段と、
を備える、解析装置。
【請求項2】
請求項1に記載の解析装置において、
前記第1情報取得手段が、複数の解析対象物について、それぞれに対応する第1識別情報を取得し、
前記抽出手段が、前記複数の解析対象物に共通して関連する関連用語を抽出する、解析装置。
【請求項3】
請求項1に記載の解析装置において、
ユーザからの入力を受け付ける受付手段をさらに備え、
前記第1情報取得手段は、前記受付手段が受け付けた第2識別情報を取得し、
前記抽出手段は、前記第1識別情報と前記第2識別情報の両方に基づいて、前記関連用語を抽出する、解析装置。
【請求項4】
請求項1に記載の解析装置において、
前記分析装置が質量分析装置である、解析装置。
【請求項5】
請求項に記載の解析装置において、
前記抽出手段が、前記アソシエーション分析における信頼度、支持度、リフト値の少なくとも1つを採用したルールにより、前記関連用語を抽出する、解析装置。
【請求項6】
データベースを検索して文献を抽出するためのキーワードとなる用語と、該キーワードとなる用語に付与されている識別番号とを各文献の書誌事項に与えることによって索引付けが行われた文書情報を蓄積し、蓄積されている文献の検索エンジンを備えたデータベース、および、前記検索エンジンを介して利用可能なサービスであって、問合せに応じて、前記検索エンジンが受信した識別番号の、前記データベースに蓄積されている文献における共起データを入手して送信するサービスを用いる解析方法であって、
分析装置を用いて、試料に含まれる解析対象物が測定された結果を取得するステップと、
前記解析対象物が測定された結果から、前記データベースに蓄積された前記文書情報の前記書誌事項に与えられた前記識別番号のうちの一つであって、該解析対象物を特定する情報である第1識別情報を取得するステップと、
前記サービスを用いて、前記第1識別情報に関連する情報であって、前記第1識別情報と同時に出現する用語及び該用語に付与されている識別番号、並びに共起頻度の値とが対応付けて記述されたテキストファイルから成る共起データを、前記データベースから取得するステップと、
前記共起データについてアソシエーション分析を行うことにより、前記共起データの中から、前記解析対象物に関連する用語である関連用語として、前記第1識別情報と同時に出現する用語又は前記用語に付与されている識別番号を抽出するステップと、
前記関連用語をユーザに提示するステップと、
を含む、解析方法。
【請求項7】
前記第1識別情報を取得するステップが、複数の解析対象物について、それぞれに対応する第1識別情報を取得するステップであり、
前記抽出するステップが、前記複数の第1識別情報に共通して関連する関連用語を抽出するステップである、請求項に記載の解析方法。
【請求項8】
請求項に記載の解析方法において、
ユーザからの第2識別情報の入力を受け付けるステップと、
前記受け付けるステップで受け付けた第2識別情報を取得するステップとをさらに備え、
前記抽出するステップは、前記第1識別情報と前記第2識別情報の両方に基づいて、前記関連用語を抽出することを含む、解析方法。
【請求項9】
請求項に記載の解析方法において、
前記分析装置が質量分析装置である、解析方法。
【請求項10】
請求項に記載の解析方法において、
前記抽出するステップは、前記アソシエーション分析における信頼度、支持度、リフト値の少なくとも1つを採用したルールにより、前記関連用語を抽出するステップである、解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、解析装置および解析方法に関する。
【背景技術】
【0002】
生物医学分野においては、生体試料に含まれる様々な代謝物を同定するため、ガスクロマトグラフ質量分析装置(GC/MS)、または液体クロマトグラフ質量分析装置(LC/MS)を用いた多成分一斉分析が行われている。
【0003】
GC/MSやLC/MS等の分析装置から出力される分析データはユーザによって解読されて代謝物が同定される。分析データの解読は、ユーザの知識と経験に依る部分が大きい。そこで、生体試料に含まれる様々な代謝物の同定に係る作業を効率化し、分析データの検証を効率化した代謝物解析用データ処理装置が提案されている(特許文献1参照)。特許文献1の装置では、生体内での代謝を扱う分野で用いられている、代謝経路を記した代謝マップと呼ばれるチャートが利用されている。代謝マップには、代謝の過程で生じる化学反応、該反応によって生成される各種の化合物(代謝物)、該反応に関与する酵素などが掲載されており、一目で代謝の流れが理解できるようになっている。特許文献1の装置では、生体試料に含まれる代謝物、ある代謝物を分析可能な分析条件等に関する情報を、代謝マップ上に明示することで、ユーザによる分析条件の設定作業および代謝物の情報の把握を支援している。
【0004】
分析装置の分析データに基づく代謝物の同定結果を解析し、そこから価値ある情報を引き出すためには、さらに分析対象に応じたツールが利用される。そのため、リピドミクス(脂質分子(リピドーム)解析)、プロテオミクス(たんぱく質解析)、メタボロミクス(メタボローム解析)等の解析ツールとしてのソフトウェアが、それぞれ個別に、研究者や企業によって開発されている。また、近年では、各種のオミクスデータを総合的に解析するため、また、生物医学分野で利用される各種ソフトウェア間でデータを互換可能にするため、アプリケーション・プログラミング・インターフェース(API)等に準拠した情報プラットフォームが提供されている(非特許文献1参照)。
【0005】
また、種々の公共データベースにおいて、生物医学分野における様々な発見に関する研究結果が公開されている。このようなデータベースの一つに米国国立医学図書館(National Library of Medicine:NLM)が運営している医学文献情報を収録したデータベースMEDLINEがある。MEDLINEに収録されている文献情報は例えば米国国立医学図書館がWeb上で公開しているPubMedの検索機能を用いて検索することができる(非特許文献2参照)。MEDLINEに収録されている文献の書誌情報(bibliographicalinformation)は、検索が適切に行われるよう、医学文献シソーラスであるMeSH(Medical Subject Heading)によって索引付けが行われている。索引付けは、各文献の書誌情報にMeSH用語とMeSHIDを与えることにより行われる。MeSH用語は1つの文献に対して、複数与えられる。また、MeSHIDは、MeSH用語のカテゴリーに応じて該MeSH用語に付されている。
【0006】
また、生物医学分野では、生体試料の分析データから遺伝子、薬物、疾患等の関連性を解析し、遺伝子発現の制御機構、分子間相互作用を推定することがある。遺伝子発現制御機構や分子間相互作用の推定には、生物医薬に関連する科学文献を読み解いてマップやモデルを構築することが求められる。科学文献の量は膨大であり、また、科学文献は、細分化された専門領域で異なる視点で記述されている。そのような科学文献に記述された内容を相互に結びつける作業は、人が行うには困難なものである。そこで、MeSH用語を使ってPubMedから種々の科学文献に記述されている遺伝子、薬物、疾患等に関する用語を抽出し、それらの関連性を集計して遺伝子発現制御機構、分子間相互作用を推定する手法が提案されている(非特許文献3参照)。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2010-216981号公報
【非特許文献】
【0008】
【文献】Garuda Platform、特定非営利活動法人 システム・バイオロジー研究機構、[online]、[平成31年4月21日検索]、インターネット<http://www.garuda-alliance.org/about.html>
【文献】PubMed、[online]、[平成31年4月17日検索]、インターネット<URL:https://www.ncbi.nlm.nih.gov/pubmed>
【文献】Stephen Joseph Wilson et al.、'Automated literature mining and hypothesis generation through a network of Medical Subject Headings'、[online]、bioRxiv、[平成31年4月17日検索]、インターネット、<URL:https://www.biorxiv.org/content/10.1101/403667v1>
【発明の概要】
【発明が解決しようとする課題】
【0009】
生物医学分野の分析データ解析用のソフトウェアの開発と改良には、統計学や計算機科学の理論と技法が用いられる。統計学や計算機科学に精通した技術者であれば、与えられた分析データを基に何らかの解析手法を用いて何らかの結果を導き出すことは可能である。しかしながら、分析データから導き出された結果が生物学的に見て、有用なものになるとは限らない。すなわち、分析データの意味やその背景に精通していなければ、そのような解析手法が適当であるかの判断ができず、生物医学分野の研究者にとっての有用な解析結果は得られない。
【0010】
遺伝子、たんぱく質および代謝物等の変化を統合的に解析するマルチオミクスにおいては、それぞれのオミクスデータを解析するために研究者が参考にすべき文献は膨大にあり、それらは日々増え続けている。非特許文献3に記載されている手法(データマイニング)によって、遺伝子-遺伝子、疾患-遺伝子、薬物-遺伝子の関連性が知識として得られたとして、その知識を活用するには、研究者が自ら文献を読み判断する必要がある。しかしながら、膨大な量の文献の中から、その研究者にとって有用な文献を効率的に抽出することは難しい。
【0011】
なお、ここでは、生体試料の分析データを解析する場合の問題点について説明したが、生体試料以外の試料、例えば海水、湖水、河川等から採取した液体試料に含まれる環境ホルモン等の物質の測定結果から、環境汚染の原因を究明するために有用な文献を抽出する場合等にも同様の問題があった。
【0012】
この発明は、上記課題を解決するためになされたものであり、その目的は、分析装置を用いて試料に含まれる物質を測定した結果の理解に有用な文書情報を容易に抽出することができるようにすることである。
【課題を解決するための手段】
【0013】
この発明の第1の態様は、分析装置を用いて、試料に含まれる解析対象物を測定した結果から、該解析対象物を特定する情報である第1識別情報を取得する情報取得手段と、前記情報取得手段が取得した前記第1識別情報に基づいて、文書情報を蓄積したデータベースの中から、前記解析対象物に関連する用語である関連用語を抽出する抽出手段と、前記抽出手段が抽出した前記関連用語をユーザに提示する提示手段と、を備える解析装置である。
【0014】
この発明の第2の態様は、分析装置を用いて、試料に含まれる解析対象物が測定された結果を取得するステップと、前記解析対象物が測定された結果から、該解析対象物を特定する情報である第1識別情報を取得するステップと、前記第1識別情報に基づいて、文書情報を蓄積したデータベースの中から、前記解析対象物に関連する用語を抽出するステップと、前記関連用語をユーザに提示する提示ステップと、を含む解析方法である。
【発明の効果】
【0015】
この発明によれば、試料に含まれる解析対象物の測定結果から取得された第1識別情報を使って、文書情報を蓄積したデータベースの中から、関連用語が抽出され、それがユーザに提示されるため、ユーザは、提示された関連用語を用いて、解析対象物の測定結果の理解に有用な文書情報を、前記データベースの中から容易に探し出すことができる。
【図面の簡単な説明】
【0016】
図1】この発明の実施形態に係る解析装置50を含む情報提供システムの概要図。
図2】分析データから解析用データを作成する処理の一例を示す説明図。
図3】代謝マップの表示例を示す図。
図4】解析装置50の概略的な構成の一例を示すブロック図。
図5】解析装置50の処理の一例を示すフローチャート。
図6】解析対象物の識別情報であるMeSHIDの集合であるMeSHID群の例を示す図である。
図7】アソシエーション分析の結果の表示例を示す図。
図8】解析装置50の処理の他の一例を示すフローチャート。
図9】第1MeSHID群と第2MeSHID群の一例を示す図。
図10】アソシエーション分析の結果の表示例を示す図。
【発明を実施するための形態】
【0017】
[解析装置を含むシステムの概要]
以下、この発明の実施の形態を図面に基づいて説明する。図1は、この実施形態に係る解析装置50を含む情報提供システムの概要図である。
【0018】
情報提供システムは、ユーザが所望する処理を実現するソフトウェアが少なくとも1つインストールされている複数の端末装置と、端末装置からの問い合わせに対して情報を提供する複数のデータベース41、42、43、44とを含む。複数のデータベース41、42、43、44には、それぞれ文書情報が蓄積されている。端末装置は、タブレット端末21、パーソナルコンピュータ22等のコンピュータ装置である。
分析装置10は、機械的動作により分析を実行する装置本体11と、装置本体11の動作を制御するための制御ソフトウェア、装置本体11が分析を実行することにより得られたデータを処理するための処理ソフトウェア等がインストールされたパーソナルコンピュータ12から構成される。端末装置21、22及びパーソナルコンピュータ12とデータベース41、42、43、44とは、インターネット20を介して接続されている。分析装置10のパーソナルコンピュータ12の記憶装置には分析装置部10の分析データが保存される。パーソナルコンピュータ12は、インターネット20を介して端末装置21、22、及び解析装置50との間でデータを送受信することが可能である。解析装置50の実体はパーソナルコンピュータまたはワークステーション等のコンピュータ装置である。解析装置50は、分析装置10で取得された試料の分析データに基づいて、ユーザが、少なくとも一つのデータベースを検索して、前記分析データを解読するために必要な文書情報を入手する手助けとなる用語を、該ユーザに提供するための解析を実行するものである。
【0019】
インターネット20を介して利用可能なデータベースには、分析装置10で分析可能な試料の種類に応じた様々なデータベースが用いられる。例えば生体試料の場合に利用されるデータベースとして、遺伝子データベース、たんぱく質情報データベース、医薬品情報データベース、医学文献データベース等がある。医学文献データベースには、例えば、米国国立医学図書館(National Library of Medicine:NLM)が運営している医学文献データベースMEDLINEがある。データベースに蓄積されている文書情報には、論文、書籍、辞書、医薬品添付文書等が含まれる。
【0020】
分析装置10としては、LC(液体クロマトグラフィー)、GC(ガスクロマトグラフフィー)などのクロマトグラフ装置、および、クロマトグラフ装置に質量分析計を組み合わせたLC/MSおよびGC/MSなどのクロマトグラフ質量分析装置を使用することができる。分析装置10がクロマトグラフ質量分析装置の場合、クロマトグラム、マススペクトル等のグラフが分析データとして取得される。グラフ上の各点を表す座標データ(例えば保持時間と信号強度の組、質量電荷比m/z値と信号強度の組等である数値データ)を分析データとして取得しても良い。要は、分析データに基づいて試料に含まれる解析対象物の種類、量を特定することができれば、どのような形式の分析データでもよい。また、分析装置10に供される試料は液体試料、気体試料がある。液体試料として、ヒトを含む動物の尿、血液、および、生物の細胞構造を破壊して得た粗抽出物等の生体試料がある。試料が生体試料の場合、解析対象物は、代謝物、たんぱく質、化合物等である。
【0021】
[解析装置の構成]
図4は解析装置50の概略的な構成を示すブロック図である。
【0022】
解析装置50は、装置本体60と、この装置本体60に接続された入力部58及び表示部59とを備える。装置本体60は、制御部51と、各種の演算処理を実行するCPUなどの演算装置52と、解析結果などを記憶する補助記憶装置53と、インターネット20を介してデータベース41との間でデータを送受信する通信部54を備える。図4では、データベース41として、MEDLINE及びMEDLINEに収録されている文献の検索エンジンであるPubMedが示されている。制御部51は、問合せ部55、解析部56、表示制御部57を機能ブロックとして備える。また、制御部51は、演算装置52、補助記憶装置53、通信部54の動作を制御する。
【0023】
解析装置50の実体はパーソナルコンピュータであり、該パーソナルコンピュータに予めインストールされた専用のソフトウェアを当該コンピュータ上で実行することにより制御部51の各機能が具現化される。入力部58はコンピュータに付設されたキーボードやポインティングデバイス(マウス等)である。表示部59はコンピュータのディスプレイモニタである。補助記憶装置53は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等である。メモリ51、演算装置52、補助記憶装置53および通信部54と制御部51とは、内部バスにより接続されている。
【0024】
[解析装置による解析処理]
次に、解析装置50によって実行される解析処理について説明する。
[解析用データの作成]
解析装置50には、分析装置10に供された試料に含まれる物質のうち該解析装置50の解析対象となる物質(解析対象物)を特定する情報が解析用データとして入力される。したがって、分析装置10で取得される分析データの形式によって、該分析データがそのまま解析用データとなる場合、分析データを加工したり、該分析データから解析対象物を抽出したりして解析用データを作成する処理が必要となる場合がある。図2は、分析装置10の分析データから解析用データを作成する処理の一例を示す説明図である。本実施形態では、解析用データの作成処理は、その処理に必要な所定のソフトウェアがインストールされた端末装置で行われる。したがって、解析用データの作成処理に先立ち、ユーザは、分析装置10から分析データを端末装置に送信する。
【0025】
なお、ここでは、出芽酵母の細胞抽出液をLC/MSで分析して得られたデータから解析用データを作成する処理を例に挙げて説明する。出芽酵母の細胞抽出液は、野生株(WT)、出芽酵母の代謝に関与する特定の遺伝子をノックアウトした変異株(Δ1)、変異株(Δ1)とは異なる、出芽酵母の代謝に関与する特定の遺伝子をノックアウトした変異株(Δ2)を、それぞれ同じ条件で培養した後に細胞を破壊して得られた粗抽出液である。分析データは、出芽酵母の各株の代謝物を比較するために、それらの細胞抽出液を、同一の分析条件でLC/MSで分析することにより得られたデータである。典型的にはクロマトグラム、マススペクトルであるが、保持時間と信号強度の組から成る数値データ、m/z値と信号強度の組から成る数値データでもよい。
【0026】
LCでは、カラムの性質と溶出条件から、試料中の成分の保持時間(RT)が決まる。出芽酵母の代謝物として既知の物質の保持時間が既知であれば、出芽酵母の各株の細胞抽出液について得られたクロマトグラムのピーク位置の保持時間から各細胞抽出液に含まれる代謝物の同定ができる。クロマトグラムの保持時間から代謝物を同定できなくとも、予め計算で求めておいた既知の代謝物のm/zの理論値とマススペクトルのピークのm/z値との対比により、各細胞抽出液に含まれる代謝物の同定が可能である。また、クロマトグラムの各ピークの面積(高さ)から、各細胞抽出液に含まれる代謝物の量を算出することができる。したがって、野生株(WT)、変異株(Δ1)、及び変異株(Δ2)のそれぞれについて得られたクロマトグラム、マススペクトルを比較することにより、野生株(WT)と変異株(Δ1)又は変異株(Δ2)との間で細胞抽出液に含まれる量が異なる代謝物を選出したり、3種類の株に共通して多く含まれる代謝物を選出したりする等、特定の条件を満たす代謝物を選出することができる。解析用データには、選出された1又は複数の代謝物の名称が含まれる。
【0027】
特定の条件を満たす代謝物を選出する作業は、例えばクロマトグラム上のピークをユーザが手動で選択することにより行っても良い。また、所定の解析ツールを用いて分析データを解析した結果から、特定の条件を満たす代謝物が自動的に又は手動で選出されることとしても良い。
野生株(WT)と変異株(Δ1)(又は変異株(Δ2))のクロマトグラムを視認して、野生株と変異株との間で明らかにピーク面積が異なると判断できる場合は、ユーザがそのピークを手動で選出することができる。ピークが選出されると、端末装置は、そのピークに対応する代謝物を特定する。
【0028】
前記解析ツールとしては、統計ツール31、マッピングツール32が挙げられる。統計ツール31は、多変量解析等の統計的手法を用いて、複数の変数に関するデータをもとに、これらの変数間の相互関連を分析するツールである。統計ツール31を用いることにより、例えば野生株(WT)よりも変異株(Δ1)(又は変異株(Δ2))の間で有意に差がある代謝物を自動的に選出することができる。
【0029】
マッピングツール32は、代謝経路を図式化した代謝マップを作成するツールである。マッピングツール32を用いることにより、例えば野生株(WT)、変異株(Δ1)、及び変異株(Δ2)の各細胞抽出液に含まれる代謝物の定量値を組み込んだ代謝マップを作成し、特定の遺伝子をノックアウトしたことにより生じた各代謝物の量的変化を可視化することができる。
【0030】
図3は、代謝マップの表示例を示す図である。この表示例では、TCA回路(Tricarboxylic Acid cycle)の各反応で生じる代謝物の名称と、各代謝物の野生株(WT)、変異株(Δ1)、変異株(Δ2)の定量値を表す棒グラフが示されている。棒グラフは、紙面左から順に並べて野生株(WT)、変異株(Δ1)、変異株(Δ2)の定量値を示している。なお、LCのカラムの性質上、検出不可能な代謝物については、グラフ欄が空欄となっている。この表示例では、野生株と変異株の違いにより起こる、各代謝物の量的変化がグラフによって表される。したがって、ユーザはTCA回路上のグラフを見ながら、例えば、野生株(WT)よりも変異株(Δ2)のほうが、明らかに量が減少している代謝物を手動で選出することができる。
【0031】
図3の代謝マップでは、TCA回路の代謝物の名称のみを表示しているが、代謝物の間の反応を触媒する酵素、反応に関係する遺伝子、たんぱく質等の名称を、同時に表示させてもよい。また、代謝マップ上の代謝物、代謝に関わる触媒、遺伝子、たんぱく質等の関連性をノードとエッジで表し、ノード抽出ツール33を利用してノードを抽出することで、特定の条件を満たす代謝物、触媒、遺伝子、たんぱく質等を選出することもできる。この場合は、代謝物の名称に加えて、または代謝物の名称に代えて、触媒、遺伝子、たんぱく質等の名称が解析用データに含まれることになる。
【0032】
マッピングツール32には、図3のような代謝マップを出力するツールの他に、ネットワーク型の知識の抽出と可視化を行う、ネットワーク可視化ツールとも呼称されるものもある。ネットワーク可視化ツールでは、代謝物、触媒、遺伝子、たんぱく質などの相関関係をノードとエッジで示したネットワークに、分析データを統計処理して得られた代謝物の量的な増減などの情報を組み合わせることで、ネットワークの中で相対的に重要な位置を占めるノードとエッジがどれであるか、どこにあるのかを可視化できる。このようなネットワークについても、ノード抽出ツール33を利用してノードを抽出することで、特定の条件を満たす代謝物、触媒、遺伝子、たんぱく質等を選出することができる。
【0033】
端末装置において、上述した方法で1又は複数の代謝物、触媒、遺伝子、たんぱく質等の解析対象物が選出されると、それらの名称が解析用データとして設定される。設定された解析用データは、インターネット20を介して端末装置から解析装置50に送られる。また、解析用データには、解析対象物の名称とともに、その解析対象物の識別のために予め付与されているIDが含まれていても良い。
【0034】
例えば分析装置10で得られたグラフ(クロマトグラム、マススペクトル等)から代謝物等を同定するために参照する代謝物データベースでは、代謝物の識別のためのID(代謝物ID)が各代謝物に付与されている。また、酵母の遺伝子データベースであるSGD(Saccharomyces Genome Database)では、遺伝子の識別のためのID(遺伝子ID)が各遺伝子に付与されている。したがって、解析対象物が代謝物、遺伝子の場合は、それらの名称とともに代謝物ID、遺伝子IDを解析用データに含ませることができる。また、SGDでは、遺伝子IDとともに、その遺伝子に関連するPMID(PubMedが各文献に割り振っているID)が該遺伝子に付与されている。PMIDには、そのPMIDが割り振られた文献に付与されているMeSHID(MEDLINEに蓄積されている文書を管理するMeSH用語に付与されているID)が紐づけられているため、解析対象物が酵母の遺伝子の場合は、その名称とともに遺伝子ID、PMID、MeSHIDを解析用データに含ませることができる。
【0035】
[解析装置における処理]
次に解析装置50における処理について、文献データベースとしてMEDLINEを利用する場合を例に挙げて説明する。
(実施例1)
図5は、解析装置50の処理の一例を示すフローチャートである。
【0036】
端末装置から送られてきた解析用データは、解析装置50の通信部54を介して制御部51に入力される。制御部51は、その解析用データを参照して、解析対象物を特定する識別情報(本発明の第1識別情報に相当する)を取得する(ステップ101)。したがって、本実施例では、制御部51が情報取得手段として機能する。
文献データベースとしてMEDLINEを利用する場合は、ステップ101で取得される識別情報は、MeSHIDである。したがって、MEDLINEを利用する場合において解析用データにMeSHIDが含まれている場合は、制御部51は、該解析用データの中からMeSHIDを取得する。一方、解析用データにMeSHIDが含まれていない場合は、解析対象物の名称、解析対象物のID(代謝物ID、遺伝子ID等)をMeSHIDに変換するためのID変換ツール(図示せず)を解析装置50に予めインストールしておく。そして、制御部51は、このID変換ツールを利用して、解析用データから取得した解析対象物の名称、またはIDをMeSHIDに変換する。あるいは、制御部51の制御のもと、問合せ部55がPubMedに問い合わせて、解析用データから取得した解析対象物の名称、またはIDに対応するMeSHIDを取得するようにしても良い。
【0037】
試料に含まれるすべての解析対象物について、識別情報(MeSHID)が取得されると、続いて問合せ部55はPubMed(データベース)に問合わせて、解析対象物のMeSHIDに関連する情報である共起データを取得する(ステップ102)。具体的には、すべての解析対象物のMeSHIDの集合(以下、MeSHID群という。図6参照)が通信部54を介して解析装置50から出力され、インターネット経由でPubMed側に送信される。PubMedは、MeSHID群を受信すると、PubMedを介して利用可能なサービスの1つである、MEDLINE Co-Occurrence(MRCOC)(https://ii.nlm.nih.gov/MRCOC.shtml、[平成31年4月25日検索])から、MeSHID群に含まれるすべてのMeSHIDの、MEDLINEに蓄積されている文献における共起データを入手して、解析装置50に送信する。共起データは、MEDLINEに蓄積されている文献において、MeSHID群に含まれるすべてのMeSH用語と同時に出現するMeSH用語及びそのMeSHID、並びに共起頻度の値とが対応付けて記述されたテキストファイル(CoOccurs.txt)から成る。
【0038】
PuBMedから送られてきた共起データを解析装置50が取得すると(ステップ103)、解析部56は、共起データについてアソシエーション分析を行う(ステップ104)。アソシエーション分析では、信頼度(Confidence)、支持度(Support)、リフト値(Lift)の少なくとも1つを採用したルールに従って、解析対象物の関連用語を共起データの中から抽出する。したがって、この実施例では、PubMed及び解析部56が本発明の抽出手段に相当する。
ここで、関連用語とは、試料に含まれるすべての解析対象物に共通して関連する用語を意味し、具体例として、解析対象物に共通する属性(種類、帰属等)を表す用語、解析対象物が或る代謝経路の代謝物である場合には、その代謝経路の名称、代謝経路に関与する酵素、遺伝子等の名称、解析対象物がある特定の疾患に関係する原因物質である場合はその疾患、解析対象物以外の原因物質の名称等、が挙げられる。なお、以下の説明では、関連用語としてMeSHID又はMeSH用語が抽出されることとする。
【0039】
表示制御部57は、アソシエーション分析の結果を表示部59に表示する(ステップ105)。したがって、本実施例では、表示制御部57が提示手段に相当する。図7は表示部59に表示される内容の一例である。この例では、リフト値を採用したルールにしたがってアソシエーション分析を行った結果、抽出された関連用語が表示部59に表示されている。具体的には、リフト値が30(%)以上であるMeSHID、MeSH用語の組がリフト値とともに、リフト値の高い順に並べて表示されている。各組のリフト値は、MeSHID群に含まれる4個のMeSHID(図6参照)の各々と組み合わせて計算されたリフト値の平均値である。
アソシエーション分析では、リフト値だけでなく、信頼度、支持度を組み合わせたルール(レコメンドルール)を設定し、抽出するMeSHIDを絞り込むようにしてもよい。また、表示部59には、リフト値が表示されなくても良く(つまり、MeSHIDとMeSH用語の組を表示する)、MeSH用語のみ、またはMeSHIDのみを表示するようにしてもよい。
【0040】
ユーザは、表示部59に表示されたMeSH用語等のリストを参考に、MEDLINE等の文献データベースを検索して、分析データの解析に役立つ文献を絞り込むことができる。例えば、PubMedのキーワード検索で、図6に示すMeSHID群に含まれるMeSH用語のみを入力すると、検索条件に合致した文献が多量に抽出される場合は、表示部59に表示されたMeSH用語等のリストの中から適宜のMeSH用語をキーワードに加えることで、文献を絞り込むことができる。
【0041】
例えば出芽酵母の代謝物の分析データを解読する場合、代謝経路について記述されている文献が参考になるであろうことは容易に想像がつく。この場合、ユーザの関心が、ある特定の代謝物にあるのか、代謝反応に介在する酵素の機能にあるのか、代謝異常によって引き起こされる疾患にあるのか等のいずれかによって、絞り込み用のMeSH用語は違うものになる。これに対して本実施例では、文献データベースを検索して文献を抽出するためのキーワードとなるMeSH用語が、アソシエーション分析の手法を用いて解析対象物との関連性から複数抽出され、ユーザに提示される。
したがって、例えばユーザが、ピルビン酸代謝のメカニズムに強い関心を持っている場合には、図7に示されたMeSH用語のうち、ピルビン酸代謝に関係するMeSH用語「Pyruvate Metabolism, Inborn Errors」を選択し、このMeSH用語を、PubMedの絞り込み検索に加えることができる。これにより、先天性代謝異常におけるピルビン酸代謝に関する文献を効率的に抽出することが可能となる。
【0042】
(実施例2)
図8は、解析装置50の処理の他の一例を示すフローチャートである。
【0043】
解析装置50は、通信部54を介して解析用データを受信すると、制御部51は、その解析用データから解析対象物を特定する識別情報を取得する(ステップ111)。この実施例においても、実施例1と同様、制御部51が取得する識別情報はMeSHIDであるものとする。図9に、本実施例において取得されたMeSHIDの集合を示している。図9に示されたMeSHIDの集合を以下、「第1MeSHID群」と呼ぶ。
【0044】
次に、制御部51は、ユーザからの入力部58を介した第2識別情報の入力を受け付ける(ステップ112)。第2識別情報は、試料に含まれる解析対象物を測定する目的、試料の種類等に応じてユーザが適宜選択した用語であり、疾患、生物種、臓器、器官、人種等の用語が挙げられる。本実施例では、図9に示す「第2MeSHID群」が第2識別情報に相当する。ユーザが入力する文字列は、MeSHID、MeSH用語のどちらであってもよい。図9に示す例では、乳がんのMeSH用語である「Breast Neoplasms」が入力されたものとする。なお、「がん」を表す用語には、「Cancer」、「Tumor」、「Neoplasm」があるが、MeSHのシソーラスでは、MeSH用語「Neoplasms」を、がんを扱った論文に付与することで、表記を統一している。したがって、第2識別情報としてMeSH用語ではない用語がユーザより入力された場合は、例えば問合せ部55がPubMedに問い合わせて、対応するMeSH用語又はMeSHIDを取得するようにしても良い。また、次の工程で問合せ部55から問い合わせを受けたPubMedがMeDHIDに変換しても良い。
【0045】
制御部51が、第1識別情報及び第2識別情報を取得すると、続いて問合せ部55はPubMed(データベース)に問合わせて、第1及び第2識別情報に含まれるMeSHIDに関連する用語を取得する(ステップ113)。この実施例においても、実施例1と同様に、PubMedはMRCOCから入手した共起データを解析部56に送信する。
【0046】
データベース41から共起データを取得すると(ステップ114)、解析部56は共起データについてアソシエーション分析を行う(ステップ115)。アソシエーション分析の内容は実施例1と同じであるため、説明を省略する。この実施例では、実施例1と異なり、第1MeSHID群及び第2MeSHID群がPubMedに送信されていることから、PubMedから提供される共起データは、第1MeSHID群及び第2MeSHID群に共通する共起データとなる。具体的には、MEDLINEに収録されている文献のうち第2識別情報である乳がんに関連する文献において、第1MeSHID群に含まれるMeSH用語と同時に出現するMeSH用語が共起データに含まれる。
【0047】
表示制御部57はアソシエーション分析の結果を表示部59に表示する(ステップ116)。図10は表示部59に表示される内容の一例である。この例では、リフト値15(%)以上のMeSHID、MeSH用語の組がリフト値とともに、リフト値の高い順に並べて表示される。
【0048】
この実施例では、乳がん関連の情報を得たいというユーザ側の要求が共起データに反映されているので、図10に示すように、アソシエーション分析の結果、表示部59に表示される情報には乳がんとの関連性の高いものが含まれる。例えば、図10に示されたリストの上から2番目のMeSH用語「Tartronates」は、ピルビン酸代謝の阻害剤として、ヒト乳がん由来細胞株を使った研究成果が報告されている文献に含まれる。このため、薬物に詳しくないユーザでも、阻害剤の名前を知ることができる。
このように、本実施例では、ユーザが第2識別情報を入力可能としたことで、解析対象物の関連用語を抽出するために不要な情報を予め排除することができる。
【0049】
[変形例]
上記実施形態では、解析装置50を1台のパーソナルコンピュータから構成したが、解析装置50の機能ブロックの一部は、通信回線を介して解析装置50に接続された、別のパーソナルコンピュータ、タブレット端末等の端末装置に搭載されたものであってもよい。また、解析装置50の各機能ブロックの実体であるソフトウェアは、解析装置50と通信回線を介して接続されたアプリケーションサーバに記憶されていて、必要に応じて、アプリケーションサーバからソフトウェアを解析装置50にダウンロードするようにしてもよい。
【0050】
入力手段は、解析装置50の入力部58だけでなく、インターネット20を介して接続された端末装置の入力デバイスを使用してもよい。上記の実施形態で説明した解析方法を実行するコンピュータは、ユーザの想定範囲を超えた用語を、分析データを解釈するための情報収集を行うにあたって推奨されるキーワードもしくはIDを表示して提案する。このことから、前記コンピュータは、別の視点から見れば情報収集支援装置でもある。
【0051】
この実施形態では、共起データの取得にPubMed上で提供されるMRCOCを利用したが、解析装置50に共起データの生成機能を持たせるようにしてもよい。文書情報のデータベースのそれぞれに合った共起性の指標(例えば、Dice係数、Jaccard係数、Simpson係数、Confidence等)を採用して共起データを生成することで、検索の絞り込み候補となる関連用語の有用性を向上させることができる。
【0052】
上記の実施形態では、解析部56でアソシエーション分析を行っているが、分析手法はこれに限定されない。アソシエーション分析は、膨大なデータの中から、データ間の相関関係やパターンを発掘するデータマイニングの手法の中で、関連発見に適した分析手法である。この実施形態では、データベースに問い合わせた用語に対して、文献に使われている用語から相関関係の高い用語を見つけたいことから、アソシエーション分析を採用している。
【0053】
上記の実施形態では、文書情報のデータベースとしてPubMedを利用しているが、例えば出版社等が運営する文献情報提供サービス等の他のデータベースを利用してもよい。この場合には、前処理において、そのデータベースで文献類を分類するのに使用されるシソーラスに従って、キーワードおよびIDにより分析データ中の生体試料の含有物を特定しておく。また、データベースは、インターネット経由で利用できる既存のものだけでなく、独自に構築したものを任意の通信回線を介して利用するようにしてもよい。
【0054】
上記の実施形態では、アソシエーション分析の結果が表示部59に表示される構成としたが、用紙に印刷されるようにしても良く、音声で出力されるようにしても良い。
【0055】
[態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0056】
(第1項)この発明の第1の態様に係る解析装置は、分析装置を用いて、試料に含まれる解析対象物を測定した結果から、該解析対象物を特定する情報である第1識別情報を取得する情報取得手段と、前記情報取得手段が取得した前記第1識別情報に基づいて、文書情報を蓄積したデータベースの中から、前記解析対象物に関連する用語である関連用語を抽出する抽出手段と、前記抽出手段が取得した、前記関連用語をユーザに提示する提示手段と、を備える。
【0057】
(第8項)この発明の第2の態様に係る解析方法は、分析装置を用いて、試料に含まれる解析対象物を測定した結果を取得するステップと、前記解析対象物を測定した結果から、該解析対象物を特定する第1識別情報を取得するステップと、前記第1識別情報に基づいて、文書情報を蓄積したデータベースの中から、前記解析対象物に関連する用語である関連用語を抽出するステップと、前記関連用語をユーザに提示する提示ステップと、を含む。
【0058】
第1項の解析装置及び第8項の解析方法によれば、試料に含まれる解析対象物の測定結果から取得された、該解析対象物を特定する第1識別情報を使って、文書情報を蓄積したデータベースの中から、前記解析対象物の関連用語が抽出され、その用語がユーザに提示される。ユーザに提示される関連用語は一つでもよく、複数でも良い。ユーザは、第1識別情報と関連用語を用いて、解析対象物の測定結果を理解するために有用な文書情情報をデータベースの中から容易に探し出すことができる。
【0059】
(第2項)第1項に記載の解析装置において、前記情報取得手段が、複数の解析対象物について、それぞれに対応する第1識別情報を取得するものであり、前記抽出手段が、前記複数の解析対象物に共通して関連する関連用語を抽出するものである。
【0060】
(第9項)第8項に記載の解析方法において、前記情報を取得するステップが、複数の解析対象物について、それぞれに対応する第1識別情報を取得するステップであり、
前記抽出するステップが、前記複数の第1識別情報に共通して関連する関連用語を抽出するステップである。
【0061】
第2項の解析装置及び第9項の解析方法によれば、ユーザは、データベースの中から複数の解析対象物に共通して関連する文書情報を容易に探し出すことができる。例えば質量分析装置は、試料に含まれる複数の解析対象物を一度にまとめて測定することができる。第2項の解析装置及び第9項の解析方法では、質量分析装置のように、複数の解析対象物を同時に測定可能な分析装置の測定結果を理解するために有用な文書情情報をユーザに提示することができる。
【0062】
(第3項)第1項に記載の解析装置において、ユーザからの入力を受け付ける受付手段をさらに備え、前記情報取得手段は、前記受付手段が受け付けた第2識別情報を取得し、前記抽出手段は、前記第1識別情報と前記第2識別情報の両方に基づいて、前記関連用語を抽出するものである。
【0063】
(第10項)第8項に記載の解析方法において、ユーザからの第2識別情報の入力を受け付ける受付ステップと、前記受付ステップで受け付けた第2識別情報を取得するステップとをさらに備え、前記抽出するステップは、前記第1識別情報と前記第2識別情報の両方に基づいて、前記関連用語を抽出する。
【0064】
第3項の解析装置及び第10項の解析方法において、第2識別情報とは、解析対象物の測定結果の理解に有用な文書情報をデータベースの中から探し出すために必要な情報を意味し、解析対象物を測定する目的、研究分野等、ユーザの意思を反映したものとなる。したがって、第3項の解析装置では、ユーザが関心を持つ範囲に絞って、解析対象物の関連用語を抽出することができる。
【0065】
(第5項)第1項に記載の解析装置において、前記抽出手段は、データマイニングの分析手法を用いて、前記関連用語を抽出する。
【0066】
(第12項)第8項に記載の解析方法において、前記抽出するステップは、データマイニングの分析手法を用いて、前記関連用語を抽出するステップである。
【0067】
第5項の解析装置及び第12項の解析方法によれば、データマイニングの分析手法を用いることにより、ユーザの想定する範囲を超えた、有用な文書情報を取得するための関連用語を、ユーザに提示することが可能となる。
【0068】
(第6項)第5項に記載の解析装置において、前記抽出手段は、アソシエーション分析を用いて、前記関連用語を抽出するものである。
【0069】
(第13項)第12項に記載の解析方法において、前記抽出するステップは、アソシエーション分析を用いて、前記関連用語を抽出するステップである。
【0070】
(第7項)第6項に記載の解析装置において、前記抽出手段は、アソシエーション分析における信頼度、支持度、リフト値の少なくとも1つを採用したルールにより、前記関連用語を抽出する。
【0071】
(第14項)第13項に記載の解析方法において、前記抽出するステップは、アソシエーション分析における信頼度、支持度、リフト値の少なくとも1つを採用したルールにより、前記関連用語を抽出するステップである。
【0072】
(第15項)分析装置を用いて、試料に含まれる解析対象物を測定した結果を取得する処理と、前記解析対象物の測定結果から、前記解析対象物を特定する情報である第1識別情報を取得する処理と、前記第1識別情報に基づいて、文書情報を蓄積したデータベースの中から、前記解析対象物に関連する用語である関連用語を抽出する処理と、前記関連用語をユーザに提示する処理と、をコンピュータに実行させるプログラム。
【0073】
(第16項)分析装置を用いて、試料に含まれる解析対象物を測定した結果を取得する処理と、前記解析対象物の測定結果から、前記解析対象物を特定する情報である第1識別情報を取得する処理と、前記第1識別情報に基づいて、文書情報を蓄積したデータベースの中から、前記解析対象物に関連する用語である関連用語を抽出する処理と、前記関連用語をユーザに提示する処理と、をコンピュータに実行させるプログラムを記録した、コンピュータ読み取り可能な(非一時的)記憶媒体。
【0074】
なお、上述した記載はこの発明の実施形態の説明のためのものであり、この発明を限定するものではない。
【符号の説明】
【0075】
10 分析装置
11 装置本体
12 パーソナルコンピュータ
20 インターネット
21 タブレット端末
22 パーソナルコンピュータ
31 統計ツール
32 マッピングツール
33 ノード抽出ツール
41 データベース
42 データベース
43 データベース
44 データベース
50 解析装置
51 制御部
52 演算装置
53 補助記憶装置
54 通信部
55 問合せ部
56 解析部
57 表示制御部
58 入力部
59 表示部
60 装置本体
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10