(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-19
(45)【発行日】2022-12-27
(54)【発明の名称】データ処理装置、分析装置、データ処理方法およびプログラム
(51)【国際特許分類】
G06F 16/903 20190101AFI20221220BHJP
G06F 16/9038 20190101ALI20221220BHJP
G06F 16/907 20190101ALI20221220BHJP
【FI】
G06F16/903
G06F16/9038
G06F16/907
(21)【出願番号】P 2018229870
(22)【出願日】2018-12-07
【審査請求日】2021-03-19
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001069
【氏名又は名称】弁理士法人京都国際特許事務所
(72)【発明者】
【氏名】寺本 華奈江
【審査官】松尾 真人
(56)【参考文献】
【文献】特表2016-532443(JP,A)
【文献】特開2007-316063(JP,A)
【文献】特開2007-207113(JP,A)
【文献】米国特許出願公開第2004/0018135(US,A1)
【文献】特表2017-532563(JP,A)
【文献】特開2013-064730(JP,A)
【文献】特開2013-085517(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
C12Q 1/00-3/00
G16B 45/00
G06Q 10/00-99/00
G16Z 99/00
(57)【特許請求の範囲】
【請求項1】
分子の構造から算出されたまたは過去の質量分析測定により得られた、複数の分子にそれぞれ対応するm/zの値を記憶する記憶部と、
前記記憶部を参照することにより、第1生物に由来する第1試料
と第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、前記第1試料および前記第2試料のそれぞれの質量分析におい
て同一のm/z
の値に対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出
する操作を、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ
実行する類似度算出部と、
前記3以上の種類の生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成する出力画像生成部と、
前記出力画像を出力する出力部と
を備えるデータ処理装置。
【請求項2】
請求項1に記載のデータ処理装置において、
前記記憶部は、前記分子の少なくとも一つにつき、異なる複数の変異体にそれぞれ対応するm/zの値を記憶しており、
前記類似度算出部は、
前記記憶部を参照することにより、前記対象分子の少なくとも一つが、
異なる複数の変異体にそれぞれ対応する複数のm/zのいずれに対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出するデータ処理装置。
【請求項3】
請求項1または2に記載のデータ処理装置において、
前記出力画像生成部は、前記類似度の値に応じて前記類似度に対応する部分の色相、明度および彩度の少なくとも一つが異なる前記類似度画像を生成するデータ処理装置。
【請求項4】
請求項1から3までのいずれか一項に記載のデータ処理装置において、
前記出力画像生成部は、前記類似度画像と、前記類似度算出部による前記類似度の算出とは異なる方法で算出された前記3以上の種類の生物の間の類似度についての情報とを含む前記出力画像を生成するデータ処理装置。
【請求項5】
請求項4に記載のデータ処理装置において、
前記情報は、前記3以上の種類の生物の系統樹であるデータ処理装置。
【請求項6】
請求項4または5に記載のデータ処理装置において、
前記対象分子はタンパク質であり、
前記異なる方法で算出された類似度は、前記タンパク質に対応する核酸の塩基配列の相同性に基づいて算出された類似度であるデータ処理装置。
【請求項7】
請求項1から5までのいずれか一項に記載のデータ処理装置において、
前記対象分子は、糖鎖、脂質、タンパク質または核酸であるデータ処理装置。
【請求項8】
請求項7に記載のデータ処理装置において、
前記対象分子はタンパク質または核酸であり、
前記類似度算出部は、前記質量分析において、前記対象分子のアミノ酸配列または塩基配列に基づいて導出された同一のm/zに対応して前記対象分子が検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出するデータ処理装置。
【請求項9】
請求項1から8までのいずれか一項に記載のデータ処理装置において、
前記類似度は、前記対象分子のうち前記第1試料と前記第2試料の間で同一のm/zで検出された対象分子の数を全ての前記対象分子の数で除した値であるデータ処理装置。
【請求項10】
請求項1から
9までのいずれか一項に記載のデータ処理装置と、
質量分析計とを備える分析装置。
【請求項11】
分子の構造から算出されたまたは過去の質量分析測定により得られた、複数の分子にそれぞれ対応するm/zの値を記憶している記憶部と、類似度算出部と、出力画像生成部と、出力部とを有するデータ処理装置がデータ処理を実行する方法であって、
前記類似度算出部が、前記記憶部を参照することにより、第1生物に由来する第1試料
と第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、前記第1試料および前記第2試料のそれぞれの質量分析におい
て同一のm/z
の値に対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出
する操作を、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ
実行する類似度算出ステップと、
前記出力画像生成部が、前記3以上の種類の生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成する
出力画像生成ステップと、
前記出力部が前記出力画像を出力する
出力ステップと
を
有するデータ処理方法。
【請求項12】
分子の構造から算出されたまたは過去の質量分析測定により得られた、複数の分子にそれぞれ対応する複数のm/zの値を記憶している記憶部を参照することにより、第1生物に由来する第1試料
と第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、前記第1試料および前記第2試料のそれぞれの質量分析におい
て同一のm/z
の値に対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出
する操作を、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ
実行する類似度算出処理と、
前記3以上の種類の生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成する出力画像生成処理と
を
データ処理装置に行わせるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、分析装置、データ処理方法およびプログラムに関する。
【背景技術】
【0002】
複数の種類の菌の間の類似の度合を様々な方法で算出し、わかりやすく表示するための提案がされている。非特許文献1には、複数の生物種について遺伝子の塩基配列または当該遺伝子がコードするアミノ酸配列の生物種間の相同性を示す指数を示したヒートマップが記載されている。非特許文献2には、基準株と他の生物との間の特定の遺伝子の配列相同性と、基準株と他の生物とで共通して観察されたリボソームタンパク質の割合との関係を示すグラフが記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Contreras-Moreira B and Vinuesa P, "get_homologues-est manual" [online], 2018年5月16日, University of Leeds and Macquarie University, [2018年9月27日検索], インターネット(URL:http://eead-csic-compbio.github.io/get_homologues/manual-est/)
【文献】Teramoto K, Sato H, Sun L, Torimura M, Tao H, Yoshikawa H, Hotta Y, Hosoda A, Tamura H. "Phylogenetic classification of Pseudomonas putida strains by MALDI-MS using ribosomal subunit proteins as biomarkers" Anal Chem,(米国), American Chemical Society, 2007年10月16日、Volume 79, Issue 22, pp.8712-8719
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1のように遺伝子の塩基配列または当該遺伝子がコードするタンパク質のアミノ酸配列の比較を行う場合は、各生物における遺伝子の塩基配列の情報が原則的に必要である。ここで、遺伝子のシークエンシングは、依然として手間、時間およびコストが相当程度発生する。また、塩基配列の解読ミスやアノテーションのミスの可能性を原理的に排除できない。非特許文献2の方法では、各生物と基準株との間の相同性しか分からず、各生物の間の相同性が分からないという問題があった。
【課題を解決するための手段】
【0005】
本発明の好ましい実施形態によるデータ処理装置は、第1生物に由来する第1試料と、第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、前記第1試料および前記第2試料のそれぞれの質量分析において、前記対象分子の構造から算出されたまたは過去の測定により得られた同一のm/zに対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出し、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ前記類似度を算出する類似度算出部と、前記3以上の種類の生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成する出力画像生成部と、前記出力画像を出力する出力部とを備える。
さらに好ましい実施形態では、前記類似度算出部は、前記対象分子の少なくとも一つが、一種類の前記対象分子に対応する複数のm/zのいずれに対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出する。
さらに好ましい実施形態では、前記出力画像生成部は、前記類似度の値に応じて前記類似度に対応する部分の色相、明度および彩度の少なくとも一つが異なる前記類似度画像を生成する。
さらに好ましい実施形態では、前記出力画像生成部は、前記類似度画像と、前記類似度算出部による前記類似度の算出とは異なる方法で算出された前記3以上の種類の生物の間の類似度についての情報とを含む前記出力画像を生成する。
さらに好ましい実施形態では、前記情報は、前記3以上の種類の生物の系統樹である。
さらに好ましい実施形態では、前記対象分子はタンパク質であり、前記異なる方法で算出された類似度は、前記タンパク質に対応する核酸の塩基配列の相同性に基づいて算出された類似度である。
さらに好ましい実施形態では、前記対象分子は、糖鎖、脂質、タンパク質または核酸である。
さらに好ましい実施形態では、前記対象分子はタンパク質または核酸であり、前記類似度算出部は、前記質量分析において、前記対象分子のアミノ酸配列または塩基配列に基づいて導出された同一のm/zに対応して前記対象分子が検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出する。
本発明の好ましい実施形態による分析装置は、上述のデータ処理装置と、質量分析計とを備える。
本発明の好ましい実施形態によるデータ処理方法は、第1生物に由来する第1試料と、第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、前記第1試料および前記第2試料のそれぞれの質量分析において、前記対象分子の構造から算出されたまたは過去の測定により得られた同一のm/zに対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出し、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ前記類似度を算出することと、前記3以上の種類の生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成することと、前記出力画像を出力することとを備える。
本発明の好ましい実施形態によるプログラムは、第1生物に由来する第1試料と、第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、前記第1試料および前記第2試料のそれぞれの質量分析において、前記対象分子の構造から算出されたまたは過去の測定により得られた同一のm/zに対応して検出されているかに基づいて、前記第1生物と前記第2生物との間の類似度を算出し、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ前記類似度を算出する類似度算出処理と、前記3以上の種類の生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成する出力画像生成処理とを処理装置に行わせるためのものである。
【発明の効果】
【0006】
本発明によれば、迅速に、複数の生物の間の類似度を算出し、分かりやすく表示することができる。
【図面の簡単な説明】
【0007】
【
図1】
図1は、一実施形態に係る分析装置の構成を示す概念図である。
【
図2】
図2は、3種類のアクネ菌について、各リボソームタンパク質に対応するピークが検出されたか否かを示す表(表A、表Bおよび表C)である。
【
図3】
図3は、3種類のアクネ菌の間の類似度を示す画像を示す図である。
【
図4】
図4は、一実施形態に係る分析方法の流れを示すフローチャートである。
【
図5】
図5は、23種類のアクネ菌の間の類似度を示す表と、当該アクネ菌の系統樹とを示す図である。
【
図6】
図6は、プログラムの提供について説明するための概念図である。
【
図7】
図7は、実施例で得られたアクネ菌のマススペクトルである。
【発明を実施するための形態】
【0008】
以下、図を参照して本発明を実施するための形態について説明する。
【0009】
-第1実施形態-
第1実施形態では、複数の試料のそれぞれを異なる複数の生物に由来する試料とし、これらの生物の間の類似度を算出し、当該類似度をマッピングして示す画像を作成するデータ処理装置を含む分析装置が説明される。
【0010】
図1は、分析装置1の構成を示す概念図である。分析装置1は、測定部100と、情報処理部40とを備える。情報処理部40は、データ処理装置を構成する。
なお、情報処理部40の機能の一部または全部は、測定部100とは物理的に離れた電子計算機、サーバ等に配置してもよい。
【0011】
測定部100は、イオン化された試料(以下、試料イオンSと呼ぶ)をマトリックス支援レーザー脱離イオン化(以下、MALDIと呼ぶ)により生成するイオン化部10と、イオン加速部21と、質量分離部22と、検出部30とを備える。イオン加速部21は、加速電極210を備える。質量分離部220は、飛行時間型質量分析器220を備える。
図1では、試料イオンSの移動を矢印A1で模式的に示した。
【0012】
情報処理部40は、入力部41と、通信部42と、記憶部43と、出力部44と、制御部50とを備える。制御部50は、装置制御部51と、データ処理部52と、出力画像生成部53と、出力制御部54とを備える。データ処理部52は、マススペクトル生成部521と、類似度算出部522とを備える。測定部100の検出部30から出力される試料イオンSの検出信号の流れを矢印A2で模式的に示した。装置制御部51による測定部100の制御を矢印A3で模式的に示した。
【0013】
(試料について)
試料は、生物に由来する対象分子を含むものであれば特に限定されない。類似度をマッピングして示すため(
図3参照)、3以上の生物にそれぞれ由来する3以上の試料が用意される。対象分子は、これら3以上の試料が由来する3以上の種類の生物において共通に含まれる分子から複数選択され、糖鎖、脂質、タンパク質または核酸であることが好ましい。生物は、微生物が好ましく、真正細菌がより好ましいが、対象分子を生成する生物であれば特に限定されない。
【0014】
生物が微生物の場合、培養により得られたコロニーを回収し、コロニーを構成する菌体にマトリックスを含む溶液(以下、マトリックス溶液と呼ぶ)を加えてMALDI用試料プレートに滴下して乾燥させることで試料が調製される。菌体をMALDI用試料プレートに配置した後、マトリックス溶液を加えてもよい。マトリックスの種類は特に限定されないが、CHCA(α-cyano-4-hydroxycinnamic acid)、シナピン酸、DHB(2,5-dihydroxybenzoic acid)、THAP(2,4,6-trihydroxyacetophenone)またはDAN(1,5-diaminonaphtalene)が精度よく質量分析を行う上で好ましい。マトリックス溶液の溶媒は、アセトニトリル等の有機溶媒を数十体積%含む水溶液にトリフルオロ酢酸(TFA)が0~3体積%添加されたもの等を用いることができる。
なお、得られたコロニーに含まれる菌体から対象分子を抽出した後、抽出物にマトリックス溶液を加えて試料を調製してもよい。微生物以外の生物から試料を調製する場合も、適宜公知の前処理法等を用いることができる。
【0015】
測定部100は、質量分析計を備え、試料をイオン化し、質量分離して検出する。
【0016】
測定部100のイオン化部10は、MALDI用試料プレートを支持する不図示の試料プレートホルダと、MALDI用試料プレート上にレーザーを照射する不図示のレーザー装置を備えるイオン源を備え、試料にレーザーを照射してイオン化する。
なお、試料のイオン化の方法は、対象分子をイオン化することができれば特に限定されず、MALDI法以外にもエレクトロスプレー(ESI)法等の任意のイオン化の方法を用いることができる。
【0017】
イオン加速部21は、加速電極210を備え、導入された試料イオンSを加速させる。加速された試料イオンSの流れは、不図示のイオンレンズ等により適宜収束されて質量分離部22に導入される。
【0018】
質量分離部22は、飛行時間型質量分析器220を備え、それぞれの試料イオンSが飛行時間型質量分析器220のフライトチューブの内部を飛行する際の飛行時間の違いより試料イオンSを分離する。
なお、
図1ではリニア型の飛行時間型質量分析器が示されているが、リフレクトロン型やマルチターン型等でもよい。試料イオンSを分離して所望の精度で検出することができれば、質量分析の方法は特に限定されず、イオントラップや四重極マスフィルタ等の任意の質量分析器を用いることができる。
【0019】
検出部30は、マイクロチャンネルプレート等のイオン検出器を備え、質量分離部22で分離された試料イオンSを検出し、検出部30に入射した試料イオンSの量に応じた強度の検出信号を出力する。検出部30から出力された検出信号は、A/D変換されたのち、情報処理部40の記憶部43に測定データとして記憶される(矢印A2)。
【0020】
情報処理部40の入力部41は、マウス、キーボード、各種ボタンまたはタッチパネル等の入力装置を含んで構成される。入力部41は、測定部100の測定および制御部50の処理に必要な情報等を、分析装置のユーザー(以下、単に「ユーザー」と呼ぶ)から受け付ける。情報処理部40の通信部42は、インターネット等の無線や有線による接続により通信可能な通信装置を含んで構成される。通信部42は、測定部100の測定および制御部50の処理に必要な情報等、適宜データを送受信する。
【0021】
情報処理部40の記憶部43は、不揮発性の記憶媒体を備える。記憶部43は、測定データ、制御部50の処理に必要なデータおよび制御部50の処理により得られたデータ、ならびに制御部50が処理を実行するためのプログラム等を記憶する。情報処理部40の出力部44は、液晶モニタ等の表示装置やプリンター等を含んで構成され、データ処理部52で処理されたデータや出力画像生成部53で生成された出力画像等を、表示装置に表示したり、紙媒体に印刷して出力する。
【0022】
情報処理部40の制御部50は、CPU等のプロセッサを含んで構成され、分析装置1を制御する動作の主体として機能する。制御部50は、記憶部43等に記憶されたプログラムを実行することにより各種処理を行う。
【0023】
制御部50の装置制御部51は、入力部41からの入力等に応じて設定された分析条件に基づいて、測定部100の動作を制御する。
【0024】
制御部50のデータ処理部52は、測定データの処理を行う。
【0025】
データ処理部52のマススペクトル生成部521は、検出部30が検出したイオンの強度と、当該イオンの飛行時間とを含む測定データから、マススペクトルに対応するデータ(以下、マススペクトルデータと呼ぶ)を生成する。マススペクトル生成部521は、予め得られた較正データに基づいて飛行時間をm/z値に換算し、各m/z値に対応する強度を示すマススペクトルデータを生成する。
【0026】
データ処理部52の類似度算出部522は、3以上の試料のうち、2つの試料(以下、「第1試料」および「第2試料」と呼ぶ)を質量分析して得られた2つのマススペクトルデータに基づいて、第1試料および第2試料がそれぞれ由来する第1生物と第2生物との間の類似度を算出する。第1試料および第2試料を質量分析して得られたマススペクトルを、それぞれ第1マススペクトルおよび第2マススペクトルと呼ぶ。
【0027】
類似度算出部522は、記憶部43を参照し、複数の対象分子に対応する複数のm/zの値を取得する。複数の対象分子の少なくとも一部は、類似度を算出する対象となる3以上の生物(以下、対象生物と呼ぶ)において複数の変異体(Variant)が存在する。記憶部43には、対象分子およびその変異体を質量分析により検出する際のm/zの値が参照データとして記憶されている。これらのm/zの値は、タンパク質のアミノ酸配列等、対象分子の構造から予め算出されたものか、ユーザーや他者による過去の測定により得られたものである。
【0028】
以下では、対象分子をタンパク質(対象タンパク質)、対象生物を同属同種の微生物の異なる複数の株とし、対象タンパク質の一部は、対象生物、すなわち株によってアミノ酸配列が異なる複数の変異体(以下、対象変異体と呼ぶ)が存在するとする。
【0029】
記憶部43の参照データは、以下のように構成されている。対象タンパク質が対象生物において変異体を持たない場合、対象タンパク質と当該対象タンパク質に対応するm/zの値が対応付けられて記憶されている。対象生物について、対象タンパク質の複数の対象変異体が存在する場合、対象タンパク質と各対象変異体と、当該各対象変異体に対応するm/zの値が対応付けられて記憶されている。
【0030】
例えば、対象生物がアクネ菌A、BおよびC株であり、対象タンパク質がリボソームタンパク質S15、S19、S08、L09、S18、L27、S17およびL23とする。このうち、アクネ菌A、BおよびC株において、S17は3種類の異なる対象変異体(以下、S17(1)、S17(2)およびS17(3)と呼ぶ)が存在し、L23は2種類の異なる対象変異体(以下、L23(1)およびL23(2)と呼ぶ)が存在しているものとする。これらの対象変異体は互いに検出される際のm/zが異なる。このとき、参照データでは、対象変異体が存在しないS15、S19、S08、L09、S18およびL27のIDと、これらに対応するm/zの各値とが対応付けられている。そして、対象変異体が存在するS17のIDには、対象変異体S17(1)、S17(2)およびS17(3)のIDが対応付けられており、S17(1)、S17(2)およびS17(3)のIDには、これらに対応するm/zの各値が対応付けられている。L23についてもS17と同様である。
【0031】
類似度算出部522は、各対象生物に由来する試料を質量分析して得られたマススぺクトルにおいて、対象タンパク質および対象変異体のm/zに対応するピークを検出する。具体的には、参照データの上記各m/zに対し、質量分析の精度に基づいて定められるm/zのばらつきの許容範囲(許容誤差)内にピークが検出された場合、当該マススペクトルに対応する対象生物において当該m/zに対応する対象タンパク質または対象変異体が存在するものとする。対象生物においてこのようにそれぞれの対象タンパク質または対象変異体が検出されたこと、または検出されなかったことは、二値化された値(以下、検出確認値と呼ぶ)等により記憶部43に記憶される。
【0032】
類似度算出部522は、各対象タンパク質が第1マススペクトルおよび第2マススペクトルにおいて同一のm/zに基づく許容範囲に検出されたか否かに基づいて、第1生物と第2生物との間の類似度を算出する。
【0033】
図2は、アクネ菌A(P_acnes_A)、B(P_acnes_B)およびC(P_acnes_C)株のそれぞれを質量分析して得られたマススぺクトルにおいて、対象タンパク質または対象変異体を検出した場合に検出確認値を1、検出しなかった場合に検出確認値を0として、各株ごとに検出確認値を表にして示した図である。
図2では、2試料間の比較のため、アクネ菌A株とB株についての検出確認値を表Aに、A株とC株についての検出確認値を表Bに、B株とC株についての検出確認値を表Cに示した。
【0034】
表Aに示されたように、アクネ菌A株では、質量分析によりS15、S19、S08、L09、S18、L27、S17(2)およびL23(1)が検出された。アクネ菌B株では、質量分析によりS15、S19、S08、L09、S18、L27、S17(3)およびL23(2)が検出された。表Bに示されたように、アクネ菌C株では、質量分析によりS15、S19、S08、L09、S18、L27、S17(1)およびL23(2)が検出された。
【0035】
類似度算出部522は、アクネ菌A株とB株の類似度を、各対象タンパク質ごとに同一のm/zにより検出されるか否かに基づいて算出する。すなわち対象タンパク質に変異体がある場合は同一の変異体により検出されるか否かに基づいて当該類似度を算出する。
【0036】
表Aのアクネ菌A株とB株について、S15、S19、S08、L09、S18およびL27の6つの対象タンパク質は共に検出されているが、S17とL23の2つの対象タンパク質はA株とB株で異なる変異体が検出されている。従って、類似度算出部522は、アクネ菌A株とB株の間の類似度を、同一のm/zにより検出された対象タンパク質数を全対象タンパク質数で割った値、すなわち6/8=0.75(または75%)と算出する。
【0037】
同様に、表Bのアクネ菌A株とC株について、S15、S19、S08、L09、S18およびL27の6つの対象タンパク質は共に検出されているが、S17とL23の2つの対象タンパク質はA株とC株で異なる変異体が検出されている。従って、類似度算出部522は、アクネ菌A株とC株の間の類似度を、6/8=0.75(または75%)と算出する。
【0038】
さらに、表Cのアクネ菌B株とC株について、S15、S19、S08、L09、S18、L27およびL23(L23(2)が共に検出されている)の7つの対象タンパク質は共に同一のm/zに対応する分子が検出されているが、S17の対象タンパク質はB株とC株で異なる変異体が検出されている。従って、類似度算出部522は、アクネ菌B株とC株の間の類似度を、7/8=0.875(または87.5%)と算出する。
【0039】
類似度算出部522は、3以上の種類の対象生物から2つの対象生物を選択して得られた複数の組合せ(ペア)について、それぞれ上記のように類似度を算出する。全ての対象生物の組合せについて類似度を算出したら、類似度算出部522は、2つの対象生物と当該対象生物間の類似度とが対応付けられた類似度データを記憶部43に記憶させる。
【0040】
出力画像生成部53は、類似度データに基づいて、対象生物の間の類似度をマッピングして表示する類似度画像を生成する。出力画像生成部53は、類似度画像と、適宜分析条件等の他の情報とを含み、出力部44から出力される出力画像を生成する。
【0041】
図3は、類似度画像の例を示す図である。類似度画像60は、表(以下、類似度表と呼ぶ)が示されており、類似度表では、各行および各列のそれぞれが一つの種類の対象生物に対応している。類似度表では、一つの対象生物(対象生物Xとする)に対応する行と、他の対象生物(対象生物Y)に対応する列とに対応する要素Eに、対象生物XとYとの間の類似度(%表示)が示されている。
図3の類似度表では、アクネ菌のA、BおよびC株の間の類似度が示されている。例えば、アクネ菌A株とB株との間の類似度は、アクネ菌A株に対応する行(または列)における、アクネ菌B株に対応する列(または行)に対応する要素Eab(またはEba)を参照することで得られる。類似度画像60では、同一の生物間の類似度は、100%として表示されている。
【0042】
出力画像生成部53は、類似度に応じて、類似度表における各類似度に対応する要素Eの色相、明度および彩度の少なくとも一つが異なるように類似度画像を生成する。
図3の例では、各要素Eに対応する類似度の値に応じて、色相が異なる点を、各要素Eにおけるハッチングが異なることで模式的に示した。
【0043】
出力制御部54は、出力画像生成部53が生成した出力画像を出力部44から出力させる。分析者等は、出力部44から出力された類似度画像等を見て、対象生物同士がどの程度類似しているかを視覚的にわかりやすく捉えることができる。
【0044】
図4は、本実施形態に係るデータ処理方法の流れを示すフローチャートである。
図2の例でも、対象生物を同属同種の微生物の異なる株(以下、対象微生物と呼ぶ)とし、対象分子をタンパク質とするが、本発明はこれらの条件に限定されない。ステップS1001において、制御部50は、対象微生物において、複数の株に同一分子または変異体として共通して発現するタンパク質を対象タンパク質、当該変異体を対象変異体として設定する。ステップS1001が終了したら、ステップS1003が開始される。
【0045】
ステップS1003において、記憶部43は、対象タンパク質および変異体のm/zを取得する。ステップS1003が終了したら、ステップS1005が開始される。ステップS1005において、対象微生物を含むn個(nは3以上)の試料が用意される。ステップS1005が終了したら、ステップS1007が開始される。
【0046】
ステップS1007において、測定部100は複数の試料を質量分析し、マススペクトル生成部521は各試料のマススペクトルに対応するデータを生成する。ステップS1007が終了したら、ステップS1009が開始される。ステップS1009において、類似度算出部522は、マススペクトルにおいてステップS1003で取得したm/zに基づく範囲にピークが存在するか否かに基づいて、n個の試料のうちの各ペアについて類似度を算出する。ステップS1009が終了したら、ステップS1011が開始される。
【0047】
ステップS1011において、類似度算出部522は、各ペアの類似度を示す、n×nの類似度表に対応するデータを生成する。ステップS1011が終了したら、ステップS1013が開始される。ステップS1013において、出力画像生成部53は、類似度と、当該類似度の値に応じた色とを対応付けて示す類似度画像に対応する画像データを生成する。ステップS1013が終了したら、ステップS1015が開始される。
【0048】
ステップS1015において、出力部44は、類似度表示画像を出力する。ステップS1015が終了したら、処理が終了される。
【0049】
上述の実施形態によれば、次の作用効果が得られる。
(1)本実施形態に係るデータ処理装置(情報処理部40)およびデータ処理方法では、類似度算出部522が、第1生物に由来する第1試料と第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、第1試料および第2試料のそれぞれの質量分析において、対象分子の構造から算出されたまたは過去の測定により得られた同一のm/zに対応して検出されているかに基づいて、第1生物と第2生物との間の類似度を算出し、3以上の種類の対象生物から2種類の対象生物を選択して得られた、複数の組合せについて、それぞれ類似度を算出し、出力画像生成部53が、3以上の種類の対象生物の間の類似度をマッピングして表示する類似度画像を含む出力画像を生成し、出力部44が出力画像を出力する。これにより、質量分析を用いて迅速に、複数の生物の間の類似度を算出し、分かりやすく表示することができる。また、対象生物の遺伝子の塩基配列が分からなくても、過去の質量分析によりピークのm/zが得られているリボソームタンパク質等を対象分子とすることで、遺伝子のシークエンシング等を行わなくても類似度を算出することができる。さらに、マススペクトルのパターンではなく対象分子に対応するm/z値を用いて解析を行うため、試料調製の条件や装置の機種等によるばらつきの影響を受けにくい。
【0050】
(2)本実施形態に係るデータ処理装置において、類似度算出部522は、対象分子の少なくとも一つが、一種類の対象分子に対応する複数のm/zのいずれに対応して検出されているかに基づいて、対象生物の間の類似度を算出する。これにより、対象分子の変異体についての情報を利用して、正確に類似度を算出することができる。
【0051】
(3)本実施形態に係るデータ処理装置において、出力画像生成部53は、類似度の値に応じて類似度に対応する部分(要素E等)の色相、明度および彩度の少なくとも一つが異なる類似度画像60を生成する。これにより、対象生物の間の類似度をさらに分かりやすく表示することができる。
【0052】
(4)本実施形態に係るデータ処理装置において、対象分子はタンパク質であり、類似度算出部522は、質量分析において、対象分子のアミノ酸配列または塩基配列に基づいて導出された同一のm/zに対応して対象分子が検出されているかに基づいて、対象生物間の類似度を算出することができる。これにより、過去に得られた遺伝情報に基づいて、より正確に類似度を算出することができる。対象分子が核酸の場合でも、このような遺伝情報を用いた類似度の算出を行うことができる。
【0053】
(5)本実施形態に係る分析装置は、本実施形態に係るデータ処理装置(情報処理部40)と、質量分析計とを備える。これにより、質量分析を用いて迅速に、複数の生物の間の類似度を算出し、分かりやすく表示することができる。
【0054】
次のような変形も本発明の範囲内であり、上述の実施形態と組み合わせることが可能である。以下の変形例において、上述の実施形態と同様の構造、機能を示す部位等に関しては、同一の符号で参照し、適宜説明を省略する。
(変形例1)
上述の実施形態において、出力画像生成部53が類似度画像60を含む出力画像を生成する際に、出力画像には、類似度画像60に加え、対象生物の系統樹等の、類似度算出部522による類似度の算出とは異なる方法で算出された対象生物の間の類似度についての情報を示してもよい。
【0055】
図5は、本変形例の出力画像80の一例を示す図である。出力画像80では、類似度画像60と、系統樹画像70とが示されている。
図5の類似度画像60には、23種類のアクネ菌の異なる株を対象生物とした類似度が表示されている。系統樹画像70には、当該対象生物の遺伝子の塩基配列または当該遺伝子がコードするタンパク質のアミノ酸配列に基づいた系統樹が示されている。類似度画像60の画像部分61には、アクネ菌の各株に対応する番号が示されている。系統樹画像70の画像部分71には、遺伝子座位における置換数を示すスケールバーが示されている。
図5の類似度画像60では、ハッチングを省略した。
なお、出力画像80は、類似度画像60と、対象生物の細胞構成成分の類似度に基づくクラスター解析結果を含む情報とを示す画像でもよい。出力画像80は、当該画像にさらに系統樹画像70を含んでもよい。
【0056】
本変形例では、上述の実施形態の作用効果の他、以下の作用効果が得られる。
(1)本変形例に係るデータ処理装置において、出力画像生成部53は、類似度画像60と、類似度算出部522による類似度の算出とは異なる方法で算出された対象生物の間の類似度についての情報とを含む出力画像を生成する。これにより、複数の方法で算出された対象生物間の類似度を表示するため、対象生物間の関係についてより詳細な情報を提供することができる。
【0057】
(2)本変形例に係るデータ処理装置において、上記異なる方法で算出された対象生物の間の類似度についての情報は、前記対象生物の系統樹である。これにより、系統樹と上述の実施形態で算出された類似度とを比較等することにより、対象生物間の関係についてさらに詳細な情報を提供することができる。
【0058】
(3)本変形例に係るデータ処理装置において、対象分子はタンパク質であり、上記異なる方法で算出された類似度は、当該タンパク質に対応する核酸の塩基配列の相同性に基づいて算出された類似度であるとすることができる。これにより、対象タンパク質の質量分析と、遺伝子の塩基配列との異なる側面から類似度を算出することができ、対象生物間の関係についてより詳細な情報を提供することができる。
【0059】
(変形例2)
上述の実施形態では、対象分子をタンパク質とした例を用いて説明したが、対象分子を糖鎖、脂質、色素または核酸としてもよい。対象分子を脂質とする場合、極性基の分子構造や、炭素鎖長の違いに基づいて、各対象分子を設定することができる。この場合、対象変異体としては鎖式炭化水素の炭素数等が等しいが二重結合の数や位置が互いに異なる複数の分子等とすることができる。対象分子を糖鎖とする場合、糖鎖を構成する単糖の種類、組合せ若しくは数、糖鎖の鎖長、複合糖鎖の種類または結合様式等の違いを利用して、対象分子や対象異性体を設定することができる。対象分子および対象変異体の設定の方法は、対象分子が対象生物に共通して存在し、少なくとも一部の対象分子に関する複数の対象変異体が対象生物に存在するのであれば特に限定されない。また、タンパク質、脂質、色素、糖鎖、核酸などの各細胞構成成分の少なくとも2つの分析結果を組み合わせて類似度データを生成し、当該類似度データに基づく類似度画像を生成することもできる。
【0060】
(変形例3)
分析装置1の情報処理機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された、上述したデータ処理部52や出力画像生成部53による処理を含む測定、データ解析および表示の処理およびそれに関連する処理の制御に関するプログラムをコンピュータシステムに読み込ませ、実行させてもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
【0061】
また、パーソナルコンピュータ(以下、PCと記載)等に適用する場合、上述した制御に関するプログラムは、CD-ROM、DVD-ROM等の記録媒体やインターネット等のデータ信号を通じて提供することができる。
図6はその様子を示す図である。PC950は、CD-ROM953を介してプログラムの提供を受ける。また、PC950は通信回線951との接続機能を有する。コンピュータ952は上記プログラムを提供するサーバーコンピュータであり、ハードディスク等の記録媒体にプログラムを格納する。通信回線951は、インターネット、パソコン通信などの通信回線、あるいは専用通信回線などである。コンピュータ952はハードディスクを使用してプログラムを読み出し、通信回線951を介してプログラムをPC950に送信する。すなわち、プログラムをデータ信号として搬送波により搬送して、通信回線951を介して送信する。このように、プログラムは、記録媒体や搬送波などの種々の形態のコンピュータ読み込み可能なコンピュータプログラム製品として供給できる。
【0062】
上述した情報処理機能を実現するためのプログラムとして、第1生物に由来する第1試料と、第2生物に由来する第2試料とにおいて共通に含まれる対象分子が、第1試料および第2試料のそれぞれの質量分析において、対象分子の構造から算出されたまたは過去の測定により得られた同一のm/zに対応して検出されているかに基づいて、第1生物と第2生物との間の類似度を算出し、3以上の種類の生物から2種類の生物を選択して得られた、複数の組合せについて、それぞれ類似度を算出する類似度算出処理と、3以上の種類の生物の間の類似度をマッピングして表示する類似度画像60を含む出力画像80を生成する出力画像生成処理とを処理装置に行わせるためのプログラムが含まれる。これにより、質量分析を用いて迅速に、複数の生物の間の類似度を算出し、分かりやすく表示することができる。
【0063】
本発明は上記実施形態の内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
【実施例】
【0064】
以下に、本実施形態に係る実施例を示すが、本発明は下記の実施例に限定されるものではない。
【0065】
(実施例1)
実施例1では、3種類のアクネ菌を質量分析し、8種類のリボソームタンパク質を対象分子として類似度画像を作成した。
【0066】
皮膚常在菌のP.acnesの菌体をジルコニア製のビーズ(直径0.5 mm)を用いて破砕し、細胞質成分等を含む溶液を15000 gで5分間遠心分離した。遠心分離後の上清を公称分画分子量が100 KDaのろ過フィルターを用いてろ過し、ろ過フィルターに残った画分をリボソームを含むリボソーム画分とした。マトリックスとしてシナピン酸を用い、リボソーム画分をMALDIによりイオン化した後、飛行時間型質量分析により測定した。
【0067】
図7は、P.acnesの一つの株(上述のアクネ菌A株に対応)に由来するリボソーム画分を質量分析して得られたマススぺクトルを示す図である。
図7では、ピークに対応して帰属されたリボソームタンパク質の名称を示した。これらの帰属は、リボソームタンパク質のアミノ酸配列情報に基づき、タンパク質の観測質量の理論により導出した。A10で示された範囲では、わかりやすくするため他の範囲と比べて強度値が5倍にして示されている。他の2株(上述のアクネ菌B株およびC株)も同様にマススペクトルを取得し、リボソームタンパク質由来のピークの帰属を行った。
【0068】
対象分子を8種類のリボソームタンパク質S15、S19、S08、L09、S18、L27、S17およびL23とした。対象分子について、アミノ酸配列から求めた理論値と同じm/z値に基づく範囲(許容誤差200 ppm)にピークが観測されたら1、観測されなければ0としてこれらの数値を
図2の表A、表Bおよび表Cに示した。上述の実施形態で示したように、アクネ菌A株とB株との間の類似度は0.75、アクネ菌A株とC株との間の類似度は0.75、アクネ菌B株とC株との間の類似度は0.875となった。これらの値をマッピングして
図3に示す類似度画像が得られた。
【0069】
(実施例2)
P.acnesの異なる23株を実施例1と同様に質量分析し、類似度画像を作成した。また、遺伝子解析に基づいて系統樹を作成した。
図5に得られた類似度画像および系統樹を示した。
【符号の説明】
【0070】
1…分析装置、10…イオン化部、22…質量分離部、30…検出部、40…情報処理部、43…記憶部、44…出力部、52…データ処理部、53…出力画像生成部、60…類似度画像、70…系統樹画像、80…出力画像、100…測定部、521…マススペクトル生成部、522…類似度算出部、E,Eab,Eba…類似度表の要素、S…試料イオン。