特許第5756169号(P5756169)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディーエイチ テクノロジーズ デベロップメント プライベート リミテッドの特許一覧

特許5756169タンパク質信頼値を計算するためのシステムおよび方法
<>
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000009
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000010
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000011
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000012
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000013
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000014
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000015
  • 特許5756169-タンパク質信頼値を計算するためのシステムおよび方法 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5756169
(24)【登録日】2015年6月5日
(45)【発行日】2015年7月29日
(54)【発明の名称】タンパク質信頼値を計算するためのシステムおよび方法
(51)【国際特許分類】
   G01N 27/62 20060101AFI20150709BHJP
   G01N 33/48 20060101ALI20150709BHJP
   G06F 19/22 20110101ALI20150709BHJP
【FI】
   G01N27/62 V
   G01N33/48 Z
   G06F19/22
【請求項の数】20
【全頁数】18
(21)【出願番号】特願2013-511227(P2013-511227)
(86)(22)【出願日】2011年5月12日
(65)【公表番号】特表2013-531786(P2013-531786A)
(43)【公表日】2013年8月8日
(86)【国際出願番号】US2011036193
(87)【国際公開番号】WO2011143386
(87)【国際公開日】20111117
【審査請求日】2014年2月13日
(31)【優先権主張番号】61/334,763
(32)【優先日】2010年5月14日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】510075457
【氏名又は名称】ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(72)【発明者】
【氏名】シロフ, イグナット ブイ.
【審査官】 藤田 都志行
(56)【参考文献】
【文献】 米国特許出願公開第2006/0030053(US,A1)
【文献】 米国特許出願公開第2008/0275651(US,A1)
【文献】 特表2009−539068(JP,A)
【文献】 特開2008−281411(JP,A)
【文献】 吉野 健一, 大城 紀子, 徳永 千春, 米澤 一仁,「質量分析法と配列データベースを利用するタンパク質同定法」,Journal of the Mass Spectrometry Society of Japan,日本質量分析学会,2004年 6月 1日,Vol. 52, No. 3,p. 106-129
(58)【調査した分野】(Int.Cl.,DB名)
G01N 27/62
G01N 33/48
G06F 19/22
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CiNii
(57)【特許請求の範囲】
【請求項1】
プロテオーム解析においてタンパク質信頼値を計算するためのシステムであって、前記システムは:
タンパク質データベース;
複数のスペクトルを生成するサンプルについて複数回のスキャンを行う1つ以上の質量分析計;および
前記タンパク質データベースおよび前記1つ以上の質量分析計と連通するプロセッサ
を備え、前記プロセッサは:
a.前記質量分析計から前記複数のスペクトルを得、
b.前記複数のスペクトルから複数のペプチドを同定し、
c.タンパク質の組および対応するペプチドの組を生成する前記複数のペプチドからのペプチドにマッチするタンパク質について、前記タンパク質データベースを検索し、
d.前記ペプチドの組についての最初のペプチド信頼値を決定し、
e.前記ペプチドの組からの1つ以上の対応するペプチドの1つ以上の最初のペプチド信頼値に基づいて、前記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算し、
f.最大のタンパク質信頼値を有するタンパク質を前記タンパク質の組から選択し、前記タンパク質の最大のタンパク質信頼値を保存し、前記タンパク質を前記タンパク質の組から除去し、そして前記ペプチドの組から前記タンパク質に対応する1つ以上のペプチドを除去し
g.前記ペプチドの組からの前記タンパク質に対応する前記1つ以上のペプチドの前記除去の効果に基づいて、前記ペプチドの組からの1つ以上のペプチドの1つ以上のペプチド信頼値を再計算し、かつ
.前記ペプチドの組からの1つ以上の対応するペプチドの前記再計算された1つ以上のペプチド信頼に基づいて、前記タンパク質の組における各タンパク質についての前記タンパク質信頼値を再計算する、
システム。
【請求項2】
全てのタンパク質が前記タンパク質の組から除去されるか、または可能性のある最良のタンパク質信頼値(the best possible protein confidence)が、目的の閾値を下回るまで、前記プロセッサがステップ(f)〜()を繰り返す、請求項1に記載のシステム。
【請求項3】
前記プロセッサが、標的−デコイ法および前記タンパク質データベースを用いて前記ペプチドの組についての最初のペプチド信頼値を決定する、請求項1に記載のシステム。
【請求項4】
前記プロセッサが、発見的方法を用いて最初のペプチド信頼値を決定する、請求項1に記載のシステム。
【請求項5】
前記ペプチドの組についての前記最初のペプチド信頼値および前記タンパク質の組における各タンパク質についての前記タンパク質信頼値が、ベイズ確率である、請求項1に記載のシステム。
【請求項6】
前記ペプチドの組からの前記タンパク質に対応する前記1つ以上のペプチドの前記除去の前記効果は、前記ペプチドの組に現在あるペプチドの数を含む、請求項に記載のシステム。
【請求項7】
前記プロセッサが、ベイズ確率を用いて、前記ペプチドの組から1つ以上のペプチドの1つ以上のペプチド信頼値を再計算する、請求項に記載のシステム。
【請求項8】
前記プロセッサが、
【数1】
にしたがって、ペプチド事後確率P(+|B)として、前記ペプチドの組から1つ以上のペプチドの1つ以上のペプチド信頼値を再計算し、
式中、P(B|+)は、i番目のペプチドのペプチド信頼値Cであり、P(+)は、真陽性の選択の事前確率であり、前記ペプチドの組に現在あるペプチドの数に依存しており、そしてP(B)は、所与の信頼値を有するペプチドの観察の周辺確率である、請求項7に記載のシステム。
【請求項9】
前記真陽性の選択の事前確率P(+)は、
【数2】
にしたがって計算され、
式中、Mは、ペプチドの組に現在あるペプチドの数であり、Nは、ペプチドの組に現在あるペプチドの数とペプチドの組から除去されたペプチドの数との合計であり、Cは、i番目のペプチドのペプチド信頼値である、請求項8に記載のシステム。
【請求項10】
プロテオーム解析においてタンパク質信頼値を計算するための方法であって、前記方法は:
a.1つ以上の質量分析計を用いて複数のスペクトルを生成するサンプルについて複数回のスキャンを行うステップ;
b.プロセッサを用いて前記質量分析計から前記複数のスペクトルを得るステップ;
c.前記プロセッサを用いて前記複数のスペクトルから複数のペプチドを同定するステップ;
d.前記プロセッサを用いて、タンパク質の組および対応するペプチドの組を生成する前記複数のペプチドからのペプチドにマッチするタンパク質について、タンパク質データベースを検索するステップ;
e.前記プロセッサを用いて、前記ペプチドの組についての最初のペプチド信頼値を決定するステップ;
f.前記プロセッサを用いて、前記ペプチドの組からの1つ以上の対応するペプチドの1つ以上の最初のペプチド信頼値に基づいて、前記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算するステップ;
g.前記プロセッサを用いて、最大のタンパク質信頼値を有するタンパク質を前記タンパク質の組から選択し、前記タンパク質の前記最大のタンパク質信頼値を保存し、前記タンパク質を前記タンパク質の組から除去し、そして前記ペプチドの組から前記タンパク質に対応する1つ以上のペプチドを除去するステップ;
h.前記プロセッサを用いて、前記ペプチドの組からの前記タンパク質に対応する前記1つ以上のペプチドの前記除去の効果に基づいて、前記ペプチドの組からの1つ以上のペプチドの1つ以上のペプチド信頼値を再計算するステップ、および;
.前記プロセッサを用いて、前記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼に基づいて、前記タンパク質の組における各タンパク質についての前記タンパク質信頼値を再計算するステップを含む、方法。
【請求項11】
前記プロセッサを用いて、全てのタンパク質が前記タンパク質の組から除去されるまでステップ(g)〜()を繰り返すステップをさらに含む、請求項10に記載の方法。
【請求項12】
前記ペプチドの組についての最初のペプチド信頼値を決定するステップが、標的−デコイ法および前記タンパク質データベースを使用するステップを含む、請求項10に記載の方法。
【請求項13】
最初のペプチド信頼値を決定するステップが、発見的方法を用いるステップを含む、請求項10に記載の方法。
【請求項14】
前記ペプチドの組についての前記最初のペプチド信頼値および前記タンパク質の組における各タンパク質についての前記タンパク質信頼値が、ベイズ確率である、請求項10に記載の方法。
【請求項15】
前記ペプチドの組からの前記タンパク質に対応する前記1つ以上のペプチドの前記除去の前記効果は、前記ペプチドの組に現在あるペプチドの数を含む、請求項10に記載の方法。
【請求項16】
ベイズ確率を用いて、前記ペプチドの組から1つ以上のペプチドの1つ以上のペプチド信頼値を再計算するステップをさらに含む、請求項15に記載の方法。
【請求項17】
【数3】
にしたがって、ペプチド事後確率P(+|B)として、前記ペプチドの組から1つ以上のペプチドの1つ以上のペプチド信頼値を再計算することをさらに含み、
式中、P(B|+)は、i番目のペプチドのペプチド信頼値Cであり、P(+)は、真陽性の選択の事前確率であり、前記ペプチドの組に現在あるペプチドの数に依存しており、そしてP(B)は、所与の信頼値を有するペプチドの観察の周辺確率である、請求項16に記載の方法。
【請求項18】
前記真陽性の選択の事前確率P(+)は、
【数4】
にしたがって計算され、
式中、Mは、ペプチドの組に現在あるペプチドの数であり、Nは、ペプチドの組に現在あるペプチドの数とペプチドの組から除去されたペプチドの数との合計であり、Cは、i番目のペプチドのペプチド信頼値である、請求項17に記載の方法
【請求項19】
プロテオーム解析においてタンパク質信頼値を計算するための方法を実施するためにプロセッサで実行される命令を含むプログラムを内容に含む有形のコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記方法は:
a.システムを提供するステップであって、前記システムが、別個のソフトウエアモジュールを含み、前記別個のソフトウエアモジュールが、測定モジュールおよび解析モジュールを含む、ステップ;
b.前記測定モジュールを用いて、サンプルについて複数回のスキャンを行う1つ以上の質量分析計から複数のスペクトルを得るステップ;
c.前記解析モジュールを用いて、前記複数のスペクトルから複数のペプチドを同定するステップ;
d.前記解析モジュールを用いて、タンパク質の組および対応するペプチドの組を生成する前記複数のペプチドからのペプチドにマッチするタンパク質について、タンパク質データベースを検索するステップ;
e.前記解析モジュールを用いて、前記ペプチドの組についての最初のペプチド信頼値を決定するステップ;
f.前記解析モジュールを用いて、前記ペプチドの組からの1つ以上の対応するペプチドの1つ以上の最初のペプチド信頼値に基づいて、前記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算するステップ;
g.前記解析モジュールを用いて、最大のタンパク質信頼値を有するタンパク質を前記タンパク質の組から選択し、前記タンパク質の前記最大のタンパク質信頼値を保存し、前記タンパク質を前記タンパク質の組から除去し、そして前記ペプチドの組から前記タンパク質に対応する1つ以上のペプチドを除去するステップ;
h.前記解析モジュールを用いて、前記ペプチドの組からの前記タンパク質に対応する前記1つ以上のペプチドの前記除去の効果に基づいて、前記ペプチドの組からの1つ以上のペプチドの1つ以上のペプチド信頼値を再計算するステップ、および;
.前記解析モジュールを用いて、前記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去された前記タンパク質に対応する前記1つ以上のペプチドを前記ペプチドの組から除去した結果に基づいて、前記タンパク質の組における各タンパク質についての前記タンパク質信頼値を再計算するステップを含む、
コンピュータプログラム製品。
【請求項20】
前記解析モジュールを用いて、全てのタンパク質が前記タンパク質の組から除去されるまでステップ(g)〜()を繰り返すステップをさらに含む、請求項19に記載のコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
この出願は、2010年5月14日に出願された米国仮特許出願第61/334,763号(これは、その全体が参考として本明細書に援用される)の利益を主張する。
【背景技術】
【0002】
信頼値(confidence value)は、プロテオーム解析において重要な役割を果たす。プロテオーム解析において、サンプルは、タンパク質分解により代理ペプチド検体に消化され、この検体は、タンデム質量分析とデータベース検索によって同定される。次いで、これらの代理ペプチド検体の同定が、それらの親タンパク質の検出を推論するために使用される。例えば、発見的方法またはデータベース検索に基づいて、ペプチド信頼値が、代理ペプチド検体に割り当てられる。親タンパク質のタンパク質信頼値が、ペプチド信頼値から計算される。次いで、親タンパク質のタンパク質信頼値が、実際にサンプルに見られる親タンパク質をランダムまたは擬陽性結果と区別するために使用される。
【発明の概要】
【課題を解決するための手段】
【0003】
(コンピュータ実施システム)
図1は、本教示の実施形態を実施できるコンピュータシステム100を例示するブロック線図である。コンピュータシステム100は、情報を伝達するためのバス102または他の伝達機構、および情報を処理するためのバス102に接続されたプロセッサ104を含む。コンピュータシステム100は、ベースコール(base call)を決定するためにバス102に接続された、ランダムアクセスメモリ(RAM)または他の動的記憶装置とすることができるメモリ106、およびプロセッサ104によって実行される命令を含む。メモリ106はまた、プロセッサ104によって実行される命令の実行中に一時的数値変数または他の中間情報を保存するために使用することもできる。コンピュータシステム100は、静的情報およびプロセッサ104の命令を保存するための、バス102に接続された読み出し専用メモリ(ROM)108または他の静的記憶装置をさらに含む。記憶装置110、例えば、磁気ディスクまたは光学ディスクが配置され、情報および命令を記憶するためにバス102に接続されている。
【0004】
コンピュータシステム100は、情報をコンピュータのユーザに表示するためにバス102を介してディスプレイ112、例えば、陰極線管(CRT)または液晶ディスプレイ(LCD)に接続することができる。英数字および他のキーを含む入力デバイス114が、情報およびコマンド選択をプロセッサ104に伝達するためにバス102に接続されている。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ104に伝達するため、およびディスプレイ112上のカーソルの移動を制御するためのカーソル制御116、例えば、マウス、トラックボール、またはカーソル方向キーである。この入力デバイスは、典型的には、装置が平面における位置を特定できるようにする2つの軸、第1の軸(すなわち、x)および第2の軸(すなわち、y)における2つの自由度を有する。
【0005】
コンピュータシステム100は、本教示を実施することができる。本教示の特定の実施に一致して、結果が、メモリ106に保存された1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ104に応答してコンピュータシステム100によってもたらされる。このような命令は、別のコンピュータ可読媒体、例えば、記憶装置110からメモリ106に読み込むことができる。メモリ106に保存された命令のシーケンスの実行により、プロセッサ104が、本明細書に記載されるプロセスを実行する。あるいは、ハードワイヤード回路を、本教示を実施するソフトウエア命令の代わり、またはこのソフトウエア命令と共に使用することができる。したがって、本教示の実施は、ハードウエア回路とソフトウエアのどの特定の組み合わせにも限定されるものではない。
【0006】
本明細書で使用される場合、用語「コンピュータ可読媒体」とは、実行のためのプロセッサ104への命令の供給に係るあらゆる媒体をいう。このような媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む多数の形態をとることができる。不揮発性媒体は、例えば、光学ディスクまたは磁気ディスク、例えば、記憶装置110を含む。揮発性媒体は、動的メモリ、例えば、メモリ106を含む。伝送媒体は、バス102を含むワイヤを含め、同軸ケーブル、銅線、および光ファイバを含む。
【0007】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、CD−ROM、任意の他の光学媒体、パンチカード、紙テープ、任意の他の孔のパターンを有する物理的媒体、RAM、PROM、およびEPROM、FLASH−EPROM、任意の他のメモリチップまたはカートリッジ、または任意の他の有形のコンピュータ可読媒体を含む。
【0008】
様々な形態のコンピュータ可読媒体は、実行のためのプロセッサ104に対する1つ以上の命令の1つ以上のシーケンスの保持に係ることができる。例えば、命令は、最初は、遠隔コンピュータの磁気ディスクに保持することができる。この遠隔コンピュータは、その動的メモリにその命令をロードし、その命令を、モデムを使用して電話回線で送信することができる。コンピュータシステム100側のモデムが、電話回線を介してデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換することができる。バス102に接続された赤外線検出器が、赤外線信号で搬送されるデータを受け取り、このデータをバス102に送ることができる。バス102は、メモリ106にデータを送り、プロセッサ104が、このメモリ106からデータを受け取り、命令を実行する。メモリ106が受け取る命令は、プロセッサ104による実行の前または後で、任意選択で記憶装置110に保存することができる。
【0009】
様々な実施形態にしたがって、方法を実施するためにプロセッサによって実行されるように構成された命令が、コンピュータ可読媒体に保存される。コンピュータ可読媒体は、デジタル情報を保存する装置とすることができる。例えば、コンピュータ可読媒体は、ソフトウエア保存用として当分野で知られているコンパクトディスク読み出し専用メモリ(CD−ROM)を含む。コンピュータ可読媒体は、実行されるように構成された命令を実行するのに適したプロセッサによってアクセスされる。
【0010】
本教示の様々な実施についての以下の説明は、例示目的および説明目的で記載される。以下の説明は、網羅的ではなく、本教示を、開示される正確な形態に限定するものではない。改良形態および変更形態が、上記の教示から可能であり、また、本教示の実施から得ることもできる。加えて、記載される実施は、ソフトウエアを含むが、本教示は、ハードウエアとソフトウエアの組み合わせとして、またはハードウエアのみで実施することができる。本教示は、オブジェクト指向および非オブジェクト指向のプログラミングシステムの両方で実施することができる。
【0011】
当業者であれば、以下に説明する図面が単に例示目的であることを理解できよう。これらの図面は、本教示の技術範囲を決して限定するものではない。
本発明は、例えば、以下を提供する。
(項目1)
プロテオーム解析においてタンパク質信頼値を計算するためのシステムであって、上記システムは:
タンパク質データベース;
複数のスペクトルを生成するサンプルについて複数回のスキャンを行う1つ以上の質量分析計;および
上記タンパク質データベースおよび上記1つ以上の質量分析計と連通するプロセッサ
を備え、上記プロセッサは:
a.上記質量分析計から上記複数のスペクトルを得、
b.上記複数のスペクトルから複数のペプチドを同定し、
c.タンパク質の組および対応するペプチドの組を生成する上記複数のペプチドからのペプチドにマッチするタンパク質について、上記タンパク質データベースを検索し、
d.上記ペプチドの組についてのペプチド信頼値を決定し、
e.上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値に基づいて、上記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算し、
f.最大のタンパク質信頼値を有するタンパク質を上記タンパク質の組から選択し、上記タンパク質の最大のタンパク質信頼値を保存し、上記タンパク質を上記タンパク質の組から除去し、そして上記ペプチドの組から上記タンパク質に対応する1つ以上のペプチドを除去し、かつ
g.上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去された上記タンパク質に対応する上記1つ以上のペプチドを上記ペプチドの組から除去した結果に基づいて、上記タンパク質の組における各タンパク質についての上記タンパク質信頼値を再計算する、
システム。
(項目2)
全てのタンパク質が上記タンパク質の組から除去されるか、または可能性のある最良のタンパク質信頼値(the best possible protein confidence)が、目的の閾値を下回るまで、上記プロセッサがステップ(f)〜(g)を繰り返す、項目1に記載のシステム。
(項目3)
上記プロセッサが、標的−デコイ法および上記タンパク質データベースを用いて上記ペプチドの組についてのペプチド信頼値を決定する、項目1に記載のシステム。
(項目4)
上記プロセッサが、発見的方法を用いてペプチド信頼値を決定する、項目1に記載のシステム。
(項目5)
上記ペプチドの組についての上記ペプチド信頼値および上記タンパク質の組における各タンパク質についての上記タンパク質信頼値が、ベイズ確率である、項目1に記載のシステム。
(項目6)
上記プロセッサが、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値から、上記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算する、項目5に記載のシステム。
(項目7)
上記プロセッサが、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド事後信頼値から、上記タンパク質の組における各タンパク質についてのタンパク質信頼値を再計算する、項目5に記載のシステム。
(項目8)
上記プロセッサが、上記1つ以上のペプチド信頼値およびペプチド事前信頼値から、上記ペプチドの組からの1つ以上の対応するペプチドの上記1つ以上のペプチド事後信頼値を計算する、項目7に記載のシステム。
(項目9)
上記プロセッサが、上記ペプチドの組に現在あるペプチドの全てのペプチド信頼値の合計、および上記ペプチドの組に現在あるペプチドの全ての信頼値と上記ペプチドの組から除去されたペプチドの全ての信頼値の合計から上記ペプチド事前信頼値を計算する、項目8に記載のシステム。
(項目10)
プロテオーム解析においてタンパク質信頼値を計算するための方法であって、上記方法は:
a.1つ以上の質量分析計を用いて複数のスペクトルを生成するサンプルについて複数回のスキャンを行うステップ;
b.プロセッサを用いて上記質量分析計から上記複数のスペクトルを得るステップ;
c.上記プロセッサを用いて上記複数のスペクトルから複数のペプチドを同定するステップ;
d.上記プロセッサを用いて、タンパク質の組および対応するペプチドの組を生成する上記複数のペプチドからのペプチドにマッチするタンパク質について、タンパク質データベースを検索するステップ;
e.上記プロセッサを用いて、上記ペプチドの組についてのペプチド信頼値を決定するステップ;
f.上記プロセッサを用いて、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値に基づいて、上記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算するステップ;
g.上記プロセッサを用いて、最大のタンパク質信頼値を有するタンパク質を上記タンパク質の組から選択し、上記タンパク質の上記最大のタンパク質信頼値を保存し、上記タンパク質を上記タンパク質の組から除去し、そして上記ペプチドの組から上記タンパク質に対応する1つ以上のペプチドを除去するステップ;および
h.上記プロセッサを用いて、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去された上記タンパク質に対応する上記1つ以上のペプチドを上記ペプチドの組から除去した結果に基づいて、上記タンパク質の組における各タンパク質についての上記タンパク質信頼値を再計算するステップを含む、方法。
(項目11)
上記プロセッサを用いて、全てのタンパク質が上記タンパク質の組から除去されるまでステップ(g)〜(h)を繰り返すステップをさらに含む、項目10に記載の方法。
(項目12)
上記ペプチドの組についてのペプチド信頼値を決定するステップが、標的−デコイ法および上記タンパク質データベースを使用するステップを含む、項目10に記載の方法。
(項目13)
ペプチド信頼値を決定するステップが、発見的方法を用いるステップを含む、項目10に記載の方法。
(項目14)
上記ペプチドの組についての上記ペプチド信頼値および上記タンパク質の組における各タンパク質についての上記タンパク質信頼値が、ベイズ確率である、項目1に記載の方法。
(項目15)
上記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算するステップが、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値の積を計算するステップを含む、項目14に記載の方法。
(項目16)
上記タンパク質の組における各タンパク質についての上記タンパク質信頼値を再計算するステップが、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド事後信頼値の積を計算するステップを含む、項目14に記載の方法。
(項目17)
上記ペプチドの組からの1つ以上の対応するペプチドの上記1つ以上のペプチド事後信頼値を、上記プロセッサを用いて、上記1つ以上のペプチド信頼値およびペプチド事前信頼値から計算する、項目16に記載の方法。
(項目18)
上記ペプチド事前信頼値を、上記プロセッサを用いて、上記ペプチドの組に現在あるペプチドの全てのペプチド信頼値の合計、および上記ペプチドの組に現在あるペプチドの全ての信頼値と上記ペプチドの組から除去されたペプチドの全ての信頼値の合計から計算する、項目17に記載のシステム。
(項目19)
プロテオーム解析においてタンパク質信頼値を計算するための方法を実施するためにプロセッサで実行される命令を含むプログラムを内容に含む有形のコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、上記方法は:
a.システムを提供するステップであって、上記システムが、別個のソフトウエアモジュールを含み、上記別個のソフトウエアモジュールが、測定モジュールおよび解析モジュールを含む、ステップ;
b.上記測定モジュールを用いて、サンプルについて複数回のスキャンを行う1つ以上の質量分析計から複数のスペクトルを得るステップ;
c.上記解析モジュールを用いて、上記複数のスペクトルから複数のペプチドを同定するステップ;
d.上記解析モジュールを用いて、タンパク質の組および対応するペプチドの組を生成する上記複数のペプチドからのペプチドにマッチするタンパク質について、タンパク質データベースを検索するステップ;
e.上記解析モジュールを用いて、上記ペプチドの組についてのペプチド信頼値を決定するステップ;
f.上記解析モジュールを用いて、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値に基づいて、上記タンパク質の組における各タンパク質についてのタンパク質信頼値を計算するステップ;
g.上記解析モジュールを用いて、最大のタンパク質信頼値を有するタンパク質を上記タンパク質の組から選択し、上記タンパク質の上記最大のタンパク質信頼値を保存し、上記タンパク質を上記タンパク質の組から除去し、そして上記ペプチドの組から上記タンパク質に対応する1つ以上のペプチドを除去するステップ;および
h.上記解析モジュールを用いて、上記ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去された上記タンパク質に対応する上記1つ以上のペプチドを上記ペプチドの組から除去した結果に基づいて、上記タンパク質の組における各タンパク質についての上記タンパク質信頼値を再計算するステップを含む、
コンピュータプログラム製品。
(項目20)
上記解析モジュールを用いて、全てのタンパク質が上記タンパク質の組から除去されるまでステップ(g)〜(h)を繰り返すステップをさらに含む、項目19に記載のコンピュータプログラム製品。
【図面の簡単な説明】
【0012】
図1図1は、本教示の実施態様を実施することができるコンピュータシステムを例示するブロック線図である。
図2図2は、様々な実施態様にしたがった、いずれのペプチドも割り当てられる前の割り当てられていないペプチドの組および割り当てられたペプチドの組の線図である。
図3図3は、様々な実施態様にしたがった、第1の群のペプチドが割り当てられた後の割り当てられていないペプチドの組および割り当てられたペプチドの組の線図である。
図4図4は、様々な実施態様にしたがった、第2の群のペプチドが割り当てられた後の割り当てられていないペプチドの組および割り当てられたペプチドの組の線図である。
図5図5は、様々な実施態様にしたがった、第3の群のペプチドが割り当てられた後の割り当てられていないペプチドの組および割り当てられたペプチドの組の線図である。
図6図6は、様々な実施態様にしたがった、プロテオーム解析においてタンパク質信頼値を計算するためのシステムを示す模式的な線図である。
図7図7は、様々な実施態様にしたがった、プロテオーム解析においてタンパク質信頼値を計算するための方法を示す例示的なフローチャートである。
図8図8は、様々な実施態様にしたがった、プロテオーム解析においてタンパク質信頼値を計算するための方法を実施する別個のソフトウエアモジュールのシステムの模式的な線図である。
【発明を実施するための形態】
【0013】
本教示の1つ以上の実施態様が詳細に説明される前に、当業者であれば、本教示の適用が、以下の詳細な説明に記載され、または図面に例示される詳細な構成、構成要素の配置、およびステップの順序に限定されるものではないことを理解できよう。また、本明細書で使用される表現および用語は、説明目的であり、限定と見なされるべきではないことも理解されたい。
【0014】
(データ処理の方法)
上記のように、サンプルのプロテオーム解析中に計算されるタンパク質信頼値を使用して、サンプル中に実際に見られるタンパク質をランダムまたは擬陽性結果と区別することができる。同定されたタンパク質の各タンパク質信頼値を、タンパク質を同定するために使用された1つ以上のペプチドの1つ以上の信頼値から計算する。ペプチド信頼値の割り当ては、例えば、発見的検索またはデータベース検索に基づくことができる。
【0015】
図2は、様々な実施形態にしたがった、いずれのペプチドも割り当てられる前の割り当てられていないペプチドの組210および割り当てられたペプチドの組220の線図200である。割り当てられていないペプチドの組210は、第1の群のペプチド231、第2の群のペプチド232、第3の群のペプチド233、および第4の群のペプチド234を含む。第1の群のペプチド231、第2の群のペプチド232、および第3の群のペプチド233は、単一タンパク質に対応する複数のペプチドを表している。第4の群のペプチド234は、単一ペプチド、またはそれぞれが異なるタンパク質に対応する複数のペプチドの群を表している。各群における各ペプチドの標識の相対的なサイズは、その初期の相対的なペプチド信頼値に対応することに留意されたい。割り当てられたペプチドの組220は、線図200では無であり、ペプチドがまだ全く割り当てられていないことを示している。
【0016】
1つ以上のペプチドがタンパク質に割り当てられると、割り当てられたペプチドは、割り当てられていないペプチドの組210から除外されて、割り当てられたペプチドの組220に加えられる。1つ以上のペプチドのタンパク質への割り当ては、1つ以上の対応するペプチドの1つ以上のペプチド信頼値を使用して同定された各タンパク質についてのタンパク質信頼値を計算し、タンパク質信頼値によって同定されたタンパク質をランク付けし、そして対応する1つ以上のペプチドを信頼値が最大のタンパク質に割り当てることによって行われる。1つ以上の対応するペプチドの1つ以上のペプチド信頼値を用いて同定された各タンパク質についてのタンパク質信頼値の計算は、例えば、同じタンパク質を同定するペプチドの数が増えるにつれて、タンパク質信頼値を増加させることを含む。言い換えれば、第1のタンパク質が、第1のペプチドおよび第2のペプチドから同定され、第2のタンパク質が、第3のペプチドから同定され、かつ第1のペプチド、第2のペプチド、および第3のペプチドが全て、同じペプチド信頼位置を有する場合、第1のタンパク質に、より高い信頼値が付与される。結果として、タンパク質を同定する多数のペプチドの群が、通常は最初に割り当てられる。
【0017】
上記のように、線図200の割り当てられていないペプチドの組210は、それぞれが同一のタンパク質に対応する複数のペプチドを表す群231、232、および233、ならびに単一ペプチドの群を表す群234を含む。割り当てられていないペプチドの組210において、群234は、割り当てられていないペプチドの総数のほんの一部として示されている。
【0018】
図3は、様々な実施形態にしたがった、第1の群のペプチド231が割り当てられた後の割り当てられていないペプチドの組210および割り当てられたペプチドの組220の線図300である。第1の群のペプチド231は、例えば、あるタンパク質を同定する最大数のペプチドを含む。第1の群のペプチド231は、割り当てられていないペプチドの組210から割り当てられたペプチドの組220に実際に移されている。この時点で、割り当てられていないペプチドの組210は、より少ない数の割り当てられていないペプチドを有し、単一ペプチドの群を表す第4の群のペプチド234は、割り当てられていないペプチドの総数に対して割合が増えているが、依然として大きい割合ではない。
【0019】
図4は、様々な実施形態にしたがった、第2の群のペプチド232が割り当てられた後の割り当てられていないペプチドの組210および割り当てられたペプチドの組220の線図400である。第2の群のペプチド232は、割り当てられていないペプチドの組210から割り当てられたペプチドの組220に実際に移されている。この時点で、割り当てられていないペプチドの組210は、より少ない数の割り当てられていないペプチドを有し、単一ペプチドの群を表す第4の群のペプチド234は、割り当てられていないペプチドの総数に対してさらに割合が増え、大きい割合である。
【0020】
図5は、様々な実施形態にしたがった、第3の群のペプチド233が割り当てられた後の割り当てられていないペプチドの組210および割り当てられたペプチドの組220の線図500である。第3の群のペプチド233は、割り当てられていないペプチドの組210から割り当てられたペプチドの組220に実際に移されている。この時点で、割り当てられていないペプチドの組210は、単一ペプチドの群を表す第4の群のペプチド234のみを含む。
【0021】
図2図4は、ペプチドがタンパク質に割り当てられるにつれて、第4の群のペプチド234のタンパク質信頼値に対する潜在的な影響が増加することを示している。図5は、タンパク質に割り当てられた最後のペプチドが、第4の群のペプチド234のペプチド信頼値に直接的に基づいていることを示している。
【0022】
タンパク質信頼値が、ペプチド信頼値から計算され、ペプチド信頼値が、ペプチドがタンパク質に割り当てられるときに変化しないため、タンパク質信頼値は、ペプチドの最初の信頼値によって決まる。これらの最初のペプチド信頼値は、ペプチドのデータにおける証拠の量とペプチドの正確さとの間の関係についてのモデルに基づいている。これらの値は、サンプルについての情報または全てのペプチドに亘る関係についての情報を一切含まない。結果として、サンプルについての情報が考慮されると、同等の証拠を有するペプチドが、実際には同等の正確さを有してない場合は、タンパク質信頼値が、不正確であり得る。実際には、これは、高い(擬陽性)タンパク質信頼値、特に単一ペプチドの計算、および同じタンパク質に対応する複数のペプチドの割り当ての前のいくつかの単一ペプチドの割り当てとなり得る。
【0023】
様々な実施形態では、1つ以上のペプチドのタンパク質への各割り当ての後に、タンパク質信頼値を計算するために使用される割り当てられていないペプチドのペプチド信頼値が、そのタンパク質に割り当てられた1つ以上のペプチドの除去の結果に基づいて更新される。言い換えれば、サンプルについての情報を使用して、割り当てられていないペプチドの信頼値を再計算する。このサンプルについての情報は、例えば、ペプチド間の隠れた相関性であり得る。
【0024】
図6は、様々な実施形態にしたがった、プロテオーム解析においてタンパク質信頼値を計算するためのシステム600を示す模式的な線図である。システム600は、タンパク質データベース610、質量分析計620、およびプロセッサ630を含む。タンパク質データベース610は、直接プロセッサ630に接続された記憶装置、または別のプロセッサ(不図示)を介してプロセッサ630によってアクセスされる記憶装置を含むことができる。タンパク質データベース610は、検索することができる複数の既知のタンパク質配列を保存する。
【0025】
質量分析計620は、限定されるものではないが、飛行時間(TOF)質量分析計、四重極質量分析計、イオントラップ質量分析計、フーリエ変換質量分析計、Orbitrap質量分析計、または磁場質量分析計を含み得る。質量分析計620は、分離装置(不図示)も含み得る。分離装置は、限定されるものではないが、液体クロマトグラフィー、ガスクロマトグラフィー、キャピラリー電気泳動法、またはイオン移動度を含む分離技術を行うことができる。
【0026】
サンプルは、タンパク分解的にペプチドに消化される。質量分析計620を使用して、複数のスペクトルを生成するサンプルについて複数回のスキャンを行う。様々な実施形態では、2つ以上の質量分析計を使用して、複数のスペクトルを生成するサンプルについて複数回のスキャンを行うことができる。
【0027】
プロセッサ630は、タンパク質データベース610および質量分析計620と連通するプロセッサである。このやりとりは、データおよび制御情報を含み得る。プロセッサ630は、多数のステップを行う。
【0028】
プロセッサ630は、質量分析計630から複数のスペクトルを得る。プロセッサ630は、複数のスペクトルから複数のペプチドを同定する。複数のペプチドは、例えば、ピークリストを使用して同定される。プロセッサ630は、マッチまたは標的タンパク質の組を生成する複数のペプチドおよび同定するペプチドの対応する組からの1つ以上のペプチドにマッチするタンパク質について、タンパク質データベース610を検索する。プロセッサ630は、同定するペプチドの組における各ペプチドのペプチド信頼値を決定する。プロセッサ630は、標的タンパク質の組における各タンパク質についてのタンパク質信頼値を計算する。タンパク質信頼値は、同定するペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値に基づいている。プロセッサ630は、最大のタンパク質信頼値を有するタンパク質を標的タンパク質の組から選択し、そのタンパク質のタンパク質信頼値を保存し、そのタンパク質をその標的タンパク質の組から除去し、そして同定するペプチドの組からそのタンパク質に対応する1つ以上のペプチドを除去する。最後に、プロセッサ630は、同定するペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去されたタンパク質に対応する1つ以上のペプチドを同定するペプチドの組から除去した結果に基づいて、標的タンパク質の組における各タンパク質についてのタンパク質信頼値を再計算する。
【0029】
様々な実施形態では、プロセッサ630は、最大のタンパク質信頼値を有するタンパク質を選択するステップ、そのタンパク質のタンパク質信頼値を保存するステップ、そのタンパク質をその標的タンパク質の組から除去するステップ、同定するペプチドの組からそのタンパク質に対応する1つ以上のペプチドを除去するステップ、および全てのタンパク質が標的タンパク質の組から除去されるまで、標的タンパク質の組に残った各タンパク質についてのタンパク質信頼値を繰り返し再計算するステップを繰り返す。
【0030】
様々な実施形態では、プロセッサ630は、標的−デコイ法(target−decoy method)または発見的方法を用いて同定するペプチドの組の最初のペプチド信頼値を決定する。例示的な標的−デコイ法では、プロセッサ630が、タンパク質様デコイ配列を作成し、これらのデコイ配列を標的タンパク質データベースの配列と共に検索して信頼値を決定する。タンパク質データベース610は、例えば、標的タンパク質データベースとして使用される。デコイ配列とのマッチは、例えば、ランダムマッチに一致する。
【0031】
様々な実施形態では、同定するペプチドの組のペプチド信頼値および標的タンパク質の組における各タンパク質についてのタンパク質信頼値はベイズ確率である。
【0032】
様々な実施形態では、プロセッサ630は、各ペプチドの観察が独立した事象であるという仮定の下で、ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値から、タンパク質の組における各タンパク質についてのタンパク質信頼値を計算する。例えば、Cが、タンパク質に対応する1つ以上のペプチドのi番目のペプチドのペプチド信頼値である場合、タンパク質信頼値Pは、以下の式から計算することができる。
【0033】
【化1】
様々な実施形態では、プロセッサ630は、同定するペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド事後信頼値(peptide posterior confidence value)から、標的タンパク質の組における各タンパク質についてのタンパク質信頼値を再計算する。例えば、式1は、タンパク質が除去された後の標的タンパク質の組における各タンパク質についてのタンパク質信頼値Pを再計算するためにも使用される。しかしながら、タンパク質に対応する1つ以上のペプチドのi番目のペプチドのペプチド信頼値Cを直接使用する代わりに、i番目のペプチドのペプチド事後確率P(+|B)が使用される。
【0034】
様々な実施形態では、プロセッサ630は、1つ以上のペプチド信頼値およびペプチド事前信頼値(prior peptide confidence value)から、ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド事後信頼値を計算する。例えば、i番目のペプチドのペプチド事後確率P(+|B)が、例えば、以下の式を用いて計算される。式中、P(B|+)は、i番目のペプチドのペプチド信頼値Cであり、P(+)は、真陽性の選択の事前確率であり、そしてP(B)は、所与の信頼値を有するペプチドの観察の周辺確率である。
【0035】
【化2】
様々な実施形態では、プロセッサ630は、同定するペプチドの組に現在あるペプチドの全てのペプチド信頼値の合計、およびペプチドの組に現在あるペプチドの全ての信頼値と同定するペプチドの組から除去されたペプチドの全ての信頼値の合計からペプチド事前信頼値を計算する。例えば、ペプチド事前信頼値P(+)は、以下の式から計算される。式中、Mは、同定するペプチドの組に現在あるペプチドの数であり、Nは、同定するペプチドの組に現在あるペプチドの数と同定するペプチドの組から除去されたペプチドの数の合計である。
【0036】
【化3】
図7は、様々な実施形態にしたがった、プロテオーム解析においてタンパク質信頼値を計算するための方法700を示す例示的なフローチャートである。
【0037】
方法700のステップ710において、1つ以上の質量分析計を用いてサンプルについて複数回のスキャンを行って複数のスペクトルを生成する。
【0038】
ステップ720において、プロセッサを用いて、複数のスペクトルを1つ以上の質量分析計から得る。
【0039】
ステップ730において、プロセッサを用いて、複数のペプチドを複数のスペクトルから同定する。
【0040】
ステップ740において、プロセッサを用いて、タンパク質の組および対応するペプチドの組を生成する複数のペプチドからのペプチドにマッチするタンパク質について、タンパク質データベースを検索する。
【0041】
ステップ750において、プロセッサを用いて、ペプチドの組についてのペプチド信頼値を決定する。
【0042】
ステップ760において、プロセッサを用いて、ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値に基づいて、タンパク質の組における各タンパク質についてのタンパク質信頼値を計算する。
【0043】
ステップ770において、プロセッサを用いて、最大のタンパク質信頼値を有するタンパク質をタンパク質の組から選択し、そのタンパク質の最大のタンパク質信頼値を保存し、そのタンパク質をそのタンパク質の組から除去し、そしてそのタンパク質に対応する1つ以上のペプチドをペプチドの組から除去する。
【0044】
ステップ780において、プロセッサを用いて、ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去されたタンパク質に対応する1つ以上のペプチドをペプチドの組から除去した結果に基づいて、タンパク質の組における各タンパク質についてのタンパク質信頼値を再計算する。
【0045】
様々な実施形態では、ステップ770および780は、全てのタンパク質がタンパク質の組から除去されるまで、または可能な最適なタンパク質信頼値が、例えば、目的の閾値を下回るまで繰り返すことができる。
【0046】
様々な実施形態では、コンピュータプログラム製品は、プロテオーム解析においてタンパク質信頼値を計算するための方法を実施するためにプロセッサで実行される命令を含むプログラムを内容に含む有形のコンピュータ可読記憶媒体を含む。この方法は、別個のソフトウエアモジュールのシステムによって行われる。
【0047】
図8は、様々な実施形態にしたがった、プロテオーム解析においてタンパク質信頼値を計算するための方法を実施する別個のソフトウエアモジュールのシステム800の模式的な線図である。システム800は、測定モジュール810および解析モジュール820を含む。
【0048】
測定モジュール810および解析モジュール820は、多数のステップを行う。測定モジュール810は、サンプルについて複数回のスキャンを行う1つ以上の質量分析計から複数のスペクトルを得る。
【0049】
解析モジュール820は、この解析モジュールを使用して複数のスペクトルから複数のペプチドを同定する。解析モジュール820は、タンパク質の組および対応するペプチドの組を生成する複数のペプチドからのペプチドにマッチするタンパク質について、タンパク質データベースを検索する。解析モジュール820は、ペプチドの組のペプチド信頼値を決定する。解析モジュール820は、ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値に基づいて、タンパク質の組における各タンパク質についてのタンパク質信頼値を計算する。解析モジュール820は、最大のタンパク質信頼値を有するタンパク質をタンパク質の組から選択し、そのタンパク質の最大のタンパク質信頼値を保存し、そのタンパク質をタンパク質の組から除去し、そしてペプチドの組からそのタンパク質に対応する1つ以上のペプチドを除去する。解析モジュール820は、ペプチドの組からの1つ以上の対応するペプチドの1つ以上のペプチド信頼値、および除去されたタンパク質に対応する1つ以上のペプチドをペプチドの組から除去した結果に基づいて、タンパク質の組における各タンパク質についてのタンパク質信頼値を再計算する。
【0050】
本教示は、様々な実施形態と共に説明されるが、本教示は、そのような実施態様に限定されることを意図するものではない。逆に、本教示は、当業者が認める様々な代替形態、改良形態、および等価形態を包含する。
【0051】
さらに、様々な実施形態の説明において、本明細書は、方法および/またはプロセスを特定の順序のステップとして表すことができる。しかしながら、この方法またはプロセスが、本明細書に説明される特定の順序のステップに依存しない程度に、この方法またはプロセスは、記載される特定の順序のステップに限定されるべきではない。当業者が理解するように、他の順序のステップも可能であろう。したがって、本明細書に記載される特定の順序のステップは、請求項に対する限定と解釈されるべきものではない。加えて、方法および/またはプロセスに関する請求項は、記載される順序におけるステップの効果に限定されるべきものではなく、当業者であれば、その順序が、変更可能であり、なお様々な実施形態の趣旨および範囲内に維持されることを容易に理解できよう。
図1
図2
図3
図4
図5
図6
図7
図8