(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-28
(54)【発明の名称】タンパク質配列修飾についての情報を抽出する方法
(51)【国際特許分類】
G16B 30/10 20190101AFI20250121BHJP
G01N 27/62 20210101ALI20250121BHJP
G01N 33/68 20060101ALI20250121BHJP
C07K 1/12 20060101ALI20250121BHJP
C12N 9/50 20060101ALN20250121BHJP
C12N 9/66 20060101ALN20250121BHJP
C12N 9/76 20060101ALN20250121BHJP
【FI】
G16B30/10
G01N27/62 V ZNA
G01N27/62 D
G01N33/68
C07K1/12
C12N9/50
C12N9/66
C12N9/76
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024537871
(86)(22)【出願日】2022-12-23
(85)【翻訳文提出日】2024-07-31
(86)【国際出願番号】 EP2022087710
(87)【国際公開番号】W WO2023118561
(87)【国際公開日】2023-06-29
(32)【優先日】2021-12-23
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100188433
【氏名又は名称】梅村 幸輔
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100214396
【氏名又は名称】塩田 真紀
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(74)【代理人】
【識別番号】100221741
【氏名又は名称】酒井 直子
(74)【代理人】
【識別番号】100114926
【氏名又は名称】枝松 義恵
(72)【発明者】
【氏名】ビュトナー マルク アレクサンダー
(72)【発明者】
【氏名】フィヒトル ユルゲン
(72)【発明者】
【氏名】フォシカ エヴァ
【テーマコード(参考)】
2G041
2G045
4H045
【Fターム(参考)】
2G041CA01
2G041EA04
2G041FA12
2G041FA13
2G041GA09
2G041HA01
2G041JA02
2G041LA08
2G045AA34
2G045DA36
2G045FA34
2G045FB01
2G045FB06
2G045JA03
4H045AA10
4H045AA20
4H045AA30
4H045CA40
4H045DA76
4H045EA20
4H045EA50
4H045FA74
4H045GA22
(57)【要約】
タンパク質におけるタンパク質配列修飾についての情報を抽出する方法が開示される。少なくとも2つの酵素消化に由来するペプチドに実施された質量分析測定から導出されたタンパク質データが受け取られる。候補配列修飾が特定される。残りの候補配列修飾よりも高い平均確率で真性配列修飾を表す、候補配列修飾のサブセットが決定される。候補配列修飾のサブセットの決定は、それぞれが修飾を含有する少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択する工程を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
タンパク質におけるタンパク質配列修飾についての情報を抽出するコンピュータ実装方法であって、
タンパク質の代表的な試料の各々の副次試料に実施された少なくとも2つの異なる酵素消化により得られたペプチドに実施された質量分析測定から少なくとも部分的に導出されるタンパク質データを受け取ること;
前記受け取ったタンパク質データを使用して、前記タンパク質における候補配列修飾を特定すること;
残りの前記候補配列修飾よりも高い平均確率で真性配列修飾を表す前記候補配列修飾のサブセットを決定すること;および
候補配列修飾の前記決定されたサブセットを表すデータを出力すること
を含み、
候補配列修飾の前記サブセットの前記決定が、
それぞれが前記修飾を含有する少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に前記候補配列修飾があることに依存して、候補配列修飾を選択する工程
を含む、
前記コンピュータ実装方法。
【請求項2】
各ペプチド種が、少なくとも以下:
i)アミノ酸配列;
ii)前記ペプチド種を生成した前記酵素消化;ならびに
iii)候補修飾が存在するか否かを示す修飾状態、および候補修飾が存在する場合、前記修飾の性質およびアミノ酸配列位置
により規定される、請求項1に記載の方法。
【請求項3】
各ペプチド種が、以下:
iv)前記質量分析測定における電荷状態
によりさらに規定される、請求項2に記載の方法。
【請求項4】
ペプチド種の選択されたサブセットに関連するデータを特定するために、前記タンパク質データを前処理すること、および候補配列修飾の前記サブセットの前記決定における使用から、ペプチド種の前記選択されたサブセットを除外すること、
を含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記前処理が、
a)ある候補修飾が存在する、およびb)同じアミノ酸配列を有するが前記候補修飾を有さない対応するペプチド種の前記質量分析測定における最高の強度が既定の閾値強度未満である、ペプチド種
を除外することを含む、請求項4に記載の方法。
【請求項6】
前記前処理が、
a)ある候補修飾が存在する、およびb)同じアミノ酸配列を有するが前記候補修飾を有さない対応するペプチド種の前記質量分析測定における最高精度スコアが既定の閾値スコア未満である、ペプチド種
を除外することを含み、
前記精度スコアは、前記質量分析測定における理論的断片と観察された断片とのマッチングの程度を表す、
請求項4または5に記載の方法。
【請求項7】
前記前処理が、
前記ペプチド種を生成した前記酵素消化の切断部位に候補修飾を有する各ペプチド種を除外すること;および/または
既定の閾値長さを超える長さを有するペプチド種を除外すること
を含む、請求項4~6のいずれか一項に記載の方法。
【請求項8】
候補配列修飾の前記サブセットの前記決定が、
それぞれが前記修飾を含有し、かつ異なる酵素消化を使用して得られたペプチドから誘導された少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に前記候補配列修飾があることに依存して、候補配列修飾を選択する工程
を含む、前記請求項のいずれか一項に記載の方法。
【請求項9】
候補配列修飾の前記サブセットの前記決定が、
前記アミノ酸配列位置をカバーしかつ前記候補配列修飾を含有するペプチド種の数と、前記アミノ酸配列位置をカバーしかつ前記候補配列修飾を含有しないペプチド種の数との比が既定の閾値比以上であるアミノ酸配列位置に前記候補配列修飾があることに依存して、候補配列修飾を選択する工程
を含む、前記請求項のいずれか一項に記載の方法。
【請求項10】
タンパク質におけるタンパク質配列修飾についての情報を抽出するコンピュータ実装方法であって、
タンパク質の代表的な試料の各々の副次試料に実施された少なくとも2つの異なる酵素消化により得られたペプチドに実施された質量分析測定から少なくとも部分的に導出されるタンパク質データを受け取ること;
前記受け取ったタンパク質データを使用して、前記タンパク質における候補配列修飾を特定すること;
残りの前記候補配列修飾よりも高い平均確率で真性配列修飾を表す前記候補配列修飾のサブセットを決定すること;および
候補配列修飾の前記決定されたサブセットを表すデータを出力すること
を含み、
候補配列修飾の前記サブセットの前記決定が、
前記アミノ酸配列位置をカバーしかつ前記候補配列修飾を含有するペプチド種の数と、前記アミノ酸配列位置をカバーしかつ前記候補配列修飾を含有しないペプチド種の数との比が既定の閾値比以上であるアミノ酸配列位置に前記候補配列修飾があることに依存して、候補配列修飾を選択する工程
を含む、
前記コンピュータ実装方法。
【請求項11】
前記既定の閾値比が2~10%の範囲である、請求項9または10に記載の方法。
【請求項12】
候補配列修飾の前記サブセットの前記決定が、
前記候補配列修飾が定量化条件を満たすことに依存して候補配列修飾を選択する工程
を含み、
前記候補配列修飾を有するペプチド種の少なくとも選択されたサブセットの前記質量分析測定により検出された量が、前記候補配列修飾を有するおよび有さない同じペプチド種の前記質量分析測定により検出された総量と比べて既定の定量化閾値を超えることを、前記定量化条件が示す、
前記請求項のいずれか一項に記載の方法。
【請求項13】
タンパク質におけるタンパク質配列修飾についての情報を抽出するコンピュータ実装方法であって、
タンパク質の代表的な試料の各々の副次試料に実施された少なくとも2つの異なる酵素消化により得られたペプチドに実施された質量分析測定から少なくとも部分的に導出されるタンパク質データを受け取ること;
前記受け取ったタンパク質データを使用して、前記タンパク質における候補配列修飾を特定すること;
残りの前記候補配列修飾よりも高い平均確率で真性配列修飾を表す前記候補配列修飾のサブセットを決定すること;および
候補配列修飾の前記決定されたサブセットを表すデータを出力すること
を含み、
候補配列修飾の前記サブセットの前記決定が、
前記候補配列修飾が定量化条件を満たすことに依存して候補配列修飾を選択する工程
を含み、
前記候補配列修飾を有するペプチド種の少なくとも選択されたサブセットの前記質量分析測定により検出された量が、前記候補配列修飾を有するおよび有さない同じペプチド種の前記質量分析測定により検出された総量と比べて既定の定量化閾値を超えることを、前記定量化条件が示す、
前記コンピュータ実装方法。
【請求項14】
前記選択されたサブセットが、前記少なくとも2つの異なる酵素消化のうちの複数またはすべてに由来する複数またはすべてのペプチド種を含む、請求項12または13に記載の方法。
【請求項15】
前記少なくとも2つの異なる酵素消化が、1つまたは複数の配列特異的酵素消化および1つまたは複数の非特異的酵素消化を含む、請求項12~14のいずれか一項に記載の方法。
【請求項16】
少なくとも、配列特異的酵素消化を使用して誘導された少なくとも1つのペプチド種によりカバーされる候補配列修飾のために、前記1つまたは複数の非特異的酵素消化を使用して誘導されたペプチド種を除外するように、前記ペプチド種の前記選択されたサブセットが選択される、請求項15に記載の方法。
【請求項17】
配列特異的酵素消化を使用して誘導された少なくとも1つのペプチド種によりカバーされない候補配列修飾のために、前記1つまたは複数の非特異的酵素消化を使用して誘導されたペプチド種を含むように、ペプチド種の前記選択されたサブセットが選択される、請求項16に記載の方法。
【請求項18】
前記配列特異的酵素消化が、以下:トリプシン、エンドプロテイナーゼAspN、エンドプロテイナーゼLysC、エンドプロテイナーゼGluCのうちの1つまたは複数を含む、請求項16または17に記載の方法。
【請求項19】
前記非特異的酵素消化が、以下:サーモリシン、エラスターゼ、プロナーゼ、プロアラナーゼ、ペプシン、キモトリプシンのうちの1つまたは複数を含む、請求項16~18のいずれか一項に記載の方法。
【請求項20】
前記質量分析測定が、液体クロマトグラフィータンデム質量分析を含む、請求項12~19のいずれか一項に記載の方法。
【請求項21】
各ペプチド種において、前記質量分析測定により検出された前記量が、
前記ペプチド種に対応する、前記質量分析測定における時間強度曲線部分下面積;または
前記ペプチド種に対応する、前記質量分析測定における時間強度曲線部分の最大値
として規定される、請求項20に記載の方法。
【請求項22】
各酵素消化が、以下:トリプシン;サーモリシン;AspN;エラスターゼ;キモトリプシン;LysC;LysN;GluC;ArgC;プロナーゼ;ペプシン;プロアラナーゼのうちの異なる1つまたは組合せを使用する、前記請求項のいずれか一項に記載の方法。
【請求項23】
前記受け取ったタンパク質データが、前記タンパク質の前記代表的な試料の各々の副次試料に実施された5または6つの異なる酵素消化により得られたペプチドに実施された質量分析測定から導出され、好ましくは前記5または6つの酵素消化がそれぞれ、以下:トリプシン、サーモリシン、AspN、プロナーゼ、ペプシン、プロアラナーゼのうちの異なる1つを使用する、前記請求項のいずれか一項に記載の方法。
【請求項24】
前記受け取ったタンパク質データにおけるペプチド種の1つまたは複数の群を特定することであって、ペプチド種の各群が、すべて同じ候補配列修飾を有するペプチド種のみを含有し、前記候補配列修飾が、候補配列修飾の前記決定されたサブセットの中にあり、各群で異なっている、前記特定すること;および
ペプチド種が、前記特定された群のそれぞれにあることを表すデータを出力すること
をさらに含む、前記請求項のいずれか一項に記載の方法。
【請求項25】
コンピュータプログラム、または前記コンピュータプログラムを担持するコンピュータ可読媒体もしくはデータキャリヤシグナルであって、
前記コンピュータプログラムが、前記プログラムがコンピュータにより実行されると前記請求項のいずれか一項に記載の前記方法を前記コンピュータに行わせる命令を含む、
前記コンピュータプログラム、または前記コンピュータプログラムを担持するコンピュータ可読媒体もしくはデータキャリヤシグナル。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、タンパク質におけるタンパク質配列修飾についての情報を抽出することに関する。
【背景技術】
【0002】
複雑な生物工学的製造方法は、治療用タンパク質に様々な修飾を導入して、潜在的に高度に不均一な産物をもたらし得る。位置およびタイプに応じて、これらの修飾は、タンパク質の構造、安定性、免疫原性および生物活性に著しい影響を及ぼすことがある。よって、治療用タンパク質の広範囲な特徴づけが、安全および有効な医薬を患者に提供するための基礎である。
【0003】
治療用タンパク質における修飾を特定するために頻繁に使用される技術は、クロマトグラフィーペプチド分離および質量分析(LC-MS/MS)と組み合わせたタンパク質分解性消化である。タンパク質分解酵素のトリプシンは、この手法の至適基準である。キモトリプシン、LysC、LysN、AspN、GluC、およびArgCなどの他のプロテアーゼもプロテオミクスに使用されるが、その程度は低い。平行または順次タンパク質分解性消化の組合せの利用を介して配列カバレージを最大にするため、多酵素戦略が提案されている。
【0004】
これらの手法は、大量の質量分析(MS)データを導き出す。このことは、配列バリアント(SV)の存在を探す場合にとりわけ当てはまる。SVは、タンパク質の一次構造におけるアミノ酸置換を表し、これは突然変異および取り込み誤りによって起こり得る。MS生データにおいてSVを特定するため、Mascot Error Tolerance Search(Matrix Science Inc.)またはByonic(Protein Metrics Inc.)などの特別なソフトウエアを用いてもよい。これらのソフトウエアソリューションは、予測外の質量シフトを特定することができ、これらの質量シフトを修飾または配列バリアントとしてアノテートすることができる。
【0005】
ペプチド配列内の各アミノ酸のSVについて多数の可能性が存在するので、ソフトウエアMS/MSアルゴリズム(「偽陽性ヒット」)により特定されたランダムマッチの可能性は、化学修飾またはグリカンなどの翻訳後修飾(PTM)における通常のデータベース検索と比較して高い。
【0006】
多数の偽陽性から真陽性を区別することは難題である。この検証方法は、現在手動で実施されており、完了するまで数日間または数週間までかかる可能性があり、また人的誤差も被りやすい。
【0007】
典型的な配列バリアント分析実験では、試料調製、LC-M/MS機器による試料分析、およびソフトウエア検索は、およそ2~3日間かかる。しかし、保持時間、質量精度およびMS/MSスペクトルなどの様々な基準を調べることによる後続の手動式「ヒット検証」は、数日間または数週間もかかることがある。
【0008】
タンパク質配列修飾、例えばSVについての情報を抽出する改善された方法を提供することが、本発明の目的である。
【発明の概要】
【0009】
本発明の一態様によると、タンパク質におけるタンパク質配列修飾についての情報を抽出するコンピュータ実装方法であって、タンパク質の代表的な試料の各々の副次試料に実施された、少なくとも2つの異なる酵素消化により得られたペプチドに実施された質量分析測定から少なくとも部分的に導出されるタンパク質データを受け取ること;受け取ったタンパク質データを使用して、タンパク質における候補配列修飾を特定すること;残りの候補配列修飾よりも高い平均確率で真性配列修飾を表す候補配列修飾のサブセットを決定すること;および候補配列修飾の決定されたサブセットを表すデータを出力することを含み、候補配列修飾のサブセットの決定が、それぞれが修飾を含有する少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択する工程を含む、前記コンピュータ実装方法が提供される。
【0010】
よって、コンピュータ自動化手順を介し、それにより人的労力/時間を節約する、および/または誤差を低減することにより正確になる可能性が高い、候補配列修飾のサブセットを特定する方法が提供される。少なくとも2つの異なる酵素消化により得られるペプチドからタンパク質データを受け取ることは、タンパク質配列の信頼性の高いカバレージを増加し、下記に説明されているように、偽陽性をさらに低減し得るさらなるフィルタリング条件の土台を提供する。
【0011】
一実施形態において、候補配列修飾のサブセットの決定は、アミノ酸配列位置をカバーしかつ候補配列修飾を含有するペプチド種の数と、アミノ酸配列位置をカバーしかつ候補配列修飾を含有しないペプチド種の数との比が既定の閾値比以上であるアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択する工程を含む。この基準は、対応する修飾ペプチド種が対応する非修飾(野生型)ペプチド種と比較して相対的にまれに起こすペプチド種における候補修飾を除外する。本発明者たちは、このフィルタリング手法が偽陽性の低減に有効であることを見出した。
【0012】
一実施形態において、本方法は、ペプチド種の選択されたサブセットに関連するデータを特定するために、タンパク質データを前処理すること、および候補配列修飾のサブセットの決定における使用から、ペプチド種の選択されたサブセットを除外することを含む。前処理は、性能をさらに改善する。
【0013】
前処理は、a)ある候補修飾が存在する、およびb)同じアミノ酸配列を有するが候補修飾を有さない対応するペプチド種(「野生型」)の質量分析測定における最高の強度が既定の閾値強度未満である、ペプチド種、を除外することを含んでもよい。このフィルタリング手法は、一部のペプチドが物理化学的特性のために他より強度が低く、それがこれらの対応する配列によって規定されるという認識に基づいている。そのような配列への修飾は、典型的にはイオン化特性を完全に変化させることはない。よって、低強度「野生型」は、低強度(したがって、相対的に信頼性を欠いて特定された)修飾ペプチドに関連する傾向がある。したがって、後続分析からそのようなペプチド種を除外することは、偽陽性を有効に低減することに寄与する。
【0014】
前処理は、a)ある候補修飾が存在する、およびb)同じアミノ酸配列を有するが候補修飾を有さない対応するペプチド種の質量分析測定における最高精度スコアが既定の閾値スコア未満である、ペプチド種、を除外することを含んでもよい。精度スコアは、質量分析測定における理論的断片と観察された断片とのマッチングの程度を表す。このフィルタリング手法は、野生型ペプチド種の低精度スコアが、修飾を有する各々のペプチド種から得た情報が相対的に信頼性に欠けることを示すという認識に基づいている。したがって、後続分析からそのようなペプチド種を除外することは、偽陽性を有効に低減することに寄与する。
【0015】
前処理は、ペプチド種を生成した酵素消化の切断部位に候補修飾を有する各ペプチド種を除外することを含んでもよい。このフィルタリング手法は、修飾が酵素の消化行動に影響を及ぼすことがあり、これは、修飾の位置に対応する開始または終了点を有するペプチド種が、その修飾を検出するために最適ではないことを意味するという認識に基づいている。したがって、後続分析からこれらのペプチド種を除外することは、偽陽性を低減することに寄与する。
【0016】
前処理は、既定の閾値長さを超える長さを有するペプチド種を除外することを含んでもよい。このフィルタリング手法は、長いペプチド種に特定された修飾が、検証することが一般により困難であり、したがって信頼性が低いという認識に基づいている。したがって、既定の閾値長さより長いペプチド種を除外することは、偽陽性を低減するために有効である。
【0017】
一実施形態において、候補配列修飾のサブセットの決定は、それぞれが修飾を含有し、かつ異なる酵素消化を使用して得られたペプチドから誘導された少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に候補配列修飾があることに依存して、候補修飾を選択する工程を含む。本発明者たちは、この手法が偽陽性の除去に極めて有効であることを見出した。
【0018】
本発明のさらなる態様によると、タンパク質におけるタンパク質配列修飾についての情報を抽出するコンピュータ実装方法であって、タンパク質の代表的な試料の各々の副次試料に実施された少なくとも2つの異なる酵素消化により得られたペプチドに実施された質量分析測定から少なくとも部分的に導出されるタンパク質データを受け取ること;受け取ったタンパク質データを使用して、タンパク質における候補配列修飾を特定すること;残りの候補配列修飾よりも高い平均確率で真性配列修飾を表す候補配列修飾のサブセットを決定すること;および候補配列修飾の決定されたサブセットを表すデータを出力することを含み、候補配列修飾のサブセットの決定が、アミノ酸配列位置をカバーしかつ候補配列修飾を含有するペプチド種の数と、アミノ酸配列位置をカバーしかつ候補配列修飾を含有しないペプチド種の数との比が既定の閾値比以上であるアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択する工程を含む、前記コンピュータ実装方法が提供される。
【0019】
よって、コンピュータ自動化手順を介し、それにより人的労力/時間を節約する、および/または誤差を低減することにより正確になる可能性が高い、候補配列修飾のサブセットを特定する方法が提供される。確定比に従って候補修飾を除外することは、対応する修飾ペプチド種が対応する非修飾(野生型)ペプチド種と比較して相対的にまれに起こす候補修飾を除外する。本発明者たちは、このフィルタリング手法が偽陽性の低減に有効であることを見出した。
【0020】
一部の実施形態において、受け取ったタンパク質データは、タンパク質の代表的な試料の各々の副次試料に実施された5または6つの異なる酵素消化により得られたペプチドに実施された質量分析測定から導出され、好ましくは5または6つの酵素消化はそれぞれ、以下:トリプシン、サーモリシン、AspN、プロナーゼ、ペプシン、プロアラナーゼ(ProAlanase)のうちの異なる1つを使用する。本発明者たちは、これらの特定の回数の消化が、僅かな偽陽性に対する高い感度の有利なバランスを提供することを見出した。
【0021】
一部の実施形態において、本方法は、受け取ったタンパク質データにおけるペプチド種の1つまたは複数の群を特定することであって、ペプチド種の各群が、すべて同じ候補配列修飾を有するペプチド種のみを含有し、候補配列修飾が、候補配列修飾の決定されたサブセットの中にあり、各群で異なっている、前記特定すること;およびペプチド種が、特定された群のそれぞれにあることを表すデータを出力すること、をさらに含む。すべて同じ候補配列修飾を有するペプチド種の群を特定することは、ユーザーに情報をより組織的に提示することを可能にし、候補配列修飾の効率的な査定を促進する。この手法は、異なるペプチド種において同じ候補配列修飾をユーザーが複数回査定する二度手間を回避することを助ける。
【0022】
本発明のさらなる態様によると、タンパク質におけるタンパク質配列修飾についての情報を抽出するコンピュータ実装方法であって、タンパク質の代表的な試料の各々の副次試料に実施された少なくとも2つの異なる酵素消化により得られたペプチドに実施された質量分析測定から少なくとも部分的に導出されるタンパク質データを受け取ること;受け取ったタンパク質データを使用して、タンパク質における候補配列修飾を特定すること;残りの候補配列修飾よりも高い平均確率で真性配列修飾を表す、候補配列修飾のサブセットを決定すること;および候補配列修飾の決定されたサブセットを表すデータを出力することを含み、候補配列修飾のサブセットの決定が、候補配列修飾が定量化条件を満たすことに依存して候補配列修飾を選択する工程を含み、候補配列修飾を有するペプチド種の少なくとも選択されたサブセットの質量分析測定により検出された量が、候補配列修飾を有するおよび有さない同じペプチド種の質量分析測定により検出された総量と比べて既定の定量化閾値を超えることを、定量化条件が示す、前記コンピュータ実装方法が提供される。
【0023】
よって、コンピュータ自動化手順を介し、それにより人的労力/時間を節約する、および/または誤差を低減することにより正確になる可能性が高い、候補配列修飾のサブセットを特定する方法が提供される。定量化条件が満たされるか否かに基づいて候補修飾を除外することは、偽陽性を低減するために特に有効であることが見出された。
【0024】
一実施形態において、少なくとも2つの異なる酵素消化は、1つまたは複数の配列特異的酵素消化および1つまたは複数の非特異的酵素消化を含み、少なくとも、配列特異的酵素消化を使用して誘導された少なくとも1つのペプチド種によりカバーされる候補配列修飾のために、1つまたは複数の非特異的酵素消化を使用して誘導されたペプチド種を除外するように、ペプチド種の選択されたサブセットが選択される。配列特異的酵素消化に由来するペプチド種を優先的または独占的に考慮すると、特に高い性能を提供し、偽陽性のさらなる低減を可能にすることが見出された。
【0025】
本開示の実施形態は、添付の図面を参照しながら単なる例としてさらに記載される。
【図面の簡単な説明】
【0026】
【
図1】タンパク質配列についての情報を抽出する方法を描写するフローチャートである。
【
図2】異なる消化に由来するペプチド種によるタンパク質配列の一部分のカバレージを概略的に描写する。
【
図3】本開示の方法の性能を実証するデータを示す。
図3は実際の産物開発プロジェクトの試料に基づいている。
【
図4】本開示の方法の性能を実証するデータを示す。
図4は、配列差異の公知の量を試料中に恣意的に「スパイク」して人工的に生成された試料に基づいている。
【
図5】本開示の方法の性能を実証するデータを示す。
図5は、配列差異の公知の量を試料中に恣意的に「スパイク」して人工的に生成された試料に基づいている。
【
図6】本開示の方法の性能を実証するデータを示す。
図6は、配列差異の公知の量を試料中に恣意的に「スパイク」して人工的に生成された試料に基づいている。
【
図7】本開示の方法の性能を実証するデータを示す。
図7は、配列差異の公知の量を試料中に恣意的に「スパイク」して人工的に生成された試料に基づいている。
【
図8】本開示の方法の性能を実証するデータを示す。
図8は、配列差異の公知の量を試料中に恣意的に「スパイク」して人工的に生成された試料に基づいている。
【
図9】異なる消化および電荷状態の候補修飾を有するおよび有さないペプチド種の試料の検出量の例を概略的に描写する。
【
図10】配列差異の公知の量を試料中に恣意的に「スパイク」して人工的に生成された試料を使用して導出されたデータである、定量化閾値を使用した、本開示の方法の性能を実証しているデータを示す。
【発明を実施するための形態】
【0027】
本開示の様々な実施形態は、コンピュータ実装されている方法に関する。本開示の方法の各工程は、用語の最も一般的な意味におけるコンピュータにより実施することができ、これは、専用デジタル回路を含む本方法のデータ処理工程を実施することができる任意の装置を意味する。コンピュータは、例えば、CPU、RAM、SSD、マザーボード、ネットワークコネクション、ファームウエア、ソフトウエアを含む公知のコンピュータエレメント、および/またはコンピュータに必要な計算動作を実施させる当該技術に公知の他のエレメントの様々な組合せを含むことができる。必要な計算動作は、1つまたは複数のコンピュータプログラムにより規定され得る。1つまたは複数のコンピュータプログラムは、媒体またはデータキャリヤ、任意選択で、コンピュータ可読命令を記憶する非一時的媒体の形態で提供され得る。コンピュータ可読命令がコンピュータにより読み取られると、コンピュータは必要な方法工程を実施する。コンピュータは、自己完結型ユニット、例えば、汎用デスクトップコンピュータ、ラップトップ、タブレット、移動電話、または他のスマートデバイスからなり得る。あるいは、コンピュータは、インターネットまたはイントラネットなどのネットワークを介して互いに接続されている、複数の異なるコンピュータを有する分配型計算システムからなり得る。
【0028】
本開示の実施形態は、タンパク質におけるタンパク質配列修飾についての情報を抽出することに関する。例示的な方法の枠組みは、
図1に概略的に描写され、下記に記載されている。
【0029】
方法は、分析されるタンパク質の代表的な試料の準備から始まる(工程S1)。タンパク質は、例えば、治療用タンパク質であり得る。試料は、当該技術に公知の様々な任意の形態で提供され得る。例えば、典型的なタンパク質試料は、細胞培養の上清から直接得てもよく、細胞破棄により、細菌細胞の封入体の可溶化および復元により、または組織からの抽出により回収してもよい。試料は、また、さらなる機械的または化学的精製工程、例えば、濾過、ダイアフィルトレーション、透析、遠心分離、沈殿、またはクロマトグラフィーに付されてもよい。一態様において、タンパク質試料は、本質的の他のタンパク質を含まず、すなわち、20%未満、任意選択で10%未満、任意選択で5%未満、任意選択で2%未満、任意選択で1%未満、任意選択で0.5%未満、任意選択で0.2%未満の他のタンパク質を含有する。典型的に、およそ300~500μgの試料が準備され得る。
【0030】
試料は、最初に単一試料として処理され得る。例えば、試料は、一般的な消化(工程S2)、例えば、PNGアーゼを使用する酵素脱グリコシル化に付されてもよい。ペプチドパターンの翻訳をより困難にするさらなる断片をもたらすので、グリカンを除去することが望ましいこともある。
【0031】
工程S3では、代表的な試料が副次試料に分けられ、各副次試料が異なる酵素消化に付される。各消化は、異なる酵素または酵素の異なる組合せを使用する。他の条件も、異なる消化の間で変動することがあり、例えば、停止されるまで消化過程を進行させる時間である。典型的には、各消化は単一酵素を使用するが、単一の副次試料における酵素の組合せの使用は、時には適切であり得る(例えば、後続質量分析工程に好適な長さのペプチドを得るために)。本開示の配置では、少なくとも2つの異なる酵素消化が使用される(2つの対応する副次試料に対して)。一部の配置において、酵素消化の数は多く、例えば、少なくとも3つ、任意選択で少なくとも4つ、任意選択で少なくとも5つ、任意選択で少なくとも6つ、任意選択で少なくとも7つ、任意選択で少なくとも8つ、任意選択で少なくとも9つである。1つの配置において、酵素消化の数は、5~9つ、好ましくは5または6つである。異なる消化による副次試料の処理は、「消化1」、「消化2」などと標識されたボックスによって
図1に概略的に描写されている。原則として、任意の数Nのそのような消化が実施され得る。
【0032】
各酵素消化は、以下:トリプシン;サーモリシン;AspN;エラスターゼ;キモトリプシン;LysC;LysN;GluC;ArgC;プロナーゼ;ペプシン;プロアラナーゼのうちの異なる1つまたは組合せを使用する。1つの特定の実施形態では、以下の9つの消化のすべてが使用される:トリプシンのみ;サーモリシンのみ;AspNのみ;エラスターゼのみ;キモトリプシンのみ;LysC+GluC(例えば、1:20の比)の組合せ;プロナーゼのみ;ペプシンのみ;プロアラナーゼのみ。消化は、例えば使用される酵素に応じて、0.5時間~4時間進行させることが可能であり得る。
【0033】
各消化に使用される酵素は、プロテアーゼのクラスに属し、タンパク質分解を駆動し、これは、ペプチド結合を切断してより小さなポリペプチドにすることによるタンパク質の分解である。切断の位置は、消化されるタンパク質および存在する酵素または酵素の組合せによって決まる。よって、各消化はペプチド種の異なる集団を生じる。
【0034】
工程S4において、消化により得られたペプチドは、質量分析測定により処理される。個別の消化の出力は、互いに別々に、または組み合わされて処理され得る。
図1に示されている例では、消化1の出力(消化1を副次試料に適用して得られたペプチド)が第1の質量分析方法MSにより処理される、消化2の出力(消化2を副次試料に適用して得られたペプチド)が第2の質量分析方法MSにより処理される、等々である。一部の配置において、各質量分析方法は、液体クロマトグラフィータンデム質量分析(LC-MS/MS)を含む。LC-MS/MSは、ペプチド種を分析するための周知の分析化学技術である。液体クロマトグラフィーカラムは、質量分析システムのイオン源と接続されており、このことは、液体クロマトグラフィーにより分離された試料の成分が質量分析システムに直接供給されることを可能にする。ペプチドm/zシグナルに対応する配列情報を得るため、質量分析システムは、タンデムモード(MS/MS)で作動して、試料組成についての広範囲な情報を獲得する。液体クロマトグラフィーカラムから受け取った成分はイオン化され、続いて第1質量分析計において質量対電荷比に従って分離される。次いで、分離されたイオンは、より小さな断片イオンに分割され、これはペプチド断片と称されることもある。ペプチド断片は、第2の質量分析計の作動により(例えば、同じまたは異なる質量分析計のいずれかによる第2の質量分析工程により)分離され、検出される。
【0035】
以降の工程S5は、コンピュータ実装され得る。
【0036】
コンピュータ実装工程において、各ペプチド種は、少なくとも以下:i)アミノ酸配列;ii)ペプチド種を生成した酵素消化;ならびにiii)候補修飾が存在するか否かを示す修飾状態、および候補修飾が存在する場合、修飾の性質およびアミノ酸配列位置、により規定され得る。一部の配置において、各ペプチド種は、iv)質量分析測定における電荷状態によりさらに規定される。
【0037】
工程S5では、工程S4の質量分析測定から少なくとも部分的に導出されたタンパク質データが受け取られる。よって、タンパク質データは、各々の副次試料に適用された異なる酵素消化により得られたペプチドに実施された質量分析測定から導出される。タンパク質データは、この方法で分析されたペプチドについての情報を表す、当該技術に公知の様々な形態のいずれかを取ることができる。例えば、タンパク質データは、測定されたペプチド(MS)またはペプチド断片(MS/MS)の質量を、修飾を有するおよび有さない対応するペプチド種の予測理論値と比較することによって得られる情報を含んでもよい。Mascot Error Tolerance Search(Matrix Science Inc.)またはByonic(Protein Metrics Inc.)などの特別なソフトウエアを用いてもよい。これらのソフトウエアソリューションは、予測外の質量シフトを特定することができ、これらの質量シフトを配列修飾としてアノテートすることができる。
【0038】
工程S6では、工程S5から受け取ったタンパク質データを使用して、タンパク質における候補配列修飾を特定する。これは、タンパク質データを分析して、予想外の質量シフトが候補配列修飾であると特定することによって達成され得る、またはタンパク質データは、上述されたように、この情報が既にアノテートされていることがある。得られた候補配列修飾は、通常、妥当性について手動により検討して調べる必要がある(すなわち、偽陽性の数を低減するために)。下記に記載されている本方法の工程は、手動による検討を自動的な検討に置き換える、または手動による検討が必要な候補修飾の数を大きく低減する。
【0039】
工程S7では、残りの候補配列修飾よりも高い平均確率で真性配列修飾を表す、候補配列修飾のサブセットが決定される。決定されたサブセットは、このように真性修飾である可能性が高い修飾のリストを表す。リストは、コンピュータ実装工程を介して得られ、よって、手動による検討の必要性を低減または回避する。リストは、ユーザー選択に従ったユーザーへの出力(工程S8)であり得る(例えば、出力データストリームもしくはファイルとして、またはコンピュータディスプレイ上の指示として)。候補配列修飾のサブセットの決定は、ペプチド種(消化により誘導されたペプチドの)によるアミノ酸位置のカバレージに基づいた、任意選択で異なる酵素消化に由来するペプチド種によるカバレージに基づいたフィルタリングを含む。
【0040】
タンパク質配列の例示的セグメントのアミノ酸位置のカバレージが、
図2に概略的に描写されている。ここで、配列(10と標識された)の下方の水平線は、異なるペプチド種を表す。ペプチド種は、これらを得るためにどの酵素消化が使用されたかに従って、群11~17に群分けされている。よって、群11は、第1の酵素消化を使用して得られたペプチド種の部分を示す、群12は、第2の酵素消化を使用して得られたペプチド種の部分を示す、群13は、第3の酵素消化を使用して得られたペプチド種の部分を示す、等々である。分かるように、異なるペプチド種によるカバレージは、アミノ酸配列10に沿った位置に従って変わる。位置Aでは、例えば、カバレージは、群11、12、13、16および17のペプチド種により提供され(群14および15はカバレージがない)、一方、位置Bでは、カバレージは、群11~15および17のペプチド種により提供される(群16はカバレージがない)。
【0041】
配置において、工程S7のサブセットの決定は、それぞれが修飾を含有する(少なくとも2つの酵素消化により得られたペプチドから誘導された)少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択することを含む。よって、修飾を有する十分に多い数の異なるペプチド種(同じまたは異なる消化に由来する)によりカバーされていない位置における候補配列修飾が、除外される。よって、決定工程S7は、対応する配列位置が、ペプチド種によりどのようにカバーされているかに少なくとも基づいて、候補修飾を除外するフィルタとして作用する。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「noPep」と称される。多くの異なるペプチド種における同じ修飾の観察は、修飾が真性修飾であるより高い可能性を示す。よって、単一のペプチド種(または少数の異なるペプチド種)のみが存在する修飾の除去は、偽陽性(すなわち、真性ではない候補配列修飾)を効率的に低減する。このフィルタリング手法の有効性は、下記に記載されている
図4および5に示されているデータによって実証されている。下記に記載されているように、工程S7は、他の除外基準に基づいてフィルタを追加的に含んでもよい。
【0042】
異なるペプチド種によるカバレージに基づいたフィルタリングをより厳格にすることができ、それによって偽陽性の除外を増加することができる。最適なバランスは、偽陽性を除外する信頼性と真陽性の除外の回避または最小化との間で取られてもよい。一部の配置では、フィルタリングを強化して、修飾を有する少なくとも3つ、任意選択で少なくとも4つ、任意選択で少なくとも5つ、任意選択で少なくとも6つの異なるペプチド種によりカバーされていない候補配列修飾を除外する。そのような強化フィルタリングの効果が、
図5Bに示されている。
【0043】
一部の実施形態において、工程S7のサブセットの決定は、それぞれが修飾を含有し、かつ異なる酵素消化を使用して得られたペプチドから誘導された少なくとも2つの異なるペプチド種によりカバーされているアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択することを含む。よって、少なくとも2つの異なる酵素消化に由来するペプチド種によりカバーされていない位置の候補配列修飾が、除外される。よって、決定工程S7は、対応する配列位置が、異なる酵素消化に由来するペプチド種によりどのようにカバーされているかに少なくとも基づいて、候補修飾を除外するフィルタとして作用する。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「消化の数」と称される。この手法は、偽陽性の除去に極めて有効であり、それは、そのような偽陽性が主にランダムに起こり、多数の異なる消化により生成されたペプチド種に存在する可能性が低いからである。他方、真陽性は、異なる酵素により生成されたペプチドに見られる。このフィルタリング手法の有効性は、下記に記載されている
図3に示されているデータによって実証されている。
【0044】
異なる酵素消化によるカバレージに基づいたフィルタリングをより厳格にすることができ、それによって偽陽性の除外を増加することができる。最適なバランスは、偽陽性を除外する信頼性と真陽性の除外の回避または最小化との間で取られてもよい。一部の配置では、フィルタリングを強化して、少なくとも3つ、任意選択で少なくとも4つ、任意選択で少なくとも5つの異なる酵素消化を有するペプチド種によりカバーされていない候補配列修飾を除外する。そのような強化フィルタリングの効果が、
図5Aに示されている。
【0045】
工程S7の前の前処理
一部の配置において、タンパク質データは、工程S7の分析の前に前処理される。タンパク質データの前処理は、ペプチド種の選択されたサブセットに関連するデータを特定すること、および工程S7の候補配列修飾のサブセットの決定における使用から、ペプチド種の選択されたサブセットを除外することを含む。
【0046】
一部の配置において、ペプチド種は、a)ある候補修飾が存在する場合、およびb)同じアミノ酸配列を有するが候補修飾を有さない対応するペプチド種の質量分析測定における最高強度(頂点のピーク高さ)が既定の閾値強度未満である場合に、除外される。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「WT強度」と称される。そのような「野生型」ペプチド種(すなわち、修飾を有さないペプチド種)の質量分析測定における低強度は、修飾を有する対応するペプチド種から得た情報が、相対的に信頼性に欠けることを示す。本質的に、質量分析測定は、この特定の配列(修飾を有するまたは有さない)を有するペプチド種を測定するには相対的に非効率である。換言すると、一部のペプチドは、各々の配列によって規定される物理化学的特性のため、他より強度が低い。そのような配列への修飾は、典型的にはイオン化特性を完全に変化させることはない。よって、低強度「野生型」は、低強度(したがって、相対的に信頼性に欠ける)修飾ペプチドに関連する傾向がある。したがって、後続分析からそのようなペプチド種を除外することは、偽陽性を効率的に低減することに寄与する。これは、下記に考察されている
図7に示されているデータによって実証されている。
【0047】
一部の配置において、ペプチド種は、a)ある候補修飾が存在する場合、およびb)同じアミノ酸配列を有するが候補修飾を有さない対応するペプチド種の質量分析測定における最高精度スコアが既定の閾値スコア未満である場合に、除外される。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「WTスコア」と称される。この文脈における「精度スコア」は、理論的断片化パターンと、質量分析測定により生成された断片化パターンとを比較するアルゴリズムを適用した結果を指す。精度スコアは、マッチングの程度/理論的断片および観察された断片の相関関係、を定量化する計量であり得る。スコアが高いほど、高い相関関係(より良好なマッチング)を示す。上記に考察された低強度の場合と同様に、野生型ペプチド種の低精度スコアは、修飾を有する対応するペプチド種から得た情報が相対的に信頼性に欠けることを示す。したがって、後続分析からそのようなペプチド種を除外することは、偽陽性を効率的に低減することに寄与する。
【0048】
一部の配置において、前処理は、ペプチド種を生成した酵素の切断部位に候補修飾を有する各ペプチド種を除外することを含む。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「除外切断部位」と称される。修飾は、酵素の消化行動に影響を及ぼすことがあり、これは、修飾の位置に対応する開始または終了点を有するペプチド種が、その修飾を検出するために最適ではないことを意味する。したがって、後続分析からこれらのペプチド種を除外することは、偽陽性を低減することに寄与する。
【0049】
一部の配置において、前処理は、既定の閾値長さを超える長さを有するペプチド種を除外することを含む。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「ペプチド長さ」と称される。長いペプチド種に特定された修飾は、検証することが一般により困難であり、したがって信頼性が低い。長いペプチド種(例えば、>3500Da)は、典型的には高度に荷電されている(4~6)。高度に荷電されたペプチドは、典型的には不十分なMS/MSカバレージを引き起こす。この理由は、高度に荷電されたペプチドが、質量分析装置の衝突セルに向かってかなり速く加速され、このことが、低荷電ペプチド種と比較して少ない断片をもたらすからである。異なる断片化モードを使用して、高度に荷電されたペプチドから「良好な」MS/MSデータ(すなわち、高断片イオンカバレージ、高い強度)を得ることが可能である。しかし、そのような断片化モード(例えば、電子移動解離(ETD))は、典型的に少ない電化を有する小さなペプチド種への代替案(例えば、衝突誘起解離(CID))より低いMS/MSスコアをもたらす傾向がある。したがって、既定の閾値長さより長いペプチド種を除外することは、偽陽性を低減するために有効である。
【0050】
工程S7における他の選択基準
一部の配置において、工程S7における候補配列修飾のサブセットの決定は、アミノ酸配列位置をカバーしかつ候補配列修飾を含有するペプチド種の数と、アミノ酸配列位置をカバーしかつ候補配列修飾を含有しないペプチド種の数との比が既定の閾値比以上であるアミノ酸配列位置に候補配列修飾があることに依存して、候補配列修飾を選択する工程を含む。このタイプのフィルタリングに対応するフィルタ設定は、例えば、下記に「比フィルタ」と称される。この基準は、対応する修飾ペプチド種が対応する非修飾(野生型)ペプチド種と比較して相対的にまれに起こすペプチド種における候補修飾を除外する。このフィルタリング手法の有効性は、下記に記載されている
図6に示されているデータによって実証されている。一部の実施形態において、最少比(既知閾値比)は、2~10%の範囲、好ましくは2~5%の範囲、好ましくは2~4%の範囲、好ましくは2.5~3.5%の範囲、好ましくは約3%に設定される。
【0051】
性能を実証する実験
性能を実証する実験は、本方法により出力される候補配列修飾のサブセットを得るため、候補配列修飾の選択または割引用の構成選択肢を規定する「フィルタ設定」を参照しながら、下記に記載される。フィルタ設定は、以下(これらのうちのいくつかは上記で考察されている)を含む。
【0052】
「SVスコア」-候補修飾を含有する断片の質量分析測定における、理論的断片と観察された断片(ペプチド種)との相関関係の程度を表す精度スコアである。
【0053】
「WTスコア」-候補修飾を含有しない断片の質量分析測定における、理論的断片と観察された断片(ペプチド種)との相関関係の程度を表す精度スコアである。
【0054】
「ppm」-質量分析測定の質量精度である。
【0055】
「MS1 Corr」-同じ配列、消化タイプ、電荷状態、修飾および修飾位置を有するペプチド種のすべての特定のため、最高のMS1相関関係(理論的な同位体パターンと測定された同位体パターンを比較する)を表す計量である。スコア1は完全なマッチである。
【0056】
「ペプチド長さ」-ペプチド種におけるアミノ酸の数である。
【0057】
「WT強度」-同じ消化タイプを有し、存在するすべての電荷状態を考慮して、候補修飾を含有する修飾ペプチド種に対応する非修飾ペプチド種のすべての特定のための、質量分析測定における最高強度(頂点のピーク高さ)を示す。
【0058】
「除外切断部位」-酵素切断部位に対応する候補配列修飾が除外されるか否かを示す「はい」または「いいえ」の設定である。
【0059】
「レシオフィルタ」-アミノ酸配列位置をカバーし、かつ候補配列修飾を含有するペプチド種の数と、アミノ酸配列位置をカバーし、かつ候補配列修飾を含有しないペプチド種の数との比である。
【0060】
「noPep」-候補配列修飾のアミノ酸配列位置をカバーし、かつ修飾を含有するペプチド種の数である。
【0061】
「消化の数」-候補配列修飾のアミノ酸配列位置をカバーし、修飾を含有し、異なる酵素消化を使用して得られたペプチドから誘導されたペプチド種の数である。
【0062】
「XIC比」-候補配列修飾のXIC面積と、修飾を含有しない対応するペプチド種のXIC面積との比を使用した、候補配列修飾の最小XIC比を示す。
【0063】
図3は7つの異なる産物開発プロジェクトへの本方法の適用を描写する表である。
【0064】
図3に示されているデータを生成するため、7つの異なるプロジェクトによる精製タンパク質試料(通常、350μg)を、8Mの塩酸グアニジンにおいてpH7.0で変性させ、DTT(ジチオスレイトール)の添加により還元し、37℃で1時間インキュベートした。還元試料のS-カルボキシメチル化を、ヨードアセチル酸の添加により実施した。いくつかの酵素により消化する前に、バッファーを、NAP5カラムを使用して消化バッファー(50mMのTris、2mMのCaCl
2、pH7.5)に交換した。試料を9つの等しい画分に分けて、異なる酵素を添加した。消化条件は酵素依存性であった。以下の条件を使用した。
【0065】
【0066】
得られた消化を、Thermo Fisher ScientificのOrbitrap Fusion質量分析計(データ依存性設定)に接続されたRP-LCにより分離させた。分離には、ACQUITY UPLC CSH C18カラム(水、130Å、1.7μm、2.1mm×150mm)による120分勾配(移動相A:0.1%v/vのギ酸(FA)を有する水;移動相B:0.1%v/vのFAを有するアセトニトリル)を使用した。Fusion-Orbitrapでは、データ依存性設定を使用した。
【0067】
図3の第1縦列(Projekt)は、プロジェクトを表す番号を含む。第2の縦列は、本方法の工程S6において特定された候補配列修飾の数を表す。第3の縦列は、工程S7で決定されたサブセットにおける配列修飾の数を示す。括弧内の数は、偽陽性の低減率を示し、例えば、第1横列の9/2447=0.4%は、99.6%のヒットがフィルタ除去されたことを意味する。フィルタ設定は以下のとおりであった:WT強度>1e6;SVスコア>140;WTスコア>220;ペプチド長さ:5~32;MS1 Corr>0.95;ppm<4;消化の数≧2(Orbitrap Fusion LC-MS/MSデータ依存性トップタイムにより適用されたデータ;IonTrap中CID;120分勾配、9つの消化)。これらの結果は、本方法が多数の候補配列修飾から高い信頼性で真陽性を特定すること、ならびにそのような多量の候補配列修飾のうちからすべての、または実質的にすべての偽陽性を高い信頼性で除外することができることを実証している。
図3のデータは、スパイクイン(spiked-in)配列修飾により人工的に作り出されたデータセットではないことに留意すること。
図3のデータは、本方法を使用した実際のプロジェクトによる試料の分析から導出されている。どのようなSVが試料に実際に存在しているか不明であるので、感度(すなわち、真陽性)についての結果は、この場合に提供することができない。
図4~8の基礎となるスパイクインデータ(下記に考察される)と対照的であり、ここでは、試料中にどれぐらい多くの公知であり予想されたSVが、本方法を使用して特定されるかを評価することが可能である。
【0068】
図4~8および10は、本開示の実施形態の性能を実証する実験の結果を示す棒グラフである。
【0069】
試料に存在するすべての配列修飾が検出され得るか否かを定量的に決定するため、それぞれ第1抗体を含有する9個の異なる試験試料(1~9)を、表2に示されているように、溶液に第2抗体を0.5%レベルで添加することによってスパイクした。9個の試験試料の追加のセット(10~18)は、第2抗体を第1抗体により0.5%のレベルでスパイクすることによって生成した。
【0070】
【0071】
合計で18個のそのようなスパイキング試料が生成された。これらのスパイキング試料の消化、Orbitrap Fusion質量分析計に接続されたRP-LCを使用した後続の分析を、
図3について上記に記載されたように実施した。
【0072】
これらの18個の試料において、理論的合計の140個の位置は、その位置から≧7アミノ酸NおよびC末端までの、そうでなければ同一の配列内にある第1と第2抗体の間で1個のアミノ酸のみによって異なり、天然に存在する配列バリアントを模倣することが予想される。得られたLC-MS/MSファイルを、Software-Tool Byonic(Protein Metrics,San Carlos,CA/USA)の使用により処理して、タンパク質データにした。このソフトウエアは、実験データ(ペプチド質量(MS)およびペプチド断片(MS/MS))を、インシリコで生成された対応する「主抗体」(すなわち、試料中に99.5パーセントで存在する抗体)のアミノ酸配列の理論的データと比較した。結果をランク付けし、Byonicにより生成された算出データセットを使用してソフトウエアByologic(Protein Metrics)により可視化した。Byologicからエクスポートされた18個の試料のタンパク質データをプールし、次いで分析した。スパイクされた試料において正確に決定された配列バリアントの数を、理論的予想配列バリアントと比較することによって、本方法における全体的な感度(真陽性)に対する個別のフィルタ設定の影響を定量的に査定することが可能であった。
【0073】
図4~8および10では、それぞれの場合において、棒は対で表されており、それぞれの対は、左側に白一色棒および右側に網掛け棒を含む。それぞれの白一色棒の高さは、感度%を表し、左側の縦軸に提示されているスケールに対応する。感度は、得られた真性候補配列修飾と、スパイキングに使用された抗体の配列に基づいた真性候補配列修飾の算出合計との比と定義される。それぞれの網掛け棒の高さは、偽陽性の総数を表し、右側の縦軸に提示されているスケールに対応する。偽陰性は、スパイキングによりもたらされる真性配列修飾に対応しない候補配列修飾であり、絶対数で提示されている。
図4Bおよび5~8において、偽陽性の数は、偽陽性候補配列修飾の数を表す。
図4Aにおいて、偽陽性数は偽陽性配列修飾を有するペプチド種の数に対応し、それは、これらの結果を生成するために使用される方法が(本開示の方法と異なり)、同じ候補修飾を有する異なるペプチド種を1つのヒットにプールする工程を含まないからである。
【0074】
図4Aおよび4Bは、代替的手法と比較して改善された性能を実証する比較実験の結果を描写するグラフである。このグラフは6つの異なる構成(それぞれ設定A~Fと称される)のそれぞれに一対の棒を描写している。
【0075】
設定A~C(
図4Aに示されている)は、本開示の方法が使用されない構成を参照する。それぞれの場合では、トリプシンが主酵素として使用される。「トリプシン_旧」と称され得る設定Aの構成では、トリプシンのみを使用して、質量分析のためにペプチドを得る。「3酵素_旧」と称され得る設定Bの構成では、トリプシンを最初に使用し、Asp-Nおよびサーモリシンを代替的酵素として使用して、トリプシン「野生型」ペプチドが検出されなかった配列カバレージにおけるギャップを埋めた。代替的酵素の最も強力な野生型ペプチドのみを、それぞれのギャップを埋めるために使用した。「9酵素_旧」と称され得る設定Cの構成では、設定Bの手法を拡大して、トリプシンに加えて8つの代替的酵素/酵素混合物を使用して、トリプシン「野生型」ペプチドが検出されなかった配列カバレージにおけるギャップを埋めた。代替的酵素の最も強力な野生型ペプチドのみを、それぞれのギャップを埋めるために使用した。8つの代替的酵素/酵素混合物は、Asp-N、サーモリシン、キモトリプシン、Glu-C/Lys-C、プロナーゼ、ペプシン、プロアラナーゼ、およびエラスターゼであった。設定A~Cでは、配列バリアントをXIC比の>0.1%でフィルタ処理した。他のフィルタ設定は、ppm=±4ppm、サイズ=750~3100ダルトン、精度スコア>140、強度>1e7であった。
【0076】
設定D~F(設定Dは
図4Aに示されており、設定EおよびFは
図4Bに示されている)は、9つの酵素/酵素混合物(トリプシン、Asp-N、サーモリシン、キモトリプシン、Glu-C/Lys-C、プロナーゼ、ペプシン、プロアラナーゼ、およびエラスターゼ)が等しく使用されている構成を参照する。フィルタリングした後に保持された野生型ペプチドに対応するすべての配列バリアントを使用した。
【0077】
「9酵素_新」と称され得る設定Dの構成では、9つすべての酵素を等しく使用した(代替的酵素の最も強力な野生型ペプチドのみを、それぞれのギャップを埋めるために使用したわけではない)が、本開示の実施形態によるフィルタリングを適用しなかった。「野生型ペプチド」は、以下の前フィルタ処理設定:ppm=±4ppm、サイズ=750~3100ダルトン、精度スコア>140、強度>1e6を使用して前フィルタ処理した。
【0078】
「9酵素_新+フィルタ1」と称され得る設定Eの構成では、9つのすべての酵素を本開示の実施形態によるフィルタリングと共に使用した。フィルタリングは、以下の設定により実施して、配列バリアントを見逃さないことを確実にした:SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、レシオフィルタ>2%、消化の数≧1、noPep≧2、XIC比>0.1%。
【0079】
「9酵素_新+フィルタ2」と称され得る設定Fの構成では、9つのすべての酵素を本開示の実施形態によるフィルタリングと共に使用した。フィルタリングは、以下の設定により実施して、旧手法に類似した(すなわち、設定Bに類似した)感度を達成したが、偽陽性の低減は>90%であった:SVスコア>180、WTスコア>260ppm±3ppm、MS1 Corr>0.96、ペプチド長さ=7~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、レシオフィルタ>10%、noPep≧2、消化の数≧1、XIC比>0.1%。
【0080】
設定Dは高い感度を達成するが、高い擬陽性も達成し、一方で設定EおよびFは、本開示の実施形態が感度と偽陽性との改善されたバランスを提供することを実証していることが、
図4Aおよび4Bから分かる。設定Eでは、感度は設定Dと同じように高いが、かなり少ない偽陽性を有する。設定Fでは、設定A~Cにより表される旧手法のいずれかと同じような高い感度が達成されるが、かなり少ない偽陽性(>92%の低減)を有する。
【0081】
図5Aは、それぞれが修飾を含有し、かつ異なる酵素消化(フィルタ設定「消化の数」に対応する)を使用して得られたペプチドからそれぞれ誘導されている異なるペプチド種によるアミノ酸配列の必要とされるカバレージの関数として、本開示の実施形態の方法において感度および偽陽性がどのように変動するかを実証するさらなる実験の結果を描写するグラフである。フィルタリング工程の前に、予測修飾の総数(真性ヒットおよび偽陽性ヒットを含む)は、25694であった。「1」と標識された第1の棒対は、単一ペプチド種による最小カバレージが候補選択のために必要である場合に対応する。「2」と標識された第2の棒対は、2つの異なる消化に由来する2つのペプチド種による最小カバレージが候補選択のために必要である場合に対応する。「3」と標識された第3の棒対は、3つの異なる消化に由来する3つのペプチド種による最小カバレージが候補選択のために必要である場合に対応する。「4」と標識された第4のカラム対は、最小カバレージが4つの異なる消化に由来する4つのペプチド種によるものである場合に対応する。他のフィルタ設定は、それぞれの場合に一定に保持されており、以下のとおりであった:SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、レシオフィルタ>0%、noPep≧1、XIC比>0%。
【0082】
異なる酵素消化に由来する異なるペプチド種による最小カバレージを増加することは、偽陽性を素早く減少させ、同時に感度に対して限定された悪影響を有することが、
図5Aから分かる。2つのペプチドの最小カバレージを必要とすることは、偽陽性に有意な低減をもたらし、感度に測定可能な変化をもたらさない。2つの異なる消化に由来する2つのペプチドの最小カバレージを必要とすることは、高い感度と僅かな偽陽性の良好なバランスを提供する。
【0083】
図5Bは、異なるペプチド種によるアミノ酸配列の必要とされるカバレージ(フィルタ設定「noPep」に対応する)の関数として、本開示の実施形態の方法において感度および偽陽性がどのように変動するかを実証するさらなる実験の結果を描写するグラフである。フィルタリング工程の前に、予測修飾の総数(真性ヒットおよび偽陽性ヒットを含む)は、25694であった。「1」と標識された第1の棒対は、単一ペプチド種による最小カバレージが候補選択のために必要である場合に対応する。「2」と標識された第2の棒対は、2つのペプチド種による最小カバレージが候補選択のために必要である場合に対応する。「3」と標識された第3の棒対は、3つのペプチド種による最小カバレージが候補選択のために必要である場合に対応する。「4」と標識された第4のカラム対は、4つのペプチド種による最小カバレージが候補選択のために必要である場合に対応する。他のフィルタ設定は、それぞれの場合に同じに保持されており、以下のとおりであった:SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、レシオフィルタ>0%、消化の数≧1、noPep≧1、XIC比>0%。
【0084】
異なるペプチド種による最小カバレージを増加することは、偽陽性を素早く減少させ、同時に感度に対して限定された悪影響を有することが、
図5Bから分かる。2つのペプチドの最小カバレージを必要とすることは、偽陽性に有意な低減をもたらし、感度に測定可能な変化をもたらさない。3つのペプチドの最小カバレージを必要とすることは、高い感度と僅かな偽陽性の良好なバランスを提供する。
【0085】
図6は、アミノ酸配列位置をカバーし、かつ候補配列修飾を含有するペプチド種の数と、アミノ酸配列位置をカバーし、かつ候補配列修飾を含有しないペプチド種の数との比(フィルタ設定「レシオフィルタ」に対応する)の最小値の関数として、本開示の実施形態の方法において感度および偽陽性がどのように変動するかを実証するさらなる実験の結果を描写するグラフである。第1の棒対は、少なくとも1%であることを要する比の値に対応する。第2から第5の対の棒は、最小比の値の2%、3%、5%および10%をそれぞれ表す。他のフィルタ設定は、それぞれの場合に同じに保持されており、以下のとおりであった:SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、消化の数≧1、noPep≧2、XIC比>0%。
【0086】
最小比の値を増加することは、偽陽性に素早い減少をもたらし、感度に有意の遅い低減をもたらすことが、
図6から分かる。
図5Aおよび5Bのように、本明細書におけるフィルタリング工程の前の予測修飾の総数(真性ヒットおよび偽陽性ヒットを含む)は、25694であった。最小比の値を1%から2%に増加すると、偽陽性を有意に減少させ、一方で感度には有意に影響しない。最小比の値を3%に増加すると、高い感度と非常に僅かな偽陽性との良好なバランスをもたらす。最小比の値が高いと、極めて僅かな偽陽性をもたらし、同時に感度を有用なレベルに保持する。
【0087】
図7は、質量分析測定の必要とされる最小強度(フィルタ設定「WT強度」に対応する)の関数として、本開示の実施形態の方法において感度および偽陽性がどのように変動するかを実証するさらなる実験の結果を描写するグラフである。左から右に1e+05から1e+08に増加する最小強度にそれぞれ対応する棒の対が示されている。他のフィルタ設定は、それぞれの場合に同じに保持されており、以下のとおりであった(レシオフィルタなし):SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、除外切断部位=「はい」、レシオフィルタ>0%、消化の数≧1、noPep≧2、XIC比>0.1%。
【0088】
最小強度の値を増加することは、偽陽性に素早い減少をもたらし、感度に有意の遅い低減をもたらすことが、
図7から分かる。
図5および6のように、本明細書におけるフィルタリング工程の前の予測修飾の総数(真性ヒットおよび偽陽性ヒットを含む)は、25694であった。最小強度の値を1e+05から1e+06%に増加すると、偽陽性を有意に減少させ、一方で感度には有意に影響しない。最小強度の値を1e+07に増加すると、高い感度と非常に僅かな偽陽性との良好なバランスをもたらす。最小強度の値が高いと、極めて僅かな偽陽性をもたらし、同時に感度を有用なレベルに保持する。
【0089】
図8は、酵素の増加数の関数として、本開示の実施形態の方法において感度および偽陽性がどのように変動するかを実証するさらなる実験の結果を描写するグラフである。2~9つの酵素を含む酵素群にそれぞれ対応する棒の対が、以下のように示されている:
群i=トリプシン、ペプシン;
群ii=トリプシン、ペプシン、プロアラナーゼ;
群iii=トリプシン、サーモリシン、ペプシン、プロアラナーゼ;
群iv=トリプシン、サーモリシン、プロナーゼ、ペプシン、プロアラナーゼ;
群v=トリプシン、サーモリシン、AspN、プロナーゼ、ペプシン、プロアラナーゼ;
群vi=トリプシン、サーモリシン、AspN、エラスターゼ、プロナーゼ、ペプシン、プロアラナーゼ;
群vii=トリプシン、サーモリシン、AspN、エラスターゼ、GluC、プロナーゼ、ペプシン、プロアラナーゼ;
群viii=トリプシン、サーモリシン、AspN、エラスターゼ、キモトリプシン、GluC、プロナーゼ、ペプシン、プロアラナーゼ。
【0090】
対照として、1つの酵素(ペプシン)のみの感度および偽陽性が群ixに示されている。酵素消化に使用された9つのうち、ペプシンは、下記に記述されたフィルタ設定を使用した場合、最高の感度を示した。したがって、酵素消化に使用される至適基準のトリプシンの代わりにペプシンを、ここで比較として使用した。
【0091】
同じフィルタ設定をそれぞれの場合適用し、以下のとおりであった:SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、レシオフィルタ>2%、消化の数≧1、noPep≧2、XIC比>0.1%。
【0092】
酵素の数の増加は感度を増加させるが、偽陽性も増加させることが、
図8から分かる。
図5~7のように、本明細書におけるフィルタリング工程の前の予測修飾の総数(真性ヒットおよび偽陽性ヒットを含む)は、9つすべての酵素を使用した場合、25694であった。単一の消化に由来するデータのみを使用した対照と比較して、かなり良好な感度を、2つの酵素の使用により既に達成することができる。高い感度と少ない数の偽陽性との特に良好なバランスは、5~6つの酵素で達成されるが、より多くの数の酵素は、適度な偽陽性を伴ってさらに良好な感度を達成する。
【0093】
一部の実施形態において、本方法は、受け取ったタンパク質においてペプチド種の1つまたは複数の群を特定することを含み、ペプチド種のそれぞれの群は、すべてが同じ候補配列修飾を有するペプチド種のみを含有する。候補配列修飾は、候補配列修飾の決定されたサブセットにあり、各群で異なっている。よって、群分け方法を、上記に記載されたフィルタリング工程の任意の組合せの後に実施することができる。本方法は、ペプチド種が、特定された群のそれぞれにあることを表すデータを出力することを含んでもよい。データは、特定された各群におけるペプチド種のリストを含んでもよい。データは、グラフとして、または他の非テキストベースの表現としての表示に適応し得る。方法は、選択可能な選択肢を提供して、1つまたは複数の群を規定するように実行され得る。選択可能な選択肢は、適用されるフィルタ設定の規定を含むことができる(例えば、WT強度>1e6、SVスコア>140、ペプチド長さ5~32、MS1スコア>0.95などに対応する)。選択可能な選択肢は、修飾の規定を含むことができる(例えば、アラニンからセリンSVへの交換)。選択可能な選択肢は、修飾の位置についての規定を含むことができる。位置は、鎖(例えば、軽鎖LC)およびアミノ酸(例えば、アミノ酸25)のいずれかまたは両方の規定を含むことができる。
【0094】
一部の実施形態において、工程S7におけるサブセットの決定は、候補配列修飾が、定量化条件を満たすことに依存して、候補配列修飾を選択することを含む。定量化条件は、候補配列修飾を有するペプチド種の検出された相対量(すなわち、修飾を有するおよび有さない対応するペプチド種の合計検出量に対して)が、相対的に高いはずであることを概ね必要とする。本発明者たちは、そのような定量化条件を満たすことが、候補配列修飾が真性配列修飾であることに強く創刊する可能性があり、したがってフィルタリングのために有効な基礎を提供すると推論した。このタイプのフィルタリングに対応するフィルタ設定は、本明細書において「Quant」と称され得る。
【0095】
そのようなフィルタを有効に実行することの課題は、適切な計量を公式化して、候補配列修飾を有するペプチド種の検出された相対量を正確に表すことである。状況の複雑さが、
図9に概略的に例証されており、質量分析測定の例示的な結果を描写している。
【0096】
図9は、候補配列修飾を有するおよび有さないペプチド種をボックスとして概略的に描写している。ボックスの右側縦列は、候補修飾を有するペプチド種を表す(右側縦列の各ボックス中に黒色垂直棒線により概略的に示されている)。ボックスの左側縦列は、候補修飾を有さない対応するペプチド種(すなわち、野生型ペプチド種)を表す。9つの横列(a)~(i)は、各横列が一対の対応するペプチド種(候補配列修飾を有するおよび有さない)を含有して提示されている。各ボックス内において、電荷状態は、Ζ2(二倍荷電)、Ζ3(三倍荷電)またはΖ4(四倍荷電)により示されている。各々のペプチド種に対応する、質量分析測定における時間強度曲線部分は、カウント
*sを伴う「面積」の後に示されている。「n.d.」とマークされているボックスは、検出されていないペプチド種(修飾を有する)に対応する。横列は、異なるペプチド種またはペプチド種の異なる電荷状態に対応する。示されている例において、ペプチド種は、3つの異なる消化(Dig1、Dig2およびDig3と示されている)に由来する。Dig1およびDig2のそれぞれには、2つの異な電荷状態(z2およびz3)の単一ペプチド種が示されている(Dig1にPep1およびDig2にPep2が標識されている)横列(a)および(b)はDig1由来のPep1に対応し、横列(c)および(d)はDig2由来のPep2に対応する。Dig3では、2つのペプチド種が示されている(Pep3およびPe4と標識されている)。横列(e)および(f)は、電荷状態のz2およびz3のPep3に対応する。横列(g)、(h)および(i)は、電荷状態のz2、z3およびz4のPep4に対応する。この特定に例において、Dig1はキモトリプシン消化であり、Pep1は、アミノ酸配列範囲613~629に対応するペプチド種であった。Dig2はトリプシン消化であり、Pep2は、アミノ酸配列範囲608~623に対応するペプチド種であった。Dig3はLysC+GluC消化であり、Pep3は、アミノ酸配列範囲604~620に対応するペプチド種であり、Pep4は、同じLysC+GluC消化から誘導されるアミノ酸配列範囲604~623に対応するペプチド種であった。
【0097】
原則として様々な計量を公式化して、配列修飾を有するペプチド種の検出された相対量を表すことができる。
【0098】
本発明者たちにより考慮される計量の例を下記に記載し、計量1~7と称する。各計量の決定値を既定の定量化閾値と比較して、Quantフィルタリングを実行してもよい(すなわち、工程S7のサブセットが候補配列修飾を含むか否かを決定するため)。
【0099】
例示的な配置において、液体クロマトグラフィータンデム質量分析(LC-MS/MS)であり得る質量分析測定は、時間強度曲線を出力する。所定のペプチド種では、ペプチド種の検出量は、ペプチド種の対応する曲線部分の最大値(ピーク強度)およびペプチド種に対応する曲線部分下面積の両方に強く相関する。下記の計量についての考察において、個別のペプチド種の検出量を考察する場合、「面積」が参照される。方法は、面積の代わりに最大値(ピーク強度)を使用して、実際、ペプチド種の検出量に相関する質量分析測定から抽出された任意の他の好適なパラメータを使用して、実行することもできる。
【0100】
図9の縦列21に列挙されているパーセンテージは、それぞれの横列において、右側縦列のペプチド種(すなわち、修飾を有する)の面積と、右側および左側縦列のペプチド種(すなわち、修飾を有するおよび修飾を有さない)の合計との、パーセンテージで表されている比を表す。よって、縦列21のパーセンテージは、候補配列修飾を有するペプチド種の相対的検出量を決定することに関連する情報を提供する。しかし、パーセンテージはサイズによって有意に変動することが分かる。縦列22に列挙されているパーセンテージは、所定のペプチド種(すべての電荷状態を含む)に対応する横列の各群において、修飾を有するすべての電荷状態の面積(すなわち、考慮されるペプチド種の右側縦列のすべてのボックスの面積)の合計と、修飾を有するおよび有さないペプチド種のすべての電荷状態の面積の合計(すなわち、考慮されるペプチド種の右側および左側縦列のすべてのボックスの面積の合計)との比(パーセンテージで表されている)を表す。よって、例えばPep1では、0.15%の値は、100%×4.3×10
6/(4.3×10
6+4.4×10
8+2.4×10
9)によりもたらされる。ここでも、有意な変動が縦列22のパーセンテージに見られる。
【0101】
計量1および3では、修飾を担持するペプチド種に対応するすべての野生型の最も強力なもの(最大面積)のみを使用して、修飾の相対量を算出した。よって、計量は、
図9の横列のうちの1つ(すなわち、縦列21の値のうちの1つ)のみを使用して算出される。計量1の場合では、選択は、選択された1つの消化に由来するペプチド種に限定される。典型的には、選択された消化はトリプシン消化であるが、これが必須ではない。計量3の場合では、すべての消化に由来するペプチド種が考慮される。
【0102】
一例において、計量1のために選択された消化は、Dig2(トリプシン)であり得る。2電荷状態を有する1つのペプチド種(Pep2)は、
図9の例のDig2を使用して誘導した。計量1によると、Pep2の修飾の担持するペプチド種に対応する最大面積野生型は、横列(c)のものであり、それは、修飾を有するペプチド種には、横列(d)に対応する電荷状態が検出されないからである(すなわち、右側縦列のボックスは「n.d.」である)。よって計量1は、この例では0.33%である。
【0103】
計量1に選択された消化がDig2の代わりにDig3である場合、修飾を担持するペプチド種に対応する最大面積野生型は、横列(f)のものであり、Pep3のz3電荷状態に対応する。よって計量1は、この例では0.13%である。
【0104】
計量3では、すべての消化に由来するペプチド種が考慮され、それによると、計量3の算出に使用された修飾を担持するペプチド種に対応する最大面積野生型は、すべての消化の修飾を担持するペプチド種に対応する最大面積野生型を有する横列(f)であるから、横列(f)のものでもある。横列(b)は、最大面積野生型を有するが、修飾を有する型(右側縦列)は、検出されず(「n.d.」)、そのため横列(b)は使用されない。
【0105】
計量2は計量1および3の変形であり、ここでは、修飾を有するペプチド種のすべての電荷状態が、個別の電荷状態が修飾を有するか否かにかかわりなく考慮される。次いで、計量2は、縦列22について什器に記載された方法に従って算出される。計量2は、最大面積野生型(すべての電荷状態を考慮して)を含有するペプチド種に対応する、縦列22のパーセンテージである。計量2は、選択された消化に由来するペプチドのみ、またはすべての消化に由来するペプチド種を考慮してもよい。選択された消化がDig2である場合、計量2の出力は0.07%であり、それは、1つのペプチド種のみがDig2に由来するからである。選択された消化がDig3である場合、計量2の出力は0.30%であり、それは、Pep3が、最大面積野生型を含有するDig3を使用して誘導されたペプチド種であるからである。すべての消化が考慮される場合、計量2の出力は0.15%であり、それは、全体としてPep1が最大面積野生型を有するからである(横列(b))。
【0106】
計量4~7では、計量は多数の異なる消化に由来するペプチド種の面積についての情報の組合せに基づいて算出される。
【0107】
計量4は、多数の(例えば、すべての)消化に由来するが、前フィルタリングを使用して、野生型ペプチド種の面積(左側縦列)が閾値(例えば、10
7カウント
*s)未満である横列をフィルタ除去したペプチド種を含む、修飾を有するペプチド種および電荷状態のすべての組合せ(すなわち、右側縦列が「n.d.」ではない
図9のすべての横列)を考慮する。よって、左側縦列面積が閾値を超え、かつ右側縦列が「n.d.」ではない横列のみが考慮される。次いで、計量は、縦列21の対応するパーセンテージの平均として算出される。よって、閾値面積が
図9の例において10
7カウント
*sである場合、右側縦列に「n.d.」を有さないすべての横列が考慮される。計量4は、横列(a)、(c)、(e)、(f)および(h)の縦列21の値の平均であり、0,66%をもたらす。閾値面積が3×10
8カウント
*sに上昇されると、横列(e)はフィルタ除去され、計量4は、代わりに横列(a)、(c)、(f)および(h)の縦列21の値の平均となり、0.52%をもたらす。
【0108】
計量5~7では、本明細書において重み付け定量化と称される方法が使用される。このタイプの手法では、面積についての情報を組み合わせて、定量化計量を以下に式に従ってパーセンテージとして表すことができる:
式中、Σ修飾の面積は、修飾ペプチド種の面積の合計であり、Σ野生型の面積は、修飾ペプチド種に対応する野生型ペプチド種の面積の合計である(対応することは、電荷状態に対応することも必要とする)。それぞれの場合において、修飾を有する検出ペプチド種が存在する電荷状態のみが考慮される。よって、
図9の例では、横列(b)、(d)、(g)および(i)は寄与しない。
【0109】
計量5では、すべての消化に由来するペプチド種が考慮される。よって、
図9の例では、計量5の出力は横列(a)、(c)、(e)、(f)および(h)を考慮する。計量5の出力は、横列(a)、(c)、(e)、(f)および(h)の両方の縦列のすべての面積の合計により割られた、横列(a)、(c)、(e)、(f)および(h)右側縦列のすべての面積の合計であり、0.47%に等しい。
【0110】
計量6では、配列特異的酵素に由来するペプチド種のみが考慮される。
図9の例では、このことは、キモトリプシンを使用して実施されたDig1に由来するペプチド種の除外をもたらす。計量6の出力は、横列(c)、(e)、(f)および(h)の両方の縦列のすべての面積の合計により割られた、横列(c)、(e)、(f)および(h)右側縦列のすべての面積の合計であり、0.39%に等しい。
【0111】
計量7では、計量5および6の手法の組合せを使用して、より完全なカバレージを提供する。よって、配列特異的酵素消化によるカバレージがあり、かつギャップが非特異的酵素消化により埋められている配列特異的酵素消化のみが使用される。換言すると、配列特異的酵素消化がカバレージを提供する候補修飾では、配列特異的酵素消化は、計量6について上記に記載されているように使用される。修飾が任意の配列特異的酵素消化によりカバーされていない場合、非特異的酵素消化を使用する必要があり、このことは、この候補修飾およびタンパク質に利用可能なすべてのペプチド種が、計量5について上記に記載されているように使用される。この場合は特別であり、それは非特異的酵素消化のみが使用されるからである。計量5は、配列特異的および非得的酵素消化を使用することができる。
【0112】
様々な計量の有効性を、140個の配列差異が1%の割合でスパイクされた試料を使用して試験した。結果を下記の表1に示す。計量1および2のために選択された消化はトリプシンであった。計量4の閾値を107カウント*sに設定した。
【0113】
【0114】
最高の性能手法は、計量5、6および7に基づいたものであることが分かり、これらはすべて標的の1%からの非常に低い平均偏差を達成する。計量6は、「5×低すぎる」の増加に関して計量5より良好な性能を達成するが、「SV(%)」に関しては悪化している。計量7は、最高の全体的性能を達成する。
【0115】
上記の洞察に基づいて、配置において、候補配列修飾を有するペプチド種の少なくとも選択されたサブセットの質量分析測定により検出された量が、候補配列修飾を有するおよび有さない同じペプチド種(サブセットが複数のペプチド種を含む場合、複数のペプチド種であり得る)の質量分析測定により検出された合計量に対して、既定の定量化閾値を超えることを示すように、定量化条件は構成される。配置において、選択されたサブセットは、使用される少なくとも2つの異なる酵素消化の複数またはすべてに由来する複数またはすべてのペプチド種(例えば、上記に考察された計量5、6または7により表されている)を含む。よって定量化条件は、
上述の表式、または類似もしくは同等の表式、例えば、見合った値を使用して、計量を算出して、既定の定量化閾値と比較することができる。
【0116】
一部の配置において、少なくとも2つの異なる酵素消化は、1つまたは複数の配列特異的酵素消化および1つまたは複数の非特異的酵素消化を含む。これは、
図9に例証されている例に当てはまる。そのような配置において、ペプチド種の選択されたサブセットは、計量6の場合のように、1つまたは複数の非特異的酵素消化を使用して誘導されたペプチド種を除外するように選択され得る。よって、選択されたサブセットは、複数の配列特異的酵素消化に由来するペプチド種からなり得る。配列特異的酵素消化を使用して誘導された少なくとも1つのペプチド種によりカバーされない候補配列修飾のために、1つまたは複数の非特異的酵素消化を使用して誘導されたペプチド種を含むように、ペプチド種の選択されたサブセットが選択され得る。よって、特異的酵素消化カバレージを有さないギャップは、非特異的酵素消化(例えば、計量7)を使用して埋めることができる。あるいは、すべての関連するペプチド種が含まれてもよく、使用される酵素修飾の性質(例えば、計量5)に基づいてペプチド種のサブセットが選択されることはない。
【0117】
本開示の意味の範囲内の配列特異的酵素消化は、予測可能な方法によりタンパク質の配列における特定のアミノ酸または隣接アミノ酸の配列のタンパク質N末端またはC末端を切断する、少なくとも1つのタンパク質分解性酵素(プロテアーゼ)により実施される消化であってもよく、例えば、トリプシンは、タンパク質アミノ酸配列のアミノ酸KまたはRのタンパク質C末端を切断する。他の酵素消化、すなわち、配列特異的ではない酵素消化は、本開示において非特異的酵素消化と称され得る。切断部位は、使用される非特異的酵素消化が予測可能性の低いものまたは予測不能なものであり得るが、特定のプロテアーゼを使用した特定のタンパク質の消化には再現性がある場合に作り出される。
【0118】
配置において、配列特異的酵素消化は、以下の酵素:トリプシン、エンドプロテイナーゼASpN、エンドプロテイナーゼLysC、エンドプロテイナーゼGluCのうちの1つもしくは複数を含む、または1つもしくは複数からなる。
【0119】
配置において、非特異的酵素消化は、以下の酵素:サーモリシン、エラスターゼ、プロナーゼ、プロアラナーゼ、ペプシン、キモトリプシンのうちの1つまたは複数を含む、または1つもしくは複数からなる。
【0120】
図10は、定量化閾値(フィルタ設定「Quant」に対応し、上記に記載された計量7を使用する)の増加数の関数として、本開示の実施形態の方法において感度および偽陽性がどのように変動するかを実証するさらなる実験の結果を描写するグラフである。棒の対は、それぞれ、左側から右側へ増加する定量化閾値(Quant)の0、0.1、0.2、0.3および0.5にそれぞれ対応して示されている。定量化閾値の増加は、偽陽性の抑制を改善するが、感度も低減し得る。定量化閾値は、要件に従って選択される可能性があり、上記の値は単なる例示ためである。一部の実施形態において、定量化閾値は、0.05、0.1、0.2または0.3以上であるように選択される。一部の実施形態において、定量化閾値は、0.6、0.5、0.4、0.3、0.2または0.1以下であるように追加的に(必要に応じて)または代替的に選択される。他のフィルタ設定は、それぞれの場合に同じに保持されており、以下のとおりであった:SVスコア>140、WTスコア>140ppm±4ppm、MS1 Corr>0.95、ペプチド長さ=5~32アミノ酸、WT強度>1e6、除外切断部位=「はい」、レシオフィルタ>2%、noPep≧2。各候補修飾のためのヒットの選択(タンパク質および修飾のタイプにより規定される)は、配列特異的酵素消化(すなわち、この場合にはAsp-N、トリプシンおよびGluC+LysC)からもたらされる修飾ペプチド種のみを使用して実施した。特異的酵素消化が利用可能ではない場合には、非特異的酵素消化によるすべてのヒットが定量化に考慮される。
【0121】
Quantフィルタ設定を増加することは、偽陽性に素早い減少をもたらし、感度に耐用可能な遅い低減をもたらすことが、
図10から分かる。例えば、Quantフィルタ設定の0.1を用いると、偽陽性の数は、有益な33%(3586から2405)の低減があり、得られた真陽性の僅か1.4%(100.0%から98.6%)の低減があった。Quantフィルタ設定=0(Quantフィルタなし)により得られた結果は、
図5B、6および7を参照しながら上記に記載されたフィルタを適用した結果に既に対応している:
-修飾毎に少なくとも2つのペプチド(
図5B)、
-レシオフィルタ>2%(
図6)、
-唯一の高強度WT(>1e6)(
図7)。
【0122】
このフィルタリングのため、偽陽性の数は、Quantフィルタを適用する前であっても既に高度に低減されている。この文脈において、33%の観察された改善は、とりわけ有意である。
【手続補正書】
【提出日】2024-09-04
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】配列表
【補正方法】追加
【補正の内容】
【配列表】
【国際調査報告】