(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-09
(54)【発明の名称】生物学的サンプルの整合性を示すための質量分析システム及び方法
(51)【国際特許分類】
G01N 27/62 20210101AFI20231226BHJP
【FI】
G01N27/62 V
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023530955
(86)(22)【出願日】2021-11-19
(85)【翻訳文提出日】2023-07-04
(86)【国際出願番号】 EP2021082375
(87)【国際公開番号】W WO2022106658
(87)【国際公開日】2022-05-27
(32)【優先日】2020-11-20
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】523189314
【氏名又は名称】エグザクト サイエンシーズ プロテオミクス ゲーエムベーハー
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】ガイヤー,フィリップ エマヌエル
(72)【発明者】
【氏名】ヴィンター,セバスティアン ヴィレイラ
(72)【発明者】
【氏名】シュトラウス,マクシミリアン トーマス
(72)【発明者】
【氏名】ドール,ソフィア
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041FA10
2G041FA12
2G041FA13
2G041LA06
2G041LA08
(57)【要約】
質量分析システムは、生物学的サンプルの質量分析データを提供するように構成された質量分析装置と;質量分析データを処理して、生物学的サンプルの特性をその生物学的サンプルの整合性データとして決定して、その生物学的サンプルの整合性データとして、事前決定されたサンプル特性に対する類似性の指標を出力するように構成されたコンピューターシステムと、を備える。コンピューター化された方法は、質量分析データから生物学的サンプルの整合性の指標を提供し、このコンピューター化された方法は、生物学的サンプルの質量分析データを処理して、生物学的サンプルのサンプル特性を決定することと、事前決定されたサンプル特性に対する類似性の指標を生物学的サンプルの整合性データとして出力することとを含む。
【特許請求の範囲】
【請求項1】
質量分析システムであって:
生物学的サンプルの質量分析データを提供するように構成された質量分析装置と;
生物学的サンプルの前記質量分析データを処理して、前記生物学的サンプルの所定のサンプル特性を前記生物学的サンプルの整合性データとして決定するように;
ならびに前記生物学的サンプルの前記整合性データを出力するように、構成された整合性モジュールであって、前記整合性データが、サンプルの既知の起源または破損した起源に関する情報、サンプルのアイデンティティの喪失に関する情報、サンプル処理の問題に関する情報、サンプルの劣化に関する情報を含む前記整合性モジュールと
を備える、前記質量分析システム。
【請求項2】
質量分析システムであって:
生物学的サンプルの質量分析データを提供するように構成された質量分析装置と;
生物学的サンプルの前記質量分析データを処理して、前記生物学的サンプルの所定のサンプル特性を、前記生物学的サンプルの整合性データとして決定するように;
ならびに前記生物学的サンプルの前記整合性データを出力するように、構成されたコンピューターシステムと
を備える前記質量分析システム。
【請求項3】
質量分析データから生物学的サンプルの整合性の指標を提供するためのコンピューター化された方法であって:
生物学的サンプルの質量分析データを処理して、前記生物学的サンプルの所定のサンプル特性を前記生物学的サンプルの整合性データとして決定することと、
前記生物学的サンプルの前記整合性データを出力することと、
を含む、前記コンピューター化された方法。
【請求項4】
前記整合性データが、前記所定のサンプル特性及び/または前記生物学的サンプルの前記所定のサンプル特性と事前決定されたサンプル特性との類似性の指標を含む、請求項1もしくは2に記載の質量分析システムまたは請求項3に記載のンピューター化された方法。
【請求項5】
前記生物学的サンプルがヒト生物学的サンプルであり、及び/または前記生物学的サンプルが、血液、血漿、血清、尿、脳脊髄液、唾液、涙、大便、胃液、組織、新鮮組織、固定組織、例えば、ホルマリン固定パラフィン包埋組織、加工組織、生検、リキッドバイオプシー、毛髪、及び/または骨のうちの1つ以上を含む、請求項1もしくは2に記載の質量分析システム、または請求項3に記載のコンピューター化された方法。
【請求項6】
前記事前決定されたサンプル特性が、質量、電荷、質量対電荷比、フラグメントスペクトル、MS2フラグメントスペクトル、イオン移動度、強度情報、及びまたは保持時間のうちの1つ以上から選択される特定の特性を有するイオンである、先行請求項のいずれか1項に記載の質量分析システムまたはコンピューター化された方法。
【請求項7】
事前決定されたサンプル特性がタンパク質またはペプチド、好ましくは定量化タンパク質または定量化ペプチドである、請求項1~6のいずれか1項に記載の質量分析システムまたはコンピューター化された方法。
【請求項8】
請求項7に記載の質量分析システムまたはコンピューター化された方法であって、前記タンパク質が、妊娠関連タンパク質(PZP)、性ホルモン結合グロブリン(SHBG)、アポリポタンパク質(a)(LPA)、他のアポリポタンパク質(APOA1、APOB、APOA2、APOA4、APOC1、APOC3、APOC4、APOC2、APOD、APOE)、免疫グロブリン鎖、ヘモグロビンサブユニット(HBA1、HBB、HBD、HBG1、HBE、HBZ)、炭酸脱水酵素(CA1、CA2)、ペルオキシレドキシン(PRDX2、PRDX6)、カタラーゼ(CAT)、バンド3陰イオン輸送タンパク質(SLC4A1)、スペクトリン鎖(SPTA1、SPTB)、アンキリン-1(ANK1)、グリセルアルデヒド-3-リン酸デヒドロゲナーゼ(GAPDH)、スーパーオキシドジスムターゼ(SOD1)、ビスホスホグリセリン酸ムターゼ(BPGM)、アクチン(ACTB、ACTG1、ACTA1、ACTC1)、セレン結合タンパク質1(SELENBP1)、タンパク質4.1(EPB41)、L-乳酸デヒドロゲナーゼB鎖(LDHB)、フィラミン-A(FLNA)、タリン-1(TLN1)、ミオシン-9(MYH9)、アクチン(ACTB)、ビンキュリン(VCL)、α-アクチニン-1(ACTN1)、トロポミオシンα-4鎖(TPM3)、トロンボスポンジン-1(THBS1)、トロンボスポンジン-4(THBS4)、チューブリン(TUBB1、TUBB4B)、14-3-3タンパク質ゼータ/デルタ(YWHAZ)、ゲルゾリン(GSN)、チューブリンα-1B鎖(TUBA1B)、インテグリン(ITGA2B)、凝固因子(F13A1、F2、F5、F7、F9、F10、F11、F12)、プロフィリン-1(PFN1)、トランスゲリン-2(TAGLN2)、フェルミチンファミリーホモログ3(FERMT3)、RAS関連タンパク質(RAP1B)、プレクストリン(PLECK)血小板塩基性タンパク質(PPBP)、フィブリノーゲン鎖(FGA、FGG、FGB)、アンチトロンビン-III(SERPINC1)、プロトロンビン(F2)、血小板糖タンパク質 Ib アルファ鎖(GP1BA)、血小板第4因子(PF4、PF4v1)、細胞外マトリックスタンパク質1(ECM1)、クラステリン(CLU)、デスモプラキン(DSP)、WDリピート含有タンパク質1(WDR1)、アトラクチン(ATRN)、血小板糖タンパク質V(GP5)、血漿セリンプロテアーゼ阻害剤(SERPINA5)、補体C1rサブコンポーネント様タンパク質(C1RL)、マンノシルオリゴ糖1,2-α-マンノシダーゼ IA(MAN1A1)、キニノーゲン-1(KNG1)、コリンエステラーゼ(BCHE)、高分子免疫グロブリン受容体PIGR)、ケラチン(KRT1、KRT10、KRT17、KRT2、KRT28、KRT9)、フルクトース二リン酸アルドラーゼ(ALDOA、ALDOB)、C-反応性タンパク質(CRP)、血清アミロイドAタンパク質(SAA1、SAA2、SAA4)、妊娠特異的妊娠特異的ベータ-1-糖タンパク質1(PSG1)、妊娠特異的ベータ-1-糖タンパク質9(PSG9)、アクチン関連タンパク質2(ACTR2)、プレラミンA/C(LMNA)、セプチン-9(SEPTN9)、ペプチジル-プロリルシス-トランスイソメラーゼ(FKBP2)、V型プロトンATPaseサブユニットB、脳アイソフォーム(ATP6V1B2)のうちの1つ以上から選択され、好ましくは前記タンパク質は、PZP、LPA、APOE、HBA1、FLNA、FGA、KRT9、CRP、PSG1、ACTR2から選択される、前記質量分析システムまたはコンピューター化された方法。
【請求項9】
前記事前決定されたサンプル特性が翻訳後修飾、好ましくは定量化された翻訳後修飾であり、好ましくは前記翻訳後修飾がリン酸化、グリコシル化、糖化、ユビキチン化、S-ニトロシル化、メチル化、N-アセチル化、SUMO化、及び/または脂質化である、先行請求項のいずれか1項に記載の質量分析システムまたはコンピューター化された方法。
【請求項10】
前記事前決定されたサンプル特性が対立遺伝子及び/またはバリアントペプチドである、先行請求項のいずれか1項に記載の質量分析システムまたはコンピューター化された方法。
【請求項11】
請求項10に記載の質量分析システムまたはコンピューター化された方法であって、前記対立遺伝子が、遺伝子名で列挙された以下の遺伝子:LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG;DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR;HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、APOC1、APOC3、APOC4、APOC4-APOC2、APOC2、APOD、APOF、APOM、ARHGAP1、ARSB、ATP1A4、ATP6V1A、ATRN、ATRNL1、AZGP1、B2M、BCHE、BLK、BLVRB、BTD、C15orf41、C1QA、C1QB、C1QC、C1R、C1RL、C1S、C2、C3、C4B、C4BPA、C4BPB、C5、C6、C8A、C8B、C8G、C9、CA1、CA2、CABIN1、CALD1、CALM1、CALM2、CALM3、CALR、CARD9、CARD11、CAT、CD14、CD163、CD44、CD5L、CDH5、CDHR2、CEP164、CFB、CFD、CFH、CFHR3、CFHR4、CFI、CFL1、CHGA、CHI3L1、CHIT1、CHRNB1、CKM、CLEC3B、CLTC、CLTCL1、CLU、CNDP1、CNTN3、COL18A1、COL6A3、COLEC11、COPE、CPB2、CPN1、CPS1、CRISP3、CRP、CRTAC1、CRYAB、CRYZ、CSH2、CSH1、CST3、CTSA、CTSD、CUBN、DBH、ECM1、EIF4A1、ENO1、ERLIN1、ERN1、ETFA、EXOC1、FABP4、FAH、FAM153A、FAM162A、FBLN1、FCGBP、FCGR3A、FCN2、FCN3、FETUB、FGA、FGB、FGFR2、FGG、FGL1、FITM1、FKBP4、FLII、FLOT2、FN1、GAPDH、GBA、GCA、GDI2、GGH、GLUD1、GLUD2、GP1BA、GPC6、GPLD1,GPRC5C、GPX3、GSN、GSTM4、HABP2、HADH、HARS、HBG2、HEXA、HGFAC、HIST1H4A、HLA-A、HLA-H、HLA-C、HPR、HPX、HRG、HSP90AA1,HSP90B1、HSPA5、HSPA8、HSPG2、ICAM1、ICAM2、IGFALS、IGFBP3、IGFBP6、IL1RAP、INTS4、ITIH1、ITIH2、ITIH3、ITIH4、KCTD12、KIAA0319L、KLKB1、KNG1、KPNB1、KRT24、LAMB2、LCAT、LCN2、LCP1、LDHA、LDHB、LGALS3BP、LILRB1、LILRA1、LOC93432、LRG1、LRP2、LTF、LUM、LYVE1、LYZ、MANBA、MARCKS、MASP1、MASP2、MB、MBL2、MEI1、MIA3、MMP9、MMRN1、MPO、MST1、MST1L、MUC4、MYH11、MYH14、MYO1A、MYO1B、MYO1D、NCF4、NCKIPSD、NEO1、NIN、NRP2、ORM1、ORM2、PC、PCCA、PCDHA8、PCOLCE、PCYOX1、PDIA4、PEBP1、PF4V1、PF4、PFN1、PI16、PIGR、PLCD1、PLCG2、PLEC、PLG、PLS1、PLTP、PON3、PPA1、PPBP、PPIA、PPIL1、PRAP1、PRCC、PRDX2、PRG2、PRG4、PROC、PROCR、PROS1、PROZ、PRSS2、PSG1、PSMB1、PSMC6、PSMD2、PTGDS、PTPRF、PUS10、PZP、QSOX1、RAB21、RAN、RANBP2、RBP1、RBP4、RECK、REG1A、RNASE4、RNF111、RPL10、S100A9、SAA1、SAA2、SAA4、SDC1、SELL、SEPP1、SERPINA10、SERPINA3、SERPINA4、SERPINA5、SERPINA6、SERPINA7、SERPINB6、SERPINC1、SERPIND1、SFTPB、SHBG、SLC12A3,SLC3A2、SNCA、SOD3、SPP1、SPTA1、SPTAN1、SPTB、SRGN、STXBP5L、SUMO2、SUMO3、SUMO4、TAGLN2、TCP1、TFRC、TGFBI、THBS1、TIMP1、TMSB10、TMSB4X、TNC、TNXB、TOR3A、TRHDE、TTN、TTR、TXN、UBC、UBB、RPS27A、UBA52、UBBP4、UCHL3、UGT8、VASN、VCAM1、VNN1、VSIG4、VTN、VWF、YWHAE、ZNF256、ZNF652、preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG、DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR、HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、more preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFM、ALB、APOA4、APOL1、C3、CP、CPN2、F5、FGG、より好ましくは、LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFMのうちの1つ以上から選択される、前記質量分析システムまたはコンピューター化された方法。
【請求項12】
前記事前決定されたサンプル特性が、脂質などの生体分子、薬物または代謝産物などの小分子、炭水化物、好ましくは定量化された生体分子を含む、先行請求項のいずれか1項に記載の質量分析システムまたはコンピューター化された方法。
【請求項13】
先行請求項のいずれか1項に記載の質量分析システムまたはコンピューター化された方法であって、前記事前決定されたサンプル特性の少なくとも1つが、人体測定データ、例えば、身長、体重、BMI、及び/または性別、妊娠、民族性に対する情報を含み、及び/または前記事前決定されたサンプル特性は、臨床分析などの医療関連情報、例えば、HDL、LDL、コレステロール、C反応性タンパク質(CRP)、ヘモグロビン(Hb)、赤血球(RBC)、白血球(WBC)数、リンパ球数、好中球数、血小板数(PLT)、平均血小板容積(MPV)、血小板分布幅(PDW)、赤血球沈降速度(ESR)、健康状態または疾患状態、遺伝性疾患及び/または投薬を含む、前記質量分析システムまたはコンピューター化された方法。
【請求項14】
前記コンピューターが、質量分析データを処理してサンプル特性を決定し、質量分析によって分析されたサンプルと質量分析によって分析されたサンプルとの間の類似性測定基準を、質量分析計によって分析したサンプル及び/または他の非質量分析によって生成されたサンプル特性から生成するように;ならびに前記生物学的サンプルの整合性の指標を出力するように構成されている、先行請求項のいずれか1項に記載の質量分析システムまたはコンピューター化された方法。
【請求項15】
MS-整合性-コードの事前決定されたサンプル特性をコードする機械可読コード。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
〔技術分野〕
本発明は、質量分析データから生物学的サンプルの整合性の指標を提供するための質量分析システム及び方法に関する。
【0002】
〔背景技術〕
実験室または臨床環境では、このサンプルまたは個体に関する情報を取得するために分析されるサンプルの整合性が失わることも破損することもないことが最も重要である。言い換えれば、サンプルの整合性を確実に評価できることが重要である。整合性は、全体的で完全であることの質、すなわち、情報の破損がないような内部の一貫性に関連すると理解されている。サンプルの整合性は、サンプルの品質の代用と見なすこともできる。サンプルの整合性は、以下を含むがこれらに限定されないさまざまな理由により破損する場合がある。
(A)サンプルの起源が不明または破損している
(B)サンプルのアイデンティティを失う
(C)サンプルの汚染の可能性
(D)サンプル処理の問題
(E)サンプルの劣化
整合性の状態に関する情報は、一般に「整合性データ」と呼ばれる。当業者は、整合性データがそのライフサイクル全体にわたってデータの正確性及び一貫性を保証することを容易に認識する。整合性データは、データ品質の代理用語として使用される。任意の整合性データ技術の全体的な意図は同じである:データが意図したとおりに正確に記録されるように保証する(例えば、データベースが相互に排他的な可能性を正確に拒否すること)。さらに、後の検索時に、整合性データによって、生物学的サンプルの処理及び/または生物学的サンプルのデータの取得の後、生物学的サンプルのデータが同じデータのままであることが保証される。要するに、データの整合性とは、情報の意図しない変更を防ぐことを目的としている。
【0003】
整合性が確認できない場合、生成されたデータが破損しているか、生体系に割り当てることができず、有用な知識が生成されない場合がある。本発明は、生物学的サンプルの整合性を確認するために質量分析システムを適用する。
【0004】
上記のサンプルの整合性の複数の側面を同時に検証し得る公知の方法はない。例えば、サンプルの整合性を検証するための公知の方法としては、サンプルを含むレセプタクルに適用される物理的なバーコードが含まれる。例えば、医師は物理的なバーコードをプリンターで採血容器に貼り付ける。バーコードには、サンプルの起源に関する情報が含まれており、今度は、サンプルを入手した個体に再度割り当てることが可能になる。容器内の血液は、サンプルであってもよい。バーコードはリーダーで読み取ってもよく、この個体に割り当ててもよい。これにより、サンプルと、このサンプルから生成されたデータを個体にマッチングさせることが可能になる。このような物理的なバーコードは、サンプル及びその起源を同定するために使用され得る。ただし、既知のバーコードを使用してサンプルの整合性を確認することはできない。失われることのないサンプル固有の識別子は、サンプル自体からだけ生成できる。
【0005】
バーコードラベルが失われるか、またはサンプルが劣化及び/または汚染されている場合、サンプルから生成されたデータ及びサンプル自体は役に立たなくなるか、または間違った結論につながる。これらは、サンプルの整合性が損なわれる例である。
【0006】
サンプルの整合性の一部を検証するための他の公知の方法としては、DNAまたはRNAの配列決定が挙げられる。DNAまたはRNA配列決定では、タンパク質はもちろん、ペプチド、翻訳後修飾、代謝産物、脂質、及びイオンのイオンを定量化はし得ない。ゲノム及びトランスクリプトームは、尿、脳脊髄液、血漿、及び血清などの体液など、細胞をまったく含まないサンプル、または細胞数が非常に少ないサンプルでは分析が特に困難である。DNAまたはRNAベースの分析は、サンプルの起源を同定するのに役立ち得るが、他のサンプルの混入を定量的に判断するにも、その整合性を評価するのにも役立たない。さらに、配列決定技術は、サンプル収集またはサンプルの前処理によって導入された品質の問題を検出できない。
これらの理由から、サンプルの整合性を検証するための信頼できる正確なシステム及び方法が必要である。
【0007】
〔用語〕
質量分析計=全種類の質量分析計
MS=質量分析計(mass spectrometer)、質量分析(mass spectrometric)、質量分析法(mass spectrometry)
質量分析データ=質量分析システムによって生成されたデータ。この未処理データ及びさらに処理されたデータ。このようなデータは、質量、電荷、質量電荷比、フラグメントスペクトル、MS2フラグメント情報、イオン移動度、強度情報、保持時間、配列(タンパク質/ペプチドの場合)、またはその他のアイデンティティ(脂質/代謝産物の場合)、ペプチド、タンパク質、翻訳後修飾、対立遺伝子、脂質などの生体分子、薬物または代謝産物などの小分子、炭水化物、好ましくは定量化された生体分子に関する情報のうちの1つ以上であり得る。
【0008】
事前決定されたサンプル特性=サンプルまたはその生物学的起源の特性である。事前決定されたサンプル特性は、サンプルの整合性を確認するために使用される質量分析計分析の前または後に定義または決定され得る。
【0009】
LC=液体クロマトグラフィー、すべての種類のLC、高速液体クロマトグラフィーまたは超高速液体クロマトグラフィー(HPLC/UHPLC);他のペプチド及び/またはタンパク質分離方法としては、例えば、気相分離/分画及びキャピラリー電気泳動が挙げられる。
【0010】
「組織」という用語は、ヒト起源のサンプル、ヒトの遺体もしくはミイラ、または動物学及び/または保存された遺体などの非ヒト供給源を含む、すべての生物学的組織を指す。これには、液体組織と固体組織、及びさまざまな固定方法で固定された組織が含まれる。
【0011】
生検とは、生物から採取されるサンプルである。生検は、組織サンプルまたは体液に由来する場合がある。後者の場合、生検はリキッドバイオプシーと呼ばれることが多いが、一般的には生検とも呼ばれる。
【0012】
生体系=生物学的サンプルは、なんらかの生物学的起源のものであってもよい。例えば、人間、動物、土壌片などの環境、人間の器官などのより大きな生体系の一部。生体分子の有無、組成または濃度は、異なる生体系に固有である場合があり、この生体系のサンプルから決定され得る。
【0013】
サンプル=生体系に類似し、より多くの量を表すことを意図した限られた量のもの。サンプルとは、生検、組織サンプル、血液、血漿、尿、脳脊髄液などのリキッドバイオプシー、または遠心分離による血液の処理から得られる血漿などの生体系の処理された部分もしくは以前の部分、または処理された組織であるFFPE組織であり得る。このような生物学的サンプルには、DNA、RNA、タンパク質、代謝物、及び/または脂質などの異なる分子が常に含まれる。
【0014】
生体分子=タンパク質、ペプチド、脂質、代謝産物、炭水化物、これらの修飾物など、生物に存在するあらゆる種類の分子。
【0015】
消化及び切断が使用され、逆も成り立つ。
【0016】
血液、血漿、血清、及びそれらに関連するすべてのマトリックスが使用され、逆も成り立つ。
【0017】
特徴:MSで測定されたイオンであって、その同定とは無関係(ただし、フラグメント情報に関連付けられていることが好ましい)。
【0018】
メタデータ=利用可能なすべてのデータ;例えば、臨床化学分析、人体測定学、倫理的起源に関する情報、ゲノムデータ、トランスクリプトームデータ、プロテオミクスデータ。
【0019】
PTM=翻訳後修飾、例えば、リン酸化、グリコシル化、糖化、ユビキチン化、S-ニトロシル化、メチル化、N-アセチル化、SUMO化、及び/または脂質化。
m/z=質量対電荷比。
【0020】
MS-整合性-コード(integrity-code)=質量分析-整合性-コード。質量分析システムによって分析できる1つ以上の事前決定されたサンプル特性。MS-整合性-コードは、質量分析計データ及び/または他の事前決定されたサンプル特性を含んでもよい。
【0021】
AI=人工知能、機械学習、深層学習。
【0022】
〔発明の概要〕
本発明の第1の態様によれば、質量分析システムが提供され、この質量分析システムは、以下を含む:生物学的サンプルの質量分析データを提供するように構成された質量分析装置と;生物学的サンプルの質量分析データを処理して、生物学的サンプルの所定のサンプル特性をその生物学的サンプルの整合性データとして決定するように;ならびに生物学的サンプルの整合性データを出力するように、構成された整合性モジュールであって、この整合性データが、
サンプルの既知の起源または破損した起源に関する情報、サンプルのアイデンティティの喪失に関する情報、サンプル処理の問題に関する情報、サンプルの劣化に関する情報を含む整合性モジュールと。
【0023】
整合性データは、サンプルの既知の起源または破損した起源に関する情報、サンプルのアイデンティティの喪失に関する情報、サンプル処理の問題に関する情報、及び/またはサンプルの劣化に関する情報を含んでもよい。
【0024】
この文脈において、整合性データはまた、サンプルのアイデンティティ及び/または起源について報告し、質量分析計分析によって取得または確認され得る、サンプル特性を含んでもよい。サンプル特性は、サンプルのアイデンティティ及び/または起源に関する情報を含んでもよい。そのような整合性データによって、サンプル処理ワークフロー中にサンプルを追跡すること、及び/または物理的測定基準、例えば、96または384のアレイ及び/または実験器具におけるサンプルの配置を決定することが可能になる場合がある。整合性データには、性別に関連するタンパク質、例えば、PZP及び/またはSHBGに関するデータが含まれる場合がある。サンプルが得られた人の性別と組み合わせて、整合性データを使用して、異なるサンプルが異なる性別の人のサンプルに由来するか否かを判断し得る。サンプルのアイデンティティ及び/または起源を評価する精度は、バリアントペプチドまたは個体固有のタンパク質レベルに由来する対立遺伝子情報などの質量分析法で取得された情報などのさらなる整合性データを含めることによって改善される場合がある。
【0025】
これに関連して、整合性データはまた、サンプル特性、例えば、血液サンプル処理のための遠心力または時間の誤りなど、サンプル収集中に損なわれる可能性があるサンプルの品質について報告し得る、決定されたか、または事前決定されたサンプル特性も含んでもよい。そのような質量分析データは、炭酸脱水酵素のレベルなどの赤血球溶解について報告するタンパク質レベル、または血小板塩基性タンパク質のレベルなどの血小板汚染について報告するタンパク質レベルについて報告し得る。
【0026】
この文脈において、整合性モジュールは、生物学的サンプルの質量分析データを処理して、その生物学的サンプルの整合性データとして生物学的サンプルの(事前に)決定されたサンプル特性を決定し、その生物学的サンプルの整合性データを出力するように構成され得る。整合性モジュールは、コンピューターシステムを含んでもよい。
【0027】
整合性データは、所定のサンプル特性を含んでもよい。整合性データは、事前決定されたサンプル特性を含んでもよい。所定の及び/または事前決定されたサンプル特性は、質量分析装置によって測定され得る。整合性データは、所定のサンプル特性と事前決定されたサンプル特性との類似性の指標を含んでもよい。
【0028】
整合性データは、所定のサンプル特性と事前決定されたサンプル特性との間の関連性の指標を含んでもよい。
【0029】
整合性データは、サンプルの起源を同定するために、プロセス内のサンプルを追跡するために、2つ以上のサンプルの類似性を判断するために、2つ以上の個体の類似性を判断するために、1つの個体のサンプル間及び/または個体間の類似性を判断するために、2つ以上のサンプルの類似性を除外するために、2つ以上のサンプル間の非類似性を決定するために、2つ以上の個体の非類似性を決定するために、及び/または2つのサンプルが同じ組織に由来するか否か、例えば、血漿が2回分析され、血漿が1回と尿が1回分析されないかを決定するために使用され得る。
【0030】
整合性データは、定量化されたタンパク質及び/または定量化されたペプチド及び/または翻訳後修飾及び/または対立遺伝子及び/またはバリアントペプチドに関する情報を含んでもよい。
【0031】
本発明の第2の態様によれば、質量分析システムが提供され、この質量分析システムは、以下を含む:生物学的サンプルの質量分析データを提供するように構成された質量分析装置と、生物学的サンプルの質量分析データを処理して、その生物学的サンプルの所定のサンプル特性をその生物学的サンプルの整合性データとして決定し;その生物学的サンプルの整合性データを出力するように構成されたコンピューターシステムと。
【0032】
一般に、この文脈における「決定する」という表現は、質的及び/または量的データの取得を意味すると理解される。「事前決定されたサンプル特性」という表現は、サンプルまたはその生物学的起源の特性である。事前決定されたサンプル特性は、サンプルの整合性を確認するために使用される質量分析的な分析の前または後に定義または決定され得る。事前決定されたサンプル特性とは、質量分析システムのデータが比較される情報である。整合性データは、所定のサンプル特性を含んでもよい。所定のサンプル特性は、質量分析装置によって測定され得る。整合性データは、所定のサンプル特性及び事前決定されたサンプル特性との類似性の指標を含み得る。
【0033】
類似性とは一般に、2つのデータセット間の類似性を定量化する類似性尺度として定義され得、すなわち、類似したデータセットでは大きな値をとり、異なるデータセットでは小さな値または負の値をとる場合がある。類似性は、実際の類似性(ピアソン相関またはコサイン類似性など)に基づいて定義するか、距離測定基準の逆数(マンハッタン距離またはユークリッド距離など)から定義できる。この文脈では、データセットが固定の類似性の閾値を超えた場合に重複していると定義する。さらに、複数の同様の測定値を単一の参照に組み合わせて、個々のデータセットを比較してもよい。比較されるデータセットは、事前決定されたサンプル特性及び/または質量分析によって決定されたサンプル特性を含んでもよい。ここで、事前決定されたサンプル特性を使用して、予想される質量分析データを推測し、類似性チェックの感度を高めてもよい。
【0034】
上記の定義によれば、類似性とは、カテゴリデータと数値データとの間で計算することもできる。例えば、カテゴリデータを数値データに変換し、類似性を計算する前にスケーリングする場合である。ここでは、参照値または参照測定値を使用して、データを変換またはスケーリングしてもよい。したがって、対立遺伝子をベクトルに変換して距離を計算する場合、対立遺伝子の重複などに類似性の測定基準を割り当ててもよい。例えば、高レベルの妊娠関連タンパク質(PZP)が検出された場合、女性という性別を類似性として表してもよい。
【0035】
整合性データは、所定のサンプル特性と事前決定されたサンプル特性との間の関連性の指標を含んでもよい。
【0036】
有利なことに、質量分析では、生体分子の広範なアレイを読み取り可能であり、データが生成されるサンプルを説明する大量のデータを提供する。質量分析システムは、1回の測定でもデータを提供し得、生物学的サンプルのデータを提供する複数回の測定によって生体分子のさらに高いカバレッジを提供し得る。生成された生体分子のデータは、質量分析によって生成されたデータを1つ以上の事前決定されたサンプル特性と比較することによって、生物学的サンプルの整合性を評価するために適用され得る。このデータは、サンプルの整合性を反映するコードと見なしてもよく、このコードは質量分析システムで読み取ってもよい。したがって、コードは、質量分析-整合性-コードまたはMS-整合性-コードと呼ばれる。質量分析システムはさらに、質量分析以外で生成されたデータから事前定義されたMS-整合性-コードを評価し得るデータを提供し得る。これは、MS分析で生成できる生体分子に関する膨大な量の情報により可能になる。この非MSデータとしては、限定するものではないが、性別、年齢、イムノアッセイ測定値、その他の検査医学分析、または個体のゲノムに関するデータが挙げられる。有利なことに、生物学的サンプルの整合性は、例えば、サンプルを追跡するため、情報をサンプルにマッチさせるため、1つまたは複数のサンプルを異なる個体にマッチさせるため、1つ以上のサンプルを相互にマッチさせるため、1つまたは複数のサンプルを個別の臨床パラメーターにマッチさせるため、個体を同定するため、2つ以上のサンプルの類似性を判断するため、2つ以上のサンプルの類似性を確認または除外するため、2つ以上のサンプルが同じタイプのサンプル(例えば、血漿と尿、肝臓と筋肉)由来であるかを判断するため、別のサンプルによる汚染によるサンプルの整合性の変化を検出するため、サンプルの質を伴う問題、例えば、サンプルの処理または保管による問題によるサンプルの整合性の変化を検出するため、質量分析システムの問題によるサンプルの整合性の変化を検出するために、サンプルの起源に関して質量分析によって評価され得る。有利なことに、1つ以上のサンプルのサンプル整合性の分析を適用して、96または384アレイ及び/または実験器具などの物理的測定基準におけるサンプルのレイアウト及び/または配置を決定することもできる。
【0037】
質量分析システムはまた、質量分析的な分析のためのサンプル調製方法、質量分析計に連結されていない事前分離方法、質量分析計に連結された事前分離方法を含んでもよい。MS-整合性-コードには、成功したサンプル調製、分離方法の適切な機能、生体分子の適切なイオン化など、これらの技術コンポーネントの性能に関する情報も含まれる場合がある。
【0038】
コンピューターシステムは、以下のユニットのうちの1つ以上を備えてもよい:事前に決定されたサンプル特性に基づくMS-整合性-コードを生成するためのユニット;MS-整合性コードのサンプル特性を反映する質量分析計分析からデータを生成するためのユニット;MS-整合性-コード内の事前決定されたサンプル特性と質量分析データとの間の類似性測定基準を生成するためのユニット;MS-整合性-コードと質量分析データを比較してサンプルを同定するためのユニット;サンプルの品質評価のために、MS-整合性-コードと質量分析データを比較するためのユニット;MS-整合性-コードと質量分析データを比較してサンプルの汚染を検出するためのユニット;サンプルの取得と処理を制御するために、MS-整合性-コードと質量分析データを比較するためのユニット;サンプルの同定のためのユニット;サンプルの品質評価のためのユニット;サンプル処理の品質評価のためのユニット。コンピューターシステムは、質量分析データを処理して、生物学的サンプルの整合性データとして、生物学的サンプルの事前決定された特性を直接的及び/または間接的に同定するように構成される。これは、タンパク質レベルなどのいくつかの特性は直接測定できるのに対し、性別などの他の特性は、性別を示すタンパク質によってのみ間接的に測定され得るためである。HDLレベルなどの他の要因は、血漿中のタンパク質と相関している場合がある。
【0039】
必要に応じて、ボトムアッププロテオミクスの次に、トップダウン及びネイティブプロテオミクスを適用して、サンプルの整合性を確認し得る。トップダウン/ネイティブプロテオミクスには、質量分析的な分析の前にタンパク質をペプチドに消化する必要がないという利点がある。
【0040】
本発明の第3の態様によれば、質量分析データから生物学的サンプルの整合性の指標を提供するための方法、好ましくはコンピューター化された方法が提供され、このコンピューター化された方法は、生物学的サンプルの質量分析データを処理して、この生物学的サンプルの所定のサンプル特性を、この生物学的サンプルの整合性データとして決定することと、この生物学的サンプルの整合性データを出力することと、を含む。
【0041】
任意選択で、整合性データは、所定のサンプル特性、及び/または生物学的サンプルの所定のサンプル特性と事前決定されたサンプル特性との類似性の指標を含む。整合性データは、所定のサンプル特性を含んでもよい。追加的または代替的に、整合性データは、生物学的サンプルの所定のサンプル特性と事前決定されたサンプル特性との類似性の指標を含んでもよい。
【0042】
任意選択で、生物学的サンプルはヒト生物学的サンプルであり、及び/または生物学的サンプルは、血液、血漿、血清、尿、脳脊髄液、唾液、涙、便、胃液、組織、新鮮組織、固定組織、例えば、ホルマリン固定パラフィン包埋組織、加工組織、生検、リキッドバイオプシー、毛髪、及び/または骨のうちの1つ以上を含む。生物学的サンプルは、ヒトの生物学的サンプルであってもよい。生物学的サンプルは、ヒトの生物学的サンプルを含んでもよい。さらに、あるいは、生物学的サンプルは、血液、血漿、血清、尿、脳脊髄液、唾液、涙、便、胃液、組織、新鮮組織、固定組織、例えば、ホルマリン固定パラフィン包埋組織、加工組織、生検、リキッドバイオプシー、毛髪、及び/または骨のうちの1つ以上を含む。好ましくは、生物学的サンプルは、血液、血漿、血清、尿、脳脊髄液(CSF)、唾液、涙、大便、胃液、処理された液体サンプル、例えば、最高量のタンパク質もしくは血漿から枯渇された血漿もしくは血清または血漿(少量のタンパク質などの亜集団の濃縮後)、組織(新鮮、凍結、FFPEなどの包埋)、加工組織、生検、リキッドバイオプシー、毛髪、及び/または骨のうちの1つ以上を含む。有利なことに、生物学的サンプルは、質量分析システムによって読み取ることが可能になるタンパク質、ペプチド、脂質、代謝産物、薬物、DNA、及びRNAなどの大量の生体分子を含む。必要に応じて、1つ以上のサンプルを使用してもよい。必要に応じて、これらの生体分子は相関し得、及び/またはこれらの生体分子は、人体計測データ、疾患状態、または性別などの他のサンプル特性に関連付けられ得る。
【0043】
任意選択で、事前決定されたサンプル特性は、質量、電荷、質量対電荷比、フラグメントスペクトル、MS2フラグメント情報、イオン移動度、強度情報、保持時間、配列(タンパク質/ペプチドの場合)またはその他のアイデンティティ(脂質/代謝産物の場合)のうちの1つ以上から選択される特定の特性を有するイオンであってもよい。任意選択で、事前決定されたサンプル特性は、複数のイオンであっても、またはイオンの組み合わせであってもよい。事前決定されたサンプル特性とはまた、配列であっても、または構造情報であってもよい。必要に応じて、1つ以上のサンプル特性を使用してもよい。有利には、質量、電荷、質量対電荷比、フラグメント情報、MS2フラグメント情報、イオン移動度、強度情報、保持時間、配列(タンパク質/ペプチドの場合)または他のアイデンティティ(脂質/代謝産物の場合)は、以前のデータベース検索もデータのde-novo解釈もなしで直接使用可能であり、MS-整合性-コードの生成及びサンプルの整合性分析に直接使用され得る。
【0044】
任意選択で、事前決定されたサンプル特性は、1つ以上のペプチドまたはタンパク質、好ましくは定量化されたペプチドまたはタンパク質である。有利なことに、定量化されたタンパク質は、MS-整合性-コードで使用可能であり、サンプルの整合性をチェックするために使用可能である数値を提供する。定量化されたペプチドまたはタンパク質の数値は、定量データを使用する統計及び人工知能手法などのすべての数学的計算に供することが可能で、広範なデータ分析手法の適用が可能になる。これはまた、計算可能なMS-整合性-コードを生成し、異なるサンプルを互いに比較するために有利である。
【0045】
任意選択で、質量分析データを処理して質量分析データを強化するように構成されたコンピューターは、クラスタリングアルゴリズムを使用して、それらの類似性に基づいてサンプルをグループ化する。ここでは、多くの距離の測定基準を類似性の基準として使用し得る。例として、距離は、定義されたタンパク質サブセットの定量化の違いとして定義され得る。さらに、n 次元の距離を使用する場合、さまざまな距離ノルムを使用使用してもよい。2次元のケースでマンハッタン距離またはユークリッド距離を使用する場合を考えてみよう(例えば、2つの異なるタンパク質サブセットの定量化の違い):ユークリッド距離を使用する場合、両方のタンパク質サブセットの偏差は、1つのサブセットのみで同じ大きさの距離を持つ場合と比較したとき、マンハッタン距離を用いる場合よりも距離が短くなる。例えば、2つのベクトル間のピアソン相関を計算する場合など、相関から追加の測定基準が発生する。サンプルの類似性を計算する前に、サンプルを正規化し、スケーリングし、整列させてもよい。データは、階層型クラスタリング、密度ベースのクラスタリング、及びk-meansクラスタリングなどの最先端のクラスタリングアルゴリズムを使用してクラスタリング可能である。
【0046】
任意選択で、タンパク質は、妊娠関連タンパク質(PZP)、性ホルモン結合グロブリン(SHBG)、アポリポタンパク質(a)(LPA)、他のアポリポタンパク質(APOA1、APOB、APOA2、APOA4、APOC1、APOC3、APOC4、APOC2、APOD、APOE)、免疫グロブリン鎖、ヘモグロビンサブユニット(HBA1、HBB、HBD、HBG1、HBE、HBZ)、炭酸脱水酵素(CA1、CA2)、ペルオキシレドキシン(PRDX2、PRDX6)、カタラーゼ(CAT)、バンド3陰イオン輸送タンパク質(SLC4A1)、スペクトリン鎖(SPTA1、SPTB)、アンキリン-1(ANK1)、グリセルアルデヒド-3-リン酸デヒドロゲナーゼ(GAPDH)、スーパーオキシドジスムターゼ(SOD1)、ビスホスホグリセリン酸ムターゼ(BPGM)、アクチン(ACTB、ACTG1、ACTA1、ACTC1)、セレン結合タンパク質1(SELENBP1)、タンパク質4.1(EPB41)、L-乳酸デヒドロゲナーゼB鎖(LDHB)、フィラミン-A(FLNA)、タリン-1(TLN1)、ミオシン-9(MYH9)、アクチン(ACTB)、ビンキュリン(VCL)、α-アクチニン-1(ACTN1)、トロポミオシンα-4鎖(TPM3)、トロンボスポンジン-1(THBS1)、トロンボスポンジン-4(THBS4)、チューブリン(TUBB1、TUBB4B)、14-3-3タンパク質ゼータ/デルタ(YWHAZ)、ゲルゾリン(GSN)、チューブリンα-1B鎖(TUBA1B)、インテグリン(ITGA2B)、凝固因子(F13A1、F2、F5、F7、F9、F10、F11、F12)、プロフィリン-1(PFN1)、トランスゲリン-2(TAGLN2)、フェルミチンファミリーホモログ3(FERMT3)、RAS関連タンパク質(RAP1B)、プレクストリン(PLECK)血小板塩基性タンパク質(PPBP)、フィブリノーゲン鎖(FGA、FGG、FGB)、アンチトロンビン-III(SERPINC1)、プロトロンビン(F2)、血小板糖タンパク質 Ib アルファ鎖(GP1BA)、血小板第4因子(PF4、PF4v1)、細胞外マトリックスタンパク質1(ECM1)、クラステリン(CLU)、デスモプラキン(DSP)、WDリピート含有タンパク質1(WDR1)、アトラクチン(ATRN)、血小板糖タンパク質V(GP5)、血漿セリンプロテアーゼ阻害剤(SERPINA5)、補体C1rサブコンポーネント様タンパク質(C1RL)、マンノシルオリゴ糖1,2-α-マンノシダーゼ IA(MAN1A1)、キニノーゲン-1(KNG1)、コリンエステラーゼ(BCHE)、高分子免疫グロブリン受容体PIGR)、ケラチン(KRT1、KRT10、KRT17、KRT2、KRT28、KRT9)、フルクトース二リン酸アルドラーゼ(ALDOA、ALDOB)、C-反応性タンパク質(CRP)、血清アミロイドAタンパク質(SAA1、SAA2、SAA4)、妊娠特異的妊娠特異的ベータ-1-糖タンパク質1(PSG1)、妊娠特異的ベータ-1-糖タンパク質9(PSG9)、アクチン関連タンパク質2(ACTR2)、プレラミンA/C(LMNA)、セプチン-9(SEPTN9)、ペプチジル-プロリルシス-トランスイソメラーゼ(FKBP2)、V型プロトンATPaseサブユニットB、脳アイソフォーム(ATP6V1B2)のうちの1つ以上から選択される。必要に応じて、タンパク質はタンパク質アイソフォームであってもよい。
【0047】
好ましくは、タンパク質は、PZP、LPA、APOE、HBA1、FLNA、FGA、KRT9、CRP、PSG1、ACTR2から選択される。これは、PZPレベルが女性と男性の性別を区別するのに適しているためである。LPAレベルは、極めて個体特異的である。APOEは、LDL粒子に存在し、分析可能な遺伝的要素を有する。定量化されたHBA1は、赤血球溶解、サンプルコレクション及び/または処理の問題のマーカーである。定量化されたFLNA及びTLN1は、血小板汚染、サンプルコレクション及び/または処理の問題のマーカーである。定量化されたFGAは、部分凝固事象、サンプル収集及び/または処理の問題の指標であり、FGAはさらに血漿と血清を区別し得る。高レベルのKRT9は、サンプルを取り扱うヒトによるサンプルの汚染の指標である。CRPレベルによって、慢性炎症を判断し得る。PSG1は、妊娠中に強く増加するタンパク質である。ACTR2は、尿サンプルから得られた細胞ペレットで増加したタンパク質であり、尿サンプルの汚染を検出することを可能にする。
【0048】
場合により、事前決定されたサンプル特性は、定量化されたペプチドである。有利なことに、生物学的ペプチドは、MSによって分析できる追加のクラスの分子である。さらに、タンパク質から生成された切断されたペプチドは、より直接的な測定指標として、タンパク質を定量化することなく分析され得る。
【0049】
任意選択で、事前決定されたサンプル特性は翻訳後修飾であり、好ましくは定量化された翻訳後修飾である。翻訳後修飾とは、リン酸化、グリコシル化、糖化、ユビキチン化、S-ニトロシル化、メチル化、N-アセチル化、SUMO化、及び/または脂質化であり得る。有利なことに、翻訳後修飾は、さまざまな生物学的特徴を報告し得る。グリコシル化は、異なるタンパク質の生物学的活性を報告し得る。糖化は、糖尿病に存在する高血糖レベルを報告し得る。リン酸化は、シグナルカスケードを活性化する主要なタンパク質の1つであるので、リン酸化はタンパク質の活性を報告し得る。
【0050】
任意選択で、事前決定されたサンプル特性は、対立遺伝子及び/またはバリアントペプチドである。有利なことに、質量分析は、ゲノム情報も取得し得る。DNAバリアントがアミノ酸組成の変化を伴うタンパク質バリアントに翻訳される場合、対立遺伝子はタンパク質レベルに反映され得る。そのようなタンパク質バリアントは、異なる個体のサンプルを同定するために使用してもよく、したがって生物学的サンプルの整合性をチェックするために使用してもよい。好都合なことに、そのような情報は、個体またはサンプルのゲノミクスまたはトランスクリプトミクスデータからすでに利用可能である場合がある。そのような場合、MS-整合性-コードを生成するために以前のMS-測定は必要ない。ペプチドバリアントの分析のさらなる利点は、整合性チェックをさまざまなサンプルタイプに適用できることである。MS-整合性-コードを生成してもよく、タンパク質の対立遺伝子の組み合わせを、筋肉組織などの任意の他のタンパク質含有サンプルと比較してもよい。
【0051】
任意選択で、対立遺伝子は、遺伝子名で列挙された以下の遺伝子の1つまたは複数から選択される:LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG;DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR;HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、APOC1、APOC3、APOC4、APOC4-APOC2、APOC2、APOD、APOF、APOM、ARHGAP1、ARSB、ATP1A4、ATP6V1A、ATRN、ATRNL1、AZGP1、B2M、BCHE、BLK、BLVRB、BTD、C15orf41、C1QA、C1QB、C1QC、C1R、C1RL、C1S、C2、C3、C4B、C4BPA、C4BPB、C5、C6、C8A、C8B、C8G、C9、CA1、CA2、CABIN1、CALD1、CALM1、CALM2、CALM3、CALR、CARD9、CARD11、CAT、CD14、CD163、CD44、CD5L、CDH5、CDHR2、CEP164、CFB、CFD、CFH、CFHR3、CFHR4、CFI、CFL1、CHGA、CHI3L1、CHIT1、CHRNB1、CKM、CLEC3B、CLTC、CLTCL1、CLU、CNDP1、CNTN3、COL18A1、COL6A3、COLEC11、COPE、CPB2、CPN1、CPS1、CRISP3、CRP、CRTAC1、CRYAB、CRYZ、CSH2、CSH1、CST3、CTSA、CTSD、CUBN、DBH、ECM1、EIF4A1、ENO1、ERLIN1、ERN1、ETFA、EXOC1、FABP4、FAH、FAM153A、FAM162A、FBLN1、FCGBP、FCGR3A、FCN2、FCN3、FETUB、FGA、FGB、FGFR2、FGG、FGL1、FITM1、FKBP4、FLII、FLOT2、FN1、GAPDH、GBA、GCA、GDI2、GGH、GLUD1、GLUD2、GP1BA、GPC6、GPLD1,GPRC5C、GPX3、GSN、GSTM4、HABP2、HADH、HARS、HBG2、HEXA、HGFAC、HIST1H4A、HLA-A、HLA-H、HLA-C、HPR、HPX、HRG、HSP90AA1,HSP90B1、HSPA5、HSPA8、HSPG2、ICAM1、ICAM2、IGFALS、IGFBP3、IGFBP6、IL1RAP、INTS4、ITIH1、ITIH2、ITIH3、ITIH4、KCTD12、KIAA0319L、KLKB1、KNG1、KPNB1、KRT24、LAMB2、LCAT、LCN2、LCP1、LDHA、LDHB、LGALS3BP、LILRB1、LILRA1、LOC93432、LRG1、LRP2、LTF、LUM、LYVE1、LYZ、MANBA、MARCKS、MASP1、MASP2、MB、MBL2、MEI1、MIA3、MMP9、MMRN1、MPO、MST1、MST1L、MUC4、MYH11、MYH14、MYO1A、MYO1B、MYO1D、NCF4、NCKIPSD、NEO1、NIN、NRP2、ORM1、ORM2、PC、PCCA、PCDHA8、PCOLCE、PCYOX1、PDIA4、PEBP1、PF4V1、PF4、PFN1、PI16、PIGR、PLCD1、PLCG2、PLEC、PLG、PLS1、PLTP、PON3、PPA1、PPBP、PPIA、PPIL1、PRAP1、PRCC、PRDX2、PRG2、PRG4、PROC、PROCR、PROS1、PROZ、PRSS2、PSG1、PSMB1、PSMC6、PSMD2、PTGDS、PTPRF、PUS10、PZP、QSOX1、RAB21、RAN、RANBP2、RBP1、RBP4、RECK、REG1A、RNASE4、RNF111、RPL10、S100A9、SAA1、SAA2、SAA4、SDC1、SELL、SEPP1、SERPINA10、SERPINA3、SERPINA4、SERPINA5、SERPINA6、SERPINA7、SERPINB6、SERPINC1、SERPIND1、SFTPB、SHBG、SLC12A3,SLC3A2、SNCA、SOD3、SPP1、SPTA1、SPTAN1、SPTB、SRGN、STXBP5L、SUMO2、SUMO3、SUMO4、TAGLN2、TCP1、TFRC、TGFBI、THBS1、TIMP1、TMSB10、TMSB4X、TNC、TNXB、TOR3A、TRHDE、TTN、TTR、TXN、UBC、UBB、RPS27A、UBA52、UBBP4、UCHL3、UGT8、VASN、VCAM1、VNN1、VSIG4、VTN、VWF、YWHAE、ZNF256、ZNF652、preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG、DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR、HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、more preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFM、ALB、APOA4、APOL1、C3、CP、CPN2、F5、FGG、より好ましくは、LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFM。有利なことに、上記リストの遺伝子名は、血漿中に非常に豊富に存在するタンパク質に関連している。それらは血漿中に非常に豊富に存在し、また血液はすべての臓器を流れるので、他の組織の共通部分でもあり、ヒト及び動物のサンプル分析全体にわたって一般的に使用され得る。さらに、列挙された遺伝子のペプチドバリアントは、血漿中に見られ得る。
【0052】
任意選択で、事前決定されたサンプル特性は、脂質などの生体分子、薬物または代謝産物などの小分子、炭水化物、好ましくは定量化された生体分子を含む。有利なことに、質量分析は、他の生体分子を同定及び定量化し得、これらは、MS-整合性-コードを生成し、質量分析システムによってサンプルの整合性を評価するために使用できる直交レベルの生体分子クラスを提供するという利点がある。
【0053】
任意選択的に、事前決定されたサンプル特性は、特に同定されていないイオン、及び/または未同定のイオン、及び/または生データ、及び/または他の質量分析計取得データである。好都合なことに、そのような特性のために、解釈可能なデータを生成してMS-整合性-コードを生成し、サンプルの整合性を評価するための大規模な前処理は必要ない。
【0054】
任意選択で、事前決定されたサンプル特性は、サンプルの起源の身長、体重、BMIなどの人体測定データを含む。好都合なことに、そのようなデータは個体に利用可能である場合が多く、MS-整合性-コードは、MS測定なしで生成され得る。質量分析的な分析を適用して、サンプルの起源の人体測定特性によって既に事前に確立されているMS-整合性-コードを評価できる。例えば、異なる生体分子は、人のBMIと相関する。質量分析的な分析に対して確認及び比較できる、個体またはサンプルに関するパラメーターの別の層。
【0055】
任意選択的に、事前決定されたサンプル特性は、医学的に関連する情報、例えば、臨床分析、例えば、HDL、LDL、コレステロール、C反応性タンパク質(CRP)、ヘモグロビン(Hb)、赤血球(RBC)、白血球(WBC)数、リンパ球数、好中球数、血小板数(PLT)、平均血小板容積(MPV)、血小板分布幅(PDW)、赤血球沈降速度(ESR))、健康状態または疾患状態、遺伝性疾患及び/または投薬を含む。好都合なことに、そのようなデータは個体に利用可能である場合が多く、MS-整合性-コードは、MS測定なしで生成され得る。質量分析的な分析を適用して、そのようなサンプル特性によって既に事前に確立されているMS-整合性-コードを確認してもよい。例えば、イムノアッセイなどの臨床化学法は、質量分析システムによっても定量化される生体分子を分析し得る。さらに、臨床化学部門で直接測定されない一部のパラメーターは、質量分析システムによって定量化された生体分子と相関する。
【0056】
任意選択で、事前決定されたサンプル特性は、性別、妊娠、民族性に関する情報を含む。好都合なことに、そのようなデータは個体に利用可能である場合が多く、MS-整合性-コードは、MS分析なしで生成され得る。質量分析的な分析を適用して、そのようなサンプル特性によって既に事前に確立されているMS-整合性-コードを確認し得る。例えば、PSG1などの異なるタンパク質のレベルは妊娠を示し、PZPなどの他のタンパク質は、性別を示す。
【0057】
任意選択的に、事前決定されたサンプル特性とは、トランスクリプトミクス、ゲノミクス、またはメタボロミクス分析などからの個体についてのメタデータに対する情報である。好都合なことに、そのようなデータは個体に利用可能である場合が多く、MS-整合性-コードは、MS分析なしで生成され得る。質量分析的な分析を適用して、そのようなサンプル特性によって既に事前に確立されているMS-整合性-コードを確認し得る。
【0058】
本発明の第4の態様によれば、上述の方法のいずれかを制御するためのコンピュータープログラムが提供される。
【0059】
本発明の第5の態様によれば、上述の方法のいずれかを制御するための命令を含むコンピューター可読媒体が提供される。
【0060】
本発明の第6の態様によれば、質量分析データを処理するためのコンピューターシステムが提供され、このコンピューターシステムは、質量分析データを処理して生物学的サンプルのサンプル特性を決定するように構成されている。質量分析データを処理するためのコンピューターシステムは、質量分析システムによって分析されたサンプルと、質量分析によって分析されたサンプルからの事前決定されたサンプル特性及び/または別の非質量分析によって生成されたサンプル特性との間の類似性測定基準を生成し得、生物学的サンプルの整合性の指標を出力し得る。
【0061】
本発明の第7の態様によれば、生物学的サンプルの整合性を評価するための質量分析データの使用が提供される。必要に応じて、使用は、次の用途のうち1つ以上を含んでもよい:サンプルを追跡すること、サンプルの生物学的由来を決定すること、別のサンプルの混入によるMS-整合性-コードの変更を検出すること、サンプル処理に伴う問題、例えば、赤血球溶解、サンプル保存の問題、MSワークフローの問題によるMS-整合性-コードの変更を検出すること、情報をサンプルにマッチさせること、1つ以上のサンプルを特定の人にマッチさせること、1つ以上のサンプルを相互にマッチさせること、1つ以上のサンプルを個別の臨床パラメーターにマッチさせること、個体を同定すること、2つ以上のサンプルの類似性を判断すること、2つ以上の個体の類似性を判断すること、1つの個体のサンプル間だけでなく、個体間でも類似性の決定を可能にすること、2つ以上のサンプル間の類似性を排除すること、2つ以上の個体の非類似性を決定すること、及び/または2つのサンプルが同じ組織由来のものであるか、例えば、血漿を2回分析し、血漿を1回と尿を1回分析するのではないかを決定すること。
【0062】
本発明の第8の態様によれば、マトリックスコード(例えば、バーコード及び/またはQRコード)などの機械可読コードが提供される。機械可読コードは、タンパク質レベル、対立遺伝子情報、サンプル汚染指標、性別に関する情報などの事前決定されたサンプル特性をコードし、MS-整合性-コードを直接反映する機械可読コードである。好ましくは、機械可読コードは、物理的なラベル、例えばサンプル容器及び/またはチューブに取り付けるためのステッカーである。任意選択で、機械可読コードは、サンプル及び/またはその起源を同定する際に使用するためのものである。好都合なことに、サンプル容器に取り付けられた物理コードは、サンプルに物理的にリンクされた機械可読情報を直接提供する。質量分析システムは、物理コードのサンプル特性と比較できる整合性データを生成し得る。好都合なことに、これにより、疑わしいサンプルがラベル付き容器にあるか否かを確認することが可能になる。
【0063】
本発明の第9の態様によれば、事前決定されたサンプル特性と、質量分析計データを提供するように構成された質量分析システムとの使用が提供され、その使用は暗号化である。MS-整合性-コードにおける事前決定されたサンプル特性の使用は、情報の暗号化処理を提供するために適用でき、質量分析計データを提供する質量分析システムは、情報を解読するために適用できる。有利なことに、情報を解読するためのキーは、MS-整合性-コードに事前決定されたサンプル特性が使用された、同じ生物学的起源/個体のサンプルから提供される。有利なことに、これにより、個々の特定の暗号化プロセスが可能になる。有利なことに、これにより、正しく取得されたサンプルデータのみを使用して、MS-整合性-コードの事前決定されたサンプル特性に基づいてコードを正しく解読できる、安全なサンプル分析プラットフォームを作成できる。さらに、そのような設定は、安全なサンプル分析プラットフォームを持つためだけでなく、患者の健康関連情報へのアクセスを可能にするキーとしても直接適用される場合がある。
【0064】
任意選択的に、使用とは、暗号化されたデータを提供するためにデータを暗号化するための事前決定されたサンプル特性、及び暗号化されたデータを解読するための質量分析計データを提供するように構成された質量分析システムの使用であり得る。
【0065】
任意選択的に、化学修飾を使用して、MS-整合性-コードに対する特定のシグネチャーを生成してもよい。有利なことに、化学修飾は、質量分析計のサンプル調製ワークフローで生体分子に追加してもよく、生体分子のさらなるバリエーションが可能になる。有利なことに、特定の追加情報、例えば、研究所固有のシグネチャーにリンクできる特定のシグネチャーを追加してもよい。
【0066】
必要に応じて、暗号化でMS-整合性-コードを適用して、ヘルスケアシステムのデータを暗号化することが可能になる。
【0067】
これより、添付の図面を参照しながら、例としてのみ本発明の実施形態を説明する。
【0068】
〔図面の簡単な説明〕
(
図1A)MS-整合性-コード(A)に統合できる事前決定されたサンプル特性(A)と、サンプルの整合性を評価するためのMS-整合性-コードと組み合わせた質量分析システムの適用(B)の概略図である。
【0069】
(
図1B)MS-整合性-コード(A)に統合できる事前決定されたサンプル特性(A)と、サンプルの整合性を評価するためのMS-整合性-コードと組み合わせた質量分析システムの適用(B)の概略図である。
【0070】
(
図2)サンプルの整合性を評価するために、MS-整合性-コードの事前決定されたサンプル特性と質量分析システムによって生成されたデータを比較するための例の概要表である。「MS-整合性-コードサンプル」とは、MS-整合性-コードの事前決定されたサンプル特性が確立された生体系のサンプルである。「処理中の新しいサンプル」とは、事前決定されたサンプル特性のデータと比較するためのデータを質量分析システムが決定したサンプルである。さまざまなサンプル特性にまたがる比較が示されている。
【0071】
(
図3)MS-整合性-コードの例と、質量分析システムによって生成されたデータとの比較を含む要約表であり、サンプルの整合性の評価に使用される類似性指標の例を示している。
【0072】
(
図4A)機械可読QRコード(B)に変換されたMS-整合性-コード(A)の事前決定されたサンプル特性の例である。
【0073】
(
図4B)機械可読QRコード(B)に変換されたMS-整合性-コード(A)の事前決定されたサンプル特性の例である。
【0074】
(
図5A)1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【0075】
(
図5B)1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【0076】
(
図5C)1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【0077】
(
図5D)1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【0078】
(
図6A)サンプルの起源を評価するためのMS-整合性-コード内の対立遺伝子情報であり、(A)は、3つの異なる時点での5個体のサンプルの比較をまとめたものであり;(B)は、プロット内の階層的クラスタリングによる類似性の決定をグラフで示す。
【0079】
(
図6B)サンプルの起源を評価するためのMS-整合性-コード内の対立遺伝子情報であり、(A)は、3つの異なる時点での5個体のサンプルの比較をまとめたものであり;(B)は、プロット内の階層的クラスタリングによる類似性の決定をグラフで示す。
【0080】
(
図7)定量的タンパク質レベル(A)、定量的ペプチドレベル(B)、及び定量的翻訳後修飾レベル(C)を使用してサンプルを追跡するための類似性指標として、サンプルからの定量的MS生成値の適用を示すプロットである。
【0081】
(
図8)Aでは、時点1での個体1対時点2での個体1の相関関係を;Bでは、個体1由来の血漿サンプルと、個体1及び個体2由来の血漿サンプルの1:1希釈に対する相関関係を;及びCでは、個体1由来の血漿サンプルと個体1及び個体2由来の血漿サンプルの1:10希釈の相関関係を示す一連の散布図である。
【0082】
(
図9)個体2の時点2と個体2の時点1の血漿サンプルの定量的タンパク質レベルを比較した散布図であり、混入のレベルが増している一連の強調されたタンパク質である。
【0083】
〔発明を実施するための形態〕
質量分析(MS)は、生物学的サンプルの整合性を検証するために使用され得る。この方法は、測定されたイオン、イオンの定量化、特定及び定量化されたタンパク質及びペプチド、ペプチドまたはタンパク質からの同定された対立遺伝子、ならびにこの目的のために同定及び定量化された代謝物または脂質を使用するために、質量分析的な分析を適用してもよい。サンプルを追跡すること、及び個別に分析されたサンプルが目的のサンプルであることを確認することは、例えば、研究、バイオバンキング、臨床診断などにおいて最も重要なことである。質量分析計は、イオンの質量電荷比を測定し得る。これらのイオンは、ペプチド、タンパク質、ペプチドまたはタンパク質の改変バリアント、同定不可能なイオンであってもよいが、代謝産物または脂質でもあってもよい。これらの要因の有無により、サンプルの整合性を確認するために適用できるコード(「MS-整合性-コード」)として本発明者らが定義する、生物学的サンプルのバーコードまたはフィンガープリントとして使用され得るパターンが生じる場合がある。そのようなMS-整合性-コードの情報は、通常、生体系またはサンプルの1つ以上の事前決定された特性である。ここで、サンプルとは、任意の種類の生物学的サンプル、例えば、血液、血漿、血清、尿、または筋肉もしくは腫瘍組織などの組織、またはリキッドバイオプシーを含む生検であり得る。サンプルは、処理されたサンプル、例えば、乾燥血液、血漿、血清、枯渇血漿、及び血漿または他の生体液由来のエクソソームであってもよい。質量分析システムは、個体ごとに決定論的な生体分子の情報を取得できる。これは、各個体には固有のライフスタイル及び生活史があり、個体によって大きく異なる可能性があるためである。これにより、血漿などの生物学的サンプル中の生体分子のレベルが明確になる。このような生体分子の1つ以上に関する情報を適用して、生体系のMS-整合性-コードを生成できる。由来が同じ(例えば、同じドナー由来)のサンプル(例えば、同じ生体系)が質量分析システムで測定される場合、または同じ起源の2つのサンプルが一緒に分析される場合、類似性測定基準を生成し、サンプルの整合性を確認するために使用してもよく、これには、サンプルの追跡、サンプルの起源の同定、及びサンプルの品質の評価を含む。生体系とはヒトであってもよい。生体系とは、動物、例えばネコ、イヌ、実験動物(マウス、ラット、ウサギ、カエル、魚)、ウマ、ラクダ、及び/または魚であり得る。さらに、MSベースの分析では、ペプチド及びタンパク質バリアントの形で単一アミノ酸多型(SAP)を同定し得る。これらの分析は、ヒトの単一ヌクレオチド変異、マイクロサテライト、ならびに小規模な挿入及び欠失など、ペプチドまたはタンパク質配列に翻訳されるあらゆる種類の遺伝的変異に対して実行され得る。同定されたペプチド及びタンパク質配列のバリエーションを適用して、サンプルを追跡し、それを異なる起源に割り当ててもよい。さらに、この情報を適用して、遺伝的多様性及び距離、ならびにサンプルの起源、ヒト血液サンプルなどのサンプルの品質または汚染を、他の個体の1つ以上のサンプルと一緒に分析してもよい。ペプチドの同定を達成するために、質量分析法、例えば、サンプル調製ワークフロー、質量分析計に連結された液体クロマトグラフィー、及びエレクトロスプレーなどのイオン化技術を使用して、質量分析計及び取得したデータの処理タスクを実行するためのコンピューターシステムによって分析できるイオン化生体分子を生成してもよい。MSベースのプロテオミクスでは、ペプチドは、トリプシンなどのプロテアーゼ単独、あるいは他のプロテアーゼまたは化学的もしくは物理的方法と組み合わせて、または他のプロテアーゼ、化学的もしくは物理的方法の使用により、消化されていないペプチドまたはペプチド結合の酵素的切断を単離することによって、単独で、またはプロテアーゼトリプシンと組み合わせることなく、生成される。
【0084】
図1は、生体系から採取された生物学的サンプル(例えば、ヒト個体に由来する血液サンプル)の整合性を判断するための質量分析システムの生成及び適用をまとめたものである。質量分析システムは、多くの生体分子を分析できる。これらの生体分子は、明確なサンプル特性に関するインテリジェンス、例えば、人体測定データ、臨床化学分析、性別、年齢、疾患の状態、投薬、配列決定データなどのメタデータ(
図1Aでは非MSデータと呼ばれる)に関する情報、及び当然ながらまた、質量分析計が決定した生体分子に関する情報も提供し得る(
図1A)。このようなサンプル特性は、別個の生体系について事前に決定されてもよく、この生体系及びこの生体系から生成されたサンプルに関連付けてもよい。この生体系からサンプルが再び得られる場合、質量分析システムを使用して、生物学的サンプルの質量分析データを生成してもよい。この情報は、サンプルの整合性を評価するために使用され得る。質量分析データを処理して、事前決定されたサンプル特性と比較して、サンプルの整合性の指標を取得してもよい(
図1B)。新たに取得された質量分析データが比較される事前決定されたサンプル特性は、MS-整合性-コードと呼ばれる整合性コードとして見ることが可能になる。ここで、1つ以上の事前決定されたサンプル特性を、MS-整合性-コードに実装してもよい。
【0085】
特定の実施例では、個体の電子健康データがデータベースに格納される。この情報には、以前の臨床化学測定値、性別、遺伝情報、及び潜在的な疾患に関する情報が含まれる場合がある。このような事前決定されたサンプル特性は、個体に関連付けられており、MS-整合性-コードを生成するために使用できる。医療システムとの将来の接触では、この個体から分析のために新しい血液サンプルが採取される。質量分析システムは、サンプルの整合性を評価するために使用され得る。質量分析システムは、質量分析データを生成する。このデータは、事前に決定され、MS-整合性-コードの一部であるサンプル特性に関するインテリジェンスを提供する。この例では、質量分析データで整合性を確認し得る。1つ以上の事前決定されたサンプル特性と新たに取得したMS情報との間の類似性を計算することにより、ヘルスケアシステムにリンクされた正しい個体からサンプルが採取されたことを確認し得る。この実施例では、明確な事前決定されたタンパク質レベルを新たに取得したタンパク質レベルと比較してもよく、事前決定された遺伝情報を新たにMSが取得した対立遺伝子情報と比較してもよく、性別は性別関連情報によって確認してもよく、サンプル処理の問題に関する整合性を、明確な汚染マーカーによって評価してもよい。このようにして、サンプルの整合性を評価してもよい。
ヘルスケアシステム内の将来のすべての血漿及びその他のサンプルが質量分析法によって分析されるシナリオでは、事前決定されたサンプル特性に基づくMS-整合性-コードを含むデータベースを確立したいと考えている。したがって、人が初めて測定されると、その情報がデータベースに追加され、この人にリンクされる。これにより、医師または追跡システムは、サンプルの整合性が損なわれていないか否かをクロスチェックすることが可能になる。
【0086】
MSベースの分析では、あらゆる生体系のさまざまな種類の多数の生体分子を多数定量化し得る。多くの生体分子は、ヒト血漿サンプルまたはその他の種類のリキッドバイオプシーもしくは組織サンプルの1回の分析で定量化できる。サンプルあたりの定量化された生体分子の数が多ければ、このサンプルに固有のMS-整合性-コードを生成することが可能である。同一の生体系の別のサンプルが採取され、MSベースの分析によって分析される場合、2つのサンプルは、それらの共通の起源の結論を下すことを可能にする多くの定量化された生体分子によって比較され得る。これには、1つ以上の異なる生体分子の有無が含まれる。また、ペプチドの量、有無、質量分析法によって決定される対立遺伝子、翻訳後情報、または測定されたイオンパターン、または記録されたMS2フラグメントスペクトルを含む生体分子(特定の既知の生体分子としては現在同定できない)も含まれる。この情報のそれぞれまたはそれらの組み合わせにより、サンプルの起源に固有のパターンが得られる。このパターンは、サンプルの固有または内因性のバーコードまたはMS-整合性-コードとして解釈できる。サンプルの起源、2つのサンプルの類似性、及びサンプルが1つ以上の他のサンプルで汚染されているか否か、またはサンプルの処理が正しくないか否かを判断することが可能である。
【0087】
本明細書では、質量分析システムを使用してサンプルの整合性を確認し、サンプルの整合性を反映するサンプル固有コードを生成することを可能にする方法を提案する。この方法は、生物学的サンプルからそのようなMS-整合性-コードを生成して読み取り、サンプルを追跡し、ラベルが失われたときにサンプルを再同定し、サンプルを互いにマッチさせるか、または2つ以上のサンプルの共通の起源を除外し、正しいラベリングを検証することを可能にする。このコードは、質量分析法以外の方法及び情報で生成された理論上のコードと比較し得、MSを使用してコードを比較し、整合性を確認し得る。本明細書でサンプルの整合性チェックを提案するとおり、この「MS-整合性-コード」は、サンプルの汚染、例えば1つ以上の他のサンプルによる汚染を検出するためにも使用され得る。
【0088】
サンプルの追跡は、サンプルがすでに測定されている場合、または同じ起源(同じ個体由来のサンプルなど)の2つのサンプルが縦断研究などで分析される場合に特に有利である。しかしながら、MS-整合性-コードがサンプルとその起源との間の関係を作ることを可能にするので、個体の親戚についての情報が知られている場合にも有利であろう。さらに、MSベースの分析の実行中に取得されたデータにより、人体測定データ、性別または倫理的起源に関する情報などの他の利用可能なメタデータを使用して、サンプルの起源を評価することが可能になる。取得したデータによって、1つ以上のサンプルの汚染をチェックすることも可能になる。
【0089】
臨床診療では、及び疫学研究またはバイオマーカー探索研究などのヒト(または動物)サンプルを分析する研究では、正しい(臨床)表現型が正しいサンプルとマッチングされることが最も重要である。例えば、これにより、例えば臨床化学部門で分析されたパラメーターを適切な患者またはその医師に戻すことが可能になる。ただし、サンプルの偶発的または意図的なスワッピングが発生する場合がある。臨床現場では、患者に誤って割り当てられた検査結果は、誤った臨床決定を下す結果となり、ヒトサンプルを分析する研究では、これは誤った研究結果につながる。サンプルが以前にMSベースの分析によって測定されている場合、または対立遺伝子に関する情報がゲノミクスまたはトランスクリプトミクス分析などから入手できる場合、MSベースのプロテオミクスによって得られた対立遺伝子情報を使用して、サンプルをマッチする個体に割り当てることが可能である。これにより、研究設定で他のメタデータを正しい人に割り当てることが可能になり、人の診断結果を正しい人に転送することが可能になり、最終的にサンプルスワッピングエラーがなくなる。
【0090】
本発明の方法は、プロセス及び分析を通してサンプルのアイデンティティを追跡し得る。長期的にサンプリングされた血漿を、各サンプルの対立遺伝子に関して分析してもよく、2つのサンプルが本当に同じ個体に由来するか否かを評価することが可能になる。絶え間ない技術の進歩により、質量分析が臨床医学に幅広いスケールで導入される可能性がある。MS-整合性-コードは、個体ごとに生成され得る。MSによって分析された生体分子に保存された情報を適用して、サンプルのアイデンティティを確認してもよく、サンプルを特定の起源にマッピングしてもよい。
【0091】
同様に、異なる条件下では、サンプルの混合または相互汚染が発生する場合がある。例えば、臨床研究では、同じサンプルの2つ以上のアリコートを組み合わせる必要がある場合がある。このような場合、あるアリコートが別の間違ったサンプルと組み合わされることも生じ得る。対立遺伝子情報を使用して、1つのサンプルに異なる対立遺伝子が存在するか否かを判断し得る。この可能性の証拠は、1個体の遺伝子型が以前に知られていた2つの異なる個体の2つのサンプルを混合することによって提供される。これにより、分析すべき個体のサンプルには存在しないはずの対立遺伝子を検出することが可能になった。
【0092】
生物学的サンプルは質量分析法によって分析され、サンプル中のペプチド及びタンパク質のアミノ酸配列が取得される。MSベースのプロテオミクス技術は、ペプチドの配列を決定できるので、ペプチド配列によるSNPまたは個々の特定の対立遺伝子変異をコードすることによって引き起こされるSAPを同定することも可能である。通常、公に利用可能なデータベースを適用して、MS分析から実験的に決定された質量スペクトルを、データベースから予測されたスペクトルにマッチングさせ、異なる配列が存在する可能性を計算することが可能である。この目的のために、UniProtなどの公的に利用可能なデータベースが通常適用される。ただし、これらのデータベースには通常、最も一般的な対立遺伝子である場合が多い対立遺伝子が1つしか含まれていない。したがって、タンパク質のアミノ酸配列に反映されるSAPまたはその他の遺伝的変化を含むバリアントペプチドは、一般に、標準的なプロテオミクス分析では検出できない。なぜなら、それらは、質量スペクトルの解釈に使用される汎用データベースに存在しないからである。ただし、例えば、UniProtのSwissknife PERLモジュールを使用するか、または公開されているデータベースdbSAPを使用したりして、バリアント配列を含むカスタムデータベースを作成できる。生成されたバリアントFASTAファイルにより、バリアント配列のデータベース検索が可能になる。これは、そのようなツールを使用するか、または他のツールもしくは手動で作成することによって可能である。疾患の診断及び個々のサンプルの同定、及び他の供給源からのサンプルの汚染に適用できる、このようなバリアント データベースを使用すると、体液及び組織からMSベースのプロテオミクスによって配列特異的な対立遺伝子を検出することにより、数百の対立遺伝子の大規模な検出が、可能になる
この方法は、データベースを必要としないペプチドのデノボ配列決定によって、バリアント配列を決定するために使用され得る。ペプチドまたはタンパク質配列が得られると、続いてさまざまな分析を行ってもよい。タンパク質バリアントの有無を決定することが可能になる。ほとんどの生物は一倍体ではなく、したがって各遺伝子座の複数の対立遺伝子を有するので、これにより、遺伝子座がホモ接合性かヘテロ接合性かの決定も可能になる(例えば、ヒトは二倍体であり、性染色体とは別に各遺伝子座の2つの対立遺伝子を有する)。このデータは、民族的起源の分析に、及びタンパク質バリアントの人口頻度の決定に適用可能である。一般に、タンパク質バリアントのMSベースの分析は、ゲノミクス及びトランスクリプトミクスが使用される、すべての分野及びすべてのアプリケーションで行うことが可能になる。MSベースのプロテオミクスによる対立遺伝子の同定のボトルネックの1つは、すべてのペプチドが同様に分析に適しているわけではないことである。タンパク質の一部は、分析されたペプチドにならない場合がある。さらに、個別の質量分析データ取得またはスキャンモードでは、MS2スペクトルを使用したペプチドの配列決定は、データ依存取得(DDA)及び部分的にはまたデータ非依存取得(DIA)モードなどの半確率的プロセスに依存する。したがって、明確なペプチドがMSによってまったく検出されないか、明確な状況で他のペプチドが欠落している可能性がある。しかし、MS技術は絶えず改善されており、得られるスペクトル情報はますます完全になっている。さらに、事前定義されたペプチドのターゲット取得などの新しいスキャンモードにより、非常に高い確率で異なるペプチドが取得される。このようなターゲットを絞った方法では、DDA及びDIAなどのターゲットを絞らないショットガン法と同じくらい多数のペプチドを分析し得る。さらに、実験データから生成されたさらなる情報または予測を使用することにより、ペプチド同定の可能性を高めることが可能になる。例えば、機械学習ツールを使用して大規模なデータセットを分析することにより、及びペプチドの検出可能性を予測することにより、ペプチドの検出可能性を予測することが可能である。同じタンパク質またはさらには他のタンパク質の豊富な他のペプチドを使用して、異なるペプチドが正しく同定される可能性をさらに高めることが可能である。これは、例えばペプチドバリアントを含むデータベースを使用することによって、データベース検索スペースが増加している場合に特に有用になる。さらに、対立遺伝子情報及びバリアントペプチドをMS-整合性-コードで使用してサンプルをマッチングさせる場合、欠損値の問題は、マッチング尤度の計算で考慮され得る。例えば、同定されたバリアントペプチドは、存在しないバリアントペプチドよりも高いスコアを取得できる。
【0093】
MSベースの分析では、任意の生体系の多数の生体分子を定量化し得る。多くのタンパク質は、ヒト血漿サンプルまたは任意の他の種類のリキッドバイオプシーまたは組織サンプルを1回分析するだけで定量化され得る。サンプルあたりの定量化された生体分子の数が多ければ、このサンプルに固有のMS-整合性-コードを生成することが可能である。同じ生体系の別のサンプルが採取され、MSベースの分析によって分析される場合、2つのサンプルは、共通の起源の結論を引き出すことを可能にする多くの定量化されたタンパク質に基づいて比較され得る。これには、1つ以上の異なる生体分子の有無、または存在量の違いが含まれる。分析される生体分子がタンパク質及びペプチドである場合、ペプチドの量、有無、質量分析法によって決定される対立遺伝子、PTM、測定されたイオンパターンまたは「特徴」も含まれる。この情報のそれぞれまたは情報の組み合わせにより、サンプルの起源に固有のパターンが得られる。このパターンは、固有または内因性のラベル、言い換えればサンプルのMS-整合性-コードとして解釈され得る。サンプルの起源、2つのサンプルの類似性、及びサンプルが1つ以上の他のサンプルで汚染されているか否か、またはサンプルの処理が正しくないか否かを判断することが可能である。
【0094】
〔実施例〕
例えば、以下を含むさまざまな理由に起因して、サンプルの整合性が不明瞭になる場合がある
(A)サンプルの起源が不明または破損している
(B)サンプルのアイデンティティを失う
(C)サンプルの汚染の可能性
(D)サンプル処理の問題
(E)サンプルの劣化
ここでは、実際の実験で、血漿サンプルの事前決定されたサンプル特性を有するMS-整合性-コードの生成と、質量分析システムを適用してサンプルの整合性を確認する方法について説明する。この目的のために、3つの異なる時点(TP1、TP2、TP3)で5つの個体(Ind1、Ind2、Ind3、Ind4、Ind5)の血漿サンプルを採取した。サンプルを質量分析システムで分析して、タンパク質、ペプチド、PTM、及び対立遺伝子に関する情報を生成した。
【0095】
MS-整合性-コードは、すべての種類の事前決定されたサンプル特性、例えば、定量的なMS由来データ、MSによって決定された対立遺伝子情報、及び性別または遺伝情報などのサンプルの整合性をチェックするために使用され得るその他の利用可能な情報から構成され得る。ここでは、質量分析を使用して定量化されたタンパク質レベル、同定された対立遺伝子の配列決定、サンプル品質の指標(血小板及び赤血球汚染マーカー強度)、及び性別を、事前決定されたサンプル特性として使用した(
図2)。これらの事前決定されたサンプル特性は、MS-整合性-コードとして機能し、生体系、個体、またはサンプルに関連付けられ得る。事前決定されたサンプル特性を有する生体系のサンプルが質量分析システムによって分析される場合、質量分析システムは、サンプルの質量分析データを提供し、質量分析データを処理して、事前決定されたサンプル特性の値を決定することが可能になる。新たに取得されたMSデータと事前決定されたサンプル特性の情報との比較により、類似値を計算することが可能になる。
【0096】
所定の類似性により、例えばスコアリングシステム/機能を使用してサンプルの整合性を確認することが可能になる(
図3)。1つ以上の事前決定されたサンプル特性と多様なデータタイプを使用した整合性チェックのさまざまな適用例を提供する(
図2、
図3)。
【0097】
類似性は、一般に、事前決定された距離測定基準に基づいて、2つのサンプルの距離として定義され得る。例としては、マンハッタン距離(例えば、差の合計)、ユークリッド距離(例えば、最短距離(ピタゴラス距離)、または相関距離(例えば、ベクトルの相関)が挙げられる。オーバーラップは、固定のオーバーラップ閾値(例えば、R>= 0.95)によって定義されてもよく、または所定のサンプル偏差から推定されてもよい(例えば、同じサンプルを繰り返し測定し、計算されたサンプル間の相関を閾値として使用する)。
【0098】
実施例1-サンプルの同定
サンプルの整合性をあいまいにする1つの可能性は、そのアイデンティティを失うかまたは変更することである。実験では、サンプルをそれ自体と比較した。サンプルについて、定量的タンパク質レベル、対立遺伝子、サンプル品質指標のレベル、及びサンプルが取得された個体の性別など、サンプルの特性を事前に決定した(
図2)。これらの事前決定されたサンプル特性は、別個の個体のMS-整合性-コードとして使用することが可能になる。ここで、このサンプルの整合性を再度確認したい。サンプルの質量分析データを提供するように構成された質量分析システムを使用し、質量分析データを処理して、また事前決定されており、MS-整合性-コードの一部でもあるサンプル特性を決定する。新たに取得されたMSデータと事前決定されたサンプル特性の情報との比較により、サンプルの類似値を計算することが可能になる。これにより、評価されたパラメーターに関して可能な限り高い類似性が得られた(例1、
図2)。定量的タンパク質レベルは完全に重複しており(ピアソンR=1)、事前定義された対立遺伝子は、質量分析で決定された対立遺伝子と同一であり(86の対立遺伝子がマッチする)、事前定義された性別(男性)は、低いPZPレベルに反映された。さらに、この実施例では高かったアイデンティティ、汚染、及びアイデンティティと汚染の組み合わせの総合スコアを計算することが可能である(実施例1、
図3)。MS-整合性-コードの事前決定されたサンプル特性と新たに取得されたMS情報の類似性に関するそのようなスコアは、様々な例について
図3に示されている。
【0099】
ただし、サンプル内の生体分子の組成は、測定方法の相違に起因して時間の経過とともに変化し得る。それにもかかわらず、時間の経過とともに同じ人から得られた情報は、別の人のサンプルと比較するよりも、互いに類似したままになる。同じ個体から、異なる時点でさらに2つのサンプルを採取し、MSで測定した。MS-整合性-コードの事前決定されたサンプル特性をMSデータと比較した結果、定量的タンパク質レベル、対立遺伝子、及び性関連タンパク質の高い類似性が得られた(実施例2及び3、
図2)。したがって、これらのサンプルの整合性を確認できた。これは、MS読み出しが利用可能な個々のデータタイプを使用して可能であるが、性別及び対立遺伝子に関する情報などの非MSデータも、事前決定されたサンプル特性として使用した。
【0100】
次に、ある個体のMS-整合性-コードを別の個体のサンプルと比較して、サンプルの整合性の破損を同定できる可能性を示した。この目的のために、追加のサンプルを分析した。定量的タンパク質レベル、PZPレベル、及び対立遺伝子に関する定量的MS由来の情報を、MS-整合性-コードの事前決定されたサンプル特性と比較した。それぞれの例では、質量分析システムが情報を提供したサンプルとは異なる個体からMS-整合性-コードの事前決定されたサンプル特性が得られたため、整合性が損なわれたという結果であった(実施例4、5、6、7;
図2及び3)。さらに、実施例4及び7(個体2及び5)では、性関連タンパク質PZPは、サンプルの提供者として女性を示唆した。ただし、MS-整合性-コードでは、サンプルが男性個体から取得されたという情報を保存した。女性という性別は、非常に高いPZPレベルによって決定され、これだけでも、サンプルのアイデンティティに関する整合性が損なわれていることを確認するのに十分な情報であった。
図2の1つのデータをアイデンティティ、汚染、及び完全なMS整合性スコアのスコアに組み合わせると、アイデンティティに関してこれらの例の非常に低いスコアが直ちに強調され、したがって完全なMS整合性スコアも強調された。これらの例では、スコア関数は、MS-整合性-コードの事前決定されたサンプル特性とMS取得情報との間のわずかな違いでさえも強いシグナルをもたらすように設計された。例えば、同じ個体の2つのサンプルを比較すると、完全なMS整合性スコアは、同じサンプルで1、異なる時点のサンプルで0.75になった(実施例1及び2、
図3)。しかし、MS-整合性-コードを別の個体由来のサンプルと比較すると、2.17E-08という低いスコアが得られた(実施例7;
図3)。これにより、サンプルの起源が不明または破損しているという問題(A)が解決される。さらに、これにより、サンプルラベルが失われて混ぜられる場合でも、サンプルを元の場所に再リンクすることが可能になる。正しい血漿サンプル(及びその新しく取得された情報)は、新たに取得された質量分析データとMS-整合性-コード内の事前決定されたサンプル特性との間の類似性を計算することによって、その起源に関連付けることが可能になる。この場合、類似性は、実施例3、4、5、6、及び7のMS-整合性-スコアによって反映される。実施例サンプル3のみが、高いMS-整合性-スコアをもたらした(
図3)。これにより、サンプルのアイデンティティを失うという問題(A)が解決される。
【0101】
MS-整合性-コードの事前決定されたサンプル特性は、マトリックスコード(バーコードまたはQRコード)などの機械可読コードに直接変換することもできる。そのようなバーコードは、事前決定されたサンプル特性の読み取り可能な情報を直接含む。これらのデータは、バーコードスキャナーで読み取ることができ、質量分析システムで取得した整合性データと容易に比較できる。性別、タンパク質レベル、対立遺伝子情報、及びフィブリノーゲン(FGA)などの汚染指標のタンパク質レベルに基づく情報で構成されるMS-整合性-コードの翻訳を例示しており(
図4A)、この情報をQRコードに翻訳した(
図4B)。
【0102】
MSで取得したデータと、それらを使用して、それらのアイデンティティに関してサンプルの整合性を確認し得る方法をさらに説明するために、次の段落で個々のデータについて詳しく説明する。
【0103】
図5は、サンプル中のタンパク質レベルのペアワイズ比較を示している。サンプル間で分析されたすべての生体分子の定量的情報を組み合わせることは、この目的にとって特に価値がある。例として、サンプルの血漿プロテオームは、最も豊富なタンパク質から最も少ないタンパク質まで、10桁以上の範囲である。質量分析システムは、現在、約5~6桁の血漿プロテオームを検出し得る(
図5A)。1時点「TP1」での1つのサンプル「Ind1」の血漿中の定量化されたタンパク質は、同じサンプルに相関しており、定量化されたタンパク質のカバーされた量の範囲を示す。X軸は、1つのサンプルの強度レベルを表示し、Y軸は2番目のサンプルの強度を表示する。これらの定量的プロテオームはデータバンクに保存でき、何百ものタンパク質の定量的情報が含まれている。タンパク質レベルは個体に固有であるため、時間の経過とともに劇的に変化することはない(疾患などの異なる状況下でのタンパク質の変化を除いて)。同じ個体のサンプルの定量的プロテオーム全体を経時的に比較すると、例えば、ピアソン相関係数が0.99という類似した定量的プロテオームが得られる(
図5B)。2つの異なる個体のタンパク質レベル間の類似性は低くなり、例えば、全体的なピアソン相関係数は、0.92になる(
図5C)。さらに、性ホルモン結合グロブリン(SHBG)または妊娠関連タンパク質(PZP)など、女性と男性の間で10倍から100倍の差があり、さらに妊娠中に10倍から100倍増加する可能性のある別個の他のタンパク質のレベルが著しく異なる場合がある(
図5D)。このように、性別の情報は、MS-整合性-コードで使用できる。個体間で大きく異なる非常に有益なタンパク質の別の例は、個体間で千倍の発現差を示し得るアポリポタンパク質(a)である。これらの定量的なタンパク質値は、主に、そのアイデンティティに関してサンプルの整合性を検証するため、またはサンプルがプロセス中に交換も破損もされていないことを検証するために使用され得る。このような非常に個体に特異的なタンパク質レベルは、サンプルの起源を識別するために特に高い価値がある。質量分析によって定量化されたタンパク質及びその他の要因の値は、個体を区別するために異なる値を持っているので、サンプルの起源を決定するためにそのようなタンパク質がより重要になる場合は、重み付けまたはスコアリング関数を適用できる。さらに、異なる生活状況によって影響を受けるタンパク質の重要性を低くしたり、またはそのような生活状況をスコアリング関数で考慮したりすることが可能になる。例としては、炎症タンパク質SAA1がある。これは、個体に固有のものと見なすことができるが、感染すると数百倍も変化する場合がある。さらに、特に同定可能性に関しては、段階的なプロセスを適用できる。例えば、最初に性依存性タンパク質レベルによって性別を決定してもよく、次に、潜在的なサンプルドナーは、アポリポタンパク質(a)などの個体に強く特異的なタンパク質を考慮すること、及び/または対立遺伝子組成がマッチしない個体を除外することによって絞り込むことが可能になる。定量的タンパク質レベルでは、例えば血漿サンプルが血漿サンプルであり、血清サンプルでもなく、別の動物または別の体液由来のサンプルでもないなど、そのサンプルタイプに関してサンプルの整合性をさらに確認することが可能になる。また、サンプルが劣化しているか否かもこれによって通知される。
【0104】
タンパク質、ペプチド、及びPTMのレベルに関する定量的なMS由来のデータの次に、質量分析は、対立遺伝子を同定し得る。これらは、プロセス全体でサンプルの整合性をチェックするのに非常に役立つ。MSで同定された対立遺伝子の有無に関する情報は、定量的情報を補完し、MS-整合性-コードを強化する。
【0105】
図6は、サンプルの追跡またはサンプルの起源の同定のためのMS-整合性-コードの対立遺伝子情報を示している。このような情報を使用して、そのアイデンティティに関してサンプルの整合性を確認し得ることを例示するために、3つの異なる時点(TP1、TP2、TP3)で5つの個体(Ind1、Ind2、Ind3、Ind4、Ind5)から採血して、血漿を採取した。血漿サンプルを調製し、MSベースのプロテオミクスによって分析して、タンパク質を定量化した。この目的のために対立遺伝子情報を適用することが可能になる。最初の時点で収集されたサンプルは、5個体のそれぞれのMS-整合性-コードとして使用されている。
【0106】
サンプルを追跡可能か否か、遺伝情報に基づくMS-整合性-コードが利用可能か否かについて質問した。この目的のために、最初の時点TP1のサンプルの遺伝情報がわかっていると仮定した。この目的のために、質量分析法で取得したスペクトルを使用し、SAPに関する情報を含むバリアント FASTAファイルでそれらを解釈した。ゲノミクスまたはトランスクリプトミクスなどの他の方法によって取得された場合がある対立遺伝子情報または突然変異に関する情報も使用され得る。次に、他の2つの時点(TP2、TP3)のサンプルを最初の時点(TP1)に正しく割り当てることが可能になるか否かを考えた。事前決定されたサンプル特性は、対立遺伝子に関する情報であり、MS-整合性-コードの一部である。これらは、3つの時点すべてで比較された。すべてのバイナリ比較で、常に同じ個体由来のサンプルは、異なる遺伝子由来の対立遺伝子の可能な限り高い重複をもたらした。異なる遺伝子由来の対立遺伝子の総数は86であった。バイナリ比較で重複する対立遺伝子の数は、低(白)から高(灰色)の対立遺伝子の重複数に色分けされる(
図6A)。
図6Bは、同じデータを示していますが、階層的クラスタリングアルゴリズムを使用して、サンプルを類似したサンプルのグループに自動的に分類した。いずれの場合も、サンプルはまとめて正しくグループ化した。これにより、MSで取得した遺伝子情報を使用してサンプルの整合性を確認し得ることが確認された。これにより、上記のように、(少なくとも)(A)サンプルの起源が不明または破損しているという問題、(B)サンプルのアイデンティティが失われる問題、及び(C)サンプルの潜在的な汚染を検出する問題が、解決される。対立遺伝子の数は、他の組織でははるかに多い可能性があり、さらにフィルター処理して、明確なサブセットにすることが可能になる。
【0107】
データセットから得られる利点は、データを改良することでさらに改善され得る。例えば、MS定量化されたペプチドの最初の3桁は、プロテオミクスにおけるいわゆる欠損値の問題に起因して、より再現性の高い検出が可能になる。したがって、比較的豊富に存在するか、ターゲット法またはDIA法によって定量化されたペプチドだけを使用することが価値がある。
【0108】
次に、また定量情報単独などのMS-整合性-コードの単一の情報を使用して、サンプルの整合性をチェックし得ることを説明したい。
図7は、生物学的サンプル由来の定量的MS生成値を類似性指標として適用して、サンプルの起源を特定することを示している。3つの時点(TP1、TP2、TP3)で5個体(Ind1、Ind2、Ind3、Ind4、Ind5)の血漿を採取し、MSベースのプロテオミクスデータを取得して、2つ以上のサンプルの共有起源の決定を説明した。MSベースで分析されたサンプルの定量的プロテオームには、数百の定量化されたタンパク質が含まれていた。自動的かつ偏りのない方法でグループ化された階層的クラスタリングアルゴリズムにより、同じ個体のサンプルが一貫してまとめられる(
図7A)。5個体は「Ind1~5」と略称され、時点は「TP1~3」と略称される。黒は、異なるタンパク質の高発現値を、白は、低発現値をそれぞれ意味する。階層的クラスタリングでは、常に同じ個体の3つのサンプルが互いに割り当てられる。これにより、2つ以上のサンプルが同じ由来であることを解明できるため、本発明者らのワークフローでサンプルを追跡することが可能である。典型的なアプリケーションの場合には、データベースなどで、同じ個体の以前に取得したプロテオームに関する情報を取得できる。ここで追加のサンプルを測定すると、このサンプルが本当に同じ人由来のものなのか、別の人由来のものなのかを確認し得る。これにより、メタデータをこのサンプルにマッチングさせることも可能になる。注目すべきは、手動の解釈、または2つ以上のサンプル間の類似距離の計算を可能にする階層的クラスタリング以外の方法(例えば、機械学習アルゴリズム)による解釈も可能である。したがって、サンプルを追跡またはマッチングするために、MS-整合性-コードの一部として定量的なMS誘導情報を使用することが可能である。
【0109】
タンパク質の量の次に、質量分析計によって取得された他の情報も使用してもよい。これを説明するために、ペプチド情報及び翻訳後修飾を使用した(
図7B、C)。次に、階層的クラスタリングアルゴリズムを適用し、共有の起源を有する3つのサンプルを互いに割り当てることが可能で、やはりサンプルの追跡が可能になった。
【0110】
データの前処理により、クラスタリングをさらに増大し得る。可能性としては、定量化されたタンパク質の最初の3桁のみを使用することが考えられる。それらは通常、より再現性よく定量化されるからである。別の可能性は、大規模な研究で長期間にわたって非常に一定であることが示されているタンパク質のレベルである、個体固有のタンパク質レベルを使用することである。
【0111】
これにより、(少なくとも)上記のように、(A)サンプルの起源が不明または破損しているという問題、(B)サンプルのアイデンティティが失われる問題、及び(C)サンプルの潜在的な汚染を検出する問題が解決される。
【0112】
このような情報は、単一のサンプルの起源を特定するために使用してもよいが、異なるラスターに配置されたさまざまなサンプル由来の情報の組み合わせも使用してもよい。例えば、サンプルが96ウェルまたは384ウェルのラックに配置され、ラック上の位置情報が失われた。これは、プレートにラベルを付けることも、プレートに他の方向マーカーを付けることもなく、誤ってプレートを180°回転させた場合に発生する場合がある。さらに、一部のサンプルがラック上の間違った位置に配置される場合があり、例えば、個別のサンプルが96ウェルプレートのA1ではなくA2の位置にある。さらに、系統的なシフト、例えば各サンプルが1つの位置だけシフトされていることも検出され得る。通常、このようなエラーにより、ラック上の単一またはすべてのサンプルのアイデンティティが失われ、誤った結果が生じる場合がある。ただし、サンプルのサンプル特性が利用可能であれば、単一または複数のサンプルの整合性を判断できる。ラック及び/またはウェル上の1つ以上のサンプルの新たに取得された質量分析計データ間の類似性を計算すること、ならびに、それをラック上の1つ以上のサンプルの事前決定されたサンプル特性と比較することで、サンプルの位置決めにおけるエラーの同定、及び実際のサンプル位置を決定することが可能になる。
【0113】
偶発的または意図的なサンプルのスワッピングは回避できる。サンプルのスワッピングは、例えば、バイオバンキングから大規模なプロテオミクス、またはその他のサンプル分析から臨床ルーチンまで、サンプルが処理されるさまざまな分野で最大の問題の1つである。臨床ルーチンでは、通常、プロセス全体でサンプルを追跡するためにバーコードが適用される。ただし、バーコードはスワッピングされる場合もあり、または間違った人に割り当てられたりする場合もある。質量分析システムによって読み取り可能なMS-整合性-コードの事前決定されたサンプル特性は、臨床及びその他の分析を通じてサンプルを追跡できる必要があることを提案する。これにより、適切なサンプル(及びこのサンプルに関連付けられたデータ)を適切な人にマッチングさせることが可能になる。これにより、上記のように、(少なくとも)(A)サンプルの起源が不明または破損しているという問題、及び(B)サンプルのアイデンティティを失うという問題が解決される。これにより、適切な患者に適切な診断を下すことが可能になるだけでなく、意図的にサンプルをスワッピングすることも防止可能になる。
【0114】
異なる要因の重み付けをさらに適用して、MS-整合性-コードを強化することが可能になる。例えば、PZPは、女性または男性に由来するサンプルを区別できるため、非常に重要である。男性は通常低レベルのPZPを有するが、一部の女性も低レベルである。対照的に、男性はPZPレベルが高いことはほとんどない。PZP及び同様の挙動をするタンパク質が異なるシナリオで異なるスコアを付けられるように、アルゴリズムに重み付けを適用することは理にかなっている。質量分析法の欠損値の問題に起因して、同じことが対立遺伝子にも適用できる。同定された対立遺伝子は、欠損値の問題に起因して正しくない場合がある対立遺伝子が存在しない場合よりも高いスコアになるはずである。このような重み付けは、データの整合性コードを強化するために適用できる。
【0115】
血漿は、すべてのヒトサンプルの中で最も濃度範囲が高いので、血漿は、質量分析システムによるサンプルの整合性の分析が最も困難なヒトサンプルと見なされ得る。したがって、通常、ヒトサンプルで検出できるタンパク質の数が最も少なくなる。比較として、同定されたタンパク質の平均数は、血漿では約400のタンパク質グループである。同定されたタンパク質の数は、他のヒトサンプルでははるかに高くなる。例えば、CSFでは1,000以上のタンパク質が得られ、筋肉や脳などの組織では10,000以上のタンパク質が増加する可能性がある(26~28)。したがって、そのようなサンプルを使用して、サンプルの起源を同定するという観点から、サンプルの整合性を確認することはさらに容易になる。
【0116】
実施例2-複数のサンプルの汚染
サンプルのアイデンティティを失ったり、サンプルをスワッピングしたりすることに加えて、サンプルの整合性は、1つ以上の他のサンプルによる汚染によって損なわれる場合がある。このような汚染は、このサンプルから得られ得る情報を改ざんする可能性があるため、問題である。サンプルが別のサンプルによって汚染されている場合、または健康な人で疾患が診断された場合、疾患は検出されない場合がある。同じ個体のサンプルをプールする必要があり、代わりに異なる個体のサンプルをプールする場合、汚染は意図的ではなく、例えば偶発的に発生する場合がある。
【0117】
サンプルの混合は、事前決定されたサンプル特性を備えたMS-整合性-コードが利用可能な場合、質量分析システムによる整合性チェックによって検出され得る。この目的のために、MS-整合性-コードが確立されている個体のサンプルを別のサンプルと1:1及び1:10の比率で混合し、そのサンプルを異なる個体由来のサンプルのプールと混合した(実施例8、9、10;
図2及び3)。
図8は、事前決定されたサンプル特性(y軸)として使用される定量的タンパク質レベルと、質量分析システムによって新たに取得された整合性データ(x軸)との比較を示している。個々の1(Ind1_TP1)のサンプルは、MSベースのプロテオミクスによって以前に分析され、この場合は定量的なタンパク質レベル(
図8A)であった、事前決定されたサンプル特性に基づいてMS-整合性-コードを確立した。同じ個体の別のサンプルが測定された(Ind1_TP2)。定量的タンパク質レベルの比較は、2つのサンプルの高い類似性を示している(
図8A)。サンプルが別の個体のサンプルと1:1で混入された場合、類似性がはるかに低くなり、サンプルの整合性に問題があることが示された(
図8B)。さらに、サンプルを別のサンプルで1:10の比率で混入させ、定量的プロテオームの類似性をさらに低下させた(
図8C)。サンプルを別のサンプルと混合した後、ピアソン相関係数は0.96に減少したが、異なる時点で採取された同じ個体由来の汚染されていないサンプルは、0.99などのより高いピアソン相関係数をもたらす(実施例8及び2;
図2及び3)。他の比較方法も可能である。さらに、PZP及びSHBGなどの上記のホルモン調節タンパク質、またはアポリポタンパク質(a)などの非常に個体特異的なタンパク質などの異なるタンパク質を追跡することは、1つ以上の他のサンプルの混入に起因するサンプルの整合性の破損を検出するために適用できる。
【0118】
タンパク質レベルに続いて、特にMSで同定された対立遺伝子は、サンプルの交差汚染(クロスコンタミネーション)を検出するためのMS-整合性-コードの事前決定されたサンプル特性として非常に価値のある入力である。異なるサンプル間の重複する対立遺伝子の数によって、サンプルが汚染されているというさらなる証拠が明確に得られた(実施例8、9;
図2)。対立遺伝子は、ペプチドバリアントとして検出されるので、それらの情報は定量的な形で存在し、さらに汚染の程度を判断することが可能になる。
【0119】
さらに、同定のスコア及び完全なMS整合性スコアを計算した。どちらでも、サンプルの整合性が不明瞭であることが強調された(実施例8、9;
図3)。さらに、10の個体のプールをサンプルに追加した。プールされたサンプルの場合、PZPレベルが高いため、女性由来の血漿がプールの一部であることは明らかであった(実施例10;
図2)。
【0120】
実施例3-サンプル処理の問題。
【0121】
サンプルの整合性は、サンプル処理によってさらに影響を受ける場合がある。血漿サンプルの処理でよくあるエラーは、部分凝固であり、採血後にEDTA容器が振られない場合、遠心分離の遅延または血小板による血漿の再汚染に起因して赤血球溶解が発生する。さらに、サンプルの品質は、保管または処理中のケラチンによる汚染などの他の要因の影響を受ける場合がある。サンプルを取り扱うヒトによる汚染に起因して、ケラチンがサンプルに混入する場合がある。質量分析システムによるサンプルの整合性の分析においても、サンプルの品質の情報を統合することが可能であることを、本発明者らは、提案する。サンプル処理に起因する汚染によるプロテオームの改ざんは、生物学的サンプルの整合性を不明瞭にし、検出可能でなければならない。さらに、サンプルまたはその潜在的な汚染(
図3)のアイデンティティに関して整合性を確認することが可能である。これにより、サンプルが汚染されている、またはMS-整合性-コードが生成されたものとは異なる起源であるなど、潜在的な問題を特定することも可能になる。事前決定されたサンプル特性として、事前に確立された汚染マーカーの典型的な定量レベルを、MS-整合性-コードで使用してもよい(
図1)。
【0122】
MS-整合性-コードの事前決定されたサンプル特性としての汚染マーカーの適用を説明するために、同じ人のサンプル処理の問題がある場合とない場合の血漿サンプルを準備した。サンプルのアイデンティティに関する整合性が示された(実施例12;
図2及び3)。しかし、整合性は、非常に低い汚染スコア(2.35E-05)及び1.56E-05という特に低い完全なMS-整合性スコア(実施例12;
図3)で目に見えるように不明瞭であった。定量的タンパク質レベルの直接比較では、HBA1、HBB、HBDなどの赤血球溶解の汚染マーカーと、THBS1、PPBP、PF4などの血小板汚染の汚染マーカーが、処理の問題のあるサンプルで大幅に増加した(
図9、Ind2_TP2;実施例12;
図3)。実施例11は、「最悪のシナリオ」の1つを示している。プロセス中の新しいサンプルは汚染されており、MS-整合性-コードサンプルとは異なる個体由来のものであった(実施例11、
図2及び3)。
【0123】
サンプル汚染を検出する他の可能性は、血液または他の生体液による組織サンプルの汚染である。血漿タンパク質または赤血球もしくは血小板などの典型的な血液成分由来のタンパク質の量は、組織サンプルで評価され得る。潜在的な汚染の例としては、血液による腫瘍生検または筋肉生検などの生検の汚染がある。他の可能性は、例えば、大量の間質による腫瘍サンプルの汚染である。別の可能性は、サンプリング中の血液によるCSFの汚染である。さらに、サンプルのさらなる処理における問題も検出できる。例えば、尿サンプルが遠心分離されたか否かによって、サンプル中に存在する細胞の量が異なり、これは、サンプルの整合性を評価するための事前決定されたサンプル特性及び質量分析システムによって検出できる。パラフィン処理後にホルマリン固定及びパラフィン包埋組織を生成するために正しく処理されていない生検にも同じことが当てはまる。
【0124】
整合性分析用の質量分析システムは、機械学習またはその他の分類方法を使用して、分析されたすべての生体分子のレベルを事前決定されたサンプル特性と比較することにより、分析されたサンプルが以前に分析されたサンプルと異なるか否か、及びサンプル処理中に問題が発生したか否かを判断できる。
【0125】
同じラインで、MSは、MS測定のためにタンパク質を調製するサンプル調製手順(変性、アルキル化、消化、精製で構成される)に関する情報を取得できる。この情報をさらに統合して、サンプルの整合性をチェックできる。これには、欠落した切断率、アルキル化率、酸化率、脂質及び代謝産物の混入などが含まれる。これらのパラメーターは、MS-整合性-コードの事前決定されたサンプル特性として統合でき、質量分析システムを使用して、サンプル処理に関してサンプルの整合性を確認し得る。この手順は、個別の濃縮または枯渇ステップが成功したか否かを評価するためにも適用できる。また、そのような濃縮ステップが混入タンパク質、例えば血漿中の血小板または赤血球タンパク質の濃縮をもたらしたか否かを検出することもできる。例えば、生体液からのエクソソームの濃縮は、その整合性をチェックできる。通常、血小板による血漿エクソソーム画分の汚染が発生し得、これは、エクソソームに対して確立されたMS-整合性-コードによって検出される。
【0126】
実施例4-暗号化
MS-整合性-コードは、質量分析データからの生物学的サンプルの暗号化されたサンプル処理を提供するために適用できる。実験室または臨床環境では、プライバシーの観点から適切なサンプル処理が最も重要である。これは通常、実験データを暗号化された形式で保存し、許可された担当者へのアクセスを制限することによって実現される。ここでは、いくつかの技術的アプローチが可能である。これらのアプローチには、通常、開始時にキーを作成すること、及びこれを後続の暗号化の目的で使用することを含む。多要素認証など、セキュリティの追加の層が可能である。質量分析及びその他のオミクスデータを扱う場合、データのプライバシーは特に重要である。特定のマーカーの存在を検証することを目的とするターゲットを絞った試験とは対照的に、質量分析的な分析では通常、大量のタンパク質に関する情報が得られ、望ましくない可能性のある情報が得られる可能性がある(例えば、無関係なチェックを行う際に希少疾患のマーカーを検出すること)。MS-整合性-コードに組み込まれている事前決定されたサンプル特性は、患者のデータを暗号化するためのキーとして機能し得る。説明は、質量分析システムによって生成されたデータでのみ可能である。明確な類似距離が得られた場合、または類似性が同じであれば、その記述を許可することが可能になる。1つ目は、例えばタンパク質レベルが経時的にわずかに変化する場合に必要になる場合があり、2つ目は、対立遺伝子などの変化しないデータ、またはアポリポタンパク質(a)レベルなどの遺伝的に決定されたタンパク質レベルに使用される場合がある。これにより、正しく取得されたサンプルデータのみを使用して、MS-整合性-コードの事前決定されたサンプル特性に基づいてコードを正しく解読できる、安全なサンプル分析プラットフォームを作成することが可能になる。さらに、そのような設定は、安全なサンプル分析プラットフォームを持つためだけでなく、患者の健康関連情報へのアクセスを可能にするキーとしても直接適用される場合がある。このようなシステムは、データの暗号化及び解読を行うために、ヘルスケアセクターとは別に使用してもよい。MS-整合性-コードは、MS-整合性-コード内の事前決定されたサンプル特性によって暗号化された情報が、サンプルの発信元である個体のみが解読できるので、高いセキュリティレベルを備えた、人に結びつけられた暗号化及び解読システムとして使用され得る。サンプルの整合性を確保する必要があるため、例えば、間違ったサンプル収集が発生しないようにする必要があるため、正しい質量分析データキーは、標準化された条件下でのみ生成される場合があり、例えば、血液サンプルは明確な標準化された重力で遠心分離する必要があり、他の層は血小板汚染が多い可能性があるので、血漿カラムの異なる層のみを使用し得る。
【0127】
MS-整合性-コードが患者のロケーション1で開発されたとする。このMS-整合性-コードは、患者データを暗号化するためのキーとして使用できる。このデータは公開リポジトリで共有できるようになった。しばらくして、患者はロケーション2を訪れ、質量分析的な分析を実行する。サンプル固有のキーが生成され、パブリックリポジトリで共有されているデータを解読するために使用され得る。
【0128】
好都合なことに、サンプルキーは、患者自身の中に保管される;ハッキングされる可能性のある安全なキーの保管場所は必要ない。さらに、キーの解読は、データが十分な再現性で記録されている場合にのみ機能する。質量分析システムがロケーション2でキーを生成した場合、パブリックストレージのMS-整合性-コードのロックが解除されず、患者はサンプルの品質について直接フィードバックを得ることが可能になる。サンプル間で重大な変更が発生した場合、キーの解読に影響が及び、患者は以前の記録にアクセスできなくなる場合がある。ただし、これは、基本的に比較できない、または比較すべきではない分析を組み合わせて解釈することを防ぐので、有利な場合がある。このようなケースには、サンプルがプロセスでスワッピングされた場合、汚染された場合、またはサンプルの整合性が別の方法で影響を受けた場合が含まれる。さらに、データベースの一貫性が強制される。マッチングするデータのみを追加できる。これにより、医療データを公開する際の一般的な問題も回避できる。過去の健康状態が医療スコア(例えば、医療提供者に関して)に悪影響を与える可能性がある。過去のデータをロック解除できない場合、古いデータレコードは無効になる。最新の分析のみがカウントされる。これにより、ブロックチェーン技術などの新しい改ざん防止技術を使用して、過去の健康エントリを永久に保存することも可能になる。ブロックチェーン技術を使用すると、データへのアクセスも保存され、例えば血液サンプルを盗んでサンプルキーを取得する場合にセキュリティ層を提供し得る。すべてのデータアクセスは、公的なブロックチェーン内で透過的に記録される。暗号化のための追加の層がある場合がある。例えば、質量分析法を使用して、MS-整合性-コードの事前決定されたサンプル特性を生成する場合、システム固有のパラメーターを追加することが可能になる。これには、質量分析装置からの別個のパラメーター、例えば、別個のタイプのスキャンモード、分析されるサンプルへの分子の追加、または質量分析システムのサンプル調製ユニット中のペプチドまたはタンパク質への別個の化学修飾の追加が含まれ得る。MS-整合性-コードのそのようなパラメーターは、パイプライン及び/または研究所固有のキーを生成することを可能にし、血液サンプルを盗んでそれを分析してサンプルキーを役に立たなくさせる。セキュリティの層をもう1つ追加するために、質量分析データと配列決定データまたはイムノアッセイデータなどの他のデータタイプとの組み合わせを使用して、暗号化及び/または解読を行うことが可能になる。
【0129】
本発明の実施形態は、以下の番号を付けた段落によって説明することが可能になる。
【0130】
段落番号:
1.質量分析システムであって:
生物学的サンプルの質量分析データを提供するように構成された質量分析装置と;
生物学的サンプルの質量分析データを処理して、生物学的サンプルの所定のサンプル特性を、前記生物学的サンプルの整合性データとして決定し;
前記生物学的サンプルの整合性データを出力するように構成されたコンピューターシステムと、
を備える質量分析システム。
【0131】
2.質量分析データから生物学的サンプルの整合性の指標を提供するためのコンピューター化された方法であって:
生物学的サンプルの質量分析データを処理して、前記生物学的サンプルの所定のサンプル特性を生物学的サンプルの整合性データとして決定することと、前記生物学的サンプルの前記整合性データを出力することとを含む、
前記コンピューター化された方法。
【0132】
3.前記整合性データが、前記所定のサンプル特性及び/または前記生物学的サンプルの前記所定のサンプル特性と事前決定されたサンプル特性との類似性の指標を含む、段落番号1による質量分析システムまたは段落番号2によるコンピューター化された方法。
【0133】
4.前記事前決定されたサンプル特性が、質量、電荷、質量対電荷比、MS2フラグメントスペクトル、フラグメントスペクトル、イオン移動度、強度情報、保持時間、配列情報、及び/または未同定イオンのうちの1つ以上から選択される特定の特性を有するイオンである、先行する段落番号のいずれか1項に記載の質量分析システム。
【0134】
5.前記事前決定されたサンプル特性がタンパク質またはペプチド、好ましくは定量化されたタンパク質またはペプチドである、任意の先行する段落番号に記載の質量分析システム。
【0135】
6.段落番号5に記載の質量分析システムであって、前記タンパク質が、妊娠関連タンパク質(PZP)、性ホルモン結合グロブリン(SHBG)、アポリポタンパク質(a)(LPA)、他のアポリポタンパク質(APOA1、APOB、APOA2、APOA4、APOC1、APOC3、APOC4、APOC2、APOD、APOE)、免疫グロブリン鎖、ヘモグロビンサブユニット(HBA1、HBB、HBD、HBG1、HBE、HBZ)、炭酸脱水酵素(CA1、CA2)、ペルオキシレドキシン(PRDX2、PRDX6)、カタラーゼ(CAT)、バンド3陰イオン輸送タンパク質(SLC4A1)、スペクトリン鎖(SPTA1、SPTB)、アンキリン-1(ANK1)、グリセルアルデヒド-3-リン酸デヒドロゲナーゼ(GAPDH)、スーパーオキシドジスムターゼ(SOD1)、ビスホスホグリセリン酸ムターゼ(BPGM)、アクチン(ACTB、ACTG1、ACTA1、ACTC1)、セレン結合タンパク質1(SELENBP1)、タンパク質4.1(EPB41)、L-乳酸デヒドロゲナーゼB鎖(LDHB)、フィラミン-A(FLNA)、タリン-1(TLN1)、ミオシン-9(MYH9)、アクチン(ACTB)、ビンキュリン(VCL)、α-アクチニン-1(ACTN1)、トロポミオシンα-4鎖(TPM3)、トロンボスポンジン-1(THBS1)、トロンボスポンジン-4(THBS4)、チューブリン(TUBB1、TUBB4B)、14-3-3タンパク質ゼータ/デルタ(YWHAZ)、ゲルゾリン(GSN)、チューブリンα-1B鎖(TUBA1B)、インテグリン(ITGA2B)、凝固因子(F13A1、F2、F5、F7、F9、F10、F11、F12)、プロフィリン-1(PFN1)、トランスゲリン-2(TAGLN2)、フェルミチンファミリーホモログ3(FERMT3)、RAS関連タンパク質(RAP1B)、プレクストリン(PLECK)血小板塩基性タンパク質(PPBP)、フィブリノーゲン鎖(FGA、FGG、FGB)、アンチトロンビン-III(SERPINC1)、プロトロンビン(F2)、血小板糖タンパク質Ibアルファ鎖(GP1BA)、血小板第4因子(PF4、PF4v1)、細胞外マトリックスタンパク質1(ECM1)、クラステリン(CLU)、デスモプラキン(DSP)、WDリピート含有タンパク質1(WDR1)、アトラクチン(ATRN)、血小板糖タンパク質V(GP5)、血漿セリンプロテアーゼ阻害剤(SERPINA5)、補体C1rサブコンポーネント様タンパク質(C1RL)、マンノシルオリゴ糖1,2-α-マンノシダーゼIA(MAN1A1)、キニノーゲン-1(KNG1)、コリンエステラーゼ(BCHE)、高分子免疫グロブリン受容体PIGR)、ケラチン(KRT1、KRT10、KRT17、KRT2、KRT28、KRT9)、フルクトース二リン酸アルドラーゼ(ALDOA、ALDOB)、C-反応性タンパク質(CRP)、血清アミロイドAタンパク質(SAA1、SAA2、SAA4)、妊娠特異的妊娠特異的ベータ-1-糖タンパク質1(PSG1)、妊娠特異的ベータ-1-糖タンパク質9(PSG9)、アクチン関連タンパク質2(ACTR2)、プレラミンA/C(LMNA)、セプチン-9(SEPTN9)、ペプチジル-プロリルシス-トランスイソメラーゼ(FKBP2)、V型プロトンATPaseサブユニットB、脳アイソフォーム(ATP6V1B2)のうちの1つ以上から選択される、前記質量分析システム。
【0136】
7.好ましくは、タンパク質は、PZP、LPA、APOE、HBA1、FLNA、FGA、KRT9、CRP、PSG1、ACTR2から選択される。
【0137】
8.段落番号1~3のいずれか1項に記載の質量分析システムであって、事前決定されたサンプル特性が定量化されたペプチドである、質量分析システム。
【0138】
9.段落番号1~3のいずれか1項に記載の質量分析システムであって、事前決定されたサンプル特性が、翻訳後修飾、好ましくは定量化された翻訳後修飾である、質量分析システム。
【0139】
10.前記翻訳後修飾が、リン酸化、グリコシル化、糖化、ユビキチン化、S-ニトロシル化、メチル化、N-アセチル化、SUMO化、及び/または脂質化である、段落番号9の質量分析システム。
【0140】
11.前記事前決定されたサンプル特性が対立遺伝子及び/または変異ペプチドである、段落番号1~3のいずれか1項に記載の質量分析システム。
【0141】
12.段落番号11に記載の質量分析システムであって、前記対立遺伝子が、遺伝子名で列挙された以下の遺伝子:LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG;DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR;HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、APOC1、APOC3、APOC4、APOC4-APOC2、APOC2、APOD、APOF、APOM、ARHGAP1、ARSB、ATP1A4、ATP6V1A、ATRN、ATRNL1、AZGP1、B2M、BCHE、BLK、BLVRB、BTD、C15orf41、C1QA、C1QB、C1QC、C1R、C1RL、C1S、C2、C3、C4B、C4BPA、C4BPB、C5、C6、C8A、C8B、C8G、C9、CA1、CA2、CABIN1、CALD1、CALM1、CALM2、CALM3、CALR、CARD9、CARD11、CAT、CD14、CD163、CD44、CD5L、CDH5、CDHR2、CEP164、CFB、CFD、CFH、CFHR3、CFHR4、CFI、CFL1、CHGA、CHI3L1、CHIT1、CHRNB1、CKM、CLEC3B、CLTC、CLTCL1、CLU、CNDP1、CNTN3、COL18A1、COL6A3、COLEC11、COPE、CPB2、CPN1、CPS1、CRISP3、CRP、CRTAC1、CRYAB、CRYZ、CSH2、CSH1、CST3、CTSA、CTSD、CUBN、DBH、ECM1、EIF4A1、ENO1、ERLIN1、ERN1、ETFA、EXOC1、FABP4、FAH、FAM153A、FAM162A、FBLN1、FCGBP、FCGR3A、FCN2、FCN3、FETUB、FGA、FGB、FGFR2、FGG、FGL1、FITM1、FKBP4、FLII、FLOT2、FN1、GAPDH、GBA、GCA、GDI2、GGH、GLUD1、GLUD2、GP1BA、GPC6、GPLD1,GPRC5C、GPX3、GSN、GSTM4、HABP2、HADH、HARS、HBG2、HEXA、HGFAC、HIST1H4A、HLA-A、HLA-H、HLA-C、HPR、HPX、HRG、HSP90AA1,HSP90B1、HSPA5、HSPA8、HSPG2、ICAM1、ICAM2、IGFALS、IGFBP3、IGFBP6、IL1RAP、INTS4、ITIH1、ITIH2、ITIH3、ITIH4、KCTD12、KIAA0319L、KLKB1、KNG1、KPNB1、KRT24、LAMB2、LCAT、LCN2、LCP1、LDHA、LDHB、LGALS3BP、LILRB1、LILRA1、LOC93432、LRG1、LRP2、LTF、LUM、LYVE1、LYZ、MANBA、MARCKS、MASP1、MASP2、MB、MBL2、MEI1、MIA3、MMP9、MMRN1、MPO、MST1、MST1L、MUC4、MYH11、MYH14、MYO1A、MYO1B、MYO1D、NCF4、NCKIPSD、NEO1、NIN、NRP2、ORM1、ORM2、PC、PCCA、PCDHA8、PCOLCE、PCYOX1、PDIA4、PEBP1、PF4V1、PF4、PFN1、PI16、PIGR、PLCD1、PLCG2、PLEC、PLG、PLS1、PLTP、PON3、PPA1、PPBP、PPIA、PPIL1、PRAP1、PRCC、PRDX2、PRG2、PRG4、PROC、PROCR、PROS1、PROZ、PRSS2、PSG1、PSMB1、PSMC6、PSMD2、PTGDS、PTPRF、PUS10、PZP、QSOX1、RAB21、RAN、RANBP2、RBP1、RBP4、RECK、REG1A、RNASE4、RNF111、RPL10、S100A9、SAA1、SAA2、SAA4、SDC1、SELL、SEPP1、SERPINA10、SERPINA3、SERPINA4、SERPINA5、SERPINA6、SERPINA7、SERPINB6、SERPINC1、SERPIND1、SFTPB、SHBG、SLC12A3,SLC3A2、SNCA、SOD3、SPP1、SPTA1、SPTAN1、SPTB、SRGN、STXBP5L、SUMO2、SUMO3、SUMO4、TAGLN2、TCP1、TFRC、TGFBI、THBS1、TIMP1、TMSB10、TMSB4X、TNC、TNXB、TOR3A、TRHDE、TTN、TTR、TXN、UBC、UBB、RPS27A、UBA52、UBBP4、UCHL3、UGT8、VASN、VCAM1、VNN1、VSIG4、VTN、VWF、YWHAE、ZNF256、ZNF652、preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG、DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR、HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、more preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFM、ALB、APOA4、APOL1、C3、CP、CPN2、F5、FGG、より好ましくは、LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFMのうちの1つ以上から選択される、前記質量分析システム。
【0142】
13.前記事前決定されたサンプル特性が、脂質などの生体分子、薬物または代謝産物などの小分子、炭水化物、好ましくは定量化された生体分子を含む、段落番号1~3のいずれか1項に記載の質量分析システム。
【0143】
14.前記事前決定されたサンプル特性が、人体測定データ、例えば、身長、体重、BMIを含む、段落番号1~3のいずれか1項に記載の質量分析システム。
【0144】
15.段落1~3のいずれか1項に記載の質量分析システムであって、前記事前決定されたサンプル特性が、医療関連情報、例えば、臨床分析、例えば、HDL、LDL、コレステロール、C反応性タンパク質(CRP)、ヘモグロビン(Hb)、赤血球(RBC)、白血球(WBC)数、リンパ球数、好中球数、血小板数(PLT)、平均血小板体積(MPV)、血小板分布幅(PDW)、赤血球沈降速度(ESR)、健康状態または疾患状態、遺伝的疾患及び/または投薬を含む、前記質量分析システム。
【0145】
16.前記事前決定されたサンプル特性が、性別、妊娠、民族性に関する情報を含む、段落番号1~3のいずれか1項に記載の質量分析システム。
【0146】
17.前記事前決定されたサンプル特性が、ゲノム及び/またはトランスクリプトームデータなどの個体に関するメタデータに関する情報である、段落番号1~3のいずれか1項に記載の質量分析システム。
【0147】
18.前記コンピューターが、質量分析データを処理してサンプル特性を決定し、質量分析によって分析されたサンプル間の定義済み測定基準、及び/または質量分析によって分析されたサンプルから、及び/または1つ以上の非質量分析によって生成されたサンプル特性まで事前決定されたサンプル特性に基づいて類似性測定基準を生成するように;ならびに前記生物学的サンプルの整合性の指標を出力するように構成されている、先行する段落番号のいずれか1項に記載の質量分析システム。
【0148】
19.質量分析データから生物学的サンプルの整合性の指標を提供するためのコンピューター化された方法であって:
生物学的サンプルの質量分析データを処理して、前記生物学的サンプルの所定のサンプル特性を前記生物学的サンプルの整合性データとして決定することと、前記生物学的サンプルの前記整合性データを出力することとを含む、コンピューター化された方法。
【0149】
20.前記生物学的サンプルがヒト生物学的サンプルである、段落番号19に記載の質量分析検出方法。
【0150】
21.前記生物学的サンプルが、血液、血漿、血清、尿、脳脊髄液、唾液、涙、糞便、胃液、組織、新鮮な組織、加工組織、生検、リキッドバイオプシー、毛髪、骨を含む、段落番号19に記載の質量分析検出方法。
【0151】
22.前記事前決定されたサンプル特性が、質量、電荷、質量対電荷比、MS2フラグメント情報、フラグメントスペクトル、イオン移動度、強度情報、保持時間、配列情報、及び/または未同定イオンから選択される特定の特性を有するイオンである、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0152】
23.前記事前決定されたサンプル特性がタンパク質またはペプチド、好ましくは定量化されたタンパク質またはペプチドである、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0153】
24.段落番号23に記載の質量分析検出方法であって、前記タンパク質が、妊娠関連タンパク質(PZP)、性ホルモン結合グロブリン(SHBG)、アポリポタンパク質(a)(LPA)、他のアポリポタンパク質(APOA1、APOB、APOA2、APOA4、APOC1、APOC3、APOC4、APOC2、APOD、APOE)、免疫グロブリン鎖、ヘモグロビンサブユニット(HBA1、HBB、HBD、HBG1、HBE、HBZ)、炭酸脱水酵素(CA1、CA2)、ペルオキシレドキシン(PRDX2、PRDX6)、カタラーゼ(CAT)、バンド3陰イオン輸送タンパク質(SLC4A1)、スペクトリン鎖(SPTA1、SPTB)、アンキリン-1(ANK1)、グリセルアルデヒド-3-リン酸デヒドロゲナーゼ(GAPDH)、スーパーオキシドジスムターゼ(SOD1)、ビスホスホグリセリン酸ムターゼ(BPGM)、アクチン(ACTB、ACTG1、ACTA1、ACTC1)、セレン結合タンパク質1(SELENBP1)、タンパク質4.1(EPB41)、L-乳酸デヒドロゲナーゼB鎖(LDHB)、フィラミン-A(FLNA)、タリン-1(TLN1)、ミオシン-9(MYH9)、アクチン(ACTB)、ビンキュリン(VCL)、α-アクチニン-1(ACTN1)、トロポミオシンα-4鎖(TPM3)、トロンボスポンジン-1(THBS1)、トロンボスポンジン-4(THBS4)、チューブリン(TUBB1、TUBB4B)、14-3-3タンパク質ゼータ/デルタ(YWHAZ)、ゲルゾリン(GSN)、チューブリンα-1B鎖(TUBA1B)、インテグリン(ITGA2B)、凝固因子(F13A1、F2、F5、F7、F9、F10、F11、F12)、プロフィリン-1(PFN1)、トランスゲリン-2(TAGLN2)、フェルミチンファミリーホモログ3(FERMT3)、RAS関連タンパク質(RAP1B)、プレクストリン(PLECK)血小板塩基性タンパク質(PPBP)、フィブリノーゲン鎖(FGA、FGG、FGB)、アンチトロンビン-III(SERPINC1)、プロトロンビン(F2)、血小板糖タンパク質 Ib アルファ鎖(GP1BA)、血小板第4因子(PF4、PF4v1)、細胞外マトリックスタンパク質1(ECM1)、クラステリン(CLU)、デスモプラキン(DSP)、WDリピート含有タンパク質1(WDR1)、アトラクチン(ATRN)、血小板糖タンパク質V(GP5)、血漿セリンプロテアーゼ阻害剤(SERPINA5)、補体C1rサブコンポーネント様タンパク質(C1RL)、マンノシルオリゴ糖1,2-α-マンノシダーゼ IA(MAN1A1)、キニノーゲン-1(KNG1)、コリンエステラーゼ(BCHE)、高分子免疫グロブリン受容体PIGR)、ケラチン(KRT1、KRT10、KRT17、KRT2、KRT28、KRT9)、フルクトース二リン酸アルドラーゼ(ALDOA、ALDOB)、C-反応性タンパク質(CRP)、血清アミロイドAタンパク質(SAA1、SAA2、SAA4)、妊娠特異的妊娠特異的ベータ-1-糖タンパク質1(PSG1)、妊娠特異的ベータ-1-糖タンパク質9(PSG9)、アクチン関連タンパク質2(ACTR2)、プレラミンA/C(LMNA)、セプチン-9(SEPTN9)、ペプチジル-プロリルシス-トランスイソメラーゼ(FKBP2)、V型プロトンATPaseサブユニットB、脳アイソフォーム(ATP6V1B2)のうちの1つ以上から選択され、好ましくは前記タンパク質は、PZP、LPA、APOE、HBA1、FLNA、FGA、KRT9、CRP、PSG1、ACTR2から選択される、前記質量分析システム。
【0154】
25.前記事前決定されたサンプル特性が定量化されたペプチドである、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0155】
26.前記事前決定されたサンプル特性が、翻訳後修飾、好ましくは定量化された翻訳後修飾である、段落番号19~21のいずれか1項に記載の質量分析システム。
【0156】
27.前記翻訳後修飾が、リン酸化、グリコシル化、糖化、ユビキチン化、S-ニトロシル化、メチル化、N-アセチル化、SUMO化、及び/または脂質化である、段落番号26に記載の質量分析検出方法。
【0157】
28.前記事前決定されたサンプル特性が、対立遺伝子及び/またはバリアントペプチドである、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0158】
29.段落番号28に記載の質量分析検出方法であって、前記対立遺伝子が、遺伝子名で列挙された以下の遺伝子:LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG;DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR;HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、APOC1、APOC3、APOC4、APOC4-APOC2、APOC2、APOD、APOF、APOM、ARHGAP1、ARSB、ATP1A4、ATP6V1A、ATRN、ATRNL1、AZGP1、B2M、BCHE、BLK、BLVRB、BTD、C15orf41、C1QA、C1QB、C1QC、C1R、C1RL、C1S、C2、C3、C4B、C4BPA、C4BPB、C5、C6、C8A、C8B、C8G、C9、CA1、CA2、CABIN1、CALD1、CALM1、CALM2、CALM3、CALR、CARD9、CARD11、CAT、CD14、CD163、CD44、CD5L、CDH5、CDHR2、CEP164、CFB、CFD、CFH、CFHR3、CFHR4、CFI、CFL1、CHGA、CHI3L1、CHIT1、CHRNB1、CKM、CLEC3B、CLTC、CLTCL1、CLU、CNDP1、CNTN3、COL18A1、COL6A3、COLEC11、COPE、CPB2、CPN1、CPS1、CRISP3、CRP、CRTAC1、CRYAB、CRYZ、CSH2、CSH1、CST3、CTSA、CTSD、CUBN、DBH、ECM1、EIF4A1、ENO1、ERLIN1、ERN1、ETFA、EXOC1、FABP4、FAH、FAM153A、FAM162A、FBLN1、FCGBP、FCGR3A、FCN2、FCN3、FETUB、FGA、FGB、FGFR2、FGG、FGL1、FITM1、FKBP4、FLII、FLOT2、FN1、GAPDH、GBA、GCA、GDI2、GGH、GLUD1、GLUD2、GP1BA、GPC6、GPLD1,GPRC5C、GPX3、GSN、GSTM4、HABP2、HADH、HARS、HBG2、HEXA、HGFAC、HIST1H4A、HLA-A、HLA-H、HLA-C、HPR、HPX、HRG、HSP90AA1,HSP90B1、HSPA5、HSPA8、HSPG2、ICAM1、ICAM2、IGFALS、IGFBP3、IGFBP6、IL1RAP、INTS4、ITIH1、ITIH2、ITIH3、ITIH4、KCTD12、KIAA0319L、KLKB1、KNG1、KPNB1、KRT24、LAMB2、LCAT、LCN2、LCP1、LDHA、LDHB、LGALS3BP、LILRB1、LILRA1、LOC93432、LRG1、LRP2、LTF、LUM、LYVE1、LYZ、MANBA、MARCKS、MASP1、MASP2、MB、MBL2、MEI1、MIA3、MMP9、MMRN1、MPO、MST1、MST1L、MUC4、MYH11、MYH14、MYO1A、MYO1B、MYO1D、NCF4、NCKIPSD、NEO1、NIN、NRP2、ORM1、ORM2、PC、PCCA、PCDHA8、PCOLCE、PCYOX1、PDIA4、PEBP1、PF4V1、PF4、PFN1、PI16、PIGR、PLCD1、PLCG2、PLEC、PLG、PLS1、PLTP、PON3、PPA1、PPBP、PPIA、PPIL1、PRAP1、PRCC、PRDX2、PRG2、PRG4、PROC、PROCR、PROS1、PROZ、PRSS2、PSG1、PSMB1、PSMC6、PSMD2、PTGDS、PTPRF、PUS10、PZP、QSOX1、RAB21、RAN、RANBP2、RBP1、RBP4、RECK、REG1A、RNASE4、RNF111、RPL10、S100A9、SAA1、SAA2、SAA4、SDC1、SELL、SEPP1、SERPINA10、SERPINA3、SERPINA4、SERPINA5、SERPINA6、SERPINA7、SERPINB6、SERPINC1、SERPIND1、SFTPB、SHBG、SLC12A3,SLC3A2、SNCA、SOD3、SPP1、SPTA1、SPTAN1、SPTB、SRGN、STXBP5L、SUMO2、SUMO3、SUMO4、TAGLN2、TCP1、TFRC、TGFBI、THBS1、TIMP1、TMSB10、TMSB4X、TNC、TNXB、TOR3A、TRHDE、TTN、TTR、TXN、UBC、UBB、RPS27A、UBA52、UBBP4、UCHL3、UGT8、VASN、VCAM1、VNN1、VSIG4、VTN、VWF、YWHAE、ZNF256、ZNF652、preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ABCC2、ACTB、ACTC1、ACTA1、ACTA2、ACTG2、ADIPOQ、AFM、AFP、AHNAK、AHSG、ALB、ALDH1A1、APOA4、APOH、APOL1、C3、HEL-S-62p、C4A、C7、CP、CPN2、F5、FGG、DKFZp779N0926、HBA1、HBB、HBD、HP、LBP、PGLYRP2、SERPINA1、SERPINF1、SERPINF2、F10、F11、F12、F13B、F2、F7、F9、SERPING1、TF、TTR、HEL111、ALDH1A3、ALDOA、ALDOB、AMBP、ANGPTL3、ANPEP、APCS、APEH、APMAP、APOA1、APOA2、more preferably LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFM、ALB、APOA4、APOL1、C3、CP、CPN2、F5、FGG、より好ましくは、LPA、PON1、GC、APOB、APOE、AGT、A1BG、A2M、ADIPOQ、AFMのうちの1つ以上から選択される、前記質量分析検出方法。
【0159】
30.前記事前決定されたサンプル特性が、脂質などの生体分子、薬物または代謝産物などの小分子、炭水化物、好ましくは定量化された生体分子を含む、段落番号19~21のいずれかに記載の質量分析検出方法。
【0160】
31.前記事前決定されたサンプル特性が、特に同定されていないイオン、または同定されていないイオンもしくは生データである、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0161】
32.前記事前決定されたサンプル特性が、人体測定データ、例えば、身長、体重、BMIを含む、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0162】
33.段落19~21のいずれか1項に記載の質量分析検出方法であって、前記事前決定されたサンプル特性が、医療関連情報、例えば、臨床分析、例えば、HDL、LDL、コレステロール、C反応性タンパク質(CRP)、ヘモグロビン(Hb)、赤血球(RBC)、白血球(WBC)数、リンパ球数、好中球数、血小板数(PLT)、平均血小板体積(MPV)、血小板分布幅(PDW)、赤血球沈降速度(ESR)、健康状態または疾患状態、遺伝的障害及び/または投薬を含む、前記質量分析検出方法。
【0163】
34.前記事前決定されたサンプル特性が、性別、妊娠、民族性に関する情報を含む、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0164】
35.前記事前決定されたサンプル特性が、個体に関するメタデータに関する情報である、段落番号19~21のいずれかに記載の質量分析検出方法。
【0165】
36.先行する段落番号のいずれか1項に記載の質量分析システムであって、質量分析で決定したサンプル特性を処理して、類似性を、例えば、質量分析によって分析されたサンプルまたは質量分析によって分析されたサンプルと別の非質量分析により事前決定されたサンプル特性との間の所定の測定基準に基づいて生成するように前記コンピューターが構成された、前記質量分析システム。
【0166】
37.段落番号19~36の方法を制御するためのコンピュータープログラム。
【0167】
38.段落番号19~37の方法を制御するための命令を含むコンピューター可読媒体。
【0168】
39.前記コンピューターシステムが、質量分析データを処理してサンプル特性を決定し、質量分析によって分析されたサンプル間の定義済み測定基準、及び/または質量分析によって分析されたサンプルから、及び/または1つ以上の非質量分析によって生成されたサンプル特性まで事前決定されたサンプル特性に基づいて類似性測定基準を生成するように;ならびに前記生物学的サンプルの整合性の指標を出力するように構成されている、質量分析データを処理するためのコンピューターシステム。
【0169】
40.生物学的サンプルの整合性を評価するための質量分析データの使用。
【0170】
41.前記事前決定されたサンプル特性が、前述のサンプル特性の組み合わせである、段落番号19~21のいずれか1項に記載の質量分析検出方法。
【0171】
42.数学的最適化(例えば、機械学習)によって決定されるサンプル特性の組み合わせ。
【0172】
43.質量分析計データを提供するためにMS-整合性-コード及び質量分析システムに統合された事前決定されたサンプル特性は、暗号化に適用され得る。MS-整合性-コードを生成して、医療システムのデータなどのデータを暗号化し得る。質量分析データを提供する質量分析システムを持っている場合にのみ、サンプルの整合性を確認でき、このようにして保存された医療データを解読するためのキーとして機能する。MS-整合性-コードは、サンプル自体のキーとして機能し得る。これにより、正しく取得されたサンプルデータのみを使用してサンプル固有のコードを正しく解読し得る安全なプラットフォームを作成することが可能になる。
【0173】
44.生物学的サンプルの新たに取得された質量分析計データと比較され得る、MS-整合性-コードの事前決定されたサンプル特性をコードするバーコードまたはQRコードなどの機械可読コード。
【0174】
45.事前決定されたサンプル特性と、質量分析計データを提供するように構成された質量分析システムとの使用であって、暗号化における使用。
【0175】
46.データを暗号化して暗号化されたデータを提供するための事前決定されたサンプル特性と、暗号化されたデータを解読するための質量分析計データを提供するように構成された質量分析システムとを含む、段落番号45に記載の使用。
【0176】
47.化学反応を用いて生体分子の化学修飾を促進し、特定のシグネチャーをMS-整合性-コードに付加する、段落番号44~46に記載の使用。
【0177】
48.質量分析システムであって、
生物学的サンプルの質量分析データを提供するように構成された質量分析装置と、整合性モジュールとを備える、質量分析システム。
【0178】
49.生物学的サンプルの質量分析データを処理して、前記生物学的サンプルの所定のサンプル特性を生物学的サンプルの整合性データとして決定するように構成された整合性モジュールを含む、段落番号48の質量分析システム。
【0179】
50.整合性データが、サンプルの既知の起源または汚染された起源に関する情報、サンプルのアイデンティティの喪失に関する情報、サンプル処理における問題に関する情報、サンプルの劣化に関する情報を含む、段落番号48及び/または49に記載の質量分析システム。
【0180】
51.生物学的サンプルの整合性データを出力するように構成された整合性モジュールを含む、段落番号48~50に記載の質量分析システム。
【0181】
52.質量分析データから生物学的サンプルの整合性の指標を提供するためのコンピューター化された方法であって、
生物学的サンプルの質量分析データを処理して、生物学的サンプルの所定のサンプル特性をその生物学的サンプルの整合性データとして決定することであって、この整合性データが、サンプルの既知の起源または破損した起源に関する情報、サンプルのアイデンティティの喪失に関する情報、サンプル処理における問題に関する情報、サンプルの分解に関する情報を含むことと、
生物学的サンプルの整合性データを出力することと、
を含むコンピューター化された方法。
【0182】
53.事前決定されたサンプル特性、及び質量分析計データを提供するように構成された質量分析システムとの使用であって、暗号化における使用。
【図面の簡単な説明】
【0183】
【
図1A】MS-整合性-コード(A)に統合できる事前決定されたサンプル特性(A)と、サンプルの整合性を評価するためのMS-整合性-コードと組み合わせた質量分析システムの適用(B)の概略図である。
【
図1B】MS-整合性-コード(A)に統合できる事前決定されたサンプル特性(A)と、サンプルの整合性を評価するためのMS-整合性-コードと組み合わせた質量分析システムの適用(B)の概略図である。
【
図2】サンプルの整合性を評価するために、MS-整合性-コードの事前決定されたサンプル特性と質量分析システムによって生成されたデータを比較するための例の概要表である。「MS-整合性-コードサンプル」とは、MS-整合性-コードの事前決定されたサンプル特性が確立された生体系のサンプルである。「処理中の新しいサンプル」とは、事前決定されたサンプル特性のデータと比較するためのデータを質量分析システムが決定したサンプルである。さまざまなサンプル特性にまたがる比較が示されている。
【
図3】MS-整合性-コードの例と、質量分析システムによって生成されたデータとの比較を含む要約表であり、サンプルの整合性の評価に使用される類似性指標の例を示している。
【
図4A】機械可読QRコード(B)に変換されたMS-整合性-コード(A)の事前決定されたサンプル特性の例である。
【
図4B】機械可読QRコード(B)に変換されたMS-整合性-コード(A)の事前決定されたサンプル特性の例である。
【
図5A】1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【
図5B】1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【
図5C】1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【
図5D】1つ以上の時点での1人以上の個体からのサンプル中のタンパク質レベルの対比較を示す散布図である。
【
図6A】サンプルの起源を評価するためのMS-整合性-コード内の対立遺伝子情報であり、(A)は、3つの異なる時点での5個体のサンプルの比較をまとめたものであり;(B)は、プロット内の階層的クラスタリングによる類似性の決定をグラフで示す。
【
図6B】サンプルの起源を評価するためのMS-整合性-コード内の対立遺伝子情報であり、(A)は、3つの異なる時点での5個体のサンプルの比較をまとめたものであり;(B)は、プロット内の階層的クラスタリングによる類似性の決定をグラフで示す。
【
図7】定量的タンパク質レベル(A)、定量的ペプチドレベル(B)、及び定量的翻訳後修飾レベル(C)を使用してサンプルを追跡するための類似性指標として、サンプルからの定量的MS生成値の適用を示すプロットである。
【
図8】Aでは、時点1での個体1対時点2での個体1の相関関係を;Bでは、個体1由来の血漿サンプルと、個体1及び個体2由来の血漿サンプルの1:1希釈に対する相関関係を;及びCでは、個体1由来の血漿サンプルと個体1及び個体2由来の血漿サンプルの1:10希釈の相関関係を示す一連の散布図である。
【
図9】個体2の時点2と個体2の時点1の血漿サンプルの定量的タンパク質レベルを比較した散布図であり、混入のレベルが増している一連の強調されたタンパク質である。
【国際調査報告】