(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-18
(45)【発行日】2024-12-26
(54)【発明の名称】結合親和性予測方法及びシステム並びに候補タンパク質結合ペプチド発生方法
(51)【国際特許分類】
G16B 15/30 20190101AFI20241219BHJP
【FI】
G16B15/30
(21)【出願番号】P 2021568775
(86)(22)【出願日】2020-05-15
(86)【国際出願番号】 EP2020063704
(87)【国際公開番号】W WO2020234188
(87)【国際公開日】2020-11-26
【審査請求日】2023-05-15
(32)【優先日】2019-05-17
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】518381938
【氏名又は名称】エヌイーシー オンコイミュニティ エーエス
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ローズ,クリス
(72)【発明者】
【氏名】エイドサー,マリウス
(72)【発明者】
【氏名】ストラットフォード,リチャード
(72)【発明者】
【氏名】クランシー,トレヴァー
【審査官】松野 広一
(56)【参考文献】
【文献】韓国公開特許第10-2018-0052959(KR,A)
【文献】国際公開第2019/075112(WO,A1)
【文献】国際公開第2017/186959(WO,A1)
【文献】特表2008-545180(JP,A)
【文献】米国特許出願公開第2004/0072249(US,A1)
【文献】Thammakorn Saethang et al.,EpicCapo: epitope prediction using combined information of amino acid pairwise contact potentials and HLA-peptide contact site information,BMC BIOINFORMATICS,英国,BIOMED CENTRAL,2012年11月24日,Vol.13,pp.1-12,http://dx.doi.org/10.1186/1471-2105-13-313
【文献】Nebojsa Jojic et al.,Learning MHC I--peptide binding,BIOINFORMATICS,2006年07月15日,Vol.22, No.14,pp.e227-e235,http://dx.doi.org/10.1093/bioinformatics/btl255
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
PubMed
(57)【特許請求の範囲】
【請求項1】
クエリー標的分子へのクエリー結合剤分子の結合親和性値を予測するコンピューター実装方法であって、前記クエリー結合剤分子が第1のアミノ酸配列を有し、且つ前記クエリー標的分子が第2のアミノ酸配列を有し、前記方法が、
前記第1及び第2のアミノ酸配列を複数のデータ要素として一緒にコード化してコード化されたアミノ酸ペアを発生させることであって、前記コード化されたペアの各データ要素が、前記第1のアミノ酸配列と前記第2のアミノ酸配列とのそれぞれのコンタクトポイントで前記第1及び第2のアミノ酸配列のどのアミノ酸がペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、発生させることと、
前記コード化されたアミノ酸ペアにトレーニングされた機械学習モデル又は統計モデルを適用して結合親和性値を予測することであって、前記機械学習モデル又は統計モデルが、
少なくとも1つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤-標的ペアの参照データストアにアクセスすることであって、各参照結合剤-標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、
各参照結合剤-標的ペアを複数のデータ要素としてコード化することであって、前記コード化された参照結合剤-標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表す、コード化することと、
前記モデルは、前記コード化された参照結合剤-標的ペア及びそれぞれの関連付けられた測定結合親和性値に当てはまる係数セットを推定することによりトレーニングされ、
トレーニングされた機械学習モデル又は統計モデルを適用することが、データストアからモデル係数セットを検索することを含み、トレーニングされた機械学習モデル又は統計モデルを適用することが、前記検索された係数と前記コード化されたアミノ酸ペアとの線形結合を含む、
によりトレーニングされる、予測することと、
を含み、
前記予測された結合親和性値が前記クエリー結合剤分子と前記クエリー標的分子との各コンタクトポイントペアの結合への寄与を表すようにする、コンピューター実装方法。
【請求項2】
前記コード化されたアミノ酸ペアが、データ要素のベクトルとしてコード化される、請求項1に記載のコンピューター実装方法。
【請求項3】
各データ要素が、各コンタクトポイントでのアミノ酸ペア形成の存在の指標となる値である、請求項1又は2に記載のコンピューター実装方法。
【請求項4】
前記関連付けられた測定結合値が
打ち切りである、請求項1~3のいずれか一項に記載のコンピューター実装方法。
【請求項5】
予測された結合親和性値の確度の確率の推定値を出力することをさらに含む、請求項1~4のいずれか一項に記載のコンピューター実装方法。
【請求項6】
前記係数が、前記コード化された参照結合剤-標的ペア及び前記関連付けられた測定結合値にベイジアン推定アルゴリズムを適用することにより導出される、請求項1~5のいずれか一項に記載のコンピューター実装方法。
【請求項7】
各参照結合剤-標的ペアが疎行列としてコード化され、各行が参照結合剤-標的ペアを表し、且つ各行が測定結合値に関連付けられる、請求項1~6のいずれか一項に記載のコンピューター実装方法。
【請求項8】
前記行列の各行が一連のビットを含み、各ビットが各コンタクトポイントのアミノ酸の可能なペア形成に対応し且つ前記コンタクトポイントペア中に存在する特異的アミノ酸の指標となり、前記行列の行の分割が、前記参照結合剤配列のアミノ酸と前記
参照標的配列のアミノ酸とのペア形成を記述する特徴ベクトルとしてアミノ酸ペアをコード化する、請求項7に記載のコンピューター実装方法。
【請求項9】
前記参照データストアが、
関連付けられた結合又は非結合の指標を有する参照結合剤-標的ペアをさらに含むとともに、前記機械学習モデル又は統計モデルが、
前記結合又は非結合の指標に関連付けられた各参照結合剤-標的ペアと推定
打ち切りIC50値とを関連付けることにより、
さらにトレーニングされうる、請求項1~8のいずれか一項に記載のコンピューター実装方法。
【請求項10】
推定
打ち切りIC50値に関連付けられた各参照結合剤-標的ペアに対して、可能な結合親和性値セットにわたり関連統計分布を積分することにより結合への寄与を計算することをさらに含む、請求項9に記載のコンピューター実装方法。
【請求項11】
既知の分子及び既知の分子の結合親和性値を用いて前記モデルが適切であるかをユーザーが解釈しうるように、前記モデルに関連付けられたパラメーターセットを出力することさらに含む、請求項1~10のいずれか一項に記載のコンピューター実装方法。
【請求項12】
前記クエリー結合剤分子がペプチドであり、及び/又は前記第2のアミノ酸配列がMHCタンパク質配列又はHLAタンパク質配列である、請求項1~11のいずれか一項に記載のコンピューター実装方法。
【請求項13】
少なくとも1種の候補タンパク質結合ペプチドを生成する方法であって、
複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得ることと、
各ペプチドに対して、請求項1~12のいずれか一項に記載の方法により前記タンパク質への予測された結合親和性を決定することと、
それぞれの予測された結合親和性に基づいて複数のペプチドのうち1種以上の候補ペプチドを選択することと、
を含む方法。
【請求項14】
ワクチンを設計するために、前記1種以上の候補ペプチドを合成すること、又は前記候補ペプチドを対応するDNA又はRNA配列にコード化すること、及び/又は前記配列を細菌又はウイルス送達システムのゲノムに取り込
むこと
をさらに含む、請求項13に記載の方法。
【請求項15】
クエリー標的分子へのクエリー結合剤分子の結合親和性を予測するための結合親和性予測システムであって、前記クエリー結合剤分子が第1のアミノ酸配列を有し、前記クエリー標的分子が第2のアミノ酸配列を有し、前記システムが、少なくとも1つのメモリーデバイスと通信する少なくとも1つのプロセッサーを含み、前記少なくとも1つのメモリーデバイスが、請求項1~12のいずれか一項に記載の方法を少なくとも1つのプロセッサーに実行させるための命令を保存している、結合親和性予測システム。
【発明の詳細な説明】
【背景技術】
【0001】
発明の背景
生物学的分子の結合は、バイオインフォマティクス、ゲノミクス、プロテオミクス、医学、及び薬理学を含むバイオメディカルサイエンス全体にわたる関心事である。分子結合を理解することは、健常な及び疾患のある組織、器官、及び被験者における、診断、予後、及び予測タスクにおける、並びに医薬の開発、評価、及び選択における、生物学的プロセスの特徴付けに役立つ。一般性を損なうことなく、一例は、ワクチン開発のための免疫原性抗原の同定における結合の役割である。
【0002】
このシナリオでは、候補ペプチドは、ワクチンに使用するために標的分子へのペプチドの結合の結合親和性値に基づいて選ばれうる。候補ペプチドは、予想された結合に基づいて候補セットから選ばれうるので、個別化ワクチン開発が加速されるとともに抗原又は新生抗原の確度及び効率が確保される。
【0003】
病原体及び腫瘍からの免疫原性抗原の同定は、何十年にもわたりワクチン開発において中心的役割を果たしてきた。過去15~20年にわたり、このプロセスは、試験の必要な抗原の数を低減する計算アプローチの採用により単純化且つ強化されてきた。免疫原性を決定する主要な特徴は十分に理解されていないが、ほとんどの免疫原性クラスIペプチド(抗原)は、サイトゾル中でのその親ポリペプチド/タンパク質のプロテアソーム切断による典型的経路で発生し、続いて、TAPトランスポーターにより小胞体内に輸送され、その後、空のMHC分子(ヒトではヒト白血球抗原[HLA]とも呼ばれる主要組織適合性複合体)にパッケージされ、次いで、細胞表面に輸送されて循環CD8+T細胞に提示されることが知られている。
【0004】
MHC結合ペプチドのみが循環T細胞に結合してそれを活性化することが可能であるので、MHC分子に結合するペプチドの能力は、免疫原性を決定するうえで最も重要な工程に対応する。結合親和性予測器をベンチマークして比較するために科学文献で使用されてきた標準的な事前定義の交差検証データセットと共に、最も一般的なMHC対立遺伝子に関して結合親和性の実験的に検証された測定を提供する免疫エピトープデータベース及び分析リソース(Immune Epitope Database and Analysis Resource)(IEDB、http://www.iedb.org/、2017年6月にアクセス)など、データの充実した一般公開データベースが現在存在する。また、多くのクラスI及びII HLA対立遺伝子のDNA配列を提供する免疫多型データベース(Immuno Polymorphism Database)ImMunoGeneTics HLAデータベース(IPD-IMGT/HLA、https://www.ebi.ac.uk/ipd/imgt/hla/、2017年6月にアクセス)など、ある特定のクラスの生物学的分子の組成に関するデータの充実した一般公開データベースも存在する。かかるデータベースは、de novoの未試験の生物学的分子間の結合の予測を試みる各種タイプのモデルをトレーニングするために使用されてきた。測定データのソースは拡大の一途をたどっているが、データに示されない多く対立遺伝子が残されている。
【0005】
ペプチド-MHC結合問題への取組みは、位置特異的スコアリング行列(PSSM)、機械学習法、及び構造法の3つのカテゴリーに分類されてきた(Luo, et al., 2015)。PSSMアプローチでは、結合予測は、各ペプチド残基位置に対して定義された1つ以上の行列から取り出された値を組み合わせることにより計算される。より大きなデータベースが利用可能になったとき、PSSMアプローチは、潜在的に複雑で任意にフレキシブルな関数が潜在的に大きなデータベースからの例に当てはめられる機械学習法によりほぼ取って代わった。構造法は、結晶構造データベースからのデータ及び基礎物理学に合った近似を用いて分子の3次元構造により結合をモデル化する。PSSM法は、比較的単純な機構モデルに基づくので解釈されうるが、機械学習法と比較してより不十分な予測を行う傾向がある。機械学習法は、一般に結合の機構的理解に基づかないので容易に解釈できないが、最先端の予測品質を達成する。構造法は、明確な機構的解釈を有するが、予測は、一般に機械学習法のときほど高速でも正確でもない。
【0006】
比較的単純な機構的解釈も有しつつ結合親和性の高品質予測を提供することが、産業の重要課題として残っている。結合親和性を予測するために統計モデル及び機械学習モデルを使用する最初期の試みは、個別のMHC対立遺伝子に焦点を当てて、ペプチドにおけるアミノ酸の役割のみが考慮される現在のいわゆる対立遺伝子特異的モデルをもたらした。MHCクラスIに対する現在の先導的な対立遺伝子特異的方法は、おそらくNetMHC4.0(Andreatta & Nielsen, 2015)及びmhcflurry(https://github.com/hammerlab/mhcflurry、2017年7月にアクセス)であり、これらは、人工ニューラルネットワークを用いて任意関数をデータ例に当てはめてその当てはめ関数を用いて予測を行う機械学習モデルである。また、MHCクラスIIに対する対立遺伝子特異的方法も公開されている。
【0007】
その後、より広範にわたる通常の対立遺伝子の利用可能な実験データが増加したため、それぞれ単一モデルを用いて任意の対立遺伝子又はいずれかの特定の対立遺伝子セットに関する結合親和性の予測を試みる汎対立遺伝子モデル及び汎特異的モデルの開発が促進された。対立遺伝子特異的モデルとは異なり、「汎」モデルは、MHC分子及びペプチドを形成するアミノ酸を黙示的又は明示的に考慮する。汎対立遺伝子モデル及び汎特異的モデルは、一般に対立遺伝子特異的モデルよりも結合又は結合親和性の不十分な予測を行うが、対立遺伝子特異的モデルをトレーニングするにはデータが不十分な対立遺伝子及び突然変異に起因して生じうる新規の対立遺伝子(たとえば癌の場合)に適用可能である。現在の先導的なMHCクラスI汎モデルは、おそらくNetMHCpan4.0(Jurtz, et al., 2017)であり、これはそれと等価な対立遺伝子特異的モデルと同様に人工ニューラルネットワークに基づく。また、MHCクラスIIに対する汎方法も公開されている。
【0008】
十分に大きなトレーニングセットが与えられれば、機械学習法は、PSSM又は構造モデルよりも良好な結合予測を行う傾向にあるが、結合の解釈可能な機構モデルの欠如は、学術研究以外のそれらの差し迫った商業バイオメディカル用途を限定するおそれがある。良好な予測を行うことに加えて自動予測システムで実証することが必要とされうる性質、たとえば、守秘性、透明性、責任追跡性、及び公平性に関する文献は、多数存在し増加の一途をたどっている(NIPS Symposium Organising Committee, 2016)。また、自動システムのかかる性質を必要とする法的状況も変化し続けている。たとえば、自然人の健康に有意な影響を及ぼす自動決定に関して、欧州連合(General Data Protection Regulation)(EU)一般データ保護規則(General Data Protection Regulation)は、そうした決定への人的介入及びそれに関する説明を得る権利をEU国民に与えている(European Parliament & Council, 2016)。より多くの解釈可能なモデルが使用されれば、かかる要件を満たすことはより容易になりうる。
【発明の概要】
【発明が解決しようとする課題】
【0009】
とくに免疫療法の自動開発における、生物学的分子ペア間の結合及び結合親和性を理解及び予測する生物科学の重要性を考慮すれば、人的解釈及び介入を促進する妥当な機構モデルに基づいて読取り検索データで高品質予測を提供することが可能な、且つ予測の下流のコンシューマーがそうした予測に基づいて合理的に行動できるように予測に関する不確実性の推定を提供することが可能な、方法の必要性が当技術分野に存在する。同様に、予測の人的解釈可能な尺度及びその推定がどのように導出されたかの人的解釈可能な尺度を提供しつつ、ワクチンに使用するために標的分子への結合に好適な候補ペプチドをペプチドセットから同定する必要性が存在する。
【課題を解決するための手段】
【0010】
発明の概要
一般論として、本開示は、ペプチドとMHC分子とのコンタクトポイントに対応するアミノ酸ペアによりMHCクラスI及びIIに関する汎対立遺伝子結合親和性を予測する概念を提示する。コンタクトポイントアミノ酸ペアの線形モデルは、パラメーターの解釈が可能なモデルをもたらす。
【0011】
本発明の第1の態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性値を予測するコンピューター実装方法が提供される。クエリー結合剤分子は第1のアミノ酸配列を有し、且つクエリー標的分子は第2のアミノ酸配列を有し、本方法は、第1及び第2のアミノ酸配列を複数のデータ要素として一緒にコード化してコード化されたアミノ酸ペアを発生させることであって、コード化されたペアの各データ要素が、第1のアミノ酸配列と第2のアミノ酸配列とのそれぞれのコンタクトポイントで第1及び第2のアミノ酸配列のどのアミノ酸がペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、発生させることと、コード化されたアミノ酸ペアに機械学習又は統計モデルを適用して結合親和性値を予測することであって、機械学習モデル又は統計モデルが、少なくとも1つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤-標的ペアの参照データストアにアクセスすることであって、各参照結合剤-標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、各参照結合剤-標的ペアを複数のデータ要素としてコード化することであって、予測された結合親和性値がクエリー結合剤分子とクエリー標的分子との各コンタクトポイントペアの結合への寄与を表すように、コード化された参照結合剤-標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表す、コード化することと、によりトレーニングされる、予測することと、を含む。互いに近接するとは、互いに十分に近接することを意味する。
【0012】
こうして、結合親和性の予測を決定することが可能であり、予測を実施するために使用されるモデルを解釈することが可能である。結合親和性又は結合の高品質ポイント推定を提供することに加えて、本発明はまた、そうしたポイント推定に関する厳密な不確実性推定も提供しうる。予測に関する不確実性の厳密な推定は、下流のコンシューマーによる予測の合理的使用を促進しうるとともに、自動決定の解釈又はそれへの介入を支援しうる。たとえば、分子ペアは確かに結合するがその可能性は低く懐疑的な専門家により覆されうる予測もあれば、分子ペアは確かに結合しその可能性は高いが同専門家により異なる処理がなされうる予測もある。結合予測の自動化された下流のコンシューマーは、入力の不確実性を厳密に考慮した予測又は決定を行うことが可能でありうる。
【0013】
本発明にかかる予測器は、人的解釈及び介入を促進する、且つ予測の下流のコンシューマーが予測に基づいて合理的に行動できるように予測に関する不確実性の推定を提供可能である、妥当な機構モデルに基づいて、高品質予測を提供することが可能である。
【0014】
測定結合親和性値は、たとえば、実験室実験から決定された厳密なもの、近似値、又は実験により決定された値よりも大きい若しくは小さい値でありうる。ある特定の例では、測定結合親和性値は、打ち切りされうるとともに打ち切り情報が提供されうる。
【0015】
本発明は、予測された結合親和性値の確度の確率の推定値を出力することをさらに提供しうる。
【0016】
好ましくは、コード化されたアミノ酸ペアは、データ要素のベクトルとしてコード化される。このようにしてデータ要素をコード化すると、各々が結合親和性値にどのように寄与するかを同定するためのコンタクトポイントペアの各々の関数の適用が促進される。より好ましくは、各データ要素は、各コンタクトポイントでのアミノ酸ペア形成の存在の指標となる値である。おそらく、値は、アミノ酸ペア形成がコンタクトポイントに存在してベクトル中の各コンタクトポイントに対して正のバイナリー値が1つのみ存在するかの指標となるバイナリー値である。代替的に、データ要素は、アミノ酸ペア又は可能なアミノ酸ペアの行列を表す記号でありうる。
【0017】
トレーニングされた機械学習モデル又は統計モデルを適用することは、データストアからモデル係数セットを検索することを含みうる。データストアは、方法が実施される場所から離れていてもその近くにあってもよく、秘密にしたり暗号化したりしうる。係数は、アミノ酸の各可能なペア形成の結合親和性への寄与の大きさ及び方向を表しうる。好ましくは、係数は、総平均結合親和性からの偏差を表しうる。
【0018】
ある特定の実施形態では、トレーニングされた機械学習モデル又は統計モデルを適用することは、検索された係数とコード化されたアミノ酸ペアとの線形結合を含みうる。かかる線形結合は、計算効率がよくクエリーデータに対して規則性をもって迅速且つ容易に各予測を実施できるので、ワクチン開発経路に組み込まれたとき、クエリー分子を、結合する可能性の高い候補ペプチドに迅速且つ容易に変換することが可能である。
【0019】
係数は、コード化された参照結合剤-標的ペア及びそれぞれの関連付けられた測定結合値にベイジアン推定アルゴリズムを適用することにより導出されうる。統計分布は、パラメーター化されうる。ベイジアン推定アルゴリズムは、ユーザーが結合親和性値の正確性の尤度を解釈して使用に関して情報に基づく決断を行うことができるように、結合親和性の正確性の解釈可能な確率及び明確な尤度値をもって正確な予測を提供する。同様に、結合親和性が閾値未満の尤度値を有する場合、その使用は拒絶されうる。
【0020】
各参照結合剤-標的ペアは、疎行列としてコード化されうる。この場合、各行は、参照結合剤-標的ペアを表すとともに、各行は、測定結合値に関連付けられる。トレーニングプロセスにおけるかかるコード化は、計算効率及びデータ保存、たとえば圧縮疎行保存構造での保存を促進する。データに対してトレーニングするとき、疎行列コード化は、空間及び時間の複雑性を改善する。
【0021】
行列の各行は、一連のビットを含みうるとともに、各ビットは、各コンタクトポイントのアミノ酸の可能なペア形成に対応し、且つコンタクトポイントペア中に存在する特異的アミノ酸の指標となる。そのため、各コンタクトポイントに正値が1つ存在しうるとともに、これは、たとえば、各結合剤-標的ペアに対して441次元バイナリーベクトルをもたらす。かかるコード化は、たとえば、モデル当てはめの実行時間及び予測手順を低減するように次元を低減する
ことにより、保存効率及び計算効率を有意に低減する。
【0022】
行列の行の分割により、参照結合剤配列のアミノ酸と標的結合剤配列のアミノ酸とのペア形成を記述する特徴ベクトルとしてアミノ酸ペアをコード化しうる。そのため、トレーニングデータはすべて、効率的保存及び所要のデータを行列に分割する計算のために1つの行列により表されうる。
【0023】
機械学習モデル又は統計モデルは、コード化された参照結合剤-標的ペア及びそれぞれの関連付けられた測定結合親和性値に当てはまる係数セットを推定することによりトレーニングされうる。当てはめ技術は、たとえば最尤推定又は正則化推定又は階層的ベイジアン推定を含みうる。
【0024】
本方法は、既知の分子及び既知の分子の結合親和性値を用いてモデルが適切であるかをユーザーが解釈しうるように、モデルに関連付けられたパラメーターセットを出力することさらに含みうる。こうした出力は、プロセスへの介入タスクを提供しうる。
【0025】
参照データストアは、結合又は非結合の関連指標を有する参照結合剤-標的ペアをさらに含みうるとともに、機械学習モデル又は統計モデルは、結合又は非結合の指標に関連付けられた各参照結合剤-標的ペアと推定打ち切りIC50値とを関連付けることにより、トレーニングされうる。値は、たとえば、閾値未満でありうる。そのため、推定結合ペプチドは、モデル及びその関連予測の確度を向上させるために使用可能である。トレーニングデータは、結合又は非結合は推測されうるが結合親和性は測定不能であるアッセイからの例を含有しうる。
【0026】
非常に多数の識別可能なMHC-ペプチド複合体に関する結合/非結合結果を提供するアッセイからのデータに対してトレーニングが実施されるこの例は、サンプルサイズを劇的に増加させる方法を提供可能であるので、より良好な予測を行うモデルをもたらしうる。打ち切りアプローチは、原理的には、かかるデータと従来の結合アッセイデータとを組み合わせて、結合/非結合だけでなく結合親和性(IC50値)の予測も可能にする。
【0027】
機械学習モデル又は統計モデルは、結合又は非結合の指標を有する各参照結合剤-標的ペアと推定打ち切りIC50値とを関連付けることと、推定打ち切りIC50値に関連付けられた各参照結合剤-標的ペアに対して、可能な結合親和性値セットにわたり関連統計分布を積分することにより結合への寄与を計算することと、によりトレーニングされうる。計算は、モデル当てはめ時に提案されたモデルパラメーターの候補値に基づいて実施されうる。
【0028】
こうして、結合予測器は、参照結合剤-標的ペアを含有しうるトレーニングデータを用いてトレーニングされうる。この場合、結合親和性は、ある特定の値を下回る又は上回ることが知られているか又はそのように推定される。ある特定の例では、結合親和性が測定されているトレーニングデータを用いてトレーニングされたモデルは、打ち切り結合親和性値のみが利用可能なおおよそ等しい数の追加の参照結合剤-標的ペアで同一のデータセットを補充することによりトレーニングされたモデルと比較して、より不十分な予測を行うことが観測された。
【0029】
さらなる例では、機械学習モデル又は統計モデルは、測定結合親和性値サブセットを打ち切りすることと、可能な結合親和性値セットにわたり関連統計分布を積分することにより、打ち切り結合親和性値に対応する可能性の高い結合親和性値を計算することと、打ち切り測定結合親和性値に関連付けられた各参照結合剤-標的ペアと、計算された可能性の高い結合親和性値と、を関連付けることと、によりトレーニングされうる。
【0030】
クエリー結合剤分子はペプチドでありうる、及び/又は第2のアミノ酸配列は、MHCタンパク質配列若しくはHLAタンパク質配列でありうる。そのため、本発明は、免疫原性の決定にとくに有用である
【0031】
ある特定の実施形態では、本方法は、予測された結合親和性値と閾値とを比較することをさらに含みうるとともに、クエリー結合剤分子の結論は、閾値により拘束され、及び/又はクエリー結合剤分子の結論は、標的と共に使用されうるとともに、適切な候補である。
【0032】
本発明は、MHCクラスI分子及びMHCクラスII分子の両方に適用可能である。
【0033】
本発明のさらなる態様によれば、少なくとも1種の候補タンパク質結合ペプチドの発生方法が提供されうる。本方法は、複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得ることと、各ペプチドに対して、本発明の以上の態様のいずれか一つに係る方法によりタンパク質への予測された結合親和性を決定することと、それぞれの予測された結合親和性に基づいて複数のペプチドのうち1種以上の候補ペプチドを選択することと、を含む。
【0034】
タンパク質のアミノ酸配列は、血清学的抗体試験、オリゴヌクレオチドハイブリダイゼーション法、核酸増幅ベース法(限定されるものではないがポリメラーゼ連鎖反応ベース法)、DNA又はRNAシーケンシングベース自動予測、de novoペプチドシーケンシング、エドマンケンシングベース、又は質量分析の1つにより得られうる。
【0035】
本方法は、1種以上の候補ペプチドを合成することをさらに含みうる。
【0036】
そのほか、本方法は、候補ペプチドを対応するDNA又はRNA配列にコード化することをさらに含みうる。さらに、本方法は、配列を細菌又はウイルス送達システムのゲノムに取り込んでワクチンを生成することを含みうる。
【0037】
そのため、ペプチド、DNA、又はRNAベースワクチンは、結合親和性を効果的に予測してデータを解釈することが可能であるので、個別患者用としてより確実に構築される。
【0038】
本発明のさらなる態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性を予測するための結合親和性予測システムが提供されうる。クエリー結合剤分子は第1のアミノ酸配列を有し、且つクエリー標的分子は第2のアミノ酸配列を有し、システムは、少なくとも1つのメモリーデバイスと通信する少なくとも1つのプロセッサーを含み、少なくとも1つメモリーデバイスは、少なくとも1つのプロセッサーに本発明の以上の態様のいずれか一つに係る方法を実施させるための命令を保存する。
【0039】
本発明のさらなる態様によれば、クエリー標的分子へのクエリー結合剤分子の結合親和性値の予測に使用するための、機械学習モデルをトレーニングするコンピューター実装方法が提供されうる。本方法は、少なくとも1つのプロセッサーを用いて、それぞれのペアになった参照結合剤配列及び参照標的配列を含む参照結合剤-標的ペアの参照データストアにアクセスすることであって、各参照結合剤-標的ペアが、関連付けられた測定結合値を有する、アクセスすることと、各参照結合剤-標的ペアを複数のデータ要素としてコード化することであって、コード化された参照結合剤-標的ペアの各データ要素が、それぞれのペアになった参照結合剤配列及び参照標的配列のどのアミノ酸がそれぞれのコンタクトポイントでペアになってコンタクトポイントペアを形成するかを表し、コンタクトポイントペアが、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成である、コード化することと、コード化された参照結合剤-標的ペア及び各参照結合剤-標的ペアに関連付けられた測定結合値に対して機械学習モデル又は統計モデルをトレーニングすることと、を含む。好ましくは、本方法は、クエリー結合剤分子及びクエリー標的分子の結合親和性値の予測に使用するためのモデル係数セットを出力することをさらに含む。好ましくは、機械学習モデル又は統計モデルは、アミノ酸の各ペア形成がどのように結合親和性に寄与するかをモデルする平均結合親和性関数である。好ましくは、統計モデルは、コード化された参照結合剤-標的ペアを関連付けられた測定結合親和性値に当てはめる。
【0040】
プロセッサーにより実行されるとき、以上の態様のいずれかの方法をプロセッサーに実施させるコンピューター可読媒体が提供されうる。
【0041】
図面の簡単な説明
次に、単なる例にすぎないが、添付図を参照しながら実施形態を詳細に説明する。
【図面の簡単な説明】
【0042】
【
図2】トレーニングデータセットを構築する実施形態を示す。
【
図3】標的への結合剤の結合親和性を予測する方法の実施形態を示す。
【
図4】結合剤-標的ペアのコンタクトポイントペアをコード化する例で実装される疎行列の例を示す。
【
図8】モデルがIEDB2009データに対してトレーニングされ且つIEDB2013データに対して試験された実験での散布プロット及びROCプロットを示す。
【
図9】IEDB2009及び2013データを用いた5重交差検証実験での散布プロット及びROCプロットを示す。
【
図10A】各ヒートマップが62コンタクトポイントの1つに対応するモデルパラメーターβの推定を提示するヒートマップのアレイを示す。
【
図11】予測された結合親和性(「y_hat」)の関数として推定された結合確率(「p_bind」)及びそれらの量の周辺ヒストグラムを示す。
【
図12】可変長配列に関する結合親和性のモデリング及び予測の結果を示す(無検閲データ及び検閲データ)。
【発明を実施するための形態】
【0043】
発明の詳細な説明
本明細書に記載のある特定の実施形態に係る方法は、タンパク質などのクエリー標的分子へのペプチドなどのクエリー結合剤分子の結合親和性値の計算予測を可能にする。予測は、個別化ワクチンの同定、すなわち、癌免疫療法のための、MHC主要組織適合性複合体(MHC)分子に結合可能な候補セットからの候補ペプチドの同定にとくに有用である。
【0044】
例として、結合親和性は、ペプチドとMHC分子との間でありうる。MHCクラスI及びII分子への結合は、それぞれ、CD8+及びCD4+T細胞の活性化に必要である。このシナリオは、HLA-A
*02 MHCクラスI分子102(1、2、3)に結合されたノナマーペプチド101 SLYNTIATLのリボン図を示す
図1により例示される。
【0045】
結合親和性はin vitroで測定可能であるが(たとえば競合アッセイを用いて)、かかる方法は、労力、費用、及び時間を要する。それにより、いずれの所与のプロテオームでも生じる多くの候補の中からすべての可能な抗原を実現可能に同定することはできない。この問題は、感染疾患用ワクチン又は個別化新生抗原ベー癌ワクチンの迅速製造ではとくに深刻である。こうしたシナリオでは、高スループット、ほぼ自動、且つ高信頼性の予測が必要とされ、in silicoアプローチでの動機付けとなる。
【0046】
提案された技術のクエリー結合剤分子及びクエリー標的分子は、各々それぞれのアミノ酸配列を有する。予測は、参照結合剤-標的ペアを含む参照データに基づいて行われ、各ペアは、既知の(測定された)結合値を有し、値は、たとえば、nM単位で測定されたIC50値又はIC50に基づく他の値でありうる。参照データは、本明細書ではトレーニングデータともいいうる。
【0047】
測定結合親和性値は、結合剤と標的との相対結合強度(すなわち、他の結合剤-標的ペアと対比して)を反映する限り、結合親和性の直接的尺度である必要はない。典型的には、参照データは、少なくとも部分的には、免疫エピトープデータベース(Immune Epitope Database)(IEDB)(www.iedb.org)、GPCRdb(www.gpcrdb.org)、BRENDA(http://www.brenda-enzymes.org)などの公開データベースから得られうる。
【0048】
参照データ例では、各観測は、対立遺伝子名(MHCクラスI)又は名称ペア(MHCクラスII)、種、ペプチド配列、ペプチド長さ、nM単位のIC50値として表されるMHCとペプチド分子との結合親和性、及びIC50値に関する不等式(打ち切り)情報により記載される。
【0049】
この参照データから、本明細書で提案された技術では、機械学習モデルをトレーニングし、続いて、後続のワクチン合成用、とくに癌免疫療法用の候補ペプチドを同定するために、入力データセットすなわちクエリーペプチド及び以上に記載の標的モジュールに適用することが可能である。
【0050】
提案された技術は、各特異的コンタクトポイントペアを考慮して結合親和性とこれらのペアの結合寄与の和とを同一視する原理に基づく。コンタクトポイントペアは、互いに近接して結合に影響を及ぼす結合剤分子及び標的分子のアミノ酸のペア形成であると考えられうる。以前に提案された技術では、ペプチド及びMHCアミノ酸の特異的ペア形成は考慮されない。それを行ったとしても、公知の技術では、計算費用がかさむであろう。当技術分野において、ニューラルネットワークを正確にトレーニングするために、公知の技術では、各ペプチド-MHC複合体を偽配列としてコード化する。すなわち、ペプチドアミノ酸配列及びペプチドに接触すると考えられるMHCアミノ酸配列のコード化を行う。
【0051】
バックグラウンドでは、分子ペアは、分子の電子配置により生じる電磁界内での複合動的相互作用に起因して結合するこが知られている。2つの生物学的分子間の結合の通常のモデルは、コンタクトポイントの存在を仮定する。コンタクトポイントは、ヌクレオチド又はアミノ酸のペアを含み、ペアの一方のメンバーは、第1の分子に由来し、ペアの他方のメンバーは、第2の分子に由来する。コンタクトポイントにおけるヌクレオチド又はアミノ酸の各ペアは、空間的に近接していると考えられるので、ヌクレオチド間又はアミノ酸間に十分に強い電磁力が存在し、2つの分子間の結合に影響を及ぼしうる。2つの分子の既知の配列間のコンタクトポイントは、配列位置ペアセットにより記載することが可能である。
【0052】
ペプチド-MHC結合問題におけるコンタクトポイントの役割は、NetMHCpan(Nielsen, et al., 2007)の開発で考慮された。汎対立遺伝子モデルでは、ペプチド間の変動(対立遺伝子特異的モデルの場合)及びMHC分子中の多型を考慮しなければならない。NetMHCpanでは、ペプチドアミノ酸配列及びペプチドに接触すると考えられるMHCアミノ酸配列を含む偽配列としてペプチド及びMHC分子のペアをコード化する。重要なこととして、このコード化では、コンタクトポイントでのペプチド及びMHCアミノ酸の特異的ペア形成を明示的にモデル化することはなくが、人工ニューラルネットワークに利用可能な関連する変動を単に加えるにすぎず、結合親和性に及ぼす各特異的コンタクトポイントの影響は推測されることもされないこともありうる。
【0053】
文献では、分子は、多くの場合、結合親和性のある尺度が特定の値を下回る又は上回る場合に結合として分類される。しかしながら、最良の結合予測器でさえも、必ずしも結合を適正に予測するとは限らないことが知られており、結合親和性又は結合の高品質ポイント推定を提供することに加えて、そうしたポイント推定に関する厳密な不確実性推定も提供する公知の方法は存在しない。予測に関する不確実性の厳密な推定は、下流のコンシューマーによる予測の合理的使用を促進しうるとともに、自動決定の解釈又はそれへの介入を支援しうる。たとえば、分子ペアは結合するがその確率は低く懐疑的な専門家により覆されうる予測もあれば、分子ペアは結合しその確率は高いが同一専門家により異なる処理がなされうる予測もある。結合予測の自動化された下流のコンシューマーは、入力の不確実性を厳密に考慮した予測又は決定を行うことが可能でありうる。
【0054】
次に、
図2及び3を参照しながら、本発明の具体例を説明する。提案された技術は、2段階とみなされうる。第1はモデルを構築することであり、第2はそのモデルから予測を行うことである。方法は、最初に参照結合剤-標的ペアの参照データストアにアクセスする工程を含む(工程201)。各参照結合剤-標的ペアは、ペプチド配列などの参照結合剤アミノ酸配列と、MHCタンパク質配列などの参照標的アミノ酸配列と、を含む。下記の考察では、ペプチド-MHC結合に焦点を当てるが、ペアになった結合剤配列及び標的配列並びに対応する測定結合値が利用可能な他のデータセットに、以下で考察された方法及びシステムを簡単に適応しうることは理解されよう。
【0055】
参照データでは、各参照結合剤-標的ペアは、測定結合値に関連付けられうる。以上のように、この値は、たとえば、nM単位のIC50値として公開されうる。
【0056】
しかしながら、測定結合値とは、実験室実験により決定された厳密な値、結合値の近似値、結合若しくは非結合の指標、又は実験により決定された値よりも大きい若しくは小さい値を意味することは理解されよう。指示されるように、結合親和性は、典型的には、競合アッセイを用いてIC50値(nM単位)として測定され、このときのクエリーペプチドの濃度は、クエリーMHC分子に結合された参照ペプチドの50%を置き換える濃度として求められる(又はその逆)。IC50値は、広範にわたる値をとり、モデリング目的では、典型的には、変換y=1-logbIC50(式中、bは、十分に大きな対数の底である)を用いて対数スケールに変換される(Nielsen, et al., Reliable prediction of T-cell epitopes using neural networks with novel sequence representations, 2003)。我々は、この変換スケールでIC50をモデル化し、このスケールへの及びからの転換は、典型的には、本開示全体を通して黙示的である。
【0057】
一例として、データストアは、HLA分子からデコンボリュートされて質量分析を用いて同定されたペプチドの表現を含みうる。これは結合することが確認されているが、絶対結合親和性はまったく知られていない。
【0058】
工程202では、参照データストアを用いて、各参照結合剤-標的ペアをコンタクトポイントアミノ酸ペアセットとしてコード化しうる。コンタクトポイントは、互いに近接して結合に影響を及ぼすさまざまな配列のアミノ酸のペア形成である。各コード化されたペアは、測定結合親和性値や結合親和性の不等式表現(たとえば、<500nM又は>500nM)などの結合親和性値に関連付けられる。
【0059】
実際には、このコード化は、21記号(以下に記載されるようにXを含む)のアミノ酸アルファベットから21×21記号(すなわち441記号)のアルファベットへの変換として機能する。所与の記号は、コンタクトポイントでのペプチド-MHCアミノ酸ペアを記載し、たとえば、記号GAはグリシン-アラニンペアを表す。各結合親和性値は、コード化されたコンタクトポイントペアに関連付けられる。
【0060】
以下に詳細に記載される実装では、各参照結合剤-標的ペアは、さらなる解析のためにデータをまとめるべく記号の行列としてコード化されうる。好ましくは、この行列は、実装を容易にするために多次元疎行列でありうる。
【0061】
トレーニングデータから、工程203では、本技術は、工程202からのコード化されたペア及び関連付けられた結合親和性に基づいて機械学習モデル又は統計モデルをトレーニングする。すなわち、コード化されたコンタクトポイントペアを関連付けられた結合親和性値にモデル化する関数を構築する。たとえば、以下に記載の具体的実装では、この関数は線形和でありうる。この場合、結合親和性値は、コード化された行列の平均から外れる偏差として計算されうる(具体的に記載された実装では行ベクトルとして)。そのため、関数は、結合親和性への各コンタクトポイントペアの推定寄与を表すモデル係数セットを生成する。次いで、このモデル係数セットは、工程204で出力される。この場合も、結合親和性値は、測定値又は不等式などの結合親和性の指標でありうる。
【0062】
図3は、結合親和性値がどのように予測されうるかの高レベルプロセスを例示する。工程301では、クエリー結合剤分子の表現が検索される。工程302では、クエリー標的分子の表現が検索される。理解されるであろうが、提示は、分子中の配列のアミノ酸の指標でありうるとともに、アミノ酸配列といいうる。工程303では、参照データからトレーニングデータを作成するために使用される類似のプロセスに従って、クエリー結合剤分子及びクエリー標的分子のアミノ酸配列は、コンタクトポイントペアセットとして一緒にコード化される。これは、コンタクトポイントペアを表すベクトルの形態をとりうる。実際には、このベクトルは、コード化された参照データの行列の行ベクトルに類似する。
【0063】
工程304では、トレーニングされた機械学習モデル又は統計モデルは、コード化されたコンタクトポイントペアに適用される。たとえば、モデル係数セットを作成するために線形モデルを使用する場合、このモデル係数セットが検索され(図示せず)、次いで、コード化されたコンタクトポイントペアベクトルは、クエリー結合剤分子及びクエリー標的分子の推定結合親和性値を予測するためにモデル係数ベクトルが乗算される。次いで、予測された結合親和性値は、工程305で出力されうる。出力はまた、追加的又は代替的に、厳密な値ではなく、結合若しくは非結合の分類、結合の確率、又は結合親和性の指標でありうる。
【0064】
本明細書の他の部分で考察されているように、出力は、ワクチン開発プロセスに利用されうるが、本技術を用いて選ばれた候補ペプチドの利用は、多元的選択の一部でありうるので、結合親和性の予測のみで選ばないでもよい。しかしながら、実用上、予測された結合親和性値の出力は、閾値と比較されうるとともに、比較に基づいて、結合するか又は結合しないかが考えられうる。同様に、予測された最良の結合親和性に基づいて、出力により、クエリーペプチドセットからペプチド又はペプチドサブセットを選びうる。
【0065】
実際には、たとえば、閾値が500nMの場合且つ予測値がこの閾値を上回る場合、クエリーペプチドは、結合するといいうるが、本技術を利用しうるより複雑なシステムで、プロセシングなどの他の因子を取り込みうる。500nMは、ここでは、例示を目的として任意閾値として選ばれる。実際には、閾値は、あらゆる対立遺伝子で異なりうるので、500nMは、単なる潜在閾値にすぎない。
【0066】
本開示の残りの部分では、
図2及び3に例示される高レベルプロセスの実装例を記載し、本技術の実装を可能にすべく提案されたコード化プロセスのより詳細な実例を提供するとともに、その後、記載の概念の効能を実証する実験データと一緒に、試験された技術の詳細な考察を記載する。
【0067】
最初に、MHC分子、標的/クエリーペプチド、及び参照ペプチドの間の競合アッセイを誰かが実験室で実施した実験研究に基づくトレーニングセットを検索する。トレーニングセットは、MHC分子の配列及びペプチドの配列からなる。各ペア形成に対して、結合親和性の指標は経験的に測定されたものである。ペプチドがMHC分子に結合する理由は、それらの間になんらかの引力が存在することである。ペプチドアミノ酸と分子アミノ酸との近接によりこの引力又は斥力が説明されると、当該分野の研究で理論付けされている。分子は、コンタクトポイント(すなわち、ペプチドのアミノ酸がMHC側のアミノ酸の近くにある位置)の原理に基づき、したがって、各コンタクトポイントでは、一方のアミノ酸がペプチドに由来し、一方のアミノ酸が分子に由来して、アミノ酸のペア形成が見られる。
【0068】
トレーニングデータから、トレーニングデータ中のペプチド及びMHC分子のペアの各コンタクトポイントペアを表す疎行列が生成される。行列中の所与の行は、各コンタクトポイントの各アミノ酸のペア形成を記述しうる。行列中の各行に関連付けられるのは、トレーニングセットの測定結合親和性値である。好ましい実装では、コード化されたトレーニングセット全体で1つの行列が存在するが、これに限定されるものではなく、記号は、実装で他の方法でコード化されうる。単一疎行列実装では、コード化及びトレーニングの段階での計算効率が考慮される。
【0069】
疎性とは、行列中の多くの値がゼロ又はゼロ近くにあるという概念を意味する。典型的定義では、n次の行列は、n2よりもはるかに少ない非ゼロ要素を含有する場合、疎であるとみなされる。疎行列には多くの代替定義が存在する。本技術の目的では、行列が疎あるという事実は関係しない。しかしながら、行列は、コンタクトポイントペアのコード化及び関連付けられた測定結合親和性値との記号ベクトルの関連付けを可能にする特定のコード化を有すべきである。これは、以下の説明から事実上明らかになるであろう。行列が不可避的に疎であることは、コード化法の直接的結果であり、疎であるので、このことから周知の疎行列保存及び計算(すなわち乗算及び和)の技術で疎行列の効率的保存が可能である。
【0070】
他の代替案では、たとえば、単一行列は、各行列がコンタクトポイントペアを表す一連の行列でありうる。しかしながら、簡潔さを期して、当業者が本発明の原理を理解できるように、ここでは単一行列表現のみを記載する。
【0071】
疎行列の実装は、本開示の原理を実装するために疎行列がどのように設計可能であるか
図4に例示される。疎行列例では、行は、特定のMHC分子及び特定のペプチドに対応する。各行は、各コンタクトポイント及びアミノ酸がそのコンタクトポイントの各ペアに含まれるかの指標を含む。
【0072】
次いで、このコード化法により、各行は、そのコンタクトポイントに分割することが可能である。すなわち、行ベクトルは、より小さな行ベクトルに細断されうる。分割とは、概念的には行列を分ける方法である。行列は、一連のベクトル(行又は列)、すなわち、数の1次元リスト又はより小さな行列に分割することが可能である。
【0073】
MHCクラスIには、62コンタクトポイントが存在する。そのため、各行は、各コンタクトポイントに1つずつ62ベクトルに分割されうる。各分割は、コンタクトポイントに特有である。例として第1のコンタクトポイントを挙げると、この分割は、そのコンタクトポイントでペプチドのどのアミノ酸がMHC分子中のどのアミノ酸の近くにあるかを表す。この情報は、このベクトル中になんらかの方法でコード化する必要がある。
【0074】
20アミノ酸は、ヒトDNAによりコード化される。したがって、各ペアにおいて、MHC分子側には20アミノ酸の1つ及びペプチド側には20アミノ酸の1つが存在可能である。模範的コード化では、Xアミノ酸は、どのアミノ酸が存在するか分からない場合を表し、Xは、並外れた属性を表しうる。そのため、各コンタクトポイントペア、すなわち、行列のコンタクトポイント分割では、各側には、21アミノ酸の1つが存在する。ペア形成は、21×21の可能なペア形成の1つである。そのため、各コンタクトポイント分割は、441の可能な値を有する。
【0075】
我々が記述している疎行列実装では、1つの値のみがコード化される。この1つの値は、ペプチドのどのアミノ酸及び分子のどのアミノ酸が互いに近接しているかを表す。
【0076】
行列の列分割は、列がどのコンタクトポイントに属するか並びにペプチドアミノ酸及び分子アミノ酸のペア形成が近接しうるかを同定する。そのため、列の値が「0」である場合、これは列のアミノ酸が近接してないことを示唆する。列の値が「1」ある場合、これはペプチド及び分子のアミノ酸が近接していることを示唆する。
【0077】
図4は、アミノ酸配列を用いてコード化された数のコンタクトポイントとして各コンタクトポイントを例示するが、各コンタクトポイントペアのコード化には、企図される膨大な数の代替手段が存在する。すなわち、各位置の物質は必須ではない。例として、簡略アミノ酸辞書(又はアルファベット)は、各当技術分野で公知の特定のシナリオに有益であることが示されているペアに使用されうる。他の例では、各ペアは、バイナリーグループ化又は生理化学的性質(たとえば電荷)により表されうるとともに、各性質の表現のために浮動小数点数(バイナリーコード化ではなく)を用いてコード化されうる。同様に、我々は62コンタクトポイントを示すが、この数は変動しうるとともに、各ペアは20(又は他の箇所に記載の未知値を含む21)アミノ酸すべてにより表さないでもよい。
【0078】
さらに、バイナリー表現は、示されたものと逆であってもよく、「0」はペアの存在の指標となり、「1」は不在の指標となる。
【0079】
そのうえ、列の順序は並べ替えてもよく、可視化のためにのみこの順序で示されている。好ましくは、次元は、トレーニングと予測との間でマッチさせる。どの順序でペプチド及びMHCをソートするかは重要ではない。たとえば、第1の「A」はペプチドに由来し、第2の「A」はMHC分子に由来しうるが、実用上、これはいずれの順序でインデックス付けしてもよい。
【0080】
図4は生物学的例ではなく、単にコード化の例にすぎないことが、強調されるべきである。
【0081】
各行に関連付けられた各測定結合親和性値は、厳密な値として又は<500nMや>500nMなどの不等式として表されうることが、
図4から示唆される。これについては本明細書の他の箇所でより詳細に説明する。
【0082】
図5Aに概念的に例示される代替実装では、各コンタクトポイントは、行列が実際には埋込み行列の行列となるような行列としてコード化されうる。行列の各要素がコンタクトポイントペアである場合、行列の各列は実際には他の行列に対応するであろう。
図5Bは、可能な実装のさらなる代替概念的可視化図を例示する。この場合、各コンタクトポイントは、他のコンタクトポイントと組み合わされて各ペプチド分子ペアを表す多次元行列を生成する行列である。
【0083】
図5Aに戻って行列設計をまとめると、行列の左上から始めて、441列ごとにコンタクトポイントを表し、その後、その次のコンタクトポイントに移動する。各コンタクトポイントは、一緒になって1つのコンタクトポイントの情報を形成する行中の21×21アイテムである。441要素ごとの1つの長い疎エントリーのみ及び1行当たり62非疎エントリーのみが存在可能である。非疎エントリーは、どのアミノ酸ペア形成が近接しているかを示し、この1つからアミノ酸配列を導出可能である。
【0084】
結合親和性値は、各ペアセットに個別に関連付けられうるとともに、行列の一部を形成してもしなくてもよい。好ましくは、それを形成せずにデータストアが行列の各行に関連付けられる。すなわち、結合親和性の測定ごとに行列中の1つの行を有する。
【0085】
代替実装では、行列は、コンタクトポイントの各可能なアミノ酸ペア形成を表すバイナリー値ではなく、ペアに対応する記号、たとえば、GA、ABなどを含みうる。
【0086】
以上の例の各々は、提案された技術の概念的可視化である。しかしながら、重要なことは、コンタクトポイントペアを取り出すこと、なんらかの形でこの寄与をコード化すること、及びそれを測定結合親和性値に関連付けることである。
【0087】
図5A及び5Bの可視化は、生物学的配列のモチーフをキャプチャーするために使用される位置特異的スコアリング行列(PSSM)などの当分野の以前の研究に類似しているが、本文書の他の個所で述べたように、かかる方法は、ここで提案されたものと同様に相互作用をモデル化しないことに、この段階で留意すべきである。かかる方法は、コンタクトポイントのペア形成(コードコンタクトポイントペア)を考慮しておらず、ほとんどは汎対立遺伝子ではない。すなわち、提案された方法は、個別のMHC分子を考慮するだけでなく、すべてのMHC分子に対する結合予測を可能にする。
【0088】
この段階の技術では、メモリーに永久的又は一時的に保存されうる参照データからデータ表現を生成した。
【0089】
具体的実装のこの次の工程は、関数、この例では、線形和又は線形回帰モデルを生成することである。関数では、2つのベクトルの積が実施される。第1のベクトルは、行列の行であり、第2は、トレーニングデータから推定されたモデル係数のベクトルである。結合親和性への寄与の和は、提案された技術の一例にすぎず、単にコンタクトポイントペアを結合親和性にマッピングする関数の例にすぎない。概念的には、いずれの関数も提供されうる。簡潔さを期して、トレーニングデータが打ち切り情報を含みうることについては説明してこなかった。これらの例は、単に重要な概念を例示するために与えられているにすぎない。
【0090】
そのため、行列及びトレーニングデータから推定される一連の未知数があるはずである。以下で考察されるベイジアン推定を用いて、行ベクトルの積として使用したときに結合親和性の近似値をもたらす又はそれにできる限り近い係数セットを決定することが可能である。近似値であることから、厳密な結合親和性を知る必要がなくてもよい。
【0091】
そのため、トレーニングプロセスのアウトカムは係数のベクトルであり、好ましくはデータストアに保存される。
【0092】
係数のベクトルから分かれば、係数を用いてクエリー結合剤及び標的の結合親和性値を予測することが可能である。最初に、クエリーペプチド及びMHC分子を受け取る。次いで、以上と同様にコンタクトポイントペアを表すベクトルを生成するように、ペプチド及びMHC分子をコード化する。ベクトル中の各ビットがコンタクトポイントでのアミノ酸ペア形成の存在を表す場合、それは疎ベクトルである。ベクトル中に62非疎ビット及び440×62疎ビットが存在することが想起されよう。次いで、このベクトルに係数ベクトルを乗算して予測される結合親和性値を生成する。
【0093】
理解されるであろうが、係数のこの列ベクトルは、単に1回構築する必要があるにすぎず、実用上、保存された列ベクトル値は、新しいペプチドクエリーに利用されうる。列ベクトルは、係数セキュリティーのために暗号化又は保存されうるとともに、秘密にして要求-応答又はクエリーベースパラダイムを用いて解釈されうる。
【0094】
ペアの存在が「0」又は「1」により表されるので、各係数は、加重と考えることが可能であり、結合親和性は、クエリーされた組み合わせ中に存在するコンタクトポイントペアの加重和である。すなわち、各ペアは、値を導出するために「1」に係数が加重される。
【0095】
MHC分子からのアミノ酸の可能なペア形成ごとに、ペプチドからの可能なアミノ酸ごとに、コンタクトポイントごとに、数を有する。その数は、そのコンタクトポイントでの各ペア形成に対する結合の寄与を表す。実際には、線形モデル又は線形回帰では、総平均が存在しうる。各係数は、総平均から外れる偏差を表しうる。そのため、すべて「1」を表すトレーニング行列にさらなる列が導入されうる。係数中の追加の単一要素は総平均を表しうる。こうして平均からの偏差を用いると計算効率に役立つ。当業者には周知であろうが、線形回帰、線形モデリングの周知の技術又はコンタクトポイントペアと結合親和性と間の関数を提供するように提案された他の技術を用いて、この計算課題に対処する他の代替案が可能である。
【0096】
要するに、本発明は、分子の3次元構造のモデルを取り込んで統計モデリング及び機械学習の最近の進歩を活用するように構築されたPSSM様方法としてみなすことが可能であり、それは、比較的単純な機構的解釈も有しつつ高品質予測を行うことが可能である。
【0097】
各コンタクトポイントでアミノ酸ペアの提案されたコード化を用いて、いずれかの機械学習アルゴリズムが使用されうる。コード化の背景にある主要な概念は、統計モデル又は機械学習法の適用を促進するように、結合機構の真実味のあるモデルに従ってデータを表すことである。
【0098】
しかしながら、コード化は、かなり高次元の疎設計行列をもたらす。いくつかの統計モデル及び機械学習法は、かかる設計行列に「取り組む」ことを意味する性質を備える。一例は、周知の最小二乗法を用いて当てはめられる線形モデルである。採用される馬蹄推定器は、その問題に対処する1つの(ベイジアン)方法である。他にも存在するが、馬蹄は、いくつかの満足な性質を備える。
【0099】
たとえば、馬蹄に代わる他の選択肢はリッジ回帰である。しかしながら、これは、モデル当てはめの側面を制御するパラメーターの値を研究者が特定することを必要とする。そのパラメーターについて論じることは困難であり、実用上、それは試行錯誤により選ばれる。馬蹄は、予測される量(この例で結合親和性)の「ノイズレベル」にこのパラメーターのそのバージョンを結び付けることによりこの問題に対処する。本方法ではそれをトレーニングデータから推定するので、研究者は、この量の値を選ぶ必要はない。
【0100】
一般に、モデル当てはめは、典型的には、1回限りのタスクとみなされるので、係数の生成に要する時間は重要でない。実際には、クラウドコンピューティングを介してパラレルに実行する多くのコンピューティングデバイスを用いてモデルを当てはめることが公知である。しかしながら、本明細書の技術に使用される記載のものなどの線形モデル(ベイジアン又は他のもの)は、典型的には予測の段階では非常に高速である(典型的には、積に使用されるときは多数回実施される)。状況に応じて、本技術を利用して患者特異的免疫療法を開発するとき、本プロセスは、保存係数を用いて複数の候補ペプチドを評価するために容易に繰返し可能でありある。
【0101】
プロセスの根底にある厳密な機構が十分に理解されないか又は(たとえば、経済的、時間的、若しくは他の制約に起因して)所要の忠実度でこうしたプロセスをシミュレートすることが困難である分野では、トレーニングデータを用いてプロセスへの有用な近似を学習できることから、統計法及び機械学習法は有益である(Hastie, Tibshirani, & Friedman, 2009)。機械学習法と統計モデルとの間には大した違いはないが、プロセスに関与する機構についての基本的理解が欠如している場合には、プロセスをモデル化するために機械学習法が使用されることが多く、一方、機構への近似が仮定でき、且つモデルの解釈及び予測が望まれる場合には、統計モデルが使用されることが多い。
【0102】
ある特定の入力がある特定のアウトカムをもたらすことが知られており且つ機構を仮定できる場合、統計モデルを策定できることが多く、そのモデル及び入力されるそのパラメーター値の下でアウトカムを説明できるように、モデルのパラメーター値を推定しうる。機械学習法及び統計モデルのいずれでも、de novo入力に対するアウトカムを予測するために、推定されたモデルパラメーター値をモデルで使用可能である。統計モデルの推定パラメーター値は、仮定された機構に関して解釈可能であることが多く、モデル及び仮定された機構又は実際の機構の理解を助ける。解釈する能力は、モデルの改善を可能にしうる又は他の即時適用を有しうる反証可能な仮説の開発を促進する。たとえば、ワクチン開発の状況では、推定されたパラメーター値は、その効能を改善するためにワクチンをどのように改変するかの決定に使用されうる。他の例では、不確実性を見積もるモデルパラメーターの推定値は、トレーニングセット又は試験セットを改善するために多数の潜在的に費用のかかる測定のどれを取得するかを合理的に選ぶために使用されうる。介在する能力は、いくつかの適用を促進する。たとえば、個別化医療の状況では、命にかかわる疾患を有する患者は、特異療法が奏効する見込みのない自動決定を議論しうる。当業者であれば、自動計算の検証に介在したり、又は疾患、療法、若しくはモデルについての自らの専門知識を使用して自動決定を覆したりすることが可能であろう。
【0103】
統計モデルは、モデル化されるプロセスの多くの代表例を含むデータセットに当てはめられうる(これはモデルパラメーターの推定又はモデルのトレーニングとして知られる)。コード工程は、典型的には、代表的サンプルを統計モデル内での使用に適した構造化形式に変換するために必要とされる。統計モデル及びコード化の選ばれる数学的形式は、通常、トレーニングデータへの当てはめ、de novo例に対する予測、解釈、及び介入の促進へのモデルの能力に実質的影響を及ぼす。本明細書に記載の解決策は、どのコード化及びどの統計モデルを生物学的分子ペア間の結合の予測に使用すべきであるかについてとくに効果的な教示を提供する。
【0104】
以上に記載のように、コード化されたヌクレオチドペア又はアミノ酸ペア、それらの対応する結合親和性値、及び対応する打ち切り情報は、統計モデルに対するトレーニングデータとして提供されうる。とくに優先的実装では、各コード化されたヌクレオチドペア又はアミノ酸ペアは、2つの分子間の多数のコンタクトポイントの1つでのヌクレオチドペア又はアミノ酸ペアを表し、ペアの第1の要素は、第1のタイプの分子に由来し、ペアの第2の要素は、第2のタイプの分子に由来する。コンタクトポイントは、結合分子ペアの構造に関する研究を起源としうるか又は統計モデル若しくは機械学習モデルを用いて推測されうる。
【0105】
コード化されたヌクレオチドペア又はアミノ酸ペアは、設計行列として表されうる。設計行列の各行は、結合しうる生物学的分子ペアに対するコード化されたヌクレオチドペア又はアミノ酸ペアを含む一例を表しうる。設計行列は、行の各分割がその行により表される例に対する特定のヌクレオチドペア又はアミノ酸ペアを表すように、列単位で分割されうる。所与の行の分割は、対応する第1の分子に由来する特定のヌクレオチド又はアミノ酸と、対応する第2の分子に由来する特定のヌクレオチド又はアミノ酸と、のペア形成をユニーク又は非ユニークに記述する特徴ベクトルとして、ヌクレオチドペア又はアミノ酸ペアをコード化しうる。非ユニークコード化は、2つの識別可能なヌクレオチド又はアミノ酸がアルファベットの共通の記号により表される簡略ヌクレオチド又はアミノ酸アルファベット(Peterson, Kondev, Theriot, & Phillips, 2009)の使用を許容する。簡略アルファベットのコード化は、全アルファベットよりも低次元でありうる。当業者であれば気付くであろうが、次元低減は、保存要件及びモデル当てはめの実行時間及び予測手順の低減を含めて、多くの理由で有利でありうる。
【0106】
優先的コード化は、指標がペアに存在する特定のヌクレオチド又はアミノ酸を表す単一要素を除いてベクトルのすべての要素がゼロであるバイナリーベクトルとしてペア形成をユニークに記載する(かかるコード化は、多くの場合、「ワンホット」又は「ダミー」コード化と呼ばれる)。当業者の熟知するところであろうが、参照カテゴリーを有するワンホットコード化、BLOSUMコード化(Nielsen,2003)、並びにVTSA及びVHSEコード化(Li,Li,&Shu,2008)を含めて、多くの他のコード化が存在する。アミノ酸ペアのさらにより優先的コード化では、20アミノ酸のアルファベット(アラニン[A]、アルギニン[R]、…バリン[V])を用いて、ペアの各々の一方又は両方のアミノ酸のアイデンティティーが未知でありうる場合(通常はXとしてコード化)、アミノ酸ペアは、(20+1)×(20+1)=21×21=441次元バイナリーベクトルとしてコード化されうる。
【0107】
バイナリーコード化が使用される優先的場合では、設計行列は疎であろう。本方法の空間及び時間の複雑性を改善するために、設計行列は、圧縮疎行(CSR)保存データ構造(圧縮行保存[CRS]としても知られる)などの疎データ構造で保存されうる。当業者の熟知するところであろうが、圧縮疎列保存(CSC)データ構造(圧縮列保存[CCS]としても知られる)やキーの辞書(DOK)などの他の疎データ構造が存在する。
【0108】
結合親和性値は、ベクトルのi番目の要素が設計行列のi番目の行により表される例に関する結合親和性を与えるベクトルとして表されうる。打ち切り情報は、L、R、及びUのセットとして表されうるとともに、それらの要素は、それぞれ、左打ち切り、右打ち切り、及び無打ち切りの結合親和性の結合親和性ベクトルへの指標を表す。しかしながら、当業者であれば、結合親和性値及び打ち切り情報を表す多数の方法が存在することに気付くであろう。
【0109】
結合親和性測定は、多くの場合、in vitro競合アッセイを用いて行われる、nM単位で測定されるIC50値として表される。IC50は、第2のタイプの分子に結合された参照分子の50%を置き換えるのに必要とされる第1のタイプの分子の濃度を表す。結合親和性値は、リンク関数を用いて変換されうる。好ましい実施形態では、リンク関数は、y=1-logbIC50(Nielsen, 2003)であり、式中、logbは、底bの対数であり、bは、トレーニングセット中の任意の大きさの結合親和性値が区間[0,1]に変換される十分な大きさである。対数の底bは、優先的には250,000nMであるが、当業者であれば、他の値も好適でありうることを認めるであろう。他の好ましい実施形態では、リンク関数は、y=lnIC50であり、式中、lnは自然対数である。さらに他の好ましい実施形態では、リンク関数は、恒等関数y=IC50である。
【0110】
逆リンク関数は、変換された結合親和性に対応する結合親和性を計算するように定義されうる。たとえば、リンク関数がy=1-logbIC50である場合、逆リンク関数はIC50=b1-yである。リンク関数がy=lnIC50である場合、逆リンク関数はIC50=eyであり、式中、eはオイラー数であり、リンク関数が恒等関数である場合、逆リンク関数も恒等関数である。リンク関数及び逆リンク関数は、変換された結合親和性が区間[0,1]に拘束されるとともに結合親和性が0を超えて拘束されるようにクランプされうる。
【0111】
クリティカルなこととして、リンク関数がIC50に対して減少する場合(y=1-logbIC50の場合のように)、各打ち切り方向は逆転させなければならない。なぜなら、たとえば、IC50<1000nMは、y>1-logb1000nMを意味するからである。打ち切り情報は、L及びRのセットの指標の切替えにより逆転されうる。下記では、使用される特定のリンク関数(つまりIC50が表現されるスケール)及び打ち切り方向の逆転は、とくに明記されていない限り、黙示的である。
【0112】
コード化されたヌクレオチドペア又はアミノ酸ペアがどのように結合親和性に寄与するかをモデル化する平均結合親和性関数が記載される。この関数は、統計分布をパラメーター化するために、de novo分子ペアに関する結合親和性を予測するために、及びde novo分子ペアが結合する確率の評価に、他の情報と共に統計モデルで使用される。
【0113】
平均結合関数は、「総平均」結合親和性と、各コード化されたヌクレオチドペア又はアミノ酸ペアに対して、コード化されたヌクレオチドペア又はアミノ酸ペアに関連付けられた総平均結合親和性からの偏差の大きさ及び方向をモデル化する係数と、によりパラメーター化されうる。
【0114】
平均結合親和性関数は
【数1】
であり(式中
【数2】
は総平均結合親和性である)、x
Tは、結合が対象となる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアの行ベクトル(すなわち、設計行列の行)であり、Tは転置演算子であり、βは係数の列ベクトルであり、且つx
Tβはx
Tとβのドット積である。x及びβの自明な再定義を介して総平均項をx
Tβに組み込みうることは、当業者であれば認識されよう。
【0115】
ベクトルβは、xTの等価分割に対してヌクレオチド又はアミノ酸の各可能なペア形成に関する結合親和性への追加の寄与の大きさ及び方向を所与の分割がモデル化するように、設計行列(つまりxT)の列の分割と同様にして分割されうる。とくに優先的実装例では、xT及びβの分割は、第1のタイプの分子と第2のタイプの分子とのコンタクトポイントに対応する。
【0116】
β及び他のパラメーターθは、モデルをトレーニングデータに当てはめることにより推定されうる。モデルをトレーニングデータに当てはめる明白な方法は、最大尤度である。しかしながら、x及びβの各分割を441要素程度に大きくしうること及びコンタクトポイント(分割)の数がおおよそ100でありうることを考慮して、βは多くの要素(この例では44,100)を含みうる。θの次元はβのものに匹敵しうる。トレーニング例の数が(β,θ)の次元と比べて小さい場合、最大尤度などの従来の推定法は成功しないおそれがある。明示的又は黙示的正則化に基づく方法は、β及び他のパラメーターθの推定に使用されうる。正則化法は、大きさが無視しうる程度に十分に小さい多くの値を含むβなどのパラメーターを介して観測データを良好にモデル化可能であるという仮定を課すこととして理解可能である(すなわち、実用的にはβは疎である)。正則化法は、本質的に扱いにくい多くの解法を有する推定問題を解法がde novo例に十分に一般化される扱いやすい問題に変換し、現在、このトピックに関する多くの一連の文献が存在する(Jin, Maas, & Scherzer, 2017)。当業者であれば、リッジ回帰、ラッソ、エラスティックネット、圧縮センシング、マッチング追跡アルゴリズムなどの数多くの正則化推定法に気付くであろう。好ましい実装例では、β及び他のパラメーターθは、以下に記載の階層的ベイジアン推定を介して推定されうる。
【0117】
高次元モデルの階層的ベイジアン推定は、β及び他のパラメーターの最大事後(MAP)ポイント推定値を計算するために、限定メモリーブロイデン・フレッチャー・ゴールドファーブ・シャンノ(L-BFGS)(Byrd, Hansen, Nocedal, & Singer, 2016)や確率的勾配上昇(Robbins & Monro, 1951)などの最適化法を用いて実施されうる。代替的に、β、θの同時事後分布からの近似サンプルは、自動微分変分推論(ADVI)(Kucukelbir, Tran, Ranganath, Gelman, & Blei, 2017)又はマルコフ連鎖モンテカルロ(MCMC)法たとえばノーUターン(NUTS)サンプラー(Hoffman & Gelman, 2014)を用いて取り出される。
【0118】
これらの方法の各々は、トレーニングデータ及びβ、θの提案された値が与えられたとして、事後尤度値又はlog尤度値(任意に定数項を除く)を計算する能力を必要とする。以下は尤度又はlog尤度により定式化されうるが、当業者であれば、計算上の理由により対数スケールで確率質量及び密度と連携することが有利でありうることを認めるであろう。設計行列X、結合親和性y、及び検閲情報L、R、Uが与えられたとして、パラメーターβ、θの事後log尤度は、
logf(β,θ|X,y,L,R,U)=logf(y|X,L,R,U,β,θ)+logf(β,θ)-logf(X,y,L,R,U)
としてモデル化されうる。式中、f(y|X,L,R,U,β,θ)は、尤度関数(X、L、R、U、β、θを条件とするyの確率質量又は確率密度)であり、f(β,θ)は、β、θの事前確率質量又は密度関数であり、且つf(X,y,L,R,U)は、X、y、L、R、Uの確率質量又は密度である。所与のトレーニングセットに対してX、y、L、R、Uは一定であるので、logf(X,y,L,R,U)項は、logf(β,θ|X,y,L,R,U)が定数付加項まで計算されうるように削除されうる。
【0119】
尤度関数は、予測された平均μが与えられたとして、yを観測する確率をモデル化する確率質量又は密度関数を介して計算されうる。尤度関数は、確率的変動に従わない予測値からアッセイにより測定された量の確率的変動(たとえば測定誤差)をモデル化する。
【0120】
トレーニングセット中の結合親和性値が打ち切りされる場合(たとえば、結合親和性の上限又は下限のみが知られる場合)、打ち切り結合親和性に対応する尤度は、打ち切りにより許可された可能な結合親和性値にわたりその関連統計分布を積分することにより計算されうる。こうして、結合予測器は、結合親和性がある特定の値を下回る若しくは上回ることが知られている又はそのように推定される例を含有しうるトレーニングデータを用いてトレーニングされうる。そのうえ、トレーニングデータは、結合又は非結合は推測可能であるが結合親和性は測定不能であるアッセイからの例を含有しうる。トレーニングデータの例としては、質量分析データが挙げられる。MHCクラスIペプチド結合例では、結合親和性の測定を可能にする競合アッセイからのデータは、結合する、される、ペプチドが単に結合するか又は結合しないかが知られるにすぎないペプチド溶出液試験からのデータにより補充可能であるであろう。一例として、結合親和性は測定不能であるが、結合が起こると仮定可能である場合、結合ペプチドは、500nM未満の打ち切りIC50値を有すると仮定されうるとともに、代替的に、対立遺伝子特異的打ち切り値は、識別可能なMHC対立遺伝子が異なる結合特性を有しうる観測をモデル化するために使用されうる。
【0121】
機械学習モデル又は統計モデルは、結合又は非結合の指標を有する各参照結合剤-標的ペアと推定打ち切りIC50値とを関連付けることと、モデル当てはめ時に提案されたモデルパラメーターの候補値が与えられたとして、かかる各ペアに対して、可能な結合親和性値セットにわたり関連統計分布を積分することにより尤度への寄与を計算することと、によりトレーニングされうる。
【0122】
したがって、log尤度関数logf(y|X,L,R,U,β,θ)は、
【数3】
としてモデル化されうる。式中、y
iは、i番目の結合親和性であり、
【数4】
は、設計行列Xの
i番目の行であり、θ
iは、確率質量又は密度関数f及びその対応する累積確率質量又は密度関数Fのi番目のトレーニング例のパラメーターである。
【0123】
当業者には公知であろうが、fに対して選ばれうる確率質量又は密度関数は多数存在する。好ましい実施形態では、fは、正規分布の密度関数であり、且つリンク関数は、y=1-logbIC50であるか、又はfは、ポアソン分布の確率質量関数であり、且つリンク関数は、y=lnIC50であるか、又はfは、負の二項分布の確率質量関数であり、且つリンク関数は、y=lnIC50である。fに対して選ばれる関数の支持に依存して、yのドメインは、たとえば、yの真値を整数に丸めることにより調整されうる。
【0124】
すべてのi(Xの行及びyの要素の指標)に対する
【数5】
の計算は、行列ベクトル積Xβを介して実施されうるとともに、当業者には公知であろうが、積は、疎線形代数ルーチンを用いて効率的に計算されうる。
【0125】
事後log尤度は、パラメーター
【数6】
、β、及びθの不確実性をモデル化する事前分布の階層により特定されうる。
【数7】
の不確実性は、
【数8】
としてモデル化されうる。式中、平均m
1及び標準偏差s
2は、あらかじめ定義された定数である。log尤度関数が、平均
【数9】
及び標準偏差σを有する正規分布(N,(μ
i,σ))を用いてモデル化され、且つリンク関数が、y=1-log
bIC
50である、実施形態では、階層
σ
2~HC(0,s
2)
β
i~N(0,λ
i)
λ
i~HC(0,τ)
τ~HC(0,σ)
(式中、HCは、半コーシー分布を表し、且つs
2は、あらかじめ定義された定数である)
は、β、θに対する馬蹄推定器(Carvalho, Polson, & Scott, 2010)を定義する。ただし、θは(σ,λ,τ)である。好ましい実施形態では、m
1=1/2、s
1=1、及びs
2=1。
【0126】
log尤度関数が、平均
【数10】
及び変動
【数11】
を有する負の二項分布NB(μ
i,φ)を用いてモデル化され、過分散パラメーターφの不確実性が、[0,∞]の不適正一様事前分布としてモデル化され、且つリンク関数が、y=lnIC
50である、例では、階層
β
i~N(0,λ
i)
λ
i~HC(0,τ)
(式中、τは、あらかじめ定義された定数である)
は、β、θに対する推定器を定義する。ただし、θは、(λ、τ)である。好ましい実施形態では、m
1=1/2、s
1=5、及びτ=5/2。
【0127】
トレーニングセットが十分に大きい場合、m1、s1、s2、τなどの定数の厳密な値は、比較的重要ではなく、φ→∞とすると、負の二項分布は、ポアソン分布に向かう傾向があり、これは、過分散がトレーニングデータにより支持されなければ、負の二項分布の代わりに使用されうることを、当業者は観測するであろう。
【0128】
下記の例では、出力媒体を用いてモデルパラメーターの推定を提示することにより、当てはめられたモデルを解釈したりかかるモデルの使用に介入したりする方法が存在する。提案された解決策の例によれば、β又はθの推定値は、コンピュータースクリーンなどの出力媒体上にヒートマップのアレイとして提示されうる。かかる提示では、各ヒートマップは、βの分割(すなわちコンタクトポイント)に対応し、各ヒートマップ内では、行は、第1の種類の分子からのヌクレオチド又はアミノ酸に、且つ列は、第2の種類の分子からのヌクレオチド又はアミノ酸に対応しうるとともに、ヒートマップの各要素の色相又は強度は、対応するコンタクトポイントにおけるヌクレオチド又はアミノ酸の対応するペア形成によりなされる寄与の推定値に対応しうる。かかる提示は、モデルの当てはめに使用されたコンタクトポイント指標及び推定された総平均結合親和性が与えられたとして、既知の配列の分子ペアに関する結合親和性の予測などの介入タスクを適切な資格者が実施することを可能にしうる。かかる情報を提示する方法が多数存在すること(たとえば、表又はノモグラムとして)及び出力媒体が多数存在すること(たとえば、ペーパープリントアウト又はコンピューターユーザーインターフェース)ことは、当業者であれば認めるであろう。
【0129】
平均結合親和性関数及びモデルの同時事後パラメーターの推定値を用いて、de novo分子ペアに関する結合親和性を予測する方法が提供される。トレーニングデータと同様に設計行列を形成することにより、de novo分子ペアに関する結合親和性を予測することが可能である。測定又は推定された結合親和性値及び検閲情報は、de novo予測に必要とされない。モデルの同時事後パラメーターの推定値は、最大事後(MAP)ポイント推定値、統計モデルのパラメーターの同時事後分布からのサンプル、又はかかるサンプルから計算される要約統計でありうる。好ましい例として、要約統計は、同時事後分布からのサンプルの平均である。推定パラメーターβが与えられたとして、設計行列Xにより表される分子に関する結合親和性は、平均結合親和性関数
【数12】
を用いて計算されうる。
【0130】
分子ペアが結合する確率の推定値を計算することにより、各de novo分子ペアに関する予測された結合親和性の不確実性を定量する方法が提供される。一例では、これは、多数の結合親和性予測をまとめることにより推定されうる。この場合、各予測は、モデルのパラメーターの同時事後分布のサンプルから取り出された統計モデルのパラメーターの推定値を用いて行われうる。要約は、特定の値未満である予測など、基準を満たす多数の予測の割合でありうる。MHCクラスIペプチド結合例では、この割合は、500nM未満のIC50の多数の予測の割合でありうる。
【0131】
他の例では、
【数13】
は、対応するβ
iの変動を推定することが観測される。本実施形態では、設計行列Xにより記述された分子ペアに関する結合親和性測定の変動は、η
2=σ
2+λ
TXλにより推定されうる。次いで、η
iによりパラメーター化された統計分布は、予測された結合親和性の不確実性をモデル化するために使用されうる。一実施形態では、分子のi番目のペアに関する測定結合親和性の変動は、分布N(μ
i,η
i)によりモデル化されうる。ただし、μ
iは、i番目の分子ペアに関する予測された平均結合親和性である。したがって、分子のi番目のペアに関する測定結合親和性がk未満である確率は、おおよそ、F(κ|,μ
i,η
i)である。ただし、Fは、正規分布の累積分布関数である。
【0132】
本文書では、我々は、ワクチンの設計における本方法の明らかな使用を提供する。しかしながら、本明細書に記載の技術は、同定された標的を認識する調節されたT細胞を設計することに同じように適用可能であることは理解されよう。同様に、本技術はまた、腫瘍における新生抗原負荷を同定するためにも使用可能であり、これはバイオマーカーとして、すなわち、療法に対する反応を予測するものとして使用される。
【0133】
次に
図6に目を向けると、本方法の実施形態の実装に好適なシステムの一例が示されている。システム600は、参照データストア620と通信するサーバー610を少なくとも1つ含む。サーバーはまた、たとえば通信ネットワーク640を介して自動ペプチド合成デバイス630と通信しうる。
【0134】
ある特定の実施形態では、サーバーは、複数のペプチドのアミノ酸配列及びタンパク質のアミノ酸配列を得るとともに、各ペプチドに対して、以上に記載の工程を用いてタンパク質への予測される結合親和性を決定しうる。それぞれの予測された結合親和性に基づいて、サーバーは、複数のペプチドのうち1種以上の候補ペプチドを選択しうる。
【0135】
候補ペプチドは、ペプチドを合成する自動ペプチド合成デバイス630に送られうる。自動ペプチド合成デバイス630は、標的エピトープ、すなわちこの例では標的ペプチドを合成的に生成する。自動ペプチド合成の技術は、当技術分野で周知であり、いずれの公知技術も使用されうることが理解されよう。典型的には、標的ペプチドは、標準的固相合成ペプチド化学を用いて合成され、逆相高性能液体クロマトグラフィーを用いて精製され、その後、水性溶液として製剤化される。使用する場合、投与前に、ペプチド溶液は、通常、アジュバントと混合され、その後、患者に投与される。同様に、ペプチドは、DNA又はRNAにコード化され、他の箇所に記載のようにワクチンとして使用されうる。
【0136】
ペプチド合成技術は、20年超にわたり存在しているが、近年、急速な改善がなされてきた。簡潔さを期して、我々は、かかる機械を詳細に記載しないが、それらの操作は、当業者であれば理解されよう。また、かかる従来の機械は、サーバーから候補タンパク質を受け取るように適合化されうる。
【0137】
サーバーは、クエリー標的分子へのクエリー結合剤分子の結合親和性を予測する以上に記載の機能を含みうる。それぞれの結合親和性は、ワクチンの生成に好適な結合親和性に基づいて標的エピトープを同定するために、さらなる処理モジュールに送られうる。しかしながら、サーバーはまた、ワクチン設計のために標的エピトープを同定するようにも操作可能でありうる。それは、当然ながら、これら機能は、コンピューターネットワークのさまざまな処理エンティティー及び互いに通信するさまざまな処理モジュール全体にわたり細分されうると理解される。たとえば、サーバーは、コンピューターネットワークを介して1つ以上のクエリー分子を受け取って、好適な結合親和性又は候補エピトープセットを戻しうる。クエリーは、コンピューターネットワーク又はグラフィックユーザーインターフェースへの入力から電子的で受け取られうる。
【0138】
結合親和性を予測して結合親和性に基づいて候補ペプチドを同定する技術は、カスタム化ワクチン開発のために広範なエコシステムにインテグレートされうる。ワクチン開発エコシステム例は、当技術分野で周知であり、状況が高レベルで記載されているが、簡潔さを期して、我々はエコシステムについて詳細に記載しない。
【0139】
エコシステム例では、第1のサンプル工程は、腫瘍生検物及び対応する健全組織対照からDNAを単離することでありうる。第2のシーケンス工程では、データがシーケンスされ、変異体すなわち突然変異が同定される。免疫プロファイラー工程では、関連付けられた突然変異ペプチドが≪in silico≫で生成されうる。
【0140】
関連付けられた突然変異ペプチド及び本明細書に記載の技術を用いて、新生抗原が予測され、選択され、そしてワクチン設計のために標的エピトープが同定される。すなわち、本明細書に記載の技術を用いて決定されたその予測された結合親和性に基づいて、候補ペプチド配列が選ばれる。
【0141】
次いで、以上に記載の従来の技術を用いて、標的エピトープが合成的に生成される。投与前に、ペプチド溶液は、通常、アジュバントと混合され、その後、患者に投与される(ワクチン接種)。
【0142】
本明細書に記載の方法により予測された好適な標的エピトープは、ペプチドベースワクチン以外の他のタイプのワクチンを生成するためにも使用されうる。たとえば、ペプチド標的は、対応するDNA又はRNA配列中にコード化され、直接的にネイキッドDNA/RNAを用いるか又は代替的にマイクロ粒子、ナノ粒子、細菌送達系などの送達媒体を用いるかのどちらかで、患者にワクチン接種するために使用可能である。DNAは、通常、プラスミド構築物に挿入されることに留意されたい。代替的に、DNAは、細菌又はウイルス送達システムのゲノムに組込み可能であり(ウイルス送達システムに依存して、同様にRNAも可能である)、これは、患者にワクチン接種するために使用可能であり、したがって、作製されたワクチンは、免疫化後に患者において、すなわちインビボで標的を生成する遺伝子工学操作ウイルス又は細菌である。
【0143】
好適なサーバー610の例は、
図7に示される。この例では、サーバーは、少なくとも1つのマイクロプロセッサー700、メモリー701、任意の入出力デバイス702、たとえばキーボード、及び/又はディスプレイ、並びに外部インターフェース703を含み、示されるようにバス704を介して相互接続される。この例では、外部インターフェース703は、サーバー610を周辺デバイスに、たとえば、通信ネットワーク640、参照データストア620、他の保存デバイスに接続するために利用可能である。単一外部インターフェース703が示されているが、これは単なる例示を目的としており、実用上、各種方法(たとえば、Ethernet、シリアル、USB、ワイヤレスなど)を用いて複数のインターフェースが提供されうる。
【0144】
使用時、マイクロプロセッサー700は、メモリー701に保存されたアプリケーションソフトウェアの形態の命令を実行することにより、入力データを受け取って処理するために参照データストア620及び/又はクエリー結合剤分子及びクエリー標的分子の配列データを受け取るためにクライアントデバイスと通信したり、以上に記載の方法に従って結合親和性予測を行ったりすることを含めて、所要のプロセスの実施を可能にする。アプリケーションソフトウェアは、1つ以上のソフトウェアモジュールを含みうるとともに、オペレーティングシステム環境などの好適な実行環境で実行されうる。
【0145】
それゆえ、サーバー700は、好適にプログラムされたクライアントデバイス、PC、ウェブサーバー、ネットワークサーバーなどのいずれかの好適な処理システムから形成されうることが、分かるであろう。特定の一例で、サーバー610は、非揮発(たとえばハードディスク)ストレッジ(ただし、これは必須ではない)に保存されたソフトウェアアプリケーションを実行するインテルアーキテクチャーベースの処理システムなどの標準的処理システムである。しかしながら、処理システムは、いずれかの電子処理デバイス、たとえば、マイクロプロセッサー、マイクロチッププロセッサー、論理ゲート構成体、任意にFPGA(フィールドプログラマブルゲートアレイ)などのロジックの実装に関連するファームウェア、又はいずれかの他の電子デバイス、システム、又はアレンジメントでありうることもまた、理解されよう。それゆえ、サーバーという用語が用いられているが、これは単に例示を目的としたものにすぎず、限定を意図するものでない。
【0146】
サーバー610は単一エンティティーとして示されているが、サーバー610は、たとえば、クラウドベースの環境の一部として提供される処理システム及び/又はデータベースを用いることにより、いくつかの地理的に離れた場所にわたり分散可能であることは、分かるであろう。そのため、以上に記載の配置は必須ではなく、他の好適な構成を使用すること可能である。
【実施例】
【0147】
材料及び方法
トレーニングセットの形成
下記のセットは、実用上、本発明の有用性を実証するこの例から得られる結果のセットと合わせた本発明の態様の実装の詳細な例である。
【0148】
(Kim, et al., 2014)に記載のデータセットBD2009及びBD2013は、免疫エピトープデータベース及び分析リソース(Immune Epitope Database and Analysis Resource)(IEDB)ウェブサイト(http://tools.iedb.org/main/datasets/、2016年8月にアクセス)からダウンロードされた。これらのデータセットは、これ以降ではIEDB2009及びIEDB2013という。IEDB2009及び2013データの1/2~1パーセントのリピート可能な一様擬似ランダムのサブセットは、難読化(弱く暗号化)され、将来的な使用のために確保された。データセットは、MHCクラスI対立遺伝子名、ヒト又は動物種名、ペプチド配列、ペプチド長さ、対立遺伝子とペプチド分子との測定結合親和性(nM単位のIC50値として表される)、及びIC50に関する不等式(検閲)情報の例を含む。そのほか、データセットは、cv_rnd、cv_sr、及びcv_gsと称される3つの異なるタイプの5分割交差検証パーティション(分割)を特定する。(Kim, et al., Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions, 2014)の結果に基づいて、cv_rnd分割は後続の実験のために採用された。
【0149】
ヒトMHCのDNA配列のIPD-IMGT/HLAデータベースのリリース3.25.0は、Anthony Nolan HLA Informatics Group’s GitHubリポジトリー(https://github.com/ANHIG/IMGTHLA/、2016年8月にアクセス)から拡張mark-upフォーマット(XML)でダウンロードされた。XMLファイルは、ヒトMHC対立遺伝子名から、それらのドメインをコード化するDNA配列から翻訳されたMHCクラスI対立遺伝子のα1及びα2ドメインの品質管理アミノ酸配列へ、のマッピングを表すように形成された構文解析中間データ構造であった。類似のデータ構造は、IEDB2009及び2013データセットに存在する動物種(チンパンジー、ゴリラ、ウマ、マカク、及びマウス)のMHC対立遺伝子名称から、それらの対立遺伝子のα1及びα2のドメインの品質管理アミノ酸配列へ、のマッピングを表すために構築された。動物アミノ酸配列は、2016年の下半期にアクセスして、Research Collaboratory for Structural Bioinformatics Protein Data Bank(RCSB PDB、http://www.rcsb.org/pdb/home/home.do)を含むソースから得られた。
【0150】
IEDB2009及び2013データセットは、IEDB2009及び2013データセット中のデータに加えて、各ペプチドに対するMHCクラスI対立遺伝子分子のα1及びα2ドメインの配列も含むであるデータセットを形成するように、MHCクラスIアミノ酸配列データと組み合わされた。9アミノ酸(ノナマー)で構成されたペプチドは、ペプチドに結合するMHC分子の結合溝がノナマーに優先的に結合するように構造化されるので、MHCクラスIが関与する用途で対象となる。他の長さのペプチドに対応する組み合わせデータセット中のエントリーは除去され、ノナマーのみに対するエントリーを残した。
【0151】
(Nielsen, et al., 2007)により公開されたデータを用いて、ノナマーペプチド並びにα1及びα2ドメインアミノ酸配列へのコンタクトポイント指標の62ペアを記述するデータ構造を形成した。62ペア形成の各々は、結合しうるMHCクラスI分子のα1及びα2ドメインの182アミノ酸の1つから4Å以内にあると考えられるノナマー中のアミノ酸を表すので、その2つのアミノ酸は、相互作用してMHC分子へのペプチドの結合に影響を及ぼしうる。DNAによりコード化される20標準アミノ酸と未知アミノ酸を表すX記号とを含む21記号のアミノ酸アルファベットが使用された。62コンタクトポイントのアミノ酸ペアは、ワンホットコード化及び圧縮疎行保存を用いて疎バイナリー設計行列としてコード化された。計算の便宜上、打ち切り情報は、インジケーター値のベクトルとして表され、i番目のインジケーター値は、i番目の結合親和性の打ち切り情報を特定し、左打ち切りを-1としてコード化し、無打ち切りを0としてコード化し、そして右打ち切りを1としてコード化した。したがって、セットLは、ベクトルが値-1を有するすべての指標からなり、セットRは、ベクトルが値1を有するすべての指標からなり、セットUは、ベクトルが値0を有するすべての指標からなる。続く実験の各々では、結合親和性値は、ベクトルとして表され、以上に記載のようにリンク関数を用いて変換された。対応する逆リンク関数を用いてIC50スケールに戻す予測された結合親和性の変換は、とくに明記されていない限り黙示的である。減少するリンク関数(IC50に対して)が使用された場合、打ち切り方向は逆転された。
【0152】
これらの工程の結果は、各々が、コード化されたヌクレオチド又はアミノ酸配列のペアの多数の例と、それらの対応する結合親和性値と、対応する検閲情報と、を含むトレーニングセットを形成するのに、及び検証目的に使用される対応する試験セットを形成するのに好適なデータセットである。下記のトレーニングセット及び試験セットが形成された。
i)IEDB2009データに対応するトレーニングセット及びIEDB2013データに対応する試験セット、
ii)cv_rnd分割により定義された5分割の各々に対して、分割に対応するものを除くすべての例を含むトレーニングセットと、分割に対応するすべての例を含む試験セットと、を含む5分割交差検証トレーニングセット及び試験セット、及び
iii)各抜かれた対立遺伝子に対応する例を除くIEDB2009及び2013データに対応するすべてのデータを含む1対立遺伝子抜きトレーニングセット、及び抜かれた対立遺伝子のデータを含む対応する試験セット。
いずれの場合も、トレーニングセット及び試験セットは、トレーニングされたデータを用いてモデルを評価できないように、互いに交わらない。
【0153】
IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
提案された方法がMHCクラスIとノナマーとペアのde novoペアに関する結合親和性及び結合をどの程度良好に予測しうるかを評価するために、統計モデルを本発明の第2及び第3の態様に従って以上に記載のIEDB2009データ(i)に対するトレーニングセットに当てはめた。x及びβの分割がノナマーペプチドとMHCクラスI分子のα1及びα2ドメインとの62コンタクトポイントペアに対応するように、平均結合親和性関数
【数14】
を構築した。正規分布を用いてlog尤度関数をモデル化した。リンク関数y=1-log
bIC
50及びL-BFGSを用いるMAP馬蹄推定を使用した。したがって、得られたモデルは、ノナマーとMHCクラスI分子との結合親和性の汎対立遺伝子モデルであった。
【0154】
上記のIEDB2013データ(i)に対して試験セットの各ノナマー-MHCクラスI分子ペアの結合親和性を予測した。対数スケールの測定及び予測IC50値間の散布プロットを用いて及びそれらの間のピアソン相関係数を計算することにより、結合親和性予測の品質を評価した。受診者動作特性(ROC)曲線をプロットすることにより及びROC曲線下面積(AUC)を計算することにより、結合予測の品質を評価し、真の結合剤は、500nM未満の測定IC50値を有するものとして定義された。
【0155】
5分割交差検証
予測品質の要約統計に及ぼすサンプリング誤差の影響を推定するために、上記のcv_rnd分割(ii)のデータセットを用いて、5分割交差検証を実施した。
【0156】
本発明の第2及び第3の態様に従って、統計モデルを各残った分割に当てはめた。平均結合親和性関数、log尤度関数、リンク関数、及び推定アルゴリズムは、前の実験の通りであった。
【0157】
各抜かれた分割中の各ノナマー-MHCクラスI分子ペアに関して結合親和性を予測した。各抜かれた分割に対して、対数スケールの測定及び予測IC50値間の散布プロットを用いて及びそれらの間のピアソン相関係数を計算することにより、結合親和性予測の品質を評価した。各抜かれた分割に対して、受診者動作特性(ROC)曲線をプロットすることにより及びROC曲線下面積(AUC)を計算することにより、結合予測の品質を評価した。真の結合剤は、500nM未満の測定IC50値を有するものとして定義された。相関係数及びAUC値に及ぼすサンプリング誤差の影響は、t分布を用いて平均及び95%信頼区間によりまとめられた。
【0158】
1対立遺伝子抜き交差検証
本方法の能力を推定してトレーニングデータ中に存在しない対立遺伝子に関する結合親和性を予測するように一般化するために、上記のデータセット(iii)を用いて1対立遺伝子抜き交差検証を実施した。
【0159】
本発明の第2及び第3の態様に従って、統計モデルを各残った分割に当てはめた。平均結合親和性関数、log尤度関数、リンク関数、及び推定アルゴリズムは、前の実験の通りであった。
【0160】
各抜かれた分割中の各ノナマー-MHCクラスI分子ペアに関して結合親和性を予測した。各抜かれた分割に対して、対数スケールの測定及び予測IC50値間のピアソン相関係数を計算することにより、一般化を評価した。ROC曲線下面積(AUC)を計算することにより、結合予測品質を評価した。真の結合剤は、500nM未満の測定IC50値を有するものとして定義された。20未満のIC50測定を有する抜かれた分割の結果は、相関係数及びAUC値の推定値がかかる場合には信頼性がないおそれがあるので、廃棄した。モデルに使用される(ヒト)コンタクトポイントがこのモデルでヒトから動物の対立遺伝子への一般化を可能にするかを試験するために、平均及び95%信頼区間により、各種に対して対立遺伝子別に相関係数及びAUC値をまとめた。
【0161】
モデルの解釈
本発明の第2及び第3の態様に従って、統計モデルをIEDB2009及び2013データの全体に当てはめた。平均結合親和性関数、log尤度関数、リンク関数、及び推定アルゴリズムは、前の実験の通りであった。本発明の第4の態様に従って、ヒートマップのアレイを生成してβの推定値を可視化した。アレイの各ヒートマップが(Nielsen, et al., 2007)で定義されたコンタクトポイントの1つに対応するように、アレイを構築した。ヒートマップの行はペプチドアミノ酸に対応し、その列はMHC分子アミノ酸に対応し、そして各要素の色相は、対応するコンタクトポイントで推定された結合親和性寄与に対応した。
【0162】
結合確率の推定
実装例では、データセット(i)(IEDB2013データ)に対する試験セットの各ノナマー-MHCクラスI分子ペアに関する結合親和性予測について、結合確率を推定した。予測η2の変動を推定するために、σ2と共にβの各成分の変動の推定値を使用した。予測及び変動によりパラメーター化された正規分布を用いて、測定IC50が500nM未満である確率を推定した。これらの確率を予測されたIC50の関数としてプロットした。
【0163】
結果
IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
図8は、本実験の散布プロット及びROCプロットを示す。表1は、本実験のピアソン相関係数及びROC曲線下面積(AUC)を示す。
【0164】
5分割交差検証
表2は、本実験の結果を示す。平均ピアソン相関係数は、0.782(95%信頼区間[0.777,0.787])であった。平均AUCは、0.933(95%信頼区間[0.930,0.936])であった。
図9は、散布プロット及びROCプロットを示す。
【0165】
1対立遺伝子抜き交差検証
表3は、本実験の結果を示す。
【0166】
モデルの解釈
図10Aは、推定パラメーター値を提示するヒートマップのアレイを示す。
図10Bは、明確さを期してアレイのサブセットを示す。
【0167】
結合確率の推定
図11は、予測された結合親和性(「y_hat」)の関数として推定された結合予測(「p_bind」)のプロットを示す。量の周辺ヒストグラムも示される。
図11aは、推定された結合確率[0.312,0.558]が予測された結合親和性の範囲[0,250,000]nMにわたり位置することを示す。250,000nMの近くの予測された結合親和性の結合確率の突然の減少は、リンク関数におけるクリッピングに基づく。
図11bは、予測された結合親和性の範囲[0,500]nMの同一データを示す。
【0168】
IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
図12は、
図8に類似の画像を示し、9-merの代わりにk-merについてMHCクラスI予測の評価を示す。
【0169】
考察
IEDB2009データに対するトレーニング及びIEDB2013データに対する試験
EIDB2009データに対するトレーニング及びIEDB2013データに対する試験は、ピアソン相関係数及び受診者動作特性(ROC)曲線下面積(AUC)のポイント推定値の計算を促進し、それぞれ、モデルがトレーニングされなかったde novo例を用いて、測定IC50と予測IC50との一致及び「真の」結合剤と予測結合との一致を特徴付ける。0.801のピアソン相関係数は、測定及び予測のIC50値が完全ではないが強く相関することを示す。
【0170】
結合親和性予測器は、「結合剤」又は「非結合剤」のラベルを結合親和性閾値に基づく予測に割り当てることにより、結合予測器(すなわち分類器)として使用されうる。MHCクラスIペプチド結合問題では、多くの場合、500nMの閾値が使用されるが、偽陽性及び偽陰性の誤差のリスクのバランスを調整するように任意の閾値が選ばれうる。0.936のAUC値は、期待値が結合親和性閾値の一様分布に対してとられる場合、モデルがランダム選択非結合ペアよりもランダム選択結合ペプチド-MHCペアに低い予測結合親和性を割り当てる予想確率の推定値として解釈されうる。実際には、本方法に基づいた結合予測器は、通常、単一のあらかじめ特定された閾値を用いて操作されるであろうから、AUC統計は、有用であるが、いくらか人工的である。ROC曲線はそれ自体、合理的閾値選択を促進する。ROC曲線は、たとえば、0.2の偽陽性率が許容されうる場合、おおよそ0.9の真陽性率で結合予測器が操作されうるように、結合親和性閾値を選びうることを示す。
【0171】
5分割交差検証
予測品質の要約統計に及ぼすサンプリング誤差の影響は、IEDBデータのcv_rnd分割を用いて5分割交差検証により推定された。平均ピアソン相関係数は、95%信頼区間[0.777,0.787]で0.782であると推定された。平均AUCは、95%信頼区間[0.930,0.936]で0.933であると推定された。これらの値は、前の実験のIEDB2013データに対するポイント推定値と一致している。5分割のROC曲線の形状は、互いに非常に類似しているとともに、0.2の偽陽性率が許容される場合、おおよそ0.9の真陽性率で操作可能であることと一致する。
【0172】
1対立遺伝子抜き交差検証
本方法の能力を推定するために、トレーニングデータに存在しない対立遺伝子に一般化するように1対立遺伝子抜き交差検証を実施した。モデルは、多くのヒト対立遺伝子に一般化する能力を実証した。十分に特徴付けられたヒト対立遺伝子HLA-A02-01への一般化は、優れており(0.830の相関係数及び0.950のAUC)、対立遺伝子HLA-A02-199及びHLA-A02-509ではさらには良好であった(たとえば0.973~0.981のAUC値)。しかしながら、HLA-A-01-01、HLA-B-27-03、HLA-B-27-05、HLA-B-46-01などのいくつかのヒト対立遺伝子への一般化は、不十分であった(それぞれ、0.594、0.5、及び0.542のAUC値)。
【0173】
モデルは、動物対立遺伝子でもヒト対立遺伝子よりも一般化されなかった。平均で、ピアソン相関係数及びAUCは、H-2-Ldを除いてすべてのマウス対立遺伝子でランダム性能に統計的に等しかった。平均で、ヒト対立遺伝子への一般化は、すべての他の動物種よりも統計的に有意であった(多重比較補正せず)。モデルに使用されたコンタクトポイントが、動物対立遺伝子とは異なることが知られるヒト対立遺伝子で決定されたことを考慮すると、これは驚くべきことではない。その差は、進化的に互いにより異なる種では、より大きくなると予想されよう。たとえば、マウス対立遺伝子は、「アンカーポイント」(結合親和性の予測にとくに重要であることが見いだされている特定のペプチド配列位置)に関してヒト対立遺伝子と異なることが知られている。アンカーポイントモデルは、本発明により仮定されたコンタクトポイントモデルを単純化したものとみなしうる。一般化は、試験種では、ヒト(0.830の平均AUC)からチンパンジー(0.643の平均AUC)へ、マカク(0.640の平均AUC)へ、マウス(0.575の平均AUC)への進化距離の関数として劣化する。ヒト対立遺伝子と比較して動物対立遺伝子への一般化が劣っていることは、コンタクトポイントでの結合寄与をモデル化することが機構的に真実味があることを示す証拠である。
【0174】
モデルの解釈
推定モデルパラメーターの提示は、当業者が当てはめモデルを解釈するのに役立ちうる。
図10A及びBは、IC
50に対して減少するリンク関数を使用したモデルのパラメーター推定値を示す。大きさの大きい正の推定値は、IC
50の小さな値(すなわちより強い結合剤)に関連付けられるペプチド及びMHCアミノ酸のペア形成に対応し、大きさの大きい負の推定値は、IC
50の大きな値(すなわちより弱い結合剤)に関連付けられる。図はまた、馬蹄推定を用いて得られたβの推定値が数値的にきわめて疎であるが(すなわち、パラメーターの多くの値がゼロに近い)、きわめて大きい大きさを有するものもあることを例示する。
【0175】
かかる提示を用いて、当業者であれば、優先的には結合に関与することが期待されるアミノ酸のペア形成を推測することが可能である。次いで、かかる推測に基づく仮説をin silico、in vitro、又はin vivo試験しうる。
【0176】
また、当業者であれば、法律による必要に応じて、ペプチド及びMHCのペアの配列が与えられたとして、結合親和性の予測に介入しうる。各コンタクトポイントに対応するアミノ酸ペアを同定しうるとともに、各ペアに対して、対応するヒートマップからの結合親和性寄与を読み取りうる。次いで、これらの値の和及び切片項の推定値を適切な逆リンク関数を介してIC50スケールに変換し、結合親和性予測を提供しうる。自動予測が適正に計算されたことを検証可能であり、代替シナリオで、たとえば、ペプチド配列を改変した場合に結合親和性がどのように変化するかを調べるために、実験を行いうる。
【0177】
結合確率の推定
予測される強い結合剤は、55%を少し超える関連結合確率を有するが、それにもかかわらず、予測の不確実性の推定値を得る能力は有用である。なぜなら、予測の下流のコンシューマーが、そうした予測に基づいて合理的に行動しうるようになるからである。
【0178】
結論
生物学的分子ペア間の結合の新規な機構的に真実味のあるモデルを開発した。これにより、結合及び結合親和性の高品質予測が可能になり、人的解釈及び介入が促進され、予測の下流のコンシューマーがそうした予測に基づいて合理的に行動できるように、それらの予測に関する不確実性の推定が提供される。
【0179】
以前に提案された技術では、ペプチド及びMHCアミノ酸の特異的ペア形成は考慮されない。それを行ったとしても、公知の技術では、計算費用がかさむであろう。ニューラルネットワークを正確にトレーニングするために、公知の技術では、各ペプチド-MHC複合体を偽配列としてコード化する。すなわち、ペプチドアミノ酸配列及びペプチドに接触すると考えられるMHCアミノ酸配列のコード化を行う。
【0180】
本発明の概念は、各特異的コンタクトポイントペアを考慮して結合親和性とこれらのペアの結合寄与の和とを同一視する原理に基づく。
【0181】
これをコード化するために、各組み合わせはユニーク記号(212の記号)と等価である。ペアは、ペア中に存在する特異的アミノ酸を表す単一非疎要素を有する疎行列を用いてコード化される。各ペアがどのように結合親和性に寄与するかを算出するために及びトレーニングデータを作成するために、結合親和性をベクトルに変換し、(ベクトルのドット積を用いて)平均結合親和性からの偏差を決定する。
【0182】
既知のベイジアン推定器機械学習技術(確率分布関数など)を用いて、新しいコンタクトポイントペアセットに対して平均からの偏差を推定し、次いで、それに応じて最も確からしい結合親和性を決定する。
【0183】
使用するための候補ペプチドは、一連の候補ペプチドに対して最も確からしい結合親和性から選ぶことが可能である。
【0184】
次に、各例が本開示のある特定の態様を記述する一連の例を説明する。
【0185】
第1の例によれば、コード化されたヌクレオチド配列ペア又はアミノ酸配列ペアの多数の例、それらの対応する結合親和性値、及び対応する打ち切り情報を含むトレーニングセットを形成する方法が提供されうる。この場合、ヌクレオチドペア又はアミノ酸ペアは、1つ以上のエンコーダーによりコード化され、且つ各例中のコード化されたヌクレオチドペア又はアミノ酸ペアの数及びそれらの解釈は、トレーニングセット全体にわたり不変であり、且つ対応する結合親和性値及び打ち切り情報は、アッセイから生成されるか、又は結合を推測可能なアッセイの結果に基づいて推定され、且つ各結合親和性に対して、打ち切り情報は、測定結合親和性値が、特定の結合親和性未満(<)、又は特定の結合親和性以下(≦)、又は特定の結合親和性に等しい(=)、又は特定の結合親和性以上(≧)、又は特定の結合親和性超(>)と予想されるかを特定する。
【0186】
この例によれば、コード化されたヌクレオチドペア又はアミノ酸ペア、それらの対応する結合親和性値、及び対応する打ち切り情報は、統計モデルに対するトレーニングデータとして提供されうる。とくに優先的例では、各コード化されたヌクレオチドペア又はアミノ酸ペアは、2つの分子間の多数のコンタクトポイントの1つでのヌクレオチドペア又はアミノ酸ペアを表し、ペアの第1の要素は、第1のタイプの分子に由来し、ペアの第2の要素は、第2のタイプの分子に由来する。コンタクトポイントは、結合分子ペアの構造に関する研究を起源としうるか又は統計モデル若しくは機械学習モデルを用いて推測されうる。
【0187】
コード化されたヌクレオチドペア又はアミノ酸ペアは、設計行列として表されうる。設計行列の各行は、結合しうる生物学的分子ペアに対するコード化されたヌクレオチドペア又はアミノ酸ペアを含む一例を表しうる。設計行列は、行の各分割がその行により表される例に対する特定のヌクレオチドペア又はアミノ酸ペア(たとえば、その行により表される)を表すように、列単位で分割されうる。所与の行の分割は、対応する第1の分子に由来する特定のヌクレオチド又はアミノ酸と、対応する第2の分子に由来する特定のヌクレオチド又はアミノ酸と、のペア形成をユニーク又は非ユニークに記述する特徴ベクトルとして、ヌクレオチドペア又はアミノ酸ペアをコード化しうる。
【0188】
優先的コード化は、指標がペアに存在する特定のヌクレオチド又はアミノ酸を表す単一要素を除いてベクトルのすべての要素がゼロであるバイナリーベクトルとしてペア形成をユニークに記載する(かかるコード化は、多くの場合、「ワンホット」又は「ダミー」コード化と呼ばれる)。アミノ酸ペアのさらにより優先的コード化では、20アミノ酸のアルファベット(アラニン[A]、アルギニン[R]、…バリン[V])を用いて、ペアの各々の一方又は両方のアミノ酸のアイデンティティーが未知でありうる場合(通常はXとしてコード化)、アミノ酸ペアは、(20+1)×(20+1)=21×21=441次元バイナリーベクトルとしてコード化されうる。
【0189】
バイナリーコード化が使用される優先的場合では、設計行列は疎であろう。本方法の空間及び時間の複雑性を改善するために、設計行列は、圧縮疎行(CSR)保存データ構造(圧縮行保存[CRS]としても知られる)などの疎データ構造で保存されうる。
【0190】
結合親和性値は、ベクトルのi番目の要素が設計行列のi番目の行により表される例に関する結合親和性を与えるベクトルとして表されうる。打ち切り情報は、L、R、及びUのセットとして表されうるとともに、それらの要素は、それぞれ、左打ち切り、右打ち切り、及び無打ち切りの結合親和性の結合親和性ベクトルへの指標を表す。
【0191】
結合親和性値は、リンク関数を用いて変換されうる。好ましい実施形態では、リンク関数は、y=1-logbIC50である(Nielsen M. L., 2003)。対数の底bは、優先的には250,000nMである。他の好ましい実施形態では、リンク関数は、y=lnIC50であり、式中、lnは自然対数である。さらに他の好ましい例では、リンク関数は、恒等関数y=IC50である。
【0192】
逆リンク関数は、変換された結合親和性に対応する結合親和性を計算するように定義されうる。たとえば、リンク関数がy=1-logbIC50である場合、逆リンク関数はIC50=b1-yである。リンク関数がy=lnIC50である場合、逆リンク関数はIC50=eyであり、式中、eはオイラー数であり、且つリンク関数が恒等関数である場合、逆リンク関数も恒等関数である。リンク関数及び逆リンク関数は、変換された結合親和性が区間[0,1]に拘束されるとともに結合親和性が0を超えて拘束されるようにクランプされうる。
【0193】
クリティカルなこととして、リンク関数がIC50に対して減少する場合(y=1-logbIC50の場合のように)、各打ち切り方向は逆転させなければならない。なぜなら、たとえば、IC50<1000nMは、y>1-logb1000nMを意味するからである。打ち切り情報は、L及びRのセットの指標の切替えにより逆転されうる。下記では、使用される特定のリンク関数(つまりIC50が表現されるスケール)及び打ち切り方向の逆転は、とくに明記されていない限り、黙示的である。
【0194】
さらなる例では、コード化されたヌクレオチドペア又はアミノ酸ペアがどのように結合親和性に寄与するかをモデル化する平均結合親和性関数が提供されうる。この関数は、統計分布をパラメーター化するために、de novo分子ペアに関する結合親和性を予測するために、及びde novo分子ペアが結合する確率の評価に、他の情報と共に統計モデルで使用される。
【0195】
平均結合関数は、「総平均」結合親和性と、各コード化されたヌクレオチドペア又はアミノ酸ペアに対して、コード化されたヌクレオチドペア又はアミノ酸ペアに関連付けられた総平均結合親和性からの偏差の大きさ及び方向をモデル化する係数と、によりパラメーター化されうる。
【0196】
平均結合親和性関数は、たとえば、
【数15】
でありうる。式中、
【数16】
は総平均結合親和性であり、x
Tは、結合が対象となる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアの行ベクトル(すなわち、設計行列の行)であり、Tは転置演算子であり、βは係数の列ベクトルであり、且つx
Tβはx
Tとβのドット積である。
【0197】
ベクトルβは、xTの等価分割に対してヌクレオチド又はアミノ酸の各可能なペア形成に関する結合親和性への追加の寄与の大きさ及び方向を所与の分割がモデル化するように、設計行列(つまりxT)の列の分割と同様にして分割されうる。とくに優先的実施形態では、xT及びβの分割は、第1のタイプの分子と第2のタイプの分子とのコンタクトポイントに対応する。
【0198】
さらなる例では、トレーニングデータにモデルを当てはめることにより、β及び他のパラメーターθを推定する方法が提供されうる。β及び他のパラメーターθは、階層的ベイジアン推定により推定されうる。
【0199】
高次元モデルの階層的ベイジアン推定は、β及び他のパラメーターの最大事後(MAP)ポイント推定値を計算するために、限定メモリーブロイデン・フレッチャー・ゴールドファーブ・シャンノ(L-BFGS)(Byrd, Hansen, Nocedal, & Singer, 2016)や確率的勾配上昇(Robbins & Monro, 1951)などの最適化法を用いて実施されうる。代替的に、β、θの同時事後分布からの近似サンプルは、自動微分変分推論(ADVI)(Kucukelbir, Tran, Ranganath, Gelman, & Blei, 2017)又はマルコフ連鎖モンテカルロ(MCMC)法たとえばノーUターン(NUTS)サンプラー(Hoffman & Gelman, 2014)を用いて取り出されうる。
【0200】
これらの方法の各々は、トレーニングデータ及びβ、θの提案された値が与えられたとして、事後尤度値又はlog尤度値(任意に定数項を除く)を計算する能力を必要とする。設計行列X、結合親和性y、及び検閲情報L、R、Uが与えられたとして、パラメーターβ、θの事後log尤度は、
logf(β,θ|X,y,L,R,U)=logf(y|X,L,R,U,β,θ)+logf(β,θ)-logf(X,y,L,R,U)
としてモデル化されうる。式中、f(y|X,L,R,U,β,θ)は、尤度関数(X、L、R、U、β、θを条件とするyの確率質量又は確率密度)であり、f(β,θ)は、β、θの事前確率質量又は密度関数であり、且つf(X,y,L,R,U)は、X、y、L、R、Uの確率質量又は密度である。所与のトレーニングセットに対してX、y、L、R、Uは一定であるので、logf(X,y,L,R,U)項は、logf(β,θ|X,y,L,R,U)が定数付加項まで計算されうるように削除されうる。
【0201】
トレーニングセット中の結合親和性値が打ち切りされる場合(すなわち、結合親和性の上限又は下限のみが知られる場合)、打ち切り結合親和性に対応する尤度は、打ち切りにより許可された可能な結合親和性値にわたりその関連統計分布を積分することにより計算されうる。こうして、結合予測器は、結合親和性がある特定の値を下回る若しくは上回ることが知られている又はそのように推定される例を含有しうるトレーニングデータを用いてトレーニングされうる。
【0202】
したがって、log尤度関数logf(y|X,L,R,U,β,θ)は、
【数17】
としてモデル化されうる。式中、y
iは、i番目の結合親和性であり、
【数18】
は、設計行列Xのi番目の行であり、θ
iは、確率質量又は密度関数f及びその対応する累積確率質量又は密度関数Fのi番目のトレーニング例のパラメーターである。
【0203】
fは、正規分布の密度関数であり、且つリンク関数は、y=1-logbIC50であるか、又はfは、ポアソン分布の確率質量関数であり、且つリンク関数は、y=lnIC50であるか、又はfは、負の二項分布の確率質量関数であり、且つリンク関数は、y=lnIC50である。
【0204】
すべてのi(Xの行及びyの要素の指標)に対する
【数19】
の計算は、行列ベクトル積Xβを介して実施されうるとともに、積は、疎線形代数ルーチンを用いて効率的に計算されうる。
【0205】
事後log尤度は、パラメーター
【数20】
、β、及びθの不確実性をモデル化する事前分布の階層により特定されうる。
【0206】
そのほか、出力媒体を用いてモデルパラメーターの推定を提示することにより、当てはめられたモデルを解釈したりかかるモデルの使用に介入したりする方法が提供されうる。提案された解決策の実施形態例によれば、β又はθの推定値は、コンピュータースクリーンなどの出力媒体上にヒートマップのアレイとして提示されうる。かかる提示は、モデルの当てはめに使用されたコンタクトポイント指標及び推定された総平均結合親和性が与えられたとして、既知の配列の分子ペアに関する結合親和性の予測などの介入タスクを適切な資格者が実施することを可能にしうる。
【0207】
さらに、平均結合親和性関数及びモデルの同時事後パラメーターの推定値を用いて、de novo分子ペアに関する結合親和性を予測する方法が提供されうる。トレーニングデータと同様に設計行列を形成することにより、de novo分子ペアに関する結合親和性を予測することが可能である。測定又は推定された結合親和性値及び検閲情報は、de novo予測に必要とされない。モデルの同時事後パラメーターの推定値は、最大事後(MAP)ポイント推定値、統計モデルのパラメーターの同時事後分布からのサンプル、又はかかるサンプルから計算される要約統計でありうる。好ましい実施形態として、要約統計は、同時事後分布からのサンプルの平均である。推定パラメーターβが与えられたとして、設計行列Xにより表される分子に関する結合親和性は、平均結合親和性関数
【数21】
を用いて計算されうる。
【0208】
また、分子ペアが結合する確率の推定値を計算することにより、各de novo分子ペアに関する予測された結合親和性の不確実性を定量する方法も提供されうる。一実施形態では、これは、多数の結合親和性予測をまとめることにより推定されうる。この場合、各予測は、モデルのパラメーターの同時事後分布のサンプルから取り出された統計モデルのパラメーターの推定値を用いて行われうる。要約は、特定の値未満である予測など、基準を満たす多数の予測の割合でありうる。他の実施形態では、βの不確実性をモデル化するパラメーターの推定値に基づいて、正規近似を使用しうる。
【0209】
ペプチド-MHC結合は、適応免疫系の研究の中心である。in vitro結合親和性(IC50)アッセイは、大規模エピトープ予測用途(たとえば、個別化新生抗原ワクチン)にスケーリングできないので、正確なin silicoアプローチが動機付けられる。先導的機械学習法は、良好な予測を行うが、典型的には機構的解釈が欠如し、予測不確実性推定値を提供しない。本発明者らは、ペプチド-MHCコンタクトポイントのアミノ酸ペアの関数としてIC50が予測されるMHCクラスI及びIIをカバーする機構的汎対立遺伝子モデルを開発した。IC50値のおおよそ40%は、一般公開結合データセットで打ち切りされうる。本発明者らは、打ち切り値を測定として処理して、ピアソン相関係数(PCC)などの共通予測品質メトリックでバイアスを試験したところ、この実施では、PCCを12%(シミュレーション)及び18%(クラスIデータでの実験)を過大評価する可能性があることが判明した。打ち切りデータを除外してモデルのメトリックからかかるバイアスを除去すると、PCC及び受診者動作特性曲線下面積(AUC)の交差検証推定値は、0.658±0.01及び0.834±0.007(ノナマー、クラスI)、0.668±0.009及び0.844±0.005(k-mer、クラスI)、及び0.571±0.02及び0.779±0.01(クラスII)であった。打ち切りデータを含めると、PCC及びAUCは、0.761±0.009及び0.923±0.005(ノナマー、クラスI)、0.755±0.006及び0.915±0.004(k-mer、クラスI)、また0.598±0.02及び0.793±0.01(クラスII)と推定された。本発明者らは、厳密なデータ盲検化を使用して過適合のなしの帰無仮説を試験したところ、かかる証拠は観測されなかった(P>0.05)。k-merを容認するモデルは、より長いペプチド内のノナマー結合コアを同定することが多い。一般公開X線構造データを使用して、クラスIIモデルは、偶然確率よりも有意に良好に結合コアを同定可能であることが実証された(P=0.039)。最終的に、本発明者らは、ノナマーペプチドとMHCクラスI分子とのコンタクトポイントを推測するようにモデルを拡張した。推測されたコンタクトポイントを用いてトレーニングされたクラスIモデルは、実験的に検証されたコンタクトポイントを用いてトレーニングされたものと、ほとんど同じ性能を示したことから、X線構造データに依拠するためにする必要はないことが実証される。本開示は、現状技術と競合する結合の機構モデルを提示し、打ち切りデータを注意深く処理することの重要性を浮き彫りにし、予測不確実性の推定をどのように合理的ワクチン設計の促進に活用できるかを提案した。
【0210】
記述
下記は、本明細書に記載の実施例の記述であり、特定の利点を提供しうる。
【0211】
1. コード化されたヌクレオチド配列ペア又はアミノ酸配列ペアの多数の例、それらの対応する結合親和性値、及び対応する打ち切り情報を含むトレーニングセットを形成する方法であって、且つヌクレオチドペア又はアミノ酸ペアが、1つ以上のエンコーダーによりコード化され、且つ各例中のコード化されたヌクレオチドペア又はアミノ酸ペアの数及びそれらの解釈が、トレーニングセット全体にわたり不変であり、且つ対応する結合親和性値及び打ち切り情報が、アッセイから生成されるか、又は結合を推測可能なアッセイの結果に基づいて推定され、且つ各結合親和性に対して、測定結合親和性値が、特定の結合親和性未満(<)、又は特定の結合親和性以下(≦)、又は特定の結合親和性に等しい(=)、又は特定の結合親和性以上(≧)、又は特定の結合親和性超の(>)と予想されるかを、打ち切り情報が特定する、方法。
【0212】
2. 各コード化されたヌクレオチドペア又はアミノ酸ペアが、2つの分子間の多数のコンタクトポイントの1つでのヌクレオチドペア又はアミノ酸ペアを表し、ペアの第1の要素が、第1のタイプの分子に由来し、且つペアの第2の要素が、第2のタイプの分子に由来する、記述1に記載の方法。
【0213】
3. コード化されたヌクレオチドペア又はアミノ酸ペアが、設計行列として表され、設計行列の各行が、結合しうる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアを含む1つの例を表す、記述2に記載の方法。
【0214】
4. 設計行列の列単位の分割が、ヌクレオチド又はアミノ酸のペア形成を表し、且つ所与の行の分割が、対応する第1の分子に由来する特定のヌクレオチド又はアミノ酸と、対応する第2の分子に由来する特定のヌクレオチド又はアミノ酸と、のペア形成をユニーク又は非ユニークに記述する特徴ベクトルとして、ヌクレオチドペア又はアミノ酸ペアをコード化しうる、記述2又は3に記載の方法。
【0215】
5. 設計行列が疎データ構造で保存されうる、記述4に記載の方法。
【0216】
6. 平均結合親和性関数を計算する方法であって、コード化されたヌクレオチドペア又はアミノ酸ペアがどのように結合親和性に寄与するかを関数がモデル化し、結合親和性がリンク関数を用いて変換されうるものであり、リンク関数が、優先的には恒等関数、又はより優先的にはy=lnx、又はさらにより優先的にはy=1-logbxでありうるものであり、結合親和性の任意に大きい部分が区間に確実にマッピングされるように、bが十分に大きい定数であり、区間が優先的には[0,1]であり、且つすべての結合親和性が区間に確実にマッピングされるようにリンク関数がクランプされうるものであり、xがnM単位で測定される場合、bが、優先的には100,000nM、又は250,000nM、又は500,000nMである、方法。
【0217】
7. 平均結合関数が総平均結合親和性によりパラメーター化される、記述6に記載の方法。
【0218】
8. コード化されたヌクレオチドペア又はアミノ酸ペアに関連付けられた総平均結合親和性からの偏差の大きさ及び方向をモデル化する係数により平均結合関数がパラメーター化される、記述6に記載の方法。
【0219】
9. 平均結合親和性関数が
【数22】
であり、
【数23】
が総平均結合親和性であり、x
Tが、結合が対象となる生物学的分子ペアのコード化されたヌクレオチドペア又はアミノ酸ペアの行ベクトルであり、
Tが転置演算子であり、βが係数の列ベクトルであり、且つx
Tβがx
Tとβのドット積である、記述6~8のいずれか一つに記載の方法。
【0220】
10. xT及びβの分割が、第1のタイプの分子と第2のタイプの分子とのコンタクトポイントに対応する、記述9に記載の方法。
【0221】
11. モデルをトレーニングデータに当てはめることによりβ及び他のパラメーターθを推定するための、先行する記述のいずれか一項に記載の方法。
【0222】
12. β及び他のパラメーターθを推定するために明示的又は黙示的な正則化が使用される、記述11に記載の方法。
【0223】
13. β及び他のパラメーターθが階層的ベイジアン推定により推定される、記述12に記載の方法。
【0224】
14. β及び他のパラメーターの最大事後(MAP)ポイント推定値を計算するために、限定メモリーブロイデン・フレッチャー・ゴールドファーブ・シャンノ(L-BFGS)や確率的勾配上昇などの最適化法が使用される、記述13に記載の方法。
【0225】
15. β、θの同時事後分布からの近似サンプルが、自動微分変分推論(ADVI)又はマルコフ連鎖モンテカルロ(MCMC)法たとえばノーUターン(NUTS)サンプラーを用いて取り出される、記述13に記載の方法。
【0226】
16. トレーニングデータ及びβ、θの提案された値が与えられたとして、事後尤度値又はlog尤度値(任意に定数項を除く)が計算される、記述13に記載の方法。
【0227】
17. 検閲情報により許可された可能な結合親和性値にわたり1つ以上の統計分布を積分することにより、1つ以上の検閲結合親和性に対応する1つ以上の尤度又はlog尤度が計算されるか、又は積分が累積確率質量若しくは密度関を用いて黙示的に実施される、先行する記述のいずれか一項に記載の方法。
【0228】
18. 結合親和性の測定を可能にする1つ以上のアッセイからのデータが、分子の結合が起こるか起こらないかが知られているか、推測されるか、又は仮定されるデータにより補充される、先行する記述のいずれか一項に記載の方法。
【0229】
19. 分子の結合が起こるか起こらないかが知られているか、推測されるか、又は仮定されることが、1つ以上の特定の値を下回る又は上回る検閲結合親和性に割り当てられる、記述18に記載の方法。
【0230】
20. 分子がノナマーペプチド及びMHC分子である、先行する記述のいずれか一項に記載の方法。
【0231】
21. 検閲結合親和性値が500nM又は1000nMを下回ると仮定される、記述19又は20に記載の方法。
【0232】
22. 検閲結合親和性値が、トレーニングデータで提示されたMHC対立遺伝子に基づいて割り当てられる、記述19又は20に記載の方法。
【0233】
23. log尤度関数が、
【数24】
(式中、y
iは、i番目の結合親和性であり、
【数25】
は、設計行列Xのi番目の行であり、θiは、確率質量又は密度関数f及びその対応する累積確率質量又は密度関数Fのi番目のトレーニング例のパラメーターである)であるか、又は等価尤度関数が使用される、以上の記述のいずれかに記載の方法。
【0234】
24. fが正規分布の密度関数であり、且つリンク関数がy=1-logbIC50である、記述6又は23に記載の方法。
【0235】
25. fがポアソン分布の確率質量関数であり、且つリンク関数がy=lnIC50であるか、記述6又は23に記載の方法。
【0236】
26. fが負の二項分布の確率質量関数であり、且つリンク関数がy=lnIC50である、記述6又は23に記載の方法。
【0237】
27. 変換又は非変換結合親和性のドメインが、記述23に従って使用される統計分布の支援にマッチするように調整される、先行する記述のいずれか一項に記載の方法。
【0238】
28. すべてのiに対する平均結合親和性関数
【数26】
の計算が、行列ベクトル積Xβにより実施される、先行する記述のいずれか一項に記載の方法。
【0239】
29. 行列ベクトル積Xβが疎線形代数ルーチンを用いて計算される、記述28に記載の方法。
【0240】
30. 事後尤度又はlog尤度が事前分布の階層により特定される、記述23に記載の方法。
【0241】
31.
【数27】
の不確実性が、
【数28】
としてモデル化されうるものであり、平均m
1及び標準偏差s
2があらかじめ定義された定数である、記述30に記載の方法。
【0242】
32. 1つ以上の尤度又はlog尤度関数が、平均
【数29】
及び標準偏差σを有する1つ以上の正規分布N(μ
i,σ)を用いてモデル化され、リンク関数がy=1-log
bIC
50であり、階層σ
2~HC(0,s
2)、β
i~N(0,λ
i)、λ
i~HC(0,τ)、及びτ~HC(0,σ)が、β、θを推定するために使用され、θが(σ,λ,τ)であり、HCが半コーシー分布を表し、且つs
2があらかじめ定義された定数である、記述30又は31に記載の方法。
【0243】
33. m1が優先的には1/2であり、s1が優先的には1であり、且つs2が優先的には1である、記述32に記載の方法。
【0244】
34. 1つ以上の尤度又はlog尤度関数が、平均
【数30】
及び変動
【数31】
を有する1つ以上の負の二項分布NB(μi、φ)を用いてモデル化され、過分散パラメーターφの不確実性が不適正一様事前分布[0,∞]としてモデル化され、リンク関数がy=lnIC
50であり、階層β
i~N(0、λ
i)及びλi~HC(0、τ)が、β、θを推定するために使用され、θが(λ、τ)であり、HCが半コーシー分布を表し、τがあらかじめ定義された定数である、記述30又は31に記載の方法。
【0245】
35. m1が優先的には1/2であり、s1が優先的には5であり、且つτが優先的には5/2である、記述34に記載の方法。
【0246】
36. 出力媒体を用いてモデルパラメーターの推定値を提示することにより当てはめモデルを解釈するための、先行する記述のいずれか一項に記載の方法。
【0247】
37. β又はθの1つ以上の推定値が出力媒体を用いて提示される、記述36に記載の方法。
【0248】
38. β及びθの一方又は両方の1つ以上の推定値が1つ以上の図又は表として提示され、好ましい実施形態では図が1つ以上のヒートマップ又はノモグラムでありうる、記述37に記載の方法。
【0249】
39. 前記出力媒体がペーパー又はコンピュータースクリーン又はオーディオデバイスである、記述37に記載の方法。
【0250】
40. 平均結合親和性関数及びモデルの同時事後パラメーターの推定値を用いてde novo分子ペアに関する結合親和性を予測するための、先行する記述のいずれか一項に記載の方法。
【0251】
41. モデルのトレーニングに使用されたトレーニングデータのときと同様に設計行列が形成される、記述40に記載の方法。
【0252】
42. 前記モデルの同時事後パラメーターの推定値が、最大事後(MAP)ポイント推定値、統計モデルのパラメーターの同時事後分布からのサンプル、又はかかるサンプルから計算される要約統計の1つ以上である、記述40に記載の方法。
【0253】
43. 前記要約統計が同時事後分布から取り出されるサンプルの平均である、記述42に記載の方法。
【0254】
44. 推定パラメーターβが与えられたとして、設計行列Xにより表される分子に関する結合親和性が、
【数32】
として平均結合親和性関数を用いて計算されうる、記述40に記載の方法。
【0255】
45. 1つ以上の分子ペアが結合する確率の推定値を計算することにより、1つ以上のde novo分子ペアに関する予測された結合親和性の不確実性を見積もる方法。
【0256】
46. 多数の結合親和性予測をまとめることにより確率が推定される、記述45に記載の方法。
【0257】
47. モデルのパラメーターの同時事後分布からのサンプルから取り出された統計モデルのパラメーターの推定値を用いて各予測が行われる、記述46に記載の方法。
【0258】
48. 要約が、基準を満たす多数の予測の割合でありうる、記述45、46、及び47のいずれかに記載の方法。
【0259】
49. 予測された結合親和性が特定の範囲の値を下回る又は上回る又はその範囲内にあることが基準である、記述48に記載の方法。
【0260】
50. 対象の分子がノナマーペプチド及びMHC対立遺伝子分子であり、且つ所与の閾値を下回る又は上回る又は特定の閾値範囲内にある結合親和性の多数の予測の割合が基準である、記述49に記載の方法。
【0261】
51. 対立遺伝子がMHCクラスI対立遺伝子であり、且つ500nMを下回るIC50値の多数の予測の割合でことが基準があるか、又は500nMを上回るIC50値の多数の予測の割合であることが基準である、記述50に記載の方法。
【0262】
52. 結合確率がF(κ|μi,ηi)により推定され、Fが正規分布N(μi,ηi)の累積分布関数であり、μiが分子のi番目のペアの平均予測結合親和性であり、ηiがη2=σ2+λTXλのi番目の要素であり、σが標準偏差であり、λがμiのベクトルであり、Xが設計行列であり、且つκが結合親和性閾値である、記述45に記載の方法。
【0263】
53. 対象の分子がノナマーペプチド及びMHC対立遺伝子分子である、記述52に記載の方法。
【0264】
54. 対立遺伝子がMHCクラスI対立遺伝子であり、κが500nMである、記述52又は53に記載の方法。
【0265】
55. 1つ以上のプロセッサーと、
1つ以上のプロセッサーにより実行されるとき、以上の記述のいずれかの方法を装置に実施させる命令を含むメモリーと、
1つ以上のプロセッサーにより実行されうる命令、又はトレーニング、又は試験、又はde novoデータ、又は結果を保存するために使用されうるゼロ又はそれ以上の保存デバイスと、
以上の記述のいずれかに記載の方法を開始するために又は1つ以上の結果を1つ以上の他の装置に伝送するために使用されうるゼロ又はそれ以上の接続と、
を含む、装置。
【0266】
参照文献
Byrd, R. H., Hansen, S. L., Nocedal, J., & Singer, Y. (2016). A Stochastic Quasi-Newton Method for Large-Scale Optimization. SIAM Journal on Optimization, 26(2), 1008-1031.
Carvalho, C. M., Polson, N. G., & Scott, J. G. (2010). The horseshoe estimator for sparse signals. Biometrika, 97(2), 465-480.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Edition ed.). Springer.
Hoffman, M. D., & Gelman, A. (2014). The No-U-turn sampler: adaptively setting path lengths in Hamiltonian Monte Carlo. Journal of Machine Learning Research, 15(1), 1593-1623.
Jin, B., Maas, P., & Scherzer, O. (2017, June). Special issue on sparsity regularization in inverse problems. Inverse Problems, 33(6).
Kim, Y., Sidney, J., Buus, S., Sette, A., Nielsen, M., & B., P. (2014). Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions. BMC Bioinformatics, 15(214).
Kim, Y., Sidney, J., Buus, S., Sette, A., Nielsen, M., & Peters, B. (2014). Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions. BMC Bioinformatics, 15(241).
Kucukelbir, A., Tran, D., Ranganath, R., Gelman, A., & Blei, D. M. (2017). Automatic Differentiation Variational Inference. Journal of Machine Learning Research, 18(14), 1-45.
Li, Z., Li, G., & Shu, M. e. (2008). A novel vector of topological and structural information for amino acids and its QSAR applications for peptides and analogues. Science in China Series B: Chemistry, 51(10), 946-957.
Nielsen, M. L. (2003). Reliable prediction of T-cell epitopes using neural networks with novel sequence representations. Protein Science, 12, 1007-1017.
Nielsen, M., Lundegaard, C., Blicher, T., Lamberth, K., Harndahl, M., Justesen, S., . . . Buus, S. (2007). NetMHCpan, a method for quantitative predictions of peptide binding to any HLA-A and-B locus protein of known sequence. PLOS ONE, 2(8), e796.
Peterson, E. L., Kondev, J., Theriot, J. A., & Phillips, R. (2009). Reduced amino acid alphabets exhibit an improved sensitivity and selectivity in fold assignment. Bioinformatics, 25(11), 1356-1362.
Robbins, H., & Monro, S. (1951). A Stochastic Approximation Method. Annals of Mathematical Statistics, 22(3), 400-407.
【0267】
【0268】
【0269】
【0270】
【0271】
【0272】