(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】物理的モデル補強擬似ラベリングによるT細胞受容体レパートリー選択予測
(51)【国際特許分類】
G16B 40/00 20190101AFI20241016BHJP
【FI】
G16B40/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024521283
(86)(22)【出願日】2022-10-21
(85)【翻訳文提出日】2024-04-09
(86)【国際出願番号】 US2022047346
(87)【国際公開番号】W WO2023069667
(87)【国際公開日】2023-04-27
(32)【優先日】2021-10-21
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-02-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-10-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ミン、 レンチャン
(72)【発明者】
【氏名】グラフ、 ハンス ペーター
(72)【発明者】
【氏名】クルース、 エリック
(72)【発明者】
【氏名】ジャン、 イーレン
(57)【要約】
TCR-ペプチド対の配列のデータセットから、配列アナライザを用いて当該配列の多重配列アライメントを決定し、MODELLERを使用したMSAおよびタンパク質データバンクから対応する構造を使用してTCR構造とペプチド構造とを構築し、構築されたTCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングして決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することにより、TCR-ペプチド相互作用予測のための深層学習モデルを訓練することを含む、T細胞受容体-ペプチド相互作用予測のためのシステムおよび方法。TCR-ペプチド対は、ドッキングエネルギースコアに基づく擬似ラベルを用いて、陽性対と陰性対に分類、ラベル付けされ、深層学習モデルは、拡張TCR-ペプチド訓練データセットと擬似ラベルとに基づいて、収束するまで繰り返し再訓練される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
T細胞受容体(TCR)-ペプチド相互作用を予測するための方法であって、
前記TCR-ペプチド相互作用を予測するための深層学習モデルを訓練することであって、
配列アナライザを用いて、TCR-ペプチド対の配列のデータセットから複数のTCR-ペプチド対の配列の多重配列アラインメント(MSA)を決定することと、
MODELLERを使用した前記MSAとタンパク質データバンク(PDB)からの対応する構造とを使用してTCR構造とペプチド構造とを構築することと、
前記MODELLERを使用して構築された前記TCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングすることによって決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することと、
前記ドッキングエネルギースコアに基づく擬似ラベルを用いて、TCR-ペプチド対を陽性の対または陰性の対として分類し、ラベル付けすることとを含む、該深層学習モデルを訓練することと、
収束するまで、前記拡張TCR-ペプチド訓練データセットと前記擬似ラベルとに基づいて、前記深層学習モデルを繰り返し再訓練することとを含む、方法。
【請求項2】
前記TCR-ペプチド対のデータセットが、陽性と陰性との結合TCR-ペプチド対を含む、請求項1に記載の方法。
【請求項3】
前記TCR-ペプチド対を分類およびラベル付けすることが、前記エネルギースコアの上位xパーセントを陰性の対とし、前記エネルギースコアの下位yパーセントを陽性の対として前記TCR-ペプチド対を擬似ラベル付けすることをさらに含む、請求項1に記載の方法。
【請求項4】
前記TCR-ペプチド対の配列のデータセットからペプチド埋め込みベクターとTCR埋め込みベクターとを連結することをさらに含む、請求項1に記載の方法。
【請求項5】
TCRデータベースからのラベル付けされていないTCRと、前記訓練データからのラベル付けされたTCRとを組み合わせることによって、オートエンコーダを訓練することをさらに含む、請求項1に記載の方法。
【請求項6】
前記深層学習モデルが、前記複数のTCR-ペプチド対の配列からの標準クロスエントロピー損失、前記擬似ラベル付けされたTCR-ペプチド対からのダイバージェンス損失、および物理的モデリングを用いたTCRとペプチドとの間の物理的特性に基づくクロスエントロピー損失に基づいて学習される、請求項1に記載の方法。
【請求項7】
最終総損失(L
total)が、
【数1】
のように決定され、ここで、L
labeledは前記複数のTCR-ペプチド対の配列からの前記標準クロスエントロピー損失を表し、L
pseudo-labeledは前記擬似ラベル付けされたTCR-ペプチド対からのダイバージェンス損失を表し、L
physicalは物理的特性に基づく前記クロスエントロピー損失を表す、請求項6に記載の方法。
【請求項8】
T細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムであって、
非一過性のコンピュータ可読記憶媒体に動作可能に結合されたプロセッサを含み、該プロセッサは、
前記TCR-ペプチド相互作用を予測するための深層学習モデルを訓練することであって、
配列アナライザを用いて、TCR-ペプチド対の配列のデータセットから複数のTCR-ペプチド対の配列の多重配列アラインメント(MSA)を決定することと、
MODELLERを使用した前記MSAとタンパク質データバンク(PDB)からの対応する構造とを使用してTCR構造とペプチド構造とを構築することと、
前記MODELLERを使用して構築された前記TCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングすることによって決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することと、
前記ドッキングエネルギースコアに基づく擬似ラベルを用いて、TCR-ペプチド対を陽性の対または陰性の対として分類し、ラベル付けすることとを含む、該深層学習モデルを訓練することと、
収束するまで、前記拡張TCR-ペプチド訓練データセットと前記擬似ラベルとに基づいて、前記深層学習モデルを繰り返し再訓練することとを行うように構成されているシステム。
【請求項9】
前記TCR-ペプチド対のデータセットが、陽性と陰性との結合TCR-ペプチド対を含む、請求項8に記載のシステム。
【請求項10】
前記TCR-ペプチド対を分類およびラベル付けすることが、前記エネルギースコアの上位xパーセントを陰性の対とし、前記エネルギースコアの下位yパーセントを陽性の対として前記TCR-ペプチド対を擬似ラベル付けすることをさらに含む、請求項8に記載のシステム。
【請求項11】
前記プロセッサがさらに、前記TCR-ペプチド対の配列のデータセットからペプチド埋め込みベクターとTCR埋め込みベクターとを連結するように構成されている、請求項8に記載のシステム。
【請求項12】
前記プロセッサがさらに、TCRデータベースからのラベル付けされていないTCRと、前記訓練データからのラベル付けされたTCRとを組み合わせることによって、オートエンコーダを訓練するように構成されている、請求項8に記載のシステム。
【請求項13】
前記深層学習モデルが、前記複数のTCR-ペプチド対の配列からの標準クロスエントロピー損失、前記擬似ラベル付けされたTCR-ペプチド対からのダイバージェンス損失、および物理的モデリングを用いたTCRとペプチドとの間の物理的特性に基づくクロスエントロピー損失に基づいて学習される、請求項8に記載のシステム。
【請求項14】
最終総損失(L
total)が、
【数2】
のように決定され、ここで、L
labeledは前記複数のTCR-ペプチド対の配列からの前記標準クロスエントロピー損失を表し、L
pseudo-labeledは前記擬似ラベル付けされたTCR-ペプチド対からのダイバージェンス損失を表し、L
physicalは物理的特性に基づく前記クロスエントロピー損失を表す、請求項13に記載のシステム。
【請求項15】
T細胞受容体(TCR)-ペプチド相互作用を予測するためのプロセッサ装置に動作可能に結合されたコンピュータ可読プログラムを含む非一過性コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムは、コンピュータ上で実行されると、前記コンピュータに、
前記TCR-ペプチド相互作用を予測するための深層学習モデルを訓練するステップであって、
配列アナライザを用いて、TCR-ペプチド対の配列のデータセットから複数のTCR-ペプチド対の配列の多重配列アラインメント(MSA)を決定することと、
MODELLERを使用した前記MSAとタンパク質データバンク(PDB)からの対応する構造とを使用してTCR構造とペプチド構造とを構築することと、
前記MODELLERを使用して構築された前記TCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングすることによって決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することと、
前記ドッキングエネルギースコアに基づく擬似ラベルを用いて、TCR-ペプチド対を陽性の対または陰性の対として分類し、ラベル付けすることとを含む、該深層学習モデルを訓練するステップと、
収束するまで、前記拡張TCR-ペプチド訓練データセットと前記擬似ラベルとに基づいて、前記深層学習モデルを繰り返し再訓練するステップとを実行させる非一過性コンピュータ可読記憶媒体。
【請求項16】
前記TCR-ペプチド対のデータセットが、陽性と陰性との結合TCR-ペプチド対を含む、請求項15に記載の非一過性コンピュータ可読記憶媒体。
【請求項17】
前記TCR-ペプチド対を分類およびラベル付けすることが、前記エネルギースコアの上位xパーセントを陰性の対とし、前記エネルギースコアの下位yパーセントを陽性の対として前記TCR-ペプチド対を擬似ラベル付けすることをさらに含む、請求項15に記載の非一過性コンピュータ可読記憶媒体。
【請求項18】
前記TCR-ペプチド対の配列のデータセットからペプチド埋め込みベクターとTCR埋め込みベクターとを連結することをさらに含む、請求項15に記載の非一過性コンピュータ可読記憶媒体。
【請求項19】
前記深層学習モデルが、前記複数のTCR-ペプチド対の配列からの標準クロスエントロピー損失、前記擬似ラベル付けされたTCR-ペプチド対からのダイバージェンス損失、および物理的モデリングを用いたTCRとペプチドとの間の物理的特性に基づくクロスエントロピー損失に基づいて学習される、請求項15に記載の非一過性コンピュータ可読記憶媒体。
【請求項20】
最終総損失(L
total)が、
【数3】
のように決定され、ここで、L
labeledは前記複数のTCR-ペプチド対の配列からの前記標準クロスエントロピー損失を表し、L
pseudo-labeledは前記擬似ラベル付けされたTCR-ペプチド対からのダイバージェンス損失を表し、L
physicalは物理的特性に基づく前記クロスエントロピー損失を表す、請求項19に記載の非一過性コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、T細胞受容体(TCR)-ペプチド相互作用の予測に関し、より詳細には、物理的モデリングおよびデータ補強した擬似ラベリングを用いたTCR生成および分類のための条件付き変分オートエンコーダ(cVAE)を訓練および利用することによるTCR-ペプチド相互作用の予測に関する。
【背景技術】
【0002】
関連技術の説明
T細胞受容体(TCR)とペプチドとの間の相互作用を予測することは、免疫療法における個別化医療や標的ワクチンのために重要である。このような予測のための深層学習モデルを訓練するための従来のシステム、方法、および現在のデータセットは、不正確で効率が悪く、データセットに多様なTCRやペプチドが含まれていないことが少なくとも一因となって制約を受けている。最近、TCRとペプチドとの間の相互作用を予測するために、長短期記憶(LSTM)とオートエンコーダを利用して相互作用を予測するなど、いくつかの深層学習アプローチが利用されている。例えば、相補性決定領域3(CDR3)のβ鎖(例えば、ERGOオートエンコーダ)、CDR3のα鎖、VおよびJ遺伝子、MHCタイプ、T細胞タイプ(例えば、ERGO IIオートエンコーダ)、ガウス処理、TCR-ペプチド予測のための積層畳み込みネットワーク(例えば、NetTCR 1.0)、およびCDR3のα鎖とβ鎖のペア(例えば、NetTCR 2.0)。しかし、これらのシステムや方法は、データセットに多様なTCRやペプチドが含まれていないため、少なくとも部分的には制約を受け、その結果、TCRとペプチドとの間の相互作用の予測が非効率的で不正確になるという上述の問題に悩まされている。
【発明の概要】
【0003】
本発明の一態様によれば、配列アナライザを用いて、TCR-ペプチド対の配列のデータセットからTCR-ペプチド対の配列の多重配列アラインメント(MSA)を決定することと、MODELLERを使用した前記MSAとタンパク質データバンク(PDB)からの対応する構造とを使用してTCR構造とペプチド構造とを構築することと、前記MODELLERを使用して構築された前記TCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングすることによって決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することとによって、前記TCR-ペプチド相互作用を予測するための深層学習モデルを訓練することを含むT細胞受容体(TCR)-ペプチド相互作用を予測するための方法が提供される。前記ドッキングエネルギースコアに基づく擬似ラベルを用いて、TCR-ペプチド対が陽性の対または陰性の対として分類され、ラベル付けされ、収束するまで、前記拡張TCR-ペプチド訓練データセットと前記擬似ラベルとに基づいて、前記深層学習モデルが繰り返し再訓練される。
【0004】
本発明の別の態様によれば、非一過性のコンピュータ可読記憶媒体に動作可能に結合されたプロセッサを含み、配列アナライザを用いて、TCR-ペプチド対の配列のデータセットからTCR-ペプチド対の配列の多重配列アラインメント(MSA)を決定することと、MODELLERを使用した前記MSAとタンパク質データバンク(PDB)からの対応する構造とを使用してTCR構造とペプチド構造とを構築することと、前記MODELLERを使用して構築された前記TCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングすることによって決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することとによって、前記TCR-ペプチド相互作用を予測するための深層学習モデルを訓練するための、T細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムが提供される。前記ドッキングエネルギースコアに基づく擬似ラベルを用いて、TCR-ペプチド対が陽性の対または陰性の対として分類され、ラベル付けされる。収束するまで、前記拡張TCR-ペプチド訓練データセットと前記擬似ラベルとに基づいて、前記深層学習モデルが繰り返し再訓練される。
【0005】
本発明の別の態様によれば、配列アナライザを用いて、TCR-ペプチド対の配列のデータセットから複数のTCR-ペプチド対の配列の多重配列アラインメント(MSA)を決定することと、MODELLERを使用した前記MSAとタンパク質データバンク(PDB)からの対応する構造とを使用してTCR構造とペプチド構造とを構築することと、前記MODELLERを使用して構築された前記TCR構造とペプチド構造とに基づく物理的モデリングを使用してペプチドをTCRにドッキングすることによって決定されたドッキングエネルギースコアに基づいて、拡張TCR-ペプチド訓練データセットを生成することとによって、前記TCR-ペプチド相互作用を予測するための深層学習モデルを訓練するための方法をコンピュータに実行させるように構成されたコンテンツを含む非一過性コンピュータ可読記憶媒体が提供される。前記ドッキングエネルギースコアに基づく擬似ラベルを用いて、TCR-ペプチド対が陽性の対または陰性の対として分類され、ラベル付けされる。収束するまで、前記拡張TCR-ペプチド訓練データセットと前記擬似ラベルとに基づいて、前記深層学習モデルを繰り返し再訓練される。
【0006】
これらおよび他の特徴および利点は、添付の図面と関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0007】
本開示は、以下の図を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0008】
【
図1】本発明の実施形態による、本発明を適用することができる例示的な処理システムを例示的に示すブロック図である。
【0009】
【
図2】本発明の実施形態による、T細胞受容体(TCR)とペプチドとを結合させる方法の例示的なハイレベル図を例示的に示す図である。
【0010】
【
図3】本発明の実施形態による、T細胞受容体(TCR)-ペプチド相互作用を予測するための深層学習モデルを訓練するためのハイレベルの方法を例示的に示す図である。
【0011】
【
図4】本発明の実施形態による、複数のエンコーダを有するT細胞受容体(TCR)-ペプチド相互作用を予測するための深層学習モデルを訓練するためのシステムおよび方法を例示的に示すブロック/フロー図である。
【0012】
【
図5】本発明の実施形態による、深層学習モデルを訓練し、ドッキングエネルギーを計算することによってT細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法を例示的に示すブロック/フロー図である。
【0013】
【
図6】本発明の実施形態による、TCR生成および分類のための条件付き変分オートエンコーダ(cVAE)を訓練することによってT細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法を例示的に示すブロック/フロー図である。
【0014】
【
図7】本発明の実施形態による、擬似ラベル付けを使用して訓練データセットを拡張することによってT細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法を例示的に示すブロック/フロー図である。
【0015】
【
図8】本発明の実施形態による、TCR生成および分類のための条件付き変分オートエンコーダ(cVAE)を訓練し、擬似ラベリングを用いて訓練データセットを拡張することにより、T細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法を例示的に示すブロック/フロー図である。
【0016】
【
図9】本発明の実施形態による、ニューラルネットワークを訓練および利用することによって、T細胞受容体(TCR)-ペプチド相互作用を予測および分類するための方法を例示的に示すブロック/フロー図である。
【0017】
【
図10】本発明の実施形態による、ニューラルネットワークを訓練および利用することによって、T細胞受容体(TCR)-ペプチド相互作用を予測および分類するための例示的なシステムを例示的に示す図である。
【発明を実施するための形態】
【0018】
本発明の実施形態に従って、物理的モデリングおよびデータ補強した擬似ラベリングを使用して、TCR生成および分類のための条件付き変分オートエンコーダ(cVAE)を訓練および利用することによって、T細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法が提供される。
【0019】
様々な実施形態において、データ不足の問題と闘うために、本発明はTCR-ペプチド対の物理的モデリングによって訓練データセットを拡張し、TCR-ペプチド相互作用の予測の効率と精度を高めることができる(例えば、免疫療法における個別化医療や標的化ワクチンでの使用のために)。いくつかの実施形態では、補助的な未知のTCR-ペプチド対間のドッキングエネルギーは、教師あり方式でニューラルネットワーク学習モデルを訓練するための追加の例-ラベル対として利用することができる。モデルの予測値の曲線下領域(AUC)スコアは、そのような未知のTCR-ペプチド対を擬似ラベル付けし、それらの擬似ラベル付けされたTCR-ペプチド対を用いてモデルを再訓練することによって、さらに微調整され改善される。実験結果は、物理的モデリングとデータ補強した擬似ラベル付けとによる深層ニューラルネットワークの訓練が、本発明の態様に従って、ベースラインや従来のシステムおよび方法よりも、TCR-ペプチド相互作用の予測の精度と効率を著しく向上させることを示している。
【0020】
様々な実施形態において、本発明は、3つの損失からTCR-ペプチド相互作用を予測するための深層学習モデルを訓練するために利用することができる:所定の既知のTCR-ペプチド対からの教師ありクロスエントロピー損失、未知のTCR-ペプチド対のドッキングエネルギーに基づく教師ありクロスエントロピー損失、および擬似ラベル付けされた未知のTCR-ペプチド対からのKullback-Leibler(KL)-ダイバージェンス損失である。本発明の態様に従って、以下にさらに詳細に説明する。
【0021】
T細胞受容体(TCR)とペプチド-主要組織適合複合体(pMHC)との相互作用を予測することは、レパートリーに基づくバイオマーカーの開発(例えば、ホストが標的にさらされているかどうかの予測)に不可欠であり、本発明の態様に従って、免疫療法における個別化医療や標的化ワクチンに利用することができる。しかし、多数のペプチドと多数のTCRの両方を網羅する実験データは十分ではないため、このような予測は従来は計算効率が悪く、従来のシステムや手法で得られる結果は不正確なことがある。
【0022】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェア要素とソフトウェア要素との両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。
【0023】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0024】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
【0025】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0026】
ネットワークアダプタは、データ処理システムが、介在するプライベートまたはパブリックネットワークを介して他のデータ処理システムまたはリモートプリンタまたはストレージデバイスに結合されるようになることを可能にするために、システムに結合されることもできる。モデム、ケーブルモデム、イーサネットカードは、現在利用可能なネットワークアダプタの種類のほんの一部に過ぎない。
【0027】
本発明の態様を、本発明の実施形態による方法、システムおよびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して以下に説明する。フローチャートおよび/またはブロック図の各ブロック、ならびにフローチャートおよび/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実施され得ることに留意されたい。
【0028】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を示している。フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令から構成される、モジュール、セグメント、またはコードの一部を表すことができ、本発明のいくつかの代替実施では、ブロックに記載された機能は、図に記載された順序から外れて発生する可能性がある。例えば、連続して示されている2つのブロックは、実際には実質的に同時に実行されることもあれば、逆順に実行されることもあり、特定の実施形態の機能に応じて他の順序で実行されることもある。
【0029】
また、ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図のブロックの組み合わせは、特定の機能/動作を実行する特定目的のハードウェアシステム、または本原理に従った特定目的のハードウェアとコンピュータ命令の組み合わせによって実施できることに留意されたい。
【0030】
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「プロセッサ」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
【0031】
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
【0032】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLAs)を含むことができる。
【0033】
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
【0034】
ここで、同様の数字が同一または同様の要素を表す図面を参照し、最初に
図1を参照すると、本原理が適用され得る例示的な処理システム100が、本原理の実施形態に従って例示的に描かれている。
【0035】
いくつかの実施形態では、処理システム100は、システムバス102を介して他の構成要素と動作可能に結合された少なくとも1つのプロセッサ(CPU)104を含むことができる。キャッシュ106、リードオンリーメモリ(ROM)108、ランダムアクセスメモリ(RAM)110、入力/出力(I/O)アダプタ120、音声アダプタ130、ネットワークアダプタ140、ユーザインタフェースアダプタ150、およびディスプレイアダプタ160は、システムバス102に動作可能に結合される。
【0036】
第1の記憶装置122および第2の記憶装置124は、I/Oアダプタ120によってシステムバス102に動作可能に結合される。記憶装置122および124は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート磁気装置などのいずれであっても良い。記憶装置122および124は、同じタイプの記憶装置または異なるタイプの記憶装置とすることができる。
【0037】
スピーカ132は、音声アダプタ130によってシステムバス102と動作可能に結合される。トランシーバ142は、ネットワークアダプタ140によってシステムバス102と動作可能に結合される。ディスプレイ装置162は、ディスプレイアダプタ160によってシステムバス102と動作可能に結合される。1つまたは複数のニューラルネットワーク訓練装置164は、本発明の態様に従って、任意の適切な接続システムまたは方法(例えば、Wi-Fi、有線、ネットワークアダプタなど)によってシステムバス102にさらに結合することができる。
【0038】
第1のユーザ入力装置152、第2のユーザ入力装置154、および第3のユーザ入力装置156は、ユーザインタフェースアダプタ150によってシステムバス102と動作可能に結合される。ユーザ入力装置152,154,156は、キーボード、マウス、キーパッド、画像捕捉装置、動き感知装置、マイクロフォン、前述の装置のうちの少なくとも2つの機能を組み込んだ装置などのいずれかとすることができる。もちろん、本発明の原理の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置152,154,156は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置152,154,156は、システム100との間で情報を入出力するために使用される。
【0039】
もちろん、処理システム100は、当業者によって容易に企図されるように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、当業者によって容易に理解されるように、他の様々な入力装置および/または出力装置を、その特定の実装に応じて、処理システム100に含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者には容易に理解されるように利用することができる。処理システム100のこれらおよび他の変形は、本明細書で提供される本原理の教示を与えられれば、当業者によって容易に企図される。
【0040】
さらに、それぞれ
図4、
図5、
図6、
図7、
図8、および
図10に関して後述するシステム400,500,600,700,800、および1000は、本発明のそれぞれの実施形態を実施するためのシステムであることを理解されたい。処理システム100の一部または全部を、本発明の態様に従って、システム400,500,600,700,800、および1000の要素の1つまたは複数に実装することができる。
【0041】
さらに、処理システム100は、例えば、それぞれ
図2、
図3、
図4、
図5、
図6、
図7、
図8、および
図9それぞれに関して以下に説明する方法200,300,400,500,600,700,800および900の少なくとも一部を含む、本明細書に記載される方法の少なくとも一部を実行することができることを理解されたい。同様に、システム400,500,600,700,800、および1000の一部または全部は、本発明の態様に従って、それぞれ
図2、
図3、
図4、
図5、
図6、
図7、
図8、および
図9の方法200,300,400,500,600,700,800および900の少なくとも一部を実行するために使用することができる。
【0042】
ここで
図2を参照すると、本発明の実施形態による、T細胞受容体(TCR)とペプチドとを結合させる方法200の例示的なハイレベル図を示す図が例示的に示されている。
【0043】
最初に、TCR208によるペプチド/主要組織適合性複合体(MHC)206の認識は、人の適応免疫系によって行われる重要な相互作用であることに留意されたい。TCR208は、T細胞204(またはTリンパ球)の表面に見られるタンパク質複合体であり、抗原の断片(例えば、腫瘍またはウイルス感染細胞202に含まれる)をMHC分子206に結合したペプチド210として認識する役割を担っている。いくつかの実施形態において、腫瘍細胞202は、本発明の態様に従って、腫瘍細胞202の表面上のTCR208-ペプチド210/MHC206相互作用を標的とすることにより、腫瘍抗原特異的T細胞204を決定し利用することによって排除することができる。
【0044】
TCR208とペプチド210に関する大規模なデータベースは利用可能であるが、実際にはTCR-ペプチドの結合特異性に関する情報は限られており、ほとんどのTCR-ペプチド結合の決定には十分ではない。いくつかの実施形態において、結合特異性に関する情報を決定し、本発明の態様に従って、3つの損失:所定の既知のTCR-ペプチド対からの教師ありクロスエントロピー損失、未知のTCR-ペプチド対のドッキングエネルギーに基づく教師ありクロスエントロピー損失、および擬似ラベル付けされた未知のTCR-ペプチド対からのKullback-Leibler(KL)-ダイバージェンス損失からTCR-ペプチド相互作用を予測するために、深層学習モデルを訓練することができる。
【0045】
様々な実施形態において、DTCRdbの導入は、学習問題を半教師ありの設定にする。物理的モデリングによる擬似ラベル付け(本明細書で以下にさらに詳しく説明する)の他に、確立された半教師あり手法を活用し、結果をさらに改善することができる。擬似ラベル付けは、半教師あり学習において成功した手法であることが証明されている。様々な実施形態に従って、ラベル付けされたデータセットで最初に訓練されたモデルを用いてラベル付けされていない例を最初にラベル付けするアルゴリズムを利用することができ、その後、本発明の態様に従って、拡張された擬似ラベル付けされた例を用いてラベル付けされた訓練データセットでモデルを再訓練することができる。
【0046】
例示的な実施形態では、以下に示す
【数1】
のみを用いた訓練がモデルΘ
teacherへと導くことができる。D
TCRddbからサンプリングされたTCR t’と、
【数2】
からサンプリングされたペプチドpとが与えられる。ここでprob’は、TCR-ペプチド対(t’,p’)の擬似ラベルとして使用される教師モデルの出力確率を表す。教師モデルによる擬似ラベル付き例に対する学習目的関数は、次のように表すことができる。
【数3】
最終的な総損失320は、本発明の態様に従って、以下の3つの損失の組み合わせによって決定される。
【数4】
【0047】
ここで
図3を参照すると、本発明の実施形態に従って、T細胞受容体(TCR)-ペプチド相互作用を予測するための深層学習モデルを訓練する方法300のハイレベル図を示す図が例示的に示されている。
【0048】
いくつかの実施形態では、TCR-ペプチドモデル312(例えば、ERGO)は、本発明の態様に従った、ラベル付きデータセット304(例えば、DTCRdb)の例(ブロック310からのTCRを含むことができる)からの標準クロスエントロピー損失314(Llabel)、擬似ラベル付き例(例えば、ブロック302の訓練データセット(Dtrain)からのTCR306および/またはペプチド308を入力として含むことができる教師モデルによる)からのKL-ダイバージェンス損失316(Lpseudo)、およびTCR306、310とペプチド308との間の物理的特性318(Lphysical)に基づくクロスエントロピー損失を含む、3つの(3)損失によって学習し、訓練されて、損失合計320(Ltotal)を決定することができる。
【0049】
様々な実施形態に従って、説明を簡単にするために、tをTCR配列、pをペプチド配列、x=(t,p)をTCR-ペプチドの対とする。TCR-ペプチドのデータセットD:{(xi,yi)}(i=1,2,...,n)を利用することができる。ここで、nはデータセットDのサイズを表し、xiはTCR-ペプチドの対を表し、yiは1(陽性の対を示す)または0(陰性の対を示す)のいずれかである。本発明の目的は、Dtrain302から、テストデータセットDtest(図示せず)で良好な性能を示すモデル312を学習することである。Dtrain302およびDtestは、データセットDの分割である。Dtrain302に存在する上述のデータ不足の問題は、Dtestでのモデルの汎化を制限する可能性がある。したがって、性能をさらに向上させるために、本発明はTCRデータセット304(DTCRdb:{tj})を活用することができる。ここで、j=1,2,...,Nであり、NはDTCRdb304内のTCR310の数を表す。N>>nであり、DTCRdb304中のTCR310は、本発明の態様に従い、Dtrain中のペプチドと既知の相互作用を有さないと仮定できる。
【0050】
本明細書で議論するTCR-ペプチドモデル312(ERGO-I)は、例示目的および実験結果のための基本モデルとして利用することができるが、本発明の様々な実施形態に従って、他の種類のTCR-ペプチドモデルおよび/またはモデラーが利用できることを理解されたい。ERGO-IIは、補助的な情報(例えば、CDR3のα鎖、VおよびJ遺伝子、MHCタイプおよびT細胞タイプ)をさらに考慮することで、ERGO-Iよりも改善されるが、ERGO-Iは、本発明がTCRとペプチドとの間の物理的モデリングを実行することで、2分子の相互作用を予測するための任意の機械学習モデルを微調整および改善できることを説明するために、本明細書で利用される。ERGO-Iはあらゆるタンパク質間相互作用予測に適応可能な一般的なフレームワークであるのに対し、ERGO-IIはTCR-ペプチド間相互作用予測にのみ適用可能である。
【0051】
本発明は、TCR-ペプチド相互作用だけに限定されるものではなく、したがって、ERGO-I(または同様のもの)のようなモデルを、本発明の態様に従って、基本モデルとして利用することができる。本明細書では、システムおよび方法300をERGO-Iモデルを基本モデルとして利用するものとして以下に説明するが、上述したように、本発明の原理は、本発明の態様に従って、あらゆる種類のモデルを基本モデルとして利用して適用できることを理解されたい。
【0052】
次に
図4を参照すると、本発明の実施形態に従って、複数のエンコーダを有するT細胞受容体(TCR)-ペプチド相互作用を予測するための深層学習モデルを訓練するためのシステムおよび方法400が例示的に示されている。
【0053】
様々な実施形態に従い、また説明を簡単にするために、公正な実験比較のための基本モデル(例えば、TCR-ペプチドモデル、任意のタンパク質-タンパク質相互作用予測に適応可能)を、本明細書では以下ERGOと呼ぶ。いくつかの実施形態では、ERGO は、それぞれTCR402とペプチド408とについて
【数5】
406および
【数6】
412の2つの別々のエンコーダを含むことができる。本発明の態様に従って、TCR402のためのエンコーダ406は、積層MLPを含むことができ、自動エンコード損失によって事前に訓練することができ、一方、ペプチド408のためのエンコーダ412は、LSTMによってパラメータ化することができる。一例として、x=(t,p)∈D
trainの場合、ブロック404におけるTCRの埋め込み、およびブロック410におけるペプチドの埋め込みは、以下のように計算することができる。
【数7】
【数8】
完全に接続されたMLP414
【数9】
をTCR404とペプチド410の連結埋め込みに付加して、最終的な分類を実行し、ブロック416の出力として以下のように予測を生成することができる。
【数10】
ここで、本発明の様々な態様に従って、predは予測を表し、分類損失はバイナリクロスエントロピー(BCE)損失である。説明を簡単にするため、以下では以下のように表記する。
【数11】
ここで、f
Θは
【数12】
を含むフルモデルを表す。そして最終的な分類損失は、本発明の態様に従って、例示的なTCR-ペプチド対x=(t,p)に対する予測値predとラベルyとの間のクロスエントロピー損失によって表すことができる。
【0054】
次に
図5を参照すると、深層学習モデルを訓練し、ドッキングエネルギーを計算することによってT細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法500が、本発明の実施形態に従って例示的に描かれている。
【0055】
様々な実施形態において、教師あり訓練データセットDtrainにおける多様なTCR502とペプチド512との対の欠如を改善するために、本発明は、本発明の態様に従って、訓練データセットDtrainを拡張するために補助TCRとペプチドとの間の物理的特性を利用することができる。
【0056】
いくつかの実施形態では、TCR502およびペプチド512の所定の配列について、本発明の態様に従って、ブロック506におけるTCRについてのMSA、および/またはブロック516におけるペプチドについてのMSAを決定するために、配列アナライザ504、514(例えば、BLASTp)を利用することができる。様々な実施形態において、多様なTCR502を有する大規模なTCRデータベースDTCRdbを利用することができるが、これらのTCR502はDtrain中のペプチド512との相互作用が知られていない。TCR502とペプチド512との間のドッキングエネルギー524は、相互作用の指標として選択することができ、ドッキングエネルギー524は、分子を剛体として扱うことにより、分子間の結合親和性を反映する。ペプチド512とTCR502とのドッキングは、TCR502の表面の周りでペプチド512を動かすことにより、最小のエネルギーで2つの剛体の配置を決定することができ、比較的小さなドッキングエネルギーは、本発明の態様に従って、所定のTCR502とペプチド512との陽性の対を示すことができる。
【0057】
ドッキング522(例えばHDockなどを使用)は、まずTCR502とペプチド512との既知の構造を利用することができる物理学ベースのモデリングであることに留意されたい。いくつかの実施形態では、DTCRdbからサンプリングされたTCR配列t’、およびDtrainからペプチド配列p’が与えられた場合、TCR510 t’の構造およびペプチド520 pの構造は、配列アナライザ504、514(例えば、BLASTp)を使用して、既知の構造を有する相同配列を見つけることによって構築することができる。ドッキングは、タンパク質複合体(例えば2分子の二量体)の構造を予測するために開発された計算手法と言える。ドッキングは、エネルギースコアリング関数524を最小化することによって複合体の配置を探索することができ、TCRとペプチドとの間の決定された最終的なドッキングエネルギー524は、本発明の態様に従って、このTCR-ペプチド対の代用結合ラベルとして利用することができる。
【0058】
説明を容易にするために、利用したドッキングアルゴリズムとしてHDockを説明するが、本発明の態様に従って、他の任意のドッキングアルゴリズムまたは方法を利用することができる。構造を持たないTCR/ペプチド配列の場合、HDockはまず高速なタンパク質配列検索アルゴリズムを用いて、ターゲット配列の多重配列アライメント(MSA)と、それに対応するタンパク質データバンク(PDB)における構造とを検索することができる。そしてHDockは、MSAから構築された構造と既知の相同配列の構造とを用いてドッキングを実行することができる。学習アルゴリズムは、最終的なドッキングスコアをTCR-ペプチド対の代用ラベルとして活用することができ、閾値を利用してTCR-ペプチド対を陰性対、陽性対、その他のカテゴリーに分割することができる。以下に、さらに詳細に説明する。
【0059】
ブロック508および518では、本発明の態様に従って、TCR510およびペプチド520の構造を構築するためにMODELLER508、518を利用することができる。いくつかの実施形態では、MSAと、タンパク質データバンク(PDB)からの対応する構造は、TCR/ペプチドの構造を構築するためにMODELLER 508,518によって利用される。最後に、ブロック524でドッキングエネルギーを計算するために、TCR510およびペプチド520の所定の構造を用いて、ブロック522でTCRとペプチドとのドッキング(例えば、HDockを使用)を実行することができる。
【0060】
いくつかの実施形態では、TCR510およびペプチド520の構造が決定されると、本発明の態様に従って、ブロック522でTCRとペプチドとをドッキングするためにドッキング(例えば、HDockなどを使用)を実行することができる。このようにして、例えば、ドッキングエネルギースコア524を持つ80KのTCR-ペプチド対を生成することができる。対は、下位25%のエネルギースコアが陽性の対を示し、上位25%のエネルギースコアが陰性の対を示す擬似ラベルとすることができる。こうしてデータセットが生成され、ドッキングエネルギーD
dockによる擬似ラベルを含むことができる。x’,y’∈D
dockの場合、y’はドッキングによる擬似ラベルであり、学習目的は以下のように表すことができる。
【数13】
説明の便宜と簡略化のため、対((t’,p’),pred d’)は、本発明の態様に従って、後で使用するための新たなデータセットD
physicalを形成するために利用することができる。
【0061】
ここで
図6を参照すると、TCR生成および分類のための条件付き変分オートエンコーダ(cVAE)を訓練することによってT細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法600が、本発明の実施形態に従って例示的に描かれている。
【0062】
様々な実施形態において、cVAEは、ペプチド配列602、p、およびTCR608を入力として用いて、様々なデータセット(例えば、MCPAS、VDJdbなど)を用いて、ペプチドに関するTCR生成条件について訓練することができる。ペプチドエンコーダ604は、ブロック606において潜在ペプチドを生成するために利用することができ、TCRエンコーダ610は、ブロック612において潜在TCRを生成するために利用することができる。潜伏ペプチド606および潜伏TCR612は、関数
【数14】
としての平均および分散を用いて(例えば、ガウス関数として)モデル化することができる。これは、ブロック620における連結/再パラメータ化のため、および本発明の態様に従って潜在変数Zt624と組み合わせたKLダイバージェンス622の入力として利用することができる。本発明の態様に従って、TCRデコーダ614は、ブロック616でTCR、t’を生成するために利用することができ、これはTCR分類器618を用いて分類することができ、勾配は、生成されたTCR616が条件付きペプチドに陽性結合するように強制することができる。
【0063】
次に
図7を参照すると、本発明の実施形態に従って、擬似ラベル付けを使用して訓練データセットを拡張することによってT細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法700が例示的に描かれている。
【0064】
一実施形態では、分類器708(例えば、ERGO分類器)は、TCR704およびペプチド706についてブロック702からの限定されたラベル付きデータ(例えば、McPAS-TCRからの)Dtrainを使用して事前に訓練され、実ラベル710を生成することができる。パラメータは、ブロック718において次の分類器(例えば、ERGO)モデルで使用するために、ブロック709においてコピーすることができる。初期学習モデル708は、本発明の態様に従って、補助データセット712(例えば、CRD3s-TCRからの)DTCRdbからのデータを用いて、ブロック720において分類器718(例えば、ERGO)によって擬似スコアおよび/または擬似ラベル付けTCRペプチド対(例えば、TCR’714、ペプチド716)を生成するための教師モデルとして利用することができる。
【0065】
いくつかの実施形態では、ブロック728において次の分類器(例えば、ERGO)モデルによって使用されるために、ブロック719においてパラメータをコピーすることができる。モデル728は、ブロック702からの元のデータセットDtrainからのサンプルデータ722、およびブロック712からの拡張擬似ラベル付けデータセットDTCRdbからのデータを使用して再訓練することができる。分類器728への入力は、ブロック724からのTCR/TCR’とブロック726からのペプチドとを含むことができる。予測値(pred’|pred)がブロック730において生成され得、実ラベル710および擬似ラベル720は、本発明の態様に従って、ブロック724からのTCR’/TCRおよびブロック726からのペプチドを含む、ブロック722からの結合されたサンプルされたデータセット入力に基づいて、ブロック732において出力y’│yとして最終ドッキングスコアを生成するために、予測値730と共に利用され得る。
【0066】
次に
図8を参照すると、TCR生成および分類のための条件付き変分オートエンコーダ(cVAE)を訓練し、擬似ラベル付けを使用して訓練データセットを拡張することによって、T細胞受容体(TCR)-ペプチド相互作用を予測するためのシステムおよび方法800が、本発明の実施形態に従って例示的に描かれている。
【0067】
一実施形態では、複数のデータベース(例えば、McPAS-TCR、BM_data_CDR3s-TCRなど)からのTCR802をTCRエンコーダ804が受信し、ブロック806において潜在TCRを生成することができる。本発明の態様に従って、潜在TCR806は、平均と分散の関数を用いて(例えば、ガウス関数として)モデル化することができ、これは、ブロック824における連結/再パラメータ化のために利用することができ、潜在変数Zt828と組み合わせてKLダイバージェンス826の入力として利用することができる。
【0068】
いくつかの実施形態では、TCRデコーダ808を利用して、ブロック810においてTCR、t’を生成することができ、このTCRは、TCR分類器820を使用して分類することができ、このTCR分類器820は、上記で議論した複数のデータベース(例えば、McPAS-TCR)のうちの1つからペプチド822のさらなる入力を受け取ることができる。TCR分類器820は、本発明の態様に従って、生成モデルおよび擬似ラベリンル付けに基づくTCR-ペプチド結合予測のための分類器820の性能をさらに微調整および改善するための追加訓練のための新たな訓練セット830を生成することができる。
【0069】
様々な実施形態に従って、物理的モデリングからの学習は訓練データセットを効果的に拡張できるが、学習の成功は物理的モデリングの質にも依存することに留意されたい。モデルは、物理的モデリングからの補助的な学習が、例えば検証損失を最小化するメタ学習によって、主要な学習目的に対して最適化されるように学習することができる。このメタ学習アルゴリズムは、時間のかかる勾配学習(gradient-on-gradient learning)を導入する可能性がある。しかし、本発明の態様に従って、処理速度と精度を向上させるために、検証損失を最小化する代わりに、現在のバッチの訓練損失を最小化することによって近似することができる(例えば、この補助目的からの学習が現在のバッチの訓練損失を低減するように、物理的モデリングからの学習を最適化する)。
【0070】
例として、バッチ(x,y)の各訓練反復について、損失
【数15】
および
【数16】
を最初に計算し、それに応じてモデルのパラメータを更新し、パラメータをΘ
t-1と表すことができる。そして、損失
【数17】
が計算され、モデルを一段階更新してΘ
tとすることができる。
【数18】
と判断された場合(例えば、物理的モデリングで現在のバッチを学習すると、訓練誤差が大きくなる)、その後、本発明の態様に従って、モデルをΘ
l-1に戻して訓練誤差を減らすことができる(例えば、物理的モデリングからの学習が訓練プロセスに役立たない場合、モデルのパラメータは更新されない)。
【0071】
次に
図9を参照すると、本発明の実施形態に従って、ニューラルネットワークを訓練および利用することによってT細胞受容体(TCR)-ペプチド相互作用を予測および分類するための方法900が例示的に描かれている。
【0072】
いくつかの実施形態では、ブロック902において、陽性および陰性結合TCR-ペプチド対のデータセットから、ペプチド埋め込みベクターとTCR埋め込みベクターとを連結することができる。ブロック904において、二値結合スコアを予測するために深層ニューラルネットワーク(DNN)分類器を訓練することができ、ブロック906において、大規模なTCRデータベース(例えば、TCRdb)からのラベル付けされていないTCRと訓練データからのラベル付けされたTCRとを組み合わせることによって、オートエンコーダ(例えば、Wasserstein)を訓練することができる。ブロック908では、物理的モデリングを用いてペプチドをTCRにドッキングすることができる。ブロック910において、ドッキングエネルギーは、訓練データとして追加の陽性および陰性TCR-ペプチド対を生成し、訓練データを用いて既存のTCR-ペプチド相互作用予測分類器を微調整するために利用することができる。
【0073】
いくつかの実施形態では、ブロック912において訓練されたオートエンコーダに基づいて新たなTCRを生成することができ、選択されたペプチドと対になった新たなTCRを物理的モデルおよび擬似ラベル付けを使用してラベル付けして新たな訓練データを生成し、新たな訓練データを使用して既存のTCR-ペプチド相互作用予測分類器をさらに微調整することができる。様々な実施形態に従って、擬似ラベル付け(例えば、自己訓練)は、ラベル付けされたデータセット上で第1の(例えば、教師あり)モデルを学習し、学習された第1の(例えば、教師あり)モデルを使用して、ラベル付けされていないデータセットを擬似ラベル付けすることに対応し得る。本発明の態様に従って、元のラベル付きデータセットと拡張された擬似ラベル付きデータセットとの合同データセットから新たなモデルを学習することができる。
【0074】
いくつかの実施形態では、ブロック904からの訓練されたDNNを使用する学習は、弱増補例と重増補例とでモデルの予測をマッチングさせることによってラベル付けされていない例を使用すること、および勾配ベースの金属学習によって擬似ラベルを学習すること(例えば、擬似ラベルは、ターゲットタスクの検証損失を最小化するように最適化され得る)を含み得る。本発明は、本発明の態様に従って、TCR配列のための大規模なデータベース(例えば、TCRdb)を使用することによる半教師付き問題とみなすことができ、未知の対に(例えば、教師モデルによって)擬似スコアを割り当てること、および/または、TCR-ペプチドペアの物理的モデリングの決定された特性から擬似ラベルを割り当てることができる。いくつかの実施形態において、ブロック908、910、912、および/または914のステップは、本発明の態様に従って、ブロック916において収束するまで繰り返され得る。
【0075】
ここで
図10を参照すると、本発明の実施形態に従って、ニューラルネットワークを訓練および利用することによってT細胞受容体(TCR)-ペプチド相互作用を予測および分類するための例示的なシステム1000が例示的に描かれている。
【0076】
いくつかの実施形態では、1つまたは複数のデータベースサーバー1002は、本発明の態様に従って、入力として使用するための大量のラベル付けされていないおよび/またはラベル付けされたTCRおよび/またはペプチド(または他のデータ)を含むことができる。本発明の態様に従って、ペプチドエンコーダ1004は、潜伏ペプチドを生成するために利用することができ、TCRエンコーダ/デコーダ1006は、潜伏TCR(エンコーダ)と新たなTCR、l’(デコーダ)とを生成するために利用することができる。ニューラルネットワーク1008が利用され得、1つまたは複数のモデル(例えば、ERGO)の訓練を実行するための、1つまたは複数のプロセッサ装置1024を含み得るニューラルネットワーク訓練/学習装置1010と、TCRおよび/またはペプチドの1つまたは複数の配列についてTCRのMSAおよび/またはペプチドのMSAを決定するために利用され得る配列アナライザ1012(例えば、BLASTp)とを含み得る。
【0077】
様々な実施形態において、オートエンコーダ1014(例えば、Wasserstein)は、大規模なTCRデータベース(例えば、TCRdb)からのラベル付けされていないTCRと、訓練データからのラベル付けされたTCRとを組み合わせることによって訓練することができ、TCR生成器/分類器1016を使用して新たなTCRの生成に利用することができる。本発明の態様に従って、TCR生成器/分類器1016は、TCRエンコーダ/デコーダ1006からの潜在的TCRを用いて生成された1つ以上の新たなTCR、l’を分類することができ、勾配を用いて、生成されたTCRが条件付ペプチドに陽性結合するように強制することができる。MODELLER1018は、TCRおよびペプチドの構造を構築するために利用することができ、いくつかの実施形態では、MSAおよびタンパク質データバンク(PDB)からの対応する構造は、本発明の態様に従って、TCR/ペプチドの構造を構築するためにMODELLER1018によって利用することができる。
【0078】
いくつかの実施形態では、TCR-ペプチドドッキング装置1020(例えば、HDock)は、本発明の態様に従って、ドッキングエネルギーを計算するためにMODELLER1018によって構築されたTCRおよびペプチド構造を使用して、TCRとペプチドとのドッキングを実行するために利用され得る。一実施形態において、ラベル生成器1022は、例えば、TCR生成器/分類器1016(例えば、ERGO分類器)によって生成されたTCRに対して、限定されたラベル付きデータ(例えば、McPAS-TCRからの)Dtrainを使用して分類器1016を事前訓練することによって、実際のラベルを生成するTCRおよびペプチドに実際のラベルを生成することができる。一実施形態において、本発明の態様に従って、ラベル生成器1022は、例えば、擬似スコアを生成するための教師モデルとして初期学習済みモデルを使用し、補助データセット(例えば、CRD3s-TCRから)DTCRdbからのデータを使用してTCRペプチド対を擬似ラベル付けすることによって、TCR生成器/分類器1016(例えば、ERGO分類器)によって生成されたTCRの擬似ラベルを生成することができる。
【0079】
図10に示す実施形態では、その要素はバス1001によって相互接続されている。しかし、他の実施形態では、他のタイプの接続を使用することもできる。さらに、一実施形態では、システム1000の要素の少なくとも1つは、プロセッサベースおよび/または論理回路であり、1つまたは複数のプロセッサ装置1024を含み得る。さらに、1つ以上の要素が別々の要素として示されている場合もあるが、他の実施形態では、これらの要素を1つの要素として組み合わせることができる。逆もまた適用可能であり、1つまたは複数の要素が他の要素の一部である場合もあるが、他の実施形態では、1つまたは複数の要素は独立した要素として実装される場合もある。システム1000の要素のこれらおよび他の変形は、本明細書で提供される本原理の教示を考慮すれば、本原理の精神を維持しつつ、当業者によって容易に決定される。
【0080】
明細書において、本発明の「一実施形態」または「一実施形態」、およびその他の変形例への言及は、実施形態に関連して説明した特定の特徴、構造、特性などが、本発明の少なくとも一実施形態に含まれることを意味する。したがって、本明細書中の各所に現れる「一実施形態において」または「一実施形態において」という表現、および他の任意の変形は、必ずしもすべてが同じ実施形態を指すとは限らない。しかしながら、本明細書で提供される本発明の教示を考慮すれば、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
【0081】
例えば「A/B」の場合、「Aおよび/またはB」、「AとBとの少なくとも1つ」のような、以下の「/」、「および/または」、「少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含すると意図していると理解されよう。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または第3のリストされた選択肢(C)のみの選択、または第1および第2のリストされた選択肢(AおよびB)のみの選択、第1および第3のリストされた選択肢(AおよびC)のみの選択、第2および第3のリストされた選択肢(BおよびC)のみの選択、または3つすべての選択肢(AおよびBおよびC)の選択を包含すると意図されている。このことは、列挙された項目の数だけ拡張することができる。
【0082】
上記は、あらゆる点で例示的かつ例示的であるが、制限的なものではないと理解され、ここに開示された発明の範囲は、詳細な説明からではなく、特許法によって許される全幅に従って解釈された請求項から決定されるものである。本明細書に示され説明された実施形態は、本発明の例示に過ぎず、当業者は、本発明の範囲及び精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者であれば、本発明の範囲と精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、特許法が要求する詳細さと特殊性をもって本発明の側面を説明したが、特許状によって請求され、保護されることを望むものは、添付の特許請求の範囲に記載されているとおりである。
【国際調査報告】