(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-08
(54)【発明の名称】免疫学的ペプチド配列を評価するためのシステムおよび方法
(51)【国際特許分類】
G16B 30/00 20190101AFI20241225BHJP
G16B 40/00 20190101ALI20241225BHJP
A61P 37/00 20060101ALI20241225BHJP
A61P 37/06 20060101ALI20241225BHJP
A61P 35/00 20060101ALI20241225BHJP
A61P 31/00 20060101ALI20241225BHJP
C07K 1/00 20060101ALI20241225BHJP
【FI】
G16B30/00
G16B40/00
A61P37/00
A61P37/06
A61P35/00
A61P31/00
C07K1/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024527545
(86)(22)【出願日】2022-11-14
(85)【翻訳文提出日】2024-07-09
(86)【国際出願番号】 US2022079828
(87)【国際公開番号】W WO2023086999
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-04-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】515158308
【氏名又は名称】ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ザスラフスキ, マキシム
(72)【発明者】
【氏名】ボイド, スコット ディー.
(72)【発明者】
【氏名】カンダジ, アンシュル バラト
(72)【発明者】
【氏名】ティブシラニ, ロバート
【テーマコード(参考)】
4H045
【Fターム(参考)】
4H045AA10
4H045AA30
4H045CA40
4H045DA50
4H045EA50
(57)【要約】
ペプチド配列を評価するためのシステムおよび方法を言語モデルに組み込んで、潜在的な表現をもたらすことができる。生物学的特性は、ペプチド配列の潜在的表現に基づいて予測することができる。免疫状態を評価するためのシステムおよび方法は、健常状態を予測するための1つまたはそれを超えるモデルおよび分類器を組み込むことができる。様々なシステムおよび方法が、個体が活動性免疫学的応答を有しているかどうかを予測することができる。様々なシステムおよび方法が、個体が、病原性感染、ワクチン接種、または免疫学的障害などの特定のタイプの免疫学的応答を有しているかまたは有していたかを予測することができる。
【特許請求の範囲】
【請求項1】
B細胞またはT細胞受容体配列のシークエンシング結果を使用して疾患状態に関連する免疫応答を予測するための予測分類器または回帰器を開発するための方法であって、前記方法は、
受容体配列の第1の複数のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、もしくはその一部、またはB細胞受容体とT細胞受容体との両方であり、前記第1の複数の各シークエンシング結果が、第1のコホートの健常な個体の生物学的試料に由来し、前記第1のコホートの各個体が、既知の感染または免疫学的障害がない時点でそれらの生物学的試料を抽出していた、取得することと、
受容体配列の第2の複数のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、もしくはその一部、またはB細胞受容体とT細胞受容体との両方であり、前記第2の複数の各シークエンシング結果が、第2のコホートの個体の生物学的試料に由来し、前記第2のコホートの各個体が、活動性免疫応答の時間中に抽出されたそれらの生物学的試料を有し、前記活動性免疫応答が疾患状態に関連し、前記第2のコホートの各個体が同じ疾患状態を有する、取得することと、
言語モデルを使用して、前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果の各受容体配列の潜在的埋め込みを抽出することと、
前記言語モデルならびに前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果の各受容体配列の前記抽出された潜在的埋め込みを使用して、前記第1のコホートから分岐している前記第2のコホート内の類似の受容体配列を同定することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記潜在的埋め込みを、前記第2のコホートに関連する前記疾患状態に関連付けることと
を含む、方法。
【請求項2】
分類器または回帰器を訓練して、前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記関連付けられた潜在的埋め込みを利用して、前記第2のコホートに関連する前記疾患状態を予測することをさらに含む、請求項1に記載の方法。
【請求項3】
前記分類器または回帰器を訓練する前に、前記類似の受容体配列をフィルタリングして、前記疾患状態に対応する可能性がより高い配列のサブセットを得て、
前記フィルタリングするステップは、
前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果内の前記受容体配列の前記潜在的埋め込みから教師なし最近傍グラフを構築することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列から1つまたはそれを超える受容体配列を、前記1つまたはそれを超える受容体配列が前記第1の複数のシークエンシング結果を有する受容体配列を含むグラフ近傍内にある場合に除外することと
を含み、
前記分類器または回帰器は、前記フィルタリングするステップによって除外されなかった前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記関連付けられた潜在的埋め込みを利用して訓練される、請求項2に記載の方法。
【請求項4】
前記分類器または回帰器を訓練する前に、前記類似の受容体配列をフィルタリングして、前記疾患状態に対応する可能性がより高い配列のサブセットを得て、
前記フィルタリングするステップは、
前記第2の複数のシークエンシング結果内の前記受容体配列の前記潜在的埋め込みから教師なし最近傍グラフを構築することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列から1つまたはそれを超える受容体配列を、前記1つまたはそれを超える受容体配列が前記第2のコホートの少数の個体のみに由来する受容体配列を含むグラフ近傍内にある場合に除外することと
を含み、
前記分類器または回帰器は、前記フィルタリングするステップによって除外されなかった前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記関連付けられた潜在的埋め込みを利用して訓練される、請求項2に記載の方法。
【請求項5】
前記第2の複数のシークエンシング結果に由来する1つまたはそれを超える受容体配列を、その予測される疾患関連に基づいて選択することと、
前記選択された受容体配列を含むタンパク質性種を合成することと
をさらに含む、請求項2に記載の方法。
【請求項6】
前記タンパク質性種が、ペプチド、タンパク質、受容体、または薬用生物製剤のうちの1つである、請求項5に記載の方法。
【請求項7】
前記分類器または回帰器が、抗原に対する既知の相補性で標識された1つまたはそれを超える受容体配列で訓練され、前記抗原が前記第2のコホートの前記疾患状態に関連する、請求項2に記載の方法。
【請求項8】
前記分類器または回帰器が、配列特性で標識された1つまたはそれを超える受容体配列で訓練され、前記配列特性が、結合特異性、結合親和性、pH結合感度、製造可能性、開発可能性、または免疫原性のうちの1つである、請求項2に記載の方法。
【請求項9】
前記第2の複数のシークエンシング結果に由来する1つまたはそれを超える受容体配列を、その予測される配列特性に基づいて選択することと、
前記選択された受容体配列を含むタンパク質性種を合成することと
をさらに含む、請求項8に記載の方法。
【請求項10】
前記タンパク質性種が、ペプチド、タンパク質、受容体、または薬用生物製剤のうちの1つである、請求項9に記載の方法。
【請求項11】
前記言語モデルおよび前記第2のコホートの前記疾患状態に関連付けられた前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記潜在的埋め込みを利用して、de novo受容体配列を生成することをさらに含む、請求項1に記載の方法。
【請求項12】
前記生成されたde novo受容体配列が、前記第2のコホートの前記疾患状態に関連する抗原に相補すると予測され、前記抗原相補性は、クラスタリング法、分類法または回帰法により予測される、請求項11に記載の方法。
【請求項13】
前記生成されたde novo受容体配列を含むタンパク質性種を合成する、請求項11または12に記載の方法。
【請求項14】
前記タンパク質性種が、ペプチド、タンパク質、受容体、または薬用生物製剤のうちの1つである、請求項13に記載の方法。
【請求項15】
B細胞受容体配列またはT細胞受容体配列が疾患状態と関連しているかどうかを予測するための計算方法であって、
受容体配列を取得することであって、前記受容体はB細胞受容体またはT細胞受容体である、取得することと、
言語モデルを使用して、前記受容体配列の潜在的埋め込みを抽出することと、
訓練済み分類器または回帰器および前記受容体配列の潜在的埋め込みを利用して、前記受容体配列に関連する疾患状態を予測することと
を含む、計算方法。
【請求項16】
前記訓練済み分類器または回帰器が、第1の疾患状態に関連する受容体配列の抽出された潜在的埋め込みを利用して訓練されている、請求項15に記載の方法。
【請求項17】
前記第1の疾患状態に関連する各受容体配列が、受容体配列の複数のシークエンシング結果内の受容体配列の類似の抽出された潜在的埋め込みの同定に基づいてその疾患状態に関連しており、前記複数のシークエンシング結果の各シークエンシング結果が、前記第1の疾患状態を有する個体のコホート内の個体に由来する、請求項16に記載の方法。
【請求項18】
受容体配列の前記類似の抽出された潜在的埋め込みが、クラスタリング法、分類法または回帰法によって同定される、請求項17に記載の方法。
【請求項19】
受容体配列の前記類似の抽出された潜在的埋め込みが、
複数のシークエンシング結果に由来する受容体配列の潜在的埋め込みから教師なし最近傍グラフを構築することであって、各シークエンシング結果が個体に由来し、前記複数のシークエンシング結果が個体から少なくとも2つのコホートからの結果を含み、前記少なくとも2つのコホートの各コホートが、前記第1の疾患状態を有する第1のコホートおよび第2の疾患状態を有する第2のコホートを含む、構築することと、
前記第1の疾患状態に関連する1つまたはそれを超える受容体配列を、前記1つまたはそれを超える受容体配列が前記第2の疾患状態に関連する受容体配列を含むグラフ近傍内にある場合に除外することと
によってフィルタリングされる、請求項17に記載の方法。
【請求項20】
受容体配列の前記類似の抽出された潜在的埋め込みが、
複数のシークエンシング結果に由来する受容体配列の潜在的埋め込みから教師なし最近傍グラフを構築することであって、各シークエンシング結果が個体に由来し、前記複数のシークエンシング結果が第1のコホートからの個体からの結果を含み、前記第1のコホートが前記第1の疾患状態に関連する、構築することと、
前記第1の疾患状態に関連する1つまたはそれを超える受容体配列を、前記1つまたはそれを超える受容体配列が前記第1のコホートの少数の個体のみに由来する受容体配列を含むグラフ近傍内にある場合に除外することと
によってフィルタリングされる、請求項17に記載の方法。
【請求項21】
前記訓練済み分類器または回帰器が、複数のセットの受容体配列の抽出された潜在的埋め込みを利用して訓練されており、受容体配列の抽出された潜在的埋め込みの各セットが、固有の疾患状態に関連する、請求項15に記載の方法。
【請求項22】
前記複数のセットの受容体配列の抽出された潜在的埋め込みが、少なくとも3個のセットを含む、請求項21に記載の方法。
【請求項23】
前記複数のセットの受容体配列の抽出された潜在的埋め込みが、少なくとも5個のセットを含む、請求項21に記載の方法。
【請求項24】
前記疾患状態が、活動性免疫学的応答または以前の免疫学的応答である、請求項15に記載の方法。
【請求項25】
前記活動性免疫学的応答が、病原体による活動性感染、自己免疫障害、アレルギー反応、臓器または細胞移植に関連する免疫反応、共生微生物に対する免疫応答、治療薬または他の薬剤に対する免疫応答、癌を標的とする免疫応答、活動性自己免疫反応、最近のワクチン接種、それらの多重、またはそれらの任意の組み合わせである、請求項24に記載の方法。
【請求項26】
病原体による以前の感染、以前のワクチン接種、それらの多重、またはそれらの任意の組み合わせである、請求項24に記載の方法。
【請求項27】
前記分類器または回帰器が、前記言語モデル内に組み込まれる、請求項15に記載の方法。
【請求項28】
前記言語モデルおよび前記分類器が別々である、請求項15に記載の方法。
【請求項29】
前記受容体配列が試料に由来し、前記方法がさらに、
前記試料に由来する複数の受容体配列を取得することであって、各受容体がB細胞受容体またはT細胞受容体である、取得することと、
前記言語モデルを使用して、各受容体配列の潜在的埋め込みを抽出することと、
訓練済み分類器または回帰器および前記受容体配列の前記潜在的埋め込みを利用して、各受容体配列に関連する疾患状態を予測することと、
前記複数の配列予測を集約して前記試料の予測される疾患状態を得ることと
を含む、請求項15に記載の方法。
【請求項30】
前記試料が個体の生物学的試料であり、前記試料の前記予測される疾患状態が前記個体の予測される疾患状態をもたらす、請求項29に記載の方法。
【請求項31】
B細胞またはT細胞受容体配列のシークエンシング結果を使用して、以前の免疫学的応答状態に関連する免疫学的応答を予測するための予測分類器または回帰器を開発するための方法であって、
受容体配列の第1の複数のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、またはB細胞受容体とT細胞受容体との両方であり、前記第1の複数の各シークエンシング結果が第1のコホートの個体の生物学的試料に由来し、前記第1のコホートの各個体が、以前の免疫学的応答を有していない、取得することと、
受容体配列の第2の複数のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、またはB細胞受容体とT細胞受容体との両方であり、前記第2の複数の各シークエンシング結果が、第2のコホートの個体である生物学的試料に由来し、前記第2のコホートの各個体が、前記以前の免疫学的応答を有していた、取得することと、
言語モデルを使用して、前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果の各受容体配列の潜在的埋め込みを抽出することと、
前記言語モデルならびに前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果の各受容体配列の前記抽出された潜在的埋め込みを使用して、前記第1のコホートから分岐している前記第2のコホート内の類似の受容体配列を同定することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記潜在的埋め込みを、前記第2のコホートに関連する前記以前の免疫学的応答に関連付けることと
を含む、方法。
【請求項32】
分類器または回帰器を訓練して、前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記関連付けられた潜在的埋め込みを利用して、前記第2のコホートに関連する前記以前の免疫学的応答を予測することをさらに含む、請求項31に記載の方法。
【請求項33】
前記分類器または回帰器を訓練する前に、前記類似の受容体配列をフィルタリングして、前記以前の免疫学的応答に対応する可能性がより高い配列のサブセットを得て、
前記フィルタリングするステップは、
前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果内の前記受容体配列の前記潜在的埋め込みから教師なし最近傍グラフを構築することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列から1つまたはそれを超える受容体配列を、前記1つまたはそれを超える受容体配列が前記第1の複数のシークエンシング結果を有する受容体配列を含むグラフ近傍内にある場合に除外することと
を含み、
前記分類器または回帰器は、前記フィルタリングするステップによって除外されなかった前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記関連付けられた潜在的埋め込みを利用して訓練される、請求項32に記載の方法。
【請求項34】
前記分類器または回帰器を訓練する前に、前記類似の受容体配列をフィルタリングして、前記以前の免疫学的応答に対応する可能性がより高い配列のサブセットを得て、
前記フィルタリングするステップは、
前記第2の複数のシークエンシング結果内の前記受容体配列の前記潜在的埋め込みから教師なし最近傍グラフを構築することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列から1つまたはそれを超える受容体配列を、前記1つまたはそれを超える受容体配列が前記第2のコホートの少数の個体のみに由来する受容体配列を含むグラフ近傍内にある場合に除外することと
を含み、
前記分類器または回帰器は、前記フィルタリングするステップによって除外されなかった前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記関連付けられた潜在的埋め込みを利用して訓練される、請求項32に記載の方法。
【請求項35】
前記第2の複数のシークエンシング結果に由来する1つまたはそれを超える受容体配列を、その予測される疾患関連に基づいて選択することと、
前記選択された受容体配列を含むタンパク質性種を合成することと
をさらに含む、請求項32に記載の方法。
【請求項36】
前記タンパク質性種が、ペプチド、タンパク質、受容体、または薬用生物製剤のうちの1つである、請求項35に記載の方法。
【請求項37】
前記分類器または回帰器が、抗原に対する既知の相補性で標識された1つまたはそれを超える受容体配列で訓練され、前記抗原が前記第2のコホートの前記疾患状態に関連する、請求項32に記載の方法。
【請求項38】
前記分類器または回帰器が、配列特性で標識された1つまたはそれを超える受容体配列で訓練され、前記配列特性が、結合特異性、結合親和性、pH結合感度、製造可能性、開発可能性、または免疫原性のうちの1つである、請求項32に記載の方法。
【請求項39】
前記第2の複数のシークエンシング結果に由来する1つまたはそれを超える受容体配列を、その予測される配列特性に基づいて選択することと、
前記選択された受容体配列を含むタンパク質性種を合成することと
をさらに含む、請求項38に記載の方法。
【請求項40】
前記タンパク質性種が、ペプチド、タンパク質、受容体、または薬用生物製剤のうちの1つである、請求項39に記載の方法。
【請求項41】
前記言語モデルおよび前記第2のコホートの前記以前の免疫学的応答に関連付けられた前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記潜在的埋め込みを利用して、de novo受容体配列を生成することをさらに含む、請求項31に記載の方法。
【請求項42】
前記生成されたde novo受容体配列が、前記第2のコホートの前記以前の免疫学的応答に関連する抗原に相補すると予測され、前記抗原相補性は、クラスタリング法、分類法または回帰法により予測される、請求項41に記載の方法。
【請求項43】
前記生成されたde novo受容体配列を含むタンパク質性種を合成する、請求項41または42に記載の方法。
【請求項44】
前記タンパク質性種が、ペプチド、タンパク質、受容体、または薬用生物製剤のうちの1つである、請求項43に記載の方法。
【請求項45】
免疫学的予測モデルのアンサンブルを利用して個体の健常状態を予測するための計算方法であって、
受容体配列のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、またはB細胞受容体とT細胞受容体との両方であり、前記シークエンシング結果が個体の生物学的試料に由来する、取得することと、
受容体配列の前記取得されたシークエンシング結果を使用して、健常状態をもたらす2つまたはそれを超える訓練済み分類器または回帰器の各分類器または回帰器からの健常状態の確率を計算することであって、前記2つまたはそれを超える訓練済み分類器または回帰器は、抽出された潜在的埋め込みに基づいて健常状態を予測するように訓練された分類器または回帰器、活動性免疫学的応答を検出するように訓練された分類器または回帰器、集約レパートリー組成に基づいて健常状態を予測するように訓練された分類器または回帰器、およびクラスターメンバーシップに基づいて健常状態を予測するように訓練された分類器から選択される、計算することと、
2つまたはそれを超える訓練済み分類器の各分類器からの健常状態の確率を確率ベクターに変換することと、
訓練済み分類器および前記確率ベクターを利用して、全体的な健常状態を予測することと
を含む、計算方法。
【請求項46】
健常状態の確率が、以下の3つの訓練済み分類器または回帰器:抽出された潜在的埋め込みに基づいて健常状態を予測するように訓練された前記分類器または回帰器、活動性免疫学的応答を検出するように訓練された前記分類器または回帰器、集約レパートリー組成に基づいて健常状態を予測するように訓練された前記分類器または回帰器、およびクラスターメンバーシップに基づいて健常状態を予測するように訓練された前記分類器のいずれかまたはすべてから計算され、前記3つの訓練済み分類器の各分類器からの前記健常状態の前記確率が確率ベクターに変換される、請求項45に記載の方法。
【請求項47】
前記健常状態が、活動性免疫学的活動、活動性病原体感染、最近のワクチン接種、活動性自己免疫応答、免疫不全、特定のタイプの以前のもしくは活動性の免疫学的活動、特定の病原体の以前のもしくは活動性の病原体感染、特定のワクチンの以前のもしくは最近のワクチン接種、特定の障害の以前のもしくは活動性の自己免疫応答、特定の障害の以前のもしくは活動性の免疫不全、それらのサブタイプ、および/またはそれらの任意の組み合わせである、請求項45または46に記載の方法。
【請求項48】
前記健常状態の前記計算された確率が、前記計算に人口統計学的データを組み込むことによってさらにコンテキスト化される、請求項47に記載の方法。
【請求項49】
前記健常状態の前記計算された確率が、人口統計学的データを回帰することによって計算される、請求項47に記載の方法。
【請求項50】
免疫学的予測モデルのアンサンブルを利用して個体の人口統計学的属性を予測するための計算方法であって、
受容体配列のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、またはB細胞受容体とT細胞受容体との両方であり、前記シークエンシング結果が個体の生物学的試料に由来する、取得することと、
受容体配列の前記取得されたシークエンシング結果を使用して、健常状態をもたらす2つまたはそれを超える訓練済み分類器または回帰器の各分類器または回帰器からの人口統計学的属性の確率を計算することであって、前記2つまたはそれを超える訓練済み分類器または回帰器は、抽出された潜在的埋め込みに基づいて健常状態を予測するように訓練された分類器または回帰器、活動性免疫学的応答を検出するように訓練された分類器または回帰器、集約レパートリー組成に基づいて健常状態を予測するように訓練された分類器または回帰器、およびクラスターメンバーシップに基づいて健常状態を予測するように訓練された分類器から選択される、計算することと、
2つまたはそれを超える訓練済み分類器の各分類器からの人口統計学的属性の確率を確率ベクターに変換することと、
訓練済み分類器および前記確率ベクターを利用して、全体的な人口統計学的属性状態を予測することと
を含む、計算方法。
【請求項51】
前記人口統計学的属性の確率が、以下の3つの訓練済み分類器または回帰器:抽出された潜在的埋め込みに基づいて健常状態を予測するように訓練された前記分類器または回帰器、活動性免疫学的応答を検出するように訓練された前記分類器または回帰器、集約レパートリー組成に基づいて健常状態を予測するように訓練された前記分類器または回帰器、およびクラスターメンバーシップに基づいて健常状態を予測するように訓練された前記分類器のいずれかまたはすべてから計算され、前記3つの訓練済み分類器の各分類器からの健常状態の前記確率が確率ベクターに変換される、請求項50に記載の方法。
【請求項52】
前記人口統計学的属性が、年齢、性別、人種、地域性、または環境暴露である、請求項50または51に記載の方法。
【請求項53】
言語モデルを利用して免疫学的ペプチド配列を解析するための計算方法であって、前記方法が、
言語モデルを取得することと、
複数の免疫学的ペプチド配列を取得することと、
前記言語モデルを利用して、前記複数のペプチド配列の各免疫学的ペプチド配列をベクターに変換することと、
前記言語モデルを使用して、
前記ベクターに基づいて前記複数の免疫学的ペプチド配列の類似の免疫学的ペプチド配列を同定すること、
定義されたタイプもしくはグループの配列に属する個々の免疫学的ペプチド配列の確率を同定すること、
健常関連測定値を有するか、健常関連測定値に属するか、もしくは健常関連測定値を予測する個々の免疫学的ペプチド配列の確率を同定すること、
ペプチド特性を有するか、ペプチド特性に属するか、もしくはペプチド特性を予測する個々の免疫学的ペプチド配列の確率を同定すること、
定義されたタイプもしくは配列グループに属する、これまで観察されていない新たな免疫学的ペプチド配列を生成することと、
言語モデルおよび免疫学的配列もしくは個体を分類するその能力を改善すること、または
分類器を使用して、前記ベクターから導出された表現を生成することであって、前記表現は、前記免疫学的配列を異なるタイプのグループに分類するために使用される、生成することと
のうちの少なくとも1つを実行することと
含む、計算方法。
【請求項54】
B細胞またはT細胞受容体配列のシークエンシング結果を使用して自己免疫疾患に関連する自己免疫応答を予測するための予測分類器または回帰器を開発するための方法であって、前記方法は、
受容体配列の第1の複数のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、もしくはその一部、またはB細胞受容体とT細胞受容体との両方であり、前記第1の複数の各シークエンシング結果が、第1のコホートの健常な個体の生物学的試料に由来し、前記第1のコホートの各個体が、既知の自己免疫障害を有しない、取得することと、
受容体配列の第2の複数のシークエンシング結果を取得することであって、前記受容体が、B細胞受容体、T細胞受容体、もしくはその一部、またはB細胞受容体とT細胞受容体との両方であり、前記第2の複数の各シークエンシング結果が、第2のコホートの個体の生物学的試料に由来し、前記第2のコホートの各個体が、自己免疫障害を有し、前記第2のコホートの各個体が、同じ自己免疫障害を有する、取得することと、
言語モデルを使用して、前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果の各受容体配列の潜在的埋め込みを抽出することと、
前記言語モデルならびに前記第1の複数のシークエンシング結果および前記第2の複数のシークエンシング結果の各受容体配列の前記抽出された潜在的埋め込みを使用して、前記第1のコホートから分岐している前記第2のコホート内の類似の受容体配列を同定することと、
前記第2の複数のシークエンシング結果内の前記類似の受容体配列の前記潜在的埋め込みを、前記第2のコホートに関連する前記自己免疫障害に関連付けることと、
前記関連付けられた潜在的埋め込みに基づいて、同じ自己抗原に結合する可能性が高い類似の配列のセットを同定することと、
インシリコまたは生化学的実験によって自己抗原を同定することと
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2021年11月11日に出願された「Systems and Methods for Evaluating Immunity」と題する米国仮出願第63/263,912号、および2022年4月1日に出願された、「Systems and Methods for Evaluating Immunological Peptide Sequences」と題する米国仮出願第63/362,380号に基づく優先権を主張するものであり、これらの各出願は参照によりその全体が本明細書に組み込まれる。
【0002】
連邦政府による資金提供を受けた研究または開発に関する記載
本発明は、米国国立科学財団から授与された契約DGE1656518の下で政府支援を受けて行われた。政府は、本発明に一定の権利を有する。
【0003】
技術分野
本開示は、概して、免疫状態および疾患状態またはワクチン接種状態の分類を評価することを含む、免疫学的ペプチド配列を評価、最適化および/または生成するためのシステムおよび方法に関する。
【背景技術】
【0004】
背景
B細胞およびT細胞は、病原体およびワクチンに対する適応免疫応答を提供する免疫学的細胞である。B細胞は体液性免疫を提供し、つまり、成熟するとB細胞は抗体を産生し、病原体および他の異物を検出して除去する。T細胞は細胞性免疫を提供し、つまり、成熟するとT細胞は、身体の細胞が感染したときまたは細胞の異常な増殖を有しているときを検出し、感染または増殖を除去するために細胞を処置することができる。これらの応答を増強するために、B細胞およびT細胞は、病原体が検出され得るように、病原体を相補し得る受容体を利用する。
【発明の概要】
【課題を解決するための手段】
【0005】
要旨
いくつかの実施形態は、免疫学的ペプチド配列および/または免疫状態を評価するためのシステムおよび方法に関する。多くの実施形態では、予測分類器(classifier)または回帰器(regressor)が、B細胞受容体およびT細胞受容体の配列を利用して、個体の免疫状態を予測する。いくつかの実施形態では、予測分類器または回帰器が、B細胞受容体およびT細胞受容体の配列を利用して、個体の以前の免疫学的曝露を予測する。多くの実施形態では、予測モデルが、免疫学的ペプチド配列または免疫学的ペプチドをコードするヌクレオチド配列の潜在的埋め込みを抽出するための言語モデルを組み込む。いくつかの実施形態では、訓練済み分類器または回帰器を利用して、B細胞受容体およびT細胞受容体配列の個体のレパートリーを利用して、個体の免疫学的または病原性疾患状態、ワクチン接種状態、または以前の病原体曝露を予測する。いくつかの実施形態では、計算システムが、B細胞受容体およびT細胞受容体配列を健常状態と関連付けるために利用され、それには、活動性免疫学的活動、活動性病原体感染、最近のワクチン接種、活動性自己免疫応答、免疫不全、特定のタイプの以前のもしくは活動性の免疫学的活動、特定の病原体の以前のもしくは活動性の病原体感染、特定のワクチンの以前のもしくは最近のワクチン接種、特定の障害の以前のもしくは活動性の自己免疫応答、特定の障害の以前のもしくは活動性の免疫不全、それらのサブタイプ、および/またはそれらの任意の組み合わせが含まれ得る。いくつかの実施形態では、計算システムは、類似のB細胞受容体およびT細胞受容体配列を同定するための言語モデルを組み込む。いくつかの実施形態では、計算システムは、受容体配列特性、例えば特定の抗原との相補性、結合特異性、結合親和性、pH結合感度、製造可能性、開発可能性、免疫原性、または任意の他の配列関連特性を評価するための言語モデルを含む。
【0006】
明細書および特許請求の範囲は、以下の図およびデータグラフを参照してより完全に理解されるであろうが、これらは、本開示の例示的な実施形態として提示されており、本開示の範囲の完全な列挙として解釈されるべきではない。
【図面の簡単な説明】
【0007】
【
図1】様々な実施形態に従って言語モデルを使用してペプチド配列の埋め込み表現を抽出する方法のフロー図を提供する。
【0008】
【
図2】様々な実施形態に従って言語モデルを使用してB細胞受容体およびT細胞受容体ペプチド配列の潜在的埋め込みを抽出する方法のフロー図を提供する。
【0009】
【
図3】様々な実施形態に従って活動性免疫学的応答を検出するための分類器を生成する方法のフロー図を提供する。
【0010】
【
図4】様々な実施形態に従って言語モデルを使用してB細胞受容体およびT細胞受容体ペプチド配列をクラスタリングする方法のフロー図を提供する。
【0011】
【
図5】様々な実施形態に従って免疫学的ペプチド配列に基づいて個体の健常状態を評価する方法のフロー図を提供する。
【0012】
【
図6】様々な実施形態に従って計算処理システムの概念図を提供する。
【0013】
【
図7】一実施形態に従って免疫学的診断のための機械学習のフレームワークの概略図を提供する。
【
図8】一実施形態に従って免疫学的診断のための機械学習のフレームワークの概略図を提供する。
【0014】
【
図9】様々な実施形態に従って言語モデルの微調整の結果を示すデータグラフを提供する。
【0015】
【
図10】一実施形態に従って免疫状態を予測するためのアンサンブル分類パイプラインの概略図を提供する。
【0016】
【
図11】様々な実施形態に従って生成された、B細胞レパートリーおよびT細胞レパートリーの3つの機械学習モデルのアンサンブルによる、ホールドアウトされた試験データに対する疾患分類性能を提供する。
【0017】
【
図12】様々な実施形態に従って生成された、各クラスを予測するためのアンサンブルモデル特徴寄与の結果を、特徴がBCR情報またはTCR情報から抽出されたかで要約したものを提供する。
【0018】
【
図13A】様々な実施形態に従って生成された、LASSOモデル内の特徴の重要性の概略図を提供する。
【
図13B】様々な実施形態に従って生成された、サポートベクターマシンモデル内の特徴の重要性の概略図を提供する。
【
図13C】様々な実施形態に従って生成された、ランダムフォレストモデル内の特徴の重要性の概略図を提供する。
【0019】
【
図14】様々な実施形態に従って生成された、上位2つの予測されたクラス確率間の差によって測定される、正確な予測対不正確な予測のモデル予測信頼度のデータグラフを提供する。差が大きいほど、モデルは、獲得する疾患ラベルを予測するその決定がより確実であることを意味し、一方で、差が小さいほど、上位2つの可能な予測が五分五分であったことを示唆する。
【0020】
【
図15A】様々な実施形態に従って生成された、BCRモデルにおける人口統計学的データに基づく分類予測性能を提供する。
【
図15B】様々な実施形態に従って生成された、TCRモデルにおける人口統計学的データに基づく分類予測性能を提供する。
【0021】
【
図16】様々な実施形態に従って生成された、人口統計学的特徴のみ(上パネル)、人口統計学的特徴に配列特徴を加えたもの(中パネル)、および退行した人口統計学的特徴のみ(下パネル)のみに基づく分類性能を提供する。
【0022】
【
図17】様々な実施形態に従って生成された、疾患に関連することが知られているIGHV遺伝子およびCOVID-19の選択を反映するCDR-H3長さパターンについて高いランクを示している、予測される疾患クラス確率によってランク付けされた疾患患者由来BCR配列を提供する。
【
図18】様々な実施形態に従って生成された、疾患に関連することが知られているIGHV遺伝子および狼瘡の選択を反映するCDR-H3長さパターンについて高いランクを示している、予測される疾患クラス確率によってランク付けされた疾患患者由来BCR配列を提供する。
【
図19】様々な実施形態に従って生成された、疾患に関連することが知られているIGHV遺伝子およびHIVの選択を反映するCDR-H3長さパターンについて高いランクを示している、予測される疾患クラス確率によってランク付けされた疾患患者由来BCR配列を提供する。
【0023】
【
図20A】様々な実施形態に従って生成された、BCRの祖先別に層別化された健常な対照試料におけるIGHV遺伝子使用割合を提供する。
【
図20B】様々な実施形態に従って生成された、TCRの祖先別に層別化された健常な対照試料におけるIGHV遺伝子使用割合を提供する。平均値および95%信頼区間を示す。
【0024】
【
図21A】様々な実施形態に従って生成された、疾患に関連することが知られているTRBV遺伝子およびCOVID-19の選択を反映するCDR-H3長さパターンについて高いランクを示している、予測される疾患クラス確率によってランク付けされた疾患患者由来TCR配列を提供する。
【
図21B】様々な実施形態に従って生成された、疾患に関連することが知られているTRBV遺伝子および狼瘡の選択を反映するCDR-H3長さパターンについて高いランクを示している、予測される疾患クラス確率によってランク付けされた疾患患者由来TCR配列を提供する。
【
図21C】様々な実施形態に従って生成された、疾患に関連することが知られているTRBV遺伝子およびHIVの選択を反映するCDR-H3長さパターンについて高いランクを示している、予測される疾患クラス確率によってランク付けされた疾患患者由来TCR配列を提供する。
【0025】
【
図22】様々な実施形態に従って生成された、COVID-19、HIVおよび狼瘡患者ならびに健常な個体におけるアイソタイプの割合を示すデータグラフを提供する。
【0026】
【
図23】様々な実施形態に従って生成された、予測された疾患クラス確率によってランク付けされ、アイソタイプによってグループ化された疾患患者由来配列を示すデータグラフを提供する。各パネルの各アイソタイプ対ごとに有意性を試験した。****は、両側ウィルコクソン順位和検定によるp<=1e-4を意味し、すべてのパネルのすべての検定にわたってボンフェローニ多重仮説検定補正を行った。
【0027】
【
図24】公知のSARS-CoV-2結合抗体配列の外部データベース全体でのIGHV遺伝子の使用対本明細書に記載の疾患分類モデルを訓練するために使用される独立したコホートでも見出されるサブセットでのIGHV遺伝子使用(上パネル)、および公知のSARS-CoV-2結合抗体配列の外部データベース全体でのエピトープ特異性対様々な実施形態に従って生成された、本明細書に記載の疾患分類モデルを訓練するために使用される独立したコホートでも見出されるサブセットでのエピトープ特異性(下パネル)を示すデータグラフを提供する。
【0028】
【
図25】様々な実施形態に従って生成された、モデルによって他の配列よりも有意に高くランク付けされた既知のSARS-CoV-2結合体に収束するデータのBCR配列のデータグラフを提供する(片側ウィルコクソン順位和検定、U統計量=5.2e8、p値約0)。非重複配列は、文献でまだ同定されていない追加のSARS-CoV-2結合体を含み得る。
【0029】
【
図26】様々な実施形態に従って利用されるクロスバリデーション戦略の概略図を提供する。
【0030】
【
図27】様々な実施形態に従って生成されたkBETバッチ効果測定値のデータテーブルを提供する。配列の局所的近傍におけるバッチ分布がグローバルバッチ分布と同じであるという帰無仮説の平均棄却率(3 foldにわたる標準偏差を報告する)。0に近いほど帰無仮説はほとんど棄却されないことを示し、バッチが十分に混合されていることを示唆する。
【0031】
【
図28A】様々な実施形態に従って生成された、各コホートにおけるIGHV遺伝子割合を提供し、各V遺伝子が任意の疾患コホートに占める割合が最も高いかを計算し、これらの割合の中央値をプロットした(破線を重ねた)。
【
図28B】様々な実施形態に従って生成された、各コホートにおけるTRBV遺伝子割合を提供し、各V遺伝子が任意の疾患コホートに占める割合が最も高いかを計算し、これらの割合の中央値をプロットした(破線を重ねた)。次いで、少なくとも1つの疾患において紫色の破線を超えなかった希少V遺伝子をフィルタリング除去した。
【0032】
【
図29A】様々な実施形態に従って生成された、希少V遺伝子をフィルタリング除去した後のIGHV遺伝子が疾患別にどの程度行きわたっているかを表す積み重ねられた棒グラフを提供する。
【
図29B】様々な実施形態に従って生成された、希少V遺伝子をフィルタリング除去した後のTRBV遺伝子が疾患別にどの程度行きわたっているかを表す積み重ねられた棒グラフを提供する。
【発明を実施するための形態】
【0033】
詳細な説明
ここで図面およびデータに目を向けると、免疫学的ペプチド配列を評価するためのシステムおよび方法の様々な実施形態が記載されている。いくつかの実施形態では、言語モデルを利用して、各配列から潜在的特性を抽出することによって免疫学的ペプチド配列の意味論を解釈する。多くの実施形態では、言語モデルは、免疫学的ペプチド配列を、ペプチド配列の抽出された潜在的埋め込みを有するベクターに変換する。様々な実施形態は、抽出された埋め込みを介してペプチド配列を分析する。いくつかの実施形態では、抽出された埋め込みは、類似性によってクラスタリングされ、同様の特性を有するペプチドのクラスターを明らかにする。いくつかの実施形態では、分類器は、抽出された埋め込みに基づいて免疫学的特性を予測するために生成される。いくつかの実施形態では、分類器を利用して、特定のペプチドの機能を予測する。例えば、特定のペプチドの抗原相補性を予測することができる。いくつかの実施形態では、分類器を利用して、ペプチドのコレクションのグローバル予測を行う。例えば、個体の免疫状態は、それらのB細胞受容体および/またはT細胞受容体ペプチドのコレクションをサンプリングすることによって予測することができる。いくつかの実施形態では、特定の生物学的特性を有するであろうde novo免疫学的ペプチド配列が合成される。
【0034】
いくつかの実施形態では、言語モデルを利用して、B細胞受容体および/またはT細胞受容体の相補性決定領域(CDR)ペプチド配列を介して免疫状態を解釈する。多くの実施形態では、言語モデルは、B細胞受容体および/またはT細胞受容体配列の潜在的埋め込みを抽出する。いくつかの実施形態では、B細胞受容体および/またはT細胞受容体ペプチド配列は、各コホートが特定の健常状態を有する個体のコホートに由来し、分類器は、コホート配列の抽出された埋め込みを利用して健常状態を予測するように訓練される。多くの実施形態では、de novo B細胞および/またはT細胞CDRペプチド配列は、特定の健常状態に関連する抗原を相補する能力を有する潜在的埋め込みに基づいて生成される。例えば、コロナウイルス、インフルエンザ、または他の病原体に相補的なde novo B細胞およびT細胞CDRペプチド配列を生成することができる。
【0035】
いくつかの実施形態はまた、個体(例えば、活動性病原体感染または最近のワクチン接種または急性自己免疫障害)における活動性免疫学的活動を検出するための分類器を生成および訓練することに関する。したがって、多くの実施形態では、分類器を訓練するために、1つのベースラインコホートおよび少なくとも1つの免疫学的に活動性のコホートに対するB細胞受容体および/またはT細胞受容体のペプチド配列が取得される。いくつかの実施形態では、分類器は、個体内の免疫学的に活動性の応答を検出するための特徴として、変異V遺伝子配列割合、V遺伝子カウント、および/またはJ遺伝子カウントを利用する。この全体的なレパートリー組成に基づく分類器は、多岐にわたる分類器出力を有し得る。いくつかの実施形態では、予測タスクは、個体が免疫学的に活動性であるか健常であるかを検出することである。いくつかの実施形態では、予測タスクは、個体の特定の疾患または免疫障害のタイプを検出することである。いくつかの実施形態では、予測タスクは、年齢、性別、または祖先のような特定の属性を予測することである。
【0036】
多くの実施形態は、健常状態に基づくB細胞受容体および/またはT細胞受容体のクラスタリングに基づいて健常状態を予測するための分類器を生成することに関する。したがって、いくつかの実施形態では、各々が特定の健常状態を有する個体の少なくとも2つのコホートについてのB細胞受容体および/またはT細胞受容体のペプチド配列が取得され、配列に基づいてクラスタリングされる。多くの実施形態では、特定の健常状態に関連するクラスター内のB細胞受容体および/またはT細胞受容体のペプチド配列のメンバーシップが、分類器を訓練するために利用される。
【0037】
いくつかの実施形態は、個体の免疫学的状態を評価するための1つまたはそれを超える訓練済み計算モデルの利用に関する。いくつかの実施形態では、B細胞またはT細胞ペプチド配列が、1つまたはそれを超える訓練済みモデルの中で利用されて、以下の免疫状態:活動性免疫学的活動、活動性病原体感染、最近のワクチン接種、活動性自己免疫応答、免疫不全、特定のタイプの以前のもしくは活動性の免疫学的活動、特定の病原体の以前のもしくは活動性の病原体感染、特定のワクチンの以前のもしくは最近のワクチン接種、特定の障害の以前のもしくは活動性の自己免疫応答、特定の障害の以前のもしくは活動性の免疫不全、それらのサブタイプ、および/またはそれらの任意の組み合わせのうちの1つまたはそれを超えるものが予測される。サブタイプは、(例えば)病原体サブタイプ、自己免疫障害サブタイプ、免疫不全サブタイプ、ワクチンサブタイプなどであり得る任意のより具体的な医学的症状を指し得る。多くの実施形態では、個体の免疫状態は、それらのB細胞受容体および/またはT細胞受容体ペプチド配列に基づいて評価される。いくつかの実施形態では、臨床動作は、それらの免疫状態に基づいて個体に対して行われる。臨床作用としては、(限定されないが)更なる臨床評価、薬物処置、抗ウイルス処置、抗生物質処置、自己免疫障害処置、ワクチン接種、免疫活性化処置、免疫抑制処置、食事の変更、および他の生活習慣の変更が挙げられる。いくつかの実施形態では、個体は、それらの免疫状態に基づいて定期的にモニタリングされ、いくつかの実施形態では、免疫状態の決定は、モニタリング中に規定どおりに更新される。いくつかの実施形態では、訓練済み言語モデルによって提供される抽出された埋め込みは、座標上に視覚的に投影され、免疫学的活動をモニタリングするための視覚的支援を提供する。いくつかの実施形態では、言語モデルから抽出された埋め込みは、訓練済み分類器で利用されて、座標上に視覚的に投影される分類された埋め込みをもたらし、このことがクラス間のより良好な分離をもたらすことができる。いくつかの実施形態では、言語モデルおよび/または分類器は、埋め込みの可視化を改善するために経時的に更新される。いくつかの実施形態では、免疫学的活動の可視化は、臨床作用を行うために利用される。
【0038】
多くの実施形態は、B細胞またはT細胞ペプチド配列評価に基づく抗原相補的なペプチド、タンパク質、および/または細胞の開発に関する。いくつかの実施形態では、B細胞またはT細胞ペプチド配列(特にCDR配列)は、特定の免疫学的応答、特定の抗原との相補性、結合特異性、結合親和性、pH結合感度、製造可能性、開発可能性、免疫原性、および/または受容体配列に関連する任意の他の特性を提供する能力について評価される。いくつかの実施形態では、評価されるB細胞またはT細胞ペプチド配列は、個体、特に活動性および/または最近の免疫学的応答の下にある個体に由来する。いくつかの実施形態では、評価されるB細胞またはT細胞ペプチド配列は、言語モデルを利用して生成されたde novo配列である。評価の際、様々な実施形態に従って、B細胞またはT細胞ペプチド配列は、抗原相補的なペプチド、タンパク質、および/または細胞内で利用される。抗原相補的なペプチドおよびタンパク質としては、(限定されないが)免疫グロブリン(Ig)、モノクローナル抗体、ナノボディ、B細胞受容体、T細胞受容体、キメラ抗原受容体(CAR)、CDRペプチド、および抗原相補性を有するその任意の部分ペプチドが挙げられる。抗原相補的細胞としては、(限定されないが)B細胞、T細胞、CAR T細胞、およびハイブリドーマ細胞が挙げられる。
【0039】
本開示全体を通して、出力を予測または推測するための計算モデルが記述されている。様々な計算モデルは、分類器または回帰器として機能することができることを理解されたい。分類器という用語が様々な計算モデルを記述するために利用される場合、出力がカテゴリーのみであり得る場合を除き、分類器の任意の記述は回帰器を指すこともできることを理解されたい。同様に、回帰器という用語が様々な計算モデルを記述するために利用される場合、出力が数値のみであり得る場合を除き、回帰器の任意の記述は分類器を指すことができることを理解されたい。したがって、分類器という用語または回帰器という用語は、特定の出力が記載されていない限り、または代替の出力が別の方法で不可能でない限り、特定の計算関数に限定されるべきではない。
【0040】
受容体配列という用語は、免疫学的受容体、特にB細胞受容体およびT細胞受容体の配列を指す。受容体配列は、完全または部分配列であり得ることを理解されたい。したがって、受容体配列は、重鎖配列、軽鎖配列、重鎖および軽鎖配列、単一のCDR配列、CDR配列のセット、可変領域配列、定常領域配列、α鎖配列、β鎖配列、γ鎖配列、δ鎖配列、またはそれらの任意の部分配列のいずれかを指すことができる。受容体配列はまた、完全な受容体配列からの連結された領域、例えばCDR1、CDR2およびCDR3領域の連結を指すこともできる。
【0041】
免疫学的ペプチド配列評価
いくつかの実施形態は、言語モデルを使用した免疫学的ペプチド配列の評価に関する。多くの実施形態では、ペプチド配列の潜在的特性を抽出するために言語モデルが利用される。抽出された潜在的埋め込みを利用して、評価のためにペプチド配列をベクターに変換する。いくつかの実施形態では、ベクターをクラスタリングして、類似の特性および/または機能を有するペプチドを同定することができる。いくつかの実施形態では、特定の特性および/または機能を有する特定のペプチド配列の確率が決定される。いくつかの実施形態では、予測された特性および/または機能を有するde novoペプチド配列が生成される。いくつかの実施形態では、潜在的言語モデルは、それ自体を改善するために利用される。それ自体を改善するために、言語モデルは、その内部抽出された特徴を変更して、配列の再構成誤差を低減することができる。いくつかの実施形態では、言語モデルは、最初に一般的なタンパク質クラスで訓練されてグローバルルールを学習し、次いで免疫学特異的配列パターンの再構成誤差を低減するためにさらに洗練され得る。いくつかの実施形態では、抽出された埋め込みは、ベクターから生成され、特定の特性および/または機能を有するものとして配列を分類するための分類器を構築するために利用される。いくつかの実施形態では、抽出された埋め込みは、配列のコレクションを可視化するために座標上に投影される(例えば、個体のB細胞受容体またはT細胞受容体のレパートリー)。いくつかの実施形態では、配列のコレクションの可視化は、免疫学的ペプチド分類の迅速な解釈を可能にし、したがって(例えば)特定の免疫学的活動、特定の病原性感染、特定の自己免疫障害、特定のワクチン接種状態、または特定の免疫不全障害などの複数の免疫学的症状の全体的な免疫状態を迅速に決定する。
【0042】
図1には、言語モデルを使用して免疫学的ペプチド配列の潜在的埋め込みを抽出するための計算方法が提供される。方法100は、免疫学的ペプチドのコレクションのシークエンシングデータを取得すること(101)から始まる。ペプチドシークエンシングデータは、任意の適切な方法によって取得することができる。一般に、核酸分子および/またはタンパク質性種は、生物学的試料から抽出され、シークエンシングのために前処理される。任意のシークエンシング方法を利用することができる。核酸を利用する様々な実施形態では、ハイスループットシークエンシングは、Illumina社(カリフォルニア州サンディエゴ)によって製造されたものなどのシーケンサーを利用して行われる。タンパク質性種を利用する様々な実施形態では、質量分析を利用してハイスループットシークエンシングが行われる。さらに、生物学的試料は、分析される免疫学的ペプチドを有する任意の試料であり得る。生物学的試料には、(限定されないが)インビボ試料、インビトロ試料、抽出されたタンパク質性種、単離されたタンパク質性種、合成されたタンパク質性種、動物組織、動物生検、体液(例えば、血液)、細胞培養物、単一細胞、健常な試料、および医学的障害の試料生検が挙げられる。様々な実施形態では、シークエンシングデータは、少なくとも10,000個のペプチド配列、100,000個のペプチド配列、少なくとも1,000,000個のペプチド配列、少なくとも10,000,000個のペプチド配列、少なくとも100,000,000個のペプチド配列、少なくとも1,000,000,000個のペプチド配列、少なくとも10,000,000,000個のペプチド配列、少なくとも100,000,000,000個のペプチド配列、または少なくとも1,000,000,000,000個のペプチド配列を含む。
【0043】
方法100は、言語モデルを利用してシークエンシングデータの各ペプチド配列の潜在的埋め込みを抽出する(103)。潜在的埋め込みを抽出することができる任意の言語モデルを利用することができる。(例えば)ニューラルネットワーク、k-mer埋め込み、ユニグラムモデル、n-gramモデル、指数モデルなどの様々なタイプの言語モデルを利用することができる。いくつかの実施形態では、言語モデルは、マスクまたは破壊されたタンパク質配列を再構築するように訓練されたニューラルネットワークである。(例えば)長・短期記憶(LSTM)、トランスフォーマー、および変分オートエンコーダーなど、ニューラルネットワークの様々なアーキテクチャーを利用することができる。多くの実施形態では、言語モデルは、そのアミノ酸長にかかわらず、各ペプチド配列の潜在的埋め込みを抽出することができる。
【0044】
いくつかの実施形態では、潜在的言語モデルは、特徴を抽出し、特徴をベクターに変換する。そのタスクを達成するために、いくつかの実施形態では、言語モデルは、各ペプチド配列を、最適化を通して選択される重要な形質を捉える内部低次元埋め込みに圧縮する。モデル訓練の各反復は、マスクされた配列を圧縮し、次いでマスクされていない配列をその低次元バージョンから復元するために最初に使用される変換のセットを洗練する。多くの実施形態では、より良好な再構成精度をもたらす変換重みが受け入れられる。最終モデルがタンパク質配列を首尾よくマスク解除することができる場合、内部圧縮および非圧縮は、入力配列を要約する基本的な特徴を抽出している。したがって、いくつかの実施形態では、言語モデルは、各配列を訓練および/または評価に利用して改善される。
【0045】
言語モデルを訓練するために、任意のペプチド配列を利用することができる。いくつかの実施形態では、様々な生物学的界全体からの多様なタンパク質セットが利用される。いくつかの実施形態では、特定の種のタンパク質(例えば、ホモサピエンス)が利用される。いくつかの実施形態では、特定のクラスのタンパク質が利用される。例えば、いくつかの実施形態では、B細胞受容体および/またはT細胞受容体配列が利用され、免疫学的言語モデルを提供する。いくつかの実施形態では、ヒトB細胞受容体および/またはT細胞受容体配列が利用される。いくつかの実施形態では、言語モデルは抗体構造情報で微調整される。例えば、事前に訓練済み言語モデルをさらに微調整して、アミノ酸接触マップを予測するための誤差を低減することができる。いくつかの実施形態では、言語モデルは、一般的なタンパク質およびペプチドについて最初に訓練され、次いで特定のクラスの配列についてさらに訓練され、それにより、モデルは、最初に一般的な規則を学習し、次いで特定のクラスのより具体的な規則を学習する。いくつかの実施形態では、訓練は、再構成誤差および/または配列のクラスラベルの知識を含み得る監視を伴って行われる。例えば、既知の抗原相補性を有するB細胞受容体およびT細胞受容体配列は、特定の抗原および/または疾患ラベル(例えば、コロナウイルスおよび/またはCOVID-19および/またはスパイクタンパク質;またはインフルエンザウイルスおよび/またはインフルエンザおよび/またはヘマグルチニン)で標識することができる。いくつかの実施形態では、モデルは、教師なし学習と教師あり学習との混合で訓練される。例えば、言語モデルは、多種の供給源からの非標識タンパク質配列に対して教師なしの方法で訓練することができ、次いで、標識免疫タンパク質配列に対して教師ありの方法で微調整される。
【0046】
方法100は、任意選択的に、類似度によって潜在的埋め込みをクラスタリングする(105)ことができる。ペプチド配列をベクターに変換することにより、ベクターは類似の特性および/または機能を示す潜在的埋め込みに基づくので、ベクターの数値を利用して類似のペプチド配列を見出すことができる。さらに、ペプチド配列を評価して、そのクラスターメンバーシップを決定し、その特性および/または機能の予測を提供することができる。特性および/または機能は、同じ医学的障害または生物学的特性を有する個体に由来する配列を含むクラスターによって決定することができる。
【0047】
方法100はまた、任意選択的に、抽出された潜在的埋め込みに基づいて生物学的特性および/または機能を予測するための分類器または回帰器を生成する(107)。(例えば)ロジスティック回帰、LASSO、勾配ブーストツリー、ニューラルネットワーク、最近傍、決定木、またはサポートベクターマシンなど、任意のタイプの分類器または回帰器を利用することができる。様々な実施形態では、既知のまたは疑われる特性および/または機能を有するペプチド配列を言語モデルで利用して、それらの潜在的埋め込みを抽出することができる。これらの潜在的埋め込みは、ペプチド配列の既知の特性および/または機能に関連し得る。したがって、分類器は、潜在的埋め込みならびに既知の特性および/または機能に基づいて生成することができる。
【0048】
いくつかの実施形態では、分類器は別個のモデルであり、抽出された言語モデル埋め込みを使用する。これらの実施形態では、抽出された潜在的埋め込みは標識され、教師あり訓練に使用される。代替的に、いくつかの実施形態では、分類器は言語モデル内に組み込まれ、言語モデルはペプチド配列に対する監視およびラベルを伴って訓練される。分類器を組み込むか、または分離したままにするかは、部分的には、特定の分類目的のために言語モデルを訓練することが望ましいかどうか、または免疫学的ペプチドを一般的に解釈するように言語モデルを訓練し、その結果、潜在的埋め込みを複数の分類器モデルで利用できるようにすることが望ましいかどうかに依存する。いくつかの実施形態では、分類器が評価され、評価に基づいて、分類能力を改善するために追加のデータを収集することができる。
【0049】
さらに、免疫学的ペプチド配列を言語モデルおよび分類器で利用して、その配列の特性および/または機能を予測することができる。いくつかの実施形態では、未知の特性および/または機能を有するペプチド配列が評価および分類される。
【0050】
いくつかの実施形態では、配列分類は、配列特性に関連し得る。例えば、配列は、特定の予測タスクの分類モデルからの予測確率によってランク付けすることができる。次いで、V遺伝子使用量、CDR3長さ、アイソタイプ使用量、配列モチーフ、ペプチド特性、アミノ酸の構成もしくは組成、またはアミノ酸特性の分布を配列ランクに対して評価することができる。
【0051】
方法100はまた、抽出された埋め込みを座標上に可視化することができ(109)、これにより、分析された配列の様々なコレクションを可視化する能力を可能にし得る。例えば、埋め込みの可視化は、配列のコレクション内の免疫学的活動の容易な同定を可能にする全体的な免疫状態の迅速な決定を可能にし得る。埋め込みを可視化するために、いくつかの実施形態では、UMAPプロットまたはPCAプロットが生成される。いくつかの実施形態では、埋め込み次元の対のプロットが生成され、各次元は予測クラスに対応し得る。いくつかの実施形態では、予測されたクラスのロジットスコアがクラスの対についてプロットされる。
【0052】
いくつかの実施形態では、分析される配列のコレクションは、個体のB細胞受容体および/またはT細胞受容体配列のレパートリーであり、抽出された埋め込みの可視化により、特定の病原体、任意の特定の自己免疫障害、任意の特定の免疫不全障害、および/または特定のワクチンのワクチン接種状態の曝露の容易な同定が可能になる。いくつかの実施形態では、個体のB細胞受容体および/またはT細胞受容体配列のレパートリーが経時的に評価され、抽出された埋め込みの可視化により、特定の病原体、任意の特定の自己免疫障害、任意の特定の免疫不全障害、および/または特定のワクチンのワクチン接種状態の曝露に関連する変化の検出が可能になる。評価することができる変化としては、(限定されないが)新たに獲得された免疫学的活動、免疫学的活動の弱化、および免疫学的活動の全体的な存在または非存在が挙げられ、これらは各々、全体的にまたは1つもしくはそれを超える医学的障害の特定のセットについて評価することができる。したがって、(限定されないが)特定の病原体の感染の獲得、特定の病原体に対する免疫の弱化、自己免疫障害の重症度、自己免疫障害の処置、免疫不全障害の重症度、免疫不全障害の処置、腫瘍性増殖(例えば、癌)の獲得、腫瘍性増殖の重症度、および/または腫瘍性増殖の処置を含む様々な医学的障害をモニタリングすることができる。
【0053】
いくつかの実施形態は、座標上の抽出された埋め込みの可視化に基づいて臨床動作を行うことに関する。抽出された埋め込みの可視化によって行われる評価に応じて、免疫学的活動および/または免疫学的活動の変化が検出された場合に臨床動作を行うことができる。臨床動作としては、(限定されないが)更なる臨床評価、薬物処置、抗ウイルス処置、抗生物質処置、自己免疫障害処置、ワクチン接種、免疫活性化処置、免疫抑制処置、食事の変更、および他の生活習慣の変更が挙げられる。例えば、医学的障害(例えば、病原性感染、自己免疫障害、免疫不全障害、腫瘍性増殖など)が検出されると、個体をさらに評価して、医学的障害の状態を確認し、および/または医学的障害について処置することができる。場合によっては、医学的障害の重症度および/または処置の成功が経時的にモニタリングされ、重症度および/または成功の変化に基づいて、処置レジメンの修正が行われる。場合によっては、特定の抗原に対する免疫の維持がモニタリングされ、場合によっては、免疫が弱化したときに特定の病原体の再ワクチン接種が行われ、または忍容性が弱化した場合にはアレルギー免疫療法が繰り返され、または残存疾患、癌再発、もしくは処置に対する応答不良の場合には癌免疫療法が繰り返され、または場合によっては、免疫が弱化したときに自己免疫障害の処置が修正および/または中止される。
【0054】
方法100はまた、任意選択的に、de novo免疫学的ペプチド配列を生成することもできる(111)。de novoペプチド配列は、言語モデルおよび埋め込みに基づいてインシリコで生成された配列である。いくつかの実施形態では、クラスタリング法、分類法、および/または可視化法によって決定することができるように、de novoペプチド配列は、予測された特性および/または機能を有するように生成される。いくつかの実施形態では、生成されたde novoペプチド配列を利用して、ペプチド、タンパク質、受容体、薬用生物製剤、または他のタンパク質性種を合成する。ペプチド、タンパク質、もしくは他のタンパク質性種は、化学的に合成することができ(例えば、固相ペプチド合成)、または生物学的に合成することができる(例えば、組換え発現系)。
【0055】
de novo配列を生成するための1つの例示的な方法では、いくつかの特異的抗原相補性を有すると予測されるか、そうでなければ特定の疾患に関連するVセグメントおよびJセグメントが開発され、選択される。VセグメントおよびJセグメントを同じに保ちながら、CDR3配列を変異させる。BCR de novo配列を生成する場合、CDR1およびCDR2も同様に変異させることができる。変異配列を、予測モデルを介してインシリコでスコア化する。さらに、スコア化された配列に対する更なる変異分析を反復的に行って、結合能が増強された配列を見出すことができる。さらに、予測モデルはまた、様々な配列特性を組み込むことができ、配列は、これらの特性に基づいてさらにスコア化および選択することができる。有用であり得る配列特性としては、(限定されないが)特定の抗原との相補性、結合特異性、結合親和性、pH結合感度、製造可能性、開発可能性、または免疫原性が挙げられる。スコアおよび/または所望の特性に基づいて、タンパク質性種(例えば、ペプチド、受容体、薬用生物製剤などの合成)の合成のために配列を選択することができる。
【0056】
言語モデルを利用してペプチド配列の潜在的埋め込みを抽出するためのプロセスの具体例が上記に記載されているが、当業者は、本発明のいくつかの実施形態によれば、プロセスの様々なステップを異なる順序行うことができ、ある特定のステップが任意であり得ることを理解することができる。したがって、プロセスの様々なステップを特定の用途の要件に適切に使用できることは明らかである。さらに、所与の適用の要件に適した言語モデルを利用してペプチド配列の潜在的埋め込みを抽出するための様々なプロセスのいずれも、本発明の様々な実施形態に従って利用することができる。
【0057】
免疫評価
いくつかの実施形態は、免疫を評価するための1つまたはそれを超えるモデルを使用したB細胞受容体および/またはT細胞受容体配列の評価に関する。多くの実施形態では、免疫を評価するために、B細胞受容体および/またはT細胞受容体の配列が利用される。いくつかの実施形態では、免疫を評価するために、B細胞受容体および/またはT細胞受容体のCDR1配列、CDR2配列、CDR3配列、V遺伝子セグメント選択、またはそれらの任意の組み合わせが利用される。個体のHLA型もT細胞受容体評価に使用することができる。(限定されないが)タンパク質配列言語モデル、言語モデルによって抽出された抽出された潜在的埋め込みに基づいて免疫状態を予測するための分類器、活動性免疫応答を予測するための分類器、配列類似性に基づいてペプチドをクラスタリングするためのクラスタリングモデル、および免疫状態に基づくペプチド配列クラスターメンバーシップを評価するための分類器を含む様々な計算モデルを利用して、免疫を評価するためにB細胞受容体および/またはT細胞受容体配列を分析することができる。
【0058】
いくつかの実施形態は、免疫状態の一部として特定の免疫学的応答を決定するために言語モデルおよび分類器を利用してB細胞受容体および/またはT細胞受容体配列を評価することに関する。
図2には、B細胞受容体および/またはT細胞受容体配列の潜在的埋め込みを抽出し、分類器を利用して健常状態を予測するための計算方法が提供される。方法200は、各コホートが健常状態を有する、個体の少なくとも2つのコホートに由来するB細胞受容体および/またはT細胞受容体のシークエンシングデータを取得する(201)。様々な実施形態では、シークエンシングデータは、個体あたり少なくとも100,000個のユニークな受容体配列、個体あたり少なくとも1,000,000個のユニークな受容体配列、個体あたり少なくとも10,000,000個のユニークな受容体配列、個体あたり少なくとも100,000,000個のユニークな受容体配列、個体あたり少なくとも1,000,000,000個のユニークな受容体配列、個体あたり少なくとも10,000,000,000個のユニークな受容体配列、個体あたり少なくとも100,000,000,000個のユニークな受容体配列、または個体あたり少なくとも1,000,000,000,000個のユニークな受容体配列を含む。様々な実施形態では、シークエンシングデータは、コホートあたり少なくとも10人、コホートあたり少なくとも100人、コホートあたり少なくとも1000人、またはコホートあたり少なくとも10,000人を含む。
【0059】
健常状態は、(限定されないが)健常、活動性免疫学的応答、および以前の免疫学的応答を含む、B細胞またはT細胞免疫に関連する任意の状態であり得る。健常状態とは、ベースライン比較として利用することができる個体を指し、つまり、個体は、特定の活動性または以前の免疫学的応答に影響されていない。活動性免疫学的応答とは、活動性B細胞またはT細胞の生成をもたらす特定の免疫学的応答を有する個体を指す。活動性免疫学的応答としては、(限定されないが)活動性病原体感染、自己免疫障害、活動性急性自己免疫反応、最近のワクチン接種、それらの多重(例えば、2つの活動性病原体感染)、およびそれらの任意の組み合わせ(例えば、活動性病原体感染および活動性ワクチン接種)が挙げられる。以前の免疫学的応答とは、B細胞またはT細胞の生成をもたらす免疫学的応答を有するが、B細胞またはT細胞をもはや活動的に産生または刺激していない個体を指すが、休止期のメモリーB細胞またはT細胞が循環している場合もある。以前の免疫学的応答としては、(限定されないが)以前の病原性感染、以前のワクチン接種、それらの多重(例えば、2回の以前の病原性感染)、およびそれらの任意の組み合わせ(例えば、以前の病原性感染および以前のワクチン接種)が挙げられる。いくつかの実施形態では、コホートは、(例えば)活動性SARS-COV2感染、以前のSARS-COV2感染、最近のCOVID-19ワクチン接種、以前のCOVID-19ワクチン接種、活動性全身性エリテマトーデス(SLE)障害、および急性SLEフレアなどの特定の免疫学的応答を有することによって定義される。いくつかの特定の免疫学的応答のみが例として提供されるが、コホートは、任意の特定の免疫学的応答または2つもしくはそれを超える免疫応答の組み合わせによって定義され得ることを理解されたい。
【0060】
シークエンシングデータは、B細胞受容体および/またはT細胞受容体、特にCDR領域のペプチド配列を含むべきである。ペプチド配列を生成するために、いくつかの実施形態では、遺伝物質(例えば、DNAまたはRNA)をB細胞および/またはT細胞から抽出し、核酸シーケンサーを利用して配列決定し、核酸シークエンシング結果からペプチド配列を推測する。
【0061】
方法200は、言語モデルを利用して、シークエンシングデータの各受容体配列の潜在的埋め込みを抽出する(203)。潜在的埋め込みを抽出することができる任意の言語モデルを利用することができる。(例えば)ニューラルネットワーク、k-mer埋め込み、ユニグラムモデル、n-gramモデル、指数モデルなどの様々なタイプの言語モデルを利用することができる。いくつかの実施形態では、言語モデルは、マスクまたは破壊されたタンパク質配列を再構築するように訓練されたニューラルネットワークである。(例えば)長・短期記憶(LSTM)、トランスフォーマー、および変分オートエンコーダーなど、ニューラルネットワークの様々なアーキテクチャーを利用することができる。多くの実施形態では、言語モデルは、そのアミノ酸長にかかわらず、各ペプチド配列の潜在的埋め込みを抽出することができる。
【0062】
B細胞受容体およびT細胞受容体配列を利用して言語モデルを訓練し、免疫学的言語モデルを提供することができる。いくつかの実施形態では、ヒトB細胞受容体および/またはT細胞受容体配列が利用される。
【0063】
いくつかの実施形態では、潜在的言語モデルは、特徴を抽出し、特徴をベクターに変換する。そのタスクを達成するために、いくつかの実施形態では、言語モデルは、各ペプチド配列を、最適化を通して選択される重要な形質を捉える内部低次元埋め込みに圧縮する。モデル訓練の各反復は、マスクされた配列を圧縮し、次いでマスクされていない配列をその低次元バージョンから復元するために最初に使用される変換のセットを洗練する。多くの実施形態では、より良好な再構成精度をもたらす変換重みが受け入れられる。最終モデルがタンパク質配列を首尾よくマスク解除することができる場合、内部圧縮および非圧縮は、入力配列を要約する基本的な特徴を抽出している。したがって、いくつかの実施形態では、言語モデルは、各配列を訓練および/または評価に利用して改善される。
【0064】
多くの実施形態では、各配列の抽出された潜在的埋め込みは、数値ベクターに変換され、これは、同様の抗原相補性を有する配列ベクターを同定するためにクラスタリングすることができる。少なくとも2つのコホートのクラスターを比較することにより、それらのコホート内の特定のクラスターおよびペプチド配列メンバーを、コホートに関連する特定の健常状態から生じる抗原相補性を有すると同定することができる。
【0065】
方法200は、健常状態を予測するために分類器または回帰器モデルを訓練する(205)ために、特定の健常状態に関連する抽出された潜在的埋め込みを利用することができる。(例えば)ロジスティック回帰、LASSO、勾配ブーストツリー、ニューラルネットワーク、最近傍、決定木、またはSVMなど、任意のタイプの分類器または回帰器を利用することができる。分類器は、言語モデルに組み込むことができ、または言語モデルとは別個のものとすることができる。言語モデルに組み込まれると、分類器は、入力配列を標識することにより監視を伴って訓練することができ、分類は、埋め込みの抽出と同時に行うことができる。分類器が言語モデルから分離されている場合、分類器は、抽出された埋め込みを標識し、埋め込みを入力として利用することにより監視を伴って訓練され得る。分類器モデルは、複数のセットの抽出された潜在的埋め込みで訓練することができ、各セットは特定の健常状態に関連付けられることを理解されたい。抽出された潜在的埋め込みのセットの数は無限であり、したがって、分類器は、無限数の健常状態の健常状態を予測することができる。したがって、様々な実施形態では、少なくとも2個のセットの抽出された潜在的埋め込み、少なくとも3個のセットの抽出された潜在的埋め込み、少なくとも4個のセットの抽出された潜在的埋め込み、少なくとも5個のセットの抽出された潜在的埋め込み、少なくとも6個のセットの抽出された潜在的埋め込み、少なくとも7個のセットの抽出された潜在的埋め込み、少なくとも8個のセットの抽出された潜在的埋め込み、少なくとも9個のセットの抽出された潜在的埋め込み、少なくとも10個のセットの抽出された潜在的埋め込み、または10個を超えるセットの抽出された潜在的埋め込みが分類器を訓練するために利用され、各セットは、固有の疾患状態に関連する個体のコホートに由来する。
【0066】
訓練済み分類器のパラメーターは、最適化および/または微調整することができる。いくつかの実施形態では、分類器の免疫不全および/または特異性は、実行される分類の必要性に適合するように修正することができる。例えば、免疫不全および/または特異性閾値は、免疫学的季節(例えば、インフルエンザの季節)、ウイルスサブタイプの変化(例えば、コロナウイルスバリアントの変化)、またはベースライン感染レベルに基づいて修正され得る。いくつかの実施形態では、分類器は、B細胞受容体配列もしくはT細胞受容体配列を分類すること、または個体を特定の免疫状態を有するものとして分類することを控えるために、棄権を利用する。
【0067】
いくつかの実施形態では、訓練または評価配列は、疾患クラスに対応する可能性が高い配列にフィルタリングすることができる。例えば、教師なし最近傍グラフは、各配列がいくつかの近傍配列に接続された1つのノードである配列埋め込みベクターから構築することができる。ある特定の配列は、それらのグラフ近傍が多くの免疫状態の個体からの配列を含む場合(これらの配列が共通のバックグラウンド配列であり、特定の免疫状態に実際に関連しないことを示すことができる)、またはそれらのグラフ近傍が同じコホートの少数の個体からの配列のみを有する場合(個体間で共有されない希少配列を示すことができる)など、訓練セットから除外することができる。分類性能は、有意味な配列について、またはより高い試料重みが割り当てられたある特定の配列以外のすべての配列について分類器を訓練することによって改善され得る。評価セット配列の場合、訓練セット内のその最近傍も同様のヒューリスティックによって評価することができる。一部の評価セット配列は、全体的なレパートリー分類に含めることに意味がない場合がある。
【0068】
訓練済み分類器を利用して、B細胞受容体配列またはT細胞受容体配列を評価し、配列と何らかの分類との関連(例えば、特定の医学的障害または疾患との関連)を決定することができる。さらに、分類器を利用して、個体のB細胞受容体および/またはT細胞受容体のレパートリーを評価して、個体が特定の健常状態を有するかどうかを判定することができる。いくつかの実施形態では、患者試料レパートリー全体、または配列の他のコレクションに対する分類予測は、個々の配列予測を集約することによって作成される。いくつかの実施形態では、個々の配列予測をトリム平均演算で集約して、レパートリーまたは配列の他のコレクションにおけるバックグラウンドまたはノイズの多い配列に対してロバストな配列分類の中心推定値を生成することができる。いくつかの実施形態では、配列予測は、配列信頼度重みによって集約される。いくつかの実施形態では、配列予測は、最近傍グラフ接続性または他の方法から導き出された配列信頼度を組み込んだ重み付けトリム平均または重み付けおよび/またはトリム中央値などの手法の組み合わせによって集約される。いくつかの実施形態では、分類器が評価され、評価に基づいて、分類能力を改善するために追加のデータを収集することができる。
【0069】
ヒトレベルまたは試料レベルの状態を分類する場合、予測タスクに応じて異なる免疫受容体のコレクションを使用することができる。いくつかの実施形態では、非クラススイッチ型(IgD/IgM)またはクラススイッチ型(IgA/IgG/IgE)B細胞受容体における体細胞高頻度変異を、疾患、健常状態、年齢、性別、祖先、薬歴または環境曝露の予測に使用する。
【0070】
いくつかの実施形態では、分類と関連すると同定されたコホートからの配列が合成されるように選択される。様々な実施形態では、分類器または回帰器によって生成されたスコアは、特定の障害との関連または抗原との相補性などの所望の関連を有する配列を選択するために利用される。いくつかの実施形態では、分類器は、特定の抗原との相補性、結合特異性、結合親和性、pH結合感度、製造可能性、開発可能性、免疫原性、または任意の他の配列関連特性などの既知の特性を有する配列でさらに訓練される。したがって、いくつかの実施形態では、配列は、1つまたはそれを超える配列特性に基づいて選択される。いくつかの実施形態では、選択されたペプチド配列を利用して、化学合成(例えば、固相ペプチド合成)または生物学的に合成(例えば、組換え発現系)することができる抗原相補的タンパク質性種を合成する。ペプチド、タンパク質、受容体、薬用生物製剤、または他のタンパク質性種を合成することができる。
【0071】
方法200はまた、任意選択的に、de novo B細胞受容体またはT細胞受容体ペプチド配列を生成することもできる(207)。de novoペプチド配列は、言語モデルおよび潜在的埋め込みに基づいてインシリコで生成された配列である。いくつかの実施形態では、クラスタリング法および/または分類法によって決定することができるように、de novoペプチド配列は、予測される抗原相補性を有するように生成される。いくつかの実施形態では、de novoペプチド配列を利用して、化学合成(例えば、固相ペプチド合成)または生物学的に合成(例えば、組換え発現系)することができる抗原相補的タンパク質性種を合成する。ペプチド、タンパク質、受容体、薬用生物製剤、または他のタンパク質性種を合成することができる。
【0072】
抽出された潜在的埋め込みに基づいて健常状態を予測するためのプロセスの特定の例を上述したが、当業者は、本発明のいくつかの実施形態によれば、プロセスの様々なステップを異なる順序で実行することができ、特定のステップが任意選択であり得ることを理解することができる。したがって、プロセスの様々なステップを特定の用途の要件に適切に使用できることは明らかである。さらに、所与の適用の要件に適した抽出された潜在的埋め込みに基づいて健常状態を予測するための様々なプロセスのいずれも、本発明の様々な実施形態に従って利用することができる。
【0073】
いくつかの実施形態は、計算モデルを利用して、個体が全体的な免疫状態の決定の一部として活動性免疫応答を有するかどうかを判定することに関する。
図3には、免疫学的応答に関連する活動性免疫学的応答、障害、感染、もしくはワクチン接種があるかどうか、および/または評価される個体の形質(例えば、年齢層)を含む、免疫学的応答の特徴点を検出するための分類器を生成する方法が提供される。方法300は、少なくとも1つのベースラインコホートおよび少なくとも1つの免疫学的に活動性のコホートに由来するB細胞受容体のシークエンシングデータを取得する(301)。様々な実施形態では、シークエンシングデータは、個体あたり少なくとも100,000個のユニークな受容体配列、個体あたり少なくとも1,000,000個のユニークな受容体配列、個体あたり少なくとも10,000,000個のユニークな受容体配列、個体あたり少なくとも100,000,000個のユニークな受容体配列、個体あたり少なくとも1,000,000,000個のユニークな受容体配列、個体あたり少なくとも10,000,000,000個のユニークな受容体配列、個体あたり少なくとも100,000,000,000個のユニークな受容体配列、または個体あたり少なくとも1,000,000,000,000個のユニークな受容体配列を含む。様々な実施形態では、シークエンシングデータは、コホートあたり少なくとも10人、コホートあたり少なくとも100人、コホートあたり少なくとも1000人、またはコホートあたり少なくとも10,000人を含む。
【0074】
少なくとも1つの免疫学的に活動性のコホートは、活動性免疫応答、特に成熟したB細胞刺激をもたらす急性免疫応答を有する個体のコレクションであり得る。活動性免疫学的応答としては、(限定されないが)活動性病原体感染、自己免疫障害、活動性急性自己免疫反応、免疫機能障害、最近のワクチン接種、それらの多重(例えば、2つの活動性病原体感染)、およびそれらの任意の組み合わせ(例えば、活動性病原体感染および活動性ワクチン接種)が挙げられる。いくつかの実施形態では、コホートは、(例えば)活動性SARS-COV2感染、最近のCOVID-19ワクチン接種、以前のCOVID-19ワクチン接種、および急性SLEフレアなどの特定の免疫学的応答を有することによって定義される。ベースラインコホートは、ベースライン免疫応答が確立され得るように、現在活動性免疫応答を受けていない個体のコレクションである。
【0075】
シークエンシングを介して検出可能な活動性の免疫学的応答の任意の特徴点を、活動性の応答とベースライン応答とを区別するために評価することができる。例えば、ナイーブB細胞が活性化されると、B細胞はIgGおよびIgAアイソタイプに切り替わる。いくつかの実施形態では、IgGまたはIgAアイソタイプの比を総IgGと比較して、活動的な応答を検出する。いくつかの実施形態では、IgGまたはIgAアイソタイプの比は、IgMおよび/またはIgDアイソタイプと比較される。いくつかの実施形態では、体細胞高頻度変異の割合を利用して、活動性免疫応答を評価する。いくつかの実施形態では、超変異している配列の割合を利用して、活動性免疫応答を評価する。いくつかの実施形態では、V遺伝子のカウントおよび/またはJ遺伝子のカウントが、活動性免疫応答を評価するために利用される。
【0076】
方法300はまた、活動性免疫応答とベースライン免疫応答とを区別するように分類器または回帰器を訓練する(303)。(例えば)ロジスティック回帰、LASSO、勾配ブーストツリー、ニューラルネットワーク、最近傍、決定木、またはSVMなど、任意のタイプの分類器または回帰器を利用することができる。いくつかの実施形態では、分類器は、エラスティックネット正則化を有するバイナリ線形モデルである。いくつかの実施形態では、分類器は、活動性免疫応答を有するコホートとベースラインコホートとの間で区別される活動性免疫応答の1つまたはそれを超える特徴点を関連付けることによって訓練される。いくつかの実施形態では、分類器は、特定のタイプ(例えば、コロナウイルス感染症)の活動性免疫応答を検出するように訓練される。いくつかの実施形態では、分類器が評価され、評価に基づいて、分類能力を改善するために追加のデータを収集することができる。いくつかの実施形態では、分類器による個々の配列予測をトリム平均演算で集約して、レパートリーまたは配列の他のコレクションにおけるバックグラウンドまたはノイズの多い配列に対してロバストな配列分類の中心推定値を生成することができ、したがって、配列レベル分類器は、患者レベルまたは試料レベル分類器になり得る。
【0077】
訓練済み分類器のパラメーターは、最適化および/または微調整することができる。いくつかの実施形態では、分類器の感度および/または特異性は、実行される分類の必要性に適合するように修正することができる。例えば、感度および/または特異性閾値は、免疫学的季節(例えば、インフルエンザの季節)、ウイルスサブタイプの変化(例えば、コロナウイルスバリアントの変化)、またはベースライン感染レベルに基づいて修正され得る。いくつかの実施形態では、分類器は、個体を、活動性免疫応答またはベースライン応答を有するものとして分類することを控えるために、棄権を利用する。
【0078】
さらに、いくつかの実施形態は、個体が活動性免疫応答を有しているかどうかを判定するために分類器を利用することに関する。したがって、個体は、そのB細胞受容体および/またはT細胞受容体を配列決定し、シークエンシングデータを訓練済み分類器内に入力して、活動性免疫応答に関連する1つまたはそれを超える特徴点を検出することができる。様々な実施形態では、個々のシークエンシングデータは、少なくとも100,000個のユニークな受容体配列、少なくとも1,000,000個のユニークな受容体配列、少なくとも10,000,000個のユニークな受容体配列、少なくとも100,000,000個のユニークな受容体配列、少なくとも1,000,000,000個のユニークな受容体配列、少なくとも10,000,000,000個のユニークな受容体配列、少なくとも100,000,000,000個のユニークな受容体配列、または少なくとも1,000,000,000,000個のユニークな受容体配列を含む。
【0079】
活動性免疫学的応答を検出するために分類器を訓練するためのプロセスの具体的な例が上記に記載されているが、当業者は、本発明のいくつかの実施形態によれば、プロセスの様々なステップを異なる順序で実行することができ、特定のステップが任意であり得ることを理解することができる。したがって、プロセスの様々なステップを特定の用途の要件に適切に使用できることは明らかである。さらに、本発明の様々な実施形態に従って、所与の用途の要件に適切な活動性免疫学的応答を検出するために分類器を訓練するための様々なプロセスのいずれかを利用することができる。
【0080】
いくつかの実施形態は、免疫状態の評価の一部として、特定の受容体配列が特定の免疫学的応答に関連するかどうかを判定するために、類似性に基づいてB細胞受容体および/またはT細胞受容体配列をクラスタリングすることに関する。
図4には、B細胞受容体および/またはT細胞受容体配列をクラスタリングし、分類器を利用して健常状態を予測する方法が提供される。方法400は、各コホートが健常状態を有する、個体の少なくとも2つのコホートに由来するB細胞受容体またはT細胞受容体のシークエンシングデータを取得する(401)。様々な実施形態では、シークエンシングデータは、個体あたり少なくとも100,000個のユニークな受容体配列、個体あたり少なくとも1,000,000個のユニークな受容体配列、個体あたり少なくとも10,000,000個のユニークな受容体配列、個体あたり少なくとも100,000,000個のユニークな受容体配列、個体あたり少なくとも1,000,000,000個のユニークな受容体配列、個体あたり少なくとも10,000,000,000個のユニークな受容体配列、個体あたり少なくとも100,000,000,000個のユニークな受容体配列、または個体あたり少なくとも1,000,000,000,000個のユニークな受容体配列を含む。様々な実施形態では、シークエンシングデータは、コホートあたり少なくとも10人、コホートあたり少なくとも100人、コホートあたり少なくとも1000人、またはコホートあたり少なくとも10,000人を含む。
【0081】
健常状態は、(限定されないが)健常、活動性免疫学的応答、および以前の免疫学的応答を含む、B細胞またはT細胞免疫に関連する任意の状態であり得る。健常状態とは、ベースライン比較として利用することができる個体を指し、つまり、個体は、特定の活動性または以前の免疫学的応答に関連する疾患状態の影響を受けていないことを意味する。活動性免疫学的応答とは、活動性B細胞もしくはT細胞の生成または刺激をもたらす特定の免疫学的応答を有する個体を指す。活動性免疫学的応答としては、(限定されないが)活動性病原体感染、自己免疫障害、活動性急性自己免疫反応、最近のワクチン接種、それらの多重(例えば、2つの活動性病原体感染)、およびそれらの任意の組み合わせ(例えば、活動性病原体感染および活動性ワクチン接種)が挙げられる。以前の免疫学的応答とは、B細胞またはT細胞の生成をもたらすが、B細胞またはT細胞をもはや活動的に生成または刺激しない以前の免疫学的応答に関連する疾患状態を有する個体を指す。以前の免疫学的応答としては、(限定されないが)以前の病原性感染、以前のワクチン接種、それらの多重(例えば、2回の以前の病原性感染)、およびそれらの任意の組み合わせ(例えば、以前の病原性感染および以前のワクチン接種)が挙げられる。いくつかの実施形態では、コホートは、(例えば)活動性SARS-COV2感染、以前のSARS-COV2感染、最近のCOVID-19ワクチン接種、以前のCOVID-19ワクチン接種、活動性全身性エリテマトーデス(SLE)障害、および急性SLEフレアなどの特定の免疫学的応答を有することによって定義される。
【0082】
シークエンシングデータは、B細胞受容体および/もしくはT細胞受容体のペプチド配列、またはBCRおよびTCRを含むペプチド鎖型の少なくとも1つを含むべきである。いくつかの実施形態では、CDR3の配列をクラスタリングに利用する。ペプチド配列を生成するために、いくつかの実施形態では、遺伝物質(例えば、DNAまたはRNA)をB細胞および/またはT細胞から抽出し、核酸シーケンサーを利用して配列決定し、核酸シークエンシング結果からペプチド配列を決定する。
【0083】
方法400は、クラスタリング法を利用して、配列類似性に基づいて受容体配列をクラスタリングする(403)。類似度に基づいて配列をクラスタリングすることができる任意のクラスタリング法を利用することができる。クラスタリング法の例としては、(限定されないが)k平均クラスタリング、階層クラスタリング、単一連結クラスタリング、およびLouvainコミュニティ検出が挙げられる。いくつかの実施形態では、配列は編集距離によってクラスタリングされる。いくつかの実施形態では、クラスター内のすべての配列は、(例えば)同じV遺伝子、同じJ遺伝子、同じ配列長、およびある特定のパーセンテージの同一性(例えば、クラスターの重心と85%の配列同一性)を共有するなどの共通の特徴を共有する。いくつかの実施形態では、クラスターは、疾患を有するかまたは有していた複数の個体から発生する場合、特定の疾患に関連する。いくつかの実施形態では、疾患関連のパラメーターを満たさない場合、例えば、配列が少数の個体に由来する場合(例えば、3未満)、またはクラスターの配列を提供する個体のパーセンテージが閾値未満である場合(例えば、配列を提供する個体の80%未満が疾患を有していた)、クラスターは廃棄される。
【0084】
方法400は、特定の健常状態に関連するクラスターメンバーシップを利用して、健常状態を予測するための分類器または回帰器モデルを訓練する(405)ことができる。(例えば)ロジスティック回帰、LASSO、勾配ブーストツリー、ニューラルネットワーク、最近傍、決定木、またはSVMなど、任意のタイプの分類器または回帰器を利用することができる。訓練済み分類器は、個体のB細胞受容体およびT細胞受容体配列を評価して、個体が特定の健常状態を有するかどうかを判定するために利用することができる。いくつかの実施形態では、分類器が評価され、評価に基づいて、分類能力を改善するために追加のデータを収集することができる。
【0085】
訓練済み分類器のパラメーターは、最適化および/または微調整することができる。いくつかの実施形態では、分類器の感度および/または特異性は、実行される分類の必要性に適合するように修正することができる。例えば、感度および/または特異性閾値は、免疫学的季節(例えば、インフルエンザの季節)、またはベースライン感染レベルに基づいて修正され得る。いくつかの実施形態では、分類器は、B細胞受容体配列もしくはT細胞受容体配列を分類すること、または個体を特定の免疫状態を有するものとして分類することを控えるために、棄権を利用する。
【0086】
さらに、いくつかの実施形態は、分類器を利用して個体の健常状態を予測することに関する。したがって、多くの実施形態では、個体の健常状態を予測するために、個体のB細胞受容体およびT細胞受容体配列のシークエンシングデータに由来するクラスターメンバーシップが分類器に入力される。様々な実施形態では、個体のシークエンシングデータは、少なくとも100,000個のユニークな受容体配列、少なくとも1,000,000個のユニークな受容体配列、少なくとも10,000,000個のユニークな受容体配列、少なくとも100,000,000個のユニークな受容体配列、少なくとも1,000,000,000個のユニークな受容体配列、少なくとも10,000,000,000個のユニークな受容体配列、少なくとも100,000,000,000個のユニークな受容体配列、または少なくとも1,000,000,000,000個のユニークな受容体配列を含む。
【0087】
クラスターメンバーシップに基づいて健常状態を予測するために分類器を訓練するためのプロセスの具体的な例が上記に記載されているが、当業者は、本発明のいくつかの実施形態によれば、プロセスの様々なステップを異なる順序で実行することができ、特定のステップが任意であり得ることを理解することができる。したがって、プロセスの様々なステップを特定の用途の要件に適切に使用できることは明らかである。さらに、本発明の様々な実施形態によれば、所与の適用の要件に適したクラスターメンバーシップに基づいて健常状態を予測するために分類器を訓練するための様々なプロセスのいずれかを利用することができる。
【0088】
いくつかの実施形態は、健常状態のより包括的な評価を提供するために、アンサンブルモデル、またはすべての特徴表現の組み合わせで訓練済み単一のモデルを生成するために、1つまたはそれを超えるモデルおよび分類器を組み合わせることに関する。様々な実施形態では、方法200、方法300、および方法400のうちの1つまたはそれを超える方法を組み合わせて、アンサンブルモデルを生成することができる。
図5には、可能なクラスごとの各モデルの予測確率を利用して、個体の全体的な健常状態を評価する方法が提供される。方法500は、健常状態をもたらす2つまたはそれを超える分類器の確率を取得すること(501)によって開始することができる。多くの実施形態では、2つまたはそれを超える分類器は、
図2、
図3、および
図4に関連して説明した分類器のうちの少なくとも1つを含むことができる。いくつかの実施形態では、性別、年齢、または祖先のような潜在的な交絡効果を有する人口統計学的または生物学的変数を、アンサンブルモデルへの入力データから回帰することができる。
【0089】
取得された確率を使用して、方法500は、個体の健常状態を評価する(503)。取得された確率は、分類器または回帰器のベクターとして利用して、組み合わされた予測確率ベクターを提供し、全体的な健常状態をもたらすことができる。(限定されないが)ロジスティック回帰、LASSO、勾配ブーストツリー、ニューラルネットワーク、最近傍、決定木、またはSVMを含む、任意のタイプの分類器または回帰器を利用することができる。いくつかの実施形態では、組み合わされた組み合わされた予測確率ベクターをマッピングするために、マルチクラス線形SVMが利用される。
【0090】
組み合わせ分類器のパラメーターは、最適化および/または微調整することができる。いくつかの実施形態では、分類器の感度および/または特異性は、分類組み合わせの必要性に適合するように修正することができる。例えば、感度および/または特異性閾値は、免疫学的季節(例えば、インフルエンザの季節)、ウイルスサブタイプの変化(例えば、コロナウイルスバリアントの変化)、またはベースライン感染レベルに基づいて修正され得る。いくつかの実施形態では、組み合わせ分類器は、入力確率を提供するために利用される分類器からの棄権を維持する。
【0091】
2つまたはそれを超える分類器の組み合わせ確率に基づいて全体的な健常状態を評価するためのプロセスの具体的な例が上記に記載されているが、当業者は、本発明のいくつかの実施形態によれば、プロセスの様々なステップを異なる順序で実行することができ、特定のステップが任意選択であり得ることを理解することができる。したがって、プロセスの様々なステップを特定の用途の要件に適切に使用できることは明らかである。さらに、所与の適用の要件に適した2つまたはそれを超える分類器の確率を組み合わせることに基づいて全体的な健常状態を評価するための様々なプロセスのいずれも、本発明の様々な実施形態に従って利用することができる。
【0092】
演算処理システム
本開示の様々な実施形態による免疫性を評価するための計算処理システムは、典型的には、CPU、GPU、および/または他の処理エンジンのうちの1つまたはそれを超えるものを含む処理システムを利用する。いくつかの実施形態では、計算処理システムは、コンピューティングデバイス内に収容される。特定の実施形態では、計算処理システムは、(限定されないが)携帯電話、タブレットコンピューター、および/またはポータブルコンピューターなどのコンピューティングデバイス上のソフトウェアアプリケーションとして実装される。
【0093】
本開示の様々な実施形態による計算処理システムを
図6に示す。計算処理システム600は、プロセッサーシステム602と、I/Oインターフェース604と、メモリーシステム606とを含む。容易に理解できるように、プロセッサ-システム602、I/Oインターフェース604、およびメモリーシステム606は、(限定されないが)CPU、GPU、ISP、DSP、無線モデム(例えば、WiFi、Bluetooth(登録商標)モデム)、シリアルインターフェース、深度センサー、IMU、圧力センサー、超音波センサー、揮発性メモリー(例えば、DRAM)、および/または不揮発性メモリー(例えば、SRAMおよび/またはNANDフラッシュ)を含む特定の用途の要件に適した様々な構成要素のいずれかを使用して実装することができる。図示の実施形態では、メモリーシステムは、言語モデル610、クラスタリングモデル614、および分類器モデル616を記憶することができる。様々なモデルアプリケーションは、不揮発性メモリーにダウンロードおよび/または格納することができる。実行されると、様々なモデルアプリケーションは各々、(限定されないが)上記の計算プロセスおよび/または上記の計算プロセスの組み合わせおよび/または修正バージョンを含む計算プロセスを実装するように処理システムを構成することができる。いくつかの実施形態では、言語モデル610、クラスタリングモデル614、および分類器モデル616は、任意選択的にメモリーシステムに格納することができるペプチド配列データ608を利用して、モデルの様々なタスクを実行することができる。特定の実施形態では、言語モデルアプリケーション610は、抽出された潜在的埋め込み612を生成することができ、これは任意選択的にメモリーに記憶することができ、または記憶なしで利用することができる。抽出された潜在的埋め込み612は、免疫性を評価するためにクラスタリングモデル614および/または分類器モデル616内で利用することができる。
【0094】
図6を参照して具体的な計算処理システムを上述したが、本開示の様々な実施形態による免疫評価の提供に利用される計算プロセスおよび/または他のプロセスは、処理デバイスの組み合わせを含む様々な処理デバイスのいずれかで実施できることが容易に理解されるべきである。したがって、本開示の実施形態による計算装置は、特定の計算処理システムに限定されないと理解されるべきである。計算装置は、本明細書に記載のプロセス、プロセスの組み合わせ、および/または本明細書に記載のプロセスの修正されたバージョンを実行するために、本明細書に記載のシステムの任意の組み合わせおよび/または本明細書に記載のシステムの修正されたバージョンを使用して実装することができる。
【0095】
例示的な実施形態
本開示の実施形態は、その中で提供される様々な例によってより良好に理解されるであろう。説明したような様々な実施形態を実行する例を提供するための原稿および補足資料が提供される。
【0096】
免疫受容体の機械学習を使用した疾患診断
現代の医学的診断は、患者からの検体における細胞または分子の異常、または病原性微生物の存在についての実験室試験に大きく依存している。狼瘡または多発性硬化症のような自己免疫障害の場合、臨床所見または画像所見、自己抗体の検出、他の症状の除外を組み合わせて診断することは、処置が遅れる可能性のある長いプロセスである。進化は、多様なランダムに生成された抗原受容体を発現するB細胞およびT細胞を使用して、異常な曝露の分子監視を行う免疫系を脊椎動物に提供した。ウイルス、ワクチン、および他の曝露に応答して、B細胞受容体およびT細胞受容体のレパートリーは、刺激された細胞のクローン増殖、B細胞受容体遺伝子への更なる体細胞変異の導入、および免疫細胞集団をさらに再形成する選択プロセスに起因して、組成が変化する。調節不全の免疫では、自己反応性リンパ球もクローン増殖し、免疫学的病態を引き起こす可能性がある。
【0097】
患者の適応免疫系にコードされた特異性を解釈することができれば、多くの感染症の評価を一度に行うことができ、自己免疫反応の洞察を提供することもできる。免疫受容体レパートリーの追跡は、リンパ球悪性腫瘍の診断および癌処置応答のモニタリングに有用であることが既に証明されている。しかしながら、免疫レパートリーシークエンシングは、感染性疾患および自己免疫疾患を診断、予後予測、またはモニタリングするために臨床的に使用されることはほとんどない。問題となっているのは、体細胞再編成による免疫受容体遺伝子の高い可変性である。この課題を克服するために、クローン分析および言語モデリングを含むB細胞およびT細胞シークエンシングデータのための機械学習技術の組み合わせが、人それぞれの疾患の異なる系統的パターンを同定することができると仮定された。
【0098】
末梢血から系統的に収集したB細胞受容体(BCR)重鎖(IgH)およびT細胞受容体(TCR)ベータ鎖(TRB)配列のデータセットを使用して、免疫レパートリーの3つの機械学習表現を開発および組み合わせることによって、感染性および免疫学的疾患の存在を同定した(
図7)。疾患がどのように免疫レパートリーを再形成するかについての多くの研究は、同じ疾患を有する人々にわたってほぼ同一の「収束」受容体配列の同定に依存してきた。さらに、個体を、それらの免疫受容体におけるより広範な機能的類似性を推測することによってグループ分けした。免疫応答の他の共有される特徴も検出された:抗体定常領域のクラススイッチングの程度、BCRレパートリーの体細胞変異多様化の程度、およびIgHまたはTRB相補性決定領域3(CDR3)長のような定量的特徴を歪める選択の効果。B細胞およびT細胞シグナルは、BCRまたはTCRレパートリーのいずれかのみに限定された多くの以前の分析よりも完全な免疫の視野のために組み合わせた。
【0099】
機械学習プロセスは、病理発生の事前知識なしに、健常な個体と罹患した個体、自己免疫または免疫不全症状からのウイルス感染、および互いに異なる病原体感染を区別する。この手法はまた、疾患特異的配列について解釈可能なランキングを生成し、分類器が、独立して発見された生物学的事実を再現していることを明らかにし、これには、SARS-CoV-2特異的抗体およびT細胞の同定が含まれる。
【0100】
疾患状態の統合レパートリーモデル
活動性感染症を有する患者であっても、免疫受容体の一部のみが原因病原体に費やされ得る。BCRまたはTCRシークエンシングから個体の免疫状態を決定するために、診断アルゴリズムは、数十万のユニーク配列を選別して、希少な特異的配列を同定しなければならない。候補疾患特異的受容体配列は、個体間で非常に可変であり得る。T細胞受容体配列は、個体のHLA対立遺伝子によって制限され、B細胞受容体は、B細胞刺激中の体細胞高頻度変異に起因して更なる配列多様性を示す。
【0101】
ここでは、異なる種類の疾患状態の認識を改善し、疾患関連抗原に結合するために選択された類似の受容体配列を同定するために、遺伝子座ごとに3つのモデルの組み合わせを使用した。各分類器モデルは、免疫レパートリーの異なる側面を抽出する(
図8)。第1のモデルは、ヒトのIgHレパートリーにわたるIGHVまたはTRBV遺伝子セグメント頻度および変異率を使用する。第2の予測子は、個体間で非常に類似した配列のグループを同定する。第3の分類器は、共通の抗原を標的とする、より緩やかに関連する免疫受容体を見つけるために、直接的な配列同一性ではなく、機能的類似性のより広範なプロキシを評価する。疾患予測子を各表現で訓練した。次いで、3つのBCRモデルおよび3つのTCRモデルをブレンドして、免疫状態の最終予測を行う。最終的に訓練済みプログラムは、末梢血BおよびT細胞からの個体の配列の収集を入力として受け入れ、その人が記録されている各疾患を有する確率の予測を返す(
図8)。
【0102】
この手法を、COVID-19、HIVおよび全身性エリテマトーデスと診断された患者および健常な対照のコホートに適用した。新しいデータセットを以前に報告されたものと組み合わせ、すべて標準化されたシークエンシングプロトコルで収集し、バッチ効果を最小限にした。提案された戦略が新しい免疫レパートリーに一般化できるかどうかを評価するために、患者を3つの訓練、バリデーション、および試験セットに厳密に分け、各個人を1つの試験セットにした。一部の患者は複数の検体を有していた;すべてをクロスバリデーション分割のために一緒にグループ化した。各クロスバリデーショングループについて別々のモデルを訓練し、平均化された分類性能を報告した。以下に記載するように、コホート間の人口統計学的差異が診断精度を説明し得る可能性を試験し、除外した。3つのモデルの詳細は以下のとおりである:
【0103】
全体的なレパートリー組成:第1の機械学習モデルは、疾患状態を予測するために個体のIgHおよびTRBレパートリー組成を使用する。他のグループは、健常なベースラインからのV(D)J組換え遺伝子セグメント使用の偏差を使用して、試験的な免疫状態分類を行っている。ある特定のV遺伝子セグメントは、免疫受容体の一般集団よりも抗原応答性V(D)J再編成の間でより広く行きわたっている。抗原特異的細胞がクローン増殖するにつれて、レパートリーにわたるV遺伝子使用の分布が変化し得る。また、低い体細胞変異(SHM)頻度を有するクラススイッチIgH配列は、感染に対する応答の間にクラススイッチした最近のナイーブB細胞と一致して、急性エボラまたはCOVID-19症例で以前に同定された。これらの特徴はまた、慢性症状で蓄積されたレパートリー変化を表し得る。V/J遺伝子数および体細胞高頻度変異率を特徴として、ラッソ線形モデルを訓練した。
【0104】
編集距離による抗原特異的配列の収束クラスタリング:第2の分類器は、同じ診断を有する個体間で共有される非常に類似したCDR3アミノ酸配列を検出する。CDR3は、抗原結合特異性を決定することが多いIgHおよびTRBの高度に可変な領域である。各遺伝子座について、CDR3配列を同じV遺伝子、J遺伝子、およびCDR3の長さ、ならびに高い配列同一性でクラスタリングしたが、B細胞受容体における体細胞高頻度変異によって作り出されるいくらかの可変性を可能にした。次いで、新しい試料の配列を同じ制約条件で近くのクラスターに割り当てることができる。特定の疾患を有する対象からの配列が濃縮されたクラスターを選択した。これらのクラスターは、個体にわたる具体的な疾患を予測し得る収束配列を表す。各試料の配列をこれらの予測クラスターに割り当てた。各試料について、各疾患に関連するクラスターを一致させて計数し、これらの計数をラッソ線形モデルの特徴として使用して免疫状態を予測した。
【0105】
B細胞およびT細胞受容体配列からの言語モデル特徴抽出:アミノ酸編集距離は、受容体類似性の最適な尺度ではない可能性がある。免疫受容体配列は複雑な三次元構造をコードし、小さな配列変化は重要な構造変化を引き起こし得るが、異なる一次アミノ酸配列を有する異なる構造は同じ標的抗原に結合し得る。疾患関連受容体は、語彙的に異なる配列を有し得るが、それらは依然として同じ標的に結合する機能を共有し得る。BCRおよびTCR配列上で微調整された言語モデルを使用して、第3の分類器は、編集距離によって表される語彙的近接性だけでなく、機能的類似性をより良好に捉える低次元空間に一次アミノ酸配列をマッピングすることを目的とする。受容体基を見出すために編集距離のみを使用するのではなく、電荷および極性のようなアミノ酸生化学的特性を使用する以前の研究を超えて拡張して、BCRおよびTCRの推定機能的表現を抽出した。そのために、自己監視型タンパク質言語モデルであるUniRepを使用して、自然言語処理から適合された手法で予測タスクの機能特性を学習した。非常によく似た単語は、意味を伝えるために文法規則によって配置された構成要素であり、タンパク質配列は、ポリペプチド鎖の折り畳みに適合する順序で構成され、別の分子への結合または化学反応の触媒のような機能を実行できる構造を想定しているアミノ酸から構築される。UniRepは、各タンパク質の残りの配列コンテキストにおいてマスクされていないアミノ酸を使用してランダムにマスクされたアミノ酸を予測するように訓練された。これは、センテンス中の次の単語を予測するために自然言語句および文法規則を学習することと同様に、配列の異なる領域間の短距離および長距離の関係を学習することを必要とする。そのタスクを達成するために、UniRepリカレントニューラルネットワークは、各配列を内部の低次元埋め込みに圧縮し、正確な再構成を可能にする形質を取り込む。最終モデルがタンパク質配列を首尾よくマスク解除することができる場合、圧縮および非圧縮は、入力配列を要約する基本的な特徴を抽出している。UniRepの内部表現は、構造クラスのような基本的な特性をコード化することが示された。
【0106】
UniRepは、元々、多くの生物からの2000万を超えるタンパク質について訓練されていた。免疫受容体タンパク質に特化したバージョンを作成することによって、免疫レパートリー分類のための改善された表現が得られると仮定された。UniRepの訓練手順を継続して、マスクされたB細胞またはT細胞受容体配列をより良好に再構築した。従来のオートエンコーダモデルは、類似した配列のクラスターの分類を可能にしているが、微調整された言語モデル手法は、多くの生活ドメインからのタンパク質におけるグローバルパターンの知識と、BCRおよびTCR変動の特定の複雑さとを組み合わせる。実際、微調整された言語モデルは、UniRepの元の訓練データに対して高い性能を保持することが確認された(
図9)。疾患分類タスクのために、BCRまたはTCR微調整言語モデルによって学習された低次元埋め込みを使用して、配列長にかかわらず、各配列を1900次元の数値特徴ベクターに変換した。次いで、受容体配列ベクターを疾患ラベルにマッピングするラッソ線形モデルを訓練した。トリム平均計算を使用して各配列の予測されたクラス確率を集約することにより、モデルは特定の疾患曝露の患者レベルの予測をもたらした。トリム平均は、極めて高い確率または低い確率を有する希少配列によるノイズの多い汚染に対してロバストな中心的推定値であるために選択された。試験により、モデル安定性のためにこの決定が性能を損なわないことを確認した。この分類器は、個々の受容体の予測子から始まり、次いで配列コールを患者レベルの予測に集約するので、各疾患の予測のためにどの配列が最も重要であるかの解釈を可能にする。以下では、予測子によって優先順位付けされた配列が疾患特異的B細胞およびT細胞について濃縮されていることが確認され、言語モデルがそれらの膨大な多様性にもかかわらず免疫受容体配列の構文を学習することを実証している。
【0107】
アンサンブル:最後に、3つすべての分類器-グローバルレパートリー組成、CDR3配列クラスタリング、および言語モデル埋め込み戦略-を疾患のアンサンブル予測子に組み合わせた(
図10)。この適応免疫受容体分析フレームワークを免疫学的診断のためのMAchine Learning(Mal-ID)と標識した。異なる戦略で訓練された複数の分類器からの確率的出力をブレンドすることにより、メタモデルは各予測子の強度を活用し、誤りを正すことができる。(他のモデルと同様に、別個のメタモデルを各クロスバリデーショングループについて訓練した。)
【0108】
このアンサンブル手法は、0.99の受信者操作特性曲線下面積(AUC)スコアを有する個体からの試料における5つの特定の疾患状態を区別した(
図11)。AUCは、モデルがランダムに選択された正の例を負の例よりもランク付けする尤度であり、分類器が正しいクラスに高い確率を割り当て、誤ったクラスに低い確率を割り当てる傾向があるかどうかを表す。
【0109】
これと比較して、先に報告されたCDR3クラスタリングモデルは、文献の多くの収束的な配列発見手法と類似しており、BCRについては0.92 AUC、TCRについては0.80 AUCしか達成しない。アンサンブル手法で有意に高い0.99 AUCを達成するために、すべてのモデリング戦略が遺伝子座および疾患に応じて様々な程度に寄与し、各疾患のBCRおよびTCRレパートリーにわたって免疫シグナルがどのように分布するかの変動が示唆された(
図12、13A~13C)。組み合わせたBCR+TCRメタモデルは、BCRのみまたはTCRのみのバージョンよりも良好に機能する。アンサンブルモデルは、すべてのホールドアウトされた試験セットにわたって92%の精度を達成した。
【0110】
誤って分類されたレパートリーの8%のうち、1.3%は、CDR3クラスターを定義したクローンパラメーターおよび編集距離基準に該当する配列を有しなかった試料であった。メタモデルのCDR3クラスタリングコンポーネントは、これらの困難な試料の予測を行うことを棄権した。残りの約7%の分類ミスにおいて、アンサンブルモデルはその予測において低い信頼度を有する傾向にあった(
図14)。戦略が不確定な予測を棄権することを可能にすることは、困難な実世界の症例に対して診断をロバストにするために重要である。実際には、各疾患状態の予測される確率の正確な閾値である診断感度を、疾患の有病率および精度と再現性との間の所望のトレードオフに調整することができる。
【0111】
クロスバリデーション評価戦略は、過適合のリスクを軽減するが、モデルが他のソースからの新しいデータに一般化されることを確認することが望まれた。同様のシークエンシングプロトコルを用いた他のBCRまたはTCR研究からのCOVID-19患者および健常ドナーレパートリーを評価した。アンサンブルモデルは、BCRコホートでは100%の精度で、TCRコホートでは約95%の精度で疾患タイプを予測した。この一般化する能力は、モデルが真の生体信号を学習したことを補強する。
【0112】
分類に及ぼす年齢、性別、および人種の限定的な影響
疾患に加えて、患者人口統計学も免疫レパートリーを形成する。例えば、以前の研究では、遺伝子発現、サイトカインレベル、および免疫細胞型頻度における免疫老化が追跡されている。外来共変量が疾患分類結果に影響を及ぼしているかどうかを研究するために、モデルが健常な免疫受容体レパートリーの年齢、性別、または祖先を区別できるかどうかを調べた。これらの変数を予測するために新しい分類器を訓練することによって、健常な個体の性別をIgHまたはTRB配列から正確に決定することができないことが分かった。しかしながら、配列は、0.73 AUCの予測力で祖先の弱いシグナルを運んだ。このシグナルが増加したのは、コホート内に含まれるアフリカ系祖先を持つ人の多くがアフリカに住んでおり、潜在的に異なる環境暴露を受けているためかもしれない。同様のパターンが完全な疾患分類設定で観察され、T細胞モデルはこのアフリカ系のコホートからHIV患者および健常な対照をあまり区別しなかったが、対応するIgHレパートリーは異なっていた(
図15Aおよび15B)。これは、異なる集団において異なる遺伝パターンを有するHLA対立遺伝子によるTCR結合制限に対応する。したがって、メタモデルは、HIV予測のためにTCRシグナルよりもBCRに依存する(
図12)。
【0113】
健常なIgHおよびTRB配列レパートリーも適度な年齢のシグナルを保有していた。この連続変数を分類問題として扱うために年齢を50歳未満または50歳超に二分したところ、予測モデルは0.70 AUCを達成した。しかしながら、分類器によって検出された年齢のシグネチャーは、若年個体に対する50歳を超える人々の異なるバックグラウンドまたは環境曝露に対応し得る。例えば、循環インフルエンザウイルス型は、連続するパンデミックの後に変化した。最初のインフルエンザ株は、おそらく早期のウイルス曝露に関連する特異性を有するメモリーBおよびT細胞プールを形成することによって、その後にインフルエンザ応答に偏りを生じさせる。年齢を10年ごとにグループに分けた場合、モデルは0.62 AUCのみを達成し、試料の12.5%で予測を棄権した。このより悪い性能は、より細かい加齢の違いが、この研究における参加者の数、年齢範囲、ならびに細胞サンプリングおよびシークエンシング深さと配列レベルで解きほぐすことが困難であることを示唆している。また、この研究は、抗原刺激および選択によって成形されたB細胞の集団を反映して、体細胞性に過剰変異したIgD/IgMおよびクラススイッチされたIgG/IgAアイソタイプに限定された。ナイーブB細胞の研究は、更なる年齢、性別、または祖先の影響を明らかにし得る。
【0114】
疾患コホート間の微妙な人口統計学的差異が分類結果を推進するかどうかも調べた。例えば、コホートの年齢中央値および範囲は以下のとおりであった:HIV(中央値31年、範囲19~64);SLE(中央値15年、範囲7~71);健常な対照(中央値44年、範囲17~81);COVID-19(中央値48年、範囲21~88)。TCR配列は、SLEコホートの小児患者にのみ利用可能であったが、これは、すべてのBCRモデルを小児および成人SLE試料の両方で訓練することによって緩和された(
図15Aおよび15B)。各コホートにおける女性の割合は、51%(健常な対照)、52%(COVID-19)、64%(HIV)、および81%(SLE)であった。SLEコホートにおける女性の有病率は、一般的な疫学と一致する。参加者の系統および地理的位置もコホート間で異なっていた。最も注目すべきことには、HIVを有する個体の少なくとも89%がアフリカからであった。スペイン系/ラテンアメリカ系を有することが知られている個体の63%がCOVID-19コホートに含まれ、白色人種の69%が健常な対照であった。
【0115】
人口統計学的メタデータがデータセット内の疾患を予測するのに不十分であることを示すために、配列パターンを全く使用せずに、年齢、性別、および祖先のみから疾患状態を予測することを試みた。人口統計学のみの分類器は、特徴として含まれる人口統計学的共変量を用いて配列予測アンサンブルモデルを再訓練したとき、0.99のAUCよりも実質的に低い0.91のAUCを達成し、どの程度の疾患シグナルがBCRおよびTCR配列から抽出されたかを強調した(
図16)。この試験の追加バージョンとして、疾患分類メタモデルも、アンサンブル特徴行列から回帰した年齢、性別、および祖先効果で再訓練した。この補正後、利用可能な完全な人口統計情報を有する個体に対する分類性能は、0.99 AUCから0.96 AUCにわずかに低下した(
図16)。人口統計学的共変量から配列特徴を非相関化した後の性能の小さな低下は、年齢、性別および祖先の影響が、疾患分類にせいぜい中程度の影響しか及ぼさないことを示唆している。
【0116】
言語モデルは免疫学的知識を再現する
機械学習フレームワークは、ブラックボックス分類器を提供するだけでなく、免疫学的症状の生物学的に解釈可能な特徴を同定するように設計された。正確な機械学習分類と既知の生物学との間の関連性を評価するために、各疾患の予測に最も寄与した配列を調べた。例えば、言語モデル埋め込みに基づく分類器を使用して、COVID-19患者からのすべての配列を、SARS-CoV-2免疫応答とのそれらの関係の予測確率によってランク付けした。異なる疾患を区別する際に、COVID-19予測のために高度に優先順位付けされた配列には、強いSARS-CoV-2結合を有する独立して単離された抗体に見られるIGHV遺伝子セグメントが含まれた。IGHV3-9およびIGHV2-70は、スパイクタンパク質受容体結合ドメイン結合に関与しており、上位にランク付けされた(
図17)。IGHV1-24も同様に、N末端ドメイン指向抗体において見出された。同様に、SLE予測のためのIGHV4-34、IGHV4-39およびIGHV4-59のモデルの優先順位付け(
図18)は、これらの遺伝子セグメントがSLE患者においてより高い頻度で発現されるという以前の報告と一致する。
【0117】
HIVランキングについても同様のパターンが観察された。HIV特異的B細胞応答において以前に記載されたIGHV遺伝子であるIGHV4-34(広域中和抗体を産生する個体において異常に高い体細胞高頻度変異を有する)は、モデルによって上位にランク付けされた(
図19)。IGHV4-38-2はまた、HIV予測のランク付けが上位であり、HIV特異的B細胞の間で広く行きわたっていた。しかしながら、IGHV4-38-2遺伝子の使用は、以前の文献と同様に、生成されたデータにおいてアフリカ系集団で有意により一般的である(
図20A)。本発明者らのHIVコホートは主にアフリカ系であるため、モデルはIGHV4-38-2遺伝子を特に優先していた可能性がある。モデルによってフラグが立てられた他のIGHV遺伝子は、祖先別に層別化されていない(
図20A)。TCR結合を制限するHLA対立遺伝子遺伝パターンから予想されるように、いくつかのTRBV遺伝子も祖先別に層別化された(
図20B)。アフリカ系の健常な対照に濃縮されたすべての遺伝子セグメントであるTRBV10-2、TRBV24-1、およびTRBV25-1は、本発明者らの主にアフリカ系のHIVコホートを分類するための上位3位のTRBV遺伝子グループであった(
図21B)。
【0118】
配列モデルのランキングはまた、選択によって影響を受ける免疫グロブリンおよびTCR遺伝子再構成における主要な特徴の1つである特定のCDR3の長さに有利であった。生のCDR3配列またはそれらの長さのモデルへの直接的な入力がないため、これは注目に値した。モデルへの入力として提供されるすべてのUniRep埋め込みベクターは、元の配列長にかかわらず、同一のサイズを有する。より短いIgH CDR3長さは、慢性疾患SLEおよびHIVのモデルによって支持され(
図18および19)、HIV中のより短いCDR3セグメントを有するB細胞受容体の選択と一致した。他方、より長いCDR3長さを有するIgH配列は、COVID-19クラス予測のための配列モデルによって支持された(
図17)。これらの優先順位付けされた配列は、メモリーB細胞においてより短いCDR3長さを支持する選択をまだ受けていないナイーブB細胞に由来する最近のB細胞クローンを反映し得る。TCRランキングは、SLEではより長いCDR3配列が支持されることを除いて、同じパターンに従う(
図21A~21C)。
【0119】
B細胞アイソタイプの使用は、人および疾患コホート間で変化した(
図22)。アイソタイプサンプリングアーチファクトが疾患予測を推進するのを防ぐために、配列モデルは、バランスのとれた重みをすべてのアイソタイプに適用するように設計された。その結果、各疾患の予測のためのモデル優先順位付けされた配列の中には、すべてのアイソタイプが含まれていた(
図23)。COVID-19予測のために、IgG配列は、この感染症で予想され得るように、他のアイソタイプよりもわずかに大きな役割を果たした。アンサンブルで使用される他のモデルも、アイソタイプサンプリング量の影響を受けないように設計された。レパートリー組成モデルは、各アイソタイプグループを別々に定量化し、収束クラスタリング手法はアイソタイプ情報に対して盲目的である。患者コホート間のアイソタイプ比率の差が疾患を予測するのに十分でなかったことを確実にするために、別個のモデルを、配列情報を提供せずに、試料のアイソタイプバランスのみから疾患を予測するように訓練した。アイソタイプ比率モデルは、一次モデルアンサンブルの0.99 AUC疾患分類性能よりもはるかに低い0.70 AUCしか達成しなかった。したがって、分類手法は、アイソタイプ比率のようなデータアーチファクトに対してロバストである。
【0120】
言語モデルがSARS-CoV-2結合体を同定する
COVID-19患者由来の末梢血BおよびT細胞受容体配列のごく少数のみが、SARS-CoV-2に対する抗原特異的免疫応答に直接関連している。他のナイーブ細胞およびメモリー細胞は、急性疾患の間でさえ循環し続ける。0.99 AUC性能は、アンサンブルモデルがこの「干し草の中の一本の針(needle in the haystack)」問題に対処することを示唆している。言語モデル分類器によって選択された配列を検査して、重要な配列がどの程度優先されるかを評価した。
【0121】
COVID-19患者配列は、直交する実験方法、例えばSARS-CoV-2受容体結合ドメイン(RBD)に結合するB細胞の直接単離とそれに続くBCRシークエンシングによって収集したSARS-CoV-2特異的抗体およびT細胞のデータベース内の最近傍に一致させることができる。限られた数の患者のグリーバルレパートリーのスキャンとは異なり、外部データベースはより大きなソースコホートを含み、つまり、このデータセットよりも多くのCOVID-19応答タイプを含み得る。BCRデータベースはまた、スパイク抗原特異的B細胞を単離することによって同定された潜在的な治療抗体にも偏っている。これらの違いにもかかわらず、COVID-19コホートからの配列は、CoV-AbDabデータベースにおける既知の結合抗体の9%超と高い配列同一性一致を有し、すべての主要なエピトープおよびIGHV遺伝子を網羅していた(
図24)。データセット中の一致するBCR配列の63%がIgG配列であり、その後にIgD/M(20%)およびIgA(7%)が続き、最後の10%は複数のアイソタイプで見られた。このIgG優性パターンは、IgGにクラススイッチした配列が抗原によってどのように刺激されたかを反映しており、上記で調べたアイソタイプの関係と一致する。陰性対照として、健常な対象からの配列を用いてプロセスを繰り返した。健常なドナーから生じる配列は、CoV-AbDabクラスター全体の5.4%と一致し、CoV-AbDab一致の予想される減少を表した。一致した健常な対照配列の93%超がIgD/Mアイソタイプに由来し、SARS-CoV-2が体内に入ると応答を開始することができるナイーブB細胞を表す可能性が最も高い。一致はまれであった:データセットからの固有のCOVID-19患者配列の0.14%が、固有の健常な対象配列の0.01%と共に、任意のCoV-AbDabクラスターと一致した。この程度の差は、COVID-19患者におけるIgG集団の抗原刺激が体細胞高頻度変異によるクローン拡大および多様化をもたらすために予想される。
【0122】
モデルのトップランクの配列の生物学的妥当性を裏付けるように、多くはSARS-CoV-2に相補することが独立して検証された。この既知の結合体データベースと重複するCOVID-19患者由来配列には、予測モデルによって有意に高いランクが割り当てられた(
図25)。モデルがモデルランキングを有する既知の結合体BCRをどの程度良好に発見したかを見ると、0.775のAUCが達成され、それぞれランク付けされたBCR配列の上位半分で一致の87%が発生した。これらの結合関係は訓練時に分類器に知られておらず、CoV-AbDab配列はモデルを訓練するために使用されなかった。自動的に優先順位付けされた配列と、別個のコホートからの実験的に検証された疾患特異的配列との間の一致は、COVID-19のパンデミックに応じた並外れた国際的な研究努力の間に得られた生物学的知識を再現する言語モデル分類器学習された意味のある規則を示唆している。
【0123】
これらの既知の結合体発見結果を、収束する疾患特異的BCRまたはTCRパターンを見出すための一般的な手法を表す代替戦略と比較した。CDR3クラスタリングモデルによって同定されたCOVID-19 BCRクラスターに含まれる任意のCOVID-19患者配列の間で既知の結合体を探した。総じて、これらの配列は、患者コホートで発見され得る既知の結合体の全セットの一部である、BCR既知の結合体の0.65%のみと一致した。この結果は、疾患分類に対する言語モデル手法を適用して、当該技術分野における主流の方法よりもはるかに多くの抗原特異的配列を発見することができることを実証している。
【0124】
疾患状態間のレパートリー進行
モデルからの疾患特異的な洞察をさらに評価するために、疾患状態を一目で伝えるための新規な免疫レパートリーの可視化を開発した。訓練セットから、言語モデル分類器が免疫状態によって明確に異なるグループに分離するように学習した受容体を使用して、参照2次元UMAPレイアウトを作成した。この監視されたUMAPは、配列に割り当てられた疾患ベルを条件とするので、二次元への縮小によって作り出されるいかなる視覚的歪みも、疾患クラスに対して偏る可能性は低い。
【0125】
訓練セットからホールドアウトされた配列を参照UMAP可視化に重ねた。例えば、モノクローナル抗体は、言語モデルの解釈を使用して評価することができる。SARS-CoV-2に対する治療用モノクローナル抗体は、言語モデルの表現のどこに該当するかに基づいて可視化することができる。
【0126】
同じ可視化技術を用いて、繰り返される試料を、ホールドアウトされた試験セット患者から参照マップ上に投影することができ、免疫レパートリー組成物の経時的なモニタリングを可能にする。患者レパートリーは、疾患予測のための多数の高信頼度および低信頼度配列を含む。疾患特異的である可能性が高いBCRに可視化を集中させるために、モデルによる確率の低い予測を有する配列を除外することができる。例示的なCOVID-19患者の感染および免疫応答が進行すると、可視化は、症候の発症直後に健常/バックグラウンド領域から後にCOVID-19領域に移行する免疫受容体の収集を明らかにすることができる。
【0127】
データを支持する方法
B細胞およびT細胞レパートリーのシークエンシング
免疫受容体は、69人のCOVID-19患者、95人の慢性HIV-1患者、および66人の全身性エリテマトーデス(SLE)患者、ならびに168人の健常な対照からコレクションしたレパートリーであった。軽度のCOVID-19症例およびセロコンバージョン前の試料を除外した。これらのフィルタリングは、疾患特異的少数の受容体配列に対する学習パターンの可能性を改善するために、モデル訓練データをピーク疾患試料に限定した。しかしながら、フィルタリングから自明に分離可能な免疫状態への人為的に単純な分類問題の作成を回避することが望まれていた。この目的のために、HIVコホートは、HIVに対する広域中和抗体を生成したかどうかにかかわらず、患者を含んだ。分析が広域中和抗体を産生するHIV感染個体に限定された場合、それらの抗体の異常な特徴のために、より容易に分離可能なHIVクラスが作成された可能性がある。
【0128】
これらの多様な免疫状態にわたって、数百万のB細胞およびT細胞受容体をサンプリングし、免疫グロブリンおよびT細胞受容体遺伝子プライマーを用いてPCR増幅し、配列決定した。簡潔には、T細胞受容体ベータ鎖および各免疫グロブリン重鎖アイソタイプを、ランダムヘキサマープライムcDNA鋳型を使用して別々のPCR反応で増幅し、ペアエンドIllumina MiSeqシークエンシングを行った。バッチ効果の可能性を低減するために、データ収集は一貫したプロトコルに従った。V、DおよびJ遺伝子セグメントは、IgBLAST v1.3.0でアノテーションされ、生産的な再編成のみを維持した。変異ヌクレオチドのIgBLASTの同定を使用して、任意の特定の配列において変異したIGHV遺伝子セグメントの割合を計算した。これは、そのB細胞受容体重鎖の体細胞高変異率(SHM)である。データセットは、8個またはそれを超えるアミノ酸を有するCDR-H3およびCDR3βセグメントに限定された。そうでなければ、下記のCDR3クラスタリング法は、短いが関連性のない配列をグループ化する可能性がある。
【0129】
次いで、ほぼ同一の配列を同一人物内でクローンにグループ分けした。各個体について、すべてのアイソタイプにわたるすべての試料(異なる時点の試料を含む)からのすべてのヌクレオチド配列をグループ化し、単一連鎖クラスタリングを実行し、クラスタリングされた配列が、一致するIGHV/TRBV遺伝子、IGHJ/TRBJ遺伝子、およびCDR-H3/CDR3β長さ、ならびに少なくとも90%のCDR-H3の適切なCDR3β配列同一性を有することを必要とした。BCR配列のうち、クラススイッチされたIgGまたはIgAアイソタイプ配列のみ、および少なくとも1%のSHMを有するクラススイッチされていないが依然として抗原を経験しているIgDまたはIgM配列を保持した。IgDおよびIgMアイソタイプを体細胞性に過剰変異したBCRのみに制限することによって、抗原によって刺激されておらず、疾患分類に無関係であった任意の非変異細胞を無視した。選択された非ナイーブIgDおよびIgM受容体配列をIgM/Dグループに組み合わせた。最後に、データセットを重複排除した。患者からの各試料について、アイソタイプごとに各クローンの1つのコピーを保持し、RNAリードの数が最も多い配列を選択した。同様に、各TCRβクローンの1コピーを保持した。平均して、任意の2人の患者は0.0005%のIgHおよび0.167%のTRB配列の重複を有し、T細胞受容体、特にB細胞受容体配列が非常に多様であることが明らかになった。
【0130】
クロスバリデーション
個体を3つの層別クロスバリデーションfoldに分割し、各々を訓練セットと試験セットとに分割した(
図26)。分割は、完全なパイプラインの訓練にわたって尊重された。階層化クロスバリデーションは、各foldにおいて全体的な不均衡な疾患クラス分布を保存した。以下に説明するいくつかのタスク、すなわち、言語モデル微調整、分類器ハイパーパラメーター最適化、およびアンサンブルメタモデル訓練に使用するために、各訓練セットからバリデーションセットを切り出した。すべてfoldにおいて、訓練、バリデーションおよび試験セットの任意のペアの間で共有された配列の0.1%未満が観察された。任意の単一レパートリーは多くのクローン関連配列を含むが、他の人々の免疫受容体とは非常に異なるため、患者の配列を3つのグループに分けるのではなく、個々の人からのすべての配列を訓練、バリデーション、または試験セットのみに入れた。さもなければ、ここで評価された予測戦略は、新規の患者を対象とした場合、実際よりもうまく機能するようにみえる可能性がある。訓練手順において誰かのレパートリーの一部を見る機会が与えられると、予測戦略は、ホールドアウトされたセット内の同じ人からの他の配列を採点するより容易な時間を有する。これにより、訓練患者の特殊性に対するモデルの過剰適合が防止された。
【0131】
評価基準
モデルは、平衡クラス重みおよびデフォルトのハイパーパラメーターを使用して、ランダムフォレスト、サポートベクターマシン、およびラッソ正則化および多項損失を伴うロジスティック回帰のscikit-learn実装で訓練した。すべての試験セットからの予測されたラベルは、グローバル精度評価のために連結された。一方、ROC AUCおよびauPRCを含む予測されたクラス確率を入力とする性能指標は、確率が各foldで異なるスケールであり得、グローバルAUCまたはauPRCスコアと組み合わせるべきではないため、各foldに対して別々に計算された。本発明者らは、クラスの各ペアについて計算されたバイナリAUC/auPRCのクラスサイズ加重平均を取って、1対1の方法で計算されたマルチクラスAUCおよびauPRCを報告し、各クラスがペアの正のクラスになることを可能にする。すべての分析を行い、python v3.9.13、numpy v1.22.0、pandas v1.4.3、scipy v1.8.1、scikit-learn v1.1.1、jax v0.3.14、umap-learn v0.5.3、matplotlib v3.5.2、およびseaborn v0.11.2でプロットした。
【0132】
全体的なレパートリー組成の特徴を使用した疾患分類器
各試料について、IGHV/TRBV遺伝子およびIGHJ/TRBJ遺伝子使用を集計し、各クローンを1回カウントすることによって、IgG、IgA、IgM/D、およびTRB要約特徴ベクターを作成した。試料間の異なる総クローン数を説明するために、総数を試料あたり合計が1になるように正規化した。次いで、V-J遺伝子ペアにわたってどのようにカウントが分布するかを表す行列に対して対数変換およびZスコアリング(すなわち、平均を減算し、標準偏差で除算して、0平均および単位分散を達成する)を行った。最後に、カウント行列を15次元に減少させるためにPCAを行った。すべての変換を各訓練セットで計算し、対応する試験セットに適用した。さらに、各アイソタイプに属する各試料のBCR配列のサブセットについて、配列体細胞高頻度変異率の中央値および体細胞高頻度変異している(少なくとも1%のSHMを有する)配列の割合を計算した。BCRのみが体細胞高頻度変異を有するので、TCRの変異率の特徴は含まれなかった。総じて、IgHモデルは、IgG、IgA、およびIgM/Dにわたる51の特徴(アイソタイプあたり15カウントのPCおよび2つの変異率特徴)に達し、TRBモデルは15の特徴に到達した。
【0133】
L1正則化を有する別々のラッソロジスティック回帰線形モデルを、疾患を予測するために各試料からの51次元(17×3アイソタイプ)BCRおよび15次元TCR特徴ベクターに当てはめた。特徴を0平均および単位分散に標準化した。この特徴設計およびモデル訓練手順を各クロスバリデーションfoldで別々に繰り返し、次いで、結果をすべての試験foldから組み合わせた。
【0134】
編集距離でCDR-H3配列をクラスタリングすることによる疾患分類器
同一のTRBV遺伝子、TRBJ遺伝子、およびCDR3β長さを有するT細胞からのCDR3β配列に対して、ならびに同一のIGHV遺伝子、IGHJ遺伝子、およびCDR-H3長さを有するB細胞からのCDR-H3配列に対して別々に、単一連鎖クラスタリングを行った。ストリング置換距離によって測定されるように、すべてのクロスクラスターペアが高い配列同一性を有する場合に、最近傍のクラスターは反復的にマージされた。
【0135】
BCRおよびTCR疾患特異的クラスターにフィルタリングする:3人以上の個体からの配列を有するクラスターは、それらの個体の少なくとも80%が何らかの疾患について陽性である限り維持された。残りの各予測クラスターについて、単一のコンセンサス配列であるクラスター重心を作成した。各クラスターメンバーは、最も豊富な配列のみがサンプリングされたクローンであることを想起されたい。各クラスターメンバーがコンセンサス重心配列に等しく寄与するのではなく、各位置での寄与を、クローンサイズ:各クローンの元々の部分である固有のBCRまたはTCR配列の数によって重み付けした。
【0136】
各試料のBCRおよびTCR特徴ベクターを計算する:次いで、試料からの配列をこれらの予測クラスター重心と一致させた。割り当てられるためには、配列は、候補クラスターと同じIGHV/TRBV遺伝子、IGHJ/TRBJ遺伝子、およびCDR-H3/CDR3β長さを有しなければならず、クラスターの重心を表すコンセンサス配列と少なくとも85%(BCR)または90%(TCR)の配列同一性を有しなければならない。配列をクラスターに割り当てた後、各試料からの全配列にわたってクラスターメンバーシップを計数した。これらのクラスターメンバーシップは、訓練セット試料について見出され、次いで、各試料の特徴ベクターを計算した。特定の疾患に対する試料のスコアを、試料からのいくつかの配列が一致した疾患予測クラスターの数として定義した。この特徴は、収束するT細胞受容体または免疫グロブリン配列(BCRアイソタイプに関係なく、遺伝子座によって分離される)の存在または非存在を捉える。
【0137】
各遺伝子座についての適合および評価モデル:特徴を標準化し、次いで、L1正則化およびバランスのとれたクラス重み(入力クラス頻度に反比例する)を用いて別々のBCRおよびTCR線形ロジスティック回帰モデルに適合させるために使用した。特徴およびモデルを各訓練セットに適合させ、対応する試験セットに適用した。
【0138】
試料に予測クラスターに該当する配列がない場合、予測は行われなかった。これらの棄権は精度スコアを損なうが、棄権された試料について予測されたクラス確率が利用できないので、AUC計算に含まれなかった。試料の1.5%未満が棄権につながった。
【0139】
免疫配列の言語モデル表現
各受容体配列のCDR-H1/CDR1β、CDR-H2/CDR2β、およびCDR-H3/CDR3βセグメントを組み合わせ、次いで、連結されたアミノ酸ストリングを、jax-unirep v2.1.0実装を使用して、UniRepニューラルネットワークで埋め込んだ。最終的な1900次元ベクター表現は、元のタンパク質の長さ次元にわたってUniRepの隠れた状態を平均することによって計算された。
【0140】
配列を埋め込むために、各クロスバリデーションfoldの訓練セットのサブセットで微調整された重みを使用して、合計6つの微調整されたモデル:foldおよび遺伝子座あたり1つを得た。ホールドアウトされたBCRまたはTCRバリデーションセットのサブセットにおける交差エントロピー損失を最小化する重みを選択した。例えば、UniRepは、fold 1のBCRバリデーションセットで最小の交差エントロピー損失に達するまでfold 1のBCR訓練セットで微調整した。
【0141】
微調整手順は監視されなかった。生のCDR1+2+3配列の他に、微調整中に疾患または他のクラスラベルは提供されなかった。結果として、微調整された言語モデルは、B細胞またはT細胞受容体パターンに特化しているが、疾患分類の問題には超特化していない。それらは、他の免疫配列予測タスクに適用することができる。微調整プロセス中、B細胞またはT細胞バリデーションセットでの交差エントロピー損失は予想どおり低下し、重要なことに、交差エントロピー損失は、UniRepの元のUniref50データセットで増加しない。この結果は、微調整がUniRep自体の訓練データの壊滅的な忘却を引き起こさないことを確認し、つまり、最終言語モデルがB細胞またはT細胞受容体特異的情報に加えて一般的なタンパク質パターンの知識を保持している。
【0142】
言語モデル埋め込みを使用した疾患分類器
配列の言語モデル埋め込みを用いて疾患を分類するための分析パイプラインは複雑であるが、個々の配列データを集約して患者レベルの予測を生成するため、必然的にそうである。
【0143】
配列レベルの疾患分類器:最初に、ラッソ分類モデルを訓練して、配列を疾患ラベルにマッピングした-foldおよび遺伝子座あたり1つのモデル。入力データとして、各BCR配列のIGHV遺伝子およびアイソタイプまたは各TCR配列のTRBV遺伝子を表すカテゴリーダミー変数と共に、微調整されたUniRep埋め込み(0平均および単位分散に標準化)を使用した。
【0144】
患者レベル予測に集約する前に個々の配列の予測を行うことには解釈上の利点があるが、2段階手法は新しい課題を導入する。利用可能なグラウンドトゥルースデータは、配列ではなく患者を疾患状態と関連付ける。それらの配列のどれが真に疾患に関連するかは知られていない。個体-配列-レベルモデルを訓練するために、患者のグローバル免疫状態に由来するノイズの多い配列標識を提供した。しかしながら、この移入は非常にノイズの多い標識を作り出す:データセットのピーク疾患時点でさえ、疾患特異的免疫受容体パターンはそれにもかかわらず、患者の膨大な免疫受容体レパートリーのほんの小さなサブセットを表す。信頼できない配列ラベルが考慮され、患者レベルの決定を行うために配列の正しいサブセットが選択される。
【0145】
患者ラベルを配列レベル予測タスクに移すことによって作成されたノイズの多い訓練ラベルに耐えるように装備された高度に正則化された統計モデルを使用した。ラッソのL1ペナルティは、約2000個の入力特徴の間のスパース性を促した。アイソタイプの使用は人によって異なるので、配列レベルのBCRモデルは、この不均衡を説明するためにアイソタイプの重みで訓練した。
【0146】
集約配列予測から試料予測:真の配列ラベルがなかったため、配列レベル分類器について分類性能を評価することができない。代わりに、BCRまたはTCR配列予測を患者試料レベル予測に集約した。試料に属する各配列についての予測された疾患クラス確率を使用して、トリム平均を配列全体の各クラスについて計算した。すなわち、外れ値のスコアの上位および下位10%を除去し、次いで残りの平均を計算し、試料中のアイソタイプの全体的な使用に反比例する配列を重み付けした。(このようにして、少数のアイソタイプシグナルは失われない。)次いで、疾患クラス確率を各試料について合計1になるように再正規化した。
【0147】
クラス判定閾値を調整する:集約配列予測に基づいてこれらのBCRおよびTCR試料レベル分類器を完成させるために、クラス判定閾値をホールドアウトされたバリデーションセットに対して調整した。具体的には、クラス不均衡下であっても意味のある分類性能指標であるMatthews相関係数を最適化するために、クラス確率を再重み付けした。クラス重みを適用する前に、各試料のあたりラベルは、最も高い予測確率を有するクラスに基づいて選択された。例えば、あるクラスの確率が1/5で再重み付けされた場合、モデルは、そのクラスラベルを選択するために5倍の信頼度がなければならない。重要なことに、これらの重みは、各試料の最終予測ラベルの選択においてのみ適用された。この手順は、混同行列、精度、および予測ラベルに基づく他の指標に影響を与えたが、AUCは変化しなかった。各クラスの平均配列予測集約戦略とそれに続く合計1への再正規化は、必ずしも較正された確率を生成しないため、この調整は言語モデル分類器戦略の公平な評価に必要であると推論された。調整された判定閾値モデルバージョンは、BCRおよびTCR言語モデルコンポーネントを単独で評価するためにのみ使用された。他方で、元のクラス確率は、アンサンブルメタモデル特徴行列に入る前に再重み付けされなかった。
【0148】
分類器を評価する:最後に、配列予測-集約予測子を試験セットで評価した。各試験試料の配列をスコア化し、次いで上記のようにトリム平均と組み合わせた。各試料について得られた疾患クラス確率を上記で見出されたグローバルクラス重みによって再重み付けして、最終的な予測試料ラベルに到達した。グラウンドトゥルース試料の疾患状態は既知であるため、配列レベルの予測段階とは異なり、分類性能を評価することができる。
【0149】
アンサンブルメタモデル
レパートリー組成、CDR3クラスタリング、ならびに各foldの訓練セットに対する言語モデルの埋め込みおよび集約モデルを訓練した後、分類器をアンサンブル戦略と組み合わせた。各foldに対して、すべての訓練済み基本分類器をバリデーションセットで実行し、各基本モデルから得られた予測されたクラス確率ベクターを連結した。CDR3クラスタリングモデルからの任意の試料の棄権を繰り越した(他のモデルは棄権しない)。最後に、組み合わせた予測された確率ベクターをバリデーションセット試料疾患ラベルにマッピングするために、新しいラッソロジスティック回帰分類モデルを訓練した。モデルを「1対残り」の方法で訓練した。このメタモデルは、ホールドアウトされた試験セットで評価された。
【0150】
この研究で多くのデータセットを統合したので、疾患分類性能がバッチ間の技術的差異によって推進されないことを確認すべきであった。異なる頻度で異なる集団に現れる疾患に罹患している患者から同一の方法で、同一の重症度および時点で同一の試料を採取することが困難であることを考慮すると、ヒトコホートの任意の研究において、ある程度のバッチ効果を同定することが予想される。
【0151】
バッチの違いは、複数のバッチ、例えば、COVID-19患者、SLE患者、および健常ドナーに見られる疾患型からのBCRおよびTCRレパートリーの言語モデル埋め込みを使用して評価することができる。単一細胞シークエンシング文献からのkBETバッチ効果指標を適用することができる。kBETは、各細胞の隣接細胞間のバッチラベル分布をグローバル分布と比較することによって、多くのバッチからの細胞が十分に混合されているかどうかを測定する。遺伝子発現ベクターによって記述される細胞の代わりに、言語モデル埋め込み特徴によって記述される配列を評価した。kBETを、すべての試験セットの倍数において、ならびにBCRおよびTCRの両方のデータにおいて、すべての疾患について測定した。例えば、k最近傍グラフ(k=50)を試験fold 1のCOVID-19患者からのすべてのBCR配列で構築した。各配列の50の最近傍間のバッチラベル分布と、グラフ全体における各バッチに属する配列の総数から予想される分布との間の差について、カイ二乗検定を行った。p=0.05の有意閾値での多重仮説補正後、局所的近傍バッチ分布がグローバルバッチ分布と同じであるという帰無仮説を棄却することができた配列の数を測定した。これらの結果を遺伝子座およびfoldにわたる疾患によって集約すると、帰無仮説が平均して15.9%の配列について拒絶されることが認められ、データが十分に混合されていることが示唆された(
図27)。平均拒絶率は、コホート間の疾患重症度の差によって影響され得る31.9%のCOVID-19 BCR配列についてより高い。バッチ間の時点差は、COVID-19のような急性疾患のkBET指標にも影響を及ぼし得る。より早い時点では、Covid-19患者レパートリーにはより多くの健常バックグラウンド配列が含まれる可能性があり、Covid-19応答配列のクローン増殖後のバッチ比較とは異なるバッチ重複グラフになる。全体として、これらの例示的なデータにおける結果は、ほとんどの配列がそれらの最近傍の間で十分に混合されたバッチ割合を有することを示唆している。
【0152】
外部コホートに対するバリデーション
バッチ効果とは対照的に、モデルが真の生物学的シグナルを学習したことをさらに確認するために、他のコホートからの見えないデータに一般化するモデルの能力を試験した。この目的のために、データセットのクロスバリデーション分割の一方で訓練済みモデルを使用するのではなく、(試験セットをホールドアウトすることなく)すべてのデータを組み込んだ新しいグローバルモデルを訓練した(
図26)。アンサンブルメタモデルを訓練する目的で、クロスバリデーションレジームの場合のように、訓練セットとバリデーションセットサイズとの等価比で、バリデーションセットを依然としてホールドアウトした。cDNAシークエンシングを用いた他のIgHおよびTRBレパートリー研究からのデータをダウンロードし、IgBLASTを介して再処理して一貫した遺伝子命名法を確実にし、次いでモデルアーキテクチャー全体を通して処理した。
【0153】
健常な対象レパートリーからの人口統計学的情報の予測
上記のプロセスを繰り返して、疾患の代わりに年齢、性別または祖先を予測した。疾患特異的パターンの学習を避けるために、入力データを健常な対照に限定した。これを分類問題として扱うために、年齢を十分位数が、2値の「50歳未満」/「50歳以上」変数のいずれかに離散化した。注目すべきことに、健常な対照個体は一人のみが80歳を超えていた。したがって、データは、より極端な高齢でのレパートリー変化を評価しない。80歳を超える健常な個体を分析から除外した。
【0154】
3つのタスクの各々について、完全なBCRおよびTCRモデルならびにメタモデルアーキテクチャーをすべてのクロスバリデーションfoldで訓練した。生殖系列V、DもしくはJ遺伝子セグメントまたはHLA遺伝子における対立遺伝子変異体タイピングからデータを明示的にモデルに導入しなかったが、そのようなデータは、そのようなデータセットにおける祖先の検出を増加させると予想され得る。
【0155】
潜在的な人口統計学的交絡変数の予測力の評価
疾患予測モデルセット全体を、既知の年齢、性別、および祖先を有する個体のサブセットで再訓練した。(上記のように、80歳を超える個体は除外した。)さらに、アンサンブルステップへの入力として使用された特徴行列からのこれらの人口統計学的変数を回帰した。具体的には、年齢、性別、および祖先から列の値を予測するために、特徴行列の各列に線形回帰を適合させた。次いで、特徴行列の列を、適合されたモデルの残差に置き換えた。この手順は、年齢、性別、および祖先効果からメタモデルの特徴行列を直交化または非相関化する。メタモデルにおける共変量は、それが配列レベルモデルではなく試料レベルであり、年齢/性別/祖先人口統計学的情報が配列ではなく試料に結び付けられているので、段階を回帰した。
【0156】
別個に、モデルはまた、カテゴリーダミー変数としてコードされた年齢、性別、または祖先情報のいずれかから疾患を予測するように訓練された。ここでは、配列情報は入力として提供されなかった。各事例における最良性能モデルは、線形SVM、弾性正味正則化を伴う線形ロジスティック回帰モデル、ランダムフォレストモデルに及んだ。別個に、モデルはまた、年齢、性別、および祖先情報と共に、ならびに各BCRまたはTCR配列特徴を各人口統計学的特徴と乗算する相互作用項と共に、配列特徴から疾患を予測するように訓練された。これらのモデルの性能を人口統計のみのモデルと比較すると、配列情報を追加することの付加価値が示されている。
【0157】
疾患特異的配列のモデルランキング
各試験セットにおいて、言語モデル埋め込みに基づいて配列レベル分類器を用いてCOVID-19患者由来配列をスコア化した。予測されたCOVID-19クラス確率を、fold全体のすべての配列について組み合わせた。いくつかの配列が複数の人々に見られ、2つ以上の試験foldに現れ、したがって、各foldのモデルから異なる予測確率を受け取った。これらの配列を、最も高い予測疾患クラス確率を有するコピーを選択することによって重複排除して、配列がどの程度疾患に関連し得るかを捉えた。次いで、配列をそれらの予測確率によってランク付けし、ランクを0から1に再スケーリングした(元の確率が最も高い)。このプロセスを他の疾患について繰り返した。
【0158】
これらのランク付けされた配列リストを使用して、CDR-H3/CDR3β長さ、アイソタイプ、およびIGHV/TRBV遺伝子セグメントのようなランクと配列特性との関係を調べた。V遺伝子使用比較のために、有病率が非常に低いV遺伝子を除去した。有病率閾値を設定するために、任意のコホートから各V遺伝子がこれまでに構成する最大の割合を見出し、これらの割合の中央値を利用した(
図28Aおよび28B)。以下の希少IGHVおよびTRBV遺伝子を除外した(合計の半分):IGHV1-45、IGHV1-58、IGHV1-68、IGHV1-f、IGHV1/OR15-1、IGHV1/OR15-2、IGHV1/OR15-3、IGHV1/OR15-4、IGHV2-10、IGHV2-26、IGHV2-70D、IGHV3-16、IGHV3-19、IGHV3-22、IGHV3-35、IGHV3-38、IGHV3-43D、IGHV3-47、IGHV3-52、IGHV3-64D、IGHV3-71、IGHV3-72、IGHV3-73、IGHV3-NL1、IGHV3-d、IGHV3-h、IGHV3/OR16-10、IGHV3/OR16-13、IGHV3/OR16-8、IGHV3/OR16-9、IGHV4-28、IGHV4-55、IGHV4/OR15-8、IGHV5-78、IGHV7-81、VH1-17P、VH1-67P、VH3-41P、VH3-60P、VH3-65P、VH7-27P;TRBV10-1、TRBV11-1、TRBV11-3、TRBV12-2、TRBV12-5、TRBV13、TRBV14、TRBV15、TRBV16、TRBV17、TRBV20/OR9-2、TRBV26、TRBV27、TRBV29/OR9-2、TRBV3-1、TRBV3-2、TRBV4-2、TRBV4-3、TRBV5-3、TRBV5-7、TRBV5-8、TRBV6-4、TRBV6-7、TRBV6-8、TRBV6-9、TRBV7-1、TRBV7-4、TRBV7-7。このフィルタリング後に残っているほとんどのIGHV遺伝子は、コホート間で一貫したバランスのとれた有病率を有していた(
図29Aおよび29B)。
【0159】
既知のSARS-CoV-2結合体のデータベースとの重複
CoV-AbDabの2022年7月26日バージョンをダウンロードし、SARS-CoV-2に結合することが知られている抗体配列(弱い結合体を含む)にフィルタリングした。さらに、ヒト患者またはヒト抗体ライブラリーからの配列を選択し、これらの配列は決して一致しないので、データセットに決して存在しなかった任意のIGHV遺伝子を除去した。同一のIGHV遺伝子、IGHJ遺伝子、およびCDR-H3長さおよび少なくとも95%の配列同一性を有するCoV-AbDabからの残りのSARS-CoV-2結合体をクラスタリングした。いくつかの関連配列を組み合わせ、コンセンサス配列で置き換えた。
【0160】
次いで、データセットとCoV-AbDabとの間に重複配列が見出された。第1に、異なるアイソタイプに由来するが、同じIGHV遺伝子、IGHJ遺伝子、およびCDR-H3配列を共有するデータセット内の配列の場合、疾患との配列の関係の強さを評価するために、最も高い予測COVID-19確率を有するコピーを保持した。次いで、データセット中の(任意のアイソタイプからの)COVID-19患者から生じる各配列を、それらが同じIGHV遺伝子、IGHJ遺伝子、およびCDR-H3長さを有し、少なくとも85%の配列同一性を有する限り、最近傍のCoV-AbDabクラスター重心に割り当てた。最高信頼度の配列から出発して、モデルランクの順序で配列を繰り返し、累積一致数を既知の結合体データベースのクラスターに対して計数した。AUCスコアも、CoV-AbDabデータベースと一致するBCR配列に対するモデルランキングを使用して計算した。最後に、配列がランダムに並べられた場合、予想されるヒットに対するこれらの観察されたカウントの濃縮を計算した。配列のプールから置き換えることなく一定数の既知の結合体をサンプリングするための引き抜き回数は、負の超幾何分布に従う。n<N個の既知の結合体を含有するN個の全配列では、
【数1】
配列が引かれるたびに新しい既知の結合体が見出されると予想される。
【0161】
レパートリーの可視化
各受容体について、ラッソ配列モデルは、埋め込まれた配列ベクターとモデル係数との内積に比例する予測クラスロジットを与える。言い換えれば、この線形変換は、係数を入力特徴に重みとして適用し、クラスごとの配列行列を作成する。2D可視化を作成するために、UMAPを各配列について疾患状態ごとのロジットで実行した。配列ラベルはUMAPの監督として提供されたので、配列が歪む可能性は低い。
【0162】
参照UMAPを、各疾患状態(または健常)に関連する可能性が高い訓練セット配列のサブセットを使用して、各foldについて作成した。配列のこのサブセットは、以下のフィルターを用いて選択された:
【0163】
まず、特定の疾患クラスの配列のサブセットを形成するために、その疾患を有する患者に由来する配列のみを考慮した。そうでなければ、配列はその疾患に妥当に関連し得なかった。例えば、COVID-19代表配列がHIV患者に由来することは意味をなさないであろう。
【0164】
第2に、この配列に対するラッソ配列モデルの予測は、疾患クラスとも一致しなければならない。結局、参照レイアウトは疾患特異的配列で構築されたので、モデルが疾患クラスに分類した配列のみが含まれるべきである。同様に、健常の対象に由来し、そのクラスに属すると予測される健常クラスからの配列のみを考慮した。
【0165】
第3に、予測が近いコールであった配列を除外した。これらの境界線配列は、特に高いラベルノイズ(前述)のために、参照マップの構築において回避されることが望まれていた。したがって、潜在的配列を、他のクラスについて予測される確率よりも少なくとも0.2大きい予測疾患クラス確率を有するものにフィルタリングした。
【0166】
最後に、各疾患の残りの候補配列をその疾患状態に属する予測確率でソートし、上位20%を維持して各クラスの参照配列の簡潔なプールを作成した。これらの配列のみのクラスごとのロジットを使用してUMAPを構築した。
【0167】
UMAPが構築されると、ホールドアウトされた配列がレイアウトに投影された。第1に、治療用モノクローナル抗体を2Dマップに重ね合わせた。それらの配列は、Thera-SabDabを介して見出され、IgBLASTでアノテーションされた。配列レベルのラッソモデルを使用して、各配列について教師あり埋め込み(クラスごとのロジット)を計算し、訓練済みUMAP変換を適用して、各抗体の2D座標を生成した。
【0168】
第2に、ホールドアウトされた試験患者の配列をUMAPに重ね合わせ、疾患特異的であると予測される患者レパートリーの配列のサブセットに同じプロセスを適用した。患者がホールドアウトされた試験セットに入っていたfoldに属するモデルおよびUMAP変換を使用した。患者のレパートリーは、予測されたラベルがアンサンブルメタモデルによる全体的な試料予測と一致する配列、または健常/バックグラウンドであると予測された配列にフィルタリングされた。結果として、可視化は、この患者のB細胞レパートリーの健常関連成分と疾患関連成分との両方を含んでいた。信頼できるモデル予測を有するものに対する配列をさらにフィルタリングした:最も高い予測クラス確率が、次に高いクラス確率よりも少なくとも0.1大きい配列を選択した。これらのフィルタリングするステップの後に残っているすべての配列を、それらの予測クラス確率によってソートした。健常/バックグラウンドおよび試料予測ラベルクラス全体にわたるソートされたリストの上位20%を維持した。
【国際調査報告】