IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ ボード オブ リージェンツ オブ ザ ユニバーシティー オブ テキサス システムの特許一覧

特表2024-528441多重疾患診断のためのTCRレパートリーフレームワーク
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】多重疾患診断のためのTCRレパートリーフレームワーク
(51)【国際特許分類】
   G16B 30/00 20190101AFI20240723BHJP
   G16B 40/00 20190101ALI20240723BHJP
【FI】
G16B30/00
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023578712
(86)(22)【出願日】2022-06-17
(85)【翻訳文提出日】2024-02-19
(86)【国際出願番号】 US2022034068
(87)【国際公開番号】W WO2022271566
(87)【国際公開日】2022-12-29
(31)【優先権主張番号】63/202,716
(32)【優先日】2021-06-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】508152917
【氏名又は名称】ザ ボード オブ リージェンツ オブ ザ ユニバーシティー オブ テキサス システム
【氏名又は名称原語表記】THE BOARD OF REGENTS OF THE UNIVERSITY OF TEXAS SYSTEM
(74)【代理人】
【識別番号】230104019
【弁護士】
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100149076
【弁理士】
【氏名又は名称】梅田 慎介
(74)【代理人】
【識別番号】100173185
【弁理士】
【氏名又は名称】森田 裕
(74)【代理人】
【識別番号】100162503
【弁理士】
【氏名又は名称】今野 智介
(74)【代理人】
【識別番号】100144794
【弁理士】
【氏名又は名称】大木 信人
(74)【代理人】
【識別番号】100204582
【弁理士】
【氏名又は名称】大栗 由美
(72)【発明者】
【氏名】リー,ボー
(57)【要約】
幾何学的等長性に基づく抗原特異的TCRアラインメント(GIANA)の新規な方法が本明細書に記載される。GIANAは、数千万の配列を効率的に取り扱うことができる抗原特異的TCRクラスター化法である。GIANAは現存する全ての方法より高い感度および精度を達成し、既知の抗原に特異的なTCRを高い正確度で検索することができる。新規の試料の超大スケールのTCRクラスター化および高速のクエリーによって、参照に基づく新規なレパートリー分類フレームワークも可能になった。GIANAはTCR領域が解明された単一細胞のRNA-seqデータを解析することもでき、パブリックドメインにあるTCRレパートリー試料の大きなデータベースに対する未知のデータにTCRを探索要求し、共有された抗原特異性に対する新たな洞察を提供することが可能である。GIANAは、大型B細胞受容体のシーケンシングデータをクラスター化または探索要求するために適用することもできる。
【選択図】図1
【特許請求の範囲】
【請求項1】
T細胞受容体(TCR)の比較のための計算効率を改善する方法であって、
計算デバイスによって、ただ1つのエピトープに特異的なTCRからなる参照TCR配列(TCR-seq)データセットから相補性決定領域3(CDR3)配列を同定するステップ、
前記計算デバイスによって、参照TCR-seqデータセットからのCDR3配列のそれぞれをCDR3配列のそれぞれにおけるアミノ酸の配列に対応する数値ベクトルにエンコードするステップ、
前記計算デバイスによって、数値ベクトルを高次元ユークリッド空間における座標に変換するステップ、
前記計算デバイスによって、
ニューラルネットワークによって、座標の相対的距離に基づいて数値ベクトルのツリーデータ構造を生成するように学習し、
ニューラルネットワークによって、相対的距離に基づいて座標をプレクラスターにグループ化することによって、
ニューラルネットワークを用いて予測モデルを生成するステップ、
前記計算デバイスによって、プレクラスター中のCDR3配列をフィルタリングするステップ、ならびに
前記計算デバイスによって、フィルタリングされたプレクラスターから抗原特異的CDR3クラスターを同定するステップ
を含む、方法。
【請求項2】
前記計算デバイスによって、同定、エンコーディング、変換、生成、およびフィルタリングのステップを、既知の抗原特異的TCR情報を有しないクエリーTCR-seqデータセットについて実施するステップ、
前記計算デバイスによって、クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターを抗原特異的CDR3クラスターと比較するステップ、および
前記計算デバイスによって、クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターが抗原特異的CDR3クラスターと一致することを判定し、疾患の状態を診断および/または判定するステップ
をさらに含む、請求項1に記載の方法。
【請求項3】
前記計算デバイスによって、同一の座標をともに有するCDR3配列をグループ化するステップ
をさらに含む、請求項1に記載の方法。
【請求項4】
フィルタリングするステップが、
前記計算デバイスによって、プレクラスター中のCDR3配列のそれぞれの対のTCR可変(TRBV)アレルを比較してアラインメントスコアを決定するステップ、および
前記スコアが所定のレベルを超えれば、前記計算デバイスによって、プレクラスターを1つまたは複数の新たなプレクラスターに分割するステップ
を含む、請求項1に記載の方法。
【請求項5】
フィルタリングするステップが、
前記計算デバイスによって、プレクラスターのそれぞれについてスミス-ウォーターマンアラインメントを実施してアラインメントスコアを決定するステップ、および
前記スコアが所定のレベル未満であれば、前記計算デバイスによってプレクラスターを除去するステップ
をさらに含む、請求項4に記載の方法。
【請求項6】
エンコードするステップが、
前記計算デバイスによって、CDR3配列のそれぞれについて一連のユニタリー変換を実施するステップを含む、請求項1に記載の方法。
【請求項7】
プロセッサーによって実行された場合に、
ただ1つのエピトープに特異的なTCRからなる参照TCR配列(TCR-seq)データセットから相補性決定領域3(CDR3)配列を同定するステップ、
前記参照TCR-seqデータセットからのCDR3配列のそれぞれをCDR3配列のそれぞれにおけるアミノ酸の配列に対応する数値ベクトルにエンコードするステップ、
前記数値ベクトルを高次元ユークリッド空間における座標に変換するステップ、
ニューラルネットワークによって、座標の相対的距離に基づいて数値ベクトルのツリーデータ構造を生成するように学習し、
前記ニューラルネットワークによって、相対的距離に基づいて座標をプレクラスターにグループ化することによって、
ニューラルネットワークを用いて予測モデルを生成するステップ、
プレクラスター中のCDR3配列をフィルタリングするステップ、ならびに
フィルタリングされたプレクラスターから抗原特異的CDR3クラスターを同定するステップ
をプロセッサーに実行させる非一時的なコンピューター可読な命令を記憶するメモリーに作動可能に連結されたプロセッサー
を含む、計算デバイス。
【請求項8】
前記コンピューター可読な命令が、プロセッサーによって実行された場合に、
同定、エンコーディング、変換、生成、およびフィルタリングのステップを、既知の抗原特異的TCR情報を有しないクエリーTCR-seqデータセットについて実施するステップ、
クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターを抗原特異的CDR3クラスターと比較するステップ、および
クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターが抗原特異的CDR3クラスターと一致することを判定し、疾患の状態を診断および/または判定するステップ
をプロセッサーにさらに実行させる、請求項7に記載の計算デバイス。
【請求項9】
前記コンピューター可読な命令が、前記プロセッサーによって実行された場合に、
同一の座標をともに有するCDR3配列をグループ化するステップ
を前記プロセッサーにさらに実行させる、請求項7に記載の計算デバイス。
【請求項10】
フィルタリングするステップが、
前記計算デバイスによって、プレクラスター中のCDR3配列のそれぞれの対のTCR可変(TRBV)アレルを比較してアラインメントスコアを決定するステップ、および
前記スコアが所定のレベルを超えれば、前記計算デバイスによって、プレクラスターを1つまたは複数の新たなプレクラスターに分割するステップ
を含む、請求項7に記載の計算デバイス。
【請求項11】
フィルタリングするステップが、
前記計算デバイスによって、プレクラスターのそれぞれについてスミス-ウォーターマンアラインメントを実施してアラインメントスコアを決定するステップ、および
前記スコアが所定のレベル未満であれば、計算デバイスによってプレクラスターを除去するステップ
をさらに含む、請求項10に記載の計算デバイス。
【請求項12】
エンコードするステップが、
前記計算デバイスによって、CDR3配列のそれぞれについて一連のユニタリー変換を実施するステップを含む、請求項7に記載の計算デバイス。
【請求項13】
計算デバイスに付随するプロセッサーによって実行された場合に、
ただ1つのエピトープに特異的なTCRからなる参照TCR配列(TCR-seq)データセットから相補性決定領域3(CDR3)配列を同定するステップ、
前記参照TCR-seqデータセットからのCDR3配列のそれぞれをCDR3配列のそれぞれにおけるアミノ酸の配列に対応する数値ベクトルにエンコードするステップ、
前記数値ベクトルを高次元ユークリッド空間における座標に変換するステップ、
ニューラルネットワークによって、座標の相対的距離に基づいて数値ベクトルのツリーデータ構造を生成するように学習し、
前記ニューラルネットワークによって、相対的距離に基づいて座標をプレクラスターにグループ化することによって、
ニューラルネットワークを用いて予測モデルを生成するステップ、
前記プレクラスター中のCDR3配列をフィルタリングするステップ、ならびに
フィルタリングされたプレクラスターから抗原特異的CDR3クラスターを同定するステップ
をプロセッサーに実行させる、コンピューター実行可能な命令が有形的にエンコードされた非一時的なコンピューター可読の記憶媒体。
【請求項14】
前記コンピューター実行可能な命令が、プロセッサーによって実行された場合に、
同定、エンコーディング、変換、生成、およびフィルタリングのステップを、既知の抗原特異的TCR情報を有しないクエリーTCR-seqデータセットについて実施するステップ、
前記クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターを抗原特異的CDR3クラスターと比較するステップ、および
クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターが抗原特異的CDR3クラスターと一致することを判定し、疾患の状態を診断および/または判定するステップ
をプロセッサーに実行させる、請求項13に記載の非一時的なコンピューター可読の記憶媒体。
【請求項15】
コンピューター実行可能な命令が、プロセッサーによって実行された場合に、
同一の座標をともに有するCDR3配列をグループ化するステップ
をプロセッサーに実行させる、請求項13に記載の非一時的なコンピューター可読の記憶媒体。
【請求項16】
フィルタリングするステップが、
前記計算デバイスによって、プレクラスター中のCDR3配列のそれぞれの対のTCR可変(TRBV)アレルを比較してアラインメントスコアを決定するステップ、および
前記スコアが所定のレベルを超えれば、前記計算デバイスによって、プレクラスターを1つまたは複数の新たなプレクラスターに分割するステップ
を含む、請求項13に記載の非一時的なコンピューター可読の記憶媒体。
【請求項17】
フィルタリングするステップが、
前記計算デバイスによって、プレクラスターのそれぞれについてスミス-ウォーターマンアラインメントを実施してアラインメントスコアを決定するステップ、および
前記スコアが所定のレベル未満であれば、前記計算デバイスによってプレクラスターを除去するステップ
をさらに含む、請求項16に記載の非一時的なコンピューター可読の記憶媒体。
【請求項18】
エンコードするステップが、
前記計算デバイスによって、CDR3配列のそれぞれについて一連のユニタリー変換を実施するステップを含む、請求項13に記載の非一時的なコンピューター可読の記憶媒体。
【請求項19】
共通の抗原特異性を用いてT細胞受容体(TCR)データベースを組織化し探索要求する方法であって、
1つまたは複数のTCR非類似性メトリックスを用いる最近傍探索を実施して、共通の抗原特異性を有するTCRの対を見出すステップを含む、方法。
【請求項20】
前記1つまたは複数のTCR非類似性メトリックスが、スミス-ウォーターマン距離および高次元ユークリッド空間における埋め込みの1つもしくは複数、または他の任意の距離もしくは非類似性メトリックを含む、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2021年6月22日出願の米国仮出願第63/202,716号の35 U.S.C.セクション119(e)の下での優先権の利益を主張する。先行出願の開示は、参照により全体として本出願の開示の一部であるとみなされ、本明細書に組み込まれる。
【0002】
本開示は一般に、免疫レパートリーに基づく疾患の診断技術に関し、より詳細には、類似のT細胞受容体(TCR)配列を効率的にグループ化し、疾患を有する患者を診断し、末梢血のTCRレパートリーによって患者の疾患の状態を判定するための新規なシステムおよび方法に関する。
【背景技術】
【0003】
適応免疫レパートリーは、多様なヒトの疾患の重要な調節因子であり、近年、1万を超えるTCRレパートリーシーケンシング(TCR-seq)試料が生成されている。しかし、TCRデータの解釈は、既知の抗原特異性が希少であることによって妨げられてきた。最近の研究によって、TCRの超可変相補性決定領域3(CDR3)における類似性が抗原認識のための構造的類似性に関与していることが実証された。したがって、類似したCDR3のクラスター化が、抗原特異的受容体を同定するための重要な方法となってきた。
【発明の概要】
【課題を解決するための手段】
【0004】
T細胞受容体(TCR)の比較のための計算効率を改善するための方法、システム、および装置を本明細書に記載する。一例では、相補性決定領域3(CDR3)の配列が、参照TCR配列(TCR-seq)データセットから同定され得る。参照TCR-seqデータセットは、ただ1つのエピトープに特異的なTCRからなり得る。参照TCR-seqデータセットからのCDR3配列のそれぞれが数値ベクトルにエンコードされ得、数値ベクトルはCDR3配列のそれぞれにおけるアミノ酸の配列に対応する。数値ベクトルは高次元ユークリッド空間における座標に変換され得る。ニューラルネットワークを用いて予測モデルを生成することができる。ニューラルネットワークは、座標の相対的距離に基づいて数値ベクトルのツリーデータ構造を生成するように学習し、相対的距離に基づいて座標をプレクラスターにグループ化することができる。プレクラスター中のCDR3配列は、ノイズを低減させるための1つまたは複数の基準を用いてフィルタリングすることができる。フィルタリングされたプレクラスターから抗原特異的CDR3クラスターを同定することができる。
【0005】
別の実施形態では、未知のTCR-seq試料を存在する参照データに対して探索要求(クエリー)し、疾患を有する患者を診断して、末梢血のTCRレパートリーによってその疾患状態を判定することができる。上記の同定、エンコーディング、変換、生成、およびフィルタリングのステップも、クエリーTCR-seqデータセットについて実施することができる。クエリーTCR-seqデータセットは、既知の抗原特異的TCR情報を有しないことがある。クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターを抗原特異的CDR3クラスターと比較することができる。クエリーTCR-seqデータセットからのフィルタリングされたプレクラスターが抗原特異的CDR3クラスターと一致することを判定することができる。
【0006】
別の例では、大きなTCRデータベースを探索要求し、共通の抗原特異性のTCRクラスターにグループ化することができる。1つまたは複数のTCR非類似性メトリックスを用いる最近傍探索を実施して、共通の抗原特異性を有するTCRの対を見出すことができる。1つまたは複数のTCR非類似性メトリックスには、スミス-ウォーターマン距離および高次元ユークリッド空間における埋め込みの1つもしくは複数、または他の任意の距離もしくは非類似性メトリックが含まれ得る。
【0007】
以下に記載する図面は説明のためのみである。図面は本開示の範囲を限定することを意図していない。
【図面の簡単な説明】
【0008】
図1】本開示の一部の実施形態によるシステムのダイアグラムである。
図2】本開示の一部の実施形態による、本明細書に記載した方法を実施するための構成要素を説明するブロックダイアグラムである。
図3】本開示の一部の実施形態による、参照TCR-seqデータのGIANA解析を説明するフローチャートである。
図4】本開示の一部の実施形態による、多次元スケーリング(MDS)に基づく等長埋め込みの性能を説明するチャートである。
図5A】本開示の一部の実施形態による、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す図である。
図5B】本開示の一部の実施形態による、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す図である。
図5C】本開示の一部の実施形態による、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す図である。
図5D】本開示の一部の実施形態による、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す図である。
図5E】本開示の一部の実施形態による、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す図である。
図5F】本開示の一部の実施形態による、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す図である。
図6】本開示の一部の実施形態による、幾何学的等長性に基づく抗原特異的TCRアラインメント(GIANA)ワークフローの概観を説明する図である。
図7】本開示の一部の実施形態による、積み上げMDSベクトルを用いるGIANAワークフロー(GIANAsv)の概観を説明する図である。
図8】本開示の一部の実施形態による、様々なTCRクラスター化アルゴリズムについての時間計算量の比較を示すチャートである。
図9】本開示の一部の実施形態による、時間計算量を評価する際の様々なTCRクラスター化アルゴリズムのメモリー使用量を示すチャートである。
図10】本開示の一部の実施形態によるクラスター化の精度を説明するチャートである。
図11】本開示の一部の実施形態によるクラスター化の感度を説明するチャートである。
図12】TCRクラスター化の4つの方法の間の正規化された相互情報量(NMI)の比較を説明するチャートである。
図13】パラメーター設定の範囲におけるGIANAの性能を測定する適合率-再現率の曲線を説明するチャートである。
図14】様々な置換行列を用いてGIANAの性能を測定する適合率-再現率の曲線を説明するチャートである。
図15A】本開示の一部の実施形態による、大きくノイズの多いTCR配列(TCR-seq)試料に適用した場合のGIANAの感度および特異性を説明するチャートである。
図15B】本開示の一部の実施形態による、大きくノイズの多いTCR配列(TCR-seq)試料に適用した場合のGIANAの感度および特異性を説明するチャートである。
図15C】本開示の一部の実施形態による、大きくノイズの多いTCR配列(TCR-seq)試料に適用した場合のGIANAの感度および特異性を説明するチャートである。
図15D】本開示の一部の実施形態による、大きくノイズの多いTCR配列(TCR-seq)試料に適用した場合のGIANAの感度および特異性を説明するチャートである。
図15E】本開示の一部の実施形態による、大きくノイズの多いTCR配列(TCR-seq)試料に適用した場合のGIANAの感度および特異性を説明するチャートである。
図15F】本開示の一部の実施形態による、大きくノイズの多いTCR配列(TCR-seq)試料に適用した場合のGIANAの感度および特異性を説明するチャートである。
図16A】本開示の一部の実施形態による、GLIPH2についての感度および特異性の推定を示す図である。
図16B】本開示の一部の実施形態による、GLIPH2についての感度および特異性の推定を示す図である。
図16C】本開示の一部の実施形態による、GLIPH2およびGIANAについての陽性予測値(PPV)の推定を示す図である。
図17】本開示の一部の実施形態による、等長変換に基づく高速GIANAクエリーを説明するダイアグラムである。
図18】本開示の一部の実施形態による、様々な数のTCRによる参照/クエリーデータを用いるGIANAクエリーモジュールの時間計算量評価を説明するチャートである。
図19】本開示の一部の実施形態による、参照データセットに対してクラスター化することによってクエリーCOVID-19患者が健常対照から分離される程度を説明するチャートである。
図20A】本開示の一部の実施形態による、単一予測因子としてCOVID-19分率を用いる受信者動作特性(ROC)曲線を説明するチャートである。
図20B】本開示の一部の実施形態による、単一予測因子としてCOVID-19分率を用いる受信者動作特性(ROC)曲線を説明するチャートである。
図20C】本開示の一部の実施形態による、単一予測因子としてCOVID-19分率を用いる受信者動作特性(ROC)曲線を説明するチャートである。
図21A】本開示の一部の実施形態による、様々な数の参照TCRによるCOVID-19分率の変動係数を説明するチャートである。
図21B】本開示の一部の実施形態による、様々な数の参照TCRによるCOVID-19分率の変動係数を説明するチャートである。
図21C】本開示の一部の実施形態による、様々な数の参照TCRによるCOVID-19分率の変動係数を説明するチャートである。
図21D】本開示の一部の実施形態による、様々な数の参照TCRによるCOVID-19分率の変動係数を説明するチャートである。
図22A】本開示の一部の実施形態による、TCR共クラスター化に基づくTCR-seq試料の類似性のグラフ表現である。
図22B】本開示の一部の実施形態による、TCR共クラスター化に基づくTCR-seq試料の類似性のグラフ表現である。
図22C】本開示の一部の実施形態による、TCR共クラスター化に基づくTCR-seq試料の類似性のグラフ表現である。
図22D】本開示の一部の実施形態による、TCR共クラスター化に基づくTCR-seq試料の類似性のグラフ表現である。
図23A】本開示の一部の実施形態による、様々なカテゴリーのTCRクローン頻度の分布を説明するビースウォームプロットである。
図23B】本開示の一部の実施形態による、様々なカテゴリーのTCRクローン頻度の分布を説明するビースウォームプロットである。
図24A】本開示の一部の実施形態による、重症急性呼吸器症候群コロナウイルス-2(SARS-CoV-2)感染の経過の間のTCRクローン頻度の動的変化を説明するグラフである。
図24B】本開示の一部の実施形態による、重症急性呼吸器症候群コロナウイルス-2(SARS-CoV-2)感染の経過の間のTCRクローン頻度の動的変化を説明するグラフである。
図25A】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートである。
図25B】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートである。
図25C】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートである。
図25D】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートである。
図25E】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートである。
図25F】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートである。
図26A】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についてのより厳格な方法を用いるROC曲線を説明するチャートである。
図26B】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についてのより厳格な方法を用いるROC曲線を説明するチャートである。
図26C】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についてのより厳格な方法を用いるROC曲線を説明するチャートである。
図26D】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についてのより厳格な方法を用いるROC曲線を説明するチャートである。
図26E】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についてのより厳格な方法を用いるROC曲線を説明するチャートである。
図26F】本開示の一部の実施形態による、共クラスター化されたTCRから計算した疾患分率についてのより厳格な方法を用いるROC曲線を説明するチャートである。
図27】本開示の一部の実施形態による、参照TCR-seq試料のクロスコホート類似性を説明するチャートである。
図28A】本開示の一部の実施形態による、がん、COVID-19、多発性硬化症(MS)患者、および健常対照(HC)のクラス分率の分布を説明するバイオリンプロットである。
図28B】本開示の一部の実施形態による、がん、COVID-19、多発性硬化症(MS)患者、および健常対照(HC)のクラス分率の分布を説明するバイオリンプロットである。
図28C】本開示の一部の実施形態による、がん、COVID-19、多発性硬化症(MS)患者、および健常対照(HC)のクラス分率の分布を説明するバイオリンプロットである。
図28D】本開示の一部の実施形態による、がん、COVID-19、多発性硬化症(MS)患者、および健常対照(HC)のクラス分率の分布を説明するバイオリンプロットである。
図29A】本開示の一部の実施形態による、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートである。
図29B】本開示の一部の実施形態による、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートである。
図29C】本開示の一部の実施形態による、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートである。
図29D】本開示の一部の実施形態による、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートである。
図29E】本開示の一部の実施形態による、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートである。
図29F】本開示の一部の実施形態による、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートである。
【発明を実施するための形態】
【0009】
従来の多くの研究が、疾患の進行または免疫療法処置の間の抗原特異的なT細胞応答を検討するためにTCRクラスター化を応用してきた。多くの研究からの多数のTCR-seq試料を統合することによって、免疫と疾患との相互作用へのより多くの洞察がもたらされ、予後および診断のための新規な機会が創成されることが推測される。それにも関わらず、高いクラスター化特異性はCDR3配列とTCR可変遺伝子(TRBV)アレルの両方におけるペアワイズなスミス-ウォーターマンアラインメントを必要とし、これは、TCRレパートリー試料のスケール(100K配列以上)にまでスケールアップすることが通常はできない二次方程式計算の複雑性を有している。モチーフに基づくクラスター化は高速を達成できるが、特異性が非常に低くなる。したがって、現在のTCRクラスター化法はいずれも、大きなコホートのTCR-seq試料を解析することには適していない。
【0010】
監視されていないTCRクラスター化は、免疫レパートリーデータの基礎的な解析である。理想的なシナリオでは、同じエピトープに対して特異的な全てのTCRが同じクラスターに含まれるべきである。しかし、特異性が共有されたTCR配列における想定される多様性のため、これは配列類似性またはモチーフに基づくクラスター化のアプローチについては実現不能である。そのような多様性は、T細胞受容体の独特のドッキング戦略によって惹き起こされる。例えば、インフルエンザGILエピトープに特異的なTCRは通常、CDR3領域に古典的なRSS/RSAモチーフを含むが、関連研究はLGGWモチーフも異なる方向からのGILへの強い結合を誘発することを報告している。そのような構造的変動は、単純なスミス-ウォーターマンアラインメントまたはモチーフグループ化によっては捕捉できない。結果として、類似していないモチーフを有するCDR3はその特異性を共有しているにも関わらず、小さなクラスターに断片化されることになり、これは現在の方法に対する一般的な限界である。
【0011】
この課題に対処するため、CDR3配列を変形し、配列アラインメントおよびクラスター化の課題を高次元ユークリッド空間における最近傍探索に変換する新規なフレームワークを開発した。この変形は、TCRのペアワイズ比較の計算効率を顕著に改善し、10~10配列にスケールアップすることができる。従来のシステムおよび方法によってはプールすることができない数千個のTCRレパートリー試料をプールすることによって、本明細書に記載した新規な方法は、新規な疾患関連TCRを同定することができる。本明細書でさらに記載するように、これは新たな多重疾患診断のプラットフォームに新たな進路を開く可能性がある。
【0012】
ここで本開示を、添付した図面を参照してこの後、より詳しく記載する。添付した図面はその一部を形成し、非限定的な説明として、ある種の例を示す。しかし、主題は種々の異なる形態で記載される可能性があり、したがって包含されるまたは特許を請求する主題は本明細書で説明するいずれの例にも限定されないと解釈すべきことを意図している。とりわけ、主題は方法、デバイス、成分、またはシステムとして記載され得る。したがって、例はハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せ(ソフトウェアそれ自体以外)の形態を取り得る。したがって、以下の詳細な説明は、限定的な意味で受け取られることを意図していない。
【0013】
一般に、用語は少なくとも部分的に、文脈における用法から理解され得る。例えば、本明細書で用いられる用語、例えば「および」、「または」、または「および/または」は、それらの用語が用いられる文脈に少なくとも部分的に応じた種々の意味を含み得る。典型的には、「または」は、A、B、もしくはC等のリストに付随して用いられる場合には、包括的な意味で用いられるA、B、およびC、ならびに排他的な意味で用いられるA、B、またはCを意味することを意図している。さらに、少なくとも部分的に文脈に応じて本明細書で用いられる用語「1つまたは複数」は、任意の特徴、構造、もしくは特性を単数の意味で記載するために用いられ、または特徴、構造、もしくは特性の組合せを複数の意味で記載するために用いられ得る。同様に、例えば「1つの」または「その」等の用語も、少なくとも部分的に文脈に応じて単数の用法を伝えまたは複数の用法を伝えると理解され得る。さらに、用語「基づく」は、排他的な要素の組を伝えると必ずしも意図しないことが理解され、その代わりに、これも少なくとも部分的に文脈に応じて、必ずしも明示的に記載されていないさらなる要素の存在が認められ得る。
【0014】
本開示を、方法およびデバイスのブロックダイアグラムおよび操作説明を参照して以下に記載する。ブロックダイアグラムまたは操作説明のそれぞれのブロック、およびブロックダイアグラムまたは操作説明におけるブロックの組合せは、アナログまたはデジタルのハードウェアおよびコンピュータープログラムの命令によって実行され得ることが理解される。これらのコンピュータープログラムの命令は、その機能を本明細書に詳細を記載したように変更するために多目的コンピューターのプロセッサーに、専用コンピューターに、ASICに、またはその他のプログラム可能なデータ処理装置に提供され、それにより、コンピューターまたはその他のプログラム可能なデータ処理装置のプロセッサーを介して実行される命令が、ブロックダイアグラムまたは操作ブロックで特定された機能/動作を実施することができる。一部の代替の実施では、ブロックに注記された機能/動作は、操作説明書に注記された順序とは異なって生じることがある。例えば、関与する機能/動作に応じて、継続して示された2つのブロックが実質的に同時に実行されることがあり、時にはブロックが逆の順で実行されることがある。
【0015】
本開示の目的のため、非一時的コンピューター可読媒体(またはコンピューター可読の記憶媒体)がコンピューターデータを記憶し、このデータは、コンピューターによって実行可能なコンピュータープログラムコード(またはコンピューター実行可能な命令)を、機械可読な形態で含むことができる。例として、限定としてではなく、コンピューター可読媒体は、データの有形のもしくは固定された記憶のためのコンピューター可読の記憶媒体、またはコードを含むシグナルの一時的な解釈のための通信媒体を含み得る。本明細書で用いられるコンピューター可読の記憶媒体は物理的または有形の記憶(シグナルと対立する)を意味し、コンピューター可読な命令、データ構造、プログラムモジュール、またはその他のデータ等の情報の有形の記憶のための任意の方法または技術において実行される揮発性および非揮発性の、除去可能および非除去可能な媒体を限定なく含む。コンピューター可読の記憶媒体には、これらに限らないが、RAM、ROM、EPROM、EEPROM、フラッシュメモリーもしくはその他の固体メモリー技術、CD-ROM、DVD、もしくはその他の光学ストレージ、クラウドストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくはその他の磁気記憶デバイス、または所望の情報もしくはデータもしくは命令を有形的に記憶するために用いることができ、コンピューターもしくはプロセッサーによってアクセスすることができる他の任意の物理的もしくは物質的な媒体が含まれる。
【0016】
本開示の目的のため、用語「サーバー」は、プロセシング、データベース、および通信の設備を提供するサービス点を意味すると理解されたい。例として、限定としてではなく、用語「サーバー」は、付随する通信およびデータ記憶およびデータベースの設備を有する単一の物理的プロセッサーを意味することがあり、またはプロセッサーおよび付随するネットワークおよび記憶デバイスのネットワーク化もしくはクラスター化された複合体、ならびにサーバーによって提供されるサービスを援助する動作ソフトウェアおよび1つもしくは複数のデータベースシステムおよびアプリケーションソフトウェアを意味することもある。クラウドサーバーはその例である。
【0017】
本開示の目的のため、「ネットワーク」は、例えばワイヤレスネットワークを介して連結されたワイヤレスデバイスの間を含む、サーバーとクライアントデバイスまたはその他の型のデバイスとの間等の、通信が交換され得るようにデバイスを連結するネットワークを意味すると理解されたい。ネットワークには、大容量記憶装置、例えばネットワーク接続ストレージ(NAS)、ストレージエリアネットワーク(SAN)、コンテンツ配信ネットワーク(CDN)、またはその他のコンピューターもしくは機械可読の媒体の形態も含まれ得る。ネットワークには、インターネット、1つもしくは複数のローカルエリアネットワーク(LAN)、1つもしくは複数のワイドエリアネットワーク(WAN)、ワイヤライン型の接続、ワイヤレス型の接続、セルラー、またはそれらの任意の組合せが含まれる。同様に、異なるアーキテクチャを採用するか、または異なるプロトコルに適合もしくは互換できるサブネットワークを、大きなネットワークの中で相互運用してもよい。
【0018】
本開示の目的のため、「ワイヤレスネットワーク」はクライアントデバイスをネットワークに連結することと理解されたい。ワイヤレスネットワークとしては、スタンドアローンアドホックネットワーク、メッシュネットワーク、ワイヤレスLAN(WLAN)ネットワーク、セルラーネットワーク、その他を採用してよい。ワイヤレスネットワークとしては、Wi-Fi、ロングタームエボリューション(LTE)、WLAN、ワイヤレスルーター(WR)メッシュ、または第2、第3、第4、もしくは第5世代(2G、3G、4G、または5G)のセルラー技術、ブルートゥース(登録商標)、802.11b/g/n、その他を含む複数のネットワークアクセス技術をさらに採用してよい。ネットワークアクセス技術は、例えば様々な程度の可動性を有するクライアントデバイス等のデバイスのための広範囲のカバレッジを可能にし得る。
【0019】
手短に言えば、ワイヤレスネットワークは、それによってシグナルがデバイスの間、例えばクライアントデバイスまたは計算デバイスの間、ネットワークの間もしくはその中、その他で通信される、実質的に任意の型のワイヤレス通信機構を含み得る。
【0020】
計算デバイスは、例えば有線もしくは無線のネットワークを介してシグナルを送信または受信することができ、または例えば物理的メモリー状態としてメモリーの中にシグナルを処理または記憶することができ、したがってサーバーとして動作することができる。即ち、サーバーとして動作することができるデバイスには、例えば専用のラックマウント方式のサーバー、デスクトップコンピューター、ラップトップコンピューター、セットトップボックス、上記のデバイスの2つ以上の特徴等の種々の特徴を組み合わせた統合されたデバイス、その他が含まれ得る。
【0021】
ここで図1を参照してシステム100を示す。図1は、本明細書で論じるシステムおよび方法がその中で実施される一般的な環境の構成要素を説明している。本開示を実施するために全ての構成要素が必要なのではなく、本開示の精神および範囲から逸脱することなく、構成要素の配置および型における変形を行ってよい。
【0022】
図1のシステム100はネットワーク104を含み、これは上で論じたように、それだけに限らないが、ワイヤレスネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、またはそれらの組合せを含んでよい。
【0023】
ネットワーク104は、別のネットワークまたはデバイスとともに、例えば1つもしくは複数のクライアントデバイス102、アプリケーションサーバー106、コンテンツサーバー108、およびデータベース107、ならびにそれらの構成要素と連結してよい。ネットワーク104は、1つまたは複数のクライアントデバイス102、アプリケーションサーバー106、コンテンツサーバー108、およびデータベース107のためのインフラストラクチャーを指向した連結を提供するために、スタンドアローンアドホックネットワークにさらに重層する種々のワイヤレスサブネットワーク等として構成してよい。ネットワーク104は、1つの電子デバイスから別の電子デバイスに情報を通信するために、任意の形態のコンピューター可読媒体またはネットワークを採用するように構成してよい。
【0024】
1つまたは複数のクライアントデバイス102は、例えばデスクトップコンピューターまたはポータブルデバイス、例えば携帯電話、スマートフォン、ディスプレイページャー、ラジオ周波数(RF)デバイス、赤外(IR)デバイス、近距離通信(NFC)デバイス、個人用デジタル端末(PDA)、ハンドヘルドコンピューター、タブレットコンピューター、ファブレット、ラップトップコンピューター、セットトップボックス、ウェアラブルコンピューター、スマートウォッチ、上記のデバイスの特徴等の種々の特徴を組み合わせた統合型もしくは分配型デバイス、その他を含んでよい。
【0025】
1つまたは複数のクライアントデバイス102は、別の計算デバイスからコンテンツを受信するように構成された少なくとも1つのクライアントアプリケーションを含んでもよい。1つまたは複数のクライアントデバイス102は、ネットワーク104を通して他のデバイスまたはサーバーと通信してよく、そのような通信には、メッセージの送信および/または受信、TCRデータの生成および提供、TCRデータの探索、表現、および/もしくは共有、または他の形態の種々の通信のいずれかが含まれ得る。1つまたは複数のクライアントデバイス102は、例えば物理的メモリー状態としてメモリーの中にシグナルを処理または記憶することができ、したがってサーバーとして動作することができる。
【0026】
アプリケーションサーバー106およびコンテンツサーバー108は、任意の型または形態のコンテンツを、ネットワークを介して別のデバイスに提供および/または生成するように構成された1つまたは複数のデバイスを含んでよい。アプリケーションサーバー106および/またはコンテンツサーバー108として作動し得るデバイスには、パーソナルコンピューター、デスクトップコンピューター、マルチプロセッサーシステム、マイクロプロセッサー系またはプログラム可能な家庭用電子製品、ネットワークPC、サーバー類、その他が含まれ得る。アプリケーションサーバー106およびコンテンツサーバー108は、それぞれのデバイスによって提供されるコンテンツおよびサービスに関連する種々の型のデータを、データベース107に記憶することができる。
【0027】
ユーザー(例えば患者、医師、技師、その他)は、アプリケーションサーバー106およびコンテンツサーバー108によって提供されるサービスにアクセスすることができる。これには、例えば1つまたは複数のクライアントデバイス102を用いるネットワーク104を介するアプリケーションサーバー、認証サーバー、検索サーバー、交換サーバーが含まれてもよい。即ち、例えばアプリケーションサーバー106は、種々の型のアプリケーションならびにアプリケーションデータおよびユーザープロファイル情報を含むアプリケーションに関連する情報を記憶することができる。
【0028】
図1はアプリケーションサーバー106とコンテンツサーバー108とをそれぞれ単一の計算デバイスとして説明しているが、本開示はそれに限定されない。例えば、アプリケーションサーバー106とコンテンツサーバー108の1つまたは複数の機能を、区別できる1つまたは複数の計算デバイスに分配してよい。別の例では、アプリケーションサーバー106とコンテンツサーバー108は、本開示の範囲から逸脱することなく、単一の計算デバイスに統合してよい。
【0029】
ここで図2を参照して、本明細書に記載した方法を実施するための構成要素を説明するブロックダイアグラムを示す。図2は、TCRエンジン200、ネットワーク104、およびデータベース107を含む。TCRエンジン200は、特殊目的の機械またはプロセッサーであってよく、アプリケーションサーバー106、コンテンツサーバー108、ウェブサーバー、サードパーティサーバー、ユーザーの計算デバイス、その他の1つまたは複数の中に含まれてもよい。
【0030】
一例では、TCRエンジン200は従来のパーソナルコンピューターであってよく、以下に記載する方法は、CPU上の単一のスレッドを用いて実施してよい。別の例では、1千万配列の参照データをクラスター化する場合、TCRエンジン200は高性能計算(HPC)スーパークラスター(例えばメモリーアロケーションを128G、CPUノードを8とする)であってよい。
【0031】
TCRエンジン200は、デバイス(例えばユーザーデバイスまたはシステム/ウェブに連結されたサーバー/デバイス)上で実行されるスタンドアローンアプリケーションであってよい。別の例では、TCRエンジン200は、デバイスにインストールされたアプリケーション、および/またはネットワークを通じてデバイスによってアクセスされるウェブ系アプリケーションとして機能してよい。TCRエンジン200は、増補されるスクリプト、プログラム、またはアプリケーション(例えばプラグインまたは拡張)として、別のアプリケーション、例えば患者に関連するデータを集約し共有する健康管理アプリケーションにインストールしてよい。
【0032】
データベース107は任意の型のデータベースまたはメモリーであってよく、ネットワーク上のサーバー(例えばアプリケーションサーバー106およびコンテンツサーバー108)またはユーザーのデバイス(例えば1つまたは複数のクライアントデバイス102)に付随していてよい。データベース107は、ユーザー、サービス、アプリケーション、コンテンツ、その他に関連するローカルおよび/またはネットワークの情報に付随するデータおよびメタデータのデータセットを含んでよい。そのような情報は、データベース107に独立に、および/またはリンクしたもしくは付随したデータセットとして、記憶し、索引付けしてよい。本明細書で論じるように、データベース107におけるデータ(およびメタデータ)は、本開示の範囲から逸脱しなければ、既知であってもこれから既知になるものでも、任意の型の情報および型であってよいことを理解されたい。
【0033】
データベース107は、ユーザーのためのデータ(例えばユーザーデータ)を記憶することができる。記憶されるユーザーデータには、例えば参照TCR-seqデータに付随する情報、患者のがんの診断、患者の染色体の情報、患者のDNAの情報、患者の血液の情報、患者の人口学的情報、患者の経歴情報、その他、またはそれらのいくつかの組合せが含まれ得る。
【0034】
データベース107におけるデータ(およびメタデータ)は、本開示の範囲から逸脱しなければ、既知であってもこれから既知になるものでも、TCR-seqデータ、患者、医師、コンテンツ、デバイス、アプリケーション、サービス提供者、コンテンツ提供者に関連する任意の型の情報であってよい。
【0035】
データベース107に記憶されるデータは、例えば256ビットの暗号化を用いて暗号化してよく、それにより、データは1996年のHealth Insurance Portability and Accountability Act(HIPPA)に従って非公開となり、管理される。
【0036】
データベース107は、データおよびメタデータの連結された組として情報を記憶および索引付けすることができ、データとメタデータの関係はn次元のベクトルとして記憶することができる。そのような記憶は、ハッシュツリー、キュー、スタック、VList、またはその他の任意の型の既知もしくは既知となる動的メモリー割り当ての手法もしくは技術を含むがこれらに限らない、既知もしくは既知となるベクトルまたはアレイストレージを通して実現することができる。クラスター解析、データマイニング、ベイジアンネットワーク解析、隠れマルコフモデル、人工のニューラルネットワーク解析、論理モデル、および/またはツリー解析、その他であるがこれだけに限らない、任意の既知もしくは既知となる計算解析手法もしくはアルゴリズムが、患者および/または医療提供者についてのベクトル情報を決定、誘導、またはその他同定するために適用し得ることを理解されたい。
【0037】
図1を参照して上で論じたように、ネットワーク104は、ワイヤレスネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワークネットワーク(WAN)、インターネット、またはそれらの組合せ等であるがこれらに限らない任意の型のネットワークであってよい。ネットワーク104は、TCRエンジン200と記憶されたリソースのデータベース107との接続を容易にすることができる。まさに、図2に示したように、TCRエンジン200とデータベース107は、そのようなデバイスとリソースとの間を連結しおよび/または通信を可能にする既知もしくは既知となる任意の方法によって直接連結してよい。
【0038】
本明細書における特殊目的機能に従ってプログラムされるハードウェアを含む主要なプロセッサー、サーバー、またはデバイスの組合せは、便宜上、TCRエンジン200と称してよい。TCRエンジン200は、試料モジュール202、AIモジュール204、エンコーディングモジュール206、フィルタリングモジュール208、同定(ID)モジュール210、および変換モジュール212を含んでよい。論じたシステムおよび方法の例にさらなるまたはより少ないエンジンおよび/またはモジュール(またはサブモジュール)が適用可能であるので、本明細書で論じるエンジンおよびモジュールは限定的である。それぞれのモジュールの動作、構成、および機能、ならびに本開示の例の中でのそれらの役割について、以下に論じる。
【0039】
本明細書に記載した原理は、多くの異なる形態で具現化され得る。抗原と反応するT細胞は種々の疾患に対する免疫の中心的なメディエーターかつ免疫療法の重要な目標であり、大部分のがん抗原が未知であるので、がん関連のT細胞の実験的検出はいまだに困難である。ディープ免疫レパートリーシーケンシング(TCR-seq)技術の最近の発展は、そのようなT細胞の同定をさらに強調してきた。それは、これががん患者の非侵襲的臨床診断、予後および長期的な免疫モニタリングのための新たな機会を開く可能性があるからである。しかし、ヒトの免疫レパートリーは、多様な抗原に特異的なパブリックT細胞、ナイーブT細胞、およびメモリー/エフェクターT細胞を含み、この複雑性が、従来のシステムでは解決できない課題(例えば、TCR-seqデータにおいてがん関連のT細胞を同定すること)に加わる。
【0040】
がん患者のTCRレパートリーに関する以前の研究は、多様性およびクローン性等の単純な統計がある種の条件下で臨床的転帰に関連し、潜在的な予後因子としてのレパートリーデータの有用性を実証していることを報告している。しかし、免疫療法の急速な進歩およびTCR-seqデータの迅速な集積により、基礎的な免疫ゲノムリサーチとがん患者に恩恵を与える臨床応用との間のギャップに橋掛けするコンピューターによるツールがもっと必要である。
【0041】
開示するシステムおよび方法は、3チェインTCR-seqデータを用いてがん関連免疫レパートリーのデノボ予測を提供するアンサンブル機械学習ソフトウェア(TCRブーストと称する)を実行する新規なフレームワークを通して、これらの必要なツールを提供する。
【0042】
類似したTCR配列のグループ化は、共有された抗原特異性に関係しており、新規な治療目標を発見するために用いることができる。従来の方法には、コンピューターの費用が高く、免疫レパートリーデータセットの規模にスケールアップすることができないという欠点がある。本明細書に記載した幾何学的等長性に基づく抗原特異的TCRアラインメント(GIANA)は、従来の方法(例えばTCRdist)の約600倍の速度で、従来の方法より良好な精度および感度で、速度と予測正確度との間のギャップを閉じるために用いられ得る。GIANAは、大きな参照コホートの超高速クエリーも可能にし、3分以内に1000億回を超える配列比較を処理することができる。一例では、GIANAは3分以内に10の参照配列に対して10のTCRを比較することができる。大スケールのTCRデータセットをクラスター化するためにGIANAを適用することによって、疾患特異的な受容体の新規な洞察が明らかになり、レパートリー分類タスクの新たな解決が提供され得る。GIANAを用いて既存の参照に対して未知のTCR-seq試料を探索要求することによって高い正確度が達成され、がん、感染性疾患、および自己免疫障害を識別するために用いることができる。GIANAは、TCRに基づく非侵襲的多重疾患診断プラットフォームとして用いることができる。
【0043】
図3を参照して、参照TCR-seqデータのGIANA解析を説明するフローチャートを示す。図3に示すステップは、図2を参照して上に記載したTCRエンジン200によって実施され得ることに留意されたい。
【0044】
ステップ302で、試料モジュール202はTCR-seqデータセットからCDR3配列を同定することができる。試料モジュール202は、例えばデータベース107からTCR-seqデータセットを受信することができる。一例では、TCR-seqデータセットは、ただ1つのエピトープに特異的なTCRからなる参照TCR-seqデータセットを含んでよい。ステップ304で、エンコーディングモジュール206は、TCR-seqデータセットからのCDR3配列のそれぞれを数値ベクトルにエンコードすることができる。数値ベクトルは、CDR3配列のそれぞれにおけるアミノ酸の配列に対応することができる。
【0045】
ステップ306で、変換モジュール212は、数値ベクトルを高次元ユークリッド空間における座標に変換することができる。ステップ308で、AIモジュール204は、ニューラルネットワークを用いて予測モデルを生成することができる。ニューラルネットワークは、座標の相対的距離に基づいて数値ベクトルのツリーデータ構造を生成するように学習し、次いで相対的距離に基づいて座標をプレクラスターにグループ化することができる。ステップ310で、フィルタリングモジュール208は、プレクラスター中のCDR3配列をフィルタリングすることができる。ステップ312で、IDモジュール210は、フィルタリングされたプレクラスターから抗原特異的CDR3クラスターを同定することができる。GIANAプロセスについては、以下にさらに詳細に記載する。
【0046】
ここで図4を参照して、多次元スケーリング(MDS)に基づく等長埋め込みの性能を説明するチャートを示す。GIANAは、MDSを用いるBLOSUM62行列の等長埋め込みへの近似解によって開始され、これはタンパク質を構成する20個のアミノ酸のそれぞれに対するベクトルを生成することができる。それぞれのアミノ酸は数値ベクトルによって表すことができる。一例では、20種全てのベクトルを、Pythonで入手可能な非計量多次元スケーリングアルゴリズムを用いて計算してよい。アミノ酸のそれぞれの対の間のユークリッド距離を計算し、全部で190対が得られる。190個全ての距離(二乗された)を、BLOSUM62行列中の対応するスコアと目視で比較してよい。二乗された距離を、対応する変換されたBLOSUM62非類似性スコアと比較してよい(4-BLOSUM62スコア、対角値を0とする)。例えば、アミノ酸WおよびFは、BLOSUM62スコア 1を有し得る。等長埋め込みベクトルの計算によるそれらの距離は、ほぼ2.3であり得る。したがって、点(2.3,1)が、図4に示す散布図に表示され得る。
【0047】
スピアマン相関を計算して、2つの測定の間の類似性を評価することができる。続いて、CDR3ストリングをMDSベクトル上の連続的で非交換的な線形変換としてモデル化し、高次元空間の座標として表現してよい。ユニタリー変換行列は、CDR3配列の典型的な長さに関連する十分に大きな任意の次数の巡回群、例えば6次の巡回群(G)の要素であってよく、これはストリングの対のユークリッド距離とそれらのアラインメントスコアとの間のほぼ完全な線形相関を生じ得る。
【0048】
ここで図5A~5Fを参照して、CDR3ストリングについてのG6によってエンコードされる等長距離とスミス-ウォーターマンアラインメントスコアとの比較を説明するチャートを示す。デフォルトの等長距離カットオフ(-t)を10として、高いスミス-ウォーターマンアラインメントスコアを有する全てのTCR対は、下流のクラスターに含まれている。図5A~5Fは、それぞれ12~17個のアミノ酸の長さを有するCDR3についての解析を示す。それぞれのチャートにおいて、x軸はCDR3の対の間の等長距離(例えばユークリッド距離の二乗)を表し、y軸は置換行列としてBLOSUM62を用いた対応するスミス-ウォーターマンアラインメントスコアを表すことができる。等長距離は、G6エンコーディングの後の数値ベクトルの対の間のユークリッド距離の二乗と定義してよい。図5A~5Fは、異なる長さのカテゴリー(即ち12~17アミノ酸)に分割した10,000個のCDR3配列の解析を示す。それぞれの長さのカテゴリーにおける全ての配列についての数値ベクトル表現が得られ、ペアワイズ距離が計算される。CDR3配列のそれぞれの対の配列類似性を、古典的なスミス-ウォーターマンアラインメントアルゴリズムを用いて評価してよく、これはアミノ酸の置換行列(例えばBLOSUM62)に依拠している。高いアラインメントスコアは、高い配列類似性を示す。2つの同一の配列について、最大スコアの4*長さに到達する。高いアラインメントスコアは高い類似性と関係し、これは短い距離に対応するので、スピアマンの相関値はマイナスとして示される。これは、図4で用いた非類似性スコアとは異なる。
【0049】
高い計算効率をもってCDR3プレクラスター(即ち、高い類似性および共通と想定される抗原特異性を有するTCR)を同定するために、索引に基づく高速の最近傍探索および再帰的セントロイドグループ化を座標について実施してよい。最近傍探索の方法には、1つまたは複数の従来の方法、例えばフェイスブックAI類似性探索(FAISS)、ナビガブルスモールワールド(NSW)、階層的ナビガブルスモールワールド(HNSW)、PyNNDescent、およびアノイが含まれ得る。最近傍探索のために用いられるTCR非類似性の尺度には、スミス-ウォーターマン距離、高次元ユークリッド空間への埋め込み、または2つのTCRの共通の抗原特異性を推定するために用いられる他の任意の距離または非類似性の計量の1つまたは複数が含まれ得る。続いてCDR3プレクラスターを、kマーにガイドされる探索テーブルを用いて、一致したTRBVアレルおよび高いスミス-ウォーターマンアラインメントスコアについてフィルタリングし、最終のTCRクラスターを出力として産生してよい。
【0050】
ここで図6を参照して、GIANAワークフローのグラフィックな説明を示す。ステップ602において、GIANAプロセスは、短いCDR3ペプチド配列を一連のユニタリー変換によって数値ベクトルにエンコードすることによって開始することができる。以下にさらに詳細に記載するように、変換は6次の巡回群の要素を含み得る。ステップ604において、エンコードされたそれぞれのCDR3配列が高次元ユークリッド空間に投影され得る。ステップ606において、高速の最近傍探索が実施され得る。ステップ608において、反復セントロイドクラスター化が実施され得る。ステップ610において、TRBV遺伝子アレルを一致させ、低いアラインメントスコアの対を除去するように、フィルタリングステップが実施され得る。ステップ612において、最終のTCRクラスターが出力され得る。
【0051】
ステップ602において実施されるG変換に対してさらにまたはその代わりに、入力CDR3ストリングの座標として積み上げMDSベクトルを用いる同様な方法(GIANAsv)を用いてよい。
【0052】
ここで図7を参照して、GIANAsvワークフローのグラフィックな説明を示す。ステップ702において、入力配列は、ストリング中の全てのアミノ酸の連結されたベクトルとしてエンコードされ得る。入力配列のエンコーディングは別として、他のプロセッシングステップはGIANAと同様でよい。例えば、ステップ704において、エンコードされたそれぞれのCDR3配列が高次元ユークリッド空間に投影され、高速の最近傍探索が実施され得る。ステップ706において、反復セントロイドクラスター化が実施され得る。ステップ708において、TRBV遺伝子アレルを一致させ、低いアラインメントスコアの対を除去するように、フィルタリングステップが実施され得る。ステップ710において、最終のTCRクラスターが出力され得る。GIANAおよびGIANAsvプロセスを、本明細書でさらに詳細に記載する。
【0053】
一例では、GIANAプロセスは、参照TCR-seqデータから抗原特異的CDR3配列を同定し分類するために用いられる。TCRレパートリーシーケンシング試料は、1つまたは複数のデータベース、例えばAdaptive Biotechnologyによって提供されるimmuneACCESSデータベースからアクセスでき、これは現在のところTCR-seq試料の最大のデータベースであり、全てimmunoSEQプラットフォームを用いてプロファイリングされている。抗原特異的TCRおよび一致した抗原は、VDJdb、免疫エピトープデータベースおよび解析リソース(Immune Epitope Database and Analysis Resource)(IEDB)、および以前の文献からプールしてよい。2つ以上のエピトープに特異的なTCRは、不一致を避けるために参照TCR-seqデータから除外してよい。
【0054】
CDR3配列の等長埋め込みのための数学的フレームワークを用いて、任意の短いペプチド配列sの数値的表現(高次元空間の座標でもある)xを見出し、それにより、sおよびsについて2つの座標xおよびxの間のユークリッド距離、||x-x||が想定上の進化的置換行列によって測定した配列類似性スコアと完全に相関するようにしてよい。
【0055】
この問題は、「短い配列の等長埋め込み」と称してよい。この概念は、典型的には12~17アミノ酸の範囲の長さを有するCDR3配列の数値的エンコーディングの課題を解決するために導入される。所与のCDR3配列の数学的変換は、等長性をほぼ満足するように見出され得る。第1に、以下に記載するように、BLOSUM62行列についてほぼ等長の埋め込みが見出され得る。
【0056】
アミノ酸Aを実空間
【0057】
【数1】

における数値ベクトルβによって表す。実空間rの次元は、ユークリッド距離行列(EDM)のランクによって決定される。このシナリオでは、MはBLOSUM62によって誘導される非類似性行列:M=4-BLOSUM62を意味するとし、Mの対角値を0と設定する。等長性は、
||β-β||x=Mij(式1)
を示す。
【0058】
この問題に対する解は、EDMが平坦である場合かつその場合にのみ、また埋め込み空間がnより大きくない次元を有する場合に存在し、ここでnはEDMの次元である。残念ながら、BLOSUM62行列は、三角ルール:
∀i,j,kについてMik+Mkj≧Mij(式2)
を満たさないので、EDMではない。
【0059】
したがって、BLOSUM62の正確な等長埋め込みは存在しないかもしれない。しかし、MDSはMがEDMでない場合に適用される近似的な解を提供し得る。MDSは埋め込みベクトルβを誘導するために用いてよい。古典的なMDSの場合には、埋め込み空間のための最大次元は13である。13より高い次元性を探索するために、Pythonにおけるスクラーンパッケージを用いる非計量MDS計算を適用してよい。埋め込み等長性を最大化するため、長さ14の2,300個の訓練TCRをTCGAデータセットから選択してよく、ペアワイズSWアラインメントスコアを計算してよい。13から19の範囲の様々な次元の等長埋め込みベクトルを得るためにMDSを適用してよい。それぞれの長さについて、GIANA法において記載したように、CDR3配列のユークリッド座標を計算してよい。ペアワイズ距離をSWスコアと比較してよい。最大スコアは次元16で観察された。これは等長表現における最適の次元であろう。この表現によって、BLOSUM行列:
||β-β||≒Mij(式3)
に対してほぼ87%の類似性が達成され得る。
【0060】
次に、数値エンコーディングスキームを導入してよく、それにより、CDR3配列中のそれぞれのアミノ酸は、量子物理学における概念に例えられる「オペレーター」と考えてよい。一般に、オペレーターAは、既存の波動関数Φに対する数学的変換であってよい。操作は、ディラックブラケットA|Φ〉によって示される波動関数に適用してよい。1つの例は角度モーメントオペレーターL、L、Lである。アミノ酸iについてのオペレーターはAと定義され、これは以下の方式
【0061】
【数2】

で数値ベクトルxに適用される。
【0062】
ここでΩは決定する必要がある行列である。オペレーターは非互換性(i≠jであればA≠A)であるので、この定義は配列の中の文字の順序付けを強調している。次いで、CDR3配列は、ある種の初期ベクトルβにおける1つまたは複数の連続的線形操作とみなしてよい。計算を簡単にするため、β=0とする。したがって、最も右側のアミノ酸における操作の後では、座標は
【0063】
【数3】

となる。
【0064】
Ωの望ましい性質を説明するいくつかの例を以下に記載する。
【0065】
第1の例では、2つのアミノ酸配列が1つのアミノ酸によってオフになってよい(例えば単一のミスマッチ)。例えば、配列s=A、かつ配列s=Aである。これらの数値エンコーディングベクトルは、以下のように計算することができる。
=A(式6)
=A(式7)
=Ω×(Ω×β+β)(式8)
=Ω×(Ω×β+β)(式9)
【0066】
ここでxおよびxはsおよびsのエンコーディングベクトルである。sとsの間のユークリッド距離は、
||x-x||=δδ、ここでδ=x-x(式10)
=(Ω(β-β))(Ω(β-β))(式11)
=(β-βΩΩΩΩ(β-β)(式12)
によって計算してよい。
【0067】
これが唯一のミスマッチであるので、上の値はアミノ酸Aとアミノ酸Aとの間の距離に等しくてよい。即ち、
(β-βΩΩΩΩ(β-β)=(β-β(β-β)≒Mij(式13)
【0068】
一般性を失うことなく、ΩΩ=Iである。換言すれば、Ωはユニタリー行列であってよい。1つのミスマッチを有するより長い配列は、上と同じパターンに従うことが容易に示される。
【0069】
第2の例では、2つのアミノ酸配列が連続する2つのアミノ酸によってオフになってよい。変数sはs=Aによって定義してよく、s=Aである。埋め込みベクトルxとxとの間の距離は、
||x-x||=(Ω(β-β)+Ω(β-β))(Ω(β-β)+Ω(β-β))(式14)
=(β-β(β-β)+(β-β(β-β)-2(β-βΩ(β-β)(式15)
≒Mjk+Mit-2(β-βΩ(β-β)(式16)
であることが示される。
【0070】
好ましくは、第3項は∀i,j,t,kについてゼロであってよい。1つの解は、最初のr次元空間から相補空間への垂直回転を課すことによってΩを
【0071】
【数4】

における回転とすることでよい。単純な具現化は、
【0072】
【数5】

であってよい。
【0073】
ここでIはr次元の恒等行列であってよく、はr次元のゼロ行列であってよい。実際上、このようにして定義されるΩは、位数2の巡回群Gの表現であってよい。Gはただ2つの要素、即ちeおよびgを有してよく、ここでg=eである。この表記法は、多数の連続的なミスマッチの例で有用であり得る。したがってβ
【0074】
【数6】

に拡張され、最初のr次元がMDS埋め込みから誘導される値で満たされ、残りの次元がゼロのベクトル:
【0075】
【数7】

で満たされる。
【0076】
ここで0は次元rを有するゼロのベクトルであってよい。新たなベクトルは、
【0077】
【数8】

を満たし得る。
【0078】
第3の例では、多数の連続的なミスマッチがあり得る。配列
【0079】
【数9】

について、そのエンコーディングベクトルは、
【0080】
【数10】

として記されることが証明され得る。
【0081】
別の配列、
【0082】
【数11】

【0083】
【数12】

を考慮する。
【0084】
とxの距離は、
【0085】
【数13】

となり得る。
【0086】
理想的なシナリオでは、二重Σの中の全ての項はゼロであってよく、sとsの間の距離は
【0087】
【数14】

であってよい。これは
【0088】
【数15】

を必要とし、
【0089】
∀u,v,kについて0である。または一般に
【0090】
【数16】

である。
【0091】
【数17】

におけるそのようなΩについての解はないかもしれないが、第2の例と同様に、埋め込み空間の次元性はkrに増大してよい。このようにして、位数nの巡回群GからΩを構築することができ、これはアーベル群である。しかし、次元性の増大は0(k)の係数でエンコーディングステップにおける計算の複雑性を増大させる可能性がある。また、正確な解をもってしても、MDS埋め込みによって計算される距離は、BLOSUM62スコアと完全には整列しない可能性がある。したがって、次元性の増大にはトレードオフがあり得る。実際上、kは6に設定してよく、これはT細胞のCDR3配列のメディアン長さが14であり、最初の4アミノ酸と最後の1アミノ酸がほとんど不変であることを考慮すれば妥当な数である。対応する行列を構築するため、Gにおける要素の表現は、
【0092】
【数18】

によって誘導することができる。
【0093】
とGの両方はGの正常なサブグループであってよく、
【0094】
【数19】

である。したがって、ΩおよびΩからΩを構築することができる。
【0095】
【数20】
【0096】
ここで
【0097】
【数21】

は次元2rのゼロ行列である。したがって、MDS埋め込みベクトルは、
【0098】
【数22】

となり得る。
【0099】
この表現において、二重Σの中の項は、u-v≦6の場合に0となり得る。u-v>6(即ち、2つのストリングが6を超える連続的ミスマッチを有する)の場合、変換行列としてのΩの適用は最終の距離に望ましくない変動を導入する可能性がある。行列のそれぞれの側におけるベクトルに応じて、付加はポジティブまたはネガティブになり得る。しかし、6を超えるミスマッチを有するCDR3配列を比較する場合、何がそれらの間の正確な距離であるかは通常重要でない。それは、最大の類似性を有する配列のみが抗原特異的TCRクラスターとして選択され、アラインメントスコアの望ましいカットオフにおいて2つのCDR3配列の間のミスマッチの数は通常3より小さいからである。
【0100】
第4の例では、多数の非連続的ミスマッチがあり得る。目的の2つの配列、即ちいずれも長さkを有するsおよびsが最初および最後の位置において異なり、
【0101】
【数23】

および
【0102】
【数24】

であると仮定する。変換後の等長座標は、
【0103】
【数25】

である。
【0104】
それらの距離は、
【0105】
【数26】

によって計算され得る。
【0106】
これは、
【0107】
【数27】

と書くことができる交差項の数が少ないことを除いて、第3の例(即ち、多数の連続的なミスマッチ)と同様であり得る。
【0108】
第3の例と同様にΩとしてΩを選択すれば、NICが観察される限り、交差項は0になり得る。しかし、NICが乱されれば(即ち2つのミスマッチが正確に6アミノ酸だけ離れれば)交差項はノンゼロになり得る。この項は最終結果に影響を及ぼし得る。第1に、交差項が負のままであれば(その確率は1/2)、推定される等長距離は正確な値より小さくなり得る。高い配列類似性を保証するために厳格なスミス-ウォーターマンアラインメントが適用され得るので、これは結果に影響しないかもしれない。長さ16で最初の3アミノ酸および最後の2アミノ酸が切り取られているCDR3について、2つのミスマッチがあると仮定して、正確に6アミノ酸だけ離れた2つのミスマッチを有する可能性は、
【0109】
【数28】

であることが示される。これは全ての長さの中で最大の確率であり得る。
【0110】
したがって、NICの乱れは、2つのミスマッチを有する比較の多くとも0.091/2=4.6%に影響する可能性がある。これが起こった場合、いくらか同様の配列が大きな距離を有し、下流のクラスター化から除外される可能性がある。この効果を軽減するため、比較的大きなデフォルト等長距離カットオフ(-t 10)を包括的であるように適用してよい。パラメーター設定の現在の選択は、クラスター化の正確度と計算速度とのバランスである。
【0111】
CDR3配列の近似的な等長埋め込みは、高速クラスター化のためのユークリッド空間におけるそれらの最近傍(NN)の効率的な探索を可能にする。NN探索を実施するために、機械学習に基づく1つまたは複数の分類手法を用いてよい。
【0112】
当業者には理解されるように、機械学習に基づく分類手法は、開示した技術から逸脱することなく、所望の実施に応じて変動してよい。例えば、機械学習分類スキームは、以下の、隠れマルコフモデル、回帰性ニューラルネットワーク、畳み込みニューラルネットワーク、ベイジアン記号法、一般敵対的ネットワーク、サポートベクトルマシン、イメージ登録法、適用可能な規則に基づくシステムの単独または組合せの1つまたは複数を利用することができる。回帰アルゴリズムを用いる場合、これらは、それだけに限らないが、確率的勾配低下リグレッサー、および/または受動攻撃的リグレッサー、その他を含んでよい。
【0113】
機械学習分類モデルは、クラスター化アルゴリズム(例えばミニバッチK手段クラスター化アルゴリズム)、リコメンデーションアルゴリズム(例えばミニワイズハッシングアルゴリズムまたはユークリッドLSHアルゴリズム)、および/または異常検出アルゴリズム、例えば局所アウトライアー因子に基づいてもよい。さらに、機械学習モデルは、次元縮退アプローチ、例えばミニバッチディクショナリー学習アルゴリズム、インクレメンタルプリンシパルコンポーネント解析(PCA)アルゴリズム、潜在的ディリクレ配分アルゴリズム、および/またはミニバッチK手段アルゴリズム等の1つまたは複数を採用することができる。
【0114】
一例では、FAISS等のパイソンパッケージを用いて、高速の索引されたNN探索を実施してよい。
【0115】
【数29】

におけるN数値ベクトルの1つの最近傍を見出すため、FAISSの時間計算量は0(rlog(N))であってよい。
【0116】
CDR3の座標(x)は近傍クラスターに分割してよい。クラスター化の前に、同一のCDR3をともにグループ化してよい。最初に、それぞれの特有の配列xi、i=1、2、・・・、Nについて、その最近傍x、j=1、2、・・・、N;j≠iを位置付けされ得る。xとxの間の距離がユーザーによって定義されたカットオフ(-tオプション、thr)以内であれば、2つの点は重心
【0117】
【数30】

を新たな座標とする新しい点として併合してよい。距離がカットオフを超えれば、両方の点を反復から除去してよい。除去された点には少なくとも2つの型、即ち、1)ただ1つのCDR3配列を含む点、および2)多数のCDR3の重心としての点があり得る。第2の型の点のそれぞれについて、CDR3プレクラスターを記録してよい。点の数がゼロに達するか、さらに減少しなくなるまで、上記のステップを繰り返してよい。異なる長さのCDR3は別々にクラスター化してよい。全てのプレクラスターは、さらなるフィルタリングのために保存してよい。
【0118】
TCR可変遺伝子マッチングを伴うKマーによってガイドされる高速スミス-ウォーターマンアラインメントを、CDR3プレクラスターについて実施してよい。プレクラスター由来のCDR3は高度に類似し得るが、これらは抗原特異的グループとして適格であるとは限らない。それは、1)等長埋め込みが不完全なために配列が十分に類似していない、および/または2)TRBV遺伝子情報が考慮されていないためである。したがって、スミス-ウォーターマンアラインメントおよびTRBV遺伝子マッチングに基づいて抗原特異的CDR3クラスターを選択するためにフィルタリングステップを実施してよい。
【0119】
プレクラスターのサイズ(m)は大きく、従来の直接ペアワイズ比較は二次時間計算量O(m)をもたらすことがある。クラスターサイズを小さくするために、TRBV情報を適用してよい。具体的には、TRBVアレルの対の間でアラインメントスコアの事前計算行列を用いてよい。プレクラスター中のCDR3配列のそれぞれの対について、そのTRBVアレルを比較してよい。比較スコアがユーザーによる定義(-Gオプション、thr_v)を超えれば、2つの配列の間にエッジを付加してよい。最終グラフについて深度優先探索(DFS)を実施して、それぞれのサブグラフが新たなプレクラスターとなる単離されたサブグラフを生成してよい。このステップによって、元のプレクラスターがいくつかの小さなプレクラスターに分割され得る。
【0120】
次に、kマーアプローチを用いてスミス-ウォーターマンアラインメントを実施してよい。それぞれのCDR3配列は、連続する5マーに分割され得る。全ての配列を記憶するために、キーを特有の5マーとし、値を所与の5マーを含むCDR3であるとして、kマーディクショナリー(例えばデータベース107の中の)を構築してよい。ディクショナリーを構築する際には5マーの中で1つのミスマッチは容認され得る。例えば、配列CASSGVTEAFFはSSGVTとSSVATの両方の下で索引付けされる。このようにして、CDR3配列は共有されたkマーを介してグラフに連結することができる。このグラフの中のそれぞれのエッジに対して、スミス-ウォーターマンアラインメントがBLOSUM62置換行列で実施され、アラインメントスコアが計算され得る。スコアがユーザー定義のカットオフ(-Sオプション、thr_s)未満であれば、エッジを除去してよい。このステップの実際の計算量はO(m)からO(m)まで変動し得る。最悪のシナリオは、プレクラスター中のCDR3のあらゆる対が類似のkマーモチーフを共有した場合に到達され得る。最終のグラフについてDFSを実施し、最終CDR3クラスターを生成して、これらを最終出力として報告してよい。
【0121】
一例では、既存の参照TCR-seqデータの最終のCDR3クラスターに対して、新たなTCR-seq試料を探索要求してよい。入力データセットのTCRクラスターの生成の後で、GIANAはこのデータ(参照)へのさらなるTCRの探索要求(クエリー)を実施することができる。クエリーモードにおいて、GIANAはクエリーファイル、参照データ、およびクラスター化した参照データの1つまたは複数を解析することができる。
【0122】
最初に、参照TCR-seqデータおよびクエリーTCR-seqデータを、上記のように等長座標に変換してよい。次いで高速の最近傍探索(例えばFAISSによる)を実行するが、クエリーTCR-seqデータに限定してよい。ユーザー定義のカットオフ(-tオプション、thr)より短い距離を有するTCRは、個別のファイル(tmp_query.txt)にエクスポートしてよい。このファイルは、クエリー配列とおそらくクラスター化できる全てのTCRを含み得る。このファイルについてGIANAクラスター化を実施し、スミス-ウォーターマンアラインメントのための厳格なカットオフを満足するTCRクラスターを生成してよい。次いでクエリーTCRクラスターを以下のようにして参照クラスターと併合してよい。それぞれのクエリークラスターについて、いずれかの配列が参照データ中の既存のクラスターに由来していれば、2つのクラスターを併合してよい。このステップは、参照データ中に全ての近傍TCRを含めることを保証するためである。クエリークラスターが参照クラスター中にいずれの配列も含まない2つ以上の条件、即ち、1)クエリークラスター中の全てのTCRが類似していたが、クエリー試料に限定されていた、および/または2)クエリーTCRが、元のクラスター化において他のいずれの参照試料ともクラスター化しない極めて稀ないくつかの参照TCRと類似していた、があり得る。いずれかの条件に従って、クエリークラスターは最終出力に含まれ得る。
【0123】
一例では、クエリーモードの時間コストは、200K、1M、2M、6M、および10MのTCRを含む参照データを生成することによって評価してよい。10K、20K、30K、40K、および50KのTCRを含む異なるサイズのクエリーデータをスキャンしてよい。それぞれのクエリーファイルは、参照データのそれぞれに対して、例えば汎用コンピューターを用いてクラスター化してよい。経過時間は、パイソンの時間モジュールを用いて推定してよい。
【0124】
GIANAsvプロセスでは、20アミノ酸のMDS埋め込みの後でCDR3ストリングの等長表現:s=A・・・A、k≧5を得る最も容易な方法は、「積み上げベクトル」を構築する(即ち、埋め込みベクトルβ、i=1、2、・・・、kを同じ順序で連結する)ことであってよい。積み上げベクトル表現は、
【0125】
【数31】

であってよい。この表現は、上記の3つの例の望ましい品質を満足し得る。6つ以下のミスマッチを有する配列のみに注目する場合には、2つのアプローチは実質的に同一であり得る。CDR3が6を超えるミスマッチを有する場合には、GIANAsvはより正確になり得る。しかし、GIANAsvでは、埋め込みベクトルの次元rGIANAsvはGIANAの次元(rGIANA)より大きい可能性がある。GIANAについては、rGIANA≡6×16=96である。GIANAsvについては、rGIANAsvはCDR3の様々な長さ(典型的には12~17アミノ酸)とともに変動し、rGIANAの2~3倍大きくなり得る。次元性の増大は、メモリー負荷の増大および計算時間の長期化をもたらすことがある。
【0126】
上記のGIANAおよびGIANAsvプロセスは、従来のTCRクラスター化法(例えばiSMART、GLIPH2、およびTCRdist)に対していくつかの改善を提供する。例えば、GIANAおよびGIANAsvプロセスは、大きなTCRデータセットを処理でき、より正確なデータを提供できるだけでなく、これらの結果を生成するために必要なコンピューターのリソース量を低減する。本明細書に記載したGIANAおよびGIANAsv法の改善を実証するために、健常ドナーのTCRレパートリーシーケンシングデータを用いる比較を用いてよい。比較において、TCRクローンを、その存在量に基づいて順序付けてよく、上位10K、20K、・・・、100Kの配列を選択してよい。5つ全ての方法をサブ試料のそれぞれに適用してよい。GIANA、GIANAsv、iSMART、およびGLIPH2は、デフォルトパラメーターを用いて実行してよい。TCRdistはクラスター化を提供せず、ペアワイズ距離のみが計算され得る。
【0127】
ここで図8および図9を参照して、従来の方法に対するGIANAおよびGIANAsvの性能を説明するチャートを示す。図8は、様々なTCRクラスター化アルゴリズムについての時間計算量の比較を示す。チャートは、解析したTCR配列の全数(10kの増分で)をx軸に、全計算時間(秒)をy軸に示している。線802はTCRdistの性能を示し、線804はiSMARTの性能を示し、線806はGLIPH2の性能を示し、線808はGIANAsvの性能を示し、線810はGIANAの性能を示す。スピードアップは、100KのTCR試料についての時間コストに基づいて計算され得る。
【0128】
図8に示すように、GIANA(線810)はベンチマークを通して最小の時間コストを有し、100Kの配列を処理するために要した時間は23.9秒であった一方、TCRdist(線802)は14,338秒を要した。GIANAsv(線808)はGIANA(線810)より2.2倍遅い。積み上げベクトルエンコーディングは高次元の等長埋め込み空間をもたらし、最近傍探索の間の時間コストを増大させるので、これは予想される。注目すべきことに、GLIPH2(線806)はGIANA(線810)およびGIANAsv(線808)に次いで最も速いアルゴリズムである。これは、GLIPH2がモチーフに導かれる探索を通じたペアワイズアラインメントを回避するからである。下の表1に、GIANA、GIANAsv、iSMART、TCRdist、およびGLIPH2の計算時間とメモリー消費の比較を示す。一例では、3.5GHzのDual-Core Intel Core i7プロセッサーおよび16GBの2133MHz LPDDR3メモリーによってmacOS(登録商標) Catalina v10.15.2を走らせるシステムで計算を実施してよい。
【0129】
【表1】
【0130】
図9は、時間計算量を評価する際の様々なTCRクラスター化アルゴリズムのメモリー使用量を示す。チャートは、解析したTCRシーケンスの全数(10kの増分で)をx軸に、ピークメモリー使用量(メガバイトで)をy軸に示す。線902はTCRdistの性能を示し、線904はiSMARTの性能を示し、線906はGLIPH2の性能を示し、線908はGIANAsvの性能を示し、線910はGIANAの性能を示す。
【0131】
GIANAおよびGIANAsvは、抗原特異的TCRの予測において、従来の方法より高い正確度も達成し得る。抗原特異性は、TCRクラスター化の最も望ましい特徴であり得る。パブリックドメインからの61,366の非冗長な既知のTCR/抗原の対を用い、多様な病原体に由来する900を超える異なるエピトープをカバーする解析を実施した。それぞれの方法を実施し、出力クラスターにおける全てのTCRがただ1つのエピトープに特異的であれば、それぞれの方法からの出力クラスターを「純粋なクラスター」と表現した。クラスターの純度は、所与のクラスターにおける最も一般的なエピトープに対して特異的なTCRのパーセンテージとして定義してよい。「純粋なクラスター」は、1に等しい純度を有すると定義される。
【0132】
ここで図10および図11を参照して、従来の方法と比較したGIANAのクラスター化の精度と感度の比較を説明するチャートを示す。図10はクラスター化の精度をy軸に示し、これは出力中の純粋なクラスターのパーセンテージと定義してよい。GIANA、iSMART、TCRdist、およびGLIPH2は、それぞれバー1002、1004、1006、および1008で表している。バー1002で示すように、GIANAが全ての方法の中で最高の精度(93%)を有する一方、GLIPH2は最低の精度(35%)を有している。図11はクラスター化感度をy軸に示し、これは全ての純粋なクラスター中のTCRの全数を試験した全てのTCRの数で除したものと定義してよい。GIANA、iSMART、TCRdist、およびGLIPH2は、それぞれバー1102、1104、1106、および1108で表している。バー1102で示すように、GIANAは最高の感度(29%)も有している。
【0133】
ここで図12を参照して、4つの方法の間の正規化された相互情報量(NMI)の比較を示す。TCRクラスターの間のNMIおよびエピトープ特異性は、同じ訓練データセットを用いて測定した。全ての方法にわたって同様のNMIレベルが観察されたが、GLIPH2は最低に留まった。
【0134】
下の表2に、GIANA、iSMART、TCRdist、およびGLIPH2についての純粋なクラスターの感度およびクラスター化の精度の評価を示す。抗原特異性が既知の全部で61,366のTCRをこの解析に用いた。シングルトンTCR(エピトープあたりの配列がただ1つ)を除外した後、60,700が残っていた。
【0135】
【表2】
【0136】
GIANA(96%)、iSMART(97%)、およびTCRdist(97%)についての分率は同様であるが、GLIPH2(36%)については大幅に低い。純粋なクラスターの保持率は、全ての純粋なクラスターにおけるTCRの全数を試験した全てのTCRの数で除したものと定義してよい。GIANAも、GLIPH2(19%)を除く他の方法と同様のレベルの保持率(27%)を有している。スミス-ウォーターマンアラインメントに依拠する3つの方法(GIANA、iSMART、およびTCRdist)については、アラインメントスコアカットオフ(GIANAにおける-Sオプション)の範囲の影響を探索した。
【0137】
ここで図13を参照して、パラメーター設定の範囲におけるGIANAの性能を測定する適合率-再現率の曲線を説明するチャートを示す。y軸は適合率を説明し、これはコールの全数の中の真にポジティブなコールの分率として定義される。x軸は再現率を説明し、これは真にポジティブなコールの数を集団中のポジティブな例の数で除したものである。この解析は、3つ全てがSWアラインメントに基づくので、GIANA、TCRdist、およびiSMARTに適用可能であった。
【0138】
0.95を超える適合率で、3つの方法全ては同様の曲線を共有する。曲線の「肘」形状は、再現率の計算において純粋なクラスターTCRを用いたためである。カットオフを低下させると、異なる抗原由来のTCRがクラスター化する可能性があり、それにより、純粋なクラスターの分率が低下する。カットオフは3.5より3.6の方が、再現率を僅かにのみ低下させる(0.268から0.267へ)が、適合率をほぼ3%増加させる(0.932から0.961へ)ので好ましい。したがって、GIANAにおける-Sオプションのデフォルトパラメーターは3.6に設定してよい。
【0139】
ここで図14を参照して、ミスマッチのための置換行列としてBLOSUM62を用いたGIANA、iSMART、TCRdist、およびミスマッチのための置換行列としてBLOSUM50を用いてGIANAの性能を比較する適合率-再現率の曲線を説明するチャートを示す。図13と同じく、y軸は適合率を説明し、これはコールの全数の中の真にポジティブなコールの分率として定義される。x軸は再現率を説明し、これは真にポジティブなコールの数を集団中のポジティブな例の数で除したものである。
【0140】
「GIANA50」とラベルした曲線は、BLOSUM50行列によるGIANAの曲線である。この曲線は「GIANA」とラベルしたBLOSUM62行列によるGIANAの元のバージョンの曲線と極めて類似している。これは部分的に、BLOSUM50行列とBLOSUM62行列がそのオフダイアゴナル値において類似しているためであろう。GIANAにおいて距離行列に変換する際には、ダイアゴナル値の相違を排除した。したがって、GIANAのクラスター化の正確度はタンパク質置換基準の選択に対しては比較的堅固であり、BLOSUM62行列とBLOSUM50行列のいずれを用いるかの選択は最終出力の適合率または再現率に実質的に影響しないであろう。
【0141】
既知のエピトープに特異的なTCRは、他の供給源の中でも、免疫エピトープデータベースおよび解析リソース(IEDB)ならびにVDJdbオンラインブラウザーから収集したことに留意されたい。TCRβ CDR3配列、TRBV遺伝子、およびそれらの関連抗原のみを保存した。冗長なまたは不完全な配列を除去した後、全部で61,366のCDR3が得られ、多様な病原体から約900個のエピトープがカバーされた。それらのデフォルトパラメーターを用いて抗原特異的クラスター化を実施するために、全ての方法をデータセットに適用した。TCRdistについては、Rコードを作成して、15より小さな距離を有する配列対について深度優先探索を実施した。TCRdistについての時間計算量の計算は、TCRクラスターを見出すための深度優先探索を含まない。この15のカットオフは、iSMART4のそれと匹敵するバランスの取れた感度および特異性を有している。大きなカットオフの選択によって、クラスター化されたTCRの全数が増加するが、それぞれのクラスターの特異性が低下するという犠牲を伴い得る。
【0142】
上記のように、同じ抗原に特異的な全てのTCRを有するクラスターは、「純粋なクラスター」と定義される。感度は、全ての純粋なクラスターに含まれるTCRの全数を配列の全数(即ち61,366)で除したものと定義される。クラスター化の精度は、純粋なクラスターの数を全クラスター数で除したものと定義される。これらの尺度を用いて、4つ全ての方法の抗原特異的クラスター化の性能を比較した。
【0143】
さらに、従来の方法と異なり、GIANAは、既知の抗原特異性を有するTCRを用いて、実際の大きくノイズが多いTCR-seq試料から抗原特異的TCRを検索することができる。上記のベンチマーク抗原特異的TCRから、健常個体では欠けていると予想される3つのエピトープ、即ち最近大流行した重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)ウイルス由来のYAWおよびYLQエピトープ、ならびにヒト免疫不全ウイルス1(HIV-1)由来のFRDエピトープに特異的なTCRを解析した。これらのTCRの20%を、試験データとして健常ドナー由来の100,000個のTCRと混合した。重複しない残りの80%の抗原特異的TCRを、試験配列を回収するための訓練データとして用いた。訓練データとクラスター化したいずれの配列も、「陽性」と同定してよい。20%添加した抗原特異的TCRが真陽性であり、偽陽性は健常ドナー由来のTCRである。
【0144】
ここで図15A~15Cを参照して、大きくノイズの多いTCR-seq試料に適用した場合のGIANAの感度および特異性を示すチャートを示す。図15Aおよび15Bは、SARS-CoV-2由来のYAWエピトープの特異性および感度を示す。図15Cおよび15Dは、SARS-CoV-2由来のYLCエピトープの特異性および感度を示す。図15Eおよび15Fは、HIV-1由来のFRDエピトープの特異性および感度を示す。図14A~14Cに示すバイオリンプロットは、データの分布を説明している。「バイオリン」の側部における対称的な曲線は、データ点の実際の確率密度である。中央部における典型的なボックスプロットは、データの平均(中点)および四分位間範囲を説明している。それぞれのチャートのx軸はスミス-ウォーターマンアラインメントスコアのカットオフである。
【0145】
図14A~14Cに示すバイオリンプロットは、データの分布を説明している。「バイオリン」の側部における対称的な曲線は、データ点の実際の確率密度である。中央部における典型的なボックスプロットは、データの平均(中点)および四分位間範囲を説明している。
【0146】
それぞれのバイオリンプロットのy軸は特異性または感度である。特異性は、真陰性の数をアルゴリズムで称する陰性の全数で除したものであると定義される。感度は、真陽性の数をアルゴリズムで称する陽性の全数で除したものであると定義される。アルゴリズムで称する陽性および陰性は、GIANAクラスターを用いて定義される。配列は、それが既知の抗原特異性を有する添加されたCDR3とともにクラスター化されれば、陽性と称される。
【0147】
x軸はスミス-ウォーターマンアラインメントスコアのカットオフ、即ちGIANAにおける重要なパラメーターであり、最大で4.0である。カットオフはGIANAにおける調節可能なパラメーターである。例えば、カットオフを3.7に設定すれば、3.7より大きなスミス-ウォーターマンアラインメントスコア(配列長によって正規化され、したがって最大は4.0)を有するいずれの配列対も、ともにクラスター化される。3.7より小さなスコアを有する配列対は分離される。高いカットオフは高い特異性をもたらすが、感度の低下という犠牲を伴う。3つ全てのエピトープについて、GIANAは20%~50%の感度で99.99%を超える特異性を達成した。
【0148】
ここで図16A~16Cを参照して、大きくノイズの多いTCR-seq試料によるGLIPH2の性能を説明するチャートを示す。図16Aおよび16Bは、SARS-CoV-2由来のYAWエピトープ、SARS-CoV-2由来のYLCエピトープ、およびHIV-1由来のFRDエピトープを用いたGLIPH2についての感度および特異性の推定をy軸に示す。図16Cは、GLIPH2およびGIANAを用いた、SARS-CoV-2由来のYAWエピトープ、SARS-CoV-2由来のYLCエピトープ、およびHIV-1由来のFRDエピトープについての陽性予測値(PPV)の推測をy軸に示す。PPVは、正しく予測された特有のTCRの全数を訓練データとともにクラスター化された特有のTCRの全数で除したものとして定義され得る。GLIPH2は多数のクラスターの中に1つのTCRを置くので、この解析には特有のTCRが必要になる場合がある。GLIPH2は高い感度に達するが、その特異性はGIANAより低い。より重要なことに、GIANAのPPVは全てのエピトープについて60%超に達したが、3つのエピトープのうち2つについてGLIPH2のPPVは20%より低かった。
【0149】
既知の抗原に特異的なTCRの発見におけるGIANAの性能を評価するために、インシリコ混合実験を実施したことに留意されたい。健常ドナーに曝露される可能性が低い3つの抗原、即ちSARS-CoV-2由来のYAWおよびYLQエピトープ、ならびにHIV-1ウイルス由来のFRDエピトープを選択した。それぞれのエピトープに特異的なTCRを、冗長を除去して選択した。それぞれの抗原について、TCRの20%(試験データ)をランダムにサンプリングし、健常ドナー由来の100K個の配列と混合した。抗原特異的TCRの残りの80%(訓練データ)と試験データとの間に重複はなかった。混合した試料は、対応する病原体を有する偽患者であるとみなした。混合した試料を訓練データと合わせ、スミス-ウォーターマンアラインメントスコアのカットオフ(thr_s)の範囲を3.0~4.0(増分0.1)としてGIANAを適用した。それぞれのエピトープおよびパラメーターの設定について、データの変動を捕捉するためにインシリコ混合を20回実施した。
【0150】
得られたデータから、予測性能を評価した。少なくとも1つのTCRを含むTCRクラスターを訓練データから選択した。訓練データを除くこれらのクラスター中の全てのTCRは陽性コールであった。訓練TCRのいずれとも共クラスター化しなかった全てのTCRは陰性コールであった。真陽性のコールは「試験データ」とラベルした配列であると定義した一方、真陰性のコールは健常ドナーの元の100K個のTCRに由来する配列であった。特異性は、真陰性のコールの数を100Kで除したものであると定義した。感度は、真陽性のコールの数を試験TCRの全数で除したものであると定義した。
【0151】
さらに、従来の方法と異なり、GIANAの高い速度および特異性によって、クエリーモジュールが新たなTCR試料を既存の参照データセットとクラスター化することが可能になり、これは現存の全てのツールに欠けている機能である。
【0152】
ここで図17を参照して、等長変換に基づく高速GIANAクエリーを説明するダイアグラムを示す。上記のように、参照およびクエリーのTCRは、線形複雑度を有するユークリッド空間に変換され、それぞれのクエリー配列の最近傍について探索され、TCRクラスターに処理され、参照データと併合される。図17に示す点線の矢印は、探索の方向を示す。
【0153】
ステップ1702において、参照TCR-seqデータ1701は一連のユニタリー変換を通して数値ベクトルにエンコードされ、エンコードされたそれぞれのCDR3配列は高次元ユークリッド空間に投影されて参照等長座標1703を形成し得る。ステップ1704において、クエリーTCR-seqデータ1715は一連のユニタリー変換を通して数値ベクトルにエンコードされ、エンコードされたそれぞれのCDR3配列は高次元ユークリッド空間に投影されてクエリー等長座標1705を形成し得る。ステップ1706において、参照等長座標1703とクエリー等長座標1705の間で最近傍探索が実施され得る。ステップ1708において、最小クエリークラスター1709が形成し得る。ステップ1710において、最小クエリークラスター1709と参照クラスター1711との間で最近傍探索が実施され得る。ステップ1712において、併合されたクラスター1713が形成され得る。
【0154】
ここで図18を参照して、様々な数のTCRによる参照/クエリーデータを用いるGIANAクエリーモジュールの時間計算量評価を説明するチャートを示す。x軸はクエリーTCRの数を10kの増分で示し、y軸は計算時間のログ表現を秒で示す。線1802、1804、1806、1808、および1810は、それぞれ200kの参照TCR、1Mの参照TCR、2Mの参照TCR、6Mの参照TCR、および10Mの参照TCRを示す。示したように、GIANAは極めて効率が高い。これは10の参照配列に対して10のTCRを探索要求するためにほぼ176秒を要した。これは1000億のペアワイズ比較に等しい計算負荷を有するタスクである。下の表3は、様々なサイズのTCR試料のGIANAクエリーの計算時間消費を示す。時間は秒で測定した。
【0155】
【表3】
【0156】
この型のレパートリー分類は、疾患の診断および予後に対する迅速な適用を伴う重要なタスクである。典型的には、このタスクは多数例学習または深層学習によって取り組まれてきた。これらの方法に共通する限界は、大きなTCR-seqデータセットにスケールアップすることを妨げる大きな計算コストである。
【0157】
GIANAクエリーを、TCRレパートリーを分類するために用いてよい。例えば、20、100、または200のTCR-seq試料を有する3つの参照データセットを、COVID-19患者および健常対照(HC)に均一に分割してよい。さらに154のCOVID-19および120のHC試料を、参照のそれぞれに対して探索要求してよい。
【0158】
ここで図19を参照して、参照データセットに対してクラスター化することによってクエリーCOVID-19患者が健常対照から分離される程度を説明するチャートを示す。参照データのTCRの数をx軸のラベルとして示す。y軸におけるt統計は、COVID-19とHCクエリー試料を分離するためにCOVID-19分率を用いる2試料t検定を実施するt検定機能を用いて行った。バー1902、1904、および1906は、それぞれ200kの参照TCR、1Mの参照TCR、および2Mの参照TCRを示す。2試料t検定は、t統計を得るためにクエリーデータから推定したCOVID-19分率を用いて実施した。全てのp値は2.2×10-16のレベルで有意であった。それぞれのクエリー試料について、COVID-19参照患者と共クラスター化されたTCRの分率が計算され得る。この分率はクエリー試料中でCOVID-19患者について有意に高く、参照データのサイズの増大とともに、クエリーHCからの分離が増大する可能性がある。この分率を予測因子として用いれば、大きな試料サイズでの参照について受信者動作曲線下の面積(AUC)の増大が観察される。
【0159】
ここで図20A~20Cを参照して、単一予測因子としてCOVID-19分率を用いる受信者動作特性(ROC)曲線を説明するチャートを示す。COVID-19およびHCの試料の数をそれぞれのチャートの上に示す。それぞれの試料は10KのTCR配列を含む。
【0160】
ROC曲線は、所与の方法の予測能を可視化する偏りのない方式である。ここで連続的な予測因子としてCOVID-19分率を用いる。この分率の閾値を変更することによって、特異性(x軸)および感度(y軸)が変化する。図20Aに、10個のHC試料および10個のCOVID-19試料を示す。図20Bに、50個のHC試料および50個のCOVID-19試料を示す。図20Cに、100個のHC試料および100個のCOVID-19試料を示す。95%信頼区間は、層化された2,000のブートストラップから推定した。注目すべきことに、200万の参照TCRで、このアプローチの感度(79%)および特異性(100%)は、COVID-19についてのいくつかの現存する検査を凌駕しており、疾患の診断におけるこのアプローチの潜在的な有用性を示唆している。より重要なことに、レパートリー分類の正確度が、より多くの参照試料で改善された。これはおそらく、通常は低頻度で共有される、様々な患者にわたる疾患特異的なTCRの共有によるものであり、したがって、大きな参照データによって高いクラスター化確率、小さな分散、および良好な精度がもたらされる。
【0161】
ここで図21A~21Dを参照して、COVID-19患者と健常ドナーの両方についての元のCOVID-19分率スコアおよび様々な数の参照TCRによるCOVID-19分率の変動係数を説明するチャートを示す。図21A~21は、様々な参照データ構成の下でCOVID-19参照試料と共クラスター化したTCR分率の分布を示す。図21Aは10個のHC試料および10個のCOVID-19試料を示す。図21Bは50個のHC試料および50個のCOVID-19試料を示す。図21Cは100個のHC試料および100個のCOVID-19試料を示す。
【0162】
図21Dにおいて、x軸は参照TCRの数を示し、y軸は変動係数を示す。変動係数は、標準偏差をクエリー試料中のCOVID-19患者のCOVID-19分率の平均で除したものと定義してよい。バー2102、2104、および2106は、それぞれ200kの参照TCR、1Mの参照TCR、および2Mの参照TCRを示す。より多くの参照試料で、COVID-19分率の変動係数の低下が見られる。
【0163】
上記の特徴は、より大きな参照データセットでも実証することができる。例えば、がん、COVID-19、多発性硬化症(MS)患者、およびHC由来の1,213個の試料からなる1000万のTCRを含むデータセットを用いた。10M全てのTCRの抗原特異的クラスター化を実施し、共有されたTCRクラスターのレベルによって測定される様々なレパートリー試料の類似性を検討するために、GIANAを適用した。表4に、参照データとして用いたTCR-seq試料コホートを示す。
【0164】
【表4】
【0165】
いくつかのコホートについては、参照データを創成する際に利用可能な全ての試料を用いてはいない。それぞれの試料について、最も存在量の多い上位10,000のTCRを選択し、データが10,000より少ない配列を含んでいた場合には、全てを用いた。特有の試料は、研究に参加した独立の患者の数を示していた。試料サイズは、参照で用いたコホート中の全TCR-seq試料の数を記録した。Emerson2017コホートはバッチ1に666の健常ドナーを含み、これから100個の試料をランダムに選択した。COVID-19コホートは多重国際COVID-19研究からアセンブルした1,400名を超える患者を含んでいた。それぞれAdaptive Biotechnology(Adaptive、n=154)およびInstitute for System Biology(ISB、n=157)によって2つのコホートを収集した。一例では、GIANAは8個のCPUおよび128Gのメモリーによる高性能計算クラスターで参照データをクラスター化するために19.5時間を要した。
【0166】
ここで図22A~22Dを参照して、TCR共クラスター化に基づくTCR-seq試料の類似性のグラフ表現を示す。図22A~22Dにおいて、物理的近接は類似性を表し、したがって互いに近接したTCR-seq試料(ドットとして示す)は類似性が高い。図22A~22Dを生成するために、上記の1,213個の参照試料の元のTCRクラスター化の結果から、試料ごとのカウント共有行列を計算した。スピアマン相関行列も、共クラスター化されたTCRのカウントに基づき、相関値0.4以下の対をゼロと設定して計算した。得られた疎行列を用いてグラフを作成した。接続が2未満のノードを除外して試料群を可視化した。
【0167】
図22Aは、がん患者の第1のクラスター(図22Bに詳細を示す)、HCおよびMS患者の第2のクラスター(図22Cに詳細を示す)、ならびに肺がんおよびCOVID-19の患者の第3のクラスター(図22Dに詳細を示す)の全体図である。図22Aは、第1のクラスター中の大部分のがん患者が第2のクラスター中のHCおよびMSの患者から明らかに分離されることを示している。興味あることに、肺がん患者とCOVID-19患者は、分離した第3のクラスターを形成していた。ウイルス感染またはがん等の局所的炎症状態によって組織に存在するT細胞が循環系中に放出され、おそらくTCRレパートリーの共有を惹起していることが知られている。これらの知見は、肺組織においてT細胞の移動の規模が疾患の型を超越するために十分に大きいことをさらに示唆している。
【0168】
TCRクラスター化を用いるレパートリー分類の実現可能性を試験するため、10、50、および100個のCOVID-19試料を10、50、および100個の健常対照と組み合わせて、20、100、および200個の試料を含む3つの参照データセットを生成したことに留意されたい。それぞれの試料は、クローンの存在量を順位付けることによって選択された10KのTCRを含んでいた。クエリー試料は154のCOVID-19患者および120のHCを含んでいた。クエリー試料と参照試料との間に重複はなかった。GIANAを用いてそれぞれのクエリー試料についてTCRクラスターを生成させた。それぞれの試料について、100を超える試料を有するTCRクラスターは、これらのTCRがスモールワールド接続から生成され、疾患の特異性については情報が得られない可能性があるので除外した。残りのクラスターについては、COVID-19患者の寄与がある参照TCRの分率を計算して、予測因子として用いた。
【0169】
多数の疾患分類のタスクにおいて、712名のがん、311名のCOVID-19、25名のMSの患者、および100個のHCの試料を併せて、10MのTCRの参照データを産生した。別に62名のがん、193名のCOVID-19、12名のMS、および153名のHCの試料を収集し、疾患のラベルが未知であることを仮定してクエリーを作成した。それぞれのクエリークラスターファイルについて同様の解析を実施して、HCを含むそれぞれの疾患カテゴリーの分率を推定した。これらの分率を用いて疾患を予測し、ROC解析を実施した。具体的には、HC試料との全ての比較のためにHC分率を用いた。予備的アプローチとして、3つの疾患のペアワイズ分離のため、2つの疾患分率の間の差異を用いた。例えば、MS患者からがんを予測する場合、がん分率-MS分率を予測因子として用いた。
【0170】
さらに、従来の方法と異なり、GIANAは、超大スケールのTCRクラスター化および探索要求による新規な多疾患検出プラットフォームとして用いることができる。GIANAによる超大スケールクラスター化によって、疾患特異的なTCRと組織特異的なTCRとの検討が可能になる。一例では、肺がんおよびCOVID-19の患者のTCRクラスターを3つのカテゴリー、即ちi)COVID-19特異的、ii)肺がん特異的、iii)2つの疾患で共有、に分割した。
【0171】
ここで図23A~23Bを参照して、様々なカテゴリーのTCRクローン頻度の分布を説明するビースウォームプロットを示す。ビースウォームプロットは、TCRクローン頻度である実際のデータ点を示すボックスプロットである(y軸)。TCRクローン頻度は、所与のTCRのシーケンシングリードのパーセンテージを試料中のリードの全数で除したものと定義される。両方のチャートのx軸は、2つの試料カテゴリーを並べた比較である。
【0172】
図23Aに、COVID-19の患者のみで見出されたTCR 2302と、COVID-19と肺がんの患者の両方で見出されたTCR 2304の間の比較を示す。図23Bに、肺がんの患者のみで見出されたTCR 2306と、COVID-19と肺がんの患者の両方で見出されたTCR 2304との比較を示す。COVID-19と肺がんの患者の両方で見出されたTCR 2304については、疾患特異的TCRのコホートに一致するようにクローン頻度を選択した。図23Aにおけるp値(p<2.2e-16)は、統計検定の第1種の過誤の尺度である。図23Bにおけるp値(n.s.)は有意でないことを意味し、これは0.05より大きなp値である。
【0173】
図23A~23Bに示すように、COVID-19患者についてはカテゴリーiii)に対してカテゴリーi)のクローン頻度が有意に高い一方、肺がん患者についてはカテゴリーii)とiii)の間で差がない。同じコホートの中ではTCR頻度は一致し、バッチの影響は回避されていた。したがって、COVID-19特異的TCRの高い存在量は、おそらくSARS-CoV-2への免疫応答によって惹起されている。まさに、ウイルス感染の後でCOVID-19特異的TCRのみが動的制御を受け、これは曝露後の最初の2週間以内にピークに達し、その後低下した。
【0174】
ここで図24A~24Bを参照して、SARS-CoV-2感染の経過の間のTCRクローン頻度の動的変化を説明するグラフを示す。両方のチャートで、x軸は診断から試料採取までの日数を示し、y軸はTCR頻度のログ表現を示す。中央の実線2402はデータの平滑化平均である。それぞれの時点(x軸)で、TCRクローン頻度の多数の観察があり、実線はその平均値である。同様に、上の点線2404は、観察されたデータの95%信頼区間の上限である。下の点線2406は信頼区間の下限である。「p値」は、この解析のために実施したスピアマン相関検定の第1種の過誤である。スピアマンの相関値(rho)を、それぞれの図の中の最初の線として表示している。
【0175】
共有されたTCRのクローン存在量は、SARS-CoV-2感染の後のタイムラインによって影響されなかった。これらの図は、大きなTCRレパートリー試料についてのクラスター化によって共有された疾患特異的TCRが大量にあることが明らかになり、これがレパートリー分類に対するより精細な解を提供し得ることを示している。
【0176】
クラスター化されたTCRは、例えば一個抜きバリデーションアプローチを実行することによってレパートリー試料を多数の疾患に割り当てるためのマーカーとして用いてよい。具体的には、所与の試料について、参照コホートの中のがん、COVID-19、MSの患者、または健常対照と共クラスター化されたTCRの分率を、その試料自体を除いて計算してよい。この方法によって、それぞれの試料について合計して1になる4つのクラス分率が得られる。HC分率を用いて、患者を健常ドナーから分離してよい。
【0177】
ここで図25A~25Fを参照して、共クラスター化されたTCRから計算した疾患分率についての一個抜きバリデーションアプローチを用いるROC曲線を説明するチャートを示す。それぞれのチャートの右下にAUC値を示す。それぞれのチャートはx軸に特異性、y軸に感度を示している。図25Aは、がんのTCRクラスターとHCのTCRクラスターの間の比較を示す。図25Bは、COVID-19のTCRクラスターとHCのクラスターの間の比較を示す。図25Cは、MSのクラスターとHCのクラスターの間の比較を示す。図25Dは、がんのTCRクラスターとCOVID-19のクラスターの間の比較を示す。図25Eは、COVID-19のクラスターとMSのクラスターの間の比較を示す。図25Fは、がんのクラスターとMSのクラスターの間の比較を示す。95%信頼区間は、層化された2,000のブートストラップを用いて計算してよい。3つ全ての疾患についてほぼ完全な正確度が観察された。疾患の対を識別するため、対応する2つの分率の間の差異を予測因子として用いてよく、これは高い(93%以上)AUC値をもたらす。
【0178】
ここで図26A~26Fを参照して、共クラスター化されたTCRから計算した疾患分率についてのより厳格なアプローチを用いるROC曲線を説明するチャートを示す。一例では、参照試料の40%を訓練データとしてランダムに選択し、残りの60%を試験データとして残した。訓練試料は、「COVID-19」、「がん」、「MS」、または「HC」とラベルする。それぞれの試験データを全ての訓練試料と共クラスター化して、それぞれの試料カテゴリーとともにクラスター化されたTCRの分率を計算した。疾患と健常の個体を区別するために「HC」の分率を用いる。3つの疾患を区別するために他の分率を用いる。このより厳格な方法によって、一個抜きバリデーションと同様のレベルの予測正確度が達成された。
【0179】
それぞれのチャートの右下にAUC値を示す。それぞれのチャートはx軸に特異性、y軸に感度を示している。図25Aは、がんのTCRクラスターとHCのTCRクラスターの間の比較を示す。図25Bは、COVID-19のTCRクラスターとHCのクラスターの間の比較を示す。図25Cは、MSのクラスターとHCのクラスターの間の比較を示す。図25Dは、がんのTCRクラスターとCOVID-19のクラスターの間の比較を示す。図25Eは、COVID-19クラスターとMSのクラスターの間の比較を示す。図25Fは、がんのクラスターとMSのクラスターの間の比較を示す。
【0180】
ここで図27を参照して、参照TCR-seq試料のクロスコホート類似性を説明するチャートを示す。N個の試料のTCRクラスター化データを用いて、他の試料のそれぞれと共クラスター化したそれぞれの試料のTCRのパーセンテージを計算してよい。自己共クラスター化パーセンテージをゼロと割り当てて、全てのベクトルの長さをNとしてよい。スピアマン相関行列は、N×Nの共クラスター化分率行列から計算してよい。次いで行列をがんの型に従って折り畳んでよい。上位5つの最大の相関の平均を、ヒートマップとして図27に表示する。計算に先立ってそれぞれの試料の自己相関を除外してよいことを除いて、同じ疾患相関(対角値)を同様に計算してよい。カラーコーディングによって、ディスプレイ上の値が表される。例えば、赤色は正の相関を表す。
【0181】
肺がんとCOVID-19を識別する能力は、疾患内の類似性がまだ高いので、2つの疾患の外見上のグループ化と矛盾しなかった。しかし、疾患の大部分はただ1つの研究から誘導されたので、予測性には未知のバッチ効果による寄与があるのではないかという懸念が生じた。
【0182】
この可能性を検討するため、GIANAを用いて、独立したコホートに由来する未知の試料の疾患ラベルを予測した。同じ疾患の267の新たなTCR-seq試料および参照データセットに対する153のHC試料を探索要求するためにGIANAを適用した。全ての試料は末梢血由来であった。同じアプローチを用いて、参照のがん、COVID-19、MS、またはHCの配列と共クラスター化したTCRの分率を計算した。下の表5に、クエリーデータとして用いたTCR-seq試料コホートを示す。
【0183】
【表5】
【0184】
Emersonの2017年の研究からの健常ドナーの第2のバッチの120全てを対照として用いた。参照との重複を避けるため、COVID-19患者についてはNolanの2020年の研究からのHospital Universitario 12 de Octubre(HUniv120、n=193)コホートを用いた。このコホートの患者はスペインのマドリッドから収集した。一例では、3.5GHzのDual-Core Intel Core i7プロセッサーおよび16GBの2133MHz LPDDR3メモリーを有するMacBookProで、全420試料のクエリーを完了するのにGIANAで20.5時間を要した。
【0185】
ここで図28A~28Dを参照して、がん、COVID-19、MS患者、およびHCのクラス分率の分布を示す「バイオリンプロット」を示す。図28A~28Dに示す「バイオリンプロット」のそれぞれはデータの分布を説明している。「バイオリン」の側部の対称的な曲線は、データ点の実際の確率密度である。中央部において、典型的なボックスプロットは、データの平均(中点)および四分位間範囲を説明している。y軸は所与の疾患カテゴリー(サブパネルの標題として示す)のTCRの分率を示す。x軸は疾患のカテゴリーを示す。図28A~28Dは、所与の疾患のGIANAによって推定されたTCR分率がその疾患を有する患者で最大であることを示しており、これは多数の疾患の予測因子としてこれを用いることを正当化している。
【0186】
クラス分率(例えばがんの分率)は、がん患者からの参照TCRとともにクラスター化したクエリーTCRの割合として計算してよい。いずれのモデル訓練もなしに、この単純なアプローチは、それぞれの試料カテゴリーを他から区別することができる。HC分画は、91%を超える正確度で3つ全ての疾患から識別される。
【0187】
ここで図29A~29Fを参照して、4つの疾患クラスのペアワイズ分離のための単一予測因子として疾患のクラス分率を用いるROC曲線を説明するチャートを示す。分率は、参照データセットにおける所与のクラスの試料と共クラスター化されたTCRのパーセンテージであってよい。それぞれのチャートの右下にAUC値を示す。それぞれのチャートは、x軸に特異性、y軸に感度を示している。図29Aは、がんのTCRクラスターとHCのTCRクラスターの間の比較を示す。図29Bは、COVID-19のTCRクラスターとHCのクラスターの間の比較を示す。図29Cは、MSのクラスターとHCのクラスターの間の比較を示す。図29Dは、がんのTCRクラスターとCOVID-19のクラスターの間の比較を示す。図29Eは、COVID-19のクラスターとMSのクラスターの間の比較を示す。図29Fは、がんのクラスターとMSのクラスターの間の比較を示す。95%信頼区間は、層化された2,000のブートストラップを用いて計算した。疾患の間のペアワイズ分離は、全て87%を超えるAUCに達した。クエリー試料は参照データに含まれない研究から誘導されたので、大きなAUCは未知のバッチまたはコホートに特異的な効果によって惹起されたのではなく、おそらく3つの疾患についての真の予測可能性を反映している。
【0188】
GIANAクエリー性能を、多数例学習(MIL)およびコホート特異的パラメーターのフィッティング(例えばDeepRCおよびその他)に基づく従来のレパートリー分類法と比較した。GIANAはパラメーターフィッティングを何ら要求しない一方、従来の方法はクエリー試料と類似の属性を有する好適な参照データ(例えば真のCOVID-19患者由来のレパートリー試料および陰性対照)を提供する。HCMV+およびHCMV-の対象を含むコホートを用いて、試料の75%を参照として適用し(訓練と同様)、残りの25%を試験データとして適用した。それぞれの試験試料を参照データに対して探索要求した。それぞれのクエリー試料について、HCMV+参照対象と共クラスター化したTCRの分率を計算し、予測因子として用いた。この単純なアプローチは、下のチャートに示すように、83.06%のAUCに達し、DeepRCと同じで、他の方法よりも良好であった。したがって、GIANAはレパートリー分類のための競争力のある方法であろう。
【0189】
【表6】
【0190】
上記のROC曲線を生成し、AUC値を推定するために、Rプログラミング言語のpROCパッケージを用い、2,000の層化されたブートストラップ反復によって95%の信頼区間を計算し、pROCパッケージのci.auc機能を用いて実行したことに留意されたい。図22は、igraphパッケージを用いて作成した。注釈付きの値を有する図27のヒートマップは、gplotsパッケージのheatmap.2機能を用いて作成した。図示した全てのボックスプロットについて、中央の線はメディアン値を画定し、ボックスの境界線はデータの25%(Q1)および75%(Q3)の四分位数を示す。下および上のウィスカーはQ1-1.5IQRおよびQ3+1.5IQRに対応し、ここでIQRは四分位数間範囲の省略形である。
【0191】
まとめると、GIANAは、数千万の配列を効率的に取り扱うことができる新規な抗原特異的TCRクラスター化アルゴリズムである。GIANAは現存する全ての方法より高い感度および精度を達成し、既知の抗原に特異的なTCRを高い正確度で検索することができる。新規の試料の超大スケールのTCRクラスター化および高速のクエリーによって、参照に基づく新規なレパートリー分類フレームワークも可能になった。GIANAはTCR領域が解明された単一細胞のRNA-seqデータを解析することもでき、パブリックドメインにあるTCRレパートリー試料の大きなデータベースに対するscRNA-seqデータにTCRを探索要求し、共有された抗原特異性に対する新たな洞察を提供することが可能である。最小の改変を加えれば、GIANAは大型B細胞受容体のシーケンシングデータをクラスター化または探索要求するために適用することもできる。さらに、等長埋め込みを実施するための数学的フレームワークは、将来において古典的な短いDNAまたはタンパク質の配列アラインメントの課題に対する代替の解決を提供し得る。
【0192】
HLAアレルは、そのようなデータが大部分の現在の研究では利用可能でないので、GIANAにおいて考慮しなかったことに留意されたい。HLAタイピングを含めると、TCRクラスター化およびクエリー法の正確度は改善されると期待される。GIANAはギャップアラインメントを支援しないが、これはこの機能性を有する他の方法より良好な感度を有している。これは、ギャップを許容することがクラスター化の特異性を低減し、予測正確度を犠牲にする可能性があるからである。
【0193】
また、上記のように、疾患のクラスを割り当てるために、単純な分率推定が用いられる。より多くのデータがあれば、この努力は予測正確度を最適化する機械学習モデルによって改善され得る。さらに、全てのがん患者を、がんの局在化を区別することなく、ともに他の疾患と比較した。しかし、参照として関連する十分なTCR-seq試料を用いてがんの型を分離する能力が意図されている。現在のGIANA法は既にレパートリー分類の高い正確度を達成しているが、このプラットフォームの診断的価値は、予測的に収集された患者試料によって改善されよう。
【0194】
自己免疫疾患および感染疾患において実証したように、低頻度で共有される抗原特異的な周知のTCRは、数千名の個体からの大量のTCRを比較することによって検出され得る潜在的に重要なバイオマーカーである。免疫レパートリーを用いてがん、COVID-19、およびMSを個別に検出するための方法が開発されてきたが、いずれも様々な疾患を同時に診断し分離することはできていない。対照的に、GIANAは、感染疾患、自己免疫障害、およびがんを診断するための統合されたプラットフォームとして用いることができる。
【0195】
これは、従来の方法に対していくつかの改善を提供する。疾患の診断は伝統的に主として症状に基づいて行われており、それぞれの疾患には、放射活性造影、液体生検、侵襲的な内視鏡検査、手術、その他の多様な臨床アッセイから得られるシグネチャーの区別できる組が必要である。多数の疾患を指示するための単一のバイオマーカーとして免疫系を用いることの実現可能性は、症状基準から免疫応答基準へのパラダイムシフトを生じ、これにより、多くの免疫関連障害に対する普遍的な解決策が提供され得る。
【0196】
さらに、鑑別診断は通常、臨床的に困難であり、プラットフォームに多くの疾患を追加することは診断の特異性を低下させることが予想される。しかし、GIANAの断定正確度は、TCR-seq試料をより多く含ませることによって実際に増大する。
【0197】
さらに、免疫応答は通常、いずれの測定可能な症状より先行するので、GIANAプラットフォームは、大部分の疾患が治癒可能であるか管理が容易である初期の段階で疾患を検出する可能性を有している。これは、がんの診断で既に示されており、免疫制御の原理もMS等の自己免疫障害に適用される。最後に、このプラットフォームは、標的化V(D)J捕捉を実施するために少量の血液を必要とするのみであるので、これは低コストでの非侵襲的な検査としての役目を果たし得る。併せて、GIANAは、抗原特異的TCRクラスターを見出すため、SARS-CoV-2等の既知の病原体に特異的な配列を検索するため、およびがん、免疫学、および臨床的な研究における急速に増大するTCRデータの集まりによる疾患診断を容易にするために、広く用いることができる。
【0198】
本開示の目的のため、モジュールは、本明細書に記載したプロセス、特徴、および/または機能を実施しまたは容易にするソフトウェア、ハードウェア、もしくはファームウェア(またはそれらの組合せ)システム、プロセス、もしくは機能性、またはそれらの構成成分である(ヒトとの相互作用またはヒトによる増強を含むか含まない)。モジュールはサブモジュールを含んでよい。モジュールのソフトウェア成分は、プロセッサーによる実行のためのコンピューター可読媒体に記憶することができる。モジュールは1つもしくは複数のサーバーに不可欠であるか、1つもしくは複数のサーバーによって搭載および実行してよい。1つもしくは複数のモジュールはエンジンまたはアプリケーションにグループ化してよい。
【0199】
当業者には、本開示の方法およびシステムは多くの方式で実行され、したがって上記の実施例に限定されないことが認識されよう。換言すれば、ハードウェアおよびソフトウェアまたはファームウェアの種々の組合せにおける単一または多数の成分によって実施される機能的要素ならびに個別の機能は、クライアントのレベルもしくはサーバーのレベルまたはその両方において、ソフトウェアアプリケーションの中に分配してよい。これに関して、本明細書に記載した様々な実施例の任意の数の特徴を単一または多数の実施例と組み合わせてよく、本明細書に記載した特徴の全てより少ないか、これより多い特徴を有する代替の実施例が可能である。
【0200】
機能性は、全体としてまたは部分的に、現在既知であるか将来既知となる方式で、多数の成分の中に分配してもよい。即ち、本明細書に記載した機能、特徴、インターフェース、および優先性を達成するにあたって、多数のソフトウェア/ハードウェア/ファームウェアの組合せが可能である。さらに、本開示の範囲は、記載した特徴および機能およびインターフェース、ならびに現在および将来、当業者によって理解される本明細書に記載したハードウェアまたはソフトウェアまたはファームウェアの成分に加えられる変形および改変を実行するための従来から既知の方式を包含する。
【0201】
さらに、本開示においてフローチャートとして提示および記載した方法の実施例は、本技術のより完全な理解を提供するために例として提供している。開示した方法は、本明細書で提示した操作および論理的フローに限定されない。その中で種々の操作の順序が変更され、またその中で大きな操作の一部として記載されたサブ操作が独立に実施される代替の実施例も意図している。
【0202】
本開示の目的のために種々の実施例を記載したが、これらの実施例は本開示の教示をこれらの実施例に限定するものとみなすべきではない。本開示に記載したシステムおよびプロセスの範囲内に留まる結果を得るために、上記の要素および操作に種々の変更および改変を行ってよい。
図1
図2
図3
図4
図5A
図5B
図5C
図5D
図5E
図5F
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15A
図15B
図15C
図15D
図15E
図15F
図16A
図16B
図16C
図17
図18
図19
図20A
図20B
図20C
図21A
図21B
図21C
図21D
図22A
図22B
図22C
図22D
図23A
図23B
図24A
図24B
図25A
図25B
図25C
図25D
図25E
図25F
図26A
図26B
図26C
図26D
図26E
図26F
図27
図28A
図28B
図28C
図28D
図29A
図29B
図29C
図29D
図29E
図29F
【国際調査報告】