(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】癌関連TCRレパートリの抗原非依存的デノボ予測のコンピュータシステム及び方法
(51)【国際特許分類】
G16B 40/00 20190101AFI20241001BHJP
【FI】
G16B40/00
(21)【出願番号】P 2021557896
(86)(22)【出願日】2020-03-16
(86)【国際出願番号】 US2020022925
(87)【国際公開番号】W WO2020197820
(87)【国際公開日】2020-10-01
【審査請求日】2023-03-15
(32)【優先日】2019-03-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504384000
【氏名又は名称】ボード オブ リージェンツ オブ ザ ユニバーシティ オブ テキサス システム
(74)【代理人】
【識別番号】100099623
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100180231
【氏名又は名称】水島 亜希子
(74)【代理人】
【氏名又は名称】有原 幸一
(72)【発明者】
【氏名】ポォー,リィー
【審査官】前田 侑香
(56)【参考文献】
【文献】国際公開第2012/066451(WO,A1)
【文献】米国特許出願公開第2013/0196861(US,A1)
【文献】LI Boほか11名,“The landscape of antigen-specific T cells in human cancers”,bioRxiv [online],Cold Spring Harbor Laboratory,2018年11月01日,p.1-17,[2024年4月19日検索],インターネット<URL:https://www.biorxiv.org/content/10.1101/459842v1.full.pdf>
【文献】SIDHOM John-Williamほか3名,“DeepTCR: a deep learning framework for revealing structural concepts within TCR Repertoire”,bioRxiv [online],Cold Spring Harbor Laboratory,2018年12月14日,p.1-25,[2024年4月23日検索],インターネット<URL:https://www.biorxiv.org/content/10.1101/464107v3.full.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピューティングデバイスを介して、一組のシーケンシングデータを特定するステップと、
前記コンピューティングデバイスを介して、一組の抗原特異的T細胞受容体(TCR)に関連するデータを特定するステップと、
TCR転写超可変相補性決定領域3(CDR3領域)を呼び出すアルゴリズムを実行する前記コンピューティングデバイスを介して、前記シーケンシングデータ及び前記TCRデータを解析するステップと、
前記コンピューティングデバイスを介して、前記解析に基づき、
癌性CDR3の特徴及び非癌性CDR3の特徴を一組のアミノ酸インデックス
として規定するステップと、
前記コンピューティングデバイスを介して、
前記癌性CDR3の特徴及び前記非癌性CDR3の特徴の前記アミノ酸インデックス
を用いて機械学習モデルを訓練するステップと、
前記コンピューティングデバイスを介して、一組のTCRseqサンプルデータを特定するステップであって、前記TCRseqサンプルデータセットは
CDR3の配列類似性に基づいて複数のクラスタにグループ化される、ステップと、
前記コンピューティングデバイスを介して、前記機械学習モデルを
前記複数のクラスタに適用するステップと、
前記コンピューティングデバイスを介して、前記適用に基づき、癌スコアを特定するステップであって、前記癌スコアは、免疫レパートリが癌性である確率の指標を提供する、ステップと
を含む、方法。
【請求項2】
ネットワークを介して、ヒトリファレンスゲノム情報を特定することと、
前記ヒトリファレンスゲノム情報を解析することと、
前記ヒトリファレンスゲノム情報の前記解析に基づき、CDR3配列を抽出することと
を更に含む、請求項1に記載の方法。
【請求項3】
前記コンピューティングデバイスを介して、前記CDR3配列のペアワイズアライメントを実施することを更に含
み、前記TCRseqサンプルデータセットは、前記ペアワイズアライメントの結果に基づいて前記複数のクラスタにグループ化される、請求項2に記載の方法。
【請求項4】
前記ペアワイズアライメントに基づいてCDR3配列の連結マトリックスを生成することと、前記生成されたマトリックスに基づいて
前記クラスタを形成することと、を更に含
む、請求項3に記載の方法。
【請求項5】
前記抽出は、前記解析中に前記TCR転写超可変相補性決定領域3(CDR3領域)を呼び出す前記アルゴリズムを実行する前記コンピューティングデバイスによって実施される、請求項2に記載の方法。
【請求項6】
前記TCR転写超可変相補性決定領域3(CDR3領域)を呼び出す前記アルゴリズムを実行する前記コンピューティングデバイスに基づき、前記一組のアミノ酸インデックスから癌性CDR3及び非癌性CDR3を示す情報を特定すること
を更に含む、請求項2に記載の方法。
【請求項7】
前記機械学習モデルの前記訓練は、訓練周期を最小化することと、交差検証(CV)誤差を最小化することとを含む、請求項1に記載の方法。
【請求項8】
前記CV誤差は、独立した検証データ値に対してCDR3長さに基づいて計算される、請求項7に記載の方法。
【請求項9】
前記CV誤差の前記最小化は、所定のサンプリングラウンド数に基づく、請求項7に記載の方法。
【請求項10】
前記訓練は、適応的ブースティングアルゴリズムを適用することを含む、請求項1に記載の方法。
【請求項11】
前記訓練は、ディープニューラルネットワークアルゴリズムを適用することを含む、請求項1に記載の方法。
【請求項12】
コンピュータ実行可能命令で有形的に符号化された非一時的コンピュータ可読記憶媒体であって、コンピューティングデバイスに関連するプロセッサによって実行されると、
前記コンピューティングデバイスを介して、一組のシーケンシングデータを特定するステップと、
前記コンピューティングデバイスを介して、一組の抗原特異的T細胞受容体(TCR)に関連するデータを特定するステップと、
TCR転写超可変相補性決定領域3(CDR3領域)を呼び出すアルゴリズムを実行する前記コンピューティングデバイスを介して、前記シーケンシングデータ及び前記TCRデータを解析するステップと、
前記コンピューティングデバイスを介して、前記解析に基づき、
癌性CDR3の特徴及び非癌性CDR3の特徴を一組のアミノ酸インデックス
として規定するステップと、
前記コンピューティングデバイスを介して、
前記癌性CDR3の特徴及び前記非癌性CDR3の特徴の前記アミノ酸インデックス
を用いて機械学習モデルを訓練するステップと、
前記コンピューティングデバイスを介して、一組のTCRseqサンプルデータを特定するステップであって、前記TCRseqサンプルデータセットは
CDR3の配列類似性に基づいて複数のクラスタにグループ化される、ステップと、
前記コンピューティングデバイスを介して、前記機械学習モデルを
前記複数のクラスタに適用するステップと、
前記コンピューティングデバイスを介して、前記適用に基づき、癌スコアを特定するステップであって、前記癌スコアは、免疫レパートリが癌性である確率の指標を提供する、ステップと
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。
【請求項13】
ネットワークを介して、ヒトリファレンスゲノム情報を特定することと、
前記ヒトリファレンスゲノム情報を解析することと、
前記ヒトリファレンスゲノム情報の前記解析に基づき、CDR3配列を抽出することと
を更に含む、請求項12に記載の非一時的コンピュータ可読記憶媒体。
【請求項14】
前記コンピューティングデバイスを介して、前記CDR3配列のペアワイズアライメントを実施することを更に含
み、前記TCRseqサンプルデータセットは、前記ペアワイズアライメントの結果に基づいて前記複数のクラスタにグループ化される、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項15】
前記ペアワイズアライメントに基づいてCDR3配列の連結マトリックスを生成することと、前記生成されたマトリックスに基づいて
前記クラスタを形成することと、を更に含
む、請求項14に記載の非一時的コンピュータ可読記憶媒体。
【請求項16】
前記抽出は、前記解析中に前記TCR転写超可変相補性決定領域3(CDR3領域)を呼び出す前記アルゴリズムを実行する前記コンピューティングデバイスによって実施される、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項17】
前記TCR転写超可変相補性決定領域3(CDR3領域)を呼び出す前記アルゴリズムを実行する前記コンピューティングデバイスに基づき、前記一組のアミノ酸インデックスから癌性CDR3及び非癌性CDR3を示す情報を特定すること
を更に含む、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項18】
前記機械学習モデルの前記訓練は、訓練周期を最小化することと、交差検証(CV)誤差を最小化することとを含み、前記CV誤差は、独立した検証データ値に対してCDR3長さに基づいて計算され、CV誤差の前記最小化は、所定のサンプリングラウンド数に基づく、請求項12に記載の非一時的コンピュータ可読記憶媒体。
【請求項19】
プロセッサと、
前記プロセッサによって実行されるプログラムロジックを有形的に記憶する非一時的コンピュータ可読記憶媒体であって、前記プログラムロジックは、
コンピューティングデバイスを介して、一組のシーケンシングデータを特定する、前記プロセッサによって実行されるロジックと、
前記コンピューティングデバイスを介して、一組の抗原特異的T細胞受容体(TCR)に関連するデータを特定する、前記プロセッサによって実行されるロジックと、
TCR転写超可変相補性決定領域3(CDR3領域)を呼び出すアルゴリズムを実行する前記コンピューティングデバイスを介して、前記シーケンシングデータ及び前記TCRデータを解析する、前記プロセッサによって実行されるロジックと、
前記コンピューティングデバイスを介して、前記解析に基づき、
癌性CDR3の特徴及び非癌性CDR3の特徴を一組のアミノ酸インデックス
として規定する、前記プロセッサによって実行されるロジックと、
前記コンピューティングデバイスを介して、
前記癌性CDR3の特徴及び前記非癌性CDR3の特徴の前記アミノ酸インデックス
を用いて機械学習モデルを訓練する、前記プロセッサによって実行されるロジックと、
前記コンピューティングデバイスを介して、一組のTCRseqサンプルデータを特定する、前記プロセッサによって実行されるロジックであって、前記TCRseqサンプルデータセットは
CDR3の配列類似性に基づいて複数のクラスタにグループ化される、ロジックと、
前記コンピューティングデバイスを介して、前記機械学習モデルを
前記複数のクラスタに適用する、前記プロセッサによって実行されるロジックと、
前記コンピューティングデバイスを介して、前記適用に基づき、癌スコアを特定する、前記プロセッサによって実行されるロジックであって、前記癌スコアは、免疫レパートリが癌性である確率の指標を提供する
、ロジックと
を含む、コンピューティングデバイス。
【請求項20】
ネットワークを介して、ヒトリファレンスゲノム情報を特定する、前記プロセッサによって実行されるロジックと、
前記ヒトリファレンスゲノム情報を解析する、前記プロセッサによって実行されるロジックと、
前記ヒトリファレンスゲノム情報の前記解析に基づき、CDR3配列を抽出する、前記プロセッサによって実行されるロジックと、
前記CDR3配列のペアワイズアライメントを実施する、前記プロセッサによって実行されるロジックであって、
前記TCRseqサンプルデータセットは、前記ペアワイズアライメントの結果に基づいて前記複数のクラスタにグループ化される、ロジックと、
前記ペアワイズアライメントに基づいてCDR3配列の連結マトリックスを生成し、前記生成されたマトリックスに基づいて
前記クラスタを形成する、前記プロセッサによって実行され
るロジックとを更に含む、請求項19に記載のコンピューティングデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、著作権保護の対象である資料を含む。著作権者は、米国特許商標庁においてファイル及び記録に見られる限り、特許開示の何人による複写に対しても異議を唱えないが、それ以外の場合には何であっても全ての著作権を留保する。
【0002】
[関連出願の相互参照]
本出願は、2019年3月28日に出願された米国仮特許出願第62/825,235号に対する優先権の利益を主張し、その出願の全体が引用することにより本明細書の一部をなすものとする。
【0003】
[政府の利益]
本研究に対して政府の利益又は支援はない。
【0004】
本開示は、包括的には、免疫レパートリに基づく癌診断技術に関し、より詳細には、癌患者を診断し、末梢血T細胞受容体(TCR)レパートリを用いて患者の癌の状態を特定する新規なシステム及び方法に関する。
【背景技術】
【0005】
癌診断及び予後のために免疫レパートリシーケンシングデータの臨床的有用性は、未だ完全に探究されていない。現行の技術は、広く、人体における癌関連物質の大きい閾値を検出することに注力している。例えば、従来の癌検出方法は、癌バイオマーカ(例えば、血清中のCA抗原)、循環デオキシリボ核酸(DNA)、癌細胞、癌病変部のイメージングスキャン等に依存する。しかしながら、これらは非常に不正確であるとともに非効率的であるだけでなく、疾患のより後期において癌を検出する範囲に限定されている。
【発明の概要】
【0006】
本開示は、癌関連TCRレパートリの抗原非依存的デノボ(de novo)予測の改善されたコンピュータフレームワークを提供する。開示するフレームワークは、血液T細胞レパートリの変化を解析及び理解することにより早期癌から放出される小さなシグナルを増強することができる、全癌早期検出ツールである。開示するシステム及び方法は、多くの現行の技術が同定することができない癌、例えば、腎臓癌、卵巣癌及び膵癌を、初期に検出することができるようにする。本明細書で考察するように、開示するフレームワークは、早期癌検出の改善された能力に加えて、患者において進行期(late-stage:末期)癌を検出する精度を向上させる能力を提供し、その理由は、例えば、(上述した既存の従来方法に加えて)開示するフレームワークをX線撮影画像とともに使用して、それらの診断精度を向上させることができるためである。
【0007】
開示するシステム及び方法は、最初の免疫ベースの癌検出技法又は技術を具現化する。すなわち、或る人が癌を有するとき、免疫系は、癌特異的T細胞の増殖によって反応し、血液及びリンパ系においてそれらを循環させる。この身体的反応は自然に発生するが、血液データにおけるその提示及び解析は行われず、したがって、こうした解析を実施するために改善された自動化フレームワークが必要である。開示するフレームワークは、特定の自動化技法を使用して、末梢免疫レパートリのシグネチャから癌シグナルを検出し、これは、疾患の早期であっても現時点での自動化方法よりも高い精度で実施することができる。
【0008】
本開示のいくつかの実施形態によれば、開示するフレームワークは、患者の末梢血TCRレパートリに基づいて癌の状態を予測することができる、新規な機械学習アルゴリズムを実行する。より詳細に後述するように、開示するフレームワークは、正常な量(例えば、3ml~10ml)の血液サンプルで開始して、白血球のゲノムDNAのディープTCRシーケンシングを実施することができ、それにより、腫瘍抗原とは無関係な癌関連TCRの検出(予測又は特定)が可能になる。そして、これは、患者の「癌スコア」を特定するために活用され、「癌スコア」は、患者の免疫レパートリを反映する。スコアは、種々の疾患にわたる早期癌及び進行期癌の両方に対するロバストなバイオマーカを表す、自動化プロセスの出力であるとともに、チェックポイント阻害剤療法に対する患者反応を予測するものである。したがって、特定されたスコアは、患者が癌を有するか否か、及びその程度の強力な標識である。
【0009】
1つ以上の実施形態によれば、本開示は、末梢血TCRレパートリを用いて癌の状態を診断する新規なフレームワークのコンピュータ化方法を提供する。1つ以上の実施形態によれば、本開示は、フレームワークの機能の上述した技術的ステップを実行する非一時的コンピュータ可読記憶媒体を提供する。非一時的コンピュータ可読記憶媒体は、デバイスによって実行されると、少なくとも1つのプロセッサに、末梢血TCRレパートリを用いて癌の状態を診断する新規な且つ改善されたフレームワークの方法を実施させる、コンピュータ可読命令を有形的に記憶するか又は有形的に符号化している。
【0010】
1つ以上の実施形態によれば、こうした実施形態による機能を提供するように構成された1つ以上のコンピューティングデバイスを備えるシステムが提供される。1つ以上の実施形態によれば、機能は、少なくとも1つのコンピューティングデバイスによって実施される方法のステップで具現化される。1つ以上の実施形態によれば、1つ以上のこうした実施形態により機能を実施するようにコンピューティングデバイスのプロセッサ(複数の場合もある)によって実行されるプログラムコード(又はプログラムロジック)は、非一時的コンピュータ可読媒体において、それにより及び/又はその上で具現化される。
【0011】
本開示の上述した目的、特徴及び利点並びに他の目的、特徴及び利点は、それぞれの図を通して参照符号が同じ部分を指す添付図面に示すような実施形態の以下の説明から明らかとなろう。図面は必ずしも正確な縮尺ではなく、代わりに、本開示の原理を例示することに重きが置かれている。
【図面の簡単な説明】
【0012】
【
図1】本開示のいくつかの実施形態による、本明細書に開示するシステム及び方法を実施することができるネットワークの一例を示す概略図である。
【
図2】本開示のいくつかの実施形態による例示的なシステムの構成要素を示すブロック図である。
【
図3A】本開示のいくつかの実施形態による、開示するシステム及び方法の例示のデータフローを示す概略図である。
【
図3B】本開示のいくつかの実施形態による、選択された特徴の非限定的な例示の実施形態を示す図である。
【
図4】本開示のいくつかの実施形態による、開示するシステム及び方法の非限定的なデータフローを示す概略図である。
【
図5A】本開示のいくつかの実施形態による、予測された癌関連データの非限定的な例を示す図である。
【
図5B】本開示のいくつかの実施形態による、予測された癌関連データの非限定的な例を示す図である。
【
図5C】本開示のいくつかの実施形態による、予測された癌関連データの非限定的な例を示す図である。
【
図6】本開示のいくつかの実施形態による、訓練データ及びテストデータのデータリソース表である。
【
図7】本開示のいくつかの実施形態による、配列保存パターンの非限定的な例を示す図である。
【
図8】本開示のいくつかの実施形態による、TCRの生化学的特徴の非限定的な例を示す図である。
【
図9】本開示のいくつかの実施形態による、ROC曲線の非限定的な例を示す図である。
【
図10】本開示のいくつかの実施形態による、-6残基に対する3次元位置の変動の非限定的な例を示す図である。
【
図11A】本開示のいくつかの実施形態による、癌スコア及びシャノンのエントロピの性能評価の非限定的な例を示す図である。
【
図11B】本開示のいくつかの実施形態による、癌スコア及びシャノンのエントロピの性能評価の非限定的な例を示す図である。
【
図11C】本開示のいくつかの実施形態による、癌スコア及びシャノンのエントロピの性能評価の非限定的な例を示す図である。
【
図12】本開示のいくつかの実施形態による、癌の状態を予測する非限定的な例を示す図である。
【
図13A】本開示のいくつかの実施形態による、癌スコアの不規則変動の非限定的な例を示す図である。
【
図13B】本開示のいくつかの実施形態による、癌スコアの不規則変動の非限定的な例を示す図である。
【
図14】本開示のいくつかの実施形態による、癌患者に対する癌スコアの分布の非限定的な例を示す図である。
【発明を実施するための形態】
【0013】
ここで、本開示について、その一部を形成するとともに非限定的な例示として或る特定の例示の実施形態を示す添付図面を参照して、以下でより十分に説明する。しかしながら、主題は、種々の異なる形態で具現化することができ、したがって、本発明に包含され又は請求項に係る主題は、本明細書に示すいかなる例示の実施形態にも限定されるものとして解釈されるようには意図されておらず、例示の実施形態は単に例示的であるように提供される。同様に、請求項に係る又は本発明に包含される主題に対する妥当に広い範囲が意図されている。とりわけ、例えば、主題は、方法、デバイス、構成要素又はシステムとして具現化することができる。したがって、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア又は(ソフトウェア自体以外の)それらの任意の組合せの形態を取ることができる。したがって、以下の詳細な説明は、限定する意味で解釈されるように意図されていない。
【0014】
明細書及び特許請求の範囲を通して、用語は、文脈において明示的に述べられている意味を越えて示唆又は暗示されている微妙な差異を含む意味を有することができる。同様に、本明細書で用いる場合の「1つの実施形態において」という言い回しは、必ずしも同じ実施形態を指すものではなく、本明細書で用いる場合の「別の実施形態において」という言い回しは、必ずしも異なる実施形態を指すものではない。例えば、請求項に係る主題は、例示の実施形態の組合せを全体として又は一部含むように意図されている。
【0015】
概して、術語は、少なくとも一部には文脈における使用から理解することができる。例えば、本明細書で用いる場合の「及び」、「又は」又は「及び/又は」という用語は、少なくとも一部にはこうした用語が使用されている文脈によって決まる可能性がある種々の意味を含むことができる。通常、A、B又はC等のリストを関連付けるために使用される場合の「又は」は、ここでは包括的な意味で用いられるA、B及びCとともに、ここでは排他的な意味で用いられるA、B又はCを意味するように意図されている。さらに、少なくとも一部には文脈によって決まる、本明細書で用いる場合の「1つ以上」という用語は、単数の意味で任意の特徴、構造又は特性を述べるために使用することができ、又は、複数の意味で特徴、構造又は特性の組合せを述べるために使用することができる。同様に、「1つの(a)」、「1つの(an)」又は「その(the)」等の用語は、この場合もまた、少なくとも一部には文脈に応じて、単数の使用を伝えるか、又は複数の使用を伝えるように理解することができる。さらに、「~に基づいて」という用語は、必ずしも要素の排他的な組を伝えるように意図されるものではないと理解することができ、代わりに、この場合もまた少なくとも一部には文脈に応じて、必ずしも明示的に記載されていない追加の要素の存在を考慮することができる。
【0016】
本開示について、方法及びデバイスのブロック図及び動作説明図を参照して以下に記載する。ブロック図又は動作説明図の各ブロックと、ブロック図又は動作説明図のブロックの組合せとは、アナログ又はデジタルハードウェア及びコンピュータプログラム命令を用いて実装することができることが理解されよう。これらのコンピュータプログラム命令を、汎用コンピュータのプロセッサ(本明細書で詳述するようにその機能を変更するように)、専用プロセッサ、ASIC、又は他のプログラム可能なデータ処理装置に提供して、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行する命令が、ブロック図又は単数若しくは複数の動作ブロックで指定された機能/行為を実施するようにすることができる。いくつかの代替実施態様では、ブロックに示されている機能/行為は、動作説明図に示されている順序以外の順序で発生することができる。例えば、関係する機能/行為に応じて、連続して示されている2つのブロックを、実際には、実質的に同時に実行することができ、又は、それらのブロックを時には逆の順序で実行することができる。
【0017】
本開示の目的で、非一時的コンピュータ可読媒体(又は、コンピュータ可読記憶媒体)は、コンピュータデータを記憶し、このデータは、機械可読形式でコンピュータによって実行可能であるコンピュータプログラムコード(又は、コンピュータ実行可能命令)を含むことができる。限定ではなく例として、コンピュータ可読媒体は、データの有形の又は固定された記憶のためのコンピュータ可読記憶媒体、又はコードを含む信号の一時的な解釈のための通信媒体を含むことができる。本明細書で用いる場合のコンピュータ可読記憶媒体は、(信号とは対照的に)物理的な又は有形の記憶装置を指し、限定なしに、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータ等の情報の有形の記憶装置のための任意の方法又は技術で実装される、揮発性及び不揮発性、リムーバブル及び非リムーバブル媒体を含む。コンピュータ可読記憶媒体は、限定されないが、RAM、ROM、EPROM、EEPROM、フラッシュメモリ若しくは他の固体メモリ技術、CD-ROM、DVD若しくは他の光学記憶装置、クラウドストレージ、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は所望の情報又はデータ又は命令を有形に記憶するために使用することができるとともに、コンピュータ又はプロセッサがアクセスすることができる、他の任意の物理的又は材料の媒体を含む。
【0018】
本開示の目的で、「サーバ」という用語は、処理、データベース及び通信機能を提供するサーバポイントを指すように理解されるべきである。限定ではなく例として、「サーバ」という用語は、関連する通信及びデータ記憶及びデータベース機能を含む単一の物理的プロセッサを指すことができ、又は、プロセッサ及び関連するネットワーク及び記憶デバイスとともに、サーバによって提供されるサービスをサポートするオペレーティングソフトウェア及び1つ以上のデータベースシステム及びアプリケーションソフトウェアの、ネットワーク化又はクラスタ化された複合体を指すことができる。クラウドサーバが例である。
【0019】
本開示の目的で、「ネットワーク」は、デバイスを結合することができ、それにより、例えばワイヤレスネットワークを介して結合されたワイヤレスデバイス間を含む、サーバとクライアントデバイス又は他のタイプのデバイスとの間等で、通信を交換することができる、ネットワークを指すように理解されるべきである。ネットワークはまた、例えば、ネットワークアタッチトストレージ(NAS:network attached storage)、ストレージエリアネットワーク(SAN:storage area network)、コンテンツデリバリーネットワーク(CDN:content delivery network)又は他の形態のコンピュータ若しくは機械可読媒体等、マスストレージも含むことができる。ネットワークは、インターネット、1つ以上のローカルエリアネットワーク(LAN)、1つ以上の広域ネットワーク(WAN)、有線型接続、ワイヤレス型接続、セルラ又はそれらの任意の組合せを含むことができる。同様に、異なるアーキテクチャを採用することができるか又は異なるプロトコルに準拠するか若しくはそれと互換性のあり得るサブネットワークが、より大きいネットワーク内で相互運用することができる。
【0020】
本開示の目的で、「ワイヤレスネットワーク」は、クライアントデバイスをネットワークと結合するように理解されるべきである。ワイヤレスネットワークは、独立型アドホックネットワーク、メッシュネットワーク、ワイヤレスLAN(WLAN)ネットワーク、セルラネットワーク等を採用することができる。ワイヤレスネットワークは、Wi-Fi、ロングタームエボリューション(LTE:Long Term Evolution)、WLAN、ワイヤレスルータ(WR)メッシュ、又は第2世代、第3世代、第4世代若しくは第5世代(2G、3G、4G若しくは5G)セルラ技術、Bluetooth、802.11b/g/n等を含む、複数のネットワークアクセス技術を更に採用することができる。ネットワークアクセス技術は、例えば、様々な移動度を有するクライアントデバイス等のデバイスに対する広域カバレッジを可能にすることができる。
【0021】
要するに、ワイヤレスネットワークは、実質的に任意のタイプのワイヤレス通信機構を含むことができ、それにより、クライアントデバイス又はコンピューティングデバイス等のデバイス間、ネットワーク間又はネットワーク内等で、信号を通信することができる。
【0022】
コンピューティングデバイスは、有線又はワイヤレスネットワーク等を介して、信号を送信又は受信することができる可能性があり、又は、物理的メモリ状態としてのメモリ等において、信号を処理するか又は記憶することができる可能性があり、したがって、サーバとして動作することができる。したがって、サーバとして動作することができるデバイスとしては、例えば、専用ラック搭載サーバ、デスクトップコンピュータ、ラップトップコンピュータ、セットトップボックス、上述したデバイスの2つ以上の特徴等、様々な特徴を結合する統合型デバイス等を挙げることができる。
【0023】
ここで、図を参照して或る特定の実施形態についてより詳細に説明する。概して、
図1を参照すると、本開示の一実施形態によるシステム100が示されている。
図1は、本明細書で考察するシステム及び方法を実施することができる全体的な環境の構成要素を示す。本開示を実施するために全ての構成要素が必要ではない可能性があり、本開示の趣旨又は範囲から逸脱することなく、構成要素の配置及びタイプを変化させることができる。
【0024】
図示するように、
図1のシステム100はネットワーク104を含み、ネットワーク104は、上述したように、限定されないが、ワイヤレスネットワーク、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネット又はそれらの組合せを含むことができる。
【0025】
ネットワーク104は、デバイス(複数の場合もある)102及びその構成要素を別のネットワーク又はデバイスに接続するように構成することができる。ネットワーク104は、デバイス(複数の場合もある)102及びサーバ106~108に対するインフラストラクチャ指向接続を提供するために、独立型アドホックネットワーク等を更に重ねることができる種々のワイヤレスサブネットワークとして構成することができる。ネットワーク104は、1つの電子デバイスから別の電子デバイスに情報を通信する、任意の形態のコンピュータ可読媒体又はネットワークを採用することができる。
【0026】
システム100はデバイス(複数の場合もある)102も含み、それはクライアントデバイス(複数の場合もある)であり得る。クライアントデバイスは、例えば、デスクトップコンピュータ、又は、携帯電話、スマートフォン、ディスプレイページャ、無線周波数(RF)デバイス、赤外線(IR)デバイス、近距離無線通信(NFC)デバイス、携帯情報端末(PDA)、ハンドヘルドコンピュータ、タブレットコンピュータ、ファブレット、ラップトップコンピュータ、セットトップボックス、ウェアラブルコンピュータ、スマートウォッチ、上述したデバイスの特徴等、様々な特徴を結合する統合型又は分散デバイス等の、ポータブルデバイスを含むことができる。
【0027】
デバイス(複数の場合もある)102は、別のコンピューティングデバイスからコンテンツを受信するように構成されている少なくとも1つのクライアントアプリケーションも含むことができる。デバイス(複数の場合もある)102は、ネットワーク104を介して他のデバイス又はサーバと通信することができ、こうした通信は、メッセージを送信及び/又は受信すること、TCRデータを生成及び提供すること、TCRデータを検索、表示及び/又は共有すること、又は種々の他の形式の通信のうちの任意のものを含むことができる。デバイス102は、物理的メモリ状態としてのメモリ等において信号を処理又は記憶することができる可能性があり、したがって、サーバとして動作することができる。
【0028】
システム100は、コンテンツサーバ108、アプリケーション(又は「app」)サーバ106及び(本明細書で実施される処理のデータ記憶のための)データベース107等、種々のサーバも含む。
【0029】
appサーバ106及びコンテンツサーバ108は、任意のタイプ又は形式のコンテンツを、ネットワークを介して別のデバイスに提供及び/又は生成する構成を含むデバイスを含むことができる。appサーバ106及び/又はコンテンツサーバ108として動作することができるデバイスとしては、パーソナルコンピュータ、デスクトップコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースの又はプログラム可能な家庭用電化製品、ネットワークPC、サーバ等が挙げられる。サーバ106及び108は、サーバ106及び108によって提供されるコンテンツ及びサービスに関連する様々なタイプのデータを、関連するデータベース107に記憶することができる。
【0030】
いくつかの実施形態において、ユーザ(例えば、患者、医師、技師等)は、サーバ106及び108によって提供されるサービスにアクセスすることができる。これは、非限定的な例では、ユーザの様々なデバイス(複数の場合もある)102を使用するネットワーク104を介する、アプリケーションサーバ、認証サーバ、検索サーバ、交換サーバを含むことができる。
【0031】
したがって、appサーバ106は、例えば、アプリケーションデータ及びユーザプロファイル情報(例えば、例として後述するようなプロセス400から特定されるか又はプロセス400に依存する情報)を含む、様々なタイプのアプリケーション及びアプリケーション関連情報を記憶することができる。
【0032】
さらに、
図1は、サーバ106及び108をそれぞれ単一のコンピューティングデバイスとして示すが、本開示はそのように限定されない。例えば、1つ以上の別個のコンピューティングデバイスにわたって、サーバ106及び/又は108の1つ以上の機能を分散させることができる。さらに、1つの実施形態において、本開示の範囲から逸脱することなく、サーバ106及び/又は108を単一のコンピューティングデバイスに組み込むことができる。
【0033】
図2は、本明細書で考察するシステム及び方法を実施する構成要素を示すブロック図である。
図2は、TCRエンジン200、ネットワーク104及びデータベース107を含む。エンジン200は、専用マシン又はプロセッサとすることができ、アプリケーションサーバ、コンテンツサーバ、ウェブサーバ、サードパーティサーバ、ユーザのコンピューティングデバイス等、又はそれらの任意の組合せによってホストすることができる。
【0034】
いくつかの実施形態によれば、エンジン200は、デバイス(例えば、ユーザデバイス又はシステム/ウェブに接続されたサーバ/デバイス)で実行する独立型アプリケーションとして具現化することができる。いくつかの実施形態において、エンジン200は、デバイスにインストールされたアプリケーションとして機能することができ、いくつかの実施形態において、こうしたアプリケーションは、ネットワークを介してデバイスによってアクセスされるウェブベースアプリケーションであり得る。いくつかの実施形態において、エンジン200は、拡張スクリプト、プログラム又はアプリケーション(例えば、プラグイン又はエクステンション)として、例えば、患者関連データを統合するとともに共有するヘルスケアアプリケーション等、別のアプリケーションにインストールすることができる。
【0035】
データベース107は、任意のタイプのデータベース又はメモリとすることができ、ネットワーク上のサーバ(例えば、appサーバ106及びコンテンツサーバ108)又はユーザのデバイス(例えば、デバイス(複数の場合もある)102)に関連することができる。データベース107は、ユーザ、サービス、アプリケーション、コンテンツ等に関連するローカル情報及び/又はネットワーク情報に関連するデータ及びメタデータのデータセットを含む。こうした情報は、データベース107内で、独立して及び/又はリンクされた若しくは関連付けられたデータセットとして、記憶するとともにインデックス付けすることができる。本明細書で考察するように、データベース107におけるデータ(及びメタデータ)は、本開示の範囲から逸脱することなく、既知であるか既知となるかに関わらず、任意のタイプの情報及びタイプであり得ることが理解されるべきである。
【0036】
いくつかの実施形態によれば、データベース107は、ユーザのデータ、例えばユーザデータを記憶することができる。いくつかの実施形態によれば、記憶されるユーザデータは、限定されないが、例えば、患者の癌診断に関連する情報、患者の染色体情報、患者のDNA情報、患者の血液情報、患者人口統計学的情報、患者経歴情報等、又はそれらの何らかの組合せを含むことができる。
【0037】
データベース107におけるデータ(及びメタデータ)は、本開示の範囲から逸脱することなく、既知であるか又は既知となるかに関わらず、患者、医師、コンテンツ、デバイス、アプリケーション、サービス提供者、コンテンツ提供者に関連する任意のタイプの情報であり得ることが理解されるべきである。
【0038】
いくつかの実施形態において、データベース107に記憶されるデータは、例えば、256ビット暗号化を使用して暗号化して、データが非公開であるとともに1996年医療保険の相互運用性及び説明責任に関する法律(HIPPA:Health Insurance Portability and Accountability Act of 1996)に従って管理されるようにすることができる。
【0039】
データベース107は、データベース107内で、データ及びメタデータのリンクされたセットとして情報を記憶するとともにインデックス付けすることができ、そこでは、データ及びメタデータの関係は、n次元ベクトルとして記憶することができる。こうした記憶は、限定されないが、ハッシュ木、キュー、スタック、VList、又は他の任意のタイプの既知であるか又は既知となる動的メモリ割当技法又は技術を含む、任意の既知であるか又は既知となるベクトル又はアレイ記憶を通して、実現することができる。患者及び/又は医療提供者に対するベクトル情報を特定し、導出し、又は他の方法で特定するために、限定されないが、クラスタ解析、データマイニング、ベイジアンネットワーク分析、隠れマルコフモデル、人工ニューラルネットワーク分析、論理モデル及び/又は木分析等、任意の既知であるか又は既知となる計算分析技法又はアルゴリズムを適用することができることが理解されるべきである。
【0040】
図1を参照して上述したように、ネットワーク104は、限定されないが、ワイヤレスネットワーク、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネット又はそれらの組合せ等、任意のタイプのネットワークであり得る。ネットワーク315は、エンジン200と、記憶されたリソースのデータベース107との接続性を容易にする。実際に、
図2に示すように、エンジン200及びデータベース107は、こうしたデバイスとリソースとを接続し及び/又はそれらの間の通信を可能にする任意の既知であるか又は既知となる方法によって、直接接続することができる。
【0041】
本明細書における専用機能によってプログラムされたハードウェアを含むデバイスの主なプロセッサ、サーバ又は組合せは、便宜上エンジン200と称し、サンプルモジュール202、AIモジュール204、免疫レパートリモジュール206及びスコアリングモジュール208を含む。本明細書で考察するエンジン(複数の場合もある)及びモジュールは、考察するシステム及び方法の実施形態に追加の又はより少ないエンジン及び/又はモジュール(又はサブモジュール)が適用可能であり得るため、非網羅的であることが理解されるべきである。本開示の実施形態の範囲内の各モジュールの動作、構成及び機能並びにそれらの役割について、以下に説明する。
【0042】
本明細書に記載する原理は、多くの異なる形態で具現化することができる。腫瘍抗原に反応するT細胞は、癌免疫の中心的な伝達物質、及び免疫療法の重要な標的であるが、癌抗原の大部分が未知であるため、癌関連T細胞の実験的検出は依然として困難である。ディープ免疫レパートリシーケンシング(deep immune repertoire sequencing)(TCR-seq)技法の近年の開発は、癌患者の非侵襲的臨床診断、予後及び長期的な免疫モニタリングの新たな機会を切り開くことができるため、こうしたT細胞の同定に更なる重きを置いてきた。
【0043】
しかしながら、ヒト免疫レパートリは、種々の抗原に特異的なパブリック(public)T細胞、ナイーブT細胞及びメモリ/エフェクタT細胞を含み、この複雑性により、従来のシステムが解決できない難題が加わっている(例えばTCR-seqデータにおいて癌関連T細胞を同定することができないなど)。。
【0044】
癌患者のTCRレパートリに関する以前の研究では、あり得る予後因子としてレパートリデータの有用性を実証して、多様性及びクローン性等、単純な統計が、一定条件下での臨床転帰に関連することが報告された。しかしながら、免疫療法の急速な進歩とTCR-seqデータの迅速な蓄積とにより、基本的な免疫ゲノミクス研究と癌患者に有益な臨床応用とのギャップを埋めるために、更なる計算ツールが必要である。
【0045】
開示するシステム及び方法は、β鎖TCR-seqデータを使用する癌関連免疫レパートリのデノボ予測を提供する、アンサンブル機械学習ソフトウェア(TCRboostと称する)を実行する新規なフレームワークを通して、これらの必要なツールを提供する。
【0046】
いくつかの実施形態によれば、開示するフレームワークは、TRUST、すなわち、固形組織からプロファイリングされる未選択RNA-seq(リボ核酸配列)データを使用してTCR転写超可変CDR3領域(相補性決定領域3)を呼び出すオープンソースアルゴリズムを利用する。TRUSTは、当業者には理解されるように、シーケンシング深度の低いサンプルに対してもCDR3呼出しにおいて高感度を達成し、大きい腫瘍コホートへのその適用における有用性を実証した。
【0047】
本明細書で考察する実施形態の考察は、TRUSTアルゴリズム/ソフトウェアを利用することに焦点を当てるが、それは限定的であるものとして見られるべきではなく、その理由は、開示するフレームワークは、初期開示の範囲から逸脱することなく、任意の既知であるか又は既知となる機械学習又は人工知能(AI)技法、アルゴリズム又は機構を利用することができるためである。
【0048】
いくつかの実施形態によれば、TRUSTアルゴリズムは、所定数(例えば、32)の癌タイプを網羅する一組(例えば、10000)のTCGA(The Cancer Genome Atlas:癌ゲノムアトラス)腫瘍サンプルを解析するために実行され、その結果、複数の非パブリック完全生産的βCDR3配列(例えば、43000の非パブリック完全生産的βCDR3配列)が収集/特定される。これについては、
図3A及び
図4を参照してより詳細に後述する。
【0049】
いくつかの実施形態によれば、TRUSTに呼び出されたCDR3は、拡張したクローン型(clonotype:クロノタイプ)に富み、したがって、腫瘍関連である可能性が高い。さらに、βCDR3は、種々の癌タイプから来るため、いくつかの癌抗原に向かってバイアスされる可能性が低い。
【0050】
図7及び
図8を参照すると、
図7は、12~16の範囲の長さを有する癌関連CDR3又は非癌関連CDR3の間の配列保存パターンを示し、そこでは、保存パターンに対して、各カテゴリに対するCDR3アミノ酸配列が解析されている。
【0051】
図8は、非癌TCRからの著しい相違を示す癌関連TCRの生化学的特徴を示す。長さLのCDR3に対して、癌関連TCRと非癌関連TCRとの間で、544×(L-5)の特徴を比較し、両側ウィルコクソン順位和検定(two-sided Wilcoxon rank sum test)を使用して統計的有意性を評価した。対照として、癌関連TCRを2つのグループにランダムに分割し、それらの間で、各特徴に対するp値を推定した。分位-分位(Q-Q)プロット(-log値)において、癌対非癌p値を癌対癌p値と比較した。そこでは、全てのCDR3長さに対して一貫して、前者が後者よりも著しく高い。
【0052】
したがって、癌CDR3又は非癌CDR3の間の配列保存パターンにおいて明白な差はないが(
図7)、アミノ酸インデックスの著しい差は観察され(
図8)、これは、癌関連TCRに対して特徴的な生化学的シグネチャの証拠となる。
【0053】
したがって、TCGAデータから導出されるβCDR3配列は、癌関連TCRに対する有効な訓練データセットとしての役割を果たすことができる。
【0054】
いくつかの実施形態によれば、フレームワークは、例えば、適応的ブースティング(Adaptive boosting)(AdaBoost)等の機械学習メタアルゴリズムを適用する。当業者には理解されるように、AdaBoostは、モデルの予測力を向上させることが知られている特徴のみを選択して訓練し、それにより実行時間を短縮させながら次元数を削減することによって、AIシステムの分類器を訓練し且つ実行する速度を低下させる。
【0055】
本明細書で考察するいくつかの実施形態の考察は、AdaBoostの利用に焦点を当てるが、それは限定的であるものとして見られるべきではなく、その理由は、開示するフレームワークは、初期開示の範囲から逸脱することなく、任意の既知であるか又は既知となる機械学習又は人工知能(AI)技法、アルゴリズム又は機構を利用することができるためである。すなわち、(例えば、
図3A及び
図4を参照して)より詳細に後述するように、AdaBoostに加えて又はAdaBoostの代わりに、限定されないが、人工ニューラルネットワーク(ANN)、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)等、任意の既知であるか又は既知となるタイプ又は形式の機械学習/AIを利用して、T細胞、血液又は腫瘍のサンプル/タイプを同様の方法で解析することができる。
【0056】
いくつかの実施形態によれば、AdaBoostは、非癌関連TCRから癌関連TCRを識別するようにアンサンブル木分類器を訓練するように適用される。いくつかの実施形態において、この適用は、長さ=12、13、14、15及び16のCDR3に対して別個に発生する。交差検証を用いて、腫瘍反応性CDR3を予測する分類器の性能を評価した。
【0057】
ROC(受信者動作曲線)下の面積(AUROC)によって測定されるように、予測力は、CDR3長さ=13(AUROC=0.71)の場合が最高である。これを
図9に示し、そこでは、異なる長さの個々の癌関連CDR3に対して予測力を測定するROC曲線が示されている。4分割交差検証解析において、テストデータに各CDR3長さに対するアンサンブル木分類器を適用した。各CDR3に対して、分類器は、それが癌関連である確率を予測した。確率を連続パラメータとして使用して、ROC曲線を生成し、図ではAUROCがラベル付けされている。最高分類力を有する特徴が、CDR3ループにおける各アミノ酸位置に表示されており、(
図3Bに示し且つ後述するように)-6位置が最大数のヒットを有する。
【0058】
選択されたTCR/pMHC構造の解析により、この位置が、抗原とMHC-Iα1ヘリックスとTCRα鎖との交差点にあることが分かる。-6位置Cαの座標は、(HLA-A
*02:01結合抗原及びT細胞受容体を使用して解析を実施した、
図10に示すように)3D空間において最低変動を有し、Cαの構造的保存を示す。これらの結果により、訓練されたAdaBoost分類器(及び/又はディープニューラル分類器)が、TCR/pMHC相互作用において重要である可能性のある生化学的シグネチャを捕捉することが分かる。
【0059】
所与のTCRレパートリデータに対して、最も豊富なクローン型が高特異的クラスタに分類される。そして、クラスタリングされたCDR3のそれぞれに木分類器が適用され、癌関連である確率が予測される。結果は、0~1の範囲の癌スコアに統合される。シャノンのエントロピとは異なり、開示する手法は、シーケンシング深度に対して略不変であり、癌スコア推定を異なる研究の間で直接比較可能にする。これを
図11Aに示し、
図11Aは、癌スコアが可変シーケンシング深度に対してロバストであることを示すサブサンプリング解析の結果を示し、そこでは、エントロピは深度が低くなるに従い単調に低下する。
【0060】
開示するフレームワークの精度及び効率を示す非限定的な例として、
図6の表に示すように、16の独立したパブリックTCR-seqサンプルコホートを解析して、TCRboostの性能を系統的に評価した。
【0061】
図6は、訓練及びテストの目的で使用されるデータセットの概要を提供する。訓練データは、TCGAサンプルの腫瘍RNA-seqデータから抽出されたTCRと、文献からの非癌抗原に特異的なT細胞とから導出した。卵巣癌コホートに対してサンプルサイズ及びパブメド(Pubmed)IDに
*がラベル付けされている、パブリックドメインにおける16のサンプルコホートから来るデータをテストして、5人の患者からの腫瘍に対して、マルチセクションサンプリングを実施し、各TILサンプルを独立した観察結果として使用した。
【0062】
非癌患者における癌スコアの挙動を探求するために、主要な診断された疾患のない健康な提供者のコホートに対してTCRboostを適用し、このコホートの癌スコアをベースラインとして使用する。慢性HCMV(ヒトサイトメガロウイルス)感染、黄熱ウイルスワクチン接種、関節リウマチ及び多発性硬化症を含む、非癌状態の4のコホートからの末梢血単核細胞(PBMC)サンプルを利用した。
【0063】
図5Aに示すように、上記コホートのいずれの癌スコアも、FDR=0.01でベースラインからの有意な偏差を示さなかった。
図5Aは、箱ひげ図で表示された種々の疾患及び組織タイプにわたる癌スコア分布を示し、元のデータは透明な赤色点として重ねられている。x軸ラベルにおける括弧内の数字は、各コホートに対するサンプルサイズである。各コホートと健康な提供者のスコアとの間で、両側ウィルコクソン順位和検定を実施し、各箱の最上部に、ベンジャミニ・ホッホバーグ(Benjamini-Hochberg)補正されたFDRレベルを表示した。
【0064】
次いで、乳癌、脳腫瘍、卵巣癌、膵癌、膀胱癌、腎臓癌、大腸癌、非小細胞肺癌及びメラノーマ(melanoma:悪性黒色腫)を含む、種々の癌タイプの患者のPBMC又は腫瘍浸潤リンパ球(TIL:tumor-infiltrating T lymphocyte)レパートリに、TCRboostを適用した。サンプルサイズが小さいことに起因する腎臓癌と、T細胞浸潤が限られるとともに脳組織内の抗原提示が低減することに起因する可能性が高い膠芽腫(GBM)とを除き、大部分のコホートの癌スコアは、(
図5Aに示すように)健康な提供者よりも著しく高い。TILレパートリに対する癌スコアがPBMCに対する癌スコアよりも概して高いことは、恐らくは癌関連T細胞がTILに富むため、明らかである。これらの結果により、TCRboostが予測したスコアが、癌サンプルにおいて特に高く、健康な個人から複数の癌タイプの患者を識別することができることが示された。
【0065】
したがって、特定された癌スコアは、癌の状態に対する単一の予測因子であり得る。
【0066】
非限定的な例として、各癌コホートに対して、スコアを健康な提供者からのスコアと混合して、
図5Bに示すように感度及び特異度を測定するためのROC曲線を生成した。
図5Bは、それぞれTILサンプル(左)及びPBMCサンプル(右)に対する、癌の状態に対して単一の変数として癌スコアの予測力を測定するROC曲線を示す。両方の組織タイプに対して、健康な提供者のPBMCレパートリを対照として使用した。図の凡例の括弧内に、各コホートに対するROC曲線下の面積(AUROC)をラベル付けした。肺癌(P)は、原発性肺腫瘍であり、肺癌(B)は、肺腫瘍脳転移である。
【0067】
TILサンプルの場合、癌スコアは、十分なサンプルサイズ(n≧3)の全てのコホートに対して、略完璧な予測力(AUROC≧0.95)に達した。PBMCサンプルの場合、予測力は、乳癌、膵癌及び卵巣癌に対して高く、メラノーマ及び膀胱癌に対して中位であり、GBMに対して低い。重要なことには、上記解析における乳癌サンプルは2の早期乳癌コホートから来たものであり、0.99(99%)のAUROCを観察することができる。サブサンプリングの後、エントロピもまた、健康な提供者から早期乳癌を識別することができるが、
図11B及び
図11Cに示すように、予測力は実質的に悪くなる(AUROC=0.79)。
【0068】
図11Bは、健康な提供者からよりも著しく低い、早期乳癌患者のPBMCレパートリサンプルから計算されたエントロピを示す。比較の前に、両方のコホートを10000リードまでダウンサンプリングした。
図11Cは、早期癌に対する予測因子としてのエントロピの性能が、開示した癌スコアよりも実質的に低下することを示す。
【0069】
0.75のカットオフにおいて、癌スコアは、80.0%感度及び81.4%特異度に達する。この性能は、多くの既存の癌スクリーニング手法よりも優れている。この解析は、健康な提供者からのPBMCサンプルの別の対照コホートを使用して繰り返すことができ、
図12に示すように、非常に類似するROCを観察することができる。
【0070】
したがって、高い予測力に基づき、癌スコアを使用して、癌関連血液TCRレパートリを検出することができる。
【0071】
開示する適応免疫レパートリは、正確な癌スコアを提供する動的システムである。免疫レパートリの不規則変動にも関わらず、健康な提供者は、癌患者ほど高い癌スコアを有していない(例えば、開示するシステムは、癌診断に対する偽陽性の変化を回避する)。
【0072】
例えば、健康な提供者からのPBMCサンプルの癌スコアの不規則変動を、1年間にわたって評価した。検査した3人のうち、(各人の時点から計算された標準偏差を示す棒グラフである、
図13Bに示すように)全ての人に対して0.04未満の標準偏差で、(
図13Aに示すような)スコアの比較的小さい長期の変化が観察された。健康な提供者に対する平均スコアは0.71であり、早期乳癌患者に対する平均スコアは0.79であり、これは、健康な提供者よりも2標準偏差分高い。したがって、健康な提供者が、免疫レパートリの不規則変動に起因して癌患者と同程度に高い癌スコアを有する可能性は低く、その逆も同様である。
【0073】
癌免疫療法反応の予測が、現時点では非常に臨床的に重要である。
図5Cは、イピリムマブで処置されたBRAF変異を有するメラノーマ患者の2つのグループの間の有意な生存差を示す、カプラン・マイヤー(Kaplan-Meier)曲線を示す。転帰がより良好なグループは、そのグループの処置前PBMCサンプルにおいてより低い癌スコアを有する。患者の年齢及びシャノンのエントロピに対して制御されたコックス比例ハザードモデル(Cox proportional hazard model)を使用して、P値を評価した。年齢又はエントロピに対するP値はごくわずかであった。
【0074】
図5Cは、免疫チェックポイント阻害剤(ICB)で処置された2の患者コホートからのTCR-seqサンプルの特定された癌スコアを示す。興味深いことに、イピリムマブ、すなわち抗CTLA4 mAb(モノクローナル抗体)で処置されたBRAF変異を有するメラノーマ患者の場合、処置前PBMCサンプルから導出された癌スコアが比較的高いことにより、より悪い転帰が大いに予測される。第2コホートを解析し、イピリムマブで処置された転移前立腺癌患者に対して調査した。
【0075】
処置の第1周期後のPBMCサンプルにおけるCD8+T細胞に対する癌スコアは、(
図14に示すように)発症者(progressors:進行者)よりも応答者の方が著しく高い。これらの結果は、PBMC癌スコアが、抗CTLA4免疫療法において患者転帰をモニタリングするのに役立つことができることを示唆している。
【0076】
したがって、要するに、本開示は、患者HLA対立形質とともに腫瘍抗原とは無関係である、腫瘍ゲノミクスシーケンシングデータから癌関連TCRの新規な生化学的シグネチャの検出を可能にする。このことは、種々の癌タイプのTCR-seqサンプルコホートにおいて再現可能に観察される。TCRboostは、レパートリに多くのTCRを集めて、癌患者に対して著しく高く且つ不規則変動に対してロバストである癌スコアを推定し、それを非侵襲的診断バイオマーカに対する合理的な候補とする。
【0077】
さらに、癌スコアは免疫系から予測されるため、本開示は、癌バイオマーカ、イメージングスキャン又は循環腫瘍細胞(CTC)/循環腫瘍DNA(ctDNA)に基づく最新の検出方法に関係しない。したがって、癌スコアは、経時的にTCRレパートリの不規則変動に対してロバストな予測を提供し(例えば、そうした不規則変動に対して有効であるとともに、そうした不規則変動に耐え且つそれを考慮することができ)、それにより、患者が癌を有するか否かと、患者の癌の状態(例えば、癌の程度)とを正確に示すことができる。
【0078】
したがって、既存の方法に対する癌スコアのあり得る使用は、癌検出精度を向上させるとともに臨床的意思決定を改善することが予期される。或る特定の進行期癌から導出される癌スコアは、ICBに対する患者の反応に関連するため、それをこれらの癌タイプの臨床的転帰の予測を改善するためにも使用することができる。当業者であれば、臨床研究における迅速に蓄積するTCRレパートリシーケンシングデータにより、癌診断及び免疫療法予後においてTCRboostの広範な有用性を理解及び予想するであろう。
【0079】
図3Aを参照すると、TCRboost方法の一実施形態の概略図が提供されている。具体的には、
図3Aは、本明細書で考察するTCRboost処理の全体的なワークフローを示し、
図4は、(より詳細に後述する)各ステップの詳細を提供する。
【0080】
いくつかの実施形態において、上述したように、CDR3は、未選択腫瘍RNA-seqデータから訓練される(ステップ302)か又は、様々な非癌抗原に特異的な実験的に特定されたTCRから訓練される(ステップ304)。こうした訓練は、いくつかの実施形態により、TRUSTアルゴリズムを介して実施される(ステップ306)。したがって、ステップ302により、癌関連CDR3が特定され(ステップ308)、ステップ304により、非癌CDR3が特定される(ステップ310)。CDR3領域に対する特徴は、各注目位置に対するアミノ酸インデックスとして規定され(ステップ312)、その後、上述し且つより詳細に後述するように、AdaBoostアルゴリズム(又は、ディープニューラルネットワークモデルを含む他の教師あり機械学習法)を使用して、異なる長さのCDR3に対して、アンサンブル木分類器が訓練される(ステップ314~316)。各TCR-seqサンプルが前処理され(ステップ318)、免疫類似性測定(iSMART:immuno-similarly measurement)によってクラスタリングされて(ステップ320)抗原特異的グループが特定される(ステップ322)。次いで、グループ化されたCDR3に、(例えば、ステップ314で訓練された)訓練された木分類器が適用されて、免疫レパートリが癌関連である確率に関連する癌スコアが評価される(ステップ324)。
【0081】
iSmartは、CDR3配列のペアワイズアライメントを実施することと、その後、そのアライメントに基づいてスコアを特定することとを含む。次いで、「高」アライメントスコア(例えば、所定閾値を超えるスコア)に基づき、CDR3配列の連結マトリックスを構築し、そこでは、CDR3クラスタがその連結マトリックスに基づいて特定及び形成される。したがって、iSmart(及び後述する同様のアルゴリズム)は、TCRを抗原特異的クラスタにグループ化することができる。
【0082】
当業者であれば、
図3Aにおける本明細書の開示はiSMARTの使用について言及するが、それは限定的であるものとして見られるべきではなく、その理由は、開示するシステム及び方法の範囲から逸脱することなく、開示するフレームワークにより、任意の既知であるか又は既知となる形式のマルコフ、準マルコフ決定又は強化学習(RL)プロセス、アルゴリズム、技法を採用することができるためである、ということが理解されるであろう。
【0083】
図3Bは、長さが12~16のアミノ酸の範囲である、CDR3配列の場所を示す。各長さに対して、分類のための最も重要な特徴が選択され、(
図2に関連して後述するように)対応する場所に表示された。各場所は、影付き正方形によって表され、影のない(例えば、非影付き)は、解析に対象として含まれない位置を示し、薄い灰色は解析されたが重要な特徴が見つからなかった位置を示し、濃い灰色は分類に重要な特徴を有する場所を示す。
【0084】
図4を参照すると、プロセス400は、本明細書で考察するTCRboost法の詳細な図を提供する。いくつかの実施形態によれば、プロセス400は、疾患の早期であっても高精度で実施することができる、末梢免疫レパートリのシグネチャから癌シグナルを検出することができる、免疫ベース癌検出方法を提供する。患者の末梢血TCRレパートリに基づいて癌の状態を予測することができる新規な機械学習アルゴリズムを通して具現化される、改善されたフレームワークが採用され、そこでは、白血球のゲノムDNAのディープTCRシーケンシングが実施され、それにより、腫瘍抗原とは無関係な癌関連TCRの検出(予測又は特定)が可能になる。これにより、種々の疾患にわたり早期癌及び進行期癌の両方に対してロバストなバイオマーカが提供される。
【0085】
図4のプロセス400のいくつかの実施形態によれば、エンジン200のサンプルモジュール202により、プロセス400のステップ402が実施され、AIモジュール204によりステップ404~408が実施され、免疫レパートリモジュール206によりステップ410が実施され、スコアリングモジュール208によりステップ412が実施される。
【0086】
プロセス400はステップ402で開始し、そこでは、
図3Aのステップ302~304に関連して上述したように、一組のサンプルデータが特定される。いくつかの実施形態において、腫瘍遺伝子発現に対してMapSpliceによってhg19ヒトリファレンスゲノムにアライメントされたTCGAレベル2BAMファイルを、GDCレガシアーカイブからダウンロードし、TRUSTによって処理して、TCR CDR3配列を抽出することができる。他の検証された手法を使用して、真陽性癌関連TCRを生成することもできる。いくつかの実施形態において、非癌抗原に特異的なTCRレパートリもまた、例えばVDJdbから、又は、パブリックドメインの健康な提供者の血液TCR-seqデータから、ダウンロードすることができる。いくつかの実施形態において、AdaptiveBiotechnology ImmuneAccessオンラインデータベースから、14の研究コホート(
図4を参照)からTCRレパートリシーケンシングデータをダウンロードすることができる。
【0087】
ステップ404において、
図3Aのステップ306~310に関連して上述したように、これらの特定されたサンプルに対してTRUSTアルゴリズムが適用されて、癌CDR3及び非癌CDR3が特定される。いくつかの実施形態によれば、可変遺伝子からの最後のシステイン(C)と、連結遺伝子におけるFGXGモチーフにおけるフェニルアラニン(F)とで開始する完全な配列に対して、TCGA導出CDR3をフィルタリングすることができる。CとFとの間の終止コドンを含む非生産的配列を排除することができる。非癌の人に同様に見出されるパブリックTCRを除去するために、PBMCレパートリサンプルのコホートからの最も豊富なCDR3(例えば、閾値を満足させるCDR3、例えば666人の健康な又はHCMV感染患者からの上位5000)を収集し、セットからフィルタリングにより除去することができる。結果としてのCDR3配列(例えば、43000のCDR3)は、非パブリックであるとともに癌関連であると期待される。
【0088】
ステップ406において、
図3Aのステップ312に関連して上述したように、一組のアミノ酸インデックスが特定される。現行のアミノ酸インデックスデータベースは、544の生化学インデックスを記録しており、それを、アミノ酸の機能的及び構造的影響の代理として使用することができる。上記非パブリック癌関連データから、12~16アミノ酸(AA)の長さLを有するCDR3配列が選択され、最初の2つのAA及び最後の3つのAAが、pMHC複合体への構造的接触なしに除去される。全体の特徴セットは、各情報提供AAに対する和集合であり、例えば、特徴の数は(L-5)×544である。n
Lを使用して、(TCGAデータから導出される)癌CDR3に対する長さLを有するCDR3の数が示され、k
Lを使用して、(VDJdbからの)非癌CDR3に対するCDR3の数が示される。
【0089】
ステップ408において、
図3Aのステップ314に関連して上述したように、AIアルゴリズム(AdaBoost又はディープラーニング)が訓練される。いくつかの実施形態によれば、(ステップ202からの)両母集団からの配列の全ての最初の50%がサブサンプリングされ、データの残りの半分は、交差検証に使用される。各特徴に対して、0.5n
Lの癌観察結果が、0.5k
Lの非癌観察結果と比較される。倍率変化(非癌に対する癌)が1.1よりも小さかった場合、この特徴は除去された。Sが残された特徴の数を示すものとする。
【0090】
上記設定において、合計0.5×(nL+kL)のCDR3配列(サンプル)と、S個の特徴とが、既知のサンプルラベルとともにある(0.5nLにラベル1、0.5kLにラベル-1)。Yが、長さ0.5×(nL+kL)のサンプルラベルベクトルを示し、Xが、0.5×(nL+kL)×Sの寸法の特徴マトリックスを示すものとする。この解析に基づいて、個々の特徴に対する予測力が弱いと判断される。
【0091】
したがって、いくつかの実施形態によれば、上述したように、弱い分類器をより強い分類器に統合することができるアンサンブル学習手法である、AdaBoostを適用することができる。
【0092】
AdaBoost実施形態の下で、AIモデル204訓練は、50ラウンドのブースティング及び10の木深さで、RパッケージJOUSBoostにおいてAdaBoost()関数を使用して完了する。選択されるパラメータは、交差検証(CV)誤差を最小限にしながら訓練周期(ラウンド)の数と分類木の複雑性(深さ)とを最小限にする基準に基づく。CV誤差は、(TLとして示す)CDR3長さLに対する訓練された分類器を既知のクラスラベルを有する独立した検証データに適用することによって計算される。
【0093】
例えば、10回のサブサンプリングラウンドを実施することができ、そこでは、最良の交差検証値が選択される。L=14を除くL=12、13、15及び16に対して、上記手順が繰り返され、そこでは、4分割交差検証が適用され、その理由は、この設定がより小さいCV誤差を達成するためである。したがって、いくつかの実施形態において、ステップ408は、T12~16として示される、この例によれば合計5つの分類器の訓練を含むことができる。
【0094】
いくつかの実施形態によれば、開示するフレームワークは、AdaBoostを利用するのではなく、ディープニューラルネットワークとしてAIモジュール204を訓練することができる。いくつかの実施形態によれば、例えば、開示するディープラーニング方法は、CNNを採用する(しかしながら、それは、本開示をCNNの使用のみに限定するように解釈されるべきではなく、その理由は、任意の既知であるか又は既知となるディープラーニングアーキテクチャ又はアルゴリズムが、本明細書で考察する開示するシステム及び方法に適用可能であるためである)。CNNは、当業者であれば理解されるように、畳み込み層、正規化線形ユニット(ReLU)層、プーリング層、ドロップアウト層及び損失層を含むことができる複数の層からなる。CNNは、CDR3発見、認識及び類似性に使用される場合、分類器(複数の場合もある)を訓練するために利用することができる小さい部分のサンプル/訓練データを解析することにより、ディープ特徴収集物の複数の階層を生成する。
【0095】
したがって、これらの実施形態によれば、ステップ408(及び
図3Aのステップ314)を介するニューラルネットワーク実施態様は、上述したように、メタアルゴリズムと同様の方法で、ディープビリーフネットワーク(deep belief network)の処理力及びリソース消費量を活用する、より効率的な、正確なシステムを提供することができる。したがって、例えば、当業者であれば、木分類器T
12~16を訓練するためにニューラルネットワークを利用することができることを理解するであろう。
【0096】
ステップ410では、
図3Aのステップ318~322に関連して上述したように、免疫レパートリデータが前処理される。免疫レパートリシーケンシングデータは、通常、CDR3領域のDNA及びアミノ酸配列、TCR可変遺伝子、連結遺伝子、及び時には或る特定の呼出し元によって解決される多様性遺伝子と、データにおける(CDR3等の)T細胞クローン型の頻度とを含有する。いくつかの実施形態において、TCR-seqデータの全てが、AdaptiveBiotechnology immuneAnalyzerによって生成され、そうしたデータは、こうした処理によって生成されるフォーマットの前処理ステップに焦点が当てられているが、当業者であれば、他のファイルフォーマットに対してこの根拠が同様に同じであることが理解されよう。
【0097】
いくつかの実施形態において、CDR3 AA配列に対して以下のタイプの低品質呼出しを除去することができる。すなわち、1)配列長が10未満又は24超である、2)配列が非標準文字(*、+、X)を含む、3)配列が、Cから開始していないか、又はFで終了していない、4)可変遺伝子が解決されていない。低品質呼出しの除去の後、残りのCDR3は、クローン型の頻度により漸減して順序付けされ、クラスタリング解析に対して以下の列、すなわち、CDR3アミノ酸、可変遺伝子及びクローン型頻度が選択される。各レパートリデータに対して閾値を満足させる所定数の配列が選択される(例えば、上位10000の配列が選択される)。データが10000未満のCDR3を含む場合、全てが選択される。カットオフは、低頻度のナイーブ細胞を排除しながら、エフェクタ/メモリ細胞である可能性が高い非常に豊富なクローン型の大部分を含むように設定される。ナイーブT細胞は、健康な人の腫瘍特異的(非活性化)である可能性があるため、過剰な数のナイーブ細胞を含むことにより、雑音レベルが増大することになる。
【0098】
iSMART、以前開発されたソフトウェアソリューションは、CDR3を、それらの配列類似性に基づいてクラスタリングすることにより、抗原特異的T細胞グループを検出するように構成されている。抗原特異性は、同様のCDR3モチーフを有するT細胞は同じ抗原を認識する可能性が高いという最近の研究に基づく。iSMARTは、異なる抗原に対して特異的なTCR配列を使用してベンチマークテストされた先行する方法よりも高い特異性を有することが示されている。したがって、iSMARTは、前処理されたTCRレパートリシーケンシングデータに適用される。クラスタリングは、CDR3配列と可変遺伝子情報との両方を使用して、高い特異性を確保する。したがって、結果としてのCDR3クラスタのそれぞれが、一意の抗原に対して反応することが期待される。
【0099】
ステップ412において、
図3Aのステップ324において上述したように、癌スコアの特定(又は計算)が実施される。いくつかの実施形態によれば、クラスタリングされたCDR3に対して、木分類器T
12~16が適用される。長さ12≦L≦16を有する各TCRに対して、上記ステップから導出された長さ特定の木分類器を使用して、0~1の範囲のスコアが返される。このスコアは、TCRが癌特異的である確率である。各長さに対して、同じ長さを有するCDR3の全ての平均を取ることにより、スコアが総計される。その結果、5つのスコアが得られ、最後の癌スコアが5つの値の平均である。
【0100】
いくつかの非限定的な実施形態による開示したフレームワークの更なる実施態様
いくつかの実施形態によれば、TCRクラスタが、同一の配列を有するいくつかのCDR3を含む可能性がある。これは、同じ抗原を中和するために異なるTCRが選択されるタンパク質に対するDNAの縮退に起因する。そうしたTCRは、異なるTCRサンプルとして依然として計数される。
【0101】
さらに、異なるクラスタは、可変サイズ、例えばTCRの数を有する可能性がある。したがって、各TCRに対するスコアを、いずれのクラスタが属しているかに関わらず計算することができる。
【0102】
いくつかの実施形態において、レパートリが十分なデータを含有しない場合、例えば、或る特定の長さのクラスタリングされたCDR3が欠けている場合、それは、最終スコアにおいてNAとして報告される。この状況は、通常、いくつかのT細胞がシーケンシングのために収集されるTILサンプルに対して発生する。深いカバレッジを有するPBMCレパートリの場合、通常、推定を行うために十分なデータがある。
【0103】
分類木からの代表的な特徴の選択
いくつかの実施形態によれば、各分類器は、所定数(例えば、50)の分類及び回帰の木(CART:classification and regression trees)を含む。各CARTは、各ノードに或る特定の特徴の訓練された閾値がある2進決定木である。分類においていずれの特徴(複数の場合もある)が重要であるかを評価するために、分類誤差の尺度である逸脱度の減少が利用される。例えば、各木に対して、逸脱度の減少が0.002以上の特徴が選択される。50の木から選択された特徴の全てをプールして、各再発する特徴に対する頻度を計数することができる。例えば、上位10の頻度計数を有する特徴が、
図1Bにおいて表示されるために選択される。
【0104】
TCR/pMHCタンパク質複合体構造データの解析
2018年9月12日にrcsb.orgからHLA-A2対立遺伝子を有する構造に対する128のpdbファイルをダウンロードした。HLA-A2対立遺伝子は、PDBにおいて最大の登録量を有するため、これを解析した。TCR及び抗原ペプチドの両方を含有しない構造を除去した。30の残りの構造のそれぞれに対して、原点としてHLA重鎖の151番目の位置におけるヒスチジンのCαの座標を使用した。この解析は、HLA重鎖の構造が、異なるTCR及び抗原ペプチドに結合しているときに安定するという実験的観察に基づく。CDR3配列の端部に位置するフェニルアラニンに対して-4、-5、-6、-7、-8、-9及び-10の位置に位置するβ鎖CDR3アミノ酸に対するCα座標を特定した。構造の全てにわたり、原点とCDR3 Cα位置のそれぞれとの間のユークリッド距離を計算した。次いで、それらの位置のそれぞれに対する距離の標準偏差を計算し、表示した。Chimera及びPyMolを使用して、β鎖CDR3領域の-6位置に対する選択されたPDB構造の視覚化を実施した。
【0105】
TCRレパートリデータ及びROC解析からの癌スコアの後処理
TCR-seqサンプルの各コホートは異なるように設計されているため、比較可能性を最大限にするようにPBMC及びTILサンプルを選択するコンセンサス手法を適用した。
図4におけるように、黄熱ウイルスに対するEmerson他、2015年コホートは、健康な有志におけるワクチン接種後1日目及び14日目のサンプルを有し、上記有志が健康な提供者とは更に異なるように予期されるため、14日目のサンプルを使用した。関節リウマチ及び多発硬化症の患者に対して、全血のPBMCサンプルを使用する。
【0106】
Page他、2016年、Tumeh他、2014年、Robert他、2014年、及びSnyder他、2017年(
図4から)を含む長期サンプリングによる癌コホートに対して、前処理、又は前処理サンプルが入手可能でない場合は処理後の第1周期のいずれかを受けたTIL又はPBMCサンプルを使用した。解析において、2の早期乳癌コホートからのサンプルを併合した(Page他、2016年及びBeausang他、2017年)。
【0107】
各罹患したコホートと健康な提供者との癌スコア値の中央値差の計算を実施し、ウィルコクソン順位和検定を使用して、評価された統計的有意性特定を実施し、ベンジャミニ・ホッホバーグ(BH)手順を介して、有意性に対してカットオフ偽発見率(FDR)=0.01で、補正されたp値を使用した。癌スコアの予測力を評価するために、サンプルサイズが所定数以上(例えば、n≧5)である各コホートに対するスコアを、健康な提供者とともにプールし、RパッケージpROCにおける関数roc()を使用して、曲線下の面積を計算するとともにROCプロットを作成した。
【0108】
シャノンのエントロピを用いる癌の状態のサブサンプリング及び予測
癌スコアの推定及びシャノンのエントロピに対するリードデプス(read depth)の影響を探求するために、in silicoサブサンプリング解析を行った。いくつかの実施形態において、666人の健康な又はHCMV感染した人から100人の人のランダムサンプリングを実施した。各TCR-seqデータに対して、非生産的な、低品質のCDR3呼出しを除去するために上述したものと同じ前処理手順を実施した。フィルタリングされたデータは、各CDR3iに対してリードカウント(ni)を含み、ni回CDR3iを繰り返すことにより、新たなデータセットGを解釈することができる。
【0109】
Gの行の数は、フィルタリングされたデータにおけるリードカウントの和である。Gの行の20%、30%、40%、50%、60%、70%、80%及び90%のサンプリングを実施することができ、各行はシーケンシングリードを表す。すなわち、TCRレパートリシーケンシングにおいて、1つのリードは、1つのCDR3領域を覆うのに十分である。したがって、各クローン型に対するCDR3カウントとしてのシーケンシングリードカウントを使用することができる。サブサンプリングされたデータのそれぞれに対して、各CDR3の頻度の再計算を実施することができ、それにより、シーケンシング深度が低減したより小さいTCR-seqデータセットが生成されることになる。このデータセットを使用してシャノンのエントロピを推定し、一方で、癌スコアの推定のために上位の閾値を満足させる数(例えば、上位10000)の大部分の頻度のクローン型を選択することができる。次いで、
図9Aにおける箱ひげ図として、(サンプリング比で表される)各シーケンシング深度間のスコアと全データセットのスコアとの差が表示される。
【0110】
シャノンのエントロピは、癌患者に関連する免疫レパートリと健康な人からの免疫レパートリとを識別する、幾分かの検定力も有する。したがって、早期癌発症に対する予測因子としてエントロピも使用することができるか否かに関して検査した。エントロピはシーケンシング深度によって系統的にバイアスがかけられるため、上記方法を使用して早期乳癌及び健康な提供者に対して、全てのPBMC TCRレパートリデータを10000リードまでダウンサンプリングした。ダウンサンプリングされたファイルのそれぞれのエントロピを計算し、乳癌と健康な人とで比較した。癌スコアに関して、2標本検定及びROC解析を同様に実施する。Rパッケージentropyを使用して、シャノンのエントロピを計算した。
【0111】
統計解析
統計プログラミン言語Rを使用して、全て統計解析を実施した。両側ウィルコクソン順位和検定を使用して、2標本検定を実施した。単一解析に対して複数のテストが実施された場合、目的は、有意性を報告する代わりに、p値の分布を比較することであったため、BH手順を使用して、
図5を除き、FDRを補正することができる。図に表示する箱ひげ図の全てに対して、中央線は中央値を定義し、箱の境界は、データの25%(Q1)及び75%(Q3)四分位を示す。下部ひげ及び上部ひげは、Q1-1.5IQR及びQ3+1.5IQRに対応し、IQRは、四分位範囲(inter-quartile range)の略である。
図3Cにおける生存解析は、Rパッケージsurvivalを使用して実施し、患者の年齢に対して補正されたコックス比例ハザードモデルを使用して、p値を評価した。
【0112】
本開示の目的で、モジュールは、(ヒューマンインタラクション又はオーグメンテーションがあってもなくても)本明細書に記載するプロセス、特徴及び/又は機能を実施するか又は容易にする、ソフトウェア、ハードウェア又はファームウェア(又はそれらの組合せ)システム、プロセス若しくは機能、又はそれらの構成要素である。モジュールはサブモジュールを含むことができる。モジュールのソフトウェア構成要素は、プロセッサが実行するためにコンピュータ可読媒体に記憶することができる。モジュールは、1つ以上のサーバに内蔵され得るか、又は、1つ以上のサーバがロード及び実行することができる。1つ以上のモジュールをエンジン又はアプリケーションにグループ化することができる。
【0113】
当業者であれば、本開示の方法及びシステムを多くの方法で実施することができ、したがって、上述した例示的な実施形態及び例によって限定されないことが理解されよう。言い換えれば、ハードウェア及びソフトウェア又はファームウェアの様々な組合せで、単一又は複数の構成要素によって実施されている機能的要素と、個々の機能とは、クライアントレベル若しくはサーバレベルのいずれか又は両方のレベルで、ソフトウェアアプリケーション間で分散させることができる。これに関して、本明細書に記載する種々の実施形態の任意の数の特徴を組み合わせて、単一又は複数の実施形態にすることができ、本明細書で記載した特徴の全てよりも少ないか又は多い特徴を有する代替実施形態が可能である。
【0114】
機能もまた、複数の構成要素間で、現時点で既知であるか又は既知となる方法で、全体として又は一部、分散させることができる。したがって、本明細書に記載する機能、特徴、インタフェース及び選択物を達成するのに、無数のソフトウェア/ハードウェア/ファームウェアの組合せが可能である。さらに、本開示の範囲は、現時点で且つ今後当業者により理解されるように、記載した特徴及び機能及びインタフェースを実行する従来既知の方法とともに、ハードウェア又はソフトウェア又はファームウェア構成要素に対して行うことができるそれらの変形及び変更を包含する。
【0115】
さらに、本開示においてフローチャートとして提示及び記載した方法の実施形態は、技術がより完全に理解されるために例として提供されている。開示する方法は、本明細書に提示する動作及び論理フローに限定されない。様々な動作の順序が変更される代替実施形態、及びより大きい動作の一部として記載されている下位動作が独立して実施される代替実施形態が企図される。
【0116】
本開示の目的で様々な実施形態について記載したが、こうした実施形態は、本開示の教示をそれらの実施形態に限定するようにみなされるべきではない。本開示に記載するシステム及びプロセスの範囲内にあり続ける結果を得るために、上述した要素及び動作に対して様々な変形及び変更を行うことができる。