IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニアの特許一覧

特表2023-544479微生物核酸による転移性癌の存在およびその由来組織の識別
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-24
(54)【発明の名称】微生物核酸による転移性癌の存在およびその由来組織の識別
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20231017BHJP
   C12Q 1/686 20180101ALI20231017BHJP
   A61P 35/04 20060101ALI20231017BHJP
   A61K 45/00 20060101ALI20231017BHJP
   A61P 43/00 20060101ALI20231017BHJP
   A61K 45/06 20060101ALI20231017BHJP
【FI】
C12Q1/6869 Z
C12Q1/686 Z
A61P35/04
A61K45/00
A61P43/00 121
A61K45/06
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023511783
(86)(22)【出願日】2021-09-21
(85)【翻訳文提出日】2023-03-27
(86)【国際出願番号】 US2021051261
(87)【国際公開番号】W WO2022061281
(87)【国際公開日】2022-03-24
(31)【優先権主張番号】63/081,075
(32)【優先日】2020-09-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/105,624
(32)【優先日】2020-10-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】508228061
【氏名又は名称】ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】プア,グレゴリー ディー.
【テーマコード(参考)】
4B063
4C084
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QA18
4B063QA19
4B063QQ03
4B063QQ05
4B063QQ42
4B063QQ52
4B063QR08
4B063QR55
4B063QR62
4B063QS25
4B063QS28
4B063QS36
4B063QX01
4C084AA17
4C084AA20
4C084NA14
4C084ZB26
4C084ZC75
(57)【要約】
組織または血液の中の非ヒト微生物核酸に基づいて、転移性癌を検出し、その由来組織を判定する方法。
【選択図】図1
【特許請求の範囲】
【請求項1】
対象において転移性癌の存在またはその欠如を判定する方法であって、該方法が:
(a)癌を有する対象の生体試料中に微生物存在を検出すること;
(b)該微生物存在から汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
(c)癌を有する1個体以上の対象の1種類以上の生体試料の微生物存在に対して、該除染微生物存在を比較し、それによって微生物/癌比較データセットを作成すること;
および
(d)該微生物癌比較データセットから該対象の該転移性癌の存在またはその欠如を判定すること、
を含む、方法。
【請求項2】
請求項1の方法であって、ここで判定することが、転移性癌の由来組織を同定することをさらに含む、方法。
【請求項3】
請求項1の方法であって、ここで工程(c)の癌を有する1個体以上の対象が原発腫瘍、転移性腫瘍、またはそれらの任意の組み合わせを含む、方法。
【請求項4】
請求項1の方法であって、ここで該微生物存在が微生物存在量をさらに含む、方法。
【請求項5】
請求項4の方法であって、ここで該微生物存在または存在量が非哺乳動物の生物種である細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせを含む、方法。
【請求項6】
請求項4の方法であって、ここで該微生物存在または存在量が、生態学的ショットガンシーケンシング、定量的ポリメラーゼ連鎖反応、免疫組織化学、インサイチューハイブリダイゼーション、フローサイトメトリー、宿主の全ゲノム配列決定、宿主トランスクリプトミクス配列決定、癌全ゲノム配列決定、癌のトランスクリプトミクス配列決定、またはそれらの任意の組み合わせによって評価される、方法。
【請求項7】
請求項4の方法であって、ここで該微生物存在または存在量が:
微生物由来の核酸領域である:
16S rRNAのV1、V2、V3、V4、V5、V6、V7、V8、V9可変ドメイン領域、18S rRNAの転写される内部スペーサー(ITS)領域、またはそれらの任意の組み合わせ、
の増幅によって評価される、
方法。
【請求項8】
請求項4の方法であって、ここで該微生物存在または存在量が、標的微生物のDNA、RNA、またはそれらの任意の組み合わせである核酸の測定によって検出され;
ここで標的微生物のDNA、RNA、またはそれらの任意の組み合わせである核酸の該測定が、該対象の哺乳動物のDNA、RNA、またはそれらの任意の組み合わせの測定と同時である、
方法。
【請求項9】
請求項1の方法であって、ここで該転移性癌が:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ、
を含む、方法。
【請求項10】
請求項1の方法であって、ここで該転移性癌が一癌種を含み、ここで該一癌種が、肺癌、前立腺癌、黒色腫、乳癌、甲状腺癌、またはそれらの任意の組み合わせを含む、方法。
【請求項11】
請求項1の方法であって、ここで該汚染微生物特徴量としては該微生物存在の分類群帰属が挙げられる、方法。
【請求項12】
請求項1の方法であって、ここで工程(b)によって、転移性癌の由来組織を判定する正解率が改善する、方法。
【請求項13】
請求項1の方法であって、ここで工程(b)が省略される、方法。
【請求項14】
請求項1の方法であって;
ここで該微生物/癌比較データセットが、哺乳動物特徴量をさらに含み;
ここで該哺乳動物特徴量が:
腫瘍組織の免疫組織化学蛋白質マーカー、腫瘍組織DNA、腫瘍組織RNA、腫瘍組織メチル化パターン、無細胞腫瘍DNA、無細胞腫瘍RNA、エクソソーム由来腫瘍DNA、エクソソーム由来腫瘍RNA、腫瘍細胞由来の循環DNA、腫瘍細胞由来の循環RNA、無細胞腫瘍DNAのメチル化パターン、無細胞腫瘍RNAのメチル化パターン、腫瘍細胞由来の循環DNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、またはそれらの任意の組み合わせ、
を含む、方法。
【請求項15】
請求項1の方法であって、ここで該生体試料が、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む、方法。
【請求項16】
請求項15の方法であって、ここで該生体試料が全血の1種類以上の構成成分を含み、該構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる、方法。
【請求項17】
対象の転移性癌を治療するために、微生物存在に基づいて治療を行う方法であって、該方法が:
(a)転移性癌を有する対象の生体試料における微生物存在を検出すること;
(b)該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
(c)該除染微生物存在と該対象の転移性癌とを関連付けること;
および
(d)該除染微生物存在と該転移性癌との間の関連によって判定された該対象の治療を行うこと、
を含む、方法。
【請求項18】
請求項17の方法であって、ここで該微生物存在が微生物存在量をさらに含み、ここで該微生物存在または存在量が非哺乳動物の生物種である細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせを含む、方法。
【請求項19】
請求項17の方法であって、ここで該汚染微生物特徴量としては該微生物存在の分類群帰属が挙げられる、方法。
【請求項20】
請求項17の方法であって、ここで工程(b)が省略される、方法。
【請求項21】
請求項17の方法であって、ここで該生体試料が組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む、方法。
【請求項22】
請求項21の方法であって、ここで該生体試料が1種類以上の全血の構成成分を含み、該構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる、方法。
【請求項23】
請求項17の方法であって、ここで該治療は該除染微生物存在によって代謝を受けることがなく、また不活性化状態になることもない、方法。
【請求項24】
請求項17の方法であって、ここで該治療としては、低分子、ホルモン療法、生物学的、工学的に改変した宿主由来細胞の1種類または複数種類、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、バクテリオファージ、またはそれらの任意の組み合わせが挙げられる、方法。
【請求項25】
請求項17の方法であって、ここで該転移性癌が:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ、
を含む、方法。
【請求項26】
請求項17の方法であって、ここで該治療が、該転移性癌に対する一次治療の効力を改善する目的で、該一次治療と組み合わせて投与するアジュバントを含む、方法。
【請求項27】
請求項26の方法であって、ここで該アジュバントが抗生物質または抗菌剤である、方法。
【請求項28】
請求項17の方法であって、ここで該治療が転移性癌または転移性癌の環境に関連する微生物構成要素あるいは抗原に基づくものである、方法。
【請求項29】
請求項28の方法であって、ここで該治療が標的微生物抗原に対する養子細胞移植、微生物抗原に対する癌ワクチン、微生物抗原に対するモノクローナル抗体、少なくとも部分的に微生物抗原を標的とするように設計した抗体/薬剤複合体、少なくとも部分的に1種類以上の微生物抗原を標的とするように設計した多価抗体、その抗体断片、その抗体誘導体、またはそれらの任意の組み合わせを含む、方法。
【請求項30】
請求項17の方法であって、ここで該治療が該微生物存在の機能的または生物学的に類似の微生物クラスを標的とする抗生物質を含む、方法。
【請求項31】
請求項28の方法であって、ここで該治療が2種類以上の治療種別を含み、ここで治療効力を増強する目的において、該2種類以上の治療種別を組み合わせ、該2種類以上の治療種別のうちの少なくとも1種類が、該転移性癌または該転移性癌環境に関連する微生物存在または存在量を利用する、方法。
【請求項32】
請求項17の方法であって、ここで該除染微生物存在と該転移性癌との間の関連が、転移性癌の由来、種類、またはそれらの任意の組み合わせをさらに含む、方法。
【請求項33】
対象の転移性癌の存在または非存在を判定するように構成されるコンピューターシステムであって、該コンピューターシステムが:
1つ以上のプロセッサー;
および
ソフトウェアを含む持続性コンピューター可読保存媒体であって、ここで該ソフトウェアが実行可能命令を含み、該命令の実行の結果として、該コンピューターシステムの該1つ以上のプロセッサーに:
(a)癌を有する該対象の生体試料の1種類以上の核酸分子を取得すること;
(b)該生体試料の1種類以上の核酸の非微生物核酸から微生物核酸を分離すること;
(c)該微生物核酸の微生物存在を識別すること;
(d)該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在の表を作成すること;
(f)該除染微生物存在の表を機械学習モデルに入力すること;
および
(g)該機械学習モデルから、該転移性癌の存在または非存在を示す出力を受け取ること、
を遂行させる、ソフトウェア、
を含む、コンピューターシステム。
【請求項34】
請求項33のコンピューターシステムであって、ここで該微生物存在が微生物存在量をさらに含み、ここで該微生物存在または存在量が非哺乳動物の生物種である細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせを含む、コンピューターシステム。
【請求項35】
請求項33のコンピューターシステムであって、ここで該除染微生物特徴量が該微生物存在の分類群帰属を含む、方法。
【請求項36】
請求項33のコンピューターシステムであって、ここで工程(d)が省略される、コンピューターシステム。
【請求項37】
請求項33のコンピューターシステムであって、ここで微生物ゲノムおよび非微生物ゲノムの参照データベースに対して1種類以上の核酸分子を整列化させることによって、該微生物および非微生物核酸を分離させる、コンピューターシステム。
【請求項38】
請求項33のコンピューターシステムであって、ここで参照ゲノムデータベースに対して該1種類以上の核酸分子を整列化させることなく、該微生物および非微生物核酸を分離させる、コンピューターシステム。
【請求項39】
請求項33のコンピューターシステムであって、ここで該除染微生物存在の表が哺乳動物特徴量をさらに含み、ここで該哺乳動物特徴量が:
腫瘍組織の免疫組織化学蛋白質マーカー、腫瘍組織DNA、腫瘍組織RNA、腫瘍組織メチル化パターン、無細胞腫瘍DNA、無細胞腫瘍RNA、エクソソーム由来腫瘍DNA、エクソソーム由来腫瘍RNA、腫瘍細胞由来の循環DNA、腫瘍細胞由来の循環RNA、無細胞腫瘍DNAのメチル化パターン、無細胞腫瘍RNAのメチル化パターン、腫瘍細胞由来の循環DNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、またはそれらの任意の組み合わせ、
を含む、コンピューターシステム。
【請求項40】
請求項33のコンピューターシステムであってここで該転移性癌が:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ、
を含む、コンピューターシステム。
【請求項41】
請求項33のコンピューターシステムであって、ここで該転移性癌が一癌種を含み、ここで該一癌種が:
肺癌、前立腺癌、黒色腫、乳癌、甲状腺癌、またはそれらの任意の組み合わせ、
を含む、コンピューターシステム。
【請求項42】
請求項33のコンピューターシステムであって、ここで該生体試料が組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む、コンピューターシステム。
【請求項43】
請求項33のコンピューターシステムであって、ここで該生体試料が全血の構成成分を含み、該構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる、コンピューターシステム。
【請求項44】
請求項33のコンピューターシステムであって、ここで該機械学習モデルが、非転移性癌性組織と転移性癌性組織との間の識別または血液試料間の識別を行うように訓練される、コンピューターシステム。
【請求項45】
請求項33のコンピューターシステムであって、ここで該機械学習モデルが、1種類以上の癌の種類を識別するように訓練される、コンピューターシステム。
【請求項46】
請求項45のコンピューターシステムであって、ここで該1種類以上の癌の種類が:
肺癌、前立腺癌、黒色腫、乳癌、甲状腺癌、またはそれらの任意の組み合わせを含む、
コンピューターシステム。
【請求項47】
請求項33のコンピューターシステムであって、ここで該出力が転移性癌の種類、由来組織、またはそれらの任意の組み合わせの表示をさらに含む、コンピューターシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年9月21日付けおよび2020年10月26日付けで出願された、それぞれ米国仮出願第63/081,075および63/105,624号に基づく優先権を主張するものである。その優先出願の開示内容全体が参照として本明細書に組み入れられる。
【0002】
米国連邦政府による研究助成についての説明
本発明は、米国国立衛生研究所により授与された研究助成金番号:F30CA243480の下で政府援助によってなされたものである。連邦政府は本発明において一定の権利を有している。
【0003】
本発明は、組織生検および液体生検に存在する非ヒト微生物核酸によって、転移性癌の存在および/またはその由来組織を同定することに関するものである。本発明の少なくとも一つの実施態様においては、複数種の転移性癌間および複数種の転移性癌内の識別を行う診断モデルとして、機械学習(ML)モデルを訓練する。
【背景技術】
【0004】
細菌、ウイルス、真菌、古細菌、およびファージの微生物叢が、発癌において重要な役割を果たすことを示す証拠がますます増えつつある。実際に、全癌細胞のうちの20%もの癌が、微生物因子に直接的に起因すると推定されている。その潜在的機構は免疫系に対する微生物の影響によるものであり、これは、複数ある機構の中で特に、炎症を増大させたり低下させたりする微生物の能力、ならびに対象の免疫細胞の機能を操作する微生物の能力によるものであると多くの研究者達は考えている。
【0005】
1種類以上の特定細菌を定着させたノトバイオートマウスモデルを用いた研究データによれば、微生物叢が、多様な機構(炎症を調節する、DNA損傷を誘導する、および発癌または腫瘍抑制に関与する代謝産物を産生することなど)によって発癌感受性および癌の進行を変化させ得ると考えられる。発癌および癌の進行に加えて、癌治療に対する応答を予測することも、微生物叢の利用によって可能となり、あるいは「従来の」化学治療(例えば、ゲムシタビン)およびさらに「革新的な」免疫治療(例えば、PD-1阻害)を含む癌治療を改善するように微生物叢を操作することも可能であることを示唆する新たな証拠が現れつつある。
【0006】
文献の多くは、宿主腸管内微生物叢の組成または機能および癌に対するその影響を調べることに焦点を置いているが、文献に示される最近の例では、原発腫瘍組織内または原発腫瘍を有する患者の血液内の癌関連微生物叢を調べている(PMID:32214244、32467386、29567829、31578522)。原発腫瘍関連微生物叢に研究上の関心が寄せられることが多いのだが、その理由は、腫瘍形成に対して、それらが潜在的に因果関係を有すること、および単一原発腫瘍の複数の転移性対応物と比べて、単一原発腫瘍自体に対するアクセスが容易であることによる。
【0007】
しかし、大部分の癌死は原発腫瘍によるものではなく、むしろ転移によるものである;また、癌関連微生物叢と転移性癌との間の関係については、ほとんど全くと言っていいほど知られていない。本分野におけるこのような乖離に対処できるならば、転移性癌の存在および/または転移性癌の由来組織の早期検出によって患者の実質的病的状態および死亡を防ぐ、新しい種類の癌診断法に到達できるであろう。さらに、転移性癌の由来組織の正確な識別は、患者の臨床治療を如何に成すべきかの指針を与える重要なものである。不自然な例に思われるかもしれないが、患者の脳に発見される転移性肺癌の場合には、患者の脳に由来する脳腫瘍(すなわち、原発腫瘍)とは異なる臨床管理が成されるであろう。したがって、転移性癌の由来組織の診断を改善する方法はまた、実施処置の最適種類または最適投薬および患者の予後に影響を与えるのである。
【0008】
歴史的には、転移性癌の由来組織を同定するプロセスは、転移性組織の生検から取得するヒト分子情報に依存するものであった:免疫組織化学(IHC)蛋白質染色、ヒトDNAの配列決定(例えば、特定の原発腫瘍の種類に関連することが公知の変異を識別する)、DNA配列の修飾(例えば、エピゲノム)、またはヒトRNAの配列決定(例えば、特定の原発腫瘍の種類に関連する遺伝子発現パターンを識別する)。しかし、これらの方法が転移性腫瘍の由来組織の局在を特定する正解率は限定的であった。例えば、Weissら(PMID:23287002)が正解率を報告しており、IHC法を用いた場合にはたったの69%の正解率しかなく、また同一試料を92種類の遺伝子発現シグニチャー用いて調べた時には僅か79%であった。これらの結果は、由来組織を同定する場合に、失敗率が患者の転移性癌の20%超であることを意味し、圧倒的大多数の癌死が全て転移によるものである場合には、この失敗率は顕著なものであると言わざるを得ない。このような低正解率は、それら原発腫瘍組織の元々の細胞マーカーが如何に多くの転移性腫瘍で消失しているのかを反映するものであり、ヒト情報を用いてその由来を明確かつ迅速に識別することが困難になり、また臨床的に侵襲性、高額、かつ緊急性の、患者の原発腫瘍探しに駆り立てることになるのである。
【0009】
癌関連微生物に関する技術分野の現在の科学的状況については、以下が公知である:
(i)多くの癌関連微生物が原発腫瘍癌細胞および隣接免疫細胞の細胞内に存在する(PMID:32467386);
(ii)原発腫瘍は実質的に全て癌種特異的微生物叢を含む(PMID:32214244);
および
(iii)結腸癌の場合には、癌細胞が原発腫瘍から転移すれば細胞内微生物も癌細胞内に存在したまま一緒に移動することがある(PMID:29170280)。
【0010】
一方、現在まだ分かっておらず、なおかつ決定的に重要な事柄は以下である:
(i)転移の微生物叢がそれらの由来組織を忠実に反映するか否か、または転移の新しい身体部位(原発腫瘍と比較して)は、その微生物組成または微生物機能を破壊するか否か;
(ii)癌の全種類、特に、結腸癌以外のものが、原発腫瘍とその転移との間で、同じ細胞内微生物(または細胞外微生物)を共有するか否かであり、このことは微生物情報に依存する、転移の汎癌診断アプローチの実用可能性に影響を与えるものである;
(iii)血液中に転移の微生物叢が検出され得るか否か、もし可能であれば、そのような情報が由来癌組織に関する情報として有益であるのだろうか。
【0011】
以前、WO2020093040A1では、患者の組織および血液における非ヒト微生物核酸を用いて原発腫瘍の新規癌診断法を開発することに焦点が置かれた。さらには、US20180291463A1、WO2018200813A1、およびWO2018031545A1では、原発腫瘍試料(転移ではない、また血液でも、その他の体液でもない)における事前選択(「バイアスのある」)微生物の集団を検出するマイクロアレイ技術について説明している。US20180223338では、頭頸部癌の同定および診断における原発腫瘍組織の微生物叢または唾液微生物叢の利用について説明している。US20180258495A1では、結腸癌検出における原発腫瘍組織の微生物叢または糞便微生物叢の利用、結腸癌に関連するある種の変異、および対応する微生物の回収および増幅を行うキットについて説明している。
【発明の概要】
【0012】
本発明の開示は、少なくとも一つの実施態様において、転移性癌の存在またはその欠如、その由来組織、およびヒト組織の生検または血液由来試料に由来する非ヒト起源の核酸を用いるのみの特定治療法に対する応答可能性について、正確に診断または判定する方法を提供する。
【0013】
実施態様においては、本発明は、血液由来組織を用いて、転移性癌の存在および/または種類に関連する微生物存在または存在量(「シグニチャー」)のパターンを広範に作成する方法を提供する。次いで、ヒトにおいて転移性癌の存在および/または転移性癌の由来組織を診断する目的でこれらのシグニチャーを利用することができる。
【0014】
実施態様においては、本発明は、転移性腫瘍組織を用いて、転移性癌の由来組織に関連する微生物存在または存在量のパターンを広範に作成する方法を提供する。次いで、ヒトにおいて転移性癌の存在および/または転移性癌の由来組織を診断する目的でこれらのシグニチャーを利用することができる。
【0015】
実施態様においては、本発明は、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、これは以下を含む:
癌を有する対象の生体試料中に微生物存在を検出すること;
該微生物存在から汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
癌を有する1個体以上の対象から1つ以上の生体試料の微生物存在に対して除染微生物存在を比較し、それによって微生物/癌比較データセットを取得すること;
および
該微生物癌比較データセットから対象の転移性癌の存在またはその欠如を判定すること。
【0016】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該微生物癌比較データセットから対象の転移性癌の存在またはその欠如を判定することは、転移性癌の由来組織を同定することを含む。
【0017】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該微生物存在は微生物存在量をさらに含む。該微生物存在または存在量は、例えば、以下の非哺乳動物の生物種を含むのであってもよい:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。
【0018】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該微生物存在または存在量は、生態学的ショットガンシーケンシング、定量的ポリメラーゼ連鎖反応、免疫組織化学、インサイチューハイブリダイゼーション、フローサイトメトリー、宿主の全ゲノム配列決定、宿主トランスクリプトミクス配列決定、癌全ゲノム配列決定、癌のトランスクリプトミクス配列決定、またはそれらの任意の組み合わせによって測定される。
【0019】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該微生物存在または存在量は、以下の微生物由来核酸領域を増幅することによって測定される:16S rRNAのV1、V2、V3、V4、V5、V6、V7、V8、V9可変ドメイン領域、18S rRNAの転写される内部スペーサー(ITS)領域、またはそれらの任意の組み合わせ。
【0020】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該微生物存在または存在量は、微生物のDNA、RNA、またはそれらの任意の組み合わせを標的とする核酸測定によって検出され、ここで該微生物のDNA、RNA、またはそれらの任意の組み合わせを標的とする核酸測定は、対象の哺乳動物のDNA、RNA、またはそれらの任意の組み合わせの測定と同時に行われる。
【0021】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。
【0022】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該転移性癌は一癌種を含み、ここで該一癌種としては以下が挙げられる:肺癌、前立腺癌、黒色腫、乳癌、甲状腺癌、またはそれらの任意の組み合わせ。
【0023】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該汚染微生物特徴量としては該微生物存在の分類群帰属が挙げられる。
【0024】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで汚染微生物特徴量を除去することは任意選択的であり、必ずしも必要とするものではない。
【0025】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで微生物/癌比較データセットを作成するために用いられる該比較の生体試料は、1種類以上の原発腫瘍、転移性腫瘍、またはそれらの任意の組み合わせを有する対象に由来する。
【0026】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該微生物/癌比較データセットは哺乳動物特徴量をさらに含み、ここで該哺乳動物特徴量としては以下が挙げられる:
腫瘍組織の免疫組織化学蛋白質マーカー、腫瘍組織DNA、腫瘍組織RNA、腫瘍組織メチル化パターン、無細胞腫瘍DNA、無細胞腫瘍RNA、エクソソーム由来腫瘍DNA、エクソソーム由来腫瘍RNA、腫瘍細胞由来の循環DNA、腫瘍細胞由来の循環RNA、無細胞腫瘍DNAのメチル化パターン、無細胞腫瘍RNAのメチル化パターン、腫瘍細胞由来の循環DNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、またはそれらの任意の組み合わせ。
【0027】
実施態様においては、本発明は、上記/下記のように、対象において転移性癌の存在またはその欠如を判定する方法を提供するが、ここで該生体試料としては、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせが挙げられる。該生体試料は、全血の1種類以上の構成成分をさらに含むのであってもよく、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。
【0028】
実施態様においては、本発明は、微生物存在に基づいて対象の転移性癌の治療を目的として治療を行う方法を提供するが、該治療は以下を含む:
癌を有する対象の生体試料における微生物存在を検出すること;
該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
該除染微生物存在と対象に存在する転移性癌とを関連付けること;
および
該除染微生物存在と該転移性癌との間の関連によって判定された該対象の治療を行うこと。
【0029】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該微生物存在は、微生物存在量をさらに含み、ここで該微生物存在または存在量としては、以下の非哺乳動物の生物種を含む:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。
【0030】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該汚染微生物特徴量としては微生物存在の分類群帰属が挙げられる。
【0031】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該微生物存在の汚染微生物特徴量を除去することは、任意選択的工程であり、該関連は検出した微生物存在と対象に存在する転移性癌との間の関連として取得するのであってもよい。
【0032】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該生体試料としては、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせが挙げられる。該生体試料は、全血の1種類以上の構成成分をさらに含むのであってもよく、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。
【0033】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該治療は該除染微生物存在によって代謝を受けることがなく、また不活性化状態になることもない。
【0034】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該治療としては、低分子、ホルモン療法、生物学的、工学的に改変した宿主由来細胞の1種類または複数種類、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、バクテリオファージ、またはそれらの任意の組み合わせが挙げられる。
【0035】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。
【0036】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該治療は、該転移性癌に対する一次治療の効力を改善する目的で、該一次治療と組み合わせて投与するアジュバントを含む。該アジュバントは、例えば、抗生物質または抗菌剤であってもよい。
【0037】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該治療は転移性癌または転移性癌の環境に関連する微生物構成要素あるいは抗原に基づくものである。該治療は標的微生物抗原に対する養子細胞移植、微生物抗原に対する癌ワクチン、微生物抗原に対するモノクローナル抗体、少なくとも部分的に微生物抗原を標的とするように設計した抗体/薬剤複合体、少なくとも部分的に1種類以上の微生物抗原を標的とするように設計した多価抗体、その抗体断片、その抗体誘導体、またはそれらの任意の組み合わせを含むものであってもよい。
【0038】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該治療は微生物存在に機能的または生物学的に類似の微生物クラスを標的とする抗生物質を含む。該治療は、2種類以上の治療種別をさらに含むのであってもよく、ここで治療効力を増強する目的において、該2種類以上の治療種別を組み合わせ、該2種類以上の治療種別の少なくとも1種類が、該転移性癌または該転移性癌環境に関連する微生物存在または存在量を利用する。
【0039】
実施態様においては、本発明は、上記/下記のように、微生物存在に基づいて対象の転移性癌を治療することを目的として治療を行う方法を提供するが、ここで該除染微生物存在と該転移性癌との間の関連は、該転移性癌の由来、種類、またはそれらの任意の組み合わせをさらに含む。
【0040】
実施態様においては、本発明は、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、該システムは、1つ以上のプロセッサー;およびソフトウェアを含む持続性コンピューター可読保存媒体を含み;ここで該ソフトウェアは、実行の結果として、該コンピューターシステムの1つ以上のプロセッサーに以下を行わせる実行可能命令を含む:癌を有する対象の生体試料における1種類以上の核酸分子に関連する第1のデータを取得すること;該生体試料の1種類以上の核酸に関する第1のデータの非微生物核酸から微生物核酸を分離し、それによって第2のデータを判定すること;該第2のデータに基づいて、該微生物核酸の微生物存在を識別すること;該第2のデータから微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在の表を作成すること;該除染微生物存在の表を機械学習モデルに入力すること;および該転移性癌の存在または非存在を示す出力を機械学習モデルから受け取ること。実施態様においては、本発明は、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該システムはIllumina NovaSeq 6000機器を含む。該Illumina NovaSeq 6000機器は、該Illumina NovaSeq 6000機器が生成したデータにアクセスまたは処理することが可能な1種類以上のコンピューターシステムにアクセス可能なネットワーク記憶場所に、(例えば、ネットワーク接続によって)通信可能に接続されていてもよい。
【0041】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該微生物存在は微生物存在量をさらに含み、ここで該微生物存在または存在量は以下の非哺乳動物の生物種を含む:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。
【0042】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該システムは、該転移性癌の由来組織をさらに判定する。
【0043】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該除染微生物特徴量は微生物存在の分類群帰属を含む。
【0044】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで、汚染微生物特徴量を除去することは任意選択的である。
【0045】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで微生物ゲノムおよび非微生物ゲノムの参照データベースに対して1種類以上の核酸分子を整列化させることにより、該微生物核酸と非微生物核酸とを分離する。
【0046】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで参照ゲノムデータベースに対して該1種類以上の核酸分子を整列化させることなく、該微生物核酸と非微生物核酸とを分離する。
【0047】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該除染微生物存在の表は哺乳動物特徴量をさらに含み、ここで該哺乳動物特徴量としては以下が挙げられる:
腫瘍組織の免疫組織化学蛋白質マーカー、腫瘍組織DNA、腫瘍組織RNA、腫瘍組織メチル化パターン、無細胞腫瘍DNA、無細胞腫瘍RNA、エクソソーム由来腫瘍DNA、エクソソーム由来腫瘍RNA、腫瘍細胞由来の循環DNA、腫瘍細胞由来の循環RNA、無細胞腫瘍DNAのメチル化パターン、無細胞腫瘍RNAのメチル化パターン、腫瘍細胞由来の循環DNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン、またはそれらの任意の組み合わせ。
【0048】
実施態様においては、本発明は、上記/下記のように対象における転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。
【0049】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該転移性癌は一癌種を含み、ここで該一癌種は、肺癌、前立腺癌、黒色腫、乳癌、甲状腺癌、またはそれらの任意の組み合わせを含む。
【0050】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該生体試料は、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む。
【0051】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該生体試料は全血の構成成分を含み、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。
【0052】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該機械学習モデルが、非転移性癌性組織と転移性癌性組織との間の識別または血液試料間の識別を行うように訓練される。
【0053】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで1種類以上の癌種を区別するように該機械学習モデルが訓練される。該1種類以上の癌種としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。
【0054】
実施態様においては、本発明は、上記/下記のように、対象の転移性癌の存在または非存在を判定するように構成されるシステムを提供するが、ここで該出力は、該転移性癌の種類、由来組織、またはそれらの任意の組み合わせの表示をさらに含む。
【0055】
実施態様においては、本発明は、対象において転移性癌を広く診断する方法を提供するが、該方法は以下を含む:
対象の組織試料または血液試料中の微生物存在または存在量を検出すること;
検出した微生物存在または存在量が、転移が非存在なものから取得した1種類以上の正常組織試料の微生物存在または存在量とは異なることを判定すること;
および該検出した微生物存在または存在量を、転移性癌に関する公知の微生物存在または存在量と相関させ、それによって該転移性癌を診断すること。
【0056】
実施態様においては、本発明は、対象において転移性癌の由来組織を広く診断する方法を提供するが、該方法は以下を含む:
転移性癌を有する対象の組織試料または血液試料における微生物存在または存在量を検出すること;
検出した微生物存在または存在量が、以前に試験した原発腫瘍を有する対象の集団における微生物存在または存在量と類似であるか、あるいはそれと異なることを判定すること;
および
転移性癌の検出した微生物存在または存在量を最も類似した原発腫瘍の種類と相関させ、それによって該転移性癌の由来組織を診断すること。
【0057】
実施態様においては、本発明は、対象の転移性癌の由来組織を診断する方法を提供するが、該方法は以下を含む:
対象の液体生検における微生物存在または存在量を検出すること;
検出した微生物存在または存在量が、健常対象および/または原発腫瘍を有する対象の集団の1つ以上の液体生検における微生物存在または存在量と類似であるか、あるいはそれと異なることを判定すること;
および
検出した微生物存在または存在量を、このコホートにおける最も類似した液体生検に相関させ、それによって該転移性癌の存在または非存在を診断し、もし存在する場合にはその由来組織を診断すること。
【0058】
実施態様においては、本発明は、転移性癌の身体中の存在位置を診断する方法を提供するが、ここで該由来する位置は、骨(肉腫)、副腎、膀胱、脳、乳房、子宮頸部、胆のう、結腸、食道、頸部(頭頸部扁平上皮細胞癌)、腎臓、肝臓、肺、リンパ節(びまん性大細胞性B細胞リンパ腫)、皮膚、卵巣、前立腺、直腸、胃、甲状腺、および子宮であり、ここで該対象はヒトである。
【0059】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、ここで該癌は、副腎皮質癌、膀胱癌、脳腫瘍(低悪性度の神経膠腫;膠芽細胞腫)、乳癌、子宮頸癌、胆管癌、結腸癌、食道癌、頭頸部癌、腎臓癌(嫌色素性細胞;腎明細胞腎癌;乳頭細胞癌)、肝臓癌、肺癌(腺癌;扁平上皮細胞癌)、リンパ系新生物びまん性大細胞型B細胞リンパ腫、黒色腫(皮膚黒色腫、ぶどう膜黒色腫)、卵巣癌、前立腺癌、直腸癌、肉腫、胃癌、甲状腺癌(甲状腺癌、胸腺腫)、および子宮癌であり、ここで該対象はヒトである。
【0060】
実施態様においては、本発明は、非ヒト特徴量を用いてヒト転移性癌の分子特徴量を予測する方法を提供するが、ここで該分子特徴量はヒト変異であり、ここで該非ヒト特徴量は、微生物存在または存在量である。
【0061】
実施態様においては、本発明は、対象が転移性癌についての特定治療に応答するか、あるいは応答しないかを予測する方法を提供するが、ここで該対象はヒトであり、ここで該治療は免疫療法であり、ここで該免疫療法はPD-1阻害(例えば、ニボルマブ、ペムブロリズマブ)である。
【0062】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、該方法は、該疾患について取得した非ヒト特徴量または該転移性癌が由来すると同定した組織に基づいて対象の該転移性癌を治療することをさらに含み、ここで該対象はヒトであり、ここで該非ヒト特徴量は微生物存在または存在量である。
【0063】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、該方法は、その非ヒト特徴量に基づいて、該対象の転移性癌を治療するための新規の治療を設計することをさらに含み、ここで該非ヒト特徴量は微生物特徴量であり、ここで該対象はヒトである。
【0064】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、該方法はさらに、その非ヒト特徴量に基づいて、対象における癌のより早期のステージから癌を識別し、ここで該非ヒト特徴量は微生物特徴量であり、ここで該対象はヒトである。
【0065】
実施態様においては、以下のもののうちの1種類以上を用いて、該転移性癌に関連する非ヒト特徴量を標的とし、および活用するように、新規の治療を設計するのであってもよい:
低分子、ホルモン治療、生物製剤、工学的に改変した宿主由来細胞種、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、およびバクテリオファージ。
【0066】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、該方法は、原発腫瘍がいつ転移するか、および/または該疾患がいつ治療に応答するかを示すために、その非ヒト特徴量を長期観察することをさらに含み、ここで該対象はヒトである。
【0067】
実施態様においては、本発明は、転移性癌組織または血液試料における微生物存在または存在量を測定し、それによって転移性癌および/またはその由来組織の診断が可能となるキットを提供する。
【0068】
実施態様においては、本発明は、転移性癌組織または血液試料における微生物存在または存在量を分析し、およびこの微生物存在または存在量に機械学習を応用し、それによって転移性癌および/またはその由来組織の診断を行うコンピューターシステムを提供する。
【0069】
実施態様においては、本発明は、機械学習アーキテクチャーに基づく診断モデルを利用する。
【0070】
実施態様においては、本発明は、正規化機械学習アーキテクチャーに基づく診断モデルを利用する。
【0071】
実施態様においては、本発明は、機械学習アーキテクチャーと連繋することに基づく診断モデルを利用する。
【0072】
実施態様においては、本発明は、特定の非ヒト特徴量を汚染物(「ノイズ」)として識別し、選択的に除去するが、その他の非ヒト特徴量は非汚染物(「シグナル」)として選択的に保持し、ここで非ヒト特徴量は微生物特徴量である。
【0073】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、ここで該微生物は、細菌、真菌、ウイルス、古細菌、原生動物の、および/またはファージ起源、またはそれらの任意の組み合わせである。
【0074】
実施態様においては、本発明は、転移性癌を診断する方法を提供するが、ここで微生物存在または存在量の情報のみの場合に比べてより良好な予測性能を有する診断モデルを作成する目的で、該微生物存在または存在量についての情報を、該対象および/または該対象の転移性癌に関する情報と組み合わせる;ここで該対象はヒトである。
【0075】
実施態様においては、該診断モデルは、以下のソースのうちの1種類以上の微生物存在または存在量に関する情報と組み合わせて、対象についての情報を利用する:
腫瘍組織の免疫組織化学蛋白質マーカー、腫瘍組織DNA、腫瘍組織RNA、腫瘍組織メチル化パターン、無細胞腫瘍DNA、無細胞腫瘍RNA、エクソソーム由来腫瘍DNA、エクソソーム由来腫瘍RNA、腫瘍細胞由来の循環DNA、腫瘍細胞由来の循環RNA、無細胞腫瘍DNAのメチル化パターン、無細胞腫瘍RNAのメチル化パターン、腫瘍細胞由来の循環DNAのメチル化パターン、または腫瘍細胞由来の循環RNAのメチル化パターン、腫瘍細胞由来の循環RNAのメチル化パターン。
【0076】
実施態様においては、微生物存在または存在量を、以下の方法で検出する:
生態学的ショットガンシーケンシング、定量的ポリメラーゼ連鎖反応、免疫組織化学、インサイチューハイブリダイゼーション、フローサイトメトリー、宿主の全ゲノム配列決定、宿主トランスクリプトミクス配列決定、癌全ゲノム配列決定、癌のトランスクリプトミクス配列決定、またはそれらの任意の組み合わせ;
および/またはここで微生物由来の以下の核酸領域のうちの1種類以上の増幅を用いて微生物存在または存在量を検出する:
16S rRNAのV1、V2、V3、V4、V5、V6、V7、V8、またはV9可変ドメイン領域;または18S rRNAの転写される内部スペーサー(ITS)領域;
および/またはここで微生物のDNA、RNA、またはそれらの任意の組み合わせを標的とする核酸測定によって微生物存在または存在量を検出するが、ここで微生物のDNA、RNA、またはそれらの任意の組み合わせを標的とする該測定は、宿主DNA、宿主RNA、またはそれらの任意の組み合わせの測定と同時に行われる。
【0077】
実施態様においては、以下の方法のうちの1種類以上によって、宿主の転移性癌組織における微生物の存在または非存在の空間的分布を測定する:
該腫瘍組織および/またはその微小環境のマルチサンプリング、免疫組織化学、インサイチューハイブリダイゼーション、デジタル空間ゲノム、デジタル空間トランスクリプトミクス、またはそれらの任意の組み合わせ。
【0078】
実施態様においては、該微生物核酸を宿主の核酸と同時に検出し、次いで識別を行う。
【0079】
実施態様においては、組み合わせ核酸プールの測定(例えば、シーケンシング)前に、該対象の核酸を選択的に枯渇させ、該微生物核酸を選択的に保持するが、ここで該対象はヒトである。
【0080】
実施態様においては、組み合わせ核酸プールの測定(例えば、シーケンシング)前に、該微生物核酸を選択的に対象であるが、ここで該対象はヒトである。
【0081】
実施態様においては、微生物ゲノムおよび非微生物ゲノムの参照データベースに対して該核酸を整列化させることによって、該微生物核酸と該非微生物核酸を分離する。
【0082】
実施態様においては、参照ゲノムデータベースに対して該核酸を整列化させることなく、微生物酸と非微生物核酸とを分離する。
【0083】
実施態様においては、本発明は、血液、血液構成成分(例えば、血漿)、または組織生検である生体試料を提供するが、ここで該転移性組織生検は悪性または非悪性、またはそれらの任意の組み合わせである。
【0084】
実施態様においては、本発明は、液体生検である生体試料を提供する;該液体生検としては、血漿、尿、唾液、または涙、またはそれらの任意の組み合わせが挙げられるが、これらのみに限定されるものではない。
【0085】
実施態様においては、該対象の微生物叢の他の身体位置における微生物の存在または存在量を測定することによって、該転移性癌の微生物存在または存在量を推定するが、ここで該対象はヒトである。
【0086】
実施態様においては、該対象の生体試料における微生物の存在または存在量は同時に、該転移性癌の存在および該転移性癌の由来組織に関する情報として有益である。
【0087】
いくつかの実施態様においては、対象の転移性癌を治療する少なくとも70%の治療効力を有する治療を決定する方法が本開示に記載されるが、該方法は以下を含む:
(a)転移性癌を有する対象の生体試料における微生物存在を検出すること;
(b)該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
(c)該除染微生物存在と対象の転移性癌とを関連付けること;
および
(d)該除染微生物存在と該転移性癌との間の関連に基づいて、該対象の転移性癌を治療する少なくとも70%の治療効力を有する治療を決定すること。いくつかの実施態様においては、該治療は少なくとも80%または少なくとも90%の治療効力を含む。いくつかの実施態様においては、該治療応答は、正の応答者、非応答者、有害応答者、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該微生物存在は微生物存在量をさらに含み、ここで該微生物存在または該微生物存在量は以下の非哺乳動物の生物種を含む:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該汚染微生物特徴量としては、該微生物存在の分類群帰属が挙げられる。いくつかの実施態様においては、工程(b)が省略される。いくつかの実施態様においては、該生体試料は、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該生体試料は1種類以上の全血の構成成分を含み、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該治療は該除染微生物存在によって代謝を受けることがなく、また不活性化状態になることもない。いくつかの実施態様においては、該治療としては、低分子、ホルモン療法、生物学的、工学的に改変した宿主由来細胞の1種類または複数種類、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、バクテリオファージ、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該治療は、該転移性癌に対する一次治療の効力を改善する目的で、該一次治療と組み合わせて投与するアジュバントを含む。いくつかの実施態様においては、該アジュバントは抗生物質または抗菌剤である。いくつかの実施態様においては、該治療は転移性癌または転移性癌の環境に関連する微生物構成要素あるいは抗原に基づくものである。いくつかの実施態様においては、該治療は標的微生物抗原に対する養子細胞移植、微生物抗原に対する癌ワクチン、微生物抗原に対するモノクローナル抗体、少なくとも部分的に微生物抗原を標的とするように設計した抗体/薬剤複合体、少なくとも部分的に1種類以上の微生物抗原を標的とするように設計した多価抗体、その抗体断片、その抗体誘導体、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該治療は該微生物存在の機能的または生物学的に類似の微生物クラスを標的とする抗生物質を含む。いくつかの実施態様においては、該治療は2種類以上の治療種別を含み、ここで治療効力を増強する目的において、該2種類以上の治療種別を組み合わせ、該2種類以上の治療種別のうちの少なくとも1種類が、該転移性癌または該転移性癌環境に関連する微生物存在または存在量を利用する。いくつかの実施態様においては、該除染微生物存在と該転移性癌との間の関連は、該転移性癌の由来、種類、またはそれらの任意の組み合わせをさらに含む。
【0088】
いくつかの実施態様においては、対象の転移性癌の治療応答を予測する方法が本開示に記載されるが、該方法は以下を含む:
(a)転移性癌を有する対象の生体試料における微生物存在を検出すること;
(b)該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
(c)該除染微生物存在と対象の転移性癌とを関連付けること;
および
(d)該除染微生物存在と該転移性癌との間の関連に基づいて、該対象の転移性癌の治療応答を予測すること。いくつかの実施態様においては、該治療応答は、正の応答者、非応答者、有害応答者、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該微生物存在は微生物存在量をさらに含み、ここで該微生物存在または該微生物存在量は以下の非哺乳動物の生物種を含む:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該汚染微生物特徴量としては、該微生物存在の分類群帰属が挙げられる。いくつかの実施態様においては、工程(b)が省略される。いくつかの実施態様においては、該生体試料は、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該生体試料は1種類以上の全血の構成成分を含み、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該治療は該除染微生物存在によって代謝を受けることがなく、また不活性化状態になることもない。いくつかの実施態様においては、該治療としては、低分子、ホルモン療法、生物学的、工学的に改変した宿主由来細胞の1種類または複数種類、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、バクテリオファージ、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該治療は、該転移性癌に対する一次治療の効力を改善する目的で、該一次治療と組み合わせて投与するアジュバントを含む。いくつかの実施態様においては、該アジュバントは抗生物質または抗菌剤である。いくつかの実施態様においては、該治療は転移性癌または転移性癌の環境に関連する微生物構成要素あるいは抗原に基づくものである。いくつかの実施態様においては、該治療は、標的微生物抗原に対する養子細胞移植、微生物抗原に対する癌ワクチン、微生物抗原に対するモノクローナル抗体、少なくとも部分的に微生物抗原を標的とするように設計した抗体/薬剤複合体、少なくとも部分的に1種類以上の微生物抗原を標的とするように設計した多価抗体、その抗体断片、その抗体誘導体、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該治療は該微生物存在の機能的または生物学的に類似の微生物クラスを標的とする抗生物質を含む。いくつかの実施態様においては、該治療は2種類以上の治療種別を含み、ここで治療効力を増強する目的において、該2種類以上の治療種別を組み合わせ、該2種類以上の治療種別のうちの少なくとも1種類が、該転移性癌または該転移性癌環境に関連する微生物存在または存在量を利用する。いくつかの実施態様においては、該除染微生物存在と該転移性癌との間の関連は、該転移性癌の由来、種類、またはそれらの任意の組み合わせをさらに含む。
【0089】
いくつかの実施態様においては、対象の転移性癌の治療経過中に措置を判断する方法が本開示に記載されるが、該方法は以下を含む:
(a)転移性癌を有する対象の生体試料における微生物存在を検出すること;
(b)該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
(c)該除染微生物存在と対象の転移性癌とを関連付けること;
および
(d)該除染微生物存在と該転移性癌との間の関連に基づいて、該対象の転移性癌の治療経過中に措置を判断すること。いくつかの実施態様においては、該作用は該対象における転移性癌の治療を中止、開始、または休止することを含む。いくつかの実施態様においては、該微生物存在は微生物存在量をさらに含み、ここで該微生物存在または該微生物存在量は以下の非哺乳動物の生物種を含む:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該汚染微生物特徴量としては、該微生物存在の分類群帰属が挙げられる。いくつかの実施態様においては、工程(b)が省略される。いくつかの実施態様においては、該生体試料は、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該生体試料は1種類以上の全血の構成成分を含み、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該治療は該除染微生物存在によって代謝を受けることがなく、また不活性化状態になることもない。いくつかの実施態様においては、該治療としては、低分子、ホルモン療法、生物学的、工学的に改変した宿主由来細胞の1種類または複数種類、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、バクテリオファージ、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該治療は、該転移性癌に対する一次治療の効力を改善する目的で、該一次治療と組み合わせて投与するアジュバントを含む。いくつかの実施態様においては、該アジュバントは抗生物質または抗菌剤である。いくつかの実施態様においては、該治療は転移性癌または転移性癌の環境に関連する微生物構成要素あるいは抗原に基づくものである。いくつかの実施態様においては、該治療は標的微生物抗原に対する養子細胞移植、微生物抗原に対する癌ワクチン、微生物抗原に対するモノクローナル抗体、少なくとも部分的に微生物抗原を標的とするように設計した抗体/薬剤複合体、少なくとも部分的に1種類以上の微生物抗原を標的とするように設計した多価抗体、その抗体断片、その抗体誘導体、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該治療は該微生物存在の機能的または生物学的に類似の微生物クラスを標的とする抗生物質を含む。いくつかの実施態様においては、該治療は2種類以上の治療種別を含み、ここで治療効力を増強する目的において、該2種類以上の治療種別を組み合わせ、該2種類以上の治療種別のうちの少なくとも1種類が、該転移性癌または該転移性癌環境に関連する微生物存在または存在量を利用する。いくつかの実施態様においては、該除染微生物存在と該転移性癌との間の関連は、該転移性癌の由来、種類、またはそれらの任意の組み合わせをさらに含む。
【0090】
いくつかの実施態様においては、対象の転移性癌を治療することを目的として治療法を創出する方法が本開示に記載されるが、該方法は以下を含む:
(a)転移性癌を有する対象の生体試料における微生物存在を検出すること;
(b)該微生物存在の汚染微生物特徴量を除去し、それによって除染微生物存在を取得すること;
(c)該除染微生物存在と対象の転移性癌とを関連付けること;
および
(d)該除染微生物存在と該転移性癌との間の関連に基づいて、該対象の転移性癌を治療することを目的として治療法を創出すること。いくつかの実施態様においては、該微生物存在は微生物存在量をさらに含み、ここで該微生物存在または該微生物存在量は以下の非哺乳動物の生物種を含む:細菌、真菌、ウイルス、古細菌、原生動物、バクテリオファージ、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該汚染微生物特徴量としては、該微生物存在の分類群帰属が挙げられる。いくつかの実施態様においては、工程(b)が省略される。いくつかの実施態様においては、該生体試料は、組織試料、液体生検、全血生検、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該生体試料は1種類以上の全血の構成成分を含み、その構成成分としては、血漿、白血球、赤血球、血小板、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該治療は該除染微生物存在によって代謝を受けることがなく、また不活性化状態になることもない。いくつかの実施態様においては、該治療としては、低分子、ホルモン療法、生物学的、工学的に改変した宿主由来細胞の1種類または複数種類、プロバイオティクス、工学的に改変した細菌、天然であるが選択的なウイルス、工学的に改変したウイルス、バクテリオファージ、またはそれらの任意の組み合わせが挙げられる。いくつかの実施態様においては、該転移性癌としては以下が挙げられる:
急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、低悪性度の脳神経膠腫、浸潤性乳癌、子宮頸部扁平上皮細胞癌および子宮頸管腺癌、胆管癌、結腸腺癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、食道癌、多形性膠芽腫、頭頸部扁平上皮細胞癌、色素嫌性腎癌、明細胞腎癌、乳頭状腎細胞癌、肝細胞癌、肺腺癌、肺扁平上皮細胞癌、中皮腫、漿液性卵巣嚢胞腺癌、膵臓腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚黒色腫、胃腺癌、精巣生殖細胞腫瘍、甲状腺癌、胸腺腫、子宮癌肉腫、子宮体部内膜癌、ぶどう膜黒色腫、またはそれらの任意の組み合わせ。いくつかの実施態様においては、該治療は、該転移性癌に対する一次治療の効力を改善する目的で、該一次治療と組み合わせて投与するアジュバントを含む。いくつかの実施態様においては、該アジュバントは抗生物質または抗菌剤である。いくつかの実施態様においては、該治療は転移性癌または転移性癌の環境に関連する微生物構成要素あるいは抗原に基づくものである。いくつかの実施態様においては、該治療は標的微生物抗原に対する養子細胞移植、微生物抗原に対する癌ワクチン、微生物抗原に対するモノクローナル抗体、少なくとも部分的に微生物抗原を標的とするように設計した抗体/薬剤複合体、少なくとも部分的に1種類以上の微生物抗原を標的とするように設計した多価抗体、その抗体断片、その抗体誘導体、またはそれらの任意の組み合わせを含む。いくつかの実施態様においては、該治療は該微生物存在の機能的または生物学的に類似の微生物クラスを標的とする抗生物質を含む。いくつかの実施態様においては、該治療は2種類以上の治療種別を含み、ここで治療効力を増強する目的において、該2種類以上の治療種別を組み合わせ、該2種類以上の治療種別のうちの少なくとも1種類が、該転移性癌または該転移性癌環境に関連する微生物存在または存在量を利用する。いくつかの実施態様においては、該除染微生物存在と該転移性癌との間の関連は、該転移性癌の由来、種類、またはそれらの任意の組み合わせをさらに含む。
【図面の簡単な説明】
【0091】
図1】18個体の対象において、その組織微生物叢に基づき転移性乳癌および転移性甲状腺癌組織試料を識別し、それによって由来する原発腫瘍を診断する(転移性癌はその由来組織に基づいて命名されるので)、leave-one-out(1サンプルのみをテストセットにとり、他のサンプルを訓練データとする)相互検証(LOOCV)を機械学習の結果示す。
図2】559個体の対象に由来する血液内微生物DNAを用い、転移性癌を非転移性癌に対して予測する分析を示す。
図3】15個体の対象に由来する血液の微生物DNAを用いた、転移性黒色腫と他の転移性癌種との間の識別を示す。図3において「他の転移性癌種」という表現で示されている試料は、乳癌(2試料)、転移性甲状腺癌(2試料)、および転移性食道癌(1試料)を含む。様々な実施態様においては、充分な数を試験するために、これらの癌種および/またはその他の組み合わせのものを組み合わせるのであってもよい。
図4-1】微生物検出パイプラインによって同定した全シーケンシングリードの比率(%)およびKrakenによるTCGAデータセットを属レベルで分類したものを示すロリポッププロットである。LAML、急性骨髄性白血病;PAAD、膵臓腺癌;GBM、多形性膠芽腫;PRAD、前立腺腺癌;ESCA、食道癌;TCGT、精巣生殖細胞腫瘍;BRCA、浸潤性乳癌;THCA、甲状腺癌;KICH、色素嫌性腎癌;THYM、胸腺腫;READ、直腸腺癌;SARC、肉腫;UVM、ぶどう膜黒色腫;CHOL、胆管癌;ACC、副腎皮質癌;UCEC、子宮体部内膜癌;LUSC、肺扁平上皮細胞癌;PCPG、褐色細胞腫および傍神経節腫;BLCA、膀胱尿路上皮癌;UCS、子宮癌肉腫;LGG、低悪性度の脳神経膠腫(図4a)。全ての癌種に含まれる試料総数は17,625である。図4bは、品質管理処理および残りの試料数を示すコンソート(CONSORT)型の図を示している。FFPE、ホルマリン固定パラフィン包埋。図4cは、Voom正規化データの主成分分析を示す(PCA);癌微生物叢試料をシーケンシングセンター毎に色分けした。図4dは、Voom-SNMデータのPCAを示す。
図4-2】図4eは、分類学的カウント生データ、Voom正規化データ、およびVoom-SNMデータの分散主成分分析を示す。図4f~hは、グレースケール/赤色(高)からグレースケール/青色(低)までの分類器の性能測評価指標(AUROC(ROC)およびAUPR(PR))のヒートマップを示す;TCGA原発腫瘍間の識別(図4f);腫瘍と正常試料との間の識別(図4g);およびステージIとステージIVの癌の間の識別(図4h)。「NA」は、モデル訓練に関していずれのMLクラスでも利用可能な試料が充分ではない(例えば、20未満)ことを示している。
図5】少なくとも一つの実施態様にしたがうTCGA癌微生物叢データセット内のウイルスリードおよび細菌リードの生態学的検証を示す。図5aは、HMP2データセットについて訓練を行ったSource Tracker2を用いた、COAD患者(n=70)の固形組織正常試料に関する平均的な身体部位帰属を示す。図5bは、フゾバクテリウム属の複数菌種に関連する通常の消化管(GI)癌についての、フゾバクテリウム属の識別的存在量を表す。BDN、正常に由来する血液;STN、固形組織正常;PT、原発腫瘍。図5cは、群化GI癌(n=8:COAD、READ、CHOL、LIHC、PAAD、HNSC、ESCA、STAD;略語については、図8aを参照のこと)および非GI癌(n=24)におけるフゾバクテリウム属の識別的存在量を示す(「方法」を参照のこと)。図5d~eは、CESC(図5d)またはHNSC(図5e)を有するHPV感染患者(TCGAにおいて、そのような臨床的記載が含まれている)についての正規化HPV存在量を示す。ISH、インサイチューハイブリダイゼーション;IHC、免疫組織化学。図5fは、LIHC患者におけるオルソヘパドナウイルスの正規化存在量を示す(臨床的判定リスク要因:HepB、B型肝炎感染前;EtOH、大量のアルコール摂取;HepC、C型肝炎感染前)。図5gは、STADの包括的分子サブタイプにおけるEBVの正規化存在量を示す:CIN、染色体不安定性;GS、安定なゲノム;MSI、不安定マイクロサテライト;EBV、EBウイルス感染試料。すべてのパネルにおいて、血液由来正常データおよび/または固形組織正常データを比較陰性対照として示している;3つ以上の比較では、多重検定補正と共に両側マン=ホイットニーU検定を用いた;ボックスプロットは、中央値を示す(直線)、第一四分位数および第三四分位数(四角)、および1.5×四分位範囲(IQR、ヒゲ)。グレースケール/青色の数は、各群のサンプルサイズを表している。
図6】癌「液体」生検の補完的診断アプローチとして、血液のmbDNAを利用した癌識別の分類器性能を示す。図6aは、血液mbDNAを用いて1癌種を残り全ての癌種に対して予測する、図4f~hに類似するモデル性能ヒートマップを示す(TCGA試験のIDを右側に示す(図8a));各ML少数クラスが適格性を有するためには、少なくとも20試料が必要である。図6bは、血液mbDNAを用いた、ステージIa~IIc癌についての1癌種を残り全ての癌種に対して予測するMLモデルの性能を示す。図6c~dは、検出可能な原発腫瘍ゲノム変化を有していない患者の血液mbDNAを用いた、MLモデル性能を示す(Guardant360(図6c)およびFoundationOne液体(図6d)ctDNAアッセイによる)。FD、完全データ;LCR、シーケンシングセンターで、汚染の可能性の高い混入物が除外されている;APCR、シーケンシングセンターで、全推定汚染物が除外されている;PCCR、除外されたプレート/センター汚染物;MSF、シーケンシングセンターで最も厳格なフィルタリング。各比較の性能を評価するために含めた試料の数は、cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowserのデータブラウザー混同行列に示されている。
図7-1】血漿由来無細胞mbDNAを用いた、癌種と健常対照との間の識別に関するMLモデルの性能を示す。図7aは、検証試験における分析試料の人口構成。全ての患者が複数亜種の高悪性度(ステージIII~IV)癌を有しており、PC群、LC群、およびSKCM群を形成した。図7bは、非癌健常対照(n=69)から群化癌試料(n=100)を識別するブートストラップ処理性能推定値を示す。異なる訓練/試験分割部分(70%訓練/30%試験)で500反復後のROC(top)およびPR(bottom)曲線データのラスター化密度プロット。
図7-2】図7c~hは、2クラス間でのleave-one-out(1サンプルのみをテストセットにとり、他のサンプルを訓練データとする)(LOO)反復ML性能を示す:前立腺癌(PC)対対照(Ctrl;図7c);肺癌(LC)対対照(図7d);黒色腫(SKCM)対対照(図7e);PC対LC(図7f)、LC対SKCM(図7g);およびPC対SKCM(図7h)。
図7-3】図7i~kは、種別間(図7i)および混成癌患者と健常対照個体との間(それぞれ、図7jおよび図7k)での識別に関するマルチクラス(n=3または4)LOO反復ML性能を示す。全体的なLOO ML性能を、1対残り全てを比較する性能の平均として算出した(混同行列の下に示す)。
図8-1】TCGA癌微生物叢の概要を連続的に示したものである。図8aは、TCGA試験の略語の表を示す。図8bは、Voom正規化データのPCAを示すものであるが、ここでグレースケール/カラーは試料のシーケンシングプラットフォームを表し、各点は癌微生物叢の試料を表す。図8cは、シーケンシングプラットフォームと表示されていることからも分かるように、連続的なVoom-SNM教師あり正規化後のデータのPCAを表す。図8dは、Voom正規化データのPCAを示すが、ここでグレースケール/カラーは試料の実験的方略を表し、各点は癌微生物叢の試料を表す。図8eは、実験的方略と表示されていることからもわかるように、連続的なVoom-SNM教師あり正規化後のデータのPCAを表している。
図8-2】図8f~gは、メタデータ品質管理(図4b)後、TCGAにおける全癌種にわたり所定の試料種別内で試料量によって正規化した微生物リードカウントを表す;これらは、論文で分析した3種類の主要な試料種別(図8f)および残りの試料種別(図8g)を含む。ANP、追加の新規原発腫瘍;AM、追加の転移性腫瘍;MM、転移性腫瘍;RT、再発性腫瘍。生データおよび正規化データのPCAについては、n=17,625。
図9-1】微生物存在量を用いた、癌のTCGA種別間および種別内での識別性能評価指標を示す。図9a~fは、図4f~hにおけるヒートマップからの例を示している。グレースケール/カラー勾配(上部)は、ROC曲線およびPR曲線上のいずれかの点における確率閾値を表す。挿入図の混同行列は50%確率閾値カットオフを用いた場合のものであり、ROC曲線およびPR曲線上の対応する点における感度、特異度、性化率、再現率、陽性予測値率、陰性予測値率などを算出するために利用できる。
図9-2】図9g~hは、1癌種対残り全ての様式で、少数クラスのサイズの関数として癌種間の識別を行う場合の、モデル性能、具体的には、AUROC(図9g)およびAUPR(図9h)の線形回帰を示す。原発腫瘍に検出された微生物を用いたモデルの性能を、最大サンプル数(n=13,883)および比較する癌種(n=32)と共に示している。AUROCおよびAUPRは、[0,1]のドメインおよび20から1,238試料の間で変化する少数クラスサイズを有するので、後者はlog10スケールで回帰する。挿入図の仮説検定および関連するP値は、従属変数と独立変数との間に関連性がないゼロ仮説に基づくものである(勾配の両側仮説検定)。各比較の性能を評価するために含めた試料の数は、cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowserのデータブラウザー混同行列に示されている。
図10-1】MLモデルパイプラインの内部検証を示す。図10aは、TCGA微生物カウント生データの2つの独立した半分を示すが、これらは正規化し、腫瘍微生物のDNAおよびRNAを用いて1癌種を残り全ての癌種に対して予測するモデルの訓練に用いたものである;次いで、各モデルを他の半分の正規化データに当てはめた。このヒートマップでは、完全データセットの50%/50%分割部分での訓練および試験に対して比較を行った、これらのモデルの性能を比較するものである(分割部分1:n=8,814試料;分割部分2:n=8,811試料;全試料:n=17,625)。図10b~cは、1癌種を残り全癌種に対して予測するために、完全Voom-SNMデータを、複数のシーケンシングセンターにわたる原発腫瘍RNA試料(n=11,741)でサブセットとする場合のモデル性能比較を示す(図10b、AUROC;図10c、AUPR)。
図10-2】図10d~eは、1癌種を残り全癌種に対して予測するために、完全Voom-SNMデータを、複数のシーケンシングセンターにわたる原発腫瘍DNA試料(n=2,142)でサブセットとする場合のモデル性能比較を示す(図10d、AUROC;図10e、AUPR)。図10f~gは、原発腫瘍RNA試料を用いて1癌種を残り全癌種に対して予測するために、完全Voom-SNMデータを、RNA-seqのみを行ったUNCの試料(n=9,726)でサブセットとする場合のモデル性能比較を表す(図10f、AUROC;図10g、AUPR)。図10h~iは、原発腫瘍DNA試料を用いて1癌種を残り全癌種に対して予測するために、完全Voom-SNMデータを、HMSの試料(n=898)でサブセットとする場合のモデル性能比較を示す(図10h、AUROC;図10i、AUPR)。図10b~iは、一般化線型モデルを示す;標準誤差を灰色で表す;点線の対角線は完全線形関係を表す;サンプルサイズについては、13,883原発腫瘍試料が完全Voom-SNMデータセットに含まれる。
図11-1】Krakenに基づくTCGA癌微生物叢プロファイルおよびそれらのML性能の直交検証を示す。図11a~hは、4種類のTCGA癌(CESC、n=142(DNA)およびn=309(RNA);STAD、n=322(DNA)およびn=770(RNA);LUAD、n=351(DNA)およびn=600(RNA);ならびにOV、n=189(DNA)およびn=850(RNA))を示す;これら癌の種別については、Kraken分類帰属後に、腫瘍微生物のDNAおよびRNAを用いた直接的ゲノム整列(BWA)によって、さらなるフィルタリングを行った。正規化し、BWAフィルタリングを行ったデータ、および整合化し、独立に正規化したKrakenデータの間で、以下についてML性能比較を行った:すなわち、原発腫瘍微生物を用いた1癌種を残りの全癌種に対して識別(図11a、AUROC;図11b、AUPR);腫瘍を正常に対して識別(図11c、AUROC;図11d、AUPR);原発腫瘍微生物を用いて、ステージI腫瘍をステージIV腫瘍に対して識別(図11e、AUROC;図11f、AUPR);および血液由来微生物を用いて、1癌種を残りの全癌種に対して識別(図11g、AUROC;図11h、AUPR)(「方法」を参照のこと)。
図11-2】図11iは、BWAふるい分けデータとKraken全データとの間の分類群カウントのVenn図を示す。図11j~tは、異なるデータベースを利用するSHOGUNとよぶ直交微生物検出パイプラインを示す;Voom-SNMで正規化したTCGA試料のサブセット(n=全13,517試料)であって、そのKraken対応物に類似するサブセットについてSHOGUN処理を行い、この処理データを下流ML分析に用いた。図11jは、SHOGUNに基づく微生物分類群(S)およびKrakenに基づく微生物分類群(K)のVenn図である。SHOGUNデータベースはウイルスを含まないが、Krakenデータベースはウイルスを含むことに留意されたい。図11k~lは、Voom正規化SHOGUNデータのPCA(図11k)およびVoom-SNM(図11l)正規化SHOGUNデータを示す;シーケンシングセンターに応じたグレースケール/カラー表示となっている。
図11-3】図11m~tは、同一の70%/30%分割部分を用い、SHOGUNデータおよび整合化Krakenデータについて訓練および試験したモデル間で、以下に関して行ったML性能比較を示す:すなわち、原発腫瘍微生物を用いて、1癌種を残りの全癌種に対して識別(図11m、AUROC;図11n、AUPR);腫瘍を対正常に対して識別(図11o、AUROC;図11p、AUPR);原発腫瘍微生物を用いて、ステージI腫瘍をステージIV腫瘍に対して識別(図11q、AUROC;図11r、AUPR);および血液由来微生物を用い、1癌種を残りの全癌種に対して識別(図11s、AUROC;図11t、AUPR)。公正な比較では、整合化Krakenデータは、Krakenカウント生データから全ウイルス帰属を除去し、SHOGUNで分析した同一のTCGA13,517試料をサブセットとして取得したものである;次いで、SHOGUNデータ(「方法」を参照のこと)の場合と同じ方法で、これらの整合化Krakenデータを独立にVoom-SNMによって正規化してから、下流MLパイプラインに送った。全ML性能に関して、各クラスが適格性を有するためには、20試料以上を必要とした。回帰サブ図に関して、点線の対角線は完璧な性能に相当することを示すものである;一般化線形モデルを標準誤差リボン付きで示している。
図12】汎癌微生物存在量、ならびにTCGA癌微生物叢プロファイリングおよびMLモデル検査に関するインタラクティブなウェブサイトを示す。図12aは、フゾバクテリウム属の汎癌正規化存在量を示すが、試料種別毎の癌種にわたる微生物存在量について一元配置分散分析(クラスカル=ウォリス)検定を行ったものである。サンプルサイズはグレースケール/青色の挿入図であり、ボックスプロットは、中央値を示す(直線)、第一四分位数および第三四分位数(四角)、および1.5×四分位範囲(IQR、ヒゲ);TCGA試験の略語が下部のリストに示されており、また図8aにおいて定義されている。図12bは、TCGA-COAD固形組織の正常試料(n=70)およびTCGASKCM原発腫瘍試料(n=122)について、HMP2データに基づくものとして、糞便の影響に関するSourceTracker2の結果を示している。TCGA-SKCM(補足表4)については、1つの固形組織正常試料のみしか利用できなかったので、代わりに、予想される皮膚微生物叢の最良の代替として原発腫瘍を用いた。結腸試料は皮膚よりもより大きな糞便寄与を有するはずであると予想されるので、片側マン=ホイットニーU検定を用いた。SourceTracker2は、各ソース(すなわち、HMP2)の各シンク(すなわち、COAD試料、SKCM試料)に対する平均分率的寄与を出力するので、各バープロットの中心値はこれらの値の平均値であり、誤差棒は標準誤差を表す。サンプルサイズを下部にグレースケール/青色で示す。図12cは、アルファパピローマウイルスの汎癌正規化存在量を示すが、試料種別毎の癌種にわたる微生物存在量について一元配置分散分析(クラスカル=ウォリス)検定を行ったものである。サンプルサイズはグレースケール/青色の挿入図;ボックスプロットは、中央値を示す(直線)、第一四分位数および第三四分位数(四角)、および1.5×四分位範囲(IQR、ヒゲ);TCGA試験の略語が下部のリストに示されており、また図8aにおいて定義されている。HPV感染について患者の臨床的検査を行ったTCGA試験を、陰性群および陽性群に分割する。図12dは、Krakenに基づくデータを用いてアルファパピローマウイルスで正規化した微生物存在量のプロットを表示するインタラクティブなウェブサイトのスクリーンショットを示す。そのウェブサイトの別タブにおいて、SHOGUNに基づく正規化微生物存在量を用いたプロットが利用可能である(左側)。図12eは、MLモデル検査のインタラクティブなウェブサイトについてのスクリーンショットを表す。データの種類(例えば、除去した全ての汚染と考えられる混入物)、癌の種類(例えば、浸潤性乳癌)、および目的とする比較(例えば、腫瘍対正常)の選択によって、ROC曲線およびPR曲線ならびに(50%の確率カットオフ閾値を用いて)混同行列およびランク付けモデル特徴量のリストが自動的に更新される。ウェブサイトは、cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowserでアクセス可能である。
図13-1】癌微生物叢のデータに関する結果、利点、および制約と共に除染アプローチについて示している。図13aは、汚染源の評価、軽減、除去および/またはシミュレーションのために用いる様々なアプローチを示す。図13bは、様々なレベルで除染を行った後に、TCGAにおいて残った分類群または微生物リードの割合を示す。シーケンシングセンターについての除染によって、いずれか1か所のシーケンシングセンター(n=8バッチ)において汚染と同定した全ての分類群が除外された;プレート/センターの組み合わせについての除染では、10種類超のTCGA試料を含むいずれかの単一シーケンシングプレート(n=351バッチ)において汚染と同定した全ての分類群が除外された。
図13-2】図13c~fは、以下に関する身体部位帰属の予測を示す:汚染物の可能性のあるものを除染したデータセット(図13c)、プレート/センター除染データセット(図13d)、全ての推定汚染物を除外したデータセット(図13e)、および最も厳格なフィルタリングデータセット(図13f)。図13g~lは、上記の4種類の除染データセット(下部に示されるように、それぞれ異なるグレースケール/カラーで表示されている)を用いて再生成したモデルおよび付随する性能値(AUROCおよびAUPR)を示す。除染データセットについて訓練および試験したモデルから取得したAUROCおよびAUPRの値を、完全データセットのAUROCまたはAUPRの値に対してプロットした(図4f~h)。破線の対角線は完全線形関係を表す。一般化直鎖状モデルを対応するデータセットのAUROCおよびAUPRの値にフィットさせた;直線フィットの標準誤差については網掛け領域で示されている。全図を通してCOAD(n=全1,006試料)モデル性能を判定した。
図14-1】試料種別当たりの平均リードの割合に対する除染効果を示す。主要な各試料種別(原発腫瘍(図14a)、固形組織正常(図14b)、血液由来正常(図14c))の総リードカウント(DNAおよびRNA)を合計し、各試料種別内の試料の総数で割り算した。次いで、各癌種について、この(試料種別当たりの)正規化リードカウントを、全試料種別を通じて合計した正規化リードカウントで割り算することにより、平均リード/試料種別/癌種の割合の推定値を得た。図内の説明に記載されるように、これを5つのデータセット全てについて反復し、混入除去が試料および/または癌の特定種類に識別的影響を与えたのか否かについて評価を行った;示される相対的安定性比率(%)は、識別的汚染がないことを示唆するであろう。本論文でさらなる除染またはML(例えば、さらなる転移病変;n=4試料種別;図8g)による分析を行わなかった少数試料種別については、本明細書においては提示していない。所定の癌種について1試料種別のみしか存在しない特殊な場合(ACC、MESO、UCSの原発腫瘍)においては、バーはいずれも、正規化リードの100%が1つの試料種別に由来するものだということを示しており、留意されたい。調べた癌試料の総数は17,625である。
図14-2】試料種別当たりの平均リードの割合に対する除染効果を示す。主要な各試料種別(原発腫瘍(図14a)、固形組織正常(図14b)、血液由来正常(図14c))の総リードカウント(DNAおよびRNA)を合計し、各試料種別内の試料の総数で割り算した。次いで、各癌種について、この(試料種別当たりの)正規化リードカウントを、全試料種別を通じて合計した正規化リードカウントで割り算することにより、平均リード/試料種別/癌種の割合の推定値を得た。図内の説明に記載されるように、これを5つのデータセット全てについて反復し、混入除去が試料および/または癌の特定種類に識別的影響を与えたのか否かについて評価を行った;示される相対的安定性比率(%)は、識別的汚染がないことを示唆するであろう。本論文でさらなる除染またはML(例えば、さらなる転移病変;n=4試料種別;図8g)による分析を行わなかった少数試料種別については、本明細書においては提示していない。所定の癌種について1試料種別のみしか存在しない特殊な場合(ACC、MESO、UCSの原発腫瘍)においては、バーはいずれも、正規化リードの100%が1つの試料種別に由来するものだということを示しており、留意されたい。調べた癌試料の総数は17,625である。
図14-3】試料種別当たりの平均リードの割合に対する除染効果を示す。主要な各試料種別(原発腫瘍(図14a)、固形組織正常(図14b)、血液由来正常(図14c))の総リードカウント(DNAおよびRNA)を合計し、各試料種別内の試料の総数で割り算した。次いで、各癌種について、この(試料種別当たりの)正規化リードカウントを、全試料種別を通じて合計した正規化リードカウントで割り算することにより、平均リード/試料種別/癌種の割合の推定値を得た。図内の説明に記載されるように、これを5つのデータセット全てについて反復し、混入除去が試料および/または癌の特定種類に識別的影響を与えたのか否かについて評価を行った;示される相対的安定性比率(%)は、識別的汚染がないことを示唆するであろう。本論文でさらなる除染またはML(例えば、さらなる転移病変;n=4試料種別;図8g)による分析を行わなかった少数試料種別については、本明細書においては提示していない。所定の癌種について1試料種別のみしか存在しない特殊な場合(ACC、MESO、UCSの原発腫瘍)においては、バーはいずれも、正規化リードの100%が1つの試料種別に由来するものだということを示しており、留意されたい。調べた癌試料の総数は17,625である。
図15-1】下流MLモデルに混入させた擬似汚染物の寄与の測定、および宿主を基盤とする市販ctDNAアッセイの、TCGAの患者での理論的感度を示す。図15a~bは、原発腫瘍微生物のDNAまたはRNAを用いて(図15a)、または血液由来mbDNAを用いて(図15b)、4種類の除染データセット全て(図13b)において、1癌種を残りの全癌種に対して識別するように訓練したモデルについて用いた全分類群の算出特徴量重要度スコアを表す。除染および正規化パイプラインの前にこれらの除染データセットに擬似汚染物を混入させてから、それらの性能を評価した(「方法」を参照のこと);表示モデルの試験セット性能については、それぞれ図13g~hおよび図6aに示されている。正確予測に対する寄与率(%)を推定するモデルにおいて、該モデルが利用する混入擬似汚染物の特徴量重要度スコアは、予め全特徴量重要度スコアの合計で割り算したものであった;(100のうち)そのスコアが高ければ高いほど、そのモデルは生物学的に信頼性が劣る結果となる。ゼロは、モデルによる予測を行う際に混入させた擬似汚染物を全く利用していないことを意味し;プレート/センター除染データによって生成したいずれのモデルも特徴量として混入させた擬似汚染物を含まないことに留意されたい。各比較の性能を評価するために含めた試料の数は、cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowserのデータブラウザー混同行列に示されている。
図15-2】図15c~dは、FoundationOne Liquid ctDNAコード遺伝子(図15c)またはGuardant360 ctDNAコード遺伝子(図15d)で1種類以上のゲノム変化を有する患者の、TCGA試験における分布(%)を示す。調べた試料の数および生データについては、cbioportal.orgから入手可能である。図15eは、FoundationOneおよびGuardant360 ctDNAアッセイのコード遺伝子のリストおよび調べたそれらの変化(「方法」にリストに示されているソース)を含む表を示す。
図16-1】健常個体と複数種類の癌との間の実環境血漿由来無細胞微生物DNA分析を示す。図16aは、実環境検証試験を実験的に実施するために用いたTCGAの識別シミュレーションを示す(図7;「方法」を参照のこと)。各層化サンプルサイズの中心値は10反復した性能の平均である;誤差棒は標準誤差を表す。
図16-2】図16bは、陽性対照細菌(Aliivibrio)単培養物、陰性対照ブランク、およびKrakenおよびSHOGUNに基づくデータを用いたヒト試料種別における、アリイビブリオ(Aliivibrio)属存在量の値(生リードカウント)についての評価を表す。図16cは、細菌単培養物の希釈物におけるアリイビブリオ(Aliivibrio)属の存在量を示す(生リードカウント)。図16dは、癌を有していない健常対照個体(Ctrl)および肺癌(LC)、前立腺癌(PC)、または黒色腫(SKCM)を有する群化患者における年齢分布を示す。
図16-3】図16eは、患者の性別分布を示し、挿入図はPearsonのχ検定(片側臨界域)である。図16fは、用いた異なるデータベースであるKrakenとSHOGUNとの間の分類群帰属に関するVenn図を示す。図16gは、癌のない健常個体におけるKraken(グレースケール/ピンク色)またはSHOGUN(グレースケール/水色)の微生物カウント生データを用いた宿主年齢の反復LOO ML回帰を示す。全試料にわたって評価した平均絶対誤差(MAE)を示している。図16h~jは、無細胞微生物DNAを用いて健常個体と癌を有する群化患者との識別を行うMLの性能への、Voom-SNM前の年齢交換(図16h)、性別交換(図16i)、および年齢性別交換(図16j)の効果を示す。各比較には100回の交換を用いた(「方法」を参照のこと)。図16kは、SKCMコホートサイズ(n=16試料)を適合化するための前立腺癌(PC)、肺癌(LC)、黒色腫(SKCM)、および対照群の反復サブサンプリングを示す;適合化後に、サブサンプリングした健常対照に対する各サブサンプリングした癌種の対合MLのleave-one-out(1サンプルのみをテストセットにとり、他のサンプルを訓練データとする)(LOO)を実施した。100回の交換反復を用いて識別性能分布および標準誤差を推定した(「方法」を参照のこと)。図16b~cについては、log10スケールおよび0.5擬似カウント下限(点線)であることに留意されたい。図16b~d、h~kについては、3つ以上の比較検定を行う場合の仮説検定は、多重検定補正付き両側マン=ホイットニーU検定である;ボックスプロットは、中央値を示す(直線)、第一四分位数および第三四分位数(四角)、および1.5×四分位範囲(IQR、ヒゲ)。ボックスプロットおよびバープロットは全て、サンプルサイズを下部にグレースケール/青色で示す。
図17-1】無細胞微生物DNAを用いて癌種と癌を有していない健常個体との間の識別を行う場合の、SHOGUNに基づくMLの性能を示す。図17aは、癌を有していない健常対照個体(n=69)から群化癌患者(n=100)を識別するブートストラップ処理性能推定値を示す。異なる訓練/試験の分割部分(70%訓練/30%試験)の500回反復によるROC曲線データおよびPR曲線データがラスター化密度プロットに示されている;平均値および95%CI推定値が示される。
図17-2】図17b~gは、以下の2クラス間のLOO反復ML性能を示す:前立腺癌(PC)対対照(図17b);肺癌(LC)対対照(図17c);黒色腫(SKCM)対対照(図17d)、PC対LC(図17e)、LC対SKCM(図17f)、およびPC対SKCM(図17g)。
図17-3】図17h~jは、癌種間、ならびに患癌者と癌のない健常対照個体との間の識別を行うマルチクラス(n=3または4)、leave-one-out(LOO)反復ML性能を示す。1対残り全てのAUROC値およびAUPR値から算出した平均のAUROCおよびAUPRを混同行列の下に示す。図17hは、試験した3種類の癌の間のLOO ML性能を示す。図17iは、少数クラスに少なくとも20試料を含む場合(すなわち、TCGA分析に用いたカットオフ、図4f~h)の3つの試料種別間のLOO ML性能を示す。図17jは、試験した全4種類の試料種別間のLOO ML性能を示す。混同行列プロットを含む全サブ図に関しては、サンプルサイズが小型であることから、代替として単一またはブートストラップ訓練/試験の分割部分のLOO MLを用いた;これらの混同行列はまた各比較に用いた試料の数を反映する。
図18】本開示の1種類以上の例示的実施態様にしたがって1種類以上の技術(例えば、方法)のうちのいずれを実施してもよい計算装置またはコンピューターシステムの例を表すブロック図である。
【発明を実施するための形態】
【0092】
本明細書において言及される刊行物、特許、および特許出願は全てが、あたかも個別かつ具体的に参照として挿入されているが如く本明細書に参照として組み入れられるのである。
【0093】
他で特段に定義されるのでない限り、本明細書中のすべての技術的用語および科学的用語および頭字語も、本発明の技術分野における当業者に通常理解されるものと同一の意味を有するものである。本明細書に記載の方法および材料に類似する、あるいは同等のいずれの方法および材料も本発明の実施に用いることが可能ではあるが、例示的な方法、デバイス、および材料を本明細書に説明する。
【0094】
様々な実施態様の実施においては、特段に明記されるのでない限り、当該技術分野の技能に含まれる分子生物学(診断技術を含む)、微生物学、細胞生物学、生物化学および免疫学の従来技術を利用する。そのような技術は、以下のような文献において詳細に説明されている:
「分子クローニング:実験室マニュアル、第2版(Molecular Cloning: A Laboratory Manual, 2nd ed.)」 (Sambrookら、1989); 「オリゴヌクレオチド合成(Oligonucleotide Synthesis)」(編集M. J. Gait、1984);「動物細胞培養(Animal Cell Culture)」(編集R. I. Freshney、1987); 「酵素学の方法(Methods in Enzymology)」 (Academic Press社);「分子生物学の最新プロトコル(Current Protocols in Molecular Biology)」(編集F. M. Ausubelら、1987、およびその定期的更新版);「PCR:ポリメラーゼ連鎖反応(PCR: The Polymerase Chain Reaction)」(編集Mullisら、1994);レミントンの薬剤化学と実際第20版(Remington, The Science and Practice of Pharmacy, 20th ed.) (Lippincott、Williams & Wilkins 2003);および「レミントンの薬剤化学と実際第22版(Remington, The Science and Practice of Pharmacy, 22th ed.)」(Pharmaceutical Press and Philadelphia College of Pharmacy at University of the Sciences、2012)。
【0095】
少なくとも一実施態様においては、転移性癌を有する対象の組織または血液の微生物叢に基づいて、転移の由来組織の検出および判定を行う方法を提供する。実施態様においては、本発明は、以下を含む微生物核酸を用い、組織または血液における微生物叢に基づいて、転移の由来組織を判定する方法を提供する:
(a)患者の生検試料(固形組織または血液を含む)から転移性癌組織試料を取得すること;
(b)例えば、ZymoBIOMICS DNAミニプレップキットによって、癌組織試料から核酸を抽出すること;
(c)KAPA HyperPlusキットを用いることなどによって抽出した核酸から核酸シーケンシングライブラリーを調製すること;
(d)Illumina NovaSeq 6000機器などによる次世代シーケンシングを用いて、該核酸ライブラリー(NGS)をシーケンシングすること;
(e)SHOGUNアルゴリズム(PMID:30443602)を用いることなどにより、該試料についての微生物存在量の表を取得することを目的として、公知の微生物ゲノムに対して出力核酸シーケンシングリードを整列化させること;
および
(f)勾配ブースティング分類木を用いて転移性癌の由来組織の判定結果または予測結果を得るために、該微生物存在量の表を機械学習アルゴリズムに入力すること。
【0096】
少なくとも一実施態様においては、核酸を提供するが、該核酸はDNAまたはRNAであり得る。実施態様においては、該工程は微生物のDNAまたはRNAに着目して利用することができる。他の代替としては、転移の由来組織をより正確に診断することを目的とした、微生物のDNAおよびRNAと宿主のDNAおよびRNAとの組み合わせが挙げられる。
【0097】
少なくとも一実施態様においては、非微生物核酸であって、公知の微生物ゲノムに対して核酸シーケンシングリードを整列化させる前に除去される非微生物核酸を提供する。
【0098】
少なくとも一実施態様においては、汚染微生物核酸であって、公知の微生物ゲノムに対して核酸シーケンシングリードを整列化させる前に除去される汚染微生物核酸を提供する。
【0099】
少なくとも一実施態様においては、核酸シーケンシングリードを公知の微生物ゲノムに対して整列化させた後であって、微生物存在量の表を機械学習アルゴリズムに入力する前に、汚染微生物核酸が除去することを提供する。
【0100】
少なくとも一つの実施態様においては、公知の微生物ゲノムに対して出力核酸シーケンシングリードを整列化させる場合に、微生物の存在または非存在に関する情報を生成するが、ここで該微生物の存在または非存在に関する情報はその後に機械学習に用いるものである。
【0101】
少なくとも一実施態様においては、該対象のいずれかの組織から核酸を抽出し得ることを提供するが、そのような組織としては、固形組織、腫瘍、血液、液体生検、またはそれらの任意の組み合わせが挙げられる。したがって、循環血液、循環血液の構成成分(例えば、血漿、白血球、血小板)、またはそれらの任意の組み合わせから該核酸を抽出してもよい。
【0102】
少なくとも一つの実施態様においては、転移性癌の由来組織の判定に基づいて、対象の予後を判定する、対象の予防処置を行う、および/または対象を治療する方法をさらに提供するが、ここで該方法は、該転移に適応する有効量の治療組成物を該対象に投与すること、または該転移を適応とする治療プロトコルを実施することを含む。
【0103】
定義
本発明の理解を容易にするために、本明細書中で用いられる複数の用語および略語を以下に定義する。
【0104】
本明細書中の用語「を含む(comprises)」、「を含む(comprising)」、「を含む(includes)」、「を含む(including)」、「を有する(has)」、「を有する(having)」、「含む(contains)」、「を含む(containing)」、「によって特徴付けられる(characterized by)」または他の任意のそれらの変形は、非排他的包含を含むことを意図するのであって、他でそうでないことを明示的に示すのでない限り、列挙要素のいかなる限定も受けるものではない。例えば、リストされる要素(例えば、成分、特徴量、または工程)「を含む」融合蛋白質、医薬組成物、および/または方法は、それらの要素(または成分または工程)のみに必ずしも限定されるものではなく、リストに明示的に示されてはいない他の要素(または成分または工程)または該融合蛋白質、医薬組成物および/または方法に固有の他の要素(または成分または工程)を含むのであってもよい。
【0105】
本明細書において、移行部「から成る(consists of)」および「から成る(consisting of)」は、特定されないいかなる要素、工程、および成分も除外するものである。例えば、請求項において用いられる「から成る(consists of)」または「から成る(consisting of)」は、その請求項を、通常それに関連する不純物(すなわち、所定の成分に含まれる不純物)を除けば、該請求項において具体的に列挙される該成分、該材料、または工程に限定するのである。表現「から成る(consists of)」または「から成る(consisting of)」が、請求項の序文の直後ではなく、請求項の要部に用いられる場合には、「から成る(consists of)」または「から成る(consisting of)」という表現は、その部分に明記される要素(または成分または工程)にのみ限定するものである;他の要素(または成分)はその請求項から全体的に除外されるのである。
【0106】
本明細書において、移行部「本質的に~からなる(consists essentially of)」および「本質的に~から成る(consisting essentially of)」は、文字通り開示されたものに加えて、材料、工程、特徴量、成分、または要素を含む融合蛋白質、医薬組成物、および/または方法を規定する目的で用いられるが、これらの付加的な材料、工程、特徴量、成分、または要素が、請求項に係る発明の基本的かつ新規の特徴には実質的に影響しない場合に、このような表現が用いられるのである。この用語「本質的にから成る」は、「を含む」と「から成る」との間の中間的位置を占めるものである。
【0107】
本発明またはその好ましい実施態様の要素を導入する場合には、冠詞の「a」、「an」、「the」および「said」は、該要素のうちの1つ以上が存在する意味を意図する。用語「を含む(comprising)」、「を含む(including)」および「を有する(having)」は、包括的であることを意図し、リストに示されている要素以外の付加的要素が存在してもよいことを意味する。
【0108】
用語「および/または(and/or)」が2種類以上の項目のリスト中で用いられる場合には、列挙された項目のいずれか1種類を単独で、または列挙された項目のうちのいずれか1種類以上のものと組み合わせて用いることが可能であることを意味する。例えば、「Aおよび/またはB」という表現は、AおよびBのいずれか、AおよびBの両方、すなわちA単独、B単独またはAとBの組み合わせの意味を意図する。「A、Bおよび/またはC」という表現は、A単独、B単独、C単独、AとBの組み合わせ、AとCの組み合わせ、BとCの組み合わせ、またはA、B、およびCの組み合わせの意味を意図する。
【0109】
本明細書に記載される発明の局面および実施態様は、局面および実施態様「から成る(consisting)」および/または「本質的に」局面および実施態様「から成る(consisting essentially of)」を含むものであることを理解されたい。
【0110】
範囲に関する言及は単に便宜的かつ簡便さを目的とするものであって、本発明の範囲についての柔軟性のない限定であると見なすべきでないことを理解されたい。したがって、ある範囲についての記載は、具体的に開示される全ての可能な小範囲ならびにその範囲内の個々の数値を有するものと見なすべきである。例えば、1~6などの範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6など、ならびにその範囲内の個々の数値、例えば、1、2、3、4、5、および6などの、具体的に開示される小範囲を有するものと見なすべきである。範囲の幅にかかわらず、これがあてはまる。値または範囲はまた、本明細書において、「約(about)」、「約(about)」一特定値~、および/または「約(about)」別の一特定値までと表現することがある。そのような値または範囲を表現する場合には、本開示のその他の実施態様は、一特定値から、および/または別の特定値までの列挙される特定値を含む。同様に、先行詞「約(about)」を用いることによって、値を概算値として表現する場合には、特定値は別の一実施態様を形成することを理解されたい。それによって開示された複数の値が存在し、各値はまた特定値それ自体に加えて、その特定値の「約(about)」として本明細書に開示されることが、さらに理解されるであろう。実施態様において、「約(about)」は、例えば、列挙値の10%以内、列挙値の5%以内、または列挙値の2%以内を意図する目的で用いることができる。
【0111】
本明細書中の「患者」または「対象」は、診断または治療するヒト対象または動物対象を指す。
【0112】
本明細書中の用語「医薬組成物」は、薬学的に許容され得る組成物を指すが、ここで該組成物は薬学的活性剤を含み、いくつかの実施態様においては薬学的に許容され得る担体をさらに含む。いくつかの実施態様においては、該医薬組成物は薬学的活性剤および担体の組み合わせであってもよい。
【0113】
本明細書中の用語「薬学的に許容可能な」は、連邦政府または州政府の規制当局によって承認されているものであること、または米国薬局方、その他の一般的に認められている薬局方のリストに記載されているものであることを意味し、それに加えて動物、より具体的には、ヒトおよび/または非ヒト哺乳動物においての利用が安全であるその他の製剤を意味する。
【0114】
本明細書中の用語「薬学的に許容され得る担体」は、脱メチル化化合物と共に投与する賦形剤、希釈剤、防腐剤、可溶化剤、乳化剤、アジュバント、および/または媒体を指す。そのような担体は水および油脂類などの滅菌液体であってもよく、このようなものとしては、石油、動物、野菜または合成に由来する油脂類が挙げられる(落花生油、大豆油、ミネラルオイル、ごま油など、ポリエチレングリコール類、グリセリン、プロピレングリコールまたは他の合成溶媒など)。ベンジルアルコールまたはメチルパラベン類などの抗菌剤;アスコルビン酸または亜硫酸水素ナトリウムなどの抗酸化剤;キレート剤(エチレンジアミン四酢酸など)など;および塩化ナトリウムまたはデキストロースなどの等張性を調節する薬剤もまた、担体であり得る。担体と組み合わせて組成物を調製する方法は、当業者には公知である。いくつかの実施態様においては、「薬学的に許容され得る担体」という表現は、医薬投与に適合する任意およびすべての溶媒、分散媒体、コーティング剤、等浸透圧剤および吸収遅延剤などを含むことを意図する。薬学的に活性である物質に関するそのような媒体および薬剤の利用は、当該技術分野において公知の事柄である。例えば、レミントンの薬剤化学と実際第20版(Remington, The Science and Practice of Pharmacy, 20th ed.)(Lippincott、Williams & Wilkins 2003)を参照のこと。いずれかの従来型の媒体または薬剤が活性化合物に対して不適合であるというような場合を除けば、該組成物において、そのような利用が検討される。
【0115】
本明細書中の「治療的有効量」は、疾患および病状に関連する症状を治療または改善する、あるいは何らかの様式で軽減するのに充分な、薬学的活性化合物の量を指す。ある方法に関連して用いられる場合には、その方法は、疾患および病状に関連する症状を治療または改善する、あるいは何らかの様式で軽減するのに充分効果的である。例えば、疾患に関しての有効量は、発症を防止または予防するのに充分な量である;あるいは、疾患病状が既に始まっている場合には、該疾患を軽減する、改善する、安定化させる、退行させる、または該疾患の進行を緩徐にする、あるいは該疾患の病理的帰結を軽減するのに充分な量である。いずれの場合にも、有効量は単回用量で投与してもよく、または分割用量で投与してもよい。
【0116】
本明細書中の用語「治療する(treat)」、「治療(treatment)」または「治療する(treating)」は、患者の疾患に関連する症状を少なくとも改善することを含むが、ここで「改善」は広義で用いられ、あるパラメーター(例えば、治療中の疾患または病態に関連する症状)の度合いが少なくとも低下することを指す。したがって、「治療(treatment)」はまた、疾患、障害、または病態、または少なくともそれに関連する症状の完全な防止(例えば、それらが起こることを防いだ)であり、それによって患者がもはやその病態、または少なくともその病態を特徴付ける症状から脱却した状況をも含むものである。
【0117】
本明細書中の用語「予防する(prevent)」、「予防する(preventing)」および「予防(prevention)」は、他で特定しない限り、疾患または障害、または1種類以上のその症状の、発症、再発または蔓延の予防を指す。特定の実施態様においては、これらの用語は、特に、本明細書に記載される疾患または障害のリスクのある対象において、症状の発症前に、1種類以上の他のさらなる活性物質を含むまたは含まない、本明細書に記載の化合物または製剤による治療またはその投与を行うことを指す。この用語は、特定疾患の症状の防止または軽減を含む。特定の実施態様においては、疾患の家族歴を有する対象が予防的レジメンの潜在的候補である。特定の実施態様においては、反復症状の病歴を有する対象もまた予防の潜在的候補である。これに関して、用語「予防」は用語「予防的処置」の同義語として用いられることもある。
【0118】
本明細書中の化合物の「予防有効量」は、他で特定しない限り、疾患または障害を予防する、あるいはその再発を予防するのに充分な量である。予防有効量の化合物は、単独または1種類以上の他の物質と組み合わせた場合に、該疾患の予防において予防的利点を提供する量の治療剤を意味する。用語「予防有効量」は、予防を全体的に改善する量、あるいは他の予防薬の予防的効力を増強する量を含み得る。
【0119】
「増幅」は、標的核酸またはその相補物、またはその断片を複数コピー取得する任意の公知の処置法を指す。複数コピーを、単位複製配列または増幅産物といってもよい。断片について言及する場合の増幅は、完全標的核酸またはその相補鎖よりも短いものを含む増幅核酸の生産を指し、例えば、標的核酸にハイブリダイズし標的核酸内部の位置から重合を開始する増幅オリゴヌクレオチドを用いることによって作成される。公知の増幅法としては、例えば、レプリカーゼ媒介性増幅、ポリメラーゼ連鎖反応(PCR)、逆転写ポリメラーゼ連鎖反応(RT-PCR)、リガーゼ連鎖反応(LCR)、鎖置換増幅(SDA)、および転写媒介増幅または転写関連増幅が挙げられる。増幅は出発分子の厳密な複製にのみ限定されるものではない。例えば、逆転写(RT)-PCRを用いて試料中のRNAから複数のcDNA分子を生成することは増幅の一形態である。さらに、転写過程において単一DNA分子から複数のRNA分子が生成することも増幅の一形態である。増幅中に、例えば、標識プライマーを用いて、あるいは標識ヌクレオチドを取り込ませることによって増幅産物を標識することができる。
【0120】
「単位複製配列」または「増幅産物」は、標的核酸またはその領域に相補的または相同的である増幅処理中に生成した核酸分子を指す。単位複製配列は二本鎖のことも一本鎖のこともあり、DNA、RNA、またはそれらの両方を含み得る。単位複製配列を生成させる方法は当業者にとって公知である。
【0121】
「コドン」は、核酸の遺伝子暗号単位を共に形成する3つのヌクレオチドの配列を指す。
【0122】
「目的のコドン」は、診断的または治療的な意義(例えば、ウイルス遺伝子型/サブタイプまたは薬剤耐性に関連する対立遺伝子)を有する標的核酸中の特定のコドンを指す。
【0123】
「相補的」または「その相補物」は、一連の相補的塩基間で標準的な塩基対形成(水素結合)をすることにより、連続核酸塩基配列が別の塩基配列にハイブリダイズ可能であることを意味する。相補的配列は、標準塩基対形成(例えば、G:C、A:TまたはA:Uの対合)を用いることによって、オリゴマー配列中の各位置において、その標的配列に対し完全に相補的(すなわち、核酸二重鎖にミスマッチが全く存在しない)であってもよく、あるいは配列が塩基対形成において相補的ではない1か所以上の位置を含む(例えば、核酸二重鎖中に少なくとも1つのミスマッチ塩基または非マッチ塩基が存在する)のであってもよく、そのような配列は充分相補的である;その理由は、適切なハイブリダイゼーション条件下で、該全オリゴマー配列がその標的配列と特異的にハイブリダイズすることが可能(すなわち、部分的に相補的)だからである。オリゴマー中の連続塩基は典型的には、意図する標的配列に対して、少なくとも80%、好ましくは少なくとも90%、およびより好ましくは完全に相補的である。
【0124】
「~するように構成される」または「~するように設計される」は、参照オリゴヌクレオチドの核酸配列構成の実際的な配置を表す。例えば、標的核酸から特定単位複製配列を生成するように構成されるプライマーは、標的核酸またはその領域にハイブリダイズする核酸配列を有し、単位複製配列を生成する増幅反応に用いることができる。またさらなる例としては、標的核酸またはその領域に特異的にハイブリダイズするように構成されるオリゴヌクレオチドは、ストリンジェントなハイブリダイゼーション条件下で参照配列に特異的にハイブリダイズする核酸配列を有する。
【0125】
「下流」は、核酸配列に沿って、配列転写または配列読み出しの方向に離れている(離れる)ことを意味する。
【0126】
「上流」は、核酸配列に沿って、配列転写または配列読み出しとは逆方向に離れている(離れる)ことを意味する。
【0127】
「ポリメラーゼ連鎖反応」(PCR)は一般的に、標的核酸配列のコピー数を指数関数的に増加させる、核酸変性、プライマー対の反対側の鎖(順方向および逆方向)へのアニーリング、およびプライマー伸長の複数サイクルを用いるプロセスを指す。RT-PCRとよばれる変法においては、mRNAから相補DNA(cDNA)を作成するために逆転写酵素(RT)を用い、次いでそのcDNAをPCRによって増幅して、複数コピーのDNAを作成する。当業者にとって公知である、PCRの代替が複数存在する。
【0128】
「位置」は、核酸配列中の特定の1アミノ酸または複数アミノ酸を指す。
【0129】
「プライマー」は、酵素的に伸長可能なオリゴヌクレオチド、一般的に、標的核酸の相補的プライマー特異的部分に逆平行にハイブリダイズするように設計した規定配列を指す。プライマーは、好適な核酸合成条件下に置かれた場合に、鋳型依存性にヌクレオチド重合を開始することが可能であり、それによって標的核酸に相補的な核酸が得られる(例えば、標的にアニールさせたプライマーは、ヌクレオチドおよびDNA/RNAポリメラーゼの存在下で好適な温度およびpHにおいて、伸長させることができる)。好適な反応の条件および試薬は当業者にとって公知である。プライマーは、典型的には増幅で最大効率を得るために一本鎖であるが、二本鎖であってもよい。二本鎖の場合には、該プライマーは一般的には、伸長産物の調製に用いる前に、まずその鎖の分離処理を行う。該プライマーは、一般的に誘導剤(例えば、ポリメラーゼ)の存在下で伸長産物の合成開始にとって充分長い。特異的な長さおよび配列は、必要とするDNA標的またはRNA標的の複雑度、ならびに温度およびイオン強度などのプライマーを利用する際の条件に依存するであろう。好ましくは、該プライマーは約5~100ヌクレオチドである。すなわち、プライマーはその長さが、例えば、5、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、85、90、95または100ヌクレオチドである。プライマーは、プライマー伸長を起こすために鋳型に対して100%相補的である必要はない;100%未満の相補性を有するプライマーでも、ハイブリダイゼーションおよびポリメラーゼ伸長が充分起こり得る。プライマーは、必要に応じて標識することができる。プライマーに標識を用いる場合には、任意の好適な標識を用いることができ、例えば、分光学、光化学、生化学、免疫化学、化学、または他の検出手段によって検出することができる。したがって、標識プライマーは、標的配列の選択的検出が可能となるハイブリダイゼーションを促進する条件下において、核酸中の標的配列または増幅核酸中の標的配列に特異的にハイブリダイズするオリゴマーを指す。
【0130】
プライマー核酸は、必要に応じ、(例えば、分光学、光化学、生化学、免疫化学、化学、または他の技術によって)検出可能な標識を導入することによって標識することができる。有用な標識の例としては、放射性同位体;蛍光色素;高電子密度試薬;酵素(ELISAに通常用いられるような酵素);ビオチンまたはハプテン;および抗血清またはモノクローナル抗体が利用できる蛋白質が挙げられる。これらの標識およびその他の標識のうちの多くは、本明細書中でさらに説明されており、および/または当該技術分野で公知である。当業者であれば、特定の実施態様において、プライマー核酸をプローブ核酸として用いることも可能であることを理解するであろう。
【0131】
「領域」は、核酸の一部分を指し、ここで該一部分は核酸全体よりも短い。
【0132】
「目的の領域」は、増幅および検出される遺伝子型および/またはサブタイプに関連する少なくとも1つの単一ヌクレオチド置換突然変異を有する全てのコドン位置を含む標的核酸の特異的配列を指し、また、増幅および検出されるマーカー位置が存在するのであれば、そのような全てのマーカー位置に関連する少なくとも1つの単一ヌクレオチド置換突然変異を有する全てのコドン位置を含む標的核酸の特異的配列をも指す。
【0133】
「RNA依存性DNAポリメラーゼ」または「逆転写酵素」(「RT」)は、RNA鋳型から相補的DNAコピーを合成する酵素を指す。公知の逆転写酵素はいずれもDNA鋳型から相補的DNAコピーを創り出す能力をも有する;したがって、これらはRNA依存性かつDNA依存性の両方の依存性を示すDNAポリメラーゼである。RTはさらにRNAse H活性を有することもある。RNA鋳型およびDNA鋳型の両方において、合成開始にはプライマーが必要となる。
【0134】
「DNA依存性DNAポリメラーゼ」は、DNA鋳型から相補的DNAコピーを合成する酵素である。例としては、大腸菌のDNAポリメラーゼI、バクテリオファージT7 DNAポリメラーゼ、またはバクテリオファージT4、Phi-29、M2、T5のDNAポリメラーゼが挙げられる。DNA依存性DNAポリメラーゼは、細菌またはバクテリオファージから単離した天然酵素であってもよく、あるいは組換え技術によって発現させてもよい;あるいは、修飾されていてもよく、あるいは特定の望ましい特性(例えば、熱安定性、または各種の改変鋳型からDNA鎖を認識または合成する能力)を有するように、工学的に改変した「進化」形態であってもよい。公知のDNA依存性DNAポリメラーゼはいずれも、合成を開始するために相補的プライマーを必要とする。DNA依存性DNAポリメラーゼが、好適な条件下でRNA鋳型から相補的DNAコピーを合成することもあるのは、公知の事柄である。RNA依存性DNAポリメラーゼはまた、典型的にはDNA依存性DNAポリメラーゼ活性を有する。
【0135】
「DNA依存性RNAポリメラーゼ」または「転写酵素」は、通常二本鎖であるプロモーター配列を有する二本鎖または部分的に二本鎖のDNA分子から複数RNAコピーを合成する酵素である。RNA分子(「転写物」)は5′から3′の方向で合成されるが、それはプロモーターの直ぐ下流にある特定位置から開始する。転写酵素の例としては、大腸菌ならびにバクテリオファージT7、T3、およびSP6のDNA依存性RNAポリメラーゼが挙げられる。
【0136】
核酸の「配列」は、核酸におけるヌクレオチドの並び順と種類を指す。配列は、典型的には5′から3′の方向で読み取られる。2種類以上の核酸配列またはポリペプチド配列に関する、用語「同一である(identical)」または「同一性(identity)」%は、最大対応となるように比較し整列化した場合、例えば、当業者が利用可能な配列比較アルゴリズムのうちの1つを用いて評価した場合に、または当業者が目視検査で評価した場合に、同一である2種類以上の配列または副配列を指す、あるいはアミノ酸残基またはヌクレオチドのうちの同一なものを特定割合(%)で有する2種類以上の配列または副配列を指す。配列同一性(%)および配列類似性を判定するための好適なアルゴリズムの例としてはBLASTプログラムが挙げられるが、これは以下の参考文献に記載がある:
例えば、Altschulら、(1990)「基本的な局所整列探索ツール(Basic local alignment search tool)」J. Mol. Biol. 215:403-410;Gishら、(1993)「データベースの類似性検索による蛋白質コード領域の同定(Identification of protein coding regions by database similarity search)」Nature Genet. 3:266-272;Maddenら、(1996)「ネットワークBLASTサーバーのアプリケーション(Applications of network BLAST server)」Meth. Enzymol. 266:131-141;Altschulら、(1997) 「ギャップありBLASTおよびPSI-BLAST:新世代の蛋白質データベース検索プログラム(Gapped BLAST and PSI-BLAST: a new generation of protein database search programs)」Nucleic Acids Res. 25:3389-3402;およびZhangら、(1997)「PowerBLAST:インタラクティブまたは自動化された配列分析および注釈付けのための新規ネットワークBLASTアプリケーション(PowerBLAST: A new network BLAST application for interactive or automated sequence analysis and annotation)」Genome Res. 7:649-656;これらの参考文献は参照として本明細書に組み入れられる。他にも多くの最適整列化アルゴリズムが当該技術分野において公知であり、配列同一性(%)の判定に任意選択的に利用される。
【0137】
「標識」は、(共有結合または非共有結合によって)ある分子に付加された部分または付加され得る部分を指し、該部分は、該分子または標識分子が相互作用する(例えば、ハイブリダイズするなど)他の分子に関する情報(例えば、該分子に関する記述的情報、該分子に関する情報の同定など)を提供する、あるいは提供し得る。標識の例としては、蛍光標識(例えば、消光剤または吸収剤が挙げられる)、微弱蛍光標識、非蛍光標識、発色標識、化学発光標識、生物発光標識、放射性標識、質量修飾基、抗体、抗原、ビオチン、ハプテン、酵素(例えば、ペルオキシダーゼ、ホスファターゼなどが挙げられる)などが挙げられる。
【0138】
「リンカー」は、別の部分(例えば、核酸、オリゴヌクレオチドプローブ、プライマー核酸、単位複製配列、固体支持体など)に化合物または置換基を共有結合または非共有結合で付加する化学的部分を指す。例えば、固体支持体(例えば、直鎖状またはその他のロジックプローブアレイ)にオリゴヌクレオチドプローブを付加するために、任意選択的にリンカーを用いる。さらなる例としては、任意選択的にリンカーによって、オリゴヌクレオチドプローブ、プライマー核酸などに標識(例えば、蛍光色素、放射性同位体など)を付加する。リンカーは、典型的には少なくとも二官能性化学的部分であり、特定の実施態様においては、物質または化合物を、例えば、固体支持体から放出するために、例えば、加熱、酵素、化学物質、電磁放射などによって切断され得る開裂可能付加部分を含む。リンカーを慎重に選べば、化合物の安定性およびアッセイ法に合った適切な条件下で実施される開裂が可能となる。一般に、リンカーは、例えば、化学種を一緒に連結する、またはそのような分子種間の最小距離を保つ、あるいはその他の空間関係を保つなど以外には、特異的生物学的活性を有していない。しかし、立体構造、正味の電荷、疎水性などの、連結される化学種の一部の性質に影響を与えるように、リンカーの構成要素を選択するのであってもよい。リンカーの例としては、例えば、オリゴペプチド、オリゴヌクレオチド、オリゴポリアミド類、オリゴエチレングリセロール類、オリゴアクリルアミド類、アルキル鎖などが挙げられる。リンカー分子のさらなる説明については、例えば、以下のような文献に記載がある:
Hermanson、「生物共役化結合技術(Bioconjugate Techniques)」、Elsevier Science (1996);Lyttleら、(1996) Nucleic Acids Res. 24(14):2793;Shchepinoら、(2001) Nucleosides, Nucleotides, & Nucleic Acids 20:369;Doroninaら、(2001) Nucleosides, Nucleotides, & Nucleic Acids 20:1007;Trawickら、(2001) Bioconjugate Chem. 12:900;Olejnikら、(1998) Methods in Enzymology 291:135;およびPljevaljcicら、(2003) J. Am. Chem. Soc. 125(12):3486;これらの参考文献はいずれも参照として本明細書に組み入れられる。
【0139】
「断片」は、全長核酸より少ない数のヌクレオチドを含む連続する核酸の小片を指す。
【0140】
「ハイブリダイゼーション」、「アニーリング」、「選択的に結合する」または「選択的結合」は、1核酸の他の核酸(典型的には、逆平行核酸)との間の塩基対合相互作用を指し、それによって二本鎖形成またはその他の高次構造の形成(すなわち、ハイブリダイゼーション複合体)が起こる。逆平行核酸分子間の主要相互作用は、典型的には塩基特異的である(例えば、A/TおよびG/C)。ハイブリダイゼーションを達成するために、2種類の核酸がそれらの全長にわたって100%の相補性を有する必要はない。核酸は、詳細に特徴付けられた各種の物理化学的力(水素結合、溶媒排除、塩基のスタッキングなど)によってハイブリダイズするのである。核酸のハイブリダイゼーションの広範な指針が、以下の参考文献に記載されている:
Tijssen、(1993)「生化学および分子生物学における実験室技術-核酸プローブによるハイブリダイゼーション(Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes)」I部2章、「ハイブリダイゼーション原理の概要と核酸プローブアッセイの戦略(Overview of principles of hybridization and the strategy of nucleic acid probe assays)」(Elsevier、New York);ならびにAusubel編集、「分子生物学の最新プロトコル(Current Protocols in Molecular Biology)」I巻、II巻、およびIII巻、1997;これらの参考文献は、参照として本明細書に組み入れられる。
【0141】
実施例
本試験は、11癌種に由来する500超の転移性癌組織試料の予備的分析に基づくものであった。図1は、転移性乳癌および転移性甲状腺癌をその組織微生物叢によって識別する機械学習の結果を示しており、微生物の特徴量によって由来としての原発腫瘍の識別が可能であることを示唆している(その理由は、転移性癌はその起源となる組織に基づいて命名されるということである)。少なくとも一つの実施態様においては、乳癌および甲状腺癌の転移に関するKraken Voom-SNM変換データは、より大型のTCGA Voom-SNM補正データセット(n=17,625)のサブセット(n=18)であった。TCGAは511例の黒色腫転移を含み、乳癌(BRCA)および甲状腺癌(THCA)からはそれぞれ9例ずつ、および他の8つの癌種から1~2試料を含むものであった。本明細書では、均衡クラスを有する具体例としてBRCAおよびTHCAを用いた。
【0142】
少なくとも一つの実施態様においては、本明細書に記載のような機械学習モデルまたは機械学習アルゴリズムは、微生物存在量を決定することを必要としない;むしろ、分類帰属化アルゴリズムを用いる前に、そのような工程を実施するのである。すなわち、そのような実施態様においては、試料がどの特定癌種に属するのかを判定するために、機械学習アルゴリズムが微生物の重要度をランク付けするのである。様々な実施態様において、Krakenは分類群帰属化アルゴリズムであり(PMID:24580807)、機械学習アルゴリズムは勾配ブースティングである(「確率勾配ブースティング(Stochastic gradient boosting)」、Computational statistics & data analysis 3 8.4(2002): 367-378);これらの参考文献は、それぞれその内容全体が参照として本明細書に組み入れられる。
【0143】
癌微生物叢の体系的特徴付けは、ヒトの主要な疾患の診断に非ヒト微生物由来分子を活用する技術を開発する機会を提供するものである。一部の種類の癌では微生物の実質的な寄与を示す最近の実証があるが、その実証の後に、治療ナイーブ患者由来の33種類の癌のTCGA(全18,116試料)の全ゲノムおよび全トランスクリプトームの配列決定試験を微生物リードに関して再検査し、主要な癌種における、あるいは主要な癌種間の、組織および血液の固有微生物シグニチャーを、本明細書に記載の技術を用いて明らかにした。ステージIa~IIcの癌患者ならびに2種類の商業グレードの無細胞腫瘍DNAプラットフォームにおいて現時点で判定されるゲノム変化は全く含まない癌の患者に適用した場合には、全配列データのうちの最大92.3%を廃棄する非常に厳密な除染分析の利用にもかかわらず、これらのTCGA血液シグニチャーは依然として予測的に有益であった。さらに、本明細書に記載の技術を用いるならば、血漿由来の無細胞微生物核酸を用いるだけで、癌のない健常個体(n=69)の試料と複数種類の癌(前立腺、肺、および黒色腫;全体で100試料)の患者の試料との間の識別が可能であった。この潜在的微生物叢に基づく腫瘍学診断ツールは、さらなる検証を必要とする。
【0144】
癌は古典的にはヒトゲノムの疾患であると見なされている。しかし、最近の研究で、ある種の癌には微生物叢が実質的寄与をすることが分かっている。特に、消化管の癌に対する糞便微生物叢の寄与。しかし、異なる種類の癌に対する微生物寄与の度合いおよび診断上の意義については未知である。癌ゲノムプロジェクトにおいては処理実施管理が実施されることは滅多にないので、採集中、処理中、およびシーケンシング中の試料汚染の可能性によってこれらの研究が制限を受けることになる。微生物シグニチャーへの汚染物の寄与を最小化するために最近開発されたツールを使用することにより、様々な実施態様において、微生物叢を基盤とする診断法の合理的開発が可能になるであろう。
【0145】
癌関連微生物叢の特徴付けを目的として、全ゲノム配列決定(WGS;n=4、831)および全トランスクリプトーム配列決定(RNA-seq;n=13,285)に関する研究のTCGA一覧から得た33種の癌、1万人に及ぶ患者の18,116試料から取得した微生物リードを調査した。他の好適なデータセットを利用するのであってもよいが、それらは本開示の範囲内にあると見なされる。微生物リードは、以前にアドホック分析(胃腺癌におけるEBVおよび子宮頸癌におけるHPVを含む)で同定され、小規模の試料サブセットにおいて体系的な研究が成されている(例えば、19種の癌の4,433TCGA試料のウイルス叢および9種の癌にわたる1,880TCGA試料のバクテリオーム)。ほとんどのTCGAシーケンシングデータは、微生物については未検索状態である。本明細書に記載されるように、技術的変動および混入汚染を体系的に評価し軽減する2種類の直交微生物検出パイプラインを用いて網羅的癌微生物叢データセットを作成した。癌種間および/または癌のステージ間の識別を行い、またそれらの性能を比較する微生物シグニチャーを同定するために、機械学習(ML)技術を利用した。
【0146】
本明細書に記載される機械学習モデルを用いて同定するのであってもよい癌種および/または癌のステージの非網羅的リストは以下を含む:
急性骨髄性白血病(LAML);副腎皮質癌(ACC);膀胱尿路上皮癌(BLCA);低悪性度の脳神経膠腫(LGG);浸潤性乳癌(BRCA);子宮頸部扁平上皮細胞癌および子宮頸管腺癌(CESC);胆管癌(CHOL);結腸腺癌(COAD);リンパ系新生物びまん性大細胞型B細胞リンパ腫(DLBC);食道癌(ESCA);多形性膠芽腫(GBM);頭頸部扁平上皮細胞癌(HNSC);色素嫌性腎癌(KICH);明細胞腎癌(KIRC);乳頭状腎細胞癌(KIRP);肝細胞癌(LIHC);肺腺癌(LUAD);肺扁平上皮細胞癌(LUSC);中皮腫(MESO);漿液性卵巣嚢胞腺癌(OV);膵臓腺癌(PAAD);褐色細胞腫および傍神経節腫(PCPG);前立腺腺癌(PRAD);直腸腺癌(READ);肉腫(SARC);皮膚黒色腫(SKCM);胃腺癌(STAD);精巣生殖細胞腫瘍(TGCT);甲状腺癌(THCA);胸腺腫(THYM);子宮癌肉腫(UCEC);子宮体部内膜癌(UCS);ぶどう膜黒色腫(UVM)。
【0147】
TCGA処理では微生物汚染の管理は行わず、また健常個体は除外するので、代表的微生物学プロトコルを用いて、偶発的微生物汚染を含む可能性が最も高いTCGA試料種別の血液について、さらなる分析を実施した。多様な実施態様において、臨床的に利用可能な無細胞腫瘍DNA(ctDNA)アッセイに対する血漿由来微生物DNAの整合的ベンチマーク評価シグニチャーに焦点を当てた。前立腺癌、肺癌、または皮膚癌の個体(n=計100)ならびに癌もHIVも有していない健常対照参加者(n=69)の血漿試料についてのメタゲノムディープシーケンシングは、正常対癌および癌対癌の識別に無細胞微生物プロファイルが利用可能であることを示唆した。これらの知見は、癌を検出およびモニターする既存のctDNAアッセイを補完し得る、微生物叢に基づく新しい種類の癌診断ツールを示唆するものである。
【0148】
様々な実施態様にしたがう癌種間および癌種内並びに癌のステージ間および癌のステージ内の識別を行うために、正規化データを用いて、確率勾配ブースティングMLモデルを訓練した。これらモデルの性能は、以下の識別に関して強力であった:(i)1癌種対残りの全癌種(n=32種類の癌)、および(ii)腫瘍対正常(n=15種類の癌)(図4f~g、図9a~f;全ての性能評価指標は、cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowserに掲載されている)。癌種間の感度および特異度の差は部分的にはクラスサイズの差異によるものであろう;その理由は、少数クラスとAUROC(受信者操作特性曲線下面積;P=0.0231)値との間の1癌種対残りの全癌種の比較に有意な線型関係が存在するからである(勾配の両側仮説検定;図9g~h)。癌微生物不均一性もまたこの識別性能に寄与すると思われる。結腸腺癌(COAD)、STAD、および明細胞腎癌(KIRC)、のステージI腫瘍とステージIV腫瘍(n=8種類の癌)との間の、微生物モデルによる組織に基づく識別については良好であったが、他方、試験した他の5種類の癌(図4h)における識別も、中間的段階の識別も良好というわけではなかった(データ非提示)。これらの結果は、微生物群の構成動態学が、あらゆる癌種で宿主組織によって規定されるような癌の病期に相関するものではないことを示唆する。
【0149】
データセットを通じてのそのような技術の一般化可能性を評価するため、無作為TCGA微生物生カウントを2バッチに選別し、それぞれについて全処理を独立に反復し、それぞれを独立に訓練したモデルを、該データのもう一方の半分について試験した;その結果、非常に類似した性能が認められた(図10a)。個々の方法論(WGSまたはRNA-seq)あるいはWGSまたはRNA-seqのいずれかを実施したシーケンシングセンターを調べた場合には、またはゲノム整列ふるい分けKrakenデータのみを用い多場合には、識別微生物シグニチャーが保持された。
【0150】
さらなる検証を行うために、SHOGUNを用いた;これは、Krakenに基づく分析において癌の全分析種別(n=32)、試料種別(n=7)、シーケンシングプラットフォーム(n=6)、およびシーケンシングセンター(n=8)を網羅する13,517TCGA試料(WGS、n=3,434;RNA-seq、n=10,083)についての、系統発生的に基づく、縮小した細菌のみのデータベースを用いた、整列化に基づく微生物分類パイプラインである。SHOGUNに基づくデータは、用いた基本データベースが非同一で小規模であるにもかかわらず、Krakenに基づくデータにおいて同定したバッチ効果を再現した(図11j~l)。このデータおよびKrakenに基づくデータ(「方法」を参照のこと)の対応するサブセットを、独立に正規化およびMLパイプラインに入力したが、データセット間で識別能に大きな差異は認められなかった(図11m~t)。それと共に、この結果は、微生物常在叢が各癌種に固有であること、ならびに微生物プロファイルのみに基づいて癌を識別する正規化およびモデル訓練のアプローチがより広範に応用可能であることを示している。
【0151】
微生物プロファイルの生物学的妥当性
この微生物シグニチャーの強力な識別を前提として、生態学的に予想される結果および/または臨床的に試験される結果を用いて、それらの生物学的妥当性の証拠を検討した。癌関連微生物が生態学的に予想されるもの(すなわち、「天然の」臓器特異的共生群の一部)であるか否かについて評価するために、COADコホートの70固形組織正常試料および122皮膚黒色腫(SKCM)原発腫瘍(「方法」を参照のこと)から、身体部位の寄与を推定することを目的として、本明細書に記載される微生物検出および正規化のパイプラインで処理済みの、「ヒト微生物叢プロジェクト2(HMP2)」のプロジェクトにおける8身体部位にわたり、217試料のデータに基づいて、ベイズ微生物ソーストラッキングアルゴリズムを訓練した。糞便はCOADプロファイルに対してみの公知の主要な身体部位寄与因子であり(平均値±標準誤差の分率的寄与、20.17±2.55%;図5a)、SKCMプロファイルに対しては寄与因子とはならなかった(片側マン=ホイットニーU検定、P=0.0014;図12b);このことは、群落の一部が局所的ソースを有することを示唆している。
【0152】
フゾバクテリウム属の複数菌種は消化管の腫瘍の発生および進行に重要であり、フゾバクテリウム属は固形組織正常試料(すべてのP?8.5×10?3)および特に血液由来正常試料(すべてのP?3.3×10?11図5b)に比較して原発腫瘍で過剰であった。TCGA(n=8)における広義の全ての消化管(GI)癌を、原発腫瘍組織(P<2.2×10?16)の非GI癌(n=24)および隣接固形組織正常試料(P=0.031;図5c、図12a)の両方に対して比較した場合に、汎癌分析によってもフゾバクテリウム属が過剰であることが示された。TCGAのSTADに関する以前の研究と同様に、ヘリコバクター・ピロリについては、原発腫瘍と隣接固形組織正常試料との間で何らの差異も検出されなかった(P=0.72、データ非提示;すべて検定は両側マン=ホイットニーU検定であった)。
【0153】
TCGAの臨床的注釈に記載されているウイルス感染が確認され、TCGAでウイルス叢を調べた研究に対し、微生物検出パイプラインを用いて比較を行った;この比較に用いたのは、以下の異なる2種類の生物情報学的パイプラインであった:
(i)デノボメタゲノムアセンブリ法および(ii)リードによる方法(PathSeqアルゴリズム)。CESCおよび頭頸部扁平上皮細胞癌(HNSC)の試料において臨床検査でHPV感染に「陽性」または「陰性」となった個体の原発腫瘍間には、アルファパピローマウイルス属を識別する識別的存在量が存在していた(すべてのP?3×10?9、両側マン=ホイットニーU検定;図5d~e)。陰性対照として用いたCESC患者の血液由来正常試料では統計的差異がなく(P=0.99、両側マン=ホイットニーU検定)、その他の全癌種および試料種別にわたる比較では、アルファパピローマウイルスについての特異的過剰が保たれていた(図12c)。B型肝炎の既往歴のある肝細胞癌(LIHC)患者では、アルコール摂取およびC型肝炎(ヘパシウイルス属)の既往歴のあるLIHC患者と比較した場合に、原発腫瘍および隣接固形組織正常試料の両方にHBV属(オルソヘパドナウイルス)の特異的過剰が認められた(図5f;原発腫瘍P?2.8×10?7;固形組織正常P?0.011);陰性対照として用いた血液由来正常試料では、統計的差異がなかった(P?0.44;すべて検定は両側マン=ホイットニーU検定であった)。以前の報告とも整合するが、STAD分子サブタイプに帰属する患者と比較した場合に、EBV感染原発腫瘍においてはEBV属(リンフォクリプトウイルス)が特異的過剰であった(図5g;P?2.2×10?16)。陰性対照として用いた固形組織の正常試料および血液由来正常試料には、統計的差異が認められなかった(血液、P?0.52;組織、?0.096;すべて検定は両側マン=ホイットニーU検定であった)。
【0154】
これらのデータは、1癌種対残りの全癌種の識別を行うモデルによって提供される特徴量重要度の情報に一貫性がある。つまり、公知の微生物「ドライバー(driver)」または「片利共生生物(commensal)」を伴う癌によって、モデルが生態学的に妥当であることの初めての証拠が提供されたことになる;例えば、アルファパピローマウイルス属はCESC腫瘍を同定する最も重要な特徴量であった;COAD腫瘍に関しては、フィーカリバクテリウム属;LIHC腫瘍に関しては、オルソヘパドナウイルス属が2番目に最も重要な特徴量であった(肝毒性のミクロキスティス属の次)。総合すると、これらの知見は、上記の結果をさらに多くの試料および微生物に拡大することによって、ウイルスおよび細菌のデータの生物情報学的正規化アプローチの生態学的検証が成されることになる。
【0155】
混入汚染の評価および軽減
様々な実施態様において、予想される癌関連微生物を最も良好に特徴付けるために汚染の潜在的効果を評価し軽減することが重要であろう。以前の研究では、複数癌種について通常の低リード存在量に基づき、TCGAにおいて6種類の汚染(表皮ブドウ球菌、アクネ菌、ラルストニア属の複数菌種、マイコバクテリウム属、シュードモナス菌、およびアシネトバクター属)を同定したが、最近の研究によって、被検試料濃度に逆相関する頻度であって、ロバスト統計フレームワークを用いて検出可能頻度を、外部汚染物がより一貫して有することが明らかにされている。
【0156】
後者のアプローチに基づいて、TCGA試料処理中に計算したDNA濃度およびRNA濃度(n=17,625)ならびに分類リード分率(n=1,993)を用いて、推定混入物を識別し、また「陰性ブランク」試薬に典型的に含まれる属の除去を行った(n=94属;「方法」を参照のこと)。図13aは、外科的切除から生物情報学的処理までのアプローチの概要を示すものである;5種類の擬似汚染物を生データセットに混入させてから、除染、教師あり正規化、およびMLを通じてその追跡を行った。公知の技術的変動を前提として(図4c~e)、シーケンシングセンター(n=8)によるバッチで試料を処理し、センターでの汚染物と見なされる分類群を除染した。これによって、試薬「ブラックリスト」の19.1%(n=18属)を含む283推定汚染物を同定した。これら2つのリストを組み合わせた(n=377属)後に、病原性共生生物属または複合的証拠(mixed-evidence)を示す属(病原体および通常の混入物の両方;例えば、マイコバクテリウム属)については再び許容するため、文献の用手的再調査を行った。これによって2つのデータセットが得られた:一方は、除去された汚染の可能性が高い混入物であり、他方は除去された全推定混入物であった。第3の「最も厳密なフィルタリング」データセットを作成したが、これは、より厳密なフィルタリングスキーマを用いて総リードの約92%を廃棄したものである(「方法」を参照のこと;図13b)。最後に、試料をセンター毎に個別のシーケンシングプレートに群分けし、前述の試薬ブラックリストに加えて(総計497属)、「プレート/センター」バッチで同定した全推定混入物を除去した(n=351;「方法」を参照のこと)。除染は、試験している試料または癌種に識別的影響を与えることはなかったと思われる(図14a~c)。
【0157】
少なくともいくつかの実施態様においては、インシリコ除染は、癌試料について実施する代表的な微生物学的処置の代替とはならない;そのような微生物学的処置としては、滅菌処理、無菌であることが保証された試薬、開始から終了までの処理試薬の陰性ブランク、および「陽性」対照としての複数試料プールが挙げられる。本明細書に記載されるインシリコツールは最先端を反映するものではあるが、汚染物または交差汚染物の過剰「スパイク」を検出するように設計されているわけではない。これら後者の汚染物は、数多くのセンターおよび多年にわたって収集した癌の種別間および種別内で均一な識別シグナルを生成させるものではないのだが、特に小規模試験においては、対照試験でない限り、生物学的結論が限定的となることがある。
【0158】
少なくともいくつかの実施態様においては、厳密な除染によるリスクは、片利共生性の組織特異的微生物常在叢を反映する実シグナルおよびそれに付随する癌予測微生物プロファイルが消失することである。この懸念を検証するために、COAD固形組織正常試料(n=70)を身体部位帰属(%)について再計算してもよく、逐次的に厳密化した除染によって付随組織認識が改善され続け、その後に改善が認められなくなることが分かった(図13c~f)。
【0159】
図4f~hに示すMLモデルを再計算して、各除染アプローチの前後でそれらの性能を比較した(図13g~l)。大部分のモデルでは混入させた擬似汚染物に依存しなかったが(図15a)、リンパ系新生物びまん性大細胞型B細胞リンパ腫(DLBC)および中皮腫(MESO)のモデル(利用可能試料が極少ない)は例外的であると思われ信頼性を欠く可能性がある。予想通り、組織の種類に関する情報が有益である(例えば、COAD対他の全ての癌種)比較の場合には、厳密な除染によって一般的に性能が低下したが、組織内比較(例えば、腫瘍対正常)では多くの場合、等しく良好であるか、あるいはより良好であった。これらの結果は、特定の比較では、厳密なフィルタリングが望ましいこともあるが、除染に対する普遍的アプローチが生物学的に有益な結果を阻む可能性があることを示唆する。
【0160】
血液中の微生物DNAを用いた予測
血液の微生物DNA(mbDNA)が癌の臨床的情報(血液障壁壊またはリンパ破壊(例えば、COAD)を特徴付けるものを含む)を与え得る多くの証拠が存在するが、当該技術分野の現在の状況に基づいて、これが如何に広範に当てはまるのかは定かではない。TCGA血液試料のWGSデータを用いて、完全データセットおよび4種類の除染データセットにML方略を応用し、その結果、微生物分類アルゴリズムおよび分類に用いたデータベースに関係なく、血液内mbDNAでは、かなり多くの癌種間の識別が可能であり(図6a)、あるいはゲノム整列ふるい分けKrakenデータのみを用いてかなり多くの癌種間の識別が可能である(図11g、図11h、図11s、および図11t)ことが明らかになった。後ろ向き分析から、予測について混入擬似汚染物を含むモデルはほとんどないことが明らかになった(図15b);これを含んでいたモデル(CESC、KIRP、LIHC)はより信頼性の低いと思われる。
【0161】
これらの知見に基づき、ctDNAアッセイが失敗する状況下(ステージIa~IIcの癌および検出可能ゲノム変化のない腫瘍)に注目して、既存のctDNAアッセイに対しMLモデルのベンチマーク評価を行った。ステージIII癌またはステージIV癌の患者から全ての血液正常試料を除去した後に、新規MLモデルを構築した;その結果、それらのモデルが、血液mbDNAを用いて癌種間を良好に識別し得ることが明らかになった(図6b)。Guardant360およびFoundationOne液体アッセイの遺伝子リストをさらに用いて、フィルタリングで1種類以上の標的修飾を有するTCGA患者(約70%;図15c~e)を除外した;その結果、同一MLアプローチは、残りのほとんどの癌種を良好に識別することが明らかになった(図6c~d)。
【0162】
これらの分析は、ctDNAアッセイでは全血ではなく血漿を用いること、および血液区分間のmbDNA分布が未知であることによって、制約を受けるものである。mbDNAが生きている微生物に由来するのか、あるいは死んだ微生物に由来するのかを区別することは不可能である;その理由はRNAデータが利用不可能だからである;あるいはmbDNAが無細胞であるのか宿主白血球中に存在するのかを区別することは不可能である;その理由はTCGAの標準的操作法(SOP)を実施した場合には、全血も可能であり、またまたはバフィーコート抽出も可能だからである(「方法」を参照のこと)。1次試料および場合によっては適合消化管上皮を検査することなく、血液mbDNAの由来を知ることもまた不可能である;その理由は、特定種類の癌では、予想外の様式でmbDNAが「漏出」することもある(例えば、白血病における消化管細菌の翻訳)。モデル性能に対する除染の効果は癌種によって変化したので、一連の理想的除染というものが存在する可能性は高いのだが、フィルタリングが以下の事柄によって制限されたのである:
(i)一次試料にアクセスできないこと;
(ii)属レベルの分類的分離能;
および
(iii)どの非TCGA試料が並行処理されたのかが分からないこと。
【0163】
血液の微生物シグニチャーの検証
血漿を基盤とするctDNAアッセイのベンチマーク評価を行い、これらの結果の実環境有用性を証明する目的で、低バイオマス試験の代表的な微生物学的対照を用いながら、健常個体と複数癌種とを識別をする血漿由来無細胞mbDNAシグニチャーを用いて検証試験を行った。血漿は、TCGAでは試験されていない全血の特有のサブセットであり、直接的比較可能性が限定されるが、保存安定性(例えば、凍結可能である性質)、バイオレポジトリー利用可能性、および生物学的解釈(すなわち、非生存材料)の点において重要な利点を有する。癌もHIVも有していない69個体および以下の3種類の高悪性度(ステージIII~IV)癌のいずれかを有する100人の患者をコホートに含めた:
(前立腺癌(n=59;PC);肺癌(n=25;LC)、および黒色腫(n=16;SKCM)(図7a)。効果量を推定する先行文献が存在しなかったので、最小サンプルサイズを推定するために、ブロード研究所およびHMSで適合する癌種のTCGA血液試料について独立したシミュレーションを用いた(図16;「方法」を参照のこと)。広範な対照と共にこれらの血漿試料から無細胞DNAを抽出し(図16b~c)、全メタゲノム配列決定のための処理を行ったのであるが、これは限定したユーザーチームにより、単一ライブラリー調製法を用い、単一バッチにて、1回のディープシーケンシングの実行で実施した。様々な実施態様において、技術としては、ヒトリード除去を実施すること、Krakenによる残りのリードの分類、DNA濃度および陰性ブランクの両方を用いた厳密な除染、およびVoom-SNMを含むものであった。人口構成比較および交換分析によって、年齢および性別に関する正規化の必要性が示唆された(図16d~e、h~j;「方法」を参照のこと);また、直接的な年齢退行化を実施したところ、腸管内菌叢に類似する平均絶対誤差を示した(図16g)。TCGA分析に用いた同一MLプロトコルの「ブートストラッピング」では、健常対照個体と群化癌患者の間で一般的可能で強力な識別を示した(図7b;「方法」を参照のこと)。用いたサンプルサイズが小規模であったため、正規化データにleave-one-out(1サンプルのみをテストセットにとり、他のサンプルを訓練データとする)(LOO)反復MLを実施したところ、健常試料および癌種(最少SKCMコホートを除く)の2者間およびそれらの間での対比較およびマルチクラス比較において高識別性能であることが分かった(図7c~k)。したがって、SKCMコホートサイズにマッチするようにPC群とLC群をサブサンプリングし、サブサンプリングした健常対照に対する各癌種の対合的LOO識別を実施した(図16k;「方法」を参照のこと)。PCコホートおよびLCコホートは依然、SKCMとして同一コホートサイズに分離可能であり(平均(95%信頼区間(CI))AUROC=0.891(0.879~0.903);平均(95%CI)AUPR=0.827(0.815~0.839);100反復)、これにより、SKCM性能の普遍的欠陥が明らかになった。この欠陥には何らかの生物学的な基盤があるのかもしれない;その理由は、SKCMは試験した5種類のデータセットのうち4種類についてTCGA血液識別で2番目に性能が悪いものであった(図6a);ただし、これにはさらなる確認が必要である。Krakenによる微生物帰属が正しいことを確認するために、SHOGUNおよびその分離データベースの細菌帰属を用いる、全ての生物情報学的工程、正規化工程、およびML工程を反復してみたが、それは非常に統一性のある性能を示した(図17)。微生物データベースが改善すれば、cfDNAシグニチャーに関する分類群帰属の洗練化が期待される。検出した血漿微生物存在量は、cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowserで検索することができる(図12d~e)。
【0164】
総合すると、上記のデータは多様な癌種と特異的微生物叢との間に一般的な関連性が存在することを示唆する。低悪性度腫瘍ステージの血液mbDNAおよび市販のctDNAアッセイで検出可能なゲノム変化の全くない患者の血液mbDNAを用いた場合を含み、これらの微生物プロファイルは、ほとんどの癌種内および癌種間の識別するようである。これらの結果は、全データの90%超が除去されることもあるような、広範な内部検証チェックおよび除染を行った後であっても、多くの場合、依然として正しい。TCGAよりも広範な内部混入および外部混入に関する対照を選択しながらも、血漿中の無細胞mbDNAのみを用いた場合に、健常対照個体と複数癌種患者における識別性能が高いことは、広く利用可能な試料を用いた臨床的に妥当な後ろ向き試験が実施可能でかつ一般化可能なものであることを示唆している。これらの結果は、微生物叢に基づく新しいクラスの癌診断ツールが患者に実質的な将来価値を提供し得るものであることを示唆するのである。
【0165】
ヒト情報に基づいて69%~79%の正解率で由来転移組織を診断する従来法(PMID:23287002)と比較すれば、本発明は微生物情報に基づき少なくとも約94%の正解率を提供する。宿主情報と微生物情報を組み合わせることによって、この正解率を95%~100%の正解率など、さらに上昇させることが可能であると予測される。この正解率は本発明者が以前に報告したデータセット(PMID:32214244)を用いて決定した;この報告は腫瘍内微生物叢または血液由来微生物叢に基づいて、転移性癌の種類を分離しうるか否かについて検索したものである。このデータセットは、微生物のDNAおよびRNAを調べる目的で収集した複数の既知転移性癌種別(例えば、乳癌、甲状腺癌、黒色腫)の試料によるものであり、微生物のDNAおよびRNAのみを用いて癌種を識別する識別性能の特徴付けに機械学習を利用したのである。
【0166】
本明細書に記載の機械学習法は、本発明者が開発し以前に報告したものであり(PMID:32214244)、またPCT出願WO2020093040A1によって公開したものである;これらの参考文献はそれぞれ、その全体が参照として本明細書に組み入れられる。例として、腫瘍内微生物核酸のみを用いて乳癌転移を甲状腺癌転移と比較した;その結果、高い識別性能を示した(ROC曲線下面積=0.889、PR曲線下面積=0.943、正解率=94.4%)。実質的に、本発明の一実施態様は微生物情報を用いた転移性癌の由来組織の診断を提供する。その他の実施態様においては、本発明は、転移性腫瘍を有する宿主から原発腫瘍を有する宿主を識別する分析を提供し、それによって転移の存在を診断する。
【0167】
方法
TCGAデータアクセッション
全TCGA配列データは、SevenBridgesによって支援される癌ゲノミックスクラウド(Cancer Genomics Cloud(CGC))でアクセスした。TCGAのSOPはNCI生物試料研究データベース(Biospecimen Research Database)でアクセスした。分子サブタイプを含む適合化患者のメタデータは、TCGA変異Rパッケージから、SevenBridgesおよびシステムバイオロジー研究所(The Institute for Systems Biology (ISB))の両者を経由してCGCにアクセスした;あるいは、それぞれのTCGA公開物の補足データから直接取得した。全てのTCGA患者についてのゲノム変化状態を検索要求してcBioPortalでダウンロードした。市販のctDNAアッセイの遺伝子パネルは、Guardant360アッセイおよびFoundationOne液体アッセイに関する会社白書からアクセスした。TCGAメタデータのアクセッションおよび階層形式からフラットテーブルへの変換については、SevenBridgesのメタデータ・オントロジーに検索要求し、可能であればデータ整理を行った;オントロジーに保存されていない情報については、直近にリリースされたそのメタデータに、ISB CGC Rプログラム言語APIを利用してアクセスした。
【0168】
専用ワークフローを作成する目的で、生物情報学ツールを、CGCプラットフォーム(例えば、samtools、BWA)から直接的にロードするか、あるいは異なるDockerコンテナにアップロードして実行した。これらのワークフローでは、試料BAMファイルを入力して、各試料内のどのDNAリードまたはRNAリードが微生物のものであるかをラベル付けする。
【0169】
公知のヒト参照ゲノム(未加工BAMファイルのマッピング情報に基づく)に対して整列化されなかった配列リードは、Krakenアルゴリズムを用いて、全ての公知の細菌、古細菌およびウイルスの微生物ゲノムに対してマップした。RepoPhlanを用いて、総計71,782微生物ゲノムをダウンロードした;そのうち、5,503がウイルスであり、66,279が細菌または古細菌であった。先行文献に基づき、質的スコアが0.8またはそれより良好であるものについて細菌および古細菌のゲノムをふるい分けした;その結果、細菌および古細菌のゲノムのうち54,471が残り、その後の分析に用いたが、ウイルスゲノムを合わせて総計が59,974微生物ゲノムであった。
【0170】
上記に説明されるように、Krakenアルゴリズムでは、各シーケンシングリードをkマー(例えば、デフォルトでは31マー)に分解し、各kマーを微生物kマーのデータベースに完全マッチさせる;該アルゴリズムを実行する前に、上記の59,974微生物ゲノムから、この構築を行った。所定のリードに関するkマーの完全マッチセットは、次に、そのリードの最も下位の共通祖先を属レベルに最も正確に推定上の分類群に帰属させる(本明細書中に提示のデータはこの属レベルに集約させるのである)。マッチングと分類の演算は、直接的ゲノム整列化の実行よりも数桁速い。疑陽性に対する予防策として、またパイプラインの適切なベンチマーク評価を実施するために、4種類の癌(STAD、CESC、OVおよびLUAD)を選択し、Krakenで微生物として分類したリードを、BWAを用いて59,974微生物ゲノムに整列化した;これは、コンピューター的にはよりコストのかかるものであるが、より高い特異性と分類的分解能(すなわち、種レベルおよび株レベルの分解能)を有する結果が得られる。直接的に整列化したこれら4種類の癌は、以下を含むものであった:
推定陽性ウイルス対照(HPVについて)としてCESC;
推定陽性細菌対照(ピロリ菌について)としてSTAD;
および文献に含まれる微生物シグニチャー、および/または質量分析法により利用可能なプロテオーム情報(データ非提示)の微生物シグニチャーに基づく他の2種類(LUAD、OV)。Krakenで属レベルまたはそれより低いレベルに分類されたリードの98.91%(様々な知見の基盤となる)はまた、BWAによって微生物データ(細菌、古細菌、ウイルス)に対して整列化されることが明らかになった;また疑陽性率については1.09%であった;このことは、属レベルの、Krakenでラベル付けした汎癌微生物リードが将来の分析に充分利用可能であることを示唆している。
【0171】
SHOGUN TCGAの生物情報学的処理
異なる分類識別アルゴリズムを用いた癌種識別の頑健性を評価する目的で、以前に報告された浅いショットガン分類帰属アプローチを利用し、またTCGA試料に「Web of Life」(WoL;PMID:31792218;n=10,575の細菌と古細菌のゲノム)とよばれる別の系統発生中心のデータベースを用いた。SHOGUNは、Krakenが利用するようなkマーによる超高速アプローチではなく、コンピューターによる集中的直接的ゲノム整列化を分類学的帰属に利用している。TCGA試料の処理時間を短縮するために、Krakenによって微生物由来と分類されたリードを、SHOGUN整列化関数の入力に用いた;このSHOGUN整列化関数では、分類プロファイルを生成するWoLデータベースに対してリードをマップするBowtie2が用いられた。総計13,517試料(WGS:n=3,434;RNA-seq:n=10,083)の処理を行ったが、これはKraken分析で試験するTCGA全種類の癌(n=32)、試料種別(n=7)、シーケンシングセンター(n=8)およびシーケンシングプラットフォーム(n=6)を網羅しており、SHOGUNで再分析したKraken分析の全試料を有するTCGAの21癌種(n=9,444試料)を含むものであった。次いで、QIIME2を用いてプロファイルを属レベルに分離した。1,024個のインテルIvy-bridgeコンピュートコアならびに384個のAMDコンピュートコア、および12TBの総RAMを有するローカルコンピュートクラスター上で、コンピューター実時間でおおよそ5か月の期間をかけて、分析を実施した。用いた単一癌種当たりの典型的なジョブ依頼では、約30コアおよび約250GBのRAMを使用した。
【0172】
TCGAの技術的変動の定量測定と正規化
TCGAシーケンシングセンター(n=8)間、シーケンシングプラットフォーム(n=6)間、実験的方略(WGS対RNA-seq)間の技術的変動、および可能性のある汚染が結果にどのような混乱を与え得るのかを知るために、生物学的変数に帰属させるシグナルを維持または増強させながら、バッチ効果を定量し除去するパイプラインを開発した。簡単に説明すると、メタデータが低品質である試料をフィルタリングで除外した(すなわち、欠落した人種または民族、ICD10国際疾病分類コード、DNA/RNA分析物の量、またはFFPEステータス情報);Voomアルゴリズムを用いて、離散分類群カウントデータを、ほぼ正常に分布するログ-カウント・パー・ミリオン(log-count per million:発現量を全マッピング数で補正した値のLog値)(log-cpm)データに変換し、これによってデータの異分散性をモデル化して除去するのである;および最後に、生物学的効果を保持しながら有意なバッチ効果を全て除去するために、そのデータの教師あり正規化(SNM)を実施した。Voomは従来からlimmaと組み合わせて、離散的カウントデータの差分発現量(存在量)分析に用いられているが、ここでは「マイクロアレイ様」データへのアルゴリズム的変換に利用した;これによって、その後にSNMが可能となる。VoomおよびSNMのモデル行列は等価であり、両者間の予想される生物学的差異により、標的生物学的変数(n=7;例えば、原発腫瘍組織)として試料種別を用いて構築した;これに関するシグナルはSNM実施中に保持されるはずである;逆に、SNM実施中に低減されるべき技術的共変量として、以下をモデル化した:シーケンシングセンター(n=8)、シーケンシングプラットフォーム(n=6)、実験的方略(n=2)、組織取得場所(n=191)、およびFFPEステータス(n=2;イエスかノー)。特定癌種とシーケンシングセンターとの間の完全交絡(すなわち、ある種類の癌が単一のTCGA実施場所のみでシーケンシングされた)のため、疾患の種類を標的生物学的変数としてモデル化することは可能ではない。Voom変換では、limmaのユーザーガイドに記載されるように、変化していない特徴量については除外(filterByExpr()関数;edgeR)しながら、ほとんどのデータ(「完全データセット」、「除去した汚染物である可能性のある」データ、「プレート/センター除染」データ、および「除去した全推定汚染物」データ)にedgeRパッケージによるM値(TMM)正規化の荷重トリム平均を用いた。他の場合(「最も厳密にフィルタリングした」データ、「SHOGUN TCGAデータ」、「SHOGUN TCGAデータにマッチさせたKraken TCGAデータ」および両方の血漿微生物叢データセット)には、分位点正規化を用いた;その理由は、厳密にふるい分けしTMM正規化した特徴量欠落データには、下流SNM補正が不適合だからであり、これらのデータセットはすでに有意な低減がなされている、あるいは低特徴量カウントのものである。「最も厳密なフィルタリングを行った」データを除く、全分位点正規化データセットを、他の分位点正規化データセットに対して比較した。Voom調整データのSNM補正前後に、主成分を計算し、分散主成分分析(PVCA)によって、カウント生データ、Voom補正データ、およびVoom-SNM正規化データの間で、これらの変化を定量した。PVCAの数学的基礎についてはNIEHSに詳細な説明があり、その推奨が60%~90%なので、それに基づいて調節可能な1パラメーターを80%に設定した。
【0173】
汚染に対する懸念に対処するため、検証分析としてSourceTracker2を用いる
8か所の身体部位を拭き取り採取した総計217試料についての、NIHのHMP2プロジェクトのショットガンシーケンシングデータをダウンロードし、分類学的帰属を得るために、上記と同一のTCGA Kraken微生物検出パイプラインを実行した(同一微生物データベース(n=59,974の細菌、古細菌、およびウイルスのメタゲノムに対して実行することを含む)。TCGA癌微生物叢データ毎に、HMP2データを属レベルにまとめ、次いでこれを利用してベイズソーストラッキングモデル(SourceTracker2)の訓練を行った。SourceTrackerに関する専門用語を用いるならば、これらのHMP2試料が「ソース」として働き、他方、Voom-SNM-正規化試料は「受信側(シンク(sink))」となるものであった;また、SourceTrackerアルゴリズムを用いて、各受信側に帰属可能な各ソースの割合を算出した。一般用語で言えば、各Voom-SNM正規化した癌微生物叢試料に帰属可能なHMP2データから、ベイズモデルを用いて身体部位の割合を推定した。以下の3項を実施した後に、TCGA COADコホートの固形組織正常試料(n=70)および原発腫瘍SKCM試料(n=122)に、このモデルを当てはめた:
(i)癌微生物叢データセットの属をHMP2の属と交差させること;
(ii)log(cpm)正規化値を相対スケールの存在量に変換すること(HMP2データには917,450リードが含まれるので、おおよそ百万の総リードとなるように10で基準化する);
および
(iii)そのデータをBIOM表フォーマットに変換すること。皮膚微生物叢の最良の代替として、SKCM原発腫瘍試料を、固形組織正常試料の代わりに選択した;その理由は、SKCMにはたった一つの隣接固形組織正常試料しか利用できるものが無かったからである。両方の実行に、SourceTracker2のデフォルト設定を用いた。各受信側に対する各ソースの平均の分率的寄与に関して、出力の計算を行った;次いで、これらの値の平均および標準誤差を算出した。COAD試料およびSKCM試料(図12b)に対する糞便の影響間の統計学的差異は片側マンホイットニーU検定を用いて算出した。4種類の除染データセットについて、上記のプロトコルを反復し図13c~fを作成した。
【0174】
TCGA MLベンチマーク評価および一般化可能性
ベンチマーク評価および一般化可能性評価として、TCGAを(シーケンシングセンター、試料種別、および疾患の種類にわたって)半分に分割してKrakenに基づく、属レベルの微生物カウント生データの2つの層化データ(分割部分#1:n=8,814;分割部分#2、n=8,811)とし、その両方に対して個別にVoom-SNMプロトコルを実行した;正規化した各半分について別々のMLモデルを構築し、次いで、互いの正規化データについてこれらの調整MLモデルを試験した。次に、これらのモデル性能を、完全Voom-SNM正規化データセット(n=17,635試料)で構築した第3のMLモデルであって、50%/50%の訓練分割部分および試験分割部分を用いた第3のMLモデルに対して比較を行った。それぞれ50%を提供した試験セットAUROCおよびAUPRを用いて3種類のアプローチ全てについて最終性能を比較した。さらなる内部検証として、以下のものを用いて、1癌種を残り全癌種に対して予測するモデルを構築した:
(i)RNA試料;
または
(ii)DNA試料;
ならびに
(iii)RNA-seq(UNC)
または
(iv)DNA-seq(HMS)
のみを実施した1か所のシーケンシングセンターに由来する試料;
図10)。
【0175】
TCGAの除染分析
大まかに言えば、次世代シーケンシングデータに影響を与える推定汚染には2種類の汚染がある:
すなわち、外部からの汚染(例えば、試薬、研究者または対象の身体、環境などに起因する汚染)および内部汚染(すなわち、処理中またはシーケンシング中の試料間で起こる交差混入)である。少なくとも一つの実施態様においては、除染アプローチは全体として、以下を試みることである:
(i)予測能および/またはモデル信頼性の欠如に対する汚染の寄与を推定するために、汚染をシミュレーションすること;
(ii)外部からの汚染を可能な限り低減すること;
および
(iii)実用的な陽性対照および陰性対照を用いて内部汚染度を評価すること。最近の報告に記載されるように、全TCGA試料(n=17,625)についての被検試料濃度を用い、またTCGAにおいて用いられたキットと同様のシーケンシングキット内の試薬に由来する微生物のブラックリストを用いることによって、外部からの汚染を同定し除去した。原試料へのアクセスなしに、また他のどの試料(特に、非癌試料)が同時に処理されたのかを知ることなく、内部汚染物を識別することは特に困難である。したがって、明確な交差汚染物であると同定し除去した内部汚染のみを示すならば、それはエボラウイルス属に帰属させた4リード(ブロード研究所の1つのTCGA-LGG試料に由来する2リードおよびHMSの1つのTCGA-HNSC試料に由来する2リード)であり、TCGA試験の収集期間(2006~2016)にこれら同一のシーケンシングセンターで同時に行われた2014年の西アフリカでの感染大流行に関する研究に由来するものであることはほとんど確実であろう;また、マールブルグウイルス属に帰属させた4リード(ブロード研究所の2種類のTCGA-OV試料に由来する)もおそらくは、類似の起源であるか、または疑陽性(すなわち、エボラウイルスおよびマールブルグウイルスはいずれもフィロウイルス科である)であろう。このような処置は、目下の生物学事象に関連するはずがない微生物の帰属を除去するという以前に報告した研究に沿うものである。そのような交差汚染物、特に極度に低い存在量の交差汚染物が、数多くのセンターおよび複数年の期間にわたって収集した癌の種別間および種別内を識別する均一な識別シグナルを生起するというようなことはさらに可能性の低いことである。他の可能な交差汚染物については、それらを識別して除去するよりも、生態学的に予想される群落の(上記の)ベイズ分析を用いて、それらの寄与を推定した。
【0176】
まず、5種類の擬似汚染物を生データセットに混入させ(図13a、上部右側)、除染、SNM、およびMLを通じてそれら擬似汚染物を追跡した。これは以下を含むものであった:
(1)HMSの全試料にわたる1,000リード;
(2)HMS、ベイラー医科大学(Baylor College of Medicine)、ワシントン大学医科大学院(Washington University School of Medicine)、およびカナダのマイケルスミスゲノム科学センター(Canada’s Michael Smith Genome Sciences Centre)の全試料にわたる1,000リード;
(3)すべてのシーケンシングセンターの全試料にわたる1,000リード;
(4)HMSの無作為選択100試料に混入させた10リード;
および
(5)すべてのシーケンシングセンターの無作為選択1,000試料に混入させた10リード。全試料および全分類群にわたる平均の生リードカウントは1,481.20であり、1,000リードを含む擬似汚染物は「低レベル」バックグラウンドであると見なすことができるが、10リードの擬似汚染物は「高存在量」スパイクであると考えられる。擬似汚染物が訓練後下流MLモデルに存在するのであれば、3種類の解釈があり得る:
特徴量重要度スコアによって擬似混入の予測寄与度(%)を評価し、無視し得るものであるか否かを決定する;
擬似汚染物よりも低いランクのモデル特徴量はいずれも除去する;
あるいは、
最も保守的には、モデル全体について信頼性を欠くものであるという警告を出す。
【0177】
TCGAは、試料処理中に陰性ブランク試薬試験チューブを全く含んでいなかったので、本明細書に記載される技術においては、用いた類似の試薬および/またはライブラリー作成キットの属レベル微生物ブラックリストを対形式で作成することを試みた。TCGA SOPでは、組織のDNA抽出およびRNA抽出ならびに血液のDNA抽出については、主にQIAGEN製品(Qiagen、Valencia、CA)を用いていた:組織のDNA抽出およびRNA抽出はDNA/RNA AllPrepキット、ならびに血液のDNA抽出はQiaAmp血液ミディキットであった。Salterとその共同研究者は、4年間の「陰性ブランク」シーケンシングおよび3か所の網羅的シーケンシングセンターにわたって取得した、メタゲノム実験におけるDNA抽出キット(TCGAの血液抽出に用いたものと同一のシリカ膜によるDNA精製を利用したQiaAmpキットを含む)の同様のリスト(n=94属)について報告している。混入物の配列は、一般的に被検試料濃度に逆相関することが多いという事実に基づいて、推定外部汚染をさらに同定した。ロバスト統計フレームワークによって最近この原理16が検証されたので、TCGAに記録された試料DNAまたは試料RNAの濃度を、推定汚染物識別手段として利用する機会が提供されることになったのである。このフレームワークの主要な2つの仮定は:(i)これらの汚染物は試料間において均一量で混入すること;および(ii)汚染物DNAまたは汚染物RNAの量は真の試料のDNAまたはRNA(微生物または宿主)に比べて少量であること。次いで、付属のdecontam Rパッケージ(s://github.com/benjjneb/decontam)を用いてフィルタリングを行ったが、この際に、推奨されるハイパーパラメーター閾値(P*=0.1)およびより厳密なアプローチ(P*=0.5)を用いた。以下に留意されたい:P*=0.5が、汚染物モデルまたは非汚染物モデルがその分布によりよくフィットする場合には、分類群が「汚染物である」または「汚染物ではない」として分類されることを意味する。カウント生データに対する実質的なばらつきがシーケンシングセンターに起因するものであったということが分かったので、それに対応するバッチでデータの処理を行った;それによって、次の段階として、いずれのセンターにおいても汚染物と識別した分類群をすべてのセンターに関して除外した(すなわち、decontamでbatch.combine=「最小」)。次いで、汚染物推定リスト(P*=0.1:n=283属;P*=0.5:n=1,818属)を微生物ブラックリスト(n=94属)と組み合わせ/交差させ、完全データセットから除外した。より小規模になった組み合わせ汚染物リスト(n=377)の用手的文献調査を行い、その結果、潜在的に病原体または片利共生生物である89属を再び許容とした。これによって3種類の新規データセットが得られた:すなわち、「除去された汚染の可能性が高い混入物」、「除去された全推定汚染物」、および「最も厳密なフィルタリング」である。さらなる保守的方法として、TCGA試料バーコード(例えば、NCIの参照文献、s://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/に示されるようなTCGA-02-0001-01C-01D-0182-01)と抽出したシーケンシングプレート/シーケンシングセンターの組み合わせ全てを取得した;それらは、バーコードの最後の2セットの整数によって区別されているのである(すなわち、この例では、センター01のプレート0182、または0182-01)。所定の分類群が汚染物として分類されるか否かを判定するために、decontamは1バッチの全試料における分類リード分率と被検物質濃度との間の線形回帰と等価な計算を行うので、1バッチとしての適切性を確保するためには、プレート/センターの組み合わせ当たり10試料(この場合、総計351のプレート/センターのバッチとなる)を超える試料数が必要であった。P*=0.1を用いた(デフォルト値);また、上記と同様に、351バッチのうちいずれかの1バッチにおいて分類群を汚染物と同定した場合には(batch.combine=「最小」)、それをデータセットから除外した(n=421分類群:除外した分類群)。微生物ブラックリストと交差させたのちに、総計497属を除外した。これによって4番目の除染データセットが提供され、次いでそれら全てを上記のSNMおよびMLパイプラインと同一のもので処理した。
【0178】
BWA、SHOGUN、およびKrakenのデー間のML性能比較
Krakenに基づく帰属化(n=59,974微生物ゲノム(細菌、古細菌およびウイルス))のために、用いた同一データベースに対してBWAフィルタリングを適用した。次いで、実験的方略と試料カウントが減ったシーケンシングセンターとの間の交絡のため、DNAデータおよびRNAデータを個別に正規化したことを除き、Voom-SNMによるKrakenデータと同じ方法で、フィルタリングBWA微生物カウントデータをバッチ補正した。次いで、BWA処理しBWAデータと同じ方法で正規化した試料に対して、Krakenに基づく生データ試料をマッチさせた。その結果、総計4種類の正規化データセットが得られた:すなわち、DNA BWAデータ;RNA BWAデータ;Krakenサブセット化DNAデータ;およびKrakenサブセット化RNAデータである。次いで、全4種類の正規化データセットをMLに入力して、それらの性能を互いに比較した(図11a~h)。
【0179】
SHOGUN分類帰属に用いた「Web of Life」データベースはウイルスを含まなかった;また、Krakenで評価した全てのTCGA試料のサブセット(13,517試料対17,625試料)をSHOGUNで処理した。すなわち、それらの下流ML性能間の公正な比較を行うために、同定ウイルスを全て除去してSHOGUNで処理した同一試料と整合化を図り、Krakenカウント生データのサブセット化を行った。次いで、癌種間および癌種内の識別を行うMLパイプラインに入力する前に、両データセットをVoom(分位点正規化を用いた)およびSNMアルゴリズム(上記の主たるTCGA分析におけるのと同一の生物学的変数および技術的変数を用いた)で同様に正規化した。
【0180】
相補性診断分析
低悪性度の癌に対する血液mbDNAの適用可能性を評価する場合には、ステージIa~cおよびステージIIa~cに分類される腫瘍を有する全患者を一緒にまとめて群化し、残りのその他のものは全て取り除いた。Guardant360およびFoundationOne液体ctDNAアッセイに対する比較では、それらのコード遺伝子パネルで評価した場合に、少なくとも1種類のゲノム変化を有することが判明したTCGA患者は全て除外した;このような除外は、変異がパッセンジャー(passenger)であるかドライバー(driver)であるかにかかわらず行われた。残った患者を上記のようなML分析に用いた。
【0181】
検証試験に必要なサンプルサイズを推定するTCGAシミュレーション
前立腺癌、肺癌、および皮膚癌(黒色腫)の試料であって、その識別に必要な試料の数を推定するために、2か所の異なるシーケンシングセンター(ブロード研究所、HMS)において1種類のプラットフォーム(Illumina HiSeq)ですべて配列決定を行ったTCGA血液試料について実験的シミュレーションを実施した。最初に、Krakenによる微生物カウントデータを用い、次いでSHOGUNによる微生物カウントデータでシミュレーションを反復した。これは、検証試験に予想される実環境実験条件をほぼ厳密に模倣するものであった。
【0182】
まず、ブロード研究所とHMSにおいてIllumina HiSeq機器で配列決定を行ったTCGA PRAD、LUAD、LUSC、およびSKCMの全ての血液試料について、微生物カウントのKraken生データからサブセット化した(ブロード研究所:n=99;HMS:n=288)。用いた肺癌試料は混合起源であったので、LUAD血液試料とLUSC血液試料とを一緒に組み合わせて単一の非小細胞肺癌(NSCLC)包括的疾患タイプ(umbrella disease type)とした;しかしながら、この措置はブロード研究所の試料にのみ行った;その理由は、HMSの血液由来肺癌試料が全てLUAD起源だったからである。これにより、残った試料群は以下であった:
HMSの試料は:66LUAD、104PRAD、118SKCMであり;
ブロード研究所の試料は:42NSCLC(24LUAD、18LUSC)、17PRAD、40SKCMであった。次いで、HMSおよびブロード研究所の各カウント生データセットを、Voom(分位点正規化を用いて)およびSNMアルゴリズムで独立に正規化を行ったのであるが、その際、目的の生物学的変数として疾患の種類を用い、また技術的変数として組織ソース部位を用いた:単一のシーケンシングセンター、単一のデータ種、およびまたは単一のプラットフォームを選択したため、他の技術的因子は全て除外されたのである。
【0183】
正規化データセットのシミュレーションは、以下のように実施した:
(1)層化無作為抽出では、3つのクラスから等しい数の試料を選択した;
(2)3クラスのサブサンプルのうち1試料を除外した;
(3)一定確率で予測を行うために、サブサンプルの残りの試料全てを用いてMLモデルを構築し、そのMLモデルを除外試料に適用した;
(4)全試料が処理されるまで工程2~3を反復した;
(5)観察したクラスのリストおよび確率を伴う予測クラスのリストを用いて、マルチクラス性能評価指標を推定した;
(6)マルチクラス性能評価指標の標準誤差を推定するために、同一サンプルサイズの別の層化無作為標本を選択し、工程2~5をさらに9回反復した(総計10回);
(7)5試料毎の刻み幅で個々のクラスサンプルサイズを5~40として、工程1~6を反復した。層化サンプリングサイズが1クラスの試料数よりも大きい場合には、そのクラスの全試料を用いた。まとめると、これによって、多癌識別を良好に実施するために必要とする試料数の推定値が提供されたのである(図16a)。実験的性能推定値(平均AUROC、平均AUPR)は、癌のクラス毎に少なくとも15試料あれば充分なはずだということを示唆する。健常対照について理想的サンプルサイズを推定することは不可能であるということに留意されたい;その理由は、TCGAが健常対照を含まなかったからである。
【0184】
臨床的コホート選択およびIRBプロトコル番号
169患者のバイオバンクに保存された凍結血漿試料を、この試験の一部として分析した;これらは全て、カリフォルニア大学サンディエゴ校のものであった。いずれの試験もカリフォルニア大学サンディエゴ校の施設内倫理委員会(IRB)によって承認されたものであり、それぞれのIRB承認プロトコルの下で、患者は試料供与および試験に関して書面によるインフォームド・コンセントを提出している。全前立腺癌血漿試料(n=59)がIRBプロトコル131550によって管理された。全肺癌および全黒色腫血漿試料がIRBプロトコル150348によって管理された。癌もHIVも有していない健常対照の対象(n=69)は全て、IRBプロトコル番号:130296、091054、172092、151057、および182064によって管理された。
【0185】
血漿由来、無細胞微生物DNA試料の処理、およびシーケンシング
QIAamp循環核酸キット(QIAGEN)を用いて、製造元の指示にしたがい、各試料の血漿(容積250μl)から全循環DNA抽出した後、AMPure XP SPRI常磁性体ビーズ(Beckman Coulter)で精製を行った。標準Illumina指標付きアダプター(IDT)を含むKAPA HyperPlusキット(Kapa Bioシステム)を用いて、記載のように、精製cfDNAからシーケンシングライブラリーを調製した。Agilent 4200 TapeStation System(高感度DNAキット)を用いて試料ライブラリーの特徴付けを行い、Illumina用のNEBNext Library Quantキット(New England Biolabs)を用いたqPCRで定量した。NovaSeq 6000機器(Illumina)で両末端2×150bpのシーケンシング(S4フローセル)を行い、シーケンシングの4レーン全てについて試料をプールした。
【0186】
血漿微生物叢試料の生物情報学的処理
NovaSeq 6000による全試料の1回のシーケンシング実行で、総計21,600,141,264リードが生成した。そのうち、19,046,611,360リードがヒト試料に帰属し(すなわち、陰性対照および陽性対照を除去した)、総リードの2.186%を非ヒトとして分類した。シーケンシング生データを逆多重化し、Atroposを用いてアダプタートリミングを行った。追加で、Trimmomaticを用いて、以下の設定で質的フィルタリングを行った:
ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:7、MINLEN:50、TRAILING:20、AVGQUAL:20、SLIDINGWINDOW:20:20。リードの5′末端から後ろに続くGの並びを除去する目的で、Gのみの並びから成る付加的アダプター配列を標準TruSeq3アダプターに付加した。高速局所パラメーターセットによるBowtie2を用いてリード対のいずれか一方がヒトゲノム(1000ゲノムプロジェクトの主要対立遺伝子SNPレファレンス)にマップされた場合には、そのリード対を廃棄した。次いで、FLASHを用いて両末端リードの重ね合わせを行った;用いたFLASHのパラメーターは、最小重複:20、最大重複:150、ミスマッチ率:0.01であった。
【0187】
次いで、フィルタリングし重ね合わせたリードを処理した;この処理は、同一ワークフローおよび上記に詳細が記載されるデータベース(n=59,974微生物ゲノム)を用いてKrakenによる処理、あるいは本明細書において詳細に説明されるようなSHOGUNによる処理のいずれかであった。個々の血漿微生物叢試料についてサンプル処理を行った(すなわち、実施の4つのシーケンシングフローセルにわたって試料をプールした場合には、試料当たりレーン当たりで処理した)。KrakenまたはSHOGUNで試料当たりレーン当たりの分類群帰属を行った後に、階層性クラスターリング処理後の各試料についてレーンを一括してまとめた微生物カウントは、フローセルのレーンによってよりもむしろ試料IDによる一貫性のある群分けを示した。SHOGUNによるデータについては、重ね合わせの成功したリードおよび非合わせリードの両方を、SHOGUN整列化関数の入力として用い、Bowtie2によりWoLデータベースに対してリードをマップして分類プロファイルを作成した;次いで、QIIME2を用いてプロファイルを属レベルに分離した。次に、各試料の分類プロファイルをフィルタリングして、相対的存在量が0.01%未満である分類群を全て除去した。
【0188】
血漿微生物叢の技術的検証およびデータ除染
シーケンシング実行および生物情報学的微生物検出パイプラインの性能を評価するために、混入ウェルならびにシーケンシングプレートに含めたアリイビブリオ・フィシェリ(Aliivibrio fischeri)(属:Aliivibrio)の実験的段階的希釈物を、他の試料種別に対する識別的存在量について、および個別に希釈物の存在量のlog-変化倍数について調べた。KrakenおよびSHOGUNによる分類群帰属の両方について、これら技術的陽性対照を図16b~cにプロットした。
【0189】
3種類の陰性ブランク対照をシーケンシングプレートに含めた:
(1)シーケンシングのためのDNA抽出工程の試薬を含むDNA抽出ブランク;
(2)シーケンシングのためのライブラリー調製工程の試薬を含むDNAライブラリー調製ブランク;
および
(3)水を添加した空の対照ウェル(ライブラリー調製時にもその同じ水がその試薬に添加されている)、その空の対照ウェルははね飛んだ、および/またはエアロゾル化した微生物核酸を含む可能性もある。TCGA分析において実施したのと同様に、再びdecontamを用いて血漿微生物データの除染を行った;ただし、陰性ブランク対照および全試料のDNA濃度の両方(後者については、空の対照ウェルは除外)にアクセスしたことがTCGA分析とは異なる。保守的な方法として、decontamでは、P*=0.5のハイパーパラメーター値を選択した;これは、「蔓延率(prevalence)」(すなわち、ブランクに基づく)および「頻度(frequency)」(すなわち、濃度に基づく)の両方の除染モードに対して選択されたものである;このハイパーパラメーター値は、全データの90%超を廃棄する、TCGAの最も厳密な除染に等価なものである。蔓延率モードでは、P*=0.5の時に、生物学的対照よりも陰性対照において汚染物としてより蔓延している分類群にフラグを立てる;頻度モードでは、P*=0.5の時に、モデル(すなわち、回帰モデル)が、リード分率およびDNA濃度を用いた非汚染分布よりも汚染分布によりフィットする分類群にフラグを立てる。Krakenカウントデータの場合に、蔓延率モードでは、21分類群を除外し、頻度モードでは1,261分類群を除外した(元々の帰属数は1,753であり、これから除外された数である);SHOGUNカウントデータの場合に、蔓延率モードでは、57分類群を除外し、頻度モードでは、244分類群を除外した(元々の帰属数は1,181であり、これから除外された数である)。KrakenおよびSHOGUNの両方の除染データを下流正規化およびMLパイプラインに入力した。
【0190】
血漿微生物叢データの正規化、交換試験、およびML
微生物カウント生データを用い年齢を予測する試みを、GBM MLモデル(TCGAに関して上記で説明されているものと同一のアーキテクチャー)およびleave-one-out(LOO)反復MLを用いて実施した(図16g)。
【0191】
このコホートにおいて年齢と性別に関する正規化を行うことの重要性を確認する目的で、各因子につき100回反復を行い、次いで両方の因子について同時に100回反復を行う交換分析を実施した(図16h~j)。簡単に説明すると、以下の4工程を実施した:
(1)全試料において、無作為に年齢および/または性別のラベルを交換する工程;
(2)疾患の種類を目的の生物学的変数として用い、また交換した年齢および/または性別を技術的要素として用いて、生データにVoom-SNMを実行する工程;
(3)70%/30%の訓練/試験の分割部分を用いて群化癌試料を健常対照から識別するためのML分析を実施する工程(固定乱数シードを用い、また2クラス性能推定値(AUROC、AUPR)を取得する内部4重交差検証を用いる);
および
(4)ゼロ性能分布を得るために工程1~3を総計100回反復する。次いで、正確な固定年齢および/または固定性別の帰属を用いて、工程3において乱数シードを無作為選択しながら、工程2~3を総計100回実行した。最後に、両側マン=ホイットニーU検定を用いて、有意性に関し、この性能分布を直接的そのゼロ分布に対して比較した。これらの試験はいずれも非常に有意(全て、P?1.5×10?13)であったので、疾患の種類については目的の生物学的変数として保持しながら、年齢および性別を技術的要素としてVoom-SNMに組み込んだ。TCGA癌シミュレーション(上記)の場合と同様に、病理学的亜種にかかわらず、正規化において肺癌試料の全てを統一的疾患種としてまとめたことに、留意されたい。陰性ブランク対照および陽性モノカルチャー対照は全て、Voom-SNM前に除去した。
【0192】
TCGA試料について上記で説明したのと全く同一の方法で、Voom-SNM正規化した血漿微生物叢試料についてMLを実施した;ただし、サンプリングスキーマに関してはこの限りではない;その理由は、サンプルサイズが桁違いに小規模であったためである。第1に、健常対群化癌の識別についての一般化を評価するために、70%/30%の訓練/試験の分割部分を用いて、500回反復訓練の4重交差検証による「ブートストラッピング」を実施した。訓練/試験の分割部分はいずれも(すなわち、反復毎に)ユニークである置換サンプリングを許容した;しかしながら、いかなる場合においても、試料が同時に訓練の状態かつ試験の状態の両方になることは許容されなかった。総計500回の反復から得られた性能評価指標の要約統計量によって、AUROC分布およびAUPR分布ならびに信頼区間(Cis)が推定された(図7b、図17a)。第2に、健常対照と個々の癌種との2者間およびそれ以上の間の対識別およびマルチクラス識別を、LOO MLによって実施した。言い換えると、1試料を反復的に脱落させて、残りの試料について、ハイパーパラメーターを調整する4重交差検証で、モデルの反復訓練を行い、モデルが提供する確率で脱落試料についての予測を反復的に行った。AUROC測定量およびAUPR測定量を推定するために、PRROC Rパッケージを用いて、上記で説明したような方法で、全試料について実際のクラスの最終リストを、予測されたクラスおよびそれらの確率のリストと比較した。1対残り全ての比較の平均を取ることにより、caret RパッケージのmultiClassSummary()関数によってレポートされるようなマルチクラス性能を推定した。
【0193】
より小型の試料サイズが黒色腫コホート性能(図16k)に如何なる寄与を与えるのかを評価する反復サブサンプリングを、以下のように実施した:
(1)16試料ずつの単一癌種および健常対照(総計32)の層化無作為抽出を実施する;
(2)LOO反復MLを実施し、これら32試料について健常対癌の識別性能を評価する;
(3)性能の標準誤差を推定するために、工程1~2を100回反復する;
(4)3種類の癌のそれぞれについて、工程1~3を反復する。識別に対するサンプルサイズ低下の影響を評価するために、PCコホートおよびLCコホートの反復サブサンプリングについても同一処理を行う。コホートサイズを他のサンプルサイズと比較することが目的なので、各層化サブサンプリングにおいて全黒色腫コホートを用いたことに留意されたい。
【0194】
統計分析
統計分析はいずれもRバージョン3.4.3を用いて行った。ggpubrパッケージ(s://github.com/kassambara/ggpubr)によって、群間のノンパラメトリック統計検定を実施し、必要に応じて多重仮説検定補正を行った。Rでは、2.2×10?16未満のP値を正確に算出することは不可能であるため、リストにはこの値未満のP値を<2.2×10?16と表示しているが、それはP値の範囲を意味するものではないことに留意されたい。測定値は異なる試料に由来するものであり、試料を反復測定してはいない。検証試験のサンプルサイズ推定値はTCGA血液試料を用いた実験的シミュレーションによるものであり、MLおよびマルチクラス性能の推定を実施するGBMパッケージ、Caretパッケージ、およびMLmetricsパッケージ(s://github.com/yanyachen/MLmetrics)に依存する。他のマルチクラス性能推定値に関してはいずれもCaretパッケージおよびMLmetricsパッケージを用いて算出した。
【0195】
機械学習モデルを用いた訓練と推論
機械学習モデルを用いた訓練および推論(例えば、予測)には、少なくとも一つの実施態様にしたがうニューラルネットワークなどの各種技術を利用することができる。少なくとも一つの実施態様においては、学習データセットを用いて、非訓練ニューラルネットワークを訓練する。非訓練ニューラルネットワークの初期荷重パラメーターは、最初に事前設定した値、ランダム数などに設定するのであってもよい。少なくとも一つの実施態様においては、訓練データセットを用いてニューラルネットワークを訓練するために、訓練フレームワークを用い、ニューラルネットワークの1種類以上の荷重を更新する。訓練フレームワークはいずれの好適な訓練フレームワークであってもよく、そのような訓練フレームワークとしては、PyTorchフレームワーク、TensorFlow、Boost、Caffe、マイクロソフト・コグニティブ・ツールキット(Microsoft Cognitive Toolkit)/CNTK、MXNet、Chainer、Keras、Deeplearning4j、または他の訓練フレームワークなどが挙げられる。少なくとも一つの実施態様においては、訓練フレームワークは非訓練ニューラルネットワークの訓練を行い、訓練したニューラルネットワークを生成するために本明細書に記載される処理リソースを利用する訓練が可能となる。少なくとも一つの実施態様においては、荷重は無作為に選択されるのであってもよく、あるいはディープビリーフネットワークを用いて予備トレーニングするのであってもよい。少なくとも一つの実施態様においては、訓練は、教師あり、部分的に教師あり、または教師なしの方法のいずれかで実施するのであってもよい。
【0196】
少なくとも一つの実施態様においては、非訓練ニューラルネットワークの訓練を、教師あり学習を用いて実施するが、ここで訓練データセットは入力に対する所望の出力(例えば、由来組織の予測)と対にした入力(例えば、微生物プロファイル)を含み、あるいはここで訓練データセットは既知の出力を有する入力を含み、ニューラルネットワークの出力を用手的に等級付けする。少なくとも一つの実施態様においては、非訓練ニューラルネットワークの訓練を、教師ありの方式を用いて実施し、学習データセットからの入力を処理して、その結果得られた出力を、予想される出力または所望の出力のセットに対して比較する。少なくとも一つの実施態様においては、非訓練ニューラルネットワークによって誤差が逆伝播する。少なくとも一つの実施態様においては、訓練過程において非訓練ニューラルネットワークを制御する荷重を、訓練フレームワークが調整する。少なくとも一つの実施態様においては、訓練フレームワークは、非訓練ニューラルネットワークがモデル(新規のデータセットなどの入力データに基づく結果における場合などの、正確な答えの生成に好適な訓練ニューラルネットワークなど)に向かってどの程度良好に収束するかをモニターするツールを含む。少なくとも一つの実施態様においては、訓練フレームワークは、損失関数および確率的勾配降下法などの調整アルゴリズムを用いて非訓練ニューラルネットワークの出力を精緻化するために荷重を調整しながら、非訓練ニューラルネットワークを反復訓練する。少なくとも一つの実施態様においては、訓練フレームワークは、非訓練ニューラルネットワークが所望の正解率に到達するまで、非訓練ニューラルネットワークを訓練する。少なくとも一つの実施態様においては、次いで、機械学習演算を繰り返し実行するように、訓練したニューラルネットワークを設定することができる。
【0197】
少なくとも一つの実施態様においては、教師なし学習を用いて非訓練ニューラルネットワークを訓練するが、ここで非訓練ニューラルネットワークは非標識データを用いてそれ自体の訓練を試みる。少なくとも一つの実施態様においては、教師なし学習訓練データセットは、関連する出力データも「グラウンドトゥルース」も全く含まない入力データデータを含むであろう。少なくとも一つの実施態様においては、非訓練ニューラルネットワークは、訓練データセット内の群分けを学習することが可能であり、個々の入力がどのような未訓練データセットに関連するのかを評価することができる。少なくとも一つの実施態様においては、新規データセットの次元性低下に有用な演算実施が可能な訓練ニューラルネットワークにおいて自己組織化マップの生成に、教師なし訓練を用いることができる。少なくとも一つの実施態様においては、新規データセットの正常パターンから外れる、新規データセットのデータ点の識別を可能にする異常検出を実施する目的においても、教師なし訓練を用いることが可能である。
【0198】
少なくとも一つの実施態様においては、訓練データセットにおいて、ラベル付けしたデータとラベル付けしていないデータの混合を含む技術である半教師あり学習を用いるのであってもよい。少なくとも一つの実施態様においては、漸次的学習(転移学習技術によってなど)を実施する目的で、訓練フレームワークを利用するのであってもよい。少なくとも一つの実施態様においては、漸次的学習は、訓練ニューラルネットワークが、初期訓練中に訓練ニューラルネットワーク内で教育した知識を忘却することなく新規データセットを適合させることを可能にする。
【0199】
図18は、本開示の1種類以上の例示的な実施態様にしたがう、1種類以上の技術(例えば、方法)を実施してもよい計算装置またはコンピューターシステム1800の例を表すブロック図である。
【0200】
例えば、図18の計算システム1800は1種類以上のプロセッサー1802~1806を含んでいてもよい。プロセッサー1802~1806は、プロセッサーバス1812と直接やり取りするために、1種類以上の内部レベルのキャッシュ(非提示)およびバスコントローラー(例えば、バスコントローラー1822)またはバスインターフェイスユニット(例えば、I/Oインターフェイス1820)を含んでいてもよい。
【0201】
プロセッサーバス1812はホストバスまたはフロントサイドバスとしても知られているが、プロセッサー1802~1806をシステムインターフェイス1824に連結するために用いるのであってもよい。システム1800の他の要素をプロセッサーバス1812と連結するために、システムインターフェイス1824はプロセッサーバス1812に連結するのであってもよい。例えば、メインメモリー1816をプロセッサーバス1812にインターフェイス接続するために、システムインターフェイス1824はメモリーコントローラー1818を含むのであってもよい。メインメモリー1816は典型的には、1種類以上のメモリーカードおよび制御回路(非提示)を含む。1種類以上のI/Oブリッジ1825またはI/Oデバイス1830をプロセッサーバス1812にインターフェイス接続するために、システムインターフェイス1824または入力/出力(I/O)インターフェイス1820を含むのであってもよい。示されているように、1種類以上のI/Oコントローラーおよび/またはI/Oデバイスを、I/Oバス1826(I/Oコントローラー1828およびI/Oデバイス1830など)に連結してもよい。
【0202】
I/Oデバイス1830はまた、プロセッサー1802~1806と情報のやり取りをする、および/またはプロセッサー1802~1806に対してコマンドの選択をする、英数字キーおよびその他のキーを含む英数字入力デバイスなどの入力デバイス(非提示)を含んでいてもよい。他の種類のユーザー入力デバイスとしては、プロセッサー1802~1806に方向情報を送信する、およびコマンドの選択をする、および表示デバイス上のカーソルの動きを制御する、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御が挙げられる。
【0203】
システム1800は、メインメモリー1816とよばれるダイナミック記憶デバイス、またはプロセッサーバス1812に接続した、情報およびプロセッサー1802~1806によって実行される命令を格納するランダムアクセスメモリー(RAM)または他のコンピューター可読デバイスを含んでいてもよい。メインメモリー1816はまた、プロセッサー1802~1806による命令を実行中のテンポラリ変数または他の中間情報を格納する目的で用いられるのであってもよい。システム1800は、プロセッサーバス1812に接続した、静的情報およびプロセッサー1802~1806の命令を格納する読み出し専用メモリー(ROM)および/または他の静的保存デバイスを含んでいてもよい。しかしながら、図18に概説したシステムは、本開示の局面にしたがって用いるのであってもよい、あるいは構成されるのであってもよいコンピューターシステムの可能な一例に過ぎない。
【0204】
一実施態様においては、上記の技術は、メインメモリー1816に含まれる1種類以上の命令の1つ以上の並びを実行するプロセッサー1804に応答するコンピューターシステム1800によって実施されるのであってもよい。これらの命令は、別の機械可読媒体(記憶装置など)からメインメモリー1816に読み込まれるのであってもよい。メインメモリー1816に含まれるこれら命令の並びの実行によって、本明細書に記載の処理工程を、プロセッサー1802~1806が実施するのであってもよい。別の実施態様においては、ソフトウェアの命令の代わりに、あるいはソフトウェアの命令と組み合わせて回路を利用するのであってもよい。したがって、本開示の実施態様はハードウエア要素とソフトウェア要素の両方を含むものであってもよい。
【0205】
一実施態様においては、プロセッサー1802~1806は、ニューラルネットワークおよび他の機械学習技術を可能にし得るテンソル・プロセッシング・ユニット(TPU)および/または他の人工知能アクセラレーターアプリケーション特異的集積回路(ASIC)を含むものであってもよい。少なくとも一つの実施態様においては、機械学習モジュール1832は、訓練および/または推論のステージを含んでいてもよい、本明細書に記載の機械学習技術を実施するソフトウェアおよび/またはハードウエアを指す。例えば、機械学習モジュール1832は、転移性癌のステージの異なる種類および/または転移性癌のステージを識別するように訓練されるのであってもよい。
【0206】
ソフトウェアおよび/またはファームウェアにおいて、各種の実施態様が完全にまたは部分的に実装されるのであってもよい。このソフトウェアおよび/またはファームウェアは、持続性コンピューター可読保存媒体内または媒体上に含まれる命令の形態を取るのであってもよい。次いで、本明細書に記載の演算の実行を可能にするために、これらの命令が1つ以上のプロセッサーによって読み込まれ実行されるのであってもよい。これらの命令は任意の好適な形態を取るのであってもよく、そのような形態としては、ソースコード、コンパイルしたコード、解釈されたコード、実行可能コード、静的コード、ダイナミックコードなどが挙げられるが、これらにのみに限定されるものではない。そのようなコンピューター可読媒体としては、1つ以上のコンピューターによって読み込むことが可能な形態の情報を格納する任意の有形持続性媒体が含まれ、そのような媒体としては:
読み出し専用メモリー(ROM);ランダムアクセスメモリー(RAM);磁気ディスク保存媒体;光学的保存媒体;フラッシュメモリーなどが挙げられるが、これらにのみに限定されるものではない。
【0207】
機械可読媒体としては、機械(例えば、コンピューター)によって可読性である形態(例えば、ソフトウェア、処理アプリケーション)の情報を格納または伝達する任意のメカニズムが挙げられる。そのような媒体は、不揮発性媒体および揮発性媒体の形態を取るのであってもよいが、これらのみに限定されるものではない;そのような媒体としては、コンピュータープログラム製品、1種類以上のデータベース管理製品、ウェブサーバー製品、アプリケーションサーバー製品、および/または他の付加的ソフトウェア要素を含むような、取り出し可能データ保存媒体、取り出しのできないデータ保存媒体、および/または有線または無線ネットワークアーキテクチャーを介して利用が可能となる外部保存デバイスを挙げることができる。取り出し可能データ保存媒体の例としては、コンパクトディスク読込専用メモリー(CD-ROM)、デジタル多用途ディスク(DVD)読込専用メモリー(DVD-ROM)、光磁気ディスク、フラッシュドライブなどが挙げられる。取り出しできないデータ保存媒体の例としては、内部磁気ハードディスク、半導体素子(SSD)などが挙げられる。1種類以上のメモリーデバイス(非提示)としては、揮発性メモリー(例えば、ダイナミックランダムアクセスメモリー(DRAM)、スタティックランダムアクセスメモリー(SRAM)など)および/または不揮発性メモリー(例えば、読み出し専用メモリー(ROM)、フラッシュメモリーなど)を挙げることができる。
【0208】
本明細書に記載される技術に準拠するシステムおよび方法を実現するメカニズムを含むコンピュータープログラムは、メインメモリー1816(機械可読媒体ともよぶことができる)に存在するのであってもよい。機械可読媒体が、本開示の演算のうちの任意の1種類以上を、機械が実施するための命令を格納可能またはコード可能な任意の有形持続性媒体、あるいはそのような命令によって利用される、またはそのような命令に関連するデータ構造物および/またはデータモジュールを格納可能またはコード可能な任意の有形持続性媒体を含むものであってもよいことは、理解されるであろう。機械可読媒体は、1種類以上の実行可能命令またはデータ構造物を保存する、単一媒体または複数媒体(例えば、集中データベースまたは分散型データベース、および/または関連するキャッシュおよびサーバー)を含むのであってもよい。
【0209】
以下の参考文献は参照として本明細書に組み入れられる。

参考文献


The following references are hereby incorporated by reference:
Bullman, S. et al. Analysis of Fusobacterium persistence and antibiotic response in colorectal cancer. Science 358, 1443-1448 (2017).
Dejea, C. M. et al. Patients with familial adenomatous polyposis harbor colonic biofilms containing tumorigenic bacteria. Science 359, 592-597 (2018).
Geller, L. T. et al. Potential role of intratumor bacteria in mediating tumor resistance to the chemotherapeutic drug gemcitabine. Science 357, 1156-1160 (2017).
Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359, 97-103 (2018).
Jin, C. et al. Commensal microbiota promote lung cancer development via γδ T cells. Cell 176, 998-1013.e16 (2019).
Ma, C. et al. Gut microbiome-mediated bile acid metabolism regulates liver cancer via NKT cells. Science 360, eaan5931 (2018).
Matson, V. et al. The commensal microbiome is associated with anti-PD-1 efficacy in metastatic melanoma patients. Science 359, 104-108 (2018).
Meisel, M. et al. Microbial signals drive pre-leukaemic myeloproliferation in a Tet2-deficient host. Nature 557, 580-584 (2018).
Routy, B. et al. Gut microbiome influences efficacy of PD-1-based immunotherapy against epithelial tumors. Science 359, 91-97 (2018).
Ye, H. et al. Subversion of systemic glucose metabolism as a mechanism to support the growth of leukemia cells. Cancer Cell 34, 659-673.e6 (2018).
The Cancer Genome Atlas Research Network et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet. 45, 1113-1120 (2013).
Hanahan, D. & Weinberg, R. A. The hallmarks of cancer. Cell 100, 57-70 (2000).
Hanahan, D. & Weinberg, R. A. Hallmarks of cancer: the next generation. Cell 144, 646-674 (2011).
Salter, S. J. et al. Reagent and laboratory contamination can critically impact sequence-based microbiome analyses. BMC Biol. 12, 87 (2014).
Glassing, A., Dowd, S. E., Galandiuk, S., Davis, B. & Chiodini, R. J. Inherent bacterial DNA contamination of extraction and sequencing reagents may affect interpretation of microbiota in low bacterial biomass samples. Gut Pathog. 8, 24 (2016).
Davis, N. M., Proctor, D. M., Holmes, S. P., Relman, D. A. & Callahan, B. J. Simple statistical identification and removal of contaminant sequences in marker-gene and metagenomics data. Microbiome 6, 226 (2018).
Robinson, K. M., Crabtree, J., Mattick, J. S. A., Anderson, K. E. & Dunning Hotopp, J. C. Distinguishing potential bacteria-tumor associations from contamination in a secondary data analysis of public cancer genome sequence data. Microbiome 5, 9 (2017).
Eisenhofer, R. et al. Contamination in low microbial biomass microbiome studies: issues and recommendations. Trends Microbiol. 27, 105-117 (2019).
The Cancer Genome Atlas Research Network. Comprehensive molecular characterization of gastric adenocarcinoma. Nature 513, 202-209 (2014).
The Cancer Genome Atlas Research Network. Integrated genomic and molecular characterization of cervical cancer. Nature 543, 378-384 (2017).
Tang, K.-W., Alaei-Mahabadi, B., Samuelsson, T., Lindh, M. & Larsson, E. The landscape of viral expression and host gene fusion and adaptation in human cancer. Nat. Commun. 4, 2513 (2013).
Minich, J. J. et al. KatharoSeq enables high-throughput microbiome analysis from low biomass samples. mSystems 3, e00218-17 (2018).
Wood, D. E. & Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biol. 15, R46 (2014).
Zhang, H. et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell 166, 755-765 (2016).
Choi, J.-H., Hong, S.-E. & Woo, H. G. Pan-cancer analysis of systematic batch effects on somatic sequence variations. BMC Bioinformatics 18, 211 (2017).
Lauss, M. et al. Monitoring of technical variation in quantitative high-throughput datasets. Cancer Inform. 12, 193-201 (2013).
Law, C. W., Chen, Y., Shi, W. & Smyth, G. K. voom: precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biol. 15, R29 (2014).
Mecham, B. H., Nelson, P. S. & Storey, J. D. Supervised normalization of microarrays. Bioinformatics 26, 1308-1315 (2010).
Boedigheimer, M. J. et al. Sources of variation in baseline gene expression levels from toxicogenomics study control animals across multiple laboratories. BMC Genomics 9, 285 (2008).
Scherer, A. Batch Effects and Noise in Microarray Experiments: Sources and Solutions (Wiley, 2009).
Hillmann, B. et al. Evaluating the information content of shallow shotgun metagenomics. mSystems 3, e00069-18 (2018).
Knights, D. et al. Bayesian community-wide culture-independent microbial source tracking. Nat. Methods 8, 761-763 (2011).
Integrative HMP (iHMP) Research Network Consortium. The Integrative Human Microbiome Project: dynamic analysis of microbiome-host omics profiles during periods of human health and disease. Cell Host Microbe 16, 276-289 (2014).
Yamamura, K. et al. Human microbiome Fusobacterium nucleatum in esophageal cancer tissue is associated with prognosis. Clin. Cancer Res. 22, 5574-5581 (2016).
Hsieh, Y.-Y. et al. Increased abundance of Clostridium and Fusobacterium in gastric microbiota of patients with gastric cancer in Taiwan. Sci. Rep. 8, 158 (2018).
Kostic, A. D. et al. PathSeq: software to identify or discover microbes by deep sequencing of human tissue. Nat. Biotechnol. 29, 393-396 (2011).
Svircev, Z. et al. Molecular aspects of microcystin-induced hepatotoxicity and hepatocarcinogenesis. J. Environ. Sci. Health C Environ. Carcinog. Ecotoxicol. Rev. 28, 39-59 (2010).
Jervis-Bardy, J. et al. Deriving accurate microbiota profiles from human samples with low bacterial content through post-sequencing processing of Illumina MiSeq data. Microbiome 3, 19 (2015).
Kwong, T. N. Y. et al. Association between bacteremia from specific microbes and subsequent diagnosis of colorectal cancer. Gastroenterology 155, 383-390.e8 (2018).
Blauwkamp, T. A. et al. Analytical and clinical validation of a microbial cell-free DNA sequencing test for infectious disease. Nat. Microbiol. 4, 663-674 (2019).
Hong, D. K. et al. Liquid biopsy for infectious diseases: sequencing of cell-free plasma to detect pathogen DNA in patients with invasive fungal disease. Diagn. Microbiol. Infect. Dis. 92, 210-213 (2018).
Burnham, P. et al. Urinary cell-free DNA is a versatile analyte for monitoring infections of the urinary tract. Nat. Commun. 9, 2412 (2018).
De Vlaminck, I. et al. Temporal response of the human virome to immunosuppression and antiviral therapy. Cell 155, 1178-1187 (2013).
Huang, Y.-F. et al. Analysis of microbial sequences in plasma cell-free DNA for early-onset breast cancer patients and healthy females. BMC Med. Genomics 11 (Suppl. 1), 16 (2018).
Bettegowda, C. et al. Detection of circulating tumor DNA in early- and late-stage human malignancies. Sci. Transl. Med. 6, 224ra24 (2014).
Clark, T. A. et al. Analytical validation of a hybrid capture-based next-generation sequencing clinical assay for genomic profiling of cell-free circulating tumor DNA. J. Mol. Diagn. 20, 686-702 (2018).
Sanders, J. G. et al. Optimizing sequencing protocols for leaderboard metagenomics by combining long and short reads. Genome Biol. 20, 226 (2019).
Huang S. et al. Human skin, oral, and gut microbiomes predict chronological age. mSystems 5, e00630-19 (2020).
Zhu, Q. et al. Phylogenomics of 10,575 genomes reveals evolutionary proximity between domains Bacteria and Archaea. Nat. Commun. 10, 5477 (2019).
Chiu, K.-P. & Yu, A. L. Application of cell-free DNA sequencing in characterization of bloodborne microbes and the study of microbe-disease interactions. PeerJ 7, e7426 (2019).
Lau, J. W. et al. The Cancer Genomics Cloud: collaborative, reproducible, and democratized-a new paradigm in large-scale computational research. Cancer Res. 77, e3-e6 (2017).
Hoadley, K. A. et al. Cell-of-origin patterns dominate the molecular classification of 10,000 tumors from 33 types of cancer. Cell 173, 291-304.e6 (2018).
Reynolds, S. M. et al. The ISB Cancer Genomics Cloud: a flexible cloud-based platform for cancer genomics research. Cancer Res. 77, e7-e10 (2017).
Ellrott, K. et al. Scalable open science approach for mutation calling of tumor exomes using multiple genomic pipelines. Cell Syst. 6, 271-281.e7 (2018).
The Cancer Genome Atlas Network. Comprehensive molecular portraits of human breast tumors. Nature 490, 61-70 (2012).
Cerami, E. et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2, 401-404 (2012).
Gao, J. et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal. 6, pl1 (2013).
Land, M. L. et al. Quality scores for 32,000 genomes. Stand. Genomic Sci. 9, 20 (2014).
Li, H. & Durbin, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-1760 (2009).
Greathouse, K. L. et al. Interaction between the microbiome and TP53 in human lung cancer. Genome Biol. 19, 123 (2018).
Shanmughapriya, S. et al. Viral and bacterial aetiologies of epithelial ovarian cancer. Eur. J. Clin. Microbiol. Infect. Dis. 31, 2311-2317 (2012).
Banerjee, S. et al. The ovarian cancer oncobiome. Oncotarget 8, 36225-36245 (2017).
Langmead, B. & Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat. Methods 9, 357-359 (2012).
Bolyen, E. et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nat. Biotechnol. 37, 852-857 (2019).
Ritchie, M. E. et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43, e47 (2015).
Robinson, M. D., McCarthy, D. J. & Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140 (2010).
McDonald, D. et al. The Biological Observation Matrix (BIOM) format or: how I learned to stop worrying and love the ome-ome. 1, 2047-217X-1-7 (2012).
Friedman, J. H. Stochastic gradient boosting. Comput. Stat. Data Anal. 38, 367-378 (2002).
Friedman, J. H. Greedy function approximation: a gradient boosting machine. Ann. Stat. 29, 1189-1232 (2001).
Kuhn, M. Building predictive models in R using the caret package. J. Stat. Softw. 28, 1-26 (2008).
Grau, J., Grosse, I. & Keilwagen, J. PRROC: computing and visualizing precision-recall and receiver operating characteristic curves in R. Bioinformatics 31, 2595-2597 (2015).
Gire, S. K. et al. Genomic surveillance elucidates Ebola virus origin and transmission during the 2014 outbreak. Science 345, 1369-1372 (2014).
Matranga, C. B. et al. Enhanced methods for unbiased deep sequencing of Lassa and
Ebola RNA viruses from clinical and biological samples. Genome Biol. 15, 519 (2014).
Gonzalez, A. et al. Avoiding pandemic fears in the subway and conquering the platypus. mSystems 1, e00050-16 (2016).
Didion, J. P., Martin, M. & Collins, F. S. Atropos: specific, sensitive, and speedy trimming of sequencing reads. PeerJ 5, e3720 (2017).
Bolger, A. M., Lohse, M. & Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics 30, 2114-2120 (2014).
The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 526, 68-74 (2015).
Mago?, T. & Salzberg, S. L. FLASH: fast length adjustment of short reads to improve genome assemblies. Bioinformatics 27, 2957-2963 (2011).
Gonzalez, A. et al. Qiita: rapid, web-enabled microbiome meta-analysis. Nat. Methods 15, 796-798 (2018).
図1
図2
図3
図4-1】
図4-2】
図5
図6
図7-1】
図7-2】
図7-3】
図8-1】
図8-2】
図9-1】
図9-2】
図10-1】
図10-2】
図11-1】
図11-2】
図11-3】
図12
図13-1】
図13-2】
図14-1】
図14-2】
図14-3】
図15-1】
図15-2】
図16-1】
図16-2】
図16-3】
図17-1】
図17-2】
図17-3】
図18
【国際調査報告】