IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グレイル エルエルシーの特許一覧

特表2024-513563局在化正確性のための起点組織の条件付き返し
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-26
(54)【発明の名称】局在化正確性のための起点組織の条件付き返し
(51)【国際特許分類】
   G16H 50/20 20180101AFI20240318BHJP
   C12Q 1/02 20060101ALI20240318BHJP
   C12Q 1/06 20060101ALI20240318BHJP
【FI】
G16H50/20
C12Q1/02
C12Q1/06
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023561374
(86)(22)【出願日】2022-04-05
(85)【翻訳文提出日】2023-11-01
(86)【国際出願番号】 US2022023555
(87)【国際公開番号】W WO2022216756
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】63/171,355
(32)【優先日】2021-04-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【氏名又は名称】石井 裕充
(72)【発明者】
【氏名】オリバー クロード ヴェン
(72)【発明者】
【氏名】ピーター ディー フリーセ
(72)【発明者】
【氏名】サミュエル エス グロス
(72)【発明者】
【氏名】ロバート エイブ ペイン キャレフ
(72)【発明者】
【氏名】アラッシュ ジャムシディ
【テーマコード(参考)】
4B063
5L099
【Fターム(参考)】
4B063QA01
4B063QA19
4B063QQ02
4B063QS40
5L099AA04
(57)【要約】
ここに開示されるのは、核酸サンプルを使用した疾病状態(例えば、起点組織)の局在化のためのシステムおよび方法である。一実施形態では、方法は、サンプルの複数の癌信号を受信することを含み、各癌信号は、サンプルが複数の疾病状態の異なる疾病状態に関連付けられているという確率を示す。方法は、複数の癌信号の中から最大の確率を有する第1の癌信号を決定する。第1の癌信号が基準を満たすという決定に従って、方法は、第1の疾病状態とサンプルを関連付ける。第1の癌信号が基準を満たさないとの決定に応じて、方法は、第2の癌信号が複数の癌信号の中から第2の最大の確率を有することを決定し、第1の疾病状態および第2の疾病状態とサンプルを関連付ける。
【特許請求の範囲】
【請求項1】
癌診断のための方法であって、
第1の個人の第1のサンプルの第1の複数の癌信号を受信することであって、前記第1の複数の癌信号のそれぞれは、前記第1のサンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第1の複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応答して、前記第1のサンプルを前記第1の癌信号に対応する疾病状態に関連付けることと、
クライアント装置に表示して前記第1の個人の第1の診断を決定するために、前記第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することと、
第2の個人の第2のサンプルの第2の複数の癌信号を受信することであって、前記第2の複数の癌信号のそれぞれは、前記第2のサンプルが前記複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第2の複数の癌信号のうち最大の確率を有する第2の癌信号を決定することと、
前記第2の癌信号が前記基準を満たさないと決定することに応答して、前記第2のサンプルを、少なくとも前記第2の癌信号を含む前記第2の複数の癌信号のサブセットに対応する前記複数の疾病状態のサブセットに関連付けることと、
前記クライアント装置に表示して前記第2の個人の第2の診断を決定するために、前記第2のサンプルに関連付けられた前記第2の複数の癌信号の前記サブセットに対応する前記複数の疾病状態の前記サブセットを提供することと、
を含む方法。
【請求項2】
請求項1に記載の方法において、
前記第2の複数の癌信号のうち第2の最大の確率を有する第3の癌信号を決定することであって、前記第2の複数の癌信号の前記サブセットは更に前記第3の癌信号を含む、ことを含む方法。
【請求項3】
請求項1又は2に記載の方法において、
前記基準は確率閾値であり、
前記第1の癌信号が前記基準を満たすと決定することは、前記第1の癌信号の前記最大の確率が前記確率閾値よりも高いと決定することを含む、方法。
【請求項4】
請求項3に記載の方法において、前記確率閾値は少なくとも90%である、方法。
【請求項5】
請求項1乃至4の何れか一項に記載の方法において、
癌信号確率の正確性と偽陽性とに基づいて前記基準を決定すること含む、方法。
【請求項6】
請求項1乃至5の何れか一項に記載の方法において、
サンプルに関連付けられた現在の癌の残余リスクに基づいて前記基準を決定することを含む、方法。
【請求項7】
請求項1乃至6の何れか一項に記載の方法において、
前記第1の複数の癌信号のうち、n個の最大の確率を有する前記第1の複数の癌信号のうちのn個の癌信号のサブセットを決定することと、
前記第1の複数の癌信号の前記サブセットのうち少なくとも1つの閾値数が、疾病状態の分類に関連付けられていると決定することに応答して、前記第1のサンプルを疾病状態の前記分類の各疾病状態に関連付けることと、
を含む方法。
【請求項8】
請求項7に記載の方法において、疾病状態の前記分類は、ヒトパピローマウイルス(HPV)癌である、方法。
【請求項9】
請求項7に記載の方法において、疾病状態の前記分類は、胃癌及び腸癌を含む、方法。
【請求項10】
請求項1乃至9の何れか一項に記載の方法において、前記複数の疾病状態は、非癌状態を含む、方法。
【請求項11】
請求項1乃至10の何れか一項に記載の方法において、前記複数の疾病状態は、
肛門癌、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂および尿管の尿路上皮癌、尿路上皮癌以外の腎癌、前立腺癌、肛門直腸癌、結腸直腸癌、食道の扁平上皮癌、扁平上皮癌以外の食道癌、胃癌、肝細胞から生じる肝胆道癌、肝細胞以外の細胞から生じる肝胆道癌、膵癌、ヒトパピローマウイルス関連の頭部癌及び頸部癌、ヒトパピローマウイルスと関連しない頭部癌及び頸部癌、肺腺癌、小細胞肺癌、肺扁平上皮癌、腺癌又は小細胞肺癌以外の肺癌、神経内分泌癌、メラノーマ、甲状腺癌、肉腫、多発性骨髄腫、リンパ腫、白血病、腎癌、肝癌、胆管癌、形質細胞腫瘍癌、上部消化管癌、外陰癌、肺神経内分泌腫瘍、及び、他の高度神経内分泌腫瘍を含む群から選択される1以上の種類の癌を含む、方法。
【請求項12】
請求項1乃至11の何れか一項に記載の方法において、
前記クライアント装置に表示するために、前記第2のサンプルに関連付けられた前記複数の疾病状態の前記サブセットに対応する各疾病状態の図表比較を提供することを含む、方法。
【請求項13】
請求項12に記載の方法において、前記図表比較は、前記第2の複数の癌信号の前記確率に基づいた棒描画である、方法。
【請求項14】
癌信号局在化のための方法であって、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する第1の疾病状態に関連付けることと、
前記第1の癌信号が前記基準を満たさないとの決定に応じて、
前記複数の癌信号のうち第2の最大の確率を有する第2の癌信号を決定することと、
前記サンプルを、前記第1の癌信号に対応する前記第1の疾病状態と前記第2の癌信号に対応する第2の疾病状態に関連付けることと、
を含む、方法。
【請求項15】
請求項14に記載の方法において、
前記第1の癌信号が前記基準を満たすとの前記決定に応じて、前記第1の癌信号を機械学習モデルへの入力として提供して、前記サンプルにおける癌の予測を決定することと、
前記第1の癌信号が前記基準を満たさないとの前記決定に応じて、前記第1の癌信号と前記第2の癌信号とを前記機械学習モデルへの入力として提供して、前記サンプルにおける癌の前記予測を決定することと、
を含む方法。
【請求項16】
請求項14に記載の方法において、
前記第1の癌信号が前記基準を満たすとの前記決定に応じて、前記サンプルと前記第1の癌信号に対応する前記第1の疾病状態との関連付けを含む第1の訓練セットを作成して、癌信号局在化のための機械学習モデルを訓練することと、
前記第1の癌信号が前記基準を満たさないとの前記決定に応じて、前記サンプルと、前記第1の癌信号に対応する前記第1の疾病状態及び前記第2の癌信号に対応する前記第2の疾病状態に対応する前記第2の疾病状態との関連付けを含む第2の訓練セットを作成して、前記機械学習モデルを訓練することと、
を含む方法。
【請求項17】
請求項14乃至16の何れか一項に記載の方法において、前記基準は確率閾値であり、前記第1の癌信号が前記基準を満たすとの前記決定は、前記第1の癌信号の最大の確率が前記確率閾値より高いと決定することを含む、方法。
【請求項18】
請求項14乃至17に記載の方法において、
癌信号確率の正確性と偽陽性とに基づいて前記基準を決定することを含む、方法。
【請求項19】
請求項14乃至18の何れか一項に記載の方法において、
サンプルに関連付けられた現在の癌の残余リスクに基づいて前記基準を決定することを含む、方法。
【請求項20】
請求項14乃至19の何れか一項に記載の方法において、
前記複数の癌信号のうち、n個の最大の確率を有する前記複数の癌信号のうちのn個の癌信号のサブセットを決定することと、
前記複数の癌信号の前記サブセットのうち少なくとも1つの閾値数が、疾病状態の分類に関連付けられていると決定することに応答して、前記サンプルを疾病状態の前記分類の各疾病状態に関連付けることと、
を含む方法。
【請求項21】
請求項20に記載の方法において、疾病状態の前記分類は、ヒトパピローマウイルス(HPV)癌である、方法。
【請求項22】
請求項20に記載の方法において、疾病状態の前記分類は、胃癌及び腸癌を含む、方法。
【請求項23】
請求項14乃至22の何れか一項に記載の方法において、前記複数の疾病状態は、非癌状態を含む、方法。
【請求項24】
請求項14乃至23の何れか一項に記載の方法において、前記複数の疾病状態は、
肛門癌、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂および尿管の尿路上皮癌、尿路上皮癌以外の腎癌、前立腺癌、肛門直腸癌、結腸直腸癌、食道の扁平上皮癌、扁平上皮癌以外の食道癌、胃癌、肝細胞から生じる肝胆道癌、肝細胞以外の細胞から生じる肝胆道癌、膵癌、ヒトパピローマウイルス関連の頭部癌及び頸部癌、ヒトパピローマウイルスと関連しない頭部癌及び頸部癌、肺腺癌、小細胞肺癌、肺扁平上皮癌、腺癌又は小細胞肺癌以外の肺癌、神経内分泌癌、メラノーマ、甲状腺癌、肉腫、多発性骨髄腫、リンパ腫、白血病、腎癌、肝癌、胆管癌、形質細胞腫瘍癌、上部消化管癌、外陰癌、肺神経内分泌腫瘍、及び、他の高度神経内分泌腫瘍を含む群から選択される1以上の種類の癌を含む、方法。
【請求項25】
請求項14乃至24の何れか一項に記載の方法において、
クライアント装置に表示して診断を決定するために、第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することを含む、方法。
【請求項26】
請求項14乃至25の何れか一項に記載の方法において、
クライアント装置に表示して診断を決定するために、第2のサンプルに関連付けられた前記複数の疾病状態の前記サブセットに対応する各疾病状態の図表比較を提供することを含む、方法。
【請求項27】
請求項26に記載の方法において、前記図表比較は、第2の複数の癌信号の前記確率に基づいた棒描画である、方法。
【請求項28】
癌信号局在化のための方法であって、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号の残りの癌信号が不正確である場合に、前記複数の癌信号の第1の癌信号が真陽性である第1の条件付き確率を決定することと、
前記第1の条件付き確率が基準を満たすと決定することに応答して、前記サンプルを、前記第1の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
前記第1の癌信号を除く前記複数の癌信号のサブセットを決定することと、
前記複数の癌信号の前記サブセットの残りの癌信号が不正確である場合に、前記複数の癌信号の前記サブセットの第2の癌信号が真陽性である第2の条件付き確率を決定することと、
前記第2の条件付き確率が前記基準を満たすと決定することに応じて、前記サンプルを、前記第2の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
を含む方法。
【請求項29】
コンピュータプロセッサとメモリとを含むシステムであって、前記メモリはコンピュータプログラム命令を格納し、前記コンピュータプログラム命令は、前記コンピュータプロセッサによって実行されると、前記プロセッサにステップを実行させ、前記ステップは、
第1の個人の第1のサンプルの第1の複数の癌信号を受信することであって、前記第1の複数の癌信号のそれぞれは、前記第1のサンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第1の複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応答して、前記第1のサンプルを前記第1の癌信号に対応する疾病状態に関連付けることと、
クライアント装置に表示して前記第1の個人の第1の診断を決定するために、前記第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することと、
第2の個人の第2のサンプルの第2の複数の癌信号を受信することであって、前記第2の複数の癌信号のそれぞれは、前記第2のサンプルが前記複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第2の複数の癌信号のうち最大の確率を有する第2の癌信号を決定することと、
前記第2の癌信号が前記基準を満たさないと決定することに応答して、前記第2のサンプルを、少なくとも前記第2の癌信号を含む前記第2の複数の癌信号のサブセットに対応する前記複数の疾病状態のサブセットに関連付けることと、
前記クライアント装置に表示して前記第2の個人の第2の診断を決定するために、前記第2のサンプルに関連付けられた前記第2の複数の癌信号の前記サブセットに対応する前記複数の疾病状態の前記サブセットを提供することと、
を含む、システム。
【請求項30】
命令を含む非一時的コンピュータ可読媒体であって、前記命令は、1以上のプロセッサによって実行されると、前記1以上のプロセッサにステップを実行させ、前記ステップは、
第1の個人の第1のサンプルの第1の複数の癌信号を受信することであって、前記第1の複数の癌信号のそれぞれは、前記第1のサンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第1の複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応答して、前記第1のサンプルを前記第1の癌信号に対応する疾病状態に関連付けることと、
クライアント装置に表示して前記第1の個人の第1の診断を決定するために、前記第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することと、
第2の個人の第2のサンプルの第2の複数の癌信号を受信することであって、前記第2の複数の癌信号のそれぞれは、前記第2のサンプルが前記複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第2の複数の癌信号のうち最大の確率を有する第2の癌信号を決定することと、
前記第2の癌信号が前記基準を満たさないと決定することに応答して、前記第2のサンプルを、少なくとも前記第2の癌信号を含む前記第2の複数の癌信号のサブセットに対応する前記複数の疾病状態のサブセットに関連付けることと、
前記クライアント装置に表示して前記第2の個人の第2の診断を決定するために、前記第2のサンプルに関連付けられた前記第2の複数の癌信号の前記サブセットに対応する前記複数の疾病状態の前記サブセットを提供することと、
を含む、システム。
【請求項31】
コンピュータプロセッサとメモリとを含むシステムであって、前記メモリはコンピュータプログラム命令を格納し、前記コンピュータプログラム命令は、前記コンピュータプロセッサによって実行されると、前記プロセッサにステップを実行させ、前記ステップは、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する第1の疾病状態に関連付けることと、
前記第1の癌信号が前記基準を満たさないとの決定に応じて、
前記複数の癌信号のうち第2の最大の確率を有する第2の癌信号を決定することと、
前記サンプルを、前記第1の癌信号に対応する前記第1の疾病状態と前記第2の癌信号に対応する第2の疾病状態とに関連付けることと、
を含む、システム。
【請求項32】
命令を含む非一時的コンピュータ可読媒体であって、前記命令は、1以上のプロセッサによって実行されると、前記1以上のプロセッサにステップを実行させ、前記ステップは、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する第1の疾病状態に関連付けることと、
前記第1の癌信号が前記基準を満たさないとの決定に応じて、
前記複数の癌信号のうち第2の最大の確率を有する第2の癌信号を決定することと、
前記サンプルを、前記第1の癌信号に対応する前記第1の疾病状態と前記第2の癌信号に対応する第2の疾病状態とに関連付けることと、
を含む、非一時的コンピュータ可読記憶媒体。
【請求項33】
コンピュータプロセッサとメモリとを含むシステムであって、前記メモリはコンピュータプログラム命令を格納し、前記コンピュータプログラム命令は、前記コンピュータプロセッサによって実行されると、前記プロセッサにステップを実行させ、前記ステップは、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号の残りの癌信号が不正確である場合に、前記複数の癌信号の第1の癌信号が真陽性である第1の条件付き確率を決定することと、
前記第1の条件付き確率が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
前記第1の癌信号を除く前記複数の癌信号のサブセットを決定することと、
前記複数の癌信号の前記サブセットの残りの癌信号が不正確である場合に、前記複数の癌信号の前記サブセットの第2の癌信号が真陽性である第2の条件付き確率を決定することと、
前記第2の条件付き確率が前記基準を満たすと決定することに応じて、前記サンプルを、前記第2の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
を含む、システム。
【請求項34】
命令を含む非一時的コンピュータ可読媒体であって、前記命令は、1以上のプロセッサによって実行されると、前記1以上のプロセッサにステップを実行させ、前記ステップは、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号の残りの癌信号が不正確である場合に、前記複数の癌信号の第1の癌信号が真陽性である条件付き確率を決定することと、
前記第1の条件付き確率が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
前記第1の癌信号を除く前記複数の癌信号のサブセットを決定することと、
前記複数の癌信号の前記サブセットの残りの癌信号が不正確である場合に、前記複数の癌信号の前記サブセットの第2の癌信号が真陽性である第2の条件付き確率を決定することと、
前記第2の条件付き確率が前記基準を満たすと決定することに応じて、前記サンプルを、前記第2の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
を含む、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【関連出願への相互参照】
【0001】
本願は、米国仮出願第63/171,355号(2021年4月6日出願)に対する優先権の利益を主張し、これは、全ての目的のために参照することによって全体として本願に組み込まれる。
背景技術
【技術分野】
【0002】
この開示は、一般に、疾病状態の局在化のための起点組織判定の条件付き返し(リターン)に関する。
【背景技術】
【0003】
疑わしい癌の起点組織を予測するためにモデルを訓練することができる。しかし、生物学的に曖昧なため、起点予測のもっともらしい組織が複数存在する可能性がある。例えば、感染源の異なる組織を有する生物学的サンプルは、同様の特徴を有する可能性がある。医師または他の医療提供者が、曖昧または錯体癌信号を分析して、個人に対する診断を決定することは困難である。腫瘍の脱落が低いサンプル(例えば、早期癌)も、有益なフラグメントが低いため、局在化診断が困難である。
【発明の概要】
【0004】
ここに開示されているのは、核酸サンプルを使用した疾病状態(例えば、癌の有無、癌種類、および/または、癌の起点組織(本明細書では「癌信号起点」とも呼ばれる))の局在化のための方法である。本明細書で開示される実施形態は、癌診断の分野における現存の技術への改良、および非侵襲型方法を使用した早期発見を提供する。一態様において、本開示は
癌診断のための方法であって、
第1の個人の第1のサンプルの第1の複数の癌信号を受信することであって、前記第1の複数の癌信号のそれぞれは、前記第1のサンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第1の複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応答して、前記第1のサンプルを前記第1の癌信号に対応する疾病状態に関連付けることと、
クライアント装置に表示して前記第1の個人の第1の診断を決定するために、前記第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することと、
第2の個人の第2のサンプルの第2の複数の癌信号を受信することであって、前記第2の複数の癌信号のそれぞれは、前記第2のサンプルが前記複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第2の複数の癌信号のうち最大の確率を有する第2の癌信号を決定することと、
前記第2の癌信号が前記基準を満たさないと決定することに応答して、前記第2のサンプルを、少なくとも前記第2の癌信号を含む前記第2の複数の癌信号のサブセットに対応する前記複数の疾病状態のサブセットに関連付けることと、
前記クライアント装置に表示して前記第2の個人の第2の診断を決定するために、前記第2のサンプルに関連付けられた前記第2の複数の癌信号の前記サブセットに対応する前記複数の疾病状態の前記サブセットを提供することと、
を含む方法を開示する。
【0005】
いくつかの実施形態において、本開示の方法、システム、または非一時的なコンピュータ可読媒体は、
前記第2の複数の癌信号のうち第2の最大の確率を有する第3の癌信号を決定することであって、前記第2の複数の癌信号の前記サブセットは更に前記第3の癌信号を含む、ことを含む。
【0006】
いくつかの実施形態では、前記基準は確率閾値であり、
前記第1の癌信号が前記基準を満たすと決定することは、前記第1の癌信号の前記最大の確率が前記確率閾値よりも高いと決定することを含む。ある実施形態では、確率閾値は、少なくとも88%、89%、90%、91%、または92%である。
【0007】
いくつかの実施形態において、本開示の方法、システム、または非一時的なコンピュータ可読媒体は、癌信号確率の正確性および偽陽性に基づいて基準を決定することをさらに含む。
【0008】
いくつかの実施形態において、本開示の方法、システム、または非一時的なコンピュータ可読媒体は、サンプルに関連付けられている現在の癌の残余リスクに基づいて基準を決定することをさらに含む。
【0009】
いくつかの実施形態において、本開示の方法、システム、または非一時的なコンピュータ読取可能媒体は、さらに、
前記第1の複数の癌信号のうち、n個の最大の確率を有する前記第1の複数の癌信号のうちのn個の癌信号のサブセットを決定することと、
前記第1の複数の癌信号の前記サブセットのうち少なくとも1つの閾値数が、疾病状態の分類に関連付けられていると決定することに応答して、前記第1のサンプルを疾病状態の前記分類の各疾病状態に関連付けることと、
を含む。
【0010】
いくつかの実施形態において、
疾病状態の前記分類は、ヒトパピローマウイルス(HPV)癌である。
疾病状態の前記分類は、胃癌及び腸癌を含む。
【0011】
ある実施形態では、複数の疾病状態は、非癌状態を含む。
【0012】
いくつかの実施形態において、前記複数の疾病状態は、
肛門癌、乳癌、子宮癌、子宮頸癌、卵巣癌、膀胱癌、腎盂および尿管の尿路上皮癌、尿路上皮癌以外の腎癌、前立腺癌、肛門直腸癌、結腸直腸癌、食道の扁平上皮癌、扁平上皮癌以外の食道癌、胃癌、肝細胞から生じる肝胆道癌、肝細胞以外の細胞から生じる肝胆道癌、膵癌、ヒトパピローマウイルス関連の頭部癌及び頸部癌、ヒトパピローマウイルスと関連しない頭部癌及び頸部癌、肺腺癌、小細胞肺癌、肺扁平上皮癌、腺癌又は小細胞肺癌以外の肺癌、神経内分泌癌、メラノーマ、甲状腺癌、肉腫、多発性骨髄腫、リンパ腫、白血病、腎癌、肝癌、胆管癌、形質細胞腫瘍癌、上部消化管癌、外陰癌、肺神経内分泌腫瘍、及び、他の高度神経内分泌腫瘍を含む群から選択される1以上の種類の癌を含む。
【0013】
いくつかの実施形態において、本開示の方法、システム、または非一時的なコンピュータ可読媒体は、さらに、クライアント装置に表示して診断を決定するために、第2のサンプルに関連付けられた前記複数の疾病状態の前記サブセットに対応する各疾病状態の図表比較を提供することを含む。いくつかの実施形態において、前記図表比較は、第2の複数の癌信号の前記確率に基づいた棒描画である、方法。
【0014】
別の態様では、本開示は、
コンピュータプロセッサとメモリとを含むシステムであって、前記メモリはコンピュータプログラム命令を格納し、前記コンピュータプログラム命令は、前記コンピュータプロセッサによって実行されると、前記プロセッサにステップを実行させ、前記ステップは、
第1の個人の第1のサンプルの第1の複数の癌信号を受信することであって、前記第1の複数の癌信号のそれぞれは、前記第1のサンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第1の複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応答して、前記第1のサンプルを前記第1の癌信号に対応する疾病状態に関連付けることと、
クライアント装置に表示して前記第1の個人の第1の診断を決定するために、前記第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することと、
第2の個人の第2のサンプルの第2の複数の癌信号を受信することであって、前記第2の複数の癌信号のそれぞれは、前記第2のサンプルが前記複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第2の複数の癌信号のうち最大の確率を有する第2の癌信号を決定することと、
前記第2の癌信号が前記基準を満たさないと決定することに応答して、前記第2のサンプルを、少なくとも前記第2の癌信号を含む前記第2の複数の癌信号のサブセットに対応する前記複数の疾病状態のサブセットに関連付けることと、
前記クライアント装置に表示して前記第2の個人の第2の診断を決定するために、前記第2のサンプルに関連付けられた前記第2の複数の癌信号の前記サブセットに対応する前記複数の疾病状態の前記サブセットを提供することと、
を含む、システムを提供する。
【0015】
別の態様において、本開示は、
命令を含む非一時的コンピュータ可読媒体であって、前記命令は、1以上のプロセッサによって実行されると、前記1以上のプロセッサにステップを実行させ、前記ステップは、
第1の個人の第1のサンプルの第1の複数の癌信号を受信することであって、前記第1の複数の癌信号のそれぞれは、前記第1のサンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第1の複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応答して、前記第1のサンプルを前記第1の癌信号に対応する疾病状態に関連付けることと、
クライアント装置に表示して前記第1の個人の第1の診断を決定するために、前記第1のサンプルに関連付けられた前記第1の癌信号に対応する前記疾病状態を提供することと、
第2の個人の第2のサンプルの第2の複数の癌信号を受信することであって、前記第2の複数の癌信号のそれぞれは、前記第2のサンプルが前記複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記第2の複数の癌信号のうち最大の確率を有する第2の癌信号を決定することと、
前記第2の癌信号が前記基準を満たさないと決定することに応答して、前記第2のサンプルを、少なくとも前記第2の癌信号を含む前記第2の複数の癌信号のサブセットに対応する前記複数の疾病状態のサブセットに関連付けることと、
前記クライアント装置に表示して前記第2の個人の第2の診断を決定するために、前記第2のサンプルに関連付けられた前記第2の複数の癌信号の前記サブセットに対応する前記複数の疾病状態の前記サブセットを提供することと、
を含む、システムを提供する。
【0016】
別の態様において、本開示は、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号のうち最大の確率を有する第1の癌信号を決定することと、
前記第1の癌信号が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する第1の疾病状態に関連付けることと、
前記第1の癌信号が前記基準を満たさないとの決定に応じて、
前記複数の癌信号のうち第2の最大の確率を有する第2の癌信号を決定することと、
前記サンプルを、前記第1の癌信号に対応する前記第1の疾病状態と前記第2の癌信号に対応する第2の疾病状態とに関連付けることと、
を含む癌信号局在化方法を提供する。
【0017】
いくつかの実施形態では、本開示の方法、システム、または非一時的なコンピュータ読み取り可能媒体は、
前記第1の癌信号が前記基準を満たすとの前記決定に応じて、前記第1の癌信号を機械学習モデルへの入力として提供して、前記サンプルにおける癌の予測を決定することと、
前記第1の癌信号が前記基準を満たさないとの前記決定に応じて、前記第1の癌信号と前記第2の癌信号とを前記機械学習モデルへの入力として提供して、前記サンプルにおける癌の前記予測を決定することと、
を含む。
【0018】
いくつかの実施形態において、本開示の方法、システム、または非一時的なコンピュータ可読媒体は、
前記第1の癌信号が前記基準を満たすとの前記決定に応じて、前記サンプルと前記第1の癌信号に対応する前記第1の疾病状態との関連付けを含む第1の訓練セットを作成して、癌信号局在化のための機械学習モデルを訓練することと、
前記第1の癌信号が前記基準を満たさないとの前記決定に応じて、前記サンプルと、前記第1の癌信号に対応する前記第1の疾病状態及び前記第2の癌信号に対応する前記第2の疾病状態に対応する前記第2の疾病状態との関連付けを含む第2の訓練セットを作成して、前記機械学習モデルを訓練することと、
【0019】
別の態様では、本開示は、
サンプルの複数の癌信号を受信することであって、前記複数の癌信号のそれぞれは前記サンプルが複数の疾病状態のうち異なる疾病状態に関連付けられる確率を示す、ことと、
前記複数の癌信号の残りの癌信号が不正確である場合に、前記複数の癌信号の第1の癌信号が真陽性である第1の条件付き確率を決定することと、
前記第1の条件付き確率が基準を満たすと決定することに応じて、前記サンプルを、前記第1の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
前記第1の癌信号を除く前記複数の癌信号のサブセットを決定することと、
前記複数の癌信号の前記サブセットの残りの癌信号が不正確である場合に、前記複数の癌信号の前記サブセットの第2の癌信号が真陽性である第2の条件付き確率を決定することと、
前記第2の条件付き確率が前記基準を満たすと決定することに応じて、前記サンプルを、前記第2の癌信号に対応する少なくとも1つの疾病状態に関連付けることと、
を含む。
【0020】
様々な実施形態では、システムは、コンピュータプロセッサとメモリとを含み、前記メモリはコンピュータプログラム命令を含み、前記コンピュータプログラム命令は、コンピュータプロセッサによって実行されると、プロセッサに本明細書に記載する方法のいずれかを実行させる。様々な実施形態では、非一時的なコンピュータ可読媒体は、1つ以上のプログラムを格納し、前記1つ以上のプログラムは命令を含み、前記命令は、プロセッサを含む電子装置によって実行されると、前記装置に本明細書に記載される方法のいずれかを実行させる。
【図面の簡単な説明】
【0021】
図1A図1Aは、様々な実施形態による癌信号局在化用方法のフローチャートである。
図1B図IBは、様々な実施形態による、癌信号局在化のための別の方法のフローチャートである。
図2図2Aは、様々な実施形態に従った、核酸サンプルを配列するためのシステムを示す。図2Bは、様々な実施形態による、癌信号局在化の分析システムのブロック図である。
図3図3は、様々な実施形態による、核酸を配列するプロセスを記述するフローチャートである。
図4図4は、一実施形態による、癌信号局在化中の真陽性および偽陽性の実験結果を示す。
図5図5は、様々な実施形態による、条件付き確率に基づく癌信号局在化用方法のフローチャートである。
図6図6は、一実施形態による癌信号局在化の実験成果を示す。
図7図7は、一実施形態による、条件付き返しに基づく癌信号局在化の実験結果を示す。
図8図8は、一実施形態による、発生した癌サンプルからの癌信号局在化の実験結果を示す。
図9図9は、一実施形態による、サンプルのサブサンプリングを示す描画(プロット)である。
図10A図10Aおよび10Bは、一実施形態による、期待されるスクリーニング癌信号強度に合致するようにサブサンプリングされた、検出された癌サンプルを示す。
図10B図10Aおよび10Bは、一実施形態による、期待されるスクリーニング癌信号強度に合致するようにサブサンプリングされた、検出された癌サンプルを示す。
図11A図11Aおよび11Bは、いくつかの実施形態による、サブサンプリングの前後における、癌種類による癌信号強度を示す。
図11B図11Aおよび11Bは、いくつかの実施形態による、サブサンプリングの前後における、癌種類による癌信号強度を示す。
図12図12は、いくつかの実施形態に従った、癌種類および段階別、サブサンプリング前後の癌信号強度を示す。
図13A図13 Aおよび13Bは、いくつかの実施形態による、第1、第2、第3、および第4のCSL呼によって捕捉されるCSL信号の割合などの、CSL呼確率の分布の棒グラフを含む。
図13B図13 Aおよび13Bは、いくつかの実施形態による、第1、第2、第3、および第4のCSL呼によって捕捉されるCSL信号の割合などの、CSL呼確率の分布の棒グラフを含む。
図14A図14Aおよび14Bは、いくつかの実施形態によれば、実際の癌種類による、第1、第2、第3、および第4のCSL呼によって捕捉されたCSL信号の割合など、CSL呼確率の配分の棒グラフを含む。
図14B図14Aおよび14Bは、いくつかの実施形態によれば、実際の癌種類による、第1、第2、第3、および第4のCSL呼によって捕捉されたCSL信号の割合など、CSL呼確率の配分の棒グラフを含む。
図15A図15 A、15B、および15Cは、いくつかの実施形態によれば、偽陽性および真陽性に分割された、メジアンの癌スコアの棒グラフを含む。
図15B図15 A、15B、および15Cは、いくつかの実施形態によれば、偽陽性および真陽性に分割された、メジアンの癌スコアの棒グラフを含む。
図15C図15 A、15B、および15Cは、いくつかの実施形態によれば、偽陽性および真陽性に分割された、メジアンの癌スコアの棒グラフを含む。
図16図16は、いくつかの実施形態による、累積確率スコアを示す。
図17A図17Aおよび17Bは、いくつかの実施形態による癌信号局在化の条件付き正確性を示す。
図17B図17Aおよび17Bは、いくつかの実施形態による癌信号局在化の条件付き正確性を示す。
図18A図18Aおよび18Bは、いくつかの実施形態による、固体および液体サンプル種類のための癌信号局在化の条件付き正確性を示す。
図18B図18Aおよび18Bは、いくつかの実施形態による、固体および液体サンプル種類のための癌信号局在化の条件付き正確性を示す。
図19A図19Aおよび図19Bは、いくつかの実施形態に従った、癌の段階に基づく癌信号局在化の条件付き正確性を示す。
図19B図19Aおよび図19Bは、いくつかの実施形態に従った、癌の段階に基づく癌信号局在化の条件付き正確性を示す。
図20A図20 Aおよび20Bは、いくつかの実施形態による、癌信号局在化の累積正確性を示す。
図20B図20 Aおよび20Bは、いくつかの実施形態による、癌信号局在化の累積正確性を示す。
図21A図21Aおよび21Bは、いくつかの実施形態による、偽陽性の癌信号局在化を示す。
図21B図21Aおよび21Bは、いくつかの実施形態による、偽陽性の癌信号局在化を示す。
図22A図22Aおよび22Bは、いくつかの実施形態による、癌種類に基づく偽陽性の癌信号局在化を示す。
図22B図22Aおよび22Bは、いくつかの実施形態による、癌種類に基づく偽陽性の癌信号局在化を示す。
【発明を実施するための形態】
【0022】
ここで、いくつかの実施形態を詳細に言及する。これらの実施形態の例は、添付の図面に示されている。実行可能な場合には、図中に同様の又は同様の参照番号を使用することができ、類似又は類似の機能を示すことができることに留意されたい。また、ここで参照される全ての公開資料(特許出願、特許、論文、会議議事録等)の内容は、全体として参照することによって本明細書に組み込まれることに留意されたい。
【0023】
I. 定義
他に定義されていない限り、本明細書で使用される全ての技術的及び科学的用語は、本明細書が属する当業者によって一般に理解される意味を有する。本明細書で使用されるように、以下の用語は、以下に説明する意味を有する。
【0024】
「個人」という用語は、人間の個人を指す。「健康な個体」という用語は、癌または疾患を有さないと推定される個体を意味する。
【0025】
「被験者」という用語は、DNAが分析される個人を指す。被験者は、全ゲノムシークエンシングまたは本明細書に記載されるようなターゲット化されたパネルを用いてDNAが評価され、その人物が疾病状態を有するか否かを評価する(例えば、癌、癌の種類、または癌の起点組織)被験体であってもよい。被験者はまた、癌または別の疾患を有していないことが知られている制御群の一部であり得る。被験者はまた、癌または他の疾患を有することが知られている癌または他の疾患群の一部であり得る。対象とするパネルの設計または妥当性確認を支援するために、制御および癌/疾病群を使用してもよい。
【0026】
「基準サンプル」とは、公知の疾病状態を有する被験者から得られたサンプルをいう。
【0027】
「訓練サンプル」という語は、配列読み取りを生成するために使用することができる既知の疾病状態から得られるサンプルを意味する。訓練サンプルを確率のモデルに適用して、疾病状態分類に利用できる特徴を生成することができる。
【0028】
「試験サンプル」とは、不明な疾病状態を持つ可能性のあるサンプルを指す。
【0029】
「配列読み取り」という語は、個人から得られたサンプルから読み取られた塩基配列を指す。配列読み取りは、サンプル内の核酸断片から生成される場合がある。配列読み取りは、単一の起点の核酸の分子からの複数のアンプリコンから導出された複数の配列読み取りから生成された、折りたたまれた配列読み取りであってもよい。いくつかの実施形態では、配列読み取りは、重複排除された配列読み取りであってもよい。配列読み取りは、当技術分野で周知の種々の方法を通じて得ることができる。
【0030】
「疾病状態」という語は、感染の有無、感染の種類、および/または起点の感染組織を意味する。例えば、一実施形態では、本開示は、方法、システム、および非一時的なのコンピュータ可読媒体を提供し、それは、危険性(すなわち、危険性の有無)、危険性の種類、または起点の危険性の組織を検出する。
【0031】
「起点組織」、または「TOO」とは、疾病状態が発生または発生する可能性のある器官、器官群、身体領域または細胞種類を指す。例えば、起点組織または癌細胞種類の同定(特定)は、典型的には、さらなる診断、段階、および治療を決定するための適切な次のステップを識別することを可能にする。
【0032】
本明細書で使用される用語「メチレーション」は、DNA分子に塩基が追加される化学プロセスを意味する。DNAの4つの塩基であるサイトシン(「C」)とアデニン(「A」)のうちの2つは、代謝を行うことができる。例えば、シトシン塩基のピリミジン環上の水素原子はメチル基に変換され、5-メチルシトシンを形成する。メチル化は、本明細書では「CpG部位」と称するシトシンおよびグアニンのジヌクレオチドにおいて起こる傾向がある。他の例では、メチル化は、CpG部位の一部ではないシトシンにおいて、またはシトシンではない別のヌクレオチドにおいて発生しうる。しかしこれらはまれに起こる。本開示では、わかりやすくするために、CpGサイトを参照して、メチレーションについて議論する。しかしながら、本明細書に記載する原理は、非CpG文脈(非サイトシンメチレーションを含む)におけるメチレーションの検出にも同様に適用可能である。例えば、アデニンのメチル化は、細菌、植物および哺乳類のDNAで観察されているが、それほど注目されていない。
【0033】
このような実施形態において、メチル化を検出するために使用されるウェット研究所アッセイは、当技術分野で周知のように、本明細書に記載されるものから変化しうる。さらに、メチレーション状態ベクトルは、(それらのサイトが特にCpGサイトでなくても)メチレーションが発生した、または発生していないサイトの一般的なベクトルである成分を含むことができる。その置換によれば、本明細書に記載する残りのプロセスは同じであり、従って本明細書に記載する発明の概念は、それらの他の形態の形態に適用可能である。
【0034】
「CpG部位」という用語は、ヌクレオチドの5'から3'方向に沿った線状塩基配列において、部位シン(シトシン)の後に、グアニン(guanine)が続くヌクレオチド分子の領域を意味する。"CpG"は5'-C-リン酸-G-3'の略称で、シトシンとグアニンは1つのリン酸基だけで分離されている。リン酸はDNA中の2つのヌクレオチドをつなぎ合わせている。CpGジヌクレオチド中のシトシンはメチル化されて5メチルシトシンを形成する。
【0035】
用語「無細胞デオキシリボ核酸」、「無細胞DNA」、または「cfDNA」は、血液、汗、尿、または唾液のような体液中を循環し、1つ以上の健康な細胞および/または1つ以上の癌細胞に由来するデオキシリボ核酸断片を意味する。
【0036】
用語「循環腫瘍DNA」または「ctDNA」は、腫瘍細胞または癌細胞の他の種類に由来するデオキシリボ核酸断片を意味する。これは、死ぬ細胞のアポトーシスまたは壊死のような生物学的過程の結果として、または生存腫瘍細胞によって活発に放出される、血液、汗、尿、または唾液のような個々の体液中に放出され得る。
【0037】
II. 局在化方法の概要
図1Aは、様々な実施形態による、癌信号局在化用の方法100のフローチャートである。図2Bは、様々な実施形態による、癌信号局在化の分析システム200のブロック図である。図2Bに示す実施形態では、分析システム200は、配列プロセッサ210、機械学習エンジン220、確率モデル230、分類器240、および局在化エンジン250を含む。様々な実施形態では、分析システム200は、本明細書に記載する方法のいずれかを実行する。方法100は、以下のステップを含むが、これらに限定されない。
【0038】
ステップ110において、局在化エンジン250は第1のサンプルの第1の組の癌信号を受信する。癌信号は「確率スコア」または「癌スコア」とも呼ばれる。癌信号の最初の集合の各々の癌信号は、最初のサンプルが疾病状態の集合の異なった疾病状態と関連しているという確率を示す。それぞれの(確率の)癌信号は、0%から100%、0から100、0から1までのスケールで指定できる。第1の組における癌信号は、100%、100または1に合計され得る。
【0039】
癌信号は、1つ以上の分類器240によって生成され得る。様々な実施形態では、分類器240は、サンプルの配列読み取りを処理することによって、癌信号を生成する。配列プロセッサ210は、サンプルの配列読み取りを生成することができる。いくつかの実施形態において、信号は、癌以外の疾病状態と関連付けられている。例えば、疾病状態は、医学的または生理的状態、汎用障害、健康に関連した測定値、および他の種類の感染を含むことができる。
【0040】
様々な実施形態では、分類器240は、21の異なった癌種類および1つの非癌信号に対する癌信号を含む、22の癌信号の集合を生成する。21種類の癌種類には以下のものが含まれる:肛門;膀胱および尿路上皮;乳房;子宮頸部;結腸および直腸;頭頸部;腎臓;肝臓および胆管;肺;肺または他の臓器の神経内分泌細胞;リンパ系;メラノサイト系;骨髄系;卵巣;膵臓および胆嚢;形質細胞系;前立腺;骨および軟部組織;甲状腺および食道;子宮。他の実施形態では、分類器は、異なる数の癌信号を含むセット、または上記のリストとは異なる種類の疾病状態を含むセットを生成する。
【0041】
ステップ120において、局在化エンジン250は、第1の癌信号組の間に最大の確率を有する第1の癌信号を決定する。ステップ130では、第1の癌信号が基準を満たすとの判定に応答して、局在化エンジン240は、第1の癌信号に対応する少なくとも1つの疾病状態で第1のサンプルを関連付ける。例えば、局在化エンジン250は、第1のサンプルが、疾病状態によって示された起点組織を有する癌に関連付けられているという予測を報告することができる。いくつかの実施形態では、局在化エンジン250は、最初の癌信号に対応する疾病状態のみを報告する;すなわち、局在化エンジン250は、最初の組の癌信号の他エンジン癌信号に対応する疾病状態の予測を報告しない。基準が満たされたときに1つの疾病状態のみを報告することは、医師の実践を支援し得る分析システム200によって提供されるアウトプットの複雑さを低減することに役立つことが可能である。
【0042】
様々な実施形態では、基準は、90%の正陽性癌スコアの確率閾値である。すなわち、局在化エンジン250は、分類器240が、癌信号起点スコアマスの質量の90%を第1の癌信号(これは疾病状態に対応する)に割り当てるかどうかを決定する。癌信号の集合が前述のように22個の癌種類を含むいくつかの実施形態では、確率閾値は1つの非癌信号を考慮しない。すなわち、局在化エンジン250は、分類器240が、21個の癌信号間の起点スコアマスの癌信号組織の90%を第1の癌信号に割り当てるかどうかを判断する。他の実施形態では、確率閾値は、癌の存在を示す癌信号に加えて、1つの非癌信号を説明する。他の実施形態では、基準は、例えば、88%、89%、91%、92%などの別の所定の確率閾値であってもよい。
【0043】
様々な実施形態では、局在化エンジン250は、癌信号確率および偽陽性の正確性に基づいて基準を決定する。正確に検出された真陽性の割合を増やす基準の確率閾値を選択することによっても、偽陽性の回数を増やす。すなわち、実際にはがんの存在が認められない健康なサンプルにおいて、がんの存在を誤って予測する。このトレードオフ関係は、図4に示された描画(プロット)400に示されている。より低い確率閾値では、真陽性の検出に対する限界的利益は高くなる。90% を超える確率閾値では、偽陽性の割合が増加するため、限界便益の真陽性の検出が減少する。実施形態において、局在化エンジン250は、真陽性対偽陽性の検出のプロット400上の曲線の変曲点を決定することによって確率閾値を決定する。変曲点に基づいて、局在化エンジン250は、確率閾値、例えば90%が、最適であると決定する。これは、確率閾値を使用して、癌の予測を決定することが、偽陽性検出の危険を軽減しながら、真陽性検出の正確性を改善するからである。確率閾値は、真陽性の予測を作成する際に偽陽性の危険性を考慮しない従来の方法よりも向上する。偽陽性率の高い従来の方法は、予測の全体正確性を低下させる。従って、本確率閾値は、特に非侵襲型手続きにおいて、例えば、外科を必要とする組織生体検査の代わりに、血液サンプルを使用するような、癌予測を決定する実用的用途に有利である。
【0044】
ステップ140において、局在化エンジン250は第2のサンプルの第2の一組の癌信号を受信する。第1のサンプルおよび第2のサンプルは、2つの異なる患者または同じ患者からのものである場合がある。このサンプルは、任意のセルフリー核物質サンプル(例えば、cfDNA)、固体サンプル、および/または生物学的サンプルの他の種類を含むことができる。第2の癌信号組の各々の癌信号は、第2のサンプルが(例えば、第1の癌信号組のための同じ組の)疾病状態の異なる疾病状態に関連しているという確率を示す。
【0045】
ステップ150において、局在化エンジン250は、第2の癌信号組の中で最大の確率を有する第2の癌信号を決定する。ステップ160では、第2の癌信号が基準を満たさないことの決定に応答して、局在化エンジン250は、第2のサンプルを、第2の癌信号の組のサブセットに対応する疾病状態の組のサブセットで関連付ける。いくつかの実施形態において、第2の組の癌信号のサブセットは、第2の組の癌信号の中で最大の2つの確率を有する癌信号を含むことができる。他の実施形態では、第2の組の癌信号のサブセットは、例えば、3、4、5、またはそれ以上の癌信号などの異なった数の癌信号を含むことができる。
【0046】
いくつかの実施形態では、局在化エンジン250は、サブセットn個の癌信号の第1の組のうちn個の最大の確率を有する第1の組の癌信号を決定する。少なくとも1組の閾値数のサブセットの癌信号が分類の疾病状態と関連していることを決定することに応答して、局在化エンジン250は、疾病状態の分類の各々の疾病状態を有する第1のサンプルを関連付ける。たとえば、疾病状態の分類はヒトパピローマウイルス(HPV)癌である。別の例では、疾病状態の分類には胃がんと腸がんが含まれる。他の実施形態では、疾病状態の分類は、1つ以上の他の種類の癌を含むことができる。
【0047】
いくつかの実施形態では、局在化エンジン250は、サンプルに関連する現行のカンファレンスの残余リスクに基づいて、基準を決定することができる(個人が癌と診断される危険性)。
例えば、局在化エンジン250は、不正確な起点組織予測を与えられた癌の条件付き確率に基づいて追加の癌信号を報告することを決定し、ここで、vは、校正済みの起点組織確率のランク付けされた選別ベクトルである。
【数1】
【0048】
局在化エンジン250は、個人が、第1の起点組織で癌が検出されない癌陽性検査後に癌を有する確率を決定することができる。癌は第二または第三の起点組織で検出され得る。
【0049】
局在化エンジン250は、疾病状態判定(例えば、癌の起点組織の局在化)を、医療提供者の他の種類の中でも、医師、医者、または医者などのユーザに提示することができる。例えば、局在化エンジン250は、ユーザへ、クライアント装置上で表示するために、第1のサンプルに関連する第1の癌信号に対応する疾病状態を提供する。局在化エンジン250は、各疾病状態の図表比較を提供することができ、これは第2の疾病状態に関連する一組の図表比較のサブセットに対応する。様々な実施形態では、図表比較は、癌信号の第2の組の確率に基づく棒描画である。確率の視覚的描写を提示することにより、ユーザは、局在化エンジン250によって出力された情報を直感的に解釈することができる。例えば、本図表比較は、「ユーザは、検出された癌の起点組織の真陽性である、より大きな確率を有する起点組織上により多くの重きを置くこと」を示唆することができる。
【0050】
図IBは、様々な実施形態による、癌信号局在化用の別の方法170のフローチャートである。方法170は、以下のステップを含むが、これらに限定されない。
【0051】
ステップ172において、局在化エンジン250は、サンプルの一組の癌信号を受信する。癌信号の集合の各々の癌信号は、サンプルが一組の疾病状態の異なった疾病状態に関連しているという確率を示す。ステップ174において、局在化エンジン250は、一組の癌信号の中で最大の確率を有する第1の癌信号を決定する。
【0052】
ステップ176では、第1の癌信号が基準を満たすとの判定(上記のいずれかの基準等)に従い、局在化エンジン250は第1の癌信号に対応する第1の疾病状態でサンプルを関連付けるする。
【0053】
ステップ178では、第1の癌信号が基準を満たさないとの判定に従って、局在化エンジン250は、癌信号のセットのうち第2の最大の確率を有する第2の癌信号を判定する。ステップ180において、局在化エンジン250は、サンプルを、第1の癌信号に対応する疾病状態と、第2の癌信号に対応する第2の疾病状態とに関連付ける。換言すれば、局在化エンジン250は、サンプルを、癌信号の第2のセットの中で、最大の2つの確率を有する癌信号と関連付ける。
【0054】
図5は、様々な実施形態による、条件付き確率に基づく癌信号局在化用方法500のフローチャートである。所定の確率閾値を使用する代わりに、局在化エンジン250は、直前のn-1個の癌信号が不正確である場合に、正確な第n番目の癌信号の条件付き確率に基づいて、閾値を決定することができる。この場合、局在化エンジン250は、P(n番目の癌信号が正確であり、n-1の癌信号が不正確)が、閾値確率を超えるなどの基準を満たす限り、癌信号を返し続けることができる。方法500は、以下のステップを含むが、これらに限定されない。
【0055】
ステップ510において、局在化エンジン250は、サンプルの一組の癌信号を受信する。
癌信号の各々は、サンプルが一組の疾病状態の異なった疾病状態と関連しているという確率を示す。
【0056】
ステップ520では、局在化エンジン250は第1の条件付き確率を決定し、その癌信号の集合の残りの癌信号が不正確である場合に、その集合の第1の癌信号が真陽性である。ステップ530では、第1の条件付き確率が基準を満たすことの決定に応答して、局在化エンジン250は、第1の癌信号に対応する少なくとも1つの疾病状態とサンプルを関連付ける。
【0057】
ステップ540で、局在化エンジンは、第1の癌信号を除いた複数の癌信号のサブセットを決定する。ステップ550では、局在化エンジンは、第2の条件付き確率として、癌信号のサブセットの第2の癌信号は、癌信号のサブセットの残りの癌信号が不正確な場合、真陽性である第2の条件付き確率を決定する。ステップ560では、第2の条件付き確率が基準を満たすとの判定に応答して、局在化エンジン250は、第2の癌信号に対応する少なくとも1つの疾病状態でサンプルを関連付ける。
【0058】
II.A. 検査プロトコル
図3は、一実施形態に従った、核酸を配列する処理300を記述するフローチャートである。ある実施形態では、処理300は、本明細書に記載する癌信号局在化のための方法のいずれかを実行するために分析システム200によって使用される配列読み取りを生成するために実行される。
【0059】
ステップ310で、核酸サンプル(例えば、DNAまたはRNA)が被験者から抽出される。本開示では、DNAとRNAは、特に断りのない限り、互換的に使用することができる。すなわち、本明細書に記載する実施形態は、核酸配列のDNAおよびRNA種類の両方に適用可能である。しかしながら、本明細書に記載する例は、わかりやすさと説明のためにDNAに焦点を当てることができる。サンプルは、全ゲノムを含む、人間のゲノムの任意のサブセットから派生した核酸分子を含むことができる。サンプルは、血液、血漿、血清、尿、糞便、唾液、体液の他の種類、またはそれらの任意の組合せを含むことができる。いくつかの実施形態において、血液サンプル(例えば、シリンジまたは指プリック)を描画するための方法は、外科を必要とし得る組織生体検査を得るための手順よりも侵入性が低いことが可能である。抽出されたサンプルはcfDNAおよび/またはctDNAを含むことができる。被験者が癌などの疾病状態を有する場合、被験体から抽出されたサンプル中の無細胞核酸(例えば、cfDNA)は、一般に、疾病状態を評価するために使用することができる核酸の検出可能な濃度を含む。
【0060】
ステップ315において、抽出された核酸(例えば、cfDNA断片を含む)を処理して、非メチル化シトシンをウラシルに変換する。いくつかの実施形態において、方法300は、メチル化されていないシトシンを、メチル化されたシトシンに変換することなくウラシルに変換するサンプルの亜硫酸水素塩処理を使用する。たとえば、EZ DNA Methylation(登録商標)- Gold、EZ DNA Methylation(登録商標) - Direct、又はEZ DNA Methylation(登録商標) - Lightning Kit (Zymo Research Corp (Irvine, CA) から入手可能) などの市販キットが、ビスルフィット変換に使用される。別の実施形態では、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、この変換には、市販のキットを用いて、非代謝シトシンをウラシルに変換することができる。たとえば、APOBEC-Seq (NEBiolabs, Ipswich, MA)などである。
【0061】
ステップ320において、配列ライブラリーが準備される。いくつかの実施形態において、準備は、少なくとも2つのステップを含む。最初のステップでは、ssDNA連結反応を用いて、ssDNAアダプターがbi sulfite変換ssDNA分子の3'-OH端部に追加される。いくつかの実施形態において、ssDNA連結反応は、ssDNAアダプターをbi sulfite-converted ssDNA分子の3'-OH端部に連結するために、CircLigase II (Epicentre)を使用し、ここで、アダプターの5'端部がリンチされ、そしてbi sulfite-converted ssDNAがデフォスフォリール化されている(すなわち、3'端部は、水文グループを有する)。別の実施形態では、ssDNA連結反応は、Thermostable 5のAppDNA/RNAリガーズ(New England BioLabs (Ipswich, MA)から入手可能)を使用して、ssDNAアダプターをbi sulfite変換ssDNA分子の3'-OH端部に連結する。この実施例では、最初のUMIアダプターは5'末端でアデニリル化され、3'末端でブロックされる。別の実施形態では、ssDNA連結反応は、T4 RNAリガーズ(New England BioLabsから入手可能)を用いて、ssDNAアダプターをbi sulfite変換ssDNA分子の3'-OH端部に連結する。
【0062】
第2のステップでは、2番目のストランドDNAが拡張反応で合成される。例えば、ssDNAアダプターに含まれるプライマー配列にハイブリダイズする伸長プライマーをプライマー伸長反応に用いて、二本鎖二亜硫酸塩変換DNA分子を形成する。必要に応じて、いくつかの態様において、伸長反応は、ビスルフィト変換された鋳型鎖中のウラシル残基を読み取ることができる酵素を使用する。
【0063】
選択的に、第3のステップで、dsDNAアダプターを二重ストランドビジュルフィット変換DNA分子に追加する。次いで、二本鎖二亜硫酸塩変換DNAを増幅して、配列決定アダプターを加えることができる。例えば、P5配列と、P7配列を含むリバースプライマーとを含むフォワード・プライマーを使用するPCR増幅は、P5およびP7配列を、ビスルフィト変換DNAに追加するために使用される。必要に応じて、ライブラリーの作成中に、固有の分子識別子(UMI)を、アダプター連結を介して、核酸分子(例えばDNA分子)に追加することができる。
UMIは、アダプター連結の際にDNA断片の端部に付加される短い核酸配列(例えば4~10塩基対)である。いくつかの実施形態において、UMIは、特定のDNA断片から発生する配列読み取りを識別するために使用することができる固有のタグとして機能する縮退塩基対である。アダプター連結後のPCR増幅中に、UMIは連結されたDNA断片と一緒に複製される。これは、下流分析において同じ元断片から来た配列読み取りを識別する方法を提供する。
【0064】
任意選択のステップ325において、核酸(例えば断片)をハイブリッド化することができる。ハイブリッド化プローブ(本明細書では「プローブ」とも呼ぶ)は、疾病状態に役立つ情報を含む核酸断片を標的化し、プルダウンするために使用することができる。与えられたワークフローに対して、プローブはDNAまたはRNAのターゲット(相補的)ストランドにアニーリング(またはハイブリッド化)するように設計できる。標的ストランドは、「正」ストランド(例えば、mRNAに転写され、続いてタンパク質に翻訳されるストランド)または相補的な「負」ストランドであり得る。プローブの長さは、10秒、100秒、または1000秒のいずれかになる。さらに、プローブは、ターゲット領域の重複部分をカバーすることができる。
【0065】
任意選択のステップ330において、ハイブリッド化された核酸断片が捕捉され、例えば、PCRを用いて増幅することができる。いくつかの実施形態では、ターゲットのDNA配列は、ライブラリーから豊富にすることができる。これは、たとえば、サンプルでターゲットのパネルアッセイが実行されている場合に使用される。たとえば、ターゲット配列を豊富にして、後で配列できる豊富な配列を得ることができる。概して、当技術分野で公知の任意の方法を使用して、プローブハイブリダイズした標的核酸を単離し、それを濃縮することができる。例えば、当技術分野で周知のように、ビオチン部分をプローブの5'末端に追加して(すなわち、ビオチニ化)、ストレプトアビディン被覆表面(例えば、ストレプトアビディン被覆ビーズ)を使用して、プローブにハイブリッド化されたターゲット核酸の隔離を容易にすることができる。
【0066】
ステップ335で、配列読み取りが、核酸サンプル、例えば、豊富化された配列から生成される。配列データは、当技術分野で既知の方法によって、エンリッチドDNA配列から取得することができる。たとえば、方法には、合成技術(Illumina)、ピローズ配列(454 Life Science)、オン半導体技術(Ion Torrent 配列)、単一分子リアルタイム配列(Pacific Biosciences)、合字による配列(SOLiD 配列)、ナノポール配列(オックスフォード Nanopore Technologies)、ペアエンド配列などの次世代配列(NGS) テクニックを含めることができる。
いくつかの実施形態では、可逆的ダイターミネータを有する合成による配列を用いて、超並列配列が行われる。
【0067】
II.B.例示的シーケンサおよび分析システム
図2Aは、様々な実施形態に従った、核酸サンプルを配列するためのシステムを示す。この説明図は、シーケンサ270および分析システム200のような装置を含む。シーケンサ270および分析システム200は、本明細書に記載する処理において1つ以上のステップを実行するために、並列して(タンデムで)動作してもよい。
【0068】
様々な実施形態では、シーケンサ270は、豊富化された核酸サンプル260を受信する。図2Aに示すように、シーケンサ270は、特定のタスクとのユーザの相互作用を可能にするグラフィックユーザインタフェース275と、エンリッチ断片サンプルを含む配列カートリッジをロードするため、および/または配列アッセイを実行するために必要なバッファをロードするために、1つ以上のロードステーション280とを含むことができる。したがって、シーケンサ270のユーザが、シーケンサ270のローディングステーション280に必要な試薬および配列カートリッジを供給すると、ユーザは、シーケンサ270のグラフィックユーザインタフェース275と対話することによって、配列を開始することができる。一旦開始されると、シーケンサ270は、配列を実行し、核酸サンプル260から、豊富化された断片の配列読み取りを出力する。
【0069】
ある実施形態では、シーケンサ270は、分析システム200と通信可能に結合される。分析システム200は、1つ以上のCpGサイトでのメチレーション状態の評価、変形呼び出し、または品質管理などの様々な用途のための配列読み取りを処理するために使用されるいくつかのコンピューティング装置を含む。シーケンサ270は、分析システム200に、BAMファイルフォーマットにおける配列読み取りを提供してもよい。分析システム200は、無線、有線、または無線と有線の通信技術の組合せを介してシーケンサ270に通信可能に結合することができる。一般に、分析システム200は、プロセッサによって実行されるときに、プロセッサに配列読み取りを処理させるか、または本明細書に開示するいずれかの方法または処理の1つ以上のステップを実行させる、コンピュータ命令を格納するプロセッサおよび非一時的なコンピュータ読み取り可能記憶媒体で構成される。
【0070】
いくつかの実施形態において、配列読み取りは、整列位置情報を決定するために、技術分野における既知の方法を使用して、リファレンスゲノムに整列されてもよい。整列位置は、一般に、リファレンスゲノム内の、特定の配列読み取りに基づいた始まりのクライアントベースと終わりのクライアントベースに対応する領域の開始位置と終わり位置を記述することができる。メチレーション配列に対応して、整列位置情報は、リファレンスゲノムへの整列に従って読み取られた配列に含まれる最初のCpG部位と最後のCpG部位を示すように一般化され得る。整列位置情報は、さらに、所与の配列読み取りにおける全てのCpG部位のメチレーション状態および位置を示すことができる。リファレンスゲノム内の領域は、1つまたは複数の配列に対応付けられていてもよい。例えば、分析システム200は、配列読み取りに対応付けられた1つまたは複数の配列に対応付けられた配列読み取りをラベル付けしてもよい。一実施形態では、断片長(またはサイズ)は、開始および終了位置から決定される。
【0071】
様々な実施形態では、例えば、一対エンド配列プロセスが使用される場合、配列読み出しは、R_1およびR_2として示される読み出し一対で構成される。例えば、最初の読み出しR_1は、二鎖DNA (dsDNA)分子の最初の端部から配列されるが、2番目の読み出しR_2は、二鎖DNA (dsDNA)の2番目の端部から配列される。従って、第1の読み出しR_1および第2の読み出しR_2の塩基対は、リファレンスゲノムの塩基と一貫して(例えば、逆向きに)整列させることができる。読み出し一対R_1及びR_2から導出された整列位置情報は、最初の読み出しの終わり(例えばR_l)に対応するリファレンスゲノム内の開始位置と、2番目の読み出しの終わり(例えばR_2)に一対応するリファレンスゲノム内の端位置とを含んでよい。言い換えれば、リファレンスゲノムの開始位置と端位置は、リファレンスゲノム内の可能性の高い位置を表しており、そこには核酸断片が対応する。一実施形態では、読み出し一対R_1およびR_2は、断片にアセンブルすることができ、断片は、後続の分析および/または分類のために使用される。SAM (配列整列マップ)フォーマットまたはBAM (バイナリー)フォーマットを有する出力ファイルを生成し、さらに分析するために出力することができる。
【0072】
ここで図2Bを参照すると、分析システム200は、DNAサンプル、配列読み取り、または他の情報の分析に使用するために、1つ以上のコンピューティング装置および/または1つ以上のプロセッサを実施する。
【0073】
いくつかの実施形態では、配列プロセッサ210は、サンプルから断片のメチレーション状態ベクトルを生成する。断片上の各CpGサイトにおいて、配列プロセッサ210は、リファレンスゲノム内の断片の位置、フラグメント内の多数のCpGサイト、および断片内の各CpGサイトのメチレーション状態(メチラート化されている、されていない、または不確定であるかにかかわらず)を指定する各断片についてのメチレーション状態ベクトルを生成する。配列プロセッサ210は、配列データベース215内の断片のメチレーション状態ベクトルを記憶することができる。配列データベース215内のデータは、サンプルからのメチレーション状態ベクトルが互いに関連するように編成されてもよい。
【0074】
さらに、多数の異なったモデル230をモデルデータベース225内に記憶するか、または試験サンプルと共に使用するために検索してもよい。一例を挙げると、モデルは、異常断片から導出された特徴ベクトルを用いて、試験サンプルのためのガンマ予測を決定するための訓練された癌分類器240である。癌分類器の訓練および使用は、本明細書の別の箇所で議論される。分析システム200は、1つ以上のモデル230および/または1つ以上の分類器240を訓練し、種々の訓練されたパラメータをパラメータデータベース235に格納し得る。分析システム200は、モデル230および/または分類器240を、機能とともにモデルデータベース225に格納する。
【0075】
推論中、機械学習エンジン220は、1つ以上のモデル230および/または分類器240を使用して出力を返す。機械学習エンジンは、パラメータデータベース235からの訓練されたパラメータとともに、モデルデータベース225内のモデル230および/または分類器240にアクセスする。各モデルに従って、機械学習エンジン220は、モデルに対する適切な入力を受信し、受信した入力、パラメータ、および入出力に関連する各モデルの機能に基づいて出力を算出する。あるユースケースでは、機械学習エンジン220はさらに、モデルから計算された出力の信頼度に相関する測定基準を計算する。他の使用事例では、機械学習エンジン220は、モデル内で使用するための他の仲介値を計算する。
【0076】
III. モデルベースの特徴エンジニアリング及び分類
III. A.モデルベースの特徴エンジニアリング
一実施形態に従って、本開示は、疾病状態の分類に有用な特徴を導出するためのモデルベースの特徴エンジニアリングに向けられる。本明細書の他の箇所で説明するように、疾病状態は、感染の有無、感染の種類、および/または感染組織または起点である。例えば、本明細書に記載されるように、疾病状態は、癌の有無、癌の種類、および/または起点の癌起点組織であってもよい。癌および/または起点組織の種類は、癌の種類の中で、乳癌、子宮癌、子宮頚癌、卵巣癌、膀胱がん、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、前立腺癌、直腸肛門癌、結腸直腸癌、食道がん、胃癌、肝胆道癌、肝細胞から生じる肝胆道癌、肝細胞癌、膵臓癌、上部消化管の扁平上皮癌、扁平上皮癌以外の上部消化管癌、頭頸部癌、肺癌、肺癌、例えば肺腺癌、小細胞肺がん、扁平上皮肺癌および腺癌または小細胞肺がん以外の癌、神経内分泌癌、黒色腫、甲状腺癌、多発性骨髄腫、リンパ腫、および白血病を含む群から選択することができる。
【0077】
プロセスでは、本明細書の他の箇所で説明するように、第1のサンプルから第1の疾病状態を有する第1の複数の配列読み出しが生成され、第2の疾病状態を有する第2の基準サンプルから第2の複数の配列読み出しが生成される。第1の複数の配列リードおよび/または第2の複数の配列リードは、10,000以上、50,000以上、100,000以上、200,000以上、500,000以上、1,000,000以上、2,000,000以上、5,000,000以上、10,000,000以上の配列読み出しであってもよい。本明細書で使用される「基準サンプル」は、公知の疾病状態を有する被験者から得られるサンプルである。いくつかの実施形態では、未知の試験サンプルの疾病状態を分類するための特徴を導出するために使用することができる、1つ以上の既知の疾病状態を有する1つ以上の基準サンプルを、1つ以上の確率モデルを訓練するために使用することができる。サンプルには、ゲノムDNA (gDNA)サンプルまたはセルフリーDNA (cfDNA)サンプルを使用できる。基準サンプルは、血液、血漿、血清、尿、糞便、および唾液サンプルであり得る。別法として、基準サンプルは、全血、血液分画、組織生検、胸水、心嚢液、脳脊髄液、および腹水であり得る。いくつかの実施形態では、第1の基準サンプルは、癌を有することが分かっている被験者から得られ、第2の基準サンプルは、正常な被験者または非癌被験者から得られる。いくつかの実施形態では、第1の基準サンプルは、第1の種類の画像を有することが分かっている被験者(例えば、感染した原因)から得られ、第2の基準サンプルは、第2の種類の画像を有することが分かっている被験者(例えば、感染した例)から得られる。さらに他の実施形態では、第1の基準サンプルは、第1の起点の感染組織(例えば、気道の感染)を有することが知られている被験者から得られ、第2の基準サンプルは、第2の起点の疾病状態組織(例えば、ライブラリーの感染組織)から得られる。
【0078】
この処理を続けると、機械学習エンジン220は、第1の複数の配列読み取りと第2の複数の配列読み取りから、第1の確率モデル230と第2の確率モデル230を訓練する。そのそれぞれの各確率モデルは、1つ以上の可能な疾病状態の異なる疾病状態に関連する。前述したように、この疾病状態は、癌の有無、癌の種類、および/または、癌起点組織であってもよい。様々な実施形態では、訓練データは、K折り交差検証のためにKサブセット(折り畳み)に分割される。癌/非癌の状況、起点組織、癌の病期、年齢(例えば、10年間のバケットでグループ化)、性別、民族性、および喫煙の状況などについて、フォールドのバランスをとることができる。折畳のK-lからのデータを確率モデルの訓練データとして使用してもよく、保持された折畳をテストデータとして使用してもよい。
【0079】
機械学習エンジン220は、確率モデル230のそれぞれを第1および第2の複数の配列読み出しに当てはめることによって、第1および第2の疾病状態について、第1および第2の確率モデル230をそれぞれ訓練する。例えば、一実施形態では、第1の確率モデルは、癌を有することが知られている被験者からの1つ以上のサンプルから導出される第1の複数の配列読み出しを使用してフィットされ、第2の確率モデルは、正常な被験者または非癌被験者からの1つ以上のサンプルから導出される第2の複数の配列読み出しを使用してフィットされる。他の実施形態では、第1の確率モデルは、第1の種類の癌または第1の起点組織のために訓練され得、第2の確率モデルは、第2種類の癌または第2の起点組織のために訓練され得る。当業者には理解されるように、いくつかの疾病状態確率モデルは、多数のあり得る疾病状態のうちのいずれか1つを有する被験者から取られた1つ以上のサンプルから導出された配列読み取りを利用して訓練することができる。例えば、いくつかの実施形態では、追加の癌-特定の確率モデル(すなわち、癌および起点組織のさらなる種類のために)は、本明細書の他の箇所に記載されるように、第3、第4、第5、第6、第7、第8、第9、第10等(例えば、20、30、またはそれ以上)の癌の特定の種類のために訓練され得、訓練セットまたは未知の癌種類から読み取る配列を決定するために使用され得、他の癌種類(または癌由来組織)に由来する可能性が高い。
【0080】
本明細書で使用される「確率モデル」は、リード上の1以上の部位におけるメチル化状態に基づいて、配列読み取りに確率を割り当てることができる任意の数学モデルである。訓練の間、機械学習エンジン220は、既知の状態を有する被験動物からの1つ以上のサンプルから導出された配列読み取りを適合させ、そして、配列読み取りを、構造決定情報またはメチレーション状態ベクトルを利用する疾病状態を示す確率に決定するために使用することができる。特に、一実施形態では、機械学習エンジン220は、配列読み取り内の各CpG部位について観測されたメチレーション速度を決定する。メチレーションの割合は、CpG部位内で代謝物となる塩基一対の断片または割合を表す。訓練された確率モデル230は、メチル化の割合の生成物によってパラメータ化することができる。通常、サンプルからの配列読み取りに確率を割り当てるための既知の確率モデルを使用できる。例えば、確率モデルは二項モデルとすることができ、そこでは、核酸断片上のすべての部位(例えば、CpG部位)にメチレーションの確率が割り当てられるか、または独立部位モデルとすることができ、この場合、それぞれのCpGのメチレーションは、核酸断片上の1つ以上の他の部位におけるメチレーションとは独立していると仮定される、1つの部位におけるメチレーションを伴う別個メチレーション確率によって指定される。
【0081】
III.B. 起点分類の疾病状態組織
様々な実施形態に従って、機械学習エンジン220は、複数疾病状態の集合の様々な疾病状態に各関連付けられた確率モデル230を訓練する。前述したように、様々な実施形態では、疾病状態は、癌の有無、癌の種類、および/または、癌起点組織であってもよい。さらに、疾病状態は、別の種類の疾患(必ずしも癌と関連しない)または健康状態(癌または疾患の存在なし)と関連し得る。
【0082】
機械学習エンジン220は、1つ以上の配列読み出しセットを使用して確率モデル230を訓練し、1つ以上の配列読み出しセットのそれぞれが、複数疾病状態のセットの異なる疾病状態から生成される。本疾病状態は、乳癌、子宮癌、子宮頚癌、卵巣癌、膀胱癌、腎盂の尿路上皮癌、尿路上皮癌以外の腎臓癌、尿路上皮癌、前立腺癌、直腸肛門癌、大腸癌、食道がん、胃癌、肝胆道癌、肝細胞から生じる肝胆道癌、膵臓癌、上部消化管の扁平上皮癌、扁平上皮癌以外の上部消化管の扁平上皮癌、頭部および頚部癌、肺癌、例えば肺腺癌、小細胞肺がん、扁平上皮肺癌および腺癌または小細胞肺癌以外の癌、神経内分泌癌、黒色腫、甲状腺癌、多発性骨髄腫、リンパ腫、および白血病などの群から選択される癌または組織の任意の数の種類を含み得る。
【0083】
機械学習エンジン220は、確率モデル230を、疾病状態の各々に対応する各サンプルから導き出される配列読み取りに当てはめることによって、複数の疾病状態の各々について、確率モデル230を訓練する。例えば、いくつかの実施形態では、確率モデルは、癌の特定の種類のために訓練され得る。この実施形態に従って、癌特定の確率モデルは、癌の第1、第2、第3などの特定の種類のために訓練され得、そして(例えば未知の検査サンプルの)癌種類を評価するために使用され得る。例えば、肺癌に関連付けられた1つ以上のサンプルから得られる一連の配列読み取りのセットを用いて、肺癌特有の確率モデルが当てはめられる。別の実施例として、乳癌に関連付けられた1つまたは複数のサンプルから導かれる一連の配列読み取りのセットを用いて、肺癌特有の確率モデルが当てはめられる。いくつかの実施形態では、組織特定の確率モデルは、第1、第2、第3などの組織種類のために訓練され得、そして疾病状態の起点組織を評価するために使用され得る。例えば、第1の組織種類から導かれた一連の配列読み取り(例えば、バイオプシ)を使用して当てはめ、第2の組織種類から導かれた一連の配列読み取り(例えば、バイオプシ)を使用して、第2の起点確率モデルの第2の組織サンプルを当てはめ、第2の組織種類から導かれた一連の配列読み取り(例えば、レバー・バイオプシ)を使用することができる。あるいは、いくつかの実施形態では、癌確率モデルは、癌を有することが知られている被験者からの1つ以上のサンプルから得られる配列読み取りの集合を使用して当てはめられ、非癌特定の確率モデルは、正常な被験者または非癌被験者からの1つ以上のサンプルから得られる配列読み取りの集合を使用して適合される。当業者には理解されるように、いくつかの疾病状態確率モデルは、多数のあり得る疾病状態のうちのいずれか1つを有する対象から取られた1つ以上のサンプルから導出された配列読み取りを利用して訓練することができる。例えば、いくつかの実施形態では、複数の配列読み取りは、3、4、5、6、7、8、9、10個以上の基準サンプルから生成することができ、それぞれ、1つ以上のサブジェクトから異なる疾病状態(例えば、さまざまな種類のカンファレンス)を得て、3、4、5、6、7、8、9、10個以上の確率モデルを訓練するために使用することができる。
【0084】
訓練の間、機械学習エンジン220は、メチレーション情報またはメチレーション状態ベクトルを利用する疾病状態を示す配列読み取りについて訓練され得る。特に、機械学習エンジン220は、配列読み取り内の各CpG部位について、観察されたメチレーション割合を決定する。メチレーションの割合は、CpG部位内で代謝物となる塩基一対の断片または割合を表す。訓練された確率モデル230は、メチル化の割合の生成物によってパラメータ化することができる。前述したように、サンプルからの配列読み取りに確率を割り当てるための任意の既知の確率的モデルを使用することができる。例えば、確率モデルは二項モデルとすることができ、そこでは、核酸断片上のすべての部位(例えば、CpG部位)にメチレーションの確率が割り当てられるか、または独立部位モデルとすることができ、この場合、それぞれのCpGのメチレーションは、核酸断片上の1つ以上の他の部位におけるメチレーションとは独立していると仮定される、1つの部位におけるメチレーションを伴う別個メチレーション確率によって指定される。
【0085】
いくつかの実施形態において、マルコフモデルがあり、ここでは各CpG部位でのメチレーションの確率が、配列読み取りにおける先行するいくつかのCpG部位でのメチレーション状態、または配列読み取りが導出される核反応分子に依存する。米国特許出願第16/352,602号(「Anomalous Fragment Detection and Classification」と題され、2019年3月13日に出願された)を参照されたい。
【0086】
いくつかの実施形態において、確率モデル230は、基礎となるモデルからの成分の混合物を使用して当てはめられた「混合モデル」である。例えば、いくつかの実施形態では、混合成分は、複数の独立サイトモデルを用いて決定することができ、ここでは、各CpGサイトでのメチレーション(例えば、メチレーション割合)は、他のCpGサイトでのメチレーションとは独立していると仮定される。独立サイトモデル、配列読み取りに割り当てられた確率、またはそれが導き出された核物質の分子を利用することは、配列読み取りがメチレートされる各CpGサイトでのメチレーション確率の積であり、配列読み取りが非メチレートされる各CpGサイトでのメチレーション確率から1を引いたものである。この実施形態に従って、機械学習エンジン220は、混合成分の各メチレーション速度を決定する。混合モデルは、それぞれがメチレーション割合の積に関連する混合成分の合計によってパラメータ化される。
n 個の混合成分の確率モデルPr は次のように表現できる:
【数2】

入力断片の場合、
は、リファレンスゲノムの位置iにおける断片の観察されたメチレーション状況を表し、0は非メチレーションを示し、1はメチレーションを示す。各混合成分k への小数割り当てはfkで、ここで

である。混合成分kのCpG部位における位置iでのメチレーションの確率はβkiである。従って、非メチレーションの確率は1-βkiとなる。
混合成分数nは、1、2、3、4、5、6、7、8、9、10 などにすることができる。
【0087】
いくつかの実施形態において、機械学習エンジン220は、確率モデル230を、最大尤度推定を用いて、正則化強度rを有する各々のメチレーション割合に適用される正則化ペナルティに従って、疾病状態から導出された全ての断片の対数確率を最大化するパラメータセット
を識別するように当てはめる。N個の合計断片の最大数量は、次のように表すことができる。
【数3】
【0088】
分析システム200は、確率モデル230を適用して、配列読み取りの第2のセットの配列読み取りごとに値を計算する。これらの数値は、少なくとも、配列読み取り(および対応する断片)が、確率モデル230の疾病状態に関連するサンプルから生じた確率に基づいて計算される。分析システム200は、異なった確率モデル230の各々についてこのステップを繰り返すことができる。いくつかの実施形態において、分析システム200は、特定の疾病状態に関連する当てはめられた確率モデルを用いて、対数確率比Rを用いて値を算出する。具体的には、対数尤度比率は、断片上の確率Prを用いて、断片上のパターンを観察し、サンプルが疾病状態で健全なサンプルに関連するかどうかを調べることによって計算できる:
【数4】

他の実施形態では、分析システム200は、別の種類の比率または式を使用して、値を計算することができる。機械学習エンジン220は、様々な疾患状態に対して考慮される対数確率比の少なくとも1つが閾値を超えているかどうかに基づいて、疾病状態(例えば、癌)を示す断片を決定することができる。
【0089】
III.C. 分類
様々な実施形態では、分析システム200は、特徴を用いて分類器240を生成する。分類器240は、試験対象のテストサンプルから読み取られた入力配列について、疾病状態に関連する起点組織を予測するように訓練される。分析システム200は、例えば、相互情報演算または別の計算測定値に基づいて、分類器を訓練するための疾病状態の対ごとに、最上位ランク特徴の所定数(例えば、1024)を選択することができる。所定数は、交差検証における実績に基づいて選択されるハイパーパラメータとして扱われてもよい。分析システム200はまた、疾病状態の一対を区別する際により有益であると決定されたリファレンスゲノムの領域から特徴を選択することができる。様々な実施形態では、分析システム200は、各領域、および(負の種類としての非癌を含む)それぞれの癌種類対について、最良の性能を発揮する層を維持する。
【0090】
ある実施形態では、分析システム200は、特徴ベクトルを持つ訓練サンプルの集合を分類器240に入力し、分類器240の機能が訓練特徴ベクトルをそれらの対応するラベルに正確に関連付けるように分類パラメータを調整することによって、分類器240を訓練する。分析システム200は、分類器240の繰り返しバッチ訓練のために、訓練サンプルを1つ以上の訓練サンプルの集合にグループ化することができる。訓練特徴ベクトルを含む訓練サンプルのすべての組を入力し、分類パラメータを調整した後、分類器240は、ある誤差の範囲内で、それらの特徴ベクトルに従ってテストサンプルにラベル付けするように十分に訓練することができる。分析システム200は、例えば、LI -正規化ロジスティック回帰またはL2-正規化ロジスティック回帰(例えば、対数損失関数による)、一般化線形モデル(GLM)、ランダムフォレスト、多項ロジスティック回帰、多層パーセプトロン、サポートベクトルマシン、ニューラルネット、または他の適当な機械学習技術のいずれか1つに従って、いくつかの方法に従って分類器240を訓練することができる。
【0091】
様々な実施形態では、分析システム200は、多項ロジスティック回帰分類器を折畳の訓練データ上で訓練し、保持されたデータのための予測を生成する。分析システム200は、K個の折畳のそれぞれに対して、超パラメータの組合せごとに1つのロジスティック回帰を訓練する。ハイパーパラメータの実施例として、L2ペナルティ、すなわちロジスティック回帰の重量に適用される正則化の形成がある。別の例示的ハイパーパラメータは、topK、すなわち、各々の組織種類対(非癌を含む)に対して保持するためのランクの高い領域の数である。例えば、topK = 16である場合、分析システム200は、本明細書に記載する相互情報手続きによってランク付けされるように、組織種類対ごとに上位16領域を保持する。この手順に従うことによって、分析システム200は、予測が生成されるデータについて分類器が訓練されないことを確実にする一方で、訓練集合の中の各サンプルについての予測を生成することができる。
【0092】
様々な実施形態では、ハイパーパラメータのセット毎に、分析システム200は、完全な訓練セットの断面検証された予測上で実績を評価し、分析システム200は、完全な訓練セット上で再訓練するための最良の実績を有するハイパーパラメータのセットを選択する。実績は、ログロス測定基準に基づいて決定される場合がある。分析システム200は、各々のサンプルについての正確な標識についての予測の負の対数をとって、次いでサンプルにわたって合計することによって、対数損失を計算することができる。たとえば、正確なラベルの完全予測が1.0 の場合、log-loss は0 になる(低いほど正確である)。新しいサンプルの予測を生成するために、分析システム200は、上述の方法を使用して特徴量を計算することができるが、選択されたtopK値のもとで選択された特徴(領域/正のクラス組合せ)に限定される。分析システム200は、生成された特徴を用いて、訓練されたロジスティック回帰モデルを用いて予測を作成することができる。
【0093】
様々な実施形態では、分析システム200は、分類器240を適用して、テストサンプルの起点組織を予測し、起点組織が疾病状態の1つに関連付けられる。いくつかの実施形態において、分類器240は、複数の疾病状態または起点組織について予測または可能性を返すことができる。例えば、分類器240は、テストサンプルが、乳癌起点組織を有する可能性が65%、肺癌起点組織を有する可能性が25%、正常な起点組織を有する可能性が10%であるという予測を返すことができる。分析システム200はさらに、予測を処理して、単一の疾病状態判定を生成することができる。
【0094】
IV. 例
図6は、一実施形態による癌信号局在化(「CSL」)の実験結果を示す。実験結果は、分析システム200が1つの癌信号(すなわち、最大の確率スコアとの癌信号)、2つの癌信号(すなわち、2つの最大の確率スコアとの癌信号)、および3つの癌信号(すなわち、3つの最大の確率スコアとの癌信号)を報告した場合の癌発見の割合を示している。結果に含まれる癌の多くの種類については、1つの癌信号の代わりに2つの癌信号を報告する場合、検出の割合が高くなる。
【0095】
実験の結果は、450サンプルの集合に基づいている。これらのサンプルは、発生例の癌信号強度の予想される分布を反映するように選択された。潜在癌は診断未確定、前臨床癌である。肛門および膀胱&尿路上記一部の癌種類のサブサンプルサイズは、他の癌種類のサブサンプルサイズと比較して小さかったことに注意する。図6は、最初の2つのCSLが不正確なである場合、3番目のCSLは、5%の場合のそれにおいて検出可能な利益をほとんどもたらさないことをさらに示している。
【0096】
図7は、一実施形態による、条件付き返しに基づく癌信号局在化の実験結果を示す。ここで、分析システム200は、癌信号が正の癌信号質量の90%以上の確率スコアを有する場合、1つの癌信号(最上位のスコア癌信号)を返す。それ以外の場合、分析システム200は最大で2つの確率スコアに関連付けられた上位2つの癌信号を返す。棒グラフは、1つと2つの癌信号が返された、それぞれの種類の癌におけるサンプルの割合を示している。例えば、乳癌サンプルの70%が1人の癌信号を返し、30%が2人の癌信号を返した。別の実施例として、卵巣癌サンプルの50%が1つの癌信号を再発し、50%が2つの癌信号を再発した。
【0097】
要約すると、実験の結果、トップCSLは約90%のケースで正確であることを示し、一方、2番目のCSLはトップCSLが不正確なであるときの半分で正確であることを示した。3番目のCSLは、上位2つが不正確である時間の約80%に誤りがあり、偶然よりも優れているが、報告された場合には、医者または他の医療提供者が有効な判断を下すことを促進するのに役立たない場合がある。したがって、いくつかの実施形態では、他の方法の診断/分析が開始される(例えば、全身画像撮影)までに、多くても2つの局在化試行が提供される。特に、この結果は、リンパ系および骨髄性CSLが非常に確実に局在し、癌の大部分が最初の2つのCSLに局在することを示している。
【0098】
医療提供者が1つ以上の癌信号のフィルタリングされたサブセットを提示されるので、決定された確率閾値を用いて上位癌信号を報告することは、現存する癌診断過程への改良を提供する。医療提供者は、不正確な(例えば、偽陽性)または信頼性が低いと思われる癌信号局在化を含む可能性のある、より大きな一連の信号を解析する必要がないことによって、より正確かつ迅速に診断を決定することができる。前述したように、腫瘍の脱落(例えば、早期癌)は、有益な断片が少ないため局在診断が困難である。このように、非侵襲性癌予測に対する従来の方法は、偽陽性または信頼できない癌信号を扱うのが難しい。癌信号からのこの雑音を低減することは、診断処理の複雑さを低減する。癌信号局在化の正確性が改善されれば、癌の偽陽性診断を受けた個人に対する不必要な治療も減少する。
【0099】
様々な実施形態では、フィルタリングされた癌信号を確率閾値を用いて方法することによって、癌診断用の方法が後続の処理ステップで使用されるため、コンピュータ機能も改善される。例えば、分析システム200は、フィルタ処理された(例えば、のサブセットの)癌信号を、癌予測を出力する機械学習モデルへの入力として使用する。別の例として、分析システム200は、フィルタリングされた癌信号を訓練データとして用いて、機械学習モデルを訓練して、例えば、サンプルにおいて、危険性の存在が検出された場合に起点組織を決定する。これらの実施例では、フィルタ処理された癌信号を使用することにより、機械学習モデルを実装するコンピュータによって必要とされる計算資源または処理時間が短縮される。コンピュータは、フィルタ処理されていない一連の癌信号の代わりに、最上位癌信号(例えば、確率閾値を用いてフィルタ処理することによって決定されるサブセットの1つ又は2つの信号)を処理することによって、計算時間を節約する。フィルタ処理されていない一連の癌信号は、図7に示されている様々な癌種類によって明らかなように、10以上の癌信号を含んでもよい。さらに、追加の癌信号が時間識別されるにつれて、フィルタされていない一連の癌信号が増大する。様々な実施形態では、分析システム200は、多くの個人のための癌信号を処理する。大規模では、分析システム200が、癌の予測を決定するために処理しなければならないデータの大きさのために、コンピュータ機能の向上が増幅される。癌診断をより効率的かつ迅速に判定することで、癌の早期発見・早期治療が可能となり、個々の健全性や予後に極めて重要となる。非侵襲的方法を用いて癌の効率的で正確な予測を達成することは、これらの方法が癌診断をより大きな個体集団にアクセス可能にすることができるので、さらに有益である。
【0100】
図8は、一実施形態による、発生したサンプルからの癌信号局在化の実験結果を示す。
X 軸は起点確率の最初の組織を表し、Y 軸は起点確率の2 番目の組織を表す。潜在癌サンプルは個人からの採血の際に癌と診断されていなかったが、その個人は後に癌と診断された。このように、潜在性癌サンプルからの癌信号の強さは、すでに診断されている癌サンプルからの信号に比べると弱い。潜在癌サンプルからの癌信号強度はまた、起点局在化の組織の正確性に関してより大きな不確実性を有する。
【0101】
図9は、一実施形態による、癌サンプルのサブサンプリングを示す描画(プロット)である。潜在癌サンプル900に対する真陽性の癌検出の確率は、一連の癌診断サンプル910に対する真陽性の癌検出の確率と比較して低い。発生した癌サンプル900の予想されるスクリーニング癌信号強度をより密接に反映させるために、一組の診断済癌サンプル910(例えば、1876サンプル)は、ダウンサンプリングされて、診断済癌サンプル920(例えば、450サンプル)のサブセットにされた。サブサンプル化された真陽性は、
【数5】

又は
【数6】

又は、
【数7】

内の潜在性非癌スコアを標的とするマッチングに基づいて選択された。経験的に選択された閾値は、分布がどの程度よくマッチしたか、解析用に十分な数のサンプルを保持しているかのトレードオフを調整する。
【0102】
図10Aおよび10Bは、期待されるスクリーニング癌信号の強度に合致するようにサブサンプリングされた、検出された癌サンプル(真陽性)を示す。サブサンプリングは、より少ない段階iv、より多くの段階i、およびii Cancerを選択する。さらに、図10Aおよび図10Bは、画像の段階に基づいた癌信号強度を示し、そして、画像の段階がiから段階ivに進むにつれて、検出された真陽性の割合が一般的に増大する。しかしながら、2人の比較において、i期癌に関連する第1の個人からのサンプルは、iv期癌に関連する2番目の個人からのサンプルよりも癌信号強度が大きい可能性がある。
【0103】
図11 Aおよび1 IBは、いくつかの実施形態による、サブサンプリングの前後における、癌種類による癌信号強度を示す。一部の癌種類(肺癌、大腸癌、膵癌および胆嚢癌など)では、サブサンプリング後に真陽性検出の割合が低下した。他の癌種類(例えば、リンパ系新生物、乳房、子宮、および前立腺)については、真陽性検出の割合はサブサンプリング後に増加した。
【0104】
図12は、いくつかの実施形態に従った、癌種類および段階別、サブサンプリング前後の癌信号強度を示す。図12に示されるように、最も大きな変化は、iv期肺、膵胆嚢、および結腸直腸の減少、ならびにi期乳房およびi期子宮の増加である。
【0105】
図13 Aおよび13Bは、いくつかの実施形態による、第1、第2、第3、および第4のCSL呼によって捕捉されるCSL信号の割合などの、CSL呼確率の分布の棒グラフを含む。具体的には、図13 Aは、上位4つの癌信号にわたる累積およびマージナル癌スコアの分布の全体グラフを示す。累積棒は、上位1、2、3、および/または4癌信号の癌スコアの合計を反映する。棒は中央値で、下限誤差と上限誤差は10% と90% である。
【0106】
図13Bは、様々な癌段階にわたる累積および限界癌スコアの分布のグラフを示す。棒グラフの誤差棒は、10番目と90番目のパーセンタイルの癌スコアを示している。図13Aから図13Bに示すように、信号の約50~95%が上部CSLに捕捉され、メジアンは約90%であり、初期段階ではわずかに小さい。
【0107】
図14Aおよび14Bは、いくつかの実施形態によれば、実際の癌種類による、第1、第2、第3、および第4のCSL呼によって捕捉されたCSL信号の割合など、CSL呼確率の配分の棒グラフを含む。実験結果によって示されるように、肛門および外陰部などのHPVに起因する癌のサンプルでは、他の癌種類の癌スコアと比較して癌スコアが低い。
【0108】
いくつかの実施形態では、局在化ジーン250は、分類自体内の癌の個々の種類の上位癌スコアが基準を満たさない場合でも、分類(例えば、HPV駆動癌)からの複数の癌組織の起点を返させる。例えば、肛門サンプルの最上位癌信号は癌スコアが45%、外陰部サンプルの癌スコアの上位は癌スコアが60%である。いずれの癌スコアも90%の確率閾値を満足するわけではないが、局在化エンジン250は、肛門および外陰部の癌信号が、最も大きな信号強度(例えば、上位3つの癌信号)を有する一組の癌信号内にある場合、肛門および外陰部の癌信号を返すことを決定することができる。局在化エンジン250は、癌の多重種類(例えば、胃癌および腸癌)を含む他の分類に基づいて、癌信号の返しを条件化することができる。
【0109】
図15 A、15B、および15Cは、いくつかの実施形態によれば、偽陽性および真陽性に分割された、メジアンの癌スコアの棒グラフを含む。図15Aに示される偽陽性の癌スコアの大きさは、図15Bに示される真陽性の癌スコアの大きさよりも低い。したがって、局在化エンジン250は、より頻繁に、上位癌信号が確率閾値(例えば、90%)を満たす可能性が低くなるため、偽陽性について2つ以上の癌信号を返す。
【0110】
図16は、いくつかの実施形態による、累積確率スコアを示す。図16のプロットは、局在化エンジン250によって返される必要があるであろう癌信号の数が、それらの累積確率スコアが閾値確率に達したことを示す。例えば、真陽性サンプルの75%に近い場合、閾値確率90%を累積するために必要な癌信号は3つ未満(つまり、1つまたは2つの癌信号が返される)である。対照的に、偽陽性サンプルの50%未満は、90%の閾値確率を蓄積するために返される3回未満の癌信号を必要とするであろう。これらの結果は、図15AからCに示される結果と整合しているが、それは、偽陽性の癌スコアが真陽性の癌スコアの大きさよりも低い傾向があるためである。
【0111】
図17Aおよび17Bは、いくつかの実施形態による癌信号局在化の条件付き正確性を示す。図17Bに示すように、最上位癌信号(すなわち、最大の確率スコアを有する第1のラベル)は、サンプルの約90%において正確である。2番目の癌信号(すなわち2番目のラベル)は、最上位癌信号が不正確なであるとき、サンプルの約50%で正確である。3番目の癌信号(すなわち3番目のラベル)は、上位2つの癌信号が不正確な場合、サンプルの約20%で正確である。
【0112】
図18Aおよび18Bは、いくつかの実施形態による、固体および液体サンプル種類のための癌信号局在化の条件付き正確性を示す。図19Aおよび図19Bは、いくつかの実施形態に従った、癌段階に基づく癌信号局在化の条件付き正確性を示す。図18Aの結果は、液体サンプルの癌信号局在化が、固体サンプルのそれよりも正確であることを示す。固形サンプルと比較して、より多くの液体サンプルについて、局在化エンジン250は、起点組織の正確な局在化である最上位癌信号(すなわち、1番目のラベル)を返した。対照的に、固体サンプルの正確な局在化では、返される癌信号がより多く必要だった(2番目、3番目、4番目、5番目+のラベル)。
【0113】
図20Aおよび20Bは、いくつかの実施形態による、癌信号局在化の累積正確性を示す。最上位癌信号は、約90%のサンプルにおける起点組織の正確な局在化である。累積正確性は、第2、第3、および第4癌信号局在化でそれぞれ約94%、95%、および96%に増える。
【0114】
図21Aおよび21Bは、いくつかの実施形態による、偽陽性の癌信号局在化を示す。図22Aおよび22Bは、いくつかの実施形態による、癌種類に基づく偽陽性の癌信号局在化を示す。
図21のA~Bに示される結果は、起点局在化の偽陽性組織が、数学的(ブラッド)起源を有するか、または固体(ラウス)起点を有すると予測されるかを示す。偽陽性は主に固体局在化に予測される。
【0115】
V. 癌用途
いくつかの実施形態では、方法、分析システムおよび/または本開示の分類器を使用して、癌の存在(または非存在)を検出し、癌の進行または再帰を監視し、治療的反応または有効性を監視し、存在または最小残差感染(MRD)の存在または監視を決定し、またはこれらの任意の組合せを行うことができる。いくつかの実施形態において、分析システムおよび/または分類器を用いて、癌の起点組織を識別することができる。例えば、システムおよび/または分類器は、以下の癌種類のいずれかとして癌を同定するために使用され得る:頭頸部癌、肝臓/胆管癌、上部消化管癌、膵臓/胆嚢癌;結腸直腸癌、卵巣癌、肺癌、多発性骨髄腫、リンパ系新生物、黒色腫、肉腫、乳癌、および子宮癌。例えば、本明細書に記載するように、分類器を使用して、サンプル特徴ベクトルが、癌を有する被験者からのものである可能性または確率スコア(例えば、0%から100%、または0から100)を生成することができる。
【0116】
いくつかの実施形態では、確率スコアは、閾値確率と比較されて、被験者が癌を有しているか否かを判定する。他の実施形態では、可能性または確率のスコアを様々な時点(例えば、治療の前後)で評価して、治療の進行状況を監視したり、または治療の有効性(例えば、治療の有効性)を監視することができる。さらに別の実施形態では、可能性または確率の点数を用いて、医療上の意思決定(例えば、治療の選択、治療の効果の評価など)を行ったり、影響を与えたりすることができる。例えば、一実施形態では、可能性または確率スコアが閾値を超える場合、医師は適切な処置を規定することができる。いくつかの実施形態では、試験報告書を生成して、例えば、患者が疾病状態(例えば、癌)、感染の種類(例えば、癌の種類)、および/または、起点の感染組織(例えば、起点の癌組織)を有する確率得点を含む、患者の試験結果を提供することができる。
【0117】
V.A. 癌の早期発見
いくつかの実施形態では、本開示の方法および/または分類器を使用して、癌の疑いがある被験者において、癌の有無を検出する。例えば、分類器(これは本明細書に記載される)を使用して、サンプル特徴ベクトルが、癌を有する被験者からのものである可能性または確率スコアを決定することができる。
【0118】
一実施形態では、60以上の確率スコアは、被験者が癌を有していることを示すことができる。さらに他の実施形態では、65以上、70以上、75以上、80以上、85以上、90以上、95以上の確率スコアは、被験者が癌を有していることを示した。他の実施形態では、確率スコアは、感染の重症度を示すことができる。例えば、80という確率スコアは、80未満のスコア(例えば、70というスコア)と比較して、より重度の形態、または後期での、癌を示す可能性がある。同様に、経時的な確率値の上昇(例えば、第2の、後の時点)は、病勢の進行または経時的な確率値の低下(例えば、第2の、後の時点)を示すことができ、治療の成功を示すことができる。
【0119】
別の実施形態では、本明細書に記載するように、非癌の確率(すなわち、1から癌の確率を引いたもの)に対して、癌であるという確率の確率の比率の対数をとることによって、試験対象についての対数比を計算することができる。この実施形態によれば、1より大きい癌ログ-オッズ比は、被験者が癌を有していることを示すことができる。さらに他の実施形態では、1.2より大きい、1.3より大きい、1.4より大きい、1.5より大きい、1.7より大きい、2より大きい、2.5より大きい、3より大きい、3.5より大きい、または4より大きい癌のログオッズ比は、被験者が癌を有することを示した。他の実施形態では、癌のログオッズ比は、感染の重症度を示すことができる。例えば、2よりも大きい癌のログオッズ比は、2よりも低いスコア(例えば、1のスコア)と比較して、より重大な形態、または後期を示すことができる。同様に、癌のログ(対数)オッズ比の経時的な増加(例えば、第2の、後の時点)は、疾患の進行または癌のログ(対数)オッズ比の経時的な減少(例えば、第2の、後の時点)を示すことができ、治療の成功を示すことができる。
【0120】
開示の側面によれば、本開示の方法およびシステムは、多数の癌標示を検出または分類するように訓練され得る。例えば、本開示の方法、システム、および分類器は、1つ以上、2つ以上、3つ以上、5つ以上、または10以上の様々な種類の癌の存在を検出するために使用することができる。
【0121】
V.B. 癌及び治療監視
特定の実施形態では、第1の時点は、治療前(例えば、治療の前)であり、第2の時点は、治療後(例えば、治療の効果を監視するために、治療の後)であり、方法は、治療の効果を監視するために利用される。たとえば、2番目の可能性スコアまたは確率スコアが最初の可能性スコアまたは確率スコアと比較して低下した場合、その処理は成功したとみなされる。しかし、第1の尤度または確率点と比較して第2の尤度または確率点が上昇した場合、その治療は成功しなかったとみなされる。他の実施形態では、第1および第2の両方の時点は、治療前(例えば、切断操作または治療的介入の前)である。さらに他の実施形態では、第1および第2の両方の時点は、治療の後であり(例えば、切断操作または治療的介入の前)、方法を使用して、治療の有効性または治療の有効性の喪失を監視する。さらに他の実施形態では、cfDNAサンプルは、第1および第2の時点で、例えば、患者の進行を監視するため、患者の再生中であるかどうかを判断するため(例えば、治療後)、または、感染の残存または再発を監視または検出するため、あるいは、治療(例えば、治療)の有効性を監視するために、患者を取得し、分析することができる。
【0122】
当業者であれば、任意の所望の一連の時点にわたって、患者からテストサンプルを得ることができ、開示の方法に従って分析され、患者内の患者の患者の状態を監視することができることは容易に理解されるであろう。いくつかの実施形態では、第1および第2の時間点は、15分から約30年までの範囲の時間量によって分離され、例えば、約 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, or 24時間、例えば約1, 2, 3, 4, 5, 10, 15, 20, 25又は30時間、例えば約1, 2, 3, 4, 5, 10, 15, 20, 25又は 30日、例えば、約1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11又は12ヶ月、例えば、約1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19, 19.5, 20, 20.5, 21, 21.5, 22, 22.5, 23, 23.5, 24, 24.5, 25, 25.5, 26, 26.5, 27, 27.5, 28, 28.5, 29, 29.5又は30年、である。他の実施形態では、検査サンプルは、少なくとも3ヶ月に1回、少なくとも6ヶ月に1回、少なくとも1年に1回、少なくとも2年に1回、少なくとも3年に1回、少なくとも4年に1回、または少なくとも5年に1回以上、患者から入手することができる。
【0123】
V.C. 治療
さらに別の実施形態では、本明細書に記載する任意の方法(例えば、可能性または確率スコア)から得られた情報を用いて、医学的判断(例えば、医学的診断、治療の選択、治療有効性の評価など)を行ったり、影響を与えたりすることができる。例えば、一実施形態では、可能性または確率スコアが閾値を超えた場合、医師は適切な処置(例えば、治療、照射、治療、および/または、治療)を規定することができる。いくつかの実施形態において、可能性または確率スコアなどの情報を、医師または被験者への読み出しとして提供することができる。
【0124】
分類器(これは本明細書に記載される)は、サンプル特徴ベクトルが、癌を有する被験者からのものである可能性または確率スコアを決定するために使用することができる。一実施形態では、可能性または確率が閾値を超えた場合に、適切な処理(例えば、切断外科または治療)が規定される。例えば、一実施形態では、可能性または確率スコアが60以上である場合、1つ以上の適切な処置が規定される。別の実施形態では、可能性または確率の得点が65以上、70以上、75以上、80以上、85以上、90以上、95以上の場合、1つ以上の適切な処理が規定される。他の実施形態では、癌のログオッズ比は、治療の有効性を示すことができる。
例えば、経時的な(例えば、治療後の)癌のログオッズ比の増加は、治療が効果的でなかったことを示すことができる。同様に、経時的な(例えば、治療後の1秒後の)癌のログオッズ比の減少は、治療の成功を示すことができる。別の実施形態では、もし、癌のログオッズの割合が1より大きく、1.5より大きく、2より大きく、2.5より大きく、3より大きく、3.5より大きく、または4より大きい場合、1つ以上の適切な処理が規定される。
【0125】
幾つかの実施形態では、治療は、化学療法剤、ターゲット化された癌療法剤、差別化療法剤、ホルモン療法剤、および、免疫療法剤を含む群から選択された1つ以上の治療剤である。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、有糸分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、ヌクレオチドアナログ、白金系薬剤およびそれらの任意の組合せを含む群から選択される1つまたは複数の化学療法剤であり得る。いくつかの実施形態において、治療は、トランスダクションインヒビター(例えば、チロシンキナーおよび成長因子レセプタインヒビター)、ヒストンデアクセラーセラス(HD AC)インヒビタ、レチノリセプタアゴニスト、プロテオソームインヒビター、アンジオジェネシスインヒビターおよびモノクローナル(monoclonal)を含むグループから選択された、1つ以上のターゲットとされた治療剤である。
いくつかの実施形態において、治療は、トレチノイン、アリトレチノインおよびベキサロテンのような、レチノイドを含む1つ以上の区別する治療剤である。いくつかの実施形態において、治療は、抗エストロゲン、アロマターゼ阻害剤、プロゲスチン、エストロゲン、抗アンドロゲン、およびGnRHアゴニストまたはアナログを含む群から選択される1以上のホルモン療法剤である。一実施形態では、治療は、リツキシマブ(RITUXAN)およびアレムツズマブ(CAMPATH)、BCG、上記ローキングイン-2(IL-2)などの非特定のイムノセラピエンスおよび補助剤、および、サリドマイドおよびレナリドミド(REVLIMID)などの上記フェロンアルファ、イムノモジュレーションする薬品を含む群から選択される、1つ以上のイムノ処理である。腫瘍の種類、癌の病期、癌治療または治療薬剤への以前の露光、および癌の他の特性などの特性に基づいて適切な癌治療薬剤を選択することは、熟練した医師または癌専門医の能力の範囲内である。
【0126】
VI. 追加の考慮事項
開示の実施形態の前記の説明は、説明の目的のために提示されたものであり、網羅的であること、または開示された厳密な形態に発明を限定することを意図したものではない。関連技術の当業者は、上記の開示に照らして、多くの修正および変形が可能であることを理解することができる。
【0127】
この記述のいくつかの部分は、情報上の演算のアルゴリズムおよび記号表現の観点から、開示の実施形態を記述する。これらのアルゴリズム記述および表現は、一般に、データ処理技術に熟練した者が、その作品の内容を効果的に他の当業者に伝達するために使用する。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは同等の電気回路、マイクロコードなどによって実現されるものと理解される。さらに、汎用性を損なうことなく、これらの動作の配置をモジュールと呼ぶことも、時として便利であることが証明されている。記述された動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せで実施することができる。
【0128】
本明細書に記載するステップ、演算、または処理のいずれも、単独または他の装置との組合せで、1つ以上のハードウェアまたはソフトウェアのユニットで実行または実装することができる。いくつかの実施形態では、ソフトウェアユニットは、コンピュータプログラムコードを含むコンピュータ可読で一時的でない媒体を含むコンピュータプログラムプロダクトで実施され、これは、記載されたステップ、動作、または処理のいずれかまたはすべてを実行するためのコンピュータプロセッサで実行することができる。
【0129】
実施形態はまた、本明細書に記載する演算プロセスによって生成される製品に関係することができる。このような製品には、情報が非一時的な、有形のコンピュータ可読記憶媒体上に記憶され、本明細書に記載するコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含むことができる、計算処理の結果上記情報を含むことができる。
【0130】
最後に、本明細書で使用されている言語は、主として、読みやすさと指導目的のために選択されており、発明の主題事項を説明したり外接したりするために選択されていない。したがって、本発明の範囲は、この詳細な説明によって限定されるものではなく、むしろ、本明細書に基づいて出願で発行される請求項によって限定されることを意図している。従って、本明細書における実施形態の開示は、以下の請求項に記載されている本発明の範囲を説明するものであり、限定するものではない。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図11A
図11B
図12
図13A
図13B
図14A
図14B
図15A
図15B
図15C
図16
図17A
図17B
図18A
図18B
図19A
図19B
図20A
図20B
図21A
図21B
図22A
図22B
【国際調査報告】