(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】モデルベースの特徴量化および分類
(51)【国際特許分類】
G16B 40/20 20190101AFI20241119BHJP
C12Q 1/6886 20180101ALI20241119BHJP
C12Q 1/6869 20180101ALI20241119BHJP
G16H 50/50 20180101ALI20241119BHJP
【FI】
G16B40/20
C12Q1/6886 Z
C12Q1/6869 Z
G16H50/50
(21)【出願番号】P 2021568087
(86)(22)【出願日】2020-05-13
(86)【国際出願番号】 US2020032657
(87)【国際公開番号】W WO2020232109
(87)【国際公開日】2020-11-19
【審査請求日】2023-03-13
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-05-13
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522093513
【氏名又は名称】グレイル リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】アレキサンダー ピー.フィールズ
(72)【発明者】
【氏名】ジョン エフ.ボーサン
(72)【発明者】
【氏名】オリバー クラウド ヴェン
(72)【発明者】
【氏名】アラシュ ジャムシーディー
(72)【発明者】
【氏名】エム.サイラス マハー
(72)【発明者】
【氏名】チンウェン リウ
(72)【発明者】
【氏名】ジャン シェレンバーガー
(72)【発明者】
【氏名】ジョシュア ニューマン
(72)【発明者】
【氏名】ロバート カレフ
(72)【発明者】
【氏名】サムエル エス.グロス
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】米国特許出願公開第2018/0341745(US,A1)
【文献】特表2006-519977(JP,A)
【文献】中国特許出願公開第107506600(CN,A)
【文献】中国特許出願公開第107918725(CN,A)
【文献】米国特許出願公開第2019/0108311(US,A1)
【文献】XIA Chao et el,"A Convolutional Neural Network Based Ensemble Method for Cancer Prediction Using DNA Methylation Data",[online],米国,ICMLC'19,2019年02月22日,p191-196,DOI:https://doi.org/10.1145/3318299.3318372, インターネット:<URL:https://dll.acm.org/doi.org/doi/10.1145/3318299.3318372>,ISBN: 978-1-4503-6600, [検索日:2024.05.14]
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12Q 1/6886
C12Q 1/6869
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
特徴量を生成するために配列リードを解析するための
、コンピュータによって実行される方法であって、
第1の複数の参照配列リードを、第1の参照試料から生成するステップであって、前記第1の
参照試料は、第1の疾患状態を有する対象からのものである、ステップと、
第2の複数の参照配列リードを、第2の参照試料から生成するステップであって、前記第2の
参照試料は、第2の疾患状態を有する対象からのものである、ステップと、
前記第1の複数の参照配列リードを使用して、第1の確率モデルを訓練するステップであって、前記第1の確率モデルは、前記第1の疾患状態と関連付けられる、ステップと、
前記第2の複数の参照配列リードを使用して、第2の確率モデルを訓練するステップであって、前記第2の確率モデルは、第2の疾患状態と関連付けられる、ステップと、
複数の訓練配列リードを、訓練試料から生成するステップであって、前記複数の訓練配列リードのうちの各配列リードについて、
第1の確率値を決定するために、前記配列リードを前記第1の確率モデルに適用し、前記第1の確率値は、前記配列リードが、前記第1の疾患状態と関連付けられた試料に由来する確率であり、
第2の確率値を決定するために、前記配列リードを前記第2の確率モデルに適用し、前記第2の確率値は、前記配列リードが、前記第2の疾患状態と関連付けられた試料に由来する確率である、
ステップと、
各配列リードについて、前記第1の確率値と前記第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップと
を含
み、
前記第1の疾患状態は、がんであり、前記第2の疾患状態は、非がんであるか、または、
前記第1の疾患状態は、第1のタイプのがんであり、前記第2の疾患状態は、第2のタイプのがんであり、前記第1のタイプのがんと前記第2のタイプのがんは、異なるか、または、
前記第1の疾患状態は、第1の原発組織を含み、前記第2の疾患状態は、第2の原発組織を含み、
前記第1の確率値と前記第2の確率値とを比較することは、前記第1の確率値と前記第2の確率値との比を決定することを含み、前記1つまたは複数の特徴量は、比の閾値を超える配列リードの配列リードカウントを含む、方法。
【請求項2】
前記方法は、
複数の参照配列リードを、第3、第4、第5、第6、第7、第8、第9、および/または第10の参照試料から生成するステップであって、前記第3、第4、第5、第6、第7、第8、第9、および/または第10の参照試料の各々は、異なる疾患状態を有し、前記異なる疾患状態の各々は、異なるタイプのがんである、ステップと、
前記第3、第4、第5、第6、第7、第8、第9、および/または第10の複数の参照配列リードを使用して、第3、第4、第5、第6、第7、第8、第9、および/または第10の確率モデルを訓練するステップであって、前記第3、第4、第5、第6、第7、第8、第9、および/または第10の確率モデルの各々は、各々が、異なるタイプのがんと関連付けられる、ステップと
をさらに含む請求項1に記載の方法。
【請求項3】
前記がんまたはがんのタイプは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盂および尿管の尿路上皮がん、尿路上皮以外の腎臓がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道の扁平上皮がん、扁平上皮以外の食道がん、胃がん、肝細胞から生じた肝胆がん、肝細胞以外の細胞から生じた肝胆がん、膵がん、ヒトパピローマウイルスと関連付けられた頭頸部がん、ヒトパピローマウイルスと関連付けられない頭頸部がん、肺腺癌、小細胞肺がん、腺癌または小細胞肺がん以外の扁平上皮肺がんおよび肺がん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、ならびに白血病を含む群から選択される請求項
1または
2に記載の方法。
【請求項4】
前記第1の確率モデルまたは前記第2の確率モデルは、定数モデル、二項モデル、独立サイトモデル、ニューラルネットモデル、またはマルコフモデルである請求項1乃至
3のいずれか一項に記載の方法。
【請求項5】
前記第1の複数の参照配列リードまたは前記第2の複数の参照配列リード内の複数のCpGサイトの各々について、メチル化の比率を決定するステップであって、前記第1の確率モデルまたは前記第2の確率モデルが、メチル化の前記比率の積によってパラメータ化される、ステップ
をさらに含む請求項1乃至
4のいずれか一項に記載の方法。
【請求項6】
前記第1の複数の参照配列リード、前記第2の複数の
参照配列リード、または前記複数の訓練配列リードのうちの各配列リードについて、前記配列リードが、低メチル化されているか、それとも高メチル化されているかを、それぞれ、CpGサイトの少なくとも閾値パーセンテージを有する、前記CpGサイトの少なくとも閾値数が、非メチル化されているか、それともメチル化されているかを決定することによって、決定するステップ
をさらに含む請求項1乃至
5のいずれか一項に記載の方法。
【請求項7】
前記第1の複数の参照配列リード、前記第2の複数の
参照配列リード、または前記複数の訓練配列リードのうちの各配列リードについて、前記配列リードが、異常メチル化されているかどうかを決定するステップと、
閾値を下回るp値を有する、配列リードを、前記第1の複数の参照配列リードから除去することによって、p値フィルタリングを用いて、前記第1の複数の参照配列リードをフィルタリングするステップと
をさらに含む請求項1乃至
6のいずれか一項に記載の方法。
【請求項8】
前記第1の確率モデルまたは前記第2の確率モデルは、各々がメチル化の前記比率の積と関連付けられた、複数の混合成分の合計によってパラメータ化される請求項5に記載の方法。
【請求項9】
前記第1の確率モデルまたは前記第2の確率モデルを訓練するステップは、
確率モデルについて
、確率モデルと関連付けられた前記第1の疾患状態または前記第2の疾患状態と関連付けられた対象から導出される、前記第1の複数の参照配列リードまたは前記第2の複数の参照配列リードの合計対数尤度を最大化するパラメータのセットを決定するステップ
を含む請求項1乃至
8のいずれか一項に記載の方法。
【請求項10】
前記方法は、
複数のウィンドウの各々について、
前記ウィンドウについての前記第1の確率モデルを訓練するために、前記ウィンドウから取り出される、前記第1の複数の参照配列リードのうちの複数を選択し、前記ウィンドウから取り出される、前記配列リードを利用するステップと、
各ウィンドウについての前記
第2の確率モデルを訓練するために、前記ウィンドウから取り出される、前記第2の複数の参照配列リードのうちの複数を選択し、前記配列リードを利用するステップと
をさらに含む請求項1乃至
9のいずれか一項に記載の方法。
【請求項11】
前記1つまたは複数の特徴量は、前記第1の確率値が前記第2の確率値よりも大きい、前記複数の訓練配列リードの異常値配列リードのカウントを含む、及び/または、
前記1つまたは複数の特徴量は、異常値配列リードの合計カウントを含む、及び/または、
前記1つまたは複数の特徴量は、無名でメチル化された配列リードの合計カウントを含む、及び/または、
前記1つまたは複数の特徴量は、1つまたは複数の特定のメチル化パターンを含む断片のカウントを含む請求項1乃至1
0のいずれか一項に記載の方法。
【請求項12】
前記1つまたは複数の特徴量を識別するステップは、
前記複数の訓練配列リードのうちの各配列リードについて、
前記第2の確率値に対する前記第1の確率値の対数尤度比を決定するステップと、
1つまたは複数の閾値について、前記閾値を超える対数尤度比を有する前記配列リードのカウントを決定するステップと
を含む請求項1乃至1
1のいずれか一項に記載の方法。
【請求項13】
前記方法は、
前記1つまたは複数の特徴量の各々について、前記第1の疾患状態と前記第2の疾患状態とを区別する際の、前記特徴量の判断尺度を決定するステップ
をさらに含む請求項1乃至1
2のいずれか一項に記載の方法。
【請求項14】
前記方法は、前記1つまたは複数の特徴量から分類器を訓練するステップをさらに含み、前記分類器は、試験対象の試験試料からの複数の配列リードについて、1つまたは複数の疾患状態を予測するように訓練され、前記1つまたは複数の疾患状態は、疾患の有無、疾患タイプ、および/または疾患原発組織を含む請求項1乃至1
3のいずれか一項に記載の方法。
【請求項15】
前記第1の参照試料または前記第2の参照試料は、既知の疾患状態を有する対象からのセルフリー核酸試料または組織核酸試料である請求項1乃至1
4のいずれか一項に記載の方法。
【請求項16】
コンピュータプロセッサと、メモリとを備える、システムであって、前記メモリは、前記コンピュータプロセッサによって実行されたときに、
第1の参照試料からの第1の複数の参照配列リードにアクセスするステップであって、前記第1の
参照試料は、第1の疾患状態を有する対象からのものである、ステップと、
第2の参照試料からの第2の複数の参照配列リードにアクセスするステップであって、前記第2の
参照試料は、第2の疾患状態を有する対象からのものである、ステップと、
前記第1の複数の参照配列リードを使用して、第1の確率モデルを訓練するステップであって、前記第1の確率モデルは、前記第1の疾患状態と関連付けられる、ステップと、
前記第2の複数の参照配列リードを使用して、第2の確率モデルを訓練するステップであって、前記第2の確率モデルは、前記第2の疾患状態と関連付けられる、ステップと、
訓練試料からの複数の訓練配列リードにアクセスするステップであって、前記複数の訓練配列リードのうちの各配列リードについて、
第1の確率値を決定するために、前記配列リードを前記第1の確率モデルに適用し、前記第1の確率値は、前記配列リードが、前記第1の疾患状態と関連付けられた試料に由来する確率であり、
第2の確率値を決定するために、前記配列リードを前記第2の確率モデルに適用し、前記第2の確率値は、前記配列リードが、前記第2の疾患状態と関連付けられた試料に由来する確率である、
ステップと、
各配列リードについて、前記第1の確率値と前記第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップ
であって、前記第1の確率値と前記第2の確率値とを比較することは、前記第1の確率値と前記第2の確率値との比を決定することを含み、前記1つまたは複数の特徴量は、比の閾値を超える配列リードの配列リードカウントを含むステップと
を含
み、
前記第1の疾患状態は、がんであり、前記第2の疾患状態は、非がんであるか、または、
前記第1の疾患状態は、第1のタイプのがんであり、前記第2の疾患状態は、第2のタイプのがんであり、前記第1のタイプのがんと前記第2のタイプのがんは、異なるか、または、
前記第1の疾患状態は、第1の原発組織を含み、前記第2の疾患状態は、第2の原発組織を含む
、
ステップを前記
コンピュータプロセッサに実行させる、コンピュータプログラム命令を記憶するシステム。
【請求項17】
1つまたは複数のプロセッサによって実行されたときに、
第1の参照試料からの第1の複数の参照配列リードにアクセスするステップであって、前記第1の
参照試料は、第1の疾患状態を有する対象からのものである、ステップと、
第2の参照試料からの第2の複数の参照配列リードにアクセスするステップであって、前記第2の
参照試料は、第2の疾患状態を有する対象からのものである、ステップと、
前記第1の複数の参照配列リードを使用して、第1の確率モデルを訓練するステップであって、前記第1の確率モデルは、前記第1の疾患状態と関連付けられる、ステップと、
前記第2の複数の参照配列リードを使用して、第2の確率モデルを訓練するステップであって、前記第2の確率モデルは、前記第2の疾患状態と関連付けられる、ステップと、
訓練試料からの複数の訓練配列リードにアクセスするステップであって、前記複数の訓練配列リードのうちの各配列リードについて、
第1の確率値を決定するために、前記配列リードを前記第1の確率モデルに適用し、前記第1の確率値は、前記配列リードが、前記第1の疾患状態と関連付けられた試料に由来する確率であり、
第2の確率値を決定するために、前記配列リードを前記第2の確率モデルに適用し、前記第2の確率値は、前記配列リードが、前記第2の疾患状態と関連付けられた試料に由来する確率である、
ステップと、
各配列リードについて、前記第1の確率値と前記第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップ
であって、前記第1の確率値と前記第2の確率値とを比較することは、前記第1の確率値と前記第2の確率値との比を決定することを含み、前記1つまたは複数の特徴量は、比の閾値を超える配列リードの配列リードカウントを含むステップと
を含
み、
前記第1の疾患状態は、がんであり、前記第2の疾患状態は、非がんであるか、または、
前記第1の疾患状態は、第1のタイプのがんであり、前記第2の疾患状態は、第2のタイプのがんであり、前記第1のタイプのがんと前記第2のタイプのがんは、異なるか、または、
前記第1の疾患状態は、第1の原発組織を含み、前記第2の疾患状態は、第2の原発組織を含む
、
ステップを前記1つまたは複数のプロセッサに実行させる命令を含む非一時的コンピュータ可読媒体。
【請求項18】
コンピュータによって実行される方法であって、
第1の複数の参照配列リードを、各々が原発組織と関連付けられた複数の疾患状態のうちの1つを有する参照試料から生成するステップ
であって、前記複数の疾患状態は、がんのタイプ、疾患のタイプ、および健常な状態のうちの1つまたは複数を含むステップと、
前記第1の複数の参照配列リードを使用して、各々が前記複数の疾患状態のうちの異なる1つと関連付けられた複数の確率モデルを訓練するステップと、
前記複数の確率モデルのうちの各確率モデルについて、
第2の複数の配列リードの各々について、前記配列リードが、前記確率モデルと関連付けられた前記疾患状態と関連付けられた試料に由来する、第1の確率に少なくとも基づいて、値を決定するために、前記確率モデルを前記配列リードに適用するステップと、
閾値を超える値を有する前記第2の複数の配列リードのカウントを決定することによって、特徴量を識別するステップと、
前記特徴量を使用して、分類器を生成するステップであって、前記分類器は、試験対象の試験試料からの入力配列リードについて、疾患状態、または前記複数の疾患状態のうちの疾患状態と関連付けられた原発組織を予測するように訓練される、ステップと
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、核酸試料から疾患状態を予測するためのモデルベースの特徴量化および分類器に関する。
【背景技術】
【0002】
DNAメチル化は、遺伝子発現を調節する役割を果たす。がんを含む多くの疾患プロセスには、異常なDNAメチル化が関与している。メチル化シーケンシング(たとえば、全ゲノムバイサルファイトシーケンシング(WGBS)を使用したDNAメチル化プロファイリングは、がんの検出、診断、および/またはモニタリングのための有益な診断ツールとして、ますます認識されるようになっている。たとえば、異なるメチル化を施された領域の特定のパターンは、様々な疾患状態のための分子マーカとして有用であり得る。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開2010/037001号パンフレット
【文献】国際公開2011/127136号パンフレット
【文献】米国特許出願公開第2019/0287652号明細書
【文献】米国特許出願第16/352,602号明細書
【文献】国際公開第2019/195268号パンフレット
【文献】PCT/米国特許出願公開第2019/053509号明細書
【文献】PCT/米国特許出願公開第2020/015082号明細書
【非特許文献】
【0004】
【文献】Clinical Trial.gov 識別子:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978)
【文献】Clinical Trail.gov 識別子:NCT03085888(//clinicaltrials.gov/ct2/show/NCT03085888)
【文献】2020年3月30日にオンラインで公開された(https://www.annalsofoncology.org/article/S0923-7534(20)36058-0/fulltext)、「Sensitive and specific multi-cancer detection and localization using methylation signatures in cell-free DNA」と題するAnnals of Oncologyジャーナル記事
【文献】Riedmiller M, Braun H. RPROP - A Fast Adaptive Learning Algorithm. Proceedings of the International Symposium on Computer and Information Science VII, 1992
【発明の概要】
【0005】
本明細書においては、核酸試料を使用した、特徴量の生成のための、ならびに/または疾患状態(たとえば、がんの有無、がんタイプ、および/もしくはがん原発組織)の分類のためのモデルを訓練および適用するための方法が開示される。一態様においては、本開示は、複数の特徴量を生成するために、配列リードを解析するための方法であって、第1の複数の参照配列リードを、第1の参照試料から生成するステップであって、第1の試料は、第1の疾患状態を有する対象からのものである、ステップと、第2の複数の参照配列リードを、第2の参照試料から生成するステップであって、第2の試料は、第2の疾患状態を有する対象からのものである、ステップと、第1の複数の参照配列リードを使用して、第1の確率モデルを訓練するステップであって、第1の確率モデルは、第1の疾患状態と関連付けられる、ステップと、第2の複数の参照配列リードを使用して、第2の確率モデルを訓練するステップであって、第2の確率モデルは、第2の疾患状態と関連付けられる、ステップと、複数の訓練配列リードを、訓練試料から生成するステップであって、複数の訓練配列リードのうちの各配列リードについて、第1の確率値を決定するために、配列リードを第1の確率モデルに適用し、第1の確率値は、配列リードが、第1の疾患状態と関連付けられた試料に由来する確率であり、第2の確率値を決定するために、配列リードを第2の確率モデルに適用し、第2の確率値は、配列リードが、第2の疾患状態と関連付けられた試料に由来する確率である、ステップと、各配列リードについて、第1の確率値と第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップとを含む方法を提供する。
【0006】
別の態様においては、本開示は、コンピュータプロセッサと、メモリとを備える、システムを提供し、メモリは、コンピュータプロセッサによって実行されたときに、第1の参照試料からの第1の複数の参照配列リードにアクセスするステップであって、第1の試料は、第1の疾患状態を有する対象からのものである、ステップと、第2の参照試料からの第2の複数の参照配列リードにアクセスするステップであって、第2の試料は、第2の疾患状態を有する対象からのものである、ステップと、第1の複数の参照配列リードを使用して、第1の確率モデルを訓練するステップであって、第1の確率モデルは、第1の疾患状態と関連付けられる、ステップと、第2の複数の参照配列リードを使用して、第2の確率モデルを訓練するステップであって、第2の確率モデルは、第2の疾患状態と関連付けられる、ステップと、訓練試料からの複数の訓練配列リードにアクセスするステップであって、複数の訓練配列リードのうちの各配列リードについて、第1の確率値を決定するために、配列リードを第1の確率モデルに適用し、第1の確率値は、配列リードが、第1の疾患状態と関連付けられた試料に由来する確率であり、第2の確率値を決定するために、配列リードを第2の確率モデルに適用し、第2の確率値は、配列リードが、第2の疾患状態と関連付けられた試料に由来する確率である、ステップと、各配列リードについて、第1の確率値と第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップとを含むステップをプロセッサに実行させる、コンピュータプログラム命令を記憶する。
【0007】
別の態様においては、本開示は、1つまたは複数のプロセッサによって実行されたときに、第1の参照試料からの第1の複数の参照配列リードにアクセスするステップであって、第1の試料は、第1の疾患状態を有する対象からのものである、ステップと、第2の参照試料からの第2の複数の参照配列リードにアクセスするステップであって、第2の試料は、第2の疾患状態を有する対象からのものである、ステップと、第1の複数の参照配列リードを使用して、第1の確率モデルを訓練するステップであって、第1の確率モデルは、第1の疾患状態と関連付けられる、ステップと、第2の複数の参照配列リードを使用して、第2の確率モデルを訓練するステップであって、第2の確率モデルは、第2の疾患状態と関連付けられる、ステップと、訓練試料からの複数の訓練配列リードにアクセスするステップであって、複数の訓練配列リードのうちの各配列リードについて、第1の確率値を決定するために、配列リードを第1の確率モデルに適用し、第1の確率値は、配列リードが、第1の疾患状態と関連付けられた試料に由来する確率であり、第2の確率値を決定するために、配列リードを第2の確率モデルに適用し、第2の確率値は、配列リードが、第2の疾患状態と関連付けられた試料に由来する確率である、ステップと、各配列リードについて、第1の確率値と第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップとを含むステップを1つまたは複数のプロセッサに実行させる命令を含む非一時的コンピュータ可読媒体を提供する。
【0008】
いくつかの実施形態においては、第1の疾患状態は、がんであり、第2の疾患状態は、非がんである。いくつかの実施形態においては、第1の疾患状態は、第1のタイプのがんであり、第2の疾患状態は、第2のタイプのがんであり、第1のタイプのがんと第2のタイプのがんは、異なる。
【0009】
いくつかの実施形態においては、方法、システム、または非一時的コンピュータ可読媒体は、複数の参照配列リードを、第3、第4、第5、第6、第7、第8、第9、および/または第10の参照試料から生成するステップであって、第3、第4、第5、第6、第7、第8、第9、および/または第10の参照試料の各々は、異なる疾患状態を有し、異なる疾患状態の各々は、異なるタイプのがんである、ステップと、第3、第4、第5、第6、第7、第8、第9、および/または第10の複数の参照配列リードを使用して、第3、第4、第5、第6、第7、第8、第9、および/または第10の確率モデルを訓練するステップであって、第3、第4、第5、第6、第7、第8、第9、および/または第10の確率モデルの各々は、各々が、異なるタイプのがんと関連付けられる、ステップとをさらに含む。
【0010】
いくつかの実施形態においては、がんまたはがんのタイプは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盂および尿管の尿路上皮がん、尿路上皮以外の腎臓がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道の扁平上皮がん、扁平上皮以外の食道がん、胃がん、肝細胞から生じた肝胆道がん、肝細胞以外の細胞から生じた肝胆膵がん、膵がん、ヒトパピローマウイルスと関連付けられた頭頸部がん、ヒトパピローマウイルスと関連付けられない頭頸部がん、肺腺癌、小細胞肺がん、腺癌または小細胞肺がん以外の扁平上皮肺がんおよび肺がん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、ならびに白血病を含む群から選択される。いくつかの実施形態においては、がんタイプは、脳腫瘍、外陰がん、膣がん、精巣がん、胸膜の中皮腫、腹膜の中皮腫、および胆嚢がんを含む群からさらに選択される。
【0011】
いくつかの実施形態においては、第1の疾患状態は、第1の原発組織を含み、第2の疾患状態は、第2の原発組織を含む。第1の原発組織または第2の原発組織は、乳房組織、甲状腺組織、肺組織、膀胱組織、子宮頸部組織、小腸組織、結腸直腸組織、食道組織、胃組織、扁桃組織、肝臓組織、卵巣組織、卵管組織、膵臓組織、前立腺組織、腎臓組織、および子宮組織を含む群から選択されることができる。いくつかの実施形態においては、第1の原発組織または第2の原発組織は、脳組織および細胞、内分泌組織および細胞、血管内皮組織および細胞、頭頸部組織および細胞、膵外分泌組織および細胞、膵内分泌組織および細胞、リンパ組織および細胞、間葉組織および細胞、骨髄組織および細胞、胸膜組織および細胞、筋肉組織および細胞、骨髄組織および細胞、脂肪組織および細胞、胆嚢組織および細胞を含む群からさらに選択される。
【0012】
いくつかの実施形態においては、第1の確率モデルまたは第2の確率モデルは、定数モデル、二項モデル、独立サイトモデル、ニューラルネットモデル、またはマルコフモデルである。
【0013】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、第1の複数の参照配列リードまたは第2の複数の参照配列リード内の複数のCpGサイトの各々について、メチル化の比率を決定するステップであって、第1の確率モデルまたは第2の確率モデルが、メチル化の比率の積によってパラメータ化される、ステップをさらに含む。
【0014】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、第1の複数の参照配列リードまたは第2の複数の配列リードのうちの各配列リードについて、配列リードが、異常メチル化されているかどうかを決定するステップと、閾値を下回るp値を有する、配列リードを、第1の複数の参照配列リードまたは第2の複数の配列から除去することによって、p値フィルタリングを用いて、第1の複数の参照配列リードまたは第2の複数の配列リードをフィルタリングするステップとをさらに含む。
【0015】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、第1の複数の参照配列リード、第2の複数の配列リード、または複数の訓練配列リードのうちの各配列リードについて、配列リードが、低メチル化されているか、それとも高メチル化されているかを、それぞれ、CpGサイトの少なくとも閾値パーセンテージを有する、CpGサイトの少なくとも閾値数が、非メチル化されているか、それともメチル化されているかを決定することによって、決定するステップをさらに含む。
【0016】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、第1の複数の参照配列リード、第2の複数の配列リード、または複数の訓練配列リードのうちの各配列リードについて、配列リードが、異常メチル化されているかどうかを決定するステップと、閾値を下回るp値を有する、配列リードを、第1の複数の参照配列リードから除去することによって、p値フィルタリングを用いて、第1の複数の参照配列リードをフィルタリングするステップとをさらに含む。
【0017】
いくつかの実施形態においては、第1の確率モデルまたは第2の確率モデルは、各々がメチル化の比率の積と関連付けられた、複数の混合成分の合計によってパラメータ化される。いくつかの実施形態においては、複数の混合成分のうちの各混合成分は、割合の割り当てと関連付けられ、割合の割り当ては、合計すると1になる。
【0018】
いくつかの実施形態においては、第1の確率モデルまたは第2の確率モデルを訓練するステップは、確率モデルについて、確率モデルと関連付けられた第1の疾患状態または第2の疾患状態と関連付けられた対象から導出される、第1の複数の参照配列リードまたは第2の複数の参照配列リードの合計対数尤度を最大化するパラメータのセットを決定するステップを含む。
【0019】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、複数のウィンドウの各々について、 ウィンドウについての第1の確率モデルを訓練するために、ウィンドウから取り出される、第1の複数の参照配列リードのうちの複数を選択し、ウィンドウから取り出される、配列リードを利用するステップと、各ウィンドウについての確率モデルを訓練するために、ウィンドウから取り出される、第2の複数の参照配列リードのうちの複数を選択し、配列リードを利用するステップとをさらに含む。
【0020】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、複数のウィンドウの各々について、ウィンドウから取り出される、複数の訓練配列リードのサブセットを選択するステップと、サブセットのうちの各配列リードについて、第1の確率値と第2の確率値とを比較することによって、1つまたは複数の特徴量を識別するステップとをさらに含む。いくつかの実施形態においては、ウィンドウの各々は、CpGサイト間の少なくとも閾値数の塩基対によって分離される。いくつかの実施形態においては、複数のウィンドウの各々は、約200塩基対(bp)から約10キロ塩基対(kbp)を含む。
【0021】
いくつかの実施形態においては、1つまたは複数の特徴量は、第1の確率値が第2の確率値よりも大きい、複数の訓練配列リードの異常値配列リードのカウントを含む。いくつかの実施形態においては、1つまたは複数の特徴量は、バイナリカウントを含む。いくつかの実施形態においては、1つまたは複数の特徴量は、異常値配列リードの合計カウントを含む。いくつかの実施形態においては、1つまたは複数の特徴量は、無名でメチル化された配列リードの合計カウントを含む。いくつかの実施形態においては、1つまたは複数の特徴量は、1つまたは複数の特定のメチル化パターンを含む断片のカウントを含む。いくつかの実施形態においては、1つまたは複数の特徴量は、単一のゲノム領域内で訓練された識別分類器の出力を使用して識別される。いくつかの実施形態においては、識別分類器は、多層パーセプトロン、または畳み込みニューラルネットモデルである。いくつかの実施形態においては、第1の確率値と第2の確率値とを比較するステップは、第1の確率値と第2の確率値との比を決定するステップを含み、1つまたは複数の特徴量は、比の閾値を超える配列リードの配列リードカウントを含む。いくつかの実施形態においては、第1の確率値または第2の確率値は、対数尤度値である。いくつかの実施形態においては、1つまたは複数の特徴量は、第1の疾患状態における配列リードの珍しさに基づいて、情報価値のある配列リードをランク付けすることを含む。
【0022】
いくつかの実施形態においては、1つまたは複数の特徴量を識別するステップは、複数の訓練配列リードのうちの各配列リードについて、第2の確率値に対する第1の確率値の対数尤度比を決定するステップと、1つまたは複数の閾値について、閾値を超える対数尤度比を有する配列リードのカウントを決定するステップとを含む。
【0023】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、1つまたは複数の特徴量の各々について、第1の疾患状態と第2の疾患状態とを区別する際の、特徴量の判断尺度を決定するステップをさらに含む。
【0024】
いくつかの実施形態においては、1つまたは複数の特徴量の各々の判断尺度を決定するステップは、特徴量と、第1の疾患状態および第2の疾患状態の存在の確率との間の相互情報を決定するステップを含む。いくつかの実施形態においては、本開示の方法は、判断尺度に基づいて、特徴量をランク付けすることによって、分類器を訓練するための1つまたは複数の特徴量をフィルタリングするステップをさらに含む。
【0025】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、1つまたは複数の特徴量から分類器を訓練するステップをさらに含み、分類器は、試験対象の試験試料からの複数の配列リードについて、1つまたは複数の疾患状態を予測するように訓練され、1つまたは複数の疾患状態は、疾患の有無、疾患タイプ、および/または疾患原発組織を含む。いくつかの実施形態においては、分類器は、ロジスティック回帰、多項ロジスティック回帰、一般化線形モデル(GLM)、サポートベクタマシン、多層パーセプトロン、ランダムフォレスト、またはニューラルネット分類器である。いくつかの実施形態においては、分類器は、多層パーセプトロンモデルである。いくつかの実施形態においては、分類器は、L1またはL2正則化ロジスティック回帰を使用して生成される。いくつかの実施形態においては、本開示の方法は、試験試料についての確率のベクトルを決定するステップと、確率のベクトルに基づいて、試験試料のラベルを決定するステップとをさらに含む。
【0026】
いくつかの実施形態においては、本開示の方法、システム、または非一時的コンピュータ可読媒体は、混同行列を使用して、分類器の精度を決定するステップであって、混同行列は、複数の疾患状態の各々を識別する際の、分類器の成功率を記述する情報を含む、ステップをさらに含む。
【0027】
いくつかの実施形態においては、第1の参照試料または第2の参照試料は、既知の疾患状態を有する対象からのセルフリー核酸試料または組織核酸試料である。
【0028】
いくつかの実施形態においては、既知の疾患状態は、疾患の有無、疾患タイプ、および/または疾患原発組織である。
【0029】
いくつかの実施形態においては、訓練試料は、セルフリー核酸試料または組織試料を含む。いくつかの実施形態においては、試験試料は、セルフリー核酸試料を含む。
【0030】
いくつかの実施形態においては、第1の複数の参照配列リード、第2の複数の参照配列リード、複数の訓練配列リード、または試験試料からの複数の配列リードは、メチル化シーケンシング(またはメチル化アウェアシーケンシング)から生成される。いくつかの実施形態においては、メチル化シーケンシングは、全ゲノムバイサルファイトシーケンシングを含む。いくつかの実施形態においては、メチル化シーケンシングは、標的シーケンシングを含む。
【0031】
他の態様においては、本開示は、疾患状態と関連付けられた原発組織を予測するための分類器を生成するための方法を提供し、方法は、第1の複数の参照配列リードを、各々が原発組織と関連付けられた複数の疾患状態のうちの1つを有する参照試料から生成するステップと、第1の複数の参照配列リードを使用して、各々が複数の疾患状態のうちの異なる1つと関連付けられた複数の確率モデルを訓練するステップと、複数の確率モデルのうちの各確率モデルについて、第2の複数の配列リードの各々について、配列リードが、確率モデルと関連付けられた疾患状態と関連付けられた試料に由来する、第1の確率に少なくとも基づいて、値を決定するために、確率モデルを配列リードに適用するステップと、閾値を超える値を有する第2の複数の配列リードのカウントを決定することによって、特徴量を識別するステップと、特徴量を使用して、分類器を生成するステップであって、分類器は、試験対象の試験試料からの入力配列リードについて、疾患状態、および/または複数の疾患状態のうちの疾患状態と関連付けられた原発組織を予測するように訓練される、ステップとを含む。いくつかの実施形態においては、複数の疾患状態は、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または少なくとも10個の異なる疾患状態を含む。
【0032】
いくつかの実施形態においては、方法は、第1の複数の参照配列リード内の複数のCpGサイトの各々について、メチル化の比率を決定するステップであって、複数の確率モデルの各々が、メチル化の比率の積によってパラメータ化される、ステップをさらに含む。
【0033】
いくつかの実施形態においては、複数の確率モデルのうちの各確率モデルは、各々がメチル化の比率の積と関連付けられた、複数の混合成分の合計によってパラメータ化される。いくつかの実施形態においては、複数の混合成分のうちの各混合成分は、割合の割り当てと関連付けられ、割合の割り当ては、合計すると1になる。
【0034】
いくつかの実施形態においては、複数の確率モデルを訓練するステップは、複数の確率モデルのうちの確率モデルについて、確率モデルと関連付けられた疾患状態と関連付けられた対象から導出される、第1の複数の参照配列リードの合計対数尤度を最大化するパラメータのセットを決定するステップを含む。いくつかの実施形態においては、方法は、試験試料についての確率のベクトルを決定するステップと、確率のベクトルに基づいて、試験試料のラベルを決定するステップとをさらに含む。
【0035】
いくつかの実施形態においては、値を決定するステップは、配列リードが、確率モデルと関連付けられた疾患状態と関連付けられた試料に由来する、第1の確率を決定するステップであって、疾患状態は、がんの存在またはがんのタイプと関連付けられる、ステップと、配列リードが、健常試料に由来する、第2の確率を決定するステップと、第2の確率に対する第1の確率の対数尤度比を決定するステップとを含む。
【0036】
いくつかの実施形態においては、特徴量を識別するステップは、複数の閾値について、閾値を超える対数尤度比を有する第2の複数の配列リードのカウントを決定するステップを含む。
【0037】
いくつかの実施形態においては、方法は、特徴量の各々について、複数の疾患状態のうちの第1の疾患状態と第2の疾患状態とを区別する際の、特徴量の判断尺度を決定するステップをさらに含む。
【0038】
いくつかの実施形態においては、特徴量の判断尺度を決定するステップは、特徴量と、第1の疾患状態および第2の疾患状態の存在の確率との間の相互情報を決定するステップを含む。
【0039】
いくつかの実施形態においては、第1の疾患状態の第1の確率は、第2の疾患状態の第2の確率に等しい。いくつかの実施形態においては、方法は、判断尺度に基づいて、特徴量をランク付けすることによって、分類器を訓練するための特徴量をフィルタリングするステップをさらに含む。
【0040】
いくつかの実施形態においては、方法は、混同行列を使用して、分類器の精度を決定するステップであって、混同行列は、複数の疾患状態の各々を識別する際の、分類器の成功率を記述する情報を含む、ステップをさらに含む。
【0041】
いくつかの実施形態においては、方法は、参照ゲノムの複数のブロックを決定するステップであって、ブロックの各々は、CpGサイト間の少なくとも閾値数の塩基対によって分離され、第1の複数の参照配列リードは、複数のブロックを使用して生成される、ステップをさらに含む。いくつかの実施形態においては、閾値を超える値を有する第2の複数の配列リードのカウントは、複数のCpGサイトについて決定される。
【0042】
いくつかの実施形態においては、参照試料は、セルフリー核酸試料および組織試料のうちの1つまたは複数を含む。
【0043】
いくつかの実施形態においては、複数の疾患状態は、がんのタイプ、疾患のタイプ、および健常な状態のうちの1つまたは複数を含む。
【0044】
いくつかの実施形態においては、分類器は、ロジスティック回帰、多項ロジスティック回帰、一般化線形モデル(GLM)、多層パーセプトロン、サポートベクタマシン、ランダムフォレスト、またはニューラルネットモデル分類器である。いくつかの実施形態においては、分類器は、L1またはL2正則化ロジスティック回帰を使用して生成される。いくつかの実施形態においては、分類器は、多層パーセプトロンモデルである。
【0045】
いくつかの実施形態においては、方法は、複数の疾患状態のうちの1つの有無を示すために、特徴量を2値化するステップであって、分類器は、2値化された特徴量を使用して生成される、ステップをさらに含む。2値化された特徴量は、各々、0または1の値を有することができる。
【0046】
いくつかの実施形態においては、方法は、参照試料についての位置特定における不確実性のメトリックを決定するステップと、メトリックに従って、分類器の少なくとも1つの予測を、不確定な原発組織としてラベル付けするステップとをさらに含む。
【0047】
他の態様においては、本開示は、複数の配列リードを、1つまたは複数の生物試料から生成するステップと、染色体の複数の位置のうちの各位置について、複数の配列リードを使用して、疾患状態と関連付けられた断片との閾値類似性を少なくとも有する、位置内の1つまたは複数の生物試料の核酸断片のカウントを決定するステップと、複数の位置のカウントを特徴量として使用して、機械学習モデルを訓練するステップと、訓練された機械学習モデルを使用して、試験試料が疾患状態を有する確率を決定するステップとを含む、方法を提供する。
【0048】
いくつかの実施形態においては、方法は、複数の位置の各々における、疾患状態の1つの有無を示すために、特徴量を2値化するステップであって、位置における少なくとも1つの核酸断片のカウントは、その位置における疾患状態の1つの存在を示す、ステップをさらに含む。
【0049】
いくつかの実施形態においては、方法は、複数の配列リードのp値スコアに従って、複数の配列リードをフィルタリングするステップであって、配列リードのp値スコアは、配列リードに対応する1つまたは複数の生物試料の核酸断片において、メチル化を観測する確率を示す、ステップをさらに含む。
【0050】
いくつかの実施形態においては、機械学習モデルは、多層パーセプトロンモデルである。いくつかの実施形態においては、機械学習モデルは、ロジスティック回帰を使用する。いくつかの実施形態においては、複数の位置のそれぞれは、染色体の複数の連続した塩基対を表す。
【0051】
いくつかの実施形態においては、複数の配列リードは、ゲノムの複数の領域について処理される。いくつかの実施形態においては、複数の配列リードは、ゲノムの領域の標的サブセットの核酸断片を表す。いくつかの実施形態においては、複数の配列リードは、全ゲノムの核酸断片を表す。いくつかの実施形態においては、疾患状態は、がんの少なくとも1つのタイプと関連付けられる。いくつかの実施形態においては、疾患状態は、がんの少なくとも1つのタイプのステージと関連付けられる。いくつかの実施形態においては、方法は、試験試料が疾患状態を有する確率を使用して、治療を決定するステップをさらに含む。
【0052】
他の態様においては、本開示は、複数の配列リードを、複数の生物試料の核酸断片から生成するステップと、複数の配列リードを処理することによって、訓練データの第1のセットを決定するステップと、訓練データの第1のセットを使用して、第1の分類器を訓練するステップであって、第1の分類器は、第1の試験生物試料からの第1の入力配列リードについて、第1の試験生物試料における、少なくとも1つの疾患状態の有無を予測するように訓練される、ステップと、第1の分類器の予測を使用して、複数の生物試料のサブセットが、1つまたは複数の疾患状態の存在を有することを決定するステップと、複数の生物試料のサブセットの核酸断片に対応する、複数の配列リードのサブセットを使用して、訓練データの第2のセットを決定するステップと、訓練データの第2のセットを使用して、第2の分類器を訓練するステップであって、第2の分類器は、第2の試験生物試料からの第2の入力配列リードについて、第2の試験生物試料中に存在する疾患状態と関連付けられた原発組織を予測するように訓練される、ステップとを含む、方法を提供する。
【0053】
いくつかの実施形態においては、第2の分類器は、少なくとも1つの隠れ層を含む、多層パーセプトロンである。いくつかの実施形態においては、第1の分類器は、隠れ層を含まない。いくつかの実施形態においては、多層パーセプトロンは、100ユニットの隠れ層、または200ユニットの隠れ層を含む。いくつかの実施形態においては、多層パーセプトロンは、完全接続され、正規化線形ユニット活性化関数を使用する。いくつかの実施形態においては、第2の分類器は、ロジスティック回帰または多項ロジスティック回帰モデルである。いくつかの実施形態においては、第1の分類器は、少なくとも1つの隠れ層を含む、多層パーセプトロンである。いくつかの実施形態においては、多層パーセプトロン(第1の分類器)は、100ユニット以上の隠れ層を含み、多層パーセプトロンは、完全接続され、正規化線形ユニット活性化関数を使用する。いくつかの実施形態においては、第2の分類器は、少なくとも1つの隠れ層を含む、第2の多層パーセプトロンである。いくつかの実施形態においては、第1の分類器は、ロジスティック回帰または多項ロジスティック回帰モデルである。
【0054】
いくつかの実施形態においては、方法は、第1の分類器上において、第1の交差検証を実行するステップと、第1の交差検証の出力に基づいて選択された、第1のハイパーパラメータを使用して、第1の分類器を再訓練するステップと、第2の分類器上において、第2の交差検証を実行するステップと、第2の交差検証の出力に基づいて選択された、第2のハイパーパラメータを使用して、第2の分類器を再訓練するステップとをさらに含む。いくつかの実施形態においては、第1のハイパーパラメータおよび第2のハイパーパラメータは、それぞれ、第1の交差検証および第2の交差検証における、すべてのフォールドからの集約結果を使用して、選択される。いくつかの実施形態においては、第2のハイパーパラメータは、第2の分類器の原発組織精度を最適化するように選択される。
【0055】
いくつかの実施形態においては、第1の分類器および第2の分類器は、早期打ち切りを使用せずに訓練される。いくつかの実施形態においては、第2の分類器は、以下の機械学習技法、すなわち、確率的勾配降下法、重み減衰、ドロップアウト正則化、Adam最適化、He初期化、学習率スケジューリング、正規化線形ユニット活性化関数、リーキー正規化線形ユニット活性化関数、シグモイド活性化関数、およびブースティングのうちの1つまたは複数を使用して訓練される。
【0056】
いくつかの実施形態においては、複数の配列リードを処理することによって、訓練データの第1のセットを決定するステップは、複数の生物試料の核酸断片においてメチル化を観測する確率を決定するステップを含む。いくつかの実施形態においては、メチル化を観測する確率は、複数の配列リード内の複数のCpGサイトの各々について決定される。
【0057】
いくつかの実施形態においては、複数の配列リードを処理することによって、訓練データの第1のセットを決定するステップは、複数の配列リードが、低メチル化されているか、それとも高メチル化されているかを、複数の配列リードの各々について、それぞれ、CpGサイトの少なくとも閾値パーセンテージを有する、CpGサイトの少なくとも閾値数が、非メチル化されているか、それともメチル化されているかを決定することによって、決定するステップを含む。
【0058】
いくつかの実施形態においては、複数の配列リードを処理することによって、訓練データの第1のセットを決定するステップは、複数の配列リードのうちの1つまたは複数が、低メチル化されていることを、複数の配列リードのうちの1つまたは複数に対応するCpGサイトの閾値数または閾値パーセンテージが、非メチル化されていると決定することによって、決定するステップを含む。いくつかの実施形態においては、複数の配列リードを処理することによって、訓練データの第1のセットを決定するステップは、複数の配列リードのうちの1つまたは複数が、高メチル化されていることを、複数の配列リードのうちの1つまたは複数に対応するCpGサイトの閾値数または閾値パーセンテージが、メチル化されていると決定することによって、決定するステップを含む。
【0059】
いくつかの実施形態においては、複数の配列リードを処理することによって、訓練データの第1のセットを決定するステップは、複数の配列リードのうちの1つまたは複数が、異常メチル化されていることを決定するステップと、訓練データの第1のセットを生成するために、p値フィルタリングを用いて、複数の配列リードをフィルタリングするステップであって、p値フィルタリングは、閾値p値よりも小さいp値を有する配列リードを除去することを含む、ステップとを含む。
【0060】
いくつかの実施形態においては、方法は、第2の分類器によって、疾患状態と関連付けられた原発組織が、第2の試験生物試料中に存在する確率を示すスコアを決定するステップと、スコアを較正するステップとをさらに含む。いくつかの実施形態においては、スコアを較正するステップは、第2の分類器によって出力された特徴量空間を使用して、スコアに関連して、k近傍法演算を実行するステップを含む。いくつかの実施形態においては、特徴量空間は、第2の試験生物試料中に存在する、第1の疾患状態および第2の疾患状態とそれぞれ関連付けられた、第1の原発組織および第2の原発組織を少なくとも示す、予測ラベルを含む。いくつかの実施形態においては、特徴量空間は、第2の試験生物試料についての正しい原発組織予測が、第1の原発組織および第2の原発組織とは異なる旨のインジケーションをさらに含む。
【0061】
いくつかの実施形態においては、スコアを較正するステップは、少なくとも1つの疾患状態が第2の試験生物試料中に存在する、存在の異なる確率を使用して、確率を正規化するステップであって、異なる確率は、第1の分類器によって決定される、ステップを含む。
【0062】
いくつかの実施形態においては、方法は、第1の分類器によって、少なくとも1つの疾患状態が、第1の試験生物試料中に存在する確率を決定するステップと、確率が、バイナリ閾値よりも大きいと決定したことに応答して、第1の試験生物試料中における少なくとも1つの疾患状態の存在を予測するステップとをさらに含む。いくつかの実施形態においては、バイナリ閾値は、90%から99.9%の間の特異度である。いくつかの実施形態においては、第2の試験生物試料は、バイナリ閾値よりも大きい、第1の分類器によって予測された確率を有する。
【0063】
いくつかの実施形態においては、第1の試験生物試料は、第2の試験生物試料である。
【0064】
いくつかの実施形態においては、方法は、第2の分類器によって、疾患状態と関連付けられた原発組織が、第2の試験生物試料中に存在する確率を決定するステップと、確率が原発組織閾値よりも大きいと決定したことに応答して、疾患状態と関連付けられた原発組織が、第2の試験生物試料中に存在することを予測するステップとをさらに含む。いくつかの実施形態においては、方法は、第2の分類器によって、異なる疾患状態と関連付けられた異なる原発組織が、第2の試験生体試料中に存在する異なる確率を決定するステップと、異なる確率が、第2の原発組織閾値よりも大きいと決定したことに応答して、異なる疾患状態と関連付けられた異なる原発組織が、第2の試験生物試料中に存在することを予測するステップとをさらに含む。
【0065】
いくつかの実施形態においては、方法は、候補原発組織閾値の複数の異なる確率について、第2の分類器の与えられた特異度率における感度率を決定することによって、第2の分類器について、与えられた疾患状態と関連付けられた原発組織閾値を決定するステップをさらに含む。いくつかの実施形態においては、感度率は、第1の分類器によって出力されたスコアを使用して決定される。いくつかの実施形態においては、感度率は、試料を階層化するために、第2の分類器によって出力されたスコアを使用して決定される。
【0066】
いくつかの実施形態においては、方法は、与えられた疾患状態について、第2の分類器の感度率と特異度率との間のトレードオフを最適化するステップをさらに含む。いくつかの実施形態においては、複数の生物試料のサブセットは、参照試料からの情報に従って、既知の原発組織のがんの存在を有するものとして、ラベル付けされる。
【0067】
様々な実施形態においては、システムは、コンピュータプロセッサと、メモリとを備え、メモリは、コンピュータプロセッサによって実行されたときに、本明細書において説明される方法のいずれかをプロセッサに実行させる、コンピュータプログラム命令を記憶する。様々な実施形態においては、非一時的コンピュータ可読媒体は、1つまたは複数のプログラムを記憶し、1つまたは複数のプログラムは、プロセッサを含む電子デバイスによって実行されたときに、本明細書において説明される方法のいずれかをデバイスに実行させる命令を含む。
【図面の簡単な説明】
【0068】
【
図1】様々な実施形態による、疾患状態を予測するための分類器を生成するための方法のフローチャートである。
【
図2A】一実施形態による、核酸試料を配列するためのデバイスのフローチャートである。
【
図2B】様々な実施形態による、配列リードを処理するための処理システムのブロック図である。
【
図3】様々な実施形態による、核酸を配列するプロセスを説明するフローチャートである。
【
図4A】様々な実施形態による、メチル化情報およびメチル化状態ベクトルを獲得するために核酸を配列する、
図3のプロセスの一部を例示する図である。
【
図4B】様々な実施形態による、対照群のためのデータ構造の生成を例示する図である。
【
図4C】様々な実施形態による、試料から異常にメチル化された断片を決定するプロセスを説明するフローチャートである。
【
図5】様々な実施形態による、参照ゲノムのブロックを例示する図である。
【
図6】様々な実施形態による、分類器を訓練するための特徴量を決定するプロセスを例示する図である。
【
図7A】様々な実施形態による、分類器の精度を示す混同行列を示す図である。
【
図7B】様々な実施形態による、分類器の精度を示す混同行列を示す図である。
【
図7C】様々な実施形態による、分類器の精度を示す混同行列を示す図である。
【
図8】様々な実施形態による、モデルベースの特徴量化のための方法のフローチャートである。
【
図9A】実施形態による、原発組織分類器の感度を例示する図である。
【
図9B】実施形態による、原発組織分類器の感度を例示する図である。
【
図10A】実施形態による、異なるがんステージにおける原発組織分類器の感度を例示する図である。
【
図10B】実施形態による、異なるがんのステージにおける原発組織分類器の感度を例示する図である。
【
図11】実施形態による、原発組織位置特定の精度を表す性能グリッドを例示する図である。
【
図12】実施形態による、異なるがんステージにおける原発組織分類器の精度および感度を例示する図である。
【
図13A】実施形態による、原発組織分類器についてのROC曲線を例示する図である。
【
図13B】実施形態による、原発組織分類器についてのROC曲線を例示する図である。
【
図14】様々な実施形態による、モデルを訓練するためのデータフロー図である。
【
図15】様々な実施形態による、不確定コール閾値(indeterminate call threshold)についての適合率-再現率曲線を例示する図である。
【
図16】様々な実施形態による、試料が疾患状態を有する確率を決定するための方法のフローチャートである。
【
図17】実施形態による、多層パーセプトロンモデルの感度におけるパフォーマンスゲインを例示する図である。
【
図18】実施形態による、原発組織を決定する際の、多層パーセプトロンモデルの実験結果を例示する図である。
【
図19】実施形態による、がんステージ別に原発組織を決定する際の、多層パーセプトロンモデルの実験結果を例示する図である。
【
図20】実施形態による、がんのタイプにわたる多層パーセプトロンモデルの実験結果を例示する図である。
【
図21】95%特異度を上回る非がん試料についてのがんタイプ尤度のグラフである。
【
図22】非がん試料および血液学的サブタイプがん試料のメチル化シーケンシングデータのグラフである。
【
図23A】1つまたは複数の実施形態による、バイナリがん分類のためのバイナリ閾値カットオフを決定するプロセスを説明するフローチャートである。
【
図23B】1つまたは複数の実施形態による、バイナリがん分類のためのバイナリ閾値カットオフを決定するための原発組織ラベルを閾値処理するプロセスを説明するフローチャートである。
【
図24A】追加の血液がんサブタイプを用いた訓練されたがん原発組織分類器の性能を示す混同行列を例示する図である。
【
図24B】追加の血液がんサブタイプを用いた訓練されたがん原発組織分類器の性能を示す混同行列を例示する図である。
【
図25A】数々のがんタイプについての閾値カットオフをがんのステージにわたって調整したがん分類器および調整しないがん分類器についてのがん予測精度を示すグラフである。
【
図25B】数々のがんタイプについての閾値カットオフをがんのステージにわたって調整したがん分類器および調整しないがん分類器についてのがん予測精度を示すグラフである。
【
図26A】アッセイパネルAの標的ゲノム領域についての、メチル化データを使用した、がん検出の感度および特異度を示す受信者操作者曲線(ROC)を示す図である。
【
図26B】アッセイパネルAの標的ゲノム領域についての、メチル化データを使用した、がんを有すると決定された対象についてのがんタイプ分類の精度を示す混同行列を示す図である。
【
図27A】アッセイパネルBの標的ゲノム領域についての、メチル化データを使用した、がん検出の感度および特異度を示す受信者操作者曲線(ROC)を示す図である。
【
図27B】アッセイパネルBの標的ゲノム領域についての、メチル化データを使用した、がんを有すると決定された対象についてのがんタイプ分類の精度を示す混同行列を示す図である。
【
図28】実施形態による、プロプライエタリがんアッセイパネル(アッセイパネルC)についての分類器性能を示す図である。
【
図29】実施形態による、アッセイパネルCについての、がん原発組織位置特定の精度を表す原発組織(TOO)混同行列を示す図である。
【
図30】実施形態による、アッセイパネルCについての、個々の腫瘍におけるステージ別の分類器感度性能を示す図である。
【
図31】様々な実施形態による、訓練されたモデルの多数の反復の原発組織精度を示す図である。
【
図32】様々な実施形態による、血液学的シグナルを2つの層に階層化するためのプロセスを例示する図である。
【発明を実施するための形態】
【0069】
その例が添付の図に例示されている、いくつかの実施形態に対する言及が、今から詳細に行われる。実行可能なところではどこでも、類似または同様の参照番号が、図中において使用され得、類似または同様の機能性を示し得ることに留意されたい。本明細書において言及される、すべての公開資料(特許出願、特許、論文、および会議議事録など)の内容は、その全体が、参照によって本明細書に組み込まれることにも留意されたい。
【0070】
I.定義
別段の定義がない限り、本明細書において使用される、すべての技術用語および科学用語は、この説明が属する技術分野の当業者によって一般的に理解される意味を有する。本明細書において使用される場合、以下の用語は、以下でそれらのものとされる意味を有する。
【0071】
「個体」という用語は、ヒトの個体を指す。「健常な個体」という用語は、がんまたは病気を有さないと推定される個体を指す。
【0072】
「対象」という用語は、DNAが解析されている個体を指す。対象は、疾患状態(たとえば、がん、がんのタイプ、またはがん原発組織)を有するかどうかを評価するために、本明細書において説明されるような、全ゲノムシーケンシングまたは標的パネルを使用してDNAが評価される、試験対象であり得る。対象は、がんまたは別の疾患を有さないことが知られている、対照群の一員であることもある。対象は、がんまたは別の疾患を有することが知られている、がんまたは他の疾患群の一員であることもある。対照群およびがん/疾患群は、標的パネルの設計または検証を支援するために使用され得る。
【0073】
「参照試料」という用語は、既知の疾患状態を有する対象から獲得された試料を指す。
【0074】
「訓練試料」という用語は、配列リードを生成するために使用されることができる、既知の疾患状態から獲得された試料を指す。訓練試料は、疾患状態分類のために利用されることができる特徴量を生成するために、確率モデルに適用され得る。
【0075】
「試験試料」という用語は、未知の疾患状態を有し得る試料を指す。
【0076】
「配列リード」という用語は、個体から獲得された試料から読み取られたヌクレオチド配列を指す。配列リードは、試料中の核酸断片から生成され得る。配列リードは、単一の元の核酸分子からの複数のアンプリコンから取り出された、複数の配列リードから生成された、コラプスされた(collapsed)配列リードであることができる。いくつかの実施形態においては、配列リードは、重複除去された配列リードであることができる。配列リードは、当技術分野において知られた様々な方法を通して、獲得されることができる。
【0077】
「疾患状態」という用語は、疾患の存在もしくは非存在、疾患のタイプ、および/または疾患原発組織を指す。たとえば、一実施形態においては、本開示は、がん(すなわち、がんの有無)、がんのタイプ、またはがん原発組織を検出するための方法、システム、および非一時的コンピュータ可読媒体を提供する。
【0078】
「原発組織」または「TOO」という用語は、疾患状態がそれから発生し得る、またはそれに由来し得る、器官、器官群、身体領域、または細胞タイプを指す。たとえば、原発組織またはがん細胞タイプの識別は、一般に、さらなる診断への適切な次のステップ、ステージを識別し、治療を決定することを可能にする。
【0079】
「メチル化」という用語は、本明細書において使用される場合、それによってメチル基がDNA分子に付加される化学的プロセスを指す。DNAの4つの塩基のうちの2つ、シトシン(「C」)およびアデニン(「A」)が、メチル化されることができる。たとえば、シトシン塩基のピリミジン環上の水素原子が、メチル基に変換されることができ、5-メチルシトシンを形成する。メチル化は、本明細書において「CpGサイト」と呼ばれる、シトシンおよびグアニンのジヌクレオチドにおいて発生する傾向がある。他の例においては、メチル化は、CpGサイトの一部ではないシトシンにおいて、またはシトシンではない別のヌクレオチドにおいて発生することがあるが、しかしながら、これらは、より稀にしか発生しない。本開示においては、分かりやすくするために、メチル化は、CpGサイトを参照して説明される。しかしながら、本明細書において説明される原理は、非シトシンのメチル化を含む、非CpGコンテキストにおけるメチル化の検出に対して等しく適用可能である。たとえば、アデニンのメチル化は、細菌、植物、哺乳類のDNAにおいて観測されているが、それに対する注目度は、かなり低い。
【0080】
そのような実施形態においては、メチル化を検出するために使用される、ウェットラボアッセイは、当技術分野でよく知られているように、本明細書において説明されたものと異なり得る。さらに、メチル化状態ベクトルは、(それらのサイトが特にCpGサイトでない場合であっても)一般にメチル化が発生した、または発生していないサイトのベクトルである要素を含み得る。その置換を用いると、本明細書において説明されるプロセスの残りは、同じであり、その結果、本明細書において説明される本発明の概念は、それらの他の形態のメチル化に適用可能である。
【0081】
「CpGサイト」という用語は、塩基の線状配列において、それの5’から3’の方向に沿って、シトシンヌクレオチドの次にグアニンヌクレオチドがある、DNA分子の領域を指す。「CpG」は、5’-C-phosphate-G-3’の省略表現であり、それは、シトシンとグアニンがただ1つのリン酸基によって分離されており、リン酸基は、DNA内のいずれか2つのヌクレオチドを互いに結び付ける。CpGジヌクレオチド内のシトシンは、5-メチルシトシンを形成するために、メチル化されることができる。
【0082】
「メチル化サイト」という用語は、メチル基が付加されることができる、DNA分子の単一のサイトを指す。「CpG」サイトは、最も一般的なメチル化サイトであるが、メチル化サイトは、CpGサイトに限定されない。たとえば、DNAメチル化は、CHGおよびCHHにおけるシトシンにおいて、発生し得、ここで、Hは、アデニン、シトシン、またはチミンである。5-ヒドロキシメチルシトシンの形でのシトシンのメチル化、およびそれの特徴量も、本明細書において開示される方法および手順を使用して、評価され得る(たとえば、参照によって本明細書に組み込まれる、特許文献1および特許文献2を参照)。「低メチル化」または「高メチル化」という用語は、(たとえば、3個、4個、5個、6個、7個、8個、9個、10個などよりも多い)多数のCpGサイトを含むDNA分子のメチル化ステータスを指し、それぞれ、CpGサイトの高いパーセンテージ(たとえば、80%、85%、90%、もしくは95%よりも大きい、または50%~100%の範囲内の他の任意のパーセンテージ)が、非メチル化され、またはメチル化される。
【0083】
「セルフリーデオキシリボ核酸」、「セルフリーDNA」、または「cfDNA」という用語は、血液、汗、尿、または唾液などの体液内を循環し、1つもしくは複数の健常細胞および/または1つもしくは複数のがん細胞に由来する、デオキシリボ核酸断片を指す。
【0084】
「循環腫瘍DNA」または「ctDNA」という用語は、死にかけている細胞のアポトーシスもしくはネクローシスなどの生物学的プロセスの結果として、血液、汗、尿、もしくは唾液などの個体の体液中に放出され得る、または生存腫瘍細胞によって活発に放出され得る、腫瘍細胞または他のタイプのがん細胞に由来する、デオキシリボ核酸断片を指す。
【0085】
II.方法の概要
図1は、様々な実施形態による、疾患状態(たとえば、疾患の有無、疾患のタイプ、および/または疾患原発組織)を予測するための分類器を生成するための複数の特徴量を識別するための方法100のフローチャートである。
図2Bは、様々な実施形態による、配列リードを処理するための処理システム200のブロック図である。いくつかの実施形態においては、処理システム200は、核酸試料からの断片の配列リードを処理するために、方法100を実行する。方法100は、以下のステップ、すなわち、配列リードを生成するステップと、複数の異なる疾患状態(たとえば、異なるがんタイプ)の各々と関連付けられた確率モデルを訓練するステップと、配列リードが、各確率モデルと関連付けられた複数の疾患状態の各々と関連付けられた試料に由来する確率に基づいて、値を決定するために、確率モデルを適用するステップと、閾値を超える値を有する配列リードのカウントを決定することによって、特徴量を識別するステップと、特徴量を使用して、分類器を生成するステップと、任意選択で、疾患状態および/または疾患状態と関連付けられた原発組織を予測するために、分類器を適用するステップとを含むが、これらに限定されない。それらの各々が、処理システム200の構成要素に関して、
図2~
図6を参照して、説明される。
図2Bに示される実施形態においては、処理システム200は、配列プロセッサ210と、機械学習エンジン220と、確率モデル230と、分類器240とを含む。
【0086】
ステップ110において、配列プロセッサ210は、配列リードの第1のセットを、疾患の有無、疾患のタイプ、および/または疾患原発組織など、既知のまたは疑わしい疾患状態を各々が有する複数の試料から生成する。たとえば、いくつかの実施形態においては、複数の試料は、がんを有することが知られている個体からのがん試料、および/または健常な個体からの非がん試料を任意の数だけ含むことができる。加えて、試料は、セルフリー核酸試料(たとえば、cfDNA)、固形腫瘍試料、および/または他のタイプの試料のいずれかを含むことができる。当業者であれば理解するように、次世代シーケンシング手順は、単一の元の核酸分子から複数の配列リードを生成し得る。したがって、いくつかの実施形態においては、配列プロセッサ210は、重複配列リードを除去し、1つまたは複数の未処理配列リードがそれから生成された、単一の元の核分子についての単一の配列リードを識別するために、重複除去、および/または配列リードをコラプスするための、知られた方法を使用することができる。
【0087】
II.A.アッセイプロトコル
図3は、実施形態による、核酸を配列するプロセス300を説明するフローチャートである。いくつかの実施形態においては、プロセス300は、
図1の方法100のステップ110の一部として、配列リードを生成するために実行される。
【0088】
ステップ310において、核酸試料(たとえば、DNAまたはRNA)が、対象から抽出される。本開示においては、DNAおよびRNAは、別段の指摘がない限り、交換可能に使用されることができる。すなわち、本明細書において説明される実施形態は、DNAおよびRNAタイプ両方の核酸配列に適用可能であることができる。しかしながら、本明細書において説明される例は、明確さおよび説明の目的で、DNAに焦点を当てることができる。試料は、全ゲノムを含む、ヒトゲノムの任意のサブセットから取り出された、核酸分子を含むことができる。試料は、血液、血漿、血清、尿、便、唾液、他のタイプの体液、またはそれらの任意の組み合わせを含むことができる。いくつかの実施形態においては、血液試料を採取するための方法(たとえば、注射器または指プリック)は、外科的処置を必要とすることができる、組織生検を獲得するための手順よりも、低侵襲性であることができる。抽出された試料は、cfDNAおよび/またはctDNAを含むことができる。対象が、がんなどの疾患状態を有する場合、対象から抽出された試料中のセルフリー核酸(たとえば、cfDNA)は、一般に、疾患状態を評価するために使用されることができる、検出可能なレベルの核酸を含む。
【0089】
ステップ315において、(たとえば、cfDNA断片を含む)抽出された核酸は、非メチル化シトシンをウラシルに変換するために処理される。いくつかの実施形態においては、方法300は、メチル化シトシンを変換することなく、非メチル化シトシンをウラシルに変換する、試料のバイサルファイト処理を使用する。たとえば、EZ DNA Methylation(商標)-Gold,EZ DNA Methylation(商標)-Direct or an EZ DNA Methylation(商標)-Lightning kit(Zymo Research Corp(アーバイン、カリフォルニア州)から入手可能)などの市販のキットが、バイサルファイト変換のために使用される。別の実施形態においては、非メチル化シトシンのウラシルへの変換は、酵素反応を使用して、達成される。たとえば、変換は、非メチル化シトシンのウラシルへの変換のための市販のキット、たとえば、APOBEC-Seq(NEBiolabs、イプスウィッチ、マサチューセッツ州)を使用することができる。
【0090】
ステップ320において、シーケンシングライブラリが、調製される。いくつかの実施形態においては、調製は、少なくとも2つのステップを含む。第1のステップにおいて、ssDNAアダプタが、ssDNAライゲーション反応を使用して、バイサルファイト変換されたssDNA分子の3’-OH末端に付加される。いくつかの実施形態においては、ssDNAライゲーション反応は、ssDNAアダプタを、バイサルファイト変換されたssDNA分子の3’-OH末端にライゲーションするために、CircLigase II(Epicentre)を使用し、アダプタの5’末端は、リン酸化され、バイサルファイト変換されたssDNAは、脱リン酸化される(すなわち、3’末端は、ヒドロキシル基を有する)。別の実施形態においては、ssDNAライゲーション反応は、ssDNAアダプタを、バイサルファイト変換されたssDNA分子の3’-OH末端にライゲーションするために、Thermostable 5’ AppDNA/RNA ligase(New England BioLabs(イプスウィッチ、マサチューセッツ州)から入手可能)を使用する。この例においては、第1のUMIアダプタは、5’末端においてアデニル化され、3’末端においてブロックされる。別の実施形態においては、ssDNAライゲーション反応は、ssDNAアダプタを、バイサルファイト変換されたssDNA分子の3’-OH末端にライゲーションするために、T4 RNA ligase(New England BioLabsから入手可能)を使用する。
【0091】
第2ステップにおいて、第2鎖DNAが、伸長反応において合成される。たとえば、ssDNAアダプタ内に含まれるプライマ配列とハイブリダイズする伸長プライマが、2本鎖のバイサルファイト変換されたDNA分子を形成するために、プライマ伸長反応において使用される。任意選択で、いくつかの実施形態においては、伸長反応は、バイサルファイト変換された鋳型鎖内のウラシル残基を読み通すことができる、酵素を使用する。
【0092】
任意選択で、第3のステップにおいて、dsDNAアダプタが、2本鎖のバイサルファイト変換されたDNA分子に付加される。その後、2本鎖のバイサルファイト変換されたDNAは、シーケンシングアダプタを付加するために、増幅される。たとえば、P5配列を含むフォワードプライマと、P7配列を含むリバースプライマとを使用する、PCR増幅が、P5配列およびP7配列を、バイサルファイト変換されたDNAに付加するために使用される。任意選択で、ライブラリ調製中に、固有分子識別子(UMI)が、アダプタライゲーションを通して、核酸分子(たとえば、DNA分子)に付加されることができる。UMIは、アダプタライゲーション中に、DNA断片の末端に付加される、短い核酸配列(たとえば、4~10個の塩基対)である。いくつかの実施形態においては、UMIは、特定のDNA断片に由来する配列リードを識別するために使用されることができる、固有タグとして機能する、縮重塩基対である。アダプタライゲーション後のPCR増幅中に、UMIは、取り付けられたDNA断片とともに複製され、それは、下流の解析において、同じ元の断片から導出される配列リードを識別する方法を提供する。
【0093】
任意選択のステップ325において、核酸(たとえば、断片)は、ハイブリダイズされることができる。(本明細書においては「プローブ」とも呼ばれる)ハイブリダイゼーションプローブが、疾患状態について情報価値のある核酸断片を標的とし、プルダウンするために、使用され得る。与えられたワークフローに対して、プローブは、DNAまたはRNAの標的(相補)鎖とアニーリング(またはハイブリダイズ)するように設計されることができる。標的鎖は、「正」の鎖(たとえば、mRNAに転写され、その後、タンパク質に翻訳される鎖)、または相補的な「負」の鎖であることができる。プローブは、長さが、10s、100s、または1000sからの塩基対の範囲であることができる。さらに、プローブは、標的領域の重複部分をカバーすることができる。
【0094】
任意選択のステップ330において、ハイブリダイズされた核酸断片が、捕捉され、濃縮される、たとえば、PCRを使用して、増幅されることができる。いくつかの実施形態においては、標的DNA配列は、ライブラリから濃縮されることができる。これは、たとえば、標的パネルアッセイが試料に対して実行されている場合に、使用される。たとえば、標的配列は、後で配列されることができる、濃縮された配列を獲得するために、濃縮されることができる。一般に、当技術分野において知られた任意の方法が、プローブハイブリダイズされた標的核酸を分離し、濃縮するために、使用されることができる。たとえば、当技術分野においてよく知られているように、ストレプトアビジンでコーティングされた表面(たとえば、ストレプトアビジンでコーティングされたビーズ)を使用した、プローブとハイブリダイズされた標的核酸の分離を容易にするために、ビオチン部分が、プローブの5’末端に付加される(すなわち、ビオチン化される)ことができる。
【0095】
ステップ335において、配列リードが、核酸試料、たとえば、濃縮された配列から生成される。シーケンシングデータは、当技術分野において知られた手段によって、濃縮されたDNA配列から獲得されることができる。たとえば、方法は、合成技術(Illumina)、パイロシーケンシング(454 Life Sciences)、イオン半導体技術(Ion Torrent sequencing)、単一分子リアルタイムシーケンシング(Pacific Biosciences)、ライゲーションによるシーケンシング(SOLiD sequencing)、ナノポアシーケンシング(Oxford Nanopore Technologies)、またはペアエンドシーケンシングを含む、次世代シーケンシング(NGS)技法を含むことができる。いくつかの実施形態においては、超並列シーケンシングが、可逆的な色素ターミネータを用いた、合成時シーケンシングを使用して、実行される。
【0096】
ステップ340において、配列プロセッサ210は、配列リードを使用して、メチル化情報を生成することができる。その後、メチル化状態ベクトルが、配列リードから決定されたメチル化情報を使用して、生成されることができる。
図4Bは、実施形態による、メチル化状態ベクトル352を獲得するための、cfDNA分子を配列する
図3のプロセス300から開始する、プロセス360を例示する図である。例として、解析システムは、この例では、3つのCpGサイトを含む、cfDNA分子312を受け取る。示されるように、cfDNA分子312の第1および第3のCpGサイトは、メチル化314されている。処理ステップ315中に、cfDNA分子312は、変換されて、変換されたcfDNA分子322を生成する。処理315中に、非メチル化されていた第2のCpGサイトは、それのシトシンのウラシルへの変換を有する。しかしながら、第1および第3のCpGサイトは、変換されない。
【0097】
変換後、シーケンシングライブラリ330が、調製され、配列され、配列リード342を生成する。解析システムは、配列リード342を参照ゲノム344にアライメントする(図示されず)。参照ゲノム344は、断片cfDNAがヒトゲノム内のどの位置に由来するかに関する、コンテキストを提供する。この単純化された例においては、解析システムは、3つのCpGサイトが、CpGサイト23、24、25(説明の便宜のために使用される恣意的な参照識別子)に相関するように、配列リード342をアライメントする。したがって、解析システムは、cfDNA分子312上のすべてのCpGサイトのメチル化ステータスと、CpGサイトがマッピングされるヒトゲノム内の位置の両方に関する情報を生成する。示されるように、メチル化された配列リード342上のCpGサイトは、シトシンとして読み取られる。この例においては、シトシンは、配列リード342において、第1および第3のCpGサイトにだけ出現し、これは、元のcfDNA分子内における第1および第3のCpGサイトがメチル化されていたと、人が推測することを可能にする。一方、第2のCpGサイトは、チミンとして読み取られ(Uは、配列リードプロセス中に、Tに変換される)、したがって、元のcfDNA分子内においては、第2のCpGサイトが非メチル化されていたと、人は推測することができる。これら2つの情報、すなわち、メチル化ステータスおよび位置を用いて、解析システム200は、断片cfDNA312についてのメチル化状態ベクトル352を生成する。この例においては、結果として得られるメチル化状態ベクトル352は、<M23、U24、M25>であり、Mは、メチル化されたCpGサイトに対応し、Uは、非メチル化されたCpGサイトに対応し、下付き文字の数字は、参照ゲノム内における、各CpGサイトの位置に対応する。
【0098】
II.B.異常な断片の識別
いくつかの実施形態においては、解析システムは、試料のメチル化状態ベクトルを使用して、試料についての異常な断片を決定する。たとえば、試料中の各核酸分子または断片について、解析システムは、核酸分子に対応するメチル化状態ベクトルを使用して、健常試料からの予想されるメチル化状態ベクトルと比べて、核酸分子または断片が、異常にメチル化された分子または断片であるかどうかを(それから取り出された配列リードの解析を介して)決定する。一実施形態においては、解析システムは、(たとえば、参照によって本明細書に組み込まれる、特許文献3において説明されるように)各メチル化状態ベクトルについて、そのメチル化状態ベクトルを観測する確率、または健常対照群においてはさらに可能性が低い他のメチル化状態ベクトルを観測する確率を記述する、p値スコアを計算する。p値スコアを計算するためのプロセスは、以下のセクションII.B.i.P値フィルタリングにおいても説明される。解析システムは、閾値を下回るp値スコアを有するメチル化状態ベクトルを有する核酸分子または断片の配列リードを、異常な断片であると決定し、任意選択で、フィルタリングによって除去し得る。別の実施形態においては、解析システムは、さらに、何らかの閾値を超えるパーセンテージのメチル化または非メチル化を有する、少なくとも何らかの数のCpGサイトを有する断片を、それぞれ、高メチル化断片および低メチル化断片として、ラベル付けする。高メチル化断片または低メチル化断片は、極端なメチル化を有する異常な断片(UFXM:unusual fragment with extreme methylation)と呼ばれることもある。他の実施形態においては、解析システムは、異常な分子または断片を決定するための、様々な他の確率モデルを実施し得る。他の確率モデルの例は、混合モデル、深層確率モデルなどを含む。いくつかの実施形態においては、解析システムは、異常な断片を識別するための、以下で説明されるプロセスの任意の組み合わせを使用し得る。識別された異常な断片を用いて、解析システムは、他のプロセスにおいて使用するために、たとえば、がん分類器を訓練および配備する際に使用するために、試料についてのメチル化状態ベクトルのセットをフィルタリングし得る。
【0099】
II.B.I.P値フィルタリング
一実施形態においては、解析システムは、健常対照群における断片からのメチル化状態ベクトルと比較される、各メチル化状態ベクトルについてのp値スコアを計算する。p値スコアは、健常対照群において、そのメチル化状態ベクトルと一致するメチル化ステータスを有する核酸分子を観測する確率を記述する。DNA断片が異常にメチル化されていると決定するために、解析システムは、大多数の断片が正常にメチル化されている、健常対照群を使用する。異常な断片を決定するための、この確率論的解析を行うとき、決定は、健常対照群を構成する対照者の群と比較して、重みを保有する。健常対照群の堅牢性を保証するために、解析システムは、DNA断片を含む試料を調達するための、何らかの閾値数の健常な個体を選択し得る。以下の
図4Bは、解析システムがそれを用いてp値スコアを計算することができる、健常対照群のためのデータ構造を生成する方法を説明する。
図4Cは、生成されたデータ構造を用いて、p値スコアを計算する方法を説明する。
【0100】
図4Bは、実施形態による、健常対照群のためのデータ構造を生成するプロセス400を説明するフローチャートである。健常対照群データ構造を作成するために、解析システムは、複数の健常な個体から、複数のDNA断片(たとえば、cfDNA)を受け取る。メチル化状態ベクトルは、たとえば、プロセス360を介して、各断片について識別される。
【0101】
各断片のメチル化状態ベクトルを用いて、解析システムは、メチル化状態ベクトルをCpGサイトのストリングに細分化405する。一実施形態においては、解析システムは、結果として得られるストリングが、すべて、与えられた長さよりも小さくなるように、メチル化状態ベクトルを細分化405する。たとえば、3以下の長さのストリングに細分化され得る、長さ11のメチル化状態ベクトルは、長さ3の9個のストリング、長さ2の10個のストリング、および長さ1の11個のストリングをもたらす。別の例においては、4以下の長さのストリングに細分化される、長さ7のメチル化状態ベクトルは、長さ4の4個のストリング、長さ3の5個のストリング、長さ2の6個のストリング、および長さ1の7個のストリングをもたらす。メチル化状態ベクトルが、指定されたストリング長さよりも短い、またはそれと同じ長さである場合、メチル化状態ベクトルは、ベクトルのCpGサイトのすべてを含む、単一のストリングに変換され得る。
【0102】
解析システム200は、ベクトル内における各可能なCpGサイトおよびメチル化状態の可能性について、指定されたCpGサイトをストリング内の第1のCpGサイトとして有し、メチル化状態のその可能性を有する、対照群内に存在するストリングの数をカウントすることによって、ストリングを集計410する。たとえば、与えられたCpGサイトにおいて、3のストリング長を考えると、23または8個の可能なストリング構成が、存在する。その与えられたCpGサイトにおいて、8個の可能なストリング構成の各々について、解析システムは、各メチル化状態ベクトル可能性の発生が、対照群において何回生じたかを集計410する。この例を続けると、これは、参照ゲノム内の各開始CpGサイトxについて、以下の量、すなわち、<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,Ux+2>を集計することを含み得る。解析システムは、各開始CpGサイトおよびストリング可能性についての集計されたカウントを記憶する、データ構造を作成415する。
【0103】
ストリング長に上限を設定することには、いくつかの利益が、存在する。第1に、ストリングについての最大長に応じて、解析システムによって作成されるデータ構造のサイズは、劇的にサイズを増加させることができる。たとえば、4の最大ストリング長は、あらゆるCpGサイトが、長さ4のストリングのために集計する少なくとも24個の数を有することを意味する。最大ストリング長を5に増加させることは、あらゆるCpGサイトが、集計する追加の24または16個の数を有することを意味し、直前のストリング長と比較して、集計する数(および必要とされるコンピュータメモリ)を2倍にする。ストリングサイズを減少させることは、計算および記憶に関して、データ構造作成および実行(たとえば、以下で説明されるような後のアクセスのための使用)を、妥当なものに保つ助けとなる。第2に、最大ストリング長を制限することの統計的な配慮は、ストリングカウントを使用する下流モデルの過剰適合を回避することである。CpGサイトの長いストリングが、生物学的に、結果(たとえば、がんの存在を予測する異常性の予測)に対して強い影響を有さない場合、CpGサイトの大きなストリングに基づいて、確率を計算することは、それが、利用可能ではないことがある、かなりの量のデータを必要とし、したがって、モデルが適切に動作するにはかなりの量のデータが疎らになりすぎるので、問題であることができる。たとえば、前の100個のCpGサイトを条件として、異常/がんの確率を計算することは、長さ100のデータ構造内のストリングのカウントを必要し、理想的には、前の100個のメチル化状態と正確に一致するいくつかを必要とする。長さ100のストリングの疎らなカウントしか利用可能ではない場合、試験試料中の100の長さの与えられたストリングが、異常であるかどうかを決定するのに不十分なデータしか存在しない。
【0104】
図4Cは、実施形態による、個体からの異常にメチル化された断片を識別するためのプロセス420を説明するフローチャートである。プロセス420においては、解析システムは、対象のcfDNA断片から、メチル化状態ベクトル352を生成する。解析システムは、各メチル化状態ベクトルを、以下のように処理する。
【0105】
与えられたメチル化状態ベクトルについて、解析システムは、メチル化状態ベクトルにおけるのと同じ開始CpGサイトおよび同じ長さ(すなわち、CpGサイトのセット)を有する、メチル化状態ベクトルのすべての可能性を列挙430する。各メチル化状態は、一般に、メチル化または非メチル化のどちらかであるので、各CpGサイトには、実質的に2つの可能な状態が、存在し、したがって、メチル化状態ベクトルの異なる可能性のカウントは、長さnのメチル化状態ベクトルが、メチル化状態ベクトルの2n個の可能性と関連付けられるように、2の累乗に依存する。1つまたは複数のCpGサイトについて、不確定な状態を含む、メチル化状態ベクトルを有する場合、解析システムは、観測された状態を有するCpGサイトだけを考慮して、メチル化状態ベクトルの可能性を列挙430し得る。
【0106】
解析システム200は、健常対照群データ構造にアクセスすることによって、識別された開始CpGサイトおよびメチル化状態ベクトル長についての、メチル化状態ベクトルの各可能性を観測する確率を計算440する。一実施形態においては、与えられた可能性を観測する確率を計算することは、同時確率計算をモデル化するために、マルコフ連鎖確率を使用する。他の実施形態においては、マルコフ連鎖確率以外の計算方法が、メチル化状態ベクトルの各可能性を観測する確率を決定するために、使用される。
【0107】
解析システムは、各可能性についての計算された確率を使用して、メチル化状態ベクトルについてのp値スコアを計算450する。一実施形態においては、これは、問題のメチル化状態ベクトルと一致する可能性に対応する、計算された確率を識別することを含む。具体的には、これは、メチル化状態ベクトルと同じCpGサイトのセットを、または同じく、同じ開始CpGサイトおよび長さを有する可能性である。解析システムは、p値スコアを生成するために、識別された確率以下の確率を有する、すべての可能性の計算された確率を合計する。
【0108】
このp値は、断片のメチル化状態ベクトル、または健常対照群においてはさらに可能性が低い他のメチル化状態ベクトルを観測する確率を表す。したがって、低いp値スコアは、一般に、健常な個体においては稀であり、健常対照群と比べて、断片が異常にメチル化されているとラベル付けされる原因となる、メチル化状態ベクトルに対応する。高いp値スコアは、一般に、相対的な意味で、健常な個体に存在すると予想される、メチル化状態ベクトルに関連する。たとえば、健常対照群が、非がん群である場合、低いp値は、断片が、非がん群と比べて異常メチル化されており、したがって、試験対象におけるがんの存在をおそらく示していることを示す。
【0109】
上述のように、解析システムは、各々が試験試料におけるcfDNA断片を表す、複数のメチル化状態ベクトルの各々について、p値スコアを計算する。断片のうちのどれが、異常にメチル化されているかを識別するために、解析システムは、それらのp値スコアに基づいて、メチル化状態ベクトルのセットをフィルタリング460し得る。一実施形態においては、フィルタリングは、p値スコアを閾値と比較し、閾値を下回る断片だけを保持することによって、実行される。この閾値p値スコアは、0.1、0.01、0.001、または0.0001などのオーダであることができる。
【0110】
プロセスからの例示的な結果に従うと、解析システムは、訓練に参加したがんを有さない参加者について、(1500~12000断片の範囲で)2800断片という異常メチル化パターンの中央値を、また訓練に参加したがんを有する参加者について、(1200~220000断片の範囲で)3000断片という異常メチル化パターンの中央値をもたらした。異常メチル化パターンを有する断片のこれらのフィルタリングされたセットは、以下で説明されるような下流解析のために、使用され得る。
【0111】
一実施形態においては、解析システムは、メチル化状態ベクトルの可能性を決定し、p値を計算するために、スライディングウィンドウを使用455する。メチル化状態ベクトル全体についての可能性を列挙し、p値を計算する代わりに、解析システムは、連続するCpGサイトのウィンドウにわたってだけ、可能性を列挙し、p値を計算し、ウィンドウは、少なくともいくつかの断片よりも(CpGサイトの)長さが短い(さもなければ、ウィンドウは、目的を果たさない)。ウィンドウ長は、静的であり得、ユーザによって決定され得、動的であり得、または他の方法で選択され得る。
【0112】
ウィンドウより大きいメチル化状態ベクトルについてのp値を計算する際、ウィンドウは、ウィンドウ内のベクトルから、ベクトル内の第1のCpGサイトから開始する、連続したCpGサイトのセットを識別する。解析システムは、第1のCpGサイトを含むウィンドウについて、p値スコアを計算する。その後、解析システムは、ウィンドウをベクトル内の第2のCpGサイトまで「スライド」し、第2のウィンドウについて、別のp値スコアを計算する。したがって、ウィンドウサイズがl、メチル化ベクトル長がmの場合、各メチル化状態ベクトルは、m-l+1個のp値スコアを生成する。ベクトルの各部分についてのp値計算を完了した後、すべてのスライディングウィンドウからの最も低いp値スコアが、メチル化状態ベクトルについての全体的なp値スコアとして取得される。別の実施形態においては、解析システムは、全体的なp値スコアを生成するために、メチル化状態ベクトルについてのp値スコアを集約する。
【0113】
スライディングウィンドウを使用することは、メチル化状態ベクトルの列挙される可能性の数と、使用しなければ実行される必要のある、それらの対応する確率計算を減少させる助けとなる。現実的な例を挙げると、断片は、54個を超えるCpGサイトを有することが可能である。単一のpスコアを生成するために、254(約1.8×1016)個の可能性について、確率を計算する代わりに、解析システムは、代わりに、(たとえば)サイズ5のウィンドウを使用することができ、これは、その断片についてのメチル化状態ベクトルの50個のウィンドウの各々について、50回のp値計算をもたらす。50回の計算の各々は、メチル化状態ベクトルの25(32)個の可能性を列挙し、その合計は、50×25(1.6×103)回の確率計算をもたらす。これは、異常断片の正確な識別に対して意味のあるヒットを有さずに実行される計算の大幅な低減をもたらす。
【0114】
不確定な状態を有する実施形態においては、解析システムは、断片のメチル化状態ベクトルにおいて不確定な状態を有するCpGサイトをサムアウト(sum out)した、p値スコアを計算し得る。解析システムは、不確定な状態を排除した、メチル化状態ベクトルのすべてのメチル化状態との一致を有する、すべての可能性を識別する。解析システムは、識別された可能性の確率の合計として、メチル化状態ベクトルに確率を割り当て得る。例として、解析システムは、メチル化状態ベクトル<M1,M2,U3>および<M1,U2,U3>の可能性についての確率の合計として、メチル化状態ベクトル<M1,I2,U3>の確率を計算するが、そのわけは、CpGサイト1および3についてのメチル化状態が、観測され、それが、CpGサイト1および3における断片のメチル化状態と一致するからである。不確定な状態を有するCpGサイトをサムアウトする方法は、最大で2iの可能性の確率の計算を使用し、iは、メチル化状態ベクトル内の不確定な状態の数を示す。追加の実施形態においては、動的プログラミングアルゴリズムが、1つまたは複数の不確定な状態を有するメチル化状態ベクトルの確率を計算するために、実施され得る。有利なことに、動的プログラミングアルゴリズムは、線形計算時間で動作する。
【0115】
一実施形態においては、確率および/またはp値スコアを計算する計算負荷は、少なくともいくつかの計算をキャッシュすることによって、さらに低減され得る。たとえば、解析システムは、メチル化状態ベクトル(またはそれのウィンドウ)の可能性についての確率の計算を、一時的または永続的メモリにキャッシュし得る。他の断片が、同じCpGサイトを有する場合、可能性確率をキャッシュすることは、基礎となる可能性確率を再計算することを必要としない、pスコア値の効率的な計算を可能にする。同じく、解析システムは、ベクトル(またはそれのウィンドウ)からのCpGサイトのセットと関連付けられたメチル化状態ベクトルの可能性の各々について、p値スコアを計算し得る。解析システムは、同じCpGサイトを含む他の断片のp値スコアを決定する際に使用するために、p値スコアをキャッシュし得る。一般に、同じCpGサイトを有するメチル化状態ベクトルの可能性のp値スコアは、CpGサイトの同じセットからの可能性のうちの異なる1つのp値スコアを決定するために、使用され得る。
【0116】
II.B.II.高メチル化断片および低メチル化断片
いくつかの実施形態においては、解析システムは、異常な断片を、閾値数を超えるCpGサイトを有し、閾値パーセンテージを超えるCpGサイトがメチル化されている、または閾値パーセンテージを超えるCpGサイトが非メチル化されている断片として決定し、解析システムは、そのような断片を、高メチル化断片または低メチル化断片として識別する。断片(またはCpGサイト)の長さについての例示的な閾値は、3より大きい、4より大きい、5より大きい、6より大きい、7より大きい、8より大きい、9より大きい、10より大きいなどを含む。メチル化または非メチル化の例示的なパーセンテージ閾値は、80%より大きい、85%より大きい、90%より大きい、もしくは95%より大きい、または50%~100%の範囲内の他の任意のパーセンテージを含む。
【0117】
II.C.例示的なシーケンサおよび解析システム
図2Aおよび
図2Bは、一実施形態による、核酸試料を配列するためのシステムおよびデバイスのフローチャートである。この例示的なフローチャートは、シーケンサ270および解析システム200などのデバイスを含む。シーケンサ270および解析システム200は、本明細書において説明されるプロセス内の1つまたは複数のステップを実行するために、連携して動作し得る。
【0118】
様々な実施形態においては、シーケンサ270は、濃縮された核酸試料260を受け取る。
図2Aに示されるように、シーケンサ270は、(たとえば、シーケンシングを開始する、またはシーケンシングを終了する)特定のタスクとのユーザ対話を可能にする、グラフィカルユーザインターフェース275、ならびに濃縮された断片試料を含むシーケンシングカートリッジを装着するための、および/またはシーケンシングアッセイを実行するための必要な緩衝液を装着するための、1つまたは複数の装着ステーション280を含むことができる。したがって、シーケンサ270のユーザが、必要な試薬およびシーケンシングカートリッジを、シーケンサ270の装着ステーション280にひとたび提供すると、ユーザは、シーケンサ270のグラフィカルユーザインターフェース275と対話することによって、シーケンシングを開始することができる。ひとたび開始されると、シーケンサ270は、シーケンシングを実行し、核酸試料260から濃縮された断片の配列リードを出力する。
【0119】
いくつかの実施形態においては、シーケンサ270は、解析システム200と通信可能に結合される。解析システム200は、1つもしくは複数のCpGサイトにおけるメチル化ステータスの評価、バリアントコーリング、または品質管理など、様々な応用例のために配列リードを処理するために使用される、いくつかの数のコンピューティングデバイスを含む。シーケンサ270は、配列リードを、BAMファイルフォーマットで、解析システム200に提供し得る。解析システム200は、無線、有線、または無線と有線の組み合わせの通信技術を通して、シーケンサ270に通信可能に結合されることができる。一般に、解析システム200は、プロセッサと、プロセッサによって実行されたときに、プロセッサに、配列リードを処理させ、または本明細書において開示される方法もしくはプロセスのいずれかの1つもしくは複数のステップを実行させる、コンピュータ命令を記憶する、非一時的コンピュータ可読記憶媒体とを備えるように構成される。
【0120】
いくつかの実施形態においては、配列リードは、アライメント位置情報を決定するために、当技術分野において知られた方法を使用して、参照ゲノムにアライメントされ得る。アライメント位置は、一般に、与えられた配列リードの開始ヌクレオチド塩基および終了ヌクレオチド塩基に対応する、参照ゲノム内の領域の開始位置および終了位置を記述し得る。メチル化シーケンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従って、配列リードに含まれる最初のCpGサイトおよび最後のCpGサイトを示すように、一般化され得る。アライメント位置情報は、メチル化ステータス、および与えられた配列リード内のすべてのCpGサイトの位置をさらに示し得る。参照ゲノム内の領域は、遺伝子または遺伝子のセグメントと関連付けられ得、そのため、解析システム200は、配列リードにアライメントした、1つまたは複数の遺伝子を用いて、配列リードをラベル付けし得る。一実施形態においては、断片の長さ(またはサイズ)は、開始位置と終了位置から決定される。
【0121】
様々な実施形態においては、たとえば、ペアエンドシーケンシングプロセスが、使用されるとき、配列リードは、R_1およびR_2と呼ばれる、リードペアから構成される。たとえば、第1のリードR_1は、2本鎖DNA(dsDNA)分子の第1の末端から配列され得、一方、第2のリードR_2は、2本鎖DNA(dsDNA)の第2の末端から配列され得る。したがって、第1のリードR_1および第2のリードR_2のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と矛盾なく(たとえば、反対向きに)アライメントされ得る。リードペアR_1およびR_2から取り出されたアライメント位置情報は、第1のリード(たとえば、R_1)の末端に対応する、参照ゲノム内の開始位置と、第2のリード(たとえば、R_2)の末端に対応する、参照ゲノム内の終了位置とを含み得る。言い換えると、参照ゲノム内の開始位置および終了位置は、核酸断片が対応する、参照ゲノム内の可能性の高い位置を表す。一実施形態においては、リードペアR_1とR_2は、断片になるように組み立てられることができ、断片は、その後の解析および/または分類のために使用される。SAM(配列アライメントマップ)フォーマットまたはBAM(バイナリ)フォーマットを有する出力ファイルが、さらなる解析のために、生成および出力され得る。
【0122】
ここで
図2Bを参照すると、
図2Bは、一実施形態による、DNA試料を処理するための解析システム200のブロック図である。解析システムは、DNA試料を解析する際に使用するための、1つまたは複数のコンピューティングデバイスを実施する。解析システム200は、配列プロセッサ210と、配列データベース215と、モデルデータベース225と、1つもしくは複数の確率モデル230および/または1つもしくは複数の分類器240と、パラメータデータベース235とを含む。いくつかの実施形態においては、解析システム200は、本明細書において開示された方法またはプロセスにおける1つまたは複数のステップを実行する。
【0123】
配列プロセッサ210は、試料からの断片についてのメチル化状態ベクトルを生成する。断片上の各CpGサイトにおいて、配列プロセッサ210は、参照ゲノム内の断片の位置、断片内のCpGサイトの数、および断片内の各CpGサイトのメチル化状態、すなわち、メチル化か、非メチル化か、それとも不確定かを指定する、各断片についてのメチル化状態ベクトルを、
図4Bのプロセス360を介して生成する。配列プロセッサ210は、断片についてのメチル化状態ベクトルを、配列データベース215内に記憶し得る。配列データベース215内のデータは、試料からのメチル化状態ベクトルが、互いに関連付けられるように、組織化され得る。
【0124】
さらに、多数の異なるモデル230が、モデルデータベース225内に記憶され、または試験試料とともに使用するために取り出され得る。一例においては、モデルは、異常な断片から導出された特徴量ベクトルを使用して、試験試料についてのがん予測を決定するための、訓練されたがん分類器240である。がん分類器の訓練および使用は、本明細書の別の箇所において説明される。解析システム200は、1つもしくは複数のモデル230、および/または1つもしくは複数の分類器240を訓練し、様々な訓練された様々なパラメータをパラメータデータベース235内に記憶し得る。解析システム200は、モデル230および/または分類器を、関数とともに、モデルデータベース225内に記憶する。
【0125】
推論中、機械学習エンジン220は、出力を返すために、1つまたは複数のモデル230および/または分類器240を使用する。機械学習エンジンは、パラメータデータベース235からの訓練されたパラメータとともに、モデルデータベース225内のモデル230および/または分類器240にアクセスする。各モデルに従って、機械学習エンジン220は、モデルにとって適切な入力を受け取り、受け取られた入力、パラメータ、および入力と出力を結び付ける各モデルの関数に基づいて、出力を計算する。いくつかの使用事例においては、機械学習エンジン220は、モデルからの計算された出力に対する信頼性と相関関係があるメトリックをさらに計算する。他の使用事例においては、機械学習エンジン220は、モデルにおいて使用するための他の中間的な値を計算する。
【0126】
II.B.参照ゲノムのブロック
図5は、一実施形態による参照ゲノムのブロックの図である。配列プロセッサ210は、参照ゲノム(または、参照ゲノムのサブセット)を、たとえば標的メチル化アッセイを含むユースケースのために1つまたは複数のステージにおいて区分することができる。たとえば、配列プロセッサ210は、参照ゲノムをCpGサイトのブロックに分離する。各ブロックは、閾値、たとえば値の中でもとりわけ、200塩基対(bp)、300bp、400bp、500bp、600bp、700bp、800bp、900bp、または1,000bp超を超える2つの隣接するCpGサイト間の分離があるとき画定される。したがって、ブロックは、塩基対のサイズが異なり得る。各ブロックについて、配列プロセッサ210は、ある長さ、たとえば値の中でもとりわけ、500bp、600bp、700bp、800bp、900bp、1,000bp、1,100bp、1,200bp、1,300bp、1,400bp、または1,500bpのウィンドウにブロックを細分することができる。他の実施形態では、ウィンドウは、長さが200bpから10キロ塩基対(kbp)、500bpから2kbp、または約1kbpとすることができる。ウィンドウ(たとえば、隣接するもの)は、いくつかの塩基対またはその長さのあるパーセンテージ、たとえば値の中でもとりわけ、10%、20%、30%、40%、50%、または60%だけ重なり合うことができる。ウィンドウは、閾値、たとえば値の中でもとりわけ、200塩基対(bp)、300bp、400bp、500bp、600bp、700bp、800bp、900bp、または1,000bp超を超える2つの隣接するCpGサイト間で分割され得る。
【0127】
配列プロセッサ210は、ウィンドウ処理を使用してDNA断片から導出された配列リードを解析することができる。特に、配列プロセッサ210は、ブロックをウィンドウごとにスキャンし、各ウィンドウ内で断片を読み取る。断片は、組織および/または高シグナルcfDNAに起源があることができる。高シグナルcfDNA試料は、バイナリ分類モデルによって、がんステージによって、または別のメトリックによって決定することができる。参照ゲノムを(たとえば、ブロックおよびウィンドウを使用して)区分することにより、配列プロセッサ210は、計算上の並列化を容易にすることができる。さらに、配列プロセッサ210は、CpGサイトを含む塩基対のセクションを標的にし、一方、CpGサイトを含まない他のセクションを飛ばすことによって、参照ゲノムを処理するための計算リソースを削減することができる。
【0128】
III.モデルベースの特徴量エンジニアリングおよび分類
III.A.モデルベースの特徴量エンジニアリング
一実施形態によれば、
図8に示されているように、本開示は、疾病状態の分類に有用な特徴量を導出するためのモデルベースの特徴量エンジニアリングを対象とする。本明細書の他所に記載されているように、疾病状態は、疾病、疾病のタイプ、および/または原発組織の有無とすることができる。たとえば、本明細書に記載されているように、疾病状態は、がんの有無、がんのタイプ、および/またはがん原発組織とすることができる。がんのタイプおよび/またはがん原発組織は、がんのタイプの中でもとりわけ、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盤の尿路上皮がん、尿路上皮以外の腎がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道がん、胃がん、肝細胞から生じた肝胆がん、肝細胞以外の細胞から生じた肝胆がん、膵がん、上部消化管の扁平細胞がん、扁平以外の上部消化管がん、頭頸部がん、肺腺癌、小細胞肺がん、扁平細胞肺がん、および腺癌または小細胞肺がん以外のがんなど肺がん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、ならびに白血病を含むグループから選択することができる。
【0129】
ステップ810では、本明細書の他所に記載されているように、第1の複数の配列リードが第1の疾病状態を有する第1の参照試料から生成され、第2の複数の配列リードが第2の疾病状態を有する第2の参照試料から生成される。第1の複数の配列リードおよび/または第2の複数の配列リードは、10,000超、50,000超、100,000超、200,000超、500,000超、1,000,000超、2,000,000超、5,000,000超、または10,000,000超の配列リードとすることができる。本明細書で使用されるとき、「参照試料」は、既知の疾病状態を有する対象から得られた試料である。いくつかの実施形態では、1つまたは複数の既知の疾病状態を有する1つまたは複数の参照試料を使用し、1つまたは複数の確率モデルを訓練することができ、次いでこれを使用し、未知の試験試料の疾病状態を分類するための特徴量を導出することができる。試料は、ゲノムDNA(gDNA)試料またはセルフリーDNA(cfDNA)試料とすることができる。参照試料は、血液、血漿、血清、尿、糞、および唾液試料とすることができる。あるいは、参照試料は、全血、血液分画、組織生検試料、胸膜滲出液、心膜液、脳脊髄液、および腹腔液とすることができる。いくつかの実施形態では、第1の参照試料は、がんを有することが知られている対象から得られ、第2の参照試料は、健常な対象または非がん対象から得られる。いくつかの実施形態では、第1の参照試料は、第1のタイプのがん(たとえば、肺がん)を有することが知られている対象から得られ、第2の参照試料は、第2のタイプのがん(たとえば、乳がん)を有することが知られている対象から得られる。さらに他の実施形態では、第1の参照試料は、第1の疾病原発組織(たとえば、肺疾病)を有することが知られている対象から得られ、第2の参照試料は、第2の疾病状態原発組織(たとえば、肝疾病)から得られる。
【0130】
ステップ815では、機械学習エンジン220は、(ステップ110で生成された)第1の複数の配列リードおよび第2の複数の配列リードからそれぞれ第1の確率モデル230および第2の確率モデル230を訓練し、各確率モデルは、1つまたは複数の可能な疾病状態のうちの異なる疾病状態に関連付けられる。先に記載されているように、疾病状態は、がんの有無、がんのタイプ、および/またはがん原発組織とすることができる。様々な実施形態では、訓練データは、K倍交差検証のためにK個のサブセット(フォールド)に分割される。フォールドは、要因の中でもとりわけ、がん/非がんステータス、原発組織、がんステージ、年齢(たとえば、10歳ごと(10-year buckets)にグループ化)、性別、民族、および喫煙ステータスについてバランスをとることができる。フォールドのK-1からのデータは、確率モデルのための訓練データとして使用され得、持ちこたえたフォールドは、試験データとして使用され得る。
【0131】
機械学習エンジン220は、確率モデル230のそれぞれを第1の複数および第2の複数の配列リードにそれぞれフィッティングすることによって、第1および第2の疾病状態についてそれぞれ第1および第2の確率モデル230を訓練する。たとえば、一実施形態では、第1の確率モデルは、がんを有することが知られている対象からの1つまたは複数の試料から導出された第1の複数の配列リードを使用してフィッティングされ、第2の確率モデルは、健常な対象または非がん対象からの1つまたは複数の試料から導出された第2の複数の配列リードを使用してフィッティングされる。他の実施形態では、第1の確率モデルは、第1のタイプのがんまたは第1の原発組織について訓練することができ、第2の確率モデルは、第2のタイプのがんまたは第2の原発組織について訓練することができる。当業者なら理解するように、任意の数の疾病状態確率モデルを、いくつかの可能な疾病状態のいずれか1つを有する対象からとられた1つまたは複数の試料から導出された配列リードを使用して訓練することができる。たとえば、いくつかの実施形態では、本明細書の他所に記載されているように、追加のがん特有の確率モデル(すなわち、追加のタイプのがんおよび/または原発組織モデルについて)を、第3、第4、第5、第6、第7、第8、第9、第10など(たとえば、最大20、30以上)の特定のタイプのがんについて訓練し、訓練セットから配列リード、または未知のがんタイプが、別のがんタイプ(または、がん原発組織)ではなく1つのがんタイプ(または、がん原発組織)から導出される可能性がより高い確率を決定するために使用することができる。
【0132】
本明細書で使用されるとき、「確率モデル」は、リード上の1つまたは複数のサイトにおけるメチル化ステータスに基づいて確率を配列リードに割り当てることが可能な任意の数学モデルである。訓練中、機械学習エンジン220は、既知の疾病を有する対象からの1つまたは複数の試料から導出された配列リードをフィッティングし、メチル化情報またはメチル化状態ベクトル(たとえば、
図3~
図4に関連して先に記載されている)を利用して疾病状態を示す配列リード確率を決定するために使用することができる。特に、一実施形態では、機械学習エンジン220は、配列リード内の各CpGサイトについてメチル化の観測された比率を決定する。メチル化の比率は、CpGサイト内でメチル化されている塩基対の割合またはパーセンテージを表す。訓練された確率モデル230は、メチル化比率の積によってパラメータ化することができる。一般に、試料からの配列リードに確率を割り当てるための任意の知られている確率モデルを使用することができる。たとえば、確率モデルは、核酸断片上のあらゆるサイト(たとえば、CpGサイト)にメチル化の確率が割り当てられる二項モデル、または核酸断片上の1つのサイトにおけるメチル化が1つもしくは複数の他のサイトにおけるメチル化から独立していると仮定される相異なるメチル化確率によって各CpGのメチル化が指定される独立サイトモデルとすることができる。
【0133】
いくつかの実施形態では、確率モデル230は、各CpGサイトにおけるメチル化の確率が、配列リードまたは配列リードが導出される核酸分子内のいくつかの数の先行するCpGサイトにおけるメチル化状態に依存するマルコフモデルである。たとえば2019年3月13日に出願された「Anomalous Fragment Detection and Classification」という名称の特許文献4を参照されたい。
【0134】
いくつかの実施形態では、確率モデル230は、基礎となるモデルからの成分の混合物を使用してフィッティングされる「混合モデル」である。たとえば、いくつかの実施形態では、混合成分は、各CpGサイトにおけるメチル化(たとえば、メチル化の比率)が他のCpGサイトにおけるメチル化から独立していると仮定される複数の独立サイトモデルを使用して決定することができる。独立サイトモデルを使用すると、配列リードまたはそれが導出される核酸分子に割り当てられる確率は、配列リードメチル化されている各CpGサイトにおけるメチル化確率、および配列リードが非メチル化されている各CpGサイトにおける、1からメチル化確率を引いたものの積である。この実施形態によれば、機械学習エンジン220は、混合成分のそれぞれのメチル化の比率を決定する。混合モデルは、それぞれがメチル化の比率の積に関連付けられる混合成分の合計によってパラメータ化される。n個の混合成分の確率モデルPrは、次式として表すことができる。
【0135】
【0136】
入力断片について、mi∈{0,1}は、参照ゲノムの位置iにおける断片の観測されたメチル化ステータスを表し、0は非メチル化を示し、1はメチル化を示す。各混合成分kに対する部分的割り当ては、fkであり、ここで、fk≧0および
【0137】
【0138】
fk=1である。混合成分kのCpGサイト内の位置iにおけるメチル化の確率は、βkiである。したがって、非メチル化の確率は、1-βkiである。混合成分の数nは、1、2、3、4、5、6、7、8、9、10などとすることができる。
【0139】
いくつかの実施形態では、機械学習エンジン220は、正則化強度rを有する各メチル化確率に適用される正則化ペナルティの対象となる、疾病状態から導出されるすべての断片の対数尤度を最大化するパラメータのセット{βki,fk}を識別するために、最大尤度推定を使用して確率モデル230をフィッティングする。N個の合計断片についての最大化された量は、次式として表すことができる。
【0140】
【0141】
当業者なら理解するように、確率モデルをフィッティングするために、または参照試料から導出されたすべての配列リードの対数尤度を最大化するパラメータを識別するために、他の手段を使用することができる。たとえば、一実施形態では、各パラメータには単一の値が割り当てられず、その代わりに、各パラメータが分布に関連付けられるベイジアンフィッティング(たとえば、マルコフ連鎖モンテカルロを使用する)が使用される。他の実施形態では、パラメータ値に対する尤度の勾配(または、対数尤度)が、最適に向かってパラメータ空間に踏み込むために使用される勾配ベースの最適化が使用される。他の実施形態では、潜在パラメータのセット(各断片が導出される混合成分の識別など)が以前のモデルパラメータ下でそれらの期待値に設定され、次いで、これらの潜在な変数の仮定値に対する尤度条件命題を最大化するためにモデルのパラメータが割り当てられる期待値最大化。次いで、この2ステップ処理が収束するまで繰り返される。
【0142】
ステップ820では、複数の訓練配列リードが訓練試料から生成される。複数の訓練配列リードは、10,000超、50,000超、100,000超、200,000超、500,000超、1,000,000超、2,000,000超、5,000,000超、または10,000,000超の配列リードとすることができる。本明細書で使用されるとき、「訓練試料」は、配列リードを生成するために使用することができ、次いで、疾病状態分類のために利用することができる特徴量を生成するために、第1および/または第2の確率モデルに適用される、既知の疾病状態から得られた試料である。ステップ825では、処理システム200は、複数の訓練配列リードの各配列リードについて第1の確率値および第2の確率値を決定するために、第1および第2の確率モデル230を適用する。第1および第2の確率値は、配列リードが第1の疾病状態および第2の疾病状態にそれぞれ関連付けられる試料に由来する確率に基づいて決定される。処理システム200は、任意の追加の確率モデル230(たとえば、第3、第4、第5などの参照試料からの配列リードから訓練される)(図示せず)についてステップ130を繰り返すことができる。
【0143】
ステップ830では、複数の訓練配列リードのそれぞれについて第1の確率値と第2の確率値とを比較することによって、1つまたは複数の特徴量が識別される。一般に、第1および第2の確率値を比較し、特徴量を識別するために、広範な方法を利用することができる。たとえば、一実施形態では、1つまたは複数の特徴量は、第1の確率値が第2の確率値より大きい、複数の訓練配列リードの異常値配列リードのカウントを含む。カウントは、バイナリカウント、異常値配列リードの合計カウント、または無名でメチル化された配列リードの合計カウントとすることができる。別の実施形態では、1つまたは複数の特徴量は、特定のメチル化パターンを含む配列リードまたは断片のカウントを含む。たとえば、1つまたは複数の特徴量は、各CpGサイトにおいて完全にメチル化されている配列リードまたは断片のカウント、部分的にメチル化されている(たとえば、少なくとも20%、30%、40%、50%、60%、70%、80%、90%、または95%メチル化)配列リードまたは断片のカウントとすることができる。別の実施形態では、1つまたは複数の特徴量は、単一のゲノム領域内で訓練された識別分類器の出力を使用して識別される(たとえば、識別分類器は、多層パーセプトロンまたは畳み込みニューラルネットモデルとすることができる)。別の実施形態では、第1の確率値と第2の確率値とを比較することは、第1の確率値と第2の確率値との比を決定することを含み、1つまたは複数の特徴量は、比の閾値を超える配列リードの配列リードカウントを含む。
【0144】
別の実施形態では、第1の確率値または第2の確率値は、対数尤度値である。たとえば、処理システム200は、フィッティングされた確率モデルがそれぞれ第1および第2の疾病状態に関連付けられる、対数尤度比Rを計算することができる。具体的には、対数尤度比は、第1の疾病状態および第2の疾病状態に関連付けられる試料について断片上のメチル化パターンを観測する確率Prを使用して計算することができる。
【0145】
【0146】
処理システム200は、複数の階層の閾値を使用して特徴量を識別することができる。たとえば、階層は、1、2、3、4、5、6、7、8、および9の閾値を含む。いくつかの実施形態では、平滑化機能が適用され得る。たとえば、Rが(たとえば、著しく)階層値より小さいと決定したことに応答して、処理システム200は、約0の特徴量値を割り当て、Rが階層値に等しいと決定したことに応答して、処理システム200は、0.5の特徴量値を割り当て、Rが(たとえば、著しく)階層値より大きいと決定したことに応答して、処理システム200は、約1の特徴量値を割り当てる。各階層は、(配列リードが生成された)断片が健常試料よりも疾病状態に関連付けられる試料に由来する可能性がより高いという変動する閾値を示す。処理システム200は、閾値を使用し、異常値断片のカウントを決定することができ、これを特徴量として使用することができる。
【0147】
閾値でフィルタリングすることにより、処理システム200は、いくつかの断片を、それらの断片が健常試料内に存在する可能性が低いため異常値と考えることができる。したがって、異常値断片は、疾病状態またはがん試料に関連付けられる(たとえば、由来する)可能性がより高いと考えられ得る。特徴量の数は、異なる階層間で変わり得、たとえば、対応する閾値に基づいて、1つの階層が別の階層とは異なる数の特徴量を有し得る。他の実施形態では、処理システム200は、異なる数の階層または他の閾値を使用する。異なる疾病状態間で区別する際の特徴量の判断尺度に基づいて(たとえば、2つの疾病状態間で区別する際の特徴量の情報内容の判断尺度を決定するための相互情報を使用して)特徴量を識別するための、または識別された特徴量をランク付けするための他の手段が、本明細書の他所に記載されている。
【0148】
他の実施形態では、処理システム200は、異なるタイプの比または式を使用して複数の特徴量を識別することができる。機械学習エンジン220は、様々な疾病状態に対するものと考えられる対数尤度比の少なくとも1つが閾値より高いかどうかに基づいて、断片が疾病状態(たとえば、がん)を示すものであると決定することができる。
【0149】
それに続いて、本明細書の他所にさらに詳細に記載されているように、複数の特徴量は、疾病状態分類器を訓練するために使用することができる。たとえば、いくつかの実施形態では、がんの有無、がんのタイプ、および/またはがん原発組織を分類するために、複数の特徴量を使用し、分類器を訓練することができる。
【0150】
III.B.疾病状態原発組織分類
別の実施形態によれば、
図1のステップ120に示されているように、機械学習エンジン220は、それぞれが複数の疾病状態のセットの異なる疾病状態に関連付けられる確率モデル230を訓練する。わかりやすいように、
図1は、疾病状態原発組織を分類するためのモデルベースの特徴量化および分類器の訓練を表す。しかし、先に記載されているように、様々な実施形態では、疾病状態は、がんの有無、がんのタイプ、および/またはがん原発組織とすることができる。さらに、疾病状態は、別のタイプの疾病(必ずしもがんに関連付けられない)または健常状態(がんまたは疾病が存在しない)に関連付けることができる。
【0151】
機械学習エンジン220は、配列リードの1つまたは複数のセットを使用して確率モデル230を訓練し、配列リードの1つまたは複数のセットのそれぞれは、複数の疾病状態のセットの異なる疾病状態から(ステップ110に従って)生成される。疾病状態は、がんのタイプの中でもとりわけ、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎盤の尿路上皮がん、尿路上皮以外の腎がん、前立腺がん、肛門直腸がん、結腸直腸がん、食道がん、胃がん、肝細胞から生じた肝胆がん、肝細胞以外の細胞から生じた肝胆がん、膵がん、上部消化管の扁平細胞がん、扁平以外の上部消化管がん、頭頸部がん、肺腺癌、小細胞肺がん、扁平細胞肺がん、および腺癌または小細胞肺がん以外のがんなど肺がん、神経内分泌がん、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、ならびに白血病を含むグループから選択される任意の数のがんのタイプまたはがん原発組織を含むことができる。
【0152】
機械学習エンジン220は、複数の疾病状態のそれぞれについて、疾病状態のそれぞれに対応する各試料から導出される配列リードに確率モデル230をフィッティングすることによって、確率モデル230を訓練する。たとえば、いくつかの実施形態では、確率モデルは、特定のタイプのがんについて訓練され得る。この実施形態によれば、第1、第2、第3などの特定のタイプのがんについてがん特有の確率モデルを訓練し、これを使用し、(たとえば、未知の試験試料の)がんタイプを査定することができる。たとえば、肺がん特有の確率モデルは、肺がんに関連付けられる1つまたは複数の試料から導出される配列リードのセットを使用してフィッティングされる。別の例として、乳がん特有の確率モデルは、乳がんに関連付けられる1つまたは複数の試料から導出される配列リードのセットを使用してフィッティングされる。いくつかの実施形態では、第1、第2、第3などの組織タイプについて組織特定の確率モデルを訓練し、これを使用し、疾病状態原発組織を査定することができる。たとえば、第1の原発組織確率モデルは、第1の組織タイプから(たとえば、肺生検試料など肺組織試料から)導出された配列リードのセットを使用してフィッティングすることができ、第2の原発組織確率モデルは、第2の組織タイプから(たとえば、肝生検試料など肝組織試料から)導出された配列リードのセットを使用してフィッティングすることができる。あるいは、いくつかの実施形態では、がん確率モデルは、がんを有することが知られている対象からの1つまたは複数の試料から導出された配列リードのセットを使用してフィッティングされ、非がん特定の確率モデルは、健常な対象または非がん対象からの1つまたは複数の試料から導出された配列リードのセットを使用してフィッティングされる。当業者なら理解するように、いくつかの可能な疾病状態のいずれか1つを有する対象からとられた1つまたは複数の試料から導出された配列リードを利用して、任意の数の疾病状態確率モデルを訓練することができる。たとえば、いくつかの実施形態では、それぞれが異なる疾病状態(たとえば、異なるタイプのがん)を有する1人または複数の対象から得られた3、4、5、6、7、8、9、10以上の参照試料から複数の配列リードを生成し、それを使用し、3、4、5、6、7、8、9、10以上の確率モデルを訓練することができる。
【0153】
訓練中、機械学習エンジン220は、メチル化情報またはメチル化状態ベクトル(たとえば、
図3~
図4に関連して先に記載されている)を利用して疾病状態を示す配列リードに対して訓練することができる。特に、機械学習エンジン220は、配列リード内の各CpGサイトについてメチル化の観測された比率を決定する。メチル化の比率は、CpGサイト内でメチル化されている塩基対の割合またはパーセンテージを表す。訓練された確率モデル230は、メチル化比率の積によってパラメータ化することができる。先に記載されているように、試料からの配列リードに確率を割り当てるための任意の知られている確率モデルを使用することができる。たとえば、確率モデルは、核酸断片上のあらゆるサイト(たとえば、CpGサイト)にメチル化の確率が割り当てられる二項モデル、または核酸断片上の1つのサイトにおけるメチル化が1つもしくは複数の他のサイトにおけるメチル化から独立していると仮定される相異なるメチル化確率によって各CpGのメチル化が指定される独立サイトモデルとすることができる。
【0154】
いくつかの実施形態では、各CpGサイトにおけるメチル化の確率が、配列リードまたは配列リードが導出される核酸分子内のいくつかの数の先行するCpGサイトにおけるメチル化に依存するマルコフモデル。たとえば2019年3月13日に出願された「Anomalous Fragment Detection and Classification」という名称の特許文献4を参照されたい。
【0155】
いくつかの実施形態では、確率モデル230は、基礎となるモデルからの成分の混合物を使用してフィッティングされる「混合モデル」である。たとえば、いくつかの実施形態では、混合成分は、各CpGサイトにおけるメチル化(たとえば、メチル化の比率)が他のCpGサイトにおけるメチル化から独立していると仮定される複数の独立サイトモデルを使用して決定することができる。独立サイトモデルを使用すると、配列リードまたはそれが導出される核酸分子に割り当てられる確率は、配列リードがメチル化されている各CpGサイトにおけるメチル化確率、および配列リードが非メチル化されている各CpGサイトにおける、1からメチル化確率を引いたものの積である。この実施形態によれば、機械学習エンジン220は、混合成分のそれぞれのメチル化の比率を決定する。混合モデルは、それぞれがメチル化の比率の積に関連付けられる混合成分の合計によってパラメータ化される。n個の混合成分の確率モデルPrは、次式として表すことができる。
【0156】
【0157】
入力断片について、mi∈{0,1}は、参照ゲノムの位置iにおける断片の観測されたメチル化ステータスを表し、0は非メチル化を示し、1はメチル化を示す。各混合成分kに対する部分的割り当ては、fkであり、ここで、fk≧0および
【0158】
【0159】
fk=1である。混合成分kのCpGサイト内の位置iにおけるメチル化の確率は、βkiである。したがって、非メチル化の確率は、1-βkiである。混合成分の数nは、1、2、3、4、5、6、7、8、9、10などとすることができる。
【0160】
いくつかの実施形態では、機械学習エンジン220は、正則化強度rを有する各メチル化確率に適用される正則化ペナルティの対象となる、疾病状態から導出されるすべての断片の対数尤度を最大化するパラメータのセット{βki,fk}を識別するために、最大尤度推定を使用して確率モデル230をフィッティングする。N個の合計断片についての最大化された量は、次式として表すことができる。
【0161】
【0162】
ステップ130では、処理システム200は、たとえばステップ110で生成された配列リードの第1のセットとは異なる配列リードの第2のセットの各配列リードについて値を計算するために、確率モデル230を適用する。これらの値は、配列リード(および対応する断片)が確率モデル230の疾病状態に関連付けられる試料に由来するという確率に少なくとも基づいて計算される。処理システム200は、異なる確率モデル230のそれぞれについてステップ130を繰り返すことができる。いくつかの実施形態では、処理システム200は、いくつかの疾病状態に関連付けられるフィッティングされた確率モデルとともに対数尤度比Rを使用して値を計算する。具体的には、対数尤度比は、疾病状態および健常試料に関連付けられる試料について断片上のメチル化パターンを観測する確率Prを使用して計算することができる。
【0163】
【0164】
他の実施形態では、処理システム200は、異なるタイプの比または式を使用して値を計算することができる。機械学習エンジン220は、様々な疾病状態に対するものと考えられる対数尤度比の少なくとも1つが閾値より高いかどうかに基づいて、断片が疾病状態(たとえば、がん)を示すものであると決定することができる。
【0165】
III.C.特徴量選択
図6は、一実施形態による、分類器を訓練するために特徴量を決定する処理の図である。先に記載されているように、機械学習エンジン220は、疾病状態に関連付けられる確率モデル230を訓練する。
図6に示されている例では、確率モデル230(「組織モデル」)は、非がん(健常)、乳がん、および肺がんに関連付けられる。処理システム200は、断片を得るために1つまたは複数のcfDNAおよび/または腫瘍試料を処理し、確率モデル230を使用し、非がん(健常)、乳がん、および肺がんに関連付けられる断片に値を割り当てる。処理システム200は、分類器のための特徴量を識別するために、cfDNAおよび/または腫瘍試料からの配列リードからの情報を使用することができる。いくつかの実施形態では、処理システム200は、
図5に示されているように、区分された参照ゲノムの各ウィンドウから断片を得て割り当てることができる。処理システム200は、分類器のための特徴量を決定するために、断片をウィンドウから配列に集約する。
【0166】
ステップ140では、処理システム200は、閾値を超える値を有する配列リードのカウントを決定することによって、特徴量を識別する。値が対数尤度比Rに基づく実施形態では、閾値は、閾値比である。処理システム200は、閾値の複数の階層を使用して特徴量を識別することができる。たとえば、階層は、1、2、3、4、5、6、7、8、および9の閾値を含む。各階層は、(配列リードが生成された)断片が健常試料よりも疾病状態に関連付けられる試料に由来する可能性がより高いという変動する閾値を示す。処理システム200は、閾値を使用し、異常値断片のカウントを決定することができ、これを特徴量として使用することができる。
【0167】
閾値でフィルタリングすることにより、処理システム200は、いくつかの断片を、それらの断片が健常試料内に存在する可能性が低いため異常値と考えることができる。したがって、異常値断片は、疾病状態またはがん試料に関連付けられる(たとえば、由来する)可能性がより高いと考えられ得る。特徴量の数は、異なる階層間で変わり得る。他の実施形態では、処理システム200は、異なる数の階層または他の閾値を使用する。他の実施形態では、処理システム200は、他の方法またはp値などスコア付けを使用して断片をフィルタリングすることができる。いくつかの実施形態では、処理システム200は、メチル化状態ベクトルまたは他のメチル化状態ベクトルが健常対照群では確率が低いことを観測する確率を表すメチル化状態ベクトルのためのp値を計算する。断片が異常にメチル化されていると決定するために、処理システム200は、正常にメチル化されている大多数の断片を有する健常対照群を使用する(たとえば2019年3月13日に出願された「Anomalous Fragment Detection and Classification」という名称の特許文献4を参照されたい)。
【0168】
処理システム200は、ステップ120において訓練された各確率モデルについてステップ130から140を繰り返すことができる。その結果、処理システム200は、確率モデルに関連付けられる1つまたは複数の疾病状態について特徴量を識別することができる。
図6に示されている例では、処理システム200は、乳がんおよび肺がんのための1つまたは複数の特徴量を識別する。
【0169】
いくつかの実施形態では、処理システム200は、異なる疾病状態間で区別する際の特徴量の判断尺度に基づいて、識別された特徴量にランク付けする。たとえば、特徴量は、その特徴量があるタイプのがんを他のタイプのがんまたは健常試料から区別することができる場合、情報性がある。処理システム200は、2つの疾病状態間で区別する際の特徴量の情報内容の判断尺度を決定するために、相互情報を使用することができる。相異なる疾病状態の各対について、処理システム200は、1つの疾病状態、たとえばがんタイプAを陽性タイプとして指定し、他の疾病状態、たとえばがんタイプBを陰性タイプとして指定することができる。
【0170】
相互情報は、得られるアッセイにおいて特徴量が非ゼロであると予想される陽性タイプおよび陰性タイプ(たとえば、がんタイプAおよびB)の試料の推定された割合を使用して計算することができる。たとえば、特徴量が健常なcfDNA内で頻繁に生じる場合、処理システム200は、その特徴量が様々なタイプのがんに関連付けられるcfDNA内で頻繁に生じる可能性が低いと決定する。したがって、特徴量は、疾病状態間で区別する際の弱い判断尺度とすることができる。相互情報Iを計算する際、変数Xは、ある特徴量(たとえば、バイナリ)であり、変数Yは、疾病状態、たとえばがんタイプAまたはBを表す。
【0171】
【0172】
XおよびYの同時確率質量関数は、p(x,y)であり、周辺確率質量関数は、p(x)およびp(y)である。処理システム200は、特徴量がないことは情報性がなく、どちらの疾病状態も等しく先験的である可能性が高い、たとえばp(Y=A)=p(Y=B)=0.5であると仮定することができる。がんタイプAの所与のバイナリ特徴量を観測する(たとえば、cfDNAにおいて)確率は、p(1|A)によって表され、ここでfAは、がんタイプAに関連付けられる腫瘍(または、高シグナルcfDNA試料)からのctDNA試料内の特徴量を観測する確率であり、fHは、健常な、または非がんのcfDNA試料内で特徴量を観測する確率である。
【0173】
いくつかの実施形態では、fAの値は、その人のcfDNAが非ゼロの特徴量値を含むと予想されるがん患者の割合によって推定される。がんタイプAのための訓練データがcfDNA試料からなるとき、この割合は、その特徴量が観測されるcfDNA試料の割合と同程度に単純に推定することができる。訓練データが腫瘍試料を含むとき、腫瘍に比べてcfDNA内の腫瘍によって誘導される断片の、より低い割合を補償するために、補正が適用され得る。閾値より大きい値を有すると(たとえば、ステップ140から)決定された腫瘍試料内のN個の断片について、処理システム200は、その患者からcfDNA内のそれらの断片のそれぞれを検出する機会rを次式として計算する。
【0174】
【0175】
次いで、その患者からのcfDNA内で少なくとも1つの断片を観測する確率が、p(NcfDNA>0)=1-(1-r)Nとして計算され得る。fAを推定するために、p(NcfDNA>0)は、がんタイプAのすべての訓練試料にわたって平均され得、その確率は、特徴量を有するcfDNA試料について1、特徴量のないcfDNA試料について0、腫瘍試料について1-(1-r)Nとして割り当てられる。いくつかの実施形態では、これらの推定は、早期がん患者のcfDNA内の腫瘍割合(たとえば、0.1%)、患者に適用されることになる最終アッセイ内のcfDNAシーケンシング深度(たとえば、1000×)、および腫瘍シーケンシング深度(たとえば、25×)のための所定の仮定値に基づく。fHを推定するために、処理システム200は、陽性試料の割合を使用し、より大きなシーケンシング深度においていくつの追加の試料が陽性検出分類をもたらすことになるか決定する。
【0176】
III.D.分類
ステップ150では、処理システム200は、特徴量を使用して分類器を生成する。分類器は、試験対象の試験試料からの入力配列リードについて、疾病状態に関連付けられる原発組織を予測するように訓練される。処理システム200は、たとえば相互情報計算または別の計算された判断尺度に基づいて、分類器を訓練するために疾病状態の各対について所定の数(たとえば、1024)の上位ランク付け特徴量を選択することができる。所定の数は、交差検証におけるパフォーマンスに基づいて選択されたハイパーパラメータとして扱われ得る。処理システム200は、疾病状態の対間で区別する際により情報性があると決定された参照ゲノムの領域から特徴量を選択することもできる。様々な実施形態では、処理システム200は、各領域について、また各がんタイプ対(陰性タイプとして非がんを含む)について最もパフォーマンスの良い階層を保持する。
【0177】
いくつかの実施形態では、処理システム200は、訓練試料のセットをそれらの特徴量ベクトルとともに分類器に入力し、分類器の機能が訓練特徴量ベクトルをそれらの対応するラベルに正確に関連付けるように分類パラメータを調整することによって分類器を訓練する。処理システム200は、分類器の反復バッチ訓練のために訓練試料を1つまたは複数の訓練試料のセットにグループ化することができる。それらの訓練特徴量ベクトルを含む訓練試料のセットすべてを入力し、分類パラメータを調整した後、分類器は、何らかの誤差限界内でそれらの特徴量ベクトルに従って試験試料にラベル付けするように十分に訓練され得る。処理システム200は、いくつかの方法、たとえば、L1正則化ロジスティック回帰もしくはL2正則化ロジスティック回帰(たとえば、ログ損失関数)、一般化線形モデル(GLM)、ランダムフォレスト、多項ロジスティック回帰、多層パーセプトロン、サポートベクタマシン、ニューラルネット、または任意の他の好適な機械学習技法のいずれか1つに従って分類器を訓練することができる。
【0178】
様々な実施形態では、処理システム200は、2値化によって特徴量値を変換する。特に、0より大きい特徴量値は1に設定され、その結果、特徴量値は、0または1になる(疾病状態の有無を示す)。他の実施形態では、0または1への2値化の代わりに、(たとえば、より粒度の細かい値を提供するために)平滑化機能が実装され得る。
図14に示されているように、処理システム200は、特徴量を用いて分類器を訓練する前に、交差検証において特徴量を2値化することができる。
【0179】
様々な実施形態では、処理システム200は、フォールドについて訓練データに対して多項ロジスティック回帰分類器を訓練し、持ちこたえたデータについて予測を生成する。K個のフォールドのそれぞれについて、処理システム200は、ハイパーパラメータの各組合せについて1つのロジスティック回帰を訓練する。例示的なハイパーパラメータは、L2ペナルティ、すなわちロジスティック回帰の重みに適用されるある形態の正則化である。別の例示的なハイパーパラメータは、topK、すなわち各組織タイプ対(非がんを含む)について保持するための高ランク付け領域の数である。たとえば、topK=16の場合、処理システム200は、本明細書に記載されている相互情報手順によってランク付けされる組織タイプ対ごとの上位16領域を保持する。この手順に従うことによって、処理システム200は、訓練セット内の各試料について予測を生成することができ、一方、予測が生成されるデータに対して分類器が訓練されないことを確実にする。
【0180】
様々な実施形態では、ハイパーパラメータの各セットについて、処理システム200は、完全な訓練セットの交差検証された予測に対するパフォーマンスを評価し、処理システム200は、完全な訓練セットに対して再訓練するために、最良のパフォーマンスを有するハイパーパラメータのセットを選択する。パフォーマンスは、ログ損失メトリックに基づいて決定され得る。処理システム200は、各試料について正しいラベルのための予測の負の対数をとり、次いで、試料を合計することによってログ損失を計算することができる。たとえば、正しいラベルのための1.0の完璧な予測は、0のログ損失をもたらすことになる(より低い方がより正確である)。新しい試料について予測を生成するために、処理システム200は、上記の方法を使用して、しかし選ばれたtopK値下で選択された特徴量(領域/陽性クラスの組合せ)に制限されて特徴量値を計算することができる。処理システム200は、生成された特徴量を使用し、訓練されたロジスティック回帰モデルを使用して予測を生み出すことができる。
【0181】
任意選択のステップ160では、処理システム200は、試験試料の原発組織を予測するために分類器を適用し、ここで原発組織は、疾病状態の1つに関連付けられる。いくつかの実施形態では、分類器は、2つ以上の疾病状態または原発組織について予測または尤度を返すことができる。たとえば、分類器は、試験試料が乳がん原発組織を有する65%の尤度を有し、肺がん原発組織を有する25%の尤度を有し、健常原発組織を有する10%の尤度を有するという予測を返すことができる。処理システム200は、予測値をさらに処理し、単一の疾病状態の決定を生成することができる。
【0182】
III.E.不確定な位置特定
様々な実施形態では、腫瘍割合は、試料にわたる訓練された分類器またはモデルによってなされた予測の共変数とすることができる。腫瘍割合が減少するにつれて、スコア割り当て(たとえば、先に記載されている対数尤度比Rに基づく)は、分類検出の限界に達する(すなわち、がん/がんタイプの検出の確率が50%)まで、確実性が低くなり得る。高いcfDNA腫瘍割合を有する試料は、確実に分類される傾向があり、一方、低いcfDNA腫瘍割合を有する試料は、より曖昧になる傾向がある。曖昧なシグナルを有するインスタンスでは、割り当ては、信頼性が低くなり、偶然に正しいことも正しくないこともある。単一の位置特定のユースケースでは、処理システム200は、曖昧なシグナルを識別し、これらの予測を「不確定な位置特定クラス」へ隔離することができる。
【0183】
たとえば、いくつかの実施形態では、処理システム200は、特に標的の閾値より大きいがんスコアを有する個体についての原発組織位置特定ベクトルのセットから事後の不確定な割り当てを決定することができる。処理システム200は、交差検証下で不確定な割り当てを決定し得る。各試料について、処理システム200は、その試料について位置特定における不確実性を取り込むためにメトリックを計算することができる。1つの例示的な手法として、処理システム200は、原発組織位置特定の情報エントロピー(ビット)を使用してこのメトリックを計算し、ここで0のビット値は、1つの予測が確実であるとき生じる。最も曖昧なケース(n個のクラスすべてについて等確率)には、処理システム200は、log2(n)のビット値を計算する。別の手法として、処理システム200は、上位ランク付けスコアと次の上位ランク付けスコアとの間の差(デルタ値)を使用してこのメトリックを決定する。1のデルタ値は、1つの予測が確実であるとき生じる。0のデルタ値は、最も曖昧なケースに生じる。不確定な結果を含めることによって、処理システム200は、偶然にのみ正しい弱いコールをフィルタリング除去し、明確な位置特定コールのために精度を改善することができる(たとえば、原発組織割り当てのための割合補正)。
【0184】
事後の不確定な割り当てに対する代替として、処理システム200は、不確定なクラスに対する割り当てを決定するため訓練中、期待値最大化を使用することができる。処理システム200は、ケースを不確定なクラスに分類するために第2の層を分類器出力に追加することもできる。
【0185】
メトリック、および各試料が正しく位置特定されたかどうかのレコードを与えられて、処理システム200は、
図18に示されているように、不確定なコール閾値について精度リコール曲線を計算することができる。たとえば、
図18における例では90%など標的精度レベルに基づいて、カットオフ点が選択され得る。処理システム200は、位置特定ラベルについて個々に(たとえば、あるがんタイプについて)、またはがんタイプを全体としてすべてについてカットオフ点を計算することができる。トレードオフが、最適化に対する対象となり、不確定な結果が割り当てられたコールの数に対する誤った位置特定コールのコストに依存し得る(たとえば、精度およびリコール)。
【0186】
III.F.クラス不均衡に対する防御
様々な実施形態では、個々の試料についての要素スコアベクトルsiは、各予測クラス(たとえば、疾病状態)についてのシグナル位置特定の事後確率を含む。各要素は、各クラスについての訓練例の割合に比例する事前確率によってスケーリングされる。
【0187】
【0188】
クラス同士が不均衡である場合、弱いシグナルを有する試料は、不適当なクラスにシフトされ得る。たとえば、訓練セットは、肝がん検出結果を有する試料の99%を含むが、異なるがんタイプの検出結果をほとんど含まないことがあり得る。その結果、このセットに対して訓練された分類器は、肝がんの予測に向かって歪められ得る(または、常にそのクラスを推測する)。さらに、分類器訓練におけるクラス割合が、分類器が適用される集団内頻度と矛盾する場合(たとえば、クラス割合がより均衡している場合)、正しくない予測が作り出され得る。
【0189】
メチル化および/またはゲノムおよび/または臨床特徴量からcfDNA試料を位置特定する分類器の能力を査定するために、処理システム200は、クラスにわたって割合等価を標的にすることができる。処理システム200は、任意選択でスクリーニング集団における疾病状態の発生率に対するスコアを較正し、腫瘍割合を通じた疾病の検出性を補償することができる。一般的な訓練セットを使用して訓練された分類器に適用された先験的確率を修正することにより、処理システム200は、先験的確率(たとえば、その特定の集団内の疾病状態の分布を示す)に関連付けられる特定の集団についての予測を改善するために、分類器をカスタマイズすることができる。異なる地域または国は、個体の対応する部分集団における特定の疾病状態の有病率またはがんのタイプに基づいて異なる先験的確率を有し得る。
【0190】
例示的な手法として、処理システム200は、モデルスコアの事後の再較正を実施する。具体的には、処理システム200は、割り当てられた確率をクラスのための訓練セット例の頻度で割ることによって、そのクラスについてのスコアを補正する。この補正は、任意選択で疑似カウントを加えることによって安定化させることができる。次いで、処理システム200は、1に合計するために、各スコアベクトルsiを正規化することができる。
【0191】
別の手法として、処理システム200は、低頻度訓練例を所望の割合に再サンプリングすることができる。さらに別の手法として、処理システム200は、分類器訓練における損失関数に再重み付けすることができる。
【0192】
IV.多層パーセプトロンモデル
いくつかの実施形態では、多層パーセプトロンモデル(「MLP」)を、分類のためのロジスティック回帰に対する代替として使用することができる。ロジスティック回帰ベースの分類器と同様に、MLP分類器は、がんを検出しがん原発組織(TOO)またはがんタイプを決定するための単一のマルチクラス分類器とすることができる。たとえば、マルチクラス分類器は、2つ以上、3つ以上、5つ以上、10以上、15以上、または20以上の異なるタイプのがんを区別するように訓練され得る。一実施形態では、マルチクラスがんMLPモデルは、非がんのためのクラスラベルを含むこともでき、がん検出は(たとえば、1-非がんとして)決定され得る。別の実施形態では、多層パーセプトロンモデルは、バイナリ分類(たとえば、がんまたは非がん)のための第1のステージと、たとえば1つまたは複数の隠れ層を有する、マルチクラス分類(たとえば、TOO)のための第2のステージの多層パーセプトロンモデルとを有する2ステージ分類器とすることができる。
【0193】
一実施形態では、多層パーセプトロンは、2ステージ分類器、すなわち隠れ層のない第1のステージの多層パーセプトロン(MLP)バイナリ分類器と、単一の隠れ層を有する第2のステージの多層パーセプトロン(MLP)マルチクラス分類器とを備える。一実施形態では、第1のステージ分類器を使用してがんを有すると決定された試料は、それに続いて、第2のステージ分類器によって解析されることになる。
【0194】
訓練の第1のステージでは、がんの存在を検出するための隠れ層のないバイナリ(2クラス)多層パーセプトロンモデルを、がん試料(TOOにかかわらない)を非がんから区別するように訓練することができる。各試料について、バイナリ分類器は、がんの有無の尤度を示す予測スコアを出力する。
【0195】
訓練の第2のステージでは、がんタイプまたはがん原発組織を決定するための並列マルチクラス多層パーセプトロンモデルを訓練することができる。一実施形態では、カットオフ閾値(たとえば、第1のステージ分類器における非がん試料の95パーセンタイル)より高いスコアを受けたがん試料だけを、このマルチクラスMLP分類器の訓練に含めることができる。訓練および試験に使用された各がん試料について、マルチクラスMLP分類器は、分類されるがんタイプのための予測値を出力し、ここで各予測値は、所与の試料があるがんタイプを有する尤度である。たとえば、がん分類器は、乳がんのための予測スコア、肺がんのための予測スコア、および/またはがんがない予測スコアを含む試験試料のためのがん予測を返すことができる。
【0196】
図16は、様々な実施形態による、試料が疾病状態を有する確率を決定するための方法1600のフローチャートである。いくつかの実施形態では、処理システム200は、方法1600を実施し、核酸試料からの断片の配列リードを処理する。方法1600は、それだけには限らないが、処理システム200の構成要素に関して記載されている以下のステップを含む。
【0197】
ステップ1610では、処理システム200は、1つまたは複数の生物試料から配列リードを生成する。いくつかの実施形態では、処理システム200は、配列リードのp値スコアに従って配列リードをフィルタリングする。配列リードのp値スコアは、配列リードに対応する1つまたは複数の生物試料の核酸断片におけるメチル化を観測する確率を示す。
【0198】
ステップ1620では、処理システム200は、配列リードを使用し、染色体の位置のセットの各位置について、疾病状態に関連付けられる断片、たとえばがんのような断片との少なくとも閾値類似性を有する、その位置内の1つまたは複数の生物試料の核酸断片のカウントを決定する。疾病状態は、がんの少なくとも1つタイプ、がんのステージ、または別のタイプの疾病もしくは状態に関連付けられ得る。
【0199】
位置のそれぞれは、染色体のいくつかの連続する塩基対を表し得る。塩基対の数は、異なる位置間で変わり得る。処理システム200は、ゲノムの複数の領域について配列リードを生成し得る。最大数万以上の領域があり得る。各領域は、数百、数千、またはそれ以上の塩基対を含み得る。方法1600は、全ゲノムバイサルファイトシーケンシング(WGBS)について、または標的パネルアッセイについて実施され得る。
【0200】
ステップ1630では、処理システム200は、位置のカウントを特徴量として使用して機械学習モデルを訓練する。いくつかの実施形態では、処理システム200は、位置のそれぞれにおける疾病状態の1つの有無(たとえば、ブール値)を示すように特徴量を2値化する。ある位置における少なくとも1つ核酸断片のカウントは、その位置における疾病状態の1つの存在を示す。ある位置におけるゼロの核酸断片のカウントは、その位置における疾病状態の1つがないことを示す。いくつかの実施形態では、機械学習モデルは、ロジスティック回帰モデルとすることができる。いくつかの実施形態では、機械学習モデルは、多層パーセプトロンモデル(ニューラルネットワーク)とすることができる。当業者なら、たとえば、一般化線形モデル(GLM)、多層パーセプトロン、サポートベクタマシン、ランダムフォレストまたはニューラルネットワーク分類器を含めて、他の機械学習モデルを使用することができることを容易に理解するであろう。
【0201】
ステップ1640では、訓練された機械学習モデルは、試験試料が疾病状態を有する確率を決定する。試験試料は、患者から得ることができ、血液および/または組織を含むことができる。任意選択のステップ1650では、その確率に従って患者に治療が提供される。たとえば、患者には、確率が閾値より大きいと決定したことに応答して、治療(たとえば、投薬または介入手順)を提供することができる。別の実施形態では、任意選択のステップ1650において、試験レポートを生成し、試験試料が疾病を有する確率を含む、それらの試験結果を患者に提供することができる。
【0202】
図17~
図20に示されている実験結果は、CCGA研究からの試料を使用してモデルを訓練することによって得られたものであり、これについて下記にさらに記載されている。
【0203】
図17は、一実施形態による多層パーセプトロンモデルの感度におけるパフォーマンスゲインを示す。ロジスティック回帰モデルに比べて、多層パーセプトロンモデル(MLP)は、がんステージI、II、III、およびIVにわたって疾病検出の感度におけるパフォーマンスゲインを実証している。
【0204】
図18は、一実施形態による原発組織を決定する際の多層パーセプトロンモデルの実験結果を示す。ロジスティック回帰モデル(LR:1803および1804)に比べて、多層パーセプトロンモデル(MLP:1801および1802)は、原発組織を決定する上で改善された精度を有する。この改善された精度は、訓練セットのすべてのがんタイプに関連付けられる配列リードを処理するとき、ならびに訓練セットにおける各がんタイプについて10個を超える配列リード例を含む訓練セットの配列リードを処理するとき実現される。
【0205】
図19は、一実施形態による、がんステージによって原発組織を決定する際の多層パーセプトロンモデルの実験結果を示す。ロジスティック回帰(LR)モデルに比べて、多層パーセプトロンモデル(MLP)は、がんステージI、II、III、およびIVにわたって原発組織(TOO)検出の精度におけるパフォーマンスゲインを実証している。がんステージの中で、MLPモデルについてのパフォーマンスゲインは、ステージIについて最も大きい。
【0206】
図20は、一実施形態による、がんのタイプにわたる多層パーセプトロンモデルの実験結果を示す。
図20に示されている大部分のタイプのがんについて、多層パーセプトロンモデル(MLP)は、ロジスティック回帰モデルに比べて原発組織(TOO)検出においてより大きい精度を達成する。
【0207】
いくつかの実施形態では、解析システムは、2ステージモデルを使用し、がんまたは別のタイプの疾病状態の原発組織(TOO)を決定する。解析システムは、生物試料の核酸断片から配列リードを生成する。解析システムは、たとえば、セクションII.A.アッセイプロトコルに記載されている処理のいずれかを使用して、配列リードを処理することによって訓練データの第1のセットを決定する。解析システムは、メチル化情報を使用し、訓練データの第1のセットを決定することができる。たとえば、解析システムは、配列リードに対応するCpGサイトの閾値またはパーセンテージが非メチル化されていると決定することによって低メチル化されている配列リードを決定する。さらに、解析システムは、配列リードに対応するCpGサイトの閾値またはパーセンテージがメチル化されていると決定することによって高メチル化されている配列リードを決定する。解析システムは、配列リードが異常にメチル化されていると決定することもできる。いくつかの実施形態では、解析システムは、閾値p値未満のp値を有する配列リードを除去することによって、配列リードをフィルタリングする。
【0208】
解析システムは、訓練データの第1のセットを使用してバイナリ分類器を訓練する。バイナリ分類器は、第1の試験生物試料からの入力配列リードについて、バイナリ出力、すなわち第1の試験生物試料内の少なくとも1つ疾病状態の有無を予測するように訓練される。
【0209】
バイナリ分類器の予測を使用して、解析システムは、生物試料のサブセットが1つまたは複数の疾病状態の存在を有すると決定することができる。バイナリ分類器は、原発組織分類器を訓練するために使用することができる。特に、解析システムは、生物試料のそのサブセットの核酸断片に対応する配列リードを使用して、訓練データの第2のセットを決定する。解析システムは、訓練データの第2のセットを使用して原発組織分類器を訓練する。原発組織分類器は、第2の試験生物試料からの入力配列リードについて、第2の試験生物試料内に存在する疾病状態に関連付けられる原発組織を予測するように訓練される。第1および第2の試験生物試料は、同じ試料または異なる試料とすることができる。
【0210】
いくつかの実施形態では、解析システムは、原発組織分類器を使用し、疾病状態に関連付けられる原発組織が第2の試験生物試料内に存在する確率を示すスコアを決定する。解析システムは、たとえば自信過剰のモデルの出力を調整するためにスコアを較正することができる。たとえば、解析システムは、原発組織分類器によって出力される特徴量空間を使用してスコアに関連してk近傍法(KNN)演算を実施する。一実施形態では、特徴量空間は、原発組織分類器からの上位2つの予測ラベル(たとえば、肺がんおよび前立腺がん)と、正しい分類は上位2つの予測とは異なる疾病状態であったかどうかのインジケーションとを含む。解析システムは、第2の試験生物試料内に存在する少なくとも1つ疾病状態の存在の異なる確率を示すバイナリ分類器の出力を使用して確率を正規化することによって、スコアを較正することもできる。
【0211】
いくつかの実施形態では、原発組織分類器は、少なくとも1つ隠れ層を含む多層パーセプトロンである。原発組織分類器は、隠れ層のサイズの中でもとりわけ、100ユニットの隠れ層または200ユニットの隠れ層を含むこともできる。多層パーセプトロンは、完全に接続され、正規化線形ユニット活性化関数を使用することができる。いくつかの実施形態では、バイナリ分類器は、隠れ層を含まない多層パーセプトロンである。異なる実施形態では、バイナリ分類器は、少なくとも1つの隠れ層を含む多層パーセプトロンである。他の実施形態では、これらの分類器は、ロジスティック回帰モデル、多項ロジスティック回帰モデル、または他のタイプの機械学習モデルとすることができる。
【0212】
さらに、解析システムは、たとえばとりわけ、早期打ち切りなし(代わりに所与の数の訓練エポックを選択する)、確率的勾配降下法、重み減衰、ドロップアウト正則化、Adam最適化、He初期化、および学習率スケジューリング、正規化線形ユニット活性化関数、リーキー正規化線形ユニット活性化関数、シグモイド活性化関数、ならびにブースティングを含む、当業者に知られている1つまたは複数の機械学習技法を使用して原発組織分類器およびバイナリ分類器を訓練することができる。
図31に示されているように、原発組織分類器の原発組織精度は、訓練反復を介して改善する。反復はそれぞれ、機械学習技法の異なる組合せを含み得る。さらに、原発組織精度の増大は、異なるがんステージ、すなわちI、II、およびIIIにわたって存在する。
【0213】
いくつかの実施形態では、解析システムは、原発組織分類器およびバイナリ分類器の一方または両方に対して交差検証を実施する。解析システムは、交差検証の出力に基づいて選択されたハイパーパラメータを使用して分類器を再訓練することができる。解析システムは、交差検証におけるすべてのフォールドからの結果を集約することによってハイパーパラメータを選択することができる。一実施形態では、解析システムは、対数尤度の代わりに原発組織精度について最適化することによって原発組織分類器を訓練するようにハイパーパラメータを選択する。なぜなら、この分類器は、より強いシグナルを有する試料について、より信頼性が高いものとすることができるからである。
【0214】
いくつかの実施形態では、解析システムは、原発組織分類器によって、疾病状態に関連付けられる原発組織が第2の試験生物試料内に存在する確率を決定する。解析システムは、確率が原発組織閾値より大きいと決定したことに応答して、疾病状態に関連付けられる原発組織が第2の試験生物試料内に存在すると予測する。解析システムは、異なる原発組織に関連付けられる異なる原発組織閾値を決定することができる。さらに、解析システムは、候補原発組織閾値の異なる確率のある範囲を反復することによって、所与の疾病状態に関連付けられる原発組織閾値を決定することができる。各反復について、解析システムは、原発組織分類器の所与の特異度率において感度率を決定する。解析システムは、所与の疾病状態について原発組織分類器の感度率と特異度率との間のトレードオフを最適化することができる。解析システムは、バイナリ分類器または原発組織分類器によって出力されるスコアを使用して感度率を決定することができる。さらに、解析システムは、原発組織分類器からのスコアを使用して試料を階層化することができる。
【0215】
いくつかの実施形態では、解析システムは、それぞれが0または1の値を有する2値化特徴量を使用してバイナリ分類器および原発組織分類器を訓練する。1より大きい値は、2値化の際に1と置き換えられる。
【0216】
V.バイナリ分類閾値の調整
解析システムは、がん分類器を訓練する際に使用された試料を取り除くために訓練されたがん分類器を調整し得る。特に、解析システムは、がん予測におけるがん分類器の感度を弱める高い組織シグナルを有する非がん試料を除去しようとし得る。高い組織シグナルは、健常な分布に比べて原発組織(TOO)からの有意な割合のcfDNAを有する、たとえば原発組織分類器、マルチクラスがん分類器、または他の手段によって決定された試料を指す。高い組織シグナルを有する非がん試料は、非がん分布における異常値であり、それらは、前がん、早期がん、または診断未確定のがんであり得る。解析システムは、少なくとも1つのがんタイプにおける高い組織シグナルを有する非がん試料を識別することができる。いくつかの実施形態では、いくつかのがんタイプは、がんサブタイプにさらに分離される。たとえば、血液学的がんタイプは、たとえば循環リンパサブタイプ、非ホジキンリンパ腫(NHL)無痛性サブタイプ、NHLアグレッシブサブタイプ、ホジキンリンパ腫(HL)サブタイプ、骨髄サブタイプ、および形質細胞サブタイプの組合せにさらに分離することができる。
【0217】
図21を参照すると、
図21は、特異度が95%より高い非がん試料についてのがんタイプ尤度のグラフを示す。がんスコアは、複数の非がん試料、すなわち現在がんを有すると診断されていない健常な個体からの試料からの各非がん試料について計算された。がんスコアは、試料のメチル化シーケンシングデータを与えられて試料ががんを有する尤度としてバイナリ分類器によって決定され得る。他の実施形態では、がんスコアは、少なくともシーケンシングデータ(たとえば、メチル化、一塩基変異多型(SNP)、DNA、RNAなど)を入力し、入力されたシーケンシングデータに基づいてがんを有する試料の尤度を出力する他の方法に従って計算され得る。分類器の一例は、混合モデル分類器である。非がん試料の分布は、非がん試料のがんスコアに従って生成され得る。バイナリ閾値カットオフは、何らかのレベルのバイナリ分類特異度、たとえば真陰性率を確保するように設定され得る。典型的には、がんを分類する際に、高い特異度カットオフ、たとえば特異度が90%と99.9%との間、または99.5%以上が使用される。しかし、がん分類器を訓練する際に使用される、特異度カットオフ直下の多数の非がん試料は、高い組織シグナルを有し得、それにより、バイナリ閾値カットオフを陽性にバイアスする。
【0218】
実証するために、特異度が95%を超える非がん試料が選択され、次いで、各がんタイプ、または原発組織(TOO)について確率を決定するために、マルチクラスがん分類器に入力された。マルチクラスがん分類器のこの実施形態で使用されたがんタイプまたはTOOラベルは、循環リンパ、骨髄、NHL無痛性、結腸直腸、NHLアグレッシブ、肺、子宮、乳房、前立腺、膵臓および胆嚢、上部消化管、膀胱および尿路上皮、形質細胞、頭頸部、腎臓、卵巣、肉腫、肝臓および胆管、頸、他の組織、HL、肛門直腸、黒色腫、甲状腺を含む。
図21におけるグラフは、少なくとも1つの組織タイプからの高い組織シグナルを有する多数の非がん試料を示す。組織タイプについての列内の各点は、95%特異度閾値より高い非がん試料についての原発組織尤度に対応する。特に、多数の組織タイプは、非がん試料にとって典型的でない、有意な組織貢献度を有する複数の非がん試料異常値を有する。これは、そのような非がん試料ががんのようなメチル化、クローン割合、および/または成長/ターンオーバーの比率によって駆動されるcfDNAシグナルを有するとき生じ得る。がん分類器を訓練する際に使用される多数の非がん試料は前がん、早期がん、または診断未確定がんであり得ると推察することができる。しかし、有意な組織貢献度を有するこれらの非がん試料は、バイナリ分類カットオフ閾値を上方にシフトさせ、それにより、特に予め設定されたバイナリ分類カットオフ閾値直下の有意な組織シグナルを有する試料の場合、がん分類感度を減少させる。実際には、そのようなシグナル(たとえば、循環リンパ、骨髄、およびNHL無痛性に対応する)は、擬陽性決定の主なアトラクタとなり得る。循環リンパ、骨髄、NHL無痛性、結腸直腸、NHLアグレッシブ、肺、子宮、乳房、前立腺、膵臓および胆嚢、上部消化管、形質細胞、頭頸部、頸、HLは、0.1より高い原発組織の確率を有する少なくとも1つの非がん試料を有していたことに留意されたい。特に、循環リンパ、骨髄、NHL無痛性、およびNHLアグレッシブ(すべての血液学的サブタイプ)は、0.5より高い原発組織の確率を有する2つ以上の非がん試料を有していた。
【0219】
図22を参照すると、
図22は、メチル化シーケンシングデータに従って分離された血液学的サブタイプのグラフを示す。
図22のグラフは、血液学的サブタイプをモデル化する能力を実証する。これは、マルチクラスがん分類をより粒度の細かいものにする(たとえば、血液学的サブタイプラベルでさらに分類する)際に、またはがん分類器を訓練する前に高い血液学的サブタイプシグナルを有する非がん試料を取り除くことを通じてがん分類を調整する方式として有益となり得る。上記のように、メチル化シグナルは、複数のCpGサイトをカバーすることができ、それにより高ベクトル空間を生み出す。血液学的サブタイプ試料および非がん試料を用いて、解析システムは、主成分分析を実施することができる。主成分分析は、試料の中でメチル化シグナルの分散の順でベクトル空間の直交主成分(または、埋め込み)を識別する。グラフの横軸にV1として示されている第1の主成分は、最も高い分散を有し、グラフの縦軸にV2として示されている第2の主成分は、次に高い分散を有する。グラフ900には、各血液学的サブタイプおよび非がんについて試料のクラスタが注釈されている。示されている血液学的サブタイプは、循環リンパ、固体リンパ、形質細胞、および骨髄を含む。固体リンパサブタイプは、HL、NHL無痛性、およびNHLアグレッシブにさらに分割され得る。グラフは、血液学的サブタイプに従って、マルチクラスがん分類に血液学的サブタイプを加えるために、またはがん分類器を調整するために血液学的サブタイプのそれぞれをモデル化するためのいずれかに、分類するための可能性を示す。
【0220】
V.A.高シグナル非がん試料の除去
図23Aは、1つまたは複数の実施形態による、バイナリがん分類のためのバイナリ閾値カットオフを決定するプロセス1000を説明しているフローチャートを示す。がんと非がんとの間で予測するためのバイナリ分類は、決定されたバイナリ閾値カットオフに対して試料のがんスコアを評価し、バイナリ閾値カットオフ未満のがんスコアをもつ試料は、非がんであると決定され、バイナリ閾値カットオフ以上のがんスコアをもつ試料は、がんであると決定される。訓練されたマルチクラスがん分類器は、試料のメチル化シグナル(および/または他のシーケンシングデータ)を評価して、マルチクラスがん分類器によって分類された、いくつかのTOOラベルの確率を決定する。マルチクラスがん分類器において使用されるTOOラベルは、がん組織タイプまたはがん組織サブタイプ(たとえば、上記で説明された血液学サブタイプ)であることが可能である。プロセス1000は、解析システムによって実行または達成できる。
【0221】
解析システムは、cfDNA断片を含んでいる複数の生物試料のシーケンシングデータを受信し1010、生物試料は、がん試料および非がん試料を含む。シーケンシングデータは、メチル化シーケンシングデータ、SNPシーケンシングデータ、別のDNAシーケンシングデータ、RNAシーケンシングデータなどであり得る。
【0222】
各非がん試料について、解析システムは、シーケンシングから導出された特徴量に基づいて、マルチクラスがん分類器を使用して非がん試料を分類し1020、マルチクラスがん分類器は、複数のTOOラベルの各々の確率を予測する。解析システムは、考慮中の各CpGサイトに対して、そのCpGサイトと重複している少なくとも1つの異常メチル化cfDNA断片に基づいて異常スコアを割り当てる、非がん試料の特徴量ベクトルを生成することができる。
【0223】
各非がん試料について、解析システムは、1つまたは複数のTOOラベルのために、予測された確率尤度がTOO閾値を超えるかどうかを決定する1030。TOO閾値決定については、
図23Bにおいて以下でさらに説明される。
【0224】
解析システムは、がんの存在を予測するためのバイナリ閾値カットオフを決定し1040、バイナリ閾値カットオフは、少なくとも1つのTOO閾値を超える確率尤度を有するものとして識別された1つまたは複数の非がん試料を除く、非がん試料の分布に基づいて決定される。TOOラベルに対応するTOO閾値を超えるそのTOOラベルについて少なくとも1つの確率尤度を有する非がん試料は、除外される。解析システムは、次いで、各非がん試料のがんスコアに従って非がん試料の分布を計算し、次いで、分布から、所望の特異度レベル(たとえば、99.4~99.9%の特異度)においてバイナリ閾値カットオフを決定する。各がんスコアは、シーケンシングデータに従って決定でき、たとえば、がんスコアは、本明細書で説明されるように、メチル化シーケンシングデータに基づいてがんの尤度を予測するバイナリがん分類器によって出力できることに留意されたい。他の実施形態では、がんスコアは、少なくともシーケンシングデータ(たとえば、メチル化、単一ヌクレオチド多型(SNP)、DNA、RNAなど)を入力し、入力シーケンシングデータに基づいて試料ががんを有する尤度を出力する、他の方法に従って計算できる。
【0225】
図23Bは、1つまたは複数の実施形態による、バイナリがん分類のためのバイナリ閾値カットオフを決定するためのTOOラベルを閾値処理するプロセス1005を説明しているフローチャートを示す。このプロセス1005は、プロセス1000の実施形態であることが可能である。がんと非がんとの間で予測するためのバイナリ分類は、決定されたバイナリ閾値カットオフに対して試料のがんスコアを評価し、バイナリ閾値カットオフ未満のがんスコアをもつ試料は、非がんであると決定され、バイナリ閾値カットオフ以上のがんスコアをもつ試料は、がんであると決定される。訓練されたマルチクラスがん分類器は、試料のメチル化シグナル(および/または他のシーケンシングデータ)を評価して、マルチクラスがん分類器によって分類された、いくつかのTOOラベルの確率を決定する。TOOラベルは、がん組織タイプ、またはより詳細にはがん組織サブタイプ(たとえば、上記で説明された血液学サブタイプ)であることが可能である。プロセス1005は、解析システムによって実行または達成できる。
【0226】
解析システムは、がんまたは非がんのラベルを有する複数の試料、すなわち、それぞれ、がん試料または非がん試料のいずれかを含む訓練セット、およびがんまたは非がんのラベルを有する複数の試料を含む持ちこたえたセットを取得する1015。訓練セット中の各試料は、たとえば、
図3のプロセス300に従って生成された、メチル化シーケンシングデータを含む。他の実施形態では、各訓練試料は、メチル化シーケンシングデータのタンデムでまたは置換で使用される他のシーケンシングデータを有する。その上、訓練セットおよび持ちこたえたセットからの各試料は、がんスコアを有する。上述されたように、がんスコアは、試料のメチル化シーケンシングデータが与えられれば、試料ががんを有する尤度としてバイナリ分類器によって決定できる。他の実施形態では、がんスコアは、本明細書で説明される混合モデルによって例示される、少なくともシーケンシングデータ(たとえば、メチル化、単一ヌクレオチド多型(SNP)、DNA、RNAなど)を入力し、入力シーケンシングデータに従って試料ががんを有する尤度を出力する、他の方法に従って計算される。
【0227】
解析システムは、各非がん訓練試料について、メチル化シーケンシングデータに基づいて特徴量ベクトルを決定する1025。解析システムは、たとえば、考慮されるCpGサイトのセット中の各CpGサイトの異常スコアを決定することによって、各非がん訓練試料の特徴量ベクトルを決定することができる。いくつかの実施形態では、解析システムは、CpGサイトを包含する異常断片のセット中の異常断片があるかどうかに基づいて、バイナリスコアを用いて特徴量ベクトルの異常スコアを定義する。試料についてすべての異常スコアが決定されると、解析システムは、考慮される各CpGサイトと関連付けられた異常スコアのベクトルとして特徴量ベクトルを決定する。解析システムは、試料の被覆度に基づいて特徴量ベクトルの異常スコアをさらに正規化することができる。
【0228】
解析システムは、各非がん訓練試料の特徴量ベクトルをマルチクラスがん分類器に入力して、TOO予測を生成する1035。マルチクラスがん分類器は、がんタイプ、がんサブタイプ、非がん、またはそれらの任意の組み合わせを含む、複数のTOOラベル上で訓練される。マルチクラスがん分類器は、本明細書で説明されるように訓練できる。訓練されたマルチクラスがん分類器は、がん予測として、TOOラベルについて複数の確率を決定し、TOOラベルの確率は、TOOラベルに対応するがんを有する尤度を示す。
【0229】
いくつかの例では、解析システムは、TOOラベルの確率の範囲にわたって特異度率および感度率を計算する候補TOO閾値として、TOOラベルの確率の範囲にわたって掃引または反復する1045。解析システムは、たとえば、0.01、0.02、0.03、0.04、0.05などで、増分的に確率の範囲にわたって掃引することができる。解析システムが確率の範囲にわたって掃引すると、解析システムは、マルチクラスがん分類器の出力に従って、候補TOO閾値以上のTOOラベルの確率を有する非がん訓練試料をフィルタリングする。数値の例として、解析システムは、0.35の候補TOO閾値を考慮する。0.35以上のTOOラベルの確率をもつ非がん訓練試料は、訓練セットからフィルタリング除去される。解析システムは、フィルタリングされた訓練セットに基づいて、調整されたバイナリ閾値カットオフを決定する。解析システムは、持ちこたえたセットに対して、調整されたバイナリ閾値カットオフを用いて、予測の特異度率を計算する。特異度は、非がん試料を非がんラベルとして識別する精度を指す。解析システムはまた、持ちこたえたセットに対して、調整されたバイナリ閾値カットオフを用いて、予測の感度率を計算する。感度は、がん試料をがんラベルとして識別する精度を指す。実際には、特異度率および/または感度率は、真陽性率、偽陽性率、真陰性率、偽陰性率、別の統計計算などに従って定義され得る。
【0230】
解析システムは、TOOラベルのTOO閾値を決定する1055。解析システムは、候補TOO閾値の範囲にわたって、計算された特異度率および/または感度率を最適化することによって、候補TOO閾値からTOO閾値を選択する。いくつかの例では、TOO閾値は、血液学クラスなど、いくつかのTOO組織タイプクラスまたはサブタイプクラスのために決定されるかまたは他の方法で適用される。単に例として、TOO特異的な確率閾値を計算および適用するためのアルゴリズムを使用して、血液障害の超過シグナルをもつ非がん試料を除去することができる。このアルゴリズムは、事前指定されたTOOラベルごとに、確率値のグリッドにわたって最初に探索することと、あらゆる値について、指定されたTOOラベルの確率以上をもつ非がん試料を除去した後に計算されるバイナリ検出閾値を使用して、持ちこたえたセットの臨床特異度および臨床感度を評価することとを含むことができる。確率グリッドにわたって反復することによって、アルゴリズムは、持ちこたえたセットの臨床特異度と臨床感度との間のトレードオフを最適化する、事前指定されたTOOラベルのためのTOO閾値の組み合わせを識別する。最終的な最適化されたTOO確率閾値は、TOOラベルが与えられれば、値のいずれかを超える非がん試料をフィルタリング除去するために使用される。非がん試料のクリーニングされたセットは、がん-非がん検出閾値を計算するために使用される。それでも、いくつかの例では、TOO特異的な閾値処理は、所望の特異度レベル(たとえば、99.4~99.9%の特異度)など、何らかのカットポイントにおいて手動で設定できる。
【0231】
解析システムは、バイナリ閾値カットオフを決定する前に、TOO閾値処理を超えている非がん訓練試料を取り除くことによってバイナリがん分類を調整する1065。解析システムは、TOOラベルのための決定されたTOO閾値に従って、訓練セットから非がん訓練試料をフィルタリング除去する。解析システムは、フィルタリングされた訓練セットに従ってバイナリ閾値カットオフを設定する。たとえば、解析システムは、スコアのフィルタリングされた分布に基づいて、新しいバイナリ閾値カットオフを決定する。追加の実施形態では、解析システムは、バイナリがん分類を調整するために、ステップ1010、1020、1030、および1040に従ってTOOラベルのいずれかのためのTOO閾値を決定することができる。
【0232】
V.B.TOOシグナルによる試料分布の階層化
1つまたは複数の実施形態では、解析システムは、TOOシグナルに従って試料分布を階層化して各階層のバイナリ閾値カットオフを決定することによって、がん分類器を調整する。解析システムは、マルチクラスがん分類器によって出力されたTOO予測に従って決定される1つまたは複数のTOOラベルのためのシグナルに従って、試料分布を階層化し得る。
【0233】
本明細書で使用されるとき、「高組織シグナル」は、何らかの閾値を超える、たとえば、一般に任意のタイプの組織のための、またはTOOラベルとも呼ばれる特定のがんタイプのための、組織シグナルをもつ試料を指す。組織シグナルは、健常な分布と比較して、マルチクラスがん分類器または他の手法によって決定され得る。高組織シグナルをもつ非がん試料は、非がん分布における異常値である。これらの非がん試料のいくつかは、前がん、早期がん、または診断未確定のがんであり得る。解析システムは、少なくとも1つのTOOラベルにおいて高組織シグナルをもつ非がん試料を識別することができる。高組織シグナルを決定する1つの手法では、マルチクラスがん分類器によって出力されたTOOラベルの予測値が、組織シグナル閾値に対して比較される。組織シグナル閾値を上回る予測値をもつ試料は、そのTOOラベルの高組織シグナルを有すると見なされるが、組織シグナル閾値を下回る予測値をもつ試料は、そのTOOラベルの高組織シグナルを有しない(または低組織シグナル)と見なされる。別の手法では、TOO予測における1つまたは複数の最上位予測が考慮される。たとえば、試料のTOO予測は、結腸直腸TOOラベルの第1の予測、乳房TOOラベルの第2の予測、および頭/頸部TOOラベルの第3の予測を有する。最上位予測が考慮される場合、試料は、第1の予測におけるTOOラベルの高組織シグナルを有すると見なされ、それは、本例では結腸直腸TOOラベルである。最上位の2つの予測が考慮される場合、結腸直腸TOOラベルと乳房TOOラベルの両方において高組織シグナルがある。組織シグナルを決定する他の手法は、1つまたは複数のTOOラベルのための組織シグナルを決定するように訓練された他のモデルを含み得る。そのようなモデルは、TOOラベルのサブセットのための組織シグナルを決定するように訓練された分類器を含み得る。たとえば、血液学特異的分類器を訓練および使用して、1つまたは複数の血液学サブタイプのための組織シグナルを決定し得る。他のモデルは、メチル化シーケンシングデータ(および/または他のタイプのシーケンシングデータ)から組織シグナルを逆畳み込みすることができる逆畳み込みモデルを含む。
【0234】
次に
図32を参照すると、
図32は、1つまたは複数の実施形態による、血液学シグナルを2つの階層に階層化するためのプロセスを示す。以下の説明では、血液学シグナルを用いた階層化を説明するが、原理は他のTOOシグナルに容易に適用され得る。
【0235】
解析システムは、血液学シグナルに従ってがん試料および非がん試料の持ちこたえたセットを低シグナル階層1310および高シグナル階層1320に階層化する1300A。持ちこたえたセットの各試料は、バイナリがん分類器によって決定されたがんスコア、およびマルチクラスがん分類器によって決定されたTOO予測を有する。一実施形態では、試料の血液学シグナルは、マルチクラスがん分類器によって出力されたTOO予測に従って決定される。一実施形態では、1つまたは複数の最上位予測(たとえば、最上位の1つ、最上位の2つなど)を考慮するとき、考慮されている最上位予測のうちの少なくとも1つが血液学サブタイプ(たとえば、リンパ腫瘍サブタイプおよび骨髄腫瘍サブタイプ)のうちの1つである場合、高血液学シグナルが決定される。他の血液学サブタイプが含まれ得る。したがって、試料が、最上位予測のうちの少なくとも1つがリンパ腫瘍サブタイプまたは骨髄腫瘍サブタイプとして考慮されているTOO予測を有する場合、試料は、高血液学シグナルを有すると決定される。他の場合、試料は、高血液学シグナルを有しないと決定される。
【0236】
解析システムは、試料のがんの有無を予測するための各階層のバイナリ閾値カットオフを決定する。低シグナル階層1310中の試料は、低シグナル階層1310中の試料中のがんの有無を予測するためのバイナリ閾値カットオフを決定する1305ために解析システムによって使用される。バイナリ閾値カットオフは、低シグナル階層1310の偽陽性バジェットセットに従って決定される1305。低シグナル階層1310中の試料のがんスコアを用いて、解析システムは、候補バイナリ閾値カットオフの範囲にわたって掃引し、各候補バイナリ閾値カットオフにおいて真陽性率(感度とも呼ばれる)および偽陽性率を評価する。偽陽性バジェット内で最も近い偽陽性率をもつ候補バイナリ閾値カットオフは、候補バイナリ閾値カットオフであると決定される。解析システムは、高シグナル階層1320のバイナリ閾値カットオフを決定する1315ために同様の操作を実行する。低シグナル階層1310の偽陽性バジェット、および高シグナル階層1320の偽陽性バジェットは、階層の統計的な真陽性率の比に従って設定され得る。この比は、高シグナル階層1320における偽陽性率を抑制することを目的とする。
【0237】
試験試料について、解析システムは、血液学シグナルに従って試験試料を低シグナル階層1310または高シグナル階層1320のいずれかの中に配置する。試験試料が低シグナル階層1310中に配置された場合、解析システムは、低シグナル階層1310のバイナリ閾値カットオフを試験試料のがんスコアに適用する1315。がんスコアが低シグナル階層1310のバイナリ閾値カットオフ以上である場合、解析システムは、試験試料中のがん存在の予測を返し、他の場合は、がんなしの予測を返す。試験試料が高シグナル階層1320中に配置された場合、低シグナル階層1320のバイナリ閾値カットオフが試験試料のがんスコアに適用される1325。がんスコアが高シグナル階層1320のバイナリ閾値カットオフ以上である場合、解析システムは、試験試料中のがん存在の予測を返し、他の場合は、がんなしの予測を返す。
【0238】
VI.循環セルフリーゲノムアトラス研究
様々な実施形態では、各予測がんモデルは、循環セルフリーゲノムアトラス(CCGA)研究の患者の訓練サブセットから導出された訓練データのセットを使用して訓練され(非特許文献1を参照されたい)、次いでその後、CCGA研究からの患者の試験または検証サブセットから導出された試験または検証データのセットを使用して試験される。
【0239】
本明細書で説明される予測がんモデルは、循環セルフリーゲノムアトラス(CCGA)研究からの複数の既知のがんタイプを使用して訓練された。CCGA試料セットは、以下のがんタイプ、すなわち、乳房、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ腫、頭頸部、卵巣、肝胆、黒色腫、子宮頸部、多発性骨髄腫、白血病、甲状腺、膀胱、胃、および肛門直腸を含んだ。したがって、モデルは、1つ以上、2つ以上、3つ以上、4つ以上、5つ以上、10個以上、または20個以上の異なるタイプのがんを検出するための多がんモデル(または多がん分類器)であることが可能である。
予測がんモデルは、CCGA研究の患者の第1のサブセットから導出された訓練データの改良セットを使用して訓練され、次いでその後、CCGA研究からの患者の第2のサブセットから導出された試験データの改良セットを使用して試験できる。
【0240】
VII.がんアッセイパネル
様々な実施形態では、本明細書で説明される予測がんモデルは、複数のプローブまたは複数のプローブペアを含むがんアッセイパネルを使用して濃縮された試料を使用する。たとえば、(参照により本明細書に組み込まれる)2019年4月2日に出願された特許文献5、2019年9月27日に出願された特許文献6、および2020年1月24日に出願された特許文献7に記載されているように、いくつかの標的がんアッセイパネルが当技術分野で既知である。たとえば、いくつかの実施形態では、がんアッセイパネルは、がんの診断に関連する情報を一緒に提供することができる断片を捕捉することができる複数のプローブ(またはプローブペア)を含むように設計できる。いくつかの実施形態では、パネルは、プローブの少なくとも50、100、500、1,000、2,000、2,500、5,000、6,000、7,500、10,000、15,000、20,000、25,000、または50,000個のペアを含む。他の実施形態では、パネルは、少なくとも500、1,000、2,000、5,000、10,000、12,000、15,000、20,000、30,000、40,000、50,000、または100,000個のプローブを含む。複数のプローブは、一緒に、少なくとも100,000、200,000、400,000、600,000、800,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、または10,000,000個のヌクレオチドを含むことができる。プローブ(またはプローブペア)は、がん試料および非がん試料中で分化的にメチル化された1つまたは複数のゲノム領域を標的にするように特に設計される。標的ゲノム領域は、(シーケンシングバジェットおよびシーケンシングの所望の深度によって決定される)サイズバジェットに従う、分類精度を最大化するように選択できる。
【0241】
がんアッセイパネルを使用して濃縮された試料は、標的シーケンシングを受けることができる。がんアッセイパネルを使用して濃縮された試料は、概してがんの有無を検出し、および/またはがんタイプなどのがん分類、I、II、III、もしくはIVなどのがんのステージを提供するか、もしくはがんに由来すると考えられる原発組織を提供するために使用できる。目的に応じて、パネルは、一般的がん性(汎がん)試料と非がん性試料との間で、または特定のがんタイプをもつがん性試料(たとえば、肺がん特異的な標的)のみの中で分化的にメチル化されたゲノム領域を標的にするプローブ(またはプローブペア)を含むことができる。特に、がんアッセイパネルは、がんおよび/または非がんの個体からのセルフリーDNA(cfDNA)またはゲノムDNA(gDNA)から生成されたバイサルファイトシーケンシングデータに基づいて設計される。
【0242】
いくつかの実施形態では、本明細書で提供される方法によって設計されるがんアッセイパネルは、プローブの少なくとも1,000個のペアを含み、それらの各ペアは、30ヌクレオチド断片を含む重複配列によって互いに重複するように構成された2つのプローブを含む。30ヌクレオチド断片は少なくとも5つのCpGサイトを含み、これらの少なくとも5つのCpGサイトの少なくとも80%は、CpGまたはUpGのいずれかである。30ヌクレオチド断片は、がん性試料中の1つまたは複数のゲノム領域に結合するように構成され、これらの1つまたは複数のゲノム領域は、異常メチル化パターンをもつ少なくとも5つのメチル化サイトを有する。別のがんアッセイパネルは少なくとも2,000個のプローブを含み、それらの各々は、1つまたは複数のゲノム領域に対してコンプリメンタリーなハイブリダイゼーションプローブとして設計される。ゲノム領域の各々は、それが(i)少なくとも30個のヌクレオチド、および(ii)少なくとも5つのメチル化サイトを含むという基準に基づいて選択され、少なくとも5つのメチル化サイトは、異常メチル化パターンを有し、低メチル化されているかまたは高メチル化されているかのいずれかである。
【0243】
プローブ(またはプローブペア)の各々は、1つまたは複数の標的ゲノム領域を標的にするように設計される。標的ゲノム領域は、ノイズおよび非特異的結合を減少させながら、関連するcfDNA断片の選択的濃縮を増加させるように設計された、いくつかの基準に基づいて選択される。たとえば、パネルは、がん性試料中で分化的にメチル化されたcfDNA断片を選択的に結合しそれを濃縮することができるプローブを含むことができる。この場合、濃縮された断片のシーケンシングは、がんの診断に関連する情報を提供することができる。さらに、プローブは、検出の追加の選択性および特異度を提供するために、異常メチル化パターンおよび/または高メチル化もしくは低メチル化パターンを有すると決定されたゲノム領域を標的にするように設計できる。たとえば、ゲノム領域は、ゲノム領域が、非がん性試料のセット上で訓練されたマルコフモデルに従って低p値をもつメチル化パターンを有するときに選択でき、これは、少なくとも5つのCpGをさらに被覆し、それの90%はメチル化されているかまたは非メチル化されているかのいずれかである。他の実施形態では、ゲノム領域は、本明細書で説明されるように、混合モデルを利用して選択できる。
【0244】
プローブ(またはプローブペア)の各々は、少なくとも25bp、30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp、または90bpを含むゲノム領域を標的にすることができる。ゲノム領域は、20、15、10、8、または6個未満のメチル化サイトを含んでいることによって選択できる。ゲノム領域は、少なくとも5つのメチル化(たとえば、CpG)サイトの少なくとも80、85、90、92、95、または98%が、非がん性またはがん性試料中でメチル化されているかまたは非メチル化されているかのいずれかであるときに選択できる。
【0245】
ゲノム領域は、それらのメチル化パターン、たとえば、がん性試料と非がん性試料との間で分化的にメチル化された(たとえば、がん対非がんにおいて異常にメチル化または非メチル化された)CpGサイトに基づいて、情報性がある可能性があるもののみを選択するようにさらにフィルタリングされ得る。選択のために、各CpGサイトに関して計算が実行できる。いくつかの実施形態では、そのCpGと重複している断片を含むがん含有試料の数(がんカウント)である第1のカウントが決定され、そのCpGと重複している断片を含有している全試料の数(合計)である第2のカウントが決定される。ゲノム領域は、そのCpGと重複する断片を含むがん含有試料の数(がんカウント)に正に相関され、そのCpGと重複している断片を含有している全試料の数(合計)と逆相関された基準に基づいて選択できる。
【0246】
一実施形態では、CpGサイトと重複している断片を有する非がん性試料の数(nnon-cancer)およびがん性試料の数(ncancer)がカウントされる。次いで、試料ががんであるという確率が、たとえば(ncancer+1)/(ncancer+nnon-cancer+2)として推定される。このメトリックによるCpGサイトは、パネルサイズバジェットが枯渇するまで、ランク付けされ、パネルにグリーディに追加される。
【0247】
アッセイが汎がんアッセイであることを意図されているか単一がんアッセイであることを意図されているかに応じて、またはどのCpGサイトがパネルに寄与するかを選ぶときにどんな種類のフレキシビリティが所望されるかに応じて、どの試料ががんカウントのために使用されるかは変化することができる。特定のがんタイプ(たとえば、TOO)を診断するためのパネルは、同様のプロセスを使用して設計できる。この実施形態では、がんタイプごとに、およびCpGサイトごとに、そのCpGサイトを標的にするプローブを含むべきかどうかを決定するための情報利得が計算される。情報利得は、与えられたがんタイプをもつ試料について、すべての他の試料と比較して計算される。たとえば、2つのランダム変数、「AF」および「CT」。「AF」は、特定の試料中に特定のCpGサイトと重複している異常断片があるかどうか(はい、または、いいえ)を示すバイナリ変数である。「CT」は、がんが特定のタイプであるかどうか(たとえば、肺がんであるか肺以外のがんであるか)を示すバイナリランダム変数である。「AF」が与えられれば、「CT」に関して相互情報量を計算することができる。すなわち、特定のCpGサイトと重複している異常断片があるかどうかを知った場合、がんタイプ(本例では肺対非肺)に関していくつの情報ビットが獲得されるか。これは、CpGが特定のがんタイプ(たとえば、TOO)についてどのくらい特異的であるか基づいてそれらをランク付けするために使用できる。この手順は、複数のがんタイプについて繰り返される。たとえば、特定の領域が、通常は肺がんのみにおいて分化的にメチル化される(および他のがんタイプまたは非がんではそのようにメチル化されない)場合、その領域中のCpGは、肺がんについて高い情報利得を有する傾向があるはずである。がんタイプごとに、CpGサイトは、そのがんタイプのサイズバジェットが枯渇するまで、この情報利得メトリックによってランク付され、次いで、パネルにグリーディに追加されるであろう。
【0248】
閾値よりも小さいオフターゲットゲノム領域を有する標的ゲノム領域を選択するために、さらなるフィルタリングが実行できる。たとえば、ゲノム領域は、15、10または8個未満のオフターゲットゲノム領域があるときのみ選択される。他の場合には、フィルタリングは、標的ゲノム領域の配列がゲノム中に5、10、15、20、25、または30回よりも多く現れるときにゲノム領域を除去するように実行される。さらなるフィルタリングは、標的ゲノム領域に90%、95%、98%もしくは99%相同の配列が、ゲノム中に15、10もしくは8回未満現れるときに標的ゲノム領域を選択するか、または標的ゲノム領域に90%、95%、98%もしくは99%相同の配列が、ゲノム中に5、10、15、20、25、もしくは30回よりも多く現れるときに標的ゲノム領域を除去するように実行できる。これは、望ましくなくアッセイ効率に影響を及ぼす可能性がある、オフターゲット断片をプルダウンする可能性がある繰り返しプローブを除外するためである。
【0249】
いくつかの実施形態では、プルダウンの無視できない量を達成するために、少なくとも45bpの断片プローブ重複が必要とされることが示された(ただし、この数はアッセイ詳細に応じて異なることができる)。さらに、重複領域中のプローブと断片配列との間の10%を超える不一致率が、結合と、したがってプルダウン効率とを大幅に途絶させるのに十分であることが示唆された。したがって、少なくとも90%の一致率で少なくとも45bpに沿ってプローブに整合することができる配列は、オフターゲットプルダウンのための候補である。したがって、一実施形態では、そのような領域の数はスコアリングされる。最良のプローブは1のスコアを有し、これは、それらがただ1つの場所(意図された標的領域)において一致することを意味する。低いスコア(たとえば、5または10未満)をもつプローブは受け付けられるが、このスコアを上回るどんなプローブも廃棄される。特定の試料のために他のカットオフ値が使用できる。
【0250】
様々な実施形態では、選択された標的ゲノム領域は、限定はされないが、エクソン、イントロン、遺伝子間領域、および他の部分を含む、ゲノム中の様々な位置に位置特定できる。いくつかの実施形態では、ウイルスゲノム領域を標的にするものなど、人間でないゲノム領域を標的にするプローブが追加できる。
【0251】
VIII.がん適用例
いくつかの実施形態では、本開示の方法、解析システムおよび/または分類器は、がんの存在(もしくは不在)を検出するか、がんの進行もしくは再発を監視するか、療法的反応もしくは有効性を監視するか、存在を決定するかもしくは微小残存病変(MRD)を監視するために、またはそれらの任意の組み合わせのために使用できる。いくつかの実施形態では、解析システムおよび/または分類器は、がんの原発組織を識別するために使用できる。たとえば、システムおよび/または分類器は、以下のがんタイプ、すなわち、頭頸部がん、肝臓/胆管がん、上部消化管がん、膵/胆嚢がん、結腸直腸がん、卵巣がん、肺がん、多発性骨髄腫、リンパ腫瘍、黒色腫、肉腫、乳がん、および子宮がん、のいずれかのようながんを識別するために使用できる。たとえば、本明細書で説明されるとき、分類器は、試料特徴量ベクトルががんをもつ対象からであるという尤度または確率スコア(たとえば、0から100まで)を生成するために使用できる。いくつかの実施形態では、確率スコアは、対象ががんを有するか否かを決定するために閾値確率と比較される。他の実施形態では、尤度または確率スコアは、疾患の進行を監視するかまたは治療有効性(たとえば、療法的有効性)を監視するために、異なる時点において(たとえば、治療の前または後に)査定できる。さらに他の実施形態では、尤度または確率スコアは、臨床決定(たとえば、がんの診断、治療選択、治療有効性の査定など)を行うかまたはそれに影響を及ぼすために使用できる。たとえば、一実施形態では、尤度または確率スコアが閾値を超える場合、医師は、適切な治療を処方することができる。いくつかの実施形態では、たとえば、患者が疾患状態(たとえば、がん)、疾患のタイプ(たとえば、がんのタイプ)、および/または疾患原発組織(たとえば、がん原発組織)を有するという確率スコアを含むそれらの試験結果を患者に提供するために、試験レポートが生成されることが可能である。
【0252】
IX.A.がんの早期検出
いくつかの実施形態では、本開示の方法および/または分類器は、がんを有することを疑われる対象の中のがんの有無を検出するために使用される。たとえば、(本明細書で説明される)分類器は、試料特徴量ベクトルががんを有する対象からであるという尤度または確率スコアを決定するために使用できる。
【0253】
一実施形態では、60以上の確率スコアは、対象ががんを有することを示すことができる。さらに他の実施形態では、65以上、70以上、75以上、80以上、85以上、90以上、または95以上の確率スコアは、対象ががんを有することを示した。他の実施形態では、確率スコアは、疾患の重篤度を示すことができる。たとえば、80の確率スコアは、80未満のスコア(たとえば、70のスコア)と比較して、がんのより重篤な形態、または後期ステージを示すことができる。同様に、経時的な(たとえば、第2の後の時点における)確率スコアの増加は、疾患の進行を示すことができるか、または経時的な(たとえば、第2の後の時点における)確率スコアの減少は、成功した治療を示すことができる。
【0254】
別の実施形態では、がん対数オッズ比は、本明細書で説明されるように、試験対象について、非がん性である(すなわち、1からがん性である確率を引いた)確率に対する、がん性である確率の比の対数を取ることによって計算できる。この実施形態によれば、1よりも大きいがん対数オッズ比は、対象ががんを有することを示すことができる。さらに他の実施形態では、1.2よりも大きい、1.3よりも大きい、1.4よりも大きい、1.5よりも大きい、1.7よりも大きい、2よりも大きい、2.5よりも大きい、3よりも大きい、3.5よりも大きい、または4よりも大きいがん対数オッズ比は、対象ががんを有することを示した。他の実施形態では、がん対数オッズ比は、疾患の重篤度を示すことができる。たとえば、2よりも大きいがん対数オッズ比は、2未満のスコア(たとえば、1のスコア)と比較して、がんのより重篤な形態、または後期ステージを示すことができる。同様に、経時的な(たとえば、第2の後の時点における)がん対数オッズ比の増加は、疾患の進行を示すことができるか、または経時的な(たとえば、第2の後の時点における)がん対数オッズ比の減少は、成功した治療を示すことができる。
【0255】
本開示の態様によれば、本開示の方法およびシステムは、複数のがんインジケーションを検出または分類するように訓練できる。たとえば、本開示の方法、システムおよび分類器は、1つ以上、2つ以上、3つ以上、5つ以上、または10個以上の異なるタイプのがんの存在を検出するために使用できる。
【0256】
いくつかの実施形態では、がんは、頭頸部がん、肝臓/胆管がん、上部消化管がん、膵/胆嚢がん、結腸直腸がん、卵巣がん、肺がん、多発性骨髄腫、リンパ腫瘍、黒色腫、肉腫、乳がん、および子宮がんのうちの1つまたは複数である。
【0257】
IX.B.がんおよび治療監視
いくつかの実施形態では、第1の時点は、がん治療の前(たとえば、切除手術または療法的介入の前)であり、第2の時点は、がん治療の後(たとえば、切除手術または療法的介入の後)であり、本方法は、治療の有効性を監視するために利用される。たとえば、第2の尤度または確率スコアが、第1の尤度または確率スコアと比較して減少した場合、治療は成功したと考慮される。しかしながら、第2の尤度または確率スコアが、第1の尤度または確率スコアと比較して増加した場合、次いで、治療は成功しなかったと考慮される。他の実施形態では、第1の時点と第2の時点の両方は、がん治療の前(たとえば、切除手術または療法的介入の前)である。さらに他の実施形態では、第1の時点と第2の時点の両方は、がん治療の後(たとえば、切除手術または療法的介入の前)であり、本方法は、治療の有効性または治療の有効性の損失を監視するために使用される。さらに他の実施形態では、cfDNA試料が、第1および第2の時点においてがん患者から取得され、たとえば、がんの進行を監視するために、がんが(たとえば、治療後に)寛解しているかどうかを決定するために、残存病変もしくは疾患の再発を監視もしくは検出するために、または治療(たとえば、療法的)有効性を監視するために解析され得る。
【0258】
当業者は、試験試料が、時点の任意の所望のセットにわたってがん患者から取得され、患者のがん状態を監視するために本開示の方法に従って解析され得ることを容易に諒解されよう。いくつかの実施形態では、第1および第2の時点は、約30分など、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、もしくは約24時間など、約1、2、3、4、5、10、15、20、25もしくは約30日など、または約1、2、3、4、5、6、7、8、9、10、11、もしくは12か月など、または約1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5もしくは約30年など、約15分から最高約30年にわたる時間量だけ分離される。他の実施形態では、試験試料は、3か月ごとに少なくとも1回、6か月ごとに少なくとも1回、1年に少なくとも1回、2年ごとに少なくとも1回、3年ごとに少なくとも1回、4年ごとに少なくとも1回、または5年ごとに少なくとも1回、患者から取得されることが可能である。
【0259】
IX.C.治療
さらに別の実施形態では、本明細書で説明されるいずれかの方法から取得された情報(たとえば、尤度または確率スコア)臨床決定(たとえば、がんの診断、治療選択、治療有効性の査定など)を行うかまたはそれに影響を及ぼすために使用できる。たとえば、一実施形態では、尤度または確率スコアが閾値を超える場合、医師は、適切な治療(たとえば、切除手術、放射線療法、化学療法および/または、免疫療法)を処方することができる。いくつかの実施形態では、尤度または確率スコアなどの情報は、医師または対象にリードとして提供できる。
【0260】
(本明細書で説明される)分類器は、試料特徴量ベクトルががんを有する対象からであるという尤度または確率スコアを決定するために使用できる。一実施形態では、尤度または確率が閾値を超えるとき、適切な治療(たとえば、切除手術または療法的)が処方される。たとえば、一実施形態では、尤度または確率スコアが60以上である場合、1つまたは複数の適切な治療が処方される。別の実施形態では、尤度または確率スコアが、65以上、70以上、75以上、80以上、85以上、90以上、または95以上である場合、1つまたは複数の適切な治療が処方される。他の実施形態では、がん対数オッズ比が、がん治療の有効性を示すことができる。たとえば、経時的な(たとえば、治療後の、第2における)がん対数オッズ比の増加は、治療が有効でなかったことを示すことができる。同様に、経時的な(たとえば、治療後の、第2における)がん対数オッズ比の減少は、成功した治療を示すことができる。別の実施形態では、がん対数オッズ比が、1よりも大きいか、1.5よりも大きいか、2よりも大きいか、2.5よりも大きいか、3よりも大きいか、3.5よりも大きいか、または4よりも大きい場合、1つまたは複数の適切な治療が処方される。
【0261】
いくつかの実施形態では、治療は、化学療法薬、標的がん療法薬、分化療法薬、ホルモン療法薬、および免疫療法薬を含む群から選択される1つまたは複数のがん療法薬である。たとえば、治療は、アルキル化薬、代謝拮抗薬、アントラサイクリン、抗腫瘍抗生物質、細胞骨格ディプラスタ(taxans)、トポイソメラーゼ抑制薬、分裂抑制薬、コルチコステロイド、キナーゼ抑制薬、ヌクレオチド類似体、白金ベースの薬およびそれらの任意の組み合わせを含む群から選択される1つまたは複数の化学療法薬であることが可能である。いくつかの実施形態では、治療は、シグナル伝達抑制薬(たとえばチロシンキナーゼおよび成長因子レセプタ抑制薬)、ヒストンデアセチラーゼ(HDAC)抑制薬、レチノイン酸レセプタアゴニスト、プロテアソーム抑制薬、脈管形成抑制薬、ならびにモノクローナル抗体複合体を含む群から選択される1つまたは複数の標的がん療法薬である。いくつかの実施形態では、治療は、レチノイド、たとえば、トレチノイン、アリトレチノインおよびベキサロテンを含む1つまたは複数の分化療法薬である。いくつかの実施形態では、治療は、抗エストロゲン、アロマターゼ抑制薬、プロゲスチン、エストロゲン、抗アンドロゲン、およびGnRHアゴニストまたは類似体を含む群から選択される1つまたは複数のホルモン療法薬である。一実施形態では、治療は、モノクローナル抗体療法、たとえば、リツキシマブ(RITUXAN)およびアレムツズマブ(CAMPATH)、非特異的免疫療法およびアジュバント、たとえば、BCG、インターロイキン-2(IL-2)、およびインターフェロン-α、免疫調節性薬、たとえば、サリドマイドおよびレナリドマイド(REVLIMID)を含む群から選択される1つまたは複数の免疫療法薬である。腫瘍のタイプ、がんステージ、がん治療または療法薬に対する以前の曝露、およびがんの他の特性などの特性に基づいて適切ながん療法薬を選択することは、熟練した医師または腫瘍学者の能力内にある。
【0262】
X.例
X.A.例1-全ゲノムバイサルファイトシーケンシング(WBGS)
第1のCCGA下位研究:
図7A~
図7Cに示されているデータは第1のCCGA下位研究から取得され、ここで、訓練データ血液試料(N=1785)は、プラズマcfDNA抽出のために、(20個の腫瘍タイプおよびすべてのがんステージを含む)がんが未治療であると診断された個体、ならびにがんなしと診断された健常な個体(対照)から収集された。血液試料の別のセット(N=1,010)は、検証に使用されるために収集された。別段に規定されていない限り、第1のCCGA下位研究試料からの抽出されたセルフリーDNA(cfDNA)およびゲノムDNA(gDNA)は、全ゲノムバイサルファイトシーケンシングアッセイを受けた。
【0263】
分類処理では、処理システム200は、断片メチル化状態を、潜在性メチル化パターンの混合物から引き出されることとして扱う。処理システム200は、観測された断片に、特定のがん原発組織に由来するという相対的確率を割り当てる。
【0264】
より詳細には、本明細書で説明されるように、確率モデルは、各がんタイプからの(および非がん試料または健常試料についての)複数の領域(またはウィンドウ)から導出された配列リードに適合された。この場合では、混合モデルが使用され、各混合成分は、(各CpGにおけるメチル化が他のCpGにおけるメチル化から独立している)独立サイトモデルであった。モデルは、1つのがんタイプ(または非がん)から導出されたすべての断片の合計対数尤度を最大化するパラメータのセットを識別するために、最大尤度推定を使用して適合された。
【0265】
領域ごとに、(陰性タイプとして非がんを含む)がんタイプペアごとに、最良に実行する階層が、多項ロジスティック回帰分類器を訓練するために使用された。(ラベルにかかわらず)試料ごとに、領域ごとに、がんタイプごとに、断片ごとに、前に説明されたように、対数尤度比が計算され、「階層」値のセットの各々について、Rcancer
typeをもつ断片の数>階層が定量化された。階層の各々の定量化されたリードは、2値化され、分類器を訓練するための特徴量として使用された。
【0266】
最終的に、規定されていた場合、未知の試料についての予測を生成するために、特徴量値が(上記で説明されたように)決定され、生成された特徴量を使用して、訓練された多項ロジスティック回帰分類器を利用するがんおよび/または原発組織予測を作成した。
【0267】
例示的な混同行列:
図7A、
図7B、および
図7Cは、様々な実施形態による、分類器の精度を示す混同行列を含む。いくつかの実施形態では、処理システム200は、混同行列を使用して分類器の精度を決定する。混同行列は、疾患状態の各々を識別する際の、分類器の成功率を記述する情報を含む。
【0268】
図7Aに示されているように、行列710は、cfDNA試料(組織試料なし)のセットを使用して訓練された多項モデルに基づく分類器の例示的なパフォーマンスを含む。行列720は、cfDNA試料の同じセットを使用して処理システム200によって訓練された混合モデルに基づく分類器の例示的な実行を含む。行列の対角線に沿ったスコアは、正しい予測、すなわち、断片についての予測された原発組織が、真の原発組織に一致する場合を示す。ベースラインとして多項モデルに基づく分類器と比較して、混合モデルに基づく分類器は、行列中に示されているがんのタイプの存在を予測する際の、より大きい全体的な精度を有する。
【0269】
訓練セットの試料は、1つまたは複数の基準(たとえば、特定の特異度レベル)に基づいてフィルタリングできる。たとえば、訓練セットは、mスコアによる98%の特異度に基づいてがんを有すると決定された試料を含む。がんを有すると(間違って)識別された残りの(たとえば、2%の)非がん試料は、明快のために混同行列中に表示されることから除外された。
【0270】
図7Bに示されているように、行列730は、cfDNA試料(組織試料なし)の交差検証訓練セットを使用して訓練された混合モデルに基づく分類器の例示的な実行を含む。行列740は、cfDNAおよび組織試料の交差検証訓練セットを使用して訓練された混合モデルに基づく分類器の例示的な実行を含む。
【0271】
図7Cに示されているように、行列750は、循環セルフリーゲノムアトラス研究(「CCGA」)と題する臨床試験からのcfDNA試料(組織試料なし)のセットを使用して訓練された混合モデルに基づく分類器の例示的な実行を含む。行列740は、CCGAからのcfDNAおよび組織試料のセットを使用して訓練された混合モデルに基づく分類器の例示的な実行を含む。CCGA研究は非特許文献1に記載された。
【0272】
X.B.例2-第2のCCGA下位研究の早期ブレークアウトからの標的バイサルファイトシーケンシングを使用したがんの分類
第2のCCGA下位研究:
図9A~
図9B、
図10A~
図10B、
図11、および
図12に示されているデータは第2のCCGA下位研究からの早期ブレークアウトから取得され、ここで、訓練データ血液試料(N=3,132)は、プラズマcfDNA抽出のために、(20個の腫瘍タイプおよびすべてのがんステージを含む)がんが未治療であると診断された個体、ならびにがんなしと診断された健常な個体(対照)から収集された。血液試料の別のセット(N=1,354)は、検証に使用されるために収集された。いくつかの実施形態では、規定されていた場合、訓練セットは、組織試料(すなわち、gDNA)からの訓練データをも含んだ。解析集団を決定するために、訓練データ血液試料は、いくつかの因子に基づいてフィルタリングされた。たとえば、105個の試料は、臨床的にアンロックされるように除外され、11個の試料は、適格性基準に基づいて除外され、58個の試料は、未確認のがんまたは治療ステータスのために除外され(評価不能)、4つの非処理の試料および72個の評価不能アッセイは、除外され(解析不能)、581個の試料は、将来の解析のために予約済みであった。その結果、2,301個の試料の解析集団は、1,422個のがん試料および879個の非がん試料を含んだ。
【0273】
下位研究における個体の参加者人口統計が、表1において以下に示されている。
【0274】
【0275】
表1:参加者人口統計およびステージ分布。がん群および非がん群は、年齢、人種、性別、およびボディマス指数に関して同等であった(図示されず)。*肛門直腸、膀胱、脳、乳房、子宮頸部、結腸直腸、食道、胃、頭頚部、肝胆、肺、リンパ腫瘍(慢性リンパ性白血病、リンパ腫)、多発性骨髄腫、骨髄腫瘍(急性骨髄性白血病、慢性骨髄性白血病)、卵巣、膵臓、前立腺、腎臓、肉腫、および子宮がんを含む。†喫煙ステータス情報を消失している38人の参加者を除外する。‡BMI値を消失している2人の参加者を除外する。§浸潤がんのみ。¶利用不可能なステージング情報。
【0276】
がん定義および組織定義メチル化シグナルを識別するために、抽出されたcfDNAは、GRAILのプロプライエタリ全ゲノムバイサルファイトシーケンシングアッセイおよびメチル化データベースから識別されるような、メチロームの最も情報性のある領域を標的にするバイサルファイトシーケンシングアッセイを受けた。
【0277】
我々は、21個の腫瘍タイプを表す811個のがん細胞メチロームにわたるゲノム全体の断片レベルメチル化パターに問い合わせるメチル化データベースを使用した(97%のSEERがん発生率)。がん定義メチル化シグナルのメチル化データベースを生成するために、ホルマリン固定パラフィン包埋(FFPE)腫瘍組織からのゲノムDNAおよび腫瘍からの隔離細胞は、全ゲノムバイサルファイトシーケンシングアッセイを受けた。メチル化データベースは、本明細書で説明されるように、分類器の実行を最適化するためのパネル設計および訓練のために使用された。がんおよび非がんの大きいメチル化配列データベースが生成されて、高い特異度で複数のがんを分類し、原発組織を識別することが可能な単一試験のための標的選択が可能になった。
【0278】
標的選択およびパネル設計:標的ゲノム領域は、本明細書で説明されるように、CCGA研究からのメチル化配列データベースを使用して選択された。特に、データベース中のcfDNA配列は、非がん分布を使用してp値に基づいてフィルタリングされ、p<0.001である断片のみが保持された。選択されたcfDNAは、少なくとも90%メチル化または90%非メチル化されていたもののみを保持するようにさらにフィルタリングされた。次に、選択された断片中のCpGサイトごとに、そのCpGサイトと重複している断片を含むがん試料または非がん試料の数がカウントされた。特に、各CpGのP(がん|重複している断片)が計算され、P値が高いゲノムサイトが、一般的ながん標的として選択された。設計によって、選択された断片は、極めてより低いノイズ(すなわち、少数の重複している非がん断片)を有した。
【0279】
がんタイプ特異的標的を発見するために、同様の選択処理が実行された。CpGサイトは、1つのがんタイプをすべての他の試料(すなわち、非がん+他のがんタイプ)に比較して、それらの情報利得に基づいてランク付けされた。本明細書で説明されるように、選択されたゲノム領域を標的にするプローブを含むがんアッセイパネルが生成された。特に、パネルは、一般的に(すなわち、非がんに対して)がんの存在を検出するか、または特定のがんタイプ(たとえば、TOO)の存在を検出するように設計された。パネルは、選択されるゲノム領域の各々を標的にするプローブセットを含む。
【0280】
プローブは、標的領域(たとえば、異常断片)のいずれかの開始/打ち切り範囲内に含まれるCpGサイトのいずれかと重複するように設計された。
【0281】
分類:分類処理では、処理システム200は、断片メチル化状態を、潜在性メチル化パターンの混合物から引き出されることとして扱う。処理システム200は、観測された断片に、がんに由来するという相対的確率を割り当てる。原発組織分類では、処理システム200は、観測された断片に、特定の組織に由来するという相対的確率を割り当てる。処理システム200は、標的領域にわたってがんおよび原発組織を特徴づける断片を組み合わせて、がん対非がんを分類し、および/または原発組織を識別する。バイナリがん分類では、処理システム200は、99%の特異度で感度を推定する。
【0282】
より詳細には、例VI.aにおいて説明されたように、確率モデルは、各がんタイプからの(および非がん試料または健常試料についての)複数の領域(またはウィンドウ)から導出された配列リード、識別された特徴量、および訓練された多項ロジスティック回帰分類器に適合された。未知の試料についての予測を生成するために、特徴量値が(上記で説明されたように)決定され、生成された特徴量を使用して、訓練された多項ロジスティック回帰分類器を利用するがんおよび/または原発組織予測を作成した。
【0283】
図9Aおよび9Bは、本開示で説明される方法によって生成された原発組織分類器の感度を示す。感度は99%の特異度でレポートされ、95%信頼区間が示される。
図9Aは、がんの事前指定されたリストのモデル予測を示している。
図9Bは、CCGA研究に含まれる他のがんのモデル予測を示している。人口統計情報は単独で(ベースラインモデリング)、<5%の参加者を正しく分類した。全体的な感度は、がんの事前指定されたリスト(肛門直腸、乳房[HR陰性]、結腸直腸、食道、胃、頭頚部、肝胆、肺、リンパ腫瘍[慢性リンパ性白血病、リンパ腫]、多発性骨髄腫、卵巣、膵臓)中で76.1%(95%CI:73.1~78.9%)であった。感度は、このコホート中の早期ステージ(I~III)がんにおいて68.8%(95%CI:64.8~72.6%)であった。全体的な感度は、すべてのがんタイプおよびステージにわたって55.1%(95%CI:52.5~57.7%)であった。早期ステージ(I~III)がんでは、感度は43.8%(95%CI:40.7~46.8%)であった。
【0284】
図10Aおよび
図10Bは、様々ながんステージにおける原発組織分類器の感度を示す。説明文に示されているように、集約における当該の事前指定されたがんの個々のステージによる感度は、99%の特異度でレポートされる。ボックス内の数は、各ステージにおいて含まれる試料の合計数を表す。95%信頼区間が示される。「リンパ腫瘍」は、リンパ腫(ステージI~IV)および慢性リンパ性白血病(ステージングなし、「NI」として含まれる)を含む。
【0285】
図11は、原発組織位置特定の精度を表す実行グリッドを示す。ステージI~IV試料のメチル化データベースをもつ原発組織分類器を使用して、試料ごとに、真の(x軸)原発組織と予測された(y軸)原発組織との間の合致がある。傾きのある説明文は、予測された原発組織(y軸)の、正しかった(x軸)割合に対応する。この解析は、原発組織の位置特定の精度(正しかったすべてのTOO予測の断片)が、メチル化データベースを用いるとより高かったことを示した(p=0.0066)。これは、ステージI~III予測において一貫していた、すなわち、表2にさらに示されるように89.9%(384/427)であった。
【0286】
【0287】
表2:原発組織実行はメチル化データベースを含むときに改善する。*p値はスチュアートマクスウェル検定を使用して計算された。†不確定なコールは、がんとして検出されたが、信頼できる原発組織割り当てのない試料として定義された。‡原発組織解析によって呼び出されない試料は非がんとして分類された。
【0288】
有効な多がん試験は、理想的には、極めて高い特異度でステージにわたって臨床的に有意ながんを同時に検出すべきであり(したがって、単一の固定の低い偽陽性率を有するはずであり)、原発組織を正確に決定すべきである。この手法の潜在性を示すために、個々のステージにおける、集約における、がんタイプの事前指定されたリストについての同時検出(99%の特異度でレポートされる感度)および原発組織決定が、
図12に表示される。したがって、
図12は、様々ながんステージにおける原発組織分類器の精度および感度を示す。
【0289】
図13Aおよび
図13Bは、原発組織分類器の受信者操作特性(ROC)曲線を示す。受信者操作特性(ROC)曲線は、99%の特異度で、すべてのがんについて55%の感度を、および多がんについて76%の感度を伴う分類器実行を示す。
【0290】
これらのデータは、標的メチル化特徴量を使用した分類方法が、集団スクリーニングに適した特異度(99%)で、早期ステージにおいて、複数のがんタイプを同時に検出したことを示している。複数のがんの検出は、単一の固定の低い偽陽性率で達成された。この手法はまた、原発組織を正確に位置特定し、それにより、下流の診断ワークアップが合理化されたはずである。さらに、大きいメチル化データベースからデータを取り込むことにより、分類器の実行が改善された。
【0291】
併せて、これは、多数の臨床的に有意ながんタイプの早期多がん検出試験として、本開示で説明される方法の潜在的な臨床適用可能性をサポートする。
【0292】
X.C.例3-完全な第2のCCGA下位研究からの標的バイサルファイトシーケンシングを使用したがんの分類
混合モデル分類器の生成:実行を最大化するために、この例で説明される予測がんモデルは、両方のCCGA下位研究(CCGA1とCCGA2)からの既知のがんタイプおよび非がんからの複数の試料、CCGA1から取得された既知のがんのための複数の組織試料、およびSTRIVE研究(非特許文献2を参照されたい)からの複数の非がん試料から取得された配列データを使用して訓練された。STRIVE研究は、乳がんおよび他の浸潤がんの早期検出のためのアッセイを検証するための、見込みのある多中心の観測コホート研究であり、それから、追加の非がん訓練試料が取得されて、本明細書で説明される分類器が訓練された。CCGA試料セットから含まれる既知のがんタイプは、以下、すなわち、乳房、肺、前立腺、結腸直腸、腎臓、子宮、膵臓、食道、リンパ腫、頭頸部、卵巣、肝胆、黒色腫、子宮頸部、多発性骨髄腫、白血病、甲状腺、膀胱、胃、および肛門直腸を含んだ。したがって、モデルは、1つ以上、2つ以上、3つ以上、4つ以上、5つ以上、10個以上、または20個以上の異なるタイプのがんを検出するための多がんモデル(または多がん分類器)であることが可能である。CCGA研究からの4,841人の参加者(2,836のがん、2,005の非がん)、およびSTRIVE研究からの2,202人の非がん参加者が、この事前指定された解析に含まれた。これらのうち、CCGAからの3,133個の試料は訓練に割り振られ(1,742のがん、1,391の非がん)、1,354個は検証に割り振られた(740のがん、614の非がん)。STRIVEからの1,587個の試料は訓練に割り振られ、615個は検証に割り振られた。参加者傾向が示される。全体的に、訓練における3,052個の試料(1,531のがん、1,521の非がん)、および検証における1,264個の試料(654のがん、610の非がん)は、解析可能であり、事前指定された1次解析集団中にあった。CCGA2下位研究に関する、およびこの例で詳述された解析に関する追加の詳細は、非特許文献3に記載された。
【0293】
以下に示されている分類器実行データは、CCGA2、CCGA下位研究から取得されたがん試料および非がん試料上で、ならびにSTRIVEからの非がん試料上で訓練された、ロックされた分類器のためにレポートされた。CCGA2下位研究における個体は、((参照により本明細書に組み込まれる)2019年4月2日に出願された特許文献5、2019年9月27日に出願された特許文献6および2020年1月24日に出願された特許文献7に記載されているように)標的ゲノムを選択するためにcfDNAが使用されたCCGA1下位研究における個体とは異なっていた。CCGA2研究からは、血液試料は、(20個の腫瘍タイプおよびすべてのがんステージを含む)がんが未治療であると診断された個体、およびがんなしと診断された健常な個体(対照)から収集された。STRIVEでは、血液試料は、女性のスクリーニング乳房X線写真の28日以内に女性らから収集された。セルフリーDNA(cfDNA)は、各試料から抽出され、非メチル化シトシンをウラシルに変換するようにバイサルファイトで処置された。バイサルファイト処置済みcfDNAは、3つのがんアッセイパネル、すなわち、(1)(本明細書では、アッセイパネルAとして本明細書でラベル付けされた)特許文献5に記載および開示された汎がんアッセイパネル#4、(2)(本明細書では、アッセイパネルBとして本明細書でラベル付けされた)特許文献5に記載および開示された汎がんアッセイパネル#5、および(3)大きいプロプライエタリ汎がんアッセイパネル(以下で説明される、アッセイパネルC)中の複数の標的ゲノム領域の各々から導出された、バイサルファイト変換された核酸を濃縮するように設計されたハイブリダイゼーションプローブを使用して、情報性cfDNA分子のために濃縮された。濃縮されたバイサルファイト変換された核酸分子は、Illuminaプラットフォーム(サンディエゴ、カリフォルニア州)上でペアエンドシーケンシングを使用してシーケンシングされ、訓練試料の各々について配列リードのセットが取得され、得られたリードペアは、参照ゲノムに整合され、断片へとアセンブルされ、メチル化および非メチル化CpGサイトが識別された。
【0294】
混合モデルベースの特徴量化
(非がんを含む)がんタイプごとに、確率混合モデルは、与えられた試料タイプにおいて断片が観測される可能性がどのくらいあるかに基づいて、各がんおよび非がん試料からの各断片に確率を割り当てるように訓練および利用された。
【0295】
断片レベル解析
手短には、試料タイプ(がん試料および非がん試料)ごとに、領域ごとに(各領域は、1kbよりも小さい場合はそのまま使用されたか、または他の場合、隣接する領域間で50%の重複がある(たとえば、500塩基対が重複する)長さで1kbの領域に再分割された)、確率モデルは、がんおよび非がんの各タイプについて訓練試料から導出された断片に適合された。試料タイプごとに訓練された確率モデルは、混合モデルであり、3つの混合成分の各々は、各CpGにおけるメチル化が他のCpGにおけるメチル化から独立していると仮定される独立サイトモデルであった。断片は、以下の場合、すなわち、それらが、0.01よりも大きい(非がんマルコフモデルからの)p値を有したか、複製断片としてマークされたか、断片が、(標的メチル化試料のみのための)1よりも大きいバッグサイズを有したか、それらが少なくとも1つのCpGサイトを被覆しなかったか、または断片の長さが1000個のベースよりも大きかった場合、モデルから除外された。保持された訓練断片は、それらが領域からの少なくとも1つのCpGと重複した場合、その領域に割り当てられた。断片が、複数の領域中のCpGと重複した場合、それは、それらのすべてに割り当てられた。
【0296】
局所ソースモデル
各確率モデルは、正則化ペナルティを受けた、各試料タイプから導出されているすべての断片の対数尤度を最大化したパラメータのセットを識別するために、最大尤度推定を使用して適合された。特に、各分類領域において、確率モデルのセットは、各訓練ラベルについて1つずつ(すなわち、各がんタイプについて1つずつ、および非がんについて1つずつ)訓練された。各モデルは、3つの成分をもつベルヌーイ混合モデルの形態をとった。数学的には、
【0297】
【0298】
nは、3に設定された、混合成分の数であり、mi∈{0,1}は、位置iにおける、断片の観測されたメチル化であり、fkは、成分kへの割合の割り当てであり(ただし、fk≧0およびfk=1)、βkiは、CpG iにおける成分kにおけるメチル化断片である。iにわたる積は、メチル化状態がシーケンシングから識別され得る位置のみを含んだ。各モデルのパラメータ{fk,βki}の最大尤度値は、rpropアルゴリズム(たとえば、非特許文献4に記載されたrpropアルゴリズム)を使用することによって推定されて、ベータ分布プライアの形態をとったβki上の正則化ペナルティを受けた、1つの訓練ラベルの断片の合計対数尤度が最大化された。数学的には、最大化された量は次の通りであり、
【0299】
【0300】
rは、1に設定された、正則化強度である。
【0301】
特徴量化
確率モデルが訓練されると、試料ごとに数値特徴量のセットが計算された。特に、特徴量は、各領域中で、各がんタイプおよび非がん試料について、各訓練試料からの各断片について抽出された。抽出された特徴量は、第1のがんモデルの下の対数尤度が、第2のがんモデルまたは非がんモデルの下の対数尤度を少なくとも閾値階層値だけ超えるものとして定義された、異常値断片(すなわち、異常メチル化断片)の記録であった。異常値断片は、各ゲノム領域、試料モデル(すなわち、がんタイプ)、ならびに(階層1、2、3、4、5、6、7、8、および9の)階層について別々に記録され、各試料タイプの領域ごとに9つの特徴量が生じた。このようにして、各特徴量は、3つのプロパティ、すなわち、ゲノム領域と、(非がんを除く)「陽性」がんタイプラベルと、セット{1,2,3,4,5,6,7,8,9}から選択される階層値とによって定義された。各特徴量の数値は、次式のようにその領域中の断片の数として定義され、
【0302】
【0303】
これらの確率は、(対数の分子における)「陽性」がんタイプまたは(分母における)非がんに対応する最大尤度推定されたパラメータ値を使用して式(1)によって定義された。
【0304】
特徴量ランク付け
ペアワイズ特徴量の各セットについて、特徴量は、(特徴量がそれから導出された対数尤度モデルを定義した)第1のがんタイプを第2のがんタイプまたは非がんと区別するそれらの能力に基づいて、相互情報量を使用してランク付けされた。特に、クラスラベルの一意のペアごとに、特徴量の2つのランク付けされたリスト、すなわち、第1のラベルが「陽性」として割り当てられ第2のラベルが「陰性」として割り当てられた1つと、(陰性ラベルとしてのみ許容された「非がん」ラベルを除いて)陽性/陰性割り当てがスワップされたもう1つとがコンパイルされた。これらのランク付けされたリストの各々について、(式(3)におけるような)陽性のがんタイプラベルが、考慮中の陽性ラベルに一致した特徴量のみが、ランク付けに含まれた。そのような特徴量ごとに、非0特徴量値をもつ訓練試料の断片が、陽性ラベルおよび陰性ラベルについて別々に計算された。陽性ラベル中でこの断片がより大きかった特徴量は、クラスラベルのそのペアに関してそれらの相互情報量によってランク付けされた。
【0305】
各ペアワイズ比較からの最上位ランク付けされた256個の特徴量が識別され、各がんタイプおよび非がんのための最終特徴量セットに追加された。冗長性を回避するために、同じ陽性タイプおよびゲノム領域から(すなわち、複数の陰性タイプについて)、2つ以上の特徴量が選択された場合、より高い階層値を選定することによって連結を破壊して、それのがんタイプペアのために最も低い(最も情報性のある)ランクを割り当てられた1つのみが保持された。各試料(がんタイプおよび非がん)の最終特徴量セット中の特徴量はバイナリ化された(0よりも大きい任意の特徴量値は、すべての特徴量が0または1のいずれかになるように、1に設定された)。
【0306】
分類器訓練
訓練試料は、次いで、別個の5フォールド交差検証訓練セットに分割され、2ステージ分類器はフォールドごとに訓練され、各場合において、訓練試料の4/5上で訓練され、残りの1/5は検証に使用された。
【0307】
訓練の第1のステージでは、がんの存在を検出するためのバイナリ(2クラス)ロジスティック回帰モデルが、(TOOにかかわらず)がん試料を非がんから区別するように訓練された。このバイナリ分類器を訓練するとき、試料重みは、訓練セットにおける性別の不平衡を相殺するように、男性の非がん試料に割り当てられた。試料ごとに、バイナリ分類器は、がんの有無の尤度を示す予測スコアを出力する。
【0308】
訓練の第2のステージでは、がん原発組織を決定するための並列マルチクラスロジスティック回帰モデルが、標的ラベルとしてTOOを用いて訓練された。第1のステージ分類器において非がん試料の95パーセンタイルを上回るスコアを受けたがん試料のみが、このマルチクラス分類器の訓練に含まれた。マルチクラス分類器を訓練する際に使用されるがん試料ごとに、マルチクラス分類器は、分類されているがんタイプの予測値を出力し、各予測値は、与えられた試料が特定のがんタイプを有するという尤度である。たとえば、がん分類器は、乳がんの予測スコア、肺がんの予測スコア、および/またはがんなしの予測スコアを含む、試験試料についてのがん予測を返すことができる。
【0309】
バイナリ分類器とマルチクラス分類器の両方が、ミニバッチをもつ確率的勾配降下法によって訓練され、各場合において、訓練は、(交差エントロピー損失によって査定される)検証フォールド上の実行が劣化し始めたときに早期に打ち切られた。訓練セットの外部の試料に対して予測するために、各ステージでは、5つの交差検証分類器によって割り当てられるスコアは平均化された。性別的に不適切ながんタイプに割り当てられたスコアは0に設定され、残りの値は合計すると1になるように再正規化された。
【0310】
訓練セット内の検証フォールドに割り当てられたスコアは、標的のいくつかの実行メトリックにカットオフ値(閾値)を割り当てる際に使用するために保持された。特に、訓練セット非がん試料に割り当てられた確率スコアは、特定の特異度レベルに対応する閾値を定義するために使用された。たとえば、99.4%の所望の特異度標的では、閾値は、訓練セット中の非がん試料に割り当てられた交差検証されたがん検出確率スコアの99.4パーセンタイルに設定された。閾値を超える確率スコアをもつ訓練試料は、がんについて陽性と呼ばれた。
【0311】
その後、がんについて陽性であると決定された訓練試料ごとに、TOOまたはがんタイプ査定がマルチクラス分類器から行われた。最初に、マルチクラスロジスティック回帰分類器は、確率スコアのセットを、各予想がんタイプについて1つずつ、各試料に割り当てた。次に、これらのスコアの信頼度が、試料ごとにマルチクラス分類器によって割り当てられた最も高いスコアと2番目に最も高いスコアとの間の差として査定された。次いで、交差検証された訓練セットスコアを使用して、最も低い閾値を識別し、したがって、最上位2つのスコア差分が閾値を超えている訓練セット中のがん試料のうち、90%は、それらの最も高いスコアとして正しいTOOラベルを割り当てられた。このようにして、訓練中に検証フォールドに割り当てられたスコアをさらに使用して、信頼できるTOOコールと不確定なTOOコールとの間で区別するための第2の閾値を決定した。
【0312】
予測時間において、バイナリ(第1のステージ)分類器から、事前定義された特異度閾値を下回るスコアを受けた試料には、「非がん」ラベルが割り当てられた。残りの試料について、第2のステージ分類器からの最上位2つのTOOスコア差分が、第2の事前定義された閾値を下回ったものには、「不確定ながん」ラベルが割り当てられた。残りの試料には、TOO分類器が最も高いスコアを割り当てたがんラベルが割り当てられた。
【0313】
標的ゲノム領域パネル上での分類器実行
アッセイパネルA~Cの標的ゲノム領域の分化値は、これらの標的ゲノム領域のメチル化ステータスに従ってがんおよび20個の異なるがんタイプのいずれかを検出するがん分類器の能力を試験することによって評価された。アッセイパネルA~Bでは、実行は、表1に示されているように、分類器を訓練するために使用された1,531個のがん試料および1,521個の非がん試料の訓練セットにわたって評価された。アッセイパネルCでは、実行は、アッセイパネルA~Bの訓練において使用された3,052個の試料(1,531のがん、1,521の非がん)の同じセットを使用して訓練された分類器上で、検証における1,264個の試料(654のがん、610の非がん)を使用して評価された。試料ごとに、分化的にメチル化されたcfDNAが、アッセイパネルA~Cに含まれる標的ゲノム領域のすべてを含むベイトセットを使用して濃縮された。分類器は、次いで、評価されているリストの標的ゲノム領域のメチル化ステータスのみに基づいてがん決定を提供することを強制された。(TOOにかかわらず)がん試料を非がんから区別するように訓練されたがんの存在を検出するためのバイナリ(2クラス)ロジスティック回帰分類器モデルと、がん原発組織を決定するための第2のステージ訓練されたマルチクラスロジスティック回帰分類器モデルとを含む2ステージ分類器実施形態は、この例において前に説明されたように、標的ラベルとしてTOOを用いて訓練された。また前に説明されたように、両方の分類器モデルは、モデルベースの特徴量化を使用して訓練および検証された。
【0314】
【0315】
アッセイパネルAおよびB:アッセイパネルAおよびBのための分類器実行解析からの結果が、
図26Aおよび
図27Aに提示される。各図において、部分Aは、がんまたはがんなしの判定についての真陽性結果および偽陽性結果を示す受信者操作者曲線(ROC)である。これらのROC曲線の非対称な形状は、分類器が偽陽性結果を最小化するように設計されていることを示す。アッセイパネルAおよびBの曲線下面積は、両方のアッセイパネルで0.83であった。
【0316】
がんタイプ(すなわちTOO)決定は、がんについて陽性の試験結果を示したすべての試料について、分類器を使用して行われた。
図26Bおよび
図27Bは、それぞれ、アッセイパネルAおよびBのTOO精度の精度を示す混同行列を含む。混同行列は、がんタイプの各々を識別し、不確定ながんコールを除外する際の、分類器の成功率を記述する情報を含む。
【0317】
図26Bおよび
図27Bに示されているように、TOO混同行列は、上記で説明されたように、マルチクラスロジスティック回帰分類器の実行を示す。標的メチル化分類器を使用した試料ごとの実際(x軸)の原発組織と予測された(y軸)原発組織との間の合致が示されている。行列の対角線に沿ったスコアは、正しい予測、すなわち、断片についての予測された原発組織が、真の原発組織に一致する場合を示す。
図26Bに示されているように、がんアッセイパネルAは、不確定ながんコールを除外したとき、約90.8%(711/783)のTOO精度を有した。および
図27Bは、アッセイパネルBが、不確定ながんコールを除外したとき、約90.3%(705/781)のTOO精度を有したことを示している。
【0318】
これらの分類器結果は表2~表3にさらに要約され、これらは、1%の偽陽性率を示す、0.990の特異度で行われたがん検出およびがんタイプ決定の精度を示している。これらの結果はがんステージによって叙述される。それらは、早期ステージがん(たとえば、ステージII)をもつ個体からの試料と比較して、後期ステージがん(たとえばステージIII)をもつ個体からの試料についての改善されたがん検出およびがんタイプ決定を示している。すべてのがんステージ(ステージによる隔離なし)について、がんタイプ決定は、(不確定ながんコールを含む)アッセイパネルAとBの両方で、約89%正解であった。
【0319】
表2.アッセイパネルAのゲノム領域を使用した分類精度。0.990の特異度におけるがんの存在およびがんタイプのデータは、パーセンテージ精度、角括弧中の95%信頼区間、および丸括弧中の合計に対して正しく割り当てられた数を示す。
【0320】
【0321】
表3.アッセイパネルBのゲノム領域を使用した分類精度。0.990の特異度におけるがんの存在およびがんタイプのデータは、パーセンテージ精度、角括弧中の95%信頼区間、および丸括弧中の合計に対して正しく割り当てられた数を示す。
【0322】
【0323】
アッセイパネルC:上述されたように、第3の、大きいプロプライエタリ汎がんアッセイパネルも試験された。アッセイパネルCは、第1のCCGA下位研究CCGA1から取得されたWGBSデータから、(参照により本明細書に組み込まれる)2019年9月27日に出願された特許文献6および2020年1月24日に出願された特許文献7に開示された特徴量選択方法を使用して設計された。大きいプロプライエタリ標的メチル化パネルは、1,116,720個のCpGを被覆している、103,456個の別個の領域(17.2Mb)を被覆した。アッセイパネルCは、低メチル化断片を標的にするプローブによって被覆された68,059個の領域(7.5Mb)中の363,033個のCpGと、高メチル化断片を標的にするプローブによって被覆された28,521個の領域(7.4Mb)中の585,181個のCpGと、両方のタイプの断片を標的にする6,876個の領域(2.3Mb)中の218,506個のCpGとを含んだ。個々の異常標的領域は、1つのCpGと590個のCpGとの間で含まれており、中央CpGカウントは、低メチル化標的領域では3、および高メチル化標的領域では6であった。CpGは、以下のゲノム領域中に存在し、すなわち、転写開始サイト(TSS)の1から5kbp上流の領域中には193,818個(17%)、プロモータ(TSSの<1kbp上流)中には278,872個(24%)、イントロン中には500,996個(43%)、エクソン中には292,789個(25%)、イントロン-エクソン境界には247,752個(21%)、5′-非翻訳領域中には134,144(11%)、遺伝子間には182,174個(16%)が存在し、残りの1,817個(<1%)は注釈を付けられなかった。各CpGは、重複している遺伝子および/または転写により複数の注釈を受け得たので、パーセンテージはCpGの合計数に対してであり、合計は100%にならない。
【0324】
この評価のために、試料は、訓練セット(n=4,720)、および独立した検証セット(n=1,969)に分割された。合計4,316人の参加者(訓練:3,052人[1,531のがん:ステージI:28%、ステージII:25%、ステージIII:20%、ステージIV:24%、消失/予想されず:3%、1,521の非がん]、検証:1,264人[654のがん:ステージI:28%、ステージII:25%、ステージIII:21%、ステージIV:23%、消失/予想されず:3%、610の非がん])が解析可能であり、1次解析集団に含まれた。
【0325】
訓練セットおよび検証セットのための分類器実行解析からの結果が、
図28~
図30に示されている。
図28のパネルAは、訓練セットと検証セットの両方のための特異度結果を示し、パネルBは、事前指定されたがん(第1の下位研究および死亡データからの結果に基づく12個の高シグナルがん(肛門、膀胱、結腸/直腸、食道、頭頸部、肝臓/胆管、肺、リンパ腫、卵巣、膵臓、形質細胞腫瘍、胃)のサブセット)についての、ならびにステージIからIVにおけるすべてのがんタイプ(>20)についての感度を示す。
図28のパネルCは、訓練セットと検証セットの両方の原発組織(TOO)精度結果を示し、パネルBは、事前指定されたがんについての、およびステージIからIVにおけるすべてのがんタイプについての感度を示す。
図29は、訓練セットと検証セットの両方についてのTOO混同行列を示し、
図30は、訓練セットと検証セットの両方についての事前指定されたがんタイプの感度結果を示す。
【0326】
図28において、感度(y軸)は、訓練(橙色)および検証(緑がかった青色)について、事前指定されたがんタイプ(左パネル)およびすべてのがんタイプ(右パネル)中の臨床ステージ(x軸)によってレポートされる。原発組織精度(y軸)は、訓練(橙色)および検証(緑がかった青色)について、事前指定されたがんタイプ(左パネル)およびすべてのがんタイプ(右パネル)中の臨床ステージ(x軸)によってレポートされる。数は、訓練|検証セット中の試料を示す。
【0327】
図28に示されているように、分類器は、交差検証された訓練セットおよび独立した検証セットとの間で高い特異度を一貫して達成した(それぞれ、99.8%[95%CI:99.4~99.9%]対99.3%[98.3~99.8%]、P=0.095)。これは、すべての20個のがんタイプにわたって1%未満の単一の一貫した偽陽性率(FPR)を反映した。検証セットにおける特異度は、CCGAおよびSTRIVE非がん試料について同様であり(それぞれ、99.3%[97.4~99.9%]対99.4%[97.9~99.9%])、実行が、サイトまたは選択された試料によってバイアスされなかったことを裏付けている。感度は、訓練セットおよび検証セットにおいて一貫していた。すべてのがんでは、ステージI~III感度は、それぞれ、44.2%(95%CI:41.3~47.2%)対43.9%(39.4~48.5%)(P=1.000)であった。12個の高シグナルがんの事前指定されたセットでは、ステージI~III感度は、それぞれ、69.8%(65.6~73.7%)対67.3%(60.7~73.3%)(P=0.988)であった。同様に、すべてのがんタイプにわたるステージI~IV感度は、それぞれ、55.2%(52.7~57.7%)対54.9%(51.0~58.8%)(P=0.897)であり、事前指定されたがんでは、それぞれ、77.9%(75.0~80.7%)対76.4%(71.6~80.7%)(P=0.573)であった。
【0328】
また、
図28に示されているように、感度は、疾患ステージの増加とともに増加した。検証では、事前指定されたがんタイプの感度は、ステージI(n=62)では39%(27~52%)、ステージII(n=62)では69%(56~80%)、ステージIII(n=102)では83%(75~90%)、およびステージIV(n=130)では92%(86~96%)であった。すべてのがんタイプにわたって、感度は、ステージI(n=185)では18%(13~25%)、ステージII(n=166)では43%(35~51%)、ステージIII(n=134)では81%(73~87%)、およびステージIV(n=148)では93%(87~96%)であった。
【0329】
個々の腫瘍タイプにおける実行が
図30に示されている。95%信頼区間をもつ99.8%の特異度(訓練、橙色)または99.3%の特異度(検証、緑がかった青色)における感度が、少なくとも50個の試料をもつ個々のがんタイプについてレポートされている。臨床ステージは、訓練および検証における試料の数であるプロットの下方に示されている。
【0330】
図28に示されているように、TOO精度(正しかったすべてのTOO予測の断片)の事前指定された解析は、TOOが、検証セット中のがん様のシグナルをもつ試料の96%(344/359)において予測されたことを発見し、これらの間では、精度は93%(321/344)であった。精度は、訓練セットと検証セットとの間で、およびステージにわたって一貫していた。分類器は、研究の中に含まれる>20個のがんタイプを区別し、実行は、個々のがんタイプにおいて一貫していた。
【0331】
図29は、(A)訓練セットおよび(B)検証セットにおける原発組織位置特定の精度を表す混同行列を示す。標的メチル化分類器を使用した試料ごとの実際(x軸)の原発組織と予測された(y軸)原発組織との間の合致が示されている。色は、予測された原発組織のコールの割合に対応する。含まれている参加者(訓練:n=844、検証:n=359)は、99.8%の特異度(訓練)または99.3%の特異度(検証)でがんを有すると予測されたがんをもつ人々である。原発組織のコールは、訓練ではケースの95%(806/844)で、および検証では事例の96%(344/359)で割り当てられ、コールは、訓練では事例の92%(744/806)で、および検証では事例の93%(321/344)で正しかった。
【0332】
X.D.例4-バイナリ分類閾値の調整
バイナリがん分類の一般化された実施形態によれば、解析システムは、試験試料のシーケンシングデータ(たとえば、メチル化シーケンシングデータ、SNPシーケンシングデータ、他のDNAシーケンシングデータ、RNAシーケンシングデータなど)に基づいて試験試料のがんスコアを決定する。解析システムは、試験試料ががんを有する可能性があるかどうかを予測するためのバイナリ閾値カットオフに対して、試験試料のがんスコアを比較する。バイナリ閾値カットオフは、1つまたは複数のTOOサブタイプクラスに基づくTOO閾値処理を使用して調整できる。解析システムは、さらに、1つまたは複数の可能性があるがんタイプを示すがん予測を決定するために、マルチクラスがん分類器において使用するための試験試料の特徴量ベクトルを生成し得る。
【0333】
図24Aは、例示的な実装による、訓練されたがん分類器の実行を示す混同行列を示す。がん分類器は、上記で説明された原理に従って訓練された。TOOラベルは、リンパ腫瘍、肺、腎臓、非がん、頭頸部、前立腺、乳房、上部消化管、肝臓および胆管、結腸直腸、子宮頸部、膵臓および胆嚢、子宮、肉腫、膀胱および尿路上皮、卵巣、肛門直腸、不明、黒色腫、多発性骨髄腫、骨髄腫瘍、および甲状腺を含む。注目すべきことに、分類精度は、この持ちこたえたセット中で考慮される1,151個の試料にわたって89.1%である。
【0334】
図24Bは、追加の血液学がんサブタイプを用いた、訓練されたがん分類器の実行を示す混同行列を示す。がん分類器は、上記で説明された原理に従って訓練された。
図24Aとは対照的に、血液学サブタイプのTOOラベルは調整されている。
図24Aでは、血液学サブタイプは、リンパ腫瘍、多発性骨髄腫、および骨髄腫瘍を含む。
図24Bでは、血液学サブタイプは、ホジキンリンパ腫(HL)、NHLアグレッシブ、NHL無痛性、骨髄、循環リンパ腫(またはリンパ)、および形質細胞を含む。注目すべきことに、分類精度は、1,076個にわたって87.5%である。
【0335】
図25Aおよび
図25Bは、がんのステージにわたる多数のがんタイプのがん予測精度を示すグラフを示す。この例では、がん分類器は、上記で説明されたプロセス1000に従って非がん試料を取り除いた後に訓練される。解析システムは、血液学サブタイプのための複数のTOO閾値を決定した。解析システムは、血液学サブタイプのための対応するTOO閾値以上で少なくとも1つのTOO確率をもつ非がん試料を除外した。図示のグラフは、以下のがんタイプ、すなわち、肛門直腸、膀胱および尿路上皮、乳房、子宮頸部、結腸直腸、頭頸部、肝臓および胆管、肺、黒色腫、卵巣、膵臓および胆嚢、前立腺、腎臓、肉腫、甲状腺、上部消化管、および子宮のための様々ながんステージにわたる分類感度を示している。各がんタイプのグラフは、がんタイプの各ステージ上の予測感度を示しており、第1のがん分類器は、「locked_v1_orgi」としてラベル付けされてTOO閾値処理をもたなく、第2のがん分類器は、「v2_custom」としてラベル付けされてTOO閾値処理をもつ。特に、多くのがんタイプについて、第2のがん分類器は、検証のために利用可能なより多くの試料が与えられれば、密な信頼区間を維持しながら、より高い予測精度を有する。特に注目すべきことに、ステージIおよびIIレベルでは多くのがんタイプにおいてより高い予測精度があり、これは、早期ステージがんにおけるTOO閾値処理を用いた改善された予測潜在性を示している。
【0336】
XI.追加の考慮事項
本開示の実施形態の上記の説明は、例示のために提示されている。それは、網羅的であること、または本発明を開示される厳密な形態に限定することを意図されていない。当業者であれば、上記の開示に照らして多数の修正および変更が可能であることを諒解することができる。
【0337】
本明細書のいくつかの部分では、本開示の実施形態について、情報に対する操作のアルゴリズムおよび記号表現に関して説明している。これらのアルゴリズム記述および表現は、データ処理技術の当業者によって、彼らの作業の実体を他の当業者に効果的に伝達するために通常使用される。これらの操作は、機能的、計算的、または論理的に記述されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることを理解されたい。さらに、一般性の喪失なしに、操作のこれらの構成をモジュールと呼ぶことが、時々好都合であることが証明されている。記述された操作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで実施できる。
【0338】
本明細書で説明されるステップ、操作、または処理のいずれも、単独でまたは他のデバイスと組み合わせて、1つまたは複数のハードウェアまたはソフトウェアモジュールを用いて実行または実装できる。いくつかの実施形態では、ソフトウェアモジュールは、説明されるステップ、操作、または処理のいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行できる、コンピュータプログラムコードを含んでいるコンピュータ可読非一時的媒体を含むコンピュータプログラム製品を用いて実装される。
【0339】
実施形態は、本明細書で説明されるコンピューティング処理によって製造される製品に関係することもできる。そのような製品は、コンピューティング処理から生じる情報を含むことができ、情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータの組み合わせのどんな実施形態も含むことができる。
【0340】
最後に、本明細書で使用される文言は、主に読みやすさおよび教授のために選択されており、それは、本発明の主題を定めるまたはか制限するために選択されているはずはない。したがって、本発明の範囲は、この詳細な説明によっては限定されず、そうではなく、本明細書に基づく適用例を発布するいずれかの請求項によって限定されることが意図されている、したがって、本明細書の実施形態の開示は、本発明の範囲を限定するのではなく例示することを意図されており、本発明の範囲は、以下の特許請求の範囲に記載される。