IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファウンデーション・メディシン・インコーポレイテッドの特許一覧

特表2024-528489相同修復欠損を分類するシステムおよび方法
<>
  • 特表-相同修復欠損を分類するシステムおよび方法 図1
  • 特表-相同修復欠損を分類するシステムおよび方法 図2
  • 特表-相同修復欠損を分類するシステムおよび方法 図3A
  • 特表-相同修復欠損を分類するシステムおよび方法 図3B
  • 特表-相同修復欠損を分類するシステムおよび方法 図4
  • 特表-相同修復欠損を分類するシステムおよび方法 図5
  • 特表-相同修復欠損を分類するシステムおよび方法 図6A
  • 特表-相同修復欠損を分類するシステムおよび方法 図6B
  • 特表-相同修復欠損を分類するシステムおよび方法 図7
  • 特表-相同修復欠損を分類するシステムおよび方法 図8
  • 特表-相同修復欠損を分類するシステムおよび方法 図9
  • 特表-相同修復欠損を分類するシステムおよび方法 図10
  • 特表-相同修復欠損を分類するシステムおよび方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】相同修復欠損を分類するシステムおよび方法
(51)【国際特許分類】
   G16B 40/00 20190101AFI20240723BHJP
【FI】
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023579476
(86)(22)【出願日】2022-06-24
(85)【翻訳文提出日】2024-01-09
(86)【国際出願番号】 US2022073167
(87)【国際公開番号】W WO2022272310
(87)【国際公開日】2022-12-29
(31)【優先権主張番号】63/215,281
(32)【優先日】2021-06-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
(71)【出願人】
【識別番号】517192663
【氏名又は名称】ファウンデーション・メディシン・インコーポレイテッド
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ソコル, イーサン
(72)【発明者】
【氏名】ムーア, ジェイ
(72)【発明者】
【氏名】ニューバーグ, ジャスティン
(72)【発明者】
【氏名】ジン, デクスター
(72)【発明者】
【氏名】チェン, クイ-ティン
(57)【要約】
相同修復欠損(HRD)分類モデルを訓練および使用するための1つまたは複数の特徴の重要度のメトリックを使用して、複数の特徴のサブセットを識別するための方法、デバイス、およびシステムが本明細書に記載される。さらに、膵臓がんなどのがんの腫瘍を、HRD陽性である可能性が高いまたはHRD陰性である可能性が高いものと分類し、腫瘍をHRD陽性またはHRD陰性とみなすための方法、デバイス、およびシステムが記載される。分類に基づいて、膵臓がんなどのがんの腫瘍を治療する方法も本明細書に記載される。
【選択図】図7
【特許請求の範囲】
【請求項1】
対象の腫瘍から得られるゲノムを準備するステップ、
任意選択で、1つまたは複数のアダプターを前記ゲノム上にライゲーションするステップ、
前記ゲノムから核酸分子を増幅するステップ、
前記増幅したゲノムから核酸分子を捕捉するステップであって、1つ以上のベイト分子へのハイブリダイゼーションによって、前記捕捉された核酸分子が捕捉される、核酸分子を捕捉するステップ、
前記捕捉された核酸分子から、入力特徴のセットを誘導するステップ、
1つまたは複数のプロセッサによって、前記入力特徴のセットを訓練された相同組換え欠損(HRD)モデルに入力し、前記訓練されたHRDモデルを使用して前記腫瘍をHRD陽性またはHRD陰性として識別するステップであって、前記モデルは、
複数の特徴の各特徴と関連付けられた1つまたは複数の特徴の重要度のメトリックを判定すること、
前記1つまたは複数の特徴の重要度のメトリックを使用して前記複数の特徴のうちの特徴のサブセットを識別すること、および
前記1つまたは複数のプロセッサによって、前記識別された特徴のサブセットに基づいて前記HRDモデルを訓練すること
により訓練される、前記入力特徴のセットを訓練された相同組換え欠損(HRD)モデルに入力し、前記訓練されたHRDモデルを使用して前記腫瘍をHRD陽性またはHRD陰性として識別するステップ、ならびに
前記訓練されたHRDモデルを使用して、前記1つまたは複数のプロセッサによって、前記腫瘍をHRD陽性またはHRD陰性として分類するステップ
を含む、方法。
【請求項2】
1つまたは複数のプロセッサによって、複数の特徴を受信するステップ、
前記1つまたは複数のプロセッサによって、1つまたは複数の特徴の重要度のメトリックを使用して前記複数の特徴のうちの特徴のサブセットを識別するステップ、および
前記1つまたは複数のプロセッサによって、前記複数の特徴の前記識別されたサブセットに基づいて相同組換え欠損(HRD)モデルを訓練するステップであって、
前記HRDモデルが、対象の腫瘍のゲノムと関連付けられたサンプルデータを受信し、前記サンプルデータを使用して、前記対象の前記腫瘍をHRD陽性またはHRD陰性として識別するように構成される、HRDモデルを訓練するステップ
を含む、方法。
【請求項3】
1つまたは複数のプロセッサによって、対象における腫瘍のゲノムに関連するサンプルデータを受信するステップ、
前記1つまたは複数のプロセッサによって、前記サンプルデータを訓練された相同組換え欠損(HRD)モデルに入力するステップであって、前記HRDモデルは、
複数の特徴の各特徴と関連付けられた1つまたは複数の特徴の重要度のメトリックを判定すること、
前記1つまたは複数の特徴の重要度のメトリックを使用して前記複数の特徴のうちの特徴のサブセットを識別すること、および
前記1つまたは複数のプロセッサによって、前記識別された特徴のサブセットに基づいて前記HRDモデルを訓練すること
により訓練される、前記サンプルデータを訓練された相同組換え欠損(HRD)モデルに入力するステップ、ならびに
前記訓練されたHRDモデルを使用して、前記1つまたは複数のプロセッサによって、前記腫瘍をHRD陽性またはHRD陰性として分類するステップ
を含む、方法。
【請求項4】
前記複数の特徴が、1つもしくは複数のコピー数の特徴、1つもしくは複数の短い変異体の特徴、またはそれらの組み合わせを含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記1つまたは複数の特徴の重要度のメトリックは、カイ二乗検定、分散分析(ANOVA)、ランダムフォレスト、または勾配ブースティングのうちの1つまたは複数を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記複数の特徴のうちの前記特徴のサブセットを識別するステップが、
前記1つまたは複数のプロセッサによって、前記1つまたは複数の特徴の重要度のメトリックに従って1つまたは複数の特徴ランキングを取得するステップ、および
前記1つまたは複数のプロセッサによって、1つまたは複数の特徴ランキングに基づいて前記複数の特徴の前記サブセットを選択するステップ
を含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記複数の特徴のうちの前記サブセットを識別するステップが、
(a)1つまたは複数のプロセッサによって、特徴の重要度のメトリックに従って前記複数の特徴の特徴ランキングを取得するステップ、
(b)前記1つ以上のプロセッサによって、前記特徴ランキングに基づいて、前記複数の特徴からの1つ以上の特徴を既存の特徴セットに追加するステップによって新しい特徴セットを取得するステップ、
(c)前記1つまたは複数のプロセッサによって、前記新しい特徴セットを使用して新しいHRDモデルを訓練するステップ、
(d)前記1つまたは複数のプロセッサによって、前記訓練された新しいHRDモデルを評価して、評価結果を取得するステップ、
(e)前記1つまたは複数のプロセッサによって、前記新しいHRDモデルおよび前記新しい特徴セットに関連する前記評価結果を記憶するステップ、
(f)条件が満たされるまで、複数の評価結果を得るために、前記1つまたは複数のプロセッサによって、ステップ(b)~(e)を繰り返すステップ、ならびに
(g)前記1つまたは複数のプロセッサによって、前記複数の評価結果に基づいて前記複数の特徴の前記サブセットを選択するステップ
を含む、請求項1~5のいずれか一項に記載の方法。
【請求項8】
前記訓練されたHRDモデルが分類モデルであり、前記方法が、
新しい対象における腫瘍のゲノムと関連付けられた新しいサンプルデータを受信するステップであって、前記新しいサンプルデータは、前記複数の特徴の前記サブセットに関連する、新しいサンプルデータを受信するステップ、
前記新しいサンプルデータを前記訓練されたHRD分類モデルに与えて、HRD陽性またはHRD陰性の分類結果を生成するステップ、および
前記分類結果を出力するステップ
をさらに含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記分類結果が、HRD陽性尤度スコアおよびHRD陰性尤度スコアのうちの少なくとも1つを含む、請求項8に記載の方法。
【請求項10】
前記HRDモデルが、分類モデル、回帰モデル、ニューラルネットワーク、またはそれらの任意の組み合わせである、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記新しい対象に関連付けられたデジタル電子ファイルに、前記HRD陽性尤度スコアおよび前記HRD陰性尤度スコアの少なくとも一方を記録するステップを含む、請求項9または10に記載の方法。
【請求項12】
前記新しい対象に関連するデジタル電子ファイルに、前記HRD陽性尤度スコアに基づいて前記腫瘍がHRD陽性であること、または前記HRD陰性尤度スコアに基づいて前記腫瘍がHRD陰性であるという指定を記録するステップを含む、請求項9~11のいずれか一項に記載の方法。
【請求項13】
前記複数の特徴が、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記複数の特徴のうちの少なくとも1つが、前記ゲノムのセントロメア部分にわたって評価される、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記複数の特徴のうちの少なくとも1つが、前記ゲノムのテロメア部分にわたって評価される、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記複数の特徴のうちの少なくとも1つが、前記ゲノムの前記セントロメア部分およびテロメア部分の両方にわたって評価される、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記複数の特徴が、xメガベースあたりのブレークポイント数の特徴を含み、前記xメガベースあたりのブレークポイント数の特徴が、前記ゲノム全体にわたって長さがxメガベースのウィンドウに現れる前記ブレークポイントの数に基づく、請求項1~16のいずれか一項に記載の方法。
【請求項18】
xメガベースあたりのブレークポイント数の特徴が、(i)前記ゲノムの前記テロメア部分、(ii)前記ゲノムの前記セントロメア部分、または(iii)前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項17に記載の方法。
【請求項19】
xが約1~約100メガベースである、請求項17または請求項18に記載の方法。
【請求項20】
xが、約10メガベース、約25メガベース、約50メガベース、または約100メガベースである、請求項17~19のいずれか一項に記載の方法。
【請求項21】
xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である、請求項17~20のいずれか一項に記載の方法。
【請求項22】
前記複数の特徴が変化点コピー数の特徴を含み、前記変化点コピー数が、前記対象の前記腫瘍の前記ゲノムにわたる隣接ゲノムセグメント間のコピー数の絶対的な差に基づく、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記変化点コピー数の特徴が、倍数正規化コピー数データから誘導される、請求項22に記載の方法。
【請求項24】
変化点コピー数の特徴が、(i)前記ゲノムの前記テロメア部分、(ii)前記ゲノムの前記セントロメア部分、または(iii)前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項22または23に記載の方法。
【請求項25】
前記変化点コピー数の特徴がビニングされた特徴である、請求項22~24のいずれか一項に記載の方法。
【請求項26】
前記複数の特徴がセグメントコピー数の特徴を含み、セグメントコピー数が各ゲノムセグメントの前記コピー数に基づく、請求項1~25のいずれか一項に記載の方法。
【請求項27】
前記セグメントコピー数の特徴が、(i)前記ゲノムの前記テロメア部分、(ii)前記ゲノムの前記セントロメア部分、または(iii)前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項26に記載の方法。
【請求項28】
前記セグメントコピー数の特徴が、倍数正規化コピー数データから誘導される、請求項26または請求項27に記載の方法。
【請求項29】
前記セグメントコピー数の特徴がビニングされた特徴である、請求項26~28のいずれか一項に記載の方法。
【請求項30】
前記複数の特徴が、前記対象の前記腫瘍のゲノムの染色体アームあたりのブレークポイント数の特徴を含む、請求項1~29のいずれか一項に記載の方法。
【請求項31】
前記染色体アームあたりのブレークポイント数の特徴が、(i)前記ゲノムの前記テロメア部分、(ii)前記ゲノムの前記セントロメア部分、または(iii)前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項30に記載の方法。
【請求項32】
前記染色体アームあたりのブレークポイント数の特徴がビニングされた特徴である、請求項30または請求項31記載の方法。
【請求項33】
前記複数の特徴が、振動コピー数のセグメントの数の特徴を含む、請求項1~32のいずれか一項に記載の方法。
【請求項34】
前記振動コピー数のセグメントの数の特徴が、前記対象の前記腫瘍の前記ゲノムにわたる2つのコピー数の間の繰り返される交互のセグメントの前記数に基づく、請求項33に記載の方法。
【請求項35】
振動コピー数のセグメントの数の特徴が、(i)前記ゲノムの前記テロメア部分、(ii)前記ゲノムの前記セントロメア部分、または(iii)前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項33または請求項34に記載の方法。
【請求項36】
前記振動コピー数のセグメントの数の特徴がビニングされた特徴である、請求項33~35のいずれか一項に記載の方法。
【請求項37】
前記1つまたは複数のコピー数の特徴が、セグメントマイナーアリル頻度(segMAF)特徴を含み、segMAFが、ヘテロ接合一塩基多型における前記マイナーアリル頻度に基づく、請求項1~36のいずれか一項に記載の方法。
【請求項38】
segMAFが、(i)前記ゲノムの前記テロメア部分、(ii)前記ゲノムの前記セントロメア部分、または(iii)前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項37に記載の方法。
【請求項39】
前記セグメントマイナーアリル頻度の特徴がビニングされた特徴である、請求項37または請求項38に記載の方法。
【請求項40】
前記1つまたは複数のコピー数の特徴が、シーケンシングリードの数の特徴を含む、請求項1~39のいずれか一項に記載の方法。
【請求項41】
前記シーケンシングリードの数の特徴がビニングされた特徴である、請求項40に記載の方法。
【請求項42】
前記複数の特徴が、前記対象の前記腫瘍の前記ゲノムのヘテロ接合性のゲノム全体の喪失の尺度をさらに含む、請求項1~41のいずれか一項に記載の方法。
【請求項43】
前記複数の特徴が1つまたは複数の短い変異体の特徴を含む、請求項1~42のいずれか一項に記載の方法。
【請求項44】
前記1つまたは複数の短い変異体の特徴が、ミクロ相同性または反復領域特徴の欠失および2つ以上の短い変異体の特徴に由来する変異シグネチャの少なくとも1つを含む、請求項43に記載の方法。
【請求項45】
ミクロ相同性または反復領域特徴の前記欠失が、少なくとも5塩基対の欠失である、請求項44に記載の方法。
【請求項46】
前記HRDモデルを訓練するステップは、
前記1つまたは複数のプロセッサによって、HRD陽性訓練データセットを受信するステップであって、前記HRD陽性訓練データセットが、HRD陽性腫瘍およびHRD陽性標識に関連する複数の特徴を含む、HRD陽性訓練データセットを受信するステップ、
前記1つまたは複数のプロセッサによって、HRD陰性訓練データセットを受信するステップであって、前記HRD陰性訓練データセットが、HRD陰性腫瘍およびHRD陰性標識に関連する複数の特徴を含む、HRD陰性訓練データセットを受信するステップ、
前記1つまたは複数のプロセッサによって、前記HRD陽性訓練データセットおよび前記HRD陰性訓練データセットを使用して前記HRDモデルを訓練するステップ
を含む、請求項1~45のいずれか一項に記載の方法。
【請求項47】
前記1つまたは複数のプロセッサによって、BRCA1、BRCA2、BRCA1とBRCA2の両方における機能喪失変異、またはBRCA1とBRCA2の二対立遺伝子変異を含むゲノム配列に由来するHRD陽性対照を含むHRD陽性試験データセットを使用して、前記訓練されたモデルを試験するステップをさらに含む、請求項1~46のいずれか一項に記載の方法。
【請求項48】
前記1つまたは複数のプロセッサによって、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、またはRAD45Lのうちの少なくとも1つに機能喪失変異を含むゲノム配列に由来するHRD陽性対照を含むHRD陽性試験データセットを使用して、前記訓練されたモデルを試験するステップをさらに含む、請求項1~47のいずれか一項に記載の方法。
【請求項49】
前記1つまたは複数のプロセッサによって、コンセンサスなヒトゲノム配列に由来するHRD陰性対照を含むHRD陰性訓練データセットを含むHRD陰性試験データセットを使用して前記訓練されたモデルを試験するステップをさらに含む、請求項1~48のいずれか一項に記載の方法。
【請求項50】
訓練するステップが、HRD陽性訓練データセットおよびHRD陰性訓練データセットを使用するステップを含む、請求項46~49のいずれか一項に記載の方法。
【請求項51】
前記HRDモデルを訓練する前に、前記1つまたは複数のプロセッサによって、前記HRD陽性訓練データセットと前記HRD陰性訓練データセットとのバランスをとるステップを含む、請求項50に記載の方法。
【請求項52】
前記対象における前記腫瘍が、前立腺がん、卵巣がん、乳がん、非小細胞肺がん(NSCLC)、結腸直腸がん(CRC)、または膵臓がんである、請求項1~51のいずれか一項に記載の方法。
【請求項53】
前記HRDモデルを訓練するステップが、卵巣がん、非小細胞肺がん(NSCLC)、結腸直腸がん(CRC)、乳がん、膵臓がん、または前立腺がんに関連するサンプルデータに前記HRDモデルを適合させることを含み、前記サンプルデータが前記複数の特徴の前記サブセットを含む、請求項1~52のいずれか一項に記載の方法。
【請求項54】
前記腫瘍が、固形組織生検サンプルであるサンプルから得られる、請求項1~53のいずれか一項に記載の方法。
【請求項55】
前記固形組織生検サンプルがホルマリン固定パラフィン包埋(FFPE)サンプルである、請求項54に記載の方法。
【請求項56】
前記腫瘍が、循環腫瘍DNA(ctDNA)を含む液体生検サンプルであるサンプルから得られる、請求項1~53のいずれか一項に記載の方法。
【請求項57】
前記腫瘍が、無細胞DNA(cfDNA)を含む液体生検サンプルであるサンプルから得られる、請求項1~53のいずれか一項に記載の方法。
【請求項58】
前記患者に関連する診断値として前記腫瘍の前記出力をHRD陽性またはHRD陰性と判定、識別、または適用するステップをさらに含む、請求項1~57のいずれか一項に記載の方法。
【請求項59】
前記腫瘍のHRD陽性またはHRD陰性としての前記出力に基づいて、前記対象のゲノムプロファイルを生成するステップをさらに含む、請求項1~58のいずれか一項に記載の方法。
【請求項60】
前記生成されたゲノムプロファイルに基づいて、抗がん剤を投与するステップ、または抗がん治療を前記対象に適用するステップをさらに含む、請求項59に記載の方法。
【請求項61】
前記腫瘍のHRD陽性またはHRD陰性としての前記出力が、前記対象のゲノムプロファイルを生成するのに使用される、請求項1~60のいずれか一項に記載の方法。
【請求項62】
前記腫瘍のHRD陽性またはHRD陰性としての前記出力が、前記対象に対する提案された治療の決定を行う際に使用される、請求項1~61のいずれか一項に記載の方法。
【請求項63】
前記腫瘍のHRD陽性またはHRD陰性としての前記出力が、前記対象に治療を適用または投与するのに使用される、請求項1~62のいずれか一項に記載の方法。
【請求項64】
前記HRDモデルが、機械学習モデルである、請求項1~63のいずれか一項に記載の方法。
【請求項65】
前記対象が、がんを有するか、がんを有するリスクがあるか、またはがんを有する疑いがある、請求項1~64のいずれか一項に記載の方法。
【請求項66】
対象のがんを治療する方法であって、
(a)請求項1~65のいずれか一項に記載の方法に従って前記腫瘍をHRD陽性またはHRD陰性として識別するステップ、
(b)前記がんの前記腫瘍がHRD陽性と評価された場合、治療有効量のHRD陽性腫瘍に有効な薬物を前記対象に投与するステップ、を含む、方法。
【請求項67】
HRD陽性腫瘍に有効な前記薬物が白金系薬物またはPARP阻害剤である、請求項66に記載の方法。
【請求項68】
前記腫瘍がHRD陰性と評価された場合、白金系薬物でもPARP阻害剤でもない治療有効量の薬物を前記対象に投与するステップを含む、請求項66に記載の方法。
【請求項69】
対象のがんの治療法を選択する選択するための方法であって、
(a)請求項1~65のいずれか一項に記載の方法に従って、前記がんの腫瘍をHRD陽性またはHRD陰性として評価するステップ、
(b)前記がんがHRD陽性と評価された場合、HRD陽性腫瘍において有効な治療を選択するステップ
を含む、方法。
【請求項70】
前記腫瘍がHRD陰性と評価された場合、白金系薬物でもPARP阻害剤でもない治療法を選択するステップを含む、請求項69に記載の方法。
【請求項71】
HRD陽性腫瘍に有効な前記治療法が白金系薬物またはPARP阻害剤である、請求項70に記載の方法。
【請求項72】
コンピュータシステムであって、
1つまたは複数のプロセッサと、
メモリと、
1つまたは複数のプログラムであって、前記1つまたは複数のプログラムが前記メモリに記憶され、前記1つまたは複数のプロセッサによって実行されるように構成され、前記1つまたは複数のプログラムが、請求項1から65のいずれか一項に記載の方法を実行するための指示を含む、1つまたは複数のプログラムと
を含む、コンピュータシステム。
【請求項73】
1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つまたは複数のプログラムが命令を含み、前記命令が、電子デバイスの1つ以上のプロセッサによって実行されると、前記電子デバイスに、請求項1から65のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本願は、2021年6月25日に出願された「SYSTEM AND METHOD OF CLASSIFYING HOMOLOGOUS REPAIR DEFICIENCY」と題する米国仮出願第63/215,281号の優先権の利益を主張し、その内容は、すべての目的のために参照により本明細書に組み込まれる。
【技術分野】
【0002】
発明の分野
相同修復欠損(HRD)モデルの特徴を選択し、HRDモデルを使用して腫瘍を評価し、評価に基づいて腫瘍を治療するための方法、デバイス、およびシステムが本明細書に記載される。
【背景技術】
【0003】
発明の背景
コピー数の異常は、ゲノムの大きな連続セグメントの欠失または増幅を伴い、がんにおける一般的な変異である。特定のコピー数の異常は、相同修復欠損(HRD)と呼ばれる相同組換え修復機構によってゲノムを修復することができないことに関連する。HRDを有するいくつかの腫瘍を識別するために、相同修復経路に関与する遺伝子の変異を配列決定することが可能である。あるいは、その原因にかかわらず、HRDの物理的結果であるゲノム瘢痕化を検出することが可能である。
【0004】
HRDを示す腫瘍ゲノムは、白金化学療法またはポリ(ADP)リボースポリメラーゼ(PARP)阻害剤などの特定の薬物に対する感受性に関連する。しかしながら、特定の腫瘍をHRD陽性として分類することは依然として困難である。したがって、適切な治療を選択して対象に投与することができるように、特に重要である膵臓がん、乳がん、または前立腺がんなどのがんの腫瘍を、HRD陽性またはHRD陰性として分類する必要性が、依然として存在する。過去において、HRDを識別するための技術は、実際にそれらを使用することができない不正確さおよび非効率性に悩まされてきた。この1つの理由は、例えば、オーバーフィッティングに起因して、前記腫瘍をHRD陽性またはHRD陰性として効率的かつ正確に識別する(例えば、分類する)ために、サンプルのHRD状態を正確に判定することができるようにするには、特徴選択技術が現在不十分であることである。この別の理由は、HRDの状態を正確に判定するためにどの特徴を識別するかを判定することも、困難であり得るということである。したがって、前記識別を実行するためのモデルを訓練するために使用することができる、複数の特徴から特徴のサブセットを正確かつ効率的に選択する技術およびシステムが必要とされている。
【発明の概要】
【0005】
対象の腫瘍から得られるゲノムを準備するステップ、任意選択で、1つまたは複数のアダプターをゲノム上にライゲーションするステップ、ゲノムから核酸分子を増幅するステップ、増幅したゲノムから核酸分子を捕捉するステップであって、1つ以上のベイト分子へのハイブリダイゼーションによって、捕捉された核酸分子が捕捉される、核酸分子を捕捉するステップ、捕捉された核酸分子から、入力特徴のセットを誘導するステップ、1つまたは複数のプロセッサによって、入力特徴のセットを訓練された相同組換え欠損(HRD)モデルに入力し、訓練されたHRDモデルを使用して腫瘍をHRD陽性またはHRD陰性として識別するステップであって、モデルは、複数の特徴の各特徴と関連付けられた1つまたは複数の特徴の重要度のメトリックを判定すること、1つまたは複数の特徴の重要度のメトリックを使用して複数の特徴のうちの特徴のサブセットを識別すること、および1つまたは複数のプロセッサによって、識別された特徴のサブセットに基づいてHRDモデルを訓練すること、により訓練される、入力特徴のセットを訓練された相同組換え欠損(HRD)モデルに入力し、訓練されたHRDモデルを使用して腫瘍をHRD陽性またはHRD陰性として識別するステップ、ならびに訓練されたHRDモデルを使用して、1つまたは複数のプロセッサによって、腫瘍をHRD陽性またはHRD陰性として分類するステップ、を含む方法が、本明細書に記載される。
【0006】
1つまたは複数のプロセッサによって、複数の特徴を受信するステップ、1つまたは複数のプロセッサによって、1つまたは複数の特徴の重要度のメトリックを使用して複数の特徴のうちの特徴のサブセットを識別するステップ、および1つまたは複数のプロセッサによって、複数の特徴の識別されたサブセットに基づいて相同組換え欠損(HRD)モデルを訓練するステップであって、HRDモデルが、対象の腫瘍のゲノムと関連付けられたサンプルデータを受信し、サンプルデータを使用して、対象の腫瘍をHRD陽性またはHRD陰性として識別するように構成される、HRDモデルを訓練するステップ、を含む方法が、本明細書にさらに記載される。
【0007】
1つまたは複数のプロセッサによって、対象における腫瘍のゲノムに関連するサンプルデータを受信するステップ、1つまたは複数のプロセッサによって、サンプルデータを訓練された相同組換え欠損(HRD)モデルに入力するステップであって、HRDモデルは、複数の特徴の各特徴と関連付けられた1つまたは複数の特徴の重要度のメトリックを判定すること、1つまたは複数の特徴の重要度のメトリックを使用して複数の特徴のうちの特徴のサブセットを識別すること、および1つまたは複数のプロセッサによって、識別された特徴のサブセットに基づいてHRDモデルを訓練すること、により訓練される、サンプルデータを訓練された相同組換え欠損(HRD)モデルに入力するステップ、ならびに訓練されたHRDモデルを使用して、1つまたは複数のプロセッサによって、腫瘍をHRD陽性またはHRD陰性として分類するステップ、を含む方法が、本明細書にさらに記載される。
【0008】
記載された方法のいくつかの実施形態では、複数の特徴は、1つもしくは複数のコピー数の特徴、1つもしくは複数の短い変異体の特徴、またはそれらの組み合わせを含む。記載された方法のいくつかの実施形態では、1つまたは複数の特徴の重要度のメトリックは、カイ二乗検定、分散分析(ANOVA)、ランダムフォレスト、または勾配ブースティングのうちの1つまたは複数を含む。
【0009】
記載された方法のいくつかの実施形態では、複数の特徴のうちの特徴のサブセットを識別するステップが、1つまたは複数のプロセッサによって、1つまたは複数の特徴の重要度のメトリックに従って1つまたは複数の特徴ランキングを取得するステップ、および1つまたは複数のプロセッサによって、1つまたは複数の特徴ランキングに基づいて複数の特徴のサブセットを選択するステップを含む。
【0010】
記載された方法のいくつかの実施形態では、複数の特徴のサブセットを識別することは、(a)1つまたは複数のプロセッサによって、特徴の重要度のメトリックに従って複数の特徴の特徴ランキングを取得するステップ、(b)1つ以上のプロセッサによって、特徴ランキングに基づいて、複数の特徴からの1つ以上の特徴を既存の特徴セットに追加するステップによって新しい特徴セットを取得するステップ、(c)1つまたは複数のプロセッサによって、新しい特徴セットを使用して新しいHRDモデルを訓練するステップ、(d)1つまたは複数のプロセッサによって、訓練された新しいHRDモデルを評価して、評価結果を取得するステップ、(e)1つまたは複数のプロセッサによって、新しいHRDモデルおよび新しい特徴セットに関連する評価結果を記憶するステップ、(f)条件が満たされるまで、複数の評価結果を得るために、1つまたは複数のプロセッサによって、ステップ(b)~(e)を繰り返すステップ、ならびに(g)1つまたは複数のプロセッサによって、複数の評価結果に基づいて複数の特徴のサブセットを選択するステップ、を含む。
【0011】
記載された方法のいくつかの実施形態では、訓練されたHRDモデルが分類モデルであり、方法が、新しい対象における腫瘍のゲノムと関連付けられた新しいサンプルデータを受信するステップであって、新しいサンプルデータは、複数の特徴のサブセットに関連する、新しいサンプルデータを受信するステップ、新しいサンプルデータを訓練されたHRD分類モデルに与えて、HRD陽性またはHRD陰性の分類結果を生成するステップ、および分類結果を出力するステップ、をさらに含む。いくつかの実施形態では、分類結果は、HRD陽性尤度スコアおよびHRD陰性尤度スコアの少なくとも1つを含む。いくつかの実施形態では、方法は、新しい対象に関連付けられたデジタル電子ファイルに、HRD陽性尤度スコアおよびHRD陰性尤度スコアの少なくとも1つを記録するステップを含む。いくつかの実施形態では、方法は、新しい対象に関連するデジタル電子ファイルに、HRD陽性尤度スコアに基づいて腫瘍がHRD陽性であること、またはHRD陰性尤度スコアに基づいて腫瘍がHRD陰性であるという指定を記録するステップを含む。
【0012】
記載された方法のいくつかの実施形態では、HRDモデルは、分類モデル、回帰モデル、ニューラルネットワーク、またはそれらの任意の組み合わせである。いくつかの実施形態では、方法は、新しい対象に関連付けられたデジタル電子ファイルに、HRD陽性尤度スコアおよびHRD陰性尤度スコアの少なくとも1つを記録するステップを含む。いくつかの実施形態では、方法は、新しい対象に関連するデジタル電子ファイルに、HRD陽性尤度スコアに基づいて腫瘍がHRD陽性であること、またはHRD陰性尤度スコアに基づいて腫瘍がHRD陰性であるという指定を記録するステップを含む。
【0013】
記載された方法のいくつかの実施形態では、複数の特徴が、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つを含む。記載された方法のいくつかの実施形態では、複数の特徴のうちの少なくとも1つが、ゲノムのセントロメア部分にわたって評価される。記載された方法のいくつかの実施形態では、複数の特徴のうちの少なくとも1つが、ゲノムのテロメア部分にわたって評価される。
【0014】
記載された方法のいくつかの実施形態では、複数の特徴のうちの少なくとも1つが、ゲノムのセントロメア部分およびテロメア部分の両方にわたって評価される。
【0015】
記載された方法のいくつかの実施形態では、複数の特徴が、xメガベースあたりのブレークポイント数の特徴を含み、xメガベースあたりのブレークポイント数の特徴が、ゲノム全体にわたって長さがxメガベースのウィンドウに現れるブレークポイントの数に基づく。いくつかの実施形態においてxメガベースあたりのブレークポイント数の特徴が、(i)ゲノムのテロメア部分、(ii)ゲノムのセントロメア部分、または(iii)ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、xは、約1~約100メガベースである。いくつかの実施形態では、xは、約10メガベース、約25メガベース、約50メガベース、または約100メガベースである。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。
【0016】
記載された方法のいくつかの実施形態では、複数の特徴が変化点コピー数の特徴を含み、変化点コピー数が、対象の腫瘍のゲノムにわたる隣接ゲノムセグメント間のコピー数の絶対的な差に基づく。いくつかの実施形態において、変化点コピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの態様では、変化点コピー数の特徴は、(i)ゲノムのテロメア部分、(ii)ゲノムのセントロメア部分、または(iii)ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。
【0017】
記載された方法のいくつかの実施形態では、複数の特徴は、セグメントコピー数の特徴を含み、セグメントコピー数が各ゲノムセグメントのコピー数に基づく。いくつかの態様において、セグメントコピー数の特徴は、(i)ゲノムのテロメア部分、(ii)ゲノムのセントロメア部分、または(iii)ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。
【0018】
記載された方法のいくつかの実施形態では、複数の特徴が、対象の腫瘍のゲノムの染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴は、(i)ゲノムのテロメア部分、(ii)ゲノムのセントロメア部分、または(iii)ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。
【0019】
記載された方法のいくつかの実施形態では、複数の特徴が、振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、対象の腫瘍のゲノムにわたる2つのコピー数の間の繰り返される交互のセグメントの数に基づく。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、(i)ゲノムのテロメア部分、(ii)ゲノムのセントロメア部分、または(iii)ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。
【0020】
記載された方法のいくつかの実施形態では、1つまたは複数のコピー数の特徴が、セグメントマイナーアリル頻度(segMAF)特徴を含み、segMAFが、ヘテロ接合一塩基多型におけるマイナーアリル頻度に基づく。いくつかの態様では、segMAFは、(i)ゲノムのテロメア部分、(ii)ゲノムのセントロメア部分、または(iii)ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態では、segMAF特徴はビニングされた特徴である。
【0021】
記載された方法のいくつかの実施形態では、1つまたは複数のコピー数の特徴が、シーケンシングリードの数の特徴を含む。いくつかの態様において、シーケンシングリードの数の特徴はビニングされた特徴である。
【0022】
記載された方法のいくつかの実施形態では、複数の特徴が、対象の腫瘍のゲノムのヘテロ接合性のゲノム全体の喪失の尺度をさらに含む。
【0023】
記載された方法のいくつかの実施形態では、複数の特徴は、1つまたは複数の短い変異体の特徴を含む。いくつかの実施形態において、1つまたは複数の短い変異体の特徴が、ミクロ相同性または反復領域特徴の欠失および2つ以上の短い変異体の特徴に由来する変異シグネチャの少なくとも1つを含む。いくつかの実施形態において、ミクロ相同性領域または反復領域特徴における欠失は、少なくとも5塩基対の欠失である。
【0024】
記載された方法のいくつかの実施形態では、HRDモデルを訓練するステップが、1つまたは複数のプロセッサによって、HRD陽性訓練データセットを受信するステップであって、HRD陽性訓練データセットが、HRD陽性腫瘍およびHRD陽性標識に関連する複数の特徴を含む、HRD陽性訓練データセットを受信するステップ、1つまたは複数のプロセッサによって、HRD陰性訓練データセットを受信するステップであって、HRD陰性訓練データセットが、HRD陰性腫瘍およびHRD陰性標識に関連する複数の特徴を含む、HRD陰性訓練データセットを受信するステップ、1つまたは複数のプロセッサによって、HRD陽性訓練データセットおよびHRD陰性訓練データセットを使用してHRDモデルを訓練するステップを含む。いくつかの実施形態では、訓練するステップは、HRD陽性訓練データセットおよびHRD陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、HRDモデルを訓練する前に、1つまたは複数のプロセッサによって、HRD陽性訓練データセットとHRD陰性訓練データセットとのバランスをとるステップを含む。
【0025】
記載された方法のいくつかの実施形態では、方法は、1つまたは複数のプロセッサによって、BRCA1、BRCA2、BRCA1とBRCA2の両方における機能喪失変異、またはBRCA1とBRCA2の二対立遺伝子変異を含むゲノム配列に由来するHRD陽性対照を含むHRD陽性試験データセットを使用して、訓練されたモデルを試験するステップをさらに含む。いくつかの実施形態では、訓練するステップは、HRD陽性訓練データセットおよびHRD陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、HRDモデルを訓練する前に、1つまたは複数のプロセッサによって、HRD陽性訓練データセットとHRD陰性訓練データセットとのバランスをとるステップを含む。
【0026】
記載された方法のいくつかの実施形態では、方法は、1つまたは複数のプロセッサによって、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、またはRAD45Lのうちの少なくとも1つに機能喪失変異を含むゲノム配列に由来するHRD陽性対照を含むHRD陽性試験データセットを使用して、訓練されたモデルを試験するステップをさらに含む。いくつかの実施形態では、訓練するステップは、HRD陽性訓練データセットおよびHRD陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、HRDモデルを訓練する前に、1つまたは複数のプロセッサによって、HRD陽性訓練データセットとHRD陰性訓練データセットとのバランスをとるステップを含む。
【0027】
記載された方法のいくつかの実施形態では、方法は、1つまたは複数のプロセッサによって、コンセンサスなヒトゲノム配列に由来するHRD陰性対照を含むHRD陰性訓練データセットを含むHRD陰性試験データセットを使用して訓練されたモデルを試験するステップをさらに含む。いくつかの実施形態では、訓練するステップは、HRD陽性訓練データセットおよびHRD陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、HRDモデルを訓練する前に、1つまたは複数のプロセッサによって、HRD陽性訓練データセットとHRD陰性訓練データセットとのバランスをとるステップを含む。
【0028】
記載された方法のいくつかの実施形態では、対象における腫瘍が、前立腺がん、非小細胞肺がん(NSCLC)、結腸直腸がん(CRC)、卵巣がん、乳がん、または膵臓がんである。
【0029】
記載された方法のいくつかの実施形態では、HRDモデルを訓練するステップが、卵巣がん、非小細胞肺がん(NSCLC)、結腸直腸がん(CRC)、乳がん、膵臓がん、または前立腺がんに関連するサンプルデータにHRDモデルを適合させることを含み、サンプルデータが複数の特徴のサブセットを含む。
【0030】
記載された方法のいくつかの実施形態では、腫瘍は、固形組織生検サンプルであるサンプルから得られる。いくつかの実施形態では、固形組織生検サンプルがホルマリン固定パラフィン包埋(FFPE)サンプルである。記載された方法のいくつかの実施形態では、腫瘍は、循環腫瘍DNA(ctDNA)を含む液体生検サンプルであるサンプルから得られる。記載された方法のいくつかの実施形態では、腫瘍は、無細胞DNA(cfDNA)を含む液体生検サンプルであるサンプルから得られる。
【0031】
記載された方法のいくつかの実施形態では、方法は、患者に関連する診断値として腫瘍の出力をHRD陽性またはHRD陰性と判定、識別、または適用するステップをさらに含む。記載された方法のいくつかの実施形態では、方法は、腫瘍のHRD陽性またはHRD陰性としての出力に基づいて、対象のゲノムプロファイルを生成するステップをさらに含む。いくつかの実施形態において、方法は、生成されたゲノムプロファイルに基づいて、抗がん剤を投与するステップ、または抗がん治療を対象に適用するステップをさらに含む。記載された方法のいくつかの実施形態では、腫瘍のHRD陽性またはHRD陰性としての出力が、対象のゲノムプロファイルを生成するのに使用される。記載された方法のいくつかの実施形態では、腫瘍のHRD陽性またはHRD陰性としての出力が、対象に対する提案された治療の決定を行う際に使用される。記載された方法のいくつかの実施形態では、腫瘍のHRD陽性またはHRD陰性としての出力が、対象に治療を適用または投与するのに使用される。
【0032】
記載された方法のいくつかの実施形態では、HRDモデルは機械学習モデルである。
【0033】
記載された方法のいくつかの実施形態では、対象は、がんを有するか、がんを有するリスクがあるか、またはがんを有する疑いがある。
【0034】
対象のがんを治療する方法であって、(a)上記の任意の方法に従って腫瘍をHRD陽性またはHRD陰性として識別するステップ、(b)がんの腫瘍がHRD陽性と評価された場合、治療有効量のHRD陽性腫瘍に有効な薬物を対象に投与するステップ、を含む方法が、本明細書にさらに記載される。いくつかの実施形態では、HRD陽性腫瘍に有効な薬物は、白金系薬物またはPARP阻害剤である。いくつかの態様において、方法は、腫瘍がHRD陰性と評価された場合、白金系薬物でもPARP阻害剤でもない治療有効量の薬物を対象に投与するステップを含む。
【0035】
対象のがんの治療法を選択する方法であって、(a)上記の任意の方法に従ってHRD陽性またはHRD陰性としてがんの腫瘍を評価するステップ、(b)がんがHRD陽性と評価された場合、HRD陽性腫瘍に有効な療法を選択するステップ、を含む方法が、本明細書にさらに記載される。いくつかの態様では、方法は、腫瘍がHRD陰性と評価された場合、白金系薬物でもPARP阻害剤でもない治療法を選択するステップを含む。いくつかの実施形態では、HRD陽性腫瘍に有効な治療法は、白金系薬物またはPARP阻害剤である。
【0036】
コンピュータシステムであって、1つまたは複数のプロセッサと、メモリと、1つまたは複数のプログラムであって、1つまたは複数のプログラムがメモリに記憶され、1つまたは複数のプロセッサによって実行されるように構成され、1つまたは複数のプログラムが、請求項1から65のいずれか一項に記載の方法を実行するための指示を含む、1つまたは複数のプログラムと、を含む、コンピュータシステムが、本明細書にさらに記載される。
【0037】
1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、1つまたは複数のプログラムが命令を含み、命令が、電子デバイスの1つ以上のプロセッサによって実行されると、電子デバイスに、上述の方法のいずれか1つを実行させる、非一時的コンピュータ可読記憶媒体が、本明細書にさらに記載される。
【図面の簡単な説明】
【0038】
図1】対象におけるがんの腫瘍をHRD陽性(HRD(+))またはHRD陰性(HRD(-))として分類するための例示的なプロセスを示す。
【0039】
図2】ANOVA、ランダムフォレスト、勾配ブースティング(例えば、XGB)、およびカイ二乗などの異なる特徴の重要度のメトリックを使用して評価され得る異なるタイプの特徴を示す。
【0040】
図3A】例示的な特徴重複分析を示す。
【0041】
図3B】例示的な特徴重複分析を示す。
【0042】
図4】例示的な反復特徴選択プロセスを示す。
【0043】
図5】例示的な反復特徴選択プロセスから得られたモデルのパフォーマンスの例示的なプロットを示す。
【0044】
図6A】モデルのパフォーマンスを評価および調整するために使用され得る例示的な交差検証プロセスを示す。
【0045】
図6B】複数のデータ要素の等しいサイズのサブセットへの例示的な分割を示す。
【0046】
図7】対象のがんの腫瘍をHRD陽性(HRD(+))またはHRD陰性(HRD(-))として分類するように構成されたHRD分類モデルを訓練および操作するための例示的な方法を示す。
【0047】
図8】ロジスティック回帰、勾配ブースティング(例えば、XGB)、およびランダムフォレストを使用した異なる機械学習モデルに対するHRDスコア分布の例を示す。
【0048】
図9】HRDおよび/またはBRCA1/2の変異の状態によって層別化されたサンプルにおける例示的なモデルのパフォーマンスを示す。左側は、「HRD野生型:真」(N=245,050;図の右側の-1)、「HRD野生型:偽」(N=30,799;図の右側の0)および真のHRD陽性サンプル(二対立遺伝子BRCA変異;N=6,851;図の右側の1)と呼ばれるサンプル腫瘍のプールを示す。
【0049】
図10】異なる腫瘍タイプ(乳がん、卵巣がん、膵がんおよび前立腺がん)における図9のサブセットからの例示的なモデルのパフォーマンスを示す。各腫瘍タイプについて、サブセットは、図9のサブセット-1、0、および1に対応する(すなわち、各がんに対するHRD野生型:真、HRD野生型:偽、および二対立遺伝子BRCA変異)。
【0050】
図11】本明細書に記載の特定の方法で使用することができる、一実施形態によるコンピューティングデバイスの例を示す。
【発明を実施するための形態】
【0051】
発明の詳細な説明
相同組換え欠損(HRD)モデル(例えば、分類モデル)を訓練するための1つまたは複数の特徴の重要度のメトリックを使用して、複数の特徴のサブセットを識別するコンピュータ実装方法が本明細書に記載される。モデルは、対象における腫瘍のゲノムに関連する複数の特徴のサブセットに関する試験サンプルデータを受け取り、腫瘍をHRD陽性である可能性が高い、またはHRD陰性である可能性が高いものと識別(例えば、分類する)するように構成される。HRD陽性である可能性が高い(HRD(+))、またはHRD陰性である可能性が高い(HRD(-))ものとして、腫瘍、例えば、前立腺がん、卵巣がん、乳がん、結腸直腸がん、NSCLC、または膵臓がんの腫瘍を識別する(例えば、分類する)方法を、本明細書においてさらに記載する。HRD陽性(またはHRD陽性である可能性が高い)またはHRD陰性(またはHRD陰性である可能性が高い)としての腫瘍の識別に基づいて、膵臓がん、前立腺がん、卵巣がん、乳がん、非小細胞肺がん(NSCLC)、または結腸直腸がん(CRC)などであるがこれらに限定されないがんを治療する方法を、本明細書においてさらに記載する。
【0052】
特徴のサブセットを選択すると、モデルのオーバーフィッティングを減らすことができる。オーバーフィッティングは、モデルのスケーラビリティを低減し、モデルがモデルを訓練するために使用されるデータの範囲外にあるシナリオを無視するので、不正確な分類(例えば、不正確なHRDの状態)をもたらす可能性があるため、問題がある。さらに、より高い特徴の重要度を有する特徴のサブセットを選択することによって、分類モデルは、より少ない訓練データで訓練することができ、より少ない入力データを必要とする。これは、より効率的なモデリングプロセスを可能にするだけでなく、モデルからのより広い範囲のサンプルからのより正確な分類も可能にする。さらに、入力される特徴の低減されたセットを有するモデルは、訓練するため、また分類タスクを実行するために、より少ない処理パワーを必要とし得る。したがって、特徴選択プロセスは、処理速度を改善し、コンピュータメモリおよび処理パワーの効率的な使用を可能にすることによって、コンピュータシステムの機能を改善する。さらに、特定の派生するコピー数の特徴および/または短い変異体の特徴から選択することによって、訓練されたモデルは、以前の方法と比較して、腫瘍をHRD陽性またはHRD陰性として識別するときに、より高い効率および精度(例えば、偽陽性/偽陰性が少ない)をもたらす。ヘテロ接合性の喪失、テロメア対立遺伝子不均衡、および大規模の移行などのHRDを評価する以前の方法は、本明細書に記載されている派生するコピー数の特徴および/または短い変異体の特徴の評価と比較して、ノイズおよび誤差にさらされやすい。腫瘍の適切な識別は、患者(対象)の治療を適切に選択できることに不可欠である。
【0053】
腫瘍形成は、部分的には、細胞のゲノムの体細胞変化の蓄積によって推進される。これらの変化の中には、多くのがんにおいて一般的であるコピー数の変化が含まれる。相同修復欠損経路に関与する特定の遺伝子における機能の喪失、機能の獲得、または遺伝子調節変異は、これらのコピー数の変化の蓄積をもたらし得る。しかしながら、BRCA1およびBRCA2などの特定の重要な遺伝子における変異以外に、HRD陽性状態をもたらす変異の正確な組み合わせは不明である。いくつかの腫瘍は、非ゲノム手段を介して、例えばBRCA1などのHRD関連遺伝子のプロモータメチル化を介してHRD陽性となる。HRD関連遺伝子を配列決定する代わりに、代替的なアプローチは、特定のコピー数の変化の特徴、またはヘテロ接合性の喪失の特徴などのHRDの結果を識別および評価することである。しかしながら、HRD陽性ゲノムおよびHRD陰性ゲノムの両方がコピー数の変化を示し得るが、HRDの存在を示す正確な値および特徴の組み合わせは不明である。
【0054】
したがって、一態様では、本発明の方法は、HRD分類器プロセスを訓練および操作するために使用することができる特徴のサブセットを(より大きな複数の潜在的な特徴から)選択することに関する。別の態様では、本発明の方法は、一般に、コピー数の収差に対応する特徴などの特徴の評価に、少なくとも部分的に基づいて、HRD陽性である可能性が高い(HRD(+))またはHRD陰性である可能性が高い(HRD(-))腫瘍を識別(例えば、分類)する手段に関する。この分類は、一般に、腫瘍がHRD陽性またはHRD陰性である可能性の評価に基づく。この評価に基づいて、HRD分類器プロセスはさらに、腫瘍をHRD陽性またはHRD陰性とみなすことができる。このように分類することおよび/またはみなすことは、腫瘍を有する患者の診断の値として使用され得る。
【0055】
腫瘍をHRD陽性である可能性が高いまたはHRD陰性である可能性が高いものと分類するための既存の方法は、特に野生型BRCA1およびBRCA2を有するHRD陽性腫瘍(「BRCAness」プロファイルを有する腫瘍、すなわち、関連するBRCA1/2変異を有せずにBRCA1/2変異腫瘍との類似性を示す腫瘍として記載されることがある)では、信頼性が低い、または不正確であることが多い。あるいは、すべての変異が、BRCA1/2の変化などの病原性変異でさえ、HRDをもたらすわけではない(例えば、いくつかの変異は、単一対立遺伝子の同乗者であり得る)。がんに関連する相同修復欠損は、腫瘍細胞ゲノムを傷つけ、コピー数(すなわち、コピー数の異常)および/またはインデルパターンの検出可能な変化をもたらす。これらのコピー数の異常および/またはインデルパターンの特定のパターン、分布および形態を使用して、腫瘍をHRD表現型クラスに分類することができる。本願は、様々な実施形態において、HRD陽性腫瘍を識別するために使用することができる他の潜在的特徴(本明細書で他の様式で記載されるような基本的特徴など)の中から、これらのパターン(すなわち、コピー数の特徴)およびインデルパターン(すなわち、短い変異体の特徴)に関連する特徴を選択する手段を提供する。
【0056】
本願はさらに、腫瘍を、HRD陽性である可能性が高いまたはHRD陰性である可能性が高いものとしてより確実に識別(例えば、分類する)することができ、任意選択で腫瘍をHRD陽性またはHRD陰性とみなすことができる、対象におけるがん性腫瘍のゲノムに関連する1つまたは複数のデータ特徴(1つまたは複数のコピー数の特徴および/または1つまたは複数の短い変異体の特徴など)に基づく具体的に構成されたモデルを提供する。対象におけるがんの腫瘍の識別(例えば、分類)は、腫瘍がどのように治療されるべきかを示す。例えば、セグメントサイズの特徴、シーケンシングリードの特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、振動コピー数のセグメントの数の特徴、およびセグメントマイナーアリル頻度の特徴のうちの1つまたは複数を含む、少なくとも1つまたは複数のコピー数の特徴を含む試験データを使用する訓練されたHRDモデルを使用して、試験用腫瘍をHRD陽性である可能性が高いまたはHRD陰性である可能性が高いと識別し(例えば、分類する)、また、尤度スコアに基づいて腫瘍をHRD陽性またはHRD陰性とみなすことができる。コピー数の特徴のこれらのカテゴリは、この識別に有用であると識別されている。特定のカテゴリの短い変異体の特徴がまた、この識別に有用であると識別されており、これには、例えば、ミクロ相同性または反復領域特徴における欠失(例えば、少なくとも5塩基対)および/または2つ以上の短い変異体の特徴を組み込んだ変異シグネチャが含まれるが、これらに限定されない。
【0057】
これらのコピー数の特徴の1つもしくは複数、および/またはこれらの短い変異体の特徴の1つもしくは複数と組み合わせて、他の特徴または測定が記載された方法において有用であり得、これらには、限定されないが、対象の年齢、がんの型、がんの病期、腫瘍の純度、腫瘍のゲノム倍数性、および/またはヘテロ接合性の腫瘍ゲノム喪失などの特定の基本的特徴が含まれる。
【0058】
対象におけるがんの腫瘍が、HRD陽性である可能性が高いまたはHRD陰性である可能性が高い、またはHRD陽性またはHRD陰性とみなされるものと識別され(例えば、分類され)たら、それを適切な治療で治療することができる。例えば、腫瘍がHRD陽性である可能性が高いと識別された場合、それはHRD陽性がんに有効な薬物、例えば白金系薬物またはPARP阻害剤で治療することができる。
【0059】
定義
本明細書において使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈上他に明確に指示されない限り、複数の言及を含む。
【0060】
本明細書における値またはパラメータ「約」への言及は、その値またはパラメータ自体を対象とする変動を含む(および説明する)。例えば、「約X」という記載は、「X」という記載を含む。
【0061】
「がん」および「がん性」という用語は、典型的には調節されていない細胞の増殖を特徴とする哺乳動物における生理学的状態を指すまたは記載する。この定義には、良性および悪性のがんが含まれる。「早期がん」または「初期の腫瘍」とは、浸潤性でも転移性でもないか、ステージ0、1または2のがんとして分類されるがんを意味する。がんの例には、肺がん(例えば、非小細胞肺がん(NSCLC))、腎臓がん(例えば、腎尿路上皮癌)、膀胱がん(例えば、膀胱尿路上皮(移行細胞)癌)、乳がん、結腸直腸がん(例えば、結腸腺癌)、卵巣がん、膵臓がん、胃癌、食道がん、中皮腫、黒色腫(例えば、皮膚黒色腫)、頭頸部がん(例えば、頭頸部扁平上皮癌(HNSCC))、甲状腺がん、肉腫(例えば、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫(osteogenic sarcoma)、骨肉腫(osteosarcoma)、軟骨肉腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ血管内皮肉腫、平滑筋肉腫または横紋筋肉腫)、前立腺がん、神経膠芽腫、子宮頸がん、胸腺癌、白血病(例えば、急性リンパ性白血病(ALL)、急性骨髄球性白血病(AML)、慢性骨髄性白血病(CML)、慢性好酸球性白血病、または慢性リンパ性白血病(CLL))、リンパ腫(例えば、ホジキンリンパ腫または非ホジキンリンパ腫(NHL))、骨髄腫(例えば、多発性骨髄腫(MM))、菌状息肉症、メルケル細胞がん、血液悪性腫瘍、血液組織のがん、B細胞がん、気管支がん、胃がん、脳または中枢神経系がん、末梢神経系がん、子宮または子宮内膜がん、口腔または咽頭のがん、肝臓がん、精巣がん、胆道がん、小腸または虫垂がん、唾液腺がん、副腎がん、腺がん、炎症性筋線維芽細胞性腫瘍、消化管間質腫瘍(GIST)、結腸がん、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、真性赤血球増加症、脊索腫、滑膜腫、ユーイング腫瘍、扁平上皮癌、基底細胞癌、腺癌、汗腺癌、脂腺癌、乳頭状癌、乳頭状腺癌、髄様癌、気管支原性癌、腎細胞癌、肝癌、胆管癌、絨毛癌、セミノーマ、胚性癌、ウィルムス腫瘍、膀胱癌、上皮癌、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣腫、髄膜腫、血管芽腫、聴神経腫瘍、乏突起膠腫、髄膜腫、神経芽腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞癌、甲状腺がん、小細胞がん、本態性血小板血症、無色素性骨髄性化生、好酸球増加症候群、全身性肥満細胞症、よく知られている好酸球増加症、神経内分泌がん、またはカルチノイド腫瘍が含まれるが、これらに限定されない。
【0062】
本明細書で使用される腫瘍「腫瘍」は、悪性または良性にかかわらず、すべての新生物細胞の成長および増殖、ならびにすべての前がん性およびがん性の細胞および組織を指す。「がん」、「がん性」、および「腫瘍」という用語は、本明細書で言及される場合、相互に排他的ではない。
【0063】
「個体」、「患者」、および「対象」という用語は同義的に使用され、哺乳動物を指し、ヒト、ウシ、ウマ、ネコ、イヌ、げっ歯類、または霊長類が含まれるが、これらに限定されない。いくつかの実施形態では、対象は、ヒトである。
【0064】
本明細書で使用される場合、「有効量」または「治療有効量」という用語は、特定の障害、状態または疾患を治療する、例えばその症状の1つまたは複数を改善、緩和、軽減、および/または遅延させるのに十分な化合物、薬物、または組成物の量を指す。がんに関して、有効量は、対象に存在するがん細胞の数を、数および/またはサイズにおいて減少する、および/またはがん細胞の成長速度を遅くするのに充分な量を含む。いくつかの実施形態では、有効量は、疾患の再発を予防する、または遅らせるのに充分な量である。がんの場合、化合物または組成物の有効量は、(i)がん細胞の数を減少させる;(ii)がん細胞の増殖を阻害する、遅延させる、ある程度遅らせる、好ましくは停止させる;(iii)がんの発生および/または再発を予防または遅延させる;および/または(iv)がんに関連する1つまたは複数の症状をある程度軽減することができる。
【0065】
本明細書で使用される場合、「治療」または「治療すること」は、臨床結果を含む有益なまたは所望の結果を得るためのアプローチである。本発明の目的のために、有益なまたは所望の臨床結果には、以下のうちの1つ以上が含まれるが、これらに限定されない:疾患に起因する1つ以上の症候の緩和、疾患の程度の縮小、疾患の安定化(例えば、疾患の悪化の予防または遅延)、疾患の蔓延(例えば転移)の予防または遅延、疾患の再発の予防または遅延、疾患の進行の遅延または遅延、疾患状態の改善、疾患の寛解(部分的または全体)の提供、疾患の処置に必要な1つ以上の他の薬物の用量の減少、疾患の進行の遅延、生活の質の向上、および/または生存期間の延長。がんに関して、対象に存在するがん細胞の数は、数および/またはサイズが減少し得る、および/またはがん細胞の成長速度が遅くなり得る。いくつかの実施形態では、治療は、疾患の再発を予防または遅延させ得る。がんの場合、治療は以下の通りであり得る:(i)がん細胞の数を減少させる;(ii)がん細胞の増殖を阻害する、遅延させる、ある程度遅らせる、好ましくは停止させる;(iii)がんの発生および/または再発を予防または遅延させる;および/または(iv)がんに関連する1つ以上の症状をある程度軽減する。本発明の方法は、これらの治療の態様のいずれか1つ以上を企図する。
【0066】
本明細書に記載される本発明の態様および変形は、態様および変形「からなる」および/または「から本質的になる」を含むことが理解される。
【0067】
値の範囲が提供される場合、その範囲の上限と下限との間の各介在値、およびその状態範囲内の任意の他の記載値または介在値は、本開示の範囲内に含まれることを理解されたい。記載された範囲が上限または下限を含む場合、それらの含まれる限界のいずれかを除外した範囲も本開示に含まれる。
【0068】
本明細書において使用されるセクションの見出しは、編成のみを目的としており、記載された主題を限定するものと解釈されるべきではない。説明は、当業者が本発明を製造および使用することを可能にするために提示され、特許出願およびその要件の文脈で提供される。記載された実施形態に対する様々な変更は、当業者にとって容易に明らかであり、本明細書の一般的な原理は、他の実施形態に適用されてもよい。したがって、本発明は、示された実施形態に限定されることを意図するものではなく、本明細書に記載された原理および特徴と一致する最も広い範囲が与えられるべきである。
【0069】
図は、様々な実施形態にかかるプロセスを示している。例示的なプロセスでは、いくつかのブロックは、任意に組み合わされ、いくつかのブロックの順序は、任意に変更され、いくつかのブロックは、任意に省略される。いくつかの例では、例示的なプロセスと組み合わせて追加のステップが実行されることができる。したがって、図示されている(および以下により詳細に説明されている)動作は、本質的に例示的なものであり、したがって、限定するものとみなされるべきではない。
【0070】
本明細書で参照されるすべての刊行物、特許、および特許出願の開示は、それぞれ、参照によりその全体が本明細書に援用される。参照により援用される参考文献が本開示と矛盾する限り、本開示が優先するものとする。
【0071】
特徴の選択
本明細書で別途説明されるものを含む複数の特徴から開始して、複数の特徴のサブセットは、1つまたは複数の特徴の重要度のメトリックを使用して識別することができる。一般に、特徴の重要度のメトリックは、個々の特徴の評価を可能にし、どの特徴がHRDの評価に最も関連し得るかを判定する。例示的な特徴の重要度のメトリックには、勾配ブースティング(例えばXGBoost、XGBとしても知られる)、分散分析(ANOVA)、カイ二乗分析、およびランダムフォレストが含まれるが、これらに限定されない。個々の特徴は、これらの特徴の重要度のメトリックに基づいて値を割り当てることができ、特徴は、HRDモデルのパフォーマンスに対する寄与の増加に基づいて、重要度が増加して割り当てられる(例えば、腫瘍をHRD陽性またはHRD陰性として分類する際のモデルのパフォーマンスの改善)。次いで、閾値を超える特徴(複数の特徴のうちの中央値を超える特徴など)などのより重要な特徴を、HRDモデルを訓練または実行することに使用するために、選択することができる。特徴のサブセットが識別されると、特徴のサブセットを使用して、HRDモデル(例えば、分類モデル)を訓練することができる。次いで、HRDモデルを使用して、腫瘍から得られ、特徴を選択している間に識別された特徴の少なくとも一部を含む試験データを使用して、対象の腫瘍を識別(例えば、分類する)することができる。
【0072】
より高い特徴の重要度を有する特徴のこのサブセットを選択することにより、モデルは、より少ない訓練データで訓練することができ、より少ない入力データを必要とするようになり、したがってメモリの使用量および管理を改善する。さらに、入力される特徴の低減されたセットを有するモデルは、訓練するため、また識別(例えば、分類)タスクを実行するために、より少ない処理パワーを必要とする。したがって、特徴選択プロセスは、処理速度を改善し、コンピュータメモリおよび処理パワーの効率的な使用を可能にすることによって、コンピュータシステムの機能を改善する。
【0073】
図1は、いくつかの実施形態による、複数の特徴のサブセットを識別するためのブロックを含む、対象におけるがんの腫瘍をHRD陽性またはHRD陰性として分類するための例示的なプロセスを示す。いくつかの実施形態において、プロセス100は、例えば、ソフトウェアプログラムを実装する1つ以上の電子デバイスを使用して実行される。一部の実施例では、プロセス100は、クライアント-サーバシステムを使用して実行され、プロセス100のブロックは、サーバとクライアントデバイスとの間で、任意の方法で分けられる。他の実施例では、プロセス100は、クライアントデバイスのみ、または複数のクライアントデバイスのみを使用して実行される。プロセス100では、いくつかのブロックが、任意選択的に結合され、いくつかのブロックの順序が、任意選択的に変更され、いくつかのブロックが、任意選択的に省略される。一部の実施例では、プロセス100と組み合わせて追加のステップを実行することができる。したがって、図示されている(および以下により詳細に説明されている)動作は、本質的に例示的なものであり、したがって、限定するものとみなされるべきではない。
【0074】
図1のブロック102において、例示的なシステム(例えば、1つまたは複数の電子デバイス)は、複数の特徴を受信する。いくつかの実施形態では、システムは、複数のデータ要素を含むデータセットを受信する。データ要素は、複数の特徴および関連する分類標識(例えば、HRD陽性またはHRD陰性)に関するデータを含むことができる。例えば、データ要素は、特定の対象由来のサンプルの複数の特徴に関するデータ、およびサンプルがHRD陽性およびHRD陰性であるかどうかを示す関連する分類標識を含むことができる。特徴は、基本的特徴、コピー数の特徴、および/または短い変異体の特徴(例えば、塩基置換またはインデル(挿入または欠失)に対応する特徴)として分類された特徴を含むことができる。基本的特徴には、限定するものではないが、データが得られた患者の年齢、がんの型、がんの病期、腫瘍の純度、腫瘍のゲノム倍数性、およびヘテロ接合性の腫瘍ゲノム喪失(ヘテロ接合性喪失下のゲノムの割合など)に関する特徴が含まれ得る。コピー数の特徴には、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、振動コピー数のセグメントの数、およびセグメンマイナーアリル頻度の特徴が含まれ得るが、これらに限定されない。短い変異体の特徴は、例えば、ホモポリマーまたは反復領域特徴での欠失(例えば、少なくとも5塩基対)、および/または2つ以上の短い変異体の特徴を組み込んだ変異シグネチャを含み得るが、これらに限定されない。いくつかの実施形態では、特徴のうちの1つまたは複数はビニングされた特徴であり、値は、2分位数、3分位数、4分位数、5分位数、6分位数、7分位数、または任意の他の適切なビニング構成などのビンにソートされる。
【0075】
図1のブロック104において、システムおよび方法は、複数の特徴(すなわち、基本的特徴、コピー数の特徴、および/または短い変異体の特徴)から特徴のサブセットを選択する。選択された特徴のサブセットは、対象のがんの腫瘍を、HRD陽性またはHRD陰性として分類するための比較的高い予測値を有し得る。いくつかの実施形態では、比較的低い予測値を有するおよび/または冗長である特徴は、ブロック104において特徴のサブセットから除外することができる。いくつかの実施形態では、特徴の予測値は、特徴の重要度のメトリックを使用して定量化することができる。いくつかの実施形態では、特徴の重要度のメトリックを適用して、複数の特徴の各特徴の特徴重要度スコアを取得することができる。特徴の特徴重要度スコアは、特徴と分類標識との統計的相関から得られる(例えば、HRD陽性またはHRD陰性)。特徴と分類標識との間の統計的相関は、特徴が分類タスクに対してどれだけの予測値を有するかに基づいて解釈され得る。換言すれば、例えば、特徴と分類標識との間のより高い統計的相関を有することによって、より高い特徴重要度スコアを達成することができ、これは、特徴が分類標識を予測する際に、より重要な役割を果たすことを示すことができる。より高い特徴の重要度を有する特徴を使用することにより、分類モデルをより少ないデータで訓練することができ、したがって訓練プロセスに多大な程度の有効性をもたらし、コンピュータリソースに対する制約(例えば、メモリ使用量、処理速度など)を少なくする。例えば、入力される特徴の低減されたセットを有するモデルは、訓練するため、また分類タスクを実行するために、より少数の処理リソースを必要とし得る。最後に、入力される特徴のセットが低減したモデルは、より少ないノイズを示し、オーバートレーニングを回避することができる。したがって、特徴選択プロセスは、訓練プロセスの全体的な有効性を改善し、処理速度を改善し、コンピュータメモリおよび処理パワーの効率的な使用を可能にすることによって、コンピュータシステムの機能化を改善する。
【0076】
いくつかの実施形態では、システムは、ブロック104aによって示されるように、特徴重複分析を実行することによって、図1のブロック102で受信された複数の特徴から特徴のサブセットを選択する。ブロック104aにおいて、各々の特徴の重要度のメトリックは、ブロック102から受信した複数の特徴の特徴重要度スコアを計算するために使用される。各々の特徴の重要度のメトリックについて、システムは、それらの特徴重要度スコアに従って複数の特徴をランク付けすることができる。したがって、システムは、複数の特徴重要度特徴に対応する複数の特徴ランキングを取得することができる。そのとき、システムは、複数のランキングに基づいて特徴のサブセットを識別することができる。特徴をランク付けし、特徴のサブセットを識別するプロセスは、以下でより詳細に説明される。
【0077】
いくつかの実施形態では、異なるタイプの特徴は、異なる特徴の重要度のメトリックを使用して評価することができる。図2は、いくつかの実施形態による、ブロック104aにおいて複数の特徴をランク付けするために使用され得る複数の特徴の重要度のメトリックを示す。図示された例示的な特徴の重要度のメトリックは、ANOVA、ランダムフォレスト、勾配ブースティング(例えば、XGB)、およびカイ二乗を含む。さらに、ANOVAを使用して、複数の特徴の数値的な特徴を評価し、数値的な特徴のランキングを得ることができる。カイ二乗を使用して、複数の特徴のカテゴリ的な特徴を評価し、カテゴリ的な特徴のランキングを得ることができる。ランダムフォレストを使用して、複数の特徴のすべてを評価し、すべての特徴をランク付けすることができる。同様に、勾配ブースティング(XGBなど)を使用して、複数の特徴のすべてを評価し、すべての特徴をランク付けすることができる。
【0078】
いくつかの実施形態では、特徴の重要度のメトリックは、分散分析(ANOVA)モデルを含む。ANOVAは、数値入力変数が分類対象変数と比較されるときに群間で等しい分散があるかどうか(すなわち、HRD陽性またはHRD陰性)を評価する。群間に等しい分散がある場合、特徴は応答に影響せず、モデルの訓練のために考慮されなくてもよい。分散の値(f値)に基づいて、特徴をランク付けすることができ、例えば中央値を超える特徴を、モデルの有用な特徴として選択することができる。
【0079】
いくつかの実施形態では、特徴の重要度のメトリックは、カイ二乗分析を含む。特徴選択のために、カイ二乗解析は、予想される計数(すなわち、特徴が出力から独立している場合)と観測された計数とがどれほど互いに逸脱するかを検証する。特徴のより高いカイ二乗値は、それが応答変数にいっそう依存し、したがってより重要であることを示す。カイ二乗解析を使用して、特徴をランク付けすることができ、例えば中央値を上回る特徴を、モデルの有用な特徴として選択することができる。
【0080】
いくつかの実施形態では、特徴の重要度のメトリックは、ランダムフォレスト分析を含む。特徴選択の間、各ツリーについて、データの袋外の部分の予測精度が記録される。このプロセスは、各予測子変数を並べ替えた後に繰り返される。次いで、2つの精度の差がすべてのツリーにわたって平均化され、標準誤差によって正規化される。
【0081】
いくつかの実施形態では、特徴の重要度のメトリックは、勾配ブースティング分析(例えば、extreme gradient boosting(XGB)分析)を含む。XGBなどの勾配ブースティングは、モデルに対する各特徴の利得の寄与を検証する。ブーストされたツリーモデルでは、各ツリーの各特徴の各利得が考慮され、次いで特徴寄与ごとの平均が評価される。次いで、最も高いパーセンテージの誘因特徴を選択することができる。
【0082】
図1のブロック104aにおいて、複数の特徴が特徴の重要度のメトリックに従ってランク付けされた後、システムは、複数のランキングを使用して特徴のサブセットを選択する。特徴のサブセットを選択する例示的なプロセスは、以下の図3Aおよび図3Bでさらに詳細に説明される。
【0083】
図3Aは、いくつかの実施形態による例示的な特徴重複分析を示す。図2で上述したように、複数の特徴をランク付けするために、複数の特徴の重要度のメトリックが使用されてもよい。図3Aの例では、例示的なプロセスは、特徴をランク付けするためにANOVA、ランダムフォレスト、および勾配ブースティング分析を使用する。しかしながら、当業者は、当技術分野で知られている他の学習技術も同様に使用することができることを理解するであろう。しかしながら、図3Aの例示的な目的のために、ANOVA特徴ランキング302は、最高ランクの特徴として特徴1、4、5、および8を含む。ランダムフォレストランキング304は、最高ランクの特徴として特徴8、2、3、および1を含む。勾配ブースティングランキング306は、最高ランクの特徴として特徴6、1、4、および2を含む。いくつかの実施形態では、他の特徴の重要度のメトリックを使用して、特徴を評価することができる。いくつかの実施形態では、特徴を評価するために、3つよりも少ないまたは多いメトリックを使用することができる。いくつかの実施形態では、4つを超える特徴が上位の特徴とみなされてもよく、例えば、5つを超える、6つを超える、7つを超える、8つを超える、9つを超える、10を超える、11を超える、12を超える、13を超える、14を超える、15を超える、16を超える、17を超える、18を超える、19を超える、20を超える、21を超える、22を超える、23を超える、24を超える、または25を超える特徴のいずれかが上位の特徴とみなされてもよい。
【0084】
特徴がランク付けされると、システムは、特徴重複分析を実行して、1つまたは複数のメトリックが上位の特徴として識別された特徴を判定することができる。図3Aの例では、特徴重複分析308は、特徴1を、ANOVA特徴ランキング302、ランダムフォレストランキング304、および勾配ブースティングランキング306において識別された上位の特徴として識別する。特徴重複分析308はまた、特徴2、4、および8を、2つのメトリックによって識別された上位の特徴として識別する。いくつかの実施形態では、特徴重複分析308は、すべてのメトリックによって上位と識別された特徴を出力することによって、特徴のサブセットを出力することができる。いくつかの実施形態では、特徴重複分析308は、1つまたは複数のメトリックによって上位であると識別された特徴を出力することによって、特徴のサブセットを出力することができる。いくつかの実施形態では、特徴重複分析308は、グラフに表されてもよい。いくつかの実施形態では、特徴重複分析308は、特徴のサブセットを含むリストを出力することができる。
【0085】
図3Bは、いくつかの実施形態による、対象のがんの腫瘍をHRD陽性またはHRD陰性として分類するために使用される特徴の特徴選択プロセスの例示的な出力310を示す。特徴の重要度ランキング312がグラフで示されており、各グラフは、特定の特徴の重要度のメトリックによる特徴のランキングを示している。各グラフ(ANOVA、ランダムフォレスト、および勾配ブースティング)において、各ドットは特徴を表し、そのy軸の値は、特徴の重要度のメトリックによって計算されたその特徴の重要度に対応する。図3Bの例では、特徴重複分析314は、各特徴の重要度のメトリックに従って上位の特徴を含むことができる。図示のように、特徴重複分析は、メトリックのすべておよび/またはメトリックの一部によって高くランク付けされた特徴を識別することができる。
【0086】
図1に戻ると、いくつかの実施形態では、システムおよび方法は、プロセス104aに加えて、またはプロセス104aの代わりに、反復特徴選択プロセス104bを使用して複数の特徴のサブセットを判定することができる。ブロック104bで、システムは、図4で後述するように、1つまたは複数の特徴の重要度のメトリック(例えば、勾配ブースティング)を使用して特徴を評価し、次いで反復特徴選択プロセスを実行して特徴セットを徐々に拡張する。
【0087】
図4は、いくつかの実施形態による、図1のブロック104bによって使用され得る反復特徴選択プロセスを示す。ブロック402において、システムは、複数の特徴(例えば、図1のブロック102で受信された複数の特徴)を有するデータセットを受信する。
【0088】
図4のブロック404において、システムは、ブロック402において受信された特徴を、1つまたは複数の特徴の重要度のメトリック(例えば、勾配ブースティング)を使用して評価する。次いで、システムは、それらの対応する特徴の重要度のメトリックのスコアに従って特徴をランク付けすることができる。
【0089】
図4のブロック408において、システムおよび方法は、新しい特徴セットを取得する。最初の反復では、システムは、ブロック404によって判定された最高ランクの特徴を特徴セットに含めることによって、新しい特徴セットを取得することができる。後続の反復では、システムは、新しい特徴セットを取得するために、ブロック404によって判定された次の最高ランクの特徴を追加することによって既存の特徴セットを拡張することができる。システムは、新しい特徴セットに基づいて訓練データセットをさらに取得する。訓練データセットは、複数のデータ要素を含むことができ、各データ要素は、新しい特徴セットおよび対応する分類標識(例えば、HRD陽性またはHRD陰性)に関連するデータを含む。例えば、データ要素は、サンプルからの新しい特徴セットの特徴およびサンプルの対応する分類標識(例えば、HRD陽性またはHRD陰性)に関するデータを含むことができる。
【0090】
図4のブロック410において、システムおよび方法は、ブロック408からの訓練データセットを使用して新しい分類モデルを訓練および評価する。システムは、モデルの訓練および評価で使用された特徴のリストに関連してモデルのパフォーマンスを記録する。いくつかの実施形態では、分類モデルの訓練および評価は、図6Aおよび図6Bによって以下でさらに説明するように、交差検証方法を使用して実行することができる。いくつかの実施形態では、分類モデルの訓練および評価は、ブロック408からのデータセットの別個のサブセットを使用することができる。
【0091】
いくつかの実施形態では、図4のブロック408および410は、ブロック402で受信されたすべての特徴がデータに含まれるまで反復される。各反復において、ブロック408は、次の最高ランクの特徴をデータセットに追加する。例えば、第1の反復では、ブロック408は、最高ランクの特徴を含む特徴セットと、対応する訓練セットとを出力する。第2の反復では、ブロック408は、2つの最高ランクの特徴を含む特徴セットと、対応する訓練セットとを出力する。第3の反復において、ブロック408は、3つの最高ランクの特徴を含む特徴セットおよび対応する訓練セットを出力する、などである。各反復において、ブロック410はそのとき、ブロック406からの訓練データセットを使用して、新しい分類モデルを訓練および評価する。システムは、条件が満たされるまでブロック408および410を繰り返す。いくつかの実施形態では、条件はブロック412を含み、システムは、追加される特徴がこれ以上ないと判定する(例えば、ブロック402で受信されたすべての特徴は、ブロック410で分類モデルを訓練および評価するために使用されるデータセットに含まれる)。いくつかの実施形態では、条件は、新しい分類モデルのパフォーマンスが閾値を超えるという判定を含む。この反復プロセスにより、システムは、ブロック402で受信されたすべての特徴が分類モデルを訓練し、パフォーマンスを評価するために使用されるまで、最高ランクの特徴、上位2つの最高ランクの特徴、上位3つの最高ランクの特徴などで訓練および評価されたときに分類モデルのパフォーマンスを記録することができる。記録されたパフォーマンスデータの例を図5に示す。
【0092】
図4のブロック414において、システムおよび方法は、ブロック410からの記録されたモデルのパフォーマンスを利用して、分類モデルのパフォーマンスを最適化する特徴の最小サブセットを判定する。いくつかの実施形態では、システムは、特徴の最小サブセットを判定して、追加の特徴の追加がモデルのパフォーマンスを実質的に改善しないようにすることができる。いくつかの実施形態では、システムは、分類モデルのパフォーマンスが特定の所定の閾値を超えるように、特徴の最小サブセットを決定することができる。特徴のサブセットは、ブロック414において出力される。
【0093】
図5は、図4のブロック410で判定されたモデルのパフォーマンスの例示的なプロットを示す。図5に示す例では、横軸は、分類モデルの訓練および評価に使用されるデータに含まれる上位の特徴の数を示す。縦軸はモデルのパフォーマンスを示す。いくつかの実施形態では、モデルのパフォーマンスは、受信者動作特性(ROC)曲線下面積(AUC)を使用して評価することができる。図5の例では、ブロック416において、26個の最高ランクの特徴が特徴のサブセットとして出力されると判定することができるが、各々の追加された特徴によるモデルのパフォーマンスの相対的な増加の変化に基づいて、より少ない数の特徴を選択することができる。
【0094】
図6Aは、いくつかの実施形態による、モデルのパフォーマンスを評価するために使用され得る例示的な交差検証プロセスを示す。いくつかの実施形態では、図4のブロック410でプロセス600を使用して、モデルのパフォーマンスを評価することができる。ブロック602において、システムは、複数のデータ要素を受信することができる。複数のデータ要素の各々は、1つまたは複数の特徴および既知の分類標識を含むことができる。ブロック604において、システムは、ブロック602からの複数のデータ要素を、n個の等しいサイズのサブセットに分ける。ブロック606において、システムは、ブロック604からのサブセットのうちの1つを「ホールドアウト」セットとしてホールドアウトする。ブロック608において、システムは、ホールドアウトされていないすべてのデータ要素(例えば、「ホールドアウト」セットではないn-1個のサブセットからのデータ要素)についてモデルを訓練する。ブロック610において、システムは、ブロック608からのモデルへの入力として設定された「ホールドアウト」からのデータ要素の特徴を使用する。モデルは、データ要素の特徴に対応する複数の予測分類標識を生成する。次いで、予測された分類標識は、「ホールドアウト」セットの既知の分類標識と比較され、「ホールドアウト」セットに対するモデルのパフォーマンスを評価する。ブロック606、608、および610は、ブロック604からのすべてのn個のサブセットが「ホールドアウト」セットとして一度使用されるまで反復される。すなわち、ブロック606、608、および610はn回反復され、異なるサブセットが各反復の「ホールドアウト」セットとして使用される。最後に、ステップ612において、ブロック610のすべてのn回の反復からのパフォーマンスが平均されて、パフォーマンスの平均が出力される。
【0095】
図6Bは、いくつかの実施形態による、複数のデータ要素の5つの等しいサイズのサブセットへの例示的な分割を示す。図6Bは、n=5である図6Aの例であり得る。複数のデータ要素622は、図6Aのブロック602からの複数のデータ要素の例であり得る。図6Bの例では、複数のデータ要素622は、セット1、セット2、セット3、セット4、セット5に分けられる。反復1の623では、複数のデータ要素622において、セット1が、ブロック606によって説明されるような「ホールドアウト」のデータセットとして使用され得る。モデルは、ブロック608によって説明されるように、セット2、セット3、セット4、およびセット5で訓練され得る。次いで、モデルのパフォーマンスを「ホールドアウト」データセット1で評価することができる。次いで、このプロセスはさらに4回繰り返される。反復2の624では、セット2が「ホールドアウト」セットであり、モデルはセット1、セット3、セット4、およびセット5で訓練され、モデルのパフォーマンスはセット2で評価される。反復3の626では、セット3が「ホールドアウト」セットであり、モデルはセット1、セット2、セット4、およびセット5で訓練され、モデルのパフォーマンスはセット3で評価される。反復4の628では、セット4が「ホールドアウト」セットであり、モデルはセット1、セット2、セット3、およびセット5で訓練され、モデルのパフォーマンスはセット4で評価される。反復5の630では、セット5が「ホールドアウト」セットであり、モデルはセット1、セット2、セット3、およびセット4で訓練され、モデルのパフォーマンスはセット5で評価される。図6Bの例では、平均のパフォーマンスは、反復1の622、反復2の624、反復3の626、反復4の628、および反復5の630からのモデルのパフォーマンスの平均であり得る。
【0096】
図1に戻ると、ブロック106において、システムは、ブロック104の特徴の選択によって判定されるように、選択された特徴のサブセットを取得する。分類モデル108は、選択された特徴106および標識された訓練データ110からの情報を使用して訓練される。いくつかの実施形態では、特徴の選択104に使用されるデータセットは、標識訓練データ110である同じデータセットである。いくつかの実施形態では、特徴の選択104に使用されるデータセットは、標識訓練データ110とは異なるデータセットである。分類モデルを訓練するプロセスは、以下のセクションおよび図7で後述される。分類モデル108が訓練されると、対象のがんの未知の腫瘍由来の特徴(例えば、ブロック102で受信されたデータに含まれず、既知の分類標識に関連付けられていないデータ要素)をモデル108に入力して、対象のがんの腫瘍がHRD陽性である可能性が高いまたはHRD陰性である可能性が高いものかどうかを予測することができる。
【0097】
データの特徴
識別されている(例えば、分類されている)腫瘍からの試験サンプルを対象から得ることができる。試験サンプルに関連する基本的特徴、コピー数の特徴、および/または短い変異体の特徴などの特徴は、HRD分類モデルの入力として使用することができる1つまたは複数の特徴を含む。HRD分類モデルは、HRD陽性サンプル(腫瘍サンプルなど)に関連するHRD陽性データ、およびHRD陰性サンプル(腫瘍サンプルなど)に関連するHRD陰性データからの対応する特徴(例えば、基本的特徴、コピー数の特徴、および/または短い変異体の特徴)に基づいて訓練される。特徴は、HRDに関連する「BRCAness」プロファイルを有する腫瘍を識別するのを助けることができるHRDの機能的読み出しとして、使用することができる。そのようなHRD陽性表現型を有する腫瘍は、HRD陰性表現型では有効ではない(または、えてして有効ではない)特定の薬物療法の適切な候補であり得る。
【0098】
コピー数の特徴は、セグメントサイズの特徴、シーケンシングリードの数の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数を含み得るが、これらに限定されない。Macintyre et al.,Copy-number signatures and mutational processes in ovarian carcinoma,Nat.Genet.2018 Sep;50(9):1262-1270を参照されたい。混合モデル化を適用して、各特徴分布をガウス分布の混合またはポアソン分布の混合に分け、浮動またはバイナリ成分特徴を達成することができる。コピー数の特徴はまた、セグメントにおける生殖系列SNPのAおよびBのアリル頻度に基づくセグメントマイナーアリル頻度の特徴を含み得る。
【0099】
いくつかの実施形態では、HRDモデル(例えば、HRD分類器モデル)は、入力として使用されるよりも多くの特徴を使用して訓練することができる。例えば、HRD分類モデルは、それぞれがHRD陽性腫瘍および/またはHRD陰性腫瘍に関連する、とある数の特徴を含むHRD陽性データおよびHRD陰性データに基づいて、訓練することができる。そのとき、HRD分類モデルに入力されるデータは、より少ない特徴を含むことができる。HRD分類器モデルは、一例では、訓練されたHRD分類器モデルに入力されるサンプルデータから省略されたデータの特徴の重みを調整することができる。さらに、HRD分類器モデルは、追加のデータの特徴(例えば、それぞれ本明細書に記載されるような、ヘテロ接合性および/または1つもしくは複数の短い変異体の特徴のゲノム全体の喪失の尺度など)を使用して訓練することができるが、いくつかの実施形態では、データの入力は、対象のがんに関連する腫瘍のゲノムに関連する1つまたは複数のコピー数の特徴のみを含み得る。
【0100】
コピー数の特徴、gLOHおよび腫瘍ゲノム倍数性の測定値を含む基本的特徴、および/または短い変異体の特徴を含むゲノムデータの特徴を得るために、腫瘍の少なくとも1つのゲノムの少なくとも一部の配列決定によって、配列決定データが収集される。絶対コピー数または相対コピー数およびセグメント化は、その後、シャローホールゲノムシーケンシング(sWGS)データなどの全ゲノムシーケンシングデータから導き出すことができる。円形バイナリセグメンテーション(CBS)はまた、DNAマイクロアレイデータに基づいてゲノムを一定の総コピー数のセグメントに分けるために使用され得、そこからコピー数の特徴が導出され得る。あるいは、絶対コピー数およびセグメント化は、エクソームシーケンシング(ES)またはSNPアレイを含むがこれらに限定されない、当技術分野で公知の任意の技術から誘導することができる。コピー数の特徴の分布は、WGSデータなどの絶対コピー数データから計算することができる。混合モデル化を適用して、各特徴分布をガウス分布の混合またはポアソン分布の混合に分け、浮動またはバイナリ成分特徴を達成することができる。したがって、HRD分類モデルを訓練するために、または訓練されたHRD分類モデルに入力されるために使用される特定の「コピー数の特徴」は、その構成要素の特徴として表現される。例えば、セグメントサイズのコピー数の特徴の場合、z個の構成要素に分けられると、そのとき、HRD分類モデルを訓練するために使用され得る、またはHRD分類モデルを実行するために使用され得るz個の可能な特徴が存在する。言い換えれば、特定の試験サンプルについて、「セグメントサイズ」のカテゴリでの「コピー数の特徴」(セグメントサイズがz個の構成要素に分けられたと仮定する)は、HRD分類モデルを訓練するためであるか実行するためであるかにかかわらず、z個の可能な入力を有する。zが3に等しい場合、3つのセグメントサイズの特徴のうちの少なくとも1つがHRD分類モデルに入力され得る、すなわち、segsize1、segsize2、またはsegsize3である。最適なモデルのパフォーマンスは、部分的には、特徴の各々の特定のカテゴリに対して選択された構成要素の特徴の数に依存し得る。しかしながら、特徴の特定のカテゴリは、任意の適切な数の構成要素の特徴に分けることができ、必ずしも特定の確率分布に対応するものではない。したがって、モデルは、パフォーマンスが最適ではなくても、より多くのまたはより少ない数の構成要素の特徴で良好に機能し、効率的に検証することができる。
【0101】
コピー数の特徴を導出するとき、絶対コピー数データは、最初に、コピー数変異イベントをコールするベースラインレベルを判定するために、通常のデータセットとのマッチングによって正規化され得る。正常のパネルは、典型的には、健康な組織サンプルに由来する(腫瘍が由来するのと同じ個体に由来し得る)。健康な組織サンプルの分析は、本明細書に記載されているコピー数の特徴を導き出すためのベースラインコピー数を設定することを可能にする。
【0102】
記載されたコピー数の特徴のいくつかは、ゲノムのサブ領域にわたって評価され得る。例えば、特定のコピー数の特徴は、ゲノムのセントロメア部分にわたって評価され得る。別の例において、コピー数の特徴がゲノムのテロメア部分にわたって評価され得る。またさらなる例では、コピー数の特徴は、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価され得る。例示的な方法では、ゲノムのテロメアおよびセントロメア部分を定めるために、hg19などのヒト参照配列ゲノムを使用して、各染色体アームの開始部および終了部を定めることができる。次に、特定のアームの長さを2で除算して中間点を定める。コピー数の特徴について解析された各領域について、この中間点のセントロメア側にあるセグメントを、セントロメアセグメントと定める。この中間点のテロメア側にあるセグメントをテロメアセグメントと定める。セグメントが中間点(例えば、中間点のセントロメア側で始まりテロメア側で終わるセグメント)に及ぶ場合、そのセグメントは、セントロメアおよびテロメアの両方と呼称され得て、テロメアおよびセントロメアの両方のコピー数の特徴の評価に使用され得る。したがって、本明細書に記載されるデータの特徴のいずれも、必要に応じて、ゲノムのテロメア領域、ゲノムのセントロメア領域、またはゲノムのテロメア領域とセントロメア領域の両方にわたって評価され得る。
【0103】
コピー数のモデル化は、評価されているゲノムの推定された基本倍数性によって影響され得る。基本倍数性がより高く推定される場合、浮動小数点のコピー数の特徴が右にシフトされ得、ゆがんだ成分スコアおよび最終的に誤った分類をもたらし得る。コピー数のデータを基本倍数性に正規化することは、コピー数のデータを、評価されているゲノムの平均倍数性で割ることを含む。したがって、記載されたコピー数の特徴のいずれかは、倍数性正規化コピー数データに由来し得、絶対コピー数は、腫瘍のゲノムの平均倍数性に対して正規化されている。平均倍数性を計算するための例示的な方法は、サンプルのすべてのセグメントについて加重平均コピー数を取得することである。平均倍数性を計算する例示的な方法については、Sun et al.,A computational approach to distinguish somatic vs.germline origin of genomic alterations from deep sequencing of cancer specimens without a matched normal,PLoS Comput.Biol.2018 Feb 7;14(2):e1005965を参照されたい。
【0104】
本明細書に記載の特徴は、いくつかの実施形態では、ビニングされた特徴であってもよい。特徴ビニングは、特定の値を特定のカテゴリビンに編成することを含む。例えば、0から10の範囲の値を有する特徴の場合、四分位ビニングは、0から10までのこれらの値の各々を4つのビンのうちの1つに編成することができ、より低い値はより低いビンに編成することができ、より高い値はより高いビンに編成することができる。いくつかの実施形態では、ビニングは監視されていない。いくつかの実施形態では、ビニングは監視される。いくつかの実施形態では、ビニングは、等しい幅のビニングである。等しい幅のビニングでは、ビンはほぼ同じ幅の範囲を有する。例えば、1~8の値を有する特徴の場合、4つのビンを有する等しい幅のビニングは、1および2の値を第1のビンに編成し、3および4の値を第2のビンに編成し、以下同様である。いくつかの実施形態では、ビニングは等しい頻度のビニングである。等しい頻度のビニングでは、ビンは、各ビンがほぼ同じ数の値を有するように編成され、値はビンにほぼ等しく分配される。例えば、より低い値がはるかに高い頻度である1から10の値を有する特徴の場合、ビニングは、第1のビンに1、第2のビンに2、および第3のビンに3から10を編成することができる。ビニングは、2分位数、3分位数、4分位数、5分位数、6分位数、7分位数、または任意の他の適切なビニング編成であり得る。
【0105】
記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、セグメントサイズの特徴を含む。セグメントサイズは、ゲノム全体にわたる各コピー数のセグメントのゲノム塩基における長さに由来する。例えば、セグメントがxのコピー数を有し、次のセグメントがyのコピー数を有する場合、コピー数xを有するセグメントの長さおよびコピー数yを有するセグメントの長さは、セグメントサイズのコピー数のカテゴリの因子である。例示的な実施形態では、セグメントサイズの分布は、10個の構成要素の特徴に分けられる。より小さい番号のセグメントサイズの特徴は、より小さいセグメントサイズ(例えば、segsize1)を表し、一方でより大きい番号のセグメントサイズの特徴は、より大きいセグメントサイズ(例えば、segsize10)を表す。いくつかの実施形態では、セグメントサイズの分布は、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、または少なくとも11の構成要素の特徴など、少なくとも5つの構成要素の特徴に分けられる。いくつかの実施形態では、セグメントサイズの分布は、5、6、7、8、9、10、または11個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、セグメントサイズの特徴は、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、ゲノム全体にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。
【0106】
記載される方法のいずれかのいくつかの態様において、コピー数の特徴は、xメガベースあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、xは、約1メガベース(MB)~約150メガベースである。いくつかの実施形態において、xは、約10MB、約25MB、約50MB、約100MB、および約150MBのいずれかである。1セクションあたりのブレークポイントの数は、ゲノムまたはゲノムの一部にわたる1セクションあたりのブレークポイントの数を表す。例えば、10MBあたりのブレークポイント数について、10MBの処理隣接ウィンドウ(または代替的に、スライドウィンドウ)がゲノム全体にわたって分析され、その後、スライディングウィンドウの各フレームについてのブレークポイントの数が評価され得る。このアプローチでは、隣接ウィンドウが使用されたが、ブレークポイント数を評価するのに適したスライドウィンドウまたはその他任意の技術が使用され得ることに留意されるべきである。それにもかかわらず、いくつかの例示的な実施形態では、1xメガベース当たりのブレークポイント数は、3つの構成要素の特徴に分けられる。より小さい番号のブレークポイント数の特徴は、より少ないブレークポイントを表し(例えば、10MBあたりのブレークポイント数:bp10MB1の場合、10MBスライディングウィンドウの1フレームあたり、または10MB処理隣接ウィンドウの1フレームあたりのブレークポイントが少ないことを示す)、一方、より大きい番号の特徴は、セクションあたりより多くのブレークポイント(例えば、10MBあたりのブレークポイント数bp10MB3の場合、bp10MB1などのより低い番号の特徴と比較して、10MBのスライディングウィンドウのフレームあたりのより多くのブレークポイントを示す)を表す。いくつかの実施形態では、ブレークポイント数の分布は、少なくとも3つまたは少なくとも4つの構成要素の特徴などの、少なくとも2つの構成要素の特徴に分けられる。いくつかの実施形態では、セクションあたりのブレークポイント数は、2、3、4、または5つの構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ゲノムのテロメアの部分にわたって評価される。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ゲノムのセントロメアの部分にわたって評価される。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ゲノム全体にわたって評価される。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴は、倍数性正規化コピー数データから導かれる。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。
【0107】
記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、ゲノムセグメントの配列決定から得られるシーケンシングリードの数の特徴を含む。特定のゲノムセグメントについて、この値は、配列決定されたセグメントにアラインメントする(すなわち、「カバー」)シーケンシングリードの平均数を指す。異常に高いコピー数を有するゲノムセグメントの場合、シーケンシングリードの数が増加する。対照的に、コピー数を失ったゲノムセグメント(ホモ接合欠失など)については、シーケンシングリードが少なくなる。シーケンシングリードの特徴は、リードの実際の数(分析された各セグメントに対するリードの平均など)またはシーケンシングリードのビンとして表現され得る。より低い番号のシーケンシングリードの特徴はより低い絶対シーケンシングリードを表し、一方、より高い番号のシーケンシングリードの特徴はより高い絶対シーケンシングリードを表す。いくつかの実施形態において、シーケンシングリードの特徴は、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、シーケンシングリードの特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、シーケンシングリードの特徴は、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、シーケンシングリードの特徴は、倍数性正規化データに由来する。いくつかの実施形態において、シーケンシングリードの特徴はビニングされた特徴である。いくつかの実施形態において、シーケンシングリードの数の特徴は、次世代配列決定(NGS)からのリードの数の測定値である。いくつかの実施形態において、シーケンシングリードの数の特徴は、対照におけるそのゲノムセグメントに対するシーケンシングリードの数と比較した、腫瘍サンプルのゲノムセグメントに対するシーケンシングリードの比として表される。
【0108】
記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、絶対コピー数の特徴を含む。絶対コピー数は、各ゲノムセグメントについて計算され、値が割り当てられ得る。例えば、割り当てられた値は、0(ホモ接合性欠失を示す)、1(ヘテロ接合性欠失を示し得る)、2(正常なカウントであり得る)またはそれより多く(コピー数の増幅を示し得る)を含み得る。絶対コピー数の特徴は、実際のコピー数カウント(分析された各セグメントについてのコピー数の平均など)またはコピー数値のビンを表し得る。例えば、少なくとも6のコピー数は、セグメントについての高いコピー数を表すものとしてビニングされ得る。3~5のコピー数は、中程度に増加したコピー数を表すとしてビニングされ得る。1および2のコピー数は正常であり得、0のコピー数はホモ接合欠失としてビニングされ得る。低い番号の絶対コピー数の特徴は低い絶対コピー数を表し、高い番号の絶対コピー数の特徴は高い絶対コピー数を表す。いくつかの実施形態において、絶対コピー数は、3、4、5、6、7、8または9個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、絶対コピー数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、絶対コピー数の特徴が、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、絶対コピー数の特徴が、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、絶対コピー数の特徴は、倍数正規化データに由来する。いくつかの実施形態において、絶対コピー数の特徴は、ビニングされた特徴である。
【0109】
記載された方法のいずれかのいくつかの実施形態において、コピー数の特徴は、変化点コピー数の特徴を含む。変化点コピー数は、ゲノム全体にわたるゲノムセグメント間のコピー数の絶対的な差を指す。例えば、コピー数7および2でモデル化された隣接するセグメントは、5の絶対差を有する。例示的な実施形態では、変化点コピー数の分布は、7つの構成要素の特徴に分けられる。より低い番号の変化点コピー数の特徴は、コピー数変化のより小さい絶対的な差(例えば、変化点1)を表し、一方、より高い番号の特徴は、コピー数の変化のより大きい絶対差(例えば、変化点7)を表す。いくつかの実施形態では、変化点コピー数の分布は、少なくとも5つ、少なくとも6つ、少なくとも7つ、または少なくとも8つの構成要素の特徴など、少なくとも4つの構成要素の特徴に分けられる。いくつかの実施形態では、変化点コピー数は、3、4、5、6、7、8または9個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、変化点コピー数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、変化点コピー数の特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、変化点コピー数の特徴が、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、変化点コピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。
【0110】
記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、セグメントコピー数の特徴を含む。セグメントコピー数は、ゲノムまたはゲノムの一部にわたる各セグメントのコピー数から導かれる。例示的な実施形態では、セグメントコピー数の分布は、8つの構成要素の特徴に分けられる。より低い番号のセグメントコピー数の特徴は、より低いコピー数を表し(例えば、コピー数1は、0もしくは1、または0から1のコピー数レベルを表すことができる)、一方、より高い番号のコピー数の特徴は、より高いコピー数(例えば、コピー数8)を表す。いくつかの実施形態において、セグメントコピー数の分布は、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つまたは少なくとも9つの構成要素の特徴など、少なくとも4つの構成要素の特徴に分けられる。いくつかの実施形態において、セグメントコピー数の分布は、4、5、6、7、8、9または10個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、セグメントコピー数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、ゲノム全体にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。
【0111】
記載される方法のいずれかのいくつかの態様において、コピー数の特徴は、染色体アームあたりのブレークポイント数の特徴を含む。例示的な実施形態において、染色体アームあたりのブレークポイント数の分布は、5つの構成要素の特徴に分けられる。より低い番号の染色体アームあたりのブレークポイント数の特徴は、アームあたりのより少ないブレークポイントを表し(例えば、bpchrarm1)、一方、より高い番号の染色体アームあたりのブレークポイント数の特徴は、染色体アームあたりより多いブレークポイントを表す(例えば、bpchrarm5)。いくつかの実施形態において、染色体アームあたりのブレークポイント数の分布は、少なくとも4つの構成要素の特徴、少なくとも5つの構成要素の特徴、少なくとも6つの構成要素の特徴または少なくとも7つの構成要素の特徴などの少なくとも3つの構成要素の特徴に分けられる。いくつかの実施形態において、染色体アームあたりのブレークポイント数の分布は、4つ、5つ、6つ、7つまたは8つの構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、染色体アームあたりのブレークポイント数は、倍数性正規化コピー数データから導かれる。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。
【0112】
いくつかの実施形態において、コピー数の特徴は、振動コピー数のセグメントの数(osCN)の特徴を有するいくつかのセグメントを含む。振動コピー数のセグメントの数は、2つのコピー数の間で繰り返される交互のセグメントの数をカウントするゲノムまたはゲノムの一部の横断を表す。例示的な実施形態において、振動コピー数のセグメントの数の分布は、3つの構成要素の特徴に分けられる。より低い番号の振動コピー数のセグメントの数の特徴は、2つのコピー数の間におけるより少ない反復された変化を表し(例えば、osCN1)、一方、より高い番号の振動コピー数のセグメントの数の特徴は、2つのコピー数の間におけるより多くの反復された変化を表す(例えば、osCN3)。いくつかの実施形態において、振動コピー数のセグメントの数の分布は、少なくとも2つ、例えば、少なくとも3つ、または少なくとも4つの構成要素の特徴に分けられる。いくつかの実施形態において、振動コピー数のセグメントの数の分布は、2つ、3つ、4つまたは5つの構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、ゲノム全体にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。
【0113】
いくつかの実施形態において、コピー数の特徴は、セグメントマイナーアリル頻度(segMAF)の特徴を含む。segMAF特徴は、腫瘍ゲノムの平均のsegMAF、または中央値のsegMAFのいずれかに由来し得る。ヘテロ接合アリル部位の正常なゲノムでは、各アリルの予想コピー数は1.0である。HRDは、アリルの完全な喪失(ヘテロ接合性の喪失)または一方のアリルの他方に対するコピー数の増加に関連する。したがって、segMAFは、メジャーアリルに対するマイナーアリルの比を比較する、セグメントごとのゲノムの横断である。具体的には、各ヘテロ接合SNPをAアリルおよびBアリル頻度について分析する。マイナーアリルの頻度はマイナーアリル画分として取得される。平衡遺伝子座は約0.5:0.5の比を有し、マイナーアリル頻度は0.5である。ヘテロ接合性の喪失事象は、不均衡およびマイナーアリル頻度の約0.5未満へのゆがみをマイナーアリル画分について引き起こす。いくつかの実施形態において、segMAFの特徴は、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、segMAFの特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、segMAFの特徴は、ゲノム全体にわたって評価される。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。
【0114】
HRD分類モデルは、複数のHRD陽性腫瘍の各HRD陽性腫瘍について、HRD陽性腫瘍に関連する1つまたは複数の特徴およびHRD陽性標識を含むHRD陽性データと、複数のHRD陰性訓練腫瘍の各HRD陰性腫瘍について、HRD陰性腫瘍に関連する1つまたは複数のコピー数の特徴およびHRD陰性標識を含むHRD陰性データとによって訓練される。HRD分類モデルはまた、他の特徴または尺度に基づいて訓練されてもよい。したがって、これらの他の特徴または尺度を含む試験データを(1つまたはコピー数の特徴と組み合わせて含む)HRD分類モデルに入力することができる。例えば、ヘテロ接合性のゲノム損失の尺度、および/または1つもしくは複数の短い変異体の特徴を含む基本的特徴をHRD分類モデルで(HRD分類モデルを訓練するため、またはHRD分類モデルに入力される試験データとして)使用することができる。
【0115】
いくつかの実施形態では、基本的特徴は、腫瘍が得られた対象の年齢を含む。患者は、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、または少なくとも80才のいずれかを含む任意の年齢であり得る。年齢の特徴は、対象の整数の値であり得る。あるいは、年齢の特徴は、乳児、若年、小児、若年成人、または高齢者の対象のいずれかなどの定性的特徴であってもよい。いくつかの実施形態では、年齢の特徴はビニングされた特徴である。
【0116】
いくつかの実施形態では、基本的特徴はがんの型の特徴を含む。がんの型の特徴は、腫瘍の起源を指す。がんの型には、例えば、副腎、胆管、骨/軟部組織、乳房、結腸/直腸、食道、眼、頭頸部、腎臓、肝臓、肺、リンパ系、髄芽腫、中皮腫、骨髄系、神経系、神経内分泌、卵巣、膵臓、前立腺、皮膚、胃、精巣、胸腺、甲状腺、尿路、子宮、または外陰がんの1つが含まれ得る。いくつかの実施形態では、がんの型の特徴はビニングされた特徴である。
【0117】
いくつかの実施形態では、基本的特徴は、がんの病期の特徴を含む。がんの病期分類は、多くの場合、がんの型(例えば、膵臓がんの病期分類、前立腺がんの病期分類、乳がんの病期分類、卵巣がんの病期分類など)に基づくが、普遍的な病期分類システムも当技術分野で知られている。任意の適切ながん病期分類システムを使用してもよく、例えば、腫瘍の位置、細胞型、腫瘍のサイズ、腫瘍の広がりおよび分布、腫瘍の転移、および腫瘍のグレードに依存し得る。データの特徴として、がんの病期は、典型的には、より重症度の低い病期からより重症度の高い病期までの範囲として表される。例えば、4つの構成要素の特徴を含むがんの病期の特徴の場合、ステージ1は早期段階のがんを示し得、ステージ4は後期がんを示し得る。いくつかの実施形態では、がんの病期の特徴はビニングされた特徴である。
【0118】
HRD陽性データおよびHRD陰性データは、通常、訓練データセット、検証データセット、および/または試験データセットに分けられる。訓練中、HRD分類モデルには訓練セットのみが提供される。任意選択で、訓練セットはバランスされ得る。訓練されると、モデルは、検証セットに対するパフォーマンスによって検証され、調整され得る。モデルが検証セットに対して過適合を示す場合、訓練を調整し、繰り返すことができる。訓練されると、また任意選択的に検証された後、訓練されたモデルは、試験データセットを使用して評価され得る。
【0119】
ヘテロ接合性のゲノム喪失(gLOH)(例えば、ゲノム全体でのヘテロ接合性の喪失またはエクソーム全体でのヘテロ接合性の喪失)の尺度が、いくつかの実施形態において基本的特徴として含まれ得る。ゲノムの十分に大きな部分にわたる全エクソームシーケンシングまたは標的化シーケンシングは、ヘテロ接合性のゲノム損失の代理として解釈され得るので、ヘテロ接合性のゲノム損失を判定するために全ゲノムを分析する必要はない。いくつかの実施形態では、gLOHは、連続数値特徴として符号化される。いくつかの実施形態では、例えば、gLOHが所定の閾値より上または下である場合、gLOHはカテゴリ特徴として符号化される。所定の閾値は、例えば、約10%以上、約12%以上、約14%以上、または約16%以上に設定されてもよい。所定の閾値は、例えば16%程度に設定されてもよい。gLOHは、例えば、Swisher et al.,Rucaparib in relapsed,platinum-sensitive high-grade ovarian carcinoma(ARIEL2 Part1):an international,multicenter,open-label,phase 2 trial,Lancet Oncology,vol.18,no.1,pp.75-87(2017)に記載の方法を用いて判定され得る。
【0120】
1つまたは複数の短い変異体の特徴を、HRD分類モデルで(HRD分類モデルを訓練するため、および/またはHRD分類モデルに入力される試験データとして)使用することができる。これらの短い変異体の特徴には、限定されないが、例えば、反復またはミクロ相同性領域の特徴における1つまたは複数の欠失(例えば、少なくとも5塩基対の欠失など)および/または2つもしくはそれを超える短い変異体の特徴を組み込んだ変異シグネチャが含まれ得る。これらの短い変異体の特徴は、例示的な方法において、腫瘍サンプルに対応する配列決定データを、コンセンサスなヒトゲノム配列(hg19など)と比較することによって識別され得る。いくつかの実施形態では、短い変異体の特徴はビニングされた特徴である。
【0121】
複数の短い変異体の特徴を組み合わせて、変異シグネチャスコアとして表現することができる。例えば、1つまたは複数の短い変異体の特徴は、COSMICがんデータベースからのものなどの変異のプロファイルを含み得る。一例では、1つまたは複数の短い変異体の特徴は、COSMICがんデータベースのCOSMIC ID6またはCOSMIC ID8インデルシグネチャなどのインデルベースのシグネチャを含む。サンプルプロファイルは、例えば、NNMF方法論を使用して、これらのCOSMICプロファイルにマッピングすることができる。別の例では、1つまたは複数の短い変異体の特徴は、COSMICがんデータベースのCOSMIC ID8を含む。さらに別の例では、1つまたは複数の短い変異体の特徴は、COSMICがんデータベースのSBS3変異シグネチャを含む。例示的なCOSMIC IDシグネチャの概要については、Alexandrov et al.,The repertoire of mutational signatures in human cancer,Nature 2020;578(7793):94-101を参照されたい。Forbes et al.,COSMIC:mining complete cancer genomes in the Catalogue of Somatic Mutations in Cancer,Nuc.Acids Res.2011 Jan;39:D945-D950も参照されたい。
【0122】
いくつかの実施形態では、1つまたは複数の短い変異体の特徴は、ミクロ相同性または反復領域特徴の欠失を含む。いくつかの実施形態において、欠失は、少なくとも1塩基対である。いくつかの実施形態において、欠失は、少なくとも5塩基対である。ミクロ相同性領域における欠失は、相同組換えの非存在下で起こるミクロ相同性媒介末端結合(MMEJ)の特徴的な結果である。このプロセスでは、ゲノムでの二本鎖切断の修復を誘導するために、短い類似領域(ミクロ相同性)が使用される。これらの欠失を識別させる特性は、欠失配列の3’末端が欠失の上流の状況と類似性を共有することである。したがって、ミクロ相同性領域における欠失の特徴は、この挙動を示す欠失の数の尺度であり、また、ミクロ相同性の長さ(すなわち、より長い長さを有する多数の欠失対、より短い長さを有するより少ない欠失)に基づき得る。
【0123】
例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴およびセグメントサイズの特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。試験データは、xメガベース特徴あたりのブレークポイント数の特徴、変化点コピー数の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0124】
別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴およびxメガベースあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0125】
別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴および変化点コピー数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0126】
別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0127】
別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0128】
別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0129】
別の例示的な実施形態において、試験データは、セグメントサイズの特徴およびxメガベースあたりのブレークポイント数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0130】
別の例示的な実施形態において、試験データは、セグメントサイズの特徴および変化点コピー数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0131】
別の例示的な実施形態において、試験データは、セグメントサイズの特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、セグメントコピー数は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0132】
別の例示的な実施形態において、試験データは、セグメントサイズの特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0133】
別の例示的な実施形態において、試験データは、セグメントサイズの特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0134】
別の例示的な実施形態では、試験データは、xメガベースあたりのブレークポイント数の特徴および変化点コピー数の特徴を含む。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0135】
別の例示的な実施形態では、試験データは、xメガベースあたりのブレークポイント数の特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、変化点コピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0136】
別の例示的な実施形態では、試験データは、xメガベースあたりのブレークポイント数の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0137】
別の例示的な実施形態では、試験データは、xメガベースあたりのブレークポイント数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、xメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0138】
別の例示的な実施形態では、試験データは、変化点コピー数の特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0139】
別の例示的な実施形態において、試験データは、変化点コピー数の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態では、変化点数の特徴は、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0140】
別の例示的な実施形態において、試験データは、変化点コピー数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0141】
別の例示的な実施形態において、試験データは、セグメントコピー数の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0142】
別の例示的な実施形態において、試験データは、セグメントコピー数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0143】
別の例示的な実施形態では、試験データは、染色体アームあたりのブレークポイント数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度(segMAF)の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、xメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、およびセグメントコピー数の特徴のうちの少なくとも1つをさらに含み得る。試験データは、gLOHの尺度および/または1つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の1つまたは複数をさらに含み得る。
【0144】
HRDモデル
対象のがんの腫瘍は、腫瘍をHRD陽性(またはHRD陽性である可能性が高い)またはHRD陰性(またはHRD陰性である可能性が高い)として分類するように構成された、訓練されたHRD分類モデルを使用して分類される。HRD分類モデルは、複数のHRD陽性腫瘍の各HRD陽性腫瘍について、HRD陽性腫瘍に関連する1つまたは複数のデータ特徴(例えば、他の可能な特徴の中でも、1つまたは複数のコピー数の特徴および/または1つまたは複数の短い変異体の特徴)、およびHRD陽性標識を含むHRD陽性データを使用して訓練される。HRD分類モデルは、さらに、複数のHRD陰性腫瘍の各HRD陰性腫瘍について、HRD陰性腫瘍に関連する1つまたは複数のデータ特徴(例えば、他の可能な特徴の中でも、1つまたは複数のコピー数の特徴および/または1つまたは複数の短い変異体の特徴)、およびHRD陰性標識を含むHRD陰性データを使用して訓練される。対象の腫瘍のゲノムに関連する1つまたは複数のデータ特徴(例えば、他の可能な特徴の中でも、1つまたは複数のコピー数の特徴および/または1つまたは複数の短い変異体の特徴)を含む試験データを、訓練されたHRD分類モデルに入力し、次いで、試験データに基づいて腫瘍をHRD陽性(またはHRD陽性である可能性が高い)またはHRD陰性(またはHRD陰性である可能性が高い)として分類する。
【0145】
本明細書に記載のモデルは、1つまたは複数の機械学習モデル、1つまたは複数の非機械学習モデル、またはそれらの任意の組み合わせを含むことができる。本明細書に記載の機械学習モデルは、経験を通じておよびデータの使用によって自動的に改善する任意のコンピュータアルゴリズムを含む。機械学習モデルは、教師ありモデル、教師なしモデル、半教師ありモデル、自己教師ありモデルなどを含むことができる。例示的な機械学習モデルには、線形回帰、ロジスティック回帰、決定木、SVM、ナイーブベイズ、ニューラルネットワーク、K平均、分散分析(ANOVA)、カイ二乗分析、ランダムフォレスト、次元削減アルゴリズム、および勾配ブースティングアルゴリズム(XGBなど)が含まれるが、これらに限定されない。非機械学習モデルは、必ずしも訓練および再訓練を必要としない任意のコンピュータアルゴリズムを含むことができる。
【0146】
HRD分類器は、勾配ブースティングモデルなどの確率的分類器であってもよい。確率的分類器は、HRD陽性尤度スコアまたはHRD陰性尤度スコアを出力することなどによって、腫瘍がHRD陽性またはHRD陰性である確率を計算するように構成することができる。HRD分類モデルから出力された確率に基づいて、腫瘍はHRD陽性またはHRD陰性であるとみなすことができる。任意選択で、例えば、腫瘍がHRD陽性である確率も腫瘍がHRD陰性である確率も所定の確率閾値を超えない場合、腫瘍は曖昧とみなし得る。HRD陽性データおよびHRD陰性データは、本明細書に記載のコピー数の特徴および/または短い変異体の特徴を含み得る。
【0147】
HRD陰性データは、特定のHRD関連遺伝子に野生型アリル(すなわち、HRDに関連しないアリル)を有するゲノムを含み得る。例えば、いくつかの実施形態では、HRD陰性データは、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されない、HRDに関連する遺伝子の1つまたは複数の野生型アリルを有するゲノムに関連するデータを含む。いくつかの実施形態では、HRD陰性データは、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されない、HRDに関連する遺伝子の1つまたは複数のプロモータメチル化データを含む。いくつかの実施形態では、HRD陰性データは、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されない、HRDに関連する遺伝子の1つまたは複数のRNA発現データを含む。いくつかの実施形態では、HRD陰性データは、白金系薬物(例えば、化学療法)および/またはPARP阻害剤に耐性があることが分かった腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、HRD陰性データは、以前にHRD陰性と分類された腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、HRD陰性データは、少なくとも部分的に、コンセンサスなヒトゲノム配列またはその一部に由来する。
【0148】
HRD陽性データは、特定のHRD関連遺伝子においてHRD関連アリルを有するゲノムに関連するデータを含み得る。例えば、いくつかの実施形態では、HRD陽性データは、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45L、特にその二対立遺伝子変異を含むがこれらに限定されない、HRDに関連する遺伝子の1つまたは複数の変異を有するゲノムに関連するデータを含む。いくつかの実施形態では、HRD陽性データは、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されない、HRDに関連する遺伝子の1つまたは複数のプロモータメチル化データを含む。いくつかの実施形態では、HRD陽性データは、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されない、HRDに関連する遺伝子の1つまたは複数のRNA発現データを含む。いくつかの実施形態では、HRD陽性データは、白金系薬物および/またはPARP阻害剤に感受性があることが分かった腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、HRD陽性データは、以前にHRD陽性と分類された腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、HRD陽性データは、HRDに関連する二対立遺伝子BRCA1およびBRCA2変異を有する腫瘍に関連するデータを含む。
【0149】
HRD陽性データは、HRD陰性データとバランスをとることができる。例えば、不均衡な訓練データセットでは、HRD陽性訓練腫瘍の数がHRD陰性腫瘍の数を上回り(またはその逆)得る。データのバランスをとることにより、1つのラベルへ標識のバイアスを回避するのに十分な数の各標識をモデルが有することが保証される。バランスがとれている場合、HRD陽性腫瘍の数またはHRD陰性腫瘍の数は、それらの間の比が所望のレベル(約1:1または任意の他の所望の比など)になるように調整される。バランスのとれたデータセットを使用して、HRD分類器を訓練し、次いで、HRD陽性腫瘍およびHRD陰性腫瘍を含む試験データセットに対して試験することができる。
【0150】
HRD分類器を訓練するために使用される腫瘍はそれぞれ、HRD陽性標識またはHRD陰性標識を含む。任意の適切な方法論を使用して、腫瘍を(例えば、腫瘍にメタデータタグを適用して)HRD陽性またはHRD陰性として計算で標識することができる。HRD陽性標識は、HRD関連遺伝子の1つ、例えば、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されないHRDに関連する遺伝子の1つの変化、特にその二対立遺伝子変化の存在によって割り当てられ得る。BRCA1およびBRCA2の一方または両方における変異は、HRD陽性、特に二対立遺伝子BRCA1/BRCA2変異を特に示す。腫瘍はまた、臨床歴に基づいてHRD陽性として標識され得る。例えば、腫瘍がPARP阻害剤または白金系薬物レジメンに感受性であった場合、腫瘍はHRD陽性である可能性がより高い。HRD陰性標識は、HRD関連遺伝子の1つ、例えば、BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D、および/またはRAD45Lを含むがこれらに限定されないHRDに関連する遺伝子の1つの変化、特にその二対立遺伝子変化の非存在に基づいて割り当てられ得る。HRD関連遺伝子の変異は、遺伝子配列と参照ゲノム、例えばコンセンサスなヒトゲノム配列、例えばhg19との比較によって検出され得る。同様に、腫瘍はまた、臨床歴に基づいてHRD陰性として標識され得る。例えば、腫瘍がPARP阻害剤または白金系薬物レジメンに耐性がある場合、腫瘍はHRD陰性である可能性がより高い。HRD陽性腫瘍は、何回かの治療後にこれらの薬物に対する耐性を生じ得るので、これは、腫瘍がPARP阻害剤または白金系薬物レジメンによる治療前に治療ナイーブであった場合に特に当てはまる。各腫瘍はHRD陽性またはHRD陰性の標識を含み得るが、この標識は、腫瘍がHRD陽性またはHRD陰性であるという絶対的な確実性を必要としない。代わりに、多数のHRD陽性腫瘍および多数のHRD陰性腫瘍を含む堅牢な訓練データセットが与えられ、当技術分野で知られているようにこれらのデータの過剰適合を回避することによって、偽陽性および偽陰性の寄与がモデルにおいて平均化される。さらに、より大きな訓練データセット、特にバランスのとれた訓練データセット、ならびに明確に定義された陽性および陰性のラベルを有するデータセット(例えば、HRD陰性標識のために検証されたコンセンサスゲノムを使用することによって、HRD陽性標識のために、検証された二対立遺伝子BRCA1/2変異体または検証された十分に特徴付けられたBRCAnessサンプルを使用することによって)を使用することにより、モデルは、HRD陰性表現型とHRD瘢痕を示す表現型(すなわち、HRD陽性表現型)との間の微妙な差を適切に評価することができる。
【0151】
分類方法は、コンピュータ実装方法である。この分類は、訓練されたHRD分類器モデルを実行するためのプログラム命令を含む具体的に構成された機械またはシステム上で実行することができ、これはコンピュータまたはシステムの非一時的コンピュータ可読メモリに記憶することができる。コンピュータは、一般に、メモリにアクセスすることができる1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサは、メモリに記憶されてもよいデータ(例えば、対象における腫瘍のゲノムに関連する1つまたは複数のコピー数の特徴および/または1つまたは複数の短い変異体の特徴などの試験データ、ならびにいくつかの実施形態では、他の特徴および測定値)を受信することができる。1つまたは複数のプロセッサは、訓練されたHRD分類器モデルにアクセスすることができ、テストデータをモデルに入力することができる。次いで、1つまたは複数のプロセッサおよび訓練されたHRD分類器モデルは、がんを、HRD陽性である可能性が高いまたはHRD陰性である可能性が高いものとして分類することができる。
【0152】
HRD分類器モデルは、がんの腫瘍をHRD陽性またはHRD陰性として分類することができる。いくつかの実施形態では、HRD分類器モデルは、腫瘍をHRD陽性である可能性が高い、HRD陰性である可能性が高い、または曖昧と分類することができる。例えば、HRD分類器モデルは、十分に高い信頼性または確率で腫瘍をHRD陽性である可能性が高いまたはHRD陰性である可能性が高いと分類することができない場合、腫瘍を曖昧と分類することができる。信頼度または確率の閾値は、不正確な分類に対する許容度を考慮して、必要に応じてユーザによって設定されてもよい。一例では、ユーザは、HRD陽性尤度スコアの閾値を0.8に設定し、HRD陰性尤度スコアの閾値を0.2に設定することができる。HRD陽性尤度スコアが0.8未満である場合、および/またはHRD陰性尤度スコアが0.2を超える場合、HRDモデルは腫瘍をHRD陽性と分類することができず、腫瘍をHRD陰性と分類するか(HRD陽性尤度スコアがどの程度低いか、およびHRD陰性尤度スコアがどの程度高いかに依存する)、または曖昧であると分類する。
【0153】
いくつかの実施形態では、HRD分類器は、腫瘍がHRD陽性である尤度スコアを出力する。いくつかの実施形態では、HRD分類器は、腫瘍がHRD陰性である尤度スコアを出力する。HRD分類器は、HRD陽性尤度スコアおよびHRD陰性尤度スコアのいずれかまたは両方を出力するように構成されてもよい。HRD分類器はまた、HRD陽性尤度スコアとHRD陰性尤度スコアとの比および/またはHRD陰性尤度スコアとHRD陽性尤度スコアとの比を出力するように構成されてもよい。尤度スコアは、0.0(腫瘍がHRD陽性でもHRD陰性でもない確実性を示す)~1.0(腫瘍がHRD陽性またはHRD陰性である確実性を示す)の値として表すことができる。例えば、訓練されたHRD分類器は、対象のがんの腫瘍に関連する複数のデータ特徴を含む試験サンプルデータを受信し、0.8のHRD陽性尤度スコアおよび0.15のHRD陰性尤度スコアを出力することができる。HRD分類器は、1つまたは複数の尤度スコアに基づいて腫瘍をHRD陽性またはHRD陰性とみなすように構成することができる。前述の例では、HRD陽性尤度スコア0.8およびHRD陰性尤度スコア0.15に基づいて、HRD分類器は腫瘍をHRD陽性とみなすことができる。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが少なくとも0.4、例えば少なくとも0.45、少なくとも0.5、少なくとも0.55、少なくとも0.6、少なくとも0.65、少なくとも0.70、少なくとも0.75、少なくとも0.80、少なくとも0.85、少なくとも0.90、少なくとも0.95、または少なくとも0.99である場合、腫瘍をHRD陽性とみなす。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが少なくとも0.7である場合、腫瘍をHRD陽性とみなす。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが少なくとも0.8である場合、腫瘍をHRD陽性とみなす。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが少なくとも0.9である場合、腫瘍をHRD陽性とみなす。いくつかの実施形態では、HRD分類器は、HRD陰性尤度スコアが少なくとも0.4、例えば少なくとも0.5、少なくとも0.6、少なくとも0.65、少なくとも0.70、少なくとも0.75、少なくとも0.80、少なくとも0.85、少なくとも0.90、少なくとも0.95、または少なくとも0.99である場合、腫瘍をHRD陰性とみなす。いくつかの実施形態では、HRD分類器は、HRD陰性尤度スコアが少なくとも0.7である場合、腫瘍をHRD陰性とみなす。いくつかの実施形態では、HRD分類器は、HRD陰性尤度スコアが少なくとも0.8である場合、腫瘍をHRD陰性とみなす。いくつかの実施形態では、HRD分類器は、HRD陰性尤度スコアが少なくとも0.9である場合、腫瘍をHRD陰性とみなす。いくつかの実施形態では、HRD分類器は、HRD陰性尤度スコアが0.5未満、例えば0.45未満、0.40未満、0.35未満、0.30未満、0.30未満、0.25未満、0.20未満、0.15未満、0.10未満、または0.05未満である場合、腫瘍をHRD陽性とみなす。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが0.5未満、例えば0.45未満、0.40未満、0.35未満、0.30未満、0.30未満、0.25未満、0.20未満、0.15未満、0.10未満、または0.05未満である場合、腫瘍をHRD陰性とみなす。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが特定の閾値(少なくとも0.80など)を上回り、HRD陰性尤度スコアが特定の閾値(0.25未満など)を下回る場合、腫瘍をHRD陽性とみなす。いくつかの実施形態では、HRD分類器は、HRD陰性尤度スコアが特定の閾値(少なくとも0.80など)を上回り、HRD陽性尤度スコアが特定の閾値(0.25未満など)を下回る場合、腫瘍をHRD陰性とみなす。いくつかの実施形態では、HRD分類器は、HRD陽性尤度スコアが特定の閾値を下回り、HRD陰性尤度スコアが閾値を下回る場合、または尤度スコアの絶対値が閾値類似性パーセント内にある場合、腫瘍を曖昧とみなす。
【0154】
がんを、HRD陽性である可能性が高いまたはHRD陰性である可能性が高い(または曖昧)と識別する報告が生成され得る。報告は、例えば、電子医療記録または印刷された報告であってもよく、これは、対象または対象に関連付けられたヘルスケア提供者(例えば、医師、看護師、診療所など)に送信することができる。報告は、がんの腫瘍を治療する方法または薬物などの医療での決定を行うために使用され得る。
【0155】
報告は、電子ディスプレイまたはカスタマイズされたインターフェースに表示されてもよい。例えば、いくつかの実施形態では、コンピュータ実装方法は、報告を自動的に生成することができ、生成された報告を電子ディスプレイまたはカスタマイズされたインターフェースに自動的に表示することができる。
【0156】
図7は、対象のがんの腫瘍をHRD陽性またはHRD陰性として分類するように構成されたHRD分類モデル702を訓練および操作するための例示的な方法を示す。HRD分類モデル702は、HRD陽性訓練データセット704およびHRD陰性訓練データセット706を含むデータセットを使用して訓練される。HRD陽性訓練データセット704は、1つまたは複数のHRD陽性サンプルデータ要素(すなわち、HRD陽性サンプルiまでのHRD陽性サンプル1のデータ)を含む。各HRD陽性サンプルデータ要素は、HRD陽性腫瘍の特徴(例えば、コピー数の特徴、基本的特徴、短い変異体の特徴などである)と関連付けられている。HRD陽性サンプルデータ要素はまた、gLOHの尺度および/または短い変異体の特徴(図示せず)などの他のデータ特徴も含み得る。特徴は、HRD陽性ラベルに関連するものとして標識される。同様に、HRD陰性訓練データセット706は、1つまたは複数のHRD陰性訓練サンプルデータ要素(すなわち、HRD(-)サンプルjまでのHRD(-)サンプル1)を含む。各HRD陰性サンプルデータ要素は、HRD陰性腫瘍の特徴(例えば、コピー数の特徴、基本的特徴、短い変異体の特徴などである)と関連付けられている。HRD陰性サンプルデータ要素はまた、gLOHの尺度および/または短い変異体の特徴(図示せず)などの他のデータ特徴も含み得る。HRD陰性サンプルは、HRD陰性標識に関連するものとして標識される。
【0157】
いくつかの実施形態では、HRD分類モデル702は、ツリーベースの勾配ブースティングモデル(XGBoostなど)である。このモデルでは、すべてのモデルを互いに分離して訓練するのではなく(例えば、ランダムフォレストによって)、モデルは、各新しいモデルが前のモデルからの残差に適合するように連続して訓練される。したがって、モデルは、順次接続された多くのより弱い分類器から強い分類器を達成する。HRD分類モデルのパフォーマンスを推定するための訓練データでは、反復交差検証を使用することができる。
【0158】
分類モデル702が訓練データセットで訓練された後、分類モデル702を使用して、対象のがんの腫瘍をHRD陽性またはHRD陰性として分類することができる。対象のがんの腫瘍をHRD陽性またはHRD陰性として分類するために、分類モデル702は、分類される腫瘍に関連する試験特徴データを含む試験データ708を受信する。テストデータ708は、1つまたは複数のコピー数の特徴を含み、1つまたは複数の基本的特徴、1つまたは複数の短い変異体の特徴などを含んでもよい。分類モデル702は、腫瘍がHRD陽性である確率710および/または腫瘍がHRD陰性である確率712を判定することができる。確率710および712は、任意選択的に、HRDコールモジュール714に入力される。HRDコールモジュール714は、がんをHRD陽性またはHRD陰性とみなすことができる。例えば、腫瘍試験サンプルがHRD陽性である確率710が、腫瘍試験サンプルがHRD陰性である確率712より大きい場合、腫瘍試験サンプルはHRD陽性とみなすことができる。腫瘍試験サンプルがHRD陰性である確率712が、腫瘍試験サンプルがHRD陽性である確率710より大きい場合、腫瘍試験サンプルはHRD陰性とみなすことができる。任意選択で、確率710および712のいずれも所定の閾値を上回っていない場合、腫瘍試験サンプルは曖昧とみなすことができる。
【0159】
本明細書に記載の方法は、1つまたは複数のコンピュータシステムを使用して実装されることができる。そのようなコンピュータシステムは、コンピュータシステムがそのような方法を実行するために1つまたは複数のプロセッサを実行するように構成された1つまたは複数のプログラムを含むことができる。コンピュータ実装方法の1つまたは複数のステップは、自動的に実行されてもよい。コンピュータシステムは、1つまたは複数のコンピューティングノードを含むことができる。例えば、システムは、ネットワークの1つまたは複数のコンピューティングノード上で前記ネットワークを介して方法を通信および実行するように接続および構成することができる2つ以上のコンピューティングノード(例えば、サーバ、コンピュータ、ルータ、またはネットワークインターフェースを含む他の種類の電子デバイス)を含むことができる。
【0160】
図8は、一実施形態によるコンピューティングデバイスの例を示している。デバイス1100は、ネットワークに接続されたホストコンピュータとすることができる。デバイス1100は、クライアントコンピュータまたはサーバとすることができる。図8に示されるように、デバイス1100は、パーソナルコンピュータ、ワークステーション、サーバ、またはハンドヘルド計算デバイス(携帯電子デバイス、例えば、電話またはタブレット)などの任意の好適なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、プロセッサ1110、入力デバイス1120、出力デバイス1130、ストレージ1140、および通信デバイス1160のうちの1つまたは複数を含むことができる。入力デバイス1120および出力デバイス1130は、一般に、上述したものに対応することができ、コンピュータと接続可能とすることができるかまたは一体化されることができる。
【0161】
入力デバイス1120は、タッチスクリーン、キーボードもしくはキーパッド、マウス、または音声認識デバイスなどの入力を提供する任意の好適なデバイスとすることができる。出力デバイス1130は、ディスプレイ、タッチスクリーン、触覚デバイス、またはスピーカなど、出力を提供する任意の好適なデバイスであり得る。
【0162】
ストレージ1140は、RAM、キャッシュ、ハードドライブ、またはリムーバブルストレージディスクを含む、電気、磁気、または光学メモリなどのストレージを備える任意の好適なデバイスであり得る。通信デバイス1160は、ネットワークインターフェースチップまたはデバイスなどの、ネットワークを介してシグナルを送受信することができる任意の好適なデバイスを含むことができる。コンピュータの構成要素は、物理的バスまたは無線などの任意の好適な様式で接続することができる。
【0163】
HRD分類モジュール1150は、ストレージ1140に記憶することができ、プロセッサ1110によって実行することができ、例えば、HRDモデルに関連する方法およびプロセス(例えば、上記のようなデバイスで実施されるように)を実行および実施するための1つまたは複数のプログラム命令を含むことができる。
【0164】
HRDモジュール1150はまた、命令実行システム、装置、もしくはデバイス(例えば、上記のもの)によって、またはそれらと接続して使用するための任意の非一時的コンピュータ可読記憶媒体内に記憶および/または転送することができ、命令実行システム、装置、もしくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、コンピュータ可読記憶媒体は、ストレージ1140などの任意の媒体とすることができ、命令実行システム、装置、もしくはデバイスによって、またはそれらと接続して使用するためのプログラミングを含むもしくは記憶することができる。
【0165】
HRDモジュール1150はまた、命令実行システム、装置、もしくはデバイス(例えば、上記のもの)によって、またはそれらと接続して使用するための任意の伝送媒体内に伝播することができ、命令実行システム、装置、もしくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、伝送媒体は、任意の媒体とすることができ、命令実行システム、装置、もしくはデバイスによって、またはそれらと接続して使用するための伝送プログラミングを通信、伝播、または伝送することができる。伝送可読媒体は、電子、磁気、光学、電磁気、もしくは赤外線の有線または無線伝播媒体を含むことができるが、これらに限定されない。
【0166】
デバイス1100は、任意の好適な種類の相互接続された通信システムとすることができるネットワークへと接続されることができる。ネットワークは、任意の好適な通信プロトコルを実装することができ、任意の好適なセキュリティプロトコルによって保護されることができる。ネットワークは、無線ネットワーク接続(T1またはT3回線)、ケーブルネットワーク、DSL、または電話回線などの、ネットワーク信号の送受信を実装することができる任意の好適な構成のネットワークリンクを含むことができる。
【0167】
デバイス1100は、ネットワークで動作するのに好適な任意のオペレーティングシステムを実装することができる。ソフトウェア350は、C、C++、Java、またはPythonなどの任意の好適なプログラミング言語で書かれることができる。様々な実施形態では、本開示の機能を具現化するアプリケーションソフトウェアは、異なる構成で、例えば、クライアント/サーバ構成で、またはウェブベースのアプリケーションもしくはウェブサービスとしてのウェブブラウザを介してなど、展開されることができる。
【0168】
治療方法
腫瘍をHRD陽性またはHRD陰性(またはHRD陽性である可能性が高いまたはHRD陰性である可能性が高い)として特徴付けることは、腫瘍を有する対象に有効な治療を選択するのに特に有用である。HRD陽性として分類される腫瘍は、多くの場合、HRD陰性腫瘍が抵抗性であり得る特定の薬物および療法に対してより感受性である。腫瘍のHRD陽性、HRD陽性である可能性が高い、HRD陰性、またはHRD陰性である可能性が高いものとしての分類に基づいて、異なる薬物または療法を選択することができる。したがって、対象のがんを治療する方法は、本明細書に記載の方法に従って、がんの腫瘍をHRD陽性またはHRD陰性である可能性が高いと評価すること(またはがんの腫瘍をHRD陽性またはHRD陰性とみなすこと)、次いで、腫瘍をHRD陽性である可能性が高い、またはHRD陰性である可能性が高いと分類することに基づいて(または腫瘍をHRD陽性またはHRD陰性とみなすことに基づいて)、治療有効量の薬物を対象に投与することを含み得る。
【0169】
対象のがんを治療する方法は、対象のがんの腫瘍の分類をHRD陽性である可能性が高い、またはHRD陰性である可能性が高いものとして得ることを含むことができる。この分類を取得するために、本明細書に記載のHRD分類モデルを使用することができる。がんの腫瘍のゲノムに関連する1つまたは複数のコピー数の特徴は、対象の腫瘍のゲノムに関連する1つまたは複数のコピー数の特徴に基づいて、腫瘍をHRD陽性である可能性が高いまたはHRD陰性である可能性が高いものと分類するように構成されたHRD分類モデルに入力され得る。HRD分類モデルは、複数のHRD陽性腫瘍からのHRD陽性データ、および複数のHRD陰性腫瘍からのHRD陰性データを使用して訓練される。分類は、例えば、HRD分類モデルを操作することによって、またはHRD分類モデルを操作した別のものからの結果を受信することによって取得することができる。
【0170】
1つまたは複数の基本的特徴および/または1つまたは複数の短い変異体の特徴は、1つまたは複数の基本的特徴および/または1つまたは複数の短い変異体の特徴に基づいて腫瘍をHRD陽性である可能性が高いまたはHRD陰性である可能性が高いと分類するように構成されたHRD分類モデルに入力することができる。1つまたは複数の短い変異体の特徴および1つまたは複数の基本的特徴は、1つまたは複数のコピー数の特徴に加えて、またはその代わりに、1つまたは複数のコピー数の特徴であり得る。
【0171】
いくつかの実施形態において、治療方法は、1つまたは複数のコピー数の特徴を含む試験サンプルデータを得ることを含み得る。いくつかの実施形態では、治療方法は、1つ以上の基本的特徴を得ることを含み得る。いくつかの態様において、治療方法は、ヘテロ接合性のゲノム規模の喪失の尺度を得ることを含み得る。いくつかの実施形態では、治療方法は、1つまたは複数の短い変異体の特徴を得ることを含み得る。対象から試験サンプルを得てもよく、核酸分子は試験サンプルに由来し得る。試験サンプルは、例えば、がんの固形組織生検であってもよく、固形組織サンプルから核酸を単離し得る。任意選択で、試験サンプルは、例えば、核酸分子を単離する前に試験サンプルを凍結するか、またはサンプルを固定することによって(例えば、ホルマリン固定パラフィン包埋(FFPE)サンプルを形成することによって)、保存され得る。あるいは、試験サンプルは液体生検サンプル(例えば、対象からの血液、血漿、または他の液体サンプル)であり、循環腫瘍DNA(ctDNA)を含む核酸を液体サンプルから得ることができる。サンプル由来の核酸をアッセイし、次いで分析して、1つ以上のコピー数の特徴、1つ以上の基本的特徴、または1つまたは複数の短い変異体の特徴のいずれかを生成することができる。
【0172】
HRD陽性である可能性が高いまたはHRD陰性である可能性が高いものとしての腫瘍の分類を得ることは、記載された特徴および/または尺度をHRD分類モデルに入力すること、および特徴および/または尺度を使用して、HRD分類モデルに入力されたデータに基づいて、HRD陽性である可能性が高いまたはHRD陰性である可能性が高いものとしてがんを分類することを含むことができる。あるいは、腫瘍をHRD陽性である可能性が高いまたはHRD陰性である可能性が高いものとする分類を取得することは、別のエンティティからの報告を受信することを含み得る。報告は、他のエンティティによって生成されてもよく、報告は、HRD陽性である可能性が高いまたはHRD陰性である可能性が高い腫瘍の分類を含むことができ、分類は、本明細書に記載のHRD分類モデルを使用して生成される。いくつかの態様では、報告は、腫瘍がHRD陽性である尤度スコアおよび/または腫瘍がHRD陰性である尤度スコアを含み、尤度スコアに基づいて最終的な分類を行うことができる。
【0173】
HRD陽性である可能性が高いまたはHRD陰性である可能性が高い腫瘍の分類が行われると、分類に基づいて治療を選択することができる。腫瘍がHRD陽性である可能性が高いと分類された場合、HRD陽性腫瘍に有効な治療が選択される。次いで、選択された治療を対象に投与して、HRD陽性である可能性が高いと分類される腫瘍を治療することができる。腫瘍がHRD陰性である可能性が高いと分類された場合、白金系薬物でもPARP阻害剤でもない治療が選択され得る。次いで、選択された治療を対象に投与して、HRD陰性である可能性が高いと分類される腫瘍を治療することができる。
【0174】
HRD陽性腫瘍に有効な処置は、1つ以上のPARP阻害剤および/または1つ以上の白金系薬剤を含むことができる。PARP阻害剤には、ベリパリブ、オラパリブ、タラゾパリブ、イニパリブ、ルカパリブ、およびニラパリブが含まれ得るが、これらに限定されない。PARP阻害剤は、Murphy and Muggia,PARP inhibitors:clinical development,emerging differences,and the current therapeutic issues,Cancer Drug Resist 2019;2:665-79に記載されている。白金系薬物としては、シスプラチン、オキサリプラチンおよびカルボプラチンが挙げられ得るが、これらに限定されない。白金系薬物は、Rottenberg et al.,The rediscovery of platinum-based cancer therapy,Nat.Rev.Cancer 2021 Jan;21(1):37-50に記載されている。
【0175】
治療される腫瘍は、対象の腫瘍である。一実施形態では、腫瘍は膵臓がんである。別の実施形態では、腫瘍は前立腺がんである。いくつかの実施形態において、腫瘍は、卵巣がん、乳がんまたは前立腺がんである。いくつかの実施形態では、腫瘍は、HRDに関連する腫瘍であり、限定されないが、副腎、胆管、骨/軟部組織、乳房、結腸/直腸、食道、眼、頭頸部、腎臓、肝臓、肺、リンパ系、髄芽腫、中皮腫、骨髄系、神経系、神経内分泌、卵巣、膵臓、前立腺、皮膚、胃、精巣、胸腺、甲状腺、尿路、子宮、または外陰がんの1つを含み得る。Nguyen et al.,Pan-cancer landscape of homologous recombination deficiency,Nat.Commun.2020 Nov 4;11(1):5584を参照されたい。
【0176】
本開示は、添付の図面を参照して十分に説明されているが、様々な変形および変更が当業者にとって明らかになることに留意されたい。そのような変形および変更は、特許請求の範囲によって定義される本開示の範囲の中に含まれると理解されるべきである。
【0177】
上記の説明は、説明を目的として、特定の実施形態を参照して説明されている。しかしながら、上記の例示的な説明は、網羅的であること、または本発明を開示された正確な形態に限定することを意図するものではない。上記の教示を考慮して、多くの変更および変形が可能である。実施形態は、技術の原理およびそれらの実際の用途を最もよく説明するために選択および記載された。それにより、他の当業者は、企図される特定の使用に適した様々な変更を伴う技術および様々な実施形態を最良に利用することが可能になる。
図1
図2
図3A
図3B
図4
図5
図6A
図6B
図7
図8
図9
図10
図11
【国際調査報告】