特表2024-528489 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ファウンデーション・メディシン・インコーポレイテッドの特許一覧

特表2024-528489相同修復欠損を分類するシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6A
6B
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-30

(54)【発明の名称】相同修復欠損を分類するシステムおよび方法

(51)【国際特許分類】

G16B 40/00 20190101AFI20240723BHJP

【ＦＩ】

G16B40/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023579476

(86)(22)【出願日】2022-06-24

(85)【翻訳文提出日】2024-01-09

(86)【国際出願番号】 US2022073167

(87)【国際公開番号】W WO2022272310

(87)【国際公開日】2022-12-29

(31)【優先権主張番号】63/215,281

(32)【優先日】2021-06-25

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

２．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】517192663

【氏名又は名称】ファウンデーション・メディシン・インコーポレイテッド

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】ソコル，イーサン

(72)【発明者】

【氏名】ムーア，ジェイ

(72)【発明者】

【氏名】ニューバーグ，ジャスティン

(72)【発明者】

【氏名】ジン，デクスター

(72)【発明者】

【氏名】チェン，クイ－ティン

(57)【要約】

相同修復欠損（ＨＲＤ）分類モデルを訓練および使用するための１つまたは複数の特徴の重要度のメトリックを使用して、複数の特徴のサブセットを識別するための方法、デバイス、およびシステムが本明細書に記載される。さらに、膵臓がんなどのがんの腫瘍を、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものと分類し、腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすための方法、デバイス、およびシステムが記載される。分類に基づいて、膵臓がんなどのがんの腫瘍を治療する方法も本明細書に記載される。
【選択図】図７

【特許請求の範囲】

【請求項1】

対象の腫瘍から得られるゲノムを準備するステップ、
任意選択で、１つまたは複数のアダプターを前記ゲノム上にライゲーションするステップ、
前記ゲノムから核酸分子を増幅するステップ、
前記増幅したゲノムから核酸分子を捕捉するステップであって、１つ以上のベイト分子へのハイブリダイゼーションによって、前記捕捉された核酸分子が捕捉される、核酸分子を捕捉するステップ、
前記捕捉された核酸分子から、入力特徴のセットを誘導するステップ、
１つまたは複数のプロセッサによって、前記入力特徴のセットを訓練された相同組換え欠損（ＨＲＤ）モデルに入力し、前記訓練されたＨＲＤモデルを使用して前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するステップであって、前記モデルは、
複数の特徴の各特徴と関連付けられた１つまたは複数の特徴の重要度のメトリックを判定すること、
前記１つまたは複数の特徴の重要度のメトリックを使用して前記複数の特徴のうちの特徴のサブセットを識別すること、および
前記１つまたは複数のプロセッサによって、前記識別された特徴のサブセットに基づいて前記ＨＲＤモデルを訓練すること
により訓練される、前記入力特徴のセットを訓練された相同組換え欠損（ＨＲＤ）モデルに入力し、前記訓練されたＨＲＤモデルを使用して前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するステップ、ならびに
前記訓練されたＨＲＤモデルを使用して、前記１つまたは複数のプロセッサによって、前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するステップ
を含む、方法。

【請求項2】

１つまたは複数のプロセッサによって、複数の特徴を受信するステップ、
前記１つまたは複数のプロセッサによって、１つまたは複数の特徴の重要度のメトリックを使用して前記複数の特徴のうちの特徴のサブセットを識別するステップ、および
前記１つまたは複数のプロセッサによって、前記複数の特徴の前記識別されたサブセットに基づいて相同組換え欠損（ＨＲＤ）モデルを訓練するステップであって、
前記ＨＲＤモデルが、対象の腫瘍のゲノムと関連付けられたサンプルデータを受信し、前記サンプルデータを使用して、前記対象の前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するように構成される、ＨＲＤモデルを訓練するステップ
を含む、方法。

【請求項3】

１つまたは複数のプロセッサによって、対象における腫瘍のゲノムに関連するサンプルデータを受信するステップ、
前記１つまたは複数のプロセッサによって、前記サンプルデータを訓練された相同組換え欠損（ＨＲＤ）モデルに入力するステップであって、前記ＨＲＤモデルは、
複数の特徴の各特徴と関連付けられた１つまたは複数の特徴の重要度のメトリックを判定すること、
前記１つまたは複数の特徴の重要度のメトリックを使用して前記複数の特徴のうちの特徴のサブセットを識別すること、および
前記１つまたは複数のプロセッサによって、前記識別された特徴のサブセットに基づいて前記ＨＲＤモデルを訓練すること
により訓練される、前記サンプルデータを訓練された相同組換え欠損（ＨＲＤ）モデルに入力するステップ、ならびに
前記訓練されたＨＲＤモデルを使用して、前記１つまたは複数のプロセッサによって、前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するステップ
を含む、方法。

【請求項4】

前記複数の特徴が、１つもしくは複数のコピー数の特徴、１つもしくは複数の短い変異体の特徴、またはそれらの組み合わせを含む、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記１つまたは複数の特徴の重要度のメトリックは、カイ二乗検定、分散分析（ＡＮＯＶＡ）、ランダムフォレスト、または勾配ブースティングのうちの１つまたは複数を含む、請求項１～４のいずれか一項に記載の方法。

【請求項6】

前記複数の特徴のうちの前記特徴のサブセットを識別するステップが、
前記１つまたは複数のプロセッサによって、前記１つまたは複数の特徴の重要度のメトリックに従って１つまたは複数の特徴ランキングを取得するステップ、および
前記１つまたは複数のプロセッサによって、１つまたは複数の特徴ランキングに基づいて前記複数の特徴の前記サブセットを選択するステップ
を含む、請求項１～５のいずれか一項に記載の方法。

【請求項7】

前記複数の特徴のうちの前記サブセットを識別するステップが、
（ａ）１つまたは複数のプロセッサによって、特徴の重要度のメトリックに従って前記複数の特徴の特徴ランキングを取得するステップ、
（ｂ）前記１つ以上のプロセッサによって、前記特徴ランキングに基づいて、前記複数の特徴からの１つ以上の特徴を既存の特徴セットに追加するステップによって新しい特徴セットを取得するステップ、
（ｃ）前記１つまたは複数のプロセッサによって、前記新しい特徴セットを使用して新しいＨＲＤモデルを訓練するステップ、
（ｄ）前記１つまたは複数のプロセッサによって、前記訓練された新しいＨＲＤモデルを評価して、評価結果を取得するステップ、
（ｅ）前記１つまたは複数のプロセッサによって、前記新しいＨＲＤモデルおよび前記新しい特徴セットに関連する前記評価結果を記憶するステップ、
（ｆ）条件が満たされるまで、複数の評価結果を得るために、前記１つまたは複数のプロセッサによって、ステップ（ｂ）～（ｅ）を繰り返すステップ、ならびに
（ｇ）前記１つまたは複数のプロセッサによって、前記複数の評価結果に基づいて前記複数の特徴の前記サブセットを選択するステップ
を含む、請求項１～５のいずれか一項に記載の方法。

【請求項8】

前記訓練されたＨＲＤモデルが分類モデルであり、前記方法が、
新しい対象における腫瘍のゲノムと関連付けられた新しいサンプルデータを受信するステップであって、前記新しいサンプルデータは、前記複数の特徴の前記サブセットに関連する、新しいサンプルデータを受信するステップ、
前記新しいサンプルデータを前記訓練されたＨＲＤ分類モデルに与えて、ＨＲＤ陽性またはＨＲＤ陰性の分類結果を生成するステップ、および
前記分類結果を出力するステップ
をさらに含む、請求項１～７のいずれか一項に記載の方法。

【請求項9】

前記分類結果が、ＨＲＤ陽性尤度スコアおよびＨＲＤ陰性尤度スコアのうちの少なくとも１つを含む、請求項８に記載の方法。

【請求項10】

前記ＨＲＤモデルが、分類モデル、回帰モデル、ニューラルネットワーク、またはそれらの任意の組み合わせである、請求項１～９のいずれか一項に記載の方法。

【請求項11】

前記新しい対象に関連付けられたデジタル電子ファイルに、前記ＨＲＤ陽性尤度スコアおよび前記ＨＲＤ陰性尤度スコアの少なくとも一方を記録するステップを含む、請求項９または１０に記載の方法。

【請求項12】

前記新しい対象に関連するデジタル電子ファイルに、前記ＨＲＤ陽性尤度スコアに基づいて前記腫瘍がＨＲＤ陽性であること、または前記ＨＲＤ陰性尤度スコアに基づいて前記腫瘍がＨＲＤ陰性であるという指定を記録するステップを含む、請求項９～１１のいずれか一項に記載の方法。

【請求項13】

前記複数の特徴が、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つを含む、請求項１～１２のいずれか一項に記載の方法。

【請求項14】

前記複数の特徴のうちの少なくとも１つが、前記ゲノムのセントロメア部分にわたって評価される、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

前記複数の特徴のうちの少なくとも１つが、前記ゲノムのテロメア部分にわたって評価される、請求項１～１４のいずれか一項に記載の方法。

【請求項16】

前記複数の特徴のうちの少なくとも１つが、前記ゲノムの前記セントロメア部分およびテロメア部分の両方にわたって評価される、請求項１～１５のいずれか一項に記載の方法。

【請求項17】

前記複数の特徴が、ｘメガベースあたりのブレークポイント数の特徴を含み、前記ｘメガベースあたりのブレークポイント数の特徴が、前記ゲノム全体にわたって長さがｘメガベースのウィンドウに現れる前記ブレークポイントの数に基づく、請求項１～１６のいずれか一項に記載の方法。

【請求項18】

ｘメガベースあたりのブレークポイント数の特徴が、（ｉ）前記ゲノムの前記テロメア部分、（ｉｉ）前記ゲノムの前記セントロメア部分、または（ｉｉｉ）前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項１７に記載の方法。

【請求項19】

ｘが約１～約１００メガベースである、請求項１７または請求項１８に記載の方法。

【請求項20】

ｘが、約１０メガベース、約２５メガベース、約５０メガベース、または約１００メガベースである、請求項１７～１９のいずれか一項に記載の方法。

【請求項21】

ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である、請求項１７～２０のいずれか一項に記載の方法。

【請求項22】

前記複数の特徴が変化点コピー数の特徴を含み、前記変化点コピー数が、前記対象の前記腫瘍の前記ゲノムにわたる隣接ゲノムセグメント間のコピー数の絶対的な差に基づく、請求項１～２１のいずれか一項に記載の方法。

【請求項23】

前記変化点コピー数の特徴が、倍数正規化コピー数データから誘導される、請求項２２に記載の方法。

【請求項24】

変化点コピー数の特徴が、（ｉ）前記ゲノムの前記テロメア部分、（ｉｉ）前記ゲノムの前記セントロメア部分、または（ｉｉｉ）前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項２２または２３に記載の方法。

【請求項25】

前記変化点コピー数の特徴がビニングされた特徴である、請求項２２～２４のいずれか一項に記載の方法。

【請求項26】

前記複数の特徴がセグメントコピー数の特徴を含み、セグメントコピー数が各ゲノムセグメントの前記コピー数に基づく、請求項１～２５のいずれか一項に記載の方法。

【請求項27】

前記セグメントコピー数の特徴が、（ｉ）前記ゲノムの前記テロメア部分、（ｉｉ）前記ゲノムの前記セントロメア部分、または（ｉｉｉ）前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項２６に記載の方法。

【請求項28】

前記セグメントコピー数の特徴が、倍数正規化コピー数データから誘導される、請求項２６または請求項２７に記載の方法。

【請求項29】

前記セグメントコピー数の特徴がビニングされた特徴である、請求項２６～２８のいずれか一項に記載の方法。

【請求項30】

前記複数の特徴が、前記対象の前記腫瘍のゲノムの染色体アームあたりのブレークポイント数の特徴を含む、請求項１～２９のいずれか一項に記載の方法。

【請求項31】

前記染色体アームあたりのブレークポイント数の特徴が、（ｉ）前記ゲノムの前記テロメア部分、（ｉｉ）前記ゲノムの前記セントロメア部分、または（ｉｉｉ）前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項３０に記載の方法。

【請求項32】

前記染色体アームあたりのブレークポイント数の特徴がビニングされた特徴である、請求項３０または請求項３１記載の方法。

【請求項33】

前記複数の特徴が、振動コピー数のセグメントの数の特徴を含む、請求項１～３２のいずれか一項に記載の方法。

【請求項34】

前記振動コピー数のセグメントの数の特徴が、前記対象の前記腫瘍の前記ゲノムにわたる２つのコピー数の間の繰り返される交互のセグメントの前記数に基づく、請求項３３に記載の方法。

【請求項35】

振動コピー数のセグメントの数の特徴が、（ｉ）前記ゲノムの前記テロメア部分、（ｉｉ）前記ゲノムの前記セントロメア部分、または（ｉｉｉ）前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項３３または請求項３４に記載の方法。

【請求項36】

前記振動コピー数のセグメントの数の特徴がビニングされた特徴である、請求項３３～３５のいずれか一項に記載の方法。

【請求項37】

前記１つまたは複数のコピー数の特徴が、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）特徴を含み、ｓｅｇＭＡＦが、ヘテロ接合一塩基多型における前記マイナーアリル頻度に基づく、請求項１～３６のいずれか一項に記載の方法。

【請求項38】

ｓｅｇＭＡＦが、（ｉ）前記ゲノムの前記テロメア部分、（ｉｉ）前記ゲノムの前記セントロメア部分、または（ｉｉｉ）前記ゲノムの前記テロメア部分と前記セントロメア部分の両方にわたって評価される、請求項３７に記載の方法。

【請求項39】

前記セグメントマイナーアリル頻度の特徴がビニングされた特徴である、請求項３７または請求項３８に記載の方法。

【請求項40】

前記１つまたは複数のコピー数の特徴が、シーケンシングリードの数の特徴を含む、請求項１～３９のいずれか一項に記載の方法。

【請求項41】

前記シーケンシングリードの数の特徴がビニングされた特徴である、請求項４０に記載の方法。

【請求項42】

前記複数の特徴が、前記対象の前記腫瘍の前記ゲノムのヘテロ接合性のゲノム全体の喪失の尺度をさらに含む、請求項１～４１のいずれか一項に記載の方法。

【請求項43】

前記複数の特徴が１つまたは複数の短い変異体の特徴を含む、請求項１～４２のいずれか一項に記載の方法。

【請求項44】

前記１つまたは複数の短い変異体の特徴が、ミクロ相同性または反復領域特徴の欠失および２つ以上の短い変異体の特徴に由来する変異シグネチャの少なくとも１つを含む、請求項４３に記載の方法。

【請求項45】

ミクロ相同性または反復領域特徴の前記欠失が、少なくとも５塩基対の欠失である、請求項４４に記載の方法。

【請求項46】

前記ＨＲＤモデルを訓練するステップは、
前記１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットを受信するステップであって、前記ＨＲＤ陽性訓練データセットが、ＨＲＤ陽性腫瘍およびＨＲＤ陽性標識に関連する複数の特徴を含む、ＨＲＤ陽性訓練データセットを受信するステップ、
前記１つまたは複数のプロセッサによって、ＨＲＤ陰性訓練データセットを受信するステップであって、前記ＨＲＤ陰性訓練データセットが、ＨＲＤ陰性腫瘍およびＨＲＤ陰性標識に関連する複数の特徴を含む、ＨＲＤ陰性訓練データセットを受信するステップ、
前記１つまたは複数のプロセッサによって、前記ＨＲＤ陽性訓練データセットおよび前記ＨＲＤ陰性訓練データセットを使用して前記ＨＲＤモデルを訓練するステップ
を含む、請求項１～４５のいずれか一項に記載の方法。

【請求項47】

前記１つまたは複数のプロセッサによって、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＣＡ１とＢＲＣＡ２の両方における機能喪失変異、またはＢＲＣＡ１とＢＲＣＡ２の二対立遺伝子変異を含むゲノム配列に由来するＨＲＤ陽性対照を含むＨＲＤ陽性試験データセットを使用して、前記訓練されたモデルを試験するステップをさらに含む、請求項１～４６のいずれか一項に記載の方法。

【請求項48】

前記１つまたは複数のプロセッサによって、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、またはＲＡＤ４５Ｌのうちの少なくとも１つに機能喪失変異を含むゲノム配列に由来するＨＲＤ陽性対照を含むＨＲＤ陽性試験データセットを使用して、前記訓練されたモデルを試験するステップをさらに含む、請求項１～４７のいずれか一項に記載の方法。

【請求項49】

前記１つまたは複数のプロセッサによって、コンセンサスなヒトゲノム配列に由来するＨＲＤ陰性対照を含むＨＲＤ陰性訓練データセットを含むＨＲＤ陰性試験データセットを使用して前記訓練されたモデルを試験するステップをさらに含む、請求項１～４８のいずれか一項に記載の方法。

【請求項50】

訓練するステップが、ＨＲＤ陽性訓練データセットおよびＨＲＤ陰性訓練データセットを使用するステップを含む、請求項４６～４９のいずれか一項に記載の方法。

【請求項51】

前記ＨＲＤモデルを訓練する前に、前記１つまたは複数のプロセッサによって、前記ＨＲＤ陽性訓練データセットと前記ＨＲＤ陰性訓練データセットとのバランスをとるステップを含む、請求項５０に記載の方法。

【請求項52】

前記対象における前記腫瘍が、前立腺がん、卵巣がん、乳がん、非小細胞肺がん（ＮＳＣＬＣ）、結腸直腸がん（ＣＲＣ）、または膵臓がんである、請求項１～５１のいずれか一項に記載の方法。

【請求項53】

前記ＨＲＤモデルを訓練するステップが、卵巣がん、非小細胞肺がん（ＮＳＣＬＣ）、結腸直腸がん（ＣＲＣ）、乳がん、膵臓がん、または前立腺がんに関連するサンプルデータに前記ＨＲＤモデルを適合させることを含み、前記サンプルデータが前記複数の特徴の前記サブセットを含む、請求項１～５２のいずれか一項に記載の方法。

【請求項54】

前記腫瘍が、固形組織生検サンプルであるサンプルから得られる、請求項１～５３のいずれか一項に記載の方法。

【請求項55】

前記固形組織生検サンプルがホルマリン固定パラフィン包埋（ＦＦＰＥ）サンプルである、請求項５４に記載の方法。

【請求項56】

前記腫瘍が、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含む液体生検サンプルであるサンプルから得られる、請求項１～５３のいずれか一項に記載の方法。

【請求項57】

前記腫瘍が、無細胞ＤＮＡ（ｃｆＤＮＡ）を含む液体生検サンプルであるサンプルから得られる、請求項１～５３のいずれか一項に記載の方法。

【請求項58】

前記患者に関連する診断値として前記腫瘍の前記出力をＨＲＤ陽性またはＨＲＤ陰性と判定、識別、または適用するステップをさらに含む、請求項１～５７のいずれか一項に記載の方法。

【請求項59】

前記腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての前記出力に基づいて、前記対象のゲノムプロファイルを生成するステップをさらに含む、請求項１～５８のいずれか一項に記載の方法。

【請求項60】

前記生成されたゲノムプロファイルに基づいて、抗がん剤を投与するステップ、または抗がん治療を前記対象に適用するステップをさらに含む、請求項５９に記載の方法。

【請求項61】

前記腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての前記出力が、前記対象のゲノムプロファイルを生成するのに使用される、請求項１～６０のいずれか一項に記載の方法。

【請求項62】

前記腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての前記出力が、前記対象に対する提案された治療の決定を行う際に使用される、請求項１～６１のいずれか一項に記載の方法。

【請求項63】

前記腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての前記出力が、前記対象に治療を適用または投与するのに使用される、請求項１～６２のいずれか一項に記載の方法。

【請求項64】

前記ＨＲＤモデルが、機械学習モデルである、請求項１～６３のいずれか一項に記載の方法。

【請求項65】

前記対象が、がんを有するか、がんを有するリスクがあるか、またはがんを有する疑いがある、請求項１～６４のいずれか一項に記載の方法。

【請求項66】

対象のがんを治療する方法であって、
（ａ）請求項１～６５のいずれか一項に記載の方法に従って前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するステップ、
（ｂ）前記がんの前記腫瘍がＨＲＤ陽性と評価された場合、治療有効量のＨＲＤ陽性腫瘍に有効な薬物を前記対象に投与するステップ、を含む、方法。

【請求項67】

ＨＲＤ陽性腫瘍に有効な前記薬物が白金系薬物またはＰＡＲＰ阻害剤である、請求項６６に記載の方法。

【請求項68】

前記腫瘍がＨＲＤ陰性と評価された場合、白金系薬物でもＰＡＲＰ阻害剤でもない治療有効量の薬物を前記対象に投与するステップを含む、請求項６６に記載の方法。

【請求項69】

対象のがんの治療法を選択する選択するための方法であって、
（ａ）請求項１～６５のいずれか一項に記載の方法に従って、前記がんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として評価するステップ、
（ｂ）前記がんがＨＲＤ陽性と評価された場合、ＨＲＤ陽性腫瘍において有効な治療を選択するステップ
を含む、方法。

【請求項70】

前記腫瘍がＨＲＤ陰性と評価された場合、白金系薬物でもＰＡＲＰ阻害剤でもない治療法を選択するステップを含む、請求項６９に記載の方法。

【請求項71】

ＨＲＤ陽性腫瘍に有効な前記治療法が白金系薬物またはＰＡＲＰ阻害剤である、請求項７０に記載の方法。

【請求項72】

コンピュータシステムであって、
１つまたは複数のプロセッサと、
メモリと、
１つまたは複数のプログラムであって、前記１つまたは複数のプログラムが前記メモリに記憶され、前記１つまたは複数のプロセッサによって実行されるように構成され、前記１つまたは複数のプログラムが、請求項１から６５のいずれか一項に記載の方法を実行するための指示を含む、１つまたは複数のプログラムと
を含む、コンピュータシステム。

【請求項73】

１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記１つまたは複数のプログラムが命令を含み、前記命令が、電子デバイスの１つ以上のプロセッサによって実行されると、前記電子デバイスに、請求項１から６５のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】

【関連出願の相互参照】

【0001】

本願は、２０２１年６月２５日に出願された「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＯＦＣＬＡＳＳＩＦＹＩＮＧＨＯＭＯＬＯＧＯＵＳＲＥＰＡＩＲＤＥＦＩＣＩＥＮＣＹ」と題する米国仮出願第６３／２１５，２８１号の優先権の利益を主張し、その内容は、すべての目的のために参照により本明細書に組み込まれる。

【技術分野】

【0002】

発明の分野
相同修復欠損（ＨＲＤ）モデルの特徴を選択し、ＨＲＤモデルを使用して腫瘍を評価し、評価に基づいて腫瘍を治療するための方法、デバイス、およびシステムが本明細書に記載される。

【背景技術】

【0003】

発明の背景
コピー数の異常は、ゲノムの大きな連続セグメントの欠失または増幅を伴い、がんにおける一般的な変異である。特定のコピー数の異常は、相同修復欠損（ＨＲＤ）と呼ばれる相同組換え修復機構によってゲノムを修復することができないことに関連する。ＨＲＤを有するいくつかの腫瘍を識別するために、相同修復経路に関与する遺伝子の変異を配列決定することが可能である。あるいは、その原因にかかわらず、ＨＲＤの物理的結果であるゲノム瘢痕化を検出することが可能である。

【0004】

ＨＲＤを示す腫瘍ゲノムは、白金化学療法またはポリ（ＡＤＰ）リボースポリメラーゼ（ＰＡＲＰ）阻害剤などの特定の薬物に対する感受性に関連する。しかしながら、特定の腫瘍をＨＲＤ陽性として分類することは依然として困難である。したがって、適切な治療を選択して対象に投与することができるように、特に重要である膵臓がん、乳がん、または前立腺がんなどのがんの腫瘍を、ＨＲＤ陽性またはＨＲＤ陰性として分類する必要性が、依然として存在する。過去において、ＨＲＤを識別するための技術は、実際にそれらを使用することができない不正確さおよび非効率性に悩まされてきた。この１つの理由は、例えば、オーバーフィッティングに起因して、前記腫瘍をＨＲＤ陽性またはＨＲＤ陰性として効率的かつ正確に識別する（例えば、分類する）ために、サンプルのＨＲＤ状態を正確に判定することができるようにするには、特徴選択技術が現在不十分であることである。この別の理由は、ＨＲＤの状態を正確に判定するためにどの特徴を識別するかを判定することも、困難であり得るということである。したがって、前記識別を実行するためのモデルを訓練するために使用することができる、複数の特徴から特徴のサブセットを正確かつ効率的に選択する技術およびシステムが必要とされている。

【発明の概要】

【0005】

対象の腫瘍から得られるゲノムを準備するステップ、任意選択で、１つまたは複数のアダプターをゲノム上にライゲーションするステップ、ゲノムから核酸分子を増幅するステップ、増幅したゲノムから核酸分子を捕捉するステップであって、１つ以上のベイト分子へのハイブリダイゼーションによって、捕捉された核酸分子が捕捉される、核酸分子を捕捉するステップ、捕捉された核酸分子から、入力特徴のセットを誘導するステップ、１つまたは複数のプロセッサによって、入力特徴のセットを訓練された相同組換え欠損（ＨＲＤ）モデルに入力し、訓練されたＨＲＤモデルを使用して腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するステップであって、モデルは、複数の特徴の各特徴と関連付けられた１つまたは複数の特徴の重要度のメトリックを判定すること、１つまたは複数の特徴の重要度のメトリックを使用して複数の特徴のうちの特徴のサブセットを識別すること、および１つまたは複数のプロセッサによって、識別された特徴のサブセットに基づいてＨＲＤモデルを訓練すること、により訓練される、入力特徴のセットを訓練された相同組換え欠損（ＨＲＤ）モデルに入力し、訓練されたＨＲＤモデルを使用して腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するステップ、ならびに訓練されたＨＲＤモデルを使用して、１つまたは複数のプロセッサによって、腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するステップ、を含む方法が、本明細書に記載される。

【0006】

１つまたは複数のプロセッサによって、複数の特徴を受信するステップ、１つまたは複数のプロセッサによって、１つまたは複数の特徴の重要度のメトリックを使用して複数の特徴のうちの特徴のサブセットを識別するステップ、および１つまたは複数のプロセッサによって、複数の特徴の識別されたサブセットに基づいて相同組換え欠損（ＨＲＤ）モデルを訓練するステップであって、ＨＲＤモデルが、対象の腫瘍のゲノムと関連付けられたサンプルデータを受信し、サンプルデータを使用して、対象の腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するように構成される、ＨＲＤモデルを訓練するステップ、を含む方法が、本明細書にさらに記載される。

【0007】

１つまたは複数のプロセッサによって、対象における腫瘍のゲノムに関連するサンプルデータを受信するステップ、１つまたは複数のプロセッサによって、サンプルデータを訓練された相同組換え欠損（ＨＲＤ）モデルに入力するステップであって、ＨＲＤモデルは、複数の特徴の各特徴と関連付けられた１つまたは複数の特徴の重要度のメトリックを判定すること、１つまたは複数の特徴の重要度のメトリックを使用して複数の特徴のうちの特徴のサブセットを識別すること、および１つまたは複数のプロセッサによって、識別された特徴のサブセットに基づいてＨＲＤモデルを訓練すること、により訓練される、サンプルデータを訓練された相同組換え欠損（ＨＲＤ）モデルに入力するステップ、ならびに訓練されたＨＲＤモデルを使用して、１つまたは複数のプロセッサによって、腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するステップ、を含む方法が、本明細書にさらに記載される。

【0008】

記載された方法のいくつかの実施形態では、複数の特徴は、１つもしくは複数のコピー数の特徴、１つもしくは複数の短い変異体の特徴、またはそれらの組み合わせを含む。記載された方法のいくつかの実施形態では、１つまたは複数の特徴の重要度のメトリックは、カイ二乗検定、分散分析（ＡＮＯＶＡ）、ランダムフォレスト、または勾配ブースティングのうちの１つまたは複数を含む。

【0009】

記載された方法のいくつかの実施形態では、複数の特徴のうちの特徴のサブセットを識別するステップが、１つまたは複数のプロセッサによって、１つまたは複数の特徴の重要度のメトリックに従って１つまたは複数の特徴ランキングを取得するステップ、および１つまたは複数のプロセッサによって、１つまたは複数の特徴ランキングに基づいて複数の特徴のサブセットを選択するステップを含む。

【0010】

記載された方法のいくつかの実施形態では、複数の特徴のサブセットを識別することは、（ａ）１つまたは複数のプロセッサによって、特徴の重要度のメトリックに従って複数の特徴の特徴ランキングを取得するステップ、（ｂ）１つ以上のプロセッサによって、特徴ランキングに基づいて、複数の特徴からの１つ以上の特徴を既存の特徴セットに追加するステップによって新しい特徴セットを取得するステップ、（ｃ）１つまたは複数のプロセッサによって、新しい特徴セットを使用して新しいＨＲＤモデルを訓練するステップ、（ｄ）１つまたは複数のプロセッサによって、訓練された新しいＨＲＤモデルを評価して、評価結果を取得するステップ、（ｅ）１つまたは複数のプロセッサによって、新しいＨＲＤモデルおよび新しい特徴セットに関連する評価結果を記憶するステップ、（ｆ）条件が満たされるまで、複数の評価結果を得るために、１つまたは複数のプロセッサによって、ステップ（ｂ）～（ｅ）を繰り返すステップ、ならびに（ｇ）１つまたは複数のプロセッサによって、複数の評価結果に基づいて複数の特徴のサブセットを選択するステップ、を含む。

【0011】

記載された方法のいくつかの実施形態では、訓練されたＨＲＤモデルが分類モデルであり、方法が、新しい対象における腫瘍のゲノムと関連付けられた新しいサンプルデータを受信するステップであって、新しいサンプルデータは、複数の特徴のサブセットに関連する、新しいサンプルデータを受信するステップ、新しいサンプルデータを訓練されたＨＲＤ分類モデルに与えて、ＨＲＤ陽性またはＨＲＤ陰性の分類結果を生成するステップ、および分類結果を出力するステップ、をさらに含む。いくつかの実施形態では、分類結果は、ＨＲＤ陽性尤度スコアおよびＨＲＤ陰性尤度スコアの少なくとも１つを含む。いくつかの実施形態では、方法は、新しい対象に関連付けられたデジタル電子ファイルに、ＨＲＤ陽性尤度スコアおよびＨＲＤ陰性尤度スコアの少なくとも１つを記録するステップを含む。いくつかの実施形態では、方法は、新しい対象に関連するデジタル電子ファイルに、ＨＲＤ陽性尤度スコアに基づいて腫瘍がＨＲＤ陽性であること、またはＨＲＤ陰性尤度スコアに基づいて腫瘍がＨＲＤ陰性であるという指定を記録するステップを含む。

【0012】

記載された方法のいくつかの実施形態では、ＨＲＤモデルは、分類モデル、回帰モデル、ニューラルネットワーク、またはそれらの任意の組み合わせである。いくつかの実施形態では、方法は、新しい対象に関連付けられたデジタル電子ファイルに、ＨＲＤ陽性尤度スコアおよびＨＲＤ陰性尤度スコアの少なくとも１つを記録するステップを含む。いくつかの実施形態では、方法は、新しい対象に関連するデジタル電子ファイルに、ＨＲＤ陽性尤度スコアに基づいて腫瘍がＨＲＤ陽性であること、またはＨＲＤ陰性尤度スコアに基づいて腫瘍がＨＲＤ陰性であるという指定を記録するステップを含む。

【0013】

記載された方法のいくつかの実施形態では、複数の特徴が、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つを含む。記載された方法のいくつかの実施形態では、複数の特徴のうちの少なくとも１つが、ゲノムのセントロメア部分にわたって評価される。記載された方法のいくつかの実施形態では、複数の特徴のうちの少なくとも１つが、ゲノムのテロメア部分にわたって評価される。

【0014】

記載された方法のいくつかの実施形態では、複数の特徴のうちの少なくとも１つが、ゲノムのセントロメア部分およびテロメア部分の両方にわたって評価される。

【0015】

記載された方法のいくつかの実施形態では、複数の特徴が、ｘメガベースあたりのブレークポイント数の特徴を含み、ｘメガベースあたりのブレークポイント数の特徴が、ゲノム全体にわたって長さがｘメガベースのウィンドウに現れるブレークポイントの数に基づく。いくつかの実施形態においてｘメガベースあたりのブレークポイント数の特徴が、（ｉ）ゲノムのテロメア部分、（ｉｉ）ゲノムのセントロメア部分、または（ｉｉｉ）ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、ｘは、約１～約１００メガベースである。いくつかの実施形態では、ｘは、約１０メガベース、約２５メガベース、約５０メガベース、または約１００メガベースである。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。

【0016】

記載された方法のいくつかの実施形態では、複数の特徴が変化点コピー数の特徴を含み、変化点コピー数が、対象の腫瘍のゲノムにわたる隣接ゲノムセグメント間のコピー数の絶対的な差に基づく。いくつかの実施形態において、変化点コピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの態様では、変化点コピー数の特徴は、（ｉ）ゲノムのテロメア部分、（ｉｉ）ゲノムのセントロメア部分、または（ｉｉｉ）ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。

【0017】

記載された方法のいくつかの実施形態では、複数の特徴は、セグメントコピー数の特徴を含み、セグメントコピー数が各ゲノムセグメントのコピー数に基づく。いくつかの態様において、セグメントコピー数の特徴は、（ｉ）ゲノムのテロメア部分、（ｉｉ）ゲノムのセントロメア部分、または（ｉｉｉ）ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。

【0018】

記載された方法のいくつかの実施形態では、複数の特徴が、対象の腫瘍のゲノムの染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴は、（ｉ）ゲノムのテロメア部分、（ｉｉ）ゲノムのセントロメア部分、または（ｉｉｉ）ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。

【0019】

記載された方法のいくつかの実施形態では、複数の特徴が、振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、対象の腫瘍のゲノムにわたる２つのコピー数の間の繰り返される交互のセグメントの数に基づく。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、（ｉ）ゲノムのテロメア部分、（ｉｉ）ゲノムのセントロメア部分、または（ｉｉｉ）ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。

【0020】

記載された方法のいくつかの実施形態では、１つまたは複数のコピー数の特徴が、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）特徴を含み、ｓｅｇＭＡＦが、ヘテロ接合一塩基多型におけるマイナーアリル頻度に基づく。いくつかの態様では、ｓｅｇＭＡＦは、（ｉ）ゲノムのテロメア部分、（ｉｉ）ゲノムのセントロメア部分、または（ｉｉｉ）ゲノムのテロメア部分とセントロメア部分の両方にわたって評価される。いくつかの実施形態では、ｓｅｇＭＡＦ特徴はビニングされた特徴である。

【0021】

記載された方法のいくつかの実施形態では、１つまたは複数のコピー数の特徴が、シーケンシングリードの数の特徴を含む。いくつかの態様において、シーケンシングリードの数の特徴はビニングされた特徴である。

【0022】

記載された方法のいくつかの実施形態では、複数の特徴が、対象の腫瘍のゲノムのヘテロ接合性のゲノム全体の喪失の尺度をさらに含む。

【0023】

記載された方法のいくつかの実施形態では、複数の特徴は、１つまたは複数の短い変異体の特徴を含む。いくつかの実施形態において、１つまたは複数の短い変異体の特徴が、ミクロ相同性または反復領域特徴の欠失および２つ以上の短い変異体の特徴に由来する変異シグネチャの少なくとも１つを含む。いくつかの実施形態において、ミクロ相同性領域または反復領域特徴における欠失は、少なくとも５塩基対の欠失である。

【0024】

記載された方法のいくつかの実施形態では、ＨＲＤモデルを訓練するステップが、１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットを受信するステップであって、ＨＲＤ陽性訓練データセットが、ＨＲＤ陽性腫瘍およびＨＲＤ陽性標識に関連する複数の特徴を含む、ＨＲＤ陽性訓練データセットを受信するステップ、１つまたは複数のプロセッサによって、ＨＲＤ陰性訓練データセットを受信するステップであって、ＨＲＤ陰性訓練データセットが、ＨＲＤ陰性腫瘍およびＨＲＤ陰性標識に関連する複数の特徴を含む、ＨＲＤ陰性訓練データセットを受信するステップ、１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットおよびＨＲＤ陰性訓練データセットを使用してＨＲＤモデルを訓練するステップを含む。いくつかの実施形態では、訓練するステップは、ＨＲＤ陽性訓練データセットおよびＨＲＤ陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、ＨＲＤモデルを訓練する前に、１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットとＨＲＤ陰性訓練データセットとのバランスをとるステップを含む。

【0025】

記載された方法のいくつかの実施形態では、方法は、１つまたは複数のプロセッサによって、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＣＡ１とＢＲＣＡ２の両方における機能喪失変異、またはＢＲＣＡ１とＢＲＣＡ２の二対立遺伝子変異を含むゲノム配列に由来するＨＲＤ陽性対照を含むＨＲＤ陽性試験データセットを使用して、訓練されたモデルを試験するステップをさらに含む。いくつかの実施形態では、訓練するステップは、ＨＲＤ陽性訓練データセットおよびＨＲＤ陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、ＨＲＤモデルを訓練する前に、１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットとＨＲＤ陰性訓練データセットとのバランスをとるステップを含む。

【0026】

記載された方法のいくつかの実施形態では、方法は、１つまたは複数のプロセッサによって、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、またはＲＡＤ４５Ｌのうちの少なくとも１つに機能喪失変異を含むゲノム配列に由来するＨＲＤ陽性対照を含むＨＲＤ陽性試験データセットを使用して、訓練されたモデルを試験するステップをさらに含む。いくつかの実施形態では、訓練するステップは、ＨＲＤ陽性訓練データセットおよびＨＲＤ陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、ＨＲＤモデルを訓練する前に、１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットとＨＲＤ陰性訓練データセットとのバランスをとるステップを含む。

【0027】

記載された方法のいくつかの実施形態では、方法は、１つまたは複数のプロセッサによって、コンセンサスなヒトゲノム配列に由来するＨＲＤ陰性対照を含むＨＲＤ陰性訓練データセットを含むＨＲＤ陰性試験データセットを使用して訓練されたモデルを試験するステップをさらに含む。いくつかの実施形態では、訓練するステップは、ＨＲＤ陽性訓練データセットおよびＨＲＤ陰性訓練データセットを使用するステップを含む。いくつかの実施形態では、方法は、ＨＲＤモデルを訓練する前に、１つまたは複数のプロセッサによって、ＨＲＤ陽性訓練データセットとＨＲＤ陰性訓練データセットとのバランスをとるステップを含む。

【0028】

記載された方法のいくつかの実施形態では、対象における腫瘍が、前立腺がん、非小細胞肺がん（ＮＳＣＬＣ）、結腸直腸がん（ＣＲＣ）、卵巣がん、乳がん、または膵臓がんである。

【0029】

記載された方法のいくつかの実施形態では、ＨＲＤモデルを訓練するステップが、卵巣がん、非小細胞肺がん（ＮＳＣＬＣ）、結腸直腸がん（ＣＲＣ）、乳がん、膵臓がん、または前立腺がんに関連するサンプルデータにＨＲＤモデルを適合させることを含み、サンプルデータが複数の特徴のサブセットを含む。

【0030】

記載された方法のいくつかの実施形態では、腫瘍は、固形組織生検サンプルであるサンプルから得られる。いくつかの実施形態では、固形組織生検サンプルがホルマリン固定パラフィン包埋（ＦＦＰＥ）サンプルである。記載された方法のいくつかの実施形態では、腫瘍は、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含む液体生検サンプルであるサンプルから得られる。記載された方法のいくつかの実施形態では、腫瘍は、無細胞ＤＮＡ（ｃｆＤＮＡ）を含む液体生検サンプルであるサンプルから得られる。

【0031】

記載された方法のいくつかの実施形態では、方法は、患者に関連する診断値として腫瘍の出力をＨＲＤ陽性またはＨＲＤ陰性と判定、識別、または適用するステップをさらに含む。記載された方法のいくつかの実施形態では、方法は、腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての出力に基づいて、対象のゲノムプロファイルを生成するステップをさらに含む。いくつかの実施形態において、方法は、生成されたゲノムプロファイルに基づいて、抗がん剤を投与するステップ、または抗がん治療を対象に適用するステップをさらに含む。記載された方法のいくつかの実施形態では、腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての出力が、対象のゲノムプロファイルを生成するのに使用される。記載された方法のいくつかの実施形態では、腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての出力が、対象に対する提案された治療の決定を行う際に使用される。記載された方法のいくつかの実施形態では、腫瘍のＨＲＤ陽性またはＨＲＤ陰性としての出力が、対象に治療を適用または投与するのに使用される。

【0032】

記載された方法のいくつかの実施形態では、ＨＲＤモデルは機械学習モデルである。

【0033】

記載された方法のいくつかの実施形態では、対象は、がんを有するか、がんを有するリスクがあるか、またはがんを有する疑いがある。

【0034】

対象のがんを治療する方法であって、（ａ）上記の任意の方法に従って腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するステップ、（ｂ）がんの腫瘍がＨＲＤ陽性と評価された場合、治療有効量のＨＲＤ陽性腫瘍に有効な薬物を対象に投与するステップ、を含む方法が、本明細書にさらに記載される。いくつかの実施形態では、ＨＲＤ陽性腫瘍に有効な薬物は、白金系薬物またはＰＡＲＰ阻害剤である。いくつかの態様において、方法は、腫瘍がＨＲＤ陰性と評価された場合、白金系薬物でもＰＡＲＰ阻害剤でもない治療有効量の薬物を対象に投与するステップを含む。

【0035】

対象のがんの治療法を選択する方法であって、（ａ）上記の任意の方法に従ってＨＲＤ陽性またはＨＲＤ陰性としてがんの腫瘍を評価するステップ、（ｂ）がんがＨＲＤ陽性と評価された場合、ＨＲＤ陽性腫瘍に有効な療法を選択するステップ、を含む方法が、本明細書にさらに記載される。いくつかの態様では、方法は、腫瘍がＨＲＤ陰性と評価された場合、白金系薬物でもＰＡＲＰ阻害剤でもない治療法を選択するステップを含む。いくつかの実施形態では、ＨＲＤ陽性腫瘍に有効な治療法は、白金系薬物またはＰＡＲＰ阻害剤である。

【0036】

コンピュータシステムであって、１つまたは複数のプロセッサと、メモリと、１つまたは複数のプログラムであって、１つまたは複数のプログラムがメモリに記憶され、１つまたは複数のプロセッサによって実行されるように構成され、１つまたは複数のプログラムが、請求項１から６５のいずれか一項に記載の方法を実行するための指示を含む、１つまたは複数のプログラムと、を含む、コンピュータシステムが、本明細書にさらに記載される。

【0037】

１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、１つまたは複数のプログラムが命令を含み、命令が、電子デバイスの１つ以上のプロセッサによって実行されると、電子デバイスに、上述の方法のいずれか１つを実行させる、非一時的コンピュータ可読記憶媒体が、本明細書にさらに記載される。

【図面の簡単な説明】

【0038】

【図1】対象におけるがんの腫瘍をＨＲＤ陽性（ＨＲＤ（＋））またはＨＲＤ陰性（ＨＲＤ（－））として分類するための例示的なプロセスを示す。

【0039】

【図2】ＡＮＯＶＡ、ランダムフォレスト、勾配ブースティング（例えば、ＸＧＢ）、およびカイ二乗などの異なる特徴の重要度のメトリックを使用して評価され得る異なるタイプの特徴を示す。

【0040】

【図3A】例示的な特徴重複分析を示す。

【0041】

【図3B】例示的な特徴重複分析を示す。

【0042】

【図4】例示的な反復特徴選択プロセスを示す。

【0043】

【図5】例示的な反復特徴選択プロセスから得られたモデルのパフォーマンスの例示的なプロットを示す。

【0044】

【図6A】モデルのパフォーマンスを評価および調整するために使用され得る例示的な交差検証プロセスを示す。

【0045】

【図6B】複数のデータ要素の等しいサイズのサブセットへの例示的な分割を示す。

【0046】

【図7】対象のがんの腫瘍をＨＲＤ陽性（ＨＲＤ（＋））またはＨＲＤ陰性（ＨＲＤ（－））として分類するように構成されたＨＲＤ分類モデルを訓練および操作するための例示的な方法を示す。

【0047】

【図8】ロジスティック回帰、勾配ブースティング（例えば、ＸＧＢ）、およびランダムフォレストを使用した異なる機械学習モデルに対するＨＲＤスコア分布の例を示す。

【0048】

【図9】ＨＲＤおよび／またはＢＲＣＡ１／２の変異の状態によって層別化されたサンプルにおける例示的なモデルのパフォーマンスを示す。左側は、「ＨＲＤ野生型：真」（Ｎ＝２４５，０５０；図の右側の－１）、「ＨＲＤ野生型：偽」（Ｎ＝３０，７９９；図の右側の０）および真のＨＲＤ陽性サンプル（二対立遺伝子ＢＲＣＡ変異；Ｎ＝６，８５１；図の右側の１）と呼ばれるサンプル腫瘍のプールを示す。

【0049】

【図10】異なる腫瘍タイプ（乳がん、卵巣がん、膵がんおよび前立腺がん）における図９のサブセットからの例示的なモデルのパフォーマンスを示す。各腫瘍タイプについて、サブセットは、図９のサブセット－１、０、および１に対応する（すなわち、各がんに対するＨＲＤ野生型：真、ＨＲＤ野生型：偽、および二対立遺伝子ＢＲＣＡ変異）。

【0050】

【図11】本明細書に記載の特定の方法で使用することができる、一実施形態によるコンピューティングデバイスの例を示す。

【発明を実施するための形態】

【0051】

発明の詳細な説明
相同組換え欠損（ＨＲＤ）モデル（例えば、分類モデル）を訓練するための１つまたは複数の特徴の重要度のメトリックを使用して、複数の特徴のサブセットを識別するコンピュータ実装方法が本明細書に記載される。モデルは、対象における腫瘍のゲノムに関連する複数の特徴のサブセットに関する試験サンプルデータを受け取り、腫瘍をＨＲＤ陽性である可能性が高い、またはＨＲＤ陰性である可能性が高いものと識別（例えば、分類する）するように構成される。ＨＲＤ陽性である可能性が高い（ＨＲＤ（＋））、またはＨＲＤ陰性である可能性が高い（ＨＲＤ（－））ものとして、腫瘍、例えば、前立腺がん、卵巣がん、乳がん、結腸直腸がん、ＮＳＣＬＣ、または膵臓がんの腫瘍を識別する（例えば、分類する）方法を、本明細書においてさらに記載する。ＨＲＤ陽性（またはＨＲＤ陽性である可能性が高い）またはＨＲＤ陰性（またはＨＲＤ陰性である可能性が高い）としての腫瘍の識別に基づいて、膵臓がん、前立腺がん、卵巣がん、乳がん、非小細胞肺がん（ＮＳＣＬＣ）、または結腸直腸がん（ＣＲＣ）などであるがこれらに限定されないがんを治療する方法を、本明細書においてさらに記載する。

【0052】

特徴のサブセットを選択すると、モデルのオーバーフィッティングを減らすことができる。オーバーフィッティングは、モデルのスケーラビリティを低減し、モデルがモデルを訓練するために使用されるデータの範囲外にあるシナリオを無視するので、不正確な分類（例えば、不正確なＨＲＤの状態）をもたらす可能性があるため、問題がある。さらに、より高い特徴の重要度を有する特徴のサブセットを選択することによって、分類モデルは、より少ない訓練データで訓練することができ、より少ない入力データを必要とする。これは、より効率的なモデリングプロセスを可能にするだけでなく、モデルからのより広い範囲のサンプルからのより正確な分類も可能にする。さらに、入力される特徴の低減されたセットを有するモデルは、訓練するため、また分類タスクを実行するために、より少ない処理パワーを必要とし得る。したがって、特徴選択プロセスは、処理速度を改善し、コンピュータメモリおよび処理パワーの効率的な使用を可能にすることによって、コンピュータシステムの機能を改善する。さらに、特定の派生するコピー数の特徴および／または短い変異体の特徴から選択することによって、訓練されたモデルは、以前の方法と比較して、腫瘍をＨＲＤ陽性またはＨＲＤ陰性として識別するときに、より高い効率および精度（例えば、偽陽性／偽陰性が少ない）をもたらす。ヘテロ接合性の喪失、テロメア対立遺伝子不均衡、および大規模の移行などのＨＲＤを評価する以前の方法は、本明細書に記載されている派生するコピー数の特徴および／または短い変異体の特徴の評価と比較して、ノイズおよび誤差にさらされやすい。腫瘍の適切な識別は、患者（対象）の治療を適切に選択できることに不可欠である。

【0053】

腫瘍形成は、部分的には、細胞のゲノムの体細胞変化の蓄積によって推進される。これらの変化の中には、多くのがんにおいて一般的であるコピー数の変化が含まれる。相同修復欠損経路に関与する特定の遺伝子における機能の喪失、機能の獲得、または遺伝子調節変異は、これらのコピー数の変化の蓄積をもたらし得る。しかしながら、ＢＲＣＡ１およびＢＲＣＡ２などの特定の重要な遺伝子における変異以外に、ＨＲＤ陽性状態をもたらす変異の正確な組み合わせは不明である。いくつかの腫瘍は、非ゲノム手段を介して、例えばＢＲＣＡ１などのＨＲＤ関連遺伝子のプロモータメチル化を介してＨＲＤ陽性となる。ＨＲＤ関連遺伝子を配列決定する代わりに、代替的なアプローチは、特定のコピー数の変化の特徴、またはヘテロ接合性の喪失の特徴などのＨＲＤの結果を識別および評価することである。しかしながら、ＨＲＤ陽性ゲノムおよびＨＲＤ陰性ゲノムの両方がコピー数の変化を示し得るが、ＨＲＤの存在を示す正確な値および特徴の組み合わせは不明である。

【0054】

したがって、一態様では、本発明の方法は、ＨＲＤ分類器プロセスを訓練および操作するために使用することができる特徴のサブセットを（より大きな複数の潜在的な特徴から）選択することに関する。別の態様では、本発明の方法は、一般に、コピー数の収差に対応する特徴などの特徴の評価に、少なくとも部分的に基づいて、ＨＲＤ陽性である可能性が高い（ＨＲＤ（＋））またはＨＲＤ陰性である可能性が高い（ＨＲＤ（－））腫瘍を識別（例えば、分類）する手段に関する。この分類は、一般に、腫瘍がＨＲＤ陽性またはＨＲＤ陰性である可能性の評価に基づく。この評価に基づいて、ＨＲＤ分類器プロセスはさらに、腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすことができる。このように分類することおよび／またはみなすことは、腫瘍を有する患者の診断の値として使用され得る。

【0055】

腫瘍をＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものと分類するための既存の方法は、特に野生型ＢＲＣＡ１およびＢＲＣＡ２を有するＨＲＤ陽性腫瘍（「ＢＲＣＡｎｅｓｓ」プロファイルを有する腫瘍、すなわち、関連するＢＲＣＡ１／２変異を有せずにＢＲＣＡ１／２変異腫瘍との類似性を示す腫瘍として記載されることがある）では、信頼性が低い、または不正確であることが多い。あるいは、すべての変異が、ＢＲＣＡ１／２の変化などの病原性変異でさえ、ＨＲＤをもたらすわけではない（例えば、いくつかの変異は、単一対立遺伝子の同乗者であり得る）。がんに関連する相同修復欠損は、腫瘍細胞ゲノムを傷つけ、コピー数（すなわち、コピー数の異常）および／またはインデルパターンの検出可能な変化をもたらす。これらのコピー数の異常および／またはインデルパターンの特定のパターン、分布および形態を使用して、腫瘍をＨＲＤ表現型クラスに分類することができる。本願は、様々な実施形態において、ＨＲＤ陽性腫瘍を識別するために使用することができる他の潜在的特徴（本明細書で他の様式で記載されるような基本的特徴など）の中から、これらのパターン（すなわち、コピー数の特徴）およびインデルパターン（すなわち、短い変異体の特徴）に関連する特徴を選択する手段を提供する。

【0056】

本願はさらに、腫瘍を、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものとしてより確実に識別（例えば、分類する）することができ、任意選択で腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすことができる、対象におけるがん性腫瘍のゲノムに関連する１つまたは複数のデータ特徴（１つまたは複数のコピー数の特徴および／または１つまたは複数の短い変異体の特徴など）に基づく具体的に構成されたモデルを提供する。対象におけるがんの腫瘍の識別（例えば、分類）は、腫瘍がどのように治療されるべきかを示す。例えば、セグメントサイズの特徴、シーケンシングリードの特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、振動コピー数のセグメントの数の特徴、およびセグメントマイナーアリル頻度の特徴のうちの１つまたは複数を含む、少なくとも１つまたは複数のコピー数の特徴を含む試験データを使用する訓練されたＨＲＤモデルを使用して、試験用腫瘍をＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いと識別し（例えば、分類する）、また、尤度スコアに基づいて腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすことができる。コピー数の特徴のこれらのカテゴリは、この識別に有用であると識別されている。特定のカテゴリの短い変異体の特徴がまた、この識別に有用であると識別されており、これには、例えば、ミクロ相同性または反復領域特徴における欠失（例えば、少なくとも５塩基対）および／または２つ以上の短い変異体の特徴を組み込んだ変異シグネチャが含まれるが、これらに限定されない。

【0057】

これらのコピー数の特徴の１つもしくは複数、および／またはこれらの短い変異体の特徴の１つもしくは複数と組み合わせて、他の特徴または測定が記載された方法において有用であり得、これらには、限定されないが、対象の年齢、がんの型、がんの病期、腫瘍の純度、腫瘍のゲノム倍数性、および／またはヘテロ接合性の腫瘍ゲノム喪失などの特定の基本的特徴が含まれる。

【0058】

対象におけるがんの腫瘍が、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高い、またはＨＲＤ陽性またはＨＲＤ陰性とみなされるものと識別され（例えば、分類され）たら、それを適切な治療で治療することができる。例えば、腫瘍がＨＲＤ陽性である可能性が高いと識別された場合、それはＨＲＤ陽性がんに有効な薬物、例えば白金系薬物またはＰＡＲＰ阻害剤で治療することができる。

【0059】

定義
本明細書において使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」は、文脈上他に明確に指示されない限り、複数の言及を含む。

【0060】

本明細書における値またはパラメータ「約」への言及は、その値またはパラメータ自体を対象とする変動を含む（および説明する）。例えば、「約Ｘ」という記載は、「Ｘ」という記載を含む。

【0061】

「がん」および「がん性」という用語は、典型的には調節されていない細胞の増殖を特徴とする哺乳動物における生理学的状態を指すまたは記載する。この定義には、良性および悪性のがんが含まれる。「早期がん」または「初期の腫瘍」とは、浸潤性でも転移性でもないか、ステージ０、１または２のがんとして分類されるがんを意味する。がんの例には、肺がん（例えば、非小細胞肺がん（ＮＳＣＬＣ））、腎臓がん（例えば、腎尿路上皮癌）、膀胱がん（例えば、膀胱尿路上皮（移行細胞）癌）、乳がん、結腸直腸がん（例えば、結腸腺癌）、卵巣がん、膵臓がん、胃癌、食道がん、中皮腫、黒色腫（例えば、皮膚黒色腫）、頭頸部がん（例えば、頭頸部扁平上皮癌（ＨＮＳＣＣ））、甲状腺がん、肉腫（例えば、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫（ｏｓｔｅｏｇｅｎｉｃｓａｒｃｏｍａ）、骨肉腫（ｏｓｔｅｏｓａｒｃｏｍａ）、軟骨肉腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ血管内皮肉腫、平滑筋肉腫または横紋筋肉腫）、前立腺がん、神経膠芽腫、子宮頸がん、胸腺癌、白血病（例えば、急性リンパ性白血病（ＡＬＬ）、急性骨髄球性白血病（ＡＭＬ）、慢性骨髄性白血病（ＣＭＬ）、慢性好酸球性白血病、または慢性リンパ性白血病（ＣＬＬ））、リンパ腫（例えば、ホジキンリンパ腫または非ホジキンリンパ腫（ＮＨＬ））、骨髄腫（例えば、多発性骨髄腫（ＭＭ））、菌状息肉症、メルケル細胞がん、血液悪性腫瘍、血液組織のがん、Ｂ細胞がん、気管支がん、胃がん、脳または中枢神経系がん、末梢神経系がん、子宮または子宮内膜がん、口腔または咽頭のがん、肝臓がん、精巣がん、胆道がん、小腸または虫垂がん、唾液腺がん、副腎がん、腺がん、炎症性筋線維芽細胞性腫瘍、消化管間質腫瘍（ＧＩＳＴ）、結腸がん、骨髄異形成症候群（ＭＤＳ）、骨髄増殖性障害（ＭＰＤ）、真性赤血球増加症、脊索腫、滑膜腫、ユーイング腫瘍、扁平上皮癌、基底細胞癌、腺癌、汗腺癌、脂腺癌、乳頭状癌、乳頭状腺癌、髄様癌、気管支原性癌、腎細胞癌、肝癌、胆管癌、絨毛癌、セミノーマ、胚性癌、ウィルムス腫瘍、膀胱癌、上皮癌、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣腫、髄膜腫、血管芽腫、聴神経腫瘍、乏突起膠腫、髄膜腫、神経芽腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型Ｂ細胞リンパ腫、マントル細胞リンパ腫、肝細胞癌、甲状腺がん、小細胞がん、本態性血小板血症、無色素性骨髄性化生、好酸球増加症候群、全身性肥満細胞症、よく知られている好酸球増加症、神経内分泌がん、またはカルチノイド腫瘍が含まれるが、これらに限定されない。

【0062】

本明細書で使用される腫瘍「腫瘍」は、悪性または良性にかかわらず、すべての新生物細胞の成長および増殖、ならびにすべての前がん性およびがん性の細胞および組織を指す。「がん」、「がん性」、および「腫瘍」という用語は、本明細書で言及される場合、相互に排他的ではない。

【0063】

「個体」、「患者」、および「対象」という用語は同義的に使用され、哺乳動物を指し、ヒト、ウシ、ウマ、ネコ、イヌ、げっ歯類、または霊長類が含まれるが、これらに限定されない。いくつかの実施形態では、対象は、ヒトである。

【0064】

本明細書で使用される場合、「有効量」または「治療有効量」という用語は、特定の障害、状態または疾患を治療する、例えばその症状の１つまたは複数を改善、緩和、軽減、および／または遅延させるのに十分な化合物、薬物、または組成物の量を指す。がんに関して、有効量は、対象に存在するがん細胞の数を、数および／またはサイズにおいて減少する、および／またはがん細胞の成長速度を遅くするのに充分な量を含む。いくつかの実施形態では、有効量は、疾患の再発を予防する、または遅らせるのに充分な量である。がんの場合、化合物または組成物の有効量は、（ｉ）がん細胞の数を減少させる；（ｉｉ）がん細胞の増殖を阻害する、遅延させる、ある程度遅らせる、好ましくは停止させる；（ｉｉｉ）がんの発生および／または再発を予防または遅延させる；および／または（ｉｖ）がんに関連する１つまたは複数の症状をある程度軽減することができる。

【0065】

本明細書で使用される場合、「治療」または「治療すること」は、臨床結果を含む有益なまたは所望の結果を得るためのアプローチである。本発明の目的のために、有益なまたは所望の臨床結果には、以下のうちの１つ以上が含まれるが、これらに限定されない：疾患に起因する１つ以上の症候の緩和、疾患の程度の縮小、疾患の安定化（例えば、疾患の悪化の予防または遅延）、疾患の蔓延（例えば転移）の予防または遅延、疾患の再発の予防または遅延、疾患の進行の遅延または遅延、疾患状態の改善、疾患の寛解（部分的または全体）の提供、疾患の処置に必要な１つ以上の他の薬物の用量の減少、疾患の進行の遅延、生活の質の向上、および／または生存期間の延長。がんに関して、対象に存在するがん細胞の数は、数および／またはサイズが減少し得る、および／またはがん細胞の成長速度が遅くなり得る。いくつかの実施形態では、治療は、疾患の再発を予防または遅延させ得る。がんの場合、治療は以下の通りであり得る：（ｉ）がん細胞の数を減少させる；（ｉｉ）がん細胞の増殖を阻害する、遅延させる、ある程度遅らせる、好ましくは停止させる；（ｉｉｉ）がんの発生および／または再発を予防または遅延させる；および／または（ｉｖ）がんに関連する１つ以上の症状をある程度軽減する。本発明の方法は、これらの治療の態様のいずれか１つ以上を企図する。

【0066】

本明細書に記載される本発明の態様および変形は、態様および変形「からなる」および／または「から本質的になる」を含むことが理解される。

【0067】

値の範囲が提供される場合、その範囲の上限と下限との間の各介在値、およびその状態範囲内の任意の他の記載値または介在値は、本開示の範囲内に含まれることを理解されたい。記載された範囲が上限または下限を含む場合、それらの含まれる限界のいずれかを除外した範囲も本開示に含まれる。

【0068】

本明細書において使用されるセクションの見出しは、編成のみを目的としており、記載された主題を限定するものと解釈されるべきではない。説明は、当業者が本発明を製造および使用することを可能にするために提示され、特許出願およびその要件の文脈で提供される。記載された実施形態に対する様々な変更は、当業者にとって容易に明らかであり、本明細書の一般的な原理は、他の実施形態に適用されてもよい。したがって、本発明は、示された実施形態に限定されることを意図するものではなく、本明細書に記載された原理および特徴と一致する最も広い範囲が与えられるべきである。

【0069】

図は、様々な実施形態にかかるプロセスを示している。例示的なプロセスでは、いくつかのブロックは、任意に組み合わされ、いくつかのブロックの順序は、任意に変更され、いくつかのブロックは、任意に省略される。いくつかの例では、例示的なプロセスと組み合わせて追加のステップが実行されることができる。したがって、図示されている（および以下により詳細に説明されている）動作は、本質的に例示的なものであり、したがって、限定するものとみなされるべきではない。

【0070】

本明細書で参照されるすべての刊行物、特許、および特許出願の開示は、それぞれ、参照によりその全体が本明細書に援用される。参照により援用される参考文献が本開示と矛盾する限り、本開示が優先するものとする。

【0071】

特徴の選択
本明細書で別途説明されるものを含む複数の特徴から開始して、複数の特徴のサブセットは、１つまたは複数の特徴の重要度のメトリックを使用して識別することができる。一般に、特徴の重要度のメトリックは、個々の特徴の評価を可能にし、どの特徴がＨＲＤの評価に最も関連し得るかを判定する。例示的な特徴の重要度のメトリックには、勾配ブースティング（例えばＸＧＢｏｏｓｔ、ＸＧＢとしても知られる）、分散分析（ＡＮＯＶＡ）、カイ二乗分析、およびランダムフォレストが含まれるが、これらに限定されない。個々の特徴は、これらの特徴の重要度のメトリックに基づいて値を割り当てることができ、特徴は、ＨＲＤモデルのパフォーマンスに対する寄与の増加に基づいて、重要度が増加して割り当てられる（例えば、腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類する際のモデルのパフォーマンスの改善）。次いで、閾値を超える特徴（複数の特徴のうちの中央値を超える特徴など）などのより重要な特徴を、ＨＲＤモデルを訓練または実行することに使用するために、選択することができる。特徴のサブセットが識別されると、特徴のサブセットを使用して、ＨＲＤモデル（例えば、分類モデル）を訓練することができる。次いで、ＨＲＤモデルを使用して、腫瘍から得られ、特徴を選択している間に識別された特徴の少なくとも一部を含む試験データを使用して、対象の腫瘍を識別（例えば、分類する）することができる。

【0072】

より高い特徴の重要度を有する特徴のこのサブセットを選択することにより、モデルは、より少ない訓練データで訓練することができ、より少ない入力データを必要とするようになり、したがってメモリの使用量および管理を改善する。さらに、入力される特徴の低減されたセットを有するモデルは、訓練するため、また識別（例えば、分類）タスクを実行するために、より少ない処理パワーを必要とする。したがって、特徴選択プロセスは、処理速度を改善し、コンピュータメモリおよび処理パワーの効率的な使用を可能にすることによって、コンピュータシステムの機能を改善する。

【0073】

図１は、いくつかの実施形態による、複数の特徴のサブセットを識別するためのブロックを含む、対象におけるがんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するための例示的なプロセスを示す。いくつかの実施形態において、プロセス１００は、例えば、ソフトウェアプログラムを実装する１つ以上の電子デバイスを使用して実行される。一部の実施例では、プロセス１００は、クライアント－サーバシステムを使用して実行され、プロセス１００のブロックは、サーバとクライアントデバイスとの間で、任意の方法で分けられる。他の実施例では、プロセス１００は、クライアントデバイスのみ、または複数のクライアントデバイスのみを使用して実行される。プロセス１００では、いくつかのブロックが、任意選択的に結合され、いくつかのブロックの順序が、任意選択的に変更され、いくつかのブロックが、任意選択的に省略される。一部の実施例では、プロセス１００と組み合わせて追加のステップを実行することができる。したがって、図示されている（および以下により詳細に説明されている）動作は、本質的に例示的なものであり、したがって、限定するものとみなされるべきではない。

【0074】

図１のブロック１０２において、例示的なシステム（例えば、１つまたは複数の電子デバイス）は、複数の特徴を受信する。いくつかの実施形態では、システムは、複数のデータ要素を含むデータセットを受信する。データ要素は、複数の特徴および関連する分類標識（例えば、ＨＲＤ陽性またはＨＲＤ陰性）に関するデータを含むことができる。例えば、データ要素は、特定の対象由来のサンプルの複数の特徴に関するデータ、およびサンプルがＨＲＤ陽性およびＨＲＤ陰性であるかどうかを示す関連する分類標識を含むことができる。特徴は、基本的特徴、コピー数の特徴、および／または短い変異体の特徴（例えば、塩基置換またはインデル（挿入または欠失）に対応する特徴）として分類された特徴を含むことができる。基本的特徴には、限定するものではないが、データが得られた患者の年齢、がんの型、がんの病期、腫瘍の純度、腫瘍のゲノム倍数性、およびヘテロ接合性の腫瘍ゲノム喪失（ヘテロ接合性喪失下のゲノムの割合など）に関する特徴が含まれ得る。コピー数の特徴には、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、振動コピー数のセグメントの数、およびセグメンマイナーアリル頻度の特徴が含まれ得るが、これらに限定されない。短い変異体の特徴は、例えば、ホモポリマーまたは反復領域特徴での欠失（例えば、少なくとも５塩基対）、および／または２つ以上の短い変異体の特徴を組み込んだ変異シグネチャを含み得るが、これらに限定されない。いくつかの実施形態では、特徴のうちの１つまたは複数はビニングされた特徴であり、値は、２分位数、３分位数、４分位数、５分位数、６分位数、７分位数、または任意の他の適切なビニング構成などのビンにソートされる。

【0075】

図１のブロック１０４において、システムおよび方法は、複数の特徴（すなわち、基本的特徴、コピー数の特徴、および／または短い変異体の特徴）から特徴のサブセットを選択する。選択された特徴のサブセットは、対象のがんの腫瘍を、ＨＲＤ陽性またはＨＲＤ陰性として分類するための比較的高い予測値を有し得る。いくつかの実施形態では、比較的低い予測値を有するおよび／または冗長である特徴は、ブロック１０４において特徴のサブセットから除外することができる。いくつかの実施形態では、特徴の予測値は、特徴の重要度のメトリックを使用して定量化することができる。いくつかの実施形態では、特徴の重要度のメトリックを適用して、複数の特徴の各特徴の特徴重要度スコアを取得することができる。特徴の特徴重要度スコアは、特徴と分類標識との統計的相関から得られる（例えば、ＨＲＤ陽性またはＨＲＤ陰性）。特徴と分類標識との間の統計的相関は、特徴が分類タスクに対してどれだけの予測値を有するかに基づいて解釈され得る。換言すれば、例えば、特徴と分類標識との間のより高い統計的相関を有することによって、より高い特徴重要度スコアを達成することができ、これは、特徴が分類標識を予測する際に、より重要な役割を果たすことを示すことができる。より高い特徴の重要度を有する特徴を使用することにより、分類モデルをより少ないデータで訓練することができ、したがって訓練プロセスに多大な程度の有効性をもたらし、コンピュータリソースに対する制約（例えば、メモリ使用量、処理速度など）を少なくする。例えば、入力される特徴の低減されたセットを有するモデルは、訓練するため、また分類タスクを実行するために、より少数の処理リソースを必要とし得る。最後に、入力される特徴のセットが低減したモデルは、より少ないノイズを示し、オーバートレーニングを回避することができる。したがって、特徴選択プロセスは、訓練プロセスの全体的な有効性を改善し、処理速度を改善し、コンピュータメモリおよび処理パワーの効率的な使用を可能にすることによって、コンピュータシステムの機能化を改善する。

【0076】

いくつかの実施形態では、システムは、ブロック１０４ａによって示されるように、特徴重複分析を実行することによって、図１のブロック１０２で受信された複数の特徴から特徴のサブセットを選択する。ブロック１０４ａにおいて、各々の特徴の重要度のメトリックは、ブロック１０２から受信した複数の特徴の特徴重要度スコアを計算するために使用される。各々の特徴の重要度のメトリックについて、システムは、それらの特徴重要度スコアに従って複数の特徴をランク付けすることができる。したがって、システムは、複数の特徴重要度特徴に対応する複数の特徴ランキングを取得することができる。そのとき、システムは、複数のランキングに基づいて特徴のサブセットを識別することができる。特徴をランク付けし、特徴のサブセットを識別するプロセスは、以下でより詳細に説明される。

【0077】

いくつかの実施形態では、異なるタイプの特徴は、異なる特徴の重要度のメトリックを使用して評価することができる。図２は、いくつかの実施形態による、ブロック１０４ａにおいて複数の特徴をランク付けするために使用され得る複数の特徴の重要度のメトリックを示す。図示された例示的な特徴の重要度のメトリックは、ＡＮＯＶＡ、ランダムフォレスト、勾配ブースティング（例えば、ＸＧＢ）、およびカイ二乗を含む。さらに、ＡＮＯＶＡを使用して、複数の特徴の数値的な特徴を評価し、数値的な特徴のランキングを得ることができる。カイ二乗を使用して、複数の特徴のカテゴリ的な特徴を評価し、カテゴリ的な特徴のランキングを得ることができる。ランダムフォレストを使用して、複数の特徴のすべてを評価し、すべての特徴をランク付けすることができる。同様に、勾配ブースティング（ＸＧＢなど）を使用して、複数の特徴のすべてを評価し、すべての特徴をランク付けすることができる。

【0078】

いくつかの実施形態では、特徴の重要度のメトリックは、分散分析（ＡＮＯＶＡ）モデルを含む。ＡＮＯＶＡは、数値入力変数が分類対象変数と比較されるときに群間で等しい分散があるかどうか（すなわち、ＨＲＤ陽性またはＨＲＤ陰性）を評価する。群間に等しい分散がある場合、特徴は応答に影響せず、モデルの訓練のために考慮されなくてもよい。分散の値（ｆ値）に基づいて、特徴をランク付けすることができ、例えば中央値を超える特徴を、モデルの有用な特徴として選択することができる。

【0079】

いくつかの実施形態では、特徴の重要度のメトリックは、カイ二乗分析を含む。特徴選択のために、カイ二乗解析は、予想される計数（すなわち、特徴が出力から独立している場合）と観測された計数とがどれほど互いに逸脱するかを検証する。特徴のより高いカイ二乗値は、それが応答変数にいっそう依存し、したがってより重要であることを示す。カイ二乗解析を使用して、特徴をランク付けすることができ、例えば中央値を上回る特徴を、モデルの有用な特徴として選択することができる。

【0080】

いくつかの実施形態では、特徴の重要度のメトリックは、ランダムフォレスト分析を含む。特徴選択の間、各ツリーについて、データの袋外の部分の予測精度が記録される。このプロセスは、各予測子変数を並べ替えた後に繰り返される。次いで、２つの精度の差がすべてのツリーにわたって平均化され、標準誤差によって正規化される。

【0081】

いくつかの実施形態では、特徴の重要度のメトリックは、勾配ブースティング分析（例えば、ｅｘｔｒｅｍｅｇｒａｄｉｅｎｔｂｏｏｓｔｉｎｇ（ＸＧＢ）分析）を含む。ＸＧＢなどの勾配ブースティングは、モデルに対する各特徴の利得の寄与を検証する。ブーストされたツリーモデルでは、各ツリーの各特徴の各利得が考慮され、次いで特徴寄与ごとの平均が評価される。次いで、最も高いパーセンテージの誘因特徴を選択することができる。

【0082】

図１のブロック１０４ａにおいて、複数の特徴が特徴の重要度のメトリックに従ってランク付けされた後、システムは、複数のランキングを使用して特徴のサブセットを選択する。特徴のサブセットを選択する例示的なプロセスは、以下の図３Ａおよび図３Ｂでさらに詳細に説明される。

【0083】

図３Ａは、いくつかの実施形態による例示的な特徴重複分析を示す。図２で上述したように、複数の特徴をランク付けするために、複数の特徴の重要度のメトリックが使用されてもよい。図３Ａの例では、例示的なプロセスは、特徴をランク付けするためにＡＮＯＶＡ、ランダムフォレスト、および勾配ブースティング分析を使用する。しかしながら、当業者は、当技術分野で知られている他の学習技術も同様に使用することができることを理解するであろう。しかしながら、図３Ａの例示的な目的のために、ＡＮＯＶＡ特徴ランキング３０２は、最高ランクの特徴として特徴１、４、５、および８を含む。ランダムフォレストランキング３０４は、最高ランクの特徴として特徴８、２、３、および１を含む。勾配ブースティングランキング３０６は、最高ランクの特徴として特徴６、１、４、および２を含む。いくつかの実施形態では、他の特徴の重要度のメトリックを使用して、特徴を評価することができる。いくつかの実施形態では、特徴を評価するために、３つよりも少ないまたは多いメトリックを使用することができる。いくつかの実施形態では、４つを超える特徴が上位の特徴とみなされてもよく、例えば、５つを超える、６つを超える、７つを超える、８つを超える、９つを超える、１０を超える、１１を超える、１２を超える、１３を超える、１４を超える、１５を超える、１６を超える、１７を超える、１８を超える、１９を超える、２０を超える、２１を超える、２２を超える、２３を超える、２４を超える、または２５を超える特徴のいずれかが上位の特徴とみなされてもよい。

【0084】

特徴がランク付けされると、システムは、特徴重複分析を実行して、１つまたは複数のメトリックが上位の特徴として識別された特徴を判定することができる。図３Ａの例では、特徴重複分析３０８は、特徴１を、ＡＮＯＶＡ特徴ランキング３０２、ランダムフォレストランキング３０４、および勾配ブースティングランキング３０６において識別された上位の特徴として識別する。特徴重複分析３０８はまた、特徴２、４、および８を、２つのメトリックによって識別された上位の特徴として識別する。いくつかの実施形態では、特徴重複分析３０８は、すべてのメトリックによって上位と識別された特徴を出力することによって、特徴のサブセットを出力することができる。いくつかの実施形態では、特徴重複分析３０８は、１つまたは複数のメトリックによって上位であると識別された特徴を出力することによって、特徴のサブセットを出力することができる。いくつかの実施形態では、特徴重複分析３０８は、グラフに表されてもよい。いくつかの実施形態では、特徴重複分析３０８は、特徴のサブセットを含むリストを出力することができる。

【0085】

図３Ｂは、いくつかの実施形態による、対象のがんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するために使用される特徴の特徴選択プロセスの例示的な出力３１０を示す。特徴の重要度ランキング３１２がグラフで示されており、各グラフは、特定の特徴の重要度のメトリックによる特徴のランキングを示している。各グラフ（ＡＮＯＶＡ、ランダムフォレスト、および勾配ブースティング）において、各ドットは特徴を表し、そのｙ軸の値は、特徴の重要度のメトリックによって計算されたその特徴の重要度に対応する。図３Ｂの例では、特徴重複分析３１４は、各特徴の重要度のメトリックに従って上位の特徴を含むことができる。図示のように、特徴重複分析は、メトリックのすべておよび／またはメトリックの一部によって高くランク付けされた特徴を識別することができる。

【0086】

図１に戻ると、いくつかの実施形態では、システムおよび方法は、プロセス１０４ａに加えて、またはプロセス１０４ａの代わりに、反復特徴選択プロセス１０４ｂを使用して複数の特徴のサブセットを判定することができる。ブロック１０４ｂで、システムは、図４で後述するように、１つまたは複数の特徴の重要度のメトリック（例えば、勾配ブースティング）を使用して特徴を評価し、次いで反復特徴選択プロセスを実行して特徴セットを徐々に拡張する。

【0087】

図４は、いくつかの実施形態による、図１のブロック１０４ｂによって使用され得る反復特徴選択プロセスを示す。ブロック４０２において、システムは、複数の特徴（例えば、図１のブロック１０２で受信された複数の特徴）を有するデータセットを受信する。

【0088】

図４のブロック４０４において、システムは、ブロック４０２において受信された特徴を、１つまたは複数の特徴の重要度のメトリック（例えば、勾配ブースティング）を使用して評価する。次いで、システムは、それらの対応する特徴の重要度のメトリックのスコアに従って特徴をランク付けすることができる。

【0089】

図４のブロック４０８において、システムおよび方法は、新しい特徴セットを取得する。最初の反復では、システムは、ブロック４０４によって判定された最高ランクの特徴を特徴セットに含めることによって、新しい特徴セットを取得することができる。後続の反復では、システムは、新しい特徴セットを取得するために、ブロック４０４によって判定された次の最高ランクの特徴を追加することによって既存の特徴セットを拡張することができる。システムは、新しい特徴セットに基づいて訓練データセットをさらに取得する。訓練データセットは、複数のデータ要素を含むことができ、各データ要素は、新しい特徴セットおよび対応する分類標識（例えば、ＨＲＤ陽性またはＨＲＤ陰性）に関連するデータを含む。例えば、データ要素は、サンプルからの新しい特徴セットの特徴およびサンプルの対応する分類標識（例えば、ＨＲＤ陽性またはＨＲＤ陰性）に関するデータを含むことができる。

【0090】

図４のブロック４１０において、システムおよび方法は、ブロック４０８からの訓練データセットを使用して新しい分類モデルを訓練および評価する。システムは、モデルの訓練および評価で使用された特徴のリストに関連してモデルのパフォーマンスを記録する。いくつかの実施形態では、分類モデルの訓練および評価は、図６Ａおよび図６Ｂによって以下でさらに説明するように、交差検証方法を使用して実行することができる。いくつかの実施形態では、分類モデルの訓練および評価は、ブロック４０８からのデータセットの別個のサブセットを使用することができる。

【0091】

いくつかの実施形態では、図４のブロック４０８および４１０は、ブロック４０２で受信されたすべての特徴がデータに含まれるまで反復される。各反復において、ブロック４０８は、次の最高ランクの特徴をデータセットに追加する。例えば、第１の反復では、ブロック４０８は、最高ランクの特徴を含む特徴セットと、対応する訓練セットとを出力する。第２の反復では、ブロック４０８は、２つの最高ランクの特徴を含む特徴セットと、対応する訓練セットとを出力する。第３の反復において、ブロック４０８は、３つの最高ランクの特徴を含む特徴セットおよび対応する訓練セットを出力する、などである。各反復において、ブロック４１０はそのとき、ブロック４０６からの訓練データセットを使用して、新しい分類モデルを訓練および評価する。システムは、条件が満たされるまでブロック４０８および４１０を繰り返す。いくつかの実施形態では、条件はブロック４１２を含み、システムは、追加される特徴がこれ以上ないと判定する（例えば、ブロック４０２で受信されたすべての特徴は、ブロック４１０で分類モデルを訓練および評価するために使用されるデータセットに含まれる）。いくつかの実施形態では、条件は、新しい分類モデルのパフォーマンスが閾値を超えるという判定を含む。この反復プロセスにより、システムは、ブロック４０２で受信されたすべての特徴が分類モデルを訓練し、パフォーマンスを評価するために使用されるまで、最高ランクの特徴、上位２つの最高ランクの特徴、上位３つの最高ランクの特徴などで訓練および評価されたときに分類モデルのパフォーマンスを記録することができる。記録されたパフォーマンスデータの例を図５に示す。

【0092】

図４のブロック４１４において、システムおよび方法は、ブロック４１０からの記録されたモデルのパフォーマンスを利用して、分類モデルのパフォーマンスを最適化する特徴の最小サブセットを判定する。いくつかの実施形態では、システムは、特徴の最小サブセットを判定して、追加の特徴の追加がモデルのパフォーマンスを実質的に改善しないようにすることができる。いくつかの実施形態では、システムは、分類モデルのパフォーマンスが特定の所定の閾値を超えるように、特徴の最小サブセットを決定することができる。特徴のサブセットは、ブロック４１４において出力される。

【0093】

図５は、図４のブロック４１０で判定されたモデルのパフォーマンスの例示的なプロットを示す。図５に示す例では、横軸は、分類モデルの訓練および評価に使用されるデータに含まれる上位の特徴の数を示す。縦軸はモデルのパフォーマンスを示す。いくつかの実施形態では、モデルのパフォーマンスは、受信者動作特性（ＲＯＣ）曲線下面積（ＡＵＣ）を使用して評価することができる。図５の例では、ブロック４１６において、２６個の最高ランクの特徴が特徴のサブセットとして出力されると判定することができるが、各々の追加された特徴によるモデルのパフォーマンスの相対的な増加の変化に基づいて、より少ない数の特徴を選択することができる。

【0094】

図６Ａは、いくつかの実施形態による、モデルのパフォーマンスを評価するために使用され得る例示的な交差検証プロセスを示す。いくつかの実施形態では、図４のブロック４１０でプロセス６００を使用して、モデルのパフォーマンスを評価することができる。ブロック６０２において、システムは、複数のデータ要素を受信することができる。複数のデータ要素の各々は、１つまたは複数の特徴および既知の分類標識を含むことができる。ブロック６０４において、システムは、ブロック６０２からの複数のデータ要素を、ｎ個の等しいサイズのサブセットに分ける。ブロック６０６において、システムは、ブロック６０４からのサブセットのうちの１つを「ホールドアウト」セットとしてホールドアウトする。ブロック６０８において、システムは、ホールドアウトされていないすべてのデータ要素（例えば、「ホールドアウト」セットではないｎ－１個のサブセットからのデータ要素）についてモデルを訓練する。ブロック６１０において、システムは、ブロック６０８からのモデルへの入力として設定された「ホールドアウト」からのデータ要素の特徴を使用する。モデルは、データ要素の特徴に対応する複数の予測分類標識を生成する。次いで、予測された分類標識は、「ホールドアウト」セットの既知の分類標識と比較され、「ホールドアウト」セットに対するモデルのパフォーマンスを評価する。ブロック６０６、６０８、および６１０は、ブロック６０４からのすべてのｎ個のサブセットが「ホールドアウト」セットとして一度使用されるまで反復される。すなわち、ブロック６０６、６０８、および６１０はｎ回反復され、異なるサブセットが各反復の「ホールドアウト」セットとして使用される。最後に、ステップ６１２において、ブロック６１０のすべてのｎ回の反復からのパフォーマンスが平均されて、パフォーマンスの平均が出力される。

【0095】

図６Ｂは、いくつかの実施形態による、複数のデータ要素の５つの等しいサイズのサブセットへの例示的な分割を示す。図６Ｂは、ｎ＝５である図６Ａの例であり得る。複数のデータ要素６２２は、図６Ａのブロック６０２からの複数のデータ要素の例であり得る。図６Ｂの例では、複数のデータ要素６２２は、セット１、セット２、セット３、セット４、セット５に分けられる。反復１の６２３では、複数のデータ要素６２２において、セット１が、ブロック６０６によって説明されるような「ホールドアウト」のデータセットとして使用され得る。モデルは、ブロック６０８によって説明されるように、セット２、セット３、セット４、およびセット５で訓練され得る。次いで、モデルのパフォーマンスを「ホールドアウト」データセット１で評価することができる。次いで、このプロセスはさらに４回繰り返される。反復２の６２４では、セット２が「ホールドアウト」セットであり、モデルはセット１、セット３、セット４、およびセット５で訓練され、モデルのパフォーマンスはセット２で評価される。反復３の６２６では、セット３が「ホールドアウト」セットであり、モデルはセット１、セット２、セット４、およびセット５で訓練され、モデルのパフォーマンスはセット３で評価される。反復４の６２８では、セット４が「ホールドアウト」セットであり、モデルはセット１、セット２、セット３、およびセット５で訓練され、モデルのパフォーマンスはセット４で評価される。反復５の６３０では、セット５が「ホールドアウト」セットであり、モデルはセット１、セット２、セット３、およびセット４で訓練され、モデルのパフォーマンスはセット５で評価される。図６Ｂの例では、平均のパフォーマンスは、反復１の６２２、反復２の６２４、反復３の６２６、反復４の６２８、および反復５の６３０からのモデルのパフォーマンスの平均であり得る。

【0096】

図１に戻ると、ブロック１０６において、システムは、ブロック１０４の特徴の選択によって判定されるように、選択された特徴のサブセットを取得する。分類モデル１０８は、選択された特徴１０６および標識された訓練データ１１０からの情報を使用して訓練される。いくつかの実施形態では、特徴の選択１０４に使用されるデータセットは、標識訓練データ１１０である同じデータセットである。いくつかの実施形態では、特徴の選択１０４に使用されるデータセットは、標識訓練データ１１０とは異なるデータセットである。分類モデルを訓練するプロセスは、以下のセクションおよび図７で後述される。分類モデル１０８が訓練されると、対象のがんの未知の腫瘍由来の特徴（例えば、ブロック１０２で受信されたデータに含まれず、既知の分類標識に関連付けられていないデータ要素）をモデル１０８に入力して、対象のがんの腫瘍がＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものかどうかを予測することができる。

【0097】

データの特徴
識別されている（例えば、分類されている）腫瘍からの試験サンプルを対象から得ることができる。試験サンプルに関連する基本的特徴、コピー数の特徴、および／または短い変異体の特徴などの特徴は、ＨＲＤ分類モデルの入力として使用することができる１つまたは複数の特徴を含む。ＨＲＤ分類モデルは、ＨＲＤ陽性サンプル（腫瘍サンプルなど）に関連するＨＲＤ陽性データ、およびＨＲＤ陰性サンプル（腫瘍サンプルなど）に関連するＨＲＤ陰性データからの対応する特徴（例えば、基本的特徴、コピー数の特徴、および／または短い変異体の特徴）に基づいて訓練される。特徴は、ＨＲＤに関連する「ＢＲＣＡｎｅｓｓ」プロファイルを有する腫瘍を識別するのを助けることができるＨＲＤの機能的読み出しとして、使用することができる。そのようなＨＲＤ陽性表現型を有する腫瘍は、ＨＲＤ陰性表現型では有効ではない（または、えてして有効ではない）特定の薬物療法の適切な候補であり得る。

【0098】

コピー数の特徴は、セグメントサイズの特徴、シーケンシングリードの数の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数を含み得るが、これらに限定されない。Ｍａｃｉｎｔｙｒｅｅｔａｌ．，Ｃｏｐｙ－ｎｕｍｂｅｒｓｉｇｎａｔｕｒｅｓａｎｄｍｕｔａｔｉｏｎａｌｐｒｏｃｅｓｓｅｓｉｎｏｖａｒｉａｎｃａｒｃｉｎｏｍａ，Ｎａｔ．Ｇｅｎｅｔ．２０１８Ｓｅｐ；５０（９）：１２６２－１２７０を参照されたい。混合モデル化を適用して、各特徴分布をガウス分布の混合またはポアソン分布の混合に分け、浮動またはバイナリ成分特徴を達成することができる。コピー数の特徴はまた、セグメントにおける生殖系列ＳＮＰのＡおよびＢのアリル頻度に基づくセグメントマイナーアリル頻度の特徴を含み得る。

【0099】

いくつかの実施形態では、ＨＲＤモデル（例えば、ＨＲＤ分類器モデル）は、入力として使用されるよりも多くの特徴を使用して訓練することができる。例えば、ＨＲＤ分類モデルは、それぞれがＨＲＤ陽性腫瘍および／またはＨＲＤ陰性腫瘍に関連する、とある数の特徴を含むＨＲＤ陽性データおよびＨＲＤ陰性データに基づいて、訓練することができる。そのとき、ＨＲＤ分類モデルに入力されるデータは、より少ない特徴を含むことができる。ＨＲＤ分類器モデルは、一例では、訓練されたＨＲＤ分類器モデルに入力されるサンプルデータから省略されたデータの特徴の重みを調整することができる。さらに、ＨＲＤ分類器モデルは、追加のデータの特徴（例えば、それぞれ本明細書に記載されるような、ヘテロ接合性および／または１つもしくは複数の短い変異体の特徴のゲノム全体の喪失の尺度など）を使用して訓練することができるが、いくつかの実施形態では、データの入力は、対象のがんに関連する腫瘍のゲノムに関連する１つまたは複数のコピー数の特徴のみを含み得る。

【0100】

コピー数の特徴、ｇＬＯＨおよび腫瘍ゲノム倍数性の測定値を含む基本的特徴、および／または短い変異体の特徴を含むゲノムデータの特徴を得るために、腫瘍の少なくとも１つのゲノムの少なくとも一部の配列決定によって、配列決定データが収集される。絶対コピー数または相対コピー数およびセグメント化は、その後、シャローホールゲノムシーケンシング（ｓＷＧＳ）データなどの全ゲノムシーケンシングデータから導き出すことができる。円形バイナリセグメンテーション（ＣＢＳ）はまた、ＤＮＡマイクロアレイデータに基づいてゲノムを一定の総コピー数のセグメントに分けるために使用され得、そこからコピー数の特徴が導出され得る。あるいは、絶対コピー数およびセグメント化は、エクソームシーケンシング（ＥＳ）またはＳＮＰアレイを含むがこれらに限定されない、当技術分野で公知の任意の技術から誘導することができる。コピー数の特徴の分布は、ＷＧＳデータなどの絶対コピー数データから計算することができる。混合モデル化を適用して、各特徴分布をガウス分布の混合またはポアソン分布の混合に分け、浮動またはバイナリ成分特徴を達成することができる。したがって、ＨＲＤ分類モデルを訓練するために、または訓練されたＨＲＤ分類モデルに入力されるために使用される特定の「コピー数の特徴」は、その構成要素の特徴として表現される。例えば、セグメントサイズのコピー数の特徴の場合、ｚ個の構成要素に分けられると、そのとき、ＨＲＤ分類モデルを訓練するために使用され得る、またはＨＲＤ分類モデルを実行するために使用され得るｚ個の可能な特徴が存在する。言い換えれば、特定の試験サンプルについて、「セグメントサイズ」のカテゴリでの「コピー数の特徴」（セグメントサイズがｚ個の構成要素に分けられたと仮定する）は、ＨＲＤ分類モデルを訓練するためであるか実行するためであるかにかかわらず、ｚ個の可能な入力を有する。ｚが３に等しい場合、３つのセグメントサイズの特徴のうちの少なくとも１つがＨＲＤ分類モデルに入力され得る、すなわち、ｓｅｇｓｉｚｅ１、ｓｅｇｓｉｚｅ２、またはｓｅｇｓｉｚｅ３である。最適なモデルのパフォーマンスは、部分的には、特徴の各々の特定のカテゴリに対して選択された構成要素の特徴の数に依存し得る。しかしながら、特徴の特定のカテゴリは、任意の適切な数の構成要素の特徴に分けることができ、必ずしも特定の確率分布に対応するものではない。したがって、モデルは、パフォーマンスが最適ではなくても、より多くのまたはより少ない数の構成要素の特徴で良好に機能し、効率的に検証することができる。

【0101】

コピー数の特徴を導出するとき、絶対コピー数データは、最初に、コピー数変異イベントをコールするベースラインレベルを判定するために、通常のデータセットとのマッチングによって正規化され得る。正常のパネルは、典型的には、健康な組織サンプルに由来する（腫瘍が由来するのと同じ個体に由来し得る）。健康な組織サンプルの分析は、本明細書に記載されているコピー数の特徴を導き出すためのベースラインコピー数を設定することを可能にする。

【0102】

記載されたコピー数の特徴のいくつかは、ゲノムのサブ領域にわたって評価され得る。例えば、特定のコピー数の特徴は、ゲノムのセントロメア部分にわたって評価され得る。別の例において、コピー数の特徴がゲノムのテロメア部分にわたって評価され得る。またさらなる例では、コピー数の特徴は、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価され得る。例示的な方法では、ゲノムのテロメアおよびセントロメア部分を定めるために、ｈｇ１９などのヒト参照配列ゲノムを使用して、各染色体アームの開始部および終了部を定めることができる。次に、特定のアームの長さを２で除算して中間点を定める。コピー数の特徴について解析された各領域について、この中間点のセントロメア側にあるセグメントを、セントロメアセグメントと定める。この中間点のテロメア側にあるセグメントをテロメアセグメントと定める。セグメントが中間点（例えば、中間点のセントロメア側で始まりテロメア側で終わるセグメント）に及ぶ場合、そのセグメントは、セントロメアおよびテロメアの両方と呼称され得て、テロメアおよびセントロメアの両方のコピー数の特徴の評価に使用され得る。したがって、本明細書に記載されるデータの特徴のいずれも、必要に応じて、ゲノムのテロメア領域、ゲノムのセントロメア領域、またはゲノムのテロメア領域とセントロメア領域の両方にわたって評価され得る。

【0103】

コピー数のモデル化は、評価されているゲノムの推定された基本倍数性によって影響され得る。基本倍数性がより高く推定される場合、浮動小数点のコピー数の特徴が右にシフトされ得、ゆがんだ成分スコアおよび最終的に誤った分類をもたらし得る。コピー数のデータを基本倍数性に正規化することは、コピー数のデータを、評価されているゲノムの平均倍数性で割ることを含む。したがって、記載されたコピー数の特徴のいずれかは、倍数性正規化コピー数データに由来し得、絶対コピー数は、腫瘍のゲノムの平均倍数性に対して正規化されている。平均倍数性を計算するための例示的な方法は、サンプルのすべてのセグメントについて加重平均コピー数を取得することである。平均倍数性を計算する例示的な方法については、Ｓｕｎｅｔａｌ．，Ａｃｏｍｐｕｔａｔｉｏｎａｌａｐｐｒｏａｃｈｔｏｄｉｓｔｉｎｇｕｉｓｈｓｏｍａｔｉｃｖｓ．ｇｅｒｍｌｉｎｅｏｒｉｇｉｎｏｆｇｅｎｏｍｉｃａｌｔｅｒａｔｉｏｎｓｆｒｏｍｄｅｅｐｓｅｑｕｅｎｃｉｎｇｏｆｃａｎｃｅｒｓｐｅｃｉｍｅｎｓｗｉｔｈｏｕｔａｍａｔｃｈｅｄｎｏｒｍａｌ，ＰＬｏＳＣｏｍｐｕｔ．Ｂｉｏｌ．２０１８Ｆｅｂ７；１４（２）：ｅ１００５９６５を参照されたい。

【0104】

本明細書に記載の特徴は、いくつかの実施形態では、ビニングされた特徴であってもよい。特徴ビニングは、特定の値を特定のカテゴリビンに編成することを含む。例えば、０から１０の範囲の値を有する特徴の場合、四分位ビニングは、０から１０までのこれらの値の各々を４つのビンのうちの１つに編成することができ、より低い値はより低いビンに編成することができ、より高い値はより高いビンに編成することができる。いくつかの実施形態では、ビニングは監視されていない。いくつかの実施形態では、ビニングは監視される。いくつかの実施形態では、ビニングは、等しい幅のビニングである。等しい幅のビニングでは、ビンはほぼ同じ幅の範囲を有する。例えば、１～８の値を有する特徴の場合、４つのビンを有する等しい幅のビニングは、１および２の値を第１のビンに編成し、３および４の値を第２のビンに編成し、以下同様である。いくつかの実施形態では、ビニングは等しい頻度のビニングである。等しい頻度のビニングでは、ビンは、各ビンがほぼ同じ数の値を有するように編成され、値はビンにほぼ等しく分配される。例えば、より低い値がはるかに高い頻度である１から１０の値を有する特徴の場合、ビニングは、第１のビンに１、第２のビンに２、および第３のビンに３から１０を編成することができる。ビニングは、２分位数、３分位数、４分位数、５分位数、６分位数、７分位数、または任意の他の適切なビニング編成であり得る。

【0105】

記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、セグメントサイズの特徴を含む。セグメントサイズは、ゲノム全体にわたる各コピー数のセグメントのゲノム塩基における長さに由来する。例えば、セグメントがｘのコピー数を有し、次のセグメントがｙのコピー数を有する場合、コピー数ｘを有するセグメントの長さおよびコピー数ｙを有するセグメントの長さは、セグメントサイズのコピー数のカテゴリの因子である。例示的な実施形態では、セグメントサイズの分布は、１０個の構成要素の特徴に分けられる。より小さい番号のセグメントサイズの特徴は、より小さいセグメントサイズ（例えば、ｓｅｇｓｉｚｅ１）を表し、一方でより大きい番号のセグメントサイズの特徴は、より大きいセグメントサイズ（例えば、ｓｅｇｓｉｚｅ１０）を表す。いくつかの実施形態では、セグメントサイズの分布は、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、または少なくとも１１の構成要素の特徴など、少なくとも５つの構成要素の特徴に分けられる。いくつかの実施形態では、セグメントサイズの分布は、５、６、７、８、９、１０、または１１個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、セグメントサイズの特徴は、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、ゲノム全体にわたって評価される。いくつかの実施形態において、セグメントサイズの特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。

【0106】

記載される方法のいずれかのいくつかの態様において、コピー数の特徴は、ｘメガベースあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、ｘは、約１メガベース（ＭＢ）～約１５０メガベースである。いくつかの実施形態において、ｘは、約１０ＭＢ、約２５ＭＢ、約５０ＭＢ、約１００ＭＢ、および約１５０ＭＢのいずれかである。１セクションあたりのブレークポイントの数は、ゲノムまたはゲノムの一部にわたる１セクションあたりのブレークポイントの数を表す。例えば、１０ＭＢあたりのブレークポイント数について、１０ＭＢの処理隣接ウィンドウ（または代替的に、スライドウィンドウ）がゲノム全体にわたって分析され、その後、スライディングウィンドウの各フレームについてのブレークポイントの数が評価され得る。このアプローチでは、隣接ウィンドウが使用されたが、ブレークポイント数を評価するのに適したスライドウィンドウまたはその他任意の技術が使用され得ることに留意されるべきである。それにもかかわらず、いくつかの例示的な実施形態では、１ｘメガベース当たりのブレークポイント数は、３つの構成要素の特徴に分けられる。より小さい番号のブレークポイント数の特徴は、より少ないブレークポイントを表し（例えば、１０ＭＢあたりのブレークポイント数：ｂｐ１０ＭＢ１の場合、１０ＭＢスライディングウィンドウの１フレームあたり、または１０ＭＢ処理隣接ウィンドウの１フレームあたりのブレークポイントが少ないことを示す）、一方、より大きい番号の特徴は、セクションあたりより多くのブレークポイント（例えば、１０ＭＢあたりのブレークポイント数ｂｐ１０ＭＢ３の場合、ｂｐ１０ＭＢ１などのより低い番号の特徴と比較して、１０ＭＢのスライディングウィンドウのフレームあたりのより多くのブレークポイントを示す）を表す。いくつかの実施形態では、ブレークポイント数の分布は、少なくとも３つまたは少なくとも４つの構成要素の特徴などの、少なくとも２つの構成要素の特徴に分けられる。いくつかの実施形態では、セクションあたりのブレークポイント数は、２、３、４、または５つの構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ゲノムのテロメアの部分にわたって評価される。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ゲノムのセントロメアの部分にわたって評価される。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ゲノム全体にわたって評価される。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴は、倍数性正規化コピー数データから導かれる。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。

【0107】

記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、ゲノムセグメントの配列決定から得られるシーケンシングリードの数の特徴を含む。特定のゲノムセグメントについて、この値は、配列決定されたセグメントにアラインメントする（すなわち、「カバー」）シーケンシングリードの平均数を指す。異常に高いコピー数を有するゲノムセグメントの場合、シーケンシングリードの数が増加する。対照的に、コピー数を失ったゲノムセグメント（ホモ接合欠失など）については、シーケンシングリードが少なくなる。シーケンシングリードの特徴は、リードの実際の数（分析された各セグメントに対するリードの平均など）またはシーケンシングリードのビンとして表現され得る。より低い番号のシーケンシングリードの特徴はより低い絶対シーケンシングリードを表し、一方、より高い番号のシーケンシングリードの特徴はより高い絶対シーケンシングリードを表す。いくつかの実施形態において、シーケンシングリードの特徴は、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、シーケンシングリードの特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、シーケンシングリードの特徴は、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、シーケンシングリードの特徴は、倍数性正規化データに由来する。いくつかの実施形態において、シーケンシングリードの特徴はビニングされた特徴である。いくつかの実施形態において、シーケンシングリードの数の特徴は、次世代配列決定（ＮＧＳ）からのリードの数の測定値である。いくつかの実施形態において、シーケンシングリードの数の特徴は、対照におけるそのゲノムセグメントに対するシーケンシングリードの数と比較した、腫瘍サンプルのゲノムセグメントに対するシーケンシングリードの比として表される。

【0108】

記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、絶対コピー数の特徴を含む。絶対コピー数は、各ゲノムセグメントについて計算され、値が割り当てられ得る。例えば、割り当てられた値は、０（ホモ接合性欠失を示す）、１（ヘテロ接合性欠失を示し得る）、２（正常なカウントであり得る）またはそれより多く（コピー数の増幅を示し得る）を含み得る。絶対コピー数の特徴は、実際のコピー数カウント（分析された各セグメントについてのコピー数の平均など）またはコピー数値のビンを表し得る。例えば、少なくとも６のコピー数は、セグメントについての高いコピー数を表すものとしてビニングされ得る。３～５のコピー数は、中程度に増加したコピー数を表すとしてビニングされ得る。１および２のコピー数は正常であり得、０のコピー数はホモ接合欠失としてビニングされ得る。低い番号の絶対コピー数の特徴は低い絶対コピー数を表し、高い番号の絶対コピー数の特徴は高い絶対コピー数を表す。いくつかの実施形態において、絶対コピー数は、３、４、５、６、７、８または９個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、絶対コピー数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、絶対コピー数の特徴が、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、絶対コピー数の特徴が、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、絶対コピー数の特徴は、倍数正規化データに由来する。いくつかの実施形態において、絶対コピー数の特徴は、ビニングされた特徴である。

【0109】

記載された方法のいずれかのいくつかの実施形態において、コピー数の特徴は、変化点コピー数の特徴を含む。変化点コピー数は、ゲノム全体にわたるゲノムセグメント間のコピー数の絶対的な差を指す。例えば、コピー数７および２でモデル化された隣接するセグメントは、５の絶対差を有する。例示的な実施形態では、変化点コピー数の分布は、７つの構成要素の特徴に分けられる。より低い番号の変化点コピー数の特徴は、コピー数変化のより小さい絶対的な差（例えば、変化点１）を表し、一方、より高い番号の特徴は、コピー数の変化のより大きい絶対差（例えば、変化点７）を表す。いくつかの実施形態では、変化点コピー数の分布は、少なくとも５つ、少なくとも６つ、少なくとも７つ、または少なくとも８つの構成要素の特徴など、少なくとも４つの構成要素の特徴に分けられる。いくつかの実施形態では、変化点コピー数は、３、４、５、６、７、８または９個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、変化点コピー数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、変化点コピー数の特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、変化点コピー数の特徴が、ゲノムのテロメア部分およびセントロメア部分の両方にわたって評価される。いくつかの実施形態において、変化点コピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。

【0110】

記載される方法のいずれかのいくつかの実施形態において、コピー数の特徴は、セグメントコピー数の特徴を含む。セグメントコピー数は、ゲノムまたはゲノムの一部にわたる各セグメントのコピー数から導かれる。例示的な実施形態では、セグメントコピー数の分布は、８つの構成要素の特徴に分けられる。より低い番号のセグメントコピー数の特徴は、より低いコピー数を表し（例えば、コピー数１は、０もしくは１、または０から１のコピー数レベルを表すことができる）、一方、より高い番号のコピー数の特徴は、より高いコピー数（例えば、コピー数８）を表す。いくつかの実施形態において、セグメントコピー数の分布は、少なくとも５つ、少なくとも６つ、少なくとも７つ、少なくとも８つまたは少なくとも９つの構成要素の特徴など、少なくとも４つの構成要素の特徴に分けられる。いくつかの実施形態において、セグメントコピー数の分布は、４、５、６、７、８、９または１０個の構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、セグメントコピー数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、ゲノム全体にわたって評価される。いくつかの実施形態において、セグメントコピー数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。

【0111】

記載される方法のいずれかのいくつかの態様において、コピー数の特徴は、染色体アームあたりのブレークポイント数の特徴を含む。例示的な実施形態において、染色体アームあたりのブレークポイント数の分布は、５つの構成要素の特徴に分けられる。より低い番号の染色体アームあたりのブレークポイント数の特徴は、アームあたりのより少ないブレークポイントを表し（例えば、ｂｐｃｈｒａｒｍ１）、一方、より高い番号の染色体アームあたりのブレークポイント数の特徴は、染色体アームあたりより多いブレークポイントを表す（例えば、ｂｐｃｈｒａｒｍ５）。いくつかの実施形態において、染色体アームあたりのブレークポイント数の分布は、少なくとも４つの構成要素の特徴、少なくとも５つの構成要素の特徴、少なくとも６つの構成要素の特徴または少なくとも７つの構成要素の特徴などの少なくとも３つの構成要素の特徴に分けられる。いくつかの実施形態において、染色体アームあたりのブレークポイント数の分布は、４つ、５つ、６つ、７つまたは８つの構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、染色体アームあたりのブレークポイント数は、倍数性正規化コピー数データから導かれる。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。

【0112】

いくつかの実施形態において、コピー数の特徴は、振動コピー数のセグメントの数（ｏｓＣＮ）の特徴を有するいくつかのセグメントを含む。振動コピー数のセグメントの数は、２つのコピー数の間で繰り返される交互のセグメントの数をカウントするゲノムまたはゲノムの一部の横断を表す。例示的な実施形態において、振動コピー数のセグメントの数の分布は、３つの構成要素の特徴に分けられる。より低い番号の振動コピー数のセグメントの数の特徴は、２つのコピー数の間におけるより少ない反復された変化を表し（例えば、ｏｓＣＮ１）、一方、より高い番号の振動コピー数のセグメントの数の特徴は、２つのコピー数の間におけるより多くの反復された変化を表す（例えば、ｏｓＣＮ３）。いくつかの実施形態において、振動コピー数のセグメントの数の分布は、少なくとも２つ、例えば、少なくとも３つ、または少なくとも４つの構成要素の特徴に分けられる。いくつかの実施形態において、振動コピー数のセグメントの数の分布は、２つ、３つ、４つまたは５つの構成要素の特徴のいずれかに分けられる。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴が、ゲノム全体にわたって評価される。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、倍数性正規化コピー数データに由来する。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。

【0113】

いくつかの実施形態において、コピー数の特徴は、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴を含む。ｓｅｇＭＡＦ特徴は、腫瘍ゲノムの平均のｓｅｇＭＡＦ、または中央値のｓｅｇＭＡＦのいずれかに由来し得る。ヘテロ接合アリル部位の正常なゲノムでは、各アリルの予想コピー数は１．０である。ＨＲＤは、アリルの完全な喪失（ヘテロ接合性の喪失）または一方のアリルの他方に対するコピー数の増加に関連する。したがって、ｓｅｇＭＡＦは、メジャーアリルに対するマイナーアリルの比を比較する、セグメントごとのゲノムの横断である。具体的には、各ヘテロ接合ＳＮＰをＡアリルおよびＢアリル頻度について分析する。マイナーアリルの頻度はマイナーアリル画分として取得される。平衡遺伝子座は約０．５：０．５の比を有し、マイナーアリル頻度は０．５である。ヘテロ接合性の喪失事象は、不均衡およびマイナーアリル頻度の約０．５未満へのゆがみをマイナーアリル画分について引き起こす。いくつかの実施形態において、ｓｅｇＭＡＦの特徴は、ゲノムのテロメア部分にわたって評価される。いくつかの実施形態において、ｓｅｇＭＡＦの特徴は、ゲノムのセントロメア部分にわたって評価される。いくつかの実施形態において、ｓｅｇＭＡＦの特徴は、ゲノム全体にわたって評価される。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。

【0114】

ＨＲＤ分類モデルは、複数のＨＲＤ陽性腫瘍の各ＨＲＤ陽性腫瘍について、ＨＲＤ陽性腫瘍に関連する１つまたは複数の特徴およびＨＲＤ陽性標識を含むＨＲＤ陽性データと、複数のＨＲＤ陰性訓練腫瘍の各ＨＲＤ陰性腫瘍について、ＨＲＤ陰性腫瘍に関連する１つまたは複数のコピー数の特徴およびＨＲＤ陰性標識を含むＨＲＤ陰性データとによって訓練される。ＨＲＤ分類モデルはまた、他の特徴または尺度に基づいて訓練されてもよい。したがって、これらの他の特徴または尺度を含む試験データを（１つまたはコピー数の特徴と組み合わせて含む）ＨＲＤ分類モデルに入力することができる。例えば、ヘテロ接合性のゲノム損失の尺度、および／または１つもしくは複数の短い変異体の特徴を含む基本的特徴をＨＲＤ分類モデルで（ＨＲＤ分類モデルを訓練するため、またはＨＲＤ分類モデルに入力される試験データとして）使用することができる。

【0115】

いくつかの実施形態では、基本的特徴は、腫瘍が得られた対象の年齢を含む。患者は、少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、少なくとも７５、または少なくとも８０才のいずれかを含む任意の年齢であり得る。年齢の特徴は、対象の整数の値であり得る。あるいは、年齢の特徴は、乳児、若年、小児、若年成人、または高齢者の対象のいずれかなどの定性的特徴であってもよい。いくつかの実施形態では、年齢の特徴はビニングされた特徴である。

【0116】

いくつかの実施形態では、基本的特徴はがんの型の特徴を含む。がんの型の特徴は、腫瘍の起源を指す。がんの型には、例えば、副腎、胆管、骨／軟部組織、乳房、結腸／直腸、食道、眼、頭頸部、腎臓、肝臓、肺、リンパ系、髄芽腫、中皮腫、骨髄系、神経系、神経内分泌、卵巣、膵臓、前立腺、皮膚、胃、精巣、胸腺、甲状腺、尿路、子宮、または外陰がんの１つが含まれ得る。いくつかの実施形態では、がんの型の特徴はビニングされた特徴である。

【0117】

いくつかの実施形態では、基本的特徴は、がんの病期の特徴を含む。がんの病期分類は、多くの場合、がんの型（例えば、膵臓がんの病期分類、前立腺がんの病期分類、乳がんの病期分類、卵巣がんの病期分類など）に基づくが、普遍的な病期分類システムも当技術分野で知られている。任意の適切ながん病期分類システムを使用してもよく、例えば、腫瘍の位置、細胞型、腫瘍のサイズ、腫瘍の広がりおよび分布、腫瘍の転移、および腫瘍のグレードに依存し得る。データの特徴として、がんの病期は、典型的には、より重症度の低い病期からより重症度の高い病期までの範囲として表される。例えば、４つの構成要素の特徴を含むがんの病期の特徴の場合、ステージ１は早期段階のがんを示し得、ステージ４は後期がんを示し得る。いくつかの実施形態では、がんの病期の特徴はビニングされた特徴である。

【0118】

ＨＲＤ陽性データおよびＨＲＤ陰性データは、通常、訓練データセット、検証データセット、および／または試験データセットに分けられる。訓練中、ＨＲＤ分類モデルには訓練セットのみが提供される。任意選択で、訓練セットはバランスされ得る。訓練されると、モデルは、検証セットに対するパフォーマンスによって検証され、調整され得る。モデルが検証セットに対して過適合を示す場合、訓練を調整し、繰り返すことができる。訓練されると、また任意選択的に検証された後、訓練されたモデルは、試験データセットを使用して評価され得る。

【0119】

ヘテロ接合性のゲノム喪失（ｇＬＯＨ）（例えば、ゲノム全体でのヘテロ接合性の喪失またはエクソーム全体でのヘテロ接合性の喪失）の尺度が、いくつかの実施形態において基本的特徴として含まれ得る。ゲノムの十分に大きな部分にわたる全エクソームシーケンシングまたは標的化シーケンシングは、ヘテロ接合性のゲノム損失の代理として解釈され得るので、ヘテロ接合性のゲノム損失を判定するために全ゲノムを分析する必要はない。いくつかの実施形態では、ｇＬＯＨは、連続数値特徴として符号化される。いくつかの実施形態では、例えば、ｇＬＯＨが所定の閾値より上または下である場合、ｇＬＯＨはカテゴリ特徴として符号化される。所定の閾値は、例えば、約１０％以上、約１２％以上、約１４％以上、または約１６％以上に設定されてもよい。所定の閾値は、例えば１６％程度に設定されてもよい。ｇＬＯＨは、例えば、Ｓｗｉｓｈｅｒｅｔａｌ．，Ｒｕｃａｐａｒｉｂｉｎｒｅｌａｐｓｅｄ，ｐｌａｔｉｎｕｍ－ｓｅｎｓｉｔｉｖｅｈｉｇｈ－ｇｒａｄｅｏｖａｒｉａｎｃａｒｃｉｎｏｍａ（ＡＲＩＥＬ２Ｐａｒｔ１）：ａｎｉｎｔｅｒｎａｔｉｏｎａｌ，ｍｕｌｔｉｃｅｎｔｅｒ，ｏｐｅｎ－ｌａｂｅｌ，ｐｈａｓｅ２ｔｒｉａｌ，ＬａｎｃｅｔＯｎｃｏｌｏｇｙ，ｖｏｌ．１８，ｎｏ．１，ｐｐ．７５－８７（２０１７）に記載の方法を用いて判定され得る。

【0120】

１つまたは複数の短い変異体の特徴を、ＨＲＤ分類モデルで（ＨＲＤ分類モデルを訓練するため、および／またはＨＲＤ分類モデルに入力される試験データとして）使用することができる。これらの短い変異体の特徴には、限定されないが、例えば、反復またはミクロ相同性領域の特徴における１つまたは複数の欠失（例えば、少なくとも５塩基対の欠失など）および／または２つもしくはそれを超える短い変異体の特徴を組み込んだ変異シグネチャが含まれ得る。これらの短い変異体の特徴は、例示的な方法において、腫瘍サンプルに対応する配列決定データを、コンセンサスなヒトゲノム配列（ｈｇ１９など）と比較することによって識別され得る。いくつかの実施形態では、短い変異体の特徴はビニングされた特徴である。

【0121】

複数の短い変異体の特徴を組み合わせて、変異シグネチャスコアとして表現することができる。例えば、１つまたは複数の短い変異体の特徴は、ＣＯＳＭＩＣがんデータベースからのものなどの変異のプロファイルを含み得る。一例では、１つまたは複数の短い変異体の特徴は、ＣＯＳＭＩＣがんデータベースのＣＯＳＭＩＣＩＤ６またはＣＯＳＭＩＣＩＤ８インデルシグネチャなどのインデルベースのシグネチャを含む。サンプルプロファイルは、例えば、ＮＮＭＦ方法論を使用して、これらのＣＯＳＭＩＣプロファイルにマッピングすることができる。別の例では、１つまたは複数の短い変異体の特徴は、ＣＯＳＭＩＣがんデータベースのＣＯＳＭＩＣＩＤ８を含む。さらに別の例では、１つまたは複数の短い変異体の特徴は、ＣＯＳＭＩＣがんデータベースのＳＢＳ３変異シグネチャを含む。例示的なＣＯＳＭＩＣＩＤシグネチャの概要については、Ａｌｅｘａｎｄｒｏｖｅｔａｌ．，Ｔｈｅｒｅｐｅｒｔｏｉｒｅｏｆｍｕｔａｔｉｏｎａｌｓｉｇｎａｔｕｒｅｓｉｎｈｕｍａｎｃａｎｃｅｒ，Ｎａｔｕｒｅ２０２０；５７８（７７９３）：９４－１０１を参照されたい。Ｆｏｒｂｅｓｅｔａｌ．，ＣＯＳＭＩＣ：ｍｉｎｉｎｇｃｏｍｐｌｅｔｅｃａｎｃｅｒｇｅｎｏｍｅｓｉｎｔｈｅＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ，Ｎｕｃ．ＡｃｉｄｓＲｅｓ．２０１１Ｊａｎ；３９：Ｄ９４５－Ｄ９５０も参照されたい。

【0122】

いくつかの実施形態では、１つまたは複数の短い変異体の特徴は、ミクロ相同性または反復領域特徴の欠失を含む。いくつかの実施形態において、欠失は、少なくとも１塩基対である。いくつかの実施形態において、欠失は、少なくとも５塩基対である。ミクロ相同性領域における欠失は、相同組換えの非存在下で起こるミクロ相同性媒介末端結合（ＭＭＥＪ）の特徴的な結果である。このプロセスでは、ゲノムでの二本鎖切断の修復を誘導するために、短い類似領域（ミクロ相同性）が使用される。これらの欠失を識別させる特性は、欠失配列の３’末端が欠失の上流の状況と類似性を共有することである。したがって、ミクロ相同性領域における欠失の特徴は、この挙動を示す欠失の数の尺度であり、また、ミクロ相同性の長さ（すなわち、より長い長さを有する多数の欠失対、より短い長さを有するより少ない欠失）に基づき得る。

【0123】

例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴およびセグメントサイズの特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。試験データは、ｘメガベース特徴あたりのブレークポイント数の特徴、変化点コピー数の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0124】

別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴およびｘメガベースあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0125】

別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴および変化点コピー数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0126】

別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0127】

別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0128】

別の例示的な実施形態において、試験データは、セグメントマイナーアリル頻度の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、セグメントマイナーアリル頻度の特徴は、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントサイズの特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0129】

別の例示的な実施形態において、試験データは、セグメントサイズの特徴およびｘメガベースあたりのブレークポイント数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0130】

別の例示的な実施形態において、試験データは、セグメントサイズの特徴および変化点コピー数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴の特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0131】

別の例示的な実施形態において、試験データは、セグメントサイズの特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、セグメントコピー数は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0132】

別の例示的な実施形態において、試験データは、セグメントサイズの特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0133】

別の例示的な実施形態において、試験データは、セグメントサイズの特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態では、セグメントサイズの特徴はビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0134】

別の例示的な実施形態では、試験データは、ｘメガベースあたりのブレークポイント数の特徴および変化点コピー数の特徴を含む。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、セグメントコピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0135】

別の例示的な実施形態では、試験データは、ｘメガベースあたりのブレークポイント数の特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、変化点コピー数の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0136】

別の例示的な実施形態では、試験データは、ｘメガベースあたりのブレークポイント数の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0137】

別の例示的な実施形態では、試験データは、ｘメガベースあたりのブレークポイント数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、ｘメガベースあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、変化点コピー数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0138】

別の例示的な実施形態では、試験データは、変化点コピー数の特徴およびセグメントコピー数の特徴を含む。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴の特徴、染色体アームあたりのブレークポイント数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0139】

別の例示的な実施形態において、試験データは、変化点コピー数の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態では、変化点数の特徴は、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、セグメントコピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0140】

別の例示的な実施形態において、試験データは、変化点コピー数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態では、変化点コピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、セグメントコピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0141】

別の例示的な実施形態において、試験データは、セグメントコピー数の特徴および染色体アームあたりのブレークポイント数の特徴を含む。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、および振動コピー数のセグメントの数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0142】

別の例示的な実施形態において、試験データは、セグメントコピー数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、セグメントコピー数の特徴は、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、および染色体アームあたりのブレークポイント数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0143】

別の例示的な実施形態では、試験データは、染色体アームあたりのブレークポイント数の特徴および振動コピー数のセグメントの数の特徴を含む。いくつかの実施形態において、染色体アームあたりのブレークポイント数の特徴が、ビニングされた特徴である。いくつかの実施形態において、振動コピー数のセグメントの数の特徴は、ビニングされた特徴である。試験データは、セグメントマイナーアリル頻度（ｓｅｇＭＡＦ）の特徴、シーケンシングリードの数の特徴、絶対コピー数の特徴、セグメントサイズの特徴、ｘメガベースあたりのブレークポイント数の特徴、変化点コピー数の特徴、およびセグメントコピー数の特徴のうちの少なくとも１つをさらに含み得る。試験データは、ｇＬＯＨの尺度および／または１つもしくは複数の短い変異体の特徴をさらに含み得る。試験データは、試験データが得られた対象の年齢、がんの型の特徴、がんの病期の特徴、腫瘍純度の特徴、および腫瘍ゲノム倍数性の特徴の１つまたは複数をさらに含み得る。

【0144】

ＨＲＤモデル
対象のがんの腫瘍は、腫瘍をＨＲＤ陽性（またはＨＲＤ陽性である可能性が高い）またはＨＲＤ陰性（またはＨＲＤ陰性である可能性が高い）として分類するように構成された、訓練されたＨＲＤ分類モデルを使用して分類される。ＨＲＤ分類モデルは、複数のＨＲＤ陽性腫瘍の各ＨＲＤ陽性腫瘍について、ＨＲＤ陽性腫瘍に関連する１つまたは複数のデータ特徴（例えば、他の可能な特徴の中でも、１つまたは複数のコピー数の特徴および／または１つまたは複数の短い変異体の特徴）、およびＨＲＤ陽性標識を含むＨＲＤ陽性データを使用して訓練される。ＨＲＤ分類モデルは、さらに、複数のＨＲＤ陰性腫瘍の各ＨＲＤ陰性腫瘍について、ＨＲＤ陰性腫瘍に関連する１つまたは複数のデータ特徴（例えば、他の可能な特徴の中でも、１つまたは複数のコピー数の特徴および／または１つまたは複数の短い変異体の特徴）、およびＨＲＤ陰性標識を含むＨＲＤ陰性データを使用して訓練される。対象の腫瘍のゲノムに関連する１つまたは複数のデータ特徴（例えば、他の可能な特徴の中でも、１つまたは複数のコピー数の特徴および／または１つまたは複数の短い変異体の特徴）を含む試験データを、訓練されたＨＲＤ分類モデルに入力し、次いで、試験データに基づいて腫瘍をＨＲＤ陽性（またはＨＲＤ陽性である可能性が高い）またはＨＲＤ陰性（またはＨＲＤ陰性である可能性が高い）として分類する。

【0145】

本明細書に記載のモデルは、１つまたは複数の機械学習モデル、１つまたは複数の非機械学習モデル、またはそれらの任意の組み合わせを含むことができる。本明細書に記載の機械学習モデルは、経験を通じておよびデータの使用によって自動的に改善する任意のコンピュータアルゴリズムを含む。機械学習モデルは、教師ありモデル、教師なしモデル、半教師ありモデル、自己教師ありモデルなどを含むことができる。例示的な機械学習モデルには、線形回帰、ロジスティック回帰、決定木、ＳＶＭ、ナイーブベイズ、ニューラルネットワーク、Ｋ平均、分散分析（ＡＮＯＶＡ）、カイ二乗分析、ランダムフォレスト、次元削減アルゴリズム、および勾配ブースティングアルゴリズム（ＸＧＢなど）が含まれるが、これらに限定されない。非機械学習モデルは、必ずしも訓練および再訓練を必要としない任意のコンピュータアルゴリズムを含むことができる。

【0146】

ＨＲＤ分類器は、勾配ブースティングモデルなどの確率的分類器であってもよい。確率的分類器は、ＨＲＤ陽性尤度スコアまたはＨＲＤ陰性尤度スコアを出力することなどによって、腫瘍がＨＲＤ陽性またはＨＲＤ陰性である確率を計算するように構成することができる。ＨＲＤ分類モデルから出力された確率に基づいて、腫瘍はＨＲＤ陽性またはＨＲＤ陰性であるとみなすことができる。任意選択で、例えば、腫瘍がＨＲＤ陽性である確率も腫瘍がＨＲＤ陰性である確率も所定の確率閾値を超えない場合、腫瘍は曖昧とみなし得る。ＨＲＤ陽性データおよびＨＲＤ陰性データは、本明細書に記載のコピー数の特徴および／または短い変異体の特徴を含み得る。

【0147】

ＨＲＤ陰性データは、特定のＨＲＤ関連遺伝子に野生型アリル（すなわち、ＨＲＤに関連しないアリル）を有するゲノムを含み得る。例えば、いくつかの実施形態では、ＨＲＤ陰性データは、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されない、ＨＲＤに関連する遺伝子の１つまたは複数の野生型アリルを有するゲノムに関連するデータを含む。いくつかの実施形態では、ＨＲＤ陰性データは、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されない、ＨＲＤに関連する遺伝子の１つまたは複数のプロモータメチル化データを含む。いくつかの実施形態では、ＨＲＤ陰性データは、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されない、ＨＲＤに関連する遺伝子の１つまたは複数のＲＮＡ発現データを含む。いくつかの実施形態では、ＨＲＤ陰性データは、白金系薬物（例えば、化学療法）および／またはＰＡＲＰ阻害剤に耐性があることが分かった腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、ＨＲＤ陰性データは、以前にＨＲＤ陰性と分類された腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、ＨＲＤ陰性データは、少なくとも部分的に、コンセンサスなヒトゲノム配列またはその一部に由来する。

【0148】

ＨＲＤ陽性データは、特定のＨＲＤ関連遺伝子においてＨＲＤ関連アリルを有するゲノムに関連するデータを含み得る。例えば、いくつかの実施形態では、ＨＲＤ陽性データは、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌ、特にその二対立遺伝子変異を含むがこれらに限定されない、ＨＲＤに関連する遺伝子の１つまたは複数の変異を有するゲノムに関連するデータを含む。いくつかの実施形態では、ＨＲＤ陽性データは、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されない、ＨＲＤに関連する遺伝子の１つまたは複数のプロモータメチル化データを含む。いくつかの実施形態では、ＨＲＤ陽性データは、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されない、ＨＲＤに関連する遺伝子の１つまたは複数のＲＮＡ発現データを含む。いくつかの実施形態では、ＨＲＤ陽性データは、白金系薬物および／またはＰＡＲＰ阻害剤に感受性があることが分かった腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、ＨＲＤ陽性データは、以前にＨＲＤ陽性と分類された腫瘍に関連するゲノムに関連するデータを含む。いくつかの実施形態では、ＨＲＤ陽性データは、ＨＲＤに関連する二対立遺伝子ＢＲＣＡ１およびＢＲＣＡ２変異を有する腫瘍に関連するデータを含む。

【0149】

ＨＲＤ陽性データは、ＨＲＤ陰性データとバランスをとることができる。例えば、不均衡な訓練データセットでは、ＨＲＤ陽性訓練腫瘍の数がＨＲＤ陰性腫瘍の数を上回り（またはその逆）得る。データのバランスをとることにより、１つのラベルへ標識のバイアスを回避するのに十分な数の各標識をモデルが有することが保証される。バランスがとれている場合、ＨＲＤ陽性腫瘍の数またはＨＲＤ陰性腫瘍の数は、それらの間の比が所望のレベル（約１：１または任意の他の所望の比など）になるように調整される。バランスのとれたデータセットを使用して、ＨＲＤ分類器を訓練し、次いで、ＨＲＤ陽性腫瘍およびＨＲＤ陰性腫瘍を含む試験データセットに対して試験することができる。

【0150】

ＨＲＤ分類器を訓練するために使用される腫瘍はそれぞれ、ＨＲＤ陽性標識またはＨＲＤ陰性標識を含む。任意の適切な方法論を使用して、腫瘍を（例えば、腫瘍にメタデータタグを適用して）ＨＲＤ陽性またはＨＲＤ陰性として計算で標識することができる。ＨＲＤ陽性標識は、ＨＲＤ関連遺伝子の１つ、例えば、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されないＨＲＤに関連する遺伝子の１つの変化、特にその二対立遺伝子変化の存在によって割り当てられ得る。ＢＲＣＡ１およびＢＲＣＡ２の一方または両方における変異は、ＨＲＤ陽性、特に二対立遺伝子ＢＲＣＡ１／ＢＲＣＡ２変異を特に示す。腫瘍はまた、臨床歴に基づいてＨＲＤ陽性として標識され得る。例えば、腫瘍がＰＡＲＰ阻害剤または白金系薬物レジメンに感受性であった場合、腫瘍はＨＲＤ陽性である可能性がより高い。ＨＲＤ陰性標識は、ＨＲＤ関連遺伝子の１つ、例えば、ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、および／またはＲＡＤ４５Ｌを含むがこれらに限定されないＨＲＤに関連する遺伝子の１つの変化、特にその二対立遺伝子変化の非存在に基づいて割り当てられ得る。ＨＲＤ関連遺伝子の変異は、遺伝子配列と参照ゲノム、例えばコンセンサスなヒトゲノム配列、例えばｈｇ１９との比較によって検出され得る。同様に、腫瘍はまた、臨床歴に基づいてＨＲＤ陰性として標識され得る。例えば、腫瘍がＰＡＲＰ阻害剤または白金系薬物レジメンに耐性がある場合、腫瘍はＨＲＤ陰性である可能性がより高い。ＨＲＤ陽性腫瘍は、何回かの治療後にこれらの薬物に対する耐性を生じ得るので、これは、腫瘍がＰＡＲＰ阻害剤または白金系薬物レジメンによる治療前に治療ナイーブであった場合に特に当てはまる。各腫瘍はＨＲＤ陽性またはＨＲＤ陰性の標識を含み得るが、この標識は、腫瘍がＨＲＤ陽性またはＨＲＤ陰性であるという絶対的な確実性を必要としない。代わりに、多数のＨＲＤ陽性腫瘍および多数のＨＲＤ陰性腫瘍を含む堅牢な訓練データセットが与えられ、当技術分野で知られているようにこれらのデータの過剰適合を回避することによって、偽陽性および偽陰性の寄与がモデルにおいて平均化される。さらに、より大きな訓練データセット、特にバランスのとれた訓練データセット、ならびに明確に定義された陽性および陰性のラベルを有するデータセット（例えば、ＨＲＤ陰性標識のために検証されたコンセンサスゲノムを使用することによって、ＨＲＤ陽性標識のために、検証された二対立遺伝子ＢＲＣＡ１／２変異体または検証された十分に特徴付けられたＢＲＣＡｎｅｓｓサンプルを使用することによって）を使用することにより、モデルは、ＨＲＤ陰性表現型とＨＲＤ瘢痕を示す表現型（すなわち、ＨＲＤ陽性表現型）との間の微妙な差を適切に評価することができる。

【0151】

分類方法は、コンピュータ実装方法である。この分類は、訓練されたＨＲＤ分類器モデルを実行するためのプログラム命令を含む具体的に構成された機械またはシステム上で実行することができ、これはコンピュータまたはシステムの非一時的コンピュータ可読メモリに記憶することができる。コンピュータは、一般に、メモリにアクセスすることができる１つまたは複数のプロセッサを含む。１つまたは複数のプロセッサは、メモリに記憶されてもよいデータ（例えば、対象における腫瘍のゲノムに関連する１つまたは複数のコピー数の特徴および／または１つまたは複数の短い変異体の特徴などの試験データ、ならびにいくつかの実施形態では、他の特徴および測定値）を受信することができる。１つまたは複数のプロセッサは、訓練されたＨＲＤ分類器モデルにアクセスすることができ、テストデータをモデルに入力することができる。次いで、１つまたは複数のプロセッサおよび訓練されたＨＲＤ分類器モデルは、がんを、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものとして分類することができる。

【0152】

ＨＲＤ分類器モデルは、がんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類することができる。いくつかの実施形態では、ＨＲＤ分類器モデルは、腫瘍をＨＲＤ陽性である可能性が高い、ＨＲＤ陰性である可能性が高い、または曖昧と分類することができる。例えば、ＨＲＤ分類器モデルは、十分に高い信頼性または確率で腫瘍をＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いと分類することができない場合、腫瘍を曖昧と分類することができる。信頼度または確率の閾値は、不正確な分類に対する許容度を考慮して、必要に応じてユーザによって設定されてもよい。一例では、ユーザは、ＨＲＤ陽性尤度スコアの閾値を０．８に設定し、ＨＲＤ陰性尤度スコアの閾値を０．２に設定することができる。ＨＲＤ陽性尤度スコアが０．８未満である場合、および／またはＨＲＤ陰性尤度スコアが０．２を超える場合、ＨＲＤモデルは腫瘍をＨＲＤ陽性と分類することができず、腫瘍をＨＲＤ陰性と分類するか（ＨＲＤ陽性尤度スコアがどの程度低いか、およびＨＲＤ陰性尤度スコアがどの程度高いかに依存する）、または曖昧であると分類する。

【0153】

いくつかの実施形態では、ＨＲＤ分類器は、腫瘍がＨＲＤ陽性である尤度スコアを出力する。いくつかの実施形態では、ＨＲＤ分類器は、腫瘍がＨＲＤ陰性である尤度スコアを出力する。ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアおよびＨＲＤ陰性尤度スコアのいずれかまたは両方を出力するように構成されてもよい。ＨＲＤ分類器はまた、ＨＲＤ陽性尤度スコアとＨＲＤ陰性尤度スコアとの比および／またはＨＲＤ陰性尤度スコアとＨＲＤ陽性尤度スコアとの比を出力するように構成されてもよい。尤度スコアは、０．０（腫瘍がＨＲＤ陽性でもＨＲＤ陰性でもない確実性を示す）～１．０（腫瘍がＨＲＤ陽性またはＨＲＤ陰性である確実性を示す）の値として表すことができる。例えば、訓練されたＨＲＤ分類器は、対象のがんの腫瘍に関連する複数のデータ特徴を含む試験サンプルデータを受信し、０．８のＨＲＤ陽性尤度スコアおよび０．１５のＨＲＤ陰性尤度スコアを出力することができる。ＨＲＤ分類器は、１つまたは複数の尤度スコアに基づいて腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすように構成することができる。前述の例では、ＨＲＤ陽性尤度スコア０．８およびＨＲＤ陰性尤度スコア０．１５に基づいて、ＨＲＤ分類器は腫瘍をＨＲＤ陽性とみなすことができる。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが少なくとも０．４、例えば少なくとも０．４５、少なくとも０．５、少なくとも０．５５、少なくとも０．６、少なくとも０．６５、少なくとも０．７０、少なくとも０．７５、少なくとも０．８０、少なくとも０．８５、少なくとも０．９０、少なくとも０．９５、または少なくとも０．９９である場合、腫瘍をＨＲＤ陽性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが少なくとも０．７である場合、腫瘍をＨＲＤ陽性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが少なくとも０．８である場合、腫瘍をＨＲＤ陽性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが少なくとも０．９である場合、腫瘍をＨＲＤ陽性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陰性尤度スコアが少なくとも０．４、例えば少なくとも０．５、少なくとも０．６、少なくとも０．６５、少なくとも０．７０、少なくとも０．７５、少なくとも０．８０、少なくとも０．８５、少なくとも０．９０、少なくとも０．９５、または少なくとも０．９９である場合、腫瘍をＨＲＤ陰性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陰性尤度スコアが少なくとも０．７である場合、腫瘍をＨＲＤ陰性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陰性尤度スコアが少なくとも０．８である場合、腫瘍をＨＲＤ陰性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陰性尤度スコアが少なくとも０．９である場合、腫瘍をＨＲＤ陰性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陰性尤度スコアが０．５未満、例えば０．４５未満、０．４０未満、０．３５未満、０．３０未満、０．３０未満、０．２５未満、０．２０未満、０．１５未満、０．１０未満、または０．０５未満である場合、腫瘍をＨＲＤ陽性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが０．５未満、例えば０．４５未満、０．４０未満、０．３５未満、０．３０未満、０．３０未満、０．２５未満、０．２０未満、０．１５未満、０．１０未満、または０．０５未満である場合、腫瘍をＨＲＤ陰性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが特定の閾値（少なくとも０．８０など）を上回り、ＨＲＤ陰性尤度スコアが特定の閾値（０．２５未満など）を下回る場合、腫瘍をＨＲＤ陽性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陰性尤度スコアが特定の閾値（少なくとも０．８０など）を上回り、ＨＲＤ陽性尤度スコアが特定の閾値（０．２５未満など）を下回る場合、腫瘍をＨＲＤ陰性とみなす。いくつかの実施形態では、ＨＲＤ分類器は、ＨＲＤ陽性尤度スコアが特定の閾値を下回り、ＨＲＤ陰性尤度スコアが閾値を下回る場合、または尤度スコアの絶対値が閾値類似性パーセント内にある場合、腫瘍を曖昧とみなす。

【0154】

がんを、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高い（または曖昧）と識別する報告が生成され得る。報告は、例えば、電子医療記録または印刷された報告であってもよく、これは、対象または対象に関連付けられたヘルスケア提供者（例えば、医師、看護師、診療所など）に送信することができる。報告は、がんの腫瘍を治療する方法または薬物などの医療での決定を行うために使用され得る。

【0155】

報告は、電子ディスプレイまたはカスタマイズされたインターフェースに表示されてもよい。例えば、いくつかの実施形態では、コンピュータ実装方法は、報告を自動的に生成することができ、生成された報告を電子ディスプレイまたはカスタマイズされたインターフェースに自動的に表示することができる。

【0156】

図７は、対象のがんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するように構成されたＨＲＤ分類モデル７０２を訓練および操作するための例示的な方法を示す。ＨＲＤ分類モデル７０２は、ＨＲＤ陽性訓練データセット７０４およびＨＲＤ陰性訓練データセット７０６を含むデータセットを使用して訓練される。ＨＲＤ陽性訓練データセット７０４は、１つまたは複数のＨＲＤ陽性サンプルデータ要素（すなわち、ＨＲＤ陽性サンプルｉまでのＨＲＤ陽性サンプル１のデータ）を含む。各ＨＲＤ陽性サンプルデータ要素は、ＨＲＤ陽性腫瘍の特徴（例えば、コピー数の特徴、基本的特徴、短い変異体の特徴などである）と関連付けられている。ＨＲＤ陽性サンプルデータ要素はまた、ｇＬＯＨの尺度および／または短い変異体の特徴（図示せず）などの他のデータ特徴も含み得る。特徴は、ＨＲＤ陽性ラベルに関連するものとして標識される。同様に、ＨＲＤ陰性訓練データセット７０６は、１つまたは複数のＨＲＤ陰性訓練サンプルデータ要素（すなわち、ＨＲＤ（－）サンプルｊまでのＨＲＤ（－）サンプル１）を含む。各ＨＲＤ陰性サンプルデータ要素は、ＨＲＤ陰性腫瘍の特徴（例えば、コピー数の特徴、基本的特徴、短い変異体の特徴などである）と関連付けられている。ＨＲＤ陰性サンプルデータ要素はまた、ｇＬＯＨの尺度および／または短い変異体の特徴（図示せず）などの他のデータ特徴も含み得る。ＨＲＤ陰性サンプルは、ＨＲＤ陰性標識に関連するものとして標識される。

【0157】

いくつかの実施形態では、ＨＲＤ分類モデル７０２は、ツリーベースの勾配ブースティングモデル（ＸＧＢｏｏｓｔなど）である。このモデルでは、すべてのモデルを互いに分離して訓練するのではなく（例えば、ランダムフォレストによって）、モデルは、各新しいモデルが前のモデルからの残差に適合するように連続して訓練される。したがって、モデルは、順次接続された多くのより弱い分類器から強い分類器を達成する。ＨＲＤ分類モデルのパフォーマンスを推定するための訓練データでは、反復交差検証を使用することができる。

【0158】

分類モデル７０２が訓練データセットで訓練された後、分類モデル７０２を使用して、対象のがんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類することができる。対象のがんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性として分類するために、分類モデル７０２は、分類される腫瘍に関連する試験特徴データを含む試験データ７０８を受信する。テストデータ７０８は、１つまたは複数のコピー数の特徴を含み、１つまたは複数の基本的特徴、１つまたは複数の短い変異体の特徴などを含んでもよい。分類モデル７０２は、腫瘍がＨＲＤ陽性である確率７１０および／または腫瘍がＨＲＤ陰性である確率７１２を判定することができる。確率７１０および７１２は、任意選択的に、ＨＲＤコールモジュール７１４に入力される。ＨＲＤコールモジュール７１４は、がんをＨＲＤ陽性またはＨＲＤ陰性とみなすことができる。例えば、腫瘍試験サンプルがＨＲＤ陽性である確率７１０が、腫瘍試験サンプルがＨＲＤ陰性である確率７１２より大きい場合、腫瘍試験サンプルはＨＲＤ陽性とみなすことができる。腫瘍試験サンプルがＨＲＤ陰性である確率７１２が、腫瘍試験サンプルがＨＲＤ陽性である確率７１０より大きい場合、腫瘍試験サンプルはＨＲＤ陰性とみなすことができる。任意選択で、確率７１０および７１２のいずれも所定の閾値を上回っていない場合、腫瘍試験サンプルは曖昧とみなすことができる。

【0159】

本明細書に記載の方法は、１つまたは複数のコンピュータシステムを使用して実装されることができる。そのようなコンピュータシステムは、コンピュータシステムがそのような方法を実行するために１つまたは複数のプロセッサを実行するように構成された１つまたは複数のプログラムを含むことができる。コンピュータ実装方法の１つまたは複数のステップは、自動的に実行されてもよい。コンピュータシステムは、１つまたは複数のコンピューティングノードを含むことができる。例えば、システムは、ネットワークの１つまたは複数のコンピューティングノード上で前記ネットワークを介して方法を通信および実行するように接続および構成することができる２つ以上のコンピューティングノード（例えば、サーバ、コンピュータ、ルータ、またはネットワークインターフェースを含む他の種類の電子デバイス）を含むことができる。

【0160】

図８は、一実施形態によるコンピューティングデバイスの例を示している。デバイス１１００は、ネットワークに接続されたホストコンピュータとすることができる。デバイス１１００は、クライアントコンピュータまたはサーバとすることができる。図８に示されるように、デバイス１１００は、パーソナルコンピュータ、ワークステーション、サーバ、またはハンドヘルド計算デバイス（携帯電子デバイス、例えば、電話またはタブレット）などの任意の好適なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、プロセッサ１１１０、入力デバイス１１２０、出力デバイス１１３０、ストレージ１１４０、および通信デバイス１１６０のうちの１つまたは複数を含むことができる。入力デバイス１１２０および出力デバイス１１３０は、一般に、上述したものに対応することができ、コンピュータと接続可能とすることができるかまたは一体化されることができる。

【0161】

入力デバイス１１２０は、タッチスクリーン、キーボードもしくはキーパッド、マウス、または音声認識デバイスなどの入力を提供する任意の好適なデバイスとすることができる。出力デバイス１１３０は、ディスプレイ、タッチスクリーン、触覚デバイス、またはスピーカなど、出力を提供する任意の好適なデバイスであり得る。

【0162】

ストレージ１１４０は、ＲＡＭ、キャッシュ、ハードドライブ、またはリムーバブルストレージディスクを含む、電気、磁気、または光学メモリなどのストレージを備える任意の好適なデバイスであり得る。通信デバイス１１６０は、ネットワークインターフェースチップまたはデバイスなどの、ネットワークを介してシグナルを送受信することができる任意の好適なデバイスを含むことができる。コンピュータの構成要素は、物理的バスまたは無線などの任意の好適な様式で接続することができる。

【0163】

ＨＲＤ分類モジュール１１５０は、ストレージ１１４０に記憶することができ、プロセッサ１１１０によって実行することができ、例えば、ＨＲＤモデルに関連する方法およびプロセス（例えば、上記のようなデバイスで実施されるように）を実行および実施するための１つまたは複数のプログラム命令を含むことができる。

【0164】

ＨＲＤモジュール１１５０はまた、命令実行システム、装置、もしくはデバイス（例えば、上記のもの）によって、またはそれらと接続して使用するための任意の非一時的コンピュータ可読記憶媒体内に記憶および／または転送することができ、命令実行システム、装置、もしくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、コンピュータ可読記憶媒体は、ストレージ１１４０などの任意の媒体とすることができ、命令実行システム、装置、もしくはデバイスによって、またはそれらと接続して使用するためのプログラミングを含むもしくは記憶することができる。

【0165】

ＨＲＤモジュール１１５０はまた、命令実行システム、装置、もしくはデバイス（例えば、上記のもの）によって、またはそれらと接続して使用するための任意の伝送媒体内に伝播することができ、命令実行システム、装置、もしくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、伝送媒体は、任意の媒体とすることができ、命令実行システム、装置、もしくはデバイスによって、またはそれらと接続して使用するための伝送プログラミングを通信、伝播、または伝送することができる。伝送可読媒体は、電子、磁気、光学、電磁気、もしくは赤外線の有線または無線伝播媒体を含むことができるが、これらに限定されない。

【0166】

デバイス１１００は、任意の好適な種類の相互接続された通信システムとすることができるネットワークへと接続されることができる。ネットワークは、任意の好適な通信プロトコルを実装することができ、任意の好適なセキュリティプロトコルによって保護されることができる。ネットワークは、無線ネットワーク接続（Ｔ１またはＴ３回線）、ケーブルネットワーク、ＤＳＬ、または電話回線などの、ネットワーク信号の送受信を実装することができる任意の好適な構成のネットワークリンクを含むことができる。

【0167】

デバイス１１００は、ネットワークで動作するのに好適な任意のオペレーティングシステムを実装することができる。ソフトウェア３５０は、Ｃ、Ｃ＋＋、Ｊａｖａ、またはＰｙｔｈｏｎなどの任意の好適なプログラミング言語で書かれることができる。様々な実施形態では、本開示の機能を具現化するアプリケーションソフトウェアは、異なる構成で、例えば、クライアント／サーバ構成で、またはウェブベースのアプリケーションもしくはウェブサービスとしてのウェブブラウザを介してなど、展開されることができる。

【0168】

治療方法
腫瘍をＨＲＤ陽性またはＨＲＤ陰性（またはＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高い）として特徴付けることは、腫瘍を有する対象に有効な治療を選択するのに特に有用である。ＨＲＤ陽性として分類される腫瘍は、多くの場合、ＨＲＤ陰性腫瘍が抵抗性であり得る特定の薬物および療法に対してより感受性である。腫瘍のＨＲＤ陽性、ＨＲＤ陽性である可能性が高い、ＨＲＤ陰性、またはＨＲＤ陰性である可能性が高いものとしての分類に基づいて、異なる薬物または療法を選択することができる。したがって、対象のがんを治療する方法は、本明細書に記載の方法に従って、がんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性である可能性が高いと評価すること（またはがんの腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすこと）、次いで、腫瘍をＨＲＤ陽性である可能性が高い、またはＨＲＤ陰性である可能性が高いと分類することに基づいて（または腫瘍をＨＲＤ陽性またはＨＲＤ陰性とみなすことに基づいて）、治療有効量の薬物を対象に投与することを含み得る。

【0169】

対象のがんを治療する方法は、対象のがんの腫瘍の分類をＨＲＤ陽性である可能性が高い、またはＨＲＤ陰性である可能性が高いものとして得ることを含むことができる。この分類を取得するために、本明細書に記載のＨＲＤ分類モデルを使用することができる。がんの腫瘍のゲノムに関連する１つまたは複数のコピー数の特徴は、対象の腫瘍のゲノムに関連する１つまたは複数のコピー数の特徴に基づいて、腫瘍をＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものと分類するように構成されたＨＲＤ分類モデルに入力され得る。ＨＲＤ分類モデルは、複数のＨＲＤ陽性腫瘍からのＨＲＤ陽性データ、および複数のＨＲＤ陰性腫瘍からのＨＲＤ陰性データを使用して訓練される。分類は、例えば、ＨＲＤ分類モデルを操作することによって、またはＨＲＤ分類モデルを操作した別のものからの結果を受信することによって取得することができる。

【0170】

１つまたは複数の基本的特徴および／または１つまたは複数の短い変異体の特徴は、１つまたは複数の基本的特徴および／または１つまたは複数の短い変異体の特徴に基づいて腫瘍をＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いと分類するように構成されたＨＲＤ分類モデルに入力することができる。１つまたは複数の短い変異体の特徴および１つまたは複数の基本的特徴は、１つまたは複数のコピー数の特徴に加えて、またはその代わりに、１つまたは複数のコピー数の特徴であり得る。

【0171】

いくつかの実施形態において、治療方法は、１つまたは複数のコピー数の特徴を含む試験サンプルデータを得ることを含み得る。いくつかの実施形態では、治療方法は、１つ以上の基本的特徴を得ることを含み得る。いくつかの態様において、治療方法は、ヘテロ接合性のゲノム規模の喪失の尺度を得ることを含み得る。いくつかの実施形態では、治療方法は、１つまたは複数の短い変異体の特徴を得ることを含み得る。対象から試験サンプルを得てもよく、核酸分子は試験サンプルに由来し得る。試験サンプルは、例えば、がんの固形組織生検であってもよく、固形組織サンプルから核酸を単離し得る。任意選択で、試験サンプルは、例えば、核酸分子を単離する前に試験サンプルを凍結するか、またはサンプルを固定することによって（例えば、ホルマリン固定パラフィン包埋（ＦＦＰＥ）サンプルを形成することによって）、保存され得る。あるいは、試験サンプルは液体生検サンプル（例えば、対象からの血液、血漿、または他の液体サンプル）であり、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含む核酸を液体サンプルから得ることができる。サンプル由来の核酸をアッセイし、次いで分析して、１つ以上のコピー数の特徴、１つ以上の基本的特徴、または１つまたは複数の短い変異体の特徴のいずれかを生成することができる。

【0172】

ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものとしての腫瘍の分類を得ることは、記載された特徴および／または尺度をＨＲＤ分類モデルに入力すること、および特徴および／または尺度を使用して、ＨＲＤ分類モデルに入力されたデータに基づいて、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものとしてがんを分類することを含むことができる。あるいは、腫瘍をＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高いものとする分類を取得することは、別のエンティティからの報告を受信することを含み得る。報告は、他のエンティティによって生成されてもよく、報告は、ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高い腫瘍の分類を含むことができ、分類は、本明細書に記載のＨＲＤ分類モデルを使用して生成される。いくつかの態様では、報告は、腫瘍がＨＲＤ陽性である尤度スコアおよび／または腫瘍がＨＲＤ陰性である尤度スコアを含み、尤度スコアに基づいて最終的な分類を行うことができる。

【0173】

ＨＲＤ陽性である可能性が高いまたはＨＲＤ陰性である可能性が高い腫瘍の分類が行われると、分類に基づいて治療を選択することができる。腫瘍がＨＲＤ陽性である可能性が高いと分類された場合、ＨＲＤ陽性腫瘍に有効な治療が選択される。次いで、選択された治療を対象に投与して、ＨＲＤ陽性である可能性が高いと分類される腫瘍を治療することができる。腫瘍がＨＲＤ陰性である可能性が高いと分類された場合、白金系薬物でもＰＡＲＰ阻害剤でもない治療が選択され得る。次いで、選択された治療を対象に投与して、ＨＲＤ陰性である可能性が高いと分類される腫瘍を治療することができる。

【0174】

ＨＲＤ陽性腫瘍に有効な処置は、１つ以上のＰＡＲＰ阻害剤および／または１つ以上の白金系薬剤を含むことができる。ＰＡＲＰ阻害剤には、ベリパリブ、オラパリブ、タラゾパリブ、イニパリブ、ルカパリブ、およびニラパリブが含まれ得るが、これらに限定されない。ＰＡＲＰ阻害剤は、ＭｕｒｐｈｙａｎｄＭｕｇｇｉａ，ＰＡＲＰｉｎｈｉｂｉｔｏｒｓ：ｃｌｉｎｉｃａｌｄｅｖｅｌｏｐｍｅｎｔ，ｅｍｅｒｇｉｎｇｄｉｆｆｅｒｅｎｃｅｓ，ａｎｄｔｈｅｃｕｒｒｅｎｔｔｈｅｒａｐｅｕｔｉｃｉｓｓｕｅｓ，ＣａｎｃｅｒＤｒｕｇＲｅｓｉｓｔ２０１９；２：６６５－７９に記載されている。白金系薬物としては、シスプラチン、オキサリプラチンおよびカルボプラチンが挙げられ得るが、これらに限定されない。白金系薬物は、Ｒｏｔｔｅｎｂｅｒｇｅｔａｌ．，Ｔｈｅｒｅｄｉｓｃｏｖｅｒｙｏｆｐｌａｔｉｎｕｍ－ｂａｓｅｄｃａｎｃｅｒｔｈｅｒａｐｙ，Ｎａｔ．Ｒｅｖ．Ｃａｎｃｅｒ２０２１Ｊａｎ；２１（１）：３７－５０に記載されている。

【0175】

治療される腫瘍は、対象の腫瘍である。一実施形態では、腫瘍は膵臓がんである。別の実施形態では、腫瘍は前立腺がんである。いくつかの実施形態において、腫瘍は、卵巣がん、乳がんまたは前立腺がんである。いくつかの実施形態では、腫瘍は、ＨＲＤに関連する腫瘍であり、限定されないが、副腎、胆管、骨／軟部組織、乳房、結腸／直腸、食道、眼、頭頸部、腎臓、肝臓、肺、リンパ系、髄芽腫、中皮腫、骨髄系、神経系、神経内分泌、卵巣、膵臓、前立腺、皮膚、胃、精巣、胸腺、甲状腺、尿路、子宮、または外陰がんの１つを含み得る。Ｎｇｕｙｅｎｅｔａｌ．，Ｐａｎ－ｃａｎｃｅｒｌａｎｄｓｃａｐｅｏｆｈｏｍｏｌｏｇｏｕｓｒｅｃｏｍｂｉｎａｔｉｏｎｄｅｆｉｃｉｅｎｃｙ，Ｎａｔ．Ｃｏｍｍｕｎ．２０２０Ｎｏｖ４；１１（１）：５５８４を参照されたい。

【0176】

本開示は、添付の図面を参照して十分に説明されているが、様々な変形および変更が当業者にとって明らかになることに留意されたい。そのような変形および変更は、特許請求の範囲によって定義される本開示の範囲の中に含まれると理解されるべきである。

【0177】

上記の説明は、説明を目的として、特定の実施形態を参照して説明されている。しかしながら、上記の例示的な説明は、網羅的であること、または本発明を開示された正確な形態に限定することを意図するものではない。上記の教示を考慮して、多くの変更および変形が可能である。実施形態は、技術の原理およびそれらの実際の用途を最もよく説明するために選択および記載された。それにより、他の当業者は、企図される特定の使用に適した様々な変更を伴う技術および様々な実施形態を最良に利用することが可能になる。

【図1】