特表2024-545646 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アルテラ・インコーポレーテッドの特許一覧

特表2024-545646深層学習によるがんのデジタル病理評価のための方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3A
3B
3C
3D
3E
3F
3G
3H
4
5
6
7-1
7-2
8
9
10
11
12
13
14
15A
15B
15C
15D
16
17
18A
18B
19A
19B
20A
20B
21
22
23
24
25A
25B
26
27A
27B
28A
28B
29A
29B
30A
30B
31A
31B
32A
32B
33A
33B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-10

(54)【発明の名称】深層学習によるがんのデジタル病理評価のための方法およびシステム

(51)【国際特許分類】

G16B 40/20 20190101AFI20241203BHJP

G01N 33/48 20060101ALI20241203BHJP

【ＦＩ】

G16B40/20

G01N33/48 M

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024534668

(86)(22)【出願日】2022-11-29

(85)【翻訳文提出日】2024-08-13

(86)【国際出願番号】 US2022051268

(87)【国際公開番号】W WO2023107297

(87)【国際公開日】2023-06-15

(31)【優先権主張番号】63/287,158

(32)【優先日】2021-12-08

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/345,804

(32)【優先日】2022-05-25

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/418,125

(32)【優先日】2022-10-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＡＮＤＲＯＩＤ

(71)【出願人】

【識別番号】524219692

【氏名又は名称】アルテラ・インコーポレーテッド

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100138759

【弁理士】

【氏名又は名称】大房直樹

(74)【代理人】

【識別番号】100201743

【弁理士】

【氏名又は名称】井上和真

(72)【発明者】

【氏名】エステバ，アンドレ

(72)【発明者】

【氏名】フェン，フェリックス

【テーマコード（参考）】

2G045

【Ｆターム（参考）】

2G045AA24

2G045AA26

2G045CB02

2G045FA16

2G045JA01

2G045JA03

(57)【要約】

本開示は、被験者のがんを分類する、および／またはモニタするための方法およびシステムを提供する。被験者のがんを評価するための方法は、被験者から画像データおよび／または表形式データを含むデータセットを取得するステップと、１つまたは複数の訓練済みアルゴリズムでデータを処理して、被験者のがんを分類するステップとを含み得る。分類の結果に基づいて、被験者のがんを評価することができる。

【特許請求の範囲】

【請求項1】

被験者のがんを評価するための方法であって、
（ａ）前記被験者に由来する画像データおよび表形式データを含むデータセットを取得するステップと、
（ｂ）訓練済みアルゴリズムを用いて前記データセットを処理して、前記データセットを複数のカテゴリのうちの１つのカテゴリに分類するステップであって、前記分類するステップが、前記画像データに画像処理アルゴリズムを適用するステップを含む、分類するステップと、
（ｃ）（ｂ）で分類された前記複数のカテゴリのうちの前記１つのカテゴリに少なくとも部分的に基づいて、前記被験者の前記がんを評価するステップと
を含む、方法。

【請求項2】

前記訓練済みアルゴリズムが、自己教師あり学習を使用して訓練される、請求項１に記載の方法。

【請求項3】

前記訓練済みアルゴリズムが、深層学習アルゴリズムを含む、請求項１または２に記載の方法。

【請求項4】

前記訓練済みアルゴリズムが、前記画像データを処理する第１の訓練済みアルゴリズムと、前記表形式データを処理する第２の訓練済みアルゴリズムとを含む、請求項１から３のいずれか一項に記載の方法。

【請求項5】

前記訓練済みアルゴリズムが、前記第１および前記第２の訓練済みアルゴリズムの出力を処理する第３の訓練済みアルゴリズムをさらに含む、請求項４に記載の方法。

【請求項6】

前記がんが、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである、請求項１から５のいずれか一項に記載の方法。

【請求項7】

前記がんが前立腺がんである、請求項６に記載の方法。

【請求項8】

前記表形式データが、前記被験者の臨床データを含む、請求項１から７のいずれか一項に記載の方法。

【請求項9】

前記被験者の前記臨床データが、検査室データ、治療的介入、または長期転帰を含む、請求項８に記載の方法。

【請求項10】

前記画像データがデジタル組織病理学データを含む、請求項１から９のいずれか一項に記載の方法。

【請求項11】

前記組織病理学データが、前記被験者の生検試料に由来する画像を含む、請求項１０に記載の方法。

【請求項12】

前記画像が前記生検試料の顕微鏡検査によって得られる、請求項１１に記載の方法。

【請求項13】

前記デジタル組織病理学データが、前記被験者が処置を受ける前に前記被験者から得られる、請求項１０から１２のいずれか一項に記載の方法。

【請求項14】

前記処置が放射線治療（ＲＴ）を含む、請求項１３に記載の方法。

【請求項15】

前記ＲＴが、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む、請求項１４に記載の方法。

【請求項16】

前記デジタル組織病理学データが、前記被験者が処置を受けた後に前記被験者から得られる、請求項１０から１２のいずれか一項に記載の方法。

【請求項17】

前記処置が放射線治療（ＲＴ）を含む、請求項１６に記載の方法。

【請求項18】

前記ＲＴが、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む、請求項１７に記載の方法。

【請求項19】

画像分割、画像連結、物体検出アルゴリズム、またはそれらの組合せを用いて前記画像データを処理するステップをさらに含む、請求項１から１８のいずれか一項に記載の方法。

【請求項20】

前記画像データから特徴を抽出するステップをさらに含む、請求項１から１９のいずれか一項に記載の方法。

【請求項21】

被験者のがんを評価するための方法であって、
（ａ）少なくとも前記被験者に由来する画像データを含むデータセットを取得するステップと、
（ｂ）訓練済みアルゴリズムを用いて前記データセットを処理して、前記データセットを複数のカテゴリのうちの１つのカテゴリに分類するステップであって、前記分類するステップが、前記画像データに画像処理アルゴリズムを適用するステップを含み、前記訓練済みアルゴリズムが自己教師あり学習を使用して訓練される、分類するステップと、
（ｃ）前記（ｂ）で分類された前記複数のカテゴリのうちの前記１つのカテゴリに少なくとも部分的に基づいて、前記被験者の前記がんを評価するステップと
を含む、方法。

【請求項22】

前記訓練済みアルゴリズムが、深層学習アルゴリズムを含む、請求項２１に記載の方法。

【請求項23】

前記がんが、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである、請求項２１または２２に記載の方法。

【請求項24】

前記がんが前立腺がんである、請求項２３に記載の方法。

【請求項25】

前記画像データがデジタル組織病理学データを含む、請求項２１から２４のいずれか一項に記載の方法。

【請求項26】

前記組織病理学データが、前記被験者の生検試料に由来する画像を含む、請求項２５に記載の方法。

【請求項27】

前記画像が前記生検試料の顕微鏡検査によって得られる、請求項２６に記載の方法。

【請求項28】

前記デジタル組織病理学データが、前記被験者が処置を受ける前に前記被験者から得られる、請求項２５から２７のいずれか一項に記載の方法。

【請求項29】

前記処置が放射線治療（ＲＴ）を含む、請求項２８に記載の方法。

【請求項30】

前記ＲＴが、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む、請求項２９に記載の方法。

【請求項31】

前記デジタル組織病理学データが、前記被験者が処置を受けた後に前記被験者から得られる、請求項２５から２７のいずれか一項に記載の方法。

【請求項32】

前記処置が放射線治療（ＲＴ）を含む、請求項３１に記載の方法。

【請求項33】

前記ＲＴが、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む、請求項３２に記載の方法。

【請求項34】

画像分割、画像連結、または物体検出アルゴリズムを用いて前記画像データを処理するステップをさらに含む、請求項２１から３３のいずれか一項に記載の方法。

【請求項35】

前記画像データから特徴を抽出するステップをさらに含む、請求項２１から３４のいずれか一項に記載の方法。

【請求項36】

前記データセットが、画像データおよび表形式データを含む、請求項２１から３５のいずれか一項に記載の方法。

【請求項37】

前記訓練済みアルゴリズムが、前記画像データを処理する第１の訓練済みアルゴリズムと、前記表形式データを処理する第２の訓練済みアルゴリズムとを含む、請求項３６に記載の方法。

【請求項38】

前記訓練済みアルゴリズムが、前記第１および前記第２の訓練済みアルゴリズムの出力を処理する第３の訓練済みアルゴリズムをさらに含む、請求項３７に記載の方法。

【請求項39】

前記表形式データが、前記被験者の臨床データを含む、請求項３６から３８のいずれか一項に記載の方法。

【請求項40】

前記臨床データが、検査室データ、治療的介入、または長期転帰を含む、請求項３９に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

相互参照
[0001]本出願は、２０２１年１２月８日に出願された米国仮出願第６３／２８７，１５８号、２０２２年５月２５日に出願された米国仮特許出願第６３／３４５，８０４号、および２０２２年１０月２１日に出願された米国仮特許出願第６３／４１８，１２５号の利益を主張するものであり、これらの出願のそれぞれは、参照によりその全体が本明細書に組み込まれる。

【背景技術】

【0002】

[0002]前立腺がんは男性のがん死亡の主な原因である。それにもかかわらず、患者転帰の予後判定のための国際的な基準は、通常は過度な処置や処置の不足につながる非特異的で感度の低いツールに依存している。

【発明の概要】

【発明が解決しようとする課題】

【0003】

[0003]患者の最適ながん治療を決定することは困難なタスクであり、腫瘍医は成功の可能性が最も高く、毒性の可能性が最も低い治療法を選択しなければならない。治療法選択の難しさは、がんが示す膨大な分子的、表現型的、予後的な不均一性に根ざしている。本明細書では、がん治療のパーソナライゼーションを支援するための、正確でグローバルに拡張可能なツールの必要性が認識される。

【課題を解決するための手段】

【0004】

[0004]本開示は、被験者、例えばがん患者から得られた、またはそれに由来する生体試料を処理することによって、がん関連状態を識別またはモニタするための方法およびシステムを提供する。被験者から得られた生体試料（例えば、組織試料）は、臨床転帰（例えば、遠隔転移、生化学的再発、死亡、無増悪生存、および全生存を含み得る）を予後判定するために解析され得る。

【0005】

[0005]一態様において、本開示は、被験者のがんを評価するための方法であって、以下を含む方法を提供する：（ａ）被験者に由来する画像データおよび表形式データを含むデータセットを取得するステップ；（ｂ）訓練済みアルゴリズムを用いてデータセットを処理して、データセットを複数のカテゴリのうちの１つのカテゴリに分類するステップであって、分類するステップが、画像データに画像処理アルゴリズムを適用するステップを含む、分類するステップ；および（ｃ）（ｂ）で分類された複数のカテゴリのうちの１つのカテゴリに少なくとも部分的に基づいて、被験者のがんを評価するステップ。

【0006】

[0006]いくつかの実施形態では、訓練済みアルゴリズムは、自己教師あり学習を使用して訓練される。いくつかの実施形態では、訓練済みアルゴリズムは深層学習アルゴリズムを含む。いくつかの実施形態では、訓練済みアルゴリズムは、画像データを処理する第１の訓練済みアルゴリズムと、表形式データを処理する第２の訓練済みアルゴリズムとを含む。いくつかの実施形態では、訓練済みアルゴリズムは、第１および第２の訓練済みアルゴリズムの出力を処理する第３の訓練済みアルゴリズムをさらに含む。いくつかの実施形態では、がんは、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである。いくつかの実施形態では、がんは前立腺がんである。いくつかの実施形態では、表形式データは、被験者の臨床データを含む。いくつかの実施形態では、被験者の臨床データは、検査室データ、治療的介入、または長期転帰を含む。いくつかの実施形態では、画像データはデジタル組織病理学データを含む。いくつかの実施形態では、組織病理学データは、被験者の生検試料に由来する画像を含む。いくつかの実施形態では、画像は生検試料の顕微鏡検査によって得られる。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受ける前に被験者から得られる。いくつかの実施形態では、処置は放射線治療（ＲＴ）を含む。いくつかの実施形態では、ＲＴは、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受けた後に被験者から得られる。いくつかの実施形態では、処置は放射線治療（ＲＴ）を含む。いくつかの実施形態では、ＲＴは、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、方法は、画像分割、画像連結、物体検出アルゴリズム、またはそれらの組合せを用いて画像データを処理するステップをさらに含む。いくつかの実施形態では、方法は、画像データから特徴を抽出することをさらに含む。

【0007】

[0007]別の態様において、本開示は、被験者のがんを評価するための方法であって、以下を含む方法を提供する：（ａ）少なくとも被験者に由来する画像データを含むデータセットを取得するステップ；（ｂ）訓練済みアルゴリズムを用いてデータセットを処理して、データセットを複数のカテゴリのうちの１つのカテゴリに分類するステップであって、分類するステップが、画像データに画像処理アルゴリズムを適用するステップを含み、訓練済みアルゴリズムが自己教師あり学習を使用して訓練される、分類するステップ；および（ｃ）（ｂ）で分類された複数のカテゴリのうちの１つのカテゴリに少なくとも部分的に基づいて、被験者のがんを評価するステップ。

【0008】

[0008]いくつかの実施形態では、訓練済みアルゴリズムは深層学習アルゴリズムを含む。いくつかの実施形態では、がんは、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである。いくつかの実施形態では、がんは前立腺がんである。いくつかの実施形態では、画像データはデジタル組織病理学データを含む。いくつかの実施形態では、組織病理学データは、被験者の生検試料に由来する画像を含む。いくつかの実施形態では、画像は生検試料の顕微鏡検査によって得られる。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受ける前に被験者から得られる。いくつかの実施形態では、処置は放射線治療（ＲＴ）を含む。いくつかの実施形態では、ＲＴは、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受けた後に被験者から得られる。いくつかの実施形態では、処置は放射線治療（ＲＴ）を含む。いくつかの実施形態では、ＲＴは、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、線量漸増ＲＴ（ＤＥ－ＲＴ）、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、方法は、画像分割、画像連結、または物体検出アルゴリズムを用いて画像データを処理するステップをさらに含む。いくつかの実施形態では、方法は、画像データから特徴を抽出するステップをさらに含む。いくつかの実施形態では、データセットは画像データおよび表形式データを含む。いくつかの実施形態では、訓練済みアルゴリズムは、画像データを処理する第１の訓練済みアルゴリズムと、表形式データを処理する第２の訓練済みアルゴリズムとを含む。いくつかの実施形態では、訓練済みアルゴリズムは、第１および第２の訓練済みアルゴリズムの出力を処理する第３の訓練済みアルゴリズムをさらに含む。いくつかの実施形態では、表形式データは、被験者の臨床データを含む。いくつかの実施形態では、臨床データは、検査室データ、治療的介入、または長期転帰を含む。

【0009】

[0009]本開示の別の態様は、１つまたは複数のコンピュータプロセッサによる実行時に、上記または本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む非一時的なコンピュータ可読媒体を提供する。

【0010】

[0010]本開示の別の態様は、１つまたは複数のコンピュータプロセッサと、それに結合されたコンピュータメモリとを含むシステムを提供する。コンピュータメモリは、１つまたは複数のコンピュータプロセッサによる実行時に、上記または本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む。

【0011】

[0011]本開示のさらなる態様および利点は、本開示の例示的な実施形態のみが示され、説明される以下の詳細な説明から、当業者には容易に明らかになるであろう。本開示は、他の異なる実施形態が可能であり、そのいくつかの細部は、すべて本開示から逸脱することなく、様々な明白な点で変更が可能である。したがって、図面および説明は、本質的に例示的なものとみなされ、制限的なものとはみなされるべきではない。
参照による組込み

【0012】

[0012]本明細書で言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に含まれる開示と矛盾する範囲では、本明細書は、そのような矛盾する資料に優先する、および／または優先されることを意図している。

【0013】

[0013]本発明の新規な特徴は、添付の特許請求の範囲に具体的に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を示す以下の詳細な説明、および添付の図面（本明細書では「図面」および「図」とも称される）を参照することによって得られるであろう。

【図面の簡単な説明】

【0014】

【図1】[0014]本明細書で提供される方法を実装するようにプログラムされた、またはその他の方法で構成されたコンピュータシステムの図である。

【図2A】[0015]マルチモーダル深層学習システムおよびデータセットの一例の図であり、マルチモーダルアーキテクチャが、表形式臨床データを解析するタワースタック、可変数のデジタル病理組織学スライドを解析するタワースタック、および得られた特徴をマージし、２値的な転帰を予測する第３のタワースタックの３つの部分から構成されていることを示す図である。

【図2B】マルチモーダル深層学習システムおよびデータセットの一例の図であり、画像タワースタックの自己教師モデルを訓練する様子を示す図である。

【図2C】マルチモーダル深層学習システムおよびデータセットの一例の表である。表の最初の５列が各試験の統計値を示す表である。「ｃｏｍｂｉｎｅｄ」列が、訓練と検証にすべての５つの試験を使用した最終データセットの統計値を示す。＊＊＊ＲＴＯＧ９４１３では、２×２様式で患者を無作為化して、ホルモン療法のタイミング（ＲＴ前ｖｓ．ＲＴ開始）およびフィールドサイズ（前立腺のみｖｓ．完全骨盤ＲＴ）の影響を検証する。新しく略語：無病生存（ＤＦＳ）、無増悪生存（ＰＦＳ）、前立腺がん特異的死亡率（ＰＣＳＭ）が使用される。

【図3A】[0016]深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。ＭＭＡＩモデル（青棒）対ＮＣＣＮモデル（灰色棒）の感度および特異度の曲線下面積（ＡＵＣ）について、時間依存の受信者動作特性を用いて報告したパフォーマンス結果を示す図である。比較は、以下についての２値的な転帰を、５年の時点と１０年の時点で行われる：遠隔転移（ＤＭ）、生化学的再発（ＢＣＲ）、前立腺がん特異的生存（ＰＣａＳＳ）、および全生存（ＯＳ）。

【図3B】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す表である。テストセット内の各試験からのデータをパフォーマンス別に分けた、様々な転帰におけるＮＣＣＮモデルに対するＡＩモデルの相対的改善の要約表である。相対的改善が（ＰＡＩ－ＰＮＣＣＮ）／ＰＮＣＣＮで与えられ、ここでＰはモデルのパフォーマンスである。

【図3C】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。順次減少するデータ入力のセットで訓練した場合のモデルパフォーマンスを示すアブレーション研究の結果を示す図である。ＮＣＣＮは以下の３つの変数を意味する：ｃｏｍｂｉｎｅｄＧｌｅａｓｏｎ、ベースラインｐｓａ、ｔステージ。ＮＣＣＮ＋３は、ＮＣＣＮにＧｌｅａｓｏｎｐｒｉｍａｒｙ、Ｇｌｅａｓｏｎｓｅｃｏｎｄａｒｙ、年齢を加えたものを意味する。ｐａｔｈはデジタル病理組織画像を指す。

【図3D】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、図３Ｄ～図３Ｈは、図３Ａに示すテストセット全体を含む図である。

【図3E】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、図３Ｄ～図３Ｈは、図３Ａに示すテストセット全体を含む図である。

【図3F】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、図３Ｄ～図３Ｈは、図３Ａに示すテストセット全体を含む図である。

【図3G】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、図３Ｄ～図３Ｈは、図３Ａに示すテストセット全体を含む図である。

【図3H】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、図３Ｄ～図３Ｈは、図３Ａに示すテストセット全体を含む図である。

【図4】[0017]ＳＳＬ組織クラスタの病理医による解釈の一例を示す図である。マルチモーダルモデルにおける自己教師モデルは、臨床データのラベルを見ることなく、組織の小さなパッチを強化したバージョンが同一の元のパッチ由来かどうかを識別するように訓練される。訓練した後、１０．０５Ｍ個の画像パッチからなるデータセットの各画像パッチをこのモデルに通して１２８次元の特徴ベクトルを抽出し、ＵＭＡＰアルゴリズム３１を用いて得られたベクトルをクラスタ化し、可視化する。次に病理医に、２５個のクラスタ中心点のそれぞれに最も近い２０個の画像パッチを解釈するよう依頼し、説明文は挿入図のそばに記載されている。分かりやすくするため、６個のクラスタ（色付き）のみを強調し、残りのクラスタは灰色で表示する。病理医による完全なアノテーションは図７を参照されたい。

【図5】[0018]４人の例示的な患者に対する画像キルトの例を示す図である。データセットは、可変数の病理組織スライドを有する患者を含む。モデルへの画像入力を標準化するために、各スライドの組織を分割し、すべての組織を５１２００×５１２００ピクセルの１つの正方形の画像に貼り付け、２００×２００パッチに分割し、１人の患者のすべての組織病理学データを表現する。ここでは４人の患者の画像キルトを示す。

【図6】[0019]例示の画像パッチの核密度サンプリングの一例を示す図である。褐色の四角は核密度の計算に使用される核の検出を示しており、核密度に応じて、自己教師あり訓練プロトコルに入力されるパッチをオーバーサンプリングしている。各パッチは密度に応じて十分位数に区分され、各十分位数はＭＭＡＩモデルが各十分位から同一総数の画像を見るようにオーバーサンプリングされる。

【図7-1】[0020]病理医が解釈したパッチクラスタの一例を示す図である。ＵＭＡＰを用いて、試験ＲＴＯＧ－９２０２のすべての病理組織パッチのＳＳＬ特徴から２５個のクラスタが生成されている。画像の各行は、クラスタ中心点に最も近い２５個の画像パッチに対応する。これらは病理医によって点検され、表に列挙されたクラスタの人間解釈可能な説明が決定される。

【図7-2】同上。

【図8】[0021]ＮＣＣＮモデルアルゴリズムの一例を示す図である。規則ベースのアルゴリズムは、Ｄ’Ａｍｉｃｏリスク群に基づき、ＮａｔｉｏｎａｌＣａｎｃｅｒＣｅｎｔｅｒＮｅｔｗｏｒｋが毎年発表しているガイドラインをモデル化する。

【図9】[0022]本明細書で説明されるマルチモーダルＡＩシステムの概略表現図である。

【図10】[0023]本明細書で説明されるモデルの検査および開発のための臨床試験プーリングを表すフロー図である。

【図11】[0024]本明細書で説明されるモデルによって解析されたデータの患者特性をまとめた表である。

【図12】[0025]検査コホート（上パネル）および開発コホート（下パネル）における人種サブ群間の遠隔転移（ＤＭ）および前立腺がん特異的死亡率（ＰＣＳＭ）について本明細書で説明されるＭＭＡＩモデルによって決定された、ＭＭＡＩスコアの分布図である。

【図13】[0026]開発コホートと検査コホートにおけるＭＭＡＩスコアを人種サブ群別にまとめた表である。

【図14】[0027]本明細書で説明されるＭＭＡＩモデルによって決定されたＭＭＡＩモデルスコアを、訓練コホートおよび検査コホートにおける人種サブ群別にまとめた図である。

【図15A】[0028]開発コホートおよび検査コホートにおける遠隔転移（ＤＭ）ＭＭＡＩおよび前立腺がん特異的死亡率（ＰＣＳＭ）ＭＭＡＩについて、人種サブ群におけるＦｉｎｅ＆Ｇｒａｙ回帰モデルからの部分分布ハザード比（ＨＲ）の結果を示す図である。検査コホートのＤＭ結果を示す図である。

【図15B】開発コホートおよび検査コホートにおける遠隔転移（ＤＭ）ＭＭＡＩおよび前立腺がん特異的死亡率（ＰＣＳＭ）ＭＭＡＩについて、人種サブ群におけるＦｉｎｅ＆Ｇｒａｙ回帰モデルからの部分分布ハザード比（ＨＲ）の結果を示す図である。開発コホートのＤＭ結果を示す図である。

【図15C】開発コホートおよび検査コホートにおける遠隔転移（ＤＭ）ＭＭＡＩおよび前立腺がん特異的死亡率（ＰＣＳＭ）ＭＭＡＩについて、人種サブ群におけるＦｉｎｅ＆Ｇｒａｙ回帰モデルからの部分分布ハザード比（ＨＲ）の結果を示す図である。検査コホートのＰＣＳＭ結果を示す図である。

【図15D】開発コホートおよび検査コホートにおける遠隔転移（ＤＭ）ＭＭＡＩおよび前立腺がん特異的死亡率（ＰＣＳＭ）ＭＭＡＩについて、人種サブ群におけるＦｉｎｅ＆Ｇｒａｙ回帰モデルからの部分分布ハザード比（ＨＲ）の結果を示す図である。開発コホートのＤＭ結果を示す図である。

【図16】[0029]本明細書で説明されるＭＭＡＩモデルの人種サブ群におけるＦｉｎｅ＆Ｇｒａｙ回帰モデルからの部分分布ハザード比（ＨＲ）の結果を示す図である。検査コホートにおける５年生化学的不全（ＢＦ５ｙｒＭＭＡＩ）、１０年ＢＦ（ＢＦ１０ｙｒＭＭＡＩ）、５年遠隔転移（ＤＭ５ｙｒＭＭＡＩ）、１０年ＤＭ（ＤＭ１０ｙｒＭＭＡＩ）、１０年前立腺がん特異的死亡率（ＰＣＳＭ１０ｙｒＭＭＡＩ）、および１０年全生存（ＯＳ１０ｙｒＭＭＡＩ）のＨＲが示される。

【図17】[0030]ＤＭ５－ｙｒＭＭＡＩ（パネルａ）およびＰＣＳＭ１０－ｙｒＭＭＡＩ（パネルｂ）について、本明細書で説明されるＭＭＡＩモデルの人種サブ群におけるＦｉｎｅ＆Ｇｒａｙ回帰モデルからの部分分布ハザード比（ＨＲ）の結果を、検査コホートおよび訓練コホートの表形式で表した図である。

【図18A】[0031]全コホートにおけるＤＭの人種サブ群別の推定リスク／累積罹患率曲線の図である。

【図18B】全コホートにおけるＰＣＳＭの人種サブ群別の推定リスク／累積罹患率曲線の図である。

【図19A】[0032]開発コホート、検査コホート、および全コホートにおける人種サブ群内のＭＭＡＩモデル（ＤＭＭＭＡＩ）のリスク層別化を示す図である。

【図19B】[0033]開発コホート、検査コホート、および全コホートにおける人種サブ群内のＭＭＡＩモデル（ＰＣＳＭ）ＭＭＡＩのリスク層別化を示す図である。

【図20A】[0034]開発コホート、検査コホート、および全コホートにおける人種サブ群内のＭＭＡＩモデル（ＤＭＭＭＡＩ）のリスク層別化を示す図である。

【図20B】[0035]開発コホート、検査コホート、および全コホートにおける人種サブ群内のＭＭＡＩモデル（ＰＣＳＭ）ＭＭＡＩのリスク層別化を示す図である。

【図21】[0036]前立腺がん患者のコホートにおける遠隔転移（ＤＭ）の累積罹患率曲線を示す。

【図22】[0037]本明細書で説明される人工知能モデルによって予測されるリスクで層別化されたコホートの患者特性をまとめた表である。

【図23】[0038]ＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）のリスク層別化、およびマルチモーダルの人工知能リスク層別化による、同一患者コホートの差分リスク層別化を示す表である。

【図24】[0039]ＮＣＣＮ分類と比較した患者のコホートの１０年後のＭＭＡＩ予測の遠隔転移リスク（ＤＭ１０－ｙｒ）を示す図である。

【図25A】[0040]ＮＣＣＮ法および本明細書で開示される方法による患者コホートの差分層別化を図表現である。

【図25B】ＮＣＣＮ法および本明細書で開示される方法による患者コホートの差分層別化を図表現である。

【図26】[0041]親臨床試験ＮＲＧ／ＲＴＯＧ９９０２からの調査組み入れに向けた患者のフロー図である。Ｈ＆Ｅ＝ヘマトキシリンおよびエオシン、ＭＭＡＩ＝マルチモーダル人工知能、ＤＰＥＰ＝デジタル病理評価可能集団、ＲＴ＝放射線療法、ＡＳ＝アンドロゲン抑制、ＣＴ＝化学療法。

【図27A】[0042]親臨床試験ＮＲＧ／ＲＴＯＧ９９０２の参加者の集団特性を示す図である。

【図27B】ＮＲＧ／ＲＴＯＧ９９０２における個人の集団の処置群間のＭＭＡＩスコアを示す図である。

【図28A】[0043]ＭＭＡＩアルゴリズムとＤＭおよびＰＣＳＭエンドポイントとの関連付けについての単変量解析を示す表である。

【図28B】個々の臨床リスク因子を調整しながらの、ＭＭＡＩアルゴリズムとＤＭおよびＰＣＳＭエンドポイントとの関連付けについての多変量解析を示す表である。

【図29A】[0044]遠隔転移（ＤＭ）に対するＭＭＡＩの予後判定パフォーマンスを示す表である。

【図29B】サブ群分類内の前立腺がん特異的死亡率（ＰＣＳＭ）に対するＭＭＡＩの予後判定パフォーマンスを示す表である。

【図30A】[0045]すべての臨床リスク因子を調整した後のＰＭに対するＭＭＡＩアルゴリズムの多変量解析を示す表である。

【図30B】すべての臨床リスク因子を調整した後のＰＣＳＭに対するＭＭＡＩアルゴリズムの多変量解析を示す表である。

【図31A】[0046]ＢＦ、ＣＳＭ、およびＯＳに対するＤＭ予後判定ＭＭＡＩアルゴリズムの多変量解析を示す表である。

【図31B】ＢＦ、ＣＳＭ、およびＯＳに対するＰＣＳＭ予後判定ＭＭＡＩアルゴリズムの多変量解析を示す表である。

【図32A】[0047]ＤＭに最適化されたマルチモーダル人工知能（ＤＭＭＭＡＩ）によって予測された、四分位４ｖｓ．四分位１～３による推定された遠隔転移（ＤＭ）リスクの累積罹患率曲線を示す図である。

【図32B】ＰＣＳＭに最適化されたマルチモーダル人工知能（ＰＣＳＭＭＭＡＩ）によって予測された、四分位４ｖｓ．四分位１～３による推定された前立腺がん特異的死亡率リスク（ＰＣＳＭ）の累積罹患率曲線を示す図である。

【図33A】[0048]処置群別の四分位４ｖｓ．四分位１～３ＤＭＭＭＡＩによる推定された遠隔転移（ＤＭ）リスクの累積罹患率曲線を示す図である。

【図33B】処置群別の四分位４ｖｓ．四分位１～３ＰＣＳＭＭＭＡＩによる推定された前立腺がん特異的死亡リスク（ＰＣＳＭ）の累積罹患率曲線を示す図である。

【発明を実施するための形態】

【0015】

[0049]本明細書では本発明の様々な実施形態が示され、説明されているが、当業者には、そのような実施形態が例示としてのみ提供されることは明らかであろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更、置換を思い付くであろう。本明細書で説明される本発明の実施形態に対する様々な代替形態が採用され得ることが理解されるべきである。

【0016】

[0050]本明細書および特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈上明らかにそうでないことが指示されない限り、複数形への言及を含む。例えば、「核酸」という用語は、それらの混合物を含む複数の核酸を含む。

【0017】

[0051]本明細書で使用される場合、「被験者」という用語は、一般に、検査可能または検出可能な遺伝情報を有する実体または媒体を称する。被験者は、ヒト、個体、または患者とすることができる。被験者は、例えば哺乳類などの脊椎動物とすることができる。哺乳類の非限定的な例としては、ヒト、サル、家畜、スポーツ動物、げっ歯類、ペットなどが挙げられる。被験者は、男性被験者とすることができる。被験者は、女性被験者とすることができる。被験者は、被験者のがん関連の健康上のまたは生理学的な状態またはコンディションなど、被験者の健康上のまたは生理学的な状態またはコンディションを示す症状を示すことがある。あるいは、被験者は、そのような健康上のまたは生理学的な状態またはコンディションに関して無症状であってもよい。被験者は、ある健康上のまたは生理学的な状態またはコンディションを有していることが疑われる場合がある。被験者は、健康上のまたは生理学的な状態またはコンディションを発症するリスクがあり得る。健康上のまたは生理学的な状態は、疾患（例えば、がん）に相当する場合がある。被験者は、疾患があると診断された個人であってもよい。被験者は、疾病を発症するリスクのある個人であってもよい。

【0018】

[0052]本明細書で使用される場合、「がんの診断」、「がんを診断する」、および関連または派生する用語は、被験者におけるがんの識別、がんの悪性度の判定、またはがんのステージの判定を含む。

【0019】

[0053]本明細書で使用される場合、「がんの予後」、「がんの予後判定をする」、および関連または派生する用語は、患者の臨床転帰を予測すること、がん再発のリスクを評価すること、処置モダリティを決定すること、または処置有効性を判定することを含む。

【0020】

[0054]本明細書で使用される場合、「核酸」という用語は、一般に、任意の長さのヌクレオチドの重合体、デオキシリボヌクレオチド（ｄＮＴＰ）もしくはリボヌクレオチド（ｒＮＴＰ）、またはそれらの類似体を称する。核酸はどのような３次元構造を有してもよく、既知または未知の任意の機能を果たすことができる。核酸の非限定的な例としては、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、遺伝子または遺伝子断片のコード領域または非コード領域、連鎖解析から定義される遺伝子座（ｌｏｃｕｓ）、エクソン、イントロン、メッセンジャーＲＮＡ（ｍＲＮＡ）、転移ＲＮＡ、リボソームＲＮＡ、短鎖干渉ＲＮＡ（ｓｉＲＮＡ）、短鎖ヘアピンＲＮＡ（ｓｈＲＮＡ）、マイクロＲＮＡ（ｍｉＲＮＡ）、リボザイム、ｃＤＮＡ、組換え核酸、分岐核酸、プラスミド、ベクタ、任意の配列の単離ＤＮＡ、任意の配列の単離ＲＮＡ、核酸プローブ、およびプライマーがある。核酸は、メチル化ヌクレオチドおよびヌクレオチド類似体などの１つまたは複数の修飾ヌクレオチドを含んでいてもよい。存在する場合、ヌクレオチド構造への修飾は、核酸の組立て前または組立て後に行うことができる。核酸のヌクレオチドの配列は、非ヌクレオチド成分によって遮られることがある。核酸は重合後、レポータ剤との共役または結合などにより、さらに修飾することができる。

【0021】

[0055]本明細書で使用される場合、「標的核酸」という用語は、一般に、ヌクレオチド配列を有する核酸分子の出発集団中の核酸分子であって、その存在、量、および／または配列、あるいはこれらの１つまたは複数の変化を決定することが望まれる核酸分子を称する。標的核酸は、ＤＮＡ、ＲＮＡ、およびそれらの類似体を含む、あらゆる種類の核酸であってもよい。本明細書で使用される場合、「標的リボ核酸（ＲＮＡ）」とは、一般にＲＮＡである標的核酸を称する。本明細書で使用される場合、「標的デオキシリボ核酸（ＤＮＡ）」とは、一般にＤＮＡである標的核酸を称する。

【0022】

[0056]本明細書で使用される場合、「増幅すること」および「増幅」という用語は、一般に、核酸分子の大きさまたは量を増大させることを称する。核酸分子は一本鎖でもよいし、二本鎖でもよい。増幅は、核酸分子の１つまたは複数の複製または「増幅産物」を生成することを含み得る。増幅は、例えば、伸長（例えば、プライマー伸長）またはライゲーションによって行うことができる。増幅は、一本鎖核酸分子に相補的な鎖を生成するためにプライマー伸長反応を行うこと、場合によっては鎖および／または一本鎖核酸分子の１つまたは複数の複製を生成することを含み得る。「ＤＮＡ増幅」という用語は、一般に、ＤＮＡ分子または「増幅されたＤＮＡ産物」の１つまたは複数の複製を生成することを称する。「逆転写増幅」という用語は一般に、逆転写酵素の作用によってリボ核酸（ＲＮＡ）鋳型からデオキシリボ核酸（ＤＮＡ）を生成することを称する。

【0023】

本開示の実施形態

【0024】

[0057]前立腺がんは有病率が高いにもかかわらず、前立腺がんの正確で感度の高い具体的な診断は依然として困難である。前立腺がんは多くの場合無痛性であり、処置によって治癒することもあるが、過度な処置や処置の不足による悪影響により、前立腺がんはがん関連障害の世界的な主要原因となっており、男性におけるがん死亡の主要原因の１つであることに変わりはない。前立腺がん患者に対する最適な一連の治療を決定することは、患者の全体的な健康、患者のがんの特性、多くの可能な処置の副作用プロファイル、同様に診断された患者が関与する臨床試験の転帰データ、手元の患者の期待される将来的な転帰を予後判定することを考慮する必要がある、難しい医学的タスクである。この困難は、患者をより良好にリスク層別化するために、容易にアクセス可能な予後判定ツールがないために、さらに深刻である。

【0025】

[0058]人工知能（ＡＩ）により、これまでは解釈の難しかった膨大なデータセットから洞察が得られるようになった。標準的なリスク層別化ツールが固定的で少数の変数に基づいているのに対し、ＡＩは様々なモダリティにわたって最小限の処理しかされていない大量のデータから学習することができる。ＡＩシステムは低コストで、大規模に拡張可能で、使用を通じて徐々に改善することができる。

【0026】

[0059]治療のパーソナライゼーションを支援するための、正確でグローバルに拡張可能なツールが強く必要とされる。本明細書に開示される方法およびシステムは、前立腺生検のデジタル病理組織学および臨床データに対して訓練した新規のマルチモーダル深層学習モデルを使用して、長期的で、臨床的に関連する転帰（例えば、遠隔転移、生化学的再発、部分奏効、完全奏効、死亡、相対生存、がん特異的生存、無増悪生存、無病生存、５年生存、および全生存）を予測することによって、前立腺がん治療のパーソナライゼーションを実証する。

【0027】

[0060]本開示は、被験者（例えば、前立腺がんを患っているか、または前立腺がんを患っている疑いのある男性患者）から得られたか、または被験者由来の生体試料を処理することによって、がん関連カテゴリおよび／または状態を識別またはモニタするための方法、システム、およびキットを提供する。被験者から得られた生体試料（例えば、前立腺生検試料）は、がん関連カテゴリを識別するために解析され得る（これには、例えば、がん関連カテゴリの有無、または定量的な評価（例えば、リスク、予測される転帰）の見当をつけることを含み得る）。このような被験者には、１つまたは複数のがん関連カテゴリを有する被験者、およびがん関連カテゴリを有しない被験者を含んでもよい。がん関連カテゴリまたは状態には、例えば、がん陽性、がん陰性、がんステージ、がん処置に対する予測応答、および／または予測される長期転帰（例えば、疾患転移、生化学的再発、部分奏効、完全奏効、相対生存、がん特異的生存、無増悪生存、無病生存、５年生存、または全生存）が含まれ得る。

【0028】

生体試料のアッセイ

【0029】

[0061]生体試料は、ヒト被験者（例えば、男性被験者）から取得され得るか、またはヒト被験者に由来し得る。生体試料は、処理前に様々な温度（例えば、室温、冷蔵もしくは冷凍庫条件下、２５℃、４℃、－１８℃、－２０℃、もしくは－８０℃）、または様々な懸濁液（例えば、ホルマリン、ＥＤＴＡ収集管、無細胞ＲＮＡ収集管、もしくは無細胞ＤＮＡ収集管）などの多様な保存条件で保存することができる。生体試料は、がん（例えば、前立腺がん）を有する、もしくは有する疑いのある被験者から得てもよいし、またはがんを有しない、もしくは有する疑いのない被験者から得てもよい。

【0030】

[0062]生体試料は、生体試料を解析することにより、被験者の疾患または健康上のもしくは生理学的なコンディションを診断、検出または識別するために使用することができる。生体試料またはその一部は、その試料が疾患または健康のコンディション（例えば、前立腺がん）に対して陽性である可能性を決定するために解析され得る。あるいは、または加えて、本明細書で説明される方法は、疾患または健康のコンディションを有する被験者を診断するステップ、被験者において疾患または健康のコンディションをモニタするステップ、および／または被験者の健康上の疾患／コンディションの傾向を判断するステップを含み得る。いくつかの実施形態では、生体試料は、試料および／もしくは被験者をがん関連カテゴリに分類するため、ならびに／または被験者が特定のがん関連状態を有すると識別するために使用され得る。がん関連カテゴリまたは状態は、診断（例えば、がんの陽性または陰性）、特定の種類のがん（例えば、前立腺がん）、がんのステージ、予測される転帰もしくは予後、１つもしくは複数の処置に対する予測される応答、またはそれらの組合せを含み得る。

【0031】

[0063]測定可能な物質は、試料のソースとなり得る。物質は流体、例えば生体流体であってもよい。流体の物質には、血液（例えば、全血、血漿、血清）、臍帯血、唾液、尿、汗、血清、精液、膣液、胃液および消化液、脳脊髄液、胎盤液、腔液、眼液、血清、母乳、リンパ液、またはそれらの組合せがあり得る。

【0032】

[0064]物質は固体、例えば生体組織であってもよい。物質は正常な健康組織を含むことがある。組織は様々な種類の臓器に関連している可能性がある。臓器の非限定的な例としては、脳、乳房、肝臓、肺、腎臓、前立腺、卵巣、脾臓、リンパ節（扁桃腺を含む）、甲状腺、すい臓、心臓、骨格筋、腸、喉頭、食道、胃、またはそれらの組合せを挙げることができる。

【0033】

[0065]物質は腫瘍を含んでもよい。腫瘍は良性（非がん）、前悪性、または悪性（がん）、またはそれらの転移である。腫瘍および関連がんの非限定的な例としては、以下を挙げることができる：聴神経腫、急性リンパ芽球性白血病、急性骨髄性白血病、腺がん、副腎皮質がん、エイズ関連がん、エイズ関連リンパ腫、肛門がん、血管肉腫、虫垂がん、星細胞腫、基底細胞がん、胆管がん、膀胱がん、骨がん、脳腫瘍、例えば小脳星細胞腫、脳星細胞腫／悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外胚葉腫瘍、視覚路および視床下部神経膠腫、乳がん、気管支腺腫、バーキットリンパ腫、原発不明がん、中枢神経系リンパ腫、気管支原性がん、小脳星細胞腫、子宮頸がん、小児がん、軟骨肉腫、脊索腫、絨毛がん、慢性リンパ性白血病、慢性骨髄性白血病、慢性骨髄増殖性疾患、結腸がん（ｃａｎｃｅｒ）、結腸がん（ｃａｒｃｉｎｏｍａ）、頭蓋咽頭腫、皮膚Ｔ細胞リンパ腫、嚢胞腺がん、脱腫瘍性小円形細胞腫、胚細胞がん、内分泌系がん、子宮内膜がん、内皮肉腫、上衣腫、上皮がん、食道がん、ユーイング肉腫、線維肉腫、胚細胞腫瘍、胆嚢がん、胃がん、消化管カルチノイド腫瘍、消化管間質腫瘍、消化器系がん、泌尿生殖器系がん、神経膠腫、毛様細胞白血病、頭頸部がん、心臓がん、血管芽腫、肝細胞（肝臓）がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、膵島細胞がん、カポジ肉腫、腎臓がん、喉頭がん、平滑筋肉腫、口唇および口腔がん、脂肪肉腫、肝臓がん、肺がん、例えば非小細胞肺がんおよび小細胞肺がん、肺がん（ｃａｒｃｉｎｏｍａ）、リンパ管肉腫、リンパ管内皮腫、リンパ腫、白血病、マクログロブリン血症、骨悪性線維性組織球腫／骨肉腫、髄芽腫、髄様がん、黒色腫、髄膜腫、中皮腫、原発不明転移性扁平上皮頸部がん、口内がん、多発性内分泌腫瘍症候群、骨髄異形成症候群、骨髄性白血病、粘液肉腫、鼻腔および副鼻腔がん、上咽頭がん、神経芽細胞腫、非ホジキンリンパ腫、非小細胞肺がん、乏突起膠腫、口腔がん、中咽頭がん、骨肉腫／骨悪性線維性組織球腫、卵巣がん、卵巣上皮がん、卵巣胚細胞腫瘍、すい臓がん、すい臓がん膵島細胞、乳頭腺がん、乳頭がん、副鼻腔および鼻腔がん、副甲状腺がん、陰茎がん、咽頭がん、褐色細胞腫、松果体星細胞腫、松果体胚芽腫、下垂体腺腫、胸膜肺芽腫、形質細胞新生物、原発性中枢神経系リンパ腫、前立腺がん、直腸がん、腎細胞がん、腎盂および尿管移行細胞がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、肉腫、皮脂腺がん、セミノーマ、皮膚がん、皮膚メルケル細胞がん、小腸がん、軟部肉腫、扁平上皮がん、胃がん、汗腺がん、滑膜腫、Ｔ細胞リンパ腫、精巣腫瘍、咽頭がん、胸腺腫、胸腺がん、甲状腺がん、絨毛腫瘍（妊娠性）、原発部位不明のがん、尿道がん、子宮肉腫、膣がん、外陰がん、ワルデンストレームマクログロブリン血症、ウィルムス腫瘍、またはそれらの組合せ。腫瘍は様々な種類の臓器に関連している可能性がある。臓器の非限定的な例としては、脳、乳房、肝臓、肺、腎臓、前立腺、卵巣、脾臓、リンパ節（扁桃腺を含む）、甲状腺、すい臓、心臓、骨格筋、腸、喉頭、食道、胃、またはそれらの組合せを挙げることができる。

【0034】

[0066]物質は、正常な健康組織または腫瘍組織の混合物を含むことがある。組織は様々な種類の臓器に関連している可能性がある。臓器の非限定的な例としては、脳、乳房、肝臓、肺、腎臓、前立腺、卵巣、脾臓、リンパ節（扁桃腺を含む）、甲状腺、すい臓、心臓、骨格筋、腸、喉頭、食道、胃、またはそれらの組合せを挙げることができる。いくつかの実施形態では、組織は被験者の前立腺に関連する。細胞および／または組織を含む生体試料（例えば、生検試料）の場合、生体試料はさらに解析またはアッセイされてもよい。いくつかの実施形態では、生検試料は、固定、処理（例えば、脱水）、包埋、凍結、染色、および／または顕微鏡下で検査することができる。いくつかの実施形態では、処理された試料からデジタルスライドが生成される。

【0035】

[0067]いくつかの実施形態では、物質は、真核細胞、原核細胞、真菌細胞、心臓細胞、肺細胞、腎臓細胞、肝臓細胞、すい臓細胞、生殖細胞、幹細胞、人工多能性幹細胞、胃腸細胞、血液細胞、がん細胞、細菌細胞、ヒトマイクロバイオーム試料から単離された細菌細胞、およびヒト血液中の循環細胞を含む、多様な細胞を含み得る。いくつかの実施形態では、物質は、例えば単一の細胞の内容物、または複数の細胞の内容物など、細胞の内容物を含んでいてもよい。

【0036】

[0068]いくつかの実施形態では、物質は１つまたは複数のマーカーを含み得、その存在または非存在が、疾患、障害、感染、または環境暴露などの何らかの現象を示す。マーカーは、例えば、細胞、低分子、高分子、タンパク質、糖タンパク質、炭水化物、糖、ポリペプチド、核酸（例えば、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ））、無細胞核酸（例えば、ｃｆ－ＤＮＡ、ｃｆ－ＲＮＡ）、脂質、細胞成分、またはそれらの組合せであり得る。

【0037】

[0069]生体試料は、がんを有する被験者の処置前および／または処置後に採取することができる。生体試料は、処置中または処置レジメン中に被験者から得ることができる。処置の効果を経時的にモニタするために、被験者から複数の生体試料が採られる場合がある。生体試料は、がん（例えば、前立腺がん）を有することが分かっている、またはそれが疑われる被験者から採取され得る。生体試料は、疲労、吐き気、体重減少、痛みおよび疼痛、脱力感、または出血など、説明ができない症状がある被験者から採取することができる。生体試料は、説明できる症状を有する被験者から採取することができる。生体試料は、家族歴、年齢、高血圧もしくは高血圧予備軍、糖尿病もしくは糖尿病予備軍、過体重もしくは肥満、環境暴露、ライフスタイルリスク因子（例えば、喫煙、飲酒、または薬物使用）、または他のリスク因子の存在などの因子により、がんを発症するリスクがある被験者から採取することができる。

【0038】

[0070]被験者から生体試料を採った後、生体試料は処理されて、被験者の疾患、コンディション、がん関連カテゴリ、または健康状態を示すデータセットを生成することができる。例えば、組織試料を病理組織学的アッセイ（例えば、ｗｈｏｌｅｓｌｉｄｅｉｍａｇｉｎｇなどのデジタル画像取得を含む顕微鏡検査）にかけ、生体試料に基づいた画像データを生成することができる。あるいは、液体試料または試料から単離されたマーカーを検査（例えば、臨床検査室試験）にかけ、表形式データを生成してもよい。いくつかの実施形態では、試料は、１つまたは複数の代謝産物（例えば、前立腺特異抗原（ＰＳＡ））の存在、非存在、または量についてアッセイされる。

【0039】

データの種類

【0040】

[0071]本明細書で説明される方法およびシステムは、１つまたは複数のデータセットを入力とする。１つまたは複数のデータセットは、表形式データおよび／または画像データを含み得る。表形式データおよび／または画像データは、被験者の生体試料から得てもよい。いくつかの実施形態では、データは生体試料に由来するものではない。

【0041】

[0072]データは、被験者の生検から採取された組織試料の画像を含む場合がある。画像データは、生検試料の顕微鏡検査によって取得することができる。顕微鏡検査は、光学顕微鏡検査、仮想もしくはデジタル顕微鏡検査（ｗｈｏｌｅｓｌｉｄｅｉｍａｇｉｎｇ（ＷＳＩ）など）、または当分野で知られている任意の適切な顕微鏡検査技法で構成され得る。顕微鏡検査画像は、フィルタリング、分割、連結、または物体検出などの１つまたは複数の処理工程にかけられてもよい。

【0042】

[0073]本明細書で説明される表形式データは、被験者の健康状態またはコンディション（例えば、疾患）に関連する任意の非画像データを含み得る。表形式データは、以下のような臨床データを含み得る：１つまたは複数の時点における検査室データ（例えば、前立腺血清抗原（ＰＳＡ）レベル）、細胞病理の定性的な尺度（例えば、Ｇｌｅａｓｏｎグレード、Ｇｌｅａｓｏｎスコア）、構造化もしくは非構造化された健康データ（例えば、直腸デジタル検査結果）、医療画像データもしくは結果（例えば、Ｘ線、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、陽電子放射断層撮影法（ＰＥＴ）スキャン、または超音波検査の結果、例えば経直腸超音波検査結果）、年齢、病歴、以前もしくは現在のがんの状態（例えば、寛解、転移）もしくはステージ、現在もしくは以前の治療的介入、長期転帰、および／またはＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）分類もしくはその構成要素（例えば、ｃｏｍｂｉｎｅｄＧｌｅａｓｏｎスコア、ｔステージ、ベースラインＰＳＡ）。

【0043】

[0074]いくつかの実施形態では、治療的介入は放射線治療（ＲＴ）を含み得る。いくつかの実施形態では、治療的介入は化学療法を含み得る。いくつかの実施形態では、治療的介入は外科的介入を含み得る。いくつかの実施形態では、治療的介入は免疫療法を含み得る。いくつかの実施形態では、治療的介入はホルモン療法を含み得る。いくつかの実施形態では、ＲＴは、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）の事前設定された使用を伴うＲＴを含み得る。いくつかの実施形態では、ＲＴは、長期ＡＤＴ（ＬＴ－ＡＤＴ）の事前設定された使用を伴うＲＴを含み得る。いくつかの実施形態では、ＲＴは、線量漸増ＲＴ（ＤＥ－ＲＴ）の事前設定された使用を伴うＲＴを含み得る。いくつかの実施形態では、外科的介入は、根治的前立腺切除術（ＲＰ）を含み得る。いくつかの実施形態では、治療的介入は、本明細書で開示される治療的介入の任意の組合せを含み得る。いくつかの実施形態では、長期転帰は遠隔転移（ＤＭ）を含み得る。いくつかの実施形態では、長期転帰は生化学的再発（ＢＲ）を含み得る。いくつかの実施形態では、長期転帰は部分奏効を含み得る。いくつかの実施形態では、長期転帰は完全奏効を含み得る。いくつかの実施形態では、長期転帰は死亡を含み得る。いくつかの実施形態では、長期転帰は相対生存を含み得る。いくつかの実施形態では、長期転帰は、がん特異的生存を含み得る。いくつかの実施形態では、がん特異的生存は、前立腺がん特異的生存（ＰＣａＳＳ）を含み得る。いくつかの実施形態では、長期転帰は無増悪生存を含み得る。いくつかの実施形態では、長期転帰は無病生存を含み得る。いくつかの実施形態では、長期転帰は５年生存を含み得る。いくつかの実施形態では、長期転帰は全生存（ＯＳ）を含み得る。いくつかの実施形態では、長期転帰は、本明細書に開示される長期転帰の任意の組合せを含み得る。

【0044】

[0075]本明細書で説明される方法およびシステムで使用されるデータは、１つまたは複数の処理工程にかけられることがある。いくつかの実施形態では、データ（例えば、画像データ）は、画像処理、画像分割、または物体検出アルゴリズムとして符号化された、画像処理、画像分割、および／または物体検出プロセスにかけられる。画像処理手順は、画像のフィルタリング、変換、拡大縮小、回転、ミラーリング、せん断、結合、圧縮、分割、連結、画像からの特徴抽出、および／または下流処理前の画像の平滑化を行うことができる。いくつかの実施形態では、複数の画像（例えば病理組織スライド）を組み合わせて画像キルトを形成する。画像キルトは、画像データの下流処理に有用な表現（例えば、テンソル）に変換することができる。画像分割処理は、画像を、ある因子または関心領域を含む１つまたは複数のセグメントにパーティショニングすることができる。例えば、画像分割アルゴリズムは、デジタル組織病理学スライドを処理して、空白またはアーチファクトの領域とは全く異なる組織の領域を決定することができる。いくつかの実施形態では、画像分割アルゴリズムは、機械学習アルゴリズムまたは人工知能アルゴリズムを含み得る。いくつかの実施形態では、画像分割は画像処理に先行することがある。いくつかの実施形態では、画像処理は画像分割に先行することがある。物体検出処理は、標的物体（例えば、核などの、細胞または細胞部分）の有無を検出することを含むことがある。いくつかの実施形態では、物体検出は、画像処理および／または画像分割を進めることができる。例えば、画像検出アルゴリズムによって１つまたは複数の関心物体を含むことが判明した画像は、その後の画像処理工程で連結されてもよい。あるいは、または加えて、画像処理は、物体検出および／または画像分割に先行してもよい。例えば、生の画像データを処理（例えば、フィルタリング）し、処理した画像データが物体検出アルゴリズムにかけられてもよい。画像データは、任意の適切な順序で、複数の画像処理工程、画像分割工程、および／または物体検出工程にかけられてもよい。一例において、画像データは任意選択で、画質を向上させるために１つまたは複数の画像処理工程にかけられる。処理された画像は、次いで画像分割アルゴリズムにかけられ、関心領域（例えば、１組の病理組織スライドにおける組織の領域）が検出される。次に、関心領域は物体検出アルゴリズム（例えば、組織の画像中の核を検出するアルゴリズム）にかけられ、少なくとも１つの標的物体を有することが分かった領域は、下流での使用向けに処理済みの画像データを作り出すために連結される。

【0045】

[0076]いくつかの実施形態では、データ（例えば、表形式データ）は、１つまたは複数の処理工程にかけられてもよい。処理工程としては、限定されないが、標準化、または正規化などを挙げることができる。１つまたは複数の処理工程は、例えば、真でない値を含むデータ、または非常に少ない観測値を含むデータを破棄することができる。１つまたは複数の処理工程は、さらに、またはあるいは、データ値の符号化を標準化することができる。異なる入力データセットは、データセットのソース次第で、同一パラメータ値が異なる方法で符号化された同一のパラメータ値を有することがある。例えば、「９００」、「９００．０」、「９０４」、「９０４．０」、「－１」、「－１．０」、「Ｎｏｎｅ」、「ＮａＮ」はすべて、「欠落している」パラメータ値を符号化できる。１つまたは複数の処理工程は、同一値に対する符号化のばらつきを認識し、所与のパラメータ値に対して統一された符号化を有するようにデータセットを標準化することができる。したがって、処理工程は、下流で使用する入力データにおける不規則性を減らすことができる。１つまたは複数のデータセットは、パラメータ値を正規化することができる。例えば、数値データは、スケーリングされてもよいし、白くされてもよいし、着色されてもよいし、装飾されてもよいし、標準化されてもよい。例えば、データは特定の区間（例えば、［０，１］または［－１，１］）に入るようにスケーリングまたはシフトされてもよいし、および／または相関が除去されてもよい。いくつかの実施形態では、カテゴリ的なデータはワンホットベクトルとして符号化され得る。いくつかの実施形態では、１つまたは複数の異なる種類の表形式（例えば、数値、カテゴリ的な）データは、連結されてもよい。いくつかの実施形態では、データは処理工程にかけられない。

【0046】

[0077]データは、１つまたは複数の時点で取得されてもよい。いくつかの実施形態では、データは最初の時点と後の時点で取得される。最初の時点と後の時点は、１時間、１日、１週間、２週間、３週間、４週間、６週間、１２週間、４ヶ月、５ヶ月、６ヶ月、７ヶ月、８ヶ月、９ヶ月、１０ヶ月、１１ヶ月、１年、２年、３年、４年、５年、６年、７年、８年、９年、１０年、またはそれ以上など、任意の適切な長さの時間だけ間隔をあけてもよい。いくつかの実施形態では、データは３つ以上の時点からのものである。いくつかの実施形態では、データは３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれ以上の時点からのものである。

【0047】

訓練済みアルゴリズム

【0048】

[0078]被験者由来の１つまたは複数の生体試料を処理するために１つまたは複数のアッセイを使用して被験者のがん状態（例えば、１つまたは複数のがん関連カテゴリ）を示す１つまたは複数のデータセットを生成した後、訓練済みアルゴリズムを使用してデータセットの１つまたは複数（例えば、視覚データおよび／または表形式データ）を処理して被験者のがん状態を決定することができる。例えば、訓練済みアルゴリズムを使用して、画像データおよび／または検査室データに基づいて、被験者の（例えば、前立腺）がんの有無を判定することができる。訓練済みアルゴリズムは、少なくとも約２５、少なくとも約５０、少なくとも約１００、少なくとも約１５０、少なくとも約２００、少なくとも約２５０、少なくとも約３００、少なくとも約３５０、少なくとも約４００、少なくとも約４５０、少なくとも約５００、または約５００超の独立した試料に対し、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、または９９％超の精度でがんの状態を識別するように構成され得る。

【0049】

[0079]訓練済みアルゴリズムは、教師なし機械学習アルゴリズムを含み得る。訓練済みアルゴリズムは、教師あり機械学習アルゴリズムを含み得る。訓練済みアルゴリズムは、分類回帰木（ＣＡＲＴ）アルゴリズムを含み得る。教師あり機械学習アルゴリズムは、例えば、ランダムフォレスト、サポートベクタマシン（ＳＶＭ）、ニューラルネットワーク、または深層学習アルゴリズムを含み得る。訓練済みアルゴリズムは、自己教師あり機械学習アルゴリズムを含み得る。

【0050】

[0080]いくつかの実施形態では、本明細書で説明される方法またはシステムの機械学習アルゴリズムは、１つまたは複数のニューラルネットワークを利用する。場合によっては、ニューラルネットワークは、入力データセットと目標データセットとの間の関係を学習することができる計算システムの一種である。ニューラルネットワークは、人間の神経システム（例えば、認知システム）をソフトウェアで表現したものであり得、人間が使用するような「学習」および「汎化」の能力を捉えることが意図される。いくつかの実施形態では、機械学習アルゴリズムは、ＣＮＮからなるニューラルネットワークを含む。本明細書で説明される機械学習アルゴリズムの構造的な構成要素の非限定的な例には、以下のものがある：ＣＮＮ、再帰ニューラルネットワーク、膨張ＣＮＮ、全結合ニューラルネットワーク、深層生成モデル、ボルツマンマシン。

【0051】

[0081]いくつかの実施形態では、ニューラルネットワークは、「ニューロン」と呼ばれる一連の層から構成される。いくつかの実施形態では、ニューラルネットワークは、データが提示される入力層、１つまたは複数の内部層および／または「隠れ」層、ならびに出力層から構成される。ニューロンは、接続の強さを制御するパラメータである重みを有する接続を介して、他の層のニューロンに接続される。各層のニューロン数は、解くべき問題の複雑さに関係し得る。ある層で必要とされるニューロンの最小数は問題の複雑さによって決まることがあり、最大数はニューラルネットワークの汎化する能力によって制限され得る。入力ニューロンは、提示されるデータを受け取って、そのデータを、訓練中に修正される接続の重みを介して第１の隠れ層に送信することができる。第１の隠れ層はデータを処理し、その結果を重み付けされた第２の組の接続を通じて次の層に送信することができる。後続の各層は、前の層からの結果を「プール」して、より複雑な関係にすることができる。加えて、従来のソフトウェアプログラムが機能を実行するために特定の命令を記述する必要があるのに対し、ニューラルネットワークは既知のサンプルセットで自身を訓練し、出力値などの所望の出力を提供するように訓練中（および訓練後）に自身を修正できるようになることによってプログラムされる。訓練後、ニューラルネットワークに新たな入力データが提示されると、その入力に関連する出力を生成するために、訓練中に「学習」したことを汎化し、訓練で学習したことを新たな、これまで見たことのない入力データに適用するように構成される。

【0052】

[0082]いくつかの実施形態では、ニューラルネットワークは人工ニューラルネットワーク（ＡＮＮ）で構成される。ＡＮＮは、入力データセットを出力データセットにマッピングするように訓練され得る機械学習アルゴリズムであってよく、ＡＮＮは、ノードの相互接続された群が組織化されてノードの複数の層になったものを含む。例えば、ＡＮＮアーキテクチャは、少なくとも１つの入力層、１つまたは複数の隠れ層、および１つの出力層から構成され得る。ＡＮＮは、任意の総数の層、および任意の数の隠れ層を含むことができ、隠れ層は、１組の入力データを出力値または１組の出力値にマッピングすることを可能にする訓練可能な特徴抽出器として機能する。本明細書で使用される場合、深層学習アルゴリズム（深層ニューラルネットワーク（ＤＮＮ）など）は、複数の隠れ層、例えば２つ以上の隠れ層を含むＡＮＮである。ニューラルネットワークの各層は、多数のノード（すなわち「ニューロン」）を含み得る。ノードは、入力データから直接、または前の層のノードの出力から入力を受け取り、特定の演算、例えば総和演算を実行する。入力からノードへの接続には、重み（または重み付け係数）が関連付けられる。ノードは、すべての入力とそれらの関連付けられた重みとの対の積を足し合わせることができる。重み付けされた和は、バイアスでオフセットされることがある。ノードすなわちニューロンの出力は、閾値または活性化関数を用いてゲートされることがある。活性化関数は線形関数でもよいし、非線形関数でもよい。活性化関数は、例えば、整流線形ユニット（ＲｅＬＵ）活性化関数、ＬｅａｋｙＲｅＬＵ活性化関数、または飽和双曲線正接、恒等式、２値ステップ、ロジスティック、ａｒｃｔａｎ、ｓｏｆｔｓｉｇｎ、パラメトリック整流線形ユニット、指数線形ユニット、ｓｏｆｔｐｌｕｓ、曲げ恒等式、ｓｏｆｔｅｘｐｏｎｅｎｔｉａｌ、ｓｉｎｕｓｏｉｄ、ｓｉｎｃ、ガウス、またはシグモイド関数などの他の関数、あるいはそれらの組合せであってもよい。

【0053】

[0083]重み付け係数、バイアス値、および閾値、またはニューラルネットワークの他の計算パラメータは、訓練データの１つまたは複数の組を使用する訓練段階において「教示」または「学習」され得る。例えば、パラメータは、ＡＮＮが計算する出力値が訓練データセットに含まれる例と一貫するように、訓練データセットからの入力データおよび勾配降下法または逆伝搬法を使用して訓練することができる。

【0054】

[0084]ＡＮＮまたはＤＮＮの入力層で使用されるノードの数は、少なくとも約１０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１０，０００、２０，０００、３０，０００、４０，０００、５０，０００、６０，０００、７０，０００、８０，０００、９０，０００、１００，０００、またはそれより多くてもよい。他の例では、入力層で使用されるノードの数は、多くても約１００，０００、９０，０００、８０，０００、７０，０００、６０，０００、５０，０００、４０，０００、３０，０００、２０，０００、１０，０００、９０００、８０００、７０００、６０００、５０００、４０００、３０００、２０００、１０００、９００、８００、７００、６００、５００、４００、３００、２００、１００、５０、１０、またはそれより少なくてもよい。いくつかの例では、ＡＮＮまたはＤＮＮで使用される層の総数（入力層および出力層を含む）は、少なくとも約３、４、５、１０、１５、２０、またはそれより多くてもよい。他の例では、層の総数は多くても約２０、１５、１０、５、４、３、またはそれより少なくてもよい。

【0055】

[0085]いくつかの例では、ＡＮＮまたはＤＮＮで使用される学習可能または訓練可能なパラメータ、例えば、重み付け係数、バイアス、または閾値の総数は、少なくとも約１０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１０，０００、２０，０００、３０，０００、４０，０００、５０，０００、６０，０００、７０，０００、８０，０００、９０，０００、１００，０００、またはそれより多くてもよい。他の例では、学習可能なパラメータの数は、多くても約１００，０００、９０，０００、８０，０００、７０，０００、６０，０００、５０，０００、４０，０００、３０，０００、２０，０００、１０，０００、９０００、８０００、７０００、６０００、５０００、４０００、３０００、２０００、１０００、９００、８００、７００、６００、５００、４００、３００、２００、１００、５０、１０、またはそれ少ない場合がある。

【0056】

[0086]本明細書で説明される機械学習アルゴリズムのいくつかの実施形態では、機械学習アルゴリズムは、深層ＣＮＮなどのニューラルネットワークを含む。ＣＮＮが使用されるいくつかの実施形態では、ネットワークは、任意の数の畳み込み層、膨張層、または全結合層で構築される。いくつかの実施形態では、畳み込み層の数は１～１０の間であり、膨張層の数は０～１０の間である。畳み込み層（入力層および出力層を含む）の総数は、少なくとも約１、２、３、４、５、１０、１５、２０、またはそれより多くてもよく、膨張層の総数は、少なくとも約１、２、３、４、５、１０、１５、２０、またはそれより多くてもよい。畳み込み層の総数は、多くても約２０、１５、１０、５、４、３、またはそれより少なくてもよく、膨張層の総数は、多くても約２０、１５、１０、５、４、３、またはそれより少なくてもよい。いくつかの実施形態では、畳み込み層の数は１～１０の間であり、全結合層は０～１０の間である。畳み込み層（入力層および出力層を含む）の総数は、少なくとも約１、２、３、４、５、１０、１５、２０、またはそれより多くてもよく、全結合層の総数は、少なくとも約１、２、３、４、５、１０、１５、２０、またはそれより多くてもよい。畳み込み層の総数は、多くても約２０、１５、１０、５、４、３、２、１、またはそれより少なくてもよく、全結合層の総数は、多くても約２０、１５、１０、５、４、３、２、１、またはそれより少なくてもよい。

【0057】

[0087]いくつかの実施形態では、機械学習アルゴリズムは、ＣＮＮ、ＲＮＮ、膨張ＣＮＮ、全結合ニューラルネットワーク、深層生成モデルおよび／または深層制限ボルツマンマシンを含むニューラルネットワークを備える。

【0058】

[0088]いくつかの実施形態では、機械学習アルゴリズムは１つまたは複数のＣＮＮから構成される。ＣＮＮは、深層ＡＮＮおよびフィードフォワードＡＮＮであってもよい。ＣＮＮは、可視画像の解析にも応用できるかもしれない。ＣＮＮは、入力層、出力層、および複数の隠れ層を含み得る。ＣＮＮの隠れ層は、畳み込み層、プーリング層、全結合層、正規化層を含み得る。層は幅、高さ、奥行きの３次元で構成することができる。

【0059】

[0089]畳み込み層は、入力に畳み込み演算を適用し、畳み込み演算の結果を次の層に渡すことができる。画像を処理する場合、畳み込み演算によって自由パラメータの数を減らすことができ、より少ないパラメータでネットワークを深くすることができる。ニューラルネットワークでは、各ニューロンが前の層のいくつかの場所から入力を受け取ることがある。畳み込み層では、ニューロンは前の層の限定された部分領域からのみ入力を受け取ることができる。畳み込み層のパラメータは、１組の学習可能なフィルタ（またはカーネル）で構成されることがある。学習可能なフィルタは、小さな受容野を有し、入力ボリュームの全深さに広がることがある。フォワードパスの間、各フィルタは入力ボリュームの幅と高さにわたって畳み込まれ、フィルタのエントリと入力との間のドット積を計算し、そのフィルタの２次元活性化マップを生成することができる。結果として、ネットワークは、入力における何らかの空間的な位置で、ある特定の種類の特徴を検出したときに活性化するフィルタを学習することができる。

【0060】

[0090]いくつかの実施形態では、機械学習アルゴリズムはＲＮＮから構成される。ＲＮＮは、シーケンシャルなデータを符号化して処理できる、周期的な接続を持つニューラルネットワークである。ＲＮＮは、一連の入力を受信するように構成される入力層を含むことができる。ＲＮＮは加えて、ある状態を維持する１つまたは複数の隠れ再帰層を含むことができる。各工程において、隠れ再帰層は、出力と層の次の状態とを計算することができる。次の状態は、前の状態と現在の入力に依存する可能性がある。状態は工程をまたいで維持され得、入力シーケンスの依存関係を捉えることができる。

【0061】

[0091]ＲＮＮは長短期記憶（ＬＳＴＭ）ネットワークとすることができる。ＬＳＴＭネットワークはＬＳＴＭユニットから作ることができる。ＬＳＴＭユニットは、セル、入力ゲート、出力ゲート、忘却ゲートを含むことができる。セルは入力シーケンスにおける要素間の依存関係を追跡する役割を担うことができる。入力ゲートは新しい値がセルに流れ込む程度を制御することができ、忘却ゲートは値がセルに残る程度を制御することができ、出力ゲートはセル内の値がＬＳＴＭユニットの出力活性化を計算するために使われる程度を制御することができる。

【0062】

[0092]あるいは、ａｔｔｅｎｔｉｏｎ（アテンション）機構（例えばｔｒａｎｓｆｏｒｍｅｒ（トランスフォーマ））。ａｔｔｅｎｔｉｏｎ機構は、特定の入力領域に焦点を当てる、すなわちそこに「注目」しつつ、他の領域を無視する。これにより、特定の入力領域の関連性を低くできるため、モデルのパフォーマンスが向上する可能性がある。各工程において、ａｔｔｅｎｔｉｏｎユニットは、他の演算の中でも、コンテキストベクトルとその工程における入力とのドット積を計算することができる。ａｔｔｅｎｔｉｏｎユニットの出力は、入力シーケンスの中で最も関連性の高い情報がどこにあるかを定義することができる。

【0063】

[0093]いくつかの実施形態では、プーリング層はグローバルプーリング層を含む。グローバルプーリング層は、ある層のニューロンクラスタの出力を、次の層にある単一のニューロンに結合することができる。例えば、最大プーリング層は、先行層のニューロンのクラスタの各々からの最大値を使用することができる。平均プーリング層は、先行層のニューロンのクラスタの各々からの平均値を使用することができる。

【0064】

[0094]いくつかの実施形態では、全結合層は、ある層のすべてのニューロンを別の層のすべてのニューロンに接続する。ニューラルネットワークでは、各ニューロンが前の層のいくつかの場所から入力を受け取ることがある。全結合層では、各ニューロンは前の層のすべての要素から入力を受け取ることができる。

【0065】

[0095]いくつかの実施形態では、正規化層はバッチ正規化層である。バッチ正規化層は、ニューラルネットワークのパフォーマンスと安定性を向上させることができる。バッチ正規化層は、ニューラルネットワークの任意の層に、平均がゼロ／分散が１の入力を提供することができる。バッチ正規化層を使用する利点には、訓練するネットワークの高速化、学習率の向上、重みの容易な初期化、実行可能な活性化関数の増加、深いネットワークを作成するプロセスの簡素化を挙げることができる。

【0066】

[0096]訓練済みアルゴリズムは、複数の入力変数を受け付け、複数の入力変数に基づいて１つまたは複数の出力値を生成するように構成することができる。複数の入力変数は、がん関連カテゴリを示す１つまたは複数のデータセットから構成され得る。例えば、入力変数は、被験者の生検試料の顕微鏡検査画像を含み得る。複数の入力変数はまた、被験者の臨床健康データを含むことがある。

【0067】

[0097]訓練済みアルゴリズムは、１つまたは複数の出力値の各々が、分類器による生体試料および／または被験者の分類を示す固定数の可能な値のうちの１つ（例えば、線形分類器、ロジスティック回帰分類器など）を含むように、分類器を含むことができる。訓練済みアルゴリズムは、１つまたは複数の出力値の各々が、分類器による生体試料および／または被験者の分類を示す２つの値（例えば、｛０，１｝、｛陽性，陰性｝、または｛高リスク，低リスク｝）のうちの１つを含むように、２値分類器を含むことができる。訓練済みアルゴリズムは、１つまたは複数の出力値の各々が、分類器による生体試料および／または被験者の分類を示す３つ以上の値（例えば、｛０，１，２｝、｛陽性，陰性，または不確定｝、または｛高リスク，中間リスク，または低リスク｝）のうちの１つを含むような、別の種類の分類器であってもよい。出力値は、説明的なラベル、数値、またはそれらの組合せを含んでもよい。出力値の一部は、説明的なラベルを含んでもよい。このような説明的なラベルは、被験者の疾患または障害の状態の識別または指標を提供することができ、例えば、陽性、陰性、高リスク、中リスク、低リスク、または不確定を含んでもよい。このような説明的なラベルは、被験者のがん関連カテゴリに対する処置の識別を提供することができ、例えば、治療的介入、治療的介入の期間、および／または特定のがん関連カテゴリに分類される被験者を処置するのに適した治療的介入の容量を含み得る。

【0068】

[0098]出力値の一部は、２進数、整数、または連続値などの数値を含んでもよい。このような２進数出力値は、例えば、｛０，１｝、｛陽性，陰性｝、または｛高リスク，低リスク｝を含んでもよい。このような整数出力値は、例えば、｛０，１，２｝を含んでもよい。このような連続出力値は、例えば、少なくとも０かつ１以下の確率値を含んでもよい。このような連続出力値は、例えば、少なくとも０の正規化されていない確率値を含むことがある。このような連続出力値は、被験者のがん関連カテゴリの予後を示す可能性がある。一部の数値は、例えば１を「陽性」に、０を「陰性」にマッピングすることで、説明的なラベルにマッピングすることができる。

【0069】

[0099]出力値の一部は、１つまたは複数のカットオフ値に基づいて割り当てることができる。例えば、試料の２値分類は、試料が、被験者が少なくとも５０％の確率でがん関連状態（例えば、がんの種類またはステージ）を有すること、またはがん関連カテゴリに属することを示す場合、「陽性」または１の出力値を割り当てることができる。例えば、試料の２値分類は、試料が、被験者が５０％未満の確率でがん関連カテゴリに属することを示す場合、「陰性」または０の出力値を割り当てることができる。この事例では、５０％という単一のカットオフ値を使用して、試料を２つの可能な２値の出力値のうちの１つに分類する。単一のカットオフ値の例としては、約１％、約２％、約５％、約１０％、約１５％、約２０％、約２５％、約３０％、約３５％、約４０％、約４５％、約５０％、約５５％、約６０％、約６５％、約７０％、約７５％、約８０％、約８５％、約９０％、約９１％、約９２％、約９３％、約９４％、約９５％、約９６％、約９７％、約９８％、および約９９％を挙げることができる。

【0070】

[00100]別の例として、試料の分類は、被験者が、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上で、がん関連カテゴリ（例えば、がんの診断または予後）に属することを試料が示す場合、「陽性」または１の出力値を割り当てることができる。試料の分類は、被験者が約５０％超、約５５％超、約６５％超、約６５％超、約７０％超、約７５％超、約８０％超、約８５％超、約９０％超、約９１％超、約９２％超、約９３％超、約９４％超、約９５％超、約９６％超、約９７％超、約９８％超、または約９９％超の確率で、がん関連カテゴリ（例えば、長期転帰）に属することを試料が示す場合、「陽性」または１の出力値を割り当てることができる。

【0071】

[00101]試料の分類は、被験者が、約５０％未満、約４５％未満、約４０％未満、約３５％未満、約３０％未満、約２５％未満、約２０％未満、約１５％未満、約１０％未満、約９％未満、約８％未満、約７％未満、約６％未満、約５％未満、約４％未満、約３％未満、約２％未満、または約１％未満の確率でがん関連状態を有する、またはがん関連カテゴリ（例えば、前立腺がんが陽性）に属することを試料が示す場合、「陰性」または０の出力値を割り当てることができる。試料の分類は、被験者が約５０％以下、約４５％以下、約４０％以下、約３５％以下、約３０％以下、約２５％以下、約２０％以下、約１５％以下、約１０％以下、約９％以下、約８％以下、約７％以下、約６％以下、約５％以下、約４％以下、約３％以下、約２％以下、または約１％以下の確率で、がん関連状態（例えば、前立腺がん）を有することを試料が示す場合、「陰性」または０の出力値を割り当てることができる。

【0072】

[00102]試料の分類は、試料が「陽性」、「陰性」、１または０に分類されない場合、「不確定」または２の出力値を割り当てることができる。この事例では、１組の２つのカットオフ値を使用して、試料を３つの可能な出力値のうちの１つに分類する。カットオフ値の組の例としては、｛１％，９９％｝、｛２％，９８％｝、｛５％，９５％｝、｛１０％，９０％｝、｛１５％，８５％｝、｛２０％，８０％｝、｛２５％，７５％｝、｛３０％，７０％｝、｛３５％，６５％｝、｛４０％，６０％｝、および｛４５％，５５％｝を挙げることができる。同様に、カットオフ値のｎ個の組を使用して、試料をｎ＋１個の可能な出力値のうちの１つに分類することができる。ただし、ｎは任意の正の整数である。

【0073】

[00103]訓練済みアルゴリズムは、複数の独立的な訓練試料を用いて訓練することができる。独立的な訓練試料の各々は、被験者からの生体試料、（本明細書の他の箇所で説明される）生体試料をアッセイすることによって得られる関連データセット、被験者からの臨床データ、ならびに生体試料および／または被験者に対応する１つまたは複数の既知の出力値（例えば、被験者のがん関連状態の臨床診断、予後、非存在、または処置有効性）を含むことができる。独立的な訓練試料は、複数の異なる被験者から取得された、またはそれに由来する生体試料および関連データセットおよび出力を含み得る。独立的な訓練試料は、同一被験者から複数の異なる時点で（例えば、毎週、隔週、毎月、毎年など、定期的に）得られた生体試料および関連データセットおよび出力を含み得る。独立的な訓練試料は、がん関連状態の存在と関連付けられてもよい（例えば、がん関連状態を有すると分かっている複数の被験者から取得された、またはそれに由来する生体試料および関連するデータセットおよび出力を含む訓練試料）。独立的な訓練試料は、がん関連状態の非存在と関連付けられてもよい（例えば、以前にがん関連状態の診断を受けていないと分かっている複数の被験者、またはがん関連状態について陰性検査結果を受け取った複数の被験者から取得された、またはそれに由来する生体試料および関連データセットおよび出力を含む訓練試料）。

【0074】

[00104]訓練済みアルゴリズムは、少なくとも約５、少なくとも約１０、少なくとも約１５、少なくとも約２０、少なくとも約２５、少なくとも約３０、少なくとも約３５、少なくとも約４０、少なくとも約４５、少なくとも約５０、少なくとも約１００、少なくとも約１５０、少なくとも約２００、少なくとも約２５０、少なくとも約３００、少なくとも約３５０、少なくとも約４００、少なくとも約４５０、または少なくとも約５００の独立的な訓練試料を用いて訓練することができる。独立的な訓練試料は、がん関連カテゴリの存在に関連する無細胞生体試料および臨床データ、ならびに／またはがん関連カテゴリの非存在に関連する無細胞生体試料および臨床データを含んでもよい。訓練済みアルゴリズムは、がん関連カテゴリの存在に関連する約５００以下、約４５０以下、約４００以下、約３５０以下、約３００以下、約２５０以下、約２００以下、約１５０以下、約１００以下、または約５０以下の独立的な訓練試料を用いて訓練することができる。いくつかの実施形態では、生体試料および／または臨床データは、訓練済みアルゴリズムを訓練するために使用される試料とは独立的である。

【0075】

[00105]訓練済みアルゴリズムは、がん関連カテゴリの存在に関連する独立的な訓練試料の第１の数、およびがん関連カテゴリの非存在に関連する独立的な訓練試料の第２の数を用いて訓練することができる。がん関連カテゴリの存在に関連する独立的な訓練試料の第１の数は、がん関連カテゴリの非存在に関連する独立的な訓練試料の第２の数以下であってもよい。がん関連カテゴリが存在することに関連する独立的な訓練試料の第１の数は、がん関連カテゴリが存在しないことに関連する独立的な訓練試料の第２の数と等しくてもよい。がん関連カテゴリの存在に関連する独立的な訓練試料の第１の数は、がん関連カテゴリの非存在に関連する独立的な訓練試料の第２の数より多くてもよい。

【0076】

[00106]訓練済みアルゴリズムは、少なくとも約５、少なくとも約１０、少なくとも約１５、少なくとも約２０、少なくとも約２５、少なくとも約３０、少なくとも約３５、少なくとも約４０、少なくとも約４５、少なくとも約５０、少なくとも約１００、少なくとも約１５０、少なくとも約２００、少なくとも約２５０、少なくとも約３００、少なくとも約３５０、少なくとも約４００、少なくとも約４５０、または少なくとも約５００の独立的な訓練試料について、がん関連カテゴリを、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上の精度で識別するように構成され得る。訓練済みアルゴリズムによってがん関連カテゴリを識別する精度は、がん関連カテゴリに属するかまたは属さないと正しく識別または分類された独立的な検査試料（例えば、がん関連カテゴリに属すると分かっている被験者、またはがん関連カテゴリの臨床検査結果が陰性である被験者）の割合として算出することができる。

【0077】

[00107]訓練済みアルゴリズムは、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上の陽性適中率（ＰＰＶ）でがん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するＰＰＶは、がん関連カテゴリを有すると識別または分類された無細胞生体試料のうち、真にそのがん関連カテゴリに属する被験者に対応する割合として算出することができる。

【0078】

[00108]訓練済みアルゴリズムは、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上の陰性適中率（ＮＰＶ）でがん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するＮＰＶは、がん関連カテゴリを有しないと識別または分類された被験者データセットのうち、真にそのがん関連カテゴリに属さない被験者に対応する割合として算出することができる。

【0079】

[00109]訓練済みアルゴリズムは、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、またはそれ以上の臨床感度で、がん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床感度は、がん関連カテゴリを有するものとして正しく識別または分類された、がん関連カテゴリに関連する独立的な検査試料（例えば、がん関連カテゴリに属すると分かっている被験者）の割合として算出することができる。

【0080】

[00110]訓練済みアルゴリズムは、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、またはそれ以上の臨床特異性で、がん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床特異性は、がん関連カテゴリに属さないものとして正しく識別または分類された、がん関連カテゴリの非存在に関連する独立的な検査試料（例えば、がん関連カテゴリの臨床検査結果が陰性である被験者）の割合として算出することができる。

【0081】

[00111]訓練済みアルゴリズムは、少なくとも約０．５０、少なくとも約０．５５、少なくとも約０．６０、少なくとも約０．６５、少なくとも約０．７０、少なくとも約０．７５、少なくとも約０．８０、少なくとも約０．８１、少なくとも約０．８２、少なくとも約０．８３、少なくとも約０．８４、少なくとも約０．８５、少なくとも約０．８６、少なくとも約０．８７、少なくとも約０．８８、少なくとも約０．８９、少なくとも約０．９０、少なくとも約０．９１、少なくとも約０．９２、少なくとも約０．９３、少なくとも約０．９４、少なくとも約０．９５、少なくとも約０．９６、少なくとも約０．９７、少なくとも約０．９８、少なくとも約０．９９、またはそれ以上の曲線下面積（ＡＵＣ）でがん関連カテゴリを識別するように構成され得る。ＡＵＣは、被験者に由来するデータセットをがん関連カテゴリに属するか属さないかに分類する際の、訓練済みアルゴリズムに関連する受信者動作特性（ＲＯＣ）曲線の積分値（例えば、ＲＯＣ曲線下面積）として算出することができる。

【0082】

[00112]訓練済みアルゴリズムは、がん関連カテゴリを識別するパフォーマンス、精度、ＰＰＶ、ＮＰＶ、臨床感度、臨床特異性、またはＡＵＣのうち、１つまたは複数を改善するように調整またはチューニングすることができる。訓練済みアルゴリズムは、訓練済みアルゴリズムのパラメータ（例えば、本明細書の他の箇所で説明される生体試料を分類するために使用される１組のカットオフ値、またはニューラルネットワークの重み）を調整することによって調整またはチューニングされ得る。訓練済みアルゴリズムは、訓練プロセス中または訓練プロセスが完了した後に、継続的に調整またはチューニングされてもよい。

【0083】

[00113]訓練済みアルゴリズムが最初に訓練された後、入力のサブセットは、高品質の分類を行うために含めるべき最も影響力のある、または最も重要なものとして識別することができる。例えば、臨床データのサブセットは、がん関連カテゴリ（またはがん関連カテゴリのサブタイプ）の高品質の分類または識別を行うために含めるべき最も影響力のあるもの、または最も重要なものとして識別することができる。臨床データまたはそのサブセットは、がん関連カテゴリ（またはがん関連カテゴリのサブタイプ）の高品質な分類または識別を行う上での各パラメータの影響度または重要度を示す分類メトリクスに基づいてランク付けされる場合がある。このようなメトリクスは、いくつかの実施形態では、訓練済みアルゴリズムを（例えば、所望の最小精度、ＰＰＶ、ＮＰＶ、臨床感度、臨床特異性、ＡＵＣ、またはそれらの組合せに基づいて）所望のパフォーマンスレベルまで訓練するために使用することができる入力変数（例えば、予測器変数）の数を有意に低減するために使用され得る。例えば、訓練済みアルゴリズムにおいて数十から数百を含む多数の入力変数で訓練済みアルゴリズムを訓練することで分類精度が９９％超となる場合、代わりに、多数の入力変数のうち、最も影響力のある、または最も重要な入力変数の約５以下、約１０以下、約１５以下、約２０以下、約２５以下、約３０以下、約３５以下、約４０以下、約４５以下、約５０以下、または約１００以下の選択されたサブセットのみを使用して、訓練済みアルゴリズムを訓練すると、分類の精度は低下するが、それでも許容できる精度を与えることができる（例えば、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％）。サブセットは、多数の入力変数全体をランク－順位付けし、最良の分類メトリクスを有する所定数の入力変数（例えば、約５以下、約１０以下、約１５以下、約２０以下、約２５以下、約３０以下、約３５以下、約４０以下、約４５以下、約５０以下、または約１００以下）を選択することによって選択することができる。

【0084】

[00114]本明細書で説明されるシステムおよび方法は、出力（例えば、被験者のがん関連カテゴリ）を決定するために複数の訓練済みアルゴリズムを使用することができる。システムおよび方法は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれ以上の訓練済みアルゴリズムを含み得る。複数の訓練済みアルゴリズムのうちの１つの訓練済みアルゴリズムは、特定の種類のデータ（例えば、画像データまたは表形式データ）に対して訓練することができる。あるいは、１つの訓練済みアルゴリズムを複数の種類のデータで訓練することもできる。１つの訓練済みアルゴリズムの入力は、１つまたは複数の他の訓練済みアルゴリズムの出力を含んでもよい。加えて、訓練済みアルゴリズムは、１つまたは複数の訓練済みアルゴリズムの出力を入力として受け取ることができる。

【0085】

がん関連カテゴリまたは状態の識別またはモニタリング

【0086】

[00115]訓練済みアルゴリズムを使用してデータセットを処理した後、被験者においてがん関連カテゴリを識別、またはモニタすることができる。識別は、少なくとも部分的に、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータに基づいてもよい。

【0087】

[00116]がん関連カテゴリは、被験者のがん関連状態を特徴付けることができる。非限定的な例として、がん関連状態には、被験者ががん（例えば、前立腺がん）を有するもしくは有しない状態、被験者ががんのリスクがある、もしくはあるリスクレベル（例えば、高リスク、低リスク）を有する状態、がんの予測される長期転帰（例えば、遠隔転移、生化学的再発、部分奏効、完全奏効、全生存、がん特異的生存、無増悪生存、無病生存、５年生存、死亡）、治療的介入に対する応答もしくは受容、またはそれらの組合せを含み得る。

【0088】

[00117]被験者は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上の精度で、がん関連カテゴリに属すると識別され得る。訓練済みアルゴリズムによって個人のがん関連カテゴリを識別する精度は、がん関連カテゴリに属するかまたは属さないと正しく識別または分類された独立的な検査試料（例えば、がん関連カテゴリに属すると分かっている被験者、またはがん関連カテゴリに対応する臨床検査結果が陰性である被験者）の割合として算出することができる。

【0089】

[00118]被験者は、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上の陽性適中率（ＰＰＶ）でがん関連カテゴリに属すると判定され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するＰＰＶは、がん関連カテゴリに属すると識別または分類された生体試料のうち、真にそのがん関連カテゴリに属する被験者に対応する割合として算出することができる。

【0090】

[00119]がん関連カテゴリは、被験者において少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、またはそれ以上の陰性適中率（ＮＰＶ）で識別され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するＮＰＶは、がん関連カテゴリに属さないと識別または分類された生体試料のうち、真にそのがん関連カテゴリに属さない被験者に対応する割合として算出することができる。

【0091】

[00120]被験者は、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、またはそれ以上の臨床感度で、がん関連カテゴリに属すると識別され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床感度は、がん関連カテゴリに属するものとして正しく識別または分類された、がん関連カテゴリに属することに関連する独立的な検査試料（例えば、がん関連カテゴリに属すること分かっている被験者）の割合として算出することができる。

【0092】

[00121]がん関連カテゴリは、被験者において少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８１％、少なくとも約８２％、少なくとも約８３％、少なくとも約８４％、少なくとも約８５％、少なくとも約８６％、少なくとも約８７％、少なくとも約８８％、少なくとも約８９％、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．１％、少なくとも約９９．２％、少なくとも約９９．３％、少なくとも約９９．４％、少なくとも約９９．５％、少なくとも約９９．６％、少なくとも約９９．７％、少なくとも約９９．８％、少なくとも約９９．９％、少なくとも約９９．９９％、少なくとも約９９．９９９％、またはそれ以上の臨床特異性で、識別され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床特異性は、がん関連カテゴリに属さないものとして正しく識別または分類された、がん関連カテゴリに属さないことに関連する独立的な検査試料（例えば、がん関連カテゴリの臨床検査結果が陰性である被験者）の割合として算出することができる。

【0093】

[00122]被験者においてがん関連カテゴリが識別された後、がん関連カテゴリのサブタイプ（例えば、がん関連カテゴリの複数のサブタイプの中から選択される）がさらに識別され得る。がん関連カテゴリのサブタイプは、少なくとも部分的に、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータに基づいて判定され得る。例えば、被験者は、（例えば、前立腺がんのいくつかのサブタイプの中から）前立腺がんのあるサブタイプのリスクがあると識別され得る。被験者が前立腺がんのあるサブタイプのリスクにあると識別した後、被験者に対する臨床的介入が少なくとも部分的に、被験者にリスクがあると識別された前立腺がんのサブタイプに基づいて選択されてもよい。いくつかの実施形態では、臨床的介入は、複数の臨床的介入から選択される（例えば、前立腺がんの異なるサブタイプに対して臨床的に指示される）。

【0094】

[00123]被験者ががん関連カテゴリに属すると識別されると、被験者には任意選択で、治療的介入（例えば、被験者のがんの種類、サブタイプ、または状態を処置するための適切な一連の処置を処方する）が用意されることがある。治療的介入は、有効量の薬物または他の療法（例えば、放射線療法、化学療法）の処方、外科的介入（例えば、根治的前立腺切除術）、がん関連カテゴリのさらなる検査もしくは評価、がん関連カテゴリのさらなるモニタリング、またはそれらの組合せを含み得る。被験者ががん関連カテゴリに対して一連の処置で現在処置を受けている場合、治療的介入は、（例えば、現在の一連の処置が有効でないので、処置の有効性を高めるために）後続の異なる一連の処置を含んでいてもよい。

【0095】

[00124]治療的介入は、がん関連カテゴリの診断を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0096】

[00125]生検試料の解析（例えば、前立腺組織の顕微鏡画像の解析）、がん関連カテゴリ関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連カテゴリ関連代謝産物のパネルの定量的な尺度を含むメタボロームデータは、患者（例えば、がんを有する、もしくはがんのリスクがある被験者、またはがんの処置を受けている被験者）をモニタするために、一定期間にわたって評価され得る。このような場合、患者のデータセットの尺度は一連の処置の間に変化することがある。例えば、有効な処置によりがん関連カテゴリのリスクが低下している患者のデータセットの尺度は、健常な被験者（例えば、がんがない、またはがんの寛解期にある被験者）のプロファイルまたは分布に向かってシフトする可能性がある。それとは逆に、例えば、効果的でない処置によりがん関連カテゴリのリスクが上昇した患者のデータセットの尺度は、がん関連カテゴリのリスクがより高い被験者またはがん関連カテゴリがより進行した被験者のプロファイルまたは分布にシフトする可能性がある。

【0097】

[00126]被験者のがん関連カテゴリは、被験者のがんまたはがん関連状態を処置するための一連の処置をモニタすることによってモニタすることができる。モニタリングは、２つ以上の時点で被験者のがん関連カテゴリまたは状態を評価することを含んでもよい。評価は、少なくとも、２つ以上の時点のそれぞれで決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータに基づいてもよい。

【0098】

[00127]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、（ｉ）被験者のがん関連状態の診断、（ｉｉ）被験者のがん関連状態の予後、（ｉｉｉ）被験者のがん関連状態のリスクの上昇、（ｉｖ）被験者のがん関連状態のリスクの低下、（ｖ）被験者のがん関連状態を処置するための一連の処置の有効性、および（ｖｉ）被験者のがん関連状態を処置するための一連の処置の非有効性など、１つまたは複数の臨床指標を示すことがある。

【0099】

[00128]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連のカテゴリ関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連状態またはがん関連カテゴリの診断を示すことがある。例えば、がん関連状態が、早期の時点では被験者に検出されなかったが、後の時点で被験者に検出された場合、その差異は、被験者のがん関連状態が診断であることを示す。被験者のがん関連状態の診断という、この指標に基づいて、例えば、被験者に新たな治療的介入を処方するなどの臨床行為または決定を行うことができる。臨床行為または決定は、がん関連カテゴリの診断を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0100】

[00129]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連カテゴリの予後を示すことがある。

【0101】

[00130]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連のカテゴリ関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者ががん関連状態のリスクの上昇を有することを示すことがある。例えば、がん関連状態が早期の時点と後の時点の両方で被験者において検出され、その差異がネガティブな差異である場合（例えば、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連カテゴリに関連するタンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連カテゴリに関連する代謝産物のパネルにおける定量的な尺度を含むメタボロームデータが、早期の時点から後の時点にかけて上昇した場合）、その差異は、被験者のがん関連状態のリスクが上昇したことを示すことがある。がん関連状態のリスクの上昇という、この指標に基づいて、臨床行為または決定、例えば、被験者に対する新たな治療的介入の処方または治療的介入の切り替え（例えば、現在の処置を終了して新たな処置を処方する）を行うことができる。臨床行為または決定は、がん関連カテゴリのリスクの上昇を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0102】

[00131]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者ががん関連状態のリスクの低下を有することを示すことがある。例えば、がん関連状態が早期の時点と後の時点の両方で被験者において検出され、その差異がポジティブな差異である場合（例えば、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝産物のパネルにおける定量的な尺度を含むメタボロームデータが、早期の時点から後の時点にかけて減少した場合）、その差異は、被験者のがん関連状態のリスクが低下したことを示すことがある。がん関連状態のリスクの低下という、この指標に基づいて、被験者に対する臨床行為または決定（例えば、現在の治療的介入の継続または終了）を行うことができる。臨床行為または決定は、がん関連カテゴリのリスクの低下を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0103】

[00132]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連状態を処置するための一連の処置の有効性を示すことがある。例えば、がん関連状態が、早期の時点では被験者に検出されたが、後の時点で被験者に検出されなかった場合、その差異は、被験者のがん関連状態を処置するための一連の処置が有効であることを示し得る。被験者のがん関連状態を処置するための一連の処置が有効であるという、この指標に基づいて、臨床行為または決定、例えば被験者に対する現在の治療的介入の継続または終了、を行うことができる。臨床行為または決定は、がん関連カテゴリを処置するための一連の処置の有効性を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0104】

[00133]いくつかの実施形態では、２つ以上の時点間で決定された、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連カテゴリを処置するための一連の処置の非有効性を示すことがある。例えば、がん関連状態が早期の時点と後の時点の両方で被験者に検出され、その差異がネガティブである、またはゼロ差異である場合（例えば、生体試料の（例えば、生検試料の病理組織スライドの）定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および／またはがん関連代謝産物のパネルにおける定量的な尺度を含むメタボロームデータが、早期の時点から後の時点にかけて上昇した、または一定レベルのままである場合）、かつ早期の時点で有効な処置が示されていた場合、その差異は、被験者のがん関連状態を処置するための一連の処置が有効ではないことを示し得る。被験者のがん関連状態を処置するための一連の処置が有効ではないという、この指標に基づいて、臨床行為または決定、例えば被験者に対する現在の治療的介入の終了、および／または異なる新たな治療的介入への切り替え（例えば、処方）、を行うことができる。臨床行為または決定は、がん関連状態を処置するための一連の処置の非有効性を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0105】

がん関連状態のレポート出力

【0106】

[00134]がん関連状態が識別された後、またはがん関連状態のリスクの上昇が被験者においてモニタされた後、被験者のがん関連状態を示す（例えば、その指標を識別する、または提供する）レポートが電子的に出力され得る。被験者は、がん関連状態を示さないことがある（例えば、前立腺がんの存在またはリスクなどのがん関連状態は無症状である）。レポートは、ユーザの電子機器のグラフィカルユーザインターフェース（ＧＵＩ）上で提示される。ユーザは、被験者、介護者、医師、看護師、または他の医療従事者であり得る。

【0107】

[00135]レポートは、（ｉ）被験者のがん関連状態の診断、（ｉｉ）被験者のがん関連カテゴリの予後、（ｉｉｉ）被験者のがん関連カテゴリのリスクの上昇、（ｉｖ）被験者のがん関連カテゴリのリスクの低下、（ｖ）被験者のがん関連カテゴリを処置するための一連の処置の有効性、（ｖｉ）被験者のがん関連カテゴリを処置するための一連の処置の非有効性、および（ｖｉｉ）がん関連カテゴリの長期転帰など、１つまたは複数の臨床指標を含み得る。レポートは、これらの１つまたは複数の臨床指標に基づいて行われた１つまたは複数の臨床行為または決定を含むことができる。このような臨床行為または決定は、被験者のがん関連状態の治療的介入、またはさらなる臨床評価もしくは検査に向けられてもよい。

【0108】

[00136]例えば、被験者のがん関連状態の診断という臨床指標は、被験者に新たな治療的介入を処方するという臨床行為を伴うことがある。別の例として、被験者のがん関連状態のリスクの上昇という臨床指標は、被験者に対して新たな治療的介入を処方する、または治療的介入を切り替える（例えば、現在の処置を終了して新たな処置を処方する）という臨床行動を伴うことがある。別の例として、被験者のがん関連状態のリスクの低下という臨床指標は、被験者に対する現在の治療的介入を継続または終了するという臨床的行動を伴うことがある。別の例として、被験者のがん関連状態を処置するための一連の処置の有効性の臨床指標は、被験者に対する現在の治療的介入を継続または終了するという臨床行為を伴うことがある。別の例として、被験者のがん関連状態を処置するための一連の処置の非有効性の臨床指標は、被験者に対する現在の治療的介入の終了、および／または異なる新たな治療的介入への切り替え（例えば、処方）という臨床行為を伴うことがある。

【0109】

[00137]いくつかの実施形態では、治療的介入は、放射線療法（ＲＴ）、化学療法、外科的介入（例えば、根治的前立腺切除術）、がん関連カテゴリのさらなる検査もしくは評価、がん関連カテゴリのさらなるモニタリング、またはそれらの組合せを含み得る。被験者ががん関連カテゴリに対して一連の処置で現在処置を受けている場合、治療的介入は、（例えば、現在の一連の処置が有効でないので、処置の有効性を高めるために）後続の異なる一連の処置を含んでいてもよい。治療的介入は、がん関連カテゴリの診断を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法（ＣＴ）スキャン、磁気共鳴画像法（ＭＲＩ）スキャン、超音波スキャン、Ｘ線検査、陽電子放射断層撮影法（ＰＥＴ）スキャン、ＰＥＴ－ＣＴスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。

【0110】

コンピュータシステム

【0111】

[00138]本開示は、本開示の方法を実装するようにプログラムされたコンピュータシステムを提供する。図１は、例えば、（ｉ）訓練済みアルゴリズムを訓練および試験し、（ｉｉ）訓練済みアルゴリズムを使用して画像データおよび／または表形式データを処理して被験者のがん関連カテゴリまたはがん関連状態を判定し、（ｉｉｉ）分類したカテゴリに基づいて被験者のがんを評価し、（ｉｖ）被験者のがん関連カテゴリまたはがん関連状態を識別またはモニタし、（ｖ）被験者のがん関連カテゴリまたはがん関連状態を示すレポートを電子的に出力するようにプログラムされた、またはその他の方法で構成されたコンピュータシステム１０１を示す。

【0112】

[00139]コンピュータシステム１０１は、例えば、（ｉ）訓練済みアルゴリズムを訓練および試験すること、（ｉｉ）訓練済みアルゴリズムを使用して画像データおよび／または表形式データを処理し、被験者のがん関連カテゴリまたはがん関連状態を決定すること、（ｉｉｉ）分類したカテゴリに基づいて被験者のがんを評価すること、（ｉｖ）被験者のがん関連カテゴリまたはがん関連状態を識別またはモニタすること、および（ｖ）被験者のがん関連カテゴリまたはがん関連状態を示すレポートを電子的に出力することなど、本開示の解析、計算、および生成の様々な態様を調節することができる。コンピュータシステム１０１は、ユーザの電子機器、またはその電子機器に関して遠隔に位置するコンピュータシステムとすることができる。電子機器はモバイル電子機器でもよい。

【0113】

[00140]コンピュータシステム１０１は中央処理ユニット（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」ともいう）１０５を含み、これは単一のコアもしくはマルチコアのプロセッサ、または並列処理用の複数のプロセッサとすることができる。コンピュータシステム１０１はまた、メモリまたはメモリロケーション１１０（例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ）、電子記憶ユニット１１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インターフェース１２０（例えば、ネットワークアダプタ）、ならびにキャッシュ、他のメモリ、データ記憶および／または電子ディスプレイアダプタなどの周辺機器１２５を含む。メモリ１１０、記憶ユニット１１５、インターフェース１２０および周辺機器１２５は、マザーボードなどの通信バス（実線）を介してＣＰＵ１０５と通信可能である。記憶ユニット１１５は、データを記憶するためのデータ記憶ユニット（またはデータリポジトリ）とすることができる。コンピュータシステム１０１は、通信インターフェース１２０の助けを借りて、コンピュータネットワーク（「ネットワーク」）１３０に動作可能に結合することができる。ネットワーク１３０は、インターネット、インターネットおよび／またはエクストラネット、あるいはインターネットと通信しているイントラネットおよび／またはエクストラネットとすることができる。

【0114】

[00141]いくつかの実施形態では、ネットワーク１３０は、電気通信ネットワークおよび／またはデータネットワークである。ネットワーク１３０は、クラウドコンピューティングなどの分散コンピューティングを可能にする１つまたは複数のコンピュータサーバを含むことができる。例えば、１つまたは複数のコンピュータサーバはネットワーク１３０（「クラウド」）を介してクラウドコンピューティングを可能にして、例えば、（ｉ）訓練済みアルゴリズムを訓練および試験すること、（ｉｉ）訓練済みアルゴリズムを使用してデータを処理し、被験者のがん関連カテゴリを決定すること、（ｉｉｉ）被験者のがん関連カテゴリを示す定量的な尺度を決定すること、（ｉｖ）被験者のがん関連カテゴリを識別またはモニタすること、および（ｖ）被験者のがん関連カテゴリを示すレポートを電子的に出力することなど、本開示の解析、計算、および生成の様々な態様を実施することができる。このようなクラウドコンピューティングは、例えば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ（ＡＷＳ）、ＭｉｃｒｏｓｏｆｔＡｚｕｒｅ、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ、ＩＢＭｃｌｏｕｄなどのクラウドコンピューティングプラットフォームによって提供され得る。いくつかの実施形態では、ネットワーク１３０は、コンピュータシステム１０１の助けを借りて、ピアツーピアネットワークを実装することができ、これによってコンピュータシステム１０１に結合された機器がクライアントまたはサーバとして振る舞うことができる。

【0115】

[00142]ＣＰＵ１０５は、１つもしくは複数のコンピュータプロセッサおよび／または１つもしくは複数のグラフィック処理ユニット（ＧＰＵ）を含み得る。ＣＰＵ１０５は、プログラムまたはソフトウェアに具現化することができる一連の機械可読命令を実行することができる。命令は、メモリ１１０のようなメモリロケーションに記憶されてもよい。命令は、ＣＰＵ１０５に向けることができ、その後、本開示の方法を実装するようにＣＰＵ１０５をプログラムするか、またはその他の方法で構成することができる。ＣＰＵ１０５によって実行される動作の例としては、フェッチ、デコード、実行、ライトバックを挙げることができる。

【0116】

[00143]ＣＰＵ１０５は、集積回路などの回路の一部とすることができる。システム１０１の１つまたは複数の他の構成要素が回路に含められてもよい。いくつかの実施形態では、回路は特定用途向け集積回路（ＡＳＩＣ）である。

【0117】

[00144]記憶ユニット１１５は、ドライバ、ライブラリ、保存されたプログラムなどのファイルを記憶することができる。記憶ユニット１１５は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができる。いくつかの実施形態では、コンピュータシステム１０１は、イントラネットまたはインターネットを通じてコンピュータシステム１０１と通信しているリモートサーバ上にあるなど、コンピュータシステム１０１の外部にある１つまたは複数の追加的なデータ記憶ユニットを含むことができる。

【0118】

[00145]コンピュータシステム１０１は、ネットワーク１３０を介して１つまたは複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム１０１は、ユーザのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートＰＣまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）のｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）のＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）のｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、またはパーソナルデジタルアシスタントが挙げられる。ユーザは、ネットワーク１３０を介してコンピュータシステム１０１にアクセスすることができる。

【0119】

[00146]本明細書で説明される方法は、例えば、メモリ１１０または電子記憶ユニット１１５上など、コンピュータシステム１０１の電子的な記憶場所に記憶された機械（例えば、コンピュータプロセッサ）実行可能コードによって実装することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形で用意することができる。使用中、コードはプロセッサ１０５によって実行できる。いくつかの実施形態では、コードは記憶ユニット１１５から取り出され、プロセッサ１０５がすぐにアクセスできるようにメモリ１１０に記憶することができる。状況によっては、電子記憶ユニット１１５を使用せず、機械実行可能な命令はメモリ１１０に記憶されてもよい。

【0120】

[00147]コードは事前にコンパイルされ、コードを実行するプロセッサを有する機械で使用するように構成されてもよいし、実行時にコンパイルされてもよい。コードは、プリコンパイルまたはアズコンパイルされた様式でコードを実行できるように選択できるプログラミング言語で供給することができる。

【0121】

[00148]コンピュータシステム１０１など、本明細書で提供されるシステムおよび方法の実施形態は、プログラミングで具現化することができる。本技術の様々な態様は、典型的には、ある種の機械可読媒体で搬送または具現化される機械（またはプロセッサ）実行可能コードおよび／または関連データの形態の「製品」または「製造物品」と考えることができる。機械実行可能コードは、メモリ（例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリなど）またはハードディスクなどの電子記憶ユニットに記憶することができる。「記憶」タイプの媒体としては、コンピュータ、プロセッサなどの有形メモリ、またはその関連モジュール、例えば、様々な半導体メモリ、テープドライブ、またはディスクドライブのいずれかまたはすべてを挙げることができ、これらは、ソフトウェアプログラミングのためにいつでも非一時的な記憶を提供することができる。ソフトウェアのすべてまたは一部は、時にインターネットまたはその他の様々な電気通信ネットワークを通じて通信されてもよい。このような通信は、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのように、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへのソフトウェアのロードを可能にする。したがって、ソフトウェア要素を保持することができる別の種類の媒体としては、ローカルデバイス間の物理的インターフェースをまたいで、有線および光固定回線ネットワークを通じて、および様々なエアリンク上で使用されるような、光波、電波、電磁波が挙げられる。有線または無線リンク、光リンクなど、このような波を搬送する物理的要素も、ソフトウェアを保持する媒体と考えることができる。本明細書で使用される場合、非一時的な有形の「記憶」媒体に限定されない限り、コンピュータまたは機械「可読記憶媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。

【0122】

[00149]したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体など、多くの形態をとることができる。不揮発性記憶媒体としては、例えば、図面に示すデータベースなどを実現するために使用され得るような、任意のコンピュータなどにおける記憶装置のいずれかのような、光ディスクまたは磁気ディスクが挙げられる。揮発性記憶媒体には、このようなコンピュータプラットフォームの主メモリなどのダイナミックメモリがある。有形伝送媒体には、コンピュータシステム内のバスを構成する電線を含め、同軸ケーブル、銅線、光ファイバなどがある。搬送波伝送媒体は、電気信号もしくは電磁信号、または高周波（ＲＦ）および赤外線（ＩＲ）データ通信時に発生するような音響波もしくは光波の形態をとることがある。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤまたはＤＶＤ－ＲＯＭ、その他の光学媒体、パンチカード紙テープ、穴のパターンを有するその他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、その他のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、そのような搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができるその他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、１つまたは複数の命令の１つまたは複数のシーケンスを、実行のためにプロセッサに運ぶことに関与し得る。

【0123】

[00150]コンピュータシステム１０１は、例えば以下を提供するためのユーザインターフェース（ＵＩ）１４０を含む電子ディスプレイ１３５を含むか、またはこれらと通信することができる：（ｉ）訓練済みアルゴリズムの訓練および試験を示す視覚表示、（ｉｉ）被験者のがん関連カテゴリを示すデータの視覚表示、（ｉｉｉ）被験者のがん関連カテゴリの定量的な尺度、（ｉｖ）がん関連カテゴリを有するものとしての被験者の識別、または（ｖ）被験者のがん関連カテゴリを示す電子レポート。ＵＩの例としては、限定はしないが、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブベースのユーザインターフェースがある。

【0124】

[00151]本開示の方法およびシステムは、１つまたは複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理ユニット２０５による実行時にソフトウェアによって実装することができる。アルゴリズムは、例えば、（ｉ）訓練済みアルゴリズムを訓練および試験し、（ｉｉ）訓練済みアルゴリズムを使用して画像データおよび／または表形式データを処理して被験者のがん関連カテゴリまたはがん関連状態を判定し、（ｉｉｉ）分類したカテゴリに基づいて被験者のがんを評価し、（ｉｖ）被験者のがん関連カテゴリまたはがん関連状態を識別またはモニタし、（ｖ）被験者のがん関連カテゴリまたはがん関連状態を示すレポートを電子的に出力することができる。

【0125】

[00152]実施例１：マルチモーダル深層学習による前立腺がん治療のパーソナライゼーション

【0126】

[00153]本明細書に開示される方法およびシステムは、前立腺生検のデジタル病理組織学および臨床データに対して訓練した新規のマルチモーダル深層学習モデルを使用して、長期的で、臨床的に関連する転帰（遠隔転移、生化学的再発、前立腺がんによる死亡、および全生存）を予測することによって、前立腺がん治療のパーソナライゼーションを実証する。本開示の例示的なシステムは、数百の臨床施設にわたって実施された５つの第ＩＩＩ相無作為化多国籍試験のデータセットを使用して訓練および検証された訓練済みアルゴリズムを含む。患者７，９５７人中５，６５４人（７１．１％）の臨床データおよび組織病理学データが利用可能であり、患者フォローアップが１０年～２０年の１６．１テラバイトの病理組織画像が得られた。最も一般的に使用されているリスク層別化ツールであるＮａｔｉｏｎａｌＣａｎｃｅｒＣｅｎｔｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）のリスク群と比較すると、深層学習モデルは、検査されたすべての転帰において優れた予後判定および弁別パフォーマンスを示した。この人工知能システムによって、腫瘍医は特定の患者について最も起こりやすい転帰を計算的にモデル化し、患者の最適な処置を決定できるようになり得る。デジタル組織病理学スキャナーおよびインターネットアクセスを備え付ければ、どのクリニックでもこのような機能を提供することができ、肝要な治療のパーソナライゼーションへの低コストで普遍的なアクセスが可能となる。

【0127】

[00154]ＮＣＣＮのリスク群は、１９９０年代後半に開発され、Ｄ’Ａｍｉｃｏリスク群と称されるリスク層別化の国際標準に基づいている。このシステムは、直腸デジタル検査、血清前立腺特異抗原（ＰＳＡ）測定、組織病理学によって評価される腫瘍のグレードに基づいている。この３階層のシステムは、世界中で処置推奨の基幹を形成し続けているが、患者をリスク層別化するには、予後判定および弁別パフォーマンスは最適とはいえない。これは部分的に、これらのモデルの核となる変数が非常に主観的であり、性質として非特異的であるためである。例えば、Ｇｌｅａｓｏｎグレーディングは１９６０年代に開発されたが、依然として非常に主観的であり、専門の泌尿器科病理医の間でさえ、観察者間の再現性は受け入れられるものではない。最近では、組織ベースのゲノムバイオマーカーが予後判定パフォーマンスの改善を実証している。しかし、これらの検査のほとんどすべては、意図された使用集団における前向きな（ｐｒｏｓｐｅｃｔｉｖｅ）無作為化臨床試験での検証を欠いており、コストと処理時間の問題から国際的な採用はほとんどない。このように、前立腺がんに対する治療をパーソナライズするための改良されたツールに対する臨床的ニーズは、依然として満たされていない。

【0128】

[00155]人工知能（ＡＩ）は、医師レベルの診断からワークフローの最適化まで、医療における多くのユースケースで目覚ましい能力を実証しており、デジタル組織病理学の臨床採用が継続するにつれて、がん治療をサポートする可能性を有している。ＡＩは、例えば短期的な患者転帰を予測したり、術後の手術検体におけるＧｌｅａｓｏｎベースのがんグレーディングの精度を向上させたりすることで、病理組織学ベースの予後判定において進歩し始めている。標準的なリスク層別化ツールが固定的で少数の変数に基づいているのに対し、ＡＩは様々なモダリティにわたる最小限の処理しかされていない大量のデータから学習することができる。ゲノムバイオマーカーとは対照的に、ＡＩシステムは低コストで、大規模に拡張可能であり、使用を通じて段階的に改善される。さらに、どのバイオマーカーにとっても重要な課題は、訓練して、関連するエンドポイントを検証するための最適なデータを有することであり、腫瘍学における一部の市販の予後判定バイオマーカーは、後ろ向きの（ｒｅｔｒｏｓｐｅｃｔｉｖｅ）コンビニエンスサンプリングに対して訓練されている。

【0129】

[00156]本明細書に開示される方法およびシステムは、限局性前立腺がんにおける転帰予後判定に対して満たされないニーズを有意義に克服し、世界的な採用の可能性を持つ一般化可能なバイオマーカーを作り出すことができるマルチモーダル人工知能（ＭＭＡＩ）システムを含むことができる。デジタル組織病理学にマルチモーダル深層学習を活用することにより、５つの第ＩＩＩ相無作為化臨床試験を用いた前立腺がん限局性予後判定バイオマーカーを、本明細書で説明されるアルゴリズムを訓練するために使用した。

【0130】

[00157]限局性前立腺がんを有する男性を対象とした５つの大規模多国籍無作為化第ＩＩＩ相臨床試験（ＮＲＧ／ＲＴＯＧ９２０２、９４０８、９４１３、９９１０、０１２６）から一意のデータセットが生成された。すべての患者は、短期アンドロゲン遮断療法（ＳＴ－ＡＤＴ）、長期ＡＤＴ（ＬＴ－ＡＤＴ）、の事前設定された使用を伴う根治的放射線療法（ＲＴ）、および／または線量漸増ＲＴ（ＤＥ－ＲＴ）を受けた（図２Ｃ）。これら５つの試験に登録された７，９５７人の患者のうち、完全なベースラインの臨床データを有する患者は７，７５２人、完全なベースラインおよびデジタル組織病理学データを有する患者は５，６５４人であった。これは、処置前生検試料の病理組織スライド１６，２０４枚から得られた１６．１ＴＢの病理組織画像に相当する。

【0131】

[00158]ＭＭＡＩアーキテクチャは、表形式データ（臨床データ）と画像ベース（病理組織）データの両方を取り込むことができ、無作為化臨床試験データに比類なく適している。完全なアーキテクチャは図２Ａに示されている。データセットの各患者は、臨床変数（検査室データ、病理データ、治療的介入、長期転帰を含む）、およびデジタル組織病理学スライド（中央値３．５スライド）で表される。両方のデータストリームにまたがる共同学習（ｊｏｉｎｔｌｅａｒｎｉｎｇ）は複雑で、３つの別個の深層学習パイプラインの構築を伴う。１つは画像用、もう１つは表形式データ用、そして３つ目はそれらを統合するためのものである。データは、一貫性を持たせるために試験をまたいで標準化された。

【0132】

[00159]可変数のデジタル組織病理学スライドから関連する特徴を効果的に学習するには、画像を標準化するためにいくつかの前処理工程が伴い、その後に自己教師ありの訓練を行った。患者ごとに、患者の生検スライドにおいて全組織切片を分割し、画像キルト（図５）と呼ばれる、全患者で幅と高さが固定された単一の大きな画像に合成した。画像キルトの上にＨ×Ｗのグリッドを重ね、ＲＧＢチャンネルにわたって２５６×２５６ピクセルのパッチに切り分けた。次いでこれらのパッチを用いて、自己教師あり（ＳＳＬ）モデルを訓練し、下流のＡＩタスクに有用な病理組織学的特徴を学習した。図２Ｂはパイプラインのこの部分を示している。一旦訓練すると、次にＳＳＬモデルは画像キルトのパッチを取り込み、パッチごとに１２８次元ベクトル表現を出力することができる。これらすべてのベクトルを元のパッチと同じ空間方向で連結することで、Ｈ×Ｗ×１２８のテンソル（特徴キルト）が与えられ、これは最初に膨大だった画像キルトを、さらに下流の学習に有用なコンパクトな表現に圧縮したものである。

【0133】

[00160]ＳＳＬは、アノテーションのないデータセットから学習するために使用できる方法である。典型的なＭＬのセットアップは教師あり学習を活用し、この学習ではデータセットはデータ点（例えば画像）とデータラベル（例えばオブジェクトクラス）で構成される。それとは対照的に、ＳＳＬでは、合成データラベルが元データから抽出され、下流のタスクに使用できる一般的な特徴表現を訓練するために使用される。Ｍｏｍｅｎｔｕｍｃｏｎｔｒａｓｔは、１組の画像パッチを受け取り、各パッチの増強された複製を生成し、次いで任意の２つの増強された複製が同一の元パッチから得られたものであるかどうかを予測するようにモデルを訓練する技法であり、医療タスクに関して特徴を学習する際有効な場合がある。構造的なセットアップを図２Ｂに示すが、さらなる詳細は本明細書の別の箇所で説明する。

【0134】

[00161]臨床的により有用である可能性が高いパッチ領域にＳＳＬプロセスを誘導するため、データセット中のパッチを核密度に基づいてオーバーサンプリングした。核を検出するように訓練した物体検出モデルを用いて、各パッチ内の核の数を概算した。パッチはこのカウントに基づいて十分位に区分し、各十分位を、訓練の１エポック中に見られる正味の画像数が各十分位で同じになるようにオーバーサンプリングした。例示的な画像を図６に示す。

【0135】

[00162]本明細書で説明されるシステムは、病理組織スライドがアノテーション付けされない状態で、患者レベルのアノテーションから学習することができる。その上、画像モデルの自己教師あり学習により、アノテーションを必要とせずに新しい画像データから学習することができる。

【0136】

[00163]表形式データからの学習は２つのステップを含む。まず、臨床データを試験全体で標準化し、データの一部をマスキングし、それらを学習するようにモデルを訓練することにより、自己教師を通してＴａｂＮｅｔアーキテクチャを事前訓練するために使用した。次いで、各患者のデータをＴａｂＮｅｔに通して特徴ベクトルを抽出し、これが画像パイプラインの出力と連結された。次いで、連結されたベクトルはさらなるニューラル層に通され、モデルは手元のタスクに対する２値的な転帰を出力した。

【0137】

[00164]ＳＳＬモデルの内部データ表現を図４に示す。データセット全体の画像パッチがＳＳＬモデルに通され、モデルの特徴（モデルによって出力された１２８次元のベクトル）がパッチごとに抽出された。次に、これらの特徴にＵＭＡＰ（ＵｎｉｆｏｒｍＭａｎｉｆｏｌｄＡｐｐｒｏｘｉｍａｔｉｏｎａｎｄＰｒｏｊｅｃｔｉｏｎ）アルゴリズムが適用され、特徴は１２８次元から２次元に射影され、各パッチが個々の点としてプロットされた。隣接するデータ点は、モデルが類似しているとみなした画像パッチを表す。ＵＭＡＰは特徴ベクトルを２５のクラスタにグループ化し、その一部が様々な色で示される。挿入図は、特徴空間においてクラスタ中心点に近い例示的な画像パッチを示す。次いで、クラスタ中心点に最も近い２０の画像パッチが病理医によって解釈された。例示的な解釈を図４に、また完全な解釈を図７に示す。ＳＳＬモデルは、臨床的なアノテーションで訓練されたことがないにもかかわらず、Ｇｌｅａｓｏｎグレードまたは組織の種類など、がんの複雑な側面を示す、人間解釈可能な画像特徴を学習した。

【0138】

[00165]６つの異なるＭＭＡＩモデルを訓練し、４つのエンドポイント（ＤＭ、ＢＣＲ、ＰＣａＳＳ、ＯＳ）、および５年と１０年という２つの時間枠で試験した。これらのモデルのパフォーマンスは、競合事象を考慮した感度および特異度の時間依存の受信者動作特性曲線下面積（ＡＵＣ）で測定された。感度は、示された陽性事象に対する正しい陽性予測の比率（感度＝ｐｒｅｄｉｃｔｅｄ＿ｐｏｓｉｔｉｖｅ／ｎｕｍ＿ｐｏｓｉｔｉｖｅ）として定義され、特異度は、示された陰性事象に対する正しい陰性予測の比率（特異度＝ｐｒｅｄｉｃｔｅｄ＿ｎｅｇａｔｉｖｅ／ｎｕｍ＿ｎｅｇａｔｉｖｅ）として定義される。このメトリクスでは、０．５が偶然の精度を表し、１．０が完全な精度を表す。

【0139】

[00166]図８に示されるように、ＮＣＣＮモデルがベースラインの比較対照として働いた。Ｇｌｅａｓｏｎスコア、腫瘍ｔステージ、ベースラインＰＳＡという３つの変数を用いて、患者を低リスク群、中リスク群、高リスク群にグループ化した。

【0140】

[00167]結果を図３Ａ～図３Ｈに示す。各転帰と時点について、別個のモデルが訓練された。図３Ａおよび図２Ｄ～図２Ｈにおいて、青い棒は特定のタスクで訓練されたＭＭＡＩモデルのパフォーマンスを表し、灰色の棒は対応するＮＣＣＮモデルのパフォーマンスを表す。図２Ｂは、５つの試験から得られる転帰とテストセットのサブセットにおける、ＮＣＣＮに対するＭＭＡＩの相対的改善を示す。ＭＭＡＩモデルは、試験したすべての転帰において一貫してＮＣＣＮモデルを上回った。ＡＵＣの相対的改善は１１．４５％から１９．７２％までの変化があった。さらに、試験のサブセットでは、すべて一様にＮＣＣＮに対する相対的改善が見られた。

【0141】

[00168]ＭＭＡＩモデル特有の様々なデータ構成要素の効果を評価するため、アブレーション研究を実施した。追加のＭＭＡＩモデルは、以下のデータセットアップを用いて訓練した：ＮＣＣＮ変数のみ、病理画像のみ、病理画像＋ＮＣＣＮ変数（ｃｏｍｂｉｎｅｄＧｌｅａｓｏｎスコア、ｔステージ、ベースラインＰＳＡ）、病理画像＋ＮＣＣＮ変数＋モデルで使用される３つの追加的な変数（年齢、Ｇｌｅａｓｏｎｐｒｉｍａｒｙ、Ｇｌｅａｓｏｎｓｅｃｏｎｄａｒｙ）。データ構成要素を追加するごとにパフォーマンスが改善され、フルセットアップ（病理、６つの臨床変数）が最良の結果をもたらした（図２Ｃ）。

【0142】

[00169]ＭＭＡＩシステムは、遠隔転移、生化学的再発、前立腺がん特異的生存、全生存という、４つの重要な患者の将来の転帰の予測において、モデルとして符号化されたＮＣＣＮリスク層別化ツールを大幅に上回った。臨床データだけでなく、患者からの（様々なサイズの）複数のデータタイプを同時に取り込む深層学習アーキテクチャを作ることで、確立された臨床モデルよりも大幅に高い精度で患者の長期転帰を推測できる深層学習システムが構築された。

【0143】

[00170]本明細書で説明される方法およびシステムは、多様な集団にわたる５，６５４人の患者について患者フォローアップが１０年～２０年の、５つの異なる前向き無作為化多国籍試験から得られた強固で大規模な臨床データを活用することができる。これらの予後判定分類器を、（意図された使用集団における）大量の臨床試験データで検証することは、これらのツールを治療上の意思決定の補助として個別に位置づけるものである。同様に、ゲノミクスベースのアッセイの重大な欠点は、コストが高く、検査所要時間が長いことである。ＡＩツールにはこのような制限を負担することがなく、大規模な国際的採用の障壁が大幅に低くする。世界の６０％近くがインターネットにアクセスできるにもかかわらず、ゲノミクスベースのアッセイに簡単にアクセスできるのは約４％（米国の人口）にすぎない。デジタル組織病理学の増え続ける採用は、インターネット接続と相まって、ＡＩベースの予後判定および予測的な検査の世界的な普及を支え、重要な治療のパーソナライゼーションへのアクセスを低コストで可能にするかもしれない。

【0144】

[00171]方法

【0145】

[00172]表形式パイプライン。表形式臨床データは、数値変数とカテゴリ変数に分けられた。数値変数は、［－１，１］の範囲に白色化（平均減算＋ｍａｘ正規化）された。カテゴリ変数は、従来のｗｏｒｄ－ｔｏ－ｖｅｃ技法に従って２～３次元ベクトルに埋め込まれるワンホットベクトルとして扱われ、次元数は式、Ｄ＝Ｒｏｕｎｄ（１．６・ｎｕｍ_ｃａｔｅｇｏｒｉｅｓ^０．５６）で与えられる。カテゴリ変数と数値変数の連結を入力とするＴａｂＮｅｔモデルを使用した（パラメータ：学習率０．２、ステップ学習率スケジューラ付きＡｄａｍオプティマイザ、バッチサイズ１０２４、ｐａｔｉｅｎｃｅ１０エポックの早期停止で最大５０エポック）。

【0146】

[00173]画像パイプライン。ＲｅｓＮｅｔ５０モデルを、ＭｏＣｏ－ｖ２訓練プロトコル（パラメータ：コサイン学習率スケジュールによる学習率＝０．０３、ｍｏｃｏ－ｔ＝０．２、多層パーセプトロンヘッド、バッチサイズ２５６、ＭｏＣｏ－ｖ２データａｕｇｍｅｎｔａｔｉｏｎ、２００エポック）と併用して、図２Ｂのシステムアーキテクチャで使用されるＳＳＬモデルを訓練した。図３Ａの各ホールドアウトされたテストセットに対して、訓練データの画像のみを使用して、対応するＳＳＬモデルを事前訓練した。特定の画像パッチが、本明細書の他で説明される核密度サンプリングを用いてオーバーサンプリングされた。ＳＳＬの事前訓練が完了すると、すべてのＷ×ＨパッチがＳＳＬ事前訓練されたＲｅｓＮｅｔ５０モデルに投入され、画像キルトごとにＷ×Ｈ×１２８特徴キルトが生成された。予測に使われた最終的な画像モデルは、バッチノルムとドロップアウトを有する２層のＣＮＮモデルで、特徴テンソルを入力として取り込む。最終的なＣＮＮモデルは、バッチサイズ３２、最大エポック１５０、学習率０．０１のステップ学習率スケジューラ付きＡｄａｍオプティマイザで訓練された。

【0147】

[00174]下流パイプライン。両方のモダリティ（画像特徴と表形式特徴）からの情報を活用するために、ｊｏｉｎｔｆｕｓｉｏｎ手法が用いられた。画像は特徴テンソルに特徴量化され、特徴ベクトルを生成するために最終的な画像モデルに投入され、表形式特徴は、別の特徴ベクトルを生成するためにＴａｂＮｅｔモデルに別個に投入された。２つの全結合層が各パイプラインの連結された特徴ベクトルを処理し、予測確率を出力した。組織病理学データが欠落している患者については、連結の前に画像ベースの特徴ベクトルがゼロ化された。

【0148】

[00175]データセットの準備。患者５，６５４人、病理組織スライド１６，２０４枚、中央値患者フォローアップ１０年～２０年を含む、５つの画期的で大規模な前向きの無作為化国際臨床試験から得られた、全患者レベルのベースライン臨床データ、前立腺生検のデジタル組織病理学スライド、および縦断的転帰が用いられた。これらの試験は、ＲＴＯＧ９２０２、９４０８、９９１０、０１２６、９４１３であった（図２Ｃ）。これらの試験は、放射線療法（ＲＴ）とアンドロゲン遮断療法（ＡＤＴ）との様々な組合せで無作為化された：ＲＴ＋短期ＡＤＴ（ＲＴＳ）、ＲＴ＋中期ＡＤＴ（ＲＴＭ）、ＲＴ＋長期ＡＤＴ（ＲＴＬ）、ＲＴの線量と量レベル（ＲＴ＋）。スライドは、ＮＲＧＯｎｃｏｌｏｇｙ社により、ＬｅｉｃａＢｉｏｓｙｓｔｅｍｓＡｐｅｒｉｏＡＴ２デジタル病理スキャナーを用い、２０倍の解像度で２年かけてデジタル化された。病理組織学画像は、手作業で画質と鮮明さを確認した。デジタルスライドは、モデル訓練の前に、一意の患者ごとに２００×２００パッチの単一の画像キルトに変換された。各臨床試験で収集された臨床変数は微妙に異なっていた。すべての試験で利用可能であった６つの臨床変数（ｃｏｍｂｉｎｅｄＧｌｅａｓｏｎ、Ｇｌｅａｓｏｎｐｒｉｍａｒｙ、Ｇｌｅａｓｏｎｓｅｃｏｎｄａｒｙ、ｔステージ、ベースラインＰＳＡ、年齢）とデジタル組織病理学が、モデルの訓練と検証に使用された。

【0149】

[00176]組織の分割。スライドを１０倍ズームで２５６×２５６ピクセルのパッチにスライスした後、ＲｅｓＮｅｔ－１８を訓練することで、開発されたアーチファクト分類器が開発され、パッチが使用可能な組織を示したか、それとも空白またはアーチファクトを示したかを分類した。アーチファクト分類器は２５エポック訓練し、学習率０．００１のＳＧＤを用いて最適化された。学習率は７エポックごとに１０％ずつ低下させた。３６６１個のパッチ（組織ｖｓ．非組織）が手動でアノテーション付けされ、そのうちの３３６６個で分類器が訓練され、残りの２９５個で９７．６％の検証精度を達成した。次いでこのアーチファクト分類器を用いて、画像キルト形成中の組織切片を分割した。

【0150】

[00177]核密度サンプリング。染色強度と染色劣化に大きなばらつきがあるので、容易に入手できる核検出および分割のための事前訓練済みモデルでは、大部分のスライドで核を正確に検出することができなかった。これを克服するために、ＹＯＬＯｖ５（ｇｉｔｈｕｂ．ｃｏｍ／ｕｌｔｒａｌｙｔｉｃｓ／ｙｏｌｏｖ５）の物体検出法を用いて核検出器を訓練した。

【0151】

[00178]ＹＯＬＯｖ５モデルを訓練するために、代表的な３４試料の厳選されたスライドをＱｕＰａｔｈ画像解析プラットフォームを使って手動でラベル付けした。まず、「Ｓｉｍｐｌｅｔｉｓｓｕｅｄｅｔｅｃｔｉｏｎ」モジュールを使って組織を分割した。次に、「Ｗａｔｅｒｓｈｅｄｃｅｌｌｄｅｔｅｃｔｉｏｎ」モジュールを用いて、スライドごとにパラメータを手動でチューニングしながら、細胞を分割した。次いでＹＯＬＯｖ５－Ｌａｒｇｅモデルが、２９枚のスライドからのアノテーションで訓練され、残りの５枚で評価された。このモデルは１０倍ズームで２５６×２５６パッチを使用して訓練した。

【0152】

[00179]モデルのパフォーマンスメトリクス（ＡＵＣ）。各モデルおよび各転帰について、Ｒ－ｐａｃｋａｇｅｔｉｍｅＲＯＣを用いて、競合事象を考慮した時間依存の受信者動作特性を推定した。これは、区間［０，１］内の閾値ｔを掃引し、モデルの予測を

【数1】

と定義することによって計算される、時間依存的な感度および特異度の曲線である。ただし、Ｐはモデルによって出力される転帰確率である。この曲線の下の面積が、手元のタスクに対するモデルのパフォーマンスを定義する。

【0153】

[00180]ＮＣＣＮモデル。ＮＣＣＮモデルは図８のアルゴリズムに従ってコード化され、３つの臨床変数、すなわちＧｌｅａｓｏｎ、ｔ－ステージ、ベースラインＰＳＡを用いて患者を低リスク群、中リスク群、高リスク群に区分した。

【0154】

[00181]実施例２：ＭＭＡＩアルゴリズムのアルゴリズム的公平性の評価

【0155】

[00182]本実施例では、アルゴリズム公正性、すなわちＮＲＧ／ＲＴＯＧ前立腺がん試験で治療されたＡＡおよび非ＡＡ前立腺がん患者における臨床データおよびデジタル組織病理学データを利用したマルチモーダルＡＩ（ＭＭＡＩ）モデルのパフォーマンスについて説明する。

【0156】

[00183]前立腺がん（ＰＣａ）は、男性におけるがん関連死亡の第２位の原因であり、アフリカ系アメリカ人（ＡＡ）男性は、より進行した病態を示し、診断時の年齢が若いため、疾病の負担が増大することはよく知られている。

【0157】

[00184]集団ベースのデータセットおよび後ろ向き研究を用いて、ＰＣａを有するＡＡ男性における予後転帰および関連格差を研究することには限界がある。なぜなら、これらのデータはしばしば、コホート内のＡＡ男性を十分に代表しておらず、予後リスクモデルを開発するために必要な長期フォローアップ転帰を欠いているからである。理想的には、前向きの無作為化比較試験（ＲＣＴ）に参加した多数のＡＡ男性を含む研究により、選択バイアスおよびその他の交絡因子のリスクを最小限に抑えながら、代表的なＡＡ標本を用いて長期予後転帰を評価することができる。ＲａｄｉａｔｉｏｎＯｎｃｏｌｏｇｙＧｒｏｕｐ（ＲＴＯＧ）およびＮＲＧＯｎｃｏｌｏｇｙ協同グループは、代表的な割合のＡＡ患者を前立腺がん臨床試験に優先的にリクルートしている。大規模ＲＣＴは、長期予後転帰およびリスクの違いをモデル化する機会を提供し、これはＰＣａを有するＡＡ男性における処置選択および治療最適化のための、より微妙な臨床的意思決定につながる。

【0158】

[00185]方法

【0159】

[00186]マルチコホートデータの説明

【0160】

[00187]米国国立がん研究所（ＮＣＩ）の資金提供を受けたＮａｔｉｏｎａｌＣｌｉｎｉｃａｌＴｒｉａｌｓＮｅｔｗｏｒｋ（ＮＣＴＮ）グループであるＮＲＧＯｎｃｏｌｏｇｙ社の許可を得て、限局性前立腺がん患者を有する男性を対象とした５つの大規模多国籍無作為化第ＩＩＩ相臨床試験（ＮＲＧ／ＲＴＯＧ－９２０２、９４０８、９４１３、９９１０、０１２６）から一意のデータセットを収集した。すべての患者は、アンドロゲン遮断療法（ＡＤＴ）の事前設定された使用を伴う、または伴わない根治的放射線療法（ＲＴ）を受けた。ＲＴと短期ＡＤＴの併用期間は４ヶ月、中期ＡＤＴの期間は３６週、長期ＡＤＴの期間は２８ヶ月であった。合計で７，７５２人の適格な参加者が、これらの５つの試験向けに無作為化された。

【0161】

[00188]マルチモーダルＡＩ（ＭＭＡＩ）モデルの説明

【0162】

[00189]本明細書で説明される４つのＭＭＡＩモデルが訓練され、データセットに対して展開された。ＭＭＡＩモデルは、各患者のデジタル組織病理学スライドと臨床データから関連する特徴を併せて学習した。画像ベクトル表現は、自己教師あり事前訓練を通じて生検スライドの組織切片から学習して抽出された。これらの画像特徴ベクトルと臨床データに由来する特徴ベクトルの組合せをマルチモーダル融合パイプラインに投入し、遠隔転移（ＤＭ）および前立腺がん特異的死亡率（ＰＣＳＭ）を含む所望の臨床エンドポイントのリスクスコアを出力した。コホートは、８０／２０で開発データセットおよび検証データセットに分けられ、ＭＭＡＩモデルは開発セットで訓練して最適化され、その後残りの検証セットで検証された。ＤＭとＰＣＳＭのリスクを予測する第１のＭＭＡＩは、実施例１で説明された通りであった。ＤＭおよびＰＣＳＭのリスクを予測する第２のＭＭＡＩモデルは、本明細書の以下で詳述するように、所望の臨床エンドポイントの事象までの時間をラベルとして使用するａｔｔｅｎｔｉｏｎ機構を有するマルチインスタンス学習ベースのニューラルネットワークに基づくマルチモーダル学習を含むものであった。ＭＭＡＩモデルの第２のセットの概略を図９に示す。実施例１で説明されたＭＭＡＩモデルに基づく研究知見の比較についても、以下で考察する。

【0163】

[00190]マルチモーダル深層学習モデル開発のための方法

【0164】

[00191]モデル開発の概要

【0165】

[00192]５つの試験は、１）試験、２）遠隔転移のステータス、３）患者の臨床的リスクによって層別化され、モデル開発と検証のためにそれぞれ無作為に開発セット（８０％）と検証セット（２０％）に分けられた。各ＭＭＡＩモデルは、５ｆｏｌｄの交差検証スキームによって開発セットで訓練して最適化され、開発セットはさらに各ｆｏｌｄで訓練サブセットとチューニングサブセットに分けられた。訓練サブセットは、学習可能なモデルパラメータを更新するために使用され、一方、チューニングサブセットは、訓練中のバイアスされないパフォーマンスをモニタし、ハイパーパラメータをチューニングするために使用された。この訓練プロセスが５つの別個のモデルを生成したため、この後５つのモデル出力にわたって平均をとることでアンサンブルモデルが構築され、患者ごとに単一のリスクスコアが形成された。

【0166】

[00193]臨床データの前処理

【0167】

[00194]臨床変数（Ｔステージ、Ｇｌｅａｓｏｎスコア、ｐｒｉｍａｒｙ／ｓｅｃｏｎｄａｒｙＧｌｅａｓｏｎパターン）はすべて数値変数として扱い、訓練データの平均値と標準偏差に基づいて標準化した。欠落している臨床データはｋ－ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ法でインピュテーションされ、欠落している値は訓練セットに見られる５人の最近傍の平均値を用いてインピュテーションされた。

【0168】

[00195]画像特徴抽出モデル開発

【0169】

[00196]可変数のデジタル組織病理学スライドから関連する特徴を効果的に学習するには、画像の標準化と自己教師あり事前訓練の両方が伴う。患者ごとに、患者の生検スライドにおいてすべての処置前組織切片を分割し、それぞれのＲＧＢチャンネルにわたって２５６×２５６ピクセルの大きさのパッチに分けた。ＲｅｓＮｅｔ－１８を訓練することで、パッチが使用可能な組織を示したか、それとも空白またはアーチファクトを示したかを分類する組織分類器が開発された。アーチファクト分類器は２５エポック訓練し、学習率０．００１の確率的勾配降下法を用いて最適化された。学習率は７エポックごとに１０％ずつ低下させた。３６６１個のパッチ（組織ｖｓ．非組織）が手動でアノテーション付けされ、そのうちの３３６６個で分類器が訓練され、残りのパッチで９７．６％の検証精度を達成した。このアーチファクト分類器を用いて組織切片を分割し、画像特徴生成時に低画質画像を除去した。

【0170】

[00197]次いでアーチファクト分類器によってフィルタされたパッチを用いて、自己教師あり学習モデルを訓練し、下流のタスクに有用な組織形態学的特徴を学習した。ＲｅｓＮｅｔ－５０モデルを、ＭｏＣｏ－ｖ２訓練プロトコル（パラメータ：２００エポックのコサイン学習率スケジュールで学習率＝０．０３、ｍｏｃｏ－ｔ＝０．２、多層パーセプトロンヘッド、バッチサイズ２５６、ａｕｇｍｅｎｔａｔｉｏｎ用デフォルトＭｏＣｏ－ｖ２パラメータ）と併用し、自己教師あり学習モデルを訓練した。Ｇｌｅａｓｏｎｐｒｉｍａｒｙ≧４の患者の画像を用いて、対応する自己教師あり学習モデルを事前訓練し、関連する組織形態学的特徴を効果的に学習した。自己教師ありの事前訓練が完了すると、全スライド画像の使用可能な組織を含むすべてのパッチが自己教師あり事前訓練済みＲｅｓＮｅｔ－５０モデルに投入され、パッチごとに１２８次元ベクトル表現を生成した。

【0171】

[00198]下流のマルチモーダル予後モデル開発

【0172】

[00199]下流の予後モデルは、各患者のすべてのパッチからの特徴ベクトルの連結である画像特徴テンソルと、前処理された臨床データを患者ごとの入力とした。第２のモデルでは、ａｔｔｅｎｔｉｏｎマルチインスタンス学習ネットワークが採用され、各パッチから各画像特徴ベクトルについて重みを学習した。各患者の画像特徴テンソルから、同一患者からのすべてのパッチの画像ベクトルの重み付き和をとることによって、単一の１２８次元画像ベクトルが生成された。このとき、重みはａｔｔｅｎｔｉｏｎ機構によって学習された。前処理された臨床データはすべて数値変数とみなされ、単一の線形層を通して処理され、６次元の臨床ベクトル表現が学習された。１２８次元の画像ベクトルと６次元の臨床ベクトルの連結は、さらにニューラルネットワークベースのｊｏｉｎｔｆｕｓｉｏｎパイプラインで処理されて、臨床データと画像データの両方から効果的に学習され、関心のある転帰に対するリスクスコアが出力された（図９）。

【0173】

[00200]訓練目的には負の対数部分尤度を用い、モデル予測スコアは推定相対対数ハザードとした。モデル開発用のラベルとして、関心の事象の２値インジケータと、それに対応する事象までの時間が用いられた。負の対数部分尤度損失は、モデル重みθによってパラメータ化され、以下のように定式化された。

【0174】

【数2】

ここで、値Ｔ_ｉ、Ｅ_ｉ、ｘ_ｉは、それぞれ事象時間または最終フォローアップ時間、事象が観察されたかどうかのインジケータ変数、ｉ番目の観察に対するモデル入力である。関数ｆ_θはマルチモーダルモデルの事実分岐を表し、ｆ_θ（ｘ）は入力ｘが与えられた場合の推定相対リスクである。値Ｎ_Ｅ＝１は、観察可能な事象を有する患者数を表す。観察可能な事象を伴う患者の集合は、Ｅ_ｉ＝１として表される。リスクセットＲ（ｔ）＝｛ｉ：Ｔ_ｉ≧ｔ｝は、時間ｔにおいて、なお不全のリスクがある患者の集合である。ｔｉｅｄｅｖｅｎｔｔｉｍｅを扱うためにＢｒｅｓｌｏｗの近似式を用いた。

【0175】

[00201]サブ群におけるモデルパフォーマンスのメトリクス

【0176】

[00202]遠隔転移（ＤＭ）、前立腺がん特異的死亡率（ＰＣＳＭ）、生化学的不全（ＢＦ）、全生存（ＯＳ）が評価された。ＤＭおよびＰＣＳＭが選択されたのは、前立腺がんの罹患率および死亡率と強い相関があり、非ＡＡ集団と比較してＡＡ集団の前立腺がんによる広範な負担を反映するため、より臨床的に有用な尺度を表現しやすいからである。

【0177】

[00203]ＡＡと非ＡＡのＰＣａ患者間のモデルパフォーマンスを、ＤＭエンドポイントに対するＤＭＭＭＡＩについて、およびＰＣＳＭエンドポイントに対するＰＣＳＭＭＭＡＩについて、ＭＭＡＩモデルごとに評価した。人種ステータスが不明または欠落している患者は、解析コホートから除外した。すべての評価エンドポイントは事象までの時間（ｔｉｍｅ－ｔｏ－ｅｖｅｎｔ）転帰であり、フォローアップ不能となった患者は打ち切られ、関心の事象を経験する前の死亡は競合事象とみなされた。人種サブ群解析は、臨床変数とＭＭＡＩスコアの分布（連続変数では中央値と四分位範囲（ＩＱＲ）、報告されたカテゴリ変数では割合）を比較し、ＡＡおよび非ＡＡ男性におけるＭＭＡＩモデルの予後判定能力を評価することによって行われた。ＭＭＡＩ連続スコア（０．０５スコア上昇ごと）とカテゴリ化されたリスク群の両方を用いて、アルゴリズムの公平性を評価した。ＭＭＡＩカテゴリ群については、モデルスコアを十分位でランク付けし、次いで元々ＭＭＡＩモデルの訓練対象であった対応するエンドポイントに基づいて、予後が類似している十分位を区分して３つの群にまとめた。例えば、ＤＭＭＭＡＩモデルは１～４位、５～９位、および１０位の十分位、ＰＣＳＭＭＭＡＩモデルは１～５位、６～９位、および１０位の十分位にグループ分けされた。モデルのパフォーマンスは、主要なエンドポイントとしてＤＭとＰＣＳＭを、また副次的なエンドポイントとしてＢＦ、ＯＳを使用して、Ｆｉｎｅ－ＧｒａｙモデルまたはＣｏｘＰｒｏｐｏｒｔｉｏｎａｌＨａｚａｒｄモデルと比較された。Ｋａｐｌａｎ－Ｍｅｉｅｒまたは累積罹患率推定値が計算され、ｌｏｇ－ｒａｎｋまたはＧｒａｙの検定を用いて比較された。次いでｐ値は、サブ群間のペアワイズ累積罹患率比較用にＢｏｎｆｅｒｒｏｎｉ法を用いて事後調整した。

【0178】

[00204]結果

【0179】

[00205]適格な臨床試験参加者のプーリングの図解を図１０に示す。ＡＡ患者は合計９４８人（１６．６％）、非ＡＡ患者は４，７３１人（８２．９％）、人種ステータスが不明または欠落している患者は２９人（０．５％）であり、これら２９人の患者はすべての解析から除外された。

【0180】

[00206]開発コホートと検査コホートの両方で、ＡＡ患者と非ＡＡ患者の年齢中央値はそれぞれ６９歳と７１歳であった。開発コホートでは、非ＡＡ患者と比較して、ＡＡ患者ではベースラインＰＳＡ中央値が高く（１３ｖｓ．１０ｎｇ／ｍＬ）、Ｔ１～Ｔ２ａが多く（６１ｖｓ．５５％）、Ｇｌｅａｓｏｎ８～１０が多く（１７ｖｓ．１３％）、ＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）高リスクが多かった（４２ｖｓ．３５％）。Ｔステージを例外として、同様の所見が検査コホートでも観察された（図１１）。開発コホートと検査コホート両方のすべてのＭＭＡＩモデルで、分布はＡＡサブ群と非ＡＡサブ群とで重複した（図１２）。ＤＭに最適化したモデル（ＤＭＭＭＡＩ）の中央値（ＩＱＲ）スコアは、開発コホートではＡＡで０．３６（０．２６～０．４７）、非ＡＡで０．３６（０．２６～０．４９）、検査コホートでは０．３８（０．２９～０．４７）ｖｓ．０．３７（０．２７～０．４８）であった。ＤＭＭＭＡＩの中央値スコアは、開発コホートではＡＡで０．３８（０．３０～０．３８）、非ＡＡで０．４０（０．３２～０．５０）、検査コホートでは０．４０（０．３２～０．４９）ｖｓ．０．４０（０．３２～０．５０）であった（図１３）。第１のＭＭＡＩモデルの知見は図１４で報告される。

【0181】

[00207]サブ群におけるマルチモーダルＡＩ（ＭＭＡＩ）モデルのパフォーマンス

【0182】

[00208]検査コホートでは、ＤＭＭＭＡＩモデルスコアは、ＡＡ（ＤＭに関し０．０５スコア増加あたりのハザード比［ＨＲ］：１．２、ｐ＝０．００７）および非ＡＡサブ群（ＤＭに関し１．４、ｐ＜０．００１）の両方で、ＤＭの強い予後判定シグナルを示した（図１５Ａ）。同様に、ＰＣＳＭＭＭＡＩスコアは、ＡＡ（ＰＣＳＭに関し０．０５スコア増加あたりのＨＲ：１．２、ｐ＝０．０１）および非ＡＡサブ群（ＰＣＳＭに関し１．５、ｐ＜０．００１）の両方で、ＰＣＳＭの強い予後判定シグナルを示した（図１５Ｂ）。すべての元モデルが、ＡＡサブ群と非ＡＡサブ群の両方で同様の結果を示した（図１６および図１７）。

【0183】

[00209]人種サブ群の累積罹患率を全コホートで比較した。１０年後の推定ＤＭ率はＡＡサブ群で５％（３％～６％）、非ＡＡサブ群で７％（６％～８％）であった（図１８Ａ）。両方のＭＭＡＩモデルが、ＡＡサブ群内および非ＡＡサブ群内の患者をリスク層別化することができた（図１９Ａおよび図１９Ｂ）。検査コホートでは、ＤＭＭＭＡＩモデルについて、ＡＡサブ群の５年の推定ＤＭ率は３％（９５％ＣＩ：０％～６％）、８％（９５％ＣＩ：３％～１４％）、２０％（９５％ＣＩ：２％～３８％）であり、非ＡＡサブ群では１％（９５％ＣＩ：０％～１％）、５％（９５％ＣＩ：３％～７％）、２３％（９５％ＣＩ：１４％～３２％）であった。異なるリスク群についてのＡＡと非ＡＡ間の調整済みペアワイズ比較は、統計的に有意ではなかった（それぞれｐ値＝０．３６、１．００、１．００）。同様にＰＣＳＭＭＭＡＩモデルでは、１０年の推定ＰＣＳＭ率はＡＡサブ群で５％（９５％ＣＩ：０％～１０％）、８％（９５％ＣＩ：２％～１４％）、３０％（９５％ＣＩ：９％～５１％）、非ＡＡサブ群で１％（９５％ＣＩ：０％～３％）、８％（９５％ＣＩ：５％～１１％）、１９％（９５％ＣＩ：１１％～２８％）であった（図１８Ｂ）。異なるリスク群についてのＡＡと非ＡＡ間の調整済みペアワイズ比較は、統計的に有意ではなかった（それぞれｐ値＝１．００、１．００、１．００）。元のＭＭＡＩモデルは、ＡＡサブ群と非ＡＡサブ群の両方で、両方のモデルについて同様の結果を示した（図２０Ａと図２０Ｂ）。

【0184】

[00210]考察

【0185】

[00211]ＡＩベースのバイオマーカーは、前立腺がんのある患者に対して医師が処置提案を調整するのに役立つ。しかし、新規バイオマーカーの開発に使用される母集団データにおいて、ＡＡ男性は十分に代表されていない可能性がある。これまでのバイオマーカー研究は、主に非ＡＡコホートで開発されたバイオマーカーがＡＡ男性に適用された場合、その価値を疑問としてきた。このようにＡＡ集団を含むゲノムデータが乏しいことにより、このような不公平性をアルゴリズム的に符号化することで、この集団によって経験される既知の健康格差を悪化させる可能性がある。これらの観察は、より臨床的に関連性のあるエンドポイントを使用し、選択バイアスを制御する厳密な方法を適用して、人種境界を超えたバイオマーカーのパフォーマンスを調べる必要性を強調している。

【0186】

[00212]ＭＭＡＩモデルを訓練するために十分なデータが使用され、ＡＩモデルの予後判定パフォーマンスはＡＡサブ群と非ＡＡサブ群との間で同等であることが分かった。ＤＭＭＭＡＩモデルおよびＰＣＳＭＭＭＡＩモデルは、ＡＡ患者集団と非ＡＡ患者集団の両方において同様に働き、本ツールの適用におけるアルゴリズム的な公平性を実証した。この手法は、人種群を超えて前立腺がん男性の処置選択をパーソナライズするために、これらのＡＩバイオマーカーを使用することを支援するものである。加えて、この解析は、日常的なバイオマーカーの発見と検証において、アルゴリズム的な公平性の原理を統合するための手法を提供する。

【0187】

[00213]実施例３：ＭＭＡＩを用いた前立腺がん患者のリスク層別化

【0188】

[00214]本実施例では、本明細書で説明されるマルチモーダル人工知能（ＭＭＡＩ）モデルが患者をリスク群に層別化する能力を、ＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）のリスク層別化スキーマのそれと比較した。

【0189】

[00215]実施例１で説明されたデータセットから、確定的なＮＣＣＮリスク分類を行うことができた５，５６９人を、実施例２で説明されたＭＭＡＩモデルによって予測された対応するＭＭＡＩスコアに従って、遠隔転移の１０年リスク（ＤＭ１０－ｙｒ）に基づいて十分位の１０のうち１つにソートした。次いで、各十分位数をＭＭＡＩＤＭ１０－ｙｒスコア（それぞれ＜１０％、１０％～２５％、＞２５％）に基づいて、「ＭＭＡＩ低」、「ＭＭＡＩ中」、「ＭＭＡＩ高」の３つのＭＭＡＩ予後リスク群の１つに層別化した（図２１）。各ＭＭＡＩ予後リスク群のベースライン特性を図２２に示す。図２３は、ＭＭＡＩ予後リスク群（行）ごとに、ＮＣＣＮリスクスキーマに従って「低」、「中」（ｆａｖｏｒａｂｌｅおよびｕｎｆａｖｏｒａｂｌｅ）、または「高」（ＮＣＣＮ高または非常に高）に分類された個人の数を示している。

【0190】

[00216]ＮＣＣＮのリスク分類よりもＭＭＡＩの方が１０年後の遠隔転移をより良く予後判定できるかどうかを判定するため、各個人についてＭＭＡＩモデルを用いてＤＭ１０－ｙｒの確率を再度計算した。図２４は、所与のＮＣＣＮ分類とＭＭＡＩ分類を有する個人の１０年のＤＭ１０－ｙｒ平均リスク（括弧内は信頼区間）である。図２４に示されるように、ＤＭ１０－ｙｒのリスクは、ＮＣＣＮによってもＭＭＡＩによっても、低リスクに分類された個人では概ね同じである。しかし、ＭＭＡＩモデルは、ＮＣＣＮスキームによって中リスクまたは高リスクに分類された個人のうち、実際にＤＭのリスクが高いのはどの個人かをより良好に判断できる。図２４に示されるように、ＭＭＡＩ「高」に分類されたＮＣＣＮ「中」分類の個人のサブセットでは、ＤＭ１０－ｙｒのＭＭＡＩ予測確率が６０％であったのに対し、ＭＭＡＩ「高」に分類されたＮＣＣＮ「高」分類の個人のサブセットでは、ＤＭ１０－ｙｒのＭＭＡＩ予測確率が３６％であった。このように、ＭＭＡＩベースのリスク分類は、転移のリスクを有するＮＣＣＮ「中」の個人を層別化することができた。図２５Ａに示されるように、ＭＭＡＩモデルは転移リスクが最も低い患者をＮＣＣＮより６倍多く識別した。ＮＣＣＮ「中」リスクの個人全体では約８３％がＭＭＡＩ低スコアであり、したがって転移リスクは低いが、ＮＣＣＮ「高」リスクの個人全体では約１３．２％がＭＭＡＩ低スコアであった。ＮＣＣＮで「高」リスクと分類された個人全体では、約２８％がＭＭＡＩＤＭ１０－ｙｒスコアが「高」（リスク≧３０％）であった（図２５Ｂ）。

【0191】

[00217]このように、ＮＣＣＮ分類と比較して、本明細書で開示されるＭＭＡＩシステムは、前立腺がん転移のリスクのある個人をより良好に層別化することができる。

【0192】

[00218]実施例４：ＭＭＡＩモデルの外部検証

【0193】

[00219]本実施例は、本明細書で説明される前立腺がんリスクを予後判定するためのマルチモーダル人工知能（ＭＭＡＩ）モデルの検証を説明する。

【0194】

[00220]患者

【0195】

[00221]ＮＲＧ／ＲＴＯＧ－９９０２は、２０００年１月から２００４年１０月までの間に、長期アンドロゲン抑制（ＡＳ）と放射線療法（ＲＴ）単独（ＡＳ＋ＲＴ）、またはアジュバント化学療法（ＣＴ）の併用（ＡＳ＋ＲＴ＋ＣＴ）を受けるように無作為化された、高リスクの限局性前立腺がん（ＰＣａ）患者３９７人を登録した。ＣＴは、パクリタキセル、エストラムスチン、経口エトポシドを、７０．２ＧｙのＲＴ後２８日目から開始して２１日間４サイクル投与した。ＡＳレジメンは、黄体形成ホルモン放出ホルモン（ＬＨＲＨ）をＲＴの２ヶ月前から開始して２４ヶ月間投与し、さらに抗アンドロゲンをＲＴ前およびＲＴ中に４ヶ月間経口投与した。ＰＳＡが２０～１００かつＧｌｅａｓｏｎスコア≧７、または臨床ステージ≧Ｔ２かつＧｌｅａｓｏｎスコア≧８の男性が登録された。１０年の結果は、全生存（ＯＳ）、生化学的不全（ＢＦ）、局所進行（ＬＰ）、遠隔転移（ＤＭ）、または無病生存（ＤＦＳ）において、２つの処置群間で統計的に有意ではなかった（列挙されたすべてのエンドポイントでｐ＞０．０５）。そのため、本実施例ではすべての男性が、処置群に関係なく１つのコホートにプールされた。

【0196】

[00222]試料処理およびスキャン

【0197】

[00223]ＲＴＯＧ－９９０２の処置前生検スライドが、ＮＲＧＯｎｃｏｌｏｇｙ社によりＬｅｉｃａＢｉｏｓｙｓｔｅｍｓＡｐｅｒｉｏＡＴ２デジタル病理スキャナーを用いて２０倍の解像度でデジタル化された。病理組織画像は、ＮＲＧＢｉｏｂａｎｋのオペレーターおよび人工知能データ取り込みチームによって、画質と鮮明さが確認された。事前に構築したアーチファクト分類器を用いて、低画質の画像が除去された。

【0198】

[00224]マルチモーダルＡＩ（ＭＭＡＩ）モデルの説明

【0199】

[00225]６つのＭＭＡＩアルゴリズムを有するＭＭＡＩアーキテクチャは、実施例２で説明され、図９に示されるように、各患者からのデジタル組織病理学スライドおよび臨床データの両方を利用して５つの第ＩＩＩ相ＮＲＧ試験（ＲＴＯＧ９２０２、９４０８、９４１３、９９１０、０１２６）を使用して開発および検証された。このＭＭＡＩアーキテクチャから、遠隔転移（ＤＭ）と前立腺がん特異的死亡率（ＰＣＳＭ）という所望の臨床エンドポイントに最適化された２つのロックされたＭＭＡＩアルゴリズムのリスクスコアが得られた。

【0200】

[00226]エンドポイント

【0201】

[00227]本調査の主要エンドポイントは、（１）無作為化から遠隔転移の日までの日数で定義されるＤＭ、および（２）無作為化から前立腺がんによる死亡までの日数で定義されるＰＣＳＭまでの期間であった。

【0202】

[00228]副次的エンドポイントは、無作為化から生化学的不全（前立腺特異抗原（ＰＳＡ）不全またはサルベージホルモン療法開始のいずれか最初のもの）までの日数と定義した生化学的不全までの期間（ＢＦ）、および無作為化から死亡までの日数と定義した全生存（ＯＳ）の期間であった。

【0203】

[00229]関心の事象を経験する前にフォローアップ不能となった被験者は、最後のフォローアップで打ち切られた。ＤＭ、ＰＣＳＭ、ＢＦについては、関心の事象を経験する前の死亡を競合事象とみなした。

【0204】

[00230]統計的な解析

【0205】

[00231]デジタル病理評価可能集団（ＤＰＥＰ）は、ＲＴＯＧ－９９０２に無作為化された被験者で、病理組織学データの質が高く、解析用のＭＭＡＩアルゴリズムスコアを生成するための年齢、臨床Ｔステージ、ｐｒｉｍａｒｙおよびｓｅｃｏｎｄａｒｙＧｌｅａｓｏｎグレード、およびベースラインＰＳＡを含むベースライン臨床変数に欠落がない被験者として、定義された。

【0206】

[00232]ベースラインの人口統計学的および臨床的な特性を、ＤＰＥＰ集団とｉｎｔｅｎｔｉｏｎｔｏｔｒｅａｔ（ＩＴＴ）集団について記述的に要約し、ＤＰＥＰ集団と質の高い病理組織学データのないＩＴＴ集団からの患者のサブ群との間で比較した。記述的要約は、カテゴリ変数についてはカウントと部分（ｐｏｒｔｉｏｎ）（％）、連続変数については中央値と四分位範囲（ＩＱＲ）を用いて用意された。Ｐ値は、連続変数についてはＷｉｌｃｏｘｏｎ順位和検定、カテゴリ変数についてはＰｅａｒｓｏｎのカイ二乗検定またはＦｉｓｈｅｒの正確確率検定を用いて算出した。

【0207】

[00233]ＭＭＡＩアルゴリズムの予後判定パフォーマンスが、単変量解析および多変量解析により評価された。ＤＭ、ＰＣＳＭ、ＢＦのエンドポイントに関する部分分布ハザード比（ｓＨＲ）と９５％信頼区間（ＣＩ）を推定するために、ＦｉｎｅａｎｄＧｒａｙ回帰が用いられた。ＯＳのエンドポイントについてＨＲおよび９５％ＣＩを推定するために、ＣｏｘＰｒｏｐｏｒｔｉｏｎａｌＨａｚａｒｄ回帰が用いられた。ＭＭＡＩアルゴリズムスコアは四分位ごとに分割され、累積罹患率曲線を用いて要約され、５年および１０年の推定されたＤＭ率およびＰＣＳＭ率、ならびに対応する両側９５％ＣＩが与えられた。ＭＭＡＩと処置の交互作用の検定も探索的解析として行った。

【0208】

[00234]すべての統計的な解析はＲのバージョン４．１．２（ＲＦｏｕｎｄａｔｉｏｎｆｏｒＳｔａｔｉｓｔｉｃａｌＣｏｍｐｕｔｉｎｇ（オーストリア、ウィーン））を用いて行った。すべての統計的な検定は両側検定で、有意水準は０．０５を用いた。予後モデル検証の知見は、ＴＲＩＰＯＤのレポーティング基準を用いて報告された。

【0209】

[00235]結果

【0210】

[00236]参加者

【0211】

[00237]ＭＭＡＩアルゴリズムスコアは、ＮＲＧ／ＲＴＯＧ－９９０２に登録された最初の臨床試験患者３９７人のうち３１８人について生成された（全試験コホートの８５％でスライドが入手可能であった。このうち５．６％は画質不良のため含めることができなかった）。図２６は、ＮＲＧ／ＲＴＯＧ９９０２臨床試験からモデル検証のために含まれるＤＰＥＰへの患者の流れを示す。調査ＤＰＥＰのベースライン特性が図２７に示される。評価可能集団はベースラインＰＳＡ中央値２３．０ｎｇ／ｍＬの男性を含んでおり、その３２％にｃＴ３～４疾患があり、６７％にＧｌｅａｓｏｎＧｒａｄｅ群４または５疾患があり、５４％はＮＣＣＮ高リスク特徴＞１であった。フォローアップ中央値１０．１年で、男性４２人がＤＭを経験し、２９人がＰＣＳＭを経験した。ＭＭＡＩアルゴリズムスコアを得ることができた患者間のベースライン特性は、この検証調査から除外された患者６２人と比較して、統計的に有意な差はなかった。同様に、ＤＰＥＰ内でも２つの処置群の間にベースライン特性の差はなかった。中央値（ＩＱＲ）スコアは、ＤＭに最適化したアルゴリズム（ＤＭＭＭＡＩ）では０．５４（０．４４～０．６２）、ＰＣＳＭに最適化したアルゴリズム（ＰＣＳＭＭＭＡＩ）では０．５３（０．４７～０．６０）であった。いずれのスコアも、ＮＲＧ／ＲＴＯＧ９９０２の２つの処置群間で同様であった（図２７Ｂ）。

【0212】

[00238]モデルパフォーマンス

【0213】

[00239]臨床的および病理学的な因子と比較して、ＭＭＡＩアルゴリズムは転帰尺度全体にわたって有意に予後判定的であった。単変量解析では、ＤＭＭＭＡＩアルゴリズムの連続スコアはＤＭエンドポイントと統計的な関連性があり（ｓＨＲ２．３３、９５％ＣＩ１．６０～３．３８、ｐ＜０．００１）、ＰＣＳＭＭＭＡＩアルゴリズムはＰＣＳＭエンドポイントと統計的な関連性があった（ＨＲ２．６３、９５％ＣＩ１．７０～４．０８、ｐ＜０．００１）（図２８Ａ）。最適化されていない副次的エンドポイントを評価すると、ＤＭＭＭＡＩはＢＦ、ＰＣＳＭ、ＯＳのリスクと統計的に有意に関連性があった。同様に、ＰＣＳＭＭＭＡＩはＤＭおよびＯＳのリスクと統計的に有意に関連性があった。（図２８Ｂ）。

【0214】

[00240]ＤＭエンドポイントに関しては、ＤＭＭＭＡＩは、両処置群、年齢、非アフリカ系アメリカ人、両ＰＳＡ群、Ｇｌｅａｓｏｎ８～１０、臨床Ｔステージ、ＮＣＣＮ高リスク因子が１つの患者を含め、ほとんどの臨床的サブ群で予後判定的であった（図２９Ａ）。同様に、ＰＣＳＭエンドポイントに関しても、ＰＣＳＭＭＭＡＩは、両処置群、年齢、両人種サブ群、ＰＳＡ＜２０ｎｇ／ｍＬ、Ｇｌｅａｓｏｎ８～１０、臨床Ｔステージ、何らかのＮＣＣＮ高リスク因子を有する患者を含め、ほとんどのサブ群で予後判定的であった（図２９Ｂ）。多変量解析（図３０Ａ～図３０Ｂおよび図３１Ａ～図３１Ｂ）において、年齢、ベースラインＰＳＡ、Ｇｌｅａｓｏｎ、Ｔステージ、ＮＣＣＮ高リスク因子数などの個々の臨床的な因子について制御することは、ＤＭＭＭＡＩとＰＣＳＭＭＭＡＩの両方で一貫して有意に予後判定的であった。

【0215】

[00241]ＤＭＭＭＡＩに対して四分位分割を用いると、下位７５％（Ｑ１～Ｑ３）の患者の推定５－ｙｒＤＭおよび１０－ｙｒＤＭ率は、４％（９５％ＣＩ１％～６％）および７％（９５％ＣＩ４％～１０％）であり、最高四分位（Ｑ４）の推定５－ｙｒＤＭおよび１０－ｙｒＤＭ率は、１９％（９５％ＣＩ１０％～２８％）および３２％（９５％ＣＩ２１％～４３％）であり、ｓＨＲは５．１（９５％ＣＩ２．７～９．３、ｐ＜０．００１）であった（図３２Ａ）。ＰＣＳＭのＭＭＡＩ（ｓＨＲ４．１、９５％ＣＩ２．０～８．４、ｐ＜０．００１）でも同様の結果が観察された（図３２Ｂ）。

【0216】

[00242]ＤＭＭＭＡＩ四分位群（Ｑ４ｖｓ．Ｑ１～Ｑ３）とＣＴ処置効果（交互作用ｐ＝０．０８）、またはＰＣＳＭＭＭＡＩ四分位群とＣＴ処置効果（交互作用ｐ＝０．７９）の間には、統計的に有意な交互作用はなかった（図３３Ａおよび図３３Ｂ）。ＤＭＭＭＡＩによってランク付けされた上位２５％の患者のうち、ＣＴの追加使用による５年の推定ａｂｓｏｌｕｔｅｂｅｎｅｆｉｔは１４％、１０年の推定ａｂｓｏｌｕｔｅｂｅｎｅｆｉｔは１８％であった（図３３Ｂ）。

【0217】

[00243]考察

【0218】

[00244]５つの第ＩＩＩ相ＰＣａ試験（ＮＲＧ／ＲＴＯＧ９２０２、９４０８、９４１３、９９１０、０１２６）から得られた男性を用いて以前に開発したＭＭＡＩ分類器の予後判定能力を、疾患進行のリスクが高い男性を登録したＮＲＧ／ＲＴＯＧ９９０２から得られた男性を用いた外部検証セットを用いてさらに検証した。親試験であるＮＲＧ／ＲＴＯＧ９９０２は、処置群と比較した場合に、統計的に有意な臨床結果を与えなかったため、検証サンプルは１つの単一コホートとして扱われた（試験群のバランスはよく、平均ＭＭＡＩ分類器スコアは処置群間で同様であった）。ＤＭとＰＣＳＭに対するＭＭＡＩ分類器による低リスク群と高リスク群との差は、ＮＣＣＮの高および非常に高のリスク集団においても大きく、統計的に有意であった。多変量解析では、予後リスクと関連することが知られている変数（患者年齢、Ｇｌｅａｓｏｎスコア、Ｔステージ）を制御した後でも、ＭＭＡＩスコアは無関係に予後判定的であった。サブ群内でのＭＭＡＩ分類器とＤＭおよびＰＣＳＭとの関連は、高リスクおよび非常に高リスクの疾患の連続を通してＭＭＡＩにさらなる弁別能力と予後判定能力があることを示唆した。

【0219】

[00245]本明細書では本発明の好ましい実施形態が示され、説明されているが、当業者には、そのような実施形態が例示としてのみ提供されることは明らかであろう。本発明は、本明細書内で提供される具体例によって限定されることを意図されていない。本発明は、前述の明細書を参照して説明されたが、本明細書では、実施形態の説明および図示は、限定的な意味で解釈されてはならない。当業者であれば、本発明から逸脱することなく、多数の変形、変更、置換を思い付くであろう。さらに、本発明のすべての態様は、様々な条件および変数に依存する本明細書に記載された特定の描写、構成または相対的な割合に限定されないことを理解されたい。本明細書で説明される本発明の実施形態に対する様々な代替形態が、本発明の実用化において採用され得ることが理解されるべきである。したがって、本発明は、このような代替形態、修正形態、変形形態、または等価物も対象とする。すなわち、以下の特許請求の範囲は、本発明の範囲を規定するものであり、これらの特許請求の範囲およびその等価物の範囲内の方法および構造が、これによって含まれることが意図される。

【図1】