(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-10
(54)【発明の名称】深層学習によるがんのデジタル病理評価のための方法およびシステム
(51)【国際特許分類】
G16B 40/20 20190101AFI20241203BHJP
G01N 33/48 20060101ALI20241203BHJP
【FI】
G16B40/20
G01N33/48 M
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024534668
(86)(22)【出願日】2022-11-29
(85)【翻訳文提出日】2024-08-13
(86)【国際出願番号】 US2022051268
(87)【国際公開番号】W WO2023107297
(87)【国際公開日】2023-06-15
(32)【優先日】2021-12-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-05-25
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-10-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】524219692
【氏名又は名称】アルテラ・インコーポレーテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(74)【代理人】
【識別番号】100201743
【氏名又は名称】井上 和真
(72)【発明者】
【氏名】エステバ,アンドレ
(72)【発明者】
【氏名】フェン,フェリックス
【テーマコード(参考)】
2G045
【Fターム(参考)】
2G045AA24
2G045AA26
2G045CB02
2G045FA16
2G045JA01
2G045JA03
(57)【要約】
本開示は、被験者のがんを分類する、および/またはモニタするための方法およびシステムを提供する。被験者のがんを評価するための方法は、被験者から画像データおよび/または表形式データを含むデータセットを取得するステップと、1つまたは複数の訓練済みアルゴリズムでデータを処理して、被験者のがんを分類するステップとを含み得る。分類の結果に基づいて、被験者のがんを評価することができる。
【特許請求の範囲】
【請求項1】
被験者のがんを評価するための方法であって、
(a)前記被験者に由来する画像データおよび表形式データを含むデータセットを取得するステップと、
(b)訓練済みアルゴリズムを用いて前記データセットを処理して、前記データセットを複数のカテゴリのうちの1つのカテゴリに分類するステップであって、前記分類するステップが、前記画像データに画像処理アルゴリズムを適用するステップを含む、分類するステップと、
(c)(b)で分類された前記複数のカテゴリのうちの前記1つのカテゴリに少なくとも部分的に基づいて、前記被験者の前記がんを評価するステップと
を含む、方法。
【請求項2】
前記訓練済みアルゴリズムが、自己教師あり学習を使用して訓練される、請求項1に記載の方法。
【請求項3】
前記訓練済みアルゴリズムが、深層学習アルゴリズムを含む、請求項1または2に記載の方法。
【請求項4】
前記訓練済みアルゴリズムが、前記画像データを処理する第1の訓練済みアルゴリズムと、前記表形式データを処理する第2の訓練済みアルゴリズムとを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記訓練済みアルゴリズムが、前記第1および前記第2の訓練済みアルゴリズムの出力を処理する第3の訓練済みアルゴリズムをさらに含む、請求項4に記載の方法。
【請求項6】
前記がんが、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記がんが前立腺がんである、請求項6に記載の方法。
【請求項8】
前記表形式データが、前記被験者の臨床データを含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記被験者の前記臨床データが、検査室データ、治療的介入、または長期転帰を含む、請求項8に記載の方法。
【請求項10】
前記画像データがデジタル組織病理学データを含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記組織病理学データが、前記被験者の生検試料に由来する画像を含む、請求項10に記載の方法。
【請求項12】
前記画像が前記生検試料の顕微鏡検査によって得られる、請求項11に記載の方法。
【請求項13】
前記デジタル組織病理学データが、前記被験者が処置を受ける前に前記被験者から得られる、請求項10から12のいずれか一項に記載の方法。
【請求項14】
前記処置が放射線治療(RT)を含む、請求項13に記載の方法。
【請求項15】
前記RTが、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む、請求項14に記載の方法。
【請求項16】
前記デジタル組織病理学データが、前記被験者が処置を受けた後に前記被験者から得られる、請求項10から12のいずれか一項に記載の方法。
【請求項17】
前記処置が放射線治療(RT)を含む、請求項16に記載の方法。
【請求項18】
前記RTが、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む、請求項17に記載の方法。
【請求項19】
画像分割、画像連結、物体検出アルゴリズム、またはそれらの組合せを用いて前記画像データを処理するステップをさらに含む、請求項1から18のいずれか一項に記載の方法。
【請求項20】
前記画像データから特徴を抽出するステップをさらに含む、請求項1から19のいずれか一項に記載の方法。
【請求項21】
被験者のがんを評価するための方法であって、
(a)少なくとも前記被験者に由来する画像データを含むデータセットを取得するステップと、
(b)訓練済みアルゴリズムを用いて前記データセットを処理して、前記データセットを複数のカテゴリのうちの1つのカテゴリに分類するステップであって、前記分類するステップが、前記画像データに画像処理アルゴリズムを適用するステップを含み、前記訓練済みアルゴリズムが自己教師あり学習を使用して訓練される、分類するステップと、
(c)前記(b)で分類された前記複数のカテゴリのうちの前記1つのカテゴリに少なくとも部分的に基づいて、前記被験者の前記がんを評価するステップと
を含む、方法。
【請求項22】
前記訓練済みアルゴリズムが、深層学習アルゴリズムを含む、請求項21に記載の方法。
【請求項23】
前記がんが、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである、請求項21または22に記載の方法。
【請求項24】
前記がんが前立腺がんである、請求項23に記載の方法。
【請求項25】
前記画像データがデジタル組織病理学データを含む、請求項21から24のいずれか一項に記載の方法。
【請求項26】
前記組織病理学データが、前記被験者の生検試料に由来する画像を含む、請求項25に記載の方法。
【請求項27】
前記画像が前記生検試料の顕微鏡検査によって得られる、請求項26に記載の方法。
【請求項28】
前記デジタル組織病理学データが、前記被験者が処置を受ける前に前記被験者から得られる、請求項25から27のいずれか一項に記載の方法。
【請求項29】
前記処置が放射線治療(RT)を含む、請求項28に記載の方法。
【請求項30】
前記RTが、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む、請求項29に記載の方法。
【請求項31】
前記デジタル組織病理学データが、前記被験者が処置を受けた後に前記被験者から得られる、請求項25から27のいずれか一項に記載の方法。
【請求項32】
前記処置が放射線治療(RT)を含む、請求項31に記載の方法。
【請求項33】
前記RTが、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む、請求項32に記載の方法。
【請求項34】
画像分割、画像連結、または物体検出アルゴリズムを用いて前記画像データを処理するステップをさらに含む、請求項21から33のいずれか一項に記載の方法。
【請求項35】
前記画像データから特徴を抽出するステップをさらに含む、請求項21から34のいずれか一項に記載の方法。
【請求項36】
前記データセットが、画像データおよび表形式データを含む、請求項21から35のいずれか一項に記載の方法。
【請求項37】
前記訓練済みアルゴリズムが、前記画像データを処理する第1の訓練済みアルゴリズムと、前記表形式データを処理する第2の訓練済みアルゴリズムとを含む、請求項36に記載の方法。
【請求項38】
前記訓練済みアルゴリズムが、前記第1および前記第2の訓練済みアルゴリズムの出力を処理する第3の訓練済みアルゴリズムをさらに含む、請求項37に記載の方法。
【請求項39】
前記表形式データが、前記被験者の臨床データを含む、請求項36から38のいずれか一項に記載の方法。
【請求項40】
前記臨床データが、検査室データ、治療的介入、または長期転帰を含む、請求項39に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
[0001]本出願は、2021年12月8日に出願された米国仮出願第63/287,158号、2022年5月25日に出願された米国仮特許出願第63/345,804号、および2022年10月21日に出願された米国仮特許出願第63/418,125号の利益を主張するものであり、これらの出願のそれぞれは、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
[0002]前立腺がんは男性のがん死亡の主な原因である。それにもかかわらず、患者転帰の予後判定のための国際的な基準は、通常は過度な処置や処置の不足につながる非特異的で感度の低いツールに依存している。
【発明の概要】
【発明が解決しようとする課題】
【0003】
[0003]患者の最適ながん治療を決定することは困難なタスクであり、腫瘍医は成功の可能性が最も高く、毒性の可能性が最も低い治療法を選択しなければならない。治療法選択の難しさは、がんが示す膨大な分子的、表現型的、予後的な不均一性に根ざしている。本明細書では、がん治療のパーソナライゼーションを支援するための、正確でグローバルに拡張可能なツールの必要性が認識される。
【課題を解決するための手段】
【0004】
[0004]本開示は、被験者、例えばがん患者から得られた、またはそれに由来する生体試料を処理することによって、がん関連状態を識別またはモニタするための方法およびシステムを提供する。被験者から得られた生体試料(例えば、組織試料)は、臨床転帰(例えば、遠隔転移、生化学的再発、死亡、無増悪生存、および全生存を含み得る)を予後判定するために解析され得る。
【0005】
[0005]一態様において、本開示は、被験者のがんを評価するための方法であって、以下を含む方法を提供する:(a)被験者に由来する画像データおよび表形式データを含むデータセットを取得するステップ;(b)訓練済みアルゴリズムを用いてデータセットを処理して、データセットを複数のカテゴリのうちの1つのカテゴリに分類するステップであって、分類するステップが、画像データに画像処理アルゴリズムを適用するステップを含む、分類するステップ;および(c)(b)で分類された複数のカテゴリのうちの1つのカテゴリに少なくとも部分的に基づいて、被験者のがんを評価するステップ。
【0006】
[0006]いくつかの実施形態では、訓練済みアルゴリズムは、自己教師あり学習を使用して訓練される。いくつかの実施形態では、訓練済みアルゴリズムは深層学習アルゴリズムを含む。いくつかの実施形態では、訓練済みアルゴリズムは、画像データを処理する第1の訓練済みアルゴリズムと、表形式データを処理する第2の訓練済みアルゴリズムとを含む。いくつかの実施形態では、訓練済みアルゴリズムは、第1および第2の訓練済みアルゴリズムの出力を処理する第3の訓練済みアルゴリズムをさらに含む。いくつかの実施形態では、がんは、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである。いくつかの実施形態では、がんは前立腺がんである。いくつかの実施形態では、表形式データは、被験者の臨床データを含む。いくつかの実施形態では、被験者の臨床データは、検査室データ、治療的介入、または長期転帰を含む。いくつかの実施形態では、画像データはデジタル組織病理学データを含む。いくつかの実施形態では、組織病理学データは、被験者の生検試料に由来する画像を含む。いくつかの実施形態では、画像は生検試料の顕微鏡検査によって得られる。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受ける前に被験者から得られる。いくつかの実施形態では、処置は放射線治療(RT)を含む。いくつかの実施形態では、RTは、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受けた後に被験者から得られる。いくつかの実施形態では、処置は放射線治療(RT)を含む。いくつかの実施形態では、RTは、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、方法は、画像分割、画像連結、物体検出アルゴリズム、またはそれらの組合せを用いて画像データを処理するステップをさらに含む。いくつかの実施形態では、方法は、画像データから特徴を抽出することをさらに含む。
【0007】
[0007]別の態様において、本開示は、被験者のがんを評価するための方法であって、以下を含む方法を提供する:(a)少なくとも被験者に由来する画像データを含むデータセットを取得するステップ;(b)訓練済みアルゴリズムを用いてデータセットを処理して、データセットを複数のカテゴリのうちの1つのカテゴリに分類するステップであって、分類するステップが、画像データに画像処理アルゴリズムを適用するステップを含み、訓練済みアルゴリズムが自己教師あり学習を使用して訓練される、分類するステップ;および(c)(b)で分類された複数のカテゴリのうちの1つのカテゴリに少なくとも部分的に基づいて、被験者のがんを評価するステップ。
【0008】
[0008]いくつかの実施形態では、訓練済みアルゴリズムは深層学習アルゴリズムを含む。いくつかの実施形態では、がんは、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、胃がん、腎臓がん、肝臓がん、卵巣がん、すい臓がん、前立腺がん、または甲状腺がんである。いくつかの実施形態では、がんは前立腺がんである。いくつかの実施形態では、画像データはデジタル組織病理学データを含む。いくつかの実施形態では、組織病理学データは、被験者の生検試料に由来する画像を含む。いくつかの実施形態では、画像は生検試料の顕微鏡検査によって得られる。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受ける前に被験者から得られる。いくつかの実施形態では、処置は放射線治療(RT)を含む。いくつかの実施形態では、RTは、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、デジタル組織病理学データは、被験者が処置を受けた後に被験者から得られる。いくつかの実施形態では、処置は放射線治療(RT)を含む。いくつかの実施形態では、RTは、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、線量漸増RT(DE-RT)、またはそれらの組合せの事前設定された使用を含む。いくつかの実施形態では、方法は、画像分割、画像連結、または物体検出アルゴリズムを用いて画像データを処理するステップをさらに含む。いくつかの実施形態では、方法は、画像データから特徴を抽出するステップをさらに含む。いくつかの実施形態では、データセットは画像データおよび表形式データを含む。いくつかの実施形態では、訓練済みアルゴリズムは、画像データを処理する第1の訓練済みアルゴリズムと、表形式データを処理する第2の訓練済みアルゴリズムとを含む。いくつかの実施形態では、訓練済みアルゴリズムは、第1および第2の訓練済みアルゴリズムの出力を処理する第3の訓練済みアルゴリズムをさらに含む。いくつかの実施形態では、表形式データは、被験者の臨床データを含む。いくつかの実施形態では、臨床データは、検査室データ、治療的介入、または長期転帰を含む。
【0009】
[0009]本開示の別の態様は、1つまたは複数のコンピュータプロセッサによる実行時に、上記または本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む非一時的なコンピュータ可読媒体を提供する。
【0010】
[0010]本開示の別の態様は、1つまたは複数のコンピュータプロセッサと、それに結合されたコンピュータメモリとを含むシステムを提供する。コンピュータメモリは、1つまたは複数のコンピュータプロセッサによる実行時に、上記または本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む。
【0011】
[0011]本開示のさらなる態様および利点は、本開示の例示的な実施形態のみが示され、説明される以下の詳細な説明から、当業者には容易に明らかになるであろう。本開示は、他の異なる実施形態が可能であり、そのいくつかの細部は、すべて本開示から逸脱することなく、様々な明白な点で変更が可能である。したがって、図面および説明は、本質的に例示的なものとみなされ、制限的なものとはみなされるべきではない。
参照による組込み
【0012】
[0012]本明細書で言及されるすべての刊行物、特許、および特許出願は、個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に含まれる開示と矛盾する範囲では、本明細書は、そのような矛盾する資料に優先する、および/または優先されることを意図している。
【0013】
[0013]本発明の新規な特徴は、添付の特許請求の範囲に具体的に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を示す以下の詳細な説明、および添付の図面(本明細書では「図面」および「図」とも称される)を参照することによって得られるであろう。
【図面の簡単な説明】
【0014】
【
図1】[0014]本明細書で提供される方法を実装するようにプログラムされた、またはその他の方法で構成されたコンピュータシステムの図である。
【
図2A】[0015]マルチモーダル深層学習システムおよびデータセットの一例の図であり、マルチモーダルアーキテクチャが、表形式臨床データを解析するタワースタック、可変数のデジタル病理組織学スライドを解析するタワースタック、および得られた特徴をマージし、2値的な転帰を予測する第3のタワースタックの3つの部分から構成されていることを示す図である。
【
図2B】マルチモーダル深層学習システムおよびデータセットの一例の図であり、画像タワースタックの自己教師モデルを訓練する様子を示す図である。
【
図2C】マルチモーダル深層学習システムおよびデータセットの一例の表である。表の最初の5列が各試験の統計値を示す表である。「combined」列が、訓練と検証にすべての5つの試験を使用した最終データセットの統計値を示す。***RTOG9413では、2×2様式で患者を無作為化して、ホルモン療法のタイミング(RT前vs.RT開始)およびフィールドサイズ(前立腺のみvs.完全骨盤RT)の影響を検証する。新しく略語:無病生存(DFS)、無増悪生存(PFS)、前立腺がん特異的死亡率(PCSM)が使用される。
【
図3A】[0016]深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。MMAIモデル(青棒)対NCCNモデル(灰色棒)の感度および特異度の曲線下面積(AUC)について、時間依存の受信者動作特性を用いて報告したパフォーマンス結果を示す図である。比較は、以下についての2値的な転帰を、5年の時点と10年の時点で行われる:遠隔転移(DM)、生化学的再発(BCR)、前立腺がん特異的生存(PCaSS)、および全生存(OS)。
【
図3B】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す表である。テストセット内の各試験からのデータをパフォーマンス別に分けた、様々な転帰におけるNCCNモデルに対するAIモデルの相対的改善の要約表である。相対的改善が(PAI-PNCCN)/PNCCNで与えられ、ここでPはモデルのパフォーマンスである。
【
図3C】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。順次減少するデータ入力のセットで訓練した場合のモデルパフォーマンスを示すアブレーション研究の結果を示す図である。NCCNは以下の3つの変数を意味する:combined Gleason、ベースラインpsa、tステージ。NCCN+3は、NCCNにGleason primary、Gleason secondary、年齢を加えたものを意味する。pathはデジタル病理組織画像を指す。
【
図3D】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、
図3D~
図3Hは、
図3Aに示すテストセット全体を含む図である。
【
図3E】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、
図3D~
図3Hは、
図3Aに示すテストセット全体を含む図である。
【
図3F】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、
図3D~
図3Hは、
図3Aに示すテストセット全体を含む図である。
【
図3G】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、
図3D~
図3Hは、
図3Aに示すテストセット全体を含む図である。
【
図3H】深層学習システムと確立された臨床ガイドラインとの比較の一例を、臨床試験から転帰にわたって示す図である。テストセットの個々の臨床試験サブセットについてのパフォーマンス比較を示す図であり、
図3D~
図3Hは、
図3Aに示すテストセット全体を含む図である。
【
図4】[0017]SSL組織クラスタの病理医による解釈の一例を示す図である。マルチモーダルモデルにおける自己教師モデルは、臨床データのラベルを見ることなく、組織の小さなパッチを強化したバージョンが同一の元のパッチ由来かどうかを識別するように訓練される。訓練した後、10.05M個の画像パッチからなるデータセットの各画像パッチをこのモデルに通して128次元の特徴ベクトルを抽出し、UMAPアルゴリズム31を用いて得られたベクトルをクラスタ化し、可視化する。次に病理医に、25個のクラスタ中心点のそれぞれに最も近い20個の画像パッチを解釈するよう依頼し、説明文は挿入図のそばに記載されている。分かりやすくするため、6個のクラスタ(色付き)のみを強調し、残りのクラスタは灰色で表示する。病理医による完全なアノテーションは
図7を参照されたい。
【
図5】[0018]4人の例示的な患者に対する画像キルトの例を示す図である。データセットは、可変数の病理組織スライドを有する患者を含む。モデルへの画像入力を標準化するために、各スライドの組織を分割し、すべての組織を51200×51200ピクセルの1つの正方形の画像に貼り付け、200×200パッチに分割し、1人の患者のすべての組織病理学データを表現する。ここでは4人の患者の画像キルトを示す。
【
図6】[0019]例示の画像パッチの核密度サンプリングの一例を示す図である。褐色の四角は核密度の計算に使用される核の検出を示しており、核密度に応じて、自己教師あり訓練プロトコルに入力されるパッチをオーバーサンプリングしている。各パッチは密度に応じて十分位数に区分され、各十分位数はMMAIモデルが各十分位から同一総数の画像を見るようにオーバーサンプリングされる。
【
図7-1】[0020]病理医が解釈したパッチクラスタの一例を示す図である。UMAPを用いて、試験RTOG-9202のすべての病理組織パッチのSSL特徴から25個のクラスタが生成されている。画像の各行は、クラスタ中心点に最も近い25個の画像パッチに対応する。これらは病理医によって点検され、表に列挙されたクラスタの人間解釈可能な説明が決定される。
【
図8】[0021]NCCNモデルアルゴリズムの一例を示す図である。規則ベースのアルゴリズムは、D’Amicoリスク群に基づき、National Cancer Center Networkが毎年発表しているガイドラインをモデル化する。
【
図9】[0022]本明細書で説明されるマルチモーダルAIシステムの概略表現図である。
【
図10】[0023]本明細書で説明されるモデルの検査および開発のための臨床試験プーリングを表すフロー図である。
【
図11】[0024]本明細書で説明されるモデルによって解析されたデータの患者特性をまとめた表である。
【
図12】[0025]検査コホート(上パネル)および開発コホート(下パネル)における人種サブ群間の遠隔転移(DM)および前立腺がん特異的死亡率(PCSM)について本明細書で説明されるMMAIモデルによって決定された、MMAIスコアの分布図である。
【
図13】[0026]開発コホートと検査コホートにおけるMMAIスコアを人種サブ群別にまとめた表である。
【
図14】[0027]本明細書で説明されるMMAIモデルによって決定されたMMAIモデルスコアを、訓練コホートおよび検査コホートにおける人種サブ群別にまとめた図である。
【
図15A】[0028]開発コホートおよび検査コホートにおける遠隔転移(DM)MMAIおよび前立腺がん特異的死亡率(PCSM)MMAIについて、人種サブ群におけるFine&Gray回帰モデルからの部分分布ハザード比(HR)の結果を示す図である。検査コホートのDM結果を示す図である。
【
図15B】開発コホートおよび検査コホートにおける遠隔転移(DM)MMAIおよび前立腺がん特異的死亡率(PCSM)MMAIについて、人種サブ群におけるFine&Gray回帰モデルからの部分分布ハザード比(HR)の結果を示す図である。開発コホートのDM結果を示す図である。
【
図15C】開発コホートおよび検査コホートにおける遠隔転移(DM)MMAIおよび前立腺がん特異的死亡率(PCSM)MMAIについて、人種サブ群におけるFine&Gray回帰モデルからの部分分布ハザード比(HR)の結果を示す図である。検査コホートのPCSM結果を示す図である。
【
図15D】開発コホートおよび検査コホートにおける遠隔転移(DM)MMAIおよび前立腺がん特異的死亡率(PCSM)MMAIについて、人種サブ群におけるFine&Gray回帰モデルからの部分分布ハザード比(HR)の結果を示す図である。開発コホートのDM結果を示す図である。
【
図16】[0029]本明細書で説明されるMMAIモデルの人種サブ群におけるFine&Gray回帰モデルからの部分分布ハザード比(HR)の結果を示す図である。検査コホートにおける5年生化学的不全(BF5yr MMAI)、10年BF(BF10yr MMAI)、5年遠隔転移(DM5yr MMAI)、10年DM(DM10yr MMAI)、10年前立腺がん特異的死亡率(PCSM10yr MMAI)、および10年全生存(OS10yr MMAI)のHRが示される。
【
図17】[0030]DM5-yrMMAI(パネルa)およびPCSM10-yrMMAI(パネルb)について、本明細書で説明されるMMAIモデルの人種サブ群におけるFine&Gray回帰モデルからの部分分布ハザード比(HR)の結果を、検査コホートおよび訓練コホートの表形式で表した図である。
【
図18A】[0031]全コホートにおけるDMの人種サブ群別の推定リスク/累積罹患率曲線の図である。
【
図18B】全コホートにおけるPCSMの人種サブ群別の推定リスク/累積罹患率曲線の図である。
【
図19A】[0032]開発コホート、検査コホート、および全コホートにおける人種サブ群内のMMAIモデル(DM MMAI)のリスク層別化を示す図である。
【
図19B】[0033]開発コホート、検査コホート、および全コホートにおける人種サブ群内のMMAIモデル(PCSM)MMAIのリスク層別化を示す図である。
【
図20A】[0034]開発コホート、検査コホート、および全コホートにおける人種サブ群内のMMAIモデル(DM MMAI)のリスク層別化を示す図である。
【
図20B】[0035]開発コホート、検査コホート、および全コホートにおける人種サブ群内のMMAIモデル(PCSM)MMAIのリスク層別化を示す図である。
【
図21】[0036]前立腺がん患者のコホートにおける遠隔転移(DM)の累積罹患率曲線を示す。
【
図22】[0037]本明細書で説明される人工知能モデルによって予測されるリスクで層別化されたコホートの患者特性をまとめた表である。
【
図23】[0038]National Comprehensive Cancer Network(NCCN)のリスク層別化、およびマルチモーダルの人工知能リスク層別化による、同一患者コホートの差分リスク層別化を示す表である。
【
図24】[0039]NCCN分類と比較した患者のコホートの10年後のMMAI予測の遠隔転移リスク(DM10-yr)を示す図である。
【
図25A】[0040]NCCN法および本明細書で開示される方法による患者コホートの差分層別化を図表現である。
【
図25B】NCCN法および本明細書で開示される方法による患者コホートの差分層別化を図表現である。
【
図26】[0041]親臨床試験NRG/RTOG9902からの調査組み入れに向けた患者のフロー図である。H&E=ヘマトキシリンおよびエオシン、MMAI=マルチモーダル人工知能、DPEP=デジタル病理評価可能集団、RT=放射線療法、AS=アンドロゲン抑制、CT=化学療法。
【
図27A】[0042]親臨床試験NRG/RTOG9902の参加者の集団特性を示す図である。
【
図27B】NRG/RTOG9902における個人の集団の処置群間のMMAIスコアを示す図である。
【
図28A】[0043]MMAIアルゴリズムとDMおよびPCSMエンドポイントとの関連付けについての単変量解析を示す表である。
【
図28B】個々の臨床リスク因子を調整しながらの、MMAIアルゴリズムとDMおよびPCSMエンドポイントとの関連付けについての多変量解析を示す表である。
【
図29A】[0044]遠隔転移(DM)に対するMMAIの予後判定パフォーマンスを示す表である。
【
図29B】サブ群分類内の前立腺がん特異的死亡率(PCSM)に対するMMAIの予後判定パフォーマンスを示す表である。
【
図30A】[0045]すべての臨床リスク因子を調整した後のPMに対するMMAIアルゴリズムの多変量解析を示す表である。
【
図30B】すべての臨床リスク因子を調整した後のPCSMに対するMMAIアルゴリズムの多変量解析を示す表である。
【
図31A】[0046]BF、CSM、およびOSに対するDM予後判定MMAIアルゴリズムの多変量解析を示す表である。
【
図31B】BF、CSM、およびOSに対するPCSM予後判定MMAIアルゴリズムの多変量解析を示す表である。
【
図32A】[0047]DMに最適化されたマルチモーダル人工知能(DM MMAI)によって予測された、四分位4vs.四分位1~3による推定された遠隔転移(DM)リスクの累積罹患率曲線を示す図である。
【
図32B】PCSMに最適化されたマルチモーダル人工知能(PCSM MMAI)によって予測された、四分位4vs.四分位1~3による推定された前立腺がん特異的死亡率リスク(PCSM)の累積罹患率曲線を示す図である。
【
図33A】[0048]処置群別の四分位4vs.四分位1~3DM MMAIによる推定された遠隔転移(DM)リスクの累積罹患率曲線を示す図である。
【
図33B】処置群別の四分位4vs.四分位1~3PCSM MMAIによる推定された前立腺がん特異的死亡リスク(PCSM)の累積罹患率曲線を示す図である。
【発明を実施するための形態】
【0015】
[0049]本明細書では本発明の様々な実施形態が示され、説明されているが、当業者には、そのような実施形態が例示としてのみ提供されることは明らかであろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更、置換を思い付くであろう。本明細書で説明される本発明の実施形態に対する様々な代替形態が採用され得ることが理解されるべきである。
【0016】
[0050]本明細書および特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈上明らかにそうでないことが指示されない限り、複数形への言及を含む。例えば、「核酸」という用語は、それらの混合物を含む複数の核酸を含む。
【0017】
[0051]本明細書で使用される場合、「被験者」という用語は、一般に、検査可能または検出可能な遺伝情報を有する実体または媒体を称する。被験者は、ヒト、個体、または患者とすることができる。被験者は、例えば哺乳類などの脊椎動物とすることができる。哺乳類の非限定的な例としては、ヒト、サル、家畜、スポーツ動物、げっ歯類、ペットなどが挙げられる。被験者は、男性被験者とすることができる。被験者は、女性被験者とすることができる。被験者は、被験者のがん関連の健康上のまたは生理学的な状態またはコンディションなど、被験者の健康上のまたは生理学的な状態またはコンディションを示す症状を示すことがある。あるいは、被験者は、そのような健康上のまたは生理学的な状態またはコンディションに関して無症状であってもよい。被験者は、ある健康上のまたは生理学的な状態またはコンディションを有していることが疑われる場合がある。被験者は、健康上のまたは生理学的な状態またはコンディションを発症するリスクがあり得る。健康上のまたは生理学的な状態は、疾患(例えば、がん)に相当する場合がある。被験者は、疾患があると診断された個人であってもよい。被験者は、疾病を発症するリスクのある個人であってもよい。
【0018】
[0052]本明細書で使用される場合、「がんの診断」、「がんを診断する」、および関連または派生する用語は、被験者におけるがんの識別、がんの悪性度の判定、またはがんのステージの判定を含む。
【0019】
[0053]本明細書で使用される場合、「がんの予後」、「がんの予後判定をする」、および関連または派生する用語は、患者の臨床転帰を予測すること、がん再発のリスクを評価すること、処置モダリティを決定すること、または処置有効性を判定することを含む。
【0020】
[0054]本明細書で使用される場合、「核酸」という用語は、一般に、任意の長さのヌクレオチドの重合体、デオキシリボヌクレオチド(dNTP)もしくはリボヌクレオチド(rNTP)、またはそれらの類似体を称する。核酸はどのような3次元構造を有してもよく、既知または未知の任意の機能を果たすことができる。核酸の非限定的な例としては、デオキシリボ核酸(DNA)、リボ核酸(RNA)、遺伝子または遺伝子断片のコード領域または非コード領域、連鎖解析から定義される遺伝子座(locus)、エクソン、イントロン、メッセンジャーRNA(mRNA)、転移RNA、リボソームRNA、短鎖干渉RNA(siRNA)、短鎖ヘアピンRNA(shRNA)、マイクロRNA(miRNA)、リボザイム、cDNA、組換え核酸、分岐核酸、プラスミド、ベクタ、任意の配列の単離DNA、任意の配列の単離RNA、核酸プローブ、およびプライマーがある。核酸は、メチル化ヌクレオチドおよびヌクレオチド類似体などの1つまたは複数の修飾ヌクレオチドを含んでいてもよい。存在する場合、ヌクレオチド構造への修飾は、核酸の組立て前または組立て後に行うことができる。核酸のヌクレオチドの配列は、非ヌクレオチド成分によって遮られることがある。核酸は重合後、レポータ剤との共役または結合などにより、さらに修飾することができる。
【0021】
[0055]本明細書で使用される場合、「標的核酸」という用語は、一般に、ヌクレオチド配列を有する核酸分子の出発集団中の核酸分子であって、その存在、量、および/または配列、あるいはこれらの1つまたは複数の変化を決定することが望まれる核酸分子を称する。標的核酸は、DNA、RNA、およびそれらの類似体を含む、あらゆる種類の核酸であってもよい。本明細書で使用される場合、「標的リボ核酸(RNA)」とは、一般にRNAである標的核酸を称する。本明細書で使用される場合、「標的デオキシリボ核酸(DNA)」とは、一般にDNAである標的核酸を称する。
【0022】
[0056]本明細書で使用される場合、「増幅すること」および「増幅」という用語は、一般に、核酸分子の大きさまたは量を増大させることを称する。核酸分子は一本鎖でもよいし、二本鎖でもよい。増幅は、核酸分子の1つまたは複数の複製または「増幅産物」を生成することを含み得る。増幅は、例えば、伸長(例えば、プライマー伸長)またはライゲーションによって行うことができる。増幅は、一本鎖核酸分子に相補的な鎖を生成するためにプライマー伸長反応を行うこと、場合によっては鎖および/または一本鎖核酸分子の1つまたは複数の複製を生成することを含み得る。「DNA増幅」という用語は、一般に、DNA分子または「増幅されたDNA産物」の1つまたは複数の複製を生成することを称する。「逆転写増幅」という用語は一般に、逆転写酵素の作用によってリボ核酸(RNA)鋳型からデオキシリボ核酸(DNA)を生成することを称する。
【0023】
本開示の実施形態
【0024】
[0057]前立腺がんは有病率が高いにもかかわらず、前立腺がんの正確で感度の高い具体的な診断は依然として困難である。前立腺がんは多くの場合無痛性であり、処置によって治癒することもあるが、過度な処置や処置の不足による悪影響により、前立腺がんはがん関連障害の世界的な主要原因となっており、男性におけるがん死亡の主要原因の1つであることに変わりはない。前立腺がん患者に対する最適な一連の治療を決定することは、患者の全体的な健康、患者のがんの特性、多くの可能な処置の副作用プロファイル、同様に診断された患者が関与する臨床試験の転帰データ、手元の患者の期待される将来的な転帰を予後判定することを考慮する必要がある、難しい医学的タスクである。この困難は、患者をより良好にリスク層別化するために、容易にアクセス可能な予後判定ツールがないために、さらに深刻である。
【0025】
[0058]人工知能(AI)により、これまでは解釈の難しかった膨大なデータセットから洞察が得られるようになった。標準的なリスク層別化ツールが固定的で少数の変数に基づいているのに対し、AIは様々なモダリティにわたって最小限の処理しかされていない大量のデータから学習することができる。AIシステムは低コストで、大規模に拡張可能で、使用を通じて徐々に改善することができる。
【0026】
[0059]治療のパーソナライゼーションを支援するための、正確でグローバルに拡張可能なツールが強く必要とされる。本明細書に開示される方法およびシステムは、前立腺生検のデジタル病理組織学および臨床データに対して訓練した新規のマルチモーダル深層学習モデルを使用して、長期的で、臨床的に関連する転帰(例えば、遠隔転移、生化学的再発、部分奏効、完全奏効、死亡、相対生存、がん特異的生存、無増悪生存、無病生存、5年生存、および全生存)を予測することによって、前立腺がん治療のパーソナライゼーションを実証する。
【0027】
[0060]本開示は、被験者(例えば、前立腺がんを患っているか、または前立腺がんを患っている疑いのある男性患者)から得られたか、または被験者由来の生体試料を処理することによって、がん関連カテゴリおよび/または状態を識別またはモニタするための方法、システム、およびキットを提供する。被験者から得られた生体試料(例えば、前立腺生検試料)は、がん関連カテゴリを識別するために解析され得る(これには、例えば、がん関連カテゴリの有無、または定量的な評価(例えば、リスク、予測される転帰)の見当をつけることを含み得る)。このような被験者には、1つまたは複数のがん関連カテゴリを有する被験者、およびがん関連カテゴリを有しない被験者を含んでもよい。がん関連カテゴリまたは状態には、例えば、がん陽性、がん陰性、がんステージ、がん処置に対する予測応答、および/または予測される長期転帰(例えば、疾患転移、生化学的再発、部分奏効、完全奏効、相対生存、がん特異的生存、無増悪生存、無病生存、5年生存、または全生存)が含まれ得る。
【0028】
生体試料のアッセイ
【0029】
[0061]生体試料は、ヒト被験者(例えば、男性被験者)から取得され得るか、またはヒト被験者に由来し得る。生体試料は、処理前に様々な温度(例えば、室温、冷蔵もしくは冷凍庫条件下、25℃、4℃、-18℃、-20℃、もしくは-80℃)、または様々な懸濁液(例えば、ホルマリン、EDTA収集管、無細胞RNA収集管、もしくは無細胞DNA収集管)などの多様な保存条件で保存することができる。生体試料は、がん(例えば、前立腺がん)を有する、もしくは有する疑いのある被験者から得てもよいし、またはがんを有しない、もしくは有する疑いのない被験者から得てもよい。
【0030】
[0062]生体試料は、生体試料を解析することにより、被験者の疾患または健康上のもしくは生理学的なコンディションを診断、検出または識別するために使用することができる。生体試料またはその一部は、その試料が疾患または健康のコンディション(例えば、前立腺がん)に対して陽性である可能性を決定するために解析され得る。あるいは、または加えて、本明細書で説明される方法は、疾患または健康のコンディションを有する被験者を診断するステップ、被験者において疾患または健康のコンディションをモニタするステップ、および/または被験者の健康上の疾患/コンディションの傾向を判断するステップを含み得る。いくつかの実施形態では、生体試料は、試料および/もしくは被験者をがん関連カテゴリに分類するため、ならびに/または被験者が特定のがん関連状態を有すると識別するために使用され得る。がん関連カテゴリまたは状態は、診断(例えば、がんの陽性または陰性)、特定の種類のがん(例えば、前立腺がん)、がんのステージ、予測される転帰もしくは予後、1つもしくは複数の処置に対する予測される応答、またはそれらの組合せを含み得る。
【0031】
[0063]測定可能な物質は、試料のソースとなり得る。物質は流体、例えば生体流体であってもよい。流体の物質には、血液(例えば、全血、血漿、血清)、臍帯血、唾液、尿、汗、血清、精液、膣液、胃液および消化液、脳脊髄液、胎盤液、腔液、眼液、血清、母乳、リンパ液、またはそれらの組合せがあり得る。
【0032】
[0064]物質は固体、例えば生体組織であってもよい。物質は正常な健康組織を含むことがある。組織は様々な種類の臓器に関連している可能性がある。臓器の非限定的な例としては、脳、乳房、肝臓、肺、腎臓、前立腺、卵巣、脾臓、リンパ節(扁桃腺を含む)、甲状腺、すい臓、心臓、骨格筋、腸、喉頭、食道、胃、またはそれらの組合せを挙げることができる。
【0033】
[0065]物質は腫瘍を含んでもよい。腫瘍は良性(非がん)、前悪性、または悪性(がん)、またはそれらの転移である。腫瘍および関連がんの非限定的な例としては、以下を挙げることができる:聴神経腫、急性リンパ芽球性白血病、急性骨髄性白血病、腺がん、副腎皮質がん、エイズ関連がん、エイズ関連リンパ腫、肛門がん、血管肉腫、虫垂がん、星細胞腫、基底細胞がん、胆管がん、膀胱がん、骨がん、脳腫瘍、例えば小脳星細胞腫、脳星細胞腫/悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外胚葉腫瘍、視覚路および視床下部神経膠腫、乳がん、気管支腺腫、バーキットリンパ腫、原発不明がん、中枢神経系リンパ腫、気管支原性がん、小脳星細胞腫、子宮頸がん、小児がん、軟骨肉腫、脊索腫、絨毛がん、慢性リンパ性白血病、慢性骨髄性白血病、慢性骨髄増殖性疾患、結腸がん(cancer)、結腸がん(carcinoma)、頭蓋咽頭腫、皮膚T細胞リンパ腫、嚢胞腺がん、脱腫瘍性小円形細胞腫、胚細胞がん、内分泌系がん、子宮内膜がん、内皮肉腫、上衣腫、上皮がん、食道がん、ユーイング肉腫、線維肉腫、胚細胞腫瘍、胆嚢がん、胃がん、消化管カルチノイド腫瘍、消化管間質腫瘍、消化器系がん、泌尿生殖器系がん、神経膠腫、毛様細胞白血病、頭頸部がん、心臓がん、血管芽腫、肝細胞(肝臓)がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、膵島細胞がん、カポジ肉腫、腎臓がん、喉頭がん、平滑筋肉腫、口唇および口腔がん、脂肪肉腫、肝臓がん、肺がん、例えば非小細胞肺がんおよび小細胞肺がん、肺がん(carcinoma)、リンパ管肉腫、リンパ管内皮腫、リンパ腫、白血病、マクログロブリン血症、骨悪性線維性組織球腫/骨肉腫、髄芽腫、髄様がん、黒色腫、髄膜腫、中皮腫、原発不明転移性扁平上皮頸部がん、口内がん、多発性内分泌腫瘍症候群、骨髄異形成症候群、骨髄性白血病、粘液肉腫、鼻腔および副鼻腔がん、上咽頭がん、神経芽細胞腫、非ホジキンリンパ腫、非小細胞肺がん、乏突起膠腫、口腔がん、中咽頭がん、骨肉腫/骨悪性線維性組織球腫、卵巣がん、卵巣上皮がん、卵巣胚細胞腫瘍、すい臓がん、すい臓がん膵島細胞、乳頭腺がん、乳頭がん、副鼻腔および鼻腔がん、副甲状腺がん、陰茎がん、咽頭がん、褐色細胞腫、松果体星細胞腫、松果体胚芽腫、下垂体腺腫、胸膜肺芽腫、形質細胞新生物、原発性中枢神経系リンパ腫、前立腺がん、直腸がん、腎細胞がん、腎盂および尿管移行細胞がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、肉腫、皮脂腺がん、セミノーマ、皮膚がん、皮膚メルケル細胞がん、小腸がん、軟部肉腫、扁平上皮がん、胃がん、汗腺がん、滑膜腫、T細胞リンパ腫、精巣腫瘍、咽頭がん、胸腺腫、胸腺がん、甲状腺がん、絨毛腫瘍(妊娠性)、原発部位不明のがん、尿道がん、子宮肉腫、膣がん、外陰がん、ワルデンストレームマクログロブリン血症、ウィルムス腫瘍、またはそれらの組合せ。腫瘍は様々な種類の臓器に関連している可能性がある。臓器の非限定的な例としては、脳、乳房、肝臓、肺、腎臓、前立腺、卵巣、脾臓、リンパ節(扁桃腺を含む)、甲状腺、すい臓、心臓、骨格筋、腸、喉頭、食道、胃、またはそれらの組合せを挙げることができる。
【0034】
[0066]物質は、正常な健康組織または腫瘍組織の混合物を含むことがある。組織は様々な種類の臓器に関連している可能性がある。臓器の非限定的な例としては、脳、乳房、肝臓、肺、腎臓、前立腺、卵巣、脾臓、リンパ節(扁桃腺を含む)、甲状腺、すい臓、心臓、骨格筋、腸、喉頭、食道、胃、またはそれらの組合せを挙げることができる。いくつかの実施形態では、組織は被験者の前立腺に関連する。細胞および/または組織を含む生体試料(例えば、生検試料)の場合、生体試料はさらに解析またはアッセイされてもよい。いくつかの実施形態では、生検試料は、固定、処理(例えば、脱水)、包埋、凍結、染色、および/または顕微鏡下で検査することができる。いくつかの実施形態では、処理された試料からデジタルスライドが生成される。
【0035】
[0067]いくつかの実施形態では、物質は、真核細胞、原核細胞、真菌細胞、心臓細胞、肺細胞、腎臓細胞、肝臓細胞、すい臓細胞、生殖細胞、幹細胞、人工多能性幹細胞、胃腸細胞、血液細胞、がん細胞、細菌細胞、ヒトマイクロバイオーム試料から単離された細菌細胞、およびヒト血液中の循環細胞を含む、多様な細胞を含み得る。いくつかの実施形態では、物質は、例えば単一の細胞の内容物、または複数の細胞の内容物など、細胞の内容物を含んでいてもよい。
【0036】
[0068]いくつかの実施形態では、物質は1つまたは複数のマーカーを含み得、その存在または非存在が、疾患、障害、感染、または環境暴露などの何らかの現象を示す。マーカーは、例えば、細胞、低分子、高分子、タンパク質、糖タンパク質、炭水化物、糖、ポリペプチド、核酸(例えば、デオキシリボ核酸(DNA)、リボ核酸(RNA))、無細胞核酸(例えば、cf-DNA、cf-RNA)、脂質、細胞成分、またはそれらの組合せであり得る。
【0037】
[0069]生体試料は、がんを有する被験者の処置前および/または処置後に採取することができる。生体試料は、処置中または処置レジメン中に被験者から得ることができる。処置の効果を経時的にモニタするために、被験者から複数の生体試料が採られる場合がある。生体試料は、がん(例えば、前立腺がん)を有することが分かっている、またはそれが疑われる被験者から採取され得る。生体試料は、疲労、吐き気、体重減少、痛みおよび疼痛、脱力感、または出血など、説明ができない症状がある被験者から採取することができる。生体試料は、説明できる症状を有する被験者から採取することができる。生体試料は、家族歴、年齢、高血圧もしくは高血圧予備軍、糖尿病もしくは糖尿病予備軍、過体重もしくは肥満、環境暴露、ライフスタイルリスク因子(例えば、喫煙、飲酒、または薬物使用)、または他のリスク因子の存在などの因子により、がんを発症するリスクがある被験者から採取することができる。
【0038】
[0070]被験者から生体試料を採った後、生体試料は処理されて、被験者の疾患、コンディション、がん関連カテゴリ、または健康状態を示すデータセットを生成することができる。例えば、組織試料を病理組織学的アッセイ(例えば、whole slide imagingなどのデジタル画像取得を含む顕微鏡検査)にかけ、生体試料に基づいた画像データを生成することができる。あるいは、液体試料または試料から単離されたマーカーを検査(例えば、臨床検査室試験)にかけ、表形式データを生成してもよい。いくつかの実施形態では、試料は、1つまたは複数の代謝産物(例えば、前立腺特異抗原(PSA))の存在、非存在、または量についてアッセイされる。
【0039】
データの種類
【0040】
[0071]本明細書で説明される方法およびシステムは、1つまたは複数のデータセットを入力とする。1つまたは複数のデータセットは、表形式データおよび/または画像データを含み得る。表形式データおよび/または画像データは、被験者の生体試料から得てもよい。いくつかの実施形態では、データは生体試料に由来するものではない。
【0041】
[0072]データは、被験者の生検から採取された組織試料の画像を含む場合がある。画像データは、生検試料の顕微鏡検査によって取得することができる。顕微鏡検査は、光学顕微鏡検査、仮想もしくはデジタル顕微鏡検査(whole slide imaging(WSI)など)、または当分野で知られている任意の適切な顕微鏡検査技法で構成され得る。顕微鏡検査画像は、フィルタリング、分割、連結、または物体検出などの1つまたは複数の処理工程にかけられてもよい。
【0042】
[0073]本明細書で説明される表形式データは、被験者の健康状態またはコンディション(例えば、疾患)に関連する任意の非画像データを含み得る。表形式データは、以下のような臨床データを含み得る:1つまたは複数の時点における検査室データ(例えば、前立腺血清抗原(PSA)レベル)、細胞病理の定性的な尺度(例えば、Gleasonグレード、Gleasonスコア)、構造化もしくは非構造化された健康データ(例えば、直腸デジタル検査結果)、医療画像データもしくは結果(例えば、X線、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、陽電子放射断層撮影法(PET)スキャン、または超音波検査の結果、例えば経直腸超音波検査結果)、年齢、病歴、以前もしくは現在のがんの状態(例えば、寛解、転移)もしくはステージ、現在もしくは以前の治療的介入、長期転帰、および/またはNational Comprehensive Cancer Network(NCCN)分類もしくはその構成要素(例えば、combined Gleasonスコア、tステージ、ベースラインPSA)。
【0043】
[0074]いくつかの実施形態では、治療的介入は放射線治療(RT)を含み得る。いくつかの実施形態では、治療的介入は化学療法を含み得る。いくつかの実施形態では、治療的介入は外科的介入を含み得る。いくつかの実施形態では、治療的介入は免疫療法を含み得る。いくつかの実施形態では、治療的介入はホルモン療法を含み得る。いくつかの実施形態では、RTは、短期アンドロゲン遮断療法(ST-ADT)の事前設定された使用を伴うRTを含み得る。いくつかの実施形態では、RTは、長期ADT(LT-ADT)の事前設定された使用を伴うRTを含み得る。いくつかの実施形態では、RTは、線量漸増RT(DE-RT)の事前設定された使用を伴うRTを含み得る。いくつかの実施形態では、外科的介入は、根治的前立腺切除術(RP)を含み得る。いくつかの実施形態では、治療的介入は、本明細書で開示される治療的介入の任意の組合せを含み得る。いくつかの実施形態では、長期転帰は遠隔転移(DM)を含み得る。いくつかの実施形態では、長期転帰は生化学的再発(BR)を含み得る。いくつかの実施形態では、長期転帰は部分奏効を含み得る。いくつかの実施形態では、長期転帰は完全奏効を含み得る。いくつかの実施形態では、長期転帰は死亡を含み得る。いくつかの実施形態では、長期転帰は相対生存を含み得る。いくつかの実施形態では、長期転帰は、がん特異的生存を含み得る。いくつかの実施形態では、がん特異的生存は、前立腺がん特異的生存(PCaSS)を含み得る。いくつかの実施形態では、長期転帰は無増悪生存を含み得る。いくつかの実施形態では、長期転帰は無病生存を含み得る。いくつかの実施形態では、長期転帰は5年生存を含み得る。いくつかの実施形態では、長期転帰は全生存(OS)を含み得る。いくつかの実施形態では、長期転帰は、本明細書に開示される長期転帰の任意の組合せを含み得る。
【0044】
[0075]本明細書で説明される方法およびシステムで使用されるデータは、1つまたは複数の処理工程にかけられることがある。いくつかの実施形態では、データ(例えば、画像データ)は、画像処理、画像分割、または物体検出アルゴリズムとして符号化された、画像処理、画像分割、および/または物体検出プロセスにかけられる。画像処理手順は、画像のフィルタリング、変換、拡大縮小、回転、ミラーリング、せん断、結合、圧縮、分割、連結、画像からの特徴抽出、および/または下流処理前の画像の平滑化を行うことができる。いくつかの実施形態では、複数の画像(例えば病理組織スライド)を組み合わせて画像キルトを形成する。画像キルトは、画像データの下流処理に有用な表現(例えば、テンソル)に変換することができる。画像分割処理は、画像を、ある因子または関心領域を含む1つまたは複数のセグメントにパーティショニングすることができる。例えば、画像分割アルゴリズムは、デジタル組織病理学スライドを処理して、空白またはアーチファクトの領域とは全く異なる組織の領域を決定することができる。いくつかの実施形態では、画像分割アルゴリズムは、機械学習アルゴリズムまたは人工知能アルゴリズムを含み得る。いくつかの実施形態では、画像分割は画像処理に先行することがある。いくつかの実施形態では、画像処理は画像分割に先行することがある。物体検出処理は、標的物体(例えば、核などの、細胞または細胞部分)の有無を検出することを含むことがある。いくつかの実施形態では、物体検出は、画像処理および/または画像分割を進めることができる。例えば、画像検出アルゴリズムによって1つまたは複数の関心物体を含むことが判明した画像は、その後の画像処理工程で連結されてもよい。あるいは、または加えて、画像処理は、物体検出および/または画像分割に先行してもよい。例えば、生の画像データを処理(例えば、フィルタリング)し、処理した画像データが物体検出アルゴリズムにかけられてもよい。画像データは、任意の適切な順序で、複数の画像処理工程、画像分割工程、および/または物体検出工程にかけられてもよい。一例において、画像データは任意選択で、画質を向上させるために1つまたは複数の画像処理工程にかけられる。処理された画像は、次いで画像分割アルゴリズムにかけられ、関心領域(例えば、1組の病理組織スライドにおける組織の領域)が検出される。次に、関心領域は物体検出アルゴリズム(例えば、組織の画像中の核を検出するアルゴリズム)にかけられ、少なくとも1つの標的物体を有することが分かった領域は、下流での使用向けに処理済みの画像データを作り出すために連結される。
【0045】
[0076]いくつかの実施形態では、データ(例えば、表形式データ)は、1つまたは複数の処理工程にかけられてもよい。処理工程としては、限定されないが、標準化、または正規化などを挙げることができる。1つまたは複数の処理工程は、例えば、真でない値を含むデータ、または非常に少ない観測値を含むデータを破棄することができる。1つまたは複数の処理工程は、さらに、またはあるいは、データ値の符号化を標準化することができる。異なる入力データセットは、データセットのソース次第で、同一パラメータ値が異なる方法で符号化された同一のパラメータ値を有することがある。例えば、「900」、「900.0」、「904」、「904.0」、「-1」、「-1.0」、「None」、「NaN」はすべて、「欠落している」パラメータ値を符号化できる。1つまたは複数の処理工程は、同一値に対する符号化のばらつきを認識し、所与のパラメータ値に対して統一された符号化を有するようにデータセットを標準化することができる。したがって、処理工程は、下流で使用する入力データにおける不規則性を減らすことができる。1つまたは複数のデータセットは、パラメータ値を正規化することができる。例えば、数値データは、スケーリングされてもよいし、白くされてもよいし、着色されてもよいし、装飾されてもよいし、標準化されてもよい。例えば、データは特定の区間(例えば、[0,1]または[-1,1])に入るようにスケーリングまたはシフトされてもよいし、および/または相関が除去されてもよい。いくつかの実施形態では、カテゴリ的なデータはワンホットベクトルとして符号化され得る。いくつかの実施形態では、1つまたは複数の異なる種類の表形式(例えば、数値、カテゴリ的な)データは、連結されてもよい。いくつかの実施形態では、データは処理工程にかけられない。
【0046】
[0077]データは、1つまたは複数の時点で取得されてもよい。いくつかの実施形態では、データは最初の時点と後の時点で取得される。最初の時点と後の時点は、1時間、1日、1週間、2週間、3週間、4週間、6週間、12週間、4ヶ月、5ヶ月、6ヶ月、7ヶ月、8ヶ月、9ヶ月、10ヶ月、11ヶ月、1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、またはそれ以上など、任意の適切な長さの時間だけ間隔をあけてもよい。いくつかの実施形態では、データは3つ以上の時点からのものである。いくつかの実施形態では、データは3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の時点からのものである。
【0047】
訓練済みアルゴリズム
【0048】
[0078]被験者由来の1つまたは複数の生体試料を処理するために1つまたは複数のアッセイを使用して被験者のがん状態(例えば、1つまたは複数のがん関連カテゴリ)を示す1つまたは複数のデータセットを生成した後、訓練済みアルゴリズムを使用してデータセットの1つまたは複数(例えば、視覚データおよび/または表形式データ)を処理して被験者のがん状態を決定することができる。例えば、訓練済みアルゴリズムを使用して、画像データおよび/または検査室データに基づいて、被験者の(例えば、前立腺)がんの有無を判定することができる。訓練済みアルゴリズムは、少なくとも約25、少なくとも約50、少なくとも約100、少なくとも約150、少なくとも約200、少なくとも約250、少なくとも約300、少なくとも約350、少なくとも約400、少なくとも約450、少なくとも約500、または約500超の独立した試料に対し、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または99%超の精度でがんの状態を識別するように構成され得る。
【0049】
[0079]訓練済みアルゴリズムは、教師なし機械学習アルゴリズムを含み得る。訓練済みアルゴリズムは、教師あり機械学習アルゴリズムを含み得る。訓練済みアルゴリズムは、分類回帰木(CART)アルゴリズムを含み得る。教師あり機械学習アルゴリズムは、例えば、ランダムフォレスト、サポートベクタマシン(SVM)、ニューラルネットワーク、または深層学習アルゴリズムを含み得る。訓練済みアルゴリズムは、自己教師あり機械学習アルゴリズムを含み得る。
【0050】
[0080]いくつかの実施形態では、本明細書で説明される方法またはシステムの機械学習アルゴリズムは、1つまたは複数のニューラルネットワークを利用する。場合によっては、ニューラルネットワークは、入力データセットと目標データセットとの間の関係を学習することができる計算システムの一種である。ニューラルネットワークは、人間の神経システム(例えば、認知システム)をソフトウェアで表現したものであり得、人間が使用するような「学習」および「汎化」の能力を捉えることが意図される。いくつかの実施形態では、機械学習アルゴリズムは、CNNからなるニューラルネットワークを含む。本明細書で説明される機械学習アルゴリズムの構造的な構成要素の非限定的な例には、以下のものがある:CNN、再帰ニューラルネットワーク、膨張CNN、全結合ニューラルネットワーク、深層生成モデル、ボルツマンマシン。
【0051】
[0081]いくつかの実施形態では、ニューラルネットワークは、「ニューロン」と呼ばれる一連の層から構成される。いくつかの実施形態では、ニューラルネットワークは、データが提示される入力層、1つまたは複数の内部層および/または「隠れ」層、ならびに出力層から構成される。ニューロンは、接続の強さを制御するパラメータである重みを有する接続を介して、他の層のニューロンに接続される。各層のニューロン数は、解くべき問題の複雑さに関係し得る。ある層で必要とされるニューロンの最小数は問題の複雑さによって決まることがあり、最大数はニューラルネットワークの汎化する能力によって制限され得る。入力ニューロンは、提示されるデータを受け取って、そのデータを、訓練中に修正される接続の重みを介して第1の隠れ層に送信することができる。第1の隠れ層はデータを処理し、その結果を重み付けされた第2の組の接続を通じて次の層に送信することができる。後続の各層は、前の層からの結果を「プール」して、より複雑な関係にすることができる。加えて、従来のソフトウェアプログラムが機能を実行するために特定の命令を記述する必要があるのに対し、ニューラルネットワークは既知のサンプルセットで自身を訓練し、出力値などの所望の出力を提供するように訓練中(および訓練後)に自身を修正できるようになることによってプログラムされる。訓練後、ニューラルネットワークに新たな入力データが提示されると、その入力に関連する出力を生成するために、訓練中に「学習」したことを汎化し、訓練で学習したことを新たな、これまで見たことのない入力データに適用するように構成される。
【0052】
[0082]いくつかの実施形態では、ニューラルネットワークは人工ニューラルネットワーク(ANN)で構成される。ANNは、入力データセットを出力データセットにマッピングするように訓練され得る機械学習アルゴリズムであってよく、ANNは、ノードの相互接続された群が組織化されてノードの複数の層になったものを含む。例えば、ANNアーキテクチャは、少なくとも1つの入力層、1つまたは複数の隠れ層、および1つの出力層から構成され得る。ANNは、任意の総数の層、および任意の数の隠れ層を含むことができ、隠れ層は、1組の入力データを出力値または1組の出力値にマッピングすることを可能にする訓練可能な特徴抽出器として機能する。本明細書で使用される場合、深層学習アルゴリズム(深層ニューラルネットワーク(DNN)など)は、複数の隠れ層、例えば2つ以上の隠れ層を含むANNである。ニューラルネットワークの各層は、多数のノード(すなわち「ニューロン」)を含み得る。ノードは、入力データから直接、または前の層のノードの出力から入力を受け取り、特定の演算、例えば総和演算を実行する。入力からノードへの接続には、重み(または重み付け係数)が関連付けられる。ノードは、すべての入力とそれらの関連付けられた重みとの対の積を足し合わせることができる。重み付けされた和は、バイアスでオフセットされることがある。ノードすなわちニューロンの出力は、閾値または活性化関数を用いてゲートされることがある。活性化関数は線形関数でもよいし、非線形関数でもよい。活性化関数は、例えば、整流線形ユニット(ReLU)活性化関数、Leaky ReLU活性化関数、または飽和双曲線正接、恒等式、2値ステップ、ロジスティック、arctan、softsign、パラメトリック整流線形ユニット、指数線形ユニット、softplus、曲げ恒等式、softexponential、sinusoid、sinc、ガウス、またはシグモイド関数などの他の関数、あるいはそれらの組合せであってもよい。
【0053】
[0083]重み付け係数、バイアス値、および閾値、またはニューラルネットワークの他の計算パラメータは、訓練データの1つまたは複数の組を使用する訓練段階において「教示」または「学習」され得る。例えば、パラメータは、ANNが計算する出力値が訓練データセットに含まれる例と一貫するように、訓練データセットからの入力データおよび勾配降下法または逆伝搬法を使用して訓練することができる。
【0054】
[0084]ANNまたはDNNの入力層で使用されるノードの数は、少なくとも約10、50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、またはそれより多くてもよい。他の例では、入力層で使用されるノードの数は、多くても約100,000、90,000、80,000、70,000、60,000、50,000、40,000、30,000、20,000、10,000、9000、8000、7000、6000、5000、4000、3000、2000、1000、900、800、700、600、500、400、300、200、100、50、10、またはそれより少なくてもよい。いくつかの例では、ANNまたはDNNで使用される層の総数(入力層および出力層を含む)は、少なくとも約3、4、5、10、15、20、またはそれより多くてもよい。他の例では、層の総数は多くても約20、15、10、5、4、3、またはそれより少なくてもよい。
【0055】
[0085]いくつかの例では、ANNまたはDNNで使用される学習可能または訓練可能なパラメータ、例えば、重み付け係数、バイアス、または閾値の総数は、少なくとも約10、50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、またはそれより多くてもよい。他の例では、学習可能なパラメータの数は、多くても約100,000、90,000、80,000、70,000、60,000、50,000、40,000、30,000、20,000、10,000、9000、8000、7000、6000、5000、4000、3000、2000、1000、900、800、700、600、500、400、300、200、100、50、10、またはそれ少ない場合がある。
【0056】
[0086]本明細書で説明される機械学習アルゴリズムのいくつかの実施形態では、機械学習アルゴリズムは、深層CNNなどのニューラルネットワークを含む。CNNが使用されるいくつかの実施形態では、ネットワークは、任意の数の畳み込み層、膨張層、または全結合層で構築される。いくつかの実施形態では、畳み込み層の数は1~10の間であり、膨張層の数は0~10の間である。畳み込み層(入力層および出力層を含む)の総数は、少なくとも約1、2、3、4、5、10、15、20、またはそれより多くてもよく、膨張層の総数は、少なくとも約1、2、3、4、5、10、15、20、またはそれより多くてもよい。畳み込み層の総数は、多くても約20、15、10、5、4、3、またはそれより少なくてもよく、膨張層の総数は、多くても約20、15、10、5、4、3、またはそれより少なくてもよい。いくつかの実施形態では、畳み込み層の数は1~10の間であり、全結合層は0~10の間である。畳み込み層(入力層および出力層を含む)の総数は、少なくとも約1、2、3、4、5、10、15、20、またはそれより多くてもよく、全結合層の総数は、少なくとも約1、2、3、4、5、10、15、20、またはそれより多くてもよい。畳み込み層の総数は、多くても約20、15、10、5、4、3、2、1、またはそれより少なくてもよく、全結合層の総数は、多くても約20、15、10、5、4、3、2、1、またはそれより少なくてもよい。
【0057】
[0087]いくつかの実施形態では、機械学習アルゴリズムは、CNN、RNN、膨張CNN、全結合ニューラルネットワーク、深層生成モデルおよび/または深層制限ボルツマンマシンを含むニューラルネットワークを備える。
【0058】
[0088]いくつかの実施形態では、機械学習アルゴリズムは1つまたは複数のCNNから構成される。CNNは、深層ANNおよびフィードフォワードANNであってもよい。CNNは、可視画像の解析にも応用できるかもしれない。CNNは、入力層、出力層、および複数の隠れ層を含み得る。CNNの隠れ層は、畳み込み層、プーリング層、全結合層、正規化層を含み得る。層は幅、高さ、奥行きの3次元で構成することができる。
【0059】
[0089]畳み込み層は、入力に畳み込み演算を適用し、畳み込み演算の結果を次の層に渡すことができる。画像を処理する場合、畳み込み演算によって自由パラメータの数を減らすことができ、より少ないパラメータでネットワークを深くすることができる。ニューラルネットワークでは、各ニューロンが前の層のいくつかの場所から入力を受け取ることがある。畳み込み層では、ニューロンは前の層の限定された部分領域からのみ入力を受け取ることができる。畳み込み層のパラメータは、1組の学習可能なフィルタ(またはカーネル)で構成されることがある。学習可能なフィルタは、小さな受容野を有し、入力ボリュームの全深さに広がることがある。フォワードパスの間、各フィルタは入力ボリュームの幅と高さにわたって畳み込まれ、フィルタのエントリと入力との間のドット積を計算し、そのフィルタの2次元活性化マップを生成することができる。結果として、ネットワークは、入力における何らかの空間的な位置で、ある特定の種類の特徴を検出したときに活性化するフィルタを学習することができる。
【0060】
[0090]いくつかの実施形態では、機械学習アルゴリズムはRNNから構成される。RNNは、シーケンシャルなデータを符号化して処理できる、周期的な接続を持つニューラルネットワークである。RNNは、一連の入力を受信するように構成される入力層を含むことができる。RNNは加えて、ある状態を維持する1つまたは複数の隠れ再帰層を含むことができる。各工程において、隠れ再帰層は、出力と層の次の状態とを計算することができる。次の状態は、前の状態と現在の入力に依存する可能性がある。状態は工程をまたいで維持され得、入力シーケンスの依存関係を捉えることができる。
【0061】
[0091]RNNは長短期記憶(LSTM)ネットワークとすることができる。LSTMネットワークはLSTMユニットから作ることができる。LSTMユニットは、セル、入力ゲート、出力ゲート、忘却ゲートを含むことができる。セルは入力シーケンスにおける要素間の依存関係を追跡する役割を担うことができる。入力ゲートは新しい値がセルに流れ込む程度を制御することができ、忘却ゲートは値がセルに残る程度を制御することができ、出力ゲートはセル内の値がLSTMユニットの出力活性化を計算するために使われる程度を制御することができる。
【0062】
[0092]あるいは、attention(アテンション)機構(例えばtransformer(トランスフォーマ))。attention機構は、特定の入力領域に焦点を当てる、すなわちそこに「注目」しつつ、他の領域を無視する。これにより、特定の入力領域の関連性を低くできるため、モデルのパフォーマンスが向上する可能性がある。各工程において、attentionユニットは、他の演算の中でも、コンテキストベクトルとその工程における入力とのドット積を計算することができる。attentionユニットの出力は、入力シーケンスの中で最も関連性の高い情報がどこにあるかを定義することができる。
【0063】
[0093]いくつかの実施形態では、プーリング層はグローバルプーリング層を含む。グローバルプーリング層は、ある層のニューロンクラスタの出力を、次の層にある単一のニューロンに結合することができる。例えば、最大プーリング層は、先行層のニューロンのクラスタの各々からの最大値を使用することができる。平均プーリング層は、先行層のニューロンのクラスタの各々からの平均値を使用することができる。
【0064】
[0094]いくつかの実施形態では、全結合層は、ある層のすべてのニューロンを別の層のすべてのニューロンに接続する。ニューラルネットワークでは、各ニューロンが前の層のいくつかの場所から入力を受け取ることがある。全結合層では、各ニューロンは前の層のすべての要素から入力を受け取ることができる。
【0065】
[0095]いくつかの実施形態では、正規化層はバッチ正規化層である。バッチ正規化層は、ニューラルネットワークのパフォーマンスと安定性を向上させることができる。バッチ正規化層は、ニューラルネットワークの任意の層に、平均がゼロ/分散が1の入力を提供することができる。バッチ正規化層を使用する利点には、訓練するネットワークの高速化、学習率の向上、重みの容易な初期化、実行可能な活性化関数の増加、深いネットワークを作成するプロセスの簡素化を挙げることができる。
【0066】
[0096]訓練済みアルゴリズムは、複数の入力変数を受け付け、複数の入力変数に基づいて1つまたは複数の出力値を生成するように構成することができる。複数の入力変数は、がん関連カテゴリを示す1つまたは複数のデータセットから構成され得る。例えば、入力変数は、被験者の生検試料の顕微鏡検査画像を含み得る。複数の入力変数はまた、被験者の臨床健康データを含むことがある。
【0067】
[0097]訓練済みアルゴリズムは、1つまたは複数の出力値の各々が、分類器による生体試料および/または被験者の分類を示す固定数の可能な値のうちの1つ(例えば、線形分類器、ロジスティック回帰分類器など)を含むように、分類器を含むことができる。訓練済みアルゴリズムは、1つまたは複数の出力値の各々が、分類器による生体試料および/または被験者の分類を示す2つの値(例えば、{0,1}、{陽性,陰性}、または{高リスク,低リスク})のうちの1つを含むように、2値分類器を含むことができる。訓練済みアルゴリズムは、1つまたは複数の出力値の各々が、分類器による生体試料および/または被験者の分類を示す3つ以上の値(例えば、{0,1,2}、{陽性,陰性,または不確定}、または{高リスク,中間リスク,または低リスク})のうちの1つを含むような、別の種類の分類器であってもよい。出力値は、説明的なラベル、数値、またはそれらの組合せを含んでもよい。出力値の一部は、説明的なラベルを含んでもよい。このような説明的なラベルは、被験者の疾患または障害の状態の識別または指標を提供することができ、例えば、陽性、陰性、高リスク、中リスク、低リスク、または不確定を含んでもよい。このような説明的なラベルは、被験者のがん関連カテゴリに対する処置の識別を提供することができ、例えば、治療的介入、治療的介入の期間、および/または特定のがん関連カテゴリに分類される被験者を処置するのに適した治療的介入の容量を含み得る。
【0068】
[0098]出力値の一部は、2進数、整数、または連続値などの数値を含んでもよい。このような2進数出力値は、例えば、{0,1}、{陽性,陰性}、または{高リスク,低リスク}を含んでもよい。このような整数出力値は、例えば、{0,1,2}を含んでもよい。このような連続出力値は、例えば、少なくとも0かつ1以下の確率値を含んでもよい。このような連続出力値は、例えば、少なくとも0の正規化されていない確率値を含むことがある。このような連続出力値は、被験者のがん関連カテゴリの予後を示す可能性がある。一部の数値は、例えば1を「陽性」に、0を「陰性」にマッピングすることで、説明的なラベルにマッピングすることができる。
【0069】
[0099]出力値の一部は、1つまたは複数のカットオフ値に基づいて割り当てることができる。例えば、試料の2値分類は、試料が、被験者が少なくとも50%の確率でがん関連状態(例えば、がんの種類またはステージ)を有すること、またはがん関連カテゴリに属することを示す場合、「陽性」または1の出力値を割り当てることができる。例えば、試料の2値分類は、試料が、被験者が50%未満の確率でがん関連カテゴリに属することを示す場合、「陰性」または0の出力値を割り当てることができる。この事例では、50%という単一のカットオフ値を使用して、試料を2つの可能な2値の出力値のうちの1つに分類する。単一のカットオフ値の例としては、約1%、約2%、約5%、約10%、約15%、約20%、約25%、約30%、約35%、約40%、約45%、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、および約99%を挙げることができる。
【0070】
[00100]別の例として、試料の分類は、被験者が、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上で、がん関連カテゴリ(例えば、がんの診断または予後)に属することを試料が示す場合、「陽性」または1の出力値を割り当てることができる。試料の分類は、被験者が約50%超、約55%超、約65%超、約65%超、約70%超、約75%超、約80%超、約85%超、約90%超、約91%超、約92%超、約93%超、約94%超、約95%超、約96%超、約97%超、約98%超、または約99%超の確率で、がん関連カテゴリ(例えば、長期転帰)に属することを試料が示す場合、「陽性」または1の出力値を割り当てることができる。
【0071】
[00101]試料の分類は、被験者が、約50%未満、約45%未満、約40%未満、約35%未満、約30%未満、約25%未満、約20%未満、約15%未満、約10%未満、約9%未満、約8%未満、約7%未満、約6%未満、約5%未満、約4%未満、約3%未満、約2%未満、または約1%未満の確率でがん関連状態を有する、またはがん関連カテゴリ(例えば、前立腺がんが陽性)に属することを試料が示す場合、「陰性」または0の出力値を割り当てることができる。試料の分類は、被験者が約50%以下、約45%以下、約40%以下、約35%以下、約30%以下、約25%以下、約20%以下、約15%以下、約10%以下、約9%以下、約8%以下、約7%以下、約6%以下、約5%以下、約4%以下、約3%以下、約2%以下、または約1%以下の確率で、がん関連状態(例えば、前立腺がん)を有することを試料が示す場合、「陰性」または0の出力値を割り当てることができる。
【0072】
[00102]試料の分類は、試料が「陽性」、「陰性」、1または0に分類されない場合、「不確定」または2の出力値を割り当てることができる。この事例では、1組の2つのカットオフ値を使用して、試料を3つの可能な出力値のうちの1つに分類する。カットオフ値の組の例としては、{1%,99%}、{2%,98%}、{5%,95%}、{10%,90%}、{15%,85%}、{20%,80%}、{25%,75%}、{30%,70%}、{35%,65%}、{40%,60%}、および{45%,55%}を挙げることができる。同様に、カットオフ値のn個の組を使用して、試料をn+1個の可能な出力値のうちの1つに分類することができる。ただし、nは任意の正の整数である。
【0073】
[00103]訓練済みアルゴリズムは、複数の独立的な訓練試料を用いて訓練することができる。独立的な訓練試料の各々は、被験者からの生体試料、(本明細書の他の箇所で説明される)生体試料をアッセイすることによって得られる関連データセット、被験者からの臨床データ、ならびに生体試料および/または被験者に対応する1つまたは複数の既知の出力値(例えば、被験者のがん関連状態の臨床診断、予後、非存在、または処置有効性)を含むことができる。独立的な訓練試料は、複数の異なる被験者から取得された、またはそれに由来する生体試料および関連データセットおよび出力を含み得る。独立的な訓練試料は、同一被験者から複数の異なる時点で(例えば、毎週、隔週、毎月、毎年など、定期的に)得られた生体試料および関連データセットおよび出力を含み得る。独立的な訓練試料は、がん関連状態の存在と関連付けられてもよい(例えば、がん関連状態を有すると分かっている複数の被験者から取得された、またはそれに由来する生体試料および関連するデータセットおよび出力を含む訓練試料)。独立的な訓練試料は、がん関連状態の非存在と関連付けられてもよい(例えば、以前にがん関連状態の診断を受けていないと分かっている複数の被験者、またはがん関連状態について陰性検査結果を受け取った複数の被験者から取得された、またはそれに由来する生体試料および関連データセットおよび出力を含む訓練試料)。
【0074】
[00104]訓練済みアルゴリズムは、少なくとも約5、少なくとも約10、少なくとも約15、少なくとも約20、少なくとも約25、少なくとも約30、少なくとも約35、少なくとも約40、少なくとも約45、少なくとも約50、少なくとも約100、少なくとも約150、少なくとも約200、少なくとも約250、少なくとも約300、少なくとも約350、少なくとも約400、少なくとも約450、または少なくとも約500の独立的な訓練試料を用いて訓練することができる。独立的な訓練試料は、がん関連カテゴリの存在に関連する無細胞生体試料および臨床データ、ならびに/またはがん関連カテゴリの非存在に関連する無細胞生体試料および臨床データを含んでもよい。訓練済みアルゴリズムは、がん関連カテゴリの存在に関連する約500以下、約450以下、約400以下、約350以下、約300以下、約250以下、約200以下、約150以下、約100以下、または約50以下の独立的な訓練試料を用いて訓練することができる。いくつかの実施形態では、生体試料および/または臨床データは、訓練済みアルゴリズムを訓練するために使用される試料とは独立的である。
【0075】
[00105]訓練済みアルゴリズムは、がん関連カテゴリの存在に関連する独立的な訓練試料の第1の数、およびがん関連カテゴリの非存在に関連する独立的な訓練試料の第2の数を用いて訓練することができる。がん関連カテゴリの存在に関連する独立的な訓練試料の第1の数は、がん関連カテゴリの非存在に関連する独立的な訓練試料の第2の数以下であってもよい。がん関連カテゴリが存在することに関連する独立的な訓練試料の第1の数は、がん関連カテゴリが存在しないことに関連する独立的な訓練試料の第2の数と等しくてもよい。がん関連カテゴリの存在に関連する独立的な訓練試料の第1の数は、がん関連カテゴリの非存在に関連する独立的な訓練試料の第2の数より多くてもよい。
【0076】
[00106]訓練済みアルゴリズムは、少なくとも約5、少なくとも約10、少なくとも約15、少なくとも約20、少なくとも約25、少なくとも約30、少なくとも約35、少なくとも約40、少なくとも約45、少なくとも約50、少なくとも約100、少なくとも約150、少なくとも約200、少なくとも約250、少なくとも約300、少なくとも約350、少なくとも約400、少なくとも約450、または少なくとも約500の独立的な訓練試料について、がん関連カテゴリを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の精度で識別するように構成され得る。訓練済みアルゴリズムによってがん関連カテゴリを識別する精度は、がん関連カテゴリに属するかまたは属さないと正しく識別または分類された独立的な検査試料(例えば、がん関連カテゴリに属すると分かっている被験者、またはがん関連カテゴリの臨床検査結果が陰性である被験者)の割合として算出することができる。
【0077】
[00107]訓練済みアルゴリズムは、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の陽性適中率(PPV)でがん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するPPVは、がん関連カテゴリを有すると識別または分類された無細胞生体試料のうち、真にそのがん関連カテゴリに属する被験者に対応する割合として算出することができる。
【0078】
[00108]訓練済みアルゴリズムは、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の陰性適中率(NPV)でがん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するNPVは、がん関連カテゴリを有しないと識別または分類された被験者データセットのうち、真にそのがん関連カテゴリに属さない被験者に対応する割合として算出することができる。
【0079】
[00109]訓練済みアルゴリズムは、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の臨床感度で、がん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床感度は、がん関連カテゴリを有するものとして正しく識別または分類された、がん関連カテゴリに関連する独立的な検査試料(例えば、がん関連カテゴリに属すると分かっている被験者)の割合として算出することができる。
【0080】
[00110]訓練済みアルゴリズムは、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の臨床特異性で、がん関連カテゴリを識別するように構成され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床特異性は、がん関連カテゴリに属さないものとして正しく識別または分類された、がん関連カテゴリの非存在に関連する独立的な検査試料(例えば、がん関連カテゴリの臨床検査結果が陰性である被験者)の割合として算出することができる。
【0081】
[00111]訓練済みアルゴリズムは、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.81、少なくとも約0.82、少なくとも約0.83、少なくとも約0.84、少なくとも約0.85、少なくとも約0.86、少なくとも約0.87、少なくとも約0.88、少なくとも約0.89、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、またはそれ以上の曲線下面積(AUC)でがん関連カテゴリを識別するように構成され得る。AUCは、被験者に由来するデータセットをがん関連カテゴリに属するか属さないかに分類する際の、訓練済みアルゴリズムに関連する受信者動作特性(ROC)曲線の積分値(例えば、ROC曲線下面積)として算出することができる。
【0082】
[00112]訓練済みアルゴリズムは、がん関連カテゴリを識別するパフォーマンス、精度、PPV、NPV、臨床感度、臨床特異性、またはAUCのうち、1つまたは複数を改善するように調整またはチューニングすることができる。訓練済みアルゴリズムは、訓練済みアルゴリズムのパラメータ(例えば、本明細書の他の箇所で説明される生体試料を分類するために使用される1組のカットオフ値、またはニューラルネットワークの重み)を調整することによって調整またはチューニングされ得る。訓練済みアルゴリズムは、訓練プロセス中または訓練プロセスが完了した後に、継続的に調整またはチューニングされてもよい。
【0083】
[00113]訓練済みアルゴリズムが最初に訓練された後、入力のサブセットは、高品質の分類を行うために含めるべき最も影響力のある、または最も重要なものとして識別することができる。例えば、臨床データのサブセットは、がん関連カテゴリ(またはがん関連カテゴリのサブタイプ)の高品質の分類または識別を行うために含めるべき最も影響力のあるもの、または最も重要なものとして識別することができる。臨床データまたはそのサブセットは、がん関連カテゴリ(またはがん関連カテゴリのサブタイプ)の高品質な分類または識別を行う上での各パラメータの影響度または重要度を示す分類メトリクスに基づいてランク付けされる場合がある。このようなメトリクスは、いくつかの実施形態では、訓練済みアルゴリズムを(例えば、所望の最小精度、PPV、NPV、臨床感度、臨床特異性、AUC、またはそれらの組合せに基づいて)所望のパフォーマンスレベルまで訓練するために使用することができる入力変数(例えば、予測器変数)の数を有意に低減するために使用され得る。例えば、訓練済みアルゴリズムにおいて数十から数百を含む多数の入力変数で訓練済みアルゴリズムを訓練することで分類精度が99%超となる場合、代わりに、多数の入力変数のうち、最も影響力のある、または最も重要な入力変数の約5以下、約10以下、約15以下、約20以下、約25以下、約30以下、約35以下、約40以下、約45以下、約50以下、または約100以下の選択されたサブセットのみを使用して、訓練済みアルゴリズムを訓練すると、分類の精度は低下するが、それでも許容できる精度を与えることができる(例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%)。サブセットは、多数の入力変数全体をランク-順位付けし、最良の分類メトリクスを有する所定数の入力変数(例えば、約5以下、約10以下、約15以下、約20以下、約25以下、約30以下、約35以下、約40以下、約45以下、約50以下、または約100以下)を選択することによって選択することができる。
【0084】
[00114]本明細書で説明されるシステムおよび方法は、出力(例えば、被験者のがん関連カテゴリ)を決定するために複数の訓練済みアルゴリズムを使用することができる。システムおよび方法は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の訓練済みアルゴリズムを含み得る。複数の訓練済みアルゴリズムのうちの1つの訓練済みアルゴリズムは、特定の種類のデータ(例えば、画像データまたは表形式データ)に対して訓練することができる。あるいは、1つの訓練済みアルゴリズムを複数の種類のデータで訓練することもできる。1つの訓練済みアルゴリズムの入力は、1つまたは複数の他の訓練済みアルゴリズムの出力を含んでもよい。加えて、訓練済みアルゴリズムは、1つまたは複数の訓練済みアルゴリズムの出力を入力として受け取ることができる。
【0085】
がん関連カテゴリまたは状態の識別またはモニタリング
【0086】
[00115]訓練済みアルゴリズムを使用してデータセットを処理した後、被験者においてがん関連カテゴリを識別、またはモニタすることができる。識別は、少なくとも部分的に、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータに基づいてもよい。
【0087】
[00116]がん関連カテゴリは、被験者のがん関連状態を特徴付けることができる。非限定的な例として、がん関連状態には、被験者ががん(例えば、前立腺がん)を有するもしくは有しない状態、被験者ががんのリスクがある、もしくはあるリスクレベル(例えば、高リスク、低リスク)を有する状態、がんの予測される長期転帰(例えば、遠隔転移、生化学的再発、部分奏効、完全奏効、全生存、がん特異的生存、無増悪生存、無病生存、5年生存、死亡)、治療的介入に対する応答もしくは受容、またはそれらの組合せを含み得る。
【0088】
[00117]被験者は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の精度で、がん関連カテゴリに属すると識別され得る。訓練済みアルゴリズムによって個人のがん関連カテゴリを識別する精度は、がん関連カテゴリに属するかまたは属さないと正しく識別または分類された独立的な検査試料(例えば、がん関連カテゴリに属すると分かっている被験者、またはがん関連カテゴリに対応する臨床検査結果が陰性である被験者)の割合として算出することができる。
【0089】
[00118]被験者は、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の陽性適中率(PPV)でがん関連カテゴリに属すると判定され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するPPVは、がん関連カテゴリに属すると識別または分類された生体試料のうち、真にそのがん関連カテゴリに属する被験者に対応する割合として算出することができる。
【0090】
[00119]がん関連カテゴリは、被験者において少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の陰性適中率(NPV)で識別され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別するNPVは、がん関連カテゴリに属さないと識別または分類された生体試料のうち、真にそのがん関連カテゴリに属さない被験者に対応する割合として算出することができる。
【0091】
[00120]被験者は、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の臨床感度で、がん関連カテゴリに属すると識別され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床感度は、がん関連カテゴリに属するものとして正しく識別または分類された、がん関連カテゴリに属することに関連する独立的な検査試料(例えば、がん関連カテゴリに属すること分かっている被験者)の割合として算出することができる。
【0092】
[00121]がん関連カテゴリは、被験者において少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の臨床特異性で、識別され得る。訓練済みアルゴリズムを使用してがん関連カテゴリを識別する臨床特異性は、がん関連カテゴリに属さないものとして正しく識別または分類された、がん関連カテゴリに属さないことに関連する独立的な検査試料(例えば、がん関連カテゴリの臨床検査結果が陰性である被験者)の割合として算出することができる。
【0093】
[00122]被験者においてがん関連カテゴリが識別された後、がん関連カテゴリのサブタイプ(例えば、がん関連カテゴリの複数のサブタイプの中から選択される)がさらに識別され得る。がん関連カテゴリのサブタイプは、少なくとも部分的に、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータに基づいて判定され得る。例えば、被験者は、(例えば、前立腺がんのいくつかのサブタイプの中から)前立腺がんのあるサブタイプのリスクがあると識別され得る。被験者が前立腺がんのあるサブタイプのリスクにあると識別した後、被験者に対する臨床的介入が少なくとも部分的に、被験者にリスクがあると識別された前立腺がんのサブタイプに基づいて選択されてもよい。いくつかの実施形態では、臨床的介入は、複数の臨床的介入から選択される(例えば、前立腺がんの異なるサブタイプに対して臨床的に指示される)。
【0094】
[00123]被験者ががん関連カテゴリに属すると識別されると、被験者には任意選択で、治療的介入(例えば、被験者のがんの種類、サブタイプ、または状態を処置するための適切な一連の処置を処方する)が用意されることがある。治療的介入は、有効量の薬物または他の療法(例えば、放射線療法、化学療法)の処方、外科的介入(例えば、根治的前立腺切除術)、がん関連カテゴリのさらなる検査もしくは評価、がん関連カテゴリのさらなるモニタリング、またはそれらの組合せを含み得る。被験者ががん関連カテゴリに対して一連の処置で現在処置を受けている場合、治療的介入は、(例えば、現在の一連の処置が有効でないので、処置の有効性を高めるために)後続の異なる一連の処置を含んでいてもよい。
【0095】
[00124]治療的介入は、がん関連カテゴリの診断を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0096】
[00125]生検試料の解析(例えば、前立腺組織の顕微鏡画像の解析)、がん関連カテゴリ関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連カテゴリ関連代謝産物のパネルの定量的な尺度を含むメタボロームデータは、患者(例えば、がんを有する、もしくはがんのリスクがある被験者、またはがんの処置を受けている被験者)をモニタするために、一定期間にわたって評価され得る。このような場合、患者のデータセットの尺度は一連の処置の間に変化することがある。例えば、有効な処置によりがん関連カテゴリのリスクが低下している患者のデータセットの尺度は、健常な被験者(例えば、がんがない、またはがんの寛解期にある被験者)のプロファイルまたは分布に向かってシフトする可能性がある。それとは逆に、例えば、効果的でない処置によりがん関連カテゴリのリスクが上昇した患者のデータセットの尺度は、がん関連カテゴリのリスクがより高い被験者またはがん関連カテゴリがより進行した被験者のプロファイルまたは分布にシフトする可能性がある。
【0097】
[00126]被験者のがん関連カテゴリは、被験者のがんまたはがん関連状態を処置するための一連の処置をモニタすることによってモニタすることができる。モニタリングは、2つ以上の時点で被験者のがん関連カテゴリまたは状態を評価することを含んでもよい。評価は、少なくとも、2つ以上の時点のそれぞれで決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータに基づいてもよい。
【0098】
[00127]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、(i)被験者のがん関連状態の診断、(ii)被験者のがん関連状態の予後、(iii)被験者のがん関連状態のリスクの上昇、(iv)被験者のがん関連状態のリスクの低下、(v)被験者のがん関連状態を処置するための一連の処置の有効性、および(vi)被験者のがん関連状態を処置するための一連の処置の非有効性など、1つまたは複数の臨床指標を示すことがある。
【0099】
[00128]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連のカテゴリ関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連状態またはがん関連カテゴリの診断を示すことがある。例えば、がん関連状態が、早期の時点では被験者に検出されなかったが、後の時点で被験者に検出された場合、その差異は、被験者のがん関連状態が診断であることを示す。被験者のがん関連状態の診断という、この指標に基づいて、例えば、被験者に新たな治療的介入を処方するなどの臨床行為または決定を行うことができる。臨床行為または決定は、がん関連カテゴリの診断を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0100】
[00129]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連カテゴリの予後を示すことがある。
【0101】
[00130]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連のカテゴリ関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者ががん関連状態のリスクの上昇を有することを示すことがある。例えば、がん関連状態が早期の時点と後の時点の両方で被験者において検出され、その差異がネガティブな差異である場合(例えば、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連カテゴリに関連するタンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連カテゴリに関連する代謝産物のパネルにおける定量的な尺度を含むメタボロームデータが、早期の時点から後の時点にかけて上昇した場合)、その差異は、被験者のがん関連状態のリスクが上昇したことを示すことがある。がん関連状態のリスクの上昇という、この指標に基づいて、臨床行為または決定、例えば、被験者に対する新たな治療的介入の処方または治療的介入の切り替え(例えば、現在の処置を終了して新たな処置を処方する)を行うことができる。臨床行為または決定は、がん関連カテゴリのリスクの上昇を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0102】
[00131]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者ががん関連状態のリスクの低下を有することを示すことがある。例えば、がん関連状態が早期の時点と後の時点の両方で被験者において検出され、その差異がポジティブな差異である場合(例えば、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝産物のパネルにおける定量的な尺度を含むメタボロームデータが、早期の時点から後の時点にかけて減少した場合)、その差異は、被験者のがん関連状態のリスクが低下したことを示すことがある。がん関連状態のリスクの低下という、この指標に基づいて、被験者に対する臨床行為または決定(例えば、現在の治療的介入の継続または終了)を行うことができる。臨床行為または決定は、がん関連カテゴリのリスクの低下を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0103】
[00132]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連状態を処置するための一連の処置の有効性を示すことがある。例えば、がん関連状態が、早期の時点では被験者に検出されたが、後の時点で被験者に検出されなかった場合、その差異は、被験者のがん関連状態を処置するための一連の処置が有効であることを示し得る。被験者のがん関連状態を処置するための一連の処置が有効であるという、この指標に基づいて、臨床行為または決定、例えば被験者に対する現在の治療的介入の継続または終了、を行うことができる。臨床行為または決定は、がん関連カテゴリを処置するための一連の処置の有効性を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0104】
[00133]いくつかの実施形態では、2つ以上の時点間で決定された、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝物のパネルの定量的な尺度を含むメタボロームデータにおける差異は、被験者のがん関連カテゴリを処置するための一連の処置の非有効性を示すことがある。例えば、がん関連状態が早期の時点と後の時点の両方で被験者に検出され、その差異がネガティブである、またはゼロ差異である場合(例えば、生体試料の(例えば、生検試料の病理組織スライドの)定量的または定性的な尺度、がん関連タンパク質のパネルにおけるデータセットのタンパク質の定量的な尺度を含むプロテオームデータ、および/またはがん関連代謝産物のパネルにおける定量的な尺度を含むメタボロームデータが、早期の時点から後の時点にかけて上昇した、または一定レベルのままである場合)、かつ早期の時点で有効な処置が示されていた場合、その差異は、被験者のがん関連状態を処置するための一連の処置が有効ではないことを示し得る。被験者のがん関連状態を処置するための一連の処置が有効ではないという、この指標に基づいて、臨床行為または決定、例えば被験者に対する現在の治療的介入の終了、および/または異なる新たな治療的介入への切り替え(例えば、処方)、を行うことができる。臨床行為または決定は、がん関連状態を処置するための一連の処置の非有効性を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0105】
がん関連状態のレポート出力
【0106】
[00134]がん関連状態が識別された後、またはがん関連状態のリスクの上昇が被験者においてモニタされた後、被験者のがん関連状態を示す(例えば、その指標を識別する、または提供する)レポートが電子的に出力され得る。被験者は、がん関連状態を示さないことがある(例えば、前立腺がんの存在またはリスクなどのがん関連状態は無症状である)。レポートは、ユーザの電子機器のグラフィカルユーザインターフェース(GUI)上で提示される。ユーザは、被験者、介護者、医師、看護師、または他の医療従事者であり得る。
【0107】
[00135]レポートは、(i)被験者のがん関連状態の診断、(ii)被験者のがん関連カテゴリの予後、(iii)被験者のがん関連カテゴリのリスクの上昇、(iv)被験者のがん関連カテゴリのリスクの低下、(v)被験者のがん関連カテゴリを処置するための一連の処置の有効性、(vi)被験者のがん関連カテゴリを処置するための一連の処置の非有効性、および(vii)がん関連カテゴリの長期転帰など、1つまたは複数の臨床指標を含み得る。レポートは、これらの1つまたは複数の臨床指標に基づいて行われた1つまたは複数の臨床行為または決定を含むことができる。このような臨床行為または決定は、被験者のがん関連状態の治療的介入、またはさらなる臨床評価もしくは検査に向けられてもよい。
【0108】
[00136]例えば、被験者のがん関連状態の診断という臨床指標は、被験者に新たな治療的介入を処方するという臨床行為を伴うことがある。別の例として、被験者のがん関連状態のリスクの上昇という臨床指標は、被験者に対して新たな治療的介入を処方する、または治療的介入を切り替える(例えば、現在の処置を終了して新たな処置を処方する)という臨床行動を伴うことがある。別の例として、被験者のがん関連状態のリスクの低下という臨床指標は、被験者に対する現在の治療的介入を継続または終了するという臨床的行動を伴うことがある。別の例として、被験者のがん関連状態を処置するための一連の処置の有効性の臨床指標は、被験者に対する現在の治療的介入を継続または終了するという臨床行為を伴うことがある。別の例として、被験者のがん関連状態を処置するための一連の処置の非有効性の臨床指標は、被験者に対する現在の治療的介入の終了、および/または異なる新たな治療的介入への切り替え(例えば、処方)という臨床行為を伴うことがある。
【0109】
[00137]いくつかの実施形態では、治療的介入は、放射線療法(RT)、化学療法、外科的介入(例えば、根治的前立腺切除術)、がん関連カテゴリのさらなる検査もしくは評価、がん関連カテゴリのさらなるモニタリング、またはそれらの組合せを含み得る。被験者ががん関連カテゴリに対して一連の処置で現在処置を受けている場合、治療的介入は、(例えば、現在の一連の処置が有効でないので、処置の有効性を高めるために)後続の異なる一連の処置を含んでいてもよい。治療的介入は、がん関連カテゴリの診断を確定するために被験者に二次的な臨床検査を推奨することを含む場合がある。この二次的な臨床検査には、画像検査、血液検査、コンピュータ断層撮影法(CT)スキャン、磁気共鳴画像法(MRI)スキャン、超音波スキャン、X線検査、陽電子放射断層撮影法(PET)スキャン、PET-CTスキャン、骨スキャン、リンパ節生検、またはそれらの組合せを含み得る。
【0110】
コンピュータシステム
【0111】
[00138]本開示は、本開示の方法を実装するようにプログラムされたコンピュータシステムを提供する。
図1は、例えば、(i)訓練済みアルゴリズムを訓練および試験し、(ii)訓練済みアルゴリズムを使用して画像データおよび/または表形式データを処理して被験者のがん関連カテゴリまたはがん関連状態を判定し、(iii)分類したカテゴリに基づいて被験者のがんを評価し、(iv)被験者のがん関連カテゴリまたはがん関連状態を識別またはモニタし、(v)被験者のがん関連カテゴリまたはがん関連状態を示すレポートを電子的に出力するようにプログラムされた、またはその他の方法で構成されたコンピュータシステム101を示す。
【0112】
[00139]コンピュータシステム101は、例えば、(i)訓練済みアルゴリズムを訓練および試験すること、(ii)訓練済みアルゴリズムを使用して画像データおよび/または表形式データを処理し、被験者のがん関連カテゴリまたはがん関連状態を決定すること、(iii)分類したカテゴリに基づいて被験者のがんを評価すること、(iv)被験者のがん関連カテゴリまたはがん関連状態を識別またはモニタすること、および(v)被験者のがん関連カテゴリまたはがん関連状態を示すレポートを電子的に出力することなど、本開示の解析、計算、および生成の様々な態様を調節することができる。コンピュータシステム101は、ユーザの電子機器、またはその電子機器に関して遠隔に位置するコンピュータシステムとすることができる。電子機器はモバイル電子機器でもよい。
【0113】
[00140]コンピュータシステム101は中央処理ユニット(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」ともいう)105を含み、これは単一のコアもしくはマルチコアのプロセッサ、または並列処理用の複数のプロセッサとすることができる。コンピュータシステム101はまた、メモリまたはメモリロケーション110(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶ユニット115(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース120(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶および/または電子ディスプレイアダプタなどの周辺機器125を含む。メモリ110、記憶ユニット115、インターフェース120および周辺機器125は、マザーボードなどの通信バス(実線)を介してCPU105と通信可能である。記憶ユニット115は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)とすることができる。コンピュータシステム101は、通信インターフェース120の助けを借りて、コンピュータネットワーク(「ネットワーク」)130に動作可能に結合することができる。ネットワーク130は、インターネット、インターネットおよび/またはエクストラネット、あるいはインターネットと通信しているイントラネットおよび/またはエクストラネットとすることができる。
【0114】
[00141]いくつかの実施形態では、ネットワーク130は、電気通信ネットワークおよび/またはデータネットワークである。ネットワーク130は、クラウドコンピューティングなどの分散コンピューティングを可能にする1つまたは複数のコンピュータサーバを含むことができる。例えば、1つまたは複数のコンピュータサーバはネットワーク130(「クラウド」)を介してクラウドコンピューティングを可能にして、例えば、(i)訓練済みアルゴリズムを訓練および試験すること、(ii)訓練済みアルゴリズムを使用してデータを処理し、被験者のがん関連カテゴリを決定すること、(iii)被験者のがん関連カテゴリを示す定量的な尺度を決定すること、(iv)被験者のがん関連カテゴリを識別またはモニタすること、および(v)被験者のがん関連カテゴリを示すレポートを電子的に出力することなど、本開示の解析、計算、および生成の様々な態様を実施することができる。このようなクラウドコンピューティングは、例えば、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Platform、IBM cloudなどのクラウドコンピューティングプラットフォームによって提供され得る。いくつかの実施形態では、ネットワーク130は、コンピュータシステム101の助けを借りて、ピアツーピアネットワークを実装することができ、これによってコンピュータシステム101に結合された機器がクライアントまたはサーバとして振る舞うことができる。
【0115】
[00142]CPU105は、1つもしくは複数のコンピュータプロセッサおよび/または1つもしくは複数のグラフィック処理ユニット(GPU)を含み得る。CPU105は、プログラムまたはソフトウェアに具現化することができる一連の機械可読命令を実行することができる。命令は、メモリ110のようなメモリロケーションに記憶されてもよい。命令は、CPU105に向けることができ、その後、本開示の方法を実装するようにCPU105をプログラムするか、またはその他の方法で構成することができる。CPU105によって実行される動作の例としては、フェッチ、デコード、実行、ライトバックを挙げることができる。
【0116】
[00143]CPU105は、集積回路などの回路の一部とすることができる。システム101の1つまたは複数の他の構成要素が回路に含められてもよい。いくつかの実施形態では、回路は特定用途向け集積回路(ASIC)である。
【0117】
[00144]記憶ユニット115は、ドライバ、ライブラリ、保存されたプログラムなどのファイルを記憶することができる。記憶ユニット115は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができる。いくつかの実施形態では、コンピュータシステム101は、イントラネットまたはインターネットを通じてコンピュータシステム101と通信しているリモートサーバ上にあるなど、コンピュータシステム101の外部にある1つまたは複数の追加的なデータ記憶ユニットを含むことができる。
【0118】
[00145]コンピュータシステム101は、ネットワーク130を介して1つまたは複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム101は、ユーザのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートPCまたはタブレットPC(例えば、Apple(登録商標)のiPad(登録商標)、Samsung(登録商標)のGalaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)のiPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが挙げられる。ユーザは、ネットワーク130を介してコンピュータシステム101にアクセスすることができる。
【0119】
[00146]本明細書で説明される方法は、例えば、メモリ110または電子記憶ユニット115上など、コンピュータシステム101の電子的な記憶場所に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実装することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形で用意することができる。使用中、コードはプロセッサ105によって実行できる。いくつかの実施形態では、コードは記憶ユニット115から取り出され、プロセッサ105がすぐにアクセスできるようにメモリ110に記憶することができる。状況によっては、電子記憶ユニット115を使用せず、機械実行可能な命令はメモリ110に記憶されてもよい。
【0120】
[00147]コードは事前にコンパイルされ、コードを実行するプロセッサを有する機械で使用するように構成されてもよいし、実行時にコンパイルされてもよい。コードは、プリコンパイルまたはアズコンパイルされた様式でコードを実行できるように選択できるプログラミング言語で供給することができる。
【0121】
[00148]コンピュータシステム101など、本明細書で提供されるシステムおよび方法の実施形態は、プログラミングで具現化することができる。本技術の様々な態様は、典型的には、ある種の機械可読媒体で搬送または具現化される機械(またはプロセッサ)実行可能コードおよび/または関連データの形態の「製品」または「製造物品」と考えることができる。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリなど)またはハードディスクなどの電子記憶ユニットに記憶することができる。「記憶」タイプの媒体としては、コンピュータ、プロセッサなどの有形メモリ、またはその関連モジュール、例えば、様々な半導体メモリ、テープドライブ、またはディスクドライブのいずれかまたはすべてを挙げることができ、これらは、ソフトウェアプログラミングのためにいつでも非一時的な記憶を提供することができる。ソフトウェアのすべてまたは一部は、時にインターネットまたはその他の様々な電気通信ネットワークを通じて通信されてもよい。このような通信は、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのように、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへのソフトウェアのロードを可能にする。したがって、ソフトウェア要素を保持することができる別の種類の媒体としては、ローカルデバイス間の物理的インターフェースをまたいで、有線および光固定回線ネットワークを通じて、および様々なエアリンク上で使用されるような、光波、電波、電磁波が挙げられる。有線または無線リンク、光リンクなど、このような波を搬送する物理的要素も、ソフトウェアを保持する媒体と考えることができる。本明細書で使用される場合、非一時的な有形の「記憶」媒体に限定されない限り、コンピュータまたは機械「可読記憶媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
【0122】
[00149]したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体など、多くの形態をとることができる。不揮発性記憶媒体としては、例えば、図面に示すデータベースなどを実現するために使用され得るような、任意のコンピュータなどにおける記憶装置のいずれかのような、光ディスクまたは磁気ディスクが挙げられる。揮発性記憶媒体には、このようなコンピュータプラットフォームの主メモリなどのダイナミックメモリがある。有形伝送媒体には、コンピュータシステム内のバスを構成する電線を含め、同軸ケーブル、銅線、光ファイバなどがある。搬送波伝送媒体は、電気信号もしくは電磁信号、または高周波(RF)および赤外線(IR)データ通信時に発生するような音響波もしくは光波の形態をとることがある。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、その他の光学媒体、パンチカード紙テープ、穴のパターンを有するその他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、その他のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、そのような搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができるその他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、1つまたは複数の命令の1つまたは複数のシーケンスを、実行のためにプロセッサに運ぶことに関与し得る。
【0123】
[00150]コンピュータシステム101は、例えば以下を提供するためのユーザインターフェース(UI)140を含む電子ディスプレイ135を含むか、またはこれらと通信することができる:(i)訓練済みアルゴリズムの訓練および試験を示す視覚表示、(ii)被験者のがん関連カテゴリを示すデータの視覚表示、(iii)被験者のがん関連カテゴリの定量的な尺度、(iv)がん関連カテゴリを有するものとしての被験者の識別、または(v)被験者のがん関連カテゴリを示す電子レポート。UIの例としては、限定はしないが、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースがある。
【0124】
[00151]本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実施することができる。アルゴリズムは、中央処理ユニット205による実行時にソフトウェアによって実装することができる。アルゴリズムは、例えば、(i)訓練済みアルゴリズムを訓練および試験し、(ii)訓練済みアルゴリズムを使用して画像データおよび/または表形式データを処理して被験者のがん関連カテゴリまたはがん関連状態を判定し、(iii)分類したカテゴリに基づいて被験者のがんを評価し、(iv)被験者のがん関連カテゴリまたはがん関連状態を識別またはモニタし、(v)被験者のがん関連カテゴリまたはがん関連状態を示すレポートを電子的に出力することができる。
【0125】
[00152]実施例1:マルチモーダル深層学習による前立腺がん治療のパーソナライゼーション
【0126】
[00153]本明細書に開示される方法およびシステムは、前立腺生検のデジタル病理組織学および臨床データに対して訓練した新規のマルチモーダル深層学習モデルを使用して、長期的で、臨床的に関連する転帰(遠隔転移、生化学的再発、前立腺がんによる死亡、および全生存)を予測することによって、前立腺がん治療のパーソナライゼーションを実証する。本開示の例示的なシステムは、数百の臨床施設にわたって実施された5つの第III相無作為化多国籍試験のデータセットを使用して訓練および検証された訓練済みアルゴリズムを含む。患者7,957人中5,654人(71.1%)の臨床データおよび組織病理学データが利用可能であり、患者フォローアップが10年~20年の16.1テラバイトの病理組織画像が得られた。最も一般的に使用されているリスク層別化ツールであるNational Cancer Center Network(NCCN)のリスク群と比較すると、深層学習モデルは、検査されたすべての転帰において優れた予後判定および弁別パフォーマンスを示した。この人工知能システムによって、腫瘍医は特定の患者について最も起こりやすい転帰を計算的にモデル化し、患者の最適な処置を決定できるようになり得る。デジタル組織病理学スキャナーおよびインターネットアクセスを備え付ければ、どのクリニックでもこのような機能を提供することができ、肝要な治療のパーソナライゼーションへの低コストで普遍的なアクセスが可能となる。
【0127】
[00154]NCCNのリスク群は、1990年代後半に開発され、D’Amicoリスク群と称されるリスク層別化の国際標準に基づいている。このシステムは、直腸デジタル検査、血清前立腺特異抗原(PSA)測定、組織病理学によって評価される腫瘍のグレードに基づいている。この3階層のシステムは、世界中で処置推奨の基幹を形成し続けているが、患者をリスク層別化するには、予後判定および弁別パフォーマンスは最適とはいえない。これは部分的に、これらのモデルの核となる変数が非常に主観的であり、性質として非特異的であるためである。例えば、Gleasonグレーディングは1960年代に開発されたが、依然として非常に主観的であり、専門の泌尿器科病理医の間でさえ、観察者間の再現性は受け入れられるものではない。最近では、組織ベースのゲノムバイオマーカーが予後判定パフォーマンスの改善を実証している。しかし、これらの検査のほとんどすべては、意図された使用集団における前向きな(prospective)無作為化臨床試験での検証を欠いており、コストと処理時間の問題から国際的な採用はほとんどない。このように、前立腺がんに対する治療をパーソナライズするための改良されたツールに対する臨床的ニーズは、依然として満たされていない。
【0128】
[00155]人工知能(AI)は、医師レベルの診断からワークフローの最適化まで、医療における多くのユースケースで目覚ましい能力を実証しており、デジタル組織病理学の臨床採用が継続するにつれて、がん治療をサポートする可能性を有している。AIは、例えば短期的な患者転帰を予測したり、術後の手術検体におけるGleasonベースのがんグレーディングの精度を向上させたりすることで、病理組織学ベースの予後判定において進歩し始めている。標準的なリスク層別化ツールが固定的で少数の変数に基づいているのに対し、AIは様々なモダリティにわたる最小限の処理しかされていない大量のデータから学習することができる。ゲノムバイオマーカーとは対照的に、AIシステムは低コストで、大規模に拡張可能であり、使用を通じて段階的に改善される。さらに、どのバイオマーカーにとっても重要な課題は、訓練して、関連するエンドポイントを検証するための最適なデータを有することであり、腫瘍学における一部の市販の予後判定バイオマーカーは、後ろ向きの(retrospective)コンビニエンスサンプリングに対して訓練されている。
【0129】
[00156]本明細書に開示される方法およびシステムは、限局性前立腺がんにおける転帰予後判定に対して満たされないニーズを有意義に克服し、世界的な採用の可能性を持つ一般化可能なバイオマーカーを作り出すことができるマルチモーダル人工知能(MMAI)システムを含むことができる。デジタル組織病理学にマルチモーダル深層学習を活用することにより、5つの第III相無作為化臨床試験を用いた前立腺がん限局性予後判定バイオマーカーを、本明細書で説明されるアルゴリズムを訓練するために使用した。
【0130】
[00157]限局性前立腺がんを有する男性を対象とした5つの大規模多国籍無作為化第III相臨床試験(NRG/RTOG9202、9408、9413、9910、0126)から一意のデータセットが生成された。すべての患者は、短期アンドロゲン遮断療法(ST-ADT)、長期ADT(LT-ADT)、の事前設定された使用を伴う根治的放射線療法(RT)、および/または線量漸増RT(DE-RT)を受けた(
図2C)。これら5つの試験に登録された7,957人の患者のうち、完全なベースラインの臨床データを有する患者は7,752人、完全なベースラインおよびデジタル組織病理学データを有する患者は5,654人であった。これは、処置前生検試料の病理組織スライド16,204枚から得られた16.1TBの病理組織画像に相当する。
【0131】
[00158]MMAIアーキテクチャは、表形式データ(臨床データ)と画像ベース(病理組織)データの両方を取り込むことができ、無作為化臨床試験データに比類なく適している。完全なアーキテクチャは
図2Aに示されている。データセットの各患者は、臨床変数(検査室データ、病理データ、治療的介入、長期転帰を含む)、およびデジタル組織病理学スライド(中央値3.5スライド)で表される。両方のデータストリームにまたがる共同学習(joint learning)は複雑で、3つの別個の深層学習パイプラインの構築を伴う。1つは画像用、もう1つは表形式データ用、そして3つ目はそれらを統合するためのものである。データは、一貫性を持たせるために試験をまたいで標準化された。
【0132】
[00159]可変数のデジタル組織病理学スライドから関連する特徴を効果的に学習するには、画像を標準化するためにいくつかの前処理工程が伴い、その後に自己教師ありの訓練を行った。患者ごとに、患者の生検スライドにおいて全組織切片を分割し、画像キルト(
図5)と呼ばれる、全患者で幅と高さが固定された単一の大きな画像に合成した。画像キルトの上にH×Wのグリッドを重ね、RGBチャンネルにわたって256×256ピクセルのパッチに切り分けた。次いでこれらのパッチを用いて、自己教師あり(SSL)モデルを訓練し、下流のAIタスクに有用な病理組織学的特徴を学習した。
図2Bはパイプラインのこの部分を示している。一旦訓練すると、次にSSLモデルは画像キルトのパッチを取り込み、パッチごとに128次元ベクトル表現を出力することができる。これらすべてのベクトルを元のパッチと同じ空間方向で連結することで、H×W×128のテンソル(特徴キルト)が与えられ、これは最初に膨大だった画像キルトを、さらに下流の学習に有用なコンパクトな表現に圧縮したものである。
【0133】
[00160]SSLは、アノテーションのないデータセットから学習するために使用できる方法である。典型的なMLのセットアップは教師あり学習を活用し、この学習ではデータセットはデータ点(例えば画像)とデータラベル(例えばオブジェクトクラス)で構成される。それとは対照的に、SSLでは、合成データラベルが元データから抽出され、下流のタスクに使用できる一般的な特徴表現を訓練するために使用される。Momentum contrastは、1組の画像パッチを受け取り、各パッチの増強された複製を生成し、次いで任意の2つの増強された複製が同一の元パッチから得られたものであるかどうかを予測するようにモデルを訓練する技法であり、医療タスクに関して特徴を学習する際有効な場合がある。構造的なセットアップを
図2Bに示すが、さらなる詳細は本明細書の別の箇所で説明する。
【0134】
[00161]臨床的により有用である可能性が高いパッチ領域にSSLプロセスを誘導するため、データセット中のパッチを核密度に基づいてオーバーサンプリングした。核を検出するように訓練した物体検出モデルを用いて、各パッチ内の核の数を概算した。パッチはこのカウントに基づいて十分位に区分し、各十分位を、訓練の1エポック中に見られる正味の画像数が各十分位で同じになるようにオーバーサンプリングした。例示的な画像を
図6に示す。
【0135】
[00162]本明細書で説明されるシステムは、病理組織スライドがアノテーション付けされない状態で、患者レベルのアノテーションから学習することができる。その上、画像モデルの自己教師あり学習により、アノテーションを必要とせずに新しい画像データから学習することができる。
【0136】
[00163]表形式データからの学習は2つのステップを含む。まず、臨床データを試験全体で標準化し、データの一部をマスキングし、それらを学習するようにモデルを訓練することにより、自己教師を通してTabNetアーキテクチャを事前訓練するために使用した。次いで、各患者のデータをTabNetに通して特徴ベクトルを抽出し、これが画像パイプラインの出力と連結された。次いで、連結されたベクトルはさらなるニューラル層に通され、モデルは手元のタスクに対する2値的な転帰を出力した。
【0137】
[00164]SSLモデルの内部データ表現を
図4に示す。データセット全体の画像パッチがSSLモデルに通され、モデルの特徴(モデルによって出力された128次元のベクトル)がパッチごとに抽出された。次に、これらの特徴にUMAP(Uniform Manifold Approximation and Projection)アルゴリズムが適用され、特徴は128次元から2次元に射影され、各パッチが個々の点としてプロットされた。隣接するデータ点は、モデルが類似しているとみなした画像パッチを表す。UMAPは特徴ベクトルを25のクラスタにグループ化し、その一部が様々な色で示される。挿入図は、特徴空間においてクラスタ中心点に近い例示的な画像パッチを示す。次いで、クラスタ中心点に最も近い20の画像パッチが病理医によって解釈された。例示的な解釈を
図4に、また完全な解釈を
図7に示す。SSLモデルは、臨床的なアノテーションで訓練されたことがないにもかかわらず、Gleasonグレードまたは組織の種類など、がんの複雑な側面を示す、人間解釈可能な画像特徴を学習した。
【0138】
[00165]6つの異なるMMAIモデルを訓練し、4つのエンドポイント(DM、BCR、PCaSS、OS)、および5年と10年という2つの時間枠で試験した。これらのモデルのパフォーマンスは、競合事象を考慮した感度および特異度の時間依存の受信者動作特性曲線下面積(AUC)で測定された。感度は、示された陽性事象に対する正しい陽性予測の比率(感度=predicted_positive/num_positive)として定義され、特異度は、示された陰性事象に対する正しい陰性予測の比率(特異度=predicted_negative/num_negative)として定義される。このメトリクスでは、0.5が偶然の精度を表し、1.0が完全な精度を表す。
【0139】
[00166]
図8に示されるように、NCCNモデルがベースラインの比較対照として働いた。Gleasonスコア、腫瘍tステージ、ベースラインPSAという3つの変数を用いて、患者を低リスク群、中リスク群、高リスク群にグループ化した。
【0140】
[00167]結果を
図3A~
図3Hに示す。各転帰と時点について、別個のモデルが訓練された。
図3Aおよび
図2D~
図2Hにおいて、青い棒は特定のタスクで訓練されたMMAIモデルのパフォーマンスを表し、灰色の棒は対応するNCCNモデルのパフォーマンスを表す。
図2Bは、5つの試験から得られる転帰とテストセットのサブセットにおける、NCCNに対するMMAIの相対的改善を示す。MMAIモデルは、試験したすべての転帰において一貫してNCCNモデルを上回った。AUCの相対的改善は11.45%から19.72%までの変化があった。さらに、試験のサブセットでは、すべて一様にNCCNに対する相対的改善が見られた。
【0141】
[00168]MMAIモデル特有の様々なデータ構成要素の効果を評価するため、アブレーション研究を実施した。追加のMMAIモデルは、以下のデータセットアップを用いて訓練した:NCCN変数のみ、病理画像のみ、病理画像+NCCN変数(combined Gleasonスコア、tステージ、ベースラインPSA)、病理画像+NCCN変数+モデルで使用される3つの追加的な変数(年齢、Gleason primary、Gleason secondary)。データ構成要素を追加するごとにパフォーマンスが改善され、フルセットアップ(病理、6つの臨床変数)が最良の結果をもたらした(
図2C)。
【0142】
[00169]MMAIシステムは、遠隔転移、生化学的再発、前立腺がん特異的生存、全生存という、4つの重要な患者の将来の転帰の予測において、モデルとして符号化されたNCCNリスク層別化ツールを大幅に上回った。臨床データだけでなく、患者からの(様々なサイズの)複数のデータタイプを同時に取り込む深層学習アーキテクチャを作ることで、確立された臨床モデルよりも大幅に高い精度で患者の長期転帰を推測できる深層学習システムが構築された。
【0143】
[00170]本明細書で説明される方法およびシステムは、多様な集団にわたる5,654人の患者について患者フォローアップが10年~20年の、5つの異なる前向き無作為化多国籍試験から得られた強固で大規模な臨床データを活用することができる。これらの予後判定分類器を、(意図された使用集団における)大量の臨床試験データで検証することは、これらのツールを治療上の意思決定の補助として個別に位置づけるものである。同様に、ゲノミクスベースのアッセイの重大な欠点は、コストが高く、検査所要時間が長いことである。AIツールにはこのような制限を負担することがなく、大規模な国際的採用の障壁が大幅に低くする。世界の60%近くがインターネットにアクセスできるにもかかわらず、ゲノミクスベースのアッセイに簡単にアクセスできるのは約4%(米国の人口)にすぎない。デジタル組織病理学の増え続ける採用は、インターネット接続と相まって、AIベースの予後判定および予測的な検査の世界的な普及を支え、重要な治療のパーソナライゼーションへのアクセスを低コストで可能にするかもしれない。
【0144】
[00171]方法
【0145】
[00172]表形式パイプライン。表形式臨床データは、数値変数とカテゴリ変数に分けられた。数値変数は、[-1,1]の範囲に白色化(平均減算+max正規化)された。カテゴリ変数は、従来のword-to-vec技法に従って2~3次元ベクトルに埋め込まれるワンホットベクトルとして扱われ、次元数は式、D=Round(1.6・numcategories0.56)で与えられる。カテゴリ変数と数値変数の連結を入力とするTabNetモデルを使用した(パラメータ:学習率0.2、ステップ学習率スケジューラ付きAdamオプティマイザ、バッチサイズ1024、patience10エポックの早期停止で最大50エポック)。
【0146】
[00173]画像パイプライン。ResNet50モデルを、MoCo-v2訓練プロトコル(パラメータ:コサイン学習率スケジュールによる学習率=0.03、moco-t=0.2、多層パーセプトロンヘッド、バッチサイズ256、MoCo-v2データaugmentation、200エポック)と併用して、
図2Bのシステムアーキテクチャで使用されるSSLモデルを訓練した。
図3Aの各ホールドアウトされたテストセットに対して、訓練データの画像のみを使用して、対応するSSLモデルを事前訓練した。特定の画像パッチが、本明細書の他で説明される核密度サンプリングを用いてオーバーサンプリングされた。SSLの事前訓練が完了すると、すべてのW×HパッチがSSL事前訓練されたResNet50モデルに投入され、画像キルトごとにW×H×128特徴キルトが生成された。予測に使われた最終的な画像モデルは、バッチノルムとドロップアウトを有する2層のCNNモデルで、特徴テンソルを入力として取り込む。最終的なCNNモデルは、バッチサイズ32、最大エポック150、学習率0.01のステップ学習率スケジューラ付きAdamオプティマイザで訓練された。
【0147】
[00174]下流パイプライン。両方のモダリティ(画像特徴と表形式特徴)からの情報を活用するために、joint fusion手法が用いられた。画像は特徴テンソルに特徴量化され、特徴ベクトルを生成するために最終的な画像モデルに投入され、表形式特徴は、別の特徴ベクトルを生成するためにTabNetモデルに別個に投入された。2つの全結合層が各パイプラインの連結された特徴ベクトルを処理し、予測確率を出力した。組織病理学データが欠落している患者については、連結の前に画像ベースの特徴ベクトルがゼロ化された。
【0148】
[00175]データセットの準備。患者5,654人、病理組織スライド16,204枚、中央値患者フォローアップ10年~20年を含む、5つの画期的で大規模な前向きの無作為化国際臨床試験から得られた、全患者レベルのベースライン臨床データ、前立腺生検のデジタル組織病理学スライド、および縦断的転帰が用いられた。これらの試験は、RTOG9202、9408、9910、0126、9413であった(
図2C)。これらの試験は、放射線療法(RT)とアンドロゲン遮断療法(ADT)との様々な組合せで無作為化された:RT+短期ADT(RTS)、RT+中期ADT(RTM)、RT+長期ADT(RTL)、RTの線量と量レベル(RT+)。スライドは、NRG Oncology社により、Leica Biosystems Aperio AT2デジタル病理スキャナーを用い、20倍の解像度で2年かけてデジタル化された。病理組織学画像は、手作業で画質と鮮明さを確認した。デジタルスライドは、モデル訓練の前に、一意の患者ごとに200×200パッチの単一の画像キルトに変換された。各臨床試験で収集された臨床変数は微妙に異なっていた。すべての試験で利用可能であった6つの臨床変数(combined Gleason、Gleason primary、Gleason secondary、tステージ、ベースラインPSA、年齢)とデジタル組織病理学が、モデルの訓練と検証に使用された。
【0149】
[00176]組織の分割。スライドを10倍ズームで256×256ピクセルのパッチにスライスした後、ResNet-18を訓練することで、開発されたアーチファクト分類器が開発され、パッチが使用可能な組織を示したか、それとも空白またはアーチファクトを示したかを分類した。アーチファクト分類器は25エポック訓練し、学習率0.001のSGDを用いて最適化された。学習率は7エポックごとに10%ずつ低下させた。3661個のパッチ(組織vs.非組織)が手動でアノテーション付けされ、そのうちの3366個で分類器が訓練され、残りの295個で97.6%の検証精度を達成した。次いでこのアーチファクト分類器を用いて、画像キルト形成中の組織切片を分割した。
【0150】
[00177]核密度サンプリング。染色強度と染色劣化に大きなばらつきがあるので、容易に入手できる核検出および分割のための事前訓練済みモデルでは、大部分のスライドで核を正確に検出することができなかった。これを克服するために、YOLOv5(github.com/ultralytics/yolov5)の物体検出法を用いて核検出器を訓練した。
【0151】
[00178]YOLOv5モデルを訓練するために、代表的な34試料の厳選されたスライドをQuPath画像解析プラットフォームを使って手動でラベル付けした。まず、「Simple tissue detection」モジュールを使って組織を分割した。次に、「Watershed cell detection」モジュールを用いて、スライドごとにパラメータを手動でチューニングしながら、細胞を分割した。次いでYOLOv5-Largeモデルが、29枚のスライドからのアノテーションで訓練され、残りの5枚で評価された。このモデルは10倍ズームで256×256パッチを使用して訓練した。
【0152】
[00179]モデルのパフォーマンスメトリクス(AUC)。各モデルおよび各転帰について、R-package timeROCを用いて、競合事象を考慮した時間依存の受信者動作特性を推定した。これは、区間[0,1]内の閾値tを掃引し、モデルの予測を
【数1】
と定義することによって計算される、時間依存的な感度および特異度の曲線である。ただし、Pはモデルによって出力される転帰確率である。この曲線の下の面積が、手元のタスクに対するモデルのパフォーマンスを定義する。
【0153】
[00180]NCCNモデル。NCCNモデルは
図8のアルゴリズムに従ってコード化され、3つの臨床変数、すなわちGleason、t-ステージ、ベースラインPSAを用いて患者を低リスク群、中リスク群、高リスク群に区分した。
【0154】
[00181]実施例2:MMAIアルゴリズムのアルゴリズム的公平性の評価
【0155】
[00182]本実施例では、アルゴリズム公正性、すなわちNRG/RTOG前立腺がん試験で治療されたAAおよび非AA前立腺がん患者における臨床データおよびデジタル組織病理学データを利用したマルチモーダルAI(MMAI)モデルのパフォーマンスについて説明する。
【0156】
[00183]前立腺がん(PCa)は、男性におけるがん関連死亡の第2位の原因であり、アフリカ系アメリカ人(AA)男性は、より進行した病態を示し、診断時の年齢が若いため、疾病の負担が増大することはよく知られている。
【0157】
[00184]集団ベースのデータセットおよび後ろ向き研究を用いて、PCaを有するAA男性における予後転帰および関連格差を研究することには限界がある。なぜなら、これらのデータはしばしば、コホート内のAA男性を十分に代表しておらず、予後リスクモデルを開発するために必要な長期フォローアップ転帰を欠いているからである。理想的には、前向きの無作為化比較試験(RCT)に参加した多数のAA男性を含む研究により、選択バイアスおよびその他の交絡因子のリスクを最小限に抑えながら、代表的なAA標本を用いて長期予後転帰を評価することができる。Radiation Oncology Group(RTOG)およびNRG Oncology協同グループは、代表的な割合のAA患者を前立腺がん臨床試験に優先的にリクルートしている。大規模RCTは、長期予後転帰およびリスクの違いをモデル化する機会を提供し、これはPCaを有するAA男性における処置選択および治療最適化のための、より微妙な臨床的意思決定につながる。
【0158】
[00185]方法
【0159】
[00186]マルチコホートデータの説明
【0160】
[00187]米国国立がん研究所(NCI)の資金提供を受けたNational Clinical Trials Network(NCTN)グループであるNRG Oncology社の許可を得て、限局性前立腺がん患者を有する男性を対象とした5つの大規模多国籍無作為化第III相臨床試験(NRG/RTOG-9202、9408、9413、9910、0126)から一意のデータセットを収集した。すべての患者は、アンドロゲン遮断療法(ADT)の事前設定された使用を伴う、または伴わない根治的放射線療法(RT)を受けた。RTと短期ADTの併用期間は4ヶ月、中期ADTの期間は36週、長期ADTの期間は28ヶ月であった。合計で7,752人の適格な参加者が、これらの5つの試験向けに無作為化された。
【0161】
[00188]マルチモーダルAI(MMAI)モデルの説明
【0162】
[00189]本明細書で説明される4つのMMAIモデルが訓練され、データセットに対して展開された。MMAIモデルは、各患者のデジタル組織病理学スライドと臨床データから関連する特徴を併せて学習した。画像ベクトル表現は、自己教師あり事前訓練を通じて生検スライドの組織切片から学習して抽出された。これらの画像特徴ベクトルと臨床データに由来する特徴ベクトルの組合せをマルチモーダル融合パイプラインに投入し、遠隔転移(DM)および前立腺がん特異的死亡率(PCSM)を含む所望の臨床エンドポイントのリスクスコアを出力した。コホートは、80/20で開発データセットおよび検証データセットに分けられ、MMAIモデルは開発セットで訓練して最適化され、その後残りの検証セットで検証された。DMとPCSMのリスクを予測する第1のMMAIは、実施例1で説明された通りであった。DMおよびPCSMのリスクを予測する第2のMMAIモデルは、本明細書の以下で詳述するように、所望の臨床エンドポイントの事象までの時間をラベルとして使用するattention機構を有するマルチインスタンス学習ベースのニューラルネットワークに基づくマルチモーダル学習を含むものであった。MMAIモデルの第2のセットの概略を
図9に示す。実施例1で説明されたMMAIモデルに基づく研究知見の比較についても、以下で考察する。
【0163】
[00190]マルチモーダル深層学習モデル開発のための方法
【0164】
[00191]モデル開発の概要
【0165】
[00192]5つの試験は、1)試験、2)遠隔転移のステータス、3)患者の臨床的リスクによって層別化され、モデル開発と検証のためにそれぞれ無作為に開発セット(80%)と検証セット(20%)に分けられた。各MMAIモデルは、5foldの交差検証スキームによって開発セットで訓練して最適化され、開発セットはさらに各foldで訓練サブセットとチューニングサブセットに分けられた。訓練サブセットは、学習可能なモデルパラメータを更新するために使用され、一方、チューニングサブセットは、訓練中のバイアスされないパフォーマンスをモニタし、ハイパーパラメータをチューニングするために使用された。この訓練プロセスが5つの別個のモデルを生成したため、この後5つのモデル出力にわたって平均をとることでアンサンブルモデルが構築され、患者ごとに単一のリスクスコアが形成された。
【0166】
[00193]臨床データの前処理
【0167】
[00194]臨床変数(Tステージ、Gleasonスコア、primary/secondary Gleasonパターン)はすべて数値変数として扱い、訓練データの平均値と標準偏差に基づいて標準化した。欠落している臨床データはk-Nearest Neighbors法でインピュテーションされ、欠落している値は訓練セットに見られる5人の最近傍の平均値を用いてインピュテーションされた。
【0168】
[00195]画像特徴抽出モデル開発
【0169】
[00196]可変数のデジタル組織病理学スライドから関連する特徴を効果的に学習するには、画像の標準化と自己教師あり事前訓練の両方が伴う。患者ごとに、患者の生検スライドにおいてすべての処置前組織切片を分割し、それぞれのRGBチャンネルにわたって256×256ピクセルの大きさのパッチに分けた。ResNet-18を訓練することで、パッチが使用可能な組織を示したか、それとも空白またはアーチファクトを示したかを分類する組織分類器が開発された。アーチファクト分類器は25エポック訓練し、学習率0.001の確率的勾配降下法を用いて最適化された。学習率は7エポックごとに10%ずつ低下させた。3661個のパッチ(組織vs.非組織)が手動でアノテーション付けされ、そのうちの3366個で分類器が訓練され、残りのパッチで97.6%の検証精度を達成した。このアーチファクト分類器を用いて組織切片を分割し、画像特徴生成時に低画質画像を除去した。
【0170】
[00197]次いでアーチファクト分類器によってフィルタされたパッチを用いて、自己教師あり学習モデルを訓練し、下流のタスクに有用な組織形態学的特徴を学習した。ResNet-50モデルを、MoCo-v2訓練プロトコル(パラメータ:200エポックのコサイン学習率スケジュールで学習率=0.03、moco-t=0.2、多層パーセプトロンヘッド、バッチサイズ256、augmentation用デフォルトMoCo-v2パラメータ)と併用し、自己教師あり学習モデルを訓練した。Gleason primary≧4の患者の画像を用いて、対応する自己教師あり学習モデルを事前訓練し、関連する組織形態学的特徴を効果的に学習した。自己教師ありの事前訓練が完了すると、全スライド画像の使用可能な組織を含むすべてのパッチが自己教師あり事前訓練済みResNet-50モデルに投入され、パッチごとに128次元ベクトル表現を生成した。
【0171】
[00198]下流のマルチモーダル予後モデル開発
【0172】
[00199]下流の予後モデルは、各患者のすべてのパッチからの特徴ベクトルの連結である画像特徴テンソルと、前処理された臨床データを患者ごとの入力とした。第2のモデルでは、attentionマルチインスタンス学習ネットワークが採用され、各パッチから各画像特徴ベクトルについて重みを学習した。各患者の画像特徴テンソルから、同一患者からのすべてのパッチの画像ベクトルの重み付き和をとることによって、単一の128次元画像ベクトルが生成された。このとき、重みはattention機構によって学習された。前処理された臨床データはすべて数値変数とみなされ、単一の線形層を通して処理され、6次元の臨床ベクトル表現が学習された。128次元の画像ベクトルと6次元の臨床ベクトルの連結は、さらにニューラルネットワークベースのjoint fusionパイプラインで処理されて、臨床データと画像データの両方から効果的に学習され、関心のある転帰に対するリスクスコアが出力された(
図9)。
【0173】
[00200]訓練目的には負の対数部分尤度を用い、モデル予測スコアは推定相対対数ハザードとした。モデル開発用のラベルとして、関心の事象の2値インジケータと、それに対応する事象までの時間が用いられた。負の対数部分尤度損失は、モデル重みθによってパラメータ化され、以下のように定式化された。
【0174】
【数2】
ここで、値T
i、E
i、x
iは、それぞれ事象時間または最終フォローアップ時間、事象が観察されたかどうかのインジケータ変数、i番目の観察に対するモデル入力である。関数f
θはマルチモーダルモデルの事実分岐を表し、f
θ(x)は入力xが与えられた場合の推定相対リスクである。値N
E=1は、観察可能な事象を有する患者数を表す。観察可能な事象を伴う患者の集合は、E
i=1として表される。リスクセットR(t)={i:T
i≧t}は、時間tにおいて、なお不全のリスクがある患者の集合である。tied event timeを扱うためにBreslowの近似式を用いた。
【0175】
[00201]サブ群におけるモデルパフォーマンスのメトリクス
【0176】
[00202]遠隔転移(DM)、前立腺がん特異的死亡率(PCSM)、生化学的不全(BF)、全生存(OS)が評価された。DMおよびPCSMが選択されたのは、前立腺がんの罹患率および死亡率と強い相関があり、非AA集団と比較してAA集団の前立腺がんによる広範な負担を反映するため、より臨床的に有用な尺度を表現しやすいからである。
【0177】
[00203]AAと非AAのPCa患者間のモデルパフォーマンスを、DMエンドポイントに対するDM MMAIについて、およびPCSMエンドポイントに対するPCSM MMAIについて、MMAIモデルごとに評価した。人種ステータスが不明または欠落している患者は、解析コホートから除外した。すべての評価エンドポイントは事象までの時間(time-to-event)転帰であり、フォローアップ不能となった患者は打ち切られ、関心の事象を経験する前の死亡は競合事象とみなされた。人種サブ群解析は、臨床変数とMMAIスコアの分布(連続変数では中央値と四分位範囲(IQR)、報告されたカテゴリ変数では割合)を比較し、AAおよび非AA男性におけるMMAIモデルの予後判定能力を評価することによって行われた。MMAI連続スコア(0.05スコア上昇ごと)とカテゴリ化されたリスク群の両方を用いて、アルゴリズムの公平性を評価した。MMAIカテゴリ群については、モデルスコアを十分位でランク付けし、次いで元々MMAIモデルの訓練対象であった対応するエンドポイントに基づいて、予後が類似している十分位を区分して3つの群にまとめた。例えば、DM MMAIモデルは1~4位、5~9位、および10位の十分位、PCSM MMAIモデルは1~5位、6~9位、および10位の十分位にグループ分けされた。モデルのパフォーマンスは、主要なエンドポイントとしてDMとPCSMを、また副次的なエンドポイントとしてBF、OSを使用して、Fine-GrayモデルまたはCox Proportional Hazardモデルと比較された。Kaplan-Meierまたは累積罹患率推定値が計算され、log-rankまたはGrayの検定を用いて比較された。次いでp値は、サブ群間のペアワイズ累積罹患率比較用にBonferroni法を用いて事後調整した。
【0178】
[00204]結果
【0179】
[00205]適格な臨床試験参加者のプーリングの図解を
図10に示す。AA患者は合計948人(16.6%)、非AA患者は4,731人(82.9%)、人種ステータスが不明または欠落している患者は29人(0.5%)であり、これら29人の患者はすべての解析から除外された。
【0180】
[00206]開発コホートと検査コホートの両方で、AA患者と非AA患者の年齢中央値はそれぞれ69歳と71歳であった。開発コホートでは、非AA患者と比較して、AA患者ではベースラインPSA中央値が高く(13vs.10ng/mL)、T1~T2aが多く(61vs.55%)、Gleason8~10が多く(17vs.13%)、National Comprehensive Cancer Network(NCCN)高リスクが多かった(42vs.35%)。Tステージを例外として、同様の所見が検査コホートでも観察された(
図11)。開発コホートと検査コホート両方のすべてのMMAIモデルで、分布はAAサブ群と非AAサブ群とで重複した(
図12)。DMに最適化したモデル(DM MMAI)の中央値(IQR)スコアは、開発コホートではAAで0.36(0.26~0.47)、非AAで0.36(0.26~0.49)、検査コホートでは0.38(0.29~0.47)vs.0.37(0.27~0.48)であった。DM MMAIの中央値スコアは、開発コホートではAAで0.38(0.30~0.38)、非AAで0.40(0.32~0.50)、検査コホートでは0.40(0.32~0.49)vs.0.40(0.32~0.50)であった(
図13)。第1のMMAIモデルの知見は
図14で報告される。
【0181】
[00207]サブ群におけるマルチモーダルAI(MMAI)モデルのパフォーマンス
【0182】
[00208]検査コホートでは、DM MMAIモデルスコアは、AA(DMに関し0.05スコア増加あたりのハザード比[HR]:1.2、p=0.007)および非AAサブ群(DMに関し1.4、p<0.001)の両方で、DMの強い予後判定シグナルを示した(
図15A)。同様に、PCSM MMAIスコアは、AA(PCSMに関し0.05スコア増加あたりのHR:1.2、p=0.01)および非AAサブ群(PCSMに関し1.5、p<0.001)の両方で、PCSMの強い予後判定シグナルを示した(
図15B)。すべての元モデルが、AAサブ群と非AAサブ群の両方で同様の結果を示した(
図16および
図17)。
【0183】
[00209]人種サブ群の累積罹患率を全コホートで比較した。10年後の推定DM率はAAサブ群で5%(3%~6%)、非AAサブ群で7%(6%~8%)であった(
図18A)。両方のMMAIモデルが、AAサブ群内および非AAサブ群内の患者をリスク層別化することができた(
図19Aおよび
図19B)。検査コホートでは、DM MMAIモデルについて、AAサブ群の5年の推定DM率は3%(95%CI:0%~6%)、8%(95%CI:3%~14%)、20%(95%CI:2%~38%)であり、非AAサブ群では1%(95%CI:0%~1%)、5%(95%CI:3%~7%)、23%(95%CI:14%~32%)であった。異なるリスク群についてのAAと非AA間の調整済みペアワイズ比較は、統計的に有意ではなかった(それぞれp値=0.36、1.00、1.00)。同様にPCSM MMAIモデルでは、10年の推定PCSM率はAAサブ群で5%(95%CI:0%~10%)、8%(95%CI:2%~14%)、30%(95%CI:9%~51%)、非AAサブ群で1%(95%CI:0%~3%)、8%(95%CI:5%~11%)、19%(95%CI:11%~28%)であった(
図18B)。異なるリスク群についてのAAと非AA間の調整済みペアワイズ比較は、統計的に有意ではなかった(それぞれp値=1.00、1.00、1.00)。元のMMAIモデルは、AAサブ群と非AAサブ群の両方で、両方のモデルについて同様の結果を示した(
図20Aと
図20B)。
【0184】
[00210]考察
【0185】
[00211]AIベースのバイオマーカーは、前立腺がんのある患者に対して医師が処置提案を調整するのに役立つ。しかし、新規バイオマーカーの開発に使用される母集団データにおいて、AA男性は十分に代表されていない可能性がある。これまでのバイオマーカー研究は、主に非AAコホートで開発されたバイオマーカーがAA男性に適用された場合、その価値を疑問としてきた。このようにAA集団を含むゲノムデータが乏しいことにより、このような不公平性をアルゴリズム的に符号化することで、この集団によって経験される既知の健康格差を悪化させる可能性がある。これらの観察は、より臨床的に関連性のあるエンドポイントを使用し、選択バイアスを制御する厳密な方法を適用して、人種境界を超えたバイオマーカーのパフォーマンスを調べる必要性を強調している。
【0186】
[00212]MMAIモデルを訓練するために十分なデータが使用され、AIモデルの予後判定パフォーマンスはAAサブ群と非AAサブ群との間で同等であることが分かった。DM MMAIモデルおよびPCSM MMAIモデルは、AA患者集団と非AA患者集団の両方において同様に働き、本ツールの適用におけるアルゴリズム的な公平性を実証した。この手法は、人種群を超えて前立腺がん男性の処置選択をパーソナライズするために、これらのAIバイオマーカーを使用することを支援するものである。加えて、この解析は、日常的なバイオマーカーの発見と検証において、アルゴリズム的な公平性の原理を統合するための手法を提供する。
【0187】
[00213]実施例3:MMAIを用いた前立腺がん患者のリスク層別化
【0188】
[00214]本実施例では、本明細書で説明されるマルチモーダル人工知能(MMAI)モデルが患者をリスク群に層別化する能力を、National Comprehensive Cancer Network(NCCN)のリスク層別化スキーマのそれと比較した。
【0189】
[00215]実施例1で説明されたデータセットから、確定的なNCCNリスク分類を行うことができた5,569人を、実施例2で説明されたMMAIモデルによって予測された対応するMMAIスコアに従って、遠隔転移の10年リスク(DM10-yr)に基づいて十分位の10のうち1つにソートした。次いで、各十分位数をMMAI DM10-yrスコア(それぞれ<10%、10%~25%、>25%)に基づいて、「MMAI低」、「MMAI中」、「MMAI高」の3つのMMAI予後リスク群の1つに層別化した(
図21)。各MMAI予後リスク群のベースライン特性を
図22に示す。
図23は、MMAI予後リスク群(行)ごとに、NCCNリスクスキーマに従って「低」、「中」(favorableおよびunfavorable)、または「高」(NCCN高または非常に高)に分類された個人の数を示している。
【0190】
[00216]NCCNのリスク分類よりもMMAIの方が10年後の遠隔転移をより良く予後判定できるかどうかを判定するため、各個人についてMMAIモデルを用いてDM10-yrの確率を再度計算した。
図24は、所与のNCCN分類とMMAI分類を有する個人の10年のDM10-yr平均リスク(括弧内は信頼区間)である。
図24に示されるように、DM10-yrのリスクは、NCCNによってもMMAIによっても、低リスクに分類された個人では概ね同じである。しかし、MMAIモデルは、NCCNスキームによって中リスクまたは高リスクに分類された個人のうち、実際にDMのリスクが高いのはどの個人かをより良好に判断できる。
図24に示されるように、MMAI「高」に分類されたNCCN「中」分類の個人のサブセットでは、DM10-yrのMMAI予測確率が60%であったのに対し、MMAI「高」に分類されたNCCN「高」分類の個人のサブセットでは、DM10-yrのMMAI予測確率が36%であった。このように、MMAIベースのリスク分類は、転移のリスクを有するNCCN「中」の個人を層別化することができた。
図25Aに示されるように、MMAIモデルは転移リスクが最も低い患者をNCCNより6倍多く識別した。NCCN「中」リスクの個人全体では約83%がMMAI低スコアであり、したがって転移リスクは低いが、NCCN「高」リスクの個人全体では約13.2%がMMAI低スコアであった。NCCNで「高」リスクと分類された個人全体では、約28%がMMAI DM10-yrスコアが「高」(リスク≧30%)であった(
図25B)。
【0191】
[00217]このように、NCCN分類と比較して、本明細書で開示されるMMAIシステムは、前立腺がん転移のリスクのある個人をより良好に層別化することができる。
【0192】
[00218]実施例4:MMAIモデルの外部検証
【0193】
[00219]本実施例は、本明細書で説明される前立腺がんリスクを予後判定するためのマルチモーダル人工知能(MMAI)モデルの検証を説明する。
【0194】
[00220]患者
【0195】
[00221]NRG/RTOG-9902は、2000年1月から2004年10月までの間に、長期アンドロゲン抑制(AS)と放射線療法(RT)単独(AS+RT)、またはアジュバント化学療法(CT)の併用(AS+RT+CT)を受けるように無作為化された、高リスクの限局性前立腺がん(PCa)患者397人を登録した。CTは、パクリタキセル、エストラムスチン、経口エトポシドを、70.2GyのRT後28日目から開始して21日間4サイクル投与した。ASレジメンは、黄体形成ホルモン放出ホルモン(LHRH)をRTの2ヶ月前から開始して24ヶ月間投与し、さらに抗アンドロゲンをRT前およびRT中に4ヶ月間経口投与した。PSAが20~100かつGleasonスコア≧7、または臨床ステージ≧T2かつGleasonスコア≧8の男性が登録された。10年の結果は、全生存(OS)、生化学的不全(BF)、局所進行(LP)、遠隔転移(DM)、または無病生存(DFS)において、2つの処置群間で統計的に有意ではなかった(列挙されたすべてのエンドポイントでp>0.05)。そのため、本実施例ではすべての男性が、処置群に関係なく1つのコホートにプールされた。
【0196】
[00222]試料処理およびスキャン
【0197】
[00223]RTOG-9902の処置前生検スライドが、NRG Oncology社によりLeica Biosystems Aperio AT2デジタル病理スキャナーを用いて20倍の解像度でデジタル化された。病理組織画像は、NRG Biobankのオペレーターおよび人工知能データ取り込みチームによって、画質と鮮明さが確認された。事前に構築したアーチファクト分類器を用いて、低画質の画像が除去された。
【0198】
[00224]マルチモーダルAI(MMAI)モデルの説明
【0199】
[00225]6つのMMAIアルゴリズムを有するMMAIアーキテクチャは、実施例2で説明され、
図9に示されるように、各患者からのデジタル組織病理学スライドおよび臨床データの両方を利用して5つの第III相NRG試験(RTOG9202、9408、9413、9910、0126)を使用して開発および検証された。このMMAIアーキテクチャから、遠隔転移(DM)と前立腺がん特異的死亡率(PCSM)という所望の臨床エンドポイントに最適化された2つのロックされたMMAIアルゴリズムのリスクスコアが得られた。
【0200】
[00226]エンドポイント
【0201】
[00227]本調査の主要エンドポイントは、(1)無作為化から遠隔転移の日までの日数で定義されるDM、および(2)無作為化から前立腺がんによる死亡までの日数で定義されるPCSMまでの期間であった。
【0202】
[00228]副次的エンドポイントは、無作為化から生化学的不全(前立腺特異抗原(PSA)不全またはサルベージホルモン療法開始のいずれか最初のもの)までの日数と定義した生化学的不全までの期間(BF)、および無作為化から死亡までの日数と定義した全生存(OS)の期間であった。
【0203】
[00229]関心の事象を経験する前にフォローアップ不能となった被験者は、最後のフォローアップで打ち切られた。DM、PCSM、BFについては、関心の事象を経験する前の死亡を競合事象とみなした。
【0204】
[00230]統計的な解析
【0205】
[00231]デジタル病理評価可能集団(DPEP)は、RTOG-9902に無作為化された被験者で、病理組織学データの質が高く、解析用のMMAIアルゴリズムスコアを生成するための年齢、臨床Tステージ、primaryおよびsecondary Gleasonグレード、およびベースラインPSAを含むベースライン臨床変数に欠落がない被験者として、定義された。
【0206】
[00232]ベースラインの人口統計学的および臨床的な特性を、DPEP集団とintention to treat(ITT)集団について記述的に要約し、DPEP集団と質の高い病理組織学データのないITT集団からの患者のサブ群との間で比較した。記述的要約は、カテゴリ変数についてはカウントと部分(portion)(%)、連続変数については中央値と四分位範囲(IQR)を用いて用意された。P値は、連続変数についてはWilcoxon順位和検定、カテゴリ変数についてはPearsonのカイ二乗検定またはFisherの正確確率検定を用いて算出した。
【0207】
[00233]MMAIアルゴリズムの予後判定パフォーマンスが、単変量解析および多変量解析により評価された。DM、PCSM、BFのエンドポイントに関する部分分布ハザード比(sHR)と95%信頼区間(CI)を推定するために、Fine and Gray回帰が用いられた。OSのエンドポイントについてHRおよび95%CIを推定するために、Cox Proportional Hazard回帰が用いられた。MMAIアルゴリズムスコアは四分位ごとに分割され、累積罹患率曲線を用いて要約され、5年および10年の推定されたDM率およびPCSM率、ならびに対応する両側95%CIが与えられた。MMAIと処置の交互作用の検定も探索的解析として行った。
【0208】
[00234]すべての統計的な解析はRのバージョン4.1.2(R Foundation for Statistical Computing(オーストリア、ウィーン))を用いて行った。すべての統計的な検定は両側検定で、有意水準は0.05を用いた。予後モデル検証の知見は、TRIPODのレポーティング基準を用いて報告された。
【0209】
[00235]結果
【0210】
[00236]参加者
【0211】
[00237]MMAIアルゴリズムスコアは、NRG/RTOG-9902に登録された最初の臨床試験患者397人のうち318人について生成された(全試験コホートの85%でスライドが入手可能であった。このうち5.6%は画質不良のため含めることができなかった)。
図26は、NRG/RTOG9902臨床試験からモデル検証のために含まれるDPEPへの患者の流れを示す。調査DPEPのベースライン特性が
図27に示される。評価可能集団はベースラインPSA中央値23.0ng/mLの男性を含んでおり、その32%にcT3~4疾患があり、67%にGleason Grade群4または5疾患があり、54%はNCCN高リスク特徴>1であった。フォローアップ中央値10.1年で、男性42人がDMを経験し、29人がPCSMを経験した。MMAIアルゴリズムスコアを得ることができた患者間のベースライン特性は、この検証調査から除外された患者62人と比較して、統計的に有意な差はなかった。同様に、DPEP内でも2つの処置群の間にベースライン特性の差はなかった。中央値(IQR)スコアは、DMに最適化したアルゴリズム(DM MMAI)では0.54(0.44~0.62)、PCSMに最適化したアルゴリズム(PCSM MMAI)では0.53(0.47~0.60)であった。いずれのスコアも、NRG/RTOG9902の2つの処置群間で同様であった(
図27B)。
【0212】
[00238]モデルパフォーマンス
【0213】
[00239]臨床的および病理学的な因子と比較して、MMAIアルゴリズムは転帰尺度全体にわたって有意に予後判定的であった。単変量解析では、DM MMAIアルゴリズムの連続スコアはDMエンドポイントと統計的な関連性があり(sHR2.33、95%CI1.60~3.38、p<0.001)、PCSM MMAIアルゴリズムはPCSMエンドポイントと統計的な関連性があった(HR2.63、95%CI1.70~4.08、p<0.001)(
図28A)。最適化されていない副次的エンドポイントを評価すると、DM MMAIはBF、PCSM、OSのリスクと統計的に有意に関連性があった。同様に、PCSM MMAIはDMおよびOSのリスクと統計的に有意に関連性があった。(
図28B)。
【0214】
[00240]DMエンドポイントに関しては、DM MMAIは、両処置群、年齢、非アフリカ系アメリカ人、両PSA群、Gleason8~10、臨床Tステージ、NCCN高リスク因子が1つの患者を含め、ほとんどの臨床的サブ群で予後判定的であった(
図29A)。同様に、PCSMエンドポイントに関しても、PCSM MMAIは、両処置群、年齢、両人種サブ群、PSA<20ng/mL、Gleason8~10、臨床Tステージ、何らかのNCCN高リスク因子を有する患者を含め、ほとんどのサブ群で予後判定的であった(
図29B)。多変量解析(
図30A~
図30Bおよび
図31A~
図31B)において、年齢、ベースラインPSA、Gleason、Tステージ、NCCN高リスク因子数などの個々の臨床的な因子について制御することは、DM MMAIとPCSM MMAIの両方で一貫して有意に予後判定的であった。
【0215】
[00241]DM MMAIに対して四分位分割を用いると、下位75%(Q1~Q3)の患者の推定5-yr DMおよび10-yr DM率は、4%(95%CI1%~6%)および7%(95%CI4%~10%)であり、最高四分位(Q4)の推定5-yr DMおよび10-yr DM率は、19%(95%CI10%~28%)および32%(95%CI21%~43%)であり、sHRは5.1(95%CI2.7~9.3、p<0.001)であった(
図32A)。PCSMのMMAI(sHR4.1、95%CI2.0~8.4、p<0.001)でも同様の結果が観察された(
図32B)。
【0216】
[00242]DM MMAI四分位群(Q4vs.Q1~Q3)とCT処置効果(交互作用p=0.08)、またはPCSM MMAI四分位群とCT処置効果(交互作用p=0.79)の間には、統計的に有意な交互作用はなかった(
図33Aおよび
図33B)。DM MMAIによってランク付けされた上位25%の患者のうち、CTの追加使用による5年の推定absolute benefitは14%、10年の推定absolute benefitは18%であった(
図33B)。
【0217】
[00243]考察
【0218】
[00244]5つの第III相PCa試験(NRG/RTOG9202、9408、9413、9910、0126)から得られた男性を用いて以前に開発したMMAI分類器の予後判定能力を、疾患進行のリスクが高い男性を登録したNRG/RTOG9902から得られた男性を用いた外部検証セットを用いてさらに検証した。親試験であるNRG/RTOG9902は、処置群と比較した場合に、統計的に有意な臨床結果を与えなかったため、検証サンプルは1つの単一コホートとして扱われた(試験群のバランスはよく、平均MMAI分類器スコアは処置群間で同様であった)。DMとPCSMに対するMMAI分類器による低リスク群と高リスク群との差は、NCCNの高および非常に高のリスク集団においても大きく、統計的に有意であった。多変量解析では、予後リスクと関連することが知られている変数(患者年齢、Gleasonスコア、Tステージ)を制御した後でも、MMAIスコアは無関係に予後判定的であった。サブ群内でのMMAI分類器とDMおよびPCSMとの関連は、高リスクおよび非常に高リスクの疾患の連続を通してMMAIにさらなる弁別能力と予後判定能力があることを示唆した。
【0219】
[00245]本明細書では本発明の好ましい実施形態が示され、説明されているが、当業者には、そのような実施形態が例示としてのみ提供されることは明らかであろう。本発明は、本明細書内で提供される具体例によって限定されることを意図されていない。本発明は、前述の明細書を参照して説明されたが、本明細書では、実施形態の説明および図示は、限定的な意味で解釈されてはならない。当業者であれば、本発明から逸脱することなく、多数の変形、変更、置換を思い付くであろう。さらに、本発明のすべての態様は、様々な条件および変数に依存する本明細書に記載された特定の描写、構成または相対的な割合に限定されないことを理解されたい。本明細書で説明される本発明の実施形態に対する様々な代替形態が、本発明の実用化において採用され得ることが理解されるべきである。したがって、本発明は、このような代替形態、修正形態、変形形態、または等価物も対象とする。すなわち、以下の特許請求の範囲は、本発明の範囲を規定するものであり、これらの特許請求の範囲およびその等価物の範囲内の方法および構造が、これによって含まれることが意図される。
【国際調査報告】