(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-08
(54)【発明の名称】腎機能低下を予測するシステムおよび方法
(51)【国際特許分類】
G16H 10/40 20180101AFI20240801BHJP
【FI】
G16H10/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024510262
(86)(22)【出願日】2022-08-17
(85)【翻訳文提出日】2024-04-15
(86)【国際出願番号】 US2022040605
(87)【国際公開番号】W WO2023023159
(87)【国際公開日】2023-02-23
(32)【優先日】2021-08-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524062098
【氏名又は名称】クリンリスク,インコーポレイテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】タングリ,ナブディープ
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
5L099AA04
(57)【要約】
慢性腎疾患(CKD)進行予測を生成する方法は、訓練データ集合に対して訓練される機械学習モデルにアクセスするステップを含み、訓練データ集合が、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)複数の患者に含まれる各患者の年齢と、(iii)複数の患者に含まれる各患者の性別とを含む。医療研究室データの第1集合は、複数の患者に含まれる患者の少なくとも1つの組み合わせについて、20通りの医療測定値を示す。この方法は、更に、新たな患者に関連する入力データ集合を機械学習モデルに投入することによって、新たな患者についてCKD進行予測を生成するステップも含む。入力データ集合は、新たな患者の年齢および性別、ならびに医療研究室データの第2集合を含む。医療研究室データの第2集合は、新たな患者について少なくとも20通りの医療測定値を示す。
【選択図】
図2
【特許請求の範囲】
【請求項1】
方法であって、
慢性腎疾患(CKD)進行予測を生成するように構成された機械学習モデルにアクセスするステップであって、
前記機械学習モデルが、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)前記複数の患者に含まれる各患者の年齢と、(iii)前記複数の患者に含まれる各患者の性別とを含む訓練データ集合に対して訓練され、
前記医療研究室データの第1集合が、前記複数の患者に含まれる患者の少なくとも1つの組み合わせについて、推算糸球体濾過量(eGFR)、尿アルブミン/クレアチニン比(ACR)、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、アスパラギン酸アミノトランスフェラーゼ(AST)、アラニン・アミノトランスアミナーゼ(ALT)、ビリルビン、ガンマ-グルタミル・トランスフェラーゼ(GGT)、ヘマトクリット、および血小板数を示す、ステップと、
新たな患者に関連する入力データ集合を前記機械学習モデルに投入することによって、前記新たな患者についてCKD進行予測を生成するステップであって、
前記新たな患者についての前記CKD進行予測が、前記新たな患者に関連する前記入力データ集合を前記機械学習モデルに投入したことによって得られる前記機械学習モデルの出力に基づき、
前記入力データ集合が、前記新たな患者の年齢と、前記新たな患者の性別と、医療研究室データの第2集合とを含み、
前記第2集合が、前記新たな患者について、eGFR、尿ACR、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ(ALKP)、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、AST、ALT、ビリルビン、GGT、ヘマトクリット、および血小板数の内1つ以上を示す、ステップと、
を含む、方法。
【請求項2】
請求項1記載の方法において、前記新たな患者が、G3以降のCKD病期とは関連付けられない、方法。
【請求項3】
請求項1記載の方法において、前記機械学習モデルが、ランダム・サバイバル・フォレスト・モデルを含む、方法。
【請求項4】
請求項1記載の方法において、前記CKD進行予測が、前記新たな患者についての入力データ集合に関連する時間期間から特定の時間量以内においてCKD進行を生ずるリスクを示す、方法。
【請求項5】
請求項4記載の方法において、前記特定の時間量が、前記CDK進行予測を生成する前記機械学習モデルに入力として供給される、方法。
【請求項6】
請求項4記載の方法において、前記特定の時間量が、2年または5年を含む、方法。
【請求項7】
請求項1記載の方法において、前記複数の患者の内1人以上または前記新たな患者についての前記尿ACRが、尿タンパク/クレアチニン検査または尿中一般物質定性半定量検査から変換される、方法。
【請求項8】
請求項1記載の方法において、前記CKD進行予測が、前記新たな患者が腎不全を発症するリスク、または前記新たな患者にeGFRの40%以上の低下が発生するリスクの予測を含む、方法。
【請求項9】
請求項8記載の方法において、前記腎不全のリスクが、前記新たな患者には、(i)長期透析を必要とするリスク、(ii)腎臓移植を必要とするリスク、または(iii)10ml/分/1.73m
2未満の糸球体濾過量が発生するリスクがあることの指示を含む、方法。
【請求項10】
請求項1記載の方法であって、更に、
前記CKD進行予測が、1つ以上の予測リスク閾値を満たす特定の時間期間内に、前記新たな患者がCKDを発症するリスクの予測を示すと判定するステップと、
(i)前記新たな患者が腎臓介入治療を必要とする可能性があるという通知を生成するステップ、
(ii)前記CKD進行予測に基づいて、前記新たな患者に腎臓介入治療の推奨を生成するステップ、
(iii)前記CKD進行予測に基づいて、前記新たな患者にCKD進行の監視頻度の推奨を生成するステップ、または
(iv)前記新たな患者に腎臓介入治療を施術するステップ、
を含む、方法。
【請求項11】
請求項10記載の方法において、前記1つ以上の予測リスク閾値が、前記CKD進行予測に関連する前記特定の時間期間に基づく、方法。
【請求項12】
請求項10記載の方法において、前記腎臓介入治療の推奨、または前記CKD進行の監視頻度の推奨が、更に、前記新たな患者に関連する前記医療研究室データの第2集合の内少なくとも一部にも基づく、方法。
【請求項13】
請求項10記載の方法において、前記腎臓介入治療が、レニン-アンジオテンシン-アルドステロン系(RAAS)阻害、血圧管理、ナトリウム・グルコース共役輸送体-2(SGLT2)阻害薬、ミネラルコルチコイド受容体拮抗薬(MRA)治療、あるいは腎臓内科の診察、家庭透析、透析アクセス、または腎移植のための準備の内1つ以上を含む、方法。
【請求項14】
請求項1記載の方法において、前記医療研究室データの第1集合が、欠損値の代わりに、1つ以上の代入値を含む、方法。
【請求項15】
請求項14記載の方法において、前記医療研究室データの第1集合が、30%以下の値代入度で、eGFR、尿ACR、尿素、カリウム、ヘモグロビン、血小板数、アルブミン、カルシウム、グルコース、ビリルビン、ナトリウム、重炭酸塩、およびGGTを示す、方法。
【請求項16】
システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行可能である命令を格納する1つ以上のハードウェア記憶デバイスと、
を備え、
前記命令が、前記システムを、
訓練データ集合にアクセスするように構成し、
前記訓練データ集合が、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)前記複数の患者に含まれる各患者の年齢と、(iii)前記複数の患者に含まれる各患者の性別とを含み、
前記医療研究室データの第1集合が、前記複数の患者に含まれる患者の少なくとも1つの組み合わせについて、推算糸球体濾過量(eGFR)、尿アルブミン/クレアチニン比(ACR)、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、アスパラギン酸アミノトランスフェラーゼ(AST)、アラニン・アミノトランスアミナーゼ(ALT)、ビリルビン、ガンマ-グルタミル・トランスフェラーゼ(GGT)、ヘマトクリット、および血小板数を示し、
前記命令が、更に、前記システムを、
前記訓練データ集合を、訓練されていないモデルに適用することによって、機械学習モデルを生成するように構成し、
前記機械学習モデルが、新たな患者に関連する入力データ集合を前記機械学習モデルに投入することによって、前記新たな患者について慢性腎疾患(CKD)進行予測を生成するように構成され、
前記入力データ集合が、前記新たな患者の年齢と、前記新たな患者の性別と、医療研究室データの第2集合とを含み、前記第2集合が、前記新たな患者について、eGFR、尿ACR、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ(ALKP)、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、AST、ALT、ビリルビン、GGT、ヘマトクリット、および血小板数の内1つ以上を示す、システム。
【請求項17】
請求項16記載のシステムにおいて、前記機械学習モデルが、ランダム・サバイバル・フォレスト・モデルを含む、システム。
【請求項18】
システムの1つ以上のプロセッサによって実行可能である命令を格納する1つ以上のハードウェア記憶デバイスであって、前記命令が、前記システムを、
慢性腎疾患(CKD)進行予測を生成するように構成された機械学習モデルにアクセスするように構成し、前記機械学習モデルが、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)前記複数の患者に含まれる各患者の年齢と、(iii)前記複数の患者に含まれる各患者の性別とを含む訓練データ集合に対して訓練され、前記医療研究室データの第1集合が、前記複数の患者に含まれる患者の少なくとも1つの組み合わせについて、尿アルブミン/クレアチニン比(ACR)、推算糸球体濾過量(eGFR)、 尿素、ヘモグロビンを示し、
新たな患者に関連する入力データ集合を前記機械学習モデルに投入することによって、前記新たな患者についてCKD進行予測を生成するように構成し、前記新たな患者についての前記CKD進行予測が、前記新たな患者に関連する前記入力データ集合を前記機械学習モデルに投入したことによって得られる前記機械学習モデルの出力に基づき、前記入力データ集合が、前記新たな患者の年齢と、前記新たな患者の性別と、医療研究室データの第2集合とを含み、前記第2集合が、前記新たな患者について、尿化学検査、包括的代謝パネル、全血球計算、肝臓パネル、または尿酸検査の内1つ以上の項目を含む、1つ以上のハードウェア記憶デバイス。
【請求項19】
請求項18記載の1つ以上のハードウェア記憶デバイスにおいて、前記医療研究室データの第2集合が、前記新たな患者についての前記尿化学検査の1つ以上の項目を含む、1つ以上のハードウェア記憶デバイス。
【請求項20】
請求項19記載の1つ以上のハードウェア記憶デバイスにおいて、前記医療研究室データの第2集合が、前記新たな患者についての前記尿化学検査および包括的代謝パネルの内1つ以上の項目を含む、1つ以上のハードウェア記憶デバイス。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願に対する相互引用
[0001] 本願は、“SYSTEMS AND METHODS FOR PREDICTING KIDNEY FUNCTION DECLINE”(腎機能低下を予測するシステムおよび方法)と題し、2021年8月18日に出願された米国仮特許出願第63/234,535号の優先権を主張する。この特許出願をここで引用したことにより、その内容全体が本願にも含まれるものとする。
【0002】
[0002] 慢性腎疾患(CKD:chronic kidney disease)は、現在世界中で8億5千万人を超える成人が罹患しており、高い罹患率および死亡率、ならびに高い医療費が伴う。実例をあげると、2009年では、CKD、例えば、腎不全の末期または末期腎臓病(ESRD:end-stage renal disease)の治療には、米国だけでも400億ドルの費用が必要であった。CKD患者の内、腎不全に至るのはほんの少数であるが、透析を必要とする臓器不全に至る前において、CKDの進行期(more advanced stages)に進む個人によって、CKDに伴う過大な罹患率および費用の多くが引き上げられている(driven)。
【0003】
[0003] リソース効率的で適切な治療をCKD患者に行うことは、この病気に苦しむ人々には恩恵があり、増々負担が増えつつある健康管理システムにおけるリソース割り当ての改善に供する。個人毎にCKD進行のリスクを精度高く予測できれば、患者と知識を共有し、更に意志決定を共有することによって、患者の体験および転帰を改善することが可能になり、治療のリスクおよび危害の病気進行リスクに対する適合性を高めることによって、医療看護を向上させること(enhance care)が可能になり、および/またはリソース割り当てと個々人のリスクとの間における整合性向上を推し進めることによって、医療制度(health system)の効率を高めることが可能になる。
【発明の概要】
【0004】
[0004] したがって、個人に合わせてCKD進行のリスクを予測する技法を改良することが求められている。
【図面の簡単な説明】
【0005】
[0005] 以上で引用した利点および特徴ならびに他の利点および特徴を得ることができる態様を説明するために、以上で端的に説明した主題について、添付図面に図示する特定的な実施形態を参照しながら、更に特定して説明する。これらの図面は典型的な実施形態を図示するに過ぎず、したがってその範囲を限定するように見なしてはならないことを理解の上で、添付図面の使用を通じて、更に具体的にそして詳細に、実施形態について説明する(described and explained)。
【
図1】[0006] 開示する実施形態を組み込み、および/またはこれらの実施形態を実現するために利用されるコンピューティング・システム例を含む、コンピューティング環境例を示す。
【
図2】[0007] 医療研究室データを含む訓練データ集合に対して訓練され、慢性腎疾患の進行予測を生成するように構成された機械学習モデルの一例の概念表現を示す。
【
図3A】[0008] 慢性腎疾患の進行予測を生成することに関連するアクトを表す流れ図例を示す。
【
図3B】慢性腎疾患の進行予測を生成することに関連するアクトを表す流れ図例を示す。
【
図3C】慢性腎疾患の進行予測を生成することに関連するアクトを表す流れ図例を示す。
【
図3D】慢性腎疾患の進行予測を生成することに関連するアクトを表す流れ図例を示す。
【
図4】[0009] 慢性腎疾患の進行予測に関連する報告例を示す。
【
図5】[0010] データ集合を訓練する機械学習モデルを生成する元となる、患者のコホート例を模式的に示す。
【
図6A】[0011] 患者毎の医療研究室データに含ませる種々の検査結果を含む、ベースライン・コホート(baseline cohort)例の記述を含む表を示す。
【
図6B】[0012]
図6Aにおいて記述したような、ベースライン・コホートにおける変数欠損度(missingness)の概要を含む表を示す。
【
図7】[0013] 透析および腎移植を定めるために使用されるタリフ・コード(tariff codes)の別表である。
【
図8】[0014] データ集合を訓練する機械学習モデルに含まれる変数毎の変数重要度(variable importance)の概要を示す表である。
【
図9】[0015] 10変数医療研究室データ集合を含む訓練データ集合の一例の概念的表現を示す。
【
図10】[0016] ランダム・フォレスト・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである(例えば、2年の時間期間に対して、
図9に示すような訓練データ集合を使用する)。
【
図11】[0017] ランダム・フォレスト・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである(例えば、5年の時間期間に対して、
図9に示すような訓練データ集合を使用する)。
【
図12】[0018] コックス・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである(例えば、2年の時間期間に対して、
図9に示すような訓練データ集合を使用する)。
【
図13】[0019] コックス・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである(例えば、5年の時間期間に対して、
図9に示すような訓練データ集合を使用する)。
【
図14】[0020] 9変数医療研究室データを含み、慢性腎疾患の進行予測を生成するように構成された訓練データ集合に対して訓練された機械学習の一例を示す。
【
図15】[0021] 例えば、2年の時間期間に対して、
図14に示すような訓練データ集合を使用して、コックス・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである。
【
図16】[0022] 例えば、5年の時間期間に対して、
図14に示すような訓練データ集合を使用して、コックス・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである。
【
図17】[0023] 16~22変数医療研究室データ集合を含む訓練データ集合の一例を示す。
【
図18】[0024] 例えば、2年の時間期間に対して、
図17に示すような訓練データ集合を使用する機械学習モデルに対する較正プロット例を示すグラフを示す。
【
図19】例えば、2年の時間期間に対して、
図17に示すような訓練データ集合を使用する機械学習モデルに対する較正プロット例を示すグラフを示す。
【
図20】例えば、2年の時間期間に対して、
図17に示すような訓練データ集合を使用する機械学習モデルに対する較正プロット例を示すグラフを示す。
【
図21】[0025] 少なくとも15変数医療研究室データ集合を含む訓練データ集合の一例を示す。
【
図22】[0026] 例えば、2年の時間期間に対して、
図21に示すような訓練データ集合を使用する機械学習モデルに対する較正プロット例を示すグラフである。
【
図23】[0027] 例えば、5年の時間期間に対して、
図23に示すような訓練データ集合を使用する機械学習モデルに対する較正プロット例を示すグラフである。
【
図24】[0028] 本明細書において開示され、コックス・モデルとして構成された機械学習モデルの種々の例について、性能評価統計の一概要例を示す表を示す。
【
図25】[0029] 本明細書において開示され、コックス・モデルとして構成された機械学習モデルの種々の例に対する較正プロットを示す。
【
図26A】[0030] ランダム・フォレスト・モデルとして構成された機械学習モデルの種々の例について、性能評価統計の種々の概要例を表す表を示す。
【
図26B】
図26Bは、ランダム・フォレスト・モデルとして構成された機械学習モデルの種々の例について、性能評価統計の種々の概要例を表す表を示す。
【
図27A】[0031] 糖尿病患者に対するサブグループ分析におけるランダム・フォレスト・モデルに対する較正プロット例を示すグラフである。
【
図27B】[0032] 糖尿病ではない患者に対するサブグループ分析におけるランダム・フォレスト・モデルに対する較正プロット例を示すグラフである。
【
図27C】[0033] 種々の病期にあるCKD患者に対するサブグループ分析におけるランダム・フォレスト・モデルに対する較正プロット例を示すグラフである。
【
図27D】
図27Dは、種々の病期にあるCKD患者に対するサブグループ分析におけるランダム・フォレスト・モデルに対する較正プロット例を示すグラフである。
【
図28】[0034] CKD進行予測を生成するランダム・サバイバル・フォレスト・モデルの一例を外部から検証するために使用される検証コホートの態様を示す。
【
図29】[0035] CKD進行予測を生成するランダム・サバイバル・フォレスト・モデルの一例を構築する(develop)ために使用される研究室パネルに対する欠損度(degree of missingness)の概要を示す。
【
図30】[0036] CKD進行予測を生成するランダム・サバイバル・フォレスト・モデルの一例を構築するための訓練データ集合を生成するために、透析および移植を識別するタリフ・コードの概要を示す。
【
図31】[0037] CKD進行予測を生成する22変数サバイバル・フォレストの一例について、変数重要度(variable importance)を示す。
【
図32】[0038] CKD進行予測を生成するランダム・サバイバル・フォレスト・モデルの一例を構築するための訓練コホート、内部検査コホート、および外部検証コホートに対するベースライン記述統計(baseline descriptive statistics)の概要を示す。
【
図33】[0039] CKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例について、1~5年におけるAUCおよびブライア(Brier)スコアを示す。
【
図34】[0040] CKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例について、内部検査および外部検証コホートに対するAUCおよびブライア・スコアを示す。
【
図35A】[0041] 2年目におけるCKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例に対する種々の較正チャートを示す。
【
図35B】
図35Bは、2年目におけるCKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例に対する種々の較正チャートを示す。
【
図36】[0042] CKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例の性能概要を示す。
【
図37A】[0043] 5年目におけるCKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例に対する種々の較正チャートを示す。
【
図37B】5年目におけるCKD進行予測を生成するための、22個の変数を有するランダム・サバイバル・フォレスト・モデルの一例に対する種々の較正チャートを示す。
【
図38】[0044] CKD進行予測を生成するヒープマップ・モデル(heapmap model)の結果を示す。
【
図39】[0045] CKD進行予測を生成する医療モデルの結果を示す。
【発明を実施するための形態】
【0006】
[0046] 開示する実施形態は、CKD進行の危険に晒された患者に対する医療判断において、CKD進行を予測するため、および/または医師(practitioner)を導くために、機械学習モデルを訓練および/または利用するシステム、方法、および/またはフレームワークの改良を対象とする。
【0007】
[0047] 腎不全リスク予想式(KFRE:Kidney Failure Risk Equation)は、個々のCKD患者について腎不全進行の危険度を予測する、国際的に認められている(validate)リスク予測手法(risk prediction)である。しかしながら、KFREはCKDの後期(G3~G5)にしか適用できず、透析を必要とする腎不全という臨床的転帰しか考慮しないという重大な欠点(limitations)がある。CKDの早期では、更に進んだ段階への進行は希ではないにしても、腎不全は希な事象である。これら早期では、GFRの40%の低下(decline)は、患者および医者(physician)双方にとって医療的に意味があり、スポンサーがCKDの全段階において実現可能な(feasible)ランダム化比較試験を設計することを可能にする。
【0008】
[0048] 加えて、進行を遅らせる新たなCKD用疾患修飾治療が利用可能であるが、これらは、主に、腎機能が保存されている患者の研究を行ってきた。これらの治療の使用は、特に、リスクが高い早期のCKDを患う個人に有効である(beneficial)として差し支えなく、透析予防の効果(benefit)は大きく、価格効率性を得ることができる。CKDのための疾患修飾療法をリスクの高い(high-risk)早期のCKDを患う個人に適用するために、eGFRの40%の低下、あるいは腎不全またはeGFRの40%低下の複合的転帰(composite outcome)を予測し、CKDの全ての段階(G1~G5)にある患者に適用することができるモデルを実装することができる。このようなモデルが研究室データに基づくとき、電子健康記録または研究室情報システムを通じて、これらのモデルを使用することができ、CKDでは見られることが多い符合化の変動性およびその複雑さには無縁である(not subject to)。開示する実施形態の少なくとも一部は、患者のeGFR40%低下または腎不全(例えば、CKD G1~G5の患者)を精度高く予測する、新たな研究室ベースの機械学習予測モデルの解析(derivation)および外部検証を伴う。
技術的利点
[0049] 開示する実施形態は、CKD進行予測に関連する既存のシステムおよび方法を凌ぐ種々の技術的利点、特に、いずれの慢性腎疾患(CKD)の段階を辿る患者についても(またはCDKでない患者、またはCKDステータスがわからない患者)、慢性腎疾患の進行を予測できることにおいて、技術的利点を容易に得る(facilitate)ことができる。更に、本開示によって生成された予測は、eGFRの40%の低下および/または腎不全のいずれかの複合的な転帰(例えば、単なる腎不全だけでなく)に基づくこともできる。本開示の少なくとも一部の実施形態にしたがって生成された予測は、いずれの転帰を経験する患者についても、リスク・スコアを提供することができる。
【0009】
[0050] CKDの患者において、開示する方法は、非限定的な例として、腎臓系照会重要度判定検査(referral triage)について伝える、更に集中的な臨床管理(clinic care)の必要性を評価する、モダリティ教育、透析アクセス・プランニング(dialysis access planning)、および/またはその他の時機を決定する、というような、様々な重要な医療判断について伝えるために使用することができる。開示する実施形態は、CKD進行予測を生成するものであり、個々の患者についてCKD進行予測を生成するため(例えば、電子健康記録またはリンクされたソフトウェア・ソリューションにおいて実装されるとき、および/または個々の医者の要求に応答して)、および/または患者データベースにおける患者のバッチ処理をし易くするため(例えば、病院または診療所のデータベース)等に、種々の方法で実装することができる。
【0010】
[0051] 開示する実施形態の少なくとも一部は、個々の転帰(eGFRの40%の低下のリスクまたは腎不全のリスク)、または複合的な転帰(腎不全またはeGFRの40%低下が発生するリスク)を予測するモデルを含み、これらのモデルは、CKDの全ての段階(G1~G5)について審査された患者、または全ての段階にある患者に適用することができる。このような特徴を提供するシステムおよび/または方法は、至急必要とされている。本開示の少なくとも一部のモデルは、CKD進行のリスクが高い、早期疾病(G1~G3)の患者のリスクを階層化するため、臨床試験における患者(任意のCKD段階)の登録を伝えるため、および/またはナトリウム・グルコース共役輸送体-2(SGLT2:sodium-glucose cotransporter-2)抑制剤、またはミネラルコルチコイド受容体拮抗薬(MRA:mineralocorticoid receptor antagonists)のような、疾患進行を修正することができる治療の実施を指導するために利用することができる。
CKD進行を予測するシステムおよび技法
[0052] これより
図1に注意を向けると、
図1は、開示する発明の態様を含む、および/または開示する発明の態様を実装するために使用することができるコンピューティング・システム110のコンポーネント例を示す。
図1は、機械学習モデルの入力および出力に関連する種々の機械学習(ML:machine learning)モジュールおよびデータ型を示す。
【0011】
[0053] 本明細書において使用する場合、機械学習モデルまたはモジュールとは、機械学習モデルまたは他の人工インテリジェンス-ベース構造/アーキテクチャを使用する処理を容易にするために動作可能な、ソフトウェアおよび/またはハードウェア・コンポーネントの任意の組み合わせを指す。例えば、1つ以上のプロセッサは、非限定的な例として、ランダム・フォレスト・モデル、ランダム・サバイバル・フォレスト・モデル、コックス比例ハザード・モデル、単一レイヤ・ニューラル・ネットワーク、フィード・フォワード・ニューラル・ネットワーク、ラジアル・ベーシス関数ネットワーク、ディープ・フィード-フォワード・ネットワーク、リカレント・ニューラル・ネットワーク、長/短期記憶(LSTM:long-short term memory)ネットワーク、ゲート付き回帰型ユニット、オートエンコーダ・ニューラル・ネットワーク、変分オートエンコーダ、ディノイジング・オートエンコーダ、スパース・オートエンコーダ、マルコフ・チェーン、ホップフィールド・ニューラル・ネットワーク、ボルツマン・マシン・ネットワーク、制約付きボルツマン・マシン・ネットワーク、深層信念ネットワーク、深層畳み込みネットワーク(または畳み込みニューラル・ネットワーク)、逆畳み込みニューラル・ネットワーク、ディープ畳み込み逆グラフィックス・ネットワーク、敵対的生成ネットワーク、液体状態機械、エクストリーム・ラーニング・マシン、エコー状態ネットワーク、深層残差ネットワーク、コホーネン・ネットワーク、サポート・ベクター・マシン、ニューラル・チューリング・マシン、および/またはその他という形態に構成された機能ブロックおよび/または処理レイヤを実行するように動作可能なハードウェア・コンポーネントおよび/またはコンピュータ実行可能命令を含むおよび/または利用することができる。
【0012】
[0054]
図1に示す例は、コンピューティング環境100の一部として、コンピューティング・システム110を示し、このコンピューティング・システム110と通信する(ネットワーク130を通じて)サード・パーティ・システム(1つまたは複数)120を含むことができる。ある実施態様では、コンピューティング・システム110は、1人以上の患者に対してCKD進行予測を生成するように、機械学習モデル(例えば、CDK予測モデル)を訓練するおよび/または構成するように構成される。機械学習モデルは、加えてまたは代わりに、1人以上の患者に対する治療、監視、またはこれら以外の看護(caring)の推奨を生成するように訓練/構成することもできる。
図1のコンピューティング・システム110は、加えてまたは代わりに、本明細書において説明するように訓練/構成されるCKD予測モデルのような、機械学習モデルを動作させるように構成することもできる。
【0013】
[0055]
図1のコンピューティング・システム110は、1つ以上のプロセッサ(1つまたは複数)(1つ以上のハードウェア・プロセッサ(1つまたは複数)のような)112と、コンピュータ読み取り可能命令118を格納するストレージ(即ち、ハードウェア記憶デバイス(1つまたは複数)140)とを含む。ハードウェア記憶デバイス(1つまたは複数)140は、任意の数のデータ型および任意の数のコンピュータ読み取り可能命令118を収容することができ、これらによって、コンピューティング・システム110は、コンピュータ読み取り可能命令118が1つ以上のプロセッサ(1つまたは複数)112によって実行されるとき、開示する実施形態の1つ以上を実装するように構成される。ハードウェア記憶デバイス(1つまたは複数)140は、物理的有形記憶手段を含むこともできる。また、コンピューティング・システム110は、ユーザ・インターフェース(1つまたは複数)114と入力/出力(I/O)デバイス(1つまたは複数)116も含むことが示されている。
【0014】
[0056]
図1に示すように、ハードウェア記憶デバイス(1つまたは複数)140は、1つの記憶ユニットとして示されている。しかしながら、ハードウェア記憶デバイス(1つまたは複数)140は、分散型ストレージとして実装することもでき、様々な別個の、そしてときには離れたシステムおよび/またはサード・パーティ・システム(1つまたは複数)120に分散されることは認められよう。また、コンピューティング・システム110は、分散型システムを構成することもでき、コンピューティング・システム110のコンポーネントの1つ以上が互いに離れていてもよく、各々が異なるタスクを実行する異なるディスクリート・システムによって維持/管理(run)される。ある実例では、複数の分散型システムが、分散型クラウド環境におけるように、開示する機能を実装するために、同様のタスクおよび/または分担する(shared)タスクを実行する。
【0015】
[0057]
図1の例では、ハードウェア記憶デバイス(1つまたは複数)140は、訓練データ集合141、医療研究室データ142、患者情報143、およびCKD進行予測データ144を含む、異なるデータ型を格納することができる。
図1に示すように、ストレージ(例えば、ハードウェア記憶デバイス(1つまたは複数)140)は、コンピュータ読み取り可能命令118を含むことができる。コンピュータ読み取り可能命令118は、
図1に示すモデルおよび/またはモジュールの内1つ以上(例えば、機械学習モデル145)の訓練/構成および/または実行(例えば、CDK進行予測生成のために)を容易にするために使用可能であってもよい。
【0016】
[0058] 機械学習モデル145は、訓練データ集合141を使用して、訓練することができる。訓練データ集合141は、患者のコホートについての医療研究室データ(例えば、医療研究室データ142に含まれる)、および/または他の患者情報(例えば、患者情報143に含まれる)を含むことができる。CKD進行予測を生成するように機械学習を訓練するために、訓練データ集合141を機械学習モデル(例えば、機械学習モデル145)に適用することができる。ある実施形態では、訓練データ集合141は、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)複数の患者の中に含まれる各患者の年齢と、(iii)複数の患者の中に含まれる各患者の性別とを含む。医療実験室データの第1集合は、特定の患者に関連する種々の研究室データ/測定値(labs/measurements)を含むことができ、非限定的な例として、推算糸球体濾過量(eGFR)、尿アルブミン/クレアチニン比(ACR)、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、アスパラギン酸アミノトランスフェラーゼ(AST)、アラニン・アミノトランスアミナーゼ(ALT)、ビリルビン、ガンマ-グルタミル・トランスフェラーゼ(GGT)、ヘマトクリット、血小板数、および/またはその他があげられる。
【0017】
[0059] 訓練コホートに含まれる種々の患者に関連する種々の研究室データ/測定値は、1つ以上の時点において、または1つ以上の時間期間にわたって収集することができる(または既に収集されていてもよい)(ある時間期間(例えば、1週間、1月等)にわたって一連のサンプルまたは測定値を得るための複数回の連続する診療予約にわたってというように、例えば、経時的に1回以上の患者と医師との交流の間に、個々の患者各々から得られたサンプルまたは測定値から得られる)。例えば、様々な臨床検査は、医師による診察(visit with)の初日に、患者に指示される(order)。他の例として、患者が最初の日に1つ以上の血液検査結果を提供し、次いで別の日に尿サンプルを検査のために提出するのでもよい。あるいは、特定の検査では、1週間または1か月、あるいは1年もの時間期間にわたる複数の日からのサンプルを必要とする場合もある。
【0018】
[0060] ある実施形態では、訓練および/または検査データに含まれる研究室値の集合毎に、1つの時点(time point)が使用される。例えば、ある実例では、時点がeGFR研究室測定によって定められ、全ての他の研究室値は、365日のeGFR研究室測定の中で、研究室データ(labs)から選択される。
【0019】
[0061] 医療研究室データ142は、1回以上の個々の(single)時間期間において患者から得られた1つ以上のサンプルに基づいて、患者から収集することができる(1回の診療予約の間に1つのサンプルまたは測定値(例えば、血液または尿サンプル)を得るというように、例えば、患者と医師の交流の間に1回毎に特定の患者各々から得られたサンプルまたは測定値から求められる)。1つ以上のサンプルは、異なる血液、尿、およびその他の研究室検査からの種々の結果を含んでもよい。
【0020】
[0062] ある実施態様では、訓練データ集合141において表される測定値を得るために利用される研究室検査は、患者が通例定期的な外来診療の間に行っている、日常的な研究室検査である。例えば、訓練データ集合141において表される測定値の少なくとも一部は、尿化学検査(例えば、尿クレアチニン、尿アルブミン、尿ACR)、包括的代謝パネル(例えば、eGFR、グルコース、カルシウム、ナトリウム、アルブミン、カリウム、重炭酸塩、塩化物、尿素、リン酸塩/リン、マグネシウム、肝臓酵素)、全血球計算(例えば、ヘモグロビン、ヘマトクリット、血小板数)、肝臓パネル(例えば、ALT、AST、ALKP、GGT、ビリルビン)、および/または尿酸検査と関連して得られた1つ以上の測定値を含むことができる。
【0021】
[0063] ある実例では、訓練データ集合141において表される測定値の内1つ以上は、直接測定されるのではなく、他の測定値から解析(derive)または推論される。実例をあげると、特定の患者についての尿ACR測定値は、尿タンパク-クレアチニン検査または尿中一般物質定性半定量検査(urine dipstick test)から変換することもできる。
【0022】
[0064] 尚、本開示に関して、訓練データ集合141において表される1人以上の患者についての1つ以上の測定値が、訓練データ集合141から欠損する、または削除される場合もあることは認められよう。非限定的な例として、訓練データ集合141が、患者Aおよび患者Bについての医療研究室データ142を含む場合、尿化学検査および全血球計算は患者Aおよび患者B双方について行われたが、肝臓パネルは患者Aについてのみ行われた場合というように、患者Aは、患者Bには入手できない研究室データ/測定値を有する場合もある。にもかかわらず、肝臓パネルが患者Bについて得られなかった場合であっても、訓練データ集合141において表される医療研究室データ142は、尿化学検査、全血球計算、および肝臓パネルに関連する1つ以上の測定値を含むものとして、見なされてよい。これに関して、研究室データ/測定値の集合における1つ以上の研究室データ/測定値が、1つの患者の組み合わせの中にいる1人以上の患者について欠損しても、そして研究室データ/測定値の集合の全ての研究室データ/測定値が存在する訓練コホートにおいて、いずれか1人(no single)の患者が存在しなくても(研究室データ/測定値の集合における研究室データ/測定値の各々が、訓練コホートに含まれる少なくとも1人の患者について含まれる限り)、訓練データ集合141において、訓練コホートにおける1つの患者の組み合わせ(例えば、患者Aおよび患者B)によって、研究室データ/測定値の集合を表すことができる。
【0023】
[0065] ある実施態様では、訓練データ集合141についての医療研究室データ142が、医療研究室データ142内に表された少なくとも一部の患者について欠損値を有する。ある実例では、訓練データ集合141は、代入データを利用することによって、欠損値/測定値を補足する。代入データは、任意の適した技法(例えば、適応ツリー代入(adaptive tree imputation)、近接技法、回帰代入、平均代用(mean substitution)、および/またはその他)を利用して、代入することができる。例えば、訓練データ集合141は、その関連する患者のコホートについて、eGFR、尿ACR、尿素、カリウム、ヘモグロビン、血小板数、アルブミン、カルシウム、グルコース、ビリルビン、ナトリウム、重炭酸塩、および/またはGGTを含み、値代入度が30%以下であればよい(例えば、以上の測定値はいずれも、コホートに入っている患者の内30%以下について、代入値を含んでもよい)。
【0024】
[0066] 訓練データ集合141は、患者転帰情報(例えば、患者情報143に含まれる)のような、複数の患者(即ち、患者のコホート)に関連する追加の情報を含むこともできる。このような患者転帰情報は、患者がeGFRの低下(例えば、40%または他の低下)、腎不全(例えば、透析または腎移植を必要とする)、および/またはCKDに関連するその他の医療転帰を経験したか否か、および/またはいつ経験したかについての情報を含むこともできる。患者情報143は、加えてまたは代わりに、1人以上の患者のCKD病期を含むこともできる。CKD病期は、病期G1、病期G2、病期G3、病期G4、または病期G5を含むことができる。病期は、ある実例では、前述の各病期に対応する複数の副病期(sub-stage)から選択することもできる(例えば、病期G1の副病期等)。また、患者情報143は、患者の生物的性別(sex)および/または社会的性別(gender)、患者の各々から各サンプルを収集した時点における患者の年齢、他の疾病/病状の履歴、病状の家族歴、これまでの治療/外科手術、および/または血圧、体温、酸素濃度(oxygen level)、反射試験、および/またはその他のバイタル(vitals)というような他の関連情報も含むことができる。このような変数は、しかしながら、特定の実施形態では必要ではなく、削除してもよい。
【0025】
[0067] 訓練データ集合141は、種々の方法で(例えば、教師あり学習技法、教師なし学習技法、これらの組み合わせ、および/またはその他を利用する)、機械学習モデル145を訓練するために利用することができる。実例をあげると、ランダム・フォレスト・モデルを構築するには、システムは、元の訓練データ集合(例えば、訓練データ集合141)をランダムにサンプリングし(例えば、ブートストラップ・サンプリング)、ランダムにサンプリングした(例えば、もっと小さな)データ集合にモデルを当てはめ、予測を集約することによって、非相関ツリーを構築することができる。他の例として、ランダム・サバイバル・フォレスト・モデルを構築するには、システムは、各ノードにおける特徴および/または評価のための閾値の部分集合を、集約のために、ランダムに選択することができる。
【0026】
[0068] 機械学習モデル145を訓練した後、特定の患者に対して(例えば、新たな患者に対して)CKD進行予測(例えば、CDK進行予測データ144)を生成するために、機械学習モデル145を利用する(実行する(run or execute))ことができる。例えば、新たな患者についての医療研究室データ142に加えて、新たな患者についての患者情報(例えば、年齢および性別)を得ることもできる。新たな患者についての医療研究室データは、訓練データ集合141についての医療研究室データ142と関連付けて先に論じた1つ以上の研究室データ/測定値を含んでもよい。実例をあげると、新たな患者についての医療研究室データは、推算糸球体濾過量(eGFR)、尿アルブミン/クレアチニン比(ACR)、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、アスパラギン酸アミノトランスフェラーゼ(AST)、アラニン・アミノトランスアミナーゼ(ALT)、ビリルビン、ガンマ-グルタミル・トランスフェラーゼ(GGT)、ヘマトクリット、血小板数、および/またはその他の内1つ以上を含むことができる。新たな患者についての研究室データ/測定値は、尿化学検査(例えば、尿クレアチニン、尿アルブミン、尿ACR)、包括的代謝パネル(例えば、eGFR、グルコース、カルシウム、ナトリウム、アルブミン、カリウム、重炭酸塩、塩化物、尿素、リン酸塩/リン、マグネシウム、肝臓酵素)、全血球計算(例えば、ヘモグロビン、ヘマトクリット、血小板数)、肝臓パネル(例えば、ALT、AST、ALKP、GGT、ビリルビン)、および/または尿酸検査の内1つ以上の項目(components)を含むことができる。
【0027】
[0069] 新たな患者についての年齢、性別、および医療研究室データは、新たな患者についてCKD進行予測データ144を生成するために、(訓練された)機械学習モデル145への入力として利用することができる。CKD進行予測データ144は、新たな患者にCKD進行が生ずるリスクを、eGFRの少なくとも40%の低下という形態で、というようにして示すことができる。ある実施形態では、CKD進行予測は、加えてまたは代わりに、腎不全の形態で、CKD進行のリスクを示す。実例をあげると、CKD進行予測データ144は、複合CKD進行転帰が発生する(occur)リスクを示すことができ、複合転帰は、eGFRの40%低下または腎不全を含む(例えば、患者に10ml/分/1.73m2未満のeGFRが発生し、長期透析が必要となり、または腎移植が必要となる)。先に注記したように、機械学習モデル145は、このようなCKD進行予測データ144を、病期G1または病期G2、もしくはその副病期(例えば、G3よりも末期のCKD病期にはない患者について)というような、CDKの早期にある患者についてであっても、生成するために利用することができる。
【0028】
[0070] CKD進行予測(例えば、CKD進行予測データ144)は、特定の時間量以内(例えば、新たな患者についてのeGFR測定に関連する時点というような、新たな患者についての入力データ集合に関連する時点から)にCKD進行が生ずるリスクを示すことができる。非限定的な例として、CKD進行予測に関連する時間量は、2年、5年、または他の時間量(例えば、6か月、1年、18か月、3年、4年等)であってもよい。
【0029】
[0071] ある実施態様では、異なる時間軸(例えば、2年CKD進行予測のために1つのモデル、5年CKD進行予測のために別個のモデル等)と関連付けたCDK進行予測を生成するために、別個の機械学習モデル145(例えば、別個のランダム・フォレスト・モデル)を訓練する。ある実施態様では、異なる時間軸と関連付けたCKD進行予測を生成するために、1つの機械学習モデル145(例えば、1つのランダム・サバイバル・フォレスト・モデル)を訓練する。実例をあげると、時間軸または特定の時間量(例えば、2年、5年、または任意の時間量、もしくは日数)を、新たな患者についての性別、年齢、および医療研究室データと組み合わせて、機械学習モデル145への入力として供給し、機械学習モデル145に、入力された時間軸または特定の時間量に対して、CKD進行予測を生成させることができる。
【0030】
[0072]
図1は、更に、追加のモジュール例も示す。これらは、ハードウェア記憶デバイス(1つまたは複数)140に格納する、および/または他の方法でコンピューティング・システム110と関連付けることができる。追加のモジュールは、データ検索モジュール151、データ変換モジュール152、訓練モジュール153、検証モジュール155、および/または実装モジュール156の内1つ以上を含むことができる。
【0031】
[0073] 本明細書において使用する場合、「モジュール」(module)という用語は、特定のアクトを実行するようにコンピューティング・システム110を構成することができる、ハードウェア・コンポーネントまたはソフトウェア・オブジェクト、ルーチン、もしくはメソッドの任意の組み合わせを指すことができる。実例をあげると、本明細書において説明する異なるコンポーネント、モジュール、エンジン、デバイス、および/またはサービスは、コンピューティング・システム110上で(例えば、別個のスレッドとして)実行する1つ以上のオブジェクトまたはプロセッサを利用して実装することができる。
図1は、様々な独立したモジュールを図示するが、モジュールの特徴描写(characterization)は、少なくともいくらかは任意であることは理解されよう。少なくとも1つの実施態様では、明示的に説明または図示する構成以外のものにおいては、本明細書において説明する種々のモジュールを組み合わせる、分割する、または除外することもできる。例えば、いずれかの特定のモジュールを参照しながら本明細書において説明する機能はいずれも、処理ユニット、ソフトウェア・オブジェクト、モジュール、命令、コンピューティング・センタ(例えば、コンピューティング・システム110から離れたコンピューティング・センタ)等を、任意の数および/または組み合わせで利用して、実行することができる。本明細書では、明確さおよび説明のために、個々のモジュールを示す(provide)が、限定を意図するのではない。
【0032】
[0074] データ検索モジュール151は、1つ以上のデータ型を含むデータ源、データベース、および/または記憶デバイスを突き止めて、アクセスするように構成することができ、そこから、データ検索モジュール151は、訓練データとして使用するデータの集合または部分集合を抽出することができる。データ検索モジュール151は、データベースおよび/またはハードウェア記憶デバイスからデータを受け取ることができ、データ検索モジュール151は、受け取ったデータを訓練データとして使用するために、フォーマットし直す、またそうでなければ修正するように構成される。加えて、または代わりに、データ検索モジュール151は、サード・パーティ・データ集合および/またはデータ源を含む1つ以上のリモート・システム(例えば、サード・パーティ・システム(1つまたは複数)120)と通信することもできる。ある実例では、これらのデータ源は、患者研究室検査結果およびその他の患者情報ポータルを含む。
【0033】
[0075] データ検索モジュール151は、医療研究室データ142、患者情報143、および/またはCKD進行予測データ144を含む、電子的に格納された情報にアクセスすることができる。データ検索モジュール151は、スマート・モジュールとして構成することができ、適時に十分な量のデータが得られるように、そして機械学習モデル/モジュールを訓練する対象となる、所望の用途に最も該当するデータを検索するように、最適なデータ集合抽出プロセスを学習することができる。例えば、データ検索モジュール151は、所望の慢性腎疾患予測技法において、モデル(例えば、特定のクエリまたは特定のタスクのための)を訓練し、このモデルの精度、効率、および/または有効性を高める訓練データを生成するデータベースおよび/またはデータ集合はどれか、学習することができる。
【0034】
[0076] データ検索モジュール151は、コンピューティング・システム110に含まれる1つ以上のMLモジュール(1つまたは複数)および/またはモデルと通信するとき、生の記録されたソース・データを突き止め、選択し、および/または格納することができる。このような実例では、データ検索モジュール151と通信する他のモジュールは、受け取ったデータを更に拡張し、および/または下流のプロセスに適用するように、1つ以上のデータ源から検索された(即ち、抽出された、引き出された等)データを受け取ることができる。例えば、データ検索モジュール151は、訓練モジュール153および/または実装モジュール156と通信することができる。データ検索モジュール151は、医療研究室データ142および患者情報143を含む訓練データ集合(例えば、訓練データ集合141)を検索するように構成することもできる。
【0035】
[0077] ある実例では、データ変換モジュール152は、データ検索モジュール151によって検索された任意の生データを、訓練データ集合141に含まれるようにするために、作業可能なデータに変換するように構成される。
【0036】
[0078] ある実例では、訓練モジュール153は、データ検索モジュール151、データ変換モジュール152、検証モジュール154、および/または実装モジュール156の内1つ以上と通信する。このような実施形態では、訓練モジュール153は、データ検索モジュール151を介して、1つ以上の訓練データ集合(例えば、訓練データ集合141)を受け取るように構成される。特定のアプリケーションまたはタスクに関連する訓練データを受け取った後、訓練モジュール153は、1つ以上のモデルを訓練データに対して訓練することができる。訓練モジュール153は、教師無し訓練および/または教師付訓練によってモデルを訓練するように構成することができる。訓練モジュール153は、CKD進行予測データ144を出力として生成するために、医療研究室データ142および患者情報143を含む訓練データ集合141を適用することによって、慢性腎疾患進行予測を生成するように、機械学習モデル145を訓練するように構成される。
【0037】
[0079] ある実施形態では、訓練データ集合141を、訓練データ集合と検証データ集合とに分割する。検証モジュール155は、検証データ集合を利用して、機械学習モデル145を、CKD進行予測の精度および正確さについて検査するように構成される。例えば、任意の所望の人口統計および研究室変数を使用し、Rにおいて、サバイバル、回帰、および分類(RF-SRC)パッケージ用のランダム・フォレストを使用して、ランダム・フォレスト・モデルを当てはめることができる。実例をあげると、利用可能なデータを訓練(例えば、70%)データ集合と、検査/検証(例えば、30%)データ集合に分割することができる。パラメータは、15のノード・サイズ(または他のサイズ)と、60に等しいツリー数(または他のツリー数)とを含むことができる。本開示の範囲内で、追加のまたは代わりのランダム・フォレストもしくはランダム・サバイバル・フォレスト(または他の)モデルを使用することもできる。
【0038】
[0080] コンピューティング・システム110は、コンピューティング・システム110に含まれるモジュールおよび/またはMLモデル145(または全てのモデル/モジュール)の内任意の1つと通信する実装モジュール156を含み、こうすることによって、実装モジュール156は、これらのモジュールの1つ以上の機能を実装する、初期化する(initiate)、または実行するように構成される。一例では、実装モジュール156は、データ検索モジュール151が、しかるべき時点においてデータを検索し、訓練モジュール153に対して訓練データを生成することができるように、データ検索モジュール151を動作させるように構成される。実装モジュール156は、プロセス伝達を容易にし、モジュールの1つ以上の間における通信のタイミングを取りやすくすることができ、CKD進行予測モデルとして構成される機械学習モデル145を実装するおよび/または動作させるように構成することができる。
【0039】
[0081] コンピューティング・システムは、サード・パーティ・システム(1つまたは複数)120と通信することができる。サード・パーティ・システム120は、1つ以上のプロセッサ(1つまたは複数)122と、コンピュータ読み取り可能命令118の内1つ以上と、1つ以上のハードウェア記憶デバイス(1つまたは複数)124とを備える。サード・パーティ・システム(1つまたは複数)120は、更に、訓練データとして使用することができるデータ、例えば、ローカル・ストレージには含まれない医療研究室データを収容するデータベースを備えることもできる。加えて、または代わりに、サード・パーティ・システム(1つまたは複数)120は、コンピューティング・システム110の外部にある機械学習システムも含む。
【0040】
[0082]
図2は、訓練データ集合210(例えば、訓練データ集合141)に対して訓練される機械学習モデル230の一例(例えば、
図1の機械学習モデル145)を示す。訓練データ集合210は、医療研究室データ220A/220B(例えば、医療研究室データ142)と、患者情報(例えば、患者情報143)とを含み、患者情報は、CKD病期214A/214B、性別216A/216B、および年齢218A/218Bを、複数の患者(例えば、患者A212Aおよび患者B212B)について含む。機械学習モデル230は、新たな患者242について、慢性腎疾患進行予測280(例えば、CKD進行予測データ144)を生成するように構成される。医療研究室データ220Aは、少なくとも、患者AについてのeGFR222Aを含み、更に患者Aについての追加の研究室データ/測定値も含むことができる(楕円224Aで示す通り)。同様に、医療研究室データ220Bは、少なくとも、患者BについてのeGFR222Bを含み、更に患者Bについての追加の研究室データ/測定値も含むことができる(楕円224Bで示す通り)。訓練データ集合210は、任意の数の患者についてのデータを含む(訓練データ集合210と関連付けられた楕円によって
図2に示す通り)。
【0041】
[0083] 次いで、CKD進行予測を生成し、これによってCKD進行予測モデル270が得られるように機械学習モデル230を訓練するために、訓練データ集合210を機械学習モデル230に投入する。新たな患者242に関連する新たな入力データ集合240(例えば、訓練データ集合210に含まれていない患者、またはCKD進行予測が望ましい患者)を、入力として、CKD進行予測モジュール270に投入し、新たな患者242についてCKD進行予測280を生成する。入力データ集合242は、新たな患者についてのCKD病期244、性別246、年齢248、および医療研究室データ250を含む。医療研究室データ250(新たな患者242についての)は、新たな患者から得られた1つ以上のサンプルに基づく少なくとも1つのeGFR262(例えば、1回の患者と医師との予約の間、1日の間、1時間内における等の新たな患者から/について得られたサンプルおよび/または情報から得られる1つの時点または1つの時間期間におけるeGFR262)を含む。加えて、新たな患者242についての医療研究室データ250は、1つ以上の他の研究室データ/測定値も含むことができる(楕円264によって示す通り)。CKD進行予測280は、指定された時間枠内において(例えば、2年以内または5年以内において)、新たな患者がeGFRの40%低下282および/または腎不全284を発症するリスク・スコアを含む。
【0042】
[0084] 先に注記したように、CKD進行予測280と関連付けられた時間枠または特定の時間量290は、CKD進行予測モデル270がランダム・サバイバル・フォレスト・モデルとして実装される場合のように、CKD進行予測モデル270への入力として供給することができる。ある実例では、入力時間枠または特定の時間量290は、入力として供給されず、代わりに、複数のCKD進行予測モデルからCKD進行予測モデル270が選択される。各CKD進行予測モデルは、異なる時間枠または特定の時間量と関連付けられる。
【0043】
[0085] これより、以下の論述では、本開示にしたがって実行することができる複数の方法(例えば、コンピュータ実装可能またはシステム実装可能方法)および/または方法アクトについて言及する。方法アクトは、特定の順序で論じられ、特定の順序で発生するものとしてフロー・チャートにおいて示されるが、具体的に述べられない限りまたは要求されない限り、特定の順序付けは必要ない。何故なら、1つのアクトは、そのアクトが実行される前に完了する他のアクトに依存するからである。尚、本開示の特定の実施形態では、本明細書において説明するアクトの内1つ以上を省略する場合もあることは認められよう。本明細書において説明する種々のアクトは、先に説明した1つ以上のコンピューティング・システム・コンポーネント(例えば、ハードウェア・プロセッサ(1つまたは複数)112、ハードウェア記憶デバイス(1つまたは複数)140、命令、および/またはモジュール等)を利用して、実行することができる。
【0044】
[0086]
図3Aは、CKD進行を予測する機械学習モデルの生成に関連するアクトを示す流れ
図300の一例を示す。
【0045】
[0087] 流れ
図300のアクト302は、訓練データ集合にアクセスするステップを含む。この訓練データ集合は、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)複数の患者に含まれる各患者の年齢と、(iii)複数の患者に含まれる各患者の性別とを含む。医療研究室データの第1集合は、少なくとも、複数の患者に含まれる患者の組み合わせについて、推算糸球体濾過量(eGFR)、尿アルブミン/クレアチニン比(ACR)、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ(ALKP)、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、アスパラギン酸アミノトランスフェラーゼ(AST)、アラニン・アミノトランスアミナーゼ(ALT)、ビリルビン、ガンマ-グルタミル・トランスフェラーゼ(GGT)、ヘマトクリット、および血小板数を示す。
【0046】
[0088] 流れ
図300のアクト304は、訓練データ集合を未訓練モデルに適用することによって、機械学習モデルを生成するステップを含む。機械学習モデルは、新たな患者に関連する入力データ集合を機械学習モデルに適用することによって、新たな患者について、慢性腎疾患(CKD)進行予測を生成するように構成される。入力データ集合は、新たな患者の年齢と、新たな患者の性別と、医療研究室データの第2集合とを含み、第2集合は、新たな患者について、eGFR、尿ACR、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、ALKP、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、AST、ALT、ビリルビン、GGT、ヘマトクリット、および血小板数の内1つ以上を示す。
【0047】
[0089] 尚、本開示を考慮すると、機械学習モデルへの入力として利用される医療研究室データは、種々の形態を成すことができ、機械学習モデルは入力データを種々の方法で扱えることは認められよう。実例をあげると、測定値のいずれもが、連続測定値、分類(categorical)測定値、変換/修正測定値(例えば、対数変換測定値)、数学的に修正した測定値(例えば、二乗、三乗等)等を含むことができる。
【0048】
[0090] ある実例では、機械学習モデルは、入力された時間期間に対するCKD進行予測(例えば、入力時間期間内におけるeGFRの40%低下および/または腎不全のような、CKD進行が生ずる尤度)を生成するための入力データ集合に加えて、時間期間入力(例えば、日数、月数、年数等)を受け取るように構成されたランダム・サバイバル・フォレスト・モデルを含む。ある実例では、機械学習モデルは、特定の時間期間に対してCKD進行予測を生成するように構成されたランダム・フォレスト・モデルを含む。異なる時間軸毎にCKD進行予測を生成するために、複数のモデルを生成することもできる。
【0049】
[0091]
図3Bから
図3Dは、それぞれ、新たな患者についてCKD進行予測を生成することに関連するアクトを図示する流れ
図310、320、および330の例を示す。
【0050】
[0092]
図3Bの流れ
図310のアクト312は、慢性腎疾患(CKD)進行予測を生成するように構成された機械学習モデルにアクセスするステップを含む。機械学習モデルは、訓練データ集合に対して訓練され、訓練データ集合は、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)複数の患者に含まれる各患者の年齢と、(iii)複数の患者に含まれる各患者の性別とを含む。医療研究室データの第1集合は、少なくとも、複数の患者に含まれる患者の組み合わせについて、推算糸球体濾過量(eGFR)、尿アルブミン/クレアチニン比(ACR)、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、アルカリホスファターゼ(ALKP)、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、アスパラギン酸アミノトランスフェラーゼ(AST)、アラニン・アミノトランスアミナーゼ(ALT)、ビリルビン、ガンマ-グルタミル・トランスフェラーゼ(GGT)、ヘマトクリット、および血小板数を示す。
【0051】
[0093] ある実施態様では、機械学習モデルは、ランダム・サバイバル・フォレスト・モデルを含む。医療研究室データの第1集合は、欠損したデータ値の代わりに、1つ以上の代入値を含んでもよい。ある実例では、医療研究室データの第1集合は、30%以下の値代入度で、eGFR、尿ACR、尿素、カリウム、ヘモグロビン、血小板数、アルブミン、カルシウム、グルコース、ビリルビン、ナトリウム、重炭酸塩、およびGGTを示す。
【0052】
[0094] 流れ
図310のアクト314は、新たな患者に関連する入力データ集合を機械学習モデルに投入することによって、新たな患者についてCKD進行予測を生成するステップを含む。新たな患者についてのCKD進行予測は、新たな患者に関連する入力データ集合を機械学習モデルに投入した結果得られる機械学習モデルの出力に基づく。入力データ集合は、新たな患者の年齢と、新たな患者の性別と、医療研究室データの第2集合とを含み、第2集合は、新たな患者について、eGFR、尿ACR、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、ALKP、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、AST、ALT、ビリルビン、GGT、ヘマトクリット、および血小板数の内1つ以上を示す。本明細書において使用する場合、「尿ACR」(urine ACR)とは、直接尿ACR測定値、解析または推定尿ACR、および/または尿アルブミン、尿クレアチニン、尿タンパク、および/または定性的尿アルブミン(例えば、ディップスティックから)のような、尿ACRの項目を含むことができる。
【0053】
[0095] ある実例では、新たな患者にはG3以降のCKD病期が関連付けられない。ある実施態様では、CKD進行予測は、新たな患者が腎不全を発症するリスク、または新たな患者についてeGFRの約40%以上の低下が発生するリスクの予測を含む。ある実例では、腎不全のリスクは、新たな患者には、(i)長期透析を必要とする、(ii)腎移植を必要とする、または(iii)10ml/分/1.73m2よりも低い糸球体濾過量が発生するリスクがあるという指示を含む。
【0054】
[0096] CKD進行予測は、新たな患者について入力された出たデータ集合に関連する時間期間から特定の時間量(例えば、新たな患者に関連するeFGR測定からの時間量)以内においてCKD進行が生ずるリスクを示すこともできる。ある実施態様では、機械学習モデルをランダム・サバイバル・フォレスト・モデルとして実装する場合のように、CKD進行予測を生成するために、機械学習モデルへの入力として、特定の時間量を供給する。この特定の時間量は、2年、5年、または任意の時間量を含んでもよい。
【0055】
[0097] 複数の患者の内1人以上または新たな患者についての尿ACRは、尿タンパク-クレアチニン検査または尿中一般物質定性半定量検査から変換することもできる。
【0056】
[0098] 流れ
図310のアクト316は、CKD進行予測が、1つ以上の予測リスク閾値を満たす特定の時間期間内において、新たな患者がCKDを発症するリスクの予測を示すと判定するステップを含む。1つ以上の予測リスク閾値は、CKD進行予測に関連する特定の時間期間(例えば、異なる時間軸が、異なる閾値の集合を有してもよい)に基づくこともできる。一例では、2年の時間期間において、2%以上のCDK進行予測(例えば、eGFRの40%低下または腎不全という形態で、新たな患者にCKD進行が生ずる尤度が2%であることを示す)を、新たな患者についての「中程度の」リスク分類と関連付けることもでき、10%以上のCKD進行予測を、新たな患者についての「高い」リスク分類と関連付けることもできる。他の例として、5年の時間期間において、5%以上のCKD進行予測を、新たな患者についての「中程度の」リスク分類と関連付けることもでき、25%以上のCKD進行予測を、新たな患者についての「高い」リスク分類と関連付けることもできる。同じまたは異なる時間軸に対する追加のまたは代わりの閾値構造も、本開示の範囲内に該当する。
【0057】
[0099] アクト318A~318Dの内1つ以上は、アクト316の実行に基づいて実行されてよい。アクト318Aは、新たな患者が腎臓介入治療を必要とする可能性があるという通知を生成するステップを含む。アクト318Bは、CKD進行予測に基づいて、新たな患者に対する腎臓介入治療の推奨を生成するステップを含む。アクト318Cは、CKD進行予測に基づいて、新たな患者に対するCKD進行の監視頻度の推奨を生成するステップを含む。アクト318Dは、新たな患者に腎臓介入治療を施術するステップを含む。アクト316にしたがって、1つ以上の閾値を満たすCKD進行予測に応答して実行されるアクト318A、318B、318C、および/または318Dの選択は、CKD進行予測に関連する特定の時間期間(例えば、2年または5年)、満たされた特定の閾値(1つまたは複数)(例えば、患者が「中程度の」または「高い」リスクのどちらに分類されるか)、および/または新たな患者についての実験室の集合(the set of laboratory)の少なくとも一部というような、1つ以上の他の因子(factor)(例えば、新たな患者についてCKD進行予測を生成するために入力データ集合の一部として使用される)に基づいて行うこともできる。
【0058】
[0100] これより、アクト318Aから318Dに関連する種々の説明に役立つ例について論ずる。ある実例では、アクト318Aの実行は、CKDに伴って発症するおそれがある合併症の通知を、新たな患者に生成するステップを含むこともできる。これは、新たな患者についての個別化した患者研究室データ/測定値および/または他の患者データに基づくことができる。
【0059】
[0101] 例えば、新たな患者が男性でヘモグロビンが約130g/L未満であること、または女性でヘモグロビンが約120g/L未満であると判定したことに応答して、アクト318Aは、新たな患者について、貧血が潜在的な合併症であることを示す通知を生成するステップを伴うこともできる。
【0060】
[0102] 他の例として、新たな患者が約5mEq/Lよりも多いカリウムを有すると判定したことに応答して、アクト318Aは、新たな患者について、高カリウム血症が潜在的な合併症であることを示す通知を生成するステップを伴うこともできる。
【0061】
[0103] 他の例として、新たな患者が約22mEq/L未満の血清重炭酸塩を有すると判定したことに応答して、アクト318Aは、新たな患者について、代謝性アシドーシスが潜在的な合併症であることを示す通知を生成するステップを伴うこともできる。
【0062】
[0104] 他の例として、新たな患者が約1.6mg/dLよりも多いリン、および/または約2.1ミリモル/L未満または約2.7ミリモル/Lより多いカルシウムを有すると判定したことに応答して、アクト318Aは、新たな患者について、CKDに伴って起こる骨ミネラル代謝異常(CKD-MBD:CKD mineral bone disease)が潜在的な合併症であることを示す通知を生成するステップを伴うこともできる。
【0063】
[0105] ある実例では、アクト318Bにしたがって生成される推奨は、新たな患者についての個別化された患者研究室データ/測定値、および/または他の患者データに基づくこともでき、および/またはアクト318Aに関して先に注記した合併症に基づくこともできる。
【0064】
[0106] 例えば、新たな患者が約50歳よりも高い年齢を有し、約60mL/分/1.73m2よりも低いeGFRを有し、または約3mg/mmolよりも多い尿ACRを有すると判定したことに応答して、アクト318Bは、新たな患者にスタチン(および/またはその他のコレステロール治療)を処方する提案を生成するステップを伴うこともできる。
【0065】
[0107] 他の例として、新たな患者が約30mL/分/1.73m2未満のeGFRを有し、アクト316にしたがって、CKD進行の「高い」リスクにあると分類されたと判定したことに応答して、アクト318Bは、新たな患者を腎臓病(nephrology)と呼ぶ(refer to)という推奨を生成するステップを伴うこともできる。
【0066】
[0108] 他の例として、新たな患者が、アクト316にしたがって、CKD進行の「中程度の」または「高い」リスクにあると分類されたと判定されたことに応答して、アクト318Bは、新たな患者がレニン-アンジオテンシン-アルドステロン系(RAAS)阻害(例えば、新たな患者が約5mEq/Lよりも多いカリウム、または約15mL/分/1.73m2未満のeGFRを有する場合を除いて、新たな患者が約15mL/分/1.73m2よりも大きいeGFRおよび約3mg/mmolよりも多い尿ACRを有する場合、RAAS阻害を強く推奨することができる)、非ステロイド系ミネラルコルチコイド受容体拮抗薬(MRA)治療(例えば、新たな患者が約5mEq/Lよりも多いカリウムまたは約25mL/分/1.73m2よりも低いeGFRを有する場合を除いて、新たな患者が約25mL/分/1.73m2から約60mL/分/1.73m2までの範囲内のeGFRを有する場合、毎日10mgを推奨することができる。新たな患者が、約60mL/分/1.73m2よりも高いeGFRを有する場合、毎日20mgを推奨することができる)、および/またはナトリウム・グルコース共役輸送体-2(SGLT2)阻害薬(例えば、新たな患者が、約20mL/分/1.73m2よりも低いeGFRを有する場合を除く)を受けるという推奨を生成するステップを伴うこともできる。
【0067】
[0109] 他の例では、新たな患者について、貧血が潜在的な合併症であると判定したことに応答して(アクト318Aを参照して先に論じたように)、アクト318Bは、フェレイチン、血清鉄、および/または総鉄結合能(TIBC:total iron binding capacity)というような鉄研究(iron studies)を新たな患者に得るという推奨を生成するステップを伴うこともできる(例えば、アクト318Cを参照して以下で論ずるように、定期的な監視間隔で)。
【0068】
[0110] 他の例として、新たな患者について、高カリウム血症が潜在的な合併症であると判定したことに応答して(アクト318Aを参照して先に論じたように)、アクト318Bは、患者が低カリウム食(low potassium diet)を受けること(新たな患者が、約5mEq/Lから5.5mEq/Lまでの範囲内のカリウムを有する場合)、および/または臨床診察指針にしたがって、高カリウム血症監視および/または治療を受ける(receive)(例えば、新たな患者が約5.5mEq/Lよりも多いカリウムを有する場合)という推奨を生成するステップを伴うこともできる。
【0069】
[0111] 他の例として、新たな患者について、代謝性アシドーシスが潜在的な合併症であると判定したことに応答して(アクト318Aを参照して先に論じたように)、アクト318Bは、患者が、臨床診察指針にしたがって、代謝性アシドーシス監視および/または治療を受けるという推奨を生成するステップを伴うこともできる。
【0070】
[0112] 他の例として、新たな患者について、CKD-MBDが潜在的な合併症であると判定したことに応答して(アクト318Aを参照して先に論じたように)、アクト318Bは、患者が低リン食を受けるという推奨を生成するステップを伴うこともできる。
【0071】
[0113] ある実例では、アクト318Bは、約130/80mmHgの目標血圧(または、新たな患者が約60mL/分/1.73m2よりも低いeGFRまたは約3mg/mmolよりも多い尿ACRを有する場合、約120mmHgの目標収縮期血圧)というように、新たな患者に1つ以上の血圧目標を推奨するステップを含むこともできる。
【0072】
[0114] ある実例では、アクト318Cにしたがって生成される推奨は、新たな患者についての個別化された患者研究室データ/測定値および/または他の患者データに基づくこと、および/またはアクト318Aを参照して先に注記した合併症に基づくこともできる。
【0073】
[0115] 例えば、アクト316にしたがって、新たな患者にはCKD進行の「高い」リスクがあると分類され、約60mL/分/1.73m2よりも低いeGFRを有すると判定したことに応答して、アクト318Cは、新たな患者が少なくとも毎年4回(以上)CKD監視を受けるという推奨を生成するステップを伴うこともできる。
【0074】
[0116] 他の例として、アクト316にしたがって、新たな患者にはCKD進行の「高い」リスクがあると分類され、約60mL/分/1.73m2よりも高いeGFRを有すると判定したことに応答して、アクト318Cは、新たな患者が毎年3回(以上)CKD監視を受けるという推奨を生成するステップを伴うこともできる。
【0075】
[0117] 他の例として、アクト316にしたがって、新たな患者にはCKD進行の「中程度」リスクがあると分類され、約45mL/分/1.73m2よりも低いeGFRを有すると判定したことに応答して、アクト318Cは、新たな患者が毎年3回(以上)CKD監視を受けるという推奨を生成するステップを伴うこともできる。
【0076】
[0118] 他の例として、アクト316にしたがって、新たな患者にはCKD進行の「中程度」リスクがあると分類され、約45mL/分/1.73m2よりも高いeGFRを有すると判定したことに応答して、アクト318Cは、新たな患者が毎年2回(以上)CKD監視を受けるという推奨を生成するステップを伴うこともできる。
【0077】
[0119] 他の例として、アクト316にしたがって、新たな患者にはCKD進行の「低い」リスクがあると分類された(例えば、新たな患者は「中程度の」リスクとも「高い」リスクとも分類されなかった)と判定したことに応答して、アクト318Cは、新たな患者が毎年1回(以上)CKD監視を受けるという推奨を生成するステップを伴うこともできる。
【0078】
[0120] アクト318Dは、アクト318Bおよび/または318Cを参照して先に論じた推奨(例えば、RAAS阻害、血圧管理、SGLT2阻害薬、MRA治療)、および/またはその他(例えば、腎臓内科の診察、家庭透析、および/または腎移植)の内1つ以上を実行するステップを含むことができる。
【0079】
[0121]
図4は、アクト314、316、318A、318B、および/または318Cを参照して先に論じた種々のコンポーネントを含む報告例を示し、この報告例には、CKD進行予測402(5年の時間軸に対して22%のCKD進行リスクを示し、これは5%超過および25%未満の閾値を満たすことに基づいて、「中程度の」と特徴付けられる)、CKDの潜在的な合併症404、推奨される治療406および追加の推奨408、腎臓内科への紹介(referral)の推奨410、血圧目標推奨412、および監視頻度推奨414等がある。
【0080】
[0122]
図4に示す報告と同様の(少なくともいくつかの観点において)報告も、医師によって行われる要求に応答して、または実施された初期診療にしたがって(例えば、特定の判断基準を満たす患者に対する日常的な処置として)、生成することもできる。尚、本開示を考慮すれば、本開示による報告が、追加のまたは代わりのコンポーネントを含んでもよく、種々の形態/フォーマットを採用できる(take on)ことは認められよう。
【0081】
[0123]
図3Cに注意を向けると、
図3Cは、流れ
図320のアクト322が、慢性腎疾患(CKD)進行予測を生成するように構成された機械学習モデルにアクセスするステップを含むことを示す。この機械学習モデルは、訓練データ集合に対して訓練され、訓練データ集合は、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)複数の患者の中に含まれる各患者の年齢と、(iii)複数の患者の中に含まれる各患者の性別とを含む。医療実験室データの第1集合は、複数の患者に含まれる患者の少なくとも1つの組み合わせについて、尿アルブミン/クレアチニン比(ACR)、推算糸球体濾過量(eGFR)、尿素、ヘモグロビン、アルブミン、ヘマトクリット、グルコース、リン酸塩、重炭酸塩、ガンマ-グルタミル・トランスフェラーゼ(GGT)、血小板数、マグネシウム、および塩化物を示す。
【0082】
[0124] 流れ
図320のアクト324は、新たな患者に関連する入力データ集合を機械学習モデルに投入することによって、新たな患者についてCKD進行予測を生成するステップを含む。新たな患者についてのCKD進行予測は、新たな患者に関連する入力データ集合を機械学習モデルに投入した結果得られる機械学習モデルの出力に基づく。入力データ集合は、新たな患者の年齢と、新たな患者の性別と、医療研究室データの第2集合とを含み、第2集合は、新たな患者について、尿化学検査、包括的代謝パネル、全血球計算、肝臓パネル、または尿酸検査の内1つ以上の項目を含む。
【0083】
[0125] ある実施態様では、医療研究室データの第2集合は、新たな患者について、尿化学検査、包括的代謝パネル、全血球計算の内1つ以上の項目を含む。
図3Cには示されていないが、流れ
図320は、更に、アクト324にしたがって生成されるCKD進行予測に基づく実行のために、アクト316、318A、318B、318C、および/または318Dと同様のアクトを含むこともできる。
【0084】
[0126]
図3Dの流れ
図330のアクト332は、慢性腎疾患(CKD)進行予測を生成するように構成された機械学習モデルにアクセスするステップを含む。機械学習モデルは、訓練データ集合に対して訓練され、訓練データ集合は、(i)複数の患者に関連する医療研究室データの第1集合と、(ii)複数の患者に含まれる各患者の年齢と、(iii)複数の患者に含まれる各患者の性別とを含む。医療研究室データの第1集合は、少なくとも、複数の患者に含まれる患者の組み合わせについて、尿アルブミン/クレアチニン比(ACR)、推算糸球体濾過量(eGFR)、尿素、ヘモグロビンを示す。
【0085】
[0127] 流れ
図330のアクト334は、新たな患者に関連する入力データ集合を機械学習モデルに投入することによって、新たな患者についてCKD進行予測を生成するステップを含む。新たな患者についてのCKD進行予測は、新たな患者に関連する入力データ集合を機械学習モデルに投入した結果得られる機械学習モデルの出力に基づく。入力データ集合は、新たな患者の年齢と、新たな患者の性別と、医療研究室データの第2集合とを含み、第2集合は、新たな患者について、尿化学検査、包括的代謝パネル、全血球計算、肝臓パネル、または尿酸検査の内1つ以上の項目を含む。
【0086】
[0128] ある実施態様では、医療研究室データの第2集合は、新たな患者についての尿化学検査の1つ以上の項目を含む。ある実例では、医療研究室データの第2集合は、新たな患者についての尿化学検査および包括的代謝パネルの内1つ以上の項目を含む。
図3Dには示されていないが、流れ
図330は、更に、アクト334にしたがって生成されるCKD進行予測に基づく実行のために、アクト316、318A、318B、318C、および/または318Dと同様のアクトを含むこともできる。
【0087】
[0129] 先に注記したように、本開示にしたがって患者についてCKD進行予測の生成を容易にするために、種々の型式の機械学習モデルを実装することができる。以下の論述は、CKD進行予測を生成するための種々のランダム・フォレスト・モデルおよびランダム・サバイバル・フォレスト・モデルの実装例に言及する。
ランダム・フォレスト・モデルの例(1つまたは複数)
[0130]
図5は、機械学習モデルの訓練データ集合を生成する元となった、患者のコホートの選択例を模式的に示す。マニトバ健康政策センタ(MCHP:Manitoba Centre for Health Policy)からのデータを使用して、カナダのマニトバ(当時の人口は140万人)における管理データから研究構築コホート(study development cohort)を導き出した。MCHPは、マニトバ大学における地域保健学学科(Department of Community Health Sciences)内にある研究ユニットであり、この県における全ての個人に及ぶ保健活動およびその他の社会的健康決定要因についてのデータの人口に基づくレポジトリを維持する。訓練データ集合は、2006年4月1日と2016年12月31日との間において入手可能な外来患者eGFR検査、および少なくとも1年のプレインデックスのために有効なマニトバ健康登録によって、当該県にいる全ての成人した(18歳以上)個人を含んだ。例えば、CKD-EPI式を使用して、入手可能な血清クレアチニン検査からeGFRを計算した。更に、患者には、年齢および性別に関する人口統計情報を含めるように要求し、更に尿アルブミン/クレアチニン比(ACR)またはタンパク/クレアチニン比(PCR)検査の結果を要求した。腎不全の履歴がある患者(透析または移植)を除外した。個人健康情報番号をスクランブリングして使用し、データを特定できないようにした(de-identified)。
【0088】
[0131] この研究例では、本システムは、2006年4月1日と2016年12月31日との間において、6,717,522回の血清クレアチニン検査を特定し、その内3,574,628回を外来診療の場で行った。これから、本システムは少なくとも1つの計算可能なeGFR測定値および有効な健康登録を有する、634,133人の一意の個人を特定することができた。尿ACR検査(または変換PCR検査)が有効であるという要件に絞った後、本システムは、訓練および検査データ集合双方に対して(
図5)77,196人の総コホート・サイズに到達した。2年目における転帰を評価するために、訓練データ集合は、61,353人の個人(訓練に42,947人、そして検査に18,406人)における完全な追跡(follow up)を含み、更に5年目における転帰を評価するために、35,736人の個人(訓練に54,037人、そして検査に23,159人)を含んだ。
【0089】
[0132] 一実施形態例では、ベースライン・コホートの平均年齢は59.3歳(±17.0)であり、患者は、82.2(±27.2)ml/分/1.73m2の平均eGFRを有した。変換PCRを含めた後のACR中央値は、1.1mg/mmolであった(四分位範囲0.5から4.7mg/mmol)。患者の47.7%は男性であり、45.2%は糖尿病を患い、69.9%は高血圧を患っていた。5.2%、3.6%、および2.6%は、それぞれ、鬱血性心不全、脳卒中、または心筋梗塞の病歴を有した。訓練および検査グループに分割したとき、特性は同様であった。
【0090】
[0133]
図6Aは、
図5を参照して先に論じたコホートの記述を含む表を示し、各患者についての医療研究室データに含まれる種々の検査結果を含む。種々の検査結果は、訓練データ集合(例えば、訓練データ集合141)に含まれる独立および従属変数として分類された。
【0091】
[0134] 訓練データ集合は、先に説明したように、年齢、性別、eGFR、および尿ACRを含んだ。研究期間中に最初に記録されたeGFRから開始し、6か月の枠において最後に入手可能な検査に移動し、この期間中における検査の平均を計算して、ベースラインeGFRを、全ての入手可能なeGFR結果の平均として、計算した。患者の指標日(index date)を、この6か月期間における最後のeGFRの日付けと見なした。年齢を指標eGFRの日付けにおいて決定し、誕生日およびその他の人口統計データを記録する(contain)マニトバ健康保険登録簿への連携を使用して、性別を判定した。尿ACR検査が利用できなかった場合、公開および検証された公式を使用して、利用可能な尿タンパク/クレアチニン(PCR)検査を、対応する尿ACRに変換した。指標日から1年以内で最も近い結果を選択した(前または後)。変数歪み分布(variables skewed distribution)のために、尿ACRを対数変換した。
【0092】
[0135] 既に説明した変数に加えて、モデル作成において低い欠損度(<15%または<30%)を有する他の関連研究室変数(relevant laboratory variable)を含ませた。これらには、血清ナトリウム、血清塩化物、血清ヘモグロビン、尿素、血清カリウム、グルコース、AST、ALT、ビリルビン、GGT、ヘマトクリット、および/または血小板数が含まれた。指標日から1年以内において最も近い値を選択する(前または後)。これらの変数を用いて構築したモデルを「10変数モデル」(年齢、性別、および前述の研究室データ(labs))と呼ぶ。
【0093】
[0136] コックス比例ハザード・モデルにおいて適用するとき、SA PROC MIを使用する複数の代入(n=5)を適用した。SAS PROC HPFORESTを使用して枝分かれを判断するときに、「欠損値」(missing value)を有することが、 変数の分割値として扱われるという所見により、ランダム・フォレスト・モデルは、変数が欠損することを許容する。いかなる欠損度でも許容する6つの追加の変数、即ち、血清アルブミン、アルカリフォスターゼ、血清リン酸塩、血清重炭酸塩、血清マグネシウム、および血清カルシウムを含む、追加のランダム・フォレスト・モデルを評価する。このモデルを16変数モデルと呼ぶ。訓練データ集合に含まれる研究室データは、マニトバ(DSM)研究室情報システムの共有健康診断サービス(Shared Health Diagnostic Services)から抽出可能である。
【0094】
[0137] 開示する実施形態の少なくとも一部に対する成果は、患者についてのeGFRの40%低下または腎不全に対する予測および/またはリスク・スコアである。訓練データ集合内部において、eGFRの40%低下を、ベースラインeGFRからの40%以上の低下であった最初のeGFR検査として判定し、1か月の期間において患者が死亡しなければ、または腎不全を発症しなければ、少なくともこの1か月後に、2回目の確認検査を行った。40%低下が発生した日付けを、これらの認定試験の内最初のものと見なす。腎不全は、3つの条件、長期透析の開始、移植の受け入れ、またはeGFR<10ml/分/1.73m
2に基づいて判定した。透析は、長期透析についてのマニトバ医療サービス・データベースにおける任意の2表示(claim)として定められ、移植は、移植用マニトバ医療サービス・データベースにおける任意の1表示として定められ、また退院情報データベース(DAD:Discharge Abstract Database)における入院は、腎移植に対応する手順コードによって定められた(カナダ健康介入分類(CCI:Canadian Classification of Health Interventions)コードを使用すると、1PC85または1OK85)。透析および移植を識別するタリフ・コード(tariff code)の概要を
図7に示す。
【0095】
[0138]
図6Bは、ベースライン・コホートにおける異なる変数の欠損度の概要を示す表である。コックス比例ハザード・モデルにおいて適用したとき、本システムは、SAS PROC MIを使用して、欠損度が30%未満の変数に対して複数の代入(imputation)を適用した。ランダム・フォレスト・モデルにおいて適用したとき、本システムは、欠損データ・アルゴリズムを使用して、欠損データに対して代入を適用した。研究室データに含まれた全ては、マニトバ共有健康診断サービス(DSM:Shared Health Diagnostic Services of Manitoba)の研究室情報システムから抽出され、退院情報データベース(DAD)への連携によって判定された入院事象中に記録された値はいずれも含まれなかった。
【0096】
[0139] eGFRの40%低下または腎不全に対する転帰日(outcome date)は、これらの発症(event)の内最初のものに基づいて決定した。
図8は、機械学習モデルの訓練データ集合に含まれる各変数に対する変数重要度の概要を示す表である。具体的には、この表は、ランダム・フォレスト・モデルの一例については、精度高いCKD進行予測を生成するときに最も高い影響(impact)を及ぼした変数には、尿ACR、eGFR、尿素、およびヘモグロビンが含まれることを示す。年齢および性別も有意な変数である。
【0097】
[0140]
図9は、訓練データ集合910に含まれる各患者についての患者情報(例えば、性別916A、916B、年齢918A、918B)と、医療研究室データとを含む訓練データ集合910の一例を概念的に示す。図示のように、患者A912Aに関連する医療研究室データ920Aは、eGFR922A、尿ACR924A、血清ナトリウム926A、血清塩化物928A、血清ヘモグロビン932A、尿素934A、血清カリウム936A、およびグルコース938Aの測定値を含む。同様に、図示のように、患者B912Bに関連する医療研究室データ920Bは、eGFR922B、尿ACR924B、血清ナトリウム926B、血清塩化物928B、血清ヘモグロビン932B、尿素934B、血清カリウム936B、およびグルコース938Bの測定値を含む。楕円は、任意の数の患者を訓練データ集合910に含んでもよいことを示す。先に注記したように、訓練データ集合910において表される1人以上の患者について、何らかの測定値が欠損しているおそれがある。
【0098】
[0141] サバイバル・フォレストを右打ち切り生存と共に使用する、生存、回帰、および分類用のRパッケージ高速統一ランダム・フォレスト(R package Fast Unified Random Forest)(RF-SRC)を使用して、ランダム・フォレスト・モデルを当てはめることができる。これを遂行するために、データを訓練(70%)および検査(30%)データ集合に分割する。受信者動作特性(ROC:receiver operating characteristic)曲線の下にある時間依存エリア、ブライア・スコア、および観測対予測リスクの較正プロットを使用して、モデルを精度について評価した。加えて、この特定例では、本システムは、推定されたリスクによって(高いリスク)、および推定されたリスクの内低い方の50%、45%、および30%(低いリスク)において、患者の上位10%、15%、および20%について、感度、特異性、負予測値(NPC:negative predictive value)、および正予測値(PPV)を評価した。
【0099】
[0142] 一般化可能性を評価するために、本システムは、検査コホートの部分母集団においてこのモデルを評価した。この部分母集団は、(1)糖尿病の患者、(2)糖尿病でない患者、(3)eGFR<60ml/分/1.73m
2または尿ACR>3mg/mmol(変換尿PCR検査を含む)によって定められたCKDの患者、および(4)eGFRが30~60ml/分/1.73m
2またはeGFR>60ml/分/1.73m
2および尿ACR>3mg/mmol(変換尿PCR検査を含む)の患者によって定められる、CKD病期G1~G3の患者を含む。
図27A~
図27Bを参照のこと。最終的に成長した22変数フォレストを使用して、含まれるパラメータの変数重要度を評価した。
【0100】
[0143] また、訓練データ集合において、コックス比例ハザード・モデルを展開した(develop)。(1)多くても30%の欠損しか有さない変数を含むモデル(11変数モデル)、および(2)腎不全リスク予想式(KFRE)と比較するための、年齢、性別、eGFR、および尿ACRという変数を含むモデル。ハレルのC統計量を使用してモデル判別を評価し、ブライア・スコアを使用して精度を評価し、検査データ集合における観測対予測リスク確率のプロットを使用して較正を評価した。SASバージョン9.3(Cary,NC)およびRバージョン4.1.0を使用して、分析を行った。アルファ=0.05を使用して、統計的有意性を先験的に識別した。
【0101】
[0144] また、SAS PROC HPFORESTを使用して、ランダム・フォレスト・モデルを当てはめ、種々の人口統計および研究室変数を使用するSAS PROC HP4SCOREを使用して、内部的に検証した。ある統計分析結果では、アウトオブバッグ(OOB:out of bag)誤分類率を、モデルにおいて選択されたリーブ数と突き合わせて調査した。2年目および5年目における転帰の予測に対する精度の尺度を、ランダム・フォレスト・モデルに対して評価した。尺度には、受信者動作特性(ROC)曲線の下のエリア、ブライア・スコア、および予測された確率のリスク十分位(risk decile)による観測および予測リスクの較正プロットが含まれる。
【0102】
[0145] 加えて、感度、特異性、負予測値(NPV)、および正予測値(PPV)を含む他のパラメータを、2年モデルにおける1%および10%のカットオフならびに5年モデルにおける5%および25%のカットオフにおいて評価した。これらのカットオフが選択されたのは、これらが臨床的に有意であり、予測されたリスク・スコアによって分類された、個人の下位60%および上位10%にほぼ対応するからである。二乗誤差損失を評価するために、SAS PROC HP4SCOREにおいてランダム分岐割り当て(RBA:random branch assignments)方法を使用して、変数重要度の測定値を計算した。
【0103】
[0146] 例えば、
図10は、2年の時間期間内における低下を予測するために、例えば、
図9に示す訓練データ集合を使用して、ランダム・フォレスト・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである。
図11は、例えば、5年の時間期間に対して、
図9に示すような訓練データ集合を使用して、ランダム・フォレスト・モデルとして構成された機械学習モデルに対する較正プロット例を示すグラフである。実装した例について、
図10~
図11に示すグラフから明白なように、5年予測(
図11)は、2年予測(
図10)よりも、観測された転帰と密接に相関したが、双方の予測モデルは、患者管理(care)および/または治療/予防判断を導くことができる有用な予測メトリックスを提供した。
【0104】
[0147] また、この研究は、40%低下または腎不全の転帰を発現する(develop)リスクを予測するために、前述の変数を有する訓練データ集合において、種々の展開されたコックス比例ハザード・モデルを分析し、更に検査集合において、続いてこれらを内部的に検証した。2年目および5年目において、ハレルのC統計量を使用して、モデル判別を評価し、ブライア・スコアを使用して精度を評価し、観測対予測リスク確率のプロットを使用して、予測されたリスクの十分位によって、較正を評価した。SASバージョン9.4(Cary,NC)を使用して、全ての分析を行った。アルファ=0.05を使用して、統計的有意性を先験的に識別した。
【0105】
[0148] 例えば、
図12は、2年の時間期間に対して、例えば、
図9に示すような訓練データ集合を使用して、コックス・モデルとして構成された機械学習モデルに対する較正プロットの一例を示すグラフである。
図13は、5年の時間期間に対して、例えば、
図9に示す訓練データ集合を使用して、コックス・モデルとして構成された機械学習モデルに対する較正プロットの一例を示すグラフである。実装した例について、
図12~
図13に示すグラフから明白なように、2年予測(
図12)は、5年予測(
図13)よりも、観測された転帰と密接に相関したが、双方の予測モデルは、患者管理(care)および/または治療/予防判断を導くことができる有用な予測メトリックスを提供した。更に、10変数コックス・モデルは、10変数ランダム・フォレスト・モデル(
図10)と比較すると、2年目において観測された転帰(
図12)に対して、より高い相関が得られた。
【0106】
[0149]
図14は、CKD進行を予測する9変数モデルを形成するために使用可能な、訓練データ集合1410に含まれる各患者についての、患者情報(例えば、性別1416A、1416B、年齢1418A、1418B)と、医療研究室データとを含む訓練データ集合1410の一例を概念的に示す。訓練データ集合1410は、
図9の訓練データ集合910と同様であるが、尿ACR測定値を削除している。図示のように、患者A1412Aに関連する医療研究室データ1420Aは、eGFR1422A、血清ナトリウム1426A、血清塩化物1428A、血清ヘモグロビン1432A、尿素1434A、血清カリウム1436A、およびグルコース1438Aの測定値を含む。同様に、図示のように、患者B1412Bに関連する医療研究室データ1420Bは、eGFR1422B、血清ナトリウム1426B、血清塩化物1428B、血清ヘモグロビン1432B、尿素1434B、血清カリウム1436B、およびグルコース1438Bの測定値を含む。任意の数の患者を訓練データ集合1410に含むこともできる。先に注記したように、訓練データ集合1410において表される1人以上の患者について、何らかの測定値が欠損しているおそれがある。
【0107】
[0150]
図15は、2年の時間期間に対して、例えば、
図14に示すような訓練データ集合を使用して、コックス・モデルとして構成された機械学習モデルに対する較正プロットの一例を示すグラフである。
図16は、5年の時間期間に対して、例えば、
図14に示すような訓練データ集合を使用して、コックス・モデルとして構成された機械学習モデルに対する較正プロットの一例を示すグラフである。この実装した例について、
図15~
図16に示すグラフから明白なように、2年予測(
図15)は、5年予測(
図16)よりも、観測された転帰と密接に相関したが、双方の予測モデルは、患者管理および/または治療/予防判断を導くことができる有用な予測メトリックスを提供した。尚、9変数モデル(
図15および
図16)を使用する2年予測および5年予測は、10変数モデル(
図12および
図13)を使用する2年予測および5年予測と同様の相関結果を生成し、ACRを省略してもなお、いずれの時間枠に対しても密接に相関する予測パワーを提供できることは、注記してしかるべきである。
【0108】
[0151]
図17は、16から22変数の医療研究室データ集合を含む訓練データ集合1710の一例を示す。これは、慢性腎疾患進行予測を生成するように構成された機械学習モデルを訓練するために使用することができる。訓練データ集合1710は、
図9における訓練データ集合910の一例であり(患者A1712Aおよび患者B1712Bについて、それぞれ、性別1716Aおよび1716Bならびに年齢1718Aおよび1718Bを含む)、訓練データ集合1710に含まれる少なくとも一部の患者について、追加の測定値が医療研究室データに含まれている。
【0109】
[0152] 図示のように、患者A1712Aに関連する医療研究室データ1720Aは、eGFR1722A、尿ACR1724A、血清ナトリウム1726A、血清塩化物1728A、血清ヘモグロビン1732A、尿素1734A、血清カリウム1736A、グルコース1738A、血清アルブミン1721A、アルカリフォスターゼ1723A、血清リン酸塩1725A、血清重炭酸塩1727A、血清マグネシウム1729A、および血清カルシウム1731Aの測定値を含む。
【0110】
[0153] 同様に、図示のように、患者B1712Bに関連する医療研究室データ1720Bは、eGFR1722B、尿ACR1724B、血清ナトリウム1726B、血清塩化物1728B、血清ヘモグロビン1732B、尿素1734B、血清カリウム1736B、グルコース1738B、血清アルブミン1721B、アルカリフォスターゼ1723B、血清リン酸塩1725B、血清重炭酸塩1727B、血清マグネシウム1729B、および血清カルシウム1731Bの測定値を含む。ある実施態様では、患者Aの医療研究室データ1720Aおよび患者Bの医療研究室データ1720Bは、更に、AST、ALT、ビリルビン、GGT、ヘマトクリット、および/または血小板数1740Aおよび1740Bをそれぞれ含む。訓練データ集合1710には、任意の数の患者を含めることができる。先に注記したように、訓練データ集合1710において表される1人以上の患者について、何らかの測定値が欠損しているおそれがある。
【0111】
[0154] ある実施形態では、訓練データ集合1710を使用して訓練される機械学習モデルは、22変数モデルとして構成される。つまり、新たな患者の入力データ集合は、22個もの多さの異なる研究室データ点/測定値(または更に多くも可能である)を含むこともできる。
【0112】
[0155]
図18は、2年の時間期間に対して、例えば、
図17に示すような訓練データ集合の16変数を使用する、機械学習モデルに対する較正プロットの一例を示すグラフである。
図19は、5年の時間期間に対して、例えば、
図17に示すような訓練データ集合の16変数を使用する、機械学習モデルに対する較正プロットの一例を示すグラフである。この実装した例について、
図18および
図19に示すグラフから明白なように、5年予測(
図19)は、2年予測(
図18)よりも、観測された転帰と密接に相関したが、双方の予測モデルは、患者管理および/または治療/予防判断を導くことができる有用な予測メトリックスを提供した。更に、2年予測については、16変数モデル(
図18)は、10変数モデル(
図10)と比較すると、相関の改良を示したことは、注記してしかるべきである。しかしながら、5年予測については、16変数モデル(
図19)および10変数モデル(11)の双方は、40%予測閾値に対して実質的に同様の性能を示した。16変数モデル(
図19)は、10変数モデル(
図11)よりも低いパーセンテージ閾値によって、一層安定した相関を発揮した(provide)。
【0113】
[0156]
図20は、5年目におけるeGFRの40%低下または腎不全の予測のための22変数ランダム・フォレスト・モデルに対する較正プロットを示すグラフである。
【0114】
[0157]
図21は、15から21変数の医療研究室データを含む訓練データ集合2110の一例を示す。これは、慢性腎疾患進行予測を生成するように構成された機械学習モデルを訓練するために使用することができる。訓練データ集合2110は、
図17の訓練データ集合1710の一例であり(患者A2112Aおよび患者B2112Bについて、それぞれ、性別2116Aおよび2116B、ならびに年齢2118Aおよび2118Bを含む)が、例外として、訓練データ集合2110に含まれる各患者について尿素ACRの測定値を除外する。
【0115】
[0158] 図示のように、患者A2112Aに関連する医療研究室データ2120Aは、eGFR2122A、血清ナトリウム2126A、血清塩化物2128A、血清ヘモグロビン2132A、尿素2134A、血清カリウム2136A、グルコース2138A、血清アルブミン2121A、アルカリフォスターゼ2123A、血清リン酸塩2125A、血清重炭酸塩2127A、血清マグネシウム2129A、および血清カルシウム2131Aの測定値を含む。
【0116】
[0159] 同様に、図示のように、患者B2112Bに関連する医療研究室データ2120Bは、eGFR2122B、血清ナトリウム2126B、血清塩化物2128B、血清ヘモグロビン2132B、尿素2134B、血清カリウム2136B、グルコース2138B、血清アルブミン2121B、アルカリフォスターゼ2123B、血清リン酸塩2125B、血清重炭酸塩2127B、血清マグネシウム2129B、および血清カルシウム2131Bの測定値を含む。ある実施態様では、患者Aの医療研究室データ2120Aおよび患者Bの医療研究室データ2120Bは、更に、AST、ALT、ビリルビン、GGT、ヘマトクリット、および/または血小板数2140を含む。訓練データ集合2110には、任意の数の患者を含めることができる。先に注記したように、訓練データ集合2110において表される1人以上の患者について、何らかの測定値が欠損しているおそれがある。
【0117】
[0160]
図22は、2年の時間期間に対して、例えば、
図21に示すような訓練データ集合(15変数)を使用する、機械学習モデルに対する較正プロットの一例を示すグラフである。
図23は、5年の時間期間に対して、例えば、
図21に示すような訓練データ集合(15変数)を使用する、機械学習モデルに対する較正プロットの一例を示すグラフである。この実装した例について、
図22および
図23に図示するグラフに示すように、5年予測(
図23)は、2年予測(
図22)よりも、観測された転帰と密接に相関したが、双方の予測モデルは、患者管理および/または治療/予防判断を導くことができる有用な予測メトリックスを提供した。更に、5年予測については、15変数モデル(
図23)は、16変数モデル(
図19)と同様の性能を示し、ACRの削除は、モデルによって提供される予測に重大な影響を及ぼさないことを示唆した。
【0118】
[0161]
図24は、本明細書において開示されコックス・モデルとして構成された、4から11個の変数を有する機械学習モデルの種々の例について、性能評価統計の概要の一例を示す表である。
図24に示すように、5年目における予測性能(predicted performance)に対して種々のモデルを評価した。考慮した変数には、年齢、eGFR、対数変換ACR、ヘマトクリット、カリウム、塩化物、グルコース、ナトリウム、尿素、男性、および血小板数が含まれる。
【0119】
[0162] 他の検査(図示せず)において、本システムは、以下のランダム・フォレスト・モデルの出力に比較するために、2年目および5年目において完全に入手可能な追跡を有したコホートにおいて、コックス比例ハザード・モデルを評価した。この検査コホートにおいて、2年目における転帰の予測では、コックス比例ハザード・モデルは、ベースライン・モデルにおいて0.8492(SE0.007)のC統計量を有し、5年目では0.8151(0.006)に減少した。
【0120】
[0163] 尿ACRを削除したモデル(例えば、9および15変数モデル)では、本システムは、C統計量が、2年目において0,8266(0.008)、そして5年目において0.7942(0.006)であることを認めた。コホートに2年の追跡を適用したモデルでは、ブライア・スコアは、eGFR低下または腎不全という転帰の予測に対して0.0298(0.001)であり、5年の追跡を適用したコホートでは、ブライア・スコアは、検査コホートにおいて0.0832(0.002)であった。尿ACRを削除したモデルでは、ブライアン・スコアは、2年目における転帰の予測に対して0.0305(0.001)であり、5年目における転帰の予測に対して0.0855(0.002)であった。
【0121】
[0164]
図25は、4変数モデルおよび11変数モデルを含む、コックス比例ハザード・モデルに対する較正プロットを示すグラフである。双方のモデルは、高い性能を発揮し、精度高くリスクを予測した。eGFRの40%低下または腎不全の転帰に対する最大追跡時間を5年として、死亡および追跡不能に対しては打ち切って、異なるコックス比例ハザード・モデルを評価した。これらに含まれたのは、(1)30%以下の欠損を有した全ての変数、即ち、年齢、eGFR、男性、尿ACR、血小板数、カリウム、ヘマトクリット、血清塩化物、グルコース、血清ナトリウム、および尿素を含む11変数モデル、ならびに(2)年齢、eGFR、男性、および尿ACRを含む4変数モデルである。11変数コックス・モデルでは、ハレルのC統計量は0.849(0.837から0.861の95%信頼区間)と、ブライアン・スコアは4.4(2.4から6.3)であり、全てのリスク・レベルにおいて正しく較正された。同様に、4変数コックス・モデルでは、ハレルのC統計量は0.829(0.816から0.842)と、ブライアン・スコアは4.5(2.5~6.5)であり、
図25に示すように同様の較正が得られた。
【0122】
[0165]
図26Aは、ランダム・フォレスト・モデルとして構成された機械学習モデルの種々の例に対する性能評価統計の概要の一例を示す表である。10変数を有するランダム・フォレスト・モデルでは、本システムは、ROC下のエリアが、2年目において0.8406(SE0.0080)、そして5年目において0.7966(0.0069)であるという優れた判別を認めた。精度に関しては、本システムは、ブライアン・スコアが、2年目において0.029(SE0.001)、そして5年目において0.077(0.002)であることを認めた。2年目および5年目におけるベースライン・モデルでは、本システムは優れた較正を観測した。16変数ランダム・フォレストでは、C統計量は、2年目における転帰の予測に対して0.8697(0.007)、5年目における転帰の予測に対して0.8190(0.006)であった。このモデルからACRを除外したとき、2年目におけるC統計量は0.8597(0.007)であり、5年目におけるC統計量は0.8014(0.007)であった。対応する図において、16変数および15変数(ACRを除外する)モデルに対する追加のモデル・メトリックおよび較正プロットを示す。
【0123】
[0166]
図26Bは、ランダム・フォレスト・モデルにおけるモデル性能の概要を示す他の表である(先に説明した機械学習モデルの22変数バージョン)。1.2%と2.6%との間である場合、低いリスクと判定した。9%と17%との間である場合、高いリスクと判定した。23,159人の患者から成る検査コホートにおいて、性能を評価した。22変数を有するランダム・フォレスト・モデルにおいても、本システムは、優れた判別を認め、受信者動作特性(AUROC)曲線下の時間依存エリアが、最大5年の追跡に対して86.9(95%CIは85.8から88.1)であり、ブライアン・スコアは4.2(2.5から6.0)であった。観測された結果には、優れた較正が含まれていた。同様の性能は、全てのサブグループにおいても、次のように、糖尿病(AUROC:86.3、ブライア:5.2)、糖尿病なし(AUROC:87.1、ブライア:3.1)、CKD(AUROC:83.5、ブライア:7.7)、CKD病期G1~G3(AUROC:79.8、ブライア:6.7)が 観測された。
【0124】
[0167] 感度、特異性、および正予測値に対する統計を、リスクが高い患者(それぞれ、上位10、15、および20%のリスク・スコア)において評価した。この評価検査において、危険スコアの上位10%では、感度は47%(17%の5年リスク閾値)、特異性は93%、正予測値は36%であった。上位15%(12%の5年リスク閾値)では、感度は59%、特異性は89%、正予測値は30%であった。上位20%(9%の5年リスク閾値)では、モデルは、67%の感度、84%の特異性、26%の正予測値を有した。
【0125】
[0168] 同様に、本システムは、リスクが低い患者(それぞれ、患者の内下位50、45、および30%)においても、感度、特異性、および負予測値を評価した。低い方から50%の患者(2,6%の5年リスク閾値)では、このモデルは、91%の感度、53%の特異性、および99%の負予測値を有した。低い方から45%の患者(2.1%の5年リスク閾値)では、このモデルは、93%の感度、48%の特異性、および99%の負予測値を有した。最後に、低い方から30%の患者(1.2%の5年リスク閾値)では、このモデルは、96%の感度、32%の特異性、および99%の負予測値を有した。
【0126】
[0169]
図27A~
図27Dは、種々のサブグループにおいてランダム・フォレスト・モデルとして構成された22変数モデルに対する種々の較正プロットを示す。例えば、
図27Aは、糖尿病患者のサブグループに対する較正プロットを示す。
図27Bは、糖尿病でない患者のサブグループに対する較正プロットを示す。
図27Cは、eGFR<60ml/分/1.73m
2、または変換尿PCRを含む、尿ACR>3mg/mmolの患者に対する較正プロットを示す。
図27Dは、CKD病期G1~G3の患者(例えば、eGFRが30~60ml/分/1.73m^2の間、またはeGFR>60ml/分/1.73m^2、および変換尿PCRを含む尿ACR>3mg/mmol)のサブグループに対する較正プロットを示す。
ランダム・サバイバル・フォレスト・モデルの例(1つまたは複数)
[0170] CKD進行予測を生成するランダム・サバイバル・フォレスト・モデルの一例を構築する(develop)ために、マニトバ健康政策センタからのデータを使用して、カナダ、マニトバ(人口140万人)における管理データから、構築コホートを導き出した。この県にいる全ての成人(年齢18歳以上)個人の内、2006年4月1日および2016年12月31日の間に利用可能な外来eGFR検査を受け、少なくとも1年のプレインデックス(pre-index)の間に有効なマニトバ健康登録を有する者を特定した。CKD-病疫学協働研究方程式を使用して、利用可能な血清クレアチニン検査からeGFRを計算した。含まれた患者には、更に、少なくとも1つの尿ACRまたはタンパク/クレアチニン比(PCR)検査の結果を含む、年齢および性別についての完全な人口統計情報を有することも要求した。腎不全の病歴(透析または移植)がある患者は、除外した。
図5を参照して先に論じたコホートを、ランダム・サバイバル・フォレスト・モデルを構築するために、使用した。
【0127】
[0171] Alberta Heath(アルベルタ県医療)データベースから、検証コホートを導き出した。このデータベースは、カナダのアルベルタ県(人口440万人)における全ての患者についての、人口統計データ、研究室データ、入院、および医師の請求(physician claim)についての情報を収容する。クレアチニン測定値およびACR/PCR値の正規研究室填補範囲は、2005に完了した。しかしながら、追加の研究室値は、2009年以降にようやく完全に填補されたに過ぎない。したがって、2009年4月1日から開始して2016年12月31日までに、少なくとも1つの計算可能なeGFR、有効な健康登録、およびACR(または代入PCR)値を有する個人のコホートを特定した。最終分析を実行し代入時間を短縮するために、外部コホートの1/3をランダムにサンプリングした。腎不全の病歴がある患者(透析または移植)は、除外した。
図28は、ランダム・サバイバル・フォレスト・モデルを外部検証するために使用された検証コホートの態様を示す。
【0128】
[0172] ランダム・サバイバル・フォレスト・モデルを構築するために、全ての候補モデルは、年齢、性別、eGFR、および尿ACR(例えば、既に説明した通り)を含んだ。ベースラインeGFRは、全ての利用可能な外来eGFR結果の平均として計算し、研究期間中において最初に記録されたeGFRから開始して、6か月枠において最後に利用可能な検査まで前進し、この期間における検査の平均を計算した。患者の指標日は、この6か月期間における最終eGFRの日付けと見なした。年齢を指標eGFRの日付けとして決定し、誕生日およびその他の人口統計データを記録するマニトバ健康保険登録簿への連携を使用して、性別を判定した。尿ACR検査が利用できなかった場合、公開および検証された公式を使用して、利用可能な尿PCR検査を、対応する尿ACRに変換した。指標日の前後1年以内において、最も近い結果を選択した。歪んだ分布を処理する(handle)ために、尿ACRを対数変換した。
【0129】
[0173] 既に説明した変数(年齢、性別、eGFR、および尿ACR)に加えて、化学パネル、肝臓酵素、および全血球計算パネルからの追加研究室結果の有効性(utility)を、サバイバル用ランダム・フォレスト・モデル(random forest model for survival)に含ませるかについて評価した。指標日から1年以内において、最も近い値を選択して含ませた。必要なときには、分布変換(distributional transformation)を適用した。最終的なランダム・サバイバル・フォレスト・モデルは、eGFR、尿ACR、および追加の18種類の研究室結果(即ち、尿素、血清ナトリウム、血清塩化物、血清ヘモグロビン、血清カリウム、グルコース、血清アルブミン、 アルカリホスファターゼ、血清リン酸塩、血清重炭酸塩、血清マグネシウム、血清カルシウム、AST、ALT、ビリルビン、GGT、ヘマトクリット、および血小板数)を含んだ。
図29に、研究室パネルに対する欠損度の概要を示す。ランダム・フォレスト・モデルは、適応ツリー代入方法を使用して、欠損データに対して代入を適用した。
【0130】
[0174] 含まれている全ての研究室データは、 マニトバ研究室情報システムの共有健康診断サービスから抽出し、退院情報データベースへの連携によって判定された、入院事象中に記録された値はいずれも、含まれなかった(入院検査)。検証コホートについては、Alberta Kidney Disease Network(アルベルタ腎疾患ネットワーク)から、アルベルタ衛生研究室のデータを抽出した。マニトバ・モデルにおいて使用した18通りの研究室検査の内、16の研究室検査は、アルベルタ腎疾患ネットワークからも規則的に収集した。利用可能でない検査(アスパラギン酸アミノトランスフェラーゼおよびガンマ・グルタミル・トランスフェラーゼ)は、欠損データとして扱った。
【0131】
[0175] 本例における主要な転帰は、eGFRの40%低下または腎不全であった。eGFRの40%低下は、研究室データにおいてベースラインeGFRから40%以上の低下があった最初のeGFR検査のときに判定され、40%以上の低下が明らかになった最初の検査結果後90日以内に、患者が死亡したまたは腎不全を発症したのではない限り、最初の検査後90日および2年の間に、第2の確認検査結果を要求した。したがって、患者のeGFRが1回で40%の低下を表し、そして90日以内に患者が死亡した場合、事象として扱われる。また、この期間に彼らが腎不全を発症した場合も、事象として扱われる。腎不全は、長期透析の開始、移植の受け入れ、またはeGFR<10ml/分/1.73m
2として定められた。 透析は、長期透析についてのマニトバ医療サービス・データベースにおける任意の2表示(claim)として定められ、移植は、腎臓移植用マニトバ医療サービス・データベースにおける任意の1表示として定められ、また退院情報データベース(DAD)における入院は、腎移植の対応手順コードによって定められた(カナダ健康介入分類コードを使用または国際疾病分類、第9改訂、手順コード55.6を使用すると、1PC85または1OK85)。透析および移植を識別するタリフ・コード(tariff code)の概要を
図30に示す。
【0132】
[0176] eGFRの40%低下または腎不全の転帰日は、これらの事象の内最初のものに基づいて判定された。前述の複合終点に達するまで、死亡(マニトバ健康保険登録簿への連携によって判定する)まで、最大5年間、または追跡不能(loss)になるまで、患者を追跡した。
【0133】
[0177] 以前に説明したマニトバ・コホートについて記載したような研究室クレアチニン測定値を使用して、eGFRの40%低下を特定した。腎不全も同様に定めたが、構造が異なる管理データ集合に必要とされる、細かい改変を加えた(
図30参照)。長期透析および腎臓移植は、北および南アルベルタ腎臓プログラム・データベース(renal program database)、腎機能代替の地方登録簿を使用して特定し、血液透析、腹膜透析、または移植に対して任意の1つのコードを使用した。(注記:登録は2001年に開始したので、医師は、以前に移植または透析を行った個人を除外するときにもデータを使用することを請求した。)これらのデータは、一意の符合化された患者識別子によって、県の研究室レポジトリにリンクされたソースであった。
【0134】
[0178] 構築(内部訓練および検査)コホートおよび外部検証コホートに対するベースライン特性を、記述統計によって要約した。サバイバル・フォレストを右打ち切りデータと共に使用するサバイバル、回帰、および分類用Rパッケージ高速統一ランダム・フォレストを使用して、ランダム・フォレスト・モデルを構築した。1回の分割で、データを訓練(70%)および検査(30%)データ集合に分割し、次いで外部コホートにおいて検証した。受信者動作特性曲線の下にあるエリア、ブライア・スコア、および観測対予測リスクの較正プロットを使用して、モデルを精度について評価した。受信者動作特性曲線の下のエリアおよびブライア・スコアを、1年目から5年目における転帰の予測について、1年間隔で評価し、2年目および5年目において較正プロットを評価した。tune.rfsrc関数を使用してモデル・ハイパーパラメータを最適化し、終端ノードの最大サイズおよび変数の個数の比較を使用して、場合により (possibly) サバイバル、回帰、および分類用のランダム・フォレスト・パッケージからアウトオブバッグ誤り率まで、各ノードにおいて分割した。加えて、リスクが最も高いと予測された(高いリスク)の患者の内上位10%、15%、および20%について、感度、特異性、負予測値(NPV)、および正予測値(PPV)を評価した。これには、リスクが最も低い(低いリスク)下位50%、45%、および30%についての評価も含む。これらのメトリックを2年目および5年目において評価した。進行のリスク対予測された確率を可視化し、2年および5年にわたってプロットした。
図31に示すように、最終的に成長した22変数サバイバル・フォレストを使用して、含まれたパラメータの変数重要度を評価した。
【0135】
[0179] ロバストネスを評価するために、検査および検証コホートの部分母集団において、CKD病期および糖尿病の有無によって定められる主要転帰の5年予測について、モデルを評価した。感度分析のために、2つの比較モデルを考慮した。(i)分類予測子としてのアルブミン尿の3レベル定義およびeGFRの5病期を対照(comparator)として使用し、指針に基づくリスク定義を使用して、コックス比例ハザード・モデルを評価した(ヒートマップ・モデル)。(ii)変数eGFR、尿ACR、糖尿病、高血圧、脳卒中、心筋梗塞、年齢、および性別(臨床モデル)を含むコックス比例ハザード・モデルを評価した。加えて、研究室値が指標日の前の1年分しか含まれていない外部検証コホートにおいて、モデルを評価した。
【0136】
[0180] Rバージョン4.1.0を使用して、分析を行った。1/4 0.05を使用して、統計的有意性を先験的に特定した。構築コホート(訓練および検査)のために、77,196の総サンプル・サイズを使用し、54,037を訓練データ集合に割り当て(70%)、23,159を検査データ集合に割り当てた。検証コホートにおいて、合計321,396人の個人を特定し、107,097人のランダムな部分集合を、評価のために選択した。構築および検証コホート双方のコホート選択プロセスの詳細な概要を、
図5および
図28に示す。
【0137】
[0181] 構築コホートの平均年齢は59.3歳であり、平均eGFRは82.2ml/分/1.73m2であり、尿ACR中央値は1.1mg/mmolであった。患者の内、48%は男性であり、45%が糖尿病を患い、70%が高血圧を患い、5%には鬱血性心不全の病歴があり、4%は以前に脳卒中を患い、3%は以前に心筋梗塞を患っていた(検査および訓練コホート間でも同様)。
【0138】
[0182] 検証コホートの方が多少若く、平均年齢が55.5歳であり、平均eGFRは86.0ml/分/1.73m
2であり、ACR中央値は0.8mg/mmolであった。検証コホートの方が、男性患者の割合が高く(53%)、患者の41%が糖尿病、51%が高血圧、5%が鬱血性心不全、5%が前に脳卒中を患い、5%が以前に心筋梗塞を患っていた。ベースライン記述統計の概要を
図32に示す。
【0139】
[0183] 22個の変数を有するランダム・サバイバル・フォレスト・モデルでは、検査コホートにおいて評価したとき、主要転帰の1年予測に対するAUCが0.90(0.89~0.92)であり、5年予測に対しては0.84(0.83~0.85)であることが分かった。ブライア・スコアは、主要転帰の1年予測に対しては0.02(0.01~0.02)であり、5年予測では0.07(0.06~0.09)であった。1年から5年に対するAUCおよびブライア・スコアを
図33に示す。AUCおよびブライア・スコアは、予め定められた複数のサブグループにおいて同様であった(
図34)。このモデルは、内部および外部検査コホート双方で、2年および5年双方において優れた較正を呈した(
図35Aおよび
図35B参照)。加えて、ランダム・フォレスト・アルゴリズムによって生成された予測確率が高まるに連れて、主要転帰事象の発生間における関係が深くなった(increase)ことが観測された。
【0140】
[0184] リスクが高い患者(それぞれ、リスク・スコアの上位10%、15%、および20%)において、感度、特異性、およびPPVに対する統計を評価した。2年目における主要転帰の予測について、上位十分位数(14%の2年リスク閾値)に入る患者は、58%の感度、92%の特異性、および25%のPPVを有することが分かった。同様に、患者の内上位15%(10%の2年リスク閾値)について、感度が69%、特性が87%、およびPPVが20%であることが分かった。患者の内上位20%(7%の2年リスク閾値)では、感度は76%であり、特性は83%であり、PPVは16%であった。リスクが高い患者およびリスクが中程度の患者を識別するために30%の閾値を使用すると、2年以内に事象があった個人は87%であり、5年以内では77%であったことが確認された。
【0141】
[0185] リスクが低い患者では、患者の内下位50%(1.95%の2年リスク閾値)が94%の感度、52%の特異性、および>99%のNPVを有することが分かった。低い方から45%のリスク・スコア(1.61%の2年リスク閾値)では、感度は95%であり、特異性は47%であり、NPVは>99%であった。最後に、低い方から30%のリスク・スコア(0.85%の2年リスク閾値)では、感度が97%、特異性が31%、およびNPVが>99%であることが分かった。これらの統計は、5年目における転帰の予測についても検討され、同様の精度であることが分かった(
図36参照)。
【0142】
[0186] 尿ACR(変換PCRを含む)は、ランダム・フォレスト・モデルにおいて最も影響力が強い変数であり、その後にeGFR、尿素、ヘモグロビン、年齢、血清アルブミン、ヘマトクリット、およびグルコースが続いた。先に注記したように、重要度にしたがって順位付けしたモデル入力の概要を、
図31において詳しく示す。
【0143】
[0187] 性能は、外部検証コホートにおいて評価したときも同様であることが分かり、AUCは、1年予測に対する0.87(0.86~0.89)から5年予測に対する0.84(0.84~0.85)に低下し、ブライア・スコアは、1年において0.01(0.01~0.01)であり、5年目において0.04(0.04~0.04)であった(
図33)。外部検証コホートでは、2年目および5年目双方において、総合的なリスク(overall risk)が低下したが、モデルは優れた較正を呈し(
図37Aおよび
図37B)、リスク・スコアの順位と複合転帰の確率との間における関連性(association)も同様に高くなった。
【0144】
[0188] 加えて、糖尿病患者および糖尿病でない患者、CKD病期G1からG3、ならびにeGFR<60ml/分/1.73m
2というサブグループの分析では、内部検査コホートと同様の転帰が得られた(
図34)。感度、特異性、NPV、およびPPVによって評価すると、外部検証コホートにおいて、構築コホートのそれと同様の診断精度が観測された(
図36)。
【0145】
[0189] コンパレータ分析(comparator analysis)では、ヒートマップ・モデルは、臨床モデル(5年目におけるC統計量が0.81、P<0.001、
図39)と同様、構築コホート(5年目におけるC統計量0.78対0.84、
図38)において、22変数ランダム・サバイバル・フォレスト・モデルよりも性能が劣った。指標日に先立つ12か月における研究室値のみを検討すると、ランダム・フォレスト・モデルに対するモデル評価の結果は不変であった(1年AUCが0.87、0.86~0.88、5年AUCが0.84、0.83~0.85)。
結論
[0190] 開示した実施形態の少なくとも一部は、腎不全またはeGFRの40%低下という転帰のために、外部評価された研究室ベースの予測モデルを提供する。開示したモデルは、日常的に収集された研究室データの単一時点尺度(single time point measure)に完全に基づくことができ、新規なバイオマーカについて検査するおよび/または機械学習方法を使用することを意図する、現行の標準的な治療モデルまたは市販のモデルよりも高い精度で、対象の転帰(CKD進行)を予測することができる。本明細書において開示したモデルは、一緒に併せると、臨床および研究の場において実装することができる。
【0146】
[0191] 開示した機械学習モデルの内、ランダム・フォレストまたはランダム・サバイバル・フォレストを使用する少なくとも一部は、RenalytixAIのような、市販の機械学習モデルよりも高い性能を有するように思われる。RenalytixAIツールと比較すると、開示したモデルの少なくとも一部は、独立した母集団において外的妥当性を有したという利点があり、したがって過学習のリスクが低くなる。このステップは、機械学習モデルには特に重要であり、機械学習モデルは、多くの予測子によって小さいデータ集合において導き出されるときに、成長母集団(development population)を過学習する傾向があり、うまく一般化できないことが多い。更に、開示したモデルの内少なくとも一部は、容易にマッピングできる研究室データだけがあればよく、RenalytixAIツールのように、複数の電子健康記録フィールドおよびデータ型を必要とするモデルよりも、容易に大規模実施することができる。
【0147】
[0192] 最後に、開示したモデルの少なくとも一部は、RenalytixAIとは対照的に、新規のまたは独自のバイオマーカの測定も、入力としての使用も全く必要としない(そして明示的に省略することができる)。したがって、開示したモデルの少なくとも一部は、日常的な研究室の場で、または既に収集した研究室データを使用して実装することができる。
【0148】
[0193] 開示したモデルには、重要な臨床および研究の関わり(implications)がある。臨床の観点からは、医者は診察室において、開示したモデルの少なくともいくつかを使用して、CKD過程の早期にある(eGFR>60ml/分/1.73m2)が、次の5年間に進行のリスクが高い患者を特定することができる。この母集団におけるeGFRの傾斜に対するSGLT2阻害薬のような介入の効果を考慮すると、病気の進行中に後になって介入を実施した場合では透析までの時間を遅らせるのに対して、これらの患者は、腎不全の生涯発症を未然に防ぐか、または完全に予防することが可能になるとして差し支えない。加えて、フィネレノン(finerenone)のように、治療法が新しくなるにつれて、CKD進行を遅らせる追加効果(benefit)を得ることができる。しかしながら、このような新たな治療法および/または開発中の治療法については、腎機能を維持する患者において広く(largely)研究されており、効果を最大化しつつ費用負担および多剤併用を低減するためには、リスクが中程度および高いサブグループには、これらの治療法を当初は保留してもよい。開示したモデルを実装すると、危険に晒されている患者のために、目標を定めて効率的に、このような新たな治療法の使用を容易に指導することができる。
【0149】
[0194] 研究の観点からは、様々な大規模な臨床試験では、eGFRの40%低下または腎不全が主要な転帰として使用されており、これらの試験データ集合において、開示したモデルの少なくとも一部を検証することによって、リスク対策の相互影響(risk treatment interactions)を強調しやすくすることもできる。現在計画または登録段階にある今後の検査(trial)には、開示したモデルの少なくとも一部を使用すると、検査母集団の質を高め、妥当な時間枠において適正な数の転帰を生成するのに役立つことができる。
【0150】
[0195] 以上で論じた実施形態の少なくとも一部の長所(strengths)には、外部検証が含まれる。これは、機械学習モデルには特に重要である。何故なら、これらは、多くの予測子変数を有する小さなデータ集合を過学習する可能性があるからである。この論点に加えて、開示したモデルの少なくとも一部は、2つの変数が完全に欠損したコホートにおいて、外部検証して厳密な判別ができることが分かった。更に他の長所には、2つの詳しく説明したデータ集合に対するランダム・フォレスト方法論を含む、新規な研究方法が含まれ、その結果は、複数の腎臓の転帰および介入に一般化可能であることが証明されている。日常収集される研究室データだけに依存するので、電子健康記録および研究室情報システムへの迅速な統合を可能にすることは、注目に値する長所である。
【0151】
[0196] 結論として、日常的に収集される研究室データを使用し、CKD進行(eGRFの40%低下または腎不全)を、全てのCKD患者(例えば、G1またはG2のような、CKDの早い病期の患者であっても)に高い精度で予測する機械学習モデルを開示する。
更に他の用語および定義
[0197] 本発明は、その主旨や本質的な特徴から逸脱することなく、他の特定形態においても具体化することができる。説明した実施形態は、あらゆる観点で、限定ではなく例示のみとして見なされるものとする。したがって、本発明の範囲は、以上の説明ではなく、添付する請求項によって示される。請求項の意味および均等の範囲に該当する全ての変更は、その範囲に含まれるものとする。更に、本明細書において図示および/または説明した任意の実施形態に関係付けて説明したエレメントが、本明細書において図示および/または説明した任意の他の実施形態に関係付けて説明したエレメントと組み合わせ可能であるのはもっともである。
【0152】
[0198] 「近似的に」(approximately)、「約」(about)、および「実質的に」(substantially)という用語は、本明細書において使用する場合、述べられた量または条件に近く、所望の機能を実行するまたは所望の結果を達成することに変わりない、量または条件を表す。例えば、「近似的に」、「約」、および「実質的に」という用語は、10%未満だけ、または5%未満だけ、または1%未満だけ、または0.1%未満だけ、または0.01%未満だけ、述べられた量または条件から逸脱する量または条件を指すとしてもよい。
【0153】
[0199] ある実施形態では、時間期間(または時点もしくは時間枠)は、1分、1時間、1日、1週間、または1年を指す。あるいは、ある実施形態では、時間期間は、複数時間にわたる、複数の日にわたる、複数の週にわたる、または複数の年にわたる、というような時間期間を指し、時間期間は、第1の開始時刻と、この第1の開始時刻の後にある第2の終了時間とを有する。通例、本明細書において説明したような、新たな患者についての入力データ集合は、1回の検査期間中に患者から得られた1つ以上のサンプルに基づく、医療研究室データ(通例、特定の1組の兆候または特定の病気、例えば、CKDを診断および/または治療するように予定される、1回の医師の診察または一連の関係するおよび/または集合的な医師の診察から指示される研究室データ(labs))を含む。
更なるコンピュータ・システムの詳細
[0200] 本発明の実施形態は、以下で更に詳しく論じるように、コンピュータ・ハードウェアを含む、特殊目的または汎用コンピュータ(例えば、コンピューティング・システム110)を備えるまたは利用することができる。また、本発明の範囲内にある実施形態は、コンピュータ実行可能命令および/またはデータ構造を搬送もしくは格納するための物理コンピュータ読み取り可能媒体およびその他のコンピュータ読み取り可能媒体も含む。このようなコンピュータ読み取り可能媒体は、汎用または特殊目的コンピュータ・システムによってアクセスすることができる任意の利用可能な媒体にすることができる。コンピュータ実行可能命令(例えば、
図1のコンピュータ読み取り可能命令118)を格納するコンピュータ読み取り可能媒体(例えば、
図1のハードウェア記憶デバイス140)は、物理ハードウェア記憶媒体/デバイスであり、伝送媒体を除外する。コンピュータ実行可能命令またはコンピュータ読み取り可能命令(例えば、コンピュータ読み取り可能命令118)を1つ以上の搬送波または信号において搬送するコンピュータ読み取り可能媒体は、伝送媒体である。つまり、一例として、そして限定ではなく、本発明の実施形態は、少なくとも2つの明らかに異なる種類のコンピュータ読み取り可能媒体、即ち、物理コンピュータ読み取り可能記憶媒体/デバイスおよび送信コンピュータ読み取り可能媒体を含むことができる。
【0154】
[0201] 物理コンピュータ読み取り可能記憶媒体/デバイスは、ハードウェアであり、RAM、ROM、EEPROM、CD-ROM、または他の光ディスク・ストレージ(CD、DVD等のような)、磁気ディスク・ストレージ、または他の磁気記憶デバイス、あるいは所望のプログラム・コード手段をコンピュータ実行可能命令またはデータ構造の形態で格納するために使用することができ、更に汎用または特殊目的コンピュータによってアクセスすることができる任意の他のハードウェアを含む。
【0155】
[0202] 「ネットワーク」(例えば、
図1のネットワーク130)とは、コンピュータ・システムおよび/またはモジュールおよび/または他の電子デバイス間における電子データの移送(transport)を可能にする1つ以上のデータ・リンクと定義する。ネットワークまたは他の通信接続(ハードワイヤ接続、ワイヤレス、またはハードワイヤ接続もしくはワイヤレスの組み合わせのいずれか)を通じてコンピュータに情報を転送または供給するとき、コンピュータは、この接続を伝送媒体と正しく見なす。伝送媒体は、搬送するために使用することができるネットワークおよび/またはデータ・リンク、あるいはコンピュータ実行可能命令またはデータ構造の形態とした所望のプログラム・コード手段を含むことができ、これらの伝送媒体には、汎用または特殊目的コンピュータによってアクセスすることができる。以上の組み合わせも、コンピュータ読み取り可能媒体の範囲内に含まれる。
【0156】
[0203] 更に、種々のコンピュータ・システム・コンポーネントに到達したとき、コンピュータ実行可能命令またはデータ構造の形態であるプログラム・コード手段を、自動的に送信コンピュータ読み取り可能媒体から物理コンピュータ読み取り可能記憶媒体に(またはその逆に)転送することができる。例えば、ネットワークまたはデータ・リンクを通じて受信されたコンピュータ実行可能命令またはデータ構造は、ネットワーク・インターフェース・モジュール(例えば、「NIC」)内において、RAMにバッファすることができ、最終的にコンピュータ・システムのRAM、および/またはコンピュータ・システムにおける揮発性が更に低いコンピュータ読み取り可能物理記憶媒体に転送することができる。このように、コンピュータ読み取り可能物理記憶媒体は、伝送媒体も利用するコンピュータ・システム・コンポーネントに(または、伝送媒体を主に利用するコンピュータ・システム・コンポーネントにも)含めることができる。
【0157】
[0204] コンピュータ実行可能命令は、例えば、命令およびデータを含み、汎用コンピュータ、特殊目的コンピュータ、または特殊目的処理デバイスに、特定の機能または一群の機能を実行させる。コンピュータ実行可能命令は、例えば、バイナリ、アセンブリ言語のような中間フォーマット命令、またはソース・コードであってもよい。以上、主題について構造的特徴および/または方法論的アクトに特定的な文言で説明したが、添付した請求項において定められる主題は、必ずしも、以上で記載した特徴やアクトには限定されないことは理解されてしかるべきである。逆に、説明した特徴およびアクトは、請求項を実施する形態例として開示したまでである。
【0158】
[0205] 尚、本発明は、多くの型式のコンピュータ・システム構成を有するネットワーク・コンピューティング環境において実施できることは、当業者には認められよう。コンピュータ・システム構成には、パーソナル・コンピュータ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、メッセージ・プロセッサ、ハンドヘルド・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースまたはプログラマブル・消費者用電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、移動体電話機、PDA、ページャ、ルータ、交換機等が含まれる。また、本発明は、分散型システム環境において実施することもできる。分散型システム環境では、ローカルおよびリモート・コンピュータ・システムが、ネットワークを通じてリンクされ(ハードワイヤ接続されたデータ・リンク、ワイヤレス・データ・リンクによって、またはハードワイヤ接続されたデータ・リンクおよびワイヤレス・データ・リンクの組み合わせによってのいずれかで)、双方がタスクを実行する。分散型システム環境では、プログラム・モジュールをローカルおよびリモート双方のメモリ記憶デバイスに配置することができる。
【0159】
[0206] あるいは、または加えて、本明細書において説明した機能は、少なくとも部分的に、1つ以上のハードウェア・ロジック・コンポーネントによって実行することができる。例えば、そして限定ではなく、使用することができるハードウェア・ロジック・コンポーネントの例示的な種類には、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定プログラム集積回路(ASIC)、特定プログラム標準製品(ASSP)、システム・オン・チップ・システム(SOC)、複合プログラマブル・ロジック・デバイス(CPLD)等が含まれる。
【国際調査報告】