IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エフ ホフマン−ラ ロッシュ アクチェン ゲゼルシャフトの特許一覧

特表2024-511595慢性腎臓疾患のリスクについて対象をスクリーニングするための方法、コンピュータ実装方法、システム、およびコンピュータプログラム製品
<>
  • 特表-慢性腎臓疾患のリスクについて対象をスクリーニングするための方法、コンピュータ実装方法、システム、およびコンピュータプログラム製品 図1
  • 特表-慢性腎臓疾患のリスクについて対象をスクリーニングするための方法、コンピュータ実装方法、システム、およびコンピュータプログラム製品 図2
  • 特表-慢性腎臓疾患のリスクについて対象をスクリーニングするための方法、コンピュータ実装方法、システム、およびコンピュータプログラム製品 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-14
(54)【発明の名称】慢性腎臓疾患のリスクについて対象をスクリーニングするための方法、コンピュータ実装方法、システム、およびコンピュータプログラム製品
(51)【国際特許分類】
   G01N 33/68 20060101AFI20240307BHJP
   G01N 33/70 20060101ALI20240307BHJP
   G16H 50/30 20180101ALI20240307BHJP
   G01N 33/84 20060101ALI20240307BHJP
   G01N 33/50 20060101ALI20240307BHJP
【FI】
G01N33/68
G01N33/70
G16H50/30
G01N33/84 Z
G01N33/50 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023556893
(86)(22)【出願日】2022-03-15
(85)【翻訳文提出日】2023-09-14
(86)【国際出願番号】 EP2022056707
(87)【国際公開番号】W WO2022194870
(87)【国際公開日】2022-09-22
(31)【優先権主張番号】21162683.3
(32)【優先日】2021-03-15
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】501205108
【氏名又は名称】エフ ホフマン-ラ ロッシュ アクチェン ゲゼルシャフト
(74)【代理人】
【識別番号】110001896
【氏名又は名称】弁理士法人朝日奈特許事務所
(72)【発明者】
【氏名】リンゲマン、クリスチャン
(72)【発明者】
【氏名】フシュト、トニー
(72)【発明者】
【氏名】ケーニッヒ、ヘレナ
【テーマコード(参考)】
2G045
5L099
【Fターム(参考)】
2G045AA25
2G045DA38
2G045DA42
2G045DA77
2G045JA06
5L099AA03
5L099AA15
(57)【要約】
慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするための方法であって、対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、少なくとも年齢値、対象についての糖尿病診断からの時間を示す診断値からの時間、クレアチニンの試料レベル、推定糸球体濾過率、アルブミンの試料レベル、および血液尿素窒素の試料レベルを示す、マーカーデータを受信することと、複数のマーカーパラメータから、対象がCKDに罹患するリスクを示すリスク因子を判定することと、を含む、方法が提供される。さらに、CKDのリスクについて対象をスクリーニングするためのコンピュータ実装方法が提供される。また、プロセッサと、CKDのリスクについて対象をスクリーニングするための方法をプロセッサに実行させるプログラムを記憶する非一時的メモリとを備えるシステムが提供される。別の態様では、命令を含むコンピュータプログラム製品であって、プログラムがコンピュータによって実行されると、上記命令が、CKDのリスクについて対象をスクリーニングするための方法をコンピュータに実行させる、コンピュータプログラム製品が提供される。
【特許請求の範囲】
【請求項1】
慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするための方法であって、
対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、少なくとも、
年齢値、
前記対象についての糖尿病診断からの時間を示す診断値からの時間、
クレアチニンの試料レベル、
推定糸球体濾過率、
アルブミンの試料レベル、および
血液尿素窒素の試料レベル
を示す、マーカーデータを受信することと、
前記複数のマーカーパラメータから、前記対象がCKDに罹患するリスクを示すリスク因子を判定することと
を含む、方法。
【請求項2】
前記対象について、クレアチニンの血液試料レベルを示す前記複数のマーカーパラメータをさらに含む、請求項1に記載の方法。
【請求項3】
前記対象について、アルブミンの血液試料レベルおよびアルブミンの尿試料レベルのうちの少なくとも1つを示す前記複数のマーカーパラメータをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記受信することが、2年または2年未満の測定期間にわたって前記対象についての複数のマーカーパラメータを示すマーカーデータを受信することを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記年齢値が、前記リスク因子を判定するときの前記対象の年齢に対応する、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記診断値からの時間が、前記リスク因子を判定するときの前記対象についての前記糖尿病診断からの時間を示す、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記リスク因子が、測定期間の終わりから3年の予測期間内に前記対象がCKDに罹患するリスクを示す、請求項1から6のいずれか一項に記載の方法。
【請求項8】
データ処理システムにおいて、慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするためのコンピュータ実装方法であって、前記データ処理システムが、プロセッサと、前記プロセッサに、
a)対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、少なくとも、
年齢値、
前記対象についての糖尿病診断からの時間を示す値、
クレアチニンの試料レベル、
推定糸球体濾過率、
アルブミンの試料レベル、および
血液尿素窒素の試料レベル
を示す、マーカーデータを受信することと、
b)前記複数のマーカーパラメータから、前記対象がCKDに罹患するリスクを示すリスク因子を判定することと
を実行させるプログラムを記憶する非一時的メモリと
を有する、コンピュータ実装方法。
【請求項9】
ステップb)における前記リスク因子を判定することが、
機械学習モデルを提供することと、
前記複数のマーカーパラメータを示す入力データを前記機械学習モデルに提供することと、
前記機械学習モデルによって前記リスク因子を判定することと
を含む、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記機械学習モデルが、XGBoost機械学習モデルを提供することを含む、請求項9に記載のコンピュータ実装方法。
【請求項11】
前記機械学習モデルを提供することが、
対象の集団についての訓練データのセットを提供することであって、前記訓練データが、前記対象の集団についての複数の訓練パラメータを示し、前記訓練パラメータが、年齢、クレアチニンのレベル、推定糸球体濾過率、アルブミンのレベル、血中尿素窒素のレベル、および前記対象がCKDを発症したかどうかの指標を含む、対象の集団についての訓練データのセットを提供することと、
前記対象の集団からの対象について糖尿病診断が判定された時間または日付を示す糖尿病診断データを提供することと、
前記糖尿病診断データから、前記対象の集団からの対象について糖尿病診断が判定されてからの時間を示す診断パラメータからの時間を示す補足訓練データを決定することと、
前記訓練データのセットと前記補足訓練データとを含む訓練データの拡張セットを提供することと、
前記訓練データの拡張セットに基づいて前記機械学習モデルを訓練することと
を含む、請求項8から10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記リスク因子が、マーカーデータを帰属させずに前記機械学習モデルを使用して判定される、請求項8から11のいずれか一項に記載のコンピュータ実装方法。
【請求項13】
プロセッサと、慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするために請求項8から12のいずれか一項に記載の方法のステップa)およびb)を前記プロセッサに実行させるプログラムを記憶する非一時的メモリと、を備える、システム。
【請求項14】
コンピュータプログラムまたはコンピュータプログラム製品であって、前記コンピュータプログラムまたは前記コンピュータプログラム製品が命令を含み、プログラムがコンピュータによって実行されると、前記命令が、慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするために請求項8から12のいずれか一項に記載の方法のステップa)およびb)をコンピュータに実行させる、コンピュータプログラムまたはコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、慢性腎臓疾患のリスクについて対象をスクリーニングするための方法、コンピュータ実装方法、システム、およびコンピュータプログラム製品に関する。
【背景技術】
【0002】
慢性腎臓疾患(CKD)では、腎機能が徐々に失われ、糸球体濾過率および/またはアルブミン尿の低下から始まり、末期腎疾患に進行する。結果として、透析または腎移植が必要となり得る(Unger,J.,Schwartz,Z.,Diabetes Management in Primary Care,2nd edition.Lippincott Williams&Wilkens,Philadelphia,USA,2013を参照)。CKDは深刻な問題であり、2013年の調整有病率は7%であった(Glassock,R.J.ら,The global burden of chronic kidney disease:estimates,variability and pitfalls,Nat Rev Nephrol 13,104-114,2017)。CKDの早期認識は、進行を遅らせ、合併症を予防し、心血管関連転帰を低下させる可能性がある(Platinga,L.C.ら,Awareness of chronic kidney disease among patients and providers,Adv Chronic Kidney Dis 17,225-236,2010)。CKDは、糖尿病の微小血管の長期合併症であり得る(Fioretto,P.ら,Residual microvascular risk in diabetes:unmet needs and future directions,Nat Rev Endocrinol 6,19-25,2010)。
【0003】
糖尿病患者によるCKDのリスク予測のためのアルゴリズムは、例えば、Dunklerら(Dunkler,D.ら,Risk Prediction for Early CKD in Type 2 Diabetes,Clin J Am Soc Nephrol 10,1371-1379,2015)、Vergouweら(Vergouwe,Y.ら,Progression to microalbuminuria in type 1 diabetes:development and validation of a prediction rule,Diabetologia 53,254-262,2010)、Keaneら(Keane,W.F.ら,Risk Scores for Predicting Outcomes in Patients with Type 2 Diabetes and Nephropathy:The RENAAL Study,Clin J Am Soc Nephrol 1,761-767,2006)およびJardineら(Jardine,M.J.ら,Prediction of Kidney-Related Outcomes in Patients With Type 2 Diabetes,Am J Kidney Dis.60,770-778,2012)によって公開されている。そのような公開されたアルゴリズムは、主要な臨床研究に由来するデータから導出される。
【0004】
臨床データに基づくそのような予測モデルは、予め選択された集団、交差チェックおよび検証された臨床データ入力、および多くの場合狭い観察時間窓を有する理想的な設定を表す。したがって、結果は、臨床研究から推測される場合、現実世界の集団の効能および有効性に関して最適な経路を必ずしも明らかにしない。さらに、ほとんどの文献は、糖尿病性腎症またはCKDの進行に焦点を当てており、したがって、この糖尿病性合併症の初期段階を逃している。最後に、患者は、通常、それぞれの特徴の完全なセットに基づいて選択される。
【0005】
欧州特許出願公開第3 543 702号明細書は、慢性腎臓疾患のリスクについて対象をスクリーニングするための方法であって、対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、測定期間についての対象について、年齢値、クレアチニンの試料レベル、およびアルブミンの試料レベルを示す、マーカーデータを受信することと、複数のマーカーパラメータから、対象がCKDに罹患するリスクを示すリスク因子を判定することと、を含む、方法を開示している。判定することは、アルブミンの試料レベルよりも高い年齢値に重み付けすることと、アルブミンの試料レベルよりも高いクレアチニンの試料レベルに重み付けすることと、を含む。糖尿病診断を受けた患者などの対象についての慢性腎臓疾患のリスクを判定するためのロジスティック回帰(LR)モデルを適用するコンピュータ実装方法が開示される。
【0006】
糖尿病患者におけるCKDの長期リスク予測のための方法は、Songら(Songら,Longitudinal risk prediction of chronic kidney disease in diabetic patients using a temporal-enhanced gradient boosting machine:retrospective cohort study,JMIR Med Inform 8(1),2020,e15510)によって公開されている。CKDのリスクを予測するために、ブーストされた機械学習モデルが提案されている。
【発明の概要】
【0007】
本発明の目的は、実世界データ(RWD)に基づくCKDの信頼できるリスク評価を可能にする、慢性腎臓疾患のリスクについて対象をスクリーニングするための改善された方法を提供することである。
【0008】
これを解決するために、独立請求項1に記載の慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするための方法が提供される。さらに、独立請求項8に記載のコンピュータ実装方法が提供される。また、それぞれ請求項13および14に記載のシステムおよびコンピュータプログラム製品が提供される。さらなる実施形態は、従属請求項に開示されている。
【0009】
一態様によれば、慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするための方法であって、対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、少なくとも以下、すなわち、年齢値、対象についての糖尿病診断からの時間を示す診断値からの時間、クレアチニンの試料レベル、推定糸球体濾過率、アルブミンの試料レベル、および血液尿素窒素の試料レベルを示す、マーカーデータを受信することを含む、方法が提供される。CKDに罹患するリスクを示すリスク因子は、複数のマーカーパラメータから対象について判定される。
【0010】
別の態様によれば、データ処理システムにおいて慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするためのコンピュータ実装方法であって、データ処理システムが、プロセッサと、プロセッサに、対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、年齢値、対象についての糖尿病診断からの時間を示す診断値からの時間、クレアチニンの試料レベル、推定糸球体濾過率の試料レベル、アルブミンの試料レベル、および血液尿素窒素の試料レベルを示す、マーカーデータを受信することと、複数のマーカーパラメータから、対象がCKDに罹患するリスクを示すリスク因子を判定することと、を実行させるプログラムを記憶する非一時的メモリと、を有する、コンピュータ実装方法が提供される。
【0011】
プロセッサと、慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするための方法をプロセッサに実行させるプログラムを記憶する非一時的メモリと、を備える、システムが提供される。
【0012】
コンピュータプログラムまたはコンピュータプログラム製品であって、コンピュータプログラムまたはコンピュータプログラム製品が命令を含み、プログラムがコンピュータによって実行されると、命令が、慢性腎臓疾患(CKD)のリスクについて対象をスクリーニングするための方法のステップをコンピュータに実行させる、コンピュータプログラムまたはコンピュータプログラム製品が提供される。
【0013】
マーカーパラメータは、例えば、(臨床データとは異なり)データの完全性または正確性に関して制限されていない実世界データを示し得る。
【0014】
診断値からの時間とは、対象についての糖尿病の初期診断の日時から対象についてのリスク因子の判定日までの時間をいう。
【0015】
本方法は、対象について、クレアチニンの血液試料レベルを示す複数のマーカーパラメータをさらに含み得る。クレアチニンの試料レベルとして、血清試料レベルまたは血漿試料も使用され得る。したがって、尿中の濃度としてクレアチニンの試料レベルを要求することが回避され得る。複数のマーカーパラメータは、対象について、クレアチニンの複数の血液試料レベル(またはそれぞれ血清もしくは血漿試料レベル)から選択されるクレアチニンの選択された血液試料レベル(または血清もしくは血漿試料レベル)を示し得る。例えば、クレアチニンの選択された血液試料レベルは、クレアチニンの複数の血液試料レベルからの最大値であり得る。代替的または追加的に、複数のマーカーパラメータは、対象について、クレアチニンの複数の血液試料レベルから計算されたクレアチニンの計算された血液試料レベルを示し得る。例えば、計算されたクレアチニンの血液試料レベルは、クレアチニンの複数の血液試料レベルから計算された統計値、例えば平均値、中央値または最頻値であり得る。クレアチニンの試料レベルは、mg/dl(血液1デシリットル当たりのクレアチニンのミリグラムなど)の単位で提供され得る。
【0016】
本方法は、対象について、アルブミンの血液試料レベルおよびアルブミンの尿試料レベルのうちの少なくとも1つを示す複数のマーカーパラメータをさらに含み得る。一実施形態では、アルブミンの試料レベルは、血液試料レベルである。アルブミンの試料レベルとして、血清試料レベルまたは血漿試料もまた使用されてもよい。複数のマーカーパラメータはまた、対象について、アルブミンの複数の血液試料レベル(またはそれぞれ血清もしくは血漿試料レベル)から選択されるアルブミンの選択された血液試料レベル(または血清もしくは血漿試料レベル)を示し得る。例えば、アルブミンの選択された血液試料レベルは、アルブミンの複数の血液試料レベルからの最小値であり得る。代替的または追加的に、複数のマーカーパラメータは、対象について、アルブミンの複数の血液試料レベルから計算されたアルブミンの計算された血液試料レベルを示してもよい。例えば、アルブミンの計算された血液試料レベルは、アルブミンの複数の血液試料レベルから計算された統計値、例えば平均値、中央値または最頻値であり得る。アルブミンの試料レベルは、mg/dlの単位(例えば、血液1デシリットル当たりのアルブミンのミリグラム)で提供され得る。
【0017】
糸球体濾過率は、腎臓を通る濾過された流体の流量を示すことが当該技術分野において知られている。それは、腎機能を推定するための重要な指標である。糸球体濾過率は、腎疾患に起因して低下し得る。実施形態では、糸球体濾過率は、当該技術分野において既知のModification of Diet in Renal Disease(MDRD)式を使用して推定され得る。例えば、4つの変数を使用するMDRD式は、糸球体濾過率を推定するための対象の年齢、性別、民族性および血清クレアチニンに依存する。代替的な実施形態では、糸球体濾過率は、それ自体当該技術分野において公知のCKD-EPI(Chronic Kidney Disease Epidemiology Collaboration)式を使用して推定され得る。CKD-EPI式は、糸球体濾過率を推定するための対象の年齢、性別、民族性および血清クレアチニンに依存する。さらなる実施形態では、糸球体濾過率は、他の方法を使用して推定されてもよく、または直接判定されてもよい。推定糸球体濾過率は、ml/分/1.73m2(体表面積1.73平方メートル当たりのミリリットル/分)の単位で提供され得る。
【0018】
複数のマーカーパラメータは、対象について、複数の推定糸球体濾過率から選択された選択された推定糸球体濾過率を示し得る。例えば、選択された推定糸球体濾過率は、複数の推定糸球体濾過率からの最小値であり得る。代替的または追加的に、複数のマーカーパラメータは、対象について、平均値、中央値または最頻値などの複数の推定糸球体濾過率から計算された、定格された推定糸球体濾過としての統計値を示し得る。
【0019】
血液尿素窒素(BUN)の試料レベルは、mg/dlの単位(例えば、血液1デシリットル当たりの尿素窒素のミリグラム)で提供され得る。したがって、血液尿素窒素(BUN)の試料レベルは、全尿素の質量ではなく、尿素内の窒素の質量/血液試料の容積を表し得る。複数のマーカーパラメータは、対象について、尿素窒素の複数の血液試料レベルから選択される、選択された血液尿素窒素の試料レベルを示し得る。例えば、選択された尿素窒素の血液試料レベルは、複数の尿素窒素の血液試料レベルからの最小値であり得る。代替的または追加的に、複数のマーカーパラメータは、対象について、尿素窒素の複数の血液試料レベルから計算された尿素窒素の計算された血液試料レベルを示し得る。例えば、計算された尿素窒素の血液試料レベルは、平均値、中央値または最頻値などの、尿素窒素の複数の血液試料レベルから計算された統計値であり得る。
【0020】
クレアチニンの試料レベル、アルブミンの試料レベル、血中尿素窒素の試料レベルおよび/または推定糸球体濾過率は、それぞれの複数の試料レベルおよび/または率からの代表的な試料レベルおよび/または率、例えば、それぞれ最大試料レベルおよび/または率、最小試料レベルおよび/または率、平均試料レベルおよび/または率および/または試料レベルおよび/または率の中央値であり得る。例示的な実施形態では、クレアチニンは、対象についてのクレアチニンの複数の試料レベルからのクレアチニンの最大試料レベルであり、アルブミンは、対象についてのアルブミンの複数の試料レベルからのアルブミンの最小試料レベルであり、eGFRは、対象についての複数の推定糸球体濾過率からの最小推定糸球体濾過率であり、血液尿素窒素は、対象についての血液尿素窒素の複数の試料レベルからの血液尿素窒素の最小試料レベルである。
【0021】
マーカーデータは、2年または2年未満の測定期間に由来し得る。したがって、測定期間は、2年に限定されてもよい。それにより、リスク因子が測定期間の終わりからの対象がCKDに罹患するリスクを示す、最大2年の期間内に収集された物質の値および/または試料レベルが提供され得る。
【0022】
一実施形態では、少なくともクレアチニンの試料レベル、アルブミンの試料レベル、血中尿素窒素の試料レベル、および推定糸球体濾過率は、2年または2年未満の測定期間に由来する。クレアチニンの試料レベル、アルブミンの試料レベル、血中尿素窒素の試料レベル、および推定糸球体濾過率を判定するための試料は、2年または2年未満の測定期間に採取および/または決定されていてもよい。
【0023】
年齢値は、リスク因子を判定するときの患者の年齢(例えば、数年で)に対応し得る。
【0024】
診断値からの時間は、リスク因子を判定する際の対象についての糖尿病診断からの時間を示し得る。一実施形態では、対象についてのリスク因子を判定した日付は、測定期間の終わりと定義され得る。
【0025】
対象がCKDに罹患するリスクを示すリスク因子は、少なくとも対象の年齢値、対象についての糖尿病診断からの時間を示す診断値からの時間、対象のクレアチニンの試料レベル、対象の推定糸球体濾過率、対象のアルブミンの試料レベル、および対象の血液尿素窒素の試料レベルを含む複数のマーカーパラメータから判定される。
【0026】
リスク因子は、測定期間の終わりから3年の予測期間内に対象がCKDに罹患するリスクを示し得る。リスク因子は、試料レベルが判定された時点から3年以内の対象についてのCKDを発症する確率であり得る。あるいは、リスク因子は、測定期間の終わりから3年未満、例えば2年以内の期間内に対象がCKDに罹患するリスクを示し得る。さらなる代替として、リスク因子は、測定期間の終わりから3年を超える期間内に対象がCKDに罹患するリスクを示し得る。
【0027】
コンピュータ実装方法に関して、リスク因子を判定することは、機械学習モデルを提供することと、複数のマーカーパラメータを示す入力データを機械学習モデルに提供することと、機械学習モデルによってリスク因子を判定することと、を含み得る。したがって、リスク因子は、以前に訓練および試験(検証)された機械学習モデルを適用することによって判定され、そのような訓練/試験は、訓練および試験/検証を含むそのような訓練の結果である機械学習モデルを作成または決定するための機械学習アルゴリズムを訓練することを含む。
【0028】
機械学習モデルを提供することは、XGBoost機械学習モデルを提供することを含み得る。XGBoostは、勾配ブースティングフレームワークを使用する決定木ベースのアンサンブル機械学習アルゴリズムを提供する。勾配ブースティングは、回帰および分類問題のための機械学習技術であり、弱予測モデル、典型的には決定木のアンサンブルの形態の予測モデルを生成する。決定木が弱学習器である場合、結果として得られるアルゴリズムは、勾配ブースト木と呼ばれ、通常、ランダムフォレストよりも性能が優れている。それは、他のブースティング方法が行うように段階的にモデルを構築し、任意の弁別可能損失関数の最適化を可能にすることによってそれらを一般化する。
【0029】
機械学習モデルを提供することは、前処理において、対象の集団についての訓練データのセットを提供することであって、訓練データが、対象の集団についての複数の訓練パラメータを示し、訓練マーカーパラメータが、年齢、クレアチニンのレベル、推定糸球体濾過率のレベル、アルブミンのレベル、血液尿素窒素のレベル、および対象がCKDを発症したかどうかの指標を含む、対象の集団についての訓練データのセットを提供することと、対象の集団からの対象について糖尿病診断が判定された時間または日付を示す糖尿病診断データを提供することと、糖尿病診断データから、対象の集団からの対象について糖尿病診断が判定されてからの時間を示す診断パラメータからの時間を示す補足訓練データを決定することと、訓練データのセットと補足訓練データとを含む訓練データの拡張セットを提供することと、訓練データの拡張セットに基づいて、XGBoost機械学習モデルなどの機械学習モデルを訓練することと、を含み得る。診断パラメータが決定されてからの時間を参照する追加パラメータは、前処理において決定されることにより、機械学習モデルを訓練するために適用される訓練データのサイズおよび数を拡張する。
【0030】
前処理はまた、訓練データから、対象の集団からのそれぞれの1人または複数の対象についてのクレアチニンのレベル、推定糸球体濾過率、アルブミンのレベル、および血液尿素窒素のレベルのうちの1つまたは複数についての1つまたは複数の統計値および/または選択された値を含む前処理された訓練データのセットを決定することを含み得る。例えば、集団の対象について、クレアチニンの複数の試料レベルが判定されていてもよい。したがって、前処理では、1つまたは複数の統計値および/または選択された値は、集団からのその対象の平均クレアチニン値および/または最大クレアチニン値などのクレアチニンの複数の試料レベルから判定され得る。
【0031】
試験対象の複数のマーカーパラメータから、試験対象がCKDに罹患するリスクを示すリスク因子を判定するための機械学習モデルを訓練する方法も本明細書で提供される。訓練方法は、
訓練対象の集団についての訓練データのセットを提供することであって、訓練データが、訓練対象の集団についての複数の訓練パラメータを示し、訓練マーカーパラメータが、少なくとも、年齢、クレアチニンのレベル、推定糸球体濾過率のレベル、アルブミンのレベル、および血中尿素窒素のレベルを含み、訓練データが、各訓練対象について、訓練対象がCKDを発症したかどうかの指標をさらに含む、訓練対象の集団についての訓練データのセットを提供することと、
任意に、訓練データから、訓練対象の集団からのそれぞれの訓練対象についてのクレアチニンのレベル、推定糸球体濾過率、アルブミンのレベル、および血中尿素窒素のレベルのうちの1つまたは複数についての1つまたは複数の統計値および/または選択された値を含む前処理された訓練データのセットを決定することと、
訓練対象の集団からのそれぞれの訓練対象について糖尿病診断が判定された時間または日付を示す糖尿病診断データを提供することと、
糖尿病診断データから、対象の集団からの対象について糖尿病診断が判定されてからの時間を示す診断パラメータからの時間を示す補足訓練データを決定することと、
訓練データの拡張セットであって、
訓練データのセットおよび/または前処理された訓練データのセット、および
補足訓練データ
を含む、訓練データの拡張セットを提供することと、
試験対象がCKDに罹患するリスクを示すリスク因子を判定するために、訓練データの拡張セットに基づいて機械学習モデルを訓練することと
を含む。
【0032】
慢性腎臓疾患(CKD)のリスクについて試験対象をスクリーニングするための方法であって、
上述したような訓練方法にしたがって機械学習モデルを訓練し、それによって訓練された機械学習モデルを取得することと、
対象についての複数のマーカーパラメータを示すマーカーデータを受信することであって、そのような複数のマーカーパラメータが、少なくとも、年齢値、対象についての糖尿病診断からの時間を示す診断値からの時間、クレアチニンの試料レベル、推定糸球体濾過率、アルブミンの試料レベル、および血液尿素窒素の試料レベルを示す、マーカーデータを受信することと、
訓練された機械学習モデルを使用することによって、複数のマーカーパラメータから、対象がCKDに罹患するリスクを示すリスク因子を判定することと
を含む、方法が、本明細書においてさらに提供される。
【0033】
リスク因子は、マーカーデータが帰属されない機械学習モデルを使用して判定され得る。したがって、帰属されたマーカーデータのないデータを訓練(および試験または検証)することによって機械学習モデルが訓練/試験された。
【0034】
本開示の意味の範囲内で、CKDのリスクについて対象をスクリーニングすることは、CKDを発症するまたは有するリスクがある対象を識別することを意味する。
【0035】
本開示の意味における試料レベルは、対象の体液の試料中のクレアチニンまたはアルブミンなどの物質のレベルである。試料レベルは、同じまたは異なる試料において判定され得る。代替的または追加的に、試料レベルを判定するために、同じまたは異なる試料において測定が実行されてもよい。例えば、物質の試料レベルは、例えば平均値を判定することによって、同じ試料中の同じ物質の複数の測定値から判定され得る。別の例では、同じ物質の複数の試料レベルのうちの少なくとも1つが第1の試料において判定されてもよく、同じ物質の複数の試料レベルのうちの少なくとも別の1つが第2の試料において判定されてもよい。第1の物質の試料レベルおよび第2の物質の試料レベルは、同じ試料において判定され得る。あるいは、第1の物質の試料レベルは、第1の試料において判定されてもよく、第2の物質の試料レベルは、第2の試料において判定されてもよい。
【0036】
コンピュータ装置またはシステムのプロセスによって実行可能なプログラムコードを具現化するコンピュータ可読媒体を含むコンピュータプログラム製品であって、プログラムコードが、実行されると、慢性腎臓疾患のリスクについて対象をスクリーニングするためのコンピュータ実装方法をコンピュータ装置またはシステムに実行させる、コンピュータプログラム製品が提供され得る。
【0037】
コンピュータ実装方法に関して、上述した代替実施形態が準用され得る。
【0038】
コンピュータ実装方法において、プログラムは、プロセッサに、リスク因子を示す出力データを生成することと、出力データをデータ処理システムの出力装置に出力することとをさらに実行させ得る。出力装置は、出力データを出力するのに適した任意の装置、例えば、モニタなどのデータ処理システムの表示装置、および/または有線および/または無線データ伝送のために送信するための送信装置であり得る。出力データは、データ処理システムのディスプレイを介して、ユーザ、例えば医師に出力され得る。リスク因子を示す出力データに基づいて、さらなるマーカーデータが対象から要求され得て、および/またはCKDについての対象のさらなるスクリーニングのための将来の日付が(例えば、次いで、クレアチニン、アルブミン、血中尿素窒素および/または新たに判定された推定糸球体濾過率のうちの1つまたは複数の少なくとも1つまたは複数の新たに収集された試料レベル、新たな年齢値、将来の日付を考慮した対象についての糖尿病診断からの時間を示す診断値からの新たな時間に基づいて)設定され得る。
【0039】
データ処理システムは、複数のデータ処理装置を備えてもよく、各データ処理装置は、プロセッサおよびメモリを有する。マーカーデータは、第1のデータ処理装置に提供されてもよい。例えば、マーカーデータは、入力装置を介したユーザ入力によって、および/またはデータ転送によって、第1のデータ処理装置において受信されてもよい。マーカーデータは、第1のデータ処理装置から、第1のデータ処理装置に対して遠隔に配置され得る第2のデータ処理装置に送信されてもよい。マーカーデータは、第2のデータ処理装置において受信されてもよく、次いで、リスク因子は、第2のデータ処理装置において判定されてもよい。リスク因子を示す結果データは、第2のデータ処理装置から第1のデータ処理装置に、または代替的もしくは追加的に、第3のデータ処理装置に送信されてもよい。次いで、結果データは、第1および/または第3のデータ処理装置に記憶され、および/または第1および/または第3のデータ処理装置の出力装置を介して出力されてもよい。
【0040】
第1のデータ処理装置および/または第3のデータ処理装置は、クライアントコンピュータなどのローカル装置であってもよく、第2のデータ処理装置は、遠隔サーバなどの遠隔装置であってもよい。
【0041】
あるいは、少なくとも第1のデータ処理装置および第2のデータ処理装置の機能は、同じデータ処理装置、例えば、診療所のコンピュータなどのコンピュータに提供されてもよい。コンピュータ実装方法の全てのステップは、同じデータ処理装置において実行されてもよい。
【0042】
さらなる実施形態の説明
以下、実施形態を例として説明する。図を参照する。
【図面の簡単な説明】
【0043】
図1】XGBoost機械学習モデルを決定するための概略図である。
図2】対象についてのCKDのリスクを示すリスク因子を判定するためのコンピュータ実装方法の概略図である。
図3】全てのパラメータを使用するおよび限られた数のパラメータのみを使用する「フルXGブーストモデル」、「上位20XGブーストモデル」、および「LR上位20モデル」のROC曲線である。
【発明を実施するための形態】
【0044】
図1は、機械学習アルゴリズムを訓練および試験/検証することによって、機械学習モデルを決定または作成するための概略図を示し、機械学習モデルは、一例では、XGBoost機械学習モデルによって実装される。対象の集団についてのデータセットが、ステップ10において提供される。
【0045】
機械学習モデルは、例えばデータベースに表される糖尿病(1型または2型)を有する数十万人の人々からの電子健康記録(EHR)データを使用して作成される。データは、糖尿病の初期診断後の時間窓について取得される。データは、実世界データ(RWD)と考えることができ、例えば、データの完全性または正確性に対する一般的な制限は適用されない。
【0046】
モデルの教示または学習(訓練および試験/検証)のために、欠落データは帰属されない。XGBoost機械学習プロセスが適用されている。
【0047】
一例では、データセットは、いわゆるIBM Explorysデータベース(Kaelber,D.C.ら,Patient characteristics associated with venous thromboembolic events:a cohort study using pooled electronic health record data,J Am Med Inform Assoc 19,965-972,2012を参照)から提供された。対象の集団のデータセットの代替例は、患者ケアのためのインディアナネットワーク(INPC)データベース(McDonald,C.J.ら,The Indiana Network for Patient Care:a working local health information infrastructure,Health Affairs 24,1214-1220,2005を参照)である。
【0048】
データベースは、対象についての糖尿病診断の日付に関する指標を提供する。そのような情報から開始して、新たなパラメータが確立され、そのようなパラメータは、それぞれの対象についての糖尿病診断からの期間の指標を提供する。前処理ステップは、データベースに提供された糖尿病診断データからそのような追加のパラメータを決定するために適用される。それは、対象の集団からの対象について糖尿病診断が判定されてからの時間を示す診断パラメータからの時間を示す補足訓練データを提供する。したがって、補足訓練データをさらに含む訓練データの拡張セットが存在する。
【0049】
診断パラメータからの時間を示す補足訓練データを含むデータセットから、訓練データの集合および試験/検証データの集合が決定される(ステップ11、12)。訓練データのセットは、対象の集団についての複数のパラメータを示す(ステップ11)。対象の集団について提供されるデータセットに関して、訓練データのセットは、データが対象の集団のデータセットにおいて提供される(ほぼ)全てのパラメータを示す訓練データを含み得る。あるいは、パラメータのサブセットが機械学習モデルの訓練のために選択されてもよい。
【0050】
続いて、ステップ13において、訓練データのセットに基づく機械学習モデルのための訓練プロセスが存在する。一例では、訓練プロセスにおいて、XBoost機械学習モデルを決定または作成するためにXBoost訓練が適用される。機械学習モデルは、最終的なモデル評価のための試験/検証データのセットを適用して、ステップ14において最終的に決定される。
【0051】
図2は、対象の慢性腎臓疾患(CKD)のリスクを示すリスク因子を判定するためのコンピュータ実装方法に関する概略図を示している。ステップ20において、リスク因子が判定される対象についての複数のマーカーパラメータを示すマーカーデータが提供される。一例では、複数のマーカーパラメータは、年齢値、対象についての糖尿病診断からの時間を示す診断値からの時間、クレアチニンの試料レベル、推定糸球体濾過率(eGFR)、アルブミンの試料レベル、および血中尿素窒素(BUN)の試料レベルを示す。マーカーデータは、機械学習モデルへの入力として提供される(ステップ21)。機械学習モデルを適用することによって、対象についての慢性腎臓疾患のリスクのリスク因子が判定される(ステップ22)。機械学習モデルは、プロセッサおよびメモリを有するデータ処理装置上のソフトウェアアプリケーションによって実装される。
【0052】
一般に、CKDのリスクについて対象をスクリーニングするための方法の実施形態のいずれかでは、クレアチニンmaxは、対象についてのクレアチニンの複数の試料レベルからのクレアチニンの最大試料レベルであり得て、アルブミンminは、対象についてのアルブミンの複数の試料レベルからのアルブミンの最小試料レベルであり得て、eGFRminは、対象についての複数の推定糸球体濾過率からの最小推定糸球体濾過率であり得て、BUNminは、尿素窒素の最小血液試料レベルであり得る。そのような値および/または試料レベルは、対象について既に登録されている値および/または試料レベルから判定され得る。代替的または追加的に、値および/または試料レベルが、具体的には、CKDのリスクについて対象をスクリーニングするための方法によって使用するために対象について判定されてもよい。値および/または試料レベルは、現実のデータであってもよく、すなわち、臨床データとは異なり、例えば、データの完全性または正確性に関して制限されなくてもよい。
【0053】
ICDコードは、訓練のための標的変数として、ならびに検証結果の分析におけるCKD参照診断として使用され得る。標的特徴「CKD」の定義は、データベース内のそれぞれのICDコードの発生のみに基づいてもよい。データセットのRWD特性を維持するために、データベースに追加または変更が加えられなくてもよい。そのようなICDコードは、ICD-9コードおよびICD-10コード、例えば以下のICDコードを含み得る:250.40、250.41、250.42、250.43、585.1、585.2、585.3、585.4、585.5、585.6、585.9、403.00、403.01、403.11、403.90、403.91、404.0、404.00、404.01、404.02、404.03、404.1、404.10、404.11、404.12、404.13、404.9、404.90、404.91、404.92、404.93、581.81、581.9、583.89、588.9、E10.2、E10.21、E10.22、E10.29、E11.2、E11.21、E11.22、E11.29、N17.0、N17.1、N17.2、N17.8、N17.9、N18.1、N18.2、N18.3、N18.4、N18.5、N18.6、N18.9、N19、112.0、112.9、113、113.0、113.1、113.10、113.11、113.2、N04.9、N05.8、N08および/またはN25.9。
【0054】
実施形態では、ICD-9コード250.40、403.90、585.3、585.9は、データのそれぞれの時間窓において最も豊富な診断である。
【0055】
ICDコードはまた、糖尿病診断を判定するために使用され得る。例えば、1型糖尿病診断は、ICD-9コード250._1および/または250._3、および/またはICD-10コードE10.%に基づき得る。例えば、2型糖尿病診断は、ICD-9コード250._0および/または250._2、および/またはICD-10コードE11.%に基づき得る。「_」および「%」はプレースホルダであり、「_」は空でなくてもよい;ただし、プレースホルダ「%」は空であってもよい。
【0056】
実験データ
受信者動作特性(ROC)(Compare Swets,J.A.,Measuring accuracy of diagnostic systems,Science 240,1285-1293,1988)曲線下面積(AUC)は、臨床マーカーならびに機械学習アルゴリズム/モデル(Bradley,A.P.,The use of the area under the ROC curve in the evaluation of machine learning algorithms,Pattern Recognition 30,1145-1159,1997)の品質を測定するために頻繁に使用される。完全なマーカーは、AUC=1.0を達成するが、コインを投げるとAUC=0.5になる。
【0057】
学習手順においてXGBoostを適用する機械学習モデルは、データベースにおいて利用可能な全てのパラメータまたはパラメータのサブセットを参照する訓練データの異なるセットに基づいて訓練および試験されている。「フルXGブーストモデル」と呼ばれる機械学習モデルは、IBM Explorysデータベースにおいて利用可能な約100(約948個の特徴)などの複数のパラメータからの全てのパラメータを使用して訓練されている。この文脈におけるパラメータは、例えば、クレアチニン、アルブミン、年齢などを指す。この文脈における特徴は、例えば、クレアチニンmaxまたはクレアチニンmedianなどの選択値または統計値を指す。「フルXGブーストモデル」は、利用可能な全てのパラメータ(全ての特徴)を使用して作成された。データベースからのデータに関して、全てのパラメータが集団の全ての患者(対象)について利用可能であるとは限らない。パラメータの完全なセットによって作業する場合、特定のパラメータが特に重要であることが分かった(例えば、上位5または上位20または上位30)。
【0058】
さらに、「上位20XGブーストモデル」と呼ばれる機械学習モデルが、IBM Explorysデータベースからのデータのサブセットのみを使用して作成されている(訓練および試験)。実施形態では、データのサブセットのデータは、複数のパラメータからの(のみの)20個のパラメータに関連し、20個のパラメータは、「フルXGブーストモデル」の機械学習プロセスで最も重要であると分かったパラメータである。以下に、そのような20個のパラメータを列挙する(重要度の順ではない):年齢;アルブミン(血清および/または血漿);アルブミン(尿)、収縮期血圧、血中尿素窒素(BUN)、降圧薬による投薬、インスリンによる投薬;糖尿病性網膜症、虚血性心疾患、末梢動脈閉塞性疾患、脳血管疾患の既存の状態の数;クレアチニン(血清/血漿);糖尿病診断からの時間(日);パラメータが測定された、または診断が行われた2つの医師の診察間の平均時間幅;高血糖を伴う2型DMとの診断;心不全の診断;推定糸球体濾過率(eGFR);赤血球(血清および/または血漿);グルコース(血清および/または血漿);ヘマトクリット;ヘモグロビン;尿アルブミン/クレアチニン比(UACR);および体重。
【0059】
別個のモデルとして作成された「上位20XGブーストモデル」の訓練(学習手順)では、「フルXGBoostモデル」の訓練から決定された上位20個のパラメータのみが使用された。したがって、「上位20XGブーストモデル」が決定されたとき、他のパラメータ(利用可能な可能性はあるが)は無視された。
【0060】
「フルXGブーストモデル」と「上位20XGブーストモデル」の双方について機械学習モデルを評価するために、データベースが実世界データを提供する対象の集団についてAUCが決定された。そのような計算は、利用可能な全てのパラメータ(特徴)を考慮して、対象の集団について実行された。さらに、以下の(6つの)パラメータ:年齢、糖尿病からの時間、クレアチニン、推定糸球体濾過率(eGFR)、アルブミン、および血中尿素窒素(BUN)に関連するデータのみを考慮して(「限られた数のパラメータを使用して」)、対象の集団について計算が行われた。
【0061】
比較のために、複数のパラメータからの20個のパラメータに関するデータのサブセットのデータに基づいて同様に訓練されたロジスティック回帰(LR)モデルについてAUCが計算された。そのような機械学習モデルは、「LR上位20モデル」と呼ばれる。「LR上位20モデル(限られた数のパラメータのみ)」について、以下の(6つの)パラメータ:年齢、糖尿病からの経過時間、クレアチニン、推定糸球体濾過率(eGFR)、アルブミン、および血中尿素窒素(BUN)に関する対象特異的データのみを考慮する(「限られた数のパラメータを使用する」)ことによって、AUC計算および特異度@90%感度が評価された。14個の他のパラメータについては、対象特異的データが使用されなかったが、それらの他のパラメータについては、それぞれ選択されたコホートまたは統計値からデータを帰属させた。
【0062】
CKDのリスクについて対象をスクリーニングするための、またはCKDを発症するリスクが高い人々を識別するための方法の性能は、感度(正確に予測された高リスク患者の割合)および特異度(正確に割り当てられた低リスク患者の割合)にしたがって決定され得る。しかしながら、これらの数字のいずれかは、単に高リスクと低リスクとの間で閾値を変更することによって、他方を犠牲にして改善され得る。したがって、感度および特異度のデータ対は、感度が(誤って割り当てられた高リスク者の割合に対応する)1-特異度の関数としてプロットされている、いわゆる受信者動作特性(ROC)曲線(Swets,J.A.,Measuring accuracy of diagnostic systems,Science 240,1285-1293,1988を参照)の形態で示され得る。
【0063】
患者ケアのためのインディアナネットワーク(INPC)データベースからのデータについて、全てのパラメータまたは上記で特定された6つのパラメータのみについて行った計算の結果を表1に示す。
【表1】
【0064】
表1から分かるように、機械学習モデルのAUCは、示された全てのモデルについて高いが、XGBoostを適用することにより、LRモデルよりもさらに良好な結果を達成することができた。AUCを計算するために限られた数のパラメータのみを使用することは、依然として信頼できる結果を提供する。
【0065】
図3は、全てのパラメータを使用する場合と、限られた数のパラメータのみを使用する場合の双方について、「フルXGブーストモデル」、「上位20XGブーストモデル」、および「LR上位20モデル」のROC曲線を示している。完全な分類器の場合、ROC曲線は、左上コーナーに到達する。実際に、このコーナーに最も近いデータ対に対応する閾値は、「最適閾値」と呼ばれる。高感度を目指す場合、例えば90%の感度を保証するために別の閾値が選択されてもよい。
【0066】
本明細書に提示されている機械学習XGBoostモデルをさらに比較するために、欧州特許出願公開第3 543 702号明細書から知られているCKDのリスク因子を予測するためのモデル(アルゴリズム)についても計算が行われた。このモデルは、以下において「アルゴリズムモデル」と呼ばれる。「アルゴリズムモデル」は、ロジスティック回帰も適用する。データインピュテーションは適用されなかった。IBM Explorysデータベースからのデータについて行った計算の結果が表2に示されている。
【表2】
【0067】
表2から、XGBoostを適用した機械学習モデルは、「アルゴリズムモデル」よりもリスク因子判定の点で改善された結果を提供すると結論付けられる。
【0068】
要約すると、利用可能なマーカーパラメータの数が以下に限られている(マーカーパラメータの特定の選択)場合であっても、CKDのリスク因子を予測するための様々な機械学習モデルが堅牢に機能することが実証される:年齢、糖尿病からの時間、クレアチニン、推定糸球体濾過率(eGFR)、アルブミン、および血中尿素窒素(BUN)。結果は、臨床現場において適用され得る高品質の予測モデルへの経路をサポートし、個別化された成果ベースのヘルスケアへの移行を可能にする。
図1
図2
図3
【国際調査報告】