IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノボ・ノルデイスク・エー/エスの特許一覧

特許7546567機械学習の実装の取り込みに基づく改善された低血糖症予測のための血糖データセットの最適化
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-29
(45)【発行日】2024-09-06
(54)【発明の名称】機械学習の実装の取り込みに基づく改善された低血糖症予測のための血糖データセットの最適化
(51)【国際特許分類】
   G16H 20/00 20180101AFI20240830BHJP
   G16H 50/20 20180101ALI20240830BHJP
【FI】
G16H20/00
G16H50/20
【請求項の数】 8
(21)【出願番号】P 2021533545
(86)(22)【出願日】2019-12-11
(65)【公表番号】
(43)【公表日】2022-02-03
(86)【国際出願番号】 EP2019084634
(87)【国際公開番号】W WO2020120571
(87)【国際公開日】2020-06-18
【審査請求日】2022-11-10
(31)【優先権主張番号】19153723.2
(32)【優先日】2019-01-25
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】62/779,638
(32)【優先日】2018-12-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】596113096
【氏名又は名称】ノボ・ノルデイスク・エー/エス
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】イマンバエフ, アヌアル
【審査官】吉田 誠
(56)【参考文献】
【文献】特開2010-142273(JP,A)
【文献】特開2005-328924(JP,A)
【文献】特表2014-514120(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00 - 80/00
(57)【特許請求の範囲】
【請求項1】
分類子の取り込みに基づく改善された低血糖症予測のためのデータセット最適化のための、コンピュータにより行われる方法であって、前記方法が、
-対象者に関する未加工のデータセットを提供する工程であって、前記データセットが、所与のサンプリングレートで取得された複数のBG値、およびそれらの値に関連付けられた、複数日Nにわたるタイムスタンプ、を含む、提供する工程と、
評価履歴限界(evaluation Historical Horizon:eHH)内の評価ブロック値入力Xとしてローリングスキームの時間的ビニングによってデータ変換を実施して、予測履歴限界(prediction Historical Horizon:pHH)内の対応する予測値出力Yとして作成する工程と、を含み、
-Xが、所与の過去の期間T-pに対する、BG値を含むスライディングウィンドウとして作成され、
-前記データ変換は、前記スライディングウィンドウとして作成された前記Xを用いた日ごとのBG値の前記ローリングスキームの時間的ビニングによって、M日間(M≧2、M<前記N)の評価ブロックへのデータ拡張を実施することを含み、
-Yが、所与の将来の時間T-fにおけるBG値が、低血糖症状態を示す所与の閾値を下回るか否かを示すインジケータIとして作成される、方法。
【請求項2】
取得される前記未加工のデータセットが、M日間のインスリン滴定レジメンに基づく、請求項に記載のデータセット最適化のための方法。
【請求項3】
前記データ変換が、
-公称サンプリングレートに対応するリサンプリング、および欠落BG値を置き換えるための補間されたBG値の作成を用いてデータプレパレーションを実施することをさらに含む、請求項1又は2に記載のデータセット最適化のための方法。
【請求項4】
前記データ変換が、少なくとも2つの異なる過去の期間T-pにわたって実施される、請求項1~のいずれか一項に記載のデータセット最適化のための方法。
【請求項5】
T-fが、T-pに対応する、請求項に記載のデータセット最適化のための方法。
【請求項6】
低血糖症予測のための予測モデルとして用いられる分類子を訓練するための方法であって、
-請求項1~のいずれか一項で定義されるように変換されたデータセットを提供する工程と、
前記分類子の訓練のために前記変換されたデータセットを取り込む工程と、
-取り込まれた前記データセットを用いた機械学習を実施することにより前記分類子を訓練する工程と、を含む、方法。
【請求項7】
前記分類子が、ランダムフォレスト分類子である、請求項に記載の分類子を訓練するための方法。
【請求項8】
対象者からのデータセットの時間的最適化を実施するためのコンピュータ処理システムであって、コンピュータシステムが、1つ以上のプロセッサと、メモリと、を備え、前記メモリが、
-命令を含み、前記命令が、前記1つ以上のプロセッサによって実行されると、請求項1~のいずれか一項に定義される方法を実施する、コンピュータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、糖尿病に対するインスリン治療の管理において、患者および医療従事者を支援するためのシステムおよび方法に関する。特定の態様では、本発明は、機械学習(ML)の実装を取り込むために最適化されたより高いデータ分解能のための方法に関する。
【背景技術】
【0002】
真性糖尿病(DM)は、高血糖につながるインスリン分泌障害および様々な程度の末梢インスリン抵抗性である。2型真性糖尿病は、正常な生理的インスリン分泌の進行性の妨害を特徴とする。健康な個体では、膵β細胞による基礎インスリン分泌が連続的に起こり、食間で長期間にわたって定常グルコースレベルを維持する。健康な個体ではまた、食事に対応する初期の第1段階スパイクでインスリンが急速に放出され、続いて2~3時間後に基底レベルに戻る長期インスリン分泌が続く。何年も制御不良な高血糖症が続くと、複数の健康上の合併症を引き起こす可能性がある。真性糖尿病は、世界中の早期罹患率および死亡率の主な原因の1つである。
【0003】
血糖/血漿グルコース(BG)の効果的な制御は、これらの合併症の多くを予防または遅延させることができるが、一度確立されるとそれらを元に戻すことができない可能性がある。したがって、糖尿病の合併症を予防するための努力において良好な血糖コントロールを達成することは、1型および2型糖尿病の治療における主要な目標である。特に、インスリン用量調節の頻繁な変化は、患者の血糖値の安定化を助けるための鍵となる(Bergenstal et al.,“Can a Tool that Automates Insulin Titration be a Key to Diabetes Management?”Diabetes Tech.and Thera.2012;14(8)675-682)。インスリン薬剤治療レジメンを施すために、調節可能な工程サイズ、ならびに生理学的パラメータ推定および所定の空腹時血糖標的値を用いるスマートタイトレータが開発されている。長時間作用型基礎インスリンの最適な開始方法および滴定方法は、依然として決定されている。しかしながら、証拠は、多くの患者が、グルコース管理の目標レベルを達成するのに十分に滴定されたインスリン用量を受け取らないこと(最適以下の用量のままであり、治療目標に到達できない)が多いことを示唆している(Holman et al.,“10-year follow-up of intensive glucose control in type 2 diabetes,”N.Engl.J.Med.2008;359:1577-1589)。
【0004】
インスリンレジメンに関する主要な問題のうちの1つは、患者の自律性およびエンパワメントの欠如である。患者はしばしば、新しい滴定量を計算するために診療所を訪問しなければならない。診療所が患者のインスリン用量を滴定しなければならない場合、滴定用量の変更頻度には自然制限がある。自己滴定レジメンは、患者のエンパワメントを促進し、治療により深く関与することを可能にし、その結果、血糖コントロールの改善をもたらす可能性がある(Khunti et al.,“Self-titration of insulin in the management of people with type 2 diabetes:a practical solution to improve management in primary care,”Diabetes,Obes.,and Metabol.2012;15(8)690-700)。糖尿病の管理およびインスリンの滴定に積極的な役割を果たす患者は、自身のセルフケアに責任を持ち、自身の行動が自身の疾患に影響を及ぼし得ると強く信じ、より良い治療結果をもたらすことができる可能性がある(Norris et al.,“Self-management education for adults with type 2 diabetes:a meta-analysis on the effect of glycemic control.”Diabetes Care.2002;25:1159-71、Kulzer et al.,“Effects of self-management training in type 2 diabetes:a randomized,prospective trial,”Diabet.Med.2007;24:415-23、Anderson et al.,“Patient empowerment:results of a randomized controlled trial.”Diabetes Care.1995;18:943-9)。さらに、患者が自身の滴定を管理している場合、滴定の頻度が増加し、それにより、患者が所望の血糖値を達成する可能性が高まる。
【0005】
しかしながら、より積極的な滴定のアプローチでは、低血糖症事象(以下、「低血糖」)のリスクはより高くなり、毎日複数回の注射(MDI)に基づく滴定レジメンの場合、リスクはさらに増す。これに対して、短期低血糖予測(STHP)のためのいくつかのソリューション、例えば、Kovatchevら(TypeZero&University of Virginia group)の“Evaluation of a New Measure of Blood Glucose Variability in Diabetes”,Diabetes Care,Vol29(11),2006年11月、Sparacinoら(Cobelli Lab in University of Padova)の“Glucose Concentration can be Predicted Ahead in Time From Continuous Glucose Monitoring Sensor Time-Series”,IEEE Transactions on Biomedical Engineering,Vol.54(5)2007年5月、Francら(Volunits with Sanofi)の“Real-life application and validation of flexible intensive insulin-therapy algorithm in type 1 diabetes patients”,Diabetes Metab.2009年12月,35(6):463-8、および Sudharsanら(WellDoc)(LTHP 24-hours ahead literature comparison)の“Hypoglycemia Prediction Using Machine Learning Models for Patients with Type 2 Diabetes”,Journal of Diabetes Science and Technology 2015,Vol.9(1)86-90が提案されている。
【0006】
この問題に対処するため、US2008/0154513は、糖尿病の最適な制御の維持に関連する方法、システム、およびコンピュータプログラム製品を開示しており、血糖自己モニタリング(SMBG)装置によって集められた血糖読み取り値に基づいて、今後の期間にわたる低血糖症、高血糖症、グルコース変動の増加、および不十分または過剰な試験のパターンを予測することを対象としている。ユーザの高血糖症のパターンを識別および/または予測するための方法は、複数のSMBGデータポイントを取得する工程と、所定の持続期間を有する期間内のSMBGデータポイントを分類する工程と、各期間のグルコース値を評価する工程と、上記評価に基づいて後続の期間にわたって高血糖症のリスクを示す工程と、を含む。評価には、上記グルコース値に基づいて高血糖症に対する個別偏差を決定する工程と、個別偏差および絶対偏差に基づいて上記各期間の複合確率を決定する工程と、各期間の上記複合確率を予め設定された閾値と比較する工程と、が含まれ得る。期間は、24時間の日を、所定の持続期間を有する時間ビンに分割することを含み得る。
【0007】
上述の問題に対処し、低血糖のリスクをよりうまく軽減するために、本発明の目的は、将来の低血糖を予測して、現在の推奨用量を低下させる能力を改善する方法およびシステムを提供し、これにより、より正確な滴定レジメンを可能にし、かつそれによって、2型糖尿病の治療を可能にすることである。本発明の特定の目的は、分類子の取り込みおよび機械学習アルゴリズムに基づく改善された低血糖症予測を可能にする、データセット最適化のための方法を提供することである。かかる方法は、投与ガイダンスシステムで使用するために当局の承認を受けるのにより適したものにするために、透明で制約のあるアプローチを使用する必要がある。
【先行技術文献】
【特許文献】
【0008】
【文献】US2008/0154513
【非特許文献】
【0009】
【文献】「Can a Tool that Automates Insulin Titration be a Key to Diabetes Management?」
【文献】「10-year follow-up of intensive glucose control in type 2 diabetes」
【文献】「Self-titration of insulin in the management of people with type 2 diabetes:a practical solution to improve management in primary care」
【文献】「Self-management education for adults with type 2 diabetes:a meta-analysis on the effect of glycemic control」
【文献】「Effects of self-management training in type 2 diabetes:a randomized,prospective trial」
【文献】「Patient empowerment:results of a randomized controlled trial」
【文献】「Evaluation of a New Measure of Blood Glucose Variability in Diabetes」
【文献】「Glu-cose Concentration can be Predicted Ahead in Time From Continuous Glucose Monitoring Sensor Time-Series」
【文献】「Real-life application and validation of flexible intensive insulin-therapy algorithms in type 1 diabetes patients」
【文献】「Hypoglycemia Prediction Using Machine Learning Models for Patients with Type 2 Diabetes」
【発明の概要】
【0010】
課題を解決するための手段
本発明の開示では、上記の目的のうちの1つ以上に対処する、または下記の開示だけでなく例示的な実施形態の説明からも明らかな目的に対処する、実施形態および態様が説明される。
【0011】
本発明の第1の態様は、分類子の取り込みに基づく改善された低血糖症予測のためのデータセット最適化のための方法であって、方法が、対象者に関する未加工のデータセットを提供する工程であって、データセットが、所与のサンプリングレートで取得された複数のBG値、およびそれらの値に関連付けられた、複数日Nにわたるタイムスタンプ、を含む、提供する工程と、評価ブロック値(eHH)を入力Xとしてローリングスキームの時間的ビニングによってデータ変換を実施して、対応する予測値(pHH)を出力Yとして作成する工程と、を含み、Xが、所与の過去の期間T-pに対する、BG値を含むスライディングウィンドウとして作成され、Yが、所与の将来の時間T-fにおけるBG値が低血糖症状態を示す所与の閾値を下回るか否かを示すインジケータIとして作成される、方法が提供される。
【0012】
概して、予測モデルは、訓練されるデータによって決まる。上記の方法によって、同じ量のデータを、ランダムフォレスト(RF)分類子などの機械学習アルゴリズムにフィットし、それに応じて適合する、より効率的かつより良い方法で利用することができる。
【0013】
対照的に、US2008/0154513に開示されるような、低血糖症のパターンを予測することを対象とした以前の試みは、BGデータの単純な時間的ビニング、およびそれに続く組織化されたデータの従来の数学的分析に依存してきた。
【0014】
データ変換は、少なくとも2つの異なる過去の期間T-pにわたって実施され得る。T-fは、T-pに対応し得、例えば、15分の予測値は、15分のBG値に基づく。
【0015】
例示的な実施形態では、データ変換の工程は、M日間の評価ブロックへの日ごとのBG値のローリングスキームの時間的ビニングによってデータ拡張を実施する工程の後に行われ、Mは、2以上であり、かつ複数日N未満である。
【0016】
かかるデータ拡張は、取得される未加工のデータセットが、M日間のインスリン滴定レジメン、例えば、変更前の同じインスリン用量を用いた3日間に基づく場合、かかるレジメンは通常、所与の基礎インスリンの使用説明書に示されるように、基礎インスリンの滴定のために使用される。ボーラスインスリンに基づくデータセットの場合、M=1が妥当であろう。実際、M=1の場合、実際の拡張は行われない。
【0017】
例示的な実施形態では、未加工のデータセットを提供する工程は、公称サンプリングレートに対応するリサンプリング、および欠落BG値を置き換えるための補間されたBG値の作成を用いてデータプレパレーションを実施する工程の前に行われる。
【0018】
本発明のさらなる態様では、分類子を訓練するための方法が提供され、分類子に最適化されたデータセットを取り込み、取り込まれたデータセットに基づいて分類子を訓練する、上述のように最適化されたデータセットを提供する工程を含む。分類子は、ランダムフォレスト分類子であってもよい。
【0019】
本発明のさらなる態様では、将来のBG値を予測するための方法であって、対象者からBG値の一連の評価を取得する工程と、上述のように訓練された分類子にBG値の一連の評価を取り込む工程と、予測BG値を提供する工程と、を含む、方法が提供される。分類子を訓練したデータセットは、BG値の一連の評価と同じ対象者から取得されている場合がある。BG値の一連の評価は、継続的な血糖モニタリング(CGM)、例えば、5分ごとにBG値を生成することによって取得され得る。
【0020】
本発明のなおもさらなる態様では、対象者からのデータセットの時間的最適化を実施するためのコンピュータ処理システムであって、コンピュータシステムが、1つ以上のプロセッサと、メモリと、を備え、メモリが、命令を含み、命令が、1つ以上のプロセッサによって実行されると、本発明の異なる態様に従って上で定義される方法を実施する、コンピュータ処理システムが提供される。
【0021】
特定の例示的な実施形態では、同じ量のデータを使用するが、より拡張された、よりスマートなフィットする方法でのデータの時間的最適化および拡張が、以下の工程を実行することによって提供される。
(1)欠落データの取り扱い:スプライン補間ソリューションを用いた5分間のリサンプリング:データサイズが、ソフトウェアコードの一部を用いたデータプレパレーションのデータ品質処理要件を達成する欠落データに応じて増加する。
(2)ローリングスキームの時間的ビニングによる評価限界履歴(eHH):3日間の調査ブロックの臨床的に導出された間隔または3日前の評価限界履歴(eHH)内にネストされた一連のCGM測定値をビニングするために、標準的な逐次スキームとは対照的に、時間的に最適化された日ごとのローリングスキームを用いた3日間のブロックビニング。
(3)ローリングスキームの時間的ビニングによる低血糖症の予測限界履歴(pHH):今後のある将来の時間間隔、対応する以前の遡及的な時間間隔に基づく15分、30分、および60分先の予測限界(PH)、または15分、30分、および60分前の予測限界履歴(pHH)でそれぞれ低血糖症の予測を繰り返し行う、ソフトウェアプログラム。各工程で、5分ごとに、逐次スキームとは反対にローリングスキームでも、pHH=PH予測が行われる。
【0022】
これら3つの工程を全て合わせると、元の未処理のBGデータセットのサイズおよび深度が増加する。したがって、3つの工程の技法で変換された処理済みのデータセットは、ML分類子フォーマットに直接かつ迅速に、有意に大きなサイズだけではなく、深度および操作上の取り込み可能性も達成する。未処理または未加工のデータセットは、同じ効率で容易にまたは直ちにML分類子フォーマットに取り込むまたは供給することができない。
【0023】
合わせると、評価限界履歴および予測限界履歴の間隔のローリングスキームの時間的ビニングによる欠落データのスプライン補間は、高い感度(低血糖症事象の正確な予測)および高い特異性(非低血糖症事象の正確な予測)での低血糖症のより正確な予測を施すために、CGM分解能データの最適化をもたらす。
【図面の簡単な説明】
【0024】
以下では、本発明の実施形態を、図面を参照しながら説明する。
図1】本開示の一実施形態による例示的なデータプレパレーションモジュール示す。
図2】本開示の一実施形態による例示的なデータ変換モジュール示す。
図3】本開示の一実施形態による例示的なポインタルックアップテーブル示す。
図4】本開示の一実施形態による例示的な時間的ビニングの最適化示す。
図5】本開示の一実施形態による、異なるpHH値についての例示的な低血糖症判定モジュール示す。
図6】本開示の一実施形態による、異なるpHH値についての例示的な低血糖症判定モジュール示す。
図7】本開示の一実施形態による、異なるpHH値についての例示的な低血糖症判定モジュール示す。
図8】本開示の一実施形態による、後続のML処理のための例示的な訓練結果の保存示す。
図9】本開示の一実施形態による例示的なランダムフォレスト(RF)分類子の実装を示す。
図10】本開示の一実施形態による例示的なランダムフォレスト(RF)分類子の実装を示す。
図11】本開示の一実施形態によるRF分類子の結果を示す。
図12】本開示の一実施形態によるRF分類子の結果を示す。
図13】文献の結果と比較したRF分類子の結果を示す。
図14】文献の結果と比較したRF分類子の結果を示す。
図15】本開示の一実施形態による実施例を集合的に示す。
図16】本開示の一実施形態による実施例を集合的に示す。
図17】本開示の一実施形態による実施例を集合的に示す。
図18】本開示の一実施形態による実施例を集合的に示す。
図19】本開示の一実施形態による実施例を集合的に示す。
図20】本開示の一実施形態による実施例を集合的に示す。
図21】本開示の一実施形態による実施例を集合的に示す。
図22】本開示の一実施形態による実施例を集合的に示す。
図23】本開示の一実施形態による実施例を集合的に示す。
図24】本開示の一実施形態による実施例を集合的に示す。
図25】本開示の一実施形態による実施例を集合的に示す。
図26】本開示の一実施形態による実施例を集合的に示す。
図27】本開示の一実施形態による実施例を集合的に示す。
【0025】
図において、同様の構造物は、主として同様の参照番号によって特定される。
【発明を実施するための形態】
【0026】
本開示は、少なくとも1人の対象者に関連する情報を含む訓練および試験データのセットの獲得に依存する。データセット(複数可)は、血糖履歴を確立するために、時間的経過にわたって得られた対象者の複数の血糖測定値と、複数の血糖測定値における各それぞれのグルコース測定について、時間的経過中のどの時点でそれぞれのグルコース測定が行われたかを表す対応する血糖タイムスタンプと、1つ以上の基礎インスリン注射履歴と、を少なくとも含み、注射履歴は、時間的経過のすべてまたは一部分の間の複数の注射と、複数の注射における各それぞれの注射について、対応する投与事象の量および時間的経過中のどの時点でそれぞれの注射事象が発生したかを表す投与事象のタイムスタンプと、を少なくとも含む。
【0027】
STHP分類子:STHP分類子のデータプレパレーションおよびデータ変換
短期間における低血糖症または低血糖レベルの有害事象の予測もしくは検出を決定するために、15分~最大60分先、次いで、現在、実験上、および将来の機械学習の方法論の予測限界(PH)は、1日あたり1もしくは2ポイントでの血糖の自己モニタリング(SMBG)から、15分間隔のフラッシュグルコースモニタ(FGM)または5分間隔の連続グルコースモニタ(CGM)まで、異なる時間的分解能を完全に取り込み、採用し、そして活用するために、最適化および適合を必要とする。
【0028】
概して、予測モデルは、訓練されるデータによって決まる。したがって、データ品質を改善するか、または同じ量のデータをより効率的に利用することが最も重量であり価値がある。この現在のソリューションでは、CGMのより高い時間的分解能でより多くのデータを活用するだけでなく、このデータを、ランダムフォレスト(RF)分類子などの機械学習アルゴリズムにフィットし、それに応じて適合する、よりスマートでより良い方法で利用することも目指す。例えば、午後12時~午後3時の間隔の空間で、Dexcomによる毎時レポートを伴うSMBGの低分解能では、3つの間隔のみを取得することが可能である。CGM高分解能および完全なデータ最適化により、25個の間隔を取得し、ランダムフォレスト(RF)分類子などのMLモデルに供給することができる。
【0029】
ランダムフォレスト分類子アルゴリズムに対するCGMデータの現在の構成または利用は、以下のとおりである。例えば、次の60分間(PH=60分先)の低血糖症を予測するには、過去60分間を入力の予測限界履歴(pHH)として利用するが、それでも評価限界履歴(eHH)の過去3日間のブロック内に制限される。CGMデータがなく、SMBGデータのみの場合、時間的シフトは1時間ごとに発生する。
【0030】
例えば、SMBGデータでは、例えば、午後12時~午後3時までの3時間の空間では、3つの時間的データの間隔、1)午後12時~午後1時までの第1の間隔、2)午後1時~午後2時までの第2の間隔、および3)午後2時~午後3時までの第3の間隔のみが存在する。
【表1】
【0031】
これは、SMBGまたは他の装置などの他の測定スキームの制約内では意味をなすが、CGMでは意味がない。このより低い分解能のスキームでは、CGMからのより高い分解能のデータを最適化し、完全に利用することができない。
【0032】
CGMの時間的最適化は、CGMによって制約されているように、3時間の同じ空間内に、各5分間隔で、25個の時間的データの間隔を適合させる。
【表2】
【0033】
午後12時~午後3時:SMBG低分解能(Dexcomは毎時レポート):3つの間隔、CGM高分解能(完全最適化):25個の間隔。
【0034】
要約すると、上記は予測限界履歴(pHH)の時間的ビニングの最適化である。したがって、この時間的データ最適化および適合により、機械学習ランダムフォレスト分類子のために3つのデータ間隔だけを準備する代わりに、25個のデータの時間的間隔を準備し、機械学習ランダムフォレスト分類子のために用意し、これにより、データ利用可能性を増加させ、使用ケースを訓練する。
【0035】
当然のことながら、このCGMデータの完全な利用は、単に次の論理工程として見なすことができ、真の改善は、機械学習アルゴリズムに対するCGMデータのより高い分解能の適用にあり、そのうちのいくつか、例えば、時系列ARIMAモデルは、statsmodelsパッケージからのseasonal_decomposeなどの他の関数によって捕捉される、日ごとに発生する強い季節成分がデータに明らかに存在する場合でも、日ごとの変動を捕捉するためのその多くの(1日あたり288ポイント)の季節パラメータではうまくいかない。
【0036】
これらのCGMデータ最適化および適合の方法ならびに関数がなければ、ランダムフォレスト分類子などの機械学習アルゴリズムは、十分に訓練されず、フィットもせず、予測を作成しようとしているデータを表すことができない。
【0037】
中間の5分の間隔を利用するための医学的および科学的根拠は、時間的線形性、順序、および最小データ品質の仮定が維持されている限り、各15分、30分、または60分の間隔は、将来に向けてのみ見積もられ、5分刻みで次々と線形状に続き、新しいウィンドウ内で捕捉され得る新しいデータトレンドを除き、午後12時~午後1時のウィンドウと午後12:05分~午後1:05分のウィンドウのどちらを適用しても違いはない。
【0038】
例えば、5分ごとの間隔での単一ポイントのCGM分解能の代わりに、1時間ごとの単一ポイントのSMBG分解能内では、仮に、午後12時~午後1時が欠落している場合、そのデータを、リスクの高い外挿による場合を除き、書き込む方法はない。CGM分解能では、午後12時~午後1時までの間隔が欠落しているが、午後12:05分~午後1:05分までが利用可能な場合、そのCGMの5分間隔シフトされた午後12:05分~午後1:05分までの1時間の持続時間が、受諾されたデータになる。
【0039】
SMBG分解能では、午後1時~午後2時までの間隔が欠落している場合、午後12時~午後1時までの間隔と、午後2時~午後3時までの間隔との間で補間することが可能であり、ある程度のリスクは生じるが、外挿ほどではない。SMBG分解能では、午後2時~午後3時までの間隔が欠落している場合、それは午後12時~午後1時までの間隔が欠落している場合と同様の状況であり、その欠落データを書き込むために外挿が必要になる。基本的に、間隔のエッジケースは外挿を必要とするが、欠落データのケース間または間隔は補間を必要とする。どちらもリスクはあるが、補間は外挿よりもリスクが少ない。
【0040】
CGMデータ最適化工程は、より高い分解能を利用し、かつもちろん医学的制約の範囲内で、代わりに他の5分シフトされた1時間の間隔に頼ることができることによって、この補間および外挿の必要性を取り除く。例えば、20分を超えて欠落している場合、午後12時~午後1時までの間隔を、仮に、午後12:25分~午後1:25分までの間隔(午後12時~午後12:25分までの間のすべての間隔が欠落、基本的に5つの間隔が欠落した状態)に置き換えることは得策ではない。そうでなければ、医学的、科学的、生理学的な視点から、20分または45分の間隔内で、相互に置換、平均化、または補間することができ、これにより、データが欠落している、不完全である、または破損している場合でも、データの品質および線形性のある程度の閾値が満たされている限り、ランダムフォレスト分類子などの機械学習アルゴリズムに確実にフィットまたは適合し得る適合関数の記述が可能になり、これは、MBGならびに他の方法論および装置のより低い時間的データ分解能を持つ非常に厳格で要求の厳しい閾値に対して、CGMはより高い時間的データ分解能を持つはるかに緩い閾値である。
【0041】
これについて考える別の方法は、データ品質に関して、以下のとおりである。可能な限りすべてを使用するCGM最適化では(ただし、線形に制約される)、データの欠落または破損の余地があり、ランダムフォレスト分類子などの機械学習アルゴリズムには、予測を生成するのに十分なデータがまだある。SMBGが3つの間隔のみである場合、1つの間隔が欠落していたとしても、ランダムフォレスト分類子の機械学習アルゴリズムは中断し、次の時間の予測を与えることはできない。
【0042】
以下において、Jupyter Notebookコードにおけるデータプレパレーションモジュールの例示的な実施形態を説明する。図1を参照されたい。
【0043】
データプレパレーションモジュールは、「convertToTS」および「removeNaNdays」関数を採用する。「removeNaNdays」関数自体は、データ変換モジュールの工程で網羅される、別の関数の出力ルックアップテーブル「pointerTable」を採用する。最後に、「interpolateList」関数が採用される。図1を参照されたい。
【0044】
より具体的には、以下が行われる。
1.対象者のCGMデータが読み込まれる。対象者のCGMデータは、表形式のデータフレームのオブジェクトタイプである。
2.(利用可能なラベルがある場合)対象者のCGMデータは、任意の「SMPG」または他のデータラベルを除去し、「CGM」データラベルのみを残す。
3.「convertToTS」関数を採用すると、対象者のCGMデータ(通常は表形式)が、さらなるデータプレパレーションのために時系列オブジェクトに変換される。
4.Pandas時系列のネイティブリサンプリング関数を、少なくとも一部のCGMデータを有する日のみを含む、対象者のCGM時系列のオブジェクトデータの平均値を用いて採用することは、「5-T」または5分のビンにリサンプリングすることでさらに準備される。欠落データがない場合、この工程は同じデータセットをもたらすが、データ解析のためにきちんと積み重ねられる。例えば、85mg/dLでの午後12:01:43秒の時点は、同じ85mg/dLで午後12:00分になる。また、92mg/dLでの午後12:06:21秒は、同じ92mg/dLで午後12:05分になる。欠落データがある場合、このリサンプリング工程は、最初に、元の未加工のデータセットを、処理済みのより大きなデータセットへと実質的に増加させ、後続の工程で実際の値に変換する必要がある新しい欠落データまたはNaNを生成する。ただし、最初に、任意の完全なNaN日を除去する必要がある。臨床研究では、完全なNaN日は、基本的にベースラインと経過観察日との間の期間である。ベースラインおよび経過観察の両方のタイムスタンプが1つのデータオブジェクト内にあるため、リサンプリング工程は残念なことに、プログラムで除去する必要のある、不必要な欠落したNaN日の非観察期間を追加する。これは次の工程で達成される。
5.「removeNaNdays」関数を採用する。
入力:対象者のCGM[Time Series]オブジェクトデータタイプ
処理:完全に欠落したNaN日間をスキャンして除去する
根拠:日と日との間の日全体を補間することもリスクである。リスクがはるかに低いのは、同日中にCGM値を補間することであり、これは、データプレパレーションの次の工程および最後の工程となる。
出力:対象者のCGM[List]オブジェクトデータタイプ。[Time Series]オブジェクトデータタイプがなくなった!
この関数は、データ変換モジュールの工程で説明する「pointerTable」関数を採用する。
6.「interpolateList」関数を採用して、この消去された処理済みCGM値のリストは、最終的に、少なくとも一部のCGMが利用可能な状態の日の範囲内の任意のNaNまたは欠落データを書き込む高度なスプライン補間で補間される。
【0045】
次に、データ変換モジュールは、1日288ポイントのCGMのルックアップテーブルの「pointerTable」関数の出力を採用する。図2を参照されたい。
【0046】
より具体的には、以下が行われる。
1「pointerTable」関数は、288ポイントのCGMをIDとして相互参照したルックアップテーブルを一度作成するだけである。
2.「pointerTable」関数を採用すると、CGMのリストは、相互参照された288個のIDを割り当てて、特定の値がその日のどの時点またはタイムスタンプにあるかを調整する。
【0047】
CGMポインタテーブルルックアップサブモジュール
医学的および科学的な観点から、CGMデータポイントが、空腹時血漿グルコース(FPG)の決定および確証のために、朝の午前または夕方の午後、とりわけ、夜間の夜の時間帯と朝の時間帯に関連付けられているかどうかを知ることが重要である。典型的なCGM日の288個のIDを相互参照することにより、CGM値のリストオブジェクトを有するだけで、時系列オブジェクトなしで、かかる情報を依然として取得するために、単一の日のためのポインタルックアップテーブルを考案した。
【0048】
典型的なCGM日のポインタテーブルの288個のIDを利用することにより、タイムスタンプ成分をストリッピングして、CGM値のリストのみを残すことができる。次に、このCGM値のリストをML分類子フォーマットアルゴリズムに供給し、取り込むことができる。残念ながら、時系列オブジェクト自体を、ML分類子フォーマットアルゴリズムに供給することはできない。したがって、CGMの288ポイントのIDテーブルとの相互参照が必要である。
【0049】
1日の内の時点または時間の情報(例えば、その日の288個のCGMポイントのうちid=10が、午前0:50分または午前12:50分の時点に対応する)を保持するために、毎日5分の288ポイントのCGM工程のポインタルックアップテーブルを作成する。図3を参照されたい。
【0050】
頂部(左の図)については、ポインタテーブルid=9は、午前12:45分の実際の時点に対応し、底部(右の図)については、ポインタテーブルid=287は、午後23:55分または午後11:55分に対応する。
【0051】
したがって、かかるポインタルックアップテーブルでは、CGM値のリスト(数日、例えば、14~16日を含み得る)を反復処理し、利用可能な時点のデータなしに、1日の内のどの時間をCGM値が指しているかを理解することが可能になる。したがって、ポインタインデックス0が午前12:00分で新しい日に対応するため、CGM値の長いリストを、日ごとの塊に分けることが可能になる。
【0052】
ポインタID=0が新しい日または翌日を示すため、CGM値の合計リストは、その日の前のスタンドアロンリストへの入力を停止し、翌日のCGM値の新しいスタンドアロンリストを始めることができる。さらに、本アルゴリズムは、288ポイントすべてを含む丸1日しか追加しない。288ポイント未満の日は、丸1日としては追加されない。例えば、ユーザまたは患者のほとんどの臨床的または現実的な治験では、通常、最初と最後の日または数日が、288ポイント未満を有する。かかるデータのコーナーエッジキャップについて、欠落データを外挿、補間、または書き込むことは難しいため、かかるデータを利用しないことが最良である。最後に、本アルゴリズムは、終了ケースも処理する。そうしないと、試験で確認されるように、最終日が適切に追加されない。結果として、ここで、CGM値の合計リストが日ごとの塊またはブロックにビニングされる。
【0053】
そのため、pointerTableは、STHP分類子コードベースの2つ場所でのみ呼び出される。
1.完全に欠落している日または後続の除去のためのNaN日を識別および指定するために、「removeNaNdays」機能を採用した。
2.主に、単一の日のブロックから3日間のブロックの評価限界履歴(eHH)を作成することをタスクとする、データ変換モジュールの工程処理(ループの場合のステートメント)を採用した。
入力:CGM値のクリーンなリスト
処理:「pointerTable」関数のpointerTable出力との相互参照
出力:最初にCGM値の日ごとリストにビニングする(1日あたり288ポイントまたは日ごとの塊)
【0054】
以下では、ローリングスキームの時間的ビニングによるCGMのより高い時間的分解能の最適化を提供する、データ最適化モジュールを説明する。機械学習ランダムフォレスト分類子に取り込むための適合
【0055】
評価限界履歴(eHH)-時間的ビニングの最適化。図4を参照されたい。
入力:CGM値の日ごとリスト。ただし、3日間の塊またはブロックにはまだビニングされていない。
処理:ローリングスキームの時間的ビニングの第1の工程の利用
出力:次いで、これらの日ごとの塊を、3日間の塊またはブロックにビニングすることができる。
根拠:医学的および科学的な考慮事項と患者の生理学的調節期間のガイドライン、ならびにランダムフォレスト分類子に供給するためのモデル訓練期間の管理可能な入力の考慮事項に基づいて、日ごとおよび3日間の塊にビニングする。
1.ループのメインは、日ごとの履歴の塊を3日間の限界履歴(HH)の塊に変換することを扱う。
2.「functools」パッケージから「reduce」関数を採用すると、結果として得られるリストのリストは、単に単一の実行中のリストに変換されるか、または低減されるか、またはフラット化されるが、この時間の各リストは、単一の日ではなく、臨床的に必要な3日間の観察または評価を表す。
【0056】
これまでのところ、CGMデータには、5分のリサンプリング関数で増大する実質的な機会が1つしかなかった。補間関数の行いのすべては、5分のリサンプリング工程が既に増大または拡張されている欠落NaNを書き込むことであった。そのため、補間関数はデータを増大または拡張させることができない。同様に、日ごとの塊へのビニングは、単に対象者のCGMデータで利用可能な日数を示すようにセットアップされる。この工程では、全体的なデータ拡張は行われない。繰り返しになるが、データセットを増大させる第1の実質的な機会は、5Tまたは5分のリサンプリング工程であった。
【0057】
しかしながら、3日間のブロックにビニングするこの工程では、CGMデータを増大および拡張させるための第2の実質的な機会がある。
【0058】
12日間の利用可能な合計ブロックへの典型的な3日間のブロックのビニング:4つの間隔を達成した。
【表3】
【0059】
上記の典型的なスキームは、SMBGまたは他の装置のデータのために意味があり、3日間の各研究ブロック間で大幅な再キャリブレーションおよび計算を行う必要がある。しかし、これは、同日内にキャリブレーション(1-2)のみが必要であり、毎日計算を実行することができる、CGMデータにとって、ほとんど意味をなさない。したがって、2日目~4日目までなど、3日間のブロックを欠落させる意味はない。医学的、科学的、およびデータサイエンスの仮定は、CGMのより高い時間的分解能データを用いたこのローリングスキームの完全なデータ最適化の場合にも当てはまる。これらの仮定は、SMBGおよび他の装置のデータについては当てはまらず、したがって、典型的なスキームが使用される。しかし、この典型的なスキームは、CGMの実装、特にML分類子の取り込みに準最適である。もちろん、ローリングスキームの問題は、ランダムフォレスト(RF)からサポートベクトルマシン(SVM)、そしてk近傍法(KNN)まで、MLの方法によって迅速に採用可能であるように、さらに解され、詳細に適合される。
【0060】
それに応じて、3日間のブロックをビニングするための以下の最適化されたより多くのデータ収集方法が提供される。
【0061】
12日間の利用可能な合計ブロックへの最適化された3日間のブロックのビニング:
【表4】
【0062】
この最適化されたスキームで10個の間隔が達成された。基本的には、合計n-3個を含む。
低血糖症の予測限界履歴(pHH)の時間的ビニングの最適化:
入力:評価限界履歴(eHH)の3日間の塊またはブロック。
根拠:このセットアップは、次の3日間の臨床評価期間への時間的な落とし穴および出血のエラーを回避する。ML解析のためにきちんとパッケージ化される。
処理:ローリングスキームの時間的ビニングの第2の工程の利用
出力:予測限界履歴(pHH)は、3日間の塊またはブロックの評価HH(eHH)内にネストされる。これは、機械学習(ML)のために輪郭を描き、かつ患者の生理学的な調節もしくは整列にも準拠し得る、境界や境界線をセットアップするために不可欠である。この第2の革新的な工程では、これは、入力データを増大させるための第3の実質的な機会である。したがって、元の未加工の入力データは、3つの実質的な工程で、ML分類子フォーマット取り込み、モデル作成、訓練、および試験のために準備が整った、処理および浄化された入力データに増大または拡張されている。
【0063】
pHH=PH=60分の場合、図5を参照されたい。
【0064】
ML分類子の入力のこれらの予測限界履歴(pHH)を、評価限界履歴(eHH)の作成によるデータプレパレーション、変換、およびデータ適合とは別個にモジュール化して作るこの最後のデータ最適化の工程では、この低血糖症の決定のみが、pHH=PH=15~pHH=PH=30分まで、pHH=PH=60分まで、異なる実装間で変化する。
【0065】
pHH=PH=30分については、図6を参照、pHH=PH=15分については、図7を参照されたい。
【0066】
ここまでで、例示的な実施形態は、未加工で未処理のCGMデータを、三度拡張され、時間的に最適化された、浄化され、処理され、MLに取り込み可能なデータに変換する背後にあるコンピュータ処理による計算を網羅しており、ひいては、ランダムフォレスト(RF)分類子モデルに供給され得る。
【0067】
訓練-試験X-yセット(図8を参照されたい)の生成および保存に焦点を当てた最終データセクションでは、独立変数(X)および従属変数(y)の両方が、訓練-試験分割データセットの部分と共に保存される。次いで、この特定のpHH=PH=60分についてのこれらの最終データセッが試験コードセクションで検証される。以下を参照されたい。
【0068】
これらの最終データセットが保存された後、実際のSTHP RF分類子モデルを実行して、その最終データ入力を用いて作ることができる。
【0069】
単純な数値の例
以下において、単純な数値の例を使用して、上述のデータ処理工程を説明する。値は、この目的のためにランダムに発生したものであり、実データに基づくものではない。[KEY]分子:#日:#mg/dLでの1日あたり12個のCGM値。この簡略化された説明に役立つ例の12個のCGMポイント内では、15分および30分先のpHHのみが可能である。以下では、計算を主に15分のpHHについて行う。
0:1日目:[158、335、146、371、104、170、109、290、127、151、231、376]
1:2日目:[342、201、174、100、253、36、134、270、225、117、202、356]
2:3日目:[240、172、320、174、57、215、225、163、246、235、159、36]
3:4日目:[248、342、52、388、309、219、243、275、166、107、191、288]
4:5日目:[279、74、146、276、284、334、201、185、187、151、242、114]
5:6日目:[215、289、338、282、331、282、21、152、270、83、57、114]
【表5】
pHH=PH=15スライディングウィンドウ6つ。
入力:ブロック1のeHH:
0:1日目:[158、335、146、371、104、170、109、290、127、151、231、376]
Sliding_Window1=[158、335、146、371、104、170]
X1=[158、335、146]~前の過去15分の過去3つのCGMポイントに対応
Y1=0~170>70=0、170mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
したがって、X1がX(または入力、過去のCGMのBG値)に追加または付加されることになり、Y1がY(出力、低血糖/低血糖なしのバイナリ分類子、オン/オフ)に追加または付加されることになる。
Sliding_Window2=[335、146、371、104、170、109]
X2=[335、146、371]~前の過去15分の過去3つのCGMポイントに対応
Y2=0~109>70=0、109mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
ここまでのXおよびYは以下のとおり。
X=[[158、335、146]、~X[0]
[335、146、371]]~X[1]
Y=[0、0]~Ys[0]、Ys[1]
Sliding_Window3=[146、371、104、170、109、290]
X3=[146、371、104]~前の過去15分の過去3つのCGMポイントに対応
Y3=0~290>70=0、290mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
ここまでのXおよびYは以下のとおり。
X=[[158、335、146]、~X[0]
[335、146、371]、~X[1]
[146、371、104]]~X[2]
Y=[0、0、0]~Y[0]、Y[1]、Y[2]
Sliding_Window4=[371、104、170、109、290、127]
X4=[371、104、170]~前の過去15分の過去3つのCGMポイントに対応
Y4=0~127>70=0、127mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
ここまでのXおよびYは以下のとおり。
X=[[158、335、146]、~X[0]
[335、146、371]、~X[1]
[146、371、104]、~X[2]
[371、104、170]]~X[3]
Y=[0、0、0、0]~Ys[0]、Y[1]、Y[2]、Y[3]
Sliding_Window5=[104、170、109、290、127、151]
X5=[104、170、109]~前の過去15分の過去3つのCGMポイントに対応
Y5=0~151>70=0、151mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
ここまでのXおよびYは以下のとおり。
X=[[158、335、146]、~X[0]
[335、146、371]、~X[1]
[146、371、104]、~X[2]
[371、104、170]、~X[3]
[104、170、109]]~X[4]
Y=[0、0、0、0、0]~Y[0]、Y[1]、Y[2]、Y[3]、Y[4]
Sliding_Window6=[170、109、290、127、151、231]
X6=[170、109、290]~前の過去15分の過去3つのCGMポイントに対応
Y6=0~231>70=0、231mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
ここまでのXおよびYは以下のとおり。
X=[[158、335、146]、~X[0]
[335、146、371]、~X[1]
[146、371、104]、~X[2]
[371、104、170]、~X[3]
[104、170、109]、~X[4]
[170、109、290]]~X[5]
Y=[0、0、0、0、0、0]~Y[0]、Y[1]、Y[2]、Y[3]、Y[4]、Y[5]
Sliding_Window7=[109、290、127、151、231、376]
X7=[109、290、127]~前の過去15分の過去3つのCGMポイントに対応
Y7=0~376>70=0、376mg/dL>70mg/dLの低血糖閾値であるため、低血糖なしに対応
ここまでのXおよびYは以下のとおり。
X=[[158、335、146]、~X[0]
[335、146、371]、~X[1]
[146、371、104]、~X[2]
[371、104、170]、~X[3]
[104、170、109]、~X[4]
[170、109、290]、~X[5]
[109、290、127]]~X[6]
Y=[0、0、0、0、0、0、0]~Y[0]、Y[1]、Y[2]、Y[3]、Y[4]、Y[5]、Y[6]
【0070】
要約すると、ブロック1の1日目のeHHについてのみ、対応するY(出力)を有する7pHH=PH=15個のX(入力)を作成した。
eHHブロック1の残りの日については、同じ方法で値を計算する。
1:2日目:[342、201、174、100、253、36、134、270、225、117、202、356]
2:3日目:[240、172、320、174、57、215、225、163、246、235、159、36]
以下において、低血糖の発見をもたらす計算を説明する例を示す。
pHH=PH=15
1:2日目:[342、201、174、100、253、36、134、270、225、117、202、356]
Day2_Sliding_Window1=[342、201、174、100、253、36]
Day2_X1=[342、201、174]~前の過去15分の過去3つのCGMポイントに対応
Day2_Y1=1~36<70=1、36mg/dL>70mg/dLの低血糖閾値であるため、低血糖に対応
ここまでのXおよびYは以下のとおり。
X=[[342、201、174]]
Y=[1]
pHH=PH=30
2:3日目:[240、172、320、174、57、215、225、163、246、235、159、36]
Day3_Sliding_Window1=[240、172、320、174、57、215、225、163、246、235、159、36]
Day3_X1=[240、172、320、174、57、215]~前の過去15分の過去3つのCGMポイントに対応
Day3_Y1=1~36<70=1、36mg/dL>70mg/dLの低血糖閾値であるため、低血糖に対応
ここまでのXおよびYは以下のとおり。
X=[[240、172、320、174、57、215]]
Y=[1]
【0071】
ランダムフォレスト(RF)分類子の実装。図9を参照されたい。
ランダムフォレスト分類子に対して実行される500個の決定木(n_estimatorsパラメータ)の要件は厳しい。ほとんどが100~300個の決定木で実行される。最も最先端で複雑だが説明が難しい、WellDoc、UVAなどのような競合会社の低血糖予測アルゴリズムのニューラルネットワーク(ANN、CNNなど)に対して、より単純で説明しやすい決定木ベースのランダムフォレスト(RF)分類子のパフォーマンスおよび競争力をもたらすために、決定木の数を、より標準的な100または300個から500個まで増やすことは合理的であると考えられた。この訓練する決定木の数のパラメータおよび他のかかるパラメータをさらに微調整するために、許容度試験ためのさらなる研究開発ならびにローカルマシンおよびローカルホストサーバのメモリ不足の問題を回避し、Hadoop、MapReduce、およびAmazon Web ServicesのSpark、ならびに他のかかるサービスを用いた分散並列コンピュータ処理に移行することが必要である。
【0072】
データは、このような高いパラメータに適応するのに十分に堅牢性である必要がある。単純に供給された未加工のデータは、このように多くの決定木を有するランダムフォレスト分類子では実行することができない。したがって、評価限界履歴および予測限界履歴(eHH、pHH)へのローリングスキームの時間的ビニングを用いた、革新的なデータプレパレーション、変換、適合、および特に最適化の工程は、この分類ソリューションにとって非常に重要であり、それ以外の場合では、より回帰が保証された(ただし、回帰が多ければ多いほど、不十分なデータ品質が発生しやすくもなる)ソリューションであった。分類ベースのソリューションは、主に本発明開示で紹介されるデータ拡張および時間的最適化により、はるかに堅牢で、低品質のデータに対して耐性がある。
【0073】
図10に示されるように、結果として得られるモデルを、PythonオブジェクトをNumPy配列でシリアル化し、異なる圧縮フォーマットを試験するのに効率的なjoblib APIフォーマットで保存することもできる。XZ、LZMA、および特にBZ2フォーマットは一貫して、Z、GZ、および特に準最適なSAV圧縮フォーマットよりも良好な(より小さいサイズのMB)圧縮を実施する。
【0074】
上述の開示を要約すると、「ローリングスキームの時間的ビニング」の使用により、同じ量の過去の履歴データまたは遡及データを、より拡張され、より良好で、よりスマートで、よりフィットした方法で利用し、元の未加工で未処理のデータセットを効果的に増大および増加させることができる。
【0075】
特に、「ローリングスキームの時間的ビニング」の工程で構築された評価限界履歴および予測限界履歴(eHH、pHH)では、ランダムフォレスト(RF)、サポートベクトルマシン(SVM)、およびk近傍法(KNN)などのML分類方法に変換され、取り込まれる、なおもさらに利用可能なデータの間隔を供給するために、既に拡張されているデータセットがさらに最大化され、プライミングされる。
【0076】
LTHP PH=1日(24時間)の場合、RFは、91%の精度、90.9%の感度、および91.9%の特異性を達成したが、SVMおよびKNNのパフォーマンスは不良であった。LTHP PH=1日(24時間)の場合、実施されたSVMは、86%の精度、71.4%の感度、および77.4%の特異性で悪化した。LTHP PH=1日(24時間)の場合、実施されたKNNは、86%の精度、73.2%の感度、および81.7%の特異性で悪化した。未加工のCGMデータは、Novo Nordisk治験NN1218-3853から提供された。
【0077】
これらのLTHPの結果に基づいて、STHP ML分類子のソリューションに対して、STHPのRFの実装のみを、この例では実装した(図中では「Lombardi」と名付けられている)。pHH=PH=30分の場合、STHPのRF実装は、98%の精度、93.59%の感度、および99.75%の特異性を達成した。
【0078】
PH15、PH30、PH60についてのSTHP RF結果を図11に示す。図12では、PH15、PH30、PH45、PH60、PH75についてのSTHP RF分類子の結果が示されており、以下の発行済み文献の結果と比較されている。
【0079】
Daskalakiらの “Real-Time Adaptive Models for the Personalized Prediction of Glycemic Profile in Type 1 Diabetes Patients.”Diabetes Technology&Therapeutics Vol.14(2)2012。
根拠:学術文献から、Daskalakiらの論文を、30分および45分で短期低血糖症予測子(STHP)分類子予測限界(PH)の比較として使用した。
【0080】
Pappada et alらの “Neural Network-Based Real-Time Prediction of Glucose in Patients with Insulin-Dependent Diabetes.”Diabetes Technology&Therapeutics Vol.13(2)2011。
根拠:学術文献から、Daskalakiらの論文を、75分で短期低血糖症予測子(STHP)分類子予測限界(PH)の比較として使用した。
【0081】
図13および図14では、それぞれPH45、PH75についてのSTHP RF分類子の結果を、文献結果と比較している。示されるように、15分、30分、45分、60分、および75分のすべての予測限界において精度、感度、および特異性が達成され、これらは、業界および学術的情報源からの文献比較よりも競争力があるか、または文献比較よりもさらに優れている。
【実施例
【0082】
次に、pHH=PH=60分またはSTHP RF分類子60分の実施例(WE)について説明する。実施例は、特定の試験および検証の目的で、以下の5つのファイルをロードすることによって、上記の競合結果を達成した試験コードを網羅する。
1.STHP RF分類子モデルのファイル自体:「_PH60.pkl.bz2」接尾辞
2.独立変数Xの試験サブセットの最終データ:「_Xtest.npy」接尾辞
3.従属変数yの試験サブセットの最終データ:「_ytest.npy」接尾辞
【0083】
上の3つのファイル入力だけで、以下の検証試験メトリクスをコンピュータ処理することができる。未加工の精度、混同行列グラフィック自体と同様に感度および特異性などの混同行列の計算、ならびに分類レポート。図15を参照されたい。
4.全独立変数の最終データ:「_X.npy」接尾辞
5.全従属変数の最終データ:「_y.npy」接尾辞
【0084】
これら2つは、交差検証された精度の計算にのみ必要である。図16を参照されたい。
【0085】
これらをすべて組み合わせて、最終データ入力#1~3:WEの検証試験メトリクス結果:PH=60分についての概要レポートを提供することができる。
【0086】
混同行列テーブル、図17を参照されたい。
混同行列テーブルの計算:TN、FN、FP、TP、図18を参照されたい。
混同行列テーブルの計算:感度、図19を参照されたい。
混同行列テーブルの計算:特異性、図20を参照されたい。
混同行列テーブルの計算:感度、特異性の文字列レポート出力、図21を参照されたい。
分類レポート:精度、リコール、F1スコア、およびサポート、図22を参照されたい。
最終データ入力#4および5の場合:WEの検証試験メトリクス結果:PH=60分:概要レポート:精度、交差検証された精度、感度、特異性、低血糖行列(TN、FN、TP、FP)、図23を参照されたい。
混同行列関数、図24を参照されたい。
混同行列関数:出力(1/3)、図25を参照されたい。
混同行列関数:出力(2/3):正規化なし、図26を参照されたい。
混同行列関数:出力(3/3):正規化あり、図27を参照されたい。
【0087】
引用された参考文献および代替的な実施形態
本明細書に引用された全ての参考文献は、各個々の出版物、または特許、または特許出願が、全て目的のためにその全体が参照により組み込まれるように具体的かつ個々に示されるのと同じ程度の範囲で、それらの全体が参照により、全ての目的のために本明細書に組み込まれる。
【0088】
全ての見出しおよび小見出しは、本明細書では便宜上使用されているだけであり、決して本発明を限定するものとして解釈されるべきではない。
【0089】
本明細書で提示する任意のおよびいっさいの例または例示的な語句(例えば「など(such as)」)の使用は、単に本発明をより明瞭にするという意図しかなく、特に明記しない限り、本発明の範囲を制限するものではない。本明細書中のいずれの語句も、特許の範囲にない任意の要素が本発明の実施に必須であることを示すと解釈すべきではない。
【0090】
本明細書の特許文書の引用および組み込みは、便宜上行われているだけであり、こうした特許文書の有効性、特許性および/または執行可能性のいっさいの観点を反映するものではない。
【0091】
本発明は、非一時的コンピュータ可読ストレージ媒体に埋め込まれたコンピュータプログラム機構を備えるコンピュータプログラム製品として実装されてもよい。例えば、コンピュータプログラム製品には、図1および図2の任意の組み合わせで示され、かつ/または図4に描かれるプログラムモジュールが含まれ得る。これらのプログラムモジュールは、CD-ROM、DVD、磁気ディスクストレージ製品、USBキー、または任意の他の非一時的コンピュータ可読データもしくはプログラムストレージ製品に保存することができる。
【0092】
本発明の多くの修正および変形を、当業者に明らかであるように、その趣旨および範囲を逸脱することなく行うことができる。本明細書に記載される特定の実施形態は、例証としてのみ提供される。本発明およびその実用的用途の原理を最もよく説明するために実施形態を選択して説明したが、それにより、特定の用途に適した様々な修正を用いて、当業者が本発明および様々な実施形態を最良に利用できるようになる。本発明は、添付の特許請求の範囲の条件と、そのような請求の範囲が適用されるあらゆる等価物によってのみ限定される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27