(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-25
(54)【発明の名称】患者時系列データに基づいて健康状態を診断するためのシステムおよび方法
(51)【国際特許分類】
G16H 10/60 20180101AFI20240118BHJP
【FI】
G16H10/60
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023536938
(86)(22)【出願日】2021-12-15
(85)【翻訳文提出日】2023-08-14
(86)【国際出願番号】 US2021063541
(87)【国際公開番号】W WO2022132915
(87)【国際公開日】2022-06-23
(32)【優先日】2021-03-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-12-16
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】519102141
【氏名又は名称】エヌフェレンス,インコーポレイテッド
【氏名又は名称原語表記】NFERENCE,INC
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】ワグナー,タイラー
(72)【発明者】
【氏名】アラヴァムダン,ムラリ
(72)【発明者】
【氏名】バーブ,メルウィン
(72)【発明者】
【氏名】バールヴェ,ラケシュ
(72)【発明者】
【氏名】サウンダララジャン,ヴェンカタラマナン
(72)【発明者】
【氏名】プラサド,アシム
(72)【発明者】
【氏名】カーペンター,コリンヌ
(72)【発明者】
【氏名】カールソン,キャサリン
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA15
(57)【要約】
患者時系列データに基づいて健康状態を診断することができるシステム、方法およびコンピュータ可読媒体が開示される。例えば、患者時系列データに基づいて健康状態を診断する方法は、患者時系列データの第1セットを含むヘルスレコードのトレーニングセットを識別し、ヘルスレコードのトレーニングセットを使用してニューラルネットワークをトレーニングし、患者時系列データの第2セットに基づいて健康状態を診断するためにトレーニングされたニューラルネットワークモデルを実行する、ことを含む。他の例では、患者時系列データの第1セット及び患者時系列データの第2セットは、各々、心電図データを含み、健康状態は肺高血圧症を含む。
【特許請求の範囲】
【請求項1】
1つまたは複数のハードウェアプロセッサが、患者時系列データの第1セットを含むヘルスレコードのトレーニングセットを識別し、
1つまたは複数の前記ハードウェアプロセッサが、前記ヘルスレコードの前記トレーニングセットを使用して、ニューラルネットワークをトレーニングし、
1つまたは複数の前記ハードウェアプロセッサが、トレーニングされた前記ニューラルネットワークのモデルを実行して、患者時系列データの第2セットに基づいて健康状態を診断する、
方法。
【請求項2】
患者時系列データの前記第1セットおよび患者時系列データの前記第2セットの各々が心電図データを含み、前記健康状態が肺高血圧症を含む、
請求項1に記載の方法。
【請求項3】
トレーニングされた前記ニューラルネットワークのモデルが、患者時系列データの前記第2セットの少なくとも1つのベクトル表現と、患者時系列データの前記第2セットの少なくとも1つのスペクトログラム表現と、を含む複数の入力を受信する、
請求項1または請求項2に記載の方法。
【請求項4】
ヘルスレコードの前記トレーニングセットを識別することは、1つまたは複数の所定の基準を満たす患者のコホートに関連するヘルスレコードを識別するためにヘルスレコードのコーパスを検索することを含む、
請求項1または請求項2に記載の方法。
【請求項5】
ヘルスレコードの前記トレーニングセットは、患者時系列データの前記第1セットから導出された離散メトリックをさらに含む、
請求項1または請求項2に記載の方法。
【請求項6】
前記離散メトリックがQT間隔を含む、
請求項5に記載の方法。
【請求項7】
前記ヘルスレコードの前記トレーニングセットが、前記健康状態と診断された患者に関連するヘルスレコードの第1セットと、前記健康状態と診断されなかった患者に関連するヘルスレコードの第2セットと、を含む、
請求項1または請求項2に記載の方法。
【請求項8】
患者時系列データの前記第1セットは、前記健康状態についての陽性診断日に関連する所定の期間内に捕捉された患者時系列データの診断セットを含む、
請求項1または請求項2に記載の方法。
【請求項9】
患者時系列データの前記第1セットは、前記健康状態についての陽性診断日の前の所定の時間量よりも早く取り込まれた患者時系列データのプリエンプティブセットを含む、
請求項1または請求項2に記載の方法。
【請求項10】
患者時系列データの前記第1セットは心電図データを含み、
前記ニューラルネットワークをトレーニングすることは、前記ニューラルネットワークの入力において、前記心電図データに関連するリードのセットをランダムにシャッフリングすることを含む、
請求項1または請求項2に記載の方法。
【請求項11】
前記ニューラルネットワークをトレーニングすることは、心電図データに関連するリードのセットの中で各リードのレベルをランダム量だけシフトすることを含む、
請求項1または請求項2に記載の方法。
【請求項12】
トレーニングされた前記ニューラルネットワークのモデルを実行することが、患者時系列データの前記第2セットを、所定の持続時間を有する複数の時間ウィンドウにセグメント化することを含む、
請求項1または請求項2に記載の方法。
【請求項13】
非一時的メモリと、
1つまたは複数のハードウェアプロセッサと、
を含み、
1つまたは複数の前記ハードウェアプロセッサは、実行されると、
患者時系列データの第1セットを含むヘルスレコードのトレーニングセットを識別し、
ヘルスレコードの前記トレーニングセットを用いてニューラルネットワークをトレーニングし、
トレーニングされた前記ニューラルネットワークのモデルを実行して、患者時系列データの第2セットに基づいて健康状態を診断する、
動作を、1つまたは複数の前記ハードウェアプロセッサに実行させる命令を、前記非一時的メモリから読み込むように構成されている、
システム。
【請求項14】
患者時系列データの前記第1セットおよび患者時系列データの前記第2セットは各々心電図データを含み、
前記健康状態は肺高血圧症を含む、
請求項13に記載のシステム。
【請求項15】
トレーニングされた前記ニューラルネットワークのモデルが、患者時系列データの前記第2セットの少なくとも1つのベクトル表現と、患者時系列データの前記第2セットの少なくとも1つのスペクトログラム表現と、を含む複数の入力を受信する、
請求項13または請求項14に記載のシステム。
【請求項16】
ヘルスレコードの前記トレーニングセットを識別することは、1つまたは複数の所定の基準を満たす患者のコホートに関連付けられたヘルスレコードを識別するために、ヘルスレコードのコーパスを検索することを含む、
請求項13または請求項14に記載のシステム。
【請求項17】
ヘルスレコードの前記トレーニングセットは、患者時系列データの前記第1セットから導出された離散メトリックをさらに含む、
請求項13または請求項14に記載のシステム。
【請求項18】
前記離散メトリックは、QT間隔を含む、
請求項17に記載のシステム。
【請求項19】
ヘルスレコードの前記トレーニングセットが、前記健康状態と診断された患者に関連するヘルスレコードの第1セットと、前記健康状態と診断されなかった患者に関連するヘルスレコードの第2セットと、を含む、
請求項13または請求項14に記載のシステム。
【請求項20】
患者時系列データの前記第1セットは、前記健康状態についての陽性診断日に関連する所定の期間内に捕捉された患者時系列データの診断セットを含む、
請求項13または請求項14に記載のシステム。
【請求項21】
患者時系列データの前記第1セットは、前記健康状態についての陽性診断日の前の所定の時間量よりも早く取り込まれた患者時系列データのプリエンプティブセットを含む、
請求項13または請求項14に記載のシステム。
【請求項22】
患者時系列データの前記第1セットは心電図データを含み、
前記ニューラルネットワークをトレーニングすることは、前記ニューラルネットワークの入力において、前記心電図データに関連するリードのセットをランダムにシャッフリングすることを含む、
請求項13または請求項14に記載のシステム。
【請求項23】
前記ニューラルネットワークをトレーニングすることは、心電図データに関連するリードのセットの中で各リードのレベルをランダムな量だけシフトすることを含む、
請求項13または請求項14に記載のシステム。
【請求項24】
トレーニングされた前記ニューラルネットワークのモデルを実行することが、患者時系列データの前記第2セットを、所定の持続時間を有する複数の時間ウィンドウにセグメント化することを含む、
請求項13または請求項14に記載のシステム。
【請求項25】
患者の心電図データを捕捉するための心電図モニタと、
心電図モニタに接続された少なくとも1つのハードウェアプロセッサと、
を含み、
少なくとも1つの前記ハードウェアプロセッサは、
前記心電図モニタから前記心電図データを受信し、
トレーニングされたニューラルネットワークのモデルを実行して、前記心電図データに基づいて、肺高血圧症の早期検出を提供する、
医療機器。
【請求項26】
トレーニングされた前記ニューラルネットワークのモデルは、前記心電図データの少なくとも1つのベクトル表現および前記心電図データの少なくとも1つのスペクトログラム表現を含む複数の入力を受信する、
請求項25に記載の医療機器。
【請求項27】
トレーニングされた前記ニューラルネットワークのモデルは、前記心電図データから導出された離散メトリックを含む複数の入力を受信する、
請求項25に記載の医療機器。
【請求項28】
前記離散メトリックがQT間隔を含む、
請求項27に記載の医療機器。
【請求項29】
トレーニングされた前記ニューラルネットワークは、初期心電図データを含むヘルスレコードのトレーニングセットに基づいてトレーニングされる、
請求項25に記載の医療機器。
【請求項30】
ヘルスレコードの前記トレーニングセットは、肺高血圧症と診断された患者に関連するヘルスレコードの第1セットと、肺高血圧症と診断されていない患者に関連するヘルスレコードの第2セットと、を含む、
請求項29に記載の医療機器。
【請求項31】
前記初期心電図データが、肺高血圧症の陽性診断日に関連する所定の期間内に捕捉された心電図データの診断セットを含む、
請求項29に記載の医療機器。
【請求項32】
前記初期心電図データは、肺高血圧症の陽性診断日の前の所定の時間量よりも早く取り込まれた心電図データのプリエンプティブセットを含む、
請求項29に記載の医療機器。
【請求項33】
トレーニングされた前記ニューラルネットワークは、前記ニューラルネットワークの入力において、前記初期心電図データに関連するリードのセットをランダムにシャッフリングすることによってトレーニングされる、
請求項29に記載の医療機器。
【請求項34】
トレーニングされた前記ニューラルネットワークは、前記初期心電図データに関連付けられたリードのセットの中の各リードのレベルをランダムな量だけシフトすることによってトレーニングされる、
請求項29に記載の医療機器。
【請求項35】
トレーニングされた前記ニューラルネットワークのモデルを実行することは、前記心電図データを、所定の持続時間を有する複数の時間ウィンドウにセグメント化することを含む、
請求項25に記載の医療機器。
【請求項36】
少なくとも1つのハードウェアプロセッサは、前記心電図データからQT間隔を導出し、
前記QT間隔および前記心電図データは、各々、トレーニングされた前記ニューラルネットワークのモデルへの入力として提供される、
請求項25に記載の医療機器。
【請求項37】
1つまたは複数のハードウェアプロセッサが、患者に関連する患者時系列データを受信し、
1つまたは複数の前記ハードウェアプロセッサが、前記患者時系列データに基づいて形成されたニューラルネットワークモデルを実行し、
1つまたは複数の前記ハードウェアプロセッサが、前記ニューラルネットワークモデルの出力に基づいて、前記患者が健康状態の陽性診断を受ける前の前記患者の前記健康状態を検出する、
方法。
【請求項38】
前記患者時系列データが心電図データを含み、
前記健康状態が肺高血圧症を含む、
請求項37に記載の方法。
【請求項39】
前記ニューラルネットワークモデルは、前記患者時系列データの少なくとも1つのベクトル表現および前記患者時系列データの少なくとも1つのスペクトログラム表現を含む前記患者時系列データに基づく複数の入力に基づいて形成される、
請求項37または請求項38に記載の方法。
【請求項40】
前記ニューラルネットワークモデルは、前記患者時系列データから導出された離散メトリックを含む前記患者時系列データに基づく複数の入力に基づいて形成される、
請求項37または請求項38に記載の方法。
【請求項41】
前記離散メトリックがQT間隔を含む、
請求項40に記載の方法。
【請求項42】
前記ニューラルネットワークモデルを実行することが、前記患者時系列データを、所定の持続時間を有する複数の時間ウィンドウにセグメント化することを含む、
請求項37または請求項38に記載の方法。
【請求項43】
非一時的メモリと、
1つまたは複数のハードウェアプロセッサと、
を含み、
1つまたは複数の前記ハードウェアプロセッサは、実行されると、
患者に関連する患者時系列データを受信し、
前記患者時系列データに基づいて形成されたニューラルネットワークモデルを実行し、
前記ニューラルネットワークモデルの出力に基づいて、前記患者が健康状態の陽性診断を受ける前の前記患者の前記健康状態を検出する、
動作を1つまたは複数の前記ハードウェアプロセッサに実行させる命令を前記非一時的メモリから読み出すように構成されている、
システム。
【請求項44】
前記患者時系列データが心電図データを含み、
前記健康状態が肺高血圧症を含む、
請求項43に記載のシステム。
【請求項45】
前記ニューラルネットワークモデルは、前記患者時系列データの少なくとも1つのベクトル表現および前記患者時系列データの少なくとも1つのスペクトログラム表現を含む前記患者時系列データに基づく複数の入力に基づいて形成される、
請求項43または請求項44に記載のシステム。
【請求項46】
前記ニューラルネットワークモデルは、前記患者時系列データから導出された離散メトリックを含む前記患者時系列データに基づく複数の入力に基づいて形成される、
請求項43または請求項44に記載のシステム。
【請求項47】
前記離散メトリックがQT間隔を含む、
請求項40に記載のシステム。
【請求項48】
前記ニューラルネットワークモデルを実行することが、前記患者時系列データを、所定の持続時間を有する複数の時間ウィンドウにセグメント化することを含む、
請求項43または請求項44に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は概して、患者時系列データのデジタル分析に関し、具体的には、患者時系列データに基づいて健康状態を診断するための技法に関する。
【背景技術】
【0002】
健康状態の適時かつ正確な診断は、医療の重要な側面である。一方では、健康状態の早期診断がしばしば患者の転帰を改善することができる。例えば、介入は多くの場合、健康状態が、病状があまり進行していない段階にあるときに、より効果的である。一方、診断検査は費用がかかり、時間がかかり、リスクが高く、負担がかかる。結果として、多くの健康状態の診断は特に、例えば、患者が明白な症状を示しているか、または広範なテストを受けている前の、状態の初期段階では困難である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
したがって、これらの課題の1つまたは複数に対処する改善された診断技術を開発することが望ましい。
【図面の簡単な説明】
【0004】
【
図1】
図1は、いくつかの実施形態によるECG波形の簡略図である。
【
図2】
図2は、いくつかの実施形態によるECGスペクトログラムの簡略図である。
【
図3】
図3は、いくつかの実施形態による、患者時系列データに基づく患者分類のための方法の簡略図である。
【
図4】
図4は、いくつかの実施形態による、単一分岐畳み込みを伴うニューラルネットワークモデルの簡略図である。
【
図5】
図5は、いくつかの実施形態による、複数の分岐畳み込みを伴うニューラルネットワークモデルの簡略図である。
【
図6】
図6は、いくつかの実施形態による、残差接続を有するニューラルネットワークモデルの畳み込みブロックの簡略図である。
【
図7A】
図7Aは、いくつかの実施形態によるニューラルネットワークモデルの例示的な実装を示す簡略図である。
【
図7B】
図7Bは、いくつかの実施形態によるニューラルネットワークモデルの例示的な実装を示す簡略図である。
【
図8】
図8は、いくつかの実施形態による、肺高血圧症診断前の所与の月数で捕捉された時系列データを使用するモデル正解率のグラフを示す簡略図である。
【
図9】
図9は、いくつかの実施形態による、トレーニングデータセットを生成するために使用され得る、患者のヘルスレコードの構成要素を図示する、データフローの簡略図である。
【
図10A】
図10Aは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10B】
図10Bは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10C】
図10Cは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10D】
図10Dは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10E】
図10Eは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10F】
図10Fは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10G】
図10Gは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図10H】
図10Hは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの、
図1~9の技法に関連する予備実験データを示す簡略図である。
【
図11A】
図11Aは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11B】
図11Bは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11C】
図11Cは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11D】
図11Dは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11E】
図11Eは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11F】
図11Fは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11G】
図11Gは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11H】
図11Hは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11I】
図11Iは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11J】
図11Jは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11K】
図11Kは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11L】
図11Lは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11M】
図11Mは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11N】
図11Nは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11O】
図11Oは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11P】
図11Pは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11Q】
図11Qは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11R】
図11Rは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11S】
図11Sは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11T】
図11Tは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11U】
図11Uは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図11V】
図11Vは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図12A】
図12Aは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図12B】
図12Bは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図12C】
図12Cは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図12D】
図12Dは、いくつかの実施形態による、予備ニューラルネットワークモデルの構造および性能を要約する簡略図である。
【
図13】
図13は、いくつかの実施形態による、ALアミロイドーシスの診断に適用された
図1~9の技術に関連する実験データを示す簡略図である。
【発明を実施するための形態】
【0005】
開示される主題の様々な目的、特徴、および利点は同様の参照番号が同様の要素を識別する以下の図面と関連して考慮されるとき、開示される主題の以下の詳細な説明を参照することによって、より完全に認識され得る。
【0006】
患者データは、様々な方法で捕捉され、記憶される。例えば、患者データは、患者の年齢、性別、健康状態などの個別のデータポイントを含むことができる。患者データは、構造化、非構造化、または半構造化フォーマットで記憶することができる。例えば、患者データは、構造化されていない形態、構造化されたデータベース、構造化されたデータと構造化されていないデータとの組み合わせを含む電子ヘルスレコード、または同様のもので、医師のメモに含まれ得る。
【0007】
患者データは、患者の1つ以上の健康状態を診断するために使用され得る。例えば、医師または他のトレーニングされた個人は、利用可能な患者データを分析して、所与の状態について患者を診断することができる。診断に基づいて、治療計画または他の形態の介入が推奨され得る。
【0008】
一部の患者データは、時系列データを含むことができる。一般に、時系列データは、時間の関数として、1つまたは複数の患者特性または測定値を捕捉する。時系列データの一例は心電図(ECGまたはEKG)データであり、これは、時間の関数として心臓に関連する電気的活動を測定する。ECGデータは時間領域における波形、例えば、時間の関数としての電圧として表すことができる。追加的に又は代替的に、ECGデータを周波数領域に変換することができる。例えば、スペクトログラムは、短時間フーリエ変換(STFT)を使用してECG波形から計算することができる。
【0009】
場合によっては、時系列データから離散メトリックを導出することができる。これらの離散的なメトリックは個々に分析することができ、またはそれ自体を時系列データとして利用することができ、例えば、複数回の訪問にわたって採取された離散的なメトリックを使用して、経時的に症状を分析することができる。例えば、ECG波形に基づいて、QT間隔を導出することができる。QT間隔は、ECG波形の特徴点間の時間量を反映する。しかしながら、QT間隔(時系列データから導出される他の離散メトリックと同様に)は一般に、ECG波形に含まれる情報を包括的に捕捉しない。
【0010】
それにもかかわらず、基礎となる時系列データ自体ではなく、時系列データから導出されたメトリックは、患者の状態の診断において頻繁に使用される。例えば、離散的な測定基準は、医師にとって、基礎となる時系列データよりも比較および解釈が容易であり得る。場合によっては、離散メトリックが導出された後に、基礎となる時系列データが破棄される。これらの場合、将来の診断は、生の時系列データではなく、導出されたメトリックに基づく。
【0011】
時系列から導出される離散メトリックは特定の患者状態を診断するのに適切であり得るが、これらのメトリックは一般に、基礎となる時系列データの完全な情報を捕捉しない。その結果、それらは、診断の適時性および正解率を改善するために使用され得るか、または他の患者状態を診断するために使用され得る、時系列データ中のパターンを識別することに役立たないことがある。例えば、QT間隔は心臓に直接関連する特定の状態(例えば、左心室機能不全、心房細動など)を診断するための有効なツールであり得るが、QT間隔に基づいて、心臓へのより減衰した接続部(例えば、肺高血圧症)を有する状態を診断することは困難であり得る。同様に、離散的な測定基準に基づいて患者集団を患者サブグループにセグメント化することは困難であり得る。
さらに、所与の離散メトリック(例えば、QT間隔)はある時点(例えば、疾患の発症の後期段階)で疾患を診断するのに有用であり得るが、他の特徴が、発症のより早期の段階でのよりタイムリーな診断を可能にする基礎となる時系列データに存在し得る。
【0012】
加えて、基礎となる時系列データは、離散メトリックを計算した後に廃棄されることが多いので、特定の診断と相関する時系列データに関連する追加のメトリックを確認することは困難であり得る。例えば、QT間隔はECG波形の特定の間隔を測定するが、QT間隔よりも特定の診断とより強く相関する他の間隔があってもよい。しかしながら、この間隔が既存のメトリックで捕捉されない場合、この相関を発見することは困難であり得る。
【0013】
したがって、患者の診断および分類のために、ECG波形およびスペクトログラムなどの患者時系列データを使用する改善された診断技術を開発することが望ましい。
【0014】
図1は、いくつかの実施形態によるECG波形100の簡略図である。いくつかの実施形態では、ECG波形100が市販のECGモニタを使用して、または別の適切なデバイスによって測定され得る。ECG波形100は時間の関数としてECGレベル(例えば、電圧レベル)を表す時系列データを含む。
ECG波形100は連続時間アナログ信号に対応するが、デジタル処理の目的のために、離散的な間隔で一連のサンプルを含むデジタル表現に変換される。したがって、ECG波形100は、信号トレース110として表され得る。
加えて、または代替として、ECG波形120は、ベクトル表現120を使用して表され得る。ベクトル表現では、各要素が所与のサンプルのECGレベルに対応する。例えば、要素V1,1は特定のサンプリング時間t1における特定の患者(患者)のECGレベル(例えば、電圧)に対応する。ECG波形100は例示的なものであり、ECG波形は、概して、
図1に示されるもの以外の特徴を有し得ることを理解されたい。さらに、ECG波形100は生のECG測定データ(たとえば、電圧信号)または処理されたデータ(たとえば、スケーリングされ、フィルタリングされ、正規化され、圧縮されたデータなど)に対応し得る。
【0015】
図2は、いくつかの実施形態によるECGスペクトログラム200の簡略図である。いくつかの実施形態では、ECGスペクトログラム200がECG波形100などのECG波形に基づいて計算され得る。
図1に示されるECG波形100の表現110および120はECG波形の時間領域表現であるが、ECGスペクトログラム200は所与の時点におけるECG波形の周波数スペクトルを示す周波数領域表現である。周波数スペクトルは、時間の関数として決定され得る。いくつかの実施形態では、ECGスペクトログラム200が短時間フーリエ変換(STFT)を使用して計算され得る。たとえば、STFTはECG波形の複数のサンプル(たとえば、128サンプル)に基づいて周波数スペクトルを計算するように構成され得、周波数スペクトルを複数の周波数ビン(たとえば、400ビン)に分割し得る。結果は、線形スケール210、対数スケール220などを使用してプロットすることができる。
【0016】
図3は、いくつかの実施形態による、患者時系列データに基づいて健康状態を診断するための方法300の簡略図である。いくつかの実施形態では、患者時系列データがECG波形100などのECG波形、ECGスペクトログラム200などのECGスペクトログラム、またはその両方を含み得る。
【0017】
方法300を使用して診断され得る健康状態の一例は、肺高血圧症である。肺高血圧症はいくつかの理由から、ECGデータを使用する早期診断のための特に強力な候補である。第一に、肺高血圧症は治癒が知られていないが、早期介入はより長い平均余命をもたらし得る。この点に関して、治療の遅延は、予想される結果に直接影響を及ぼす。第2に、肺高血圧症は一般に、例えば、喘息として誤診される。既存の診断技術はこれらの状態を確実に区別するのに十分な適合率を欠いており、その結果、適切な治療がさらに遅れる可能性がある。第3に、肺高血圧症は、右心カテーテル法測定などの侵襲的方法を用いて診断される。
心エコー図などの他の方法を使用してもよいが、この技術を使用する正確な診断は侵襲的検査よりも信頼性が低い。
【0018】
方法300は、肺高血圧症のリスクがあると患者を識別するためのアクセス可能な非侵襲的診断ツールを提供することによって、これらの課題に対処することができる。ECG測定値は容易に得ることができるので、方法300を使用して肺高血圧症の早期検出を可能にする診断データが存在する可能性が増加する。方法300が決定的な診断を提供しない限り、それは、少なくとも、リスクがあり、その後、侵襲的テストを含む、より広範なテストを受け得る患者を分類するために使用され得る。
【0019】
プロセス310において、ヘルスレコードのトレーニングセットが識別される。ヘルスレコードのトレーニングセットは対象の健康状態(例えば、肺高血圧症)と診断された患者のヘルスレコード、ならびにその状態と診断されていない患者の対照群を含み得る。ヘルスレコードのトレーニングセットは、様々な構造化、非構造化、および半構造化健康データを含むことができる。例えば、所与のヘルスレコードは患者の年齢、性別、民族性、診断日、治療情報(例えば、入院患者および外来患者の薬剤および処置)などを含むことができる。いくつかの実施形態では、ヘルスレコードが診断に関連する測定値および他の情報を含み得る。例えば、健康状態が肺高血圧症である場合、診断情報は、右心カテーテル処置に関連する平均肺動脈圧(mPAP)または肺血管抵抗(PVR)測定値、心エコー図に関連する三尖弁逆流速度(TRV)測定値、患者が診断された特定の状態を示すICDコードなどを含み得る。
【0020】
ヘルスレコードのトレーニングセットは、各患者についての時系列データの少なくとも1つのセットを含む。例えば、時系列データは、ECG波形データ、ECGスペクトログラムデータ、又はその両方などのECGデータを含むことができる。時系列データのセットは、関心対象の状態についての陽性診断の前の時点で測定される。すなわち、時系列データは、状態について診断される前の患者の状態を反映する。この点に関して、時系列データは、患者が正式な診断に先立って状態を有する(または有するリスクがある)ことを示唆するパターンまたは他の初期指標を含み得る。いくつかの例では、これらのパターンまたは初期インジケータがECGデータの場合のQT間隔など、時系列データから導出された離散メトリックを使用して容易に検出可能でないことがある。それにもかかわらず、ヘルスレコードのトレーニングセットは、いくつかの実施形態では時系列データ自体に加えて、時系列データから導出された離散メトリックを含み得る。
【0021】
いくつかの実施形態では、時系列データの複数のセットが患者のうちの1人または複数に対して提供され得る。最終的に関心対象の状態と診断された患者について、時系列データのセットは陽性診断日に近い(例えば、陽性診断日の前後1ヶ月以内に)捕捉された1つ以上の診断セットを含むことができる。さらに、時系列データのセットは1つまたは複数のプリエンプティブセットを含むことができ、これらのセットは陽性診断日よりも著しく早く(例えば、陽性診断日の6~18ヶ月前に)捕捉される。対照群の患者(すなわち、目的の状態について検査陽性でなかった患者)について、セットは、その患者について捕捉された時系列データのセットのいずれかまたはすべてを含み得る。
【0022】
いくつかの実施形態では、ヘルスレコードのトレーニングセットを識別することは患者の1つまたは複数のコホートを識別することを含み得る。たとえば、1つまたは複数のコホートは、時系列データに関連付けられた構造化データ、非構造化データ、または半構造化データのうちの1つまたは複数に基づいて識別され得る。コホートの例としては、特定のテスト方法を用いて診断され、そのテスト結果が特定の範囲であった患者が挙げられる。肺高血圧症の場合、例えば、右心カテーテル法、心エコー図、または臨床ノート(例えば、医師の診断)を用いて診断された患者は、異なるコホートに割り当てられ得る。
【0023】
以下の表1は、肺高血圧症診断のコンテキストにおけるコホートの例を示す。左の列は肺高血圧症と診断された患者のコホートサイズを列挙し、右の列は、テスト陽性でなかった対照群のサイズを列挙する。特定のコホートにおいて、コホートのうちの1つ以上に、他のコホート由来の患者を補充した。例えば、コホート3では、右心カテーテル法(mPAP測定)に基づいて陰性と同定された患者の陰性セットに、心エコー図の結果(TRV測定)に基づいて陰性と同定された患者を補足した。コホート3はその臨床的機能性について選択されており、本明細書に開示される性能測定基準は別段の指定がない限り、コホート3の患者に基づく。
表1-陽性
【表1】
表1-陰性
【表2】
【表3】
【0024】
いくつかの実施形態では、診断がバイナリ方式(例えば、「陽性」および「陰性」)で提供されてもよく、または診断における不確実性を反映するように符号化された確率であってもよい。例えば、陽性診断と陰性診断との間の差が比較的大きいコホート(例えば、コホート1は、陽性診断(mPAP>25mmHg)と陰性診断(mPAP<21mmHg)との間の4mmHgの差を有する)では診断がバイナリ方式で提供され得る。逆に、陽性診断と陰性診断との間の差が比較的小さいコホート(例えば、コホート2が陽性診断(mPAP>21mmHg)と陰性診断(mPAP<21mmHg)との間で急激に移行する)では、コホートの一部のメンバー、特に移行点付近のメンバーが誤診断され得る可能性を反映する確率符号化方式で診断を提供することができる。
【0025】
いくつかの実施形態では、各コホートのヘルスレコードのトレーニングセットが検索クエリを使用してヘルスレコードのコーパスから取得され得る。そのような技術の例示的な例は2020年6月22日に出願された「プライベートヘルスケアデータ算出するためのシステム及び方法」という名称の米国特許出願第16/908,520号にさらに詳細に記載されており、その全体が参照により本明細書に組み込まれる。
【0026】
いくつかの実施形態では、フィルタリングが様々な制約を満たすために、トレーニングデータのセットに適用され得る。例えば、18歳未満の患者に関連するヘルスレコードは、トレーニングセットから除去されてもよい。プライバシー義務などに従うために、他のフィルタリングが実行されてもよい。
【0027】
以下に記載され、
図4~
図7に示されるようなニューラルネットワークモデルのトレーニングは、データのラベル付けされたトレーニングセットを使用して実行され得る。例えば、ラベル付きデータは、モデルトレーニング、検証、およびテストのために使用され得る。ラベル付きトレーニングセットは、動作中にニューラルネットワークモデルへの入力として最終的に使用される同じタイプのデータを含むことができる。例えば、心電図に基づいて肺高血圧症の診断を予測するために使用されるニューラルネットワークモデルの実施形態では、ラベル付きトレーニングセットが肺高血圧症の診断を有する患者のセット(「疾患」または「陽性セット」)からの心電図と、肺高血圧症の診断を有さない患者のセット(「対照」または「陰性セット」)とを含み得る。これらのラベルの正解率(例えば、陽性/陰性または疾患/対照としての診断の分類)は、トレーニングされたニューラルネットワークモデルの性能および正解率に著しい影響を及ぼし得る。
【0028】
患者記録からの様々なデータは正確にラベル付けされたトレーニングセットを生成するために、単独で、または組み合わせて、活用され得る。例えば、データは、臨床文書(医師のメモ、画像レポート、病理学レポート、手順レポートを含む)、検査値、遺伝子検査結果、薬剤および他の指示、診断コード、手順コード、入院歴などを含むことができる。以下でさらに説明されるように、患者記録からのこのデータはモデルトレーニング、検証、およびテストのための正確で関連するラベル付きデータセットを生成するために、反復的に活用され得る。
【0029】
プロセス320において、ニューラルネットワークモデルは、ヘルスレコードのトレーニングセットを使用してトレーニングされる。いくつかの実施形態では、ニューラルネットワークモデルが患者時系列データに基づいて患者を分類するように設計およびトレーニングされ得る。例えば、ニューラルネットワークモデルは、関心のある状態を有するリスクがある患者を診断するようにトレーニングされてもよい。例示的な実施例では、ニューラルネットワークモデルがECGデータに基づいて、肺高血圧症を有する患者を診断するようにトレーニングされ得る。
【0030】
当業者は、様々なタイプのニューラルネットワークモデルが分類器として使用され得、それらは様々な技法を使用してトレーニングされ得ることを理解するであろう。ニューラルネットワークモデルの例は、
図4~
図7を参照して以下でさらに詳細に説明される。既知のトレーニング技法と一致して、ヘルスレコードのトレーニングセットはプロセス320で、トレーニング、検証、およびテストセットに分割され得る。
【0031】
ニューラルネットワークモデルをトレーニングすることに関連する1つの課題は、ニューラルネットワークモデルがトレーニングデータに非常に密接に適合するオーバーフィッティングである。結果として、オーバーフィッティングは新しいデータが導入されるとき、ニューラルネットワークモデルの性能を低下させる。いくつかの実施形態では、1つまたは複数のランダム化技法を使用して、ニューラルネットワークモデルを、トレーニング中にオーバーフィッティングしにくくすることができる。
たとえば、1つまたは複数のランダム変換が、トレーニングデータが各反復中に変化するように、トレーニングセット中の時系列データに適用され得る。ランダム変換の例示的な例は時系列データの1つまたは複数の部分をランダムにマスクすること、周波数領域内の時系列データをフィルタリングすること(たとえば、0.5~50Hzなどの所定の周波数範囲内の周波数を可能にすること、1Hz周波数帯域などの1つまたは複数の周波数帯域をランダムにマスクすることなど)、ランダムズームレベルによって時系列データを伸張または圧縮すること、時系列データをランダム係数(たとえば、0.6~1)だけトリミングすることなどを含み得る。いくつかの実施形態では、トレーニングデータが複数のリード(例えば、複数のECGリード)からの時系列データを含む場合、ランダム変換はニューラルネットワークモデルへの入力におけるリードのセットをランダムにシャッフリングすること、リードのレベルを異なるランダム量だけシフトすること(例えば、電圧レベルをシフトすること)などを含み得る。
【0032】
ニューラルネットワークモデルをトレーニングすることに関連する別の課題は初期化である。ニューラルネットワークモデルの初期パラメータは、トレーニング時間、トレーニング可能なパラメータの数、トレーニングデータの量、およびトレーニングされたニューラルネットワークモデルの性能に影響を与えることができる。いくつかの実施形態では、ニューラルネットワークモデルの初期パラメータが独立して学習された自己管理型ネットワークから学習された転送であり得る。自己教師付きニューラルネットワークは、ラベルなしトレーニングデータに基づいてクラスタリング割り当ておよび表現を学習することができる。例えば、自己管理ネットワークはプロセス320で使用されるラベル付きトレーニングセットからの患者時系列データを含むが、これに限定されない患者時系列データのセットに基づいてトレーニングされてもよい。セルフスーパーバイズドネットワークの実例はDeepCluster v2であり、Caronら、「視覚特徴の教師なし学習のための深層クラスタリング(Deep Clustering for Unsupervised Learning of Visual Features)」、https://arxiv.org/abs/1807.05520.に詳述されている。いくつかの実施形態では、トレーニングが初期化問題に対処するために段階的に進んでもよい。例えば、トレーニングは、後の段階の間、学習速度が学習速度よりも小さく保たれる初期ウォームアップ段階を含むことができる。
【0033】
いくつかの実施形態では、プロセス320において、複数のニューラルネットワークモデルをトレーニングすることができる。例えば、異なるニューラルネットワークモデルが、プロセス310において識別された各コホートについてトレーニングされ得る。この点に関して、トレーニングされたニューラルネットワークモデルは、トレーニングデータが未分化であるか、さもなければコホート間の差異を考慮しないニューラルネットワークモデルと比較して、より正確に実行することができる。いくつかの実施形態では、異なるモデルが診断時系列データ(例えば、診断時付近に捕捉された時系列データ)対プリエンプティブ時系列データ(例えば、診断前に有意に捕捉された時系列データ)を使用してトレーニングされ得る。さらに、プロセス320において、異なるアーキテクチャ、トレーニング手順などを有するニューラルネットワークモデルをトレーニングすることができる。プロセス330において、複数のトレーニングされたモデルの性能を比較して、展開すべき1つまたは複数の最高性能(たとえば、最も正確である)モデルを選択することができる。以下の表2および3は、それぞれ、異なるコホートについての予備的診断モデルおよびプリエンプティブモデルの正解率の比較を示す。「Patient Wise(患者別) AUC」および「Age Gender Wise(年齢・性別別) AUC」列の値は「曲線下面積」(AUC)メトリックに対応し、より高い値は、より良好な診断適合率および再現率を示す。
表2-Patient Wise AUC
【表4】
表2-Age Gender WiseAUC
【表5】
【表6】
表3-Patient Wise AUC
【表7】
表3-Age Gender WiseAUC
【表8】
【0034】
上記の表2および3のデータを生成するために使用されたニューラルネットワークモデルの構成は単一分岐畳み込みモデル(すなわち、12のECGリードの各々からの時系列データが組み合わされ、単一の畳み込み分岐への入力として提供された)であり、年齢/性別またはスペクトログラムデータのための入力を含まず、残差接続を含み、時系列データを重複する2秒ウィンドウにセグメント化した。この構成は単なる例示であり、ニューラルネットワークの様々な他の構成が可能であり、そのうちのいくつかは、
図4~
図7を参照して以下で説明されることを理解されたい。
【0035】
プロセス330において、トレーニングされたニューラルネットワークモデルは、患者時系列データに基づいて健康状態を診断するために実行される。いくつかの実施形態では、ニューラルネットワークモデルが入力として患者時系列データを受信し得、患者が健康状態を有するリスクがあるかどうかの決定を出力し得る。ニューラルネットワークモデルはさらに、患者の年齢、性別、民族性、および患者に関連する他の関連情報などの時系列データ以外のデータを入力として受信することができる。ニューラルネットワークモデルの出力は数値スコア、分類(例えば、「高リスク」もしくは「低リスク」)、または患者が健康状態を有するリスクがあるかどうかを識別するための別の適切なインジケータもしくはインジケータの組合せを含み得る。
【0036】
いくつかの実施形態では、トレーニングされたニューラルネットワークモデルを実行することは時系列データを前処理することを含み得る。例えば、時系列データはベクトル表現として受信されてもよく、その場合、前処理は時系列データをスペクトログラム表現に変換することを含んでもよい。次いで、ベクトル表現およびスペクトログラム表現の一方または両方が、ニューラルネットワークモデルへの入力として提供され得る。いくつかの実施形態では、前処理がECG波形のQT間隔など、時系列データに基づいて1つまたは複数の離散メトリックを抽出することを含み得る。離散メトリックは、ニューラルネットワークモデルへの追加の入力として提供され得る。いくつかの実施形態では、前処理が時系列データを時間ウィンドウにセグメント化することを含み得る。たとえば、元の時系列データが特定の測定持続時間(たとえば、10秒)にわたる場合、時系列データはより小さい時間ウィンドウ(たとえば、2秒)にセグメント化され得る。ウィンドウは重なり合っていてもよく、例えば、時系列データの各秒(0~2s、1~3s、2~4sなど)を中心とする2秒ウィンドウであってもよい。ウィンドウのサイズは完全なパルスサイクルを捕捉するのに十分に長い持続時間に対応することができ、それによって、ニューラルネットワークモデルの正解率を保持しながら、そのトレーニング時間および性能を改善する。
【0037】
いくつかの実施形態では、トレーニングされたニューラルネットワークモデルがニューラルネットワークモデルをトレーニングするために使用されるものとは別のコンピューティング環境において実行され得る。例えば、トレーニングされたニューラルネットワークモデルはクラウドコンピューティング環境に展開されてもよく、第三者は診断を得るために患者時系列データをアップロードしてもよい。いくつかの実施形態では、トレーニングされたニューラルネットワークがECGモニタなどの時系列データを捕捉するために使用される医療機器に関して、展開され、ローカルに実行され得る。
【0038】
任意選択のプロセス340において、トレーニングされたニューラルネットワークモデルの複数の出力が集約されて、健康状態の集約診断が生成される。例えば、時系列データがより小さい時間ウィンドウ(例えば、2つの第2のウィンドウ)にセグメント化される実施形態と一致して、時系列データの各時間ウィンドウに対するニューラルネットワークモデルの出力が集約され得る。
いくつかの実施形態では、集約が各時間ウィンドウについてニューラルネットワークモデルによって出力された数値スコアを平均化することによって(またはそうでなければ、複数のスコアに基づいて適切な集約スコアを計算することによって)実行され得る。
【0039】
図4は、いくつかの実施形態による、単一分岐畳み込みを伴うニューラルネットワークモデル400の簡略図である。いくつかの実施形態では、ニューラルネットワークモデル400が方法300において、患者時系列データに基づいて健康状態を診断するために使用され得る。
【0040】
ニューラルネットワークモデル400は入力時系列データ(例えば、ECG波形などの波形)を処理する畳み込み分岐410を含む。畳み込み分岐410は時系列データの波形表現を処理するとき、1つまたは複数の畳み込み層、例えば、1次元畳み込み層(「畳み込み-1D」)を含む。畳み込み分岐410は1つまたは複数の畳み込み層に加えて、正規化層(たとえば、バッチ正規化層(「バッチノルム」)、活性化関数(たとえば、整流線形活性化関数(「ReLU」))、プーリング層(たとえば、平均プーリング層(「平均」)、完全接続層(「FC」)など)などの様々な他のタイプの層を含み得る。ニューラルネットワークモデル400は患者の年齢および性別などの時系列データ以外の入力を処理するための1つまたは複数の追加の分岐420を任意選択で含み、それは同様に、上で例示的に識別されたものなどの様々なタイプの層を含み得る。そのような入力は、それらが臨床的に関連する、および/またはニューラルネットワークモデル400の正解率を改善すると判定されたときに含まれ得、そうでなければ省略され得る。追加の分岐420は、畳み込み層を使用しなくてもよい。
【0041】
畳み込み分岐410および追加の分岐420の出力は、連結層430(「連結」)で連結される。1つまたは複数の出力層440は連結層430の後に続き、ニューラルネットワークモデル400の出力を生成し得る。
【0042】
ニューラルネットワークモデル400は簡略化のために単一の畳み込み分岐410とともに示されているが、ニューラルネットワークモデル400は連結層430において連結される追加の畳み込み分岐を含み得ることを理解されたい。例えば、ECG時系列データはECGシステムの異なるリード(例えば、標準構成では12リード)に対応する複数の波形を含むことができる。いくつかの実施形態では各リードからの時系列データが別個の畳み込み分岐に提供され得る(例えば、ニューラルネットワークモデル400は各リードについて1つの、12の畳み込み分岐を含み得る)。
代替的に、リードからの時系列データは組み合わされ、リードの数よりも少ない数の畳み込み分岐に提供され得る(例えば、12のリードの各々からのデータは、組み合わされ、単一の分岐への入力として提供され得る)。例えば、2つ以上のリードからの時系列データは畳み込み分岐への入力として提供される時系列データの組み合わされたアレイを形成するために、一緒に付加され得る。
【0043】
図5は、いくつかの実施形態による、複数の分岐畳み込みを伴うニューラルネットワークモデル500の簡略図である。いくつかの実施形態では、ニューラルネットワークモデル500が方法300において、患者時系列データに基づいて健康状態を診断するために使用され得る。
【0044】
ニューラルネットワークモデル500は、1次元波形表現で入力時系列データを処理するための第1の畳み込み分岐510と、時系列データ以外の入力を処理するための追加の分岐520と、分岐510~520の出力を連結するための連結層530と、出力結果を生成するための1つまたは複数の出力層540とを含む、ニューラルネットワークモデル400と同様の分岐および層を含む。
【0045】
ニューラルネットワークモデル400に対して、ニューラルネットワークモデル500は、入力時系列データの第2の表現を処理する第2の畳み込み分岐515をさらに含む。例えば、
図5に示すように、第2の畳み込み分岐515は、入力時系列データのスペクトログラム表現を処理する。スペクトログラムは2次元データを含むので、第2の畳み込み分岐515は、1つまたは複数の2次元畳み込み層を含む。第1の畳み込み分岐510と同様に、第2の畳み込み分岐515の出力は、畳み込み層530において他の分岐510~520と共に連結される。
【0046】
図6は、いくつかの実施形態による、残差接続を有するニューラルネットワークモデルの畳み込みブロック600の簡略図である。いくつかの実施形態では、畳み込みブロック600が畳み込み分岐、例えば、畳み込み分岐410、510、または515の一部として、ニューラルネットワークモデル400またはニューラルネットワークモデル500において使用され得る。
畳み込みブロック600は2のストライド、すなわち、主分岐610の2つの層をバイパスする層を有する残差接続620を示す。畳み込み分岐における残差接続を含めて、当業者によって理解されるように、モデル性能および正解率を大幅に改善することができる。
【0047】
図7Aおよび
図7Bは、いくつかの実施形態による、それぞれのニューラルネットワークモデル700aおよび700bの実装詳細を示す簡略図である。
いくつかの実施形態ではニューラルネットワークモデル700a、ニューラルネットワークモデル700b、またはそれらの組合せが、ニューラルネットワークモデル400を実装するために使用され得る。第2の畳み込み分岐を追加すると、ニューラルネットワークモデル700aまたは700bを使用して、ニューラルネットワークモデル500を実装することもできる。
【0048】
ニューラルネットワークモデル700aは、入力時系列データ(x)を処理するための畳み込み分岐710、時系列データ(年齢および性別)以外の入力を処理するための追加の分岐720、分岐710~720の出力を連結するための連結層730、および出力予測(y)を生成するための出力層740を含む、ニューラルネットワークモデル400と同様の層を含む。各層の例示的なタイプおよびパラメータは、図中で識別される。
【0049】
ニューラルネットワークモデル700bは、1つまたは複数の畳み込みブロック750と、1つまたは複数のトランスエンコーダ層760とを含む。
図7Bに示されるように、トランスエンコーダ層760は、畳み込みブロック750に続く。セルフアテンション層770はトランスエンコーダ層760から出力を受け取り、出力予測(y)を生成する。しかしながら、層を再配置すること、分岐を追加すること、またはネットワーク構造を修正すること、
図7Bに示されていない異なるタイプの層を追加すること、または置換することなどを含む、
図7Bの層の他の配置が可能であることを理解されたい。ニューラルネットワークモデル700aと比較して、ニューラルネットワークモデル700bにおけるトランスエンコーダ層760の使用は出力予測(y)を生成するとき、入力時系列データ(x)の異なる部分にわたる相互作用を増加させ得る。いくつかの実施形態では、畳み込みブロック750が入力時系列データ(x)の一部分(例えば、入力時系列データの全持続時間よりも短い特定の期間)を各々が表す符号化のシーケンスを生成することができる。符号化は、それぞれ固定サイズを有することができる。トランスエンコーダ層760は出力予測(y)を生成するために、符号化のシーケンスを受信し得る。トランスエンコーダ層760の例示的な例は例えば、Vaswaniら、「Attention is All You Need」、arXiv: 1706.03762にさらに詳細に記載されており、これは、その全体が参照により本明細書に組み込まれる。
【0050】
図4~
図7は単なる例であり、ニューラルネットワークモデルの多くの代替構成が可能であることを理解されたい。例えば、ニューラルネットワークモデルは追加の又はより少ない分岐、又は分岐内の層を含むことができ、各層のタイプは異なることができる。分岐が他の分岐と連結される点は変化し得る。
いくつかの実施形態では、1次元波形および2次元スペクトログラム以外の表現を含む、入力時系列データの異なる表現が使用され得る。
【0051】
図8は、いくつかの実施形態による、肺高血圧症診断前の所与の月数で捕捉された時系列データを使用するモデル正解率のグラフ800を示す簡略図である。グラフ800を生成するために使用されるニューラルネットワークモデルおよび患者データは上記の表1~3において識別されるように、コホート3からの患者に対応する。グラフ800に示されるように、肺高血圧症診断の5年(60ヶ月)前に収集されたデータについてさえ、AUC(モデルの適合率および再現率を反映する)の有意な低下はない。
【0052】
図9は、いくつかの実施形態による、トレーニングデータセット920を生成するために使用され得る患者ヘルスレコード910の構成要素911~917を示すデータフロー900の簡略図である。患者ヘルスレコード910の分析に基づいて、患者は、トレーニングデータセット920内の疾患922または対照924として分類されてもよく、またはトレーニングデータセット920から除外されてもよい。
【0053】
臨床文書911は、患者の診療チームのメンバーによって作成または指示された構造化されていないテキストを含む、患者の臨床診療中に作成された1つまたは複数の文書を含むことができる。臨床文書911は看護師、理学療法士、作業療法士、ソーシャルワーカー、栄養士、および疾患管理者などの患者のケアチームの非医師メンバーによって生成されたメモと同様に、医師のメモ、画像レポート、病理学レポート、手順レポートを含むことができる。いくつかの実施形態では、疾患の診断が自然言語処理(NLP)アルゴリズム、トランスフォーマベースのニューラルネットワークモデルなどを適用することによって、臨床文書から取得され得る。これらのモデルは、医師またはケアチームのメンバーが、患者が特定の疾患と診断されたことを記録しているかどうかを決定することができる。「増強されたキュレーション」のプロセスを使用して臨床文書から疾患の診断を得るためのプロセスの例示的な実施形態は2020年6月22日に出願された「プライベートヘルスケアデータを算出するためのシステム及び方法」という名称の米国特許出願第16/908,520号にさらに詳細に記載されており、その全体が参照により本明細書に組み込まれる。
【0054】
疾患の診断は、医師による医学的および生理学的データの包括的評価および臨床的評価(病歴、身体検査)に基づき得る。この包括的な評価は、非構造化メモ、構造化データソース(診断コードまたは検査値など)、またはそれらの組合せに基づくことができる。したがって、非構造化臨床文書911は、ヘルスレコード910内の構造化データソースに補足情報を提供することができる。モデルはまた、医師またはケアチームのメンバーが、患者が特定の疾患を有さない、特定の疾患を有し得る、または特定の疾患の家族歴を有することを決定したかどうかを識別し得る。
【0055】
肺高血圧症の例示的な事例では、臨床文書911が例えば、患者の病歴および症状、ならびに右心カテーテル法および心エコー図の結果を有するような医学的および生理学的データを評価した資格のある個人またはチームによって肺高血圧症と診断された患者を識別するために使用され得る。同様に、対照コホート924(例えば、肺高血圧症と診断されていない患者のセット)を開発するとき、臨床文書911を処理して、肺高血圧症の医師文書または肺高血圧症の家族歴の欠如を識別することができる。
【0056】
軽鎖アミロイドーシス(「ALアミロイドーシス」)の例示的な症例では、患者の診断が典型的には複雑であり、ALアミロイドーシスよりも患者が呈する一連の徴候および症状についてのより良い説明がないなど、1つまたは複数の基準を満たすことを含み得る。資格のある個人またはチームは、症状、併存疾患、検査結果、病理結果などを評価することによって、これらの基準をチェックすることができる。したがって、構造化データソースではなく(またはそれに加えて)臨床文書911からALアミロイドーシスの診断を得ることは、より大量の関連情報を合成することができ、それによって、ニューラルネットワークモデル開発のための症例の識別を改善する。別の基準は、患者が、トレーニングデータが由来する施設での生検によって確認されたALアミロイドーシスを有することであってもよい(例えば、病理報告に反映される)。このようにして、モデルトレーニング、バリデーション、およびテストに対する、治療および疾患後遺症を含む施設外で発生した事象の影響が最小限に抑えられる。逆に、対照コホート924は、患者が軽鎖アミロイドーシスの診断を有していないか、または関連する生検で軽鎖アミロイドが明示的に欠如しているという基準を含めることによって、より堅牢にすることができる。以下に概説するように、ラボ値912を使用して、対照コホート924のロバスト性をさらに追加することができる。
【0057】
ラボ値912および他の構造化された生理学的データ(例えば、遺伝子検査913)は、患者から抽出された臨床サンプルに対して行われる検査室検査、結果が構造化されたフォーマットで報告される生理学的研究などを含み得る。
臨床検査の例には、血液検査(血清、血漿)、尿検査、体液検査、脳脊髄液検査が含まれる。臨床検査には、特定の疾患に対する遺伝子パネルも含まれる。
構造化された形態で報告される生理学的研究の例には、心エコー検査、心臓カテーテル検査、バイタルサイン、スパイロメトリー、および肺機能検査が含まれる。そのようなラボ値912は、それぞれ、症例または対照コホートに疾患が存在する可能性を増加または減少させるために分析され得、その結果、疾患922および対照924コホートについてのより正確な標識が得られ、それによって、健康と疾患とを識別するニューラルネットワークモデルの能力が改善される。
【0058】
例えば、ALアミロイドーシスの診断を予測するためにニューラルネットワークモデルをトレーニングするための疾患922コホートおよび対照924コホートを開発する場合、ラボ値912は、ALアミロイドーシスを有していない可能性が最も高い患者の群を定義するのに役立ち得る。患者の診断コード履歴(例えば、診断コード915)または臨床ノート(例えば、臨床文書911)におけるALアミロイドーシスの診断の欠如は、例えば、ALアミロイドーシスの診断が症状の非特異的性質のためにしばしば遅延または見逃されるため、ALアミロイドーシスを除外するには不十分であることが多いので、検査値は、ALアミロイドーシスのコンテキストにおいて関連する。ALアミロイドーシスの診断は複雑であり、タンパク質毒性軽鎖アミロイドの沈着に関連する臓器損傷の証拠に基づく可能性がある。臓器損傷は、血液検査を用いて評価されることが多い。例えば、血清トロポニン、B型ナトリウム利尿ペプチド(BNP)、脳性ナトリウム利尿ペプチドのN末端プロホルモン(-proBNP)は、心臓損傷を検出するためにしばしば使用され;血清クレアチニンが腎損傷を評価するためにしばしば使用され;凝固実験室および肝機能テストが肝損傷を評価するために使用され;血清甲状腺刺激ホルモン(TSH)が甲状腺損傷を評価するために使用される。これらの臨床検査について正常値を有する対照コホート924中の患者を選択することによって(ALアミロイドーシスの診断を有さないことに加えて)、コホート中の患者が診断されていないALアミロイドーシスを有さない可能性が増加する。したがって、他の患者と比較した場合にALアミロイドーシス集団においてより頻繁に実施される臨床検査、およびその正常範囲および異常範囲(例えば、臓器損傷と一致する値または範囲)を同定することができる。対照コホート924の患者は、これらの臨床検査について正常値を有する患者を含むことができる。
【0059】
投薬履歴914は、患者の注文履歴または入院薬投与履歴(MAR)を検査することによって取得され得る。
臨床文書911はまた、医師が文書化した投薬履歴(注文履歴またはMARに存在しない投薬履歴914の態様を含み得る)を識別するために検査され得る。患者の投薬履歴914は、疾患922および対照924コホート定義を精緻化するために使用され得る。例えば、患者が特定の疾患に関連する生理機能を変更する薬物を受け取る場合、モデルトレーニングはその患者をトレーニングデータセット920から(疾患922または対照924コホートのいずれかから、またはその両方から)除去するために、モデルトレーニングに利益を与え得る。肺高血圧症の場合、第1の右心カテーテル法の前に肺高血圧症の適応となる薬剤を投与された患者は右心カテーテル法による診断の前に、これらの患者が人工的に肺動脈圧を低下させ、したがって心肺生理を変化させたと考えられるため、症例コホート922から除外することができる。
【0060】
投薬履歴914はまた、疾患922と対照924コホートとの間の差異を評価するために使用され得る。例えば、疾患922および対照924コホートを定義すると、これらの患者が受けた治療を特徴付けるために、コホート間で投薬履歴914を比較することができる。いくつかの実施形態では、受けた薬剤に従って疾患922および対照924コホートをマッチングさせることが望ましい場合がある。そうするために、疾患922および対照924コホートが生成され、疾患対対照における有意なエンリッチメントについて薬剤履歴914が検査され、またはその逆が行われ、薬剤がマッチングのために選択され、臨床的に関連するマッチングが得られるまでプロセスが繰り返される、反復アプローチが使用されてもよい。
【0061】
診断コード915は、構造化された形態でコード化された診断である。
国際疾病分類(ICD)または医学的臨床用語の体系化命名法(SNOMED-CT)コード化システムなどの標準化されたコード化システムを使用することができる。そのようなコードは不正確であり得るが、それらはコホートを特徴付け、精緻化するための迅速かつ柔軟な方法を提供し得る。コホートを特徴付け、洗練するために、1)疾患922および対照924コホートが選択され、2)ニューラルネットワークモデルがトレーニングされ、テストされ、3)真陽性、偽陽性、真陰性、および偽陰性のコホートが生成され、4)それぞれの診断コード履歴915が検査され、各コホートのペアワイズ比較間の有意なエンリッチメントが得られ、5)モデル性能が改善されるようにエンリッチメントが「除外基準」として選択され、6)プロセスが洗練されたコホートを用いて繰り返される反復プロセスが採用され得る。診断コード915はまた、上述のように、投薬履歴914に基づいてコホート照合プロセスのために選択され得る。
【0062】
プロシージャコード916は患者が受けたプロシージャを識別することができ、現在のプロシージャ用語(CPT)コーディングシステム、国際疾病分類プロシージャコーディングシステム(ICD-PCS)、ヘルスケア共通プロシージャコーディングシステム(HCPCS)などのコーディングシステムの使用を介して、構造化された形態で記録することができる。プロシージャコード916は、生理に影響を与え得るプロシージャを受けた患者のセットを識別するために使用され得る。例えば、心臓ペースメーカおよび能動ペーシングの埋め込みは、心拍数およびリズムの追加された人工的な変調に起因して、心電図波形の特性を基本的に変更する。したがって、プロシージャコード916は、疾患922および管理914の両方からペースメーカを受け取った患者を除去するために使用され得る。モデルトレーニングに使用される波形の結果のセットは、コホートの自然な生理機能をより正確に反映する。
【0063】
いくつかの実施形態では、患者の入院履歴917が患者の疾患の重症度に関する情報を提供することができる。例えば、心不全の臨床テストでは、一般的な主要転帰尺度が介入後の急性心不全の初回入院までの時間である。したがって、患者の入院履歴917は、特定の介入後の入院を予測するニューラルネットワークモデルを開発するために活用され得る。例えば、心不全を治療する薬物の投与後に、急性心不全についてどの患者が入院する(および入院しない)かを予測するモデルを開発することができる。そのようなモデルは、薬物から利益を得る可能性が最も高い患者を同定するのに役立つ。
【0064】
入院履歴917はまた、よりロバストなコホートを生成するために、介入前に疾患の重症度によって患者をサブセット化するニューラルネットワークモデルを開発するために活用され得る。例えば、肺高血圧症の場合、プライマリケア環境における肺高血圧症の診断を予測することができるニューラルネットワークモデルが開発され得る。したがって、入院患者の入院から来る患者データは、その目標設定におけるパフォーマンスのためのモデルを最適化するために除外され得る。
【0065】
図10A~
図10Hは、いくつかの実施形態による、肺高血圧症の診断に適用されたときの
図1~
図9の技法に関連する実験データを示す簡略図である。肺高血圧症(PH)は、世界人口の1%および65歳を超える患者の最大10%に影響を及ぼすと推定される生命を脅かす疾患である。PHのタイムリーな診断は、効果的な治療的介入だけでなく、生存のオッズを増幅するためにも不可欠である。複数の研究は、数ヶ月でさえ、早期診断が生活の質の劇的な増加および寿命の延長をもたらし得ることを示唆している。しかしながら、PHの症状は非特異的であり、喘息、慢性閉塞性肺疾患(COPD)、および心不全を含む他の一般的な疾患で見られる症状と非常に類似している。これは、外来ケア環境内でのPHの疑いを低くし、したがって、診断を確認することができる呼吸器科医または心臓病専門医へのタイムリーな紹介を重要にする。現在、診断はしばしば遅れており、症状の発症から診断までの平均時間は2.5年であり、場合によっては、主にPH専門医への紹介が遅れているため、4年までである。実際、PHの確定診断のためのゴールドスタンダードは無視できないリスクを伴う侵襲的処置である右心カテーテル法(RHC)であるので、医師は他の全ての疾患が順次除外されるまで、進行することをしばしばためらう。PHの診断的精密検査における非侵襲的手順であるECGに適用されるアルゴリズムはPHを検出し、おそらくPHのリスクに基づいて患者を層別化するのに役立ち、早期診断および介入を可能にする。
【0066】
図1~9の技術と一致して、複数のコホートを、電子医療記録からの構造化および/または非構造化データ、より具体的には、RHC中に測定された平均肺動脈圧(mPAP)、心エコー図中に測定された三尖弁逆流速度(TRV)、および医師が記録する組合せを使用して生成した。得られたコホートを
図10Aに示す。RHCはPH診断のゴールドスタンダードであり、PHを意味するmPAP>21mmHgを伴い、mPAP>25mmHgの以前の閾値から最近低下した。コホート12に使用されたわずかな変異体(mPAP>20mmHg)を有するコホート定義(コホート1~4、8~9)には、両方の閾値を使用した。TRV測定値はそれほど決定的ではないが、TRV<2.8m/sはPHが存在しないことを示し、TRV>3.4m/sはその存在を示すが、TRV単独を使用して診断が決定的でない中間の範囲があり、他の測定値または診断検査を考慮しなければならない。TRV単独を用いて、いくつかのコホート(コホート5~6、10~11)を定義したが、他の場合にはTRVを用いて、RHCが限られた患者数を提供した場合(コホート3~4、8~9)、陰性コホートを補った。最後に、一部のコホートでは、より厳密な陰性対照基準としてTRV<2.6m/sを用いた。
【0067】
図9を参照して上述した技法を使用して、これらのコホートの各々は検査値(例えば、ラボ値912)、薬剤および他の指示(例えば、薬剤履歴914)、診断コード(例えば、診断コード915)、手順コード(例えば、手順コード916)、および入院履歴(例えば、入院履歴917)を使用してさらに精緻化された。例えば、RHCまたはエコーによる診断前のPH投薬中の患者、潜在的に交絡性の併存疾患を有する患者、移植または外科的心臓処置を受けた患者、運動または薬物チャレンジ後にのみPHを示す患者、および急性心臓モニタリングを有する患者は全て、独立して、または以下のアルゴリズム開発およびテスト中に除外のために併用して考慮された。同様に、以下の選択基準の1つまたは複数を有する患者のサブセットに対してもテストを実施した:前毛細血管、後毛細血管、または前毛細血管および後毛細血管の混合のPHを有する患者、医師が気づいた肺動脈高血圧症(PAH)と診断された患者、PAH薬を受けた患者、6ヶ月以内に2つ以上のECGを受けた患者、および特定の年齢範囲内の患者。
【0068】
さらに、1つのコホートを、増強されたキュレーションの能力をテストするためのエコー測定と組み合わせて、臨床ノートから抽出された診断を使用して生成した(コホート7)。このコホートは、より少ない数のPH患者を占める心エコー測定値を有する患者のサブセットを使用して生成されたことに留意されたい。この目的のための第一段階として、1,630人の患者の陽性対照コホートが同定され、以下、初期PHコホートと称される。このコホートを拡大するために、それらの注釈内に「肺高血圧症」という用語を含むさらなる19,504人の患者が同定され、以下、潜在的PHコホートと称される。
【0069】
PH診断に関するセンチメントを分類するために、BERTモデルをトレーニングした。診断のためのBERTモデルを作成するための最初のステップとして、「肺高血圧症」に最も密接に関連する上位250の表現型を決定し、臨床ノートのコーパスからの文をこれらの表現型について抽出した。文は適格者によって以下のカテゴリーに分類され、
図10Bに示される例は陽性(YES)、陰性(NO)、疑わしい(MAYBE)、および代替コンテキスト(OTHER)である。これらのカテゴリーは非限定的であり、追加のカテゴリーをこのトレーニングセットに追加して、例えば、投薬から生じる家族歴および/または疾患リスクを分離することによって(両方とも上記の例示的カテゴリーのOTHERに包含される)、モデルの粒度の増加をサポートすることができる。
【0070】
マルチユーザソフトウェアアプリケーションは、センテンスタギングのために開発され、ユーザインターフェースは多数のユーザにわたって行われた変更を追跡しながら、効率を改善する。最初のモデルは11,433の文章で生成され、全体的な正解率で、ラベルの一部として計算され、モデルは0.85の文章全体で正しく予測された。ユーザインターフェースはユーザが、モデルが誤って分類されたタグ付けされた文を見直すことを可能にし、また、タグ付けされていない文の集合に対してモデルを実行するために使用することができ、再度、拡張キュレーションのダウンストリーム効率を向上させる。
上述のように、増強硬化プロセスの実施形態は、米国特許出願第16/908,520号にさらに詳細に記載されている。
図10Cに示されるように、増強されたキュレーションの複数のサイクルで、モデルの正解率は0.85から0.936に改善された。
【0071】
モデルは250の異なるPH関連表現型についてトレーニングされたので、このモデルをトレーニングするために使用された文は主に、心臓学、呼吸器学、および代謝障害に関連する疾患について考察していた。モデルによって既に捕捉された表現型の幅を考慮すると、比較的少量の新しいトレーニングデータ(例えば、1000~3000文)を使用して再トレーニングすることにより、COVID-19から腫瘍学までの範囲の追加の治療領域にスケーリングするのに十分なほど強固である。いくつかの実施形態では、その特定の分野における特定の言語またはコンテキストを捕捉するために、追加のキュレーションが実行され得る。
【0072】
追加のPH患者を同定するためにポテンシャルPHコホート上でBERTモデルを実行する前に、陽性対照についてのセンテンスセンチメントの分布を評価するために、初期PHコホート上で実行した。ここでは、「肺高血圧症」という用語を含むこれらの患者の約180,000文をモデルによって分類した。
図10Dに示されるように、文の平均68%がYESセンチメントとして、2%のみがNOとして、7%がMAYBEとして、そして23%がOTHERとして分類され、本発明者らのモデルおよび陽性コホートの優れた検証であった。
【0073】
図10Dに示されるセンチメント分析はまた、臨床ノートに従って、PHを有さなかった初期PHコホートにおける患者を同定するために使用された。提供された臨床ノートを有する1,630人の患者のうち、センチメント分析およびその後のマニュアルレビューは、PHを有さないこのコホートにおける35人の患者を同定した。この半自動化されたワークフローの例が
図10Eに示されている。ここで、分布はPH陰性患者を含み、NO分類のためのより長いテールをもたらす。この特定のテールの25人の患者について、患者データを含むコンピューティング環境内に構築されたアプリケーションを使用して、これらの患者の注釈における「肺高血圧症」の各言及を調べ、結果として、PHを有する7人の患者、PHが疑われる2人の患者、およびPHを有さない16人の患者を得た。PHのないこのコホート内の残りの19人の患者は、以前の反復で同定された。
【0074】
最初のPHコホートで診断モデルを検証した後、モデルを、潜在的PHコホートにおける19,504人の患者について「肺高血圧症」を含む文章で実行した。
図10Fに示されるように、58%の平均YESセンチメントは初期PHコホートよりも低いが、この結果は主に、YESセンチメントを有さない患者の30%を占めることができる。
同様に、患者のほぼ80%はNOセンチメントを有するセンテンスを有さず、これはいくつかの実施形態において、PH陽性対照セットを1桁増加させることができることを意味する。
【0075】
これらのコホートにおける陽性PH患者と陰性PH患者との間の区別を自動化するために、様々なロジスティック回帰モデルを、増強された治癒結果および/または心エコー測定、TRVおよび推定された右心房圧(RAP)の組み合わせを用いてテストした。増強されたキュレーションを介して患者を記述するために使用される特徴は、Yes、No、Maybe、およびOtherセンチメントを有するセンチメントのパーセント、ならびに1ノート当たりのPH発生の数を含んだ。TRVおよびRAPに使用された特徴は、各測定の平均、中央値、最小値、最大値、および標準偏差を含んだ。陽性対照コホートは、陽性診断および心エコー測定を受けた最初のPHコホートからの1556人の患者から生成された。陰性対照コホートを、TRVおよびRAP測定を有する患者についての記録の手作業によるキュレーションによって作製した。モデルは、10フォールド交差検証および90:10のトレーニングテスト分割を用いて評価した。
【0076】
図10Gおよび10Hに示されるように、心エコー測定を用いたカップリング増強治癒は、いずれか単独よりも良好に機能する。しかし、拡大キュレーションは心エコー図測定単独よりもはるかに優れている。これは、増強された治療の1つの目標として、患者の記録の合計の医師の解釈を捕捉することが期待された。
【0077】
200人の患者を、ホールドアウトセットとして無作為にサンプリングし、それらの記録を手動でキュレーションして、患者がPHと診断されたか否かを決定した。1例が同意を撤回し、その後除外された。残りの199人の患者のうち、191人はロジスティック回帰モデルまたは95.9%によって正しく分類された。
【0078】
図10A~10Hは例示的なものであり、コホート選択のための患者レベル分類器を作成するために、臨床ノート上でトレーニングされたニューラルネットワークモデルを患者ヘルスレコードからの構造化データにどのように結合することができるかの一例を説明するにすぎないことを理解されたい。これらのモデルのための特徴空間は、心エコー図に結合された増強された治療に限定されない。所与の薬剤、与えられる処置、および併存疾患を含む、追加のまたは代替の特徴が、臨床ノートの非構造化テキストから含まれ得る。同様に、心エコー測定は、構造化データの唯一のソースである。薬剤、手順、および診断コードなどの他のソースも、分類を改善することができる。
心エコー検査手順内でさえ、TRVおよびRAPは2つの測定のみが行われ、他の測定を導入することはいくつかの実施形態において有利であり得る。
【0079】
モデルをトレーニングするために、ECGは、イベントに関連する1つまたは複数の時間ウィンドウに対して選択され得る。PH陽性コホートの場合、その事象は、患者がそれぞれmPAPまたはTRV閾値、すなわち「診断日」を超えたRHCまたは心エコー図(コホート定義に依存する)のいずれかである。各コホートについて、モデルを最初にトレーニングし、2つの異なる時間ウィンドウ:診断日の両側で1ヶ月(診断ウィンドウ)および診断の6~18ヶ月前(プリエンプティブウィンドウ)で評価した。さらなる反復において、モデルは診断前の5年、すなわち、0~6ヶ月、6~12ヶ月などに戻る診断日の前の6ヶ月ウィンドウごとにトレーニングされた。陰性患者については、すべてのECGを考慮した。患者が18歳未満の時に採取された全てのECGは除外された。各コホートについて、患者を列(48%)、テスト(40%)、および検証(12%)セットに分けた。
【0080】
各モデルを評価するために、2つの性能測定基準、すなわち、曲線下面積(AUC)および年齢別AUCを使用した。患者別のAUCは1人の患者につき1つのECGをランダムにサンプリングし、50回のランダムランの平均を報告した。患者ごとのAUCはより多くのECGを有する患者、すなわち、潜在的に病気の患者が過剰に表現されないことを確実にする。年齢別AUCは、ECG採取時の年齢と性別をマッチさせた各陽性ECGについて、4つの陰性ECGを無作為に採取した。4つの陰性ECGが利用できない場合、陽性ECGは、1:4の陽性-陰性ECG比を維持するために過少サンプリングされる。ここでもまた、50回のランダムランの平均が報告される。ここでの利点は、年齢および性別の分布が陽性コホートと陰性コホートとの間で維持されることである。
【0081】
図11A-11Vは、いくつかの実施形態による、肺高血圧症の診断に適用された場合の、
図1~10Hの技法を使用して開発されたニューラルネットワークモデルの構造および性能を要約する簡略図である。
図11Aに示すように、12リード電圧時間信号を1つの入力、3リードの4つの群、および個々のリードをそれぞれ使用して、単一分岐、4分岐、および12分岐ID畳み込みニューラルネットワーク(CNN)をテストするアルゴリズムを開発した。時系列信号の各リードがスペクトログラムに変換され、128サンプル(0.256ms)のタイムスライス上の短時間フーリエ変換(STFT)を使用して計算され、64サンプル(0.128ms)をスキップした後に次のタイムスライスが選択され、400ビンに分割される、スペクトログラムモデルもテストされた。
単一分岐、4分岐、および12分岐ID畳み込みニューラルネットワーク(CNN)をスペクトログラムモデルと比較する予備結果を
図11Bに示すように、単一分岐ID CNNは4つのテストセットのうちの3つにわたってより良好に機能し、さらなる開発のために選択された。
【0082】
図11Cに記載されるように、確率符号化モデルもテストした。確率符号化モデルは陽性および陰性コホートが所与の閾値によって分離された場合、例えば、陽性コホートがmPAP>21mmHgによって定義され、陰性コホートがmPAP<21mmHgによって定義されたコホート2において良好に機能することが観察された。しかしながら、
図1のIDに示されるように、陽性コホートがmPAP>25mmHgによって定義され、陰性コホートがmPAP<21mmHgによって定義されたコホート1のような、閾値間の分離を有するコホートについて同じ利益は観察されなかった。したがって、確率符号化モデルは、前者のコホート定義にのみ使用された。
【0083】
図11Eは、異なる時間ウィンドウからのECGを使用して、所与の時間ウィンドウからのECGでトレーニングされたモデルの性能を示す。示されるように、本発明者らは、診断ウィンドウからのECGにトレーニングされたモデルがプリエンプティブウィンドウからのECGに対して、プリエンプティブウィンドウにトレーニングされたモデルよりも優れた性能を有することを観察した。この結果は、疾患が存在するときに採取されたECGに関するトレーニングが早期発見のためのモデルを開発するときにも有用であり得ることを示す。
【0084】
ネットワーク入力とアーキテクチャの組合せもテストした。そのような組み合わせの例示的な例を
図11Fに示し、その測定された性能を
図11Gに示す。例えば、スペクトログラムモデル単独では最初のテストでは単一分岐ID CNNを上回らなかったが、いくつかの実施形態では両方の入力の組合せがいずれか単独で上回ることができた。
【0085】
他の様々なパラメータには、入力としての年齢および性別、追加の2Dスペクトログラム、残存接続部、およびウィンドウサイズ(すなわち、10秒ウィンドウ対2つの第2ウィンドウの重複)が含まれ、これらは
図11Hおよび11Iにまとめられている。
図11Jにまとめたコホート3の結果を用いて、残留接続部および重複する2つの第2のウィンドウを有する単一分岐ID CNNを使用して、最適モデルを見出した。年齢および性別は入力として必要とされず、2Dスペクトログラムの包含は性能を有意に増加させなかった。
【0086】
モデルはまた、ヘルスレコードに関連する構造化された情報および構造化されていない情報の両方を介して同定された特定の患者集団を含むかまたは除外するECGを使用してトレーニングおよび/またはテストされた。モデルを、サイナスリズムのみを有するECGを用いて、またはペースメーカを有する患者を除外することによってテストしたが、いずれの改変も、
図11Kおよび11Lに示されるように、性能を有意に改善しなかった。
図11Mおよび11Nに示されるように、RHC測定によって定義されるように、モデルは前毛細血管並びに前毛細血管および後毛細血管の混合のPH患者について、後毛細血管の患者と比較してより良好に機能し、モデルがPAH集団において有効であり得ることを示した。
図11Oは、全ての患者にわたって同じモデルで得られた基準値を示す。臨床ノート(
図11P)の増強された治癒を用いて、または構造化された投薬オーダー(
図11Q)を通して定義されたPAH患者は、両方とも、全てのPH患者についての結果と比較して、改善された性能を示した。慢性心不全患者を除去することは性能をわずかに改善したが(
図11R)、心臓または肝臓移植患者を除去すること(
図11S)、または心臓手術を受けた患者を除去すること(
図11T)は有意な効果を有さないようであった。
【0087】
コホート3でトレーニングされた診断モデルは最良の性能モデルの1つであり、
図11Uに示されるように、さらなる研究に使用された。この診断モデルを用いて、
図11Vに示されるように、診断前0~5年のECGを6ヶ月の期間でテストした。診断モデルはバリデーションおよびテストセットでそれぞれ0.92および0.93のAUCを得たが、予備的なプリエンプティブモデルは診断の6~18ヶ月前にPHを区別することができ、バリデーションおよびテストセットでそれぞれ0.85および0.86のAUCを有した。最後に、診断の3~5年前に採取されたECGは、0.82を超えるAUCで、性能の有意な低下を示さなかった。最終的に、これらの結果は、PHを検出するのに有用なECG内の信号を示す。いくつかの実施形態では、この信号を検出するためのニューラルネットワークモデルが患者の診断を加速し、患者がより早く必要とする適切な治療を受けるのを助けるために、一次および二次ケア設定におけるECG機械において実装され得る。さらに、このシグナルは、診断の3~5年前に存在するので、疾患の根底にある遺伝的要素が存在し得る。その場合、遺伝子パネルと組み合わせた診断は、高い特異性および感度を有するPH診断を提供し得る。
【0088】
予測のために単一のECGを使用することに加えて、
図11A~11Vに示されるように、時間ウィンドウ内の複数のECGのためのモデル確率出力は
図12A~12Dに示されるように、患者を分類するために併せて使用され得る。複数のECGの確率スコア(予備モデルを用いて計算)の最小、平均、または最大をテストに用いた。コホート3を用いて、診断の0~6ヶ月前に2つ以上のECGを受け、ECG間が7日を超える患者を選択した。後者の基準は急性症状のために入院患者で採取されたECGを除去するために使用され、我々はパフォーマンスに対してわずかな利益を提供することを見出した。全ての6ヶ月のウィンドウを陰性コホートに使用したか(
図12A)、または各陰性患者について6ヶ月のウィンドウを無作為に選択したか(
図12B)は、結果に有意に影響しなかった。両方の場合において、最小確率スコアを使用することはAUC、感度、および特異度を改善し、一方、最大確率スコアを使用することは性能を低下させ、平均は単独のECGを使用することと同様に行われた。
【0089】
モデルトレーニングに使用されたECGは薬物投与なしで安静時に採取されたため、RHC中に運動または薬物のいずれかによってチャレンジされた患者は除外された。この除外基準は単一ECGモデルの性能を改善し(
図12C)、そのため、基準はマルチECGモデル(
図12D)の陽性コホートにも含められ、その結果、性能も改善された。この患者ごとの除外は、最新バージョンのモデルを開発するために使用され、そのモデルについてのデータは
図11J、11N、11U、および11Vに見出すことができる。
【0090】
最小、最大、および平均に加えて、ロジスティック回帰および逐次スコアリングを含む、患者を分類するために複数のECGからの確率スコア(予備モデルを使用して計算される)を使用する他の方法がテストされた。ロジスティック回帰を用いて、代替関数が性能を改善するために使用できるかどうかをテストした。連続的なスコアリングはまた、医師が2+ECGが採取されるのを待たない臨床使用事例にも関連する。この方法を使用すると、取得された各追加ECGは取得時に順番にモデルによって説明されるが、医師の意思決定タイムラインを制限するために必要なECGの最小数はない。
【0091】
以前の方法はモデルを通して別々に実行される各ECGからの出力確率スコアを利用することによって複数のECGを使用してきたが、これは単なる例示であり、様々な代替が企図される。例えば、いくつかの実施形態では、ニューラルネットワークモデルがモデルへの入力として複数のECGを使用してトレーニングされ得る。
【0092】
図13は、いくつかの実施形態による、ALアミロイドーシスの診断に適用された
図1~9の技術に関連する実験データを示す簡略図である。ALアミロイドーシスは、全身性アミロイドーシスの最も一般的なタイプである。ALアミロイドーシスを有する患者は、種々の組織、特に心臓、腎臓、肺、皮膚、神経、および血液中にアミロイド沈着物を形成し得る軽鎖の過剰産生がある基礎疾患を有する。ALアミロイドーシスは最も一般的にはクローン性骨髄形質細胞から生じ、この状態が多発性骨髄腫患者の約15%において見出されると報告されているが、いくつかの場合において、他のクローン性B細胞障害もまた、アミロイド形成性軽鎖、例えば、リンパ形質細胞性リンパ腫、ワルデンシュトレームマクログロブリン血症、慢性リンパ球性白血病、および濾胞性リンパ腫を分泌する。アミロイド沈着物は、身体のほとんどすべての組織において形成され得る。したがって、疾患の症状および徴候は大きく異なり得、ALアミロイドーシスに特異的ではない。アミロイドーシスはまれで、症状は非特異的であるため、診断の見逃しや遅れがよく見られる。以前の研究では、ALアミロイドーシス患者の約40%が初期症状の発症後1年を超えて診断されなかったことが明らかにされている。したがって、早期診断は治療の有効性および全生存を改善するであろうし、早期検出アルゴリズムのための適切な領域である。
【0093】
予備研究のために、患者は、臨床ノート(ALA=1264患者)の増強治癒によって確認されたALアミロイドーシスを有する700k患者のサブセットから陽性コホートとして同定された。次に、多発性骨髄腫(MM)ICDコード(少なくとも90日間隔てられた2つのコード)を有するが、その注記にALA診断がない患者(MM=2471患者)を同定した。次いで、ALA対MMコホートにおいてエンリッチメントされたLab測定値を計算した。これらの実験室テストは、推定糸球体濾過率(eGFR)、N型脳ナトリウム利尿ペプチド(NTproBNP)、心臓トロポニンT(cTnT)、第Xa因子レベル(FXa)、甲状腺刺激ホルモン(TSH)、および血清アルカリホスファターゼ(ALP)を含む、臓器機能および損傷のマーカーを含んだ。これらの検査の異常な範囲は、これらの検査値がALアミロイドーシスにおいてどのように変化するかを調べる文献に基づいて同定された。MMコホートが(リストされた研究室の)異常な研究室テストを受けてはならないという条件が適用された。このコホートは陰性コホートとなった(NEG=798例)。予備的モデルをトレーニングして、診断日のいずれかの側(それぞれ、ALAまたはMM)で1ヶ月間採取したECGを用いてALA対NEGを分類した;結果として得られたAUC、感度、および特異度はそれぞれ、0.87%、77.0%、および81.0%であり(
図2)、これはPHモデルと比較した小さい予備的コホートサイズを考慮すると、有望である。コホートを洗練し、それらのコホートのサイズを増加させることによって、この性能はさらに増加することが期待される。
【0094】
本明細書で説明される主題は、本明細書で開示される構造手段およびその構造的等価物を含む、デジタル電子回路、またはコンピュータソフトウェア、ファームウェア、もしくはハードウェア、またはそれらの組合せで実装され得る。
本明細書に記載の主題は情報担体(例えば、機械可読記憶装置)内に有形に具現化されるか、またはデータ処理装置(例えば、プログラマブルプロセッサ、コンピュータ、または複数のコンピュータ)による実行のために、またはデータ処理装置の動作を制御するために伝搬信号内に具現化される、1つまたは複数のコンピュータプログラム製品など、1つまたは複数のコンピュータプログラム製品として実装され得る。コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)はコンパイルまたは解釈された言語を含む、任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして、またはコンピューティング環境での使用に適したモジュール、コンポーネント、サブルーチン、または他のユニットとして、を含む、任意の形態で展開することができる。コンピュータプログラムは、必ずしもファイルに対応しない。プログラムは他のプログラムまたはデータを保持するファイルの一部に、問題のプログラム専用の単一のファイルに、または複数の協調ファイル(たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイル)に記憶され得る。コンピュータプログラムは1つのコンピュータ上で、または1つのサイトにある複数のコンピュータ上で実行されるように、または複数のサイトにわたって分散され、通信ネットワークによって相互接続されるように展開することができる。
【0095】
本明細書で説明される主題の方法ステップを含む、本明細書で説明されるプロセスおよび論理フローは入力データ上で動作し、出力を生成することによって、本明細書で説明される主題の機能を実行するための1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローはまた、本明細書で説明される主題の装置によって実行され得、特殊目的論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)として実装され得る。
【0096】
コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データ、例えば、磁気、光磁気ディスク、または光ディスクを記憶するための1つまたは複数の大容量記憶デバイスからデータを受信するか、それらにデータを転送するか、またはそれらの両方を行うように動作可能に結合される。
コンピュータプログラム命令およびデータを具現化するのに適した情報担体は例として、半導体メモリデバイス(例えば、EPROM、EEPROM、およびフラッシュメモリデバイス)、磁気ディスク(例えば、内部ハードディスクまたはリムーバブルディスク)、光磁気ディスク、および光ディスク(例えば、CDおよびDVDディスク)を含む、すべての形態の不揮発性メモリを含む。プロセッサおよびメモリは、専用論理回路によって補足されるか、または専用論理回路に組み込まれ得る。
【0097】
ユーザとの対話を提供するために、本明細書に記載の主題は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス(例えばマウスまたはトラックボール)とを有するコンピュータ上で実施することができる。ユーザとの対話を提供するために、他の種類のデバイスを使用することもできる。例えば、ユーザに提供されるフィードバックは任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)とすることができ、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。
【0098】
本明細書に記載される主題はバックエンド構成要素(例えば、データサーバ)、ミドルウェア構成要素(例えば、アプリケーションサーバ)、またはフロントエンド構成要素(例えば、グラフィカルユーザインターフェースまたはユーザが本明細書に記載される主題の実施と対話することができるウェブブラウザを有するクライアントコンピュータ)、またはそのようなバックエンド、ミドルウェア、およびフロントエンド構成要素の任意の組合せを含むコンピューティングシステムにおいて実装することができる。システムの構成要素は任意の形態または媒体のデジタルデータ通信、たとえば、通信ネットワークによって相互接続され得る。
通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、例えばインターネットを含む。
【0099】
開示される主題は、その適用において、以下の説明に記載されるか、または図面に示される構成要素の構成の詳細および構成に限定されないことを理解されたい。開示される主題は他の実施形態が可能であり、様々な方法で実施および実行されることが可能である。また、本明細書で使用される表現および用語は説明の目的のためのものであり、限定とみなされるべきではないことを理解されたい。
【0100】
したがって、本開示が基づく概念は、開示される主題のいくつかの目的を実行するための他の構造、方法、およびシステムを設計するための基礎として容易に利用され得ることを、当業者は諒解されよう。したがって、特許請求の範囲は開示された主題の趣旨および範囲から逸脱しない限り、そのような等価な構成を含むとみなされることが重要である。
【0101】
開示された主題は前述の例示的な実施形態において説明され図示されたが、本開示は例としてのみなされ、開示された主題の精神および範囲から逸脱することなく、開示された主題の実施の詳細における多数の変更がなされ得ることが理解され、それは以下の特許請求の範囲によってのみ限定される。
【0102】
〔関連出願〕
本出願は、2020年12月16日に出願された「患者時系列データに基づいて健康状態を診断するためのシステムおよび方法」と題する米国仮出願第63/126,331号、および2021年3月4日に出願された「患者時系列データに基づいて健康状態を診断するためのシステムおよび方法」と題する米国仮出願第63/156,531号に対する35U.S.C§119(e)に基づく優先権を主張する。これらは、参照によって、その全体がここに組み込まれる。
【国際調査報告】