IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

<>
  • 特許-患者データ有効性解析のための装置 図1
  • 特許-患者データ有効性解析のための装置 図2
  • 特許-患者データ有効性解析のための装置 図3
  • 特許-患者データ有効性解析のための装置 図4
  • 特許-患者データ有効性解析のための装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-28
(45)【発行日】2024-04-05
(54)【発明の名称】患者データ有効性解析のための装置
(51)【国際特許分類】
   G16H 10/00 20180101AFI20240329BHJP
   G16H 50/00 20180101ALI20240329BHJP
【FI】
G16H10/00
G16H50/00
【請求項の数】 14
(21)【出願番号】P 2020529191
(86)(22)【出願日】2018-11-20
(65)【公表番号】
(43)【公表日】2021-02-22
(86)【国際出願番号】 EP2018081888
(87)【国際公開番号】W WO2019105800
(87)【国際公開日】2019-06-06
【審査請求日】2021-11-18
(31)【優先権主張番号】17210579.3
(32)【優先日】2017-12-26
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】チャン タク ミン
(72)【発明者】
【氏名】フォン ジンハン
(72)【発明者】
【氏名】タオ リアン
(72)【発明者】
【氏名】チアウ チョー チアプ
【審査官】鹿谷 真紀
(56)【参考文献】
【文献】特開2011-227838(JP,A)
【文献】特開2013-131211(JP,A)
【文献】特開2017-117469(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
入力モジュールと、
データ及びモデル解析モジュールと、
最適化モジュールと
を備える患者データ有効性解析のための装置であって、
前記入力モジュールは、ユーザが複数のモデルを指定することを可能にし、各モデルが、臨床研究と、疾病転帰の予測とで使用され、各モデルが、モデル変数の関数として出力を提供し、前記入力モジュールは、前記ユーザが前記複数のモデルの少なくともいくつかのモデル変数を定義することを可能にし、前記入力モジュールは、前記ユーザがソース変数を指定することを可能にし、前記モデル変数が、1つ又は複数のソース変数から導出され、前記入力モジュールは、前記ユーザが少なくとも1つのデータソースを指定することを可能にし、
前記入力モジュールが、前記少なくとも1つのデータソースからの複数のデータ記録を受け取り、各データ記録が少なくとも1つの属性を含み、
前記データ及びモデル解析モジュールが、前記複数のデータ記録から各モデルの利用可能なデータ記録のセットを決定し、モデルに対する前記セットの決定が、そのモデルの前記モデル変数と、関連する前記ソース変数と、前記複数のデータ記録の前記少なくとも1つの属性との利用を含み、前記利用可能なデータ記録の各々が複数の値を含み、
前記データ及びモデル解析モジュールが、前記複数の値のうち閾値の数未満の値しか欠損していない各モデルの前記利用可能なデータ記録クリーンなデータ記録として決定し
前記データ及びモデル解析モジュールが、対応する前記複数のモデルの複数の有効性尺度を決定し、前記有効性尺度の決定が、各モデルの決定された前記利用可能なデータ記録のセットの利用を含み、モデルの前記有効性尺度が、そのモデルの前記クリーンなデータ記録の数を含み、
前記最適化モジュールが、前記複数のモデルのうちのサブセットのモデルをデータ有効性のトップモデルとしてランク付けし選択し、前記選択が前記複数の有効性尺度の利用を含む、装置。
【請求項2】
前記入力モジュールは、前記ユーザが予想データの制約条件を提供することを可能にし、前記データ及びモデル解析モジュールが、前記複数のモデルの各モデルに対して、前記ユーザによって提供される前記予想データの制約条件で指定される変数の統計値を決定し、前記サブセットのモデルの前記選択が、前記複数のモデルの決定された前記変数の統計値の利用を含む、請求項1に記載の装置。
【請求項3】
前記最適化モジュールは、前記トップモデルの前記利用可能なデータ記録のうちのいずれかのデータ記録が、前記ユーザによって入力された前記予想データの制約条件の範囲外にあるかどうかに関する情報を出力する、請求項2に記載の装置。
【請求項4】
前記データ及びモデル解析モジュールが、前記複数のモデルのうちの少なくとも1つのモデルに対して少なくとも1つのモデル性能を決定し、前記サブセットのモデルの前記選択が、前記少なくとも1つのモデル性能の利用を含む、請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記最適化モジュールが、前記サブセットのモデルのうちの最良のモデルを決定する、請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記最適化モジュールが、前記サブセットのモデルをランク付けする、請求項1から4のいずれか一項に記載の装置。
【請求項7】
前記モデルの前記有効性尺度が、そのモデルの前記クリーンなデータ記録の数を前記クリーンなデータ記録の総数で割ったものを含む。請求項1に記載の装置。
【請求項8】
前記閾値が前記値の数の割合であり、それが0パーセントを含む、請求項1から7のいずれか一項に記載の装置。
【請求項9】
モデルの前記有効性尺度が、そのモデルのモデル変数の数によって重み付けされた値を有する、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記データ及びモデル解析モジュールが、前記複数のモデルのうちの少なくとも1つに対して少なくとも1つのモデル変数を導出し、前記導出が、前記ユーザによって入力された前記モデル変数のうちの少なくともいくつかを、対応する少なくとも1つのソース変数と一致させることを含む、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記入力モジュールは、前記ユーザが検索クエリを入力することを可能にし、前記複数のモデルを指定する前記ユーザが、前記検索クエリに従って少なくとも1つのモデルを識別する入力ユニットを備える、請求項1から10のいずれか一項に記載の装置。
【請求項12】
少なくとも1つのデータソースと、
請求項1から11のいずれか一項に記載の患者データ有効性解析のための装置と、
出力ユニットと
を備える患者データ有効性解析のためのシステムであって、
複数の患者記録が、前記少なくとも1つのデータソースから入力ユニットに提供され、
前記出力ユニットが、データ有効性のトップモデルに関連する情報を出力する、システム。
【請求項13】
プロセッサにより実行される患者データ有効性解析のための方法であって、前記方法は、前記プロセッサが、
a)複数のモデルを指定するステップであって、各モデルが、臨床研究と、疾病転帰の予測とで使用され、各モデルがモデル変数の関数として出力を提供する、指定するステップと、
b)前記複数のモデルの少なくともいくつかのモデル変数を定義するステップと、
c)ソース変数を指定するステップであって、モデル変数が1つ又は複数のソース変数から導出される、指定するステップと、
d)少なくとも1つのデータソースを指定するステップと、
e)前記少なくとも1つのデータソースからの複数のデータ記録を受け取るステップであって、各データ記録が少なくとも1つの属性を含む、受け取るステップと、
f)前記複数のデータ記録から各モデルの利用可能なデータ記録のセットを決定するステップであって、モデルに対する前記決定が、そのモデルの前記モデル変数と、関連する前記ソース変数と、前記複数のデータ記録の前記少なくとも1つの属性とを利用することを含み、前記利用可能なデータ記録の各々が複数の値を含む、決定するステップと、
g)前記複数の値のうち閾値の数未満の値しか欠損していない各モデルの前記利用可能なデータ記録をクリーンなデータ記録として決定するステップと、
)対応する前記複数のモデルの複数の有効性尺度を決定するステップであって、前記有効性尺度の決定が、各モデルの決定された前記利用可能なデータ記録のセットを利用することを含み、モデルの前記有効性尺度が、そのモデルの前記クリーンなデータ記録の数を含む、決定するステップと、
)前記複数のモデルのうちのサブセットのモデルをデータ有効性のトップモデルとして選択しランク付けするステップであって、前記選択が、前記複数の有効性尺度を利用することを含む、選択しランク付けするステップと
を実行する、方法。
【請求項14】
プロセッサによって実行されたとき、請求項13に記載の方法を実行する請求項1から11のいずれか一項に記載の装置及び/又は請求項12に記載のシステムを制御するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、患者データ有効性解析のための装置、患者データ有効性解析のためのシステム、患者データ有効性解析のための方法、並びにコンピュータプログラム要素に関する。
【背景技術】
【0002】
本発明の一般的な背景は、患者の記録を識別する分野である。心血管情報システム(CVIS)は健康管理業界で長年利用されている。CVIS又は臨床データレポジトリ(CDR)からの情報及び好ましくは知識を利用する1つの取り組みは、特定の新しい患者又はクエリの基準と一致する履歴ケースを見出し、貴重な参考資料を意思決定者、例えば、介護者又は医師に提供することである。正式の臨床研究に関する多量の専用コスト及び労力なしに巨大な貴重なデータを提供するCDRからの収集データに対してデータ解析が行われる傾向がある。典型的な臨床研究問題では、いくつかの変数(特徴)がCDRから抽出される必要があり、様々なルールによって様々なソースからこれらの変数を得るための多数のやり方があるが、しかしなお、データ内のノイズのためにデータ有効性が異なることになる。CDRデータはノイズを含むが、その理由は、臨床診療では、必然的に、タイムリーなやり方での患者の治療を、患者と治療に関して絶対的に完全で正確なものを作成し記録することとバランスさせるからである。加えて、人間がデータの処理及び記録に関与するために、ノイズが、再度、そのような不完全なデータに起因して導入される。
【0003】
米国特許出願公開第2016/0019265A1号は、複数のソースの統合に関する自動アドバイスを生成するための技法を説明している。一実施形態では、複数の統合ソースの提案された統合に関連する1つ又は複数のパラメータのセットが受け取られる。1つ又は複数のパラメータのセットの受取りに応じて、複数の統合ソースを統合するための1つ又は複数の推奨のセットが、生成され、揮発性又は不揮発性コンピュータ可読記憶媒体の少なくとも1つに格納される。いくつかの実施形態では、1つ又は複数の推奨のセットは、特定の統合シナリオに基づいて複数のソースを1つ又は複数の目的先のセットに統合することに関連する性能を改善する方法を示す。1つ又は複数の推奨のセットは、複数の統合ソースの統合計画の間表示される。
【0004】
WO2014/201515A1は、医療データを処理するための、例えば、人にとって有害な事象又は転帰の可能性又はリスクを機械学習技法に基づいて決定するためのシステム及びプロセスを開示している。転帰は、例えば、自殺企図のリスク、癌生存の確率、多数の再入院などである。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ノイズの多い診療データを含む臨床研究データ記録のセルフサービスを可能にするために、患者データ有効性解析のための改善された装置及び関連する方法と、患者データ有効性解析のための改善されたシステムとを有することは有利である。
【課題を解決するための手段】
【0006】
本発明の目的は独立請求項の主題によって解決され、さらなる実施形態が従属請求項に組み込まれる。以下に記載される本発明の態様及び例はまた、患者データ有効性解析のための装置、患者データ有効性解析のためのシステム、患者データ有効性解析のための方法、及びコンピュータプログラム要素に該当することに留意されたい。
【0007】
第1の態様によれば、
- 入力モジュールと、
- データ及びモデル解析モジュールと、
- 最適化モジュールと
を備える患者データ有効性解析のための装置が提供される。
【0008】
入力モジュールは、ユーザが複数のモデルを指定することを可能にするように構成される。各モデルは、モデル変数の関数として出力を提供する。入力モジュールは、ユーザが複数のモデルの少なくともいくつかのモデル変数を定義することを可能にするようにも構成される。入力モジュールは、ユーザがソース変数を指定することを可能にするようにも構成される。モデル変数は、1つ又は複数のソース変数から導出される。入力モジュールは、ユーザが少なくとも1つのデータソースを指定することを可能にするようにも構成される。入力モジュールは、少なくとも1つのデータソースからの複数のデータ記録を受け取るようにも構成される。各データ記録は、少なくとも1つの属性を含む。データ及びモデル解析モジュールは、複数のデータ記録から各モデルの利用可能なデータ記録のセットを決定するように構成される。モデルのための決定は、そのモデルのモデル変数と、関連するソース変数と、複数のデータ記録の少なくとも1つの属性との利用を含む。データ及びモデル解析モジュールは、対応する複数のモデルの複数の有効性尺度を決定するようにも構成され、決定は、各モデルの決定された利用可能なデータ記録のセットの利用を含む。最適化モジュールは、複数のモデルのうちのサブセットのモデルをデータ有効性のトップモデルとしてランク付けし選択するように構成される。選択は、複数の有効性尺度の利用を含む。
【0009】
このようにして、ユーザは、好都合には、所望の入力変数と、所望の変数のセットをサポートするデータサイズとの間のトレードオフを理解することができる。ユーザは、データ特性の要件に応じて、最適化されたデータの有効性を得ることができる。ユーザは、さらに、変数有効性プロファイリングによって潜在的なデータ品質問題を識別し、データが、フォローアップデータ解析によってさらに検証されるように研究仮説をサポートしているかどうかをチェックすることができる。
【0010】
別の言い方をすると、データ有効性は、多数の仮説(モデル)の中で最終候補リストを作成する間に解析され、さらに、その利用可能なデータ及び最終候補リストに入れられたモデルを使用する予測及びモデリングのステップを、より効率的でより効果的にすることができる。
【0011】
したがって、第1のレベルでのデータ有効性選択が実行されて、様々な変数ソース及び導出選択の中で最良の有効性が決定され、それによって、フォローアップ解析での決定が簡単化及び最適化される。そうでなければ、各モデルは、選択されるべき少なからぬ組合せを有することになり、恣意的な選択が、後のモデリングのステップにデータ品質の問題を導入することになる。
【0012】
一例では、入力モジュールは、ユーザが予想データの制約条件を提供することを可能にするように構成され、データ及びモデル解析モジュールは、複数のモデルの各モデルに対して、ユーザによって提供された予想データの制約条件で指定される変数の統計値を決定するように構成される。次いで、サブセットのモデルの選択は、複数のモデルの決定された変数の統計値の利用を含む。
【0013】
一例では、最適化モジュールは、トップモデルの利用可能なデータ記録のうちのいずれかのデータ記録が、ユーザによって入力された予想データの制約条件の範囲外にあるかどうかに関する情報を出力するように構成される。
【0014】
言い換えれば、装置は、妥協したユーザ期待値(侵害された制約条件)の情報を出力し、それにより、ユーザが、モデル及びその関連する利用可能なデータが許容可能かどうかをより適切に決定できるようにする。
【0015】
一例では、データ及びモデル解析モジュールは、複数のモデルのうちの少なくとも1つのモデルに対して少なくとも1つのモデル性能を決定するように構成される。次いで、サブセットのモデルの選択は、少なくとも1つのモデル性能の利用を含む。
【0016】
一例では、最適化モジュールは、サブセットのモデルのうちの最良のモデルを決定するように構成される。
【0017】
一例では、最適化モジュールは、サブセットのモデルをランク付けするように構成される。
【0018】
一例では、データ及びモデル解析モジュールは、各モデルの利用可能なデータ記録のうちのいくつかのクリーンなデータ記録を決定するように構成される。利用可能なデータ記録の各々は複数の値を含む。次いで、クリーンなデータ記録は、閾値数未満の値しか欠損していない利用可能なデータ記録のうちのそれらのデータ記録として決定され、モデルの有効性尺度は、そのモデルのクリーンなデータ記録の数を含む。
【0019】
一例では、モデルの有効性尺度は、そのモデルのクリーンなデータ記録の数をクリーンなデータ記録の総数で割ったものを含む。
【0020】
一例では、閾値は値の数の割合であり、それは0パーセントを含む。
【0021】
したがって、クリーンなデータ記録は、欠損値がないデータ記録、又は閾値の割合を下回るいくつかの欠損値を有するデータ記録を有する。
【0022】
一例では、モデルの有効性尺度は、そのモデルのモデル変数の数によって重み付けされた値を有する。
【0023】
一例では、データ及びモデル解析モジュールは、複数のモデルのうちの少なくとも1つに対して少なくとも1つのモデル変数を導出するように構成される。導出は、ユーザによって入力されたモデル変数のうちの少なくともいくつかを、対応する少なくとも1つのソース変数と一致させることを含む。
【0024】
このようにして、装置は、ユーザによって提供された情報に基づいて、モデルで使用する正しいモデル変数を決定する。
【0025】
一例では、入力モジュールは、ユーザが検索クエリを入力することを可能にするように構成される。複数のモデルを指定するユーザは、検索クエリに従って少なくとも1つのモデルを識別する入力ユニットを備える。
【0026】
言い換えれば、ユーザは、使用されるべきモデルを明確に定義することができるが、検索クエリを提供することもでき、入力ユニットは、ユーザ検索又はキーワードに従って、臨床ドメインの知識ベースからリスクモデルなどの既存のモデルを取り出し、それにより、モデル変数及び変数導出ルールの入力を簡単化する。
【0027】
第2の態様によれば、
- 少なくとも1つのデータソースと、
- 第1の態様及びオプションとして関連する例による患者データ有効性解析のための装置と、
- 出力ユニットと
を備える患者データ有効性解析のためのシステムが提供される。
【0028】
複数の患者記録が、少なくとも1つのデータソースから入力ユニットに提供され、出力ユニットは、データ有効性のトップモデルに関連する情報を出力するように構成される。
【0029】
第3の態様によれば、
a)複数のモデルを指定するステップであって、各モデルがモデル変数の関数として出力を提供する、指定するステップと、
b)複数のモデルの少なくともいくつかのモデル変数を定義するステップと、
c)ソース変数を指定するステップであって、
モデル変数が1つ又は複数のソース変数から導出される、指定するステップと、
d)少なくとも1つのデータソースを指定するステップと、
e)少なくとも1つのデータソースからの複数のデータ記録を受け取るステップであって、各データ記録が少なくとも1つの属性を含む、受け取るステップと、
f)複数のデータ記録から各モデルの利用可能なデータ記録のセットを決定するステップであって、モデルのための決定が、そのモデルのモデル変数と、関連するソース変数と、複数のデータ記録の少なくとも1つの属性とを利用することを含む、決定するステップと、
g)対応する複数のモデルの複数の有効性尺度を決定するステップであって、決定が、各モデルの決定された利用可能なデータ記録のセットを利用することを含む、決定するステップと、
h)複数のモデルのうちのサブセットのモデルをデータ有効性のトップモデルとして選択するステップであって、選択が、複数の有効性尺度を利用することを含む、選択するステップと
を有する患者データ有効性解析のための方法が提供される。
【0030】
したがって、高度なデータ解析方法は、心血管情報システム(CVIS)/臨床データレポジトリ(CDR)内の直接統合されたモジュールとすることができ、ユーザ/医師は、格納された情報を知識に効果的及び効率的に変えることができる。
【0031】
別の態様によれば、コンピュータプログラム要素が処理ユニットによって実行される場合、前に説明したような方法のステップを実行するように構成された、前に説明したような装置及び/又はシステムを制御するコンピュータプログラム要素が提供される。
【0032】
前に説明したようなコンピュータ要素を格納したコンピュータ可読媒体も提供される。
【0033】
有利には、上述の態様のいずれかによって提供される利点は、他の態様のすべてに等しく適用され、逆も同様である。
【0034】
上述の態様及び例は、以下に記載する実施形態から明らかになり、以下に記載する実施形態を参照して解明される。
【0035】
例示的な実施形態が、以下の図面を参照して下記に記載される。
【図面の簡単な説明】
【0036】
図1】患者データ有効性解析のための装置の一例の概略のセットアップを示す図である。
図2】患者データ有効性解析のためのシステムの一例の概略のセットアップを示す図である。
図3】患者データ有効性解析のための方法を示す図である。
図4】急性腎障害(AKI)の例に関連する患者データ有効性解析のためのシステムの詳細な高レベル図である。
図5】CDR、検査室情報システム(LIS)、及び入院時診療記録(AN)を含む多数のデータソースに由来する患者データ有効性解析のためのシステムに関連する詳細なワークフローを示す図である。
【発明を実施するための形態】
【0037】
図1は、患者データ有効性解析のための装置10の一例を示す。装置10は、入力モジュール20と、データ及びモデル解析モジュール30と、最適化モジュール40とを備える。入力モジュール20は、ユーザが複数のモデルを指定することを可能にするように構成される。各モデルは、モデル変数の関数として出力を提供する。入力モジュール20は、ユーザが複数のモデルの少なくともいくつかのモデル変数を定義することを可能にするようにも構成される。入力モジュール20は、ユーザがソース変数を指定することを可能にするようにさらに構成される。モデル変数は、1つ又は複数のソース変数から導出される。入力モジュール20は、ユーザが少なくとも1つのデータソースを指定することを可能にするように構成される。入力モジュール20は、少なくとも1つのデータソースからの複数のデータ記録を受け取るようにも構成される。各データ記録は、少なくとも1つの属性を含む。データ及びモデル解析モジュール30は、複数のデータ記録から各モデルの利用可能なデータ記録のセットを決定するように構成される。モデルのための決定は、そのモデルのモデル変数と、関連するソース変数と、複数のデータ記録の少なくとも1つの属性との利用を含む。データ及びモデル解析モジュール30は、対応する複数のモデルの複数の有効性尺度を決定するようにも構成される。対応する複数のモデルの複数の有効性尺度の決定は、各モデルの決定された利用可能なデータ記録のセットの利用を含む。最適化モジュール40は、複数のモデルのうちのサブセットのモデルをデータ有効性のトップモデルとして選択するように構成される。選択は、複数の有効性尺度の利用を含む。
【0038】
一例では、少なくとも1つの属性値は、特定の患者に関しての人口統計情報、ライフスタイル情報、医療情報、介添人情報、履歴及びリスク要因情報、以前の来院情報、処置情報などのうちの1つ又は複数を含む。医療情報には、患者の基本的な健康情報、病変情報、機器情報、及びフォローアップ情報が含まれる。それゆえに、少なくとも1つの属性には、人口統計データ(年齢、性別、体重、民族性など)、慢性行動状態(喫煙、アルコールの大量摂取、様々な快楽麻薬の摂取など)の有/無、様々な慢性臨床症状(高血圧、糖尿病、喘息、心臓病など)の有/無、様々な急性疾患(肺炎又は他の急性呼吸器疾患、様々な腫瘍症状など)の有/無、前述のものに関連する特徴(例えば、癌ステージ及びグレード)、医療及び介添人情報などが含まれる。したがって、少なくとも1つの属性値は、医療問題、例えば、症状(例えば、出血)、厳しい医療結果(例えば、死亡)、若しくは医療状態(例えば、正常)、又は他のコンテキスト情報、例えば、患者の病歴、臨床検査結果、若しくは人口統計データを表す医療記録のデータフィールドである。属性値は、例えば、コンテキスト情報の値又は医療問題の可能性である。
【0039】
一例では、少なくとも1つのデータソースは、1つ又は複数の臨床データレポジトリ(CDR)、検査室情報システム(LIS)、及び入院時診療記録(AN)を含む。
【0040】
このようにして、データの不完全性及び多数の潜在的に矛盾するソースを含む継承されたノイズは緩和され、例えば、CDRデータの状態(有効性)を考慮してどの仮説(モデル)を検証すべきかについてユーザが理解し最適化決定を行うのを支援する効率的で効果的な手段が提供される。
【0041】
一例によれば、入力モジュールは、ユーザが予想データの制約条件を提供することを可能にするように構成される。データ及びモデル解析モジュールは、複数のモデルの各モデルに対して、ユーザによって提供された予想データの制約条件で指定された変数の統計値を決定するように構成される。次いで、サブセットのモデルの選択は、複数のモデルに対する決定された変数の統計値の利用を含む。
【0042】
一例では、ユーザ制約条件で指定される変数の統計値には、例えば、記録数、性別、予想された記録数における年齢、性別比、年齢範囲が含まれる。
【0043】
一例によれば、最適化モジュールは、トップモデルの利用可能なデータ記録のうちのいずれかのデータ記録が、ユーザによって入力された予想データの制約条件の範囲外にあるかどうかに関する情報を出力するように構成される。
【0044】
一例によれば、データ及びモデル解析モジュールは、複数のモデルのうちの少なくとも1つのモデルに対して少なくとも1つのモデル性能を決定するように構成される。次いで、サブセットのモデルの選択は、少なくとも1つのモデル性能の利用を含む。
【0045】
一例によれば、最適化モジュールは、サブセットのモデルのうちの最良のモデルを決定するように構成される。
【0046】
一例によれば、最適化モジュールは、サブセットのモデルをランク付けするように構成される。
【0047】
一例によれば、データ及びモデル解析モジュールは、各モデルの利用可能なデータ記録のうちのいくつかのクリーンなデータ記録を決定するように構成される。利用可能なデータ記録の各々は、複数の値を含むことができ、クリーンなデータ記録は、閾値数未満の値しか欠損していない利用可能なデータ記録のうちのそれらのデータ記録として決定される。次いで、モデルの有効性尺度は、そのモデルでのクリーンなデータ記録の数を含む。
【0048】
一例によれば、モデルの有効性尺度は、そのモデルのクリーンなデータ記録の数をクリーンなデータ記録の総数で割ったものを含む。
【0049】
一例によれば、閾値は値の数の割合であり、それは0パーセントを含む。
【0050】
したがって、例えば、クリーンなデータ記録は、欠損値がない、欠損値が1%未満である、欠損値が2%未満である、欠損値が5%未満である、欠損値が10%未満である、欠損値が20%未満であるそれらのデータ記録である。
【0051】
一例によれば、モデルの有効性尺度は、そのモデルのモデル変数の数によって重み付けされた値を有する。
【0052】
一例では、少なくとも1つのデータソースは、CDR、LIS、及び入院時診療記録(AN)を含む。
【0053】
一例によれば、データ及びモデル解析モジュールは、複数のモデルのうちの少なくとも1つに対して少なくとも1つのモデル変数を導出するように構成される。導出は、ユーザによって入力されたモデル変数のうちの少なくともいくつかを、対応する少なくとも1つのソース変数と一致させることを含む。
【0054】
一例によれば、入力モジュールは、ユーザが検索クエリを入力することを可能にするように構成される。次いで、複数のモデルを指定するユーザは、検索クエリに従って少なくとも1つのモデルを識別する入力ユニットを備える。
【0055】
図2は、患者データ有効性解析のためのシステム100の一例を示す。システム100は、図2に関して説明するように、少なくとも1つのデータソース110と、患者データ有効性解析のための装置10とを含む。システム100は、出力ユニット120をさらに含む。複数の患者記録が、少なくとも1つのデータソース110から入力ユニット20に提供される。出力ユニット120は、データ有効性のトップモデルに関連する情報を出力するように構成される。
【0056】
図3は、患者データ有効性解析のための方法200をその基本的なステップで示す。方法200は、
ステップa)とも呼ばれる指定するステップ210において、複数のモデルを指定するステップであって、各モデルがモデル変数の関数として出力を提供する、指定するステップと、
ステップb)とも呼ばれる定義するステップ220において、複数のモデルの少なくともいくつかのモデル変数を定義するステップと、
ステップc)とも呼ばれる指定するステップ230において、ソース変数を指定するステップであって、モデル変数が1つ又は複数のソース変数から導出される、指定するステップと、
ステップd)とも呼ばれる指定するステップ240において、少なくとも1つのデータソースを指定するステップと、
ステップe)とも呼ばれる受け取るステップ250において、少なくとも1つのデータソースからの複数のデータ記録を受け取るステップであって、各データ記録が少なくとも1つの属性を含む、受け取るステップと、
ステップf)とも呼ばれる決定するステップ260において、複数のデータ記録から各モデルの利用可能なデータ記録のセットを決定するステップであって、モデルのための決定が、そのモデルのモデル変数と、関連するソース変数と、複数のデータ記録の少なくとも1つの属性とを利用することを含む、決定するステップと、
ステップg)とも呼ばれる決定するステップ270において、対応する複数のモデルの複数の有効性尺度を決定するステップであって、決定が、各モデルの決定された利用可能なデータ記録のセットを利用することを含む、決定するステップと、
ステップh)とも呼ばれる選択するステップ280において、複数のモデルのうちのサブセットのモデルをデータ有効性のトップモデルとして選択するステップであって、選択が複数の有効性尺度を利用することを含む、選択するステップと
を有する。
【0057】
一例では、この方法は、予想データの制約条件を提供するステップを有し、トップモデルに対して予想データの制約条件で指定された変数の統計値を決定するステップを有する。次いで、サブセットのモデルの選択は、決定された変数の統計値の利用を含む。
【0058】
一例では、この方法は、モデルの利用可能なデータ記録のうちのいずれかのデータ記録が、予想データの制約条件の範囲外にある(満たさない)かどうかに関する情報を出力するステップを有する。
【0059】
一例では、この方法は、複数のモデルのうちの少なくとも1つのモデルに対して少なくとも1つのモデル性能を決定するステップを有する。次いで、サブセットのモデルを選択するステップは、少なくとも1つのモデル性能を利用するステップを有する。
【0060】
一例では、この方法は、サブセットのモデルのうちの最良のモデルを決定するステップを有する。
【0061】
一例では、この方法は、サブセットのモデルをランク付けするステップを有する。
【0062】
一例では、この方法は、各モデルの利用可能なデータ記録のうちのいくつかのクリーンなデータ記録を決定するステップを有し、利用可能なデータ記録の各々は複数の値を含む。次いで、クリーンなデータ記録は、閾値数未満の値しか欠損していない利用可能なデータ記録のうちのそれらのデータ記録として決定される。次いで、モデルの有効性尺度は、そのモデルでのクリーンなデータ記録の数を含む。
【0063】
一例では、モデルの有効性尺度を決定するステップは、そのモデルのクリーンなデータ記録の数をクリーンなデータ記録の総数で割ったものを計算するステップを有する。
【0064】
この方法の一例では、閾値は値の数の割合であり、それは0パーセントを含む。
【0065】
この方法の一例では、モデルの有効性尺度は、そのモデルのモデル変数の数によって重み付けされた値を有する。
【0066】
一例では、この方法は、複数のモデルのうちの少なくとも1つに対して少なくとも1つのモデル変数を導出するステップを有し、導出は、モデル変数のうちの少なくともいくつかを、対応する少なくとも1つのソース変数と一致させるステップを有する。
【0067】
一例では、この方法は、検索クエリを入力するステップを有し、複数のモデルを指定するステップは、検索クエリに従って少なくとも1つのモデルを識別するステップを有する。
【0068】
次に、患者データ有効性解析のための装置、システム、及び方法が、図4図5に関連してより詳細に説明される。
【0069】
図4は、急性腎障害(AKI)の例に関連する患者データ有効性解析のためのシステムの詳細な高レベル図を示す。上で論じたように、心血管情報システム(CVIS)は健康管理業界で長年利用されている。現在のCVISの主要な機能は、患者の記録を格納及び評価することである。例えば、米国特許第6604115B1号を参照されたい。いくつかの高性能のCVISはまた、電子健康記録(EHR)、検査室情報システム(LIS)などのような病院の他のシステムに統合される。それによって、医師は、患者の健康記録を概観する。通常、CVISは、報告、スケジューリング、及び管理目的のために使用され、一方、臨床データレポジトリ(CDR)は、さらに、モデリング及び予測解析などの高度なデータ解析を実行するためのより深く掘り下げた情報を記録する。ここで、CVIS及びCDRは、総称してCDRと呼ぶ。
【0070】
図1図3に関して説明し、図4に示した典型的なシステムで具現され、図5に示す詳細なワークフローに関して以下で説明する患者記録の識別のための装置、方法、及びシステムは、直接統合されたモジュールをCDR内に備えて、ユーザ/医師が、格納された情報を知識に効果的及び効率的に変えることを可能にする。
【0071】
一般的に、(臨床)研究トピックは、収集された(又は収集されるべき)データに基づいて、仮説(ここで、モデルとも呼ぶ)を検証すること、又は関連する仮説から最終候補リストを作成することに重点をおく。それゆえに、データ有効性は、実際の予測解析及びリスクモデリングが行われる前に仮説を検証できるかどうかにとって重要である。従来の計画された研究では、データは、品質への献身的な取り組み、厳格な包含/排除基準、及び人間の集中的なフォローアップにより、非常に厳密なやり方で収集された。作業のこのやり方は、スケーラビリティを制限し、人口全体の代表的な結論には莫大なコスト及び労力を必要とする。他方、広く採用されている電子記録及び健康情報システム、並びに深く掘り下げたCDRにより、仮説は、毎日収集される巨大な既存のデータを使用して生成及び検証される。課題は、データの不完全性及び多数の潜在的に矛盾するソースを含む継承されたノイズにある。CDRデータの状態(有効性)を考慮してどの仮説(モデル)を検証するべきかについてユーザが理解し最適化決定を行うのを支援する効率的で効果的なツールを提供することによる、図4図5に示される詳細な例で具現された装置のシステム、システム、及び方法がある。
【0072】
図4は、急性腎障害(AKI)予測モデルを構築するためにCDRデータ及び他のシステムからのデータを利用するシステムを示す。患者データからのロジスティック回帰によって導出されたいくつかの既存のAKIリスクスコア又は仮説(モデル1から5)がある。既存のリスクスコアが特定のデータの予測に役立つかどうかを検証するには、及びより有益な変数により母集団固有モデル(例えば、ロジスティック回帰)をさらに構築するには、最初に、既存のモデル及び新しいモデルをサポートすることができるデータの量を明確に理解することが必要である。図4に示すように、CDR並びに他のデータソースは、欠損値を有し、モデルの様々な変数に異なる有効性を与える。モデルの変数は、ここでは、年齢、性別、貧血、糖尿病、CHF、IABP/バルーンポンプ使用、高血圧、造影量として示されており、他のモデル変数が可能である。
【0073】
多数のレベルに、対処されるいくつかの課題がある。
1.モデルが異なると変数も異なる。データは、かなり異なる有効性でモデルをサポートすることがある。
2.前述の変数は、異なるデータソースに由来してもよく、又は多くのやり方を使用して(例えば、多数の検査室結果を組み合わせて)導出してもよい。データは、かなり異なる有効性で前述の変数をサポートする。
3.新しい仮説を検証するために(新しいモデルを構築するために)新しい変数を導入すると、やはり、データ有効性の制約条件を受ける(変数が多いほどクリーンなデータが少ない)。
【0074】
図4を続けて、一例として提供されているAKIデータを採用すると、検査室情報システム(LIS)データ、EMRからの入院時診療記録、CDR(Cathpciとしてコード化された)データ、並びに他のソースがある。各データソースは、上で論じたような様々な理由のためにかなりの欠損値を有する。また、モデルが異なると(モデル1~5を参照)、データ有効性が異なる(279個の記録から684個の記録に及ぶ)。利用可能なデータ記録のこの決定により、予測及びモデリングの次のステップを効率的に行うことができる。
【0075】
患者データ有効性解析のための記載されている装置、システム、及び方法によって対処される問題を理解するのに役立つように、以下のことを考慮する。貧血(はい/いいえ)は、かなりの欠損値をもつCDRから直接入手可能であり、ベースラインヘモグロビン<10g/dL(100g/L)である場合にはLISをチェックすることによっても導出される。しかしながら、導出を必要とする様々な変数が乗算された単一の変数を導出するやり方の様々な組合せにより、ユーザが直接扱うことができない可能性がある少なからぬ数のデータ有効性の組合せがもたらされる。簡単にするために、モデルがすべて同じ変数要件を有すると仮定される。5つのモデルがあり、各モデルは8つの変数を有し、8つの変数のうちの2つの変数は各々合計で4つの異なる導出のやり方を有し、他の3つは各々2つの可能なソースを有すると想定する。残りの3つの変数は、同じソースからのものであり、導出の必要がない。それゆえに、5×(4×2×1)=640の組合せがある。これらの選択から新しいモデルを構築するために各追加の変数を加えると、別のレベルの乗算がもたらされる(新しい変数に2つの代替のやり方がある場合、毎回*2)。さらに、特定の臨床関連調査研究では、ユーザ(臨床医)は、最小の患者数、性別比、年齢範囲などのいくつかの要件が満たされることを期待する。これは、厳格に仮説を検証できる場合、又は単にデータを利用できないために結論に達することができない場合、実現可能性をさらに複雑にし、ユーザが研究目的に自信をもって達するのを不明瞭にする。
【0076】
図4図5に示す詳細な例で具現された装置のシステム、システム、及び方法は、さらなる予測及びモデリングのステップの前に多数の仮説(モデル)の中で最終候補リストを作成する間にデータ有効性を解析することによって、これに対処する。したがって、図4の右側に示すように、様々な変数ソースと導出の選択の間で最良の有効性を決定して、フォローアップ解析の決定を簡単化するために、最初のレベルにデータ有効性選択を有することが望ましく、そうでなければ、各モデルは、選択されるべき少なからぬ組合せを有することになる。そして、データに応じて最良の利用可能なモデル(オプションとしてまた、利用可能なデータを考慮した予測力とともに)をユーザに提供することが望ましい(図4には図示せず)。このようにして、ノイズの多いデータによって様々な仮説(例えば、予測解析のモデル)を選択するために、データ有効性トレードをトレードオフするデータ処理システムが提供される。言い換えれば、ここで説明するような臨床データレポジトリ(CDR)のためのデータ有効性解析システムは、ノイズの多い診療データによる臨床研究のセルフサービスを可能にする。典型的な臨床研究問題では、いくつかの入力変数(特徴)がCDRから抽出される必要があり、様々なルールによって様々なソースからこれらの変数を得るための多数のやり方があるが、しかしなお、データ内のノイズのためにデータ有効性が異なることになる。このシステムにより、ユーザは、好都合には、所望の入力変数と、所望の変数のセットをサポートするデータサイズとの間のトレードオフを理解することができる。ユーザはまた、変数有効性プロファイリングによって潜在的なデータ品質問題を識別し、データが、フォローアップデータ解析によってさらに検証されるように研究仮説(モデル)をサポートしているかどうかをチェックすることができる。
【0077】
図5は、患者データ有効性解析のためのシステムに関連する詳細なワークフローを示し、それは、以下で説明するような主要な要素で構成され、関連する機能がワークフロー内で動作する。
1.ユーザが、仕様として収集され表されるデータソース、モデル、モデル変数、及びデータ期待値(制約条件)を指定するための入力モジュール。
・システムは、ユーザが、モデルの変数を入力し、変数導出のためのソース変数を指定し、予想データの制約条件を提供するためのインタフェースを備える。
・それは、ユーザ検索又はキーワードに従って、臨床ドメインの知識ベースから既存のリスクモデルを取り出し、それにより、モデル変数及び変数導出ルールの入力を簡単化する。しかしながら、リスクモデルをこのように取り出すことは必須ではない。
2.多数のデータソースとデータ有効性統計値の仕様とを統合するためのデータ及び仮説(モデル)解析モジュール。
・システムは、CDR、LIS、及び入院時診療記録(AN)などの関連データソースのリストを維持する。
・それは、仮説入力変数、対応するソース変数を一致させて、仮説変数、目標変数を導出する。それにより、データは、モデル変数及び目標変数を指定した後、取り出される。
・特定のモデル、その変数及びソース変数、並びに多数のデータソースからの対応するデータ属性について、システムは、利用可能なデータを取り出し、以下のものを計算する。
i.有効性尺度、その一実施形態は、利用可能な記録の数である。
ii.ユーザ制約条件で指定された変数の統計値(例えば、記録数、性別、予想する記録数における年齢、性別比、年齢範囲)。
iii.仮説が、例えば、受診者動作特性曲線(ROC)の曲線下面積(AUC)によって評価されるモデルである場合、モデル性能。モデル性能の計算は、患者データ有効性の決定に役立つが、必須ではない。
・それは、同等の属性のエイリアスを統合するために、接続されたセルフサービスデータクレンジングシステムを利用し、様々なデータソースの不一致をマージし、ノイズの多いデータを検出及び除去する。しかしながら、この機能は必須ではない。
3.データ有効性及びユーザデータ期待値(制約条件)を考慮して有効性尺度を最適化するための最適化モジュール。
・システムは、結果として生じた統計値(有効性尺度、ユーザ制約条件の変数統計値、及びオプションとしてモデル性能)を処理し、様々な変数選択肢から全体的な有効性スコアを最適化する。
・システムは、単一の全スコア又は多目的パレートフロントに従ってトップモデルを最終候補リストに入れ、ユーザに提示する。
・システムは、妥協したユーザ期待値(侵害された制約条件)の情報を出力する。
4.ユーザが関心を持った新しい属性のデータ有効性解析に適合する新しい属性解析モジュール。それ自体、事実上、上述のワークフローへの「アドオン」である。
・システムは、さらに、高度な解析に関するより多くの情報に対するユーザ要求に応じて関心のある新しい変数の導入をサポートする。
・システムは、同様のステップを実行し、新しいモデルデータの有効性結果を与える。
・それにより、新しい属性解析モジュールは、ユーザが後でさらに多くの属性(モデル変数)を追加したいというシナリオに対処する。
【0078】
上述の機能のいくつかについてさらなる詳細が提供される。
1.ポイント2で説明した「有効性尺度」:
・1つのベースラインの例では、特定のモデルの特定の変数選択肢選択に対する欠損値のない記録の数(純粋なクリーンセット)が、有効性尺度として使用され、オプションとして、目標変数に欠損がない記録の総数によって正規化される。
・別の例では、上述の正規化された数は、さらに、記録の特定の欠損の割合を受入れることによって重み付けされ、利用可能なデータを純粋にクリーンにすることができない場合に柔軟な調整を導入することができる。
・別の例では、尺度は、さらに、十分な利用可能なデータをもつより記述的なモデル(より多くの変数)が好まれる場合、変数の数によって重み付けされる。
2.モデルと変数選択肢とのすべての組合せを最適化する、ポイント3で説明した「最適化モジュール」。
・1つのベースラインの例では、すべての組合せは、最適化尺度に従って徹底的に評価される(ベースラインは、上述のように有効性尺度とすることができる)。
・別の例では、組合せの数が、扱いにくいほど大きい場合、ランダム探索、遺伝的アルゴリズムなどの確率的探索アルゴリズムが使用される。
・ユーザが指定したすべてのデータ期待値(有効性制約条件)は、厳しい制約条件として設定されており、制約条件を満たさないいずれの組合せも、最適化に向けて続行されない。
・別の例では、ユーザ指定の有効性制約条件が、新しい有効性尺度の一部としてマージされるか、又は追加のペナルティ項として追加される。そのとき、有効性最適化結果は、特定のユーザ指定期待値に妥協(違反)したものになる。例えば、性別比は1:3であるが、予想された比率は1:4であった。ユーザ指定期待値のそのような違反に関する相違は、ユーザ選択のために及び意思決定をガイドするのに役立つためにユーザに提示される。
【0079】
別の例示的な実施形態では、前述の実施形態のうちの1つによる方法に関する方法のステップを適切なシステムで実行するように構成されることを特徴とするコンピュータプログラム又はコンピュータプログラム要素が提供される。
【0080】
それゆえに、コンピュータプログラム要素は、一実施形態の一部でもあるコンピュータユニットに格納される。このコンピューティングユニットは、上述の方法のステップを実行するように又はその実行を誘導するように構成される。その上、それは、上述の装置及び/又はシステムの構成要素を動作させるように構成される。コンピューティングユニットは、自動的に動作するように、及び/又はユーザの命令を実行するように構成される。コンピュータプログラムは、データプロセッサのワーキングメモリにロードされる。したがって、データプロセッサは、前述の実施形態のうちの1つによる方法を実行するように装備される。
【0081】
本発明のこの例示的な実施形態は、最初から本発明を使用するコンピュータプログラムと、更新によって既存のプログラムを本発明を使用するプログラムに変えるコンピュータプログラムとの両方をカバーする。
【0082】
さらに続けて、コンピュータプログラム要素は、上述の方法の例示的な実施形態の手順を遂行するためのすべての必要なステップを提供することができる。
【0083】
本発明のさらなる例示的な実施形態によれば、CD-ROM、USBスティックなどのようなコンピュータ可読媒体が提示され、コンピュータ可読媒体は、そこに格納されたコンピュータプログラム要素を有し、コンピュータプログラム要素は、前のセクションで説明されている。
【0084】
コンピュータプログラムは、他のハードウェアと一緒に供給されるか又は他のハードウェアの一部として供給される光学記憶媒体又は固体媒体などの好適な媒体に格納及び/又は分配されてもよいが、インターネット又は他の有線若しくは無線電気通信システムを介してなど、他の形態で分配されてもよい。
【0085】
しかしながら、コンピュータプログラムは、ワールドワイドウェブのようなネットワークを介して提示されてもよく、そのようなネットワークからデータプロセッサのワーキングメモリにダウンロードされてもよい。本発明のさらなる例示的な実施形態によれば、コンピュータプログラム要素をダウンロードすることを可能にする媒体が提供され、コンピュータプログラム要素は、本発明の前述の実施形態のうちの1つによる方法を実行するように構成される。
【0086】
本発明の実施形態が様々な主題を参照して説明されていることに留意すべきである。特に、ある実施形態は方法タイプの請求項に関連して説明され、一方、他の実施形態はデバイスタイプの請求項に関連して説明されている。しかしながら、当業者は、上述の説明及び以下の説明から、特に断らない限り、1つのタイプの主題に属する特徴の任意の組合せに加えて、異なる主題に関連する特徴の間の任意の組合せも本出願により開示されていると見なされることが分かるであろう。しかしながら、すべての特徴を組み合わせて、特徴の単純な和を超える相乗効果を提供することができる。
【0087】
本発明が、図面及び前述の説明で詳細に図示及び説明されたが、そのような図及び説明は、例証又は例示であり、限定でないと見なされるべきである。本発明は、開示した実施形態に限定されない。開示した実施形態への他の変形は、特許請求される発明を実践する際に、図面、開示、及び従属請求項の検討から当業者によって理解され達成される。
【0088】
特許請求の範囲において、「備えている、含んでいる、有している」という語は、他の要素又はステップを排除せず、単数形は複数を排除しない。単一のプロセッサ又は他のユニットは、特許請求の範囲に列挙されているいくつかの項目の機能を遂行することができる。特定の手段が互いに異なる従属請求項に列挙されているという単なる事実は、これらの手段の組合せを有利に使用できないことを示していない。特許請求の範囲におけるいかなる参照符号も範囲を限定するものと解釈されるべきでない。
図1
図2
図3
図4
図5