(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下の詳細な説明は、本願の図面及び実施例の実装のさらなる詳細を与える。図面間の重複する要素の参照番号及び説明は、明確性のために省略されることがある。明細書全体にわたって使用されている用語は、例として提供されており、限定を意図するものではない。例えば、「自動」という用語の使用は、本開示の例示的実装形態を実施する当業者の所望の実装に応じて、自動又は半自動実装を含むことができ、例えば、実装の特定の態様に対するユーザ又は管理者の制御を含む。選択は、ユーザインタフェース若しくは他の入力手段を介してユーザによって実行されてもよく、又は所望のアルゴリズムによって実施されてもよい。本明細書で説明される例示的な実装形態は、単独で又は組み合わせて利用することができ、例示的な実装形態の機能は、所望の実装形態による任意の手段によって実装することができる。
【0012】
例示的実装形態では、医療提供者(例えば、病院、医者、保険会社、理学療法士など)は、データの最小限の事前処理によって、十分に類似した予め計算された特徴量を用いて、患者についての予測を迅速に行うことができる。例示的実装形態では、ユーザインタフェースは、機械学習モデルに関連するテストのためのデータセットを提供する。このインタフェースにより、ユーザは、構造化された患者データセット、医療データセット、検査データセット、及び構造化されていない医師のメモデータセットなど、異なるデータソースから、特定のテストデータセットを選択的に含めることができる。
【0013】
本明細書では、機械学習において使用するために、予め格納されたモデル、データソース、演算子、及び予め計算されたモデルの特徴量を制御する、モデル管理システムを説明する。エンドツーエンドの機会学習及び分析では、データ準備は一般的に最も時間のかかる作業である。モデル管理システムは、様々なソースからの大量の異なるタイプのデータでの機械学習のための、スケーラブルなモデリングを可能にする。モデル管理システムの例示的な態様は、異なるデータ主題又はデータ変更に対する各モデルの再訓練を回避し、多数のデータ主題に対応するために格納する必要がある訓練されたモデルの数を低減する。例えば、病院は、患者毎に訓練されたモデルを保存して前処理することなく、機械学習モデルを用いて各患者に対して正確な治療予測を効率的に行うことができる。
【0014】
モデル管理システムは、新規又は要求されたデータと予め格納されたモデルの類似性を判定し、新しい訓練のために利用可能な予め計算された特徴量を再使用することで、時間及びリソースを節約する。予め格納されたモデルと予め計算された特徴量は、新しく生成したモデルや特徴量と組み合わせて、機械学習モデルを生成することができる。モデル管理システムは、予め計算された特徴量を再使用することによって、異なる患者の治療を正確に予測する個々のモデルのための、迅速なモデル準備が可能になる。
【0015】
本開示の例示的な態様は、モデル管理システムと対話するためのユーザインタフェース、予測の出力、及びモデルの基礎データに関連するデータソースを含む。例示的な実装態様では、ユーザインタフェースは、特徴量準備を構成し、機械学習モデルの結果を受け取り、辿ることができる(traceable)訓練データセットと対話するためのユーザオプションを提供する。ユーザインタフェースは、基礎となるデータを可視化し、予測に使用されるローデータを様々な元のデータソースまで辿る機能を大幅に簡素化する。さらに、モデル管理システムにより、意思決定者は、その訓練モデル及びデータ系列を使用してデータソースを識別することによって、予測結果を検討できる。
【0016】
図1は、例示的実装形態によるモデル管理システムのハードウェア構成の一例を示す。例示的なハードウェア構成は、1つ以上の中央処理装置(CPU)、コア、又はプロセッサ101と、インタフェース(例えば、出力インタフェース(I/F)102、ネットワークインタフェース103、及び入力インタフェース104)と、記憶装置(例えば、短期メモリ105、データストレージ106、RAM、ROMなど)とを含み、これらのうちの任意の装置は、情報を通信するための通信機構又はバス上に結合されるか、又は計算装置に埋め込まれる。
【0017】
一例によれば、計算装置100は、通信ネットワーク108(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)など)に動作可能に結合されて、1つ以上の外部システム(例えば、外部病院システム110、外部保険システム111、外部社会データシステム112)に接続して、モデル管理システムで使用されるデータを送受信する。
【0018】
一例では、計算装置100は、モデル管理システムを実行して、患者の健康管理ニーズに関する予測を出力する機械学習モデルを生成する。モデル管理システムは、様々な異なるデータソース(例えば、外部病院システム110、外部保険システム111、外部社会データシステム112など)から大量のデータを受信して、類似データを持つ新しい患者の要求に再使用することができる、予め処理されたデータを格納する。
【0019】
例示的な実装では、モデル管理システムは、特定の患者又はデータ対象に対する要求を受信したことに応答して、
図2の特徴量準備プロセス200を実行する。要求は患者を同定し、患者のローデータを含むことができ、または、患者データは、複数の外部ソース(例えば、
図1の外部病院システム110、外部保険システム111、外部社会データシステム112)から、を収集することができる。
【0020】
図2は、例示的な実施形態による例示的な特徴量準備プロセス200を示す。205において、プロセスは、患者のローデータから患者の特徴量を検索又は検出することができる。215において、プロセスは、再使用可能な、患者のモデルが存在するかどうかを検出する。モデル管理システム250は、モデル記憶部240を検索して、以前に記憶された訓練モデル246及び訓練モデル246の特徴量を、データベース管理システム230を介して、データベース235から見つけることができる。
【0021】
接続された医療システムで収集されたデータの種類及びサイズが増加すると、各患者は異なるデータ収集レベルになり得る。標準、要件、又は構造がないデータの場合、モデル管理システム250は、正確に予測を行うためにパラメータを調整することができる。例えば、一部のデータポイントが構造化されておらず、不整合に記録されてギャップを残している場合がある。一部の医師は、各患者の自由形式のメモを保持する可能性が高く、他の医師は患者メモを記録しない可能性がある。医師のメモは、一般に、患者の将来の状態を認識し、予測するのに有用である。モデル管理システム250は、患者に関連する医師のメモを適用する訓練モデルを含むことができ、メモがより高度又は詳細になるにつれてより高度なモデルを使用する。患者のプライベートな健康データは、異なるタイプ、アクセス性、及びフォーム(例えば、スマートフォン健康アプリ)において存在し得る。モデル管理システム250は、多種多様なデータソースからデータを受信及び追跡し、プライベートな訓練モデルでデータを処理することができる。
【0022】
モデル管理システム250は、モデル記憶部240からの十分に類似したモデルが再使用可能であるかどうかを、患者のための特徴量に基づいて決定することもできる。事前に格納されたモデルが検出されないか、又は古い場合、特徴量準備プロセス200は、270から290において、新しいモデルを生成することができる。280において、訓練されたモデルXからの特徴量236と患者のローデータ270から得られる患者のための特徴量とを組み合わせ、新しく訓練されたモデルY290を生成することができる。新しいモデル290は、類似のモデル246及び訓練されたモデルの予め計算されている特徴量236から生成することができる。予め格納されているモデルの一部ではなかった患者のローデータから、患者のための特徴量を270において抽出し、280において新しいモデルを生成するための追加の特徴量として追加することができる。特徴量準備プロセス200は、後の要求のために再使用できるように、データベース235に追加の特徴量を登録する。
【0023】
特徴量準備の例示的な方法は、患者の特徴量データを受け取り、患者の特徴量データと予め格納されたモデルの類似性を決定する。例示的実装形態では、予め格納されているモデルのデータベースが分析されて、予め格納されているモデルの特徴量準備が患者の特徴量データと両立可能あることを示す類似性を評価する。例えば、特徴量、データ系列、データ量、データ分布、正及び負のサンプル間のデータスキューなどを含む全てのメタデータベクトルの比較又は距離計算に基づいて、類似性を判定することができる。例示的実装形態において、類似モデルリストの出力には、モデル名、モデル識別子、再使用可能なデータソース、再使用可能な特徴量、再使用可能な特徴量パス、及び類似性スコアが含まれる。別の例示的実装形態では、類似モデルリストが、予め格納されたモデルから導かれ、類似モデルリストは訓練するモデルに対するユーザ選択を含む。利用される特徴量準備を示す類似性については、類似していると判定された予め格納されているモデルに基づいて、患者の特徴量データについて特徴量準備が実行される。特徴量準備は、類似する予め格納されているモデルに関連する再使用可能な特徴量を取得する。再使用可能な特徴量は、類似する予め格納されているモデルの予め計算されている特徴量を含む。機械学習モデルが特徴量準備の結果と患者の特徴量データを用いて生成され、機械学習モデルを用いて予測が与えられる。
【0024】
例示的実装形態の一態様は、患者の治療計画及び健康診断を予測するための医療データを参照して説明される。別の例示的実装形態では、保険会社は、予測結果に基づいてサービスに関連するコストを推定し、患者のための適切な保険商品を調整することができる。しかしながら、例示的実装形態の範囲は特定の環境に限定されず、本発明の範囲から逸脱することなく、他の機械学習アプリケーションに置き換えることができる。例えば、これに限定されるものではないが、前処理されたモデル特徴量を再使用できる他の機械学習アプリケーションは、不動産、自動車、保険、教育、レクリエーション用途を含むことができる。
【0025】
モデル管理システムは、予め格納されたモデルだけでなく、予め計算されたモデルのためのデータソース、演算子、及び特徴量も制御する。モデル管理システムでは、新しく生成された新たな予め計算されたものではない特徴量を使用した新しい訓練に使用可能な予め計算された特徴量の、再使用を可能とする。これにより、機械学習モデルを生成し予測を出力するために、予め計算されている特徴量を効果的に再使用することによって各テストのための迅速なモデル準備を実現する。モデル管理システムは、ビッグデータアプリケーションに対して高度にスケーラブルであり、データセットを調整してデータの精度を向上させ、さらに、結果を調べるための拡張されたインタラクティブなユーザツールを含む。
【0026】
図3は、例示的実装形態によるモデル管理サーバ300の一例を示す。モデル管理サーバ300は、エンドツーエンドのモデル及びデータ管理システムを管理するためのコンポーネントを含む。例示的な実装では、モデル管理サーバ300は、入力インタフェース305、アプリケーションサーバ315、データ更新制御部320、データ管理システム330、モデル管理システム350、訓練用特徴量準備部360、訓練部361、パラメータ調整部362、テスト用特徴量準備部370、テスト部371、及び再使用可能モデル調査部380を含む。
【0027】
モデル管理サーバ300は、モデル記憶部340に結合され、訓練されたモデル346を様々なフォーマット(例えば、ピクルファイルフォーマット.pkl)で、その訓練されたモデルを記述するためのメタデータ345と共に、格納することができる。データベース335は、予め計算された特徴量336を、ローデータとともに格納する。ローデータは、例えば、構造化データ337(例えば、患者データ、検査データ、投薬データなど)や、非構造化データ338(例えば、患者についての医師のメモ)である。
【0028】
図4は、例示的な実装による再使用可能特徴量準備プロセス400の例示的な流れを示す。プロセス400は、ハードウェア(回路、専用ロジックなど)、ソフトウェア(汎用コンピュータシステム又は専用マシン上で実行される)、又はそれらの組み合わせを含む処理ロジックによって実行される。プロセス400は、
図1のサーバ100上で動作するプロセッサ101によって実行されてもよい。プロセス400は、他の処理ロジックによって実行することもできる。
【0029】
再使用可能特徴量準備プロセス400(例えば、
図2の特徴量準備プロセス200)は、モデル管理サーバ(例えば、
図3のモデル管理サーバ300)を使用して管理することができる。一例では、新しい患者が入院すると、再入院確率、心疾患評価又は糖尿病リスクなどの様々なタイプの予測が新しい患者に必要となることがある。プロセス400の予測出力は、患者の各評価に関連するリスクを病院管理者及び医師に通知し、治療を調整(例えば、優先順位付け、変更、緩和、制御など)することができる。
【0030】
例示的な実装形態では、患者は、インタフェースからの入力を介してテストデータとして識別することができる。患者のテスト特徴量は、自動的に抽出されるか、又はテストコンポーネントのための特徴量準備においてシステムエンジニア又は分析者によって手動で抽出される。ブロック405において、プロセッサは、テストのための特徴量準備を行い、受信された使用される特徴量及び設定された特徴量メタデータを検出する。ブロック410において、再使用可能モデル調査部380は、モデル記憶部340を検索して、予め格納されているモデルとテストからの特徴量との類似性を決定する。再使用可能モデル調査部380は、このシステムが、テストデータの適切な訓練モデルを準備するために、いくつかのモデル又は特徴量を再使用できるかどうかを判定する。
【0031】
図5A及び
図5Bは、例示的な例示的実装形態による類似モデルリストの例501及び502を示す。
図5A及び
図5Bの各図は、
図4で説明したような再使用可能モデル調査部380から導出された類似モデルリストの例である。
図5Aが示す類似モデルリストの例501は、その欄に、モデル名、識別子、再使用可能データソース、再使用可能特徴量、再使用可能特徴量パス、及び予め格納されているモデルとテストとの間の類似性、を含む。
図5Bは類似モデルリストの別の例502であり、
図5Aと比較して、追加のユーザ選択欄を有する。欄は、0または1としてユーザの訓練モデルの好みを示す。類似モデルリストは、410からの出力として導出される。
【0032】
再使用可能モデル調査部380は、三つの異なる条件を判定することができる。a)モデル記憶部340に格納されており、テストデータの全てを満足する一つの再使用可能モデルが特定される。b)モデル記憶部340に格納され、テストデータの一部を満足する再使用可能モデルが特定される。c)テストデータのいずれを満たす再使用可能モデルも特定されない。
【0033】
判定結果は、類似モデルリスト415として出力される。420において、プロセス調査部は、類似モデルリストが試験データと適合する予め格納されたモデルを含むかどうかを判定する。
図5A及び
図5Bに示すような類似モデルリストに基づいて、100%適合するモデルがリスト内に存在する場合、システムはモデル記憶部340からその予め格納されたモデルを取得する。モデル記憶部340に格納され、テストデータの全てを満たす再使用可能モデルが特定されたと判定したことに応答して、プロセスは、425において、予め格納されているモデルを取り出して終了する。
【0034】
100%適合するモデルがない場合、システムは、訓練のための特徴量準備を試みる。特徴量準備は、特徴量データの再使用を含むことができる。システムは、いくつかのパラメータを調整して特徴量データを学習することによって、訓練モデルを生成しようと試みる。次に、新しい訓練モデルが生成されると、システムは、モデル管理システムにモデルを登録する。
【0035】
モデル記憶部340内に格納され、テストデータの一部を満たす再使用可能モデルが特定されたと判定された場合、又は、テストデータのいずれをも満たす再使用可能モデルが存在しないと判定された場合、に応答して、ブロック430において、プロセスは、新しい訓練モデルを生成するための特徴量準備を実行する。他のモデルは、直接的に再使用可能ではないかもしれないが、いくつかの部分的な特徴量は、新たな訓練モデルを生成するために再使用可能であり得る。再使用可能モデル調査部380は、モデル記憶部340のステータスに基づいて、上記三つの条件タイプを認識し、データモデル管理を行う。これらの調査結果は、再使用可能モデル調査部380から、類似モデルリストとして出力される。
【0036】
ブロック440において、プロセスは、特定のアルゴリズム及び調整を使用することによって、機械学習モデルを準備する。例示的実装形態では、予め格納されているモデルの類似性を決定することは、データソース及び特徴量メタデータのキーに基づいて、再使用可能なモデル及び特徴量のデータベースを検索し、検索結果に基づいて、予め格納されているモデルを伴う類似モデルリストを出力することを含む。そして、類似モデルリストからの最大類似度を有する予め格納されているモデルが、閾値を満たすと判定したことに応答して、類似モデルリストを返すことを含む。さらに、類似モデルリストからの最大類似度を有する予め格納されているモデルが閾値を満たすと判定したことに応答して類似モデルリストを返すことは、類似モデルを調整して、最小母集団基準及びサンプルデータ分布基準を満たさない再使用可能特徴量を除去すること、を含むことができる。
【0037】
最小母集団基準及又は閾値は、予測の精度を改善するように、サンプルデータを除去するために使用することができる。別の例では、予め格納されているモデルの類似性を決定することは、類似モデルリストからの予め格納されているモデルが閾値を満足しないことを決定することを含むことができ、システムは、ユーザが選択するためのモデルオプションを推薦し、ユーザが選択したモデルオプションに基づいて、モデル選択を返す。
【0038】
ブロック450において、プロセスはモデル管理システムにモデルを登録する。システムは、470において、対象の訓練されたモデルで入力されたテスト特徴量を処理し、405でのプロセスと並行して、475において予測結果を出力する。訓練モデルが準備されるとテストが実行され、予測又は任意の分析結果が機械学習の出力として導出される。
【0039】
プロセス400は、管理されている予め計算された特徴量を、特定の一つの患者グループ又は特定の少数の患者グループについて高精度で再利用することによって、迅速な訓練モデル生成を可能にする。各患者又は病院は、テストとしての患者に基づいて独立した訓練モデルを生成し、その将来の状態を予測することができる。各患者のための独立した訓練モデルは、集約モデルよりも高い精度の予測出力を可能にする。
【0040】
図6は、例示的実装形態による訓練600のための特徴量準備の流れの例を示す。類似モデルリストの入力に基づいて、上述のように、システムは訓練モデルのための特徴量を準備する。類似モデルリストに類似モデルがない場合、システムは、予め計算されている特徴量を使用せずに、新しい特徴量を生成又は抽出することを決定する。システムが類似モデルリスト上に少なくとも1つの類似モデルがあると判定すると、システムは再使用可能な特徴量を特定し、さらに、入手できずに新たに生成することが必要である特徴量を決定する。例示的実装形態において、システムは、特定された再使用可能な特徴量を予め計算されている特徴量のデータベースから取得し、予め計算されていない特徴量を並行して生成し、患者の識別子に対してこれら特徴量を結合する。
【0041】
例示的実装形態において、予め格納されているモデルと類似していないと判定された患者の特徴量データのため、予め計算されていない特徴量を生成し、予め計算されている特徴量及び生成された予め計算されていない特徴量を患者の識別子と結合する。
【0042】
ブロック615で、プロセスは、類似モデルリストを受信する。ブロック620において、プロセスは、リスト上に類似モデルが存在するかどうかを判定する。リストに類似モデルがないと判定したことに応答して、プロセスは、ブロック625において、予め計算されていない特徴量を生成する。いくつかの例示的な実装では、データベースは部分的に類似する予め格納されたモデルを含むことができる。ブロック630において、プロセスは、再使用可能な特徴量と、新たに生成される特徴量を決定する。ブロック640において、プロセスは、類似モデルリストの予め計算されている特徴量から再使用可能な特徴量を取得する。ブロック635において、プロセスは、必要とされている予め計算されていない特徴量を生成する。ブロック650において、プロセスは、ブロック635及び640からの特徴量を患者識別子に対して結合する。
【0043】
図7は、例示的実装形態によるテストのための特徴量準備のフロー例700を示す。ブロック710において、プロセスは、自動特徴量抽出及び変換を実行する。例えば、変換は、モデルに関連付けられたメタデータに基づいて行うことができる。ブロック720において、プロセスは、
図17のインタフェース1700などのディスプレイ上に自動的に計算された特徴量を示す。ブロック730において、プロセスは、特徴量のためのユーザ入力を受け取る。740で、プロセスは、テストのための特徴量のユーザ入力があるかどうかを判定する。例えば、ユーザは、その特徴量についての意見又は好みを入力することができる。システムは、テストのための追加の特徴量情報のために、ユーザ入力レシピを実行することができる。ユーザ入力に基づいて、プロセスは、ブロック750で、データソースから特徴量を再抽出するか、又はユーザ入力に基づいて特徴量を再計算することができる。
【0044】
図8は、例示的実装形態による再使用可能モデル調査プロセスの例示的なフロー800を示す。例示的実装形態によれば、再使用可能モデル調査部380は、ブロック805で、テストのためのデータソース及び特徴量にアクセスすることができる。ブロック810で、再使用可能モデル調査部380は、モデル管理システムを使用して、データソース及び特徴量メタデータのキーによって、モデル記憶部340を検索する。再使用可能モデル調査部380は、類似モデルリスト815を出力する。ブロック820で、プロセスは、特定の基準又は閾値以上の最大類似度を有するモデルが存在するかどうかを判定する。最大類似度を有するモデルが基準又は閾値以上であると判定したことに応答して、類似モデルリストが825で戻される。基準又は閾値が満たされない場合、プロセスはブロック830に進み、類似モデルメタデータをユーザに提供し、モデルオプションを提案する。ブロック840で、ユーザは提案されたオプション又は特徴量を選択することができる。そのようなモデルがリストにない場合、ディスプレイは、類似性が低いモデルメタデータをユーザに表示し、使用するオプションを問い合わせる。ユーザが好みの選択を入力すると、システムはユーザの選択を受け入れる。ブロック850で、プロセスは、ユーザに選択された特徴量を有する類似モデルリストを返す。
【0045】
図9は、例示的実装形態による再使用可能モデル調査プロセスの流れの例を示す。再使用可能モデル調査部380の別の実施例では、プロセス900は、調整したパラメータを有する類似モデルリストを返すことができる。再使用可能モデル調査プロセス900は、類似モデルリストから不適切なモデルを除去する。類似モデルリスト上で類似度が最も高いモデルは、訓練モデルに指定された特定の基準よりも低い基準母集団を有することがある。さらに、いくつかの訓練データは古いものであり、テストデータと比較してデータ内の分布が大きく異なることがある。
【0046】
ブロック905において、テストのためのデータソース及び特徴量が受信される。ブロック905で、プロセスは、データソース及び特徴量メタデータのキーによって、モデル管理システムを検索し、特徴量において再使用可能なモデルを特定する。この検索に基づいて、類似モデルリストが915で出力される。ブロック920で、プロセスは、最大の類似性を有するモデルが基準又は閾値が満たされているどうかを判定する。基準又は閾値が検索によって満たされないと判定したことに応答して、プロセスは、ブロック930に進み、ユーザに類似モデルメタデータを提供し、モデルオプションを提案する。ブロック940において、プロセスは、特徴量の提案モデルオプションについてのユーザ入力を受け取る。ブロック950において、ユーザが選択したマークに基づく類似モデルリストが返される。
【0047】
ブロック920に戻って、基準又は閾値が満たされている場合、プロセスは、類似モデルリストからのパラメータを調整する。ブロック960において、プロセスは、再使用可能特徴量の母集団サイズがサイズ基準又は閾値よりも小さいかどうかを判定する。サイズ基準が再使用可能特徴量を有する母集団サイズよりも大きいことに応答して、プロセスは、ブロック965で、類似モデルリストから再使用可能候補を除去する。
【0048】
965で再使用可能候補が類似モデルリストから除去された後、又は母集団サイズがサイズ基準以上である場合、プロセスはブロック970に進む。ブロック970で、プロセスは、テストと再使用可能データとの間のサンプルデータ分布が、分布基準又は閾値よりも小さいか判定する。例えば、肺疾患テストでは、患者は、全く異なるデータ分布を有するデータの一部を伴う、予め格納されているモデル及び特徴を有することがある。異なるデータ分布は、背景特性が完全に変化した又は背景特性がその患者にとって信頼できないことを示し得る(例えば、背景特性が、モデルは生涯喫煙者に対するものであるが、予め格納されているモデルは非喫煙者データのみを含む、ことを示す)。
【0049】
差が分布基準よりも小さいと判定したことに応答して、ブロック975で、類似モデルリストが返される。テストと再使用可能データとの間のサンプルデータ分布の差が分布基準よりも小さいと判定したことに応答して、プロセスは、ブロック980で、類似モデルリストから再使用可能候補を取り除く。類似モデルリストは、ブロック990で返される。
【0050】
図10は、新しい訓練モデルのための適切な特徴量を生成するために、例示的実装形態に従って予め計算されていない特徴量を生成する、例示的なフロー1000を示す。ブロック1010で、プロセスは、データソースを選択する。ブロック1020において、プロセスは、特徴量を生成するために変換する。
【0051】
図11は、例示的実装形態による予測結果を出力する例示的なフロー1100を示す。ブロック1110で、プロセスは、説明と共に予測確率を計算する。ブロック1120で、プロセスは、データソースから訓練モデルへのデータ系列、並びに、予測確率及び説明と共にテストデータを、表示する。例示的実装形態では、データ系列は、1つ又は複数のデータソースのデータを同定するモデルと共に、メタデータとして格納される。
【0052】
システムは、モデルを訓練するために使用されるテスト特徴量入力の予測確率及び説明を計算する。例示的実装形態では、予測は、患者の治療計画を形成するために使用される将来の患者の状態に関する予測である。例えば、患者データは訓練モデルへのテスト入力であり、システムは、ニューラルネットワーク、サポートベクトルマシン、ランダムフォレスト又は深層学習を使用して、患者の心疾患リスク又は再発確率を計算する。分析の説明には、確率の原因又は要因の出力を含めることができる。システムは、データ系列情報と共にユーザのためにディスプレイ上に結果を提供し、予測結果を理解して評価するのを助けることができる。
【0053】
図12は、例示的実装形態によるデータ更新制御フロー1200の一例を示す。システムは外部システムに接続することができるので、新しいデータを外部システムからシステムに自動的及び/又は手動でインポートすることができる。追加の又は新しいデータが定期的に到着するか、又はシステムエンジニアがインタフェースを介して追加のデータを入力すると、システムは、新しいデータを順番に挿入し、又は、新しいデータをデータベース上の既存のデータと一括してマージすることができる。さらに、古い又は陳腐化したデータは、特定の基準(例えば、最終更新から10年)に基づいて削除することができる。
【0054】
ブロック1210において、プロセスは追加のデータを定期的に受信する、又は、システムエンジニアはインタフェースを介して定期的に追加のデータを入力することができる。ブロック1220において、データ更新制御は、新しいデータを挿入する又は既存のデータと一括してマージする。いくつかの例示的実装形態によれば、古いデータは、データが陳腐化したことに基づいて、削除又は上書きすることができる。メタデータは、例えば、モデル名、識別子、特徴量名、特徴量のリスト、特徴量系列、モデルと共に使用されるアルゴリズム、調整パラメータ、重み付けパラメータ、演算子、生成日などを含むことができる。例えば、演算子メタデータを使用して、データ準備のための変換操作を決定することができる。いくつかの実施例では、メタデータは、データソースポインタ、有効開始日、有効終了日、サンプル数、レシピなどをさらに含むことができる。
【0055】
例示的実装形態において、有効開始日及び終了日を使用して、陳腐化したデータ又は期限が切れたデータを使用しないように、パラメータ調整して、データを維持することができる。メタデータは、変換プロセス中に使用されるモデルに関連付けられているレシピを識別できる。再使用可能な特徴量は、異なるタイプのデータ、例えば構造化データ及び非構造化データを関連付ける患者識別子を使用して、識別することができる。患者識別子は、本物の身元を匿名化し、個々の患者のプライバシーを保護するために、マスク又はハッシュすることができる。
【0056】
図13A及び13Bは、例示的実装形態による例示的なモデルメタデータを示す図である。
図13Aは、モデルデータを管理するためのモデルメタデータの一例である。メタデータは、例えば、モデル名、識別子、モデルに使用される特徴量名、特徴量系列、中間ファイルの場所、訓練に使用されるアルゴリズム、訓練用の重みパラメータ、特徴量ポインタ(例えば、特徴量の格納場所を指示する)を含むことができる。特徴量の格納場所、データソース、演算子(例えば、データソース及び生成データからの特徴量の変換方法及び生成方法を記述する)。例えば、識別子1のModel_Aには、特徴量med_A、lab_A、Note_Aに対する特徴量名Feature_name_Aを含めることができる。メタデータ内のデータ系列には、データソースを識別するためのパスが含まれている。Model_Aは、Deeplearning_Sアルゴリズム、調整パラメータT1、及び演算子Transformation1.ktlと共に使用される。メタデータはさらに、特徴量ポインタ、データソースポインタ、及びデータに関連付けられているさまざまな日付を列挙できる。
【0057】
図13Bはモデルメタデータの別の例であり、例えば、モデル名、識別子、モデルに使用される特徴量名、特徴量系列、訓練に使用されるアルゴリズム、訓練に使用される重みパラメータ、データソース、有効期間、使用サンプル数、必要な特徴量を示すレシピ、及び生成日を含む。
【0058】
図14は、例示的実装形態による再使用可能特徴量の例示的テーブル1400を示す。テーブル1400は、
図6のブロック640でプロセス600の一部として生成することができる。テーブル1400に示すように、非構造化データについての再使用可能な特徴量は、自由形式テキストを含む医師のメモ(Note)又は書式付き英数字値を有する試験結果のような構造化データとすることができる。例えば、1400の再使用可能な特徴量は、患者識別子CA−0001からCA−000Nのリストを示し、Med_test1、Medtest2、Lab_test1、及びNote_Aについて各患者の再使用可能な特徴量を特定できる。その後、患者CA−0004のMedtest2の値40.2とNote_A「彼女はBの症状を抱えています…」を素早く特定し、モデルの訓練に再使用できる。事前計算されていない特徴量は、システムによってオンザフライで生成することができる。例えば、医師のメモなどの新しいデータを患者IDに関連付けることができまる。たとえば、再使用可能特徴量テーブルには、患者ID、あるタイプの薬物検査としてのMed_test1、他のタイプの薬物検査のためのMed_test2、あるタイプの臨床検査結果のためのLab_test1、及び患者に関する医師AのメモのためのNoteAが含まれる。
【0059】
図15は、例示的実装形態による、予め格納されていない特徴量の例示的テーブル1500を示す。テーブル1500は、
図6のブロック635でプロセス600の一部として生成することができる。例えば、テーブル1500は、患者識別子、医師BのメモのためのメモB、及び医師CのメモのためのメモCを含むことができる。
【0060】
図16は、実施例による新特徴量の例示的テーブル1600を示す。
図16は、再使用可能な特徴量及び事前計算されていない特徴量を使用することによって生成された新しい特徴量テーブル1600の一例である。テーブル1600は、
図6のブロック650でプロセス600の一部として生成することができる。テーブル1600は、
図14で説明した再使用可能な特徴量と、
図15で説明した新たに生成された特徴量との、結合テーブルである。テーブル1600は、
図6の650から導き出すことができる。例示的実装形態において、「彼はXをし、A症状を得た…」という予め格納されていない特徴量メモCを有する患者CA?0003に関するテーブル1500からの予め格納されていない特徴量は、Med_test1の2.0を有する患者CA−0003についてのテーブル1400からの再使用可能特徴量と、結合することができる。
【0061】
図17は、例示的実装形態による例示的インタフェース1700を示す。インタフェース1700は、データリンク情報、テスト用データセット、キー、及び予測出力結果を表示する。
図17は、システム利用者のための入出力表示の画像例である。これは特定の患者のためのダッシュボードの例である。例示的実装形態では、インタフェース1700は、この患者が治療されている病院及び医師チームについての説明を含むことができる。インタフェース1700は、データの対話型検査を可能にし、例えば、データ系列は、ユーザが訓練モデルについてデータソースを追跡することを可能にする。たとえば、心疾患予測では、データ系列を表示して、患者データベース、投薬データベース、検査データベース、及び医師のメモデータベースから、訓練モデルに使用されたデータソースを識別できる。例示的な態様によれば、ユーザは、例えばクリックしてインタフェース1700のダッシュボード上の行を削除することによって、訓練モデルから特定のデータソースを削除することができる。
【0062】
インタフェース1700は、予測を生成する際に使用された方法の表示を含む。例えば、深層学習Sは、訓練モデルを生成するために使用されたことをユーザに知らせるために表示される。さらに、試験患者用のデータセットの記述は、患者データセット、medデータセット、研究室データセット、ノートAデータセット、ノートBデータセット、及びノートCデータセットを有する深層学習Sからのツリーとして示される。
【0063】
インタフェース1700は、各グラフ上の予測に対する説明要素を有するリストとして複数の予測結果を提供する。例えば、予測結果リストは、試験患者が30日以内に再入院するであろうという40%の予測、2年以内の心臓病についての50%の予測、1年以内の心臓病についての40%の予測、2年以内の糖尿病についての40%の予測、1年以内の糖尿病についての39%の予測、2年以内の膵臓癌についての30%の予測、1年以内で膵臓癌についての25%の予測、及び2年以内の肺がんについての30%の予測、を含む。リストの結果をクリックすると、要因の視覚的な表示を伴う、詳細な
グラフ又は視覚的なインジケータが、ユーザに対して提示される。ユーザは、
図4に示すメインフローチャートのステップ475で、この表示を見る。
【0064】
図18は、
図17に示されるようなモデル管理システム350などのいくつかの例示的実装形態での使用に適した例示的な計算装置を使用する、例示的計算環境を示す。計算環境1800内の計算装置1805は、1つ又は複数の処理装置、コア、又はプロセッサ1810、メモリ1815(たとえば、RAM、ROMなど)、内部記憶装置1820(たとえば、磁気、光学、固体など)、及び/又はI/Oインタフェース1825を含むことができる。これらはいずれも、情報を通信するために通信機構又はバス1830に結合することができ、または計算装置1805に埋め込むことができる。I/Oインタフェース1825は、望ましい実装に応じて、カメラから画像を受信したり、プロジェクタやディスプレイに画像を提供したりするように構成される。
【0065】
計算装置1805は、入力/ユーザインタフェース1835及び出力装置/インタフェース1840に通信可能に結合することができる。入力/ユーザインタフェース1835及び出力装置/インタフェース1840の一方又は両方は、有線又は無線インタフェースとすることができ、取り外し可能とすることができる。入力/ユーザインタフェース1835は、入力を提供するために使用され得る、物理的又は仮想的な任意のデバイス、コンポーネント、センサ、又はインタフェース(例えば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング/カーソル制御、マイクロフォン、カメラ、点字、モーションセンサー、光学式リーダーなど)を含み得る。出力装置/インタフェース1840は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含み得る。いくつかの例示的実装形態では、入力/ユーザインタフェース1835及び出力デバイス/インタフェース1840は、計算装置1805に埋め込むか又は物理的に結合することができる。他の例示的実装形態では、他の計算装置は、計算装置1805用のために、入力/ユーザインタフェース1835又は出力装置/インタフェース1840として機能する、又は、それらの機能を提供する。
【0066】
計算装置1805の例には、高度に可搬なモバイル装置(例えば、スマートフォン、車両及び他の機械内の装置、人間及び動物によって持ち運ばれる装置など)、モバイル装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、移動用に設計されていない装置(例えば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、1つ又は複数のプロセッサが埋め込まれている及び/又はそれに結合されているテレビ、ラジオなど)が含まれ得るが、これらに限定されない。
【0067】
計算装置1805は、(例えば、I/Oインタフェース1825を介して)外部記憶装置1845及びネットワーク1850に通信可能に結合することができ、複数の同一又は異なる構成を有する計算装置を含む、任意の数のネットワーク構成要素、装置、及びシステムと通信する。計算装置1805又は任意の接続された計算装置は、サーバ、クライアント、シンサーバ、汎用機、専用機等として機能する、それらのサービスを提供する、又はそれらとして参照されることができる。
【0068】
I/Oインタフェース1825は、限定はしないが、任意の通信又はI/Oプロトコル又は規格(例えば、イーサネット(登録商標)、802.11x、ユニバーサルシステムバス、WiMax、モデム、モデム、セルラーネットワークプロトコルなど)を使用する有線及び/又は無線インタフェースを含むことができ、計算環境1800内の少なくともすべての接続構成要素、デバイス、及びネットワークとの間で情報をやり取りするために使用される。ネットワーク1850は、任意のネットワーク又はネットワークの組合せ(たとえばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど)とすることができる。
【0069】
計算装置1805は、過渡的媒体及び非過渡的媒体を含む、計算機使用可能媒体又は計算機可読媒体を使用及び/又は使用して通信することができる。過渡的媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などを含む。非一過渡的媒体は、磁気媒体(例えば、ディスク及びテープ)、光学媒体(例えば、CD?ROM、デジタルビデオディスク、ブルーレイディスク)、ソリッドステート媒体(例えば、RAM、ROM、フラッシュメモリ、ソリッドステートストレージ)、及び他の不揮発性記憶装置又はメモリを含む。
【0070】
計算装置1805は、いくつかの例示的な計算環境において、技術、方法、アプリケーション、プロセス、又は計算機実行可能命令を実装するために使用することができる。計算機実行可能命令は、過渡的な媒体から取り出され、非過渡的な媒体に格納され、そこから取り出される。実行可能命令は、プログラミング、スクリプティング、及び機械語(例えば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)など)のうちの1つ又は複数から発生することができる。
【0071】
プロセッサ1810は、実環境又は仮想環境において、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット1860、アプリケーションプログラミングインタフェース(API)ユニット1865、入力ユニット1870、出力ユニット1875、及び異なるユニットが互いに通信するためのユニット間通信機構1895を含む1つ又は複数のアプリケーションを、他のアプリケーション(図示せず)と共に、展開することができる。上記ユニット及び要素は、設計、機能、構成、又は実装において変化することが可能であり、本明細書の説明に限定されない。
【0072】
いくつかの例示的実装形態では、情報又は実行命令がAPIユニット1865によって受信されると、それは1つ又は複数の他のユニット(たとえば、論理ユニット1860、入力ユニット1870、出力ユニット1875)に通信され得る。いくつかの事例では、論理ユニット1860は、ユニット間の情報の流れを制御し、上記のいくつかの例示的実装形態では、APIユニット1865、入力ユニット1870、出力ユニット1875によって提供されるサービスを指示するように構成され得る。例えば、1つ又は複数のプロセス又は実装のフローは、論理ユニット1860単独で、又はAPIユニット1865と共に制御することができる。入力ユニット1870は、例示的実装形態で説明した計算の入力及び出力を取得するように構成できる。出力ユニット1875は、例示的実装形態で説明されている予測に基づいて出力を提供するように構成され得る。特徴量の準備をするように構成された管理システムを含む実施例では、
図4の流れ図に示すように動作する。
【0073】
詳細な説明のいくつかの部分は、計算機内の動作のアルゴリズム及び記号表現に関して提示されている。これらのアルゴリズム記述及び記号表現は、他の当業者に革新の本質を伝えるためにデータ処理分野の当業者によって使用される手段である。アルゴリズムは、所望の最終状態又は結果に至る一連の定義されたステップである。例示的実装形態では、実行されるステップは、具体的な結果を達成するための具体的な量の物理的操作を必要とする。
【0074】
他の具体的な記載がない限り、説明から明らかなように、説明全体を通して、「決定する」、「実施する」、「生成する」、「提供する」などの用語を利用する議論は、計算機システム又は他の情報処理装置の動作及び処理を含むことができる。計算機システム又は他の情報処理装置は、そのレジスタ及びメモリ内の物理(電子)量として表されるデータを操作し、そのデータを、そのメモリ、レジスタ、他の情報記憶装置、伝送装置又は表示装置内の物理量として同様に表される他のデータに変換する。
【0075】
例示的実装形態はまた、本明細書の動作を実行するための装置にも関連し得る。この装置は、要求される目的のために特別に構成されてもよく、あるいは1つ又は複数の計算機プログラムによって選択的に起動又は再構成された1つ又は複数の汎用計算機を含んでもよい。そのような計算機プログラムは、計算機可読記憶媒体又は計算機可読信号媒体などの計算機可読媒体に格納することができる。計算機可読記憶媒体は、光ディスク、磁気ディスク、読み取り専用メモリ、ランダムアクセスメモリ、固体デバイス及びドライブ、又は適切な他の任意のタイプの有形又は非過渡的媒体などの有形の媒体を含むことができるが、これらに限定されない。電子情報を保存するため。計算機可読信号媒体は、搬送波などの媒体を含み得る。本明細書に提示されたアルゴリズム及び表示は、いかなる特定の計算機又は他の装置にも固有的には関連していない。計算機プログラムは、所望の実装の動作を実行する命令を含む純粋なソフトウェア実装を含むことができる。
【0076】
本明細書の実施例に従ってプログラム及びモジュールと共に様々な汎用システムを使用することができ、又は所望の方法ステップを実行するためにより専門的な装置を構築することが有効であることを証明することができる。さらに、例示的実装形態は、任意の特定のプログラミング言語を参照して説明されていない。当然のことながら、本明細書に記載の例示的実装形態の教示を実装するために様々なプログラミング言語を使用することができる。プログラミング言語の命令は、1つ又は複数の処理装置、例えば中央処理装置(CPU)、プロセッサ、又はコントローラによって実行することができる。
【0077】
当技術分野で知られているように、上記の動作は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの何らかの組合せによって実行することができる。例示的実装形態の様々な態様は、回路及び論理デバイス(ハードウェア)を使用して実装され得るが、他の態様は、プロセッサによって実行されると、本願の例示的実装形態を実行する方法をプロセッサに実行させる、機械可読媒体(ソフトウェア)に格納された命令を使用して実装され得る。さらに、本出願のいくつかの例示的実装形態は、ハードウェア内でのみ実行されてもよく、他の例示的実装形態は、ソフトウェア内でのみ実行されてもよい。さらに、説明した様々な機能は、単一のユニットで実行することができ、又は任意の数の方法で複数の構成要素にわたって分散させることができる。ソフトウェアによって実行されるとき、方法は、計算機可読媒体に格納された命令に基づいて、汎用計算機などのプロセッサによって実行され得る。必要に応じて、命令は圧縮及び/又は暗号化フォーマットで媒体に格納することができる。
【0078】
さらに、本出願の他の実施は、本明細書の考察及び本出願の教示の実践から当業者には明らかであろう。説明された例示的実装形態の様々な態様及び/又は構成要素は、単独で又は任意の組合せで使用され得る。本明細書の記載及び例示的実装形態は例としてのみ考慮されることを意図しており、本出願の真の範囲及び精神は特許請求の範囲によって示される。