(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-14
(54)【発明の名称】汎用バイオマーカモデル
(51)【国際特許分類】
G16H 50/00 20180101AFI20220106BHJP
【FI】
G16H50/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021521051
(86)(22)【出願日】2019-10-29
(85)【翻訳文提出日】2021-06-08
(86)【国際出願番号】 US2019058484
(87)【国際公開番号】W WO2020092316
(87)【国際公開日】2020-05-07
(32)【優先日】2018-10-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】519349872
【氏名又は名称】フラティロン ヘルス,インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】バーンバウム,ベンジャミン イー.
(72)【発明者】
【氏名】アムブワニ,ギートゥ
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA21
(57)【要約】
バイオマーカに基づいてコホートの候補を識別するためのモデル支援システムが少なくとも1つのプロセッサを含み得る。プロセッサは、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第1のバイオマーカを汎用バイオマーカモデルに提供することであって、汎用バイオマーカモデルは情報を使用して1つ又は複数の第2のバイオマーカに基づいて訓練され、第1のバイオマーカは1つ又は複数の第2のバイオマーカと異なる、提供すること、第1のバイオマーカの検査を受けている第1の尤度閾値を上回る個人集団の第1のグループを示す第1の出力を汎用バイオマーカモデルから得ること、及び個人集団の第1のグループの中の個人がコホートの候補かどうかを第1の出力に基づいて判定することを行うようにプログラムされ得る。
【特許請求の範囲】
【請求項1】
個人集団に関連する情報を導出することができるデータベースにアクセスすること、
コホートに関連する第1のバイオマーカを汎用バイオマーカモデルに提供することであって、前記汎用バイオマーカモデルは前記情報を使用して1つ又は複数の第2のバイオマーカに基づいて訓練され、前記第1のバイオマーカは前記1つ又は複数の第2のバイオマーカと異なる、提供すること、
前記第1のバイオマーカの検査を受けている第1の尤度閾値を上回る前記個人集団の第1のグループを示す第1の出力を前記汎用バイオマーカモデルから得ること、及び
前記個人集団の前記第1のグループの中の個人が前記コホートの候補かどうかを前記第1の出力に基づいて判定すること
を行うようにプログラムされる少なくとも1つのプロセッサ
を含む、モデル支援システム。
【請求項2】
前記情報が前記個人集団に関連する医療記録を含む、請求項1に記載のモデル支援システム。
【請求項3】
前記医療記録が前記個人集団に関連する構造化情報及び非構造化情報を含む、請求項2に記載のモデル支援システム。
【請求項4】
前記非構造化情報が、医療従事者によって書かれたテキスト、放射線治療報告書、又は病理報告書を含む、請求項3に記載のモデル支援システム。
【請求項5】
前記汎用バイオマーカモデルが前記非構造化情報に基づいて訓練される、請求項4に記載のモデル支援システム。
【請求項6】
前記非構造化情報の少なくとも一部が光学的文字認識プロセスにかけられている、請求項5に記載のモデル支援システム。
【請求項7】
前記個人が前記コホートの候補かどうかを判定することは、前記個人が前記バイオマーカの検査を受けていることを前記個人に関連する医療記録に基づいて確認することを含む、請求項1に記載のモデル支援システム。
【請求項8】
前記少なくとも1つのプロセッサが、
前記第1のバイオマーカの陽性反応が出ている第2の尤度閾値を上回る前記個人集団の第2のグループを示す第2の出力を前記汎用バイオマーカモデルから得ることであって、前記個人は前記第2のグループ内に含まれる、前記汎用バイオマーカモデルから得ること
を行うように更にプログラムされる、請求項1に記載のモデル支援システム。
【請求項9】
前記個人が前記コホートの候補かどうかを判定することは、前記個人が前記バイオマーカの陽性反応が出ていることを前記個人に関連する医療記録に基づいて確認することを含む、請求項8に記載のモデル支援システム。
【請求項10】
前記少なくとも1つのプロセッサが、前記汎用バイオマーカモデルのユーザによるアクセスのために前記第1の出力を記憶するように更にプログラムされる、請求項1に記載のモデル支援システム。
【請求項11】
前記汎用バイオマーカモデルがバイナリ分類アルゴリズムを使用して前記第1の出力を生成する、請求項1に記載のモデル支援選択システム。
【請求項12】
前記バイナリ分類アルゴリズムが、ロジスティック回帰、ランダムフォレスト、勾配ブースティング木、サポートベクタマシン、又はニューラルネットワークの少なくとも1つを含む、請求項11に記載のモデル支援選択システム。
【請求項13】
前記汎用バイオマーカモデルが、前記1つ又は複数の第2のバイオマーカに基づく前記情報から抽出される特徴ベクトルに基づいて少なくとも部分的に開発される、請求項1に記載のモデル支援システム。
【請求項14】
前記特徴ベクトルが、前記少なくとも1つの第2のバイオマーカに関連するテキストを表す少なくとも1つのバイオマーカ字句を含む、請求項13に記載のモデル支援システム。
【請求項15】
前記1つ又は複数の第2のバイオマーカが前記第1のバイオマーカよりも多く前記情報内に現れる、請求項1に記載のモデル支援選択システム。
【請求項16】
前記少なくとも1つのプロセッサが、
バイオマーカ固有モデルに前記第1のバイオマーカを与えることであって、前記バイオマーカ固有モデルは前記情報を使用して前記第1のバイオマーカに基づいて訓練される、与えること、
前記少なくとも1つのバイオマーカの検査を受けている尤度閾値を上回る前記個人集団の第3のグループを示す第3の出力を前記バイオマーカ固有モデルから得ること、及び
前記第1の出力を前記第3の出力と比較することによって前記汎用バイオマーカモデルの精度を確認すること
を行うように更にプログラムされる、請求項1に記載のモデル支援システム。
【請求項17】
前記少なくとも1つのプロセッサが、
前記第1のバイオマーカについて前記情報を検索して、前記少なくとも1つのバイオマーカの検査を受けている前記個人集団の第4のグループを示す第4の出力を生成すること、及び
前記第1の出力を前記第4の出力と比較することによって前記汎用バイオマーカモデルの精度を確認すること
を行うように更にプログラムされる、請求項1に記載のモデル支援システム。
【請求項18】
バイオマーカに基づいてコホートの候補を識別する、コンピュータによって実装される方法であって、
個人集団に関連する情報を導出することができるデータベースにアクセスすること、
コホートに関連する第1のバイオマーカを汎用バイオマーカモデルに提供することであって、前記汎用バイオマーカモデルは前記情報を使用して1つ又は複数の第2のバイオマーカに基づいて訓練され、前記第1のバイオマーカは前記1つ又は複数の第2のバイオマーカと異なる、提供すること、
前記第1のバイオマーカの検査を受けている第1の尤度閾値を上回る前記個人集団の第1のグループを示す第1の出力を前記汎用バイオマーカモデルから得ること、及び
前記個人集団の前記第1のグループの中の個人が前記コホートの候補かどうかを前記第1の出力に基づいて判定すること
を含む、コンピュータによって実装される方法。
【請求項19】
前記情報が前記個人集団に関連する医療記録を含む、請求項18に記載のコンピュータによって実装される方法。
【請求項20】
前記医療記録が前記個人集団に関連する構造化情報及び非構造化情報を含む、請求項19に記載のコンピュータによって実装される方法。
【請求項21】
前記非構造化情報が、医療従事者によって書かれたテキスト、放射線治療報告書、又は病理報告書を含む、請求項20に記載のコンピュータによって実装される方法。
【請求項22】
前記汎用バイオマーカモデルが前記非構造化情報に基づいて訓練される、請求項21に記載のコンピュータによって実装される方法。
【請求項23】
前記個人が前記コホートの候補かどうかを判定することは、前記個人が前記バイオマーカの検査を受けていることを前記個人に関連する医療記録に基づいて確認することを含む、請求項18に記載のコンピュータによって実装される方法。
【請求項24】
前記モデルの効率及び性能の水準に基づいて前記尤度閾値が調節可能である、請求項18に記載のコンピュータによって実装される方法。
【請求項25】
個人集団に関連する情報を導出することができるデータベースにアクセスすること、
コホートに関連する第1の特性を汎用モデルに提供することであって、前記汎用モデルは前記情報を使用して1つ又は複数の第2の特性に基づいて訓練され、前記第1の特性は前記1つ又は複数の第2の特性と異なる、提供すること、
前記第1の特性に関連している第1の尤度閾値を上回る前記個人集団の第1のグループを示す第1の出力を前記汎用モデルから得ること、及び
前記個人集団の前記第1のグループの中の個人が前記コホートの候補かどうかを前記第1の出力に基づいて判定すること
を行うようにプログラムされる少なくとも1つのプロセッサ
を含む、モデル支援システム。
【請求項26】
前記第1の特性が第1のバイオマーカを含み、
前記1つ又は複数の第2の特性が1つ又は複数の第2のバイオマーカを含み、
前記第1の出力は前記第1のバイオマーカの検査を受けている個人の前記第1のグループを示す、
請求項25に記載のモデル支援システム。
【請求項27】
前記第1の特性が第1の薬を含み、
前記1つ又は複数の第2の特性が1つ又は複数の第2の薬を含み、
前記第1の出力は前記第1の薬を使用して治療されている個人の前記第1のグループを示す、
請求項25に記載のモデル支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
[001] 本願は、2018年10月29日に出願された米国仮特許出願第62/751,990号の優先権の利益を主張する。上記の出願の内容は参照によりその全体を本明細書に援用する。
【0002】
背景
技術分野
[002] 本開示はコホートの選択に関し、より詳細にはコホートを自動選択するために1つ又は複数の汎用モデルを使用することに関する。
【背景技術】
【0003】
背景情報
[003] 癌を治療する際及び他の様々な病気を治療する際、患者向けの個別化治療を提供する動きが増している。一例として、より効果的な治療を提供するために、個人の腫瘍細胞のゲノムマーカに基づいて特定の形態の癌(例えば肺癌、乳癌等)を有する患者に個別化治療計画を提供することができる。腫瘍細胞のそれぞれは、体内の他の細胞とどのように相互作用するのかを定め、最も効果的な治療を可能にし得る生物学的経路の種類を定める特定の遺伝子プロファイルを有する場合がある。
【0004】
[004] 従って医療業界がより個別化された治療計画へと移行するにつれ、特定の治療歴及び/又は特性を有する患者を識別できるようになることが益々重要になり得る。癌患者の例に戻り、特定のバイオマーカを示す患者を識別することが望ましい場合がある。例えば患者は、特定のバイオマーカの検査を受けているかどうか及び治療の結果に基づいて特定の治療、特定の臨床検査、又は他の同様のグループの候補として識別することができる。しかし、特定のバイオマーカを有する患者を識別することは大量の医療データを調べる場合に困難であり得る。例えばかかる識別は、患者がバイオマーカの検査を受けているかどうかの指示を求めて及び検査の結果を見出すために数千件の医療記録をくまなく探すことを必要とし得る。問題を更に複雑にするのは、個々の患者がしばしば数百の異なるバイオマーカの検査を受け、その多くが患者の治療の基礎として使用されていないことである。加えて、医療記録はしばしば手書きのメモ又は他のテキストを含み、そのことはこのプロセスの自動化をより困難にし得る。一部の解決策は、特定のバイオマーカについて患者が検査されているかどうかを判定するための機械学習モデルを開発することを含み得る。例えば患者が特定のバイオマーカの検査を受けているかどうかが分かっている場合、1組の医療記録に基づいてモデルを訓練することができる。しかし、かかる解決策はバイオマーカごとに個別化されたモデルを必要とし、それは検査される可能性があるバイオマーカが多岐にわたること及び特定のバイオマーカについて入手可能なデータが限られていることを理由に実現可能でない場合がある。
【0005】
[005] 従って、特定の治療特性を有する患者を識別するための改善された手法が求められている。解決策は、モデルを訓練するために使用された特定のバイオマーカ(又は他の特性)に依存しない機械学習モデルを開発できるようにするものとする。従って、汎用バイオマーカモデルを使用し、特定のバイオマーカに関連する医療データの可用性にかかわらずその特定のバイオマーカに関連する患者を識別することができる。
【発明の概要】
【課題を解決するための手段】
【0006】
概要
[006] 本開示と合致する実施形態は、特定のバイオマーカに関連する候補を識別するためのシステム及び方法を含む。一実施形態では、モデル支援システムが少なくとも1つのプロセッサを含み得る。プロセッサは、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第1のバイオマーカを汎用バイオマーカモデルに提供することであって、汎用バイオマーカモデルは情報を使用して1つ又は複数の第2のバイオマーカに基づいて訓練され、第1のバイオマーカは1つ又は複数の第2のバイオマーカと異なる、提供すること、第1のバイオマーカの検査を受けている第1の尤度閾値を上回る個人集団の第1のグループを示す第1の出力を汎用バイオマーカモデルから得ること、及び個人集団の第1のグループの中の個人がコホートの候補かどうかを第1の出力に基づいて判定することを行うようにプログラムされ得る。
【0007】
[007] 別の実施形態では、コンピュータによって実装される方法がバイオマーカに基づいてコホートの候補を識別することができる。この方法は、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第1のバイオマーカを汎用バイオマーカモデルに提供することであって、汎用バイオマーカモデルは情報を使用して1つ又は複数の第2のバイオマーカに基づいて訓練され、第1のバイオマーカは1つ又は複数の第2のバイオマーカと異なる、提供すること、第1のバイオマーカの検査を受けている第1の尤度閾値を上回る個人集団の第1のグループを示す第1の出力を汎用バイオマーカモデルから得ること、及び個人集団の第1のグループの中の個人がコホートの候補かどうかを第1の出力に基づいて判定することを含み得る。
【0008】
[008] 別の実施形態では、モデル支援システムが少なくとも1つのプロセッサを含み得る。プロセッサは、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第1の特性を汎用モデルに提供することであって、汎用モデルは情報を使用して1つ又は複数の第2の特性に基づいて訓練され、第1の特性は1つ又は複数の第2の特性と異なる、提供すること、第1の特性に関連している第1の尤度閾値を上回る個人集団の第1のグループを示す第1の出力を汎用モデルから得ること、及び個人集団の第1のグループの中の個人がコホートの候補かどうかを第1の出力に基づいて判定することを行うようにプログラムされ得る。
【0009】
[009] 開示する他の実施形態と合致し、非一時的コンピュータ可読記憶媒体が、少なくとも1つの処理装置によって実行され本明細書に記載する方法の何れかを実行するプログラム命令を含み得る。
【0010】
図面の簡単な説明
[010] 本明細書に組み込まれ本明細書の一部を構成する添付図面は説明と共に、様々な例示的実施形態の原理を示しそれを説明する役割を果たす。
【図面の簡単な説明】
【0011】
【
図1】[011]本開示と合致する実施形態を実装するための例示的なシステム環境を示すブロック図である。
【
図2】[012]本開示と合致する、患者の例示的な医療記録を示すブロック図である。
【
図3】[013]本開示と合致する実施形態を実装するための例示的な機械学習プロセスを示すブロック図である。
【
図4A】[014]本開示と合致する汎用バイオマーカモデルを構築するためのプロセスの一例を示すブロック図である。
【
図4B】[015]本開示と合致する汎用バイオマーカモデルを構築するための特徴を抽出するための技法の一例を示すブロック図である。
【
図5】[016]本開示と合致する、バイオマーカに基づいてコホートの候補を識別するための例示的プロセスを示す流れ図である。
【発明を実施するための形態】
【0012】
詳細な説明
[017] 以下の詳細な説明は添付図面を参照する。可能な限り、図面及び以下の説明の中で同じ参照番号を使用して同じ又は同様の部分を指す。幾つかの例示的実施形態を本明細書に記載するが、修正形態、適応形態、及び他の実装形態が可能である。例えば図中に示すコンポーネントに置換、追加、又は修正を加えることができ、開示する方法についてステップを置換し、並べ替え、除去し、又は追加することにより、本明細書に記載の例示的方法を修正することができる。従って、以下の詳細な説明は開示する実施形態及び例に限定されない。むしろ適切な範囲は添付の特許請求の範囲によって定められる。
【0013】
[018] 本明細書の実施形態は、コンピュータによって実装される方法、有形の非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータによって実装される方法は、例えば非一時的コンピュータ可読記憶媒体から命令を受信する少なくとも1つのプロセッサ(例えば処理装置)によって実行され得る。同様に、本開示と合致するシステムは少なくとも1つのプロセッサ(例えば処理装置)及びメモリを含むことができ、メモリは非一時的コンピュータ可読記憶媒体であり得る。本明細書で使用するとき、非一時的コンピュータ可読記憶媒体は、少なくとも1つのプロセッサによって読み出し可能な情報又はデータが記憶され得る任意の種類の物理メモリを指す。例はランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、及び他の任意の知られている物理記憶媒体を含む。「メモリ(memory)」及び「コンピュータ可読記憶媒体(computer-readable storage medium)」等の単数形の用語は、複数のメモリ及び/又はコンピュータ可読記憶媒体等の複数の構造を更に指す場合がある。本明細書で言及するとき、「メモリ」は別段の定めがない限り任意の種類のコンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、本明細書の実施形態と合致するステップ又は段階をプロセッサに行わせるための命令を含む、少なくとも1つのプロセッサによって実行するための命令を記憶することができる。加えて、コンピュータによって実装される方法を実装する際に1つ又は複数のコンピュータ可読記憶媒体を利用することができる。「コンピュータ可読記憶媒体」という用語は有形のアイテムを含み、搬送波及び過渡信号を除去するものと理解すべきである。
【0014】
[019] 本開示の実施形態は、汎用モデルに基づいて患者を識別するためのシステム及び方法を提供する。開示するシステム及び方法のユーザは、患者データにアクセスし及び/又はそれを分析すること、及び/又は選択された患者コホートを使用して実験を行うことを望み得る任意の個人を包含し得る。従って本開示の全体を通して、開示するシステム及び方法の「ユーザ」への言及は医師、研究者、健康管理機関における品質保証部門、及び/又は他の任意の個人を包含し得る。
【0015】
[020]
図1は、以下で詳細に説明する、本開示と合致する実施形態を実装するための例示的なシステム環境100を示す。
図1に示すように、システム環境100は、クライアント装置110、データソース120、システム130、及び/又はネットワーク140を含む幾つかのコンポーネントを含む。これらのコンポーネントの数及び配置は例示であり、説明目的で示していることが本開示から理解されよう。本開示の教示及び実施形態から逸脱することなしにコンポーネントの他の配置及び数も使用することができる。
【0016】
[021]
図1に示すように、例示的なシステム環境100はシステム130を含む。システム130は、ネットワーク上でエンティティから情報を受信し、情報を処理し、情報を記憶し、ネットワーク上で他のエンティティに情報を表示/伝送するように構成される1つ又は複数のサーバシステム、データベース、及び/又は計算システムを含み得る。従って一部の実施形態では、ネットワークがクラウドによる共有、記憶、及び/又は計算を促進し得る。一実施形態では、システム130が処理エンジン131及び1つ又は複数のデータベース132を含むことができ、それらは
図1のシステム130を表す破線によって境界を付けられた領域内に図示されている。処理エンジン140は、1つ又は複数の汎用プロセッサ、例えば中央処理装置(CPU)、グラフィックス処理装置(GPU)等、及び/又は1つ若しくは複数の専用プロセッサ、例えば特定用途向け集積回路(ASIC)、書換可能ゲートアレイ(FPGA)等の少なくとも1つの処理装置を含み得る。
【0017】
[022] 環境100のコンポーネント(システム130、クライアント装置110、及びデータソース120を含む)は、ネットワーク140を介して互いに又は他のコンポーネントと通信することができる。ネットワーク140は、インターネット、広域ネットワーク(WAN)、有線ローカルエリアネットワーク(LAN)、無線WAN(例えばWiMAX)、無線LAN(例えばIEEE802.11等)、メッシュネットワーク、モバイル/セルラネットワーク、企業又は私設データネットワーク、ストレージエリアネットワーク、公衆ネットワークを用いた仮想私設ネットワーク、近距離無線通信技法(例えばBluetooth、赤外線等)、又は他の様々な種類のネットワーク通信を含み得る。一部の実施形態では、これらの形態のネットワーク及びプロトコルの2つ以上にわたって通信が行われ得る。
【0018】
[023] システム130は、患者及び/又は患者が受ける治療に関連する特定の性質又は特性に基づいて患者を識別するように構成され得る。一部の実施形態では、特性が特定のバイオマーカに基づき得る。例えばシステム130は、特定のバイオマーカの検査を受けているかどうか、バイオマーカに関連する具体的な検査結果(陽性反応、陰性反応が出ていること等)、又は他の様々な特性に基づいて患者を識別するように構成され得る。本開示の全体を通してバイオマーカ又はバイオマーカの状態に基づく患者の選択を使用するが、開示するシステム、方法、及び/又は技法は他の患者識別手段にも同様に使用できることが理解されよう(例えば患者が特定の薬を処方されているかどうか、患者が特定の治療を受けたかどうか等)。同様に他の実施形態では、開示するシステム、方法、及び/又は技法は汎用モデルに基づいて他の個人、対象、エンティティ等を識別するために同様に使用することができることが理解されよう。
【0019】
[024] システム130は、データソース120又はネットワーク140内の他のソースから患者の医療情報及び他の情報を受信するように構成することができる。一部の実施形態では、医療情報は1つ又は複数の医療記録の形で記憶することができ、各医療記録は患者に関連する。より具体的にはシステム130は、データソース120を含む様々なデータソースからネットワーク140を介して伝送されるデータを受信し記憶し、受信したデータを処理し、処理に基づくデータ及び結果をクライアント装置110に伝送するように構成され得る。データソース120は患者に関する医療情報の多岐にわたるソースを含み得る。例えばデータソース120は、医師、看護師、専門家、相談員、病院、クリニック等、患者の医療提供者を含み得る。データソース120は、放射線又は他のイメージング検査室、血液学検査室、病理検査室等の検査室も含み得る。データソース120は保険会社又は他の任意の患者データソースも含み得る。
【0020】
[025] システム130は、医療記録に基づいて特定の特性を有する患者を識別するための1つ又は複数のモデルを開発し使用するように構成され得る。例えばシステム130は、訓練データに基づいてモデルを開発するために機械学習技法を使用することができる。一部の実施形態では、システム130が汎用モデルを開発することができ、汎用モデルは1組の特定の特性又は性質に基づいて訓練することができるが、同様に扱うことができる他の特性を患者医療記録内で有する患者を識別するためにより広く使用され得る。例えば特定のバイオマーカに関連する患者を識別するためにシステム130が使用される場合、システム130は汎用バイオマーカモデルを開発し又は実装することができる。バイオマーカごとに別個のモデルを開発することが望ましい可能性があるが、それは実現可能でない場合がある。例えば一部のバイオマーカは広範な患者群の中で一般に検査され得るが、他のバイオマーカは少数の患者サンプルに対して相対的に低頻度で検査され得る。従って、サンプルデータが容易に入手可能であるより一般的なバイオマーカについては特定のバイオマーカモデルを開発することが可能であり得るが、検査され得るバイオマーカが膨大な量あること及び一部のバイオマーカについて入手可能であり得るデータセットが限られていることを理由に、全てのバイオマーカについて特定のバイオマーカを開発することは困難過ぎる又は費用がかかり過ぎる場合がある。
【0021】
[026] 従って、第1の組に含まれる1つ又は複数のバイオマーカを使用して訓練され得る汎用バイオマーカモデルを開発することができる。第1の組のバイオマーカは、正確な又は高信頼の機械学習モデルを開発するために医療記録又は他のデータ内で十分な情報を入手できるバイオマーカであり得る。医療記録は多くのバイオマーカを同様のやり方で(例えば同様の構造を用いて、共通の用語を使用して等)記述する及び/又は論じることができるので、汎用バイオマーカモデルは第1の組に含まれるバイオマーカ以外のバイオマーカに使用することができる。例えば一般的なバイオマーカ(例えば第1の組に含まれるもの)に関する検査結果を記述する医師は、他のバイオマーカに関連する検査結果を同様のやり方で記述し得る。その結果、第1の組のバイオマーカの検査を受けている患者だけでなく、第1の組の中のバイオマーカ以外のバイオマーカの検査を受けている患者も識別するように汎用バイオマーカモデルを構成することができる。システム130は受信した医療結果に対して1つ又は複数の汎用モデルを適用して、特定の特性に関連する(例えば特定のバイオマーカの検査を受けている、特定のバイオマーカの陽性反応が出た等の)患者を識別することができる。汎用バイオマーカモデルを使用することは、所与のバイオマーカ識別子についてテキスト検索を単に行うよりも正確な結果をもたらし得る。例えば「EGFRの検査を見合わせる」を含む医師のメモは患者がEGFRバイオマーカの検査を受けていないことを示し得るが、テキスト検索では結果が依然として表示される。これは一例であり、バイオマーカと周囲のテキストとの間にはより複雑な関係が生じ得ることが理解されよう。汎用モデルをバイオマーカに関して説明するが、これは例として示しており、汎用モデルは他の特性(例えば処方薬、施された治療、他の形式の検査等)に基づいて患者を識別するために開発できることが理解されよう。
【0022】
[027] システム130は、ネットワーク140を介して1つ又は複数のクライアント装置110と更に通信することができる。例えばシステム130は、データソース120からの情報を分析することに基づく結果をクライアント装置110に提供することができる。クライアント装置110は、ネットワーク140を介してデータを送受信できる任意のエンティティ又は装置を含み得る。例えばクライアント装置110は、サーバ又はデスクトップ又はラップトップコンピュータ等の計算装置を含み得る。クライアント装置110は、モバイル装置、タブレット、ウェアラブルデバイス(即ちスマートウォッチ、埋め込み型装置、フィットネストラッカ等)、仮想マシン、IoT装置、又は他の様々な技術等の他の装置も含み得る。一部の実施形態では、クライアント装置110はネットワーク140を介して、特定のバイオマーカの検査を受けている患者のクエリ又は患者に関する他の様々な情報のクエリ等、1人又は複数人の患者に関する情報のクエリをシステム130に伝送することができる。
【0023】
[028] 一部の実施形態では、システム130が1つ又は複数のコホートを選択するように構成され得る。本明細書で使用するとき、コホートは少なくとも1つの共通の特性を共有する又は1組の既定の基準を満たす属性を示す情報の任意のグループ(人、物、対象等)を含み得る。一部の実施形態では、コホートは医療的見地から少なくとも1つの共通の特性(例えば人口学的特性又は臨床的特性)を示す個人を含み得る。個人は、1つ又は複数のグループ(例えば対象、人、物等)の任意の要素を含み得る。例えば特定の種類の病気を有すると判定された母集団からの個人、又はより具体的にはその病気に関連する特定のバイオマーカの検査を受けている母集団からの個人を識別し、共通のコホートに入れることができる。コホートは様々な目的で構築することができる。一部の例では、特定の病気の疫学、治療法、病気の死亡率又は進行等の結果が特定の変数にどのように依存するのか等、特定の病気の特性を分析するために使用されるグループを形成するためにコホートを構築することができる。
【0024】
[029] システム環境100の様々なコンポーネントは、メモリ、中央処理装置(CPU)、及び/又はユーザインタフェースを含むハードウェア、ソフトウェア、及び/又はファームウェアのアセンブリを含み得る。メモリは、フロッピディスク、ハードディスク、又は磁気テープを含む磁気記憶域、ソリッドステートディスク(SSD)又はフラッシュメモリ等の半導体記憶域、光ディスク記憶域、又は光磁気ディスク記憶域等の物理記憶媒体によって実装される任意の種類のRAM又はROMを含み得る。CPUは、メモリ内に記憶される1組のプログラム可能命令又はソフトウェアに従ってデータを処理するための1つ又は複数のプロセッサを含み得る。各プロセッサの機能は、単一の専用プロセッサによって又は複数のプロセッサによって提供され得る。更にプロセッサは、デジタル信号プロセッサ(DSP)ハードウェア、又はソフトウェアを実行可能な他の任意のハードウェアを制限なしに含み得る。任意選択的なユーザインタフェースは、ディスプレイモニタ、キーボード、及び/又はマウス等の任意の種類の又は組み合わせの入力/出力装置を含み得る。
【0025】
[030] システム環境100内で伝送され及び/又はやり取りされるデータはデータインタフェース上で生じ得る。本明細書で使用するとき、データインタフェースはシステム環境100の2つ以上のコンポーネントがデータをやり取りする任意の境界を含み得る。例えば環境100は、ソフトウェア、ハードウェア、データベース、装置、人間、又は上記のものの任意の組み合わせの間でデータをやり取りすることができる。更に、システム環境100のコンポーネント及び関係する実施形態の特徴を実装するためにソフトウェア、プロセッサ、データ記憶装置、及びネットワークの任意の適切な構成を選択できることが理解されよう。
【0026】
[031]
図2は、患者に関する例示的な医療記録200を示す。医療記録200はデータソース120から受信され、上記で説明したように患者を識別するためにシステム130によって処理され得る。
図2に示すように、データソース120(又は他の場所)から受信される記録は構造化データ210及び非構造化データ220の両方を含み得る。構造化データ210は、性別、年齢、人種、体重、生命兆候、検査結果、診断日、診断の種類、病期(例えば請求コード)、治療のタイミング、行われた処置、訪問日、診療の種類、保険業者及び開始日、投薬指示、投薬管理、又は患者に関する他の任意の測定可能データ等、患者に関する定量化可能な又は分類可能なデータを含み得る。非構造化データは、医師のメモ又は患者の検査報告書等の定量化不能な又は容易に分類できない患者に関する情報を含み得る。非構造化データ220は、治療計画についての医師の記述、訪問時に何が起きたのかを説明するメモ、患者の調子についての記述、放射線治療報告書、病理報告書等の情報を含み得る。一部の実施形態では、非構造化データは1つ又は複数のバイオマーカに関連するデータを含み得る。例えば非構造化データは、特定のバイオマーカに関連する検査結果(例えば患者が検査を受けているかどうか、検査の結果、結果の分析等)について論じる(例えば医師、看護師、実験助手等の)メモを含み得る。
【0027】
[032] データソース120から受信されるデータ内では、各患者が1人又は複数人の医療専門家又は患者によって生成される1つ又は複数の記録によって表され得る。例えば患者に関連する医者、患者に関連する看護師、患者に関連する理学療法士等が患者の医療記録をそれぞれ生成することができる。一部の実施形態では、1つ又は複数の記録を同じデータベース内で照合し及び/又は記憶することができる。他の実施形態では、1つ又は複数の記録を複数のデータベースにわたって分散させることができる。一部の実施形態では、記録が記憶され及び/又は複数の電子データ表現を与えられ得る。例えば患者記録はテキストファイル、ポータブルドキュメントフォーマット(PDF)ファイル、拡張マーク付け言語(XML)ファイル等の1つ又は複数の電子ファイルとして表され得る。文書がPDFファイル、画像、又はテキストのない他のファイルとして記憶される場合、電子データ表現は光学的文字認識プロセスから導出される文書に関連するテキストも含み得る。一部の実施形態では、非構造化データは抽出プロセスによって捕捉され得るのに対し、構造化データは医療専門家によって入力され又はアルゴリズムを使用して計算され得る。
【0028】
[033]
図3は、本開示と合致する実施形態を実装するための例示的な機械学習システム300を示す。機械学習システム300は、システム130(
図1)の一部として実装することができる。例えば機械学習システム300は処理エンジン131のコンポーネントとすることができ、又は処理エンジン131を使用して実行されるプロセスであり得る。開示する実施形態によれば、機械学習システム300は患者に関連する1組の訓練データに基づいて汎用モデル(例えば教師あり機械学習システム)を生成することができ、そのモデルを使用して特定の特性に関連する患者を識別することができる。例えば
図3に示すように、機械学習システム300は検査バイオマーカ315に関連する患者を識別するための汎用バイオマーカモデル330を構築することができる。機械学習システム300は訓練プロセスによって、例えば訓練アルゴリズム320を使用してモデル330を開発することができる。
【0029】
[034] モデル330の訓練は訓練データセット310を使用することを含むことができ、訓練データセット310はモデルを開発するために訓練アルゴリズム320内に入力され得る。訓練データ310は、様々な訓練バイオマーカ311に関連する結果が既に知られている可能性がある複数の患者医療記録312(例えば「医療記録1」、「医療記録2」等)を含むことができる。例えば訓練バイオマーカ311は、患者が訓練バイオマーカ311の検査を受けている1つ又は複数の医療記録312に関連することができる。一部の実施形態では、各訓練バイオマーカ311が1つ又は複数の医療記録312に関連し得る。例えば
図3に示すように、訓練バイオマーカAは複数の医療記録312(例えば医療記録1及び医療記録2)に関連し得る。訓練バイオマーカ311は、汎用バイオマーカモデル330を正確に構築するのに十分なデータが入手可能なバイオマーカを表すことができる。
【0030】
[035] 一部の実施形態では、訓練データ310を訓練アルゴリズム320内への入力前にクリーニングし、調整し、及び/又は操作して訓練プロセスを促進することもできる。機械学習システム300は1つ又は複数の特徴(又は特徴ベクトル)を記録から抽出し、訓練アルゴリズム320を適用して特定のバイオマーカについて論じるテキストと、患者がそのバイオマーカの検査を受けているかどうか及び検査結果が何を示し得るのかとの間の相関関係を求めることができる。これらの特徴は、
図2に関して上記で説明した構造化データ及び/又は非構造化データから抽出することができる。例えば訓練プロセスは、非構造化データ内のバイオマーカ識別子にまつわる単語又は単語の組み合わせを、患者がバイオマーカの検査を受けているかどうか、検査の結果等に相関させることができる。汎用モデル330を構築するためのプロセスを
図4Aに関して以下でより詳細に説明する。
【0031】
[036] モデル330が構築されると、検査バイオマーカ331等の検査データ及び医療記録332が汎用バイオマーカモデル330に入力され得る。医療記録440は上記の医療記録200に対応し得る。各患者に1つ又は複数の医療記録が関連するように、例えば医療記録440は複数の患者に関連する構造化データ及び非構造化データを含むことができる。汎用モデル330は医療記録440から特徴を抽出して出力350を生成することができる。出力350は、検査バイオマーカ331にも関連する、患者に関連する医療記録332を識別することができる。例えば出力350は、検査バイオマーカ311の検査を受けている患者を識別することができる。一部の実施形態では、出力350は検査バイオマーカ311に関連する他の患者群を示し得る。例えば出力350は、患者が検査バイオマーカ331の陽性反応が出たこと、検査バイオマーカ331の陰性反応が出たこと、バイオマーカ331に基づいて特定の病状を診断されたこと、検査バイオマーカ331に基づいて特定の治療を施されたこと等を示し得る。異なるグループ351のそれぞれは別個の汎用バイオマーカモデル330によって決定することができ、又は複数の出力350及び/又は患者群351を提供するように1つの汎用バイオマーカモデル330を構成することができる。
【0032】
[037] 一部の実施形態では、患者が特定の尤度閾値を上回ることに基づいて患者を1つ又は複数のグループのために選択することができる。例えば汎用バイオマーカモデル330は、バイオマーカの検査を受けている、バイオマーカの陽性反応が出ている等の各患者の尤度値又は信頼値を生成することができる。汎用バイオマーカモデル330は、患者が特定の尤度閾値(例えば50%、60%、70%、80%、90%、99%等)又は信頼値の閾値を上回るかどうかに基づいてグループ351の1つ又は複数に含めるための患者を選択することができる。一部の実施形態では、効率及び性能の所望の水準に基づいて閾値が調節可能であり得る。例えば上記で説明したように、モデルは(モデルを開発するために使用されていないデータベースからの記録を含み得る)検査データに基づいて再訓練することができる。閾値を調節するために1つ又は複数の損失関数を使用することができる。
【0033】
[038] 一部の実施形態では、上記で説明したようにコホートに含めるための患者を識別するために出力350を使用することができる。例えば、検査バイオマーカ331の検査を受けている患者、検査バイオマーカ331の陽性反応が出ている患者等を識別するために汎用バイオマーカモデル330を使用することができる。従って、患者がコホートの候補かどうかを更なる分析が判定し得る。一部の実施形態では、かかる分析は、個人がバイオマーカの検査を受けていること又はバイオマーカの陽性反応が出ていること等を個人に関連する医療記録に基づいてコホートに応じて確認することを含み得る。一部の実施形態では、確認が(例えば訓練された医療専門家によって行われる)人手によるプロセスであり得る。
【0034】
[039] 一部の実施形態では、訓練データ310の残りの部分を使用して訓練済みのモデル330を検査し、その性能を評価することができる。例えば訓練データセット310の残りの部分内の各個人について、その患者に関連する医療記録から特徴ベクトルを抽出することができる。特徴ベクトルはモデル330に与えることができ、その個人に関する出力をその個人に関する既知の結果(例えばその個人が特定の訓練バイオマーカ311の陽性反応が出ているかどうか)と比較することができる。
図3に示すように、モデル330の出力と訓練データセット310内の任意の個人について検査している既知のバイオマーカとの間の偏差を使用して性能測度360を生成することができる。性能測度360は、モデル330を更新して(例えばモデルを再訓練して)出力350と既知の患者の結果との間の偏差を減らすために使用することができる。例えばモデルの1つ又は複数の関数を追加し、除去し、又は修正することができる(例えば二次関数を三次関数に修正することができ、指数関数を多項式関数に修正すること等ができる)。従って、偏差は、モデル330内に入れられる特徴がどのように構築されるか、又はどのタイプのモデルが使用されるかを修正する決定を通知するために使用されてもよい。代替策として、一部の実施形態では回帰の1つ又は複数の重み(又はモデルがニューラルネットワークを含む場合はノードの1つ又は複数の重み)を調節して偏差を減らすことができる。偏差の水準が所望の限度内(例えば10%、5%、又はそれ未満)である場合、患者の結果が未知であるデータセットに対して作用するのに適していると1つ又は複数のモデル330を見なすことができる。上記では「偏差」に関して説明したが、モデルの精度を測定するために1つ又は複数の損失関数を使用することもできる。例えば二乗損失関数、ヒンジ損失関数、ロジスティック損失関数、クロスエントロピ損失関数、又は他の任意の損失関数を使用することができる。かかる実施形態では、1つ又は複数の損失関数を減らす(更には少なくとも局所的に最小化する)ようにモデルの更新を構成することができる。
【0035】
[040] 汎用バイオマーカモデル330の精度は他の様々なやり方で評価することができる。一部の実施形態では、汎用バイオマーカモデル330の精度は1つ又は複数のバイオマーカ固有モデルに基づいて評価することができる。例えば特定の訓練バイオマーカ311について特定のバイオマーカモデルを生成することができる。バイオマーカ固有モデルは上記の技法を使用して開発できるが、患者がその特定のバイオマーカの検査を受けたかどうかが分かっている医療記録に基づいて訓練され得る。汎用バイオマーカモデル330は、特定のバイオマーカの検査を受けている患者をバイオマーカ固有モデルと同程度に正確に又はバイオマーカ固有モデルと同様の精度で識別できるものとする。従って処理エンジン131は、バイオマーカ固有モデルからの出力を出力350と比較して汎用バイオマーカモデル330の精度を評価するように構成され得る。
【0036】
[041] 他の実施形態では、汎用バイオマーカモデル330の精度はバイオマーカに関するテキスト検索に基づいて評価することができる。例えば処理エンジン131は、医療記録内の検査バイオマーカ331に対してベーシックテキスト検索を行い、汎用バイオマーカの検査を受けている患者群を識別することができる。汎用バイオマーカモデル330は、情報片から追加情報を収集できるのでベーシックテキスト検索よりも性能が優れているはずである。従って、汎用バイオマーカモデル330の精度を評価するためにテキスト検索の結果と出力350との間の比較を使用することができる。更に、汎用バイオマーカモデル330が、テキスト検索において識別されなかった医療記録を識別したかどうかを判定すること等、汎用バイオマーカモデル330の不正確さを示す可能性のある他の様々な診断クエリを実行することができる。
【0037】
[042]
図4Aは、本開示と合致する汎用バイオマーカモデルを構築するためのプロセス400の一例を示すブロック図である。例えばプロセス400は、
図3に関して上記で論じたように訓練データセット330を使用して汎用バイオマーカモデル330を構築するために使用することができる。
【0038】
[043]
図4Aに示すように、モデルを構築する際に使用するための関連する訓練バイオマーカ410を選択することができる。例えば訓練バイオマーカ410は、患者が特定のバイオマーカに関連するかどうかの人手による主観的な判断を行うように訓練された医療専門家によって選択され得る。「EGFR」及び「ALK」のバイオマーカを例として示すが、汎用バイオマーカモデル330は任意の適切なバイオマーカ又は他のデータを使用して構築できることが理解されよう。訓練バイオマーカ410は、汎用バイオマーカモデル330を正確に構築するのに十分なデータが入手可能なバイオマーカを表すことができる。訓練バイオマーカ410は上記で論じた訓練バイオマーカ311に対応し得る。
【0039】
[044] 訓練バイオマーカ410は情報片抽出412に入力することができ、情報片抽出412ではバイオマーカ410に関連するテキストが患者医療記録から抽出される。患者の医療記録の文書の幾つか又は一部は電子的に入手できる場合があるが、記録内のタイプ入力されたテキスト、手書きのテキスト、又は印刷されたテキストは(例えば光学的文字認識(OCR)によって)機械符号化テキストに変換することができる。次いで、特定のバイオマーカに関連する特定のキーワード又はフレーズを求めて電子テキストを検索することができる。一部の実施形態では、識別された訓練バイオマーカ410の近くのテキストの情報片を検査して単語又はフレーズの脈絡に関する追加情報を収集することができる。バイオマーカ単独ではなく訓練バイオマーカ410にまつわる情報片を評価することにより、著しく異なる意味を有し得る「ALK未検査」等と「ALK」を区別するようにモデルを訓練することができる。
【0040】
[045] 情報片抽出412の後、抽出した情報片に対して特徴のベクトル化414を実行して1組の特徴ベクトルを識別することができる。一部の実施形態では、情報片の抽出元である医療記録内に含まれる構造化データも情報片と共に評価され得る。例えば抽出されるフレーズ並びに検討される任意の構造化データは、フレーズ及び他の構造化データにスコアを相関させる多次元ベクトルへと変換することができる。各フレーズ及び/又は構造化データの一部に関するスコアは、対応するフレーズ及び/又は部分に関連する次元に沿った大小を表し得る。一部の実施形態ではスコアを二値とすることができ、そのためフレーズがあることはフレーズに関連する次元に沿って1の大きさをもたらす一方、フレーズがないことはフレーズに関連する次元に沿って0の大きさをもたらす。例えば抽出された情報片が「EGFR検査済み」のフレーズを含む場合、ベクトルは「EGFR」の次元に沿って1の成分の大きさを有し、抽出された情報片が「EGFR未検査」のフレーズだけを含み、「未」の修飾語とは別に「EGFR」のフレーズを含まない場合、ベクトルは「EGFR」の次元に沿って0の成分の大きさを有し得る。他の実施形態ではスコアが非二値でもよく、例えばフレーズに関連する発生率を示し得る。例えば抽出された情報片が「EGFR」のフレーズのインスタンスを5つ含む場合、ベクトルは「EGFR」の次元に沿って5の成分の大きさを有し、抽出された情報片「ALK」のフレーズの2つだけのインスタンス場合、ベクトルは「ALK」の次元に沿って2の成分の大きさを有し得る。特定の文字数、特定の単語数、特定の文の数、特定の段落数、特定のページ数等当たりの合計インスタンス等、発生率はインスタンスの正規化された測度を表し得る。
【0041】
[046] 機械学習システム300は、特徴ベクトルに基づいてモデル330を開発するために任意の適切な機械学習アルゴリズムを使用することができる。例えば訓練アルゴリズム320は、特徴ベクトルに基づいてスコアを決定するためのロジスティック回帰416を含み得る。スコアは、医療記録に関連する患者がバイオマーカの検査を受けているかどうか等に相関することができ或いはそれを示し得る。加えて又は或いは、訓練アルゴリズム320は1つ又は複数のノードの重みを調節する1つ又は複数のニューラルネットワークを含むことができ、そのため特徴の入力層が1つ又は複数の隠れ層を通り、次いで(関連する確率と共に)患者の結果の出力層を通る。ロジスティック回帰416と組み合わせて又はそれとは別に、線形回帰モデル、ラッソ回帰分析、ランダムフォレストモデル、K近傍法(KNN)モデル、K平均モデル、決定木、コックス比例ハザード回帰モデル、ナイーブベイズモデル、サポートベクタマシン(SVM)モデル、又は勾配ブースティングアルゴリズム等の他の種類の機械学習技法も使用することができる。モデルは、人手による訓練が不要である教師なし機械学習プロセス又は強化機械学習プロセスを使用して開発することもできる。ロジスティック回帰416の適用に基づき、結果として生じるモデルをステップ418で開発することができる。例えば上記で説明したように、訓練バイオマーカ311に基づいて汎用バイオマーカモデル330を構築することができる。
【0042】
[047]
図4Bは、本開示と合致する汎用バイオマーカモデルを構築するための特徴を抽出するための技法の一例を示すブロック図である。
図4Bに示すブロックはプロセス400に対応し得る。
【0043】
[048] 上記で説明したように、訓練バイオマーカ410が情報片抽出412内に入力される。ブロック420によって示すように、システム130は患者医療記録内から訓練バイオマーカ410(例えば「EGFR」)を識別することができる。一部の実施形態では、このブロックは患者医療記録の非構造化データ内のタイプ入力されたテキスト、手書きのテキスト、又は印刷されたテキストを(例えば光学的文字認識(OCR)等によって)機械符号化テキストに変換することを含み得る。一部の実施形態では、ブロック430に示すように、バイオマーカのテキストがテキスト内の訓練バイオマーカ410を表す字句(token)431(例えば「[バイオマーカ]」)によって置換され得る。1つ又は複数の訓練バイオマーカ410の代わりに字句431を使用することにより、医療記録のテキスト内でバイオマーカがどのように扱われているのかに基づいて個々のバイオマーカに基づくモデルではなく汎用モデルを構築することができる。識別された字句431の近くのテキストの情報片432を検査して単語又はフレーズの脈絡に関する追加情報を収集することができる。例えば情報片431は、字句431の前の又は後の所定の文字数又は単語数、字句431と同じ段落内の全てのテキスト、又は他の様々な技法に基づき得る。
【0044】
[049] 情報片431に基づいて複数の特徴ベクトル440を抽出することができる。例えば特徴は、Term-Frequency Inverse-Document-Frequency(TFIDF)ベクトル化又は他の手段に基づいて抽出することができる。
図4Bに示すように、特徴は個々の単語とすることができ又はバイグラム(例えば「肺[バイオマーカ]」等)とすることができる。他の様々な形の特徴(例えばトリグラム、Nグラム等)も使用することができる。次いで、システム130は特徴を選択し、ロジスティック回帰(又は上記の他の様々なアルゴリズム)を実行して汎用バイオマーカ330を構築することができる。
【0045】
[050]
図5は、開示する実施形態と合致する、バイオマーカに基づいてコホートの候補を識別するための例示的プロセス500を示す。方法500は、例えば
図1に示すシステム100の処理エンジン131の少なくとも1つのプロセッサによって実装され得る。一部の実施形態では、プロセス500が、クライアント装置110又はシステム130にアクセスできる他の装置等、システム100内の他の装置によって実行され得る。
【0046】
[051] ステップ510で、方法500は個人集団に関連する情報を導出可能なデータベースにアクセスすることを含み得る。一部の実施形態では、その情報が個人集団に関連する医療記録を含み得る。例えば処理エンジン131は、データソース120又は他の様々なソースからネットワーク140を介して医療記録にアクセスすることができる。上記で説明したように、データソース120は例えば医療従事者、検査室、保険会社等を含む患者医療データの様々なソースを含み得る。或いは又は加えて、処理エンジンは患者医療記録にアクセスするためにデータベース132等のローカルデータベースにアクセスすることができる。
【0047】
[052] 医療記録は、テキストファイル、画像ファイル、PDFファイル、XLMファイル、YAMLファイル等の1つ又は複数の電子ファイルを含み得る。一部の実施形態では、医療記録(例えば医療記録200)が上記のように個人集団に関連する構造化情報(例えば構造化データ212)及び非構造化情報(例えば非構造化データ211)を含み得る。例えば構造化情報は、性別、誕生日、人種、体重、検査結果、生命兆候、診断日、訪問日、投薬指示、診断コード、処置コード、薬剤コード、過去の治療、又は投薬管理を含み得る。非構造化情報は、医療従事者によって書かれたテキスト、放射線治療報告書、病理報告書、又は患者に関連する他の様々な形のテキストを含み得る。一部の実施形態では、上記で論じたように非構造化情報の少なくとも一部が光学的文字認識プロセスにかけられている。各医療記録は特定の患者に関連することができ、一部の実施形態では複数の医療記録が特定の患者に関連し得る。医療記録は医療機関からのデータに限定されなくてもよく、(例えば保険会社からの)保険査定データ、患者によって報告されるデータ、又は患者の治療若しくは健康に関連する他の情報等、関係する他のデータ形式を含み得る。
【0048】
[053] ステップ520で、方法500は、コホートに関連する第1のバイオマーカを汎用バイオマーカモデルに提供することを含み、汎用バイオマーカモデルは情報を使用して1つ又は複数の第2のバイオマーカに基づいて訓練され、第1のバイオマーカは1つ又は複数の第2のバイオマーカと異なる。例えば1つ又は複数の第2のバイオマーカは、
図3に関して上記で論じた訓練バイオマーカ311に対応することができ、第1のバイオマーカは検査バイオマーカ331に対応し得る。従って、1つ又は複数の第2のバイオマーカを使用して汎用バイオマーカモデル330を構築することができる。一部の実施形態では、1つ又は複数の第2のバイオマーカは、汎用バイオマーカモデル330を構築するのに十分なデータが入手可能なバイオマーカを表すことができる。例えば1つ又は複数の第2のバイオマーカは、第1のバイオマーカよりも情報内で多く現れ得る。一部の実施形態では、上記で論じたように汎用バイオマーカモデルを非構造化情報に基づいて訓練することができる。一部の実施形態では、汎用バイオマーカモデルは、1つ又は複数の第2のバイオマーカに基づく情報から抽出される特徴ベクトルに基づいて少なくとも部分的に開発することができる。例えば汎用バイオマーカモデル330は、
図4Bに記載した特徴ベクトル440に基づいて開発することができる。更に一部の実施形態では、特徴ベクトルは、少なくとも1つの第2のバイオマーカに関連するテキストを表す少なくとも1つのバイオマーカ字句(例えば字句431)を含み得る。
【0049】
[054] ステップ520は、記録内の情報を調整すること又は変更すること等、医療記録の分析を促進するための追加のサブステップを含み得る。処理エンジン131は構造化情報又は非構造化情報を解釈するための様々な技法を使用することができる。例えば、医療記録内のタイプ入力されたテキスト、手書きのテキスト、又は印刷されたテキストは(例えば光学的文字認識(OCR)によって)機械符号化テキストに変換することができる。
【0050】
[055] ステップ530で、方法500は、第1のバイオマーカの検査を受けている第1の尤度閾値を上回る個人集団の第1のグループを示す第1の出力をバイオマーカモデルから得ることを含み得る。例えば汎用バイオマーカモデル330は、第1のバイオマーカの検査を受けている患者を示すグループ351を含み得る出力350を生成することができる。一部の実施形態では、モデルの効率及び性能の水準に基づいて尤度閾値を調節することができる。一部の実施形態では、バイオマーカモデルがバイナリ分類アルゴリズムを使用して第1の出力を生成することができる。例えばバイナリ分類アルゴリズムは、ロジスティック回帰、ランダムフォレスト、勾配ブースティング木、サポートベクタマシン、又はニューラルネットワークの少なくとも1つを含み得る。一部の実施形態では、分類アルゴリズムは上記の他の様々なアルゴリズム(例えばコックス比例ハザード回帰、ラッソ回帰分析ネットワーク等)を含み得る。一部の実施形態では、ステップ530が、汎用バイオマーカモデルのユーザによるアクセスのために第1の出力を記憶すること等の更なるステップを含み得る。一部の実施形態では、ステップ530が、1人若しくは複数人のユーザ又は1つ若しくは複数の装置に第1の出力を伝送することを含み得る。例えばシステム120は、ネットワーク140を介して第1の出力をクライアント装置100に伝送することができる。
【0051】
[056] 一部の実施形態では、プロセス500が、第1のバイオマーカの陽性反応が出ている第2の尤度閾値を上回る個人集団の第2のグループを示す第2の出力を汎用バイオマーカモデルから得ることであって、個人は第2のグループ内に含まれる、汎用バイオマーカモデルから得ることを更に含み得る。一部の実施形態では、患者の第1のグループと共に患者の第2のグループが第1の出力内で識別され得る。例えば汎用バイオマーカモデルは、バイオマーカの検査を受けている患者の第1のグループ及びバイオマーカの陽性反応が出ている患者の第2のグループの両方を決定するように構成され得る。他の実施形態では、患者の第2のグループを識別するために別個の汎用バイオマーカモデルを使用することができる。
【0052】
[057] ステップ540で、方法500は、個人集団の第1のグループの中の個人がコホートの候補かどうかを第1の出力に基づいて判定することを含み得る。例えば個人がコホートの候補かどうかを判定することは、個人がバイオマーカの検査を受けていることを個人に関連する医療記録に基づいて確認することを含み得る。上記で論じたように、これは個人が第1のバイオマーカの検査を実際に受けていたかどうかを判定するための人手による(例えば訓練された医療専門家による)プロセスであり得る。患者が特定の検査結果に関連する(例えば患者が第1のバイオマーカの陽性反応が出ている)かどうかを判定するように汎用バイオマーカモデルが構成される実施形態では、個人がコホートの候補かどうかを判定することは、個人がバイオマーカの陽性反応が出ていることを個人に関連する医療記録に基づいて確認することを含み得る。
【0053】
[058] 一部の実施形態では、プロセス500が追加のステップを更に含み得る。例えばプロセス500は、汎用バイオマーカモデルの精度を確認するように構成され得る。一部の実施形態では、汎用バイオマーカモデルの精度が第1のバイオマーカに固有のバイオマーカモデルに基づいて評価され得る。従ってプロセス500は、バイオマーカ固有モデルに第1のバイオマーカを与えることを含むことができ、バイオマーカ固有モデルは医療記録を使用して第1のバイオマーカに基づいて訓練される。プロセス500は、少なくとも1つのバイオマーカの検査を受けている尤度閾値を上回る個人集団の第3のグループを示す第3の出力をバイオマーカ固有モデルから得ることを更に含み得る。更にプロセス500は、第1の出力を第3の出力と比較することによって汎用バイオマーカモデルの精度を確認することを含み得る。例えば汎用バイオマーカモデルの結果とバイオマーカ固有モデルの結果との差異は、多岐にわたる異なるバイオマーカの検査を受けている患者を識別するのに汎用バイオマーカモデルが効果的かどうかを示すことができる。
【0054】
[059] 他の実施形態では、結果を検索機能と比較することによって汎用バイオマーカモデルの精度を確認することができる。従って、プロセス500は第1のバイオマーカについて医療記録を検索して、少なくとも1つのバイオマーカの検査を受けている個人集団の第4のグループを示す第4の出力を生成することを含み得る。例えばシステム130は、平文検索機能を使用して医療記録内の第1のバイオマーカに関連する単語を検索することができる。プロセス500は、第1の出力を第4の出力と比較することによって汎用バイオマーカモデルの精度を確認することを更に含み得る。理想的には、コホート内に含めるための患者を識別することに関して、第1のバイオマーカについてのベーシックテキスト検索よりも汎用バイオマーカモデルの方が優れた成果を出す。汎用バイオマーカモデルの精度を検査するための他の様々な手段も使用され得る。更にプロセス500は、求めた精度に基づいて汎用バイオマーカモデルを更新すること等の追加のステップを含み得る。
【0055】
[060] 一部の実施形態では、プロセス500はバイオマーカに加えて他の特性に適用され得る。従って一部の実施形態では、プロセス500は、個人集団に関連する情報を導出することができるデータベースにアクセスすること(ステップ520)、コホートに関連する第1の特性を汎用モデルに提供することであって、汎用モデルは情報を使用して1つ又は複数の第2の特性に基づいて訓練され、第1の特性は1つ又は複数の第2の特性と異なる、提供すること(ステップ540)、第1の特性に関連している第1の尤度閾値を上回る個人集団の第1のグループを示す第1の出力を汎用モデルから得ること(ステップ560)、及び個人集団の第1のグループの中の個人がコホートの候補かどうかを第1の出力に基づいて判定すること(ステップ580)を含み得る。一部の実装形態では、上記で論じたように特性がバイオマーカに該当し得る。従って、第1の特性は第1のバイオマーカを含むことができ、1つ又は複数の第2の特性は1つ又は複数の第2のバイオマーカを含むことができ、第1の出力は第1のバイオマーカの検査を受けている個人の第1のグループを示し得る。他の実施形態では、第1の特性が第1の薬を含むことができ、1つ又は複数の第2の特性が1つ又は複数の第2の薬を含むことができ、第1の出力は第1の薬を使用して治療されている個人の第1のグループを示し得る。
【0056】
[061] 上記の説明は例示目的で示してきた。上記の説明は網羅的ではなく開示した厳密な形態又は実施形態に限定されない。本明細書を検討すること及び開示した実施形態を実践することによって修正及び適応が当業者に明らかになる。加えて、開示した実施形態の側面はメモリ内に記憶されるものとして説明したが、それらの側面は二次記憶装置、例えばハードディスク、又はCD ROM、又は他の形式のRAM若しくはROM、USBメディア、DVD、Blu-ray、4K Ultra HD Blu-ray、又は他の光ドライブメディア等の他の種類のコンピュータ可読媒体の上にも記憶できることを当業者なら理解されよう。
【0057】
[062] 記載した説明及び開示した方法に基づくコンピュータプログラムは経験を積んだ開発者の技能に含まれる。様々なプログラム又はプログラムモジュールは当業者に知られている技法の何れかを使用して作成することができ、又は既存のソフトウェアに関連して設計することができる。例えばプログラムセクション又はプログラムモジュールは、.Net Framework、.Net Compact Framework(及びVisual Basic、C等の関係する言語)、Java、Python、R、C++、Objective-C、HTML、HTML/AJAXの組み合わせ、XML、又は含まれたJavaアプレットを有するHTMLの中で又はそれらによって設計され得る。
【0058】
[063] 更に、本明細書では例示的実施形態を記載してきたが、本開示に基づいて当業者によって理解されるように、等価の要素、修正、省略、(例えば様々な実施形態にわたる側面の)組み合わせ、適応及び/又は変更を有する任意の及び全ての実施形態の範囲。特許請求の範囲における制限は、特許請求の範囲の中で使用する言語に基づいて広く解釈されるべきであり、本明細書に記載した例又は本願の遂行中の例に限定されない。それらの例は非排他的と解釈すべきである。更に、開示した方法のステップはステップを並べ替えること及び/又はステップを挿入すること若しくは削除することを含む任意のやり方で修正することができる。従って、本明細書及び例は専ら例示として検討され、真の範囲及び趣旨は添付の特許請求の範囲及びその等価物の全ての範囲によって示されることを意図する。
【国際調査報告】