IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラティロン ヘルス,インコーポレイテッドの特許一覧

特開2023-11610モデル支援コホート選択を行うシステム及び方法
<>
  • 特開-モデル支援コホート選択を行うシステム及び方法 図1
  • 特開-モデル支援コホート選択を行うシステム及び方法 図2A
  • 特開-モデル支援コホート選択を行うシステム及び方法 図2B
  • 特開-モデル支援コホート選択を行うシステム及び方法 図3A
  • 特開-モデル支援コホート選択を行うシステム及び方法 図3B
  • 特開-モデル支援コホート選択を行うシステム及び方法 図4
  • 特開-モデル支援コホート選択を行うシステム及び方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023011610
(43)【公開日】2023-01-24
(54)【発明の名称】モデル支援コホート選択を行うシステム及び方法
(51)【国際特許分類】
   G16H 10/00 20180101AFI20230117BHJP
【FI】
G16H10/00
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022162481
(22)【出願日】2022-10-07
(62)【分割の表示】P 2019554553の分割
【原出願日】2018-04-12
(31)【優先権主張番号】62/484,984
(32)【優先日】2017-04-13
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Blu-ray
2.VISUAL BASIC
3.JAVA
4.PYTHON
(71)【出願人】
【識別番号】519349872
【氏名又は名称】フラティロン ヘルス,インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】バーンバウム,ベンジャミン エドワード
(72)【発明者】
【氏名】ヘイムソン,ジョシュア ダニエル
(72)【発明者】
【氏名】ヘ,ルーシー ダオ-ケ
(72)【発明者】
【氏名】ザイドル-ラスコプフ,カタリナ ニコラ
(72)【発明者】
【氏名】ヌスバウム,ネイサン
(72)【発明者】
【氏名】アグラワル,モニカ ナヤン
(57)【要約】      (修正有)
【課題】モデル支援コホート選択を行うシステム及び方法を提供する。
【解決手段】データインターフェース及び少なくとも1個の処理装置を含んでいる、コホートに登録する候補を識別するモデル支援選択システムであって、少なくとも1個の処理装置は、データインターフェースを介して、複数個人の母集団内の一個人に関連付けられた特徴ベクトルを導出可能なデータベースにアクセスし、一個人に対して、1個以上の特徴ベクトルをデータベースから導出し、1個以上の特徴ベクトルをモデルに提供し、モデルから出力を受信し、モデルから受信した出力に基づいて、複数個人の母集団内の一個人がコホートの候補であるか否かを判定すべくプログラムされている。
【選択図】図1
【特許請求の範囲】
【請求項1】
コホートに登録する候補を識別するモデル支援選択システムであって、
データインターフェースと、
前記データインターフェースを介して、複数個人の母集団内の一個人に関連付けられた特徴ベクトルを導出可能なデータベースにアクセスし、
前記一個人に対して、1個以上の特徴ベクトルを前記データベースから導出し、
前記1個以上の特徴ベクトルをモデルに提供し、
前記モデルから出力を受信し、
前記モデルから受信した前記出力に基づいて、前記複数個人の母集団内の前記一個人が前記コホートの候補であるか否かを判定すべくプログラムされた少なくとも1個の処理装置とを含むシステム。
【請求項2】
前記データベースが複数の電子データ表現を含み、前記処理装置が更に、
前記データインターフェースを介して前記複数の電子データ表現をアップロードし、
前記複数の電子データ表現を用いて前記1個以上の特徴ベクトルを生成すべくプログラムされている、請求項1に記載のモデル支援コホート選択システム。
【請求項3】
前記電子データ表現が、前記一個人に関連付けられた電子医療レコードからの文書の電子的表現を含んでいる、請求項2に記載のモデル支援コホート選択システム。
【請求項4】
前記電子データ表現が、以前に光学文字認識処理を施された少なくともいくつかのテキストを含んでいる、請求項2に記載のモデル支援コホート選択システム。
【請求項5】
前記少なくとも1個の処理装置が更に、
前記コホートに関連付けられるよう予め定義された少なくとも1個の用語又は語句の存在について、前記複数の電子データ表現を検索すること、
前記少なくとも1個の用語又は語句が前記複数の電子データ表現に存在することを識別した後で、前記複数の電子データ表現から、前記識別された用語又は語句の近傍にある1個以上の単語を含むテキストグループを抽出すること、及び
前記抽出されたテキストグループの解析と合わせて、前記識別された用語又は語句の解析に基づいて前記1個以上の特徴ベクトルを生成することにより、前記1個以上の特徴ベクトルを生成すべくプログラムされている、請求項2に記載のモデル支援コホート選択システム。
【請求項6】
前記モデルが2進分類法アルゴリズムを用いて前記出力を生成する、請求項1に記載のモデル支援選択システム。
【請求項7】
前記2進分類法アルゴリズムがロジスティック回帰分析を含んでいる、請求項6に記載のモデル支援選択システム。
【請求項8】
前記機械学習モデルが、医療レコードを含む非構造化情報から人間及び機械の組み合わせにより抽出された構造情報の組に基づいて訓練されている、請求項1に記載のモデル支援選択システム。
【請求項9】
前記複数の電子データ表現が、電子医療レコード、利用可能なデータソース、請求データ、又は前記少なくとも一個人に関連付けられた患者の自己申告データのうち少なくとも一つから導出されている、請求項1に記載のモデル支援選択システム。
【請求項10】
前記モデルから受信した前記出力が、信頼スコアを含み、前記少なくとも一個人がコホートの候補であるか否かの判定が前記信頼スコアと所定の閾値との比較に基づいている、請求項1に記載のモデル支援選択システム。
【請求項11】
前記閾値が効率及び性能のレベルに基づいて調節可能である、請求項10に記載のモデル支援選択システム。
【請求項12】
前記コホートが、少なくとも1個の医療又は人口統計的特徴を全員が共有している複数個人を含むものとする、請求項1に記載のモデル支援選択システム。
【請求項13】
前記複数の電子データ表現が構造化データ及び非構造化データの両方を含んでいる、請求項1に記載のモデル支援選択システム。
【請求項14】
前記モデルが訓練済み機械学習モデルを含んでいる、請求項1に記載のモデル支援選択システム。
【請求項15】
前記モデルがルールベースモデルを含んでいる、請求項1に記載のモデル支援選択システム。
【請求項16】
前記ルールベースモデルが、所定の検索用語の組とのマッチングにより出力を生成する、請求項1に記載のモデル支援選択システム。
【請求項17】
複数個人の母集団からコホートを選択する方法であって、
データインターフェースを介して、複数個人の母集団内の一個人に関連付けられた特徴ベクトルを導出可能なデータベースにアクセスすること、
前記一個人について、1個以上の特徴ベクトルを前記データベースから導出すること、
前記1個以上の特徴ベクトルをモデルに提供すること、
前記モデルから出力を受信すること、及び
前記モデルから受信した前記出力に基づいて、前記複数個人の母集団内の前記一個人が前記コホートの候補であるか否かを判定することを含む方法。
【請求項18】
前記データベースが複数の電子データ表現を含み、前記方法が更に、
前記データインターフェースを介して前記複数の電子データ表現をアップロードすること、及び
前記複数の電子データ表現を用いて前記1個以上の特徴ベクトルを生成することを含んでいる、請求項17に記載のコホート選択方法。
【請求項19】
前記電子データ表現が、前記一個人に関連付けられた電子医療レコードからの文書の電子的表現を含んでいる、請求項18に記載のコホート選択方法。
【請求項20】
前記電子データ表現が、以前に光学文字認識処理を施された少なくともいくつかのテキストを含んでいる、請求項18に記載のコホート選択方法。
【請求項21】
前記コホートに関連付けられるよう予め定義された少なくとも1個の用語又は語句の存在について、前記複数の電子データ表現を検索すること、
前記少なくとも1個の用語又は語句が前記複数の電子データ表現に存在することを識別した後で、前記複数の電子データ表現から、前記識別された用語又は語句の近傍にある1個以上の単語を含むテキストグループを抽出すること、及び
前記抽出されたテキストグループの解析と合わせて、前記識別された用語又は語句の解析に基づいて前記1個以上の特徴ベクトルを生成することにより、前記1個以上の特徴ベクトルを生成することを更に含んでいる、請求項18に記載のコホート選択方法。
【請求項22】
前記機械学習モデルがロジスティック回帰分析技術を用いて前記出力を生成する、請求項17に記載のコホート選択方法。
【請求項23】
前記機械学習モデルが、医療レコードを含む非構造化情報から人間及び機械の組み合わせにより抽出された構造情報の組に基づいて訓練されている、請求項17に記載のコホート選択方法。
【請求項24】
前記複数の電子データ表現が、電子医療レコード、利用可能なデータソース、請求データ、又は前記少なくとも一個人に関連付けられた患者の自己申告データのうち少なくとも一つから導出されている、請求項17に記載のコホート選択方法。
【請求項25】
モデルから受信した前記出力が、信頼スコアを含み、前記少なくとも一個人が前記コホートの候補であるか否かの前記判定が前記信頼スコアと所定の閾値との比較に基づいている、請求項17に記載のコホート選択方法。
【請求項26】
前記コホートが、少なくとも1個の医療又は人口統計的特徴を全員が共有している複数個人を含むものとする、請求項17に記載のコホート選択方法。
【請求項27】
前記複数の電子データ表現が構造化データ及び非構造化データの両方を含んでいる、請求項17に記載のコホート選択方法。
【請求項28】
前記モデルが訓練済み機械学習モデル又はルールベースモデルを含んでいる、請求項17に記載のコホート選択方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
[001] 本出願は、2017年4月13日出願の米国仮特許出願第62/484,984号の優先権を主張するものである。当該出願の全内容は、参照によりその全体が本明細書に援用される。
【0002】
背景
技術分野
[002] 本開示は、コホートの選択に関し、より具体的にはコホートを自動選択するための1個以上のモデルの利用に関する。
【背景技術】
【0003】
背景情報
[003] コホートの選択は、長時間を要し且つ高価格である。いくつかの例において、医療分野におけるコホートは、抽象化として知られる処理を介して、様々な患者に関連付けられた医療ファイル及びレコード(例えば、医療レコード)を調べることにより、どの患者が特定のコホートに適した候補であるかを判定すべく編成することができる。しかし、有意味な人数でコホートを生成するには、数百又は千人(以上)の患者に関連付けられた医療レコードの調査を要する場合があり、各患者の履歴は数百又は数千ページもの診療ノート、放射線治療報告、病理報告、医師又は看護師の診察、構造化及び非構造化データ、及び患者の医療レコードに含まれ得る他の任意の種類の情報(例えば、電子医療レコード(EMR)又は他の利用可能なデータソース(例えば、請求データ、患者の自己申告データ))が含まれている場合がある。しかし、そのような抽象化処理は膨大な時間を要するだけでなく、現状では、特定のコホートへの一個人の登録を正当化し得る特徴を患者の医療履歴から識別できる高度に訓練された人材を必要とする場合も多い。従って、手動抽象化への依存を減らすことにより、コホート選択に要する時間を短縮するだけでなく、コホート選択に伴うコストを削減することも求められている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
概要
[004] 本開示の一環としての実施形態は、1個以上のモデルの支援を受けてコホートを選択するシステム及び方法を含んでいる。本開示の実施形態は、コホート選択のためのルールベースの自動化技術を提供することにより、既存のコホート選択技術の1個以上の態様よりも優れているといえる。例えば、ルールは、患者のレコードの特徴を、特定のコホートに適している確率に関連付ける明示的なルールを含んでいてよく、又は特徴を確率に変換する機械学習モデルの一部を含んでいてよい。本開示の実施形態によるルールの使用は従って、既存技術を用いるよりも高速且つより効果的なコホートの候補の選択を可能にする。また、本開示の実施形態によるルールの使用は既存技術よりも正確であり得る。
【課題を解決するための手段】
【0005】
[005] 一実施形態において、コホートに登録する候補を識別するモデル支援選択システムは、データインターフェース及び少なくとも1個の処理装置を含んでいる。少なくとも1個の処理装置は、データインターフェースを介して、複数個人の母集団内の一個人に関連付けられた特徴ベクトルを導出可能なデータベースにアクセスし、一個人に対して、1個以上の特徴ベクトルをデータベースから導出し、1個以上の特徴ベクトルをモデルに提供し、モデルから出力を受信し、モデルから受信した出力に基づいて、複数個人の母集団内の一個人がコホートの候補であるか否かを判定すべくプログラムされていてよい。
【0006】
[006] 実施形態において、一方法は、複数個人の母集団からコホートを選択する。本方法は、データインターフェースを介して、複数個人の母集団内の一個人に関連付けられた特徴ベクトルを導出可能なデータベースにアクセスすること、一個人について、1個以上の特徴ベクトルをデータベースから導出すること、1個以上の特徴ベクトルをモデルに提供すること、モデルから出力を受信すること、及びモデルから受信した出力に基づいて、複数個人の母集団内の一個人がコホートの候補であるか否かを判定することを含んでいる。
【0007】
[007] 開示する他の実施形態の一環として、非一時的コンピュータ可読記憶媒体は、少なくとも1個の処理装置により実行されて、本明細書に記述するいずれの方法をも実行するプログラム命令を保存することができる。
【0008】
図面の簡単な説明
[008] 本明細書に組み込まれてその一部を構成する添付図面は、説明とともに、様々な例示的な実施形態の原理を示して説明する役割を果たす。
【図面の簡単な説明】
【0009】
図1】[009]本開示の一環としての二段階コホート選択フィルタを示すブロック図である。
図2A】[010]本開示の一環としてのコホート選択モデル用のフレームワークを示すブロック図である。
図2B】[011]図2Aのフレームワークの機械学習への実装を示すブロック図である。
図3A】[012]本開示の一環としての検索条件からモデルを構築するための技術例を示すブロック図である。
図3B】[013]本開示の一環としての非構造化テキストに対する自然言語処理の一例を示すブロック図である。
図4】[014]本開示の一環としての実施形態を実行する例示的なシステム環境を示すブロック図である。
図5】[015]本開示の一環としての複数個人の母集団からコホートを選択する例示的な方法を示すフロー図である。
【発明を実施するための形態】
【0010】
発明の詳細な説明
[016] 以下の詳細な記述は添付図面を参照している。可能な限り、同一の参照番号を用いて図面及び以下の記述において同一又は類似部材を示す。本明細書において複数の例示的な実施形態を記述しているが、変更、適合、及び他の実装方式が可能である。例えば、図面に示す構成要素に代替、追加又は変更を行うことができ、本明細書に記述する例示的な方法は、開示する方法のステップを代替、並び替え、省略、又は追加することにより変更することができる。従って、以下の詳細な記述は開示する実施形態及び例に限定されない。逆に、添付の請求項により適切な範囲が規定される。
【0011】
[017] 本明細書における実施形態は、コンピュータ実装された方法、有形の非一時的コンピュータ可読媒体、及びシステムを含んでいる。コンピュータ実装された方法は、例えば、非一時的コンピュータ可読記憶媒体から命令を受信する少なくとも1個のプロセッサ(例えば、処理装置)により実行することができる。同様に、本開示の一環としてのシステムは少なくとも1個のプロセッサ(例えば、処理装置)及びメモリを含んでいてよく、メモリは非一時的コンピュータ可読記憶媒体であってよい。ここで用いる「非一時的コンピュータ可読記憶媒体」は、少なくとも1個のプロセッサにより読み込み可能な情報又はデータを保存可能な任意の種類の物理メモリを指す。例として、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD-ROM、DVD、フラッシュドライブ、ディスク、及び他の任意の公知の物理的記憶媒体が含まれる。「メモリ」及び「コンピュータ可読記憶媒体」等の単数形の用語はまた、複数のメモリ及び/又はコンピュータ可読記憶媒体等、複数の構造を指す場合がある。本明細書で言及する「メモリ」は、別途明記しない限り任意の種類のコンピュータ可読記憶媒体を含んでいてよい。コンピュータ可読記憶媒体は、本明細書における実施形態の一環としてのステップ命令又は段階をプロセッサに実行させる命令を含む、少なくとも1個のプロセッサにより実行される命令を保存することができる。また、1個以上のコンピュータ可読記憶媒体は、コンピュータ実装された方法を実装する際に用いることができる。用語「コンピュータ可読記憶媒体」は有形の部材を含んでいるが、搬送波及び一時的信号は除外されることが理解されよう。
【0012】
[018] 本開示の実施形態は、患者のデータを解析し、特に1個以上のコホートを選択するシステム及び方法を提供する。開示するシステム及び方法のユーザーは、患者の診療体験を調査したい、及び/又は患者のデータを解析したい任意の個人を含んでいてよい。従って、本開示の全体にわたり、開示するシステム及び方法の「ユーザー」は、医師、医療機関の品質保証部署、及び/又は患者等、任意の個人を含んでいてよい。
【0013】
[019] 図1に、例示的な二段階コホート選択フィルタ100を示す。図1に示すように、フィルタ100は、複数の患者110を含んでいてよく、その一部がコホートへの包含に適していてよい。例えば、患者110は、複数の乳癌患者を含んでいてよく、その一部が転移性であってよく、転移状態はコホート選択に関連する属性である。
【0014】
[020] 患者110は、複数の医療レコードにより表すことができる。例えば、各患者は、1個以上の医療専門家又は患者により生成された1個以上のレコードにより表すことができる。上述の例において、患者を担当する医師、患者を担当する看護師、患者を担当する理学療法士等が各々、患者の医療レコードを生成することができる。いくつかの実施形態において、1個以上のレコードを同一データベースに整理及び/又は保存することができる。他の実施形態において、1個以上のレコードが複数のデータベースにわたり分散されていてよい。
【0015】
[021] いくつかの実施形態において、データベースは複数の電子データ表現を含んでいてよい。例えば、患者のレコードは、テキストファイル、可搬文書フォーマット(PDF)ファイル、拡張可能マークアップ言語(XML)ファイル等の1個以上の電子ファイルとして保存することができる。文書がPDFファイル、画像、又はテキストを含まない他のファイルとして保存されている場合、電子データ表現は光学文字認識処理から導出された文書に関連付けられたテキストも含んでいてよい。
【0016】
[022] 図1に更に示すように、患者110は最初に、モデル120によりソートされる。例えば、モデル120は、関連付けられた医療レコードに基づいて患者110の特徴を識別する1個以上のルールを含んでいてよく、それらの特徴を用いて患者110をグループ121(「コホートに存在しない」)及びグループ122(「コホートに存在し得る」)にソートすることができる。モデル120の例は、図4に関して更に詳細に記述する回帰分析及びニューラルネットワーク等の1個以上の機械学習モデル、選択する患者を決定すべく構造化された基準(例えば、投薬の構造化されたレコード)と組み合わされた特定の語句の自動検索、選択する患者を決定すべく自然言語処理の出力に対するルールの適用等を含んでいてよいが、これらに限定されない。
【0017】
[023] グループ122にソートされた患者は確認部130を介して更に処理される場合がある。例えば、確認部130は、グループ122をサブグループ131(「コホートに存在する」)及びサブグループ132(「コホートに存在しない」)にソートすべく用いる別々のモデルを含んでいてよい。代替的に、確認部130は、医療専門家により実行される手動ソートプロシージャを含んでいてよい。
【0018】
[024] 上述のように、少なくとも確認部130は多くの場合高価且つ長時間を要する処理であるため、モデル120を用いて初期ソートを実行することでコホート選択の効率を大幅に向上させることができ、モデル120は確認部130に入力される患者数を削減する。しかし、手動且つ主観的な技術の代わりに自動化されたルール及び/又はモデルを用いることで新たな技術的問題が生じる。例えば、自動化されたルール又はモデルの過剰包含は、自動化されたルール又はモデルの開発に初期コストが生じる一方で、確認効率の大幅な向上に失敗する恐れがある。別の例として、自動化されたルール又はモデルが過少包含されている場合、手動且つ主観的な技術に固有のバイアスの抑制に失敗する恐れがある。従って、本開示の実施形態は、自動化された初期コホートソーティングにおける上述の技術的問題の解決を含んでいる。
【0019】
[025] 図2Aに、コホート選択モデルのフレームワーク200を示す。例えば、フレームワーク200は、図1のフィルタ100のモデル120の一実装例を表す。
【0020】
[026] 図2Aに示すように、フレームワーク200は、入力として、ラベル付けされたレコード210を受け取ることができる。例えば、レコード210は、各患者に1個以上の医療レコードが関連付けられ、且つラベルに関連付けられるように、複数の患者に関連付けられたデータを含んでいてよい。上述の例において、ラベルは医療専門家に付与されてよい。例えば、ラベルは、患者がコホートに含めるのに適しているか否かを(例えば転移性癌等、コホートに要求される1個以上の特性を有していることにより)示すことができる。
【0021】
[027] 図2Aに更に示すように、フレームワーク200はラベル付けされたレコード210を訓練又は抽象化処理220に入力することができる。処理220は、ラベル付けされたレコード210から1個以上の特徴(例えば、特徴ベクトル等)を抽出すべく、第1の仕方でラベル付けされた患者同士で共有される特徴の組と、第2の仕方でラベル付けされた患者同士で共有される第2の特徴の組との相関を決定することができる。相関は完全でなくてもよく、すなわち特徴の組における1個以上の特徴が第2の方法でラベル付けされた1名以上の患者のレコードに含まれていてよく、その逆もあり得る。また、特徴の組は関連付けられた患者同士で完全に共有されていなくてもよく、例えば、1組の特徴が、第1の仕方でラベル付けされた患者の大多数にだけ共有される1個以上の特徴を含んでいてよい。ラベルは、例えば、患者がコホートに適しているか否かを示すことができる。
【0022】
[028] 処理220は従って、決定された相関に基づいて1個以上のモデル230を生成することができる。例えば、上述のように、モデル230は、例えばロジスティック回帰分析に基づいて決定された推定ラベルに特徴を関連付ける1個以上のルール、及び/又は1個以上の機械学習モデル、例えば付随する尤度により特徴ベクトルを推定ラベルに関連付けるニューラルネットワークを含んでいてよい。
【0023】
[029] モデル230が構築されたならば、ラベル付けされていないレコード240がモデル230に入力されてよい。例えば、レコード240は、レコード210と同様に、各患者が1個以上の医療レコードに関連付けられるように複数の患者に関連付けられたデータを含んでいてよい。モデル230は、ラベル付けされていないレコード240から特徴を抽出して、ラベル付けされていないレコード240に関連付けられたスコアを得ることができる。従って、各患者は、患者がコホートに適した候補である尤度を示す関連スコア(例えば、10点満点で5、確率80%、1.0満点で0.8、「あり得ない」、「若干あり得る」、「あり得る」、「大いにあり得る」等のスケールから「あり得る」)を有していてよい。
【0024】
[030] 図2Bに、図2Aのフレームワーク200の機械学習実装200’を示す。図2Bに示すように、ラベル付けされたレコード210’が特徴抽出部221に入力されてよい。例えば、ラベル付けされたレコード210’は1個以上のデータベースに保存されていてよい。ラベル付けされていないレコード210と同様に、ラベル付けされていないレコード210’は、各患者が1個以上の医療レコードに関連付けられるように複数の患者に関連付けられたデータを含んでいてよい。
【0025】
[031] 特徴抽出部221は、ラベル付けされたレコード210’から特徴(キーワード、キーフレーズ等)を抽出して、コホートに含めるための関連度を評価すべくこれらの特徴をスコアリングすることができる。従って、いくつかの実施形態において、これらの特徴をベクトルとして表す場合がある。
【0026】
[032] 特徴抽出部221により抽出された特徴の一部をレコード210’の対応するレッテルと照合して、訓練データ223として保存することができる。照合されたデータ223は次いで、訓練アルゴリズム225を介して配置することができる。例えば、訓練アルゴリズム225は、抽出された特徴を特定のラベルと関連付ける1個以上の関数(又はルール)を生成するロジスティック回帰分析を含んでいてよい。追加的又は代替的に、訓練アルゴリズム225は、特徴の入力層が1個以上の隠れ層を経由し、次いで(確率が関連付けられた)ラベルの出力層を通過するように、1個以上のノードの重みを調整する1個以上のニューラルネットワークを含んでいてよい。従って、訓練アルゴリズム225は1個以上のモデル230を出力する。
【0027】
[033] 特徴抽出部221により抽出された特徴の他の部分をレコード210’の対応するレッテルと照合して、テストデータ240’として保存することができる。テストデータ240’を用いて、過少包含からバイアス又は過剰包含から偽陽性を検出すべく1個以上のモデル230を更新することができる。照合されたデータ240’は次いで、1個以上のモデル230を介して配置することができる。1個以上のモデル230は、テストデータ240’の予測(又はスコア)250’を生成することができる。性能基準260を用いて、例えば予測250’をテストデータ240’のレッテルと比較することにより、1個以上のモデル230を更新することができる。例えば、上述のように、1個以上のモデル230は、ラベルと予測250’の間の偏差を減らすべく再訓練(例えば、変更)することができる。変更は、1個以上の損失関数に基づいていてよい。
【0028】
[034] 図3Aに、検索用語からモデルを構築する例示的な技術300を示す。例えば、技術300を用いて図1のモデル120を構築することできる。
【0029】
[035] 図3Aに示すように、モデルの構築に用いる関連検索用語310を選択することができる。例えば、検索用語310は、コホート手動且つ主観的な選択を実行すべく訓練された医療専門家により選択することができる。従って、検索用語310をスニペット抽出320に入力することができる。関連用語単独ではなく関連用語310周辺のスニペットを評価することにより、「転移性」と「非転移性」、「ステージii」と「ステージiv」等を区別すべくモデルを訓練することができる。
【0030】
[036] スニペット抽出320の後で、抽出されたスニペットに基づいて語句特徴330を決定することができる。いくつかの実施形態において、スニペットが抽出された医療レコードに含まれる構造化データもまたスニペットにより評価することができる。例えば、抽出された語句は、考慮する任意の構造化データと同様に、スコアと語句及び他の構造化データとの相関を示す多次元ベクトルに変換することができる。各語句及び/又は構造化データの部分のスコアは、対応する語句及び/又は部分に関連付けられた次元における適合度を表していてよい。いくつかの実施形態において、スコアは、語句が存在する場合は語句に関連付けられた次元における適合度が1となるのに対し、語句が存在しない場合は語句に関連付けられた次元における適合度が0となる2進数であってよい。例えば、ベクトルは、抽出されたスニペットが語句「非転移性」を含む場合は「非転移性」次元に適合度1の成分を有し、抽出されたスニペットが語句「非転移性」だけを含み、且つ修飾子「非」が掛らない語句「転移性」は含まない場合は「転移性」次元に適合度0の成分を有していてよい。他の実施形態において、スコアは非2進数であってよく、例えば語句に関連付けられた傾向を示すことができる。例えば、ベクトルは、抽出されたスニペットが語句「転移性」のインスタンスを5個含む場合は「転移性」次元に適合度5の成分を有し、抽出されたスニペットが語句「非転移性」のインスタンス2個しか含まない場合は「非転移性」次元に適合度2の成分を有していてよい。傾向は、インスタンスの正規化された基準、例えば特定の文字数、特定の語数、特定の文数、特定の段落数、特定のページ数等、毎の合計インスタンスを表していてよい。
【0031】
[037] 語句特徴330は、ロジスティック回帰分析340に入力されて語句特徴330に基づいてスコアを決定することができる。スコアは、コホートへの包含(及び/又はコホートから除外)の適性との相関を求めることも、又は別途適性を示すこともできる。代替的な一実施形態において、語句特徴330はロジスティック回帰分析340へ入力されて、コホートへの包含(及び/又はコホートからの除外)との相関を有する最上位の特徴(図示せず)を決定することができる。最上位特徴は次いで、2A図、2Bに関して上で述べたように、1個以上のモデルを構築するために用いられてよい。
【0032】
[038] 図3Bに、非構造化テキストに対する自然言語処理の例示的な技術300’を示す。例えば、技術300’を技術300で用いてもよい。
【0033】
[039] 図3Bに示すように、非構造化テキスト360は、例えば、1個以上の患者に関連付けられた1個以上の医療レコードに含まれる注記を含んでいてよい。ここで用いる用語「非構造化」は、1個以上の標準化されたフォーマット(例えば、日付フォーマット、名称フォーマット等)に分類されておらず、且つ順次又はマークアップフォーマット(例えば、XML、YAML、JSON等)ではないテキストを指す。
【0034】
[040] 非構造化テキスト360を用いて特徴370を抽出することができる。例えば、図3Aに関して上で述べたように、特徴370はベクトルとして表すことができ、且つ1個以上の次元における特定の語句の基準を表していてよい。特徴370は、特徴370を捕えた単一の多次元ベクトルの成分ベクトルを含んでいてよい。
【0035】
[041] 図4に本開示の実施形態、例えば後述する図5の方法500等を実行する例示的なシステム環境400を示す。図4に示すように、システム環境400は複数の要素を含んでいる。本開示から、要素の個数及び配置は例示的であって説明目的で提供するものと理解されたい。要素の他の配置及び個数は、本開示の教示及び実施形態から逸脱することなく利用することができる。
【0036】
[042] 図4に示すように、例示的なシステム環境400はシステム405を含んでいる。システム405は、ネットワークを介して機器から情報を受信し、情報を処理し、情報を保存し、ネットワークを介して他の機器に対し情報を表示/送信すべく構成された1個以上のサーバーシステム、データベース、及び/又はコンピュータシステムを含んでいてよい。従って、いくつかの実施形態において、ネットワークはクラウド共有、保存、及び/又は計算を容易にすることができる。一実施形態において、システム405は、図4のシステム405として破線で囲まれた領域に示す処理エンジン410及び1個以上のデータベース420を含んでいてよい。
【0037】
[043] 一実施形態において、システム405は、1個以上のデータソース430及びクライアント装置440等、様々な他の要素との間で患者の医療データを送信及び/又は受信することができる。医療データは、1個以上の医療レコードに保存することができ、各医療レコードは患者に関連付けられている。より具体的には、システム405は、データソース430を含む様々なデータソースからネットワーク450(例えば、インターネット、イントラネット、WAN、LAN、セルラ等)を介して送信されたデータを受信及び保存し、受信したデータを処理し、処理に基づいて検索結果をクライアント装置440に送信すべく構成されていてよい。
【0038】
[044] システム環境400の様々な要素は、メモリ、中央処理装置(CPU)、及び/又はユーザーインターフェースを含むハードウェア、ソフトウェア、及び/又はファームウェアのアセンブリを含んでいてよい。メモリは、フロッピーディスク、ハードディスク、又は磁気テープを含む磁気記憶媒体等の物理記憶媒体、固体状態ディスク(SSD)又はフラッシュメモリ等の半導体記憶媒体、光ディスク記憶媒体、又は光磁気ディスク記憶媒体に実装された任意の種類のRAM又ROMを含んでいてよい。CPUは、メモリに保存されたプログラム可能な命令の組又はソフトウェアに従いデータを処理する1個以上のプロセッサを含んでいてよい。各プロセッサの機能は、単一の専用プロセッサ又は複数のプロセッサにより実現することができる。更に、プロセッサは、デジタル信号プロセッサ(DSP)ハードウェア又はソフトウェアを実行可能な他の任意ハードウェアを含んでいてよいがこれらに限定されない。任意選択的なユーザーインターフェースは、ディスプレイモニタ、キーボード、及び/又はマウス等、任意の種類又は組み合わせの入出力装置を含んでいてよい。
【0039】
[045] 上述のように、システム405は、ネットワーク450を介して患者の医療レコードを受信し、受信した医療結果に1個以上のモデルを適用し、ネットワーク450を介してクライアント装置440に適性確率を提供すべく構成されていてよい。例えば、システム405は、データソース430又はネットワーク450上の他の箇所から患者の医療レコードを受信することができる。データソース430(又は他の箇所)からシステム405に提供されたレコードは、性別、出生年、人種、訪問日時、診療種別、被保険者及び開始日時、通院、投薬指示、投薬管理、米国東部癌治療共同研究グループ(ECOG)による一般状態(すなわちECOGスコア)、体重、検査結果等の構造化データ、診断日時、第1処置日時、診断時ステージ、精密診断日時、転移性診断日時(通常は癌患者が対象)、バイオマーカー結果、腫瘍進行及び反応(通常は癌患者が対象)、経口投薬、検査テストに関する検査詳細事項等の非構造化データ、及び死亡日時、治療方針、最終処置日時、結果等の派生データを含んでいてよい。一実施形態において、非構造化データは抽象化処理により取得できるのに対し、構造化データは医療専門家により入力されても、又はアルゴリズムを用いて計算されてもよい。一実施形態において、データソース430は医療従事者(例えば、医師、病院)、研究所、保険会社、及び他の任意の患者データソースを含んでいてよい。
【0040】
[046] システム405はまた、ネットワーク450を介してクライアント装置440と通信可能である。例えば、クライアント装置430は、ネットワーク450を介してシステム405に患者の医療レコードを求めるクエリを送信することができる。一実施形態において、レコードを求めるクエリは、患者の識別子(ID)、バイオマーカー状態、ステージ、薬物/方針の組み合わせ、治療方針、精密診断の年齢範囲、が精密診断の日時、テストサンプル取得元のインジケータ、実際の上皮成長因子受容体(EGFR)突然変異に関する詳細事項、テスト組織収集元のインジケータ(癌テスト用)、分析の種類、緊張強度、転移の有無及び拡大(癌患者が対象)等の患者の特徴を含んでいてよい。システム405は、データベース420に対し、クエリパラメータに合致する1個以上の患者を識別して、合致する患者に関連付けられた医療レコードを、ネットワーク450を介してクライアント装置440に送信するよう求めることができる。
【0041】
[047] 特定の実施形態によれば、システム405は、ネットワーク450を介してデータソース430及びクライアント装置440との間で医療レコードを送信すべく構成されていてよい1個以上の処理エンジン410を含んでいてよい。一実施形態において、各処理エンジン410は、データソース430及びクライアント装置440から受信されたレコードを1個以上のデータベース420に保存することができる。データベース420は、大容量データ記憶装置の任意の適当な組み合わせであってよく、任意選択的に、任意の種類又は組み合わせのスレーブデータベース、負荷バランサー、ダミーサーバー、ファイアウォール、バックアップデータベース、及び/又は他の任意の所望のデータベース要素を含んでいてよい。各処理エンジン410はまた、データベース420により保存されたデータにアクセスしてクライアント装置440から受信されたクエリを処理することができる。例えば、処理エンジン410は、データソース430から受信された患者データ(例えば、患者の医療レコード)にデータベース420からアクセスして、患者データを(例えばタイムライン上に)標準化されたフォーマットに視覚化するユーザーインターフェースを生成することができる。処理エンジン410は1個以上の患者のレコードの視覚化すべく、生成されたユーザーインターフェースをクライアント装置440に送信することができる。
【0042】
[048] 上述のように、システム400は、データ交換を行うことができ、そのような交換はデータインターフェースを介して生じる場合がある。ここで用いるデータインターフェースは、システム400の2個以上の要素がデータ交換を行う任意の境界を含んでいてよい。例えば、システム400は、ソフトウェア、ハードウェア、データベース、装置、人間、又は上述の任意の組み合わせの間でデータを交換することができる。更に、ソフトウェア、プロセッサ、データ記憶装置、及びネットワークの任意の適当な構成を選択してシステム環境400の要素及び関連実施形態の特徴を実装できることが理解されよう。
【0043】
[049] いくつかの実施形態において、システム405は1個以上のコホートを選択することができる。ここで用いるコホートは、少なくとも1個の共通の特徴を共有する、又は所定の基準の組を満たす属性を示すデータの任意のグループ(人々、物品、物体等)を含んでいてよい。いくつかの実施形態において、コホートは、医療的観点(例えば、人口統計的又は臨床的特徴)から少なくとも1個の共通の特徴を示す複数個人を含んでいてよい。個体は、1個以上のグループ(例えば、物体、人々、物品等)の任意のメンバーを含んでいてよい。例えば、特定の種類の疾病を有していると判断された母集団の複数個人、又はより具体的には、疾病(例えば、ステージIVの乳癌)に関連付けられた特定の特徴を識別して共通のコホートに含めることができる。コホートは、様々な目的のために編成することができる。いくつかの例において、コホートは、疫学、治療方法、疾病の死亡率又は進行等の結果が特定の変数に依存するか等、特定の疾病の特徴の解析に用いるグループを形成すべく編成することができる。
【0044】
[050] 上述のように、コホートの選択は様々な理由により長時間を要し、且つ高価格であり得る。例えば、コホートを選択するための抽象化処理は膨大な時間を要する場合があり、特定のコホートへの一個人の登録を正当化し得る特徴を患者の医療履歴から識別できる高度に訓練された人材を必要とする場合が多い。更に、効果的な抽象化は、コホートの選択に際して的確な判断を下すことができる高度に訓練された抽出者を要する。この主観的な処理は、汎用コンピュータで単純に自動化することができない。コホートに含める複数個人を自動的に識別するシステムが、特定の母集団から同一又はほぼ同一の複数個人を抽出者として特定することが求められるが、複数個人の自動選択は結果を生成すべく設計された専門的に訓練された技術的能力に依存する。一方、手動処理と比較して、自動コホート選択は、ヒューマンエラーに起因する偽陽性又は偽陰性が減少するため、コホートの想定される用途に関してコホートの品質を向上させることができる。
【0045】
[051] 自動コホート選択は様々な仕方で実現できるが、いくつかの実施形態において、そのようなコホート選択はモデルを用いて行うことができる。本明細書で用いる「モデル」は、ルールベースモデル(例えば、検索用語の組のマッチングに基づくモデル、正規表現)又は訓練済みモデル(例えば、教師付き機械学習システム)を指していてよい。
【0046】
[052] 訓練済みモデル(例えば、教師付き機械学習システム)は、データラベルの組に基づくフレームワークを用いてよく、ラベルの組と整合する結果を生成すべく訓練することができる。いくつかのケースにおいて、訓練済みモデルは、入力の組(例えば、モデルを訓練する手順の一部として生成され得る、患者の医療レコードから導出された1個以上の特徴ベクトル)が与えられ、特定の個人をコホートから除外してよいか否か、又は一個人がコホートに適した候補であるか否かを(例えば所定の閾値レベルへの出力との比較に基づいて)を決定すべく利用され得るスコア又は信頼レベルを出力として生成することができる。
【0047】
[053] 選択モデルは、任意の適当な機械学習アルゴリズムを採用してよい。いくつかの実施形態において、ロジスティック回帰分析モデルを用いることができる。他の種類の機械学習技術をロジスティック回帰分析技術と組み合わせて、又は別個に用いてもよい。
【0048】
[054] 上述のように、開示するシステム及び方法は、ルールベースモデル(例えば、検索用語の組のマッチングに基づくモデル)を介して1個以上のコホートを選択することができる。例えば、ルールベースモデルは、データを受信し、受信したデータの少なくとも一部を所定の検索用語の組とマッチングすることにより出力を生成することができる。
【0049】
[055] モデルの訓練は、所望の結果が既知であるラベル付けされたデータの使用を伴う場合がある。そのようなデータは「参照標準」と称される場合があり、例えば1個以上のコホートに対して特定の母集団の複数個人の全員をスクリーニングする抽象化処理を介して生成されてよく、各個人は適切なコホートに割り当てられる。次に、参照標準データの特定の割合(例えば、50%、60%、70%等)を用いてモデルを訓練することができる。すなわち、訓練セグメント内の各個人に対して特徴ベクトルが抽出されるように訓練セグメントを解析(例えば自然言語処理を用いて)することができる。これらの特徴ベクトルは、所望の結果に関する情報(例えば特定のコホートに対して特定の個人を指定すべきか否か)と合わせてモデルに提供することができる。そのような多くのインスタンスへの露出を介して、モデルが「学習」して、抽象化処理を介して行われた選択と同一の、又は近い出力を提供することができる。
【0050】
[056] 残りの参照標準データを用いて、訓練済みモデルをテストし、その性能を評価することができる。例えば、残りの参照標準データに含まれる各個人に対して、一個人に関連付けられた医療レコードから特徴ベクトルを抽出することができる。これらの特徴ベクトルはモデルに提供して、一個人(及び、実際に、残りの参照標準データに含まれる各個人)のモデルの出力を一個人の既知の結果と比較することができる。モデル出力と任意の複数個人の既知の結果との間に偏差が見出された場合、偏差を用いてモデルを更新(例えばモデルを再訓練)することができる。例えば、モデルの1個以上の機能を追加、除外、又変更することができ、例えば二次関数を三次関数に変更し、指数関数を多項式関数に変更すること等、ができる。従って、偏差を用いて、モデルに渡された特徴を構築する仕方、又は使用するモデルの種類を変更する旨の決定を通知してもよい。偏差のレベルが所望の限度(例えば、10%、5%、又はそれ以下)内である場合、モデルは以前にコホート選択が行われていないデータ組に適用するのに適していると考えられる。代替的に、いくつかの実施形態において、回帰分析の1個以上の重み(又は、モデルがニューラルネットワークを含む場合はノードの1個以上の重み)を調整して偏差を減らすことができる。
【0051】
[057] 偏差の利用を上で述べたが、1個以上の損失関数を用いてモデルの精度を測定してもよい。例えば、二乗損失関数、ヒンジ損失関数、ロジスティック損失関数、クロスエントロピー損失関数、又は他の任意の損失関数を用いてよい。このような実施形態において、モデルの更新は、1個以上の損失関数を低減(又は少なくとも局所的に最小化)すべく構成されていてよい。
【0052】
[058] データの新たな組(例えば、患者の医療レコード)を解析する過程で、様々な技術(例えば、自然言語処理技術)を用いてモデルに特徴ベクトルを提供することができる。いくつかの例において、患者の医療レコードに関連付けられた(例えば、EMR)又は他の利用可能なデータソース(例えば、請求データ、患者の自己申告データ)における非構造化文書を解析して特定のコホートに関連付けられ得る様々な単語又は語句の存在を確認することができる。例えば、患者の医療レコードの文書のいくつか又は一部は電子的に利用可能な場合がある。代替的に、レコード内のタイプ入力、手書き、又は印刷されたテキストを機械コード化テキスト(例えば、光学文字認識(OCR)を介して)に変換することができ、電子テキストを検索して特定のコホートに関連付けられた特定のキーワード又は語句を求めることができる。そのような単語又は語句(例えば、「乳癌」、「転移性」等)がレコード内で識別された場合、識別された単語又はテキストの近傍にテキストのスニペットを調べて単語又は語句の文脈に関する追加的な情報を収集することができる。例えば、「転移性活動の証拠は無い」は、「ステージIV;転移性」とは顕著に異なる意味を有する場合がある。注目する単語又は語句を包含するテキストのスニペットを解析することにより、1個以上の特徴を抽出して、訓練済み選択モデルへの入力として与え得る特徴ベクトルを形成することができる。非構造化文書から得られたこれらの特徴を、患者の医療レコード又は他の利用可能なデータソース(例えば、請求データ、患者の自己申告データ)に関連付けられた構造化データからの特徴と組み合わせることができる。
【0053】
[059] テキストのスニペットの解析は、患者の医療履歴に含まれる全ての単語/語句を、含まれる単語/語句の文脈と合わせて解析するのに比べて顕著に効率的且つ短時間でモデルを生成することができる。例えば、関連検索用語から生成されたスニペットを用いることにより、患者の医療履歴内の全ての単語、語句、及び構造化データを包含すべく次元の数を拡大させるのではなく、次元の数を大幅に減らすことができる。上述の次元削減は、効率の向上に加え、考慮する従属変数が多過ぎる場合に生じやすい過剰適合を容易に防止できるため、生成されるモデルの精度を更に向上させることができる。従って、テキストのスニペットを解析することで、そのような解析の結果としてより少ない誤差で新たなデータ組に一般化できる予測が得られる傾向があるため、結果的により高性能のモデルが得られる。従って、人間の洞察力又は専門知識は特徴抽出処理を、処理が全てのレコードにわたり全ての単語を調べる場合に比べて、より有用な特徴を見出すべく誘導するのに役立つ場合がある。
【0054】
[060] 過少包含又は過剰包含的なコホート選択を行う潜在的不都合を緩和すべく自動コホート選択システムを開発することもできる。特定のコホートへの複数個人の過剰包含は、コホートが、特定のコホートに関連付けられた所望の特性又は特徴を有していない1名以上の個人を含んでいる可能性があるため、解析又は品質の評価ツールとしてのコホートの効果を低減させる恐れがある。例えば、コホート内の複数個人に対する治療プロトコル等の効果のモニタリングを目的とするエンドユーザーの解析は、コホートの何人かのメンバーが治療プロトコルの目指す特性又は特徴を欠いている場合、有用性が低下する恐れがある。過少包含の結果、有意味なサンプルサイズを提供するにはコホート内の複数個人が少な過ぎる恐れがある。過少包含は、特に複数個人の系統的な除外に基づいている場合、コホートにバイアスももたらし、コホートが解析的ツールとして役立たなくなる恐れがある。
【0055】
[061] 上述のモデル支援コホート選択システムは、コホートバイアスの影響を低減又は除去する1個以上のツールを含んでいてよい。例えば、いくつかのケースにおいて、新たに利用可能な参照データ組が入手可能になるに従いモデルを定期的に再訓練することができる。再訓練は、任意の適当な時間間隔(例えば、日次、週次、月次等)で生起してよい。このような再訓練は、モデルの柔軟性を向上させて、本来登録されている筈のコホートから複数個人が、関連レコード内の個人に関する情報提示方法の変更(例えば、用語の変更等)に起因して不用意に除去され難いようにモデルを補強することができる。他の実施形態において、再訓練は、新規又は更新された参照標準データが(例えば、抽象化処理を介して)利用可能ようになるに従い、参照標準データに基づいていてよい。このような更新を周期的且つ大適合度に実行することで、基礎となるデータの変化に対してモデルが常時適合及び進化するのを支援することができる。
【0056】
[062] また、モデル支援コホート選択システムの性能は、所望のレベルの効果及び/又は精度を得るべく常時テストすることができる。例えば、特定のコホートから抽出された複数個人の無作為な組を抽象化により処理してモデル支援システムの出力の精度を検査することができる。そのような処理により、複数個人が系統的にコホートから除外されたか否かをモニタリングすることができ、これは上述のようにコホートに望ましくないバイアスを掛ける結果となり得る。
【0057】
[063] 本システムはまた、人間又は機械がバイアスをよりよく検知できるようにコホートの品質を定量化すべく設計され、コホートの品質(例えば、解析又は品質評価ツールとしての)に影響する1個以上のツールを含んでいてよい。例えば、本システムはコホート品質の1個以上の測定値をグラフィカルユーザーインターフェース(又は他の任意の適当な出力プラットフォーム)に出力することができる。
【0058】
[064] システム挙動及び性能を様々な尺度でモニタリングすることができる。いくつかの例において、訓練済みシステムの感度をモニタリングして特定のコホートに含めるべき特定の母集団の複数個人の全員又はほぼ全員をシステムが捕捉しているか否かを判定することができる。追加的又は代替的に、システムの効率をモニタリングして、抽象化処理へ進む必要がある複数個人の人数の減少の達成度(例えば、割合の減少)を判定することができる。いくつかの実施形態において、訓練済みモデルは95%以上の感度レベルを示し、すなわち特定のコホートに含めるべき特定の母集団から5%未満の複数個人をコホートから除外することを意味する。いくつかのケースにおいて、訓練済みシステムは50%以上の効率レベルを示し、すなわち特定の母集団の半分以下がモデル支援コホートセレクタの動作に続いて抽象化を必要とすることを意味する。そのような効率は、モデル支援システムが特定の複数個人に対して、複数個人が特定のコホートに属していないと結論付けるのに充分高い信頼度レベル又はスコアを生成する場合に発現し得る。このような場合、複数個人の抽象化は必要とされない。モデル支援セレクタによりコホートから除外されない母集団の残りの複数個人に対して抽象化を用いて、複数個人をコホートに含めることが適当であるか否かを確認することができる。
【0059】
[065] モデルの選択基準は、所望のレベルの選択性及び/又は効率を実現すべく変更されてよい。例えば、選択基準が緩い場合、モデル支援システムにより所与の母集団においてコホートから除外される複数個人を減らし、より多くのコホート候補を識別することができる。このような場合、コホートに登録すべき複数個人が自動選択の結果コホートから除外される人数が減るため感度が向上し得る。しかし、そのような場合、コホートへの登録を確認すべくより多くの個人が抽象化処理の対象となる必要があるため、抽象化削減効率が低下する恐れがある。一方、選択基準がより厳密になった場合、より多くの個人がコホートに適していないと潜在的に識別され得る。そのような場合、抽象化処理へ進むことが求められる個人が極めて少ないため、抽象化効率を向上させることができる。しかし、より厳密な選択基準は結果的に感度を低下させる恐れがある、すなわちコホートが最終的に過少包含であり得ることを意味する。
【0060】
[066] 図5に、複数個人の母集団からコホートを選択する例示的な方法500を示す。方法500は、例えば、図4のシステム400の処理エンジン410により実行することができる。処理エンジン410は、1個以上の汎用プロセッサ、例えば中央処理装置(CPU)、グラフィックス処理装置(GPU)等、及び/又は1個以上の専用プロセッサ、例えば特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)等、少なくとも1個の処理装置を含んでいてよい。
【0061】
[067] ステップ510において、少なくとも1個の処理装置は、データインターフェースを介して、複数個人の母集団内の一個人に関連付けられた特徴ベクトルを導出可能なデータベースにアクセスすることができる。例えば、データベースは、各レコードが患者に関連付けられた複数の医療レコードを含んでいてよい。複数の患者は個人を含んでいてよい。ある患者は単一のレコードを含んでいてよいのに対し、他の患者は複数のレコードを含んでいてよい。
【0062】
[068] 図1に関して上で述べたように、いくつかの実施形態において、データベースは複数の電子データ表現を含んでいてよい。例えば、テキストファイル、画像ファイル、PDFファイル、XLMファイル、YAMLファイル等の1個以上の電子ファイル。このような実施形態において、少なくとも1個の処理装置は、データインターフェースを介して複数の電子データ表現をアップロードすることができる。一例において、上述のように、電子データ表現は、個人に関連付けられた電子医療レコードからの文書の電子的表現を含んでいてよい。追加的又は代替的に、電子データ表現は、以前に光学文字認識処理を施された少なくともいくつかのテキストを含んでいてよい。電子データ表現の複数は、構造化データ及び非構造化データの両方を含んでいてよい。上述のように、「構造化データ」は、1個以上の標準化されたフォーマット(例えば、日付フォーマット、名称フォーマット等)に準拠、及び/又はデータの部分に関連付けられたラベル又は他のインジケータを含む順次又はマークアップフォーマットに保存することができる。
【0063】
[069] データベースが複数の電子データ表現を含む実施形態において、複数の電子データ表現は、電子医療レコード(例えば病院、診療室、外来患者センター等からの)、利用可能なデータソース、請求データ(例えば保険会社からの)、又は少なくとも一個人に関連付けられた患者の自己申告データのうち少なくとも一つから導出されてよい。
【0064】
[070] ステップ520において、少なくとも1個の処理装置は、個人に対して、1個以上の特徴ベクトルをデータベースから導出することができる。例えば、図3A、3Bに関して上で述べたように、1個以上の関連検索用語を用いて1個以上の特徴ベクトルを医療レコードから抽出することができる。特徴ベクトルを抽出するために、スニペット抽出を関連検索用語と組み合わせて用いてもよい。
【0065】
[071] データベースが複数の電子データ表現を含む実施形態において、少なくとも1個の処理装置は、複数の電子データ表現を用いて1個以上の特徴ベクトルを生成することができる。追加的又は代替的に、コホートに関連付けられるよう予め定義された少なくとも1個の用語又は語句の存在について、少なくとも1個の処理装置は、複数の電子データ表現を検索することにより、1個以上の特徴ベクトルを生成することができる。少なくとも1個の用語又は語句が複数の電子データ表現に存在することを識別した後で、少なくとも1個の処理装置は複数の電子データ表現からテキストグループを抽出することができる。テキストグループは、識別された用語又は語句の近傍にある1個以上の単語を含んでいてよい。少なくとも1個の処理装置は、抽出されたテキストグループの解析と合わせて、識別された用語又は語句の解析に基づいて1個以上の特徴ベクトルを生成することができる。
【0066】
[072] ステップ530において、少なくとも1個の処理装置は1個以上の特徴ベクトルをモデルに提供することができる。例えば、モデルは、図2A、2Bに関して上で述べたように構築することができる。
【0067】
[073] いくつかの実施形態において、モデルは訓練済み機械学習モデルを含んでいてよい。このような実施形態において、機械学習モデルは、人間及び機械の組み合わせにより、医療レコードを含む非構造化情報から抽出された構造化情報の組に基づいて訓練されていてよい。機械学習モデルは、例えば、複数の訓練済みノード等を有するニューラルネットワークを含んでいてよい。
【0068】
[074] 追加的又は代替的に、モデルはルールベースモデルを含んでいてよい。例えば、モデルはロジスティック回帰分析から導出された複数のルールを含んでいてよい。このような実施形態において、ルールベースモデルは、所定の検索用語の組とのマッチングにより出力を生成することができる。
【0069】
[075] ステップ540において、少なくとも1個の処理装置はモデルから出力を受信することができる。例えば、出力は、一個人がコホートに含めるのに適している可能性を表すスコアを含んでいてよい。コホートが複数の副コホートを含む実施形態において、出力は各副コホートに含めるための複数の確率、スコア、尤度等を含んでいてよい。
【0070】
[076] いくつかの実施形態において、モデルは2進分類アルゴリズムを用いて出力を生成することができる。例えば、2進分類は、個人がコホートに含めるのに適しているか否かのブール標識を含んでいてよい。このような実施形態において、2進分類法アルゴリズムは上述のようにロジスティック回帰分析を含んでいてよい。
【0071】
[077] いくつかの実施形態において、モデルから受信した出力は信頼スコアを含んでいてよい。例えば、上述のように、信頼スコアは、コホートへの(又はその副コホートへの)包含の確率を示していてよい。
【0072】
[078] ステップ550において、少なくとも1個の処理装置は、モデルから受信した出力に基づいて、複数個人の母集団内の一個人がコホートへの候補であるか否かを判定することができる。例えば、少なくとも1個の処理装置は、一個人がコホートに含めるのに適していることを出力が示す場合、一個人を選択してよい。
【0073】
[079] いくつかの実施形態において、コホートは、全員が少なくとも1個の医療又は人口統計的特徴を共有している複数個人を含むものとする。従って、モデルからの出力は、少なくとも1個の医療又は人口統計的特徴に基づいていてよい。例えば、モデルは、特徴ベクトルに基づいて転移性癌の確率を推定すべく構成されていてよい。
【0074】
[080] 出力が信頼スコアを含んでいる実施形態において、少なくとも一個人がコホートへの候補であるか否か判定は、信頼スコアと所定の閾値との比較に基づいていてよい。閾値は、所望のレベルの効率及び性能に基づいて調節可能であってよい。例えば、上述のように、モデルはテストデータ(モデルの構築に用いなかったデータベースからのレコードを含んでいてよい)に基づいて再訓練することができる。1個以上の損失関数を用いて閾値を調整してもよい。
【0075】
[081] 方法500は追加的なステップを更に含んでいてよい。例えば、方法500は更に、個人が候補であるか否かのインジケータを表示することを含んでいてよい。少なくとも1個の処理装置は、データインターフェースを介して、スクリーン上に表示すべくインジケータの視覚化情報を送ることができる。例えば、視覚化情報はインジケータを含むユーザーインターフェースを含んでいてよい。視覚化情報は、医療専門家に関連付けられた1個以上のコンピュータ装置に送信することができる。医療専門家はコホートを用いて医療検査を管理することができる。
【0076】
[082] 上の記述は説明目的で提供したものである。記述は網羅的ではなく、開示した形式又は実施形態そのものに限定されない。当業者には、本明細書及び開示した実施形態の実施を参照することにより本発明の変形及び適合が明らかになろう。また、開示した実施形態の態様はメモリに保存されたものとして記述しているが、当業者にはこれらの態様を他の種類のコンピュータ可読媒体、例えばハードディスク又はCD-ROM等の二次記憶装置、若しくは他の形式のRAM又はROM、USB媒体、DVD、Blu-ray、4K Ultra HD Blu-ray、又は他の光学ドライブ媒体にも保存できることが理解されよう。
【0077】
[083] 上の記述及び開示した方法に基づくコンピュータプログラムも経験豊富な開発者のスキルに含まれる。様々なプログラム又はプログラムモジュールが、当業者に公知の任意の技術を用いて作成、又は既存のソフトウェアと組み合わせて設計可能である。例えば、プログラムセクション又はプログラムモジュールは、.Net Framework、.Net Compact Framework(及びVisual Basic、C等の関連言語)、Java、Python、R、C++、Objective-C、HTML、HTML/AJAXの組み合わせ、XML、又はJavaアプレットを含むHTMLにより設計することができる。
【0078】
[084] 更に、例示的な実施形態について本明細書に記述してきたが、本開示に基づいて当業者に理解されるように、任意の及び全ての実施形態の範囲は等価な要素、変更、省略、組み合わせ(例えば様々な実施形態に跨る態様の)、適合及び/又は変更を有している。請求項の限定は、請求項で使用する言語に基づいて広義に解釈すべきであり、本明細書に記述した、又は本出願の審査時に記述した例に限定されない。例は非排他的に解釈されたい。更に、開示した方法のステップは、ステップの順序変更、及び/又はステップの挿入又は省略を含む任意の仕方で変更されてよい。従って、明細書及び例は説明目的に過ぎないものとして意図されており、真の範囲及び趣旨は以下の請求項及び等価物の全範囲により示される。
図1
図2A
図2B
図3A
図3B
図4
図5
【手続補正書】
【提出日】2022-11-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コホートに登録する候補を識別するモデル支援選択システムであって、
データインターフェースと、
前記データインターフェースを介して、1個以上の関連検索用語の選択を受信し、
前記データインターフェースを介して、複数個人の母集団内の複数個人に関連付けられたレコードを保存するデータベースから複数のレコードを受信し、
前記複数のレコードから、前記1個以上の関連検索用語に基づいており、且つ前記1個以上の関連検索用語に加えて少なくとも1個の隣接する用語を含む、少なくとも1個のスニペットを抽出し、
前記少なくとも1個の抽出されたスニペットに基づいて、前記複数のレコードに関連付けられた1個以上の特徴ベクトルを導出し、
前記1個以上の特徴ベクトルを用いて、前記複数のレコードに関連付けられた複数個人をスコアリングし、
前記スコアリングすることに基づいて、前記複数個人がコホートの候補であるか否かを判定すべくプログラムされた少なくとも1個の処理装置と、を含むシステム。
【請求項2】
前記1個以上の関連検索用語の前記選択が、1人以上のユーザーによって前記データインターフェースに入力される、請求項1に記載のシステム。
【請求項3】
前記1個以上の関連検索用語の前記選択が、前記データインターフェースによって1個以上の記憶媒体から検索される、請求項1に記載のシステム。
【請求項4】
前記少なくとも1個のスニペットが、前記1個以上の関連検索用語の後に1個以上の追加の用語を含む、請求項1に記載のシステム。
【請求項5】
前記少なくとも1個のスニペットが、前記1個以上の関連検索用語の前に1個以上の追加の用語を含む、請求項1に記載のシステム。
【請求項6】
前記少なくとも1個の処理装置が、前記複数のレコードから構造情報を抽出すべく更にプログラムされている、請求項1に記載のシステム。
【請求項7】
前記1個以上の特徴ベクトルが、前記抽出された構造情報に基づいて更に導出される、請求項6に記載のシステム。
【請求項8】
前記1個以上の特徴ベクトルの少なくとも1個の次元における少なくとも1個の値が、前記少なくとも1個の隣接する用語に依存する、請求項1に記載のシステム。
【請求項9】
前記1個以上の特徴ベクトルの少なくとも1個の次元における少なくとも1個の値が、前記複数のレコード内の前記1個以上の関連検索用語のインスタンスの数に依存する、請求項1に記載のシステム。
【請求項10】
前記少なくとも1個の値が、前記インスタンスの数の正規化された表現に依存する、請求項9に記載のシステム。
【請求項11】
複数個人の母集団からコホートを選択する方法であって、
データインターフェースを介して、1個以上の関連検索用語の選択を受信すること、
前記データインターフェースを介して、複数個人の母集団内の複数個人に関連付けられたレコードを保存するデータベースから複数のレコードを受信すること、
前記複数のレコードから、前記1個以上の関連検索用語に基づいており、且つ前記1個以上の関連検索用語に加えて少なくとも1個の隣接する用語を含む、少なくとも1個のスニペットを抽出すること、
前記少なくとも1個の抽出されたスニペットに基づいて、前記複数のレコードに関連付けられた1個以上の特徴ベクトルを導出すること、
前記1個以上の特徴ベクトルを用いて、前記複数のレコードに関連付けられた複数個人をスコアリングすること、及び
前記スコアリングすることに基づいて、前記複数個人が前記コホートの候補であるか否かを判定することを含む、方法。
【請求項12】
前記選択が、1人以上のユーザーによって前記データインターフェースに入力されるか、又は前記データインターフェースによって1個以上の記憶媒体から検索される、請求項11に記載の方法。
【請求項13】
前記少なくとも1個のスニペットが、前記1個以上の関連検索用語の後に1個以上の追加の用語を含む、請求項11に記載の方法。
【請求項14】
前記少なくとも1個のスニペットが、前記1個以上の関連検索用語の前に1個以上の追加の用語を含む、請求項11に記載の方法。
【請求項15】
前記少なくとも1個の処理装置が、前記複数のレコードから構造情報を抽出すべく更にプログラムされている、請求項11に記載の方法。
【請求項16】
前記1個以上の特徴ベクトルが、前記抽出された構造情報に基づいて更に導出される、請求項15に記載の方法。
【請求項17】
前記1個以上の特徴ベクトルの少なくとも1個の次元における少なくとも1個の値が、前記少なくとも1個の隣接する用語に依存する、請求項11に記載の方法。
【請求項18】
前記1個以上の特徴ベクトルの少なくとも1個の次元における少なくとも1個の値が、前記複数のレコード内の前記1個以上の関連検索用語のインスタンスの数に依存する、請求項11に記載の方法。
【請求項19】
前記少なくとも1個の値が、前記インスタンスの数の正規化された表現に依存する、請求項18に記載の方法。
【請求項20】
少なくとも1個の処理装置によって実行された際に、前記少なくとも1個の処理装置に複数個人の母集団からコホートを選択する方法を行わせる命令を保存している非一時的コンピュータ可読記憶媒体であって、前記方法は、
データインターフェースを介して、1個以上の関連検索用語の選択を受信すること、
前記データインターフェースを介して、複数個人の母集団内の複数個人に関連付けられたレコードを保存するデータベースから複数のレコードを受信すること、
前記複数のレコードから、前記1個以上の関連検索用語に基づいており、且つ前記1個以上の関連検索用語に加えて少なくとも1個の隣接する用語を含む、少なくとも1個のスニペットを抽出すること、
前記少なくとも1個の抽出されたスニペットに基づいて、前記複数のレコードに関連付けられた1個以上の特徴ベクトルを導出すること、
前記1個以上の特徴ベクトルを用いて、前記複数のレコードに関連付けられた複数個人をスコアリングすること、及び
前記スコアリングすることに基づいて、前記複数個人が前記コホートの候補であるか否かを判定することを含む、非一時的コンピュータ可読記憶媒体。
【外国語明細書】