IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラティロン ヘルス,インコーポレイテッドの特許一覧

特表2024-510425診断、治療、及び主要な日付を抽出するための機械学習モデル
<>
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図1
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図2
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図3
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図4
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図5
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図6
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図7
  • 特表-診断、治療、及び主要な日付を抽出するための機械学習モデル 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-07
(54)【発明の名称】診断、治療、及び主要な日付を抽出するための機械学習モデル
(51)【国際特許分類】
   G16H 10/00 20180101AFI20240229BHJP
【FI】
G16H10/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023553939
(86)(22)【出願日】2022-03-04
(85)【翻訳文提出日】2023-10-27
(86)【国際出願番号】 US2022018920
(87)【国際公開番号】W WO2022187628
(87)【国際公開日】2022-09-09
(31)【優先権主張番号】63/157,369
(32)【優先日】2021-03-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.Blu-ray
3.VISUAL BASIC
4.JAVA
5.PYTHON
(71)【出願人】
【識別番号】519349872
【氏名又は名称】フラティロン ヘルス,インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】リッチ,アレクサンダー
(72)【発明者】
【氏名】レイボヴィチ,バリー
(72)【発明者】
【氏名】アーバイン,ベンジャミン
(72)【発明者】
【氏名】シン,ニーシャ
(72)【発明者】
【氏名】バーンバウム,ベンジャミン
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA01
(57)【要約】
患者の事象の日付を決定するモデル援用システムはプロセッサを含み得る。プロセッサは、患者に関連する医療記録を記憶するデータベースにアクセスすることであって、医療記録は非構造化データを含む、こと、患者の事象に関連する医療記録内の情報の複数の断片を識別するために非構造化データを解析すること、複数の断片のそれぞれに関連する日付を決定すること、患者の事象に関連する複数のクエリ期間を識別すること、並びに複数の断片及び関連する日付に基づいてクエリ期間中に患者の事象が生じたかどうかの確率をクエリ期間のそれぞれについて生成することを行うようにプログラムされ得る。
【特許請求の範囲】
【請求項1】
患者の事象の日付を決定するモデル援用システムであって、
患者に関連する医療記録を記憶するデータベースにアクセスすることであって、前記医療記録は非構造化データを含む、こと、
患者の事象に関連する前記医療記録内の情報の複数の断片を識別するために前記非構造化データを解析すること、
前記複数の断片のそれぞれに関連する日付を決定すること、
前記患者の事象に関連する複数のクエリ期間を識別すること、並びに
前記クエリ期間のそれぞれについて、前記複数の断片及び前記関連する日付に基づいて前記クエリ期間中に前記患者の事象が生じたかどうかの確率を生成すること
を行うようにプログラムされる少なくとも1つのプロセッサ
を含む、モデル援用システム。
【請求項2】
前記患者の事象が診断日、治療日、又はオペ日の少なくとも1つを含む、請求項1に記載のモデル援用システム。
【請求項3】
前記複数の断片のそれぞれに関連する前記日付を決定することは、断片が含まれる文書のメタデータに基づいて日付を識別することを含む、請求項1に記載のモデル援用システム。
【請求項4】
前記複数の断片のそれぞれに関連する前記日付を決定することが、前記断片内で言及される日付を識別することを含む、請求項1に記載のモデル援用システム。
【請求項5】
前記少なくとも1つのプロセッサが、前記断片に基づいて複数の断片のベクトルを生成するように更にプログラムされる、請求項1に記載のモデル援用システム。
【請求項6】
前記複数のクエリ期間を識別することが複数のクエリ日を識別することを含み、前記複数のクエリ期間が前記クエリ日のそれぞれに対する少なくとも1つの期間を含む、請求項1に記載のモデル援用システム。
【請求項7】
前記クエリ日のそれぞれに対する前記少なくとも1つの期間が、前記クエリ日を包含する期間、前記クエリ日の前の期間、及び前記クエリ日の後の期間を含む、請求項6に記載のモデル援用システム。
【請求項8】
前記複数のクエリ日が1週間隔てられた日付を含む、請求項6に記載のモデル援用システム。
【請求項9】
前記確率を生成することが、前記複数のクエリ日のそれぞれに対する複数の時間窓にわたる前記複数の断片を評価することを含む、請求項6に記載のモデル援用システム。
【請求項10】
複数の時間窓にわたる前記複数の断片を評価することが、1つ又は複数の集約関数を使用して前記時間窓に含まれる日付に関連する断片を前記複数の時間窓のそれぞれの時間窓について処理することを含む、請求項9に記載のモデル援用システム。
【請求項11】
前記1つ又は複数の集約関数が、sum関数、mean関数、又はLogSumExp関数の少なくとも1つを含む、請求項10に記載のモデル援用システム。
【請求項12】
前記確率を生成することが、前記複数の関数の結果をフィードフォワードネットワークに入力することを含む、請求項10に記載のモデル援用システム。
【請求項13】
患者の事象の日付を決定する方法であって、
患者に関連する医療記録を記憶するデータベースにアクセスすることであって、前記医療記録は非構造化データを含む、こと、
患者の事象に関連する前記医療記録内の情報の複数の断片を識別するために前記非構造化データを解析すること、
前記複数の断片のそれぞれに関連する日付を決定すること、
前記患者の事象に関連する複数のクエリ期間を識別すること、並びに
前記クエリ期間のそれぞれについて、前記複数の断片及び前記関連する日付に基づいて前記クエリ期間中に前記患者の事象が生じたかどうかの確率を生成すること
を含む、方法。
【請求項14】
前記患者の事象が診断日、治療日、又はオペ日の少なくとも1つを含む、請求項13に記載の方法。
【請求項15】
前記複数のクエリ期間を識別することが複数のクエリ日を識別することを含み、前記複数のクエリ期間が前記クエリ日のそれぞれに対する少なくとも1つの期間を含む、請求項13に記載の方法。
【請求項16】
前記クエリ日のそれぞれに対する前記少なくとも1つの期間が、前記クエリ日を包含する少なくとも1つの期間、前記クエリ日の前の少なくとも1つの期間、及び前記クエリ日の後の少なくとも1つの期間を含む、請求項15に記載の方法。
【請求項17】
前記確率を生成することが、前記複数のクエリ日のそれぞれに対する複数の時間窓にわたる前記複数の断片を評価することを含む、請求項15に記載の方法。
【請求項18】
複数の時間窓にわたる前記複数の断片を評価することが、複数の関数を使用して前記時間窓に含まれる日付に関連する前記断片を前記複数の時間窓のそれぞれについて処理することを含む、請求項17に記載の方法。
【請求項19】
前記複数の関数が、sum関数、mean関数、又はLogSumExp関数の少なくとも1つを含む、請求項18に記載の方法。
【請求項20】
1つ又は複数のプロセッサによって実行されるとき、患者の事象の日付を決定する方法を前記1つ又は複数のプロセッサに行わせる命令を含む非一時的コンピュータ可読媒体であって、前記方法は、
患者に関連する医療記録を記憶するデータベースにアクセスすることであって、前記医療記録は非構造化データを含む、こと、
患者の事象に関連する前記医療記録内の情報の複数の断片を識別するために前記非構造化データを解析すること、
前記複数の断片のそれぞれに関連する日付を決定すること、
前記患者の事象に関連する複数のクエリ期間を識別すること、並びに
前記クエリ期間のそれぞれについて、前記複数の断片及び前記関連する日付に基づいて前記クエリ期間中に前記患者の事象が生じたかどうかの確率を生成すること
を含む、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
背景
関連出願の相互参照
[0001] 本願は、2021年3月5日に出願された米国仮特許出願第63/157,369号に基づき、その優先権の利益を主張する。上記の出願の内容は、参照によりその全体を本明細書に援用する。
【0002】
技術分野
[0002] 本開示は医療記録を解析することに関し、より詳細には、非構造化医療データから主要な日付及び他の情報を抽出することに関する。
【背景技術】
【0003】
背景情報
[0003] 今日のヘルスケアシステムでは、大規模な患者集団にわたって患者の診断、治療、試験、及び他のヘルスケアデータを解析することが、疾病を理解するための、新たな形の療法及び治療を策定するための、並びに既存の療法及び治療の有効度を評価するための有用な洞察をもたらし得る。具体的には、患者の診断及び/又は治療の間に主要な事象又は段階に関連する特定の日付を識別することが有用であり得る。例えば、特定の疾病と診断された患者並びに疾病が診断された日付又は疾病の特定の段階に関連する日付を識別することが研究者にとって有益であり得る。(例えば疾病の再発又は進行した段階による)後の進行した診断の日付等、他の日付を抽出することが更に有益であり得る。このことは、例えば臨床試験に含める患者を選択するために、研究者が大規模な患者集団にわたって決定を行うことを可能にし得る。
【0004】
[0004] 患者情報は電子医療記録(EMR)内に含まれ得る。しかし多くの場合、診断日又は他の主要な事象に関する情報は非構造化データ(例えば医者の訪問時のメモ、実験助手の報告書、又は他のテキストベースのデータ)内で表され、そのことは関連する日付情報をコンピュータによって抽出することを困難にし得る。例えば医者は、診断日を明確に含めることなしに医療診断に関するメモを患者の医療記録内の幾つかの文書に含める場合がある。従って、曖昧なメモに基づいて正確な診断(又は同様の事象)の日付を決定することは、情報の幾つかの断片をつなぎ合わせることを含み得る。更に、研究者が検討しなければならない膨大な量のデータは日付又は他の情報を手動で抽出することを不可能にする。例えばかかる手動の抽出は、そのそれぞれが数百ページの非構造化テキストを含み得る数千件、数万件、数十万件、又は数百万件の患者医療記録を探索することを含み得る。従って、人間の査読者がその量のデータを処理することは不可能ではないにせよ非常に時間がかかり困難であり得る。従ってとりわけ大規模な患者集団について従来の技法を使用して患者医療記録から主要な日付を抽出することは、すぐに克服不能な作業になり得る。
【0005】
[0005] 従って現在の技法のこれらの及び他の欠陥に照らし、患者の診断及び治療に関連する主要な日付をより正確に抽出するための技術的解決策が求められている。具体的には、解決策は特定の日付(例えば初期診断の日付、進行した診断の日付、治療の開始日、治療の終了日等)を大規模な1組の患者EMR内の非構造化データから抽出することを有利に可能にすべきである。
【発明の概要】
【0006】
概要
[0006] 本開示と合致する実施形態は、患者の事象の日付を決定するシステム及び方法を含む。一実施形態では、モデル援用システムが少なくとも1つのプロセッサを含み得る。プロセッサは、患者に関連する医療記録を記憶するデータベースにアクセスすることであって、医療記録は非構造化データを含む、こと、患者の事象に関連する医療記録内の情報の複数の断片を識別するために非構造化データを解析すること、複数の断片のそれぞれに関連する日付を決定すること、患者の事象に関連する複数のクエリ期間を識別すること、並びに複数の断片及び関連する日付に基づいてクエリ期間中に患者の事象が生じたかどうかの確率をクエリ期間のそれぞれについて生成することを行うようにプログラムされ得る。
【0007】
[0007] 一実施形態では、患者の事象の日付を決定する方法を開示する。この方法は、患者に関連する医療記録を記憶するデータベースにアクセスすることであって、医療記録は非構造化データを含む、こと、患者の事象に関連する医療記録内の情報の複数の断片を識別するために非構造化データを解析すること、複数の断片のそれぞれに関連する日付を決定すること、患者の事象に関連する複数のクエリ期間を識別すること、並びに複数の断片及び関連する日付に基づいてクエリ期間中に患者の事象が生じたかどうかの確率をクエリ期間のそれぞれについて生成することを含み得る。
【0008】
[0008] 開示する他の実施形態と合致して、非一時的コンピュータ可読記憶媒体は少なくとも1つのプロセッサによって実行され、本明細書に記載する方法の何れかを実行するプログラム命令を記憶し得る。
【0009】
図面の簡単な説明
[0009] 本明細書に組み込まれ本明細書の一部を構成する添付図面はこの説明と共に、様々な例示的実施形態の原理を示しそれらを説明する役割を果たす。
【図面の簡単な説明】
【0010】
図1】[0010]本開示と合致する、実施形態を実装するための例示的なシステム環境を示すブロック図である。
図2】[0011]開示する実施形態と合致する、患者のための例示的な医療記録を示すブロック図である。
図3】[0012]開示する実施形態と合致する、患者医療記録の非構造化データ内のテキストの断片を抽出するためのプロセスの一例を示す。
図4】[0013]開示する実施形態と合致する、患者に関連する日付を決定するために解析され得る1組の文書の一例を示す。
図5】[0014]開示する実施形態と合致する、訓練済みモデル並びにモデルに対する入力及び出力の一例の概略図である。
図6】[0015]開示する実施形態と合致する、クエリ日に対するクエリ出力を決定するためのプロセスの一例の概略図である。
図7】[0016]開示する実施形態と合致する、クエリ出力ベクトルに基づいて確率を生成するためのプロセスの一例の概略図である。
図8】[0017]開示する実施形態と合致する、患者情報を抽出するためのプロセスの一例を示す流れ図である。
【発明を実施するための形態】
【0011】
詳細な説明
[0018] 以下の詳細な説明は添付図面を参照する。可能な限り、図面及び以下の説明の中で同じ参照番号を使用して同じ又は同様の部分を指す。幾つかの例示的実施形態を本明細書に記載するが、修正形態、適応形態、及び他の実装形態が可能である。例えば図示のコンポーネントに置換、追加、又は修正を加えることができ、開示する方法についてステップを置換し、並べ替え、除去し、又は追加することにより、本明細書に記載する例示的方法を修正することができる。従って、以下の詳細な説明は開示する実施形態及び例に限定されない。むしろ適切な範囲は添付の特許請求の範囲によって定められる。
【0012】
[0019] 本明細書で開示する実施形態は、コンピュータによって実装される方法、有形の非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータによって実装される方法は、例えば非一時的コンピュータ可読記憶媒体から命令を受信する少なくとも1つのプロセッサ(例えば処理装置)によって実行され得る。同様に、本開示と合致するシステムは少なくとも1つのプロセッサ(例えば処理装置)及びメモリを含むことができ、メモリは非一時的コンピュータ可読記憶媒体であり得る。本明細書で使用するとき、非一時的コンピュータ可読記憶媒体は、少なくとも1つのプロセッサによって読み出し可能な情報又はデータが記憶され得る任意の種類の物理メモリを指す。例はランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、及び他の任意の知られている物理記憶媒体を含む。「memory」及び「computer-readable storage medium」等の単数形の用語は、複数のメモリ及び/又はコンピュータ可読記憶媒体等の複数の構造を更に指す場合がある。本明細書で言及するとき、「メモリ」は別段の定めがない限り任意の種類のコンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、本明細書の実施形態と合致するステップ又は段階をプロセッサに行わせるための命令を含む、少なくとも1つのプロセッサによって実行するための命令を記憶することができる。加えて、コンピュータによって実装される方法を実装する際に1つ又は複数のコンピュータ可読記憶媒体を利用することができる。「コンピュータ可読記憶媒体」という用語は有形のアイテムを含み、搬送波及び過渡信号を除去するものと理解すべきである。
【0013】
[0020] 開示するシステム及び方法は、患者の診断及び治療中の主要な事象に関連する日付を識別するために、患者又は患者集団の医療記録の解析を自動化することができる。例えば研究者、医師、臨床医、又は他のユーザは、特定の疾病と診断された患者並びに推定診断日、又は特定の投薬を受けている患者及びかかる治療に関連する日付を識別することに興味をもち得る。このことは、大規模な集団内の個々の患者に関する様々な決定をEMRの解析に基づいてユーザが効率的に行うことを可能にし得る。例えば研究者は疾病の進行した段階と診断されている患者及び進行した診断の日付を識別することができ、これらの情報は臨床試験又は他の形式のコホートにその患者が含まれる対象であり得るのかを示し得る。
【0014】
[0021] 図1は、以下で詳細に説明する、本開示と合致する実施形態を実装するためのシステム環境100の一例を示す。図1に示すように、システム環境100は、クライアント装置110、データソース120、システム130、及びネットワーク140を含む幾つかのコンポーネントを含み得る。これらのコンポーネントの数及び配置は例示であり、説明目的で示していることが本開示から理解されよう。本開示の教示及び実施形態から逸脱することなしにコンポーネントの他の配置及び数も使用することができる。
【0015】
[0022] 図1に示すように、例示的なシステム環境100はシステム130を含み得る。システム130は、ネットワークを介してエンティティから情報を受信し、情報を処理し、情報を記憶し、ネットワークを介して他のエンティティに情報を表示/伝送するように構成される1つ又は複数のサーバシステム、データベース、及び/又は計算システムを含み得る。従って一部の実施形態では、ネットワークがクラウドによる共有、記憶、及び/又は計算を促進し得る。一実施形態では、システム130が処理エンジン131及び1つ又は複数のデータベース132を含むことができ、それらはシステム130を表す破線によって境界を付けられた領域内に図示されている。処理エンジン131は、1つ又は複数の汎用プロセッサ、例えば中央処理装置(CPU)、グラフィックス処理装置(GPU)等、及び/又は1つ若しくは複数の専用プロセッサ、例えば特定用途向け集積回路(ASIC)、書換可能ゲートアレイ(FPGA)等の少なくとも1つの処理装置を含み得る。
【0016】
[0023] システム環境100の様々なコンポーネントは、メモリ、中央処理装置(CPU)、及び/又はユーザインタフェースを含むハードウェア、ソフトウェア、及び/又はファームウェアのアセンブリを含み得る。メモリは、フロッピディスク、ハードディスク、又は磁気テープを含む磁気記憶域、ソリッドステートディスク(SSD)又はフラッシュメモリ等の半導体記憶域、光ディスク記憶域、又は光磁気ディスク記憶域等の物理記憶媒体によって実装される任意の種類のRAM又はROMを含み得る。CPUは、メモリ内に記憶される1組のプログラム可能命令又はソフトウェアに従ってデータを処理するための1つ又は複数のプロセッサを含み得る。各プロセッサの機能は、単一の専用プロセッサによって又は複数のプロセッサによって提供され得る。更にプロセッサは、デジタル信号プロセッサ(DSP)ハードウェア、又はソフトウェアを実行可能な他の任意のハードウェアを制限なしに含み得る。任意選択的なユーザインタフェースは、ディスプレイモニタ、キーボード、及び/又はマウス等の任意の種類の又は組み合わせの入力/出力装置を含み得る。システム環境100のユーザは、患者データにアクセスする及び/又は患者データを解析することを望み得る任意の個人を包含し得る。従って本開示の全体を通して、開示する実施形態の「ユーザ」への言及は医師、研究者、ヘルスケア機関における品質保証部、及び/又は他の任意の個人等の任意の個人を包含し得る。
【0017】
[0024] システム環境100内で伝送され及び/又はやり取りされるデータはデータインタフェース上で生じ得る。本明細書で使用するとき、データインタフェースはシステム環境100の2つ以上のコンポーネントがそこを横断してデータをやり取りする任意の境界を含み得る。例えば環境100は、ソフトウェア、ハードウェア、データベース、装置、人間、又は上記のものの任意の組み合わせの間でデータをやり取りすることができる。更に、システム環境100のコンポーネント及び関係する実施形態の特徴を実装するためにソフトウェア、プロセッサ、データ記憶装置、及びネットワークの任意の適切な構成を選択できることが理解されよう。
【0018】
[0025] 環境100のコンポーネント(システム130、クライアント装置110、及びデータソース120を含む)は、ネットワーク140を介して互いに又は他のコンポーネントと通信することができる。ネットワーク140はインターネット、有線広域ネットワーク(WAN)、有線ローカルエリアネットワーク(LAN)、無線WAN(例えばWiMAX)、無線LAN(例えばIEEE802.11等)、メッシュネットワーク、モバイル/セルラネットワーク、企業又は私設データネットワーク、ストレージエリアネットワーク、公衆ネットワークを用いた仮想私設ネットワーク、近距離無線通信技法(例えばBluetooth、赤外線等)、又は他の様々な種類のネットワーク通信等、様々な種類のネットワークを含み得る。一部の実施形態では、これらの形態のネットワーク及びプロトコルの2つ以上にわたって通信が行われ得る。
【0019】
[0026] システム130は、データソース120を含む様々なデータソースからネットワーク140を介して伝送されるデータを受信及び記憶し、受信したデータを処理し、処理に基づくデータ及び結果をクライアント装置110に伝送するように構成することができる。例えばシステム130は、データソース120又はネットワーク140内の他のソースから患者データを受信するように構成され得る。一部の実施形態では、患者データは1つ又は複数の医療記録の形で記憶される医療情報を含み得る。各医療記録は特定の患者に関連することができる。データソース120は患者に関する医療情報の多岐にわたるソースに関連し得る。例えばデータソース120は、医師、看護師、相談員、病院、クリニック等、患者の医療提供者を含み得る。データソース120は、放射線又は他のイメージング検査室、血液学検査室、病理検査室等の検査室にも関連し得る。データソース120は保険会社又は他の任意の患者データソースにも関連し得る。
【0020】
[0027] システム130は、ネットワーク140を介して1つ又は複数のクライアント装置110と更に通信することができる。例えばシステム130は、データソース120からの情報の解析に基づく結果をクライアント装置110に提供することができる。クライアント装置110は、ネットワーク140を介してデータを受信又は伝送することができる任意のエンティティ又は装置を含み得る。例えばクライアント装置110は、サーバ又はデスクトップ又はラップトップコンピュータ等の計算装置を含み得る。クライアント装置110は、モバイル装置、タブレット、ウェアラブルデバイス(即ちスマートウォッチ、埋め込み型装置、フィットネストラッカ等)、仮想マシン、IoT装置、又は他の様々な技術等の他の装置も含み得る。一部の実施形態では、クライアント装置110は、特定の属性を有する又は特定の属性に関連している患者、患者が属性に関連した日付、患者に関連する事象の日付、又は患者に関する他の様々な情報等、1人又は複数の患者に関する情報のクエリをシステム130に対してネットワーク140を介して伝送することができる。
【0021】
[0028] 一部の実施形態では、システム130は患者の診断及び/又は治療中の主要な事象に関連する日付を決定するために患者医療記録(又は他の形式の非構造化データ)を解析するように構成され得る。例えばシステム130は、患者が特定の状態(例えば特定の身体領域における転移)と診断された日付、特定の状態に関する試験の日付、特定の状態について患者が陽性反応又は陰性反応を示した日付、特定の治療又は治療の種類(例えば特定の薬の摂取等)の開始日又は終了日、オペ日(例えば手術日等)、又は他の様々な日付を決定するために患者の医療記録を解析することができる。以下で更に説明するように、システム130はこの解析を行うために1つ又は複数の機械学習モデルを使用するように構成され得る。本開示の全体を通して患者医療記録を説明のための例として使用するが、一部の実施形態では状態を示す患者を他の形式の記録から識別するために開示するシステム、方法、及び/又は技法が同様に使用され得ることが理解されよう。
【0022】
[0029] 疾病又は治療に関連する主要な日付及び段階と共に特定の疾病又は治療を効率的に抽出するために、システム130は1人又は複数の患者に関連する医療記録を記憶するデータベースにアクセスするように構成され得る。医療記録は、患者の診断及び/又は治療に関するデータを含む任意の形式の文書を指し得る。一部の実施形態では、患者が複数の医療記録に関連し得る。例えば患者に関連する医者、患者に関連する看護師、患者に関連する理学療法士、病理学者、放射線科医等が患者に関する医療記録をそれぞれ生成することができる。
【0023】
[0030] 図2は、開示する実施形態と合致する患者のための例示的な医療記録200を示すブロック図である。医療記録200はデータソース120から受信され、上記のように患者に関連する日付を識別するためにシステム130によって処理され得る。図2に示すように、データソース120(又は他の場所)から受信される記録は非構造化データ210及び構造化データ220の一方又は両方を含み得る。構造化データ220は、性別、年齢、人種、体重、生命徴候、検査室の結果、診断日、診断の種類、病期分類(例えば請求コード)、治療のタイミング、行った処置、来院日、診療所の種類、保険業者及び開始日、投薬指示、薬の投与、又は患者に関する他の任意の測定可能データ等、患者に関する定量化可能な又は分類可能なデータを含み得る。
【0024】
[0031] 上記で説明したように、治療日又は診断日等の患者に関する決定を行うことに関する情報の多くは患者医療記録の非構造化データ内に記憶され得る。本明細書で使用するとき、非構造化データは医師のメモ又は患者の検査報告書等、定量化できない又は容易に分類できない患者に関する情報を含み得る。例えば非構造化データ210は、治療計画についての医師の記述、来院時に起きたことを記載したメモ、患者の発言又は話、患者の健康についての主観的評価又は記述、放射線報告書、病理報告書、検査報告書等の情報、又は構造化形式で記憶されない他の任意の形式の情報を含み得る。
【0025】
[0032] データソース120から受信されるデータ内で、各患者は、1人若しくは複数のヘルスケア専門家によって又は患者によって生成される1つ又は複数の記録によって表すことができる。例えば患者に関連する医者、患者に関連する看護師、患者に関連する理学療法士等が患者に関する医療記録をそれぞれ生成することができる。一部の実施形態では、1つ又は複数の記録が同じデータベース内で照合され及び/又は同じデータベース内に記憶され得る。他の実施形態では、1つ又は複数の記録が複数のデータベースにわたって分散され得る。一部の実施形態では、記録を記憶すること及び/又は記録に複数の電子データ表現を与えることができる。例えば患者記録は、テキストファイル、ポータブルドキュメントフォーマット(PDF)ファイル、拡張可能なマーク付け言語(XML)ファイル等の1つ又は複数の電子ファイルとして表すことができる。文書がPDFファイル、画像、又はテキストなしの他のファイルとして記憶される場合、電子データ表現は光学的文字認識プロセスから導出される文書に関連するテキストも含み得る。一部の実施形態では、非構造化データが抽出プロセスによって捕捉され得るのに対し、構造化データはヘルスケア専門家によって入力されてもよく又はアルゴリズムを使用して計算されてもよい。
【0026】
[0033] 一部の実施形態では、非構造化データが特定の患者の状態に関連するデータを含み得る。本明細書で使用するとき、患者の「状態」は患者の調子又は健康に関連する任意の属性又は特性を指し得る。例えば患者が特定の病気又は疾病と診断されているかどうか等、状態は患者の診断された状態を指し得る。一部の実施形態では、状態は診断された特定の状態の段階又は状況を指し得る。例えば癌と診断された患者では、状態は癌の特定の転移部位(例えば患者が脳、肝臓、骨、肺、副腎、腹膜、又は他の様々な転移部位における転移と診断されているかどうか)であり得る。
【0027】
[0034] システム130は、様々な患者の状態に関連する日付を抽出するように構成され得る。例えばかかる日付は、状態を発症した、状態が観察された、試験された、診断された、治療された日付、又は状態に関連する他の任意の日付を含み得る。例えば日付は、患者のための特定の治療方針又は療法方針の開始日又は終了日であり得る。本明細書で使用するとき、療法方針(又は治療方針)は特定の疾病又は状態を治療するために用いられる療法を指し得る。例えば療法方針は、患者に対する特定の薬の投与(例えば薬物療法、化学療法等)、外科的処置、遺伝子療法、免疫療法、患者の食物の変更、放射線療法、理学療法、カウンセリング又は心理療法、瞑想、睡眠療法、又は患者に処方され得る他の様々な形式の治療を含み得る。一部の実施形態では、関心のある日付は、選択されているコホートの種類、研究の種類、解析されている状態の種類、又は他の様々な要因等、特定の応用に応じて異なり得る。
【0028】
[0035] 多くの事例において、特定の疾患に関する診断情報又は疾病の段階又は特定の治療に関する治療情報及び主要な日付は非構造化データ内で表されることがあり、患者の医療記録内の特定の日付に明確に結び付けられていない場合がある。例えば転移性の非小細胞肺癌(NSCLC)の患者の診断に関して、医師は診断日の前後の複数のメモの中で診断に言及する場合がある。例えば進行した診断の前に、医師は「NSCLCの症状が見られる。転移の証拠はない」及び「肝臓に転移している可能性あり」等のメモを含める場合がある。進行した診断後の様々な文書は、「肝臓への転移を生体組織検査が示した」及び「転移性のNSCLCの患者」等のフレーズを含み得る。従って従来の技法を使用し、進行した診断又は疾病の段階の正確な日付を自動システムがメモに基づいて確かめることは困難であり得る。疾病に関連する治療情報についても同様の問題が生じ得る。例えば疾病のための特定の治療を開始する前に、医師は疾病の診断を示すメモ及び/又は患者と様々な治療の選択肢が論じられたことを示すメモを含める場合がある。治療を開始した後、患者の記録内の文書は治療に対する反応を示し得るが、治療が開始した特定の日付を示さない場合がある。従って、治療の正確な日付を抽出することも従来の技法を使用しては困難な場合がある。
【0029】
[0036] これらの及び他の困難を克服するために、システム130は関心のある事象に関係するテキストの断片を抽出することができる。上記で論じたように、システム130は特定の事象又は状態に関連する日付を決定するように構成され得る。上記の転移性の非小細胞肺癌に関する患者の診断日の例を受けて、かかる断片は「NSCLCの症状が見られる。転移の証拠はない」、「肝臓に転移している可能性あり」、「肝臓への転移を生体組織検査が示した」、及び「転移性のNSCLCの患者」という断片を含み得る。一部の実施形態では、システム130は特定の事象又は状態に関連するキーワードについて(1組の患者医療記録であり得る)1組の文書に対する探索を行うことができる。例えばシステム130は、患者の状態に関する診断日に関連する断片を抽出するために1つ又は複数の非構造化医療記録文書に対して探索510を行うことができる。NSCLCの診断の場合、関連する用語は「NSCLC」、「肺癌」、「転移している」、「転移」、「転移性」、「広がり」、又は特定の事象に関連し得る他の様々な単語、記号、頭字語、若しくはフレーズを含み得る。これらの文又は断片はトークン化し、一連のトークン化されたベクトルとして表すことができる。これらのトークン化されたベクトルは、対応するベクトル化された文を生成するために処理することができる。
【0030】
[0037] 図3は、開示する実施形態と合致する、患者医療記録の非構造化データ内のテキストの断片を抽出するためのプロセス300の一例を示す。ステップ310で、システム130は特定の事象又は状態に関連するキーワードについて1組の文書に対する探索を行うことができる。この例では、関心のある日付は脳への転移に関する診断日であり得る。従ってキーワードは「脳」、「側頭部」、「後頭部」、「前頭部」、又は脳に一般に関連し得る他の用語を含み得る。従ってシステム130は、ステップ320に示すように非構造化テキスト内の用語322を識別することができる。次いでシステム130は、非構造化データ内の関連用語の周りのテキストの断片を抽出することができる。例えばステップ330に示すように、用語322の周りの断片332を非構造化テキストから抽出することができる。断片の長さ又は構造は様々なやり方で指定することができる。一部の実施形態では、断片332を既定の窓に基づいて定めることができる。例えば断片は、テキスト内の標的用語322の前後の所定の文字数(例えば20文字、50文字、60文字、又は用語の使用に関する脈絡を捕捉するための任意の適切な文字数)に基づいて定めることができる。例えば単語の境界又は文の境界で終わるように(例えば句読点等に基づいて)窓を広げる又は狭めることで断片の端に部分的な単語が含まれないように、単語の境界を考慮するように窓を定めることもできる。一部の実施形態では、窓は既定の単語数又は他の変数に基づいて定めることができる。
【0031】
[0038] これらの文又は断片はトークン化し、一連のトークン化されたベクトル340として表すことができる。例えばシステム130は、用語322をトークン化された用語で置換することができる。これにより、抽出される断片のそれぞれにおいて患者の状態が同じ術語を使用して表現されることが確実にされ得る。例えば「脳」を含む文書及び「大脳」を含む文書はどちらも「_brain_」という用語又は同様のトークンを含む抽出断片をもたらし得る。トークンを使用することは特徴のスパース性を減らすこと、訓練時間を加速すること、及びラベル付きデータのより限られた組を用いてモデルの収束を可能にすることによって機械学習モデルの性能を改善することもできる。それぞれの単語がトークンによって表されるように、断片内の他の単語についても同じトークン化のプロセスを行うことができる。従って各断片は値のベクトルとして表すことができ、値のそれぞれは断片内に含まれる単語のトークン化された表現である。一部の実施形態では、抽出断片が均一の大きさを有するように断片のベクトルが所定の大きさを有し得る。その結果、トークン化された断片のベクトル340を文書から抽出することができる。一部の実施形態では、このことはゲート付き回帰ユニット(GRU)ネットワークとその後に続くアテンションレイヤ及びフィードフォワードレイヤを適用することを含み得る。これらの断片のベクトルを生成するためのプロセスの一例が、本願と同じ出願人に譲渡されている米国特許出願公開第2021/0027894 A1号及び国際公開第2020/092316号の中で記載されている。これらの出願の内容は参照によりその全体を本明細書に援用する。結果として生じるこれらの断片のベクトルは、入力ベクトルとして訓練済み機械学習モデルに入力することができる。
【0032】
[0039] システムは、各入力ベクトル(即ちベクトル化された文)を日付に更に関連させることができる。一部の実施形態では、かかる日付は断片の抽出元の文書に関連する日付を含み得る。或いは又は加えて、他の様々な日付を各入力ベクトルに関連させることができる。例えば断片内の又はその周りのテキストが特定の日付を含む場合、文書日付の代わりにその日付を使用することができる。図4は、開示する実施形態と合致する、患者に関連する日付を決定するために解析され得る1組の文書の一例を示す。この例では、患者が肝転移と診断された又は肝転移の症状を示した日付を決定するために1組の文書410、420、430、440、及び450を解析することができる。解説目的で、各文書の文書日付に対応するタイムライン400に沿って文書410、420、430、440、及び450を示す。文書410、420、430、440、及び450のそれぞれは文書日付に関連し得る。文書日付は文書が作成された日付を指すことができ、文書に関連するメタデータ又は他のデータから抽出することができる。文書が更新された日付、改訂日付、受理日付、刊行日付、又は他の任意の関連日付等、文書日付は文書に関連する他の様々な日付を指すことができる。例えば文書410は2016年5月1日に関連することができ、従って文書410から抽出される断片はこの日付に関連し得る。
【0033】
[0040] 一部の実施形態では、他の様々な日付を断片に関連させることができる。例えば断片内の又はその周りのテキストが特定の日付を含む場合、文書日付の代わりにその日付を使用することができる。図4に示すように、文書450は「2017年2月15日から転移」の断片を含み得る。文書450の日付は2018年3月13日だが、2017年の2月の日付が関心のある日付をより示している可能性がある。従ってこの断片は、2018年の3月の日付の代わりに2017年の2月の日付に関連し得る。一部の実施形態では、特定の打ち切り日460(この場合は2018年2月14日)に対して文書を解析することができ、打ち切り日の後の日付に関連する文書を考慮しないことができる。但し、2018年の3月の日付ではなく2017年の2月の日付を使用することは、文書450の断片をモデルへの入力として含めることを可能にし得る。
【0034】
[0041] その結果生じる入力ベクトル及び関連する入力日は、関心のある事象に関連する特定の疾病及び日付を決定するように構成される訓練済み機械学習モデルに入力することができる。図5は、開示する実施形態と合致する、訓練済みモデル540並びにモデルに対する入力及び出力の一例の概略図である。訓練済みモデル540は、1組のトークン化された断片のベクトル510及び対にされた日付520を入力として受信し、特定の事象が特定の日付の範囲内で生じた確率を示す確率550を出力するように訓練され得る。一部の実施形態では、訓練済みモデル540がフィードフォワードネットワークを含み得る。ニューラルネットワーク、ロジスティック回帰、線形回帰、回帰、ランダムフォレスト、(例えば上記のような)K近傍法(KNN)モデル、K平均法モデル、決定木、コックス比例ハザード回帰モデル、単純ベイズモデル、サポートベクトルマシン(SVM)モデル、勾配ブースティングアルゴリズム、又は他の任意の形式の機械学習モデル若しくはアルゴリズムを含む様々な機械学習アルゴリズムが使用され得る。
【0035】
[0042] 断片のベクトル510は、図3に関して上記で説明したように非構造化データから抽出されるベクトル化された断片として表し得る。例えば断片のベクトル510は、ベクトル化された断片340の形で表すことができる。対にされた日付520は、図4に関して上記で説明したようにベクトル化された断片のそれぞれに関連する日付を表し得る。この例では、断片のベクトル512が対にされた日付522に関連することができ、別の断片のベクトル514は対にされた日付524に関連し得る。対にされた日付520は、断片のベクトル510と同様にベクトル形式で表すことができる。これらの日付は様々なやり方で表すことができる。一部の実施形態では、表し方はYYYY/DD/MM等の標準化された日付形式を含み得る(「YYYY」は年の値を表し、「MM」は月の値を表し、「DD」は日にちの値を表す)。一部の実施形態では、図3に示すように日付は基準日から又は基準日に対して離れている日数として表すことができる。例えば日付は、打ち切り日(例えば上記の日付460)の前後の日数、コホートに関連する日付(例えば特定の診断に関する打ち切り日等)、現在の日付、又は基準点として使用され得る他の任意の日付として表すことができる。
【0036】
[0043] 一部の実施形態では、断片のベクトル510及び対にされた日付520に加えて1つ又は複数のクエリ日530をモデルに入力することができる。各クエリ日は時点であって、訓練済みモデル540がそれに関連して予測を行うべき、時点を表し得る。一部の実施形態では、クエリは均等の間隔をあけられた一連の日付であり得る。例えばクエリは7日間隔てられた一連の日付であり得る。一部の実施形態では、クエリ日530は対にされた日付520を包含するように自動で生成され得る。或いは又は加えて、クエリ日530はユーザの入力に少なくとも部分的に依存し得る。例えばクエリ日530は、ユーザからの入力に基づいてそれぞれ手動で定めることができる。別の例として、ユーザはクエリ日530のための間隔を入力することができ、システム130はユーザによって定められた間隔と共に対にされた日付520を包含するようにクエリ日530を生成することができる。一部の実施形態では、これは(例えばクライアント装置110によって)ユーザインタフェース内に1つ又は複数の要素を提示し、ユーザインタフェースの1つ又は複数の要素によるユーザの入力を受信することを含み得る。毎週のクエリを例として使用するが、他の様々な期間を使用することができる。例えば期間は毎日、数日、隔週、毎月、毎年、又は他の任意の適切な期間とすることができる。
【0037】
[0044] クエリ日530のそれぞれについて、訓練済みモデル540は、関心のある日付がクエリ日に対する或る範囲又は期間内に生じたかどうかの予測を生成することができる。例えばかかる範囲は、クエリ日を包含する範囲(例えばクエリ日の1日以内、5日以内、10日以内、30日以内、又は他の任意の適切な範囲内)、クエリ日の前の範囲、及びクエリ日の後の範囲を含み得る。従って、訓練済みモデル540は断片のベクトル510及び対にされた日付520に基づき、クエリ日530のそれぞれに関連する複数の確率を出力し得る。例えばクエリ日530は、この例では基準日の14日間前の日付であり得るクエリ日532を含み得る。訓練済みモデル540は、関心のある日付がクエリ日532の前に生じたのか、クエリ日532中に(又はクエリ日532の30日以内等、クエリ日532の範囲内で)生じたのか、又はクエリ日532の後で生じたのかを示す1組の確率552を出力し得る。図示の例では、確率552は関心のある日付がクエリ日532(又はクエリ日532を包含する範囲)の前に生じた90%の確率、関心のある日付がクエリ日532(又はクエリ日532を包含する範囲)中に生じた9%の確率、及び関心のある日付がクエリ日532(又はクエリ日532を包含する範囲)の後で生じた1%の確率を含み得る。その結果、モデルは一連のクエリ日にわたる確率の分布を生成することができ、各クエリは関心のある日付がそのクエリ中に生じたかどうかの確率を返す。
【0038】
[0045] 一部の実施形態では、断片のベクトル510は訓練済みモデル540に入力する前に更に処理することができる。例えば所与のクエリの確率を決定するために(例えばクエリ日532の確率552を決定するために)、システム130はクエリに対する幾つかの時間窓の中で断片のベクトル510を解析することができる。一部の実施形態では、かかる解析は窓ごとに1つ又は複数の集約関数を関連する断片に適用することを含み得る。図6は、開示する実施形態と合致する、クエリ日532に対するクエリ出力を決定するためのプロセス600の一例の概略図である。図6に示す例では、クエリ日532に基づいて1つ又は複数のクエリ出力640を生成することができる。そのように生成することは、図示のように一連の時間窓610に対して断片のベクトル510を評価することを含み得る。時間窓は(クエリ日532に対応する)基準日612に対する時間の範囲であり得る。例えば図6に示すように、時間窓はクエリ日の365日以上前、クエリ日の365日前から30日前までの間、クエリ日の30日前から7日前までの間、クエリ日の7日前未満、クエリ日の7日後以内、クエリ日の7日後から30日後までの間、クエリ日の30日後から365日後までの間、及びクエリ日の365日以上後であり得る。これらの時間窓は例として与えており、他の任意の適切な時間窓が使用されてもよい。
【0039】
[0046] それぞれの時間窓について、その時間窓に含まれる入力日に関連する断片のベクトルを1つ又は複数の集約関数に従って解析することができる。例えば集約関数は、sum関数620、mean関数622、及びLogSumExp関数624を含み得る。Sum関数620は、時間窓の中の日付に関連する入力ベクトルのベクトル和を表し得る。例えば行列Mは、モデルに関する入力ベクトルの全てのベクトルとして生成され得る。対応する入力ベクトルが時間窓に含まれるかどうかを要素が示しながら論理行列Dを生成することができ、そのためDMの乗算は関連ベクトルの和をもたらす。
【0040】
[0047] 図6に示す例では、sum関数620、mean関数622、及びLogSumExp関数624が時間窓614に対して実行される。この例では、時間窓614はクエリ日532の7日後からクエリ日532の30日後に及ぶ時間窓を表す。従って時間窓614に対して適用されるとき、sum関数620はクエリ日532の7日後からクエリ日532の30日後に及ぶ日付に関連する任意の断片のベクトルの和になる。この例では、クエリ日532は基準日に対して14日間の日付として表される。従って時間窓614は、基準日に対して21日から基準日に対して44日までの範囲になる。図5に示す断片のベクトル510及び対にされた日付520の例を参照し、対にされた日付522及び524は時間窓614によって定められる範囲に含まれるので、かかる範囲は断片のベクトル512及び514の和を含む。図6に示すように、時間窓614内でsum関数620を適用することは、クエリ出力630をもたらし得る断片のベクトル512及び514の和を生成することを含む。
【0041】
[0048] 同様に、mean関数622は時間窓に関連する入力ベクトルの平均値を表し得る。例えば論理行列Dは2番目の次元に沿ってその和で除算することができ、そのためDMの乗算は関連ベクトルの平均をもたらす。単純にするために図6には不図示だが、時間窓614に対する対応するクエリ出力を生成するためにmean関数622が断片のベクトル512及び514に適用される。LogSumExp関数624は、引数の指数の和の対数として定められるmaximum関数(即ち「RealSoftMax」又は「TrueSoftMax」関数)への平滑近似であり得る。例えばtorch.exp()関数を行列Mに適用することができ、その結果生じる行列を(DMとして)論理行列Dと乗算することができる。結果として生じる出力のtorch.log()関数を適用することができる。時間窓614に対する対応するクエリ出力を生成するためにLogSumExp関数624も断片のベクトル512及び514に適用される。
【0042】
[0049] sum関数620、mean関数622、及びLogSumExp関数624のそれぞれが各時間窓610に対して適用される。その結果、時間窓に関連する入力ベクトルについて複数の集約が時間窓ごとに生成され得る。クエリの出力ベクトルを生成するために、所与のクエリの時間窓ごとにこれを繰り返すことができる。この出力ベクトルは、関心のある日付がクエリ日の範囲(又は日付の範囲)内で生じたかどうかの確率を生成するためにフィードフォワードネットワーク(又は同様の形式の回帰ニューラルネットワーク)に入力することができる。sum関数620、mean関数622、及びLogSumExp関数624を例として示したが、異なる集約関数であること(又は集約関数の組み合わせを使用できること)を当業者なら理解されよう。
【0043】
[0050] 図7は、開示する実施形態と合致する、クエリ出力ベクトルに基づいて確率を生成するためのプロセスの一例の概略図である。図7に示すように、クエリ出力ベクトル710をモデル(即ち訓練済みモデル540)に入力して確率552を生成することができる。クエリ出力ベクトル710は、時間窓610のそれぞれについて断片のベクトル510にsum関数620、mean関数622、及びLogSumExp関数624を適用することに基づいて生成され得る。換言すれば、時間窓610のそれぞれについて、時間窓に含まれる対にされた日付に関連する断片のベクトルにsum関数620、mean関数622、及びLogSumExp関数624を適用することができる。例えばクエリ出力ベクトル710は、図示のように幾つかあるクエリ出力の中で特にクエリ出力532を含む。
【0044】
[0051] 図7に示すように、クエリ出力ベクトル710は訓練済みモデル540に入力することができる。例えば訓練済みモデルは、クエリ日532に対する確率552を生成するためのフィードフォワードネットワーク(又は同様の形式の回帰ニューラルネットワーク)とすることができる。従って、訓練済みモデル540は1組のトレーニングデータを使用して訓練することができ、トレーニングデータは既知の関心のある日付と共に、上記のように断片のベクトル及び関連する日付に基づいて生成される1組のクエリ出力ベクトルで構成され得る。このトレーニングベクトルをトレーニングアルゴリズムに入力して訓練済みモデル540を生成することができる。従って、その後の出力ベクトルを訓練済みモデル540に入力して様々なクエリ日に対する確率を生成することができる。一部の実施形態では、追加のレイヤを適用することができる。例えば訓練済みモデル540はスコア720を出力することができ、スコア720は日付が診断日又は関心のある他の日付と一致するかどうかの等/不等スコアであり得る。これらのスコアは実数値とすることができ、Softmax関数730を使用して確率552に変換することができる。図7に示す様々なレイヤは例として示しており、訓練済みモデル540の出力を操作するための他の可能なレイヤを当業者なら理解されよう。
【0045】
[0052] 確率552は様々な形式で表すことができる。例えば確率は、或る範囲(例えば0~1、0~100等)内の値、パーセンテージ、一連の段階状の値(例えば0、1、2、3等)の中の値、確率のテキストベースの表現(例えば低い確率、高い確率等)等として表すことができる。一部の実施形態では、モデルは関心のある日付がクエリ日内で生じない確率を出力することもでき、この確率は他方の確率の逆のものであり得る。例えば所与のクエリ日に関して、モデルは関心のある日付がクエリ日内で生じる0.98の確率、及び関心のある日付がクエリ日内で生じない0.02の確率を出力し得る。関心のある日付が一連のクエリ日にわたって生じるときの確率を示す確率分布550を生成するために上記のプロセスをクエリごとに繰り返すことができる。患者が特定の疾病と診断されている全体的な確率、分布に関連する信頼水準等、他の様々な出力を生成することができる。
【0046】
[0053] 一部の実施形態では、関心のある複数の日付についてモデルが確率を生成し得る。例えば上記のNSCLCの診断日の例を続け、モデルはクエリ日ごとに、NSCLCの初期診断がそのクエリ日の範囲内で生じたかどうか、及び進行した診断(例えばステージ3b以上、遠隔転移を伴うそれよりも低いステージ等)がそのクエリ日の範囲内で生じたかどうかの確率を出力することができる。従って各クエリの出力ベクトルについて、生成される複数の確率であるように複数のフィードフォワードレイヤを適用することができる。
【0047】
[0054] 開示するシステム及び方法は概して診断に関連する特定の疾病及び日付並びに疾病の様々な状態の例を使用して記載するが、他の事象の日付についても同じ又は同様のプロセスを実行できることを理解すべきである。例えばかかる日付は、特定の治療又は療法の開始日及び終了日、投与量及び日付と共に特定の薬が摂取されたかどうか、行われている特定の診断及び関連する日付等を含み得る。更に、文書の種類、文書の形式、又は文書の他のメタデータ等の他の様々な入力も訓練済みモデルに与えることができる。
【0048】
[0055] 一部の実施形態では、特定の疾病を有する患者のコホートを識別し、疾病の様々な段階及び関連する診断日を識別することによってモデルを訓練することができる。例えばモデルへの入力は、進行したNSCLCに関係するキーワードを含む及び患者のEHR文書から抽出される1組の文を含み得る。文書のタイムスタンプ又はもしある場合は文の中で明確に言及されている日付を使用し、それぞれの文に日付を関連させることができる。文はGRUネットワークによって処理することができ、一連の時点にわたる各診断の確率を予測するように訓練することができ、それは患者が特定の疾病と診断されているかどうか及び特定の疾病と診断されている場合は診断日を抽出するために使用することができる。
【0049】
[0056] 一部の実施形態では、疾病の診断及び治療の両方についてモデルを訓練することができる。例えばモデルへの入力は、疾病の診断に関係するキーワードを有する1つ又は複数の文並びに疾病の治療に関係するキーワードを有する文を含み得る。入力は、疾病の診断及び治療に関連する日付のトレーニングデータセットも含み得る。例えばトレーニングデータセットは疾病(又は疾病の様々な段階)が診断されたときの日付を含み得る。更にトレーニングデータセットは、特定の治療方針が開始した日付並びに治療(例えば投与量の増加、治療の変更等)に関連する他の日付を含み得る。モデルは確率勾配降下法又は1組のラベル付きトレーニングデータを使用してモデルを訓練するための同様の方法を使用して訓練することができる。その結果、訓練済みモデルは特定の疾病及び/又は治療の種類並びに疾病の診断及び治療に関連する日付を抽出するように構成され得る。
【0050】
[0057] 図8は、開示する実施形態と合致する、患者情報を抽出するためのプロセス800の一例を示す流れ図である。プロセス800は、上記の処理エンジン131等の少なくとも1つの処理装置によって実行され得る。本開示の全体を通して、「プロセッサ」という用語は「少なくとも1つのプロセッサ」の略記として使用することを理解すべきである。換言すれば、プロセッサは論理演算を行う1つ又は複数の構造を、かかる構造が一緒に配置されても、接続されても、又は分散されても含み得る。一部の実施形態では、プロセッサによって実行されるときプロセス800をプロセッサに行わせる命令を非一時的コンピュータ可読媒体が含み得る。更に、プロセス800は図8に示すステップに必ずしも限定されず、図3図4図5図6、及び図7に関して上記で記載したものを含め、本開示の全体を通して記載した様々な実施形態の任意のステップ又はプロセスもプロセス800内に含まれ得る。
【0051】
[0058] ステップ810で、プロセス800は患者に関連する医療記録を記憶するデータベースにアクセスすることを含む。例えばシステム130は、ローカルデータベース132から又はデータソース120等の外部データソースからの患者医療記録にアクセスすることができる。医療記録は、テキストファイル、画像ファイル、PDFファイル、XLMファイル、YAMLファイル等の1つ又は複数の電子ファイルを含み得る。1つ又は複数の医療記録は上記で論じた医療記録200に対応し得る。一部の実施形態では、医療記録は非構造化データ210等の非構造化データを含み得る。
【0052】
[0059] ステップ820で、プロセス800は患者の事象に関連する医療記録内の情報の複数の断片を識別するために非構造化データを解析することを含む。例えばこのステップは上記のように断片332を識別することを含み得る。上記で説明したように、患者の事象は患者のケアに関連し得る任意の事象であり得る。例えば患者の事象は診断日、治療日、又はオペ日の少なくとも1つを含み得る。一部の実施形態では、プロセス800は断片のベクトル510等、断片に基づいて複数の断片のベクトルを生成することを更に含み得る。
【0053】
[0060] ステップ830で、プロセス800は複数の断片のそれぞれに関連する日付を決定することを含む。例えばこのステップは、上記で説明したように対にされた日付520を決定することを含み得る。一部の実施形態では、複数の断片のそれぞれに関連する日付を決定することは、断片が含まれる文書のメタデータに基づいて日付を識別することを含み得る。例えば図4に関して上記で説明したように、かかる日付は文書が作成、保存、公開された日付、又は文書に関連する他の様々な日付を含み得る。或いは又は加えて、複数の断片のそれぞれに関連する日付を決定することは、断片内で言及される日付を識別することを含む。例えば診断日又は断片内で論じられる他の事象をより反映し得る日付を断片自体が含む場合がある。
【0054】
[0061] ステップ840で、プロセス800は患者の事象に関連する複数のクエリ期間を識別することを含む。例えばこのステップは、上記で説明したようにクエリ日530を決定することを含み得る。従って複数のクエリ期間を識別することは複数のクエリ日を識別することを含み、複数のクエリ期間はクエリ日のそれぞれに対する少なくとも1つの期間を含む。例えばクエリ日のそれぞれに対する少なくとも1つの期間はクエリ日を包含する期間、クエリ日の前の期間、及びクエリ日の後の期間を含み得る。クエリ日は様々なやり方で識別することができる。一部の実施形態では複数のクエリ日は1週間隔てられた日付であり得るが、他の任意の適切な間隔が使用されてもよい。一部の実施形態では、上記で説明したようにクエリ日、クエリ日の範囲、クエリ日の間隔、又は他の様々な要因がユーザ入力によって指定され得る。従って、患者の事象に関連する複数のクエリ期間を識別することは、ユーザインタフェースを介してクエリ期間に関連する少なくとも1つのユーザ入力を受信することを含み得る。例えばユーザインタフェースは、上記で説明したようにクライアント装置110上で表示され得る。
【0055】
[0062] ステップ850で、プロセス800は複数の断片及び関連する日付に基づいてクエリ期間中に患者の事象が生じたかどうかの確率をクエリ期間のそれぞれについて生成することを含む。例えばこのステップは、上記で説明したように確率550を生成することを含み得る。一部の実施形態では、このステップは図6及び図7に関して記載した様々なステップを含み得る。例えばステップ850は、時間窓610等、複数のクエリ日のそれぞれに対する複数の時間窓にわたる複数の断片を評価することを含み得る。一部の実施形態では、複数の時間窓にわたる複数の断片を評価することが、図6に関して上記でより詳細に説明したように、1つ又は複数の集約関数を使用して時間窓に含まれる日付に関連する断片を複数の時間窓のそれぞれについて処理することを含み得る。例えば1つ又は複数の集約関数は、sum関数、mean関数、又はLogSumExp関数の少なくとも1つを含む。ステップ850は、フィードフォワードネットワーク又は他の形式の訓練済み機械学習モデルに複数の関数の結果(即ちクエリ出力ベクトル710)を入力することを更に含み得る。
【0056】
[0063] 上記の説明は例示目的で示してきた。上記の説明は網羅的ではなく開示した厳密な形態又は実施形態に限定されない。本明細書を検討すること及び開示した実施形態を実践することによって修正及び適応が当業者に明らかになる。加えて、開示した実施形態の側面はメモリ内に記憶されるものとして説明したが、それらの側面は二次記憶装置、例えばハードディスク若しくはCD ROM、又は他の形式のRAM若しくはROM、USBメディア、DVD、Blu-ray、4K Ultra HD Blu-ray、又は他の光ドライブメディア等の他の種類のコンピュータ可読媒体上にも記憶できることを当業者なら理解されよう。
【0057】
[0064] 記載した説明及び開示した方法に基づくコンピュータプログラムは経験を積んだ開発者の技能に含まれる。様々なプログラム又はプログラムモジュールは当業者に知られている技法の何れかを使用して作成することができ、又は既存のソフトウェアに関連して設計することができる。例えばプログラムセクション又はプログラムモジュールは、.Net Framework、.Net Compact Framework(及びVisual Basic、C等の関係する言語)、Java、Python、R、C++、Objective-C、HTML、HTML/AJAXの組み合わせ、XML、又は含まれたJavaアプレットを有するHTMLの中で又はそれらによって設計され得る。
【0058】
[0065] 更に、本明細書では例示的実施形態を記載してきたが、本開示に基づいて当業者によって理解されるように、等価の要素、修正、省略、(例えば様々な実施形態にわたる側面の)組み合わせ、適応及び/又は変更を有する任意の及び全ての実施形態の範囲。特許請求の範囲における制限は、特許請求の範囲の中で使用する言語に基づいて広く解釈されるべきであり、本明細書に記載した例又は本願の遂行中の例に限定されない。それらの例は非排他的と解釈すべきである。更に、開示した方法のステップはステップを並べ替えること及び/又はステップを挿入すること若しくは削除することを含む任意のやり方で修正することができる。従って、本明細書及び例は専ら例示として検討され、真の範囲及び趣旨は添付の特許請求の範囲及びその等価物の全ての範囲によって示されることを意図する。
図1
図2
図3
図4
図5
図6
図7
図8
【国際調査報告】