(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-05
(54)【発明の名称】コホート選択のためのデータリポジトリ、システム、および方法
(51)【国際特許分類】
G16H 20/00 20180101AFI20240829BHJP
【FI】
G16H20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024513211
(86)(22)【出願日】2022-08-31
(85)【翻訳文提出日】2024-04-22
(86)【国際出願番号】 US2022042262
(87)【国際公開番号】W WO2023034453
(87)【国際公開日】2023-03-09
(32)【優先日】2021-08-31
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-09-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】PCT/US2022/032250
(32)【優先日】2022-06-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】PCT/US2022/038941
(32)【優先日】2022-07-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】515059083
【氏名又は名称】ガーダント ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】クマール, ナヴィーン
(72)【発明者】
【氏名】ジャン, ジンウェン
(72)【発明者】
【氏名】スブラマニアン, ニシャ
(72)【発明者】
【氏名】ナヤック, ゴータム
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA21
(57)【要約】
コンピュータが、複数の患者に関する医療保険手続データを記憶する、1つまたはそれを上回る医療データテーブルにアクセスし得る。1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える。コンピュータは、診断列に基づいて、ある生物学的病態を有する、患者のセットを識別し得る。患者のセットは、複数の患者の中からのものであることができる。コンピュータは、患者のセット内の患者毎に、患者が生物学的病態の診断を受けた、最初日を決定し得る。コンピュータは、診断列および日付列に基づいて、患者のコホートを患者のセットから識別し得る。患者のコホートは、患者が生物学的病態の診断を受けた、最初日前の事前に定義された時間窓の間に生じる日付と関連付けられる、生物学的病態の集合からの診断を欠き得る。
【特許請求の範囲】
【請求項1】
処理回路網と、メモリとを備える1つまたはそれを上回るコンピューティング機械において実装される方法であって、前記方法は、
前記処理回路網において、複数の患者の中からの所与の患者に関するデータを記憶する1つまたはそれを上回る医療データリポジトリにアクセスすることであって、前記1つまたはそれを上回る医療データリポジトリは、調剤データ、診療所受診データ、および医療保険手続データを記憶する、ことと、
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する1つまたはそれを上回る生物学的病態および転移状態を識別することと、
前記調剤データ内の1つまたはそれを上回る薬物コードに基づいて、前記所与の患者に関する1つまたはそれを上回る一連の治療を識別することと、
前記医療保険手続データ内の1つまたはそれを上回る保険コードに基づいて、前記所与の患者によって受けられた1つまたはそれを上回る医療手技を識別することと、
前記1つまたはそれを上回る生物学的病態、前記転移状態、前記1つまたはそれを上回る一連の治療、および前記1つまたはそれを上回る医療手技の組み合わせに基づいて、前記所与の患者に関する一次診断生物学的病態を決定することと、
前記一次診断生物学的病態に基づいて、前記所与の患者を患者のコホートに割り当てることと、
前記所与の患者に関する割り当てられたコホートを表す出力を提供することと
を含む、方法。
【請求項2】
前記一次診断生物学的病態を決定することは、
前記医療保険手続データに基づいて、同一治療名および保険コードを有する前記所与の患者に関する2つの連続手技間の時間間隔を示すマスタギャップテーブルを作成することであって、前記マスタギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、
前記マスタギャップテーブルに基づいて、治療名および保険コードの組み合わせ毎に、中央値ギャップを示す中央値ギャップテーブルを算出することであって、前記中央値ギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、
少なくとも部分的に、前記中央値ギャップテーブル内のデータに基づいて、前記一次診断生物学的病態を決定することと
を含む、請求項1に記載の方法。
【請求項3】
前記処理回路網は、複数のマルチスレッドグラフィック処理ユニット(GPU)を備え、前記方法はさらに、
並行して、かつ前記複数のマルチスレッドGPUのパラレルスレッドを使用して、前記複数の患者から、前記所与の患者を含む複数の患者に関する割り当てられたコホートを決定することを含む、
請求項1-2のいずれかに記載の方法。
【請求項4】
前記疾患コードは、国際疾病分類(ICD)コードを備え、
前記薬物コードは、全米医薬品コード(NDC)コードを備え、
前記保険コードは、医療共通治療行為コードシステム(HCPCS)コードを備える、
請求項1-3のいずれかに記載の方法。
【請求項5】
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する前記1つまたはそれを上回る生物学的病態を識別することは、肺癌と関連付けられるICDコードに基づいて、前記所与の患者が肺癌を患っていることを識別することを含む、請求項4に記載の方法。
【請求項6】
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する前記転移状態を識別することは、二次性悪性ICDコードまたはHCPCSコードに基づく、請求項5に記載の方法。
【請求項7】
前記所与の患者に関する前記一次診断生物学的病態は、事前に定義された日付範囲内の日付と関連付けられる疾患コード、薬物コード、または保険コードに基づいて、決定される、請求項1-6のいずれかに記載の方法。
【請求項8】
前記所与の患者を前記コホートに割り当てることは、
前記所与の患者に関する医療保険手続データを含む1つまたはそれを上回るデータテーブルを分析することであって、前記1つまたはそれを上回るデータテーブルは、前記1つまたはそれを上回る医療データリポジトリからのものである、ことと、
前記1つまたはそれを上回るデータテーブル内に含まれる1つまたはそれを上回る第1のコード識別子を含む1つまたはそれを上回る第1の保険手続を決定することであって、前記1つまたはそれを上回る第1のコード識別子は、前記1つまたはそれを上回る生物学的病態に対する前記患者の診断に対応する、ことと、
前記1つまたはそれを上回るデータテーブル内に含まれる1つまたはそれを上回る第2のコード識別子を含む1つまたはそれを上回る第2の保険手続を決定することであって、前記1つまたはそれを上回る第2のコード識別子は、前記患者に対して施術される医療手技に対応し、前記医療手技は、前記診療所受診データからのものである、ことと、
医療ヘッダテーブルを生成することであって、前記医療ヘッダテーブルは、前記1つまたはそれを上回る第1のコード識別子を記憶する第1の列数と、前記1つまたはそれを上回る第2のコード識別子を記憶する第2の列数と、前記1つまたはそれを上回る第1の保険手続の第1の医療保険手続または前記1つまたはそれを上回る第2の保険手続の第2の医療保険手続に対応する複数の行の個々の行を伴う複数の行とを含む、ことと、
前記医療ヘッダテーブルを前記1つまたはそれを上回る医療データリポジトリ内に記憶することと、
前記医療ヘッダテーブル内のデータに基づいて、前記患者に関するコホートを決定することと
を含む、請求項1-7のいずれかに記載の方法。
【請求項9】
前記1つまたはそれを上回る第1の保険手続の個々の第1の保険手続は、前記個々の第1の保険手続の利用日を示し、
前記1つまたはそれを上回る第2の保険手続の個々の第2の保険手続は、前記個々の第2の保険手続の利用日を示す、
請求項8に記載の方法。
【請求項10】
最初利用日を伴う請求が、前記医療ヘッダテーブル内の最初の行であり、最直近利用日を伴う手続が、前記医療ヘッダテーブルの最後の行であるように、前記利用日に基づいて、前記医療ヘッダテーブルの複数の行を昇順で配列することをさらに含む、請求項9に記載の方法。
【請求項11】
前記1つまたはそれを上回る第1のコード識別子を分析し、前記1つまたはそれを上回る第1のコード識別子の第1のコード識別子が、前記1つまたはそれを上回る生物学的病態に対応する保険コード識別子の群内に含まれることを決定することをさらに含む、請求項8-10のいずれかに記載の方法。
【請求項12】
前記第1のコード識別子は、保険コード識別子の第1の分類に対応する第1のフォーマットに従って配列され、
前記保険コード識別子の第1の分類は、国際疾病分類第9版(ICD-9)に対応する、
請求項11に記載の方法。
【請求項13】
前記第1のコード識別子は、保険コード識別子の第2の分類に対応する第2のフォーマットに従って配列され、
前記保険コード識別子の第2の分類は、国際疾病分類第10版(ICD-10)に対応する、
請求項11-12のいずれかに記載の方法。
【請求項14】
前記1つまたはそれを上回る生物学的病態は、複数のサブタイプを含み、
前記複数のサブタイプの個々のサブタイプは、前記1つまたはそれを上回る生物学的病態に対応する前記保険コード識別子の群のサブセットに対応し、
前記方法はさらに、前記第1のコード識別子が、前記生物学的病態の第1のサブタイプに対応する前記保険コードの群の第1のサブセット内に含まれることを決定することを含む、
請求項11-13のいずれかに記載の方法。
【請求項15】
前記生物学的病態は、癌であり、前記複数のサブタイプは、肺癌、乳癌、または結腸直腸癌のうちの少なくとも1つを含む、請求項11-14のいずれかに記載の方法。
【請求項16】
最初利用日で終了する事前に定義された期間内の利用日を有する1つまたはそれを上回る第3の保険手続を決定することと、
前記第1のコード識別子および前記第2のコード識別子に対して前記第3の保険手続の1つまたはそれを上回る第3の保険コード識別子を分析することと
をさらに含む、請求項15に記載の方法。
【請求項17】
前記1つまたはそれを上回る第3の保険コード識別子が、前記第1のコード識別子および前記第2のコード識別子内に含まれないことを決定することと、
前記第3の保険コード識別子に基づいて、前記患者が、その中に前記1つまたはそれを上回る生物学的病態の所与のサブタイプが存在する患者のコホート内に含まれることを決定することと
をさらに含む、請求項16に記載の方法。
【請求項18】
前記1つまたはそれを上回る第3の保険コード識別子は、付加的生物学的病態に対応する、請求項16-17のいずれかに記載の方法。
【請求項19】
前記1つまたはそれを上回る第3の保険コード識別子が、前記保険コード識別子の群のサブセット内に含まれない前記保険コード識別子の群の一部内に含まれることを決定することと、
前記1つまたはそれを上回る第3の保険手続のうちの少なくとも1つの利用日が、前記1つまたはそれを上回る第1の保険手続のうちの1つの利用日と同日であることを決定することと、
前記コード識別子の群内に含まれる保険コード識別子を有する他の付加的保険手続が存在しないことを決定することと、
前記患者が、その中に前記生物学的病態のサブタイプが存在する患者のコホート内に含まれることを決定することと
をさらに含む、請求項16-18のいずれかに記載の方法。
【請求項20】
前記1つまたはそれを上回る第3の保険コード識別子が、前記保険コード識別子の群のサブセット内に含まれない前記保険コード識別子の群の一部内に含まれることを決定することと、
前記1つまたはそれを上回る第3の保険請求のうちの少なくとも1つの利用日が、前記1つまたはそれを上回る第1の保険手続のうちの1つの利用日に先立っており、前記事前に定義された期間内にあることを決定することと、
前記患者が、その中に前記生物学的病態のサブタイプが存在する患者のコホート内に含まれないことを決定することと
をさらに含む、請求項16-19のいずれかに記載の方法。
【請求項21】
処理回路網と、メモリとを備える1つまたはそれを上回るコンピューティング機械において実装される方法であって、前記方法は、
前記処理回路網において、複数の患者に関する医療保険手続データを記憶する1つまたはそれを上回る医療データテーブルにアクセスすることであって、前記1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える、ことと、
前記処理回路網を使用して、かつ前記診断列に基づいて、規定された生物学的病態を患っている患者のセットを識別することであって、前記患者のセットは、前記複数の患者の中からのものである、ことと、
前記患者のセット内の患者毎に、前記患者が前記規定された生物学的病態の診断を受けた最初日を決定することと、
前記処理回路網を使用して、かつ前記診断列および前記日付列に基づいて、患者のコホートを前記患者のセットの中から識別することであって、前記患者のコホートは、前記患者が前記規定された生物学的病態の診断を受けた前記最初日前の事前に定義された時間窓の間に生じる日付と関連付けられる生物学的病態の集合からの診断を欠いている、ことと、
前記コホートを表す出力を提供することと
を含む、方法。
【請求項22】
前記診断列は、国際疾病分類第9版(ICD-9)または国際疾病分類第10版(ICD-10)コードを記憶する、請求項21に記載の方法。
【請求項23】
前記規定された生物学的病態は、肺癌であり、前記生物学的病態の集合は、肺癌と異なる癌を備え、前記最初日前の前記事前に定義された時間窓は、前記最初日前の6ヶ月である、請求項21-22のいずれかに記載の方法。
【請求項24】
前記規定された生物学的病態は、規定されたタイプの癌であり、前記方法はさらに、
前記コホートからの少なくとも1人の患者の転移状態を決定することを含む、
請求項21-23のいずれかに記載の方法。
【請求項25】
前記転移状態は、二次性悪性国際疾病分類(ICD)コードまたは医療共通治療行為コードシステム(HCPCS)コードに基づいて、決定される、請求項24に記載の方法。
【請求項26】
前記コホートを識別することは、
日付別に、前記セット内の患者と関連付けられる行を配列することと、
前記事前に定義された時間窓と関連付けられる行にアクセスし、前記事前に定義された時間窓の間の前記生物学的病態の集合からの診断を欠いている前記セット内の患者を識別することと
を含む、請求項21-25のいずれかに記載の方法。
【請求項27】
機械可読媒体であって、前記機械可読媒体は、命令を記憶しており、前記命令は、1つまたはそれを上回るコンピューティング機械の処理回路網によって実行されると、前記処理回路網に、
前記処理回路網において、複数の患者の中からの所与の患者に関するデータを記憶する1つまたはそれを上回る医療データリポジトリにアクセスすることであって、前記1つまたはそれを上回る医療データリポジトリは、調剤データ、診療所受診データ、および医療保険手続データを記憶する、ことと、
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する1つまたはそれを上回る生物学的病態および転移状態を識別することと、
前記調剤データ内の1つまたはそれを上回る薬物コードに基づいて、前記所与の患者に関する1つまたはそれを上回る一連の治療を識別することと、
前記医療保険手続データ内の1つまたはそれを上回る保険コードに基づいて、前記所与の患者によって受けられた1つまたはそれを上回る医療手技を識別することと、
前記1つまたはそれを上回る生物学的病態、前記転移状態、前記1つまたはそれを上回る一連の治療、および前記1つまたはそれを上回る医療手技の組み合わせに基づいて、前記所与の患者に関する一次診断生物学的病態を決定することと、
前記一次診断生物学的病態に基づいて、前記所与の患者を患者のコホートに割り当てることと、
前記所与の患者に関する割り当てられたコホートを表す出力を提供することと
を含む動作を実施させる、機械可読媒体。
【請求項28】
前記一次診断生物学的病態を決定することは、
前記医療保険手続データに基づいて、同一治療名および保険コードを有する前記所与の患者に関する2つの連続手技間の時間間隔を示すマスタギャップテーブルを作成することであって、前記マスタギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、
前記マスタギャップテーブルに基づいて、治療名および保険コードの組み合わせ毎に、中央値ギャップを示す中央値ギャップテーブルを算出することであって、前記中央値ギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、
少なくとも部分的に、前記中央値ギャップテーブル内のデータに基づいて、前記一次診断生物学的病態を決定することと
を含む、請求項27に記載の機械可読媒体。
【請求項29】
前記処理回路網は、複数のマルチスレッドグラフィック処理ユニット(GPU)を備え、前記方法はさらに、
並行して、かつ前記複数のマルチスレッドGPUのパラレルスレッドを使用して、前記複数の患者から、前記所与の患者を含む複数の患者に関する割り当てられたコホートを決定することを含む、
請求項26-28のいずれかに記載の機械可読媒体。
【請求項30】
前記疾患コードは、国際疾病分類(ICD)コードを備え、
前記薬物コードは、全米医薬品コード(NDC)コードを備え、
前記保険コードは、医療共通治療行為コードシステム(HCPCS)コードを備える、
請求項26-29のいずれかに記載の機械可読媒体。
【請求項31】
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する前記1つまたはそれを上回る生物学的病態を識別することは、肺癌と関連付けられるICDコードに基づいて、前記所与の患者が肺癌を患っていることを識別することを含む、請求項30に記載の機械可読媒体。
【請求項32】
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する前記転移状態を識別することは、二次性悪性ICDコードまたはHCPCSコードに基づく、請求項31に記載の機械可読媒体。
【請求項33】
前記所与の患者に関する前記一次診断生物学的病態は、事前に定義された日付範囲内の日付と関連付けられる疾患コード、薬物コード、または保険コードに基づいて、決定される、請求項27-32のいずれかに記載の機械可読媒体。
【請求項34】
前記所与の患者を前記コホートに割り当てることは、
前記所与の患者に関する医療保険手続データを含む1つまたはそれを上回るデータテーブルを分析することであって、前記1つまたはそれを上回るデータテーブルは、前記1つまたはそれを上回る医療データリポジトリからのものである、ことと、
前記1つまたはそれを上回るデータテーブル内に含まれる1つまたはそれを上回る第1のコード識別子を含む1つまたはそれを上回る第1の保険手続を決定することであって、前記1つまたはそれを上回る第1のコード識別子は、前記1つまたはそれを上回る生物学的病態に対する前記患者の診断に対応する、ことと、
前記1つまたはそれを上回るデータテーブル内に含まれる1つまたはそれを上回る第2のコード識別子を含む1つまたはそれを上回る第2の保険手続を決定することであって、前記1つまたはそれを上回る第2のコード識別子は、前記患者に対して施術される医療手技に対応し、前記医療手技は、前記診療所受診データからのものである、ことと、
医療ヘッダテーブルを生成することであって、前記医療ヘッダテーブルは、前記1つまたはそれを上回る第1のコード識別子を記憶する第1の列数と、前記1つまたはそれを上回る第2のコード識別子を記憶する第2の列数と、前記1つまたはそれを上回る第1の保険手続の第1の医療保険手続または前記1つまたはそれを上回る第2の保険手続の第2の医療保険手続に対応する複数の行の個々の行を伴う複数の行とを含む、ことと、
前記医療ヘッダテーブルを前記1つまたはそれを上回る医療データリポジトリ内に記憶することと、
前記医療ヘッダテーブル内のデータに基づいて、前記患者に関するコホートを決定することと
を含む、請求項27-33のいずれかに記載の機械可読媒体。
【請求項35】
前記1つまたはそれを上回る第1の保険手続の個々の第1の保険手続は、前記個々の第1の保険手続の利用日を示し、
前記1つまたはそれを上回る第2の保険手続の個々の第2の保険手続は、前記個々の第2の保険手続の利用日を示す、
請求項34に記載の機械可読媒体。
【請求項36】
最初利用日を伴う請求が、前記医療ヘッダテーブル内の最初の行であり、最直近利用日を伴う手続が、前記医療ヘッダテーブルの最後の行であるように、前記利用日に基づいて、前記医療ヘッダテーブルの複数の行を昇順で配列することをさらに含む、請求項35に記載の機械可読媒体。
【請求項37】
前記1つまたはそれを上回る第1のコード識別子を分析し、前記1つまたはそれを上回る第1のコード識別子の第1のコード識別子が、前記1つまたはそれを上回る生物学的病態に対応する保険コード識別子の群内に含まれることを決定することをさらに含む、請求項34-36のいずれかに記載の機械可読媒体。
【請求項38】
前記第1のコード識別子は、保険コード識別子の第1の分類に対応する第1のフォーマットに従って配列され、
前記保険コード識別子の第1の分類は、国際疾病分類第9版(ICD-9)に対応する、
請求項37に記載の機械可読媒体。
【請求項39】
前記第1のコード識別子は、保険コード識別子の第2の分類に対応する第2のフォーマットに従って配列され、
前記保険コード識別子の第2の分類は、国際疾病分類第10版(ICD-10)に対応する、
請求項37-38のいずれかに記載の機械可読媒体。
【請求項40】
前記1つまたはそれを上回る生物学的病態は、複数のサブタイプを含み、
前記複数のサブタイプの個々のサブタイプは、前記1つまたはそれを上回る生物学的病態に対応する前記保険コード識別子の群のサブセットに対応し、
前記方法はさらに、前記第1のコード識別子が、前記生物学的病態の第1のサブタイプに対応する前記保険コードの群の第1のサブセット内に含まれることを決定することを含む、
請求項37-39のいずれかに記載の機械可読媒体。
【請求項41】
前記生物学的病態は、癌であり、前記複数のサブタイプは、肺癌、乳癌、または結腸直腸癌のうちの少なくとも1つを含む、請求項37-40のいずれかに記載の機械可読媒体。
【請求項42】
最初利用日で終了する事前に定義された期間内の利用日を有する1つまたはそれを上回る第3の保険手続を決定することと、
前記第1のコード識別子および前記第2のコード識別子に対して前記第3の保険手続の1つまたはそれを上回る第3の保険コード識別子を分析することと
をさらに含む、請求項41に記載の機械可読媒体。
【請求項43】
前記1つまたはそれを上回る第3の保険コード識別子が、前記第1のコード識別子および前記第2のコード識別子内に含まれないことを決定することと、
前記第3の保険コード識別子に基づいて、前記患者が、その中に前記1つまたはそれを上回る生物学的病態の所与のサブタイプが存在する患者のコホート内に含まれることを決定することと
をさらに含む、請求項42に記載の機械可読媒体。
【請求項44】
前記1つまたはそれを上回る第3の保険コード識別子は、付加的生物学的病態に対応する、請求項42-43のいずれかに記載の機械可読媒体。
【請求項45】
前記1つまたはそれを上回る第3の保険コード識別子が、前記保険コード識別子の群のサブセット内に含まれない前記保険コード識別子の群の一部内に含まれることを決定することと、
前記1つまたはそれを上回る第3の保険手続のうちの少なくとも1つの利用日が、前記1つまたはそれを上回る第1の保険手続のうちの1つの利用日と同日であることを決定することと、
前記コード識別子の群内に含まれる保険コード識別子を有する他の付加的保険手続が存在しないことを決定することと、
前記患者が、その中に前記生物学的病態のサブタイプが存在する患者のコホート内に含まれることを決定することと
をさらに含む、請求項42-45のいずれかに記載の機械可読媒体。
【請求項46】
前記1つまたはそれを上回る第3の保険コード識別子が、前記保険コード識別子の群のサブセット内に含まれない前記保険コード識別子の群の一部内に含まれることを決定することと、
前記1つまたはそれを上回る第3の保険請求のうちの少なくとも1つの利用日が、前記1つまたはそれを上回る第1の保険手続のうちの1つの利用日に先立っており、前記事前に定義された期間内にあることを決定することと、
前記患者が、その中に前記生物学的病態のサブタイプが存在する患者のコホート内に含まれないことを決定することと
をさらに含む、請求項42-45のいずれかに記載の機械可読媒体。
【請求項47】
機械可読媒体であって、前記機械可読媒体は、命令を記憶しており、前記命令は、1つまたはそれを上回るコンピューティング機械の処理回路網によって実行されると、前記処理回路網に、
前記処理回路網において、複数の患者に関する医療保険手続データを記憶する1つまたはそれを上回る医療データテーブルにアクセスすることであって、前記1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える、ことと、
前記処理回路網を使用して、かつ前記診断列に基づいて、規定された生物学的病態を患っている患者のセットを識別することであって、前記患者のセットは、前記複数の患者の中からのものである、ことと、
前記患者のセット内の患者毎に、前記患者が前記規定された生物学的病態の診断を受けた最初日を決定することと、
前記処理回路網を使用して、かつ前記診断列および前記日付列に基づいて、患者のコホートを前記患者のセットの中から識別することであって、前記患者のコホートは、前記患者が前記規定された生物学的病態の診断を受けた前記最初日前の事前に定義された時間窓の間に生じる日付と関連付けられる生物学的病態の集合からの診断を欠いている、ことと、
前記コホートを表す出力を提供することと
を含む動作を実施させる、機械可読媒体。
【請求項48】
前記診断列は、国際疾病分類第9版(ICD-9)または国際疾病分類第10版(ICD-10)コードを記憶する、請求項47に記載の機械可読媒体。
【請求項49】
前記規定された生物学的病態は、肺癌であり、前記生物学的病態の集合は、肺癌と異なる癌を備え、前記最初日前の前記事前に定義された時間窓は、前記最初日前の6ヶ月である、請求項47-48のいずれかに記載の機械可読媒体。
【請求項50】
前記規定された生物学的病態は、規定されたタイプの癌であり、前記方法はさらに、
前記コホートからの少なくとも1人の患者の転移状態を決定することを含む、
請求項47-49のいずれかに記載の機械可読媒体。
【請求項51】
前記転移状態は、二次性悪性国際疾病分類(ICD)コードまたは医療共通治療行為コードシステム(HCPCS)コードに基づいて、決定される、請求項50に記載の機械可読媒体。
【請求項52】
前記コホートを識別することは、
日付別に、前記セット内の患者と関連付けられる行を配列することと、
前記事前に定義された時間窓と関連付けられる行にアクセスし、前記事前に定義された時間窓の間の前記生物学的病態の集合からの診断を欠いている前記セット内の患者を識別することと
を含む、請求項47-51のいずれかに記載の機械可読媒体。
【請求項53】
システムであって、
処理回路網と、
メモリであって、前記メモリは、命令を記憶しており、前記命令は、前記処理回路網によって実行されると、前記処理回路網に、
前記処理回路網において、複数の患者の中からの所与の患者に関するデータを記憶する1つまたはそれを上回る医療データリポジトリにアクセスすることであって、前記1つまたはそれを上回る医療データリポジトリは、調剤データ、診療所受診データ、および医療保険手続データを記憶する、ことと、
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する1つまたはそれを上回る生物学的病態および転移状態を識別することと、
前記調剤データ内の1つまたはそれを上回る薬物コードに基づいて、前記所与の患者に関する1つまたはそれを上回る一連の治療を識別することと、
前記医療保険手続データ内の1つまたはそれを上回る保険コードに基づいて、前記所与の患者によって受けられた1つまたはそれを上回る医療手技を識別することと、
前記1つまたはそれを上回る生物学的病態、前記転移状態、前記1つまたはそれを上回る一連の治療、および前記1つまたはそれを上回る医療手技の組み合わせに基づいて、前記所与の患者に関する一次診断生物学的病態を決定することと、
前記一次診断生物学的病態に基づいて、前記所与の患者を患者のコホートに割り当てることと、
前記所与の患者に関する割り当てられたコホートを表す出力を提供することと
を含む動作を実施させる、メモリと
を備える、システム。
【請求項54】
前記一次診断生物学的病態を決定することは、
前記医療保険手続データに基づいて、同一治療名および保険コードを有する前記所与の患者に関する2つの連続手技間の時間間隔を示すマスタギャップテーブルを作成することであって、前記マスタギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、
前記マスタギャップテーブルに基づいて、治療名および保険コードの組み合わせ毎に、中央値ギャップを示す中央値ギャップテーブルを算出することであって、前記中央値ギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、
少なくとも部分的に、前記中央値ギャップテーブル内のデータに基づいて、前記一次診断生物学的病態を決定することと
を含む、請求項53に記載のシステム。
【請求項55】
前記処理回路網は、複数のマルチスレッドグラフィック処理ユニット(GPU)を備え、前記方法はさらに、
並行して、かつ前記複数のマルチスレッドGPUのパラレルスレッドを使用して、前記複数の患者から、前記所与の患者を含む、複数の患者に関する割り当てられたコホートを決定することを含む、
請求項53-54のいずれかに記載のシステム。
【請求項56】
前記疾患コードは、国際疾病分類(ICD)コードを備え、
前記薬物コードは、全米医薬品コード(NDC)コードを備え、
前記保険コードは、医療共通治療行為コードシステム(HCPCS)コードを備える、
請求項53-55のいずれかに記載のシステム。
【請求項57】
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する前記1つまたはそれを上回る生物学的病態を識別することは、肺癌と関連付けられるICDコードに基づいて、前記所与の患者が肺癌を患っていることを識別することを含む、請求項56に記載のシステム。
【請求項58】
前記診療所受診データまたは前記医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、前記所与の患者に関する前記転移状態を識別することは、二次性悪性ICDコードまたはHCPCSコードに基づく、請求項57に記載のシステム。
【請求項59】
前記所与の患者に関する前記一次診断生物学的病態は、事前に定義された日付範囲内の日付と関連付けられる疾患コード、薬物コード、または保険コードに基づいて、決定される、請求項53-58のいずれかに記載のシステム。
【請求項60】
前記所与の患者を前記コホートに割り当てることは、
前記所与の患者に関する医療保険手続データを含む1つまたはそれを上回るデータテーブルを分析することであって、前記1つまたはそれを上回るデータテーブルは、前記1つまたはそれを上回る医療データリポジトリからのものである、ことと、
前記1つまたはそれを上回るデータテーブル内に含まれる1つまたはそれを上回る第1のコード識別子を含む1つまたはそれを上回る第1の保険手続を決定することであって、前記1つまたはそれを上回る第1のコード識別子は、前記1つまたはそれを上回る生物学的病態に対する前記患者の診断に対応する、ことと、
前記1つまたはそれを上回るデータテーブル内に含まれる1つまたはそれを上回る第2のコード識別子を含む1つまたはそれを上回る第2の保険手続を決定することであって、前記1つまたはそれを上回る第2のコード識別子は、前記患者に対して施術される医療手技に対応し、前記医療手技は、前記診療所受診データからのものである、ことと、
医療ヘッダテーブルを生成することであって、前記医療ヘッダテーブルは、前記1つまたはそれを上回る第1のコード識別子を記憶する第1の列数と、前記1つまたはそれを上回る第2のコード識別子を記憶する第2の列数と、前記1つまたはそれを上回る第1の保険手続の第1の医療保険手続または前記1つまたはそれを上回る第2の保険手続の第2の医療保険手続に対応する複数の行の個々の行を伴う複数の行とを含む、ことと、
前記医療ヘッダテーブルを前記1つまたはそれを上回る医療データリポジトリ内に記憶することと、
前記医療ヘッダテーブル内のデータに基づいて、前記患者に関するコホートを決定することと
を含む、請求項53-59のいずれかに記載のシステム。
【請求項61】
前記1つまたはそれを上回る第1の保険手続の個々の第1の保険手続は、前記個々の第1の保険手続の利用日を示し、
前記1つまたはそれを上回る第2の保険手続の個々の第2の保険手続は、前記個々の第2の保険手続の利用日を示す、
請求項60に記載のシステム。
【請求項62】
最初利用日を伴う請求が、前記医療ヘッダテーブル内の最初の行であり、最直近利用日を伴う手続が、前記医療ヘッダテーブルの最後の行であるように、前記利用日に基づいて、前記医療ヘッダテーブルの複数の行を昇順で配列することをさらに含む、請求項61に記載のシステム。
【請求項63】
前記1つまたはそれを上回る第1のコード識別子を分析し、前記1つまたはそれを上回る第1のコード識別子の第1のコード識別子が、前記1つまたはそれを上回る生物学的病態に対応する保険コード識別子の群内に含まれることを決定することをさらに含む、請求項60-62のいずれかに記載のシステム。
【請求項64】
前記第1のコード識別子は、保険コード識別子の第1の分類に対応する第1のフォーマットに従って配列され、
前記保険コード識別子の第1の分類は、国際疾病分類第9版(ICD-9)に対応する、
請求項63に記載のシステム。
【請求項65】
前記第1のコード識別子は、保険コード識別子の第2の分類に対応する第2のフォーマットに従って配列され、
前記保険コード識別子の第2の分類は、国際疾病分類第10版(ICD-10)に対応する、
請求項63-64のいずれかに記載のシステム。
【請求項66】
前記1つまたはそれを上回る生物学的病態は、複数のサブタイプを含み、
前記複数のサブタイプの個々のサブタイプは、前記1つまたはそれを上回る生物学的病態に対応する前記保険コード識別子の群のサブセットに対応し、
前記方法はさらに、前記第1のコード識別子が、前記生物学的病態の第1のサブタイプに対応する前記保険コードの群の第1のサブセット内に含まれることを決定することを含む、
請求項63-65のいずれかに記載のシステム。
【請求項67】
前記生物学的病態は、癌であり、前記複数のサブタイプは、肺癌、乳癌、または結腸直腸癌のうちの少なくとも1つを含む、請求項63-66のいずれかに記載のシステム。
【請求項68】
最初利用日で終了する事前に定義された期間内の利用日を有する1つまたはそれを上回る第3の保険手続を決定することと、
前記第1のコード識別子および前記第2のコード識別子に対して前記第3の保険手続の1つまたはそれを上回る第3の保険コード識別子を分析することと
をさらに含む、請求項67に記載のシステム。
【請求項69】
前記1つまたはそれを上回る第3の保険コード識別子が前記第1のコード識別子および前記第2のコード識別子内に含まれないことを決定することと、
前記第3の保険コード識別子に基づいて、前記患者が、その中に前記1つまたはそれを上回る生物学的病態の所与のサブタイプが存在する患者のコホート内に含まれることを決定することと
をさらに含む、請求項68に記載のシステム。
【請求項70】
前記1つまたはそれを上回る第3の保険コード識別子は、付加的生物学的病態に対応する、請求項68-69のいずれかに記載のシステム。
【請求項71】
前記1つまたはそれを上回る第3の保険コード識別子が、前記保険コード識別子の群のサブセット内に含まれない前記保険コード識別子の群の一部内に含まれることを決定することと、
前記1つまたはそれを上回る第3の保険手続のうちの少なくとも1つの利用日が、前記1つまたはそれを上回る第1の保険手続のうちの1つの利用日と同日であることを決定することと、
前記コード識別子の群内に含まれる保険コード識別子を有する他の付加的保険手続が存在しないことを決定することと、
前記患者が、その中に前記生物学的病態のサブタイプが存在する患者のコホート内に含まれることを決定することと
をさらに含む、請求項68-70のいずれかに記載のシステム。
【請求項72】
前記1つまたはそれを上回る第3の保険コード識別子が、前記保険コード識別子の群のサブセット内に含まれない前記保険コード識別子の群の一部内に含まれることを決定することと、
前記1つまたはそれを上回る第3の保険請求のうちの少なくとも1つの利用日が、前記1つまたはそれを上回る第1の保険手続のうちの1つの利用日に先立っており、前記事前に定義された期間内にあることを決定することと、
前記患者が、その中に前記生物学的病態のサブタイプが存在する患者のコホート内に含まれないことを決定することと
をさらに含む、請求項68-71のいずれかに記載の方法。
【請求項73】
システムであって、
処理回路網と、
メモリであって、前記メモリは、命令を記憶しており、前記命令は、前記処理回路網によって実行されると、前記処理回路網に、
前記処理回路網において、複数の患者に関する医療保険手続データを記憶する1つまたはそれを上回る医療データテーブルにアクセスすることであって、前記1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える、ことと、
前記処理回路網を使用して、かつ前記診断列に基づいて、規定された生物学的病態を患っている患者のセットを識別することであって、前記患者のセットは、前記複数の患者の中からのものである、ことと、
前記患者のセット内の患者毎に、前記患者が前記規定された生物学的病態の診断を受けた最初日を決定することと、
前記処理回路網を使用して、かつ前記診断列および前記日付列に基づいて、患者のコホートを前記患者のセットの中から識別することであって、前記患者のコホートは、前記患者が前記規定された生物学的病態の診断を受けた前記最初日前の事前に定義された時間窓の間に生じる日付と関連付けられる生物学的病態の集合からの診断を欠いている、ことと、
前記コホートを表す出力を提供することと
を含む動作を実施させる、メモリと
を備える、システム。
【請求項74】
前記診断列は、国際疾病分類第9版(ICD-9)または国際疾病分類第10版(ICD-10)コードを記憶する、請求項73に記載のシステム。
【請求項75】
前記規定された生物学的病態は、肺癌であり、前記生物学的病態の集合は、肺癌と異なる癌を備え、前記最初日前の前記事前に定義された時間窓は、前記最初日前の6ヶ月である、請求項73-74のいずれかに記載のシステム。
【請求項76】
前記規定された生物学的病態は、規定されたタイプの癌であり、前記方法はさらに、
前記コホートからの少なくとも1人の患者の転移状態を決定することを含む、
請求項73-75のいずれかに記載のシステム。
【請求項77】
前記転移状態は、二次性悪性国際疾病分類(ICD)コードまたは医療共通治療行為コードシステム(HCPCS)コードに基づいて、決定される、請求項76に記載のシステム。
【請求項78】
前記コホートを識別することは、
日付別に、前記セット内の患者と関連付けられる行を配列することと、
前記事前に定義された時間窓と関連付けられる行にアクセスし、前記事前に定義された時間窓の間の前記生物学的病態の集合からの診断を欠いている前記セット内の患者を識別することと
を含む、請求項73-77のいずれかに記載のシステム。
【請求項79】
機械可読媒体であって、前記機械可読媒体は、命令を記憶しており、前記命令は、1つまたはそれを上回るコンピューティング機械の処理回路網によって実行されると、前記処理回路網に、
請求項1-78のいずれかを実施させる、
機械可読媒体。
【請求項80】
装置であって、
請求項1-78のいずれかを実施するための手段を備える、
装置。
【請求項81】
システムであって、
処理回路網と、
メモリであって、前記メモリは、命令を記憶しており、前記命令は、前記処理回路網によって実行されると、前記処理回路網に、
請求項1-78のいずれかを実施させる、
メモリと
を備える、システム。
【請求項82】
方法であって、請求項1-78のいずれかを実施するための方法。
【請求項83】
方法であって、
1つまたはそれを上回るプロセッサと、メモリとを有するコンピューティングシステムによって、ある数の患者に関する健康保険請求データを取得することであって、前記健康保険請求データは、前記ある数の患者に関するある数の健康保険コードを示す、ことと、
前記コンピューティングシステムによって、前記健康保険請求データを分析し、ある生物学的病態に対応する一次診断を有する前記ある数の患者の患者のコホートを決定することと、
前記コンピューティングシステムによって、前記コホート内に含まれる個々の患者の識別子の番号を決定することであって、前記識別子の番号は、統合データリポジトリ内の前記個々の患者を一意に識別し、前記統合データリポジトリは、前記ある数の患者に関するゲノミクスデータと併せて、健康保険請求データを記憶する、ことと、
前記コンピューティングシステムによって、前記患者のコホートに関するゲノミクスデータを分析し、前記患者のコホート内に含まれる個々の患者に関する1つまたはそれを上回る実世界エビデンス計測値を決定することであって、前記1つまたはそれを上回る実世界計測値は、前記コホート内に含まれる前記個々の患者に対する前記生物学的病態の進行度の程度を示す、ことと、
前記コンピューティングシステムによって、前記患者のコホートに関するゲノミクスデータと併せて、前記1つまたはそれを上回る実世界計測値を分析し、前記コホート内に含まれる前記個々の患者に対する前記生物学的病態の進行度の程度に対応する1つまたはそれを上回るゲノム突然変異を決定することと
を含む、方法。
【請求項84】
前記実世界エビデンス計測値は、前記患者のコホート内に含まれる1人またはそれを上回る第1の患者によって受けられた前記生物学的病態のための1つまたはそれを上回る治療と、前記1人またはそれを上回る第1の患者の死亡日との間の期間、前記患者のコホート内に含まれる1人またはそれを上回る第2の患者によって受けられた1つまたはそれを上回る最初の治療と、前記1人またはそれを上回る第2の患者によって受けられた1つまたはそれを上回る第2の治療との間の期間、または前記患者のコホート内に含まれる1人またはそれを上回る第3の患者によって受けられた1つまたはそれを上回る治療と、前記1人またはそれを上回る第3の患者によって受けられた最後の治療日との間の期間のうちの少なくとも1つを含む、請求項83に記載の方法。
【請求項85】
前記健康保険コードは、ある数の生物学的病態に対応する診断コードを含む、請求項83または84に記載の方法。
【請求項86】
前記健康保険コードは、前記ある数の患者の医療診療に対応するある数の行を含むデータテーブル内に記憶され、個々の医療診療は、1つまたはそれを上回る生物学的病態のための治療に関連して前記ある数の患者の個々の患者に提供される、医療サービス、医療手技、または療法薬のうちの少なくとも1つに対応するある数の健康保険コードを含む、請求項83-85のいずれか1項に記載の方法。
【請求項87】
前記コンピューティングシステムによって、前記1人またはそれを上回る患者の個々の患者に対する前記生物学的病態の進行度の程度または前記1人またはそれを上回る患者内に存在する前記1つまたはそれを上回るゲノム突然変異のうちの少なくとも1つに基づいて、前記コホート内に含まれる1人またはそれを上回る患者に関する1つまたはそれを上回る候補治療を決定することを含む、請求項83-86のいずれか1項に記載の方法。
【請求項88】
前記コンピューティングシステムによって、コホート識別フレームワークに従って、前記健康保険請求データを分析することによって、前記患者のコホートを決定することであって、前記コホート識別フレームワークは、前記患者のコホート内に含むべき1人またはそれを上回る患者を決定するために適用される1つまたはそれを上回るルール、1つまたはそれを上回るスキーム、または論理のうちの少なくとも1つを示す、こと
を含む、請求項83-87のいずれか1項に記載の方法。
【請求項89】
前記コホート識別フレームワークは、第1の生物学的病態に対応する1つまたはそれを上回る第1の健康保険診断コードと、第2の生物学的病態に対応する1つまたはそれを上回る第2の健康保険診断コードとを示し、前記方法は、
前記コンピューティングシステムによって、前記健康保険請求データを分析し、前記患者のコホート内に含むべき前記1つまたはそれを上回る第1の健康保険診断コードを含む健康保険請求記録を有する患者を決定すること
を含む、請求項88に記載の方法。
【請求項90】
前記コンピューティングシステムによって、1つまたはそれを上回る付加的生物学的病態に対応する1つまたはそれを上回る付加的健康保険診断コードが、初期健康保険請求データの日付後の閾値期間内の健康保険請求データ内に存在しないことを決定することであって、前記初期健康保険請求データは、前記1つまたはそれを上回る第1の健康保険診断コードを含む、ことと、
前記コンピューティングシステムによって、前記1人またはそれを上回る患者が、前記生物学的病態に対応する一次診断を有することを決定することと、
前記コンピューティングシステムによって、前記1人またはそれを上回る患者が前記患者のコホート内に含まれることを決定することと
を含む、請求項89に記載の方法。
【請求項91】
前記コンピューティングシステムによって、1つまたはそれを上回る付加的生物学的病態に対応する1つまたはそれを上回る付加的健康保険診断コードが、初期健康保険請求データの日付後の閾値期間内の健康保険請求データ内に存在することを決定することであって、前記初期健康保険請求データは、前記1つまたはそれを上回る第1の健康保険診断コードを含む、ことと、
前記コンピューティングシステムによって、1人またはそれを上回る付加的患者が、前記生物学的病態を含まない付加的生物学的病態に対応する一次診断を有することを決定することと、
前記コンピューティングシステムによって、前記1人またはそれを上回る付加的患者が前記患者のコホートから除外されるべきであることを決定することと
を含む、請求項89に記載の方法。
【請求項92】
前記生物学的病態は、第1の形態の癌であり、前記付加的生物学的病態は、第2の形態の癌であり、前記方法は、
前記コンピューティングシステムによって、前記1人またはそれを上回る付加的患者が転移している癌を患っていることを決定すること
を含む、請求項91に記載の方法。
【請求項93】
前記コンピューティングシステムによって、診断データテーブルを生成することであって、前記診断データテーブルは、前記ある数の患者の個々の患者に対応する個々の行と、前記個々の行に関連する前記個々の患者に対する生物学的病態の1つまたはそれを上回る診断を示す個々の行とを伴う複数の行を含む、こと
を含む、請求項83-92のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権の主張および参照による組み込み)
本願は、その全内容が、それぞれ、それらの全体として、参照することによって本明細書に組み込まれる、2021年8月31日に出願され、「Data Repository, System, and Method for Cohort Selection」と題された、米国仮特許出願第63/238,851号、2021年9月30日に出願され、「Computer Architecture for Generating a Reference Data Table」と題された、米国仮特許出願第63/250,912号、2022年6月3日に出願され、「Computer Architecture for Generating an Integrated Data Repository」と題された、PCT出願第PCT/US2022/032250号、2022年7月29日に出願され、「Computer Architecture for Identifying Lines of Therapy」と題された、PCT出願第PCT/US2022/038941号の優先権を主張する。
【0002】
実装は、コンピュータアーキテクチャに関する。いくつかの実装は、医療病態および疾患を含む、生物学的病態の治療および進行度を監視するためのコンピュータシステムの使用に関する。いくつかの実装は、コホート選択のためのデータリポジトリ、システム、および方法に関する。
【背景技術】
【0003】
精密医療は、人物毎に、遺伝子、環境、および生活様式のうちの1つまたはそれを上回るものにおける個々の変動性を考慮する、疾患治療および防止のための新興アプローチである。本アプローチは、医師および研究者が、どの特定の疾患に関する治療および防止方略がどの人々の群において効果を発揮するであろうかをより正確に予測することを可能にし得る。これは、個人間の差異を殆ど考慮しない、疾患治療および防止方略が平均的人物のために開発される、汎用的アプローチと対照的である。癌等のいくつかの生物学的病態に関して、異なる人々が、非常に異なる治療を受ける。類似生物学的病態(例えば、医療病態、疾患、または遺伝子プロファイル)を有する、患者のコホートを識別することは、生物学的病態の治療または進行度を研究するために望ましくあり得る。
【0004】
患者が、医療処置を受けるとき、医療サービス提供者は、患者によって受けられる治療を示す、医療記録を生成する。加えて、医療記録は、患者に対応する、1つまたはそれを上回る診断を示し得る。医療記録内に含まれる、情報は、典型的には、複雑であって、/または洞察が患者に提供される医療治療に関して決定され得るように、分析することが困難である。
【発明の概要】
【課題を解決するための手段】
【0005】
詳細な説明
以下の説明および図面は、当業者がそれらを実践することを可能にするために、具体的実装を十分に例証する。他の実装は、構造的、論理的、電気的、プロセス上の、および他の変更を組み込んでもよい。いくつかの実装の部分および特徴は、他の実装のものの中に含まれる、またはそれで代用されてもよい。請求項に記載される実装は、それらの請求項の全ての利用可能な均等物を包含する。
【図面の簡単な説明】
【0006】
【
図1】
図1は、その中にコホート選択が実装され得る、例示的システムを図示する。
【0007】
【
図2】
図2は、1つまたはそれを上回る実装による、情報を抽出するために保険請求データの処理の実施例を図示する。
【0008】
【
図3】
図3は、1つまたはそれを上回る実装による、記憶され得る、患者情報の実施例を図示する。
【0009】
【
図4】
図4は、1つまたはそれを上回る実装による、原発性肺癌患者を識別するための例示的方法のフローチャートである。
【0010】
【
図5】
図5は、1つまたはそれを上回る実装による、原発性肺癌患者および希少症例を識別するための例示的方法のフローチャートである。
【0011】
【
図6】
図6は、1つまたはそれを上回る実装による、最後の有効日を識別するための例示的方法のフローチャートである。
【0012】
【
図7】
図7は、1つまたはそれを上回る実装による、患者をコホートに割り当てることと関連付けられる、第1の例示的プロセスのフローチャートである。
【0013】
【
図8】
図8は、1つまたはそれを上回る実装による、患者をコホートに割り当てることと関連付けられる、第2の例示的プロセスのフローチャートである。
【0014】
【
図9】
図9は、1つまたはそれを上回る実装による、患者のコホートを識別することと関連付けられる、例示的プロセスのフローチャートである。
【0015】
【
図10】
図10は、1つまたはそれを上回る実装による、例示的医療データテーブルを図示する。
【0016】
【
図11】
図11は、1つまたはそれを上回る実装による、複数のタイプの保健医療データを含む、統合データリポジトリを生成するための例示的アーキテクチャを図示する。
【0017】
【
図12】
図12は、1つまたはそれを上回る実装による、統合データリポジトリ内のデータテーブルの配列に対応する、例示的フレームワークを図示する。
【0018】
【
図13】
図13は、1つまたはそれを上回る実装による、ある数のソースからの健康関連データを統合するデータリポジトリから読み出された情報から1つまたはそれを上回るデータセットを生成するためのアーキテクチャを図示する。
【0019】
【
図14】
図14は、1つまたはそれを上回る実装による、非特定化された健康保険請求データと、非特定化されたゲノミクスデータとを含む、統合データリポジトリを生成するためのアーキテクチャを図示する。
【0020】
【
図15】
図15は、いくつかの実装による、統合データリポジトリによって記憶されるデータに基づいて、データパイプラインシステムによってデータセットを生成するためのフレームワークを図示する。
【0021】
【
図16】
図16は、1つまたはそれを上回る実装による、生物学的病態の少なくとも一次診断を有する、患者のコホートを決定するためのシステムを図示する。
【0022】
【
図17】
図17は、1つまたはそれを上回る実装による、コンピューティング機械のブロック図である。
【発明を実施するための形態】
【0023】
上記に議論されるように、類似生物学的病態(例えば、医療病態または疾患)を有する、患者のコホートを識別することは、生物学的病態の治療または進行度を研究するために望ましくあり得る。いくつかの実装は、医療データ、調剤データ、および/または保険手続データに基づいて、患者のコホートを識別することを対象とする。いくつかの実装では、コンピュータが、複数の患者に関する医療保険手続データを記憶する、1つまたはそれを上回る医療データテーブルにアクセスする。1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える。コンピュータは、診断列に基づいて、規定された生物学的病態(例えば、肺癌)を有する、患者のセットを識別する。患者のセットは、複数の患者の中からのものである。コンピュータは、患者のセット内の患者毎に、患者が規定された生物学的病態の診断を受けた、最初日(例えば、患者が肺癌と診断された、最初日)を決定する。コンピュータはまた、医療データテーブル内に含まれる、診断コードに基づいて、患者のコホートを患者のセットの中から識別する。1つまたはそれを上回る実施例では、患者のコホートは、1つまたはそれを上回る付加的生物学的病態が患者に対して診断された、タイミングに対する、診断が記録された、タイミングに基づいて決定されてもよい。例えば、複数の生物学的病態が、ある時間窓内において、ある患者に関して診断された、状況では、患者は、複数の診断を有する、患者を含む、コホート内に設置され得る。加えて、単一診断が、事前に定義された時間窓内において、患者に関して識別され、診断が、患者に関する第1の診断である、状況では、コンピュータは、患者が、単一診断に関連する生物学的病態に対応する、コホート内に含まれることを決定し得る。コンピュータは、コホートを表す、出力を提供する。
【0024】
本技術の側面は、コンピュータシステムの一部として実装されてもよい。コンピュータシステムは、1つの物理的機械であってもよい、または役割または機能別に、もしくはクラウドコンピューティング分散型モデルの場合、プロセススレッド別に等、複数の物理的機械間に分散されてもよい。種々の実装では、本技術の側面は、ひいては、1つまたはそれを上回る物理的機械上で実行される、仮想機械内で起動するように構成されてもよい。本技術の特徴は、様々な異なる好適な機械実装によって実現され得ることが、当業者によって理解されるであろう。
【0025】
本システムは、それぞれ、機能または機能のセットを施行するように構築、プログラム、構成、または別様に、適合される、種々のエンジンを含む。本明細書で使用されるような用語「エンジン」は、例えば、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)等によって、ハードウェアを使用して、またはプロセッサベースのコンピューティングプラットフォームと、コンピューティングプラットフォームを特殊目的デバイスに転換し、特定の機能性を実装する、プログラム命令のセット等とによって、ハードウェアとソフトウェアの組み合わせとして、実装される、有形デバイス、コンポーネント、またはコンポーネントの配列を意味する。エンジンはまた、ハードウェアのみによって促進される、ある機能と、ハードウェアとソフトウェアの組み合わせによって促進される、他の機能とを伴う、2つの組み合わせとして実装されてもよい。
【0026】
ある実施例では、ソフトウェアは、有形機械可読記憶媒体上に実行可能または非実行可能形態において常駐してもよい。非実行可能形態において常駐する、ソフトウェアは、ランタイムに先立って、またはその間、実行可能形態にコンパイル、翻訳、または別様に、変換されてもよい。ある実施例では、ソフトウェアは、エンジンの下層ハードウェアによって実行されると、ハードウェアに、規定された動作を実施させる。故に、エンジンは、物理的に構築され、または具体的に構成(例えば、有線配線)され、もしくは一時的に構成(例えば、プログラム)され、規定された様式において動作する、またはそのエンジンと関連する本明細書に説明される任意の動作の一部または全てを実施する。
【0027】
その中でエンジンが一時的に構成される、実施例を検討すると、エンジンはそれぞれ、異なる瞬間にインスタンス化されてもよい。例えば、エンジンが、ソフトウェアを使用して構成される、汎用ハードウェアプロセッサコアを備える場合、汎用ハードウェアプロセッサコアは、異なる時間において、個別の異なるエンジンとして構成されてもよい。ソフトウェアは、故に、ハードウェアプロセッサコアを構成し、例えば、ある時間のインスタンスにおいて、特定のエンジンを構成し、異なる時間のインスタンスにおいて、異なるエンジンを構成してもよい。
【0028】
ある実装では、エンジンの少なくとも一部、ある場合には、全てが、オペレーティングシステム、システムプログラム、およびアプリケーションプログラムを実行する一方、また、マルチタスク、マルチスレッド、必要に応じて、分散型(例えば、クラスタ、ピアツーピア、クラウド等)処理または他のそのような技法を使用して、エンジンを実装する、1つまたはそれを上回るコンピュータのプロセッサ上で実行されてもよい。故に、各エンジンは、様々な好適な構成において実現されてもよく、概して、本明細書に例示される任意の特定の実装に、そのような限定が明示的に宣言されない限り、限定されるべきではない。
【0029】
加えて、エンジン自体は、それぞれ、それ自体でエンジンと見なされ得る、1つを上回るサブエンジンから成ってもよい。さらに、本明細書に説明される実装では、種々のエンジンはそれぞれ、定義された機能性に対応する。しかしながら、他の検討される実装では、各機能性は、1つを上回るエンジンに分散されてもよいことを理解されたい。同様に、他の検討される実装では、複数の定義された機能性は、それらの複数の機能を、可能性として、他の機能と並んで実施する、単一エンジンによって実装されてもよい、またはエンジンのセットの中で、本明細書の実施例に具体的に図示されるものと異なるように分散されてもよい。
【0030】
本明細書で使用されるように、用語「モデル」は、その平易かつ通常の意味を包含する。モデルは、とりわけ、入力を受信し、入力に基づいて、出力を算出する、1つまたはそれを上回るエンジンを含んでもよい。出力は、分類であってもよい。例えば、画像ファイルが、ネコを描写するもの、またはネコを描写しないものとして分類されてもよい。代替として、画像ファイルは、画像ファイルがネコを描写するかどうかの尤度を示す、数値スコアを割り当てられてもよく、閾値(例えば、0.9または0.95)を超えるスコアを伴う、画像ファイルは、ネコを描写すると決定されてもよい。
【0031】
本書は、具体的数のモノ(例えば、「6つのモバイルデバイス」)を参照し得る。別様に明示的に記載されない限り、提供される数は、例示にすぎず、所与の状況に関して意味を成すであろうように、任意の正の整数、整数、または実数と置換されてもよい。例えば、「6つのモバイルデバイス」は、代替実装では、任意の正の整数のモバイルデバイスを含んでもよい。別様に述べられない限り、単数形において参照される物体(例えば、「コンピュータ(a computer)」または「コンピュータ(the computer)」)は、1つまたは複数の物体を含んでもよい(例えば、「コンピュータ」は、1つまたは複数のコンピュータを指し得る)。
【0032】
図1は、その中にコホート選択が実装され得る、例示的システム100を図示する。示されるように、システム100は、ネットワーク130を介して相互と接続される、データリポジトリ110と、サーバ120と、クライアントコンピューティングデバイス140とを含む。ネットワーク130は、有線ネットワーク、無線ネットワーク、ローカルエリアネットワーク、広域ネットワーク、仮想プライベートネットワーク、インターネット、イントラネット、Wi-Fiネットワーク、セルラーネットワーク、および同等物のうちの1つまたはそれを上回るものを含んでもよい。データリポジトリ110、サーバ120、およびクライアントコンピューティングデバイス140はそれぞれ、
図17に示される、コンピューティング機械1700のコンポーネントの全てまたは一部を含んでもよい。
【0033】
データリポジトリ110は、データベースまたは他のデータ記憶ユニットであってもよい。データリポジトリ110は、健康保険請求データ、医療データ、調剤データ、遺伝子データ、および同等物を記憶してもよい。データリポジトリ110は、単一データリポジトリまたは複数のデータリポジトリを含んでもよい。データリポジトリ110は、本明細書に説明されるデータ、例えば、
図2、
図3、および
図10に示されるデータのいずれかを記憶してもよい。データリポジトリ110は、
図11に示される、付加的データリポジトリ1110、健康保険請求データリポジトリ1106、参照情報データリポジトリ1112、分子データリポジトリ1108、および統合データリポジトリ1104内に記憶される、データを含んでもよい。
【0034】
クライアントコンピューティングデバイス140は、ラップトップコンピュータ、デスクトップコンピュータ、携帯電話、タブレットコンピュータ、スマートウォッチ、処理回路網と、メモリとを含む、スマートテレビ、および同等物のうちの1つまたはそれを上回るものを含んでもよい。サーバ120は、例えば、サーバファーム内に配列される、1つまたはそれを上回るサーバを含んでもよい。サーバ120は、例えば、
図4-9に示されるように、本明細書に説明されるプロセスのうちの1つまたはそれを上回るものを実施してもよい。
【0035】
図示されるように、データリポジトリ110およびサーバ120は全て、ネットワーク130に接続され、ネットワーク130を経由して、相互と通信する。代替実装では、データリポジトリ110のうちの1つまたはそれを上回るものは、ネットワーク130を通さずに、直接、サーバ120に接続されてもよい(例えば、直接有線または無線接続を使用して)。直接、サーバ120に接続される、データリポジトリは、ネットワーク130に接続される場合とそうではない場合がある。
【0036】
精密医療は、ある生物学的病態の治療において、ますます顕著な役割を果たしつつある。標準処置標的化療法を用いて治療可能である、稀な発癌性ドライバ突然変異を伴う、多様な患者亜群が、現在、識別されている。
【0037】
治療を通した患者の疾患進行度を理解するために、一次診断、続発/転移、分子結果、一連の治療、および患者上で実施される手技を考慮することが有用であり得る。
【0038】
現在、本情報は、医療ヘッダ内のコードとしての患者の保険請求記録、診療概要、および調剤記録内に存在する。データは、多くの列を横断して散乱され、実世界エビデンスとして役立ち得る、情報の種類をクエリおよび導出することが困難である。例えば、コードは、それらがクエリにおいて有意義に使用され得る前に、複数の転換のステップを経る必要がある。
【0039】
図2は、情報を抽出するための保険請求データの処理200の実施例を図示する。処理200は、動作202から開始し、保険請求データ内に含まれる、全米医薬品コード(NDC)コードを識別する。NDCコードは、生物学的病態を治療するために使用される、薬物を示すことができる。NDCコードは、1つまたはそれを上回る規定されたフォーマットを有することができ、保険請求データは、1つまたはそれを上回る規定されたフォーマットに対して分析され、保険請求データ内のNDCコードを識別することができる。加えて、NDCコードは、保険請求データの1つまたはそれを上回る規定された列内に位置することができる。1つまたはそれを上回る実施例では、1つまたはそれを上回る規定された列は、解析されることができ、その中に値が存在する、行は、識別されることができる。NDCコードは、次いで、保険請求データから抽出されることができる。動作204では、NDCコードが、薬物名情報を取得するために使用されることができ、動作206では、NDCコードが、薬物クラス情報を取得するために使用されることができる。薬物名情報および薬物クラス情報は、1つまたはそれを上回るアプリケーションプログラミングインターフェースを使用してアクセス可能である、データリポジトリによって、記憶されることができる。
【0040】
動作208では、保険請求データが、分析され、所与の薬物に関する開始および停止日を決定することができる。ブロック210では、保険請求データが、分析され、癌等の生物学的病態に関連する患者を治療するために提供される、薬物を決定することができる。種々の実施例では、NDCコードが、分析され、生物学的病態を治療するために患者に提供される、薬物を識別することができる。ブロック212では、開始日が、所与の生物学的病態に関連する患者に提供される、薬物に関して決定される。ブロック214では、薬物の組み合わせが、決定される。例えば、保険請求データが、分析され、生物学的病態を治療するために患者に提供され得る、複数の薬物を決定することができる。(薬物と保険請求の)組み合わせは、ブロック216において、一次診断に対してランク付けされ、ブロック218において、試験(例えば、Guardant Health, Inc., of Redwood City, CaliforniaによるGuardant 360(G360)試験)に対してランク付けされる。
【0041】
データセットが、構築されるにつれて(例えば、処理200を使用して)、いくつかの実装は、(i)NDCコードを一連の治療に、(ii)国際疾病分類(ICD)第9版(ICD-9)およびICD-10コードを一次診断および転移に、および(iii)医療共通治療行為コードシステム(HCPCS)、ICD-10、介護サービス(PCS)、および現行医療行為用語(CPT)コードを手技に転換する際に使用される、論理を形式化する。構築されたデータセットは、所与の生物学的病態(例えば、肺癌)を一次診断としてそれらの保険請求記録内に有する、生物学的/医療データリポジトリ(例えば、データベース)内の患者のサブセットを含んでもよい。本サブセットに関して、いくつかの実装は、診断、治療、手技、およびゲノム試験を含む、患者情報をソートする。
【0042】
図3は、いくつかの実装による、(例えば、データリポジトリ内に)記憶され得る、患者情報300の実施例を図示する。示されるように、患者情報300は、診断302と、治療304と、手技306と、ゲノム試験308とを含む。
【0043】
いくつかの実装は、導出されたフィールドまたは導出されたコンテンツのためのフレームワークを構築し、経時的に進化させようと試行する。保健医療データは、乱雑かつ不完全であり得る。保健医療データは、診断コードと、治療情報と、日付とを含み得る。それにもかかわらず、高度な信頼度を伴って、貴重なコンテキスト情報を導出し、患者の癌の経歴を提示するための能力は、実世界エビデンスにとって有望である。いくつかの実装は、患者に関する実世界エビデンス、計測値、および転帰を生成するために使用され得る、保険請求データから抽出すべき情報およびそれらを有意義なより高次の概念に転換する方法を説明する。
【0044】
所与の生物学的病態、例えば、肺癌に関するデータセットは、一次診断として肺癌を患う、全体的データセット内の患者のサブセットである。いくつかの実装は、医療ヘッダを検討する。患者は、複数の医療ヘッダ記録を有し得、各行は、1つの請求を表す。各請求は、複数の診断コードを有してもよい。診断は、ICD-9またはICD-10コードであることができる。単一請求は、IDC-9またはICD-10コードのいずれかを有してもよい、すなわち、両方の混合物が同一請求内に存在する場合がある。いくつかの実装では、列icd_typeまたは別のコードが、ICD-9またはICD-10であるかどうかを識別するために使用されてもよい。列claim_dateが、6ヶ月ブラックアウト期間論理のために使用されるであろう。
【0045】
図4は、いくつかの実装による、原発性肺癌患者(または別の一次診断を伴う患者)を識別するための例示的方法400のフローチャートである。方法400は、他の診断のセットと結合されるべきではない、他のタイプの診断のために調節されてもよい。例えば、方法400は、インフルエンザと以前に診断されていない、肺炎と診断された、患者を識別するために使用されてもよい。
【0046】
ブロック402では、コンピューティング機械(例えば、コンピューティング機械1700)が、保険手続と関連付けられる、記録をソートする。いくつかの実装では、コンピューティング機械は、手続日または請求日に関する列を使用して、患者の医療ヘッダを昇順でソートする。ソートの1つの目的は、肺癌診断の、それが存在する場合、最初の発現を識別することである。
【0047】
ブロック404では、コンピューティング機械が、所与の患者に関して、肺癌を示すヘッダ(例えば、ICDコードC34%またはC33%)がソートされた保険手続内に存在するかどうかを決定する。いくつかの実装では、ある診断コード列内の値が、分析され、C34またはC33コードもしくは162コードがこれらの列内に存在するかどうかを決定する。肺癌を示すヘッダは、ICD-9またはICD-10コード、例えば、ICDコードC34「気管支および肺の悪性新生物」、ICDコードC33「気管の悪性新生物」、またはICDコード162「気管、気管支、および肺の悪性新生物」に基づいて、識別されてもよい。そのようなコードが、存在しない場合、ブロック410では、コンピューティング機械が、所与の患者が肺癌患者ではないことを決定する。そのようなヘッダが、存在する場合、方法400は、ブロック406に継続する。
【0048】
ブロック406では、コンピューティング機械が、肺癌と異なる別の癌(例えば、乳癌、前立腺癌、皮膚癌、および同等物)を示すヘッダが、肺癌を示す患者の(時間的に)最も最初のヘッダと関連付けられる、手続日から6ヶ月以内に生じたかどうかを決定する。例えば、コンピューティング機械は、ブロック404において識別された最初の肺癌関連コードに先立った6ヶ月間に生じた、診断列内で任意の癌関連ICD-10またはICD-9コードを探してもよい。ICD-10癌コードは、C00から始まり、C76で終わり得る。ICD-9癌コードは、番号140から始まり、195で終わる、すなわち、140-195を有し得る。そのようなヘッダが、識別される場合、ブロック412では、コンピューティング機械が、これが原発性肺癌患者ではない(例えば、患者の肺に転移した別の癌である)ことを決定する。そのようなコードが、識別されない場合、ブロック408では、コンピューティング機械が、これが原発性肺癌患者であることを決定する。ブロック408、ブロック410、またはブロック412後、方法400は、終了する。
【0049】
いくつかの実装は、希少症例の処理に関する。C34%コードおよび別の癌コードが、同一の最初の請求内に存在するとき、いくつかの実装は、本患者を原発性肺癌患者として含んでもよい。非癌コードを有する、患者に関する、同一請求日を伴う、C34%コード請求および別の請求が、存在するとき、いくつかの実装は、患者を原発性肺癌患者として含んでもよい。6ヶ月以内に別の癌請求、次いで、9ヶ月後、肺癌に関する請求を有する、34%コード請求が、存在するとき、いくつかの実装は、肺癌診断の最初の発現を探し、その日付前に、6ヶ月ウォッシュアウト期間を適用するため、いくつかの実装は、本患者を原発性肺癌患者として含み得ない。
【0050】
図5は、いくつかの実装による、原発性肺癌患者および希少症例を識別するための例示的方法500のフローチャートである。希少症例は、ユーザの必要性に応じて、原発性肺癌患者として、または非原発性肺癌患者としてのいずれかと見なされ得る。
【0051】
ブロック502では、コンピューティング機械(例えば、コンピューティング機械1700)が、所与の患者に関する保険手続をソートする。
【0052】
ブロック504では、コンピューティング機械が、C34%、C33%、または162ICDコードが存在するかどうかを決定する。該当しない場合、ブロック506では、コンピューティング機械が、所与の患者が肺癌患者ではないことを決定する。ブロック506後、方法500は、終了する。該当する場合、方法500は、ブロック508に継続する。
【0053】
ブロック508では、コンピューティング機械が、同一手続または同一日付上において、別のC%が存在するかどうかを決定する。該当する場合、所与の患者は、ブロック510において、希少症例として標識される。ブロック510後、方法500は、ブロック512に継続する。該当しない場合、方法500は、ブロック512に継続する。
【0054】
ブロック512では、コンピューティング機械が、ブロック504において識別されたC34%、C33%、または162ICDコードを有する、最初の手続の6ヶ月以内に、C%または140-195ICDコードが存在するかどうかを決定する。該当しない場合、ブロック514では、所与の患者が、原発性肺癌患者として標識される。ブロック514後、方法500は、終了する。該当する場合、ブロック516では、患者は、原発性肺癌患者として標識されない。
【0055】
ブロック518では、コンピューティング機械が、6ヶ月後またはそれ以降に、別のC34%またはC33%が存在するかどうかを決定する。該当しない場合、患者は、ブロック516に従って、原発性肺癌患者ではないとして標識されたままであって、方法500は、終了する。該当する場合、患者は、ブロック520において、希少症例として標識される一方、また、ブロック516に従って、原発性肺癌患者ではないとして標識されたままであって、方法500は、終了する。希少症例は、偽陽性(肺癌患者ではない、ある人物をそうであるものとして誤って識別する)または偽陰性(肺癌患者である、ある人物をそうではないものとして誤って識別する)が優先されるかどうかに応じて、肺癌患者または非肺癌患者のいずれかとして標識されてもよい。
【0056】
患者の死亡ステータスに関して、患者に関する死亡日が、存在する場合、本値は、「該当」に設定される。そうでなければ、これは、未知に設定される(ある場合には、患者に関する死亡ステータスは、決して、「非該当」に設定され得ない。代替として、死亡状態は、現在の日付前の閾値期間(例えば、1日または7日)以内に、患者が生存していることの確認が存在する場合、「非該当」に設定されてもよい)。両方の場合において、いくつかの実装は、死亡ステータスに関連する質的計測値を「高」に設定する。1つまたはそれを上回る実施例では、死亡データのソースは、保険請求情報を含むことができる。
【0057】
死亡ステータスを有していない、患者に関して、最後の有効日列は、その中で請求が生成された、患者ヘッダおよび調剤請求からの最新日付を記憶する。いくつかの実装は、調剤請求を含み、これは、支払済、保留、または調整済として指定される。患者ヘッダデータテーブルを使用して、最後の有効日を決定するために、受付日列が、存在する場合、クエリされることができる。値が受付日列内に存在しない、状況では、請求日列が、クエリされることができる。調剤請求データテーブルを使用して、最後の有効日を決定するために、利用日列が、クエリされることができる。
【0058】
年齢に関する値を含む、列は、生年から計算される患者の年齢を表す。死亡日が、利用可能である場合、死亡時の年齢に関する値は、死亡時の患者の年齢である。
【0059】
患者の転移ステータスに関する値は、患者の転移状態およびそれが既知であるかどうかに応じて、「該当」、「非該当」、または「未知」のいずれかである。第1の症例では、請求記録が、二次性悪性コードの報告を有する場合、患者は、高信頼度を伴って、転移性と見なされる。二次性悪性は、一次診断と同一日付/同一請求後、またはその日に認められる、ICD-10コードC77-C80またはICD-9 196-198%によって識別される。いくつかの実装が、上記の論理を使用して、患者転移ステータスを「該当」に設定するとき、いくつかの実装は、転移質的計測値を「高」として設定してもよい。第2の症例では、
【0060】
請求記録が、2年以内に、患者の一次診断コードと異なる、任意の癌ICD-10/ICD-9コード(皮膚および肺を除く)を有する場合、いくつかの実装は、患者転移ステータスを「該当」として設定し、転移質的計測値を「低」として設定してもよい。いくつかのICDコードは、除外されてもよい。除外されるべき肺癌ICD-9コードは、気管気管支および肺の162悪性新生物を含む。除外されるべき肺癌ICD-10コードは、気管支および肺のC34悪性新生物または気管のC33悪性新生物を含む。除外されるべき皮膚癌ICD-9コードは、皮膚の172悪性黒色腫または皮膚の173他および非規定新生物を含む。除外されるべき皮膚癌ICD-10コードは、皮膚のC43悪性黒色腫または皮膚のC44他および非規定新生物を含む。
【0061】
いくつかの実装は、患者転移ステータスを未知に設定し、また、未知であるため、転移質的計測値を「\n」に設定してもよい。
【0062】
患者が臨床試験ctに登録されているかどうかを示す、列は、Z006 ICD-10またはV707 ICD-9コードが存在する場合、「真」に設定され、そうでなければ、「偽」に設定される。臨床試験に関連する最新請求日を示す、列は、Z006 ICD-10またはV707 ICD-9コードが存在するとき、最新手続日に対応する。
【0063】
データ完全性は、死亡日を伴わない患者のパーセントと、高信頼度の転移情報を伴う患者のパーセントとに基づいてもよい。データ正確度は、死亡していると疑われる、死亡日を伴わない、患者の計数に基づいてもよい。人口統計データ品質は、高品質人口統計データを伴う患者のパーセンテージに基づいてもよい。
【0064】
図6は、いくつかの実装による、患者情報データテーブル内に含まれるべき最後の有効日を識別するための例示的方法600のフローチャートである。
【0065】
ブロック602では、コンピューティング機械(例えば、コンピューティング機械1700)が、医療ヘッダおよび調剤データのデータセットを取得する。
【0066】
ブロック604では、コンピューティング機械が、支払済、保留、または調整済ではない、調剤値をフィルタ除去する。支払済、保留、または調整済である、調剤値は、データセット内に留まる。
【0067】
ブロック606では、コンピューティング機械が、受付日がヘッダ内にあるかどうかを決定する。該当する場合、方法600は、ブロック608に継続する。該当しない場合、方法600は、ブロック612に継続する。
【0068】
ブロック608では、コンピューティング機械が、ヘッダ請求日が調剤テーブル内の利用日を上回るかどうかを決定する。該当する場合、方法600は、ブロック610に継続する。該当しない場合、方法600は、ブロック616に継続する。
【0069】
ブロック610では、コンピューティング機械が、請求日が最後の有効日であることを決定する。ブロック610後、方法600は、終了する。
【0070】
ブロック612では、コンピューティング機械が、受付日が調剤テーブル内の利用日以降であるかどうかを決定する。該当する場合、方法600は、ブロック614に継続する。該当しない場合、方法600は、ブロック616に継続する。
【0071】
ブロック614では、コンピューティング機械が、受付日が最後の有効日であることを決定する。ブロック614後、方法600は、終了する。
【0072】
ブロック616では、コンピューティング機械が、利用日が最後の有効日であることを決定する。ブロック616後、方法600は、終了する。
【0073】
いくつかの実装では、患者情報を含む、データテーブルが、生成されることができ、データテーブルによって記憶される、データは、患者に関する1つまたはそれを上回るコホートを決定するために使用されることができる。以下の患者情報列、すなわち、生年、性別、死亡日、死亡ステータス、死亡データのソース、最後の有効日、患者転移ステータス、臨床調査研究登録ステータス、最新利用日、寛解ステータス、年齢、および/または死亡時の年齢のうちの1つまたはそれを上回るものが、データテーブル内に含まれる。
【0074】
いくつかの実装は、治療に基づいて、一次診断を決定することに留意されたい(例えば、患者が、他の病態のためではなく、肺癌のために使用される、薬物を服用する場合、その患者は、肺癌を有する可能性が高い)。いくつかの実装は、疾患進行度と治療との間の関係を確立する、単一テーブルを含んでもよい。テーブルは、共通クエリパターンに基づいて生成されてもよい。
【0075】
いくつかの実装は、治療データ列に関する。コンピューティング機械は、肺癌患者に関する請求調剤記録からの癌関連治療を含有する、肺癌調剤テーブルを作成してもよい。
【0076】
情報の主要ソースのうちの1つは、調剤記録である。経口薬物が、典型的には、調剤記録内に存在する。少数の静脈内(IV)薬物が、調剤記録内に存在し得る。いくつかの実装は、そのNDCコードがクラス抗新生物薬および支払済手続タイプを有する、調剤記録からの治療を含む、または表2に列挙される癌薬物名を選択する。表2におけるリストは、包括的ではない。これは、いくつかの公知の以前に存在していた癌薬物および/または将来的に開発または識別される癌薬物を欠いている場合がある。表3は、例示的クエリを図示する。表3のクエリの1つの目的は、NDC参照テーブル(またはある他のデータリポジトリ)から、全ての癌関連薬物を抽出することである。クエリは、薬物名、薬物クラス、および同等物に基づいてもよい。表3のクエリは、表2に示される例示的癌薬物に基づいてもよい。
【表1-1】
【表1-2】
【0077】
調剤データテーブル内の調剤データ列の実施例は、患者識別子(ID)、処方箋記載日、処方数量、認可された再補充数、調剤利用日、NDCコード、調剤開始日、調剤終了日、薬物名、薬物クラス、薬物カテゴリ、補充数、供給日数、分注された数量、測定ユニットを含む。いくつかの実装は、調剤請求重複を除去する。重複調剤手続は、同一利用日における同一薬物名および同一供給日数を伴う、手続として定義され得る。
【0078】
いくつかの実装は、同一日数における調剤請求供給日数を集約する。いくつかの実装は、異なる供給日数を伴う、同日に複数回現れる、薬物に関する全ての供給日数を集約する。表4は、記憶され得る、調剤データの実施例を図示する。癌関連治療は、(例えば、表4等のデータ構造内への記憶のために)項目一式から抽出されてもよい。
【表2-1】
【表2-2】
【0079】
図7は、患者をコホートに割り当てることと関連付けられる、例示的プロセス700のフローチャートである。いくつかの実装では、
図7の1つまたはそれを上回るプロセスブロックは、コンピューティング機械(例えば、コンピューティング機械1700)によって実施されてもよい。いくつかの実装では、
図7の1つまたはそれを上回るプロセスブロックは、コンピューティング機械と別個の、またはそれを含む、別のデバイスまたはデバイス群によって実施されてもよい。加えて、または代替として、
図7の1つまたはそれを上回るプロセスブロックは、
図17に示される、コンピューティング機械1700の1つまたはそれを上回るコンポーネントによって実施されてもよい。
【0080】
図7に示されるように、プロセス700は、コンピューティング機械によって、処理回路網において、複数の患者の中からの所与の患者に関するデータを記憶する、1つまたはそれを上回る医療データリポジトリにアクセスすることを含んでもよい。1つまたはそれを上回る医療データリポジトリは、調剤データ、診療所受診データ、および医療保険手続データを記憶する(ブロック710)。
【0081】
図7にさらに示されるように、プロセス700は、コンピューティング機械によって、診療所受診データまたは医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、所与の患者に関する1つまたはそれを上回る生物学的病態および転移状態を識別すること(ブロック720)を含んでもよい。
【0082】
図7にさらに示されるように、プロセス700は、コンピューティング機械によって、調剤データ内の1つまたはそれを上回る薬物コードに基づいて、所与の患者に関する1つまたはそれを上回る一連の治療を識別すること(ブロック730)を含んでもよい。
【0083】
図7にさらに示されるように、プロセス700は、コンピューティング機械によって、医療保険手続データ内の1つまたはそれを上回る保険コードに基づいて、所与の患者によって受けられた1つまたはそれを上回る医療手技を識別すること(ブロック740)を含んでもよい。
【0084】
図7にさらに示されるように、プロセス700は、コンピューティング機械によって、1つまたはそれを上回る生物学的病態、転移状態、1つまたはそれを上回る一連の治療、および1つまたはそれを上回る医療手技の組み合わせに基づいて、所与の患者に関する一次診断生物学的病態を決定すること(ブロック750)を含んでもよい。
【0085】
図7にさらに示されるように、プロセス700は、コンピューティング機械によって、一次診断生物学的病態に基づいて、所与の患者を患者のコホートに割り当てること(ブロック760)を含んでもよい。
【0086】
図7にさらに示されるように、プロセス700は、コンピューティング機械によって、所与の患者に関する割り当てられたコホートを表す、出力を提供すること(ブロック770)を含んでもよい。
【0087】
プロセス700は、下記および/または本明細書のいずれかの場所で説明される1つまたはそれを上回る他のプロセスと関連して説明される、任意の単一実装または実装の任意の組み合わせ等の付加的実装を含んでもよい。
【0088】
いくつかの実装では、一次診断生物学的病態を決定することは、医療保険手続データに基づいて、同一治療名および保険コードを有する、所与の患者に関する、2つの連続手技間の時間間隔を示す、マスタギャップテーブルを作成することを含む。マスタギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える。加えて、マスタギャップテーブルに基づいて、中央値ギャップテーブルは、治療名および保険コードの組み合わせ毎に、中央値ギャップを示すように生成されることができる。中央値ギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える。一次診断生物学的病態の決定は、少なくとも部分的に、中央値ギャップテーブル内のデータに基づくことができる。ある場合には、患者が受ける、治療は、患者内に存在する、生物学的病態のインジケータであることができる。例えば、公知の肺癌薬物を服用し、医療施設において公知の肺癌療法を受ける、患者は、肺癌を患っている可能性が高い。
【0089】
いくつかの実装では、処理回路網は、複数のマルチスレッドグラフィック処理ユニット(GPU)を備え、本方法はさらに、並行して、かつ複数のマルチスレッドGPUのパラレルスレッドを使用して、複数の患者から、所与の患者を含む、複数の患者に関する割り当てられたコホートを決定することを含む。
【0090】
いくつかの実装では、疾患コードは、国際疾病分類(ICD)コードを備え、薬物コードは、全米医薬品コード(NDC)コードを備え、保険コードは、医療共通治療行為コードシステム(HCPCS)コードを備える。
【0091】
いくつかの実装では、プロセス700は、診療所受診データまたは医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、所与の患者に関する1つまたはそれを上回る生物学的病態を識別することを含み、これは、肺癌と関連付けられる、ICDコードに基づいて、所与の患者が肺癌を患っていることを識別することを含む。
【0092】
いくつかの実装では、プロセス700は、診療所受診データまたは医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、所与の患者に関する転移状態を識別することを含み、これは、二次性悪性ICDコードまたはHCPCSコードに基づく。
【0093】
いくつかの実装では、所与の患者に関する一次診断生物学的病態は、事前に定義された日付範囲内の日付と関連付けられる、疾患コード、薬物コード、または保険コードに基づいて、決定される。
【0094】
図7は、プロセス700の例示的ブロックを示すが、いくつかの実装では、プロセス700は、
図7に描写されるものの付加的ブロック、より少ないブロック、異なるブロック、または異なるように配列されるブロックを含んでもよい。加えて、または代替として、プロセス700のブロックのうちの2つまたはそれを上回るものは、並行して実施されてもよい。
【0095】
図8は、所与の患者をコホートに割り当てることと関連付けられる、例示的プロセス800のフローチャートである。いくつかの実装では、
図8の1つまたはそれを上回るブロックプロセスは、コンピューティング機械(例えば、コンピューティング機械1700)によって実施されてもよい。いくつかの実装では、
図8の1つまたはそれを上回るプロセスブロックは、コンピューティング機械と別個の、またはそれを含む、別のデバイスまたはデバイス群によって実施されてもよい。加えて、または代替として、
図8の1つまたはそれを上回るプロセスブロックは、
図17に示される、コンピューティング機械1700の1つまたはそれを上回るコンポーネントによって実施されてもよい。
【0096】
図8に示されるように、プロセス800は、コンピューティング機械によって、所与の患者に関する医療保険手続データを含む、1つまたはそれを上回るデータテーブルを分析することを含んでもよい。1つまたはそれを上回るデータテーブルは、1つまたはそれを上回る医療データリポジトリから取得されることができる(ブロック810)。
【0097】
図8にさらに示されるように、プロセス800は、コンピューティング機械によって、1つまたはそれを上回るデータテーブル内に含まれる、1つまたはそれを上回る第1のコード識別子を含む、1つまたはそれを上回る第1の保険手続を決定することを含んでもよく、1つまたはそれを上回る第1のコード識別子は、1つまたはそれを上回る生物学的病態に対する患者の診断に対応する(ブロック820)。
【0098】
図8にさらに示されるように、プロセス800は、コンピューティング機械によって、1つまたはそれを上回るデータテーブル内に含まれる、1つまたはそれを上回る第2のコード識別子を含む、1つまたはそれを上回る第2の保険手続を決定することを含んでもよく、1つまたはそれを上回る第2のコード識別子は、患者に対して施術される医療手技に対応し、医療手技は、診療所受診データからのものである(ブロック830)。
【0099】
図8にさらに示されるように、プロセス800は、コンピューティング機械によって、1つまたはそれを上回る第1のコード識別子を記憶する、第1の列数と、1つまたはそれを上回る第2のコード識別子を記憶する、第2の列数と、1つまたはそれを上回る第1の保険手続の第1の医療保険手続または1つまたはそれを上回る第2の保険手続の第2の医療保険手続に対応する、複数の行の個々の行を伴う、複数の行とを含む、医療ヘッダテーブルを生成することを含んでもよい(ブロック840)。
【0100】
図8にさらに示されるように、プロセス800は、コンピューティング機械によって、医療ヘッダテーブルを1つまたはそれを上回る医療データリポジトリ内に記憶すること(ブロック850)を含んでもよい。
【0101】
図8にさらに示されるように、プロセス800は、コンピューティング機械によって、医療ヘッダテーブル内のデータに基づいて、患者に関するコホートを決定することを含んでもよい(ブロック860)。
【0102】
プロセス800は、下記および/または本明細書のいずれかの場所で説明される1つまたはそれを上回る他のプロセスと関連して説明される、任意の単一実装または実装の任意の組み合わせ等の付加的実装を含んでもよい。
【0103】
いくつかの実装では、1つまたはそれを上回る第1の保険手続は、個々の第1の保険手続の利用日を示し、1つまたはそれを上回る第2の保険手続は、個々の第2の保険手続の利用日を示す。
【0104】
いくつかの実装では、プロセス800は、最初利用日を伴う請求が医療ヘッダテーブル内の最初の行であって、最直近利用日を伴う手続が医療ヘッダテーブルの最後の行であるように、利用日に基づいて、医療ヘッダテーブルの複数の行を昇順で配列することを含む。
【0105】
いくつかの実装では、プロセス800は、1つまたはそれを上回る第1のコード識別子を分析し、1つまたはそれを上回る第1のコード識別子の第1のコード識別子が、1つまたはそれを上回る生物学的病態に対応する、保険コード識別子の群内に含まれることを決定することを含んでもよい。
【0106】
いくつかの実装では、第1のコード識別子は、保険コード識別子の第1の分類に対応する、第1のフォーマットに従って配列され、保険コード識別子の第1の分類は、国際疾病分類第9版(ICD-9)に対応する。
【0107】
いくつかの実装では、第1のコード識別子は、保険コード識別子の第2の分類に対応する、第2のフォーマットに従って配列され、保険コード識別子の第2の分類は、国際疾病分類第10版(ICD-10)に対応する。
【0108】
いくつかの実装では、1つまたはそれを上回る生物学的病態は、複数のサブタイプを含み、複数のサブタイプの個々のサブタイプは、1つまたはそれを上回る生物学的病態に対応する、保険コード識別子の群のサブセットに対応し、本方法はさらに、第1のコード識別子が、生物学的病態の第1のサブタイプに対応する、保険コードの群の第1のサブセット内に含まれることを決定することを含む。
【0109】
いくつかの実装では、生物学的病態は、癌であって、複数のサブタイプは、肺癌、乳癌、または結腸直腸癌のうちの少なくとも1つを含む。
【0110】
いくつかの実装では、プロセス800は、最初利用日で終了する、事前に定義された期間内の利用日を有する、1つまたはそれを上回る第3の保険手続を決定することと、第1のコード識別子および第2のコード識別子に対して第3の保険手続の1つまたはそれを上回る第3の保険コード識別子を分析することとを含む。
【0111】
いくつかの実装では、プロセス800は、1つまたはそれを上回る第3の保険コード識別子が第1のコード識別子および第2のコード識別子内に含まれないことを決定することと、第3の保険コード識別子に基づいて、患者が、その中に1つまたはそれを上回る生物学的病態の所与のサブタイプが存在する、患者のコホート内に含まれることを決定することとを含む。
【0112】
いくつかの実装では、1つまたはそれを上回る第3の保険コード識別子は、付加的生物学的病態に対応する。
【0113】
いくつかの実装では、プロセス800は、1つまたはそれを上回る第3の保険コード識別子が、保険コード識別子の群のサブセット内に含まれない、保険コード識別子の群の一部内に含まれることを決定することと、1つまたはそれを上回る第3の保険手続のうちの少なくとも1つの利用日が、1つまたはそれを上回る第1の保険手続のうちの1つの利用日と同日であることを決定することと、コード識別子の群内に含まれる、保険コード識別子を有する、他の付加的保険手続が存在しないことを決定することと、患者が、その中に生物学的病態のサブタイプが存在する、患者のコホート内に含まれることを決定することとを含む。
【0114】
いくつかの実装では、プロセス800は、1つまたはそれを上回る第3の保険コード識別子が、保険コード識別子の群のサブセット内に含まれない、保険コード識別子の群の一部内に含まれることを決定することと、1つまたはそれを上回る第3の保険請求のうちの少なくとも1つの利用日が、1つまたはそれを上回る第1の保険手続のうちの1つの利用日に先立っており、事前に定義された期間内にあることを決定することと、患者が、その中に生物学的病態のサブタイプが存在する、患者のコホート内に含まれないことを決定することとを含む。
【0115】
図8は、プロセス800の例示的ブロックを示すが、いくつかの実装では、プロセス800は、
図8に描写されるものの付加的ブロック、より少ないブロック、異なるブロック、または異なるように配列されるブロックを含んでもよい。加えて、または代替として、プロセス800のブロックのうちの2つまたはそれを上回るものは、並行して実施されてもよい。
【0116】
図9は、患者のコホートを識別することと関連付けられる、例示的プロセス900のフローチャートである。いくつかの実装では、
図9の1つまたはそれを上回るプロセスブロックは、コンピューティング機械(例えば、コンピューティング機械1700)によって実施されてもよい。いくつかの実装では、
図9の1つまたはそれを上回るプロセスブロックは、コンピューティング機械と別個の、またはそれを含む、別のデバイスまたはデバイス群によって実施されてもよい。加えて、または代替として、
図9の1つまたはそれを上回るプロセスブロックは、
図17に示される、コンピューティング機械1700の1つまたはそれを上回るコンポーネントによって実施されてもよい。
【0117】
図9に示されるように、プロセス900は、コンピューティング機械によって、処理回路網において、複数の患者に関する医療保険手続データを記憶する、1つまたはそれを上回る医療データテーブルにアクセスすることを含んでもよい。1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える(ブロック910)。
【0118】
図9にさらに示されるように、プロセス900は、コンピューティング機械によって、処理回路網を使用して、かつ診断列に基づいて、規定された生物学的病態を有する、患者のセットを識別することであって、患者のセットは、複数の患者の中からのものである、こと(ブロック920)を含んでもよい。
【0119】
図9にさらに示されるように、プロセス900は、コンピューティング機械によって、患者のセット内の患者毎に、患者が規定された生物学的病態の診断を受けた、最初日を決定すること(ブロック930)を含んでもよい。
【0120】
図9にさらに示されるように、プロセス900は、コンピューティング機械によって、処理回路網を使用して、かつ診断列および日付列に基づいて、患者のセットの中から患者のコホートを識別することであって、患者のコホートは、患者が規定された生物学的病態の診断を受けた、最初日前の事前に定義された時間窓の間に生じる日付と関連付けられる、生物学的病態の集合からの診断を欠いている、こと(ブロック940)を含んでもよい。
【0121】
図9にさらに示されるように、プロセス900は、コンピューティング機械によって、コホートを表す、出力を提供すること(ブロック950)を含んでもよい。
【0122】
プロセス900は、下記および/または本明細書のいずれかの場所で説明される1つまたはそれを上回る他のプロセスと関連して説明される、任意の単一実装または実装の任意の組み合わせ等の付加的実装を含んでもよい。
【0123】
いくつかの実装では、診断列は、国際疾病分類第9版(ICD-9)または国際疾病分類第10版(ICD-10)コードを記憶する。
【0124】
いくつかの実装では、規定された生物学的病態は、肺癌であって、生物学的病態の集合は、肺癌と異なる、癌を備え、最初日前の事前に定義された時間窓は、最初日前の6ヶ月である。
【0125】
いくつかの実装では、規定された生物学的病態は、規定されたタイプの癌であって、本方法はさらに、コホートからの少なくとも1人の患者の転移状態を決定することを含む。
【0126】
いくつかの実装では、転移状態は、二次性悪性国際疾病分類(ICD)コードまたは医療共通治療行為コードシステム(HCPCS)コードに基づいて、決定される。
【0127】
いくつかの実装では、コホートを識別することは、日付別に、セット内の患者と関連付けられる、行を配列することと、事前に定義された時間窓と関連付けられる、行にアクセスし、事前に定義された時間窓の間の生物学的病態の集合からの診断を欠いている、セット内の患者を識別することとを含む。
【0128】
図9は、プロセス900の例示的ブロックを示すが、いくつかの実装では、プロセス900は、
図9に描写されるものの付加的ブロック、より少ないブロック、異なるブロック、または異なるように配列されるブロックを含んでもよい。加えて、または代替として、プロセス900のブロックのうちの2つまたはそれを上回るものは、並行して実施されてもよい。
【0129】
図10は、いくつかの実装による、例示的医療データテーブル1000を図示する。テーブル1000は、肺癌一次診断コホート内への含有のための候補である、患者、すなわち、Albert、Betsy、Carlos、Debra、およびEdwardについてのデータ(氏名、日付、および診断)を含む。いくつかの実装は、氏名の代わりに、患者ID番号を記憶し、患者プライバシを確実にしてもよい。テーブル1000は、いくつかの実装が動作する方法を図示するために簡略化されることに留意されたい。本明細書に開示される技術と併用される、他のテーブルは、より多くの行、列、患者、およびデータを含んでもよい。
【0130】
Albertの診断のみが、肺癌であって、したがって、Albertは、肺癌一次診断コホート内に含まれる。
【0131】
Betsyは、2015年12月17日にインフルエンザと、2016年4月5日に肺癌と診断された。Betsyは、肺癌と診断される前に、インフルエンザと診断されたが、Betsyは、依然として、インフルエンザが癌のタイプではないため、肺癌一次診断コホート内に含まれる。
【0132】
Carlosは、2017年6月8日に肝臓癌と、2017年11月2日に肺癌と診断された。Carlosの最初の肺癌診断は、肺癌診断前の6ヶ月以内に別の癌診断(肝臓癌)を有するため、Carlosの原発性癌は、肺癌ではなく、肝臓癌である。Carlosの原発性癌は、肺癌ではないため、Carlosは、肺癌一次診断コホート内に含まれない。
【0133】
Debraは、2017年7月1日に肺癌と、2017年8月12日に肝臓癌と診断された。肺癌は、Debraが診断された、最初の癌であるため、Debraは、肺癌一次診断コホート内に含まれる。
【0134】
Edwardは、2018年1月2日にインフルエンザと診断されたが、決して、肺癌または任意の他の癌と診断されなかった。したがって、Edwardは、肺癌一次診断コホート内に含まれない。テーブル1000に基づいて、肺癌一次診断コホートは、Albert、Betsy、およびDebraを含む。肺癌一次診断コホートは、CarlosおよびEdwardを含まない。
【0135】
図11は、1つまたはそれを上回る実装による、複数のタイプの保健医療データを含む、統合データリポジトリを生成するための例示的アーキテクチャ1100を図示する。アーキテクチャ1100は、データ統合および分析システム1102を含んでもよい。データ統合および分析システム1102は、ある数のデータソースからデータを取得し、データソースからのデータを統合データリポジトリ1104に統合してもよい。例えば、データ統合および分析システム1102は、健康保険請求データリポジトリ1106からデータを取得してもよい。種々の実施例では、データ統合および分析システム1102および健康保険請求データリポジトリ1106は、異なる実体によって作成および維持されてもよい。1つまたはそれを上回る付加的実施例では、データ統合および分析システム1102および健康保険請求データリポジトリ1106は、同一の実体によって作成および維持されてもよい。
【0136】
データ統合および分析システム1102は、1つまたはそれを上回るコンピューティングデバイスによって実装されてもよい。1つまたはそれを上回るコンピューティングデバイスは、1つまたはそれを上回るサーバコンピューティングデバイス、1つまたはそれを上回るデスクトップコンピューティングデバイス、1つまたはそれを上回るラップトップコンピューティングデバイス、1つまたはそれを上回るタブレットコンピューティングデバイス、1つまたはそれを上回るモバイルコンピューティングデバイス、またはそれらの組み合わせを含んでもよい。ある実装では、1つまたはそれを上回るコンピューティングデバイスの少なくとも一部は、分散コンピューティング環境において実装されてもよい。例えば、1つまたはそれを上回るコンピューティングデバイスの少なくとも一部は、クラウドコンピューティングアーキテクチャにおいて実装されてもよい。データ統合および分析システム1102を実装するために使用されるコンピューティングシステムが、分散コンピューティングアーキテクチャにおいて構成されるシナリオでは、処理動作は、複数の仮想マシンによって並行して実施されてもよい。種々の実施例では、データ統合および分析システム1102は、マルチスレッド技法を実装してもよい。分散コンピューティングアーキテクチャおよびマルチスレッド技法の実装は、データ統合および分析システム1102に、これらの技法を実装しないコンピューティングアーキテクチャに関連して、より少ないコンピューティングリソースを利用させる。
【0137】
健康保険請求データリポジトリ1106は、1つまたはそれを上回る健康保険会社の加入者によって行われた保険請求に対応する、1つまたはそれを上回る健康保険会社から取得された情報を記憶してもよい。健康保険請求データリポジトリ1106は、患者識別子によって配列(例えば、ソート)されてもよい。患者識別子は、患者の名前、名字、生年月日、社会保障番号、住所、雇用主、および同等物に基づいてもよい。健康保険請求データリポジトリ1106によって記憶されるデータは、1つまたはそれを上回るデータテーブル内に配列される構造化データを含んでもよい。構造化データを記憶する1つまたはそれを上回るデータテーブルは、保健医療提供者から加入者が受けた手技および/または治療に関連して、1つまたはそれを上回る健康保険会社の加入者によって行われた健康保険請求についての情報を示す、ある数の行と、ある数の列とを含んでもよい。健康保険請求データリポジトリ1106によって記憶されるデータテーブルの行および列の少なくとも一部は、1つまたはそれを上回る健康保険会社の加入者によって取得された生物学的病態の診断、および治療および/または手技を示し得る、健康保険コードを含んでもよい。種々の実施例では、健康保険コードはまた、個人内に存在し得る1つまたはそれを上回る生物学的病態に関連する、個人によって取得された診断手技を示してもよい。1つまたはそれを上回る実施例では、診断手技は、生物学的病態の存在の検出において使用される情報を提供してもよい。診断手技はまた、生物学的病態の進行度を決定するために使用される情報を提供してもよい。1つまたはそれを上回る例証的実施例では、診断手技は、1つまたはそれを上回る撮像手技、1つまたはそれを上回るアッセイ、1つまたはそれを上回る実験室手技、それらの1つまたはそれを上回る組み合わせ、および同等物を含んでもよい。
【0138】
データ統合および分析システム1102はまた、分子データリポジトリ1108から情報を取得してもよい。分子データリポジトリ1108は、ゲノム情報、遺伝子情報、病理学情報(例えば、組織スライドの分析)、メタボローム情報、トランスクリプトーム情報、フラグメントーム情報、免疫受容体情報、メチル化情報、エピゲノム情報、および/またはプロテオミクス情報に関連するある数の個人のデータを記憶してもよい。1つまたはそれを上回る実施例では、データ統合および分析システム1102および分子データリポジトリ1108は、異なる実体によって作成および維持されてもよい。1つまたはそれを上回る付加的実施例では、データ統合および分析システム1102および分子データリポジトリ1108は、同一の実体によって作成および維持されてもよい。
【0139】
ゲノム情報は、個人の遺伝子に対応する1つまたはそれを上回る突然変異を示し得る。個人の遺伝子の突然変異は、個人の核酸の配列と1つまたはそれを上回る参照ゲノムとの間の差異に対応し得る。参照ゲノムは、hg119等の既知の参照ゲノムを含み得る。種々の実施例では、個人の遺伝子の突然変異は、参照ゲノムに関連する個人の生殖細胞系遺伝子における差異に対応し得る。1つまたはそれを上回る付加的実施例では、参照ゲノムは、個人の生殖細胞系ゲノムを含み得る。1つまたはそれを上回るさらなる実施例では、個人の遺伝子の突然変異は、体細胞突然変異を含み得る。個人の遺伝子の突然変異は、挿入、欠失、一塩基変異、ヘテロ接合性の喪失、重複、増幅、転座、融合遺伝子、またはそれらの1つまたはそれを上回る組み合わせに関連し得る。
【0140】
1つまたはそれを上回る例証的実施例では、分子データリポジトリ1108によって記憶されるゲノム情報は、個人内に存在する腫瘍細胞のゲノムプロファイルを含んでもよい。これらの状況では、ゲノム情報は、限定ではないが、組織サンプルまたは腫瘍生検、循環腫瘍細胞(CTC)、エクソソームまたはエフェロソームを含むサンプルからの、または個人内に存在する腫瘍細胞の分解に起因して存在する個人の血液サンプル中に見出される循環核酸(例えば、無細胞DNA)からのデオキシリボ核酸(DNA)および/またはリボ核酸(RNA)等の遺伝子材料の分析から導出されてもよい。1つまたはそれを上回る実施例では、個人の腫瘍細胞のゲノム情報は、1つまたはそれを上回る標的領域に対応し得る。1つまたはそれを上回る標的領域に関して存在する1つまたはそれを上回る突然変異は、個人内の腫瘍細胞の存在を示し得る。分子データリポジトリ1108によって記憶されるゲノム情報は、参照ゲノムの1つまたはそれを上回る標的領域に関する1つまたはそれを上回る突然変異を決定し得る、アッセイまたは他の診断試験に関連して生成されてもよい。
【0141】
「無細胞DNA」、「cfDNA分子」、または単純に「cfDNA」は、細胞外形態において対象内に(例えば、血液、血清、血漿、またはリンパ液、脳脊髄液、尿、または唾液等の他の体液中に)生じるDNA分子を含み、対象からの単離の時点で細胞内に含有されない、または別様にそれに結合されないDNAを含む。DNAは、元々、大きい複雑な生物学的有機体(例えば、哺乳類)の細胞または複数の細胞、または有機体にコロニー形成する細菌等の他の細胞内に存在していたが、DNAは、細胞から有機体内に見出される流体の中への放出を受けた。cfDNAは、限定ではないが、対象の無細胞ゲノムDNA(例えば、ヒト対象のゲノムDNA)および(病原性細菌または健康な対照群の腸または皮膚等の一般的にコロニー形成される場所に通常見出される細菌であるかどうかにかかわらず)対象に生息する細菌等の微生物の無細胞DNAを含むが、体液のサンプルを単に汚染した微生物の無細胞DNAを含まない。典型的には、cfDNAは、生体外細胞溶解ステップを実施する必要性を伴わずに、流体のサンプルを取得することによって取得され得、また、流体中に存在する細胞の除去(例えば、細胞を除去するための血液の遠心分離)を含む。
【0142】
1つまたはそれを上回る付加的実施例では、データ統合および分析システム1102は、1つまたはそれを上回る付加的データリポジトリ1110から情報を取得してもよい。1つまたはそれを上回る付加的データリポジトリ1110は、健康保険請求データリポジトリ1106または分子データリポジトリ1108のうちの少なくとも1つにおいてデータが存在する個人の電子医療記録に関連するデータを記憶してもよい。さらに、1つまたはそれを上回る付加的データリポジトリ1110は、健康保険請求データリポジトリ1106または分子データリポジトリ1108のうちの少なくとも1つにおいてデータが存在する個人の病理報告に関連するデータを記憶してもよい。種々の実施例では、1つまたはそれを上回る付加的データリポジトリ1110は、生物学的病態および/または生物学的病態に関する治療に関連するデータを記憶してもよい。1つまたはそれを上回る実施例では、データ統合および分析システム1102および1つまたはそれを上回る付加的データリポジトリ1110の少なくとも一部は、異なる実体によって作成および維持されてもよい。1つまたはそれを上回るさらなる実施例では、データ統合および分析システム1102および1つまたはそれを上回る付加的データリポジトリ1110の少なくとも一部は、同一の実体によって作成および維持されてもよい。
【0143】
1つまたはそれを上回るさらなる実装では、データ統合および分析システム1102は、1つまたはそれを上回る参照情報データリポジトリ1112から情報を取得してもよい。1つまたはそれを上回る参照情報データリポジトリ1112は、定義、標準、プロトコル、用語表、それらの1つまたはそれを上回る組み合わせ、および同等物を含む情報を記憶してもよい。種々の実施例では、1つまたはそれを上回る参照情報データリポジトリによって記憶される情報は、生物学的病態および/または生物学的病態に関する治療に対応してもよい。1つまたはそれを上回る例証的実施例では、1つまたはそれを上回る参照情報データリポジトリ1112は、RxNormを含んでもよい。(RxNormは、臨床薬物に関する正規化された名称を提供し、その名称を、調剤管理および薬物相互作用ソフトウェアにおいて使用される薬物用語表のうちの多くにリンクさせる。)1つまたはそれを上回る実施例では、データ統合および分析システム1102および1つまたはそれを上回る参照情報データリポジトリ1112の少なくとも一部は、異なる実体によって作成および維持されてもよい。1つまたはそれを上回るさらなる実施例では、データ統合および分析システム1102および1つまたはそれを上回る参照情報データリポジトリ1112の少なくとも一部は、同一の実体によって作成および維持されてもよい。
【0144】
データ統合および分析システム1102は、データ統合および分析システム1102にアクセス可能であり、健康保険請求データリポジトリ1106、分子データリポジトリ1108、1つまたはそれを上回る付加的データリポジトリ1110、または参照情報データリポジトリ1112のうちの少なくとも1つにアクセス可能である、1つまたはそれを上回る通信ネットワークを介して、健康保険請求データリポジトリ1106、分子データリポジトリ1108、1つまたはそれを上回る付加的データリポジトリ1110、または参照情報データリポジトリ1112のうちの少なくとも1つからデータを取得してもよい。データ統合および分析システム1102はまた、1つまたはそれを上回るセキュアな通信チャネルを介して、健康保険請求データリポジトリ1106、分子データリポジトリ1108、1つまたはそれを上回る付加的データリポジトリ1110、または参照情報データリポジトリ1112のうちの少なくとも1つからデータを取得してもよい。加えて、データ統合および分析システム1102は、アプリケーションプログラミングインターフェース(API)の1つまたはそれを上回る呼出を介して、健康保険請求データリポジトリ1106、分子データリポジトリ1108、1つまたはそれを上回る付加的データリポジトリ1110、または参照情報データリポジトリ1112のうちの少なくとも1つからデータを取得してもよい。
【0145】
データ統合および分析システム1102は、データ統合システム1114を含んでもよい。データ統合システム1114は、健康保険請求データリポジトリ1106および分子データリポジトリ1108からデータを取得し、統合データリポジトリ1104を生成してもよい。データ統合システム1114はまた、1つまたはそれを上回る付加的データリポジトリ1110からデータを取得し、統合データリポジトリ1104を生成してもよい。種々の実施例では、データ統合システム1114は、1つまたはそれを上回る自然言語処理技法を実装し、1つまたはそれを上回る付加的データリポジトリ1110からのデータを統合データリポジトリ1104に統合してもよい。
【0146】
1つまたはそれを上回る実施例では、データ統合システム1114は、健康保険請求データリポジトリ1106内に記憶されるデータを有し、分子データリポジトリ1108内に記憶されるデータを有する個人を識別するために、1つまたはそれを上回るトークンを生成してもよい。種々の実施例では、データ統合システム1114は、1つまたはそれを上回るハッシュ関数を実装することによって、1つまたはそれを上回るトークンを生成してもよい。データ統合システム1114は、1つまたはそれを上回るハッシュ関数を実装し、健康保険請求データリポジトリ1106または分子データリポジトリ1108のうちの少なくとも1つによって記憶される情報に基づいて、1つまたはそれを上回るトークンを生成してもよい。例えば、ハッシュ関数を実装することによって個々のトークンを生成するためにデータ統合システム1114によって使用される情報は、個別の個人の識別子、個別の個人の生年月日、個別の個人の郵便番号、個別の個人の生年月日、または個別の個人の性別のうちの少なくとも1つを含んでもよい。1つまたはそれを上回る例証的実施例では、個別の個人の識別子は、個別の個人の名前の少なくとも一部および個別の個人の名字の少なくとも一部の組み合わせを含んでもよい。異なるデータリポジトリからのデータを使用して生成されるトークンは、異なるデータリポジトリによって記憶される同一または類似する情報または同一または類似するタイプに対応してもよい。例証するために、トークンは、健康保険請求データリポジトリ1106および分子データリポジトリ1108から取得された個人の氏名の一部、生年月日、郵便番号の少なくとも一部、および性別を使用して生成されてもよい。
【0147】
データ統合システム1114は、ある数の異なるデータソースから取得されたデータを使用して、1つまたはそれを上回るハッシュ関数を実装することによって生成されたトークンを分析することによって、その数の異なるデータソースからのデータを統合してもよい。例えば、データ統合システム1114は、健康保険請求データリポジトリ1106によって記憶されるデータから生成された1つまたはそれを上回る第1のトークンと、分子データリポジトリ1108によって記憶されるデータから生成された1つまたはそれを上回る第2のトークンとを取得してもよい。データ統合システム1114は、1つまたはそれを上回る第2のトークンに関して1つまたはそれを上回る第1のトークンを分析し、個々の第2のトークンに対応する個々の第1のトークンを決定してもよい。1つまたはそれを上回る例証的実施例では、データ統合システム1114は、個々の第2のトークンと合致する個々の第1のトークンを識別してもよい。第1のトークンのデータが、第2のトークンのデータに関する類似性の少なくとも閾値量を有するとき、第1のトークンは、第2のトークンと合致し得る。1つまたはそれを上回る実施例では、第1のトークンのデータが、第2のトークンのデータと同一であるとき、第1のトークンは、第2のトークンと合致し得る。例証するために、第1のトークンの英数字列が、第2のトークンの英数字列と同一であるとき、第1のトークンは、第2のトークンと合致し得る。
【0148】
分子データリポジトリ1108によって記憶されるデータを使用して生成された第2のトークンに対応する、健康保険請求データリポジトリ1106によって記憶されるデータを使用して生成された第1のトークンを決定することによって、データ統合システム1114は、健康保険請求データリポジトリ1106および分子データリポジトリ1108の両方の中に記憶されるデータを有する個人を識別してもよい。このように、データ統合システム1114は、ある数の個人からの健康保険請求データリポジトリ1106からのデータおよび同数の個人からの分子データリポジトリ1108からのデータを取得し、統合データリポジトリ1104内にその数の個人に関する健康保険請求データおよび分子データを記憶してもよい。
【0149】
データ統合システム1114はまた、1つまたはそれを上回る付加的データリポジトリ1110によって記憶されるデータを健康保険請求データリポジトリ1106および分子データリポジトリ1108からのデータと統合し、統合データリポジトリ1104を生成してもよい。例証するために、データ統合システム1114は、病理報告に対応するデータを記憶するデータリポジトリ等の付加的データリポジトリ1110によって記憶されるデータから生成された1つまたはそれを上回る第3のトークンを取得してもよい。データ統合システム1114は、健康保険請求データリポジトリ1106によって記憶される情報を使用して生成された第1のトークンおよび分子データリポジトリ1108によって記憶される情報を使用して生成された第2のトークンに関して1つまたはそれを上回る第3のトークンを分析し、個々の第1のトークンおよび個々の第2のトークに対応する個別の第3のトークンを決定してもよい。1つまたはそれを上回る例証的実施例では、データ統合システム1114は、1つまたはそれを上回るハッシュ関数と、健康保険請求データリポジトリ1106、分子データリポジトリ1108、および付加的データリポジトリ1110から取得された情報の共通のセットとを使用して生成された第3のトークンを識別してもよい。
【0150】
健康保険請求データリポジトリ1106によって記憶されるデータを使用して生成された第1のトークンおよび分子データリポジトリ1108によって記憶されるデータを使用して生成された第2のトークンに対応する、付加的データリポジトリ1110によって記憶されるデータを使用して生成された第3のトークンを決定することによって、データ統合システム1114は、健康保険請求データリポジトリ1106、分子データリポジトリ1108、および付加的データリポジトリ1110内に記憶されるデータを有する個人を識別してもよい。このように、データ統合システム1114は、ある数の個人からの健康保険請求データリポジトリ1106からのデータおよび同数の個人からの分子データリポジトリ1108および付加的データリポジトリ1110からのデータを取得し、統合データリポジトリ1104内にその数の個人に関する健康保険請求データ、分子データ、および付加的データを記憶してもよい。
【0151】
その数の個人に関する統合データリポジトリ1104によって記憶されるデータは、個人の個別の識別子を使用してアクセス可能であってもよい。データ統合システム1114は、統合データリポジトリ1104内の個人の情報を記憶し、読み出すことに関して、非特定化プロセスの一部としてある数の技法を実装してもよい。個人の識別子は、少なくとも1つのハッシュ関数を使用して生成されるキーに対応してもよい。個人の識別子はまた、少なくとも1つのハッシュ関数を使用して生成されたキー、1つまたはそれを上回るハッシュ関数を使用して生成されたトークン、および健康保険請求データリポジトリ1106、分子データリポジトリ1108、および/または付加的データリポジトリ1110から取得された情報の共通のセットに関して1つまたはそれを上回るソルティングプロセスを実装することによって生成されてもよい。1つまたはそれを上回る例証的実施例では、統合データリポジトリ1104によって記憶される個別の個人に関する情報にアクセスするためにデータ統合システム1114によって生成される識別子は、個人毎に一意であってもよい。1つまたはそれを上回る実施例では、個人の識別子は、個人に関連するトークンを生成するために使用される情報の少なくとも一部を使用して生成されてもよい。1つまたはそれを上回る付加的実施例では、個人の識別子は、個人に関連するトークンを生成するために使用される情報と異なる情報を使用して生成されてもよい。
【0152】
データ統合システム1114はまた、類似する様式において、データリポジトリのある数の異なる組み合わせから統合データリポジトリ1104を生成してもよい。例えば、データ統合システム1114は、健康保険請求データリポジトリ1106によって記憶される情報から生成されたトークンおよび1つまたはそれを上回る付加的データストア1110によって記憶される情報から生成された付加的トークンを取得してもよい。データ統合システム1114は、1つまたはそれを上回る付加的データリポジトリ1110によって記憶される情報から生成された個々の付加的トークンに対応する、健康保険請求データリポジトリ1106によって記憶される情報から生成された個々のトークンを決定してもよい。付加的データリポジトリ1110によって記憶されるデータを使用して生成された付加的トークンに対応する、健康保険請求データリポジトリ1106によって記憶されるデータを使用して生成されたトークンを決定することによって、データ統合システム1114は、健康保険請求データリポジトリ1106および付加的データリポジトリ1110の両方の中に記憶されるデータを有する個人を識別してもよい。このように、データ統合システム1114は、ある数の個人からの健康保険請求データリポジトリ1106からのデータおよび同数の個人からの付加的データリポジトリ1110からのデータを取得し、統合データリポジトリ1104内にその数の個人に関する健康保険請求データおよび付加的データを記憶してもよい。その数の個人に関する統合データリポジトリ1104によって記憶される健康保険請求データおよび付加的データは、個人の個別の識別子を使用してアクセス可能であってもよい。
【0153】
1つまたはそれを上回るさらなる実施例では、データ統合システム1114は、分子データリポジトリ1108によって記憶される情報から生成されたトークンおよび1つまたはそれを上回る付加的データストア1110によって記憶される情報から生成されたトークンを取得してもよい。データ統合システム1114は、1つまたはそれを上回る付加的データリポジトリ1110によって記憶される情報から生成された個々の付加的トークンに対応する、分子データリポジトリ1108によって記憶される情報から生成された個々のトークンを決定してもよい。付加的データリポジトリ1110によって記憶されるデータを使用して生成された付加的トークンに対応する、分子データリポジトリ1108によって記憶されるデータを使用して生成されたトークンを決定することによって、データ統合システム1114は、分子データリポジトリ1108および付加的データリポジトリ1110の両方の中に記憶されるデータを有する個人を識別してもよい。このように、データ統合システム1114は、ある数の個人からの分子データリポジトリ1108からのデータおよび同数の個人からの付加的データリポジトリ1110からのデータを取得し、統合データリポジトリ1104内にその数の個人に関する分子データおよび付加的データを記憶してもよい。その数の個人に関する統合データリポジトリ1104によって記憶される分子データおよび付加的データは、個人の個別の識別子を使用してアクセス可能であってもよい。
【0154】
統合データリポジトリ1104によって記憶されるデータは、プライバシを保護し、個人の医療記録、健康情報、および保険情報のセキュリティを確実にする、1つまたはそれを上回る規制フレームワークに従って記憶されてもよい。例えば、データは、医療保険の相互運用性と説明責任に関する法律(HIPAA)および/または一般データ保護規則(GDPR)等、個人情報を保護することを対象とする1つまたはそれを上回る政府規制フレームワークに従って、統合データリポジトリ1104によって記憶されてもよい。統合データリポジトリ1104はまた、統合データリポジトリ1104によって記憶されるデータを有する個人のプライバシの保護を確実にするために、匿名化および非特定化された様式においてデータを記憶する。統合データリポジトリ1104によって記憶されるデータを有する個人のプライバシをさらに確実にするために、データ統合システム1114は、統合データリポジトリ1104を周期的に再生成してもよい。例えば、データ統合システム1114は、四半期毎に1回、統合データリポジトリ1104を作成してもよい。1つまたはそれを上回る付加的実施例では、データ統合システム1114は、月単位で、週単位で、または2週間毎に1回、統合データリポジトリ1104を生成してもよい。新しいデータが利用可能であるときに統合データリポジトリ1104を単純にリフレッシュするのではなく、周期的に統合データリポジトリ1104を再生成することによって、統合データリポジトリ1104は、統合データリポジトリ1104によって記憶されるデータに関するプライバシ保護を強化する。すなわち、データリポジトリが新しいデータで単純にリフレッシュされる状況では、所与の時間に追加される新しい個人の数は、典型的には、データリポジトリによって記憶されるデータをすでに有している個人の既存の数よりも小さいため、データリポジトリに新しく追加されたデータと関連付けられる個人をより容易に追跡することが、可能であり得る。
【0155】
種々の実施例では、統合データリポジトリ1104によって記憶されるデータは、データベース管理システムを介してアクセスされてもよい。加えて、統合データリポジトリ1104は、1つまたはそれを上回るデータベースモデルに従ってデータを記憶してもよい。1つまたはそれを上回る実施例では、統合データリポジトリ1104は、1つまたはそれを上回るリレーショナルデータベース技術に従ってデータを記憶してもよい。例えば、統合データリポジトリ1104は、リレーショナルデータベースモデルに従ってデータを記憶してもよい。1つまたはそれを上回る付加的実施例では、統合データリポジトリ1104は、オブジェクト指向データベースモデルに従ってデータを記憶してもよい。1つまたはそれを上回るさらなる実施例では、統合データリポジトリ1104は、拡張マークアップ言語(XML)データベースモデルに従ってデータを記憶してもよい。なおも付加的実施例では、統合データリポジトリ1104は、構造化クエリ言語(SQL)データベースモデルに従ってデータを記憶してもよい。なおもさらなる実施例では、統合データリポジトリは、画像データベースモデルに従ってデータを記憶してもよい。
【0156】
データ統合システム1114は、ある数のデータテーブルを生成し、データテーブルの間のリンクを作成することによって、統合データリポジトリ1104を生成してもよい。リンクは、データテーブルの間の論理結合を示し得る。データ統合システム1114は、データリポジトリ1106、1108、1110、1112から取得された情報から規定されたデータのセットを抽出し、個別のデータテーブルの行および列内にデータを記憶することによって、データテーブルを生成してもよい。種々の実施例では、データテーブルの間の論理結合は、1つのデータテーブル内の情報の行が別のデータテーブル内の情報の行に対応する、1対1リンク、1つのデータテーブル内の情報の行が別のデータテーブル内の情報の複数の行に対応する、1対多リンク、または1つのデータテーブルの情報の複数の行が別のデータテーブル内の情報の複数の行に対応する、多対多リンクのうちの少なくとも1つを含んでもよい。
【0157】
データテーブルの数は、データリポジトリスキーマ1116に従って配列されてもよい。
図1の例証的実施例では、データリポジトリスキーマ1114は、第1のデータテーブル1118と、第2のデータテーブル1120と、第3のデータテーブル1122と、第4のデータテーブル1124と、第5のデータテーブル1124とを含む。
図1の例証的実施例は、5つのデータテーブルを含むが、付加的実装では、データリポジトリスキーマ1116は、より多いデータテーブルまたはより少ないデータテーブルを含んでもよい。データリポジトリスキーマ1116はまた、データテーブル1118、1120、1122、1124、1128の間のリンクを含んでもよい。データテーブル1118、1120、1122、1124、1126の間のリンクは、データテーブル1118、1120、1122、1124、1126のうちの1つから読み出された情報が、1つまたはそれを上回る付加的データテーブル1118、1120、1122、1124、1126によって記憶される付加的情報が読み出される結果をもたらすことを示し得る。加えて、データテーブル1118、1120、1122、1124、1126の全てが、他のデータテーブル1118、1120、1120、1122、1124、1126のそれぞれにリンクされるわけではない場合がある。
図1の例証的実施例では、第1のデータテーブル1118は、第1のリンク1128によって第2のデータテーブル1118に論理的に結合され、第1のデータテーブル1118は、第2のリンク1130によって第4のデータテーブル1124に論理的に結合される。加えて、第2のデータテーブル1120は、第3のリンク1132を介して第3のデータテーブル1122に論理的に結合され、第4のデータテーブル1124は、第4のリンク1134を介して第5のデータテーブル1126に論理的に結合される。さらに、第3のデータテーブル1122は、第5のリンク1136を介して第5のデータテーブル1126に論理的に結合される。
【0158】
種々の実施例では、データテーブルは、データリポジトリスキーマ1116に追加され、および/またはそれから除去されるため、データテーブルの間の付加的リンクが、データリポジトリスキーマ1116に追加される、またはそれから除去されてもよい。1つまたはそれを上回る例証的実施例では、統合データリポジトリ1104は、データ統合システム1114が、健康保険請求データリポジトリ1106、分子データリポジトリ1108、1つまたはそれを上回る付加的データリポジトリ1110、および1つまたはそれを上回る参照情報データリポジトリ1112のうちの少なくとも2つの組み合わせから情報を取得した個人の少なくとも一部に関して、データリポジトリスキーマ1116に従ってデータテーブルを記憶してもよい。結果として、統合データリポジトリ1104は、数千、数万、最大数十万人、またはそれを上回る個人に関して、データリポジトリスキーマ1116に従ってデータテーブル1118、1120、1122、1124、1126の個別の事例を記憶してもよい。
【0159】
データ統合および分析システム1102はまた、データパイプラインシステム1138を含んでもよい。データパイプラインシステム1138は、統合データリポジトリ1104によって記憶される情報を処理し、付加的データセットを生成する、ある数のアルゴリズム、ソフトウェアコード、スクリプト、マクロ、またはコンピュータ実行可能命令の他のバンドルを含んでもよい。付加的データセットは、データテーブル1118、1120、1122、1124、1126のうちの1つまたはそれを上回るものから取得された情報を含んでもよい。付加的データセットはまた、データテーブル1118、1120、1122、1124、1126のうちの1つまたはそれを上回るものから取得されたデータから導出される情報を含んでもよい。第1の付加的データセットを生成するために実装されるデータパイプラインシステム1138のコンポーネントは、第2の付加的データセットを生成するために使用されるデータパイプラインシステム1138のコンポーネントと異なってもよい。
【0160】
1つまたはそれを上回る実施例では、データパイプラインシステム1138は、ある数の個人が受けた調剤治療を示すデータセットを生成してもよい。1つまたはそれを上回る例証的実施例では、データパイプラインシステム1138は、データテーブル1118、1120、1122、1124、1126のうちの少なくとも1つの中に記憶される情報を分析し、ある数の個人が受けた薬剤治療に対応する健康保険コードを決定してもよい。データパイプラインシステム1138は、1つまたはそれを上回る健康保険コードに対応する規定された薬剤治療を示すデータのライブラリに関して薬剤治療に対応する健康保険コードを分析し、個人が受けた薬剤治療の名称を決定してもよい。1つまたはそれを上回る付加的実施例では、データパイプラインシステム1138は、統合データリポジトリ1104によって記憶される情報を分析し、ある数の個人が受けた医療手技を決定してもよい。例証するために、データパイプラインシステム1138は、データテーブル1118、1120、1122、1124、1126のうちの1つによって記憶される情報を分析し、注射または静脈内のうちの少なくとも1つを介して個人が受けた治療を決定してもよい。1つまたはそれを上回るさらなる実施例では、データパイプラインシステム1138は、統合データリポジトリ1104によって記憶される情報を分析し、個人に関する処置のエピソード、個人が受けた療法ライン、生物学的病態の進行度、または次の治療までの時間を決定してもよい。種々の実施例では、データパイプラインシステム1138によって生成されるデータセットは、異なる生物学的病態に関して異なってもよい。例えば、データパイプラインシステム1138は、肺癌等の第1のタイプの癌に関する第1の数のデータセットおよび結腸直腸癌等の第2のタイプの癌に関する第2の数のデータセットを生成してもよい。
【0161】
データパイプラインシステム1138はまた、統合データリポジトリ1104によって記憶されるデータを有する個人と関連付けられる情報に割り当てるべき1つまたはそれを上回る信頼レベルを決定してもよい。個別の信頼レベルは、統合データリポジトリ1104によって記憶されるデータを有する個人と関連付けられる情報に関する正確度の異なる測度に対応してもよい。個別の信頼レベルと関連付けられる情報は、統合データリポジトリ1104によって記憶されるデータから導出された個人の1つまたはそれを上回る特性に対応してもよい。1つまたはそれを上回る特性に関する信頼レベルの値は、統合データリポジトリ1104から1つまたはそれを上回るデータセットを生成することと併せて、データパイプラインシステム1138によって生成されてもよい。1つまたはそれを上回る実施例では、第1の信頼レベルは、正確度の測度の第1の範囲に対応し得、第2の信頼レベルは、正確度の測度の第2の範囲に対応し得、第3の信頼レベルは、正確度の測度の第3の範囲に対応してもよい。1つまたはそれを上回る付加的実施例では、正確度の測度の第2の範囲は、正確度の測度の第1の範囲の値未満である値を含んでもよく、正確度の測度の第3の範囲は、正確度の測度の第2の範囲の値未満である値を含んでもよい。1つまたはそれを上回る例証的実施例では、第1の信頼レベルに対応する情報は、ゴールド標準情報と称され得、第2の信頼レベルに対応する情報は、シルバー標準情報と称され得、第3の信頼レベルに対応する情報は、ブロンズ標準情報と称され得る。
【0162】
データパイプラインシステム1138は、ある数の因子に基づいて、個人の特性の信頼レベルに関する値を決定してもよい。例えば、情報の個別のセットが、個人の特性を決定するために使用されてもよい。データパイプラインシステム1138は、個人に関する特性を決定するために使用される情報の個別のセットの完全性の量に基づいて、個人の特性の信頼レベルを決定してもよい。情報の1つまたはそれを上回る断片が、第1の数の個人と関連付けられる情報のセットから欠落している状況では、特性に関する信頼レベルは、情報が情報のセットから欠落していない第2の数の個人に関するものよりも低くなり得る。1つまたはそれを上回る実施例では、欠落情報の量が、個人の特性の信頼レベルを決定するために、データパイプラインシステム1138によって使用されてもよい。例証するために、個人の特性を決定するために使用される欠落情報のより多い量は、特性を決定するために使用される欠落情報の量がより少ない状況におけるものよりも特性に関する信頼レベルをより低くさせ得る。さらに、異なるタイプの情報が、特性に関する種々の信頼レベルに対応してもよい。1つまたはそれを上回る実施例では、個人の特性を決定するために使用される情報の第1の断片の存在は、特性に関する信頼レベルが、特性を決定するために使用される情報の第2の断片の存在よりも高くなる結果をもたらし得る。
【0163】
1つまたはそれを上回る例証的実施例では、データパイプラインシステム1138は、肺癌(または他の生物学的病態)の一次診断を伴うコホート内に含まれるある数の個人を決定してもよい。データパイプラインシステム1138は、肺癌の一次診断を有するものとして分類されることに関して個別の個人に関する信頼レベルを決定してもよい。データパイプラインシステム1138は、データテーブル1118、1120、1122、1124、1126内に含まれるある数の列からの情報を使用し、肺癌コホート内の個人の包含に関する信頼レベルを決定してもよい。その数の列は、生物学的病態の診断および/または生物学的病態の治療に関連する健康保険コードを含んでもよい。加えて、その数の列は、生物学的病態に関する診断および/または治療日に対応してもよい。データパイプラインシステム1138は、肺癌コホートの一部であるとして特徴付けられる個人の信頼レベルが、情報がその数の列または少なくとも閾値数の列毎に利用可能であるシナリオにおいて、情報が閾値数未満の列に関して利用可能である事例におけるものよりも高いことを決定してもよい。さらに、データパイプラインシステム1138は、1つまたはそれを上回る列と関連付けられる情報のタイプおよび情報の可用性に基づいて、肺癌コホート内に含まれる個人に関する信頼レベルを決定してもよい。例証するために、1つまたはそれを上回る診断コードが、個人の群に関して1つまたはそれを上回る期間に関連して存在し、1つまたはそれを上回る治療コードが、不在である状況では、データパイプラインシステム1138は、肺癌コホート内に個人の群を含む信頼レベルが、診断コードのうちの少なくとも1つが不在であり、個人が肺癌コホート内に含まれるかどうかを決定するために使用される治療コードが存在する状況におけるものを上回ることを決定してもよい。
【0164】
データ統合および分析システム1102は、データ分析システム1140を含んでもよい。データ分析システム1140は、例示的コンピューティングデバイス1144等の1つまたはそれを上回るコンピューティングデバイスから統合データリポジトリ要求1142を受信してもよい。1つまたはそれを上回る統合データリポジトリ要求1142は、データを統合データリポジトリ1104から読み出させてもよい。種々の実施例では、1つまたはそれを上回る統合データリポジトリ要求1142は、データをデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットから読み出させてもよい。統合データリポジトリ要求1142は、統合データリポジトリ1104および/またはデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットから読み出されるべきデータを規定してもよい。1つまたはそれを上回る付加的実施例では、統合データリポジトリ要求1142は、統合データリポジトリ1104および/またはデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットから規定されたデータのセットを読み出すコンピュータ実行可能命令に対応する、1つまたはそれを上回る事前構築されたクエリを含んでもよい。
【0165】
1つまたはそれを上回る統合データリポジトリ要求1142に応答して、データ分析システム1140は、統合データリポジトリ1104またはデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットのうちの少なくとも1つから読み出されたデータを分析し、データ分析結果1146を生成してもよい。データ分析結果1146は、例示的コンピューティングデバイス1148等の1つまたはそれを上回るコンピューティングデバイスに送信されてもよい。
図1の例証的実施例は、1つのコンピューティングデバイス1144からの1つまたはそれを上回る統合データリポジトリ要求1142およびデータ分析結果1146が別のコンピューティングデバイス1148に送信されることを示すが、1つまたはそれを上回る付加的実装では、データ分析結果1146は、1つまたはそれを上回る統合データリポジトリ要求1142を送信したものと同一のコンピューティングデバイスによって受信されてもよい。データ分析結果1146は、コンピューティングデバイス1144またはコンピューティングデバイス1148によってレンダリングされる1つまたはそれを上回るユーザインターフェースによって表示されてもよい。
【0166】
1つまたはそれを上回る実施例では、データ分析システム1140は、1つまたはそれを上回る機械学習技法または1つまたはそれを上回る統計技法のうちの少なくとも1つを実装し、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータを分析してもよい。1つまたはそれを上回る実施例では、データ分析システム1140は、1つまたはそれを上回る人工ニューラルネットワークを実装し、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータを分析してもよい。例証するために、データ分析システム1140は、1つまたはそれを上回る畳み込みニューラルネットワークまたは1つまたはそれを上回る残差ニューラルネットワークのうちの少なくとも1つを実装し、1つまたはそれを上回る統合データリポジトリ要求1142に応答して統合データリポジトリ1104から読み出されるデータを分析してもよい。少なくともいくつかの実施例では、データ分析システム1140は、1つまたはそれを上回るランダムフォレスト技法、1つまたはそれを上回るサポートベクターマシン、または1つまたはそれを上回る隠れマルコフモデルを実装し、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータを分析してもよい。1つまたはそれを上回る統計モデルもまた、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出される分析されたデータに実装され、個人の特性間の相関または有意性の測定値のうちの少なくとも1つを識別してもよい。例えば、ログランク検定が、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータに適用されてもよい。加えて、コックス比例ハザードモデルが、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータに対して実装されてもよい。さらに、ウィルコクソンの符号順位検定が、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータに適用されてもよい。さらに他の実施例では、z-スコア分析が、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータに対して実施されてもよい。なおも付加的実施例では、Kaplan Meier分析が、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータに対して実施されてもよい。少なくともいくつかの実施例では、1つまたはそれを上回る機械学習技法が、1つまたはそれを上回る統計技法との組み合わせにおいて実装され、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されるデータを分析してもよい。
【0167】
1つまたはそれを上回る例証的実施例では、データ分析システム1140は、1つまたはそれを上回る治療に応答して、肺癌が存在する個人の生存率を決定してもよい。1つまたはそれを上回る付加的例証的実施例では、データ分析システム1140は、1つまたはそれを上回る治療に応答して、肺癌が存在する1つまたはそれを上回るゲノム領域突然変異を有する個人の生存率を決定してもよい。種々の実施例では、データ分析システム1140は、統合データリポジトリ1104またはデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットのうちの少なくとも1つから読み出されたデータが、1つまたはそれを上回る基準を満たす状況において、データ分析結果1146を生成してもよい。例えば、データ分析システム1140は、1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されたデータの少なくとも一部が、閾値信頼レベルを満たすかどうかを決定してもよい。1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されたデータの少なくとも一部に関する信頼レベルが、閾値信頼レベル未満である状況では、データ分析システム1140は、データ分析結果1146の少なくとも一部を生成することを控えてもよい。1つまたはそれを上回る統合データリポジトリ要求1142に応答して読み出されたデータの少なくとも一部に関する信頼レベルが、少なくとも閾値信頼レベルであるシナリオでは、データ分析システム1140は、データ分析結果1146の少なくとも一部を生成してもよい。種々の実施例では、閾値信頼レベルは、データ分析システム1140によって生成されているデータ分析結果1146のタイプに関連してもよい。
【0168】
1つまたはそれを上回る例証的実施例では、データ分析システム1140は、統合データリポジトリ要求1142を受信し、1人またはそれを上回る個人の生存率を示す、データ分析結果1146を生成してもよい。これらの事例では、データ分析システム1140は、統合データリポジトリ1104によって、および/またはデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットによって記憶されるデータが、ゴールド標準信頼レベル等の閾値信頼レベルを満たすかどうかを決定してもよい。1つまたはそれを上回る付加的実施例では、データ分析システム1140は、統合データリポジトリ要求1142を受信し、1人またはそれを上回る個人が受けた治療を示す、データ分析結果1146を生成してもよい。これらの実装では、データ分析システム1140は、統合データリポジトリ1104によって、および/またはデータパイプラインシステム1138によって生成された1つまたはそれを上回るデータセットによって記憶されるデータが、ブロンズ標準信頼レベル等のより低い閾値信頼レベルを満たすかどうかを決定してもよい。
【0169】
1つまたはそれを上回る付加的例証的実施例では、データ分析システム1140は、統合データリポジトリ要求1142を受信し、1つまたはそれを上回るゲノム突然変異を有し、生物学的病態に関する1つまたはそれを上回る治療を受けた個人を決定してもよい。本実施例を継続すると、データ分析システム1140は、個人が受けた1つまたはそれを上回る治療に関連して1つまたはそれを上回るゲノム突然変異を伴う個人の生存率を決定することができる。データ分析システム1140は、次いで、個人の生存率に基づいて、個人内に存在し得るゲノム突然変異に関連して個人に関する治療の有効性を識別することができる。このように、個人の健康転帰は、1つまたはそれを上回るゲノム突然変異を有する個人の母集団に関して、個人に提供されている現在の治療よりも有効であり得る見込みのある治療を識別することによって、改善され得る。
【0170】
図12は、1つまたはそれを上回る実装による、統合データリポジトリ内のデータテーブルの配列に対応する、例示的フレームワーク1200を図示する。
図12の例証的実施例では、フレームワーク1200は、第1のデータテーブル204と、第2のデータテーブル1206と、第3のデータテーブル1208と、第4のデータテーブル1210と、第5のデータテーブル1212と、第6のデータテーブル1214と、第7のデータテーブル1216とを含む、データリポジトリスキーマ1202を含む。
図2の例証的実施例は、7つのデータテーブルを含むが、付加的実装では、データリポジトリスキーマ1202は、より多いデータテーブルまたはより少ないデータテーブルを含んでもよい。データリポジトリスキーマ1202はまた、データテーブル204、1206、1208、1210、1212、1214、1216の間のリンクを含んでもよい。データテーブル204、1206、1208、1210、1212、1214、1216の間のリンクは、データテーブル204、1206、1208、1210、1212、1214、1216のうちの1つから読み出された情報が、1つまたはそれを上回る付加的データテーブル204、1206、1208、1210、1212、1214、1216によって記憶される付加的情報が読み出される結果をもたらすことを示し得る。加えて、データテーブル204、1206、1208、1210、1212、1214、1216の全てが、他のデータテーブル204、1206、1208、1210、1212、1214、1216のそれぞれにリンクされるわけではない場合がある。
図2の例証的実施例では、第1のデータテーブル204は、第1のリンク1218によって第2のデータテーブル1206に論理的に結合され、第3のデータテーブル1208は、第2のリンク1220によって第2のデータテーブル1206に論理的に結合される。第2のデータテーブル1206はまた、第3のリンク1222によって第4のデータテーブル1210に論理的に結合され、第2のデータテーブル1206は、第4のリンク1224によって第5のデータテーブル1212に論理的に結合され、第2のデータテーブル1206は、第5のリンク1226によって第6のデータテーブル1214に論理的に結合される。加えて、第5のデータテーブル1212は、第6のリンク1228によって第6のデータテーブル1214に論理的に結合され、第6のデータテーブル1214は、第7のリンク1230によって第7のデータテーブル1216に論理的に結合される。さらに、第7のデータテーブル1216は、第8のリンク1232によって第4のデータテーブル1210に論理的に結合される。種々の実施例では、データテーブルは、データリポジトリスキーマ1202に追加され、および/またはそれから除去されるため、データテーブルの間の付加的リンクが、データリポジトリスキーマ1202に追加される、またはそれから除去されてもよい。1つまたはそれを上回る例証的実施例では、統合データリポジトリ1104は、データ統合システム1114が、健康保険請求データリポジトリ1106、分子データリポジトリ1108、および1つまたはそれを上回る付加的データリポジトリ1110のうちの少なくとも2つの組み合わせから情報を取得した個人の少なくとも一部に関して、データリポジトリスキーマ1202に従ってデータテーブルを記憶してもよい。結果として、統合データリポジトリ1104は、数千、数万、最大数十万人、またはそれを上回る個人に関して、データリポジトリスキーマ204に従ってデータテーブル204、1206、1208、1210、1212、1214、1216の個別の事例を記憶してもよい。
【0171】
1つまたはそれを上回る実施例では、第1のデータテーブル204は、個人に関するゲノミクスおよびゲノミクス試験に対応するデータを記憶してもよい。例えば、第1のデータテーブル204は、ゲノミクスデータを生成するために使用されるパネル、ゲノム領域の突然変異、突然変異のタイプ、ゲノム領域のコピー数、1つまたはそれを上回る突然変異を有するサンプル中に識別された核酸分子の数を示すカバレッジデータ、試験日付、および患者情報に対応する情報を含む列を含んでもよい。第1のデータテーブル204はまた、1つまたはそれを上回る診断コードに対応し得る健康保険データコードを含む、1つまたはそれを上回る列を含んでもよい。加えて、第1のデータテーブル204内の情報は、第1のデータテーブル204の事例と関連付けられる個人に関する少なくとも1つの識別子を含んでもよい。
【0172】
第2のデータテーブル1206は、1人またはそれを上回る保健医療提供者への個人による1つまたはそれを上回る患者受診に関連するデータを記憶してもよい。第3のデータテーブル1208は、第2のデータテーブル1206によって示される1人またはそれを上回る保健医療提供者への1つまたはそれを上回る患者受診に関して個人に提供される個別のサービスに対応する情報を記憶してもよい。例証するために、個人が、保健医療提供者を受診し得、複数のサービスが、受診時に個人に対して実施され得る。第2のデータテーブル1206は、患者受診の間に実施される複数のサービス毎の情報を示す列を含んでもよい。患者受診の間に提供される個別のサービスに関する、患者受診に関連する第2のデータテーブル1206によって記憶される情報よりも細かいレベルの情報を示す列を含む、複数の第3のデータテーブル1208が、患者受診に関して生成されてもよい。例えば、第2のデータテーブル1206は、患者受診の間に個人に提供される異なるサービスに関する健康保険コードを示す複数の列を含んでもよく、サービスのうちの1つに関連する第3のデータテーブル1208は、個別のサービスに関連する付加的情報に対応する付加的健康保険コードに関する複数の列を含んでもよい。患者受診に関する第2のデータテーブル1206および第3のデータテーブル1208は、患者受診に対応するサービスの1つまたはそれを上回る日付を示してもよい。
【0173】
第4のデータテーブル1210は、情報が統合データリポジトリ1104によって記憶される個人についての情報を示す列を含んでもよい。例えば、第4のデータテーブル1210は、個人の場所、個人の性別、個人の生年月日、個人の死亡日(該当する場合)、または個人と関連付けられる1つまたはそれを上回るキーのうちの少なくとも1つに関連する情報を示す列を含んでもよい。1つまたはそれを上回る実施例では、第4のデータテーブル1210は、誤ったデータが個人に関して識別されているかどうかに関連する1つまたはそれを上回る列を含んでもよい。種々の実施例では、単一の第4のデータテーブル1210が、個別の個人に関して生成されてもよい。したがって、データリポジトリスキーマ1202は、数千、数万、最大数十万個、またはそれを上回るもの等の第4のデータテーブル1210の複数の事例を含んでもよい。
【0174】
第5のデータテーブル1212は、個別の個人に提供された1つまたはそれを上回るサービスに関して支払を行った健康保険会社または政府実体に関連する情報を示す列を含んでもよい。例えば、第5のデータテーブル1212は、1つまたはそれを上回る支払者識別子を含んでもよい。第6のデータテーブル1214は、個別の個人に関する健康保険補償範囲情報に対応する情報を含む列を含んでもよい。1つまたはそれを上回る実施例では、第6のデータテーブル1214は、個人に関する医療補償範囲の存在、個人に関する調剤補償範囲の存在、および健康保険維持機構(HMO)、優先医療給付機構(PPO)、および同等物等の個人に関連する健康保険プランのタイプを示す列を含んでもよい。
【0175】
第7のデータテーブル1216は、個別の個人によって取得された薬剤治療に関連する情報を示す列を含んでもよい。1つまたはそれを上回る実施例では、第7のデータテーブル1216は、調剤を介して利用可能である薬剤治療に対応する健康保険コードを示す1つまたはそれを上回る列を含んでもよい。健康保険コードは、個々の薬剤治療に対応してもよい。加えて、健康保険コードは、個人に関する生物学的病態の診断を示してもよい。第7のデータテーブル1216はまた、投薬量、供給日数、処方総量、許可された補充の回数、利用日、または薬剤治療を受ける個人に関連する情報のうちの少なくとも1つ等の付加的情報を含んでもよい。
【0176】
種々の実施例では、データリポジトリスキーマ1202は、典型的なデータリポジトリスキーマよりも効率的な様式においてデータテーブル204、1206、1208、1210、1212、1214、1216によって記憶される情報の分析の結果を提供してもよい。例えば、データテーブル204、1206、1208、1210、1212、1214、1216の間の論理接続は、異なるデータテーブル204、1206、1208、1210、1212、1214、1216を横断して関連するデータを効率的に読み出すように配列される。データテーブル204、1206、1208、1210、1212、1214、1216が連続様式において配列される状況では、および/またはより多い数のデータテーブル204、1206、1208、1210、1212、1214、1216が論理的に接続される状況では、統合データリポジトリ1104からの情報に関する要求に応答するために、データテーブル204、1206、1208、1210、1212、1214、1216のうちの1つまたはそれを上回るものからの統合データリポジトリ1104からデータを読み出すことは、データリポジトリスキーマ1202が実装される状況におけるものよりも効率的ではないであろう。
【0177】
図13は、1つまたはそれを上回る実装による、ある数のソースからの健康関連データを統合するデータリポジトリから読み出された情報から1つまたはそれを上回るデータセットを生成するためのアーキテクチャ1300を図示する。アーキテクチャ1300は、データ統合および分析システム1102と、統合データリポジトリ1104とを含んでもよい。加えて、データ統合および分析システム1102は、少なくとも、データパイプラインシステム1138と、データ分析システム1140とを含んでもよい。データパイプラインシステム1138は、データ分析結果1146を生成するために、統合データリポジトリ要求1142に応答してデータ分析システム1140によって分析され得る個別のデータセットを生成するために実行可能である、データ処理命令のある数のセットを含んでもよい。
【0178】
データパイプラインシステム1138は、第1のデータ処理命令1302と、第2のデータ処理命令1304と、最大N番目のデータ処理命令1306とを含んでもよい。データ処理命令1302、1304、1306は、統合データリポジトリ1104から取得された情報を使用して、個別のデータセットを生成するためのある数の動作を実施するために、1つまたはそれを上回る処理ユニットによって実行可能であってもよい。1つまたはそれを上回る例証的実施例では、データ処理命令1302、1304、1306は、ソフトウェアコード、スクリプト、API呼出、マクロ等のうちの少なくとも1つを含んでもよい。第1のデータ処理命令1302は、第1のデータセット1308を生成するために実行可能であってもよい。加えて、第2のデータ処理命令1304は、第2のデータセット1310を生成するために実行可能であってもよい。さらに、N番目のデータ処理命令1306は、N番目のデータセット1312を生成するために実行可能であってもよい。種々の実施例では、データ統合および分析システム1102が統合データリポジトリ1104を生成した後、データパイプラインシステム1138は、データ処理命令1302、1304、1306を実行させ、データセット1308、1310、1312を生成してもよい。1つまたはそれを上回る実施例では、データセット1308、1310、1312は、統合データリポジトリ1104によって、またはデータ統合および分析システム1102にアクセス可能である付加的データリポジトリによって記憶されてもよい。データ処理命令1302、1304、1306の少なくとも一部は、健康保険コードを分析し、データセット1308、1310、1312の少なくとも一部を生成してもよい。加えて、データ処理命令1302、1304、1306の少なくとも一部は、ゲノミクスデータを分析し、データセット1308、1310、1312の少なくとも一部を生成してもよい。
【0179】
1つまたはそれを上回る実施例では、第1のデータ処理命令1302は、統合データリポジトリ1104によって記憶される1つまたはそれを上回る第1のデータテーブルからデータを読み出すために実行可能であってもよい。第1のデータ処理命令1302はまた、1つまたはそれを上回る第1のデータテーブルの1つまたはそれを上回る規定された列からデータを読み出すために実行可能であってもよい。種々の実施例では、第1のデータ処理命令1302は、1つまたはそれを上回る診断コードに対応する、1つまたはそれを上回る列および行の組み合わせ内に記憶される健康保険コードを有する個人を識別するために実行可能であってもよい。第1のデータ処理命令1302は、次いで、個人が診断された生物学的病態を決定するために、1つまたはそれを上回る診断コードを分析するために実行可能であってもよい。1つまたはそれを上回る例証的実施例では、第1のデータ処理命令1302は、個別の診断コードに対応する1つまたはそれを上回る生物学的病態を示す、診断コードのライブラリに関して1つまたはそれを上回る診断コードを分析するために実行可能であってもよい。診断コードのライブラリは、数百から最大数千個の診断コードを含んでもよい。第1のデータ処理命令1302はまた、治療日、診断日、死亡日、それらの1つまたはそれを上回る組み合わせ、および同等物等の個人のタイミング情報を分析することによって、生物学的病態と診断された個人を決定するために実行可能であってもよい。
【0180】
第2のデータ処理命令1304は、統合データリポジトリ1104によって記憶される1つまたはそれを上回る第2のデータテーブルからデータを読み出すために実行可能であってもよい。第2のデータ処理命令1304はまた、1つまたはそれを上回る第2のデータテーブルの1つまたはそれを上回る規定された列からデータを読み出すために実行可能であってもよい。種々の実施例では、第2のデータ処理命令1304は、1つまたはそれを上回る治療コードに対応する、1つまたはそれを上回る列および行の組み合わせ内に記憶される健康保険コードを有する個人を識別するために実行可能であってもよい。1つまたはそれを上回る治療コードは、調剤から取得された治療に対応してもよい。1つまたはそれを上回る付加的実施例では、1つまたはそれを上回る治療コードは、注射または静脈内等の医療手技を受けた治療に対応してもよい。第2のデータ処理命令1304は、情報の所定のセットに関連して健康保険コードを分析することによって、1つまたはそれを上回る第2のデータテーブル内に含まれる個別の健康保険コードに対応する1つまたはそれを上回る治療を決定するために実行可能であってもよい。情報の所定のセットは、数百から最大数千個の健康保険コードのうちの1つに対応する1つまたはそれを上回る治療を示す、データライブラリを含んでもよい。第2のデータ処理命令1304は、個人の群が受けた個別の治療を示すために、第2のデータセット1310を生成してもよい。1つまたはそれを上回る例証的実施例では、個人の群は、第1のデータセット1308内に含まれる個人に対応してもよい。第2のデータセット1310は、単一の個人に対応する1つまたはそれを上回る行および個別の個人が受けた治療を示す1つまたはそれを上回る列を伴う、行および列において配列されてもよい。
【0181】
N番目の処理命令1306(Nは、任意の正の整数であり得る)は、第1のデータセット1308および第2のデータセット1310等のある数の以前に生成されたデータセットからの情報を組み合わせることによって、N番目のデータセット1312を生成するために実行可能であってもよい。加えて、N番目の処理命令1306は、N番目のデータセット1312を生成し、統合データリポジトリ1104の1つまたはそれを上回る付加的列から付加的情報を読み出し、統合データリポジトリ1104からの付加的情報を第1のデータセット1308および第2のデータセット1310から取得された情報と合体させるために実行可能であってもよい。例えば、N番目の処理命令1306は、生物学的病態と診断されている第1のデータセット1308内に含まれる個人を識別し、統合データリポジトリ1104の1つまたはそれを上回る付加的データテーブルの規定された列を分析し、第1のデータセット1308内に含まれる個人に対応する、第2のデータセット1210内に示される治療日を決定するために実行可能であってもよい。1つまたはそれを上回るさらなる実施例では、N番目の処理命令1306は、統合データリポジトリ1104の1つまたはそれを上回る付加的データテーブルの列を分析し、第1のデータセット1308内に含まれる個人が受けた第2のデータセット1310内に示される治療の投薬量を決定するために実行可能であってもよい。このように、N番目の処理命令1306は、コホートデータセットおよび治療データセット内に含まれる情報に基づいて、処置データセットのエピソードを生成するために実行可能であってもよい。
【0182】
1つまたはそれを上回る例証的実施例では、統合データリポジトリ要求1142を受信することに応答して、データ分析システム1140は、統合データリポジトリ要求1142に関連するクエリの特徴に対応する1つまたはそれを上回るデータセットを決定してもよい。例えば、データ分析システム1140は、第1のデータセット1308および第2のデータセット1310内に含まれる情報が、統合データリポジトリ要求1142に応答することに適用可能であることを決定してもよい。これらのシナリオでは、データ分析システム1140は、データ分析結果1146を生成するために、第1のデータセット1308および第2のデータセット1310内に含まれるデータの少なくとも一部を分析してもよい。1つまたはそれを上回る付加的実施例では、データ分析システム1140は、データ分析結果1146を生成するために、統合データリポジトリ要求1142内に含まれる異なるクエリに応答するための異なるデータセットを決定してもよい。
【0183】
個別のデータセットを生成するためのデータ処理命令の具体的セットの使用は、データ統合および分析システム1102のユーザからの入力の数を低減させ、かつ統合データリポジトリ要求1142を処理するために利用される処理リソースおよびメモリの量等の算出負荷を低減させ得る。例えば、データパイプラインシステム1138の具体的アーキテクチャを伴わないと、統合データリポジトリ要求1142が受信される度に、統合データリポジトリ要求1142に応答するために利用されるデータは、データリポジトリ1104から組み立てられる。対照的に、データセット1308、1310、1312を生成するためのデータ処理命令1302、1304、1306を実行するためにデータパイプラインシステム1138を実装することによって、種々の統合データリポジトリ要求1142に応答するために必要とされるデータは、すでに組み立てられており、統合データリポジトリ要求1142に応答するためにデータ分析システム1140によってアクセスされてもよい。したがって、データセット1308、1310、1312を生成するためにデータパイプラインシステム1138を実装することによって統合データリポジトリ要求1142に応答するために使用されるコンピューティングリソースは、統合データリポジトリ要求1142毎に情報解析および収集プロセスを実施する典型的なシステムよりも少ない。さらに、データパイプラインシステム1138が実装されていない状況では、典型的なシステムにおける統合データリポジトリ要求1142に応答するためのデータのアドホック収集が、不正確であるためか、またはデータ分析システム1140が、データパイプラインシステム1138が実装されるときに単一の統合データリポジトリ要求1142を使用して実施され得る典型的なシステムにおける情報の分析を実施するために複数回呼び出されるためかのいずれかで、データ統合および分析システム1102のユーザは、ユーザが分析されることを意図している情報を分析するために、複数の統合データリポジトリ要求1142を提出する必要があり得る。
【0184】
図14は、1つまたはそれを上回る実装による、非特定化された健康保険請求データと、非特定化されたゲノミクスデータとを含む、統合データリポジトリを生成するためのアーキテクチャ1400を図示する。アーキテクチャ1400は、データ統合および分析システム1102と、健康保険請求データリポジトリ1106と、分子データリポジトリ1108とを含んでもよい。データ統合および分析システム1102は、分子データリポジトリ1108から患者情報1402を取得してもよい。患者情報1402は、分子データリポジトリ1108によって記憶されるデータを有する個人に関するゲノミクスデータ1404を含んでもよい。ゲノミクスデータ1404は、1つまたはそれを上回る標的ゲノム領域に関して個人から取得されたサンプル中に含まれる核酸分子の配列を分析する、1つまたはそれを上回る核酸配列決定動作の結果を示してもよい。1つまたはそれを上回る実施例では、サンプルは、1人またはそれを上回る個人の組織から取得されてもよい。1つまたはそれを上回る付加的実施例では、サンプルは、血液または血漿等の1人またはそれを上回る個人の流体から取得されてもよい。1つまたはそれを上回る標的ゲノム領域は、1つまたはそれを上回る生物学的病態の存在に対応するゲノム領域に対応してもよい。例えば、標的領域は、生物学的病態が存在する個人内に存在する突然変異を有する、参照ゲノムのゲノム領域に対応してもよい。1つまたはそれを上回る例証的実施例では、標的領域は、1つまたはそれを上回る形態の癌が存在する個人内に1つまたはそれを上回る突然変異が存在する、参照ヒトゲノムのゲノム領域に対応してもよい。患者情報1402はまた、分子データリポジトリ1108によって記憶されるデータを伴う個人についての個人情報を示す情報と、個人によって提供されるサンプルに対して実施される試験および分析に対応する情報とを含んでもよい。
【0185】
データ統合および分析システム1102は、分子データリポジトリ1108から取得された個人情報を匿名化する、非特定化プロセス1406を実施してもよい。データ統合および分析システム1102は、非特定化プロセスの一部として1つまたはそれを上回る算出技法を実装し、非特定化されたデータが個人のプライバシを保護し、1つまたはそれを上回るプライバシ規制フレームワークに準拠するように、分子データリポジトリ1108によって記憶される個人に関連するデータを匿名化してもよい。非特定化プロセス1406は、1408において、トークンにアクセスすることを含んでもよい。種々の実施例では、トークンは、英数字の文字列を備えてもよい。1つまたはそれを上回る実施例では、トークンは、データ統合および分析システム1102によって生成されてもよい。1つまたはそれを上回る付加的実施例では、トークンは、第三者によって生成され、データ統合および分析システム1102によって取得されてもよい。
【0186】
トークンは、患者情報1402のサブセット1410に関連して、1つまたはそれを上回るハッシュ関数を使用して生成されてもよい。例証するために、分子データリポジトリ1108によって記憶される情報を有する個人に関して、トークンは、個別の個人の名前の少なくとも一部、個別の個人の名字の少なくとも一部、個別の個人の生年月日の少なくとも一部、個人の性別、および個別の個人の場所識別子の少なくとも一部の組み合わせを使用して生成されてもよい。非特定化プロセス1406はまた、1412において、分子データリポジトリ1108によって記憶されるデータを有する個人に関する識別子を生成することを含んでもよい。識別子は、トークンを生成するために使用される1つまたはそれを上回るハッシュ関数と異なる1つまたはそれを上回るハッシュ関数を使用して、データ統合および分析システム1102によって生成されてもよい。1つまたはそれを上回る例証的実施例では、データ統合および分析システム1102は、1つまたはそれを上回るハッシュ関数を使用して、個別の識別子の中間バージョンを生成し、次いで、1つまたはそれを上回るソルティング技法を識別子の中間バージョンに適用し、識別子の最終バージョンを生成してもよい。ソルト関数は、少なくとも1つのランダムビットを各中間識別子に追加し、個別の最終識別子を生成するように構成される関数を備える。種々の実施例では、データ統合および分析システム1102は、分子データリポジトリ1108によって記憶される個別の個人に関する情報の少なくとも一部を使用して、1412において識別子を生成してもよい。1つまたはそれを上回る例証的実施例では、識別子は、患者情報1402内に含まれる患者識別子に基づいて生成されてもよい。データ統合および分析システム1102によって生成される識別子は、分子データリポジトリ1108によって記憶されるデータを有する個別の個人に関して一意であってもよい。
【0187】
動作1414では、データ統合および分析システム1102は、識別子に基づいて、修正された患者情報1416を生成してもよい。修正された患者情報1416は、分子データリポジトリ1108と関連付けられる個人に関連するゲノミクスデータ1404と、個別の個人の識別子とを含んでもよい。修正された患者情報1416は、データ構造1418を有してもよい。データ構造1418は、分子データリポジトリ1108と関連付けられる個人の個別の識別子を含む列と、1つまたはそれを上回る遺伝子の識別子、1つまたはそれを上回る遺伝子の改変、遺伝子の改変のタイプ等の個人に関連するゲノミクスデータ1404を含むある数の列とを含んでもよい。
【0188】
データ統合および分析システム1102は、トークンファイル1420を生成してもよい。トークンファイル1420は、分子データリポジトリ1108によって記憶されるデータを有する個別の個人に関する、動作1408ではアクセスされる、第1のトークン1422を含んでもよい。トークンファイル1420は、個別の個人に関する情報を含む、ある数の列を含む、データ構造11424を有してもよい。データ構造11424は、データ統合および分析システム1102によって生成された個別の識別子を示す列と、個別の識別子と関連付けられる1つまたはそれを上回る第1のトークン1422を示す列とを含んでもよい。データ統合および分析システム1102は、健康保険請求データリポジトリ1106に結合される健康保険請求データ管理システム1426にトークンファイル1420を送信してもよい。健康保険請求データ管理システム1426は、対応する第2のトークン1428に関して第1のトークン1422を分析してもよい。第2のトークン1428は、健康保険請求データ管理システム1426によってアクセスされる、またはそれによって生成されてもよい。第2のトークン1428は、患者情報1402のサブセット1410と同一または類似する、健康保険請求データリポジトリ1106内に記憶されるデータを有する個人に関する情報のサブセットを使用して生成されてもよい。例えば、第2のトークン1428は、個別の個人の名前の少なくとも一部、個別の個人の名字の少なくとも一部、個別の個人の生年月日の少なくとも一部、個人の性別、および個別の個人の場所識別子の少なくとも一部の組み合わせを使用して生成されてもよい。
【0189】
種々の実施例では、健康保険請求データ管理システム1426は、対応する第1のトークン1422と合致する個別の第2のトークン1428と関連付けられる個人に関する健康保険請求データを健康保険請求データリポジトリ1106から読み出してもよい。第1のトークン1422のデータが、第2のトークン1428のデータに関する類似性の少なくとも閾値量を有するとき、第1のトークン1422は、第2のトークン1428と合致し得る。1つまたはそれを上回る実施例では、第1のトークン1422のデータが、第2のトークン1428のデータと同一であるとき、第1のトークン1422は、第2のトークン1428と合致し得る。
【0190】
個別の第1のトークン1422に対応する個別の第2のトークン1428を有する個人に関する健康保険請求データを識別することに応答して、健康保険請求データ管理システム1426は、修正された健康保険請求データ1430を生成してもよい。健康保険請求データ管理システム1426は、データ統合および分析システム1102に修正された健康保険請求データ1430を送信してもよい。1つまたはそれを上回る実施例では、修正された健康保険請求データ1430は、データ構造1432に従ってフォーマットされてもよい。データ構造1432は、第1のトークン1422に対応する第2のトークン1428のサブセットを含む列と、健康保険請求データを含むある数の列とを含んでもよい。
【0191】
動作1434では、データ統合および分析システム1102は、分子データリポジトリ1108および健康保険請求データリポジトリ1106の両方に共通する個人のゲノミクスデータおよび健康保険請求データを統合してもよい。データ統合および分析システム1102は、共通のトークンに対応するゲノミクスデータおよび健康保険請求データを決定することによって、分子データリポジトリ1108および健康保険請求データリポジトリ1106の両方に共通する個人を決定してもよい。データ統合および分析システム1102は、第1のトークン1422と第2のトークン1428との間の類似性の測度を決定することによって、ゲノミクスデータ1404の一部に関連する第1のトークン1422が、健康保険請求データの一部に関連する第2のトークン1428に対応することを決定してもよい。第1のトークン1422が、第2のトークン1428に関する類似性の少なくとも閾値量を有するシナリオでは、データ統合および分析システム1102は、
図1、
図2、および
図3の統合データリポジトリ1104等の統合データリポジトリ内に個人の識別子に関連してゲノミクスデータ1404の対応する部分および健康保険請求データの対応する部分を記憶してもよい。
【0192】
アーキテクチャ1400の実装は、異種のデータリポジトリからの非特定化された情報が単一のデータリポジトリに統合されることを可能にする、暗号プロトコルを実装してもよい。このように、統合データリポジトリ1104によって記憶されるデータのセキュリティは、増加される。加えて、アーキテクチャ1400によって実装される暗号プロトコルは、アーキテクチャ1400の暗号プロトコルが利用されない状況におけるものよりも効率的な統合データリポジトリ1104によって記憶される情報の読出および正確な分析を可能にし得る。例えば、分子データリポジトリ1104によって記憶される情報の規定されたセットに基づいて、暗号技法を使用して、第1のトークン1422を含む、トークンファイル1420を生成し、健康保険請求データリポジトリ1106によって記憶される情報の類似するまたは同一のセットに関して同一または類似する暗号技法を使用して生成された第2のトークン1428を利用することによって、データ統合および分析システム1102は、同一の個人に対応する異種のデータリポジトリによって記憶される情報を合致させてもよい。アーキテクチャ1400の暗号プロトコルを実装しないと、1つのデータリポジトリからの情報を1人またはそれを上回る個人に誤って帰属させる確率は、増加し、これは、データ統合および分析システム1102に送信される統合データリポジトリ要求1142に応答して、データ統合および分析システム1102によって提供される結果の正確度を減少させる。
【0193】
図15は、1つまたはそれを上回る実装による、統合データリポジトリ1104によって記憶されるデータに基づいて、データパイプラインシステム1138によってデータセットを生成するためのフレームワーク1500を図示する。統合データリポジトリ1104は、個人1502の群に関する健康保険請求データおよびゲノミクスデータを記憶してもよい。例えば、統合データリポジトリ1104は、個人1502の群の健康保険請求記録1504から取得された情報を記憶してもよい。個人1502の群内に含まれる個人毎に、統合データリポジトリ1104は、複数の健康保険請求記録1504から取得された情報を記憶してもよい。種々の実施例では、統合データリポジトリ1104によって記憶される情報は、ある数の個人に関する数千、数万、数十万、最大数百万個の健康保険請求記録1504を含み、および/またはそれから導出されてもよい。加えて、各健康保険請求記録は、複数の列を含んでもよい。結果として、統合データリポジトリ1104は、数百万個の列の健康保険請求データの分析を通して生成されてもよい。
【0194】
さらに、健康保険請求データは、構造化データフォーマットに従って編成されてもよいが、健康保険請求データは、典型的には、保健医療提供者によって個人に提供されるサービスに関連する金融情報および保険コード情報を示すために、健康保険提供者、患者、および保健医療提供者によって閲覧されるように配列される。したがって、健康保険請求データは、生物学的病態が存在する個人の特性に関連して利用可能であり得、生物学的病態に関する個人の治療を支援し得る洞察を得るために容易に分析されない。統合データリポジトリ1104は、統合データリポジトリ1104によって記憶されるデータが、1つまたはそれを上回る生物学的病態が存在し得る個人に関する傾向、特性、特徴、および/または洞察を決定するためにさらに分析されることを可能にする様式において、未加工健康保険請求データを分析および修正することによって、生成および編成されてもよい。例えば、健康保険コードは、医療手技、生物学的病態、治療、投薬量、薬品の製造業者、薬品の販売業者、または診断のうちの少なくとも1つが、個人に関する健康保険請求データに基づいて所与の個人に関して決定され得るような方法において、統合データリポジトリ1104内に記憶されてもよい。種々の実施例では、データ統合および分析システム1102は、健康保険請求データと、健康保険請求データに対応する種々の治療、症状、または生物学的病態との間の相関を示す、1つまたはそれを上回るテーブルを生成し、実装してもよい。さらに、統合データリポジトリ1104は、個人1502の群のゲノミクスデータ記録1506を使用して生成されてもよい。種々の実施例では、大量の健康保険請求データが、統合データリポジトリ1104を生成するために、個人1502の群に関するゲノミクスデータと合致されてもよい。
【0195】
個人1502の群に関するゲノミクスデータ記録1506を健康保険請求記録1504と統合することによって、データ統合および分析システム1102は、既存のシステムが典型的には決定することができない、ゲノミクスデータ記録1506内に存在する1つまたはそれを上回るバイオマーカの存在と健康保険請求データ記録1506によって示される個人の他の特性との間の相関を決定してもよい。例えば、データ統合および分析システム1102は、個人が受けた治療に対応する個人の1つまたはそれを上回るゲノム特性、治療のタイミング、治療の投薬量、個人の診断、喫煙ステータス、1つまたはそれを上回る生物学的病態の存在、生物学的病態の1つまたはそれを上回る症状の存在、それらの1つまたはそれを上回る組み合わせ、および同等物を決定してもよい。統合データリポジトリ1104を使用してデータ統合および分析システム1102によって決定された相関に基づいて、既存のシステムにおいて識別されていないであろう、1つまたはそれを上回る治療から利益を享受し得る個人のコホートが、識別されてもよい。1つまたはそれを上回る実施例では、統合データリポジトリ1104を生成するために、健康保険請求記録1504およびゲノミクス請求記録1506を統合するために実装されるプロセスおよび技法は、複雑であり、統合データリポジトリ1104を生成するために使用されるコンピューティングリソースの量を最小限にするために、効率を向上させる技法、システム、およびプロセスを実装してもよい。
【0196】
1つまたはそれを上回る例証的実施例では、データパイプラインシステム1138は、統合データリポジトリ1104によって記憶される情報にアクセスし、個人1502の群の少なくとも一部に関連する情報を含む、ある数の付加的データ記録1508を含むデータセットを生成してもよい。
図5の例証的実施例では、付加的データ記録1508は、個人が、肺癌が存在する個人のコホート内に含まれるかどうかを示す情報を含む。データパイプラインシステム1138は、データ処理命令の複数の異なるセットを実行し、肺癌が存在する個人1502の群のコホートを決定してもよい。種々の実施例では、付加的データ記録1508は、1つまたはそれを上回る手続保険の識別子、1つまたはそれを上回る国際疾病分類(ICD)コード、および1つまたはそれを上回る健康保険手続日等の肺癌に関する個人1502のステータスを決定するために使用される情報を示してもよい。個人1502が肺癌コホート内に含まれるかどうかを示す列を含むことに加えて、付加的データ記録1508は、肺癌の存在に関する個人1502のステータスの信頼レベルを示す列を含んでもよい。
【0197】
図16は、1つまたはそれを上回る実装による、生物学的病態の少なくとも一次診断を有する患者のコホートを決定するためのシステム1600を図示する。システム1600は、データ統合および分析システム1102と、統合データリポジトリ1104とを含むことができる。データ統合および分析システム1102は、統合データリポジトリ1104によって記憶される情報を分析し、その中に1つまたはそれを上回る生物学的病態が存在する、患者のコホートを決定することができる。例えば、データ統合および分析システム1102は、その中に第1の生物学的病態が存在する、統合データリポジトリ1104によって記憶されるデータを有する、第1の患者群と、その中に第2の生物学的病態が存在する、統合データリポジトリ1104によって記憶されるデータを有する、第2の患者群とを決定することができる。データ分析および統合システム1102は、少なくともデータパイプラインシステム1138と、データ分析システム1140とを含むことができる。データ分析システム1140は、データパイプラインシステム1138から取得されるデータに基づいて、データ分析結果1146を生成することができる。データ分析システム1140はまた、統合データリポジトリ1140から取得される付加的データを分析し、データ分析結果1146を生成することができる。
【0198】
データパイプラインシステム1138は、統合データリポジトリ1104から取得されるデータを分析し、その中に1つまたはそれを上回る生物学的病態が存在する、患者のコホートを決定する、コホート選択システム1602を含むことができる。種々の実施例では、コホート選択システム1602は、数万~最大数十万の患者またはそれを上回る患者からのデータを分析し、患者のコホートを決定することができる。1つまたはそれを上回る実施例では、数十万~最大数百万の健康保険請求記録またはそれを上回る健康保険請求記録が、コホート選択システム1602によって分析され、1つまたはそれを上回る患者のコホートを決定する。加えて、コホート選択システム1602は、数百万の保険請求コード~数千万の保険請求コードまたはそれを上回るものを分析し、1つまたはそれを上回る患者のコホートを決定することができる。1つまたはそれを上回る例証的実施例では、コホート選択システム1602は、そのような大量の情報を効率的に分析するために、コホート識別フレームワーク1604に従って、統合データリポジトリ1104から取得される情報を分析することができる。コホート識別フレームワーク1604は、いくつかのルール、いくつかのスキーム、または論理のうちの少なくとも1つを含み、それによって、統合データリポジトリ1104から取得されるデータを分析することができる。コホート識別フレームワーク1604はまた、その中に所与の生物学的病態が存在する、患者を正確に識別するために使用され得る、統合データリポジトリ1104内に記憶される情報を識別するための構造を提供する。コホート識別フレームワーク1604は、健康保険データを使用して、患者の診断に関連するデータのコーパスに関連して、1つまたはそれを上回る機械学習技法、1つまたはそれを上回る統計技法、または1つまたは付加的算出技法のうちの少なくとも1つを実装および/または訓練することによって決定されることができる。種々の例証的実施例では、コホート識別フレームワーク1604は、
図4-10に関して説明されるプロセスの少なくとも一部を含むことができる。
【0199】
1つまたはそれを上回る実施例では、医療ヘッダデータテーブル1606が、コホート選択システム1602に提供され、コホート識別フレームワーク1604に従って分析し、1つまたはそれを上回る患者のコホートを決定することができる。医療ヘッダデータテーブル1606は、複数の行と、複数の列とを含むことができる。複数の行は、ある数の患者に関する医療診療に対応し得る。医療診療は、1人またはそれを上回る医療提供者への受診、1人またはそれを上回る医療提供者によって与えられるサービス、1人またはそれを上回る患者に提供される療法薬、または1つまたはそれを上回るそれらの組み合わせに対応し得る。種々の実施例では、個々の医療診療は、ある数の患者に提供されるサービスまたは製品のうちの少なくとも1つに関する料金を示すことができる。例えば、個々の医療診療は、医療診療に関連する1つまたはそれを上回る健康保険請求を示すことができる。1つまたはそれを上回る付加的実施例では、データテーブル1606は、個々の患者が1つまたはそれを上回る医療診療と関連付けられることを示すことができる。個々の医療診療は、所与の医療診療凡例および/または所与の医療診療識別子に対応し得る。少なくともいくつかの実施例では、個々の医療診療凡例または個々の医療診療識別子は、所与の医療診療を一意に識別することができる。医療ヘッダデータテーブル1606はまた、個々の医療診療に関する利用日を示す、1つまたはそれを上回る列を含むことができる。加えて、医療ヘッダデータテーブル1606は、個々の医療診療に関連する患者に関する診断コードを示す、1つまたはそれを上回る列を含むことができる。例証するために、医療ヘッダデータテーブル1606は、そのために個々の患者が治療を受けた、1つまたはそれを上回る生物学的病態を示すことができる。
【0200】
コホート識別フレームワーク1604は、1つまたはそれを上回る患者のコホートを決定するためにコホート選択システム1602によって分析されるべき医療ヘッダデータテーブル1606の1つまたはそれを上回る列を示すことができる。例証するために、コホート識別フレームワーク1604は、生物学的病態の診断に対応する、健康保険コードを含む、医療ヘッダデータテーブル1606の1つまたはそれを上回る列を示すことができる。コホート識別フレームワーク1604はまた、健康保険診断コードのうちの1つまたはそれを上回るタイプのフォーマットを示すことができる。例えば、コホート識別フレームワーク1604は、国際疾病分類(ICD)コードのフォーマットを示すことができる。1つまたはそれを上回る例証的実施例では、コホート識別フレームワーク1604は、ICD第9版コードのフォーマット、ICD第10版コードのフォーマット、ICD第11版コードのフォーマット、または別のICDバージョンのフォーマットを示すことができる。
【0201】
加えて、コホート識別フレームワーク1604は、1つまたはそれを上回る生物学的病態に対応する、診断コードを示すことができる。種々の実施例では、コホート識別フレームワーク1604は、癌の1つまたはそれを上回る形態等の所与の生物学的病態の1つまたはそれを上回る形態に対応する、診断コードを示すことができる。例証するために、コホート識別フレームワーク1604は、第1の形態の癌に対応する、1つまたはそれを上回る第1の診断コードと、第2の形態の癌に対応する、1つまたはそれを上回る第2の診断コードとを示すことができる。1つまたはそれを上回る付加的例証的実施例では、コホート識別フレームワーク1604は、第1の形態の癌に対応する、第1のフォーマットの1つまたはそれを上回る第1の診断コードと、第1の形態の癌に対応する、第2のフォーマットの1つまたはそれを上回る第2の診断コードと、第2の形態の癌に対応する、第1のフォーマットの1つまたはそれを上回る第3の診断コードと、第2の形態の癌に対応する、第2のフォーマットの1つまたはそれを上回る第4の診断コードとを示すことができる。1つまたはそれを上回る実施例では、診断コードは、患者に関する一次診断である、生物学的病態に対応し得る。1つまたはそれを上回る実施例では、コホート識別フレームワーク1604は、1人またはそれを上回る患者に対する生物学的病態の存在を示さない、1つまたはそれを上回る生物学的病態を示す、診断コードを含むことができる。
【0202】
コホート識別フレームワーク1604は、医療ヘッダデータテーブル1606内に含まれる情報を分析するための論理またはルールのうちの少なくとも1つを示すことができる。例えば、コホート識別フレームワーク1604は、患者に関する一次診断または患者に関する二次診断のうちの少なくとも1つを決定するために使用されるべき閾値期間を示すことができる。1つまたはそれを上回る例証的実施例では、コホート識別フレームワーク1604は、閾値期間内に第1の診断コードに対応する医療診療および第2の診断コードに対応する別の医療診療を有する患者が、第1の診断コードに関連する第1の生物学的病態に対応する、第1のコホートから除外され得ることを示すことができる。加えて、これらのシナリオでは、コホート識別フレームワーク1604は、患者が、第2の診断コードに関連する第2の生物学的病態に対応する、第2のコホートから除外され得ることを示すことができる。さらに、コホート識別フレームワーク1604は、初期診断コードを示す以前の医療診療後、付加的閾値期間を上回る、新しい診断コードを示す医療診療を有する患者が、初期診断コードに関連する生物学的病態に対応する、コホートから除外され得ることを示すことができる。種々の実施例では、コホート識別フレームワーク1604は、患者が同日に複数の生物学的病態のための治療を受ける状況において、患者をカテゴリ化する方法を決定するための論理を示すことができる。
【0203】
さらに、コホート識別フレームワーク1604は、コホート選択システム1602による患者の診断に対する質的計測値を決定し、患者をコホート内に含むための論理または1つまたはそれを上回る基準のうちの少なくとも1つを含むことができる。質的計測値は、コホート選択システム1602による患者の診断が、患者内に存在する、生物学的病態に対応する、確率に対応し得る。1つまたはそれを上回る実施例では、質的計測値は、スコアまたは確率の範囲等の定量的計測値であることができる。1つまたはそれを上回る付加的実施例では、質的計測値は、「低」、「中」、または「高」等の定質的計測値であることができる。
【0204】
1つまたはそれを上回る実施例では、コホート選択システム1602は、コホート識別フレームワーク1604を実装し、統合データリポジトリ1104によって記憶される健康保険記録を有する、第1の患者のコホートに対応する、第1のコホートデータテーブル1608を生成することができる。第1のコホートデータテーブル1608は、第1のコホート内に含まれる患者の第1の一次診断1610に対応し得る。コホート選択システム1602はまた、コホート識別フレームワーク1604を実装し、統合データリポジトリ1104によって記憶される健康保険記録を有する、第2の患者のコホートに対応する、第2のコホートデータテーブル1612を生成することができる。第2のコホートデータテーブル1612は、第2のコホート内に含まれる患者の第2の一次診断1614に対応し得る。加えて、コホート選択システム1602は、コホート識別フレームワーク1604を実装し、統合データリポジトリ1104によって記憶される健康保険記録を有する、第3の患者のコホートに対応する、第3のコホートデータテーブル1616を生成することができる。第3のコホートデータテーブル1616は、一次診断および二次診断等の複数の診断1618を有する、患者に対応し得る。1つまたはそれを上回る例証的実施例では、第1の一次診断1610は、2型糖尿病等の第1の生物学的病態を含むことができ、第2の一次診断は、高血圧症等の第2の生物学的病態を含むことができる。1つまたはそれを上回る付加的例証的実施例では、複数の診断1618は、2型糖尿病の一次診断および高血圧症の二次診断に対応し得る。1つまたはそれを上回るさらなる例証的実施例では、第1の一次診断1610は、第1の形態の癌に対応し得、第2の一次診断1614は、第2の形態の癌に対応し得、複数の診断1618は、患者が、第1の形態の癌の一次診断と、第2の形態の癌の二次診断とを有するように、転移している癌を有する、患者に対応し得る。
【0205】
種々の実施例では、第1のコホートデータテーブル1608、第2のコホートデータテーブル1612、または第3のコホートデータテーブル1616のうちの少なくとも1つは、個別のコホート内に含まれる、患者についての情報を含むことができる。例えば、データテーブル1608、1612、1616は、統合データリポジトリ1104によって記憶されるデータを有する、患者の識別子を示すことができる。データテーブル1608、1612、1618はまた、患者の年齢、患者の生年、患者の誕生日、患者の生年、患者の死亡日、健康保険請求活動の1つまたはそれを上回る日付、患者の一次診断、患者の二次診断、患者の転移ステータス、1つまたはそれを上回るそれらの組み合わせ等の患者の個人情報を示すことができる。
【0206】
1つまたはそれを上回る実施例では、データテーブル1608、1612、1616は、データ分析システム1140に提供されることができ、データ分析システム1140は、データテーブル1608、1612、1616によって記憶される情報の少なくとも一部を使用して、データ分析結果1146を生成することができる。種々の実施例では、データ分析システム1140は、少なくとも患者識別子を使用して、データテーブル1608、1612、1616のうちの少なくとも1つ内に含まれる患者に対応する付加的データを、統合データリポジトリ1104から読み出すことができる。1つまたはそれを上回る付加的実施例では、データ分析システム1140は、患者の年齢、患者の生年、患者の誕生日、および同等物等の付加的情報と組み合わせて、患者識別子を使用して、データテーブル1608、1612、1616のうちの少なくとも1つ内に含まれる患者に対応する、付加的データを、統合データリポジトリ1104から読み出すことができる。1つまたはそれを上回る例証的実施例では、データ分析システム1140は、データテーブル1608、1612、1616のうちの少なくとも1つによって記憶される情報を使用して、患者のゲノミクス情報、メタボローム情報、トランスクリプトーム情報、フラグメントーム情報、免疫受容体情報、メチル化情報、エピゲノム情報、および/またはプロテオミクス情報のうちの少なくとも1つを読み出し、データ分析結果1146を生成することができる。
【0207】
少なくともいくつかの実施例では、コホート選択システム1602は、医療ヘッダデータテーブル1606内に含まれるデータを分析し、医療ヘッダデータテーブル1604の1つまたはそれを上回る診断列内に健康保険請求コードのセットを有する、患者を決定することができる。健康保険請求コードは、生物学的病態の一次診断に対応する、ICD第9版コードのセットおよび/またはICD第10版コードのセットに対応し得る。例えば、コホート選択システム1602は、医療ヘッダデータテーブル1606を分析し、非小細胞肺癌に対応する、1つまたはそれを上回るICD第9版診断コードと、非小細胞肺癌に対応する、1つまたはそれを上回るICD第10版診断コードとを有する、患者を識別することができる。
【0208】
コホート選択システム1602は、規定された健康保険請求コードに対応する、第1の患者の数の識別情報を記憶する、中間データテーブルを生成することができる。1つまたはそれを上回る例証的実施例では、中間データテーブルは、キャッシュメモリ内等のメモリ内に一時的に記憶されることができる一方、付加的分析が、コホート選択システム1602によって、第1の患者の数に関連するデータに対して実施される。例えば、コホート選択システム1602は、コホート識別フレームワーク1604に従って、第1の患者の数に関して付加的健康保険請求データを分析することができる。このように、コホート選択システム1602は、規定された健康保険請求コードに対応する、生物学的病態の診断を有し得るが、生物学的病態が、患者の一次診断ではない、患者を識別することができる。このように、コホート選択システム1602は、1つまたはそれを上回る中間データテーブルを使用して、データテーブル1608、1612、1616内に含むための患者を正確かつ効率的に決定する、マルチステップ分析を実装することができる。種々の実施例では、コホート選択システム1602は、診断日に対応する論理に関連して、および/または付加的健康保険請求コードに関連して、コホート識別フレームワーク1604を実装し、生物学的病態の一次診断を有する、第2の患者の数を決定することができる。
【0209】
1つまたはそれを上回るさらなる実施例では、コホート選択システム1602は、付加的情報を分析し、データテーブル1608、1612、1616内に含むための患者を決定することができる。例えば、コホート選択システム1602は、健康保険請求データに加え、統合データリポジトリ1104によって記憶される組織学情報を分析し、コホートと関連付けられる生物学的病態を有する、コホート内に含むための患者を識別することができる。例証するために、組織学記録はまた、診断情報を含むことができる。これらのシナリオでは、コホート選択システム1602は、生物学的病態の診断に関連する健康保険請求データと併せて、統合データリポジトリ1104によって記憶される生物学的病態に関する診断情報を分析し、コホート内に含むための患者を決定することができる。1つまたはそれを上回る例証的実施例では、コホート選択システム1602は、コホート識別フレームワーク1604に従って、組織学情報および健康保険請求データを分析し、生物学的病態に関連する一次診断を有する、コホートの1人またはそれを上回る患者を決定することができる。
【0210】
コホート選択システム1602はまた、1つまたはそれを上回る付加的データテーブルを生成することができる。例えば、コホート選択システム1602は、個々の患者に関する1つまたはそれを上回る診断を示す、診断データテーブルを生成することができる。例証するために、コホート選択システム1602は、患者が1つまたはそれを上回るコホート内に含まれることを決定することができる。これらのシナリオでは、コホート選択システム1602は、診断データテーブル内に、患者が、患者を含む、1つまたはそれを上回るコホートに対応する、生物学的病態と診断されることを示すことができる。診断データテーブルは、患者の一次診断に対応する、生物学的病態、患者の二次診断に対応する、付加的生物学的病態、患者の転移病態、または1つまたはそれを上回るそれらの組み合わせを示すことができる。また、個々の患者に関する診断テーブルを決定するための実装は、患者の異なる診断を経時的に示す。患者の診断に加え、診断データテーブルはまた、診断に対応する、健康保険コード、患者の識別子、治療日、患者の診断に関連する日付、最直近診断、または1つまたはそれを上回るそれらの組み合わせを示すことができる。種々の実施例では、データ分析システム1140は、診断データテーブル内に含まれる情報または診断データテーブルから導出される情報を分析し、データ分析結果1146を生成することができる。1つまたはそれを上回る例証的実施例では、診断データテーブルは、実世界全生存率(rwOS)等の実世界エビデンス計測値を生成し、データ分析結果1146を決定するために使用されることができる。
【0211】
1つまたはそれを上回る例証的実施例では、データ分析システム1140は、データテーブル1608、1612、1616のうちの1つまたはそれを上回るものによって記憶される情報および/またはデータテーブル1608、1612、1616のうちの1つまたはそれを上回るものに基づいて統合データリポジトリ1104から読み出される情報を分析し、データ分析結果1146を決定してもよい。1つまたはそれを上回る実施例では、データ分析システム1140は、所与の生物学的病態のために治療される患者のコホートに対応する、情報を分析するための要求を受信してもよい。要求に応答して、データ分析システム1140は、コホート選択システム1602によって生成された情報を分析し、1つまたはそれを上回るコホート内に含まれる患者に対応する、1つまたはそれを上回る定量的測定値を含む、データ分析結果1146を生成してもよい。例証するために、データ分析システム1140は、コホート選択システム1602によって生成された情報を分析し、コホート内に含まれる患者に関する実世界生存率計測値を決定してもよい。種々の実施例では、データ分析システム1140は、患者のコホートに関連する情報を分析し、コホート内に含まれる患者に関するある期間にわたる生存率確率を決定してもよい。1つまたはそれを上回る例証的実施例では、データ分析システム1140は、1つまたはそれを上回る患者のコホートに関連する情報を分析し、コホート内に含まれる患者に関する実世界全生存率計測値を決定してもよい。1つまたはそれを上回る付加的例証的実施例では、データ分析システム1140は、コホート選択システム1602によって識別されるコホートに関連する情報を分析し、1つまたはそれを上回るコホート内に含まれる患者に関する次の治療までの時間計測値および/または中断までの時間計測値を決定してもよい。
【0212】
種々の実施例では、データ分析システム1140は、コホート選択システム1602によって識別されるコホート内に含まれる患者に対応する、情報を分析し、コホート内に含まれる患者の少なくともサブセット内の生物学的病態の進行度の程度を決定してもよい。1つまたはそれを上回る実施例では、データ分析システム1140は、コホート選択システム1602によって生成された情報の分析に基づいて、療法の方針の一部として1つまたはそれを上回る医薬品物質を受ける患者のコホートに関する進行度の程度を決定してもよい。加えて、データ分析システム1140は、コホート選択システム1602によって生成された情報の分析に基づいて、1つまたはそれを上回るゲノム突然変異を有する患者のコホートに関する進行度の程度を決定してもよい。1つまたはそれを上回る例証的実施例では、データ分析システム1140は、患者のコホートに関する次の治療までの時間計測値または中断までの時間計測値のうちの少なくとも1つを分析し、ゲノム突然変異を有するコホートの患者に関する生物学的病態の進行度の程度を決定してもよい。これらの事例では、データ分析システム1140は、統合データリポジトリ1104にクエリし、コホート内に含まれる患者のゲノムデータを決定し、1つまたはそれを上回る規定されたゲノム突然変異を有する、コホートの患者を識別してもよい。データ分析システム1140は、次いで、1つまたはそれを上回るゲノム突然変異を有するコホート内に含まれる患者の次の治療までの時間計測値、中断までの時間計測値、および/または実世界全生存率計測値を分析し、コホート内に含まれ、生物学的病態の治療を受けた、患者に関する生物学的病態の進行度を決定してもよい。
【0213】
1つまたはそれを上回るさらなる実施例では、データ分析システム1140は、コホート選択システム1602によって生成された情報を分析し、コホートと関連付けられる生物学的病態に関する1つまたはそれを上回る治療を受けた、コホート内に含まれる1人またはそれを上回る患者によって発現された、耐性のレベルを決定してもよい。例えば、データ分析システム1140は、コホート選択システム1602によって識別される患者のコホートの情報を分析し、コホート内に含まれる患者の生物学的病態を治療するための一連の療法の一部として1つまたはそれを上回る医薬品物質を受けた、コホートの1人またはそれを上回る患者における耐性のレベルを決定してもよい。種々の実施例では、データ分析システム1140は、次の治療までの時間計測値、中断までの時間計測値、または実世界生存率計測値のうちの少なくとも1つを分析し、治療を受けた、コホートの患者によって発現された耐性のレベルを決定してもよい。少なくともいくつかの実施例では、データ分析システム1140はまた、1つまたはそれを上回るゲノム突然変異を有する、コホート内の患者に関する1つまたはそれを上回る治療に対する耐性のレベルを決定してもよい。少なくともいくつかの実施例では、耐性のレベルは、次の治療までの時間または実世界生存率がより低い値を有する状況では、より大きくあり得、耐性のレベルは、次の治療までの時間または実世界生存率の値が比較的に高い状況では、より低くなり得る。
【0214】
少なくともいくつかの実施例では、データ分析システム108は、生物学的病態に対応する、1つまたはそれを上回る一連の療法データ構造836によって記憶される、一連の療法情報を分析し、生物学的病態と診断される患者に施術するための1つまたはそれを上回る治療に関する推奨を決定してもよい。1つまたはそれを上回る実施例では、データ分析システム1140は、コホート選択システム1602によって識別される患者のコホートについての情報を分析し、その中で耐性のレベルが比較的に低い、および/または進行度の程度が比較的に低い、1つまたはそれを上回る一連の療法を受けた、コホートの患者の1つまたはそれを上回る特性を決定してもよい。データ分析システム1140は、次いで、生物学的病態と診断されるコホートの1人またはそれを上回る付加的患者の特性を分析し、1つまたはそれを上回る一連の療法を1人またはそれを上回る付加的患者に対する治療として推奨すべきかどうかを決定してもよい。コホートの1人またはそれを上回る付加的患者の少なくとも一部は、生物学的病態のための治療をすでに受けている場合がある。1つまたはそれを上回る付加的実施例では、コホートの1人またはそれを上回る付加的患者の少なくとも一部は、コホートと関連付けられる生物学的病態のための治療を受けていない場合がある。種々の実施例では、データ分析システム1140はまた、所与のコホート内に含まれる患者の情報を分析し、コホート内に含まれる患者に関する一連の療法の有効性を決定してもよい。一連の療法の有効性は、コホートの患者に対する生物学的病態の影響を低減させる、またはそれを排除することのうちの少なくとも1つの一連の療法の確率に対応し得る。
【0215】
種々の実施例では、生物学的病態の進行度の程度、生物学的病態を治療するための一連の療法の有効性、一連の治療に対して耐性を発現する確率、またはそれらの組み合わせが、1つまたはそれを上回る統計技法または1つまたはそれを上回る機械学習技法のうちの少なくとも1つを使用して、データ分析システム1140によって決定されてもよい。例証するために、データ分析システム1140は、コックス比例ハザードモデル、カイ二乗検定、ログランク検定、またはKaplan-Meier法のうちの少なくとも1つを実装し、生物学的病態の進行度の程度、生物学的病態を治療するための一連の療法の有効性、または一連の治療に対する耐性を発現する確率のうちの少なくとも1つを決定してもよい。1つまたはそれを上回る付加的実施例では、データ分析システム1140は、1つまたはそれを上回るニューラルネットワーク、1つまたはそれを上回る畳み込みニューラルネットワーク、または1つまたはそれを上回る残留ニューラルネットワークを実装し、生物学的病態の進行度の程度、生物学的病態を治療するための一連の療法の有効性、または一連の治療に対する耐性を発現する確率のうちの少なくとも1つを決定してもよい。
【0216】
1つまたはそれを上回る例証的実施例では、データ分析システム1140は、一連の療法に対する耐性を発現する閾値確率未満または少なくとも一連の療法のための有効性の付加的閾値量のうちの少なくとも1つを有する、患者の1つまたはそれを上回る特性を決定してもよい。1つまたはそれを上回るシナリオでは、データ分析システム1140は、コホート選択システム1602によって決定される患者のコホートについての情報を分析し、1つまたはそれを上回る特性を決定してもよい。少なくともいくつかの実施例では、データ分析システム1140は、1つまたはそれを上回る統計技法または1つまたはそれを上回る機械学習技法のうちの少なくとも1つを実装し、一連の療法に対する耐性を発現する閾値確率未満または少なくとも一連の療法のための有効性の付加的閾値量のうちの少なくとも1つを有する、患者の1つまたはそれを上回る特性を決定してもよい。1つまたはそれを上回る実施例では、データ分析システム1140は、1つまたはそれを上回る抽出アルゴリズムまたは1つまたはそれを上回る分類アルゴリズムのうちの少なくとも1つを実装し、1つまたはそれを上回る特性を決定してもよい。種々の実施例では、データ分析システム1140は、1つまたはそれを上回るニューラルネットワーク、1つまたはそれを上回るフィードフォワードニューラルネットワーク、1つまたはそれを上回る回帰型ニューラルネットワーク、1つまたはそれを上回る残留ネットワーク、または1つまたはそれを上回る自動エンコーダのうちの少なくとも1つを実装し、一連の療法に対する耐性を発現する閾値確率未満または少なくとも一連の療法のための有効性の付加的閾値量のうちの少なくとも1つを有する、1つまたはそれを上回る特性を決定してもよい。
【0217】
1つまたはそれを上回る付加的例証的実施例では、データ分析システム1140は、1つまたはそれを上回るログランク検定を実装し、1つまたはそれを上回るゲノム突然変異を有し、所与の生物学的病態と診断される、またはその中に所与の生物学的病態が存在すると疑われる、コホート選択システム1602によって決定される1つまたはそれを上回る患者のコホートの情報に基づいて決定された、死亡までの時間計測値と次の治療までの時間計測値との間で差異を分析してもよい。種々の実施例では、分析内に含まれる患者はまた、生物学的病態を治療するための1つまたはそれを上回る規定された一連の療法を受けている場合がある。加えて、データ分析システム1140は、1つまたはそれを上回るカイ二乗検定を実装し、1つまたはそれを上回る規定されたゲノム突然変異、少なくともいくつかの事例では、1つまたはそれを上回るクローンゲノム突然変異対1つまたはそれを上回るサブクローンゲノム突然変異等の1つまたはそれを上回る付加的ゲノム特性を有する、コホートの患者内の1つまたはそれを上回る共起ゲノム突然変異を有する、コホート内に含まれる患者の割合を決定してもよい。さらに、1つまたはそれを上回るコックス比例ハザードモデルが、データ分析システム1140によって実装され、患者に関する生存率計測値を決定してもよい。このように、生物学的病態を治療するための1つまたはそれを上回る一連の療法の有効性が、データ分析システム1140によって、コックス比例ハザードモデルを使用して決定された生存確率に基づいて、決定されてもよい。
【0218】
コホート識別フレームワーク1604が、コホート選択システム1602によって実装される1つまたはそれを上回る算出技法と、少なくともいくつかの事例では、コホート選択システム1602によって生成された中間データテーブルとに加え、データ分析システム1140によって、データ分析結果1146を正確に生成するために使用されてもよい。すなわち、コホート選択システム1602によって識別されるコホートに基づいて、実世界生存率計測値、疾患進行度計測値、疾患耐性計測値、治療有効性レベル、1つまたはそれを上回るそれらの組み合わせ等が、コホート内に含まれる患者が存在する所与の生物学的病態の少なくとも閾値確率を有するため、コホートに関して正確に決定され得る。これらの定量的測定値の正確な決定は、データ分析システム1140が、患者に関する正確で、効果的で、かつ改善された転帰をもたらす、患者に対する治療推奨を提供することを可能にする。コホート識別フレームワーク1604に規定される手技、ルール、スキーム、およびプロトコルならびにコホート選択システム1602およびデータ分析システム1140によって実装される算出技法がなければ、データ分析結果1146内に含まれる治療推奨は、患者に関する転帰を改善する可能性が低い。コホート識別フレームワーク1604は、いくつかの算出技法、訓練プロセス、およびフィードバックループを使用して経時的に生成され、最適治療推奨を生じ、患者のコホートに関する転帰における一連の療法の有効性を示す、正確な計測値を提供し、治療転帰における患者コホートのゲノム突然変異の影響に関する正確な情報を提供する、基準、ルール、スキーム、プロトコル、閾値、および算出技法の規定されたセットを決定している。
【0219】
図17は、いくつかの実装による、コンピューティング機械1700の回路ブロック図を図示する。いくつかの実装では、コンピューティング機械1700のコンポーネントは、
図17の回路ブロック図に示される他のコンポーネントを格納する、またはその中に統合されてもよい。例えば、コンピューティング機械1700の一部は、プロセッサ1702内に常駐してもよく、「処理回路網」と称され得る。処理回路網は、処理ハードウェア、例えば、1つまたはそれを上回る中央処理ユニット(CPU)、1つまたはそれを上回るグラフィック処理ユニット(GPU)、および同等物を含んでもよい。代替実装では、コンピューティング機械1700は、独立型デバイスとして動作してもよい、または他のコンピュータに接続(例えば、ネットワーク化)されてもよい。ネットワーク化された展開では、コンピューティング機械1700は、サーバ、クライアントの容量内で、またはサーバ-クライアントネットワーク環境内の両方で動作してもよい。ある実施例では、コンピューティング機械1700は、ピアツーピア(P2P)(または他の分散型)ネットワーク環境内のピア機械として作用してもよい。本書では、語句「P2P」、「デバイスツーデバイス(D2D)」、および「サイドリンク」は、同義的に使用され得る。コンピューティング機械1700は、特殊コンピュータ、パーソナルコンピュータ(PC)、タブレットPC、携帯情報端末(PDA)、モバイル電話、スマートフォン、ウェブ器具、ネットワークルータ、スイッチまたはブリッジ、もしくはその機械によって講じられるアクションを規定する、(順次または別様に)命令を実行することが可能である、任意の機械であってもよい。
【0220】
本明細書に説明されるような実施例は、論理またはいくつかのコンポーネント、モジュール、または機構を含んでもよい、またはその上で動作してもよい。モジュールおよびコンポーネントは、規定された動作を実施することが可能である、有形エンティティ(例えば、ハードウェア)であって、ある様式で構成または配列されてもよい。ある実施例では、回路は、モジュールとして規定された様式において(例えば、内部で、または他の回路等の外部エンティティに対して)、配列されてもよい。ある実施例では、1つまたはそれを上回るコンピュータシステム/装置(例えば、独立型、クライアント、またはサーバコンピュータシステム)または1つまたはそれを上回るハードウェアプロセッサの全体または一部は、規定された動作を実施するように動作するモジュールとして、ファームウェアまたはソフトウェア(例えば、命令、アプリケーション部分、またはアプリケーション)によって、構成されてもよい。ある実施例では、ソフトウェアは、機械可読媒体上に常駐してもよい。ある実施例では、ソフトウェアは、モジュールの下層ハードウェアによって実行されると、ハードウェアに、規定された動作を実施させる。
【0221】
故に、用語「モジュール」(および「コンポーネント」)は、規定された様式において動作する、または本明細書に説明される任意の動作の一部または全てを実施するように物理的に構築される、具体的に構成(例えば、有線配線)される、または一時的に(例えば、一過性に)構成(例えば、プログラム)される、エンティティである、有形エンティティを包含するものと理解される。その中でモジュールが一時的に構成される、実施例を検討すると、モジュールはそれぞれ、任意の1つの瞬間においてインスタンス化される必要はない。例えば、モジュールが、ソフトウェアを使用して構成される、汎用ハードウェアプロセッサコアを備える場合、汎用ハードウェアプロセッサは、異なる時間において、個別の異なるモジュールとして構成されてもよい。ソフトウェアは、故に、ハードウェアプロセッサを構成し、例えば、ある時間のインスタンスにおいて、特定のモジュールを構成し、異なる時間のインスタンスにおいて、異なるモジュールを構成してもよい。
【0222】
コンピューティング機械1700は、ハードウェアプロセッサ1702(例えば、中央処理ユニット(CPU)、GPU、ハードウェアプロセッサコア、またはそれらの任意の組み合わせ)と、メインメモリ1704と、静的メモリ1706とを含んでもよく、そのいくつかまたは全ては、インターリンク(例えば、バス)1708を介して、相互に通信してもよい。図示されないが、メインメモリ1704は、あらゆるリムーバブルストレージおよび非リムーバブルストレージ、揮発性メモリ、または不揮発性メモリを含有してもよい。コンピューティング機械1700はさらに、ビデオディスプレイユニット1710(または他のディスプレイユニット)と、英数字入力デバイス1712(例えば、キーボード)と、ユーザインターフェース(UI)ナビゲーションデバイス1714(例えば、マウス)とを含んでもよい。ある実施例では、ディスプレイユニット1710、入力デバイス1712、およびUIナビゲーションデバイス1714は、タッチスクリーンディスプレイであってもよい。コンピューティング機械1700は、加えて、記憶デバイス(例えば、ドライブユニット)1716と、信号生成デバイス1718(例えば、スピーカ)と、ネットワークインターフェースデバイス1720と、全地球測位システム(GPS)センサ、コンパス、加速度計、または他のセンサ等の1つまたはそれを上回るセンサ1621とを含んでもよい。コンピューティング機械1700は、シリアル(例えば、ユニバーサルシリアルバス(USB)、パラレル、または他の有線または無線(例えば、赤外線(IR)、近距離通信(NFC)等)接続等の出力コントローラ1728を含み、1つまたはそれを上回る周辺デバイス(例えば、プリンタ、カードリーダ等)に通信する、またはそれを制御してもよい。
【0223】
ドライブユニット1716(例えば、記憶デバイス)は、その上に本明細書に説明される技法または機能のうちの任意の1つまたはそれを上回るものを具現化する、またはそれによって利用される、データ構造または命令1724(例えば、ソフトウェア)の1つまたはそれを上回るセットが記憶される、機械可読媒体1722を含んでもよい。命令1724はまた、コンピューティング機械1700によるその実行の間、完全または少なくとも部分的に、メインメモリ1704内に、静的メモリ1706内に、またはハードウェアプロセッサ1702内に常駐してもよい。ある実施例では、ハードウェアプロセッサ1702、メインメモリ1704、静的メモリ1706、または記憶デバイス1716のうちの1つまたは任意の組み合わせは、機械可読媒体を構成してもよい。
【0224】
機械可読媒体1722は、単一媒体として図示されるが、用語「機械可読媒体」は、1つまたはそれを上回る命令1724を記憶するように構成される、単一媒体または複数の媒体(例えば、一元型または分散型データベースおよび/または関連付けられるキャッシュおよびサーバ)を含んでもよい。
【0225】
用語「機械可読媒体」は、コンピューティング機械1700による実行のための命令を記憶、エンコーディング、または搬送することが可能であって、コンピューティング機械1700に本開示の技法のうちの任意の1つまたはそれを上回るものを実施させる、またはそのような命令によって使用される、またはそれと関連付けられる、データ構造を記憶、エンコーディング、または搬送することが可能である、任意の媒体を含んでもよい。非限定的機械可読媒体実施例は、ソリッドステートメモリおよび光学および磁気媒体を含んでもよい。機械可読媒体の具体的実施例は、不揮発性メモリ、例えば、半導体メモリデバイス(例えば、電気的にプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM)およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクおよびリムーバブルディスク、光磁気ディスク、ランダムアクセスメモリ(RAM)、およびCD-ROMおよびDVD-ROMディスクを含んでもよい。いくつかの実施例では、機械可読媒体は、非一過性機械可読媒体を含んでもよい。いくつかの実施例では、機械可読媒体は、一過性伝搬信号ではない、機械可読媒体を含んでもよい。
【0226】
命令1724はさらに、いくつかの転送プロトコル(例えば、フレーム中継、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)等)のうちの任意の1つを利用する、ネットワークインターフェースデバイス1720を介して、伝送媒体を使用する、通信ネットワーク1726を経由して、伝送または受信されてもよい。例示的通信ネットワークは、とりわけ、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パケットデータネットワーク(例えば、インターネット)、モバイル電話ネットワーク(例えば、セルラーネットワーク)、基本電話(POTS)ネットワーク、および無線データネットワーク(例えば、Wi-Fiとして知られる米国電気電子技術者協会(IEEE)802.11系規格、WiMaxとして知られるIEEE802.16系規格)、IEEE802.15.4系規格、ロングタームエボリューション(LTE)系規格、ユニバーサルモバイル電気通信システム(UMTS)系規格、ピアツーピア(P2P)ネットワークを含んでもよい。ある実施例では、ネットワークインターフェースデバイス1720は、1つまたはそれを上回る物理的ジャック(例えば、イーサネット(登録商標)、同軸、または電話ジャック)または1つまたはそれを上回るアンテナを含み、通信ネットワーク1726に接続してもよい。
【0227】
いくつかの実装は、付番された実施例(実施例1、2、3等)として説明される。これらは、例示として提供されるにすぎず、本明細書に開示される技術を限定するものではない。
【0228】
実施例1は、処理回路網と、メモリとを備える、1つまたはそれを上回るコンピューティング機械において実装される、方法であって、処理回路網において、複数の患者の中からの所与の患者に関するデータを記憶する、1つまたはそれを上回る医療データリポジトリにアクセスすることであって、1つまたはそれを上回る医療データリポジトリは、調剤データ、診療所受診データ、および医療保険手続データを記憶する、ことと、診療所受診データまたは医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、所与の患者に関する1つまたはそれを上回る生物学的病態および転移状態を識別することと、調剤データ内の1つまたはそれを上回る薬物コードに基づいて、所与の患者に関する1つまたはそれを上回る一連の治療を識別することと、医療保険手続データ内の1つまたはそれを上回る保険コードに基づいて、所与の患者によって受けられた1つまたはそれを上回る医療手技を識別することと、1つまたはそれを上回る生物学的病態、転移状態、1つまたはそれを上回る一連の治療、および1つまたはそれを上回る医療手技の組み合わせに基づいて、所与の患者に関する一次診断生物学的病態を決定することと、一次診断生物学的病態に基づいて、所与の患者を患者のコホートに割り当てることと、所与の患者に関する割り当てられたコホートを表す、出力を提供することとを含む、方法である。
【0229】
実施例1の主題が含まれる、実施例2では、一次診断生物学的病態を決定することは、医療保険手続データに基づいて、同一治療名および保険コードを有する、所与の患者に関する、2つの連続手技間の時間間隔を示す、マスタギャップテーブルを作成することであって、マスタギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、マスタギャップテーブルに基づいて、治療名および保険コードの組み合わせ毎に、中央値ギャップを示す、中央値ギャップテーブルを算出することであって、中央値ギャップテーブルは、治療名、保険コード、単位、およびギャップ長に関する列を備える、ことと、少なくとも部分的に、中央値ギャップテーブル内のデータに基づいて、一次診断生物学的病態を決定することとを含む。
【0230】
実施例1-2の主題が含まれる、実施例3では、処理回路網は、複数のマルチスレッドグラフィック処理ユニット(GPU)を備え、本方法はさらに、並行して、かつ複数のマルチスレッドGPUのパラレルスレッドを使用して、複数の患者から、所与の患者を含む、複数の患者に関する割り当てられたコホートを決定することを含む。
【0231】
実施例1-3の主題が含まれる、実施例4では、疾患コードは、国際疾病分類(ICD)コードを備え、薬物コードは、全米医薬品コード(NDC)コードを備え、保険コードは、医療共通治療行為コードシステム(HCPCS)コードを備える。
【0232】
実施例4の主題が含まれる、実施例5では、診療所受診データまたは医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、所与の患者に関する1つまたはそれを上回る生物学的病態を識別することは、肺癌と関連付けられる、ICDコードに基づいて、所与の患者が肺癌を患っていることを識別することを含む。
【0233】
実施例5の主題が含まれる、実施例6では、診療所受診データまたは医療保険手続データ内の1つまたはそれを上回る疾患コードに基づいて、所与の患者に関する転移状態を識別することは、二次性悪性ICDコードまたはHCPCSコードに基づく。
【0234】
実施例1-6の主題が含まれる、実施例7では、所与の患者に関する一次診断生物学的病態は、事前に定義された日付範囲内の日付と関連付けられる、疾患コード、薬物コード、または保険コードに基づいて、決定される。
【0235】
実施例1-7の主題が含まれる、実施例8では、所与の患者をコホートに割り当てることは、所与の患者に関する医療保険手続データを含む、1つまたはそれを上回るデータテーブルを分析することであって、1つまたはそれを上回るデータテーブルは、1つまたはそれを上回る医療データリポジトリからのものである、ことと、1つまたはそれを上回るデータテーブル内に含まれる、1つまたはそれを上回る第1のコード識別子を含む、1つまたはそれを上回る第1の保険手続を決定することであって、1つまたはそれを上回る第1のコード識別子は、1つまたはそれを上回る生物学的病態に対する患者の診断に対応する、ことと、1つまたはそれを上回るデータテーブル内に含まれる、1つまたはそれを上回る第2のコード識別子を含む、1つまたはそれを上回る第2の保険手続を決定することであって、1つまたはそれを上回る第2のコード識別子は、患者に対して施術される医療手技に対応し、医療手技は、診療所受診データからのものである、ことと、1つまたはそれを上回る第1のコード識別子を記憶する、第1の列数と、1つまたはそれを上回る第2のコード識別子を記憶する、第2の列数と、1つまたはそれを上回る第1の保険手続の第1の医療保険手続または1つまたはそれを上回る第2の保険手続の第2の医療保険手続に対応する、複数の行の個々の行を伴う、複数の行とを含む、医療ヘッダテーブルを生成することと、医療ヘッダテーブルを1つまたはそれを上回る医療データリポジトリ内に記憶することと、医療ヘッダテーブル内のデータに基づいて、患者に関するコホートを決定することとを含む。
【0236】
実施例8の主題が含まれる、実施例9では、1つまたはそれを上回る第1の保険手続の個々の第1の保険手続は、個々の第1の保険手続の利用日を示し、1つまたはそれを上回る第2の保険手続の個々の第2の保険手続は、個々の第2の保険手続の利用日を示す。
【0237】
実施例10では、実施例9の主題は、最初利用日を伴う請求が医療ヘッダテーブル内の最初の行であって、最直近利用日を伴う手続が医療ヘッダテーブルの最後の行であるように、利用日に基づいて、医療ヘッダテーブルの複数の行を昇順で配列することを含む。
【0238】
実施例11では、実施例8-10の主題は、1つまたはそれを上回る第1のコード識別子を分析し、1つまたはそれを上回る第1のコード識別子の第1のコード識別子が、1つまたはそれを上回る生物学的病態に対応する、保険コード識別子の群内に含まれることを決定することを含む。
【0239】
実施例11の主題が含まれる、実施例12では、第1のコード識別子は、保険コード識別子の第1の分類に対応する、第1のフォーマットに従って配列され、保険コード識別子の第1の分類は、国際疾病分類第9版(ICD-9)に対応する。
【0240】
実施例11-12の主題が含まれる、実施例13では、第1のコード識別子は、保険コード識別子の第2の分類に対応する、第2のフォーマットに従って配列され、保険コード識別子の第2の分類は、国際疾病分類第10版(ICD-10)に対応する。
【0241】
実施例11-13の主題が含まれる、実施例14では、1つまたはそれを上回る生物学的病態は、複数のサブタイプを含み、複数のサブタイプの個々のサブタイプは、1つまたはそれを上回る生物学的病態に対応する、保険コード識別子の群のサブセットに対応し、本方法はさらに、第1のコード識別子が、生物学的病態の第1のサブタイプに対応する、保険コードの群の第1のサブセット内に含まれることを決定することを含む。
【0242】
実施例11-14の主題が含まれる、実施例15では、生物学的病態は、癌であって、複数のサブタイプは、肺癌、乳癌、または結腸直腸癌のうちの少なくとも1つを含む。
【0243】
実施例16では、実施例15の主題は、最初利用日で終了する、事前に定義された期間内の利用日を有する、1つまたはそれを上回る第3の保険手続を決定することと、第1のコード識別子および第2のコード識別子に対して第3の保険手続の1つまたはそれを上回る第3の保険コード識別子を分析することとを含む。
【0244】
実施例17では、実施例16の主題は、1つまたはそれを上回る第3の保険コード識別子が第1のコード識別子および第2のコード識別子内に含まれないことを決定することと、第3の保険コード識別子に基づいて、患者が、その中に1つまたはそれを上回る生物学的病態の所与のサブタイプが存在する、患者のコホート内に含まれることを決定することとを含む。
【0245】
実施例16-17の主題が含まれる、実施例18では、1つまたはそれを上回る第3の保険コード識別子は、付加的生物学的病態に対応する。
【0246】
実施例19では、実施例16-18の主題は、1つまたはそれを上回る第3の保険コード識別子が、保険コード識別子の群のサブセット内に含まれない、保険コード識別子の群の一部内に含まれることを決定することと、1つまたはそれを上回る第3の保険手続のうちの少なくとも1つの利用日が、1つまたはそれを上回る第1の保険手続のうちの1つの利用日と同日であることを決定することと、コード識別子の群内に含まれる、保険コード識別子を有する、他の付加的保険手続が存在しないことを決定することと、患者が、その中に生物学的病態のサブタイプが存在する、患者のコホート内に含まれることを決定することとを含む。
【0247】
実施例20では、実施例16-19の主題は、1つまたはそれを上回る第3の保険コード識別子が、保険コード識別子の群のサブセット内に含まれない、保険コード識別子の群の一部内に含まれることを決定することと、1つまたはそれを上回る第3の保険手続のうちの少なくとも1つの利用日が、1つまたはそれを上回る第1の保険手続のうちの1つの利用日に先立っており、かつ事前に定義された期間内であることを決定することと、患者が、その中に生物学的病態のサブタイプが存在する、患者のコホート内に含まれないことを決定することとを含む。
【0248】
実施例21は、処理回路網と、メモリとを備える、1つまたはそれを上回るコンピューティング機械において実装される、方法であって、処理回路網において、複数の患者に関する医療保険手続データを記憶する、1つまたはそれを上回る医療データテーブルにアクセスすることであって、1つまたはそれを上回る医療データテーブルは、日付列と、診断列とを備える、ことと、処理回路網を使用して、かつ診断列に基づいて、規定された生物学的病態を患っている、患者のセットを識別することであって、患者のセットは、複数の患者の中からのものである、ことと、患者のセット内の患者毎に、患者が規定された生物学的病態の診断を受けた、最初日を決定することと、処理回路網を使用して、かつ診断列および日付列に基づいて、患者のコホートを患者のセットの中から識別することであって、患者のコホートは、患者が規定された生物学的病態の診断を受けた、最初日前の事前に定義された時間窓の間に生じる日付と関連付けられる、生物学的病態の集合からの診断を欠いている、ことと、コホートを表す、出力を提供することとを含む、方法である。
【0249】
実施例21の主題が含まれる、実施例22では、診断列は、国際疾病分類第9版(ICD-9)または国際疾病分類第10版(ICD-10)コードを記憶する。
【0250】
実施例21-22の主題が含まれる、実施例23では、規定された生物学的病態は、肺癌であって、生物学的病態の集合は、肺癌と異なる、癌を備え、最初日前の事前に定義された時間窓は、最初日前の6ヶ月である。
【0251】
実施例21-23の主題が含まれる、実施例24では、規定された生物学的病態は、規定されたタイプの癌であって、本方法はさらに、コホートからの少なくとも1人の患者の転移状態を決定することを含む。
【0252】
実施例24の主題が含まれる、実施例25では、転移状態は、二次性悪性国際疾病分類(ICD)コードまたは医療共通治療行為コードシステム(HCPCS)コードに基づいて、決定される。
【0253】
実施例21-25の主題が含まれる、実施例26では、コホートを識別することは、日付別に、セット内の患者と関連付けられる、行を配列することと、事前に定義された時間窓と関連付けられる、行にアクセスし、事前に定義された時間窓の間の生物学的病態の集合からの診断を欠いている、セット内の患者を識別することとを含む。
【0254】
実施例27は、少なくとも1つの機械可読媒体であって、処理回路網によって実行されると、処理回路網に、実施例1-26に記載のいずれかを実装するための動作を実施させる、命令を含む、少なくとも1つの機械可読媒体。
【0255】
実施例28は、装置であって、実施例1-26に記載のいずれかを実装するための手段を備える、装置である。
【0256】
実施例29は、システムであって、実施例1-26に記載のいずれかを実装するためのシステムである。
【0257】
実施例30は、方法であって、実施例1-26に記載のいずれかを実装するための方法である。
【0258】
実施例31.方法であって、1つまたはそれを上回るプロセッサと、メモリとを有する、コンピューティングシステムによって、ある数の患者に関する健康保険請求データを取得することであって、健康保険請求データは、ある数の患者に関するある数の健康保険コードを示す、ことと、コンピューティングシステムによって、健康保険請求データを分析し、ある生物学的病態に対応する、一次診断を有する、ある数の患者の患者のコホートを決定することと、コンピューティングシステムによって、コホート内に含まれる、個々の患者の識別子の番号を決定することであって、識別子の番号は、統合データリポジトリ内の個々の患者を一意に識別し、統合データリポジトリは、ある数の患者に関するゲノミクスデータと併せて、健康保険請求データを記憶する、ことと、コンピューティングシステムによって、患者のコホートに関するゲノミクスデータを分析し、患者のコホート内に含まれる、個々の患者に関する1つまたはそれを上回る実世界エビデンス計測値を決定することであって、1つまたはそれを上回る実世界計測値は、コホート内に含まれる、個々の患者に対する生物学的病態の進行度の程度を示す、ことと、コンピューティングシステムによって、患者のコホートに関するゲノミクスデータと併せて、1つまたはそれを上回る実世界計測値を分析し、コホート内に含まれる、個々の患者に対する生物学的病態の進行度の程度に対応する、1つまたはそれを上回るゲノム突然変異を決定することとを含む、方法。
【0259】
実施例32.実世界エビデンス計測値は、患者のコホート内に含まれる、1人またはそれを上回る第1の患者によって受けられ生物学的病態のための1つまたはそれを上回る治療と、1人またはそれを上回る第1の患者の死亡日との間の期間、患者のコホート内に含まれる、1人またはそれを上回る第2の患者によって受けられた1つまたはそれを上回る最初の治療と、1人またはそれを上回る第2の患者によって受けられた1つまたはそれを上回る第2の治療との間の期間、または患者のコホート内に含まれる、1人またはそれを上回る第3の患者によって受けられた1つまたはそれを上回る治療と、1人またはそれを上回る第3の患者によって受けられた最後の治療日との間の期間のうちの少なくとも1つを含む、実施例31に記載の方法。
【0260】
実施例33.健康保険コードは、ある数の生物学的病態に対応する、診断コードを含む、実施例31または32に記載の方法。
【0261】
実施例34.健康保険コードは、ある数の患者の医療診療に対応する、ある数の行を含む、データテーブル内に記憶され、個々の医療診療は、1つまたはそれを上回る生物学的病態のための治療に関連してある数の患者の個々の患者に提供される、医療サービス、医療手技、または療法薬のうちの少なくとも1つに対応する、ある数の健康保険コードを含む、実施例31-33のいずれか1項に記載の方法。
【0262】
実施例35.コンピューティングシステムによって、1人またはそれを上回る患者の個々の患者に対する生物学的病態の進行度の程度または1人またはそれを上回る患者内に存在する1つまたはそれを上回るゲノム突然変異のうちの少なくとも1つに基づいて、コホート内に含まれる、1人またはそれを上回る患者に関する1つまたはそれを上回る候補治療を決定することを含む、実施例31-34のいずれか1項に記載の方法。
【0263】
実施例36.コンピューティングシステムによって、コホート識別フレームワークに従って、健康保険請求データを分析することによって、患者のコホートを決定することであって、コホート識別フレームワークは、患者のコホート内に含むべき1人またはそれを上回る患者を決定するために適用される、1つまたはそれを上回るルール、1つまたはそれを上回るスキーム、または論理のうちの少なくとも1つを示す、ことを含む、実施例31-35のいずれか1項に記載の方法。
【0264】
実施例37.コホート識別フレームワークは、第1の生物学的病態に対応する、1つまたはそれを上回る第1の健康保険診断コードと、第2の生物学的病態に対応する、1つまたはそれを上回る第2の健康保険診断コードとを示し、本方法は、コンピューティングシステムによって、健康保険請求データを分析し、患者のコホート内に含むべき1つまたはそれを上回る第1の健康保険診断コードを含む、健康保険請求記録を有する、患者を決定することを含む、実施例36に記載の方法。
【0265】
実施例38.コンピューティングシステムによって、1つまたはそれを上回る付加的生物学的病態に対応する、1つまたはそれを上回る付加的健康保険診断コードが、初期健康保険請求データの日付後の閾値期間内の健康保険請求データ内に存在しないことを決定することであって、初期健康保険請求データは、1つまたはそれを上回る第1の健康保険診断コードを含む、ことと、コンピューティングシステムによって、1人またはそれを上回る患者が、生物学的病態に対応する、一次診断を有することを決定することと、コンピューティングシステムによって、1人またはそれを上回る患者が患者のコホート内に含まれることを決定することとを含む、実施例37に記載の方法。
【0266】
実施例39.コンピューティングシステムによって、1つまたはそれを上回る付加的生物学的病態に対応する、1つまたはそれを上回る付加的健康保険診断コードが、初期健康保険請求データの日付後の閾値期間内の健康保険請求データ内に存在することを決定することであって、初期健康保険請求データは、1つまたはそれを上回る第1の健康保険診断コードを含む、ことと、コンピューティングシステムによって、1人またはそれを上回る付加的患者が、生物学的病態を含まない、付加的生物学的病態に対応する、一次診断を有することを決定することと、コンピューティングシステムによって、1人またはそれを上回る付加的患者が患者のコホートから除外されるべきであることを決定することとを含む、実施例37に記載の方法。
【0267】
実施例40.生物学的病態は、第1の形態の癌であって、付加的生物学的病態は、第2の形態の癌であって、本方法は、コンピューティングシステムによって、1人またはそれを上回る付加的患者が転移している癌を患っていることを決定することを含む、実施例39に記載の方法。
【0268】
実施例41.コンピューティングシステムによって、ある数の患者の個々の患者に対応する、個々の行と、個々の行に関連する個々の患者に対する生物学的病態の1つまたはそれを上回る診断を示す、個々の行とを伴う、複数の行を含む、診断データテーブルを生成することを含む、実施例31-40のいずれか1項に記載の方法。
【0269】
実施例42.システムであって、1つまたはそれを上回るハードウェアプロセッサと、1つまたはそれを上回るハードウェアプロセッサによって実行されると、ある数の患者に関する健康保険請求データと、ある数の患者に関するある数の健康保険コードを示す、健康保険請求データとを取得することと、健康保険請求データを分析し、生物学的病態に対応する、一次診断を有する、ある数の患者の患者のコホートを決定することと、コホート内に含まれる、個々の患者の識別子の番号を決定することであって、識別子の番号は、統合データリポジトリ内の個々の患者を一意に識別し、統合データリポジトリは、ある数の患者に関するゲノミクスデータと併せて、健康保険請求データを記憶する、ことと、患者のコホートに関するゲノミクスデータを分析し、患者のコホート内に含まれる、個々の患者に関する1つまたはそれを上回る実世界エビデンス計測値を決定することであって、1つまたはそれを上回る実世界計測値は、コホート内に含まれる個々の患者に対する生物学的病態の進行度の程度を示す、ことと、患者のコホートに関するゲノミクスデータと併せて、1つまたはそれを上回る実世界計測値を分析し、コホート内に含まれる個々の患者に対する生物学的病態の進行度の程度に対応する、1つまたはそれを上回るゲノム突然変異を決定することとを含む、動作を実施する、コンピュータ可読命令を記憶する、メモリとを備える、システム。
【0270】
実施例43.実世界エビデンス計測値は、患者のコホート内に含まれる、1人またはそれを上回る第1の患者によって受けられた生物学的病態のための1つまたはそれを上回る治療と、1人またはそれを上回る第1の患者の死亡日との間の期間、患者のコホート内に含まれる、1人またはそれを上回る第2の患者によって受けられた1つまたはそれを上回る最初の治療と、1人またはそれを上回る第2の患者によって受けられた1つまたはそれを上回る第2の治療との間の期間、または患者のコホート内に含まれる、1人またはそれを上回る第3の患者によって受けられた1つまたはそれを上回る治療と、1人またはそれを上回る第3の患者によって受けられた最後の治療日との間の期間のうちの少なくとも1つを含む、実施例42に記載のシステム。
【0271】
実施例44.健康保険コードは、ある数の生物学的病態に対応する、診断コードを含む、実施例42または43に記載のシステム。
【0272】
実施例45.健康保険コードは、ある数の患者の医療診療に対応する、ある数の行を含む、データテーブル内に記憶され、個々の医療診療は、1つまたはそれを上回る生物学的病態のための治療に関連してある数の患者の個々の患者に提供される、医療サービス、医療手技、または療法薬のうちの少なくとも1つに対応する、ある数の健康保険コードを含む、実施例42-44のうちの任意の1つに記載のシステム。
【0273】
実施例46.メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、1人またはそれを上回る患者の個々の患者に対する生物学的病態の進行度の程度または1人またはそれを上回る患者内に存在する1つまたはそれを上回るゲノム突然変異のうちの少なくとも1つに基づいて、コホート内に含まれる、1人またはそれを上回る患者に関する1つまたはそれを上回る候補治療を決定することを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例42-45のうちの任意の1つに記載のシステム。
【0274】
実施例47.メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、コホート識別フレームワークに従って、健康保険請求データを分析することによって、患者のコホートを決定することであって、コホート識別フレームワークは、患者のコホート内に含むための1人またはそれを上回る患者を決定するために適用される、1つまたはそれを上回るルール、1つまたはそれを上回るスキーム、または論理のうちの少なくとも1つを示す、ことを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例42-46のうちの任意の1つに記載のシステム。
【0275】
実施例48.コホート識別フレームワークは、第1の生物学的病態に対応する、1つまたはそれを上回る第1の健康保険診断コードと、第2の生物学的病態に対応する、1つまたはそれを上回る第2の健康保険診断コードとを示し、メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、健康保険請求データを分析し、患者のコホート内に含むための1つまたはそれを上回る第1の健康保険診断コードを含む、健康保険請求記録を有する、患者を決定することを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例47に記載のシステム。
【0276】
実施例49.メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、1つまたはそれを上回る付加的生物学的病態に対応する、1つまたはそれを上回る付加的健康保険診断コードが、初期健康保険請求データの日付後のある閾値期間内に健康保険請求データ内に存在しないことを決定することであって、初期健康保険請求データは、1つまたはそれを上回る第1の健康保険診断コードを含む、ことと、1人またはそれを上回る患者が、生物学的病態に対応する、一次診断を有することを決定することと、1人またはそれを上回る患者が患者のコホート内に含まれることを決定することとを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例48に記載のシステム。
【0277】
実施例50.メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、1つまたはそれを上回る付加的生物学的病態に対応する、1つまたはそれを上回る付加的健康保険診断コードが、初期健康保険請求データの日付後のある閾値期間内の健康保険請求データ内に存在することを決定することであって、初期健康保険請求データは、1つまたはそれを上回る第1の健康保険診断コードを含む、ことと、1人またはそれを上回る付加的患者が、生物学的病態を含まない、付加的生物学的病態に対応する、一次診断を有することを決定することと、1人またはそれを上回る付加的患者が患者のコホートから除外されるべきであることを決定することとを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例48に記載のシステム。
【0278】
実施例51.生物学的病態は、第1の形態の癌であって、付加的生物学的病態は、第2の形態の癌であって、メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、1人またはそれを上回る付加的患者が、転移している癌を有することを決定することを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例50に記載のシステム。
【0279】
実施例52.メモリは、1つまたはそれを上回るハードウェアプロセッサによって実行されると、ある数の患者の個々の患者に対応する、個々の行と、個々の行に関連する個々の患者に対して生物学的病態の1つまたはそれを上回る診断を示す、個々の行とを伴う、複数の行を含む、診断データテーブルを生成することを含む、付加的動作を実施する、付加的コンピュータ可読命令を記憶する、実施例42-51のうちの任意の1つに記載のシステム。
【0280】
本明細書に使用されるように、コンポーネントは、関数またはサブルーチン呼出、分岐点、API、または特定の処理または制御機能のパーティション化またはモジュール化を提供する他の技術によって定義された境界を有するデバイス、物理的実体、または論理を指し得る。コンポーネントは、機械プロセスを実行するために、他のコンポーネントとそれらのインターフェースを介して組み合わせられてもよい。コンポーネントは、他のコンポーネントとの併用のために設計されたパッケージ化された機能ハードウェアユニットであり、通常、関連する機能の特定の機能を実施するプログラムの一部であってもよい。コンポーネントは、ソフトウェアコンポーネント(例えば、機械可読媒体上で具現化されるコード)またはハードウェアコンポーネントのいずれかを成してもよい。「ハードウェアコンポーネント」は、ある動作を実施することが可能な有形ユニットであり、ある物理的様式において構成または配列されてもよい。種々の例示的実装では、1つまたはそれを上回るコンピュータシステム(例えば、スタンドアロンコンピュータシステム、クライアントコンピュータシステム、またはサーバコンピュータシステム)またはコンピュータシステムの1つまたはそれを上回るハードウェアコンポーネント(例えば、プロセッサまたはプロセッサの群)は、本明細書に説明されるようなある動作を実施するように動作するハードウェアコンポーネントとしてソフトウェア(例えば、アプリケーションまたはアプリケーション部分)によって構成されてもよい。
【0281】
本教示の方法において使用される個々のステップが、本教示が動作可能なままである限り、任意の順序において、および/または同時に実施され得ることを理解されたい。さらに、本教示の装置および方法が、本教示が動作可能なままである限り、任意の数または全ての説明される実装を含み得ることを理解されたい。
【0282】
本明細書に開示される方法の種々のステップまたは本明細書に開示されるシステムによって実行されるステップは、同時または異なる時間に、および/または同一の地理的場所または異なる地理的場所、例えば、国において実行されてもよい。本明細書に開示される方法の種々のステップは、同一の人物または異なる人物によって実施されることができる。
【0283】
システム、デバイス、および方法の種々の実装が、本明細書に説明される。これらの実装は、実施例としてのみ与えられ、請求される発明の範囲を限定することを意図していない。また、説明されている実装の種々の特徴が、多数の付加的実装を生じるために種々の方法において組み合わせられ得ることを理解されたい。また、種々の材料、寸法、形状、構成、および場所等が、開示される実装との併用のために説明されているが、開示されるもの以外のその他が、請求される発明の範囲を超えることなく、利用されてもよい。
【0284】
当業者は、実装が、上記に説明される任意の個々の実装に例証されるものよりも少ない特徴を備え得ることを認識するであろう。本明細書に説明される実装は、種々の特徴が組み合わせられ得る方法の網羅的提示であることを意味していない。故に、実装は、特徴の相互に排他的な組み合わせではなく、むしろ、実装は、当業者によって理解されるように、異なる個々の実装から選択された異なる個々の特徴の組み合わせを備えることができる。また、一実装に関して説明される要素は、別様に記述されない限り、そのような実装において説明されないときであっても、他の実装において実装されることができる。従属請求項は、請求項において、1つまたはそれを上回る他の請求項との具体的組み合わせを指し得るが、他の実装はまた、従属請求項と各他の従属請求項の主題との組み合わせまたは1つまたはそれを上回る特徴と他の従属または独立請求項との組み合わせを含むことができる。そのような組み合わせは、具体的組み合わせが意図するものではないことが記載されない限り、本明細書で提案される。さらに、また、請求項の特徴を、本請求項が独立請求項に対して直接従属するものにされない場合であっても、任意の他の独立請求項内に含むことを意図している。
【0285】
また、本明細書における「一実装」、「ある実装」、または「いくつかの実装」の言及は、実装に関連して説明される特定の特徴、構造、または特性が、本教示の少なくとも1つの実装に含まれることを意味する。本明細書における種々の場所における語句「一実装では」の表出は、必ずしも、全てが同一の実装を指すわけではない。
【0286】
上記の文書の任意の参照による組み込みは、本明細書の明示的な開示に反するいかなる主題も組み込まれないように、限定される。上記の文書の任意の参照による組み込みは、本書に含まれるいかなる請求項も参照することによって本明細書に組み込まれないように、さらに限定される。上記の文書の任意の参照による組み込みは、本明細書に明確に含まれない限り、本書に提供される任意の定義が参照することによって本明細書に組み込まれないように、またさらに限定される。
【0287】
実装は、具体的例示的実装を参照して説明されているが、種々の修正および変更が、本開示のより広い精神および範囲から逸脱することなく、これらの実装に行われ得ることが明白であろう。故に、本明細書および図面は、制限的な意味ではなく、例証的な意味で見なされるものである。本明細書の一部を形成する付随の図面は、限定ではなく、例証として、主題が実践され得る具体的実装を示す。図示される実装は、当業者が本明細書に開示される教示を実践することを可能にするために十分に詳細に説明される。他の実装も、構造的および論理的代用および変更が、本開示の範囲から逸脱することなく、行われ得るように、利用され、それから派生されてもよい。本詳細な説明は、したがって、限定の意味で解釈されるものではなく、種々の実装の範囲は、そのような請求項が享受する均等物の全範囲とともに、添付される請求項によってのみ定義される。
【0288】
具体的実装が、本明細書に例証および説明されているが、同一の目的を達成するために計算される任意の配列が、示される具体的実装に関して代用され得ることを理解されたい。本開示は、種々の実装のありとあらゆる適合または変形例を網羅することを意図している。上記の実装の組み合わせおよび本明細書に具体的に説明されない他の実装が、上記の説明を精査することに応じて、当業者に明白となるであろう。
【0289】
本書では、用語「a」または「an」が、特許文書において一般的であるように、「少なくとも1つ(at least one)」または「1つまたはそれを上回る(one or more)」の任意の他の事例または使用法から独立して、「1つまたは1つを上回る(one or more than one)」を含むように使用される。本書では、用語「または(or)」は、別様に示されない限り、「AまたはB」が、「BではなくA」と、「AではなくB」と、「AおよびB」とを含むように、「非排他的または」を指すように使用される。本書では、用語「~を含む(including)」および「その中で(in which)」は、個別の用語「~を備える(comprising)」および「その中で(wherein)」の平易な英語の均等物として使用される。また、以下の請求項では、用語「~を含む(including)」および「~を備える(comprising)」は、非制約的であり、すなわち、請求項内でそのような用語の後に列挙されるものに加えて、要素を含む、システム、ユーザ機器(UE)、物品、組成物、製剤、またはプロセスも、依然として、その請求項の範囲内に該当すると見なされる。また、以下の請求項では、用語「第1」、「第2」、および「第3」等は、単に、標識として使用され、それらの目的に数値要件を課すことを意図していない。
【国際調査報告】