IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ガーダント ヘルス, インコーポレイテッドの特許一覧

特表2024-520594統合データリポジトリを生成するためのコンピュータアーキテクチャ
<>
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図1
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図2
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図3
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図4
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図5
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図6
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図7
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図8
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図9
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図10
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図11
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図12
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図13
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図14
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図15
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図16
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図17
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図18
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図19
  • 特表-統合データリポジトリを生成するためのコンピュータアーキテクチャ 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-24
(54)【発明の名称】統合データリポジトリを生成するためのコンピュータアーキテクチャ
(51)【国際特許分類】
   G16H 10/00 20180101AFI20240517BHJP
【FI】
G16H10/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023574149
(86)(22)【出願日】2022-06-03
(85)【翻訳文提出日】2024-01-26
(86)【国際出願番号】 US2022032250
(87)【国際公開番号】W WO2022256707
(87)【国際公開日】2022-12-08
(31)【優先権主張番号】63/196,609
(32)【優先日】2021-06-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/227,860
(32)【優先日】2021-07-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/238,851
(32)【優先日】2021-08-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/250,912
(32)【優先日】2021-09-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】515059083
【氏名又は名称】ガーダント ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】クマール, ナヴィーン
(72)【発明者】
【氏名】ジャン, ジンウェン
(72)【発明者】
【氏名】スブラマニアン, ニシャ
(72)【発明者】
【氏名】ナヤック, ゴータム
(72)【発明者】
【氏名】ラング, キャスリン
(72)【発明者】
【氏名】クチャルラパティ, ラジェシュ
(72)【発明者】
【氏名】ルー, シュンシン
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA21
(57)【要約】
共通の個人のグループについてのゲノミクス情報および健康保険請求データ情報を含む統合データリポジトリが生成されてよい。統合データリポジトリによって記憶されている情報に関して、データ処理パイプラインが実装されてよい。データ処理パイプラインは、統合データリポジトリによって記憶されている指定された情報を分析し、異なるデータセットを生成するために実行可能なデータ処理命令の複数のセットを含んでよい。データセットを分析して、個人の特性の影響および/またはある生物学的状態が存在する個人に提供された治療の影響の量を決定してよい。
【特許請求の範囲】
【請求項1】
処理回路とメモリとを含むコンピューティングシステムにより、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、
前記コンピューティングシステムにより、前記データファイルを健康保険請求データ管理システムに送ることと、
前記コンピューティングシステムにより、前記データファイルに応答する、前記健康保険請求データ管理システムから前記個人のグループに対応する健康データを取得することと、
前記コンピューティングシステムにより、前記第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、前記個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、
前記コンピューティングシステムにより、前記複数の識別子を使用して、前記個人のグループについて前記分子データリポジトリから第2のデータを取得することと、
前記コンピューティングシステムにより、前記個人のグループについて前記第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、
前記コンピューティングシステムにより、前記複数の識別子のそれぞれの識別子との関係で前記第1のデータの前記それぞれの部分と前記第2のデータの前記それぞれの部分とを記憶する統合データリポジトリを生成することと、を含む方法。
【請求項2】
前記コンピューティングシステムにより、前記統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することと、
前記コンピューティングシステムにより、データ処理命令の前記第1のセットを実行させて、前記第1のデータに含まれる第1の健康保険請求コードを分析して、ある生物学的状態が存在する、前記個人のグループの第1のサブセットを決定することと、
前記コンピューティングシステムにより、前記生物学的状態が存在する前記個人のグループの前記サブセットを示す第1のデータセットを生成することと
を含む、請求項1に記載の方法。
【請求項3】
前記コンピューティングシステムにより、前記統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することと、
前記コンピューティングシステムにより、データ処理命令の前記第2のセットを実行させて、前記第2のデータに含まれる第2の健康保険請求コードを分析して、前記個人のグループの第2のサブセットに提供された1つまたは複数の治療を決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第2のサブセットに提供された前記1つまたは複数の治療を示す第2のデータセットを生成することと
を含む、請求項2に記載の方法。
【請求項4】
前記コンピューティングシステムにより、前記個人のグループの前記第2のサブセットの一部分と重複する、前記個人のグループの前記第1のサブセットの一部分を含む、前記個人のグループの第3のサブセットを決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第3のサブセットとの関係で前記第1のデータセットおよび前記第2のデータセットの分析を行う要求を受け取ることと、
前記コンピューティングシステムにより、前記要求に応答して、前記第1のデータセットおよび前記第2のデータセットを前記個人のグループの前記第3のサブセットに関して分析して、前記生物学的状態に関する前記個人のグループの前記第3のサブセットの特性の有意性の指標を決定することと
を含む、請求項3に記載の方法。
【請求項5】
前記コンピューティングシステムにより、前記個人のグループの前記第3のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第3のサブセットに提供された複数の治療を決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第3のサブセットの各自の生存率を決定することと
を含む、請求項4に記載の方法。
【請求項6】
前記有意性の指標が、前記複数の治療のうちの1つの治療および前記1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、請求項5に記載の方法。
【請求項7】
前記コンピューティングシステムにより、有意性の指標に基づいて、前記個人のグループの前記第3のサブセットに対する前記治療の有効性を決定することを含む、請求項6に記載の方法。
【請求項8】
前記コンピューティングシステムにより、前記個人のグループの第3のサブセットの中で前記治療を受けたことがない個人を決定することを含む、請求項7に記載の方法。
【請求項9】
前記第3のサブセットの中で前記治療を受けたことがない前記個人に対して、1つまたは複数の治療有効量の前記治療を施すことを含む、請求項8に記載の方法。
【請求項10】
前記統合データリポジトリは、複数のデータテーブルと前記複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、
前記複数の論理リンクのうちの個々の論理リンクは、前記複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、前記複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記複数のデータテーブルが、
前記個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、
個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、
前記第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、
前記個人のグループの個人情報を記憶する第4のデータテーブルと、
前記個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、
前記個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、
前記個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、請求項10に記載の方法。
【請求項12】
前記第2のハッシュ関数を使用して生成された前記複数の識別子が、中間識別子を含み、前記方法が、
前記コンピューティングシステムにより、前記中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記コンピューティングシステムにより、追加的な個人のグループの電子診療記録を含んでいる追加的なデータリポジトリから情報を取得することと、
前記コンピューティングシステムにより、ゲノミクスデータリポジトリによって記憶されているデータを有する前記個人のグループに対応する、前記追加的な個人のグループのサブセットを決定することと、
前記コンピューティングシステムにより、前記複数の識別子との関係で前記追加的な個人のグループの前記サブセットの前記診療記録の前記情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加えることと
を含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記コンピューティングシステムにより、前記追加的な情報に関して1つまたは複数の光学文字認識動作を行うことと、
前記コンピューティングシステムにより、前記追加的なデータリポジトリから取得された前記追加的な情報を分析して、情報のコーパスを生成するために除去すべき、前記追加的な情報の1つまたは複数の部分を決定することと
を含む、請求項13に記載の方法。
【請求項15】
前記コンピューティングシステムにより、前記情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する前記追加的な個人のグループの前記サブセットの一部分を決定することと、
前記コンピューティングシステムにより、前記追加的な個人のグループの前記サブセットの前記一部分の識別子を記憶すると共に前記追加的な個人のグループの前記サブセットの前記一部分が前記1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと
を含む、請求項14に記載の方法。
【請求項16】
前記コンピューティングシステムにより、前記1つまたは複数のデータ構造を中間データリポジトリに記憶することと、
前記コンピューティングシステムにより、前記複数の識別子との関係で前記追加的な個人のグループの前記サブセットの前記一部分の前記診療記録の前記追加的な情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加える前に、前記追加的な個人のグループの前記サブセットの前記一部分の前記識別子に関して1つまたは複数の非特定化動作を行うことと
を含む、請求項15に記載の方法。
【請求項17】
前記分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、請求項1~16のいずれか一項に記載の方法。
【請求項18】
システムであって、
1つまたは複数のハードウェア処理装置と、
コンピュータ実行可能命令を記憶している1つまたは複数のコンピュータ可読記憶媒体と、を備え、前記コンピュータ実行可能命令は、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、
前記データファイルを健康保険請求データ管理システムに送ることと、
前記データファイルに応答する、前記健康保険請求データ管理システムから前記個人のグループに対応する健康保険請求データを取得することと、
前記第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、前記個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、
前記複数の識別子を使用して、前記個人のグループについて前記分子データリポジトリから第2のデータを取得することと、
前記個人のグループについて前記第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、
前記複数の識別子のそれぞれの識別子との関係で前記第1のデータの前記それぞれの部分と前記第2のデータの前記それぞれの部分とを記憶する統合データリポジトリを生成することと
を含む動作を行わせる、システム。
【請求項19】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することと、
データ処理命令の前記第1のセットを実行させて、前記第1のデータに含まれる第1の健康保険請求コードを分析して、ある生物学的状態が存在する、前記個人のグループの第1のサブセットを決定することと、
前記生物学的状態が存在する前記個人のグループの前記サブセットを示す第1のデータセットを生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項18に記載のシステム。
【請求項20】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
コンピューティングシステムにより、前記統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することと、
前記コンピューティングシステムにより、データ処理命令の前記第2のセットを実行させて、前記第2のデータに含まれる第2の健康保険請求コードを分析して、前記個人のグループの第2のサブセットに提供された1つまたは複数の治療を決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第2のサブセットに提供された前記1つまたは複数の治療を示す第2のデータセットを生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項19に記載のシステム。
【請求項21】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記コンピューティングシステムにより、前記個人のグループの前記第2のサブセットの一部分と重複する、前記個人のグループの前記第1のサブセットの一部分を含む、前記個人のグループの第3のサブセットを決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第3のサブセットとの関係で前記第1のデータセットおよび前記第2のデータセットの分析を行う要求を受け取ることと、
前記コンピューティングシステムにより、前記要求に応答して、前記第1のデータセットおよび前記第2のデータセットを前記個人のグループの前記第3のサブセットに関して分析して、前記生物学的状態に関する前記個人のグループの前記第3のサブセットの特性の有意性の指標を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項20に記載のシステム。
【請求項22】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記個人のグループの前記第3のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
前記個人のグループの前記第3のサブセットに提供された複数の治療を決定することと、
前記個人のグループの前記第3のサブセットの各自の生存率を決定することと、
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項21に記載のシステム。
【請求項23】
前記有意性の指標が、前記複数の治療のうちの1つの治療および前記1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、請求項22に記載のシステム。
【請求項24】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、有意性の指標に基づいて、前記個人のグループの前記第3のサブセットに対する前記治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項23に記載のシステム。
【請求項25】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記個人のグループの第3のサブセットの中で前記治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項24に記載のシステム。
【請求項26】
前記統合データリポジトリは、複数のデータテーブルと前記複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、
前記複数の論理リンクのうちの個々の論理リンクは、前記複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、前記複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、請求項18~25のいずれか一項に記載のシステム。
【請求項27】
前記複数のデータテーブルが、
前記個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、
個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、
前記第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、
前記個人のグループの個人情報を記憶する第4のデータテーブルと、
前記個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、
前記個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、
前記個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、請求項26に記載のシステム。
【請求項28】
前記第2のハッシュ関数を使用して生成された前記複数の識別子が、中間識別子を含み、
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項18~27のいずれか一項に記載のシステム。
【請求項29】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
追加的な個人のグループの電子診療記録を含んでいる追加的なデータリポジトリから情報を取得することと、
ゲノミクスデータリポジトリによって記憶されているデータを有する前記個人のグループに対応する、前記追加的な個人のグループのサブセットを決定することと、
前記複数の識別子との関係で前記追加的な個人のグループの前記サブセットの前記診療記録の前記情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加えることと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項18~28のいずれか一項に記載のシステム。
【請求項30】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記追加的な情報に関して1つまたは複数の光学文字認識動作を行うことと、
前記追加的なデータリポジトリから取得された前記追加的な情報を分析して、情報のコーパスを生成するために除去すべき、前記追加的な情報の1つまたは複数の部分を決定することと、
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項29に記載のシステム。
【請求項31】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する前記追加的な個人のグループの前記サブセットの一部分を決定することと、
前記追加的な個人のグループの前記サブセットの前記一部分の識別子を記憶すると共に前記追加的な個人のグループの前記サブセットの前記一部分が前記1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項30に記載のシステム。
【請求項32】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記1つまたは複数のデータ構造を中間データリポジトリに記憶することと、
前記複数の識別子との関係で前記追加的な個人のグループの前記サブセットの前記一部分の前記診療記録の前記追加的な情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加える前に、前記追加的な個人のグループの前記サブセットの前記一部分の前記識別子に関して1つまたは複数の非特定化動作を行うことと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項31に記載のシステム。
【請求項33】
前記分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、請求項18~32のいずれか一項に記載のシステム。
【請求項34】
コンピュータ実行可能命令を記憶している1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記コンピュータ実行可能命令は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、
第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、
前記データファイルを健康保険請求データ管理システムに送ることと、
前記データファイルに応答する、前記健康保険請求データ管理システムから前記個人のグループに対応する健康保険請求データを取得することと、
前記第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、前記個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、
前記複数の識別子を使用して、前記個人のグループについて前記分子データリポジトリから第2のデータを取得することと、
前記個人のグループについて前記第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、
前記複数の識別子のそれぞれの識別子との関係で前記第1のデータの前記それぞれの部分と前記第2のデータの前記それぞれの部分とを記憶する統合データリポジトリを生成することと
を含む動作を行わせる、1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項35】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することと、
データ処理命令の前記第1のセットを実行させて、前記第1のデータに含まれる第1の健康保険請求コードを分析して、ある生物学的状態が存在する、前記個人のグループの第1のサブセットを決定することと、
前記生物学的状態が存在する前記個人のグループの前記サブセットを示す第1のデータセットを生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項34に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項36】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記コンピューティングシステムにより、前記統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することと、
前記コンピューティングシステムにより、データ処理命令の前記第2のセットを実行させて、前記第2のデータに含まれる第2の健康保険請求コードを分析して、前記個人のグループの第2のサブセットに提供された1つまたは複数の治療を決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第2のサブセットに提供された前記1つまたは複数の治療を示す第2のデータセットを生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項35に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項37】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記コンピューティングシステムにより、前記個人のグループの前記第2のサブセットの一部分と重複する、前記個人のグループの前記第1のサブセットの一部分を含む、前記個人のグループの第3のサブセットを決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記第3のサブセットとの関係で前記第1のデータセットおよび前記第2のデータセットの分析を行う要求を受け取ることと、
前記コンピューティングシステムにより、前記要求に応答して、前記第1のデータセットおよび前記第2のデータセットを前記個人のグループの前記第3のサブセットに関して分析して、前記生物学的状態に関する前記個人のグループの前記第3のサブセットの特性の有意性の指標を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項36に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項38】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記個人のグループの前記第3のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
前記個人のグループの前記第3のサブセットに提供された複数の治療を決定することと、
前記個人のグループの前記第3のサブセットの各自の生存率を決定することと、
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項37に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項39】
前記有意性の指標が、前記複数の治療のうちの1つの治療および前記1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、請求項38に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項40】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、有意性の指標に基づいて、前記個人のグループの前記第3のサブセットに対する前記治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項39に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項41】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記個人のグループの第3のサブセットの中で前記治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項40に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項42】
前記統合データリポジトリは、複数のデータテーブルと前記複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、
前記複数の論理リンクのうちの個々の論理リンクは、前記複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、前記複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、請求項34に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項43】
前記複数のデータテーブルが、
前記個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、
個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、
前記第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、
前記個人のグループの個人情報を記憶する第4のデータテーブルと、
前記個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、
前記個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、
前記個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、
請求項42に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項44】
前記第2のハッシュ関数を使用して生成された前記複数の識別子が、中間識別子を含み、
前記1つまたは複数の非一時的コンピュータ可読記憶媒体は、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項34~43のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項45】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
追加的な個人のグループの電子診療記録を含んでいる追加的なデータリポジトリから情報を取得することと、
ゲノミクスデータリポジトリによって記憶されているデータを有する前記個人のグループに対応する、前記追加的な個人のグループのサブセットを決定することと、
前記複数の識別子との関係で前記追加的な個人のグループの前記サブセットの前記診療記録の前記情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加えることと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項44に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項46】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記追加的な情報に関して1つまたは複数の光学文字認識動作を行うことと、
前記追加的なデータリポジトリから取得された前記追加的な情報を分析して、情報のコーパスを生成するために除去すべき、前記追加的な情報の1つまたは複数の部分を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項45に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項47】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する前記追加的な個人のグループの前記サブセットの一部分を決定することと、
前記追加的な個人のグループの前記サブセットの前記一部分の識別子を記憶すると共に前記追加的な個人のグループの前記サブセットの前記一部分が前記1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項46に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項48】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記1つまたは複数のデータ構造を中間データリポジトリに記憶することと、
前記複数の識別子との関係で前記追加的な個人のグループの前記サブセットの前記一部分の前記診療記録の前記追加的な情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加える前に、前記追加的な個人のグループの前記サブセットの前記一部分の前記識別子に関して1つまたは複数の非特定化動作を行うことと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項47に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項49】
前記分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、請求項34~48のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項50】
処理回路とメモリとを含むコンピューティングシステムにより、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、
前記コンピューティングシステムにより、前記データファイルを診療記録データ管理システムに送ることと、
前記コンピューティングシステムにより、前記データファイルに応答する、前記診療記録データ管理システムから前記個人のグループに対応する診療記録データを取得することと、
前記コンピューティングシステムにより、前記第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、前記個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、
前記コンピューティングシステムにより、前記複数の識別子を使用して、前記個人のグループについて前記分子データリポジトリから第2のデータを取得することと、
前記コンピューティングシステムにより、前記個人のグループについて前記第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、
前記コンピューティングシステムにより、前記複数の識別子のそれぞれの識別子との関係で前記第1のデータの前記それぞれの部分と前記第2のデータの前記それぞれの部分とを記憶する統合データリポジトリを生成することと、
前記コンピューティングシステムにより、前記統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求を受け取ることであって、前記要求は1つまたは複数の検索基準を含む、要求を受け取ることと、
前記コンピューティングシステムにより、前記1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、前記複数の個人のサブセットを決定することと、
前記コンピューティングシステムにより、前記複数の個人の前記サブセットの情報を分析して、ある生物学的状態に関する前記1つまたは複数の特性のうちの特性の有意性の指標を決定することと、を含む方法。
【請求項51】
前記コンピューティングシステムにより、前記複数の個人の前記サブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
前記コンピューティングシステムにより、前記複数の個人の前記サブセットに提供された複数の治療を決定することと、
前記コンピューティングシステムにより、前記複数の個人の前記サブセットの各自の生存率を決定することと
を含む、請求項50に記載の方法。
【請求項52】
前記有意性の指標が、前記複数の治療のうちの1つの治療および前記1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、請求項51に記載の方法。
【請求項53】
前記コンピューティングシステムにより、有意性の指標に基づいて、前記複数の個人の前記サブセットに対する前記治療の有効性を決定することを含む、請求項52に記載の方法。
【請求項54】
前記コンピューティングシステムにより、前記複数の個人のサブセットの中で前記治療を受けたことがない個人を決定することを含む、請求項53に記載の方法。
【請求項55】
前記複数の個人の前記サブセットの中で前記治療を受けたことがない前記個人に対して、1つまたは複数の治療有効量の前記治療を施すことを含む、請求項54に記載の方法。
【請求項56】
前記統合データリポジトリは、複数のデータテーブルと前記複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、
前記複数の論理リンクのうちの個々の論理リンクは、前記複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、前記複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、請求項50~55のいずれか一項に記載の方法。
【請求項57】
前記複数のデータテーブルが、
前記個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、
個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、
前記第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、
前記個人のグループの個人情報を記憶する第4のデータテーブルと、
前記個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、
前記個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、
前記個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、請求項56に記載の方法。
【請求項58】
前記第2のハッシュ関数を使用して生成された前記複数の識別子が、中間識別子を含み、前記方法が、
前記コンピューティングシステムにより、前記中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む、請求項50~57のいずれか一項に記載の方法。
【請求項59】
前記コンピューティングシステムにより、追加的な個人のグループの健康保険請求データを含んでいる追加的なデータリポジトリから追加的な情報を取得することと、
前記コンピューティングシステムにより、ゲノミクスデータリポジトリによって記憶されているデータを有する前記個人のグループに対応する、前記追加的な個人のグループの少なくともサブセットを決定することと、
前記コンピューティングシステムにより、前記複数の識別子との関係で前記追加的な個人のグループの前記少なくともサブセットの前記健康保険請求データの前記追加的な情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加えることと
を含む、請求項50~58のいずれか一項に記載の方法。
【請求項60】
前記コンピューティングシステムにより、前記診療記録データに関して1つまたは複数の光学文字認識動作を行うことと、
前記コンピューティングシステムにより、前記診療記録データを分析して、情報のコーパスを生成するために除去すべき、前記診療記録データの1つまたは複数の部分を決定することと
を含む、請求項50~59のいずれか一項に記載の方法。
【請求項61】
前記コンピューティングシステムにより、前記情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する前記個人のグループの前記サブセットの一部分を決定することと、
前記コンピューティングシステムにより、前記個人のグループの前記サブセットの前記一部分の識別子を記憶すると共に前記個人のグループの前記サブセットの前記一部分が前記1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと
を含む、請求項60に記載の方法。
【請求項62】
前記コンピューティングシステムにより、前記1つまたは複数のデータ構造を中間データリポジトリに記憶することと、
前記コンピューティングシステムにより、前記複数の識別子との関係で前記個人のグループの前記サブセットの前記一部分の前記診療記録データの少なくとも一部分を記憶するように前記統合データリポジトリに変更を加える前に、前記個人のグループの前記サブセットの前記一部分の前記識別子に関して1つまたは複数の非特定化動作を行うことと
を含む、請求項61に記載の方法。
【請求項63】
前記分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、請求項50~62のいずれか一項に記載の方法。
【請求項64】
システムであって、
1つまたは複数のハードウェア処理装置と、
コンピュータ実行可能命令を記憶している1つまたは複数のコンピュータ可読記憶媒体と、を備え、前記コンピュータ実行可能命令は、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、
前記データファイルを診療記録データ管理システムに送ることと、
前記データファイルに応答する、前記診療記録データ管理システムから前記個人のグループに対応する診療記録データを取得することと、
前記第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、前記個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、
前記複数の識別子を使用して、前記個人のグループについて前記分子データリポジトリから第2のデータを取得することと、
前記個人のグループについて前記第2のデータのそれぞれの部分に対応する前記第1のデータのそれぞれの部分を決定することと、
前記複数の識別子のそれぞれの識別子との関係で前記第1のデータの前記それぞれの部分と前記第2のデータの前記それぞれの部分とを記憶する統合データリポジトリを生成することと、
前記統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求を受け取ることであって、前記要求は1つまたは複数の検索基準を含む、要求を受け取ることと、
前記1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、前記複数の個人のサブセットを決定することと、
前記複数の個人の前記サブセットの情報を分析して、ある生物学的状態に関する前記1つまたは複数の特性のうちの特性の有意性の指標を決定することと
を含む動作を行わせる、システム。
【請求項65】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記複数の個人の前記サブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
前記複数の個人の前記サブセットに提供された複数の治療を決定することと、
前記複数の個人の前記サブセットの各自の生存率を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項64に記載のシステム。
【請求項66】
前記有意性の指標が、前記複数の治療のうちの1つの治療および前記1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、請求項65に記載のシステム。
【請求項67】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、有意性の指標に基づいて、前記複数の個人の前記サブセットに対する前記治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項66に記載のシステム。
【請求項68】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記複数の個人のサブセットの中で前記治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項67に記載のシステム。
【請求項69】
前記統合データリポジトリは、複数のデータテーブルと前記複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、
前記複数の論理リンクのうちの個々の論理リンクは、前記複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、前記複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、請求項64~68のいずれか一項に記載のシステム。
【請求項70】
前記複数のデータテーブルが、
前記個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、
個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、
前記第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、
前記個人のグループの個人情報を記憶する第4のデータテーブルと、
前記個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、
前記個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、
前記個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、請求項69に記載のシステム。
【請求項71】
前記第2のハッシュ関数を使用して生成された前記複数の識別子が、中間識別子を含み、
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項64~70のいずれか一項に記載のシステム。
【請求項72】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
追加的な個人のグループの健康保険請求データを含んでいる追加的なデータリポジトリから追加的な情報を取得することと、
ゲノミクスデータリポジトリによって記憶されているデータを有する前記個人のグループに対応する、前記追加的な個人のグループの少なくともサブセットを決定することと、
前記複数の識別子との関係で前記追加的な個人のグループの前記少なくともサブセットの前記診療記録の前記追加的な情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加えることと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項64~71のいずれか一項に記載のシステム。
【請求項73】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記診療記録データに関して1つまたは複数の光学文字認識動作を行うことと、
前記診療記録データを分析して、情報のコーパスを生成するために除去すべき、前記診療記録データの1つまたは複数の部分を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項64~72のいずれか一項に記載のシステム。
【請求項74】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する前記個人のグループの前記サブセットの一部分を決定することと、
前記個人のグループの前記サブセットの前記一部分の識別子を記憶すると共に前記個人のグループの前記サブセットの前記一部分が前記1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項73に記載のシステム。
【請求項75】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記1つまたは複数のデータ構造を中間データリポジトリに記憶することと、
前記コンピューティングシステムにより、前記複数の識別子との関係で前記個人のグループの前記サブセットの前記一部分の前記診療記録データの少なくとも一部分を記憶するように前記統合データリポジトリに変更を加える前に、前記個人のグループの前記サブセットの前記一部分の前記識別子に関して1つまたは複数の非特定化動作を行うことと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項74に記載のシステム。
【請求項76】
前記分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、請求項64~75のいずれか一項に記載のシステム。
【請求項77】
コンピュータ実行可能命令を記憶している1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記コンピュータ実行可能命令は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、
第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、
前記データファイルを診療記録データ管理システムに送ることと、
前記データファイルに応答する、前記診療記録データ管理システムから前記個人のグループに対応する診療記録データを取得することと、
前記第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、前記個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、
前記複数の識別子を使用して、前記個人のグループについて前記分子データリポジトリから第2のデータを取得することと、
前記個人のグループについて前記第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、
前記複数の識別子のそれぞれの識別子との関係で前記第1のデータの前記それぞれの部分と前記第2のデータの前記それぞれの部分とを記憶する統合データリポジトリを生成することと、
前記統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求を受け取ることであって、前記要求は1つまたは複数の検索基準を含む、要求を受け取ることと、
前記1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、前記複数の個人のサブセットを決定することと、
前記複数の個人の前記サブセットの情報を分析して、ある生物学的状態に関する前記1つまたは複数の特性のうちの特性の有意性の指標を決定することと
を含む動作を行わせる、1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項78】
前記1つまたは複数のコンピュータ可読記憶媒体が、前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記複数の個人の前記サブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
前記複数の個人の前記サブセットに提供された複数の治療を決定することと、
前記複数の個人の前記サブセットの各自の生存率を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、請求項71に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項79】
前記有意性の指標が、前記複数の治療のうちの1つの治療および前記1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、請求項78に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項80】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、有意性の指標に基づいて、前記複数の個人の前記サブセットに対する前記治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項79に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項81】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記複数の個人のサブセットの中で前記治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項80に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項82】
前記統合データリポジトリは、複数のデータテーブルと前記複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、
前記複数の論理リンクのうちの個々の論理リンクは、前記複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、前記複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、請求項77~81のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項83】
前記複数のデータテーブルが、
前記個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、
個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、
前記第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、
前記個人のグループの個人情報を記憶する第4のデータテーブルと、
前記個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、
前記個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、
前記個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、請求項82に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項84】
前記第2のハッシュ関数を使用して生成された前記複数の識別子が、中間識別子を含み、
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、前記中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項77~83のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項85】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
追加的な個人のグループの健康保険請求データを含んでいる追加的なデータリポジトリから追加的な情報を取得することと、
ゲノミクスデータリポジトリによって記憶されているデータを有する前記個人のグループに対応する、前記追加的な個人のグループの少なくともサブセットを決定することと、
前記複数の識別子との関係で前記追加的な個人のグループの前記少なくともサブセットの前記健康保険請求データの前記追加的な情報の少なくとも一部分を記憶するように前記統合データリポジトリに変更を加えることと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項77~84のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項86】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記診療記録データに関して1つまたは複数の光学文字認識動作を行うことと、
診療記録データを分析して、情報のコーパスを生成するために除去すべき、前記診療記録データの1つまたは複数の部分を決定することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項77~85のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項87】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する前記個人のグループの前記サブセットの一部分を決定することと、
前記個人のグループの前記サブセットの前記一部分の識別子を記憶すると共に前記個人のグループの前記サブセットの前記一部分が前記1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項86に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項88】
前記1つまたは複数のハードウェア処理装置によって実行されたときに、前記システムに、
前記1つまたは複数のデータ構造を中間データリポジトリに記憶することと、
前記コンピューティングシステムにより、前記複数の識別子との関係で前記個人のグループの前記サブセットの前記一部分の前記診療記録データの少なくとも一部分を記憶するように前記統合データリポジトリに変更を加える前に、前記個人のグループの前記サブセットの前記一部分の前記識別子に関して1つまたは複数の非特定化動作を行うことと
を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、請求項87に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項89】
前記分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、請求項77~88のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張および参照による組み込み
本願は、2021年6月3日に出願された「Computer Architecture for Generating an Integrated Data Repository」という名称の米国仮特許出願第63/196,609号、2021年7月30日に出願された「Computer Architecture for Identifying Lines of Therapy」という名称の米国仮特許出願第63/227,860号、2021年8月31日に出願された「Data Repository System, and Method for Cohort Selection」という名称の米国仮特許出願第63/238,851号、および、2021年9月30日に出願された「Computer Architecture for Generating a Reference Data Table」という名称の米国仮特許出願第63/250,912号に基づく優先権を主張し、それら出願の全内容は参照により各々本明細書に組み込まれる。
【0002】
技術分野
本開示の実装形態は、全般的にコンピュータアーキテクチャの分野に関し、より詳細には、医療保険請求データおよびゲノミクスデータを含む複数ソースの医療データを統合するデータリポジトリを生成するためのコンピュータアーキテクチャに関する。
【背景技術】
【0003】
背景
1つまたは複数の生物学的状態を治療するために個人が医療提供者を訪れるのに伴って、様々な種類の文書類が生成されることがある。例えば、医療提供者によって記録された臨床知見、臨床検査結果、診断検査情報、撮像情報、歯科衛生情報、それらの1つまたは複数の組合せ等を含む診療記録が、医療提供者によって作成されることがある。加えて、医療提供者によって個人に提供された製品またはサービスの少なくとも1つに関する支払い情報を示す課金記録が生成されることがある。さらに、1つまたは複数の生物学的状態に関する個人の治療に関連して健康保険会社によって取得された情報を示す健康保険請求情報が生成されることがある。
【図面の簡単な説明】
【0004】
図1図1は、1つまたは複数の実装形態による、複数種類の医療データを含む統合データリポジトリを生成するための例示的なアーキテクチャを示す。
【0005】
図2図2は、1つまたは複数の実装形態による、統合データリポジトリ内のデータテーブルの配置に対応する例示的なフレームワークを示す。
【0006】
図3図3は、1つまたは複数の実装形態による、複数のソースからの健康に関連するデータを統合するデータリポジトリから検索された情報から、1つまたは複数のデータセットを生成するためのアーキテクチャを示す。
【0007】
図4図4は、1つまたは複数の実装形態による、非特定化された健康保険請求データと非特定化されたゲノミクスデータとを含む統合データリポジトリを生成するためのアーキテクチャを示す。
【0008】
図5図5は、1つまたは複数の実装形態による、統合データリポジトリによって記憶されているデータに基づいてデータパイプラインシステムによってデータセットを生成するためのフレームワークを示す。
【0009】
図6図6は、診療記録データを統合データリポジトリに統合するためのアーキテクチャの概略図である。
【0010】
図7図7は、1つまたは複数の実装形態による、健康保険請求データおよびゲノミクスデータを記憶する統合データリポジトリを生成するための例示的プロセスのデータ流れ図である。
【0011】
図8図8は、1つまたは複数の実装形態による、健康保険請求データおよびゲノミクスデータを記憶する統合データリポジトリによって記憶されている情報を分析するために使用される複数のデータセットを生成するための例示的プロセスのデータ流れ図である。
【0012】
図9図9は、1つまたは複数の実装形態による、本明細書に論じられる方法論の任意の1つまたは複数を機械に行わせるために命令のセットがその中で実行されてよいコンピュータシステムの形態の機械の図式的表現を示す。
【0013】
図10図10は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療を受ける前に非小細胞性肺がんを治療するために1L療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0014】
図11図11は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療中に非小細胞性肺がんを治療するために1L療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0015】
図12図12は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療の前に非小細胞性肺がんを治療するためにオシメルチニブを受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0016】
図13図13は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療中に非小細胞性肺がんを治療するためにオシメルチニブを受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0017】
図14図14は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療中に非小細胞性肺がんを治療するために化学療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0018】
図15図15は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療後に非小細胞性肺がんを治療するために化学療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0019】
図16図16は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療を受ける前に非小細胞性肺がんを治療するために化学療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0020】
図17図17は、ファーストラインのオシメルチニブによる治療の開始後に液体生検を受けた、進行非小細胞性肺がん(NSCLC)と診断された患者のコホート(n=637)における選択された変化の頻度を示す図である。
【0021】
図18図18は、アロマターゼ阻害薬(AI)による治療の記録後に液体生検を受けた、乳がんと診断された患者のコホート(n=4448)のリガンド結合ドメインにおける選択された突然変異の頻度を示す図である。
【0022】
図19図19は、NSCLCと診断された女性に提供された治療の後の液体生検によって検出されたオシメルチニブ耐性に関連する変化を示す図である。
【0023】
図20図20は、転移性乳がんと診断され、アロマターゼ阻害薬で治療を受けた女性に関する、2回目の治療過程後に検出されたESR1耐性の突然変異を示す図である。
【発明を実施するための形態】
【0024】
詳細な説明
以下の説明および図面は、当業者が特定の実装形態を実施することができるようにそれらを十分に説明する。他の実装形態は、構造的、論理的、電気的なプロセスおよび他の変更を組み込んでよい。一部の実装形態の部分および特徴は、他の実装形態のものに含まれるかまたはそれに代わって使用されてよい。特許請求の範囲に述べられる実装形態は、それら請求項のすべての可能な同等物を包含する。
【0025】
その成功への商業的関心をもってエンティティによって設計・実施されることが多い、ランダム化され、コントロールされた試験の非常に選択的な制約の外側で、腫瘍の挙動や治療・指針の成果を理解するためには、より多くのデータが必要とされる。現実世界のエビデンス(RWE:Real-world evidence)、具体的には統合された臨床データと分子データを備えたデータベースの使用は、プレシジョン腫瘍学の研究においてますます重要な役割を果たすようになっている。しかし、そのようなデータベースの大半は、一部の理由としては、現実世界の臨床慣行における連続した腫瘍標本のゲノムプロファイリングの実際的な問題のために、1つのみの時点、一般には診断時、に制限された腫瘍からのゲノム情報を備える。治療は腫瘍ゲノムの様相を著しく変化させ、薬物耐性につながり得るという証拠にも関わらず、腫瘍に関するゲノムデータは、体系的な治療にナイーブなものに制限されることが多い。液体生検アッセイで得られたデータを豊富な臨床情報と組み合わせることは、これらの問題を克服すると共に、腫瘍の進展および耐性を与えるバイオマーカーの発現の理解を向上させるのを助けて、満たされていないニーズの分野に対処する新しい治療法の開発を導くことができる。
【0026】
既存のシステムおよび技術を使用した医療データの分析は、通例、医療提供者によって生成された診療記録に関して行われる。本明細書において使用される場合、医療提供者とは、1つまたは複数の生物学的状態の治療または予防の少なくとも一方に関連して、個人に提供されるケアに関与するエンティティ、個人、または個人のグループを指すことがある。また、本明細書において使用される場合、生物学的状態とは、その異常の検出可能な特徴を発生させるまたは発生させる恐れがあるような程度の、個人における機能および/または構造の異常を指すことがある。生物学的状態は、1つまたは複数の母集団における生物学的基準からの逸脱を示す、外部のおよび/または内部の特性、兆候、ならびに/あるいは症状によって特徴付けられ得る。生物学的状態は、1つまたは複数の母集団における生物学的基準からの逸脱を示す、外部のおよび/または内部の特性、兆候、ならびに/あるいは症状によって特徴付けられ得る。様々な例において、生物学的状態は、1つまたは複数の分子表現型を含み得る。例えば、生物学的状態は、遺伝的または後成的病変に対応することがある。1つまたは複数の追加的な例において、生物学的状態は、1つまたは複数の疾患、1つまたは複数の障害、1つまたは複数の損傷、1つまたは複数の症候群、1つまたは複数の能力障害、1つまたは複数の感染、1つまたは複数の孤立した症状、あるいは個人の生物学的構造および/もしくは機能のその他の非定型変異、の少なくとも1つを含み得る。加えて、本明細書において使用される治療とは、個人の生物学的状態の1つまたは複数の影響を治療する意図で投与され、または行われ得る、物質、手順、ルーチン、装置、および/または他の介入を指すことがある。1つまたは複数の例において、治療は、個人によって代謝される物質を含んでよい。物質は、医薬組成物などの、物質の組成を含んでよい。物質は、摂取、注射、吸収、または吸入などのいくつかの方法を介して個人に送達されてよい。治療は、1つまたは複数の手術など、物理的介入を含んでもよい。少なくとも一部の例において、治療は、治療上有用な介入を含むことができる。
【0027】
既存のシステムによって通例分析される医療データは、非構造化データを含んでいる。非構造化データは、予め定められたまたは標準化された形式に従って編成されていないデータを含み得る。例えば、非構造化データは、自由テキストからなる、医療提供者によって作成された注釈を含んでよい。すなわち、その注釈が取り込まれる方式は、ドロップダウンメニューやリストを介するなどして医療提供者によって選択可能な、予め定められた入力を含まない。そうではなく、注釈は、文章、文章断片、単語、文字、記号、略語、それらの1つまたは複数の組合せ等を含み得る、医療提供者によって入力されたテキストを含んでいる。場合によっては、非構造化データが、部分的に構造化されていることもある。例えば、提供者は、保険課金コードの予め定められた一覧から保険課金コードを選択し、その課金コードに関連するデータに非構造化注釈を追加することがあり得る。
【0028】
既存のシステムは、通例、既存のシステムによって行われている分析に関連するかもしれない情報を抽出するために、大量のコンピューティングリソースを非構造化データの分析に充てる。場合によっては、既存のシステムは、非構造化データを分析し、それまで構造化されていなかったデータの分析を容易にするために、非構造化データを構造化された形式に変換することがある。既存のシステムによる非構造化データの分析は、非効率的であると共に不正確であり得る。非構造化データが医療データから取得されるシナリオでは、分析が1つまたは複数の生物学的状態に関する複数の個人の治療または診断の少なくとも一方に関連する可能性があるため、情報を正確に分析することの重要性が高い。よって、医療データの不正確な分析は、結果として個人の最適以下の治療につながることがある。
【0029】
本明細書に記載される技術、アーキテクチャ、フレームワーク、システム、プロセス、およびコンピュータ可読命令の実装形態は、健康保険請求データを分析して、個人の健康または治療の少なくとも一方に関する情報を導出することを対象とする。既存のシステムと対照的に、健康保険請求データは、1つまたは複数の形式に従って構造化され、複数のデータテーブルによって記憶される。データテーブルは、個人が受けた治療、治療日、投薬量情報、1つまたは複数の生物学的状態に関する個人の診断、医療提供者への訪問に関係する情報、医療提供者への訪問日、課金情報等を示す、コードまたは他の英数字情報を含んでよい。本明細書に記載される実装形態は、1つまたは複数の生物学的状態が存在する、数百、数千から、数万人またはそれを超える人数に及ぶ個人に関する健康保険請求データを正確に分析するために使用されてよい。様々な例において、健康保険請求データの数万、数十万から、数百万に及ぶ行および/または列を分析して、1つまたは複数の生物学的状態が存在する個人の健康関連情報を決定してよい。
【0030】
様々な例において、本明細書に記載される実装形態は、分子データを健康保険請求データと統合することができる。分子データは、複数の個人から抽出された組織試料から導出された情報を含んでよい。分子データはまた、複数の個人から抽出された血液試料から導出された情報も含んでよい。1つまたは複数の説明例において、分子データは、ゲノミクスデータを含んでよい。さらに、1つまたは複数の例において、健康保険請求データは、複数の個人の生殖細胞系遺伝子情報と統合されてよい。
【0031】
個人の健康保険請求データをその個人の分子データと組み合わせる統合データリポジトリが作成されてよい。1つまたは複数の例において、その個人の健康保険請求データとその個人の分子データの両方に関連付けられる、個人の識別子が生成されてよい。統合データリポジトリによって記憶されている分子データと健康保険請求データとはどちらも、個人の単一の識別子を使用してアクセス可能であってよい。1つまたは複数の説明例において、個人の識別子は、暗号化されたセキュリティ鍵を含んでよい。様々な例において、統合データリポジトリは、データリポジトリに記憶されているデータの様々な態様に対応する複数のデータテーブルを含んでよい。例えば、個人情報など、統合データリポジトリに含まれる個人の要約データを含む第1のデータテーブルが生成されてよく、医療提供者への訪問に対応するデータを含む第2のデータテーブルが生成されてよい。加えて、個人に提供された医療処置を示す第3のデータテーブルが生成されてよく、個人が得た処方に関係する情報を示す第4のデータテーブルが生成されてよい。さらに、個人のマルチオミクス(multiomics)プロファイリングを含む第5のデータテーブルが生成されてよい。マルチオミクスプロファイルは、ゲノムプロファイル、トランスクリプトミクスプロファイル、エピジェネティクスプロファイル、またはプロテオミクスプロファイルの少なくとも1つを含んでよい。
【0032】
統合データリポジトリに含まれるデータテーブルは、論理リンクを介してリンクされてよい。そのようにして、あるデータテーブルから情報を検索するクエリが、1つまたは複数の追加的なデータテーブルからの情報を検索させてよい。リンクされたデータテーブルによって記憶されている情報にアクセスして、統合データリポジトリによって記憶されている情報を分析するために使用され得る、複数の異なるデータセットを生成してよい。例えば、統合データリポジトリによって記憶されている情報を1つまたは複数のアルゴリズムによって分析して、1つまたは複数のスキーマに従って編成されたデータセットを生成してよい。データセットは、ある生物学的状態に関してある期間にわたって個人が受けた治療を示してよい。データセットはまた、複数の共通の特性を有する、統合データリポジトリに含まれる個人のコホートを示してよい。様々な例において、データセットは、統合データリポジトリを含むいくつかの異なるデータソースからの情報を総合し、構成してよい。データセットは、医療提供者、患者、または生物学的状態の治療の提供者のうち少なくとも一者にとって関心があり得る情報を示すように、いくつかのクエリに関して分析されてよい。例えば、1つまたは複数のデータセットを分析して、ある生物学的状態が存在し、かつ指定された治療を受けたことに反応して特定のゲノムプロファイルを有する個人の生存率をより正確に決定してよい。
【0033】
本明細書に記載される実装形態は、個人の健康保険請求データと分子データを統合するプラットフォームを提供し得、このプラットフォームは、一定量の非構造化データを含む電子診療記録に依拠するのが一般的である既存のシステムには見られない。分子データと統合された構造化された健康保険請求データを生成・分析することにより、本明細書に記載される実装形態は、比較的不正確な非構造化電子診療記録データに依拠する既存のシステムと比べて、統合されたデータのより正確な特徴付けを提供し得る。加えて、本明細書に記載される実装形態は、機密性のある匿名化された方式で個人に関する健康情報の分析を可能にする、分析可能な状態になったデータセットを生成する。
【0034】
図1は、1つまたは複数の実装形態による、複数種類の医療データを含む統合データリポジトリを生成するための例示的なアーキテクチャ100を示す。アーキテクチャ100は、データ統合・分析システム102を含んでよい。データ統合・分析システム102は、複数のデータソースからデータを取得し、それらデータソースからのデータを統合データリポジトリ104に統合してよい。例えば、データ統合・分析システム102は、健康保険請求データリポジトリ106からデータを取得してよい。様々な例において、データ統合・分析システム102と健康保険請求データリポジトリ106とは、異なるエンティティによって作成され、維持されてよい。1つまたは複数の追加的な例において、データ統合・分析システム102と健康保険請求データリポジトリ106とは、同じエンティティによって作成され、維持されてよい。
【0035】
データ統合・分析システム102は、1つまたは複数のコンピューティングデバイスによって実装されてよい。1つまたは複数のコンピューティングデバイスは、1つまたは複数のサーバコンピューティングデバイス、1つまたは複数のデスクトップコンピューティングデバイス、1つまたは複数のラップトップコンピューティングデバイス、1つまたは複数のタブレットコンピューティングデバイス、1つまたは複数のモバイルコンピューティングデバイス、あるいはそれらの組合せを含んでよい。ある特定の実装形態では、1つまたは複数のコンピューティングデバイスの少なくとも一部分が、分散コンピューティング環境で実装されてよい。例えば、1つまたは複数のコンピューティングデバイスの少なくとも一部分が、クラウドコンピューティングアーキテクチャで実装されてよい。データ統合・分析システム102を実装するために使用されるコンピューティングシステムが分散コンピューティングアーキテクチャとして構成されるシナリオでは、処理動作は、複数の仮想機械によって同時に行われてよい。様々な例において、データ統合・分析システム102は、マルチスレッド技術を実装してよい。分散コンピューティングアーキテクチャおよびマルチスレッド技術の実装形態は、データ統合・分析システム102に、これらの技術を実装しないコンピューティングアーキテクチャと比べて少ないコンピューティングリソースを利用させる。
【0036】
健康保険請求データリポジトリ106は、1つまたは複数の健康保険会社の加入者によってなされた保険請求に対応する、1つまたは複数の健康保険会社から取得される情報を記憶してよい。健康保険請求データリポジトリ106は、患者識別子ごとに配置(例えばソート)されてよい。患者識別子は、患者の名、姓、誕生日、社会保障番号、住所、雇用主等に基づいてよい。健康保険請求データリポジトリ106によって記憶されるデータは、1つまたは複数のデータテーブルに配置された構造化データを含んでよい。構造化データを記憶している1つまたは複数のデータテーブルは、加入者が医療提供者から受けた処置および/または治療に関連して1つまたは複数の健康保険会社の加入者によってなされた健康保険請求に関する情報を示す、複数の行および複数の列を含んでよい。健康保険請求データリポジトリ106によって記憶されているデータテーブルの行および列の少なくとも一部分は、生物学的状態の診断、1つまたは複数の健康保険会社の加入者が得た治療および/または処置を示し得る健康保険コードを含んでよい。様々な例において、健康保険コードはまた、個人に存在する可能性のある1つまたは複数の生物学的状態に関係する、個人が得た診断処置も示してよい。1つまたは複数の例において、診断処置は、生物学的状態の存在の検出で使用された情報を提供してよい。診断処置は、生物学的状態の進行を決定するために使用された情報も提供してよい。1つまたは複数の説明例において、診断処置は、1つまたは複数の撮像処置、1つまたは複数のアッセイ、1つまたは複数の検査処置、それらの1つまたは複数の組合せ等を含んでよい。
【0037】
データ統合・分析システム102は、分子データリポジトリ108からも情報を取得してよい。分子データリポジトリ108は、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、および/またはプロテオミクス情報に関係する、複数の個人のデータを記憶してよい。1つまたは複数の例において、データ統合・分析システム102と分子データリポジトリ108とは、異なるエンティティによって作成され、維持されてよい。1つまたは複数の追加的な例において、データ統合・分析システム102と分子データリポジトリ108とは、同じエンティティによって作成され、維持されてよい。
【0038】
ゲノム情報は、個人の遺伝子に対応する1つまたは複数の突然変異を示してよい。個人の遺伝子に対する突然変異は、個人の核酸の配列と1つまたは複数の参照ゲノムとの間の差異に対応し得る。参照ゲノムは、hg19などの既知の参照ゲノムを含んでよい。様々な例において、個人の遺伝子の突然変異は、参照ゲノムと比べた個人の生殖細胞系遺伝子の差異に対応してよい。1つまたは複数の追加的な例において、参照ゲノムは、個人の生殖細胞系ゲノムを含んでよい。1つまたは複数のさらなる例において、個人の遺伝子の突然変異は、体細胞突然変異を含んでよい。個人の遺伝子の突然変異は、挿入、欠失、一塩基変異体、異型接合性の喪失、重複、増幅、転座、融合遺伝子、あるいはそれらの1つまたは複数の組合せに関係することがある。
【0039】
1つまたは複数の説明例において、分子データリポジトリ108によって記憶されているゲノム情報は、個人に存在する腫瘍細胞のゲノムプロファイルを含んでよい。そのような状況では、ゲノム情報は、これらに限定されないが、組織試料もしくは腫瘍生検、循環腫瘍細胞(CTC)、エクソソームもしくはエフェロソームを含む試料からの、または個人に存在する腫瘍細胞の分解に起因して存在する、個人の血液試料に見られる循環核酸(例えば無細胞DNA)からの、デオキシリボ核酸(DNA)および/またはリボ核酸(RNA)などの遺伝物質の分析から導出されてよい。1つまたは複数の例において、個人の腫瘍細胞のゲノム情報は、1つまたは複数の標的領域に対応してよい。1つまたは複数の標的領域に関して存在する1つまたは複数の突然変異は、個人内の腫瘍細胞の存在を示すことがある。分子データリポジトリ108によって記憶されるゲノム情報は、参照ゲノムの1つまたは複数の標的領域に対する1つまたは複数の突然変異を決定することもある、アッセイまたは他の診断検査との関連で生成されてよい。
【0040】
「無細胞DNA」、「cfDNA分子」、または単に「cfDNA」は、細胞外形態で(例えば、血液、血清、血漿、またはリンパ液、髄液、尿、もしくは痰などの他の体液中で)対象に発生するDNA分子を含み、また被験者からの分離の時点で細胞に含まれていないまたはその他の形で細胞に結合していないDNAを含む。DNAは、元々は、大型の複雑な生物(例えば哺乳動物)の1つまたは複数の細胞、あるいは生物に定着するバクテリアなどの他の細胞の中に存在していたが、DNAは、細胞からの放出を経て、生物内に見られる流体に入るに至った。cfDNAは、これらに限定されないが、対象の無細胞ゲノムDNA(例えば、人間の対象のゲノムDNA)、および対象に生息しているバクテリア(病原性のバクテリアであれ、または健康な対照群の消化管や皮膚などの一般に定着する場所に通常見られるバクテリアであれ)などの微生物の無細胞DNAを含むが、単に体液の試料に混入した微生物の無細胞DNAは含まない。通例、cfDNAは、in vitro細胞溶解ステップを行う必要なしに、流体の試料を取得することによって得られ得、また流体中に存在する細胞の除去を含む(例えば、細胞を除去するための血液の遠心分離)。
【0041】
1つまたは複数の追加的な例において、データ統合・分析システム102は、1つまたは複数の追加的なデータリポジトリ110から情報を取得してよい。1つまたは複数の追加的なデータリポジトリ110は、健康保険請求データリポジトリ106または分子データリポジトリ108の少なくとも一方にデータが存在する個人の電子診療記録に関係するデータを記憶してよい。さらに、1つまたは複数の追加的なデータリポジトリ110は、健康保険請求データリポジトリ106または分子データリポジトリ108の少なくとも一方にデータが存在する個人の病理報告に関係するデータを記憶してよい。様々な例において、1つまたは複数の追加的なデータリポジトリ110は、生物学的状態および/または生物学的状態の治療に関係するデータを記憶してよい。1つまたは複数の例において、データ統合・分析システム102と、1つまたは複数の追加的なデータリポジトリ110の少なくとも一部分とは、異なるエンティティによって作成され、維持されてよい。1つまたは複数のさらなる例において、データ統合・分析システム102と、1つまたは複数の追加的なデータリポジトリ110の少なくとも一部分とは、同じエンティティによって作成され、維持されてよい。
【0042】
1つまたは複数のさらなる実装形態では、データ統合・分析システム102は、1つまたは複数の参照情報データリポジトリ112から情報を取得してよい。1つまたは複数の参照情報データリポジトリ112は、定義、規格、プロトコール、用語集、それらの1つまたは複数の組合せ等を含む情報を記憶してよい。様々な例において、1つまたは複数の参照情報データリポジトリによって記憶される情報は、生物学的状態および/または生物学的状態の治療に対応してよい。1つまたは複数の説明例において、1つまたは複数の参照情報データリポジトリ112はRxNormを含んでよい(RxNormは、臨床薬の正規化された名前を提供し、その名前を薬局管理および薬物対話ソフトウェアで使用される薬物用語の多くにリンクする)。1つまたは複数の例において、データ統合・分析システム102と、1つまたは複数の参照情報データリポジトリ112の少なくとも一部分とは、異なるエンティティによって作成され、維持されてよい。1つまたは複数のさらなる例において、データ統合・分析システム102と、1つまたは複数の参照情報データリポジトリ112の少なくとも一部分とは、同じエンティティによって作成され、維持されてよい。
【0043】
データ統合・分析システム102は、データ統合・分析システム102によってアクセス可能であり、また健康保険請求データリポジトリ106、分子データリポジトリ108、1つまたは複数の追加的なデータリポジトリ110、または参照情報データリポジトリ112のうち少なくとも1つによってアクセス可能である、1つまたは複数の通信ネットワークを介して、健康保険請求データリポジトリ106、分子データリポジトリ108、1つまたは複数の追加的なデータリポジトリ110、あるいは参照情報データリポジトリ112の少なくとも1つからデータを取得してよい。データ統合・分析システム102はまた、1つまたは複数のセキュアな通信チャネルを介して、健康保険請求データリポジトリ106、分子データリポジトリ108、1つまたは複数の追加的なデータリポジトリ110、または参照情報データリポジトリ112の少なくとも1つからデータを取得してよい。加えて、データ統合・分析システム102は、アプリケーションプログラミングインターフェース(API)の1つまたは複数の呼び出しを介して、健康保険請求データリポジトリ106、分子データリポジトリ108、1つまたは複数の追加的なデータリポジトリ110、または参照情報データリポジトリ112の少なくとも1つからデータを取得してよい。
【0044】
データ統合・分析システム102は、データ統合システム114を含んでよい。データ統合システム114は、健康保険請求データリポジトリ106および分子データリポジトリ108からデータを取得して、統合データリポジトリ104を生成してよい。データ統合システム114はまた、1つまたは複数の追加的なデータリポジトリ110からデータを取得して、統合データリポジトリ104を生成してよい。様々な例において、データ統合システム114は、1つまたは複数の追加的なデータリポジトリ110からのデータを統合データリポジトリ104に統合するために、1つまたは複数の自然言語処理技術を実装してよい。
【0045】
1つまたは複数の例において、データ統合システム114は、健康保険請求データリポジトリ106に記憶されたデータを有し、かつ分子データリポジトリ108に記憶されたデータを有する個人を特定するための1つまたは複数のトークンを生成してよい。様々な例において、データ統合システム114は、1つまたは複数のハッシュ関数を実装することによって1つまたは複数のトークンを生成してよい。データ統合システム114は、1つまたは複数のハッシュ関数を実装して、健康保険請求データリポジトリ106または分子データリポジトリ108の少なくとも一方によって記憶されている情報に基づいて、1つまたは複数のトークンを生成してよい。例えば、ハッシュ関数を実装することによって個々のトークンを生成するためにデータ統合システム114によって使用される情報は、それぞれの個人の識別子、それぞれの個人の誕生日、それぞれの個人の郵便番号、それぞれの個人の誕生日、またはそれぞれの個人の性別、の少なくとも1つを含んでよい。1つまたは複数の説明例において、それぞれの個人の識別子は、それぞれの個人の名の少なくとも一部分と、それぞれの個人の姓の少なくとも一部分との組合せを含んでよい。複数の異なるデータリポジトリからのデータを使用して生成されたトークンは、それら異なるデータリポジトリによって記憶されている、同じもしくは同様の情報に、または同じもしくは同様の種類に対応してよい。例示すると、トークンは、健康保険請求データリポジトリ106および分子データリポジトリ108から取得される、個人の名前の一部分、誕生日、郵便番号の少なくとも一部分、および性別を使用して生成されてよい。
【0046】
データ統合システム114は、複数の異なるデータソースから取得されたデータを使用して1つまたは複数のハッシュ関数を実装することによって生成されたトークンを分析することにより、それら複数の異なるデータソースからのデータを統合してよい。例えば、データ統合システム114は、健康保険請求データリポジトリ106によって記憶されているデータから生成された1つまたは複数の第1のトークンと、分子データリポジトリ108によって記憶されているデータから生成された1つまたは複数の第2のトークンとを取得してよい。データ統合システム114は、1つまたは複数の第1のトークンを1つまたは複数の第2のトークンとの関係で分析して、個々の第2のトークンに対応する個々の第1のトークンを決定してよい。1つまたは複数の説明例において、データ統合システム114は、個々の第2のトークンと一致する個々の第1のトークンを特定してよい。第1のトークンは、第1のトークンのデータが第2のトークンのデータに対して少なくとも閾値量の類似度を有するときに第2のトークンと一致してよい。1つまたは複数の例において、第1のトークンは、第1のトークンのデータが第2のトークンのデータと同じであるときに第2のトークンと一致してよい。例示すると、第1のトークンは、第1のトークンの英数文字列が第2のトークンの英数文字列と同じであるときに第2のトークンと一致してよい。
【0047】
分子データリポジトリ108によって記憶されているデータを使用して生成された第2のトークンに対応する、健康保険請求データリポジトリ106によって記憶されているデータを使用して生成された第1のトークンを決定することにより、データ統合システム114は、健康保険請求データリポジトリ106と分子データリポジトリ108の両方に記憶されているデータを有する個人を識別してよい。このようにして、データ統合システム114は、複数の個人からの健康保険請求データリポジトリ106からのデータと、同じ複数の個人からの分子データリポジトリ108からのデータとを取得し、それら複数の個人の健康保険請求データおよび分子データを統合データリポジトリ104に記憶してよい。
【0048】
データ統合システム114はまた、1つまたは複数の追加的なデータリポジトリ110によって記憶されているデータを、健康保険請求データリポジトリ106および分子データリポジトリ108からのデータと統合して、統合データリポジトリ104を生成してよい。例示すると、データ統合システム114は、病理報告に対応するデータを記憶しているデータリポジトリなどの追加的なデータリポジトリ110によって記憶されているデータから生成された、1つまたは複数の第3のトークンを取得してよい。データ統合システム114は、健康保険請求データリポジトリ106によって記憶されている情報を使用して生成された第1のトークンおよび分子データリポジトリ108によって記憶されている情報を使用して生成された第2のトークンに対して1つまたは複数の第3のトークンを分析して、個々の第1のトークンおよび個々の第2のトークンに対応するそれぞれの第3のトークンを決定してよい。1つまたは複数の説明例において、データ統合システム114は、1つまたは複数のハッシュ関数と、健康保険請求データリポジトリ106、分子データリポジトリ108、および追加的なデータリポジトリ110から取得された情報の共通のセットとを使用して生成された第3のトークンを特定してよい。
【0049】
健康保険請求データリポジトリ106によって記憶されているデータを使用して生成された第1のトークンおよび分子データリポジトリ108によって記憶されているデータを使用して生成された第2のトークンに対応する、追加的なデータリポジトリ110によって記憶されているデータを使用して生成された第3のトークンを決定することにより、データ統合システム114は、健康保険請求データリポジトリ106、分子データリポジトリ108、および追加的なデータリポジトリ110に記憶されているデータを有する個人を識別してよい。このようにして、データ統合システム114は、複数の個人からの健康保険請求データリポジトリ106からのデータと、同じ複数の個人からの分子データリポジトリ108および追加的なデータリポジトリ110からのデータとを取得し、それら複数の個人の健康保険請求データ、分子データ、および追加的なデータを統合データリポジトリ104に記憶してよい。
【0050】
複数の個人について統合データリポジトリ104によって記憶されているデータは、個人各自の識別子を使用してアクセス可能であってよい。データ統合システム114は、統合データリポジトリ104への個人の情報の記憶および検索に関する非特定化プロセスの一部として、複数の技術を実装してよい。個人の識別子は、少なくとも1つのハッシュ関数を使用して生成される鍵に対応してよい。個人の識別子はまた、少なくとも1つのハッシュ関数を使用して生成された鍵に対して1つまたは複数のソルティング(salting)プロセスを実装することによって生成されてもよい。1つまたは複数のハッシュ関数と、健康保険請求データリポジトリ106、分子データリポジトリ108、および/あるいは追加的なデータリポジトリ110から取得された情報の共通のセットとを使用して生成されたトークン。1つまたは複数の説明例において、統合データリポジトリ104によって記憶されているそれぞれの個人の情報にアクセスするためにデータ統合システム114によって生成される識別子は、各個人に一意であってよい。1つまたは複数の例において、個人の識別子は、その個人に関係するトークンを生成するために使用された情報の少なくとも一部分を使用して生成されてよい。1つまたは複数の追加的な例において、個人の識別子は、その個人に関係するトークンを生成するために使用された情報とは異なる情報を使用して生成されてよい。
【0051】
データ統合システム114はまた、データリポジトリの複数の異なる組合せから、同じようにして統合データリポジトリ104を生成してよい。例えば、データ統合システム114は、健康保険請求データリポジトリ106によって記憶されている情報から生成されたトークンと、1つまたは複数の追加的なデータストア110によって記憶されている情報から生成された追加的なトークンとを取得してよい。データ統合システム114は、1つまたは複数の追加的なデータリポジトリ110によって記憶されている情報から生成された個々の追加的なトークンに対応する、健康保険請求データリポジトリ106によって記憶されている情報から生成された個々のトークンを決定してよい。追加的なデータリポジトリ110によって記憶されているデータを使用して生成された追加的なトークンに対応する、健康保険請求データリポジトリ106によって記憶されているデータを使用して生成されたトークンを決定することにより、データ統合システム114は、健康保険請求データリポジトリ106と追加的なデータリポジトリ110の両方に記憶されているデータを有する個人を識別してよい。このようにして、データ統合システム114は、複数の個人からの健康保険請求データリポジトリ106からのデータと、同じ複数の個人からの追加的なデータリポジトリ110からのデータとを取得し、それら複数の個人の健康保険請求データと追加的なデータとを統合データリポジトリ104に記憶してよい。複数の個人について統合データリポジトリ104に記憶されている健康保険請求データおよび追加的なデータは、個人各自の識別子を使用してアクセス可能であってよい。
【0052】
1つまたは複数のさらなる例において、データ統合システム114は、分子データリポジトリ108によって記憶されている情報から生成されたトークンと、1つまたは複数の追加的なデータストア110によって記憶されている情報から生成されたトークンとを取得してよい。データ統合システム114は、1つまたは複数の追加的なデータリポジトリ110によって記憶されている情報から生成された個々の追加的トークンに対応する、分子データリポジトリ108によって記憶されている情報から生成された個々のトークンを決定してよい。追加的なデータリポジトリ110によって記憶されているデータを使用して生成された追加的なトークンに対応する、分子データリポジトリ108によって記憶されているデータを使用して生成されたトークンを決定することにより、データ統合システム114は、分子データリポジトリ108と追加的なデータリポジトリ110の両方に記憶されているデータを有する個人を識別してよい。このようにして、データ統合システム114は、複数の個人からの分子データリポジトリ108からのデータと、同じ複数の個人からの追加的なデータリポジトリ110からのデータとを取得し、それら複数の個人の分子データおよび追加的なデータを統合データリポジトリ104に記憶してよい。複数の個人について統合データリポジトリ104に記憶されている分子データおよび追加的なデータは、個人各自の識別子を使用してアクセス可能であってよい。
【0053】
統合データリポジトリ104によって記憶されているデータは、プライバシーを保護し、個人の診療記録、健康情報、および保険情報のセキュリティを保証する、1つまたは複数の規制フレームワークに従って記憶されてよい。例えば、データは、健康保険の相互運用性と説明責任に関する法律(HIPAA:Health Insurance Portability and Accountability Act)および/または一般データ保護規則(GDPR:General Data Protection Regulation)などの、個人情報を保護することを対象とする1つまたは複数の政府規制フレームワークに従って、統合データリポジトリ104によって記憶されてよい。統合データリポジトリ104はまた、統合データリポジトリ104によって記憶されているデータを有する個人のプライバシーの保護を確実にするために、匿名化され、非特定化された形でデータを記憶する。統合データリポジトリ104によって記憶されているデータを有する個人のプライバシーをさらに確実にするために、データ統合システム114は、統合データリポジトリ104を周期的に再生成してよい。例えば、データ統合システム114は、統合データリポジトリ104を四半期に一度作成してよい。1つまたは複数の追加的な例において、データ統合システム114は、統合データリポジトリ104を、月ごと、週ごと、または2週間に一度、生成してよい。統合データリポジトリ104を周期的に再生成し、新しいデータが入手可能になっているときに単に統合データリポジトリ104を更新するのではないことにより、統合データリポジトリ104は、統合データリポジトリ104によって記憶されているデータに関してプライバシー保護を強化する。すなわち、データリポジトリが単に新しいデータで更新される状況では、任意の時に追加される新しい個人の数は、通例、データリポジトリによって記憶されているデータをすでに有する既存の個人の数よりも少ないため、データリポジトリに新たに追加されたデータに関連する個人を追跡することがより容易になる可能性がある。
【0054】
様々な例において、統合データリポジトリ104によって記憶されているデータは、データベース管理システムを介してアクセスされてよい。加えて、統合データリポジトリ104は、1つまたは複数のデータベースモデルに従ってデータを記憶してよい。1つまたは複数の例において、統合データリポジトリ104は、1つまたは複数のリレーショナルデータベース技術に従ってデータを記憶してよい。例えば、統合データリポジトリ104は、リレーショナルデータベースモデルに従ってデータを記憶してよい。1つまたは複数の追加的な例において、統合データリポジトリ104は、オブジェクト指向データベースモデルに従ってデータを記憶してよい。1つまたは複数のさらなる例において、統合データリポジトリ104は、拡張可能マークアップ言語(XML)データベースモデルに従ってデータを記憶してよい。さらに追加的な例において、統合データリポジトリ104は、構造化クエリ言語(SQL)データベースモデルに従ってデータを記憶してよい。またさらなる例において、統合データリポジトリは、画像データベースモデルに従ってデータを記憶してよい。
【0055】
データ統合システム114は、複数のデータテーブルを生成し、それらデータテーブル間のリンクを作成することにより、統合データリポジトリ104を生成してよい。リンクは、データテーブル間の論理的結合を示してよい。データ統合システム114は、データリポジトリ106、108、110、112から取得された情報から指定されたデータのセットを抽出し、そのデータをそれぞれのデータテーブルの行および列に格納することにより、データテーブルを生成してよい。様々な例において、データテーブル間の論理的結合は、1つのデータテーブルの一行の情報が別のデータテーブルの一行の情報に対応する一対一のリンク、1つのデータテーブルの一行の情報が別のデータテーブルの複数行の情報に対応する一対多のリンク、または、1つのデータテーブルの複数行の情報が別のデータテーブルの複数行の情報に対応する多対多のリンク、の少なくとも1つを含んでよい。
【0056】
複数のデータテーブルは、データリポジトリスキーマ116に従って構成されてよい。図1の説明例では、データリポジトリスキーマ114は、第1のデータテーブル118、第2のデータテーブル120、第3のデータテーブル122、第4のデータテーブル124、および第5のデータテーブル124を含む。図1の説明例は5つのデータテーブルを含むが、追加的な実装形態では、データリポジトリスキーマ116は、これよりも多いまたは少ないデータテーブルを含んでよい。データリポジトリスキーマ116は、データテーブル118、120、122、124、128間のリンクも含んでよい。データテーブル118、120、122、124、126間のリンクは、データテーブル118、120、122、124、126の1つから検索された情報が、結果として、1つまたは複数の追加的なデータテーブル118、120、122、124、126によって記憶されている追加的な情報を検索させることを示してよい。また、データテーブル118、120、122、124、126のすべてが、他のデータテーブル118、120、120、122、124、126の各々とリンクされなくともよい。図1の説明例では、第1のデータテーブル118は、第1のリンク128によって第2のデータテーブル118に論理的に結合され、第1のデータテーブル118は、第2のリンク130によって第4のデータテーブル124に論理的に結合されている。加えて、第2のデータテーブル120は、第3のリンク132を介して第3のデータテーブル122に論理的に結合され、第4のデータテーブル124は、第4のリンク134を介して第5のデータテーブル126に論理的に結合されている。さらに、第3のデータテーブル122は、第5のリンク136を介して第5のデータテーブル126に論理的に結合されている。
【0057】
様々な例において、データテーブルがデータリポジトリスキーマ116に追加されるおよび/またはそこから除去されるのに伴い、データテーブル間の追加的なリンクが、データリポジトリスキーマ116に追加されるまたはそこから除去されてよい。1つまたは複数の説明例において、統合データリポジトリ104は、データ統合システム114が、健康保険請求データリポジトリ106、分子データリポジトリ108、1つまたは複数の追加的なデータリポジトリ110、および1つまたは複数の参照情報データリポジトリ112のうち少なくとも2つの組合せから情報を得た個人の少なくとも一部分については、データリポジトリスキーマ116に従ってデータテーブルを記憶してよい。その結果、統合データリポジトリ104は、数千、数万から、数十万人またはそれを超える人数に及ぶ個人について、データリポジトリスキーマ116に従ってデータテーブル118、120、122、124、126のそれぞれのインスタンスを記憶してよい。
【0058】
データ統合・分析システム102は、データパイプラインシステム138も含んでよい。データパイプラインシステム138は、統合データリポジトリ104によって記憶されている情報を処理して追加的なデータセットを生成する、複数のアルゴリズム、ソフトウェアコード、スクリプト、マクロ、または他のコンピュータ実行可能命令の群を含んでよい。追加的なデータセットは、データテーブル118、120、122、124、126の1つまたは複数から取得された情報を含んでよい。追加的なデータセットは、データテーブル118、120、122、124、126の1つまたは複数から取得されたデータから導出される情報も含んでよい。第1の追加的なデータセットを生成するために実装されるデータパイプラインシステム138の構成要素は、第2の追加的なデータセットを生成するために使用されるデータパイプラインシステム138の構成要素と異なってよい。
【0059】
1つまたは複数の例において、データパイプラインシステム138は、複数の個人が受けた調剤治療を示すデータセットを生成してよい。1つまたは複数の説明例において、データパイプラインシステム138は、データテーブル118、120、122、124、126の少なくとも1つに記憶されている情報を分析して、複数の個人が受けた医薬品治療に対応する健康保険コードを決定してよい。データパイプラインシステム138は、医薬品治療に対応する健康保険コードを、1つまたは複数の健康保険コードに対応する指定された医薬品治療を示すデータのライブラリとの関係で分析して、個人が受けたことのある医薬品治療の名前を決定してよい。1つまたは複数の追加的な例において、データパイプラインシステム138は、統合データリポジトリ104によって記憶されている情報を分析して、複数の個人が受けた医療処置を決定してよい。例示すると、データパイプラインシステム138は、データテーブル118、120、122、124、126の1つによって記憶されている情報を分析して、注射または静脈注射の少なくとも一方により個人が受けた治療を決定してよい。1つまたは複数のさらなる例において、データパイプラインシステム138は、統合データリポジトリ104によって記憶されている情報を分析して、個人のケアのエピソード、個人が受けた療法の方針、生物学的状態の進行、または次の治療までの時間を決定してよい。様々な例において、データパイプラインシステム138によって生成されるデータセットは、異なる生物学的状態ごとに異なってよい。例えば、データパイプラインシステム138は、肺がんなどの第1の種類のがんに関して第1の複数のデータセットを生成し、大腸がんなどの第2の種類のがんに関して第2の複数のデータセットを生成してよい。
【0060】
データパイプラインシステム138はまた、統合データリポジトリ104によって記憶されているデータを有する個人に関連する情報に割り当てる1つまたは複数の信頼水準を決定してよい。それぞれの信頼水準は、統合データリポジトリ104によって記憶されているデータを有する個人に関連する情報の精度の異なる指標に対応してよい。それぞれの信頼水準に関連する情報は、統合データリポジトリ104によって記憶されているデータから導出された個人の1つまたは複数の特性に対応してよい。1つまたは複数の特性についての信頼水準の値は、統合データリポジトリ104からの1つまたは複数のデータセットの生成と併せて、データパイプラインシステム138によって生成されてよい。1つまたは複数の例において、第1の信頼水準は、第1の範囲の精度の指標に対応してよく、第2の信頼水準は、第2の範囲の精度の指標に対応してよく、第3の信頼水準は、第3の範囲の精度の指標に対応してよい。1つまたは複数の追加的な例において、第2の範囲の精度の指標は、第1の範囲の精度の指標の値よりも小さい値を含んでよく、第3の範囲の精度の指標は、第2の範囲の精度の指標の値よりも小さい値を含んでよい。1つまたは複数の説明例において、第1の信頼水準に対応する情報は、最高位の(Gold standard)情報と呼ばれてよく、第2の信頼水準に対応する情報は、中位の(Silver standard)情報と呼ばれてよく、第3の信頼水準に対応する情報は、低位の(Bronze standard)情報と呼ばれてよい。
【0061】
データパイプラインシステム138は、複数の要因に基づいて個人の特性の信頼水準の値を決定してよい。例えば、それぞれの情報のセットが、個人の特性を決定するために使用されてよい。データパイプラインシステム138は、ある1人の個人の特性を決定するために使用されたそれぞれの情報のセットの完全性の量に基づいて、個人の特性の信頼水準を決定してよい。第1の複数の個人に関連する情報のセットから1つまたは複数の情報が欠落している状況では、特性の信頼水準は、情報のセットから情報が欠落していない第2の複数の個人についてよりも低くなり得る。1つまたは複数の例において、欠落している情報の量をデータパイプラインシステム138によって使用して、個人の特性の信頼水準を決定してよい。例示すると、ある個人の特性を決定するために使用された欠落している情報の量がより多ければ、その特性を決定するために使用された欠落している情報の量がより少ない状況よりも、その特性の信頼水準がより低くなってよい。さらに、異なる種類の情報が、1つの特性についての様々な信頼水準に対応してよい。1つまたは複数の例において、ある個人のある特性を決定するために使用された第1の情報が存在することは、その特性を決定するために使用された第2の情報が存在する場合よりも、その特性についての信頼水準が高くなる結果となってよい。
【0062】
1つまたは複数の説明例において、データパイプラインシステム138は、肺がん(または他の生物学的状態)の主診断を有するコホートに含まれる複数の個人を決定してよい。データパイプラインシステム138は、肺がんの主診断を有すると分類されることについて、それぞれの個人の信頼水準を決定してよい。データパイプラインシステム138は、データテーブル118、120、122、124、126に含まれる複数の列からの情報を使用して、肺がんコホートへの個人の包含について信頼水準を決定してよい。複数の列は、生物学的状態の診断および/または生物学的状態の治療に関係する健康保険コードを含んでよい。加えて、複数の列は、生物学的状態の診断日および/または治療日に対応してよい。データパイプラインシステム138は、肺がんコホートの一部であると特徴付けられている個人の信頼水準が、閾値未満の数の列について情報が入手可能である場合よりも、複数の列または少なくとも閾値数の列の各々について情報が入手可能であるシナリオの方で、高くなると決定してよい。さらに、データパイプラインシステム138は、情報の種類および1つまたは複数の列に関する情報の入手可能性に基づいて、肺がんコホートに含まれる個人の信頼水準を決定してよい。例示すると、個人のグループに対して1つまたは複数の期間に関係して1つまたは複数の診断コードが存在し、かつ1つまたは複数の治療コードが存在しない状況では、データパイプラインシステム138は、そのグループの個人を肺がんコホートに含めることの信頼水準が、診断コードの少なくとも1つが存在せず、かつ、個人が肺がんコホートに含められるかを決定するために使用された治療コードが存在する状況よりも高いと決定してよい。
【0063】
データ統合・分析システム102は、データ分析システム140を含んでよい。データ分析システム148は、例示的なコンピューティングデバイス144などの1つまたは複数のコンピューティングデバイスから、統合データリポジトリ要求142を受け取ってよい。1つまたは複数の統合データリポジトリ要求142は、統合データリポジトリ104からデータを検索させてよい。様々な例において、1つまたは複数の統合データリポジトリ要求142は、データパイプラインシステム138によって生成された1つまたは複数のデータセットからデータを検索させてよい。統合データリポジトリ要求142は、統合データリポジトリ104および/またはデータパイプラインシステム138によって生成された1つまたは複数のデータセットから検索されたデータを指定してよい。1つまたは複数の追加的な例において、統合データリポジトリ要求142は、統合データリポジトリ104および/またはデータパイプラインシステム138によって生成された1つまたは複数のデータセットから指定されたデータのセットを検索するコンピュータ実行可能命令に対応する、1つまたは複数の予め構築されたクエリを含んでよい。
【0064】
1つまたは複数の統合データリポジトリ要求142に応答して、データ分析システム140は、統合データリポジトリ104またはデータパイプラインシステム138によって生成された1つまたは複数のデータセットのうち少なくとも一方から検索されたデータを分析して、データ分析結果146を生成してよい。データ分析結果146は、例示的なコンピューティングデバイス148などの1つまたは複数のコンピューティングデバイスに送られてよい。図1の説明例は、あるコンピューティングデバイス144からの1つまたは複数の統合データリポジトリ要求142とデータ分析結果146とが別のコンピューティングデバイス148に送られるものと示しているが、1つまたは複数の追加的な実装形態では、データ分析結果146は、1つまたは複数の統合データリポジトリ要求142を送ったのと同じコンピューティングデバイスによって受け取られてよい。データ分析結果146は、コンピューティングデバイス144またはコンピューティングデバイス148によって描画される1つまたは複数のユーザインターフェースによって表示されてよい。
【0065】
1つまたは複数の例において、データ分析システム140は、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータを分析するために、1つまたは複数の機械学習技術あるいは1つまたは複数の統計技術の少なくとも1つを実装してよい。1つまたは複数の例において、データ分析システム140は、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータを分析するために、1つまたは複数の人工ニューラルネットワークを実装してよい。例示すると、データ分析システム140は、1つまたは複数の統合データリポジトリ要求142に応答して統合データリポジトリ104から検索されたデータを分析するために、1つまたは複数の畳み込みニューラルネットワークあるいは1つまたは複数の残差ニューラルネットワークの少なくとも一方を実装してよい。少なくとも一部の例において、データ分析システム140は、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータを分析するために、1つまたは複数のランダムフォレスト技術、1つまたは複数のサポートベクターマシン、あるいは1つまたは複数の隠れマルコフモデルを実装してよい。また、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータを分析して、個人の特性間の有意性の相関または指標の少なくとも1つを特定するために、1つまたは複数の統計モデルが実装されてよい。例えば、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータにログランクテストが適用されてよい。加えて、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータに関して、Cox比例ハザードモデルが実装されてよい。さらに、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータに、ウィルコクソンの符号付き順位検定が適用されてよい。さらに他の例において、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータに関して、zスコア分析が行われてよい。さらに追加的な例において、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータに関して、カプラン・マイヤー分析が行われてよい。少なくとも一部の例において、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータを分析するために、1つまたは複数の機械学習技術が、1つまたは複数の統計技術との組合せで実装されてよい。
【0066】
1つまたは複数の説明例において、データ分析システム140は、1つまたは複数の治療に応答した、肺がんが存在する個人の生存率を決定してよい。1つまたは複数の追加的な説明例において、データ分析システム140は、1つまたは複数の治療に応答した、肺がんが存在する1つまたは複数のゲノム領域突然変異を有する個人の生存率を決定してよい。様々な例において、データ分析システム140は、統合データリポジトリ104またはデータパイプラインシステム138によって生成された1つまたは複数のデータセットの少なくとも一方から検索されたデータが1つまたは複数の基準を満たす状況において、データ分析結果146を生成してよい。例えば、データ分析システム140は、1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータの少なくとも一部分が閾値信頼水準を満たすかどうかを決定してよい。1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータの少なくとも一部分についての信頼水準が閾値信頼水準未満である状況では、データ分析システム140は、データ分析結果146の少なくとも一部分を生成するのを控えてよい。1つまたは複数の統合データリポジトリ要求142に応答して検索されたデータの少なくとも一部分についての信頼水準が少なくとも閾値信頼水準であるシナリオでは、データ分析システム140は、データ分析結果146の少なくとも一部分を生成してよい。様々な例において、閾値信頼水準は、データ分析システム140によって生成されるデータ分析結果146の種類に関係してよい。
【0067】
1つまたは複数の説明例において、データ分析システム140は、1人または複数の個人の生存率を示すデータ分析結果146を生成する統合データリポジトリ要求142を受け取ってよい。これらの場合、データ分析システム140は、統合データリポジトリ104および/またはデータパイプラインシステム138によって生成された1つまたは複数のデータセットによって記憶されているデータが、最高位信頼水準などの閾値信頼水準を満たすかどうかを決定してよい。1つまたは複数の追加的な例において、データ分析システム140は、1人または複数の個人が受けた治療を示すデータ分析結果146を生成する統合データリポジトリ要求142を受け取ってよい。そのような実装形態では、データ分析システム140は、統合データリポジトリ104および/またはデータパイプラインシステム138によって生成された1つまたは複数のデータセットによって記憶されているデータが、低位の信頼水準などの低い閾値信頼水準を満たすかどうかを決定してよい。
【0068】
1つまたは複数の追加的な説明例において、データ分析システム140は、1つまたは複数のゲノム突然変異を有しており、ある生物学的状態に関する1つまたは複数の治療を受けたことのある個人を決定する統合データリポジトリ要求142を受け取ってよい。この例を続けると、データ分析システム140は、それらの個人が受けた1つまたは複数の治療との関係で、1つまたは複数のゲノム突然変異のある個人の生存率を決定することができる。次いで、データ分析システム140は、個人の生存率に基づいて、個人に存在する可能性のあるゲノム突然変異との関係で、個人に対する治療の有効性を特定することができる。このようにして、個人に提供されている現在の治療よりも、1つまたは複数のゲノム突然変異を有する個人の母集団に対して効果的であり得る予見的治療を特定することにより、個人の健康転帰が改善され得る。
【0069】
図2は、1つまたは複数の実装形態による、統合データリポジトリ内のデータテーブルの配置に対応する例示的なフレームワーク200を示す。図2の説明例では、フレームワーク200は、第1のデータテーブル204、第2のデータテーブル206、第3のデータテーブル208、第4のデータテーブル210、第5のデータテーブル212、第6のデータテーブル214、および第7のデータテーブル216を含む、データリポジトリスキーマ202を含む。図2の説明例は7つのデータテーブルを含んでいるが、追加的な実装形態では、データリポジトリスキーマ202は、これよりも多いデータテーブルまたは少ないデータテーブルを含んでよい。データリポジトリスキーマ202は、データテーブル204、206、208、210、212、214、216間のリンクも含んでよい。データテーブル204、206、208、210、212、214、216間のリンクは、データテーブル204、206、208、210、212、214、216の1つから検索された情報は、結果として、1つまたは複数の追加的なデータテーブル204、206、208、210、212、214、216によって記憶されている追加的な情報を検索させることを示してよい。加えて、データテーブル204、206、208、210、212、214、216のすべてが、その他のデータテーブル204、206、208、210、212、214、216の各々にリンクされるとは限らない。図2の説明例では、第1のデータテーブル204は、第1のリンク218によって第2のデータテーブル206に論理的に結合され、第3のデータテーブル208は、第2のリンク220によって第2のデータテーブル206に論理的に結合されている。第2のデータテーブル206はまた、第3のリンク222によって第4のデータテーブル210に論理的に結合され、第2のデータテーブル206は、第4のリンク224によって第5のデータテーブル212に論理的に結合され、第2のデータテーブル206は、第5のリンク226によって第6のデータテーブル214に論理的に結合されている。加えて、第5のデータテーブル212は、第6のリンク228によって第6のデータテーブル214に論理的に結合され、第6のデータテーブル214は、第7のリンク230によって第7のデータテーブル216に論理的に結合されている。さらに、第7のデータテーブル216は、第8のリンク232によって第4のデータテーブル210に論理的に結合されている。様々な例において、データテーブルがデータリポジトリスキーマ202に追加されるおよび/またはそこから除去されるのに伴い、データテーブル間の追加的なリンクが、データリポジトリスキーマ202に追加されるまたはそこから除去されてよい。1つまたは複数の説明例において、統合データリポジトリ104は、データ統合システム114が、健康保険請求データリポジトリ106、分子データリポジトリ108、および1つまたは複数の追加的なデータリポジトリ110のうち少なくとも2つの組合せから情報を得た個人の少なくとも一部分については、データリポジトリスキーマ202に従ってデータテーブルを記憶してよい。その結果、統合データリポジトリ104は、数千、数万から、数十万人またはそれを超える人数に及ぶ個人について、個人について、データリポジトリスキーマ204に従ってデータテーブル204、206、208、210、212、214、216のそれぞれのインスタンスを記憶してよい。
【0070】
1つまたは複数の例において、第1のデータテーブル204は、個人のゲノミクスおよびゲノミクス検査に対応するデータを記憶してよい。例えば、第1のデータテーブル204は、ゲノミクスデータを生成するために使用されたパネル、ゲノム領域の突然変異、突然変異の種類、ゲノム領域のコピー数、1つまたは複数の突然変異を有する試料中で特定された核酸分子の数を示す適用範囲データ、検査日、および患者情報に対応する情報を含む列を含んでよい。第1のデータテーブル204はまた、1つまたは複数の診断コードに対応し得る健康保険データコードを含む1つまたは複数の列を含んでよい。加えて、第1のデータテーブル204内の情報は、第1のデータテーブル204のインスタンスに関連する個人の少なくとも1つの識別子を含んでよい。
【0071】
第2のデータテーブル206は、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶してよい。第3のデータテーブル208は、第2のデータテーブル206によって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶してよい。例示すると、個人が医療提供者を訪れることがあり得、その訪問の際にその個人に対して複数のサービスが行われることがある。第2のデータテーブル206は、受診の際に行われた複数のサービスの各々についての情報を示す列を含んでよい。複数の第3のデータテーブル208が受診に関して生成されてよく、これは、受診に関係する第2のデータテーブル206によって記憶されている情報よりも、受診の際に提供されたそれぞれのサービスについてより高粒度のレベルの情報を示す列を含む。例えば、第2のデータテーブル206は、受診の際に個人に提供された様々なサービスについての健康保険コードを示す複数の列を含んでよく、それらサービスの1つに関係する第3のデータテーブル208が、それぞれのサービスに関係する追加的な情報に対応する追加的な健康保険コードについての複数の列を含んでよい。受診に関する第2のデータテーブル206および第3のデータテーブル208は、その受診に対応する1つまたは複数のサービス日を示してよい。
【0072】
第4のデータテーブル210は、統合データリポジトリ104によって情報が記憶されている個人に関する情報を示す列を含んでよい。例えば、第4のデータテーブル210は、個人の所在地、個人の性別、個人の誕生日、個人の死亡日(該当する場合)、あるいは個人に関連付けられた1つまたは複数の鍵、の少なくとも1つに関係する情報を示す列を含んでよい。1つまたは複数の例において、第4のデータテーブル210は、ある個人について誤ったデータが特定されたことがあるかどうかに関係する1つまたは複数の列を含んでよい。様々な例において、単一の第4のデータテーブル210がそれぞれの個人に対して生成されてよい。よって、データリポジトリスキーマ202は、数千、数万から、数十万またはそれを超える人数に及ぶなど、第4のデータテーブル210の複数のインスタンスを含んでよい。
【0073】
第5のデータテーブル212は、それぞれの個人に提供された1つまたは複数のサービスの支払いを行った健康保険会社または政府機関に関係する情報を示す列を含んでよい。例えば、第5のデータテーブル212は、1つまたは複数の支払者識別子を含んでよい。第6のデータテーブル214は、それぞれの個人の健康保険適用範囲情報に対応する情報を含む列を含んでよい。1つまたは複数の例において、第6のデータテーブル214は、個人に対する医療適用範囲の存在、個人に対する医薬品適用範囲の存在、および健康維持機構(HMO:health maintenance organization)や優先医療給付機構(PPO:preferred provider organization)等のその個人に関係する健康保険プランの種類、を示す列を含んでよい。
【0074】
第7のデータテーブル216は、それぞれの個人が得た医薬品治療に関係する情報を示す列を含んでよい。1つまたは複数の例において、第7のデータテーブル216は、薬局を介して利用可能な医薬品治療に対応する健康保険コードを示す1つまたは複数の列を含んでよい。健康保険コードは、個々の医薬品治療に対応してよい。加えて、健康保険コードは、個人に関する生物学的状態の診断を示してよい。第7のデータテーブル216は、服用量、処方日数、投薬量、認可された再調剤回数、サービス日、またはその医薬品治療を受ける個人に関係する情報、の少なくとも1つなどの追加的な情報も含んでよい。
【0075】
様々な例において、データリポジトリスキーマ202は、データテーブル204、206、208、210、212、214、216によって記憶されている情報の分析結果を、典型的なデータリポジトリスキーマよりも効率的な形で提供してよい。例えば、データテーブル204、206、208、210、212、214、216間の論理接続は、異なるデータテーブル204、206、208、210、212、214、216にまたがって関係するデータを効率的に検索するように構成される。データテーブル204、206、208、210、212、214、216が直列的に構成されている状況および/またはより多くの数のデータテーブル204、206、208、210、212、214、216が論理的に接続されている状況では、統合データリポジトリ104からの情報を求める要求に応答するために統合データリポジトリ104のデータテーブル204、206、208、210、212、214、216の1つまたは複数からデータを検索することは、データリポジトリスキーマ202が実装されている状況よりも効率が低くなる。
【0076】
図3は、1つまたは複数の実装形態による、複数のソースからの健康に関連するデータを統合するデータリポジトリから検索された情報から、1つまたは複数のデータセットを生成するためのアーキテクチャ300を示す。アーキテクチャ300は、データ統合・分析システム102および統合データリポジトリ104を含んでよい。加えて、データ統合・分析システム102は、少なくともデータパイプラインシステム138およびデータ分析システム140を含んでよい。データパイプラインシステム138は、データ分析結果146を生成する統合データリポジトリ要求142に応答して、データ分析システム140によって分析され得るそれぞれのデータセットを生成するために実行可能であるデータ処理命令の複数のセットを含んでよい。
【0077】
データパイプラインシステム138は、第1のデータ処理命令302、第2のデータ処理命令304、第Nのデータ処理命令306まで含んでよい。データ処理命令302、304、306は、統合データリポジトリ104から取得される情報を使用してそれぞれのデータセットを生成する複数の動作を行うために、1つまたは複数の処理装置によって実行可能であってよい。1つまたは複数の説明例において、データ処理命令302、304、306は、ソフトウェアコード、スクリプト、API呼び出し、マクロ等の少なくとも1つを含んでよい。第1のデータ処理命令302は、第1のデータセット308を生成するために実行可能であってよい。加えて、第2のデータ処理命令304は、第2のデータセット310を生成するために実行可能であってよい。さらに、第Nのデータ処理命令306は、第Nのデータセット312を生成するために実行可能であってよい。様々な例において、データ統合・分析システム102が統合データリポジトリ104を生成した後、データパイプラインシステム138は、データ処理命令302、304、306を実行させて、データセット308、310、312を生成してよい。1つまたは複数の例において、データセット308、310、312は、統合データリポジトリ104によって、またはデータ統合・分析システム102によってアクセス可能な追加的なデータリポジトリによって、記憶されてよい。データ処理命令302、304、306の少なくとも一部分は、データセット308、310、312の少なくとも一部分を生成するために健康保険コードを分析してよい。加えて、データ処理命令302、304、306の少なくとも一部分は、データセット308、310、312の少なくとも一部分を生成するためにゲノミクスデータを分析してよい。
【0078】
1つまたは複数の例において、第1のデータ処理命令302は、統合データリポジトリ104によって記憶されている1つまたは複数の第1のデータテーブルからデータを検索するために実行可能であってよい。第1のデータ処理命令302はまた、1つまたは複数の第1のデータテーブルの1つまたは複数の指定された列からデータを検索するために実行可能であってよい。様々な例において、第1のデータ処理命令302は、1つまたは複数の診断コードに対応する列と行の1つまたは複数の組合せに記憶されている健康保険コードを有する個人を特定するために実行可能であってよい。そして、第1のデータ処理命令302は、その1つまたは複数の診断コードを分析して、その個人が診断を受けた生物学的状態を決定するために実行可能であってよい。1つまたは複数の説明例において、第1のデータ処理命令302は、それぞれの診断コードに対応する1つまたは複数の生物学的状態を示す診断コードのライブラリに関して、その1つまたは複数の診断コードを分析するために実行可能であってよい。診断コードのライブラリは、数百から数千個の診断コードを含んでよい。第1のデータ処理命令302はまた、治療日、診断日、死亡日、それらの1つまたは複数の組合せ等の個人のタイミング情報を分析することにより、ある生物学的状態と診断された個人を決定するために実行可能であってよい。
【0079】
第2のデータ処理命令304は、統合データリポジトリ104によって記憶されている1つまたは複数の第2のデータテーブルからデータを検索するために実行可能であってよい。第2のデータ処理命令304はまた、1つまたは複数の第2のデータテーブルの1つまたは複数の指定された列からデータを検索するために実行可能であってよい。様々な例において、第2のデータ処理命令304は、1つまたは複数の治療コードに対応する列と行の1つまたは複数の組合せに記憶されている健康保険コードを有する個人を特定するために実行可能であってよい。1つまたは複数の治療コードは、薬局から得られる治療に対応してよい。1つまたは複数の追加的な例において、1つまたは複数の治療コードは、注射や静脈注射などの医療処置によって受けた治療に対応してよい。第2のデータ処理命令304は、健康保険コードを所定の情報のセットとの関係で分析することにより、1つまたは複数の第2のデータテーブルに含まれているそれぞれの健康保険コードに対応する1つまたは複数の治療を決定するために実行可能であってよい。所定の情報のセットは、数百から数千に及ぶ健康保険コードのうちの1つに対応する1つまたは複数の治療を示すデータライブラリを含んでよい。第2のデータ処理命令304は、個人のグループが受けたそれぞれの治療を示す第2のデータセット310を生成してよい。1つまたは複数の説明例において、個人のグループは、第1のデータセット308に含まれる個人に対応してよい。第2のデータセット310は、行および列に構成されてよく、1つまたは複数の行が1人の個人に対応し、1つまたは複数の列が、それぞれの個人が受けた治療を示す。
【0080】
第Nの処理命令306(Nは任意の正の整数であってよい)は、第1のデータセット308および第2のデータセット310などの以前に生成された複数のデータセットからの情報を組み合わせることにより、第Nのデータセット312を生成するために実行可能であってよい。加えて、第Nの処理命令306は、統合データリポジトリ104の1つまたは複数の追加的な列から追加的な情報を検索し、その統合データリポジトリ104からの追加的な情報を、第1のデータセット308および第2のデータセット310から得た情報と統合するための、第Nのデータセット312を生成するために実行可能であってよい。例えば、第Nの処理命令306は、ある生物学的状態と診断された第1のデータセット308に含まれる個人を特定し、統合データリポジトリ104の1つまたは複数の追加的なデータテーブルの指定された列を分析して、第1のデータセット308に含まれるそれらの個人に対応する、第2のデータセット210に示される治療の日を決定するために実行可能であってよい。1つまたは複数のさらなる例において、第Nの処理命令306は、統合データリポジトリ104の1つまたは複数の追加的なデータテーブルの列を分析して、第1のデータセット308に含まれる個人が受けた、第2のデータセット310に示される治療の投薬量を決定するために実行可能であってよい。このように、第Nの処理命令306は、コホートデータセットおよび治療データセットに含まれる情報に基づいてケアのエピソードのデータセットを生成するために実行可能であってよい。
【0081】
1つまたは複数の説明例において、統合データリポジトリ要求142を受け取るのに応答して、データ分析システム140は、その統合データリポジトリ要求142に関係するクエリの特徴に対応する1つまたは複数のデータセットを決定してよい。例えば、データ分析システム140は、第1のデータセット308および第2のデータセット310に含まれる情報が、統合データリポジトリ要求142への応答に適用可能であると決定してよい。このようなシナリオでは、データ分析システム140は、第1のデータセット308および第2のデータセット310に含まれるデータの少なくとも一部分を分析して、データ分析結果146を生成してよい。1つまたは複数の追加的な例において、データ分析システム140は、データ分析結果146を生成するために、統合データリポジトリ要求142に含まれる異なるクエリに応答するためのいくつかの異なるデータセットを決定してよい。
【0082】
それぞれのデータセットを生成するための特定のデータ処理命令のセットの使用は、データ統合・分析システム102のユーザからの入力数を減らすと共に、統合データリポジトリ要求142を処理するために利用される処理リソースやメモリの量などの計算負荷を低減し得る。例えば、データパイプラインシステム138のこの特定のアーキテクチャがないと、統合データリポジトリ要求142が受け取られるたびに、その統合データリポジトリ要求142に応答するために利用されるデータが、データリポジトリ104から組み立てられる。対して、データセット308、310、312を生成するデータ処理命令302、304、306を実行するためのデータパイプラインシステム138を実装することにより、様々な統合データリポジトリ要求142に応答するために必要とされるデータがすでに組み立てられており、そのデータが、統合データリポジトリ要求142に応答するためにデータ分析システム140によってアクセスされてよい。よって、データセット308、310、312を生成するためのデータパイプラインシステム138を実装することによって統合データリポジトリ要求142に応答するために使用されるコンピューティングリソースは、統合データリポジトリ要求142ごとに情報解析・収集プロセスを行う典型的なシステムよりも少ない。さらに、データパイプラインシステム138が実装されていない状況では、データ統合・分析システム102のユーザは、ユーザが分析させることを意図している情報を分析するために複数の統合データリポジトリ要求142を提出する必要があり得る。この理由は、典型的なシステムにおける統合データリポジトリ要求142に応答するためのデータのアドホックな収集が不正確であるため、または、データパイプラインシステム138が実装されている場合には1つのみの統合データリポジトリ要求142を使用して行われ得る情報の分析を行うために、典型的なシステムではデータ分析システム140が複数回呼び出されるため、のいずれかである。
【0083】
図4は、1つまたは複数の実装形態による、非特定化された健康保険請求データと非特定化されたゲノミクスデータを含む統合データリポジトリを生成するためのアーキテクチャ400を示す。アーキテクチャ400は、データ統合・分析システム102、健康保険請求データリポジトリ106、および分子データリポジトリ108を含んでよい。データ統合・分析システム102は、分子データリポジトリ108から患者情報402を取得してよい。患者情報402は、分子データリポジトリ108によって記憶されているデータを有する個人のゲノミクスデータ404を含んでよい。ゲノミクスデータ404は、1つまたは複数の標的ゲノム領域に関して個人から得られた試料に含まれる核酸分子の配列を分析する1つまたは複数の核酸シーケンシング動作の結果を示してよい。1つまたは複数の例において、試料は、1人または複数の個人の組織から得られてよい。1つまたは複数の追加的な例において、試料は、血液や血漿などの、1人または複数の個人の体液から得られてよい。1つまたは複数の標的ゲノム領域は、1つまたは複数の生物学的状態の存在に対応するゲノム領域に対応してよい。例えば、標的領域は、ある生物学的状態が存在する個人に存在する突然変異を有する参照ゲノムのゲノム領域に対応してよい。1つまたは複数の説明例において、標的領域は、1つまたは複数の形態のがんが存在する個人に1つまたは複数の突然変異が存在する参照ヒトゲノムのゲノム領域に対応してよい。患者情報402はまた、分子データリポジトリ108によってデータが記憶されている個人に関する個人情報を示す情報、ならびに個人によって提供された試料に行われた検査および分析に対応する情報を含んでよい。
【0084】
データ統合・分析システム102は、分子データリポジトリ108から取得された個人情報を匿名化する非特定化プロセス406を行ってよい。データ統合・分析システム102は、非特定化されたデータが個人のプライバシーを保護し、1つまたは複数のプライバシー規制フレームワークに準拠するように、分子データリポジトリ108によって記憶されている個人に関係するデータを匿名化するために、非特定化プロセスの一部として1つまたは複数の計算技術を実装してよい。非特定化プロセス406は、408において、トークンにアクセスすることを含んでよい。様々な例において、トークンは、英数文字列からなってよい。1つまたは複数の例において、トークンは、データ統合・分析システム102によって生成されてよい。1つまたは複数の追加的な例においてトークンは、第3者によって生成され、データ統合・分析システム102によって取得されてよい。
【0085】
トークンは、患者情報402のサブセット410との関係で1つまたは複数のハッシュ関数を使用して生成されてよい。例示すると、分子データリポジトリ108によって記憶されている情報を有する個人について、トークンは、それぞれの個人の名の少なくとも一部分、それぞれの個人の姓の少なくとも一部分、それぞれの個人の誕生日の少なくとも一部分、それぞれの個人の性別、およびそれぞれの個人の所在地識別子の少なくとも一部分、の組合せを使用して生成されてよい。非特定化プロセス406はまた、412において、分子データリポジトリ108によって記憶されているデータを有する個人の識別子を生成することを含んでよい。識別子は、トークンを生成するために使用された1つまたは複数のハッシュ関数とは異なる1つまたは複数のハッシュ関数を使用して、データ統合・分析システム102によって生成されてよい。1つまたは複数の説明例において、データ統合・分析システム102は、1つまたは複数のハッシュ関数を使用して中間バージョンのそれぞれの識別子を生成し、次いで中間バージョンの識別子に1つまたは複数のソルティング技術を適用して、最終バージョンの識別子を生成してよい。ソルト関数は、少なくとも1つのランダムビットを各中間識別子に足してそれぞれの最終的な識別子を生成するように構成された関数を含む。様々な例において、データ統合・分析システム102は、412において、分子データリポジトリ108によって記憶されているそれぞれの個人についての情報の少なくとも一部分を使用して識別子を生成してよい。1つまたは複数の説明例において、識別子は、患者情報402に含まれる患者識別子に基づいて生成されてよい。データ統合・分析システム102によって生成される識別子は、分子データリポジトリ108によって記憶されているデータを有するそれぞれの個人に一意であってよい。
【0086】
動作414において、データ統合・分析システム102は、識別子に基づいて、変更を加えた患者情報416を生成してよい。変更を加えた患者情報416は、分子データリポジトリ108に関連付けられた個人に関係するゲノミクスデータ404およびそれぞれの個人の識別子を含んでよい。変更を加えた患者情報416は、データ構造418を有してよい。データ構造418は、分子データリポジトリ108に関連付けられた個人のそれぞれの識別子を含む1つの列と、1つまたは複数の遺伝子の識別子、1つまたは複数の遺伝子の変化、遺伝子の変化の種類等の、それら個人に関係するゲノミクスデータ404を含む複数の列とを含んでよい。
【0087】
データ統合・分析システム102は、トークンファイル420を生成してよい。トークンファイル420は、分子データリポジトリ108によって記憶されているデータを有するそれぞれの個人について、動作408でアクセスされる第1のトークン422を含んでよい。トークンファイル420は、それぞれの個人についての情報を含む複数の列を含むデータ構造424を有してよい。データ構造424は、データ統合・分析システム102によって生成されたそれぞれの識別子を示す列と、それぞれの識別子に関連付けられた1つまたは複数の第1のトークン422を示す列とを含んでよい。データ統合・分析システム102は、トークンファイル420を、健康保険請求データリポジトリ106に結合されている健康保険請求データ管理システム426に送ってよい。健康保険請求データ管理システム426は、第1のトークン422を、対応する第2のトークン428に対して分析してよい。第2のトークン428は、健康保険請求データ管理システム426によってアクセスまたは生成されてよい。第2のトークン428は、患者情報402のサブセット410として、健康保険請求データリポジトリ106に記憶されている情報を有する個人についての情報の同じまたは同様のサブセットを使用して生成されてよい。例えば、第2のトークン428は、それぞれの個人の名の少なくとも一部分、それぞれの個人の姓の少なくとも一部分、それぞれの個人の誕生日の少なくとも一部分、それぞれの個人の性別、およびそれぞれの個人の所在地識別子の少なくとも一部分、の組合せを使用して生成されてよい。
【0088】
様々な例において、健康保険請求データ管理システム426は、対応する第1のトークン422と一致するそれぞれの第2のトークン428に関連付けられた個人について、健康保険請求データリポジトリ106から健康保険請求データを検索してよい。第1のトークン422は、第1のトークン422のデータが、第2のトークン428のデータに対して少なくとも閾値量の類似度を有するときに、第2のトークン428と一致してよい。1つまたは複数の例において、第1のトークン422は、第1のトークン422のデータが第2のトークン428のデータと同じであるときに、第2のトークン428と一致してよい。
【0089】
それぞれの第1のトークン422に対応するそれぞれの第2のトークン428を有する個人について健康保険請求データを特定するのに応答して、健康保険請求データ管理システム426は、変更を加えた健康保険請求データ430を生成してよい。健康保険請求データ管理システム426は、変更を加えた健康保険請求データ430をデータ統合・分析システム102に送ってよい。1つまたは複数の例において、変更を加えた健康保険請求データ430は、データ構造432に従ってフォーマットされてよい。データ構造432は、第1のトークン422に対応する第2のトークン428のサブセットを含む1つの列と、健康保険請求データを含む複数の列とを含んでよい。
【0090】
動作434において、データ統合・分析システム102は、分子データリポジトリ108と健康保険請求データリポジトリ106の両方に共通している個人のゲノミクスデータと健康保険請求データとを統合してよい。データ統合・分析システム102は、共通のトークンに対応するゲノミクスデータおよび健康保険請求データを決定することにより、分子データリポジトリ108と健康保険請求データリポジトリ106の両方に共通している個人を決定してよい。データ統合・分析システム102は、ゲノミクスデータ404の一部分に関係する第1のトークン422が、健康保険請求データの一部分に関係する第2のトークン428に対応することを、第1のトークン422と第2のトークン428との間の類似度の指標を決定することによって決定してよい。第1のトークン422が第2のトークン428に対して少なくとも閾値量の類似度を有するシナリオでは、データ統合・分析システム102は、ゲノミクスデータ404の対応する部分および健康保険請求データの対応する部分を、その個人の識別子と関係付けて、図1図2、および図3の統合データリポジトリ104などの統合データリポジトリに記憶してよい。
【0091】
アーキテクチャ400の実装形態は、異種のデータリポジトリからの非特定化された情報が単一のデータリポジトリに統合されることを可能にする暗号プロトコールを実装してよい。このようにして、統合データリポジトリ104によって記憶されるデータのセキュリティが向上する。加えて、アーキテクチャ400によって実装される暗号プロトコールは、アーキテクチャ400の暗号プロトコールが利用されない状況よりも、統合データリポジトリ104によって記憶されている情報のより効率的な検索および正確な分析を可能にしてよい。例えば、分子データリポジトリ104によって記憶されている情報の指定されたセットに基づき、暗号技術を使用して第1のトークン422を含むトークンファイル420を生成し、健康保険請求データリポジトリ106によって記憶されている情報の同様のまたは同じセットに関して、同じまたは同様の暗号技術を使用して生成された第2のトークン428を利用することにより、データ統合・分析システム102は、1人の同じ個人に対応する、異種のデータリポジトリによって記憶されている情報を一致させてよい。アーキテクチャ400の暗号プロトコールを実装しない場合、あるデータリポジトリからの情報が1人または複数の個人に属すると不正確に判断する確率が高まり、それにより、データ統合・分析システム102に送られてくる統合データリポジトリ要求142に応答してデータ統合・分析システム102によって提供される結果の精度が低下する。
【0092】
図5は、1つまたは複数の実装形態による、統合データリポジトリ104によって記憶されているデータに基づいてデータパイプラインシステム138によってデータセットを生成するためのフレームワーク500を示す。統合データリポジトリ104は、個人のグループ502について健康保険請求データおよびゲノミクスデータを記憶してよい。例えば、統合データリポジトリ104は、個人のグループ502の健康保険請求記録504から取得した情報を記憶してよい。個人のグループ502に含まれる個人ごとに、統合データリポジトリ104は、複数の健康保険請求記録504から取得された情報を記憶してよい。様々な例において、統合データリポジトリ104によって記憶されている情報は、複数の個人についての数千、数万、数十万から、数百万個に及ぶ健康保険請求記録504を含んでよく、および/またはそれから導出されてよい。加えて、各健康保険請求記録は、複数の列を含んでよい。その結果、統合データリポジトリ104は、数百万の列の健康保険請求データの分析を通じて生成されてよい。
【0093】
さらに、健康保険請求データは、構造化されたデータ形式に従って編成されることもあるが、健康保険請求データは通例、金融情報および医療提供者によって個人に提供されたサービスに関係する保険コード情報を示すために、健康保険提供者、患者、および医療提供者によって閲覧されるために構成される。よって、健康保険請求データは、ある生物学的状態が存在する個人の特性に関係して利用可能であり得、その生物学的状態に関して個人の治療を支援し得る知見を得るために、容易に分析することができない。統合データリポジトリ104は、統合データリポジトリ104によって記憶されているデータをさらに分析して、1つまたは複数の生物学的状態が存在する可能性のある個人に関して傾向、特性、特徴、および/または知見を決定することが可能となるように、未処理の健康保険請求データを分析および変更することにより、生成・編成されてよい。例えば、健康保険コードは、医療処置、生物学的状態、治療、投薬量、医薬品の製造者、医薬品の流通者、または診断の少なくとも1つが、所与の個人について、その個人の健康保険請求データに基づいて決定され得るような形で、統合データリポジトリ104に記憶されてよい。様々な例において、データ統合・分析システム102は、健康保険請求データと、その健康保険請求データに対応する様々な治療、症状、または生物学的状態との間の相関関係を示す1つまたは複数のテーブルを生成・実装してよい。さらに、統合データリポジトリ104は、個人のグループ502のゲノミクスデータ記録506を使用して生成されてよい。様々な例において、大量の健康保険請求データが、個人のグループ502のゲノミクスデータとマッチングされて、統合データリポジトリ104を生成してよい。
【0094】
個人のグループ502のゲノミクスデータ記録506を健康保険請求記録504と統合することにより、データ統合・分析システム102は、既存のシステムが通例は決定することができない、ゲノミクスデータ記録506に存在する1つまたは複数のバイオマーカーの存在と、健康保険請求データ記録506によって示される個人の他の特性との間の相関関係を決定してよい。例えば、データ統合・分析システム102は、個人が受けた治療、治療のタイミング、治療の投薬量、個人の診断、喫煙状況、1つまたは複数の生物学的状態の存在、生物学的状態の1つまたは複数の症状の存在、それらの1つまたは複数の組合せ等に対応する、個人の1つまたは複数のゲノム特性を決定してよい。統合データリポジトリ104を使用してデータ統合・分析システム102によって決定された相関関係に基づいて、既存のシステムでは特定されないであろう、1つまたは複数の治療から利益を受ける可能性のある個人のコホートが特定されてよい。1つまたは複数の例において、統合データリポジトリ104を生成するために健康保険請求記録504とゲノミクス請求記録506を統合するために実装される処理および技術は、複雑である可能性があり、統合データリポジトリ104を生成するために使用されるコンピューティングリソースの量を最小にするために、効率向上技術、システム、および処理を実装してよい。
【0095】
1つまたは複数の説明例において、データパイプラインシステム138は、統合データリポジトリ104によって記憶されている情報にアクセスして、個人のグループ502の少なくとも一部分に関係する情報を含む複数の追加的なデータ記録508を含むデータセットを生成してよい。図5の説明例では、追加的なデータ記録508は、個人が、肺がんが存在する個人のコホートに含められるかどうかを示す情報を含む。データパイプラインシステム138は、データ処理命令の複数の異なるセットを実行して、肺がんが存在する個人のグループ502のコホートを決定してよい。様々な例において、追加的なデータ記録508は、1つまたは複数の取引保険識別子、1つまたは複数の国際疾病分類(ICD)コード、および1つまたは複数の健康保険取引日など、肺がんに関する個人502の状況を決定するために使用された情報を示してよい。個人502が肺がんコホートに含まれるかどうかを示す列を含むのに加えて、追加的なデータ記録508は、肺がんの存在に関する個人502の状況の信頼水準を示す列を含んでよい。
【0096】
図6は、診療記録データを統合データリポジトリ104に統合するためのコンピューティングアーキテクチャ600の概略図である。様々な例において、コンピューティングアーキテクチャ600の動作の少なくとも一部分は、図1図3、および図4のデータ統合・分析システム102によって行われてよい。1つまたは複数の例において、コンピューティングアーキテクチャ600の動作の少なくとも一部分は、データ統合・分析システム102の制御、維持、または実装の少なくとも1つをも行うサービス提供者によって制御、維持、または実装の少なくとも1つが行われる、1つまたは複数の追加的なコンピューティングシステムによって行われてよい。1つまたは複数の追加的な例において、コンピューティングアーキテクチャ600の動作の少なくとも一部分は、分散コンピューティング環境内の複数のサーバによって行われてよい。
【0097】
コンピューティングアーキテクチャ600は、診療記録データリポジトリ602を含んでよい。診療記録データリポジトリ602は、複数の個人からの診療記録データを記憶してよい。診療記録データは、撮像情報、臨床検査結果、診断検査情報、臨床所見、歯科衛生情報、医療関係者の注釈、病歴フォーム、診断要求フォーム、医療処置オーダーフォーム、医療情報チャート、それらの1つまたは複数の組合せ等を含んでよい。様々な例において、所与の個人について、診療記録データリポジトリ602は、その個人に関係する1人または複数の医療関係者から得られた情報を記憶してよい。
【0098】
コンピューティングアーキテクチャ600は、診療記録データリポジトリ602からデータパッケージを取得することを含む動作604を行ってよい。1つまたは複数の例において、データパッケージは、1人または複数の個人に対応する診療記録を求める、診療記録データリポジトリ602に送られる1つまたは複数の要求に応答して取得されてよい。1つまたは複数の追加的な例において、データパッケージは、1つまたは複数のアプリケーションプログラミングインターフェース(API)呼び出しを使用して、コンピューティングアーキテクチャ600によって取得されてよい。1つまたは複数の説明例において、第1のデータパッケージ606、第2のデータパッケージ608、第Nのデータパッケージ610までが、コンピューティングアーキテクチャ600を使用して取得されてよい。個々のデータパッケージ606、608、610は、それぞれの個人の診療記録に対応してよい。例えば、第1のデータパッケージ606は、第1の個人の診療記録を含んでよく、第2のデータパッケージ608は、第2の個人の診療記録を含んでよく、第Nのデータパッケージ610は、第3の個人の診療記録を含んでよい。
【0099】
個々のデータパッケージ606、608、610は、複数の構成要素を含んでよい。1つまたは複数の例において、個々のデータパッケージ606、608、610は、異なる医療提供者からの診療記録に対応する個々の構成要素を含んでよい。1つまたは複数の追加的な例において、個々のデータパッケージ606、608、610は、1人または複数の医療提供者に対応する診療記録のそれぞれ異なる部分に対応する個々の構成要素を含んでよい。図6の説明例では、第2のデータパッケージ608は、第1の構成要素612、第2の構成要素614、第Nの構成要素616まで含んでよい。1つまたは複数の説明例において、第1の構成要素612は、1人の個人の診療記録の第1の部分を含んでよく、第2の構成要素614は、1人の個人の診療記録の第2の部分を含んでよく、第Nの構成要素616は、1人の個人の診療記録の第3の部分を含んでよい。様々な例において、第1の構成要素612は、その個人に関する第1の医療提供者の診療記録に対応してよく、第2の構成要素614は、その個人に関する第2の医療提供者の診療記録に対応してよく、第3の構成要素は、その個人に関する第3の医療提供者の診療記録に対応してよい。1つまたは複数の追加的な説明例において、第1の構成要素612は、診断検査または手順に関係する1つまたは複数のフォームなど、その個人の診療記録の第1のセクションを含んでよく、第2の構成要素614は、その個人の病理報告など、その個人の診療記録の第2のセクションを含んでよい。
【0100】
動作618において、コンピューティングアーキテクチャ600は、個々のデータパッケージを前処理して、分析すべき情報のコーパス620を特定してよい。1つまたは複数の例において、診療記録データリポジトリ602から取得されたデータパッケージの前処理は、データパッケージに含まれるデータを変換することを含んでよい。例えば、データパッケージを前処理することは、診療記録データリポジトリ602から取得されたデータの少なくとも一部分を機械符号化情報に変換することを含んでよい。例示すると、データパッケージを前処理することは、診療記録データリポジトリ602から取得されたデータパッケージの少なくとも一部分に関して1つまたは複数の光学文字認識(OCR)動作を行うことを含んでよい。診療記録データリポジトリ602から取得されたデータパッケージの少なくとも一部分を機械符号化情報に変換することにより、データパッケージは、1つまたは複数の文字もしくは文字列を特定するための1つまたは複数の構文解析動作や、診療記録データリポジトリ602から取得されたデータパッケージの少なくとも一部分に関しては行うことが不可能な1つまたは複数の編集動作などの、いくつかの動作にかけられてよい。
【0101】
1つまたは複数の例において、個々のデータパッケージの前処理は、コンピューティングアーキテクチャ600によるさらなる分析から除外されるべき、個々のデータパッケージに含まれる情報を決定することを含んでよい。様々な例において、個々のデータパッケージの1つまたは複数の構成要素が、分析すべき情報のコーパス620から除外されてよい。例えば、第2のデータパッケージ608に関して、コンピューティングアーキテクチャ600は、第1の構成要素612がコンピューティングアーキテクチャ600によるさらなる分析から除外されるべきと決定してよい。1つまたは複数の例において、コンピューティングアーキテクチャ600は、構成要素612、614、および/または616を1つまたは複数のキーワードに関して分析して、コンピューティングアーキテクチャ600によるさらなる分析から除外すべき、構成要素612、614、および/または616のうち少なくとも1つを特定してよい。1つまたは複数の説明例において、コンピューティングアーキテクチャ600は、構成要素612、614、および/または616を構文解析して1つまたは複数のキーワードを特定してよく、構成要素612、614、および/または616の中でその1つまたは複数のキーワードを特定するのに応答して、コンピューティングアーキテクチャ600は、それぞれの構成要素612、614、および/または616をコンピューティングアーキテクチャ600によるさらなる分析から除外すると決定してよい。例えば、コンピューティングアーキテクチャ600は、第2のデータパッケージ608の第1の構成要素612は、1つまたは複数の診断手順または検査のための検査命令フォームであると決定し得る。このようなシナリオでは、コンピューティングアーキテクチャ600は、第1の構成要素612はコンピューティングアーキテクチャ600によるさらなる分析から除外されるべきであると決定してよい。加えて、コンピューティングアーキテクチャ600は、第2の構成要素614または第Nの構成要素616の少なくとも一方に含まれる1つまたは複数のキーワードに基づいて、第2の構成要素614および/または616の少なくとも一方が、ある個人の1つまたは複数の病理報告に対応すると決定し得る。これらの場合、コンピューティングアーキテクチャ600は、第2の構成要素614の少なくとも一部分および/または第Nの構成要素616の少なくとも一部分は、コンピューティングアーキテクチャ600によってさらに分析するために情報のコーパス620に含めるべきであると決定してよい。
【0102】
加えて、診療記録データリポジトリ602から取得された個々のデータパッケージの構成要素のサブセットが、情報のコーパス620に含められてよい。様々な例において、情報のコーパス620を狭めるために、1つまたは複数の追加的な動作が行われてよい。例えば、診療記録データリポジトリ602から取得された情報のサブセットに1つまたは複数のクエリが適用されてよい。1つまたは複数のクエリは、それら1つまたは複数のクエリを満たす情報を1つまたは複数のデータパッケージから抽出してよい。少なくとも一部の例において、1つまたは複数のクエリは、データパッケージの個々の構成要素に適用されるクエリのグループであってよい。1つまたは複数の説明例において、クエリのグループは、情報のコーパス620に含めるべき情報、および情報のコーパス620から除外するべき追加的な情報を決定してよい。1つまたは複数の追加的な例において、データパッケージの少なくとも1つ構成要素の1つまたは複数のセクションが、情報のコーパス620から除外されてよい。
【0103】
1つまたは複数の追加的な説明例において、第1の構成要素612はコンピューティングアーキテクチャ600によるさらなる分析から除外すべきと決定した後に、コンピューティングアーキテクチャ600は次いで、第2の構成要素614または第Nの構成要素616の少なくとも一方に関して1つまたは複数のクエリを実施させてよい。このようなシナリオでは、1つまたは複数のクエリは、1つまたは複数の生物学的状態に関する家族歴を示すセクションなどの第2の構成要素614の一セクションが、情報のコーパス620から除外されるべきであると決定してよい。様々な例において、1つまたは複数のクエリは、第2の構成要素614または第Nの構成要素616の少なくとも一方に含まれる複数のキーワードおよび/またはキーワードの組合せを特定するためのものであってよい。これらの場合、コンピューティングアーキテクチャ600は、1つまたは複数のキーワードあるいはキーワードの組合せを含むデータパッケージの個々の構成要素の1つまたは複数の部分を、情報のコーパス620から除外してよい。1つまたは複数の追加的な例において、コンピューティングアーキテクチャ600は、データパッケージの個々の構成要素の1つまたは複数の部分に含まれる1つまたは複数のキーワードの後に続く、複数の単語、複数の文字、および/または複数の記号を、情報のコーパス620から除外してよい。
【0104】
さらに、動作622において、コンピューティングアーキテクチャ600は、情報のコーパスを分析して個人の特性を決定してよい。1つまたは複数の例において、コンピューティングアーキテクチャ600は、情報のコーパス620を分析して、1つまたは複数の表現型を有する個人を決定してよい。様々な例において、コンピューティングアーキテクチャ600は、情報のコーパス620を分析して、ある生物学的状態を示す1つまたは複数のバイオマーカーを決定してよい。例えば、コンピューティングアーキテクチャ600は、情報のコーパス620を分析して、1つまたは複数の遺伝的特性を有する個人を決定してよい。1つまたは複数の遺伝的特性は、ある生物学的状態に対応するゲノム領域の1つまたは複数の変異の少なくとも1つを含んでよい。1つまたは複数の説明例において、1つまたは複数の遺伝的特性は、ある種類のがんに対応するゲノム領域の1つまたは複数の変異に対応してよい。1つまたは複数の追加的な説明例において、1つまたは複数のバイオマーカーは、指定範囲の外側にある、検体のレベルに対応してよい。例示すると、コンピューティングアーキテクチャ600は、情報のコーパス620を分析して、ある生物学的状態を示す、1つまたは複数のタンパク質のレベルおよび/あるいは存在する1つまたは複数の小分子のレベルを有する個人を決定してよい。このようなシナリオでは、コンピューティングアーキテクチャ600は、臨床検査の結果を分析して、個人の検体のレベルを決定してよい。1つまたは複数の追加的な例において、コンピューティングアーキテクチャ600は、情報のコーパス620を分析して、ある生物学的状態を示す1つまたは複数の症状が存在する個人を決定してよい。1つまたは複数のさらなる例において、コンピューティングアーキテクチャ600は、情報のコーパス620に含まれる撮像情報を分析して、1つまたは複数のバイオマーカーが存在する個人を決定してよい。
【0105】
1つまたは複数の例において、コンピューティングアーキテクチャ600は、情報のコーパス620を分析するための1つまたは複数の機械学習技術を実装してよい。例えば、コンピューティングアーキテクチャ600は、情報のコーパス620を分析するために、1つまたは複数の畳み込みニューラルネットワークあるいは1つまたは複数の残差ニューラルネットワークの少なくとも1つなどの、1つまたは複数の人工ニューラルネットワークを実装してよい。コンピューティングアーキテクチャ600はまた、情報のコーパス620を分析するために、1つまたは複数のランダムフォレスト技術、1つまたは複数の隠れマルコフモデル、あるいは1つまたは複数のサポートベクターマシン、の少なくとも1つを実装してよい。
【0106】
少なくとも一部の実装形態では、コンピューティングアーキテクチャ600は、情報のコーパス620に対して1つまたは複数のクエリを行うことにより、情報のコーパス620を分析してよい。1つまたは複数のクエリは、1つまたは複数のキーワードおよび/またはキーワードの組合せに対応してよい。1つまたは複数のキーワードおよび/またはキーワードの組合せは、1つまたは複数の生物学的状態に対応する文字または記号の少なくとも一方に対応してよい。例示すると、キーワードは、HER2などのゲノム領域の突然変異に関係する文字に対応してよい。1つまたは複数の追加的な説明例において、1つまたは複数の基準が、キーワードの組合せに関連付けられてよい。例示すると、キーワードの組合せに対応する基準は、互いから100文字以内に出現している「疲労」、「血圧」、および「膨化」という単語など、ある個人について情報のコーパス620の一部分において互いから指定された距離以内に存在する複数の単語を含んでよい。これらの場合、コンピューティングアーキテクチャ600は、情報のコーパス620を、その1つまたは複数のキーワードおよび/またはキーワードの組合せについて構文解析してよい。様々な例において、1つまたは複数の基準に従ってその1つまたは複数のキーワードおよび/またはキーワードの組合せが存在すると決定したのに応答して、コンピューティングアーキテクチャ600は、所与の個人に関してある生物学的状態が存在すると決定してよい。
【0107】
1つまたは複数の追加的な例において、1つまたは複数のクエリは、画像に基づくものであってよく、コンピューティングアーキテクチャ600は、情報のコーパス620に含まれる画像をテンプレート画像に対して分析してよい。テンプレート画像は、ある生物学的状態が存在する複数の画像を分析し、それら複数の画像を1つのテンプレート画像に集約することに基づいて生成されてよい。このようなシナリオでは、コンピューティングアーキテクチャ600は、情報のコーパス620に含まれる画像を1つまたは複数のテンプレート画像に対して分析して、情報のコーパス620に含まれる画像とテンプレート画像との間の類似度の指標を決定してよい。ある個人についての類似度の指標が少なくとも閾値である状況では、コンピューティングアーキテクチャ600は、ある生物学的状態の特性がその個人に存在すると決定してよい。
【0108】
1つまたは複数の特性を有する個人を決定した後、コンピューティングアーキテクチャ600は、動作624において、その1つまたは複数の特性を有する個人に関するデータを記憶するデータ構造を生成してよい。1つまたは複数の例において、コンピューティングアーキテクチャ600は、個々の特性を有する個人および/または特性のグループを有する個人を示すデータテーブルを生成してよい。例えば、コンピューティングアーキテクチャ600は、第1のデータテーブル626および第2のデータテーブル628を生成してよい。第1のデータテーブル626は、1つまたは複数の第1の特性を有する個人を示してよく、第2のデータテーブル628は、1つまたは複数の第2の特性を有する個人を示してよい。1つまたは複数の説明例において、第1のデータテーブル626は、ある生物学的状態についての1つまたは複数の第1のバイオマーカーを有する個人を示してよく、第2のデータテーブル628は、その生物学的状態についての1つまたは複数の第2のバイオマーカーを有する個人を示してよい。1つまたは複数の第1のバイオマーカーは、その生物学的状態に関連する1つまたは複数の第1のゲノム変異体に対応してよく、1つまたは複数の第2のバイオマーカーは、その生物学的状態に関連する1つまたは複数の第2のゲノム変異体に対応してよい。様々な例において、データテーブル626、628は、個々のデータテーブル626、628に関連する1つまたは複数の特性が、個々の個人に関して存在するか否かを示してよい。例示すると、第1のデータテーブル626は、1つまたは複数の第1のゲノム変異体が存在する個人に関する第1の指示と、その1つまたは複数の第1のゲノム変異体が存在しない個人に関する第2の指示とを含んでよい。1つまたは複数の追加的な例において、第1のデータテーブル626は、個人の喫煙状況を示してよく、第2のデータテーブル628は、個々の個人がある生物学的状態について1つまたは複数の治療を受けたことがあるか否かを示してよい。
【0109】
1つまたは複数の説明例において、第1のデータテーブル626および第2のデータテーブル628は、個々の個人に対応する行を有してよい。少なくとも一部の例において、個人識別子が、個々の行に存在してよい。個人識別子は、1人の個人に対応する英数文字または記号の少なくとも一方を含んでよい。様々な例において、個人識別子は、1人の個人に対応するデータパッケージに存在してよい。第1のデータテーブル626および第2のデータテーブル628の列は、1つまたは複数の特性に関する個々の個人のステータスを示してよい。例えば、データテーブル626、628の列は、所与の個人について1つまたは複数の特性の有無を示す英数文字または記号の少なくとも一方を含む識別子を含んでよい。さらに、図6の説明例は第1のデータテーブル626および第2のデータテーブル628を含んでいるが、コンピューティングアーキテクチャ600は、これよりも多いデータテーブルまたは少ないデータテーブルを生成してよい。
【0110】
動作630において、コンピューティングアーキテクチャ600は、データ構造を追加的なデータリポジトリに記憶してよい。例えば、コンピューティングアーキテクチャ600は、少なくとも第1のデータテーブル626および/または第2のデータテーブル628を中間データリポジトリ632に記憶してよい。様々な例において、第1のデータテーブル626および第2のデータテーブル628は、一時的に中間データリポジトリ632に記憶されてよい。1つまたは複数の説明例において、第1のデータテーブル626および第2のデータテーブル628は、統合データリポジトリ104に追加される前に中間データリポジトリ632に記憶されてよい。1つまたは複数の例において、統合データリポジトリ104は、周期的に生成および/または更新されてよい。このようなシナリオでは、情報のコーパス620を分析することに基づいてコンピューティングアーキテクチャ600によって生成されたデータ構造は、統合データリポジトリ104が生成または更新の少なくとも一方が行われるときまで、中間データリポジトリ632に記憶されてよい。
【0111】
中間データリポジトリ632によって記憶されているデータ構造を統合データリポジトリ104に追加する前に、コンピューティングアーキテクチャ600は、動作634において1つまたは複数の非特定化プロセスを行ってよい。中間データリポジトリ632によって記憶されているデータ構造は、個人のプライバシーを保護するために非特定化されてよい。1つまたは複数の非特定化プロセスは、1つまたは複数の電子的に実装される暗号技術を、中間データリポジトリ632によって記憶されているデータ構造に含まれる個人の情報に適用することを含んでよい。1つまたは複数の例において、コンピューティングアーキテクチャ600は、中間データリポジトリ632のデータ構造に記憶された情報を有する個々の個人に対応するトークンを生成してよい。トークンは、個々の個人に関係する情報に1つまたは複数のハッシュ関数を適用することによって生成されてよい。1つまたは複数の例において、1つまたは複数の非特定化プロセスは、個々の個人に対応する情報にソルト関数を適用して、それら個々の個人のトークンを生成することを含んでよい。様々な例において、中間データリポジトリ632によって記憶されているデータ構造を非特定化するために適用される1つまたは複数の暗号技術は、図1および図4の健康保険請求データリポジトリ106から取得される情報に適用されるものと同じまたは同様であってよい。
【0112】
動作636において、コンピューティングアーキテクチャ600は、非特定化されたデータ構造を、統合データリポジトリ104と共に記憶してよい。例えば、所与の個人について中間データリポジトリ632に記憶されている情報は、その所与の個人に関する追加的な情報と併せて統合データリポジトリ104に記憶されてよい。例示すると、統合データリポジトリ104は、分子データリポジトリ108、健康保険請求データリポジトリ106、および中間データリポジトリ632のうちの少なくとも2つから取得された、所与の個人に関する情報を記憶してよい。このようにして、複数の別個のデータリポジトリから取得された、所与の個人に関する情報が、統合データリポジトリ104に記憶されてよい。その結果、異なるデータリポジトリから取得される個人に関する情報が、多くの既存のシステムのように別々に分析されるのではなく、一緒に分析され得る。
【0113】
様々な例において、中間データリポジトリ632によって記憶されている情報を使用して、データ統合・分析システム102によって行われた1つまたは複数の決定を検証してよい。例えば、データ統合・分析システム102は、健康保険請求データリポジトリ106および分子データリポジトリ108から取得された情報を分析して、個人の特性を決定してよい。次いで、データ統合・分析システム102は、中間データリポジトリ632から取得した情報を分析して、健康保険請求データリポジトリ106および分子データリポジトリ108から取得された情報から特定される予想される特性が、中間データリポジトリ632によって記憶されている情報に関して同じ個人達の特性に対応するかどうかを決定してよい。
【0114】
中間データリポジトリ632によって記憶されているデータ構造を非特定化するために適用される1つまたは複数の暗号技術は、図4の第1のトークン422または第2のトークン428の少なくとも一方を生成するために使用された情報と同じまたは同様の情報を利用してよい。例えば、動作634は、中間データリポジトリのデータ構造を非特定化するために、それぞれの個人の名の少なくとも一部分、それぞれの個人の姓の少なくとも一部分、それぞれの個人の誕生日の少なくとも一部分、個人の性別、およびそれぞれの個人の所在地識別子の少なくとも一部分の組合せを使用して、1つまたは複数の暗号技術を実装してよい。中間データリポジトリ632によって記憶されているデータ構造を非特定化するために、第1のトークン422または第2のトークン428の少なくとも一方を生成するために使用されたものと同じまたは同様の暗号技術および同じまたは同様の情報のサブセットを利用することにより、中間データリポジトリ632によって記憶される情報が、統合データリポジトリ104に記憶されている情報を有する同じ個人についての情報と同期され得る。統合データリポジトリ104と中間データリポジトリ632とは両方とも、数千、数万から、数百万人に及ぶ個人についての情報を記憶してよい。よって、本明細書に記載されるような指定された暗号プロトコールの使用を通じて、統合データリポジトリ104および中間データリポジトリ632によって記憶されている記録を有する個人同士を同期する能力がない場合、同じ1人の個人に関連する統合データリポジトリ104のデータ構造と中間データリポジトリ632のデータ構造は、統合データリポジトリ104によって記憶されている情報と、中間データリポジトリ632によって記憶されている情報が、所与の1人の個人に対して一緒に検索され得るような形で記憶されない可能性があり、そのことが、不正確な情報がデータ統合・分析システム102によって提供されることにつながる可能性がある。本明細書に記載されるような指定された暗号プロトコールが存在しないことはまた、所与の個人に対応する、他のデータソースから統合データリポジトリ104に記憶されている情報と、中間データリポジトリ632によって記憶されている情報とを決定するために、より多くのコンピューティングリソースを使用することにつながる可能性もある。図7および図8は、統合データリポジトリを生成し、その統合データリポジトリによって記憶されている情報の分析で使用されるデータセットを生成するための例示的プロセスを示す。この例示的プロセスは、ハードウェア、ソフトウェア、またはその組合せとして実装されてよい一連の動作を表す論理フローグラフのブロックの集まりとして説明される。ブロックは番号によって参照される。ソフトウェアの文脈では、ブロックは、1つまたは複数の処理装置(ハードウェアマイクロプロセッサなど)によって実行されたときに列挙された動作を行う、1つまたは複数のコンピュータ可読媒体に記憶されたコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、特定の機能を行うかまたは特定のデータ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。動作が説明される順序は制限として解釈される意図はなく、プロセスを実装するために説明されるブロックのうち任意の数が、任意の順序でおよび/または並列に組み合わせられてよい。
【0115】
図7は、1つまたは複数の実装形態による、健康保険請求データおよびゲノミクスデータを記憶する統合データリポジトリを生成するための例示的プロセス700のデータ流れ図である。動作702において、プロセス700は、第1のハッシュ関数を使用して生成されたトークンを含むデータファイルを生成することを含んでよい。個々のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応してよい。1つまたは複数の例において、分子データリポジトリによって記憶されているデータを有する個人は、1つまたは複数のトークンに関連付けられてよい。トークンは、ゲノミクスデータリポジトリによって記憶されている個人のグループに対応する情報のサブセットに1つまたは複数の第1のハッシュ関数を適用することにより、生成されてよい。様々な例において、個々のトークンは、個人のグループのそれぞれの個人の名の少なくとも一部分、個人のグループのそれぞれの個人の姓の少なくとも一部分、個人のグループのそれぞれの個人の所在地識別子、個人のグループのそれぞれの個人の性別、および個人のグループのそれぞれの個人の誕生日、の1つまたは複数の組合せに、1つまたは複数の第1のハッシュ関数を適用することによって生成されてよい。1つまたは複数の説明例において、トークンは、ゲノミクスデータリポジトリに結合されているデータ統合・分析システムによって生成されてよい。1つまたは複数の追加的な説明例において、トークンは、第3者システムによって生成され、分子データリポジトリに結合されているデータ統合・分析システムによってアクセスされてよい。プロセス700はまた、動作704において、データファイルを健康保険請求データ管理システムに送ることを含んでよい。健康保険請求データ管理システムは、データファイルに含まれるトークンを、健康保険データ管理システムによってアクセスされ、健康保険請求データリポジトリによって記憶されている情報に基づいて生成された第2のトークンとマッチングしてよい。
【0116】
加えて、動作706において、プロセス700は、データファイルに応答する、健康保険請求データ管理システムからその個人のグループに対応する第1のデータを取得することを含んでよく、第1のデータは健康保険請求データを含む。一部の実装形態では、自身のデータが健康保険請求データ管理システムから転送されることについて個人のグループのメンバーから肯定の同意が取得される。1つまたは複数の例において、データは、データが個々のメンバーまでたどられる可能性がないように、匿名化された形式で転送される。健康保険請求データ管理システムは、複数の個人についての健康保険請求情報を記憶する健康保険請求データリポジトリに結合されてよい。1つまたは複数の例において、健康保険請求データ管理システムは、データファイルのトークンを、健康保険請求データ管理システムによって生成される追加的なトークンに関して分析してよい。追加的なトークンは、データファイルに含まれるトークンを生成するために使用されたのと同じ情報のセットに基づいて生成されてよい。しかし、個人の身元は、トークンに基づいて決定されない可能性がある。様々な例において、健康保険請求データ管理システムは、データファイルに含まれるトークンを、健康保険請求データリポジトリによって記憶されている情報に基づいて生成された追加的なトークンとマッチングして、健康保険請求データリポジトリによって記憶されている情報を有する個人であって、ゲノミクスデータリポジトリによって記憶されている情報をも有する個人を決定してよい。本明細書に開示される技術は、HIPAAやGDPRなどの、法制による、最良事例のプライバシー規格に準拠する。
【0117】
動作708において、プロセス700は、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することを含んでよい。1つまたは複数の例において、個人識別子は、個人のグループのそれぞれの個人に関係する1つまたは複数のトークンに対応してよい。識別子は、個人のグループの所与の個人に対して一意であってよく、非特定化される。加えて、識別子は、トークンを生成するために使用されたゲノミクスデータリポジトリによって記憶されている情報とは異なる、ゲノミクスデータリポジトリによって記憶されている個人のグループについての情報を使用して生成されてよい。様々な例において、それぞれの個人のグループの情報に第2のハッシュ関数を適用することによって中間識別子が生成されてよく、この中間識別子に1つまたは複数のソルティング技術を適用することによって最終バージョンの識別子が生成されてよい。それぞれの個人についてゲノミクスデータリポジトリによって記憶されている情報は、ゲノミクスデータリポジトリによって記憶されている所与の個人の情報の少なくとも一部分が、その所与の個人の各自の識別子を使用してアクセスされ得るように、識別子と関連付けて記憶されてよい。
【0118】
さらに、プロセス700は、動作710において、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することを含んでよく、動作712において、プロセス700は、個人のグループの第2のデータのそれぞれの部分に対応する、第1のデータのそれぞれの部分を決定することを含んでよい。例えば、ある所与の個人について、その所与の個人の健康保険請求データに対応する第1のデータが、ゲノミクスデータなどのその所与の個人の分子データに対応する第2のデータに加えて特定されてよい。このようにして、所与の個人について、健康保険請求データと分子データの両方が特定されてよい。
【0119】
プロセス700は、動作714において、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することを含んでよい。例えば、統合データリポジトリは、所与の個人の健康保険請求データおよびゲノミクス請求データを、その所与の個人の健康保険請求データおよびゲノミクス請求データにアクセスするために使用され得る識別子と関連付けて記憶してよい。統合データリポジトリによって記憶される情報は、データリポジトリスキーマに従って編成されてよい。例えば、統合データリポジトリは、個人のグループに対する健康保険請求データおよびゲノミクスデータを複数のデータテーブルに記憶してよい。1つまたは複数の例において、複数のデータテーブルによって記憶されている情報はリンクされてよい。例示すると、データリポジトリスキーマの第1のデータテーブルによって記憶されている所与の個人に関係する情報が、データリポジトリスキーマの第2のデータテーブルによって記憶されているその所与の個人に関係する追加的な情報にリンクされてよい。このようにして、データリポジトリスキーマの1つのデータテーブル内でアクセスされた情報が、結果として、データリポジトリスキーマの別のデータテーブルに記憶されている追加的な情報へのアクセスを生じさせてよい。
【0120】
1つまたは複数の説明例において、データリポジトリスキーマは、個人のグループのゲノミクスデータを記憶する第1のデータテーブルを含んでよい。例えば、第1のデータテーブルは、ゲノミクスデータを生成するために使用されたパネル、ゲノム領域の突然変異、突然変異のタイプ、ゲノム領域のコピー数、1つまたは複数の突然変異を有する試料中で特定された核酸分子の数を示す適用範囲データ、検査日、および患者情報に対応する情報を記憶してよい。データリポジトリスキーマはまた、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータ、および、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルを含んでよい。加えて、データリポジトリスキーマは、個人のグループの個人情報を記憶する第4のデータテーブル、および、個人のグループに提供されたサービスについて支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルを含んでよい。さらに、データリポジトリスキーマは、個人のグループに関係する健康保険プランのタイプなどの、個人のグループの健康保険適用範囲情報に対応する情報を記憶した第6のデータテーブルを含んでよい。データリポジトリスキーマはまた、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルを含んでよい。
【0121】
1つまたは複数の例において、統合データリポジトリはまた、個人のグループの少なくとも一部分に対応する診療記録を記憶してよい。これらの例では、診療記録は、診療記録を記憶している1つまたは複数のデータリポジトリから取得されてよい。1つまたは複数の光学文字認識(OCR)動作が診療記録に関して行われてよい。加えて、診療記録を分析して、情報のコーパスを生成するために除去すべき、追加的な情報の1つまたは複数の部分を決定してよい。様々な例において、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する追加的な個人のグループのサブセットの一部分を決定してよい。
【0122】
その追加的な個人のグループのサブセットの一部分の識別子を記憶すると共に、その追加的な個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造が、情報のコーパスから生成されてよい。1つまたは複数のデータ構造は、中間データリポジトリによって記憶されてよい。複数の識別子との関係でその追加的な個人のグループのサブセットの一部分の診療記録の追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、その追加的な個人のグループのサブセットの一部分の識別子に関して、1つまたは複数の非特定化動作が行われてよい。1つまたは複数のデータ構造によって記憶されている情報を非特定化した後、統合データリポジトリによって記憶されている情報が、統合データリポジトリに追加されてよい。少なくとも一部の例において、非特定化された診療記録情報は、健康保険請求データに加えてまたはその代わりに、統合データリポジトリに追加されてよい。様々な例において、バイオマーカーデータとの関連で非特定化された診療記録情報を記憶している1つまたは複数のデータ構造は、統合データリポジトリに記憶されている他のデータ構造との1つまたは複数の論理接続を有してよい。例示すると、バイオマーカーデータとの関連で非特定化された診療記録情報を記憶している1つまたは複数のデータ構造は、ゲノミクスデータを生成するために使用されたパネル、ゲノム領域の突然変異、突然変異の種類、ゲノム領域のコピー数、1つまたは複数の突然変異を有する試料中で特定された核酸分子の数を示す適用範囲データ、検査日、および患者情報に対応する情報を記憶し得る第1のデータテーブル、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータ、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブル、個人のグループの個人情報を記憶する第4のデータテーブル、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブル、個人のグループに関係する健康保険プランの種類など、個人のグループの健康保険適用範囲情報に対応する情報を記憶している第6のデータテーブル、または、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブル、の少なくとも1つとの1つまたは複数の論理接続を有してよい。
【0123】
様々な例において、診療記録データは、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することにより、統合データリポジトリに追加されてよい。個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応してよい。加えて、データファイルは、診療記録データ管理システムに送られてよく、個人のグループに対応する診療記録データが、そのデータファイルに応じて診療記録データ管理システムから取得されてよい。さらに、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して、複数の識別子が生成されてよい。各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応してよい。複数の識別子を使用して、第2のデータが、個人のグループについて分子データリポジトリから取得されてよい。様々な例において、個人のグループについて、第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分が決定されてよい。このようにして、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリが生成されてよい。
【0124】
診療記録データを記憶している統合データリポジトリが生成された後、統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求が受け取られてよい。この要求は、1つまたは複数の検索基準を含んでよい。1つまたは複数の例において、1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、複数の個人のサブセットが決定されてよく、複数の個人のそのサブセットの情報を分析して、ある生物学的状態に関するその1つまたは複数の特性のうちの特性の有意性の指標を決定してよい。
【0125】
1つまたは複数の説明例において、1つまたは複数のゲノム突然変異が、複数の個人のサブセットに存在すると決定されることがあり、また複数の個人のそのサブセットに提供された複数の治療も決定されてよい。様々な例において、現実世界の生存率など、複数の個人のサブセットの各自の生存率が決定されてよい。少なくとも一部の例において、有意性の指標は、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応してよい。有意性の指標に基づいて、複数の個人のサブセットに対する治療の有効性が決定されてよい。1つまたは複数の例において、複数の個人のサブセットの中でその治療を受けたことがない個人が決定されてよい。1つまたは複数の治療有効量のその治療が、複数の個人のサブセットの中でその治療を受けたことがない個人に対して施されてよい。
【0126】
図8は、1つまたは複数の実装形態による、健康保険請求データおよびゲノミクスデータを記憶する統合データリポジトリによって記憶されている情報を分析するために使用される複数のデータセットを生成する例示的プロセス800のデータ流れ図である。プロセス800は、動作802において、統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することを含んでよい。統合データリポジトリは、共通の個人のグループについての健康保険請求データおよび分子データを記憶してよい。1つまたは複数の例において、データ処理命令の第1のセットは、データ処理パイプラインの一部であるデータ処理命令の複数のセットに含まれてよい。データ処理パイプラインのデータ処理命令のセットの各々は、それぞれの分析可能な状態になったデータセットを生成するために実行されてよい。例えば、データ処理パイプラインのデータ処理命令の個々のセットは、統合データリポジトリによって記憶されている情報の指定された部分および/または情報の組合せを含むデータセットを生成するために実行可能であってよい。1つまたは複数の追加的な例において、データ処理パイプラインのデータ処理命令の個々のセットは、統合データリポジトリによって記憶されている情報の一部を分析および変更して、それぞれのデータセットを生成するために実行可能であってよい。加えて、データ処理命令の個々のセットは、統合データリポジトリによって記憶されている情報の個々のサブセットに関して実行可能であってよい。
【0127】
プロセス800はまた、動作804において、データ処理命令の第1のセットを実行させて第1のデータセットを生成することを含んでよい。第1のデータセットは、ある生物学的状態が存在する、個人のグループのサブセットを示してよい。データ処理命令の第1のセットは、統合データリポジトリによって記憶されているデータを分析して、生物学的状態が存在する個人のコホートを特定するために実行されてよい。1つまたは複数の説明例において、生物学的状態はがんを含んでよい。例示すると、データ処理命令の第1のセットは、統合データリポジトリによって記憶されているデータを分析して、肺がんが存在する個人のコホートを特定するために実行されてよい。様々な例において、データ処理パイプラインは、異なる生物学的状態が存在する個人のコホートを特定するためのデータ処理命令の複数のセットを含んでよい。
【0128】
1つまたは複数の例において、データ処理命令の第1のセットは、健康保険請求データまたは分子データの少なくとも一方を分析して、その生物学的状態が存在する個人のコホートを決定するために実行されてよい。例えば、データ処理命令の第1のセットは、健康保険請求データに存在する1つまたは複数の健康保険コードを有する個人を特定して、その生物学的状態が存在する個人のグループを決定するために実行されてよい。加えて、データ処理命令の第1のセットは、その個人から取得された試料から導出された核酸分子のゲノム領域に1つまたは複数の突然変異が存在する個人を特定して、その生物学的状態が存在する個人のグループを決定するために実行されてよい。
【0129】
また、プロセス800は、動作806において、統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することを含んでよい。統合データリポジトリによって記憶されているデータの第2のセットは、統合データリポジトリによって記憶されているデータの第1のセットとは異なってよく、データ処理命令の第1のセットとの関係で分析されてよい。例えば、第1のデータは、統合データリポジトリによって記憶されている1つまたは複数の第1のデータテーブルの第1の列に対応してよく、第2のデータは、統合データリポジトリによって記憶されている1つまたは複数の第2のデータテーブルの第2の列に対応してよい。
【0130】
動作808において、プロセス800は、データ処理命令の第2のセットを実行させて、個人のグループの第2のサブセットに提供された1つまたは複数の治療を示す第2のデータセットを生成することを含んでよい。第2のデータセットは、1つまたは複数の治療を受けたことのある、個人のグループのサブセットを示してよい。この1つまたは複数の治療は、1つまたは複数の生物学的状態が存在する個人に提供されてよい。1つまたは複数の例において、データ処理命令の第2のセットは、統合データリポジトリによって記憶されているデータを分析して、その1つまたは複数の治療を受けた個人のコホートを特定するために実行されてよい。例示すると、データ処理命令の第2のセットは、健康保険請求データまたはゲノミクスデータの少なくとも一方を分析して、その1つまたは複数の治療を受けた個人のコホートを決定するために実行されてよい。1つまたは複数の説明例において、データ処理命令の第2のセットは、健康保険請求データに存在する1つまたは複数の健康保険コードを有する個人を特定して、その1つまたは複数の治療を受けた個人のグループを決定するために実行されてよい。
【0131】
さらに、プロセス800は、動作810において、個人のグループの第2のサブセットの一部分と重複する、個人のグループの第1のサブセットの一部分を含む、個人のグループの第3のサブセットを決定することを含んでよい。その結果、個人のグループの第3のサブセットは、その生物学的状態が存在し、かつその1つまたは複数の治療が提供される個人に対応することになる。812において、プロセス800は、第1のデータセットおよび第2のデータセットを個人のグループの第3のサブセットに関して分析して、個人のグループの第3のサブセットの特性の有意性の指標を決定することを含んでよい。1つまたは複数の例において、1つまたは複数の機械学習技術または統計技術が、個人のグループの第3のサブセットに関して第1のデータセットおよび第2のデータセットの少なくとも一方に含まれる情報に適用されてよい。有意性の指標は、その特性に関する有意性の統計的指標に対応してよい。1つまたは複数の追加的な例において、有意性の指標は、その特性が、その生物学的状態が存在する個人に存在する確率に対応してよい。
【0132】
1つまたは複数の説明例において、特性は、その生物学的状態が存在する個人に提供された1つまたは複数の治療を含んでよい。1つまたは複数の追加的な説明例において、特性は、その生物学的状態が存在する個人から取得された試料から導出された核酸分子のゲノム領域の突然変異が存在することを含んでよい。様々な例において、第1のデータセットまたは第2のデータセットの少なくとも一方に含まれる情報を分析して、1つまたは複数の尺度に関するその特性の影響を決定してよい。1つまたは複数の例において、第1のデータセットまたは第2のデータセットの少なくとも一方に含まれる情報を分析して、その生物学的状態が存在する個人の生存率に対する、ある治療の影響の量を決定してよい。1つまたは複数のさらなる例において、第1のデータセットまたは第2のデータセットの少なくとも一方に含まれる情報を分析して、その生物学的状態が存在する個人の生存率に対する、あるゲノム領域の突然変異の影響の量を決定してよい。加えて、第1のデータセットおよび第2のデータセットに含まれる情報を分析して、その生物学的状態が存在し、かつ1つまたは複数のゲノム突然変異も存在する個人に対する、1つまたは複数の治療の影響の量を決定してよい。
【0133】
図9は、コンピュータシステムの形態の機械9900の図式的表現を示し、機械900に、一例に従い、例示的な実装形態に従って、本発明において論じられる方法論の1つまたは複数を行わせるためにその中で命令のセットが実行されてよい。具体的には、図8は、コンピュータシステムの例示的な形態の機械900の図式的表現を示し、この中で、機械900に本発明において論じられる方法論のいずれか1つまたは複数を行わせるための命令902(例えばソフトウェア、プログラム、アプリケーション、アプレット、アプリ、または他の実行可能コード)が実行されてよい。例えば、命令902は、機械900に、それぞれ図1図2図3図4図5、および図6に関して説明したアーキテクチャおよびフレームワーク100、200、300、400、500、600を実装させ、それぞれ図7および図8に関して説明した方法700、800を実行させてよい。
【0134】
命令902は、一般のプログラムされていない機械900を、記載・図示された機能を記載されたように実行するようにプログラムされた特定の機械900に変える。代替の実装形態では、機械900は、スタンドアロンの装置として動作し、または他の機械に結合され(例えばネットワーク化され)てよい。ネットワーク化された配備では、機械900は、サーバ・クライアントネットワーク環境のサーバマシンまたはクライアントマシンの能力内で動作するか、またはピアツーピア(または分散)ネットワーク環境内でピアマシンとして動作してよい。機械900は、これらに限定されないが、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス(STB)、携帯情報端末(PDA)、娯楽メディアシステム、携帯電話、スマートフォン、モバイルデバイス、ウェアラブルデバイス(例えばスマートウォッチ)、スマート家庭デバイス(例えばスマート家電)、他のスマートデバイス、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、または機械900によって行われる動作を指定する命令902を順次もしくはその他の方法で実行することが可能な任意の機械を含んでよい。さらに、1つのみの機械900が図示されるが、用語「機械」は、個々にまたは協働して命令902を実行して、本明細書に論じられる方法論のいずれか1つまたは複数を行う機械900の集まりをも含むと解釈されるものとする。
【0135】
コンピューティングデバイス900の例には、論理、1つまたは複数の構成要素、回路(例えばモジュール)、または機構が含まれ得る。回路は、ある特定の動作を行うように構成された有形の存在物である。一例では、回路は、指定された方式で構成されてよい(例えば、内部的に、または他の回路などの外部エンティティに関して)。一例では、1つまたは複数のコンピュータシステム(例えば、スタンドアロン、クライアントまたはサーバコンピュータシステム)あるいは1つまたは複数のハードウェアプロセッサ(プロセッサ)が、ソフトウェア(例えば、命令、アプリケーション部分、またはアプリケーション)によって、本明細書に記載される特定の動作を行うように動作する回路として構成されてよい。一例では、ソフトウェアは、(1)非一時的機械可読媒体に、または(2)伝送信号に、存在してよい。一例では、ソフトウェアは、回路の基礎ハードウェアによって実行されたときに、回路に特定の動作を行わせる。
【0136】
一例では、回路は、機械的または電子的に実装されてよい。例えば、回路は、特殊目的プロセッサ、フィールドプログラム可能ゲートアレイ(FPGA)、または特定用途集積回路(ASIC)などを含む、上記のような1つまたは複数の技術を行うように特別に構成された専用回路または論理を備えてよい。一例では、回路は、特定の動作を行うように一時的に(例えばソフトウェアにより)構成され得るプログラム可能論理(例えば汎用プロセッサまたは他のプログラム可能プロセッサに包含される回路)を備えてよい。回路を機械的に実装する(例えば専用の恒久的に構成された回路として)か、または一時的に構成される回路(例えばソフトウェアによって構成される)として実装するかの決定は、費用および時間の考慮事項によって左右されることが認識されるであろう。
【0137】
したがって、用語「回路」は、指定された方式で動作するように、または指定された動作を行うように、物理的に構築され、恒久的に構成される(例えばハードワイヤード)エンティティであれ、または一時的に(temporarily)(例えば一時的に(transitorily))構成される(例えばプログラムされる)エンティティであれ、有形のエンティティを包含すると理解される。一例では、複数の一時的に構成された回路を仮定すると、回路の各々が、任意の一時点において構成されるまたはインスタンス化される必要はない。例えば、回路が、ソフトウェアを介して構成される汎用プロセッサを含む場合、汎用プロセッサは、それぞれ異なるときにそれぞれの異なる回路として構成されてよい。したがって、ソフトウェアは、例えば、特定の一時点には特定の回路を構成し、別の時点には異なる回路を構成するようにプロセッサを構成してよい。
【0138】
一例では、回路は、他の回路に情報を提供し、他の回路から情報を受け取ってよい。この例では、回路は、1つまたは複数の他の回路に通信的に結合されているとみなされてよい。複数のそのような回路が同時に存在する場合、通信は、回路同士を接続する信号送信(例えば、該当する回路およびバスにわたる)によって実現されてよい。複数の回路が異なるときに構成されるまたはインスタンス化される実装形態では、そのような回路間の通信は、例えば、複数の回路がアクセスすることのできるメモリ構造中の情報の記憶と取り出しを通じて実現されてよい。例えば、1つの回路が動作を行い、その動作の出力を、それが通信的に結合されているメモリデバイスに記憶してよい。次いで、さらに他の回路が、後の時にメモリデバイスにアクセスして、記憶されている出力を取り出し、処理してよい。一例では、回路は、入力装置または出力装置との通信を開始するまたは受信し、リソース(例えば情報の集まり)に作用するように構成されてよい。
【0139】
本明細書に記載される方法の例の様々な動作は、少なくとも部分的に、関連する動作を行うように(例えばソフトウェアにより)一時的に構成されるかまたは恒久的に構成される1つまたは複数のプロセッサによって行われてよい。一時的に構成されてもまたは恒久的に構成されても、そのようなプロセッサは、1つまたは複数の動作または機能を行うように動作する、プロセッサによって実装される回路を構成してよい。一例では、本明細書において言及される回路は、プロセッサによって実装される回路を含んでよい。
【0140】
同様に、本明細書に記載される方法は、少なくとも部分的にプロセッサによって実施されてよい。例えば、方法の動作の少なくとも一部またはすべてが、1つまたは複数のプロセッサあるいはプロセッサによって実装される回路によって行われてよい。動作のうちいくつかの動作の実行は、1つまたは複数のプロセッサに分散されてよく、1つの機械の中だけに存在するのではなく、複数の機械にわたって配備されてよい。一例では、1つまたは複数のプロセッサは、単一の場所(例えば、住宅環境、オフィス環境、またはサーバファーム内)に位置してよいが、他の例では、プロセッサは複数の場所に分散されてよい。
【0141】
1つまたは複数のプロセッサはまた、「クラウドコンピューティング」環境内でまたは「サービスとしてのソフトウェア」(SaaS)として関連する動作の実行を支援するように動作してもよい。
【0142】
例えば、動作の少なくとも一部が、コンピュータ(プロセッサを含む機械の例としての)の群によって行われてよく、それらの動作には、ネットワーク(例えばインターネット)を介して、および1つまたは複数の適切なインターフェース(例えば、アプリケーションプログラムインターフェース(API))を介してアクセス可能である。
【0143】
例示的な実装形態(例えば、装置、システム、または方法)は、デジタル電子回路、コンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組合せで実装されてよい。例示的な実装形態は、コンピュータプログラム製品(例えば、プログラム可能プロセッサ、コンピュータ、または複数のコンピュータなどのデータ処理装置による実行のためにまたはその動作を制御するために、情報担持体または機械可読媒体に有形に具現化されたコンピュータプログラム)を使用して実施されてよい。
【0144】
コンピュータプログラムは、コンパイル言語またはインタープリタ言語を含む任意形態のプログラミング言語で書かれてよく、スタンドアロンプログラムとして、またはソフトウェアモジュール、サブルーチン、もしくはコンピューティング環境で使用するのに適した他のユニットとしてを含む任意の形態で展開されてよい。コンピュータプログラムは、1つの場所にある1つのコンピュータまたは複数のコンピュータ上で実行されるように展開されても、または複数の場所に分散され、通信ネットワークで相互接続されてもよい。
【0145】
一例では、動作は、コンピュータプログラムを実行して、入力データに作用し、出力を生成することによって機能を行う1つまたは複数のプログラム可能プロセッサによって行われてよい。方法動作の例はまた、特殊目的論理回路(例えば、フィールドプログラム可能ゲートアレイ(FPGA)または特定用途集積回路(ASIC))によって行われても、または例示的装置がそれらとして実装されてもよい。
【0146】
コンピューティングシステムは、クライアントおよびサーバを含んでよい。クライアントとサーバとは、一般には互いから遠隔にあり、一般には通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータで実行され、互いに対してクライアント-サーバ関係を有するコンピュータプログラムによって生じる。プログラム可能コンピューティングシステムを展開する実装形態では、ハードウェアアーキテクチャとソフトウェアアーキテクチャの両方が検討を必要とすることが認識されるであろう。具体的には、特定の機能を恒久的に構成されたハードウェア(例えばASIC)として実装するか、一時的に構成されるハードウェア(例えば、ソフトウェアとプログラム可能プロセッサの組合せ)として実装するか、それとも恒久的に構成されたハードウェアと一時的に構成されるハードウェアとの組合せとして実装するかの選択は、設計上の選択であってよいことが認識されるであろう。以下に、例示的な実装形態において展開され得るハードウェア(例えばコンピューティングデバイス900)およびソフトウェアアーキテクチャが述べられる。
【0147】
一例では、コンピューティングデバイス900は、スタンドアロンデバイスとして動作してよく、またはコンピューティングデバイス900は他の機械に接続され(例えばネットワーク化され)てもよい。
【0148】
ネットワーク化された配備では、コンピューティングデバイス900は、サーバ・クライアントネットワーク環境のサーバマシンまたはクライアントマシンのいずれかの能力内で動作してよい。一例では、コンピューティングデバイス900は、ピアツーピア(または他の分散)ネットワーク環境内でピアマシンとして動作してよい。コンピューティングデバイス900は、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、モバイル電話、ウェブ機器、ネットワークルータ、スイッチもしくはブリッジ、またはコンピューティングデバイス900によって行われる(taken)(例えば行われる(performed))動作を指定する命令(順次またはその他)を実行することが可能な任意の機械であってよい。さらに、1つのみのコンピューティングデバイス900が図示されているが、用語「コンピューティングデバイス」は、本明細書に論じられる方法論の1つまたは複数を行う命令の1つのセット(または複数のセット)を個々にまたは協働して実行する機械の任意の集まりをも含むと解釈されるものとする。
【0149】
例示的なコンピューティングデバイス900は、プロセッサ904(例えば、中央演算処理装置(CPU)、グラフィック処理装置(GPU)、または両方)、主メモリ906および静的メモリ908を含んでよく、その一部またはすべてはバス910を介して互いと通信してよい。コンピューティングデバイス900は、表示装置912、英数入力装置914(例えばキーボード)、およびユーザインターフェース(UI)ナビゲーションデバイス916(例えばマウス)をさらに含んでよい。一例では、表示装置912、入力装置914、およびUIナビゲーションデバイス916は、タッチ画面ディスプレイであってよい。コンピューティングデバイス900は加えて、記憶装置(例えばドライブ装置)918、信号生成装置920(例えばスピーカ)、ネットワークインターフェースデバイス922、および全地球測位システム(GPS)センサ、コンパス、加速度計、または別のセンサなどの1つまたは複数のセンサ924を含んでよい。
【0150】
記憶装置918は、本明細書に記載される方法論または機能のいずれか1つまたは複数を実現するまたはそれらによって利用されるデータ構造または命令902の1つまたは複数のセット(例えばソフトウェア)が記憶された、機械可読媒体926を含んでよい。命令902はまた、コンピューティングデバイス900によってそれが実行される際、完全にまたは少なくとも部分的に、主メモリ906内、静的メモリ908内、またはプロセッサ904内に存在してよい。一例では、プロセッサ904、主メモリ906、静的メモリ908、または記憶装置918の1つまたは任意の組合せが、機械可読媒体を構成してよい。
【0151】
機械可読媒体926は単一の媒体として図示されているが、用語「機械可読媒体」は、1つまたは複数の命令902を記憶するように構成されている単一の媒体を含んでも複数の媒体(例えば、中央または分散データベース、ならびに/または関連するキャッシュおよびサーバ)を含んでもよい。用語「機械可読媒体」はまた、機械による実行のために命令を記憶、符号化、または保持することが可能で、機械に本開示の方法論の1つまたは複数を行わせる、またはそのような命令によって利用されるまたは関連するデータ構造を記憶、符号化、または保持することが可能な、任意の有形媒体を含むものと解釈されてよい。したがって、用語「機械可読媒体」は、これらに限定されないが、ソリッドステートメモリ、ならびに光学および磁気媒体を含むものと解釈されてよい。機械可読媒体の具体例は、例として半導体メモリデバイス(例えば電気的にプログラム可能な読出し専用メモリを含む、不揮発性メモリを含んでよい
【0152】
(EPROM)、電気的に消去可能なプログラム可能読出し専用メモリ(EEPROM))およびフラッシュメモリデバイス;内蔵ハードディスクおよび取外し可能ディスクなどの磁気ディスク;光磁気ディスク;ならびにCD-ROMおよびDVD-ROMディスク。
【0153】
命令902はさらに、複数の転送プロトコール(例えば、フレームリレー、IP、TCP、UDP、HTTP等)のいずれか1つを利用するネットワークインターフェースデバイス822を介して、伝送媒体を使用して、通信ネットワーク828を通じて送信または受信されてよい。例示的な通信ネットワークは、中でも特に、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、パケットデータネットワーク(例えばインターネット)、携帯電話網(例えばセルラーネットワーク)、従来の音声電話(POTS)ネットワーク、およびワイヤレスデータネットワーク(例えばWi-Fi(登録商標)として知られるIEEE802.11規格系列、WiMax(登録商標)として知られるIEEE802.16規格系列)、ピアツーピア(P2P)ネットワークを含んでよい。用語「伝送媒体」は、機械による実行のために命令を記憶、符号化、または保持することが可能な任意の無形媒体を含むと解釈されるものとし、そのようなソフトウェアの通信を助けるデジタルまたはアナログの通信信号または他の無形媒体を含む。
【0154】
本明細書で使用される場合、構成要素とは、デバイス、物理的エンティティ、または、関数もしくはサブルーチン呼び出し、分岐点、API、または特定の処理もしくは制御機能の区分もしくはモジュール化を可能にする他の技術によって定められる境界を有する論理を指すことがある。構成要素は、機械プロセスを実施するように、そのインターフェースを介して他の構成要素と組み合わせられてよい。構成要素は、他の構成要素と共に使用するために、通常は関連する機能のうちの特定の機能を行うプログラムの一部として設計された、パッケージされた機能ハードウェアユニットであってよい。構成要素は、ソフトウェア構成要素(例えば機械可読媒体上に具現化されたコード)またはハードウェア構成要素のいずれかを構成することができる。「ハードウェア構成要素」は、特定の動作を行うことが可能な有形のユニットであり、特定物理的態様で構成または配置されてよい。様々な例示的な実装形態において、1つまたは複数のコンピュータシステム(例えば、スタンドアロンコンピュータシステム、クライアントコンピュータシステム、またはサーバコンピュータシステム)あるいはコンピュータシステムの1つまたは複数のハードウェア構成要素(例えば、プロセッサまたはプロセッサの群)が、ソフトウェア(例えばアプリケーションまたはアプリケーション部分)によって、本明細書に記載される特定の動作を行うように動作するハードウェア構成要素として構成されてよい。
【0155】
本主題の態様の番号を付した非制限的なリストが以下に提示される。
【0156】
態様1。処理回路とメモリとを含むコンピューティングシステムにより、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、コンピューティングシステムにより、データファイルを健康保険請求データ管理システムに送ることと、コンピューティングシステムにより、データファイルに応答する、健康保険請求データ管理システムから個人のグループに対応する健康データを取得することと、コンピューティングシステムにより、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、コンピューティングシステムにより、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することと、コンピューティングシステムにより、個人のグループについて第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、コンピューティングシステムにより、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することと、を含む方法。
【0157】
態様2。態様1の方法であって、コンピューティングシステムにより、統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することと、コンピューティングシステムにより、データ処理命令の第1のセットを実行させて、第1のデータに含まれる第1の健康保険請求コードを分析して、ある生物学的状態が存在する、個人のグループの第1のサブセットを決定することと、コンピューティングシステムにより、生物学的状態が存在する個人のグループのサブセットを示す第1のデータセットを生成することと、を含む、方法。
【0158】
態様3。態様2の方法であって、コンピューティングシステムにより、統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することと、コンピューティングシステムにより、データ処理命令の第2のセットを実行させて、第2のデータに含まれる第2の健康保険請求コードを分析して、個人のグループの第2のサブセットに提供された1つまたは複数の治療を決定することと、コンピューティングシステムにより、個人のグループの第2のサブセットに提供された1つまたは複数の治療を示す第2のデータセットを生成することと、を含む方法。
【0159】
態様4。態様3の方法であって、コンピューティングシステムにより、個人のグループの第2のサブセットの一部分と重複する、個人のグループの第1のサブセットの一部分を含む、個人のグループの第3のサブセットを決定することと、コンピューティングシステムにより、個人のグループの第3のサブセットとの関係で第1のデータセットおよび第2のデータセットの分析を行う要求を受け取ることと、コンピューティングシステムにより、要求に応答して、第1のデータセットおよび第2のデータセットを個人のグループの第3のサブセットに関して分析して、生物学的状態に関する個人のグループの第3のサブセットの特性の有意性の指標を決定することと、を含む方法。
【0160】
態様5。態様4の方法であって、コンピューティングシステムにより、個人のグループの第3のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、コンピューティングシステムにより、個人のグループの第3のサブセットに提供された複数の治療を決定することと、コンピューティングシステムにより、個人のグループの第3のサブセットの各自の生存率を決定することと、を含む方法。
【0161】
態様6。態様5の方法であって、有意性の指標が、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、方法。
【0162】
態様7。態様6の方法であって、コンピューティングシステムにより、有意性の指標に基づいて、個人のグループの第3のサブセットに対する治療の有効性を決定することを含む方法。
【0163】
態様8。態様7の方法であって、コンピューティングシステムにより、個人のグループの第3のサブセットの中でその治療を受けたことがない個人を決定することを含む方法。
【0164】
態様9。態様8の方法であって、第3のサブセットの中でその治療を受けたことがない個人に対して、1つまたは複数の治療有効量の治療を施すことを含む方法。
【0165】
態様10。態様1~9のいずれか1つの方法であって、統合データリポジトリは、複数のデータテーブルと複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、複数の論理リンクのうちの個々の論理リンクは、複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、方法。
【0166】
態様11。態様10の方法であって、複数のデータテーブルが、個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、個人のグループの個人情報を記憶する第4のデータテーブルと、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルとを含む、方法。
【0167】
態様12。態様1~11のいずれか1つの方法であって、第2のハッシュ関数を使用して生成された複数の識別子が、中間識別子を含み、方法が、コンピューティングシステムにより、中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む方法。
【0168】
態様13。態様1~12のいずれか1つの方法であって、コンピューティングシステムにより、追加的な個人のグループの電子診療記録を含んでいる追加的なデータリポジトリから情報を取得することと、コンピューティングシステムにより、ゲノミクスデータリポジトリによって記憶されているデータを有する個人のグループに対応する、追加的な個人のグループのサブセットを決定することと、コンピューティングシステムにより、複数の識別子との関係で追加的な個人のグループのサブセットの診療記録の情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加えることと、を含む方法。
【0169】
態様14。態様13の方法であって、コンピューティングシステムにより、追加的な情報に関して1つまたは複数の光学文字認識動作を行うことと、コンピューティングシステムにより、追加的なデータリポジトリから取得された追加的な情報を分析して、情報のコーパスを生成するために除去すべき、追加的な情報の1つまたは複数の部分を決定することと、を含む方法。
【0170】
態様15。態様14の方法であって、コンピューティングシステムにより、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する追加的な個人のグループのサブセットの一部分を決定することと、コンピューティングシステムにより、追加的な個人のグループのサブセットの一部分の識別子を記憶すると共に追加的な個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと、を含む方法。
【0171】
態様16。態様15の方法であって、コンピューティングシステムにより、1つまたは複数のデータ構造を中間データリポジトリに記憶することと、コンピューティングシステムにより、複数の識別子との関係で追加的な個人のグループのサブセットの一部分の診療記録の追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、追加的な個人のグループのサブセットの一部分の識別子に関して1つまたは複数の非特定化動作を行うことと、を含む方法。
【0172】
態様17。態様1~16のいずれか1つの方法であって、分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、方法。
【0173】
態様18。システムであって、1つまたは複数のハードウェア処理装置と、コンピュータ実行可能命令を記憶している1つまたは複数のコンピュータ可読記憶媒体と、を備え、コンピュータ実行可能命令は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、データファイルを健康保険請求データ管理システムに送ることと、データファイルに応答する、健康保険請求データ管理システムから個人のグループに対応する健康保険請求データを取得することと、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することと、個人のグループについて第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することと、を含む動作を行わせる、システム。
【0174】
態様19。態様18のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することと、データ処理命令の第1のセットを実行させて、第1のデータに含まれる第1の健康保険請求コードを分析して、ある生物学的状態が存在する、個人のグループの第1のサブセットを決定することと、生物学的状態が存在する個人のグループのサブセットを示す第1のデータセットを生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0175】
態様20。態様19のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、コンピューティングシステムにより、統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することと、コンピューティングシステムにより、データ処理命令の第2のセットを実行させて、第2のデータに含まれる第2の健康保険請求コードを分析して、個人のグループの第2のサブセットに提供された1つまたは複数の治療を決定することと、コンピューティングシステムにより、個人のグループの第2のサブセットに提供された1つまたは複数の治療を示す第2のデータセットを生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0176】
態様21。態様20のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、コンピューティングシステムにより、個人のグループの第2のサブセットの一部分と重複する、個人のグループの第1のサブセットの一部分を含む、個人のグループの第3のサブセットを決定することと、コンピューティングシステムにより、個人のグループの第3のサブセットとの関係で第1のデータセットおよび第2のデータセットの分析を行う要求を受け取ることと、コンピューティングシステムにより、要求に応答して、第1のデータセットおよび第2のデータセットを個人のグループの第3のサブセットに関して分析して、生物学的状態に関する個人のグループの第3のサブセットの特性の有意性の指標を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0177】
態様22。態様21のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、個人のグループの第3のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、個人のグループの第3のサブセットに提供された複数の治療を決定することと、個人のグループの第3のサブセットの各自の生存率を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0178】
態様23。態様22のシステムであって、有意性の指標が、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、システム。
【0179】
態様24。態様23のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、有意性の指標に基づいて、個人のグループの第3のサブセットに対する治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0180】
態様25。態様24のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、個人のグループの第3のサブセットの中でその治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0181】
態様26。態様18~25のいずれか1つのシステムであって、統合データリポジトリは、複数のデータテーブルと複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、複数の論理リンクのうちの個々の論理リンクは、複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、システム。
【0182】
態様27。態様26のシステムであって、複数のデータテーブルが、個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、個人のグループの個人情報を記憶する第4のデータテーブルと、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、システム。
【0183】
態様28。態様18~27のいずれか1つのシステムであって、第2のハッシュ関数を使用して生成された複数の識別子が、中間識別子を含み、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0184】
態様29。態様18~28のいずれか1つのシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、追加的な個人のグループの電子診療記録を含んでいる追加的なデータリポジトリから情報を取得することと、ゲノミクスデータリポジトリによって記憶されているデータを有する個人のグループに対応する、追加的な個人のグループのサブセットを決定することと、複数の識別子との関係で追加的な個人のグループのサブセットの診療記録の情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加えることと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0185】
態様30。態様29のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、追加的な情報に関して1つまたは複数の光学文字認識動作を行うことと、追加的なデータリポジトリから取得された追加的な情報を分析して、情報のコーパスを生成するために除去すべき、追加的な情報の1つまたは複数の部分を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0186】
態様31。態様30のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する追加的な個人のグループのサブセットの一部分を決定することと、追加的な個人のグループのサブセットの一部分の識別子を記憶すると共に追加的な個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0187】
態様32。請求項31のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、1つまたは複数のデータ構造を中間データリポジトリに記憶することと、複数の識別子との関係で追加的な個人のグループのサブセットの一部分の診療記録の追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、追加的な個人のグループのサブセットの一部分の識別子に関して1つまたは複数の非特定化動作を行うことと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0188】
態様33。態様18~32のいずれか1つのシステムであって、分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、システム。
【0189】
態様34。コンピュータ実行可能命令を記憶している1つまたは複数の非一時的コンピュータ可読記憶媒体であって、コンピュータ実行可能命令は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、データファイルを健康保険請求データ管理システムに送ることと、データファイルに応答する、健康保険請求データ管理システムから個人のグループに対応する健康保険請求データを取得することと、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することと、個人のグループについて第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することと、を含む動作を行わせる、1つまたは複数の非一時的コンピュータ可読記憶媒体。
【0190】
態様35。態様34の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、統合データリポジトリによって記憶されている第1のデータとの関係で実行可能なデータ処理命令の第1のセットを決定することと、データ処理命令の第1のセットを実行させて、第1のデータに含まれる第1の健康保険請求コードを分析して、ある生物学的状態が存在する、個人のグループの第1のサブセットを決定することと、生物学的状態が存在する個人のグループのサブセットを示す第1のデータセットを生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0191】
態様36。態様35の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、コンピューティングシステムにより、統合データリポジトリによって記憶されている第2のデータとの関係で実行可能なデータ処理命令の第2のセットを決定することと、コンピューティングシステムにより、データ処理命令の第2のセットを実行させて、第2のデータに含まれる第2の健康保険請求コードを分析して、個人のグループの第2のサブセットに提供された1つまたは複数の治療を決定することと、コンピューティングシステムにより、個人のグループの第2のサブセットに提供された1つまたは複数の治療を示す第2のデータセットを生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0192】
態様37。態様36の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、コンピューティングシステムにより、個人のグループの第2のサブセットの一部分と重複する、個人のグループの第1のサブセットの一部分を含む、個人のグループの第3のサブセットを決定することと、コンピューティングシステムにより、個人のグループの第3のサブセットとの関係で第1のデータセットおよび第2のデータセットの分析を行う要求を受け取ることと、コンピューティングシステムにより、要求に応答して、第1のデータセットおよび第2のデータセットを個人のグループの第3のサブセットに関して分析して、生物学的状態に関する個人のグループの第3のサブセットの特性の有意性の指標を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0193】
態様38。態様37の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、個人のグループの第3のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、個人のグループの第3のサブセットに提供された複数の治療を決定することと、個人のグループの第3のサブセットの各自の生存率を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0194】
態様39。態様38の1つまたは複数の非一時的コンピュータ可読媒体であって、有意性の指標が、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、1つまたは複数の非一時的コンピュータ可読媒体。
【0195】
態様40。請求項39に記載の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、有意性の指標に基づいて、個人のグループの第3のサブセットに対する治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0196】
態様41。態様40の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、個人のグループの第3のサブセットの中でその治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0197】
態様42。態様34の1つまたは複数の非一時的コンピュータ可読媒体であって、統合データリポジトリは、複数のデータテーブルと複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、複数の論理リンクのうちの個々の論理リンクは、複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、1つまたは複数の非一時的コンピュータ可読媒体。
【0198】
態様43。態様42の1つまたは複数の非一時的コンピュータ可読媒体であって、複数のデータテーブルが、個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、個人のグループの個人情報を記憶する第4のデータテーブルと、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、1つまたは複数の非一時的コンピュータ可読媒体。
【0199】
態様44。態様34~43のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、第2のハッシュ関数を使用して生成された複数の識別子が、中間識別子を含み、1つまたは複数の非一時的コンピュータ可読記憶媒体は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、1つまたは複数の非一時的コンピュータ可読媒体。
【0200】
態様45。態様44の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、追加的な個人のグループの電子診療記録を含んでいる追加的なデータリポジトリから情報を取得することと、ゲノミクスデータリポジトリによって記憶されているデータを有する個人のグループに対応する、追加的な個人のグループのサブセットを決定することと、複数の識別子との関係で追加的な個人のグループのサブセットの診療記録の情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加えることと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0201】
態様46。態様45の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、追加的な情報に関して1つまたは複数の光学文字認識動作を行うことと、追加的なデータリポジトリから取得された追加的な情報を分析して、情報のコーパスを生成するために除去すべき、追加的な情報の1つまたは複数の部分を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0202】
態様47。態様46の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する追加的な個人のグループのサブセットの一部分を決定することと、追加的な個人のグループのサブセットの一部分の識別子を記憶すると共に追加的な個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0203】
態様48。態様47の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、1つまたは複数のデータ構造を中間データリポジトリに記憶することと、複数の識別子との関係で追加的な個人のグループのサブセットの一部分の診療記録の追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、追加的な個人のグループのサブセットの一部分の識別子に関して1つまたは複数の非特定化動作を行うことと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0204】
態様49。態様34~48のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、1つまたは複数の非一時的コンピュータ可読媒体。
【0205】
態様50。処理回路とメモリとを含むコンピューティングシステムにより、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、コンピューティングシステムにより、データファイルを診療記録データ管理システムに送ることと、コンピューティングシステムにより、データファイルに応答する、診療記録データ管理システムから個人のグループに対応する診療記録データを取得することと、コンピューティングシステムにより、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、コンピューティングシステムにより、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することと、コンピューティングシステムにより、個人のグループについて第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、コンピューティングシステムにより、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することと、コンピューティングシステムにより、統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求を受け取ることであって、要求は1つまたは複数の検索基準を含む、要求を受け取ることと、コンピューティングシステムにより、1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、複数の個人のサブセットを決定することと、コンピューティングシステムにより、複数の個人のサブセットの情報を分析して、ある生物学的状態に関する1つまたは複数の特性のうちの特性の有意性の指標を決定することと、を含む方法。
【0206】
態様51。態様50の方法であって、コンピューティングシステムにより、複数の個人のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、
【0207】
コンピューティングシステムにより、複数の個人のサブセットに提供された複数の治療を決定することと、コンピューティングシステムにより、複数の個人のサブセットの各自の生存率を決定することと、を含む方法。
【0208】
態様52。態様51の方法であって、有意性の指標が、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、方法。
【0209】
態様53。態様52の方法であって、コンピューティングシステムにより、有意性の指標に基づいて、複数の個人のサブセットに対する治療の有効性を決定することを含む方法。
【0210】
態様54。態様53の方法であって、コンピューティングシステムにより、複数の個人のサブセットの中でその治療を受けたことがない個人を決定することを含む方法。
【0211】
態様55。態様54の方法であって、複数の個人のサブセットの中でその治療を受けたことがない個人に対して、1つまたは複数の治療有効量の治療を施すことを含む方法。
【0212】
態様56。態様50~55のいずれか1つの方法であって、統合データリポジトリは、複数のデータテーブルと複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、複数の論理リンクのうちの個々の論理リンクは、複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、方法。
【0213】
態様57。態様56の方法であって、複数のデータテーブルが、個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、個人のグループの個人情報を記憶する第4のデータテーブルと、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、方法。
【0214】
態様58。態様50~57のいずれか1つの方法であって、第2のハッシュ関数を使用して生成された複数の識別子が、中間識別子を含み、方法が、コンピューティングシステムにより、中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む方法。
【0215】
態様59。態様50~58のいずれか1つの方法であって、コンピューティングシステムにより、追加的な個人のグループの健康保険請求データを含んでいる追加的なデータリポジトリから追加的な情報を取得することと、コンピューティングシステムにより、ゲノミクスデータリポジトリによって記憶されているデータを有する個人のグループに対応する、追加的な個人のグループの少なくともサブセットを決定することと、コンピューティングシステムにより、複数の識別子との関係で追加的な個人のグループの少なくともサブセットの健康保険請求データの追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加えることと、を含む方法。
【0216】
態様60。態様50~59のいずれか1つの方法であって、コンピューティングシステムにより、診療記録データに関して1つまたは複数の光学文字認識動作を行うことと、コンピューティングシステムにより、診療記録データを分析して、情報のコーパスを生成するために除去すべき、診療記録データの1つまたは複数の部分を決定することと、を含む方法。
【0217】
態様61。態様60の方法であって、コンピューティングシステムにより、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する個人のグループのサブセットの一部分を決定することと、コンピューティングシステムにより、個人のグループのサブセットの一部分の識別子を記憶すると共に個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと、を含む方法。
【0218】
態様62。態様61の方法であって、コンピューティングシステムにより、1つまたは複数のデータ構造を中間データリポジトリに記憶することと、コンピューティングシステムにより、複数の識別子との関係で個人のグループのサブセットの一部分の診療記録データの少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、個人のグループのサブセットの一部分の識別子に関して1つまたは複数の非特定化動作を行うことと、を含む方法。
【0219】
態様63。態様50~62のいずれか1つの方法であって、分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、方法。
【0220】
態様64。システムであって、1つまたは複数のハードウェア処理装置と、コンピュータ実行可能命令を記憶している1つまたは複数のコンピュータ可読記憶媒体と、を備え、コンピュータ実行可能命令は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、データファイルを診療記録データ管理システムに送ることと、データファイルに応答する、診療記録データ管理システムから個人のグループに対応する診療記録データを取得することと、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することと、個人のグループについて第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することと、統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求を受け取ることであって、要求は1つまたは複数の検索基準を含む、要求を受け取ることと、1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、複数の個人のサブセットを決定することと、複数の個人のサブセットの情報を分析して、ある生物学的状態に関する1つまたは複数の特性のうちの特性の有意性の指標を決定することと、を含む動作を行わせる、システム。
【0221】
態様65。態様64のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、複数の個人のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、複数の個人のサブセットに提供された複数の治療を決定することと、複数の個人のサブセットの各自の生存率を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0222】
態様66。態様65のシステムであって、有意性の指標が、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、システム。
【0223】
態様67。態様66のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、有意性の指標に基づいて、複数の個人のサブセットに対する治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0224】
態様68。態様67のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、複数の個人のサブセットの中でその治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0225】
態様69。態様64~68のいずれか1つのシステムであって、統合データリポジトリは、複数のデータテーブルと複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、複数の論理リンクのうちの個々の論理リンクは、複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、システム。
【0226】
態様70。態様69のシステムであって、複数のデータテーブルが、個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、個人のグループの個人情報を記憶する第4のデータテーブルと、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、システム。
【0227】
態様71。態様64~70のいずれか1つのシステムであって、第2のハッシュ関数を使用して生成された複数の識別子が、中間識別子を含み、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0228】
態様72。態様64~71のいずれか1つのシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、追加的な個人のグループの健康保険請求データを含んでいる追加的なデータリポジトリから追加的な情報を取得することと、ゲノミクスデータリポジトリによって記憶されているデータを有する個人のグループに対応する、追加的な個人のグループの少なくともサブセットを決定することと、複数の識別子との関係で追加的な個人のグループの少なくともサブセットの健康保険請求データの追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加えることと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0229】
態様73。態様64~72のいずれか1つのシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、診療記録データに関して1つまたは複数の光学文字認識動作を行うことと、診療記録データを分析して、情報のコーパスを生成するために除去すべき、診療記録データの1つまたは複数の部分を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0230】
態様74。態様73のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する個人のグループのサブセットの一部分を決定することと、個人のグループのサブセットの一部分の識別子を記憶すると共に個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0231】
態様75。態様74のシステムであって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、1つまたは複数のデータ構造を中間データリポジトリに記憶することと、コンピューティングシステムにより、複数の識別子との関係で個人のグループのサブセットの一部分の診療記録データの少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、個人のグループのサブセットの一部分の識別子に関して1つまたは複数の非特定化動作を行うことと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、システム。
【0232】
態様76。態様64~75のいずれか1つのシステムであって、分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、システム。
【0233】
態様77。コンピュータ実行可能命令を記憶している1つまたは複数の非一時的コンピュータ可読記憶媒体であって、コンピュータ実行可能命令は、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、第1のハッシュ関数を使用して生成された第1のトークンを含むデータファイルを生成することであって、個々の第1のトークンは、分子データリポジトリによって記憶されているデータを有する個人のグループのそれぞれの個人に対応することと、データファイルを診療記録データ管理システムに送ることと、データファイルに応答する、診療記録データ管理システムから個人のグループに対応する診療記録データを取得することと、第1のハッシュ関数とは異なる第2のハッシュ関数を使用して複数の識別子を生成することであって、各識別子は、個人のグループの各個人に関係する1つまたは複数のトークンに対応することと、複数の識別子を使用して、個人のグループについて分子データリポジトリから第2のデータを取得することと、個人のグループについて第2のデータのそれぞれの部分に対応する第1のデータのそれぞれの部分を決定することと、複数の識別子のそれぞれの識別子との関係で第1のデータのそれぞれの部分と第2のデータのそれぞれの部分とを記憶する統合データリポジトリを生成することと、統合データリポジトリに記憶されているデータを有する複数の個人に関してデータを決定する要求を受け取ることであって、要求は1つまたは複数の検索基準を含む、要求を受け取ることと、1つまたは複数の検索基準に対応する1つまたは複数の特性を有する、複数の個人のサブセットを決定することと、複数の個人のサブセットの情報を分析して、ある生物学的状態に関する1つまたは複数の特性のうちの特性の有意性の指標を決定することと、を含む動作を行わせる、1つまたは複数の非一時的コンピュータ可読記憶媒体。
【0234】
態様78。態様77の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のコンピュータ可読記憶媒体が、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、複数の個人のサブセットに存在する1つまたは複数のゲノム突然変異を決定することと、複数の個人のサブセットに提供された複数の治療を決定することと、複数の個人のサブセットの各自の生存率を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を記憶する、1つまたは複数の非一時的コンピュータ可読媒体。
【0235】
態様79。態様78の1つまたは複数の非一時的コンピュータ可読媒体であって、有意性の指標が、複数の治療のうちの1つの治療および1つまたは複数のゲノム突然変異のうちの1つのゲノム突然変異に関する生存率に対応する、1つまたは複数の非一時的コンピュータ可読媒体。
【0236】
態様80。態様79の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、有意性の指標に基づいて、複数の個人のサブセットに対する治療の有効性を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0237】
態様81。態様80の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、複数の個人のサブセットの中でその治療を受けたことがない個人を決定することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0238】
態様82。態様77~81のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、統合データリポジトリは、複数のデータテーブルと複数のデータテーブル間の複数の論理リンクとを含むデータリポジトリスキーマに従って構成され、複数の論理リンクのうちの個々の論理リンクは、複数のデータテーブルのうちのさらなるデータテーブルの1つまたは複数のさらなる行に対応する、複数のデータテーブルのうち1つのデータテーブルの1つまたは複数の行を示す、1つまたは複数の非一時的コンピュータ可読媒体。
【0239】
態様83。態様82の1つまたは複数の非一時的コンピュータ可読媒体であって、複数のデータテーブルが、個人のグループのゲノミクスデータを記憶する第1のデータテーブルと、個人による1人または複数の医療提供者への1回または複数回の受診に関係するデータを記憶する第2のデータと、第2のデータテーブルによって示される1人または複数の医療提供者への1回または複数回の受診に関して個人に提供されたそれぞれのサービスに対応する情報を記憶する第3のデータテーブルと、個人のグループの個人情報を記憶する第4のデータテーブルと、個人のグループに提供されたサービスの支払いを行った健康保険会社または政府機関に関係する情報を記憶する第5のデータテーブルと、個人のグループの健康保険適用範囲情報に対応する情報を記憶する第6のデータテーブルと、個人のグループが得た医薬品治療に関係する情報を記憶する第7のデータテーブルと、を含む、1つまたは複数の非一時的コンピュータ可読媒体。
【0240】
態様84。態様77~83のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、第2のハッシュ関数を使用して生成された複数の識別子が、中間識別子を含み、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、中間識別子にソルト関数を適用して最終的な識別子のセットを生成することを含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0241】
態様85。態様77~84のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、追加的な個人のグループの健康保険請求データを含んでいる追加的なデータリポジトリから追加的な情報を取得することと、ゲノミクスデータリポジトリによって記憶されているデータを有する個人のグループに対応する、追加的な個人のグループの少なくともサブセットを決定することと、複数の識別子との関係で追加的な個人のグループの少なくともサブセットの健康保険請求データの追加的な情報の少なくとも一部分を記憶するように統合データリポジトリに変更を加えることと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0242】
態様86。態様77~85のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、診療記録データに関して1つまたは複数の光学文字認識動作を行うことと、診療記録データを分析して、情報のコーパスを生成するために除去すべき、診療記録データの1つまたは複数の部分を決定することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0243】
態様87。態様86の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、情報のコーパスを分析して、1つまたは複数のバイオマーカーに対応する個人のグループのサブセットの一部分を決定することと、個人のグループのサブセットの一部分の識別子を記憶すると共に個人のグループのサブセットの一部分が1つまたは複数のバイオマーカーに対応する旨の指示を記憶する、1つまたは複数のデータ構造を生成することと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0244】
態様88。態様87の1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のハードウェア処理装置によって実行されたときに、システムに、1つまたは複数のデータ構造を中間データリポジトリに記憶することと、コンピューティングシステムにより、複数の識別子との関係で個人のグループのサブセットの一部分の診療記録データの少なくとも一部分を記憶するように統合データリポジトリに変更を加える前に、個人のグループのサブセットの一部分の識別子に関して1つまたは複数の非特定化動作を行うことと、を含む追加的な動作を行わせる追加的なコンピュータ実行可能命令を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【0245】
態様89。態様77~88のいずれか1つの1つまたは複数の非一時的コンピュータ可読媒体であって、分子データリポジトリが、ゲノム情報、遺伝子情報、メタボロミクス情報、トランスクリプトミクス情報、フラグメントミクス情報、免疫受容体情報、メチル化情報、エピゲノミクス情報、またはプロテオミクス情報のうち少なくとも1つまたは複数を記憶する、1つまたは複数の非一時的コンピュータ可読媒体。
【実施例
【0246】
(実施例1)
【0247】
液体生検は、包括的ゲノムプロファイリング(CGP)のための組織生検に代わる低侵襲性の代替法を提供し、また、循環腫瘍DNA(ctDNA)レベルの形態で追加的な情報を含んでいる。定性的および定量的なctDNAレベルは、腫瘍体積を示すことが示されている。1回の血液採取から推定されるctDNAレベルが、種々の治療レジメンを受ける後期の転移性非小細胞性肺がん(NSCLC)患者の結果とどのように相関するのかについてはあまり分かっていない。
【0248】
NSCLCがある患者を、統合データベースを介して特定し、それらの患者が液体生検検査を転移性ファーストライン(1L)療法の開始前190日以内に受けたか(「1L前」)、1Lの開始後90日以内に受けたか(「1L早期」)、それとも1Lの開始から90~190日の間に受けたか(「1L後期」)に応じてグループ分けした。カプラン・マイヤーおよびCox比例ハザードモデル化(CPH)を使用して、現実世界の全体生存率(rwOS:real world overall survival)の差を評価した。性別と年齢とが、共変量としてCPHに含められた。ctDNAレベルは、定量的な指標として使用されたときの最も高い変異アレル割合として定義され、4%の閾値を使用して、NSCLCにおけるカテゴリ変数として使用されるときのctDNA高/低グループを定義した。
【0249】
ctDNAのレベルがより高い患者は、療法や1L治療の開始時に対する血液採取のタイミングと関係なく、より悪いrwOSを有したが、1Lのオシメルチニブ後90日以内のグループと化学療法グループの比較は、有意性のカットオフ値(<0.05)を越えなかった。これは、これらのグループの患者数が少なかったためと考えられる。腫瘍に由来する変化が全く検出されなかった患者が、ctDNA高(範囲:0.16~0.46)に対して、最も長いrwOSおよび最も低いハザード比を有した。
【0250】
図10は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療を受ける前に非小細胞性肺がんを治療するために1L療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0251】
図11は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療中に非小細胞性肺がんを治療するために1L療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0252】
図12は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療の前に非小細胞性肺がんを治療するためにオシメルチニブを受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0253】
図13は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療中に非小細胞性肺がんを治療するためにオシメルチニブを受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0254】
図14は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療中に非小細胞性肺がんを治療するために化学療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0255】
図15は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療後に非小細胞性肺がんを治療するために化学療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0256】
図16は、高いctDNA数、低いctDNA数、およびctDNA未検出についての、治療を受ける前に非小細胞性肺がんを治療するために化学療法を受けた患者の現実世界の全生存率値を示すカプラン・マイヤー曲線を示す図である。
【0257】
CPGに関して組織生検に代わる低侵襲性の代替法を提供するのに加えて、液体生検検査で報告された最も高い変異アレル割合、特に検出されたctDNAが無いことは、患者についての予後的情報を提供し、より積極的な治療レジメンから利益を得るであろう高リスク患者を特定するために有用であり得る。
【表1】
【表2-1】
【表2-2】
【表3】
【0258】
(実施例2)
【0259】
およそ103,000人の患者に対して行われた、進行充実性腫瘍のある患者に必要とされる、CLIA認定、CAP認可、NYSDOH承認の循環腫瘍DNA(ctDNA)検査からの結果を、不可逆的な一方向ハッシュ処理を使用して匿名化し、トークン化した。セキュリティが保護され、HIPAAに準拠する、認可された方法を使用して、これらの結果を、診療請求および調剤請求を収容している非特定化された患者エピソード遭遇事例データベースにリンクして、統合データベース中の診断、治療、および現実世界のtime-to-eventデータ点を含む、患者の履歴の長期的なビューを得た。次いでこれらの非特定化され、統合されたデータを使用して、疾患、バイオマーカー、および療法に固有の腫瘍進行のモデル、ならびに薬物耐性を調査することができる。
【0260】
図17は、ファーストラインのオシメルチニブによる治療の開始後に液体生検検査を受けた、進行非小細胞性肺がん(NSCLC)と診断された患者のコホート(n=637)における選択された変化の頻度を示す図である。およそ12%が、二次EGFR突然変異を示した。およそ12%が、遺伝子増幅、すなわちHER2およびMET、を示した。およそ10%が、MAPK/PIK3CA遺伝子の突然変異を示した。そして、およそ17%が、細胞周期遺伝子の変化を示した。これらの結果は、Ramalingamらに公表されたものと方向的に一致していた。これら患者の平均治療継続期間はおよそ8か月であり、これは公表されているオシメルチニブの調査と一致している。
【0261】
図18は、アロマターゼ阻害薬(AI)による治療の記録後に液体生検検査を受けた、乳がんと診断された患者のコホート(n=4448)のリガンド結合ドメインにおける選択された突然変異の頻度を示す図である。転移性乳がんの場合、我々は、アロマターゼ阻害薬を処方され、その後液体生検検査を受けた、転移性乳がんの診断を有する4,448人の患者からのデータを調査した。ESR1のリガンド結合ドメインで発生する突然変異は、アロマターゼ阻害薬に対する進行に関連する一般に観察される抵抗機序であり、データは、これらの突然変異が高異質性であることを示唆している。したがって、我々は、液体生検検査結果にそのような異質性を認め、Toyらに基づいて予想し得るように、D538GおよびY537Sの突然変異が最も頻繁に観察された。
【0262】
治療の文脈におけるゲノム変化を調査する際のデータベースの有用性をさらに明らかにするために、2つの患者事例を調査した。第1の事例では、図19に示すように、患者が、液体生検検査によって検出されたT790M突然変異を示し、オシメルチニブで治療され、その後、二次C797S突然変異ならびにMET増幅を発現することが分かる。第2の事例では、図20に示すように、アロマターゼ阻害薬であるレトロゾールおよびエキセメスタンによる治療の記録を有する患者が、その後、ESR1遺伝子のD538G突然変異を示すようになることが分かる。図19は、NSCLCと診断された女性に提供された治療の後の液体生検検査によって検出されたオシメルチニブ耐性に関連する変化を示す図である。図20は、転移性乳がんと診断され、アロマターゼ阻害薬で治療を受けた女性に関する、2回目の治療過程後に検出されたESR1耐性の突然変異を示す図である。
【0263】
統合データベースは、進行がんを有する103,000人超の患者から統合され、非特定化された臨床情報およびゲノム情報を収容しており、この種のデータベースでは最大のものの1つとなっている。それは、液体生検検査の継続的な使用に伴い、そして統合された臨床データの独自で包括的な取り込み(追跡および患者流動性の欠損を回避する)に起因して、増大・成熟し続ける。
【0264】
統合データベースは、液体生検検査データを使用して、ゲノムの腫瘍特性に基づいて臨床結果を特定・研究するために使用することができる。療法の固有の作用物質およびクラス(TKI、CDK4/6is等)を確実に特定し、該当するコホートに入れ、研究することができる。この独自のリソースは、現実世界の状況における進行がんの治療に関連する薬物反応および耐性の生物学的機序を調べることができる。研究者は、諸用途の中でも特に、満たされていない医療ニーズの特定および特徴付けと、試行設計の最適化を通じて新療法の開発を高速化し、市販後の状況における結果調査を行い、有望な新規の組合せや治療戦略(シーケンシング)を特定することができる。さらなる方向としては、データのさらなる検証、およびより深い分析を支援するための補助ソースデータの追加が含まれる。
【0265】
本教示の方法において使用される個々のステップは、教示が機能する限り、任意の順序でおよび/または同時に行われてよいことが理解されるべきである。さらに、本教示の装置および方法は、教示が機能する限り、記載された実装形態の任意の数またはすべてを含んでよいことが理解されるべきである。
【0266】
システム、装置、および方法の様々な実装形態が本明細書に記載された。これらの実装形態は、単に例として与えられるものであり、請求される発明の範囲を制限するものではない。さらに、記載された実装形態の様々な特徴は、多数のさらなる実装形態を作り出すように様々な方式で組み合わせられてよいことが認識されるべきである。さらに、開示される実装形態に使用するための様々な材料、寸法、形状、構成および位置等が記載されたが、請求される発明の範囲を越えることなく、開示されたもの以外が利用されてよい。
【0267】
当業者は、実装形態は、上記で説明された任意の個々の実装形態で示されたよりも少ない特徴を備えてよいことを認識するであろう。本明細書に記載される実装形態は、様々な特徴が組み合わされ得る方式の網羅的な提示であることは意図されない。したがって、実装形態は、相互に排他的な特徴の組合せではなく、むしろ、当業者によって理解されるように、実装形態は、異なる個々の実装形態から選択される異なる個々の特徴の組合せを備えてよい。さらに、1つの実装形態に関して説明される要素は、特に断らない限り、そのような実装形態で説明されなくとも他の実装形態において実装されてもよい。従属請求項は、特許請求の範囲において、1つまたは複数の他の請求項との特定の組合せを参照することがあるが、他の実装形態が、その従属請求項と、各他の従属請求項の主題との組合せ、あるいは1つまたは複数の特徴と他の従属もしくは独立請求項との組合せを含んでもよい。そのような組合せは、特定の組合せが意図されないと述べられない限り、本明細書において提案される。さらに、ある請求項が任意の他の独立請求項に直接従属していなくとも、この請求項の特徴をその独立請求項に含めることも意図される。
【0268】
さらに、明細書中における「1つの実装形態」、「一実装形態」、または「一部の実装形態」の参照は、その実装形態に関連して説明される特定の特徴、構造、または特性が本教示の少なくとも1つの実装形態に含まれることを意味する。明細書の様々な箇所における「1つの実装形態では」という表現の出現は、必ずしもすべてが同じ実装形態を指すとは限らない。
【0269】
上記の参照による文献の任意の組み込みは、本明細書における明示的な開示内容と矛盾する主題が組み込まれることがないように制限されている。上記の参照による文献の任意の組み込みはさらに、それら文献に含まれる請求項が参照によって本明細書に組み込まれることがないように制限されている。上記の参照による文献の任意の組み込みはさらに、それら文献に提供される任意の定義が、明示的に含められない限り、参照によって本明細書に組み込まれることがないように制限されている。
【0270】
実装形態は特定の例示的実装形態を参照して説明されたが、本開示のより広い思想および範囲から逸脱することなく、様々な改変および変更がそれらの実装形態になされてよいことが明らかであろう。したがって、明細書および図面は、制約的な意味ではなく例示的な意味でみなされるべきである。本明細書の一部をなす添付図面は、制限ではなく例示として、主題が実施され得る特定の実装形態を示す。図示される実装形態は、当業者が本明細書に開示される教示を実施できるのに十分に詳細に説明される。他の実装形態が利用され、それらから導出されてよく、本開示の範囲から逸脱することなく構造的および論理的置換および変更がなされてよい。したがって、この詳細な説明は、制限的な意味で解釈されるべきではなく、様々な実装形態の範囲は、そのような請求項が該当する全範囲の同等物と共に、添付の特許請求の範囲のみによって規定される。
【0271】
特定の実装形態が図示され、本明細書に記載されたが、同じ目的を実現するために企図される任意の構成が、示される特定の実装形態に代わって使用されてよいことが認識されるべきである。本開示は、様々な実装形態のあらゆる改変形態および変形形態を包含することが意図される。上記実装形態および本明細書に具体的には記載されない他の実装形態の組合せが、上記の説明を検討すると当業者に明らかになろう。
【0272】
本文書では、用語「a」または「an」は、特許文献で一般的であるように、「少なくとも1つの」または「1つまたは複数の」の任意の他の事例または使用に関係なく、1つまたは2つ以上を含むように使用される。本文書では、用語「または」は、非排他的な「または」を指すように使用され、「AまたはB」は、断らない限り、「Aは含むがBは含まない」、「Bは含むがAは含まない」、ならびに「AおよびB」を含む。本文書では、用語「~を含む(including)」および「in which」は、用語「~を備える(comprising)」および「wherein」それぞれの平易な英語の相当語として使用される。また、以下の特許請求の範囲では、用語「~を含む」および「~を備える」は、オープンエンドであり、すなわち、請求項においてそのような語の後に列挙される要素に加えて要素を含むシステム、ユーザ機器(UE)、物品、組成、配合、またはプロセスも、その請求項の範囲に含まれるものとみなされる。さらに、以下の特許請求の範囲において、用語「第1の」、「第2の」、および「第3の」等は、単なる標識として使用され、その対象物に対する数値的な要件を課すものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
【国際調査報告】