IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ジェニアリス インコーポレイテッドの特許一覧

特表2024-529403バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム
<>
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図1
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図2
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図3
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図4
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図5
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図6
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図7
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図8
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図9
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図10
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図11
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図12
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図13
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図14
  • 特表-バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-06
(54)【発明の名称】バイアス効果及び/またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム
(51)【国際特許分類】
   G06F 18/214 20230101AFI20240730BHJP
   G06N 20/00 20190101ALI20240730BHJP
【FI】
G06F18/214
G06N20/00 130
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024503787
(86)(22)【出願日】2022-07-21
(85)【翻訳文提出日】2024-01-29
(86)【国際出願番号】 US2022037860
(87)【国際公開番号】W WO2023004033
(87)【国際公開日】2023-01-26
(31)【優先権主張番号】63/224,210
(32)【優先日】2021-07-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524025901
【氏名又は名称】ジェニアリス インコーポレイテッド
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【弁理士】
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【弁理士】
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【弁理士】
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】シュタイドハール,ミハ
(72)【発明者】
【氏名】ジュガネツ,マチャズ
(72)【発明者】
【氏名】ツビトコビッチ,ロバート
(72)【発明者】
【氏名】ルストリック,ローマン
(72)【発明者】
【氏名】オーセック,ルカ
(72)【発明者】
【氏名】ローゼンガルテン,ラファエル
(72)【発明者】
【氏名】ポインティング,ダニエル ウィリアム
(57)【要約】
バイアス及び/またはバッチ効果に対処することにより、異種のオミクスデータセットをハーモナイズするため、プリプロセッサのシステムが提供される。データセットのハーモナイゼーション、ハーモナイゼーションに使用するプリプロセッサのライブラリの生成、及びハーモナイゼーションを活用した分類子のトレーニングのための方法が提供される。
【選択図】なし

【特許請求の範囲】
【請求項1】
複数のデータセットをハーモナイズする方法であって、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
入力データセットを読み込むことと、
前記入力データセットのバイアスモダリティを判定することと、
前記ライブラリからプリプロセッサを選択することであって、前記プリプロセッサが、前記入力データセットの前記バイアスモダリティに対応する、前記選択することと、
前記プリプロセッサを前記入力データセットに適用して、前記共通データ空間にハーモナイズされたデータセットを生成することと、
を含む、前記方法。
【請求項2】
プリプロセッサのライブラリを生成する方法であって、
入力データセットを読み込むことと、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
前記入力データセットを、前記複数のプリプロセッサに関連付けられた各バイアスモダリティと比較することによって、前記ライブラリが、前記入力データセットに対応する関連付けられたバイアスモダリティを有するプリプロセッサを含まないことを判定することと、
前記入力データセットを前記共通データ空間にマッピングするように構成されたプリプロセッサを定義することと、
前記プリプロセッサを前記ライブラリに追加することと、
を含む、前記方法。
【請求項3】
分類子をトレーニングする方法であって、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連付けられたバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
複数の入力データセットを読み込むことと、
前記複数の入力データセットのそれぞれのバイアスモダリティを判定することと、
前記ライブラリからの前記プリプロセッサの1つを、前記複数の入力データセットのそれぞれに適用することであって、前記プリプロセッサの1つひとつが、そのそれぞれの入力データセットの前記バイアスモダリティに対応して、前記共通データ空間に、複数のハーモナイズされたデータセットを生成する、前記適用することと、
前記複数のハーモナイズされたデータセットを、前記共通データ空間におけるマージされたデータセットにマージすることと、
前記マージされたデータセットを用いて分類子をトレーニングすることと、
を含む、前記方法。
【請求項4】
前記入力データセットは、オミクスデータを含む、請求項1または請求項2に記載の方法。
【請求項5】
前記複数の入力データセットのそれぞれは、オミクスデータを含む、請求項3に記載の方法。
【請求項6】
各バイアスモダリティは、アッセイプラットフォームに対応する、請求項1~3のいずれか1項に記載の方法。
【請求項7】
各バイアスモダリティは、がん型に対応する、請求項1~3のいずれか1項に記載の方法。
【請求項8】
前記プリプロセッサを選択することは、前記入力データセットを用いてPCA、UMAP、t-SNE、またはK-Sテスト分析を実行することを含む、請求項1に記載の方法。
【請求項9】
前記入力データセットを各バイアスモダリティと比較することは、PCA、UMAP、t-SNE、またはK-Sテスト分析を実行することを含む、請求項2に記載の方法。
【請求項10】
各プリプロセッサは、クオンタイル正規化、望ましくない変異を除去すること(RAV)、ComBat、ComBat-Seq、BUS、BUS-Seq、またはSVAを適用するように構成されている、請求項1~3のいずれか1項に記載の方法。
【請求項11】
複数のデータセットをハーモナイズするためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、プロセッサに方法を実行させるように前記プロセッサによって実行可能であり、前記方法は、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
入力データセットを読み込むことと、
前記入力データセットのバイアスモダリティを判定することと、
前記ライブラリからプリプロセッサを選択することであって、前記プリプロセッサが、前記入力データセットの前記バイアスモダリティに対応する、前記選択することと、
前記プリプロセッサを前記入力データセットに適用して、前記共通データ空間にハーモナイズされたデータセットを生成することと、
を含む、前記コンピュータプログラム製品。
【請求項12】
プリプロセッサのライブラリを生成するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、プロセッサに方法を実行させるように前記プロセッサによって実行可能であり、前記方法は、
入力データセットを読み込むことと、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
前記入力データセットを、前記複数のプリプロセッサに関連付けられた各バイアスモダリティと比較することによって、前記ライブラリが、前記入力データセットに対応する関連付けられたバイアスモダリティを有するプリプロセッサを含まないことを判定することと、
前記入力データセットを前記共通データ空間にマッピングするように構成されたプリプロセッサを定義することと、
前記プリプロセッサを前記ライブラリに追加することと、
を含む、前記コンピュータプログラム製品。
【請求項13】
分類子をトレーニングするためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、プロセッサに方法を実行させるように前記プロセッサによって実行可能であり、前記方法は、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連付けられたバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
複数の入力データセットを読み込むことと、
前記複数の入力データセットのそれぞれのバイアスモダリティを判定することと、
前記ライブラリからの前記プリプロセッサの1つを、前記複数の入力データセットのそれぞれに適用することであって、前記プリプロセッサの1つひとつが、そのそれぞれの入力データセットの前記バイアスモダリティに対応して、前記共通データ空間に、複数のハーモナイズされたデータセットを生成する、前記適用することと、
前記複数のハーモナイズされたデータセットを、前記共通データ空間におけるマージされたデータセットにマージすることと、
前記マージされたデータセットを用いて分類子をトレーニングすることと、
を含む、前記コンピュータプログラム製品。
【請求項14】
前記入力データセットは、オミクスデータを含む、請求項11または請求項12に記載のコンピュータプログラム製品。
【請求項15】
前記複数の入力データセットのそれぞれは、オミクスデータを含む、請求項13に記載のコンピュータプログラム製品。
【請求項16】
各バイアスモダリティは、アッセイプラットフォームに対応する、請求項11~13のいずれか1項に記載のコンピュータプログラム製品。
【請求項17】
各バイアスモダリティは、がん型に対応する、請求項11~13のいずれか1項に記載のコンピュータプログラム製品。
【請求項18】
前記プリプロセッサを選択することは、前記入力データセットを用いてPCA、UMAP、t-SNE、またはK-Sテスト分析を実行することを含む、請求項11に記載のコンピュータプログラム製品。
【請求項19】
前記入力データセットを各バイアスモダリティと比較することは、PCA、UMAP、t-SNE、またはK-Sテスト分析を実行することを含む、請求項12に記載のコンピュータプログラム製品。
【請求項20】
各プリプロセッサは、クオンタイル正規化、望ましくない変異を除去すること(RAV)、ComBat、ComBat-Seq、BUS、BUS-Seq、またはSVAを適用するように構成されている、請求項11~13のいずれか1項に記載のコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年7月21日に出願された米国仮出願第63/224,210号の利益を主張するものであり、この米国仮出願の全体を参照により本明細書に援用する。
【背景技術】
【0002】
本開示の実施形態は、生物学的データセットの取り扱いに関し、より詳細には、バイアス効果及び/またはバッチ効果に対処することにより、異種オミクスデータセットをハーモナイズするプリプロセッサのシステムに関する。
【発明の概要】
【0003】
本開示の実施形態によれば、複数のデータセットをハーモナイズする方法及びコンピュータプログラム製品が提供される。複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。入力データセットが読み込まれる。入力データセットのバイアスモダリティが判定される。プリプロセッサがライブラリから選択される。プリプロセッサは、入力データセットのバイアスモダリティに対応する。プリプロセッサが入力データセットに適用されて、共通データ空間にハーモナイズされたデータセットが生成される。
【0004】
本開示の実施形態によれば、プリプロセッサのライブラリを生成する方法及びコンピュータプログラム製品が提供される。入力データセットが読み込まれる。複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。入力データセットが、複数のプリプロセッサに関連付けられた各バイアスモダリティと比較され、それによって、ライブラリが、入力データセットに対応する関連しているバイアスモダリティを有するプリプロセッサを含まないことが判定される。入力データセットを共通データ空間にマッピングするように構成されたプリプロセッサが定義される。プリプロセッサが、ライブラリに追加される。
【0005】
本開示の実施形態によれば、分類子をトレーニングする方法及びコンピュータプログラム製品が提供される。複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。複数の入力データセットが読み込まれる。複数の入力データセットのそれぞれのバイアスモダリティが判定される。ライブラリからのプリプロセッサの1つが、複数の入力データセットのそれぞれに適用されて、共通データ空間に、複数のハーモナイズされたデータセットが生成される。プリプロセッサの1つひとつが、そのそれぞれの入力データセットのバイアスモダリティに対応する。複数のハーモナイズされたデータセットが、共通データ空間におけるマージされたデータセットにマージされる。分類子が、マージされたデータセットを用いてトレーニングされる。
【0006】
様々な実施形態では、入力データセットはオミクスデータを含む。様々な実施形態では、複数の入力データセットのそれぞれは、オミクスデータを含む。
【0007】
様々な実施形態では、各バイアスモダリティは、アッセイプラットフォームに対応する。
【0008】
様々な実施形態では、各バイアスモダリティは、がん型に対応する。
【0009】
様々な実施形態では、プリプロセッサを選択することは、入力データセットを使用してPCA、UMAP、t-SNE、またはK-Sテスト分析を実行することを含む。様々な実施形態では、入力データセットを各バイアスモダリティと比較することは、PCA、UMAP、t-SNE、またはK-Sテスト分析を実行することを含む。
【0010】
様々な実施形態では、各プリプロセッサは、クオンタイル正規化、望ましくない変異を除去すること(RAV)、ComBat、ComBat-Seq、BUS、BUS-Seq、またはSVAを適用するように構成されている。
【図面の簡単な説明】
【0011】
図1】本開示の実施形態による、異種オミクスデータセットをハーモナイズするためのシステムの概略図である。
図2】本開示の実施形態によるモダリティ定義を示すフローチャートである。
図3】本開示の実施形態による複数のデータセットの分離を示す散布図である。
図4】本開示の実施形態による、各バイアスモダリティにプリプロセッサを適合させる方法を示すフローチャートである。
図5】本開示の実施形態による、複数のデータセットの補正を示す散布図である。
図6】本開示の実施形態による、追加のプリプロセッサを適合させる方法を示すフローチャートである。
図7】本開示の実施形態による、分類子をトレーニングする方法を示すフローチャートである。
図8】本開示の実施形態による、分類子をテストする方法を示すフローチャートである。
図9】本開示の実施形態による、分類子を評価する方法を示すフローチャートである。
図10】本開示の実施形態による、プロダクション環境で分類子を使用する方法を示すフローチャートである。
図11】本開示の実施形態による、複数のデータセットをハーモナイズする方法を示すフローチャートである。
図12】本開示の実施形態による、プリプロセッサのライブラリを生成する方法を示すフローチャートである。
図13】本開示の実施形態による、分類子をトレーニングする方法を示すフローチャートである。
図14】本開示の実施形態による、データ管理システムに統合されたプリプロセッサのシステムの概略図である。
図15】本開示の実施形態によるコンピューティングノードを図示する。
【発明を実施するための形態】
【0012】
対象の様々な状態を認識するために、機械学習モデルを様々な生物学データでトレーニングすることがある。ただし、1つの状態に関連するデータセットであっても、統計的分布はデータセットによって著しく異なり得る。トレーニングされた任意のモデルは、それに基づいて予測を行う新規のデータが、トレーニングセットと同じデータ分布に由来することを暗黙的に仮定している。この仮定は、特にトレーニングデータセットが小さい場合、及び/またはヒト組織などのバイアスがかかりやすいソースに起因する場合には、誤ったものになる。
【0013】
バイオマーカー、特に複雑な遺伝子シグネチャに臨床的有用性を得られるものがそのように少ない理由の1つは、新規患者のそれぞれに確信をもってモデル予測を割り当てできることを保証する優れた解決策がないことである。これは、ほとんど全ての新規データポイントが、トレーニングセットの分布から外れるある程度のバイアスを伴うためである。
【0014】
1つのアプローチは、新規データをトレーニング分布と整合させるために、Zスコアなどの単純な統計モデルを使用することである。しかし、これは、新規患者を含む分布全体を再計算する必要があり、したがってモデルをロックする必要がある臨床用途には適さない。代わりのアプローチは、モデルの再トレーニングを必要とし、したがって、毎回更新されたモデルの多くの時間と労力を要する検証を必然的に伴う。
【0015】
バイアスのソース及び不整合データ分布は、疾患横断的に機能するモデルの開発にとって重要な制約となる。モデルによっては、1つの疾患に特異的であるシグナルを学習するものもあるので、他の疾患サンプルが本質的にその分布に入らないことになる。しかし、複数の疾患に適用可能な特徴セットと、複数の疾患を含む分布に正規化されたトレーニングセットとが与えられれば、残る課題は、各新規患者をその分布に適合するように正規化することである。したがって、各新規患者サンプルまたは各新規患者サンプル群を、関連するバイアスのソースに基づいてトレーニング分布にマッピングし戻す関数が必要とされる。
【0016】
同様に、計算モデルは、アッセイのタイプまたはサンプルの取り扱いによって取り込まれる技術的バイアスのため、新規の患者または生体サンプルでは失敗することが多い。病型と同様に、技術的なバイアスのソースが明らかにされなければならない。データセット分布における同様の不一致が、細胞株またはマウスなどの前臨床または翻訳実験系からヒト患者データセットへの橋渡しを試みる際に生じる。したがって、前臨床データセットでトレーニングされたモデルは、臨床データがモデルのトレーニングセット分布に適切にマッピングされない限り、臨床データセットでの予測を行うのに役立つことはできない。
【0017】
以上のことから、当技術分野では、多くの場合患者(または患者コホート)を表す各新規データポイント(またはデータセット)を、関連するトレーニングデータ分布にマッピングする方法が必要であることが理解されよう。
【0018】
特に、既にトレーニングされ、アルゴリズムがロックされた単一の予測モデルが、異なる疾病分野、患者群、テクニカルアッセイタイプなどにわたって機能することを可能にする方法が必要とされている。そのようなモデルは、ニューラルネットワーク、ランダムフォレスト、ロジスティック回帰などのような機械学習アルゴリズムで構成され得る。各患者サンプルは、疾患(または正常)組織、その患者の人口統計学的/地理的/民族的背景、及び入力を生成するために組織サンプルに適用された様々な技術的プロセスのうちのいくつかの組み合わせから得られる。これらの要因は全て、サンプルデータにバイアスをもたらす。モデルは、各患者サンプルの(または他の)バイアスのソースに関係なく、各患者サンプルに関する何らかの標的変数(腫瘍反応または生存期間のような臨床エンドポイントなど)を確実に予測する必要がある。
【0019】
以下に述べるように、本開示は、トレーニングされたモデルをロックしたまま維持できるようにすることで検証を効率化するプリプロセッサライブラリを提供し、新しいプリプロセッサ関数にのみ追加の検証が必要とされることによって、代替アプローチのこれらの欠点及びその他の欠点に対処するものである。本開示は、オミクスデータセット(例えば、ゲノム、プロテオミクス、メタボロミクス、メタゲノミクス及びトランスクリプトミクス)に関連して説明されているが、データ分布がモデル一貫性のため補正を必要とする追加のデータセットに適用可能であることが理解されるであろう。
【0020】
本明細書で使用される、プリプロセッサは、1つのデータセットの分布をトレーニングデータセットの分布にマッピングする関数を指す。本明細書に記載されるプリプロセッサライブラリは、それぞれが、特定のタイプのバイアスを有するサンプルを、トレーニングデータセット分布にマッピングすることを学習したプリプロセッサ関数の集合である。バイアスのタイプは、例えば、組織タイプ、疾患出現部位、患者人口統計、テクニカルアッセイ(例えば、RNA-seq対マイクロアレイ)、及び当業者に理解されるその他のソースから生じる。
【0021】
一例示的実施形態では、消化管組織または生殖組織に由来するデータセットについてのプリプロセッサで構成されるライブラリが、バイオマーカーアルゴリズム(ニューラルネットワーク)用に提供される。このライブラリは、皮膚、肺、骨髄、及び他の組織部位のためのプリプロセッサを含むように成長するようになる。ライブラリは、異なる種類のテクニカルアッセイのための他のプリプロセッサ関数、すなわちマイクロアレイ及び様々な種類のRNAシークエンシング用サンプル調製物を含む。
【0022】
各プリプロセッサ関数は、特定のバイアスモダリティの分布特性、またはバイアスのソースに関連付けられている。この関数は、新規サンプルを正規化することを可能にする。データ分布は、例えば全RNAシークエンシング、mRNAシークエンシング、マイクロアレイなどからの遺伝子発現値を表すことができる。また一方、分布は、タンパク質発現データ、または生物学的検体のクラスの他の任意の定量的測定値を表すこともあり得る。
【0023】
様々な実施形態では、プリプロセッサのライブラリは、新規サンプルを自動的に調査して、そのサンプルのデータをトレーニング分布にマッピングするために、どのプリプロセッサが最もよく機能することになるかを判定できるという点において、動的である。ライブラリを、バイアスのソース(複数可)を検出するように自動化することができ、またはバイアスの様々なソースをユーザ入力が指定することによって制御することができる。より多くのサンプルが分析され、マッピング関数が最適化されるにつれて、プリプロセッサの数、及びそれぞれが表すバイアスのソースは、時間と共に変化しうる。
【0024】
これらの方法の1つの利点は、これらの方法により、トレーニングされた予測モデルを、臨床的応用、または分析の一貫性のためにロックされたままに維持することが可能になり、一方、分析ワークフローに実質的に任意の新規患者サンプルを含めることも可能になるということである。各プリプロセッサが同じ目標(事前に定義された分布への正規化)を達成するので、正規化の成功の基準と失敗した正規化の不測の事態とが事前に定義されている限り、臨床的応用のワークフローにこのステップを含めることができる。これは、任意の新規サンプルが新規分布でモデルを再トレーニングする必要があるZスコア統計に依存するような代替的アプローチよりも有利である。
【0025】
本明細書で提供される方法の別の利点は、複数のデータセットを、モデルのトレーニングまたはテストで共に使用することができるように、整合させることが可能なことである。したがって、トレーニングセットのサイズを増加させることができ、これによって、生体モデルを構築する際の一般的な制約が回避される。
【0026】
本明細書で説明されているプリプロセッサのシステムは、代替的アプローチを上回る複数の利点を有しており、これにより、
1.種々の病型、例えば種々のがん型にわたるMLモデルの適用、
2.種々のアッセイプラットフォーム、例えば、RNA-seq対マイクロアレイから生じるデータセットにわたるMLモデルの適用、
3.他のモダリティ、例えば、臨床検査室、テスト場所、シークエンシング施設のバイアスを有するデータセットにわたるMLモデルの適用、
4.研究開発段階にわたるMLモデル、例えば、臨床データに適用される前臨床データでトレーニングされたモデルの適用、及び
5.規制された(臨床)環境における全疾患(機械学習)モデルの実装
が可能になる。
【0027】
これは、トレーニングデータまたは評価データを正規化するステップと、モデルのトレーニングまたは評価のステップとを切り離すことによって達成される。したがって、各関連データ空間に対して定義された任意の数のバイアスモダリティに対応する正規化関数(プリプロセッサ)の動的リソースが提供される。これにより、様々なバイアスのソースに由来するデータセットにわたるモデルの適用が可能になる。
【0028】
図1を参照すると、本開示によるプロセスの全段階が示されている。101では、プリプロセッサが定義される。102では、モデル(例えば、予測モデル)が定義される。プリプロセッサ定義101の間、111でバイアスモダリティが定義され、112でプリプロセッサが適合され、113で追加のプリプロセッサが適合される。これらのそれぞれについて、以下にさらに詳細に説明する。モデル定義102の間、分類子が、121でトレーニングされ、122でテストされ、123で評価される。これらのそれぞれについて、以下にさらに詳細に説明する。
【0029】
図2を参照すると、バイアスモダリティ定義が示されている。各新規データセット201が、所与のバイアスモダリティ204に関連付けられた既存のデータセット203と比較される(202)。具体的には、トレーニングデータ及び評価データであることを意図したデータを含む利用可能なデータセットのデータ分布が比較される。バイアスモダリティは、データセット間の既知の差異、例えば、原発組織またはテクニカルアッセイプラットフォームなどのメタデータから、これらのどれがデータ分布の分離に寄与するかに基づいて推測され得る。データセット分布の分離は、PCA、UMAP、t-SNE、K-S検定、または当技術分野で知られている他の方法によって分析することができる。いくつかの実施形態では、メタデータまたは統計的比較器が使用される一方で、他の実施形態では、これらの要因の組み合わせが考慮される。例えば、同じ組織タイプ及び類似の統計的分布が、所与のバイアスモダリティとの関連性を作成するよう要求される場合がある。
【0030】
様々な実施形態では、各新規データセットは、バイアスモダリティに関連する複数のデータセットと比較される。いくつかの実施形態では、比較ステップをより効率的に実行するために、各バイアスモダリティに関するメタデータが記憶される。そのような実施形態では、メタデータを、前処理の方法に従って変化させることができる。例えば、プリプロセッサが標準的なスケーラである場合には、所与のモダリティについての平均偏差及び標準偏差が記憶され得る。より複雑なプリプロセッサは、より多くのメタデータを必要とする場合がある。一般に、メタデータは、プリプロセッサの完全な状態を捉え、プリプロセッサを完全に定義する。
【0031】
様々な実施形態では、所与のバイアスモダリティに関する初期データセットは定義的である。すなわち、後続データが初期データセットのデータ分布にマッピングされる。バイアスモダリティ定義は、モデルトレーニングと分離していることが理解されよう。メタトレーニングセットの場合には、モダリティが識別された後で、モデル定義の前に、メタトレーニングセットを定義するために、データセットが同じ分布にマッピングされる。
【0032】
新規データセットの分布が既知のバイアスモダリティに類似している場合、そのデータセットは、そのバイアスモダリティに関連付けられる。新規データセットの分布が既知のバイアスモダリティと類似していない場合、この分布は別のバイアスモダリティと比較され、または何もない場合には、新規のバイアスモダリティが定義され、この新規データセットに関連付けられる。
【0033】
図3を参照すると、複数のデータセットの分離を示す散布図が提供されている。生殖マイクロアレイがクラスター201に対応し、生殖全RNAがクラスター202に対応し、消化管全RNAがクラスター203に対応し、消化管エクソームRNAがクラスター204に対応する。図示されるように、テクニカルアッセイプラットフォーム(マイクロアレイ対RNA-seq)は、x軸(PC1)上の差異を表し、一方、原発組織(消化管対生殖器)は、y軸(PC2)上の主デルタを表す。Y軸上の同様の組織タイプ内では、使用される特定のタイプのデータ生成方法(全RNA-seq対エクソームRNA-seq)に基づいて、さらなる分離が観察される。
【0034】
独自の分布を提示する各データセットは、新規のバイアスモダリティに寄与することができる。既にバイアスモダリティが識別されたデータセットを、そのバイアスモダリティに追加することができる。
【0035】
図4を参照すると、各バイアスモダリティにプリプロセッサを適合させるプロセスが示されている。この例では、3つの例示的なバイアスモダリティ、すなわち消化管全RNA401、生殖エクソームRNA402、及び生殖マイクロアレイ403が示される。
【0036】
複数のプリプロセッサのそれぞれが、各バイアスモダリティ401・・・403に適合される(404)。プリプロセッサは、そのバイアスモダリティ内の全てのデータセットに適用される。プリプロセッサは、クオンタイル正規化または標準化(例えば、Zスコア)などの統計関数、あるいはRUV(望ましくない変異を除去する)、ComBat、ComBat-Seq、BUS、BUS-Seq、SVAのようなより精巧な方法であり得る。様々な実施形態では、同一のタイプの関数が、所与のプリプロセッサライブラリのための各バイアスモダリティ及び全データセットに適用される。この関数は、所与のバイアスモダリティに個別に適合させるように調整されている。次いで、結果として得られたプリプロセッサトランスフォーマ関数405・・・407が、それぞれのバイアスモダリティに関連付けられる。これらの関数は、バイアスが最初に識別されたのとほぼ同じ方法で評価される(408)。それによってデータセットが現在、それらの本来のバイアスモダリティとは無関係に、整合するかどうかが判定される。
【0037】
図5を参照すると、図3の複数のデータセットの補正を示す散布図が提供されている。
【0038】
図6を参照すると、追加のプリプロセッサを適合させるためのプロセスが示されている。新規データセットがモデルによって分析されるために識別されまたは生成されると、新規データセットは、既存のバイアスモダリティに合うか、または新規バイアスモダリティを表し得る。前者の場合、それらは既存のプリプロセッサ関数で変換されてもよい。新規バイアスモダリティが識別された場合には、そのバイアスモダリティのデータ分布が、以前の変換されたデータセットの整合された分布と比較される。
【0039】
この例では、新規データセット601は、新規バイアスモダリティ602に関連付けられている。上記にて図4を参照して説明したように、新規プリプロセッサ関数は、次いで404において、新規バイアスモダリティ602に適合される。この新規プリプロセッサ関数602は、次いでプリプロセッサのライブラリに追加される。
【0040】
図7を参照すると、本開示の実施形態による、分類子をトレーニングする方法が示されている。プリプロセッサ702・・・704のライブラリ701は、上記のように組み立てられる。これにより、分類子705を、単一のデータセットに加えて、マージされたデータセット706でトレーニングすることが可能になる。いずれの場合にも、1つ以上の入力データセット707・・・709は、トレーニング前にプリプロセッサ関数702・・・704によって変換される。プリプロセッサライブラリ701は、他の点では異種の相互運用可能ではない個々のデータセットから、マージされた(またはメタ)データセット706の構築を可能にする。メタデータセット706への各入力データセット707・・・709は、それぞれのバイアスモダリティに対応するプリプロセッサ関数を使用して変換され、各入力データセットをモデルトレーニングに適した共有データ空間にマッピングする。
【0041】
本明細書に記載の方法は、当技術分野で知られている任意の分類子で使用可能であることが理解されよう。適切な分類子の例には、ランダム決定フォレスト、線形分類子、サポートベクターマシン(SVM)、及びリカレントニューラルネットワーク(RNN)などのニューラルネットワークが含まれる。
【0042】
適切な人工ニューラルネットワークとしては、フィードフォワードニューラルネットワーク、動径基底関数ネットワーク、自己組織化マップ、学習ベクトル量子化、リカレントニューラルネットワーク、ホップフィールドネットワーク、ボルツマンマシン、エコーステートネットワーク、長・短期記憶、双方向性リカレントニューラルネットワーク、階層型リカレントニューラルネットワーク、確率的ニューラルネットワーク、モジュール型ニューラルネットワーク、連想ニューラルネットワーク、ディープニューラルネットワーク、深層信念ネットワーク、畳み込みニューラルネットワーク、畳み込み深層信念ネットワーク、大容量記憶保存・検索ニューラルネットワーク(large memory storage and retrieval neural network)、ディープボルツマンマシン、ディープスタッキングネットワーク、テンソルディープスタッキングネットワーク、スパイクスラブ制限ボルツマンマシン、複合階層深層モデル、ディープコーディングネットワーク、多層カーネルマシン、またはディープQネットワークがあるが、これに限定されない。
【0043】
図8を参照すると、分類子をテストする方法が示されている。テストデータセット801は、1人以上の患者、患者サンプル、または実験試料からの測定値(例えば、臨床試験における患者のコホートからの遺伝子発現値)で構成され得る。各サンプルは、テストデータセット空間内に存在する。テストデータセット空間は、さらなる補正を行うことなく、その特定のデータセットの分布に対応する。これらのデータは、各サンプルをモデル空間にマッピングする適切なバイアスモダリティのために、プリプロセッサ関数802を使用して変換される。プリプロセッサ関数は、プリプロセッサ803のライブラリから選択される。モデル空間は、上記でさらに説明したように、全てのバイアスモダリティがマッピングされる普遍的分布に対応する。次いで、データは、分類のため分類子804に供給され得る。分類子804は、モデルの性能を判定/報告するための基礎を形成する、いくつかのテストセット予測(例えば、治療結果、薬剤応答、疾患表現型など)を出力する。
【0044】
正確に言えば、プリプロセッサ803及び分類子804のライブラリは、シグネチャモデル805と称される。様々な実施形態では、分類子804からのテストセット予測を含む試験レポート806を提供することができる。
【0045】
図9を参照すると、分類子を評価する方法が示されている。テストデータについて図8に関連して上述したプロセスは、各検証データセット901、ならびにモデルの商用または現実世界のアプリケーションから生じる将来のデータセットに対して繰り返される。結果として得られる予測は、当技術分野で周知の方法にしたがってモデルの性能を判定するために使用され、検証レポート902に掲載される。
【0046】
図10を参照すると、プロダクション環境で分類子を使用する方法が示されている。テスト及び検証データについて図8図9に関連して上述したプロセスは、各データセット1001に対して繰り返されるばかりでなく、モデルの商用または現実世界のアプリケーションから生じる将来のデータセットに対しても繰り返される。結果として得られた治療予測は、当技術分野で周知の方法に従って、関連する臨床結果を含む、シグネチャアッセイレポート1002を生成するために使用される。
【0047】
ここで図11を参照すると、複数のデータセットをハーモナイズする方法が示されている。1101で、複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。1102で、入力データセットが読み込まれる。1103で、入力データセットのバイアスモダリティが判定される。1104で、プリプロセッサがライブラリから選択される。プリプロセッサは、入力データセットのバイアスモダリティに対応する。1105で、プリプロセッサは、共通データ空間にハーモナイズされたデータセットを生成するように入力データセットに適用される。
【0048】
ここで図12を参照すると、プリプロセッサのライブラリを生成する方法が示されている。1201で、入力データセットが読み込まれる。1202で、複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。1203で、入力データセットが、複数のプリプロセッサに関連付けられた各バイアスモダリティと比較され、それによって、ライブラリが、入力データセットに対応する関連しているバイアスモダリティを有するプリプロセッサを含まないことが判定される。1204で、入力データセットを共通データ空間にマッピングするように構成されたプリプロセッサが定義される。1205で、プリプロセッサが、ライブラリに追加される。
【0049】
ここで図13を参照すると、分類子をトレーニングする方法が示されている。1301で、複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。1302で、複数の入力データセットが読み込まれる。1303で、複数の入力データセットのそれぞれのバイアスモダリティが判定される。1304で、ライブラリからのプリプロセッサの1つが、複数の入力データセットのそれぞれに適用されて、共通データ空間に、複数のハーモナイズされたデータセットが生成される。プリプロセッサの1つ1つが、そのそれぞれの入力データセットのバイアスモダリティに対応する。1305で、複数のハーモナイズされたデータセットが、共通データ空間におけるマージされたデータセットにマージされる。1306で、分類子が、マージされたデータセットを用いてトレーニングされる。
【0050】
追加の実施例
上記で提供された例に加えて、プリプロセッサは、異なるバイアスモダリティを区別するように定義され及び/またはトレーニングされてもよい。例示的なプリプロセッサタイプには、多組織、単一起源組織、平衡アップサンプリング、不均衡、マルチオミック、オミックプラットフォーム特異的(DNA<>RNA<>タンパク質;単一細胞<>バルクシークエンシング;空間<>1D;試料ハンドリング(FFPE<>新鮮凍結<>吸引液<>アーカイブ;顕微解剖<>スクレープオール);組織コンパートメント(無細胞(循環型)<>腫瘍<>正常;原発性<>転移性);疾患モデル(例えば、腫瘍<>細胞株<>マウスモデル<>オルガノイド);人口統計学(例えば、地理学、民族性、年齢、性別に基づく)、臨床(治療ライン;疾患段階;治療歴、例えば、未処置<>難治性)が含まれる。
【0051】
これらのバイアスモダリティのいくつかについて、以下で詳細に説明する。しかしながら、本開示によるプリプロセッサシステムは、上述した様々なバイアスモダリティのみならず、当技術分野において周知の他の多くのものにも適用可能であることが理解されよう。
【0052】
第1の実施例では、プラットフォーム/化学プリプロセッサが提供される。プラットフォーム/化学プリプロセッサは、異なるサンプル調製化学またはシークエンシングプラットフォームを使用して、同じタイプの分析物(例えば、RNA存在量またはDNA突然変異)を測定したデータをハーモナイズするように機能するマッピング関数である。モデルが、例えば、Xerna TME Panelと同様に、マイクロアレイプラットフォームからの遺伝子発現データでトレーニングされる場合、RNAシークエンシングから得られる入力データに対して、プラットフォームプリプロセッサが使用されることになる。同じタイプのデータが同じシークエンシングプラットフォーム、例えば、Illumina HiSeqマシンから得られた場合でも、バイアスモダリティを作成できる、全RNA対mRNA濃縮などの別個の化学物質を使用して、組織サンプルを処理することができる。類似の例は、全エクソームシークエンシングに対して標的遺伝子パネルにより測定されたDNAバリアントであろう。
【0053】
そのようなプリプロセッサは、古いマイクロアレイプラットフォームからの履歴データでモデルがトレーニングされている場合に特に有用である。しかしながら、臨床試験アッセイは、全RNAシークエンシングを使用する場合があり、一方で、市販のRUO診断キットは、mRNAシークエンシングを使用し、併用診断テストでは、標的遺伝子シークエンシングが使用されることになる。このモデルを規制されたデバイスに臨床開発及び商業開発するのを容易にするために、プラットフォーム/化学プリプロセッサが必要である。
【0054】
第2の実施例では、多組織プリプロセッサが提供される。複数組織プリプロセッサは、マッピング機能が、様々なソース組織からの入力データに基づいて(理想的にはほぼ等しい割合で)トレーニングされるプリプロセッサである。2つ以上の組織を含めることにより、身体の異なる組織に由来するサンプルを比較する際に、固有の生物学的不均一性に起因して、データランドスケープの大部分を捉えることが可能になる。一例として、肝臓癌サンプルは、脳などの他の領域の腫瘍とは発現値及び表現型が異なる。プリプロセッサにこれらの組織タイプの両方を含めることにより、下流のモデルでは、同等の出力を生成する際に、組織特有の差異を考慮することが可能となる。例えば、出力は、脳組織に対する肝臓の免疫原性または血管原性を直接比較することできる。より多くの組織タイプは、特に表現型データ空間のエッジ周辺では、モデルの予測性能を向上させる結果になる場合がある。
【0055】
このタイプのプリプロセッサは、下流のモデル/デバイスが全組織/全疾患であることが意図されており、かつ一貫した技術プラットフォーム/化学が全てのデータ生成に使用されるとすれば、望ましい場合がある。そのようなプリプロセッサは、装置の目的が、治療のための異なる疾患適応症の選択を誘導することであるならば、役立つこともある。
【0056】
例示的な実施形態では、Xerna TME Panelは、モデルによって学習された免疫原性シグナルと血管新生シグナルとの交差に基づいて4つの疾患サブタイプを出力する。多組織プリプロセッサは、データ空間における他の組織タイプに対して、その組織タイプの基礎となる生物学に関するコンテキストを提供する。多組織プリプロセッサを開発するために、TCGAの異なる18種類の組織を使用した。それらの原発組織に基づく患者サンプルの相対位置を理解するために、これらのサンプルをモデルにかけた際に、平均血管新生スコア及び平均免疫原性スコアを計算した。
【0057】
第3の実施例では、単一組織プリプロセッサが提供される。単一組織プリプロセッサは、データ空間が適切にマッピングされることを保証するために、十分な数のサンプル(n=>75)が分析される限り、単一組織タイプから収集されたサンプルを用いて構成することができる。単一組織プリプロセッサは、組織のソースに起因する不均一性及び生物学的変動性を導入することなく、同じ組織タイプに由来するサンプルを互いに相対的に比較することを可能にする。
【0058】
そのようなプリプロセッサは、臨床試験の文脈において有用である。臨床試験は一般に、腫瘍の原発部位を含む特定の適応症に基づいて実施される。したがって、データは1つの組織ベースで生成される。これらの臨床試験データは一般に、同じプラットフォーム上で生成され、それによって観察されるバッチ効果を制約する。さらに、併用の診断デバイスは、適応症(組織)に特異的である。したがって、付随する診断部に組み込まれたモデルの場合、単一組織プリプロセッサが適切である。
【0059】
例示的な実施形態では、Xerna TME Panelは、卵巣癌において薬剤navicixizumabを使用するための併用診断装置を提供する。この装置による分析のためのデータ処理をサポートするために、卵巣(またはより一般的には婦人科)癌組織に特異的な単一組織プリプロセッサを開発した。
【0060】
第4の実施例では、平衡化プリプロセッサ(Balanced Preprocessor)が提供される。異なるバイアスモダリティからのサンプルの不均一な分布は、ハーモナイズされたデータ空間の達成を困難にすることがある。プリプロセッサ関数をトレーニングする前に、全体のサンプル数を増加させ、バイアスモダリティ間の相対的な差異を最小化するために、標本として不十分であるバイアスモダリティからのサンプルを、同時的に、共通の倍数までインシリコで複製(アップサンプリング)することができる。例えば、多組織プリプロセッサの開発を考えると、十分な数のサンプルが必要とされ、これらのサンプルは、入力組織タイプのそれぞれの間に大まかに均等に配分される。実際には、複数の異なる組織タイプにわたるサンプルを様々な量で使用することができる。プリプロセッサが、組織毎に異なる数のサンプルを有する複数の組織タイプに基づいて開発される場合、過剰に発現する組織へのバイアスが導入されることになる。アップサンプリング、つまり組織タイプごとのサンプルのデジタル複製は、組織タイプごとのサンプルの不均一な分布によって導入されるバイアスを制限する。追加の実施形態では、アップサンプリングは、デノボ(de novo)で作成されたデジタル複製の生成によって、一般または特定の組織における発現プロファイルの観察された変動をシミュレーションすることによって提供される。
【0061】
そのようなプリプロセッサは、一般的に、ロバストなプリプロセッサを開発するのに十分な量のサンプルを、別の方法では利用できない場合に有用である。インシリコの複製によるアップサンプリングは、有用なプリプロセッサをトレーニングするのに十分な数のデータポイントを達成する手段である。
【0062】
第5の実例では、マルチオミックプリプロセッサが提供される。モデルトレーニング及びモデル予測に使用されるデータは、いくつものオミクス分析タイプから導出可能である。これらには、ゲノム、プロテオーム、トランスクリプトーム、メタボローム、及びエピゲノムを表すデータが含まれるが、これらに限定されない。細胞/組織の一括収集によって、または物理的に分離された単一の細胞から、オミクスデータを生成することができる。さらに、オミクスデータは、リニアシークエンス、2次元マトリクス、または相対的な空間位置を含む3次元で測定することができる。
【0063】
モデルによっては、トレーニング及び/または分類の前に、均一なデータ空間に変換する必要のあるオミクスデータの組み合わせを入力として受け取るものもあり得る。マルチオミックプリプロセッサは、異なるオームから収集されたデータをハーモナイズするようにトレーニングされたマッピング関数である。
【0064】
そのようなプリプロセッサは、組織及び体液の分類に有用であり、マルチオミックデータの利点を生かした高感度かつ特異的な分類が可能である。特定の分析プラットフォーム、例えば、Mission Bio Tapestri and Codeta Biosciencesは、同じサンプルに由来するDNA、RNA、及びタンパク質を規定どおりに測定する。これら全てのオームを合同にモデル化するには、試料内の全てのオームの値を関連づける必要がある。したがって、マルチオミックプリプロセッサは、統合データに依存するモデルに対して有用である。
【0065】
第6のサンプルでは、バルク対単一細胞プリプロセッサが提供される。バルクシークエンシングでは、標的分子は、複数の細胞型からなる可能性が高い細胞または組織の集団から抽出される。単一細胞シークエンシングでは、シークエンシングの前に細胞が物理的に分離される。場合により、単一細胞は、シークエンシング前に細胞表面マーカーなどの様々な属性に基づいて分類されることがある。それぞれの技術を比較した場合の出力には差異がある。バルクシークエンシングは、組織サンプル全体に関してより広い画像を提供するが、単一細胞は、関心のある細胞のサブグループまたはタイプに関する情報を直接提供する。バルクシークエンシングは、単一細胞よりもデータにノイズまたは不均一性が少ないという点で有利であるが、バルクには、異なる細胞間で生物学的に関心を持たれる可能性のあるシグナルを平均化してしまうという欠点がある。scRNAシークエンシングデータはスパースであり、バルクRNA-Seqへのマッピングに特定の問題がある。
【0066】
そのようなプリプロセッサは、単一細胞データ及びバルクシークエンシングデータの間でマッピングを希望する場合に有用である。目標は、単一細胞の文脈におけるこれらの特徴の相対値に基づいて、バルクシークエンシングから特徴のセットを推定することであり得る。バルクシークエンシングは、単一細胞よりも安価で、より広く利用可能であり、より再現性があるため、今日では、規制された環境における臨床ツールとして、バルクシークエンシングが好まれている。それにもかかわらず、単一細胞データでモデルをトレーニングし、その後、バルクシークエンシングによって生成された臨床データを分析するために、そのモデルを使用したい場合がある。
【0067】
第7の実施例では、サンプル処理プリプロセッサが提供される。サンプル処理プリプロセッサは、データ生成の前に組織サンプルを異なる方法で処理される場合に導入されるバッチ効果を軽減するようにトレーニングされている。バイアスモダリティは、任意の数の組織収集、保存、及び処理方法と関連付けることができる。がん診断分野では、例えば、サンプルは新鮮凍結生検、生検吸引液、コア針生検、ホルマリン固定パラフィン包埋(FFPE)スライドなどから得ることができる。サンプルが保存されていた期間、例えば、新鮮なもの対アーカイブされていたものでは、バイアスが生じる。さらに、組織が抽出及びシークエンシングのために収集される手法によっては、例えば顕微解剖対スクレープオールでは、バイアスが導入される。
【0068】
そのようなプリプロセッサは、Xerna TME Panelなどの臨床試験アッセイ(CTA)で使用するためのモデルを開発する場合に有用である。CTAの分析的検証研究では、保存用のFFPE組織が使用される場合があるが、臨床試験中の意図された使用は新鮮凍結生検であり得る。サンプル処理プリプロセッサにより、トレーニングされたモデルを、分析検証及び臨床実験の使用の両方に対して展開することが可能になる。
【0069】
次に図14を参照すると、本明細書で説明されるプリプロセッサのシステムは、データフライホイールを作成するためにデータ管理システムと統合されていてもよい。データフライホイールは、キュレーション、アノテーション付け、及びバイアス調整されたデータ収集の戦略上の使用及び再利用によって、臨床バイオマーカーなどのデータ製品の運動量を加速的に増加させる。
【0070】
図14は、例示的なデータ管理システムである、GenialisによるExpressionと、プリプロセッサのシステムとの統合を示す。別個のデータセットが、プリプロセッサのシステムを用いて共通のデータプレーンに変換される。Genialis Expressionは、元のデータと同じ方法で管理される全てのバージョンの変換済みデータ(ML対応データとも称される)に、データ管理機能を拡張する。
【0071】
特に、処理された発現プロファイル1401は、RNA-Seq、マイクロアレイ、EdgeSeq、またはNanoStringなどの様々なデータソースを含み得る。サンプル選択1402は、サンプルの品質管理、ならびに外れ値の検出及び他のデータクリーンアップタスクを含んでいてよい。バイアス調整1403は、本明細書で説明するように、プリプロセッサ1404のライブラリを適用する。結果として得られた調整データは、複数のデータ空間1405・・・1406に提供され、次に疾患モデリングプラットフォーム1407に提供されてよい。
【0072】
このデータフライホイールアーキテクチャは、新規の全てのデータセットが増えるたびに、システム全体の価値を生み出す可能性を高めるように、データセットの再利用を可能にする。したがって、バイオマーカーモデルは、時間と共に増加するペースで開発される可能性がある。
【0073】
上記の使用事例に加えて、本開示は、連合学習の文脈で適用され得る。連合学習は、データ自体を交換することなく、共同でアルゴリズムをトレーニングすることによって、データガバナンス及びプライバシーの問題に対処することを目指した学習パラダイムである。バイオマーカーモデルをトレーニング及び検証するために使用される生物医学のオミクスデータセットは、別個の当事者が所有している場合があり、対応する計算環境に寄託されている場合がある。連合パートナーの計算環境内のバイオマーカーモデルを学習及び検証するために、連合学習システムを採用することができる。
【0074】
パートナーデータセットは、その固有のバイアスの影響を受ける。プリプロセッサのシステムは、別個のオミクスデータセットにおけるバイアス調整を自動化するための重要な技術であり、また連合学習トレーニングアルゴリズムに組み込むことができる。
【0075】
臨床バイオマーカーをトレーニング及び検証するために必要なデータは、典型的には、臨床研究、診断、及び製薬の関係者が所有している。これらのデータ所有者の各々は、データを競合他社と共有したがらない。所有者らは、自分たちの専有データを、最大限の機密性及び高い潜在的価値があると考えている場合がある。さらに、データを共有する権利が法的に制約される場合がある。したがって、連合学習システムは、モデル開発のためにデータ共有に対する気後れまたは制限を克服するための1つのソリューションとなる。プリプロセッサにより、連合パートナー間でバイアスモダリティを共有できるようになる。したがって、プリプロセッサは、潜在的に破壊的なビジネスアプローチを解く鍵である。
【0076】
本明細書に記載のプリプロセッサは、様々な環境に展開可能であることが理解されるであろう。例えば、プリプロセッサシステムは、マイクロサービスのセットとして展開されてもよい。マイクロサービスアーキテクチャは、各マイクロサービスがより大規模なシステム全体の1つの小部分となる設計パターンである。各マイクロサービスは、最終結果に寄与する特定の限られた範囲のタスクを実行する。例えば、APIが、「プリプロセッサを適合させる」または「プリプロセッサのライブラリから対応するプリプロセッサを識別する」を含むタスクに対して定義され得る。マイクロサービスは、明確に定義されたAPIを介して通信する独立したワークフローである。マイクロサービスアーキテクチャにより、アプリケーションの拡張が容易になり、開発が迅速になる。
【0077】
別の例では、プリプロセッサシステムが、分散アーキテクチャで展開されてもよい。分散システムは、ネットワーク化された異なるコンピュータ上にコンポーネントが配置されたシステムであり、これらのコンポーネントは、任意のシステムから互いにメッセージを受け渡しすることによって通信し、各自のアクションを調整する。これらのコンポーネントは、本明細書の場合、それぞれトレーニングデータの一部を保持する複数の分散サーバにおいてバイオマーカー分類子をトレーニングするという共通の目標を達成するために、相互に作用し合う。
【0078】
ここで図15を参照すると、コンピューティングノードの一例の概略図が示されている。コンピューティングノード10は、適切なコンピューティングノードの一例にすぎず、本明細書で説明する実施形態の使用または機能の範囲について何らかの限定を示唆することを意図したものではない。ともかくもコンピューティングノード10は、上述の機能セットのいずれであっても具現化及び/または実施することができる。
【0079】
コンピューティングノード10には、多数の他の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成と共に動作するコンピュータシステム/サーバ12が存在する。コンピュータシステム/サーバ12と共に使用するのに適している可能性のある周知のコンピューティングシステム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステム、及び上記のシステムまたはデバイスのいずれかを含む分散型クラウドコンピューティング環境などを含むが、これらに限定されない。
【0080】
コンピュータシステム/サーバ12は、コンピュータシステムによって実行されるプログラムモジュールなどのコンピュータシステムにより実行可能な命令の一般的なコンテキストで記述することができる。概して、プログラムモジュールは、特定のタスクを実施するまたは特定の抽象的なデータタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造など、を含み得る。コンピュータシステム/サーバ12は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウドコンピューティング環境で実施することができる。分散型クラウドコンピューティング環境において、プログラムモジュールは、メモリ記憶デバイスを含むローカル及び遠隔コンピュータシステム記憶媒体両方に位置付けられてもよい。
【0081】
図15に示されているように、コンピューティングノード10内のコンピュータシステム/サーバ12は、汎用コンピューティングデバイスの形態で示されている。コンピュータシステム/サーバ12のコンポーネントには、1つ以上のプロセッサまたは処理ユニット16、システムメモリ28、及びシステムメモリ28を含む様々なシステムコンポーネントをプロセッサ16に結合するバス18が含まれてもよいが、これらに限定されない。
【0082】
バス18は、メモリバスまたはメモリコントローラ、周辺バス、アクセラレイティッドグラフィックスポート、及び様々なバスアーキテクチャのいずれかを使用するプロセッサまたはローカルバスを含む、いくつかのタイプのバス構造のうちの1つ以上である。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、ペリフェラルコンポーネントインターコネクト(PCI)バス、ペリフェラルコンポーネントインターコネクトエクスプレス(PCIe)、及びアドバンストマイクロコントローラバスアーキテクチャ(AMBA)が含まれる。
【0083】
コンピュータシステム/サーバ12は、通常、様々なコンピュータシステム可読媒体を含む。このような媒体は、コンピュータシステム/サーバ12によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及び非リムーバブル媒体の両方を含む。
【0084】
システムメモリ28は、ランダムアクセスメモリ(RAM)30及び/またはキャッシュメモリ32などの揮発性メモリの形態のコンピュータシステム可読媒体を含むことができる。コンピュータシステム/サーバ12は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。ほんの一例として、ストレージシステム34は、非リムーバブルな不揮発性磁気媒体(図示せず、通常「ハードドライブ」と呼ばれる)に対する読み出し及び書き込みのために設けられ得る。図示されていないが、リムーバブルの不揮発性磁気ディスク(例えば、「フロッピーディスク」)からの読み出し及び書き込みを行う磁気ディスクドライブと、CD-ROM、DVD-ROM、または他の光学媒体などの、リムーバブルの不揮発性光ディスクからの読み出しまたは書き込みを行う光ディスクドライブを設けることができる。こうした事例では、バス18には1つ以上のデータメディアインターフェースによってそれぞれ接続可能である。あとでさらに図面で描いて説明するように、メモリ28は少なくとも1つのプログラム製品を含むことができ、このプログラム製品は、本開示の実施形態の機能を実行するように構成されたプログラムモジュールのセットを(例えば、少なくとも1つ)有する。
【0085】
プログラムモジュール42(少なくとも1つ)のセットを有するプログラム/ユーティリティ40は、オペレーティングシステム、1つ以上のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータと同様に、限定ではなく例として、メモリ28に格納されてもよい。オペレーティングシステム、1つ以上のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータ、またはそれらの一部の組み合わせのそれぞれは、ネットワーク環境の実装を含むことができる。プログラムモジュール42は、一般に、本明細書で説明した実施形態の関数及び/または方法論を実行する。
【0086】
コンピュータシステム/サーバ12はまた、キーボード、ポインティングデバイス、ディスプレイ24などの1つ以上の外部デバイス14;ユーザがコンピュータシステム/サーバ12とインタラクトできるようにする1つ以上のデバイス;及び/またはコンピュータシステム/サーバ12が1つ以上の他のコンピューティングデバイスと通信できるようにする任意のデバイス(例えば、ネットワークカード、モデムなど)、と通信することもできる。このような通信を、入力/出力(I/O)インターフェース22を介して行うことができる。さらに、コンピュータシステム/サーバ12は、ローカルエリアネットワーク(LAN)、汎用ワイドエリアネットワーク(WAN)、及び/またはパブリックネットワーク(例えばインターネット)などの1つ以上のネットワークと、ネットワークアダプタ20を介して通信することができる。図示されているように、ネットワークアダプタ20は、バス18を介してコンピュータシステム/サーバ12の他のコンポーネントと通信する。図示されていないが、他のハードウェアコンポーネント及び/またはソフトウェアコンポーネントを、コンピュータシステム/サーバ12と併せて使用してもよいことを理解されたい。例には、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ、及びデータアーカイバル記憶システムなどが含まれるが、これらに限定されない。
【0087】
本開示を、システム、方法、及び/またはコンピュータプログラム製品として具現化することができる。コンピュータプログラム製品は、本開示の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその媒体上に有するコンピュータ可読記憶媒体(複数可)を含み得る。
【0088】
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持し保存することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子式ストレージデバイス、磁気ストレージデバイス、光学式ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、またはこれらの任意の好適な組み合わせとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例を非網羅的に挙げると、以下のようなものがある。すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリースティック、フロッピーディスク、命令が記録されたパンチカードまたは溝内の隆起構造などの機械的に符号化されたデバイス、及び上記の任意の好適な組み合わせである。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくはその他の自由に伝播する電磁波、導波管もしくはその他の伝送媒体を伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または電線を介して伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。
【0089】
本明細書に記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/プロセッシングデバイスに、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/またはワイヤレスネットワークを介して外部のコンピュータもしくは外部ストレージデバイスに、ダウンロードすることができる。ネットワークは、銅製の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/またはエッジサーバを含み得る。各コンピューティング/処理デバイスのネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に保存する。
【0090】
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk、C++、もしくはその種の他のものなどのオブジェクト指向プログラミング言語や、「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで、部分的にユーザのコンピュータで、スタンドアローンのソフトウェアパッケージとして実行すること、部分的にユーザのコンピュータで実行し、部分的にリモートコンピュータで実行すること、または完全にリモートコンピュータもしくはサーバで実行することが可能である。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む、任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または外部のコンピュータに(例えば、インターネットサービスプロバイダを用いるインターネット経由で)接続することができる。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本開示の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して、電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。
【0091】
本開示の態様は、本開示の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照して本明細書で説明される。フローチャート図及び/またはブロック図の各ブロック、及びフローチャート図及び/またはブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施できることが理解されよう。
【0092】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/またはブロック図の1つ以上のブロックで指定される機能/行為を実施するための手段を作成するような機械を作り出し得る。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に保存することもでき、このコンピュータ可読記憶媒体は、その中に保存された命令を有するコンピュータ可読記憶媒体が、コンピュータ、プログラム可能なデータ処理装置、及び/または他のデバイスに、フローチャート及び/またはブロック図の1つ以上のブロックで指定される機能/行為の態様を実施する命令を含む製造品を含むような特定の方法で機能するように指示することができる。
【0093】
また、コンピュータ可読プログラム命令をコンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードすることで、一連の操作ステップをコンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイス上で実行し、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスで実行される命令がフローチャート及び/またはブロック図の1つ以上のブロックで指定される機能/行為を実施するような、コンピュータ実施プロセスを生成することができる。
【0094】
図中のフローチャート及びブロック図は、本開示の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示している。この関連で、フローチャートまたはブロック図の各ブロックは、指定された論理機能(複数可)を実施するための1つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表し得る。いくつかの代替実施態様では、ブロックに記された機能が、図に記された順序に従わずに行われることがある。例えば、連続して示される2つのブロックが、含まれている機能に応じて、実際には実質的に同時に実行されることがあり、または場合によってはブロックが逆の順序で実行されることがある。また、ブロック図及び/またはフローチャート図の各ブロック、及びブロック図及び/またはフローチャート図中のブロックの組み合わせは、指定された機能もしくは行為を実行する、または特殊用途のハードウェアとコンピュータ命令との組み合わせを実行する、特殊用途のハードウェアベースシステムによって実施することができることにも留意されたい。
【0095】
本開示の様々な実施形態の説明は、例示の目的で提示されたが、開示された実施形態を網羅し、または限定することを意図したものではない。多くの修正形態及び変形形態は、説明される実施形態の範囲及び趣旨から逸脱することなく、当業者には明白である。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用的応用または技術改善を最もよく説明するために選択され、あるいは当業者が本明細書に開示された実施形態を理解できるようにするために選択されたものである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【国際調査報告】