特表2024-529403 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ジェニアリスインコーポレイテッドの特許一覧

特表2024-529403バイアス効果及び／またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-06

(54)【発明の名称】バイアス効果及び／またはバッチ効果に対処することにより異種オミクスデータセットをハーモナイズするプリプロセッサのシステム

(51)【国際特許分類】

G06F 18/214 20230101AFI20240730BHJP

G06N 20/00 20190101ALI20240730BHJP

【ＦＩ】

G06F18/214

G06N20/00 130

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024503787

(86)(22)【出願日】2022-07-21

(85)【翻訳文提出日】2024-01-29

(86)【国際出願番号】 US2022037860

(87)【国際公開番号】W WO2023004033

(87)【国際公開日】2023-01-26

(31)【優先権主張番号】63/224,210

(32)【優先日】2021-07-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】524025901

【氏名又は名称】ジェニアリスインコーポレイテッド

(74)【代理人】

【識別番号】100114775

【弁理士】

【氏名又は名称】高岡亮一

(74)【代理人】

【識別番号】100121511

【弁理士】

【氏名又は名称】小田直

(74)【代理人】

【識別番号】100202751

【弁理士】

【氏名又は名称】岩堀明代

(74)【代理人】

【識別番号】100208580

【弁理士】

【氏名又は名称】三好玲奈

(74)【代理人】

【識別番号】100191086

【弁理士】

【氏名又は名称】高橋香元

(72)【発明者】

【氏名】シュタイドハール，ミハ

(72)【発明者】

【氏名】ジュガネツ，マチャズ

(72)【発明者】

【氏名】ツビトコビッチ，ロバート

(72)【発明者】

【氏名】ルストリック，ローマン

(72)【発明者】

【氏名】オーセック，ルカ

(72)【発明者】

【氏名】ローゼンガルテン，ラファエル

(72)【発明者】

【氏名】ポインティング，ダニエルウィリアム

(57)【要約】

バイアス及び／またはバッチ効果に対処することにより、異種のオミクスデータセットをハーモナイズするため、プリプロセッサのシステムが提供される。データセットのハーモナイゼーション、ハーモナイゼーションに使用するプリプロセッサのライブラリの生成、及びハーモナイゼーションを活用した分類子のトレーニングのための方法が提供される。
【選択図】なし

【特許請求の範囲】

【請求項1】

複数のデータセットをハーモナイズする方法であって、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
入力データセットを読み込むことと、
前記入力データセットのバイアスモダリティを判定することと、
前記ライブラリからプリプロセッサを選択することであって、前記プリプロセッサが、前記入力データセットの前記バイアスモダリティに対応する、前記選択することと、
前記プリプロセッサを前記入力データセットに適用して、前記共通データ空間にハーモナイズされたデータセットを生成することと、
を含む、前記方法。

【請求項2】

プリプロセッサのライブラリを生成する方法であって、
入力データセットを読み込むことと、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
前記入力データセットを、前記複数のプリプロセッサに関連付けられた各バイアスモダリティと比較することによって、前記ライブラリが、前記入力データセットに対応する関連付けられたバイアスモダリティを有するプリプロセッサを含まないことを判定することと、
前記入力データセットを前記共通データ空間にマッピングするように構成されたプリプロセッサを定義することと、
前記プリプロセッサを前記ライブラリに追加することと、
を含む、前記方法。

【請求項3】

分類子をトレーニングする方法であって、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連付けられたバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
複数の入力データセットを読み込むことと、
前記複数の入力データセットのそれぞれのバイアスモダリティを判定することと、
前記ライブラリからの前記プリプロセッサの１つを、前記複数の入力データセットのそれぞれに適用することであって、前記プリプロセッサの１つひとつが、そのそれぞれの入力データセットの前記バイアスモダリティに対応して、前記共通データ空間に、複数のハーモナイズされたデータセットを生成する、前記適用することと、
前記複数のハーモナイズされたデータセットを、前記共通データ空間におけるマージされたデータセットにマージすることと、
前記マージされたデータセットを用いて分類子をトレーニングすることと、
を含む、前記方法。

【請求項4】

前記入力データセットは、オミクスデータを含む、請求項１または請求項２に記載の方法。

【請求項5】

前記複数の入力データセットのそれぞれは、オミクスデータを含む、請求項３に記載の方法。

【請求項6】

各バイアスモダリティは、アッセイプラットフォームに対応する、請求項１～３のいずれか１項に記載の方法。

【請求項7】

各バイアスモダリティは、がん型に対応する、請求項１～３のいずれか１項に記載の方法。

【請求項8】

前記プリプロセッサを選択することは、前記入力データセットを用いてＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、またはＫ－Ｓテスト分析を実行することを含む、請求項１に記載の方法。

【請求項9】

前記入力データセットを各バイアスモダリティと比較することは、ＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、またはＫ－Ｓテスト分析を実行することを含む、請求項２に記載の方法。

【請求項10】

各プリプロセッサは、クオンタイル正規化、望ましくない変異を除去すること（ＲＡＶ）、ＣｏｍＢａｔ、ＣｏｍＢａｔ－Ｓｅｑ、ＢＵＳ、ＢＵＳ－Ｓｅｑ、またはＳＶＡを適用するように構成されている、請求項１～３のいずれか１項に記載の方法。

【請求項11】

複数のデータセットをハーモナイズするためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、プロセッサに方法を実行させるように前記プロセッサによって実行可能であり、前記方法は、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
入力データセットを読み込むことと、
前記入力データセットのバイアスモダリティを判定することと、
前記ライブラリからプリプロセッサを選択することであって、前記プリプロセッサが、前記入力データセットの前記バイアスモダリティに対応する、前記選択することと、
前記プリプロセッサを前記入力データセットに適用して、前記共通データ空間にハーモナイズされたデータセットを生成することと、
を含む、前記コンピュータプログラム製品。

【請求項12】

プリプロセッサのライブラリを生成するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、プロセッサに方法を実行させるように前記プロセッサによって実行可能であり、前記方法は、
入力データセットを読み込むことと、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
前記入力データセットを、前記複数のプリプロセッサに関連付けられた各バイアスモダリティと比較することによって、前記ライブラリが、前記入力データセットに対応する関連付けられたバイアスモダリティを有するプリプロセッサを含まないことを判定することと、
前記入力データセットを前記共通データ空間にマッピングするように構成されたプリプロセッサを定義することと、
前記プリプロセッサを前記ライブラリに追加することと、
を含む、前記コンピュータプログラム製品。

【請求項13】

分類子をトレーニングするためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、プロセッサに方法を実行させるように前記プロセッサによって実行可能であり、前記方法は、
複数のプリプロセッサを含むライブラリを読み込むことであって、各プリプロセッサが、関連付けられたバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている、前記読み込むことと、
複数の入力データセットを読み込むことと、
前記複数の入力データセットのそれぞれのバイアスモダリティを判定することと、
前記ライブラリからの前記プリプロセッサの１つを、前記複数の入力データセットのそれぞれに適用することであって、前記プリプロセッサの１つひとつが、そのそれぞれの入力データセットの前記バイアスモダリティに対応して、前記共通データ空間に、複数のハーモナイズされたデータセットを生成する、前記適用することと、
前記複数のハーモナイズされたデータセットを、前記共通データ空間におけるマージされたデータセットにマージすることと、
前記マージされたデータセットを用いて分類子をトレーニングすることと、
を含む、前記コンピュータプログラム製品。

【請求項14】

前記入力データセットは、オミクスデータを含む、請求項１１または請求項１２に記載のコンピュータプログラム製品。

【請求項15】

前記複数の入力データセットのそれぞれは、オミクスデータを含む、請求項１３に記載のコンピュータプログラム製品。

【請求項16】

各バイアスモダリティは、アッセイプラットフォームに対応する、請求項１１～１３のいずれか１項に記載のコンピュータプログラム製品。

【請求項17】

各バイアスモダリティは、がん型に対応する、請求項１１～１３のいずれか１項に記載のコンピュータプログラム製品。

【請求項18】

前記プリプロセッサを選択することは、前記入力データセットを用いてＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、またはＫ－Ｓテスト分析を実行することを含む、請求項１１に記載のコンピュータプログラム製品。

【請求項19】

前記入力データセットを各バイアスモダリティと比較することは、ＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、またはＫ－Ｓテスト分析を実行することを含む、請求項１２に記載のコンピュータプログラム製品。

【請求項20】

各プリプロセッサは、クオンタイル正規化、望ましくない変異を除去すること（ＲＡＶ）、ＣｏｍＢａｔ、ＣｏｍＢａｔ－Ｓｅｑ、ＢＵＳ、ＢＵＳ－Ｓｅｑ、またはＳＶＡを適用するように構成されている、請求項１１～１３のいずれか１項に記載のコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年７月２１日に出願された米国仮出願第６３／２２４，２１０号の利益を主張するものであり、この米国仮出願の全体を参照により本明細書に援用する。

【背景技術】

【0002】

本開示の実施形態は、生物学的データセットの取り扱いに関し、より詳細には、バイアス効果及び／またはバッチ効果に対処することにより、異種オミクスデータセットをハーモナイズするプリプロセッサのシステムに関する。

【発明の概要】

【0003】

本開示の実施形態によれば、複数のデータセットをハーモナイズする方法及びコンピュータプログラム製品が提供される。複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。入力データセットが読み込まれる。入力データセットのバイアスモダリティが判定される。プリプロセッサがライブラリから選択される。プリプロセッサは、入力データセットのバイアスモダリティに対応する。プリプロセッサが入力データセットに適用されて、共通データ空間にハーモナイズされたデータセットが生成される。

【0004】

本開示の実施形態によれば、プリプロセッサのライブラリを生成する方法及びコンピュータプログラム製品が提供される。入力データセットが読み込まれる。複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。入力データセットが、複数のプリプロセッサに関連付けられた各バイアスモダリティと比較され、それによって、ライブラリが、入力データセットに対応する関連しているバイアスモダリティを有するプリプロセッサを含まないことが判定される。入力データセットを共通データ空間にマッピングするように構成されたプリプロセッサが定義される。プリプロセッサが、ライブラリに追加される。

【0005】

本開示の実施形態によれば、分類子をトレーニングする方法及びコンピュータプログラム製品が提供される。複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。複数の入力データセットが読み込まれる。複数の入力データセットのそれぞれのバイアスモダリティが判定される。ライブラリからのプリプロセッサの１つが、複数の入力データセットのそれぞれに適用されて、共通データ空間に、複数のハーモナイズされたデータセットが生成される。プリプロセッサの１つひとつが、そのそれぞれの入力データセットのバイアスモダリティに対応する。複数のハーモナイズされたデータセットが、共通データ空間におけるマージされたデータセットにマージされる。分類子が、マージされたデータセットを用いてトレーニングされる。

【0006】

様々な実施形態では、入力データセットはオミクスデータを含む。様々な実施形態では、複数の入力データセットのそれぞれは、オミクスデータを含む。

【0007】

様々な実施形態では、各バイアスモダリティは、アッセイプラットフォームに対応する。

【0008】

様々な実施形態では、各バイアスモダリティは、がん型に対応する。

【0009】

様々な実施形態では、プリプロセッサを選択することは、入力データセットを使用してＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、またはＫ－Ｓテスト分析を実行することを含む。様々な実施形態では、入力データセットを各バイアスモダリティと比較することは、ＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、またはＫ－Ｓテスト分析を実行することを含む。

【0010】

様々な実施形態では、各プリプロセッサは、クオンタイル正規化、望ましくない変異を除去すること（ＲＡＶ）、ＣｏｍＢａｔ、ＣｏｍＢａｔ－Ｓｅｑ、ＢＵＳ、ＢＵＳ－Ｓｅｑ、またはＳＶＡを適用するように構成されている。

【図面の簡単な説明】

【0011】

【図1】本開示の実施形態による、異種オミクスデータセットをハーモナイズするためのシステムの概略図である。

【図2】本開示の実施形態によるモダリティ定義を示すフローチャートである。

【図3】本開示の実施形態による複数のデータセットの分離を示す散布図である。

【図4】本開示の実施形態による、各バイアスモダリティにプリプロセッサを適合させる方法を示すフローチャートである。

【図5】本開示の実施形態による、複数のデータセットの補正を示す散布図である。

【図6】本開示の実施形態による、追加のプリプロセッサを適合させる方法を示すフローチャートである。

【図7】本開示の実施形態による、分類子をトレーニングする方法を示すフローチャートである。

【図8】本開示の実施形態による、分類子をテストする方法を示すフローチャートである。

【図9】本開示の実施形態による、分類子を評価する方法を示すフローチャートである。

【図10】本開示の実施形態による、プロダクション環境で分類子を使用する方法を示すフローチャートである。

【図11】本開示の実施形態による、複数のデータセットをハーモナイズする方法を示すフローチャートである。

【図12】本開示の実施形態による、プリプロセッサのライブラリを生成する方法を示すフローチャートである。

【図13】本開示の実施形態による、分類子をトレーニングする方法を示すフローチャートである。

【図14】本開示の実施形態による、データ管理システムに統合されたプリプロセッサのシステムの概略図である。

【図15】本開示の実施形態によるコンピューティングノードを図示する。

【発明を実施するための形態】

【0012】

対象の様々な状態を認識するために、機械学習モデルを様々な生物学データでトレーニングすることがある。ただし、１つの状態に関連するデータセットであっても、統計的分布はデータセットによって著しく異なり得る。トレーニングされた任意のモデルは、それに基づいて予測を行う新規のデータが、トレーニングセットと同じデータ分布に由来することを暗黙的に仮定している。この仮定は、特にトレーニングデータセットが小さい場合、及び／またはヒト組織などのバイアスがかかりやすいソースに起因する場合には、誤ったものになる。

【0013】

バイオマーカー、特に複雑な遺伝子シグネチャに臨床的有用性を得られるものがそのように少ない理由の１つは、新規患者のそれぞれに確信をもってモデル予測を割り当てできることを保証する優れた解決策がないことである。これは、ほとんど全ての新規データポイントが、トレーニングセットの分布から外れるある程度のバイアスを伴うためである。

【0014】

１つのアプローチは、新規データをトレーニング分布と整合させるために、Ｚスコアなどの単純な統計モデルを使用することである。しかし、これは、新規患者を含む分布全体を再計算する必要があり、したがってモデルをロックする必要がある臨床用途には適さない。代わりのアプローチは、モデルの再トレーニングを必要とし、したがって、毎回更新されたモデルの多くの時間と労力を要する検証を必然的に伴う。

【0015】

バイアスのソース及び不整合データ分布は、疾患横断的に機能するモデルの開発にとって重要な制約となる。モデルによっては、１つの疾患に特異的であるシグナルを学習するものもあるので、他の疾患サンプルが本質的にその分布に入らないことになる。しかし、複数の疾患に適用可能な特徴セットと、複数の疾患を含む分布に正規化されたトレーニングセットとが与えられれば、残る課題は、各新規患者をその分布に適合するように正規化することである。したがって、各新規患者サンプルまたは各新規患者サンプル群を、関連するバイアスのソースに基づいてトレーニング分布にマッピングし戻す関数が必要とされる。

【0016】

同様に、計算モデルは、アッセイのタイプまたはサンプルの取り扱いによって取り込まれる技術的バイアスのため、新規の患者または生体サンプルでは失敗することが多い。病型と同様に、技術的なバイアスのソースが明らかにされなければならない。データセット分布における同様の不一致が、細胞株またはマウスなどの前臨床または翻訳実験系からヒト患者データセットへの橋渡しを試みる際に生じる。したがって、前臨床データセットでトレーニングされたモデルは、臨床データがモデルのトレーニングセット分布に適切にマッピングされない限り、臨床データセットでの予測を行うのに役立つことはできない。

【0017】

以上のことから、当技術分野では、多くの場合患者（または患者コホート）を表す各新規データポイント（またはデータセット）を、関連するトレーニングデータ分布にマッピングする方法が必要であることが理解されよう。

【0018】

特に、既にトレーニングされ、アルゴリズムがロックされた単一の予測モデルが、異なる疾病分野、患者群、テクニカルアッセイタイプなどにわたって機能することを可能にする方法が必要とされている。そのようなモデルは、ニューラルネットワーク、ランダムフォレスト、ロジスティック回帰などのような機械学習アルゴリズムで構成され得る。各患者サンプルは、疾患（または正常）組織、その患者の人口統計学的／地理的／民族的背景、及び入力を生成するために組織サンプルに適用された様々な技術的プロセスのうちのいくつかの組み合わせから得られる。これらの要因は全て、サンプルデータにバイアスをもたらす。モデルは、各患者サンプルの（または他の）バイアスのソースに関係なく、各患者サンプルに関する何らかの標的変数（腫瘍反応または生存期間のような臨床エンドポイントなど）を確実に予測する必要がある。

【0019】

以下に述べるように、本開示は、トレーニングされたモデルをロックしたまま維持できるようにすることで検証を効率化するプリプロセッサライブラリを提供し、新しいプリプロセッサ関数にのみ追加の検証が必要とされることによって、代替アプローチのこれらの欠点及びその他の欠点に対処するものである。本開示は、オミクスデータセット（例えば、ゲノム、プロテオミクス、メタボロミクス、メタゲノミクス及びトランスクリプトミクス）に関連して説明されているが、データ分布がモデル一貫性のため補正を必要とする追加のデータセットに適用可能であることが理解されるであろう。

【0020】

本明細書で使用される、プリプロセッサは、１つのデータセットの分布をトレーニングデータセットの分布にマッピングする関数を指す。本明細書に記載されるプリプロセッサライブラリは、それぞれが、特定のタイプのバイアスを有するサンプルを、トレーニングデータセット分布にマッピングすることを学習したプリプロセッサ関数の集合である。バイアスのタイプは、例えば、組織タイプ、疾患出現部位、患者人口統計、テクニカルアッセイ（例えば、ＲＮＡ－ｓｅｑ対マイクロアレイ）、及び当業者に理解されるその他のソースから生じる。

【0021】

一例示的実施形態では、消化管組織または生殖組織に由来するデータセットについてのプリプロセッサで構成されるライブラリが、バイオマーカーアルゴリズム（ニューラルネットワーク）用に提供される。このライブラリは、皮膚、肺、骨髄、及び他の組織部位のためのプリプロセッサを含むように成長するようになる。ライブラリは、異なる種類のテクニカルアッセイのための他のプリプロセッサ関数、すなわちマイクロアレイ及び様々な種類のＲＮＡシークエンシング用サンプル調製物を含む。

【0022】

各プリプロセッサ関数は、特定のバイアスモダリティの分布特性、またはバイアスのソースに関連付けられている。この関数は、新規サンプルを正規化することを可能にする。データ分布は、例えば全ＲＮＡシークエンシング、ｍＲＮＡシークエンシング、マイクロアレイなどからの遺伝子発現値を表すことができる。また一方、分布は、タンパク質発現データ、または生物学的検体のクラスの他の任意の定量的測定値を表すこともあり得る。

【0023】

様々な実施形態では、プリプロセッサのライブラリは、新規サンプルを自動的に調査して、そのサンプルのデータをトレーニング分布にマッピングするために、どのプリプロセッサが最もよく機能することになるかを判定できるという点において、動的である。ライブラリを、バイアスのソース（複数可）を検出するように自動化することができ、またはバイアスの様々なソースをユーザ入力が指定することによって制御することができる。より多くのサンプルが分析され、マッピング関数が最適化されるにつれて、プリプロセッサの数、及びそれぞれが表すバイアスのソースは、時間と共に変化しうる。

【0024】

これらの方法の１つの利点は、これらの方法により、トレーニングされた予測モデルを、臨床的応用、または分析の一貫性のためにロックされたままに維持することが可能になり、一方、分析ワークフローに実質的に任意の新規患者サンプルを含めることも可能になるということである。各プリプロセッサが同じ目標（事前に定義された分布への正規化）を達成するので、正規化の成功の基準と失敗した正規化の不測の事態とが事前に定義されている限り、臨床的応用のワークフローにこのステップを含めることができる。これは、任意の新規サンプルが新規分布でモデルを再トレーニングする必要があるＺスコア統計に依存するような代替的アプローチよりも有利である。

【0025】

本明細書で提供される方法の別の利点は、複数のデータセットを、モデルのトレーニングまたはテストで共に使用することができるように、整合させることが可能なことである。したがって、トレーニングセットのサイズを増加させることができ、これによって、生体モデルを構築する際の一般的な制約が回避される。

【0026】

本明細書で説明されているプリプロセッサのシステムは、代替的アプローチを上回る複数の利点を有しており、これにより、
１．種々の病型、例えば種々のがん型にわたるＭＬモデルの適用、
２．種々のアッセイプラットフォーム、例えば、ＲＮＡ－ｓｅｑ対マイクロアレイから生じるデータセットにわたるＭＬモデルの適用、
３．他のモダリティ、例えば、臨床検査室、テスト場所、シークエンシング施設のバイアスを有するデータセットにわたるＭＬモデルの適用、
４．研究開発段階にわたるＭＬモデル、例えば、臨床データに適用される前臨床データでトレーニングされたモデルの適用、及び
５．規制された（臨床）環境における全疾患（機械学習）モデルの実装
が可能になる。

【0027】

これは、トレーニングデータまたは評価データを正規化するステップと、モデルのトレーニングまたは評価のステップとを切り離すことによって達成される。したがって、各関連データ空間に対して定義された任意の数のバイアスモダリティに対応する正規化関数（プリプロセッサ）の動的リソースが提供される。これにより、様々なバイアスのソースに由来するデータセットにわたるモデルの適用が可能になる。

【0028】

図１を参照すると、本開示によるプロセスの全段階が示されている。１０１では、プリプロセッサが定義される。１０２では、モデル（例えば、予測モデル）が定義される。プリプロセッサ定義１０１の間、１１１でバイアスモダリティが定義され、１１２でプリプロセッサが適合され、１１３で追加のプリプロセッサが適合される。これらのそれぞれについて、以下にさらに詳細に説明する。モデル定義１０２の間、分類子が、１２１でトレーニングされ、１２２でテストされ、１２３で評価される。これらのそれぞれについて、以下にさらに詳細に説明する。

【0029】

図２を参照すると、バイアスモダリティ定義が示されている。各新規データセット２０１が、所与のバイアスモダリティ２０４に関連付けられた既存のデータセット２０３と比較される（２０２）。具体的には、トレーニングデータ及び評価データであることを意図したデータを含む利用可能なデータセットのデータ分布が比較される。バイアスモダリティは、データセット間の既知の差異、例えば、原発組織またはテクニカルアッセイプラットフォームなどのメタデータから、これらのどれがデータ分布の分離に寄与するかに基づいて推測され得る。データセット分布の分離は、ＰＣＡ、ＵＭＡＰ、ｔ－ＳＮＥ、Ｋ－Ｓ検定、または当技術分野で知られている他の方法によって分析することができる。いくつかの実施形態では、メタデータまたは統計的比較器が使用される一方で、他の実施形態では、これらの要因の組み合わせが考慮される。例えば、同じ組織タイプ及び類似の統計的分布が、所与のバイアスモダリティとの関連性を作成するよう要求される場合がある。

【0030】

様々な実施形態では、各新規データセットは、バイアスモダリティに関連する複数のデータセットと比較される。いくつかの実施形態では、比較ステップをより効率的に実行するために、各バイアスモダリティに関するメタデータが記憶される。そのような実施形態では、メタデータを、前処理の方法に従って変化させることができる。例えば、プリプロセッサが標準的なスケーラである場合には、所与のモダリティについての平均偏差及び標準偏差が記憶され得る。より複雑なプリプロセッサは、より多くのメタデータを必要とする場合がある。一般に、メタデータは、プリプロセッサの完全な状態を捉え、プリプロセッサを完全に定義する。

【0031】

様々な実施形態では、所与のバイアスモダリティに関する初期データセットは定義的である。すなわち、後続データが初期データセットのデータ分布にマッピングされる。バイアスモダリティ定義は、モデルトレーニングと分離していることが理解されよう。メタトレーニングセットの場合には、モダリティが識別された後で、モデル定義の前に、メタトレーニングセットを定義するために、データセットが同じ分布にマッピングされる。

【0032】

新規データセットの分布が既知のバイアスモダリティに類似している場合、そのデータセットは、そのバイアスモダリティに関連付けられる。新規データセットの分布が既知のバイアスモダリティと類似していない場合、この分布は別のバイアスモダリティと比較され、または何もない場合には、新規のバイアスモダリティが定義され、この新規データセットに関連付けられる。

【0033】

図３を参照すると、複数のデータセットの分離を示す散布図が提供されている。生殖マイクロアレイがクラスター２０１に対応し、生殖全ＲＮＡがクラスター２０２に対応し、消化管全ＲＮＡがクラスター２０３に対応し、消化管エクソームＲＮＡがクラスター２０４に対応する。図示されるように、テクニカルアッセイプラットフォーム（マイクロアレイ対ＲＮＡ－ｓｅｑ）は、ｘ軸（ＰＣ１）上の差異を表し、一方、原発組織（消化管対生殖器）は、ｙ軸（ＰＣ２）上の主デルタを表す。Ｙ軸上の同様の組織タイプ内では、使用される特定のタイプのデータ生成方法（全ＲＮＡ－ｓｅｑ対エクソームＲＮＡ－ｓｅｑ）に基づいて、さらなる分離が観察される。

【0034】

独自の分布を提示する各データセットは、新規のバイアスモダリティに寄与することができる。既にバイアスモダリティが識別されたデータセットを、そのバイアスモダリティに追加することができる。

【0035】

図４を参照すると、各バイアスモダリティにプリプロセッサを適合させるプロセスが示されている。この例では、３つの例示的なバイアスモダリティ、すなわち消化管全ＲＮＡ４０１、生殖エクソームＲＮＡ４０２、及び生殖マイクロアレイ４０３が示される。

【0036】

複数のプリプロセッサのそれぞれが、各バイアスモダリティ４０１・・・４０３に適合される（４０４）。プリプロセッサは、そのバイアスモダリティ内の全てのデータセットに適用される。プリプロセッサは、クオンタイル正規化または標準化（例えば、Ｚスコア）などの統計関数、あるいはＲＵＶ（望ましくない変異を除去する）、ＣｏｍＢａｔ、ＣｏｍＢａｔ－Ｓｅｑ、ＢＵＳ、ＢＵＳ－Ｓｅｑ、ＳＶＡのようなより精巧な方法であり得る。様々な実施形態では、同一のタイプの関数が、所与のプリプロセッサライブラリのための各バイアスモダリティ及び全データセットに適用される。この関数は、所与のバイアスモダリティに個別に適合させるように調整されている。次いで、結果として得られたプリプロセッサトランスフォーマ関数４０５・・・４０７が、それぞれのバイアスモダリティに関連付けられる。これらの関数は、バイアスが最初に識別されたのとほぼ同じ方法で評価される（４０８）。それによってデータセットが現在、それらの本来のバイアスモダリティとは無関係に、整合するかどうかが判定される。

【0037】

図５を参照すると、図３の複数のデータセットの補正を示す散布図が提供されている。

【0038】

図６を参照すると、追加のプリプロセッサを適合させるためのプロセスが示されている。新規データセットがモデルによって分析されるために識別されまたは生成されると、新規データセットは、既存のバイアスモダリティに合うか、または新規バイアスモダリティを表し得る。前者の場合、それらは既存のプリプロセッサ関数で変換されてもよい。新規バイアスモダリティが識別された場合には、そのバイアスモダリティのデータ分布が、以前の変換されたデータセットの整合された分布と比較される。

【0039】

この例では、新規データセット６０１は、新規バイアスモダリティ６０２に関連付けられている。上記にて図４を参照して説明したように、新規プリプロセッサ関数は、次いで４０４において、新規バイアスモダリティ６０２に適合される。この新規プリプロセッサ関数６０２は、次いでプリプロセッサのライブラリに追加される。

【0040】

図７を参照すると、本開示の実施形態による、分類子をトレーニングする方法が示されている。プリプロセッサ７０２・・・７０４のライブラリ７０１は、上記のように組み立てられる。これにより、分類子７０５を、単一のデータセットに加えて、マージされたデータセット７０６でトレーニングすることが可能になる。いずれの場合にも、１つ以上の入力データセット７０７・・・７０９は、トレーニング前にプリプロセッサ関数７０２・・・７０４によって変換される。プリプロセッサライブラリ７０１は、他の点では異種の相互運用可能ではない個々のデータセットから、マージされた（またはメタ）データセット７０６の構築を可能にする。メタデータセット７０６への各入力データセット７０７・・・７０９は、それぞれのバイアスモダリティに対応するプリプロセッサ関数を使用して変換され、各入力データセットをモデルトレーニングに適した共有データ空間にマッピングする。

【0041】

本明細書に記載の方法は、当技術分野で知られている任意の分類子で使用可能であることが理解されよう。適切な分類子の例には、ランダム決定フォレスト、線形分類子、サポートベクターマシン（ＳＶＭ）、及びリカレントニューラルネットワーク（ＲＮＮ）などのニューラルネットワークが含まれる。

【0042】

適切な人工ニューラルネットワークとしては、フィードフォワードニューラルネットワーク、動径基底関数ネットワーク、自己組織化マップ、学習ベクトル量子化、リカレントニューラルネットワーク、ホップフィールドネットワーク、ボルツマンマシン、エコーステートネットワーク、長・短期記憶、双方向性リカレントニューラルネットワーク、階層型リカレントニューラルネットワーク、確率的ニューラルネットワーク、モジュール型ニューラルネットワーク、連想ニューラルネットワーク、ディープニューラルネットワーク、深層信念ネットワーク、畳み込みニューラルネットワーク、畳み込み深層信念ネットワーク、大容量記憶保存・検索ニューラルネットワーク（ｌａｒｇｅｍｅｍｏｒｙｓｔｏｒａｇｅａｎｄｒｅｔｒｉｅｖａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、ディープボルツマンマシン、ディープスタッキングネットワーク、テンソルディープスタッキングネットワーク、スパイクスラブ制限ボルツマンマシン、複合階層深層モデル、ディープコーディングネットワーク、多層カーネルマシン、またはディープＱネットワークがあるが、これに限定されない。

【0043】

図８を参照すると、分類子をテストする方法が示されている。テストデータセット８０１は、１人以上の患者、患者サンプル、または実験試料からの測定値（例えば、臨床試験における患者のコホートからの遺伝子発現値）で構成され得る。各サンプルは、テストデータセット空間内に存在する。テストデータセット空間は、さらなる補正を行うことなく、その特定のデータセットの分布に対応する。これらのデータは、各サンプルをモデル空間にマッピングする適切なバイアスモダリティのために、プリプロセッサ関数８０２を使用して変換される。プリプロセッサ関数は、プリプロセッサ８０３のライブラリから選択される。モデル空間は、上記でさらに説明したように、全てのバイアスモダリティがマッピングされる普遍的分布に対応する。次いで、データは、分類のため分類子８０４に供給され得る。分類子８０４は、モデルの性能を判定／報告するための基礎を形成する、いくつかのテストセット予測（例えば、治療結果、薬剤応答、疾患表現型など）を出力する。

【0044】

正確に言えば、プリプロセッサ８０３及び分類子８０４のライブラリは、シグネチャモデル８０５と称される。様々な実施形態では、分類子８０４からのテストセット予測を含む試験レポート８０６を提供することができる。

【0045】

図９を参照すると、分類子を評価する方法が示されている。テストデータについて図８に関連して上述したプロセスは、各検証データセット９０１、ならびにモデルの商用または現実世界のアプリケーションから生じる将来のデータセットに対して繰り返される。結果として得られる予測は、当技術分野で周知の方法にしたがってモデルの性能を判定するために使用され、検証レポート９０２に掲載される。

【0046】

図１０を参照すると、プロダクション環境で分類子を使用する方法が示されている。テスト及び検証データについて図８～図９に関連して上述したプロセスは、各データセット１００１に対して繰り返されるばかりでなく、モデルの商用または現実世界のアプリケーションから生じる将来のデータセットに対しても繰り返される。結果として得られた治療予測は、当技術分野で周知の方法に従って、関連する臨床結果を含む、シグネチャアッセイレポート１００２を生成するために使用される。

【0047】

ここで図１１を参照すると、複数のデータセットをハーモナイズする方法が示されている。１１０１で、複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。１１０２で、入力データセットが読み込まれる。１１０３で、入力データセットのバイアスモダリティが判定される。１１０４で、プリプロセッサがライブラリから選択される。プリプロセッサは、入力データセットのバイアスモダリティに対応する。１１０５で、プリプロセッサは、共通データ空間にハーモナイズされたデータセットを生成するように入力データセットに適用される。

【0048】

ここで図１２を参照すると、プリプロセッサのライブラリを生成する方法が示されている。１２０１で、入力データセットが読み込まれる。１２０２で、複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。１２０３で、入力データセットが、複数のプリプロセッサに関連付けられた各バイアスモダリティと比較され、それによって、ライブラリが、入力データセットに対応する関連しているバイアスモダリティを有するプリプロセッサを含まないことが判定される。１２０４で、入力データセットを共通データ空間にマッピングするように構成されたプリプロセッサが定義される。１２０５で、プリプロセッサが、ライブラリに追加される。

【0049】

ここで図１３を参照すると、分類子をトレーニングする方法が示されている。１３０１で、複数のプリプロセッサを含むライブラリが読み込まれる。各プリプロセッサは、関連するバイアスモダリティを有し、そのバイアスモダリティを共通データ空間にマッピングするように構成されている。１３０２で、複数の入力データセットが読み込まれる。１３０３で、複数の入力データセットのそれぞれのバイアスモダリティが判定される。１３０４で、ライブラリからのプリプロセッサの１つが、複数の入力データセットのそれぞれに適用されて、共通データ空間に、複数のハーモナイズされたデータセットが生成される。プリプロセッサの１つ１つが、そのそれぞれの入力データセットのバイアスモダリティに対応する。１３０５で、複数のハーモナイズされたデータセットが、共通データ空間におけるマージされたデータセットにマージされる。１３０６で、分類子が、マージされたデータセットを用いてトレーニングされる。

【0050】

追加の実施例
上記で提供された例に加えて、プリプロセッサは、異なるバイアスモダリティを区別するように定義され及び／またはトレーニングされてもよい。例示的なプリプロセッサタイプには、多組織、単一起源組織、平衡アップサンプリング、不均衡、マルチオミック、オミックプラットフォーム特異的（ＤＮＡ＜＞ＲＮＡ＜＞タンパク質；単一細胞＜＞バルクシークエンシング；空間＜＞１Ｄ；試料ハンドリング（ＦＦＰＥ＜＞新鮮凍結＜＞吸引液＜＞アーカイブ；顕微解剖＜＞スクレープオール）；組織コンパートメント（無細胞（循環型）＜＞腫瘍＜＞正常；原発性＜＞転移性）；疾患モデル（例えば、腫瘍＜＞細胞株＜＞マウスモデル＜＞オルガノイド）；人口統計学（例えば、地理学、民族性、年齢、性別に基づく）、臨床（治療ライン；疾患段階；治療歴、例えば、未処置＜＞難治性）が含まれる。

【0051】

これらのバイアスモダリティのいくつかについて、以下で詳細に説明する。しかしながら、本開示によるプリプロセッサシステムは、上述した様々なバイアスモダリティのみならず、当技術分野において周知の他の多くのものにも適用可能であることが理解されよう。

【0052】

第１の実施例では、プラットフォーム／化学プリプロセッサが提供される。プラットフォーム／化学プリプロセッサは、異なるサンプル調製化学またはシークエンシングプラットフォームを使用して、同じタイプの分析物（例えば、ＲＮＡ存在量またはＤＮＡ突然変異）を測定したデータをハーモナイズするように機能するマッピング関数である。モデルが、例えば、ＸｅｒｎａＴＭＥＰａｎｅｌと同様に、マイクロアレイプラットフォームからの遺伝子発現データでトレーニングされる場合、ＲＮＡシークエンシングから得られる入力データに対して、プラットフォームプリプロセッサが使用されることになる。同じタイプのデータが同じシークエンシングプラットフォーム、例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑマシンから得られた場合でも、バイアスモダリティを作成できる、全ＲＮＡ対ｍＲＮＡ濃縮などの別個の化学物質を使用して、組織サンプルを処理することができる。類似の例は、全エクソームシークエンシングに対して標的遺伝子パネルにより測定されたＤＮＡバリアントであろう。

【0053】

そのようなプリプロセッサは、古いマイクロアレイプラットフォームからの履歴データでモデルがトレーニングされている場合に特に有用である。しかしながら、臨床試験アッセイは、全ＲＮＡシークエンシングを使用する場合があり、一方で、市販のＲＵＯ診断キットは、ｍＲＮＡシークエンシングを使用し、併用診断テストでは、標的遺伝子シークエンシングが使用されることになる。このモデルを規制されたデバイスに臨床開発及び商業開発するのを容易にするために、プラットフォーム／化学プリプロセッサが必要である。

【0054】

第２の実施例では、多組織プリプロセッサが提供される。複数組織プリプロセッサは、マッピング機能が、様々なソース組織からの入力データに基づいて（理想的にはほぼ等しい割合で）トレーニングされるプリプロセッサである。２つ以上の組織を含めることにより、身体の異なる組織に由来するサンプルを比較する際に、固有の生物学的不均一性に起因して、データランドスケープの大部分を捉えることが可能になる。一例として、肝臓癌サンプルは、脳などの他の領域の腫瘍とは発現値及び表現型が異なる。プリプロセッサにこれらの組織タイプの両方を含めることにより、下流のモデルでは、同等の出力を生成する際に、組織特有の差異を考慮することが可能となる。例えば、出力は、脳組織に対する肝臓の免疫原性または血管原性を直接比較することできる。より多くの組織タイプは、特に表現型データ空間のエッジ周辺では、モデルの予測性能を向上させる結果になる場合がある。

【0055】

このタイプのプリプロセッサは、下流のモデル／デバイスが全組織／全疾患であることが意図されており、かつ一貫した技術プラットフォーム／化学が全てのデータ生成に使用されるとすれば、望ましい場合がある。そのようなプリプロセッサは、装置の目的が、治療のための異なる疾患適応症の選択を誘導することであるならば、役立つこともある。

【0056】

例示的な実施形態では、ＸｅｒｎａＴＭＥＰａｎｅｌは、モデルによって学習された免疫原性シグナルと血管新生シグナルとの交差に基づいて４つの疾患サブタイプを出力する。多組織プリプロセッサは、データ空間における他の組織タイプに対して、その組織タイプの基礎となる生物学に関するコンテキストを提供する。多組織プリプロセッサを開発するために、ＴＣＧＡの異なる１８種類の組織を使用した。それらの原発組織に基づく患者サンプルの相対位置を理解するために、これらのサンプルをモデルにかけた際に、平均血管新生スコア及び平均免疫原性スコアを計算した。

【0057】

第３の実施例では、単一組織プリプロセッサが提供される。単一組織プリプロセッサは、データ空間が適切にマッピングされることを保証するために、十分な数のサンプル（ｎ＝＞７５）が分析される限り、単一組織タイプから収集されたサンプルを用いて構成することができる。単一組織プリプロセッサは、組織のソースに起因する不均一性及び生物学的変動性を導入することなく、同じ組織タイプに由来するサンプルを互いに相対的に比較することを可能にする。

【0058】

そのようなプリプロセッサは、臨床試験の文脈において有用である。臨床試験は一般に、腫瘍の原発部位を含む特定の適応症に基づいて実施される。したがって、データは１つの組織ベースで生成される。これらの臨床試験データは一般に、同じプラットフォーム上で生成され、それによって観察されるバッチ効果を制約する。さらに、併用の診断デバイスは、適応症（組織）に特異的である。したがって、付随する診断部に組み込まれたモデルの場合、単一組織プリプロセッサが適切である。

【0059】

例示的な実施形態では、ＸｅｒｎａＴＭＥＰａｎｅｌは、卵巣癌において薬剤ｎａｖｉｃｉｘｉｚｕｍａｂを使用するための併用診断装置を提供する。この装置による分析のためのデータ処理をサポートするために、卵巣（またはより一般的には婦人科）癌組織に特異的な単一組織プリプロセッサを開発した。

【0060】

第４の実施例では、平衡化プリプロセッサ（ＢａｌａｎｃｅｄＰｒｅｐｒｏｃｅｓｓｏｒ）が提供される。異なるバイアスモダリティからのサンプルの不均一な分布は、ハーモナイズされたデータ空間の達成を困難にすることがある。プリプロセッサ関数をトレーニングする前に、全体のサンプル数を増加させ、バイアスモダリティ間の相対的な差異を最小化するために、標本として不十分であるバイアスモダリティからのサンプルを、同時的に、共通の倍数までインシリコで複製（アップサンプリング）することができる。例えば、多組織プリプロセッサの開発を考えると、十分な数のサンプルが必要とされ、これらのサンプルは、入力組織タイプのそれぞれの間に大まかに均等に配分される。実際には、複数の異なる組織タイプにわたるサンプルを様々な量で使用することができる。プリプロセッサが、組織毎に異なる数のサンプルを有する複数の組織タイプに基づいて開発される場合、過剰に発現する組織へのバイアスが導入されることになる。アップサンプリング、つまり組織タイプごとのサンプルのデジタル複製は、組織タイプごとのサンプルの不均一な分布によって導入されるバイアスを制限する。追加の実施形態では、アップサンプリングは、デノボ（ｄｅｎｏｖｏ）で作成されたデジタル複製の生成によって、一般または特定の組織における発現プロファイルの観察された変動をシミュレーションすることによって提供される。

【0061】

そのようなプリプロセッサは、一般的に、ロバストなプリプロセッサを開発するのに十分な量のサンプルを、別の方法では利用できない場合に有用である。インシリコの複製によるアップサンプリングは、有用なプリプロセッサをトレーニングするのに十分な数のデータポイントを達成する手段である。

【0062】

第５の実例では、マルチオミックプリプロセッサが提供される。モデルトレーニング及びモデル予測に使用されるデータは、いくつものオミクス分析タイプから導出可能である。これらには、ゲノム、プロテオーム、トランスクリプトーム、メタボローム、及びエピゲノムを表すデータが含まれるが、これらに限定されない。細胞／組織の一括収集によって、または物理的に分離された単一の細胞から、オミクスデータを生成することができる。さらに、オミクスデータは、リニアシークエンス、２次元マトリクス、または相対的な空間位置を含む３次元で測定することができる。

【0063】

モデルによっては、トレーニング及び／または分類の前に、均一なデータ空間に変換する必要のあるオミクスデータの組み合わせを入力として受け取るものもあり得る。マルチオミックプリプロセッサは、異なるオームから収集されたデータをハーモナイズするようにトレーニングされたマッピング関数である。

【0064】

そのようなプリプロセッサは、組織及び体液の分類に有用であり、マルチオミックデータの利点を生かした高感度かつ特異的な分類が可能である。特定の分析プラットフォーム、例えば、ＭｉｓｓｉｏｎＢｉｏＴａｐｅｓｔｒｉａｎｄＣｏｄｅｔａＢｉｏｓｃｉｅｎｃｅｓは、同じサンプルに由来するＤＮＡ、ＲＮＡ、及びタンパク質を規定どおりに測定する。これら全てのオームを合同にモデル化するには、試料内の全てのオームの値を関連づける必要がある。したがって、マルチオミックプリプロセッサは、統合データに依存するモデルに対して有用である。

【0065】

第６のサンプルでは、バルク対単一細胞プリプロセッサが提供される。バルクシークエンシングでは、標的分子は、複数の細胞型からなる可能性が高い細胞または組織の集団から抽出される。単一細胞シークエンシングでは、シークエンシングの前に細胞が物理的に分離される。場合により、単一細胞は、シークエンシング前に細胞表面マーカーなどの様々な属性に基づいて分類されることがある。それぞれの技術を比較した場合の出力には差異がある。バルクシークエンシングは、組織サンプル全体に関してより広い画像を提供するが、単一細胞は、関心のある細胞のサブグループまたはタイプに関する情報を直接提供する。バルクシークエンシングは、単一細胞よりもデータにノイズまたは不均一性が少ないという点で有利であるが、バルクには、異なる細胞間で生物学的に関心を持たれる可能性のあるシグナルを平均化してしまうという欠点がある。ｓｃＲＮＡシークエンシングデータはスパースであり、バルクＲＮＡ－Ｓｅｑへのマッピングに特定の問題がある。

【0066】

そのようなプリプロセッサは、単一細胞データ及びバルクシークエンシングデータの間でマッピングを希望する場合に有用である。目標は、単一細胞の文脈におけるこれらの特徴の相対値に基づいて、バルクシークエンシングから特徴のセットを推定することであり得る。バルクシークエンシングは、単一細胞よりも安価で、より広く利用可能であり、より再現性があるため、今日では、規制された環境における臨床ツールとして、バルクシークエンシングが好まれている。それにもかかわらず、単一細胞データでモデルをトレーニングし、その後、バルクシークエンシングによって生成された臨床データを分析するために、そのモデルを使用したい場合がある。

【0067】

第７の実施例では、サンプル処理プリプロセッサが提供される。サンプル処理プリプロセッサは、データ生成の前に組織サンプルを異なる方法で処理される場合に導入されるバッチ効果を軽減するようにトレーニングされている。バイアスモダリティは、任意の数の組織収集、保存、及び処理方法と関連付けることができる。がん診断分野では、例えば、サンプルは新鮮凍結生検、生検吸引液、コア針生検、ホルマリン固定パラフィン包埋（ＦＦＰＥ）スライドなどから得ることができる。サンプルが保存されていた期間、例えば、新鮮なもの対アーカイブされていたものでは、バイアスが生じる。さらに、組織が抽出及びシークエンシングのために収集される手法によっては、例えば顕微解剖対スクレープオールでは、バイアスが導入される。

【0068】

そのようなプリプロセッサは、ＸｅｒｎａＴＭＥＰａｎｅｌなどの臨床試験アッセイ（ＣＴＡ）で使用するためのモデルを開発する場合に有用である。ＣＴＡの分析的検証研究では、保存用のＦＦＰＥ組織が使用される場合があるが、臨床試験中の意図された使用は新鮮凍結生検であり得る。サンプル処理プリプロセッサにより、トレーニングされたモデルを、分析検証及び臨床実験の使用の両方に対して展開することが可能になる。

【0069】

次に図１４を参照すると、本明細書で説明されるプリプロセッサのシステムは、データフライホイールを作成するためにデータ管理システムと統合されていてもよい。データフライホイールは、キュレーション、アノテーション付け、及びバイアス調整されたデータ収集の戦略上の使用及び再利用によって、臨床バイオマーカーなどのデータ製品の運動量を加速的に増加させる。

【0070】

図１４は、例示的なデータ管理システムである、ＧｅｎｉａｌｉｓによるＥｘｐｒｅｓｓｉｏｎと、プリプロセッサのシステムとの統合を示す。別個のデータセットが、プリプロセッサのシステムを用いて共通のデータプレーンに変換される。ＧｅｎｉａｌｉｓＥｘｐｒｅｓｓｉｏｎは、元のデータと同じ方法で管理される全てのバージョンの変換済みデータ（ＭＬ対応データとも称される）に、データ管理機能を拡張する。

【0071】

特に、処理された発現プロファイル１４０１は、ＲＮＡ－Ｓｅｑ、マイクロアレイ、ＥｄｇｅＳｅｑ、またはＮａｎｏＳｔｒｉｎｇなどの様々なデータソースを含み得る。サンプル選択１４０２は、サンプルの品質管理、ならびに外れ値の検出及び他のデータクリーンアップタスクを含んでいてよい。バイアス調整１４０３は、本明細書で説明するように、プリプロセッサ１４０４のライブラリを適用する。結果として得られた調整データは、複数のデータ空間１４０５・・・１４０６に提供され、次に疾患モデリングプラットフォーム１４０７に提供されてよい。

【0072】

このデータフライホイールアーキテクチャは、新規の全てのデータセットが増えるたびに、システム全体の価値を生み出す可能性を高めるように、データセットの再利用を可能にする。したがって、バイオマーカーモデルは、時間と共に増加するペースで開発される可能性がある。

【0073】

上記の使用事例に加えて、本開示は、連合学習の文脈で適用され得る。連合学習は、データ自体を交換することなく、共同でアルゴリズムをトレーニングすることによって、データガバナンス及びプライバシーの問題に対処することを目指した学習パラダイムである。バイオマーカーモデルをトレーニング及び検証するために使用される生物医学のオミクスデータセットは、別個の当事者が所有している場合があり、対応する計算環境に寄託されている場合がある。連合パートナーの計算環境内のバイオマーカーモデルを学習及び検証するために、連合学習システムを採用することができる。

【0074】

パートナーデータセットは、その固有のバイアスの影響を受ける。プリプロセッサのシステムは、別個のオミクスデータセットにおけるバイアス調整を自動化するための重要な技術であり、また連合学習トレーニングアルゴリズムに組み込むことができる。

【0075】

臨床バイオマーカーをトレーニング及び検証するために必要なデータは、典型的には、臨床研究、診断、及び製薬の関係者が所有している。これらのデータ所有者の各々は、データを競合他社と共有したがらない。所有者らは、自分たちの専有データを、最大限の機密性及び高い潜在的価値があると考えている場合がある。さらに、データを共有する権利が法的に制約される場合がある。したがって、連合学習システムは、モデル開発のためにデータ共有に対する気後れまたは制限を克服するための１つのソリューションとなる。プリプロセッサにより、連合パートナー間でバイアスモダリティを共有できるようになる。したがって、プリプロセッサは、潜在的に破壊的なビジネスアプローチを解く鍵である。

【0076】

本明細書に記載のプリプロセッサは、様々な環境に展開可能であることが理解されるであろう。例えば、プリプロセッサシステムは、マイクロサービスのセットとして展開されてもよい。マイクロサービスアーキテクチャは、各マイクロサービスがより大規模なシステム全体の１つの小部分となる設計パターンである。各マイクロサービスは、最終結果に寄与する特定の限られた範囲のタスクを実行する。例えば、ＡＰＩが、「プリプロセッサを適合させる」または「プリプロセッサのライブラリから対応するプリプロセッサを識別する」を含むタスクに対して定義され得る。マイクロサービスは、明確に定義されたＡＰＩを介して通信する独立したワークフローである。マイクロサービスアーキテクチャにより、アプリケーションの拡張が容易になり、開発が迅速になる。

【0077】

別の例では、プリプロセッサシステムが、分散アーキテクチャで展開されてもよい。分散システムは、ネットワーク化された異なるコンピュータ上にコンポーネントが配置されたシステムであり、これらのコンポーネントは、任意のシステムから互いにメッセージを受け渡しすることによって通信し、各自のアクションを調整する。これらのコンポーネントは、本明細書の場合、それぞれトレーニングデータの一部を保持する複数の分散サーバにおいてバイオマーカー分類子をトレーニングするという共通の目標を達成するために、相互に作用し合う。

【0078】

ここで図１５を参照すると、コンピューティングノードの一例の概略図が示されている。コンピューティングノード１０は、適切なコンピューティングノードの一例にすぎず、本明細書で説明する実施形態の使用または機能の範囲について何らかの限定を示唆することを意図したものではない。ともかくもコンピューティングノード１０は、上述の機能セットのいずれであっても具現化及び／または実施することができる。

【0079】

コンピューティングノード１０には、多数の他の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成と共に動作するコンピュータシステム／サーバ１２が存在する。コンピュータシステム／サーバ１２と共に使用するのに適している可能性のある周知のコンピューティングシステム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、及び上記のシステムまたはデバイスのいずれかを含む分散型クラウドコンピューティング環境などを含むが、これらに限定されない。

【0080】

コンピュータシステム／サーバ１２は、コンピュータシステムによって実行されるプログラムモジュールなどのコンピュータシステムにより実行可能な命令の一般的なコンテキストで記述することができる。概して、プログラムモジュールは、特定のタスクを実施するまたは特定の抽象的なデータタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造など、を含み得る。コンピュータシステム／サーバ１２は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウドコンピューティング環境で実施することができる。分散型クラウドコンピューティング環境において、プログラムモジュールは、メモリ記憶デバイスを含むローカル及び遠隔コンピュータシステム記憶媒体両方に位置付けられてもよい。

【0081】

図１５に示されているように、コンピューティングノード１０内のコンピュータシステム／サーバ１２は、汎用コンピューティングデバイスの形態で示されている。コンピュータシステム／サーバ１２のコンポーネントには、１つ以上のプロセッサまたは処理ユニット１６、システムメモリ２８、及びシステムメモリ２８を含む様々なシステムコンポーネントをプロセッサ１６に結合するバス１８が含まれてもよいが、これらに限定されない。

【0082】

バス１８は、メモリバスまたはメモリコントローラ、周辺バス、アクセラレイティッドグラフィックスポート、及び様々なバスアーキテクチャのいずれかを使用するプロセッサまたはローカルバスを含む、いくつかのタイプのバス構造のうちの１つ以上である。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、ペリフェラルコンポーネントインターコネクトエクスプレス（ＰＣＩｅ）、及びアドバンストマイクロコントローラバスアーキテクチャ（ＡＭＢＡ）が含まれる。

【0083】

コンピュータシステム／サーバ１２は、通常、様々なコンピュータシステム可読媒体を含む。このような媒体は、コンピュータシステム／サーバ１２によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及び非リムーバブル媒体の両方を含む。

【0084】

システムメモリ２８は、ランダムアクセスメモリ（ＲＡＭ）３０及び／またはキャッシュメモリ３２などの揮発性メモリの形態のコンピュータシステム可読媒体を含むことができる。コンピュータシステム／サーバ１２は、他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。ほんの一例として、ストレージシステム３４は、非リムーバブルな不揮発性磁気媒体（図示せず、通常「ハードドライブ」と呼ばれる）に対する読み出し及び書き込みのために設けられ得る。図示されていないが、リムーバブルの不揮発性磁気ディスク（例えば、「フロッピーディスク」）からの読み出し及び書き込みを行う磁気ディスクドライブと、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光学媒体などの、リムーバブルの不揮発性光ディスクからの読み出しまたは書き込みを行う光ディスクドライブを設けることができる。こうした事例では、バス１８には１つ以上のデータメディアインターフェースによってそれぞれ接続可能である。あとでさらに図面で描いて説明するように、メモリ２８は少なくとも１つのプログラム製品を含むことができ、このプログラム製品は、本開示の実施形態の機能を実行するように構成されたプログラムモジュールのセットを（例えば、少なくとも１つ）有する。

【0085】

プログラムモジュール４２（少なくとも１つ）のセットを有するプログラム／ユーティリティ４０は、オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータと同様に、限定ではなく例として、メモリ２８に格納されてもよい。オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータ、またはそれらの一部の組み合わせのそれぞれは、ネットワーク環境の実装を含むことができる。プログラムモジュール４２は、一般に、本明細書で説明した実施形態の関数及び／または方法論を実行する。

【0086】

コンピュータシステム／サーバ１２はまた、キーボード、ポインティングデバイス、ディスプレイ２４などの１つ以上の外部デバイス１４；ユーザがコンピュータシステム／サーバ１２とインタラクトできるようにする１つ以上のデバイス；及び／またはコンピュータシステム／サーバ１２が１つ以上の他のコンピューティングデバイスと通信できるようにする任意のデバイス（例えば、ネットワークカード、モデムなど）、と通信することもできる。このような通信を、入力／出力（Ｉ／Ｏ）インターフェース２２を介して行うことができる。さらに、コンピュータシステム／サーバ１２は、ローカルエリアネットワーク（ＬＡＮ）、汎用ワイドエリアネットワーク（ＷＡＮ）、及び／またはパブリックネットワーク（例えばインターネット）などの１つ以上のネットワークと、ネットワークアダプタ２０を介して通信することができる。図示されているように、ネットワークアダプタ２０は、バス１８を介してコンピュータシステム／サーバ１２の他のコンポーネントと通信する。図示されていないが、他のハードウェアコンポーネント及び／またはソフトウェアコンポーネントを、コンピュータシステム／サーバ１２と併せて使用してもよいことを理解されたい。例には、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、及びデータアーカイバル記憶システムなどが含まれるが、これらに限定されない。

【0087】

本開示を、システム、方法、及び／またはコンピュータプログラム製品として具現化することができる。コンピュータプログラム製品は、本開示の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその媒体上に有するコンピュータ可読記憶媒体（複数可）を含み得る。

【0088】

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持し保存することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子式ストレージデバイス、磁気ストレージデバイス、光学式ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、またはこれらの任意の好適な組み合わせとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例を非網羅的に挙げると、以下のようなものがある。すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、メモリースティック、フロッピーディスク、命令が記録されたパンチカードまたは溝内の隆起構造などの機械的に符号化されたデバイス、及び上記の任意の好適な組み合わせである。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくはその他の自由に伝播する電磁波、導波管もしくはその他の伝送媒体を伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または電線を介して伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。

【0089】

本明細書に記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／プロセッシングデバイスに、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／またはワイヤレスネットワークを介して外部のコンピュータもしくは外部ストレージデバイスに、ダウンロードすることができる。ネットワークは、銅製の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び／またはエッジサーバを含み得る。各コンピューティング／処理デバイスのネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に保存する。

【0090】

本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋、もしくはその種の他のものなどのオブジェクト指向プログラミング言語や、「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで、部分的にユーザのコンピュータで、スタンドアローンのソフトウェアパッケージとして実行すること、部分的にユーザのコンピュータで実行し、部分的にリモートコンピュータで実行すること、または完全にリモートコンピュータもしくはサーバで実行することが可能である。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）もしくはワイドエリアネットワーク（ＷＡＮ）を含む、任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または外部のコンピュータに（例えば、インターネットサービスプロバイダを用いるインターネット経由で）接続することができる。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本開示の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して、電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。

【0091】

本開示の態様は、本開示の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／またはブロック図を参照して本明細書で説明される。フローチャート図及び／またはブロック図の各ブロック、及びフローチャート図及び／またはブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施できることが理解されよう。

【0092】

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／またはブロック図の１つ以上のブロックで指定される機能／行為を実施するための手段を作成するような機械を作り出し得る。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に保存することもでき、このコンピュータ可読記憶媒体は、その中に保存された命令を有するコンピュータ可読記憶媒体が、コンピュータ、プログラム可能なデータ処理装置、及び／または他のデバイスに、フローチャート及び／またはブロック図の１つ以上のブロックで指定される機能／行為の態様を実施する命令を含む製造品を含むような特定の方法で機能するように指示することができる。

【0093】

また、コンピュータ可読プログラム命令をコンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードすることで、一連の操作ステップをコンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイス上で実行し、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスで実行される命令がフローチャート及び／またはブロック図の１つ以上のブロックで指定される機能／行為を実施するような、コンピュータ実施プロセスを生成することができる。

【0094】

図中のフローチャート及びブロック図は、本開示の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示している。この関連で、フローチャートまたはブロック図の各ブロックは、指定された論理機能（複数可）を実施するための１つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表し得る。いくつかの代替実施態様では、ブロックに記された機能が、図に記された順序に従わずに行われることがある。例えば、連続して示される２つのブロックが、含まれている機能に応じて、実際には実質的に同時に実行されることがあり、または場合によってはブロックが逆の順序で実行されることがある。また、ブロック図及び／またはフローチャート図の各ブロック、及びブロック図及び／またはフローチャート図中のブロックの組み合わせは、指定された機能もしくは行為を実行する、または特殊用途のハードウェアとコンピュータ命令との組み合わせを実行する、特殊用途のハードウェアベースシステムによって実施することができることにも留意されたい。

【0095】

本開示の様々な実施形態の説明は、例示の目的で提示されたが、開示された実施形態を網羅し、または限定することを意図したものではない。多くの修正形態及び変形形態は、説明される実施形態の範囲及び趣旨から逸脱することなく、当業者には明白である。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用的応用または技術改善を最もよく説明するために選択され、あるいは当業者が本明細書に開示された実施形態を理解できるようにするために選択されたものである。

【図1】