IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エフ.ホフマン−ラ ロシュ アーゲーの特許一覧

特開2024-28191デジタルPCR漏洩検出ならびに補正方法およびシステム
<>
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図1
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図2
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図3
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図4
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図5
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図6
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図7
  • 特開-デジタルPCR漏洩検出ならびに補正方法およびシステム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024028191
(43)【公開日】2024-03-01
(54)【発明の名称】デジタルPCR漏洩検出ならびに補正方法およびシステム
(51)【国際特許分類】
   G01N 21/64 20060101AFI20240222BHJP
   G01N 35/02 20060101ALI20240222BHJP
   G01N 35/00 20060101ALI20240222BHJP
   G06T 7/00 20170101ALN20240222BHJP
【FI】
G01N21/64 F
G01N35/02 A
G01N35/00 A
G06T7/00 350B
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023132228
(22)【出願日】2023-08-15
(31)【優先権主張番号】22191070
(32)【優先日】2022-08-18
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】63/399,039
(32)【優先日】2022-08-18
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.THUNDERBOLT
2.JAVA
3.SWIFT
4.PYTHON
(71)【出願人】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【弁理士】
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】ミーガン・ゴンザレス
(72)【発明者】
【氏名】ラルス・シュモール
(72)【発明者】
【氏名】ジーン・ヘレン・ベレット
【テーマコード(参考)】
2G043
2G058
5L096
【Fターム(参考)】
2G043AA03
2G043AA04
2G043BA16
2G043CA04
2G043DA05
2G043EA01
2G043FA01
2G043LA03
2G043NA01
2G043NA02
2G043NA05
2G058CC02
2G058GA01
5L096DA02
5L096GA51
5L096HA11
5L096JA22
5L096KA04
(57)【要約】      (修正有)
【課題】マイクロ流体デバイス内の1つのパーティションから周囲のパーティションへの漏洩を識別する方法を提供する。
【解決手段】漏洩を検出することは、パーティションの位置、蛍光強度、およびパーティションが分析物に対して陽性であるかどうかを記述する入力データを含み得る。機械学習モデルは、漏洩を有するまたは漏洩の可能性が高いパーティションを識別するために、広範な入力データセットで訓練され得る。いくつかの実施形態では、機械学習モデルで使用される特徴は、パーティション自体のみではなく、パーティションの周囲の近傍を記述する値を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
マイクロ流体デバイスにおける漏洩を検出する方法であって、前記マイクロ流体デバイスが複数の試験パーティションを有し、前記方法が、
試験入力データを受信することであって、前記試験入力データが、前記複数の試験パーティションの各パーティションについて、前記マイクロ流体デバイスの1つまたは複数の画像の画素から取得される以下の特性:
前記マイクロ流体デバイス内の前記パーティションの位置、
前記パーティションに関連する画素の強度の値、および
前記パーティションに分析物が存在しないまたは存在する状態
を含む、試験入力データを受信することと、
前記複数の試験パーティションのうちの第1のパーティションが漏洩によって特徴付けられるかどうかの分類を、機械学習モデルを使用して決定することであって、前記機械学習モデルが、前記試験入力データを使用し、
訓練入力データを受信することであって、前記訓練入力データが、複数の訓練用マイクロ流体デバイスの画像の画素から取得され、各訓練用マイクロ流体デバイスが第1の複数のパーティションを有し、前記訓練入力データが、各パーティションについて、
前記試験入力データと同じ特性、および
前記第1の複数のパーティションの各パーティションについてパーティションが漏洩によって特徴付けられるかどうかの既知の分類を示す第1のラベル
を含む、訓練入力データを受信することと、
前記訓練入力データを使用して前記機械学習モデルが実行されるとき、前記機械学習モデルの出力が前記第1のラベルの対応するラベルと一致するかまたは一致しないかに基づいて、前記訓練入力データを使用して前記機械学習モデルのパラメータを最適化することであって、前記機械学習モデルの出力が、パーティションが漏洩によって特徴付けられるかどうかを指定する、前記機械学習モデルのパラメータを最適化することと
によって訓練される、機械学習モデルを使用して決定することと
を含む、方法。
【請求項2】
前記複数の試験パーティションの各パーティションが六角形である、請求項1に記載の方法。
【請求項3】
前記機械学習モデルが、前記第1のパーティションから閾値距離以内のパーティションの状態の統計値を使用する、請求項1に記載の方法。
【請求項4】
前記統計値が、共通軸に沿ったパーティションの前記状態のものである、請求項3に記載の方法。
【請求項5】
前記機械学習モデルが、前記複数の試験パーティションのうちの複数のパーティションにおける画素の強度を表す値を使用する、請求項1に記載の方法。
【請求項6】
前記試験入力データの前記特性が、前記複数の試験パーティションの各パーティションについて、前記パーティションが有効であるか無効であるかの分類をさらに含む、請求項1に記載の方法。
【請求項7】
前記マイクロ流体デバイスがデジタルPCRプレートである、請求項1に記載の方法。
【請求項8】
前記機械学習モデルが決定木学習モデルである、請求項1に記載の方法。
【請求項9】
前記画素の前記強度が蛍光強度である、請求項1に記載の方法。
【請求項10】
前記特性が、前記パーティションに関連する複数の強度の強度毎の値を含み、
前記複数の強度が、異なる蛍光チャネルの強度を含む
請求項1に記載の方法。
【請求項11】
前記分類を決定することが、前記複数の強度のうちの第1の強度を使用して、前記第1のパーティションが漏洩によって特徴付けられると決定することと、
前記複数の強度のうちの前記第1の強度において、前記第1のパーティションが漏洩によって特徴付けられると決定される場合に、前記複数の強度のうちの他の全ての強度において、前記第1のパーティションが漏洩によって特徴付けられると決定することと
を含む、請求項10に記載の方法。
【請求項12】
前記複数の試験パーティションの各パーティションについて、前記パーティションに関連する前記画素の前記強度の前記値を使用して、前記分析物の前記状態を決定することをさらに含む、請求項1に記載の方法。
【請求項13】
前記分類が、前記第1のパーティションが漏洩によって特徴付けられることであると決定することをさらに含む、請求項1に記載の方法。
【請求項14】
前記分類が第1の分類であり、
前記方法が、前記第1のパーティション以外の前記複数の試験パーティションの各パーティションについて、複数の第2の分類を決定することをさらに含む、請求項1に記載の方法。
【請求項15】
漏洩を示す前記第1の分類または前記第2の分類を有する前記複数の試験パーティションのパーティションの量を決定することと、
前記量を閾値と比較することと、
前記比較に基づいて、前記複数の試験パーティションがさらなる分析に適していないことを出力することと
をさらに含む、請求項14に記載の方法。
【発明の詳細な説明】
【背景技術】
【0001】
背景
デジタルポリメラーゼ連鎖反応(デジタルPCRまたはdPCR)は診断技術である。デジタルPCR消耗品は、パーティションのアレイ(すなわち、ウェル)を含む。核酸分子(例えば、DNA、cDNAまたはRNA)を含む試料がウェルに分配される。ウェル内の核酸分子が増幅され、検出剤/アッセイ(例えば、蛍光標識)と反応させる。検出剤は、パーティションにおいて検出されるか、または検出されず、それに応じてパーティションが分類される。ウェル内の核酸分子の種類および種類ごとのウェルの数に関する情報が使用されて、試料を分析し、試料が取得された対象を診断することができる。
【0002】
試料をパーティショニングする目的は、独立した蛍光測定値を取得することである。dPCRを実行するために試料をパーティショニングするときに生じる問題は、1つのパーティションからの材料が1つのパーティションの縁部を横切って別のパーティションに漏洩する可能性があることである。漏洩は、過剰充填、過少充填、パーティションを画定する材料の欠陥、または取り扱いのエラーの結果であり得る。プレートを横切る試料の過少充填または過剰充填は、漏洩からの高い蛍光測定値を伴うウェルの増加をもたらす可能性がある。さらなるパーティションへの漏洩は、さらなるパーティションの測定が高い蛍光値を明らかにするため、標的の存在の過大評価をもたらす可能性がある。漏洩のあるパーティションを識別することは、診断アッセイを改善するために望ましい。これらおよび他の必要性が対処される。
【発明の概要】
【0003】
簡単な概要
本開示におけるシステムおよび方法は、1つのパーティションから周囲のパーティションへの漏洩を識別する。漏洩を検出することは、パーティションの位置、蛍光強度、およびパーティションが分析物に対して陽性であるかどうかを記述する入力データを含み得る。機械学習モデルは、漏洩を有するまたは漏洩の可能性が高いパーティションを識別するために、広範な入力データセットで訓練され得る。いくつかの実施形態では、機械学習モデルにおいて使用される特徴は、パーティション自体のみではなく、パーティションの周囲の近傍を記述する値を含む。漏洩のあるパーティションは、デジタルPCRシステムにおいて使用するためのプレート上の六角形パーティションであってもよい。
【0004】
実施形態は、マイクロ流体デバイス内の漏洩を検出する方法を含み得る。方法は、試験入力データを受信することを含み得る。試験入力データは、複数の試験パーティションの各パーティションについて、マイクロ流体デバイスの1つまたは複数の画像の画素から取得される特性を含み得る。特性は、マイクロ流体デバイス内のパーティションの位置、パーティションに関連する画素の強度の値、およびパーティションに分析物が存在しないかまたは存在する状態を含み得る。方法は、さらに、機械学習モデルを使用して、複数の試験パーティションの第1のパーティションが漏洩によって特徴付けられるかどうかの分類を決定することを含み得る。機械学習モデルは、試験入力データを使用し得る。機械学習モデルは、訓練入力データを受信することによって訓練され得る。訓練入力データは、各訓練用マイクロ流体デバイスが複数の第1のパーティションを有する複数の訓練用マイクロ流体デバイスの画像の画素から取得されてもよい。訓練入力データは、パーティションごとに、試験入力データと同じ特性と、複数の第1のパーティションの各パーティションについてパーティションが漏洩によって特徴付けられるかどうかの既知の分類を示す第1のラベルとを含む。方法はまた、訓練入力データを使用して機械学習モデルが実行されるとき、機械学習モデルの出力が第1のラベルの対応するラベルと一致するかまたは一致しないかに基づいて、訓練入力データを使用して機械学習モデルのパラメータを最適化することを含み得る。機械学習モデルの出力は、パーティションが漏洩によって特徴付けられるかどうかを指定し得る。この態様の他の実施形態は、それぞれが方法の動作を実行するように構成された、対応するコンピュータシステム、装置、および1つまたは複数のコンピュータ記憶装置に記録されたコンピュータプログラムを含む。
【0005】
実施形態は、マイクロ流体デバイス内の漏洩を検出するための機械学習モデルを訓練する方法を含み得る。方法は、訓練入力データを受信することを含み得る。訓練入力データは、複数の訓練用マイクロ流体デバイスの画像の画素から取得され得る。各訓練用マイクロ流体デバイスは、複数の第1のパーティションを有し得る。訓練入力データは、パーティションごとに、各訓練用マイクロ流体デバイス内のパーティションの位置、パーティションに関連する画素の強度の値、パーティションに存在しないかまたは存在する分析物の状態、および複数の第1のパーティションの各パーティションについてパーティションが漏洩によって特徴付けられるかどうかの既知の分類を示す第1のラベルを含み得る。方法は、さらに、訓練入力データを使用して機械学習モデルが実行されるとき、機械学習モデルの出力が第1のラベルの対応するラベルと一致するかまたは一致しないかに基づいて、訓練入力データを使用して機械学習モデルのパラメータを最適化することを含み得る。機械学習モデルの出力は、パーティションが漏洩によって特徴付けられるかどうかを指定し得る。この態様の他の実施形態は、それぞれが方法の動作を実行するように構成された、対応するコンピュータシステム、装置、および1つまたは複数のコンピュータ記憶装置に記録されたコンピュータプログラムを含む。
【0006】
1つまたは複数のコンピュータのシステムは、動作中にシステムに動作を実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステムにインストールすることによって、特定の動作またはアクションを実行するように構成され得る。1つまたは複数のコンピュータプログラムは、データ処理装置によって実行されるとき、装置に動作を実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成され得る。
【0007】
本発明の実施形態の特性および利点の良好な理解は、以下の詳細な説明および添付の図面を参照して得られ得る。
【図面の簡単な説明】
【0008】
図1】本発明の実施形態にかかるウェルプレートの図を示している。
図2】本発明の実施形態にかかるパーティションの周囲の近傍を示している。
図3】本発明の実施形態にかかる、漏洩を有するとラベル付けされていないパーティションおよび漏洩についてラベル付けされたパーティションの例を示している。
図4】本発明の実施形態にかかる、ラベル付きレーンを6つのセット(すなわち、折り畳み)に分割するための技術を示している。
図5】本発明の実施形態にかかる漏洩を検出するための例示的なプロセスのフローチャートである。
図6】本発明の実施形態にかかる漏洩を検出するためにモデルを訓練する例示的なプロセスのフローチャートである。
図7】本発明の実施形態にかかる測定システムを示している。
図8】本発明の実施形態にかかるシステムおよび方法によって使用可能な例示的なコンピュータシステムのブロック図を示している。
【発明を実施するための形態】
【0009】
詳細な説明
デジタルPCRで実行されるアッセイなどの特定のアッセイは、パーティションのアレイ内の分析物を検出および定量する。所与の分析物に対して陽性であるパーティションの数は、アッセイ感度に基づく分析に影響を及ぼし得る。陽性と呼ばれるパーティションの数のエラーは、癌などの医学的障害の診断に影響を及ぼし得る。パーティション間に漏洩が発生することがあり、これは、一部のパーティションが、それらが本来ではない場合であっても分析物に対して陽性に見えさせる可能性がある。PCRサイクリングステップ中に漏洩が発生することがある。PCRサイクルは、40サイクルを含み得るが、サイクルの早期(例えば、最初の10サイクル)に漏洩がより一般的になり得る。漏洩を識別するための現在の方法は、画像から漏洩領域を手動で識別するためのdPCR分析者に依存する。そのような分析は、遅く、面倒であり得る。さらに、漏洩の検出は主観的であり、dPCR分析者は、漏洩が存在するかどうかについて意見が一致しない場合がある。
【0010】
本開示は、漏洩を識別するためのシステムおよび方法を記載する。本システムおよび方法は、訓練された機械学習モデルを使用して漏洩を識別する。機械学習モデルは、ロバストな訓練データセットで訓練される。機械学習モデルの特徴は、パーティションの近傍が特定のレーンまたはウェルプレート内のパーティションの集団とどのように比較するかを表す値を含む。本明細書中に記載されるシステムおよび方法は、漏洩のより速い識別を可能にすること、繰り返されるアッセイを回避すること、精度を高めること、および/またはより小さい試料を可能にすることによってアッセイ技術を改善する。
【0011】
パーティションの形状は、六角形であってもよい。六角形パーティションは、漏洩を決定するのに有利であり得る特定の特性を有する。正確に3つの六角形が各頂点で交わり、3つのそのような六角形は全て隣接するか、またはエッジを共有する。対照的に、正方形タイリングは、各頂点において4つの正方形が交わり、対角の正方形の対は、エッジを共有しない。正方形の例では、漏洩が任意のタイル状多角形のエッジにわたって広がるため、エッジにわたる漏洩は、頂点を共有する全ての多角形に容易に通過することができない。六角形の例では、各内部六角形は、等しい面積の6つの隣接する六角形によって囲まれている。これは、正方形または三角形のタイリングとは異なる的に似た広がりのパターンをもたらす。マスタ混合流体が漏洩する隣接する多角形は、タイリングの選択によって決定され得る。
【0012】
本明細書で使用される「分類」という用語は、試料の特定の特性に関連する任意の数または他の文字を指す。例えば、「+」記号(または「陽性」という語)は、試料が欠失または増幅を有すると分類されることを示すことができる。分類は、2値(例えば、陽性または陰性)であっても、より多くの分類レベル(例えば、1~10または0~1の尺度)を有してもよい。
【0013】
「カットオフ」および「閾値」という用語は、動作において使用される所定の数を指す。例えば、閾値は、それを超えると分析物が検出されたと見なされる強度値を指すことができる。閾値は、特定の分類が適用される上または下の値であり得る。これらの用語のいずれも、これらの文脈のいずれにおいても使用され得る。カットオフまたは閾値は、「基準値」であってもよく、または特定の分類を表すか、または2つ以上の分類を区別する基準値から導出されてもよい。そのような基準値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、異なる既知の分類を有する被験者の2つの異なるコホートについてメトリックが決定され得、1つの分類(例えば、平均)または(例えば、所望の感度および特異性を得るために選択される)メトリックの2つのクラスタの間にある値を表すものとして基準値が選択され得る。別の例として、基準値は、試料の統計分析またはシミュレーションに基づいて決定され得る。
【0014】
「機械学習モデル」という用語は、試料データ(例えば、訓練データ)を使用して試験データ上で予測を行うことに基づくモデルを含み得て、したがって教師あり学習を含み得る。機械学習モデルは、コンピュータまたはプロセッサを使用して開発されることが多い。機械学習モデルは、統計モデルを含み得る。
【0015】
「約」または「およそ」という用語は、当業者によって決定される特定の値について許容される誤差範囲内であることを意味することができ、これは、その値が測定または決定される方法、すなわち、測定システムの制限事項にある程度依存する。例えば、「約」は、当該技術分野の慣例によって、1以内または1を超える標準偏差を意味することができる。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味することができる。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、ある値の1桁以内、5倍以内、より好ましくは2倍以内を意味することができる。特定の値が本出願および特許請求の範囲に記載されている場合、特に明記しない限り、「約」という用語は、特定の値の許容可能な誤差範囲内を意味すると仮定されるべきである。「約」という用語は、当業者によって一般に理解される意味を有することができる。「約」という用語は、±10%を指すことができる。「約」という用語は、±5%を指すことができる。
【0016】
I. 例示的なアッセイシステム
漏洩に遭遇し得るアッセイシステムの例は、dPCRシステムである。dPCRシステムは、蛍光検出を伴うPCRを使用し得る。核酸分子を含む生物学的試料がウェルプレートに分配され得る。これらのウェル(すなわち、パーティション)は、漏洩の対象であり得る。
【0017】
A. プレート
図1は、プレート104の図を示している。プレート104は、8つの等しいレーン(例えば、レーン108、レーン112)を含む。各レーンは、幅が等しく、プレート104の長さにまたがっている。各レーンは、多くのパーティションを含む。パーティションは、異なるプレート間で異なるサイズおよび密度であってもよい。特定のプレートおよびレーン内のパーティションは、同じサイズおよび均一な密度である。例えば、パーティションセット116は、それぞれ反応体積が30μLのパーティションを含む。プレート104は、パーティションセット116の約30,000個のパーティションを含み得る。別の例として、パーティションセット120は、それぞれ40μLの反応体積を有するパーティションを含み得る。プレート104は、パーティションセット120の約20,000個のパーティションを含み得る。さらに別の例として、パーティションセット124は、それぞれ10μLの反応体積を有するパーティションを含んでもよい。ウェルプレート104は、パーティションセット124の約100,000個のパーティションを含み得る。異なるサイズまたは数のパーティションを有する異なるプレートは、遺伝子発現、絶対定量、無細胞DNA、残留DNA試験、微生物検出、およびコピー数変異を含む異なる用途に使用され得る。図1の例示的なパーティションは六角形である。
【0018】
B. 陽性パーティションを決定する手順
標的分析物に対して陽性であるパーティションは、蛍光を発するべきである。アッセイシステムは、異なる検出チャネルを使用して異なる種類の蛍光を検出し得る。例えば、システムは、6つの検出チャネルを含んでもよく、各チャネルは、異なる種類の染料用である。陽性パーティションの検出は、いくつかのステップを含み得る。いくつかのパーティションが無効化され、中間結果が計算され得る。中間アルゴリズムからのそのような結果は、後続のアルゴリズムへの入力として使用され得る。各段階において、有効なパーティションのみが後続のアルゴリズムを計算するために使用され得る。
【0019】
一連の高解像度画像は、PCR増幅中またはPCR増幅後にプレートの水平寸法(例えば、レーン)にわたって取得され得る。プレートのパーティションは、画像内で行および列に編成され得る。その後、画像は、塵埃、毛髪、または他の微粒子によって汚染され得るパーティションを除去することを含み得るアーチファクト除去を受けることがある。結果として得られる画像は、異なるパーティションにセグメント化され得る。パーティションのエッジは、パーティションのコンテンツから識別および分離され得る。異なるパーティションは、位置に基づいて座標を割り当てられ得る。対応する整数蛍光値が、有効に識別された各パーティションに割り当てられ得る。このデータセットは、パーティションの関連する座標とともに各有効パーティションの蛍光値を含み得る。
【0020】
このデータセットは、パーティションの生の蛍光値に関係なく、付随する計算またはアルゴリズムなしにパーティションのセットを無効化するマスキングアルゴリズムを受け得る。プレートの全領域を除去することが意図されており、その結果、信号が不十分になることがある。クロストーク補正は、チャネル間の同時測定から生じる干渉を緩和するために、チャネル間の蛍光値を調整し得る。蛍光値はまた、対照チャネルの蛍光値によって正規化され得る。
【0021】
次いで、正規化後の洗練されたデータが使用されて、各色チャネルの蛍光値に基づいてパーティションを陽性または陰性のいずれかに分類することができる。蛍光値を閾値と比較することによって、パーティションの分類が行われ得る。閾値は、オペレータの判断またはコンピュータシステムによって決定され得る。閾値は、所望の精度(例えば、特異性および/または感度)に基づいてもよい。実施形態では、パーティションの分類は、コンピュータシステムによって実行されてもよい。
【0022】
II. 例示的な漏洩検出
パーティションの漏洩は、パーティションの近傍を記述する十分な訓練データおよび特徴を使用して検出され得る。デジタルPCRシステムおよび他のシステムは、10年間にわたって当該技術分野に存在し、その間にソフトウェアが更新されない可能性がある。結果として、漏洩を検出するための正確な技術を保証するために、ロバストな訓練セットが望まれる。さらに、漏洩を検出するための技術は、その寿命にわたってシステムが遭遇する可能性がある多種多様な試料およびユースケースに適用可能であるべきである。
【0023】
A. 特徴
漏洩を決定するための技術において使用される特徴は、所与のパーティションの近傍に関連する値を含む。これらの特徴は、的の目のパターンを模倣して漏洩を識別する。特徴は、各内部六角形を囲む近傍の統計を計算され得る。そのような近傍の統計は、各近傍が的の目にどれだけ似ているかを測定するメトリックであり得る。
【0024】
図2は、パーティションの周囲の近傍を示している。パーティション204は、図208図212、および図216において黄色で示されている。図208は、パーティション204から離れた一方のパーティション(すなわち、1近傍)である赤色のパーティション(例えば、パーティション220)を示している。図212は、パーティション204から離れた2つ以下のパーティション(すなわち、2近傍)である赤色のパーティション(例えば、パーティション224)を示している。パーティション224は、パーティション204から離れた2つのパーティションである。図216は、パーティション204から3つ以下のパーティション(すなわち、3近傍)である赤色のパーティション(例えば、パーティション228)を示している。パーティション228は、パーティション204から離れた3つのパーティションである。
【0025】
プレート座標系は、プレートを横切るウェルの水平および垂直位置を含み得る。六角形タイリングは、自然数のタプル(x,y)によって表され得る。パーティション(x,y)の周囲のn近傍は、以下のように記述され得る。各パーティションは、n個の六角形パーティションの上方への並進シフトによって達成される、それ自体の上方のn近傍パーティションを有する。同様に、下方および上方(下)左および上方(下)右のn近傍が定義され得る。六角形(x,y)のn近傍は、i≦nである全ての方向における(x,y)の全てのi近傍として定義される。
【0026】
パーティション204から漏洩がある場合、漏洩がそのn近傍に到達する確率は、nに反比例する。これは、漏洩の性質および六角形のタイリングパターンの結果である。漏洩材料が少なくともn個のパーティション境界を同じ方向に横切って流れた場合、n近傍に到達する漏洩が発生する。
【0027】
機械学習モデルにおいて使用される特徴は、n近傍に基づく特徴を含み得る。例えば、パーティションの周囲のn近傍は、k個の六角形のパーティションを有し得る。k個のパーティションのそれぞれは、蛍光測定値と、以前の分類決定からの推定された陽性または陰性の結果の双方を有する。近傍にわたる蛍光値の標準偏差など、そのような近傍に対して計算が行われ得る。
【0028】
さらに、特徴は、n近傍の値の分布に基づき得る。n個の近傍の集合は、特定のレーンに対するものであり得る。特徴は、レーン内の各n個の近傍についていくつかの値を決定することを含み得る。例えば、特徴は、平均蛍光値、陽性パーティションの数、および/または陰性パーティションの数を含み得る。特徴は、全てのn近傍の分布に基づいて、特定のパーティションの周囲のn近傍の統計値を含み得る。例えば、統計値は、標準偏差の数(例えば、zスコア)、パーセンタイル、中央値または平均値からの分離値(差または比)、またはスキューであってもよい。
【0029】
特徴はまた、n近傍を考慮せずにパーティション自体の値を含んでもよい。例えば、特徴は、パーティションの強度の値を含み得る。特徴は、パーティションの強度の統計値を含み得る。例えば、統計値は、標準偏差の数(例えば、zスコア)、パーセンタイル、中央値または平均値からの分離値(差または比)、またはスキューであってもよい。
【0030】
B. 訓練データ
多くの場合、機器が現場にある間、訓練データは、更新されない場合がある。結果として、新たなユーザが新たなアッセイを作成するとき、訓練データは、既にこの未知のデータを予測して反映しているはずである。正確で広範な訓練データセットが漏洩モデルに使用されて、異なるシナリオのモデルを一般化し得る。
【0031】
1. レーンおよび実験
訓練データのために選択された実験は、広い幅をカバーした。遺伝子発現の決定、絶対定量、無細胞DNA、残留DNA試験、微生物検出およびコピー数変異を含むいくつかのアッセイからデータが選択された。さらに、漏洩はめったに発生しない(時間の1%未満)ため、実験者はまた、漏洩データも作成した。より高い漏洩を有する古いバージョンのプレートが使用されてデータを作成した。実験者らはまた、漏洩を誘発するために検査室調製物を物理的に操作した。
【0032】
実験からの画像データが前処理されて陽性パーティションを決定した。前処理は、本明細書に記載されたように、陽性パーティションを決定するための同じ手順を含み得る。例えば、画像は、取得され、行および列に編成され、アーチファクト除去され、異なるパーティションにセグメント化され得る。パーティションには、それぞれ蛍光値が割り当てられ得る。パーティションおよび蛍光値のデータは、マスキングアルゴリズム、クロストーク補正、および値正規化を受けることがある。パーティションは、その後、陽性または陰性として分類され得る。
【0033】
2. ラベリングデータ
図3は、漏洩を有するとラベル付けされていないパーティションおよび漏洩とラベル付けされたパーティションの例を示している。白い六角形(例えば、パーティション304)は、陽性パーティションを示す。濃い灰色(例えば、パーティション308)のパーティションは、分析物に対して陰性である。図302に示されているパーティションは、漏洩についてラベル付けされていない。2つの色の間にあるパーティション(例えば、パーティション312)は、陽性と陰性との間にいくらかの蛍光を有する。これらの中間の蛍光強度を有するパーティションに陽性パーティションが囲まれている場合、漏洩が発生している可能性がある。図310は、漏洩についてラベル付けされたパーティションを示している。デジタルPCR画像分析者は、漏洩をラベル付けする。漏洩の領域は、多角形(例えば、多角形316)によって識別され得る。多角形内のパーティションは、漏洩を有するものとしてラベル付けされる。いくつかのdPCR画像分析者が使用されて、同じ画像の漏洩をラベル付けし得る。
【0034】
3. データ漏洩
テラバイトのデータから始まって、レーンは、訓練/検証データと2つの形式の試験データとに分離された。ラベル付きデータについては、5倍交差検証のための6セットのレーンおよび予備試験セットが使用された。
【0035】
特徴値の大部分はレーンを横切る生データの分布から生じるため、単一のレーンを横切る特徴値は関連し得る。例えば、特徴は、パーティションレベルでの関数ではなく、レーン全体にわたる定数として計算され得る。各Zスコア特徴は、レーン全体にわたる分布に対して計算される。訓練データおよび試験データの双方に同じレーンからの生データを含めると、データ漏洩が生じる。モデルが類似のデータを訓練および試験し、それによってモデルをそのようなデータにオーバーフィッティングすると、データ漏洩が発生する。この問題を軽減するために、レーン全体が交差検証または試験セットのいずれかに含まれた。
【0036】
4. ダウンサンプリング
漏洩は、1%未満の時間で発生する。したがって、ダウンサンプリングは、バイナリ分類器を適切に訓練するために使用される。ダウンサンプリングがない場合、任意の機械学習モデルは、単に多数クラスを予測し得る。交差検証および試験セットのためにレーンを6つのセットに割り当てる前にダウンサンプリングが実行される場合、陽性および陰性パーティションの異なる割合が各セットに現れる。代わりに、全体的なダウンサンプリングレートが選択され、全体的なダウンサンプリングレートを満たすために、6つのセットのそれぞれについて特定のダウンサンプリングレートが計算される。
【0037】
図4は、ラベル付きレーンを6つのセット(すなわち、折り畳み)に分割する技術を示している。段階404において、レーンは、漏洩とラベル付けされたパーティションの総数の降順でリスト化される。最初の6つのレーンは、それ自体の折り畳みに配置される。その後、段階408において、次のレーンは、漏洩とラベル付けされた最も少ないパーティションを有する折り畳みに配置される。全てのレーンを繰り返し、レーンが同様に折り畳みに分配された。これは、各セットにおいてほぼ等しい陽性パーティションを有するという問題を解決するための数学的および計算的に最適な解決策である。単一のレーンは、単一の折り畳みに割り当てられ、異なる折り畳み間で分割されない。
【0038】
ダウンサンプリング後、5%を超えるパーティションにおいて漏洩が存在した。漏洩のあるパーティションは、バイナリ分類器を訓練するのを助けるためにより高く重み付けされた。
【0039】
5. ラベル付けされていない試験セット
モデルが最初に訓練され、訓練および検証セットを使用して選択された後、第1のラベル付き試験データが使用される。モデルの閾値は、偽陽性および偽陰性の双方を緩和するように選択される。利用可能なレーンの最大の割合は、ラベル付けされておらず、試験データとして使用される。
【0040】
ラベル付けされていない第2の試験データセットは、その後、様々なレーンにわたる漏洩モデルからの誤差を手動で評価するために使用される。50~100個の他のレーンを視覚的に評価した後、モデルの閾値が微調整された。
【0041】
閾値計算に加えて、ラベル付けされていない試験データセットが使用されて、訓練データセットを手動および自動で更新した。例えば、モデルの異なる反復の後、数百のレーンの統計が計算された。かなりの漏洩が見つかった場合、これらは反復的に訓練データセットに追加された。これは、多くのコーナーケースを捕捉し、その後モデルを適合させることをもたらした。前述のように、モデル閾値を微調整する目的で、多くのレーンがまた、手動で評価された。反復的な手動で評価されたいかなるエラーも、これが訓練データセットに追加されたため、モデルに利益をもたらすのに役立った。そのような全ての場合において、これは、モデルからの偽陽性および偽陰性を反復的に減少させるのに役立った。モデル検証後、実際の機器への展開に使用されるモデルは、全てのラベル付きデータについて訓練される。
【0042】
C. 例示的な決定木モデル
LightGBMモデルのMicrosoft実装が使用された。漏洩が低い割合で発生し、したがって訓練データセットが非常にバイアスされていたため、木を用いたアンサンブル技術が選択された。アンサンブル技術では、バギングまたはブースティングのいずれかを選択することができる。漏洩が低レートで発生し、漏洩が適度に安定しているため、ブースティングアルゴリズムが選択された。
【0043】
これらのバギング方法内では、葉ごとまたはレベルごとの成長の選択肢がある。これらは、木または弱学習器の追加レベルを追加する異なる技術を指す。追加のレベルが全ての葉にわたって一括して付加される場合、この方法は、レベルごとと呼ばれる。代わりに、いくつかの相互情報または精度メトリックに基づいて、まさに最も弱い位置に追加のノードが追加される場合、この方法は、葉ごとの成長と呼ばれる。葉ごとの成長はより有利であり、より速く学習することができるが、小さなデータセットで訓練した場合、過適合する可能性が多い。バイナリ分類器について、大きな漏洩訓練データセットを作成しようと努力した後、LightGBMモデルは、葉の成長を利用することができた。
【0044】
一般化可能性を高めるために、モデルのハイパーパラメータが選択された。ハイパーパラメータは、アンサンブル内のより少数でより単純な弱学習器または木をもたらした。ハイパーパラメータは、小さい最大木深度、高い最小子、低い反復回数:バギングの実装回数、低い特徴部分:バギングの実装ごとに使用される特徴の割合、高い正則化パラメータ:ブースティングは、欲張りアルゴリズムであり、オーバーフィットする可能性がある、小さい最大ビンサイズ、ヒストグラムを含み得る:多数のビン特徴は、低学習率と早期停止とにパーティショニングされる。
【0045】
D. 後処理
漏洩は、物理的に隣接するパーティションを横切って流れる液体から生じる。データの全てのチャネルは、同じ液体から記録される。この概念は、後処理ステップ中にアルゴリズムに組み込まれ、各パーティションが全てのチャネルにわたって同様に漏洩として予測されるかどうかを渡す。アルゴリズムが漏洩が任意の1つまたは複数のチャネルに存在すると予測した場合、漏洩は、全てのチャネルに存在すると判定される。
【0046】
パーティション漏洩モデルによってレーン内の有効パーティションの閾値未満が漏洩として予測された場合、レーンは、有効なままである。パーティションごとのコピーを含む後続のアルゴリズムおよび計算は、漏洩として予測されたパーティションなしで実行され得る。
【0047】
パーティション漏洩モデルによってレーン内の有効パーティションの閾値以上が漏洩として予測された場合、レーンは、無効としてフラグが立てられる。レーンを使用してさらなる後続のアルゴリズムが実行され得ることはない。
【0048】
陽性パーティションからの流体が陰性パーティションに流入することに起因する漏洩の物理的原因のために、陰性レーン全体が漏洩を有することはできない。クラスタリングアルゴリズムから陽性パーティションまたは陰性パーティションのいずれも検出されない場合、アルゴリズムは、非アクティブ化され得る。この非活性化は、チャネルレベルで行われ、アルゴリズムは、陽性パーティションおよび陰性パーティションの双方を有する残りのチャネルでアクティブのままである。同様に、漏洩が発生しなかった可能性があるため、正確に1つのパーティションが陽性である場合、アルゴリズムは、非アクティブ化され得る。
【0049】
III. 例示的な方法
実施形態は、訓練された機械学習モデルを使用してパーティション内の漏洩を検出する方法を含む。さらに、実施形態は、機械学習モデルを訓練する方法を含む。
【0050】
A. 漏洩を検出する方法
図5は、例示的なプロセス500のフローチャートである。いくつかの実装では、図5の1つまたは複数のプロセスブロックは、システム700によって実行され得る。
【0051】
ブロック510において、試験入力データが受信され得る。試験入力データは、複数の試験パーティションの各パーティションについて、マイクロ流体デバイスの1つまたは複数の画像の画素から取得されるいくつかの特性を含み得る。特性は、マイクロ流体デバイス内のパーティションの位置、パーティションに関連する画素の強度の値、およびパーティションに分析物が存在しないかまたは存在する状態を含み得る。パーティションの位置は、本明細書で説明するようにx,y座標系を使用し得る。試験入力データの特性は、複数の試験パーティションの各パーティションについて、パーティションが有効であるか無効であるかの分類をさらに含み得る。例えば、パーティションは、マスキングアルゴリズム、アーチファクト除去、または説明したような他のエラー訂正の一部として無効化されてもよい。
【0052】
画素の強度は、蛍光強度であってもよい。特性は、パーティションに関連する複数の強度の強度ごとの値を含み得て、複数の強度は、異なる蛍光チャネルの強度を含み得る。異なる蛍光チャネルは、異なる蛍光色素を検出するように調整され得る。異なる蛍光チャンネルの数および複数の強度の数は、2から10であってもよい。
【0053】
複数の試験パーティションの各パーティションは、六角形であってもよい。六角形は、正六角形であってもよい。いくつかの実施形態では、パーティションは、楕円形(円形または長円形)、長方形、正方形、三角形、または五角形であってもよい。複数の試験パーティションは、少なくとも1,000個のパーティション、5,000個のパーティション、10,000個のパーティション、20,000個のパーティションを含んでもよく、少なくとも30,000個のパーティション、50,000個のパーティション、80,000個のパーティション、および100,000個のパーティションを含んでもよい。マイクロ流体デバイスは、デジタルPCRプレートであってもよく、パーティションは、デジタルPCRプレート内のウェルであってもよい。デジタルPCRプレートは、環状オレフィンコポリマー(COC)または環状オレフィンポリマー(COP)を含むポリマーであってもよい。プレートは、本明細書に記載の任意のプレートであってもよい。例として、マイクロ流体デバイスは、2020年3月27日に出願された米国特許出願公開第2020/0306753号明細書に記載されているマイクロ流体デバイスであってもよく、その全内容は、あらゆる目的のために参照により本明細書に組み込まれる。複数の試験は、dPCRプレートの全てのパーティションまたは全ての有効なパーティションを含み得る。いくつかの実施形態では、複数の試験は、dPCRプレートのレーン内の全てのパーティションまたは全ての有効パーティションであり得る。例えば、複数の試験パーティションは、8つのレーンが存在する場合、プレート上の全てのパーティションの1/8であってもよい。いくつかの実施形態では、複数の試験は、レーンからの1つの画像内の全てのパーティションまたは全ての有効なパーティションであってもよい。例えば、1つのレーンに対して8つの画像が取得される場合、複数の試験は、レーン内の全てのパーティションの1/8であってもよい。
【0054】
いくつかの実施形態では、プロセス500は、複数の試験パーティションの各パーティションについて、パーティションに関連する画素の強度の値を使用して分析物の状態を決定することをさらに含み得る。分析物は、DNA、RNA、および本明細書に記載の任意の他の核酸分子を含む核酸分子であり得る。分析物は、特定の種類の分析物を含み得る。例えば、分析物は、一方のハプロタイプ由来の核酸分子および他方のハプロタイプ由来の核酸分子を含み得る。パーティション中の分析物の状態は、強度(合計、平均、中央値、最頻値、またはパーセンタイル)強度を閾値と比較することによって決定され得る。強度が閾値よりも高い場合、状態は、陽性(存在)であると決定され得る。強度が閾値よりも低い場合、状態は、陰性(不在)であると決定され得る。いくつかの実施形態では、2つの異なる閾値が使用されて陽性および陰性の状態を決定し、2つの閾値の間の強度値に不確定状態が割り当てられる。
【0055】
いくつかの実施形態では、プロセス500は、マイクロ流体デバイスを使用して複数の試験パーティション内の分析物を検出するためのアッセイを実行することを含み得る。アッセイは、デジタルPCRアッセイであり得る。アッセイを実行することは、生物学的試料を取得することを含み得る。生物学的試料は、試薬およびプライマーと混合されてもよい。混合した生物学的試料は、マイクロ流体デバイスに添加されてもよい。分析物は、パーティション内で数サイクルにわたって増幅されてもよい。実施形態では、プロセス500は、マイクロ流体デバイスの1つまたは複数の画像を取得することを含んでもよい。カラーチャネルごとに画像が取得されてもよい。
【0056】
ブロック520において、複数の試験パーティションのうちの第1のパーティションが漏洩によって特徴付けられるか否かの分類が、機械学習モデルを使用して決定され得る。機械学習モデルは、試験入力データを使用して分類を決定する。機械学習モデルは、訓練入力データを受信することによって訓練され得る。訓練入力データは、複数の訓練用マイクロ流体デバイスの画像の画素から取得され得る。各訓練用マイクロ流体デバイスは、複数の第1のパーティションを有し得る。訓練入力データは、パーティションごとに、試験入力データと同じ特性を含み得る。訓練入力データは、複数の第1のパーティションの各パーティションについてパーティションが漏洩によって特徴付けられるかどうかの既知の分類を示す第1のラベルを含み得る。機械学習モデルは、訓練入力データを使用して機械学習モデルが実行されるとき、機械学習モデルの出力が第1のラベルの対応するラベルと一致するかまたは一致しないかに基づいて、訓練入力データを使用して機械学習モデルのパラメータを最適化することによって訓練され得る。機械学習モデルの出力は、パーティションが漏洩によって特徴付けられるかどうかを指定し得る。第1のパーティションの分類は、所望の精度(例えば、感度および/または特異性)を目標とするカットオフ値に基づいてもよい。機械学習モデルは、本明細書で説明するように訓練され得る(例えば、図6)。
【0057】
機械学習モデルは、漏洩の分類を決定するために異なる特徴を使用し得る。機械学習モデルは、これらの特徴の値を受信し得て、または機械学習モデルは、特徴の値を計算し得る。機械学習モデルは、第1のパーティションから閾値距離以内のパーティションの状態の統計値を使用し得る。例えば、統計値は、本明細書に記載されたn近傍内のパーティションの状態のものであり得る。n近傍は、1、2、3、4、5、6、7、8、9、10、および/または11としてnを含み得る。いくつかの実施形態では、統計値は、n近傍(例えば、平均、中央値、最頻値、分散)内のパーティションのものであり得る。いくつかの実施形態では、統計値は、特定のn近傍と中央の第1のパーティションとのn近傍の全体的な分布との比較であってもよい。例えば、統計値は、パーセンタイルの標準偏差(例えば、zスコア)の数であってもよい。状態は、分析物について陽性、陰性、または陽性と陰性との組み合わせであり得る。いくつかの実施形態では、統計値は、共通軸に沿ったパーティションの状態の統計値である。例えば、統計値は、第1のパーティションと交差するパーティションのラインに沿っていてもよい。六角形のパーティションの場合、ラインは、マイクロ流体デバイスの長手方向軸に対して30度、90度、または150度の角度であってもよい。機械学習モデルは、複数の試験パーティションのうちの複数のパーティションにおける画素の強度を表す値を使用してもよい。
【0058】
機械学習モデルによって使用される他の特徴は、パーティションに関連する画素の強度の値、またはパーティションを含むn近傍もしくはラインに関連する画素の強度の値を含み得る。特徴は、陽性と呼ばれるパーティションまたは陰性と呼ばれるパーティションのみに限定された値を含み得る。いくつかの実施形態では、特徴は、陽性または陰性のいずれかと呼ばれるパーティションの値を含み得る。値は、統計値(例えば、平均、中央値、最頻値、パーセンタイル、最大値、最小値)であってもよい。値は、正規化されてもよい。特徴は、n近傍における陽性パーティションの数、陰性パーティションの数、またはそれらの統計値を含み得る。値はまた、特定の特性を有する強度またはパーティションの合計または数であってもよい。
【0059】
いくつかの特徴は、単一のパーティションまたは複数のパーティション(例えば、n近傍またはライン)について計算され得る。いくつかの特徴は、レーン、チャネル、またはマイクロ流体デバイス全体について計算され得る。例えば、特徴は、レーン全体にわたって肯定的とは呼ばれない平均強度パーティションを定量化する値(例えば、レーン値)を含み得る。特徴の任意の、全ての、および任意の組み合わせが、機械学習モデルによって使用されてもよい。
【0060】
機械学習モデルは、本明細書で説明される決定木学習モデルであってもよい。機械学習モデルは、教師あり学習モデルを含んでもよい。教師あり学習モデルは、分析的学習、人工ニューラルネットワーク、逆伝播、ブースティング(メタアルゴリズム)、ベイズ統計、事例ベースの推論、決定木学習、帰納的論理プログラミング、ガウス過程回帰、遺伝的プログラミング、データ操作のグループ方法、カーネル推定器、学習オートマトン、学習分類器システム、最小メッセージ長(決定木、決定グラフなど)、多重線形部分空間学習、単純ベイズ分類器、最大エントロピー分類器、条件付きランダムフィールド、最近傍アルゴリズム、確率的で近似的に正しい学習(PAC)学習、リップルダウンルール、知識取得方法論、記号機械学習アルゴリズム、部分記号機械学習アルゴリズム、サポートベクターマシン、最小複雑度マシン(MCM)、ランダムフォレスト、分類器のアンサンブル、順序分類、データ前処理、不均衡データセットの処理、統計的関係学習、またはProaftn、多基準分類アルゴリズムを含む様々なアプローチおよびアルゴリズムを含み得る。モデルは、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、長期短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴うアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクターマシン(SVM)、または本明細書に記載の任意のモデルを含み得る。
【0061】
モデルは、畳み込みニューラルネットワーク(CNN)を含み得る。CNNは、入力データをフィルタリングするように構成された畳み込みフィルタのセットを含み得る。各層のフィルタの数は、10個から20個、20個から30個、30個から40個、40個から50個、50個から60個、60個から70個、70個から80個、80個から90個、90個から100個、100個から150個、150個から200個、それ以上であり得る。フィルタのカーネルサイズは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、15から20、20から30、30から40、またはそれ以上とすることができる。CNNは、入力データを受信するように構成された入力層を含み得る。CNNはまた、複数のノードを含む複数の隠れ層を含み得る。複数の隠れ層のうちの第1の層は、入力層に結合される。CNNは、複数の隠れ層のうちの最後の層に結合され、出力データを出力するように構成された出力層をさらに含み得る。ニューラルネットワークは、機械学習モデルにおいて使用される特徴を決定し得る。
【0062】
分類を決定することは、蛍光チャネルに対応する複数の強度のうちの第1の強度を使用して、第1のパーティションが漏洩によって特徴付けられると決定することを含み得る。複数の強度のうちの第1の強度において、第1のパーティションが漏洩によって特徴付けられると決定される場合に、プロセスは、複数の強度における他の全ての強度において、第1のパーティションが漏洩によって特徴付けられると決定することを含み得る。
【0063】
プロセス500は、分類が、第1のパーティションが漏洩によって特徴付けられることであると決定することを含み得る。いくつかの実施形態において、プロセス500は、第1のパーティションが漏洩によって特徴付けられるとき、第1のパーティションを含まない複数の試験パーティションのサブセットからの複数の状態から、コピー数変異が対象に存在するか否かの分類を決定することをさらに含み得る。
【0064】
分類は、第1の分類であってもよい。プロセスは、第1のパーティション以外の複数の試験パーティションの各パーティションについて複数の第2の分類を決定することをさらに含み得る。プロセスは、漏洩を示す第1の分類または第2の分類を有する複数の試験パーティションのパーティションの量を決定することをさらに含み得る。プロセスは、量を閾値と比較することを含み得る。閾値は、レーン内のパーティションまたはマイクロ流体デバイス全体の1%、2%、3%、4%、5%、6%、7%、8%、9%、または10%であり得る。プロセスは、比較に基づいて、複数の試験パーティションがさらなる分析に適していないことを出力することをさらに含み得る。
【0065】
プロセス500は、本明細書の他の箇所に記載された1つまたは複数の他のプロセスに関連して記載された任意の単一の実装または実装の任意の組み合わせなどの追加の実装を含んでもよい。
【0066】
図5は、プロセス500の例示的なブロックを示しているが、いくつかの実装では、プロセス500は、図5に示されたものよりも追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加的または代替的に、プロセス500のブロックのうちの2つ以上が並列に実行されてもよい。
【0067】
B. 学習モデルの方法
図6は、例示的なプロセス600のフローチャートである。いくつかの実装では、図6の1つまたは複数のプロセスブロックは、システム700によって実行され得る。プロセス600は、プロセス500において機械学習モデルを訓練するために使用されるプロセスであり得る。
【0068】
ブロック610において、訓練入力データが受信され得る。訓練入力データは、複数の訓練用マイクロ流体デバイスの画像の画素から取得され得る。各訓練用マイクロ流体デバイスは、複数の第1のパーティションを有し得る。訓練入力データは、パーティションごとに、各訓練用マイクロ流体デバイス内のパーティションの位置、パーティションに関連する画素の強度の値、およびパーティションに存在しないかまたは存在する分析物の状態を含み得る。さらに、訓練入力データは、複数の第1のパーティションの各パーティションについてパーティションが漏洩によって特徴付けられるかどうかの既知の分類を示す第1のラベルを含み得る。複数の訓練用マイクロ流体デバイスは、100以上のマイクロ流体デバイスを含んでもよい。訓練入力データは、少なくとも1ギガバイト、100ギガバイト、500ギガバイト、または1テラバイトのデータであってもよい。
【0069】
ブロック620において、機械学習モデルのパラメータは、訓練入力データを使用して最適化され得る。機械学習モデルのパラメータは、訓練入力データを使用して機械学習モデルが実行されるとき、機械学習モデルの出力が第1のラベルの対応するラベルと一致または不一致するかに基づいて、最適化され得る。機械学習モデルの出力は、パーティションが漏洩によって特徴付けられるかどうかを指定し得る。
【0070】
訓練入力データは、複数の第1の訓練試料の画像から取得され得る。複数の第1の訓練試料は、複数の第1の訓練試料のサブセットを含み得る。各サブセットは、他のサブセット内のパーティションの総数の10%以内の漏洩の存在の既知の分類を示す第1のラベルを有するパーティションの総数を含み得る。パラメータを最適化することは、1つのサブセットを使用してパラメータを決定し、別のサブセットでパラメータを検証することを含み得る。例えば、パラメータを最適化することは、本明細書に記載の5倍交差検証を使用することを含み得る。各訓練用マイクロ流体デバイスは、パーティションのレーンを含み得る。各レーン内の全てのパーティションは、複数の第1の訓練試料の単一のサブセット内にあってもよい。
【0071】
プロセス600は、本明細書の他の箇所に記載された1つまたは複数の他のプロセスに関連して記載された任意の単一の実装または実装の任意の組み合わせなどの追加の実装を含んでもよい。
【0072】
図6は、プロセス600の例示的なブロックを示しているが、いくつかの実装では、プロセス600は、図6に示されたものよりも追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加的または代替的に、プロセス600のブロックのうちの2つ以上が並列に実行されてもよい。
【0073】
IV. 例示的なシステム
図7は、本発明の実施形態にかかる測定システム700を示している。図示のシステムは、試料ホルダ710内のDNA分子などの試料705を含み、試料705をアッセイ708と接触させて、物理的特性715の信号を提供することができる。試料ホルダの例は、アッセイのプライマーを含むdPCRウェルプレートとすることができる。試料からの物理的特性715(例えば、蛍光強度、電圧、または電流)は、検出器720によって検出される。検出器702は、データ信号を構成するデータ点を取得するために、間隔(例えば、周期的な間隔)を置いて測定を行うことができる。一実施形態では、アナログ-デジタル変換器は、検出器からのアナログ信号を複数回デジタル形式に変換する。検出器702は、撮像装置であってもよい。試料ホルダ701および検出器702は、本明細書に記載の実施形態によるアッセイ装置、例えばdPCRシステムを形成することができる。データ信号725は、検出器702から論理システム703に送信される。データ信号725は、ローカルメモリ735、外部メモリ704、または記憶装置745に記憶され得る。
【0074】
論理システム703は、コンピュータシステム、ASIC、マイクロプロセッサなどであってもよく、またはそれらを含んでもよい。また、ディスプレイ(例えば、モニタ、LEDディスプレイなど)およびユーザ入力装置(例えば、マウス、キーボード、ボタンなど)を含んでもよく、またはそれらと結合されてもよい。論理システム703および他の構成要素は、スタンドアロンまたはネットワーク接続されたコンピュータシステムの一部であってもよく、または検出器702および/または試料ホルダ701を含む装置(例えば、配列決定装置)に直接取り付けられるかまたは組み込まれてもよい。論理システム703はまた、プロセッサ720内で実行するソフトウェアを含み得る。論理システム703は、本明細書に記載の方法のいずれかを実行するようにシステム700を制御するための命令を記憶するコンピュータ可読媒体を含み得る。例えば、論理システム703は、配列決定または他の物理的操作が実行されるように、試料ホルダ701を含むシステムにコマンドを提供することができる。そのような物理的操作は、例えば試薬が特定の順序で添加および除去されて、特定の順序で実行され得る。そのような物理的操作は、試料を取得してアッセイを実行するために使用され得るように、例えばロボットアームを含むロボットシステムによって実行され得る。
【0075】
本明細書で言及されるコンピュータシステムのいずれも、任意の適切な数のサブシステムを利用し得る。そのようなサブシステムの例は、図8においてコンピュータシステム10内に示されている。いくつかの実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、ここでサブシステムは、コンピュータ装置の構成要素とすることができる。他の実施形態では、コンピュータシステムは、それぞれがサブシステムであり、内部構成要素を備えた複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップおよびラップトップコンピュータ、タブレット、携帯電話機、他のモバイルデバイス、およびクラウドベースのシステムを含むことができる。
【0076】
図125に示すサブシステムは、システムバス75を介して相互接続されている。プリンタ74、キーボード78、記憶装置79、ディスプレイアダプタ82に結合されたモニタ76(例えば、LEDなどのディスプレイスクリーン)などの追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器および入力/出力(I/O)装置は、入力/出力(I/O)ポート77(例えば、USB、Thunderbolt、Lightning)などの当該技術分野において知られている任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)は、コンピュータシステム10を、インターネットなどのワイドエリアネットワーク、マウス入力装置、またはスキャナに接続するために使用され得る。システムバス75を介した相互接続は、セントラルプロセッサ73が、サブシステムのそれぞれと通信し、システムメモリ72または記憶装置79(例えば、ハードドライブなどの固定ディスク、または、光ディスク)からの複数の命令の実行、ならびにサブシステム間の情報の交換の制御を可能にする。システムメモリ72および/または記憶装置79は、コンピュータ可読媒体を具体化し得る。別のサブシステムは、カメラ、マイクロフォン、加速度計、その他などのデータ収集装置85である。本明細書で説明したデータの任意のものは、ある構成要素から別の構成要素へ出力され得、ユーザに出力され得る。
【0077】
コンピュータシステムは、例えば、外部インターフェース81により、内部インターフェースにより、または、1つの構成要素から別の構成要素に接続および取り外され得る、リムーバブル記憶装置を介して、ともに接続された、複数の同じ構成要素またはサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワークを介して通信することができる。そのような例では、1つのコンピュータは、クライアントと見なすことができ、別のコンピュータは、サーバと見なすことができ、それらのそれぞれは、同じコンピュータシステムの一部とすることができる。クライアントおよびサーバは、それぞれ、複数のシステム、サブシステム、または構成要素を含むことができる。
【0078】
実施形態の態様は、ハードウェア回路(例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュラまたは統合された様式の一般にプログラム可能なプロセッサを伴う、コンピュータソフトウェアを使用して、制御ロジックの形態で実装され得る。本明細書で使用される場合、プロセッサは、単一のコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または、単一の回路基板、もしくは、ネットワーク化されたもの、ならびに専用のハードウェア上の、複数の処理ユニットを含むことができる。本明細書で提供される開示および教示に基づいて、当業者は、ハードウェアおよびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の手段および/または方法を知り、理解するであろう。
【0079】
本出願で説明されるソフトウェアの構成要素または関数はいずれも、例えばJava、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または例えば、従来のもしくはオブジェクト指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用して、プロセッサによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、一連の命令またはコマンドとして、記憶および/または伝送のためにコンピュータ可読媒体上に記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハ-ドドライブもしくはフロッピ-ディスクなどの磁気的媒体、または、コンパクトディスク(CD)もしくはDVD(デジタルバ-サタイルディスク)またはブルーレイディスクなどの光学的媒体、フラッシュメモリなどを含むことができる。コンピュータ可読媒体は、そのような記憶装置または送信装置の任意の組み合わせであり得る。
【0080】
そのようなプログラムはまた、インターネットを含む様々なプロトコルに準拠する有線、光、および/または無線ネットワークを介した送信に適合されたキャリア信号を使用して符号化および送信され得る。そのため、コンピュータ可読媒体は、そのようなプログラムを用いて符号化されたデータ信号を使用して作成され得る。プログラムコードによって符号化されたコンピュータ可読媒体は、互換性のある装置と一緒にパッケージ化されるか、または(例えば、インターネットダウンロードを介して)他の装置とは別に提供され得る。任意のそのようなコンピュータ可読媒体は、個々のコンピュータ製品(例えば、ハードドライブ、CD、または完全なコンピュータシステム)上にまたは内部に備えられ得て、また、システムまたはネットワーク内部の異なるコンピュータ製品上にまたは内部に存在し得る。コンピュータシステムは、本明細書に記載の結果のいずれかをユーザに提供するためのモニタ、プリンタ、または他の適切なディスプレイを含み得る。
【0081】
本明細書に説明される方法のいずれも、ステップを実行するように構成され得る1つまたは複数のプロセッサを含むコンピュータシステムを用いて完全にまたは部分的に実行され得る。したがって、実施形態のそれぞれは、潜在的にステップのそれぞれまたはステップのグループのそれぞれを実行する異なる構成要素を用いて、本明細書に記載される方法のいずれかのステップを実行するように構成されたコンピュータシステムを対象とすることができる。本明細書における方法のステップは、順序立てられたステップとして提示されているが、同時に、または、異なる時に、または、異なる順序で実行され得る。さらに、これらのステップの一部は、他の方法からの他のステップの一部とともに使用され得る。また、ステップの全てまたは一部は、任意であり得る。さらに、これらの方法のいずれかのステップのいずれかは、これらのステップを実行するためのシステムのモジュ-ル、ユニット、回路、または他の手段を用いて実行され得る。
【0082】
特定の実施形態の固有の詳細は、本発明の実施形態の精神および範囲から逸脱することなく、任意の適切なやり方で組み合わせられてもよい。しかしながら、本発明の他の実施形態は、それぞれの個別の態様に関する特定の実施形態、またはこれらの個別の態様の特定の組み合わせを対象としてもよい。
【0083】
本開示の例示的な実施形態の上記の説明は、例示および説明を目的として提示されている。これらは、網羅的であることも、本開示を記載された正確な形態に限定することも意図しておらず、上記の教示に照らして多数の変更および変形が可能である。
【0084】
「a」、「an」、または「the」という記載は、そのようでないと具体的に示されない限り、「1つ以上」を意味するように意図される。「または」の使用は、そのようでないと具体的に示されない限り、「排他的論理和」でなく、「包含的論理和」を意味するように意図される。「第1の」構成要素への言及は、第2の構成要素がもたらされることを必ずしも必要としない。さらに、「第1の」または「第2の」構成要素への言及は、明示的に述べられない限り、言及された構成要素を特定の位置に限定しない。「基づいて」という用語は、「少なくとも部分的に基づいて」ということを意味することを意図する。
【0085】
本明細書に説明される全ての特許、特許出願、刊行物、および説明文は、あらゆる目的のためにそれらの全体が参照により組み込まれる。いずれも先行技術であると認められるものではない。
図1
図2
図3
図4
図5
図6
図7
図8
【外国語明細書】