(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-06
(54)【発明の名称】合成アレリックラダーライブラリーを有するDNA分析装置
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230830BHJP
C12M 1/00 20060101ALI20230830BHJP
G16B 20/20 20190101ALI20230830BHJP
G16B 40/20 20190101ALI20230830BHJP
C12Q 1/686 20180101ALN20230830BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
G16B20/20
G16B40/20
C12Q1/686 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023511807
(86)(22)【出願日】2021-08-13
(85)【翻訳文提出日】2023-04-12
(86)【国際出願番号】 US2021046020
(87)【国際公開番号】W WO2022040053
(87)【国際公開日】2022-02-24
(32)【優先日】2020-08-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-08-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】502221282
【氏名又は名称】ライフ テクノロジーズ コーポレーション
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100098475
【氏名又は名称】倉澤 伊知郎
(74)【代理人】
【識別番号】100130937
【氏名又は名称】山本 泰史
(74)【代理人】
【識別番号】100144451
【氏名又は名称】鈴木 博子
(74)【代理人】
【識別番号】100123630
【氏名又は名称】渡邊 誠
(72)【発明者】
【氏名】ヴァンボ マティアス
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029AA23
4B029FA10
4B063QA13
4B063QQ41
4B063QR08
4B063QR32
4B063QR62
4B063QX02
(57)【要約】
複数の対立遺伝子の存在についてデオキシリボ核酸(DNA)分子を含む生物学的サンプルを試験する方法が記載され、DNAフラグメントは、生物学的サンプルを使用して得られ、異なるフラグメントサイズを有する異なる対立遺伝子に対応する。キャピラリー電気泳動(CE)機器を使用して、生物学的サンプルについての試験フラグメントのサイズ決めデータを得る。予め計算されたモデルを使用して、1つ以上の合成アレリックラダーを動的に決定し、このとき、予め計算されたモデルは、CE機器を使用して行われた複数の以前のアレリックラダーサンプルランから得られた複数のフラグメントのサイズ決めデータセットの分析を介して誘導される。1つ以上の合成的に又は実験的に得られたアレリックラダーを使用して、試験フラグメントのサイズ決めデータへの十分な適合を見出し、複数の対立遺伝子のうちのどれが生物学的サンプル中に存在するかを同定する。統計分析は、2つの主成分を含む主成分分析を含んでもよい。
【特許請求の範囲】
【請求項1】
複数の対立遺伝子の存在についてデオキシリボ核酸(DNA)分子を含む生物学的サンプルを試験する方法であって、前記生物学的サンプルを使用して得られ、前記複数の対立遺伝子の異なる対立遺伝子に対応するDNAフラグメントが、異なるフラグメントサイズを有し、
分析機器を使用して、前記生物学的サンプルに対応する複数の標識されたDNAフラグメントを移動及び走査することによって、試験フラグメントのサイズ決めデータを取得することと、
予め計算されたモデルを使用して、1つ以上の第1の合成アレリックラダーを動的に生成することであって、前記予め計算されたモデルが、フラグメントサイズを測定するために、同じ分析機器を使用するか、又は別の同等の分析機器を使用するかのいずれかで、複数の以前に行われたサンプルランから得られた複数のフラグメントのサイズ決めデータセットの分析に基づく、ことと、
前記1つ以上の第1の合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
前記決定が、前記1つ以上の第1の合成アレリックラダーが前記試験フラグメントのサイズ決めデータに十分に適合しないというものである場合、前記予め計算されたモデルの1つ以上のパラメータを変化させることによって1つ以上の追加の合成アレリックラダーを生成し、前記1つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
合成アレリックラダーの十分な適合が確認されると、前記十分に適合する合成アレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定することと、を含む、方法。
【請求項2】
前記分析機器が、キャピラリー電気泳動(CE)機器を含む、請求項1に記載の方法。
【請求項3】
前記複数の以前に行われたサンプルランが、1つ以上のアレリックラダーサンプルランを含む、請求項1に記載の方法。
【請求項4】
前記複数の以前に行われたサンプルランが、他の生物学的サンプル由来の1つ以上の1つ以上の試験サンプルランを含む、請求項1に記載の方法。
【請求項5】
前記1つ以上の追加の合成アレリックラダーが、1つ以上の最適化基準を満たすために、十分に適合するアレリックラダーが同定された後に生成される、請求項1に記載の方法。
【請求項6】
前記予め計算されたモデルが、主成分分析(PCA)に基づく、請求項1に記載の方法。
【請求項7】
前記主成分分析が、第1の主成分範囲を有する第1の主成分と、第2の主成分範囲を有する第2の主成分とを決定することを含む、請求項6に記載の方法。
【請求項8】
前記主成分分析が、各々が代表的なフラグメントサイズに関連する複数の対立遺伝子を含む代表的アレリックラダーを決定することを更に含み、前記代表的アレリックラダーは、基準条件のセットに関連する、請求項7に記載の方法。
【請求項9】
前記代表的アレリックラダーを決定することが、
前記基準条件のセット下で、アレリックラダーサンプルに対して複数の実験サンプルランを実行することと、
前記実験サンプルランにおける前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項8に記載の方法。
【請求項10】
前記代表的アレリックラダーを決定することが、
前記基準条件のセットの指定された範囲内にある前記複数のフラグメントのサイズ決めデータセットのサブセットを選択することと、
前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項8に記載の方法。
【請求項11】
前記代表的アレリックラダーを決定することが、代表的アレリックラダーを決定することなく予備的移動モデルを生成することであって、前記予備的移動モデルは、前記基準条件のセットに対応する代表的合成アレリックラダーを生成する、ことを更に含む、請求項8に記載の方法。
【請求項12】
前記代表的合成アレリックラダーに十分に適合する前記複数のフラグメントのサイズ決めデータセットのフラグメントのサイズ決めデータセットを見出すことを更に含む、請求項8~10のいずれか一項に記載の方法。
【請求項13】
前記複数のフラグメントのサイズ決めデータセットのサブセットを見出すことであって、前記サブセット中の各フラグメントのサイズ決めデータセットは、前記代表的アレリックラダーに対する十分な適合を含む、ことと、
前記サブセット内の前記対立遺伝子の各々について平均フラグメントサイズを計算することと、を更に含む、請求項8~10のいずれか一項に記載の方法。
【請求項14】
前記第1の主成分及び第2の主成分を線形結合して温度成分及びゲル分解成分と整列させることと、前記温度成分の中心値に第1の基準条件を設定することと、前記ゲル分解成分の上限値に第2の基準条件を設定することと、を更に含む、請求項8に記載の方法。
【請求項15】
前記複数のフラグメントのサイズ決めデータセットの各々について、前記データセットのフラグメントサイズ値から前記参照フラグメントサイズ値を差し引くことによって、前記フラグメントのサイズ決めデータセット中の各対立遺伝子について偏差値を計算することと、
前記複数のフラグメントのサイズ決めデータセットについての前記偏差値を含む行列を記憶することと、
主成分を決定するために1回以上の主成分分析行列演算を実行することと、更に含む、請求項8に記載の方法。
【請求項16】
前記予め計算されたモデルが、
第1の変数及び第2の変数を定義することであって、前記第1の変数及び前記第2の変数は、前記予め計算されたモデルにおける移動に影響を与える、こと、
前記第1の変数についての第1の実験範囲及び前記第2の変数についての第2の実験範囲を決定すること、
前記第1の実験範囲及び第2の実験範囲内の基準条件を選択すること、
前記第2の変数を前記基準条件で一定に保持しながら、前記第1の変数について前記第1の実験範囲にわたって第1の一連の較正サンプルランを、前記第2の変数を前記基準条件で一定に保持しながら、前記第2の変数について前記第2の実験範囲にわたって第2の一連の較正サンプルランを実行すること、
前記第1の変数に対する第1のパラメータ及び前記第2の変数に対する第2のパラメータを定義することであって、前記第1及び第2のパラメータは前記基準条件において0であり、前記第1のパラメータは、前記基準条件からの前記第1の変数の偏差において非0値を含み、前記第2のパラメータは、前記基準条件からの前記第2の変数の偏差において非0値を含む、こと、
前記第1の変数及び前記第2の変数について、回帰パラメータを決定し、第1のプロット及び第2のプロットにおける各対立遺伝子の傾きを集計して、第1の特性成分及び第2の特性成分を生成すること、並びに、
前記較正サンプル中の前記対立遺伝子の各々の前記傾きについて切片を集計することによって、参照ラダーを生成すること、によって生成される経験的モデルを含む、請求項1に記載の方法。
【請求項17】
前記予め計算されたモデルを使用して1つ以上の第1の合成アレリックラダーを動的に生成する前に、まず、予め記憶されたアレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することであって、前記予め記憶されたアレリックラダーは、フラグメントサイズを測定するために、同じCE機器を使用するか又は別の同等のCE機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた1回以上のサンプルランから得られたフラグメントのサイズ決めデータセットを含む、ことと、
前記予め記憶されたアレリックラダーが十分に適合する場合、前記十分に適合する予め記憶されたアレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを、第1の合成アレリックラダーも追加の合成アレリックラダーも生成することなく決定することと、を更に含む、請求項1に記載の方法。
【請求項18】
デオキシリボ核酸(DNA)分析装置であって、
キャピラリー電気泳動(CE)遺伝子分析装置であって、
1つ以上のDNA分子を含む試験用生物学的サンプルを受容するように動作可能なサンプルポートであって、前記DNA分子は1つ以上のDNA遺伝子座を含み、各DNA遺伝子座は複数の対立遺伝子と関連付けられている、サンプルポートと、
前記サンプルポートに接続されたサーマルサイクラーであって、前記試験用生物学的サンプルのDNAフラグメントのDNA増幅を実行するように動作可能なポリメラーゼ連鎖反応(PCR)チャンバを含む、サーマルサイクラーと、
前記試験用生物学的サンプルの前記増幅されたDNAフラグメントを受容し、分離するように動作可能な、前記サーマルサイクラーに接続された少なくとも1つのCEキャピラリーと、
前記試験用生物学的サンプルの前記増幅されたDNAフラグメントの蛍光値を検出するために、前記CEキャピラリーを走査するように動作可能な光学検出器と、
前記光学検出器に接続され、前記試験用生物学的サンプルの前記増幅されたDNAフラグメントの蛍光値に対応する試験フラグメントのサイズ決めデータを生成するように動作可能な信号プロセッサと、を備える、CE遺伝子分析装置と、
前記CE遺伝子分析装置に接続されたDNAプロファイル生成装置であって、
第1の合成アレリックラダーを動的に生成するための予め計算されたモデルであって、フラグメントサイズを測定するために、同じCE機器を使用するか、又は別の同等のCE機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた複数のサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計解析に基づいて導出されている、予め計算されたモデルと、
前記第1の合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するかどうかを決定し、前記適合が十分でない場合、前記予め計算されたモデルの1つ以上のパラメータを変化させることによって1つ以上の追加の合成アレリックラダーを生成するように前記予め計算されたモデルに信号を送り、前記1つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するかどうかを決定する、フィッターと、
十分に適合する合成アレリックラダーが同定されると、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定する、対立遺伝子コーラーと、を備える、DNAプロファイル生成装置を、を含む、DNA分析装置。
【請求項19】
前記DNAプロファイル生成装置が、フラグメントサイズを測定するために、同じCE機器を使用するか、又は別の同等のCE機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた前記複数のサンプルランから得られた前記複数のフラグメントのサイズ決めデータセットを記憶するデータベースを更に備える、請求項18に記載のDNA分析機器。
【請求項20】
前記DNAプロファイル生成装置が、フラグメントサイズを測定するために、同じCE機器を使用するか、又は別の同等のCE機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた複数のサンプルランから得られた前記複数のフラグメントのサイズ決めデータセットに遠隔アクセスする、請求項18に記載のDNA分析機器。
【請求項21】
前記DNA分析装置が、前記予め計算されたモデルに遠隔アクセスする、請求項18に記載のDNA分析装置。
【請求項22】
前記予め計算されたモデルを使用して前記第1の合成アレリックラダーを動的に生成する前に、前記フィッターによってアクセスされる複数の合成アレリックラダーを記憶する合成アレリックラダーデータベースを更に備え、記憶された合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するため、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定する、請求項18に記載のDNA分析装置。
【請求項23】
前記DNAプロファイル生成装置が、前記合成アレリックラダーデータベースに遠隔アクセスする、請求項22に記載のDNA分析装置。
【請求項24】
複数の対立遺伝子の存在についてデオキシリボ核酸(DNA)分子を含む生物学的サンプルを試験する方法であって、前記生物学的サンプルを使用して得られ、前記複数の対立遺伝子の異なる対立遺伝子に対応するDNAフラグメントが、異なるフラグメントサイズを有し、
キャピラリー電気泳動(CE)機器を使用して、前記生物学的サンプルに対応する複数の蛍光標識されたDNAフラグメントを移動及び走査することによって、試験フラグメントのサイズ決めデータを取得することと、
前記試験フラグメントのサイズ決めデータを使用して、記憶されたアレリックラダーライブラリーを検索することであって、前記記憶されたアレリックラダーライブラリーは、予め計算されたモデルを使用して合成的に生成されている1つ以上の記憶された合成アレリックラダーを含み、前記予め計算されたモデルは、フラグメントサイズを測定するために、同じCE機器を使用するか、又は別の同等のCE機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた複数のサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計解析に基づいて導出されている、ことと、
前記1つ以上の記憶されたアレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、十分に適合するアレリックラダーを含むように前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
前記1つ以上の記憶されたアレリックラダーが前記試験フラグメントのサイズ決めデータに十分に適合しない場合、前記予め計算されたモデルの1つ以上のパラメータを変化させることによって前記予め計算されたモデルを使用して1つ以上の追加の合成アレリックラダーを動的に生成し、前記1つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、十分に適合するアレリックラダーを含むように前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
アレリックラダーの十分な適合が確認されると、前記十分に適合するアレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定することと、を含む、方法。
【請求項25】
前記予め計算されたモデルが、主成分分析(PCA)に基づく、請求項24に記載の方法。
【請求項26】
前記主成分分析が、第1の主成分範囲を有する第1の主成分と、第2の主成分範囲を有する第2の主成分とを決定することを含む、請求項25に記載の方法。
【請求項27】
前記記憶されたアレリックラダーライブラリーが、前記第1の主成分範囲にわたる異なる第1の主成分値、及び前記第2の主成分範囲にわたる異なる第2の主成分値に関連する複数の合成アレリックラダーを含む、請求項26に記載の方法。
【請求項28】
前記主成分分析が、各々が代表的なフラグメントサイズに関連する複数の対立遺伝子を含む代表的アレリックラダーを決定することを更に含み、前記代表的アレリックラダーは、基準条件のセットに関連する、請求項26に記載の方法。
【請求項29】
前記代表的アレリックラダーを決定することが、
前記基準条件のセット下で、アレリックラダーサンプルに対して複数の実験サンプルランを実行することと、
前記実験サンプルランにおける前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項28に記載の方法。
【請求項30】
前記代表的アレリックラダーを決定することが、
前記基準条件のセットの指定された範囲内にある前記複数のフラグメントのサイズ決めデータセットのサブセットを選択することと、
前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項28に記載の方法。
【請求項31】
前記代表的アレリックラダーを決定することが、代表的アレリックラダーを決定することなく予備的移動モデルを生成することであって、前記予備的移動モデルは、前記基準条件のセットに対応する代表的合成アレリックラダーを生成する、ことを更に含む、請求項28に記載の方法。
【請求項32】
前記代表的アレリックラダーとして前記代表的合成アレリックラダーに十分に適合する前記複数のフラグメントのサイズ決めデータセットのフラグメントのサイズ決めデータセットを設計することを更に含む、請求項28~31のいずれか一項に記載の方法。
【請求項33】
前記複数のフラグメントのサイズ決めデータセットのサブセットを見出すことであって、前記サブセット中の各フラグメントのサイズ決めデータセットは、前記代表的アレリックラダーに対する十分な適合を含む、ことと、
前記サブセット内の前記対立遺伝子の各々について平均フラグメントサイズを計算することと、を更に含む、請求項28~31のいずれか一項に記載の方法。
【請求項34】
前記第1の主成分及び第2の主成分を線形結合して温度成分及びゲル分解成分と整列させることと、前記温度成分の中心値に第1の基準条件を設定することと、前記ゲル分解成分の上限値に第2の基準条件を設定することと、を更に含む、請求項28に記載の方法。
【請求項35】
前記複数のフラグメントのサイズ決めデータセットの各々について、前記データセットのフラグメントサイズ値から前記参照フラグメントサイズ値を差し引くことによって、前記フラグメントのサイズ決めデータセット中の各対立遺伝子について偏差値を計算することと、
前記複数のフラグメントのサイズ決めデータセットについての前記偏差値を含む行列を記憶することと、
主成分を決定するために1回以上の主成分分析行列演算を実行することと、更に含む、請求項28に記載の方法。
【請求項36】
前記予め計算されたモデルが、
第1の変数及び第2の変数を定義することであって、前記第1の変数及び前記第2の変数は、前記予め計算されたモデルにおける移動に影響を与える、こと、
前記第1の変数についての第1の実験範囲及び前記第2の変数についての第2の実験範囲を決定すること、
前記第1の実験範囲及び第2の実験範囲内の基準条件を選択すること、
前記第2の変数を前記基準条件で一定に保持しながら、前記第1の変数について前記第1の実験範囲にわたって第1の一連の較正サンプルランを、前記第2の変数を前記基準条件で一定に保持しながら、前記第2の変数について前記第2の実験範囲にわたって第2の一連の較正サンプルランを実行すること、
前記第1の変数に対する第1のパラメータ及び前記第2の変数に対する第2のパラメータを定義することであって、前記第1及び第2のパラメータは前記基準条件において0であり、前記第1のパラメータは、前記基準条件からの前記第1の変数の偏差において非0値を含み、前記第2のパラメータは、前記基準条件からの前記第2の変数の偏差において非0値を含む、こと、
前記第1の変数及び前記第2の変数について、回帰パラメータを決定し、第1のプロット及び第2のプロットにおける各対立遺伝子の傾きを集計して、第1の特性成分及び第2の特性成分を生成すること、並びに、
前記較正サンプル中の前記対立遺伝子の各々の前記傾きについて切片を集計することによって、参照ラダーを生成すること、によって生成される経験的モデルを含む、請求項24に記載の方法。
【請求項37】
前記記憶されたアレリックラダーライブラリーが、1つ以上の記憶された天然アレリックラダーを更に含む、請求項24に記載の方法。
【請求項38】
1つ以上の命令を記憶するメモリを含む非一時的コンピュータ可読媒体であって、少なくとも1つのコンピューティングデバイスの1つ以上のプロセッサによって実行されると、1つ以上のデオキシリボ核酸(DNA)分子を含む生物学的サンプルを試験するためのDNA分析機器の検証を実行し、前記DNA分子は1つ以上のDNA遺伝子座を含み、各DNA遺伝子座は複数の対立遺伝子と関連付けられており、
対照生物学的サンプルの複数のフラグメントに対応するフラグメントのサイズ決め値に対応する試験フラグメントのサイズ決めデータを取得することであって、前記複数のフラグメントは、前記DNA分析機器の電気泳動遺伝子分析装置によって検出される、こと、
1つ以上の第1の合成アレリックラダーを動的に生成するための予め計算されたモデルを使用することであって、前記予め計算されたモデルは、フラグメントサイズを測定するために、同じ電気泳動機器を使用するか、又は別の同等の電気泳動機器を使用するかのいずれかで、アレリックラダー生物学的サンプルに対して以前に行われた複数のサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計解析に基づいて導出されている、こと、
前記第1の合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記対照生物学的サンプル中に存在するかを同定するために、前記対照サンプルフラグメントのサイズ決めデータに十分に適合するか否か、かつ予め特定した検証基準のセットを満たすか否かを決定すること、
前記第1の合成アレリックラダーが前記対照サンプルフラグメントのサイズ決めデータに十分に適合しない場合、前記予め計算されたモデルの1つ以上のパラメータを変化させることによって1つ以上の追加の合成アレリックラダーを生成し、前記1つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記対照生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否か、かつ予め特定した検証基準のセットを満たすか否かを決定すること、並びに、
合成アレリックラダーの十分な適合が確認されると、前記対照生物学的サンプルの前記複数の対立遺伝子が、前記十分に適合する合成アレリックラダーの対応する複数の対立遺伝子とマッチするか否かを決定すること、によって前記検証を実行する、非一時的コンピュータ可読媒体。
【請求項39】
1つ以上の命令を記憶するメモリを含む非一時的コンピュータ可読媒体であって、少なくとも1つのコンピューティングデバイスの1つ以上のプロセッサによって実行されると、1つ以上のデオキシリボ核酸(DNA)分子を含む生物学的サンプルの試験を実行し、前記DNA分子は1つ以上のDNA遺伝子座を含み、各DNA遺伝子座は複数の対立遺伝子と関連付けられており、
分析機器を使用して、前記生物学的サンプルに対応する複数の標識されたDNAフラグメントを移動及び走査することによって、試験フラグメントのサイズ決めデータを取得すること、
予め計算されたモデルを使用して、少なくとも1つの第1の合成アレリックラダーを動的に生成することであって、前記予め計算されたモデルが、フラグメントサイズを測定するために、同じ分析機器を使用するか、又は別の同等の分析機器を使用するかのいずれかで、複数の以前に行われたサンプルランから得られた複数のフラグメントのサイズ決めデータセットの分析に基づく、こと、
前記第1の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定すること、
前記第1の合成アレリックラダーが前記試験フラグメントのサイズ決めデータに十分に適合しない場合、前記予め計算されたモデルの1つ以上のパラメータを変化させることによって1つ以上の追加の合成アレリックラダーを生成し、前記1つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定すること、並びに、
合成アレリックラダーの十分な適合が確認されると、前記十分に適合する合成アレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定すること、によって前記試験を実行する、非一時的コンピュータ可読媒体。
【請求項40】
前記分析機器が、キャピラリー電気泳動(CE)機器を含む、請求項39に記載の非一時的コンピュータ可読媒体。
【請求項41】
前記複数の以前に行われたサンプルランが、1つ以上のアレリックラダーサンプルランを含む、請求項39に記載の非一時的コンピュータ可読媒体。
【請求項42】
前記複数の以前に行われたサンプルランが、他の生物学的サンプル由来の1つ以上の1つ以上の試験サンプルランを含む、請求項39に記載の非一時的コンピュータ可読媒体。
【請求項43】
前記1つ以上の追加の合成アレリックラダーが、1つ以上の最適化基準を満たすために、十分に適合するアレリックラダーが同定された後に生成される、請求項39に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【背景技術】
【0001】
本開示は、概して、デオキシリボ核酸(DNA)分析のためのシステム、デバイス、及び方法に関し、より具体的には、キャピラリー電気泳動を使用する法医学又は父子鑑定目的のための短いタンデム反復(STR)配列のDNAフラグメント分析のためのシステム、デバイス、及び方法に関する。
【0002】
ヒトゲノムの99.7%以上が個体間で同一であると推定されているため、遺伝子レベルで人を区別するためには、残りの0.3%において異なる領域を見出す必要がある。ヒトゲノム全体に散在する多くの反復DNA配列が存在する。
【0003】
真核生物ゲノムは、反復DNA配列に満ちている(Ellegren 2004)。これらの反復DNA配列のサイズは様々であり、典型的にはコア反復単位の長さ及び連続反復単位の数又は反復領域の全長によって指定される。長い反復単位は、コア反復中に数百から数千の塩基を含み得る。
【0004】
2塩基対(bp)~7bpの長さの反復単位を有するDNA領域は、マイクロサテライト、単純配列反復(SSR)、又は最も一般的には短いタンデム反復(STR)と呼ばれる。STRは、増幅に差が出る問題がなくポリメラーゼ連鎖反応(PCR)によって容易に増幅されるため、一般的なDNA反復マーカーとなっている。これは、反復サイズが小さいため、ヘテロ接合個体由来の両方の対立遺伝子のサイズが類似しているからである。STRマーカー中の反復の数は、個体間で非常に変動し得るので、これらのSTRはヒト同定目的に有効である。
【0005】
歴史的に、DNA配列決定産物は、2枚のガラスプレートの間に手作業で注がれたポリアクリルアミドゲルを使用して分離されていた。変性流動性ふるい分けポリマー(本明細書では「ゲル」とも称する)を使用したキャピラリー電気泳動は、ワークフロー、スループット、及び使いやすさが大幅に向上したため、古いゲル分離技術の使用に大きく取って代わった。蛍光標識されたDNAフラグメントは、分子量に従って分離される。キャピラリー電気泳動でゲルを注入する必要がないため、CEを使用したDNAシーケンス分析はより簡単に自動化され、一度により多くのサンプルを処理できる。
【0006】
STRタイピングキットは、STR遺伝子座のセットを増幅するように設計されたオリゴヌクレオチドを含むPCRプライマー混合物、デオキシヌクレオチド三リン酸、MgCl2、及びPCRを行うために必要な他の試薬を含むPCR緩衝液、PCR緩衝液と予め混合されることもあるDNAポリメラーゼ、対立遺伝子反復サイズの較正を可能にするために増幅されるSTR遺伝子座についての共通対立遺伝子を有するアレリックラダーサンプル、並びにキット試薬が適切に機能していることを確認するための陽性対照DNAサンプルの、5つの構成要素からなる。(John M.Butler,Chapter 5 in Advanced Topics in Forensic DNA Typing:Methodology,2012,p.99-139参照)。サンプル間の比較を可能にするために、内部レーン標準(ILS)とも呼ばれる内部サイズ標準もまた、各試験サンプル及びアレリックラダーサンプルに添加される。
【0007】
キャピラリー電気泳動中、サイクルシーケンシング反応の伸長産物は、動電学的注入の結果としてキャピラリーに入る。緩衝化された配列決定反応に印加される電圧は、負に荷電したフラグメントをキャピラリーに押し込み、このとき、電圧はゲルを通って印加されるため、電圧の一部がフラグメントに印加される。伸長産物は、それらの立体構造及び全電荷に基づいてサイズによって分離される。サンプルの電気泳動移動度は、実行条件(緩衝液の種類、濃度、及びpH、実行温度、印加された電圧の量、及び使用されるポリマーの種類)によって影響を受ける可能性がある。
【0008】
正極に到達する少し前に、サイズによって分離された蛍光標識されたDNAフラグメントは、レーザビームの経路を横切って移動する。レーザビームによりフラグメント上の色素が蛍光を発し、その蛍光が光学検出器によって検出される。データ収集ソフトウェアにより、検出された蛍光シグナルをデジタルデータに変換し、次いで、例えば、コンマで区切られたテキストファイルでデータを記録する。各色素は、レーザによって励起されたときに異なる波長で発光するため、同様のサイズのフラグメントのいくつかのセットを1回のキャピラリー注入で検出及び区別することができる。
【0009】
キャピラリー電気泳動(CE)では、核酸サンプルなどの生物学的サンプルは、キャピラリーの入口末端でキャピラリー内の変性分離媒体(当業者によって「ゲル」と称される場合がある)に注入され、キャピラリーの末端に電界が印加される。サンプル、例えば、ポリメラーゼ連鎖反応(PCR)混合物又は他のサンプル中の異なる核酸成分は、それらの電気泳動特性の違いにより、異なる速度で検出器ポイントに移動する。その結果、光検出器(通常は可視光範囲で動作する蛍光検出器又は紫外(UV)吸光度検出器)に異なる時間で到達する。結果は一連の検出されたピークとして表示され、各ピークは、理想的にはサンプルの1つの核酸成分又は種を表す。
【0010】
アーチファクトピークを含む任意の所与のピークの大きさは、ほとんどの場合、核酸、例えば、DNAによるUV吸収、又は核酸に関連付けられた1つ以上の標識色素からの蛍光発光のいずれかに基づいて光学的に判定される。核酸CE検出に適用可能なUV及び蛍光検出器は、当技術分野で周知である。
【0011】
CEキャピラリー自体は石英であることが多いが、当業者に既知である他の材料を使用することもできる。単一及び複数のキャピラリー機能の両方を有するいくつかのCEシステムが市販されている。本明細書に記載の方法は、核酸サンプルのCEのための任意のデバイス又はシステムに適用可能である。
【発明の概要】
【0012】
DNAフラグメント分析では、未知の同一性のSTRフラグメントを、内部レーン標準(ILS)としても知られている既知のサイズのフラグメントのセットと比較する。内挿によって、未知のフラグメントの見かけのサイズを決定することができ、フラグメントの同一性を推測することができる。しかしながら、当業者の間でよく知られている問題として、この見かけのサイズが、他の要因の中でも、温度の影響、並びにゲルのタイプ及び状態によって、時々変化することがある。DNAフラグメント分析において所定のSTRフラグメントについて測定されるサイズは、その「真の」サイズではなく、特定の時間において、特定の条件下で、STRフラグメントが、同じサイズの仮想ILSフラグメントが移動するのと同じ速度で移動することを意味するにすぎない。
【0013】
簡単な例として、実験により、温度が、移動、ひいては分子について測定されるサイズに強く影響を及ぼすことが見出されている。全般的には、より高い温度はより速い移動を意味するが、サンプル及びILSの移動速度が同様に変化する限り、サイズ決めに影響を及ぼさない。しかしながら、通常、異なるフラグメントに対する速度の変化にはわずかな差があり、一般に、サンプルフラグメントは、ILSフラグメントの移動速度の上昇に遅れ、したがって、より高温でより大きなサイズになる。一方、一部のサンプルフラグメントは、代わりに、ILSと比較して速く移動することができ、したがって、より小さいサイズになり得る。これは、特定のフラグメント及びILSフラグメントの選択に依存する。対立遺伝子とILSとの間の移動速度の変化における任意の差異は、ピークの大きさを変化させる。例えば、50℃の対照温度に対して60℃の対照温度では、所与のDNAフラグメントに1塩基対以上大きいサイズが割り当てられる場合がある。
【0014】
サンプルのセットを並行して実行することができるCE機器では、これらの変動は、各セットに標準サンプルを含めることによってほとんど対処することができる。アレリックラダーとしても知られるSTR分析目的のための標準サンプルは、調査される各対立遺伝子についてのほとんど又は全ての可能なフラグメントが単一のサンプルに集められているサンプルである。セットが既知であるので、各フラグメントの同一性を決定することができ、所定の条件下でILSと比較するとき、見かけのサイズと関連付けることができる。
【0015】
Applied Biosystems,Inc.製のRapidHIT(商標)IDシステムなどの単一のキャピラリー装置では、標準サンプルをサンプルと同時に行うことはできないが、その代わりに、サンプルランと可能な限り同様の条件下で、かつ短時間内に標準サンプルランを行うことが一般的である。これは、犯罪現場検証及び事故現場検証が、多くの場合、多数のDNAサンプルのヒト同定及びDNA試験のために迅速な検査所要時間を要求する法医学的分析において不利であり得る。
【0016】
多くの場合、システムは、バックアップとして、比較するためのより古いアレリックラダーのライブラリーを有し、このシステムは、試験サンプル中の対立遺伝子を同定するために使用され得る、十分な適合又は最良の適合の既知のアレリックラダーを見出すための選択を行うためのアルゴリズムを有する。上述のように、温度、ゲル分解、緩衝液、電圧変化、及びゲルロットにおける系統的な変動は、ランごとに生じ得、フラグメントをサイズ決めするデータ測定に影響を及ぼし得る。電流、光学ノイズ、ゲル不均一性、不純物、及び二次構造由来のノイズ効果も生じ得る。
【0017】
更に、これらのより古いアレリックラダーのライブラリーは、CE機器の典型的な又は有効な操作範囲を完全には表さない場合があり、これらのライブラリーへの依存は、DNA同定プロセスの精度に潜在的に影響を与え得る。より古いアレリックラダーのライブラリーにおける1つの問題は、それらがいかに構築されたか(例えば、手動で選択)、及びライブラリーがいかに良好に変動をカバーするかにおいて生じる。ライブラリーの適用範囲の密度及び次元、並びに含まれるラダーがどの程度代表的であるかもまた、影響を有し得る。全ての外部パラメータを理論的に一定に保つことができる場合であっても、測定における組成、注入及びノイズの差は、それが典型的な又は特定のサンプルをどれだけ良好に表すか又は適合するかに対して影響を及ぼす可能性がある。より古い対立遺伝子ライブラリーを使用する際の別の問題は、アレリックラダーライブラリーから最良適合又は十分に適合するアレリックラダーをどのように選択するかである。ラダーライブラリー中のラダーが、典型的な又は特定のサンプルランから外れる顕著なノイズ又は他の効果を有する場合、曖昧な選択のリスクが増加する。例えば、ラダーライブラリー中の2つのラダーが非常に類似している場合、ラダー選択において曖昧さが生じ得る。いくつかの場合において、試験サンプル中のピークは、2つのラダーのうちのいずれが同定のために選択されるかにかかわらず、同一として同定され得、曖昧さは問題にならない。別の場合において、2つの非常に異なるラダーは、試験サンプルに対する十分な適合を提供し得、わずかな差異(例えば、ノイズ)のみが、どのラダーがサンプルの参照として最終的に選択されるかを決定し得る。これは、試験サンプルがピークを全く含まないか、又は非常に少数のピーク、例えば5個又は10個未満のピークを含む場合に起こる危険性がより高い。
【0018】
法医学的分析におけるDNAフラグメントの不正確な同定は、例えば、法執行機関による犯罪調査において、並びに個人の生命の運命が決定される刑事及び民事裁判において、非常に重大な意味を有し得る。したがって、DNAフラグメント分析を用いたサンプル同定の精度を向上させ、分析時間を短縮する方法が必要である。
【0019】
本発明の実施形態は、複数の対立遺伝子の存在についてデオキシリボ核酸(DNA)分子を含む生物学的サンプルを試験する方法であって、生物学的サンプルを使用して得られ、異なる対立遺伝子に対応するDNAフラグメントが異なるフラグメントサイズを有する、方法を記載する。キャピラリー電気泳動(CE)機器を使用して、生物学的サンプルについての試験フラグメントのサイズ決めデータを得る。予め計算されたモデルを使用して、1つ以上の合成又は実験的に誘導されたアレリックラダーを生成し、このとき、予め計算されたモデルは、CE機器を使用して行われた複数の以前のアレリックラダーサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計分析を介して誘導される。1つ以上の合成アレリックラダーを使用して、試験フラグメントのサイズ決めデータへの十分な適合を見出し、複数の対立遺伝子のうちのどれが生物学的サンプル中に存在するかを同定する。統計分析は、2つの主成分を含む主成分分析(PCA)を含んでもよい。
【0020】
PCAを組み込み、2つの主成分を組み込む統計モデルは、そうでなければ固定された安定なDNAフラグメント分析システム、特にCE機器を組み込むものに関して、DNAフラグメントの見かけのサイズに影響を及ぼす最も重要な影響のうちの2つが、温度及びゲルがどの程度分解したかであるという概念を利用する。
【0021】
一実施形態では、予め計算されたモデルは、これらの効果(温度及びゲル分解)のそれぞれからの各DNAフラグメントの応答を実験的に測定することによって開発することができる。特に、分析される各DNAフラグメントの応答は、温度及びゲル分解を厳密に制御して経験的移動モデルを導出する実験から決定することができる。線形回帰分析を使用してこれらの応答を線形に結合することによって、任意の条件セットでのフラグメントの見かけのサイズが推定され得る。このような推定は、限られた範囲の条件に対して正確であることを経験的に示すことができる。
【0022】
ゲル分解及び温度の影響に対するDNAフラグメントのこれらの応答を決定するための異なるアプローチは、温度(例えば、室温及び/又は分離ヒーター温度)及びゲル分解をランダムに変化させた、及び/又は未知である多くのサンプルランから見かけのサイズを組み合わせ、主成分分析(PCA)を行うことによって予め計算されたモデルを開発することである。このような分析は、一般に、より多くのランを考慮に入れるため、このアプローチはノイズを低減するという更なる利点を有する。しかし、PCA分析は、温度及びゲル分解の応答を別々に提供せず、むしろ、上述したような様々な制御された単離された温度及び分解応答の測定と同じ推定セットを作成するために線形に結合され得る2セットの応答を提供する。特に、温度及びゲル分解それぞれの主に又は大部分が単離された影響からの応答は、PCA出力の線形結合として再構成され得る。PCA分析はまた、考慮する必要がある追加のパラメータがあるかどうかを示す。
【0023】
予め計算されたモデルを構築するためにとられたアプローチにかかわらず、そのようなモデルは、モデルが有効である任意の条件における任意のフラグメントの見かけのサイズを予測することができる。したがって、任意の条件セット下で参照ランの結果を予測することが可能であり、逆比較によって、どの条件下で任意の参照ラン又は任意のサンプルランが行われたかを推論することが可能である。
本特許又は出願ファイルには、カラーで作成された少なくとも1つの図面が含まれる。カラー図面を含む本特許又は特許出願公開のコピーは、要求及び必要な料金の支払いに応じて、特許庁(Office)によって提供される。
【図面の簡単な説明】
【0024】
【
図1】本発明の実施形態によるキャピラリー電気泳動系DNA分析システムを示す。
【
図2A】本発明の実施形態による例示的なDNA分析機器を示す。
【
図2B】本発明の実施形態に従って使用され得る
図2Aのシステムのための例示的サンプルカートリッジの2つの斜視図を示す。
【
図2C】本発明の実施形態に従って使用され得る
図2Aのシステムのための例示的一次カートリッジの斜視図を示す。
【
図3】本発明の実施形態によるCE系DNA分析システムのワークフロープロセスを示す。
【
図4】本発明の実施形態に従って表示され得るSTR分析サンプルランからの例示的なスキャンのセットを示す。
【
図5】本発明の実施形態に従って使用され得る従来技術のSTR分析ワークフロープロセスを示す。
【
図6】本発明の実施形態によるSTR分析ワークフロープロセスを示す。
【
図7】本発明の実施形態による経験的移動モデルを構築するためのプロセスを示す。
【
図8A】本発明の実施形態による経験的移動モデルについてのゲル分解変数の実験結果を示す。
【
図8B】本発明の実施形態による経験的移動モデルについての温度変数の実験結果を示す。
【
図9】本発明の実施形態による主成分分析(PCA)に基づいて移動モデルを構築するためのプロセスを示す。
【
図10】本発明の実施形態によるPCAに基づく移動モデルにおいて生成される主成分のグラフ表現を示す。
【
図11】本発明の実施形態によるPCAに基づくSTR分析ワークフロープロセスを示す。
【
図12】本発明の別の実施形態によるPCAに基づくSTR分析ワークフロープロセスを示す。
【
図13A】手動で集めたラダーライブラリーのPCA分析のグラフ表示を示す。
【
図13B】本発明の実施形態による合成ラダーライブラリーのPCA分析のグラフ表示を示す。
【
図14】本発明の実施形態による合成アレリックラダーを生成するためのPCAに基づくプロセスを示す。
【
図15】本発明の実施形態による例示的なPCAに基づく移動モデルを示す。
【
図16】本発明の実施形態による合成アレリックラダーを使用するPCAに基づくCE機器バリデーションプロセスを示す。
【
図17】本発明の実施形態を組み込むことができる例示的なコンピューティングデバイスのブロック図を示す。
【0025】
本発明を上記の図面を参照して説明したが、図面は例示であることを意図したものであり、他の実施形態は本発明の趣旨と一致し、本発明の範囲内にある。
【発明を実施するための形態】
【0026】
ここで、本明細書の一部を形成し、実施形態を実施する特定の例を例示する目的で示す添付の図面を参照して、様々な実施形態が、以下により詳細に説明される。しかしながら、本明細書は、多くの異なる形態で具現化されてもよく、本明細書に記載される実施形態に限定されると解釈されるべきではない。むしろ、これらの実施形態は、本明細書が徹底的かつ完全であり、本発明の範囲を当業者に十分に伝えるように提供される。とりわけ、本明細書は、方法又はデバイスとして具体化できる。したがって、本明細書の様々な実施形態のいずれも、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態をとることができる。したがって、以下の明細書は、限定的な意味で解釈されるべきではない。
【0027】
図1は、本発明の例示的な実施形態によるシステム100を示している。システム100は、キャピラリー電気泳動(「CE」)DNA分析機器101、1つ以上のコンピュータ103、及びユーザデバイス107を備える。
【0028】
本発明の一実施形態では、システム100は、Applied Biosystems,Inc.のRapidHIT(商標)ID System及び/又はRapidHIT(商標)200 Systemを含み得る、本明細書で定義される例示的な市販のCEデバイスを含む。しかしながら、本発明の実施形態において使用され得る他の例示的な市販のCEデバイスとしては、とりわけ、Applied Biosystems,Inc.(ABI)の遺伝子アナライザーモデル310(単一キャピラリー)、3130(4キャピラリー)、3130xL(16キャピラリー)、3500(8キャピラリー)、3500xL(24キャピラリー)、及びSeqStudio遺伝子アナライザーモデル、DNAアナライザーモデル3730(48キャピラリー)、及び3730xL(96キャピラリー)、並びに、Agilentの7100デバイス、Prince Technologies,Inc.のPrinCE(商標)Capillary Electrophoresis System、Lumex,Inc.のCapel-105(商標)CEシステム、及びBeckman CoulterのP/ACE(商標)MDQシステムが挙げられるが、これらに限定されない。本発明の実施形態はまた、DNAフラグメントのサイズ決めデータを生成する他の電気泳動システム、例えばゲル電気泳動における使用のために企図され得る。
【0029】
図1のシステム100を参照すると、一実施形態におけるCE DNA分析機器101は、緩衝液を含み、蛍光標識されたサンプル120を受け取るソース緩衝液118、ゲルキャピラリー122、デスティネーション緩衝液126、電源128、及び制御装置112を備える。ソース緩衝液118は、キャピラリー122を介して、デスティネーション緩衝液126と流体連通している。電源128は、ソース緩衝液118及びデスティネーション緩衝液126に電圧を印加し、ソース緩衝液118のカソード130及びデスティネーション緩衝液126のアノード132を介して電圧バイアスを生成する。電源128によって印加される電圧は、コンピューティングデバイス103によって操作される制御装置112によって構成される。ソース緩衝液118の蛍光標識されたサンプル120は、電圧勾配によってキャピラリー122を通して引き込まれ、サンプル内のDNAフラグメントの光学的に標識されたヌクレオチドは、デスティネーション緩衝液126に至る途中で光学検出器124を通過する際に検出される。蛍光標識されたサンプル120内の異なるサイズのDNAフラグメントは、それらのサイズのために異なる時間にキャピラリーを通して引き込まれる。
【0030】
光学センサ124は、ヌクレオチド上の蛍光標識を画像信号として検出し、画像信号をコンピューティングデバイス103に通信する。コンピューティングデバイス103は、画像信号をサンプルデータとして集約し、コンピュータプログラム製品104を利用して統計モデル102を操作し、サンプルデータを1tu以上のベースコールシーケンス及び/又はフラグメントサイズを含む処理済みデータに変換し、ユーザデバイス107のディスプレイ108上に表示され得るDNAプロファイル、例えば、1つ以上の電気泳動図を生成する。本発明の一実施形態では、DNA分析機器101は、Applied BiosystemsのRapidHIT(商標)IDシステム又はRapidHIT(商標)200システムの1つ以上のバージョンを含むことができる。
【0031】
予め計算された統計モデル102を実装するための命令は、ストレージ105に記憶されているコンピュータプログラム製品104内のコンピューティングデバイス103に存在し、それらの命令はプロセッサ106によって実行可能である。本発明の一実施形態では、コンピュータプログラム製品104は、Applied BiosystemsのRapidLINK(商標)ソフトウェア製品の1つ以上のバージョンを含むことができ、これは、ネットワークインターフェースを介して遠隔位置からコンピューティングデバイス103によって全体的又は部分的にアクセスすることができる。プロセッサ106がコンピュータプログラム製品104の命令を実行している際に、命令又はその一部は、通常、ワーキングメモリ109にロードされ、そこからプロセッサ106によって命令に容易にアクセスされる。1つの実施形態では、コンピュータプログラム製品104は、ストレージ105又は他の非一時的なコンピュータ可読媒体に記憶される(異なるデバイス及び異なる場所の媒体に分散されることを含み得る)。代替の実施形態では、ストレージ媒体は一時的なものである。
【0032】
一実施形態では、プロセッサ106は、大規模な並列計算をサポートする少なくとも数千の算術論理演算装置を含むグラフィックスプロセッシングユニット(GPU)を含む追加のワーキングメモリ(追加のプロセッサ及び個別に図示されていないメモリ)を含み得る複数のプロセッサを含み得る。GPUは、一般的な汎用プロセッサ(CPU)よりも効率的に関連する処理タスクを実行できるため、機械学習用途で頻繁に利用される。他の実施形態は、効率的な並列処理をサポートするシストリックアレイ及び/又は他のハードウェア構成を含む1つ又は複数の特殊な処理ユニットを含む。いくつかの実施形態では、そのような特殊なハードウェアは、CPU及び/又はGPUと連動して動作して、本明細書で説明される様々な処理を実行する。いくつかの実施形態では、そのような特殊なハードウェアは、特定用途向け集積回路等(特定用途向け集積回路の一部を指す場合がある)、フィールドプログラマブルゲートアレイ等、又はそれらの組み合わせを含む。しかしながら、いくつかの実施形態では、プロセッサ106等のプロセッサは、必ずしも本発明の趣旨及び範囲から逸脱することなく、1つ又は複数の汎用プロセッサ(好ましくは複数のコアを有する)として実装され得る。
【0033】
ユーザデバイス107は、統計モデル102によって実行された処理の結果を表示するためのディスプレイ108を含む。代替の実施形態では、統計モデル102又はその一部を記憶装置に記憶し、CE機器101及び/又はユーザデバイス107に存在する1つ以上のプロセッサによって実行することができる。そのような代替物は、本発明の範囲から逸脱しない。
【0034】
上述したように、犯罪現場で回収されたサンプルからのDNAプロファイリングは、法医学的検査の「ゴールドスタンダード」となっている。犯罪現場の法医学的証拠を処理することは、サンプル選択、DNA抽出及び定量、短いタンデム反復(STR)のPCR増幅、並びにキャピラリー電気泳動(CE)によるDNAプロファイルの生成と、多くの労働集約的工程を伴う。緊急サンプルの場合、結果までの時間は、今日の法執行機関の要求によって望まれるものよりもはるかに長いことが多い。
【0035】
Rapid DNAシステムは、DNAプロファイルを生成するための高度に自動化されたサンプルから答えまで一貫したプラットフォームである。本発明の実施形態で使用される例示的なRapid DNAシステムは、Applied BiosystemsのRapidHIT(商標)IDシステムであり、科学捜査研究所での使用、及び法執行機関又は他の研究所でない環境での未熟練ユーザによる使用の両方のための分散操作に最適化されている。RapidHIT(商標)IDシステムに関する更なる情報は、その全体が参照により本明細書に組み込まれる、Applied BiosystemsのRapidHIT(商標)IDシステム v1.0ユーザーガイド(発行No.MAN0018039)にある。本発明のいくつかの実施形態において使用される別の例示的なRapid DNAシステムは、Applied BiosystemsのRapidHIT(商標)200システムである。
【0036】
本発明のいくつかの実施形態において使用される例示的なDNA分析装置200Aを
図2Aに示す。システム200Aの例示的な実施形態は、Applied BiosystemsのRapidHIT(商標)IDシステムを含むが、システム200Aの他の実施形態は、Applied BiosystemsのRapidHIT(商標)200システムを含んでもよい。この実施形態では、機器200Aは、STRに基づく人物同定(HID)のための完全に自動化されたサンプルからCODIS(Combined DNA Index System)まで一貫したシステムを備え、推定された単一ソースサンプルを90分未満で、1分未満の実践時間で処理し得る。機器200Aは、機器200A上に提供される1つ以上のアレリックラダーのライブラリーを使用して、一部の分析を行ってもよい。キャピラリー電気泳動を実施し、STRプロファイルを生成した後、システム200Aは、生成されたフラグメントのサイズ決めデータセットを処理のためにRapidLINK(商標)ソフトウェアに転送し、必要であれば、手動でプロファイルを確認する。RapidLINK(商標)はまた、DNA装置のネットワーク全体で試薬供給及びオペレータアクセスを管理する。本発明の一実施形態では、RapidLINK(商標)ソフトウェアは、コンピュータプログラム製品104としてコンピュータ103上に常駐し、更なる分析を実行するための命令を含むことができる。RapidHIT(商標)IDシステムに関する更なる情報は、その全体が参照により本明細書に組み込まれる、Applied BiosystemsのRapidLINK(商標)ソフトウェア v1.0ユーザーガイド(発行No.MAN0018038)にある。
【0037】
本発明の一実施形態では、システム200Aは、DNAサンプルを処理するために1つ以上のサンプルカートリッジを使用するように設計される。そのようなサンプルカートリッジは、犯罪現場からのDNAサンプル、又は口腔スワブのDNAサンプル(例えば、DNAについて人の頬の内側をスワブするとき)を処理し得る。本発明の実施形態で使用される1つの例示的なカートリッジは、
図2Bに示される、口腔スワブを処理するためのRapidHIT(商標)ACEサンプルカートリッジ200Bである。一実施形態では、カートリッジ200Bは、GlobalFiler(登録商標)Express又はAmpFLSTR(登録商標)NGM SELect(商標)Express(Thermo Fisher Scientific,Inc.)マルチプレックスを利用する。PCR増幅、電気泳動、及び増幅産物の分析は全て、システム200A内で行われる。
【0038】
例示的なサンプルカートリッジ200Bなどのサンプルカートリッジとは別に、キャピラリー210C及びゲルカートリッジ220Cを含む、器具200Aの他の消耗品が、
図2Cに示される一次カートリッジ200C上に提供され、これは、器具200A上に設置され、器具200Aの定期的なメンテナンスの一部として定期的に交換され得る。器具200Aはまた、温度及び湿度を監視する内部環境センサを含む。
【0039】
図3は、本発明の一実施形態で使用されるSTR分析ワークフロー300を含む。本発明の一実施形態では、システム100は、機器200A、サンプルカートリッジ200B、及びコンピュータプログラム製品104を含むいくつかの構成要素を使用する。工程310では、サンプルが取得され(例えば、口腔スワブから)、STR化学物質を含有するサンプルカートリッジ200Bが調製される。次に、機器200A上のユーザインターフェースは、起動/呼び出しに応じて、工程320において、サンプルIDを機器200Aに入力すること、及び工程330において、サンプルカートリッジを機器200Aに挿入し、サンプルランを開始することを含む、ルーチン使用にユーザを導く。工程340において、機器200Aは、約90~110分でDNAプロファイルを生成する。工程350においてサンプルランが完了すると、サンプルカートリッジは機器200Aから取り外され、機器200Aは結果画面を表示する。器具200Aの例示的な状態インジケータは、DNAプロファイルが生成され、品質スコアフラグを含まないことを示す緑色、DNAプロファイルが1つ以上の品質スコアフラグを含んで生成されたことを示す黄色、又はDNAプロファイルが生成されなかったことを示す赤色を含む。工程360において、生成されたDNAプロファイルは、コンピュータプログラム製品104での更なる分析のためにコンピュータ103にエクスポートされ得る。
【0040】
図4は、本発明の実施形態によるSTR分析サンプルランからの例示的なスキャンのセットを示す。このスキャンのセットは、機器200Aによって生成されたDNAプロファイルを含む。各スキャンについて、各スキャンの上部に沿って走る水平x軸は塩基対の数を示し、y軸に沿って上昇するピークは、蛍光標識フラグメントが検出された蛍光値を示す。
【0041】
スキャン410は内部レーン標準(ILS)を表し、これは既知のサイズのDNAフラグメントのセットを含む。スキャン410の下部のx軸に沿った各ピークの下のボックスは、そのピークで検出されたフラグメントの塩基対の数を示す。スキャン420~460は、様々なDNA遺伝子座で対立遺伝子を標識するために使用される異なる色で示される5つの異なる蛍光色素マーカー(例えば、FAM、VIC、NED、TAZ、SID)を表す。スキャン420~460の各々の上部に沿って並ぶ長方形のボックスは、DNA遺伝子座の名称で示され、その遺伝子座についての対立遺伝子のサイズ範囲を示し、スキャン420~460の各々の下部x軸に沿って走る番号付けされたボックスは、対立遺伝子が検出されたピークを示し、対立遺伝子サイズで示される。各サンプルは、一般に、母親由来及び父親由来の染色体DNAを表す各DNA遺伝子座について2つのピーク(異なる対立遺伝子を表す)を示すが、いくつかの遺伝子座は、1つのピークのみを有し得る。したがって、アレリックラダーは、複数のDNA遺伝子座の各々についての既知の対立遺伝子のセットを表す。しかし、本明細書中の他の場所で議論されるように、試験サンプル及びアレリックラダーについてのSTR分析サンプルランのフラグメントサイズ決め結果は、日ごと又は時間ごとに変化し得るが、必ずしもランダムではない。他の因子の中でも、温度変化、ゲル作製後時間、ゲルタイプ、及びゲル状態は全て、見かけのフラグメントサイズを変化させ得る。これらの変動に対応する1つの方法は、アレリックラダーサンプルなどの標準サンプルを、試験サンプルの各セットのランと共に含めることである。
【0042】
図5は、本発明の実施形態においても使用され得る従来技術のSTR分析ワークフロープロセスを示す。工程510において、アレリックラダー標準サンプルランが実施される。サンプルのセットを並行して実行することができる機器では、上記変動は、各セットに標準サンプルを含めることによって対処することができる。RapidHIT(商標)ID装置などの単一キャピラリー装置では、好ましくは試験サンプルと可能な限り同様の条件内で、かつ同じ装置で短時間内に標準サンプルのランを行うことが一般的である。工程520において、ユーザは、予測されたピークがアレリックラダー標準サンプルから得られることを確認する。工程530において、アレリックラダー標準サンプルのラン結果が記録され、更なる分析のために記憶される。工程540において、被験者由来の1つ以上の試験サンプル(例えば、容疑者、参考人、又は犯罪現場から得られた法医学的サンプル)が、機器上で実行される。工程550において、試験サンプル中の対立遺伝子は、対立遺伝子標準サンプルラン結果由来のピークを試験サンプルラン結果と比較することによって同定される。次いで、工程560において、被験者の試験サンプルが参照のものと一致する(例えば、犯罪データベースに含まれる個人の身元、又は容疑者若しくは犠牲者の身元と一致する)かどうかが決定される。
【0043】
図6は、本発明の実施形態によるSTR分析ワークフロープロセス600を示しており、これは、上記の
図5に記載されているような既知の手法で使用される標準サンプルランの必要性をなくし、それによって、DNA分析及び同定プロセスをより高速及び/又はより正確にすることができる。
図6のアプローチは、そうでなければ固定された安定なシステムについて、CE機器上で実行されるサンプル中のフラグメントの見かけのサイズに影響を及ぼす最も顕著な影響のうちの2つが、温度及びゲルの分解程度であるという観察結果を利用する。温度及びゲル分解が所定の対立遺伝子の見かけのフラグメントサイズの摂動に対して顕著な効果を有する1つの理由は、これらの2つの変数が一定に保持することが事実上不可能であることである。
【0044】
工程610において、プロセスは、温度及びゲル分解(及び可能性として、機器又はサンプルカートリッジタイプ/モデル等の付加的パラメータ)が変動した、多くのサンプルランから見かけサイズを構築することによって開始する。工程620における1つのアプローチにおいて、一連の較正ランがアレリックラダーサンプルに対して実施され、温度及びゲル分解が厳密に制御される、一連の実験を実施することによって、経験的モデルを、これらの影響(例えば、温度及びゲル分解)の各々に対する各フラグメントの応答を決定するために構築できる。これらの応答を線形に結合することによって、任意の条件セットでのフラグメントの見かけのサイズが推定され得る。また、実験及び経験的観察を介して、そのような推定が、上記条件のそれぞれの限定された範囲内で正確であることを示すことができる。
【0045】
あるいは、工程620において、フラグメントのサイズ決めデータに対するこれらの影響を考慮するための異なるアプローチは、温度及びゲル分解がユースケースの多様なセットにわたってランダムに変化した(及び/又は未知である)多くの以前のサンプルランのトレーニングセットから各対立遺伝子についての見かけのフラグメントサイズを構築し、主成分分析(PCA)を行ってPCAに基づく移動モデルを生成することである。このPCAに基づくアプローチは、このタイプの統計的分析が、一般に、上述の経験的アプローチよりも多くの実行を考慮に入れることができる及び/又は考慮に入れるため、ノイズを低減するという更なる利点を有する。当業者によって理解され得るように、PCAに基づく分析は、温度及びゲル分解の応答を別々に提供せず、むしろ、上述したような経験的移動モデルにおける制御された実験によって導かれる単離された温度及びゲル分解応答と同じ推定セットを作成するために線形結合され得る2セットの応答を提供する。特に、温度及びゲル分解の単離された影響からの応答はそれぞれ、PCA出力の線形結合として再構築され得ることが期待される。本明細書の他の箇所で述べたように、PCAは、当技術分野で知られているいくつかの「相関発見」又は次元削減解析方法の代表と見なされるべきである。このような分析方法は、移動挙動の変動に起因するアレリックラダーにおける変動を十分に捕捉するために2つ以上のパラメータを利用し得ることにも留意すべきである。
【0046】
モデルを構築するためにとられたアプローチにかかわらず、そのようなモデルは、モデルが有効である任意の条件における任意のフラグメントの見かけのサイズを予測することができる。したがって、任意の条件セット下で参照ランの結果を予測することが可能であり、逆比較によって、どの条件下で任意の参照ランが行われたかを推論することが可能である。
【0047】
したがって、PCAに基づく移動モデルが選択されるか、又は経験的な移動モデルが選択されるかにかかわらず、別個の標準サンプルランを並行して又は短時間内に、試験サンプルランと同じ又は類似の条件下で完了させる必要なく、正確な分析を達成することができる。工程630において、試験用生物学的サンプル(例えば、顧客、被験者、容疑者、犠牲者、又は犯罪現場由来)は、DNA法医学的又は父子分析のために実行される。工程640において、生成された経験的又はPCAに基づく移動モデルを用いて、試験サンプルに十分に適合する1つ以上のアレリックラダーを決定する。工程650において、法医学的分析試験サンプルの結果を、移動モデルにおいて決定されたアレリックラダーと比較し、試験サンプル中の対立遺伝子を同定する。このプロセスは、全ての試験サンプルランが完了した後、工程660で終了し、容疑者、犠牲者、及び/又は犯罪現場の試験サンプルラン結果が一致するかどうかを判定することができる。
【0048】
図7は、本発明の実施形態による経験的移動モデルを構築するためのプロセスを示す。工程710において、ゲル分解及び温度は、経験的モデルの2つの変数として定義される。本発明の他の実施形態では、他のCEシステムは、アレリックラダー間の全ての変動をカバーするために、2つ以上の変数又はパラメータを利用し得る。工程720において、各変数に対する実験範囲が決定され、各変数に対する実験範囲内の基準条件が選択される。
【0049】
工程730において、各変数について実験を行い、他の変数を基準条件で一定に維持しながら、アレリックラダーサンプルに対する一連の較正ランが変数の関連範囲にわたって行われる実験が行われる。
【0050】
本発明の一実施形態では、基準条件は、実験条件が両方の実験で共通である各実験におけるデータ点の1つとして使用することができ、一方の変数を基準条件に固定したまま、他方の変数を変化させることができる。基準条件が実験に明示的に含まれるか否かにかかわらず、本発明の一実施形態では、基準条件は戦略的に、例えば、組み合わせた範囲の中心に選択される。
【0051】
工程740において、パラメータは、基準条件において0であり、任意の非0値がその条件に対する変数の偏差を示すように、各変数に対して定義される。パラメータは、変数の線形関数である必要はない。例えば、Tが温度であり、T0が基準条件の温度である場合、log(T)-log(T0)をパラメータとして選択することは、最終モデルの精度を改善することが見出された場合に有効である。本発明の一実施形態では、ゲル導電率又は一定温度での分解時間が、ゲル分解のパラメータ(又は代理)として使用される。
【0052】
工程750において、各変数について、実験ランで測定された各対立遺伝子の見かけのサイズが集計され、各対立遺伝子が、調べられているパラメータに対して別々にプロットされる。次に、回帰パラメータ(線形フィットパラメータ)を各プロット(各対立遺伝子)について決定する。工程760において、各変数について、各対立遺伝子の傾きが集計される。この集合は、この変数の「特性成分」を構成する。
【0053】
工程770において、各変数について、各対立遺伝子の切片が集計される。この集合は、変数の「参照ラダー」を構成する。経験的モデル実験が、議論されるような制御された厳密な様式で忠実に行われる場合、2つの変数についての参照ラダーは、非常に類似しているはずであり、基準条件での実験ラダーからの結果に非常に類似しているはずである。本発明の一実施形態では、対立遺伝子の各々についての参照ラダーの平均、又は基準条件でのいくつかの実験ラダーの平均をとることによって、共通の参照ラダーを自由裁量で選択することができ、いずれも、(実験からの組み合わされたデータセット又は検証データのセットと比較した場合に)経験的モデルのより良好な精度を生じることが証明される。
【0054】
図7の経験的線形回帰法を使用して生成されたモデルは、
図15に関連して以下で更に図示され説明されるPCA生成モデルと同様の形態であり得る。換言すれば、このモデルは、例えば、温度及びゲル作製後時間に対応する成分を含むが、これらの成分は、任意の特定の物理的パラメータを参照することなく表現され得、各成分は、各対立遺伝子について所定の正規化された値を有する。十分に良好な適合ラダーが見出されるまで、異なるラダーがモデルから生成されることを可能にするために、各成分についての更なる「重み」値がモデルに加えられる。これは、
図15に関連して更に示され説明される。便宜上、本発明の一実施形態では、各成分の値は、その最大絶対値が1に等しくなるように、対応する重みの単位が塩基対であるように、正規化することができる。そのような正規化された値は、説明を容易にするために本明細書に含まれるが、必須ではない。
【0055】
図8Aは、本発明の実施形態による経験的移動モデルについてのゲル分解変数の例示的な実験結果を示す。グラフ810Aには、ゲル分解に対するGFE(Global FileExpress)アレリックラダーの全体的な応答が示されている。x軸に沿ってプロットされた分離電流は、ゲル分解の代用として使用され、電流が高くなると、ゲルがより分解されることを意味する。本発明の一実施形態では、ゲルは、ある期間にわたって機器中に残り、アレリックラダーは、同じゲルを使用して規則的な間隔で泳動される。例えば、一実施形態では、ゲル分解速度を増加させるために、アレリックラダーサンプルランを、1日1回、数週間、室温で(例えば、機器の冷却器をオフにして)行われる。
【0056】
この実験における温度は一定に保持される。実験的に、本発明の実施形態では、ゲル分解と各対立遺伝子のフラグメントサイズ(塩基対又はbpの数におけるパターン重みとも呼ばれる)との間の関係が、特定の範囲内で線形であることを示すことができる。ゲルが分解されればされるほど、フラグメントのサイズ決めにおけるシフトはより大きくなり、分子はサイズがより大きく見える。例えば、グラフ810Aに示される全体的な応答挙動を見ると、最も強い相対活性を有する対立遺伝子の見かけのフラグメントサイズは、ゲルが分解し、分離電流が26マイクロアンペアであり、パターン重量が0bpである参照ランとして18.2マイクロアンペアでのランを仮定する場合、およそ1塩基対シフトしていることが分かる。
【0057】
グラフ820Aには、ゲル分解に対するアレリックラダー中の各対立遺伝子の相対応答が示されている。ラダー中の各ピークを考慮すると、全ての他の対立遺伝子は、正規化された相対活性値のy軸上で1と測定されるピークを有する対立遺伝子よりもいくらか少ない割合でシフトする。
【0058】
図8Bは、本発明の実施形態による経験的移動モデルについての温度変数の実験結果を示す。グラフ810Bでは、温度に対するGFE(Global Filer Express)アレリックラダーの全体的な応答は、グラフ810Bに表される3つの異なる機器ヒーターで温度がシフトされる場合に示されるように、線形関係を有することが示され、キャピラリーにおける温度シフトは、最も高い応答を有する。この実験におけるゲル分解(例えば、分離電流)は、一定に保持される。実験的に、本発明の実施形態では、温度と各対立遺伝子のフラグメントサイズ(塩基対又はbpの数におけるパターン重みとも呼ばれる)との間の関係が、特定の範囲内で線形であることを示すことができる。一般に、(特定の選択されたILSと組み合わせたGFEについて)、温度が低いほど、分子のサイズが大きく見える。同様に、グラフ820Bでは、アレリックラダー中の各対立遺伝子の温度に対する相対応答が示されている。上記のように、ラダー中の各ピークを考慮すると、全ての他の対立遺伝子は、相対活性のy軸上で1と測定されるピークを有する対立遺伝子よりもいくらか少ない割合でシフトする。
【0059】
主成分分析
フラグメント分析電気泳動図を評価する場合、ピークによって表されるフラグメントの見かけのサイズは、既知のサイズの参照ピークのセット、内部レーン標準(ILS)に対するピークの相対位置を内挿することによって決定される。次に、決定されたサイズは、それぞれのフラグメント中の塩基対の数を推定し、全てのフラグメントが一緒になってサンプルの固有の同一性を定義し、HIDの分野では、そのソースを1人又は数人の個人として暗示する。残念なことに、ILSとフラグメントピークとの間の相対移動速度は変化するため、内挿されたサイズは、異なる時間で実行された単一サンプルに対してさえ、ラン間で変化する。したがって、塩基対カウントを推測するための「ルックアップ」表又はラダーは、常に同じであるとは限らない。先行技術のアプローチは、マッチング、すなわち、任意の所与のサンプルに最大に一致するラダーを選択するために、システム上で利用可能な限られたセットのラダー、ラダーライブラリーを提供してきた。
【0060】
他の固定されたシステムでは、ゲルがどの程度分解しているか、つまり「古い」かどうか、及びゲル温度(組み立てられ制御されたキャピラリーヒーターの温度と、例えば晴れた窓辺などの環境温度との組み合わせ)の2つのパラメータが、相対移動速度を決定できる。ゲル孔サイズ及び増幅されたフラグメントの変性の程度など、他の根底にある物理的因子が、移動におけるこれらの差異を駆動し得、これらの各々は、少なくとも上記のパラメータによって影響されることを留意すべきである。
【0061】
分解及び温度の影響は同じではない。例えば、1つの例では(Applied BiosystemsのRapidHIT(商標)ID機器で使用されるGFE化学物質及びILSを利用)、より分解されたゲルは、遺伝子座D19S433から始まるピークをもたらし、比較的遅く移動させ、より大きく見えるようにする。一方、温度は、ILSと比較して、これらの特異的フラグメントの移動に実質的に全く影響を及ぼさない。
【0062】
一般に、ゲルがより分解するほど、又は温度が低いほど、基準条件又は他の理想的条件下での仮想ランのサイズと比較して見かけのサイズが大きくなる。しかしながら、各フラグメントは各パラメータに対して異なる応答を有する。上記の例について、グラフ810Bに示されるように、又は例えば、以下で議論される
図10のグラフ1000の構成要素C2に示されるように、温度が変動する場合、遺伝子座D18S51の長いフラグメントは、FGAの長いフラグメントピークのシフトの約70%しかシフトせず、SE33の短いフラグメントと長いフラグメントとの間に約50%の応答の差がある。いくつかのフラグメントピークは、他の方向にもシフトし、より短く見える。これら全ての相対的応答のリストは、移動がパラメータによって影響を受ける「パターン」又は特性成分を説明する。
【0063】
したがって、任意の所与のランについて、正確な条件が既知であると仮定すると、ピークの各々についてのシフトは、2つの効果を組み合わせることによって計算することができる。逆に、サンプルランのピークサイズから、そのランが仮想基準理想ランに対して、及びその代表的アレリックラダーによって、任意の他のランに対して、どれだけゲルの温度が高かったか、低かったか、又は分解していたかについて、最良の推定を行うことができる(一般に、常にノイズがあるため)。この代表的アレリックラダーによって比較を行うために、同じセットのピークを有する必要はなく、すなわち、発明者らが比較するランにおいて、異なるセットのフラグメントを有する異なるサンプルが使用され得る。仮想参照ランは、本明細書において「代表的アレリックラダー」として説明され、全ての想像可能なフラグメントについての理想的なピークサイズを含むと考えられ得る。
【0064】
時間と共に、多くのサンプルランが実行され、全てがこれらの2つのパラメータによって影響される。パラメータの各々が各ランにどの程度影響を与えたかが先験的に知られていない場合であっても、データを使用して、集団内の全てのシフトを最もよく説明できる応答のセット(又は「パターン」)を見つけることができる。これを行うための1つの機械学習手法は、主成分分析(PCA)と呼ばれる。
【0065】
安定したCEシステムは、前述の変動を表す2つの重要なPCA成分を生じるはずであると予想される。本発明の実施形態の移動モデルは、以下の分解に基づいて、各ラダー
【0066】
【数1】
(各対立遺伝子に関するbpリスト)を次式に分解する。
【0067】
【0068】
【0069】
【数4】
は、n異なるパターン(成分、摂動)であり、w
ijは、各パターン(j)が各ラダー(i)に寄与する程度、すなわち、重みであり、
【0070】
【0071】
【数6】
)の重みは、常に1であると制約されることに留意されたい。最後に、
【0072】
【数7】
は、モデルによって説明できない任意の剰余である(ノイズ又は説明されないパターン)。本発明のいくつかの実施形態では、nは2又は3などの小さい数である。
【0073】
【数8】
であるモデルの定義は可能であるが、これは典型的にはnのインクリメントを必要とすることに留意されたい。
【0074】
【数9】
を決定するための複数のアプローチがある。1つの例は、実験的アプローチの使用である。別の例は、
【0075】
【数10】
の決定に過去の参照データを使用すること、及び、
【0076】
【数11】
の決定にそのような過去の参照データをPCAと組み合わせて使用することである。別の例は、当業者に知られている他の機械学習アルゴリズムを使用することである。
【0077】
トレーニングデータを完全なラダーサンプルのラン由来のデータに限定する必要なく、試験サンプルデータから有効なモデルを生成することができるように、他の次元削減(又は相関発見)アルゴリズムがサンプルを不完全なラダーとして扱うことができる場合があることに留意されたい。そうするための1つのアプローチは、欠けているピークの剰余を常に0にし、次いで、総誤差を最小化する
【0078】
【数12】
を見つけることである。このアプローチの1つの利点は、新しい試験サンプルを実行する通常の過程において機器が使用されるときに、より大きなデータセットに対して経時的にモデルを訓練することを可能にすることである。
【0079】
図9は、本発明の実施形態によるPCAに基づいて移動モデルを構築するためのプロセスを示す。PCAは、変動を強調し、データセット内の強いパターンを明らかにするために使用される技法である。本発明の一実施形態では、PCAは、主成分を見つけるために相関行列の特性を利用する。主成分は、主成分が、任意の選択された物理的パラメータによる変化ではなく、データセットにおける最も強い依存性を記述するという点で、上述のゲル分解及び温度などの特性的な成分とは異なる。例えば、5つの数列のデータセットの場合、PCAアルゴリズムは、固有値を伴う5つの固有ベクトルを返すことになり、これらの固有値は、完全なデータセットを再構成するために線形に再結合され得る。しかしながら、より重要なことには、数列が互いに相関している場合、小さな誤差でデータセットを再構成することができる場合には、最も高い固有値に関連付けられた固有ベクトルのサブセットのみを使用すればよい。本発明の実施形態において上述したように、見かけのフラグメントサイズの変動は、温度及びゲル分解の変化によって最も顕著に影響を受けることが見出される。したがって、本発明の一実施形態では、2つの主成分を有するPCAに基づくモデルを使用することができる。
【0080】
PCAに基づく移動モデルを構築するためのプロセスは、工程910で始まり、ここで、機器の動作範囲内の種々の条件(例えば、温度及びゲル分解)を表す実験ラダーのトレーニングセットが得られる。PCAに基づく移動モデルでは、各ラダーランの条件は既知である必要はない。加えて、PCAに基づく移動モデルは、それらがトレーニングデータ内にないときにそれらの条件をモデル化することを可能にするので、全ての条件がトレーニングセット内にある(又は全ての条件に近い)必要はない。本発明の一実施形態では、全ての(又は実行可能な限り多くの)実際の使用事例を代表する、したがって、様々な条件の全ての(又は実行可能な限り多くの)条件を代表する実験ラダーのセットが、トレーニングセットとして使用される。
【0081】
工程920において、基準条件が戦略的に、例えば、機器の動作範囲の中心又はその付近で決定される。次に、工程930において、代表的アレリックラダーは、多くのラダーがこの基準条件で実行されるべき実験結果の平均(又は中央値)を表すように決定される。本発明の一実施形態では、代表的アレリックラダーは、各対立遺伝子についてのトレーニングセットの実験結果の平均又は中央値であると決定される。いくつかの実施形態では、各対立遺伝子について最も大きいフラグメントサイズ値及び最も小さいフラグメントサイズ値を有するトレーニングセットにおける1つ以上のアレリックラダーは、平均又は中央値を計算する前に廃棄され得る。
【0082】
本発明の他の実施形態は、代表的アレリックラダーを決定するための異なる方法を利用する。一実施形態では、多くのラダーが基準条件で実行される実験が実施され、この実験において決定された各対立遺伝子の平均サイズが、代表的アレリックラダーであると解釈される。別の実施形態では、基準条件を中心とするトレーニングセットのサブセットが選択され、サブセットの平均又は中央値が、代表的アレリックラダーであると解釈される。別の実施形態では、平均ラダーに最も類似するトレーニングセット中の単一の実験ラダーは、代表的アレリックラダーであると決定されるか、又は平均ラダーに類似するいくつかの実験ラダーを選択し、代表的アレリックラダーであるそれらの平均をとる。
【0083】
工程940において、トレーニングセット中のラダーの各々について、各対立遺伝子の偏差は、各対立遺伝子について、代表的アレリックラダーの対立遺伝子サイズを差し引くことによって測定される。次いで、工程950において、トレーニングセットラダーの各々が各対立遺伝子についての偏差を列挙する行として表される行列が作成される。工程960において、主成分分析(PCA)ツールの行列演算を実行して、PCAに基づく移動モデルを生成する。本発明の一実施形態では、MATLAB並びに当業者に知られている他の類似の数値計算ツール及びプログラミング言語を使用して、PCAの行列演算及び本明細書で説明する他の統計分析を実行することができる。
【0084】
本発明の別の実施形態では、代表的アレリックラダーは、PCAを使用して推定され得る。予備的なPCAに基づく移動モデルは、工程940に示されるように、各対立遺伝子の偏差を計算することなく開発され得る。この実施形態では、PCAを適用して、任意の代表的ラダーを差し引くことなくデータを記述する予備成分を決定する。次に、最も強い予備成分のどれだけを使用して各ラダーを最良の二乗適合近似に再構成する必要があるかが決定される。次に、これらの値の中央値が求められ、上記最も強い成分における値の各々が、その中央値と乗算される。次いで、この一連の数は、代表的アレリックラダーとして使用される。別の実施形態では、「代表的ラダー」を全く具体的に定義せず、むしろ最終モデルとして当該予備的PCAベースモデルを使用することが可能である。この実施形態では、「代表的ラダー」の機能は、PCA分析の第1の構成要素によって適応され、したがって、2つではなく3つの主成分を使用するようにモデルを拡張することが推奨される。
【0085】
図10は、本発明の実施形態によるPCAに基づく移動モデルにおいて生成される2つの最上位主成分の2つの線形結合のグラフ1000を示す。PCA出力から戻された最上位の2つの主成分によって構成することができる任意の線形結合も、これらの2つの線形結合成分から構成できることに留意されたい。成分C1は、ゲル分解に関連する経験的に同定された摂動を厳密に追跡する摂動を示し、C2は、温度変化に関連する経験的に同定された摂動を厳密に追跡する摂動を示す。この類似性は、
図10の2つの主成分のグラフを、
図8Aのグラフ820A(ゲル分解について)及び
図8Bのグラフ820B(温度変化について)に示される実験結果と比較することによって見ることができる。先に論じたように、フラグメントのサイズ決めデータにおける変動に対する2つの最も強い影響因子は、温度変化及びゲル分解であると予想される。
【0086】
図11は、標準サンプルランが必要とされない本発明の実施形態によるPCAに基づくSTR分析ワークフロープロセスを示す。工程1110において、機器の動作範囲内の実験的アレリックラダーのトレーニングセットを使用して生成された、予め計算されたPCAに基づく移動モデルがアクセスされる。工程1120において、試験用生物学的サンプル(例えば、容疑者又は犠牲者の口腔スワブ、犯罪現場サンプル)のPCR増幅フラグメントを移動させ、走査することによって、試験用生物学的サンプルのフラグメントのサイズ決めデータが得られる。工程1130において、試験サンプルについてのフラグメントのサイズ決めデータに適合する合成アレリックラダーが、PCAに基づく移動モデルを使用して生成される。一実施形態では、合成アレリックラダーは、ラダーのセットからラダーを選択することによって生成され、ラダーのセットは、有効な動作範囲内の規則的な間隔の主成分値のセットに対応する。別の実施形態では、生成された合成アレリックラダーは、主成分値の有効な動作範囲内でランダムに生成される。
【0087】
工程1140において、同定された合成アレリックラダーが試験サンプルフラグメントのサイズ決めデータに十分に適合するか否かについての決定がなされる。本発明の一実施形態では、同定された合成アレリックラダーが、試験サンプルフラグメントのサイズ決めデータ中の各対立遺伝子について0.10bp以内である測定値を含まない場合、同定されたラダーは十分に適合しない。別の実施形態では、同定された合成アレリックラダーが、試験サンプルフラグメントのサイズ決めデータ中の各対立遺伝子について0.35bp以内である測定値を含まない場合、同定されたラダーは十分に適合しない。工程1140に対する答えが「はい」である場合、工程1160において、合成アレリックラダーを使用して、どの対立遺伝子が試験サンプル中に存在するかを決定する。工程1140における答えが「いいえ」である場合、工程1150において、予め計算されたPCAに基づく移動モデルを使用して、試験サンプルフラグメントのサイズ決めデータに対する合成アレリックラダーの適合を(モデルにおける重みを調節することによって)調節する。本発明の一実施形態では、十分な適合を有する合成ラダーが構築され得ない試験サンプルについて、十分な適合である合成ラダーを見出すプロセスを中断するための機構が、実装され得る(例えば、予め決定された数の調整の繰り返しに達した後にプロセスを中断する)。
【0088】
本発明の一実施形態では、十分な適合を達成するために2つの部分がある。第1の部分では、適合のスコアが定義され、適合を最適化するためにアルゴリズムが使用される。本発明の一実施形態において使用される試験サンプル又はラダーに適合する合成ラダーを生成するために、モデルの重みを調整及び/又は最適化するためのアルゴリズムの例は、Math.NETツールキットにおいて利用可能なBroyden-Fletchers-Goldfarb-Shanno Bounded(BFGS-B)アルゴリズムである。このアルゴリズムは、この目的のために使用することができる多くの可能な最適化アルゴリズムのうちの1つである。この場合、アルゴリズムは、関数F(w1,w2)の最小値を見出し、ここで、w1及びw2は、合成ラダーを再構築するためにモデルにおいて使用される重みである。関数Fは、良好な適合が小さい数を返すように定義される。アルゴリズムは、関数を検査し、最適化関数Fについて最適化された最小の数を返すw1及びw2の値を見つける。最適化アルゴリズムは、典型的には、最適化のために追加のパラメータを使用する。そのようなパラメータの例は、w1及びw2の許容範囲である。別の例は、w1及びw2の値を決定する精度である(例えば、パラメータ公差)。Fの一例は、サンプル中の各ピークについて、所与のw1及びw2について最も近い合成ピークを見つけ、上記サンプルピークと上記合成ピークとの間の塩基対の絶対差を計算し、全てのピークについて算術平均を返すことである。まれな遺伝子型及び予期しないアーチファクトの存在を可能にする別の例は、上記算術平均を計算する前に2つの最大差を除外することである。別の例は、上記算術平均の代わりに絶対差の和を使用することである。
【0089】
第2の部分では、適合が十分であると考える前にどれだけの最適化が必要であるかが決定される。本発明のいくつかの実施形態では、それらの絶対最大値が1であるように正規化された成分について、w1及びw2は、0.35bp又は0.1bp又は0.01bpの「パラメータ公差」で最適化され得る(=w1及びw2値を決定する精度、上記参照)。これは、アルゴリズムが、この公差に対してFを最小化するw1及びw2を決定したと「結論付ける」まで反復することを意味し、すなわち、理論的最小値は、無限に最適化する場合、返された値の0.35bp又は0.1bp又は0.01bp以内である。成分の他の絶対最大値については、パラメータ公差をこの数で除算して同じ効果を達成することができる。(重みが0.35bp以内である場合、これは、成分が1に正規化されている場合、最も活性な対立遺伝子の耐性が0.35bpであり、他の全てがより良好であることを意味する。
【0090】
図12は、ここでも標準サンプルランが必要とされない、本発明の別の実施形態によるPCAに基づくSTR分析ワークフロープロセスを示す。
図12のプロセスは、機器の所望の動作範囲内の複数の合成アレリックラダーが予め生成され、記憶されているという点で、
図11のプロセスとは異なる。主成分の範囲を表すアレリックラダーの予め生成されたセットを有することは、PCAに基づく移動モデルを使用するSTR分析における計算要件を減少させ得る。更に、
図11及び12は、PCA作成モデルからラダーを生成することを参照するが、
図11及び12の工程は、他の開示された方法を介して生成された移動モデルに適用される。
【0091】
工程1220において、試験用生物学的サンプル(例えば、容疑者の口腔スワブ、顧客、容疑者若しくは被害者、又は犯罪現場サンプル)のPCR増幅フラグメントを移動させ、走査することによって、試験用生物学的サンプルのフラグメントのサイズ決めデータが得られる。工程1230において、試験サンプルのフラグメントのサイズ決めデータに最も密接に一致する、予め生成され記憶された合成アレリックラダーが同定される。一実施形態では、記憶された実験的に得られたアレリックラダーのセットは、合成アレリックラダーのセットと共に含まれ、記憶された実験的に得られたアレリックラダーは、合成アレリックラダーの代わりに同定され得る。工程1240において、同定された合成アレリックラダーが試験サンプルフラグメントのサイズ決めデータに十分に適合するか否かについての決定がなされる。工程1240に対する答えが「はい」である場合、工程1260において、同定された合成(又は記憶された天然)アレリックラダーは、どの対立遺伝子が試験サンプル中に存在するかを決定するために使用される。工程1240における答えが「いいえ」である場合、工程1250において、予め計算されたPCAに基づく移動モデルを使用して、上記のように、適合が十分であると決定される(又はプロセスが中止される)まで、試験サンプルフラグメントのサイズ決めデータに対する合成アレリックラダーの適合を調整する。別の実施形態では、予め記憶されたラダーの密度は、最初に同定された合成(又は天然)アレリックラダーが試験サンプルに十分に適合するような密度であり、最適化工程1240及び1250は実施されない。
【0092】
図13Aは、ラダーライブラリーのPCA分析のグラフ表示を示す。グラフ1300Aは、各ラダーに対応するそれぞれの成分C1及びC2に対する重みw
1及びw
2を示す、「ナイーブ」(例えば、密度又はカバーエリアに特に注意せずに手動で整理した)ラダーライブラリーのPCA分析を示す。
図13Aにおいて、成分C1及びC2は、PCA分析から得られた主成分の線形結合であり、C1は、ゲル分解とより関連する成分である。C2は、温度変化とより関連する成分である。黒い点はアレリックラダーライブラリーを表す。色付きの点は、試験サンプルランを表す。グラフ1300Aに示されるように、PCA分析は、ナイーブラダーライブラリー中のアレリックラダーが、1310Aで示される小さな範囲の成分値の近くに大きくクラスター化されることを明らかにする。クラスター1310Aから遠く離れた合成ラダーに十分に適合する重みw
1及びw
2を有する試験サンプルは、赤色の点によって示されるように、ラダーライブラリー中のラダーのいずれかに対して有効なマッチ生成に失敗する可能性がより高いが、緑色の点は有効なマッチを示す。ライブラリー中の全てのラダーは、2つのパラメータを用いて十分に説明され得る。
【0093】
図13Aでは、色を用いて、特定の試験サンプルについての最大偏差(モデル誤差+ノイズ)を示してもよく、例えば、赤色=マッチ失敗、黄色=0.35~0.5bp、一方、全ての緑色=モデル誤差+ノイズが小さく、有効なマッチである。
【0094】
図13Bは、本発明の実施形態による合成ラダーライブラリーのPCA分析のグラフ表示を示す。グラフ1300Bは、各ラダーに対応するそれぞれの成分C1及びC2に対する重みw
1及びw
2を示す、合成的に生成されたラダーライブラリーのPCA分析を示す。C1は、ゲル分解により関連する成分である。C2は、温度変化とより関連する成分である。グラフ1300Bにおける黒い点は、合成アレリックラダーライブラリーを表す。色付きの点は、試験サンプルランを表す。グラフ1300Bに示されるように、PCA分析は、合成ラダーライブラリーが、主成分値の範囲に沿って規則的な間隔でラダーを含むことを示し、したがって、合成的に生成されたラダーライブラリーが、「ナイーブ」なラダーライブラリーよりも操作条件の全範囲にわたってより広くカバーすることを示す。グラフ1300Bは、合成ラダーライブラリーが、「ナイーブ」なラダーライブラリーの有効な試験サンプルランを確認するだけでなく、「ナイーブ」なラダーライブラリーによって生成された有効なマッチによってカバーされる主成分範囲外のより多くのサンプルランとして、機器の潜在的に改善された精度も有することを示す。
【0095】
図14は、本発明の実施形態に従って、移動モデル(PCA又は実験的若しくは他の方法で構築された)から合成アレリックラダーを生成し、当該合成ラダーを試験サンプルと比較するためのプロセスを示す。工程1410において、代表的ラダーG、及び摂動ベクトル(又は「成分」)Pjを含む事前に記憶された移動モデルがアクセスされる。本発明のいくつかの実施形態では、成分の数nは、2又は3など小さい。工程1420において、試験サンプルは、試験サンプル中に存在する各対立遺伝子についての実験的フラグメントサイズ結果を決定するために、分析機器中で実行される。
【0096】
工程1430において、成分の各々に起因する重みwjが入力パラメータとして使用され、合成ラダーが以下の式を使用して計算される
【0097】
【数13】
工程1440において、試験サンプル 中に存在し得るが、移動モデル中に見出されない任意の仮想対立遺伝子(仮想ビンとも呼ばれる)が挿入される。これらの仮想対立遺伝子の予測位置は、移動モデルのアレリックラダー中に存在する対立遺伝子の予測サイズから内挿又は外挿され得る。工程1450において、各サンプルピークのサイズは、挿入された仮想ビンを有する合成ラダー中のピークと比較される。サンプルピークに対するサイズの差が最小であるラダーピークが選択されるが、サンプルピークと同じ色素色に関連するピークのみが考慮される。最小差の集合から、マッチ誤差が計算される。マッチ誤差は、合成ラダーとサンプルとがどの程度よくマッチするかを反映するスカラーである。マッチ誤差の計算方法の一例は、当該全ての最小差の算術平均をとることである。別の例は、当該算術平均を計算する前に、当該最小差のうちの2つの最大差を除外することである。これは、仮想ビンの中に含まれないまれな遺伝子型、並びに試験サンプル中の予期されないアーチファクトピークの存在に対応することができる。別の例は、上記算術平均の代わりに絶対差の和を使用することである。
【0098】
ラダーを再構成することは、得られた数列と実験ラダー(又は試験サンプル)の対立遺伝子サイズとの間の総差が可能な限り小さくなるようにwijを発見すること見なされ得、この総差は、対立遺伝子の各々についての差の二乗の和である。ラダーを再構成し、全体の差が小さい場合、モデルはラダーを十分に説明すると言うことができる。大きなデータセットが、中央値、標準偏差、及び最大誤差などの統計的手段によって定義される小さな誤差のみで再構成され得る場合、モデルは正確であると言うことができる。
【0099】
追加の変数を識別し、それらの特徴的な成分を用いてモデルを拡張すること、又はPCAアルゴリズムから返されたより多くの主成分をモデルに組み込むことが考えられる。各コンポーネントは適切に実装することで、モデルはより正確になる。しかしながら、ここで説明される本発明のいくつかの実施形態では、適切な精度で安定したシステムのモデル化を提供するのに2つの主成分が十分であるが、他の実施形態は3つ以上の主成分を使用してもよい。
【0100】
図15は、所与のアレリックラダーを再構築するために本明細書で使用される、本発明の実施形態による例示的なPCAに基づく移動モデル1500を示す。アレリックラダーサンプルラン1510のセットから、代表的ラダー1520が、サンプルラン1510における対立遺伝子の各々について決定される。ここで、代表的ラダー1520は、対立遺伝子1~7として標識される最初の7つの対立遺伝子の各々について示される。次に、アレリックラダーサンプルラン1510のセットに対してPCA分析を実施して、1531及び1532に示されるように、各対立遺伝子について主要成分(パターン)P
1及びP
2を生成する。重みw
ijのセット、例えば、各パターン(j)が再構成を受けるラダー(i)に寄与する程度は、上述の方法を使用して計算され、列1540において白地に太字で示される。これらの値を用いて、再構築されたアレリックラダーは、1550に示されるように計算され得る。列1540の重み値を変えることによって、同じモデルから他のラダーを生成することができる。先に述べたように、成分C
1及びC
2は、P
1及びP
2、の線形結合として構成され、同等に使用することができる。
【0101】
一実施形態では、機器によって記憶又はアクセスされる移動モデル(PCAに基づく移動モデルなど)は、サンプルランデータの機械学習に基づいて経時的に系統的に改善され得る。ある実施形態では、当技術分野で知られている他の「相関発見」(あるいは「次元削減」として知られている)アルゴリズムを使用して、上述のPCAに基づく移動モデルと同様に移動モデルを構築することができる。PCAに加えて、そのような手法は、とりわけ、非負行列因子分解(NMF)、カーネルPCA、グラフに基づくカーネルPCA、線形判別分析(LDA)、一般化判別分析(GDA)、及びオートエンコーダを含み得る。そのような「相関発見」アルゴリズムは、移動モデルを開発するために、不完全なラダー(試験サンプルランから生じるラダーなど)を利用することが可能であり得る。一実施形態では、移動モデルは、外部調整を使用して、例えば、モデルが完全なラダーよりも良好に試験サンプルに適合するように、代表的ラダーにオフセットを加えることによって調整され得る。これは、試験サンプルが、アレリックラダーサンプルの移動方法とは異なって移動することを意味する、系統的オフセットを有し得るためであり得る。移動挙動におけるこの差異を補償するためにオフセットがなされ得、その結果、サンプル対立遺伝子は、平均して、0偏差で移動し得るが、アレリックラダーは、非0偏差を有し得る。そのようなオフセットは、例えば、移動モデルを用いて試験サンプルランの大きなデータセットを分析し、統計的偏差を見出すことによって決定され得る。別の実施形態では、移動モデルは、内部調整を使用して、例えば、物理的現実(例えば、現実的な動作条件であるゲル分解(例えば、ゲル作製後時間)及び温度の組み合わせ)とより良好に整合される、移動モデル構成要素及び基準(又は代表的ラダー)の線形組み合わせを作成することによって、調整されてもよい。
【0102】
本発明の実施形態に従って議論されるようなPCAに基づく移動モデル及び合成アレリックラダーライブラリーは、以下を含むいくつかの用途を有し得る。
● 任意の特定のランが、モデルによって高品質で説明され得ることを確認し、ランが損なわれなかったことを確信する。
● 機器の動作状態を監視して、承認された範囲内で動作していることを確認する。
● 温度及びゲル分解以外の移動に影響を及ぼす他のシステムパラメータが一定に保たれることを確認する。特に、ゲル及びキャピラリー置換などのシステムの部品は、並びにゲル、カートリッジ、キャピラリー置換、及び他の消耗品の製造中の品質管理のために、変更されている。
● 合成的に生成されたノイズフリーの参照ラン(ラダーライブラリー用)
● アレリックラダーを含まない解析の実施
【0103】
図16は、本発明の実施形態による合成アレリックラダーを使用するPCAに基づくCE機器バリデーションプロセスを示す。工程1610において、PCAに基づく統計モデル及び代表的ラダーGがアクセスされる。工程1620において、既知のアレリックラダーサンプルのサンプルランが、検証されるべきCE機器上で実行される。工程1630において、PCAに基づく統計モデルを使用して、既知のアレリックラダーサンプルラン結果に十分に適合する合成アレリックラダーを生成できることを検証する。工程1640において、生成された合成アレリックラダーの主成分重みを使用して、生成された合成アレリックラダーの主成分重みが許容範囲内にある(例えば、有効な動作条件に対応する)ことを検証する。これは、パターンの各々がサンプルデータに適合するためにどれだけ使用され得るかを制限することによって検証され得る。本発明のいくつかの実施形態では、同様のプロセスを使用して、ゲル、キャピラリー、及びカートリッジの製造中の品質管理のための機器性能を検証することもできる。本発明のいくつかの実施形態では、例えば、0.1bp、0.15bp、又は0.35bp未満でモデルから外れる既知のアレリックラダーサンプルランの結果は、機器操作が有効であることを示し得る。ラダー間の差の他の集合体を、検証基準として使用することができる。本発明の一実施形態では、サンプルは、既知のアレリックラダーサンプルの代わりに使用され、その重みは、最適化された又は十分な適合を有する合成アレリックラダーを見出すことによって決定される。ピークが当該合成ラダーから例えば0.1bp、0.15bp、又は0.35bpを超えて外れない場合、機器の操作は有効であると見なすことができる。
【0104】
上記の本発明の実施形態における移動モデルを使用して、実際のラダーがモデルによって生成されたラダーにどれだけうまく適合するかを分析することができる。例えば、アレリックラダーライブラリーが、ランが実施され得る全ての種々の環境において正常な挙動を代表するラダーを含むことが所望され得る。本発明によるモデルを使用して過去のデータを分析することによって、どのラダーをアレリックラダーライブラリーに含めるかについての情報に基づく決定を行うことが可能である。モデル、好ましくは機器の挙動を良好に捕捉するモデルは、モデルにあまり適合しないサンプル及びラダーランを同定することができる。不適合の例は、ピークがシフトされ、したがって不正確なサイズが割り当てられるように、光ノイズによって歪められたピークであり得る。ラダーライブラリーにおいてそのような非系統的事象を表さないことが好ましい。本発明のいくつかの実施形態では、十分に適合するラダーは、例えば、0.1bp、0.15bp、又は0.35bpを超えてモデルから外れるピークを有さない。この偏差は、最大(max)偏差と呼ぶことができる。このモデルによって生成された合成アレリックラダーは、0の最大偏差を有するか、又は少なくとも、分析の間に数が丸められる偏差(0.05bp又は0.1bp)より大きくない偏差を有することが予測される。
【0105】
モデルを使用して大量のモデルを使用して分析される場合、各対立遺伝子が理論的モデルからどのように分布するかが決定され得る(すなわち、各サンプルについて、理論的モデルを使用して最良のラダーを見出し、各対立遺伝子がそれとどれだけ異なるか(モデルピークからのサンプルピークの偏差)を決定し、次いで、各対立遺伝子について全てのサンプルから統計を収集する)。本発明の一実施形態では、モデルからのピークの偏差の各分布は、中心が0に近く、例えば、0.1bpより良好であるべきであり、対応する3シグマ(3標準偏差)は低く、例えば、0.15bpであるべきである。ガウス分布で分布を近似すると、前述の分布を有する対立遺伝子で呼ばれるピークの99%超が0.25bp内にあることを意味する。
【0106】
上述した本発明の一実施形態では、特定の密度レベルを有する静的な(予め選択された及び/又は予め計算された)ラダーライブラリーが構築され、分析機器又はシステムに記憶される。この静的ライブラリーは、合成ラダーを生成する前に検索されてもよく、「オンザフライ」で1つ以上の合成ラダーを動的に生成することが効率的又は実現可能でない等、計算リソースが制約される状況において、より効率的であってもよい。本発明の一実施形態では、ラダーライブラリーは、システムについての有効な操作値の範囲にわたって約0.2bp以内で間隔を空けられた、w1及びw2値を有する複数のラダーを含む。ラダーの別個のセットを有する静的な(予め選択された及び/又は予め計算された)ラダーライブラリーについて、試験サンプルに適合する最良のラダーを決定する場合、モデルが再構成し得る理論的に理想的な最適ラダーが存在しない場合がある。しかし、各0.2bp間隔のそれぞれw1及びw2について少なくとも1つのラダーが存在するようにライブラリー中のラダーが選択された場合、当該理想的なラダーの重みのそれぞれから約0.1bp以下「離れた」利用可能な少なくとも1つのラダーが常に存在する。ライブラリー中のラダーが0.1bp以下の非適合性を有する場合、0.25bp外れるサンプルは、最も活性な対立遺伝子について合計で約0.45bpを超えて外れ得ない(最大偏差)。この最大偏差は以下のように決定される。最も活性な対立遺伝子(起こり得るワーストケース)は、ノイズ及び系統的変動のために理論的に理想的なラダーから0.25bp外れ得ることが実験的に見出され得るので、上記の静的ラダーライブラリーの0.2bp間隔密度のための0.1bpの偏差、及びライブラリーラダーにおけるノイズのための0.1bpの偏差を加えると、0.45bpの合計最大偏差が生じる。これらの数は、例示的な例として意図されるが、より高い密度又はより低い密度のライブラリーが構築され得る。より高い密度のライブラリーは、マッチ失敗の可能性を減少させるが、計算及び記憶制限(例えば、分析ソフトウェアのための)は、制約であり得る。逆に、より低い計算能力のシステムでは、より低い密度のライブラリーが使用され得るが、マッチが失敗する又は不正確である可能性は、より高い。正確な計算は、偏差がw1又はw2の値のうちの2つ以上で外れている場合、成分間の関係に依存する。上記のような本発明の一実施形態では、実験データは、偏差が、例えば、0.45bp又は0.5bpより大きい場合、ピークが不正確にコールされ得ることを示した。
【0107】
過去のラダーは、マッチ誤差を最小化することによってw
1及びw
2値を割り当てることができる。合成ラダーは、これらのw
1及びw
2値を使用して作成することができ、当該過去のラダーと当該合成ラダーとの間の任意の対立遺伝子についての最大偏差は、当該過去のラダーがどれだけ不適合であるかの測定基準である。十分に適合する過去のラダー(例えば、0.1bp、0.15bp、又は0.35bb以下の最大偏差を有する)のw
1及びw
2を同定することによって、及び/又は、選択されたw
1及びw
2値から合成ラダーを作製することによって、情報を元に、w
1及びw
2の範囲にわたって十分な密度dを有するように設計されたラダーライブラリーを集めることが可能であり、このとき、密度dは、かかる範囲内のw
1’及びw
2’の組み合わせはなく、|w
1-w
1’|<d、かつ、|w
2-w
2’|<dのラダーライブラリーがないように定義される(その他、より高次元)。異なる次元に対して異なる密度を定義することが可能であることに留意されたい。先の例示的な実施例において議論された特定の状況及び統計について、0.2bp以下のラダー密度が、高い確率で、操作の全範囲にわたって(欠陥のない)機器上の全ての実行条件をカバーするのに十分であることが示唆される。そのような設計されたライブラリーの説明については
図13Bを参照されたい。
【0108】
設計されたラダーライブラリーの検証のために、大量のサンプルとラダーデータを、設計されたラダーライブラリーを使用して分析することができ、対立遺伝子の各々について、当該データがラダーライブラリーからどのように分布するかを決定することができる。本発明の一実施形態では、ラダーライブラリーについて、各対立遺伝子についての偏差の分布は、中心が0に近く、例えば、0.1bp以内にあるべきであり、対応する3シグマ(3標準偏差)は低く、例えば、0.35bp以下)であるべきである。
【0109】
例示的なコンピューティングデバイスの実施形態
図17は、本発明の実施形態を組み込むことができるコンピューティングデバイス1700の例示的なブロック図である。
図17は、本明細書に記載の技術的プロセスの態様を実行するための機械システムの単なる例示であり、特許請求の範囲を限定するものではない。当業者は、他の変形、修正、及び代替を認識するであろう。一実施形態では、コンピューティングデバイス1700は、典型的には、モニタ又はグラフィカルユーザインターフェース1702、データ処理システム1720、通信ネットワークインターフェース1712、入力デバイス1708、出力デバイス1706などを含む。
【0110】
図17に示されるように、データ処理システム1720は、バスサブシステム1718を介していくつかの周辺デバイスと通信する1つ以上のプロセッサ1704を含み得る。これらの周辺デバイスは、入力デバイス1708、出力デバイス1706、通信ネットワークインターフェース1712、並びに揮発性メモリ1710及び不揮発性メモリ1714などの記憶サブシステムを含み得る。揮発性メモリ1710及び/又は不揮発性メモリ1714は、コンピュータ実行可能命令を記憶することができ、したがって、プロセッサ1704に適用され、かつそれによって実行されると、本明細書に開示されるプロセスの実施形態を実装するロジック1722を形成する。
【0111】
入力デバイス1708は、データ処理システム1720に情報を入力するためのデバイス及び機構を含む。これらは、キーボード、キーパッド、モニタ又はグラフィカルユーザインターフェース1702に組み込まれたタッチスクリーン、音声認識システム、マイクロフォンなどの音声入力デバイス、及び他のタイプの入力デバイスを含み得る。様々な実施形態では、入力デバイス1708は、コンピュータマウス、トラックボール、トラックパッド、ジョイスティック、ワイヤレスリモート、描画タブレット、音声コマンドシステム、視線追跡システムなどとして具体化することができる。入力デバイス1708は、典型的には、ユーザが、ボタンのクリックなどのコマンドを介して、モニタ又はグラフィカルユーザインターフェース1702に表示されるオブジェクト、アイコン、制御領域、テキストなどを選択することを可能にする。
【0112】
出力デバイス1706は、データ処理システム1720から情報を出力するためのデバイス及び機構を含む。これらは、当技術分野でよく理解されているように、モニタ又はグラフィカルユーザインターフェース1702、スピーカ、プリンタ、赤外線LEDなどを含み得る。
【0113】
通信ネットワークインターフェース1712は、通信ネットワーク(例えば、通信ネットワーク1716)及びデータ処理システム1720の外部デバイスにインターフェースを提供する。通信ネットワークインターフェース1712は、他のシステムからデータを受信し、他のシステムにデータを送信するためのインターフェースとして機能し得る。通信ネットワークインターフェース1712の実施形態は、Ethernetインターフェース、モデム(電話、衛星、ケーブル、ISDN)、(非同期)デジタル加入者線(DSL)、FireWire、USB、Bluetooth又はWiFiなどの無線通信インターフェース、近距離通信無線インターフェース、セルラーインターフェースなどを含み得る。通信ネットワークインターフェース1712は、アンテナ、ケーブルなどを介して通信ネットワーク1716に結合され得る。いくつかの実施形態では、通信ネットワークインターフェース1712は、データ処理システム1720の回路基板上に物理的に統合され得るか、又は場合によっては、「ソフトモデム」などのソフトウェア又はファームウェアにおいて実装され得る。コンピューティングデバイス1700は、HTTP、TCP/IP、RTP/RTSP、IPX、UDPなどのプロトコルを使用してネットワークを介した通信を可能にするロジックを含み得る。
【0114】
揮発性メモリ1710及び不揮発性メモリ1714は、本明細書に記載のプロセスの態様を実装するためのロジックを形成する、コンピュータ可読データ及び命令を記憶するように構成された有形媒体の例である。他のタイプの有形媒体には、リムーバブルメモリ(例えば、プラグイン式USBメモリデバイス、モバイルデバイスSIMカード)、CD-ROM、DVDなどの光記憶媒体、フラッシュメモリなどの半導体メモリ、非一時的な読み取り専用メモリ(ROM)、バッテリバックアップされた揮発性メモリ、ネットワーク化された記憶デバイスなどが含まれる。揮発性メモリ1710及び不揮発性メモリ1714は、本発明の範囲に該当する開示されたプロセス及び他の実施形態の機能を提供する基本的なプログラミング及びデータ構築を記憶するように構成され得る。本発明の実施形態を実装するロジック1722は、コンピュータ可読命令を記憶する揮発性メモリ1710及び/又は不揮発性メモリ1714によって形成され得る。当該命令は、揮発性メモリ1710及び/又は不揮発性メモリ1714から読み取られ、プロセッサ1704によって実行され得る。揮発性メモリ1710及び不揮発性メモリ1714は更に、ロジック1722によって使用されるデータを記憶するためのリポジトリを提供し得る。揮発性メモリ1710及び不揮発性メモリ1714は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(RAM)及び読み取り専用の非一時的な命令が記憶される読み取り専用メモリ(ROM)を含むいくつかのメモリを含み得る。揮発性メモリ1710及び不揮発性メモリ1714は、プログラム及びデータファイルのための永続的(不揮発性)ストレージを提供するファイルストレージサブシステムを含み得る。揮発性メモリ1710及び不揮発性メモリ1714は、取り外し可能なフラッシュメモリなどの取り外し可能なストレージステムを含み得る。
【0115】
バスサブシステム1718は、データ処理システム1720の様々な構成要素及びサブシステムが意図されたように互いに通信することを可能にするための機構を提供する。通信ネットワークインターフェース1712は、単一のバスとして概略的に示されているが、バスサブシステム1718のいくつかの実施形態は、複数の別個のバスを利用することができる。
【0116】
コンピューティングデバイス1700が、スマートフォン、デスクトップコンピュータ、ラップトップコンピュータ、ラックマウント型コンピュータシステム、コンピュータサーバ、又はタブレットコンピュータデバイスなどのデバイスであり得ることは、当業者には容易に明らかであろう。当技術分野で一般に既知であるように、コンピューティングデバイス1700は、複数のネットワーク化されたコンピューティングデバイスの集合として実装され得る。更に、コンピューティングデバイス1700は、典型的には、そのタイプ及び性質が当技術分野で周知であるオペレーティングシステムロジック(図示せず)を含むであろう。
【0117】
本発明の一実施形態は、システム、方法、及びコンピュータプロセッサによって実行することができるコンピュータプログラムロジックを具体的に保存する非一時的なコンピュータ可読ストレージ媒体(複数可)を含む。
【0118】
当業者は、コンピュータシステム1700が、本発明の実施形態によるコンピュータプログラム製品を実施することができるシステムのほんの一例を示していることを理解するであろう。代替実施形態の一例を挙げると、本発明の一実施形態によるコンピュータプログラム製品に含まれる命令の実行は、例えば、分散型コンピューティングネットワークのコンピュータ等の複数のコンピュータにわたって分散されてもよい。
【0119】
例示された実施形態に関して本発明を具体的に説明したが、本開示に基づいて様々な変更、修正、及び適合を行うことができ、本発明の範囲内にあることが意図される。現在最も実用的かつ好ましい実施形態であると考えられるものに関連して本発明を説明したが、本発明は開示された実施形態に限定されず、反対に、上記及び下記に参照される様々な実施形態によって、記載されているような本発明の根底にある基本原理の範囲内に含まれる、様々な修正及び同等の構成を網羅することを意図していることが理解される。
【0120】
用語
本明細書で開示される本発明の実施形態を参照して本明細書で使用される用語は、特に明示的に又は文脈によって示されない限り、当業者による通常の意味を与えられるべきである。
【0121】
「アレリックラダー」又は「アレリックラダーデータ」とは、本明細書では、CE機器上で実行されるアレリックラダーサンプルについてのフラグメントのサイズ決めデータセットを指す。
【0122】
「アレリックラダーサンプル」は、CE機器が試験している既知のSTR対立遺伝子のコレクションを含み、一般に多数(例えば、数百)の既知のSTR対立遺伝子を含む較正サンプルを指す。
【0123】
「合成アレリックラダー」又は「合成アレリックラダーデータ」とは、アレリックラダーサンプルの実際のランからではなく、モデルから生成されたアレリックラダーデータを指す。
【0124】
この文脈における「キャピラリー電気泳動遺伝子分析装置」又は「キャピラリー電気泳動DNA分析装置」は、生物学的サンプルを充填したキャピラリーに電界を印加して、負に帯電したDNAフラグメントが正電極に向かって移動するようにする機器を指す。DNAフラグメントが媒体を移動する速度は、その分子量に概ね反比例する。電気泳動のこのプロセスは、好ましくは1塩基以下の分解能でサイズによって伸長産物を分離することができる。
【0125】
この文脈における「例示的な市販のCEデバイス」は、Applied Biosystems,Inc.のRapidHIT(商標)ID System(単一キャピラリー)及びRapidHIT(商標)200 System(8キャピラリー)、Applied Biosystems,Inc.(ABI)の遺伝子アナライザーモデル310(単一キャピラリー)、3130(4キャピラリー)、3130xL(16キャピラリー)、3500(8キャピラリー)、3500xL(24キャピラリー)、ABIのSeqStudio遺伝子アナライザーモデル、ABIのDNAアナライザーモデル3730(48キャピラリー)、及び3730xL(96キャピラリー)、並びに、Agilentの7100デバイス、Prince Technologies,Inc.のPrinCE(商標)Capillary Electrophoresis System、Lumex,Inc.のCapel-105(商標)CEシステム、及びBeckman CoulterのP/ACE(商標)MDQシステムを指してよく、これらを挙げることができるが、これらに限定されない。
【0126】
この文脈における「塩基対」は、DNAシーケンス中の相補的ヌクレオチドを指す。チミン(T)は、アデニン(A)と相補的であり、グアニン(G)は、シトシン(C)と相補的である。
【国際調査報告】