(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-24
(54)【発明の名称】染色体および亜染色体のコピー数多型検出
(51)【国際特許分類】
G16B 20/10 20190101AFI20240717BHJP
G16B 40/20 20190101ALI20240717BHJP
C12Q 1/6869 20180101ALN20240717BHJP
C12Q 1/6883 20180101ALN20240717BHJP
【FI】
G16B20/10
G16B40/20
C12Q1/6869 Z
C12Q1/6883 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023580753
(86)(22)【出願日】2022-06-30
(85)【翻訳文提出日】2024-02-21
(86)【国際出願番号】 US2022035763
(87)【国際公開番号】W WO2023278724
(87)【国際公開日】2023-01-05
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】511172461
【氏名又は名称】ラボラトリー コーポレイション オブ アメリカ ホールディングス
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ゼン, チャンドン
(72)【発明者】
【氏名】シン, ウィニー
(72)【発明者】
【氏名】ラッセル, ニール
(72)【発明者】
【氏名】シュー, チェン
(72)【発明者】
【氏名】フィリップス, ケネス
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
(57)【要約】
本開示は、遺伝的変異の評価に関し、特に染色体および亜染色体のコピー数多型を検出するための技術に関する。1つの局面では標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法が提供される。本方法は、複数の試料についての配列決定データを得ることと、前記配列決定データに従って前記試料のそれぞれの中の各セグメント/要素についての第1の正規化されたカバレッジを決定することと、前記第1の正規化されたカバレッジに従って前記試料のそれぞれの中の各セグメント/要素についての、コピー数を含む第2の正規化されたカバレッジを決定することと、ルールベースのアプローチ、機械学習ベースのアプローチまたはこれらの組み合わせに基づいて、前記標的試料中の標的セット中の各セグメント/要素についての前記コピー数を分類することと、前記分類に従って前記標的試料中の前記標的セット中の各セグメント/要素についてのコピー数多型の存在または非存在を出力することとを含む。
【特許請求の範囲】
【請求項1】
標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法であって、
計算装置によって、前記標的試料を含む複数の試料についての配列決定データを取得することであって、前記試料の1またはそれより多くは異なる対象からのものであり、および前記配列決定データは、前記試料のそれぞれについて、(i)試料中の各セグメントについての統計的カバレッジと(ii)前記試料中の全てのセグメントについての包括的統計的カバレッジとを含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第1の正規化されたカバレッジを決定することであって、前記第1の正規化されたカバレッジを決定することは、前記セグメントについての前記統計的カバレッジおよび前記試料中の全てのセグメントについての前記包括的統計的カバレッジに基づいて、試料中のセグメントについてのセグメント統計的カバレッジ比を決定することを含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第2の正規化されたカバレッジを決定することであって、前記第2の正規化されたカバレッジを決定することは、前記試料中の前記セグメントについての前記セグメント統計的カバレッジ比および前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比の代表値に基づいて、試料中のセグメントについてのコピー数を決定することを含む、ことと、
前記計算装置によって、前記標的試料中の標的セット中の各セグメントについての前記コピー数を所定の区間と比較することであって、前記標的セットは前記標的試料中の前記セグメントの全てからの1またはそれを超えるセグメントを含む、ことと、
前記比較に従って、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数多型の存在または非存在の分類を前記計算装置によって出力することと
を含む、コンピュータ実装方法。
【請求項2】
前記配列決定データを取得することが、
超並列配列決定装置によって、各試料からの核酸を配列決定することであって、前記配列決定は配列リードを生成する、ことと、
前記配列リードを参照ゲノムにマッピングすることと、
前記参照ゲノムのゲノム部分にマッピングされた前記配列リードを計数することであって、前記計数することは、各試料について前記参照ゲノムの前記ゲノム部分にマッピングされた前記配列リードの定量を生成する、ことと、
各セグメント内の各参照塩基にマッピングされた前記配列リードの前記定量に基づいて、各試料の各セグメント内の各参照塩基について塩基カバレッジを決定することと、
各試料中の各セグメントについての前記統計的カバレッジを決定することと、
各試料中の全てのセグメントについての前記包括的統計的カバレッジを決定することと
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記核酸の前記配列決定が、各試料について数十万から数億の前記配列リードを生成する、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記試料中の各セグメントについての前記統計的カバレッジが各セグメントについてのカバレッジ中央値であり、前記試料中の全てのセグメントについての前記包括的統計的カバレッジが全てのセグメントについての包括的カバレッジ中央値であり、前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比の前記代表値が前記試料の全ての中の前記セグメントについての前記セグメントカバレッジ中央値比の平均であり、および前記試料中の前記セグメントについての前記セグメントカバレッジ中央値比を決定することが、前記試料中の全てのセグメントについての包括的カバレッジ中央値によって前記セグメントについての前記カバレッジ中央値を割ることを含む、請求項1、2または3に記載のコンピュータ実装方法。
【請求項5】
前記試料のそれぞれの中の各セグメントについての前記第2の正規化されたカバレッジを決定することが、前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比の前記平均を決定する前に、前記試料のそれぞれの中の前記セグメントについての前記統計的カバレッジから外れ値を除去することと、前記試料の残りの試料中の前記セグメントについての前記セグメント統計的カバレッジ比の前記平均を計算することとをさらに含む、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記外れ値を除去することが、
前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比に基づいて四分位範囲を計算することと、
前記四分位範囲に関する上限および下限を決定することと、
前記セグメント統計的カバレッジ比の値が前記上限より大きいかまたは前記下限より小さい前記セグメントについての任意のセグメント統計的カバレッジ比を除去することと
を含む、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記試料中の前記セグメントについての前記コピー数を決定することが、前記セグメントについての前記セグメント統計的カバレッジ比を、前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比の前記平均で割ることを含む、請求項1~6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
(i)前記得られた配列決定データから1もしくはそれを超える試料中の性染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超える統計的カバレッジを除去することと、(ii)前記得られた配列決定データから男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超える統計的カバレッジを除去することと、(iii)前記得られた配列決定データ中の男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超える統計的カバレッジを2倍することと、または(iv)これらの任意の組み合わせをさらに含む、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
試料中のセグメントについての前記セグメント統計的カバレッジ比を決定することが、男性/雄性対象に関連する前記試料のそれぞれの中のX染色体上の前記セグメントについての前記セグメント統計的カバレッジ比のそれぞれを2倍することをさらに含む、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記計算装置によって、前記試料のそれぞれの中の要素についての前記第1の正規化されたカバレッジを決定することであって、前記要素についての前記第1の正規化されたカバレッジを決定することは、
試料中の前記要素についての局所的統計的カバレッジを決定することと、
前記要素についての前記局所的統計的カバレッジおよび前記試料中の全てのセグメントについての前記包括的統計的カバレッジに基づいて、前記試料中の前記要素についての要素統計的カバレッジ比を決定することと、
を含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の前記要素についての前記第2の正規化されたカバレッジを決定することであって、前記要素についての前記第2の正規化されたカバレッジを決定することは、前記試料中の前記要素についての前記要素統計的カバレッジ比および前記試料の全ての中の前記要素についての前記要素統計的カバレッジ比の平均に基づいて、試料中の前記要素についてのコピー数を決定することを含む、ことと、
前記計算装置によって、前記標的試料中の前記要素についての前記コピー数を所定の区間と比較することと、
前記比較に従って、前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての分類を前記計算装置によって出力することと
をさらに含む、請求項1~9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
前記要素が、(i)染色体、(ii)染色体の一部分、(iii)遺伝子、(iv)エクソン、(v)イントロンまたは(vi)関心対象の所定のゲノム部分もしくは領域である、請求項10に記載のコンピュータ実装方法。
【請求項12】
前記要素についての前記第2の正規化されたカバレッジを決定することが、前記試料の全ての中の前記要素についての前記要素統計的カバレッジ比の前記平均を決定する前に、前記試料の全ての中の前記要素についての前記要素統計的カバレッジ比から外れ値を除去することと、前記試料の残りの試料中の前記要素についての前記要素統計的カバレッジ比の前記平均を計算することとをさらに含む、請求項10または11に記載のコンピュータ実装方法。
【請求項13】
前記外れ値を除去することが、
前記試料の全ての中の前記要素についての前記要素統計的カバレッジ比に基づいて四分位範囲を計算することと、
前記四分位範囲に関する上限および下限を決定することと、
前記要素統計的カバレッジ比の値が前記上限より大きいかまたは前記下限より小さい前記要素についての任意の要素統計的カバレッジ比を除去することと
を含む、請求項12に記載のコンピュータ実装方法。
【請求項14】
前記計算装置によって、前記比較に基づいて、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数が前記所定の区間の内側または外側にあるかどうかを決定することをさらに含み、前記出力することは、前記所定の区間の外側にあるコピー数を有する前記標的試料中の前記標的セット中の各セグメントを、前記コピー数多型を有するものとして報告することと、前記所定の区間の内側にあるコピー数を有する前記標的試料中の前記標的セット中の各セグメントを、正常であるまたは前記コピー数多型を有さないものとして報告することとを含む、請求項2~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
前記計算装置によって、前記比較に基づいて、前記標的試料中の前記要素についての前記コピー数が前記所定の区間の内側または外側にあるかどうかを決定することをさらに含み、前記出力することは、前記標的試料中の前記要素が前記所定の区間の外側にあるコピー数を有する場合に、前記要素を、前記コピー数多型を有するものとして報告すること、または前記標的試料中の前記要素が前記所定の区間の内側にあるコピー数を有する場合に、前記要素を正常であるもしくは前記コピー数多型を有さないものとして報告することとを含む、請求項10~14のいずれか一項に記載のコンピュータ実装方法。
【請求項16】
前記標的セットおよび/または前記要素中の各セグメントについての統計的尺度を計算することであって、前記統計的尺度の前記計算は、全ての試料中の前記標的セットおよび/または前記要素中の各セグメントについての前記コピー数を含む正常プロファイルに基づいている、ことと、
前記統計的尺度を、セグメントおよび/または前記要素について設定された所定の上限閾値または所定の下限閾値と比較することと
をさらに含み、
前記比較に基づいて、前記標的セット中の前記セグメントの前記統計的尺度が前記所定の上限閾値より大きいかもしくは前記所定の下限閾値より小さい場合に、前記所定の区間内にコピー数を有する前記標的試料中の前記標的中の各セグメントが、前記コピー数多型を有すると報告されるのみであり、および/または
前記比較に基づいて、前記要素の前記統計的尺度が前記所定の上限閾値より大きいかもしくは前記所定の下限閾値より小さい場合に、前記所定の区間内にコピー数を有する前記標的試料中の前記要素は、前記コピー数多型を有するとして報告されるのみである、請求項14または15に記載のコンピュータ実装方法。
【請求項17】
前記統計的尺度が、(i)zスコア、(ii)p値または(iii)変動係数を含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記計算装置によって、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数と、前記正常プロファイルとを機械学習モデルに入力することと、
前記機械学習モデルを使用して、前記コピー数多型の存在または非存在を示すものとして、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数を分類することと
をさらに含み、
前記比較、前記機械学習モデルによる前記分類またはこれらの組み合わせに従って、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数多型の存在または非存在についての前記分類を出力することが実施される、請求項16に記載のコンピュータ実装方法。
【請求項19】
前記標的試料に関連する対象の診断を決定することであって、前記診断は、前記標的試料中の前記標的セット中の各セグメントおよび/または前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての前記分類に基づいて決定される、ことをさらに含む、請求項1、10または18に記載のコンピュータ実装方法。
【請求項20】
(i)前記標的試料中の前記標的セット中の各セグメントおよび/もしくは前記標的試料中の前記要素についての前記コピー数多型の存在もしくは非存在についての前記分類、ならびに/または(ii)前記対象の前記診断に基づいて、前記対象に処置を投与することをさらに含む、請求項19に記載のコンピュータ実装方法。
【請求項21】
標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法であって、
計算装置によって、前記標的試料を含む、バッチ中の複数の試料についての配列決定データを取得することであって、前記試料の1またはそれより多くは異なる対象からのものであり、前記配列決定データは、前記試料のそれぞれについて、(i)試料中の各セグメントについてのカバレッジ中央値および(ii)前記試料中の全てのセグメントについての包括的カバレッジ中央値を含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の要素についての第1の正規化されたカバレッジを決定することであって、前記要素についての前記第1の正規化されたカバレッジを決定することは、
試料中の前記要素についての前記局所的カバレッジ中央値を決定することと、
前記要素についての前記局所的カバレッジ中央値および前記試料中の全てのセグメントについての前記包括的カバレッジ中央値に基づいて、前記試料中の前記要素についての要素カバレッジ中央値比を決定することと
を含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の前記要素についての第2の正規化されたカバレッジを決定することであって、前記要素についての前記第2の正規化されたカバレッジを決定することは、前記試料中の前記要素についての前記要素カバレッジ中央値比と、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の平均とに基づいて、試料中の前記要素についてのコピー数を決定することを含む、ことと、
前記計算装置によって、標的試料中の前記要素についての前記コピー数を所定の区間と比較することと、
前記比較に従って、前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての分類を前記計算装置によって出力することとを含む、コンピュータ実装方法。
【請求項22】
前記要素が、(i)染色体、(ii)染色体の一部分、(iii)遺伝子、(iv)エクソン、(v)イントロンまたは(vi)関心対象の所定のゲノム部分もしくは領域である、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記配列決定データを取得することが、
超並列配列決定装置によって、各試料からの核酸を配列決定することであって、前記配列決定は配列リードを生成する、ことと、
前記配列リードを参照ゲノムにマッピングすることと、
前記参照ゲノムのゲノム部分にマッピングされた前記配列リードを計数することであって、前記計数することは、各試料について前記参照ゲノムの前記ゲノム部分にマッピングされた前記配列リードの定量を生成する、ことと、
各セグメント内の各参照塩基にマッピングされた前記配列リードの前記定量に基づいて、各試料の各セグメント内の各参照塩基について塩基カバレッジを決定することと、
それぞれの中の各セグメントについての前記カバレッジ中央値を決定することと、
各試料中の全てのセグメントについての前記包括的カバレッジ中央値を決定することと
を含む、請求項22に記載のコンピュータ実装方法。
【請求項24】
前記核酸の前記配列決定が、各試料について数十万から数億の前記配列リードを生成する、請求項23に記載のコンピュータ実装方法。
【請求項25】
前記試料中の前記要素についての前記要素カバレッジ中央値比を決定することが、前記要素についての前記局所的カバレッジ中央値を前記試料中の全てのセグメントについての前記包括的カバレッジ中央値によって割ることを含む、請求項21~22のいずれか一項に記載のコンピュータ実装方法。
【請求項26】
(i)前記得られた配列決定データから1もしくはそれを超える試料中の性染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を除去することと、(ii)前記得られた配列決定データから男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を除去することと、(iii)前記得られた配列決定データ中の男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を2倍することと、または(iv)これらの任意の組み合わせをさらに含む、請求項21~25のいずれか一項に記載のコンピュータ実装方法。
【請求項27】
前記要素についての前記第2の正規化されたカバレッジを決定することが、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の前記平均を決定する前に、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比から外れ値を除去することと、前記バッチ中の前記試料の残りの試料中の前記要素についての前記要素カバレッジ中央値比の前記平均を計算することとをさらに含む、請求項21に記載のコンピュータ実装方法。
【請求項28】
前記外れ値を除去することが、
前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比に基づいて四分位範囲を計算することと、
前記四分位範囲に関する上限および下限を決定することと、
前記要素カバレッジ中央値比の値が前記上限より大きいかまたは前記下限より小さい前記要素についての任意の要素カバレッジ中央値比を除去することと
を含む、請求項27に記載のコンピュータ実装方法。
【請求項29】
前記試料中の前記要素についての前記コピー数を決定することが、前記要素についての前記要素カバレッジ中央値比を、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の前記平均によって割ることを含む、請求項21~28のいずれか一項に記載のコンピュータ実装方法。
【請求項30】
前記計算装置によって、前記比較に基づいて、前記標的試料中の前記要素についての前記コピー数が前記所定の区間の内側または外側にあるかどうかを決定することをさらに含み、前記出力することは、前記標的試料中の前記要素が前記所定の区間の外側にあるコピー数を有する場合に、前記要素を、前記コピー数多型を有するものとして報告すること、または前記標的試料中の前記要素が前記所定の区間の内側にあるコピー数を有する場合に、前記要素を正常であるもしくは前記コピー数多型を有さないものとして報告することとを含む、請求項21に記載のコンピュータ実装方法。
【請求項31】
前記標的試料中の前記要素についての統計的尺度を計算することであって、前記統計的尺度の計算は、全ての試料中の前記要素についての前記コピー数を含む正常プロファイルに基づいている、ことと、
前記統計的尺度を、前記要素に対して設定された所定の上限閾値または所定の下限閾値と比較することと
をさらに含み、
前記比較に基づいて、前記要素の前記統計的尺度が前記所定の上限閾値より大きいかまたは前記所定の下限閾値より小さい場合に、前記所定の区間外のコピー数を有する前記標的試料中の前記要素は、前記コピー数多型を有するとして報告されるのみである、請求項30に記載のコンピュータ実装方法。
【請求項32】
前記統計的尺度が、(i)zスコア、(ii)p値または(iii)変動係数を含む、請求項31に記載のコンピュータ実装方法。
【請求項33】
前記計算装置によって、前記標的試料中の前記要素についての前記コピー数と、前記正常プロファイルとを機械学習モデルに入力することと、
前記機械学習モデルを使用して、前記コピー数多型の存在または非存在を示すものとして、前記要素についての前記コピー数を分類することと
をさらに含み、
前記比較、前記機械学習モデルによる前記分類またはこれらの組み合わせに従って、前記要素についての前記コピー数多型の存在または非存在についての前記分類を出力することが実施される、請求項31に記載のコンピュータ実装方法。
【請求項34】
前記標的試料に関連する対象の診断を決定することであって、前記診断は、前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての前記分類に基づいて決定される、ことをさらに含む、請求項22、31または33に記載のコンピュータ実装方法。
【請求項35】
(i)前記標的試料中の前記要素についての前記コピー数多型の存在もしくは非存在についての前記分類、および/または(ii)前記対象の前記診断に基づいて、前記対象に処置を投与することをさらに含む、請求項34に記載のコンピュータ実装方法。
【請求項36】
標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法であって、
計算装置によって、前記標的試料を含む複数の試料についての配列決定データを取得することであって、前記試料の1またはそれより多くは異なる対象からのものであり、および前記配列決定データは、前記試料のそれぞれについて、(i)試料中の各セグメントについての統計的カバレッジと(ii)前記試料中の全てのセグメントについての包括的統計的カバレッジとを含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第1の正規化されたカバレッジを決定することであって、前記第1の正規化されたカバレッジを決定することは、前記セグメントについての前記統計的カバレッジおよび前記試料中の全てのセグメントについての前記包括的統計的カバレッジに基づいて、試料中のセグメントについてのセグメント統計的カバレッジ比を決定することを含む、ことと、
前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第2の正規化されたカバレッジを決定することであって、前記第2の正規化されたカバレッジを決定することは、前記試料中の前記セグメントについての前記セグメント統計的カバレッジ比および前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比の代表値に基づいて、試料中のセグメントについてのコピー数を決定することを含む、ことと、
前記計算装置によって、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数と前記正常プロファイルとを機械学習モデルに入力することと、
前記機械学習モデルを使用して、前記コピー数多型の存在または非存在を示すものとして前記標的試料中の前記標的セット中の各セグメントについての前記コピー数を分類することと、
前記機械学習モデルによる分類に従って、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数多型の前記存在または非存在についての分類を前記計算装置によって出力することと
を含む、コンピュータ実装方法。
【請求項37】
コンピュータプロセッサによって実行されると、前記コンピュータプロセッサに請求項1~36のいずれかに記載の動作または操作を実行させるコンピュータプログラム命令を備える非一時的コンピュータ可読記憶媒体。
【請求項38】
プロセッサと非一時的メモリとを備えるコンピュータシステムであって、前記メモリは、前記プロセッサによって実行されると、前記プロセッサに請求項1~36のいずれかに記載の動作または操作を実行させるコンピュータプログラム命令を備える、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
分野
本開示は、遺伝的変異の評価に関し、特に、染色体(chromosomal)および亜染色体(sub-chromosomal)のコピー数多型を検出するための技術に関する。
【背景技術】
【0002】
背景
生物の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)にコードされている。遺伝情報は、化学的または仮説的核酸の一次構造を表す一連のヌクレオチドまたは修飾ヌクレオチドである。ヒトでは、約25,000個のタンパク質コード遺伝子および10,000個を超える非コード遺伝子が存在し、これらは生細胞内の特定の生化学的機能または制御機能を果たす。
【0003】
多くの医学的症状は、生物の遺伝情報の変動(例えば、遺伝的変異)によって引き起こされる。例えば、ある種の遺伝的障害は、デュシェンヌ型筋ジストロフィ(DMD)などの医学的症状を引き起こす。これらの遺伝的障害は、特定の遺伝子における1またはそれを超えるヌクレオチドの変異(付加、置換または欠失)、複数の遺伝子中の変異または染色体の数もしくは構造の変化に起因し得る。ある種の先天性欠損は、トリソミー21(ダウン症候群)、モノソミーX(ターナー症候群)およびクラインフェルター症候群(XXY)などのある種の性染色体異数性などの、異数性とも呼ばれる染色体異常によっても引き起こされる。
【0004】
遺伝的変異(例えば、コピー数変化/異常(CNA)、コピー数多型(CNV)、一塩基多様性、染色体変化、転座、欠失、挿入など)または遺伝分散を特定することは、特定の医学的症状の診断またはその素因の決定ならびに医学的決定の促進および有益な医学的処置の採用につながり得る。次世代シーケンシング(NGS)は、遺伝的変異のゲノム全体にわたる性質決定を可能にした現代の技術である。NGSは、多数の標的配列リードを生成する超並列配列決定のプロセスを指す。CNVなどの遺伝的変異のゲノム全体にわたる性質決定は、典型的には、参照配列への配列リードのアラインメントから始まる。ペアードエンド配列決定では、アライメントプロセスは3つのより小さなデータセットをもたらす:(1)「正しい」ペアリングでマッピングされた、予想された向きおよびメイト間の距離を有するリード、(2)距離および/もしくは向きに関して「不一致」とみなされるペアにマッピングされたリードまたは1つのリードのみがマッピングされたリード、および(3)全くマッピングされていないリード。リード対または単一のリードは、リードまたはリード対の配列および参照配列の内容に応じて、参照配列上の単一の位置(「一意的にマッピングされる」)または複数の異なる位置(「非一意的にマッピングされる」)にマッピングすることができる。全ての可能なリードがマッピングされると、得られたリード深度は、ゲノム全域にわたるコピー数の定量的尺度としての役割を果たす。セグメンテーションアルゴリズムおよびその他の方法が、リード深度からCNVなどのバリアントをコールするために開発されている。
【発明の概要】
【課題を解決するための手段】
【0005】
要旨
染色体および亜染色体のコピー数多型を検出するための方法、システムおよびコンピュータ可読記憶媒体が開示される。方法、システムおよびコンピュータ可読記憶媒体は、様々な方法で具体化され得る。
【0006】
様々な態様において、標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法であって、計算装置によって、前記標的試料を含むバッチ中の複数の試料についての配列決定データを取得することであって、前記試料の1またはそれより多くは異なる対象からのものであり、および前記配列決定データは、前記試料のそれぞれについて、(i)試料中の各セグメントについてのカバレッジ中央値と(ii)前記試料中の全てのセグメントについての包括的カバレッジ中央値とを含む、ことと、前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第1の正規化されたカバレッジを決定することであって、前記第1の正規化されたカバレッジを決定することは、前記セグメントについての前記カバレッジ中央値および前記試料中の全てのセグメントについての前記包括的カバレッジ中央値に基づいて、試料中のセグメントについてのセグメントカバレッジ中央値比を決定することを含む、ことと、前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第2の正規化されたカバレッジを決定することであって、前記第2の正規化されたカバレッジを決定することは、前記試料中の前記セグメントについての前記セグメントカバレッジ中央値比および前記バッチ中の前記試料の全ての中の前記セグメントについての前記セグメントカバレッジ中央値比の平均に基づいて、試料中のセグメントについてのコピー数を決定することを含む、ことと、前記計算装置によって、前記標的試料中の標的セット中の各セグメントについての前記コピー数を所定の区間と比較することであって、前記標的セットは前記標的試料中の前記セグメントの全てからの1またはそれを超えるセグメントを含む、ことと、前記比較に従って、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数多型の存在または非存在の分類を前記計算装置によって出力することとを含む、コンピュータ実装方法が提供される。
【0007】
いくつかの態様において、前記配列決定データを取得することは、超並列配列決定装置によって、各試料からの核酸を配列決定することであって、前記配列決定は配列リードを生成する、ことと、前記配列リードを参照ゲノムにマッピングすることと、前記参照ゲノムのゲノム部分にマッピングされた前記配列リードを計数することであって、前記計数することは、各試料について前記参照ゲノムの前記ゲノム部分にマッピングされた前記配列リードの定量を生成する、ことと、各セグメント内の各参照塩基にマッピングされた前記配列リードの前記定量に基づいて、各試料の各セグメント内の各参照塩基について塩基カバレッジを決定することと、それぞれの試料中の各セグメントについての前記カバレッジ中央値を決定することと、各試料中の全てのセグメントについての前記包括的カバレッジ中央値を決定することとを含む。
【0008】
いくつかの態様において、核酸の配列決定は、各試料に対して数十万から数億の配列リードを生成する。
【0009】
いくつかの態様において、試料中のセグメントについてのセグメントカバレッジ中央値比を決定することは、前記試料中の全てのセグメントについての包括的カバレッジ中央値によって前記セグメントについての前記カバレッジ中央値を割ることを含む。
【0010】
いくつかの態様において、前記試料のそれぞれの中の各セグメントについての前記第2の正規化されたカバレッジを決定することは、前記バッチ中の前記試料の全ての中の前記セグメントについての前記セグメントカバレッジ中央値比の前記平均を決定する前に、前記試料のそれぞれの中の前記セグメントについての前記カバレッジ中央値から外れ値を除去することと、前記バッチ中の前記試料の残りの試料中の前記セグメントについての前記セグメントカバレッジ中央値比の前記平均を計算することとをさらに含む。
【0011】
いくつかの態様において、前記外れ値を除去することは、前記バッチ中の前記試料の全ての中の前記セグメントについての前記セグメントカバレッジ中央値比に基づいて四分位範囲を計算することと、前記四分位範囲に関する上限および下限を決定することと、前記セグメントカバレッジ中央値比の値が前記上限より大きいかまたは前記下限より小さい前記セグメントについての任意のセグメントカバレッジ中央値比を除去することとを含む。
【0012】
いくつかの態様において、前記試料中の前記セグメントについての前記コピー数を決定することは、前記バッチ中の前記試料の全ての中の前記セグメントについてのセグメントカバレッジ中央値比の平均によって前記セグメントについての前記セグメントカバレッジ中央値比を割ることを含む。
【0013】
いくつかの態様において、前記コンピュータ実装方法は、(i)前記得られた配列決定データから1もしくはそれを超える試料中の性染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を除去することと、(ii)前記得られた配列決定データから男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を除去することと、(iii)前記得られた配列決定データ中の男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を2倍することと、または(iv)これらの任意の組み合わせをさらに含む。
【0014】
いくつかの態様において、試料中のセグメントについての前記セグメントカバレッジ中央値比を決定することは、男性/雄性対象に関連する前記試料のそれぞれの中のX染色体上の前記セグメントについての前記セグメントカバレッジ中央値比のそれぞれを2倍することをさらに含む。
【0015】
いくつかの態様において、前記コンピュータ実装方法は、前記計算装置によって、前記試料のそれぞれの中の要素についての前記第1の正規化されたカバレッジを決定することであって、前記要素についての前記第1の正規化されたカバレッジを決定することは、試料中の前記要素についての局所的カバレッジ中央値を決定することと、前記要素についての前記局所的カバレッジ中央値および前記試料中の全てのセグメントについての前記包括的カバレッジ中央値に基づいて、前記試料中の前記要素についての要素カバレッジ中央値比を決定することとを含む、ことと、前記計算装置によって、前記試料のそれぞれの中の前記要素についての前記第2の正規化されたカバレッジを決定することであって、前記要素についての前記第2の正規化されたカバレッジを決定することは、前記試料中の前記要素についての前記要素カバレッジ中央値比および前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の平均に基づいて、試料中の前記要素についてのコピー数を決定することを含む、ことと、前記計算装置によって、前記標的試料中の前記要素についての前記コピー数を所定の区間と比較することと、前記比較に従って、前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての分類を前記計算装置によって出力することとをさらに含む。
【0016】
いくつかの態様において、前記要素は、(i)染色体、(ii)染色体の一部分、(iii)遺伝子、(iv)エクソン、(v)イントロンまたは(vi)関心対象の所定のゲノム部分もしくは領域である。
【0017】
いくつかの態様において、前記要素についての前記第2の正規化されたカバレッジを決定することは、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の前記平均を決定する前に、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比から外れ値を除去することと、前記バッチ中の前記試料の残りの試料中の前記要素についての前記要素カバレッジ中央値比の前記平均を計算することとをさらに含む。
【0018】
いくつかの態様において、前記外れ値を除去することは、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比に基づいて四分位範囲を計算することと、前記四分位範囲に関する上限および下限を決定することと、前記要素カバレッジ中央値比の値が前記上限より大きいかまたは前記下限より小さい前記要素についての任意の要素カバレッジ中央値比を除去することとを含む。
【0019】
いくつかの態様において、前記コンピュータ実装方法は、前記計算装置によって、前記比較に基づいて、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数が前記所定の区間の内側または外側にあるかどうかを決定することをさらに含み、前記出力することは、前記所定の区間の外側にあるコピー数を有する前記標的試料中の前記標的セット中の各セグメントを、前記コピー数多型を有するものとして報告することと、前記所定の区間の内側にあるコピー数を有する前記標的試料中の前記標的セット中の各セグメントを、正常であるまたは前記コピー数多型を有さないものとして報告することとを含む。
【0020】
いくつかの態様において、前記コンピュータ実装方法は、前記計算装置によって、前記比較に基づいて、前記標的試料中の前記要素についての前記コピー数が前記所定の区間の内側または外側にあるかどうかを決定することをさらに含み、前記出力することは、前記標的試料中の前記要素が前記所定の区間の外側にあるコピー数を有する場合に、前記要素を、前記コピー数多型を有するものとして報告すること、または前記標的試料中の前記要素が前記所定の区間の内側にあるコピー数を有する場合に、前記要素を正常であるもしくは前記コピー数多型を有さないものとして報告することとを含む。
【0021】
いくつかの態様において、前記コンピュータ実装方法は、前記標的セットおよび/または前記要素中の各セグメントについての統計的尺度を計算することであって、前記統計的尺度の前記計算は、全ての試料中の前記標的セットおよび/または前記要素中の各セグメントについての前記コピー数を含む正常プロファイルに基づいている、ことと、前記統計的尺度を、セグメントおよび/または前記要素について設定された所定の上限閾値または所定の下限閾値と比較することとをさらに含み、前記比較に基づいて、前記標的セット中の前記セグメントの前記統計的尺度が前記所定の上限閾値より大きいかもしくは前記所定の下限閾値より小さい場合に、前記所定の区間内にコピー数を有する前記標的試料中の前記標的中の各セグメントが、前記コピー数多型を有すると報告されるのみであり、および/または前記比較に基づいて、前記要素の前記統計的尺度が前記所定の上限閾値より大きいかもしくは前記所定の下限閾値より小さい場合に、前記所定の区間内にコピー数を有する前記標的試料中の前記要素は、前記コピー数多型を有するとして報告されるのみである。
【0022】
いくつかの態様において、前記統計的尺度は、(i)zスコア、(ii)p値または(iii)変動係数を含む。
【0023】
いくつかの態様において、前記コンピュータ実装方法は、前記計算装置によって、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数と、前記正常プロファイルとを機械学習モデルに入力することと、前記機械学習モデルを使用して、前記コピー数多型の存在または非存在を示すものとして、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数を分類することとをさらに含み、前記比較、前記機械学習モデルによる前記分類またはこれらの組み合わせに従って、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数多型の存在または非存在についての前記分類を出力することが実施される。
【0024】
いくつかの態様において、前記コンピュータ実装方法は、前記標的試料に関連する対象の診断を決定することであって、前記診断は、前記標的試料中の前記標的セット中の各セグメントおよび/または前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての前記分類に基づいて決定される、ことをさらに含む。
【0025】
いくつかの態様において、前記コンピュータ実装方法は、(i)前記標的試料中の前記標的セット中の各セグメントおよび/もしくは前記標的試料中の前記要素についての前記コピー数多型の存在もしくは非存在についての前記分類、ならびに/または(ii)前記対象の前記診断に基づいて、前記対象に処置を投与することをさらに含む。
【0026】
様々な態様において、標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法であって、計算装置によって、前記標的試料を含む、バッチ中の複数の試料についての配列決定データを取得することであって、前記試料の1またはそれより多くは異なる対象からのものであり、前記配列決定データは、前記試料のそれぞれについて、(i)試料中の各セグメントについてのカバレッジ中央値および(ii)前記試料中の全てのセグメントについての包括的カバレッジ中央値を含む、ことと、前記計算装置によって、前記試料のそれぞれの中の要素についての第1の正規化されたカバレッジを決定することであって、前記要素についての前記第1の正規化されたカバレッジを決定することは、試料中の前記要素についての前記局所的カバレッジ中央値を決定することと、前記要素についての前記局所的カバレッジ中央値および前記試料中の全てのセグメントについての前記包括的カバレッジ中央値に基づいて、前記試料中の前記要素についての要素カバレッジ中央値比を決定することとを含む、ことと、前記計算装置によって、前記試料のそれぞれの中の前記要素についての第2の正規化されたカバレッジを決定することであって、前記要素についての前記第2の正規化されたカバレッジを決定することは、前記試料中の前記要素についての前記要素カバレッジ中央値比と、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の平均とに基づいて、試料中の前記要素についてのコピー数を決定することを含む、ことと、前記計算装置によって、標的試料中の前記要素についての前記コピー数を所定の区間と比較することと、前記比較に従って、前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての分類を前記計算装置によって出力することとを含む、コンピュータ実装方法が提供される。
【0027】
いくつかの態様において、前記要素は、(i)染色体、(ii)染色体の一部分、(iii)遺伝子、(iv)エクソン、(v)イントロンまたは(vi)関心対象の所定のゲノム部分もしくは領域である。
【0028】
いくつかの態様において、前記配列決定データを取得することは、超並列配列決定装置によって、各試料からの核酸を配列決定することであって、前記配列決定は配列リードを生成する、ことと、前記配列リードを参照ゲノムにマッピングすることと、前記参照ゲノムのゲノム部分にマッピングされた前記配列リードを計数することであって、前記計数することは、各試料について前記参照ゲノムの前記ゲノム部分にマッピングされた前記配列リードの定量を生成する、ことと、各セグメント内の各参照塩基にマッピングされた前記配列リードの前記定量に基づいて、各試料の各セグメント内の各参照塩基について塩基カバレッジを決定することと、それぞれの中の各セグメントについての前記カバレッジ中央値を決定することと、各試料中の全てのセグメントについての前記包括的カバレッジ中央値を決定することとを含む。
【0029】
いくつかの態様において、前記核酸の前記配列決定は、各試料について数十万から数億の前記配列リードを生成する。
【0030】
いくつかの態様において、前記試料中の前記要素についての前記要素カバレッジ中央値比を決定することは、前記要素についての前記局所的カバレッジ中央値を前記試料中の全てのセグメントについての前記包括的カバレッジ中央値によって割ることを含む。
【0031】
いくつかの態様において、前記コンピュータ実装方法は、(i)前記得られた配列決定データから1もしくはそれを超える試料中の性染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を除去することと、(ii)前記得られた配列決定データから男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を除去することと、(iii)前記得られた配列決定データ中の男性/雄性対象に関連する1もしくはそれを超える試料中のX染色体上の1もしくはそれを超えるセグメントについての1もしくはそれを超えるカバレッジ中央値を2倍することと、または(iv)これらの任意の組み合わせをさらに含む。
【0032】
いくつかの態様において、前記要素についての前記第2の正規化されたカバレッジを決定することは、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の前記平均を決定する前に、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比から外れ値を除去することと、前記バッチ中の前記試料の残りの試料中の前記要素についての前記要素カバレッジ中央値比の前記平均を計算することとをさらに含む。
【0033】
いくつかの態様において、前記外れ値を除去することは、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比に基づいて四分位範囲を計算することと、前記四分位範囲に関する上限および下限を決定することと、前記要素カバレッジ中央値比の値が前記上限より大きいかまたは前記下限より小さい前記要素についての任意の要素カバレッジ中央値比を除去することとを含む。
【0034】
いくつかの態様において、前記試料中の前記要素についての前記コピー数を決定することは、前記要素についての前記要素カバレッジ中央値比を、前記バッチ中の前記試料の全ての中の前記要素についての前記要素カバレッジ中央値比の前記平均によって割ることを含む。
【0035】
いくつかの態様において、前記コンピュータ実装方法は、前記計算装置によって、前記比較に基づいて、前記標的試料中の前記要素についての前記コピー数が前記所定の区間の内側または外側にあるかどうかを決定することをさらに含み、前記出力することは、前記標的試料中の前記要素が前記所定の区間の外側にあるコピー数を有する場合に、前記要素を、前記コピー数多型を有するものとして報告すること、または前記標的試料中の前記要素が前記所定の区間の内側にあるコピー数を有する場合に、前記要素を正常であるもしくは前記コピー数多型を有さないものとして報告することとを含む。
【0036】
いくつかの態様において、前記コンピュータ実装方法は、前記標的試料中の前記要素についての統計的尺度を計算することであって、前記統計的尺度の計算は、全ての試料中の前記要素についての前記コピー数を含む正常プロファイルに基づいている、ことと、前記統計的尺度を、前記要素に対して設定された所定の上限閾値または所定の下限閾値と比較することとをさらに含み、前記比較に基づいて、前記要素の前記統計的尺度が前記所定の上限閾値より大きいかまたは前記所定の下限閾値より小さい場合に、前記所定の区間外のコピー数を有する前記標的試料中の前記要素は、前記コピー数多型を有するとして報告されるのみである。
【0037】
いくつかの態様において、前記統計的尺度は、(i)zスコア、(ii)p値または(iii)変動係数を含む。
【0038】
いくつかの態様において、前記コンピュータ実装方法は、前記標的試料に関連する対象の診断を決定することであって、前記診断は、前記標的試料中の前記要素についての前記コピー数多型の存在または非存在についての前記分類に基づいて決定される、ことをさらに含む。
【0039】
いくつかの態様において、前記コンピュータ実装方法は、(i)前記標的試料中の前記要素についての前記コピー数多型の存在もしくは非存在についての前記分類、および/または(ii)前記対象の前記診断に基づいて、前記対象に処置を投与することをさらに含む。
【0040】
いくつかの態様において、前記コンピュータ実装方法は、前記計算装置によって、前記標的試料中の前記要素についての前記コピー数と、前記正常プロファイルとを機械学習モデルに入力することと、前記機械学習モデルを使用して、前記コピー数多型の存在または非存在を示すものとして、前記要素についての前記コピー数を分類することとをさらに含み、前記比較、前記機械学習モデルによる前記分類またはこれらの組み合わせに従って、前記要素についての前記コピー数多型の存在または非存在についての前記分類を出力することが実施される。
【0041】
様々な態様において、標的試料中のコピー数多型の存在または非存在を検出するためのコンピュータ実装方法であって、計算装置によって、前記標的試料を含む複数の試料についての配列決定データを取得することであって、前記試料の1またはそれより多くは異なる対象からのものであり、および前記配列決定データは、前記試料のそれぞれについて、(i)試料中の各セグメントについての統計的カバレッジと(ii)前記試料中の全てのセグメントについての包括的統計的カバレッジとを含む、ことと、前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第1の正規化されたカバレッジを決定することであって、前記第1の正規化されたカバレッジを決定することは、前記セグメントについての前記統計的カバレッジおよび前記試料中の全てのセグメントについての前記包括的統計的カバレッジに基づいて、試料中のセグメントについてのセグメント統計的カバレッジ比を決定することを含む、ことと、前記計算装置によって、前記試料のそれぞれの中の各セグメントについての第2の正規化されたカバレッジを決定することであって、前記第2の正規化されたカバレッジを決定することは、前記試料中の前記セグメントについての前記セグメント統計的カバレッジ比および前記試料の全ての中の前記セグメントについての前記セグメント統計的カバレッジ比の代表値に基づいて、試料中のセグメントについてのコピー数を決定することを含む、ことと、前記計算装置によって、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数と前記正常プロファイルとを機械学習モデルに入力することと、前記機械学習モデルを使用して、前記コピー数多型の存在または非存在を示すものとして前記標的試料中の前記標的セット中の各セグメントについての前記コピー数を分類することと、前記機械学習モデルによる分類に従って、前記標的試料中の前記標的セット中の各セグメントについての前記コピー数多型の前記存在または非存在についての分類を前記計算装置によって出力することとを含む、コンピュータ実装方法が提供される。
【0042】
いくつかの態様において、コンピュータプロセッサによって実行されると、本明細書に開示されている1またはそれを超える方法の一部または全部の動作または操作を前記コンピュータプロセッサに実行させるコンピュータプログラム命令を備える非一時的コンピュータ可読記憶媒体が提供される。
【0043】
いくつかの態様において、プロセッサと非一時的メモリとを備えるコンピュータシステムが提供され、前記メモリは、前記プロセッサによって実行されると、本明細書に開示されている1またはそれを超える方法の一部または全部の動作または操作を前記プロセッサに実行させるコンピュータプログラム命令を含む。
【0044】
使用されてきた用語および表現は、限定の用語でなく、記述の用語として使用されており、このような用語および表現の使用において、示されたおよび記載された特徴またはその一部のいずれの均等物をも除外する意図は存在せず、特許請求された発明の範囲内で様々な修飾が可能であることが認められる。したがって、特許請求された本発明は態様および必要に応じて存在し得る特徴によって具体的に開示されているが、本明細書中に開示されている概念の修正および変形が当業者によって用いられ得ること、ならびにそのような修正および変形は、添付の特許請求の範囲によって定義された本発明の範囲内にあるとみなされることを理解すべきである。
【図面の簡単な説明】
【0045】
図面は、本技術のある態様を例示しており、限定するものではない。説明を明確かつ容易にするために、図面は原寸どおりに作られておらず、いくつかの例においては、特定の態様の理解を容易にするために、様々な局面が誇張または拡大されて示されている場合がある。
【0046】
【
図1】
図1は、様々な態様による染色体および亜染色体のコピー数多型の検出のためのプロセスフローの概要を示す。
【0047】
【
図2】
図2は、様々な態様による、セグメントについてのカバレッジ中央値を含む配列データを提供する例示的なインターフェースを示す。
【0048】
【
図3】
図3は、様々な態様による開示された技術を実行するためのコンピューティング環境の一例を示す。
【0049】
【
図4】
図4は、様々な態様による、複数の試料を配列決定し、配列決定データを得るためのプロセスを示すフローチャートである。
【0050】
【
図5】
図5は、様々な態様による、第1の正規化を実行し、正規化されたセグメント(または要素)カバレッジ中央値比を取得するためのプロセスを示すフローチャートである。
【0051】
【
図6】
図6は、様々な態様による、第2の正規化を実行し、コピー数カバレッジを取得するためのプロセスを示すフローチャートである。
【0052】
【
図7】
図7は、様々な態様による、機械学習モデルを訓練し、配置するための機械学習システムを示すブロック図を表す。
【0053】
【
図8】
図8は、様々な態様によるCNV検出を実行し、報告するためのプロセスを示すフローチャートである。
【0054】
【
図9A】
図9Aは、様々な態様による、試料中の要素についての局所的カバレッジ中央値を決定するための、および前記試料中の全てのセグメントについての包括的カバレッジ中央値を決定するための例示的な方法を示す。
【0055】
【
図9B】
図9Bは、様々な態様による、要素カバレッジ中央値比を決定するための例示的な方法を示す。
【0056】
【
図9C】
図9Cは、様々な態様による、要素についてのコピー数を決定するための例示的な方法を示す。
【0057】
【
図9D】
図9Dは、様々な態様による、要素カバレッジ中央値比から外れ値を除外し、前記要素についての要素カバレッジ中央値比の平均を決定するための例示的な方法を示す。
【0058】
【
図10】
図10は、様々な態様による1911個の試料を用いた実験結果を示す受信者動作特性(ROC)曲線を示す。
【0059】
【
図11A】
図11Aは、様々な態様による、1911個の試料中の1番染色体についての要素カバレッジ中央値比の実験的分布を示す。
【0060】
【
図11B】
図11Bは、様々な態様による、1911個の試料中の染色体についてのコピー数の実験的分布を示す。
【0061】
【
図12A】
図12Aは、様々な態様による、異なる染色体(1番~22番染色体およびX染色体)中のセグメントについてのカバレッジ中央値の箱ひげ図を示す。
【0062】
【
図12B】
図12Bは、様々な態様による、女性および男性対象に別々に関連付けられた異なる染色体(1番~22番染色体およびX染色体)中のセグメントについてのコピー数の箱ひげ図を示す。
【0063】
【
図13】
図13は、様々な態様による、女性対象からのX染色体に対するCNV検出結果を示す。
【0064】
【
図14】
図14は、様々な態様による、女性対象からのX染色体上の部分的染色体喪失のCNV検出を示す。
【0065】
【
図15】
図15は、CNV検出技術が、様々な態様による小エクソン/領域CNV検出を実行することにも適合することを示す。
【0066】
【
図16A】
図16Aは、様々な態様による、可能性のある部分的GALC欠失を示唆する検出結果を示す。
【0067】
【
図16B】
図16Bは、様々な態様による、GALCエクソン欠失を示唆する検出結果を示す。
【0068】
【0069】
【
図17B】
図17Bは、様々な態様による、ルールベースのアプローチと機械学習ベースのアプローチとの間でのCNVコーリングの食い違いに関する詳細を示す。
【発明を実施するための形態】
【0070】
詳細な説明
以下の説明は、好ましい例示的な態様のみを提供し、本開示の範囲、適用性または構成を限定することを意図しない。むしろ、好ましい例示的な態様の以下の説明は、様々な態様の実施を可能にするための説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨および範囲から逸脱することなく、要素の機能および配置に様々な変更が加えられ得ることが理解される。
【0071】
態様の完全な理解を提供するために、以下の説明では具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしに態様が実施され得ることが理解されよう。例えば、不必要に詳細にして態様を不明瞭にしないために、回路、システム、ネットワーク、プロセスおよびその他の構成要素はブロック図形式で構成要素として示され得る。他の例では、態様を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造および技術は、不必要な詳細なしに示され得る。
【0072】
また、個々の態様は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして記載され得ることに留意されたい。フローチャートまたは図は操作を順次のプロセスとして記載し得るが、操作の多くは並行してまたは同時に実施され得る。さらに、操作の順序は並べ替えられ得る。プロセスは、その操作が完了されたときに終了するが、図に含まれていない追加の工程を有することができる。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、その終了は、呼び出し関数またはメイン関数への関数の戻りに対応し得る。
【0073】
I.概要
本開示は、染色体および亜染色体のコピー数多型を検出するための技術を記載する。より具体的には、本開示のいくつかの態様は、外部参照試料を必要とせずにコピー数多型を検出および報告するための2段階正規化分析を提供する。
【0074】
コピー数多型(CNV)は、挿入、重複または欠失を通じて染色体構造を変化させる広く存在する種類のゲノム障害(構造的ゲノム変動)である。CNVがヒト対象において起こる場合、いくつかのヌクレオチド塩基対が、正常な対象と比較して、対象の染色体において挿入、重複または欠失される。時には、複数の挿入、複数の重複、複数の欠失もしくはこれらの組み合わせが複数の染色体で起こり得るか、または染色体の全体もしくは一部が重複または欠損され得る。CNVは多くの疾患表現型と関連しており、より高い疾患リスクをもたらし得る。例えば、クラインフェルター症候群の患者は、余分なX染色体を持って生まれた男性である。クラインフェルター症候群の典型的な症候は明白ではなく、診断することが困難であり、より高い身長、より低いエネルギーレベルおよび不妊症を含む。クラインフェルター症候群は、II型糖尿病および男性乳癌などの他の健康問題のより高いリスクをもたらし得る。
【0075】
CNV分析は、最初に、蛍光インサイチュハイブリダイゼーション(FISH)などの従来の技術を用いて、挿入された蛍光プローブを介して染色体の物理的構造を観察することによって研究された。次世代シーケンシング(NGS)技術の開発により、科学者および専門医は、配列リードを使用して標的とされる構造バリアントを同時にかつ迅速に検出および分析することができる。超並列配列決定データを使用して、患者試料中のゲノムの関連ゲノム領域(例えば、数百から数千のゲノム領域)全体にわたってCNVを推測することができる。CNV検出のためのほとんどの従来の配列決定ベースのアプローチは、ゲノムを重複しないビンに分割し、リード深度(RD)を使用してコピー数が異なる領域を探す。CNVを正確に検出するために、RDアプローチは、分析される各対象試料を有するコホートとして実行される少なくとも5つの外部試料(理想的には約10)を必要とし、残りの試料を参照試料のプールとして使用する。あるいは、ペアードエンド(PE)アプローチは、ペアードリード間の距離に基づいてCNVを同定する。リード間の距離が所定のインサートサイズと著しく異なる場合、ゲノム異常が検出される。PEアプローチを使用してCNVを検出することは可能であるが、この方法は、逆位および転座などの構造的変動を検出するために最も頻繁に使用される。第3のアプローチは、短いリードのコンティグへの集合に基づいており、参照ゲノムへのリードのマッピングを除外する。CNVを同定するために、次いで、集合したコンティグを参照ゲノムと比較して量的な差を同定する。しかしながら、PEおよび集合をベースとするアプローチはいずれも、標的とされる領域がゲノム全体にわたって非連続的であるために、ターゲットリシーケンシングでは制限される。したがって、ターゲットリシーケンシングおよび全エクソームシーケンシング(WES)のための全てのCNV検出ツールはRDアプローチに基づいている。重要なこととして、リード深度アプローチは、リードがゲノム全体にわたって多かれ少なかれ均一に分布すると仮定し、したがって、コホートに対するリード深度の差がCNVを同定するために使用される。
【0076】
しかしながら、この仮定は、全ゲノムおよびターゲットシーケンシングの状況では成り立たない。仮定が成り立たない主な理由の1つは、異なるゲノム標的領域を捕捉するために使用されるプローブが、領域に応じて可変の特異性および効率を有することである。この事実は、CNV検出を妨げる、領域当たりのマッピングされたリードの数の強いバイアスをもたらす。従来のCNV検出アプローチは、標的領域にわたる捕捉効率の大規模な変動性によって与えられるバイアスを調節するために複数の外部参照試料を使用するので、複数の外部参照試料を必要とする。さらに、染色体中の異なる領域は、CNV分析において異なる閾値を必要とし得、さらに大規模な実験的および計算的調整を要求し得る。これらの参照バイアスは、CNV検出の感度および特異度に影響を及ぼし、現在利用可能な方法のほとんどにおいて高い偽陽性率をもたらす。その結果、従来のCNV検出アプローチは、限られた数の標的遺伝子またはカタログCNVに対してのみ利用可能であり、従来のCNV検出アプローチの大部分は、小さな領域(例えば、小さなエクソン)に対してCNVを検出する能力を有さない。
【0077】
従来のCNV検出アプローチにおける問題および限界に対処するために、染色体および亜染色体(例えば、遺伝子レベルおよびエクソンレベル)のコピー数多型を同時に検出するための技術が本明細書に開示されている。本開示の1つの例示的な態様は、外部参照試料なしに、異なる分離能レベル(例えば、染色体レベル、遺伝子レベルおよびエクソンレベル)でCNVをコールするためのコンピュータ実装二重正規化方法に関する。いくつかの例において、コンピュータ実装方法は、疾患の診断を実施する前に、事前分析の一部として実施される。いくつかの例において、コンピュータ実装方法は、疾患への処置の投与を行う前に、事前分析の一部として実施される。他の例において、コンピュータ実装方法は、従来のNGS-CNV検出分析を実行した後に、事後分析または調整分析の一部として実施される。しかしながら、当業者に理解されるように、本明細書で論じられる概念は、事前分析、事後分析または調整分析手順に限定されず、様々な態様によるCNV分析の総合的な臨床的影響にも統合され得る。
【0078】
図1は、2段階正規化プロセスを含む、異なる分解能レベルでCNV(例えば、SMN1コピー数、GAAエクソン18欠失など)をコールするためのコンピュータ実装二重正規化方法100を示す。ブロック105において、試料のバッチ(例えば、CNVについて分析されるべき96の対象試料)が、NGS技術を使用して前処理および配列決定される(このプロセスは、
図4に関連してさらに詳細に説明される)。1またはそれを超える要素(例えば、染色体、遺伝子、エクソン、イントロンまたはセグメントなどの他の関心対象の領域(ROI))を含む標的ゲノム領域のセットは、ある種類のCNVを検出するために同定される。いくつかの例において、標的ゲノム領域のセット中の各要素は、遺伝子、染色体、染色体の一部分、エクソン、イントロン、所定のゲノム部分もしくはセグメントなどのROI、またはこれらの任意の組み合わせである。前処理および配列決定結果に基づいて、試料のそれぞれの中の各セグメントについてのカバレッジ数中央値が得られる。セグメントは、染色体、遺伝子、エクソン、イントロンまたは他のROIなどの要素の一部である。
図2に示されているように、セグメントカバレッジ中央値205は、カバレッジ値をソートし、ソートされたリスト中の中央の位置にあるカバレッジを選択することによって決定される。各試料についての包括的カバレッジ中央値は、試料中の全てのセグメントについてのカバレッジ数中央値のソート結果に基づいて決定される。多くの事例において類似の性能を有する類似の結果を得るために、セグメントについてのカバレッジ中央値および/または包括的カバレッジ中央値の代わりに、数値データセットにおけるその他の代表値または平均カバレッジおよび最頻値カバレッジなどのその他の統計的カバレッジも使用することができることが指摘されるべきである。しかしながら、平均カバレッジと比較して、カバレッジ中央値は、一般に、より堅牢であり、極端な値の影響をはるかに受けにくい。
【0079】
異なる性別の対象に関連する試料が一緒に処理される場合、第1の正規化を進める前に調整が必要とされ得る。男性/雄性対象に関連する各試料は1つのX染色体のみを有するので、男性/雄性対象に関連する試料中のX染色体上のセグメントについてのカバレッジ中央値は、試料についての包括的カバレッジ中央値を決定する前に2倍され、更新されるべきである。様々な態様において、男性/雄性対象に関連する試料中のセグメントについてのカバレッジ中央値の倍増処理が行われ、対応する元のカバレッジ中央値がさらなる処理のために更新される。いくつかの態様において、男性/雄性対象に関連する試料中のセグメントについてのカバレッジ中央値の倍増は、さらなる処理のためにセグメントについての新しい変数として保存される。他の態様において、男性/雄性対象に関連する試料中の性染色体上のセグメントについてのカバレッジ中央値は、試料についての包括的カバレッジ中央値を決定する前に除去される。男性/雄性対象に関連する試料中のX染色体上の要素についてのカバレッジ中央値は、上記と同様の方法で調整され得ることを理解されたい。あるいは、男性/雄および女性/雌の試料を一緒に分析する前に男性/雄の試料に2X倍増係数を適用することによって、男性/雄の対象に関連する試料中のX染色体上の要素についてのカバレッジ中央値はその場で調整され得る。調整は、包括的カバレッジ中央値を決定するためだけのものであり得、後続の調整は、第1の正規化後に処理され得ることも理解されたい。
【0080】
図1に戻って参照すると、ブロック110において、各試料が独立して処理される第1の正規化が実行される(このプロセスは、
図5に関連してさらに詳細に説明される)。入力は、各試料の全てのセグメントについてのカバレッジ中央値である。セグメントカバレッジ中央値は正規分布に従うものと仮定される。各セグメントについてのカバレッジは、各セグメントカバレッジ中央値を試料または包括的カバレッジ中央値で割ることによって正規化され(「包括的中央値に対するスケール調整」)、これは各セグメントについての正規化されたセグメントカバレッジ中央値比である。異なるレベルの分解能を得るために、同じ正規化を要素ごとに各試料に対して実行し得る。例えば、それぞれの追加の要素(例えば、遺伝子または染色体)に対する正規化は、(a)個々のセグメントカバレッジ中央値を得ることと同様であるが、その要素に属するセグメントのみを考慮して、試料全体の全てのセグメントではなく、その要素についての要素カバレッジ中央値を見出すこと、および(b)それぞれの要素カバレッジ中央値を試料または包括的カバレッジ中央値で割ること-これは、それぞれの追加の要素についての正規化された要素カバレッジ中央値比である、を含み得る。
【0081】
異なる性別の対象に関連する試料が一緒に処理される場合、第1の正規化を進めるときに調整が必要とされ得る。男性/雄性対象に関連する各試料は1つのX染色体のみを有するので、男性/雄性対象に関連する試料中のX染色体上のセグメントについてのカバレッジ中央値が第1の正規化のために2倍されていなければ、男性/雄性対象に関連する試料中のX染色体上のセグメントについてのセグメントカバレッジ中央値比は、第2の正規化のためのセグメントカバレッジ中央値比を決定する前に2倍され、更新されるべきである。様々な態様において、男性/雄性対象に関連する試料中のセグメントについてのセグメントカバレッジ中央値比の倍増処理が行われ、対応する元のセグメントカバレッジ中央値比がさらなる処理のために更新される。いくつかの態様において、男性/雄性対象に関連する試料中のセグメントについてのセグメントカバレッジ中央値比の倍増は、さらなる処理のためにセグメントについての新しい変数として保存される。男性/雄性対象に関連する試料中のX染色体上の要素についての要素カバレッジ中央値比は、上記と同様の方法で調整され得ることを理解されたい。
【0082】
ブロック115において、試料のバッチ(例えば、フローセルバッチ)内の全ての試料が一緒に処理される第2の正規化が実行される(このプロセスは、
図6に関連してさらに詳細に説明される)。入力は、セグメント/要素についての第1の正規化されたカバレッジである。バッチ中のほとんどの試料は、分析されるべきセグメント/要素について正常なコピー数を有すると仮定される。この仮定は、試料の最大30%がコピー数多型を有し得るいくつかのまれな事例、例えばHBA分析には当てはまらない場合がある。このようなまれな事例では、本方法はコピー数分析のために使用されるべきではない。この入力は、セグメント(または要素)の正常なコピー数の単純なモデルを構築するために使用することができ、次いで、このモデルは、著しく異なるコピー数を有するセグメント(または要素)を検出するために使用される。全ての試料中の各セグメント(または要素)は、独立した分析単位と考えられる。この単位では、バッチ平均カバレッジは、全ての試料中のセグメント(または要素)についての全ての第1の正規化されたカバレッジを足し合わせ、その合計を試料の数で割ることによって決定される。いくつかの態様において、平均カバレッジを決定する前に、この単位に対する外れ値が除外され得る(例示的な外れ値の除外が
図8Dに示されている)。外れ値の検出は、正常な試料に対する信頼できる統計的プロファイルモデルを得るために、任意の潜在的なCNVおよび異常セグメントを除去するための重要な工程であり得る。外れ値フィルタリングの後、各試料中のセグメント(または要素)についての第2の正規化されたカバレッジは、試料セグメント(または要素)カバレッジ中央値比を各試料についてのフローセル平均で割ることによって決定される。換言すれば、セグメント(または要素)あたりのカバレッジは、単一の試料のセグメント(または要素)のカバレッジ中央値比を、フローセルバッチ中の全ての試料のその特定のセグメント(または遺伝子または染色体)のカバレッジ中央値比の平均で割ることによって正規化されている。第2の正規化プロセスに続いてまたは並行して、全ての試料中の同じセグメント(または要素)についての全ての第2の正規化されたカバレッジを含むこのセグメント(または要素)についての正常なモデル/プロファイルが決定され、CNV検出において使用するために準備される。
【0083】
ブロック120で、人工知能技術を使用して、CNVの非存在または存在が検出される(このプロセスは、
図7および
図8に関連してさらに詳細に説明される)。ルールベースの方法、機械学習モデルまたはこれらの組み合わせを含む人工知能技術。CNV検出は、第2の正規化の結果、具体的にはセグメント(または要素)あたりのコピー数、またはセグメント(または要素)についてのp値(または対応するzスコア、または統計的尺度)、またはコピー数とp値(または対応するzスコア、または統計的尺度)の両方に基づく。例えば、それぞれの試料-セグメント(または要素)の組み合わせについて、セグメント(または要素)についてのzスコアおよびp値を計算するために、特定の試料は、そのセグメントについての正常な試料のモデル/プロファイルと比較され得る。様々な態様において、例えば、セグメント(または要素)についてのコピー数が所定の区間から外れている場合に、ならびに必要に応じて、その対応するzスコアおよび/またはp値が所定の閾値の外側にある場合に、標的試料中の要素に関連するCNVの存在が、ルールベースの方法に基づいて報告される。他の態様では、標的試料中の要素に関連するCNVの存在は、1またはそれを超える機械学習モデルに基づいて報告され、例えば、重複(すなわち、増加したコピー数)または欠失(すなわち、減少したコピー数)を予測するために、機械学習モデルが使用され得る。さらに他の態様において、標的試料中の要素に関連するCNVの存在は、ルールベースの方法と1またはそれを超える機械学習モデルとの組み合わせに基づいて報告される。報告情報は、(i)標的試料のID、(ii)セグメント(または要素)の識別子(例えば、名前または場所)、(iii)セグメント(または要素)についてのコピー数、(iv)セグメント(または要素)についてのp値(または対応するzスコア、または統計的尺度)、(v)標的試料に関連する対象の性別、(vi)要素がエクソン/イントロンである場合、要素の遺伝子識別子、(vii)要素がエクソン/イントロン/遺伝子である場合、要素の染色体識別子、(viii)CNV検出のタイプ(例えば、cnvdup、cnvdel、またはCNVの非存在)または(ix)これらの任意の組み合わせを含み得るが、これらに限定されない。
【0084】
二重正規化プロセスは、多くの側面において有利であり、例えば、(i)二重正規化プロセスは、染色体および亜染色体(例えば、遺伝子およびエクソン)などの異なる分解能でCNVを同時に検出することができ、小エクソンCNVなどの小さな領域のCNVを検出するために特に適用可能である、(ii)二重正規化プロセスは、外部の「正常な」参照試料を要求せず、参照試料を調整する際に起こり得るバイアスおよび過誤を排除する(完全にCNV正常試料を発見し、参照として使用することは極めてまれである)、(iii)二重正規化プロセスは、バッチ間変動によるアーチファクトによって引き起こされる偽陽性および偽陰性を回避し、(iv)二重正規化プロセスは、CNVを自動的に迅速かつ効率的に検出および分析するための一連の標準的な手順を提供する。さらに、二重正規化データプロセスは、他の標的ベースの生殖系列NGS試験に、および潜在的には体細胞CNV変異分析に容易に適合させることができる。
【0085】
II.定義
本明細書で使用される場合、動作が何かに「基づいて」いる場合、これは、その動作がその何かの少なくとも一部に少なくとも部分的に基づくことを意味する。
【0086】
本明細書で使用される場合、「実質的に(substantially)」、「およそ(approximately)」および「約(about)」という用語は、当業者によって理解されるように、概ね指定されたものであるが、必ずしも完全には指定されたものではないとして定義される(および完全に指定されたものを含む)。任意の開示された態様では、「実質的に」、「およそ」または「約」という用語は、指定されたもの「の[パーセンテージ]以内」で置き換えられ得、パーセンテージは0.1、1、5および10%を含む。
【0087】
本明細書で使用される場合、「試料」、「生体試料」、「組織」または「組織試料」という用語は、ウイルスを含む任意の生物から得られる生体分子(タンパク質、ペプチド、核酸、脂質、炭水化物またはこれらの組み合わせなど)を含む任意の試料を指す。生物の他の例には、哺乳動物(ヒト;ネコ、イヌ、ウマ、ウシおよびブタのような獣医学動物;ならびにマウス、ラットおよび霊長類のような実験動物など)、昆虫、環形動物、クモ類、有袋類、爬虫類、両生類、細菌および真菌が含まれる。生体試料には、組織試料(組織切片および組織の針生検など)、細胞試料(Papスメアもしくは血液スメアなどの細胞学的スメアまたは顕微解剖によって得られた細胞の試料など)、または(細胞を溶解し、遠心分離などによってそれらの成分を分離することなどによって得られた)細胞画分、断片もしくは細胞小器官が含まれる。生体試料の他の例としては、血液、血清、尿、精液、糞便、脳脊髄液、間質液、粘液、涙、汗、膿、(例えば、外科的生検または針生検によって得られた)生検組織、乳頭吸引液、耳垢、乳汁、膣液、唾液、スワブ(口内スワブなど)、または第1の生体試料に由来する生体分子を含有する任意の材料が挙げられる。ある態様において、本明細書で使用される「生体試料」という用語は、対象から得られた腫瘍またはその一部から調製された試料(ホモジナイズされたまたは液化された試料など)を指す。
【0088】
本明細書で使用される場合、「部分」、「ゲノムの区域」、「ビン」、「区画」、「参照ゲノムの一部分」、「染色体の一部分」または「ゲノム部分」という用語は、1またはそれを超える特徴によるゲノムの分割によって得られたものを指す。ある種の分割する特徴の非限定的な例は、長さ(例えば、固定された長さ、固定されていない長さ)および他の構造的特徴を含む。ゲノム部分は、以下の特徴の1またはそれより多くを含むことがある:固定された長さ、固定されていない長さ、ランダムな長さ、ランダムでない長さ、等しい長さ、等しくない長さ(例えば、ゲノム部分の少なくとも2つが、等しくない長さのものである)、重複しない(例えば、ゲノム部分の3’末端は、隣接するゲノム部分の5’末端に隣接することがある)、重複する(例えば、ゲノム部分の少なくとも2つが重複する)、近接、連続、非近接および非連続。ゲノム部分は、約1~約1,000キロベースの長さ(例えば、約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900キロベースの長さ)、約5~約500キロベースの長さ、約10~約100キロベースの長さ、または約40~約60キロベースの長さであることがある。
【0089】
本明細書で使用される場合、「セグメント」または「ゲノムのセグメント」用語は、1またはそれを超える固定長のゲノム部分のことを指し、しばしば、1またはそれを超える連続した固定長の部分(例えば、約2~約100のこのような部分(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90のこのような部分))を含む。セグメントまたはゲノムのセグメントは、標的染色体、遺伝子、エクソン、イントロンまたは他の関心対象の領域の一部である。
【0090】
本明細書で使用される場合、「要素」という用語は、2またはそれを超える固定長のゲノム部分を指し、しばしば、2またはそれを超える連続した固定長の部分(例えば、約2~約100のこのような部分(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90のこのような部分))を含む。要素は、遺伝子、染色体、染色体の一部分、エクソン、イントロン、所定のゲノム部分もしくはセグメントなどのROIまたはこれらの任意の組み合わせであり得る。
【0091】
本明細書で使用される場合、「コピー数変化」、「コピー数多型」または「CNV」という用語は、遺伝的変異、遺伝的変化または染色体異常のクラスまたはタイプを指す。ある例において、「コピー数変化」、「コピー数多型」または「CNV」は、対象中の細胞のサブセットの中のゲノムが(例えば、腫瘍または癌細胞などに)変化を含有する体細胞の変化を記載するために使用され得る。ある例において、「コピー数変化」、「コピー数多型」または「CNV」は、一方または両方の親から継承された変動(例えば、胎児中のコピー数多型など)を記載するために使用され得る。「コピー数変化」、「コピー数多型」または「CNV」は、欠失(例えば、微小欠失)、重複(例えば、微小重複)または挿入(例えば、微小挿入)であり得る。多くの場合、本明細書で使用される接頭辞「微小」は、長さが5Mb未満の核酸の領域であることがある。「コピー数変化」、「コピー数多型」または「CNV」は、染色体の一部または染色体全体の1またはそれを超える欠失(例えば、微小欠失)、重複および/または挿入(例えば、微小重複、微小挿入)を含むことができる。ある態様において、重複は挿入を含む。ある態様において、挿入は重複である。
【0092】
本明細書で使用される場合、「リード」または「配列リード」という用語は、本明細書に記載されるかまたは当技術分野で公知の、NGSを含む任意の配列決定プロセスによって産生される短いヌクレオチド配列である。
【0093】
本明細書で使用される場合、「アラインされた」、「アラインメント」または「アラインする」という用語は、一般に、マッチ(例えば、100%の同一性)または部分的なマッチとして同定され得る2またはそれを超える核酸配列を指す。
【0094】
本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるかまたは完全であるかを問わず、対象からの同定された配列を参照するために使用され得る、任意の生物またはウイルスの任意の特定の既知の配列決定されたまたは特徴付けられたゲノムを指すことができる。
【0095】
III.CNV検出のための技術
CNVの検出および分析は、遺伝的障害および症候群を特徴付ける上で重要な役割を果たす。本自動化されたCNV検出方法は、外部参照試料に依存せずに、標準化されたCNV検出を実施するための系統的かつ信頼性の高い方法を提供し、エクソンなどのより小さなゲノム領域に関するCNV情報を提供することもできる。
【0096】
本明細書には、異なるレベルの分解能でのCNVの自動化されたコーリングのために二重正規化および人工知能技術を組み込んだコンピュータ実装方法が記載されている。配列決定データを取得した後、セグメントについてのカバレッジ中央値または要素についての局所的カバレッジ中央値および試料中の全てのセグメントについての包括的カバレッジ中央値に基づいて、各セグメント/要素についての第1の正規化されたカバレッジを決定するために(「試料内正規化」)、各試料中のセグメントのカバレッジ数中央値が使用され、各セグメント/要素の第1の正規化されたカバレッジには、全ての試料中のセグメント/要素についての平均カバレッジに基づいて第2の正規化が行われる(「試料全体にわたる正規化」)。各要素は、標的ゲノム領域のセット中の染色体、染色体の一部分、遺伝子、エクソン、イントロンまたは他の関心対象の領域(ROI))である。CNVの検出は、人工知能技術を用いた第2の正規化の結果に基づく。人工知能技術は、ルールベースの方法、機械学習モデルまたはこれらの組み合わせを含む。開示された方法は、自動化されたCNV検出に関して、人間の介入に大きく依存する従来のNGS-CNV方法と同等のまたはより優れた性能を有し、小さな領域のCNVを検出する上でより優れた性能を有する。
【0097】
III.A.試料
染色体および亜染色体のコピー数多型を検出するためのシステム、方法およびコンピュータ可読記憶媒体が本明細書で提供される。いくつかの態様において、分析されるDNA材料には、核酸断片の混合物中の核酸が含まれる。核酸断片は核酸鋳型と呼ばれることがあり、これらの用語は本明細書では互換的に使用され得る。核酸の混合物は、同一のもしくは異なるヌクレオチド配列、異なる断片長、異なる起源(例えば、ゲノム起源、胎児起源対母体起源、細胞または組織起源、癌対非癌起源、腫瘍対非腫瘍起源、試料起源、対象起源など)またはこれらの組み合わせを有する2またはそれを超える核酸断片種を含むことができる。
【0098】
本明細書で使用される核酸には、DNA(例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、RNA(例えば、メッセージRNA(mRNA)、低分子阻害性RNA(siRNA)、リボソームRNA(rRNA)、tRNA、マイクロRNA、胎児または胎盤によって高度に発現されるRNAなど)、および/またはDNAもしくはRNA類似体(例えば、塩基類似体、糖類似体および/または非天然骨格などを含有する)、RNA/DNAハイブリッドおよびポリアミド核酸(PNA)が含まれ、これらは全て一本鎖または二本鎖形態であり得、特に限定されない限り、天然に存在するヌクレオチドと同様の様式で機能することができる天然ヌクレオチドの既知の類似体を包含することができる。
【0099】
本明細書に記載されているシステム、方法およびコンピュータ可読記憶媒体において利用される核酸は、しばしば、対象(例えば、試験対象)から得られた試料から単離される。対象は、ヒト、非ヒト動物、植物、細菌、真菌、プロテストまたは病原体を含むがこれらに限定されない任意の生きた生物または生きていない生物であり得る。任意のヒトまたは非ヒト動物が選択され得、例えば、哺乳動物、爬虫類、鳥類、両生類および魚類を含み得る。対象は、男性/雄または女性/雌(例えば、婦人、妊婦)であり得る。対象は、任意の年齢(例えば、胚、胎児、乳児、小児、成人/成体)であり得る。対象は、癌患者/患畜、癌を有すると疑われる患者/患畜、寛解状態の患者/患畜、癌の家族歴を有する患者/患畜および/または癌スクリーニングを得ている対象であり得る。対象は、循環セルフリー腫瘍DNA(ctDNA)を有する男性/雄または女性/雌であり得る。対象は、母体および胎児の循環セルフリーDNA(ccfDNA)を有する妊娠した女性/雌であり得る。
【0100】
III.B.機械、ソフトウェアおよびインターフェース
本明細書に記載されているある種のプロセスおよび方法(例えば、マッピング、計数、正規化、範囲設定、調整、カテゴリー化および/または配列リード、カウント、レベルおよび/またはプロファイルの決定、CNV分析など)は、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュール、配列決定装置などのその他の機械またはこれらの組み合わせを含むコンピューティング環境内で実行される。本明細書に記載されている方法は、典型的には、コンピュータ実装方法であり、本方法の1またはそれを超える部分または工程は、1またはそれを超えるプロセッサ(例えば、マイクロプロセッサ)、コンピュータ、システム、装置または機械(例えば、マイクロプロセッサによって制御される機械)によって実行される。使用に適したコンピュータ、システム、装置、機械、およびコンピュータプログラム製品は、コンピュータ可読記憶媒体を含むか、またはコンピュータ可読記憶媒体とともに利用されることが多い。コンピュータ可読記憶媒体の非限定的な例には、メモリ、ハードディスク、CD-ROM、フラッシュメモリデバイスなどが含まれる。コンピュータ可読記憶媒体は、一般に、コンピュータハードウェアであり、多くの場合、非一時的なコンピュータ可読記憶媒体である。コンピュータ可読記憶媒体はコンピュータ可読伝送媒体ではなく、後者は伝送信号それ自体である。
【0101】
図3は、本明細書に記載されている様々なシステム、方法、プロセスおよびデータ構造がその中に実装され得るコンピューティング環境310の非限定的な例を示す。コンピューティング環境310は、適切なコンピューティング環境の一例にすぎず、本明細書に記載されているシステム、方法およびデータ構造の使用または機能の範囲に関するいかなる限定も示唆することを意図していない。コンピューティング環境310は、コンピューティング環境310に示されている構成要素のいずれか1つまたは組み合わせに関する何らかの依存性または必要性を有すると解釈されるべきではない。
図3に示されているシステム、方法およびデータ構造のサブセットをある態様において利用することができる。本明細書に記載されているシステム、方法およびデータ構造は、多数の他の汎用または専用コンピューティングシステム環境または構成で動作可能である。適切であり得る公知のコンピューティングシステム、環境および/または構成の例には、パーソナルコンピュータ、サーバコンピュータ、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、任意の上記システムまたはデバイスを含む分散コンピューティング環境などが含まれるが、これらに限定されない。
【0102】
コンピューティング環境310は、処理装置321と、システムメモリ322と、システムメモリ322を含む様々なシステム構成要素を処理装置321に動作可能に結合するシステムバス323とを含む計算装置320(例えば、コンピュータまたは配列決定装置、光電池、光電子増倍管、光学リーダ、センサなどの他の種類の機械)を含む。計算装置320のプロセッサが単一の中央処理装置(CPU)を含むように、または一般に並列処理環境と呼ばれる複数の処理装置を含むように、ただ1つの処理装置321が存在してもよく、または2つ以上の処理装置321が存在してもよい。計算装置320は、従来のコンピュータ、分散型コンピュータ、または任意の他の種類のコンピュータであり得る。
【0103】
システムバス323は、メモリバスまたはメモリコントローラ、周辺機器用バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含むいくつかのタイプのバス構造のいずれであってもよい。システムメモリは、単にメモリとも呼ばれることがあり、読み出し専用メモリ(ROM)324およびランダムアクセスメモリ(RAM)を含む。起動中などに計算装置320内の要素間で情報を転送するのを補助する基本ルーチンを含む基本入力/出力システム(BIOS)326は、ROM324に格納されている。計算装置320は、図示されていないハードディスクから読み取りおよびハードディスクに書き込むためのハードディスクドライブインターフェース327と、リムーバブル磁気ディスク329から読み取りまたはリムーバブル磁気ディスク329に書き込むための磁気ディスクドライブ328と、CD-ROMもしくは他の光学媒体などのリムーバブル光ディスク331から読み取りまたはCD-ROMもしくは他の光学媒体などのリムーバブル光ディスク331に書き込むための光ディスクドライブ330とをさらに含み得る。
【0104】
ハードディスクドライブ327、磁気ディスクドライブ328および光ディスクドライブ330は、それぞれハードディスクドライブインターフェース332、磁気ディスクドライブインターフェース333および光ディスクドライブインターフェース334によってシステムバス323に接続される。これらのドライブおよびそれらの関連するコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよび計算装置320のための他のデータの不揮発性記憶を提供する。磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)など、コンピュータによってアクセス可能なデータを保存することができる任意のタイプのコンピュータ可読媒体が、動作環境において使用され得る。
【0105】
オペレーティングシステム335、1またはそれを超えるアプリケーションプログラム336、他のプログラムモジュール337およびプログラムデータ338を含む多数のプログラムモジュールが、ハードディスク、磁気ディスク329、光ディスク331、ROM324、またはRAM上に保存され得る。ユーザは、キーボード340およびポインティングデバイス342などの入力装置を介してコマンドおよび情報を計算装置320に入力し得る。他の入力装置(図示せず)には、マイクロフォン、ジョイスティック、ゲームパッド、衛星放送受信用アンテナ、スキャナなどが含まれ得る。これらのおよび他の入力装置は、システムバスに結合されたシリアルポートインターフェース346を介して処理装置321に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースによって接続されてもよい。モニタ347または他の種類の表示装置も、ビデオアダプタ348などのインターフェースを介してシステムバス323に接続される。モニタに加えて、コンピュータは、典型的には、スピーカおよびプリンタなどの他の周辺出力装置(図示せず)を含む。
【0106】
計算装置320は、リモートコンピュータ349などの1またはそれを超えるリモートコンピュータへの論理結合を使用して、ネットワーク接続された環境において動作し得る。これらの論理結合は、計算装置320に結合されたもしくは計算装置320の一部である通信装置によって、または他の様式で達成され得る。リモートコンピュータ349は、別のコンピュータ、サーバ、ルータ、ネットワークPC、クライアント、ピアデバイスまたは他の一般的なネットワークノードであり得、典型的には、計算装置320に関して上述された要素の多くまたは全てを含むが、
図3には記憶保存装置350のみが示されている。
図3に示されている論理結合は、ローカルエリアネットワーク(LAN)351およびワイドエリアネットワーク(WAN)352を含む。このようなネットワーキング環境は、オフィスネットワーク、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいて一般的であり、これらは全てネットワークの種類である。
【0107】
LANネットワーキング環境で使用される場合、計算装置320は、通信装置の一種であるネットワークインターフェースまたはアダプタ353を介してローカルネットワーク351に接続される。WANネットワーキング環境で使用される場合、計算装置320は、通信装置の一種であるモデム354または広域ネットワーク352を介した通信を確立するための任意の他の種類の通信装置を含むことが多い。モデム354は、内蔵または外付けであり得、シリアルポートインターフェース346を介してシステムバス323に接続される。ネットワーク化された環境では、計算装置320またはその一部に関して示されたプログラムモジュールは、リモート記憶保存装置に保存され得る。図示されているネットワーク接続は非限定的な例であり、コンピュータ間の通信リンクを確立するための他の通信装置が使用され得ることが理解される。
【0108】
III.C.試料配列決定およびカバレッジ数を含む配列決定データの取得
図4は、様々な態様による、複数の試料を配列決定し、カバレッジ数を含む配列決定データを取得するためのプロセス400を示すフローチャートである。
図4に図示されている処理は、それぞれのシステム、ハードウェアまたはこれらの組み合わせの1またはそれを超える処理装置(例えば、プロセッサ、コア)によって実行されるソフトウェア(例えば、コード、命令、プログラム)において実施され得る。ソフトウェアは、非一時的な記憶媒体上に(例えば、記憶装置上に)保存され得る。
図4に提示され、以下に記載されている方法は、例示的かつ非限定的であることが意図されている。
図4は、特定の順番または順序で行われる様々な処理工程を図示しているが、これは限定的であることを意図していない。ある代替態様では、工程は、いくらか異なる順序で実行されてもよく、またはいくつかの工程が並行して実行されてもよい。
図3に図示されている態様などのある態様においては、
図4に図示されている処理は、配列決定データを生成するために配列決定装置などの計算装置によって実行され得る。
【0109】
ブロック405において、配列決定装置を使用して複数の試料が配列決定される。試料は異なる対象からのものであり、バッチランとして配列決定される。試料は全て、臨床検査アッセイの一部としてCNVの存在または非存在について評価されており、いずれの試料も外部参照試料(すなわち、参照試料としての目的または使用のみが意図される試料)とは考えられない。試料は、配列リード(本明細書では一般に「リード」と呼ばれる)の集合物を生成するように配列決定される核酸(例えば、核酸断片、試料核酸、セルフリー核酸)を含む。核酸の配列決定は、各試料に対して数十万~数億の配列リードを生成する。配列リードは、核酸断片の一端から生成させることができ(「シングルエンドリード」、または核酸断片の両端から生成させることができる(例えば、ペアードエンドリード、ダブルエンドリード)。
【0110】
いくつかの例において、癌患者/患畜から得られた循環セルフリー核酸断片(CCF断片)は、正常細胞に起源を有する核酸断片(すなわち、非癌断片)および癌細胞に起源を有する核酸断片(すなわち、癌断片)を含む。正常細胞(すなわち、非癌性細胞)に起源を有するCCF断片に由来する配列リードは、本明細書では「非癌リード」と呼ばれる。癌細胞に起源を有するCCF断片に由来する配列リードは、本明細書では「癌リード」と呼ばれる。そこから非癌リードが得られるCCF断片は、本明細書では非癌テンプレートと呼ばれ得、そこから癌リードが得られるCCF断片は、本明細書では癌テンプレートと呼ばれ得る。
【0111】
他の例では、妊娠した女性/雌から得られた循環セルフリー核酸断片(CCF断片)は、胎児細胞に起源を有する核酸断片(すなわち、胎児断片)および母性細胞に起源を有する核酸断片(すなわち、母性断片)を含む。胎児に起源を有するCCF断片に由来する配列リードは、本明細書では「胎児リード」と呼ばれる。胎児を有する妊娠した女性/雌(例えば、母親)のゲノムに起源を有するCCF断片に由来する配列リードは、本明細書では「母性リード」と呼ばれる。そこから胎児リードが得られるCCF断片は、本明細書では胎児テンプレートと呼ばれ、そこから母性リードが得られるCCF断片は、本明細書では母性テンプレートと呼ばれる。
【0112】
配列リードは、一般に、物理的核酸中のヌクレオチド配列の表現である。例えば、ATGCで表される配列を含有するリードでは、物理的核酸において、「A」はアデニンヌクレオチドを表し、「T」はチミンヌクレオチドを表し、「G」はグアニンヌクレオチドを表し、「C」はシトシンヌクレオチドを表す。対象からの試料から得られた配列リードは、少数核酸と多数核酸との混合物からのリードであり得る。例えば、癌患者/患畜の血液から得られる配列リードは、癌核酸と非癌核酸との混合物からのリードであり得る。別の例において、妊娠した女性/雌の血液から得られる配列リードは、胎児核酸と母性核酸との混合物からのリードであり得る。比較的短いリードの混合物は、本明細書中に記載されるプロセスによって、対象中に存在するゲノム核酸の表現および/または腫瘍もしくは胎児中に存在するゲノム核酸の表現に変換され得る。ある例において、比較的短いリードの混合物は、例えば、コピー数変化、コピー数多型、遺伝的変異/遺伝的変化、または異数性の表現に変換され得る。1つの例において、癌および非癌核酸の混合物のリードは、癌細胞および非癌細胞染色体の一方または両方の特徴を含む複合染色体またはその一部の表現に変換され得る。別の例において、母性および胎児核酸の混合物のリードは、母性および胎児染色体の一方または両方の特徴を含む複合染色体またはその一部の表現に変換され得る。
【0113】
配列リードの長さは、しばしば、特定の配列決定技術に関連する。例えば、ハイスループット法は、数十~数百の塩基対(bp)のサイズで変動し得る配列リードを提供する。例えば、ナノポアシークエンシングは、数十~数百~数千の塩基対のサイズで変動し得る配列リードを提供することができる。様々な態様において、配列リードは、約150bp長の平均、中央値、アベレージまたは絶対長のものである。いくつかの態様において、配列リードは、約15bp~約900bp長の平均、中央値、アベレージまたは絶対長のものである。ある態様において、配列リードは、約1000bpまたはそれを超える平均、中央値、アベレージまたは絶対長のものである。いくつかの態様において、配列リードは、約1500、2000、2500、3000、3500、4000、4500または5000bpまたはそれを超える平均、中央値、アベレージまたは絶対長のものである。いくつかの態様において、配列リードは、約100bp~約200bpの平均、中央値、アベレージまたは絶対長のものである。
【0114】
核酸を配列決定する任意の適切な方法を使用することができ、その非限定的な例には、Maxim&Gilbert、鎖伸長停止法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡に基づく技術などまたはこれらの組み合わせが含まれる。いくつかの態様において、例えば、マイクロ流体サンガー配列決定を含む自動サンガー配列決定法を含むサンガー配列決定法などの第1世代技術を、本明細書で提供される方法において使用することができる。いくつかの態様において、核酸イメージング技術(例えば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含む配列決定技術を使用することができる。いくつかの態様において、ハイスループット配列決定法が使用される。ハイスループット配列決定法は、一般に、時としてフローセル内で、超並列様式で配列決定されるクローン増幅されたDNA鋳型または単一DNA分子を含む。超並列処理方式でDNAを配列決定することができる次世代(例えば、第2世代および第3世代)配列決定技術を本明細書に記載されている方法に対して使用することができ、本明細書では集合的に「超並列配列決定」(MPS)と呼ばれる。いくつかの態様において、MPS配列決定方法は、特定の染色体、遺伝子または関心対象の領域が配列決定される標的化アプローチを利用する。ある態様において、試料中のほとんどまたは全ての核酸がランダムに配列決定、増幅および/または捕捉される非標的化アプローチが使用される。
【0115】
MPS配列決定は、時として、合成およびある種のイメージングプロセスによる配列決定を利用する。本明細書中に記載される方法において使用され得る核酸配列決定技術は、合成による配列決定および可逆的ターミネータに基づく配列決定(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ 2500(Illumina、San Diego CA))である。この技術により、数百万の核酸(例えば、DNA)断片を並行して配列決定することができる。この種類の配列決定技術の一例では、その表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合されている8つの個々のレーンを有する光学的に透明なスライドを含有するフローセルが使用される。
【0116】
合成による配列決定は、一般に、鋳型指定様式でヌクレオチドをプライマーまたは既存の核酸鎖に反復して付加することによって(例えば、共有結合的付加によって)行われる。ヌクレオチドのそれぞれの反復的付加が検出され、核酸鎖の配列が得られるまでプロセスが複数回繰り返される。得られる配列の長さは、実行される付加および検出工程の数に部分的に依存する。合成による配列決定のいくつかの態様においては、同じ種類の1、2、3またはそれを超えるヌクレオチド(例えば、A、G、CまたはT)がヌクレオチド付加の1ラウンドにおいて付加され、検出される。ヌクレオチドは、任意の適切な方法(例えば、酵素的または化学的に)によって付加され得る。例えば、いくつかの態様において、ポリメラーゼまたはリガーゼは、鋳型指定様式でヌクレオチドをプライマーにまたは既存の核酸鎖に付加する。合成による配列決定のいくつかの態様において、異なる種類のヌクレオチド、ヌクレオチド類似体および/または識別子が使用される。いくつかの態様において、可逆的ターミネータおよび/または除去可能な(例えば、切断可能な)識別子が使用される。いくつかの態様において、蛍光標識されたヌクレオチドおよび/またはヌクレオチド類似体が使用される。ある態様において、合成による配列決定は、切断(例えば、識別子の切断および除去)および/または洗浄工程を含む。いくつかの態様において、1またはそれを超えるヌクレオチドの付加は、本明細書に記載されているかまたは当技術分野で公知の適切な方法によって検出され、その非限定的な例には、任意の適切なイメージング装置、適切なカメラ、デジタルカメラ、CCD(電荷結合素子)ベースのイメージング装置(例えば、CCDカメラ)、CMOS(相補型金属酸化膜シリコン)ベースのイメージング装置(例えば、CMOSカメラ)、フォトダイオード(例えば、光電子増倍管)、電子顕微鏡法、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサ(例えば、CHEMFETセンサ)などまたはこれらの組み合わせが含まれる。
【0117】
核酸配列リードを得るために、本明細書に記載されている方法を実施するための任意の適切なMPS方法、システムまたは技術プラットフォームを使用することができる。MPSプラットフォームの非限定的な例としては、Illumina/Solex/HiSeq(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/またはSMRT、Helicos True Single Molecule Sequencing、Ion TorrentおよびIon半導体ベースの配列決定(例えば、Life Technologiesによって開発されたもの)、WildFire、5500、5500xl Wおよび/または5500xl W Genetic Analyzerベースの技術(例えば、Life Technologiesによって開発および販売されているもの、米国特許出願公開第2013/0012399号);Polony配列決定、パイロシークエンシング、超並列シグネチャ配列決定(MPSS)、RNAポリメラーゼ(RNAP)配列決定、LaserGenシステムおよび方法、ナノポアベースのプラットフォーム、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡法ベースの配列決定(例えば、ZS Genetics、Halcyon Molecularによって開発されたもの)、ナノボール配列決定など、またはこれらの組み合わせが挙げられる。本明細書の方法を実施するために使用され得る他の配列決定方法としては、デジタルPCR、ハイブリダイゼーションによる配列決定、ナノポア配列決定、染色体特異的配列決定(例えば、DANSR(選択された領域のデジタル解析(digital analysis of selected regions))技術を使用する)が挙げられる。
【0118】
様々な態様において、MPSプロセスは、ライブラリからの核酸をその上に付着させることができ、試薬を流し、付着された核酸と接触させることができるフローセルを備える固相を利用する。フローセルはフローセルレーンを含み、識別子の使用は各レーン中の試料の数を分析することを容易にすることができる。フローセルは、しばしば、結合した分析物上に試薬溶液を保持しおよび/または整然と通過させるように構成することができる固体支持体である。フローセルは、しばしば、平面形状であり、光学的に透明であり、一般にミリメートルまたはサブミリメートルスケールであり、しばしば、その中で分析物/試薬相互作用が生じるチャネルまたはレーンを有する。いくつかの態様において、所与のフローセルレーン中で分析される試料の数は、ライブラリ調製および/またはプローブ設計中に利用される一意的な識別子の数に依存する。例えば、12個の識別子を使用した多重化は、8レーンフローセル中での96個の試料(例えば、96ウェルマイクロウェルプレート中のウェルの数に等しい)の同時分析を可能にする。同様に、例えば、48個の識別子を使用した多重化は、8レーンフローセル中での384個の試料(例えば、384ウェルマイクロウェルプレート中のウェルの数に等しい)の同時分析を可能にする。市販の多重配列決定キットの非限定的な例としては、Illuminaの多重化試料調製オリゴヌクレオチドキットおよび多重化配列決定プライマーおよびPhiXコントロールキット(例えば、それぞれIlluminaのカタログ番号PE-400-1001およびPE-400-1002)が挙げられる。いくつかの態様において、試料は異なる対象からのものであり、同じフローセルにおけるバッチランとして同時に配列決定される。しかしながら、異なる対象からの試料は、異なるフローセルにおける複数ラン内で配列決定され得、単一バッチまたは複数バッチで組み合わされ、分析され得ることを理解されたい。しかしながら、これは、性能の低下を引き起こす可能性があるいくらかの変動性(例えば、バッチ間変動によるアーチファクト)をプロセスに導入し得る。
【0119】
ブロック410において、配列リードは参照ゲノムのゲノム部分にマッピングされる。配列リード(すなわち、その物理的なゲノム位置が未知である断片からの配列情報)のマッピングは、いくつかの方法で行うことができ、得られた配列リードと参照ゲノム中の一致する配列とのアラインメントを含むことが多い。このようなアラインメントにおいては、配列リードは一般に参照配列にアラインされ、アラインする配列リードは「マッピングされた」、「マッピングされた配列リード」または「マッピングされたリード」と呼ばれる。ある態様において、マッピングされた配列リードは、「ヒット」または「カウント」と称される。いくつかの態様において、マッピングされた配列リードは、様々なパラメータに従って一緒にグループ化され、特定のゲノム部分に割り当てられる。
【0120】
「アラインされた」、「アラインメント」または「アラインする」という用語は、一般に、マッチ(例えば、100%の同一性)または部分的なマッチとして同定され得る2またはそれを超える核酸配列を指す。アラインメントは、コンピュータ(例えば、ソフトウェア、プログラム、モジュールまたはプロセス)によって行われ、その非限定的な例には、Illumina Genomics Analysisパイプラインの一部として配布されているEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが含まれる。配列リードのアラインメントは、100%の配列マッチであり得る。いくつかの事例において、アラインメントは、100%未満の配列マッチ(すなわち、不完全なマッチ、部分的なマッチ、部分的なアラインメント)である。いくつかの態様において、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%のマッチである。いくつかの態様において、アライメントはミスマッチを含む。いくつかの態様において、アライメントは、1、2、3、4または5つのミスマッチを含む。2またはそれを超える配列は、いずれかの鎖(例えば、センス鎖またはアンチセンス鎖)を使用してアラインさせることができる。ある態様において、核酸配列は、別の核酸配列の逆相補配列とアラインされる。
【0121】
各配列リードを参照ゲノムのゲノム部分にアラインし、マッピングするために、様々なコンピュータの方法を使用することができる。配列をアラインするために使用することができるコンピュータプロセスの非限定的な例としては、BLAST、BLITZ、FASTA、BOWTIE 1、BOWTIE 2、ELAND、MAQ、PROBEMATCH、SOAP、BWAもしくはSEQMAP、またはこれらの変形もしくはこれらの組み合わせが挙げられるが、これらに限定されない。いくつかの態様において、配列リードは、参照ゲノム中の配列とアラインされる。いくつかの態様において、配列リードは、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)を含む当技術分野で公知の核酸データベース中に見出され、および/または核酸データベース中の配列とアラインされる。同定された配列を配列データベースに対して検索するために、BLASTまたは類似のツールを使用することができる。次いで、例えば、同定された配列を適切な部分(以下に記載)にソートするために、検索ヒットを使用することができる。
【0122】
いくつかの態様において、リードは、参照ゲノム内の一部分に一意的にまたは非一意的にマッピングし得る。リードは、それが参照ゲノム内の単一の配列とアラインする場合、「一意的にマッピングされた」とみなされる。リードは、それが参照ゲノム内の2またはそれを超える配列とアラインする場合、「非一意的にマッピングされた」とみなされる。いくつかの態様において、非一意的にマッピングされたリードは、さらなる分析(例えば、定量化)から除去される。ある種の小さな程度のミスマッチ(0~1)は、ある態様においては、参照ゲノムと、マッピングされている個々の試料からのリードとの間に存在し得る一塩基多型を考慮に入れることが許容され得る。いくつかの態様において、参照配列にマッピングされたリードに対して、いかなる程度のミスマッチも許容されない。
【0123】
本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるかまたは完全であるかを問わず、対象からの同定された配列を参照するために使用され得る、任意の生物またはウイルスの任意の特定の既知の配列決定されたまたは特徴付けられたゲノムを指すことができる。例えば、ヒト対象および多くの他の生物に対して使用される参照ゲノムは、National Center for Biotechnology InformationのWorld Wide Web URL ncbi.nlm.nih.govで見出すことができる。「ゲノム」は、核酸配列で表される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体からの集められたまたは部分的に集められたゲノム配列である。いくつかの態様において、参照ゲノムは、1またはそれを超えるヒト個体からの集められたまたは部分的に集められたゲノム配列である。いくつかの態様において、参照ゲノムは、染色体に割り当てられた配列を含む。
【0124】
ブロック415において、マッピングされた配列リードは、様々な特徴に従って一緒にグループ化され、特定の部分(例えば、参照ゲノムの一部分)に割り当てられ得る。「部分」は、本明細書では「ゲノムの区域」、「ビン」、「区画」、「参照ゲノムの一部分」、「染色体の一部分」または「ゲノム部分」とも呼ばれ得る。一部分は、多くの場合、1またはそれを超える特徴によるゲノムの分割によって定義される。ある種の分割する特徴の非限定的な例は、長さ(例えば、固定された長さ、固定されていない長さ)および他の構造的特徴を含む。ゲノム部分は、以下の特徴の1またはそれより多くを含むことがある:固定された長さ、固定されていない長さ、ランダムな長さ、ランダムでない長さ、等しい長さ、等しくない長さ(例えば、ゲノム部分の少なくとも2つが、等しくない長さのものである)、重複しない(例えば、ゲノム部分の3’末端は、隣接するゲノム部分の5’末端に隣接することがある)、重複する(例えば、ゲノム部分の少なくとも2つが重複する)、近接、連続、非近接および非連続。ゲノム部分は、約1~約1,000キロベースの長さ(例えば、約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900キロベースの長さ)、約5~約500キロベースの長さ、約10~約100キロベースの長さ、または約40~約60キロベースの長さであることがある。
【0125】
分割は、例えば、情報内容および情報利得などのある種の情報的特徴に基づくか、または部分的に基づくことがある。ある種の情報的特徴の非限定的な例としては、アラインメントの速度および/もしくは利便性、配列決定カバレッジの変動性、GC含量(例えば、層別化されたGC含量、特定のGC含量、高いまたは低いGC含量)、GC含量の均一性、配列含量のその他の尺度(例えば、個々のヌクレオチドの割合、ピリミジンまたはプリンの割合、天然核酸対非天然核酸の割合、メチル化ヌクレオチドの割合およびCpG含量)、メチル化状態、二重鎖融解温度、配列決定もしくはPCRに対する容易性、参照ゲノムの個々の部分に割り当てられた不確実性値、および/または特定の特徴に対する標的化された検索が挙げられる。いくつかの態様において、情報内容は、確認された正常な対象と異常な対象(例えば、それぞれ正倍数性対象およびトリソミー対象)の群を区別するために、特定のゲノム位置の有意性を測定するp値プロファイルを使用して定量化され得る。
【0126】
いくつかの態様において、ゲノムを分割することにより、ゲノムにわたって類似の領域(例えば、同一または相同な領域または配列)を排除し、一意的な領域のみを維持し得る。分割中に除去される領域は、単一の染色体内であり得、1もしくはそれを超える染色体であり得、または複数の染色体にわたり得る。いくつかの態様において、分割されたゲノムは、多くの場合、一意的に特定可能な配列に焦点を当てて、より速いアラインメントのために低減され、最適化される。
【0127】
いくつかの態様において、ゲノム部分は、重複していない固定サイズに基づく分割から生じ、これは固定長の連続した重複していない部分をもたらす。このような部分は、しばしば染色体より短く、しばしばコピー数多型領域(例えば、重複されたまたは欠失された領域)より短く、後者はセグメントと呼ぶことができる。「セグメント」または「ゲノムのセグメント」は、しばしば、2またはそれを超える固定長のゲノム部分を含み、しばしば、2またはそれを超える連続した固定長の部分(例えば、約2~約100のこのような部分(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90のこのような部分))を含む。
【0128】
複数の部分が群で分析されることがあり、部分にマッピングされたリードがゲノム部分の特定の群に従って定量されることがある。部分が構造的特徴によって分割され、ゲノム内の領域に対応する場合、部分は、1もしくはそれを超えるセグメントおよび/または1もしくはそれを超える領域にグループ化されることがある。領域の非限定的な例としては、亜染色体(すなわち、染色体よりも短い)、染色体、常染色体、性染色体およびこれらの組み合わせが挙げられる。1またはそれを超える亜染色体領域は、遺伝子、遺伝子断片、制御配列、イントロン、エクソン、セグメント(例えば、コピー数変化領域にまたがるセグメント)、微小重複、微小欠失などであることがある。領域は、関心対象の染色体より小さいかまたは関心対象の染色体と同じサイズであることがあり、参照染色体より小さいかまたは参照染色体と同じサイズであることがある。
【0129】
ブロック420において、ゲノム部分にマッピングされた配列リードがカウントされる。カウントすることにより、参照ゲノムのゲノム部分にマッピングされた配列リードの定量がもたらされる。例えば、1またはそれを超える部分(例えば、参照ゲノムの一部分)にマッピングされたリードの量または数を決定するために、選択された特徴または変数に基づいてマッピングまたは分割された配列リードを定量することができる。ある態様において、一部分またはセグメントにマッピングされる配列リードの数は、カウントまたはリード密度と称される。カウントは、しばしば、ゲノム部分に関連付けられる。いくつかの態様において、カウントは、一部分にマッピングされた(すなわち、関連付けられた)配列リードのいくつかまたは全てから決定される。ある態様において、カウントは、一部分(例えば、(本明細書に記載されている)セグメントまたは領域内の一部分)の群にマッピングされた配列リードのいくつかまたは全てから決定される。
【0130】
カウントは、適切な方法、操作またはアルゴリズムによって決定することができる。カウントは、セグメントに対応するゲノム部分もしくはゲノム部分の群、ゲノムの亜領域に対応する部分の群(例えば、コピー数多型領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域)にマッピングされた全ての配列リードの直接の和であることがあり、および/またはゲノムに対応する部分の群であることがある。リード定量は、比であることがあり、領域A中の一部分についての定量の、領域B中の一部分についての定量に対する比であることがある。領域Aは、1つの部分、セグメント領域、コピー数多型領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域および/または性染色体領域であることがある。領域Bは、独立して、1つの部分、セグメント領域、コピー数多型領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域、全ての常染色体を含む領域、性染色体を含む領域および/または全ての染色体を含む領域であることがある。
【0131】
いくつかの態様において、カウントは、生の配列リードおよび/またはフィルタリングされた配列リードに由来する。ある態様において、カウントは、ゲノム部分またはゲノム部分の群(例えば、領域内のゲノム部分)にマッピングされた配列リードのアベレージ、平均または和である。いくつかの態様において、カウントは、不確実性値と関連付けられる。カウントは、調整することがある。カウントは、重み付けされた、除去された、フィルタリングされた、正規化された、調整された、平均化された、平均として導出された、中央値として導出された、加算された、またはこれらの組み合わせであるゲノム部分または一部分の群に関連する配列リードに従って調整され得る。
【0132】
配列リードの定量化は、リード密度であることがある。リード密度は、ゲノムの1またはそれを超えるセグメントについて決定および/または生成され得る。ある例において、リード密度は、1またはそれを超える染色体について決定および/または生成され得る。いくつかの態様において、リード密度は、参照ゲノムのセグメントまたは一部分にマッピングされた配列リードのカウントの定量的尺度を含む。リード密度は、適切なプロセスによって決定することができる。いくつかの態様において、リード密度は、適切な分布および/または適切な分布関数によって決定される。分布関数の非限定的な例としては、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、離散確率分布、絶対連続単変量分布など、任意の適切な分布、またはこれらの組み合わせが挙げられる。リード密度は、適切な確率密度関数から導出された密度推定であり得る。密度推定は、観測データに基づいて、基礎となる確率密度関数の推定を構築することである。いくつかの態様において、リード密度は、密度推定(例えば、確率密度推定、カーネル密度推定)を含む。リード密度は、それぞれの部分が配列リードのカウントを含むゲノムの1またはそれを超える部分のそれぞれについての密度推定を生成することを含むプロセスに従って生成され得る。リード密度は、一部分またはセグメントにマッピングされた正規化されたカウントおよび/または重み付けされたカウントに対して生成され得る。いくつかの例において、一部分またはセグメントにマッピングされた各リードは、本明細書に記載されている正規化プロセスから得られたその重みに等しい値(例えば、カウント)であるリード密度に寄与し得る。いくつかの態様において、1またはそれを超える部分またはセグメントについてのリード密度は調整される。リード密度は、適切な方法によって調整することができる。例えば、1またはそれを超える部分についてのリード密度は、重み付けおよび/または正規化することができる。
【0133】
所与の部分またはセグメントについて定量化されたリードは、1つのソースまたは異なるソースからのものであり得る。1つの例において、リードは、癌を有する対象または癌を有する疑いのある対象からの核酸から取得され得る。このような状況において、1またはそれを超える部分にマッピングされたリードは、しばしば、健康な細胞(すなわち、非癌細胞)および癌細胞(例えば、腫瘍細胞)の両方を代表するリードである。ある態様において、一部分にマッピングされたリードのいくつかは、癌細胞核酸からのものであり、同じ部分にマッピングされたリードのいくつかは、非癌細胞核酸からのものである。別の例において、リードは、胎児を有する妊娠した女性/雌からの核酸試料から取得され得る。このような状況では、1またはそれを超える部分にマッピングされたリードは、しばしば、胎児および胎児の母(例えば、妊娠した女性/雌対象)の両方を代表するリードである。ある態様において、一部分にマッピングされたリードのいくつかは、胎児ゲノムからのものであり、同じ部分にマッピングされたリードのいくつかは、母性ゲノムからのものである。
【0134】
ブロック425において、参照ゲノムの1またはそれを超える部分は、フィルタリングにされるか、または選択され得る。本明細書で使用される「フィルタリング」という用語は、参照ゲノムの一部分または一部分を考慮から除外することを指す。ある態様において、1またはそれを超える部分がフィルタリングされ(例えば、フィルタリングプロセスに供され)、それによって、フィルタリングされた部分を提供する。いくつかの態様において、フィルタリングプロセスは、ある部分を除去し、一部分(例えば、一部分のサブセット)を保持する。
【0135】
参照ゲノムの一部分は、冗長なデータ(例えば、冗長なまたは重複するマッピングされたリード)、情報価値のないデータ(例えば、0のカウント中央値を有する参照ゲノムの一部分)、過剰に出現しているまたは過少に出現している配列を有する参照ゲノムの一部分、ノイズの多いデータなど、または先述のものの組み合わせを含むがこれらに限定されない任意の適切な基準に基づいて除去のために選択され得る。フィルタリングプロセスは、参照ゲノムの1またはそれを超える部分を考慮から除外すること、および参照ゲノム、1つの染色体もしくは複数の染色体または検討中のゲノムの一部分についてのカウントされたカウントまたは合計されたカウントから除去のために選択された参照ゲノムの1またはそれを超える部分中のカウントを差し引くことをしばしば含む。いくつかの態様において、参照ゲノムの一部分は、連続的に(例えば、それぞれの個々の部分を除去することの効果の評価を可能にするために1つずつ)除去され得、ある態様において、除去のために印が付けられた参照ゲノムの全ての一部分は、同時に除去され得る。いくつかの態様において、あるレベルを上回るまたは下回る分散を特徴とする参照ゲノムの一部分が除去され、これは、本明細書において、参照ゲノムの「ノイズの多い」部分をフィルタリングすることと称されることがある。ある態様において、フィルタリングプロセスは、一部分、染色体または染色体の一部の平均プロファイルレベルからプロファイル分散の所定の倍数だけ逸脱している、データセットからのデータ点を取得することを含み、ある態様において、フィルタリングプロセスは、一部分、染色体または染色体の一部の平均プロファイルレベルからプロファイル分散の所定の倍数だけ逸脱していない、データセットからのデータ点を除去することを含む。いくつかの態様において、フィルタリングプロセスは、遺伝的変異および/またはコピー数変化(例えば、異数性、微小欠失、微小重複)の存在または非存在について分析される参照ゲノムの候補部分の数を減らすために利用される。遺伝的変異および/またはコピー数変化の存在または非存在について分析される参照ゲノムの候補部分の数を減らすことは、しばしば、データセットの複雑さおよび/または次元を低下させ、遺伝的変異および/またはコピー数変化を検索および/または同定する速度を2桁またはそれを超えて増加させることがある。
【0136】
部分は、任意の適切な方法によって、および任意の適切なパラメータに従って処理され(例えば、フィルタリングおよび/または選択され)得る。部分をフィルタリングおよび/または選択するために使用することができる特徴および/またはパラメータの非限定的な例としては、冗長なデータ(例えば、冗長なまたは重複するマッピングされたリード)、情報価値のないデータ(例えば、0のマッピングされたカウントを有する参照ゲノムの一部分)、過剰に出現しているまたは過少に出現している配列を有する参照ゲノムの一部分、ノイズの多いデータ、カウント、カウント変動性、カバレッジ、マッピング可能性、変動性、再現性尺度、リード密度、リード密度の変動性、不確実性のレベル、グアニン-シトシン(GC)含量、CCF断片長および/またはリード長(例えば、断片長比(FLR)、胎児比統計量(FRS))、DNasel感受性、メチル化状態、アセチル化、ヒストン分布、クロマチン構造、パーセントリピートなどまたはこれらの組み合わせが挙げられる。部分は、本明細書に列挙または記載された特徴またはパラメータと相関する任意の適切な特徴またはパラメータに従ってフィルタリングおよび/または選択することができる。一部分は、(例えば、複数の試料に従って単一の一部分について決定された)一部分に特異的な特徴もしくはパラメータおよび/または(例えば、試料内の複数の一部分について決定された)試料に特異的な特徴もしくはパラメータに従ってフィルタリングおよび/または選択することができる。いくつかの態様において、一部分は、比較的低いマッピング可能性、比較的高い変動性、高いレベルの不確実性、比較的長いCCF断片長(例えば、低いFRS、低いFLR)、比較的大きな割合の反復配列、高いGC含量、低いGC含量、低いカウント、0のカウント、高いカウントなど、またはこれらの組み合わせに従ってフィルタリングおよび/または除去される。いくつかの態様において、一部分(例えば、一部分のサブセット)は、マッピング可能性の適切なレベル、変動性、不確実性のレベル、反復配列の割合、カウント、GC含量など、またはこれらの組み合わせに従って選択される。いくつかの態様において、一部分(例えば、一部分のサブセット)は、比較的短いCCF断片長(例えば、高いFRS、高いFLR)に従って選択される。一部分にマッピングされたカウントおよび/またはリードは、一部分(例えば、一部分のサブセット)をフィルタリングまたは選択する前および/または後に処理される(例えば、正規化される)ことがある。いくつかの態様において、一部分にマッピングされたカウントおよび/またはリードは、一部分(例えば、一部分のサブセット)をフィルタリングまたは選択する前および/または後に処理されない。
【0137】
いくつかの態様において、一部分は、誤差の尺度(例えば、標準偏差、標準誤差、計算された分散、p値、平均絶対誤差(MAE)、平均絶対偏差および/またはアベレージ絶対偏差(MAD))に従ってフィルタリングされ得る。ある例において、誤差の尺度は、カウント変動性を指し得る。いくつかの態様において、一部分は、カウント変動性に従ってフィルタリングされる。ある態様において、カウント変動性は、複数の試料(例えば、複数の対象から得られた複数の試料、例えば、50もしくはそれを超える、100もしくはそれを超える、500もしくはそれを超える、1000もしくはそれを超える、5000もしくはそれを超えるまたは10,000もしくはそれを超える対象)に対して、参照ゲノムの一部分(すなわち、部分)にマッピングされたカウントについて決定された誤差の尺度である。いくつかの態様において、所定の上限範囲を上回るカウント変動性を有する一部分がフィルタリングされる(例えば、考慮から除外される)。いくつかの態様において、所定の下限範囲を下回るカウント変動性を有する一部分がフィルタリングされる(例えば、考慮から除外される)。いくつかの態様において、所定の範囲の外側にカウント変動性を有する一部分がフィルタリングされる(例えば、考慮から除外される)。いくつかの態様において、所定の範囲内のカウント変動性を有する一部分が選択される(例えば、コピー数変化の存在または非存在を決定するために使用される)。いくつかの態様において、一部分のカウント変動性は、分布(例えば、正規分布)を表す。いくつかの態様において、一部分は、分布の分位点内で選択される。いくつかの態様において、カウント変動性の分布の99%分位点内の一部分が選択される。
【0138】
本明細書中に記載されている1またはそれを超える基準、パラメータおよび/または特徴を満たす一部分のサブセットを特定するために、任意の適切な数の試料からの配列リードを利用することができる。複数の対象からの試料の群からの配列リードが利用されることがある。いくつかの態様において、複数の対象には、妊娠した女性/雌が含まれる。いくつかの態様において、複数の対象には健康な対象が含まれる。いくつかの態様において、複数の対象には癌患者/患畜が含まれる。複数の対象のそれぞれからの1またはそれを超える試料に対処することができ(例えば、各対象からの1~約20個の試料(例えば、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18または19個の試料))、適切な数の対象に対処し得る(例えば、約2~約10,000の対象(例えば、約10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000の対象))。いくつかの態様において、同じ対象からの同じ試験試料からの配列リードが、参照ゲノム中の一部分にマッピングされ、一部分のサブセットを生成するために使用される。
【0139】
一部分は、任意の適切な方法によって選択および/またはフィルタリングされ得る。いくつかの態様において、一部分は、データ、グラフ、プロットおよび/またはチャートの目視検査に従って選択される。ある態様において、一部分は、1またはそれを超えるマイクロプロセッサおよびメモリを備えるシステムまたは機械によって選択および/またはフィルタリング(例えば、部分的に)される。いくつかの態様において、一部分は、実行可能なプログラムがその上に保存された非一時的なコンピュータ可読記憶媒体によって選択および/またはフィルタリングされ(例えば、部分的に)、プログラムは、選択および/またはフィルタリングを実行するようにマイクロプロセッサに命令する。
【0140】
いくつかの態様において、試料に由来する配列リードは、参照ゲノムの全てまたはほとんどの一部分にマッピングされ、その後、一部分の予め選択されたサブセットが選択される。例えば、特定の長さ閾値より下の断片からのリードが優先的にマッピングされる一部分のサブセットが選択され得る。一部分のサブセットを予め選択するためのある種の方法は、参照により本明細書に組み入れられる米国特許出願公開第2014/0180594号に記載されている。一部分の選択されたサブセットからのリードは、例えば、遺伝的変異の存在または非存在の決定のさらなる工程においてしばしば利用される。しばしば、選択されなかった一部分からのリードは、遺伝的変異の存在または非存在の決定のさらなる工程において利用されない(例えば、選択されていない一部分中のリードは、除去またはフィルタリングされる)。
【0141】
いくつかの態様において、リード密度に関連する一部分(例えば、リード密度が一部分に対するものである場合)は、フィルタリングプロセスによって除去され、除去された一部分に関連するリード密度は、コピー数変化(例えば、染色体異数性、微小重複、微小欠失)の存在または非存在の決定に含められない。いくつかの態様において、リード密度プロファイルは、フィルタリングされた一部分のリード密度を含み、および/またはフィルタリングされた一部分のリード密度からなる。一部分は、カウントの分布および/またはリード密度の分布に従ってフィルタリングされることがある。いくつかの態様において、一部分は、カウントおよび/またはリード密度の分布に従ってフィルタリングされ、カウントおよび/またはリード密度は、1またはそれを超える参照試料から得られる。1またはそれを超える参照試料は、本明細書ではトレーニングセットと呼ばれ得る。いくつかの態様において、一部分は、カウントおよび/またはリード密度の分布に従ってフィルタリングされ、カウントおよび/またはリード密度は、1またはそれを超える試験試料から得られる。いくつかの態様において、一部分は、リード密度分布についての不確実性の尺度に従ってフィルタリングされる。ある態様において、リード密度において大きな偏差を示す一部分は、フィルタリングプロセスによって除去される。例えば、リード密度の分布(例えば、アベレージ平均リード密度またはリード密度中央値の分布)を決定することができ、分布における各リード密度は同じ部分にマッピングされる。不確実性の尺度(例えば、MAD)は、ゲノムの各一部分が不確実性の尺度と関連している複数の試料についてのリード密度の分布を比較することによって決定することができる。前述の例によれば、それぞれの一部分に関連する不確実性の尺度(例えば、標準偏差(SD)、MAD)および所定の閾値に従って、一部分をフィルタリングすることができる。ある例において、許容され得る範囲内のMAD値を含む一部分は保持され、許容され得る範囲外のMAD値を含む一部分は、フィルタリングプロセスによって考慮から除外される。いくつかの態様において、前述の例によれば、不確実性の所定の尺度の外側のリード密度値(例えば、中央値、アベレージまたは平均リード密度)を含む一部分は、フィルタリングプロセスによって考慮からしばしば除外される。いくつかの態様において、分布の四分位間範囲の外側のリード密度値(例えば、中央値、アベレージまたは平均リード密度)を含む一部分は、フィルタリングプロセスによって考慮から除外される。いくつかの態様において、分布の四分位間範囲の2倍、3倍、4倍または5倍を超える外側のリード密度値を含む一部分は、フィルタリングプロセスによって考慮から除外される。いくつかの態様において、2シグマ、3シグマ、4シグマ、5シグマ、6シグマ、7シグマまたは8シグマ(例えば、シグマは、標準偏差によって定義される範囲である)を超える外側のリード密度値を含む一部分は、フィルタリングプロセスによって考慮から除外される。
【0142】
ブロック430において、マッピングされたリードおよびそのカウントは、
図5~
図7に関して詳細に記載されるように、正規化およびCNV分析などの下流のデータ処理のために出力される。カウントされたマッピングされた配列リードは、本明細書では配列決定データと呼ばれる。いくつかの例において、配列決定データは、操作されていないカウント(例えば、生のカウント)を表す。他の例において、配列決定データは、セグメント内の各参照塩基についてのカバレッジ、参照ゲノムの各セグメントについてのカバレッジ中央値および/または試料中の全てのセグメントについての試料カバレッジ中央値(「包括的カバレッジ中央値」)などの操作されたカウントを表す。セグメント内の各参照塩基についての塩基カバレッジは、セグメント内の各参照塩基にマッピングされた配列リードのカウントに基づいて決定される。各セグメントについてのカバレッジ中央値は、リスト中の塩基カバレッジを最小から最大に(または最大から最小に)ソートし、ソートされたリストの中間にセグメントカバレッジ中央値を見つけることに基づいて決定される。各試料についての試料カバレッジ中央値は、
図1および
図2に関して説明したように、リスト内の各セグメントについてのカバレッジ中央値を最小から最大(または最大から最小)にソートし、ソートされたリストの中間に試料カバレッジ中央値を見つけることに基づいて決定される。試料カバレッジ中央値を計算するために、第2の正規化の工程において男性/雄の試料および女性/雌の試料を一緒に分析することができるように、性染色体上のセグメントを除外することができる。あるいは、第2の正規化において男性/雄の試料と女性/雌の試料との間の一貫性を確保するために、試料カバレッジ中央値計算のために使用される前に、男性/雄についてのX染色体上のセグメントカバレッジ中央値を2倍することができる。本明細書に記載されているように、多くの事例において類似の性能を有する類似の結果を得るために、セグメントについてのカバレッジ中央値および/または包括的カバレッジ中央値の代わりに、数値データセットにおけるその他の代表値または平均カバレッジおよび最頻値カバレッジなどのその他の統計的カバレッジも使用することができることが理解されるべきである。
【0143】
いくつかの態様において、データセット中の配列リードデータは、CNV分析などのアウトカムの提供を容易にするために、さらに処理され(例えば、数学的アプローチ、統計的アプローチ、人工知能アプローチまたはこれらの任意の組み合わせを使用して処理され)、および/または表示され得る。ある態様において、より大きなデータセットを含むデータセットは、さらなる分析を容易にするために前処理が有益であり得る。データセットの前処理は、冗長なおよび/もしくは情報価値のない一部分または参照ゲノムの一部分(例えば、情報価値のないデータを有する参照ゲノムの一部分、冗長なマッピングされたリード、0のカウント中央値を有する一部分、過剰に出現しているまたは過少に出現している配列)の除去、または情報価値のないもしくはノイズの多いセグメントの除去/排除を含むことがある。理論によって制約されることなく、データ処理および/または前処理は、(i)ノイズの多いデータを除去し、(ii)情報価値のないデータを除去し、(iii)冗長なデータを除去し、(iv)より大きなデータセットの複雑さを低減し、および/または(v)1つの形式から1もしくはそれを超える他の形式へのデータの変換を容易にし得る。「前処理」および「処理」という用語は、データまたはデータセットに関して利用される場合、本明細書ではまとめて「処理」と呼ばれる。処理は、データをさらなる分析により適したものにすることができ、いくつかの態様においてアウトカムを生成することができる。いくつかの態様において、1もしくはそれを超えるまたは全ての処理方法(例えば、正規化方法、一部分のフィルタリング、マッピング、検証など、またはこれらの組み合わせ)は、メモリとともに、プロセッサ、マイクロプロセッサ、コンピュータによって、および/またはマイクロプロセッサによって制御される装置によって実行される。
【0144】
本明細書で使用される「ノイズの多いデータ」という用語は、(a)分析またはプロットされたときにデータ点間に著しい分散を有するデータ、(b)著しい標準偏差(例えば、3標準偏差を超える)を有するデータ、(c)著しい平均値の標準誤差を有するデータなど、および先述のものの組み合わせを指す。ノイズの多いデータは、出発材料(例えば、核酸試料)の量および/または品質に起因して生じることがあり、配列リードを生成するために使用されるDNAを調製または複製するためのプロセスの一部として生じることがある。ある態様において、ノイズは、PCRベースの方法を使用して調製された場合に、過剰に出現しているある種の配列から生じる。本明細書に記載されている方法は、ノイズの多いデータの寄与を削減または排除することができ、したがって、提供されるアウトカムに対するノイズの多いデータの影響を低下させることができる。
【0145】
本明細書で使用される「情報価値のないデータ」、「参照ゲノムの情報価値のない一部分」および「情報価値のない一部分」という用語は、所定の閾値の値と著しく異なるか、または値の所定のカットオフ範囲の外側にある数値を有する一部分またはそれに由来するデータを指す。本明細書における「閾値」および「閾値の値」という用語は、条件を満たすデータセットを使用して計算され、遺伝的変異(例えば、コピー数変化、異数性、微小重複、微小欠失、染色体異常など)の診断の限度としての役割を果たす任意の数を指す。ある態様において、閾値は、本明細書中に記載されている方法によって得られる結果によって超えられ、対象は、コピー数変化と診断される。閾値の値または値の範囲は、いくつかの態様において、しばしば、(例えば、参照および/または対象からの)配列リードデータを数学的におよび/または統計的に操作することによって計算され、ある態様において、閾値の値または値の範囲を生成するために操作される配列リードデータは、(例えば、参照および/または対象からの)配列リードデータである。いくつかの態様において、不確実性値が決定される。不確実性値は、一般に、分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であり得る。いくつかの態様において、不確実性値は、標準偏差、標準誤差、計算された分散、p値または平均絶対偏差(MAD)である。いくつかの態様において、不確実性値は、本明細書に記載されている式に従って計算され得る。
【0146】
本明細書に記載されているデータセットを処理するために、任意の適切な手順を利用することができる。データセットを処理するために使用するのに適した手順の非限定的な例には、フィルタリング、正規化、重み付け、ピーク高さの監視、ピーク面積の監視、ピークエッジの監視、ピークレベル分析、ピーク幅分析、ピークエッジ位置分析、ピーク横方向許容誤差、面積比の決定、データの数学的処理、データの統計的処理、統計的処理の適用、固定変数を用いた分析、最適化された変数を用いた分析、追加の処理のためにパターンまたは傾向を特定するためのデータのプロットを行うことなど、および前述の組み合わせが含まれる。いくつかの態様において、データセットは、様々な特徴(例えば、GC含量、冗長なマッピングされたリード、セントロメア領域、テロメア領域などおよびそれらの組み合わせ)および/または変数(例えば、対象の性別、対象の年齢、対象の倍数性、癌細胞核酸のパーセント寄与、胎児の性別、母親の年齢、母親の倍数性、胎児の核酸のパーセント寄与などまたはこれらの組み合わせ)に基づいて処理される。ある態様において、本明細書に記載されているデータセットを処理することは、大きなおよび/または複雑なデータセットの複雑さおよび/または次元を低減することができる。複雑なデータセットの非限定的な例は、1またはそれを超える試験対象および異なる年齢および民族的背景の複数の参照対象から生成された配列リードデータを含む。いくつかの態様において、データセットは、各試験対象および/または参照対象についての数千~数百万の配列リードを含むことができる。
【0147】
ある態様において、データ処理は、任意の数の工程で実行され得る。例えば、データは、いくつかの態様において、単一の処理手順のみを使用して処理され得、ある態様において、データは、1もしくはそれを超える、5もしくはそれを超える、10もしくはそれを超えるまたは20もしくはそれを超える処理工程を使用して処理され得る。いくつかの態様において、1またはそれを超える処理工程は、1またはそれを超える正規化工程を含むことができる。正規化は、遺伝子発現データおよびマイクロアレイデータの分析において従来行われているように、本明細書に記載されているかまたは当技術分野で公知の適切な方法によって行うことができる。ある態様において、正規化は、異なるスケールで測定された値を概念上共通のスケールに調整することを含む。ある態様において、正規化は、調整された値の確率分布を整列させるための高度な数学的調整を含む。いくつかの態様において、正規化は、分布を正規分布に整列させることを含む。ある態様において、正規化は、ある種の大規模な影響(例えば、誤差および異常)の作用を排除するように、異なるデータセットについての対応する正規化された値の比較を可能にする数学的調整を含む。ある態様において、正規化は、スケール調整を含む。正規化は、所定の変数または式による1またはそれを超えるデータセットの除算を含むことがある。正規化は、所定の変数または式による1またはそれを超えるデータセットの減算を含むことがある。正規化方法の非限定的な例としては、一部分ずつの正規化、GC含量による正規化、カウント中央値(ビンカウント中央値、一部分カウント中央値)正規化、線形および非線形最小二乗回帰、LOESS、LOESSM、GC LOESS、LOWESS(locally weighted scatterplot smoothing(局所的な重み付けをした散布図平滑化))、主成分正規化、リピートマスキング(RM)、GC正規化およびリピートマスキング(GCRM)、cQnならびに/またはこれらの組み合わせが挙げられる。いくつかの態様において、コピー数変化(例えば、異数性、微小重複、微小欠失)の存在または非存在の決定は、正規化方法(例えば、一部分ずつの正規化、GC含量による正規化、カウント中央値(ビンカウント中央値、一部分カウント中央値)正規化、線形および非線形最小二乗回帰、LOESS、LOESSM、GC LOESS、LOWESS(locally weighted scatterplot smoothing(局所的な重み付けをした散布図平滑化))、主成分正規化、リピートマスキング(RM)、GC正規化およびリピートマスキング(GCRM)、cQn、当技術分野で公知の正規化方法ならびに/またはこれらの組み合わせ)を使用する。利用することができる具体的な2段階正規化プロセスは、以下により詳細に説明されている。
【0148】
III.D.第1の正規化-「試料内正規化」
試料のそれぞれの中の各セグメントについてのカバレッジ中央値を含む配列決定データを得た後、第1の正規化が行われる。第1の正規化は、試料中のセグメントまたは要素についてのカバレッジの相対レベルを表す、試料中の各セグメントまたは要素についての正規化された数を提供するために行われる。様々な態様において、各試料中の全てのセグメントが、第1の正規化工程において考慮される。いくつかの態様において、標的セットは予め決定され得、標的セット中のセグメント/要素のみが第1の正規化において考慮され得る。標的セット中の要素は、(i)遺伝子、(ii)染色体、(iii)染色体の一部分、(iv)エクソン、(v)イントロン、または(v)所定のゲノムの一部もしくは関心対象の領域である。いくつかの例において、標的セット中の全ての要素は同じ種類のものである。他の例において、標的セット中の要素は異なる種類のものである。
【0149】
図5は、様々な態様による、第1の正規化を実行し、正規化されたセグメント(または要素)カバレッジ中央値比を取得するためのプロセス500を示すフローチャートである。
図5に図示されている処理は、それぞれのシステム、ハードウェアまたはこれらの組み合わせの1またはそれを超える処理装置(例えば、プロセッサ、コア)によって実行されるソフトウェア(例えば、コード、命令、プログラム)において実施され得る。ソフトウェアは、非一時的な記憶媒体上に(例えば、記憶装置上に)保存され得る。
図5に提示され、以下に記載されている方法は、例示的かつ非限定的であることが意図されている。
図5は、特定の順番または順序で行われる様々な処理工程を図示しているが、これは限定的であることを意図していない。ある代替態様では、工程は、いくらか異なる順序で実行されてもよく、またはいくつかの工程が並行して実行されてもよい。
図3に図示されている態様などのある態様においては、
図5に図示されている処理は、コンピュータなどの計算装置によって実行され得る。
【0150】
プロセス500では、各試料は独立して処理される。ブロック505において、(i)各試料の各セグメントについてのカバレッジ中央値と、(ii)各試料および/または所定の標的セットについての包括的中央値とを含む情報が取得される。様々な態様において、取得された情報の一部または全部は、
図4のプロセス400などに開示された方法に従うことによって提供される配列決定データである。いくつかの態様において、取得された情報の一部または全部は、
図1のプロセス100の別個のブロックによって提供される。いくつかの態様において、取得された情報の一部または全部は、外部モジュールによって、またはユーザインタラクションデバイスを介して提供される。所定の標的セットは、CNV検出において分析されるべき関心対象の領域(ROI)の情報を提供する。所定の標的セット中の各要素は、(i)遺伝子、(ii)染色体、(iii)部分的染色体、(iv)エクソン、(v)イントロン、または(v)関心対象の所定のゲノム領域であり得る。様々な態様において、標的セット中の要素はセグメントではない。いくつかの態様において、標的セット中の少なくとも1つの要素はセグメントである。所定の標的セット中の1またはそれを超える要素がセグメントではない場合、ブロック510は、1またはそれを超える要素のそれぞれについての局所的カバレッジ中央値を決定することが必要とされる。
【0151】
ブロック510において、所定の標的セット中の各要素によってカバーされるセグメントのカバレッジが取得され、所定の標的セット中の要素のそれぞれについての局所的カバレッジ中央値を決定するためにソートされる。所定の標的セット中の1またはそれを超える要素はセグメントではないので、1またはそれを超える要素の各々は少なくとも2つのセグメントをカバーする。1またはそれを超える要素の各々でカバーされるセグメントについては、それらの対応するカバレッジはリストにソートされ、各要素についてのカバレッジの中から中央値を見出すためにリストの中間までカウントされる。中央値は、要素についての局所的カバレッジ中央値である。例えば、要素でカバーされる各セグメントについてのカバレッジがそれぞれ7、4および9であれば、ソートされたカバレッジは4、7および9であり、したがって、7が、中央値および要素についての局所的カバレッジ中央値である。いくつかの例において、要素がセグメントである場合、セグメントについてのカバレッジは要素についての局所的カバレッジ中央値である。様々な態様において、局所的カバレッジ中央値は、所定の標的セット中のそれぞれの要素に対して決定される。いくつかの態様において、局所的カバレッジ中央値は、所定の標的セット中のセグメントではない各要素に対して決定される。
【0152】
ブロック515において、各カバレッジまたは局所的カバレッジ中央値は、ブロック505で取得された包括的カバレッジ中央値によって正規化される(「包括的中央値に対するスケール調整」)。様々な態様において、各セグメントについての取得されたカバレッジまたは所定の標的セット中の各要素についての決定された局所的カバレッジ中央値を包括的カバレッジ中央値で割って、セグメントについての正規化されたセグメントカバレッジ中央値比または所定の標的セット中の要素についての正規化された要素カバレッジ中央値比を得る。いくつかの態様において、正規化されたセグメントカバレッジ中央値比または正規化された要素カバレッジ中央値比は、所定の精度に四捨五入され得る。正規化されたセグメントカバレッジ中央値比または正規化された要素カバレッジ中央値比は、除算と同様の数学的方法によって決定され得ることを理解されたい。
【0153】
ブロック520において、正規化されたセグメント(または要素)カバレッジ中央値比は、第2の正規化を処理するために提供される。提供される情報は、所定の標的セット情報をさらに含み得る。本明細書で提供されるように、正規化されたセグメント(または要素)カバレッジ中央値比は、カバレッジの中央値の値に基づき得る。ほとんどの例において、生のカバレッジカウントは正規分布していないので、カバレッジ中央値は平均カバレッジより優れている。しかしながら、いくつかの例においては、第1の正規化を実行する際に、または包括的カバレッジ中央値を取得する際に、平均カバレッジがカバレッジ中央値を置き換えることができることを理解されたい。いくつかの例において、第1の正規化を実行する際に、または包括的カバレッジ中央値を取得する際に、中央値と同様に機能する統計的尺度がカバレッジ中央値を置き換えることができることも理解されたい。
【0154】
III.E.第2の正規化-「試料全体にわたる正規化」
試料中の正規化されたセグメント(または要素)カバレッジ中央値比を決定した後に、第2の正規化が続く。第2の正規化は、試料中の各セグメント(または要素)についてのカバレッジの相対レベルを表す試料全体にわたる各セグメント(または要素)についてのコピー数を提供するために行われ、ここで、コピー数は、対応する要素の種類または位置によってめったに影響を受けないより標準化された数を有する。様々な態様において、全ての試料中のセグメントの各々または全ての試料中の要素の各々が、第2の正規化において考慮される。いくつかの態様において、標的セットは予め決定され得、標的セット中のセグメント/要素のみが第2の正規化において考慮され得る。標的セット中の要素は、(i)遺伝子、(ii)染色体、(iii)染色体の一部分、(iv)エクソン、(v)イントロン、または(v)所定のゲノムの一部もしくは関心対象の領域である。いくつかの例において、標的セット中の全ての要素は同じ種類のものである。他の例において、標的セット中の要素は異なる種類のものである。多くの例において、第2の正規化(normalized)における標的セットは、第1の正規化における標的セットと同じ標的セットである。第2の正規化における標的セットは、第1の正規化における標的セットとは異なり得ることを理解されたい。
【0155】
図6は、様々な態様による、第2の正規化を実行し、コピー数カバレッジを取得するためのプロセス600を示すフローチャートである。
図6に図示されている処理は、それぞれのシステム、ハードウェアまたはこれらの組み合わせの1またはそれを超える処理装置(例えば、プロセッサ、コア)によって実行されるソフトウェア(例えば、コード、命令、プログラム)において実施され得る。ソフトウェアは、非一時的な記憶媒体上に(例えば、記憶装置上に)保存され得る。
図6に提示され、以下に記載されている方法は、例示的かつ非限定的であることが意図されている。
図6は、特定の順番または順序で行われる様々な処理工程を図示しているが、これは限定的であることを意図していない。ある代替態様では、工程は、いくらか異なる順序で実行されてもよく、またはいくつかの工程が並行して実行されてもよい。
図3に図示されている態様などのある態様においては、
図6に図示されている処理は、コンピュータなどの計算装置によって実行され得る。
【0156】
プロセス600において、バッチ(例えば、フローセルバッチ)内の全ての試料が、第2の正規化を行うために一緒に処理される。いくつかの態様において、試料は異なる対象からのものであり、例えば同じフローセルにおけるバッチランとして同時に配列決定される。他の態様において、試料は、例えば異なるフローセルにおける複数のバッチラン内で配列決定される異なる対象からのものである。第2の正規化のために一緒に使用される同一のまたは異なるバッチからの試料の最小数は、少なくとも5つの試料、好ましくは少なくとも10の試料である。ブロック605において、バッチ中の全ての試料および/または所定の標的セット中の同じセグメント(または要素)についての正規化されたセグメント(または要素)カバレッジ中央値比を含む情報が取得される。様々な態様において、取得された情報の一部または全部は、
図5のプロセス500などに開示された方法に従うことによって提供される配列決定データである。いくつかの態様において、取得された情報の一部または全部は、
図1のプロセス100の別個のブロックによって提供される。いくつかの態様において、取得された情報の一部または全部は、外部モジュールによって、またはユーザインタラクションデバイスを介して提供される。所定の標的セットは、CNV検出において分析されるべき関心対象の領域(ROI)の情報を提供する。所定の標的セット中の各要素は、(i)遺伝子、(ii)染色体、(iii)部分的染色体、(iv)エクソン、(v)イントロン、または(vi)関心対象の所定のゲノム領域であり得る。様々な態様において、標的セット中の要素はセグメントではない。いくつかの態様において、標的セット中の少なくとも1つの要素はセグメントである。様々な態様において、第2の正規化(normalized)における標的セットは、第1の正規化プロセス500における標的セットと同じ標的セットである。いくつかの例において、標的セットは異なり得る。
【0157】
ブロック610において、同じバッチ中の全ての試料について、同じセグメント(または要素)についての平均カバレッジが決定される。いくつかの態様において、セグメント(または要素)についての平均カバレッジは、各試料中のセグメント(または要素)の正規化されたセグメント(または要素)カバレッジ中央値比の和を計算し、その和を試料の数で割ることによって決定される。様々な態様において、セグメント(または要素)の全ての正規化されたセグメント(または要素)カバレッジ中央値比は、数学的集合を形成すると考えられ、数学的集合に対する外れ値は、セグメント(または要素)についての平均カバレッジを計算する前に除外される。外れ値は、所定の規則によって決定される。様々な態様において、所定の規則は、(i)数学的集合から25パーセンタイル値を見つけることによってQ1を決定すること、(ii)数学的集合から25パーセンタイル値を見つけることによってQ3を決定すること、(iii)Q3からQ1を差し引くことによって集合について四分位範囲(「IQR」)を計算すること、および(iv)Q3+IQRの1.5倍より大きな値またはQ1-IQRの1.5倍より小さな値が存在するかどうかを決定することを含む。その第1の正規化されたカバレッジがQ3+IQRの1.5倍より大きいかまたはQ1-IQRの1.5倍より小さければ、外れ値が決定され、平均カバレッジの計算から除外される。いくつかの例において、1.5は任意の正の数(例えば、2または1.2)によって置き換えることができる。いくつかの例において、外れ値を決定するために、テューキーのフェンス(Tukey’s Fences)と類似の規則が使用され得る。いくつかの例においては、外れ値を決定するために数学的集合に基づいて正規分布などが構築され得る。多くの例において、第1の正規化および/または外れ値の除外の後、残りの第1の正規化されたカバレッジは概ね対称的に分布するため、平均カバレッジは第2の正規化を実行するのに適合的である。いくつかの例においては、平均と同様に機能する統計的尺度が、第2の正規化を実行する際に平均カバレッジを置き換えることができることも理解されたい。
【0158】
ブロック615において、それぞれの正規化されたセグメント(または要素)カバレッジ中央値比は、ブロック610において決定された平均カバレッジによって正規化される。様々な態様において、正規化されたセグメント(または要素)カバレッジ中央値比を平均カバレッジで割って、セグメント(または要素)についてのコピー数を得る。いくつかの態様において、コピー数は、所定の精度に四捨五入され得る。コピー数は、除算と同様の数学的方法によって決定され得ることを理解されたい。
【0159】
ブロック620において、CNV検出を処理するために、全てのセグメント/要素についてのコピー数が提供される。コピー数と並行して、同じバッチ中のまたは異なるバッチにわたる全ての試料中の同じセグメント(または要素)についての全てのコピー数を含むセグメント(または要素)に対する正常プロファイルが提供され、CNV検出において使用するために準備される。提供される情報は、所定の標的セット情報をさらに含み得る。
【0160】
III.F.コピー数多型の検出
試料のそれぞれの中の各セグメントまたは各要素についてのコピー数を決定した後、CNV検出が続く。いくつかの例において、検出は、標的試料中の各要素に関して行われる。いくつかの例において、検出は、標的試料中の各セグメントに関して行われる。いくつかの例において、検出は、標的試料中の所定の標的セット中の1またはそれを超える要素に関して行われる。いくつかの例において、検出は、標的試料中の所定の標的セット中の1またはそれを超えるセグメントに関して行われる。所定の標的セット(例えば、第1の標的セット、または第2の標的セット)は、(i)遺伝子、(ii)染色体、(iii)染色体の一部分、(iv)エクソン、(v)イントロン、または(vi)所定のゲノムの部分もしくは関心対象の領域を含み得る。所定の標的セットは、第1の正規化または第2の正規化における標的セットと同じセットであり得る。以下、この部(III.Fの部)において、簡略化および明確化のために、「要素」という用語は、セグメント、遺伝子、染色体、染色体の一部分、エクソン、イントロン、所定のゲノム部分またはROIを指し、「標的試料中の各要素」は、「標的試料中の所定の標的セット中の要素」を含む。
【0161】
CNVの非存在または存在は、人工知能技術を用いて検出される。ルールベースの方法、機械学習モデルまたはこれらの組み合わせを含む人工知能技術。CNV検出は、生のカバレッジおよびGC含量に加えて、第2の正規化の結果、具体的にはセグメント(または要素)あたりのコピー数、またはセグメント(または要素)についてのp値(または対応するzスコア、または統計的尺度)、またはコピー数とp値(または対応するzスコア、または統計的尺度)の両方に基づく。様々な態様において、標的試料についてのCNV検出は、標的試料中の各要素についてのコピー数のみを使用する。いくつかの態様において、標的試料についてのCNV検出工程は、標的試料中の各要素についての第2の正規化されたカバレッジおよび標的試料中の各要素についての統計的尺度の両方を使用する。いくつかの例において、統計的尺度は、正常プロファイルに基づいて計算されたzスコアまたはp値であり、正常プロファイルは、同じバッチ中のまたは異なるバッチにわたる試料のそれぞれの中の各要素についてのコピー数を含む。他の例では、統計的尺度は、正常プロファイルに基づいて計算された変動係数である。CNV検出において、p値、zスコアまたは変動係数と同様に機能する任意の統計的尺度を使用することができることを理解されたい。
【0162】
図7は、様々な態様による機械学習システム700を示すブロック図である。
図7に示されているように、機械学習システム700は、様々な段階、すなわち、モデルを構築して訓練するための予測モデル訓練段階710と、訓練されたモデルの性能を評価するための評価段階715と、コンピューティングシステム(例えば、コンピューティングシステム300)を使用して1またはそれを超えるモデルを実装するための実装段階720とを含む。予測モデル訓練段階710は、(本明細書では、個別に予測モデル725(a prediction model 725)と呼ばれてもよく、またはまとめて予測モデル725(prediction models 725)と呼ばれてもよい)他の段階によって使用されるべき1またはそれを超える予測モデル725a~725n(「n」は任意の自然数を表す)を構築し、訓練する。例えば、予測モデル725は、試料内のCNVの非存在または存在を予測するためのモデルを含むことができる。本開示による他の例では、さらに他の種類の予測モデルが実装され得る。
【0163】
予測モデル725は、畳み込みニューラルネットワーク(「CNN」)、例えば、インセプションニューラルネットワーク、残差ニューラルネットワーク(「Resnet」)、または再帰型ニューラルネットワーク、例えば、長・短期記憶(「LSTM」)モデルもしくはゲート付き再帰型ユニット(「GRU」)モデル、ディープニューラルネットワーク(「DNN」)の他の変形(例えば、マルチラベルn-バイナリDNN分類器またはマルチクラスDNN分類器)などの機械学習(「ML」)モデルとすることができる。予測モデル725はまた、一般化線形モデル(GLM)、サポートベクターマシン、ランダムフォレストモデルなどのバギングモデル、ブースティングモデル、浅層ニューラルネットワーク、またはこのような技術の1もしくはそれより多くの組み合わせ、例えばCNN-HMMもしくはMCNN(マルチスケール畳み込みニューラルネットワーク)などの、予測を提供するために訓練された任意の他の適切なMLモデルとすることもできる。機械学習システム700は、ユーザに予測を提供するために、同じ種類の予測モデルまたは異なる種類の予測モデルを使用し得る。ある例においては、予測モデル725は、ランダムフォレストモデルを使用してCNV分析を行う。本開示による他の例では、さらに他の種類の予測モデルが実装され得る。
【0164】
様々な予測モデル725を訓練するために、訓練段階710は、2つの主要な構成要素:データセット準備モジュール730およびモデル訓練フレームワーク740から構成される。データセット準備モジュール730は、データアセット745をロードし、システムが予測モデル725を訓練および試験することができるようにデータアセット745を訓練および検証セット745a~nに分割するプロセス、およびデータアセット745の前処理を実行する。データアセット745を訓練および検証セット745a~nに分割することは、ランダムに(例えば、90/10%または70/30%)実行され得、または分割は、サンプリングバイアスおよび過学習を最小限に抑えるために、K分割交差検証、1つ抜き交差検証、1群抜き交差検証、入れ子構造の交差検証などのより複雑な検証技術に従って実行され得る。
【0165】
訓練データ745aは、前の試料からのデータの少なくともサブセットを含み得る。データは、生のカバレッジ値、第1の正規化に関して記載されたカバレッジ中央値の値、第2の正規化に関して記載された平均カバレッジ値、試料中の各要素についてのコピー数および正常プロファイル、試料中の各要素についてのp値、zスコアおよび/もしくは変動係数、試料中の各要素についてのGC含量、またはこれらの任意の組み合わせを含む。データは、画像または文字列を含む様々な方法で取得することができる。例えば、履歴データが配列決定データの画像として提供される場合、データ準備730は、画像内の文字列を決定するために文字列認識(例えば、光学式文字認識)を実行する画像-文字列変換器(図示せず)を使用して画像を文字列に変換し得る。これに加えてまたはこれに代えて、データ準備モジュール730は、データのフォーマットを標準化し得る。いくつかの例において、データは、予測モデルを訓練する目的でセカンドパーティーまたはサードパーティーによって提供される。予測モデル825のための訓練データ745aは、履歴データおよびCNVの非存在または存在についての真陰性の真陽性に対応するラベル850を含み得る。例えば、各試料について、予測モデル725によって推測されるべき正しいCNVコールの指示は、ラベル750に対するグラウンドトゥルース情報として提供され得る。いくつかの例において、ラベル750は、訓練試料全体にわたるデータの一貫性を維持するために使用されるデータ構造から取得され得る。次いで、様々なエンティティに対する生成された推論とグラウンドトゥルース情報との間の差を最小化するために、予測モデル725の挙動を(例えば、誤差逆伝播法を介して)適合させることができる。
【0166】
モデル訓練フレームワーク740は、モデル725のためのハイパーパラメータを決定し、モデル725の損失関数または誤差関数などのコスト関数を最小化するモデルパラメータ(例えば、重みおよび/またはバイアス)のセットを見出すために、訓練データ745aからの例をモデル725に入力する反復操作を実行するプロセスを実行する。ハイパーパラメータは、モデル725の挙動を調節するために調整または最適化することができる設定である。ほとんどのモデルは、メモリまたは実行のコストなどのモデルの異なる特徴を調節するハイパーパラメータを明示的に定義する。しかしながら、モデル725を特定のシナリオに適合させるために、追加のハイパーパラメータが定義され得る。例えば、ハイパーパラメータは、モデルの隠れユニットの数、モデルの学習率、畳み込みカーネル幅、モデルに対するカーネルの数、ランダムフォレストにおけるツリーの最大深度、最小試料スプリット、葉ノードの最大数、葉ノードの最小数などを含み得る。コスト関数は、モデル745を使用して推論された出力と、ラベルを使用して試料にアノテーションが付されたグラウンドトゥルースとの間の差を測定するように構築することができる。例えば、教師あり学習をベースとするモデルの場合、訓練の目標は、h(x)がyの対応する値に対する優れた予測因子であるように、訓練入力空間Xを目標値空間Y、h:X→Yにマッピングする関数「h()」(仮説関数と呼ばれることもある)、h:X→Yを学習することである。この仮説関数を学習するために、様々な異なる技術が使用され得る。いくつかの技術では、仮説関数を導出する一環として、入力に対するグラウンドトゥルース値とその入力に対する予測値との間の差を測定するコスト関数または損失関数が定義され得る。訓練の一部として、誤差逆伝播法、ランダムフィードバック、直接フィードバックアライメント(DFA)、間接フィードバックアライメント(IFA)、ヘッブの学習などの技術が、このコストまたは損失関数を最小化するために使用される。
【0167】
モデルパラメータのセットが特定されると、モデル725が訓練され、モデル訓練フレームワーク740は、試験データのサブセット745b(試験または検証データセット)を使用して試験または検証のさらなるプロセスを実行する。試験または検証プロセスは、ハイパーパラメータを調整し、最終的にハイパーパラメータの最適なセットを見出すために、K分割交差検証、1つ抜き交差検証、1群抜き交差検証、入れ子構造の交差検証などの検証技術を使用して、試験データのサブセット745bからの言葉をモデル725に入力する反復操作を含む。ハイパーパラメータの最適なセットが得られたら、試験データ745aのサブセットからの予約された試験セットは、出力(この例では、1またはそれを超える認識されたエンティティ)を得るためにモデル725に入力され得、ブランド・アルトマン法およびスピアマンの順位相関係数などの相関技術を使用して、グラウンドトゥルースエンティティに対して出力を評価する。さらに、誤答、正解率、適合率、再現率、受信者動作特性曲線(ROC)などの性能測定基準755が、評価段階715において計算され得る。測定基準755は、推奨を提供するためにモデル725の性能を分析するために、評価段階715において使用され得る。
【0168】
モデル訓練段階710は、1またはそれを超える訓練された予測モデル760を含む訓練されたモデルを出力する。1またはそれを超える訓練された予測モデル755が、(
図8に関して詳細に記載されているように)予測765をユーザに提供するために実装段階720において配置され、使用され得る。例えば、予測モデル760は、生のカバレッジ値、第1の正規化に関して記載されたカバレッジ中央値の値、第2の正規化に関して記載された平均カバレッジ値、試料内の各要素についてのコピー数および正常プロファイル、p値、zスコアおよび/または試料中の各要素についての変動係数、試料中の各要素についてのGC%、またはこれらの任意の組み合わせを含む入力データ770を受け取り、推定されるCNVに基づいて予測765をユーザに提供し得る。
【0169】
図8は、様々な態様によるCNV検出を実行し、報告するためのプロセス800を示すフローチャートである。
図8に図示されている処理は、それぞれのシステム、ハードウェアまたはこれらの組み合わせの1またはそれを超える処理装置(例えば、プロセッサ、コア)によって実行されるソフトウェア(例えば、コード、命令、プログラム)において実施され得る。ソフトウェアは、非一時的な記憶媒体上に(例えば、記憶装置上に)保存され得る。
図8に提示され、以下に記載されている方法は、例示的かつ非限定的であることが意図されている。
図8は、特定の順番または順序で行われる様々な処理工程を図示しているが、これは限定的であることを意図していない。ある代替態様では、工程は、いくらか異なる順序で実行されてもよく、またはいくつかの工程が並行して実行されてもよい。
図3および
図7に図示されている態様などのある態様においては、
図8に図示されている処理は、人工知能ベースのアプローチを使用して、コンピュータなどの計算装置によって実行され得る。
【0170】
ブロック805において、標的試料中の各要素についてのコピー数およびそれぞれについての正常プロファイルを含む情報が取得される。様々な態様において、要素についての正常プロファイルは、標的試料がそこで合成される同じバッチ中のまたは異なるバッチにわたる全ての試料中の要素についての全てのコピー数を含む。いくつかの態様において、要素についての正常プロファイルは、標的試料がそこで合成される同じバッチ中のまたは異なるバッチにわたる全ての試料中の要素についての外れ値を除く、全てのコピー数を含む。様々な態様において、ブロック605での取得された情報の一部または全部は、
図6のプロセス600などに開示された方法に従うことによって提供される。いくつかの態様において、取得された情報の一部または全部は、
図1のプロセス100の別個のブロックによって提供される。いくつかの態様において、取得された情報の一部または全部は、外部モジュールによって、またはユーザインタラクションデバイスを介して提供される。
【0171】
ブロック810は、より正確な結果が求められる場合に、必要に応じて行われるブロックである。ブロック810において、標的試料中の要素についてのp値が、その要素についての正常プロファイルに基づいて決定される。ブロック705において得られた要素についての正常プロファイルは、標的試料がそこで合成される同じバッチ中の試料のそれぞれ中のその要素についてのコピー数を含む。標的試料中の要素についてのp値は、p値が決定される通常の方法で決定され得る。様々な態様において、標的試料についてのCNVの検出はまた、標的試料中の各要素についてのコピー数の統計的尺度に基づいてもよい。いくつかの例において、統計的尺度はp値である。いくつかの例において、統計的尺度はzスコアである。統計的尺度はp値またはzスコアに限定されないことを理解されたい。p値と同様の機能を有する任意の統計的尺度が、CNV検出工程において使用され得る。この部(III.Fの部)の前および後で、「p値」という用語は、この段落で定義される任意の統計的尺度を指す。
【0172】
ルールベースのアプローチによれば、ブロック815において、異常なコピー数検出のための所定の区間および/または異常なp値検出のための所定の上限閾値/下限閾値を含む情報が取得される。取得された情報は、以下の工程における比較のための閾値を提供する。
【0173】
ルールベースのアプローチによれば、ブロック820において、要素についてのコピー数は、ブロック715において取得された所定の区間と比較される。標的試料についてのCNVの検出は、標的試料中の各要素についてのコピー数に基づく。標的試料中の要素についてのコピー数は、そのコピー数が所定の間隔に入るかどうかを調べるために所定の区間と比較される。要素についてのコピー数は、そのコピー数が所定の区間に入っていなければ、異常なコピー数として処理される。例えば、所定の区間は、[0.7,1.3]であり得る。コピー数が1.3より大きいかまたは0.7より小さければ、コピー数は異常として処理され、標的試料中の対応する要素には印が付けられ、一時的にメモリ中に保存され得る。
【0174】
また、ルールベースのアプローチによれば、ブロック820において、要素についてのコピー数は、ブロック815において取得された所定の上限閾値/下限閾値とも比較され得る。標的試料中の要素についてのp値が所定の下限閾値より小さければ、p値は有意である(異常なコピー数)と考えられる。例えば、取得される所定の下限閾値は、0.0003であり得る。要素についてのp値が0.0001であれば、標的試料中の要素は異常なコピー数を有すると決定され、そのp値には印が付けられ、一時的にメモリ中に保存され得る。
【0175】
また、ルールベースのアプローチによれば、ブロック825において、CNV検出の決定が行われ、820で得られた比較結果に基づいて報告される。様々な態様において、両方の基準が満たされれば、CNVの存在の検出が報告される:標的試料中の要素についての異常なコピー数が見出されるかまたは印が付され、標的試料中のその要素についての異常なp値も見出されるかまたは印が付される。標的試料中の要素についての検出報告が生成され、報告は、標的試料のID、要素の識別子(例えば、名前または場所)、要素についてのコピー数および/または要素についてのp値を含み得る。いくつかの例において、標的試料に関する他の情報、例えば、標的試料の性別、要素がエクソンである場合の要素の遺伝子識別子、CNV検出の種類(例えば、cnvdupまたはcnvdel)なども報告され得る。いくつかの態様において、両方の基準は満たされなければ、CNVの非存在の検出が報告される:標的試料中の要素についての異常なコピー数が見出されるかまたは印が付され、標的試料中のその要素についての異常なp値も見出されるかまたは印が付される。標的試料中の要素についての検出報告が生成され、報告は、標的試料のID、要素の識別子(例えば、名前または場所)、要素についてのコピー数、要素についてのp値および/または要素中のCNV検出の非存在状態を含み得る。いくつかの例において、標的試料に関する他の情報、例えば、標的試料の性別、要素がエクソンである場合の要素の遺伝子識別子なども報告され得る。いくつかの態様において、基準の少なくとも1つが満たされず、コピー数またはp値が対応する閾値の値(例えば、所定の区間の境界値、所定の上限閾値または所定の下限閾値)に十分に近い場合、検出報告はこの情報も含み得る。いくつかの態様において、標的試料中の1つの要素に対するそれぞれの検出報告の代わりに、標的試料中の全ての要素に対する統合された検出報告が生成され得る。いくつかの態様において、複数の標的試料のそれぞれの中の1つの要素に対するそれぞれの検出報告の代わりに、複数の標的試料中の全ての要素に対する統合された検出報告が生成され得る。
【0176】
いくつかの態様において、基準の少なくとも1つが満たされれば、CNVの検出が報告される:標的試料中の要素についての異常なコピー数が見出されるかもしくは印が付され、または標的試料中のその要素についての異常なp値が見出されるかもしくは印が付される。標的試料中の要素についての検出報告が生成され、報告は、標的試料のID、要素の識別子(例えば、名前または場所)、要素についてのコピー数および/または要素についてのp値を含み得る。いくつかの例において、標的試料に関する他の情報、例えば、標的試料の性別、要素がエクソンである場合の要素の遺伝子識別子、CNV検出の種類(例えば、cnvdupまたはcnvdel)なども報告され得る。いくつかの態様において、いずれの基準も満たされなければ、CNVの非存在の検出が報告される:標的試料中の要素についての異常なコピー数が見出されるかまたは印が付され、標的試料中のその要素についての異常なp値が見出されるかまたは印が付される。標的試料中の要素についての検出報告が生成され、報告は、標的試料のID、要素の識別子(例えば、名前または場所)、要素についてのコピー数、要素についてのp値および/または要素中のCNV検出の非存在状態を含み得る。いくつかの例において、標的試料に関する他の情報、例えば、標的試料の性別、要素がエクソンである場合の要素の遺伝子識別子なども報告され得る。いくつかの態様において、いずれの基準も満たされず、コピー数またはp値が対応する閾値の値(例えば、所定の区間の境界値、所定の上限閾値または所定の下限閾値)に十分に近い場合、検出報告はこの情報も含み得る。いくつかの態様において、標的試料中の1つの要素に対するそれぞれの検出報告の代わりに、標的試料中の全ての要素に対する統合された検出報告が生成され得る。いくつかの態様において、複数の標的試料のそれぞれの中の1つの要素に対するそれぞれの検出報告の代わりに、複数の標的試料中の全ての要素に対する統合された検出報告が生成され得る。
【0177】
機械学習ベースのアプローチによれば、ブロック830において、生のカバレッジ値、第1の正規化に関して記載されたカバレッジ中央値の値、第2の正規化に関して記載された平均カバレッジ値、試料中の各要素についてのコピー数および正常プロファイル、試料中の各要素についてのp値、zスコアおよび/もしくは変動係数、試料中の各要素についてのGC%、またはこれらの任意の組み合わせが機械学習モデルに入力される。いくつかの例において、少なくとも、試料中の各要素についてのコピー数および正常プロファイルが機械学習モデルに入力される。ある例において、機械学習モデルは、コピー数多型の存在または非存在の指標として各要素についてのコピー数を分類するために、学習された特徴に基づいて観測を分割するためのアンサンブルとして動作する多数の個々の決定木から構成されるランダムフォレストモデルである。さらに、機械学習モデルは、要素についてのコピー数多型(すなわち、異常なコピー数)の存在を重複または欠失のいずれかとして分類するように構成され得る。機械学習モデルは、決定木の操作に従って、標的セット中の各セグメントについてのコピー数多型の存在または非存在に関する分類(必要に応じて、重複または欠失としての、異常の分類)を出力する。有利には、以前に確認されたコピー数多型試料に対して訓練された機械学習ベースのアプローチは、ルールベースのアプローチと比較してより良好な感度および特異度を有し、コピー数多型をコールするためにp値についての厳しいカットオフまたは閾値および二重正規化されたコピー数を必要としない。
【0178】
ブロック835において、機械学習モデルによる要素の分類に基づいて、CNVの検出が報告される。いくつかの例において、CNVの検出は、(工程820および825に関して説明された)比較、機械学習モデルによる分類またはこれらの組み合わせに基づいて報告される。例えば、ルールベースのアプローチと機械学習ベースのアプローチの両方が要素の分類に関して一致していれば、CNVの検出が報告される。あるいは、ルールベースのアプローチと機械学習ベースのアプローチが要素の分類に関して一致していなければ、CNVの検出は不確定と報告される。あるいは、ルールベースのアプローチと機械学習ベースのアプローチが要素の分類に関して一致しなければ、CNVの検出は、手作業での解釈または追加検査に関して参照される。標的試料中の要素についての検出報告が生成され、報告は、標的試料のID、要素の識別子(例えば、名前または場所)、要素についてのコピー数および/または要素についてのp値を含み得る。いくつかの例において、標的試料に関する他の情報、例えば、標的試料の性別、要素がエクソンである場合の要素の遺伝子識別子、CNV検出の種類(例えば、cnvdupまたはcnvdel)なども報告され得る。
【0179】
ルールベースのアプローチ、機械学習ベースのアプローチまたはこれらの組み合わせからの検出報告または統合された検出報告は、標的試料の前分析としてさらに使用することができ、または標的試料の後分析のための情報を提供することができる。いくつかの態様において、検出報告は、標的試料に関連する対象の診断を決定する際に使用され得る。診断は、標的試料でのCNVコーリングの存在または非存在に基づき得る。いくつかの態様において、検出報告は、標的試料に関連する対象に処置を投与する際に使用され得る。投与は、標的試料でのCNVコーリングの存在もしくは非存在に基づき得、または標的試料に関連する対象の診断に基づき得る。標的試料の後分析は診断または投与に限定されず、CNV検出方法は任意の後分析方法と組み合わされ得るまたは構成され得ることを理解されたい。
【実施例】
【0180】
IV.実施例
様々な態様において実施される技術は、以下の実施例を参照することによってよりよく理解され得る。
【0181】
IV.A.二重正規化を行う疑似実施例
標的試料を含む複数の試料について配列決定データを得た後、開示された二重正規化を直ちに実行できる。
図9A~
図9Dは、二重正規化の疑似実施例を提供する。
【0182】
図9Aは、試料中の標的セット中の各要素についての局所的カバレッジ中央値を決定するための、および前記試料中の全てのセグメントについての包括的カバレッジ中央値を決定するための手段を例示する。試料1は、複数の試料のうちの1つであり、各セグメントについてのカバレッジ中央値を含むその配列決定データは、MPS配列決定方法を通じて得られた。標的セットは、ある種類のCNVの検出のために決定された。いくつかの例において、標的セット中の要素は染色体であり、各染色体は多数の異なるセグメントをカバーし、2つの異なる要素間に重複するセグメントは存在しない。いくつかの例において、標的セット中の要素は遺伝子であり、異なる遺伝子が同じセグメントをカバーし得る。
図8A中の疑似数は、標的セット中の要素が1またはそれを超えるセグメントを共有する例を示す。例えば、標的セット中の要素Aおよび要素Bは、セグメント1およびセグメント2の両方を共有する。要素Aおよび要素Bについての局所的カバレッジ中央値を考える場合、セグメント1およびセグメント2は両要素において考慮に入れられる。全ての要素が標的セット中の別の要素とセグメントを共有するわけではないことが可能であり、どの要素も標的セット中の別の要素と同じセグメントを有さないことが可能であることを理解されたい。
図8Aは、いかなる目的においても限定として理解されるべきではない。
【0183】
第1の正規化を実行する前に、試料中の標的セット中の各要素についての局所的カバレッジ中央値および試料中の全てのセグメントについての包括的カバレッジ中央値が決定されるべきである。標的セット中の要素によってカバーされるセグメントのみが、その要素についての局所的カバレッジ中央値を決定する際に考慮される。例えば、
図8Aでは、要素Aについての局所的カバレッジ中央値を決定するときに、セグメント1~3のみが考慮される。要素Aについての局所的カバレッジ中央値を決定するために、セグメント1~3のカバレッジ中央値は、最小から最大に配置され(セグメント3についての1054、セグメント1についての1064およびセグメント2についての1099)、中間の数(1064)が、要素Aについての局所的なカバレッジ中央値である。カバレッジ中央値のソーティングおよび中央の数の選択は一時的に行うことができ、ソーティング情報を保存する必要は存在しないことを理解されたい。カバレッジ中央値の配置は、最大から最小へとすることができることも理解されたい。要素中に偶数のセグメントが存在する場合には、中央値は、(i)中央の2つの数のうちの1つ、または(ii)中央の2つの数の数学的平均のいずれかであり得る。
図9A中の要素Bについての局所的カバレッジ中央値は、中央値の後者の決定を示す。
【0184】
包括的カバレッジ中央値の決定においては、中央の数を提供するために同じ中の全てのセグメントがソートされることを除いて、試料中の全てのセグメントについての包括的カバレッジ中央値は、局所的カバレッジ中央値の決定と同様の方法で決定することができる。例えば、
図9Aでは、最後のエントリを除く最後の行中のエントリは、試料1中の全てのセグメントについてのカバレッジ中央値を示す。全てのカバレッジ中央値をソートした後、中央値(1060)が見出され、試料1中の全てのセグメントについての包括的カバレッジ中央値に割り当てられ得る。多くの例で、試料中の各セグメントは、少なくとも1つの要素によってカバーされる。セグメントは、いずれかの要素によってカバーされる必要はなく、包括的カバレッジ中央値の決定は、カバーされていないセグメントをカウントすることができ、またはこれらのセグメントを除外することができることを理解されたい。全てのセグメントについての包括的カバレッジ中央値は、全ての要素についての中央値と等しい必要はないことも理解されたい。
【0185】
第1の正規化は、試料中の標的セット中の各要素についての局所的カバレッジ中央値および試料中の全てのセグメントについての包括的カバレッジ中央値に基づいて行われる。第1の正規化されたカバレッジは、試料中の標的セット中の各要素について決定される。
図9Bに示されているように、要素Aについての第1の正規化されたカバレッジは、要素Aについての局所的カバレッジ中央値(1064)を包括的カバレッジ中央値(1060)で割ったものに等しい。局所的カバレッジ中央値を決定するための方法は、各試料中の各標的セット中の各要素に対して適用され得る。
【0186】
第1の正規化は各試料内で行われたのに対して、第2の正規化は試料全体にわたって行われた。例えば、
図9Cでは、試料1から試料Zにわたって、要素Bに対して第2の正規化が行われた。各試料中の要素Bについての第2の正規化されたカバレッジは、各試料中の要素Bについての第1の正規化されたカバレッジおよび平均カバレッジに基づいて決定された。平均カバレッジは、要素Bについての全ての第1の正規化されたカバレッジの数学的アベレージである。試料中の要素Bについての第2の正規化されたカバレッジを決定するための1つの方法は、
図9Cの第3列に示されているように、試料中の要素Bについての第1の正規化されたカバレッジを平均カバレッジで割ることである。
図9Cの最後の列は、試料1~Z中の要素Bについての第2の正規化されたカバレッジを示す。本出願で開示されているCNV検出は、第2の正規化されたカバレッジに基づく。
【0187】
いくつかの例においては、外れ値の存在は、開示された方法の精度に影響を及ぼし得る。平均カバレッジを決定する前に、外れ値の除外が行われ得る。例えば、
図9Dにおいて、円は、要素Bの第1のカバレッジ数における外れ値を示す。外れ値判定規則は予め定められていてもよく、その規則はテューキーのフェンスなどであり得る。除外が適用されれば、平均カバレッジは外れ値を考慮に入れずに決定される。
図9Dの右側の表は、外れ値除外規則の下での要素Bについての新しい平均カバレッジを示す。各試料中の要素Bについての第2の正規化されたカバレッジを決定するための以下の工程は、
図9Cに示されている例と同じであり、第2の正規化されたカバレッジは、CNV検出の次の工程を実行するための情報を提供する。
【0188】
IV.B.1911個の試料を用いた実験
23個のフローセル中の1911個の試料を用いて実世界実験を行った。実験は、テューキーのフェンスを除外規則として使用し、CNVが要素の対応する位置に存在するかどうかを決定するために、第2の正規化されたカバレッジをそのp値と組み合わせた。実験では、開示された方法を使用して3つの染色体のCNVが検出されたが、その出現は当技術分野の文献と一致している。同時に、41個の遺伝子CNVおよび18個のCNVに関連する113個のエクソンが検出された。開示された方法を使用して実験の全体的な成績を調べると、受信者動作特性(ROC)曲線は、0.974の真陽性率(TPR)および0.12の偽陽性率(FPR)を示す。したがって、
図10に示されているように、開示された方法を使用するモデルの識別力は0.944である。
【0189】
図11Aおよび
図11Bは、1番染色体についての第1の正規化カバレッジの分布および1番染色体についての第2の正規化されたカバレッジの分布を示す。第1の正規化は、異なるフローセルを介したデータ収集を同様のスケールに調整するが、異なるフローセルは分布の異なる中心に対応することが
図11Aから示されている。第2の正規化は、
図11Bに示されているように調整されたデータの再中心をもたらす。第2の正規化の後、異なるフローセルに対応する各分布は、概ね同じ中心および同じ形状の分布を有する。二重正規化は、CNV検出を行うための標準化されたデータを提供する。
【0190】
図12Aおよび
図12Bは、箱ひげ図でのデータ分布を示す。
図12Aは、異なる染色体(1番~22番染色体およびX染色体)によってカバーされたセグメントについてのカバレッジ中央値の箱ひげ図を示す。異なる染色体についての「生の」カバレッジ数分布は類似しておらず、分布の各中心は異なる位置に位置することが示されている。
図12Bは、2つの異なる性別群における染色体全体にわたる第2の正規化されたカバレッジの分布を示す。上の図は、女性対象に対応する分布を示し、下の図は、男性対象に対応する分布を示す。両図における各染色体についてのデータの中心は、男性対象におけるX染色体についての中心がおよそ0.5であることを除いて、およそ1.0である。この例外は、正常な男性が、2つのX染色体を有する女性と比較して、1つのX染色体のみを有することも証明する。
図12Bは、X染色体上のCNVを検出するために男性対象からの試料と女性対象からの試料が一緒に分析される場合には、第2の正規化を行う前に、男性対象からのX染色体上のセグメントについての「生の」カバレッジ数に対する調整または男性対象からのX染色体上の要素についての第1の正規化されたカバレッジに対する調整が行われるべきであることも示唆している。多くの例で、調整は、カバレッジ数を2倍にすること、または第1の正規化されたカバレッジを2倍にすることである。X染色体上の要素についての「生の」カバレッジに対する調整が行われると、正常な男性および女性対象はいずれも、1.0付近を中心とするコピー数(予想されるコピー数)を有し、著しい逸脱は試料中のコピー数が異常である可能性を示すであろう。
【0191】
図13は、女性対象からのX染色体に対するCNV検出結果を示す。円は、女性対象からのX染色体上の全ての遺伝子についての異常な第2の正規化されたカバレッジを表す。異常な第2の正規化されたカバレッジは、X染色体全体上のCNVを示唆する。第2の正規化されたカバレッジの値は、値1.0の「正常な」第2の正規化されたカバレッジと比較して約1.5であり、これは、女性対象が余分な性染色体を有することを示唆しており、独立した方法の知見と合致する。このCNV検出情報は、疾患の診断、女性/雌対象への処置の投与などにおいてさらに使用することができる。
【0192】
図14は、女性対象からのX染色体上の部分的染色体喪失のCNV検出を示す。円は、女性対象からのX染色体のp腕上の3つの遺伝子(PDHA1、DMDおよびOTC)についての異常な第2の正規化されたカバレッジを表し、一方、X染色体のq腕上の他の2つの遺伝子(IL2RGおよびIDS)についてのその第2の正規化されたカバレッジは異常ではない。異常な第2の正規化されたカバレッジは、部分的なX染色体上のCNVを示唆する。異常な第2の正規化されたカバレッジの値は、X染色体のp腕上の3つの遺伝子について、値1.0の「正常な」第2の正規化されたカバレッジと比較しておよそ0.5であり、これは、女性対象が自身のX染色体のp腕の部分的なまたは完全な喪失を有する一方、q腕は、独立した方法の知見と合致して両方のコピーを有する完全な状態であるか、またはほぼ完全な状態であることを示唆する。このCNV検出情報は、疾患の診断、女性/雌対象への処置の投与などにおいても使用することができる。
【0193】
図15は、本検出方法がエクソン規模のCNV検出を実行することにも適合的であることを示す。およそ0.5の値を有する点は、対応するエクソンが1コピー欠損していることを示唆する。長方形は、その塩基対の長さがわずか52であるDMD-X79エクソンの第2の正規化されたカバレッジの分布を表す。この実験結果は、開示された方法を用いたエクソンCNV検出が小さな領域サイズによって影響を受けないことも示唆する。
【0194】
さらなる実験は、遺伝子レベルとエクソンレベルの組み合わせでCNV検出を行うことができることを示す。
図16A中の円は、遺伝子GALCについての重大な意味を持つ第2の正規化されたカバレッジを表す。丸で囲まれた第2の正規化されたカバレッジの値はおよそ0.75であり、これは絶対的な異常値とほぼ同じではないが、おそらく部分的な遺伝子が欠損していることを示唆し得る。エクソンレベルのCNV検出へのさらなる「ズームイン」は、
図16Bによって示されるように、GALCのエクソン11~17が1コピーを欠損していることを示す。エクソン10と11の間の切断点は、サンガー配列決定によって確認されている。これらの結果は、効率的なCNV報告を提供するために、隣接するエクソンまたはビンの組み合わせでCNV検出を実行することができることを示唆している。
【0195】
IV.C.10000個の試料を用いた実験
約110個のフローセル中の約10000個の試料を用いて実世界実験を行った。実験は、生のカバレッジ値、要素についてのコピー数、要素の正常プロファイル、p値、zスコアおよびGC%を含む履歴試料データに基づいて開発されたランダムフォレストモデルの使用を含む機械学習アプローチを使用した。開示された機械学習アプローチを使用して実験の全体的な成績を調べると、ROC曲線および曲線下面積(AUC)(モデル識別力を示す)は、0.97の感度または真陽性率(TPR)および0.995の特異度(および0.005の偽陽性率)を示す。したがって、
図17Aに示されているように、開示された方法を使用するモデルの識別力は0.9999である。さらに、
図17Bは、ルールベースのアプローチがCNVの存在を特定できなかった多くの事例において、機械学習モデルがCNV(欠失)の存在を正しく特定することができたことを示している。
【0196】
V さらなる考察
具体的な実施例を記載してきたが、様々な修正、変更、代替構造、および均等物が可能である。実施例は、ある特定のデータ処理環境内での操作に限定されず、複数のデータ処理環境内で自由に操作することができる。さらに、ある実施例は、特定の一連の処理および工程を使用して記載されているが、これは限定を意図していないことは当業者には明らかであるはずである。いくつかのフローチャートは、操作を逐次のプロセスとして記載しているが、操作の多くは、並行してまたは同時に実行され得る。さらに、操作の順序は変更され得る。プロセスは、図に含まれていない追加の工程を有し得る。上述の実施例の様々な特徴および局面は、個別にまたは一緒に使用され得る。
【0197】
さらに、ある実施例はハードウェアとソフトウェアの特定の組み合わせを使用して記載されているが、ハードウェアとソフトウェアの他の組み合わせも可能であることを認識すべきである。ある実施例は、ハードウェアのみで、またはソフトウェアのみで、またはこれらの組み合わせを使用して実施され得る。本明細書に記載されている様々なプロセスは、同じプロセッサまたは任意の組み合わせでの異なるプロセッサで実施され得る。
【0198】
デバイス、システム、コンポーネントまたはモジュールがある操作または機能を実行するように構成されているものとして記載されている場合、このような構成は、例えば、操作を実行するように電子回路を設計することによって、コンピュータ命令もしくはコードを実行することなどによって操作を実行するようにプログラム可能な電子回路(マイクロプロセッサなど)をプログラムすることによって、または非一時的メモリ媒体上に保存されたコードもしくは命令を実行するようにプログラムされたプロセッサもしくはコア、またはこれらの任意の組み合わせによって達成され得る。プロセスは、プロセス間通信のための従来の技術を含むがこれに限定されない様々な技術を使用して通信し得、プロセスの異なる対は異なる技術を使用し得、またはプロセスの同じ対は異なる時間に異なる技術を使用し得る。
【0199】
実施例の完全な理解を提供するために、本開示においては具体的な詳細が与えられている。しかしながら、実施例は、これらの具体的な詳細なしに実施され得る。例えば、実施例を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造および技術は、不必要な詳細なしに示されている。この説明は、例示的な実施例のみを提供し、他の実施例の範囲、適用性または構成を限定することを意図していない。むしろ、実施例の前述の説明は、様々な実施例の実施を可能にするための説明を当業者に提供する。要素の機能および配置には様々な変更が施され得る。
【0200】
したがって、本明細書および図面は、限定的な意味ではなく例示的な意味で見られるべきである。しかしながら、特許請求の範囲に記載されたより広い精神および範囲から逸脱することなく、追加、除去、削除ならびにその他の修正および変更が施され得ることは明らかであろう。したがって、具体的な実施例が記載されているが、これらは限定することを意図していない。様々な修正および均等物が、以下の特許請求の範囲内に含まれる。
【0201】
前述の明細書では、本開示の局面がその具体的な実施例を参照しながら記載されているが、当業者は、本開示がそれに限定されないことを認識するであろう。上述の開示の様々な特徴および局面は、個別にまたは一緒に使用され得る。さらに、実施例は、本明細書のより広い精神および範囲から逸脱することなく、本明細書に記載されている環境および用途を超える任意の数の環境および用途において利用され得る。したがって、本明細書および図面は、限定的ではなく例示的であるとみなされるべきである。
【0202】
前述の説明では、例示の目的で、方法を特定の順序で説明した。代替の実施例では、これらの方法は記載された順序とは異なる順序で実行され得ることを理解されたい。また、上述した方法は、ハードウェアコンポーネントによって実行され得ること、または命令を用いてプログラムされた汎用もしくは専用プロセッサまたは論理回路などの機械にこれらの方法を実行させるために使用され得る一連の、機械が実行可能な命令で具体化され得ることを理解されたい。これらの機械が実行可能な命令は、CD-ROMまたは他の種類の光ディスク、フロッピーディスケット、ROM、RAM、EPROM、EEPROM、磁気または光カード、フラッシュメモリ、または電子命令を保存するのに適した他の種類の機械可読媒体などの1またはそれを超える機械可読媒体に保存され得る。あるいは、これらの方法は、ハードウェアとソフトウェアの組み合わせによって実行され得る。
【0203】
コンポーネントがある操作を実行するように構成されていると記載されている場合、このような構成は、例えば、操作を実行するように電子回路またはその他のハードウェアを設計することによって、操作を実行するようにプログラム可能な電子回路(例えば、マイクロプロセッサまたはその他の適切な電子回路)をプログラムすることによって、またはこれらの任意の組み合わせによって達成され得る。
【0204】
本出願の例示的な実施例を本明細書で詳細に説明してきたが、本発明の概念はそれ以外に様々に具体化および使用され得ること、ならびに添付の特許請求の範囲は、先行技術によって限定される場合を除いて、このような変形を含むと解釈されることが意図されていることを理解されたい。
【国際調査報告】