(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024103502
(43)【公開日】2024-08-01
(54)【発明の名称】ニューラルネットワークを使用して倍数性状態を呼び出すための方法およびシステム
(51)【国際特許分類】
C12Q 1/6858 20180101AFI20240725BHJP
C12Q 1/6872 20180101ALI20240725BHJP
C12N 15/12 20060101ALI20240725BHJP
C12Q 1/6806 20180101ALN20240725BHJP
C12Q 1/6813 20180101ALN20240725BHJP
【FI】
C12Q1/6858 Z
C12Q1/6872 Z
C12N15/12
C12Q1/6806 Z
C12Q1/6813 Z
【審査請求】有
【請求項の数】9
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024076311
(22)【出願日】2024-05-09
(62)【分割の表示】P 2021502513の分割
【原出願日】2019-07-16
(31)【優先権主張番号】62/699,135
(32)【優先日】2018-07-17
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】513156537
【氏名又は名称】ナテラ, インコーポレイテッド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100166165
【弁理士】
【氏名又は名称】津田 英直
(72)【発明者】
【氏名】エギルソン,アーガスト
(72)【発明者】
【氏名】ヘメロス,ジョージ
(72)【発明者】
【氏名】シグルヨンソン,ストゥルミル
(57)【要約】
【課題】ニューラルネットワークを使用して倍数性状態を呼び出す方法の提供。
【解決手段】胎児染色体の倍数性状態を検出するための方法であって、 胎児由来の無細胞DNAと母体由来の無細胞DNAとの混合物を含む妊婦の生体サンプルから無細胞DNAを単離することと、 前記無細胞DNAを解析して、前記生体サンプルの遺伝子配列決定データまたは遺伝子アレイデータを作成することと、及び 前記配列決定データまたは遺伝子アレイデータを、ニューラルネットワークを介して伝播させて、ニューラルネットワークの出力として、胎児染色体の倍数性状態を示す分類情報を獲得することと、を含みここで前記ニューラルネットワークは合成データによる拡張された訓練データを利用して生成され、当該訓練データは(i)複数のケースと(ii)前記複数のケースにおけるセグメントのホモログであるセグメントを含む合成ケースとを含み、前記合成ケースはサブ染色体異常をシミュレーションするように、かつ前記ニューラルネットワークがサブ染色体異数性をより正確に検出することを可能にするよう、前記複数のケースに基づき生成される、方法。
【選択図】なし
【特許請求の範囲】
【請求項1】
胎児染色体の倍数性状態を検出するための方法であって、
胎児由来の無細胞DNAと母体由来の無細胞DNAとの混合物を含む妊婦の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルネットワークを介して伝播させることによって、前記胎児染色体の倍数性状態を呼び出すことと、を含む、方法。
【請求項2】
癌の早期検出のための方法であって、
腫瘍由来の無細胞DNAと正常な組織由来の無細胞DNAとの混合物を含む癌を有することが疑われる対象の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
【請求項3】
癌の再発または転移を検出するための方法であって、
腫瘍由来の無細胞DNAと正常な組織由来の無細胞DNAとの混合物を含む癌患者の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
【請求項4】
移植拒絶を検出するための方法であって、
ドナー由来の無細胞DNAとレシピエント由来の無細胞DNAとの混合物を含む移植レシピエントの生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルを介して伝播させることによって、前記移植レシピエントの移植拒絶状態を呼び出すことと、を含む、方法。
【請求項5】
前記ニューラルネットワークが、それぞれの状態値を呼び出すための1つ以上の層を含み、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークが、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、を含む、請求項1~4のいずれか一項に記載の方法。
【請求項7】
前記複数のSNV遺伝子座が、少なくとも10、または少なくとも20、または少なくとも50、または少なくとも100、または少なくとも200、または少なくとも500、または少なくとも1,000、または少なくとも2,000、または少なくとも5,000、または少なくとも10,000のSNV遺伝子座を含む、請求項1~4のいずれか一項に記載の方法。
【請求項8】
前記増幅産物が、少なくとも200、または少なくとも500、または少なくとも1,000、または少なくとも2,000、または少なくとも5,000、または少なくとも10,000、または少なくとも20,000、または少なくとも50,000、または少なくとも100,000のリード深度で配列決定される、請求項1~4のいずれか一項に記載の方法。
【請求項9】
出生前検査を実施する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを決定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの倍数性状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースは、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
損失値に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、
妊婦から抽出された血漿を含む試験サンプルを選択することと、
前記試験サンプルについて、前記修正されたニューラルネットワークを介して前記試験サンプルについての遺伝子配列決定データまたは前記試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む、方法。
【請求項10】
前記訓練サンプルが、遺伝子配列決定データを使用して表される血漿サンプルを含む、請求項9に記載の方法。
【請求項11】
前記合成ケースが、前記複数のケースのうちの前記1つ以上のセグメントのホモログであるセグメントを含み、第2のニューラルネットワークを使用して前記ホモログを生成することをさらに含む、請求項9に記載の方法。
【請求項12】
前記第2のニューラルネットワークが、敵対的生成ネットワークである、請求項11に記載の方法。
【請求項13】
前記敵対的生成ネットワークが、非位相性遺伝子型を生成するように訓練された生成ネットワークを含み、前記方法は、
前記非位相性遺伝子型を使用して統計を生成することと、
前記統計を使用して前記合成ケースを生成することと、を含む、請求項12に記載の方法。
【請求項14】
前記第2のネットワークが、オートエンコーダネットワークを含む、請求項9に記載の方法。
【請求項15】
前記合成ケースを生成することが、前記複数のケースのうちの1つのケースについて染色体微小欠失をシミュレートすることを含む、請求項9に記載の方法。
【請求項16】
前記試験サンプルが血漿サンプルを含み、前記血漿サンプルが胎児からの無細胞DNA(cfDNA)と宿主DNAとの混合物であり、前記ニューラルネットワークの重みが、前記ニューラルネットワークに、前記染色体微小欠失に対応する遺伝子領域について前記胎児からの遺伝物質の前記倍数性状態をより良く判定させるように修正される、請求項9に記載の方法。
【請求項17】
前記宿主が妊婦であり、前記血漿サンプルが少なくとも前記妊婦の血漿サンプルであり、前記ニューラルネットワークを使用して、前記ニューラルネットワークを介して前記妊婦の血漿サンプルの配列決定データを渡すことによって、前記妊婦の前記胎児における特定の微小欠失の発生を予測することをさらに含む、請求項16に記載の方法。
【請求項18】
前記バッチに含まれる複数の前記ケースについて染色体微小欠失をシミュレートすることによって、前記合成ケースを含む複数の合成ケースを生成することをさらに含み、前記染色体微小欠失が、特定の遺伝子領域に関するものである、請求項17に記載の方法。
【請求項19】
着床前遺伝子スクリーニングを実施する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの倍数性状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
損失値に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、
胚から試験サンプルを選択することと、
前記試験サンプルについて、前記修正されたニューラルネットワークを介して前記試験サンプルについての遺伝子配列決定データまたは前記試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む、方法。
【請求項20】
前記試験サンプルが、胚サンプルと、母サンプルおよび父サンプルのうち少なくとも1つとを含み、母系対立遺伝子頻度および父系対立遺伝子頻度のうち少なくとも1つを指定する、請求項19に記載の方法。
【請求項21】
前記修正することが、前記ニューラルネットワークを介して前記データのバッチを伝播させる前に前記データのバッチを摂動することをさらに含む、請求項19に記載の方法。
【請求項22】
前記データのバッチを摂動することが、前記アレイリードにそれぞれのスカラーを乗算することによって、一塩基多型について複数のアレイリードを並べ替えることを含む、請求項21に記載の方法。
【請求項23】
前記終了条件が、前記1つ以上の損失値のうちの少なくともいくつかが所定の閾値以下であることに基づく、請求項19に記載の方法。
【請求項24】
前記訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することが、
対象の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の標的塩基を含む複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数の標的塩基のうちの1つ以上の配列決定リードを取得することと、を含む、請求項19に記載の方法。
【請求項25】
前記複数の標的塩基が、少なくとも10、または少なくとも20、または少なくとも50、または少なくとも100、または少なくとも200、または少なくとも500、または少なくとも1,000のSNV遺伝子座を含む、請求項24に記載の方法。
【請求項26】
前記増幅産物が、少なくとも200、または少なくとも500、または少なくとも1,000、または少なくとも2,000、または少なくとも5,000、または少なくとも10,000、または少なくとも20,000、または少なくとも50,000、または少なくとも100,000のリード深度で配列決定される、請求項24に記載の方法。
【請求項27】
拡張データを使用してニューラルネットワークを訓練する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、を含む、方法。
【請求項28】
前記合成ケースを生成することが、
前記複数のケースの第1のケースの第1のセグメントの一部を選択することと、
前記複数のケースの第2のケースの第2のセグメントの一部を選択することと、
前記第1のセグメントの前記一部を前記第2のセグメントの前記一部に置き換えることと、を含む、請求項27に記載の方法。
【請求項29】
前記第2のセグメントが前記真の状態値に基づいて異数性を有すると判定することをさらに含み、前記第2のセグメントの前記一部を選択することが、前記第2のセグメントが異数性を有するとの前記判定に基づく、請求項28に記載の方法。
【請求項30】
前記遺伝子配列決定データまたは前記遺伝子アレイデータが、Cyto12bアレイまたは標的一塩基多型(SNP)プールを含む、請求項27に記載の方法。
【請求項31】
前記遺伝子配列決定データが読み取りカウントの数を含む、請求項27に記載の方法。
【請求項32】
前記血漿サンプルが、宿主からの生殖細胞系および体細胞変異体を標的とする遺伝子データの混合物を表し、前記ニューラルネットワーク重みが、前記血漿中の癌性体細胞変異体の量をよりよく定量化するように修正される、請求項27に記載の方法。
【請求項33】
前記ニューラルネットワークを使用して、少なくとも1つのヒト宿主における癌の発生を予測することをさらに含む、請求項32に記載の方法。
【請求項34】
サブ染色体倍数性状態を呼び出すためのニューラルネットワークを訓練するためのシステムであって、
プロセッサと、
非一時的メモリに記憶されたプロセッサ実行可能命令と、を含み、前記プロセッサ実行可能命令は、前記プロセッサによって実行されるときに、前記プロセッサに、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは前記遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースは、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記複数のケースの第1のケースの第1のセグメントの一部を選択することと、
前記真の状態値に基づいて、異数性を有する前記複数のケースのうちの第2のケースの第2のセグメントを選択することと、
前記第2のセグメントの一部を選択することと、
前記第1のセグメントの前記一部を前記第2のセグメントの前記一部に置き換えて合成ケースを生成し、前記バッチに前記合成ケースを含めて拡張バッチを生成することと、 前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、を含む、システム。
【請求項35】
前記第1のセグメントの前記一部を選択することが、第1の連続部分を選択することを含み、前記第2のセグメントの前記一部を選択することが、第2の連続部分を選択することを含む、請求項34に記載のシステム。
【請求項36】
前記第1のセグメントの前記一部を選択することが、確率的プロセスを使用して前記第1のセグメントについての開始位置を選択することを含む、請求項35に記載のシステム。
【請求項37】
前記第2のセグメントの前記一部は、前記第1のセグメントと同じ開始位置を有するように選択される、請求項36に記載のシステム。
【請求項38】
ニューラルネットワークを使用して倍数性状態を呼び出す方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの倍数性状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの倍数性状態値を含むネットワーク出力を生成することと、
損失関数および前記真の倍数性状態値を使用して、前記1つ以上のそれぞれの倍数性状態値に基づいて、1つ以上の損失値を判定することと、
前記損失値に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、
試験サンプルについて、前記修正されたニューラルネットワークを介して前記試験サンプルについての遺伝子配列決定データまたは前記試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む、方法。
【請求項39】
前記複数の遺伝子位置が、第1の数の遺伝子位置であり、
前記複数のケースが、第2の数のケースであり、
前記ニューラルネットワークを介して前記データのバッチを伝播させることが、前記ニューラルネットワークを介してテンソルを伝播させることを含み、前記テンソルが、前記第1の数に対応する長さを有する第1の次元と、前記第2の数に対応する長さを有する第2の次元と、第3の数のデータチャネルに対応する長さを有する第3の次元とを有する、請求項38に記載の方法。
【請求項40】
前記訓練サンプルが、胚サンプル、母サンプル、および父サンプルと含み、
前記データチャネルが、少なくとも胚対立遺伝子頻度、母系対立遺伝子頻度、および父系対立遺伝子頻度を含む、請求項39に記載の方法。
【請求項41】
前記訓練サンプルが、血漿サンプルを含み、
前記データチャネルが、血漿対立遺伝子頻度を含む、請求項39に記載の方法。
【請求項42】
前記ネットワーク出力が、各データチャネルについてそれぞれの結果を含む複数の結果セットを含み、各結果セットは、前記複数の遺伝子位置の少なくともそれぞれの遺伝子位置に特異的である、請求項39に記載の方法。
【請求項43】
前記修正することが、前記ニューラルネットワークを介して前記データのバッチを伝播させる前に前記データのバッチを摂動することをさらに含む、請求項38に記載の方法。
【請求項44】
前記訓練サンプルが、血液、血清、血漿、尿、および生検サンプルから選択される、請求項38に記載の方法。
【請求項45】
前記複数の標的塩基が、前記TCGAおよびCOSMICデータセットにおいて特定されたSNV遺伝子座から選択される、請求項38に記載の方法。
【請求項46】
拡張データを使用してニューラルネットワークを訓練する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは前記遺伝子アレイデータに基づいて、複数の遺伝子位置のそれぞれの真の癌状態値を判定することと、
それぞれの癌状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、複数の遺伝子位置に対応し、前記それぞれの遺伝子位置の1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の癌状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの癌状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、を含む、方法。
【請求項47】
拡張データを使用してニューラルネットワークを訓練する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは前記遺伝子アレイデータに基づいて、複数の遺伝子位置のそれぞれの真の移植拒絶状態値を判定することと、
それぞれの移植拒絶状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、複数の遺伝子位置に対応し、前記それぞれの遺伝子位置の1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の移植拒絶状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの移植拒絶状態値を含むネットワーク出力を生成することと、 前記ネットワーク出力に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、を含む、方法。
【請求項48】
請求項27に記載の方法によって得られるニューラルネットワーク。
【請求項49】
請求項46に記載の方法によって得られるニューラルネットワーク。
【請求項50】
請求項47に記載の方法によって得られるニューラルネットワーク。
【請求項51】
胎児染色体の倍数性状態を検出するための方法であって、
胎児由来の無細胞DNAと母体由来の無細胞DNAとの混合物を含む妊婦の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項48に記載のニューラルネットワークを介して伝播させることによって、前記胎児染色体の倍数性状態を呼び出すことと、を含む、方法。
【請求項52】
癌の早期検出のための方法であって、
腫瘍由来の無細胞DNAと正常な組織由来の無細胞DNAとの混合物を含む癌を有することが疑われる対象の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項49に記載のニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
【請求項53】
癌の再発または転移を検出するための方法であって、
腫瘍由来の無細胞DNAと正常な組織由来の無細胞DNAとの混合物を含む癌患者の生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項49に記載のニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
【請求項54】
移植拒絶を検出するための方法であって、
ドナー由来の無細胞DNAとレシピエント由来の無細胞DNAとの混合物を含む移植レシピエントの生体サンプルから無細胞DNAを単離することと、
前記単離された無細胞DNAから複数の一塩基バリアント(SNV)遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のSNV遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のSNV遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項50に記載のニューラルネットワークを介して伝播させることによって、前記移植レシピエントの移植拒絶状態を呼び出すことと、を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年7月17日に出願された米国仮出願第62/699,135号に対する優先権を主張し、この仮出願は、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
胚性染色体異常を検出することは、胚または胎児の健康を判定するのに有用であり得る。例えば、胚の健康は、体外受精(IVF)プロセスを介して、着床の前に、全体的な染色体異数性または局所的な異数性を含む異数性を検出することによって決定することができるか、または異数性の観点から胎児の健康は、非侵襲的な出生前検査(NIPT)を使用して決定することができる。しかしながら、従来の技術を用いてそのような異数性を検出することは困難である可能性があり、異数性の位置に関し粒度を有してそのような異数性を検出することは困難である可能性がある。本開示は、とりわけ、正確に、胚および胎児の異数性を呼び出すことと、染色体の特定のセグメントについて、胚および胎児の異数性を呼び出すこととを提供する改善されたシステムおよび方法を記載する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本明細書に記載されるシステムおよび方法の少なくともいくつかは、ニューラルネットワークを使用して胚または胎児異数性を呼び出すことに関する。ニューラルネットワークは、注釈付きデータについて訓練されて、胚サンプルの倍数性状態を正確に呼び出すことができ、したがって、胚の健康に関する洞察を提供する。本明細書におけるシステムおよび方法は、染色体の小さなセグメントに特異的な異数性を含む配列および配列決定データの両方から、胚および胎児における異数性の改善された検出、位置および分類を提供することができ、より大きな倍数性領域を分類することに加えて、倍数性状態による各ゲノム位置の分類を提供することができる。本明細書に記載されるシステムおよび方法は、その全体が本明細書に組み込まれる、出版物Deep Learning(Adaptive Computation and Machine Learning)、Ian Goodfellow、Yoshua Bengio、Aaron Courville、MIT Press(2016年11月18日)に記載されるもののいずれかのような、深層学習または機械学習プロセスを実装してもよい。
【課題を解決するための手段】
【0004】
本明細書に記載されるシステムおよび方法は、多くの条件について試験することに使用され得る、改善された非侵襲的な出生前試験を提供して、胎児がダウン症候群、エドワーズ症候群、またはターナー症候群などの何らかの全体的な染色体異常を有するかどうかを決定すること、胎児がモザイク、欠失症候群、または重複などの何らかの部分的な染色体異常を有するかどうかを決定すること、あるいは1つまたは複数の遺伝子座、例えば、単一一塩基多型(SNP)にリンクした疾患についての胎児の遺伝子型を決定することができる。さらに、本明細書に記載されるシステムおよび方法は、改善された着床前遺伝子診断(PGD)を提供することができる。PGDは、異数性のような染色体異常を検出することができ、着床の成功および健康な赤子を確実にするために使用され得る。PGDは、遺伝子疾患スクリーニングのために訴えることもできる。
【0005】
本明細書に記載されるいくつかの実施形態は、ニューラルネットワークを訓練し、それを用いることによって染色体セグメントの倍数性状態を呼び出し、シミュレートするためのシステムおよび方法を対象とする。呼び出される染色体セグメントは、血漿混合物およびゲノムサンプルから得られた標的配列決定またはアレイデータによって表される。本明細書に記載されるニューラルネットワーク訓練方法は、全体的な染色体異数性呼び出しおよびサブ染色体レベルに存在する異数性呼び出しを対象とする。本方法は、既存のアルゴリズムを改善し、ニューラルネットワークがゲノム位置バイアスを学習し、訓練パイプラインを変更することによってノイズに堅牢性および不変性を加えることを可能にする。集団中の共通の相同体の存在を最初に捕捉することによって現実的なセグメント倍数性状態をシミュレートするためのシステムが教示され、訓練されたニューラルネットワークが染色体構造中の小さな微小欠失のような欠失を呼び出すことを可能にする訓練データを拡張するために用いられる。試験サンプルは、遺伝的異常の検出を含む、試験サンプルの特徴を決定するために、ニューラルネットワークを通過することができる。
【0006】
いくつかの実施態様において、ニューラルネットワークは、胚遺伝子データに加えて、母系遺伝子データおよび父系遺伝子データについての遺伝子データを入力とする。遺伝子データは、例えば、任意のタイプのDNAもしくはRNAの鎖もしくはフラグメント、またはそれらから導出されたデータのリードまたは配列決定であってもよい。ニューラルネットワークは、胚、母系、および父系の遺伝子データを含む訓練データを使用して開発することができ、そのようなデータを利用することによって、胚サンプルの倍数性状態を正確に呼び出すことができる。本明細書で使用される場合、用語「倍数性状態」は、正倍数体または異数性である遺伝子セグメントまたは染色体の分類を指すことができ、特定の異数性を提示する遺伝子セグメントまたは染色体を指すことができる。いくつかの実施態様において、ニューラルネットワークは、1つ以上の合成ケースを含む拡張データを使用して訓練される。例えば、拡張データは、訓練データに含まれる2つの他の遺伝子セグメントを組み合わせることによって生成される遺伝子情報を含んでもよく、または訓練データに含まれる遺伝子セグメント内の欠失をシミュレートすることによって生成される遺伝子情報を含んでもよい。合成ケースは、特に異数性を含むように生成されてもよく、「真」または既知の値のセット(例えば、手動注釈によって決定された)は、合成ケースを考慮するように更新されてもよい。訓練における合成ケースの使用は、いくつかの他の技法よりもはるかに効率的かつ正確に、サブ染色体異数性呼び出すことが容易に可能なニューラルネットワークを提供することができる。
【0007】
したがって、一態様において、本開示は、出生前試験を実施する方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む、方法を提供する。本方法は、さらに、終了条件が満たされるまで、ニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めて、拡張バッチを生成することと、合成ケースに基づいて、真の状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、損失値に基づいて、複数の重みのうちの1つ以上を修正することと、を含む。本方法は、さらに、妊婦から抽出された血漿を含む試験サンプルを選択することと、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む。
【0008】
別の態様において、本開示は、着床前遺伝子スクリーニングを実施する方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む、方法を提供する。本方法は、さらに、終了条件が満たされるまで、ニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めて、拡張バッチを生成することと、合成ケースに基づいて、真の状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、損失値に基づいて、複数の重みのうちの1つ以上を修正することと、を含む。モデルは、さらに、胚から試験サンプルを選択することと、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む。
【0009】
別の態様において、本開示は、ニューラルネットワークを使用して倍数性状態を呼び出す方法を提供する。本方法は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、さらに、終了条件が満たされるまでニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの倍数性状態値を含むネットワーク出力を生成することと、損失関数および真の倍数性状態値を使用して、1つ以上のそれぞれの倍数性状態値に基づいて、1つ以上の損失値を判定することと、損失値に基づいて、複数の重みのうちの1つ以上を修正することと、を含む。本方法は、さらに、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことを含む。
【0010】
別の態様において、本開示は、拡張データを使用してニューラルネットワークを訓練する方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、さらに、終了条件が満たされるまでニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めることと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、を含む。
本方法は、さらに、ネットワーク出力に基づいて、複数の重みのうちの1つ以上を修正することを含む。
【0011】
さらなる態様において、本開示は、サブ染色体倍数性状態を呼び出すためのニューラルネットワークを訓練するためのシステムであって、プロセッサと、非一時的メモリに記憶されたプロセッサ実行可能命令とを、含み、プロセッサ実行可能命令は、プロセッサによって実行されるときに、プロセッサに、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、を行わせる、システムを提供する。プロセッサ実行可能命令は、プロセッサによって実行されるときに、さらに、プロセッサに、それぞれの状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、終了条件が満たされるまでニューラルネットワークを反復的に修正することと、を行わせる。反復修正は、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、複数のケースの第1のケースの第1のセグメントの一部を選択することと、真の状態値に基づいて、異数性を有する複数のケースのうちの第2のケースの第2のセグメントを選択することと、第2のセグメントの一部を選択することと、第1のセグメントの一部を第2のセグメントの一部に置き換えて合成ケースを生成し、バッチに合成ケースを含めて拡張バッチを生成することと、合成ケースに基づいて、真の状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、ネットワーク出力に基づいて、複数の重みのうちの1つ以上を修正することと、を含む。
【0012】
前述の一般的な説明、ならびに以下の図面の説明および詳細な説明は、一例かつ説明的なものとしてであり、請求項に記載される実施態様のさらなる説明を提供することが意図されている。他の目的、利点、および新規な特徴は、以下の図面の簡単な説明および詳細な説明から、当業者に容易に明らかとなるであろう。
【図面の簡単な説明】
【0013】
添付の図面は、縮尺通りに描かれることが意図されていない。種々の図面における同様の参照番号および指定は、同様の要素を示す。明確性を目的として、全ての構成要素が全ての図面においてラベル付けされなくてもよい。
【0014】
【
図1】いくつかの実施形態による、ゲノムまたは血漿サンプルの遺伝子型決定または配列決定のための例示的なプロセスの概要を図示する。
【
図2】いくつかの実施形態による、配列決定またはアレイデータに注釈を付ける例示的なプロセスの概要を図示する。
【
図3】いくつかの実施形態による、ニューラルネットワークを訓練する例示的なプロセスを図示する。
【
図4】いくつかの実施形態による、ニューラルネットワークを訓練する例示的なプロセスを図示する。
【
図5】いくつかの実施形態による、ニューラルネットワークの詳細な例を図示する。
【
図6】いくつかの実施形態による、分類ネットワークの例を図示する。
【
図7】いくつかの実施形態による、訓練データおよび真のデータを拡張するための例示的なアルゴリズムを図示する。
【
図8】いくつかの実施形態による、訓練データおよび真のデータを拡張するための例示的なアルゴリズムを図示する。
【
図9】いくつかの実施形態による、ニューラルネットワークアーキテクチャの例を図示する。
【
図10】いくつかの実施形態による、倍数性呼び出しシステムの実施形態を示すブロック図である。
【
図11】いくつかの実施形態による、標的遺伝子領域の倍数性状態を呼び出す例示的な方法を図示するフローチャートである。
【
図12】いくつかの実施形態による、ニューラルネットワークを修正する例示的な方法を図示するフローチャートである。
【発明を実施するための形態】
【0015】
記載される概念は、いずれの特定の実施態様にも限定されないため、上記で導入され、以下でより詳細に論じられる種々の概念は、多数の方法のうちのいずれかで実装されてもよい。特定の実施態様および用途の例は、主に説明を目的として提供される。
【0016】
ここで
図1を参照すると、
図1は、例えば、Cyto12bアレイまたは次世代配列決定(NGS)を使用した標的一塩基多型(SNP)プールを使用してゲノムまたは血漿サンプルの遺伝子型決定または配列決定するための例示のプロセスの概要を示す。Cyto12bアレイは、例えば、全ての染色体にわたって約30万個(ここでは約300kと書く)のSNP標的を有し得、種々のNGSプールは、例えば、数百個のゲノム位置から数万または数十万個のSNPの範囲のより小さな標的SNPセットを有し得る。配列決定またはアレイ遺伝子型決定プロセスへの入力は、胚由来の1つ以上の細胞(
図1の1)、ならびに胚の親由来の任意選択のゲノムサンプル(
図1の2および3)を含んでもよい。いくつかの実施形態において、配列決定プロセスへの入力は、妊婦からの血漿サンプルであってもよい(
図1の1)(例えば、胎児に関して非侵襲的な液体生検によって取得される)。配列決定またはアレイ遺伝子型決定プロセスまたはラボプロセス(
図1の4)の出力は、分析処理後、いくつかのコンピュータ記憶媒体に記憶されたサンプルのそれぞれについての数値アレイデータ(
図1の5)を含み、これは、サンプル当たり2つ以上の正の数の数値アレイを含むことができ、各数値アレイ長は、配列決定ターゲットプールまたはアレイによって特定されるゲノム位置の数に等しく、数値アレイ内の個々のエントリは、SNPの標的プール中のマッチングターゲット位置当たりのカウントまたは強度を表す。
【0017】
ここで
図2を参照すると、
図2は、配列決定またはアレイデータに注釈を付ける例示のプロセスの概要を示す(
図2の5)。例えば、アレイデータのビジュアルハンドレビューに関連する経験的アルゴリズムおよび第1原理アルゴリズムを、配列決定または配列遺伝子型決定プロセスの出力に適用することができる(
図2の6)。これは、出力データを分類し、個体に癌または他の疾患を引き起こす可能性のある体細胞変異を含むcfDNAを検出するための液体生検を配列決定するときに、個々の染色体、胚または胎児、または血漿自体の状態に関するトゥルース、またはトゥルースデータ(
図2の7)を取得するために行うことができる。トゥルースデータは、参照データとして使用することができ、例えば、分析されたサンプルの正確な分類を示すと仮定してもよい。トゥルースデータは、ニューラルネットワークを訓練するためにいくつかのコンピュータ記憶媒体に記憶され得る。このトゥルースデータは、胚または胎児から特定された各染色体が正倍数性状態にあるか、またはいくつかの異数体状態の1つにあるとされる分類および尤度を含んでもよい。
宿主個体における癌のような疾患を検出するために使用される血漿サンプルについては、トゥルースデータは、ゲノムサンプル、例えば、血漿が得られる液体生検からのバフィーコートを配列決定することによって取得されるか、または個体から異なる時点で取得される個体由来のゲノム位置および生殖細胞変異体の記述に関する一致正規データを含んでもよい。加えて、トゥルースデータは、血漿サンプルを使用して癌を検出するとき、体細胞変異体および/または癌に関連する他のサブ染色体異常に関する情報(例えば、定量および/または位置)を含むことができ、癌サンプルを配列決定し、結果を一致正規配列決定データまたはヒトのための公的に入手可能な参照ゲノムデータと比較することによって取得され得る。
【0018】
図3は、ディープニューラルネットワークであり得る、ニューラルネットワークを訓練する例示のプロセスを示す。本プロセスは、
図1および2に関して説明されるように、配列決定またはアレイデータ5ならびにトゥルース7を使用して、ニューラルネットワークを訓練および評価する(例えば、アレイデータおよびトゥルースデータを出力する)か、または染色体もしくは標的ゲノム位置当たりのトゥルースデータおよび分類を改善する。
【0019】
いくつかの実施形態において、配列決定またはアレイデータ5は、フィルタリングプロセス8によってグループに分割される。グループは、訓練データ、検証データ、および試験データを含む。検証データおよび試験データは、訓練されたニューラルネットワーク上で後で試験するために留められたデータを含むことができる(例えば、検証データは、最適化プロセス中にオーバーフィッティングについてテストするために使用され得、試験データは、最終的なネットワークの予測力を定量化するために使用され得る)。訓練中、訓練データは、ニューラルネットワークを規則化し、より良い一般化を提供し、既存の訓練セットの一部ではない追加のノイズおよび例に関してネットワークを回復させるように摂動される(
図3の9)。
図3の摂動プロセス9はまた、損失関数(12)の出力を最小限に抑えるために、ネットワークを訓練するのに有用な追加の派生属性を計算することを含んでもよい。データは、バッチで前方伝播プロセス(
図3の10)を介して送られ、ネットワーク出力(
図3の11)を生成し、これは、損失関数を使用して、トゥルース(7)と比較されて、1つ以上の損失値(
図3の12)を計算する。損失値は、ニューラルネットワーク内の重みの関数であり、これらの重みは、複数の反復にわたって、トゥルースに近い(例えば、より低い損失値をもたらす)新しいニューラルネットワーク出力11を生成するように最適化、更新、そうでなければ修正されてもよい。そのような最適化プロセス(
図3の14)は、新しい配列決定またはアレイデータのバッチがネットワークを通過する前に、ネットワークの重みを修正する。最適化プロセスは、例えば、確率的勾配降下最適化の修正された形態、または別の適切な最適化プロセスであり得る。終了条件に達する(例えば、1つ以上の損失値が所定の閾値(例えば、所定の検証閾値)以下であると判定される)ときに、訓練プロセスは終了し、ネットワーク重み(
図3の16)は、コンピュータ可読媒体に記憶され、ネットワークによって指定された前方伝播機能に従って、配列決定またはアレイデータを出力にマッピングする機能を構築するためにデシリアライズされ得る。訓練プロセスはまた、訓練が完了した後に訓練プロセスおよび偏りのない試験統計を誘導するために使用され得る(例えば、検証データおよび試験データを使用して)検証統計(
図3の15)を作成してもよい。
【0020】
図4は、ニューラルネットワークのための訓練段階の例示の実施態様を示す。訓練後、次いで、ネットワークを使用して、同じ入力パイプラインおよび前方伝播プロセスを介して配列決定またはアレイ数値データを走らせることによって、胚を正倍数性または異数性状態にあるものとして分類することができる。ネットワークへの入力は、
図1に関連して記載されるように、配列決定またはアレイプロセスの出力である2つ以上の(おそらく正規化された)数値アレイを含むことができる。サンプルのセット(例えば、1~3個のサンプル(胚または血漿、および任意選択の母親および父親のゲノムサンプル))のそれぞれについて取得される対立遺伝子頻度(例えば、異数性対立遺伝子の総リード数に対するリード数の比率であり得る対立遺伝子比、または対立遺伝子頻度)もまた、ネットワークの第1の層への入力であってもよい。いくつかの実施形態において、胚または血漿由来の対立遺伝子比が、唯一の入力であってもよい。
図4は、プロセス(8)において訓練データとして選択され、プロセス(9)において構文解析、変換および摂動されたデータについて、各行が1つの胚または血漿に由来する対立遺伝子比を含有するマトリックス(14a)を示す。列は、ゲノム位置を表す。胚生検由来の細胞を用いて作業するときに、示されるように、胚対立遺伝子比が入力されてもよく、いくつかの実施形態では、3つのサンプル(胚、母、および父サンプル)についての対立遺伝子比率が入力される。妊娠している女性の液体生検からの血漿を用いて作業するときに、血漿からの正規化された配列決定またはアレイデータリードまたは強度および対立遺伝子比が入力されてもよい。癌を有しているか、または癌を有していた個体の液体生検からの血漿を用いて作業するときに、目的が、血漿中に存在する癌からcfDNA、例えば、体細胞変異体を定量化するようにネットワークを訓練することであるときに、入力チャネルは、例えば、一致正常サンプルからの配列決定データ、例えば、液体生検(例えば、血液サンプル)から取得されたバフィーコート材料を配列決定することによって取得された個体の生殖細胞変異体の少なくともいくつかを特定することを含むことができる。入力はまた、そのようなサンプルが利用可能である場合、個体から取得された現在のまたは以前の癌サンプル中で特定された体細胞変異体に関するデータを含んでもよい。これは、血漿自体の高リード深度(ref and mut)で入力されるチャネルに加えてもよい。マトリックス(14a)は、例のプールからランダムに選択され得るいくつかの「例」(本明細書では「ケース」とも呼ばれる)を含む1つの訓練バッチの例である。
図4はまた、
図3に記載されるような例示のネットワーク出力(11)、トゥルースデータ(7)およびトゥルースデータ(7)およびネットワーク出力(11)に基づいて決定され得る損失値(12)を示す。1つの例示のプロセスは、損失式、例えば、クロスエントロピー式を使用して損失値(12)を計算することを含む。ニューラルネットワークは、胚、母親および父親のサンプルから取得されたアレイデータを入力として受け入れることができる。ネットワークは、最適化プロセス(14)中にネットワーク出力を修正するために使用され得る訓練可能な変数を含むことができる。ネットワーク出力(11)は、例えば、(x、y)のような分類ベクトルであり、xおよびyは、合計が1となる非負値であり、x>>yは、正倍数性分類を示し、y>>xは、胚の異数性分類を示す。血漿サンプル中の癌に関連する体細胞変異体の存在を検出するために分類ネットワークを訓練するケースでは、y>>xは、例えば、ネットワークがそのような変異体の存在を検出したことを示すことができ、x>>yは、ネットワークが体細胞変異体の存在を検出しなかったことを示すことができる。例えば、x値が所定量(いくつかの実施形態では、ゼロまたは負の量であってもよい)でy値よりも大きい場合、システムは、サンプルを正倍数性として分類してもよく、y値が所定量(いくつかの実施形態では、ゼロまたは負の量であってもよい)でx値よりも大きい場合、システムは、サンプルを異数性を呈するものとして分類してもよい。ネットワーク出力(11)に示される各行は、マトリックス(14a)の入力行ごとのそのようなベクトルの出力を表す。状態の数は、
図4(例えば、2つの状態)のマトリックス(7)および(11)の列の数と等しく、ネットワークを訓練するために使用されるトゥルースデータの利用可能な状態に依存する。ネットワークの出力はまた、トゥルース値(L1ノルム)または距離の2乗(L2ノルム)との絶対差のような異なる損失関数を使用して近似される単一の値であってもよい。このような値の一例は、妊婦の血漿中に見出される胎児画分である。別の例は、宿主からの血漿サンプル中の癌に関連する体細胞変異体からのDNAの定量である。バッチに対する損失値(12)は、バッチに含まれる各例に対する個々の損失の平均または合計として定義されてもよい。任意の他の適切な損失関数も使用されてもよい。
【0021】
図5は、訓練(例えば、確率的勾配降下様最適化を使用して)のために使用され得、次いで前方パスプロセスを使用して胚または胎児染色体の状態を分類するために使用され得る、
図3および
図4に記載のニューラルネットワークの詳細な例を示す。ネットワークは、N×3×約300kの数値テンソルの入力(
図5の15)で開始し、ここで、Nは、Cyto12bアレイと作業するときに一緒に分類されるか、または訓練中にバッチ処理される例の数であり、3つのチャネルは、胚、母親および父親の対立遺伝子比であり、最後の数約300kは、標的にされるゲノム位置の数を表す(
図5の21)。血漿を用いて作業するケースでは、いくつかの実施形態において、N×5×約12kの入力(
図5の15)であって、ここでも、Nは、一緒にバッチ処理される例の数であり、約12kはゲノム位置の数(
図5の21)であり、5つのチャネルは、血漿についての対立遺伝子比、NGS配列決定プロセスからの参照対立遺伝子リード、変異対立遺伝子リード、品質スコア、および対立遺伝子リードエラー率などの4つの(例えば、正規化された)出力アレイである。いくつかの入力チャネルは、異なる基準に従って並べ替えられることがあるため、ゲノム位置が全ての入力チャネルに適用される必要はない。以下に記載される血漿セットアップはまた、5の代わりに1つの入力チャネルのみを有するセットアップを含み(例えば、血漿対立遺伝子リード)、ある数の他の組み合わせが可能である。プロセスは、ネットワーク内の複数の系列(描写される例ではAおよびB)を含むことができ、これらは、異なる入力テンソルに供給され得、いくつかはゲノム位置によってインデックス化され得、いくつかはそうではない。示されるネットワークは、入力ベクトルのサイズを小さくし、追加のチャネルの形態で関連する特徴を抽出する(
図5の20によって例示される)、
図5で16として示される複数の初期1次元畳み込み層、活性化層およびプーリング層を含む。入力(15)は、複数のプーリングおよび活性化機能を含む複数のそのような一連の畳み込み層にチャネリングすることができる。
図5は、図中のAおよびBによって示される2つのそのような一連の例を示す。一連の複数の層はまた、一緒に連結されてもよい。
次いで、一連の層は、ドロップアウトおよび他の規則化技術が任意選択で埋め込まれた、1つ以上の一連の完全に接続された層(
図5の17)に拡張される。完全に接続された層は、ノード間に数百万の重み(
図5の19)をもたらす数百または数千ノードを有してもよい。次いで、完全に接続された層を一緒に連結し、最終的に、サイズN×kの最終的なロジット層(
図5の18)につながり、ここで、kは、所望の分類におけるクラスの数であり、例えば、(18)に示されるように、k=2は2つのクラス、すなわち、正倍数性状態および異数性状態を表す。最終出力(18)は、いくつかの実施形態において、そのような量がトゥルースセットで利用可能であるときに、母親の血漿中の胎児画分などの統計量を示すことを意図した単一の変数であり得る。訓練および分類のための使用中、ロジット(18)は、各状態についての信頼値を取得するためにソフトマックス計算器に供給されてもよく、訓練中に、損失関数が、ネットワークで使用される重みに関する勾配を計算する前に、クロスエントロピーなどに適用される(
図4および
図3の損失値12を参照)。
【0022】
図6は、ネットワークがゲノム位置当たり1セットのクラスを出力する分類ネットワークの一例を示す(
図6の23)。クラスは、所与のゲノム標的またはSNPにおける胚または胎児の状態を表す。例えば、5つのクラスのセットは、図示の軸(
図6の23)によって例示されるように、それぞれが、例えば、各ゲノム位置またはゲノムビンにおける母系一染色体性、父系一染色体性、二染色体性、母系三染色体性もしくは父系トリソミーの尤度を計算するために使用されるロジットの1つを表す5つのチャネル(
図6の22)を有する最終畳み込み層(
図6の25)によって表されるであろう。このケースでは、入力は、
図5(15および21)に例示されるものと同じタイプであるが、出力層は、N×「ゲノム位置の数」(
図6の23)×k(
図6の22)テンソルを含み、ここで、kチャネルの各最終寸法は、
図3に関連して取得され説明されるトゥルース状態(7)を表すkクラスを表し、Nは、訓練、検証または試験段階中に一緒に分類されるか、または一緒にバッチ処理される例の数である。ネットワークは、複数の一次元畳み込み層、活性化層およびプーリング層(
図6の16)、続いて1つ以上の転置畳み込み層(
図6の24)(逆畳み込み層とも呼ばれる)、ならびに出力(
図6の26)および最終畳み込み層(
図6の25)を平滑化するために使用される任意選択の層を含み得る。訓練および最適化は、例えば、アダム最適化アルゴリズムのようなミニバッチ勾配降下およびモーメンタムタイプ最適化を使用して進行する。
図6は、畳み込み-逆畳み込みセットアップのいくつかの系列を示す(
図6のA、B、C)。対応する逆畳み込み層(
図6の24)で終了する系列の各々は、任意選択で、それぞれの損失関数を使用して個別に訓練することができ、次いで、ネットワーク内の他の重み(例えば、
図6の層(26)および(25)などの追加の畳み込み層から)は、逆畳み込みチャネルからの入力を入力チャネルとして使用して訓練され得る。
【0023】
図7は、(例えば、
図3、4、5および6に例示されるような)ニューラルネットワークの訓練後、ネットワークが染色体のセグメントを正倍数性または複数の異数性状態の1つであるように分類することができるように、訓練データおよびトゥルースデータを拡張するためのアルゴリズムを示す。
図5に示すニューラルネットワークの場合、ネットワークは、拡張されたトゥルースおよび配列決定またはアレイデータセットを使用して、示される拡張データセットによってセグメント化または全体的な染色体異数性を有するとして胚の状態を検出するように訓練される。
図6に示される神経ネットワークは、拡張された訓練セットに基づいて、種々の倍数体状態にある胚または胎児のゲノム内で、SNPまたはゲノム位置を検出および位置付けるように訓練される。配列決定またはアレイデータおよびトゥルースデータは、1個以上の合成ケースまたは例を使用して、
図7に示されるように、訓練中に拡張される。合成例を生成するために、アルゴリズムは、訓練セットから2つの例を選択する(
図7の27)。これは、ランダムに行うことができ、例のうちの1つ(例えば、第2の例)は、訓練セットから選択されて、真のデータによって、染色体全体または局所的異数性を有することが保証されるようにする。例えば、システムは、第2の例が、全体的な染色体または局所的異数性を有すると判定することができ、その判定に基づいて第2の例を選択することができる。アルゴリズムは、第2の例の異数性領域(
図7の28)内で、ある程度最小長であり得るセグメントを(例えば、ランダムに)選択し、第1の例からの対応する配列決定またはアレイデータを、第2の例からのデータによって置き換えるプロセス(
図7の29)を行う。第1の例から第2の例からのデータによって置き換えられたデータは、第2の例から選択される異数性セグメントからのゲノム位置に対応してもよい。プロセス(
図7の29)は、訓練中にネットワークも変更されていない例を使用して訓練され得るように、システムを介して変更されていない第1の例を選択的に(例えば、ランダムに、または他の基準に基づいて)通過させてもよい。示される次のプロセス(
図7の30)では、アルゴリズムは、損失計算に提出されたトゥルースデータを修正して、挿入されたセグメントが修正された第1の例において異数性セグメントとしてカウントされるようにし、例が提出されるときに、
図3および
図4に関連して上述されたように、ネットワークの訓練段階中に、ニューラルネットワークに対して、合成および変更されていない例の混合物を含むより大きなバッチの一部としてプロセス(
図7の31)を行う。選択プロセス中(
図7の27)、例は、トゥルースセット内で見出されるか、そうでなければ2つの例について計算される配列決定またはアレイデータ統計が、設定範囲内で類似するように選択される。妊婦由来の血漿のケースでは、これには、類似の胎児画分統計を有する可能性のある合成配列決定またはアレイデータを生成するために選択される2つの例が含まれるであろう。訓練中、この手順は各エポックまたはサイクル中に再び繰り返される。
【0024】
図8は、合成配列決定またはアレイデータ(例えば、対立遺伝子リード)を挿入し、これらは、例えば、そのような欠失が起き、既知の状態を引き起こすと知られている、染色体の種々の領域における小染色体欠失を表すことによって、訓練データおよびトゥルースデータを拡張するためのアルゴリズムを示す。この拡張データを使用して訓練されたネットワークは、欠失の存在に基づいてこれらの領域を分類することを学習する。異なるタイプのネットワーク、例えば、
図4、5または6に示されるネットワークは、この拡張データを使用して訓練されることができ、分類アルゴリズムおよびより一般的な欠失位置アルゴリズムの両方をもたらす。アルゴリズムは、ゲノムの事前定義された領域における小染色体ホモログ欠失(例えば、微小欠失)を検出する能力を有するニューラルネットワークの訓練中に、以下の手順を使用することができると仮定する。第1のプロセスは、訓練セットから例を選択し(
図8の32)、選択された各例について、領域を選択する(
図8の33)ことである(例えば、既知の条件を表す事前定義された微小欠失領域のリストから)。微小欠失領域は、例えば、以下の遺伝子条件および疾患に関連する領域のうちの1つ以上を含むことができる。1p36欠失、1q21.1遠位微小欠失、2q37微小欠失:Albright遺伝性骨形成異常様/短指症、3q29微小欠失、Wolf-Hirschhorn症候群、Cri Du Chat、5p15.2微小欠失、William-Beuren症候群、Langer-Giedion/Trichorhinophalangeal II型、9q34微小欠失/Kleefstra症候群、10p13-p14 DiGeorge 2、11p13微小欠失:WAGR、11q24.1微小欠失:Jacobsen症候群、Angelman、Angelman症候群2型、Prader-Willi症候群2型、Prader-Willi、16p11.2微小欠失、16pter-p13.3微小欠失:AT-ID、Smith Magenis、Miller Dieker症候群、RCAD(17q12 del)、17q21.31微小欠失、18q21.2微小欠失:Pitt-Hoppkins症候群、DiGeorge、22q11.21微小欠失、22q11.2微小欠失、Phelan McDermid 22q13欠失、5q22欠失:IDを有する家族性腺腫性ポリポーシス、5q35.2-35.3微小欠失-Sotos症候群、6p25.3(p24)微小欠失、8p23.1微小欠失CDH2、11p11.2微小欠失:Potocki-Shaffer症候群、13q14.2欠失、IDを有する網膜芽細胞腫、13q32欠失-HPE5、PKD1/TSC2連続欠失症候群、17p13.3遠位微小欠失、17p13.3遠位微小欠失、17q21.31微小欠失、同腕染色体、21q22.3微小欠失:全前脳胞症1、Pelizaeus Merzbacher XL。選択された領域は、設定された範囲内のサイズおよび位置で変更されてもよい。ホモログ生成プロセス(
図8の34)において、アルゴリズムは、事前定義された頻度で、選択された領域における微小欠失ケースを表す配列決定またはアレイデータのシミュレーションを生成し、任意選択で、選択されたゲノム位置からの既存のデータを、母親の血漿のケースにおける胎児画分および胎児DNA分布などの統計を考慮して、シミュレーションされたデータで置き換える。挿入されたマイクロ欠失データは、そのような事前選択された状態の実際の既知のケースに由来してもよく、または本明細書の
図9に関連して記載されるような第2のニューラルネットワーク、もしくは以下に記載される第2のニューラルネットワークによって生成されてもよい。トゥルースを生成または更新するプロセス(
図8の35)において、トゥルースデータは修正され、微小欠失またはパススルーケースを正確に表すためにニューラルネットワークに渡される。合成例を表す配列決定データを生成するプロセス(
図8の36)が実装されてもよく、合成例について生成された配列決定データが摂動され、ニューラルネットワークを介して伝播のために前方に渡され得る。
【0025】
いくつかの実施形態は、第2のニューラルネットワークを実装し、ニューラルネットワークを訓練して、これらのセグメントの集団発生を表す個々のホモログセグメントを生成するために、敵対的生成ネットワーク(GAN)を使用する方法を実装してもよい。GANSは、生成ネットワークおよび識別ネットワークを含んでもよい。生成ネットワークは、それぞれが単一セグメントのホモログを生成する2つの(例えば、同一の)ホモログ生成ネットワークを含んでよい。生成ネットワークの出力は、2つのホモログ生成ネットワークによって産生される2つのホモログを組み合わせることによって産生される非位相性セグメント遺伝子型である。識別ネットワークは、生成ネットワークによって産生される非位相性遺伝子型を、実際の非位相性遺伝子型データと区別する。GANを訓練するために、識別ネットワークは、生成ネットワークによって産生された非位相性遺伝子型を実際の非位相性遺伝子型データと区別するように訓練され、生成ネットワークは、識別ネットワークを「騙す」ように訓練される(識別ネットワークが実際の非位相性遺伝子型データと区別することができない(または区別することが困難である)非位相性遺伝子型を産出する)。一度訓練されると、生成ネットワークを使用して、合成データを作成するために使用されるホモログについての統計を生成し、
図8に関連して説明されるように訓練データの一部を拡張および置き換え、それによって、上述のニューラルネットワークが、胎児または胚に深刻な条件を引き起こす微小欠失を含む関連染色体異常を検出することを可能にすることができる。
【0026】
図9は、これらのセグメントの集団発生を表す個々のホモログセグメント(
図9の41)を生成するように訓練され得る(例えば、第2のニューラルネットワークのための)概略的なニューラルネットワークアーキテクチャを示す。このネットワークは、オートエンコーダと呼ばれるディープニューラルネットワークのグループに関する。訓練のためのネットワークへの入力(
図9の37)は、集団配列決定またはアレイデータ(5)の一部として使用され、利用可能なゲノム位置のサブセットと互換性のある遺伝子型の非位相性セットであり、ランダムに、そうでなければ選択された位相遺伝子型である。ホモログのために生成された統計を使用して、
図8に関連して説明されるように、訓練データの一部を拡張し、置き換え、それによって、前述のニューラルネットワークが、胎児または胚に深刻な状態を引き起こす微小欠失を含む関連染色体異常を検出することを可能にする。複数のタイプのネットワークを使用して、エンコーダ(
図9の38)およびデコーダ(
図9の40および42)を表すことができる。これらには、エンコードするためのプーリングおよび活性化機能を有する畳み込み層、またはエンコードするためのドロップアウトおよび活性化機能を有する完全に接続された層、ならびデコードする層のためのトランスポーズ畳み込みおよび畳み込み、またはデコーダのためのドロップアウトおよび活性化を有する完全に接続された層を含む。オートエンコーダを作成するための種々の技術が実装されてもよく、いくつかは
図6に関連して説明される。
【0027】
いくつかの実施形態の説明は以下のようである。本説明は、例としてのみ提供され、本明細書に記載の方法およびシステムと一致する他の実施形態は、本開示に包含される。
【0028】
図5に示されるネットワークを、少数の細胞のゲノムサンプルからのアレイデータに適用するいくつかの実施形態を以下に記載する。
図5のネットワークは、IVFサイクル中に行われる胚生検(例えば、5日間の胚生検)からの、約80,000個を超えるアレイデータのサンプル、胚の親からの血液サンプル、ならびに生成されラベル付けされたアルゴリズムおよびハンドレビューされたトゥルースの訓練サブセットを使用して訓練される。各例について、入力は、3つのチャネルを含み、1つは胚対立遺伝子比について、1つは母親の対立遺伝子比について、3つ目は父親の対立遺伝子比についてであり、全ての染色体にまたがる3つのサンプルのそれぞれについて約30万個のゲノム位置でCyto12bアレイを使用して全て遺伝子型決定される。対立遺伝子比は、各アレイSNP位置におけるx/(x+y)比であり、ここで、xおよびyは、アレイ遺伝子型決定プロセスによって生成される2アレイチャネル強度である。ハンドラベル付けされた胚全染色体状態トゥルースは、胚染色体ごとに利用可能であり、胚を正倍数性としてか、または異数性状態にあるかとして分類するために使用される。入力層に続いて、いくつかの実施形態は、シリーズAおよびBとして、
図5に示されるように、2つの異なる経路またはシリーズに続く約10の畳み込み層を使用する。畳み込み層の各々には、活性化「elu」機能および最大プール層が続く。畳み込み層および最大プール層の第1のセットは、チャネルの数をそれぞれ3から16に拡大し、それぞれ512および1個の連続する位置の領域を走査してから、16のシフトを有する最大プールが続く活性化関数の出力に対して256個の連続する位置の最大走査を実行することによって開始する。次いで、この構造は、各シリーズAおよびBごとに約4回繰り返され、各回で異なる走査および最大プールサイズが各プロセスにおける出力チャネルの数を倍増させる。いくつかの実施形態についての走査サイズは、
図5のシリーズAおよびBの各々について32、16、8、8のパターン、ならびに各シリーズの第1の層の後のシリーズ内の各層の最大プールについて16、8、4、4のパターンに従う。畳み込み層のシリーズの各々に続いて、完全に接続された層が1024、続いて256個のノードと共に追加され、次いで、いくつかの実施形態は、完全に接続された層を連結し、サイズ128のさらに2つの追加の層、およびトゥルースセットで求められ利用可能な倍数性状態の数に等しい2またはいくつかの数を追加する。最終層内の2つのノードは、2つのクラス「正倍数性」および「異数性」を単純に表す。いくつかの実施形態は、最終層を除く完全に接続された層のそれぞれについて約25%~約75%のドロップアウト率を実装し、最後の層を除く完全に接続された層のそれぞれについては、elu活性化機能が続く。
図3および
図4に示される関連する入力パイプラインは、入力データに摂動を適用し、例えば、SNP当たりのアレイリードをランダムに並べ替えることと、常染色体リードについての母親および父親のサンプルの役割をランダムに切り替えることと、アレイリードを、平均が1に近い分布および比較的小さい標準偏差から描画されるスカラーとランダムに乗算することによって摂動することと、を含む。ニューラルネットワークの訓練は進行し、検証サンプルセットによって満たされたときに、指定された基準に基づいてシリアライズされる。いくつかの実施形態において、Adamと呼ばれる運動量で確率的勾配降下のようなアルゴリズムを使用し、学習速度を約0.0001に設定し、32のバッチサイズを使用する。
【0029】
サブ染色体異数性を検出するためのいくつかの実施形態は、
図7に示されるアルゴリズムまたは
図8に示されるアルゴリズムを
図5の入力パイプラインに適用することによって、異数性のサブ染色体セグメント、例えば欠失セグメント、重複および/または三染色体セグメントを検出するために、
図5に示され、上述されるネットワークを適合させる。このプロセスは、トゥルースラベル付けによって、全染色体異数性を含有することが知られている他の例からのそのような異数性の1つ以上のサンプルをトゥルースデータ(
図2、
図3、
図4、
図7の7)内に位置付けることを含むことができる。選択は、所定の頻度で訓練中にランダムに例に対して行うことができる。例えば、選択は、50%以上、または33%以上の頻度で行うことができる。いくつかの実施形態において、頻度は、25%~66%である。次いで、いくつかの最小長のアレイセグメント(例えば、少なくとも100個のSNP)を、ランダムな場所から開始する1つ以上のランダムに選択された異数性染色体データ(xおよびy強度リード、または対立遺伝子比)からコピーされ、
図7(プロセス29)に示されるように、訓練のために処理される例に挿入される。選択されたランダムな例の父アレイデータおよび母アレイデータからの対応するセグメントも、それぞれ、訓練実施例のために父アレイデータおよび母アレイデータに挿入される。訓練実施例に使用されるラベルは、訓練中に修正され(例えば、一時的に)、
図7に概説される記述的ワークフローによって示されるように、修正された例の変更されたトゥルース状態、または
図8に示される微小欠失を検出するための類似のワークフローを表す。訓練が成功した後に得られるニューラルネットワークは、前方伝播を使用して新しいデータがネットワークを通過するときに、サブ染色体異数性セグメントを容易に検出して、ネットワークを分類のために利用することができるであろう。
【0030】
いくつかの実施形態において、妊婦からの血漿および領域からのおよそ13,000個のSNPのより小さい標的セット(ゲノム位置)を配列決定するときに、標的次世代配列決定から取得される配列決定データは、例えば、染色体13、18、21、および染色体Xを含み、
図5に示されるネットワークのいくつかの実施形態は、畳み込みカーネルサイズに関して類似したスケールダウン構造を使用し、これにより、初期畳み込みネットワークは、128個のゲノム位置、4つの入力チャネル、16の出力チャネル、16位置の最大シフトを有する64の位置にわたる最大プールを採用する。これに続いて、いくつかの実施形態は、完全に接続された層に切り替える前またはフローする前に、畳み込み、活性化、および最大プールの追加の層(例えば、約5個の追加の層)を採用する。いくつかの実施形態は、完全に接続された層において高いドロップアウト率(例えば、約65%以上、または約75%以上、または約85%以上、またはそれ以上)を採用することができ、オーバーフィットを回避するために線形ボトルネック層を実装することができる。訓練セット内の異数性ラベル率は、例えば、1~2パーセントで低くてもよいため、ノイズの追加、リードの摂動、参照および変異リードの役割の切り替えを含む、アレイデータに関連して上述された技術に加えて、いくつかの実施形態は、所与の例において、訓練データの一部を、異数性を有する異なる例の染色体および類似の血漿胎児画分からのデータで置き換えおよび並べ替えた後に、トゥルースデータによって決定されるように、例を再ラベル付けすることを含み、
図7または
図8に示されるプロセスに従うことを含む。いくつかの実施形態において、染色体全体の異数性呼び出しのいくつかの実施態様において、
図7のプロセス29におけるSNPの最小数が使用される(例えば、所与の染色体上の位置の数、および所与の染色体上の利用可能なSNPの数に等しい最大長に基づく、および/またはそれに近い数(例えば、+/-5%))。いくつかの実施形態は、訓練バッチにおけるそれらの頻度を増加させることに加えて、異数性例について、約0.0001の目標学習速度、ならびに学習速度スケジュール、約128のミニバッチサイズ、および約0.25の減少した重みを実装する。
【0031】
いくつかのナチュラルネットワークトポロジー実施形態では、本明細書では、妊婦からの血漿を分類するときに使用されるものは、リードのためのバイアスモデルと呼ばれる、染色体13、18、21、およびXからのおよそ13,000のゲノム位置からの参照および変異血漿リードから開始することを含む。実施形態は、追加の染色体またはより少ない染色体からのリードを含んでもよい。参照および変異読み取りは、ネットワークへの入力として処理または集約された次世代配列決定リード(「ref」および「mut」リード)から2つの初期チャネルまたは特徴として開始し、次いで、畳み込み層のシリーズを構築して、チャネルまたは特徴の数を増加させるが、走査長を1つのゲノム位置、2~128チャネル、128~64チャネル、64~32チャネル、32~16チャネル、8~4チャネル、4~2チャネルに維持し、各層は、訓練可能な重みのカーネルおよび特徴ごとに1つの訓練可能なバイアス変数、ならびに各層間のelu活性化関数を有する。次いで、ネットワークは、活性化機能が続く2~1チャネルの畳み込み層を継続して採用するが、この場合、1つのチャネルバイアス変数に加えて、このレベルでのネットワークの出力に対応する各ゲノム位置は、出力されたゲノム位置ごとに別個の訓練可能な変数を取得し、時には結合解除バイアスと呼ばれる。モデルが、縛られたバイアスおよび縛られていないバイアスのこの特定のモデルを採用した後、出力データは、チャネルまたは特徴の数を1から128に、128から64に、64から32に、32から16に、および16から8に変更して、一連の畳み込みおよび活性化関数を通して再び取得され、各回は、チャネルごとの特徴バイアスを含み、elu活性化関数および1の走査サイズが続く。次いで、各ネットワーク層のサイズは、縛られた特徴バイアスのみを採用する、各々活性化関数および最大プール層が続くさらに6つの畳み込み層を追加することによって修正される。
これらの6つの層の走査サイズは、6つの層のうちの最初の層について128であるため、各層は、サイズ4の走査カーネルを有し、チャネルの数は、各層によって倍増され、最大走査は、64に設定され、最初の2つの層については8に設定され、最大プールまたはシフトは、それぞれの6つの最終畳み込み最大プール層について16、8、4、4、2および2に設定される。これら全ての畳み込み層に続いて、ドロップアウトを有する2つの完全に接続された層およびelu活性化が使用され、第1のものは1024のノードを有し、第2のものは256のノードを有し、90%を超える高いドロップアウト率が使用されるが、これは、入力データの処理と、正のケースが挿入(
図7を参照)によって、または反復および/または重みによって訓練セット内のそれらの頻度を人工的に増加させることによってのいずれかによって、何回繰り返されるかに依存する。最後に、
図5に関連して記載されたように分類結果を得るために、2つの出力を有するリニアロジット層が添付される。次いで、訓練プロセスは、本明細書に記載されるように進行してもよい。
【0032】
標的次世代配列決定血漿配列決定を使用するときのサブ染色体異数性呼び出しについて、いくつかの実施形態は、
図7のプロセス28および29のための少数の最小数のSNPを使用して、
図7に示されるアルゴリズムを実装する。いくつかの実施形態は、アルゴリズム内のプロセス34について
図9のデコーダネットワーク40および42を使用して生成された混合合成集団データを使用して、特定の微小欠失について
図8に示されるアルゴリズムを採用する。マージセグメントは、
図7のプロセス29において、例えば、確率的プロセス(例えば、ランダムな開始位置)を使用して選択された開始位置を有する連続セグメント、および
図7にさらに記載されるように、手元の訓練例および所与の異数性サンプルを含有する例の両方について同様の胎児画分を有する血漿データに由来する染色体全体異数性からの長さとして選択される。
【0033】
SNPレベル分解能までの種々の染色体内の異数性のサブ染色体セグメントを位置付けるために、いくつかの実施形態は、
図6に示されるセグメンテーションネットワークを使用する。いくつかの実施形態は、
図6においてA、B、Cとして示される、および
図6に関連して上述されるような3つの異なる経路またはシリーズを含む。アレイデータに関して、いくつかの実施形態は、データを圧縮するために、畳み込み層、続いてReLu活性化関数および最大プールを使用する。いくつかの実施形態において、層A、BおよびCは、3つの入力チャネル(各ゲノム位置についての胚、母親および父親の対立遺伝子比)、512個の連続位置の走査サイズおよび32個の出力チャネル、続いて、活性化関数ならびに256個の連続ゲノム位置の最大走査および32の最大プールステップサイズを有する1つの畳み込み層から始まり、その後に、さらに2つの畳み込み層を加え、各々が活性化関数を含み、チャネルを32から64、次いで128まで増加させ、それぞれが8の走査を有する。いくつかの実施形態は、経路Aについて、256の出力走査、32のストライド、および2つの出力層を有する転置畳み込み層(
図6の24)を採用する。経路Bに続いて、いくつかの実施形態は、32の走査長を有し、出力チャネルを倍増させる、少なくとも1つの追加の畳み込み層、続いて、活性化関数、および16の最大走査および4のステップサイズ4を有する最大プール層を含む。パスCは、
図6のレイアウトによって示されるように、16の走査長を有し、再び出力チャネルを倍増させるさらに別の畳み込み層、続いて、活性化関数、および8の最大走査および4のステップサイズを有する最大プール層を採用する。経路AおよびBに関して、いくつかの実施形態は、経路Cについて最後の最大プール層に続くが、調整されたチャネル入力および出力数を有し、かつ以前と同様に、各プロセスにおけるチャネル数に関して2の比率を有する同様の畳み込み層を採用する。経路Bに続く転置畳み込み層(
図6の24)は、128のストライド長、256の出力走査を有し、チャネルの数を2に減らす。経路Cに続く転置畳み込み層(
図6の24)は、512のストライド長、256の出力走査を有し、チャネルの数を再び2に減らす。
【0034】
次いで、3つの転置畳み込み層からそれぞれ2個の6つの出力チャネルを6つのチャネルに組み合わせ、それぞれがReLu活性化関数に続くさらに2つの畳み込み層を通過させる。いくつかの実施形態において、最終層は、2つの最終出力チャネルを有し、これは、訓練後、トゥルース状態のそれぞれのセグメントに属するゲノム位置の信頼性尤度(例えば、ソフトマックス信頼性尤度)を提供することによって、見えない例または注釈のない例と共に供給され、前方伝播を使用し、上記
図6に関連してさらに説明されるようなもののときに、各ゲノム位置(SNP)の正倍数性クラスと異数性クラスを区別するように構成される。
【0035】
次世代配列決定データについて、いくつかの実施形態は、母親の血漿由来の対立遺伝子比、ゲノム位置当たりの正規化およびスケール化された総リード数、ならびに対立遺伝子比の1つ以上の並べ替えされたセットなどの量を表す入力チャネルを実装する。セグメンテーションネットワーク(例えば、
図6に示されるように)は、データのサイズ(SNPの数)に一致するようにスケールされる。両方の場合において、アレイデータおよび配列決定データは、上記
図3、4、および5に関連して説明されるように、摂動を経る。サブ染色体異数性を検出するためにネットワークを訓練するために、
図7および/または
図8に示されるアルゴリズムは、入力パイプラインに含まれ得、アレイデータを参照して上述された方法と同様の方法でサブ染色体異数性を位置決めするように構成されたシステムをもたらす。いくつかの実施形態は、サブ染色体異数性を検出するためにネットワークを訓練するときに、プロセス28において小さな最小セグメント長を使用する。
【0036】
いくつかの実施形態は、
図9に示される訓練されたニューラルネットワークを使用して、
図8に示される訓練アルゴリズムのプロセス34で使用される配列決定またはアレイデータを生成するために使用される、
図9のサブネットワーク40および42として示される復号サブネットワークを作成する。
図9に示されるネットワークのいくつかの実施形態は、ゲノムの特定のゲノム領域に焦点を当てたおよそ1000個のSNPに対応する、
図9の37の入力層を使用する。各場所で初期畳み込み層、活性化層および最大プール層に入力されるクラスは、サイズ4のベクターとして示され、以下に説明される4つのチャネルとして表される遺伝子型である。ランダム(そうでなければ)選択された位相ヘテロ接合性遺伝子型を使用して、2つの親デコーダサブネットワーク(
図9の40または
図9の42)のうちのどちらが各例についてどのホモログを出力すべきかを判定することができる。このネットワークは、入力されたものと同じゲノム配列を出力するように訓練されている(
図9の43)ため、トゥルースは知られており、128の例のミニバッチでこのネットワークを訓練するとき、出力されたソフトマックス確率上のクロスエントロピー関数として損失関数が容易に計算される。第1の入力畳み込み層に続いて、チャネルの数は、後続の畳み込み層においてゆっくりと増加し、畳み込み層の各々には、活性化および最大プール層が続き、構造38および39として
図9に示されるように、複数の符号化または圧縮層をもたらす。いくつかの実施形態は、最終復号層39内の入力変数の数が、第1の層によって提供される集約および最大プールによって、大幅に減少することを確実にし、入力変数の数は、
図9の37として示される最初の層で使用される。最後のデコーダ層に続いて、
図9の39、転置畳み込み層の
図9の2つのシリーズ40および42は、いくつかの実施形態において、入力(37)されるゲノム位置の数とほぼ等しい長さを有するが、37として示される入力に採用される4つのチャネルの代わりに、それぞれが2つのチャネルを有する親1(第1の親)および親2(第2の親)ホモログを構築するために用いられる。
図9の最終出力43を生成するために、以下に説明する式が、
図9の層40および42の出力に適用される。以下のプロセスは、
図9の入力層37と、復号ネットワーク40および42の2つのサブネットワーク41および44の出力、ならびに最終出力43との間の遺伝子型を接続するために使用することができる。いくつかの実施形態について、ネットワーク構造は、既に説明されているように、2つの染色体ホモログがネットワーク構造内に内部で表されるようなものであり、ネットワークは、訓練後に生成されたホモログを個別に選択的に出力するように細分化されてもよい。ゲノム位置ごとに入力される5つのゲノム遺伝子型は、各例についての各入力位置の集団データに見出される順序のない(非位相性)RR、RM、MM、および位相性R
1M
2、R
2M
1シンボルである。最後の2つの位相性遺伝子型クラスR
1M
2、R
2M
1は、それぞれ、親1(
図9の40)からのR(参照、遺伝子型、対立遺伝子、または所与の位置でのSNP)、親2(
図9のネットワーク44)からのM(変異、遺伝子型、対立遺伝子、または所与の位置でのSNP)、およびその逆を表す。したがって、位相性集団配列決定またはアレイデータは、位相性ヘテロ接合遺伝子型を使用して、訓練中に非位相性データと混合されてもよい。位相性遺伝子型および非位相性遺伝子型の混合に対応するために、ネットワークは、ゲノム位置当たり4チャネルの入力層から開始することができ、各位置は、RR=(1,0,0,0)、MM=(0,1,0,0)、RM=(0,0,0.5,0.5)、R
1M
2=(0,0,1,0)、およびR
2M
1=(0,0,0,1)としての遺伝子型に応じた属性を有する。明らかに、チャネルの並べ替えを含む他の表現が可能である。デコーダ層のそれぞれの出力(
図9の41および44)は、ゲノムホモログ位置について、x>yがRを表し、x<yがMを表すゲノム位置当たりの尤度ベクトル(x、y)である。最終出力(
図9の43)は、単純に、親1(41)(x1、y1)についてのデコーダ層からの出力、および親2(44)(x2、y2)についての出力を、ネットワークの出力(43)に含まれる各ゲノム位置についての出力チャネル値を表す遺伝子型尤度値(x1*x2、y1*y2、x1*y2、x2*y1)にマッピングするデコーダ層からの出力の関数である。この操作は、ソフトマックス公式の前または後に適用されてもよく、アプローチに応じて、式がそれに応じて修正される。
図9は、図上でゲノム位置6のための式を示すことによってこのマッピングを例示する(
図9の41、44および43)。
【0037】
図9に示されるネットワークが、上述のように、手元の微小欠失ゲノム領域の集団アレイまたは配列決定データを使用して訓練された後、個々のホモログ層40および42を定義する重みおよび前方伝播は、親から子に渡されるホモログを集団一貫した方法で合成するためのジェネレータの少なくとも一部を構成する。次いで、中間層(
図9の45)から出力される可能な数値の各セットについて生成されたホモログを使用して、エンコーダ40または42のうちの1つを無視することによって、または別の染色体異常を無視することによって、欠失から取得された対立遺伝子比または読み取り値をシミュレートすることができる。中間層(
図9の45)からの出力を表すために選択された値範囲は、現実的なホモログを生成するために、(
図9の37)から始まるより大きなネットワークを介して検証または試験データを動作させるときに、
図9の層39の出力を通過する値に近い値の範囲に基づいて、選択されてもよい。
【0038】
(例えば、上述のように)GANを実装するいくつかの実施形態では、GANが手元の微小欠失ゲノム領域の集団アレイまたは配列決定データを使用して訓練された後、GANの生成ネットワークによって生成されたホモログを使用して、単一のホモログのみまたは別の染色体異常を使用して非位相性遺伝子型を作成することによって、欠失から取得された対立遺伝子比またはリードをシミュレートすることができる。ホモログを合成データとして使用することができ、
図8に関連して説明されるように、訓練データの一部を拡張および置き換えることができ、それによって、上述のニューラルネットワークが、胎児または胚に深刻な状態を引き起こす微小欠失を含む関連染色体異常を検出することを可能にする。
【0039】
ここで
図10を参照すると、
図10は、倍数性呼び出しシステム1000の一実施形態を示すブロック図である。倍数性呼び出しシステム1000は、1つ以上のプロセッサ1002、およびメモリ1004を含むことができる。1つ以上のプロセッサ1002は、1つ以上のマイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、またはそれらの組み合わせを含んでもよい。メモリ1004は、限定されないが、電子、磁気、またはプロセッサにプログラム命令を提供することができる任意の他の記憶装置または送信デバイスを含んでもよい。メモリは、磁気ディスク、メモリチップ、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、フラッシュメモリ、またはプロセッサが命令を読み取ることができる任意の他の適切なメモリを含んでもよい。メモリ1004は、本明細書に記載される任意のプロセスを含む、エラー分析プロセスを実装するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の1つ以上のセットを含んでもよい。例えば、メモリ1004は、訓練データ1006、アノテータ1008、ニューラルネットワーク1012、トゥルースデータ1010、およびネットワークアップデータ1016を含んでもよい。
【0040】
訓練データ1006は、ゲノムまたは血漿サンプルについての遺伝子型決定または配列決定データを含んでもよい。訓練データ1006は、例えば、次世代配列決定(NGS)を使用して、Cyto12bアレイまたは標的一塩基多型(SNP)プールを使用して生成されてもよい。Cyto12bアレイは、例えば、全ての染色体にわたって約30万個(ここでは約300kと書く)のSNP標的を有し得、種々のNGSプールは、例えば、数百個のゲノム位置から数万または数十万個のSNPの範囲のより小さな標的SNPセットを有し得る。訓練データ1006を生成するために使用されるサンプルは、例えば、胚由来の1つ以上の細胞、および胚の親由来の任意選択のゲノムサンプルを含んでもよい。
いくつかの実施形態において、サンプルは、妊婦からの血漿サンプルを含んでもよい(例えば、胎児に関して、非侵襲的な液体生検によって取得される)。訓練データ1006は、分析されたサンプルの各々についての数値アレイデータを含んでもよく、これは、サンプル当たりの正の数の2つ以上の数値アレイを含み得、各数値アレイ長は、配列決定標的プールまたはアレイおよび数値アレイ内の個々のエントリによって特定されるゲノム位置の数と等しい。
【0041】
アノテータ1008は、訓練データを使用してトゥルースデータを生成するための、構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の1つ以上のセットを含んでもよい。アノテータ1008は、経験的および第1原理アルゴリズムを訓練データに適用して、訓練データに注釈を付け(例えば、訓練データを分類するために)、トゥルースデータ1010を生成してもよい。トゥルースデータ1010は、参照データとして使用され得、例えば、分析されたサンプルの正確な分類を示すと仮定されてもよい。トゥルースデータ1010は、胚または胎児から特定された各染色体が正倍数性状態にあるか、またはいくつかの倍数性状態のうちの1つにあるとされる分類および尤度を含んでもよい。いくつかの実施形態において、アノテータ1008は、マニュアルアノテーションと併せて使用されて、トゥルースデータ1010を生成する。いくつかの実施形態において、アノテータ1008は省略されてもよく、トゥルースデータ1010は、いくつかの他の方法で(例えば、マニュアルアノテーションを介して)生成または供給される。
【0042】
ニューラルネットワーク1012は、遺伝子配列決定データまたは(前処理され得る)遺伝子アレイデータをニューラルネットワーク1012を介して伝播させることによって、試験サンプルについて、または訓練中に、標的遺伝子領域の倍数性状態(例えば、正倍数性もしくは異数性の指定、または1つ以上の特定の異数性の指定)を判定するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の1つ以上のセットを含んでもよい。ニューラルネットワーク1012は、倍数性状態を示す分類情報を出力してもよい。ニューラルネットワーク1012は、1つ以上の層を含んでもよい。例えば、ニューラルネットワーク1012は、複数の畳み込み層、活性化層およびプーリング層を含んでもよい(例えば、入力ベクトルのサイズを小さくし、関連する特徴を追加チャネルの形態で抽出する)。ニューラルネットワーク1012は、1つ以上のシリーズを含んでもよい。シリーズは、まとめて鎖状とされるか、またはリンクされてもよい。シリーズは、ドロップアウトおよび任意選択で埋め込まれた他の規則化技術を用いて、完全に接続された層の1つ以上のシリーズに延在してもよい。完全に接続された層は、ノード間に数百万の重み1014をもたらす数百または数千のノードを有してもよい。完全に接続された層は、最終層につながるように一緒に連結されてもよい。ニューラルネットワーク1012は、サイズN×kの最終ロジット層を含んでよく、ここで、kは、所望の分類におけるクラスの数である(例えば、k=2は、正倍数性状態および異数性状態の2つのクラスを表す)。ニューラルネットワーク1012の最終出力は、いくつかの実施形態において、そのような量がトゥルースセットで利用可能であるときに、母親の血漿中の胎児画分などの統計量を示すことを意図した単一の変数であり得る。ニューラルネットワーク1012は、「elu」活性化機能または「ReLu」活性化機能を実装してもよい。ニューラルネットワーク1012は、特徴、構造のいずれかを含んでもよく、または本明細書に記載される利点のいずれかを提供して、倍数性状態情報を出力、および/もしくは倍数性状態を呼び出してもよい。
【0043】
ネットワークアップデータ1016は、ニューラルネットワーク1012を更新、最適化、または修正するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の1つ以上のセットを含んでもよい。例えば、ネットワークアップデータ1016は、バッチャー1018、ケースシンセサイザ1020、損失計算器1022、および重みオプティマイザ1024を含んでもよい。ネットワークアップデータ1016は、ニューラルネットワーク1012の重み1014を修正して、ニューラルネットワーク1012を最適化するように構成されてもよい。例えば、ネットワークアップデータ1016は、ニューラルネットワーク1012を介して訓練データ1006のバッチをフィードしてもよく(各バッチは、1つ以上の例、またはケースを含む)、そのようなプロセスの出力に基づいて、ニューラルネットワーク1012を最適化してもよい。
【0044】
バッチャー1018は、ューラルネットワーク1012を通過する、または伝播する訓練データ1006のバッチを決定するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の1つ以上のセットを含んでよい。バッチは、所定の数のケースまたは訓練データの例を含んでもよく、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置について対立遺伝子頻度を示すデータを含む。バッチに含まれるケースは、ランダムに判定されてもよい。
【0045】
バッチャー1018は、合成ケースを生成するように構成されたケースシンセサイザ1020を含んでよい。例えば、バッチャー1018は、訓練データ1006から2つのケースを選択する。これはランダムに行うことができ、ケースのうちの1つ(例えば、第2のケース)は、訓練データ1006から選択されて、トゥルースデータ1010によって、染色体全体または局所的異数性を有することが保証されるようにする。例えば、ケースシンセサイザ1020は、第2のケースが染色体全体または局所的異数性を有すると判定することができ、その判定に基づいて第2のケースを選択することができる。ケースシンセサイザ1020は、第2のケースの異数性領域内で、ある程度最小長であり得るセグメントを(例えば、ランダムに)選択し、第1のケースからの対応する配列決定またはアレイデータを、第2のケースからのデータによって置き換える。第1のケースから第2のケースからのデータによって置き換えられたデータは、第2のケースから選択される異数性セグメントからのゲノム位置に対応してもよい。ケースシンセサイザ1020は、訓練中にネットワークも変更されていない例を使用して訓練され得るように、システムを介して変更されていない第1のケースを選択的に(例えば、ランダムに、または他の基準に基づいて)通過させてもよい。ケースシンセサイザ1020は、ネットワークの訓練段階中に、合成および変更されていない例の混合物を含むより大きなバッチの一部としてケースがニューラルネットワークに提出されるときに、挿入されたセグメントが修正された第1のケースにおいて異数性セグメントとしてカウントされるように、トゥルースデータ1010を修正してもよい。選択プロセス中、バッチャー1018は、トゥルースセット内で見出されるか、そうでなければ2つの例について計算される配列決定またはアレイデータ統計が、設定範囲内で類似するようにケースを選択する。妊婦由来の血漿のケースでは、これには、類似の胎児画分統計を有する可能性がある合成配列決定またはアレイデータを生成するために選択される2つのケースが含まれ得る。訓練中、この手順は各エポックまたはサイクル中に再び繰り返される。
【0046】
損失計算器1022は、損失関数または損失式を使用して、トゥルースデータ1010に基づいて、かつニューラルネットワーク1012の出力に基づいて、1つ以上の損失値を決定するように構成されてもよい。例えば、損失式は、クロスエントロピー式を含む。
損失計算器1022は、全体としてバッチについての損失を計算してもよく、例えば、バッチに含まれるケースごとの個々の損失の平均または合計として計算してもよい。
【0047】
重みオプティマイザ1024は、例えば、損失計算器1022によって決定される損失値に基づいて、重み1014を最適化するか、そうでなければニューラルネットワーク1012を修正するように構成される。重みオプティマイザ1024は、例えば、確率的勾配降下最適化の修正された形態、または別の適切な最適化プロセスを使用して、重み1014を修正することができる。いくつかの実施形態において、重みオプティマイザ1024は、運動量を有する確率的勾配降下様アルゴリズム(例えば、本明細書に記載されるアダムアルゴリズム)を使用し、学習レートを約0.0001に設定する。いくつかの実施形態において、重みオプティマイザ1024は、ミニバッチ勾配降下および運動量タイプ最適化を使用する。
【0048】
ここで
図11を参照すると、
図11は、標的遺伝子領域の倍数性状態を呼び出す一例の方法を示すフローチャートである。本方法は、プロセス1102~1110を含む。簡単に要約すると、プロセス1102において、倍数性呼び出しシステム1000は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定する。プロセス1104において、倍数性呼び出しシステム1000は、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定する。プロセス1106において、倍数性呼び出しシステム1000は、それぞれの複製状態値を呼び出すためのニューラルネットワークを決定し、ニューラルネットワークは少なくとも部分的に複数の重みによって定義される。プロセス1108において、倍数性呼び出しシステム1000は、終了条件が満たされるまで、ニューラルネットワークを反復的に修正する。プロセス1110において、倍数性呼び出しシステム1000は、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出す。
【0049】
より詳細には、プロセス1102において、倍数性呼び出しシステム1000は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定する。遺伝子配列決定データまたは遺伝子アレイデータは、次世代配列決定(NGS)を使用して、Cyto12bアレイまたは標的一塩基多型(SNP)プールを含んでもよい。遺伝子配列決定データは、1つ以上の標的のいくつかのリードまたはリードカウントを含んでもよい。Cyto12bアレイは、例えば、全ての染色体にわたって約30万個(ここでは約300kと書く)のSNP標的を有し得、種々のNGSプールは、例えば、数百個のゲノム位置から数万または数十万個のSNPの範囲のより小さな標的SNPセットを有し得る。訓練データ1006を生成するために使用されるサンプルは、例えば、胚由来の1つ以上の細胞、および胚の親由来の任意選択のゲノムサンプルを含んでもよい。いくつかの実施形態において、サンプルは、妊婦からの血漿サンプルを含んでもよい(例えば、胎児に関して、非侵襲的な液体生検によって取得される)。
【0050】
プロセス1104において、倍数性呼び出しシステム1000は、アノテータ1008を使用して、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定し、アノテータ1008は、訓練データに経験的および第1原理アルゴリズムを適用して、訓練データに注釈を付け(例えば、訓練データを分類)、トゥルースデータ1010を生成してもよい。トゥルースデータ1010は、参照データとして使用され得、例えば、分析されたサンプルの正確な分類を示すと仮定されてもよい。トゥルースデータ1010は、胚または胎児から特定された各染色体が正倍数性状態にあるか、またはいくつかの異数体状態の1つにあるとされる分類および尤度を含んでもよい。いくつかの実施形態において、アノテータ1008は、マニュアルアノテーションと併せて使用されて、トゥルースデータ1010を生成する。いくつかの実施形態において、アノテータ1008は省略されてもよく、トゥルースデータ1010は、例えば、手動アノテーションを介して、または外部データベースを参照することによって、いくつかの他の方法で決定されてもよい。
【0051】
プロセス1106において、倍数性呼び出しシステム1000は、それぞれの複製状態値を呼び出すためにニューラルネットワーク(例えば、ニューラルネットワーク1012)を判定し、ニューラルネットワークは少なくとも部分的に複数の重みによって定義される。ニューラルネットワーク1012は、倍数性状態を示す分類情報を出力してもよい。
ニューラルネットワーク1012は、1つ以上の層を含んでもよい。例えば、ニューラルネットワーク1012は、複数の畳み込み層、活性化層およびプーリング層を含んでもよい(例えば、入力ベクトルのサイズを小さくし、関連する特徴を追加チャネルの形態で抽出する)。ニューラルネットワーク1012は、1つ以上のシリーズを含んでもよい。ニューラルネットワーク1012は、サイズN×kの最終ロジット層を含んでよく、ここで、kは、所望の分類におけるクラスの数である(例えば、k=2は、正倍数性状態および異数性状態の2つのクラスを表す)。ニューラルネットワーク1012の最終出力は、いくつかの実施形態において、そのような量がトゥルースセットで利用可能であるときに、母親の血漿中の胎児画分などの統計量を示すことを意図した単一の変数であり得る。ニューラルネットワーク1012は、「elu」活性化機能または「ReLu」活性化機能を実装してもよい。
【0052】
プロセス1108において、倍数性呼び出しシステム1000は、終了条件が満たされるまでニューラルネットワークを反復的に修正する(例えば、ネットワークアップデータ1016を使用して)。ネットワークアップデータ1016は、ニューラルネットワーク1012の重み1014を修正して、ニューラルネットワーク1012を最適化するように構成されてもよい。例えば、ネットワークアップデータ1016は、ニューラルネットワーク1012を介して訓練データ1006のバッチをフィードしてもよく(各バッチは、1つ以上の例、またはケースを含む)、そのようなプロセスの出力に基づいて、ニューラルネットワーク1012を最適化してもよい(例えば、損失関数を最小化することによって)。ニューラルネットワークを反復的に修正する例示的な実施態様を
図12に示す。
【0053】
プロセス1110において、倍数性呼び出しシステム1000は、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出す。いくつかの実施形態において、ネットワーク出力は、(x、y)のような分類ベクトルであり、xおよびyは、合計が1となる非負値であり、x>>yは、正倍数性分類を示し、y>>xは、胚の異数性分類を示す。例えば、x値が所定量(いくつかの実施形態では、ゼロまたは負の量であってもよい)でy値よりも大きい場合、システムは、サンプルを正倍数性として分類してもよく、y値が所定量(いくつかの実施形態では、ゼロまたは負の量であってもよい)でx値よりも大きい場合、システムは、サンプルを異数性を呈するものとして分類してもよい。
【0054】
ここで
図12を参照すると、
図12は、ニューラルネットワークを修正する例示の方法を示すフローチャートである。例示の方法は、ニューラルネットワークを最適化するために反復的に使用されてもよい。本方法は、プロセス1202~1210を含む。簡単に要約すると、プロセス1202において、倍数性呼び出しシステム1000は、複数のケースを含むデータのバッチを判定する。プロセス1204において、倍数性呼び出しシステム1000は、バッチの複数のケースのうちの1つ以上に基づいて合成ケースを生成し、拡張バッチを生成するためにバッチに合成ケースを含める。プロセス1206において、倍数性呼び出しシステム1000は、合成ケースに基づいて真の状態値を拡張する。プロセス1208において、倍数性呼び出しシステム1000は、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成する。プロセス1210において、倍数性呼び出しシステム1000は、ネットワーク出力に基づいて、複数の重みのうちの1つ以上を修正する。
【0055】
より詳細には、プロセス1202において、倍数性呼び出しシステム1000は、複数のケースを含むデータのバッチを決定する(例えば、バッチャー1018を使用する)。
バッチャー1018は、ニューラルネットワークを通過する、または伝播する訓練データのバッチを決定するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の1つ以上のセットを含んでよい。バッチは、所定の数のケースまたは訓練データの例を含んでもよく、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの1つ以上の位置について対立遺伝子頻度を示すデータを含む。バッチに含まれるケースは、ランダムに判定されてもよい。
【0056】
プロセス1204において、倍数性呼び出しシステム1000は、(例えば、ケースシンセサイザ1020を使用して)バッチの複数のケースのうちの1つ以上に基づいて合成ケースを生成し、拡張バッチを生成するためにバッチに合成ケースを含める。例えば、バッチャー1018は、訓練データ1006から2つのケースを選択する。これはランダムに行うことができ、ケースの1つ(例えば、第2のケース)が訓練データから選択されて、トゥルースデータによって、染色体全体または局所的異数性を有することが保証される。例えば、ケースシンセサイザ1020は、第2のケースが染色体全体または局所的異数性を有すると判定することができ、その判定に基づいて第2のケースを選択することができる。ケースシンセサイザ1020は、第2のケースの異数性領域内で、ある程度最小長であり得るセグメントを(例えば、ランダムに)選択し、第1のケースからの対応する配列決定またはアレイデータを、第2のケースからのデータによって置き換える。第1のケースから第2のケースからのデータによって置き換えられたデータは、第2のケースから選択される異数性セグメントからのゲノム位置に対応してもよい。ケースシンセサイザ1020は、訓練中にネットワークも変更されていない例を使用して訓練され得るように、システムを介して変更されていない第1のケースを選択的に(例えば、ランダムに、または他の基準に基づいて)通過させてもよい。選択プロセス中、バッチャー1018は、トゥルースセット内で見出されるか、そうでなければ2つの例について計算される配列決定またはアレイデータ統計が、設定範囲内で類似するようにケースを選択する。妊婦由来の血漿のケースでは、これには、類似の胎児画分統計を有する可能性がある合成配列決定またはアレイデータを生成するために選択される2つのケースが含まれ得る。訓練中、この手順は各エポックまたはサイクル中に再び繰り返される。
【0057】
プロセス1206において、倍数性呼び出しシステム1000は、合成ケースに基づいて真の状態値を拡張する。ケースシンセサイザ1020は、ネットワークの訓練段階中に、合成および変更されていない例の混合物を含むより大きなバッチの一部としてケースがニューラルネットワークに提出されるときに、挿入されたセグメントが修正された第1のケースにおいて異数性セグメントとしてカウントされるように、トゥルースデータ1010を修正してもよい。
【0058】
プロセス1208において、倍数性呼び出しシステム1000は、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成する。プロセス1210において、倍数性呼び出しシステム1000は、ネットワーク出力に基づいて、複数の重みのうちの1つ以上を修正する。これは、例えば、重みオプティマイザ1024を使用して、例えば、損失計算器1022によって判定された損失値に基づいて実装されてもよい。重みオプティマイザ1024は、例えば、確率的勾配降下最適化の修正された形態、または別の適切な最適化プロセスを使用して、ニューラルネットワークの重みを修正することができる。いくつかの実施形態において、重みオプティマイザ1024は、運動量を有する確率的勾配降下様アルゴリズム(例えば、本明細書に記載されるアダムアルゴリズム)を使用し、学習レートを約0.0001に設定する。いくつかの実施形態において、重みオプティマイザ1024は、ミニバッチ勾配降下および運動量タイプ最適化を使用する。したがって、倍数性呼び出しシステム1000は、ニューラルネットワークを訓練してもよい。
【0059】
サンプル調製
いくつかの実施形態において、本明細書に記載されるシステムおよび方法を使用して、生体サンプルの倍数性状態を呼び出してもよい。生体サンプルは、胎児、母、または父のものであってもよい。生体サンプルは、血液、血清、血漿、尿、および生検サンプルから選択されてもよい。いくつかの実施形態において、少なくとも10、または少なくとも20、または少なくとも50、または少なくとも100、または少なくとも200、または少なくとも500、または少なくとも1,000個のSNV遺伝子座が、単離された無細胞DNAから増幅される。いくつかの実施形態において、少なくとも200、または少なくとも500、または少なくとも1,000、または少なくとも2,000、または少なくとも10,000、または少なくとも20,000、または少なくとも50,000、または少なくとも100,000のリード深度で配列決定される。サンプルの調製または処理は、対象の生体サンプルから無細胞DNAを単離することと、単離された無細胞DNAから複数の標的塩基を含む複数の一塩基バリアント(SNV)遺伝子座を増幅することと、増幅産物を配列決定して、遺伝子配列決定データを取得することと、を含んでもよい。いくつかの実施形態は、患者から複数の生体サンプルを長期的に収集し、分析することを含む。
【0060】
癌を検出するための方法
さらなる態様において、本開示は、サンプルを癌性として分類するための方法であって、対象の生体サンプルから無細胞DNAを単離することと、単離された無細胞DNAから複数の標的塩基を含む複数の一塩基バリアント(SNV)遺伝子座またはセグメントを増幅することであって、SNV遺伝子座またはセグメントが癌に関連することが知られている、増幅することと、増幅産物を配列決定することと、サンプルを癌性として分類するために、本明細書に記載される1つ以上のプロセスを使用すること(例えば、本明細書に記載される方法で訓練されたニューラルネットワークを使用することであって、ラベル付けされ、増強され、および/または合成された訓練データを使用することができる)と、を含む方法を提供する。いくつかの実施形態において、複数の一塩基バリアント遺伝子座は、癌についてTCGAおよびCOSMICデータセットにおいて特定されたSNV遺伝子座から選択される。
【0061】
いくつかの実施形態は、複数の標的塩基を含む複数の一塩基バリアント(SNV)遺伝子座について単離された無細胞DNAから増幅するためにマルチプレックス増幅反応を行うことであって、SNV遺伝子座は、対象が治療を受けた癌に関連する患者固有のSNV遺伝子座である、行うことと、増幅産物を配列決定して、複数の標的塩基の配列リードを取得することと、を含む。いくつかの実施形態において、マルチプレックス増幅反応は、対象が治療を受けた癌に関連する少なくとも4、または少なくとも8、または少なくとも16、または少なくとも32、または少なくとも64、または少なくとも128個の患者固有のSNV遺伝子座を増幅する。
【0062】
「癌」および「癌性」という用語は、典型的には制御されない細胞増殖を特徴とする、動物における生理学的状態を指すか、またはこれを説明する。「腫瘍」は、1つ以上の癌性細胞を含む。いくつかの主要な種類の癌が存在する。癌腫は、皮膚内、または内臓の輪郭を形成するか、または内臓を覆う組織内で始まる癌である。肉腫は、骨、軟骨、脂肪、筋肉、血管、または他の結合組織もしくは支持組織から始まる癌である。白血病は、骨髄などの血液形成組織内で始まり、大量の異常な血球が産生され、血液に入り込む癌である。リンパ腫および多発性骨髄腫は、免疫系の細胞内で始まる癌である。中枢神経系の癌は、脳および脊髄の組織内で始まる癌である。
【0063】
いくつかの実施形態において、癌は、急性リンパ芽球性白血病、急性骨髄性白血病、副腎皮質癌腫、AIDS関連癌、AIDS関連リンパ腫、肛門癌、虫垂癌、星細胞腫、非定型奇形腫/ラブドイド腫瘍、基底細胞癌腫、膀胱癌、脳幹グリオーマ、脳腫瘍(脳幹グリオーマ、中枢神経系非定型奇形腫/ラブドイド腫瘍、中枢神経系胚芽腫、星細胞腫、頭蓋咽頭腫、上衣芽細胞腫、上衣腫、髄芽腫、髄様上皮腫、中分化型松果体実質腫瘍、テント上原始神経外胚葉腫瘍および松果体芽細胞腫を含む)、乳癌、気管支腫瘍、バーキットリンパ腫、原発部位不明癌、カルチノイド腫瘍、原発部位不明癌腫、中枢神経系非定型奇形腫/ラブドイド腫瘍、中枢神経系胚芽腫、子宮頸癌、小児癌、脊索腫、慢性リンパ性白血病、慢性骨髄性白血病、慢性骨髄増殖性障害、結腸癌、大腸癌、頭蓋咽頭腫、皮膚T細胞リンパ腫、膵臓内分泌島細胞腫瘍、子宮内膜癌、上衣芽細胞腫、上衣腫、食道癌、鼻腔神経芽細胞腫、ユーイング肉腫、頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管癌、胆嚢癌、胃癌(gastric(stomach)cancer)、胃腸カルチノイド腫瘍、胃腸間質細胞腫瘍、消化管間質腫瘍(GIST)、妊娠性絨毛腫瘍、グリオーマ、有毛細胞白血病、頭頸部癌、心臓癌、ホジキンリンパ腫、下咽頭癌、眼内黒色腫、島細胞腫瘍、カポジ肉腫、腎臓癌、ランゲルハンス細胞組織球増加症、喉頭癌、口唇癌、肝臓癌、悪性線維性組織球腫骨癌、髄芽腫、髄様上皮腫、黒色腫、メルケル細胞癌腫、メルケル細胞皮膚癌腫、中皮腫、原発不明の転移性頸部扁平上皮癌、口癌(mouth cancer)、多発性内分泌腫瘍症候群、多発性骨髄腫、多発性骨髄腫/形質細胞腫、菌状息肉腫、骨髄異形成症候群、骨髄増殖性新生物、鼻腔癌、鼻咽腔癌、神経芽細胞腫、非ホジキンリンパ腫、非黒色腫皮膚癌、非小細胞肺癌、口癌(oral cancer)、口腔癌、口腔咽頭癌、骨肉腫、他の脳脊髄腫瘍、卵巣癌、上皮性卵巣癌、卵巣胚細胞腫瘍、卵巣低悪性度腫瘍、膵臓癌、乳頭腫症、副鼻腔癌、副甲状腺癌、骨盤内癌、陰茎癌、咽頭癌、中分化型松果体実質腫瘍、松果体芽細胞腫、下垂体腫瘍、形質細胞腫/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系(CNS)リンパ腫、原発性肝細胞肝臓癌、前立腺癌、直腸癌、腎臓癌、腎細胞(腎臓)癌、腎細胞癌、気道癌、網膜芽細胞腫、横紋筋肉腫、唾液腺癌、セザリー症候群、小細胞肺癌、小腸癌、軟部組織肉腫、扁平上皮癌腫、頸部扁平上皮癌、胃癌(stomach(gastric)cancer)、テント上原始神経外胚葉腫瘍、T細胞リンパ腫、精巣癌、咽喉癌、胸腺癌腫、胸腺腫、甲状腺癌、移行上皮癌、腎盂および尿管の移行上皮癌、絨毛性腫瘍、尿管癌、尿路癌、子宮癌、子宮肉腫、膣癌、外陰癌、ヴァルデンストレームマクログロブリン血症またはウィルムス腫瘍を含む。
【0064】
したがって、特定の例では、本方法は、一塩基バリアント遺伝子座のセットのそれぞれで、各対立遺伝子決定についての信頼値を特定することを含み、少なくとも一部には遺伝子座についてのリード深度に基づくことができる。信頼限界は、少なくとも75%、80%、85%、90%、95%、96%、96%、98%または99%で設定することができる。信頼限界は、異なる種類の変異について、異なるレベルで設定することができる。
【0065】
ctDNA SNV増幅/配列決定ワークフローを含む本明細書のSNVを検出するいずれかの方法において、マルチプレックスPCRについての改良された増幅パラメータを使用してもよい。例えば、増幅反応がPCR反応である場合、アニーリング温度が、範囲の下限でプライマーのセットのうち少なくとも10、20、25、30、40、50、06、70、75、80、90、95または100%のプライマーの融点よりも1、2、3、4、5、6、7、8、9または10℃高く、範囲の上限で2、3、4、5、6、7、8、9、10、11、12、13、14または15℃より高い。
【0066】
特定の実施形態において、増幅反応がPCR反応である場合、PCR反応中のアニーリング工程の長さは、範囲の下限で10、15、20、30、45および60分、範囲の上限で15、20、30、45、60、120、180または240分である。特定の実施形態において、増幅(例えばPCR反応)におけるプライマー濃度は、1~10nMである。さらに、例示的な実施形態において、プライマーのセット中のプライマーは、プライマー二量体形成を最小限にするように設計される。
【0067】
したがって、増幅工程を含む本明細書のいずれかの方法の一例において、増幅反応はPCR反応であり、アニーリング温度は、プライマーのセットのプライマーの少なくとも90%の融点より1~10℃高く、PCR反応中のアニーリング工程の長さは、15~60分であり、増幅反応におけるプライマー濃度は、1~10nMであり、プライマーのセット中のプライマーは、プライマー二量体形成を最小限にするように設計される。この例のさらなる態様において、マルチプレックス増幅反応は、制限プライマー条件下で行われる。
【0068】
本発明の方法で分析されるサンプルは、特定の例示的な実施形態において、血液サンプル、またはそのフラクションである。本明細書で提供される方法は、特定の実施形態において、特に、DNAフラグメント、特に、循環腫瘍DNA(ctDNA)において見出される腫瘍DNAフラグメントを増幅させるように適合される。このようなフラグメントは、典型的には、約160ヌクレオチド長である。
【0069】
無細胞核酸(例えば、cfDNA)は、アポトーシス、壊死、オートファジーおよびネクロトーシスなどの細胞死の種々の形態を介して循環中に放出され得ることが当該技術分野で知られている。cfDNAは、フラグメント化され、フラグメントのサイズ分布は、150~350bpから10000bpを超えるものまでさまざまである(Kalnina et al.World J Gastroenterol.2015 Nov 7;21(41):11636-11653)。例えば、肝細胞癌腫(HCC)患者における血漿DNAフラグメントのサイズ分布は、100~220bp長の範囲に広がっており、頻度数におけるピークは約166bpであり、フラグメント中の最も高い腫瘍DNA濃度は、150~180bp長である(Jiang et al.Proc Natl Acad Sci USA 112:E1317-E1325を参照)。
【0070】
例示的な実施形態において、細胞片および血小板を遠心分離によって除去した後、循環腫瘍DNA(ctDNA)を、EDTA-2Na管を用いて血液から単離する。DNAを例えばQIAamp DNA Mini Kit(Qiagen、ヒルデン、ドイツ)を用いて抽出するまで、血漿サンプルを-80℃で保存してもよい(例えば、Hamakawa et al.,Br J Cancer.2015;112:352-356)。
Hamakavaらは、全サンプルの抽出された無細胞DNAの濃度の中央値が、血漿1ml当たり43.1ng(範囲9.5~1338ng/ml)であり、変異体頻度範囲が0.001~77.8%であり、中央値が0.90%であることを報告した。
【0071】
本説明の方法は、特定の実施形態において、サンプルから核酸ライブラリを作成し、増幅する工程を含む(すなわち、ライブラリ調製)。ライブラリ調製工程中のサンプルからの核酸は、付随したライゲーションアダプター(ライブラリタグまたはライゲーションアダプタータグ(LT)と呼ばれることが多い)を有していてもよく、ライゲーションアダプターは、ユニバーサルプライミング配列を含み、続いて、ユニバーサル増幅を含む。一実施形態において、このことは、フラグメント化の後に配列決定ライブラリを作成するように設計された標準的なプロトコルを用いて行われてもよい。一実施形態において、DNAサンプルは、平滑末端であってもよく、次いで、Aがその3’末端に付加されていてもよい。Tオーバーハングを有するYアダプターを付加し、ライゲーションしてもよい。いくつかの実施形態において、AまたはTオーバーハング以外の他の粘着末端を使用してもよい。いくつかの実施形態において、他のアダプター、例えば、ループ状ライゲーションアダプターを付加してもよい。いくつかの実施形態において、アダプターは、PCR増幅のために設計されたタグを有していてもよい。
【0072】
本明細書で提供されるいくつかの実施形態は、ctDNAサンプルにおいてSNVを検出することを含む。例示的な実施形態におけるこのような方法は、増幅工程および配列決定工程を含む(本明細書では「ctDNA SNV増幅/配列決定ワークフロー」と呼ばれることがある)。例示的な例では、ctDNA増幅/配列決定ワークフローは、個体、例えば、癌を有することが疑われる個体からの血液のサンプルまたはそのフラクションから単離された核酸に対してマルチプレックス増幅反応を行うことによってアンプリコンのセットを作成することであって、アンプリコンのセットのそれぞれのアンプリコンが、一塩基バリアント遺伝子座のセットの少なくとも1つの一塩基バリアント遺伝子座、例えば、癌と関連することが知られているSNV遺伝子座に広がる、作成することと、アンプリコンのセットのそれぞれのアンプリコンの少なくとも1つのセグメントの配列を決定することであって、このセグメントが一塩基バリアント遺伝子座を含む、決定することと、を含んでいてもよい。この方法で、この例示的な方法は、サンプル中に存在する一塩基バリアントを決定する。
【0073】
例示的なctDNA SNV増幅/配列決定ワークフローは、より詳細には、サンプルから作成された核酸ライブラリからのポリメラーゼ、ヌクレオチド三リン酸、核酸フラグメントと、一塩基バリアント遺伝子座からの有効な距離でそれぞれ結合するプライマーのセット、または一塩基バリアント遺伝子座を含む有効領域にそれぞれ広がるプライマー対のセットとを合わせることによって増幅反応混合物を形成することを含んでいてもよい。
一塩基バリアント遺伝子座は、例示的な実施形態において、癌に関連することが知られているものである。次いで、増幅反応混合物を増幅条件に供して、好ましくは、癌と関連することが知られている、一塩基バリアント遺伝子座のセットの少なくとも1つの一塩基バリアント遺伝子座を含むアンプリコンのセットを作成すること、およびアンプリコンのセットのそれぞれのアンプリコンの少なくとも1つのセグメントの配列を決定することであって、セグメントが一塩基バリアント遺伝子座を含む、決定すること。
【0074】
プライマーの結合の有効距離は、SNV遺伝子座の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100、125または150塩基対以内であってもよい。一対のプライマーが広がる有効範囲は、典型的には、SNVを含み、典型的には160塩基対以下であり、150、140、130、125、100、75、50または25塩基対以下であってもよい。他の実施形態において、プライマー対が広がる有効範囲は、SNV遺伝子座から範囲の下限で20、25、30、40、50、60、70、75、100、110、120、125、130、140または150ヌクレオチド、範囲の上限で25、30、40、50、60、70、75、100、110、120、125、130、140、または150、160、170、175または200である。
【0075】
プライマーテールは、普遍的にタグ化されたライブラリからのフラグメント化されたDNAの検出を改善することができる。ライブラリタグおよびプライマーテールが、相同配列を含有する場合、ハイブリダイゼーションを改善することができ(例えば、融点(Tm)を下げる)、プライマー標的配列の一部のみがサンプルDNAプライマーフラグメント中にある場合、プライマーを伸長することができる。いくつかの実施形態において、13個以上の標的特異性塩基対が使用されてもよい。いくつかの実施形態において、10~12個の標的特異性塩基対が使用されてもよい。いくつかの実施形態において、8~9個の標的特異性塩基対が使用されてもよい。いくつかの実施形態において、6~7個の標的特異性塩基対が使用されてもよい。
【0076】
一実施形態において、ライブラリは、サンプル中のDNAフラグメントの末端に、またはサンプルから単離されたDNAから作成されたDNAフラグメントの末端にアダプターをライゲーションすることによって、上記のサンプルから作成される。次いで、フラグメントを、例えば、以下の例示的なプロトコルに従って、PCRを使用して増幅することができる。95℃で2分間;15×[95℃で20秒間、55℃で20秒間、68℃で20秒間]、68℃で2分間、4℃で保持。
【0077】
多くのキットおよび方法は、その後の増幅(例えば、クローン増幅)およびその後の配列決定のためのユニバーサルプライマー結合部位を含む核酸ライブラリの作成についての技術分野で既知である。アダプターのライゲーションを促進しやすくするために、ライブラリの調製および増幅は、末端修復およびアデニル化(すなわち、Aテーリング)を含んでいてもよい。小さな核酸フラグメント(特に、循環遊離DNA)からライブラリを調製するように特に適合されたキットは、本明細書で提供される方法を実施するのに有用な場合がある。例えば、Bioo Scientific()から入手可能なNEXTflex Cell FreeキットまたはNatera Library Prep Kit(Natera,Inc.Carlos,CAから入手可能)。しかし、このようなキットは、典型的には、本明細書で提供される方法の増幅工程および配列決定工程のためにカスタマイズされたアダプターを含むように改変される。アダプターライゲーションは、AGILENT SURESELECTキット(Agilent、CA)中に見出されるライゲーションキットなどの市販のキットを用いて行うことができる。
【0078】
次いで、サンプル、特に、本発明の方法のための循環遊離DNAサンプルから単離されたDNAから作成した核酸ライブラリの標的領域を増幅させる。この増幅のために、一連のプライマーまたはプライマー対は、範囲の下限で5、10、15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000または50,000プライマー、範囲の上限で15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000、50,000、60,000、75,000または100,000プライマーを含んでいてもよく、それぞれが、一連のプライマー結合部位の1つに結合する。
【0079】
プライマー設計は、Primer3と共に作成されてもよい(Untergrasser A,Cutcutache I,Koressaar T,Ye J,Faircloth BC,Remm M,Rozen SG(2012)“Primer3-new capabilities and interfaces.”Nucleic Acids Research 40(15):e115およびKoressaar T,Remm M(2007)“Enhancements and modifications of primer design program Primer3.”Bioinformatics 23(10):1289-91)ソースコードは、primer3.sourceforge.netで入手可能)。プライマー特異性は、BLASTによって評価され、これを既存のプライマー設計パイプライン基準に追加してもよい。
【0080】
プライマー特異性は、ncbi-blast-2.2.29+パッケージからのBLASTnプログラムを用いて決定することができる。タスクオプション「blastn-short」を使用して、hg19ヒトゲノムに対するプライマーをマッピングしてもよい。プライマー設計は、プライマーがゲノムに対して100ヒット未満を有し、トップヒットが、そのゲノムの標的相補性プライマー結合領域であり、他のヒットよりも少なくとも2スコア高い場合に、「特異的」であると決定することができる(スコアは、BLASTnプログラムによって定義される)。このことは、そのゲノムに対して固有のヒットを有し、ゲノム全体に多くの他のヒットを有しないように行うことができる。
【0081】
最終的に選択されたプライマーは、IGV(James T.Robinson,Helga Thorvaldsdottir,Wendy Winckler,Mitchell Guttman,Eric S.Lander,Gad Getz,Jill P.Mesirov.Integrative Genomics Viewer.Nature Biotechnology 29、24-26(2011))およびUCSCブラウザ(Kent WJ,Sugnet CW,Furey TS,Roskin KM,Pringle TH,Zahler AM,Haussler D.The human genome browser at UCSC.Genome Res.2002 Jun;12(6):996-1006)で、検証のためのベッドファイルおよびカバレッジマップを用いて視覚化することができる。
【0082】
本発明の方法は、特定の実施形態において、増幅反応混合物を形成することを含む。この反応混合物は、典型的には、サンプルから作成された核酸ライブラリからのポリメラーゼ、ヌクレオチド三リン酸、核酸フラグメントと、SNVを含む標的領域に特異的な順方向プライマーおよび逆方向プライマーのセットとを合わせることによって作成される。本明細書で提供される反応混合物は、例示的な実施形態において、それ自体が本発明の別個の態様を形成する。
【0083】
本発明に有用な増幅反応混合物は、核酸増幅、特にPCR増幅に関する技術分野で既知の構成要素を含む。例えば、反応混合物は、典型的には、ヌクレオチド三リン酸、ポリメラーゼおよびマグネシウムを含む。本発明に有用なポリメラーゼは、増幅反応に使用可能な任意のポリメラーゼ、特に、PCR反応に有用なものを含んでいてもよい。特定の実施形態において、ホットスタートTaqポリメラーゼは、特に有用である。本明細書で提供される方法を実施するのに有用な増幅反応混合物、例えば、AmpliTaq Goldマスターミックス(Life Technologies、カールスバッド、CA)は、市販されている。
【0084】
PCRの増幅(例えば、温度サイクル)条件は、当該技術分野で周知である。本明細書で提供される方法は、標的核酸(例えば、ライブラリからの標的核酸)を増幅させる任意のPCRサイクル条件を含んでいてもよい。非限定的な例示的なサイクル条件は、本明細書の実施例の章で提供される。
【0085】
PCRを実施するときに可能な多くのワークフローが存在し、本明細書に開示する方法に典型的ないくつかのワークフローが本明細書で提供される。本明細書で概説される工程は、他の可能な工程を除外することを意味しておらず、本明細書に記載される工程のいずれかが本方法が適切に機能するのに必要であることを暗示するものでもない。多数のパラメータの変動または他の改変は、文献で既知であり、本発明の本質に影響を与えることなく行うことができる。
【0086】
本明細書で提供される方法の特定の実施形態において、アンプリコン(例えば、アウタープライマー標的アンプリコン)の少なくとも一部、例示的な例では全配列が、決定される。アンプリコンの配列を決定する方法は、当該技術分野で既知である。当該技術分野で既知の配列決定方法のいずれか、例えば、サンガー配列決定は、このような配列の決定に使用することができる。例示的な実施形態において、高スループット次世代配列決定技術(本明細書では、超並列配列決定技術とも呼ばれる)、例えば、限定されないが、MYSEQ(ILLUMINA)、HISEQ(ILLUMINA)、ION TORRENT(LIFE TECHNOLOGIES)、GENOME ANALYZER ILX(ILLUMINA)、GS FLEX+(ROCHE 454)で使用されるものを、本明細書で提供される方法によって作られるアンプリコンを配列決定するために使用することができる。
【0087】
高スループット遺伝子シーケンサは、個体からの特有のサンプルを特定するためのバーコード化(すなわち、特徴的な核酸配列を用いたサンプルタグ化)の使用に合うように修正可能であり、それにより、DNAシーケンサの1回のランにおいて複数サンプルの同時分析を可能にする。ライブラリ調製(または目的の他の核酸調製)においてゲノムの所与の領域が配列決定される回数(リード数)は、目的のゲノム中のその配列のコピー数(またはcDNAを含有する調製の場合には発現レベル)に比例するだろう。増幅効率におけるバイアスは、このような定量的な決定において考慮されてもよい。
【0088】
標的遺伝子例示的な実施形態における本発明の標的遺伝子は、癌関連遺伝子であり、多くの例示的な実施形態において、癌関連遺伝子である。癌関連遺伝子は、癌のリスクの変化または癌の予後の変化に関連する遺伝子を指す。癌を促進する例示的な癌関連遺伝子としては、癌遺伝子、細胞増殖、浸潤または転移を促進する遺伝子、アポトーシスを阻害する遺伝子、および血管新生促進遺伝子が挙げられる。癌を阻害する癌関連遺伝子としては、限定されないが、腫瘍抑制遺伝子、細胞増殖、浸潤または転移を阻害する遺伝子、アポトーシスを促進する遺伝子、および抗血管新生遺伝子が挙げられる。
【0089】
倍数性状態を呼び出すための方法の一実施形態は、標的となる遺伝子または遺伝子座の領域の選択から始まる。既知の変異を有する領域を使用して、変異を増幅させ、検出するためのmPCR-NGSのためのプライマーを開発する。
【0090】
本明細書で提供される方法を使用して、実質的に任意の種類の変異、特に、癌に関連することが知られている変異を検出することができ、最も特定的には、本明細書で提供される方法は、癌に関連する変異、特にSNVを対象とする。例示的なSNVは、以下の遺伝子のうちの1つ以上であってもよい。EGFR、FGFR1、FGFR2、ALK、MET、ROS1、NTRK1、RET、HER2、DDR2、PDGFRA、KRAS、NF1、BRAF、PIK3CA、MEK1、NOTCH1、MLL2、EZH2、TET2、DNMT3A、SOX2、MYC、KEAP1、CDKN2A、NRG1、TP53、LKB1およびPTEN、これらは、種々の肺癌サンプルにおいて、変異しているか、またはコピー数が増加しているか、または他の遺伝子に融合しているか、およびこれらの組み合わせであることが特定されている(Non-small-cell lung cancers:a heterogeneous set of diseases.Chenet al.Nat.Rev.Cancer.2014 Aug 14(8):535-551)。別の例では、遺伝子のリストは、上に列挙されたものであり、SNVは、例えば、Chenらの参考文献で報告されている。
【0091】
他の例示的な多型または変異は、以下の遺伝子のうちの1つ以上の中にある。すなわち、TP53、PTEN、PIK3CA、APC、EGFR、NRAS、NF2、FBXW7、ERBBs、ATAD5、KRAS、BRAF、VEGF、EGFR、HER2、ALK、p53、BRCA、BRCA1、BRCA2、SETD2、LRP1B、PBRM、SPTA1、DNMT3A、ARID1A、GRIN2A、TRRAP、STAG2、EPHA3/5/7、POLE、SYNE1、C20orf80、CSMD1、CTNNB1、ERBB2。FBXW7、KIT、MUC4、ATM、CDH1、DDX11、DDX12、DSPP、EPPK1、FAM186A、GNAS、HRNR、KRTAP4-11、MAP2K4、MLL3、NRAS、RB1、SMAD4、TTN、ABCC9、ACVR1B、ADAM29、ADAMTS19、AGAP10、AKT1、AMBN、AMPD2、ANKRD30A、ANKRD40、APOBR、AR、BIRC6、BMP2、BRAT1、BTNL8、C12orf4、C1QTNF7、C20orf186、CAPRIN2、CBWD1、CCDC30、CCDC93、CD5L、CDC27、CDC42BPA、CDH9、CDKN2A、CHD8、CHEK2、CHRNA9、CIZ1、CLSPN、CNTN6、COL14A1、CREBBP、CROCC、CTSF、CYP1A2、DCLK1、DHDDS、DHX32、DKK2、DLEC1、DNAH14、DNAH5、DNAH9、DNASE1L3、DUSP16、DYNC2H1、ECT2、EFHB、RRN3P2、TRIM49B、TUBB8P5、EPHA7、ERBB3、ERCC6、FAM21A、FAM21C、FCGBP、FGFR2、FLG2、FLT1、FOLR2、FRYL、FSCB、GAB1、GABRA4、GABRP、GH2、GOLGA6L1、GPHB5、GPR32、GPX5、GTF3C3、HECW1、HIST1H3B、HLA-A、HRAS、HS3ST1、HS6ST1、HSPD1、IDH1、JAK2、KDM5B、KIAA0528、KRT15、KRT38、KRTAP21-1、KRTAP4-5、KRTAP4-7、KRTAP5-4、KRTAP5-5、LAMA4、LATS1、LMF1、LPAR4、LPPR4、LRRFIP1、LUM、LYST、MAP2K1、MARCH1、MARCO、MB21D2、MEGF10、MMP16、MORC1、MRE11A、MTMR3、MUC12、MUC17、MUC2、MUC20、NBPF10、NBPF20、NEK1、NFE2L2、NLRP4、NOTCH2、NRK、NUP93、OBSCN、OR11H1、OR2B11、OR2M4、OR4Q3、OR5D13、OR8I2、OXSM、PIK3R1、PPP2R5C、PRAME、PRF1、PRG4、PRPF19、PTH2、PTPRC、PTPRJ、RAC1、RAD50、RBM12、RGPD3、RGS22、ROR1、RP11-671M22.1、RP13-996F3.4、RP1L1、RSBN1L、RYR3、SAMD3、SCN3A、SEC31A、SF1、SF3B1、SLC25A2、SLC44A1、SLC4A11、SMAD2、SPTA1、ST6GAL2、STK11、SZT2、TAF1L、TAX1BP1、TBP、TGFBI、TIF1、TMEM14B、TMEM74、TPTE、TRAPPC8、TRPS1、TXNDC6、USP32、UTP20、VASN、VPS72、WASH3P、WWTR1、XPO1、ZFHX4、ZMIZ1、ZNF167、ZNF436、ZNF492、ZNF598、ZRSR2、ABL1、AKT2、AKT3、ARAF、ARFRP1、ARID2、ASXL1、ATR、ATRX、AURKA、AURKB、AXL、BAP1、BARD1、BCL2、BCL2L2、BCL6、BCOR、BCORL1、BLM、BRIP1、BTK、CARD11、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD79A、CD79B、CDC73、CDK12、CDK4、CDK6、CDK8、CDKN1B、CDKN2B、CDKN2C、CEBPA、CHEK1、CIC、CRKL、CRLF2、CSF1R、CTCF、CTNNA1、DAXX、DDR2、DOT1L、EMSY(C11orf30)、EP300、EPHA3、EPHA5、EPHB1、ERBB4、ERG、ESR1、EZH2、FAM123B(WTX)、FAM46C、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCL、FGF10、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGFR1、FGFR2、FGFR3、FGFR4、FLT3、FLT4、FOXL2、GATA1、GATA2、GATA3、GID4(C17orf39)、GNA11、GNA13、GNAQ、GNAS、GPR124、GSK3B、HGF、IDH1、IDH2、IGF1R、IKBKE、IKZF1、IL7R、INHBA、IRF4、IRS2、JAK1、JAK3、JUN、KAT6A(MYST3)、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KLHL6、MAP2K2、MAP2K4、MAP3K1、MCL1、MDM2、MDM4、MED12、MEF2B、MEN1、MET、MITF、MLH1、MLL、MLL2、MPL、MSH2、MSH6、MTOR、MUTYH、MYC、MYCL1、MYCN、MYD88、NF1、NFKBIA、NKX2-1、NOTCH1、NPM1、NRAS、NTRK1、NTRK2、NTRK3、PAK3、PALB2、PAX5、PBRM1、PDGFRA、PDGFRB、PDK1、PIK3CG、PIK3R2、PPP2R1A、PRDM1、PRKAR1A、PRKDC、PTCH1、PTPN11、RAD51、RAF1、RARA、RET、RICTOR、RNF43、RPTOR、RUNX1、SMARCA4、SMARCB1、SMO、SOCS1、SOX10、SOX2、SPEN、SPOP、SRC、STAT4、SUFU、TET2、TGFBR2、TNFAIP3、TNFRSF14、TOP1、TP53、TSC1、TSC2、TSHR、VHL、WISP3、WT1、ZNF217、ZNF703、およびこれらの組み合わせ(Su et al.J Mol Diagn 2011,13:74-84;DOI:10.1016/j.jmoldx.2010.11.010、およびAbaan et al.“The Exomes of the NCI-60 Panel:A Genomic Resource for Cancer Biology and Systems Pharmacology”,Cancer Research,July 15,2013(それぞれ参照によりその全体が本明細書に組み込まれる))。例示的な多型または変異は、以下のマイクロRNAのうちの1つ以上にあり得る。すなわち、miR-15a、miR-16-1、miR-23a、miR-23b、miR-24-1、miR-24-2、miR-27a、miR-27b、miR-29b-2、miR-29c、miR-146、miR-155、miR-221、miR-222およびmiR-223(Calin et al.“A microRNA signature associated with prognosis and progression in chronic lymphocytic leukemia.”N Engl J Med 353:1793-801,2005(参照によりその全体が本明細書に組み込まれる))。
【0092】
増幅(例えばPCR)反応混合物:
本説明の方法は、特定の実施形態において、増幅反応混合物を形成することを含む。この反応混合物は、典型的には、サンプルから作成された核酸ライブラリからのポリメラーゼ、ヌクレオチド三リン酸、核酸フラグメントと、一連の順方向の標的特異性アウタープライマーおよび第1鎖逆方向アウターユニバーサルプライマーとを合わせることによって形成される。別の例示的な実施形態は、順方向の標的特異性アウタープライマーの代わりに、順方向の標的特異性インナープライマーと、核酸ライブラリからの核酸フラグメントの代わりに、アウタープライマーを用いる第1のPCR反応からのアンプリコンとを含む反応混合物である。本明細書で提供される反応混合物は、例示的な実施形態において、それ自体が本発明の別個の態様を形成する。例示的な実施形態において、反応混合物は、PCR反応混合物である。PCR反応混合物は、典型的には、マグネシウムを含む。
【0093】
いくつかの実施形態において、反応混合物は、エチレンジアミン四酢酸(EDTA)、マグネシウム、塩化テトラメチルアンモニウム(TMAC)、またはこれらの任意の組み合わせを含む。いくつかの実施形態において、TMACの濃度は、20~70mM(境界値を含む)である。任意の特定の理論に束縛されることを意味しないが、TMACは、DNAに結合し、二本鎖を安定化し、プライマー特異性を増加させ、および/または異なるプライマーの融点を等しくすると考えられる。いくつかの実施形態において、TMACは、異なる標的に対する増幅産物の量の均一性を高める。いくつかの実施形態において、マグネシウム(例えば、塩化マグネシウム由来のマグネシウム)の濃度は、1~8mMである。
【0094】
多数の標的のマルチプレックスPCRに使用される多数のプライマーは、多くのマグネシウムをキレート化し得る(プライマー中の2個のリン酸基が、1個のマグネシウムをキレート化する)。例えば、プライマー由来のリン酸基の濃度が約9mMであるように十分なプライマーを使用する場合、プライマーは、有効マグネシウム濃度を約4.5mMまで減らし得る。いくつかの実施形態において、高濃度のマグネシウムがPCRのエラー(例えば、非標的遺伝子座の増幅)を引き起こす可能性があるため、EDTAを使用して、ポリメラーゼの補因子として利用可能なマグネシウムの量を減らす。いくつかの実施形態において、EDTAの濃度は、利用可能なマグネシウムの量を1~5mM(例えば、3~5mM)まで減らす。
【0095】
いくつかの実施形態において、pHは、7.5~8.5、例えば、7.5~8、8~8.3または8.3~8.5(境界値を含む)である。いくつかの実施形態において、Trisは、例えば、10~100mM、例えば、10~25mM、25~50mM、50~75mMまたは25~75mMの濃度(境界値を含む)で使用される。いくつかの実施形態において、これらの濃度のいずれかのTrisは、7.5~8.5のpHで使用される。いくつかの実施形態において、KClと(NH4)2SO4の組み合わせ、例えば、50~150mMのKClと10~90mMの(NH4)2SO4(境界値を含む)が使用される。いくつかの実施形態において、KClの濃度は、0~30mM、50~100mMまたは100~150mM(境界値を含む)である。いくつかの実施形態において、(NH4)2SO4の濃度は、10~50mM、50~90mM、10~20mM、20~40mM、40~60mMまたは60~80mMの(NH4)2SO4(境界値を含む)である。いくつかの実施形態において、アンモニウム[NH4
+]濃度は、0~160mM、例えば、0~50、50~100または100~160mM(境界値を含む)である。いくつかの実施形態において、カリウム濃度とアンモニウム濃度の合計([K+]+[NH4
+])は、0~160mM、例えば、0~25、25~50、50~150、50~75、75~100、100~125または125~160mM(境界値を含む)である。[K+]+[NH4
+]=120mMである例示的な緩衝液は、20mMのKClと50mMの(NH4)2SO4である。いくつかの実施形態において、緩衝液は、25~75mMのTris(pH7.2~8)、0~50mMのKCl、10~80mMの硫酸アンモニウムおよび3~6mMのマグネシウム(境界値を含む)を含む。いくつかの実施形態において、緩衝液は、25~75mMのTris(pH7~8.5)、3~6mMのMgCl2、10~50mMのKClおよび20~80mMの(NH4)2SO4(境界値を含む)を含む。いくつかの実施形態において、100~200単位/mLのポリメラーゼが使用される。いくつかの実施形態において、100mMのKCl、50mMの(NH4)2SO4、3mMのMgCl2、7.5nMのライブラリ中の各プライマー、50mMのTMACおよびpH8.1の最終体積20ul中の7ulのDNAテンプレートが使用される。
【0096】
いくつかの実施形態において、クラウディング剤、例えば、ポリエチレングリコール(PEG、例えば、PEG8,000)またはグリセロールが使用される。いくつかの実施形態において、PEG(例えばPEG8,000)の量は、0.1~20%、例えば、0.5~15%、1~10%、2~8%または4~8%(境界値を含む)である。いくつかの実施形態において、グリセロールの量は、0.1~20%、例えば、0.5~15%、1~10%、2~8%または4~8%(境界値を含む)である。いくつかの実施形態において、クラウディング剤は、低ポリメラーゼ濃度および/またはより短いアニーリング時間のいずれかを使用することを可能にする。いくつかの実施形態において、クラウディング剤は、DORの均一性を改善し、および/またはドロップアウト(検出されない対立遺伝子)を減らす。
【0097】
いくつかの実施形態において、プルーフリーディング活性を有するポリメラーゼ、プルーフリーディング活性を有しない(または無視可能な)ポリメラーゼ、またはプルーフリーディング活性を有するポリメラーゼとプルーフリーディング活性を有しない(または無視可能な)ポリメラーゼの混合物が使用される。いくつかの実施形態において、ホットスタートポリメラーゼ、非ホットスタートポリメラーゼ、またはホットスタートポリメラーゼと非ホットスタートポリメラーゼの混合物が使用される。いくつかの実施形態において、HotStarTaq DNAポリメラーゼが使用される(例えば、QIAGENカタログ番号203203を参照)。いくつかの実施形態において、AmpliTaq Gold(登録商標)DNAポリメラーゼが使用される。いくつかの実施形態において、反応混合物中に過剰なテンプレートが存在する場合、かつ長い産物を増幅する場合に効率的なPCR増幅を提供する高忠実度ポリメラーゼであるPrimeSTAR GXL DNAポリメラーゼが使用される(Takara Clontech,Mountain View,CA)。いくつかの実施形態において、KAPA Taq DNAポリメラーゼまたはKAPA Taq HotStart DNAポリメラーゼが使用される。これらは、好熱菌Thermus aquaticusの単一サブユニット野生型Taq DNAポリメラーゼに由来する。KAPA TaqおよびKAPA Taq HotStart DNA Polymeraseは、5’-3’ポリメラーゼ活性および5’-3’エキソヌクレアーゼ活性を有するが、3’から5’方向のエキソヌクレアーゼ(プルーフリーディング)活性は有しない(例えば、KAPA BIOSYSTEMSカタログ番号BK1000を参照)。いくつかの実施形態において、Pfu DNAポリメラーゼが使用される。このポリメラーゼは、超好熱性古細菌Pyrococcus furiosus由来の高温安定性DNAポリメラーゼである。この酵素は、5’→3’方向において、ヌクレオチドから二本鎖DNAへのテンプレート依存性重合を触媒する。Pfu DNA Polymeraseは、3’→5’エキソヌクレアーゼ(プルーフリーディング)活性も示し、このポリメラーゼがヌクレオチド組み込みエラーを修正することを可能にする。このポリメラーゼは、5’→3’エキソヌクレアーゼ活性を有しない(例えば、Thermo Scientificカタログ番号EP0501を参照)。いくつかの実施形態において、Klentaq1が使用される。これは、Taq DNAポリメラーゼのKlenowフラグメント類似体であり、エキソヌクレアーゼ活性またはエンドヌクレアーゼ活性を有しない(例えば、DNA POLYMERASE TECHNOLOGY,Inc、セントルイス、ミズーリ、カタログ番号100を参照)。いくつかの実施形態において、ポリメラーゼは、PHUSION DNAポリメラーゼ、例えば、PHUSION High Fidelity DNAポリメラーゼ(M0530S、New England BioLabs,Inc.)またはPHUSION Hot Start Flex DNAポリメラーゼ(M0535S、New England BioLabs,Inc.)である。いくつかの実施形態において、ポリメラーゼは、Q5(登録商標)DNAポリメラーゼ、例えば、Q5(登録商標)High-Fidelity DNA Polymerase(M0491S、New England BioLabs,Inc.)またはQ5(登録商標)Hot Start High-Fidelity DNA Polymerase(M0493S、New England BioLabs,Inc.)である。いくつかの実施形態において、ポリメラーゼは、T4 DNAポリメラーゼ(M0203S、New England BioLabs,Inc.)である。
【0098】
いくつかの実施形態において、5~600単位/mL(反応体積1mL当たりの単位数)、例えば、5~100、100~200、200~300、300~400、400~500または500~600単位/mL(境界値を含む)のポリメラーゼが使用される。
【0099】
PCR方法いくつかの実施形態において、ホットスタートPCRは、PCR熱サイクル前の重合を減らすか、または防止するために使用される。例示的なホットスタートPCR方法としては、DNAポリメラーゼの初期抑制、または反応混合物がより高温に達するまでの反応構成要素の反応の物理的な分離を含む。いくつかの実施形態において、マグネシウムの遅延放出が使用される。DNAポリメラーゼは、活性のためにマグネシウムイオンを必要とするため、マグネシウムは、化学化合物に結合することによって反応から化学的に分離され、高温でのみ溶液中に放出される。いくつかの実施形態において、阻害剤の非共有結合が使用される。この方法では、ペプチド、抗体またはアプタマーは、低温で酵素に非共有結合し、その活性を阻害する。高温でインキュベートした後、阻害剤が放出され、反応が開始する。いくつかの実施形態において、冷温感受性Taqポリメラーゼ、例えば、低温ではほとんど活性を有しない修飾DNAポリメラーゼが使用される。いくつかの実施形態において、化学修飾が使用される。この方法では、分子が、DNAポリメラーゼの活性部位にあるアミノ酸の側鎖に共有結合する。この分子は、反応混合物を高温でインキュベートすることによって、酵素から放出される。分子が放出されると、酵素が活性化される。
【0100】
いくつかの実施形態において、核酸(例えば、RNAまたはDNAサンプル)をテンプレートで組み立てるための量は、20~5,000ng、例えば、20~200、200~400、400~600、600~1,000、1,000~1,500または2,000~3,000ng(境界値を含む)である。
【0101】
いくつかの実施形態において、QIAGEN Multiplex PCR Kitが使用される(QIAGENカタログ番号206143)。100×50μlのマルチプレックスPCR反応について、キットは、2×QIAGEN Multiplex PCR Master Mix(3mM MgCl2の最終濃度を提供する、3×0.85ml)、5×Q-Solution(1×2.0ml)およびRNase-Free Water(2×1.7ml)を含む。QIAGEN Multiplex PCR Master Mix(MM)は、KClおよび(NH4)2SO4の組み合わせに加え、テンプレートでのプライマーの局所濃度を増加させるPCR添加剤Factor MPを含む。
Factor MPは、特異的に結合したプライマーを安定化させ、HotStarTaq DNA Polymeraseによる効率的なプライマー伸長を可能にする。HotStarTaq DNA Polymeraseは、Taq DNAポリメラーゼの修飾された形態であり、周囲温度でポリメラーゼ活性を有しない。いくつかの実施形態において、HotStarTaq DNA Polymeraseは、任意の既存のサーマルサイクラープログラムに組み込むことが可能な、95℃で15分間のインキュベーションによって活性化する。
【0102】
いくつかの実施形態において、1×QIAGEN MM最終濃度(推奨濃度)、7.5nMのライブラリ中の各プライマー、50mMのTMACおよび20ulの最終体積中の7ulのDNAテンプレートが使用される。いくつかの実施形態において、PCR熱サイクル条件は、95℃で10分間(ホットスタート)、96℃で30秒間、65℃で15分間、72℃で30秒間を20サイクル、その後72℃で2分間(最終伸長)、次いで4℃で保持を含む。
【0103】
いくつかの実施形態において、2×QIAGEN MM最終濃度(推奨濃度の2倍)、2nMのライブラリ中の各プライマー、70mMのTMACおよび20ulの全体積中の7ulのDNAテンプレートが使用される。いくつかの実施形態において、4mMまでのEDTAも含まれる。いくつかの実施形態において、PCR熱サイクル条件は、95℃で10分間(ホットスタート)、96℃で30秒間、65℃で20、25、30、45、60、120または180分間、任意選択で、72℃で30秒間を25サイクル)、その後72℃で2分間(最終伸長)、次いで4℃で保持を含む。
【0104】
条件の別の例示的なセットは、セミネスティッドPCR手法を含む。第1のPCR反応は、2×QIAGEN MM最終濃度、1.875nMのライブラリ中の各プライマー(順方向および逆方向のアウタープライマー)およびDNAテンプレートを含む、20ulの反応体積を使用する。
熱サイクルパラメータは、95℃で10分間、96℃で30秒間、65℃で1分間、58℃で6分間、60℃で8分間、65℃で4分間および72℃で30秒間を25サイクル、次いで72℃で2分間、次いで4℃で保持を含む。次に、1:200に希釈された、得られた産物2ulを、第2のPCR反応のインプットとして使用する。この反応は、1×QIAGEN MM最終濃度、20nMの各インナー順方向プライマーおよび1uMの逆方向プライマータグを含む、10ulの反応体積を使用する。熱サイクルパラメータは、95℃で10分間、95℃で30秒間、65℃で1分間、60℃で5分間、65℃で5分間および72℃で30秒間を15サイクル、次いで72℃で2分間、次いで4℃で保持を含む。アニーリング温度は、任意選択で、本明細書で考察されるように、プライマーのいくつかまたは全ての融点より高くてもよい(その全体が本明細書に参考として組み込まれる、2015年10月20日に出願された米国特許出願第14/918,544号を参照)。
【0105】
融点(Tm)は、オリゴヌクレオチド(例えばプライマー)およびその完全相補体のDNA二本鎖の半分(50%)が解離し、一本鎖DNAになる温度である。アニーリング温度(TA)は、PCRプロトコルを実行する温度である。従来の方法について、この温度は、通常は、使用するプライマーの最も低いTmより5℃低いため、全ての可能な二本鎖に近いものが形成される(その結果、実質的に全てのプライマー分子が、テンプレート核酸に結合する)。これは、高効率ではあるが、より低い温度では、より多くの非特異的反応が生じることが確実である。TAが低すぎることの結果の1つは、内部の単一塩基ミスマッチまたは部分的アニーリングが許容され得るため、プライマーが真の標的以外の配列にアニーリングし得ることである。本発明のいくつかの実施形態において、TAはTmより高く、所与の瞬間に、標的のわずかな部分のみが、アニーリングされたプライマーを有する(例えば、約1~5%のみ)。これらが伸長されると、プライマーおよび標的のアニーリングおよび解離の平衡から除去され(伸長は、Tmを70℃より上まで迅速に増加させるため)、標的の新しい約1~5%がプライマーを有する。したがって、アニーリングのために反応を長時間行うことによって、サイクルごとにコピーされる標的の約100%を得ることができる。
【0106】
種々の実施形態において、アニーリング温度は、非同一プライマーの少なくとも25、50、60、70、75、80、90、95または100%の融点(例えば、経験的に測定されたか、または計算されたTm)よりも1、2、3、4、5、6、7、8、9、10、11、12、13℃から範囲の上限で2、3、4、5、6、7、8、9、10、11、12、13でまたは15℃高い。種々の実施形態において、アニーリング温度は、非同一プライマーの少なくとも25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000、または全ての融点(例えば、経験的に測定されたか、または計算されたTm)よりも1~15℃(例えば、1~10、1~5、1~3、3~5、5~10、5~8、8~10、10~12または12~15℃(境界値を含む))高い。種々の実施形態において、アニーリング温度は、非同一プライマーの少なくとも25%、50%、60%、70%、75%、80%、90%、95%または全ての融点(例えば、経験的に測定されたか、または計算されたTm)よりも1~15℃(例えば、1~10、1~5、1~3、3~5、3~8、5~10、5~8、8~10、10~12または12~15℃(境界値を含む))高く、アニーリング工程の長さ(PCRサイクル当たり)は、5~180分間、例えば、15~120分間、15~60分間、15~45分間または20~60分間(境界値を含む)である。
【0107】
例示的なマルチプレックスPCR種々の実施形態において、長いアニーリング時間(本明細書で考察され、実施例12に例示される通り)および/または低いプライマー濃度を使用する。実際に、特定の実施形態において、制限されたプライマー濃度および/または条件が使用される。種々の実施形態において、アニーリング工程の長さは、範囲の下限で15、20、25、30、35、40、45または60分間から、範囲の上限で20、25、30、35、40、45、60、120または180分間である。種々の実施形態において、アニーリング工程の長さ(PCRサイクル当たり)は、30~180分間である。例えば、アニーリング工程は、30~60分間であってもよく、各プライマーの濃度は、20、15、10または5nM未満であってもよい。他の実施形態において、プライマー濃度は、範囲の下限で1、2、3、4、5、6、7、8、9、10、15、20または25nMから、範囲の上限で2、3、4、5、6、7、8、9、10、15、20、25および50nMである。
【0108】
高レベルの多重化では、溶液中の多量のプライマーに起因して、溶液が粘性になる場合がある。溶液が粘性すぎる場合、プライマー濃度を、プライマーがテンプレートDNAに結合するのに依然として十分な量まで下げてもよい。種々の実施形態において、1,000~100,000種類の異なるプライマーが使用され、各プライマーの濃度は、20nM未満、例えば10nM未満または1~10nM(境界値を含む)である。
【0109】
一般的に言えば、移植に関して、免疫系は、同種移植片を身体にとって異物として認識し、同種移植片を拒絶するための種々の免疫機構を活性化することができ、移植を拒絶する通常の免疫系応答を医学的に抑制することがしばしば必要である。したがって、従来の試験よりも感度が高く、より具体的な移植拒絶のための非侵襲的試験の必要性が存在する。本明細書に記載される方法およびシステムを使用して、この必要性に対処することができる。
【0110】
例えば、いくつかの実施形態において、本開示は、拡張データを使用してニューラルネットワークを訓練するための方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子位置のそれぞれの真の移植拒絶状態値を判定することと、それぞれの移植拒絶状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、終了条件が満たされるまで、ニューラルネットワークを反復的に修正することをさらに含んでもよく得、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子位置に対応し、それぞれの遺伝子位置の1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めて、拡張バッチを生成することと、合成ケースに基づいて、真の移植拒絶状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、ネットワーク出力に基づいて、複数の重みのうちの1つ以上を修正することと、を含む。
【0111】
本明細書に開示されるいくつかの実施形態は、移植レシピエント内の移植拒絶の尤度を決定する方法を提供し、本方法は、a)移植レシピエントの血液サンプルからDNAを抽出することと、b)標的遺伝子座で抽出されたDNAを濃縮することと、c)標的遺伝子座を増幅することと、d)移植DNAの量およびレシピエント血液サンプル内のレシピエントDNAの量を測定することと、を含み、より多い量のdd-cfDNAは、移植拒絶の尤度がより高いことを示す。本明細書に記載される特定のニューラルネットワークを使用して、移植を拒絶される尤度が高いか、拒絶される尤度が低いとして分類するか、またはある程度の粒度でその可能性を分類することができる。例えば、移植状態拒絶値は、dd-cfDNAの量、移植DNAの量、レシピエントDNAの量、および/または移植の拒絶もしくは成功を含むことができる。この点での合成ケースは、移植状態拒絶値の「真」値が移植が拒絶されたケースを表す生成されたデータセット(例えば、dd-cfDNAの量を指定する)を含んでもよい。本明細書に記載の技術を使用して、ニューラルネットワークを訓練して、移植の成功の尤度を決定することができ、ニューラルネットワークを使用して、成功の尤度を決定または予測を呼び出すことができる。
【0112】
ここでいくつかの例示的な実施態様を記載したが、前述が例示的であり、限定的ではなく、例として提示されたことが明らかである。特に、本明細書に提示される例の多くは、方法行為またはシステム要素の特定の組み合わせを伴うが、それら行為および要素は、同じ目的を達成するために他の方法で組み合わされてもよい。1つの実装態様に関連して議論される行為、要素、および特徴は、他の実装態様または実装態様における同様の役割から除外されることを意図していない。
【0113】
本明細書で使用される語句および用語は、説明の目的のためのものであり、限定とみなされるべきではない。本明細書における「含む(including)」、「含む(comprising)」、「有する(having)」、「含有する(containing)」、「伴う(involving)」、「によって特徴付けられる(characterized by)」、「ことにおいて特徴付けられる(characterized in that)」、およびそれらの変形例の使用は、その後に列挙される項目、それらの等価物、および追加の項目、ならびに排他的にその後に列挙される項目のみからなる代替の実施態様を包含することを意味する。一実施態様において、本明細書に記載されるシステムおよび方法は、記載される要素、行為、または構成要素のうちの1つ、複数の各組み合わせ、または全てからなる。
【0114】
単数形で言及される本明細書におけるシステムおよび方法の実装態様、要素または行為への任意の言及はまた、複数のこれらの要素を含む実装態様を包含してもよく、本明細書における任意の実装態様、要素または行為への任意の複数形の言及もまた、単一の要素のみを含む実装態様を包含してもよい。単数形または複数形の言及は、現在開示されているシステムまたは方法、その構成要素、行為、または要素を単一または複数の構成に限定することを意図していない。任意の行為または要素が任意の情報、行為または要素に基づいていることへの言及は、行為または要素が少なくとも部分的に任意の情報、行為、または要素に基づく実装を含んでもよい。
【0115】
本明細書に開示される任意の実施態様は、任意の他の実施態様と組み合わせられてもよく、「実施態様」、「いくつかの実施態様」、「1つの実施態様」などへの言及は、必ずしも相互排他的ではなく、その実施態様に関連して記載される特定の特性、構造、または特徴が、少なくとも1つの実施態様に含まれてもよいことを示すことが意図される。本明細書で使用されるそのような用語は、必ずしも全て同じ実施態様を指すわけではない。任意の実施態様は、本明細書に開示される態様および実施態様と一致する任意の方法で、包括的または排他的に、任意の他の実施態様と組み合わせられてもよい。
【0116】
本明細書で使用され、別段定義されない場合、用語「実質的に」、「実質的な」、「およそ」、および「約」、ならびに数字(例えば、「~100」)に適用される記号「~」は、小さな変動を記載および説明するために使用される。イベントまたは状況と併せて使用されるときに、用語は、イベントまたは状況が正確に発生するインスタンスと、イベントまたは状況が近似に発生するインスタンスとを包含することができる。例えば、数値と組み合わせて使用されるときに、用語は、±5%以下、±4%以下、±3%以下、±2%以下、±1%以下、±0.5%以下、±0.1%以下、または±0.05%以下など、その数値の±10%以下の変動範囲を包含することができる。
【0117】
本明細書および特許請求の範囲において本明細書で使用される不定冠詞「a」および「an」は、明確に反対の指示がない限り、「少なくとも1つ」を意味すると理解されるべきである。”
【0118】
「または」への言及は、「または」を使用して記載された任意の用語が、記載された用語のうちの単一、複数、および全てのいずれかを示し得るように、包括的であると解釈されてもよい。例えば、「「A」および「B」の少なくとも1つ」への言及は、「A」のみ、「B」のみ、ならびに「A」および「B」の両方を含むことができる。「含む(comprising)」または他のオープン用語と組み合わせて使用されるそのような言及は、追加の項目を含んでもよい。
【0119】
図面、詳細な説明、または任意の特許請求の範囲の技術的特徴に参照符号が続く場合、参照符号は、図面、詳細な説明、および特許請求の範囲の理解性を高めるために含まれている。したがって、参照符号も、それらがないことも、任意の請求項の要素の範囲に対していかなる限定効果もない。
【0120】
本明細書に記載されるシステムおよび方法は、その特徴から逸脱することなく、他の特定の形態で具体化されてもよい。前述の実施態様は、記載されるシステムおよび方法を限定するのではなく、例示的である。したがって、本明細書に記載されるシステムおよび方法の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示され、特許請求の範囲と等価の意味および範囲内に入る変更がその中に包含される。
【手続補正書】
【提出日】2024-06-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
胎児染色体の倍数性状態を検出するための方法であって、
胎児由来の無細胞DNAと母体由来の無細胞DNAとの混合物を含む妊婦の生体サンプルから無細胞DNAを単離することと、
前記無細胞DNAを解析して、前記生体サンプルの遺伝子配列決定データまたは遺伝子アレイデータを作成することと、及び
前記配列決定データまたは遺伝子アレイデータを、ニューラルネットワークを介して伝播させて、ニューラルネットワークの出力として、胎児染色体の倍数性状態を示す分類情報を獲得することと、を含み
ここで前記ニューラルネットワークは合成データによる拡張された訓練データを利用して生成され、当該訓練データは(i)複数のケースと(ii)前記複数のケースにおけるセグメントのホモログであるセグメントを含む合成ケースとを含み、前記合成ケースはサブ染色体異常をシミュレーションするように、かつ前記ニューラルネットワークがサブ染色体異数性をより正確に検出することを可能にするよう、前記複数のケースに基づき生成される、方法。
【請求項2】
前記ニューラルネットワークが、それぞれの状態値を呼び出すための1つ以上の層を含み、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークが、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための1つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの1つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、 前記バッチの前記複数のケースのうちの1つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する1つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの1つ以上を修正することと、を含む、修正することと、を含む、請求項1に記載の方法。
【請求項4】
前記ニューラルネットワークが、胚対立遺伝子比、母親の対立遺伝子比、および父親の対立遺伝子比の遺伝子データを含む訓練データを用いて訓練される、請求項1に記載の方法。
【請求項5】
前記分類情報が少なくとも正倍数性クラスおよび異数性クラスに対応する、請求項1に記載の方法。
【請求項6】
前記合成ケースが染色体の複数の領域における染色体欠失を含む、請求項1に記載の方法。
【請求項7】
前記ホモログが第2のニューラルネットワ-クを利用して生成される、請求項1に記載の方法。
【請求項8】
前記ニューラルネットワークが欠失セグメント、重複および/または三染色体セグメントからなる群から選ばれる異性数のサブ染色体セグメンチを検出するために訓練される、請求項1に記載の方法・
【請求項9】
請求項1の方法に使用するためのシムテムであって、
プロセッサと、
非一時的メモリに記憶されたプロセッサ実行可能命令と
を含み、
前記プロセッサによって実行される時に、前記プロセッサに、
複数の一塩基バリアント(SNV)遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを受け取らせ、ここで、前記遺伝子配列決定データまたは遺伝子アレイデータは、
胎児由来無細胞DNA及び母親由来無細胞DNAの混合物を含む妊婦の生体サンプルから無細胞DNAを単離し、
前記無細胞DNAを分析して、前記生体サンプルについて遺伝子配列決定データまたは遺伝子アレイデータを判定すること、
前記配列決定データまたは遺伝子アレイデータを、ニューラルネットワークを介して伝播させて、ニューラルネットワークの出力として、胎児染色体の倍数性状態を示す分類情報を獲得することと、により得られ、
ここで前記ニューラルネットワークは合成データによる拡張された訓練データを利用して生成され、当該訓練データは(i)複数のケースと(ii)前記複数のケースにおけるセグメントのホモログであるセグメントを含む合成ケースを含み、前記合成ケースはサブ染色体異常をシミュレーションするように、かつ前記ニューラルネットワークがサブ染色体異数性をより正確に検出することを可能にするよう、前記複数のケースに基づき生成される、
システム。
【外国語明細書】