IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ チャン ザッカーバーグ バイオハブ, インコーポレイテッドの特許一覧 ▶ ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティーの特許一覧

特表2023-521893機械学習モデルを用いた局所的祖先推論
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-25
(54)【発明の名称】機械学習モデルを用いた局所的祖先推論
(51)【国際特許分類】
   G16B 20/40 20190101AFI20230518BHJP
【FI】
G16B20/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022562687
(86)(22)【出願日】2021-04-15
(85)【翻訳文提出日】2022-12-14
(86)【国際出願番号】 US2021027478
(87)【国際公開番号】W WO2021211840
(87)【国際公開日】2021-10-21
(31)【優先権主張番号】63/010,467
(32)【優先日】2020-04-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SWIFT
3.PYTHON
4.ETHERNET
(71)【出願人】
【識別番号】520091661
【氏名又は名称】チャン ザッカーバーグ バイオハブ, インコーポレイテッド
(71)【出願人】
【識別番号】503115205
【氏名又は名称】ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー
(74)【代理人】
【識別番号】100145403
【弁理士】
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】モントセラト,ダニエル マス
(72)【発明者】
【氏名】イオアニディス,アレクサンダー
(72)【発明者】
【氏名】クマール,アルビンド
(72)【発明者】
【氏名】ブスタマンテ,カルロス
(72)【発明者】
【氏名】ラストーギ,リチャ
(72)【発明者】
【氏名】ヒルマルソン,ヘルギ
(57)【要約】
コンピュータ実装方法は、訓練された機械学習モデルを記憶することであって、機械学習モデルは、予測器サブモデル及び平滑化サブモデルを含み、機械学習モデルは、祖先起源が知られている訓練ゲノム配列のセグメントに基づいて訓練されている、記憶することと、対象の入力ゲノム配列を表すデータを受け取ることであって、入力ゲノム配列は、対象のゲノムの複数の一塩基多型(SNP)部位を含む複数のセグメントを包含し、各セグメントは、SNP部位におけるSNP値の配列を含み、各SNP値は、SNP部位における変異体を特定する、受け取ることと、予測器サブモデルを使用して、かつデータに基づいて、SNP値の各セグメントの初期祖先起源推定値を決定することと、各セグメントの平滑化サブモデルによって、初期祖先起源推定値の全体にわたって平滑化演算を実行して、セグメントの祖先起源の最終予測結果を取得することと、を含む。
【特許請求の範囲】
【請求項1】
対象のゲノムの異なる部分についての祖先起源を決定するためのコンピュータ実装方法であって、
訓練された機械学習モデルを記憶することであって、前記機械学習モデルは、予測器サブモデル及び平滑化サブモデルを含み、前記機械学習モデルは、祖先起源が知られている訓練ゲノム配列のセグメントに基づいて訓練されている、記憶することと、
前記対象の入力ゲノム配列を表すデータを受け取ることであって、前記入力ゲノム配列は、前記対象の前記ゲノムの複数の一塩基多型(SNP)部位を含む複数のセグメントを包含し、各セグメントは、前記SNP部位におけるSNP値の配列を含み、各SNP値は、前記SNP部位における変異体を特定する、受け取ることと、
前記予測器サブモデルを使用して、かつ前記データに基づいて、SNP値の各セグメントの初期祖先起源推定値を決定することと、
前記複数のセグメントの各セグメントについて、
前記ゲノムにおける前記セグメントの近傍にある近傍セグメントのサブセットを識別することと、
前記平滑化サブモデルに、前記近傍セグメントのサブセットの前記初期祖先起源推定値を入力することと、
前記平滑化サブモデルによって、前記初期祖先起源推定値を使用して、前記セグメント及び前記近傍セグメントのサブセットの全体にわたって平滑化演算を実行して、前記セグメントの前記祖先起源の最終予測結果を取得することと、を含む、コンピュータ実装方法。
【請求項2】
前記予測器サブモデルは、1つ以上の予測器ユニットを含み、
各セグメントの前記初期祖先起源推定値を決定することは、前記複数のセグメントのうちの異なるセグメントのSNP値の配列を前記1つ以上の予測器ユニットに入力して、初期祖先起源推定値を生成することを含み、前記初期祖先起源推定値は、分類出力又は座標出力のうちの1つを含み、
前記分類出力は、前記予測器ユニットへの前記セグメント入力の、複数の候補祖先起源カテゴリの中の祖先起源カテゴリを示し、
前記座標出力は、前記セグメントの祖先起源又は品種を示す座標を含む、請求項1に記載の方法。
【請求項3】
前記座標は、物理空間における前記祖先起源のロケールの地理座標を含む、請求項2に記載の方法。
【請求項4】
前記座標は、品種座標を含み、
異なる品種の対象は、前記異なる品種の前記対象のゲノム配列から生成された異なる品種座標を有する、請求項2に記載の方法。
【請求項5】
前記品種座標は、多次元空間において定義され、前記多次元空間は、SNP部位の符号化に対する次元削減演算から取得された次元によって定義され、
前記予測器サブモデルは、参照対象のゲノム配列を表すベクトルと、前記ベクトルに対して前記次元削減演算を実行することから取得された参照品種座標と、を使用して訓練される、請求項4に記載の方法。
【請求項6】
各セグメントの前記初期祖先起源推定値を決定することは、
複数の候補祖先起源の各々について、前記セグメントが前記候補祖先起源に分類される確率を決定することと、
最も高い確率を有する前記候補祖先起源を、前記セグメントの前記祖先起源として選択することと、を含む、請求項2~5のいずれか一項に記載の方法。
【請求項7】
前記予測器サブモデルは、単一の予測器ユニットを含み、
各セグメントの前記初期祖先起源推定値を決定することは、前記複数のセグメントのうちの異なるセグメントのSNP値の配列、及び前記SNP値の配列と関連付けられたセグメントインデックスを前記予測器ユニットに入力して、初期祖先起源推定値を生成することを含む、請求項2~6のいずれか一項に記載の方法。
【請求項8】
各予測器ユニットは、ニューラルネットワークモデルを含み、
前記ニューラルネットワークモデルは、
複数の入力ノードを含む入力層であって、各入力ノードは、前記予測器ユニットへの前記セグメント入力のSNP値を受け取り、各入力ノードは、前記入力層の重みで前記SNP値をスケーリングする、入力層と、
複数の出力ノードを含む出力層であって、前記出力ノードの各々は、前記スケーリング済みSNP値の和に基づく入力を受け取り、前記入力に基づいて出力を生成する、出力層と、を含み、
各予測器ユニットからの前記初期祖先起源推定値は、前記予測器ユニットの前記出力ノードの前記出力に基づいて生成される、請求項2~7のいずれか一項に記載の方法。
【請求項9】
各予測器ユニットにおいて、
前記出力層の各出力ノードは、前記複数の候補祖先起源のうちの1つに対応し、
各出力ノードの前記出力は、前記セグメントが、対応する候補祖先起源に分類されることを示す、請求項8に記載の方法。
【請求項10】
各予測器ユニットにおいて、
前記出力層の各出力ノードは、祖先起源ロケールの地理座標の成分を出力し、
前記入力ノードによる前記SNP値の前記スケーリングは、回帰モデルに基づく、請求項8又は9に記載の方法。
【請求項11】
各出力ノードは、活性化関数を更に含み、
前記出力は、前記活性化関数を前記入力に適用することに基づいて生成される、請求項8~10のいずれか一項に記載の方法。
【請求項12】
各予測器ユニットにおいて、前記出力ノードの各々は、前記複数の入力ノードの各々からの前記スケーリング済みSNP値の和を前記入力として受け取る、請求項8~11のいずれか一項に記載の方法。
【請求項13】
各予測器ユニットにおいて、
前記ニューラルネットワークモデルは、複数の中間ノードを含む隠れ層を更に含み、
前記中間ノードの各々は、前記複数の入力ノードの各々から前記スケーリング済みSNP値の和を受け取り、前記隠れ層の重みで前記和をスケーリングすることに基づいて、中間出力を生成し、
出力ノードの各々は、前記中間ノードの各々からの前記中間出力を入力として受け取る、請求項8~12のいずれか一項に記載の方法。
【請求項14】
候補祖先起源の各々は、複数の複数のロケールと関連付けられており、
前記中間ノードの各々は、前記候補祖先起源の前記複数のロケールのうちの1つのロケールに対応し、
中間ノードの前記中間出力は、前記セグメントが、前記対応するロケールに分類されるかどうかを示す、請求項13に記載の方法。
【請求項15】
前記平滑化サブモデルは、畳み込みニューラルネットワークモデルを含み、
前記平滑化演算は、カーネルと、前記畳み込みニューラルネットワークモデルによってスライディングウィンドウに含まれる前記初期祖先起源推定値のサブセットと、の間で畳み込み演算を実行することに基づく、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記スライディングウィンドウに含まれる各初期祖先起源推定値は、前記初期祖先起源が生成される前記セグメントの所定の有用性メトリックを示す重みによってスケーリングされ、
前記畳み込み演算は、前記カーネルと前記スケーリング済み初期祖先起源推定値との間で実行される、請求項15に記載の方法。
【請求項17】
セグメントの前記有用性メトリックは、前記セグメントが位置する前記ゲノムの前記部位と関連付けられた予測誤差率に基づいて決定される、請求項16に記載の方法。
【請求項18】
前記1つ以上の予測器ユニットの各予測器ユニットは、複数の決定木を含み、
各決定木は、前記予測器ユニットへの前記セグメント入力のSNPの異なるサブセットを受け取り、前記SNPのサブセットに基づいて、決定木出力を生成し、
各予測器ユニットからの前記初期祖先起源推定値は、前記複数の決定木の前記決定木出力に基づいて生成される、請求項2~17のいずれか一項に記載の方法。
【請求項19】
各予測器ユニットにおいて、前記決定木出力が組み合わされて、前記初期祖先起源推定値として、回帰モデルに基づいて祖先起源ロケールの地理座標を生成する、請求項17に記載の方法。
【請求項20】
各予測器ユニットにおいて、前記決定木出力が組み合わされて、前記複数の候補祖先起源の各々について、前記予測器ユニットへの前記セグメント入力が前記候補祖先起源を有する確率を生成し、
前記複数の候補祖先起源の中で最も高い確率と関連付けられている前記候補祖先起源は、前記予測器ユニットの前記初期祖先起源推定値として選択される、請求項18又は19に記載の方法。
【請求項21】
前記平滑化サブモデルは、複数の決定木を含む、請求項17~20のいずれか一項に記載の方法。
【請求項22】
異なるセグメントは、重複しない、請求項1~20のいずれか一項に記載の方法。
【請求項23】
前記機械学習モデルは、結合された交差エントロピー損失関数に基づく訓練演算で訓練されており、前記結合された交差エントロピー損失関数は、第1の交差エントロピー損失関数と第2の交差エントロピー損失関数との線形結合であり、
前記第1の交差エントロピー損失関数は、SNPの訓練配列のセグメントのグラウンドトゥルース祖先起源を、前記SNPの訓練配列の前記セグメントの前記予測器サブモデルによって出力された初期祖先起源推定値と比較して、第1の比較結果を生成し、
前記予測器サブモデルの重みは、前記第1の比較結果に基づいて更新され、
前記第2の交差エントロピー損失関数は、前記SNPの訓練配列の前記セグメントの前記グラウンドトゥルース祖先起源を、前記SNPの訓練配列の前記セグメントの前記平滑化サブモデルによって出力された最終予測結果と比較して、第2の比較結果を生成し、
前記平滑化サブモデルの重みは、前記第2の比較結果に基づいて更新される、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記機械学習モデルは、複数の決定木を含み、
前記機械学習モデルは、前記複数の決定木を、SNP配列のパターンを祖先起源に関連させる回帰モデルに適合させる勾配木ブースト演算に基づいて訓練されている、請求項1~21のいずれか一項に記載の方法。
【請求項25】
前記最終予測結果をアプリケーションに転送して、前記アプリケーションが、前記最終予測結果及び前記SNPの配列に基づいて、前記対象の疾患のリスクを決定し、かつ前記リスクを出力することを可能にすることを更に含む、請求項1~24のいずれか一項に記載の方法。
【請求項26】
コンピュータシステムを制御して、先行請求項のいずれか一項に記載の方法の演算を実行するための複数の命令を記憶しているコンピュータ可読媒体を備える、コンピュータ製品。
【請求項27】
システムであって、
請求項26に記載のコンピュータ製品と、
前記コンピュータ可読媒体上に記憶された命令を実行するための1つ以上のプロセッサと、を備える、システム。
【請求項28】
請求項1~25のいずれか一項に記載の方法を実行するための手段を備えるシステム。
【請求項29】
請求項1~25のいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項30】
請求項1~25のいずれか一項に記載の方法のステップをそれぞれ実行するモジュールを備えるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、国立衛生研究所によって付与された助成番号HG009080の下で政府の支援を受けて行われた。政府は、本発明に一定の権利を有する。
【関連出願】
【0002】
本特許出願は、「LOCAL-ANCESTRY INFERENCE WITH MACHINE LEARNING MODEL」と題された、2020年4月15日に出願された米国仮特許出願第63/010,467号の優先権を主張し、これは、譲受人らに譲渡され、全ての目的のためにその全体が参照により本明細書に組み込まれる。
【背景技術】
【0003】
デオキシリボ核酸(DNA)配列中のほとんどの部位は、個体間で変動しないが、約2パーセント(500万の位置)変動する。これらは、一塩基多型(SNP)と称される。異なる大陸及び異なる亜大陸地域に由来する現代のヒト集団は、それらのゲノム中のDNA配列中の各部位におけるSNP変異体の頻度に識別可能な差異を呈する。DNAは、各世代において、(2つの親DNA配列間の)祖先における希少でランダムなスワップのみを有するインタクトな配列として遺伝されるため、祖先SNPは、連続したSNP変異体のパターンに基づく強力な祖先推論を可能にする、連続したセグメントを形成する。
【0004】
局所的祖先推論は、個体のゲノムに沿った様々な部位で観察された変動のパターンを使用して、個体のDNAの祖先起源を推定する。milliMorgan分解能で個体のDNAの各セグメントの祖先を正確に推測する能力は、共通の祖先を有する集団が複雑な身体的及び医学的特徴を共有するため、病気の素因を含む複雑な形質についての遺伝学及び環境の役割を解離するために重要である。例えば、米国に住むプエルトリコ人は、最も高い喘息の死亡率を有し、メキシコ人は、最も低い。生物医学的形質(身長、血圧、コレステロールレベル、及び特定の疾病の素質のような)についての集団内の遺伝的関連性を明らかにすることは、治療の発展に情報を提供し、多遺伝子リスクスコアとして知られる疾患リスクの予測因子の構築を可能にすることができる。しかしながら、近傍の遺伝子変異体間の相関は、祖先依存性であるため、個体のゲノムにこれらのリスクスコアを適用することは、ゲノムに沿った各部位における個体の祖先に関する知識を必要とする。混合された現代のコスモポリタン集団の多様性の増加に伴い、ゲノムに沿ったそのような祖先固有の分析は、ますます複雑かつ重要な計算上の問題になりつつある。
【0005】
したがって、新しい技術により、DNA配列における遺伝子変異体(例えば、SNP)のセグメントの祖先起源を推定することが望ましい。
【発明の概要】
【0006】
本開示の実施形態は、機械学習モデルを使用して、DNA配列における遺伝子変異体(例えば、SNP)のセグメントの祖先起源を推定するための方法、システム、及び装置を提供する。機械学習モデルは、例えば、対象のゲノム配列を提供するゲノム配列決定演算、DNAのセグメントを包有するDNAマイクロアレイなどから取得された、一倍体又は二倍体DNA配列を表すデータを処理することができる。機械学習モデルは、milliMorgan分解能などの高分解能で、ゲノムのSNPのセグメント(例えば、参照ゲノムの異なる領域にマッピングされる)の祖先起源の予測を生成することができる。
【0007】
いくつかの実施形態によれば、機械学習モデルは、SNPのセグメントの初期祖先起源推定値を生成する予測器サブモデルと、初期推定値の全体にわたって平滑化演算を実行する平滑化サブモデルと、を含む。平滑化サブモデルは、平滑化演算を実行して、初期祖先起源推定値の不連続部を除去又は低減することができる。いくつかの実施例では、予測器サブモデルを、分類演算に基づいて、SNPのセグメントを候補祖先起源カテゴリセット(例えば、東アジア、南アジア、中東、アフリカ、ヨーロッパ、ポリネシア、オセアニアなど)のうちの1つに分類するための分類器として構成することができる。いくつかの実施例では、予測器サブモデルを、回帰演算に基づいて、SNPのセグメントの祖先起源ロケールの地理座標(緯度及び経度など)を推定するための回帰器として構成することができる。祖先起源ロケールの地理座標は、有限の候補祖先起源カテゴリセットよりもはるかに高い分解能で、かつ絶えず変動する地理的場所セットを指摘することができる。例えば、地理座標は、特定の国(例えば、英国)内の任意の場所(例えば、オックスフォード)を指すことができるのに対して、祖先起源カテゴリは、典型的には、大陸(例えば、アフリカ)又は亜大陸(例えば、北アフリカ)又は国(例えば、日本)の有限の場所セットのみを指すことができる。更に、いくつかの場合では、回帰器は、密接に関連する集団にまで祖先推定値を提供する可能性があり、このことは、いくつかの祖先が他の祖先よりもはるかに大きく関連していても、各祖先誤分類を同等に扱う分類器に問題を提示し得る。いくつかの実施例では、機械学習モデルを訓練して、次元削減から取得された次元を有する多次元空間の祖先起源/品種を表す座標を生成することができる。
【0008】
予測器サブモデル及び平滑化サブモデルは、ニューラルネットワークモデル、勾配ブーストモデルなどのような、様々なトポロジを含むことができる。一実施例では、予測器サブモデルは、入力DNA配列のSNPのセグメントを処理してセグメントの初期祖先起源推定値を生成するように各々が割り当てられた、1つ以上の全結合ニューラルネットワークを含むことができる。初期祖先起源推定値は、例えば、特定の祖先起源カテゴリに属するSNPのセグメントの確率、祖先起源ロケールの地理座標の推定値などを含み得る。平滑化サブモデルは、平滑化演算の一部として、カーネルを近傍初期祖先起源推定値セットと畳み込んで、最終予測としての初期推定値の平滑化バージョンを生成するための、畳み込みニューラルネットワークを含むことができる。いくつかの実施例では、予測器サブモデルは、SNPセグメントを処理するための、異なるSNP部位セットについて訓練された異なる重みセットを各ネットワークが有する、複数の全結合ニューラルネットワークを含むことができる。いくつかの実施例では、予測器サブモデルは、異なるSNPセグメントを処理するための単一の重みセットを有する単一の全結合ニューラルネットワークを含むことができる。単一の全結合ニューラルネットワークはまた、各SNPセグメントと関連付けられたセグメントインデックスを受け入れ、これにより、ニューラルネットワークは、同じ重みセットを使用して異なるSNPセグメントを異なるように処理することが可能になる。
【0009】
別の実施例では、予測器サブモデル及び平滑化サブモデルは、複数の決定木モデルを含むことができる。予測器サブモデルの決定木モデルは、SNPのセグメントの決定出力を生成することができる。決定木モデルの出力を組み合わせて、初期祖先起源推定値を生成することができる。平滑化サブモデルの決定木は、初期祖先起源推定値のサブセットに基づいて、決定出力を生成することができ、決定出力を組み合わせて、最終予測としての初期推定値の平滑化バージョンを提供することができる。いくつかの実施例では、予測器サブモデルは、複数の決定木モデルを含むことができ、各決定木モデルは、SNPセグメントを処理するための、異なるSNP部位セットについて訓練された異なる木パラメータセット(例えば、異なるトポロジ、異なる決定基準など)を有する。いくつかの実施例では、予測器サブモデルは、異なるSNPセグメントを処理するための単一の木パラメータセット(例えば、単一のトポロジ、単一の決定基準セットなど)を有する単一の決定木モデルを含むことができる。単一の決定木モデルはまた、各SNPセグメントと関連付けられたセグメントインデックスを受け入れ、これにより、単一の決定木モデルは、同じ木パラメータセットを使用して異なるSNPセグメントを異なるように処理することが可能になる。
【0010】
機械学習モデルを、様々な技術を使用して訓練することができる。例えば、機械学習モデルがニューラルネットワークモデルを含む場合、機械学習モデルを、機械学習モデルによって出力された祖先起源の予測と、訓練SNP配列のセグメントの真の祖先起源と、を比較する損失関数を最小化することに基づいて訓練することができる。損失関数から損失勾配を生成することができ、損失勾配を使用して、予測器サブモデルの全結合ニューラルネットワークの重み、及び平滑化サブモデルの畳み込みニューラルネットワークのカーネルを更新することができる。機械学習モデルが決定木を含む場合、予測器サブモデル及び平滑化サブモデルの決定木を、勾配ブースト演算に基づいて別個に訓練することができ、勾配ブースト演算は、先行する決定木の決定を、訓練SNP配列のセグメントの祖先起源ロケールの既知の祖先起源カテゴリ及び/又は既知の地理座標をより良く適合させるように調整した結果に基づいて、新しい決定木を順次追加する。
【0011】
機械学習モデルを、アフリカ、東アジア、及びヨーロッパ、並びにより小さい地理的領域の様々なロケールからの個体を含む、既知の祖先起源の集団の完全なゲノムデータから導出された訓練データに基づいて訓練することができる。これらの個体の完全なゲノム配列から、これらの個体のシミュレートされた混合子孫のシミュレートされたゲノム配列を、一連の世代にわたる順シミュレーション(例えば、ライトフィッシャー)に基づいて生成することができる。これらの個体のシミュレートされた混合子孫(例えば、多数の世代にわたって)のゲノム配列、及びシミュレートされたゲノム配列のSNPセグメントの既知の祖先起源を含む訓練データセットを使用して、機械学習モデルを訓練及び検証することができる。この訓練により、機械学習モデルは、異なるDNA部位にマッピングされたSNP変異体のパターンとそれらの祖先起源との関係から学習して、局所的祖先推論を実行することが可能になる。予測器モデルが単一のニューラルネットワークモデル又は単一の決定木モデルを含む場合、モデルを、セグメントインデックスを含む入力に基づいて訓練して、単一のモデルが異なるSNP部位を考慮するように重みを調整することを可能にすることができる。
【0012】
開示された実施形態を用いると、機械学習モデルを訓練して、高分解能でSNPの配列の祖先固有のパターンを識別することができる(例えば、milliMorgan分解能でのSNPのセグメントについて)。これらの個体の多くのシミュレートされた混合子孫のゲノム配列を含む訓練データで機械学習モデルを訓練することによって、機械学習モデルは、異なる混合履歴を有する集団及び個体に対して堅牢化し得る。機械学習モデルの堅牢性は、モデルを回帰演算に基づいてSNPのセグメントの祖先起源ロケールの地理座標を推定するための回帰器として訓練する場合に改善することができ、これにより、密接に関連する集団にまで有用な祖先推定値を提供することができる。機械学習モデルの堅牢性を、平滑化サブモデルによって更に改善することができ、平滑化サブモデルは、初期祖先起源推定値の不連続部を除去するだけでなく、これを、不連続部を除去するための訓練データによって訓練することもできる。
【0013】
加えて、機械学習モデルは、局所的祖先推論を実行するためのポータブルかつ公的にアクセス可能なメカニズムを提供する。具体的には、機械学習モデルを訓練するために使用される訓練データは、プライバシー制限によって保護されるか、又は別様に大衆にとってアクセス可能でない独自のヒトゲノム配列データを包有するデータセットを含むが、機械学習モデルの訓練されたパラメータ(例えば、ニューラルネットワークの重み、決定木の決定シーケンス及び閾値など)は、個体を識別せず、これを公的に利用可能にすることができる。結果として、機械学習モデルを、対象の疾患のリスクを予測すること、対象の遺伝子構成と対象の特定の生物学的特性との間の関連性を決定すること、対象の治療を決定することなどのような、様々な生物医学的用途をサポートするために局所的祖先推論を実行するために公的に利用可能にすることができる。
【0014】
いくつかの実施形態は、本明細書に記載される方法と関連付けられたシステム及びコンピュータ可読媒体を対象とする。
【0015】
以下の詳細な説明及び添付の図面を参照して、本開示の実施形態の性質及び利点のより良好な理解を得ることができる。
【図面の簡単な説明】
【0016】
図1A】ゲノムにおける一塩基多型(SNP)及びSNPの祖先起源の実施例を例示するものである。
図1B】ゲノムにおける一塩基多型(SNP)及びSNPの祖先起源の実施例を例示するものである。
図2A】いくつかの実施形態による、局所的祖先推論を実行するための機械学習モデルの実施例を例示するものである。
図2B】いくつかの実施形態による、局所的祖先推論を実行するための機械学習モデルの実施例を例示するものである。
図2C】いくつかの実施形態による、局所的祖先推論を実行するための機械学習モデルの実施例を例示するものである。
図2D】いくつかの実施形態による、局所的祖先推論を実行するための機械学習モデルの実施例を例示するものである。
図2E】いくつかの実施形態による、局所的祖先推論を実行するための機械学習モデルの実施例を例示するものである。
図3A】いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素、及びそれらの演算を例示するものである。
図3B】いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素、及びそれらの演算を例示するものである。
図3C】いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素、及びそれらの演算を例示するものである。
図4A】いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素を例示するものである。
図4B】いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素を例示するものである。
図5A】訓練演算の実施例を例示するものである。
図5B】訓練演算の実施例を例示するものである。
図6A】は、いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素を例示するものである。
図6B】は、いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素を例示するものである。
図6C】は、いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な構成要素を例示するものである。
図7A】は、いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な試験結果及び適用を例示するものである。
図7B】は、いくつかの実施形態による、図2A図2Cの機械学習モデルの例示的な試験結果及び適用を例示するものである。
図8】いくつかの実施形態による、局所的祖先推論を実行する例示的な方法を例示するものである。
図9】本開示の実施形態が実装され得るコンピュータシステムを例示するものである。
【発明を実施するための形態】
【0017】
局所的祖先推論は、個体のDNAに沿った様々な部位で観察される遺伝子変動のパターンを使用して、個体のDNAの各セグメントの祖先起源を推定する。DNAは、各世代において、(2つの親DNA配列間の)祖先における希少でランダムなスワップのみを有するインタクトな配列として遺伝されるため、祖先SNPは、連続したSNP変異体のパターンに基づく強力な祖先推論を可能にする、連続したセグメントを形成する。
【0018】
本開示の実施形態は、訓練された機械学習モデルを使用して、DNA配列における遺伝子変異体(例えば、SNP)のセグメントの祖先起源を推定するための方法、システム、及び装置を提供する。推定は、milliMorgan分解能でなどのような高分解能にあり得る。一実施例では、コンピュータ実装方法は、対象(例えば、人)の入力ゲノム配列を表すデータを受け取ることを含む。入力ゲノム配列は、対象のゲノムの複数の一塩基多型(SNP)部位を各々が含む複数のセグメントを包含し得る。各セグメントを、データにおいて、各SNP値がSNP部位における変異体を特定する、SNP部位におけるSNP値の配列によって表し得る。データを、一倍体又は二倍体DNA配列から取得することができる。データを、例えば、対象のゲノム配列を提供するゲノム配列決定演算、DNAのセグメントを含有するDNAマイクロアレイなどから取得することができる。データのハプロタイプ情報を、例えば、異なる変異体の異なる値を含むように符号化することができる。第1の値は、対象がSNP部位に一般的な変異体を有すること(例えば、-1の値)を表すことができる。第2の値は、対象がSNP部位に少数の変異体を有すること(例えば、+1の値)を表すことができる。第3の値(例えば、0の値)は、ゲノム情報がSNP部位において欠落していることを表すことができる。いくつかの実施例では、2ビット値を使用して、一般的な変異体(例えば、[0,1])、少数の変異体(例えば、[1,0])、及び欠落している変異体(例えば、[0,0])を表すことができる。
【0019】
方法は、訓練された機械学習モデルを記憶することを更に含み、機械学習モデルは、予測器サブモデル及び平滑化サブモデルを含む。機械学習モデルを、訓練ゲノム配列と訓練ゲノム配列の既知の祖先起源とに基づいて訓練することができる。予測器サブモデルを使用して、かつデータに基づいて、SNP値の各セグメントの初期祖先起源推定値を決定することができる。更に、複数のセグメントの各セグメントについて、対象のゲノムのセグメントの近傍にある近傍セグメントのサブセット。近傍セグメントのサブセットの初期祖先起源推定値を平滑化サブモデルに入力して、セグメントと近傍セグメントのサブセットとの全体にわたって平滑化演算を実行することができる。平滑化演算の結果として、複数のセグメントの各セグメントの祖先起源の最終予測結果を決定することができる。次いで、対象のゲノムの異なる部分の祖先起源を、各セグメントについて取得された最終予測結果に基づいて決定することができる。対象のゲノムの異なる部分について決定された祖先起源を、特定の疾患を有する対象のリスクを予測すること、対象の遺伝子構成と対象の特定の生物学的形質との間の関連性を決定すること、対象の治療を決定することなどのような、他の演算を実行するための様々なアプリケーションに提供することができる。
【0020】
予測器サブモデルは、例えば、1つ以上の分類器、1つ以上の回帰器などを含み得る。分類器は、セグメントが特定の祖先起源に由来する確率(バイナリ0及び1を含む)を識別することができ、そのような確率を、候補祖先起源カテゴリの所定のリストの各々について決定することができる。セグメントの初期祖先起源推定値は、最も高い確率を有する候補祖先起源カテゴリとして決定され得る。更に、回帰器は、例えば互いに近い特定のロケール内の正確な結果を提供するために、地理座標、又は他のタイプの識別子にマッピングする予測を提供することができる。
【0021】
いくつかの実施例では、各分類器は、SNPの重複しないセグメントに対して分類演算を実行して、分類器出力を生成することができる。各分類器は、セグメントが各候補祖先起源カテゴリ(例えば、アフリカ、東アジア、及びヨーロッパ)に分類される確率を決定することができ、分類器によって出力された確率を組み合わせて、最も高い確率を有する候補祖先起源カテゴリに基づいて、初期祖先起源推定値を出力することができる。いくつかの実施例では、各回帰器は、SNPのセグメントのSNPのランダムサブセットに対する回帰演算を実行することができ、これを組み合わせて、SNPのセグメントの祖先起源を示す1つ以上の起源推定値を出力することができる。1つ以上の起源推定値は、例えば、祖先起源ロケールの地理座標(例えば、経度及び緯度)、祖先起源ロケールを表すコードなどを含むことができる。いくつかの場合では、回帰器は、密接に関連する集団に対しても、有用な祖先推定値を提供することができ、このことは、いくつかの祖先が他の祖先よりもはるかに大きく関連していても、各祖先の誤分類を等しく扱う分類器の問題を提示し得る。複数の分類器及び回帰器は、それぞれ、分散コンピューティング環境における局所的祖先推論演算をサポートするために、分類演算及び回帰演算を並列に実行することができ、これにより、推論演算がよりスケーラブルかつ計算効率的になる。
【0022】
いくつかの実施例では、予測器サブモデルは、単一予測モデル(例えば、単一分類器モデル、単一回帰器モデルなど)を含むことができる。単一予測モデルは、異なるSNPセグメントと組み合わせて、異なるSNPセグメントの分類出力又は回帰出力(座標を含むことができる)を生成することができる単一のモデルパラメータセットを含むことができる。単一予測モデルはまた、各SNPセグメントについて、SNPセグメントと関連付けられたセグメントインデックスを受け入れ、モデルパラメータをSNPインデックス及びSNPセグメントと組み合わせて、予測を実行することができる。セグメントインデックスは、特定のSNP部位セットを示すことができ、単一の数字の形態(例えば、1、2、3など)、又は1つのホット符号化の形態(例えば、[1,0,...0]、[0,1,...0]など)にあり得る。トランスフォーマーニューラルネットワークにおける位置符号化などの他のタイプの符号化を使用して、セグメントインデックスを表すこともできる。セグメントインデックスは、単一予測モデルが、同じモデルパラメータセットを使用して異なるSNPセグメントに対して異なるように予測を実行することを可能にする。
【0023】
加えて、平滑化サブモデルは、近傍セグメントのサブセットの初期祖先起源推定値の全体にわたって平滑化演算を実行することができる。平滑化演算は、分類器又は回帰器によって導入されたセグメント間の初期祖先起源推定値の不連続部を除去/低減することができる。次いで、セグメントの平滑化された祖先起源推定値(分類器出力、回帰器出力など)を、対象のゲノムの異なる部分の決定された祖先起源として連結することができる。
【0024】
機械学習モデルを実装するための様々な技法が提案されている。一実施例では、訓練された機械学習モデルは、1つ以上のニューラルネットワークモデルを含み得る。具体的には、予測器サブモデルの各分類器又は回帰器は、全結合ニューラルネットワークモデルを含み得る。全結合ニューラルネットワークモデルは、少なくとも入力層及び出力層を含む。入力層は、複数の入力ノードを含むのに対して、出力層は、複数の出力ノードを含む。各入力ノードは、分類器によって受け取られたセグメントの特定のSNP部位に対応する。各入力ノードは、対応するSNP部位におけるSNP変異体の符号化値(例えば、1、0、-1)を受け取ることができる。入力ノードは、対応する符号化値を第1の重みセットでスケーリングして、スケーリング済み符号化値セットを生成することができる。
【0025】
出力層の各出力ノードは、スケーリング済み符号化値に基づく入力を受け取り、入力を総和することができる。各出力ノードは、例えば、アフリカ、東アジア、及びヨーロッパなどの複数の候補祖先起源のうちの1つに対応することができる。各出力ノードはまた、初期祖先起源推定値を生成するために、入力の和に活性化関数を適用し得る。出力ノードによって出力された初期祖先起源推定値は、ニューラルネットワークモデルによって処理されたSNPのセグメントが、上述したように、SNPのセグメントが候補祖先起源を有する確率などの、対応する候補祖先起源(例えば、アフリカ、東アジア、及びヨーロッパなどのうちの1つ)に分類されるかどうかを示す値を含むことができる。
【0026】
予測器サブモデルの全結合ニューラルネットワークモデルは、様々なニューラルネットワークアーキテクチャを使用して実装され得る。いくつかの実施例では、全結合ニューラルネットワークモデルは、入力層及び出力層のみを含む。そのような配置は、より小さく、より複雑ではない分類器を予測器サブモデルに実装することを可能にし、これにより、ひいては、分類器を訓練し、より少ない時間及び計算リソースを使用して分類演算を実行することが可能になる。更に、入力層の重み付けは、SNPセグメントの祖先起源を識別するための各SNPの重要性を特定することができ、このことは、より解釈可能なネットワークにつながり得る。
【0027】
いくつかの実施例では、全結合ニューラルネットワークモデルは、入力層と出力層との間に隠れ層を含む。隠れ層は、入力SNPセグメントにおける特定の情報の隠れた表現(例えば、特徴ベクトルの形態で取り込まれる)を識別することができ、隠れた表現を、候補祖先起源のうちの1つ、又は祖先起源のロケールの座標にマッピングすることができる。隠れ層は、入力SNPセグメントと祖先起源分類出力又は祖先起源ロケール座標との間の非線形マッピングを提供することができ、これにより、祖先起源推定値の精度を改善することができる。
【0028】
全結合ニューラルネットワークの隠れ層は、複数の中間ノードを含み得る。各中間ノードは、各入力ノードからSNPのスケーリング済み符号化値を受け取り、スケーリング済み符号化値を総和し、第2の重みセットで和をスケーリングし、スケーリング済み和に活性化関数を適用して、中間出力セットを生成することができる。出力層は、各中間ノードからの中間出力を入力として受け取り、中間出力に基づいて、初期祖先起源推定値を生成することができる。中間出力は、入力SNPセグメントと祖先起源分類出力又は祖先起源ロケール座標との間の非線形マッピングを提供することができる隠れた表現を含むことができる。
【0029】
加えて、平滑化サブモデルは、予測器サブモデルからの初期祖先起源推定値のサブセットの全体にわたって平滑化演算を実行して、初期祖先起源推定値の不連続部を除去/低減することができる。平滑化演算は、セグメントごとに平滑化することができる。各セグメントについて、近傍セグメントのサブセット(例えば、ウィンドウ)を使用して、所与のセグメントの祖先起源を決定することができる。いくつかの実施例では、平滑化サブモデルは、カーネルと、入力SNP配列の各セグメントに対して生成された初期祖先起源推定値との間の畳み込み演算を実行することができる畳み込みニューラルネットワーク(CNN)を含むことができ、畳み込み演算の結果を、最終祖先起源予測結果として出力することができる。
【0030】
畳み込み演算の一部として、重みの配列を含むカーネルを、スライディングウィンドウに含まれる近傍セグメントのサブセットの初期祖先起源推定値と乗算することができる。次いで、乗算結果を総和して、平滑化された祖先起源推定値を生成することができる。ウィンドウは、平滑化演算によって置き換えられる標的初期祖先起源推定値、及び標的初期祖先起源推定値の前後の所定数の初期祖先起源推定値を中心とすることができる。カーネルに含まれる各重みを、初期祖先起源推定値にマッピングすることができる。畳み込み演算を用いると、初期祖先起源推定値を、ウィンドウ内で初期祖先起源推定値の加重平均を実行することによって平滑化することができ、これにより、予測器サブモデルによって導入されたセグメント間の初期祖先起源推定値の不連続部を除去することができる。
【0031】
いくつかの実施例では、加重平均演算の一部として、平滑化サブモデルは、それぞれの初期祖先起源推定値によって表されるSNPのセグメントの有用性メトリックに基づいて、各初期祖先起源推定値に重みを割り当てることができる。有用性メトリックは、例えば、セグメントの特定のSNP部位におけるSNP変異体の祖先起源を正しく予測することができるかどうかを反映することができる。有用性メトリックは、例えば、セグメントの祖先起源の予測誤差の確率に基づくことができ、この確率は、集団のゲノムのセグメントの事前予測結果に基づいて決定され得る。予測誤差のより高い確率を有するSNPのセグメントの初期祖先起源推定値に、より小さい重みを割り当てることができるのに対して、予測誤差のより低い確率を有するSNPのセグメントの初期祖先起源推定値に、より大きい重みを割り当てることができる。重みを、畳み込み演算のカーネルの一部とすることができるか、又は畳み込み演算の前の各初期祖先起源推定値に適用することができる。
【0032】
いくつかの実施例では、入力SNP配列(例えば、二倍体)は、対象の母系SNP配列及び父系SNP配列を含むことができ、次いで、CNNは、母系SNP配列及び父系SNP配列についてのカーネルと分類器出力との間の畳み込み演算を実行して、母系SNP配列及び父系SNP配列のセグメントについての祖先起源の最終祖先起源予測結果を生成することができる。そのような配置を用いると、最終予測結果は、母系SNP配列及び父系SNP配列が入力SNP配列内に提示される順序が不変になり得る。
【0033】
いくつかの実施例では、予測器サブモデル及び平滑化サブモデルは、複数の決定木を含むことができる。具体的には、予測器サブモデルの各分類器又は回帰器は、第1の複数の決定木を含むことができる。各決定木は、決定を生成するために、SNPの配列のランダムサブセットを処理することができ、複数の決定木の決定を組み合わせて、初期祖先起源推定値を生成することができる。複数の決定木が分類器を形成する場合、各決定木は、ランダムサンプルに基づいて、SNPのセグメントが特定の祖先起源カテゴリに分類される確率を出力することができ、確率を平均して、初期祖先起源推定値を生成することができる。複数の決定木が回帰器を形成する場合、決定木を訓練して、訓練データのSNPをSNPの既知の祖先起源ロケールの地理座標に適合させる回帰モデルを表す決定出力を生成することができる。次いで、決定木は、SNPの入力配列のランダムサブセットを処理して、中間地理座標を出力することができる。次いで、中間地理座標を組み合わせて(例えば、総和して)、SNPのサブセットについての祖先起源ロケールの初期地理座標推定値を生成することができる。決定木は、分散コンピューティング環境において回帰/分類演算を並列に実行することができ、これにより、演算が、よりスケーラブルかつ計算効率的になる。
【0034】
加えて、平滑化サブモデルはまた、平滑化関数を実行するための第2の複数の決定木を含むことができる。上述したような畳み込みニューラルネットワークと同様に、平滑化関数を、スライディングウィンドウアプローチに基づいて、近傍セグメントのサブセットの初期祖先起源推定値に適用することができる。ウィンドウは、平滑化されることとなる標的初期祖先起源を中心とすることができ、標的初期祖先起源の前後に所定数の初期祖先起源推定値を含むことができる。ウィンドウ内の初期祖先起源推定値の異なるランダムサブセットを、第2の複数の決定木の各々に入力することができる。次いで、決定木によって出力された決定を組み合わせて、最終祖先起源推定値を生成することができ、最終祖先起源推定値は、標的初期祖先起源を置き換えることができる。決定木を訓練して、例えば、ウィンドウ内で近傍の初期祖先起源推定値の加重平均を実行して、初期祖先起源推定値の不連続部を除去することができる。ウィンドウは、CNNによって実行される畳み込み演算と同様に、初期祖先起源推定値の異なるサブセットを包含するようにスライド/移動して、SNPの異なるセグメントについての最終祖先起源予測結果を生成することができる。各初期祖先起源推定値に割り当てられた重みは、上記に説明したように、それぞれの初期祖先起源推定値によって表されるSNPのセグメントの有用性の測定に基づくことができる。
【0035】
機械学習モデルを、予測の精度を改善するように訓練することができる。機械学習モデルを、既知の祖先起源を有する訓練ゲノム配列のセグメントに基づいて訓練することができる。具体的には、機械学習モデルを、機械学習モデルによって識別される既知の祖先起源の集団の完全なゲノムデータから導出された訓練データに基づいて訓練することができる。例えば、機械学習モデルが、SNPのセグメントをアフリカ、東アジア、及びヨーロッパのうちの1つに分類することとなる場合、訓練データは、アフリカ、東アジア、及びヨーロッパ、並びにより小さい地理的領域の様々なロケールからの個体のゲノムデータを含むことができる。これらの個体の完全なゲノム配列から、これらの個体のシミュレートされた混合子孫のシミュレートされたゲノム配列を、一連の世代にわたるシミュレーション(例えば、ライトフィッシャー順シミュレーション)に基づいて生成することができる。これらの個体のシミュレートされた混合子孫(例えば、多数の世代にわたって)のゲノム配列、及びシミュレートされたゲノム配列のSNPセグメントの既知の祖先起源を含む訓練データセットを使用して、機械学習モデルを訓練及び検証することができる。この訓練により、機械学習モデルは、異なるDNA部位におけるSNP変異体のパターンとそれらの祖先起源との関係から学習して、局所的祖先推論を実行することが可能になる。
【0036】
訓練演算は、順伝播演算及び逆伝播演算を含むことができる。順伝播演算の一部として、機械学習モデルは、既知の祖先起源のSNPの配列を含む訓練データを受け取って、配列の祖先起源の予測を生成することができる。各SNPセグメントの予測される祖先起源カテゴリと真の祖先起源カテゴリとの間(又は祖先起源ロケールの予測される地理座標と既知の地理座標との間)の比較を行うことができる。全結合ニューラルネットワークモデルの重み、畳み込みニューラルネットワークモデルのカーネルのパラメータ、決定木、平滑化演算におけるSNPセグメントと関連付けられた重みなどのような、予測器サブモデル及び平滑化サブモデルの様々なパラメータを訓練演算において調整して、予測される祖先起源と真の祖先起源とのマッチングを最大化することができる。
【0037】
機械学習モデルを訓練するための様々な技法を提案する。機械学習モデルが分類器として動作する場合、訓練演算は、結合された交差エントロピー損失関数に基づくことができ、交差エントロピー損失関数は、予測器サブモデルと関連付けられた第1の損失関数と、平滑化サブモデルと関連付けられた第2の損失関数と、の線形結合を含むことができる。第1の損失関数は、訓練データにおけるSNPのセグメントの予測器サブモデルによって出力された初期祖先起源推定値を、それらの真の祖先起源と比較して、第1の損失勾配を生成することができ、第1の損失勾配を使用して、予測器サブモデルの重み又は決定閾値を調整して、第1の損失関数を最小化することができる。更に、第2の損失関数は、SNPのセグメントの平滑化サブモデルによって出力された最終祖先起源予測結果を、それらの真の祖先起源と比較して、第2の損失勾配を生成することができ、第2の損失勾配を使用して、平滑化サブモデルのカーネル又は決定閾値を調整して、第2の損失関数を最小化することができる。
【0038】
更に、予測器サブモデル及び平滑化サブモデルの両方が回帰演算を実行するための決定木を含む場合、訓練演算は、勾配木ブースト演算に基づくことができる。具体的には、訓練演算は、第1の決定出力(例えば、祖先起源推定値、祖先起源ロケールの地理座標など)をSNPのセグメントに適合させるように第1のサブネットワークの第1の決定木を作成することから開始することができる。例えば、第1の決定木からの予測される祖先起源と、真の祖先起源と、の間の差分、第1の決定木からの祖先起源ロケールの予測される地理座標と、祖先起源ロケールの真の地理座標と、の間の差分などに基づいて、第1の残差セットを決定することができる。
【0039】
次いで、第2の決定木を生成及び訓練して、第2の決定出力を第1の残差セットに適合させることができる。例えば、第2の決定木を訓練して、第1の決定出力に対するSNP入力の同じセグメントに対して、第2の決定出力を第1の残差セットに可能な限り一致するように生成することができる。第2の決定出力と第1の残差セットとの間の差分に基づいて、第2の残差セットを決定することができる。次いで、第3の決定木を生成及び訓練して、第3の決定出力を第2の残差セットに適合させることができる。訓練プロセスを、例えば、所定数の木に達する、残差の所定閾値レベルに達するなどまで、繰り返すことができる。新しい決定木を追加して決定木出力を残差に適合させることによって、決定木は、SNPと祖先起源推定値及び/又は祖先起源ロケールの地理座標との間の関係の回帰モデルを表すことができる。
【0040】
I.SNPに基づく局所的祖先推論
一塩基多型(SNP)は、ゲノムにおける一塩基のアデニン(A)、チミン(T)、シトシン(C)、又はグアニン(G)が種のメンバー間で異なる場合に生じるDNA配列変動を指し得る。
【0041】
図1Aは、SNPの一実施例を例示するものである。図1Aは、異なる個体由来の2つの配列決定されたDNA断片102及び104を例示している。配列決定されたDNA断片102は、塩基対AT-AT-CG-CG-CG-TA-ATの配列を含むのに対して、配列決定されたDNA断片104は、塩基対AT-AT-CG-CG-TA-TAーATの配列を含む。図1Aに示されるように、DNA断片102及び104は、ヌクレオチドの一塩基対(CG対TA、典型的には、C及びTと称される)の差分を含有する。差分を、単一のSNPとしてカウントすることができる。SNPが一般的な変異体であるか、又は少数の変異体であるかに基づいて、SNPを値に符号化することができる。一般的な変異体は、集団においてより一般的であり得る(例えば、80%)のに対して、少数の変異体は、より少ない個体で発生するであろう。いくつかの実施例では、一般的な変異体を-1の値として符号化することができるのに対して、少数の変異体を+1の値として符号化することができる。
【0042】
異なる大陸及び異なる亜大陸地域に由来する現代のヒト集団は、過去5万年にわたる遺伝的浮動及び異なる人口統計学的歴史(ボトルネック、拡大、及び混合)に起因して、これらのヒト集団のゲノムにおけるDNA配列の各部位におけるSNP変異体の頻度、及び異なる近傍部位におけるこれらの変異体間の相関の、識別可能な差異を呈する。DNAは、各世代において、(2つの親DNA配列間の)祖先における希少でランダムなスワップのみを有するインタクトな配列として遺伝されるため、祖先SNPは、連続したSNP変異体のパターンに基づく強力な祖先推論を可能にする、連続したセグメントを形成する。
【0043】
図1Bは、個体の各親由来のものである、個体の混合された染色体対のSNPのセグメント間の祖先起源の分布の一実施例を例示するものである。分布112は、個体の異なるSNP部位における遺伝物質の真の祖先起源を例示している。図1Bの実施例では、SNPの祖先起源は、アフリカ、東アジア、及びヨーロッパを含み得る。分布114は、セグメント118(東アジア)の不連続部116(アフリカ)、セグメント122(アフリカ)の不連続部120(東アジア)などの、セグメントの祖先起源不連続部を除去するために、分布112の全体にわたって平滑化演算を実行することから導出され得る、SNPの復号化された祖先起源を例示している。
【0044】
高分解能でゲノムに沿って祖先を正確に推測する能力は、特定の疾病の素質、特定の生物医学的形質(例えば、血圧、コレステロールレベルなど)などの複雑形質に対する遺伝現象及び環境の役割を理解するために重要である。このことは、複雑な身体的及び医学的形質を共有する共通の祖先を有する集団に起因し得る。例えば、特定の民族は、比較的高い喘息の死亡率を有し得るのに対して、別の民族は、比較的低い喘息の死亡率を有し得る。特定の疾病及び生物医学的形質の素質のための集団内の遺伝的関連性を明らかにすることは、治療の発展に情報を提供し、多遺伝子リスクスコアとして知られる疾患リスクの予測因子の構築を可能にすることができる。しかしながら、近傍の遺伝子変異体(例えば、SNP)間の相関は、祖先依存性であるため、個体のゲノムにこれらのリスクスコアを適用することは、ゲノムに沿った各部位における個体の祖先に関する知識を必要とする。混合された現代のコスモポリタン集団の多様性の増加に伴い、図1Bの実施例に示されるように、個体のゲノムが複数の祖先起源を有することがますます一般的になっている。結果として、ゲノムに沿った祖先固有の分析は、ますます複雑かつ重要な計算上の問題になりつつある。
【0045】
II.機械学習モデルを使用する局所的祖先推論
機械学習モデルを使用して、対象のゲノムデータの祖先固有の分析を実行するための正確かつ公的にアクセス可能なメカニズムを提供することができる。具体的には、機械学習モデルを、既知の祖先起源を有する個体のゲノムデータを使用して訓練して、SNPの様々な祖先固有のパターンを学習し、及び学習を適用して、入力ゲノムデータからSNPの祖先固有のパターンをより正確な様式で識別することができる。更に、機械学習モデルを訓練するために使用される訓練データは、プライバシー制限によって保護されるか、又は別様に大衆にとってアクセス可能でない独自のヒトゲノム配列データを包有するデータセットを含むが、機械学習モデルの訓練されたパラメータは、個体を識別せず、公的に利用可能にされ得る。したがって、機械学習モデルを、対象の疾患のリスクを予測すること、対象の遺伝子構成と対象の特定の生物学的特性との間の関連性を決定すること、対象の治療を決定することなどのような、様々な生物医学的用途をサポートするために局所的祖先推論を実行するために公的に利用可能にすることができる。
【0046】
A.一般のトポロジ
図2Aは、いくつかの実施形態による、局所的祖先推論を実行するための機械学習モデル200の一般のトポロジを例示するものである。図2Aに示されるように、機械学習モデル200は、対象(例えば、人)の入力ゲノム配列を表すデータ202を受け取ることができる。入力ゲノム配列は、対象のゲノムの複数の一塩基多型(SNP)部位を各々が含む複数のセグメントを包含し得る。各セグメントを、データ202において、各SNP値がSNP部位における変異体を特定する、SNP部位におけるSNP値の配列によって表し得る。データを、一倍体又は二倍体DNA配列から取得することができる。データ202を、例えば、対象のゲノム配列を提供するゲノム配列決定演算、DNAのセグメントを含有するDNAマイクロアレイなどから取得することができる。ハプロタイプ情報を、例えば、特定のSNPがSNP部位における一般的な変異体であることを表す第1の値(例えば、-1の値)、SNPがSNP部位における少数の変異体であることを表す第2の値(例えば、+1の値)、又はSNP部位におけるゲノム情報が欠落していることを表す第3の値(例えば、0の値)を含むように符号化することができる。データ202を、SNP204a、204b、204c、204nなどのセグメントを含む、重複しないセグメントに分割することができる。いくつかの実施例では、各セグメントは、500個のSNPを含むことができる。機械学習モデル200は、母系の一倍体DNA配列と父系の一倍体DNA配列とを別個に含むデータ202を処理し、各配列のSNPのセグメントについての祖先起源予測205a及び205bを生成することができる。
【0047】
いくつかの実施例では、機械学習モデル200は、予測器サブモデル206及び平滑化サブモデル208を含む2つのサブモデルを含み得る。予測器サブモデル206は、予測器ユニット216a、216b、216c、...210nを含む複数の予測器ユニットを含むことができる。各予測器ユニット216は、SNPのセグメント204内のSNP値と組み合わせて、SNPのセグメントの初期祖先起源推定値218を生成することができるモデルパラメータセットを有することができる。例えば、予測器ユニット216aは、SNP204aのセグメントの初期祖先起源推定値218aを生成することができ、予測器ユニット216bは、SNP204bのセグメントの初期祖先起源推定値218bを生成することができ、予測器ユニット216cは、SNP204cのセグメントの初期祖先起源推定値218cを生成することができるのに対して、予測器ユニット216nは、SNP204nのセグメントの初期祖先起源推定値218nを生成することができる。以下に記載されるように、初期祖先起源推定値218は、特定の祖先起源を有する確率、祖先起源ロケールの地理座標、祖先及び遺伝情報を表す多次元空間の座標、祖先表現を包有する特徴ベクトルなどのような、異なるタイプの情報を含むことができる。
【0048】
各予測器ユニット216は、SNPセグメントに対応する特定のSNP部位セットに特異的な異なるモデルパラメータを有することができる。例えば、予測器ユニット216aは、SNP204aのセグメントに対応するSNP部位に特異的なモデルパラメータセットを有することができるのに対して、予測器ユニット216bは、SNP204bのセグメントに対応するSNP部位に特異的な異なるモデルパラメータセットを有することができる。以下に記載するように、各予測器ユニット216のモデルパラメータを、対応するSNP部位における既知の祖先起源のSNPのセグメントを含む訓練データに基づいて訓練することができる。予測器ユニットは、並列に動作することができ、これにより、分散コンピューティング環境において予測器ユニットの演算を実行することが可能になり、これにより、予測器ユニットの演算が、よりスケーラブルかつ計算効率的になる。いくつかの実施例では、各々が予測器ユニット216a~216nの異なるモデルパラメータセットを有する、異なる予測器サブモデル206を使用して、異なる染色体からのSNPのセグメントを処理することができる。
【0049】
加えて、平滑化サブモデル208は、複数の近傍セグメントに対応する初期祖先起源推定値218の全体にわたって平滑化演算を実行して、最終予測結果220a、220b、220c、220nなどのような最終予測結果220を生成することができる。最終予測結果220はまた、特定の祖先起源を有する確率の予測、祖先起源ロケールの地理座標、祖先/品種を表す多次元空間の一般化座標、及び遺伝情報などを含むことができる。各最終予測結果を、SNPのセグメントについて生成することができ、最終予測結果を連結して、祖先起源予測205a及び205bを含む、対象のゲノムの異なる部分の祖先起源の最終予測結果にすることができる。平滑化演算は、セグメント間の初期祖先起源推定値の不連続部を除去/低減することができる。いくつかの実施例では、平滑化サブモデル208はまた、祖先表現を包有する特徴ベクトルを受け取り、次いで、特徴ベクトルに基づいて、最終予測結果220を生成することができる。いくつかの実施例では、平滑化サブモデル208はまた、特徴ベクトル、及び確率、地理座標、一般化座標などの初期祖先起源推定値218に基づいて、最終予測結果220を生成することができる。
【0050】
図2Aに示されるように、平滑化演算は、スライディングウィンドウにおいて初期祖先起源推定値218のサブセットの加重和/平均を実行して、最終予測結果を生成することを含むことができ、最終予測結果を、初期祖先起源推定値の代わりに出力することができる。スライディングウィンドウは、最終予測結果によって置き換えられる標的初期祖先起源推定値を中心とすることができる。例えば、初期祖先起源推定値218cを置き換えることとなる最終予測結果220cを生成するために、スライディングウィンドウは、初期祖先起源推定値218c、及び初期祖先起源推定値218cの前後の所定数の初期祖先起源推定値218を含むことができる。
【0051】
A.分類器及び回帰に基づく局所的祖先干渉
予測器サブモデル206は、様々な技法を使用して、分類及び回帰演算を実行するなど、SNPのセグメントの初期祖先起源推定値を生成することができる。分類器として動作する場合、予測器ユニットは、SNPセグメントのSNP部位における符号化SNP値を使用して、SNPセグメントが祖先起源を有する確率を計算することができる。祖先起源を、候補祖先起源セットから選択することができる。次いで、予測器ユニットは、SNPセグメントを、最も高い確率と関連付けられた祖先起源を有するものとして分類することができる。
【0052】
図2Bは、例示的な分類演算を例示するものである。図2Bに示されるように、予測器ユニット216aは、祖先起源A、B、Cなどを有するSNPセグメント204aの確率を計算することができる。
【0053】
予測器ユニット216aは、様々な形態の出力を生成することができる。一実施例では、予測器ユニット216aは、セグメント204aを、最も高い確率を有する祖先起源に分類する分類出力を生成することができる。別の実施例では、予測器ユニット216aは、最も高い確率を有する祖先起源に割り当てられた論理1と、祖先起源の残りに割り当てられた論理0と、を用いて、ワンホット符号化フォーマットで分類出力を生成することができる。図2Bでは、祖先起源Aは、最も高い確率を有するため、予測器ユニット216aは、セグメント204aについて祖先起源A又は[1,0,0](1は祖先起源Aを表す)を出力することができる。いくつかの実施例では、予測器ユニット216aはまた、各確率の論理値、(サポートベクターマシンでのような)クラスに属するスコアなどを含む、確率を平滑化層又は他のタイプの数値出力に直接出力することができる。いくつかの実施例では、予測器ユニット216aはまた、祖先表現を包有する特徴ベクトルを生成することができる。例えば、特徴ベクトルは、祖先起源の各確率値を有する確率値の配列を含むことができる。
【0054】
B.回帰に基づく局所的祖先干渉
予測器ユニットが回帰器として動作する場合、予測器ユニットは、所定のSNP部位におけるSNP値の様々なパターンを祖先起源ロケールの地理座標に関連付ける回帰モデルを記憶することができる。回帰モデルは、各SNP部位にマッピングされたモデルパラメータを含むことができる。モデルパラメータを、SNP部位におけるSNP符号化された値の配列と組み合わせて、SNPセグメントの祖先起源ロケールの地理座標を計算することができる。回帰モデルを、例えばSNPセグメントの祖先起源ロケールの予測される地理座標と、対象の集団の既知の地理座標と、の間の距離を最小化することに基づいて訓練することができる。
【0055】
図2Cは、例示的な回帰演算を例示するものである。図2Cに示されるように、予測器ユニット216aは、SNPセグメント204aを回帰モデル230に入力して、SNPセグメント204aの祖先起源ロケールの地理座標240(例えば、経度及び緯度)、又は他の識別情報を計算することができる。地理座標240は、例えば、祖先起源A内の場所を示すことができる。
【0056】
いくつかの実施例では、図2Dに示されるように、各々が異なるモデルパラメータを有する複数の予測器ユニット216a~nを有する代わりに、予測器サブモデル206は、異なるSNPセグメントの初期祖先起源推定値218を生成するための単一のモデルパラメータセットを含む単一の予測器ユニット216(例えば、単一の分類器、単一の回帰器など)を含むことができる。異なるモデルパラメータを有する異なる予測器ユニットを使用してSNPセグメントを処理する図2Aと比較して、図2Dにおける配置は、予測器サブモデル206及び機械学習モデル200をよりコンパクトにし、かつより少ないメモリリソースを必要とすることを可能にする、モデルパラメータの合計サイズを低減することができる。
【0057】
図2Dに示されるように、単一の予測ユニット216は、SNPセグメントのSNP値に加えて、SNPセグメントと関連付けられたセグメントインデックス254を入力として受け付けることができる。各セグメントインデックスは、特定のSNPセグメントのSNP部位を示すことができる。セグメントインデックスを、単一のモデルパラメータセットと組み合わせて、初期祖先起源推定値218を生成することができ、これにより、単一の予測器ユニット216は、同じモデルパラメータセットを使用して、異なるSNP部位セットについて異なるように祖先起源予測を実行することが可能になる。例えば、単一の予測器ユニット216は、SNPセグメント204a及びセグメントインデックス254aに基づいて、初期起源推定値218aを生成することができる。更に、初期起源推定値218bを、SNPセグメント254b及びセグメントインデックス254bに基づいて生成することができる。更に、初期起源推定値218cを、SNPセグメント204c及びセグメントインデックス254cに基づいて生成することができる。以下に記載するように、異なるセグメントインデックスは、単一の予測器ユニット216を訓練して異なるSNP部位セットについて異なるように祖先起源予測を実行するための訓練データの一部であり得る。
【0058】
いくつかの実施例では、単一のモデルパラメータセットを有する単一の予測器ユニット216は、異なる染色体のSNPセグメントのSNP値を処理して、異なる染色体の初期推定値218を生成することができる。セグメントインデックスに加えて、単一の予測器216はまた、特定の染色体と関連付けられた染色体インデックスを受け入れることができる。染色体インデックスは、単一の予測器216が、同じモデルパラメータセットを使用して、異なる染色体について異なるように祖先起源の初期推定値を生成することを可能にする。例えば、図2Eに示されるように、単一の予測器ユニット216は、第1の染色体の入力256aを受け入れ、第1の染色体の初期推定値セット270aを生成することができる。更に、単一の予測器ユニット216は、第2の染色体の入力256bを受け入れ、第2の染色体の初期推定値セット270bを生成することができる。入力256aは、各々が、それぞれ、セグメントインデックス254a~254nと関連付けられた、SNPセグメント204a~204nを含むことができる。加えて、入力256aはまた、第1の染色体と関連付けられた染色体インデックス260aを含む。加えて、入力256bは、各々が、それぞれ、セグメントインデックス254a~254nと関連付けられた、SNPセグメント204a~204nを含むことができる。加えて、入力256bはまた、第2の染色体と関連付けられた染色体インデックス260bを含むことができる。図2Eの配置は、1つのモデルパラメータセットを、異なるSNPセグメント間だけでなく、異なる染色体間でも再利用することを可能にし、このことは、予測器サブモデル206及び機械学習モデル200を更にコンパクトにし、かつより少ないメモリリソースを必要とすることを可能にする。
【0059】
機械学習モデル200を、様々な技法を使用して実装することができる。いくつかの実施例では、予測器サブモデル206の各分類器又は回帰器は、隠れ層を含み得る全結合ニューラルネットワークモデルを含み得る一方、平滑化サブモデル208は、畳み込みニューラルネットワーク(CNN)を含み得る。いくつかの実施例では、予測器サブモデル206の各分類器又は回帰器、及び平滑化サブモデル208は、複数の決定木を含み得る。
【0060】
C.予測器サブモデルとしての全結合ニューラルネットワーク
図3A図3Cは、人工ニューラルネットワークモデルを使用して実装された予測器サブモデル206の実施例を例示するものである。人工ニューラルネットワークは、生物学的ニューラルネットワークに基づくアーキテクチャを有するコンピューティングシステムである。人工ニューラルネットワークは、重みセットを含むことができる。計算を通じて、重みを入力データと組み合わせて、情報を抽出することができ、抽出された情報に基づいて、出力(例えば、決定、計算値など)を作成することができる。ニューラルネットワークの例として、全結合ニューラルネットワーク、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク(例えば、長・短期記憶(LSTM)ネットワーク、ゲート付き再帰型ユニット(GRU)ネットワーク、自己注意層、トランスフォーマー層、残差ブロックなどを挙げることができる。予測器サブモデル206は、これらのニューラルネットワークのいずれかを使用して実装され得る。図3A図3Cに、多層全結合ニューラルネットワークを使用して実装された予測器サブモデル206の実施例が例示されている。
【0061】
1.2層ニューラルネットワーク
図3Aは、ニューラルネットワーク302を含み、かつ分類器として訓練された予測器216aの実施例を例示するものである。ニューラルネットワーク302は、入力層304及び出力層306を含む。入力層304は、例えば入力ノード304a、304b、...304nなどの、複数の入力ノードを含む。更に、出力層306は、例えば出力ノード306a、306b、及び306cなどの、複数の出力ノードを含む。
【0062】
各入力ノードは、分類器によって受け取られた、セグメントの特定のSNP部位におけるSNP値の符号化値(例えば、1、1、-1)を受け取る。例えば、入力ノード304aは、符号化値sを受け取り、入力ノード304bは、符号化値sを受け取るのに対して、入力ノード304nは、符号化値sを受け取る。各入力ノードは、重みセットと関連付けられている。例えば、入力ノード304aは、重みセットWと関連付けられ、入力ノード304bは、重みセットWと関連付けられているのに対して、入力ノード304nは、重みセットWと関連付けられている。各入力ノードは、入力された符号化値を、関連付けられた重みセットでスケーリングして、スケーリング済み符号化値セットを生成し、スケーリング済み符号化値を出力層306の出力ノードに送ることができる。予測器216aが500個のSNPのセグメントを受け取る場合、入力層304は、500個の入力ノードを含むことができる。
【0063】
図3Aにおいて、ニューラルネットワーク302を全結合ニューラルネットワークとすることができ、出力層306の各出力ノードは、入力層304の各入力ノードに接続されており、各入力ノードからスケーリング済み符号化値を受け取る。具体的には、入力ノードの各重みセットは、各出力ノードに対してスケーリング済み符号化値を生成するための、各出力ノードに対応する重み要素を含むことができる。例えば、入力ノード304aの重みセットWは、それぞれ、出力ノード306a、306b、及び306cに対応する重み要素w0,0、w0,1、及びw0,2を含む。更に、入力ノード304bの重みセットWは、それぞれ、同じく出力ノード306a、306b、及び306cに対応する重み要素w1,0、w1,1、及びw1,2を含む。更に、入力ノード304nの重みセットWは、それぞれ、同じく出力ノード306a、306b、及び306cに対応する重み要素wn,0、wn,1、及びwn,2を含む。
【0064】
各出力ノードは、候補祖先起源カテゴリに対応し得る。各出力ノードは、符号化値s、s、sなどの配列によって表される入力SNPセグメントが、出力ノードに対応する候補祖先起源カテゴリに分類される確率を計算することができる。例えば、候補祖先起源セットがアフリカ、ヨーロッパ、及び東アジアを含む場合、出力ノード306aは、入力SNPセグメントがアフリカ起源に分類される確率を出力することができ、出力ノード306bは、入力SNPセグメントがヨーロッパ起源に分類される確率を出力することができるのに対して、出力ノード306cは、入力SNPセグメントが東アジア起源に分類される確率を出力することができる。
【0065】
各出力ノードは、各入力ノードからスケーリング済み符号化値を受け取り、スケーリング済み値を総和して、中間和を生成することができ、次いで、中間和を使用して、出力ノードに対応する候補祖先起源を有する入力SNP配列の確率を計算することができる。例えば、出力ノード306aは、以下のように、中間和である和306aを計算することができる。
【0066】
【数1】
(式1)
【0067】
式1において、sは、各入力ノード(例えば、s、sなど)によって受け取られた符号化SNP値を表すのに対して、w0,iは、重みセットWの重み要素w0,0、重みセットWの重み要素w1,0などを含む、出力ノード306aに対応する各入力ノードの重みセットの重み要素を表す。
【0068】
各出力ノードはまた、中間和を与えられるそのノードの出力を定義する活性化関数を実装している。活性化関数は、生物学的ニューラルネットワークの意思決定を模倣することができる。出力ノード306によって実装される活性化関数の一例として、以下の式に従って定義されるシグモイド関数を挙げることができる。
【0069】
【数2】
(式2)
【0070】
シグモイドに加えて、他の形態の活性化関数を使用することもでき、例えば、ReLU関数、ソフトマックス関数、ソフトプラス関数(ReLU関数の滑らかな近似であり得る)、双曲線正接関数(tanh)、逆正接関数(arctan)、シグモイド関数、ガウス関数などを含むことができる。例示的なReLU及びソフトマックス関数を以下に提供する。
【0071】
【数3】
(式3)
【0072】
【数4】
(式4)
【0073】
式4において、ソフトマックス関数xへの入力は、K個の要素(x、x、...x)を有するベクトルの要素である。
【0074】
次いで、各出力ノードは、シグモイド関数、ソフトマックス関数などの活性化関数を中間和に適用して、出力ノードに対応する候補祖先起源を有する入力SNP配列の確率を計算することができる。他の活性化関数を使用して、中間和セットから特徴ベクトルを計算することもできる。例えば、出力ノード306aは、以下のように、アフリカ起源を有する入力SNP配列の確率P0を計算することができる。
P0=Sigmoid(Σ306a) (式5)
【0075】
出力ノード306b及び306cはまた、式5に基づいて、それぞれ、ヨーロッパ起源を有する入力SNP配列の確率P1、及び東アジア起源を有する入力SNP配列の確率P2を計算することができる。
【0076】
図3Bは、回帰器として訓練されたニューラルネットワーク312を含む予測器216aの実施例を例示するものである。ニューラルネットワーク312は、入力層314及び出力層316を含む。入力層314は、図3Aでのように、SNP配列の符号化値に各々マッピングされた、入力ノード314a、314b、...314nなどの複数の入力ノードを含む。更に、出力層316は、複数の出力ノード316a及び316bを含む。各出力ノードは、祖先起源ロケールの地理座標の成分に対応し得る。例えば、出力ノード316aは、経度L0を出力することができるのに対して、出力ノード316bは、緯度L1を出力することができる。各入力ノードは、各々がそれぞれ、出力ノード316a及び316bに対応する2つの重み要素を含む、重みセットと関連付けられている。各入力ノードは、入力符号化値を、関連付けられた重みセットでスケーリングして、出力ノード316a及び316bの2つの符号化値を生成することができる。各出力ノードは、式1でのように、入力ノード314a...314nから受け取られたスケーリング済み符号化値を総和して、祖先起源ロケールの地理座標の対応する成分を生成することができる。
【0077】
いくつかの実施例では、ニューラルネットワーク312を訓練して、祖先起源/品種を表す座標又はコードを生成することもできる。以下に記載するように、座標を、次元削減演算から取得された次元によって定義される多次元空間で定義することができる。純粋品種対象、又は全てのSNPセグメントに対して単一の祖先起源を有する対象の完全なゲノム配列と、ベクトルに対する次元削減演算を介して取得された多次元空間内の参照座標と、を表すベクトルを使用して、ニューラルネットワーク312を訓練することができる。そのような実施例では、出力ノード316a及び316bは、特定のSNPセグメントの祖先起源又は品種を表す座標を出力することができ、座標は、地理的なロケールを表しても表さなくてもよいが、品種ロケール、又は品種座標を表し得る。特定の品種(例えば、作物又は動物の)の品種座標を、純粋品種(すなわち、既知の祖先起源)のゲノム配列から生成することができる。例えば、SNP部位を符号化することができ(例えば、0又は1)、例えば主成分分析(PCA)を使用して、次元削減を実行することができる。これらの品種座標を、例えば、地理座標を使用することができるのと同様の様式で、ただし、より一般化された意味で、教師あり訓練の出力ラベルとして使用することができる。
【0078】
2.隠れ層
いくつかの実施例では、予測器サブモデル206の全結合ニューラルネットワークモデルは、入力層と出力層との間に隠れ層を含み得る。隠れ層は、SNPの入力セグメントを、候補祖先起源の候補ロケールに分類することができる。次いで、出力層は、隠れ層によって出力されたロケールに基づいて、SNPの入力セグメントを候補祖先起源に更に分類することができる。隠れ層はまた、祖先起源ロケールの地理座標の計算のための追加の回帰パラメータを提供することができる。
【0079】
図3Cは、入力層324及び出力層326、並びに入力層324と出力層326との間の隠れ層328を有するニューラルネットワーク322を含む予測器216aの実施例を例示するものである。入力層324は、入力ノード324a、324b、...324nを含む複数の入力ノードを含む。入力層324の各入力ノードは、分類器によって受け取られた、セグメントの特定のSNP部位におけるSNP値の符号化値(例えば、1、1、-1)を受け取る。例えば、入力ノード324aは、符号化値sを受け取り、入力ノード324bは、符号化値sを受け取るのに対して、入力ノード324nは、符号化値sを受け取る。入力層324がセグメントの500個のSNPを受け取る場合、入力層324は、500個の入力ノードを含み得る。更に、出力層326は、出力ノード326a、326b、及び326cを含む、複数の出力ノードを含む。図3Cにおいて、ニューラルネットワーク322を分類器として構成することができ、各出力ノードは、ニューラルネットワーク302でのように、候補祖先起源に対応し得る。ニューラルネットワーク322が回帰器として構成されている場合、各出力ノードは、祖先起源ロケールの地理座標の成分に対応し得る。出力層326は、ニューラルネットワーク312でのように、2つの出力ノードを含み得る。
【0080】
加えて、隠れ層328は、例えば中間ノード330a、330b、330mなどを含む、複数の中間ノードを含む。各中間ノードは、各入力ノードからSNPのスケーリング済み符号化値を受け取り、スケーリング済み符号化値を総和し、第2の重みセットで和をスケーリングし、スケーリング済み和に活性化関数を適用して、中間出力セットを生成することができる。出力層は、各中間ノードからの中間出力を入力として受け取り、中間出力に基づいて、初期祖先起源推定値(例えば、分類出力、祖先起源ロケールの座標など)を生成することができる。中間出力は、入力SNPセグメントと、祖先起源分類出力(ニューラルネットワーク322が分類器として構成されている場合)又は祖先起源ロケール座標(ニューラルネットワーク322が回帰器として構成されている場合)と、の間の非線形マッピングを提供するための隠れた表現/特徴を含むことができる。いくつかの実施例では、隠れ層328は、30個の中間ノードを含む。
【0081】
図3Cの実施例では、ニューラルネットワーク322を全結合ニューラルネットワークとすることができ、この全結合ニューラルネットワークにおいて、隠れ層328の各中間ノードは、入力層324の各入力ノードから入力を受け取り、この各入力ノードと接続され、出力層326の各出力ノードは、隠れ層328の各中間ノードから入力を受け取り、この各中間ノードと接続されている。具体的には、入力層324の各入力ノードは、符号化SNP値セットを生成するための隠れ層328の中間ノードに各々が対応する、重みセットと関連付けられており、各入力ノードは、隠れ層328の中間ノードのうちの1つに、スケーリング済み符号化SNP値を送る。各中間ノードは、スケーリング済み符号化SNP値を総和して、和を生成し(例えば、式1に基づいて)、シグモイド関数、ソフトマックス関数、ReLU関数などの活性化関数を適用して、中間出力を生成することができる。更に、例えばニューラルネットワーク322の速度、性能、及び安定性を向上させるために、任意選択のバッチ正規化プロセスを各ノードにおいて実行して、中間出力を正規化することができる。正規化プロセスは、例えば、各中間出力から中間出力の平均値を減算し、減算結果を中間出力の標準偏差で除算して、正規化された中間出力を生成することを含むことができる。いくつかの実施例では、正規化演算を、活性化関数を適用する前に実行することができる。
【0082】
出力層326の各出力ノードは、隠れ層328の各中間ノードから正規化された中間出力を受け取ることができる。各出力ノードによって受け取られた正規化された中間出力は、例えば、各中間ノードによって表される各ロケールに祖先起源を有する入力SNP配列の確率の分布、ロケールと関連付けられた回帰パラメータなどを表すことができる。ニューラルネットワーク322が分類器として構成されている場合、各出力ノードは、正規化された中間出力に対してソフトマックス関数を実行することができる。確率の分布に基づいて、ソフトマックス関数は、隠れ層328を、出力ノード326a、326b、及び326c(例えば、アフリカ、ヨーロッパ、及び東アジア)によって表される候補祖先起源の各々への割り当ての確率にマッピングすることができる。図3Aのニューラルネットワーク302のように、ニューラルネットワーク322は、入力SNP配列の最も高い確率、各候補祖先起源の確率などを有する祖先起源を出力することができる。各出力ノードはまた、ReLUなどの他の活性化関数を実行して、特徴ベクトルを生成することができる。
【0083】
ニューラルネットワーク322を、回帰器として訓練するか、又は次元削減演算から取得された多次元空間で定義される座標を生成するように訓練することもできる。両方の場合において、隠れ層328の各中間ノードは、入力SNP配列から、祖先起源ロケール座標、又は次元削減演算から取得された多次元空間の座標を表す中間出力への、非線形マッピングを提供することができる。
【0084】
D.平滑化サブモデルとしての畳み込みニューラルネットワーク
上述したように、予測器サブモデル206に加えて、機械学習モデル200は、予測器サブモデル206によって生成された初期祖先起源推定値(例えば、祖先起源の分類、祖先起源の地理座標など)のサブセットの全体にわたって平滑化演算を実行して、初期祖先起源推定値の不連続部を除去/低減するための、平滑化サブモデル208を更に含む。いくつかの実施例では、平滑化サブモデル208は、カーネルと、入力SNP配列の各セグメントに対して生成された初期祖先起源推定値と、の間の畳み込み演算を実行することができる畳み込みニューラルネットワーク(CNN)を含むことができ、畳み込み演算の結果を最終祖先起源予測結果として出力することができる。再帰型ニューラルネットワーク(例えば、LSTM及びGRU)、自己注意層、トランスフォーマー層、残差ブロックなどの、他のニューラルネットワークトポロジを使用して、平滑化サブモデル208を実装することもできる。
【0085】
1.平滑化演算
図4Aは、平滑化サブモデル208によって実行される例示的な平滑化演算を例示するものである。カーネル402は、初期祖先起源推定値をスライディングウィンドウ404に含めて、初期祖先起源推定値及び/又は近傍のSNPセグメントのサブセットから生成された特徴ベクトルに対して作用することができる。具体的には、カーネル402は、スライディングウィンドウ404の初期祖先起源推定値に各々が対応する重みのアレイを含み得る。重みを、対応する初期祖先起源推定値と乗算することができ、積を総和して、SNPセグメントの最終祖先起源予測結果(例えば、最終祖先起源予測結果406)を生成することができる。最終祖先起源予測結果は、機械学習モデル200の出力として、セグメントの標的初期祖先起源推定値を置き換えることができる。スライディングウィンドウ404は、平滑化演算によって置き換えられる標的初期祖先起源推定値、並びに標的初期祖先起源推定値の前後の所定数の初期祖先起源推定値を含むことができる。いくつかの実施例では、スライディングウィンドウ404は、75個の近傍の初期祖先起源推定値を含むことができ、ウィンドウの位置は、異なる標的初期祖先起源推定値に対して変化する。
【0086】
カーネル402は、各サブカーネルが、チャネルを表し、かつ重みの配列を含む、複数のサブカーネルを含み得る。各チャネルは、出力層306の出力ノードに対応し得る。例えば、カーネル402は、サブカーネル402a、サブカーネル402b、及びサブカーネル402cを含み得る。各サブカーネルは、スライディングウィンドウ404内の出力ノードからの初期祖先起源推定値に対して作用することができる。サブカーネルの各重みを、対応する初期祖先起源推定値と乗算して、積を生成することができ、積を総和して、最終祖先起源予測結果を生成することができる。最終予測結果は、ウィンドウの初期祖先起源推定値の加重平均を表すことができる。例えば、サブカーネル402aを使用して、スライディングウィンドウ404内の出力ノード306aによって出力される初期祖先起源推定値の加重平均を生成することができる。更に、サブカーネル402bを使用して、スライディングウィンドウ404内の出力ノード306bによって出力される初期祖先起源推定値の加重平均を生成することができる。更に、サブカーネル402cを使用して、スライディングウィンドウ404内の出力ノード306cによって出力される初期祖先起源推定値の加重平均を生成することもできる。
【0087】
いくつかの実施例では、加重平均演算の一部として、平滑化サブモデル208は、それぞれの初期祖先起源推定値によって表されるSNPのセグメントの有用性メトリックに基づいて、各初期祖先起源推定値に重みを割り当てることができる。有用性メトリックは、例えば、セグメントの特定のSNP部位におけるSNP変異体の祖先起源を正しく予測することができるかどうかを反映することができる。有用性メトリックは、例えば、セグメントの祖先起源の予測誤差の確率に基づくことができ、この確率は、集団のゲノムのセグメントの事前予測結果に基づいて決定され得る。予測誤差のより高い確率を有するSNPのセグメントの初期祖先起源推定値に、より小さい重みを割り当てることができるのに対して、予測誤差のより低い確率を有するSNPのセグメントの初期祖先起源推定値に、より大きい重みを割り当てることができる。重みを、カーネル402の一部とすることができるか、又はカーネル402と乗算される前に各初期祖先起源推定値に適用することができる。
【0088】
いくつかの実施例では、図2Aのデータ202などの入力SNP配列は、対象の母系SNP配列及び父系SNP配列を含むことができる。母系SNP配列及び父系SNP配列を、予測器サブモデル206によって別個に処理して、母系SNP配列及び父系SNP配列の初期祖先起源推定値420a及び420bを生成することができる。サブカーネル402a、402b、及び402cの各々は、各重みが、母系SNP配列及び父系SNP配列の両方の出力ノードによって出力される初期祖先起源推定値に対応する、重みを含むことができる。重みを、対応する初期祖先起源推定値と乗算して、2つの和セットを生成することができ、母系SNP配列及び父系SNP配列の各々の最終予測結果を生成することができる。結果として、母系SNP配列及び父系SNP配列について、最終予測結果430a及び430bを含む2つの最終予測結果セットを生成することができる。次いで、セグメントの最終予測結果430a及び430bを連結して、各配列のSNPのセグメントの祖先起源予測205a及び205bにすることができる。そのような配置を用いると、最終予測結果は、母系SNP配列及び父系SNP配列が入力SNP配列内に提示される順序が不変になり得る。
【0089】
2.畳み込みニューラルネットワーク
図4Bは、平滑化サブモデル208の一部であり得る畳み込みニューラルネットワーク(CNN)440の実施例を例示するものである。CNN440は、ノード442a、442b、442mなどを含む層442を含むことができる。層442の各ノードを、スライディングウィンドウ404に従って、予測器サブモデル206の予測器ユニット216のサブセットに接続することができる。例えば、スライディングウィンドウ404が75個の初期祖先起源推定値を含む場合、ノード442aを、予測器ユニット216aから開始する75個の予測器ユニットに接続することができ、ノード442bを、予測器ユニット216bから開始する75個の予測器ユニットに接続することができるのに対して、ノード442mを、予測器ユニット216nで終了する75個の予測器ユニットに接続することができる。層442の各ノードは、カーネル402を実装し、出力ノードの最終予測結果220a、220b、220kなどを含む最終予測結果を生成することができる。具体的には、層442の各ノードは、スライディングウィンドウを表す予測器ユニットの重複するグループによって出力される初期祖先起源推定値の加重平均を生成することができる。例えば、ノード442aは、予測器ユニット216a、216b、216c、...216n-2から入力を受け取るのに対して、ノード442bは、予測器ユニット216b、216c、...216n-1から入力を受け取る。いくつかの実施例では、畳み込み演算を、同じ入力及び出力サイズを維持するための適切な反射パディングを用いて実行することができる。例えば、層442のノードに入力される、75個未満の初期祖先起源推定値が(例えば、染色体の始まり又は終わりに)利用可能である場合、反射パディングを適用して(例えば、ゼロパディングによって)、ノードへの入力として、欠落している初期祖先起源推定値を置き換えることができる。CNN440が予測器ユニット216からn個の初期祖先起源推定値を受け取る場合、CNN440は、反射パディングに基づいて、n個の最終予測結果を生成することもできる。
【0090】
E.ニューラルネットワークサブモデルの訓練
機械学習200を、予測の精度を改善するように訓練することができる。機械学習モデル200を、機械学習モデルによって識別される既知の祖先起源の集団の完全なゲノムデータから導出された訓練データに基づいて訓練することができる。例えば、機械学習モデルが、SNPのセグメントを東アジア、アフリカ、及びヨーロッパのいずれかに分類することとなる場合、訓練データは、例えば、中国、日本、韓国、イギリス、フランス、スペイン、南アフリカ、エジプトなどの東アジア、アフリカ、及びヨーロッパの様々なロケールからの個体のゲノムデータを含むことができる。
【0091】
これらの個体の完全なゲノム配列から、これらの個体のシミュレートされた混合子孫のシミュレートされたゲノム配列は、2、4、16、32、及び64世代後などの一連の世代にわたるライトフィッシャー順シミュレーションに基づいて生成される。初期混合後の世代数が増加するにつれて、シミュレートされた子孫は、ゲノムに沿って数が増加する祖先交代を有し、このことは、より困難な推論演算につながり得る。幅広い世代を有するこれらの個体のシミュレートされた混合子孫のゲノム配列、及びシミュレートされたゲノム配列のSNPセグメントの既知の祖先起源を含む訓練データセットを使用して、機械学習モデルを訓練及び検証することができ、これにより、機械学習モデルは、異なるSNP部位におけるSNP変異体のパターンと、訓練データに反映されたそれらの祖先起源と、の間の関係から学習して、局所的祖先推論を実行することが可能になる。欠落しているSNPデータを扱う際の訓練された機械学習モデルの堅牢性を改善するために、ドロップアウト正則化を訓練データに適用して、入力データがDNAマイクロアレイなどの遺伝子型アレイからのものである場合に一般的に発生する欠落している入力SNPをモデル化することができる。
【0092】
加えて、予測器サブモデルが、対応するSNP部位セットにおけるSNPセグメントを各々が処理する複数の予測器ユニットを含む場合、各予測器ユニットを、対応するSNP部位セットにおけるSNPデータに基づいて訓練することができ、各予測器ユニットは、訓練の結果として異なるモデルパラメータセット(例えば、重み、決定木トポロジ、決定基準など)を含むことができる。予測器サブモデルが単一の予測器ユニットを含む場合、予測器サブモデルを、SNPセグメントデータ及びそれらの関連付けられたセグメントインデックスに基づいて訓練して、学習の一部として、サブモデルが異なるSNP部位セットを区別することを可能にすることができる。これにより、予測器サブモデルは、同じモデルパラメータセットを使用して、異なるSNP部位に対して異なるように予測を実行することが可能になる。
【0093】
訓練演算は、順伝播演算及び逆伝播演算を含むことができる。順伝播演算の一部として、機械学習モデルは、既知の祖先起源のSNPの配列を含む訓練データを受け取って、配列の祖先起源の予測を生成することができる。各SNPセグメントの予測される祖先起源と真の祖先起源との間(又は祖先起源位置の予測される地理座標と既知の地理座標との間)の比較を行うことができる。全結合ニューラルネットワークモデルの重み、畳み込みニューラルネットワークモデルのカーネルのパラメータ、決定木、平滑化演算におけるSNPセグメントと関連付けられた重みなどのような、予測器サブモデル及び平滑化サブモデルの様々なパラメータを調整して、予測される祖先起源と真の祖先起源とのマッチングの度合いを最大化することができる。
【0094】
機械学習モデル200が、SNPセグメントを候補祖先起源のうちの1つに分類するための分類器として動作する場合、機械学習モデル200を、交差エントロピー損失関数に基づいて訓練することができる。交差エントロピーは、一般に、所与のランダム変数又は事象セットについての2つの確率分布の間の差分の尺度を指す。エントロピーは、確率分布からランダムに選択された事象を送るために必要とされるビットの数であるのに対して、交差エントロピーは、ある分布からの、別の分布と比較した平均事象を表現し、又は送るために必要とされるビットの数を計算する。標的分布Pと標的分布Qの近似値との間の交差エントロピーは、P及びQからの事象の確率を使用して、以下のように計算することができる。
H(P,Q)=-ΣxP(x)×log(Q(x)) (式6)
【0095】
式6において、P(x)は、Pにおける事象xの確率であるのに対して、Q(x)は、Qにおける事象xの確率である。
【0096】
交差エントロピーを損失関数として使用して、分類器として動作する機械学習モデル200を最適化することができる。上記で説明したように、機械学習モデル200は、SNPセグメントについて、各候補祖先起源の確率を計算することができる。交差エントロピー損失関数を、式6に基づいて、訓練データにおける各候補祖先起源の期待確率(例えば、シミュレートされた混合子孫のシミュレートされたゲノム配列における既知の祖先起源の分布に基づく)と、各候補祖先起源についての機械学習モデル200によって出力された予測確率と、に基づいて、そのSNPセグメントについて決定することができる。式6を参照すると、事象xを、候補祖先起源セット(例えば、アフリカ、東アジア、ヨーロッパ)に対するものとすることができ、P(x)を、各候補祖先起源の期待確率とすることができるのに対して、Q(x)を、各候補祖先起源の、機械学習モデルによって出力された予測確率とすることができる。
【0097】
いくつかの実施例では、訓練演算は、以下のように、予測器サブモデル206と関連付けられた第1の交差エントロピー損失関数と、平滑化サブモデル208と関連付けられた第2の交差エントロピー損失関数と、の線形結合を含み得る、結合された交差エントロピー損失関数に基づくことができる。
【0098】
【数5】
(式7)
【0099】
式7において、
【0100】
【数6】
は、予測器サブモデル206と関連付けられた第1の交差エントロピー損失関数を含むことができる。第1の交差エントロピー損失関数
【0101】
【数7】
は、訓練データのSNPのセグメントのための予測器サブモデルによって出力された初期祖先起源推定値
【0102】
【数8】
(例えば、各候補祖先起源の予測確率)を、それらの真の祖先起源y(例えば、各祖先起源の期待確率)と比較して、第1の損失勾配を生成することができ、第1の損失勾配を使用して、予測器サブモデル206の全結合ニューラルネットワークの重みを調整して、第1の交差エントロピー損失関数を最小化することができる。更に、第2の交差エントロピー損失関数
【0103】
【数9】
は、訓練データにおけるSNPのセグメントの予測器サブモデルによって出力された最終予測結果
【0104】
【数10】
(例えば、各候補祖先起源の予測確率)を、それらの真の祖先起源y(例えば、各祖先起源の期待確率)と比較して、第2の損失勾配を生成することができ、第2の損失勾配を使用して、平滑化サブモデル208のCNNのカーネルを調整することができる。λ>0の場合、予測器サブモデル206の出力
【0105】
【数11】
は、分類器によって推定される確率を表し、そうでない場合、分類器の出力を隠れ層として解釈することができる。いくつかの実施例では、λ及びλの各々を、1/2に設定することができる。機械学習モデル全体のニューラルネットワークを、Adam最適化器、確率的勾配降下法(SGD)、rmspropなどのような、様々な最適化器、及び100エポックを超える0.01の学習率を使用して訓練することもできる。
【0106】
加えて、訓練演算中に、訓練データにおけるSNPの各セグメントの予測器サブモデル206の出力を使用して、SNPのセグメントの有用性メトリックを決定することができる。上述したように、加重平均演算の一部として、平滑化サブモデル208は、それぞれの初期祖先起源推定値によって表されるSNPのセグメントの有用性メトリックに基づいて、各初期祖先起源推定値に重みを割り当てることができる。有用性メトリックは、例えば、セグメントの特定のSNP部位におけるSNP変異体の祖先起源を正しく予測することができるかどうかを反映することができる。有用性メトリックは、例えば、セグメントの祖先起源の予測誤差の確率に基づくことができ、この確率は、集団のゲノムのセグメントの事前予測結果に基づいて決定され得る。ここで、第1の交差エントロピー損失関数に基づいて、有用性メトリックの一部として、各セグメントについて、予測器サブモデル206における予測誤差の確率を決定することができる。確率予測誤差を、平滑化サブモデル208に転送することができ、第2の交差エントロピー損失関数
【0107】
【数12】
の出力と組み合わせて、重みを更新することができる。
【0108】
上記のニューラルネットワークの実施例について、パラメータの数を低減して、計算効率を改善することができる。パラメータの数を低減するための例示的な技法として、重み共有、重み因子分解、重み量子化などが挙げられ得る。加えて、システムの出力数を拡張することによって同時に実装される、分類及び回帰の両方を提供するマルチタスクシステム。訓練を、分類及び回帰の両方を提供するように適合させることもできる。
【0109】
F.次元数削減演算からのデータを用いる訓練
上述したように、予測器サブモデル206を、次元削減演算から取得された訓練データを使用して訓練することができる。次元削減は、一般に、データを高次元空間から低次元空間に変換することを伴う。予測器サブモデル206の場合、低次元表現は、SNPの入力セグメントの異なる祖先起源を区別する出力ラベルとして使用され得る。次元削減演算の例として、例えば、主成分分析(PCA)、カーネルPCA、オートエンコーダ、T分布型確率的近傍埋め込み法(t-SNE)、均一多様体近似及び投影(UMAP)などが挙げられる。
【0110】
図5Aは、主成分分析(PCA)演算500の実施例を例示するものである。図5Aの左に示されるように、対象のゲノム配列502は、各次元が例えば特定のSNP部位(例えば、SNP部位0、SNP部位1、SNP部位2、...SNP部位n)を表す、高次元空間504において表現され得る。ゲノムが100万個のSNP部位を有する場合、高次元空間504は、100万個の次元を有することができる。ゲノム配列は、次元によって表されるSNP部位のSNP値を表す各次元における座標(例えば、一方の対立遺伝子については0、及び他方の対立遺伝子については1)を有することができ、各次元における座標は、100万個の次元のベクトルを形成することができる。品種座標で使用するための訓練セットを生成するとき、訓練サンプル(参照対象)を、既知の祖先起源を有する純粋な品種とすることができる。
【0111】
PCA演算500の一部として、高次元空間504でゲノム配列502を表すベクトルに対して、次元1及び次元2とラベル付けされた2つの次元を含むことができる低次元空間506への線形変換を実行することができる。この変換は、ベクトルの何らかのスカラー投影による最大の分散が、第1の主成分であり得る次元1にあり、かつ第2の最大の分散が、第2の主成分であり得る次元2にあるようなものとすることができる。他の実施例では、低次元空間506は、2つを超える次元を含むことができる。この変換を、以下の式で表すことができる。
=z・w (式8)
【0112】
式8において、zを、ラベルiと、高次元空間504で定義されたp個の次元と関連付けられたゲノム配列を表すベクトルとすることができるのに対して、wを、p次元の重みベクトル(w、w、...w)とすることができる。更に、主成分スコアの新しいベクトルtを、zとwとの間のドット積から生成することができる。主成分スコアはまた、低次元空間506におけるベクトルzの座標を表すことができる。
【0113】
図3B及び図3Cを再度参照すると、PCA演算が、参照対象セットのゲノム配列と、低次元空間506におけるそれらの座標と、に対して実行された後、参照対象セットのゲノム配列とそれらの参照座標とを使用して、図3A図3Dのニューラルネットワークを訓練することができる。訓練演算の一部として、ニューラルネットワークによって(例えば、出力層316、326などによって)出力された座標と、参照対象セットのゲノム配列の各SNPセグメントの参照座標と、の間の差分を最小化するように、重みセットW、W、...Wn-1を更新する。訓練で使用される参照対象の完全なゲノム配列は、ゲノム配列の全てのSNP部位がその純粋な祖先起源、種族、又は品種を示すSNP値を保持するように、既知の純粋な祖先起源、種族、品種などを有することができ、ニューラルネットワークを、全てのSNP部位の出力座標が同じ祖先起源、種族、品種などを示すように訓練することができる。ニューラルネットワークの重みが訓練された後、次いで、新しい対象のSNPのセグメントをニューラルネットワークにフィードして、低次元空間506における各セグメントの座標を決定することができる。座標は、そのセグメントによって表される祖先起源/種族/品種を反映することができる。
【0114】
PCA演算を通して、ゲノム配列(又はSNP部位のセグメント)を、低次元空間504などの多次元空間の座標(品種座標)セットによって表すことができる。低次元空間506の次元は、高分散のベクトルの投影を表すため、これらのベクトルを、対象の祖先起源を区別するゲノム配列の重要な特徴(例えば、SNP部位におけるSNP値のパターン)の差異を強調するために、座標セットで符号化することができ、そのような重要な特徴の差異を有するゲノム配列を、低次元空間346のクラスタに分離することができる。例えば、図5Aに示されるように、ゲノム配列502を、低次元空間506におけるそれらの表現を通してクラスタ508a、508b、508c、及び508dに集約することができる。各クラスタは、異なる祖先起源/種族/品種に対応し得る。新しい対象のSNPセグメントの座標をこれらのクラスタの座標と比較して、そのセグメントによって表される祖先起源/種族/品種を予測することができる。
【0115】
図5Bは、図2A図2Cの機械学習モデル200を訓練するための訓練データを供給するための次元削減演算の別の実施例を例示するものである。図5Bにおいて、訓練データを使用して機械学習モデル200を訓練して、入力ゲノム配列の各染色体位置において、品種又は祖先起源を示す座標を決定することができる。例えば、機械学習モデル200を、純血種のヨーロッパテリアと東アジア由来のイヌとの完全なゲノム配列を使用して訓練して、PCA-1及びPCA-2とラベル付けされた、2つの次元を有する二次元空間の各染色体位置/SNP部位におけるSNPの座標を生成することができる。各完全なゲノム配列は、約100万個のSNP部位を含み得る。他の実施形態は、約10,000~約1,000万個のSNP部位を使用することができる。完全なゲノム配列は、PCA-1次元における、及びPCA-2次元における一対の座標により表される。次元削減演算は、空間に対して2つを超える次元(例えば、3つ以上の次元)を生成することができると理解される。更に、SNPは、一般に、二対立遺伝子であり、完全なゲノム配列を表すベクトルは、(0.1)符号化又は他の符号化を使用することができる。
【0116】
図5Bの上部は、純血種のヨーロッパテリア及び東アジア由来のイヌを含む、PCAによって生成された参照対象の完全なゲノム配列の座標の、二次元空間における分布のグラフ510を例示している。グラフに示されるように、ヨーロッパテリアは、PCA-1次元に沿った比較的高い座標値(例えば、0~80)と、PCA-2次元に沿った比較的低い座標(例えば、-20~0)と、を有する傾向がある。対照的に、東アジア由来のイヌは、PCA-2次元に沿った比較的高い座標値(例えば、20~80)と、PCA-1次元に沿った比較的低い座標値(例えば、0~20)と、を有する傾向がある。
【0117】
図5Bの下部は、訓練された機械学習モデル200によって出力されたPCA-1次元及びPCA-2次元に沿った新しい対象の各染色体位置の座標値を示すグラフ512a及び512bを例示している。機械学習モデル200を、参照対象の完全なゲノム配列と、グラフ510に示されるPCA-1次元及びPCA-2次元に沿ったそれらの参照座標と、を使用して訓練することができる。グラフ512a及び512bに示されるように、染色体位置0~Kの第1の領域の染色体の座標値は、PCA-1次元の比較的高い座標値と、PCA-2次元の比較的低い座標値と、を有し得、このことは、第1の領域の染色体がヨーロッパテリアからのものであり得ることを示している可能性がある。更に、K~300kの、第2の領域の染色体は、PCA-1次元の比較的低い座標値と、PCA-1次元の比較的高い座標値と、を有し得、このことは、第2の領域の染色体が東アジア由来のイヌからのものであり得ることを示している可能性がある。特に、各領域(又はスライディングウィンドウ)を、PCA-1及びPCA-2の特定の値にマッピングすることができ、次いで、これを、品種の既知の座標と比較することができる。新しい試験対象の座標と参照対象の座標との間の距離は、所与の領域の類似性のレベルを提供することができる。
【0118】
G.予測及び平滑化サブモデルとしての決定木
ニューラルネットワークの他に、予測器サブモデル206及び平滑化サブモデル208を、決定木などの他の技法を使用して実装することができる。ニューラルネットワークと比較して、決定木の訓練及び実行は、あまり計算集約的でなく、かつより多くの並列実行を可能にする可能性があり、これにより、決定木を使用して構築された機械学習モデルを、より少ない計算リソース及び/又はより低い帯域幅を有するものを含む様々なハードウェアプラットフォーム上で実行及び訓練することが可能になる。これにより、局所的祖先推論演算のアクセシビリティを更に改善することができる。いくつかの実施例では、ニューラルネットワークと決定木との組み合わせを、予測器サブモデル206及び平滑化サブモデル208の両方に実装することができる。
【0119】
図6Aは、入力SNP配列{s,s}に関する決定を生成するように構成され得る決定木600の実施例を例示するものである。決定は、例えば、特定の祖先起源を有する入力SNP配列の確率、入力SNP配列の祖先起源の地理座標などを含むことができる。決定木の一例として、例えば、XGBoost木を挙げることができる。
【0120】
図6Aに示されるように、決定木600は、ルートノード602などのルートノード、及び子ノード604、606、608、及び610などの子ノードを含むことができる。子ノード(例えば、ノード602及び604)を有する各親ノードを、入力SNP配列を子ノードに分類するための所定の分類基準(例えば、s、s、又は両方の組み合わせの閾値)と関連付けることができる。子ノードを有していない子ノードは、終端ノードである。終端ノードは、各々が決定木によって出力される決定と関連付けられる、ノード606、608、及び610を含む。図6Aの実施例では、決定木600は、3の深さを有することができる。決定木600は、2つのSNPの配列を処理し、特定の祖先起源(例えば、アフリカ、東アジア、又はヨーロッパのうちの1つ)を有する入力SNP配列の確率を生成することができ、ノード606、608、及び610の各々は、それぞれ、確率P0、P1、及びP2と関連付けられる。親ノードの基準の組み合わせに基づいて、決定木600は、入力SNP配列の異なるパターンの異なる確率を出力することができる。決定木600が例示的な実施例として提供されることに留意されたい。予測器サブモデル206で使用される決定木は、異なる数のノード、異なる深度を有し、配列における異なる数のSNPを処理することができることが理解される。
【0121】
図2Aを再度参照すると、予測器ユニット216aなどの予測器ユニットは、複数の決定木を含むことができる。各決定木を、SNPセグメントの異なるサブセットを処理するように割り当てることができ、決定木によって出力される決定を組み合わせて、初期祖先起源推定値を生成することができ、初期祖先起源推定値は、SNPセグメントが各候補祖先起源に分類される確率、SNPセグメントの祖先起源ロケールの地理座標などを含むことができる。
【0122】
図6Bは、決定木に基づいて実装された予測器ユニット216aの一実施例を例示するものである。図6Bに示されるように、予測器ユニット216aは、決定木600a、600b、600c、600nなどを含む複数の決定木を含む。各決定木は、異なる木構造(例えば、異なる数の親ノード及び子ノード、異なる深さなど)、及び異なる決定基準を有することができる。各決定木を、入力セグメント204aのSNPのサブセットを処理するように割り当てることができる。決定木600aを、サブセット610aを処理して決定木出力612aを生成するように割り当てることができ、決定木600bを、サブセット610bを処理して決定木出力612bを生成するように割り当てることができ、決定木600cを、サブセット610cを処理して決定木出力612cを生成するように当てることができるのに対して、決定木600nを、サブセット610nを処理して決定木出力612nを生成するように割り当てることができる。決定木600a~nの各々は、異なる木構造、異なる分類基準などを有することができる。更に、異なる予測器ユニットがまた、異なる数の決定木を有することができ、決定木は、異なる予測器ユニット間の異なる木構造及び分類基準を有することができる。
【0123】
予測器ユニット216aは、決定木出力を組み合わせて初期祖先起源推定値218aにするための出力コンバイナ620を更に含む。いくつかの実施例では、出力コンバイナ620は、例えば決定木による決定木出力を平均/総和して確率推定値を生成することに基づいて、初期祖先起源推定値218aを生成することができる。いくつかの実施例では、予測器ユニット216aを回帰器として構成することができ、出力コンバイナ620は、回帰モデルパラメータに基づいて決定木出力の加重和を実行して、入力セグメントについての祖先起源ロケールの地理座標を生成することができる。
【0124】
予測器サブモデル206の他に、平滑化サブモデル208を、決定木に基づいて実装することもできる。図6Cは、複数の決定木630を含む平滑化サブモデル208の一実施例を例示するものである。各決定木630(例えば、決定木630a、630mなど)は、図6Aに示される決定木600と同様の構造(例えば、親ノード及び子ノードを含む)を有することができる。各決定木を、初期祖先起源推定値218を処理し、かつ決定木出力632を生成するように割り当てることができる。各決定木出力は、各重みがカーネル(例えば、図4Aのカーネル402)における重みを表す、入力祖先起源推定値218の加重バージョンを表すことができる。平滑化サブモデル208は、決定木出力を組み合わせるための出力コンバイナ640を更に含む。出力コンバイナ640は、例えば、決定木出力を総和して、最終予測結果220を生成することができる。
【0125】
決定木630は、出力コンバイナ640と共に、図4Aでのように、スライディングウィンドウに基づく平滑化関数を実行することができる。例えば、図6Cに示されるように、決定木630を、初期祖先起源推定値218a~218i-1、初期祖先起源推定値218i、及び初期祖先起源推定値218i+1~218mを含むウィンドウに含まれる初期祖先起源推定値セットを処理するように割り当てて、標的初期祖先起源推定値218iを置き換えることとなる最終予測結果220iを生成することができる。ウィンドウを、ウィンドウが標的初期祖先起源推定値218iを中心とするように構成することができる。例えば、ウィンドウは、標的初期祖先起源推定値218iの前後のk(例えば、50)個の初期祖先起源推定値を含むことができる。次の最終予測結果について、初期祖先起源の異なるウィンドウを決定木630に入力して、最終予測結果を生成することができる。
【0126】
H.決定木サブモデルの訓練
予測器サブモデル206及び平滑化サブモデル208の決定木を、アフリカ、東アジア、及びヨーロッパの様々なロケールからの個体を含む、既知の祖先起源の集団の完全なゲノムデータに由来する訓練データを使用して訓練することができる。これらの個体の完全なゲノム配列から、これらの個体のシミュレートされた混合子孫のシミュレートされたゲノム配列が、一連の世代にわたるライトフィッシャー順シミュレーションに基づいて生成される。幅広い世代を有するこれらの個体のシミュレートされた混合子孫のゲノム配列、及びシミュレートされたゲノム配列のSNPセグメントの既知の祖先起源を含む訓練データセットを使用して、機械学習モデルを訓練及び検証することができ、これにより、機械学習モデルは、異なるDNA部位におけるSNP変異体のパターンと、訓練データに反映されたそれらの祖先起源と、の間の関係から学習して、局所的祖先推論を実行することが可能になる。
【0127】
予測器サブモデル206及び平滑化サブモデル208の決定木を、勾配木ブースト演算に基づいて訓練することができる。具体的には、訓練演算は、第1の決定出力(例えば、祖先起源推定値、祖先起源ロケールの地理座標など)を訓練データのSNPのセグメントに適合させるための第1の決定木を作成することから開始することができる。第1の決定木の第1の決定出力とグラウンドトゥルースとの差分を表すことができる第1の残差セットを決定することができる。第1の決定木の第1の決定出力によって提供される、グラウンドトゥルース/標的祖先起源とSNPセグメントとの間の第1の回帰関係を、以下のものとすることができる。
Y=f1(x) (式9)
【0128】
式9において、Yは、グラウンドトゥルース/標的祖先起源であるのに対して、f1(x)は、訓練データにおけるSNPセグメントをYに関連させる回帰モデルを表す。グラウンドトゥルース/標的祖先起源と第1の決定木による回帰推定値との差分を表す第1の残差セットを、以下のものとすることができる。
First_Residual(x)=Y-f1(x) (式10)
【0129】
次いで、第2の決定木を生成及び訓練して、第2の決定出力を第1の残差セットに適合させることができる。例えば、第2の決定木を訓練して、第1の決定木に対するSNP入力の同じセグメントに対して、第1の残差セットに可能な限り一致する第2の決定出力を生成することができる。第2の決定木の第2の決定出力によって提供される、第1の残差のセットとSNPセグメントとの間の第2の回帰関係を、以下のものとすることができる。
Y-f1(x)=f2(x) (式11)
【0130】
第1の残差セットと第2の決定木による回帰推定値との差分を表す第2の残差セットを、以下のものとすることができる。
Second_Residual(x)=Y-f1(x)-f2(x) (式12)
【0131】
次いで、第3の決定木を生成及び訓練して、第3の決定出力を第2の残差セットに適合させることができる。訓練プロセスを、例えば、所定数の木に達する、残差の所定閾値レベルに達するなどまで、繰り返すことができる。新しい決定木を追加して決定木出力を残差に適合させることによって、決定木は、以下のような、SNPと祖先起源推定値及び/又は祖先起源ロケールの地理座標との間の関係の回帰モデルを表すことができる。
Y=f1(x)+f2(x)+...+fn(x) (式13)
【0132】
予測器サブモデル206及び平滑化サブモデル208の決定木を、別個の勾配木ブースト演算で別個に訓練することができ、この決定木は、異なる学習率を有することができる。例えば、予測器サブモデル208を0.1の学習率に基づいて訓練することができるのに対して、平滑化サブモデル208を0.3の学習率に基づいて訓練することができる。
【0133】
ニューラルネットワークと比較して、決定木の訓練及び実行は、あまり計算集約的でなく、かつより多くの並列実行を可能にする可能性があり、これにより、決定木を使用して構築された機械学習モデルを、より少ない計算リソース及び/又はより低い帯域幅を有するものを含む様々なハードウェアプラットフォーム上で実行及び訓練することが可能になる。これにより、局所的祖先推論演算のアクセシビリティを更に改善することができる。加えて、機械学習モデルの堅牢性は、モデルを回帰演算に基づいてSNPのセグメントの祖先起源ロケールの地理座標を推定するための回帰器として訓練する場合に改善することができ、これにより、閉じた関連する集団にまで有用な祖先推定値を提供することができる。
【0134】
いくつかの実施例では、図6A図6Cに示される決定木を、図5A図5Bにおいて上述したように、祖先起源/品種を表す座標又はコードを生成する回帰器として訓練することができる。純粋品種対象、又は全てのSNPセグメントに対して単一の祖先起源を有する対象の完全なゲノム配列と、ベクトルに対する次元削減演算を介して取得された多次元空間内の参照座標と、を表すベクトルを使用して、決定木を訓練することができる。
【0135】
II.実験結果
A.ニューラルネットワークに基づく局所的祖先推論
予測器サブモデル206としての隠れ層を有する全結合ニューラルネットワーク、及び平滑化サブモデル208としての畳み込みニューラルネットワークを含む、図3A~3Cの機械学習モデル200の実施例を開発及び訓練する。訓練データは、東アジア(EAS)、アフリカ(AFR)、及びヨーロッパ(EUR)の祖先からの合計1668個の単一集団の個体の完全なゲノム配列に由来する。東アジアのグループは、以下の個体から構成される。中国(China)、北京(Beijing)の103人の漢民族(CHB)、日本(Japan)、東京(Tokyo)の104人の日本人(JPT)、105人の南漢民族(CHS)、中国(China)、雲南省(Xishuangbanna)の93人の中国ダイ族(CDX)、及びベトナム(Vietnam)、ホーチミン市(Ho Chi Minh City)の99人のキン族(KHV)。アフリカのグループは、以下の個体から構成される。ナイジェリア(Nigeria)、イバダン(Ibadan)の108人のヨルバ族(YRI)、ケニア(Kenya)、ウェブエ(Webuye)の99人のルイヤ族(LWK)、ガンビア(Gambia)の西部地方(Western Divisions)の113人のガンビア人(GWD)、シエラレオネ(Sierra Leone)の85人のメンデ族(MSL)、ナイジェリア(Nigeria)の99人のエサン族(ESN)、アメリカ合衆国南西部(Southwest USA)のアフリカ祖先の61人のアメリカ先住民(ASW)、バルバドス(Barbados)の96人のアフリカ系カリブ人(ACB)。最後に、ヨーロッパのグループは、以下のサブ集団から構成される。北ヨーロッパ及び西ヨーロッパ祖先(CEU)を有する99人のユタ州(Utah)住民(CEPH)、イタリア(Italia)の107人のトスカーナ人(TSI)、フィンランド(Finland)の99人のフィンランド人(FIN)、イングランド及びスコットランド(GBR)の91人の英国人、及びスペイン(Spain)の107人のイベリア住民(IBS)。
【0136】
これらの個体の完全なゲノムを使用して、一連の世代にわたってライトフィッシャー順シミュレーションを使用して、シミュレートされた混合子孫のゲノムデータを取得する。特に、1668個の単一集団個体から、1328個を選択して訓練用の600個の混合個体を生成し、170個を使用して検証用の400個の混合個体を生成し、残りの170個を使用して試験用の400個の混合個体を生成した。検証及び試験セットを、17個の異なる祖先の各々について10個の個体を使用して生成した。訓練セットの600個の混合個体を、2、4、16、32、及び64世代後に生成された100個の個体のグループによって構成した。検証及び試験セットの400個の混合個体を、各々、6、12、24、及び48世代で生成した。
【0137】
ゲノムデータを、訓練データセット、検証データセット、及び試験データセットに分割する。機械学習モデル全体(予測器サブモデル206及び平滑化サブモデル208を含む)を、訓練データセットを使用して、かつ式7の結合交差エントロピー損失関数に基づいて訓練する。更に、結合交差エントロピー損失関数のパラメータ(例えば、λ及びλ)、予測器ユニットによって処理されるSNP配列の数、ウィンドウに含まれる初期祖先起源推定値の数、隠れ層サイズ、平滑化カーネルサイズなどのような、機械学習モデルの様々なハイパーパラメータを、検証データセットから決定することができる。次いで、試験データセットを使用して、訓練後に、かつ検証データに基づいて更新されたハイパーパラメータを用いて、機械学習モデルを試験する。
【0138】
1.試験結果及び検証結果
以下の表1は、平滑化演算がある及びない、図3A及び図3Bの機械学習モデル200(隠れ層なし)及び図3C(隠れ層あり)の実施例の染色体20の精度結果を提示するものである。
【0139】
【表1】
表1
【0140】
上記の表1は、ニューラルネットワークに基づく機械学習モデル200が最先端の性能を達成することができることを示唆している。2層及び3層のみでは、ネットワークのモデルサイズは、約10Mb(隠れ層なし)及び約100Mb(隠れ層あり)である。ここでは両方のモデルを染色体20からのデータで訓練し、それらのサイズは、染色体が大きくなるにつれて線形にスケーリングし得る。
【0141】
2.欠落データ堅牢性
遺伝子型データを扱うアプリケーションは、一般的に、遺伝子型決定誤差に起因して、ノイズが多いか、又は不完全であるデータに直面する。他の場合では、異なる商業的な遺伝子型決定アレイに起因して、SNPのサブセットのみが利用可能であり得る。したがって、欠落データに対する堅牢性は、重要な要素である。欠落データを扱う機械学習モデル200の堅牢性を改善するために、機械学習モデルを、異なる割合の欠落している入力SNPで訓練及び試験することができる。ネットワークの構造を変更せず、欠落しているラベルを、訓練及び試験の両方において入力データにドロップアウトを適用する(すなわち、欠落しているSNPを0に設定した)ことによってモデル化した。
【0142】
以下の表2は、平滑化サブモデル208がある及びない、異なる割合の欠落している入力SNPを用いた図3A~3Cの機械学習モデル200による祖先起源推定値の精度値を提示するものである。
【0143】
【表2】
表2
【0144】
精度結果は、入力SNPの50%が欠落している場合でも、ネットワークがかなりの精度の損失なしに祖先を正確に推測することができることを示唆している。別の利点は、展開中に入力SNPの50%のみが使用される場合、モデルパラメータの半分のみを記憶する必要があり、データの半分のみを処理する必要があることである。これにより、欠落データが、煩わしいものから、入力SNPの数の何分の1かを入力として必要とする、より小型でより高速なネットワークを設計するための特徴に変わる。
【0145】
3.フェージング誤差堅牢性
ヒトは、ゲノムの2つの完全なコピーを、各親から1つずつ、保持している。現在の配列決定技術は、典型的には、2つの近傍SNP変異体が同じ配列(母系又は父系)に属するか、又は反対の配列に属するかを確認することができない。すなわち、読み取られた塩基対を、父系又は母系の配列に適正に割り当てることができない。変異体をそれらの正しい配列に割り当てることは、フェージングとして知られており、統計的アルゴリズムが、参照集団における近傍SNP変異体対立遺伝子間の観察された相関に基づいて、この問題を解決するために開発されている。
【0146】
図3A図3Cの機械学習モデル200の実施例を、異なる割合のフェージング誤差を含有するデータで訓練及び試験することができる。これらの誤差をモデル化するために、母系配列及び父系配列において塩基対が異なった位置で、ゲノム配列をランダムにスワップする。つまり、SNPを-1及び1として符号化した後、父系及び母系が1及び-1、又はその逆の位置におけるSNPの符号を、確率pで切り替えた。
【0147】
表3は、異なる値のpを訓練及び評価に使用した場合の、平滑化サブモデル208がある機械学習モデル200及びない機械学習モデル200の精度結果を提示するものである。結果は、ネットワークは中小レベルのフェージング誤差を処理することができるが、非常に高いフェージング誤差(約40%)が存在する場合に精度がかなり低下することを示唆している。
【0148】
【表3】
表3
【0149】
B.決定木に基づく局所的祖先推論
予測器サブモデル206及び平滑化サブモデル208の決定木を含む、図5A~5Cの機械学習モデル200の実施例を開発及び訓練する。機械学習モデルを、XGBoostシステムに基づいて実装することができる。訓練データは、東アジア(EAS)、アフリカ(AFR)、及びヨーロッパ(EUR)の祖先からの合計318個の単一集団の個体の完全なゲノム配列に由来する。アフリカグループは、ナイジェリア(Nigeria)、イバダン(Ibadan)由来の108人のヨルバ族(YRI)、中国(China)の北京(Beijing)由来の103人の漢民族(CHB)の東アジアグループ、及び107人のスペイン人(IBS)のヨーロッパグループからなっていた。
【0150】
これらの個体の完全なゲノムを使用して、一連の世代にわたってライトフィッシャー順シミュレーションを使用して、シミュレートされた混合子孫のゲノムデータを取得する。特に、318個の単一集団個体から、258個を選択して、訓練用の600個の混合個体を生成した。10個の個体を選択して、検証用の300個の混合個体を生成し、残りの10個を選択して、試験用の300個の混合個体を生成した。600個の混合個体から構成される訓練セットは、2、8、12、32、48、及び64世代によって生成された100個の個体の6つのグループからなる。300個の混合個体から構成される検証及び試験セットは、4、16、及び24世代によって生成された100個の個体の3つのグループからなる。
【0151】
追加的に、困難な混合個体に直面した場合の方法の性能の定性的評価を実行するための、密接に位置する(及び遺伝的に類似する)集団を有するデータセット。400個のシミュレートされた混合個体を、以下を含むアジア全体にわたって位置する集団を使用して生成する。182人の漢民族(CHB及びCHS)、83人の中国ダイ族(CDX)、89人のベトナムキン族(KHV)、94人の日本人(JPT)、93人のグジャラートインド人(GIH)、86人のパキスタンパンジャブ人(PJL)、76人のバングラデシュベンガル人(BEB)、92人のスリランカタミル人(STU)、及び92人のインドテルグ人(ITU)。1集団当たり合計10個の個体を使用して、試験用の200個の個体を生成した。残りの個体を使用して、訓練用の200個の混合個体を生成した。訓練個体及び試験個体の両方を、2世代及び4世代後に生成した。局所的祖先推論方法は、混合履歴(混合以降の異なる世代回数)に関わらず、個体からの祖先を正確に推定しなければならないことから、幅広い世代にわたってシミュレートされた混合個体を用いて方法を訓練及び評価することが重要である。
【0152】
ゲノムデータを、訓練データセット、検証データセット、及び試験データセットに分割する。機械学習モデル全体(予測器サブモデル206及び平滑化サブモデル208を含む)を、上述したように、勾配木ブースト演算に基づいて、訓練データセットを使用して訓練する。更に、決定木によって処理されるSNPの数、各予測器ユニットに含まれる決定木の数、木のレベル、学習率などのような、機械学習モデルの様々なハイパーパラメータは、検証データセットに基づくことができる。次いで、試験データセットを使用して、訓練後に、かつ検証データに基づいて更新されたハイパーパラメータを用いて、機械学習モデルを試験する。
【0153】
1.試験結果及び検証結果
以下の表4は、平滑化演算がある及びない、分類モデル及び回帰モデルとして訓練された図6A~6Cの機械学習モデル200の実施例の染色体20の精度結果を提示するものである。
【0154】
【表4】
表4
【0155】
試験は、分類モデル又は回帰モデルとして構成された決定木ベースの機械学習モデルの両方が、分類モデルと回帰モデルとの間の有意差なしに最先端の精度を達成することができることを示唆している。
【0156】
2.欠落データ堅牢性
また、図6A~6Cの機械学習モデル200の実施例を、欠落しているSNPデータを処理する際のそれらの性能について試験する。遺伝子型データは、遺伝子型決定誤差に起因して不完全であり得るか、又は使用される商業的な遺伝子型決定アレイに応じて、SNPのサブセットのみが利用可能であり得る。したがって、欠落しているSNPデータに対して堅牢である方法が好ましい。以下の表5は、異なる割合の欠落している入力SNPを有する分類器として訓練された図6A~6Cの機械学習モデル200の予測精度を提示するものである。
【0157】
【表5】
表5
【0158】
上記の表5は、入力SNPの80%が欠落している場合でも、機械学習モデルが著しい精度の損失なしに祖先を推定することができることを示唆している。このことはまた、展開時間及び効率が最重要である場合に、入力データのわずか何分の1(例えば、20%)のみを使用する、軽量かつ高速の方法の開発を可能にする。
【0159】
3.密接に関連する動物集団及び作物の祖先起源推定
また、SNPセグメントの祖先起源の地理座標を決定するための回帰モデルとして構成された、決定木ベースの機械学習モデル200の定性的評価を実行する。分類ベースのアプローチは、密接に関連する集団では失敗する(このデータセットで約15%の精度を得る)が、座標回帰ベースのモデルは、個体の祖先の有意義な表現を提供することができる。
【0160】
図6A及び図6Bは、それぞれ、点群マップ及び等高線図の形態の、アジアの集団の全てに対して訓練された機械学習モデル200を使用した、二重祖先混合個体の推定される密度マップの実施例を例示している。多重の祖先起源を有する作物/動物の類似の密度マップを、機械学習モデル200を使用して取得することもできる。
【0161】
4.実験結果の拡張
加えて、各決定木によって処理されるSNPの数、平滑化ウィンドウサイズ、及びシミュレートされた混合以来の世代回数などの、決定木ベースの機械学習モデル200の予測精度に対する様々な影響を検討する。
【0162】
以下の表6は、混合後の異なる世代数の個体に対する平滑化ウィンドウサイズの効果を例示するものである。結果は、平滑化ウィンドウサイズが大きいほど、混合後の世代値が大きい個体を除いて、より良好な精度が提供されることを示している。これは、前に多くの世代で混合プロセスが発生した個体に、多くの祖先の切り替わりがあることになるからである。結果として、これらの個体は、祖先起源が一定のままであるSNPの小さい断片のみを有する。そのようなシナリオでは、遠くのウィンドウからの情報は有用ではなく、より大きい平滑化ウィンドウサイズは、予測精度を改善しない可能性がある。一方、混合プロセスが最近発生した個体については、祖先切り替わり頻度が、典型的に低く、遠くのゲノム領域は、依然として有益であり得る。
【0163】
【表6】
表6
【0164】
以下の表7は、ウィンドウにおける各予測器ユニットによって処理されるSNPの数に関連する、平滑化を含む効果を示すものである。小さい窓サイズ(500個のSNP)の場合、平滑化の有無の精度差はかなり大きい(約7%)ことを観測することができる。ただし、大きいウィンドウサイズ(2000個のSNP)を使用する場合、精度差は小さくなる(約8%)。精度の差は、例えば、より大きいウィンドウサイズが、更に遠く離れたSNP間の関係を取り込むことができることに起因し得る。
【0165】
【表7】
表7
【0166】
表6及び表7で観測され得る一般的な挙動は、混合プロセスに続く世代の数が増加するにつれて、精度が低下することである。これは、世代数が大きいほど、より多くの祖先切り替わり、したがって、一定の祖先起源を有する配列が短くなることを暗示するため、切り替わりを検出するのがより困難になるためである。
【0167】
表8は、両方の混合されたシミュレートされたデータセットにおける決定木ベースの機械学習モデル200の平均絶対誤差を例示するものである。絶対誤差は、モデルによって出力される地理座標(緯度及び経度)の誤差の観点で測定される。アフリカ/東アジア/ヨーロッパの大陸データセット(「AFR-EUR-EAS」)では、祖先内の地理的距離が大きくなるが、方法が3つの分岐する祖先を適正に区別することができるため、平均誤差は低くなる。アジアのデータセット内では、関連する(国内の)祖先は、局所的祖先アプローチを介して区別することが非常に困難であり、より高い平均誤差につながる。
【0168】
【表8】
表8
【0169】
III.方法
図8は、対象(例えば、人)のゲノムの異なる部分についての祖先起源を決定するための方法800のフローチャートを例示するものである。方法800は、コンピュータによって実装され得る。
【0170】
図8は、コンピュータが、コンピュータのメモリに、図2Aの機械学習モデル200などの訓練された機械学習モデルを記憶する、ステップ802から始まる。機械学習モデルは、予測器サブモデル(例えば、予測器サブモデル206)及び平滑化サブモデル(例えば、平滑化サブモデル208)を含む。予測器サブモデルは、例えば、複数の分類器、複数の回帰器などを含み得る。分類器は、セグメントが特定の祖先起源に由来する確率(バイナリ0及び1を含む)を識別することができ、そのような確率を、候補祖先起源カテゴリの所定のリストの各々について決定することができる。セグメントの初期祖先起源推定値は、最も高い確率を有する候補祖先起源カテゴリとして決定され得る。更に、回帰器は、例えば互いに近い特定のロケール内の正確な結果を提供するために、地理座標、又は他のタイプの識別子にマッピングする予測を提供することができる。各分類器及び回帰器は、図3A図3Cに示されるニューラルネットワーク、又は図6A図6Cに示される決定木のセットに基づいて実装され得る。
【0171】
機械学習モデルを、既知の祖先起源を有する訓練ゲノム配列のセグメントに基づいて、訓練することができる。機械学習モデルを、機械学習モデルによって識別される既知の祖先起源の集団の完全なゲノムデータから導出された訓練データに基づいて訓練することができる。例えば、機械学習モデルが、セグメントをアフリカ、東アジア、及びヨーロッパのうちの1つに分類することとなる場合、訓練データは、アフリカ、東アジア、及びヨーロッパ、並びにより小さい地理的領域の様々なロケールからの個体のゲノムデータを含むことができる。これらの個体の完全なゲノム配列から、これらの個体のシミュレートされた混合子孫のシミュレートされたゲノム配列を、一連の世代にわたるシミュレーション(例えば、ライトフィッシャー順シミュレーション)に基づいて生成することができる。これらの個体のシミュレートされた混合子孫(例えば、多数の世代にわたって)のゲノム配列、及びシミュレートされたゲノム配列のセグメントの既知の祖先起源を含む訓練データセットを使用して、機械学習モデルを訓練及び検証することができる。訓練は、例えば、結合された交差エントロピー損失関数、勾配木ブースト演算などに基づき得る。
【0172】
ステップ804において、コンピュータは、対象の入力ゲノム配列を表すデータを受け取り、入力ゲノム配列は、対象のゲノムの複数の一塩基多型(SNP)部位を含む複数のセグメントを包含し、各セグメントは、SNP部位におけるSNP値の配列を含み、各SNP値は、SNP部位における変異体を特定する。具体的には、データを、一倍体又は二倍体DNA配列から取得することができる。データを、例えば、対象のゲノム配列を提供するゲノム配列決定演算、DNAのセグメントを含有するDNAマイクロアレイなどから取得することができる。データのハプロタイプ情報を、例えば、異なる変異体の異なる値を含むように符号化することができる。第1の値は、対象がSNP部位に一般的な変異体を有すること(例えば、-1の値)を表すことができる。第2の値は、対象がSNP部位に少数の変異体を有すること(例えば、+1の値)を表すことができる。第3の値(例えば、0の値)は、ゲノム情報がSNP部位において欠落していることを表すことができる。
【0173】
ステップ806において、コンピュータは、予測器サブモデルを使用して、かつデータに基づいて、SNP値の各セグメントの初期祖先起源推定値を決定する。具体的には、いくつかの実施例では、各分類器は、SNPの重複しないセグメントに対して分類演算を実行して、分類器出力を生成することができる。各分類器は、セグメントが各候補祖先起源カテゴリ(例えば、アフリカ、東アジア、及びヨーロッパ)に分類される確率を決定することができ、分類器によって出力された確率を組み合わせて、最も高い確率を有する候補祖先起源カテゴリに基づいて、初期祖先起源推定値を出力することができる。
【0174】
更に、いくつかの実施例では、各回帰器は、SNPのセグメントのSNPのランダムサブセットに対する回帰演算を実行することができ、これを組み合わせて、SNPのセグメントの祖先起源を示す1つ以上の起源推定値を出力することができる。1つ以上の起源推定値は、例えば、祖先起源ロケールの地理座標(例えば、経度及び緯度)、祖先起源ロケールを表すコードなどを含むことができる。更に、いくつかの実施例では、回帰器を、対象の祖先起源/品種を表す座標を用いて、次元削減演算から取得された多次元空間の座標を出力するように訓練することができる。
【0175】
ステップ808において、コンピュータは、初期祖先起源推定を平滑化して、各セグメントの祖先起源の最終予測結果を生成することができる。複数のセグメントの各セグメントについて、コンピュータは、ステップ808aにおいて、ゲノムにおけるセグメントの近傍にある近傍セグメントのサブセットを識別することができる。識別は、図4A及び図6Cに示されるように、最終予測結果によって置き換えられる標的初期祖先起源推定値と共に移動するスライディングウィンドウに基づくことができる。次いで、コンピュータは、ステップ808bにおいて、近傍セグメントのサブセットの初期祖先起源推定値を平滑化サブモデルに入力することができる。次いで、コンピュータは、ステップ808cにおいて、平滑化サブモデルを使用して、初期祖先起源推定値を使用してセグメント及び近傍セグメントのサブセットに対して平滑化演算を実行して、セグメントの祖先起源の最終予測結果を取得することができる。平滑化演算は、ウィンドウ内の初期祖先起源推定値の加重平均を計算することを含むことができる。いくつかの実施例では、初期祖先起源が決定される元となるセグメントの有用性メトリックに基づいて、各初期祖先起源に重みを割り当てることができる。平滑化サブモデルは、例えば、畳み込みニューラルネットワーク、決定木セットなどを含むことができる。
【0176】
IV.コンピュータシステム
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム10におけるそのようなサブシステムの実施例を、図9に示す。いくつかの実施形態では、コンピュータシステムが、単一のコンピュータ装置を含み、サブシステムを、コンピュータ装置のコンポーネントとすることができる。他の実施形態では、コンピュータシステムは、各々が内部コンポーネントを有するサブシステムである、複数のコンピュータ装置を含むことができる。コンピュータシステムとして、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、並びに他の携帯デバイスを挙げることができる。いくつかの実施形態では、クラウドインフラストラクチャ(例えば、Amazon Web Services)、グラフィック処理ユニット(GPU)などを使用して、開示された技法を実装することができる。
【0177】
図9に示されるサブシステムは、システムバス75を介して相互接続されている。プリンタ74、キーボード78、記憶デバイス79、ディスプレイアダプタ82に結合されているモニタ76などのような、追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器及び入力/出力(I/O)デバイスを、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当該技術分野において知られている任意の数の手段によって、コンピュータシステムに接続することができる。例えば、I/Oポート77又は外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、コンピュータシステム10を、インターネットなどの広域ネットワーク、マウス入力デバイス、又はスキャナに接続することができる。システムバス75を介した相互接続は、中央プロセッサ73が、各サブシステムと通信すること、及びシステムメモリ72又は記憶デバイス79(例えば、ハードドライブ又は光ディスクなどの固定ディスク)からの複数の命令の実行、及びサブシステム間の情報のやり取りを制御することを可能にする。システムメモリ72及び/又は記憶装置79は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、及び加速度計などのような、データ収集デバイス85である。本明細書で言及されるデータのうちの任意のものを、あるコンポーネントから別のコンポーネントに出力することができ、ユーザに対して出力することができる。
【0178】
コンピュータシステムは、例えば外部インターフェース81によって又は内部インターフェースによって互いに接続された複数の同じコンポーネント又はサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、又は装置が、ネットワークを介して通信することができる。そのような事例では、あるコンピュータをクライアントと、及び別のコンピュータをサーバとみなすことができ、各々を、同じコンピュータシステムの一部とすることができる。クライアント及びサーバは各々、複数のシステム、サブシステム、又はコンポーネントを含むことができる。
【0179】
実施形態の態様を、ハードウェア(例えば、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ)を使用して、及び/又はモジュール式の若しくは集積された様式で一般にプログラム可能なプロセッサを有するコンピュータソフトウェアを使用して、制御ロジックの形態で実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、又は単一の回路基板上若しくはネットワーク化された複数の処理ユニットを含む。本明細書に提供される本開示及び教示に基づいて、当業者は、ハードウェア、及びハードウェアとソフトウェアとの組み合わせを使用して、本開示の実施形態を実装するための他の方式及び/又は方法を認識及び理解するであろう。
【0180】
本出願で記載されるソフトウェアコンポーネント又は関数のうちの任意のものを、例えば、Java、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、又は例えば、従来の技術若しくはオブジェクト指向の技法を使用するPerl若しくはPythonなどのスクリプト言語を使用する、プロセッサによって実行されるソフトウェアコードとして実装してもよい。ソフトウェアコードを、記憶及び/又は伝送のためのコンピュータ可読媒体上に一連の命令又はコマンドとして記憶してもよい。好適な非一時的コンピュータ可読媒体として、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハードドライブ若しくはフロッピーディスクなどの磁気媒体、又はコンパクトディスク(CD)若しくはDVD(デジタル多用途ディスク)などの光学媒体、フラッシュメモリなどを挙げることができる。コンピュータ可読媒体は、そのような記憶デバイス又は伝送デバイスの任意の組み合わせであってもよい。
【0181】
そのようなプログラムを、符号化し、インターネットを含む多様なプロトコルに従う有線ネットワーク、光ネットワーク、及び/又は無線ネットワークを介した伝送に適合された搬送波信号を使用して伝送してもよい。したがって、そのようなプログラムで符号化されたデータ信号を使用して、コンピュータ可読媒体を作成してもよい。プログラムコードで符号化されたコンピュータ可読媒体を、互換性のあるデバイスとパッケージ化するか、又は(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供してもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、又はコンピュータシステム全体)上又はその内部に存在してもよく、及びシステム又はネットワーク内の異なるコンピュータ製品上又はその内部に存在してもよい。コンピュータシステムは、モニタ、プリンタ、又は本明細書で言及される結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含んでもよい。
【0182】
本明細書に記載される方法のうちの任意のものを、ステップを実行するように構成され得る1つ以上のプロセッサを含むコンピュータシステムを用いて、全体的又は部分的に実行することができる。したがって、実施形態は、本明細書に記載される方法のうちの任意のもののステップを実行し、場合によっては、異なるコンポーネントがそれぞれのステップ又はそれぞれのステップのグループを実行するように構成されたコンピュータシステムを対象とすることができる。番号付けされたステップとして提示されているが、本明細書における方法のステップを、同時に又は異なる順序で実行することができる。追加的に、これらのステップの部分を、他の方法からの他のステップの部分と併用してもよい。また、ステップの全て又は部分は、任意選択であってもよい。追加的に、方法のうちの任意のもののステップのうちの任意のものを、モジュール、ユニット、回路、又はこれらのステップを実行するための他の手段で実行することができる。
【0183】
特定の実施形態の具体的な詳細を、本開示の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様式で組み合わせてもよい。ただし、本開示の他の実施形態は、各個々の態様、又はこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象としてもよい。
【0184】
本開示の例示的な実施形態の上記の説明は、例示及び説明の目的で提示されている。包括的であること、又は本開示を記載された形態そのものに限定することは意図されておらず、多くの修正及び変更が、上記の教示に鑑みて可能である。
【0185】
「a」、「an」、又は「the」の記述は、それに反するように特段示されない限り、「1つ以上」を意味することが意図されている。「又は」の使用は、それに反するように特段示されない限り、「排他的な又は」ではなく「包含的な又は」を意味することが意図されている。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。更に、「第1」又は「第2」の構成要素への言及は、明示的に述べられない限り、言及される構成要素を特定の場所に限定しない。
【0186】
本明細書で言及される全ての特許、特許出願、公報、及び説明は、全ての目的のために参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。
【0187】
本明細書には、特定の実施形態に関する追加の情報を含む付属書が添付されている。付属書で使用される他の用語は、(まだ)業界で一般的に使用される用語ではない場合もある。
図1A
図1B
図2A
図2B
図2C
図2D
図2E
図3A
図3B
図3C
図4A
図4B
図5A
図5B
図6A
図6B
図6C
図7A
図7B
図8
図9
【国際調査報告】