(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-06
(54)【発明の名称】遺伝的祖先を予測するシステム、方法および装置
(51)【国際特許分類】
G16B 20/40 20190101AFI20240730BHJP
G16B 20/10 20190101ALI20240730BHJP
【FI】
G16B20/40
G16B20/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023578911
(86)(22)【出願日】2022-07-07
(85)【翻訳文提出日】2024-02-21
(86)【国際出願番号】 US2022036384
(87)【国際公開番号】W WO2023283355
(87)【国際公開日】2023-01-12
(32)【優先日】2021-07-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】390037914
【氏名又は名称】マース インコーポレーテッド
【氏名又は名称原語表記】MARS INCORPORATED
(74)【代理人】
【識別番号】100073184
【氏名又は名称】柳田 征史
(74)【代理人】
【識別番号】100175042
【氏名又は名称】高橋 秀明
(74)【代理人】
【識別番号】100224775
【氏名又は名称】南 毅
(72)【発明者】
【氏名】ギャリガン,ダニエル
(72)【発明者】
【氏名】ハフ,ジェイソン
(72)【発明者】
【氏名】チョドロフ フォラン,レベッカ
(57)【要約】
一実施形態では、方法は、第1の動物に関連し、未処理の遺伝子型を含む遺伝物質のサンプルにアクセスするステップと、未処理の遺伝子型に基づいて、フェージングされたハプロタイプを生成するステップと、フェージングされたハプロタイプについて、機械学習アルゴリズムによって、フェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、遺伝的集団に対するローカル割り当てを生成するステップと、第1の動物に関連し、遺伝的集団に対するローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信するステップとを含む。
【特許請求の範囲】
【請求項1】
1つ以上のコンピューティングシステムによって、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスするステップと、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成するステップと、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するステップと、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信するステップと
を含む、方法。
【請求項2】
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定するステップ
をさらに含む、請求項1記載の方法。
【請求項3】
前記1つ以上のソース集団を決定するステップが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計するステップと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算するステップと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定するステップと
を含む、請求項1または2記載の方法。
【請求項4】
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングするステップ
をさらに含む、請求項1から3までのいずれか1項記載の方法。
【請求項5】
前記パーティショニングするステップが、1つ以上のクラスタリングアルゴリズムに基づいている、請求項4記載の方法。
【請求項6】
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定するステップ
をさらに含む、請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記1つ以上の遺伝的形質を決定するステップが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、請求項6記載の方法。
【請求項8】
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、請求項6または7記載の方法。
【請求項9】
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新するステップ
をさらに含む、請求項1から8までのいずれか1項記載の方法。
【請求項10】
前記更新するステップが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用するステップと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定するステップと、
同定された前記外れ値を前記参照パネルから除去するステップと
を含む、請求項9記載の方法。
【請求項11】
前記更新するステップが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、請求項9または10記載の方法。
【請求項12】
前記更新するステップが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成するステップ
をさらに含み、
前記更新するステップは、生成された前記ラベルに基づいている、
請求項9から11までのいずれか1項記載の方法。
【請求項13】
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成するステップと、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成するステップであって、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングするステップを含む、生成するステップと
をさらに含む、請求項1から12までのいずれか1項記載の方法。
【請求項14】
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、請求項1から13までのいずれか1項記載の方法。
【請求項15】
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去するステップ
をさらに含む、請求項1から14までのいずれか1項記載の方法。
【請求項16】
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、請求項1から15までのいずれか1項記載の方法。
【請求項17】
請求項1から16までのいずれか1項記載の方法により動物のローカル祖先およびグローバル祖先を決定するためのキットであって、サンプル収集デバイスを含む、キット。
【請求項18】
前記サンプル収集デバイスがキャリアおよびリザーバを含む、請求項17記載のキット。
【請求項19】
前記キャリアが吸収性部材を含み、前記リザーバがシールドを含む、請求項18記載のキット。
【請求項20】
前記サンプル収集デバイスの使用方法および/またはサンプルの収集方法に関する取扱説明書をさらに含む、請求項17から19までのいずれか1項記載のキット。
【請求項21】
ソフトウェアを具備する1つ以上のコンピュータ可読非一時的記憶媒体であって、実行されたときに、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスし、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成し、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成し、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信する
ように動作可能である、媒体。
【請求項22】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定する
ように動作可能である、請求項21記載の媒体。
【請求項23】
前記1つ以上のソース集団を決定することが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算することと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定することと
を含む、請求項21または22記載の媒体。
【請求項24】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングする
ように動作可能である、請求項21から23までのいずれか1項記載の媒体。
【請求項25】
パーティショニングが、1つ以上のクラスタリングアルゴリズムに基づいている、請求項24記載の媒体。
【請求項26】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定する
ように動作可能である、請求項21から25までのいずれか1項記載の媒体。
【請求項27】
前記1つ以上の遺伝的形質を決定することが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、請求項26記載の媒体。
【請求項28】
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、請求項26または27記載の媒体。
【請求項29】
前記ソフトウェアが、さらに、実行されたときに、
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新する
ように動作可能である、請求項21から28までのいずれか1項記載の媒体。
【請求項30】
前記更新することが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用することと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、
同定された前記外れ値を前記参照パネルから除去することと
を含む、請求項29記載の媒体。
【請求項31】
前記更新することが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、請求項29または30記載の媒体。
【請求項32】
前記更新することが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成すること
をさらに含み、
前記更新することは、生成された前記ラベルに基づいている、
請求項29から31までのいずれか1項記載の媒体。
【請求項33】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成し、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成し、前記生成することは、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含む
ように動作可能である、請求項21から32までのいずれか1項記載の媒体。
【請求項34】
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、請求項21から33までのいずれか1項記載の媒体。
【請求項35】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去する
ように動作可能である、請求項21から34までのいずれか1項記載の媒体。
【請求項36】
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、請求項21から35までのいずれか1項記載の媒体。
【請求項37】
1つ以上のプロセッサと、前記プロセッサによって実行可能な命令を含む、前記プロセッサに結合された非一時的メモリとを含むシステムであって、前記プロセッサは、命令を実行するときに、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスし、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成し、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成し、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信する
ように動作可能である、システム。
【請求項38】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定する
ように動作可能である、請求項37記載のシステム。
【請求項39】
前記1つ以上のソース集団を決定することが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算することと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定することと
を含む、請求項37または38記載のシステム。
【請求項40】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングする
ように動作可能である、請求項37から39までのいずれか1項記載のシステム。
【請求項41】
パーティショニングが、1つ以上のクラスタリングアルゴリズムに基づいている、請求項40記載のシステム。
【請求項42】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定する
ように動作可能である、請求項37から41までのいずれか1項記載のシステム。
【請求項43】
前記1つ以上の遺伝的形質を決定することが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、請求項42記載のシステム。
【請求項44】
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、請求項42または43記載のシステム。
【請求項45】
前記プロセッサが、さらに、命令を実行するときに、
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新する
ように動作可能である、請求項37から44までのいずれか1項記載のシステム。
【請求項46】
前記更新することが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用することと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、
同定された前記外れ値を前記参照パネルから除去することと
を含む、請求項45記載のシステム。
【請求項47】
前記更新することが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、請求項45または46記載のシステム。
【請求項48】
前記更新することが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成すること
をさらに含み、
前記更新することは、生成された前記ラベルに基づいている、
請求項45から47までのいずれか1項記載のシステム。
【請求項49】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成し、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成し、前記生成することは、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含む
ように動作可能である、請求項37から48までのいずれか1項記載のシステム。
【請求項50】
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、請求項37から49までのいずれか1項記載のシステム。
【請求項51】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去する
ように動作可能である、請求項37から50までのいずれか1項記載のシステム。
【請求項52】
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、請求項37から51までのいずれか1項記載のシステム。
【発明の詳細な説明】
【関連出願】
【0001】
本願は、2021年7月7日に出願された米国仮特許出願第63/219,349号の優先権の利益を主張し、その内容全体を参照により本明細書に援用し、優先権を主張するものとする。
【技術分野】
【0002】
本開示に記載の実施形態は、入力DNA配列に基づいて動物の遺伝的祖先を予測するためのシステムおよび方法に関する。
【背景技術】
【0003】
動物の遺伝子マッピングの現在の方法は、混合種ゲノムサンプルを正確かつ効率的に評価できないという問題を抱えている。既存の方法では、大量のクエリ配列を効率的に処理することができず、また、提供された特定のサンプルの起源を正確に提供することもできない。その結果、現在のペット(および他の家畜)のゲノム解析では、単一起源サンプルと混合種サンプルとの両方において満足のいく水準の精度が得られず、計算能力の浪費および不正確な結果を招いている。ペットゲノムに関連する複雑さは、品種間の混じり合いの結果である複雑な遺伝子プロファイルの可能性によってさらに複雑になっている。下流の遺伝子プロファイルがますます複雑化していることだけでなく、集団ゲノムデータセットのサイズおよび複雑さが増していることも考えると、大きな精度を保ちながら、計算コストを大幅にかけることなく、与えられたゲノムサンプルのローカルおよびグローバルな遺伝的祖先を効率的に予測できるシステムおよび方法が必要とされている。
【0004】
疾病発症の遺伝的危険因子ならびに臨床および獣医師による推奨事項に関する情報は、動物の最適な管理、モニタリングおよび処置に役立ち得る。祖先の寄与の同定は、これらの危険因子の決定に有用であり得る。したがって、祖先の寄与を正確かつ効率的に同定する方法およびシステムが必要とされている。
【発明の概要】
【0005】
開示された主題の目的および利点は、開示された主題の実施によって学習されるのと同様に、以下の説明に記載され、そこから明らかになるであろう。開示された主題の更なる利点は、添付の図面からと同様に、本明細書および特許請求の範囲において特に指摘される方法およびシステムによって実現され達成されるであろう。
【0006】
これらの利点および他の利点を得るために、また、具現化され広範に記載される開示された主題の目的に従って、開示された主題は、データを収集、受信および/または分析するために使用できるシステム、方法および装置を提示する。例えば、特定の非限定的な実施形態は、動物の遺伝的祖先を予測するために使用することができる。
【0007】
特定の非限定的な実施形態では、本開示は、コンパニオンアニマルにおける遺伝的祖先および身体的形質の予測を、それらの未処理のDNA配列のみから作成するための計算および統計的方法のシステムを記載する。予測システムは、既知の遺伝的祖先および形質を有する動物の大規模な参照パネルからの情報を利用して、ゲノム内の小さなセグメントに遺伝的祖先を正確に割り当てることができる。次いで、結果として得られるセグメント分類を動物ごとに集計し、個々の動物が何百もの予め定義された純粋種または混合種クラスのいずれかに属するかどうかを予測するために使用することができる。さらに、集計された遺伝的祖先分類を使用して、動物の成体体重などの身体的形質を正確に予測することができる。
【0008】
特定の非限定的な実施形態では、1つ以上のコンピューティングシステムは、第1の動物に関連する遺伝物質のサンプルにアクセスすることができる。遺伝物質のサンプルは1つ以上の未処理の遺伝子型を含み得る。次いで、コンピューティングシステムは、1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成することができる。次いで、コンピューティングシステムは、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成することができる。コンピューティングシステムは、さらに、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信することができる。幾つかの実施形態では、出力は、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて生成され得る。
【0009】
特定の非限定的な実施形態では、ソフトウェアを具備する1つ以上のコンピュータ可読非一時的記憶媒体は、実行されたときに、第1の動物に関連する遺伝物質のサンプルにアクセスするように動作可能である。遺伝物質のサンプルは1つ以上の未処理の遺伝子型を含み得る。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成するように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信するように動作可能である。幾つかの実施形態では、出力は、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて生成され得る。
【0010】
特定の非限定的な実施形態では、システムは、1つ以上のプロセッサと、プロセッサによって実行可能な命令を含む、プロセッサに結合された非一時的メモリとを含み得る。プロセッサは、命令を実行するときに、第1の動物に関連する遺伝物質のサンプルにアクセスするように動作可能である。遺伝物質のサンプルは、1つ以上の未処理の遺伝子型を含み得る。プロセッサは、さらに、命令を実行するときに、1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成するように動作可能である。プロセッサは、さらに、命令を実行するときに、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するように動作可能である。プロセッサは、さらに、命令を実行するときに、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信するように動作可能である。幾つかの実施形態では、出力は、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて生成され得る。
【0011】
さらに、方法、コンピュータ可読非一時的記憶媒体およびシステムの開示された実施形態は、以下に記載されるように、更なる非限定的な特徴を有し得る。
【0012】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成することができる。次いで、コンピューティングシステムは、1つ以上の未処理の遺伝子型および1つ以上のコンセンサス遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成することができる。幾つかの実施形態では、生成することは、1つ以上の未処理の遺伝子型および1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含み得る。1つの特徴において、1つ以上の機械学習アルゴリズムは、位置Burrows-Wheeler変換アルゴリズムを含み得る。
【0013】
特定の非限定的な実施形態では、コンピューティングシステムは、1つ以上の機械学習アルゴリズムに基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに関連する1つ以上の誤差を除去することができる。1つの特徴において、1つ以上の機械学習アルゴリズムは隠れマルコフモデルを含み得る。
【0014】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上のソース集団を決定することができる。幾つかの実施形態では、1つ以上のソース集団を決定することは、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、集計に基づいて、1つ以上のソース集団に関連する割合を計算することと、計算された割合に基づいて1つ以上のソース集団を決定することとを含み得る。
【0015】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングすることができる。パーティショニングは、1つ以上のクラスタリングアルゴリズムに基づくことができる。
【0016】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、1つ以上の遺伝的集団および1つ以上のソース集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上の遺伝的形質を決定することができる。幾つかの実施形態では、1つ以上の遺伝的形質を決定することは、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づくことができる。幾つかの実施形態では、1つ以上の遺伝的形質は、成体体重の範囲、遺伝的疾患のリスク予測もしくは素因、栄養推奨事項、行動および気質クラスの予測、寿命推定、年単位での全死因死亡率予測、予測される薬理学的応答、または注射麻酔薬の時間単位での回復時間範囲のうちの1つ以上を含む。
【0017】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、1つ以上の機械学習アルゴリズムを更新することができる。幾つかの実施形態では、更新することは、参照パネルにおける全てのサンプルにわたって交差検証を適用することと、検出アルゴリズムによる交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、同定された外れ値を参照パネルから除去することとを含み得る。幾つかの実施形態では、更新することは、参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成することをさらに含み得、更新することは、生成されたラベルに基づいている。更新することは、1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復され得る。
【0018】
特定の非限定的な実施形態では、本開示は、本明細書に開示された方法のいずれかを用いて動物のローカル祖先およびグローバル祖先を決定するためのキットを提供する。特定の実施形態では、キットは、サンプル収集デバイスを含む。特定の実施形態では、サンプル収集デバイスは、キャリアおよびリザーバを含む。特定の実施形態では、キャリアは吸収性部材を含み、リザーバはシールドを含む。特定の実施形態では、キットは、さらに、サンプル収集デバイスの使用方法および/またはサンプルの収集方法に関する取扱説明書を含む。
【0019】
特定の非限定的な実施形態では、1つ以上のコンピューティングシステムは、第1の動物に関連する遺伝物質のサンプルにアクセスすることができる。遺伝物質のサンプルは1つ以上の未処理の遺伝子型を含み得る。次いで、コンピューティングシステムは、1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成することができる。次いで、コンピューティングシステムは、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成することができる。次いで、コンピューティングシステムは、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上のソース集団を決定することができる。次いで、コンピューティングシステムは、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングすることができる。次いで、コンピューティングシステムは、1つ以上の遺伝的集団および1つ以上のソース集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上の遺伝的形質を決定することができる。コンピューティングシステムは、さらに、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信することができる。幾つかの実施形態では、出力は、1つ以上の遺伝的集団、1つ以上のソース集団、パーティショニングに関連する結果、または1つ以上の遺伝的形質に対する1つ以上のローカル割り当てに基づいて生成され得る。
【0020】
特定の非限定的な実施形態では、ソフトウェアを具備する1つ以上のコンピュータ可読非一時的記憶媒体は、実行されたときに、第1の動物に関連する遺伝物質のサンプルにアクセスするように動作可能である。遺伝物質のサンプルは1つ以上の未処理の遺伝子型を含み得る。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成するように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上のソース集団を決定するように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングするように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、1つ以上の遺伝的集団および1つ以上のソース集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上の遺伝的形質を決定するように動作可能である。ソフトウェアを具備するコンピュータ可読非一時的記憶媒体は、さらに、実行されたときに、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信するように動作可能である。幾つかの実施形態では、出力は、1つ以上の遺伝的集団、1つ以上のソース集団、パーティショニングに関連する結果、または1つ以上の遺伝的形質に対する1つ以上のローカル割り当てに基づいて生成され得る。
【0021】
特定の非限定的な実施形態では、システムは、1つ以上のプロセッサと、プロセッサによって実行可能な命令を含む、プロセッサに結合された非一時的メモリとを含み得る。プロセッサは、命令を実行するときに、第1の動物に関連する遺伝物質のサンプルにアクセスするように動作可能である。遺伝物質のサンプルは1つ以上の未処理の遺伝子型を含み得る。プロセッサは、さらに、命令を実行するときに、1つ以上の未処理の遺伝子型に基づいて1つ以上のフェージングされたハプロタイプを生成するように動作可能である。プロセッサは、さらに、命令を実行するときに、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するように動作可能である。プロセッサは、さらに、命令を実行するときに、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上のソース集団を決定するように動作可能である。プロセッサは、さらに、命令を実行するときに、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングするように動作可能である。プロセッサは、さらに、命令を実行するときに、1つ以上の遺伝的集団および1つ以上のソース集団に対する1つ以上のローカル割り当てに基づいて、第1の動物に関連する1つ以上の遺伝的形質を決定するように動作可能である。プロセッサは、さらに、命令を実行するときに、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信するように動作可能である。幾つかの実施形態では、出力は、1つ以上の遺伝的集団、1つ以上のソース集団、パーティショニングに関連する結果、または1つ以上の遺伝的形質に対する1つ以上のローカル割り当てに基づいて生成され得る。
【0022】
さらに、方法、コンピュータ可読非一時的記憶媒体およびシステムの開示された実施形態は、以下に記載されるように、更なる非限定的な特徴を有し得る。
【0023】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成することができる。次いで、コンピューティングシステムは、1つ以上の未処理の遺伝子型および1つ以上のコンセンサス遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成することができる。幾つかの実施形態では、生成することは、1つ以上の未処理の遺伝子型および1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含み得る。1つの特徴において、1つ以上の機械学習アルゴリズムは、位置Burrows-Wheeler変換アルゴリズムを含み得る。
【0024】
特定の非限定的な実施形態では、コンピューティングシステムは、1つ以上の機械学習アルゴリズムに基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに関連する1つ以上の誤差を除去することができる。1つの特徴において、1つ以上の機械学習アルゴリズムは隠れマルコフモデルを含み得る。
【0025】
特定の非限定的な実施形態では、1つ以上のソース集団を決定することは、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、集計に基づいて、1つ以上のソース集団に関連する割合を計算することと、計算された割合に基づいて1つ以上のソース集団を決定することとを含み得る。幾つかの実施形態では、パーティショニングすることは、1つ以上のクラスタリングアルゴリズムに基づくことができる。
【0026】
特定の非限定的な実施形態では、1つ以上の遺伝的形質を決定することは、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づくことができる。幾つかの実施形態では、1つ以上の遺伝的形質は、成体体重の範囲、遺伝的疾患のリスク予測もしくは素因、栄養推奨事項、行動および気質クラスの予測、寿命推定、年単位での全死因死亡率予測、予測される薬理学的応答、または注射麻酔薬の時間単位での回復時間範囲のうちの1つ以上を含む。
【0027】
特定の非限定的な実施形態では、コンピューティングシステムは、さらに、参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、1つ以上の機械学習アルゴリズムを更新することができる。幾つかの実施形態では、更新することは、参照パネルにおける全てのサンプルにわたって交差検証を適用することと、検出アルゴリズムによる交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、同定された外れ値を参照パネルから除去することとを含み得る。幾つかの実施形態では、更新することは、参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成することをさらに含み得、更新することは、生成されたラベルに基づいている。更新することは、1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復され得る。
【0028】
前述の一般的な説明および以下の詳細な説明はいずれも例示的なものであり、特許請求される開示された主題の更なる説明を提供することが意図されていることを理解されたい。本開示のこれらおよび他の特徴、態様、および利点は、以下に簡単に説明する添付図面とともに以下の詳細な説明を読むことで明らかになるであろう。本発明は、上述の実施形態の2つ、3つ、4つ、もしくはそれを超える任意の組み合わせ、ならびに本開示に記載される任意の2つ、3つ、4つ、もしくはそれを超える特徴または要素の組み合わせを含み、そのような特徴または要素が本明細書の特定の実施形態の説明において明示的に組み合わされているか否かにかかわらず、本開示に含まれる。本開示は、そのさまざまな態様および実施形態のいずれかにおいて、開示された発明の任意の分離可能な特徴または要素は、文脈上明らかに他の意味であることが指示されない限り、組み合わせ可能であることが意図されているとみなされるべきであるように、全体的に読まれることが意図されている。
【図面の簡単な説明】
【0029】
本開示の前述および他の対象、特徴、および利点は、添付図面に示される実施形態の以下の説明から明らかになるであろう。なお、参照符号は、さまざまな図を通して同じ部分を指す。図面は必ずしも縮尺どおりではなく、代わりに本開示の原理を説明することに重点が置かれている。
【
図1】本開示の主題によるシステムの例示的なワークフローを示す図である。
【
図2】ローカル祖先分類器の例示的なワークフローを示す図である。
【
図3-1】6センチモルガン~48センチモルガンの所定のサブ領域の長さを変化させた結果を示す複数のモデルを示す図である。
【
図4】本開示の主題による周辺一致長さの例を示す図である。
【
図5】「染色体ペインティング」モデル(A)と、本開示で説明するPBWTベースのモデル(BおよびC)との例示的な比較を示す図である。
【
図7A】複数の動物種および/または動物品種に関連する混同行列を示す図である。
【
図8】k平均法(k-means clustering)を使用した染色体対の母系コピーと父系コピーとへの例示的なソートを示す図である。
【
図9】染色体セットのグローバル祖先割合からの主成分の例を示す図である。
【
図10】先行技術の分類器RFMixに対する本開示のシステムの精度ベンチマークの例示的な結果を示す図である。
【
図11】グローバル祖先分類器の例示的な受信者動作特性(ROC)曲線を示す図である。
【
図12】予測された成体体重と真の観察された成体体重の例示的な回帰を示す図である。
【
図13】異常検出のための分離フォレスト技術を使用したローカル祖先参照パネルの例示的な反復改善を示す図である。
【
図14】祖先予測のための例示的な方法を示す図である。
【発明を実施するための形態】
【0030】
ペットの集団内のローカルおよびグローバルな遺伝的祖先形質のマッピングは、集団遺伝学研究の進行中の側面である。この文脈において、「祖先」という用語は、DNAのセグメントが由来するソース集団を指す。さらに、「ローカル祖先」という修飾は、染色体を構成するDNAの小さな断片のソース集団を指す。代替的に、「グローバル祖先」という修飾は、全ての染色体の全体に寄与する1つ以上のソース集団を指す。ローカル祖先は、DNAのローカル化されたセグメントに単一のソース集団を割り当てることができ、グローバル祖先は、ゲノムにおける全てのDNAセグメントにわたるローカル祖先の集合体を表すことができる。グローバル祖先は、特定のソース集団に由来する生物のゲノムの割合として報告することができる。重要なことに、ローカル祖先とグローバル祖先の分類はどちらも、全てのソース集団のDNAセグメントを類型化した参照パネルに依存する可能性がある。集団ゲノムデータのサンプルサイズが大きくなるにつれて、新しい配列を予め定義された集団グループに割り当てる計算が複雑になる可能性がある。特に、ネコ、イヌなどの多くのペット、および他の家畜に関しては、その後の世代が交配し、より複雑なゲノムが作られるにつれて、ゲノム配列が混ざり合う可能性がある。
【0031】
サンプルが単一起源であるか混合種であるかにかかわらず、クエリサンプルの遺伝的祖先を正確かつ効率的に予測することができ、スケーリング可能なシステムおよび方法が当該技術分野において依然として必要とされている。本開示の主題は、以下の方法およびシステムを通してこの必要性に対処する。
【0032】
本実施形態による特定のシステムおよび方法は、コンパニオンアニマルにおける遺伝的祖先および身体的形質の予測を、それらの未処理のDNA配列のみから作成するための計算および統計的方法を使用する。本システムおよび方法は、未知の遺伝的祖先を有するサンプルセットからDNA配列のバッチを取り込み、次いで、この「クエリ」セットを、既知の遺伝的祖先および形質を有するDNA配列のキュレーションされた参照データベースに効率的に一致させることができる。特定の実施形態では、既知の遺伝的祖先および形質を有する動物の大規模な参照パネルからの情報を使用して、ゲノム内の小さなセグメントに遺伝的祖先を正確に割り当てることができる。次いで、結果として得られるセグメント分類を動物ごとに集計し、個々の動物が何百もの予め定義された純粋種または混合種クラスのいずれかに属するかどうかを予測するために使用することができる。さらに、集計された遺伝的祖先分類を使用して、動物の成体体重などの身体的形質を正確に予測することができる。本実施形態の詳細を以下に示す。明確にするためであり、限定するものではないが、本開示の詳細な説明は以下のサブセクションに分けられる:
1.定義;
2.システムの概要;
3.配列決定、キット、および処置方法;ならびに
4.実施例
【0033】
1.定義
本明細書で使用される用語は、一般に、本開示の文脈内および各用語が使用される特定の文脈において、当該技術分野における通常の意味を有する。本開示の組成物および方法ならびにそれらの作製方法および使用方法を説明する際の追加のガイダンスを提供するために、特定の用語を以下でまたは本明細書の他の箇所で論じる。
【0034】
他に定義されない限り、本明細書で使用される全ての技術用語および科学用語は、本発明が属する技術分野の当業者によって一般的に理解される意味を有する。以下の参考文献は、本開示で使用される多くの用語の一般的な定義を当業者に提供する:King, Mulligan, and Stansfield. A Dictionary of Genetics, Oxford University Press, 2013; Glossary of Bioinformatics Terms, Current Protocols in Bioinformatics, 35, 1934-3396, 2011;およびWhole-Transcriptome Amplification of Single Cells for Next-Generation Sequencing, Current Protocols in Molecular Biology, 111, 1934-3639, 2015。本明細書で使用される場合、以下の用語は、別段の定めがない限り、以下の意味を有する。
【0035】
本明細書で使用される場合、「a」または「an」という語は、特許請求の範囲および/または明細書において「comprising(含む)」という用語と併せて使用される場合、「1つ」を意味し得るが、「1つ以上」、「少なくとも1つ」、および/または「1つもしくは2つ以上」の意味とも一致する。さらに、「having(有する)」、「including(含む)」、「containing(含有する)」および「comprising(含む)」という用語は交換可能であり、当業者であれば、これらの用語がオープンエンドの用語であることを認識するであろう。
【0036】
「約」または「おおよそ」という用語は、当業者によって決定される、特定の値に対して許容可能な誤差範囲内を意味し、この誤差範囲は、値がどのように測定または決定されるか、すなわち測定システムの限界に部分的に依存する。例えば、「約」とは、当該技術分野の慣行に従って、3標準偏差以内または3標準偏差超を意味することができる。代替的に、「約」とは、所与の値の最大20%、好ましくは最大10%、より好ましくは最大5%、さらにより好ましくは最大1%の範囲を意味することができる。代替的に、特にシステムまたはプロセスに関して、この用語は、ある値の1桁の倍数以内、好ましくは5倍以内、より好ましくは2倍以内を意味することができる。
【0037】
本明細書で使用される場合、「comprises(含む)」、「comprising(含む)」、または任意の他の変形は、要素のリストを含むプロセス、方法、物品、または装置が、それらの要素のみを含むのではなく、明示的に列挙されていない他の要素またはそのようなプロセス、方法、物品、または装置に固有の要素を含み得るように、非排他的な包含をカバーすることを意図している。
【0038】
本明細書で使用される場合、「ローカル祖先(local ancestry)」という用語は、個体ゲノム内の異なる染色体セグメントの祖先起源を指す。特定の実施形態では、ローカル祖先は、動物、例えばイヌの品種における染色体の特定のセグメントの呼び出し(call)である。特定の例示的な実施形態では、ローカル祖先は、特定の染色体位置における個体の遺伝的祖先を指し、個体は、各祖先集団に由来する対立遺伝子の0、1または2コピーを有し得る。
【0039】
本明細書で使用される場合、「グローバル祖先(global ancestry)」という用語は、対象のゲノム全体で平均化された祖先割合を指す。特定の実施形態では、グローバル祖先は、動物、例えばイヌの品種のゲノム全体にわたる呼び出しの割合である。
【0040】
本明細書で使用される場合、「ハプロタイプ」という用語は、一単位として一緒に受け継がれる、連関した遺伝子または他の遺伝子マーカーの集合を指す。減数分裂中、相同染色体上の対応する領域との組換えはほとんどないないかまたはまったくないため、相同領域間で対立遺伝子がシャッフルされることはまれである。特定の実施形態では、ハプロタイプを含有するDNAのストレッチは「ハプロタイプブロック」と呼ばれる。例えば、何ら限定するものではないが、イヌ科動物における主要組織適合複合体の特定の遺伝子は、第12染色体上のDLA遺伝子座で密接に連関しており、ハプロタイプとして挙動し、母系染色体および父系染色体上の対立遺伝子は、一般に同じ組み合わせで子孫に伝達される。特定の実施形態では、「ハプロタイプ」という用語は、単一の染色体または染色体のハプロイドセットを指す。本明細書で使用される場合、「ハプロタイプ推定」または「ハプロタイプフェージング」という用語は、遺伝子型データからハプロタイプを統計的に推定するプロセスを指す。
【0041】
本明細書で使用される場合、「センチモルガン」または「cM」という用語は、遺伝的組換えの頻度の測定単位を指す。1センチモルガンは、減数分裂(卵子細胞および精子細胞の形成中に起こる)中の組換えイベントにより、染色体上の2つのマーカーが互いに分離されることになる確率1%に相当する。平均して、1センチモルガンはヒトゲノムのおよそ100万塩基対に相当する。
【0042】
本明細書で使用される場合、「フェージング(phasing)」という用語は、対立遺伝子(例えば、A、C、T、およびG)を父系および母系染色体に割り当てるプロセスを指す。この用語は通常、組換えを行うDNAの種類(例えば、常染色体DNAまたはX染色体)に適用される。特定の実施形態では、フェージングは、一致が父系側もしくは母系側にあるのか、両方の側にあるのか、またはどちらの側にもないのかを決定するのに役立ち得る。特定の実施形態では、フェージングは染色体マッピングのプロセス(例えば、特定の祖先にセグメントを割り当てること)にも役立ち得る。従来、フェージングされたデータの使用により、偽陽性一致の数が減少する。
【0043】
本明細書で使用される場合、「遺伝子型」という用語は、生物の遺伝的構成を指す。例えば、遺伝子型は、生物、例えばイヌの完全な遺伝子セットを記載する。特定の実施形態では、「遺伝子型」という用語は、生物によって保有される対立遺伝子、または遺伝子のバリアント型を指す。特定の遺伝子型は、2つの同一の対立遺伝子を特徴とする場合にはホモ接合体として記載され、2つの対立遺伝子が異なる場合にはヘテロ接合体として記載される。本明細書で使用される場合、遺伝子型を決定するプロセスは「遺伝子型決定」と呼ばれる。本明細書で使用される場合、「遺伝子型決定呼び出し」およびその変形は、生データまたは処理されたデータから遺伝子型値を推定することを指す。
【0044】
「核酸分子」、「ヌクレオチド配列」および「ポリヌクレオチド」という用語は、本明細書で使用される場合、各ヌクレオチドの3’および5’末端がホスホジエステル結合によって連結されている、ヌクレオチドの一本鎖または二本鎖の共有結合した配列を指す。核酸分子は、デオキシリボヌクレオチド塩基またはリボヌクレオチド塩基を含み得、インビトロで合成的に製造したり、天然源から単離したりすることができる。
【0045】
本明細書で互換的に使用される「ポリペプチド」、「ペプチド」、「アミノ酸配列」および「タンパク質」という用語は、少なくとも2つのアミノ酸の連結から形成される分子を指す。あるアミノ酸残基と次のアミノ酸残基との間の連結はアミド結合であり、ペプチド結合と呼ばれることもある。ポリペプチドは、天然源からの単離、組換え発現系での発現、化学合成または酵素合成を含む、当該技術分野で知られている適切な方法によって取得することができる。この用語は、1つ以上のアミノ酸残基が、対応する天然に存在するアミノ酸の人工的な化学的模倣物であるアミノ酸ポリマー、ならびに天然に存在するアミノ酸ポリマーおよび非天然に存在するアミノ酸ポリマーに適用することができる。
【0046】
「ペットフード」または「ペットフード組成物」または「ペットフード製品」または「最終ペットフード製品」という用語は、ネコ、イヌ、モルモット、ウサギ、トリまたはウマなどのコンパニオンアニマルによる消費を意図しており、一定の栄養的利益を提供する製品または組成物を意味する。例えば、限定するものではないが、コンパニオンアニマルは、「家畜」イヌ、例えばCanis lupus familiarisであり得る。特定の実施形態では、コンパニオンアニマルは、Felis domesticusなどの「家畜」ネコであり得る。「ペットフード」または「ペットフード組成物」または「ペットフード製品」または「最終ペットフード製品」には、任意の食品、飼料、スナック、食品サプリメント、液体、飲料、おやつ、おもちゃ(チュアブルおよび/または消費可能なおもちゃ)、食餌代替品または食餌代替物が含まれる。
【0047】
本開示の目的上、「ユーザ」、「加入者」、「消費者」または「顧客」という用語は、本明細書に記載されるアプリケーションのユーザおよび/またはデータプロバイダによって供給されるデータの消費者を指すと理解されるべきである。例であって、限定するものではないが、「ユーザ」または「加入者」という用語は、ブラウザセッションでインターネットを介してデータまたはサービスプロバイダによって提供されるデータを受信する人を指す場合もあれば、データを受信し、データを保存または処理する自動化ソフトウェアアプリケーションを指す場合もある。
【0048】
2.
システムの概要
図1は、本開示の主題によるシステムの例示的なワークフロー100を示す。本システムは、未知の遺伝的祖先を有するサンプルセットからDNA配列のバッチを取り込み、次いで、この「クエリ」セットを、既知の遺伝的祖先および形質を有するDNA配列のキュレーションされた参照データベースに効率的に一致させることができる。特定の実施形態では、本開示に包含されるDNA配列は、遺伝子配列および/または遺伝子マーカーを含む。例えば、限定するものではないが、遺伝子マーカーには、一塩基多型(SNP)、ショートタンデムリピート(STR)、塩基の挿入および欠失(インデル)、ならびにコピー数多型(CNV)が含まれる。
【0049】
特定の実施形態では、システムは、複数の個々のコンポーネントサブシステムを含み得る。これらのサブシステムは、ローカル祖先分類器、グローバル祖先分類器、系譜的祖先の予測器(predictor)、形質スイート(traits suite)(例えば、身体的、行動的、および代謝的)の予測器、または上記分類器の精度向上のための自動化システムのうちの1つ以上を含み得る。これらのサブシステムは、それぞれ独自の機能を有することができる。これらのサブシステムを組み合わせると、システム全体が、コンパニオンアニマルにおける遺伝的祖先および身体的形質の予測を、それらの未処理のDNA配列のみから作成することが可能となる。
【0050】
特定の非限定的な実施形態では、ローカル祖先分類器は、未処理の入力遺伝子型102、コンセンサス遺伝子型104、フェージングされたハプロタイプ106、トレーニングパネル108a~108c、PBWTマッチング110、未処理のローカル祖先112、HMM114、および平滑化されたローカル祖先116に関連付けることができる。ローカル祖先分類器は、未処理の入力遺伝子型102を受け取り、それに応じてコンセンサス遺伝子型104を生成することができる。幾つかの実施形態では、未処理の入力遺伝子型102はクエリ遺伝子型として機能することができ、コンセンサス遺伝子型104は参照遺伝子型として機能することができる。次いで、コンセンサス遺伝子型104を、母系染色体と父系染色体とを区別することができるフェージングされたハプロタイプ106に処理することができる。次いで、マッチングプロセス110(例えば、位置Burrows-Wheeler変換)により、フェージングされたハプロタイプ106を複数のウィンドウにパーティショニングし、これらを参照パネルまたはトレーニングパネル108と比較することができる。フェージングされたハプロタイプ106と参照パネルまたはトレーニングパネル108との間の一致の密度を計算することができ、未処理のローカル祖先112を生成することができ、これを一致の最も高い相対密度(または他の基準)を有する参照集団として定義することができる。次いで、未処理のローカル祖先112は、隠れマルコフモデル(HMM)114への入力として使用することができ、隠れマルコフモデル(HMM)114は、平滑化されたローカル祖先116を生成するために、未処理のローカル祖先112内の特定の誤差を除去または置換することができる。この平滑化されたローカル祖先116は、1つ以上の染色体の相対的な起源を示すために、エンドユーザに出力することができる。一例として、また限定するわけではないが、出力は動物の染色体の詳細な記述を含み得、その動物がどこでDNAの各部分を取得したかを正確に示す(例えば、グレート・ピレニーズ、ジャーマン・シェパード・ドッグ、ボースロン、ホワイト・スイス・シェパード、マレンマ・シープドッグ、チャウチャウ、シベリアン・ハスキー、パーソン・ラッセル・テリア、ボーダー・テリア、およびホファヴァルト)。
【0051】
特定の非限定的な実施形態では、次いで、グローバル祖先分類器は、平滑化されたローカル祖先116を使用してグローバル祖先118を生成することができる。このグローバル祖先118は、エンドユーザに出力することができ、動物のゲノムにおける異なるソース集団の相対的寄与を提供する。一例として、また限定するわけではないが、出力は、動物のDNAにおいて検出された異なる品種を含み得る。
【0052】
特定の非限定的な実施形態では、系譜的祖先の予測器は、平滑化されたローカル祖先116を使用して系譜的祖先を予測することができる。一例として、また限定するわけではないが、系譜的祖先の予測は、ワークフロー100が系
図120を提供することを可能にし得る。幾つかの実施形態では、動物の系
図120(または他の系譜情報)を生成するために、k平均法122(以下でさらに詳細に論じる)を、平滑化されたローカル祖先116に適用することができる。
【0053】
特定の非限定的な実施形態では、形質スイートの予測器は、グローバル祖先118を使用して、特定の遺伝的確率に基づいて動物の形質予測または推定を生成することができる。グローバル祖先118は、サンプルサブ集団ラベル全体を提供することができるメタ分類器124の入力として使用することができる。このメタ分類器124は、入力されたグローバル祖先118についての1つ以上の予測されるクラス/グループおよび信頼度126を同定することができる。信頼度126を有するこれらのクラス/グループは、さらに、対象の生涯期間、遺伝的素因、およびそれらのゲノムに固有の他の形質を予測することを含み得るさまざまな下流アプリケーション128において(単独で、または追加の遺伝子型と組み合わせて)使用することができる。幾つかの実施形態では、下流アプリケーション128は、追加の遺伝子型130を入力として取り込むことができる。これらの下流アプリケーション128はまた、消費者エクスペリエンス132を改善するために使用することができ、エンドユーザに予測を提供するアプリケーションまたは他のサービスの作成を可能にする。
【0054】
特定の非限定的な実施形態では、精度向上のための自動化システムは、新しい参照サンプル134、分離フォレスト外れ値検出136、および交差検証138に関連付けることができる。自動化システムは、参照/トレーニングパネル108に追加される新しい参照サンプル134を評価することができる。この評価には、まず、参照パネル候補の全てのサンプルにわたって交差検証138を行うことが含まれ得る。次いで、交差検証の結果は、検出アルゴリズム、例えば、分離フォレスト外れ値検出アルゴリズム136への入力として使用することができる。一例として、また限定するわけではないが、新しい参照サンプル134a、交差検証138a、分離フォレスト外れ値検出136a、およびトレーニングパネル108bに基づいて、自動化システムはPBWTマッチング110の精度を向上させることができる。別の例として、また限定するものではないが、新しい参照サンプル134b、交差検証138b、分離フォレスト外れ値検出136b、およびトレーニングパネル108dに基づいて、自動化システムはメタ分類器124の精度を向上させることができる。
【0055】
ローカル祖先分類器
従来のローカル祖先分類器には重大な制限があり得る。一例として、また限定するわけではないが、それらは、大規模な参照パネルに適応させるために容易に拡張することができず、それらは、予測を生成するために大量の計算リソースを必要とし得る。制御によって、本明細書に開示されるようなローカル祖先分類器は、従来のものよりも精度が向上し、はるかに大きな参照パネルに容易に適応させることができる。特定の実施形態では、本明細書に開示されるようなローカル祖先分類器は、位置Burrows-Wheeler変換(PBWT)アルゴリズムを、標準的なローカル祖先モデルの数学的近似と併せて使用することができる。特定の非限定的な実施形態では、標準的なローカル祖先モデルは、「染色体ペインティング」を含み得る。本明細書で使用される場合、染色体ペインティングは、蛍光標識DNAプローブの採用を含むがこれに限定されない、染色体再配列を特徴付けるさまざまな技術を説明する。さらに、本明細書に開示されるようなローカル祖先分類器は、参照パネルを活用して共通の誤分類を学習し、結果として得られる割り当てを平滑化して全体的な精度を向上させることができる。幾つかの実施形態では、ローカル祖先分類器は、結果の分類を平滑化するために、共通の誤分類結果を含むリストまたは行列を参照することができる。平滑化により、よく間違えられる配列を除去し、より可能性の高い置換にそれらを置き換えることができる。ローカル祖先割り当てを平滑化する程度は、単一起源の染色体と、混合度の高い染色体との両方に適応させるように調整することができる。一例として、また限定するわけではないが、平滑化は、単一起源の染色体、または代替的に、複数の起源のDNAを含有する混合度の高い染色体に適応させるように調整することができる。
【0056】
図2は、ローカル祖先分類器の例示的なワークフロー200を示す。特定の非限定的な実施形態では、クラウドデータ監視サービス205は、新しいクエリDNA配列の存在についてクラウドストレージ環境210を定期的にプローブすることができる。クラウドストレージ環境210は、スケーラブルなストレージインフラストラクチャであり得る。一例として、また限定するわけではないが、クエリDNA配列は、複数のハプロタイプ215に編成された複数の遺伝子型データを含み得る。クラウドデータ監視サービス205は、陽性シグナルの検出時に配列を取得し、高性能計算環境にクエリバッチを預けることができる。次いで、計算構成サービス220は、取り込まれたDNA配列のバッチを特徴付け、カスタムバイオインフォマティックワークフローを構成することができる。計算構成サービス220は、ローカル祖先プロファイル230を生成するために、クエリハプロタイプ215をハプロタイプの参照パネル225と比較することができる。出力/遷移(emission/transition)235は、ハプロタイプの参照パネル225に基づいて生成することができる。幾つかの実施形態では、次いで、ローカル祖先プロファイル230および出力/遷移235は、共通の誤差を除去するために、HMM平滑化240に基づいて平滑化され得る。幾つかの実施形態では、参照パネル225を純血種トレーニングセット245の一部として使用することができ、これに基づいて純血種分類器250を学習することができる。平滑化が完了すると、平滑化されたローカル祖先プロファイルは、純血種メタ分類器ラベルを生成するために純血種分類器250によって処理され得る。最後に、ラベル付きローカル祖先プロファイルをレポート255に出力することができる。一例として、また限定するわけではないが、レポート255は、JavaScript Object Notation(JSON)フォーマットとすることができる。
【0057】
特定の非限定的な実施形態では、ローカル祖先分類器は、対象のローカル祖先ラベルを予測することができる。ローカル祖先分類器は、2つのサンプルである、クエリヌクレオチド配列に対応する第1のサンプルと、参照ヌクレオチド配列に対応する第2のサンプルとを選択することができる。クエリヌクレオチド配列は、1つ以上の未知の祖先ラベルを含み得、ラベルは、サブ集団ラベルの順序集合から選択することができる。参照ヌクレオチド配列は、既知のヌクレオチド配列に対応する1つ以上の既知の遺伝的サブ集団を含み得る。第1のサンプルおよび第2のサンプルの各々は、さらに、2つのサンプルを比較する際に使用するために、ウィンドウとしても知られるサブ領域にパーティショニングすることができる。次いで、第1のサンプルの少なくとも1つのサブ領域を第2のサンプルの少なくとも1つのサブ領域と比較し、2つのサンプル間でヌクレオチド一致を同定することができる。このようにして、第1のサンプルと第2のサンプルとの間のヌクレオチド一致の数をカウントすることによって、サンプル間の類似性の程度を決定することができる。ヌクレオチド一致の1つ以上に対応し、それを含む遺伝的サブ集団は、遺伝的サブ集団情報の既知のリストから選択することができる。選択された遺伝的サブ集団に基づいて、ローカル祖先ラベルを適用し、任意選択で1つ以上のクエリヌクレオチド配列に適用することができる。
【0058】
例示的な方法のいずれにおいても、ヌクレオチド一致の同定は、さまざまな異なる因子を含み得、ヌクレオチド一致を、比較される2つのサブ領域の全ての要素間の正確な一致に制限することを意味するものではない。例えば、特定の非限定的な実施形態では、1つ以上のヌクレオチド一致は、第2のサンプル内の少なくとも1つのヌクレオチド配列と同一である第1のサンプル内の少なくとも1つのヌクレオチド配列を含み得る。代替の実施形態では、ヌクレオチド一致は、第1のサンプル内の少なくとも1つのヌクレオチド配列が第2のサンプル内の少なくとも1つのヌクレオチド配列と所定のパーセンテージで同一である場合に決定することができる。さらに、非限定的な実施形態では、1つ以上のヌクレオチド一致の各々は、複数のヌクレオチドを含み得る。そのような実施形態では、複数のヌクレオチドの各々は、第1のサンプルと第2のサンプルとの間で同一であり得るか、または代替的に、各々が、第1のサンプルと第2のサンプルとの間で同一性の所定のパーセンテージを満たし得る。更なる非限定的な実施形態では、ヌクレオチド一致は、隣接するヌクレオチドを含み得る。
【0059】
ヌクレオチド一致の数は、さまざまな方法に従って決定することができる。例えば、この方法は、ヌクレオチド一致の数を計算するために、第2のサンプル(または第2のサンプルのサブ領域)内の隣接するヌクレオチドの数と一致する、第1のサンプル(または第1のサンプルのサブ領域)内の隣接するヌクレオチドの数の長さを使用することができる。この非限定的な実施形態によれば、第1のサンプルの少なくとも1つのサブ領域における隣接するヌクレオチドの数の長さ、および/または第2のサンプルの少なくとも1つのサブ領域における隣接するヌクレオチドの数の長さは、おおよその長さまたは正確な長さであり得る。
【0060】
非限定的な実施形態では、少なくとも1つの遺伝的サブ集団は、ヌクレオチド一致を調べることによって決定することができる。例えば、遺伝的サブ集団は、ヌクレオチド一致の最大数、ヌクレオチド一致の指定された数、および/またはヌクレオチド一致の予め選択された数に基づいて選択することができる。更なる実施形態では、サブ集団は、ヌクレオチド一致の数が特定の値を超えるか、または特定の範囲内に含まれる場合に選択することができる。ローカル祖先分類器は、さらに、集団に対する特定の外れ値を同定し、かつ/または集団から外れ値を除去することができる。
【0061】
特定の非限定的な実施形態では、ローカル祖先分類器は、幾つかのハプロタイプ配列を含むキュレーションされた参照パネルの存在を仮定することができ、それらの各々は、幾つかの集団グループにおけるメンバーシップに従ってラベル付けすることができる。ローカル祖先分類器の目標は、任意のクエリハプロタイプを参照パネルの集団の1つに分類することを含み得る。ローカル祖先分類器は、クエリ遺伝子型と参照遺伝子型との両方を母系染色体と父系染色体とにフェージングすることから始めることができる。特定の非限定的な実施形態では、母系ゲノムと父系ゲノムとのフェージングは、フェージング参照パネルを使用して行うことができる。代替的に、例えば、フェージング参照パネルは、最初にローカル祖先参照パネルを使用してコホートフェージングを行うことによって取得することができる。次いで、このフェージングされたハプロタイプのセットは、参照ベースのフェージングのためのパネルとして使用される。次いで、フェージングされたデータを5センチモルガン(cM)ウィンドウにパーティショニングすることができる。一例として、また限定するわけではないが、5cMのウィンドウサイズは、イヌ科動物における連鎖不平衡と、有益であるために十分なハプロタイプ多様性の回復とのバランスをとるために選択することができる。特定の実施形態では5cMのウィンドウを使用できるが、他の長さのウィンドウも考慮される。
図3は、所定のサブ領域の長さを約6センチモルガン~約48センチモルガンに変化させた結果を示す複数のモデルを示す。
図3に示すように、長さ6cM、12cM、18cM、20cM、24cM、30cM、36cM、および48cMのウィンドウも使用することができる。さらに、例えば、5cM未満の長さのウィンドウを使用して、標的染色体のサブ領域をより詳細に見ることができる。本開示の主題の目的上、ウィンドウの長さは、第1のサンプルまたは第2のサンプルの任意のサブ領域の長さに対応することができる。
【0062】
特定の非限定的な実施形態では、各ウィンドウの集団割り当ては、位置Burrows-Wheeler変換アルゴリズムを使用して、クエリハプロタイプと参照ハプロタイプと間の全てのペアごとのセット最大一致を回復することによって達成され得る。所与のクエリハプロタイプと全ての参照ハプロタイプとの間のセット最大一致の密度を計算し、最も高い相対密度を有する参照集団を「未処理の」割り当てとして選択することができる。次いで、隠れマルコフモデル(HMM)を染色体ごとにグループ化されたウィンドウ上で未処理の呼び出しに対して実行し、ローカル祖先割り当てを「平滑化」することができる。最後に、グローバル祖先割合をローカル割り当てから集計し、グローバル祖先分類器に使用して、二倍体ゲノム全体に対する集団割り当てを作成することができる。
【0063】
特定の非限定的な実施形態では、ローカル祖先分類器は、一致する短いDNAセグメントを回復することができる。PBWTに固有のアルゴリズムのセットは、コレクションにおけるハプロタイプ配列のペア間の一致を効率的に回復することができる。幾つかのPBWTベースのアルゴリズムは、ハプロタイプ配列のコレクションを反復処理し、セット最大一致を回復することができ、これは、現在の配列に対して局所的に最大で中断することのない一致を示す他の配列のセットとして定義することができる。本明細書に提示される開示では、配列のコレクションは、クエリハプロタイプと参照ハプロタイプとの両方を含み得る。
【0064】
上記のように、PBWTは、バイナリ行列を高速にソートするための関連アルゴリズムのコレクションを含み得る。このアルゴリズムは、ハプロタイプを表すN行と二対立遺伝子DNA部位を表すM列を有するバイナリ行列で動作することができる。行は左端の列から順にソートすることができる。アルゴリズムが進むにつれて、サイトごとに2つのベクトルが更新され得る:1つ目はハプロタイプの順位(位置プレフィックスアレイ)、2つ目は直前のハプロタイプとの差異の数の尺度(ダイバージェンスアレイ)である。ダイバージェンスアレイの要素は、順序付けられたハプロタイプ間で加算することができ、その結果、ハプロタイプ間のハミング距離が得られる。位置プレフィックスアレイにおいてどの配列が隣接しているか、またダイバージェンスアレイが0であるかどうかを追跡することによって、一致するハプロタイプ配列を検索することができる。ハプロタイプが隣接しなくなった場合か、またはダイバージェンスアレイの対応する要素がゼロでなくなった場合に、一致は中断し得る。特定の非限定的な実施形態では、セット最大一致は、(現在の位置で終わる区間にわたる)所与の配列に対する局所的に最大の一致であり得、その区間にわたって最長一致を有する1つ以上の隣接するハプロタイプを含み得る。
【0065】
図4は、本開示の主題による周辺一致長さの例を示す図である。クエリ配列410は下部に描写されている。参照パネル配列420との一致が上に示されている。一致420a~一致420cはそれぞれ、その対応する参照集団ラベルに対応し得る。参照集団ごとの周辺一致長さ和は、その参照集団に由来するクエリ配列の尤度に比例するとみなすことができる。
【0066】
図5は、「染色体ペインティング」モデル(A)と、本開示で説明するPBWTベースのモデル(BおよびC)との例示的な比較を示す。パネルAでは、クエリ配列が全ての参照パネル配列と比較され、参照パネル配列を通る最も可能性の高い経路が、クエリ染色体の標識または「ペイント」を担うことができる。PBWTベースの方法では、局所的に一致する配列がリストにおいて隣接するように、配列を段階的にソートすることができる。例えば、パネルBでは、PBWTアルゴリズムは位置6までソートしており、パネルCでは、アルゴリズムは最終位置までソートしている。PBWTデータ構造においてどの配列が隣接しているかを評価することによって、クエリ染色体を「ペイント」することができる。この単純化により、PBWTベースの方法は非常に大きな参照パネルサイズにも容易に拡張することができる。
図4に示すように、PBWTは、選択されたクエリ遺伝子型配列の中の特定の位置、例えば、クエリ遺伝子型内の位置6、および代替例として、クエリ遺伝子型の終了位置でソートするように選択することができる。集団割り当てを達成する代替方法、例えば、染色体ペインティングを使用することもできる。所与のクエリハプロタイプと全ての参照ハプロタイプとの間のセット最大一致の密度を計算し、最も高い相対密度を有する参照サブ集団を未処理の割り当てとして選択することができる。この一致の密度は、選択されたサンプル間のヌクレオチド一致の数に対応することもできる。
【0067】
特定の非限定的な実施形態では、ローカル祖先分類器は、合計N個のフェージングされたハプロタイプを含むキュレーションされた集団参照パネルが利用可能であると仮定することができる。各参照ハプロタイプには、K個のソース集団ラベルの順序集合であるkから単一のラベルを割り当てることができる。さらに、
【0068】
【0069】
のように、サブ集団サンプルサイズの対応する順序集合nが存在し得る。
【0070】
参照パネルのハプロタイプに加えて、ローカル祖先分類器は、kからのラベルが割り当てられる単一のクエリハプロタイプを考慮することができる。上記のPBWTベースのアルゴリズムを実行した後、クエリハプロタイプと参照パネルのハプロタイプとの間の全てのセット最大一致を回復することができる。各セット最大一致は、一致するハプロタイプの参照集団ラベルによってラベル付けすることができる(
図4を参照)。ソース集団にわたって高いホモ接合性を有する小さなハプロタイプセグメントを除外するために(したがって、最近の共通祖先により発生する可能性は低い)、0.5cMよりも長いセット最大一致を解析において考慮することができる。回復されたセット最大一致の長さの各々は、kの対応するソース集団のラベルでラベル付けすることができる。ラベルiを有する一致長さの周辺和はl
iと表記される。
【0071】
特定の非限定的な実施形態では、ローカル祖先分類器は、クエリハプロタイプがソース集団iからサンプリングされる確率を決定することができる。これらの確率は、ソース集団サンプリング確率pの順序集合を構成することができ、これは、確率質量関数P(Q=i|p)=piを有するカテゴリ分布をパラメータ化し、式中、Qは、クエリハプロタイプのソース集団ラベルである。クエリハプロタイプには、基準maxipiに従ってラベルQ=kiを割り当てることができる。
【0072】
特定の非限定的な実施形態では、上記の周辺一致長さは、pを推定するための統計量を定式化することができる。周辺一致長さは、全てのソース集団のハプロタイプの全長を包含するサンプル空間から引き出すことができ、Li=Lint×niであり、式中、Lintは、考慮中のゲノム区間の組換え距離である。一次統計量は次のように定義することができる:
gi=li/Li。
【0073】
この統計量により、クエリに一致する全てのソース集団ハプロタイプの割合を推定することができ、実際には、gi<<1であることが予想される。
【0074】
カテゴリ分布のパラメータは、統計量を標準化することによって近似することができる:
【0075】
【0076】
他のローカル祖先分類アルゴリズムとは対照的に、本明細書に開示されるローカル祖先分類器は、単純なモーメントベースの推定量とすることができ、これは、ディリクレ分布がカテゴリ分布の共役事前分布として使用される場合にしばしば必要とされる複雑な基礎となる集団遺伝学モデルへの依存を最小限に抑える。ディリクレ事前分布に基づくベイズ推定では、パラメータが特徴付けられていない高確率集団構造モデルのシミュレーションに固有の仮定が必要になる場合があり、スケーラビリティと計算時間の増加とが犠牲となり、多くの場合、精度の向上は未知数である。伝統的なシミュレーションベースのベイズ推定を活用するのではなく、本明細書に開示されるローカル祖先分類器は、参照パネルサンプルでトレーニングされた機械学習モデルの適用を通じて割り当て精度を向上させることに重点を置いている。
【0077】
特定の非限定的な実施形態では、周辺参照ソース集団一致長さを使用する方法は、参照パネルハプロタイプに存在するハプロタイプフェージング誤差に対する堅牢性を高めることもできる。その根拠は、フェーズスイッチによって中断された長い一致は、アルゴリズムによって別個の一致として依然として回復され得、一致長さの周辺和に同等に寄与し得るということである。これが当てはまらない可能性があるシナリオは、フェーズスイッチが長い一致を中断し、結果として得られる一致セグメントの一方(または両方)が短すぎて(すなわち、<0.5cM)、本方法によって記録されない場合である。幾つかの実施形態では、周辺集団一致長さの推定値は、最大1cM減少させることができる。このケースに対処するための1つのアプローチによって、一致長さの閾値を減少させることができる。
【0078】
特定の非限定的な実施形態では、ローカル祖先予測は平滑化することができる。
図6は、例示的な平滑化プロセスを示す。
図6に示すように、未処理の割り当てデータをさらに平滑化して、一般的な誤差を除去するか、または精度を向上させることができる。例えば、特定の非限定的な実施形態では、機械学習モデルは、未処理の割り当てデータセットにおける全てのウィンドウにわたる未処理の呼び出しに対して実行して、ローカル祖先推定値を平滑化することができる。隠れマルコフモデルを含むがこれに限定されない、さまざまな機械学習モデルを使用することができる。平滑化によりまた、ローカル推定値からグローバルサブ集団割合(すなわち、グローバル祖先)を取得することができ、これらのグローバル推定値を複数のメタ分類器と併せて使用して、サンプルサブ集団ラベル全体を作成することができ、ローカル祖先呼び出しは、母系遺伝または父系遺伝のいずれかとしてパーティショニングすることができる。
【0079】
隠れマルコフモデル(HMM)は、染色体に沿った特徴の線形性をモデル化するため、集団ゲノミクスで広く使用されている。本明細書で提示される開示では、ローカル祖先ラベルの順序配列は、HMMにおける観察配列として扱うことができる。この枠組みでは、各参照集団は、潜在変数、またはクエリハプロタイプの「隠れ状態」とみなすことができる。この方法でHMMを採用する目的は、ローカル祖先割り当て間の偽性遷移を排除し、一般的な誤った割り当てを修正することである。特定の非限定的な実施形態では、ローカル祖先分類器は、ローカル祖先分類器が高度に混合されたサンプルに対して良好な性能を発揮できるように、遷移確率に擬似カウントを追加して確率がゼロにならないようにするなど、連鎖の混合を促すHMMパラメータを優先することができる。幾つかの実施形態では、HMMは、ローカル祖先割り当てが信頼できるソースであると仮定される参照パネルでトレーニングすることができる。
【0080】
HMM出力確率は、全ての参照パネルのハプロタイプに適用されるリーブワンアウト手順によって推定することができる。参照ハプロタイプの各々はクエリ配列として使用され、カテゴリ分布pの推定されたパラメータからサブ集団ラベルが割り当てられる。これらの推定値は、クエリハプロタイプのN個全てにわたって集計されて、ハプロタイプの「真の」サブ集団ラベルによってビニングされたK×K行列になる。結果として得られる集団混同行列の要素は、HMMの出力確率として使用することができる。遷移行列はまた、参照パネルのハプロタイプにおける集団ラベルの推定された配列から学習することができる。最後に、所与の隠れ状態から始まる確率のベクトルは、PBWTベースの呼び出しから得られるグローバル祖先推定値から推定することができる。バックワードフォワードアルゴリズムを使用して染色体ごとに別個のHMMを実行し、ビタビアルゴリズムを使用して隠れ状態を通る最も可能性の高い経路を解読することができる。
【0081】
特定の非限定的な実施形態では、平滑化方法は、複数のステップを含み得る。一例として、また限定するわけではないが、本方法は、遺伝物質の第1のサンプルの2つ以上のサブ領域のうちの少なくとも1つの第1の部分を同定することができる。次いで、本方法は、遺伝物質の第1のサンプルの2つ以上のサブ領域のうちの少なくとも1つの第2の部分を同定することができる。次いで、本方法は、第2の部分を第1の部分に置き換えることができる。平滑化方法は、第2の部分が第1の部分とよく混同されるものである場合、例えば、サブ領域の第2の部分を特定の品種として同定することが一般的な誤差であり、第1の部分が正しい品種を表す場合に実行することができる。平滑化方法は、ワークフロー全体の精度を向上させるのに役立ち、より正確な品種同定をもたらすことができる。幾つかの実施形態では、よく混同される品種および/または種の同定は、混同行列によって容易にすることができる。
図7Aは、複数の動物種および/または動物品種に関連する混同行列を示す。
図7Bは、y軸の動物品種を示す。
図7Cは、x軸の動物種を示す。
図7A~7Cは、混同行列が品種および/または種の同定に有用であることを示す。
【0082】
上記のようにローカル祖先分類器によって利用される技術により、ローカル祖先分類器は、従来の作業よりも精度を向上させることができ、従来の作業よりもはるかに大きな参照パネルに容易に適応させることができる。そのような利点は、本開示の後の「実施例」、具体的には「祖先分類器の精度のベンチマーク」および「分類システムのスケーラビリティのベンチマーク」のセクションで説明する。
【0083】
グローバル祖先分類器
特定の非限定的な実施形態では、グローバル祖先分類器は、ローカル祖先分類の全体を考慮して、生物全体のソース集団を予測することができる。これには、単一のソース集団に由来する生物を含めることができるが、ソース集団の一般的に見られる組み合わせ(または混合)を含めることもできる。コンパニオンアニマルに関しては、ゴールデンレトリバーとプードルとの交配種である「ゴールデンドゥードル」を予測するのがわかりやすい例である。さらに、グローバル祖先分類器は、他の方法では全ゲノムレベルで区別することができないソース集団の予測を精緻化するために、特定の形質に影響を与えることが知られている特定のDNAバリアントを重み付けすることができる。例えば、繊維芽細胞成長因子遺伝子FGF5のバリアントは、家畜イヌの被毛の長さに影響を与えることが知られている。他の方法では全ゲノムレベルで区別することができない、被毛の長さが異なる品種を有するイヌ種の場合、FGF5遺伝子バリアントを重み付けすることで、長毛種と短毛種とを正確に区別することができる。
【0084】
特定の非限定的な実施形態では、ビタビ経路からのローカル祖先割り当ては、母系染色体セットと父系染色体セットとの両方にわたって集計され、所与の二倍体サンプルのグローバル祖先割合を計算するために使用することができる。グローバル祖先割合は、ランダムフォレスト分類器を使用して全体の二倍体サンプルの集団ラベルを予測するための特徴として使用することができる。予測は、1つ以上のアルゴリズムによって再調整された信頼度スコアに関連付けることができる。幾つかの実施形態では、ランダムフォレスト分類器は、(HMMを介して実行された後に)上記の参照パネルのリーブワンアウト結果に基づいてトレーニングすることができる。
【0085】
上記のようにグローバル祖先分類器によって利用される技術により、グローバル祖先分類器は、従来の作業よりも有利な機能および性能を有することができる。そのような利点は、本開示の後の「実施例」、具体的には「祖先分類器の精度のベンチマーク」および「分類システムのスケーラビリティのベンチマーク」、および「グローバル祖先分類器の精度の評価」のセクションで説明する。
【0086】
系譜的祖先の予測器
ローカル祖先方法は、染色体の単一のフェージングされたコピーについてのソース集団を予測するので、ローカル祖先予測は、さらに、母系遺伝と父系遺伝とにパーティショニングすることができる。特定の非限定的な実施形態では、親染色体をパーティショニングするための系譜的祖先の予測器は、ゲノムの単一のハプロイドコピーを構成するローカル祖先の割合が異なる染色体間で類似していると仮定することができる。次いで、系譜的祖先の予測器は、ハプロイド染色体の完全な補体間のユークリッド距離を最小化することによって、母系染色体と父系染色体との最も可能性の高いパーティショニングを見つけることができる。
図8は、k平均法を使用した染色体対の母系コピーと父系コピーとへの例示的なソートを示す。
図8では、染色体特有のローカル祖先割合に基づくk平均法を使用した38本のイヌ科動物染色体対の母系コピーと父系コピーとへのパーティショニングの例が示される。
【0087】
特定の非限定的な実施形態では、系譜的祖先の予測器は、染色体ごとのグローバル祖先割合の行列の固有分解を使用することができる。行列の行はハプロイド染色体とすることができ、列はソース集団ラベルとすることができる。結果として得られる2つのコンポーネントは、k=2のk平均法に供することができる(母系および父系のグループ分けは任意)。目的は、祖先の構成が似ている染色体をグループ化し、この基準を使用して各染色体を母系セットと父系セットとにパーティショニングすることである。この手順は、個々のコンパニオンアニマルの系図を再構成するための基礎として役立てることができる。
図9は、染色体セットのグローバル祖先割合からの主成分の例を示す。
図9は、38対のイヌ科動物染色体の各々について、グローバル祖先割合からの最初の2つの主成分のプロットを示す。親染色体セットは母系遺伝または父系遺伝として任意にラベル付けされる。
【0088】
上記のように系譜的祖先の予測器によって利用される技術により、系譜的祖先の予測器は、さらに、ローカル祖先の予測を母系遺伝と父系遺伝とにパーティショニングすることができ、これはユニークな特徴となり得る。
【0089】
形質スイートの予測器
特定の非限定的な実施形態では、ローカル祖先分類器および/またはグローバル祖先分類器からの出力は、一連の形質予測モジュールを含む形質スイートの予測器の入力として使用することができる。これらの予測モジュールは、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計(例えば、平均ホモ接合性)、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、および/またはポリジェニックリスクスコアを含むさまざまな補助入力を取り込むことができる。一例として、また限定するわけではないが、形質スイートの予測器は、予想される健康な成体体重の1つ以上を、遺伝的疾患の範囲予測、リスク予測もしくは素因、祖先分類に基づく栄養推奨事項、行動および気質クラスの予測、年単位での寿命および全死因死亡率予測、または予測される薬理学的応答、注射麻酔薬の時間単位での回復時間範囲とともに予測することができる。幾つかの実施形態では、栄養推奨事項は、市販のペットフード製品および/または個別化されたペットフード製品を含む1つ以上のペットフード製品の推奨事項を含み得る。
【0090】
特定の非限定的な実施形態では、形質スイートの予測器はローカル祖先分類を使用して、例えば、特定の形質に寄与する既知の遺伝子配列を同定するためにローカル祖先ラベルを使用することによって、対象のさまざまな特性の特定の予測または推定を決定することができる。一例として、また限定するわけではないが、形質スイートの予測器はローカル祖先ラベルを使用して、対象の成体体重の1つ以上の範囲を同定し、1つ以上の遺伝的疾患の1つ以上の素因を同定し、1つ以上の栄養製品推奨事項および/または1つ以上の栄養レジメン推奨事項を提供し、対象の寿命および/または生涯期間を推定し、かつ/または対象の1つ以上の薬理学的応答を予測することができる。
【0091】
上記のように、ローカル祖先分類器およびグローバル祖先分類器からの入力と、さまざまな補助入力とを利用することによって、形質スイートの予測器は、従来の作業よりもはるかに多くの形質を予測することができる。そのような利点は、本開示の後の「実施例」、具体的には「形質予測の性能」のセクションで説明する。
【0092】
精度向上のための自動化システム
生成された分類器の精度は、ソース集団参照パネルにおける個々のサンプルに依存する可能性がある。一例として、また限定するわけではないが、ソース集団参照パネルに不正確な集団ラベルが含まれる場合、システムのワークフロー100全体の精度が低下する可能性がある。特定の非限定的な実施形態では、精度向上のための自動化システムは、参照パネルに追加される新しいサンプルを評価することができる。この評価には、まず、参照パネル候補の全てのサンプルにわたって、リーブワンアウト法による交差検証を行うことが含まれ得る。交差検証の結果は、次いで、検出アルゴリズム、例えば、分離フォレスト外れ値検出アルゴリズムへの入力として使用することができる。アルゴリズムは、集団ラベルと比較して、特定のサンプルを外れ値として同定し、それらのサンプルを参照パネルから除去することができる。自動化システムは、所定の精度レベルに達するまで、例えば、パネルの適合率および再現率が著しく向上しなくなるまで、適宜繰り返し実行することができる。代替の非限定的な実施形態では、機械学習アルゴリズムを使用して、ラベルなしサンプルのラベルを生成することができる。一例として、また限定するわけではないが、半教師あり機械学習ラベル伝播アルゴリズムを使用して、ラベルなしサンプルへの推定ラベルの割り当てを自動化することができる。
【0093】
上記のように、精度向上のための自動化システムは、リーブワンアウト手順による参照パネルの交差検証を利用することができる。このシナリオでは、参照パネルに含まれる各サンプルをパネルから反復的に除去し、次いでクエリ配列として実行することができる。次いで、取り残されたクエリ配列に、ローカル祖先ラベルを割り当てることができる。この手順を、参照パネルに含まれる全てのサンプルについて繰り返すことができる。次いで、サンプルは推定ソース集団ラベルによってグループ化することができる。分離フォレスト技術は、ローカル祖先呼び出しを特徴として使用して、ソース集団ラベルによってグループ化されたサンプルの各セットに対して実行することができる。所与のサンプルを単離するために誘導されたツリーパーティションの数は、異常を同定するための決定関数として使用することができる。ランダムツリーのフォレストが、特定のサンプルについて予想よりも短い経路長さを生成する場合、そのサンプルは異常とラベル付けされ、参照パネルから削除することができる。この手順は、重み付き再現率および適合率の改善が予め指定された閾値を下回るまで繰り返すことができる。
【0094】
上述のような精度向上のための自動化システムによって利用される技術により、自動化システムは、本明細書に開示されるようなシステムおよびサブシステムの性能をさらに向上させることができる。そのような利点は、本開示の後の「実施例」、具体的には「自動化された精度向上の性能」で説明する。
【0095】
3.配列決定、キット、および処置方法
本開示は、動物またはペットのゲノムを配列決定するための方法を含む。本開示に従って使用される「動物」または「ペット」という用語は、家畜イヌ、家畜ネコ、ウマ、ウシ、フェレット、ウサギ、ブタ、ラット、マウス、スナネズミ、ハムスター、ヤギなどを含むがこれらに限定されない家畜動物を指す。家畜イヌおよび家畜ネコは、ペットの特に非限定的な例である。本開示に従って使用される「動物」または「ペット」という用語は、バイソン、ヘラジカ、シカ、シカ肉(venison)、アヒル、家禽、魚などを含むがこれらに限定されない野生動物をさらに指すことができる。
【0096】
本明細書で使用される場合、「イヌ」または「イヌ科動物」という用語は互換的に使用され、Canis lupus、Canis familiaris、Canis latrans、Canis dingo、Lycaon pictus、Chrysocyon brachyurus、Atelocynus microtis、Cuon alpinus、Speothos venaticus、Nyctereutes procyonoides、Vulpes vulpes、およびAlopex lagopusを含むがこれらに限定されない、イヌ科の任意のメンバーを指す。特定の実施形態では、イヌまたはイヌ科動物はCanis familiarisである。
【0097】
特定の実施形態では、本方法は、動物からサンプルを取得することを含む。特定の実施形態では、サンプルは、動物から取得される体液であり得る。特定の非限定的な実施形態では、サンプルは、唾液、喀痰、血液、発汗液(例えば、汗)、膿、涙、粘膜排泄物、嘔吐物、尿、便、精液、膣液、または他の種類の体液であり得る。特定の実施形態では、サンプルは非流体サンプルであり得る。特定の実施形態では、サンプルは無細胞サンプルであり得る。例えば、何ら限定されるものではないが、サンプルは無細胞核酸サンプルである。特定の実施形態では、サンプルは、無細胞デオキシリボ核酸(DNA)、無細胞リボ核酸(RNA)、および/または無細胞タンパク質を含み得る。特定の実施形態では、サンプルは1つ以上の細胞を含み得る。
【0098】
特定の実施形態では、サンプルは、固体サンプルまたは組織サンプルであり得る。特定の実施形態では、サンプルは皮膚サンプルであり得る。特定の実施形態では、サンプルは、頬の綿棒採取サンプルまたは異なる身体部分の綿棒採取サンプルであり得る。特定の実施形態では、サンプルは、均質なサンプルまたは不均質なサンプルであり得る。特定の実施形態では、サンプルは腫瘍サンプルであり得る。特定の実施形態では、サンプルは、1種類以上の異なる生物学的サンプルを含み得る。例えば、何ら限定されるものではないが、サンプルは、唾液および皮膚組織を含み得る。特定の実施形態では、サンプルは、血漿または血清サンプルであり得る。
【0099】
特定の実施形態では、サンプルは喀痰サンプルである。特定の実施形態では、サンプルは唾液サンプルである。特定の実施形態では、サンプルは、頬の綿棒採取サンプルである。
【0100】
特定の実施形態では、サンプルは、動物から収集され、更なる処理および/または分析の時まで保存および/または安定化され得る。例えば、何ら限定されるものではないが、サンプルは、そのような使用のために試薬とのインキュベーションによって保存および/または安定化され得る。特定の実施形態では、サンプルを保存および/または安定化するための試薬は、所望の効果を達成するために収集されたサンプルに作用する任意の物質であり得る。特定の実施形態では、試薬は、流体(例えば、液体、気体、溶液など)または非流体(例えば、固体粉末など)などの任意の適切な形態であり得る。特定の実施形態では、試薬は、サンプルにおけるデオキシリボ核酸(DNA)、リボ核酸(RNA)、タンパク質、またはタンパク質の他の成分を保存することができる。特定の実施形態では、試薬は、1つ以上の細胞の細胞エピゲノムの変化を防止することができる。特定の実施形態では、試薬は、収集されたサンプルからの細胞からの所望の分子(例えば、核酸分子)の抽出を可能にすることができる。特定の実施形態では、試薬は、収集されたサンプルおよび/またはその1つ以上の構成成分を別のプロセスで処理するように構成することができる。
【0101】
別の非限定的な例では、収集されたサンプルは、更なる処理および/または分析が行われるまで、そのままの状態で保存され得る。特定の実施形態では、収集されたサンプルは、細菌または真菌の増殖を防止するために保存および/または安定化され得る。特定の実施形態では、収集されたサンプルは、少なくとも約1時間、約2時間、約3時間、約4時間、約5時間、約6時間、約12時間、約1日、約2日、約3日、約4日、約5日、約6日、約7日、約1週間、約2週間、約3週間、約4週間、約1ヶ月、約2ヶ月、約3ヶ月、約4ヶ月、約5ヶ月、約6ヶ月、約1年、約2年、約3年、またはそれよりも長い期間保存され得る。特定の実施形態では、収集されたサンプルは、室温以下で長期間保存および保管され得る。特定の実施形態では、収集されたサンプルは、周囲温度以下で長期間保存および保管され得る。特定の実施形態では、収集されたサンプルは、約60℃までの温度で保存され得る。
【0102】
特定の実施形態では、安定化および/または保存されたサンプルは、さらに、外部施設(例えば、遠隔施設)で処理および分析され得る。例えば、何ら限定されるものではないが、増幅および/または配列決定用途のために、サンプルから核酸分子(例えば、DNAまたはRNA)が単離および抽出され得る。
【0103】
サンプルを収集した後、サンプルを処理して核酸分子(例えば、DNAまたはRNA)を抽出することができる。特定の実施形態では、DNA抽出法には、有機抽出法(例えば、フェノール-クロロホルム法)、非有機法(例えば、塩析およびプロテイナーゼK処理)、および吸着法(例えば、シリカゲル膜)が含まれる。核酸を単離する技術の追加の非限定的な例としては、Qiagen DNeasy kit(商標)、Qiagen QIAamp Cador Pathogen Mini kit(商標)、Nucleospin 96 Tissue kit(Macherey-Nagel社)、QIAzol Lysis Reagent、Qiagen RNeasy kit、Qiagen TurboCapture mRNA kit、およびIsopropanol DNA Extractionが挙げられる。
【0104】
特定の実施形態では、本明細書に開示される方法は、動物またはペットのゲノムの検出および定量化を含む。特定の実施形態では、ゲノムの検出および定量化は、サンプルからDNAを単離することと、DNAを配列決定することとを含む。特定の実施形態では、ゲノムの検出および定量化は、サンプルからDNAを単離することと、DNAを定量化すること(例えば、定量的PCR)とを含む。
【0105】
動物またはペットのゲノムを検出および定量化するための任意の適切な技術を採用することができる。動物またはペットのゲノムを検出および定量化するための技術の例としては、454パイロシークエンシング、ポリメラーゼ連鎖反応(PCR)、定量的PCR(qPCR)、ショットガンシークエンシング、メタゲノムシークエンシング、イルミナシークエンシング、PacBioシークエンシング、ナノポアシークエンシング、およびマイクロアレイジェノタイピングが挙げられるが、これらに限定されない。特定の非限定的な実施形態では、動物またはペットのゲノムは、特定の遺伝子座のqPCR増幅および配列決定によって決定することができる。特定の実施形態では、配列決定法は、454-パイロシークエンシングである。特定の実施形態では、配列決定法は、イルミナシークエンシングである。特定の実施形態では、配列決定法は、全ゲノムシークエンシングである。特定の実施形態では、動物またはペットのゲノムを検出および定量化するための方法は、マイクロアレイジェノタイピングである。特定の実施形態では、マイクロアレイジェノタイピングは、Illumina Infinium BeadChipマイクロアレイジェノタイピングである。
【0106】
動物またはペットのゲノムは、さらに、本明細書に開示される方法のいずれかを使用して解析することができる。
【0107】
特定の実施形態では、本開示は、自宅、現場、または遠隔でのサンプルの便利で簡単な収集を可能にするシステム、デバイス、および方法を含む。例えば、任意のユーザが、直接管理することなくサンプルを収集することができる。特定の実施形態では、サンプルは、サンプル収集デバイスにおいて収集することができる。特定の実施形態では、サンプル収集デバイスは、サンプル(例えば、核酸分子)を保存および/または保管するための化学試薬を予め装填したリザーバを含み得る。特定の実施形態では、サンプル収集デバイスのリザーバは、有利には、ユーザが直接曝露されないように遮蔽され得る。特定の実施形態では、ユーザには、分かりやすい説明書が提供され得る。特定の実施形態では、説明書は、デバイスの使用方法、デバイスを使用したサンプルの収集方法、使用後のデバイスの廃棄(例えば、遠隔地への発送)方法、サンプルの分析結果へのアクセス方法、または他の指示について指示することができる。特定の実施形態では、収集されたサンプルは、更なる処理および/または分析のために、(例えば、郵便または運送業者を介した)発送などによって遠隔実験室に輸送することができる。
【0108】
特定の実施形態では、サンプル収集デバイスは、生物学的サンプルが収集されるキャリアを含み得る。特定の実施形態では、キャリアは、吸収性部材であり得る。例えば、何ら限定されるものではないが、キャリアは、綿棒、綿、パッド、スポンジ、発泡体、もしくは吸収によって生物学的サンプルを運ぶことができる他の材料またはデバイスであり得る。
【0109】
特定の実施形態では、本開示はキットを提供する。特定の実施形態では、キットは、サンプル収集デバイスを含む。特定の実施形態では、サンプル収集デバイスは、リザーバおよびキャリアを含む。特定の実施形態では、リザーバは、サンプルを安定化および/または保存するための試薬を含む。特定の実施形態では、リザーバは、ユーザを試薬への直接曝露から保護するためのシールドを含む。特定の実施形態では、キャリアは吸収性部材を含む。特定の実施形態では、キャリアは綿棒である。特定の実施形態では、リザーバおよびキャリアは、試薬またはサンプルの流出を制限または回避するように構成および配置される。特定の実施形態では、キットは取扱説明書を含む。取扱説明書は、パンフレットで、またはインターネット接続を使用して(例えば、QRコード(登録商標)を使用して)提供することができる。例えば、何ら限定されるものではないが、説明書には、サンプル収集デバイスの使用方法、サンプルの収集方法、廃棄方法、サンプルの分析結果へのアクセス方法に関する情報を含めることができる。
【0110】
特定の実施形態では、キットは、サンプル収集デバイスを遠隔処理地に発送するための容器を含む。特定の実施形態では、キットは、箱、封筒、または他の包装材料(例えば、断熱材、自己シールまたは他のシール機構、郵便物など)を含む。特定の実施形態では、キットは、返送用ラベルおよび/またはプリペイドラベルを含む。
【0111】
特定の実施形態では、キットは、サンプルの分析結果へのアクセス方法に関する説明書を含む。特定の実施形態では、説明書は、ウェブサイトへのアクセスまたは個人用デバイス(例えば、スマートフォン)上でのアプリケーションのダウンロードを可能にするためのハイパーリンクまたはクイックレスポンスコード(例えば、QRコード(登録商標))を含み得る。特定の実施形態では、結果はレポートで提供される。特定の実施形態では、レポートは、メールまたは電子的に、ユーザまたは医療提供者(例えば、獣医師)に配信される。特定の実施形態では、レポートは、個人用デバイス(例えば、スマートフォン)上で視覚化することができる。特定の実施形態では、レポートは、カスタマイズされた推奨事項を含み得る。
【0112】
特定の実施形態では、カスタマイズされた推奨事項は、個別化された栄養的に完全な食餌を動物に投与することを含む。例えば、何ら限定されるものではないが、カスタマイズされた推奨事項は、国際公開第2021/061743号に記載されている1つの食餌療法であり得、その内容全体を参照により援用する。
【0113】
特定の実施形態では、カスタマイズされた推奨事項は、増量食または減量食を投与することを含む。特定の実施形態では、食餌療法(例えば、減量食または増量食)は、動物の現在の体重および動物のゲノムに基づいて調整される。特定の非限定的な実施形態では、食餌は、約4100kcal(約17154.4kJ)/kg、約4000kcal(約16736.0kJ)/kg、約3900kcal(約16317.6kJ)/kg、約3800kcal(約15899.2kJ)/kg、約3700kcal(約15480.8kJ)/kg、約3600kcal(約15062.4kJ)/kg、約3500kcal(約14644.0kJ)/kg、約3000kcal(約12552.0kJ)/kg、約2500kcal(約10460.0kJ)/kg、約2000kcal(約8368.0kJ)/kg、約1500kcal(約6276.0kJ)/kg、約1000kcal(約4184.0kJ)/kg以下、またはその中間値もしくは範囲のエネルギー密度を含む。特定の非限定的な実施形態では、食餌は、約20%w/w、19%w/w、18%w/w、17%w/w、16%w/w、15%w/w、14%w/w、13%w/w、12%w/w、11%w/w、10%w/w、9%w/w、8%w/w、7%w/w、6%w/w、5%w/w、4%w/w、3%w/w、2%w/w、1%w/w以下、またはその中間値もしくは範囲の脂肪量を含む。特定の非限定的な実施形態では、食餌は、約25%w/w、20%w/w、15%w/w、10%w/w、5%w/w、1%w/w以下、またはその中間値もしくは範囲の炭水化物の量を含む。特定の非限定的な実施形態では、食餌は、約20%w/w、25%w/w、30%w/w、35%w/w、40%w/w、45%w/w以上、またはその中間値もしくは範囲のタンパク質の量を含む。特定の非限定的な実施形態では、食餌は、約5%w/w、10%w/w、15%w/w、20%w/w、25%w/w、30%w/w、35%w/w、40%w/w、45%w/w以上、またはその中間値もしくは範囲の食物繊維の量を含む。減量食および増量食に関する追加の情報は、国際公開第2018/129518号に記載されており、その内容全体を参照により援用する。
【0114】
特定の実施形態では、カスタマイズされた推奨事項は、皮膚の状態(例えば、水分補給、質感、弾力性、完全性、バリアなど)を改善するために動物に食餌を投与することを含む。特定の実施形態では、食餌はリノール酸を含む。特定の実施形態では、食餌は、約7g/Mcal(約7g/4.184MJ)~約9g/Mcal(約9g/4.184MJ)の量のリノール酸を含む。特定の実施形態では、食餌は、約8g/Mcal(約8g/4.184MJ)の量のリノール酸を含む。本明細書で使用される場合、食餌に含まれる所与の物質に対する「xg/Mcal(xg/4.184MJ)」という表現は、その物質が食餌に含まれるMcal(4.184MJ)あたりxグラムの量で含まれることを意味する。特定の実施形態では、食餌はリノール酸および亜鉛を含む。特定の実施形態では、食餌は、約40mg/Mcal(約40mg/4.184MJ)~約60mg/Mcal(約60mg/4.184MJ)の量の亜鉛を含む。特定の実施形態では、食餌は、約50mg/Mcal(約50mg/4.184MJ)の量の亜鉛を含む。皮膚の状態を改善するための食餌に関する追加の情報は、国際公開第2020/055856号に記載されており、その内容全体を参照により援用する。
【0115】
本開示に包含される追加の例示的な食餌は、国際公開第2019/183557号、同第2019/144081号、および米国特許出願公開第2022/0096537号明細書に見出すことができ、各々の内容全体を参照により援用する。
【実施例】
【0116】
4.実施例
本開示の主題は、祖先分類および形質分類における各サブシステムの精度の向上を提供する。そのような分類には、ローカル祖先分類およびグローバル祖先分類が含まれるが、これらに限定されない。以下で、これらの分類の例について説明する。
【0117】
実施例1:祖先分類器の精度のベンチマーク
87品種のグループからの4,368頭のイヌサンプルにジェノタイピングされた84,414個の遺伝子バリアントの公的に入手可能なデータセットを、参照パネル(n=4,168)と200個の単一起源クエリサンプルとにパーティショニングした。さらに、次いで200個の単一起源クエリサンプルを使用して、200個の高度に混合された合成サンプルを作成した。単一起源クエリサンプルと高度に混合されたクエリサンプルとの両方を、本明細書に開示される本開示のシステムおよびRFMixにおいて、ローカルおよびグローバル祖先予測に供した。200個のクエリサンプルの真のラベルは既知であったため、本明細書に開示される実施形態では、本開示のシステムの精度とRFMixの精度とを比較することができた。分類器の精度は、予測された祖先割合と真の割合との間の平均二乗誤差(MSE)として測定された。
【0118】
図10は、先行技術の分類器RFMixに対する我々のシステムの精度ベンチマークの例示的な結果を示す。
図10および表1は、RFMixおよび本開示のシステムの各クエリセットにおける200個のサンプルについてのMSEの分布を示す。単一起源のクエリサンプルについては、本開示のシステムとRFMixとの両方が、同様に高い精度を示した(
図10)。対応のあるサンプルのt検定は、単一起源サンプルのRFMixと比較して、我々のシステムのMSE間に有意差を示さなかった(t=-1.0749;P=0.2831)。逆に、単一起源および高度に混合されたサンプルの平均MSEは、本開示のシステムとRFMixとの間で有意差があった(t=14.1269;P<0.01)。
【0119】
【0120】
実施例2.分類システムのスケーラビリティのベンチマーク
本開示のシステムのスケーラビリティをRFMixのスケーラビリティと比較した。本開示のシステムとRFMixとによって利用される計算リソースには劇的な違いが観察された。ここで報告された結果を生成するために、本開示のシステムは最大2GbのRAMを必要とし、ワークフロー全体が全ての染色体に対して完了するまで平均6分かかる。しかしながら、RFMixは最大60GbのRAMを必要とし、単一の染色体データセットを完了するのに平均3時間かかる。コモディティクラウド環境で両方のワークフローを実行するために、RFMixは、現在1時間あたり0.904ドルのr5a.4xlargeインスタンスタイプを必要とし、200個のサンプルの単一染色体データセットを実行するのに平均3時間の実行時間がかかる。これらの要件は、1サンプルあたり0.515ドルのコストに換算される。本開示のシステムの要件は、現在1時間あたり0.768ドルの価格のm5.4xlargeインスタンスタイプで、全ての染色体について200個のサンプルを平均6分間実行した場合、価格は1サンプルあたり約0.000384ドルになることを意味する。RFMixは6,000の個体を超える参照パネルに適応しなかったが、本開示のシステムは20,000の個体を超えるサンプルで効率的に実行されたことに留意すべきである。
【0121】
実施例3:グローバル祖先分類の精度の評価
前述したように、従来の作業では、ローカル祖先割り当てから生物全体の祖先を予測することはできない。本明細書に開示される実施形態は、層化k分割交差検証手順を使用して、グローバル祖先分類器の精度を特徴付けた。
図11は、グローバル祖先分類器の例示的な受信者動作特性(ROC)曲線を示す。公的に入手可能な参照パネルを使用したマクロ再現率は0.9939であり、
図11の受信者動作特性(ROC)曲線は、曲線下面積(AUC)が0.9192であることを示す。
【0122】
生物ラベルの予測に加えて、特定の遺伝的バリアントをグローバル祖先と併せて使用することで、予測を精緻化することができる。概念実証実験では、表現型に大きな影響を与えることが知られている10個の遺伝子マーカーを使用して、他の方法で区別することができないプードル(トイとミニチュア)、コリー(ラフヘアードとスムースヘアード)、ダックスフンド(ロングヘアードとショートヘアード)のサブタイプをさらに分類した。表2は、ランダムフォレスト機械学習モデルの文脈で、これらの追加のマーカーを使用した場合の精度を示す。
【0123】
【0124】
実施例4:形質予測の性能
コンパニオンアニマルの健康な成体体重を予測することができるモデルを構築するために、決定木ベースの機械学習アプローチが形質スイートの予測器で採用されている。機械学習アルゴリズムへの入力は、グローバル祖先データ+39のサイズおよび体重に関連する遺伝子マーカーの遺伝子型データ、性別、去勢手術の有無ならびに通院中の獣医検査から得られた体重データの16,168頭のイヌ科動物サンプルトレーニングセットである。
【0125】
図12は、予測された成体体重と真の観察された成体体重との例示的な回帰を示す。
図12は、本実施形態による、上記で論じたような例示的な成体体重予測モジュールを使用した、予測された成体体重と真の観察された成体体重の例示的な回帰分析を示す。サンプルのテストセットに対する体重予測モデルの評価では、平均絶対パーセンテージ誤差(MAPE)は21.8%であった。
【0126】
実施例5:自動化された精度向上の性能
図13は、異常検出のための分離フォレスト技術を使用したローカル祖先参照パネルの例示的な反復改善を示す。
図13は、誤ってラベル付けされた参照サンプルを除去する、分離フォレスト反復を含む交差検証法の更なる反復の適用時に、参照パネルの適合率および再現率に改善があることを示す。特定の非限定的な実施形態では、交差検証法は教師ありまたは半教師ありであり得る。
【0127】
表3は、教師ありラベル伝播法と半教師ありラベル伝播法を使用した、上記のようにサブタイプを区別する精度を示しており、半教師ありラベル伝播法は、サブタイプラベルの50%を割り当てるために使用された。
【0128】
【0129】
図14は、祖先予測のための例示的な方法1400を示す。本方法は、ステップ1410で開始することができ、コンピューティングシステムは、第1の動物に関連する遺伝物質のサンプルにアクセスすることができ、遺伝物質のサンプルは1つ以上の未処理の遺伝子型を含む。ステップ1420では、コンピューティングシステムは、1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成することができる。ステップ1430では、コンピューティングシステムは、1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成することができる。ステップ1440では、コンピューティングシステムは、第1の動物に関連する出力をユーザに提示するための命令をユーザデバイスに送信することができ、出力は、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てに基づいて生成される。特定の実施形態は、適切な場合、
図14の方法の1つ以上のステップを繰り返すことができる。本開示は、
図14の方法の特定のステップが特定の順序で起こるものとして説明および例示するが、本開示は、
図14の方法の任意の適切なステップが任意の適切な順序で起こることを企図する。さらに、本開示は、
図14の方法の特定のステップを含む祖先予測のための例示的な方法を説明および例示するが、本開示は、任意の適切なステップを含む祖先予測のための任意の適切な方法を企図しており、これは、適切な場合、
図14の方法のステップの全部、一部を含んでいてもよいか、または1つも含んでいなくてもよい。さらに、本開示は、
図14の方法の特定のステップを実施する特定のコンポーネント、デバイス、またはシステムを説明および例示するが、本開示は、
図14の方法の任意の適切なステップを実施する任意の適切なコンポーネント、デバイス、またはシステムの任意の適切な組み合わせを企図する。
【0130】
当業者であれば、本開示の方法およびシステムは、多くの方法で実装することができ、したがって、前述の例示的な実施形態および実施例によって限定されるものではないことを認識するであろう。言い換えれば、ハードウェアとソフトウェアまたはファームウェアとのさまざまな組み合わせにおいて、単一または複数のコンポーネントによって行われる機能要素と、個々の機能とは、クライアントレベルもしくはサーバレベルのいずれか、または両方において、ソフトウェアアプリケーション間で分散させることができる。この点に関して、本明細書に記載される異なる実施形態の任意の数の特徴を、単一または複数の実施形態に組み合わせることができ、本明細書に記載される全ての特徴よりも少ない、または多い特徴を有する代替の実施形態が可能である。
【0131】
また、機能の全部または一部を、現在知られている方法、または今後知られるようになる方法で、複数のコンポーネント間に分散させることもできる。したがって、本明細書に記載される機能、特徴、インターフェースおよび設定を実現する上で、無数のソフトウェア/ハードウェア/ファームウェアの組み合わせが可能である。さらに、本開示の範囲は、本明細書に記載されるハードウェアまたはソフトウェアまたはファームウェアのコンポーネントに対して、現在および今後当業者によって理解されるであろう変形および修正を行うことができるのと同様に、記載された特徴および機能およびインターフェースを実施するための従来から知られている方法をカバーする。
【0132】
さらに、本開示においてフローチャートとして提示され説明される方法の実施形態は、本技術のより完全な理解を提供するために例として提供される。開示された方法は、本明細書に提示された動作および論理フローに限定されるものではない。さまざまな動作の順序が変更され、より大きな操作の一部として説明されたサブ動作が独立して実行される代替の実施形態が企図される。
【0133】
本開示の目的のためにさまざまな実施形態を説明してきたが、そのような実施形態は、本開示の教示をそれらの実施形態に限定するものとみなされるべきではない。本開示に記載されるシステムおよびプロセスの範囲内に留まる結果を得るために、上記の要素および動作に対してさまざまな変更および修正を加えることができる。
【0134】
開示された主題は、特定の好ましい実施形態の観点から本明細書に記載されているが、当業者は、開示された主題に対して、その範囲から逸脱することなく、さまざまな修正および改良を加えることができることを認識するであろう。さらに、開示された主題の1つの非限定的な実施形態の個々の特徴は、本明細書で論じられ得るか、または1つの非限定的な実施形態の図面に示され得、他の実施形態では示され得ないが、1つの非限定的な実施形態の個々の特徴は、別の実施形態の1つ以上の特徴または複数の実施形態からの特徴と組み合わされ得ることが明らかであろう。
【手続補正書】
【提出日】2024-04-03
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0134
【補正方法】変更
【補正の内容】
【0134】
開示された主題は、特定の好ましい実施形態の観点から本明細書に記載されているが、当業者は、開示された主題に対して、その範囲から逸脱することなく、さまざまな修正および改良を加えることができることを認識するであろう。さらに、開示された主題の1つの非限定的な実施形態の個々の特徴は、本明細書で論じられ得るか、または1つの非限定的な実施形態の図面に示され得、他の実施形態では示され得ないが、1つの非限定的な実施形態の個々の特徴は、別の実施形態の1つ以上の特徴または複数の実施形態からの特徴と組み合わされ得ることが明らかであろう。
以下、本発明の好ましい実施形態を項分け記載する。
実施形態1
1つ以上のコンピューティングシステムによって、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスするステップと、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成するステップと、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するステップと、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信するステップと
を含む、方法。
実施形態2
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定するステップ
をさらに含む、実施形態1に記載の方法。
実施形態3
前記1つ以上のソース集団を決定するステップが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計するステップと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算するステップと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定するステップと
を含む、実施形態1または2に記載の方法。
実施形態4
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングするステップ
をさらに含む、実施形態1から3までのいずれか1つに記載の方法。
実施形態5
前記パーティショニングするステップが、1つ以上のクラスタリングアルゴリズムに基づいている、実施形態4に記載の方法。
実施形態6
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定するステップ
をさらに含む、実施形態1から5までのいずれか1つに記載の方法。
実施形態7
前記1つ以上の遺伝的形質を決定するステップが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、実施形態6に記載の方法。
実施形態8
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、実施形態6または7に記載の方法。
実施形態9
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新するステップ
をさらに含む、実施形態1から8までのいずれか1つに記載の方法。
実施形態10
前記更新するステップが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用するステップと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定するステップと、
同定された前記外れ値を前記参照パネルから除去するステップと
を含む、実施形態9に記載の方法。
実施形態11
前記更新するステップが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、実施形態9または10に記載の方法。
実施形態12
前記更新するステップが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成するステップ
をさらに含み、
前記更新するステップは、生成された前記ラベルに基づいている、
実施形態9から11までのいずれか1つに記載の方法。
実施形態13
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成するステップと、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成するステップであって、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングするステップを含む、生成するステップと
をさらに含む、実施形態1から12までのいずれか1つに記載の方法。
実施形態14
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、実施形態1から13までのいずれか1つに記載の方法。
実施形態15
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去するステップ
をさらに含む、実施形態1から14までのいずれか1つに記載の方法。
実施形態16
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、実施形態1から15までのいずれか1つに記載の方法。
実施形態17
実施形態1から16までのいずれか1つに記載の方法により動物のローカル祖先およびグローバル祖先を決定するためのキットであって、サンプル収集デバイスを含む、キット。
実施形態18
前記サンプル収集デバイスがキャリアおよびリザーバを含む、実施形態17に記載のキット。
実施形態19
前記キャリアが吸収性部材を含み、前記リザーバがシールドを含む、実施形態18に記載のキット。
実施形態20
前記サンプル収集デバイスの使用方法および/またはサンプルの収集方法に関する取扱説明書をさらに含む、実施形態17から19までのいずれか1つに記載のキット。
実施形態21
ソフトウェアを具備する1つ以上のコンピュータ可読非一時的記憶媒体であって、実行されたときに、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスし、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成し、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成し、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信する
ように動作可能である、媒体。
実施形態22
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定する
ように動作可能である、実施形態21に記載の媒体。
実施形態23
前記1つ以上のソース集団を決定することが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算することと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定することと
を含む、実施形態21または22に記載の媒体。
実施形態24
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングする
ように動作可能である、実施形態21から23までのいずれか1つに記載の媒体。
実施形態25
パーティショニングが、1つ以上のクラスタリングアルゴリズムに基づいている、実施形態24に記載の媒体。
実施形態26
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定する
ように動作可能である、実施形態21から25までのいずれか1つに記載の媒体。
実施形態27
前記1つ以上の遺伝的形質を決定することが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、実施形態26に記載の媒体。
実施形態28
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、実施形態26または27に記載の媒体。
実施形態29
前記ソフトウェアが、さらに、実行されたときに、
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新する
ように動作可能である、実施形態21から28までのいずれか1つに記載の媒体。
実施形態30
前記更新することが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用することと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、
同定された前記外れ値を前記参照パネルから除去することと
を含む、実施形態29に記載の媒体。
実施形態31
前記更新することが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、実施形態29または30に記載の媒体。
実施形態32
前記更新することが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成すること
をさらに含み、
前記更新することは、生成された前記ラベルに基づいている、
実施形態29から31までのいずれか1つに記載の媒体。
実施形態33
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成し、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成し、前記生成することは、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含む
ように動作可能である、実施形態21から32までのいずれか1つに記載の媒体。
実施形態34
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、実施形態21から33までのいずれか1つに記載の媒体。
実施形態35
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去する
ように動作可能である、実施形態21から34までのいずれか1つに記載の媒体。
実施形態36
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、実施形態21から35までのいずれか1つに記載の媒体。
実施形態37
1つ以上のプロセッサと、前記プロセッサによって実行可能な命令を含む、前記プロセッサに結合された非一時的メモリとを含むシステムであって、前記プロセッサは、命令を実行するときに、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスし、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成し、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成し、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信する
ように動作可能である、システム。
実施形態38
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定する
ように動作可能である、実施形態37に記載のシステム。
実施形態39
前記1つ以上のソース集団を決定することが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算することと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定することと
を含む、実施形態37または38に記載のシステム。
実施形態40
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングする
ように動作可能である、実施形態37から39までのいずれか1つに記載のシステム。
実施形態41
パーティショニングが、1つ以上のクラスタリングアルゴリズムに基づいている、実施形態40に記載のシステム。
実施形態42
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定する
ように動作可能である、実施形態37から41までのいずれか1つに記載のシステム。
実施形態43
前記1つ以上の遺伝的形質を決定することが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、実施形態42に記載のシステム。
実施形態44
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、実施形態42または43に記載のシステム。
実施形態45
前記プロセッサが、さらに、命令を実行するときに、
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新する
ように動作可能である、実施形態37から44までのいずれか1つに記載のシステム。
実施形態46
前記更新することが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用することと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、
同定された前記外れ値を前記参照パネルから除去することと
を含む、実施形態45に記載のシステム。
実施形態47
前記更新することが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、実施形態45または46に記載のシステム。
実施形態48
前記更新することが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成すること
をさらに含み、
前記更新することは、生成された前記ラベルに基づいている、
実施形態45から47までのいずれか1つに記載のシステム。
実施形態49
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成し、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成し、前記生成することは、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含む
ように動作可能である、実施形態37から48までのいずれか1つに記載のシステム。
実施形態50
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、実施形態37から49までのいずれか1つに記載のシステム。
実施形態51
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去する
ように動作可能である、実施形態37から50までのいずれか1つに記載のシステム。
実施形態52
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、実施形態37から51までのいずれか1つに記載のシステム。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
1つ以上のコンピューティングシステムによって、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスするステップと、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成するステップと、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成するステップと、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信するステップと
を含む、方法。
【請求項2】
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定するステップ
をさらに含む、請求項1記載の方法。
【請求項3】
前記1つ以上のソース集団を決定するステップが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計するステップと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算するステップと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定するステップと
を含む、
請求項1記載の方法。
【請求項4】
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングするステップ
をさらに含む、
請求項1記載の方法。
【請求項5】
前記パーティショニングするステップが、1つ以上のクラスタリングアルゴリズムに基づいている、請求項4記載の方法。
【請求項6】
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定するステップ
をさらに含む、
請求項1記載の方法。
【請求項7】
前記1つ以上の遺伝的形質を決定するステップが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、請求項6記載の方法。
【請求項8】
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、
請求項6記載の方法。
【請求項9】
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新するステップ
をさらに含む、
請求項1記載の方法。
【請求項10】
前記更新するステップが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用するステップと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定するステップと、
同定された前記外れ値を前記参照パネルから除去するステップと
を含む、請求項9記載の方法。
【請求項11】
前記更新するステップが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、
請求項9記載の方法。
【請求項12】
前記更新するステップが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成するステップ
をさらに含み、
前記更新するステップは、生成された前記ラベルに基づいている、
請求項9記載の方法。
【請求項13】
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成するステップと、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成するステップであって、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングするステップを含む、生成するステップと
をさらに含む、
請求項1記載の方法。
【請求項14】
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、
請求項1記載の方法。
【請求項15】
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去するステップ
をさらに含む、
請求項1記載の方法。
【請求項16】
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、
請求項1記載の方法。
【請求項17】
請求項1から16までのいずれか1項記載の方法により動物のローカル祖先およびグローバル祖先を決定するためのキットであって、サンプル収集デバイスを含む、キット。
【請求項18】
前記サンプル収集デバイスがキャリアおよびリザーバを含む、請求項17記載のキット。
【請求項19】
前記キャリアが吸収性部材を含み、前記リザーバがシールドを含む、請求項18記載のキット。
【請求項20】
前記サンプル収集デバイスの使用方法および/またはサンプルの収集方法に関する取扱説明書をさらに含む、
請求項17記載のキット。
【請求項21】
ソフトウェアを具備する1つ以上のコンピュータ可読非一時的記憶媒体であって、実行されたときに、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスし、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成し、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成し、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信する
ように動作可能である、媒体。
【請求項22】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定する
ように動作可能である、請求項21記載の媒体。
【請求項23】
前記1つ以上のソース集団を決定することが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算することと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定することと
を含む、請求項21または22記載の媒体。
【請求項24】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングする
ように動作可能である、
請求項21記載の媒体。
【請求項25】
パーティショニングが、1つ以上のクラスタリングアルゴリズムに基づいている、請求項24記載の媒体。
【請求項26】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定する
ように動作可能である、
請求項21記載の媒体。
【請求項27】
前記1つ以上の遺伝的形質を決定することが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、請求項26記載の媒体。
【請求項28】
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、請求項26または27記載の媒体。
【請求項29】
前記ソフトウェアが、さらに、実行されたときに、
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新する
ように動作可能である、
請求項21記載の媒体。
【請求項30】
前記更新することが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用することと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、
同定された前記外れ値を前記参照パネルから除去することと
を含む、請求項29記載の媒体。
【請求項31】
前記更新することが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、請求項29または30記載の媒体。
【請求項32】
前記更新することが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成すること
をさらに含み、
前記更新することは、生成された前記ラベルに基づいている、
請求項29記載の媒体。
【請求項33】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成し、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成し、前記生成することは、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含む
ように動作可能である、
請求項21記載の媒体。
【請求項34】
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、
請求項21記載の媒体。
【請求項35】
前記ソフトウェアが、さらに、実行されたときに、
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去する
ように動作可能である、
請求項21記載の媒体。
【請求項36】
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、
請求項21記載の媒体。
【請求項37】
1つ以上のプロセッサと、前記プロセッサによって実行可能な命令を含む、前記プロセッサに結合された非一時的メモリとを含むシステムであって、前記プロセッサは、命令を実行するときに、
第1の動物に関連し、1つ以上の未処理の遺伝子型を含む遺伝物質のサンプルにアクセスし、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のフェージングされたハプロタイプを生成し、
前記1つ以上のフェージングされたハプロタイプについて、1つ以上の機械学習アルゴリズムによって、前記1つ以上のフェージングされたハプロタイプと、複数の参照集団に関連する複数の参照ハプロタイプを含む参照パネルとの間の比較に基づいて、1つ以上の遺伝的集団に対する1つ以上のローカル割り当てを生成し、
前記第1の動物に関連し、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて生成される出力をユーザに提示するための命令をユーザデバイスに送信する
ように動作可能である、システム。
【請求項38】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上のソース集団を決定する
ように動作可能である、請求項37記載のシステム。
【請求項39】
前記1つ以上のソース集団を決定することが、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系染色体と父系染色体との両方にわたって集計することと、
集計に基づいて、前記1つ以上のソース集団に関連する割合を計算することと、
計算された前記割合に基づいて前記1つ以上のソース集団を決定することと
を含む、請求項37または38記載のシステム。
【請求項40】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てを、母系遺伝性グループまたは父系遺伝性グループのうちの1つ以上にパーティショニングする
ように動作可能である、
請求項37記載のシステム。
【請求項41】
パーティショニングが、1つ以上のクラスタリングアルゴリズムに基づいている、請求項40記載のシステム。
【請求項42】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の遺伝的集団および前記1つ以上のソース集団に対する前記1つ以上のローカル割り当てに基づいて、前記第1の動物に関連する1つ以上の遺伝的形質を決定する
ように動作可能である、
請求項37記載のシステム。
【請求項43】
前記1つ以上の遺伝的形質を決定することが、さらに、影響力の大きいバリアントの遺伝子型、ゲノムワイド統計、ゲノム主成分分析(PCA)予測、DNAメチル化プロファイル、またはポリジェニックリスクスコアのうちの1つ以上に基づいている、請求項42記載のシステム。
【請求項44】
前記1つ以上の遺伝的形質が、
成体体重の範囲、
遺伝的疾患のリスク予測もしくは素因、
栄養推奨事項、
行動および気質クラスの予測、
寿命推定、
年単位での全死因死亡率予測、
予測される薬理学的応答、または
注射麻酔薬の時間単位での回復時間範囲
のうちの1つ以上を含む、請求項42または43記載のシステム。
【請求項45】
前記プロセッサが、さらに、命令を実行するときに、
前記参照パネルに追加された1つ以上の新しい参照サンプルに基づいて、前記1つ以上の機械学習アルゴリズムを更新する
ように動作可能である、
請求項37記載のシステム。
【請求項46】
前記更新することが、
前記参照パネルにおける全てのサンプルにわたって交差検証を適用することと、
検出アルゴリズムによる前記交差検証に関連する結果に基づいて、1つ以上の外れ値を同定することと、
同定された前記外れ値を前記参照パネルから除去することと
を含む、請求項45記載のシステム。
【請求項47】
前記更新することが、前記1つ以上の機械学習アルゴリズムの所定の精度レベルに達するまで繰り返し反復される、請求項45または46記載のシステム。
【請求項48】
前記更新することが、
前記参照パネルにおける1つ以上のラベルなしサンプルに対して1つ以上のラベルを生成すること
をさらに含み、
前記更新することは、生成された前記ラベルに基づいている、
請求項45記載のシステム。
【請求項49】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の未処理の遺伝子型に基づいて、1つ以上のコンセンサス遺伝子型を生成し、
前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型に基づいて、前記1つ以上のフェージングされたハプロタイプを生成し、前記生成することは、前記1つ以上の未処理の遺伝子型および前記1つ以上のコンセンサス遺伝子型を母系染色体および父系染色体にフェージングすることを含む
ように動作可能である、
請求項37記載のシステム。
【請求項50】
前記1つ以上の機械学習アルゴリズムが、位置Burrows-Wheeler変換アルゴリズムを含む、
請求項37記載のシステム。
【請求項51】
前記プロセッサが、さらに、命令を実行するときに、
前記1つ以上の機械学習アルゴリズムに基づいて、前記1つ以上の遺伝的集団に対する前記1つ以上のローカル割り当てに関連する1つ以上の誤差を除去する
ように動作可能である、
請求項37記載のシステム。
【請求項52】
前記1つ以上の機械学習アルゴリズムが隠れマルコフモデルを含む、
請求項37記載のシステム。
【国際調査報告】