特表2023-547610 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エイビーエス　グローバル、インコーポレイテッドの特許一覧

特表2023-547610同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3A
3B
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-13

(54)【発明の名称】同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム

(51)【国際特許分類】

C12Q 1/6806 20180101AFI20231106BHJP

C12Q 1/6827 20180101ALI20231106BHJP

C12Q 1/6869 20180101ALI20231106BHJP

C12Q 1/6876 20180101ALI20231106BHJP

C12Q 1/6888 20180101ALI20231106BHJP

C12Q 1/6858 20180101ALI20231106BHJP

C12Q 1/6855 20180101ALI20231106BHJP

【ＦＩ】

C12Q1/6806 Z ZNA

C12Q1/6827 Z

C12Q1/6869 Z

C12Q1/6876 Z

C12Q1/6888 Z

C12Q1/6858 Z

C12Q1/6855 Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023523627

(86)(22)【出願日】2021-10-21

(85)【翻訳文提出日】2023-06-07

(86)【国際出願番号】 US2021056094

(87)【国際公開番号】W WO2022087299

(87)【国際公開日】2022-04-28

(31)【優先権主張番号】63/094,750

(32)【優先日】2020-10-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】519275881

【氏名又は名称】エイビーエスグローバル、インコーポレイテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】デゼリル、ジェニファー

(72)【発明者】

【氏名】キャンベル、マシュー

(72)【発明者】

【氏名】ラウンスレイ、スティーブ

(72)【発明者】

【氏名】リネル、パトリス

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA01

4B063QA13

4B063QQ03

4B063QR08

4B063QR32

4B063QR62

4B063QS25

(57)【要約】

遺伝的同一性を決定し、サンプルの純度を試験し、エラー又は汚染を検出し、汚染の量を計算し、汚染物質の同一性を決定するために、ストローからの精液サンプルを処理するための方法及びシステム。本発明の方法は、約１％、２％の汚染など、低レベルの汚染を検出することができる。

【特許請求の範囲】

【請求項1】

以下を含む、試験サンプルから抽出されたＤＮＡを処理する方法：
ａ．ＳＮＰプライマー対のプールを使用して、試験サンプルから抽出されたＤＮＡをヌクレオチド増幅に付すステップ、
ただし、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、前記ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成する；
ｂ．前記プール中の各アンプリコンについてヌクレオチド配列を生成するために、前記ＳＮＰアンプリコンのプールをシーケンシングに付すステップ；
ｃ．各ＳＮＰについて前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を計算するステップ；
ｄ．ターゲットＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を参照配列と比較するステップ、
ただし、前記ターゲットＳＮＰのサブセットは、ホモ接合性であると予想されるＳＮＰの群である、ステップ；
ただし、
前記ターゲットＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度が前記参照配列中の対応するＳＮＰと完全に一致する場合、前記試験サンプルは前記参照配列のものと同じであり、
前記ＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度が前記参照配列中の対応するＳＮＰと正確に一致しない場合、前記ＳＮＰのサブセット中の各ＳＮＰにおける一致しない対立遺伝子の頻度が計算され、特定のＳＮＰにおける一致しない対立遺伝子の頻度が所定の不一致閾値を上回る場合、前記特定のＳＮＰは汚染ＳＮＰであるとされ、
汚染ＳＮＰの数が所定の汚染ＳＮＰ閾値を上回る場合、前記サンプルは汚染されていると識別される。

【請求項2】

試験サンプルが精子サンプルである、請求項１に記載の方法。

【請求項3】

精子サンプルが、動物の性別を決定するための機械に供されており、生きた精子及び死んだ精子を含む、請求項２に記載の方法。

【請求項4】

方法が多重検定であり、少なくとも２つのサンプルが前記方法に同時に供される、請求項１に記載の方法。

【請求項5】

プライマープールが少なくとも４８個のプライマーセットを含む、請求項１に記載の方法。

【請求項6】

ヌクレオチド増幅がＰＣＲ増幅であり、シーケンシングが次世代シーケンシング（ＮＧＳ）である、請求項１に記載の方法。

【請求項7】

ヌクレオチド増幅ステップが、プライマー対を用いたＰＣＲ増幅と、次世代シーケンシングのためのアダプター配列及びバーコードを付加する後続のＰＣＲ工程とを含む、請求項１に記載の方法。

【請求項8】

各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算し、各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を配列ライブラリーにおける参照配列又は参照配列の群の頻度と比較するための分析システムを使用することをさらに含む、請求項１～７のいずれかに記載の方法。

【請求項9】

ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が、参照配列中のそれらの同じＳＮＰと完全に一致する場合、試験サンプルは少なくとも９８％純粋である、請求項１に記載の方法。

【請求項10】

試験サンプルが１つ以上の汚染ＳＮＰを有する場合、前記試験サンプルは汚染されていると識別される、請求項１に記載の方法。

【請求項11】

１つ又は２つ以上の遺伝的に異なる個体による汚染率を提供する、請求項１に記載の方法。

【請求項12】

サンプルが適切な量の遺伝物質を有することを確実にするために、前記サンプルを分析することをさらに含む、請求項１に記載の方法。

【請求項13】

ＳＮＰのサブセットにおけるＳＮＰの一致しない対立遺伝子の頻度が、０～１の数として計算される、請求項１に記載の方法。

【請求項14】

所定の不一致閾値が、０．５％、１％、２％、又は５％である、請求項１～１３のいずれかに記載の方法。

【請求項15】

サンプルが、ＳＮＰのサブセット内に汚染ＳＮＰである少なくとも５つのＳＮＰを有する場合、前記サンプルが汚染サンプルと見なされる、請求項１に記載の方法。

【請求項16】

ＳＮＰのサブセット中のＳＮＰの少なくとも５％、少なくとも１０％、又は少なくとも１％が汚染ＳＮＰである場合、前記サンプルが汚染サンプルと見なされる、請求項１に記載の方法。

【請求項17】

各ＳＮＰにおける対立遺伝子頻度が、各対立遺伝子を含む読み取りの数を０～．５のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用され、遺伝子型が０、１、２のスケールで呼ばれ、０は参照配列に従ってホモ接合性であり、２はホモ接合性であるが前記参照配列とは反対であり、１はヘテロ接合性であり、前記対立遺伝子頻度が０．２以上である場合、前記遺伝子型は１又はヘテロ接合性であり、前記対立遺伝子頻度が＜．２であり、かつ前記対立遺伝子が前記参照配列と同じである場合、前記遺伝子型は０又はホモ接合性であり、又は前記参照配列と反対である場合、前記遺伝子型は２である、請求項１に記載の方法。

【請求項18】

方法が、汚染の起源を識別することをさらに含む、請求項１に記載の方法。

【請求項19】

試験サンプル中の汚染の起源を決定することが、前記試験サンプルを１つ又は２つ以上の代替参照配列と比較することを含み、前記汚染が前記１つ又は２つ以上の代替参照配列まで追跡され得る、請求項１に記載の方法。

【請求項20】

代替参照配列が、配列ライブラリー、公開データベース又は産業データベースからのものである、請求項１９に記載の方法。

【請求項21】

サンプルが参照配列と一致する場合、前記サンプルが使用又は販売され得ることを示すために前記サンプルを標識することをさらに含む、請求項１に記載の方法。

【請求項22】

サンプルが参照配列と一致する場合、販売又は使用のために前記サンプルを提供することをさらに含む、請求項１に記載の方法。

【請求項23】

サンプルが汚染されていると識別された場合、前記サンプルを使用又は販売することができないことを示すために前記サンプルを標識することをさらに含む、請求項１に記載の方法。

【請求項24】

サンプルが汚染されていると識別された場合、前記サンプルを破壊することをさらに含む、請求項１に記載の方法。

【請求項25】

サンプルの同一性を確認し、前記サンプルの純度を決定し、前記サンプルの汚染を検出し、前記サンプルの汚染の起源を決定することを可能にする、請求項１に記載の方法。

【請求項26】

前記サンプルが分析に十分な遺伝物質を有するかを判定することをさらに含む、請求項１に記載の方法。

【請求項27】

サンプルが、誤って標識されたサンプル又はサンプルスワップである、請求項１に記載の方法。

【請求項28】

以下を含む、試験サンプルから抽出されたＤＮＡにおける遺伝的一致（genetic match）を検出するために処理する方法：
ａ．ＳＮＰプライマー対のプールを使用して、試験サンプルから抽出されたＤＮＡをヌクレオチド増幅に付すステップ、
ただし、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、前記ヌクレオチド増幅が、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成する；
ｂ．前記プール中の各アンプリコンについてヌクレオチド配列を生成するために、前記ＳＮＰアンプリコンのプールをシーケンシングに付すステップ；
ｃ．各ＳＮＰについて前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を計算するステップ；
ｄ．前記ターゲットＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を参照配列と比較するステップ、
ただし、前記ターゲットＳＮＰのサブセットはホモ接合性であると予想されるＳＮＰの群である、ステップ；
ただし、前記ターゲットＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度が前記参照配列中の対応するＳＮＰと完全一致する場合、前記試験サンプルには遺伝的一致（genetic match）がある。

【請求項29】

以下を含む、試験サンプルから抽出されたＤＮＡを汚染を検出するために処理する方法：
ａ．ＳＮＰプライマー対のプールを使用して、試験サンプルから抽出されたＤＮＡをヌクレオチド増幅に付すステップ、
ただし、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、前記ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成する；
ｂ．前記プール中の各アンプリコンについてヌクレオチド配列を生成するために、前記ＳＮＰアンプリコンのプールをシーケンシングに供するステップ；
ｃ．各ＳＮＰについて前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を計算するステップ；
ｄ．前記ターゲットＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を参照配列と比較するステップ、ただし、前記ターゲットＳＮＰのサブセットがホモ接合性であると予想されるＳＮＰの群である、ステップ；
ただし、前記ＳＮＰのサブセット中の各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度が前記参照配列中の対応するＳＮＰと正確に一致しない場合、前記ＳＮＰのサブセット中の各ＳＮＰについて一致しない対立遺伝子の頻度が計算され、特定のＳＮＰにおける前記一致しない対立遺伝子の頻度が所定の不一致閾値を上回る場合、前記特定のＳＮＰは汚染ＳＮＰであるとされ、
前記汚染ＳＮＰの数が所定の汚染ＳＮＰ閾値を上回る場合、前記サンプルは汚染されていると識別される。

【請求項30】

試験サンプルが精子サンプルである、請求項２７又は２８に記載の方法。

【請求項31】

精子サンプルが、動物の性別を決定するための機械に供されており、生きた精子及び死んだ精子を含む、請求項３０に記載の方法。

【請求項32】

方法が多重検定であり、少なくとも２つのサンプルが前記方法に同時に供される、請求項２７又は２８に記載の方法。

【請求項33】

プライマープールが少なくとも４８個のプライマーセットを含む、請求項２７又は２８に記載の方法。

【請求項34】

ヌクレオチド増幅がＰＣＲ増幅であり、シーケンシングが次世代シーケンシング（ＮＧＳ）である、請求項２７又は２８に記載の方法。

【請求項35】

ヌクレオチド増幅ステップが、プライマー対を用いたＰＣＲ増幅と、次世代シーケンシングのためのアダプター配列及びバーコードを付加する後続のＰＣＲ工程とを含む、請求項２７又は２８に記載の方法。

【請求項36】

各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度を計算し、各ＳＮＰにおける前記第１の対立遺伝子及び前記第２の対立遺伝子の頻度を配列ライブラリーにおける参照配列又は参照配列の群の頻度と比較するための分析システムを使用することをさらに含む、請求項２７又は２８に記載の方法。

【請求項37】

ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が、参照配列中のそれらの同じＳＮＰと完全に一致する場合、試験サンプルは少なくとも９８％純粋である、請求項２７又は２８に記載の方法。

【請求項38】

試験サンプルが１つ以上の汚染ＳＮＰを有する場合、前記試験サンプルは汚染されていると識別される、請求項２７又は２８に記載の方法。

【請求項39】

１つ又は２つ以上の遺伝的に異なる個体による汚染率を提供する、請求項２７又は２８に記載の方法。

【請求項40】

方法が、サンプルが適切な量の遺伝物質を有することを確実にするために、前記サンプルを分析することをさらに含む、請求項２７又は２８に記載の方法。

【請求項41】

ＳＮＰのサブセットにおけるＳＮＰの一致しない対立遺伝子の頻度が、０～１の数として計算される、請求項２７又は２８に記載の方法。

【請求項42】

所定の不一致閾値が、０．５％、１％、２％、又は５％である、請求項２７又は２８に記載の方法。

【請求項43】

サンプルが、ＳＮＰのサブセット内に汚染ＳＮＰである少なくとも５つのＳＮＰを有する場合、前記サンプルが汚染サンプルと見なされる、請求項２７又は２８に記載の方法。

【請求項44】

ＳＮＰのサブセット中のＳＮＰの少なくとも５％、少なくとも１０％、又は少なくとも１％が汚染ＳＮＰである場合、前記サンプルが汚染サンプルと見なされる、請求項２７又は２８に記載の方法。

【請求項45】

【請求項46】

汚染の起源を識別することをさらに含む、請求項２７又は２８に記載の方法。

【請求項47】

試験サンプル中の汚染の起源を決定することが、前記試験サンプルを１つ又は２つ以上の代替参照配列と比較することを含み、前記汚染が前記１つ又は２つ以上の代替参照配列まで追跡され得る、請求項２７又は２８に記載の方法。

【請求項48】

代替参照配列が、配列ライブラリー、公開データベース又は産業データベースからのものである、請求項４７に記載の方法。

【請求項49】

サンプルが参照配列と一致する場合、前記サンプルが使用又は販売され得ることを示すために前記サンプルを標識することをさらに含む、請求項２７又は２８に記載の方法。

【請求項50】

サンプルが参照配列と一致する場合、販売又は使用のために前記サンプルを提供することをさらに含む、請求項２７又は２８に記載の方法。

【請求項51】

サンプルが汚染されていると識別された場合、前記サンプルを使用又は販売することができないことを示すために前記サンプルを標識することをさらに含む、請求項２７又は２８に記載の方法。

【請求項52】

サンプルが汚染されていると識別された場合、前記サンプルを破壊することをさらに含む、請求項２７又は２８に記載の方法。

【請求項53】

請求項１～５２のいずれかに記載の方法を実行するためのコンピュータ実装システム。

【請求項54】

請求項１～５２のいずれかに記載の方法におけるステップのうちの１つ又は２つ以上を実行するためのシステム。

【請求項55】

請求項１～５２のいずれかに記載の方法における１つ又は２つ以上のステップの数学的及び／又は統計的演算をコンパイル及び／又は編成及び／又は実行するための分析システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願との相互参照
本出願は、２０２０年１０月２１日に出願された米国仮出願第６３／０９４，７５０号の利益を主張し、その明細書は、参照によりその全体が本明細書に組み込まれる。

【0002】

発明の背景
本発明は、遺伝子サンプルを増幅、シーケンシング及び分析するための方法に関し、より詳細には、サンプルの同一性を検証又は判定するため、その中の遺伝子汚染を検出するため、及び／又はサンプルの誤標識を検出するために、遺伝子サンプル、例えば精子サンプルを処理するための方法及びシステムに関する。

【背景技術】

【0003】

動物の精液ストロー（semen straw）を調製するとき、ストローを誤って標識する、又は望ましくない遺伝物質を誤って導入する可能性がある。例えば、サンプルは、最初に複数のアリコートに分割され、性別選択のための機械に通され、その後に再結合され得る。再結合工程又は他の工程の間に、汚染物質を導入する、又は異なる雄ウシからのサンプルを混合する可能性があり、その結果、誤った雄ウシで子ウシが生まれてしまう。

【0004】

トウモロコシ、大豆、又は他のそのようなサンプルの遺伝子純度を評価するための既存の方法（例えば、現在のマイクロアレイ又はチップアッセイ）は、主に、評価されるサンプルが追加の下流分析に使用可能な十分な純度又は十分に低い汚染レベルであるかどうかを判定することに焦点を合わせている。既存の方法はまた、１系統あたり１つの対立遺伝子を機能的に測定し、サンプル中の所与の系統の存在を識別することしかできない場合がある。本発明を何らかの理論又は機構に限定することを望むものではないが、これらの方法は、サンプルが所望の遺伝物質のセットのみを含むかどうかを決定するには一般に不十分であると考えられる。

【0005】

しかし、驚くべきことに、マルチプレックスシーケンシング法を使用して、１％（又は１％未満）、２％、３％、４％、５％などの低いレベルの汚染など、ストローサンプル中の低レベルの汚染を検出できることが発見された。マルチプレックスシーケンシング法は一般にサンプルが均一であることを要するのに対し、ストローサンプルは死んだ精子、ＵＶ照射精子などを含むため不均一であることを考慮すると、これは驚くべきことであった。

【発明の概要】

【0006】

本発明は、遺伝子サンプル、例えば精子サンプル（例えば、精液ストローからのサンプル）を処理するための方法及びシステムを特徴とする。本発明の方法及びシステムは、サンプルの同一性の検証又は判定を可能にする。例えば、本発明の方法及びシステムは、サンプル中の遺伝的内容物が参照動物と一致することを決定／確認することを可能にする（例えば、１００％の遺伝的一致（genetic match）があるか否かを確認又は判定する）。本発明の方法及びシステムはまた、可能性のある混合物又は汚染を検出するためにサンプルの純度を試験する。特定の実施形態では、本発明の方法及びシステムはまた、（例えば、誤って標識されたサンプルの場合において）汚染物質の同一性又は遺伝物質の起源を決定するための工程を特徴とする。

【0007】

本発明を任意の理論又は機構に限定することを望むものではないが、本発明の方法及びシステムは、容易で迅速で高感度の同一性確認及び／又は汚染の検出を可能にするため有利であると考えられる。多重化は、コストを削減し、均一性を高めるのに役立つ。

【0008】

本発明の方法及びシステムは、試験されたサンプルが遺伝物質の所望のセットのみを含むことを（ある程度まで）決定するのに役立つ。精液ストローの遺伝的純度をそのような程度まで決定することにより、より大きな程度まで、ストローがそれらが主張する精子を含有することを確実にすることが可能であり、したがって高価なエラーを回避する。また、特定の管轄区域は高純度の基準を必要とし、本発明の方法は、特定の精子ストローを確実に販売できるようにするのに役立つことができる。

【0009】

前述のように、遺伝物質のサンプルを調製するとき、サンプルが誤って標識される可能性があり、又は標識が誤って読み取られる可能性がある。さらに、サンプルを分割又は分離し、後でサンプルを再結合するときに混合又は汚染が発生する可能性があり、又は遺伝子型分類のために遺伝子サンプルを処理するときに汚染が発生する可能性がある。本発明の方法及びシステムは、遺伝物質の処理、取り扱い、及び品質管理に関して生じ得る上述の問題に対処するのを助けるために使用することができる。

【0010】

本発明を任意の理論又は機構に限定することを望むものではないが、本発明の方法及びシステムは、シーケンシングデータセットの品質管理を対象とした既存の方法を改善するため有利であり、本発明の方法及びシステムは精液処理の分野において有利であると考えられる。既存の方法は、一般に、シーケンシングデータが適切であるか否かを決定するために、シーケンシングデータにおける汚染又はサンプルの入れ替えをチェックした。本発明は、試験されているサンプルの同一性を確認する（例えば、サンプル中の予想される個体とサンプル中で同定された実際の個体との間に一致があるか否かを判定する）ため、及び遺伝子サンプル（例えば、精液ストロー）内の汚染を識別するための両方のためにシーケンシングランで汚染を識別することができるアプローチを提供し、両方とも既存の方法によって提供されない。

【0011】

簡潔には、試験サンプル、例えば遺伝子サンプル（例えば、試験サンプルから単離又は抽出されたＤＮＡ）は、ＳＮＰプライマー対のプールを使用して増幅（例えば、ＰＣＲ増幅）に供され、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のＳＮＰを含む固有の遺伝子座に隣接する。増幅（例えば、ＰＣＲ増幅）は、各ＳＮＰ対立遺伝子のアンプリコンを生成し、したがってＳＮＰアンプリコンのプールを生成する。方法は、ＳＮＰアンプリコンのプールをシーケンシング（例えば、次世代シーケンシング（ＮＧＳ））に供することをさらに含み、シーケンシングは、ＳＮＰアンプリコンのプール中の各アンプリコンについてヌクレオチド配列を提供する。

【0012】

シーケンシングからの結果は、分析システム、例えば、シーケンシングから得られた情報に対して数学的又は統計的演算をコンパイル及び／又は編成及び／又は実行するためのコンピュータベースのシステムに提供される。例えば、分析システムは、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算してもよい。特定の実施形態において、本システムは、各ＳＮＰの配列及び／又は対立遺伝子頻度を、少なくとも１つの参照配列（例えば、ライブラリー配列、既知の個体、例えば既知の雄牛からの配列など）の対応するＳＮＰと比較する。参照配列（例えば、ライブラリー配列、参照個体からの配列、例えば既知の雄牛など）の対応するＳＮＰのサブセットは、予想される＝ホモ接合ＳＮＰである。特定の実施形態において、上記方法は、参照配列におけるそれぞれの予想されるホモ接合性ＳＮＰに対応する試験サンプルにおけるそれぞれのＳＮＰについて、一致しない対立遺伝子の頻度を計算する工程を含む。いくつかの実施形態において、特定の計算は、それぞれの予想されるホモ接合性ＳＮＰの一致しない対立遺伝子の頻度、及び特定の頻度で一致しない対立遺伝子を有するＳＮＰの数に基づき、１つ又は２つ以上の遺伝的に異なる個体による汚染率の決定を可能にする。分析は、遺伝的一致（genetic match）の検出（例えば、同一性を確認する）、混合物の検出、遺伝子サンプルの同一性の判定、及び／又は汚染物質の起源の決定などに役立つ。

【0013】

本発明の方法及びシステムで言及される遺伝子サンプルは、精子サンプル、例えば雄牛から得られた精子サンプルを含む。しかしながら、本発明は精子サンプルに限定されず、本発明は雄牛から得られたサンプルに限定されない。前述のように、精子サンプルはストローに保存され得る。特定の実施形態では、精子サンプルは、生きた精子及びＵＶ照射に供された精子を含み得る。いくつかの実施形態において、精子サンプルは、生きた精子及び死んだ精子を含む。いくつかの実施形態において、精子サンプルは、動物の性別を判定するための機械に供されている。

【0014】

本発明の方法は、自動化された多重化方法として説明される。しかしながら、本発明は、自動化されたマルチサンプル用途に限定されない。多重検定は当業者に周知であり、少なくとも２つのサンプルが同時に方法に供され、例えば、少なくとも２、少なくとも６、少なくとも１２、少なくとも２４、少なくとも４８、少なくとも９６などのサンプルが同時に方法に供される。

【0015】

本明細書に記載の方法は、サンプルを再試験して結果を確認する追加の工程、例えば、非１００％一致サンプル又は潜在的な混合物として標識されたものを再試験して、自動的に廃棄される代わりに汚染されていること（又はスワップ）を確認することができる工程を特徴とし得る。特定の実施形態では、サンプルは、少なくとも２回試験された後に廃棄され、２回以上が非１００％一致であることが示されている。

【0016】

本発明の方法はまた、量についてサンプルを分析するための工程を特徴とし得る。特定の実施形態では、サンプルが不十分な量を有すると判定された場合、別のサンプルを供給源（例えば、精子ストロー）から得ることができる。

【0017】

本発明はまた、増幅及びシーケンシングからの結果を、ユーザインターフェースを有する統合分析システム（例えば、アプリケーション）に提供することを含む。

【0018】

分析システム（例えば、アプリケーション）は、ユーザインターフェースを介して結果を表示することができる。結果の例には、限定するものではないが、シーケンシングからのＳＮＰ読み取り結果、シーケンシング結果の要約、エラー又は警告などが含まれ得る。例えば、分析システムは、特定の状況で、例えば、分析に不十分な遺伝物質がある場合、汚染の疑いがある場合、遺伝的一致（genetic match）がない場合などに（例えば、ユーザインターフェースを介して）警告を示すようにプログラムされてもよい。ユーザ（例えば、技術者）は、結果を検討し、ユーザインターフェース（例えば、シーケンシングからのＳＮＰ読み取り結果を示す視覚データ）に示される視覚データに基づいて、データの手動の検討及び／又はサンプルの再実行が必要か否かを決定してもよい。

【0019】

本発明は、試験サンプルから抽出されたＤＮＡを処理する方法を提供する。特定の実施形態において、本方法は、試験サンプルから抽出されたＤＮＡをＳＮＰプライマー対のプールを使用してヌクレオチド増幅に供することであって、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成するためにＳＮＰアンプリコンのプールをシーケンシングに供することと、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算することとを含む。各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を比較してもよい。例えば、特定の実施形態では、参照配列に対するターゲットＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度であって、ターゲットＳＮＰのサブセットは、ホモ接合性であると予想されるＳＮＰの群である。ターゲットＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が参照配列中の対応するＳＮＰと完全に一致する場合、試験サンプルは参照配列のものと同じであり、例えば、遺伝的一致（genetic match）がある。ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が参照配列中の対応するＳＮＰと正確に一致しない場合、ＳＮＰのサブセット中のＳＮＰ（例えば、正確に一致しないサブセットのＳＮＰ）について、一致しない対立遺伝子の頻度が計算される。特定のＳＮＰにおける一致しない対立遺伝子の頻度が所定の閾値（例えば、「不一致閾値」）を上回る場合、その特定のＳＮＰは、汚染ＳＮＰであると考えられる（例えば、混合又はエラーの潜在的な表示）。汚染ＳＮＰの数が所定の閾値（例えば、「汚染ＳＮＰ閾値」）を上回る場合、サンプルは汚染されていると識別される（例えば、サンプルは、潜在的な混合物であるか、又は誤差を含むと考えられる）。いくつかの実施形態において、サンプルは、誤って標識されたサンプル又はスワップであると判定される。

【0020】

本発明の方法及びシステムは、サンプルの同一性を確認すること、サンプルの純度を決定すること、サンプル中の汚染を検出すること、サンプル中の汚染の起源を決定すること、及び／又はサンプルが分析に十分な遺伝物質を有するか否かを決定することを可能にする。

【0021】

いくつかの実施形態において、ヌクレオチド増幅方法はＰＣＲ増幅である。いくつかの実施形態において、シーケンシング方法は次世代シーケンシング（ＮＧＳ）である。特定の実施形態において、ヌクレオチド増幅工程は、次世代シーケンシングのためのアダプター配列及びバーコードを付加する工程を含む。

【0022】

特定の実施形態において、本方法は、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算し、各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度を、配列ライブラリーにおける参照配列又は参照配列の群の頻度と比較するための分析システムを使用することをさらに含む。

【0023】

特定の実施形態では、試験サンプルは精子サンプルである。精子サンプルは、動物の性別を決定するための機械に供されていてもよく、生きた精子及び死んだ精子を含む。精子サンプルはＵＶ照射に供されていてもよい。

【0024】

いくつかの実施形態では、ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が、参照配列中のそれらの同じＳＮＰと完全に一致する場合、試験サンプルは少なくとも９８％純粋である。いくつかの実施形態では、ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が、参照配列中のそれらの同じＳＮＰと完全に一致する場合、試験サンプルは少なくとも９９％純粋である。いくつかの実施形態では、ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が、参照配列中のそれらの同じＳＮＰと完全に一致する場合、試験サンプルは少なくとも９９．５％純粋である。

【0025】

いくつかの実施形態では、試験サンプルが１つ以上の汚染ＳＮＰを有する場合、試験サンプルは汚染されていると識別される。いくつかの実施形態では、試験サンプルが２つ以上の汚染ＳＮＰを有する場合、試験サンプルは汚染されていると識別される。いくつかの実施形態では、試験サンプルが３つ以上の汚染ＳＮＰを有する場合、試験サンプルは汚染されていると識別される。

【0026】

この方法は、例えば、少なくとも２つのサンプルが同時にこの方法に供され、少なくとも４８個のサンプルが同時にこの方法に供され、少なくとも９６個のサンプルが同時にこの方法に供されるなど、多重検定として実施され得る。

【0027】

特定の実施形態において、プライマープールは、少なくとも４８個のプライマーセット（例えば、４８個のプライマーセット、４９個のプライマーセット、５０個以上のプライマーセットなど）を含む。特定の実施形態において、プライマープールは、２４個以上のプライマーセット、３０個以上、３６個以上、４０個以上、４２個以上、４５個以上などを含む。

【0028】

本方法は、サンプルが十分な量を有することを確実にするためにサンプルを分析することをさらに含み得る。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて４０個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて３５個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて３０個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて２５個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて２０個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて４５個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール（又はＳＮＰの特定のサブセット）における各ＳＮＰについて５０個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。サンプルが分析に十分なＤＮＡを有していない場合、別のＤＮＡサンプルを得て再試験することができる。

【0029】

特定の実施形態において、ＳＮＰのサブセットにおけるＳＮＰの一致しない対立遺伝子の頻度は、０～１の数として計算される。

【0030】

特定の実施形態では、所定の不一致閾値は０．５％である。特定の実施形態では、所定の不一致閾値は１％である。特定の実施形態では、所定の不一致閾値は２％である。特定の実施形態では、所定の不一致閾値は５％である。特定の実施形態では、所定の不一致閾値は０．５％，１％，２％，又は５％である。

【0031】

特定の実施形態では、サンプルが、ＳＮＰのサブセット内に汚染ＳＮＰである少なくとも５つのＳＮＰを有する場合、サンプルは汚染サンプルと見なされる。特定の実施形態では、ＳＮＰのサブセット中のＳＮＰの少なくとも５％が汚染ＳＮＰである場合、サンプルは汚染サンプルと見なされる。特定の実施形態では、ＳＮＰのサブセット中のＳＮＰの少なくとも１０％が汚染ＳＮＰである場合、サンプルは汚染サンプルと見なされる。特定の実施形態では、ＳＮＰのサブセット中のＳＮＰの少なくとも１５％が汚染ＳＮＰである場合、サンプルは汚染サンプルと見なされる。

【0032】

本方法は、試験サンプル中の汚染の起源を決定する工程をさらに含み得る。試験サンプル中の汚染の起源を決定することは、試験サンプルを１つ又は２つ以上の代替参照配列と比較することを含み得、汚染は１つ又は２つ以上の代替参照配列まで追跡され得る。特定の実施形態において、代替参照配列は、配列ライブラリー、公開データベース及び／又は産業データベースからのものである。

【0033】

特定の実施形態において、各ＳＮＰにおける対立遺伝子頻度は、各対立遺伝子を含む読み取りの数を０～．５のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用される。遺伝子型は０、１、２のスケールで呼ばれ、０は参照配列に従ってホモ接合性であり、２はホモ接合性であるが参照配列とは反対であり、１はヘテロ接合性である。対立遺伝子頻度が０．２以上である場合、遺伝子型は１又はヘテロ接合性であり、対立遺伝子頻度が＜．２であり、対立遺伝子が参照配列と同じである場合、遺伝子型は０又はホモ接合性であり、又は参照配列と反対である場合、遺伝子型は２である。

【0034】

本発明はまた、試験サンプルから抽出されたＤＮＡを処理する方法を提供する。特定の実施形態では、本方法は、試験サンプルから抽出されたＤＮＡを、ＳＮＰプライマー対のプールを使用してＰＣＲ増幅に供することであって、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のＳＮＰを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成させるためにＳＮＰアンプリコンのプールを次世代シーケンシング（ＮＧＳ）に供することであって、各アンプリコンはＳＮＰの第１の対立遺伝子又は第２の対立遺伝子のいずれかであることと、各ＳＮＰについて第１の対立遺伝子及び前記第２の対立遺伝子の対立遺伝子頻度を計算することと、ＳＮＰのサブセット中の各ＳＮＰの第１の対立遺伝子及び第２の対立遺伝子の対立遺伝子頻度を、参照配列中のそれらの同じＳＮＰと比較することであって、ＳＮＰのサブセットはホモ接合性であると予想されるＳＮＰの群であることとを含む。特定の実施形態において、各ＳＮＰの対立遺伝子頻度は、各対立遺伝子を含む読み取りの数を０～．５のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用される。遺伝子型は０、１、２のスケールで呼ばれ、０は参照配列に従ってホモ接合性であり、２はホモ接合性であるが参照配列とは反対であり、１はヘテロ接合性である。対立遺伝子頻度が０．２以上である場合、遺伝子型は１又はヘテロ接合性であり、対立遺伝子頻度が＜．２であり、対立遺伝子が参照配列と同じである場合、遺伝子型は０又はホモ接合性であり、又は参照配列と反対である場合、遺伝子型は２である。特定の実施形態では、ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が参照配列中のそれらの同じＳＮＰと完全に一致する場合、試験サンプルは参照配列のものと同じであり、サンプルは少なくとも９５％純粋である。特定の実施形態では、ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が正確に一致しない場合、一致しない対立遺伝子の頻度が計算され、一致しない対立遺伝子の頻度が所定の不一致閾値を上回る場合、ＳＮＰは汚染ＳＮＰであり、方法は、試験サンプル中の汚染ＳＮＰの数を計算することをさらに含み、汚染ＳＮＰの数が所定の汚染ＳＮＰ閾値を上回る場合、サンプルは汚染を有すると識別される。

【0035】

前述のように、本発明の方法及びシステムは、サンプルの同一性を確認すること、サンプルの純度を決定すること、サンプル中の汚染を検出すること、サンプル中の汚染の起源を決定すること、及び／又はサンプルが分析に十分な遺伝物質を有するか否かを決定することを可能にする。したがって、本発明は、サンプルの同一性を確認する方法、サンプルの純度を決定する方法、サンプルの汚染を検出する方法、サンプル中の汚染の起源を判定する方法、及びサンプルが分析に十分な遺伝物質を有するか否かを決定する方法を提供する。これらの方法は、サンプルを処理する方法、例えば、試験サンプルから抽出されたＤＮＡをＳＮＰプライマー対のプールを使用してヌクレオチド増幅に供すること（各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成する）、プール中の各アンプリコンについてヌクレオチド配列を生成するためにＳＮＰアンプリコンのプールをシーケンシングに供すること、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算することなどに上述の工程を組み込む。

【0036】

一例として、本発明は、試験サンプルから抽出されたＤＮＡにおける遺伝的一致（genetic match）を検出するために処理する方法を提供する。特定の実施形態において、本方法は、試験サンプルから抽出されたＤＮＡをＳＮＰプライマー対のプールを使用してヌクレオチド増幅に供することであって、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成するためにＳＮＰアンプリコンのプールをシーケンシングに供することと、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算することとを含む。各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を比較してもよい。例えば、特定の実施形態では、参照配列に対するターゲットＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度であって、ターゲットＳＮＰのサブセットは、ホモ接合性であると予想されるＳＮＰの群である。ターゲットＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が参照配列中の対応するＳＮＰと完全に一致する場合、試験サンプルは参照配列のものと同じであり、例えば、遺伝的一致（genetic match）がある。

【0037】

別の例として、本発明は、試験サンプルから抽出されたＤＮＡを汚染の可能性を検出するために処理する方法を提供する。特定の実施形態において、本方法は、試験サンプルから抽出されたＤＮＡをＳＮＰプライマー対のプールを使用してヌクレオチド増幅に供することであって、各ＳＮＰプライマー対は、第１の対立遺伝子及び第２の対立遺伝子を定義する単一のターゲットＳＮＰを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、ＳＮＰアンプリコンのプールを生成する各ＳＮＰプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成するためにＳＮＰアンプリコンのプールをシーケンシングに供することと、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算することとを含む。各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を比較してもよい。例えば、特定の実施形態では、参照配列に対するターゲットＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度であって、ターゲットＳＮＰのサブセットは、ホモ接合性であると予想されるＳＮＰの群である。ＳＮＰのサブセット中の各ＳＮＰにおける第１の対立遺伝子及び第２の対立遺伝子の頻度が参照配列中の対応するＳＮＰと正確に一致しない場合、ＳＮＰのサブセット中のＳＮＰ（例えば、正確に一致しないサブセットのＳＮＰ）について、一致しない対立遺伝子の頻度が計算される。特定のＳＮＰにおける一致しない対立遺伝子の頻度が所定の閾値（例えば、「不一致閾値」）を上回る場合、その特定のＳＮＰは汚染ＳＮＰであると見なされ（例えば、混合又はエラーの潜在的な表示）、汚染ＳＮＰの数が所定の閾値（例えば、「汚染ＳＮＰ閾値」）を上回る場合、サンプルは潜在的な汚染を有すると識別される（例えば、サンプルは、潜在的な混合物であるか、又はエラーを含むと考えられる）。

【0038】

本発明はまた、本明細書に開示される方法を実行するためのシステム、例えば、コンピュータ実装システム、分析システムを提供する。例えば、システムは、本明細書に開示される方法の１つ又は２つ以上の工程の数学的及び／又は統計的及び／又は分析的演算を実行するためのプロセッサ（例えば、マイクロプロセッサ）を特徴とし得る。プロセッサ（例えば、マイクロプロセッサ）は、システムの１つ又は２つ以上の他の構成要素、例えば、シーケンシングシステム、ユーザインターフェースなどに動作可能に接続することができる。

【0039】

本発明の方法は、コンピュータ実装方法であってもよい。

【0040】

本明細書に開示される方法に関して、方法は、試験サンプルが由来するサンプル、例えば試験サンプルが由来する精液ストローの販売及び／又は使用に関連する追加の工程をさらに含み得る。特定の実施形態では、方法は、遺伝的一致（genetic match）があるサンプルを「承認する」又は「合格にする」こと、例えばサンプルが使用及び／又は販売され得ることを示すために何らかの方法でサンプルを標識することをさらに含む。特定の実施形態では、方法は、販売及び／又は使用のために承認された（合格した）サンプルを提供することをさらに含む。特定の実施形態では、方法は、サンプルが汚染されている可能性があると考えられる場合、サンプルを再試験することをさらに含む。特定の実施形態では、本方法は、例えば、サンプルが使用及び／又は販売されない可能性があることを示すために何らかの方法でサンプルを標識するなど、汚染物質又はエラーがあるサンプルを「不合格にする」ことをさらに含む。特定の実施形態では、方法は、サンプルが汚染されていると判定された場合、試験サンプルが由来するサンプルを破壊することをさらに含む。

【0041】

本明細書に記載の任意の特徴又は特徴の組合せは、任意のそのような組合せに含まれる特徴が、文脈、本明細書、及び当業者の知識から明らかになるように、相互に矛盾しない限り、本発明の範囲内に含まれる。本発明のさらなる利点及び態様は、以下の詳細な説明及び特許請求の範囲において明らかである。

【0042】

本発明の特徴及び利点は、添付の図面に関連して提示される以下の詳細な説明の考察から明らかになるであろう。

【図面の簡単な説明】

【0043】

【図1A】一連の意図的な混合物からの結果を示す図である。

【0044】

【図1B】ホモ接合性であると予想される一塩基多型（ＳＮＰ）の第２の対立遺伝子の頻度を示す図である。

【0045】

【図1C】第２の雄牛からの特定の汚染画分を有する様々なサンプルについて、バックグラウンドノイズと比較した混合の証拠を示す図である。

【0046】

【図2】汚染雄牛を含む実サンプルにおいてホモ接合性であると予想される特定のＳＮＰの第２の対立遺伝子頻度の一例を示す図である。ＳＮＰには３つのカテゴリーがあり、「０」は第２の対立遺伝子の０コピーを表し、濃い灰色のボックス（番号３７、３０、３４、及び３５）は、第２の対立遺伝子の２つのコピーを表し、残りの番号が付けられたボックス（番号１７、１７、１３、１９、２０、１９、及び１４）は、第２の対立遺伝子の１つのコピーを表す。これは、汚染雄牛を識別するための指紋として機能する。例えば、雄牛２９ＨＯ１７７１８は、その特定の遺伝子型を有する群における唯一の雄牛である。

【0047】

【図3A】本発明の方法に関連するワークフローの概略図である。本発明は、図３Ａのワークフローに限定されない。非１００％一致サンプルは、破壊される前に再試験を受ける可能性があることに留意されたい。

【0048】

【図3B】本発明の方法に関連するワークフローの概略図である。本発明は、図３Ｂのワークフローに限定されない。

【0049】

【図4】本発明の方法に関連するワークフローの概略図であり、シーケンシングデータは、ユーザインターフェースを有する分析システムに統合又は動作可能に接続されたデータベースに記憶される。ユーザインターフェースは、サンプルの検討及び品質管理を可能にする。

【0050】

【図5】仮想ストローサンプル群の出力データの非限定的な例を示す図である。

【発明を実施するための形態】

【0051】

本発明は、遺伝子サンプルを処理し、サンプル（例えば、精液ストロー）の純度を試験するため、例えば、混合又は汚染の疑いを検出するため、サンプルの誤標識（例えば、サンプルスワップ）を検出するため、サンプルの同一性を確認するため、サンプルの同一性（起源）を決定するため、存在する場合には汚染の同一性（起源）を決定するため、などの方法及びシステムを特徴とする。

【0052】

本発明の遺伝子サンプルを処理する方法は、試験サンプル（例えば精子サンプル、例えば精液ストロー由来の精子サンプル）から抽出されたＤＮＡの特定の領域を増幅し、アンプリコンをシーケンシングし、アンプリコンを分析することを特徴とする。

【0053】

サンプルは、抽出されたＤＮＡとしてユーザに提供され得る。あるいは、当業者は、生サンプルの場合、ＤＮＡ抽出の追加の工程がさらなる処理の前に行われ得ることを理解している。

【0054】

アンプリコンの増幅及びシーケンシング
本発明の方法及びシステムを参照すると、遺伝子サンプル（例えば、抽出されたＤＮＡ）は増幅（例えば、ＰＣＲ増幅）に供され、増幅工程から特定のＳＮＰのアンプリコンが生成される。ＤＮＡ増幅の方法は、当業者に周知である。例えば、増幅はＰＣＲ増幅を指し得るが、これに限定されない。各ＳＮＰプライマー対が固有の遺伝子座（ターゲットＳＮＰ）に隣接し、したがって第１の対立遺伝子及び第２の対立遺伝子を定義する、ＳＮＰプライマー対のセットは、増幅中にプライマーとして使用される。

【0055】

特定の実施形態において、プライマープールは、（２４個のターゲットＳＮＰを増幅するための）少なくとも２４個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、（３６個のターゲットＳＮＰを増幅するための）少なくとも３６個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、（４０個のターゲットＳＮＰを増幅するための）少なくとも４０個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、（４８個のターゲットＳＮＰを増幅するための）少なくとも４８個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、４８個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、４９個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、５０個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、２４個～４８個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、４０個～５０個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、４８個～４９個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、５０個～６０個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、５０を超えるプライマーセットを含む。

【0056】

特定の実施形態では、ターゲットＳＮＰの少なくとも１０個がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも１５個がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも２０個がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも２５個がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも３０個がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも３５個がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも１０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも２０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも２５％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも３０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも４０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも５０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも６０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも７０％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰの少なくとも７５％がホモ接合性であると予想される。特定の実施形態では、ターゲットＳＮＰのすべてがホモ接合性であると予想される。

【0057】

本発明の方法で使用されるプライマー対の例を以下の表１（表１－１、１－２、１－３及び１－４）に記載する。本明細書に開示されるプライマーは単なる例として提供され、本発明は本明細書に開示されるプライマー又はＳＮＰに限定されないことを理解されたい。本発明の開示に基づいて、当業者は、他のＳＮＰを選択し、選択したＳＮＰのためのプライマーを設計することができるであろう。同様に、本発明は、雄牛における精子サンプルの試験に限定されない。本発明の方法及びシステムは、他のサンプルタイプ及び他の種（例えば、他の哺乳動物）に適用され得る。

【表1-1】

【表1-2】

【表1-3】

【表1-4】

【0058】

プライマー対は、特定のＳＮＰの増幅を可能にし、ＳＮＰの少なくとも１つのサブセットは、試験サンプルの同一性及び純度を決定するのに役立ち得る。

【0059】

増幅工程から得られたＳＮＰアンプリコンのプールをさらにシーケンシングする。次世代シーケンシング（ＮＧＳ）などであるがこれらに限定されないシーケンシング方法は、当業者に周知である。本方法におけるさらなる工程は、ＮＧＳのためのアダプター配列の付着を含み得る。

【0060】

分析
シーケンシングからの結果は、分析システム、例えばアプリケーション、例えば、シーケンシングから得られた情報に対して数学的又は統計的演算をコンパイル及び／又は編成及び／又は実行するためのコンピュータベースのシステムに提供される。例えば、分析システムは、各ＳＮＰについて第１の対立遺伝子及び第２の対立遺伝子の頻度を計算してもよい。本明細書に記載されるように、分析システムは、各ＳＮＰの配列及び／又は対立遺伝子頻度を、少なくとも１つの参照配列（例えば、ライブラリー配列、既知の個体、例えば既知の雄牛からの配列など）の対応するＳＮＰと比較する。参照配列（例えば、ライブラリー配列、参照個体からの配列、例えば既知の雄牛など）の対応するＳＮＰのサブセットは、ホモ接合ＳＮＰである。特定の実施形態において、上記方法は、参照配列におけるそれぞれの予想されるホモ接合性ＳＮＰに対応する試験サンプルにおけるそれぞれのＳＮＰについて、一致しない対立遺伝子の頻度を計算する工程を含む。いくつかの実施形態において、特定の計算は、それぞれの予想されるホモ接合性ＳＮＰの一致しない対立遺伝子の頻度、及び特定の頻度で一致しない対立遺伝子を有するＳＮＰの数に基づき、１つ又は２つ以上の遺伝的に異なる個体による汚染率の決定を可能にする。分析は、遺伝的一致（genetic match）の検出（例えば、同一性を確認する）、遺伝子サンプルの同一性の判定、潜在的な混合物の検出、及び／又は汚染物質の起源の決定などに役立つ。

【0061】

いくつかの実施形態では、方法及びシステムは、サンプル中のＤＮＡの量をチェックして、適切に分析されるように増幅及びシーケンシングされる十分な遺伝物質があるか否かを判定する工程を特徴とする。適切な分析に十分なＤＮＡがない場合、システムはエラーシグナル、例えば「ＬＯＷ」シグナルを生成し得る。特定の実施形態では、ＤＮＡ抽出が繰り返される。

【0062】

サンプルの量に関して、分析システムは、すべてのターゲットＳＮＰ又はＳＮＰの特定のサブセット（例えば、ホモ接合性であると予想されるＳＮＰのサブセットなど）の頻度を計算することができる。方法及びシステムは、ＳＮＰの所定のサブセット内の各ＳＮＰ（又はシステムが量分析にすべてを使用する場合はすべてのターゲットＳＮＰ）に対して特定の数の読み取りを必要とし得る。例えば、特定の実施形態では、本方法及びシステムは、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも４０個の読み取りを必要とする。特定の実施形態では、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも３５個の読み取りを必要とする。特定の実施形態では、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも３０個の読み取りを必要とする。特定の実施形態では、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも２５個の読み取りを必要とする。特定の実施形態では、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも２０個の読み取りを必要とする。特定の実施形態では、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも４５個の読み取りを必要とする。特定の実施形態では、各ＳＮＰ（又はＳＮＰのサブセット）の少なくとも５０個の読み取りを必要とする。本発明は、前述のＳＮＰ要件に限定されない。

【0063】

特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、５個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、１０個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、１５個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、２０個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、２５個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、３０個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、３５個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、４０個以上のＳＮＰを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、標的ＳＮＰのすべてを含む。特定の実施形態では、量分析に使用されるＳＮＰのサブセットは、ホモ接合であると予想されるＳＮＰのすべてである。

【0064】

定義された基準（例えば、配列ライブラリー、参照配列など）に対するＳＮＰの全体的な組成及びそれらの比は、適用可能であれば、同一性についての試験及び１つ又は２つ以上の遺伝的に異なる個体による汚染の程度の推定を可能にする。

【0065】

分析システムは、各ＳＮＰ（又はホモ接合性であると予想されるＳＮＰのサブセットなどのＳＮＰの少なくとも１つのサブセット）について対立遺伝子の頻度を計算するように構成される。例えば、分析システムは、ホモ接合性であると予想されるターゲットＳＮＰにおける第２の対立遺伝子（一致しない対立遺伝子）の頻度を計算するように構成される。本発明の方法の純度分析部分は、参照遺伝子型に依存し、予想される遺伝子型においてホモ接合性であるべきＳＮＰに焦点を当てている。ＳＮＰがホモ接合性であるべき場合、サンプル中のそのＳＮＰにおける他方の対立遺伝子（第２の対立遺伝子、一致しない対立遺伝子）の検出は予想外であろう（又は少なくとも大量の他の対立遺伝子の検出は予想外である、というのも、あるレベルのノイズがシーケンシングでは典型的であるからである）。したがって、他方の対立遺伝子の頻度は、特定の所定の閾値（例えば、以下に記載されるような、非一致対立遺伝子頻度閾値）未満でなければならない。

【0066】

対立遺伝子頻度は、０～１などの数字としてパーセンテージとして表され得る。例えば、特定の予想されるホモ接合性ＳＮＰについて第２の対立遺伝子が検出されない場合、対立遺伝子頻度は０として表され得る。第２の対立遺伝子の検出は、０～１、例えば０．０３、０．０５、０．１、０．１８、０．３などのスケールを使用する場合、０より大きい（１までの）対立遺伝子頻度をもたらし得る。

【0067】

前述のように、分析システムは、第２の対立遺伝子（又は一致しない対立遺伝子）頻度閾値を使用することができ、所定の閾値及び／又はそれを超える一致しない対立遺伝子の頻度の検出は、ＳＮＰが「汚染」ＳＮＰであることを示す。特定の実施形態において、０より大きい一致しない対立遺伝子の頻度は、汚染ＳＮＰを示す。換言すれば、いくつかの実施形態において、非一致対立遺伝子頻度閾値は、０より大きい任意のものであり得る。特定の実施形態において、非一致対立遺伝子頻度閾値（例えば、ＳＮＰが汚染ＳＮＰであることを示す第２の対立遺伝子の頻度）は、０．００５、又は０．５％である。特定の実施形態において、非一致対立遺伝子頻度閾値（例えば、ＳＮＰが汚染ＳＮＰであることを示す第２の対立遺伝子の頻度）は、０．０１、又は１％である。特定の実施形態において、非一致対立遺伝子頻度閾値（例えば、ＳＮＰが汚染ＳＮＰであることを示す第２の対立遺伝子の頻度）は、０．０２、又は２％である。特定の実施形態において、非一致対立遺伝子頻度閾値（例えば、ＳＮＰが汚染ＳＮＰであることを示す第２の対立遺伝子の頻度）は、０．０３、又は３％である。特定の実施形態において、非一致対立遺伝子頻度閾値（例えば、ＳＮＰが汚染ＳＮＰであることを示す第２の対立遺伝子の頻度）は、０．０４、又は４％である。特定の実施形態において、非一致対立遺伝子頻度閾値（例えば、ＳＮＰが汚染ＳＮＰであることを示す第２の対立遺伝子の頻度）は、０．０５、又は５％である。

【0068】

純度チェックは、一般に、サンプルからのホモ接合体のコールされた（ｃａｌｌｅｄ）遺伝子型を使用して、サンプルを混合物を有すると分類する。例えば、いくつかの実施形態では、クリーンなホモ接合体はａ（ｍａｆ＜０．０２）を有すると予想され、クリーンなヘテロ接合体はａ（ｍａｆ＞０．４）を有すると予想される。混合物は、ａ（０．０２＜ｍａｆ＜０．４）を有するホモ接合体と呼ばれるＳＮＰであり得る。

【0069】

所定の閾値を超える一定数の汚染ＳＮＰの検出は、サンプル中の混合物又は可能性のある混合物（例えば、遺伝的汚染）を示す。例えば、１つ又はそれを超える汚染ＳＮＰの検出は、サンプル中の混合物（例えば、遺伝的汚染）を示す。いくつかの実施形態では、２つ又はそれを超える汚染ＳＮＰは、サンプル中の混合物（例えば、遺伝的汚染）を示す。いくつかの実施形態では、３つ又はそれを超える汚染ＳＮＰは、サンプル中の混合物（例えば、遺伝的汚染）を示す。いくつかの実施形態では、４つ又はそれを超える汚染ＳＮＰは、サンプル中の混合物（例えば、遺伝的汚染）を示す。いくつかの実施形態では、５つ又はそれを超える汚染ＳＮＰは、サンプル中の混合物（例えば、遺伝的汚染）を示す。いくつかの実施形態では、６つ又はそれを超える汚染ＳＮＰは、サンプル中の混合物（例えば、遺伝的汚染）を示す。いくつかの実施形態では、７つ又はそれを超える汚染ＳＮＰは、サンプル中の混合物（例えば、遺伝的汚染）を示す。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも１％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも２％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも３％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも４％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも５％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも１０％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも１５％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも２０％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性ＳＮＰの少なくとも２５％が汚染ＳＮＰとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。

【0070】

特定の実施形態では、純度（又は汚染の量）は、３つの最高頻度ＳＮＰの中央値をとることによって報告される。特定の実施形態では、純度（又は汚染の量）は、４つの最高頻度ＳＮＰの中央値をとることによって報告される。特定の実施形態では、純度（又は汚染の量）は、３つの最高頻度ＳＮＰの中央値をとることによって報告される。特定の実施形態では、純度（又は汚染の量）は、５つの最高頻度ＳＮＰの中央値をとることによって報告される。本発明は、純度又は汚染量を報告する上述の方法に限定されない。

【0071】

特定の実施形態において、汚染されたサンプルは、５％を超える最も高い３つの汚染ＳＮＰの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、１０％を超える最も高い３つの汚染ＳＮＰの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、１５％を超える最も高い３つの汚染ＳＮＰの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、２０％を超える最も高い３つの汚染ＳＮＰの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、２５％を超える最も高い３つの汚染ＳＮＰの中央頻度を有するサンプルである。

【0072】

いくつかの実施形態では、サンプル中の汚染量は１％以下である。いくつかの実施形態では、サンプル中の汚染量は２％以下である。いくつかの実施形態では、サンプル中の汚染量は３％以下である。いくつかの実施形態では、サンプル中の汚染量は４％以下である。いくつかの実施形態では、サンプル中の汚染量は５％以下である。いくつかの実施形態では、サンプル中の汚染量は１～２％以下である。いくつかの実施形態では、サンプル中の汚染量は２～３％以下である。いくつかの実施形態では、サンプル中の汚染量は２～４％以下である。いくつかの実施形態では、サンプル中の汚染量は２～５％以下である。いくつかの実施形態では、サンプル中の汚染量は５～１０％以下である。いくつかの実施形態では、サンプル中の汚染量は２～１５％以下である。いくつかの実施形態では、サンプル中の汚染量は１％以上である。いくつかの実施形態では、サンプル中の汚染量は２％以上である。いくつかの実施形態では、サンプル中の汚染量は３％以上である。いくつかの実施形態では、サンプル中の汚染量は５％以上である。

【0073】

非限定的な例として、特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性ＳＮＰの少なくとも２０％が少なくとも１％の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性ＳＮＰの少なくとも１０％が少なくとも１％の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性ＳＮＰの少なくとも２０％が少なくとも２％の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性ＳＮＰの少なくとも１０％が少なくとも２％の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性ＳＮＰの少なくとも２０％が少なくとも３％の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性ＳＮＰの少なくとも１０％が少なくとも３％の汚染レベルを有さなければならない。

【0074】

前述したように、第２の対立遺伝子頻度（又は一致しない対立遺伝子の頻度）の計算は、サンプルが同一性について試験され、精液が正しい動物に由来するか否かを確認し、それが由来する動物を決定し、サンプルスワップを識別し、汚染の起源を識別することなどを可能にする。

【0075】

同一性の試験に関して、サンプル中の遺伝子型は、ＣｏｕｎｃｉｌｏｎＤａｉｒｙＣａｔｔｌｅＢｒｅｅｄｉｎｇ（ＣＤＣＢ）データベースなどであるがこれに限定されない参照配列と照合することによって決定され得る。サンプルが予想される遺伝子型を有する場合（例えば、予想されるホモ接合性ＳＮＰのすべてが予想される遺伝子型のものと一致する場合）、サンプルは合格し得る。そうでない場合、サンプルは、以前にシーケンシングされた遺伝子型（スタンドイン基準）、例えば、限定されないが、実験室で以前にシーケンシングされたサンプル（以前のＱＣサンプル）、他の産業サンプル、歴史的サンプルなど（例えば、公開データベースであるが、一部の動物は公開データベースにない場合がある）と照合され得る。サンプルがスタンドイン基準として使用される基準シーケンスである場合、サンプルは合格であり得る。サンプルが合格しない場合、サンプルはさらなる分析及び／又は試験に供され得る。

【0076】

本方法及びシステムは、配列ライブラリー中の配列に基づいて混合試験サンプル中の個体の組合せを識別することができる（例えば、動物＃１＋動物＃２、動物＃１＋動物＃２＋動物＃３など）。特定の実施形態では、サンプルは、サンプルスワップ又は誤標識であると判定され得る。

【0077】

本発明は、サンプル中の汚染レベルを計算するために使用される上述のパラメーター又はパラメーターの組合せに限定されない。一般に、定義された基準に対するＳＮＰの全体的な組成及びそれらの比は、１つ又は２つ以上の遺伝的に異なる個体による汚染の程度の推定を可能にする。最終結果は、サンプルがサンプルスワップであるか否か、混合物の割合、汚染の割合、潜在的な汚染物質のリストなど、ミスマッチの数の形をとることができる。他の結果は、各ＳＮＰにおける対立遺伝子頻度を含むことができる。前述のように、汚染されたサンプル又は混合物の識別は、サンプルの再試験をもたらし得る。その後、サンプルは純粋であると決定され得る。純度（例えば、純粋なサンプル、混合サンプル）に関する不正確さは、限定はしないが、シーケンシング方法におけるエラー、サンプル調製中の技術者による汚染などの様々な状況に起因し得る。

【0078】

特定の実施形態では、汚染物質の同一性が決定される。例えば、参照遺伝子型、例えば汚染物質である可能性が高いサンプルの参照遺伝子型に対して検索を行うことができる。いくつかの実施形態では、結果をその日のシーケンシングラン内のすべての配列と比較することによって、汚染物質を同定することができる。

【0079】

前述のように、サンプル中のＳＮＰのＤＮＡ配列は、１つ又は２つ以上の参照配列と比較され得る。特定の実施形態において、参照配列は、配列ライブラリー中の配列である。特定の実施形態において、参照配列は、一群の雄ウシ、例えば、試験される精子サンプルと一致する雄ウシ、試験される精子サンプルと一致しない雄ウシ、ストロー内の精子サンプルの汚染の原因となり得る雄ウシ、特定の群又はコホートにおける雄ウシなどの１つ又は２つ以上の配列である。例えば、参照ライブラリーは、一群の雄ウシからの配列（それぞれが独自のＳＮＰプロファイルを有する）を含み得る。前述のように、参照配列との比較は、サンプルの同一性を確認し、精子サンプルがどの雄牛に属するか、及び／又は、もしあれば、どの雄牛が汚染の起源であるかを識別するのに役立ち得る。

【0080】

図１Ａは、混合されたサンプル又は汚染されたサンプルの結果を示す一連の意図的な混合物を示す。チャート１０２は、０の混合比を示す。チャート１０４は、１の混合比を示す。チャート１０６は、２．５の混合比を示す。チャート１０８は、５の混合比を示す。チャート１１０は、７．５の混合比を示す。チャート１１２は、１０の混合比を示す。チャート１１４は、２５の混合比を示す。チャート１１６は、５０の混合比を示す。図１Ｂにおいて、チャート１２０、１２２、１２４、１２６、１２８、１３０、１３２及び１３４は、それぞれの個体Ｂｒｏｍｌｅｙ、Ｅｐｈｒａｍ、Ｌａｔｅｒａｌ、Ｑｕａｎｔｕｍ、Ｃｈａｍｂｅｒ、Ｈａｒｔｌｅｙ、Ｍａｎｎｉｎｇ及びＴｕｌａｒｅについて、０、１、２．５、２、５、７．５及び１０の混合比でホモ接合性であると予想されるＳＮＰにおける第２の対立遺伝子の頻度を示す。図１Ｃは、第２の雄牛からの特定の汚染画分を有する様々なサンプルについてのバックグラウンドノイズと比較した混合の証拠を示す。

【0081】

図２は、ホモ接合性であると予想される特定のＳＮＰの第２の対立遺伝子頻度の一例を示す。図２の例示的なチャートでは、２番、４番、及び１０番染色体のＳＮＰは、３０％以上で発生する第２の対立遺伝子頻度を有し、２番、３番、５番、８番、１８番、及び２１番染色体は、０％超３０％未満で発生する第２の対立遺伝子頻度を有する。これは、汚染雄牛を識別するための指紋として機能する。例えば、雄牛２９ＨＯ１７７１８は、その特定の遺伝子型を有する群における唯一の雄牛である。

【0082】

図３Ａ、図３Ｂ、及び図４は、本発明の方法及びシステム及びワークフローの概略図を示す。非１００％一致サンプル（又は混合されているか、混合されている可能性があると標識されたサンプル）は、破壊される前に再試験を受ける可能性があることに留意されたい。

【0083】

例１
以下は、本発明の非限定的な例である。例は、決して本発明を限定することを意図するものではないことを理解されたい。等価物又は置換物は、本発明の範囲内である。

【0084】

まず、標準的な方法を用いてＤＮＡ抽出を行う。次いで、ＱｉａｇｅｎＭｕｌｔｉｐｌｅｘＰＣＲＭａｓｔｅｒＭｉｘ（カタログ番号：２０６１４５）及び４８個の結合プライマー対を使用して、多重ＰＣＲを行う。次いで、生成物をビーズ洗浄し、ゲル上で増幅について検証する。第２のＰＣＲを実行して、Ｉｌｌｕｍｉｎａアダプター配列及びバーコードを付加する。次いで、サンプルをプールし、１×７５ｂｐの読み取りを使用してＩｌｌｕｍｉｎａシーケンサーなどの次世代シーケンサー（ＮＧＳ）でシーケンシングする。サンプルを逆多重化し、ｂｃｌ２ｆａｓｔｑによってバーコードによってビニングする。ｆａｓｔｑを、ＢＷＡＭＥＭを使用してＵＭＤ３．１ゲノムにアラインメントする。各ＳＮＰにおける対立遺伝子頻度（ＡＦ）は、各対立遺伝子を含む読み取りの数を０～．５のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子に使用される。遺伝子型（ＧＴ）は、０、１、２のスケールで呼び出され、０はホモ接合参照であり、２はホモ接合交互である。１はヘテロ接合性である。ＡＦが０．２以上である場合、ＧＴは１（ヘテロ接合）である。ＡＦが＜．２であり、観察された対立遺伝子が参照である場合、ＧＴは０であり、そうでない場合、ＧＴは２である。遺伝子型が呼び出されると、観察された遺伝子型をデータベース内の遺伝子型と比較することによって、サンプルの同一性を確認することができる。サンプルがデータベース内の遺伝子型と４未満の不一致で一致しない場合、完全一致について乳牛繁殖データベース協会（ＣＤＣＢ）を調べる。＞９５％の一致を有するヒットが見つかった場合、トップヒットを報告し、サンプルをフルスワップと標識する。汚染を検出するために、ホモ接合性であると予想されるＳＮＰを最初に選択する。汚染が発生した場合、これらのＳＮＰはＡＦ＞０．０２を有すると予想される。これらの予期せぬＡＦについて複数のＳＮＰをチェックすることにより、サンプルが汚染されているか否かを判定することができる。上位３つのＳＮＰを使用して、汚染レベルを推定することができる。図３は、本発明の方法に関連するワークフロー３００の概略図を示す。本発明は、図３のワークフロー３００に限定されない。

【0085】

図３Ｂに提供される例示的なワークフロー３００を参照すると、ステップ３０２は、遺伝子サンプルのためのＤＮＡの抽出を提供する。ステップ３０４では、サンプルの４８個のＳＮＰに対して多重ＰＣＲを行う。ステップ３０６において、ＩｌｌｕｍｉｎａアダプターをＰＣＲによって遺伝子サンプルに付加する。ステップ３０８において、サンプルは、例えば１×７５ｂｐの読み取りを使用して、ＩｌｌｕｍｉｎａシーケンサーなどのＮＧＳ上でシーケンシングされる。ステップ３１０において、ステップ３０８からの読み取りがゲノムにアラインメントされる。ステップ３１２において、各対立遺伝子を支持する読み取りの数がカウントされ、遺伝子サンプルの遺伝子型がコールされる。ステップ３１４において、ステップ３１２の結果、コールされた遺伝子型を既知の遺伝子型と比較することによって、例えば、コールされた遺伝子型を配列ライブラリー又はデータベース内の参照配列と比較することによって、サンプルスワップが識別される。ステップ３１６において、対立遺伝子比を識別することによってサンプル混合物又は汚染物が識別され、混合レベルが決定される。ステップ３１８において、サンプル状態は、少なくともステップ３１４における比較及びステップ３１６における識別に基づいて識別され、サンプル状態は、例えば、クリーン（例えば、汚染、誤標識、又は誤識別の問題がないこと）、混合（例えば、汚染問題）、又はフルスワップ（例えば、誤標識又は誤識別の問題）のうちの１つである。

【0086】

例２
以下は、本発明の非限定的な例である。例は、決して本発明を限定することを意図するものではないことを理解されたい。等価物又は置換物は、本発明の範囲内である。

【0087】

以下の例は、本発明の方法及びシステムの特定の実施形態の概要を説明する。

【0088】

処理及びストローへのパッケージングを受けた収集された精子細胞からＤＮＡを抽出する。以下の方法は、ストロー中のＤＮＡがストローに印刷された雄ウシのＤＮＡであることを確実にするのを助けるために、雄ウシの既知／参照ＤＮＡに対してＤＮＡを分析することを記載する。可能性のある汚染物質は、分析システム（アルゴリズム）による汚染物質の最良推定であり、オプションは１回の実行内で処理されるすべての雄牛である（例えば、特定の実施形態では、真の汚染物質がシーケンシングランに存在しない場合、それは識別されない可能性がある）。また、シーケンシングランは、様々な供給源からのＤＮＡを含むことができ、従来の性別されたＤＮＡを含み得ることにも留意されたい。特定の実施形態において、フルランは、９６ＤＮＡサンプル×６プレートである。しかしながら、本発明はこれらのパラメーターに限定されない。

【0089】

製造ラボから受け取ったＤＮＡを増幅する。増幅方法は、既知の分散領域を含む一組のＳＮＰ、例えば４８～４９個のＳＮＰを増幅する。ＳＮＰの固有のプロファイルは、雄牛に関して既知である。各親動物の遺伝子型も所有され得る。これは、ＳＮＰ、例えば４８～４９個のＳＮＰを含む各動物のプロファイルを含む動物遺伝子型のライブラリーを提供する。

【0090】

各ＳＮＰ位置におけるＤＮＡの読み取りの仕方（例えば、読み取りが何であるかを決定する）を調べる。各ＤＮＡ読み取りをライブラリーと比較する。まず、１００％の一致を識別する試みがある。１００％一致が識別された場合、方法は終了することができる。１００％一致が識別できない場合、システムは、ライブラリー内の既知のプロファイルの組合せを識別しようとする。システムは、サンプルが、例えば、動物＃１＋何か他のもの（別のサンプルからの汚染）を含むか否かを識別することができる。サンプルが、考えられたものではないと判定されてもよく（例えば、「代替」又はサンプルスワップ又は誤標識）、又はサンプルが何らかの汚染物質を含むと判定されてもよい。

【0091】

非１００％一致の推定は、例えば、全ターゲットＳＮＰのうちの１０～２０個のＳＮＰのサブセットに基づいてもよい。システムは、おおよその混合率、例えば＋／－５％を特定することができる。特定の実施形態では、システムは、混合及びサンプルに混合されているものを識別することができる。しかしながら、特定の実施形態では、システムは、混合を識別することができるが、例えば、別の個体が比較に利用できない場合、サンプルに混合されているものを必ずしも識別するわけではない（例えば、汚染物質を識別することが常に可能であるとは限らない場合がある）。

【0092】

シーケンシングデータ、例えばＮＧＳデータは、シーケンサーから内部データベース（例えば、分析システム、例えば、アプリケーション）に送られ得る。データは、アプリユーザインターフェースにおける出力として提供され得る。アプリからのデータは、出力ファイルとしてエクスポートされてもよい。出力ファイルは、実行されたすべてのバッチ及びそれらの順位表を含むことができる。いくつかの実施形態では、各バッチランの同一性が出力ファイルに示され、追加情報のいくつかの列又はカテゴリーを含むことができる。例えば、情報の１つのカテゴリーは同一性であってもよく、「合格」は、同一性が発見され確認された場合である。情報の他のカテゴリーは以下を含み得る。純度；ゲノミクス、この情報は、試験サンプルが混合物であるか否かに関する；量、この情報は、実行及び分析するのに十分なサンプルがあったか否かに関する；回数、この情報は、動物のサンプルが処理された回数に関する（例えば、３２の３２は、動物のサンプルが３２回処理され、毎回正しく戻ってきたことを意味する。１６７の１５５は、動物のサンプルが１５５回処理されたが、１２回はサンプルが混合として戻ってきたことを意味する）。図５は、出力ファイルの仮説的な例を示し、サンプルＥＸ１～ＥＸ３は潜在的な混合としてフラグが付けられ、サンプルＥＸ４～ＥＸ７は一致と示されている。サンプルＥＸ１～ＥＸ３は、エラーの原因を決定するために検討される。サンプルＥＸ４～ＥＸ７はすべての試験に合格し、使用のためにリリースされる。

【0093】

前述のように、量及び純度の閾値を変更することができる。したがって、図５のような出力データは、所定の閾値の関数である。

【0094】

混合として識別されたアイテムの手動の検討は、比較するゲノムデータがなく、サンプルが７％混合されている場合に実行され得る。いくつかの実施形態では、２つのストローが再試験される。同じ割合の汚染及び同じ数の汚染ＳＮＰが検出された場合、サンプルは不合格になる。

【0095】

特定の実施形態では、フルスワップ（例えば、サンプルの誤標識）は、別の雄牛であると適切に識別された場合には合格となり得る。

【0096】

例３
以下は、本発明の非限定的な例である。例は、決して本発明を限定することを意図するものではないことを理解されたい。等価物又は置換物は、本発明の範囲内である。

【0097】

以下の例では、分析システムの概要、例えば分析及び品質管理に使用されるアプリケーションについて説明する。図４は、シーケンサー及び内部データベースと統合された分析システム、ならびに品質管理の概略図を示す。

【0098】

ユーザ（例えば、技術者）は、分析システム（例えば、アプリケーション）のユーザインターフェースにログインすることができる。ユーザは、特定のサンプルを検討するために、例えば、遺伝的一致（genetic match）を確認するため、サンプルが混合物であったか否かを判定するためなどにシステムを使用することができる。

【0099】

分析システムは、特定の問題（例えば、混合の可能性、量の不足、予想される参照動物と１００％一致ではないなど）をユーザに警告する視覚的インジケータを特徴とし得る。

【0100】

バッチはランと呼ばれ、ランはいくつかのプレートからなり、各プレートはいくつかのサンプルを含む。

【0101】

純度又は同一性に関する判定を行うのに十分な配列情報又は十分な読み取りがない場合、失敗が発生する可能性がある。

【0102】

ある場合には、技術者は混合物のリストを調べる。結果は、Ｘ軸が遺伝子座（ＳＮＰ）であるプロットとして示され得る。サンプルが混合されていると、特徴的なパターンが存在する（例えば、図１Ａ、図１Ｂを参照されたい）。特定の実施形態では、個々の雄牛のコンセンサス／既知のＤＮＡと一致するＳＮＰを第１の設計（例えば、塗りつぶされた全円、第１の色など）で標識され得る。個々の雄牛のコンセンサス／既知のＤＮＡと一致しないＳＮＰは、第２の設計（例えば、空白の全円、第２の色など）で標識され得る。比較すべきコンセンサス／既知のＤＮＡを有しないＳＮＰは、第３の設計（例えば、Ｘで標識される、第３の色など）で標識され得る。クリーンサンプルは、汚染又は予想外の結果の指標であるドット（例えば、赤色ドット）を有さない。

【0103】

分析システム、例えばプロットは、サンプルが汚染されている可能性がある場合、方法において閾値外混合物がいつ存在したかを決定することを可能にする。システムは、方法の出力が間違っているときを視覚化するのに役立つ。

【0104】

分析システムは、過去のサンプルとの比較を可能にしてもよい。例えば、ユーザは、最近のランを選択して検討することができる。このシステムは、異常値を容易に見るのに役立つ。システムは、方法における問題を示す可能性がある、特定の数のサンプル（ストロー）にわたって、例えば、ストロー２０個、３０個、４０個、５０個などにわたって発生する混合（例えば、低レベル混合）を識別するのを助けることができる。

【0105】

システムは、合格（例えば、遺伝的一致（genetic match）として特定される）、不合格（例えば、ミスマッチ又は可能性のある混合物として特定される）、及び混合（例えば、混合物と考えられるもの）の閾値を設定することを可能にすることができる。特定の実施形態では、閾値は、グラフ又はプロットの線によって視覚化することができる。

【0106】

前述のように、システムは、汚染又はＤＮＡが少なすぎるなどの問題を示す手段を提供することができる。特定の実施形態では、読み取りカウント及び読み取りパーセンタイルは、シーケンシングがどの程度良好に実行されたかの指標であり、分析システムはデータの信頼性レベルを提供することができる。

【0107】

非限定的な例として、システムは、汚染又は予想外の結果の指標としてプロット上の赤色ドットを使用することができる。図１Ｃは、「混合の証拠」として示されたドットが、評価を必要とする潜在的な問題の指標である例を示す。例えば、ヘテロ接合不合格は、混合物の１つがＳＮＰについて予想されたものと全く異なっていたものであり得る。他の不合格は、プロット又はインターフェースの中央にドット（例えば、赤色ドット）として示され得る。特定の実施形態では、本出願は、層状サンプルデータを比較して、個々の動物の一貫した失敗の領域を見ることを可能にする。

【0108】

本発明の好ましい実施形態を示し説明したが、添付の特許請求の範囲を超えない修正を行うことができることは当業者には容易に明らかであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるべきである。いくつかの実施形態では、この特許出願に提示された図は、角度、寸法の比などを含む縮尺通りに描かれている。いくつかの実施形態では、図は代表的なものにすぎず、特許請求の範囲は図の寸法によって限定されない。いくつかの実施形態では、「含む（ｃｏｍｐｒｉｓｉｎｇ）」という語句を使用して本明細書に記載される発明の説明は、「から本質的になる（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」又は「からなる（ｃｏｎｓｉｓｔｉｎｇｏｆ）」と記載され得る実施形態を含み、したがって、「から本質的になる（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」又は「からなる（ｃｏｎｓｉｓｔｉｎｇｏｆ）」という語句を使用して本発明の１つ又は２つ以上の実施形態を特許請求するための書面による説明要件が満たされる。

【図1A】