IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ リジェネロン・ファーマシューティカルズ・インコーポレイテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-22
(45)【発行日】2025-01-30
(54)【発明の名称】ミトコンドリアDNA品質管理
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20250123BHJP
   C12Q 1/6809 20180101ALI20250123BHJP
【FI】
C12Q1/6869 Z
C12Q1/6809 Z
【請求項の数】 18
(21)【出願番号】P 2023507707
(86)(22)【出願日】2021-08-06
(65)【公表番号】
(43)【公表日】2023-08-30
(86)【国際出願番号】 US2021044874
(87)【国際公開番号】W WO2022032052
(87)【国際公開日】2022-02-10
【審査請求日】2024-08-06
(31)【優先権主張番号】63/062,566
(32)【優先日】2020-08-07
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】597160510
【氏名又は名称】リジェネロン・ファーマシューティカルズ・インコーポレイテッド
【氏名又は名称原語表記】REGENERON PHARMACEUTICALS, INC.
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(74)【代理人】
【識別番号】100152489
【弁理士】
【氏名又は名称】中村 美樹
(72)【発明者】
【氏名】チャン、ルオユー
(72)【発明者】
【氏名】リム、ウェイ キアット
(72)【発明者】
【氏名】アトワル、グリンダ
【審査官】戸来 幸男
(56)【参考文献】
【文献】J. Mol. Diagn.,2019年,vol.21, no.4,pp.593-601
【文献】bioRxiv,2020年07月17日,pp.1-25,doi: https://doi.org/10.1101/2020.05.06.080952
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/68-1/6897
JSTPlus/JMEDPlus/JST7580(JDreamIII)
Google
(57)【特許請求の範囲】
【請求項1】
1つ以上の汚染された生物学的試料を特定する方法であって、前記方法が、
単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)配列決定リードを取得することと、
前記生物学的試料の各々について、前のステップからの前記mtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、
各生物学的試料に一次mtDNAハプログループを割り当てることと、
各生物学的試料について総ヘテロプラスミー数を決定することと、
高ヘテロプラスミー数を有する生物学的試料に二次mtDNAハプログループを割り当てることと、
同じ個体由来の前記生物学的試料の大部分に割り当てられた前記一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料を検出することと、
同じ個体由来の前記生物学的試料の大部分に割り当てられた前記一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料が汚染された生物学的試料であると決定することと、
前記1つ以上の汚染された生物学的試料を廃棄することと、
を含む、方法。
【請求項2】
前記ヘテロプラスミーを特定することは、配列決定カバレッジ、マイナー対立遺伝子頻度、及びマイナー対立遺伝子の存在を決定することを含み、ヘテロプラスミーが存在するのは、i)前記配列決定カバレッジが、≧50である場合、ii)前記マイナー対立遺伝子頻度が、≧1%である場合、及びiii)DNAデータについて、前記マイナー対立遺伝子が各鎖から少なくとも2回観察される場合、またはRNAデータについて、前記マイナー対立遺伝子が少なくとも3回観察される場合である、請求項1に記載の方法。
【請求項3】
前記ホモプラスミーを特定することは、配列決定カバレッジ及び1つ以上の対立遺伝子の存在を決定することを含み、ホモプラスミーが存在するのは、i)前記配列決定カバレッジが、≧10である場合、及びii)特定の核酸部位において1つの対立遺伝子のみが観察され、対応する参照対立遺伝子とは異なるか、または特定の核酸部位において複数の対立遺伝子が観察され、メジャー対立遺伝子が前記対応する参照対立遺伝子とは異なり、前記特定の核酸部位がヘテロプラスミー基準を満たさない場合である、請求項1に記載の方法。
【請求項4】
前記一次mtDNAハプログループを各生物学的試料に割り当てることが、前記ホモプラスミー及び前記ヘテロプラスミーのメジャー対立遺伝子を使用して、各生物学的試料についてのmtDNA配列を構築することを含む、請求項1に記載の方法。
【請求項5】
前記二次mtDNAハプログループを割り当てることが、前記ホモプラスミー及び前記ヘテロプラスミーのマイナー対立遺伝子を使用して二次mtDNA配列を構築することと、前記割り当てられた一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料を、汚染された信頼できない生物学的試料として特定することと、を含む、請求項1に記載の方法。
【請求項6】
前記方法が、前記汚染された生物学的試料中の全てのヘテロプラスミーのヘテロプラスミー頻度の中央値を決定することによって、生物学的試料の汚染レベルを決定することを更に含み、前記ヘテロプラスミー頻度の前記中央値が大きいほど、前記汚染レベルが大きくなる、請求項5に記載の方法。
【請求項7】
前記方法が、ヘテロプラスミー及びホモプラスミーを特定する前に、品質管理及びアダプター配列除去のために前記核酸配列決定アッセイから取得した前記mtDNA配列決定リードを処理して、品質管理されたmtDNA配列決定リードを生成することを更に含む、請求項1に記載の方法。
【請求項8】
前記方法が、
前記品質管理されたmtDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成することと、
前記候補mtDNA配列決定リードをヒト参照ゲノムにマッピングすることと、
i)前記候補mtDNA配列決定リードが、前記ミトコンドリア参照ゲノムに一意にマッピングされているか、または前記ミトコンドリア参照ゲノムに対するミスマッチが、ヒト参照ゲノムに対するものよりも少ない場合、及び
ii)前記候補mtDNA配列決定リードのアライメントミスマッチカウントが5未満である場合に、前記候補mtDNA配列決定リードを保持することと、を更に含む、請求項7に記載の方法。
【請求項9】
前記方法が、選別及び重複除去のために、前記保持された候補mtDNA配列決定リードのマッピング後処理を実行することを更に含む、請求項8に記載の方法。
【請求項10】
前記方法が、前記ヘテロプラスミー及び前記ホモプラスミーを特定する前、及び/または、品質管理及びアダプター配列除去のために前記mtDNA配列決定リードを処理する前に、前記核酸配列決定アッセイから取得した前記mtDNA配列決定リードを所望の深度までダウンサンプリングすることを更に含む、請求項1に記載の方法。
【請求項11】
前記生物学的試料が、血液または組織である、請求項1に記載の方法。
【請求項12】
前記方法が、前記複数の生物学的試料に対して前記核酸配列決定アッセイを実行する前に、前記生物学的試料中の核酸分子を増幅することを更に含む、請求項1に記載の方法。
【請求項13】
前記配列決定アッセイが、次世代配列決定(NGS)を含む、請求項1に記載の方法。
【請求項14】
前記NGSが、全ゲノム配列決定を含む、請求項13に記載の方法。
【請求項15】
前記NGSが、全エクソーム配列決定を含む、請求項13に記載の方法。
【請求項16】
前記NGSが、RNA配列決定を含む、請求項13に記載の方法。
【請求項17】
前記NGSが、亜硫酸水素塩配列決定を含む、請求項13に記載の方法。
【請求項18】
1つ以上の汚染された生物学的試料を特定する方法であって、前記方法が、
単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)生配列決定リードを取得することと、
品質管理及びアダプター配列除去のために前記mtDNA生配列決定リードを処理して、品質管理されたmtDNA配列決定リードを生成することと、
前記品質管理されたmtDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成することと、
前記候補mtDNA配列決定リードをヒト参照ゲノムにマッピングすることと、
i)前記候補mtDNA配列決定リードが、前記ミトコンドリア参照ゲノムに一意にマッピングされているか、または前記ミトコンドリア参照ゲノムに対するミスマッチが、ヒト参照ゲノムに対するものよりも少ない場合、及び
ii)前記候補mtDNA配列決定リードのアライメントミスマッチカウントが5未満である場合に、前記候補mtDNA配列決定リードを保持することと、
選別及び重複除去のために、前記保持された候補mtDNA配列決定リードのマッピング後処理を実行することと、
前記生物学的試料の各々について、前記保持された候補mtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、
各生物学的試料に一次mtDNAハプログループを割り当てることと、
各生物学的試料について総ヘテロプラスミー数を決定することと、
高ヘテロプラスミー数を有する生物学的試料に二次mtDNAハプログループを割り当てることと、
同じ個体由来の前記生物学的試料の大部分に割り当てられた前記一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料を検出することと、
前記割り当てられた一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料が汚染された生物学的試料であると決定することと、
前記1つ以上の汚染された生物学的試料を廃棄することと、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、部分的には、誤標識されているか、または汚染されている可能性がある信頼できない生物学的試料を特定する方法を対象とする。
【背景技術】
【0002】
10年以上にわたり、次世代配列決定(NGS)は、DNAまたはRNA試料の大規模なバッチの配列決定を可能にするため、生物学的及び生物医学的研究の重要な構成要素となっている。NGSは、大規模なコホート遺伝子調査のための全ゲノム及び全エクソーム配列決定、臨床評価における疾患遺伝子発現シグネチャ特定のためのバルクRNA-seq、腫瘍研究/診断における組織生検配列決定、ならびに最近出現したシングルセル配列決定研究などの幅広い用途を有し、多くの異なる課題及び疑問に対する回答及び解決策を提供する。しかしながら、大規模な試料を含む研究では、試料同一性の複雑化は、一般的かつほぼ避けられない課題である。試料特定エラー率の推定値は、実際には0.2%~6%の範囲であり得る(非特許文献1、非特許文献2、非特許文献3、及び、非特許文献4)。エラーは、様々な程度で発生する可能性がある:1)試料間の完全な入れ替え、及び/または2)1つ以上の他の試料による1つの試料の汚染。試料処理中の様々なステップで、試料収集中の試料の誤標識、ピペット操作中の材料の流出、配列決定を実行する際のプールされたライブラリ内でのインデックスの入れ替え、及び他の多くの予期しない状況などのエラーが発生する可能性がある。試料の入れ替え/汚染は、その後、下流分析の品質及び精度を低下させるであろう。例えば、全トランスクリプトーム解析における試料の入れ替えは、誤った発見につながるか、または差次的に発現される遺伝子を検出する能力を喪失させる場合がある。がん研究では、体細胞変異の多くが非常に低い頻度(5%未満)で存在していたことを考えると、それら変異の特定が日常的に使用され、したがって、低レベル(1%~5%)の汚染でさえ、偽陽性の変異コールをもたらす場合がある。それらの理由から、試料の入れ替え及び汚染の正確な検出は、大規模なNGS研究における重要な品質管理ステップである。
【0003】
ミトコンドリアは、ほとんどの真核細胞において不可欠な小器官である。ヒトミトコンドリアDNA(mtDNA)は、ミトコンドリア内に位置する16.5kbの環状DNA分子であり、ミトコンドリア機能にとって不可欠な遺伝子産物をコードする。単一の細胞内には数百~数千のmtDNAコピーがある。mtDNAは母性遺伝であり、組換えはごくわずかである。mtDNAは片親遺伝であり、個体群レベルでの組換えはごくわずかであるため、経時的に獲得された変異により、ヒト個体群がいくつかの別個のmtDNAハプログループに細分化されている。平均して、2名のランダムな個体は、ミトコンドリアゲノムに30~40ヌクレオチドの差異を有するであろう(非特許文献5、非特許文献6、及び、非特許文献7)。そのマルチコピー性質のために、mtDNA変異は、細胞のmtDNAのごく一部にしか存在しない場合が多い(ヘテロプラスミーと呼ばれる状態)。変異を担持するmtDNAのパーセンテージは、ヘテロプラスミー頻度と呼ばれる。対照的に、全てのmtDNA分子において変異が見出される場合、この変異は、ホモプラスミーと呼ばれる。以前の研究では、一般的に健康な個体群では、ほとんどの個体がミトコンドリアゲノム中に5個未満のヘテロプラスミー(頻度>1~2%)を保有することが実証された(非特許文献8及び非特許文献9)。試料のバッチの場合、同じ個体から収集された試料は全て、同じハプログループに属する必要がある。
【先行技術文献】
【非特許文献】
【0004】
【文献】Pfeifer et al.,Amer.J.Clin.Pathol.,2013,139,93-100
【文献】Costello et al.,BMC Genomics,2018,19,332
【文献】Lerner et al.,Cancer Res.,2015,75,Abstract P5-02-08
【文献】Sehn et al.,Amer.J.Clin.Pathol.,2015.144,667-674
【文献】Gunnarsdottir et al.,Nature Commun.,2011,2,228
【文献】Slatkin et al.,Genetics,1991,129,555-562
【文献】Ye et al.,Proc.Nat’l Acad.Sci.USA,2014,111,E4548-E4550
【文献】Zhang et al.,BMC Genomics,2017,18,890
【文献】Ye et al.,Proc.Nat’l Acad.Sci.USA,2014,111,10654-10659
【発明の概要】
【課題を解決するための手段】
【0005】
本開示は、信頼できない生物学的試料を特定する方法であって、当該方法が、a)単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)配列決定リードを取得することと、b)生物学的試料の各々について、前のステップからのmtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、c)各生物学的試料に一次mtDNAハプログループを割り当てることであって、同じ個体由来の生物学的試料の大部分に割り当てられた一次mtDNAハプログループとは異なる割り当てられた一次mtDNAハプログループを有する任意の生物学的試料が、誤標識された生物学的試料である信頼できない生物学的試料である、割り当てることと、を含む、方法を提供する。
【0006】
本開示はまた、信頼できない生物学的試料を特定する方法であって、当該方法が、a)単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)生配列決定リードを取得することと、b)生物学的試料の各々について、前のステップからのmtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、c)各生物学的試料に一次mtDNAハプログループを割り当てることと、d)各生物学的試料について総ヘテロプラスミー数を決定することであって、生物学的試料のヘテロプラスミー数が高い場合、ヘテロプラスミー部位におけるマイナー対立遺伝子に基づいて、生物学的試料に二次mtDNAハプログループが割り当てられ、割り当てられた一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料が、汚染された信頼できない試料である、決定することと、を含む、方法を提供する。
【0007】
本開示はまた、信頼できない生物学的試料を特定する方法であって、当該方法が、a)単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)生配列決定リードを取得することと、b)品質管理及びアダプター配列除去のためにmtDNA生配列決定リードを処理して、品質管理されたmtDNA配列決定リードを生成することと、c)品質管理されたmtDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成することと、d)i)候補mtDNA配列決定リードが、ミトコンドリア参照ゲノムに一意にマッピングされているか、またはミトコンドリア参照ゲノムに対するミスマッチが、ヒト参照ゲノムに対するものよりも少ない場合、及びii)候補mtDNA配列決定リードのアライメントミスマッチカウントが5未満である場合に、候補mtDNA配列決定リードをヒト参照ゲノムに再マッピングし、候補mtDNA配列決定リードを保持することと、e)選別及び重複除去のために、保持された候補mtDNA配列決定リードのマッピング後処理を実行することと、f)生物学的試料の各々について、保持された候補mtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、g)各生物学的試料に一次mtDNAハプログループを割り当てることであって、同じ個体由来の生物学的試料の大部分に割り当てられた一次mtDNAハプログループとは異なる割り当てられた一次mtDNAハプログループを有する任意の生物学的試料が、誤標識された生物学的試料である信頼できない生物学的試料である、割り当てることと、を含む、方法を提供する。
【0008】
本開示はまた、信頼できない生物学的試料を特定する方法であって、当該方法が、a)単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)生配列決定リードを取得することと、b)品質管理及びアダプター配列除去のためにmtDNA生配列決定リードを処理して、品質管理されたmtDNA配列決定リードを生成することと、c)品質管理されたmtDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成することと、d)i)候補mtDNA配列決定リードが、ミトコンドリア参照ゲノムに一意にマッピングされているか、またはミトコンドリア参照ゲノムに対するミスマッチが、ヒト参照ゲノムに対するものよりも少ない場合、及びii)候補mtDNA配列決定リードのアライメントミスマッチカウントが5未満である場合に、候補mtDNA配列決定リードをヒト参照ゲノムに再マッピングし、候補mtDNA配列決定リードを保持することと、e)選別及び重複除去のために、保持された候補mtDNA配列決定リードのマッピング後処理を実行することと、f)生物学的試料の各々について、保持された候補mtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、g)各生物学的試料に一次mtDNAハプログループを割り当てることと、h)各生物学的試料について総ヘテロプラスミー数を決定することであって、生物学的試料のヘテロプラスミー数が高い場合、生物学的試料に二次mtDNAハプログループが割り当てられ、割り当てられた一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料が、汚染された信頼できない試料である、決定することと、を含む、方法を提供する。
【0009】
本特許ファイルまたは出願ファイルは、カラーで作成した少なくとも1つの図面を含有する。カラー図面(複数可)付きの本特許または本特許出願公開の写しは請求及び必要手数料の支払いに応じて米国特許庁より提供される。
【図面の簡単な説明】
【0010】
図1】本明細書に記載の品質管理分析を実施するための好適なステップを示す代表的な概略図を示す。ボックス1では、mtDNAホモプラスミー及びヘテロプラスミーを、fastqファイルから特定する。任意選択的なダウンサンプリングステップは、高いmtDNAカバレッジを有する試料に適用することができる。リードのQC後、2段階のマッピング戦略によってmtDNAリードを選択する。mtDNAマッピング結果からmtDNAバリアントを特定し、バリアント情報に基づいて、一次及び二次mtDNAハプログループを各試料に割り当てる。ボックス2では、所与の個体由来の試料のハプログループ割り当てを比較することによって、試料の入れ替え/誤標識を検出することができる。ボックス3では、試料汚染は、異常な高いmtDNAヘテロプラスミー数及びマッチしていない一次及び二次ハプログループによって検出できる。
図2A】仮想汚染試料に対する本明細書に記載の方法の性能を示す。仮想汚染試料は、1000人ゲノムプロジェクト(1000 Genomes Project)からの2つの試料を異なる比率で混合することによって作成した。X軸は理論的汚染レベルを示し、Y軸は各仮想汚染試料から特定されるヘテロプラスミー頻度を示す。各色のドットは、1つのヘテロプラスミーを表し、黒色のドットは、試料中のヘテロプラスミー頻度の平均を表し、エラーバーは、頻度の標準誤差を表す。頻度の平均は、理論的汚染レベルと有意に相関している(ピアソン相関=0.996781、P値=6.212e-09)。
図2B】仮想汚染試料に対する本明細書に記載の方法の性能を示す。仮想汚染試料は、1000人ゲノムプロジェクト(1000 Genomes Project)からの2つの試料を異なる比率で混合することによって作成した。X軸は理論的汚染レベルを示し、Y軸は各仮想汚染試料から特定されるヘテロプラスミー頻度を示す。各色のドットは、1つのヘテロプラスミーを表し、黒色のドットは、試料中のヘテロプラスミー頻度の平均を表し、エラーバーは、頻度の標準誤差を表す。頻度の平均は、理論的汚染レベルと有意に相関している(ピアソン相関=0.996781、P値=6.212e-09)。
図3】仮想汚染試料における汚染の検出の結果を示す。
図4-1】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図4-2】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図4-3】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図4-4】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図4-5】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図4-6】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図4-7】RNA-seqデータ1における試料の入れ替え及び汚染の検出からの結果を示す。
図5-1】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-2】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-3】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-4】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-5】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-6】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-7】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
図5-8】RNA-seqデータ2における試料の入れ替え及び汚染の検出からの結果を示す。
【発明を実施するための形態】
【0011】
本明細書では、mtDNA配列情報を活用して、NGSデータ中の潜在的な試料の誤標識及び汚染を検出するための方法を提示する。mtDNA多型及び変異は、特定の生物学的試料の同一性を推定するために使用でき、試料の誤標識の指標として機能し得る。加えて、生物学的試料が別の生物学的試料からのDNA/RNAによって汚染される場合、異常なmtDNA変異パターンが明らかにされ、これは、汚染物質を特定し、更に定量化するのを助けることができる。核DNA変異に基づくアプローチと比較して、本明細書に記載の方法は、低カバレッジの配列決定データにおいても、より高い感度を可能にする。
【0012】
本明細書に記載の方法は、十分なmtDNAリードを含む任意のNGSデータを入力として取得し、データからmtDNAバリアント(ヘテロプラスミー及びホモプラスミー)を特定し、バリアント情報を使用して各試料にハプログループを割り当てて、潜在的な試料の入れ替えまたは誤標識を検出することができる。試料のヘテロプラスミー情報を評価することによって、本明細書に記載の方法は、個体間の汚染を更に検出することができる。
【0013】
本明細書に使用される用語は、特定の実施形態を説明する目的のみであり、制限するように意図するものではない。
ヒトは、野生型(または参照)mtDNA分子を有し、変異体mtDNA分子を有し得る。ヒトが変異体mtDNA分子を有しない場合、そのようなヒトは、ホモプラスミー野生型(またはホモプラスミー参照)であると考えられる。ヒトが野生型mtDNA分子を有しない(すなわち、変異体mtDNAしか有しない)場合、そのようなヒトは、ホモプラスミー変異体であると考えられる。したがって、ホモプラスミーは、変異体mtDNAの全てのコピーを有しているか、または全く有していないことの尺度である。
【0014】
ヒトが野生型mtDNA分子と変異体mtDNA分子の混合物を有する場合、ヒトは、ヘテロプラスミーを有すると考えられる。変異型コピーの割合は、本明細書では「ヘテロプラスミー頻度」と呼ばれる。例えば、ヒトがmtDNA分子の8つのコピーを有し、遺伝子Aに特定の変異を有する8つのmtDNA分子の単一のコピーを有すると仮定すると、そのようなヒトのヘテロプラスミー頻度は、12.5%(すなわち、1/8)であると考えられる。ヘテロプラスミーは、特定の個体のmtDNAゲノム内の各変異について決定することができる。したがって、(野生型mtDNAと比較して)2つのmtDNA変異を有する個体は、2つのヘテロプラスミーを有することができる。各ヘテロプラスミーは、それ自体のヘテロプラスミー頻度に関連している。
【0015】
本開示は、信頼できない生物学的試料を特定する方法を提供する。本方法は、単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてミトコンドリアDNA(mtDNA)配列決定リードを取得することを含む。本方法はまた、生物学的試料の各々について、mtDNA配列決定リードにおける1つ以上のヘテロプラスミー及びホモプラスミーの存在を特定することを含む。本方法はまた、各生物学的試料に一次mtDNAハプログループを割り当てることを含む。同じ個体由来の生物学的試料の大部分に割り当てられた一次mtDNAハプログループとは異なる割り当てられた一次mtDNAハプログループを有する生物学的試料は、信頼できない生物学的試料である。そのような信頼できない生物学的試料は、例えば、別の生物学的試料と誤標識されているか、または入れ替えられている可能性がある。
【0016】
核酸配列決定アッセイは、任意の核酸配列決定プロトコルである。いくつかの実施形態では、配列決定アッセイは、次世代配列決定(NGS)を含む。いくつかの実施形態では、NGSは、全ゲノム配列決定を含む。いくつかの実施形態では、NGSは、全エクソーム配列決定を含む。いくつかの実施形態では、NGSは、RNA配列決定を含む。いくつかの実施形態では、NGSは、亜硫酸水素塩配列決定を含む。
【0017】
核酸配列決定アッセイは、単一の個体から取得した複数の生物学的試料の各生物学的試料に対して実行される。いくつかの実施形態では、複数の生物学的試料は、わずか2個~数千個の試料であり得る。いくつかの実施形態では、複数の生物学的試料は、わずか2個~数百個の試料であり得る。いくつかの実施形態では、複数の生物学的試料を、1つ以上の臨床研究から取得する。いくつかの実施形態では、単一個体の複数の生物学的試料は、別の個体由来の複数の生物学的試料と混合またはバッチされてもよい。各生物学的試料についてのmtDNA配列決定リードを取得する。
【0018】
生物学的試料の各々についてのmtDNA配列決定リードにおける1つ以上のヘテロプラスミー及びホモプラスミーの存在を決定する。したがって、mtDNA配列決定リードにおいて特定された各変異について、ヘテロプラスミー及びホモプラスミー分析を実行する。全てのヘテロプラスミーの合計は、特定の生物学的試料についての総ヘテロプラスミー数によって表される。各mtDNA変異部位についてのmtDNA配列決定リード情報をコンパイルして、各単一の部位におけるマッピングされたリードの配列決定情報の要約を提供する。いくつかの実施形態では、コンパイルすることは、例えば、samtools mpileup関数(Li et al.,Bioinformatics,2009,25,2078-2079)を使用して実施できる。各mtDNA変異部位についてのmtDNA配列決定リード情報を、配列品質によってフィルタリングして、例えば、配列決定エラーを低減するために、配列決定品質が低い配列決定塩基を除去する。いくつかの実施形態では、配列品質スコア(Q)を決定する。これは、配列決定エラー確率に対数的に関連する特性である(Q=-10log10(P)(式中、Pは、配列決定エラー確率である))。いくつかの実施形態では、配列品質Qは、≧20である。Qが20の場合、配列決定エラー確率は、1%である。
【0019】
いくつかの実施形態では、ヘテロプラスミーは、配列カバレッジ、マイナー対立遺伝子の存在、及びマイナー対立遺伝子頻度を決定することによって特定される。配列決定カバレッジは、既知のmtDNA参照塩基にアライメントするリードの数を表す。いくつかの実施形態では、配列決定カバレッジは、≧50である。配列決定カバレッジは、Q<20である塩基を除いて、mpileupによって生成される。いくつかの実施形態では、マイナー対立遺伝子頻度は、DNA配列決定データについては≧1%であり、RNA配列決定データについては≧5%である。いくつかの実施形態では、マイナー対立遺伝子が各DNA鎖から少なくとも2回観察されるか、またはRNAについてマイナー対立遺伝子が少なくとも3回観察される。例えば、以下のmtDNA配列決定リードが取得され得る(第1の配列は参照配列である)。
【0020】
【化1】
【0021】
【化2】
【0022】
この候補mtDNAヘテロプラスミー部位についてのヘテロプラスミー頻度は、25%(2/8)である。この特定の分析では、配列決定品質は>20であり、配列決定カバレッジは>50である。マイナー対立遺伝子は、DNAの両方の鎖において観察される。したがって、この特定の変異部位(すなわち、候補mtDNAヘテロプラスミー部位)は、mtDNAヘテロプラスミーである。
【0023】
いくつかの実施形態では、ホモプラスミーは、配列決定カバレッジ及び1つ以上の対立遺伝子の存在を決定することによって特定される。ホモプラスミーが存在するのは、i)配列カバレッジが≧10である場合、及びii)特定の核酸変異部位で1つの対立遺伝子のみが観察され、対応する参照対立遺伝子とは異なるか、または特定の核酸変異部位において複数の対立遺伝子が観察され、メジャー対立遺伝子が対応する参照対立遺伝子とは異なり、特定の核酸部位がヘテロプラスミーではなく、ヘテロプラスミー特定基準を満たさない場合である。
【0024】
いくつかの実施形態では、一次mtDNAハプログループを各生物学的試料に割り当てることは、各生物学的試料についてのmtDNA配列を構築することを含む。いくつかの実施形態では、各生物学的試料についてのmtDNA配列は、ホモプラスミー及びヘテロプラスミーのメジャー対立遺伝子を使用して構築する。いくつかの実施形態では、HaploGrep2を使用して、構築されたmtDNA配列に基づいて、一次mtDNAハプログループを割り当てる(Weissensteiner et al.,Nuc.Acids Res.,2016,44,W58-W63)。HaploGrep2は、Phylotreeにおける位置ごとの変異発生に対応する事前に計算された系統発生的重みに基づいてハプログループが分類されるアルゴリズムである。一次mtDNAハプログループを割り当てるための同様のツールとしては、mthap(ワールドワイドウェブ「dna.jameslick.com/mthap/」)及びhaplofind(ワールドワイドウェブ「haplofind.unibo.it/」)が挙げられる。
【0025】
同じ個体由来の生物学的試料の大部分に割り当てられた一次mtDNAハプログループとは異なる割り当てられた一次mtDNAハプログループを有する生物学的試料は、信頼できない生物学的試料である。いくつかの実施形態では、信頼できない生物学的試料は、誤標識されている。いくつかの実施形態では、信頼できない生物学的試料は、別の生物学的試料と入れ替えられている。いくつかの実施形態では、1つ以上の誤標識された試料は、正しく再標識される。いくつかの実施形態では、1つ以上の誤標識された試料は、廃棄される。
【0026】
いくつかの実施形態では、本方法は、各生物学的試料についてヘテロプラスミー数を決定することを更に含む。いくつかの実施形態では、ヘテロプラスミー頻度は、各生物学的試料についてのmtDNA配列において特定された各変異について決定される。生物学的試料のヘテロプラスミー数が高い場合、生物学的試料に、二次mtDNAハプログループが割り当てられる。いくつかの実施形態では、高いヘテロプラスミー数を有するための閾値は、≧10個のヘテロプラスミーである。
【0027】
いくつかの実施形態では、二次mtDNAハプログループを割り当てることは、ホモプラスミー及びヘテロプラスミーのマイナー対立遺伝子を使用して二次mtDNA配列を構築することを含む。割り当てられた一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料は、汚染された信頼できない試料である。一次ハプログループの選択肢は、二次ハプログループの選択肢と同一である。
【0028】
いくつかの実施形態では、本方法は、生物学的試料の汚染レベルを決定することを更に含む。いくつかの実施形態では、汚染レベルは、汚染された試料中の全てのヘテロプラスミーのヘテロプラスミー頻度の中央値を決定することによって示される。ヘテロプラスミー頻度の中央値が大きいほど、汚染レベルは大きくなる。実際の汚染パーセントとヘテロプラスミー頻度の中央値/平均との間には強い相関がある。例えば、ヘテロプラスミー頻度の中央値が6%である場合、汚染レベルも約6%である。
【0029】
いくつかの実施形態では、本方法は、ヘテロプラスミー及びホモプラスミーを特定する前に、品質管理及びアダプター配列除去のために核酸配列決定アッセイから取得したmtDNA配列決定リードを処理することを更に含む。このような実施形態では、核酸配列決定アッセイから取得したmtDNA配列決定リードが、mtDNA生配列決定リードである。mtDNA生配列決定リードの処理を実施する際に、品質管理されたmtDNA配列決定リードが生成される。いくつかの実施形態では、品質管理及びアダプター配列除去のための核酸配列決定アッセイから取得したmtDNA配列決定リードの処理は、「Trimmomatic」(Bolger et al.,Bioinformatics,2014,30,2114-2120)を使用することによって実施できる。この処理ステップは、後続のmtDNAバリアント特定の精度を改善する。処理に使用できるもう1つのツールは、cutadptである(ワールドワイドウェブ「cutadapt.readthedocs.io/en/stable/」)。
【0030】
いくつかの実施形態では、本方法は、ヘテロプラスミー及びホモプラスミーを特定する前に、2段階のマッピングプロセスを更に含む。いくつかの実施形態では、核酸配列決定アッセイから取得したmtDNA配列決定リードは、2段階のマッピングプロセスにおいて使用することができる。いくつかの実施形態では、品質管理及びアダプター配列除去プロセスから取得した品質制御されたmtDNA配列決定リードは、2段階のマッピングプロセスにおいて使用することができる。これらの実施形態では、(核酸配列決定アッセイから取得した)mtDNA配列決定リードまたは(品質管理及びアダプター配列除去プロセスから取得した)品質管理されたmtDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成する。いくつかの実施形態では、ミトコンドリア参照ゲノムは、ミトコンドリアゲノムについての改訂ケンブリッジ参照配列(Cambridge Reference Sequence、rCRS)である。いくつかの実施形態では、マッピングステップは、「bowtie2」(Langmead et al.,Nature Methods,2012,9,357-359)またはbwaを使用して実施できる。第1のマッピングステップから取得した候補mtDNA配列決定リードを、ヒト参照ゲノム全体に再マッピングする。いくつかの実施形態では、ヒト参照ゲノムは、核ゲノムについてはGRCh38である。更に、GRCh37も使用できる。いくつかの実施形態では、マッピングステップは、「bowtie2」を使用して実施できる。
【0031】
2段階のマッピングプロセスを実施すると、候補mtDNA配列決定リードが、2つの状況下で保持される:1)候補mtDNA配列決定リードがミトコンドリア参照ゲノムに一意にマッピングされているか、またはミトコンドリア参照ゲノムに対するミスマッチがヒト参照ゲノムに対するものよりも少ない場合に、候補mtDNA配列決定リードが保持される、及び2)候補mtDNA配列決定リードのアライメントミスマッチカウントが5個未満のミスマッチ塩基である場合に、候補mtDNA配列決定リードが保持される。
【0032】
いくつかの実施形態では、本方法は、選別及び重複除去のために、(核酸配列決定アッセイから取得した)mtDNA配列決定リードを処理することを更に含む。いくつかの実施形態では、本方法は、選別及び重複除去のために、(品質管理及びアダプター配列除去プロセスから取得した)品質管理されたmtDNA配列決定リードを処理することを更に含む。いくつかの実施形態では、本方法は、選別及び重複除去のために、保持された候補mtDNA配列決定リードのマッピング後処理を実行することを更に含む。いくつかの実施形態では、選別及び重複除去のための処理は、「samtoolsツールキット」(Li et al.,Bioinformatics,2009,25,2078-2079)を使用することによって実施できる。これらの処理ステップは、標準的な次世代配列決定(NGS)データ処理ステップである。GATKツールキットも使用できる。
【0033】
いくつかの実施形態では、本方法は、ヘテロプラスミー及びホモプラスミーを特定する前に、核酸配列決定アッセイから取得したmtDNA配列決定リードを所望の深度までダウンサンプリングすることを更に含む。いくつかの実施形態では、本方法は、品質管理及びアダプター配列除去のためにmtDNA生配列決定リードを処理する前に、核酸配列決定アッセイから取得したmtDNA配列決定リードを所望の深度までダウンサンプリングすることを更に含む。いくつかの実施形態では、全トランスクリプトームデータセットからのmtDNA生配列決定リードを、1000万リードまでダウンサンプリングすることができる。いくつかの実施形態では、ダウンサンプリングは、「seqtk」(ワールドワイドウェブ「github.com/lh3/seqtk」)を使用することによって実施できる。RNA seqデータのmtDNA含有量は、通常、非常に高い。したがって、mtDNAカバレッジが大きいほど、計算時間が長くなるため、本明細書に記載の方法論を実行するのに全ての配列が必要とされるわけではない。いくつかの実施形態では、所望の深度は、約1000であるが、約200と低い可能性がある。使用できる追加のツールとしては、FASTQ-SAMPLE(ワールドワイドウェブ「homes.cs.washington.edu/~dcjones/fastq-tools/fastq-sample.html」)などがある。
【0034】
いくつかの実施形態では、本明細書に記載の方法は、複数の試料に対して核酸配列決定アッセイを実行する前に、個体から複数の生物学的試料を取得することを更に含む。いくつかの実施形態では、生物学的試料は、血液、組織、または腫瘍生検である。いくつかの実施形態では、本明細書に記載の方法は、複数の試料に対して核酸配列決定アッセイを実行する前に、生物学的試料中の核酸分子を増幅することを更に含む。
【0035】
本開示はまた、信頼できない生物学的試料を特定する方法であって、当該方法が、a)単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてDNA生配列決定リードを取得することと、b)品質管理及びアダプター配列除去のためにDNA生配列決定リードを処理して、品質管理されたDNA配列決定リードを生成することと、c)品質管理されたDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成することと、d)i)候補mtDNA配列決定リードが、ミトコンドリア参照ゲノムに一意にマッピングされているか、またはミトコンドリア参照ゲノムに対するミスマッチが、ヒト参照ゲノムに対するものよりも少ない場合、及びii)候補mtDNA配列決定リードのアライメントミスマッチカウントが5未満である場合に、候補mtDNA配列決定リードをヒト参照ゲノムに再マッピングし、候補mtDNA配列決定リードを保持することと、e)選別及び重複除去のために、保持された候補mtDNA配列決定リードのマッピング後処理を実行することと、f)生物学的試料の各々について、保持された候補mtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、g)各生物学的試料に一次mtDNAハプログループを割り当てることであって、同じ個体由来の生物学的試料の大部分に割り当てられた一次mtDNAハプログループとは異なる割り当てられた一次mtDNAハプログループを有する任意の生物学的試料が、誤標識された生物学的試料である信頼できない生物学的試料である、割り当てることと、を含む、方法を提供する。本方法のステップは、本明細書に記載のプロセスによって実施できる。
【0036】
本開示はまた、信頼できない生物学的試料を特定する方法であって、当該方法が、a)単一の個体から取得した複数の生物学的試料の各生物学的試料に対して核酸配列決定アッセイを実行して、各生物学的試料についてDNA生配列決定リードを取得することと、b)品質管理及びアダプター配列除去のためにDNA生配列決定リードを処理して、品質管理されたDNA配列決定リードを生成することと、c)品質管理されたDNA配列決定リードをミトコンドリア参照ゲノムにマッピングして、候補mtDNA配列決定リードを生成することと、d)i)候補mtDNA配列決定リードが、ミトコンドリア参照ゲノムに一意にマッピングされているか、またはミトコンドリア参照ゲノムに対するミスマッチが、ヒト参照ゲノムに対するものよりも少ない場合、及びii)候補mtDNA配列決定リードのアライメントミスマッチカウントが5未満である場合に、候補mtDNA配列決定リードをヒト参照ゲノムに再マッピングし、候補mtDNA配列決定リードを保持することと、e)選別及び重複除去のために、保持された候補mtDNA配列決定リードのマッピング後処理を実行することと、f)生物学的試料の各々について、保持された候補mtDNA配列決定リードにおけるヘテロプラスミー及びホモプラスミーを特定することと、g)各生物学的試料に一次mtDNAハプログループを割り当てることと、h)各生物学的試料について総ヘテロプラスミー数を決定することであって、生物学的試料のヘテロプラスミー数が高い場合、生物学的試料に二次mtDNAハプログループが割り当てられ、割り当てられた一次mtDNAハプログループとは異なる割り当てられた二次mtDNAハプログループを有する生物学的試料が、汚染された信頼できない試料である、決定することと、を含む、方法を提供する。本方法のステップは、本明細書に記載のプロセスによって実施できる。
【0037】
いくつかの実施形態では、本明細書に記載の方法は、ワークフローとして実施できる。例えば、Pyflow(ワールドワイドウェブ「github.com/Illumina/pyflow」を参照のこと)などの多数のワークフロー管理ツールを使用して、ステップを一緒に効率化できる。
【0038】
本明細書に記載の方法は、いくつかの利点を有する。第一に、本方法は、各試料についてのまたは個体群の対立遺伝子頻度レベルでのいかなる核DNA(nDNA)バリアント情報も必要としない-この種の情報は、多くの研究、特にRNA-seq研究には利用できないことが多い。第二に、本方法は、全ゲノムマッピングされたbamファイル、全ゲノムバリアントVCFファイルなどの、入力として集中的に前処理された配列決定データを必要としない。本方法は、fastqファイルを入力として直接取ることができる。第三に、本方法は、低カバレッジの配列決定データに適用できる。通常、nDNAバリアントに基づく方法には、低レベルの汚染を検出するために高いカバレッジ(>50倍)が必要である。mtDNAの複数コピーの性質に起因して、例えば、1000人ゲノムプロジェクトで2~4倍の低カバレッジデータであっても、mtDNAカバレッジは依然として1000~2000倍と高い可能性があり、これは1%と低い汚染レベルを検出するのに十分である。第四に、本方法は、高い計算能力を必要とせず、1000倍のmtDNAカバレッジを有する典型的な試料を、単一のプロセッサ及び4Gbメモリを使用して10~20分で処理することができる。mtDNA含有量が高い試料は、処理に時間がかかる可能性があるが、処理時間を短縮するためにダウンサンプリングすることができる。本方法は、標準的なNGSデータ処理パイプラインに簡単に組み込むことができ、問題のある試料を特定し、下流のデータ分析の精度を更に向上させることにより、重要な品質管理ステップとして機能する。
【0039】
本明細書に開示される主題をより効率的に理解できるようにするため、実施例を以下に提供する。これらの実施例は、例示目的のためのものであり、いかようにも特許請求される主題を限定するものとして解釈されるべきではないことを理解されたい。
【実施例
【0040】
実施例1:mtDNA変異(Variation)の特定及びハプログループの割り当て
一般的な方法論
mtDNA変異(ホモプラスミー及びヘテロプラスミーの両方)は、例えば、図1に示される分析を実行することによって、次世代配列決定データから特定される(ボックス1を参照のこと)。複数の生物学的試料に対して核酸配列決定アッセイを実行する際に、例えば、ワールドワイドウェブ「github.com/lh3/seqtk」に見出すことができる「seqtk」を使用して、生配列決定リードを所望の深度までダウンサンプリングして、計算負荷を低減することができる(図1、ボックス1、「ステップ0」を参照のこと)。このステップは任意選択的であり、実行する必要はない。
【0041】
核酸配列決定アッセイから(任意選択的に、前のダウンサンプリングステップから)取得した生mtDNA配列決定リードを、「Trimmomatic」(Bolger et al.,Bioinformatics,2014,30,2114-2120)を使用することによって、品質管理及びアダプター配列除去のために処理する(図1、ボックス1、「ステップ1」を参照のこと)。
【0042】
候補mtDNA配列決定リードを取得するために、「bowtie2」(Langmead et al.,Nature Methods,2012,9,357-359)を使用して、品質制御された配列決定リードをミトコンドリア参照ゲノムにマッピングする(図1、ボックス1、「ステップ2」を参照のこと)。核ゲノム中の核ミトコンドリアDNAセグメント(NUMT)は、ミトコンドリアゲノムにミスマッピングされ、mtDNAリードとしてカウントされる場合がある。NUMTの影響を最小限に抑えるために、第2のラウンドのマッピングを実行することができ、それにより、第1のラウンドからのマッピングされたリードを、ヒト参照ゲノム全体、核ゲノムについてのGRCh38、及びミトコンドリアゲノムについての改訂ケンブリッジ参照配列(rCRS)に再マッピングする。a)リード(リードペア)がミトコンドリアゲノムに一意にマッピングされているか、またはミトコンドリアゲノムに対するミスマッチが、核ゲノムに対するものよりも少ない場合、及びb)アライメントミスマッチカウントが5未満である場合に、リード(またはリードペア)が保持される。
【0043】
「samtoolsツールキット」(Li et al.,Bioinformatics,2009,25,2078-2079)によって、保持された候補mtDNA配列決定リードを更に処理し、これにはsamからbamへの変換、選別、及び重複除去が含まれる(図1、ボックス1、「ステップ3」を参照のこと)。
【0044】
「samtools mpileup関数」(Li et al.,Bioinformatics,2009,25,2078-2079)を使用して、各mtDNA部位についての保持された候補mtDNA配列決定リードをコンパイルし、配列決定品質(>=20)によって塩基を更にフィルタリングし、ヘテロプラスミー及びホモプラスミーを特定する(図1、ボックス1、「ステップ4」を参照のこと)。ヘテロプラスミーは、以下の基準で特定される:a)配列決定カバレッジ>=50、b)マイナー対立遺伝子頻度>=1%、及びc)DNAデータについては、マイナー対立遺伝子が各鎖から少なくとも2回観察されなければならず、RNAデータについては、マイナー対立遺伝子が少なくとも3回観察されなければならない。ホモプラスミーは、以下の基準で特定される:a)配列決定カバレッジ>10、及びb1)所与の部位で1つの対立遺伝子のみが観察され、参照対立遺伝子とは異なるか、またはb2)複数の対立遺伝子が観察され、メジャー対立遺伝子が参照とは異なるが、当該部位がヘテロプラスミー基準を満たさない。
【0045】
各試料についてのmtDNA配列を、ホモプラスミー情報及びヘテロプラスミー部位におけるメジャー対立遺伝子を使用して構築し、「HaploGrep2」(Weissensteiner et al.,Nuc.Acids Res.,2016,44,W58-W63)を使用して、構築された配列に基づいてハプログループを割り当てる(図1、ボックス1、「ステップ5」を参照のこと)。このステップで割り当てられたハプログループは、各試料の一次ハプログループと呼ばれる。
【0046】
特定の試料が異常な高いヘテロプラスミー数を有する場合、ホモプラスミー情報及びヘテロプラスミー部位におけるマイナー対立遺伝子を使用して二次mtDNA配列を構築し、この二次mtDNA配列に基づいて二次ハプログループを割り当てる(図1、ボックス1、「ステップ6」を参照のこと)。
【0047】
試料の誤標識/入れ替えの検出(図1、ボックス2を参照のこと)
複数の試料では、本明細書に記載されるように、各試料に一次ハプログループを割り当てることができる。全ての試料が正確に処理される場合には、同じ個体由来の試料全てが、同じハプログループに割り当てられる。逆に、これら試料間で2つ以上のハプログループが割り当てられる場合には、少数のハプログループが割り当てられた試料(複数可)は、ハプログループがマッチしていない(すなわち、誤標識されているか、または別の試料と入れ替えられている)と考えられる。例えば、以下の表1において、試料001は、試料008と入れ替えられていると考えられる。
【0048】
【表1】
【0049】
試料の汚染の検出及び定量化(図1、ボックス3を参照のこと)
特定の試料において異常な高いヘテロプラスミー数が観察された場合、試料は、汚染されている可能性がある。一次及び二次ハプログループを、ヘテロプラスミー部位におけるメジャー対立遺伝子及びマイナー対立遺伝子それぞれに基づいて、疑わしい試料に割り当てる(図1、ボックス1、「ステップ5」及び「ステップ6」を参照のこと)。一次ハプログループと二次ハプログループが異なる場合、試料は汚染された試料であると考えられる。
【0050】
試料が汚染されていると判断された場合、試料中の全てのヘテロプラスミーの頻度の中央値が、汚染レベルを表すために使用される。
実施例2:誤標識された試料を検出するためのmtDNAハプログループの使用
試料を複数の個体から収集し、各個体は複数の試料を有する。臨床試料のバッチについてのRNA-seqデータを取得した後、mtDNAハプログループを各試料に割り当てる(表2を参照のこと)。同じ個体から収集した試料は、同じmtDNAハプログループに属する必要がある。mtDNAハプログループがマッチしていないことは、試料が誤標識されている可能性があることを示唆している。ハプログループがL3h1a1である試料は、誤標識された試料であると考える必要がある。
【0051】
【表2】
【0052】
実施例3:試料の汚染を検出するためのmtDNAヘテロプラスミーの使用
仮想汚染試料の調製
2個体の全ゲノム配列決定fastqファイルであるHG00290及びNA19086を、1000人ゲノムプロジェクトからダウンロードした(「ftp.1000genomes.ebi.ac.uk/vol1/ftp/」のftpサイトを参照のこと)。配列決定リードを2個体からサンプリングし、NA19086リードを様々な比率(0.1%、0.5%、1%、2%、5%、10%、20%、30%、及び40%)でHG00290に混合して、仮想汚染試料を作製した。
【0053】
現実のデータセット
DNA配列決定データを、1000人ゲノムプロジェクトからダウンロードした(「ftp.1000genomes.ebi.ac.uk/vol1/ftp/」のftpサイトを参照のこと)。各個体について、ミトコンドリアゲノムにマッピングされたリードを、bamファイルからsamtools(Li et al.,Bioinformatics,2009,25,2078-2079)によって抽出し、その後、ペアエンドfastqファイルに変換した。fastqファイルは、本明細書に記載の方法のための入力として使用した。
【0054】
2つのRNA-seq研究のfastqファイルを、GEO(GSE81266及びGSE127165)からダウンロードした。GSE81266は、61個のペアエンド(2×75bp)試料及び16個のシングルエンド(50bp)試料を含む、77個の回腸及び前嚢回腸(prepouch ileum)試料についての全トランスクリプトームデータを含んでいた。GSE127165は、57名の喉頭扁平上皮細胞癌患者からの全トランスクリプトームデータを含み、各患者は、腫瘍試料及び隣接する正常試料を有していた。全ての試料は、150bpのリード長を有するペアエンドであった。
【0055】
分析性能
仮想汚染試料を分析した。2個体の全ゲノム配列決定データであるHG00290及びNA19086を、1000人ゲノムプロジェクトからダウンロードした(Auton et al.,Nature,2015,526,68-74)。HG00290はハプログループU5a2a1aに属し、1つのヘテロプラスミーがこの個体のmtDNAゲノムにおいて特定され(2610T>C 1.4%)、一方、NA19086はハプログループD4b1a1に属し、2つのヘテロプラスミーが特定された(1646T>C 2.1%、12785T>T 21.3%)。2個体は、ミトコンドリアゲノムに45ヌクレオチドの差異があった。
【0056】
仮想汚染試料は、2つの試料由来の配列決定リードを0.1%~40%の範囲の一連の比率(a series ratio)で混合することによって作製した。HG00290を元の試料として扱い、NA19086を汚染物質として扱った。各汚染試料には、リード長が100bpである5,000万個のリードペアが含まれていた。仮想汚染試料を、汚染分析のために本明細書に記載の方法によって処理し、結果を図3に要約する。汚染レベルが2%を超えると、試料から45~46個のヘテロプラスミーが特定され、これは正常範囲(1個体で1~2個のヘテロプラスミー)をはるかに上回っていた。これらヘテロプラスミーは、ほぼ全ての予想部位をカバーしていた(2個体間での45個の分離部位に加えて、HG00290における元のヘテロプラスミー2610 T>C)。2%試料では、予想部位が1つだけ欠落していた。一次ハプログループは、6つの試料全てについてU5a2a1a(元の試料HG00290と同じ)であり、二次ハプログループは、D4b1a1(汚染物質と同じ)であった。汚染レベルが1%であったとき、29個のヘテロプラスミーが検出された。17箇所の欠落部位を手動でチェックし、これらの部位は全て何らかのヘテロプラスミー信号を示すことが確認されたが、ヘテロプラスミー頻度特定カットオフが1%に設定されていたため、これらの部位はカットオフされなかった。1%試料の二次ハプログループをD4b1a1に正しく割り当てた。汚染レベルが0.1%及び0.5%であった場合には、1個のみ及び11個のヘテロプラスミーが検出され、これら2つの試料についての二次ハプログループは依然としてU5a2a1aであったため、これらの低汚染レベル試料では汚染を確実に検出することができなかった。これらの結果は、ヘテロプラスミー数と二次ハプログループの割り当てを組み合わせることによって、1%の低い汚染を検出できたことを示す。
【0057】
人工汚染試料中のヘテロプラスミー頻度を更に評価した。各試料中のヘテロプラスミー頻度には多少の変動があったが、頻度の平均及び中央値は理論的汚染レベルと有意に相関していた(図2及び図3を参照、平均及び中央値については、それぞれピアソン相関=0.996781、0.9979935、P値=6.212e-09、1.189e-09)。したがって、所与の試料が本明細書に記載の方法によって汚染されていると検出された場合、汚染レベルは、試料中のヘテロプラスミー頻度の平均/中央値によって相対的に定量化することができる。
【0058】
現実のデータアプリケーション:RNA-seqデータ
低頻度(<5%)のヘテロプラスミー特定をDNA-seqデータよりもRNA-seqデータにおいてより困難にする可能性があるいくつかの要因がある:1)逆転写ステップ中に導入されたエラー、2)RNA編集/改変、及び/または3)遺伝子発現レベルの変動に起因するmtDNAゲノム全体にわたる不均一なカバレッジ。したがって、偽陽性ヘテロプラスミーを減少させるために、頻度>5%のヘテロプラスミーのみが、RNAデータにおいて信頼できるヘテロプラスミーであると考えられた。更に、3つの明確に定義されたmtDNA編集部位:295、2617及び13710(Bar-Yaacov et al.,Genome Res.,2013,23,1789-1796、及びHodgkinson et al.,Science,2014,344,413-415)を除外した。
【0059】
本明細書に記載の方法を、異なる疾患または組織タイプのコンテキストを評価するために、2つのバルクRNA-seqデータセットに適用した。まず、本明細書に記載の方法を、25名の対象由来の77個の試料を含むデータセットに適用した(Huang et al.,Inflamm.Bowel Dis.,2017,23,366-378)。この研究におけるほとんどの対象は、異なる組織(回腸及び前嚢回腸)由来の及び/または異なる生検時点(4ヶ月、8ヶ月、12ヶ月など)での試料を有していた。このデータセットにおける16個の試料は、50bpリード長のシングルエンド試料であり、61個の試料は、75リード長のペアエンド試料であった。各試料について、1000万リード(ペア)をランダムにサンプリングして試験した。まず、試料への一次ハプログループの割り当てを評価した。このデータセットでは、同じ対象由来の試料は全て、同じmtDNAハプログループに割り当て(図4を参照)、これは試料の入れ替えがないことを示した。次いで、これら試料中の潜在的な汚染を評価した。試料SRR3493833を除いて、5%ヘテロプラスミー頻度カットオフでは、他の全ての試料は、最大でも6個のヘテロプラスミーを有し、二次ハプログループの割り当ては、一次ハプログループと同じであった(図4を参照)。試料SRR3493833では、正常範囲よりもはるかに高い29個のヘテロプラスミーが特定され、ヘテロプラスミー頻度の中央値は14.8%であった。この試料の二次ハプログループはJ1c8aであり、これもまた一次ハプログループU5b2a1aとは異なっていた。これらの結果は、試料SRR3493833がJ1ハプログループ由来の別の試料によって潜在的に汚染され、汚染レベルが約14.8%であることを示した。
【0060】
本明細書に記載の方法を、腫瘍試料を含むデータセットにも適用した(Wu et al.,Molec.Cancer,2020,19,99)。このデータセットには、57名の喉頭扁平上皮細胞癌患者由来の試料が含まれており、それぞれが腫瘍試料及び対になった隣接する正常な粘膜試料を有する。このデータセットでは、同じ患者由来の対になった腫瘍試料及び隣接する正常な試料は全て、同じハプログループに割り当て(図5を参照)、試料の入れ替えは検出されなかった。全ての試料は、ヘテロプラスミー数が低く、一次及び二次ハプログループの割り当てが同じであり、したがって、検出可能な汚染もなかった。このデータセットによって、本明細書に記載の方法は、腫瘍試料の同一性を特定できることが実証された。
【0061】
早期かつ正確な試料の入れ替え及び汚染の検出は、疑わしい試料をフィルタリングし、その後の分析のための品質を向上させることができるため、大規模なNGSデータの重要な品質管理ステップである。これらの実施例では、NGSデータから特定されるmtDNA変異を使用することによって、試料の入れ替え及び個体間汚染を検出するための効率的な方法が提示される。本方法論は、いかなるデータの前処理も行わずに、デマルチプレックスされたfastqファイルを入力として取ることができる。まず、複数の試料を有する個体についての任意の試料の入れ替えを検出する。潜在的な汚染を更に検出して定量化し、次いで、汚染物質の供給源試料を示唆する。1000人ゲノムプロジェクト及び2つのバルクRNA-seqデータセットからの全ゲノムDNA配列決定データをこれらの例の実施例(working examples)として使用したが、本明細書に記載の方法は、オフサイトmtDNAリード、シングルセルRNA-seq、ATAC-seqデータなどを含む全エクソーム配列決定データなどの、mtDNAリードを含む任意のNGSデータセットに一般化することができる。本明細書に記載のシミュレーション結果は、本明細書に記載の方法が、1%の低い汚染を効果的に検出したことを示している。
【0062】
本明細書に記載されているものに加えて、記載されている主題の様々な修正が、前述の説明から当業者には明らかとなるであろう。そのような修正はまた、添付の特許請求の範囲内に入ることが意図される。本出願で引用された各参考文献(雑誌記事、米国及び米国以外の特許、特許出願公開、国際特許出願公開、遺伝子バンク受入番号、等を含むが、これらに限定されない)は、参照によってその全体が本明細書に組み込まれる。
図1
図2A
図2B
図3
図4-1】
図4-2】
図4-3】
図4-4】
図4-5】
図4-6】
図4-7】
図5-1】
図5-2】
図5-3】
図5-4】
図5-5】
図5-6】
図5-7】
図5-8】