IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ メナリーニ シリコン バイオシステムズ エッセ.ピー.アー.の特許一覧

特表2024-536799確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法
<>
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図1
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図2
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図3
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図4
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図5
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図6
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図7
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図8
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図9
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図10
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図11
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図12
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図13
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図14
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図15A
  • 特表-確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法 図15B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-08
(54)【発明の名称】確定的制限酵素部位全ゲノム増幅(DRS-WGA)を使用して少なくとも2つのサンプルの類似度を解析する方法
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20241001BHJP
   C12Q 1/6844 20180101ALI20241001BHJP
   G16B 40/20 20190101ALI20241001BHJP
   G16B 30/10 20190101ALI20241001BHJP
【FI】
C12Q1/6869 Z
C12Q1/6844 Z
G16B40/20
G16B30/10
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024517535
(86)(22)【出願日】2022-09-19
(85)【翻訳文提出日】2024-05-17
(86)【国際出願番号】 IB2022058833
(87)【国際公開番号】W WO2023042173
(87)【国際公開日】2023-03-23
(31)【優先権主張番号】102021000024101
(32)【優先日】2021-09-20
(33)【優先権主張国・地域又は機関】IT
(81)【指定国・地域】
(71)【出願人】
【識別番号】516164519
【氏名又は名称】メナリーニ シリコン バイオシステムズ エッセ.ピー.アー.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ニコロ・マナレージ
(72)【発明者】
【氏名】クラウディオ・フォルカト
(72)【発明者】
【氏名】アルベルト・フェラリーニ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA18
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ42
4B063QR32
4B063QR62
4B063QS24
4B063QS36
(57)【要約】
本開示は、ゲノムDNAを含む複数のサンプル中の少なくとも2つのサンプルの類似度を解析する方法に関する。方法は以下の工程を含む。a)ゲノムDNAを含む複数のサンプルを提供する工程。b)前記ゲノムDNAの確定的制限酵素部位全ゲノム増幅(DRS-WGA)を各サンプルで別々に実施する工程。c)前記DRS-WGAの各産物から、断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を使用して超並列シーケンスライブラリーを調製する工程。d)前記超並列シーケンスライブラリーで<1×の平均カバレッジ深度でローパス全ゲノムシーケンスを実施する工程。e)工程d)で得られたリードをサンプルごとに参照ゲノムにアラインする工程。f)複数の多型遺伝子座でアレル内容をサンプルごとに抽出する工程。g)前記複数の遺伝子座で測定されたアレル内容の関数としての少なくとも2つのサンプルのペアワイズ類似度スコアを計算する工程。h)類似度スコアに基づき少なくとも2つのサンプルの類似度を決定する工程。
【特許請求の範囲】
【請求項1】
ゲノムDNAを含む複数のサンプル中の少なくとも2つのサンプルの類似度を解析する方法であって、
a)ゲノムDNAを含む複数のサンプルを提供する工程と;
b)前記ゲノムDNAの確定的制限酵素部位全ゲノム増幅(DRS-WGA)を各サンプルで別々に実施する工程と;
c)前記DRS-WGAの各産物から、断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を使用して超並列シーケンスライブラリーを調製する工程と;
d)前記超並列シーケンスライブラリーで<1×の平均カバレッジ深度でローパス全ゲノムシーケンスを実施する工程と;
e)工程d)で得られたリードをサンプルごとに参照ゲノムにアラインする工程と;
f)複数の多型遺伝子座でアレル内容をサンプルごとに抽出する工程と;
g)少なくとも2つのサンプルのペアワイズ類似度スコアを、前記複数の遺伝子座で測定されたアレル内容の関数として計算する工程と;
h)少なくとも2つのサンプルの類似度を類似度スコアに基づき決定する工程と
を含む方法。
【請求項2】
前記ローパス全ゲノムシーケンスが、カバレッジ<0.01×、好ましくはカバレッジ<0.05×、より好ましくはカバレッジ<0.1×、更により好ましくはカバレッジ<0.5×で実施される、請求項1に記載の方法。
【請求項3】
前記複数の多型遺伝子座が、平均ヘテロ接合性>0.499、好ましくは平均ヘテロ接合性>0.49、より好ましくは平均ヘテロ接合性>0.4、更により好ましくは平均ヘテロ接合性>0.3、最も好ましくは平均ヘテロ接合性>0.2で多型遺伝子座を含む、請求項1又は2に記載の方法。
【請求項4】
前記複数の多型遺伝子座が、>200,000遺伝子座、好ましくは>300,000遺伝子座、より好ましくは>500,000遺伝子座、更により好ましくは>1,000,000遺伝子座を含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ペアワイズ類似度スコアが、少なくとも2つのサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたるBアレル頻度の相関を算出して計算される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記ペアワイズ類似度スコアが、ペアサンプルの両方の少なくとも1つのリードによってカバーされる遺伝子座にわたる平均一致値を算出して計算され、各遺伝子座の一致値は、以下の値:
A1)コールされたアレルが同一であるならば1;及び
B1)コールされたアレルが異なるならば0;又は
A2)コールされたアレルが同一であるならば1;
B2)コールされたアレルが完全に異なるならば0;及び
C2)コールされたアレルが一部重複しているならば0.5
のうちの1つが割り当てられる、請求項1から4のいずれか一項に記載の方法。
【請求項7】
クラスターのサンプルにDNAで実質的に寄与する1つの個体(又は複数の個体)の同一性、又は不十分な量のDNAを含有する特性、及び/若しくは高度に分解されたDNA若しくは由来不明のDNAを含有する特性からなる群から選択される共通の特性を共有するサンプルのクラスター群を定義する工程を更に含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記ペアワイズ類似度スコアをインプットとして使用するアルゴリズムにより、少なくとも2つのサンプルが少なくとも1つのクラスターに割り当てられる、請求項7に記載の方法。
【請求項9】
アルゴリズムが階層的クラスタリングアルゴリズムである、請求項8に記載の方法。
【請求項10】
前記クラスターの数が、
a)平均シルエットスコアを最大化するいくつかの第1の反復クラスター数を選択する工程;
b)前記第1の反復クラスターの1つ1つに対し第1の反復クラスターに属する前記サンプルの各々のシルエットスコアを算出する工程であって、範囲0.19~0.21に含まれる固定閾値より低いシルエットスコアを有するクラスターに属するサンプルが新たなクラスターに割り当てられる、工程
によって計算される、請求項8に記載の方法。
【請求項11】
前記クラスター群が、ただ1つの同一個体由来のDNAを含有するサンプルを含む1つ又は複数の同一性クラスターを含む、請求項10に記載の方法。
【請求項12】
複数の同一性クラスターの存在下、前記複数の同一性クラスターの濃度が前記複数のサンプル中の個々のDNA寄与者の数に対応する、請求項11に記載の方法。
【請求項13】
混合同一性クラスター群を定義する工程を更に含み、前記混合同一性クラスターの各々が少なくとも2人からのDNAを含有するサンプルを含む、請求項8から12のいずれか一項に記載の方法。
【請求項14】
由来不明のDNAを含有するサンプルを含む、少なくとも1つのノーコールクラスターを定義する工程を更に含む、請求項13に記載の方法。
【請求項15】
前記複数のサンプルが少なくとも1つの参照サンプルを含み、前記同一性クラスター群が、前記参照サンプルを含む少なくとも1つの参照クラスターを含む、請求項8から14のいずれか一項に記載の方法。
【請求項16】
前記少なくとも1つの参照サンプルが妊娠中の女親個体由来のサンプルである、請求項15に記載の方法。
【請求項17】
前記同一性クラスター群が、前記女親個体の進行中の妊娠からの少なくとも1人の胎児由来のサンプルによって構成される少なくとも1つの血縁クラスターを更に含有する、請求項16に記載の方法。
【請求項18】
前記血縁クラスターが、ただ1つの同一胎児由来のDNAを含有するサンプルからなる複数の胎児クラスターに分割される、請求項17に記載の方法。
【請求項19】
前記少なくとも1つの参照クラスターが、被害者とは異なるただ1つの同一個体由来のDNAを含有するサンプルを含む少なくとも1つの加害者クラスターを定義する工程を更に含む科学捜査における被害者に対応するただ1つの同一個体由来のDNAを含有するサンプルによって構成される、請求項15に記載の方法。
【請求項20】
前記少なくとも1つの加害者クラスターの各々に属する複数のサンプルからのDRS-WGAアリコートをクラスターワイズ混合する工程と、対応する単一個体WGA-DNAサンプルをクラスターごとに作製する工程と、前記単一個体WGA-DNAサンプルの少なくとも1つについて更なるDNA解析を実施する工程とを含む、請求項19に記載の方法。
【請求項21】
前記少なくとも1つの加害者クラスターの各々に属する複数のサンプルからの、少なくとも1つのアッセイタイプの遺伝子解析データをクラスターワイズ統合する工程と、対応する単一個体WGA-DNAデータを前記少なくとも1つの加害者クラスターごとに作成する工程とを含む、請求項19に記載の方法。
【請求項22】
前記アッセイタイプが、
a)マイクロサテライト解析;
b)一塩基多型解析;
c)超並列ターゲットシーケンス;及び
d)全ゲノムシーケンス
からなる群から選択される、請求項21に記載の方法。
【請求項23】
前記複数のサンプルが腫瘍及び/又は正常サンプルを含む、請求項1から15のいずれか一項に記載の方法。
【請求項24】
前記複数のサンプルが、女親個体由来のDNAを含有する少なくとも参照サンプルを含み、前記複数のサンプルからの少なくとも1つの他の胚サンプルが、
a)前記女親個体に由来する胚由来のDNAを含有するサンプル;及び
b)前記女親個体の胚から得られた使用済み胚培養培地からのDNAを含有するサンプル
からなる群から選択される、請求項1又は15に記載の方法。
【請求項25】
前記女親個体サンプルからの前記少なくとも1つの他の胚サンプルの前記ペアワイズ類似度の関数としての、前記少なくとも1つの他の胚サンプルにおいて測定された母性汚染に対応する汚染係数を使用して、前記少なくとも1つの他の胚サンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記胚の着床前遺伝子スクリーニングを実施する工程を更に含む、請求項24に記載の方法。
【請求項26】
前記複数のサンプルが、女親個体由来のDNAを含有する少なくとも参照サンプル、及び無細胞DNAサンプルからのDNAを含有する少なくとも1つの他のサンプルを含む、請求項15に記載の方法。
【請求項27】
女親参照サンプルとの前記ペアワイズ類似度の関数としての、前記少なくとも1つの無細胞DNAサンプルにおいて測定された胎児画分に対応する補正因子を使用して、前記少なくとも1つの無細胞DNAサンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記無細胞DNAサンプルの非侵襲的出生前検査を実施する工程を更に含む、請求項26に記載の方法。
【請求項28】
前記複数のサンプルが、女親個体由来のDNAを含有する少なくとも参照サンプル、及び絨毛膜絨毛、羊水、又は受胎の産物由来のDNAを含有する少なくとも1つの他の出生前サンプルを含む、請求項15に記載の方法。
【請求項29】
女親参照サンプルとの前記ペアワイズ類似度の関数としての、前記少なくとも1つの出生前サンプルにおいて測定された母性汚染又は外因性汚染に対応する補正因子を使用して、前記少なくとも1つの出生前サンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記出生前サンプルの出生前検査を実施する工程を更に含む、請求項28に記載の方法。
【請求項30】
複数の参照クラスターが、細胞株由来のDNAの複数のサンプルから生成され、前記同一性クラスター群が、認証される細胞株由来の少なくとも1つのサンプルを更に含有する、特に細胞株認証のための、請求項15に記載の方法。
【請求項31】
前記少なくとも1つの参照クラスターが、移植患者由来の生殖細胞系DNAを含有するサンプルによって構成され、前記同一性クラスター群が、前記移植患者の同種ドナー由来のサンプルによって構成される1つのドナークラスターを更に含有する、特に同種移植片を調べるための、請求項15に記載の方法。
【請求項32】
前記少なくとも1つの参照サンプルが、男親由来のDNAのみを含有する前記男親参照サンプルを含み、前記少なくとも1つの参照クラスターが、前記男親のサンプルを含む男親同一性クラスターを更に含み、
(i)男親のサンプルに対する血縁サンプル類似度スコアが血縁と一致するならば、父親であることは裏付けられ、
(ii)男親のサンプルに対する血縁サンプル類似度スコアが非血縁個体と一致するならば、父親であることは裏付けられない、
特に非侵襲的父子鑑定のための、請求項17に記載の方法。
【請求項33】
前記少なくとも1つのサンプルが少なくとも1つの循環栄養膜細胞サンプルを含み、女親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが非血縁サンプルと一致するならば、全奇胎は裏付けられる、特に非侵襲的奇胎妊娠評価のための、請求項17に記載の方法。
【請求項34】
前記少なくとも1つのサンプルが複数の栄養膜細胞サンプルを含み、
(i)前記栄養膜細胞サンプルの間の類似度スコアが自己サンプルの予測類似度スコアの予測99パーセンタイルを超えるならば、P1P1ホモ接合性父性奇胎は裏付けられ、
(ii)前記栄養膜細胞サンプルの間の類似度スコアが自己サンプルの予測類似度スコアと一致するならば、P1P2ヘテロ接合性父性奇胎は裏付けられる、
請求項33に記載の方法。
【請求項35】
前記少なくとも1つのサンプルが男親のサンプルを更に含み、前記栄養膜細胞サンプルの間の類似度スコアが自己サンプルの予測類似度スコアと一致し、
(i)男親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが自己サンプルの予測類似度スコアと一致するならば、P1P2ヘテロ接合性父性奇胎は裏付けられ、
(ii)男親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが自己サンプルの予測類似度スコアの1パーセンタイルより低いならば、P1P2ヘテロ接合性父性奇胎は裏付けられない、
請求項30に記載の方法。
【請求項36】
前記ペアワイズ類似度スコアをインプットとして使用する機械学習分類子を使用して定義済みのクラスに基づき、複数のサンプルから選択されるサンプルを分類する工程を更に含む、請求項1から6のいずれか一項に記載の方法。
【請求項37】
機械学習分類子がランダムフォレスト分類子である、請求項36に記載の方法。
【請求項38】
機械学習分類子が、
a)DLRS:derivative log ratio spread;
b)R50:少なくとも1つのリードによってカバーされる全WGA断片に対するシーケンスリードの50%によってカバーされるWGA断片の割合;
c)YFRAC:染色体Yにマッピングするリードの画分;
a)Aberrant:細胞倍数性中央値に関する増減に対応するゲノムの割合;
b)Chr13:染色体13の倍数性;
c)Chr18:染色体18の倍数性;
d)Chr21:染色体21の倍数性;
e)RSUM:細胞倍数性中央値からの絶対偏差が最も高いコピー数異常事象について計算された、最も近い整数のコピー数レベルからの平均絶対偏差;
f)Mix_score:細胞倍数性中央値からの絶対偏差が最も高いコピー数異常事象について計算されたRSUM zスコア;及び
g)Deg_score:小さな減少事象(<10Mbp、分解サンプルによく見られる)の数
を含む群から選択される、前記ローパス全ゲノムシーケンスデータについて測定された少なくとも1つの値を更なるインプットとして使用する、請求項36又は37に記載の方法。
【請求項39】
サンプルの少なくとも1つが参照サンプルである、請求項36から38のいずれか一項に記載の方法。
【請求項40】
前記少なくとも1つの参照サンプルが妊娠中の女親個体由来のサンプルを含む、請求項39に記載の方法。
【請求項41】
前記複数のサンプルが、前記女親個体の進行中の妊娠からの胎児由来のサンプルに相当する、女親参照に対して「血縁」に分類される少なくとも1つのサンプルを含む、請求項40に記載の方法。
【請求項42】
前記少なくとも1つの参照サンプルが、被害者と異なるただ1つの同一個体由来のDNAを含有するサンプルを含む、参照サンプルに対して「非自己」に分類され、互いに対して「自己」に分類されるすべてのサンプルによって表される少なくとも1つの単一加害者群を明確にする工程を更に含む科学捜査における被害者に対応するただ1つの同一個体由来のDNAを含有するサンプルである、請求項39に記載の方法。
【請求項43】
前記少なくとも1つの単一加害者群の各々に属する複数のサンプルからのDRS-WGAアリコートをグループワイズ混合する工程と、単一加害者群ごとに対応する単一個体WGA-DNAサンプルを作製する工程と、前記単一個体WGA-DNAサンプルの少なくとも1つについて更なるDNA解析を実施する工程とを含む、請求項42に記載の方法。
【請求項44】
前記少なくとも1つの単一加害者群の各々に属する複数のサンプルからの少なくとも1つのアッセイタイプの遺伝子解析データをグループワイズ統合し、少なくとも1つの単一加害者群ごとに対応する前記単一個体WGA-DNAデータを作成する工程を含む、請求項42に記載の方法。
【請求項45】
前記複数のサンプルが腫瘍及び/又は正常サンプルを含む、請求項36から39のいずれか一項に記載の方法。
【請求項46】
前記複数のサンプルが、母親個体由来のDNAを含有する少なくとも参照サンプルを含み、前記複数のサンプルからの、女親参照に対して「非自己」に分類される少なくとも1つの他の胚サンプルが、
a)前記母親個体に由来する胚由来のDNAを含有するサンプル;及び
b)前記母親個体の胚から得られた使用済み胚培養培地からのDNAを含有するサンプル.
からなる群から選択される、請求項36から39のいずれか一項に記載の方法。
【請求項47】
前記女親個体サンプルからの前記少なくとも1つの他の胚サンプルの前記ペアワイズ類似度の関数としての、前記少なくとも1つの他の胚サンプルにおいて測定された母性汚染に対応する汚染係数を使用して、前記少なくとも1つの他の胚サンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記胚の着床前遺伝子スクリーニングを実施する工程を更に含む、請求項46に記載の方法。
【請求項48】
複数の参照群が細胞株由来のDNAの複数のサンプルから生成され、前記複数のサンプルが、認証される細胞株由来の少なくとも1つのサンプルを更に含む、請求項39に記載の方法。
【請求項49】
前記少なくとも1つの参照群が、移植患者由来の生殖細胞系DNAを含有するサンプルを含み、前記複数のサンプルが、前記移植患者の同種ドナー由来の少なくとも1つのサンプルに相当する1つのドナーサンプルを更に含有する、請求項39に記載の方法。
【請求項50】
前記少なくとも1つの参照サンプルが、前記男親由来のDNAのみを含有する男親参照サンプルを更に含み、前記複数のサンプルが、
(i)男親参照サンプルに対して「自己」に分類されるならば、父親であることは裏付けられる
(ii)男親参照サンプルに対して「非血縁」に分類されるならば、父親であることは裏付けられない
サンプルを更に含む、特に非侵襲的父子鑑定のための、請求項41に記載の方法。
【請求項51】
前記少なくとも1つのサンプルが少なくとも1つの循環栄養膜細胞サンプルを含み、前記栄養膜細胞サンプルが女親参照に対して「非血縁」に分類されるならば、父親由来の完全胞状奇胎は裏付けられる、特に非侵襲的奇胎妊娠評価のための、請求項40に記載の方法。
【請求項52】
前記少なくとも1つのサンプルが、互いに対して「自己」に分類される複数の栄養膜細胞サンプルを含み、
(i)それらの類似度スコアが「自己」サンプルの予測類似度スコアの予測99パーセンタイルを超えるならば、父親由来のP1P1ホモ接合性胞状奇胎は裏付けられる、
(ii)それらの類似度スコアが「自己」サンプルの予測類似度スコアと一致するならば、父親由来のP1P2ヘテロ接合性胞状奇胎は裏付けられる、
請求項51に記載の方法。
【請求項53】
前記少なくとも1つのサンプルが男親のサンプルを更に含み、前記男親のサンプルが前記複数の栄養膜細胞サンプルの少なくとも1つのサンプルに対して「自己」に分類され、
(i)男親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが「自己」サンプルの予測類似度スコアと一致するならば、父親由来のP1P2ヘテロ接合性胞状奇胎は裏付けられ、
(ii)男親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが「自己」サンプルの予測類似度スコアの1パーセンタイルより低いならば、父親由来のP1P2ヘテロ接合性胞状奇胎は裏付けられない、
請求項52に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本特許出願は、2021年9月20日に出願されたイタリア特許出願第102021000024101号からの優先権を主張するものであり、その開示全体は参照により本明細書に組み込まれる。
【0002】
本開示は、参照を使用して又は使用せずに、複数のサンプルで実施されるローパス全ゲノムシーケンスによって得られたデータを解析し、単一細胞解像度を達成することによって、前記複数のサンプルの各々の同一性をクラス又は個体へ割り当てる、サンプルペアリングの方法に関する。
【0003】
サンプルペアリングに加えて、方法は、サンプルのうち試験中のサンプルを同時に識別及び特徴付けできるようにする統合アッセイを提供する。
【0004】
本開示による方法は、限定されるものではないが、以下を含むいくつかの応用分野で使用することができる:
・単一細胞法医学的個人識別
・循環腫瘍細胞の解析中のサンプル識別
・非侵襲的出生前検査のための母親の体液中の胎児細胞又は胎児無細胞DNA (cfDNA)の識別
・使用済み胚培地での侵襲的着床前遺伝子検査(PGT)及び非侵襲的PGTにおける胚細胞又はcfDNAの識別
・非侵襲的に得られたサンプル及び受胎の産物での出生前診断における胎児成分の識別(例えば、母体又は外因性汚染評価)
・受胎産物に由来する材料における奇胎妊娠、多胎妊娠(バニシング/キメラを含む)、片親性ダイソミー(アイソダイソミー又はヘテロダイソミー)、ROH及び血縁関係識別、性染色体不分離エラー分類
・マイクロキメリズム
・細胞株認証(例えば、幹細胞)。
【背景技術】
【0005】
サンプル識別及びサンプルペアリングの先行技術
サンプル識別の最も広く普及している方法は、高多型ショートタンデムリピート(STR)遺伝子座(マイクロサテライトとも呼ばれる)の解析に依存する。この方法は、複数の遺伝子座を標的とするPCRを実施し、キャピラリー電気泳動でアンプリコンを検出することを必要とする。個人識別では、遺伝子座ごとに各アレル(母親及び父親由来の)は多くの異なる値を持ちうるため、増幅された比較的少数の遺伝子座で大きな多様性が生じ、例えば10個又は20遺伝子座で測定された個体のアレルサイズは、大規模コホート中の個体を高確率で識別することができる。特にDNAの質が低い、又は分解(例えば、固定、又は保管の環境条件、又は他の生物学的プロセスにより分解)されている場合、アレルドロップアウトはサンプル識別を割り当てる十分な情報の回収を損なう可能性があるため、この方法を単一細胞に適用することは難しい場合がある。このことは、マルチプレックスPCRは単一細胞サンプルで直接実施される(故にそのサンプルを消費する)、又は単一細胞からの全ゲノム増幅産物のアリコートで実施され、故に同じWGA産物の異なるアリコートでの反復試験を可能になるという事実に関係なく当てはまる。
【0006】
アレルドロップアウトは、STRアッセイの電気泳動図で検出されるアレルを80%、70%、60%、50%、40%、30%、20%、10%又はそれ以下まで著しく減少させる可能性がある。更に、アレルドロップインが生じる可能性があり、特に、高度に分解されたサンプル、及び単一細胞等の低インプットテンプレートの解釈を混乱させる更なるピークをもたらしうる。その結果、得られた情報は、サンプル同一性を一致(confidence)により割り当てるには不十分である。
【0007】
STR遺伝子座からの最小数のアレルの要件はいくつかの要因に依存するが、プロファイルを大きな集団にマッチさせる場合、多くのより情報価値のある遺伝子座が必要とされる一方、潜在的な寄与者のより小さなコホートにサンプルをマッチさせることは、より少ない検出アレル数で解決できるより単純な問題となることは一般に真実であり、当業者に公知である。
【0008】
例えば、性的暴行等のからの法医学的ケースワークでは、1人又は複数の加害者及び被害者由来のDNA及び細胞が、1人の被害者及び1、2、3、4、5人又はそれより多い加害者である可能性があるいくつかの寄与者とともに提示されることがある。複数の男性加害者の場合、解析のための標的細胞が、一倍体であるために1遺伝子座あたり単一アレルしか持たない精子細胞であるという事実によって、問題は悪化する可能性がある。それ故に、ケースワークから単一細胞を解析する場合、単一細胞情報を使用して寄与者の数を確実に推測し、限られた単一細胞データのもとその寄与者から再構築された完全なプロファイルを組み立てることは不可能になる可能性がある。
【0009】
例として、単一精子細胞は、DEPArray(Fontanaら、「Isolation and genetic analysis of pure cells from forensic biological mixtures: The precision of a digital approach」、Forensic Sciences International: Genetics 2007、http://dx.doi.org/10.1016/j.fsigen.2017.04.023)を使用して単離されうる。DEPArrayは、1回のDEPArray実行から、バリデートされた法医学的アプリケーションを使用して最大48個の単一精子、又はDEPArrayシステムから利用可能な異なるアプリケーションプログラムを使用して最大96個の単一細胞の回収を可能にする。
【0010】
DEPArrayシステムを使用して個々の細胞を単離する、血液中の血液の混合証拠からの異なる寄与者プロファイルの単一細胞法医学的識別は、K. Anslinger、B. Bayer、「Whose blood is it? Application of DEPArrayTM technology for the identification of individual/s who contributed blood to a mixed stain」 Int J Legal Med. 2019年3月;133(2):419~426頁. doi: 10.1007/s00414-018-1912-7. Epub 2018年8月18日に示されている。
【0011】
一般に、単一細胞の複数の不完全なプロファイルから完全なプロファイルをインシリコで再構築して完全なプロファイルを再構築し、及び/又は遺伝子情報を決定するという問題は、
(i)解析される単一細胞の数が少なければ少ないほど、
(ii)1細胞あたりの検出されるアレルの数が少なければ少ないほど、
(iii)寄与者の数が多ければ多いほど、
(iv)解析される細胞における、比較的少数の寄与者に由来する細胞の存在率のレベルが低ければ低いほど
解決するのがより難しい。
【0012】
個々の細胞を直接単離して得られる単一細胞法医学的方法以上に、サブサンプリング(K. Huffman、E. Hanson及びJ Ballantyne、「Recovery of single source DNA profiles from mixtures by direct single cell subsampling and simplified micromanipulation」、Science & Justice 61巻、1号、2021年1月、13~25頁)等の他の方法は、例えば、1プールあたり2又は3細胞の小さな細胞プールの回収からなる複数のサンプルの解析を必要とする。また、この場合、プールが同じ寄与者又は複数の寄与者由来の細胞からなるかどうかを同定し、場合によりすべてのプールの中の寄与者の総数を同定し、並びに例えば、ゲノムの特徴につながる祖先又は身体的特徴の判定等の追加の調査目的のために、均一なプールの更なる遺伝子解析を可能にするシステムを有することも有益でありえる。
【0013】
更なる例として、STR解析を使用して細胞株認証が一般に実施される。ほとんどのSTRキットは、蛍光増幅産物の断片長解析にキャピラリー電気泳動シーケンサーを必要とする。超並列シーケンサーの普及に伴い、キャピラリー電気泳動の利便性が低下し、多くのラボは、ラボ内でキャピラリー電気泳動によりSTRプロファイルを解析するにはどうすればよいのかが分からなくなっている。
【0014】
現在、超並列シーケンサーを使用してSTRを解析するためのターゲットPCRパネルが利用可能である。しかし、これは、すでに研究室に存在しないことが多い追加の試薬の獲得を意味する。
【0015】
更なる例として、母親の体液からの胎児細胞の単離に基づく非侵襲的出生前診断プロトコールでのサンプル識別及び/又はペアリングの必要性がある。これらは、例えば、母親の血液から単離された胎児細胞(胎児有核赤血球細胞又は栄養膜細胞等)であってもよい。細胞が希少であることを考えると、濃縮プロセスから単離された個々の細胞は、免疫蛍光染色の限られた特異度又は曖昧な形態学的選択、技術的欠陥、及びそれらの単離に使用される選別装置のエラー等のいくつかの理由により、胎児細胞とは対照的に母親の細胞でありうるという重大なリスクがある。それらの細胞を単離するのに使用されるプロセス及び基準がなんであれ、診断が確実に実際の胎児細胞で実施されるようにする重要性を考えると、胎児の遺伝物質のみが遺伝子解析のインプットかどうかを検証すること、及び可能性のある母性汚染(混合細胞)、又は完全なサンプルスワップ(単一細胞は母親の細胞である)、又は例えば操作者由来の汚染でさえも検出することが不可欠である。混合サンプル(例えば、胎児細胞1母親の細胞1、すなわち50%の汚染)は、一部の染色体異数性解析には依然として許容されうるが、使用されるアッセイによって、より低い純度は微少欠失のようなより小さな異常の検出を損なう可能性がある。
【0016】
故に、細胞ベースのNIPD中に回収された細胞が胎児由来であることの追加の確認検査として、STR解析を実施することが先行技術における現行である(Vossaert L、Wang Q、Salman Rら「Validation Studies for Single Circulating Trophoblast Genetic Testing as a Form of Noninvasive Prenatal Diagnosis」American Journal of Human Genetics (2019) 105(6) 1262~1273頁; L.D. Jeppesenら、「Cell-based non-invasive prenatal diagnosis in a pregnancy at risk of cystic fibrosis」Prenatal Diagnosis. 2020;1~7頁; Manaresiら、EP2152859B1)。
【0017】
最近の論文(Zhuo X、Wang Q、Vossaert L、Salman R、Kim A、Van den Veyver Iら(2021)「Use of amplicon based sequencing for testing fetal identity and monogenic traits with Single Circulating Trophoblast (SCT) as one form of cell-based NIPT」PLoS ONE 16(4): e0249695. https://doi.org/10.1371/journal.pone.0249695)では、「低カバレッジ(1細胞あたり5,000,000~10,000,000リード)での全ゲノムショットガン(WGS)シーケンスは、良好なコピー数データをもたらすが、胎児が女性の場合、胎児細胞と母親の細胞を容易には区別しない」ことが認識されている。この研究では、診断用に回収された細胞が胎児由来であることを確認するために、PCRベースの標的増幅(40アンプリコンの)を使用した90個の高多型SNPのパネルによる遺伝子型判定及び超並列シーケンスがSTR解析の代替手段として提案されている。このアプローチは、単一細胞WGA産物からのDNAの小さなアリコートを使用するが、ローパスWGSに基づき異数性を評価するワークフローに関して、追加のサンプル検査及び関連費用を必要とするという欠点が依然としてある。
【0018】
奇胎妊娠及び絨毛性疾患の非侵襲的評価は循環栄養膜細胞で実証されているが(Sunde Lら、「Hydatidiform mole diagnostics using circulating gestational trophoblasts isolated from maternal blood」Mol Genet Genomic Med. 2020;00:e1565. https://doi.org/10.1002/mgg3.1565)、母親の血液から単離された希少な栄養膜細胞の由来を決定するのにSTR解析がまたしても不可欠とみなされている。胞状奇胎(HM)は、母親の核を喪失した卵子の受精と、それに続く、ほとんどの場合では精子染色体の倍化、又は少数の例では2つの精子による受精が原因で両方のゲノムセットが父親に由来する(両親型:PP)、典型的には二倍体の「全奇胎」でありうる。両親型PPのHMのほとんどがすべての遺伝子座(P1P1)でホモ接合性を示すのに対し、約15%は一部の遺伝子座(P1P2)でヘテロ接合性を示す。部分奇胎は、2つのゲノムセットが父親に由来し、1つが母親に由来する(両親型:PPM)、典型的には三倍体のHMである。全奇胎は絨毛癌のリスク増加を伴う(部分奇胎での0.5%に対して15%)。故に、HMが母親のゲノムのコピーを有する、又はそれが欠如しているかどうかを理解することは興味深い。
【0019】
サンプルペアリング方法の必要性の更なる例として、ラボワークフローにおけるサンプル追跡のための同定がある。ゲノムワイドなコピー数プロファイリングのために複数のローパス全ゲノムシーケンスサンプルをシーケンスする場合、サンプルの取り違えがないこと、及びラボ情報管理システム(Laboratory Management Information System)(LIMS)における患者サンプルコード割り当てがシーケンスデータから得られた患者割り当てと一致していることを検証することが有益でありうる。
【0020】
サンプルペアリング方法の必要性の別の例は、同種造血細胞移植(allo-HSCT)の患者における内皮細胞由来(宿主又はドナー)の評価である。ドナー由来内皮細胞の検出は、GVHDの初期段階における標的としての血管内皮の潜在的な役割、及びドナー由来内皮細胞の潜在的な免疫寛容原性の役割、並びに移植片対腫瘍に関する、内皮と移植片対宿主病(GVHD)の間の生理病理学的関係を研究する上で興味深い(Penack O.ら、「The importance of neovascularization and its inhibition for allogeneic hematopoietic stem cell transplantation」Blood、117巻、16号、2011年4月21日、4181~4189頁で概説されている)。性別不一致サンプルは、そのような解析を可能にするために使用されることが多いが、宿主及びドナーが同じ性別を有するサンプルを解析する方法があることが望ましいであろう。DEPArrayによる単一細胞単離後のSTR解析は、末梢血から濃縮された循環内皮細胞の解析が報告されている。しかし、FFPE等のアーカイブサンプルでの単一細胞STR解析は、単一細胞STR解析を妨げるDNA分解によりほとんど達成することができない。
【0021】
胎児染色体不均衡に関する循環cfDNAに基づく非侵襲的出生前スクリーニングは、低いレベルは偽陰性結果を生む可能性があるため、十分な胎児DNA画分(FF)について評価されうる。故に、胎児DNA画分を正確に推定し、QC閾値をパスしたことを確認して、試験サンプル中に存在する十分な量の胎児DNAを確保し、シーケンス結果の正しい解釈にたどり着けるようにすることが重要でありうる。一部のラボはFFを評価していないか、又は最適な検出方法を使用していないことがあり、これは患者に偽陰性結果を示す可能性がある。次世代シーケンスを使用して胎児DNA画分を推定するために開発された現在のアプローチには、以下が挙げられる:
・母親由来のcfDNAと異なる胎児/胎盤cfDNAの特徴の評価によるその推定の間接的推測(無細胞DNAサイズベースのアプローチ、無細胞DNAヌクレオソーム追跡ベースのアプローチ、胎児メチル化マーカーベースのアプローチ、浅深度母体血漿DNAシーケンスデータベースのアプローチ(Shallow-Depth Maternal Plasma DNA sequencing Data-Based Approach))
・母親のバックグラウンドに存在しない遺伝子バリアントを直接評価及び定量化(Y染色体ベースのアプローチ、両親の遺伝子型ベースのアプローチによる母体血漿DNAシーケンスデータ、母体血漿DNAベースのアプローチの高深度シーケンスデータ、母親の遺伝子型ベースのアプローチによる浅深度母体血漿DNAシーケンスデータ) (Peng XL、Jiang P. Bioinformatics Approaches for Fetal DNA Fraction Estimation in Noninvasive Prenatal Testing. Int J Mol Sci. 2017年2月20日;18(2):453頁)。
【0022】
両親の遺伝子型ベースのアプローチ(主にSNPの解析による)による母体血漿DNAシーケンスデータを用いると、母体血漿中の胎児特異的アレルは配列リードから容易に同定することができる。この方法は、胎児DNA画分を評価する直接的及び正確な方法であり、一般にゴールドスタンダードとみなされているにもかかわらず、このアプローチの実現可能性は両親の遺伝子型の要件によって妨げられることがある。その理由は、i)母親の血液サンプルのみが採取されることになり、ほとんどの臨床環境で母体血漿DNAがNIPTのシーケンスを受ける;及びii)実父の遺伝子型は実際には利用できない可能性があることが珍しくないためである。
【0023】
両親の遺伝子型情報の要件を取り除くために、ターゲット超並列シーケンスを使用して高深度の母体血漿DNAシーケンスデータの解析により胎児DNA画分を測定するアプローチが開発された。この方法では、観察されたアレル数を基本的な4つのタイプの母親-胎児遺伝子型組み合わせの使用に適合させるために二項混合モデルが使用され、胎児画分は最尤推定により決定された。このアプローチの限界は、検査費用に影響を与える胎児アレルをロバストに決定するターゲットシーケンスによって約120×もの高いシーケンス深度が必要とされることであろう。
【0024】
近年、このアプローチの拡大バージョンが、母親の遺伝子型情報のみと連動する浅深度シーケンスデータに基づき開発された(母親の遺伝子型ベースのアプローチによる浅深度母体血漿DNAシーケンスデータ)。このアプローチの原理は、母親がホモ接合性であるSNP遺伝子座に存在する任意の代わりのアレル(非母性アレル)は、胎児特異的DNAアレルを理論上示唆することになるという事実の利用である。故に、シーケンス及び遺伝子型判定プラットフォームから生じるエラー率は、異なるケースにわたって比較的一定しているという仮定のもと、そのような非母性アレルの画分は胎児DNA画分と相関するという仮説が立てられた。しかし、このモデルのパラメーターは、シーケンス及び遺伝子型判定プラットフォームによって異なりうる。その理由は、種々のエラー特性により様々なプラットフォームが特徴付けられており、測定された非母性アレルに寄与する可能性があるためである。そのため、浅深度母体血漿DNAシーケンス、及びホモ接合性母性遺伝子座(母性バフィーコートのSNParrayベースの遺伝子型判定によって得られた)により、胎児コピー数変動の検出と同時にFFを確実に測定することは困難なことが明らかである。
【0025】
最も近い先行技術文献の中では、以下が引用されうる:同じ対象からのNGSデータセットが正しくペアリングされることを確保する方法を教示する、Sejoon Leeら、「NGSCheckMate: software for validating sample identity in next-generation sequencing studies within and across data types」、Nucleic Acids Research、2017、45巻、11号。NGSCheckMate方法は、約12k又は21k一塩基多型(SNP)遺伝子座のアレルリード画分を比較し、同一及び非血縁サンプルの類似度指標の深度依存的挙動を検討するモデルベースの方法を使用して、FASTQ、BAM又はVCFファイルからサンプル同一性を検証する。NGSCheckMateは、エクソームシーケンス、全ゲノムシーケンス、RNAseq、ChIP-seq、ターゲットシーケンス、及び単一細胞全ゲノムシーケンスを含む様々なデータタイプに有効であるが、>0.5×のシーケンス深度の要件を教示する。血縁又は親子関係サンプルの場合、要件は更に高い(>3×)。実際、Sejoon Leeらが、それらの方法を、深度(0.01~0.3×)でシーケンスされた2人の非血縁神経膠芽腫患者由来の単一がん細胞(各患者から39及び50細胞)の89個のWGSプロファイルからなるデータセットでテストして、CNVを単一細胞レベルで特徴付けたとき、細胞のグループ化において87.8%の確度しか達成しなかった。すべての誤分類エラーは、いくつかの細胞が特に浅いシーケンス深度(<0.15X)であったことによる。
【0026】
単一細胞からの全ゲノム増幅、及びローパス全ゲノムシーケンス
単一細胞ゲノムDNAの全ゲノム増幅(WGA)は、シーケンス、SNP検出等を含む種々のタイプの遺伝子解析を簡単及び/又は可能にするために、より多くのDNAを得ることがしばしば必要とされる。確定的制限酵素部位に基づくLM-PCRによるWGA(以下ではDRS-WGA)がWO2000/017390から知られている。
【0027】
DRS-WGAは、多くの観点で、特に単一細胞からのより低いアレルドロップアウトの点で、クラス最高のWGA方法であることが示されている(Borgstromら、2017; Normandら、2016; Babayanら、2016; Binderら、2014)。
【0028】
LM-PCRベースのDRS-WGA市販キット(Ampli1(商標)WGAキット、Silicon Biosystems社)は、Hodgkinson C.L.ら、Nature Medicine 20、897~903頁(2014)で使用されている。この研究では、シーケンスのためのIllumina社バーコードアダプターライゲーションの前にWGAアダプターの消化及び断片化を実施して、単一細胞WGA材料についてのローパス全ゲノムシーケンスによるコピー数解析が行われた。
【0029】
WO2017/178655及びWO2019/016401A1は、ローパス全ゲノムシーケンス及びコピー数プロファイリングのためにDRS-WGA(例えばAmpli1 WGA)から超並列シーケンスライブラリーを調製する単純化された方法を教示する。Ferrariniら、PLoSONE 13(3):e0193689 https://doi.org/10.1371/journal.pone.0193689では、Ion Torrentプラットフォームを使用するWO2017/178655の方法性能がコピー数プロファイリングに関して詳述されている。
【0030】
DRS-WGAは、アレイCGH、メタファーゼCGHを使用する場合、微量のマイクロダイセクションFFPE材料からのコピー数プロファイルの解析(Stoeckleinら、Am J Pathol. 2002年7月; 161(1):43~51頁; Arnesonら、ISRN Oncol. 2012;2012:710692. doi: 10.5402/2012/710692. Epub 2012年3月14日)、並びにターゲットプライマーを使用したヘテロ接合性の消失等の他の遺伝子解析アッセイではDOP-PCRより優れており、選択されたマイクロサテライトの解析のためのPCRより優れていることが示されている。しかし、FFPE DNA品質によっては単一細胞FFPE LP-WGSは可能であるが、より低いDNA品質スコアに対しては非実用的になりうることが示された(Mangano, C.、Ferrarini, A.、Forcato, C.ら「Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma.」Blood Cancer J. 9、92 (2019). https://doi.org/10.1038/s41408-019-0256-y)。
【0031】
まとめると、低カバレッジ(<0.15×)シーケンスデータを用いて、単一細胞解像度に至るサンプル識別を推測し、及び/又は類似度を解析することを可能にし、先行技術に固有の以下の制約の1つ又は複数を克服する方法を提供する必要性がある:
- 別個のマイクロサテライト解析アッセイの必要性;
- 別個のSNP遺伝子型判定アッセイの必要性;
- 全ゲノムシーケンスカバレッジ>0.5×;
- 検証又は追加のターゲットゲノム情報のために単一細胞を確実に再解析できないこと。
【0032】
単一細胞法医学的識別については、たとえ品質が悪くても、複数の単一細胞サンプルの各々の同一性を割り当て、前記サンプルが属する個体の遺伝的特徴を更に調べる効率的な方法があることが望ましいであろう。
【0033】
単一CTC解析又は単一FFPE細胞等の単一細胞解析を含む、腫瘍サンプルのゲノムワイドなコピー数プロファイリングについては、固有のサンプル追跡アルゴリズムを提供してローパス全ゲノムシーケンスサンプルの交換を回避し、及び/又は異なるサンプルの取り違えを検出することが望ましくなりうる。
【0034】
母親の血液から回収された循環胎児細胞の非侵襲的出生前検査又は診断については、単一アッセイにおいて、(i)胎児ゲノムワイドプロファイリング(例えば、ゲノムワイドなコピー数プロファイリング)を、(ii)サンプルの胎児由来を裏付けられることと組み合わせて効率的な解析方法があることが望ましいであろう。
【0035】
ローパスゲノムワイド超並列シーケンスを使用する母親由来の無細胞DNAと混合された循環胎児無細胞DNAに基づく非侵襲的出生前検査については、i)胎児成分の同定、及び母親の成分と比べた胎児成分の量の評価(例えば:胎児画分、FF)、並びにii)同じローパスシーケンスデータからのサンプルにおけるゲノムワイドなコピー数プロファイリングを可能にする効率的な解析方法があることが望ましいであろう。
【0036】
例えば胚盤胞、使用済み胚培養培地の着床前遺伝子スクリーニング(PGS;着床前遺伝子検査又は「PGT」とも呼ばれる)については、(i)例えばサンプルにおける異数性の有無を確認するのに使用することができる、ゲノムワイド胚ゲノムプロファイリング(例えば、ゲノムワイドなコピー数プロファイリング)の能力、並びに(ii)同じローパスシーケンスデータから母性汚染の非存在を定量化及び/又は決定する能力を組み合わせた、解析からの偽陰性又は性別不一致コールを回避するために母親の細胞又は外因性汚染を検出及び/又は定量化する単一アッセイを使用する方法があることが望ましいであろう。
【0037】
出生前サンプル(例えば:絨毛膜絨毛、羊水、受胎の産物)については、i)胎児ゲノムワイドプロファイリングの能力、並びに(ii)同じローパスシーケンスデータから母性汚染の非存在を定量化及び/又は決定する能力を組み合わせた、解析からの偽陰性又は性別不一致コールを回避するために母親の細胞又は外因性汚染を検出及び/又は定量化する単一アッセイを使用する方法があることが望ましいであろう。
【0038】
これに加えて、任意の胚-胎児発生段階の受胎産物に由来する遺伝子材料における奇胎妊娠、多胎妊娠(バニシング/キメラを含む)、片親性ダイソミー(アイソダイソミー又はヘテロダイソミー)等の状態、及びROH(特許第WO2021019459A1号)、血縁関係及び性染色体不分離エラー分類を検出する単一アッセイを使用する方法があることが望ましいであろう。
【0039】
細胞株認証については、同時に、
(i)あまり利用できないキャピラリー電気泳動装置でSTR解析を実行する必要のない、広く利用可能な超並列シーケンサーを使用した細胞株の同定、及び
(ii)多い培養継代数によるゲノム不安定性又は人為現象に関連するドリフトを検出する可能性がある細胞株のゲノムワイドなプロファイリング(例えば、ゲノムワイドなコピー数プロファイリング)
のための単一アッセイを使用する方法があることが望ましいであろう。
【0040】
同種造血幹細胞移植における内皮細胞に関する解析等において、由来する個体の単一細胞特徴付けが望ましいFFPEアーカイブサンプルについては、FFPEから単離(選別又は顕微解剖)された単一細胞から信頼性の高い結果を示すことができる手法があることが望ましいであろう。
【先行技術文献】
【特許文献】
【0041】
【特許文献1】Manaresiら、EP2152859B1
【特許文献2】WO2000/017390
【特許文献3】WO2017/178655
【特許文献4】WO2019/016401A1
【特許文献5】特許第WO2021019459A1号
【非特許文献】
【0042】
【非特許文献1】Fontanaら、「Isolation and genetic analysis of pure cells from forensic biological mixtures: The precision of a digital approach」、Forensic Sciences International: Genetics 2007、http://dx.doi.org/10.1016/j.fsigen.2017.04.023
【非特許文献2】K. Anslinger、B. Bayer、「Whose blood is it? Application of DEPArrayTM technology for the identification of individual/s who contributed blood to a mixed stain」Int J Legal Med. 2019年3月;133(2):419~426頁. doi: 10.1007/s00414-018-1912-7. Epub 2018年8月18日
【非特許文献3】K. Huffman、E. Hanson及びJ Ballantyne、「Recovery of single source DNA profiles from mixtures by direct single cell subsampling and simplified micromanipulation」、Science & Justice 61巻、1号、2021年1月、13~25頁
【非特許文献4】Vossaert L、Wang Q、Salman Rら「Validation Studies for Single Circulating Trophoblast Genetic Testing as a Form of Noninvasive Prenatal Diagnosis」American Journal of Human Genetics (2019) 105(6) 1262~1273頁
【非特許文献5】L.D. Jeppesenら、「Cell-based non-invasive prenatal diagnosis in a pregnancy at risk of cystic fibrosis」Prenatal Diagnosis. 2020;1~7頁
【非特許文献6】Zhuo X、Wang Q、Vossaert L、Salman R、Kim A、Van den Veyver Iら(2021)「Use of amplicon based sequencing for testing fetal identity and monogenic traits with Single Circulating Trophoblast (SCT) as one form of cell-based NIPT」PLoS ONE 16(4): e0249695. https://doi.org/10.1371/journal.pone.0249695
【非特許文献7】Sunde Lら、「Hydatidiform mole diagnostics using circulating gestational trophoblasts isolated from maternal blood」Mol Genet Genomic Med. 2020;00:e1565. https://doi.org/10.1002/mgg3.1565
【非特許文献8】Penack O.ら、「The importance of neovascularization and its inhibition for allogeneic hematopoietic stem cell transplantation」Blood、117巻、16号、2011年4月21日、4181~4189頁
【非特許文献9】Peng XL、Jiang P. Bioinformatics Approaches for Fetal DNA Fraction Estimation in Noninvasive Prenatal Testing. Int J Mol Sci. 2017年2月20日;18(2):453頁
【非特許文献10】Sejoon Leeら、「NGSCheckMate: software for validating sample identity in next-generation sequencing studies within and across data types」、Nucleic Acids Research、2017、45巻、11号
【非特許文献11】Hodgkinson C.L.ら、Nature Medicine 20、897~903頁(2014)
【非特許文献12】Ferrariniら、PLoSONE 13(3):e0193689 https://doi.org/10.1371/journal.pone.0193689
【非特許文献13】Stoeckleinら、Am J Pathol. 2002年7月; 161(1):43~51頁; Arnesonら、ISRN Oncol. 2012;2012:710692. doi: 10.5402/2012/710692. Epub 2012年3月14日
【非特許文献14】Mangano, C.、Ferrarini, A.、Forcato, C.ら「Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma.」Blood Cancer J. 9、92 (2019). https://doi.org/10.1038/s41408-019-0256-y
【非特許文献15】Boeva、V.ら、Bioinformatics 2012年2月1日;28(3):423~5頁
【非特許文献16】Mangano C.ら、「Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma」、Blood Cancer Journal 9巻、92号(2019)
【発明の概要】
【発明が解決しようとする課題】
【0043】
したがって、先行技術方法の欠点を克服する方法を提供することが本開示の目的である。
【0044】
特に、単一細胞にまで至る、少ない細胞、並びに1ゲノム当量と同等の又は1ゲノム当量より低いDNA量に適合した、ゲノムDNAを含む複数のサンプル中の少なくとも2つのサンプルの類似度を解析する方法を提供することが本開示の目的である。
【課題を解決するための手段】
【0045】
この目的は、請求項1に定義される方法によって達成される。
【図面の簡単な説明】
【0046】
図1】当技術分野で公知のランダム断片化ライブラリー調製に対して、DRS-WGAとそれに続く断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を含む本開示の方法を使用した、自己と非血縁サンプルの間のより高度な分離を示す図である。
図2】最も高いヘテロ接合性に基づき遺伝子座の数を300k多型遺伝子座に増加させる効果(本開示による)vs 21k SNPのNGScheckMate選択の効果を示す図である:識別能は増加する。
図3A】本開示による種々方法を用いて計算された、同一(自己)又は異なる(非血縁)個体(細胞株を使用する)に属するペアサンプルの類似度スコアの分布を示す図である。図3Aでは、相関が間隔法(NGSCheckMateの標準的な方法)として使用される。図3Bでは、サンプルの類似度を評価するのに一致が使用される。詳細には:- コールされたアレルが同じであるならば、スコアに1を足す;- コールされたアレルが一部重複するならば(例えば、一方のサンプルが2アレルを有し、他方は1アレルのみを有するならば)、0.5を足す; - コールされたアレルが異なるならば、スコアに0を足す。スコアは次いで、比較される両方のサンプルにおいてカバーされたアレルの数で割る。
図4】最小平均ヘテロ接合性、リード数、及び自己サンプルと非血縁サンプルの間の得られた分離等のパラメーター間の関係を示す図である。
図5】1サンプルあたり500,000に等しいリード数の自己女親及び非血縁サンプルに対する血縁サンプルの分類の性能を示す図である。
図6】最小平均ヘテロ接合性(範囲=0.2-0.498)の関数としての、自己(女親)、血縁、及び非血縁サンプルの女親サンプルに対する一致として計算されたペアワイズ類似度スコアの分布を示す図である。
図7】双胎妊娠を検出する方法を示す略図である。母体対照との「血縁」によって記載される胎児細胞のペアワイズ予測はすべて、胎児細胞の「コミュニティー」を見出すためのグラフクラスタリングアルゴリズムへのインプットとして使用される。
図8】2つの別々の母体サンプルの末梢血から単離された赤芽球細胞回収物中の、女親サンプルに対して計算された平均ペアワイズ類似度スコアの分布を示す図である。
図9】サンプルBO1368からの細胞回収物のクラスタリングベースの分類を示す図である。2つの混合細胞のシルエットスコアは胎児細胞のものよりはるかに低く、それらを胎児から識別し、混合サンプルによる新たなクラスターを作成するのに使用することができる。
図10】サンプルBO1368からの細胞回収物のクラスタリングベースの分類を示す図である。
図11】最大で自己サンプルの50%成分を含む非血縁サンプルに対する個々のサンプルの分類の性能を示す図である。図11Aは、血縁クラスのTPR及び1-PPVを「一致(agreement)」閾値の関数として用いた「ROC型」プロットである。図11Bは、異なるAvHetでのTPR及びPPVを示す。閾値(グレー)は少なくとも99.9%のppvを有するように設定されている。閾値は第2のy軸にグレーで示されている。
図12】異なる個体からの様々な汚染度を有するペアサンプルについて計算されたペアワイズ類似度スコア(一致)の分布を示す図である。
図13】FFPEサンプルからの単一細胞回収物の個体同一性による分類を示す図である。4人の患者からのFFPEサンプル(リンパ腫)。500,000リードサブサンプル。一致(agreement)に基づく一致(concordance)。比較は、一方又は両方のメンバーがDLRS>0.4ならばhighDLRS(x軸)、両方のメンバーがDLRS≦0.4ならばlowDLRSとして標識されている。図13Cは、クラスタリングがすべてのFFPEサンプルを4つの個体に対応する4つの異なるクラスターに正しく割り当てることを示す。
図14図14は、様々な程度の母親のDNA汚染0(100%胎児)~90%(10%胎児)を有する無細胞使用済み培養培地のインシリコシミュレーション、及び関連する類似度スコアを示す図である。特に、図14は、種々の比率の単一胎児細胞由来のDNA配列を母親の細胞由来の配列とインシリコで混合して行われたシミュレーションを示す。実線は種々の胎児インプット率での平均ペアワイズ類似度スコアに対応する。網掛け部分は95%信頼区間に対応する。破線は、既知の%の母親の成分(80%)を含む混合サンプル、及び母体参照=0.807でのペアワイズ類似度スコアの例を示す。モデルによれば、これは、母親のDNAからの推定汚染≒75%に対応する平均予測胎児成分=27.7%(C.I.=25.4%-30.7%)を有する。
図15】混合サンプルのゲノムワイドなコピー数解析における汚染を補償する効果を示す図である。特に、該図は、単一胎児細胞由来のDNA配列(20%)と母親の細胞由来の配列(80%)との異なる比率のインシリコ混合によって得られた混合サンプルのゲノムワイドなコピー数解析を表す。図15Aは、ゲノムワイドなコピー数プロファイルを示し、各ドットは10Mbpゲノムビンに対応する。図15Bは、母体参照とのペアワイズ類似度スコアに基づく母親のDNAからの推定汚染割合に基づき、補正因子=0.75を適用後のゲノムワイドなコピー数を示す。統計的に有意な変化は黒い実線として示される。
【発明を実施するための形態】
【0047】
定義
特に定義されない限り、本明細書で使用される専門用語及び科学用語はすべて、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。本明細書に記載されたものと類似した又は同等の多くの方法及び材料が本開示の実施又は試験において使用されうるが、好ましい方法及び材料は以下に記載される。特に言及されない限り、本開示とともに使用するための本明細書に記載された手法は当業者に周知の標準的な方法論である。
【0048】
「超並列次世代シーケンス(massive-parallel next generation sequencing) (NGS又はMPS)」という表現により、クローンシーケンスされる(事前にクローン増幅する又はしない)、空間的及び/又は時間的に分けられたDNA分子のライブラリーの作成を含む、DNAをシーケンスする方法が意図される。例には、Illuminaプラットフォーム(Illumina Inc社)、Ion Torrentプラットフォーム(Thermo Fisher Scientific Inc社)、Pacific Biosciencesプラットフォーム、MinIon(Oxford Nanopore Technologies Ltd社)が含まれる。
【0049】
「ローパス全ゲノムシーケンス(low-pass whole genome sequencing)」という表現により、参照ゲノム全体を基準にして1×より低い平均シーケンス深度での、配列特異的断片が濃縮されていない超並列シーケンスライブラリーの全ゲノムシーケンスが意図される。この定義は、例えば一塩基多型(SNPs)及び/又はショートタンデムリピート(STR)遺伝子座等の一連の遺伝子座に関するPCRベースの標的濃縮又は配列特異的キャプチャーベイト標的濃縮の場合を明示的に排除する。
【0050】
「平均シーケンス深度」という表現により、サンプルごとに合計参照ゲノムサイズで割った、参照ゲノムにマッピングされたシーケンスされる塩基の総数が本明細書において意図される。シーケンスされ、マッピングされる塩基の総数は、マッピングされたリードの数かける平均リード長に近似しうる。
【0051】
「参照ゲノム」という表現により、特定の種の参照DNA配列が意図される。
【0052】
「遺伝子座(locus)」(複数形「loci」)という用語により、染色体上の定位置(参照ゲノムと比べて)が意図される。
【0053】
「多型遺伝子座」という表現により、集団内で1%より大きな観察頻度で2つ以上のアレルを有する遺伝子座が意図される。
【0054】
「ヘテロ接合遺伝子座」という表現により、特定のサンプルで観察される2つ以上のアレルを有する遺伝子座が意図される。
【0055】
遺伝子座の「平均ヘテロ接合性」という表現により、1からアレル頻度の二乗和を引いた値が意図される。特に、積2pq(p及びq=(1-p)は、集団内で2つのアレルを有する遺伝子座の場合の遺伝子座のアレル頻度である)、又は積和2pq+2pr+2qr(p、q及びr(ただしp+q+r=1)は、3つの可能性のあるアレルを有する遺伝子座の3つのアレル頻度である)。
【0056】
「カバーされるゲノム」という表現により、少なくとも1つのリードによってカバーされる参照ゲノムの一部が意図される。
【0057】
「リード」という用語により、シーケンサーによってシーケンスされる(「読み取られる」)DNAの一片が意図される。
【0058】
「削減率(reduction ratio)」という表現により、参照ゲノム中の塩基の総数で割った、特定の塩基対範囲に含まれる、DRS-WGAで使用される制限酵素による参照ゲノムのインシリコ消化によって得られた断片の塩基の総数が意図される。
【0059】
「アレル内容(allelic content)」という表現により、遺伝子座で検出されるアレルに関する組成が意図される。
【0060】
「断片化しないシーケンスアダプター/WGA融合プライマー及びPCR反応(fragmentation-free, sequencing adaptor/WGA fusion-primer and PCR reaction)」超並列シーケンスライブラリー調製という表現により、DNA断片化工程のないDRS-WGA産物の超並列シーケンスライブラリー調製が意図され、それによりシーケンスアダプターが、例えば特許出願(WO2017/178655)又は(WO2019/016401A1)に従って融合プライマーによってWGA産物に付加される。
【0061】
「ペアワイズ類似度スコア」という表現により、有限終域(finite codomain)を有する複数のペアインプットの関数が意図される。終域は、ペアインプット数と無関係に[-1;1]又は[0;1]等の標準値に対して好ましくは正規化される。
【0062】
「サンプルクラスタリング」という表現により、同じ区分(「クラスター」とも言われる)に属するサンプルが、その区分のサンプルにDNAで実質的に寄与する1つの個体(又は複数の個体)の同一性、不十分な量のDNAを含有する特性、及び高度に分解されたDNA若しくは由来不明のDNAを含有する特性からなる群から選択される共通の特性を共有するようにサンプルを分割するためのアルゴリズムが意図される。
【0063】
グラウンドトゥルースが不明な場合、複数のサンプルを同種の明確に定義されたクラスターに分割するのに「最適な」クラスター数を決定するために使用することができる「シルエットスコア」、「Calinski-Harabasz指数」、「Davies-Bouldin指数」等のクラスタリングアルゴリズムの性能評価のいくつかの指標が当技術分野で知られている。
【0064】
「同一性クラスター(identity-cluster)」という表現により、ただ1つの同一個体由来のDNAを高確率で含有するサンプルからなる群が意図される。高確率(以下Prob[単一ID])の意味は適用によって左右される。その理由は、当業者が適用の詳細及びその性能要件に関連して理解し、定義することになるためである。例えば、胎児細胞解析の場合、少なくとも3個の単一「推定」胎児細胞(すなわち、母体参照と血縁関係にある細胞の同一性クラスターに属する)のみが個別に解析され、報告されると、診断が出されると想定する。ローパスWGSから得られたコピー数プロファイルを使用した、例えば異数性の診断は、罹患胎児由来の細胞がなければ正常に機能せず、解析される細胞はすべて、胎児細胞と間違われた母体細胞である。更に、異数体胎児の検出のための最小感度(Sens_min)を許容可能と想定する。各単一細胞同一性のミスコールに起因する異数体胎児を正常とコールするその後の確率は、診断の根拠となる細胞すべてが母体細胞の代わりに胎児細胞とコールされることを必要とするであろう。一般に、これらの事象(母体参照とのペアワイズ比較)は、推定胎児細胞の中で独立していると想定することが妥当であり、故にProb[解析されたNcellsのFalse_ID]=Prob[False_ID]Ncells(Ncellsは個別に解析された細胞の数であり、Prob[False_ID]=1-Prob[Single_ID]は、サンプルを同一個体の同一性クラスター(より具体的には、上述の通り、母体参照と血縁関係にあるサンプルのクラスター)に属するとコールする上でのエラーの確率である)。
(1-Prob[Single_ID])Ncells≦(1-Sens_min)、すなわち
Prob[Single_ID]≧1-(1-Sens_min)1/Ncells
とするほうがいい場合もあるであろう。
例えば、Sens_min=99.9%では、Ncells=5はProb[Single_ID]≧75%を必要とするが
Ncells=3と考えれば、Prob[Single_ID]≧90%を必要とすることになる。
【0065】
両方の場合とも、真の胎児細胞が実際に解析されるが、異数性を検出しない確率のような他のエラー源は便宜上排除する。
【0066】
証明力のないサンプルの科学捜査及び精密検査の場合、高確率の意味は異なる可能性がある。例えば、本開示による方法は、個々の細胞の数NcellsからSTRプロファイルを再構築するのに使用することができる。DNAデータベース検索の許容可能な厳密さ、解析される単一細胞の数、ケースワークからの個々のサンプルごとの平均STRコール率に応じて、目的を満たすための高確率(Prob[Single_ID])の厳密値に異なる要件が生じうる。
【0067】
この要件は解析的にモデル化するのがより難しく、利用可能なデータベースを使用し、様々な程度のアレルドロップアウト、実際に解析された単一細胞の数、及びプロファイルの再構築におけるアルゴリズム選択をインシリコでシミュレートすることによって、例えばモンテカルロシミュレーションによって導かれうる。
【0068】
「単一個体WGA-DNAサンプル」という表現により、単一個体由来のDNAを含有するサンプルから得られたDRS-WGA産物の混合物を含むサンプルが意図される。
【0069】
「非侵襲的出生前検査」という表現により、胎児無細胞DNA又は母親の血液中に循環するインタクトな胎児細胞を評価するために遺伝子アッセイを実施することが意図される。
【0070】
「着床前遺伝子検査/スクリーニング」という表現により、例えば、発生中の胚における異数性(多すぎるか又は少なすぎる染色体)の存在を決定するコピー数変化のゲノムワイドな解析によって子宮に移植される前の胚を評価するために、遺伝子アッセイを実施することが意図される。
【0071】
「着床前遺伝子診断」という表現により、例えば、常染色体優性及び劣性、若しくはX連鎖性であるものを含む単一遺伝子障害(例えば、ハンチントン病、嚢胞性線維症、脆弱X症候群)、又は遺伝性がん症候群(例えば、遺伝性乳がん及び卵巣がん、リンチ症候群)に関連する変異等の、発生中の胚における配列バリアントの存在をアッセイするために、ターゲットシーケンスによる着床前遺伝子検査が意図される。更に、この用語は、病気の家族メンバーが適合する骨髄移植又は臍帯血輸血を受けられるようにすることを目的に懐胎された、ヒト白血球抗原適合性の非罹患胚を同定するためのシーケンスが意図される。
【0072】
「胚サンプル」という表現により、例えば胚盤胞、使用済み胚培養培地、極体等の胚由来のDNAを含有するサンプルが意図される。
【0073】
「単一個体WGA-DNAデータ」という表現により、単一個体由来のDRS-WGA DNAを含有するサンプルから得られたシーケンスデータを統合して得られたデータが意図される。
【0074】
出生前医療及び生殖医療における本開示による方法の適用を記載する上で、便宜上、進行中の妊娠からの胚、胎児に卵子を提供した女性個体に関して(その女性は、前記胚又は胎児等に対応する子孫を出産した結果としての母親にまだなっていない可能性があるが)、「母親の、母体の(maternal)」という用語は、その意味を「女性(woman)に属すること」又は「女親(female parent)に属すること」に拡大するのに使用され、「母親(mother)」は「女性」又は「女親」に拡大するのに使用されうる。
【0075】
同様に、進行中の妊娠からの胚、胎児、胞状奇胎に精子を提供した男性個体に関して(その男性は、前記胚又は胎児等に対応する子孫を女性が出産した結果としての父親にまだなっていない可能性があるが)、「父親の(paternal)」という用語は、その意味を「男性(man)に属すること」又は「男親(male parent)に属すること」に拡大するのに使用され、「父親(father)」は「男性」又は「男親」に拡大するのに使用されうる。
【0076】
詳細な説明
本開示による方法は、ゲノムDNAを含む複数のサンプルの解析に適用される。特に、方法は、ゲノムDNAを含む複数のサンプル中の少なくとも2つのサンプルの類似度を解析するための方法である。ある特定の実施形態ではサンプル種はヒト(Homo Sapiens)であり、特に断りのない限り、適用可能な場合、他の種への適用可能性に限定されることなくこの種が本明細書の残りの部分で言及される。
【0077】
方法は、以下の工程を含む。
【0078】
工程a)では、ゲノムDNAを含む複数のサンプルが提供される。
【0079】
工程b)では、前記ゲノムDNAの確定的制限酵素部位全ゲノム増幅(DRS-WGA)が各サンプルで別々に実施される。
【0080】
工程c)では、断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を使用して、超並列シーケンスライブラリーが前記DRS-WGAの各産物から調製される。
【0081】
工程d)では、ローパス全ゲノムシーケンスが前記超並列シーケンスライブラリーで<1×の平均カバレッジ深度で実施される。平均カバレッジは、好ましくは0.01×、好ましくはカバレッジ<0.05×、より好ましくはカバレッジ<0.1×、更により好ましくはカバレッジ<0.5×である。これは、適用に関連する解析において良好な結果を維持しながら、シーケンスコストの削減を可能にする。
【0082】
工程e)では、工程d)で得られたリードが参照ゲノムにアラインされる。
【0083】
工程f)では、複数の多型遺伝子座のアレル内容がサンプルごとに抽出される、すなわち、アラインされたリードから得られる。前記複数の遺伝子座は、検討される種の多型遺伝子座を含む。
【0084】
前記複数の多型遺伝子座は、好ましくは、平均ヘテロ接合性>0.499、より好ましくは平均ヘテロ接合性>0.49、更により好ましくは平均ヘテロ接合性>0.4、更により好ましくは平均ヘテロ接合性>0.3、最も好ましくは平均ヘテロ接合性>0.2で多型遺伝子座を含む。
【0085】
前記複数の多型遺伝子座は、好ましくは、>200,000遺伝子座、より好ましくは>300,000遺伝子座、更により好ましくは>500,000遺伝子座、最も好ましくは>1,000,000遺伝子座を含む。
【0086】
工程g)では、少なくとも2つのサンプルのペアワイズ類似度スコアが、前記複数の遺伝子座で測定されたアレル内容の関数として計算される。
【0087】
工程h)では、少なくとも2つのサンプルの類似度が類似度スコアに基づき決定される。
【0088】
一般に、類似度は、共有される多型遺伝子座のアレル内容の一致に基づき測定することができ、「共有される(shared)」という語は、遺伝子座が、一組又はセットの少なくとも2つのサンプル中のサンプルの少なくとも1つのDNAリードによってカバーされることを意味する。例えば、ペアワイズ類似度スコアは、少なくとも2つのサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたるBアレル頻度の相関を算出して好ましくは計算される。
【0089】
代わりの方法として、ペアワイズ類似度スコアは、両方のペアサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたる平均一致値を算出して好ましくは計算され、各遺伝子座の一致値は、以下の値:
a)コールされたアレルが同一であるならば1;
b)コールされたアレルが異なる又は完全に異なるならば0;
c)コールされたアレルが一部重複しているならば0.5
のうちの1つが割り当てられる。
【0090】
例えば、一部の実施形態では、各遺伝子座の一致値は、
A1)コールされたアレルが同一であるならば1;及び
B1)コールされたアレルが異なるならば0
が割り当てられてもよい。或いは、一部の実施形態では、各遺伝子座の一致値は、
A2)コールされたアレルが同一であるならば1;
B2)コールされたアレルが完全に異なるならば0;及び
C2)コールされたアレルが一部重複しているならば0.5が割り当てられてもよい。
【0091】
本開示の目的のために、本明細書に記載された方法は、サンプル(例えば、単一細胞サンプル、無細胞DNAサンプル等)を対にして、サンプル間の「類似」の程度を測定するのに使用することができる。対照サンプル、例えば、それぞれNIPTアッセイ又は父子鑑定の場合の母親/父親のサンプルをサンプルのセット(すなわち、「少なくとも2つのサンプル」)に含めると、母親/父親の細胞と胎児細胞等のサンプル間の識別の改善を可能にすることができる。
【0092】
本開示による方法は、好ましくは、クラスターのサンプルにDNAで実質的に寄与する1つの個体(又は複数の個体)の同一性、又は不十分な量のDNAを含有する特性及び/若しくは高度に分解されたDNA若しくは由来不明のDNAを含有する特性等の共通の特性を共有するサンプルのクラスター群を定義する工程を更に含む。
【0093】
別の好ましい実施形態では、クラスタリングアルゴリズム(例えば、階層的クラスタリング)が、個々のサンプル(例えば、単一細胞)を使用して前記クラスターを見出すのに実行されうる。このタイプの解析はサンプル群を区別するのに最適でありえ、サンプルのうちの1つは、参照クラスターを同定するのに使用される参照サンプルである。例えば、NIPTアッセイでは、本明細書に記載の類似度スコアを使用して妊婦における胎児細胞等の他の細胞群を区別するための参照として母親の細胞のプールが使用されうる。最も正しいクラスター数を見出すための反復プロセス、最良のクラスター区分を選択するための品質スコア(例えば、シルエットスコア)、並びに混合回収物(例えば、複数のクラスターに属するサンプル)及び、NIPT解析の場合には多胎児を同定する方法を含む、一般にはクラスタリングアプローチ、具体的にはHCが実行されうる。
【0094】
好ましくは、少なくとも2つのサンプルは、前記ペアワイズ類似度スコアをインプットとして使用する分類子を用いて少なくとも1つのクラスターに割り当てられる。以下に更に詳細に記載されるように、分類子はクラスタリング解析とは無関係に使用されてもよい。
【0095】
好ましい実施形態では、前記クラスターの数の定義はペアワイズ類似度スコアの凝集型クラスタリングを行って実施される。
【0096】
好ましい実施形態では、そのような凝集型クラスタリングはユークリッド距離及びウォード法(ward linkage)を使用して行われる。
【0097】
好ましい実施形態では、そのようなクラスタリングは異なる代わりのクラスタリングアウトプットをもたらすある範囲のクラスター数を使用して行われる。
【0098】
好ましい実施形態では、そのような代わりのクラスタリングアウトプットはシルエットスコアを算出して評価され、すべてのサブクラスターにわたって平均シルエットスコアが最も高いクラスタリングが選択される。
【0099】
好ましくは、前記分類子は、
a)DLRS:derivative log ratio spread;
b)R50:少なくとも1つのリードによってカバーされる全WGA断片に対するシーケンスリードの50%によってカバーされるWGA断片の割合;
c)YFRAC:染色体Yにマッピングするリードの画分;
d)Aberrant:細胞倍数性中央値に関する増減に対応するゲノムの割合;
e)Chr13:染色体13の倍数性;
f)Chr18:染色体18の倍数性;
g)Chr21:染色体21の倍数性;
h)RSUM:細胞倍数性中央値からの絶対偏差が最も高いコピー数異常事象について計算された、最も近い整数のコピー数レベルからの平均絶対偏差;
i)Mix_score:細胞倍数性中央値からの絶対偏差が最も高いコピー数異常事象について計算されたRSUM zスコア;及び
j)Deg_score:小さな減少事象(<10Mbp、分解サンプルによく見られる)の数
を含む群から選択される、前記ローパス全ゲノムシーケンスデータについて測定された少なくとも1つの値を更なるインプットとして使用する。
【0100】
前記クラスター数は、
a)平均シルエットスコアを最大化するいくつかの第1の反復クラスター数を選択する工程;
b)前記第1の反復クラスターの1つ1つに対し第1の反復クラスターに属する前記サンプルの各々のシルエットスコアを算出する工程であって、範囲0.19-0.21に含まれる固定閾値より低いシルエットスコアを有するクラスターに属するサンプルが新たなクラスターに割り当てられる、工程
によって好ましくは計算される。
【0101】
好ましい実施形態では、前記クラスター群は、ただ1つの同一個体由来のDNAを高信頼度で含有するサンプルを含む1つ又は複数の同一性クラスターを好ましくは含む。
【0102】
複数の同一性クラスターの存在下、前記複数の同一性クラスターの濃度は、前記複数のサンプル中の個々のDNA寄与者の数に好ましくは対応する。
【0103】
好ましくは、方法は、混合同一性クラスター群を定義する工程を更に含み、前記混合同一性クラスターの各々は少なくとも2人からのDNAを含有するサンプルを含む。
【0104】
好ましくは、方法は、由来不明のDNAを含有するサンプルを含む、少なくとも1つのノーコール(no call)クラスターを定義する工程を更に含む。
【0105】
有利には、このクラスターは、類似度スコアを計算するために評価される遺伝子座の数が閾値より少ないサンプルを含む。有利には、前記閾値は、
1.サンプルのリード数、
2.比較に使用される遺伝子座の最小平均ヘテロ接合性
を含む群から選択される1つ又は複数の要素を考慮して確立される。
【0106】
複数のサンプルは、少なくとも1つの参照サンプルを好ましくは含み、前記同一性クラスター群は、前記参照サンプルを含む少なくとも1つの参照クラスターを含む。
【0107】
好ましくは、分類子は、主なインプットとして前記ペアワイズ類似度スコアを使用し、2つのペアサンプルのうちの少なくとも1つは参照サンプルであると想定してサンプルをペアで正しいクラスに割り当てるために、クラスタリング解析とは無関係に使用されうる。更に、機械学習分類子は、追加の特徴を使用して可能な限り高いレベルの信頼度を得ることができる。本開示の目的のために、分類子は、必ずしもサンプルをクラスターに割り当てるわけではなく、むしろサンプルをいくつかの定義済みのクラスの1つに割り当てることが理解される。故に、サンプルをクラスタリングせずに分類することが可能である。反対に、教師なしクラスタリング手法は、事前のクラス定義なしでサンプル間の類似度を見出すことができる。
【0108】
好ましい実施形態では、機械学習分類子(例えば、ランダムフォレスト)は、サンプルを区別するために実行され、適切な訓練セットを用いて訓練されうる。そのような分類子は、他の特徴の中でも、前記ペアワイズ類似度スコアを使用してもよい。このアプローチは、単一の試験サンプルを参照サンプルに対して評価する必要があるペアワイズ比較に最適でありうる。例は、既知の起源の細胞のプールを対照として(例えば、母親の細胞のプールを対照として)使用して単一細胞を分類することが目標である方法でありうる。細胞ベースの非侵襲的出生前検査例では、母親の細胞と胎児細胞を区別する場合)、予測されるクラスは、(i)母親の細胞の「自己」、(ii)胎児細胞の「血縁」、(iii)胎児細胞及び母親の細胞の混合物を含む回収物の「混合」、(iv)母親又は胎児と関係のないサンプルの「非血縁」(すなわち、外因性汚染、IVF妊娠における卵子提供者等)、及び指標が不十分な信頼できないサンプルの「ノーコール」でありうる。ランダムフォレスト分類子等の分類子は、前記ペアワイズ類似度スコアに加えて、ローパス全ゲノムシーケンスデータを用いて測定された、限定されないが以下を含む少なくとも1つの特徴からのインプットを使用してサンプルを区別することができる:
a)DLRS:derivative log ratio spread;
b)R50:少なくとも1つのリードによってカバーされる全WGA断片に対するシーケンスリードの50%によってカバーされるWGA断片の割合;
c)YFRAC:染色体Yにマッピングするリードの画分;
d)Aberrant:細胞倍数性中央値に関する増減に対応するゲノムの割合;
e)Chr13:染色体13の倍数性;
f)Chr18:染色体18の倍数性;
g)Chr21:染色体21の倍数性;
h)RSUM:細胞倍数性中央値からの絶対偏差が最も高いコピー数異常事象について計算された、最も近い整数のコピー数レベルからの平均絶対偏差;
i)Mix_score:細胞倍数性中央値からの絶対偏差が最も高いコピー数異常事象について計算されたRSUM zスコア;及び
j)Deg_score:小さな減少事象(<10Mbp、分解サンプルによく見られる)の数。
【0109】
更に、開示された方法に適した他のタイプの分類子は、例えば、「血縁」、「自己」又は「非血縁」関係を表す前記ペアワイズ類似度スコアの定義済みの固定閾値に依存しうる(すなわち、実施例6)。
【0110】
一部の実施形態では、分類子戦略は参照サンプルに対して試験サンプルを比較する一方、クラスタリング手法の目的は、それらのうちの1つが参照クラスターを同定するサンプルの群/クラスターを見出すことであることを考慮して、クラスタリング戦略(例えば、階層的クラスタリング)及び分類子戦略(例えば、RF分類子)を互換的に使用して、配列リードデータに基づきサンプルを区別しうる。
【0111】
好ましい実施形態では、前記少なくとも1つの参照サンプルは妊娠中の女親個体由来のサンプルである。
【0112】
前記同一性クラスター群は、好ましくは、前記女親個体の進行中の妊娠からの少なくとも1人の胎児由来のサンプルによって構成される少なくとも1つの血縁クラスターを更に含有する。
【0113】
好ましくは、前記血縁クラスターは、ただ1つの同一胎児由来のDNAを含有するサンプルからなる複数の胎児クラスターに分割される。
【0114】
代替の好ましい実施形態では、前記少なくとも1つの参照クラスターは、被害者とは異なるただ1つの同一個体由来のDNAを含有するサンプルを含む少なくとも1つの加害者クラスターを定義する工程を更に含む科学捜査における被害者に対応するただ1つの同一個体由来のDNAを含有するサンプルによって好ましくは構成される。
【0115】
この場合、本開示による方法は、前記少なくとも1つの加害者クラスターの各々に属する複数のサンプルからのDRS-WGAアリコートをクラスターワイズ混合する工程と、対応する単一個体WGA-DNAサンプルをクラスターごとに作製する工程と、前記単一個体WGA-DNAサンプルの少なくとも1つについて更なるDNA解析を実施する工程とを好ましくは含む。
【0116】
方法は、前記少なくとも1つの加害者クラスターの各々に属する複数のサンプルからの、少なくとも1つのアッセイタイプの遺伝子解析データをクラスターワイズ統合する工程と、対応する単一個体WGA-DNAデータを前記少なくとも1つの加害者クラスターごとに作成する工程を好ましくは含む。
【0117】
アッセイタイプは、マイクロサテライト解析、一塩基多型解析、超並列ターゲットシーケンス、及び全ゲノムシーケンスからなる群から選択される。
【0118】
本開示の方法の1つの好ましい実施形態では、複数のサンプルは腫瘍及び/又は正常サンプルを含む。
【0119】
別の好ましい実施形態では、複数のサンプルは女親個体由来のDNAを含有する少なくとも参照サンプルを含み、前記複数のサンプルからの少なくとも1つの他の胚サンプルは、
a)前記女親個体に由来する胚由来のDNAを含有するサンプル;及び
b)前記女親個体の胚から得られた使用済み胚培養培地からのDNAを含有するサンプル
からなる群から選択される。
【0120】
後者の実施形態では、方法は好ましくは、前記女親個体サンプルからの前記少なくとも1つの他の胚サンプルの前記ペアワイズ類似度の関数としての、前記少なくとも1つの他の胚サンプルにおいて測定された母性汚染に対応する汚染係数を使用して、前記少なくとも1つの他の胚サンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記胚の着床前遺伝子スクリーニングを実施する工程を更に含む。
【0121】
別の好ましい実施形態では、複数のサンプルは、女親個体由来のDNAを含有する少なくとも参照サンプル、及び無細胞DNAサンプルからのDNAを含有する少なくとも1つの他のサンプルを含む。一部の実施形態では、方法は好ましくは、前記ペアワイズ類似度の関数としての、前記少なくとも1つの無細胞DNAサンプルにおいて測定された胎児画分に対応する補正因子を使用して、前記少なくとも1つの無細胞DNAサンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記無細胞DNAサンプルの非侵襲的出生前検査を実施する工程を更に含む。
【0122】
別の好ましい実施形態では、複数のサンプルは、女親個体由来のDNAを含有する少なくとも参照サンプル、及び絨毛膜絨毛、羊水、又は受胎の産物由来のDNAを含有する少なくとも1つの他の出生前サンプルを含む。一部の実施形態では、方法は好ましくは、前記ペアワイズ類似度の関数としての、前記少なくとも1つの出生前サンプルにおいて測定された母性汚染又は外因性汚染に対応する補正因子を使用して、前記少なくとも1つの出生前サンプルからの前記ローパス全ゲノムシーケンスデータからゲノムワイドな染色体異常を解析することによって前記出生前サンプルの出生前検査アッセイを実施する工程を更に含む。
【0123】
特に細胞株認証のために、好ましくは、複数の参照クラスターは、細胞株由来のDNAの複数のサンプルから生成され、前記同一性クラスター群は、認証される細胞株由来の少なくとも1つのサンプルを更に含有する。
【0124】
特に同種移植片を調べるために、好ましくは、前記少なくとも1つの参照クラスターは、移植患者由来の生殖細胞系DNAを含有するサンプルによって構成され、前記同一性クラスター群は、前記移植患者の同種ドナー由来のサンプルによって構成される1つのドナークラスターを更に含有する。
【0125】
特に非侵襲的父子鑑定のために、好ましくは、前記少なくとも1つの参照サンプルは、男親由来のDNAのみを含有する前記男親参照サンプルを含み、前記少なくとも1つの参照クラスターは、前記男親のサンプルを含む男親同一性クラスターを更に含み、
(i)男親のサンプルに対する血縁サンプル類似度スコアが血縁と一致するならば、父親であることは裏付けられ、
(ii)男親のサンプルに対する血縁サンプル類似度スコアが非血縁個体と一致するならば、父親であることは裏付けられない。
【0126】
特に非侵襲的奇胎妊娠評価のために、好ましくは、前記少なくとも1つのサンプルは、少なくとも1つの循環栄養膜細胞サンプルを含み、女親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが非血縁サンプルと一致するならば、全奇胎は裏付けられる。
【0127】
後者の実施形態では、前記少なくとも1つのサンプルは複数の栄養膜細胞サンプルを好ましくは含み、
(i)前記栄養膜細胞サンプルの間の類似度スコアが自己サンプルの予測類似度スコアの予測99パーセンタイルを超えるならば、P1P1ホモ接合性父性奇胎は裏付けられ、
(ii)前記栄養膜細胞サンプルの間の類似度スコアが自己サンプルの予測類似度スコアと一致するならば、P1P2ヘテロ接合性父性奇胎は裏付けられる。
【0128】
好ましくは、前記少なくとも1つのサンプルは男親のサンプルを更に含み、前記栄養膜細胞サンプルの間の類似度スコアが自己サンプルの予測類似度スコアと一致し、
(i)男親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが自己サンプルの予測類似度スコアと一致するならば、P1P2ヘテロ接合性父性奇胎は裏付けられ、
(ii)男親のサンプルに対する前記栄養膜細胞サンプル類似度スコアが自己サンプルの予測類似度スコアの1パーセンタイルより低いならば、P1P2ヘテロ接合性父性奇胎は裏付けられない。
【0129】
先行技術と比べて、本発明者らは驚くべきことに、DRS-WGAと、ローパス全ゲノムシーケンスのための断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を使用する超並列シーケンスのライブラリー調製との組み合わせは、自己及び血縁サンプルに関する1×より低い非常に浅い深度のローパス全ゲノムシーケンスからでもDNAサンプルを識別する可能性を改善し、更に自己及び血縁サンプルの混合も比較的良い精度で分離する。更に、非血縁個体については、<0.15×等の極めて低いカバレッジ全ゲノムシーケンスでも十分である。
【0130】
上記を証明するために、以下の実験を実施した。
【実施例
【0131】
(実施例1)
最初に、7つの細胞株を使用してシーケンスデータを得た。図1は、自己サンプルと非血縁サンプルの間のSNPアレル頻度の相関と比べた全ゲノムライブラリー調製方法の効果を示す。X軸はライブラリー調製方法である。断片化しないライブラリーは、7種類の腫瘍細胞株(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441、OE19)のうちの2個の単一細胞のゲノムDNAの確定的制限酵素部位全ゲノム増幅(DRS-WGA)と、その後の断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を行って調製した。ランダム断片化ライブラリーは、Ion Xpress(商標) Plus gDNA Fragment Library調整キット(Thermo Fisher Scientific社)を使用して6種類の腫瘍細胞株(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441)のゲノムDNAから調製した。Y軸は、NGSCheckMate(コミット8ea2c0438)によって報告されるペアサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたるBアレル頻度の相関として計算されたペアワイズ類似度スコアである。NGSCheckMateは、デフォルトパラメーター及びデフォルト多型遺伝子座セット(21067 SNPs)を用いて参照ゲノム(hg19)にアラインした500,000リード(≒0.025×カバレッジ)で実行した。黒いドット(自己)は、同じ細胞株に属するペアサンプルのペアワイズ類似度スコアを示す。グレーのドット(非血縁)は、異なる細胞株に属するペアサンプルのペアワイズ類似度スコアを示す。プロットは、ランダム断片化方法と比べたDRS-WGAベースの断片化しないライブラリー調製の明らかな利点を示しており、自己と非血縁のペアワイズ類似度スコア値間の分離はより高い。
【0132】
(実施例2)
本開示による比較のための多型遺伝子座は、好ましくはそれらの平均ヘテロ接合性に基づき選択される。好ましくは、多型遺伝子座は、ある特定の最小閾値より高い平均ヘテロ接合性を有するという特性に基づき選択される。
【0133】
図2は、同じ(自己)又は異なる細胞株(非血縁)に属するペアサンプルのペアワイズ類似度スコアに対する多型遺伝子座セット選択の影響を示す。ライブラリーは、7種類の腫瘍細胞株(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441、OE19)のうちの2個の単一細胞のゲノムDNAの確定的制限酵素部位全ゲノム増幅(DRS-WGA)と、その後の断片化しないシーケンスアダプター/WGA融合プライマーPCR反応を行って調製した。X軸は解析に使用した多型遺伝子座セットである。21kセットは、NGSCheckMateによって提供され、TCGA胃がん患者からの40の生殖系列WGSプロファイルのセットにおけるdbSNPの多型遺伝子座のアレル頻度に基づき選択されたデフォルトSNPセットに対応する。セット300kは、最小平均ヘテロ接合性0.498に基づきdbSNP(build 150)から選択された312,458の多型遺伝子座からなる。Y軸は、類似度が解析される少なくとも2つのサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたるBアレル頻度の相関として計算されたペアワイズ類似度スコアである。NGSCheckMateは、デフォルトパラメーター及びデフォルト多型遺伝子座セット(21k)又は300kセットのどちらかを用いて参照ゲノム(hg19)にアラインした500,000リード(≒0.025×カバレッジ)で実行した。プロットは、平均ヘテロ接合性に基づく多型遺伝子座選択を使用することによって、同じ細胞株(自己)に属するペアサンプルのペアワイズ類似度スコアと、異なる細胞株(非血縁)に属するペアサンプルのペアワイズ類似度スコアの間の差が増加し、2つの比較タイプ間の明らかな分離をもたらすことを示す。
【0134】
本開示による工程g)では、異なる類似度スコア計算方法を使用することができる。
【0135】
前記に述べたように、好ましい実施形態では、工程g)のペアワイズ類似度スコアは、類似度が解析される少なくとも2つのサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたるBアレル頻度の相関を算出して計算される。
【0136】
別の好ましい実施形態では、工程g)のペアワイズ類似度スコアは、両方のペアサンプルの少なくとも1つのリードによってカバーされる遺伝子座にわたる平均一致値を算出して計算され、各遺伝子座の一致値は、以下の値:
a)コールされたアレルが同一であるならば1;
b)コールされたアレルが完全に異なるならば0;
c)コールされたアレルが一部重複しているならば0.5、
のうちの1つに割り当てられる。
【0137】
(実施例3)
図3A及び図3Bは、相関(図3A)又は一致(図3B)方法を使用して、500,000リード及び最小平均ヘテロ接合性=0.46、又は5,000,000リード及び最小平均ヘテロ接合性=0.49についての同じ個体(「自己」)又は異なる非血縁個体(「非血縁」)に由来するサンプルにおいて算出されたペアワイズ類似度スコア分布を示す。
【0138】
両方の方法は、同じクラスからのサンプルの分離及び分布に関して同様の結果を示すが、ペアワイズ類似度スコア(y軸)の絶対値は、使用される特定の方法により明らかに変化するはずである。一致に基づくペアワイズ類似度スコアは、相関と比較して算出がより簡単という利点を有し、特に大きなセットの多型遺伝子座の場合、より良い計算性能をもたらす。
【0139】
両方のリード深度についてプロットは、使用される2つの類似度スコア間の自己及び非血縁ペアサンプルペアワイズ類似度スコア分布の分離の点では明らかな違いを示さないが、類似度スコアの絶対値は、計算に使用される特定の関数を補正する必要がある。
【0140】
(実施例4)
平均ヘテロ接合性及び多型遺伝子座の数
最小平均ヘテロ接合性は、好ましくは範囲[0.2;0.499]にある。検討する多型遺伝子座の数は、最小平均ヘテロ接合性の増加とともに単調に減少する。
【0141】
ペアサンプルによってカバーされる遺伝子座の数は、1サンプルあたりのリード数とともに単調に増加する。一般に、ある特定のリード数には、マッチしたサンプル(同じ個体)と非血縁サンプルの間の分離を増加させる最適な最小平均ヘテロ接合性がある。その最適を超えて最小平均ヘテロ接合性を更に増加させると、比較に利用できるペアサンプルにおいてカバーされる遺伝子座の数を最初は徐々に、次いで突然低減させ、故にペアワイズ類似度スコアにおけるマッチしたサンプルと非血縁サンプルの間の全体的な分離を低減させるであろう。
【0142】
図4A図4Cは、パラメーター間の関係を示す。図4Aは、多型遺伝子座のセットを選択するのに使用される平均ヘテロ接合性閾値(X軸;範囲=0.2~0.5)と多型遺伝子座の数(Y軸)の間の関係を示す。図4Bは、セット中の多型遺伝子座の数(Y軸)と、異なるリード深度で少なくとも1つのリードによって両方のペアサンプルでカバーされる遺伝子座の平均数(X軸)の間の関係を示す。図4Cは、500,000リード~4,000,000リードに及ぶ異なるリード深度で、自己ペアワイズ類似度スコア分布の5パーセンタイル引く非血縁ペアワイズ類似度スコア分布の95パーセンタイルとして計算された、両方のペアサンプルでカバーされる遺伝子座の平均数(X軸)と、同じ細胞株(自己)に属するペアサンプルのペアワイズ類似度スコア(一致)対異なる細胞株(非血縁)に属するペアサンプルのペアワイズ類似度スコアの分布間の距離の間の関係を示す。
【0143】
図4D図4Fは、狭い範囲の最小平均ヘテロ接合性に関する同じタイプの解析の拡大表示である。
【0144】
(実施例5)
血縁解析
サンプル識別における更により難しい問題は、例えば母親とその娘の間ではゲノムの半分が共通しているように、血縁関係等の関連性の場合に生じる。
【0145】
この使用例での本開示による方法の性能を評価するために、本発明者らは、数人(N=3)の異なる非血縁個体から得られた単一白血球から該方法により得られたローパス全ゲノムシーケンスデータを混合(50%/50%)して、インシリコで血縁サンプルを生成することによってこのケースをシミュレートし、それにより、その個体について検出されたアレルの1つのみを報告するように個体ごとに多型遺伝子座をデータで編集し、故に「血縁」データへのその個体由来の一倍体ゲノムの寄与をシミュレートした。CELLEARCH AutoPrepで免疫磁気濃縮後にCellSave血液採取管(Menarini Silicon Biosystems社)で採取した末梢血から、細胞を蛍光抗体及びDAPIのカクテルで染色し、次いでCD45+、DAPI+単一細胞をDEPArray(Menarini Silicon Biosystems社)によって単離し、DRS-WGA(Ampli1 WGA、Menarini Silicon Biosystems社)を使用して全ゲノム増幅した。断片化しないシーケンスアダプター/WGA融合プライマーPCR反応(Illumina社用Ampli1 LowPassキット、Menarini Silicon Biosystems社)を使用して、それらのDRS-WGAの各産物からWGA産物のアリコートを使用して超並列シーケンスライブラリーを調製した。
【0146】
バイアスを回避するために、各単一細胞からのシーケンスデータは1回のみ使用した(自己又は血縁データタイプのどちらかの生成に)。
【0147】
図5A図5Dは、自己(女親)及び非血縁サンプルに対する血縁サンプルの分類の性能を示す。女親サンプルに対して計算された類似度スコアの2つの可変閾値は、血縁サンプルを自己及び非血縁サンプルから識別するための分類子として使用される。血縁-自己閾値は、血縁類似度スコア分布の中央値から自己類似度スコア分布の中央値に及ぶ値で設定される。血縁-非血縁閾値は、血縁類似度スコア分布の中央値から非血縁類似度スコア分布の中央値に及ぶ値で設定される。リード数は500,000リードで一定に保たれる。図5Aは、異なる最小平均ヘテロ接合性(AvHet閾値)で閾値が変化するときの自己女親に対する血縁サンプルの分類に関するTPR及び1-PPV値を示す。図5Bは、異なる最小平均ヘテロ接合性(AvHet閾値)で閾値が変化するときの非血縁サンプルに対する血縁サンプルの分類に関するTPR及び1-PPV値を示す。図5Cは、最小平均ヘテロ接合性の値が変化するとき(X軸)、少なくとも0.999のPPV及び対応するTPR(第1Y軸)を得るのに必要な血縁-自己類似度スコア閾値(グレーの実線;第2のy軸)を示す。図5Dは、最小平均ヘテロ接合性の値が変化するとき(X軸)、少なくとも0.999のPPV及び対応するTPR(第1Y軸)を得るのに必要な血縁-自己類似度スコア閾値(グレーの実線;第2のy軸)を示す。プロットは、血縁-自己分類については0.2から最大0.495、及び血縁-非血縁分類については最大0.48の平均ヘテロ接合性閾値を使用して選択されたSNPセットで高い感度(TPR≧0.99)が得られ、感度値はこれらの値を過ぎると急速に減少することを示す。
【0148】
(実施例6)
図6は、最小平均ヘテロ接合性(範囲=0.2~0.498)の関数としての、自己(女親)、血縁、及び非血縁サンプルの女親サンプルに対する一致として計算されたペアワイズ類似度スコアの分布を示す図である。リード数は500,000リードで一定に保たれる。少なくとも0.999のPPVで血縁サンプルを自己女親サンプル及び非血縁サンプルから分類するのに使用される類似度スコア閾値は、それぞれ破線及び鎖線として示される。
【0149】
したがって、好ましい実施形態では、LPWGSデータは500k単一リードにサブサンプリングされ、多型遺伝子座の最小平均ヘテロ接合性は範囲[0.2;0.49]で選択され、類似度スコア閾値は、上に説明されているように計算された「一致」を類似度スコアとして使用して、血縁-自己については範囲[0.73;0.79]、及び血縁-非血縁については[0.62;0.7]で選択される。複数の多型遺伝子座は、dbSNP等のデータベースから得られた遺伝子座を好ましくは含む。好ましくは、前記複数の多型遺伝子座は、>200.000、300.000、500.000、又は平均ヘテロ接合性が最も高い1.000.000遺伝子座を含む。
【0150】
クラスタリング
好ましい実施形態では、本開示による方法は、クラスターのサンプルにDNAで実質的に寄与する1つの個体(又は複数の個体)の同一性、又は不十分な量のDNAを含有する特性、及び/又は高度に分解されたDNA若しくは由来不明のDNAを含有する特性等の共通の特性を共有するサンプルのクラスター群を定義する工程を更に含む。少なくとも2つのサンプルは、好ましくは、前記類似度スコア及び他の品質指標を使用する分類子を用いて少なくとも1つのクラスターに割り当てられる。
【0151】
(実施例7)
胎児循環細胞に基づく非侵襲的出生前診断への適用
好ましい実施形態では、少なくとも1つの参照クラスターは妊娠中の女親個体由来のサンプルからなる。前記「参照サンプル」は、胎児細胞を抽出するのに使用された同じ濃縮体液から母親の細胞を単離して、又は或いは母親のDNAの別の供給源によって採取されうる。母親の体液が末梢血からなる場合、母体マーカーに対して陽性及び胎児マーカーに対して陰性の有核細胞が参照として採取されうる。
【0152】
好ましくは、前記同一性クラスター群は、前記女親個体の進行中の妊娠からの少なくとも1人の胎児由来のサンプルによって構成される少なくとも1つの血縁クラスターを更に含有しうる。前記サンプルは、参照女親との血縁関係と一致するペアワイズ類似度スコアを有するサンプルとして好ましくは同定される。
【0153】
前記血縁クラスターは好ましくは、ただ1つの同一胎児由来のDNAを含有するサンプルからなる複数の胎児クラスターに更に分割される。
【0154】
同一胎児に属するサンプルは、互いに対して自己という分類と一致するペアワイズ距離スコアを有すると認識される。他の血縁細胞に対して血縁関係と一致するペアワイズ距離スコアを有する他の血縁細胞は、異なる胎児が属するような異なる区分にインプットされる。
【0155】
図7は、双胎妊娠を検出する方法を表す。母体対照と「血縁」によって表される胎児細胞のすべてのペアワイズ予測は、胎児細胞の「コミュニティー」を見出すのにグラフクラスタリングアルゴリズムへのインプットとして使用される。
【0156】
非侵襲的出生前診断の文脈で有用な別の実施形態では、母親の細胞と混合された循環胎児細胞は、「自己」タイプDNA及び「血縁」タイプDNAに期待されるペアワイズ類似度中間スコアに対してペアワイズ類似度中間スコアを観察することによって検出される。実際に、母親の細胞を標的胎児細胞と一緒に同時単離することは、選別プロセスにおける不正確さの結果として偶発的に起こりうる(単離する細胞の選択か又は単離プロセスのどちらか、又はその両方が原因で)。母親の細胞を標的胎児細胞と一緒に同時単離することは非偶発的にも起こりうる。その理由は、ごくわずかな混合されていない純粋な胎児細胞サンプルが利用できるならば、追加の混合サンプルを廃棄する代わりにとにかく解析することが有益でありうるためである。
【0157】
アッセイの感度が著しく損なわれないならば、解析のタイプに応じて、一方は胎児及び一方は母親の2つの細胞の混合物は依然として許容されうる。これは、例えば、十分なリード数を使用して染色体全体の異数性を解析する場合に当てはまりうる。汚染は、有利には、ある特定のバイオインフォマティクスパイプライン、例えばControlFreec(Boeva、V.ら、Bioinformatics 2012年2月1日;28(3):423~5頁)で利用可能であるように、特定の汚染係数を適用することによって解析中に要因として織り込み、故に十分な感度を維持することができる。
【0158】
好ましい実施形態では、母親の血液中に循環する前記胎児細胞は、(i)栄養膜細胞、(ii)赤芽球、又は(iii)両方のタイプである。
【0159】
(実施例8)
母親の血液からの循環胎児赤芽球の同定
フィコール勾配(密度1.107g/ml)を使用して最初に有核細胞を母親の血液中から単離し、胎児赤芽球(有核赤血球細胞)を、Miltenyi社製Magnetic Activated Cell Sorting(MACS)を使用して不要な母親の細胞のCD45/CD15/CD14免疫磁気枯渇によって濃縮した。
【0160】
濃縮細胞を
(A)パラホルムアルデヒド(PFA) 4%、室温で30分間、又は
(B)PFA 4%、60分間、37℃、その後0.05%グルタルアルデヒド、室温で30秒間
のどちらかで固定した。
【0161】
第2のタイプの固定はより強い架橋を作り出し、標的ヘモグロビンを細胞内に固定するのに役立ちうるが、DNA増幅を妨げる。
【0162】
固定後、細胞を抗ガンマヘモグロビンFITC (胎児細胞マーカーとして)及びDAPIで染色して、核中のDNAを染色した。
【0163】
推定胎児細胞を、単一細胞として、又は同じ電気泳動ケージにたまたま置かれた追加の母性汚染細胞と一緒にDEPArray(商標)によって選別した。細胞回収物(単一か又は汚染されているかにかかわらず)を、本開示によるDRS-WGA方法を実施するキットであるAmpli1 WGAキット、Menarini Silicon Biosystems S.p.A.社で増幅した。
【0164】
Ampli1 WGA一次PCR産物のアリコート(1ul)を、以下の遺伝子座: D21S1435、D21S11、HPRT、SRY、D21S1413、D21S1411、D18S535、D13S317、D21S2039、D13S631、D21S1442の増幅にマルチプレックスPCRを用いるマイクロサテライト解析に使用し、その後、ABI Prism 310 (Applied Biosystems社)でキャピラリー電気泳動を使用して断片解析を行った。「弱いほう」の固定プロトコール(上記の選択肢(A))を使用すると、平均で予測アレルの56%が回収された(範囲30%~90%)。平均3.2個の情報価値のあるアレルを見出し、絨毛膜絨毛サンプル(CVS)の解析によって得られた母親と胎児の間の参照プロファイルでは一般的でないアレルとして定義した。
【0165】
「強いほう」の固定プロトコール(上記の選択肢(B))を使用すると、平均で予測アレルの28%しか回収されなかった(範囲6%~68%)(すなわち、弱いほうの固定で回収された予測アレルの約半分)。言い換えれば、強いほうの固定(B)により、72%の平均アレルドロップアウトが得られた。それに応じて、母親及び胎児両方の情報価値のあるアレルを有し、故に2つの細胞及び開始DNAテンプレートの2倍の量を有する混合サンプル(BO1368B_4、BO1368B_6)も含め、平均で1.7個しか情報価値のあるアレルは見出されなかった。実際、上記のSTRマルチプレックス解析では、4つの単一細胞サンプル(BO1368B_3、BO1368B_5、BO1368B_9、BO1368B_12)は情報価値のあるアレルが0であった。それらのうち最初の3つは更なるSTR遺伝子座を使用した追加の解析によってのみ解決した。この解析は、サンプルBO1368B_12を分類するための情報を示さず、「不明」の由来のままであった。
【0166】
故に、強いほうの固定(例えば、PFA4%、60分間、37℃、その後0.05%グルタルアルデヒド、室温で30秒間)はより多くの胎児赤芽球を提供するが、アレルドロップアウトを増加させ、STRコール率を低下させ、故に母体、胎児、又は混合としてのサンプルの分類を著しく危うくすることは明らかである。
【0167】
反対に、WGA産物の別のアリコートからAmpli1 LowPassキットを使用して大規模シーケンスライブラリーを調製し、本開示による方法を使用してデータを解析すると、以下により詳細に更に記載されるように、確信をもって各サンプルを割り当てることができる(そのようなサンプルはアレルドロップアウトが極めて高いとしても)。
【0168】
図8は、2つのサンプルからの赤芽球細胞回収物中の、女親サンプルに対して計算された平均ペアワイズ類似度スコアの分布を示す。プロットは、血縁-自己閾値分類子が血縁回収物(グレーのドット)を妊娠中の女親個体細胞回収物(ライトグレーのドット)と識別することを示す。しかし、分類子は、血縁回収物を混合細胞回収物(黒いドット)と識別することはできない。
【0169】
好ましい実施形態では、サンプルのクラスタリングは、クラスター数を明確にするために類似度に基づくシルエットスコアの算出を含む。有利には、ペアワイズ類似度スコアが2つの異なるレベルの類似度を示すクラスターは、混合胎児-母体サンプルを(胎児又は母体のサンプルと)識別するために、母親の細胞及び胎児細胞を含むサンプルセットのシルエットスコアの分布に基づき固定閾値、好ましくは0,205を使用して更に分割されうる。好ましい実施形態では、前記固定閾値は範囲[0.19~0.21]内にある。
【0170】
このようにして、混合母親-胎児細胞は、自己(母親)及び血縁(胎児)亜集団とは別個のクラスターとして同定することができる。
【0171】
(実施例9)
図9A図9Cは、サンプルBO1368からの細胞回収物のクラスタリングベースの分類を示す。母親の細胞サンプル(BO1368_MC)及び絨毛膜絨毛サンプリング(BO1368_CVS)が参照として含まれている。図9Aは、ペアワイズ類似度スコアのクラスタリングにインプットとして使用された種々のクラスター数の平均シルエットスコアを示し、2つのクラスターが最も高いスコアを示している。図9Bは、2つのクラスターにおける各回収物の個々のシルエットスコアの解析は、混合細胞回収物に対応するクラスター#0の2つの回収物が、それらが2つの隣接クラスター間の決定境界に極めて近いことを意味する0に近いスコアを有することを示すことを示している。固定最小シルエットスコア閾値(0.205)を設定することにより2つの混合胎児-母親細胞回収物を識別することができ、故に該回収物は第3の独立したクラスターに割り当てられる。図9Cは、より濃い色がより高い類似度を示すグレーの編み掛けで全17の細胞回収物間の類似度スコアを示すヒートマップを示す。クラスターは行及び列のカラーラベルによって標識されている。
【0172】
(実施例10)
図10A図10Cは、サンプルBO1368からの細胞回収物のクラスタリングベースの分類を示す。母親の細胞サンプル(BO1383_MC)が参照として含まれる。図10Aは、ペアワイズ類似度スコアのクラスタリングにインプットとして使用された種々のクラスター数の平均シルエットスコアを示し、2つのクラスターが最も高いスコアを示している。図10Bは、2つのクラスターにおける各回収物の個々のシルエットスコアの解析は、混合細胞回収物に対応するクラスター#0の2つの回収物が、それらが2つの隣接クラスター間の決定境界に極めて近いことを意味する0に近いスコアを有することを示すことを示している。固定最小シルエットスコア閾値(0.205)を設定することにより2つの混合胎児-母親細胞回収物を識別することができ、故に該回収物は第3の独立したクラスターに割り当てられる。図10Cは、より濃い色がより高い類似度を示すグレーの編み掛けで全8つの細胞回収物間の類似度スコアを示すヒートマップを示す。クラスターは行及び列のカラーラベルによって標識されている。
【0173】
(実施例11)
胎児循環細胞に基づく非侵襲的出生前父子鑑定への適用
本開示の別の実施形態では、母体サンプルに加えて男親サンプル(父親サンプル)が利用でき、参照として今度は両親サンプルも使用する血縁解析が適用されうる。父親参照サンプルに対する「血縁」型DNAと一致するペアワイズ類似度スコアは、胎児の父親であることを裏付ける。或いは、胎児サンプル(すなわち、女親参照サンプルに対して血縁と分類されたため裏付けられた胎児)のペアワイズ類似度スコアが男親サンプルを使用した「非血縁」型DNAと一致するならば、結果は父親であることの誤りを証明する。
【0174】
(実施例12)
奇胎妊娠への適用
本開示の別の実施形態では、少なくとも1つの推定循環胎児栄養膜細胞が母親の血液から濃縮される。栄養膜細胞サンプルは母親参照サンプルと比較され、「非血縁」型DNAと一致するペアワイズ類似度スコアは、可能性のある全奇胎(又はラボ汚染/サンプルスワップ)を意味する。循環栄養膜細胞の1つを超えるサンプルが単離されるならば、それらのサンプルの間でのペアワイズ類似度スコアの比較を使用して、奇胎の遺伝子型を研究することができる。調べられる多型遺伝子座に対応する同じゲノム位置で時々生じる稀なシーケンスエラー(又は更に稀なWGA増幅エラー)を除いて多型遺伝子座の比較はすべて同一となることから、ペアワイズ距離がタイプ「自己」のペアサンプルに対する期待値を大きく超えるならば、P1P1ホモ接合性父性奇胎が裏付けられる。或いは、多型遺伝子座のいくつかにヘテロ接合性を有するP1P2奇胎の存在下、異なる栄養膜細胞サンプルの間で観察されたペアワイズ類似度値は、タイプ「自己」のペアサンプルに対して期待される範囲内にある。この後者のP1P2奇胎の場合、父親のDNAサンプルが利用可能であるならば、父親の参照サンプルに対する「自己」型DNAと一致する栄養膜細胞サンプルのペアワイズ距離スコアを使用して、奇胎妊娠をラボ汚染又はサンプルスワップと区別することができる。
【0175】
(実施例13)
単一細胞法医学的ヒト識別への適用
好ましい実施形態では、前記少なくとも1つの参照クラスターは、被害者とは異なるただ1つの同一個体由来のDNAを含有するサンプルを含む少なくとも1つの加害者クラスターを定義する工程を更に含む科学捜査における被害者に対応するただ1つの同一個体由来のDNAを含有するサンプルによって構成される。
【0176】
被害者サンプルとの「非血縁」関係、及び同じ加害者クラスターに属する他のサンプルとの「自己」関係に一致するペアワイズ距離スコアをサンプルが有するならば、サンプルは加害者クラスターに割り当てられる。新たなサンプルが、被害者及び他の加害者クラスターの両方にすでに属する加害者にとっての「非血縁」と一致するときはいつでも、新たな加害者クラスターが同定される。
【0177】
或いは、非侵襲的出生前診断適用のケースで詳述したようなシルエットスコアに基づくクラスタリングアルゴリズムの使用が、各個々のサンプルを同種クラスターに割り当てるのに使用されてもよい。
【0178】
有利には、法医学的識別の場合、1つは女親及び1つは非血縁男親由来のDNAを含有するNIPD適用における「血縁」サンプルの場合と同様に、2つの非血縁個体(被害者及び加害者、又は異なる加害者)由来のDNAを含有する可能性があることから、「血縁」関係と一致するペアワイズ距離スコアを有するサンプル(非侵襲的出生前診断-NIPD-タイプの解析で得られるような)は、「混合サンプル」と解釈されうる。
【0179】
有利には、同じローパス全ゲノムシーケンスデータによって得られた性染色体のコピー数情報を使用して、精緻化したペアワイズ距離スコアに基づき分類を更に精緻化及び/又は裏付けることができる。
【0180】
性的暴行の証拠において一般的なように、被害者と加害者の間で性別不一致の場合、染色体X及びYに関するコピー数情報は、被害者又は加害者としてのサンプル分類に情報を提供するのに役立ちうる。
【0181】
別の好ましい実施形態では、前記少なくとも1つの参照クラスターは、ただ1つの同一個体由来のDNAを含有するサンプルを含む少なくとも1つの加害者クラスターを定義する工程を更に含む科学捜査において、容疑者に対応するただ1つの同一個体由来のDNAを含有するサンプルによって構成される。
【0182】
別の好ましい実施形態では、複数のDNA寄与者と混合された法医学的証拠によって得られた、各サンプルが1つ又は複数の細胞を含有する複数のサンプルは、ただ1つの同一個体由来のDNAを含有するサンプルを含む少なくとも1つの加害者クラスターを定義する工程を更に含む方法に従って解析される。
【0183】
好ましい実施形態では、前記少なくとも1つの加害者クラスターの各々に属する複数のサンプルからのDRS-WGAアリコートが混ぜ合わされ、故に、対応する単一個体WGA-DNAサンプルをクラスターごとに作製し、故に前記単一個体WGA-DNAサンプルの更なるDNA解析を実施することが可能になる。このアプローチの利点は、単一細胞サンプルに生じる可能性のあるランダムアレルドロップアウトは他の個体の細胞からのシグナルによって補償され、故に、完全なプロファイルをもたらす点である。このアプローチは、個体由来の各単一細胞サンプルのDNAが強く分解されている場合に特に有利である。これは特に、証拠が特に室温で保管されていた場合の未解決事件、又は被害者由来の組織サンプルが後の使用のためにホルマリンで固定され、パラフィンに包埋されている場合に起こりうる。
【0184】
別の好ましい実施形態は、前記少なくとも1つの加害者クラスターの各々に属する複数のサンプルからの、少なくとも1つのアッセイタイプの遺伝子解析データをクラスターワイズ統合する工程と、対応する単一個体WGA-DNAデータを前記少なくとも1つの加害者クラスターごとに作成する工程とを含む。
【0185】
好ましい実施形態では、前記少なくとも1つのアッセイタイプは、
a)マイクロサテライト解析;
b)一塩基多型解析;
c)超並列ターゲットシーケンス;
d)全ゲノムシーケンス
からなる群から選択される。
【0186】
図11A及び図11Bは、最大で自己サンプルの50%成分を含む非血縁サンプルに対する個々のサンプルの分類の性能を示す。ペアワイズ類似度スコアの可変閾値に基づく分類子は、個体由来のサンプルを混合サンプルと識別するのに使用される。閾値は、「自己」類似度スコア分布の中央値から「混合」類似度スコア分布の中央値に及ぶ値で設定される。リード数は500,000リードで一定に保たれる。A)種々の平均ヘテロ接合性で閾値が変化するとき(AvHet閾値)の分類子のTPR及び1-PPV値。B)平均ヘテロ接合性の関数(X軸)としての少なくとも0.999のPPV及び対応するTPR(第1Y軸)を得るのに必要なペアワイズ類似度スコア閾値(グレーの実線;第2のy軸)。プロットは、血縁-自己分類については0.2から最大0.495まで、及び自己-混合分類については最大0.48までの平均ヘテロ接合性閾値を使用して選択されたSNPセットで高い感度(TPR≧0.99)が得られ、感度値はこれらの値を過ぎると急速に減少することを示す。
【0187】
図12は、平均ヘテロ接合性(範囲=0.2~0.499)の関数としての、サンプルのうちの1つが、他方のサンプルと同じ個体由来の50%成分を含有するペアサンプル(混合_1/2)、サンプルの1つが、「自己」と同じ個体の1/3(33%)成分及び他方のサンプルと同じ個体由来の66%成分を含有するペアサンプル(混合_1/3)、異なる個体(非血縁)に属するペアサンプルに関する、同じ個体(自己)由来のペアサンプルから計算されたペアワイズ類似度スコア(一致)の分布を示す図である。リード数は500,000リードで一定に保たれる。ペアワイズ類似度スコアに基づく分類子は破線として示される。
【0188】
上記に使用した加害者及び被害者という用語は、単に理解の手引き及び手助けとして意図するものである。上記の方法が本開示から逸脱することなく適用できることは当業者に明らかであり、また、クラスターの意味が加害者から異なる任意の名称に単に言い換えられる、個人、災害の被害者の識別等の、ヒト識別の他の状況にも明らかである。
【0189】
(実施例14)
腫瘍学ラボワークフローにおけるサンプル識別への適用
別の好ましい実施形態では、本開示による方法は、同じ患者に属するサンプルをマッチさせ、可能性のあるサンプルスワップ、又は異なる患者に属するサンプル由来の可能性のある交差汚染の両方を検出するのに使用される。例えば、これは、単一細胞FFPEサンプルを用いて作業する場合に特に有益でありうる。実際、FFPEから抽出された単一細胞(又は核)から網羅的なゲノム情報を得ることは、固定に起因するDNA損傷のために全く困難である。STR又は、SNPのターゲットシーケンスでさえ非実用的でありうる。しかし、それにもかかわらず、本開示による方法を使用してサンプルを区別することは可能である。
【0190】
図13A図13Cは、FFPEサンプルからの単一細胞回収物の個体同一性による分類を示す。単一細胞WGA産物は、Mangano C.ら、「Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma」、Blood Cancer Journal 9巻、92号(2019)に詳述されているように得た。図13Aは、同じ個体(自己)又は異なる個体(非血縁)に属するペアサンプルのペアワイズ類似度スコアを示すスワームプロット(Swarmplot)を示す。データはゲノムワイドなコピー数シグナルDLRS (X軸)に従ってビニングされている。低DLRS(lowDLRS)は、低いシグナルノイズを示すDLRS<0.4でペアサンプルに対応し、高DLRS(highDLRS)は、ペアでのサンプルの少なくとも1つが、高いシグナルノイズを示すDLRS≧0.4でペアサンプルに対応する。両方のビンとも、プロットは、ペアワイズ類似度スコアに関して自己と非血縁サンプルの間の明らかな分離を示す。図13Bは、ペアワイズ類似度スコアのKMeansクラスタリングにインプットとして使用された種々のクラスター数の平均シルエットスコアを示し、4つのクラスターの最も高いスコアを示している。図13Cは、より濃い色がより高い類似度を示すグレーの編み掛けで全17の細胞回収物間のペアワイズ類似度スコアを示すヒートマップを示す。クラスターは行及び列のカラーラベルによって標識されている。可視化目的のために行及び列は、ユークリッド距離ベースの階層的クラスタリングによって順序づけられている。
【0191】
(実施例15)
着床前遺伝子スクリーニング(PGS)におけるサンプル識別の適用
別の好ましい実施形態では、本開示による方法は、無細胞使用済み胚培養培地に由来するサンプルを解析するのに使用される。当技術分野で公知のように、取り込み率及び手順の成功を高めるために、胚を評価して着床の優先順位をつけることが有益である。無細胞使用済み培養培地に基づく手法はワークフローを簡単にするため魅力的であり、発生中の胚にとって侵襲性がより少ない可能性がある。しかし、培養培地での母親のDNAからの汚染が報告されており、胎児の異数性を検出する上でPGSの解像度を損なうことが示されている。
【0192】
この適用の文脈における本開示の実施形態では、母体参照は「自己」(女親)の参照として使用される。無細胞使用済み胚培養培地サンプルを用いたペアワイズ類似度スコアは、本開示に従って算出される。前記ペアワイズ類似度スコアは、胚DNAに対する母親のDNAからの汚染を推定するのに使用される。母体参照に対する「血縁」型DNAの期待中央値以下のペアワイズ類似度スコアは、100%純度の胚DNAを想定するのに使用される。母体参照に対する「自己」型DNAの期待中央値以上のペアワイズ類似度スコアは、無細胞サンプルにおける0%純度の胚DNA(すべて母親のDNA)を想定するのに使用される。ペアワイズ類似度の中間値は、母親のDNAからの汚染の程度を示す。この汚染値は、胚の潜在的異数性又は部分染色体コピー数変動から生じるコピー数シグナルの希薄化の可能性(正常な二倍体母性ゲノムに由来するシグナル混合に起因する)を補償するために、同じローパス全ゲノムシーケンスデータに基づくゲノムワイドなコピー数プロファイリング解析へのインプットとして使用することができる。このようにして、補償によりコピー数コーラーの感度はシグナル希薄化によって損なわれることが少なくなる。更に、二倍体の母親のバックグラウンドの程度は部分染色体CNV、例えば微少欠失の検出を損なう可能性があるため、汚染値は、所与のサイズのコピー数変動を確実に検出するためのサンプルの適合性を評価するのに使用されうる。
【0193】
図14は、種々の比率の単一胎児細胞由来のDNA配列を母親の細胞由来の配列とインシリコで混合して行われたシミュレーションを示す。実線は種々の胎児インプット率での平均ペアワイズ類似度スコアに対応する。網掛け部分は95%信頼区間に対応する。破線は、既知の%の母親の成分(80%)を含む混合サンプル、及び母体参照=0.807でのペアワイズ類似度スコアの例を示す。モデルによれば、これは、母親のDNAからの推定汚染≒75%に対応する平均予測胎児成分=27.7% (C.I.=25.4%~30.7%)を有する。
【0194】
図15A及び図15Bは、種々の比率の単一胎児細胞由来のDNA配列(20%)と母親の細胞由来の配列(80%)とのインシリコ混合によって得られた混合サンプルのゲノムワイドなコピー数解析を示す。図15Aは、ゲノムワイドなコピー数プロファイルを示し、各ドットは10Mbpゲノムビンに対応する。図15Bは、母体参照とのペアワイズ類似度スコアに基づく母親のDNAからの推定汚染割合に基づき、補正因子=0.75を適用後のゲノムワイドなコピー数を示す。統計的に有意な変化は黒い実線として示される。
【0195】
同様のアプローチを無細胞DNA又は侵襲的出生前サンプルにも使用して、血漿、白血球(無細胞DNAサンプルのための)、母親の脱落膜、口腔スワブ、又は血液を含む参照を使用して、それぞれ胎児画分及び汚染を決定することができる。
【0196】
(実施例16)
細胞株認証におけるサンプル識別への適用
別の好ましい実施形態では、本開示による方法は、研究所で使用される細胞株を認証するのに使用される。
【0197】
この実施形態では、参照データベースからのデータが試験中の細胞株を認証するのに使用されるように、該方法によるベースラインローパスWGSデータを収集する(すべての参照細胞株タイプから)参照データベースが最初に確立される。
この適用に対する好ましい実施形態では、開始サンプルは好ましくは、(i)細胞プール、又は(ii)細胞プールから抽出されたDNAからなる群から選択される。
【0198】
このようにして
- 純粋な細胞株の参照サンプルについては、細胞不均一性に関連する多様性を最もよく要約している細胞株の平均的な包括的プロファイルが得られる;
- 試験中のサンプルについては、更に、別の細胞株からの可能性のある汚染が観察されることがある。アッセイの反復にわたる類似度スコアの分布に基づく閾値は、類似度スコアがその最小閾値より低ければ、ある特定の程度の信頼度で汚染をコールするのに使用することができる。更に、着床前遺伝子スクリーニングへの適用に関して上記に報告したものと同様のアプローチを使用して、試験中のサンプルの観察された類似度スコアを、別の一般的な「非血縁」サンプルによる純粋な「自己」の汚染の関数として予測類似度スコアを示す検量線に対して比較することにより、汚染の量の間接的な測定値が得られうる。
【0199】
前記プール中の細胞数は、好ましくは範囲[50~1.500]にある。下限の50は、ゲノム異種性(もし存在すれば)を代表する最小多様性を示す。更に、この下限は、別の細胞株からの可能性のある汚染をより高い感度で検出する(試験中のサンプルで)のに有用である。その理由は、低レベルの汚染(例えば10%)は細胞数がより少ない細胞プールでは全く示されない、又は微量な汚染物質は集団内の真の%に対して過少に存在し、故に前記汚染の検出の全体的な感度を下げかねないサンプルをいずれにしてももたらす可能性があるためである。上限の1500(すなわち10ng相当)は、インプットDNAによるWGA反応の過負荷により生じうる阻害、又はDNA精製なしで細胞から直接開始する場合の細胞溶解物全体の阻害効果のない良好なWGA増幅を確保するのに好ましい。
【0200】
(実施例17)
同種造血細胞移植への適用
別の好ましい実施形態では、本開示による方法は、同種造血細胞移植(allo-HSCT)の患者における内皮細胞由来の評価に使用される。
【0201】
本開示の好ましい実施形態では、個々の内皮細胞の単離は、次のどちらかから実施される。
1.脱凝集、CD146等の内皮細胞マーカーで染色、及び例えばDEPArray(商標)等による単一細胞選別後のFFPE切片。
2.CELLSEARCH(登録商標)AutoPrep and CECキットを使用して循環内皮細胞(CEC)の濃縮及び染色、並びに例えばDEPArray(商標)等による単一細胞選別後の末梢血。
【0202】
宿主由来の生殖細胞系DNAを含む第1の参照サンプルが提供される。単一内皮細胞が患者から単離され、参照宿主サンプルとのそれらの類似度スコアが評価される。試験中の細胞が自己と分類されるならば、該細胞が宿主由来であることが裏付けられることを意味するのに対し、非血縁と分類されるならば、非血縁ドナーに属すると分類される。
【0203】
ドナーが血縁関係によって宿主に関連する場合、方法は、血縁解析も使用してドナー細胞を識別するのに適用されうる。
【0204】
更に、ドナー生殖細胞系DNAサンプルが利用可能ならば、第2の参照サンプルが分類の裏付けとして生成されうる。
【0205】
種々の適用にわたって当てはまる追加の一般的な詳細及び考察
DRS-WGAにおける遺伝子座対断片長の一義的関係
より詳細には、Ampli1(商標)WGA等のDRS-WGAでは、ゲノムの各遺伝子座は、塩基対に特定の長さを有する断片としてのみWGAライブラリー中に存在するという事実を本開示による方法は利用する。この特性は、「遺伝子座対断片長の一義的関係(Locus to Fragment-Length Univocal Relationship)」(L2FLUR)と命名されてもよい。多型SNPの遺伝子座等の一般的で正常な遺伝子座を考えるとき、前記遺伝子座は、制限酵素による消化後、対応する断片のサイズ(一本鎖のどちらかで測定された)にユニバーサルWGAアダプターの長さの2倍(Ampli1 WGAの場合はLIB1プライマーの長さ)足した長さに等しい所与の長さの断片としてのみ存在することになる。WGAがライブラリー調製後にAmpli1 LowPassキットによりシーケンスされる場合、予測可能な追加の長さは、既知のシーケンスアダプター及びバーコード長さに連結して導入される。
【0206】
ゲノムの再現性及び存在率の低減
本開示による方法では、ランダム断片化しないライブラリー調製と組み合わされたDRS-WGAの特性は、ゲノムの存在率を低減させる(サンプル参照ゲノムの元のサイズに対して)のに利用され、それにより、所与のリード数に関するローパスシーケンスデータは、ランダムプロセスが、WGA (例えば、多重置換増幅又はDOP-PCRを使用するWGA方法等による)及び/又はシーケンスライブラリー調製(例えば、ランダム断片化又はタグメンテーションによる)につきものである場合と比べて、異なるサンプルにわたって同じ断片をカバーする確率を高める。
【0207】
言い換えれば、参照ゲノムの確定的サブサンプリングが生じる。「確定的(deterministic)」という用語は、任意の所与のリード数で、任意の2つのペアサンプルにわたってカバーされるゲノム遺伝子座の重複がより高く、故にそれらのサンプルのDNAの類似度を測定するのに利用可能な高多型遺伝子座の数を増加させるという点で本質的である。
【0208】
該アプローチが柔軟であることは、所望の解像度及び/又はシーケンスプラットフォーム、並びに使用されるシーケンスプロトコールに応じて種々の確定的酵素が適する可能性があるという点で注目に値する。例えば、種々の頻度の高いカッターが使用されうる。Ampli1 WGAの例では、TTAAモチーフが制限酵素部位である。他の4塩基カッターを使用して、GTAC、CTAG等の異なる制限酵素部位で切断し、異なる断片分布を得、所与のリード数で異なるサンプルにわたって共通する遺伝子座の数を調整できるようにしうる。
【0209】
1次PCR後、DRS-WGAが最初に精製されると第1のサイズ選択が生じ、それによりWGAのより短い断片はフリープライマーとともに除去される。有利には、方法は更なる選択工程を使用する。この追加の選択工程は、1次WGAからある特定の断片をサイズ選択すること、及び/又はシーケンス可能な断片を限定する方法によって超並列シーケンスライブラリーを生成することにより達成することができる。例えば、Ampli1 LowPassキットは、プロセスに良い影響を与えるのに十分な固有のサイズ選択工程を含む。WO2017/178655では、ゲルのサイズ選択が実施されている。WO2019/016401では、SPRIビーズを使用した精製の連続工程は最初のサイズ選択を効果的にし、それにより塩基対の長さは、実質的にSPRIビーズ濃度に応じた範囲に限定される。更に、断片が長いほどどんどん低下する効率で配列データを生成することになるため(例えば、Ion TorrentでのエマルジョンPCR効率、又はIlluminaプラットフォームでのクラスター形成用ブリッジPCRのために)、シーケンサーはサイズ選択それ自体を導入することもできる。
【0210】
DRS-WGAでは、シーケンスライブラリーの平均サイズと参照ゲノムのサブサンプリング比率の間の確定的関係も存在する。
【0211】
ヒト参照ゲノムhg19のTTAA消化で実施されるインシリコ解析は、すべての染色体配列を含む合計約19M断片をもたらす。これは、正常な二倍体ヒトゲノムでは38M断片に翻訳されることになる。例として、インシリコで断片を範囲175~225bpで選択すると、3.09B塩基のうち約合計248M塩基、すなわちヒト参照ゲノムの8.02%をカバーする1,252,559にしかならない。断片数、総塩基対、及び削減率(%)が、種々の選択範囲についてサイズ別に列挙されている以下のTable 1(表1)を参照のこと。このサブサンプリングは、削減率(RR)と呼ぶことができる。
【0212】
【表1】
【0213】
本開示の好ましい実施形態では、目的はサンプルにわたるペアワイズ類似度スコアにおける良好な解像度を得ることである。サンプルごとに利用できる可能性のある所与のリード数に対する解像度(1サンプルあたりのシーケンスコストに関連)を上げるには、任意の2つのサンプル間のカバーされた塩基対の重複が重要であり、その理由は、両方のサンプルにおいてカバーされた領域のみが比較されるためである。故に、シーケンスされる断片の塩基対範囲を増加させることが断片の多様性の削減に役立ち、異なるサンプル間の重複を増加させうる。
【0214】
しかし、アプリケーション次第ではトレードオフがある。本開示のある特定の実施形態では、サンプルのDNAの由来を同定する以外に、ローパス全ゲノムシーケンスデータは、NIPD適用又は胚の無細胞使用済み培養培地の場合のようにサンプル自体のゲノムワイドコピー数プロファイルを生成するという二重の目的にも役立つ。
【0215】
この場合、類似した幅だがより短い断片に集中した断片範囲は多様性を高め、所与のゲノムウィンドウのリードカウントに寄与するより多い数の断片があることから、コピー数コーラーにとってより良好な結果及び解像度をもたらすことができる。
【0216】
断片のサイズ選択
種々のサイズ選択法は、1サンプル及び/又は解像度あたりのシーケンスリードの選択番号に応じて、所望の削減率を達成するのに使用することもできる。所与の平均断片長に関して、その平均断片長に集中したそれぞれより小さな又は大きなバンドを選択して、より小さな又は大きな数の全断片を得ることができる。
【0217】
断片長分布を厳密に管理するために、及び以下のように定義されるより高いQ係数を同様に有するという点でのパスバンドフィルターとの類似性を使用して、Pipping prep(Sage Science社)のような装置が使用されてもよい:
Q=Fcenter/DeltaF=[(Fmin+FMAX)/2]/(FMAX-Fmin)
(ここで、
Fcenter=(Fmin+FMAX)/2は断片の平均サイズである
DeltaF=FMAX-Fminは断片サイズの範囲の幅である
Fminは、それより下では、1ビンあたりの断片の正規化されたインバンドピーク数に対して、断片が従来の相対レベル(例えば1/10=10%)以下で存在する、断片のサイズである。
FMAXは、それより上では、1ビンあたりの断片の正規化されたインバンドピーク数に対して、断片が同じ従来の相対レベル以下で存在する、断片のサイズである)。
【0218】
Illuminaシーケンスを用いると、カバーされるゲノムが増加し、故に1000000リード対あたりの遺伝子座の数が増加し、解像度を増大させることから、シーケンスモードは好ましくはペアエンドシーケンスである。しかし、シーケンスに選択されるサイズがある特定のサイズより下になると、2つのペアリードは完全に重複することから、ペアエンドシーケンスはカバレッジを増加させない。
【0219】
Ion Torrentシーケンスを用いると、より高いリード長がカバーされるゲノムを比例的に増加させ、故に1000000リードあたりの遺伝子座の数が増加し、解像度を増大させる。Ampli1 LowPass IonTorrentキット(Menarini Silicon Biosystems社)では、バーコードプールサンプルがゲル上で又はPippin Prepのような他の方法を用いてサイズ選択される。異なるQ係数及び平均断片長の選択は、1000000リードあたりのベースで種々の解像度をもたらすことができる。
【0220】
サンプルをプールし、その後のシーケンス用のライブラリーをサイズ選択するひとつの利点は、すべてのサンプルが断片長の同じ分布を有することになり、今度はこれが、比較のためより多い数の高多型遺伝子座のを提供するのに必要とされる、異なるサンプルにわたってカバーされるゲノムの重複を最大化する点である。
【0221】
一方、Illumina用のAmpli1 LowPassキットを使用する場合、異なるLowPassライブラリーが最初にサイズ選択され、次いで異なるサンプルにわたってわずかに異なるサイズ選択を得てプールされ、故に、異なるサンプルにわたってカバーされるゲノムを削減する。
【0222】
ライブラリープール後のサイズ選択は、標準的なプロトコールによって要求されないものの、サンプルにわたって重複を増加させるのに使用されてもよく、対照に基づく解析では有益でありうる。
【0223】
しかし、断片分布における重複の削減は、ペアワイズ類似度スコア評価ための共通する多型遺伝子座の数を減少させ、今度は方法の解像度を下げることができるため、異なるサンプルにわたってシーケンスされたDRS-WGA断片の分布間で重複していることが重要である。
【0224】
本開示によれば、DRS-WGA及びLPWGSの組み合わせは、インプットサンプルからの存在率を低下させる。NGSを用いたシーケンスにより、これは参照ゲノムの存在率ライブラリーを低下させ、今度は、選択された(又はいずれにしてもシーケンス可能な)塩基対範囲でカバーされるゲノムを縮小させ、異なるサンプルにわたってカバーされるゲノムの効果的により高い重複が、1リードあたりのベースで得られる。
【0225】
この効果は、本開示により状況に応じて種々の方法で利用することができる。
【0226】
好ましくは、DRS-WGAからのライブラリー調製は、WO2017/178655又はWO2019/016401に記載された方法の1つである。
【0227】
類似度スコア閾値化及び同一性コーリング
場合により、前の工程から得られた類似度スコアは、サンプルクラスを定義するために閾値化されてもよい。ほとんどの場合、2つのサンプルにわたる比較に利用可能な多型遺伝子座の数は、より高いリード深度で増加するであろう。予め算出した値を使用して類似度スコアを閾値化できるようにするために、各サンプルでマッピングされたリードの数が固定リード数に好ましくは正規化される。そのような正規化は、所望の数(好ましくは、100,000マッピングリード~10,000,000マッピングリードに及ぶ範囲に含有される)に達するまでリードをランダムにサンプリングし、参照ゲノムにマッピングして行われる。
【0228】
本開示の好ましい実施形態では、類似度スコアが第1の選択閾値より高ければ、2つのサンプル間の「自己」関係がコールされる。
【0229】
本開示の好ましい実施形態では、類似度スコアが第2の選択閾値より低ければ、2つのサンプル間の「非血縁」関係がコールされる。
【0230】
非侵襲的出生前診断への適用では、類似度スコアが前記第1の閾値以下の第3の閾値と前記第2の閾値以上の第4の閾値の間に含まれるならば、2つのサンプル間の「血縁」関係がコールされる。
【0231】
法医学的ヒト識別への適用では、類似度スコアが前記第1の閾値以下の第3の閾値と前記第2の閾値以上の第4の閾値の間に含まれるならば、2つのサンプル間の「混合」関係がコールされる。
【0232】
イタリア知的財産法170bis(2)条に基づく申し立て
本開示で使用されるヒト由来の生体物質は、法律の適用条項に従って取得された。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15A
図15B
【国際調査報告】