IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シロナ ゲノミクス,インコーポレイテッドの特許一覧

特許7046069不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定
<>
  • 特許-不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定 図1
  • 特許-不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定 図2
  • 特許-不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定 図3
  • 特許-不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定 図4
  • 特許-不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定 図5
  • 特許-不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-24
(45)【発行日】2022-04-01
(54)【発明の名称】不明なリードのカバレッジ・プロットによる2倍体サンプルの遺伝子型決定
(51)【国際特許分類】
   G16B 20/20 20190101AFI20220325BHJP
   C12Q 1/6869 20180101ALI20220325BHJP
【FI】
G16B20/20
C12Q1/6869 Z
【請求項の数】 7
(21)【出願番号】P 2019531094
(86)(22)【出願日】2017-12-15
(65)【公表番号】
(43)【公表日】2020-03-05
(86)【国際出願番号】 US2017066682
(87)【国際公開番号】W WO2018112348
(87)【国際公開日】2018-06-21
【審査請求日】2020-12-14
(31)【優先権主張番号】62/434,900
(32)【優先日】2016-12-15
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519101720
【氏名又は名称】シロナ ゲノミクス,インコーポレイテッド
【氏名又は名称原語表記】Sirona Genomics,Inc.
(74)【代理人】
【識別番号】110001302
【氏名又は名称】特許業務法人北青山インターナショナル
(72)【発明者】
【氏名】リ,ミン
(72)【発明者】
【氏名】ワン,チュンリン
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】特表2016-541043(JP,A)
【文献】国際公開第2014/116729(WO,A2)
【文献】米国特許出願公開第2016/0306921(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16C 10/00-99/00
G16H 10/00-80/00
G16Z 99/00
C12Q 1/6869
(57)【特許請求の範囲】
【請求項1】
不明なリードのカバレッジ(CUR)の計算方法であって、
a)関心のある遺伝子から配列リードを取得するステップと、
b)前記配列リードを1つ以上の参照の対立遺伝子の配列にマッピングするステップと、
c)全てのマッピングされたリードを2つのセットに分割するステップであって、第1のセットは、選択された参照配列にマッピングすることができる全てのリードを含み、第2のセットは、残りのリードを含むステップと、
d)選択された対立遺伝子にマッピングすることができない前記第2のセットのリードに基づいて、前記CURをそれぞれの位置で計算するステップと
を具えることを特徴とする方法。
【請求項2】
請求項1に記載の方法において、前記CURが標的のゲノム領域のノイズレベル内にあるか否かを決定するステップを更に具えることを特徴とする方法。
【請求項3】
請求項1に記載の方法において、実在の対立遺伝子が見落とされているか否か、および/または、誤った対立遺伝子が選択されているか否かを決定するため、バー、ライン、またはシンボルを用いて、前記CURを、前記選択された対立遺伝子のカバレッジと共にカバレッジのプロットにおいてプロットするステップを更に具えることを特徴とする方法。
【請求項4】
請求項1に記載の方法において、前記対象の遺伝子がHLA遺伝子であることを特徴とする方法。
【請求項5】
請求項1に記載の方法において、前記対象の遺伝子がHLA遺伝子ではないことを特徴とする方法。
【請求項6】
HLA遺伝子座のハプロタイプを決定する方法であって、
a)1つ以上のHLA遺伝子から配列リードを取得するステップと、
b)前記配列リードを、1つ以上の参照の対立遺伝子の配列にマッピングするステップと、
c)全てのマッピングされたリードを2つのセットに分割するステップであって、第1のセットは、選択された前記参照の対立遺伝子の配列にマッピングすることができる全てのリードを含み、第2のセットは、残りのリードを含むステップと、
d)選択された対立遺伝子にマッピングすることができない前記第2のセットのリードに基づいて、CURをそれぞれの位置で計算するステップと、
前記HLA遺伝子のハプロタイプを決定するステップであって、前記ハプロタイプは、最も低いCURをもたらす対立遺伝子であるステップと
を具えることを特徴とする方法。
【請求項7】
請求項6に記載の方法において、前記CURがノイズレベルまで低減されることを特徴とする方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般的に、2倍体ゲノムにおける対立遺伝子の同定に関する。
【背景技術】
【0002】
2倍体サンプルについて、ゲノムの各遺伝子座には2つの対立遺伝子が存在する。両方の対立遺伝子が同じ場合、遺伝子座はホモ接合型である。そうでない場合、遺伝子座はヘテロ接合型である。遺伝子座がヘテロ接合型である場合、型決定のソフトウェアは、一方の対立遺伝子のみを検出し、他方を見落としている可能性がある。不明なリードのカバレッジは、この場合に存在する2番目の対立遺伝子を示す。
【0003】
本開示は、この情報に基づいて正しい2番目の対立遺伝子を選択して、この遺伝子座で正確な遺伝子型を取得する手段を当業者に提供し、既存の技術に比べてデータ分析の精度を大いに向上させる。
【発明の概要】
【0004】
本開示の一態様は、不明なリードのカバレッジ(CUR)の計算方法であって、a)全てのマッピングされたリードを2つのセットに分割するステップであって、第1のセットは、選択された対立遺伝子の参照にマッピングすることができる全てのリードを含み、第2のセットは、残りのリードを含むステップと、b)選択された対立遺伝子にマッピングすることができない第2のセットのリードに基づいて、カバレッジをそれぞれの位置で計算するステップと、c)実在の対立遺伝子が見落とされているか否か、および/または、誤った対立遺伝子が選択されているか否かを決定するため、バー、ライン、またはシンボルを用いて、選択された対立遺伝子のカバレッジと共にCURをカバレッジのプロットにおいてプロットするステップとを具える方法に関する。
【0005】
一部の実施形態において、本発明は、不明なリードのカバレッジ(CUR)の計算方法を提供する。典型的に、そのような方法は、関心のある遺伝子から配列リードを取得し、配列リードを1つ以上の参照の対立遺伝子の配列にマッピングするステップを具える。リードをマッピングした後で、それらは2つのセットに分割され、第1のセットは、選択された参照配列にマッピングすることができる全てのリードを含み、第2のセットは、残りのリードを含む。この情報は、選択された対立遺伝子にマッピングすることができない第2のセットのリードに基づいて、不明なリードのカバレッジ(CUR)をそれぞれの位置で計算するのに用いられる。そのような方法は、CURが標的のゲノム領域のノイズレベル内にあるか否かを決定するステップを含むことができる。一部の実施形態において、本発明の方法は図解で表すことができ、例えば、実在の対立遺伝子が見落とされているか否か、および/または、誤った対立遺伝子が選択されているか否かを決定するため、CURは、バー、ライン、またはシンボルを用いて、選択された対立遺伝子のカバレッジと共にカバレッジのプロットにおいてプロットすることができる。一部の実施形態において、対象の遺伝子はHLA遺伝子である。他の実施形態において、対象の遺伝子はHLA遺伝子ではない。
【0006】
一部の実施形態において、本発明は、HLA遺伝子座のハプロタイプを決定する方法を提供する。そのような方法は典型的に、1つ以上のHLA遺伝子から配列リードを取得して、配列リードを1つ以上の参照の対立遺伝子の配列にマッピングするステップを具える。その後、マッピングされたリードは2つのセットに分割され、第1のセットは、選択された参照の対立遺伝子の配列にマッピングすることができる全てのリードを含み、第2のセットは、残りのリードを含む。その後、CURは、選択された対立遺伝子にマッピングすることができない第2のセットのリードに基づいて、それぞれの位置で計算することができる。HLA遺伝子のハプロタイプは、最も低いCURをもたらす参照の対立遺伝子のハプロタイプであると決定される。一部の実施形態において、CURはノイズレベルまで低減される。
【図面の簡単な説明】
【0007】
図1図1において、左のパネルはcDNAの参照配列に沿ったカバレッジを示し、右のパネルは、ゲノムの参照配列に沿ったカバレッジを示す。
図2図2は、2つの正しい対立遺伝子のカバレッジのプロットを表す。
図3図3は、例を示す。
図4図4は、例を示す。
図5図5は、選択された対立遺伝子のカバレッジのプロットを示す。
図6図6は、遺伝子型決定の精度、および一致を示す。
【発明を実施するための形態】
【0008】
説明することを目的として、本開示の完全な理解のために特定の命名法が記載される。しかしながら、これらの具体的な詳細が本開示の態様を実施するのに必要とされないことは当業者には明らかである。特定の用途の説明は、代表例としてのみ提供される。本開示の態様は、示された実施形態に限定されることを意図するものではなく、本明細書に開示される原理および特徴と矛盾しない可能な限り広い範囲に一致させることを意図している。
【0009】
配列決定のリードは、ヌクレオチドの断片であり、それは特定の領域で1つの対立遺伝子の配列を表す。次世代シークエンシング技術により、ゲノム上の対象領域を網羅するため、数百万の重複リードを生成することができる。マッピング解析中、それぞれのリードを参照配列と比較し、最良のマッチング配列および位置に整列させることができる。ゲノム上の任意の位置にある「リードカバレッジ」(本明細書では単に「カバレッジ」とも称される)は、マッピング後の位置を網羅する重複リードの数として定義される。通常、選択された対立遺伝子のカバレッジは、選択された対立遺伝子の参照配列にマッピングされたリードから計算することができる。ここで我々は、不明なリードのカバレッジ(CUR、URCと称されることもある)を、遺伝子座に対するあらゆる可能な対立遺伝子のカバレッジから選択された対立遺伝子のカバレッジを差し引いたものとして定義する。
【0010】
従来のカバレッジは、選択された対立遺伝子の参照にマッピングされたリードの数を測定する。不明のリードのカバレッジは、選択された対立遺伝子の参照にマッピングすることができないリードの数を測定する。従来のカバレッジは、レビューを経て決定され、一定に保つことができる。しかし、CURは、特定の遺伝子座のサンプルで選択された対立遺伝子に関連して定義されるため、対立遺伝子の選択に伴い変化する。正しい対立遺伝子が選択された場合、CURがノイズレベルまで低減され、そこでは、遺伝子型コールについて品質尺度が規定される。
【0011】
遺伝子座にマッピングされた配列リードの全体と、現在の予測される対立遺伝子の固有のカバレッジとを比較することにより、新規の対立遺伝子と、潜在的な対立遺伝子の型決定のミスとを検出することができ、型決定のミスには、誤った対立遺伝子および対立遺伝子のドロップアウトが含まれる。加えて、この方法は、ヒト白血球抗原(HLA)遺伝子型に対してNGSショットガンシークエンシング技術を適用するにあたり、クロスコンタミネーション、不十分な配列ラン等の問題を検出することができる。
【0012】
大半のリードが、選択された対立遺伝子にマッピングすることができる場合、不明なリードのカバレッジは非常に低い。
【0013】
我々は、本開示の方法が、精度において1%の改善、それを換算すると、驚くことに、リードの誤りが83%減少することを見出した。このことは、現行方法が大幅に改善されることを表し、より正確に対立遺伝子を一致できることにより、大きな臨床的影響がもたらされる。
【0014】
本明細書で用いられるように、「ノイズ」という用語は、特定の遺伝子座に与えられるがサンプルの遺伝子型とは一致しないリードに関する。ノイズリードは、シークエンシングのエラー、サンプルのコンタミネーション、及び実験からの他のアーチファクトが原因となり得る。サンプルの特定の遺伝子座における全てのリードのカバレッジは通常、200倍または200Xを超える。ノイズリードのカバレッジは、0乃至20Xの正常範囲を有する。cDNA、および対立遺伝子のゲノム領域の最小カバレッジは、遺伝子型コールの品質を測定する。cDNA、またはゲノム領域の最小カバレッジが20Xの閾値未満の場合、遺伝子型のコールの信頼度は低い。
【0015】
図1において、左のパネルはcDNAの参照配列に沿ったカバレッジを示す。ラインは、遺伝子座HLA-Aについて選択された対立遺伝子のカバレッジを表し、陰影の領域はバープロットを示し、そこでは、それぞれのバーが、1つの位置における不明なリードのカバレッジを表す。右のパネルは、ゲノムの参照配列に沿ったカバレッジを示す。カバレッジ曲線の上にある赤い縦のバーは、選択された対立遺伝子間で多型の位置を示す。陰影領域は、選択された対立遺伝子のカバレッジと比較して、CURが非常に低いことを示す。
【0016】
図2は、2つの正しい対立遺伝子のカバレッジのプロットを表す。陰影領域は、遺伝子座にマッピングされた配列リード全体と、選択された対立遺伝子の固有のカバレッジとの差異を示し、この場合は正しいものである。左のパネルは、cDNAの参照配列に対するプロットを示す。右のパネルは、ゲノムの参照配列に対するプロットを示す。
【0017】
しかし、実在の対立遺伝子が見落とされている場合、カバレッジのプロットからCURの上昇が見られる。図3及び4は、例を示す。本開示の方法を用いて、ユーザは、他の品質測定法に基づき、見落とされた対立遺伝子を選択して、CURを最小レベルに減らすことができる。
【0018】
図3に示すように、実在する対立遺伝子が遺伝子型の選択で見落とされた場合、カバレッジのプロットは、上昇した陰影領域を示す。これは、多くのデータ量が、選択された対立遺伝子によっては解明できないことを示す。
【0019】
図4は、2つの選択された対立遺伝子のカバレッジのプロットを示し、そこでは、一方が正しく、もう一方が誤っている。左のパネルの73乃至356、および右のパネルの986辺りを中心とする陰影領域は、C07:04:02が、このサンプルで正しい対立遺伝子ではないことを示唆する。
【0020】
図5は、選択された対立遺伝子のカバレッジのプロットを示し、そこでは、一方が見落とされている。両方のパネルの陰影領域は、このサンプルで一方の対立遺伝子が見落とされていることを示唆する。
【0021】
本開示の一態様は、CURの計算方法であって、a)全てのマッピングされたリードを2つのセットに分割するステップであって、第1のセットは、選択された対立遺伝子の参照にマッピングすることができる全てのリードを含み、第2のセットは、残りのリードを含むステップと、b)選択された対立遺伝子にマッピングすることができない第2のセットのリードに基づいて、カバレッジをそれぞれの位置で計算するステップと、c)CURが標的のゲノム領域のノイズレベル内にあるか否かを決定するステップとを具える方法に関する。
【0022】
一部の実施形態において、方法は、実在する対立遺伝子が見落とされているか否か、および/または、誤った対立遺伝子が選択されているか否かを決定するため、バー、ライン、またはシンボルを用いて、CURを、選択された対立遺伝子のカバレッジと共にカバレッジのプロットにおいてプロットするステップを更に具える。
【0023】
一部の実施形態において、方法は、NGS HLAの型決定に用いられる。
【0024】
別の実施形態において、方法は、任意の他の2倍体の遺伝子または標的に関する対立遺伝子の遺伝子型決定に用いられる。
【0025】
実施例1
例えば、HLA遺伝子を含むゲノムDNA等、1つ以上の対象の遺伝子を含むDNAのサンプルは、例えば、米国特許公開第2014/0206547号に見られる標準的な技術を用いて配列決定を行うことができる。要するに、PCRプライマーは、最も多型であるエクソンおよび介在配列を単一の産物として増幅できるよう、それぞれの遺伝子用に設計することができる。複数の遺伝子を同時に配列決定しようとする場合、増幅断片の末端の表示におけるバイアスを最小限にするために、等モル量のPCR産物をプールしてライゲーションさせることができる。これらのライゲーションされた産物は、300乃至350bpの平均の断片サイズにランダムに切断され、例えば、製造業者の指示に従ってIllumina社のシーケンサ(GAIIX、HiSeq2000、MiSeq等)を用いるシークエンシングに備えることができる。
【0026】
そのようにして得られた配列を、ゲノムの参照配列に対してアラインメントすることができる。HLA配列に関して、このように得られた配列を、NCBI BLASTNプログラムを有するIMGT-HLAデータベースからの配列に対してアラインメントすることができる。20000を超えるサンプルについて、CURと共に分析およびレビューを行った。遺伝子型決定の結果の精度は、URC情報を導入しないソフトウェアによる自動コール、および表1に示したCUR情報に基づいてユーザが訂正したレビュー済コールの両方について評価される。エラー率は、レビューを経たURC情報では83%減少した。
【0027】
上記の説明は、当業者に開示の請求項に係る態様およびその実施形態を実施する方法を教示することを目的としており、当業者が記載を読んだ際に明らかとなるであろう全ての明白な修正および変形を詳述することを意図するものではない。しかしながら、そのような明白な修正および変形はすべて本開示の範囲内に含まれることが意図されている。本開示は、文脈が明確に反対を示さない限り、意図される目的を達成するのに有効である任意の順序で成分および工程を網羅することを意図する。本明細書で引用した全ての発明および刊行物は、参照により完全に本明細書に援用される。
図1
図2
図3
図4
図5
図6