(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-09
(54)【発明の名称】組換え変異体を同定するための方法及びシステム
(51)【国際特許分類】
G16B 20/00 20190101AFI20240702BHJP
C12M 1/00 20060101ALI20240702BHJP
C12Q 1/68 20180101ALI20240702BHJP
C12N 15/09 20060101ALN20240702BHJP
【FI】
G16B20/00
C12M1/00 A
C12Q1/68
C12N15/09 Z ZNA
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023575607
(86)(22)【出願日】2022-06-06
(85)【翻訳文提出日】2023-12-07
(86)【国際出願番号】 US2022032365
(87)【国際公開番号】W WO2022261010
(87)【国際公開日】2022-12-15
(32)【優先日】2021-06-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】シャオ・チェン
(72)【発明者】
【氏名】マイケル・エー・エバレー
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB20
4B029FA15
4B063QA13
4B063QA20
4B063QQ02
4B063QQ03
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR90
4B063QS39
(57)【要約】
本明細書に開示されるものには、GBA遺伝子及びCYP21A2遺伝子などの遺伝子の組換え変異体(例えば、遺伝子変換変異体)、組換え変異体のコピー数、並びに遺伝子変異体の状態(例えば、キャリア、複合ヘテロ接合、又はホモ接合)を同定するためのシステム、デバイス、及び方法が含まれる。
【特許請求の範囲】
【請求項1】
GBA状態を決定するための方法であって、
ハードウェアプロセッサの制御下で、
対象から得られた試料から生成された第1の複数の配列リードを受信することと、
前記第1の複数の配列リードを参照ゲノム配列にアライメントして、前記参照ゲノム配列中のGBA遺伝子又はGBAP1遺伝子にアライメントされた第2の複数の配列リードを得ることと、
前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた前記第2の複数の配列リードの配列リードの数を決定することと、
前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域にアライメントされた前記配列リードの正規化された数を決定することと、
前記GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた前記配列リードの前記正規化された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することと、
複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域におけるGBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプを、前記複数のGBA/GBAP1識別塩基を含む前記領域又は前記対応する領域にアライメントされた前記第2の複数の配列リードの配列リードを使用して、フェージングすることと、
GBA遺伝子及びGBAP1遺伝子の前記全コピー数と、前記ハプロタイプを支持する前記複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む前記第2の複数の配列リードの配列リードの数とを使用して、前記1つ以上のハプロタイプのそれぞれのコピー数を決定することと、
前記GBA遺伝子の領域若しくは前記GBAP1遺伝子の対応する領域におけるGBA遺伝子若しくはGBAP1遺伝子に由来する前記1つ以上のハプロタイプ、及び/又は前記1つ以上のハプロタイプのそれぞれの前記コピー数を使用して、前記対象のGBA状態を決定することと、を含む方法。
【請求項2】
前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域が、約10キロベースの長さのユニーク領域を含む、請求項1に記載の方法。
【請求項3】
前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域が、hg38のchr1:155220429~155230539又は参照ヒトゲノム配列の対応する領域を含む、請求項1又は2に記載の方法。
【請求項4】
前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域にアライメントされた前記配列リードの前記正規化された数を決定することが、(1a)前記GBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域にアライメントされた前記配列リードの深さ、(1b)前記ユニーク領域の長さ、(2a)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の前記参照ゲノム配列中の複数の領域のそれぞれにアライメントされた前記第1の複数の配列リードの配列リードの深さ、並びに(2b)GBA遺伝子及びGBAP1遺伝子を含む前記遺伝子座以外の前記参照ゲノムの前記複数の領域のそれぞれの長さ、を使用して、前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域にアライメントされた前記配列リードの前記正規化された数を決定することを含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域にアライメントされた前記配列リードの正規化された、補正された数を、前記参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域にアライメントされた前記配列リードの前記正規化された数から、(1)前記GBA遺伝子とGBAP1遺伝子との間の前記ユニーク領域のGC含量と、任意選択で、(2)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の前記参照ゲノム配列の1つ以上の領域のそれぞれのGC含量と、を使用して決定することを含み、GBA遺伝子及びGBAP1遺伝子の前記全コピー数を決定することが、GBA遺伝子とGBAP1遺伝子との間の前記領域にアライメントされた前記配列リードの前記正規化された、補正された数を所与として、前記混合ガウスモデルを使用してGBA遺伝子及びGBAP1遺伝子の前記全コピー数を決定することを含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
GBA遺伝子及びGBAP1遺伝子の前記全コピー数を決定することが、GBA遺伝子とGBAP1遺伝子との間の前記領域にアライメントされた前記配列リードの前記正規化された数を所与として、前記混合ガウスモデルを使用してGBA遺伝子とGBAP1遺伝子との間の前記領域のコピー数を決定することを含み、GBA遺伝子及びGBAP1遺伝子の前記全コピー数が、GBA遺伝子とGBAP1遺伝子との間の前記領域の前記コピー数+2である、請求項1~5のいずれか一項に記載の方法。
【請求項7】
GBA遺伝子及びGBAP1遺伝子の前記全コピー数を決定することが、GBA遺伝子とGBAP1遺伝子との間の前記領域にアライメントされた前記配列リードの前記正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用してGBA遺伝子及びGBAP1遺伝子の前記全コピー数を決定することを含み、任意選択で、前記所定の事後確率閾値が、0.95である、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記混合ガウスモデルが、1次元混合ガウスモデルを含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記混合ガウスモデルの前記複数のガウスが、整数コピー数0~10を表す、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記混合ガウスモデルの前記複数のガウスが、5ガウスを含む、請求項1~8のいずれか一項に記載の方法。
【請求項11】
前記複数のガウスのそれぞれの平均が、ガウスによって表される前記整数コピー数である、請求項1~10のいずれか一項に記載の方法。
【請求項12】
GBA遺伝子又はGBAP1遺伝子に由来する前記1つ以上のハプロタイプをフェージングすることが、前記複数のGBA/GBAP1識別塩基を含む前記領域又は前記対応する領域にアライメントされた前記第2の複数の配列リードの配列リードを使用して、前記複数のGBA/GBAP1識別塩基のGBA/GBAP1識別塩基間の連鎖情報を分析することを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
GBA遺伝子又はGBAP1遺伝子に由来する前記1つ以上のハプロタイプをフェージングすることが、前記複数のGBA/GBAP1識別塩基のうちの2つ以上にそれぞれアライメントされた前記第2の複数の配列リードの配列リードを使用して、GBA遺伝子又はGBAP1遺伝子に由来する前記1つ以上のハプロタイプをフェージングすることを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記第2の複数の配列リードの配列リードが、0以上のアライメント品質スコアで、前記複数のGBA/GBAP1識別塩基を含む前記GBA遺伝子の領域又は前記GBAP1遺伝子の対応する領域にアライメントされる、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記複数のGBA/GBAP1識別塩基を含む前記GBA遺伝子の領域又は前記GBAP1遺伝子の対応する領域が、約1.1キロベースの長さである、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記複数のGBA/GBAP1識別塩基を含む前記GBA遺伝子の領域又は前記GBAP1遺伝子の対応する領域が、それぞれGBA遺伝子又はGBAP1遺伝子のエクソン9~11を含む、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記複数のGBA/GBAP1識別塩基を含む前記GBA遺伝子の領域又は前記GBAP1遺伝子の対応する領域が、p.L483P、p.D448H、c.1263del、RecNciI、RecTL、及びc.1263del+RecTLを含む、請求項1~15のいずれか一項に記載の方法。
【請求項18】
前記複数のGBA/GBAP1識別塩基が、10個のGBA/GBAP1識別塩基を含む、請求項1~16のいずれか一項に記載の方法。
【請求項19】
前記1つ以上のハプロタイプが、野生型GBAハプロタイプ、野生型GBAP1ハプロタイプ、及び/又はGBA/GBAP1ハイブリッドハプロタイプを含み、任意選択で、前記GBA/GBAP1ハイブリッドハプロタイプが、GBA変異体ハプロタイプ又はGBAP1変異体ハプロタイプを含む、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記1つ以上のハプロタイプのそれぞれの前記コピー数を決定することが、
野生型GBAハプロタイプの1つのコピーの尤度が、前記野生型GBAハプロタイプを支持する前記複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む前記第2の複数の配列リードの配列リードの数を所与として、前記野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することと、
前記野生型GBAハプロタイプのコピー数が1であることを決定することと、を含む、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記野生型GBAハプロタイプの前記1つのコピーの尤度が、前記野生型GBAハプロタイプの前記2つのコピーの尤度よりも高いことを決定することが、
前記複数のGBA/GBAP1識別塩基の連続するGBA/GBAP1識別塩基の1つ以上の対であって、前記1つ以上のハプロタイプの第1のハプロタイプが、前記連続するGBA/GBAP1識別塩基においてGBA塩基を含み、前記1つ以上のハプロタイプの第2のハプロタイプが、前記連続するGBA/GBAP1識別塩基においてGBA塩基及びGBAP1塩基、又は、GBAP1塩基及びGBA塩基を含む、1つ以上の対のそれぞれにおいて、(1)前記連続するGBA/GBAP1識別塩基で前記GBA塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、(2)前記連続するGBA/GBAP1識別塩基で前記GBA塩基及び前記GBAP1塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、(3)前記連続するGBA/GBAP1識別塩基で前記GBAP1塩基及び前記GBA塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、並びに/又は(4)前記連続するGBA/GBAP1識別塩基で前記GBAP1塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、を所与として、前記野性型GBAハプロタイプの前記1つのコピーの尤度が、前記野性型GBAハプロタイプの前記2つのコピーの尤度より高いことを決定することを含む、請求項20に記載の方法。
【請求項22】
前記野生型GBAハプロタイプの前記1つのコピーの尤度が、前記連続するGBA/GBAP1識別塩基の1つ以上の対のそれぞれについて決定された前記野生型GBAハプロタイプの前記1つのコピーの尤度の合計を含み、前記野生型GBAハプロタイプの前記2つのコピーの尤度が、前記連続するGBA/GBAP1識別塩基の1つ以上の対のそれぞれについて決定された前記野生型GBAハプロタイプの前記2つのコピーの尤度の合計を含む、請求項21に記載の方法。
【請求項23】
前記野生型GBAハプロタイプの前記コピー数が1であり、前記対象の前記GBA状態が、GBA変異体ハプロタイプのキャリアを含む、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記1つ以上のハプロタイプが、4つのハプロタイプを含み、GBA遺伝子及びGBAP1遺伝子の前記全コピー数が4であり、前記4つのハプロタイプのそれぞれのコピー数が1であり、前記対象のGBA状態が、GBA変異体ハプロタイプのキャリアを含む、請求項1~23のいずれか一項に記載の方法。
【請求項25】
前記1つ以上のハプロタイプが、2つ以上のGBA変異体ハプロタイプを含み、前記2つ以上のGBA変異体ハプロタイプのいずれも、前記複数のGBA/GBAP1識別塩基のそれぞれにおいてGBA塩基を含まず、前記対象の前記GBA状態が、GBA変異体ハプロタイプの複合ヘテロ接合を含む、請求項1~22のいずれか一項に記載の方法。
【請求項26】
前記GBA塩基ではない前記GBA/GBAP1識別塩基における塩基をそれぞれ含む前記第2の複数の配列リードの配列リードを使用して、前記複数のGBA/GBAP1識別塩基のうちの1つ以上のそれぞれにおけるGBA塩基のコピー数が0であると決定することを含み、任意選択で、前記GBA塩基ではない前記GBA/GBAP1識別塩基における前記塩基が、GBAP1塩基であり、任意選択で、前記GBA状態を決定することが、前記対象が前記複数のGBA/GBAP1識別塩基のうちの前記1つ以上のそれぞれのホモ接合であると決定することを含む、請求項1~22のいずれか一項に記載の方法。
【請求項27】
前記GBA状態を表すか又は含むユーザインターフェース(UI)要素を含むUIを生成することを含む、請求項1~26のいずれか一項に記載の方法。
【請求項28】
CYP21A2状態を決定するための方法であって、
ハードウェアプロセッサの制御下で、
対象から得られた試料から生成された第1の複数の配列リードを受信することと、
前記第1の複数の配列リードを参照ゲノム配列にアライメントして、前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードを得ることと、
前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記第2の複数の配列リードの配列リードの数を決定することと、
前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの正規化された数を決定することと、
前記CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの前記正規化された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することと、
複数のCYP21A2/CYP21A1P識別塩基を含むCYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプを、前記複数のCYP21A2/CYP21A1P識別塩基を含む前記領域又は前記対応する領域にアライメントされた前記第2の複数の配列リードの配列リードを使用して、フェージングすることと、
CYP21A2遺伝子及びCYP21A1P遺伝子の前記全コピー数と、前記ハプロタイプを支持する前記複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む前記第2の複数の配列リードの配列リードの数とを使用して、前記1つ以上のハプロタイプのそれぞれのコピー数を決定することと、
前記CYP21A2遺伝子の領域若しくは前記CYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子若しくはCYP21A1P偽遺伝子に由来する前記1つ以上のハプロタイプ、及び/又は前記1つ以上のハプロタイプのそれぞれの前記コピー数を使用して、前記対象のCYP21A2状態を決定することと、を含む方法。
【請求項29】
前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの前記正規化された数を決定することが、(1a)CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの深さ、(1b)ユニーク領域の長さ、(2a)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の前記参照ゲノム配列の複数の領域のそれぞれにアライメントされた前記第1の複数の配列リードの配列リードの深さ、並びに(2b)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む前記遺伝子座以外の前記参照ゲノムの前記複数の領域のそれぞれの長さ、を使用して、前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの前記正規化された数を決定することを含む、請求項28に記載の方法。
【請求項30】
前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの正規化された、補正された数を、前記参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの前記正規化された数から、(1)CYP21A2遺伝子又はCYP21A1P偽遺伝子のGC含量と、任意選択で、(2)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の前記参照ゲノム配列の1つ以上の領域のそれぞれのGC含量と、を使用して決定することを含み、CYP21A2遺伝子及びCYP21A1P偽遺伝子の前記全コピー数を決定することが、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの前記正規化された、補正された数を所与として、前記混合ガウスモデルを使用してCYP21A2遺伝子及びCYP21A1P偽遺伝子の前記全コピー数を決定することを含む、請求項28又は29に記載の方法。
【請求項31】
CYP21A2遺伝子及びCYP21A1P偽遺伝子の前記全コピー数を決定することが、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた前記配列リードの前記正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用してCYP21A2遺伝子及びCYP21A1P偽遺伝子の前記全コピー数を決定することを含み、任意選択で、前記所定の事後確率閾値が、0.95である、請求項28~30のいずれか一項に記載の方法。
【請求項32】
前記混合ガウスモデルが、1次元混合ガウスモデルを含む、請求項28~31のいずれか一項に記載の方法。
【請求項33】
前記混合ガウスモデルの前記複数のガウスが、整数コピー数0~10を表す、請求項28~32のいずれか一項に記載の方法。
【請求項34】
前記混合ガウスモデルの前記複数のガウスが、5ガウスを含む、請求項28~32のいずれか一項に記載の方法。
【請求項35】
前記複数のガウスのそれぞれの平均が、ガウスによって表される前記整数コピー数である、請求項28~34のいずれか一項に記載の方法。
【請求項36】
CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する前記1つ以上のハプロタイプをフェージングすることが、前記複数のCYP21A2/CYP21A1P識別塩基を含む前記領域又は前記対応する領域にアライメントされた前記第2の複数の配列リードの配列リードを使用して、前記複数のCYP21A2/CYP21A1P識別塩基のCYP21A2/CYP21A1P識別塩基間の連鎖情報を分析することを含む、請求項28~35のいずれか一項に記載の方法。
【請求項37】
CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する前記1つ以上のハプロタイプをフェージングすることが、前記複数のCYP21A2/CYP21A1P識別塩基のうちの2つ以上にそれぞれアライメントされた前記第2の複数の配列リードの配列リードを使用して、CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する前記1つ以上のハプロタイプをフェージングすることを含む、請求項28~36のいずれか一項に記載の方法。
【請求項38】
前記第2の複数の配列リードの配列リードが、0以上のアライメント品質スコアで、前記複数のCYP21A2/CYP21A1P識別塩基を含む前記CYP21A2遺伝子の領域又は前記CYP21A1P遺伝子の対応する領域にアライメントされる、請求項28~34のいずれか一項に記載の方法。
【請求項39】
前記複数のCYP21A2/CYP21A1P識別塩基が、14個のCYP21A2/CYP21A1P識別塩基を含み、任意選択で、前記14個のCYP21A2/CYP21A1P識別塩基が、9個のCYP21A2/CYP21A1P組換え変異体を含み、任意選択で、前記14個のCYP21A2/CYP21A1P識別塩基が、hg38の、chr6:32039081/32006353、32039128/32006400、32039132/32006404、32039143/32006407、32039426/32006690、32039548/32006812、32039802/32007066、32039807/32007071、32039810/32007074、32039816/32007080、32040182/32007446、32040216/32007481、32040421/32007686、及び32040535/32007800、又は参照ヒトゲノム配列のその対応する塩基を含む、請求項28~38のいずれか一項に記載の方法。
【請求項40】
前記1つ以上のハプロタイプが、野生型CYP21A2ハプロタイプ、野生型CYP21A1P、及び/又はCYP21A2/CYP21A1Pハイブリッドハプロタイプを含み、任意選択で、前記CYP21A2/CYP21A1Pハイブリッドハプロタイプが、CYP21A2変異体ハプロタイプ又はCYP21A1P変異体ハプロタイプを含む、請求項28~39のいずれか一項に記載の方法。
【請求項41】
前記1つ以上のハプロタイプのそれぞれの前記コピー数を決定することが、
野生型CYP21A2ハプロタイプの1つのコピーの尤度が、前記野生型CYP21A2ハプロタイプを支持する前記複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む前記第2の複数の配列リードの配列リードの数を所与として、前記野生型CYP21A2ハプロタイプの2つのコピーの尤度よりも高いことを決定することと、
前記野生型CYP21A2ハプロタイプの前記コピー数が1であることを決定することと、を含む、請求項28~40のいずれか一項に記載の方法。
【請求項42】
前記野生型CYP21A2ハプロタイプの前記1つのコピーの尤度が、前記野生型CYP21A2ハプロタイプの前記2つのコピーの尤度よりも高いことを決定することが、
前記複数のCYP21A2/CYP21A1P識別塩基の連続するCYP21A2/CYP21A1P識別塩基の1つ以上の対であって、前記1つ以上のハプロタイプの第1のハプロタイプが、前記連続するCYP21A2/CYP21A1P識別塩基においてCYP21A2塩基を含み、前記1つ以上のハプロタイプの第2のハプロタイプが、前記連続するCYP21A2/CYP21A1P識別塩基においてCYP21A2塩基及びCYP21A1P塩基、又は、CYP21A1P塩基及びCYP21A2塩基を含む、1つ以上の対のそれぞれにおいて、(1)前記連続するCYP21A2/CYP21A1P識別塩基で前記CYP21A2塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、(2)前記連続するCYP21A2/CYP21A1P識別塩基で前記CYP21A2塩基及び前記CYP21A1P塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、(3)前記連続するCYP21A2/CYP21A1P識別塩基で前記CYP21A1P塩基及び前記CYP21A2塩基、若しくは前記CYP21A2塩基及び前記CYP21A1P塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、並びに/又は(4)前記連続するCYP21A2/CYP21A1P識別塩基で前記CYP21A1P塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、を所与として、前記野性型CYP21A2ハプロタイプの前記1つのコピーの尤度が、前記野性型CYP21A2ハプロタイプの前記2つのコピーの尤度より高いことを決定することを含む、請求項41に記載の方法。
【請求項43】
前記野生型CYP21A2ハプロタイプの前記1つのコピーの尤度が、前記連続するCYP21A2/CYP21A1P識別塩基の1つ以上の対のそれぞれについて決定された前記野生型CYP21A2ハプロタイプの前記1つのコピーの尤度の合計を含み、前記野生型CYP21A2ハプロタイプの前記2つのコピーの尤度が、前記連続するCYP21A2/CYP21A1P識別塩基の1つ以上の対のそれぞれについて決定された前記野生型CYP21A2ハプロタイプの前記2つのコピーの尤度の合計を含む、請求項42に記載の方法。
【請求項44】
前記野生型CYP21A2ハプロタイプの前記コピー数が1であり、前記対象の前記CYP21A2状態が、CYP21A2変異体ハプロタイプのキャリアを含む、請求項28~43のいずれか一項に記載の方法。
【請求項45】
前記1つ以上のハプロタイプが、4つのハプロタイプを含み、CYP21A2遺伝子及びCYP21A1P遺伝子の前記全コピー数が4であり、前記4つのハプロタイプのそれぞれのコピー数が1であり、前記対象の前記CYP21A2状態が、CYP21A2変異体ハプロタイプのキャリアを含む、請求項28~44のいずれか一項に記載の方法。
【請求項46】
前記1つ以上のハプロタイプが、2つ以上のハプロタイプを含み、前記2つ以上のハプロタイプのいずれも、前記複数のCYP21A2/CYP21A1P識別塩基のそれぞれにおいてCYP21A2塩基を含まず、前記対象の前記CYP21A2状態が、CYP21A2変異体ハプロタイプの複合ヘテロ接合を含む、請求項28~43のいずれか一項に記載の方法。
【請求項47】
前記1つ以上のハプロタイプが、ただ1つのハプロタイプを含み、前記ただ1つのハプロタイプが、前記複数のCYP21A2/CYP21A1P識別塩基のそれぞれにおいてCYP21A2塩基を含まず、前記対象の前記CYP21A2状態が、CYP21A2変異体ハプロタイプのホモ接合である、請求項28~43のいずれか一項に記載の方法。
【請求項48】
前記CYP21A2状態を表すか又は含むユーザインターフェース(UI)要素を含むUIを生成することを含む、請求項28~47のいずれか一項に記載の方法。
【請求項49】
前記第1の複数の配列リードが、それぞれ約100塩基対~約1000塩基対の長さである配列リードを含む、請求項1~48のいずれか一項に記載の方法。
【請求項50】
前記第1の複数の配列リードが、ペアエンド配列リード及び/又は単一エンド配列リードを含む、請求項1~49のいずれか一項に記載の方法。
【請求項51】
前記第1の複数の配列リードが、全ゲノム配列決定(WGS)によって生成され、任意選択で、前記WGSが臨床WGS(cWGS)である、請求項1~50のいずれか一項に記載の方法。
【請求項52】
前記試料が、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含む、請求項1~51のいずれか一項に記載の方法。
【請求項53】
遺伝子組換え変異体を決定するためのシステムであって、
実行可能な命令及び対象から得られた試料から生成された第1の複数の配列リードを記憶するように構成された非一時的メモリと、
前記非一時的メモリと通信するハードウェアプロセッサと、を備え、前記ハードウェアプロセッサが、前記実行可能な命令によって、
前記第1の複数の配列リードを参照配列にアライメントして、前記参照配列中の遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた第2の複数の配列リードを得ることと、
前記遺伝子若しくは前記遺伝子パラログ、又はそれらの間の領域にアライメントされた前記配列リードの数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、前記遺伝子及び前記遺伝子パラログの全コピー数を決定することと、
複数の遺伝子/遺伝子パラログ識別塩基を含む、前記遺伝子(前記遺伝子の組換え変異体を含む)若しくは前記遺伝子パラログ、又は前記遺伝子の領域若しくは前記遺伝子パラログの対応する領域に由来する1つ以上のハプロタイプを、前記複数の遺伝子/遺伝子パラログ識別塩基を含む前記領域又は前記対応する領域にアライメントされた前記第2の複数の配列リードの配列リードを使用してフェージングすることと、
前記遺伝子及び前記遺伝子パラログの前記全コピー数と、前記ハプロタイプを支持する前記複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む前記第2の複数の配列リードの配列リードの数とを使用して、前記1つ以上のハプロタイプのそれぞれのコピー数を決定することと、を実行するようプログラムされている、システム。
【請求項54】
前記遺伝子組換え変異体が、相互組換え変異体を含む、請求項53に記載のシステム。
【請求項55】
前記遺伝子組換え変異体が、非相互組換え変異体を含む、請求項53に記載のシステム。
【請求項56】
前記参照配列が、参照ゲノム配列を含む、請求項53~55のいずれか一項に記載のシステム。
【請求項57】
前記ハードウェアプロセッサが、前記実行可能な命令によって、前記遺伝子若しくは前記遺伝子パラログ、又はそれらの間の領域にアライメントされた前記配列リードの数を決定することを実行するようにプログラムされている、請求項53又は54に記載のシステム。
【請求項58】
前記遺伝子若しくは前記遺伝子パラログ、又はそれらの間の領域にアライメントされた前記配列リードの前記数が、前記遺伝子若しくは前記遺伝子パラログ、又はそれらの間の領域にアライメントされた前記配列リードの正規化及び/又はGC補正された数を含む、請求項53~57のいずれか一項に記載のシステム。
【請求項59】
前記遺伝子パラログが、遺伝子である、請求項53~58のいずれか一項に記載のシステム。
【請求項60】
前記遺伝子パラログが、偽遺伝子である、請求項53~58のいずれか一項に記載のシステム。
【請求項61】
前記遺伝子が、GBA遺伝子であり、前記遺伝子パラログが、GBAP1遺伝子である、請求項53~58のいずれか一項に記載のシステム。
【請求項62】
遺伝子が、CYP21A2遺伝子であり、前記遺伝子パラログが、CYP21A1P偽遺伝子である、請求項53~58のいずれか一項に記載のシステム。
【請求項63】
前記遺伝子が、ABCC6、ABCD1、ACTB、ACTG1、ACTN4、ADAMTSL2、ADIPOR1、AFG3L2、AGK、ALG1、ALMS1、ANKRD11、ANOS1、AP4S1、ARMC4、ARSE、ASNS、ATAD3A、B3GAT3、BCAP31、BDP1、BMPR1A、BRAF、BRCA1、C2、CACNA1C、CALM1、CD46、CEP290、CFH、CFH、CFH、CHEK2、CISD2、CLCNKA、CLCNKB、CORO1A、COX10、CP、CRYBB2、CSF2RA、CUBN、CUBN、CYCS、CYP11B1、CYP21A2、DCLRE1C、DHFR、DICER1、DIS3L2、DNAH11、DNAH11、DNM1、DSE、DUOX2、EGLN1、ELK1、ELMO2、ERCC6、ESPN、EYS、F8、FANCD2、FANCD2、FAR1、FHL1、FLG、FLNC、FOXD4、FXN、GBA、GH1、GJA1、GK、GLUD1、GLUD1、GOSR2、GUSB、HBA1、HBA2、HNRNPA1、HPS1、HSPD1、HYDIN、IDS、IFT122、IGLL1、KANSL1、KCTD1、KIF1C、KRAS、KRT14、KRT16、KRT17、KRT6A、KRT6B、KRT6C、LEFTY2、LRP5、LRP5、MAT2A、MID1、MOCS1、MSN、MSX2、MYO5B、NCF1、NEB、NECAP1、NEFH、NF1、NF1、NF1、NOTCH2、NXF5、OCLN、OTOA、PARN、PBX1、PIGA、PIGN、PIK3CA、PIK3CD、PKD1、PKP2、PMS2、PMS2、PMS2、PNPT1、POLH、PRODH、PRODH、PROS1、PRPS1、PRSS1、PTEN、RAD21、RBM8A、RBPJ、RDX、RMND1、RNF216、RNF216、RPL15、SALL1、SBDS、SDHA、SHOX、SLC25A15、SLC25A15、SLC33A1、SLC6A8、SMN1、SMN2、SOX2、SPTLC1、SRD5A3、SRP72、STAT5B、STRC、SYT14、TARDBP、TBL1XR1、TBX20、TIMM8A、TPM3、TPMT、TRAPPC2、TRIP11、TTN、TUBA1A、TUBB2A、TUBB2B、TUBB3、TUBB4A、TUBG1、TYR、UBA5、UBE3A、UNC93B1、USP18、VPS35、VWF、WRN、XIAP、ZEB2、又はZNF341である、請求項53~58のいずれか一項に記載のシステム。
【請求項64】
前記遺伝子及び前記遺伝子パラログが、少なくとも90%の配列同一性を有する、請求項53~63のいずれか一項に記載のシステム。
【請求項65】
前記ハードウェアプロセッサが、前記実行可能な命令によって、前記遺伝子若しくは前記遺伝子パラログ、又は前記遺伝子の前記領域若しくは前記遺伝子パラログの前記対応する領域に由来する前記1つ以上のハプロタイプ、及び/又は前記1つ以上のハプロタイプのそれぞれの前記コピー数を使用して前記対象の遺伝子変異体状態を決定することを実行するようにプログラムされている、請求項53~64のいずれか一項に記載のシステム。
【請求項66】
前記参照配列中の前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの前記正規化された数を決定することが、(1a)前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの深さ、(1b)ユニーク領域の長さ、(2a)前記遺伝子及び前記遺伝子パラログを含む遺伝子座以外の前記参照配列の複数の領域のそれぞれにアライメントされた前記第1の複数の配列リードの配列リードの深さ、並びに(2b)前記遺伝子及び前記遺伝子パラログを含む前記遺伝子座以外の前記参照の前記複数の領域のそれぞれの長さ、を使用して、前記参照配列中の前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの前記正規化された数を決定することを含む、請求項53~65のいずれか一項に記載のシステム。
【請求項67】
前記ハードウェアプロセッサが、前記実行可能な命令によって、前記参照配列中の前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの正規化された、補正された数を、前記参照配列中の前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの前記正規化された数から、(1)前記遺伝子又は前記遺伝子パラログのGC含量と、任意選択で、(2)前記遺伝子及び前記遺伝子パラログを含む遺伝子座以外の前記参照配列の1つ以上の領域のそれぞれのGC含量と、を使用して決定することを実行するようにプログラムされ、前記遺伝子及び前記遺伝子パラログの前記全コピー数を決定することが、前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの前記正規化された、補正された数を所与として、前記混合ガウスモデルを使用して前記遺伝子及び前記遺伝子パラログの前記全コピー数を決定することを含む、請求項53~66のいずれか一項に記載のシステム。
【請求項68】
前記遺伝子及び前記遺伝子パラログの前記全コピー数を決定することが、前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの前記正規化された数を所与として、前記混合ガウスモデルを使用して前記遺伝子と前記遺伝子パラログとの間の前記領域のコピー数を決定することを含み、前記遺伝子及び前記遺伝子パラログの前記全コピー数が、前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードのコピー数+2である、請求項53~67のいずれか一項に記載のシステム。
【請求項69】
前記遺伝子及び前記遺伝子パラログの前記全コピー数を決定することが、前記遺伝子又は前記遺伝子パラログにアライメントされた前記配列リードの前記正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して前記遺伝子及び前記遺伝子パラログの前記全コピー数を決定することを含み、任意選択で、前記所定の事後確率閾値が、0.95である、請求項53~68のいずれか一項に記載のシステム。
【請求項70】
前記混合ガウスモデルが、1次元混合ガウスモデルを含む、請求項53~69のいずれか一項に記載のシステム。
【請求項71】
前記混合ガウスモデルの前記複数のガウスが、整数コピー数0~10を表す、請求項53~70のいずれか一項に記載のシステム。
【請求項72】
前記混合ガウスモデルの前記複数のガウスが、5ガウスを含む、請求項53~70のいずれか一項に記載のシステム。
【請求項73】
前記複数のガウスのそれぞれの平均が、ガウスによって表される前記整数コピー数である、請求項53~72のいずれか一項に記載のシステム。
【請求項74】
前記遺伝子又は前記遺伝子パラログに由来する前記1つ以上のハプロタイプをフェージングすることが、前記複数の遺伝子/遺伝子パラログ識別塩基を含む前記領域又は前記対応する領域にアライメントされた前記第2の複数の配列リードの配列リードを使用して、前記複数の遺伝子/遺伝子パラログ識別塩基の遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することを含む、請求項53~73のいずれか一項に記載のシステム。
【請求項75】
前記遺伝子又は前記遺伝子パラログに由来する前記1つ以上のハプロタイプをフェージングすることが、前記複数の遺伝子/遺伝子パラログ識別塩基のうちの2つ以上にそれぞれアライメントされた前記第2の複数の配列リードの配列リードを使用して、前記遺伝子又は前記遺伝子パラログに由来する前記1つ以上のハプロタイプをフェージングすることを含む、請求項53~74のいずれか一項に記載のシステム。
【請求項76】
前記第2の複数の配列リードの配列リードが、0以上のアライメント品質スコアで、前記複数の遺伝子/遺伝子パラログ識別塩基を含む前記遺伝子の前記領域又は前記遺伝子パラログの前記対応する領域にアライメントされる、請求項53~75のいずれか一項に記載のシステム。
【請求項77】
前記1つ以上のハプロタイプが、野生型遺伝子ハプロタイプ、野生型遺伝子パラログ、及び/又は遺伝子/遺伝子パラログハイブリッドハプロタイプを含み、任意選択で、前記遺伝子/遺伝子パラログハイブリッドハプロタイプが、遺伝子変異体ハプロタイプ又は遺伝子パラログ変異体ハプロタイプを含む、請求項53~76のいずれか一項に記載のシステム。
【請求項78】
前記1つ以上のハプロタイプのそれぞれの前記コピー数を決定することが、
野生型遺伝子ハプロタイプの1つのコピーの尤度が、前記野生型遺伝子ハプロタイプを支持する前記複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む前記第2の複数の配列リードの配列リードの数を所与として、前記野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することと、
前記野生型遺伝子ハプロタイプのコピー数が1であることを決定することと、を含む、請求項53~77のいずれか一項に記載のシステム。
【請求項79】
前記野生型遺伝子ハプロタイプの前記1つのコピーの尤度が、前記野生型遺伝子ハプロタイプの前記2つのコピーの尤度よりも高いことを決定することが、
複数の遺伝子/遺伝子パラログ識別塩基の連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対であって、前記1つ以上のハプロタイプの第1のハプロタイプが、前記連続する遺伝子/遺伝子パラログ識別塩基において遺伝子塩基を含み、前記1つ以上のハプロタイプの第2のハプロタイプが、前記連続する遺伝子/遺伝子パラログ識別塩基において遺伝子塩基及び遺伝子パラログ塩基、又は遺伝子パラログ塩基及び遺伝子塩基を含む、1つ以上の対のそれぞれにおいて、(1)前記連続する遺伝子/遺伝子パラログ識別塩基で前記遺伝子塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、(2)前記連続する遺伝子/遺伝子パラログ識別塩基で前記遺伝子塩基及び前記遺伝子パラログ塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、(3)前記連続する遺伝子/遺伝子パラログ識別塩基で前記遺伝子パラログ塩基及び前記遺伝子塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、並びに/又は(4)前記連続する遺伝子/遺伝子パラログ識別塩基で前記遺伝子パラログ塩基をそれぞれ含む前記第2の複数の配列リードの配列リードの数、を所与として、前記野生型遺伝子ハプロタイプの前記1つのコピーの尤度が、前記野生型遺伝子ハプロタイプの前記2つのコピーの尤度よりも高いことを決定することを含む、請求項78に記載のシステム。
【請求項80】
前記野生型遺伝子ハプロタイプの前記1つのコピーの尤度が、前記連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対のそれぞれについて決定された前記野生型遺伝子ハプロタイプの前記1つのコピーの尤度の合計を含み、前記野生型遺伝子ハプロタイプの前記2つのコピーの尤度が、前記連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対のそれぞれについて決定された前記野生型遺伝子ハプロタイプの前記2つのコピーの尤度の合計を含む、請求項79に記載のシステム。
【請求項81】
前記野生型遺伝子ハプロタイプの前記コピー数が1であり、前記対象の前記遺伝子変異体状態が、遺伝子変異体ハプロタイプのキャリアを含む、請求項53~80のいずれか一項に記載のシステム。
【請求項82】
前記1つ以上のハプロタイプが、4つのハプロタイプを含み、前記遺伝子及び前記遺伝子パラログの前記全コピー数が4であり、前記4つのハプロタイプのそれぞれのコピー数が1であり、前記対象の前記遺伝子変異体状態が、遺伝子変異体ハプロタイプのキャリアを含む、請求項53~81のいずれか一項に記載のシステム。
【請求項83】
前記1つ以上のハプロタイプが、2つ以上のハプロタイプを含み、前記2つ以上のハプロタイプのいずれも、前記複数の遺伝子/遺伝子パラログ識別塩基のそれぞれにおいて遺伝子塩基を含まず、前記対象の前記遺伝子変異体状態が、遺伝子変異体ハプロタイプの複合ヘテロ接合を含む、請求項53~80のいずれか一項に記載のシステム。
【請求項84】
前記1つ以上のハプロタイプが、ただ1つのハプロタイプを含み、前記ただ1つのハプロタイプが、複数の前記遺伝子/遺伝子パラログ識別塩基のそれぞれにおいて遺伝子塩基を含まず、前記対象の前記遺伝子変異体状態が、遺伝子変異体ハプロタイプのホモ接合を含む、請求項53~80のいずれか一項に記載のシステム。
【請求項85】
前記ハードウェアプロセッサが、前記実行可能な命令によって、前記遺伝子変異体状態を表すか又は含むユーザインターフェース(UI)要素を含むUIを生成することを含むことを実行するようにプログラムされている、請求項54~80のいずれか一項に記載のシステム。
【請求項86】
前記第1の複数の配列リードが、それぞれ約100塩基対~約1000塩基対の長さである配列リードを含む、請求項53~85のいずれか一項に記載のシステム。
【請求項87】
前記第1の複数の配列リードが、ペアエンド配列リード及び/又は単一エンド配列リードを含む、請求項53~86のいずれか一項に記載のシステム。
【請求項88】
前記第1の複数の配列リードが、全ゲノム配列決定(WGS)によって生成され、任意選択で、前記WGSが臨床WGS(cWGS)である、請求項53~87のいずれか一項に記載のシステム。
【請求項89】
前記試料が、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含む、請求項53~88のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2021年6月7日に出願された米国仮出願第63/197,936号に対する米国特許法第119条(e)に基づく優先権を主張する。関連出願の内容は、参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、広義には、遺伝子変異体を決定する分野に関し、より詳細には、組換え変異体を決定することに関する。
【背景技術】
【0003】
セグメント重複は、構造変異体及び遺伝子組換え変異体(例えば、遺伝子変換)のホットスポットである。セグメント重複は、高度に相同な遺伝子ファミリーメンバー又は偽遺伝子を有する遺伝子について生じることができる。遺伝子及び相同遺伝子ファミリーメンバー又は偽遺伝子の高い配列類似性は、不十分なリードアライメント及び変異体コーリングをもたらし得る。高度に相同な遺伝子ファミリーメンバー又は偽遺伝子を有する遺伝子の変異体を情報科学的に同定する必要がある。
【発明の概要】
【課題を解決するための手段】
【0004】
本明細書では、GBA状態を決定するための方法が開示される。いくつかの実施形態では、GBA状態を決定するための方法は、プロセッサ(ハードウェアプロセッサ又は仮想プロセッサなど)の制御下にあり、対象から得られた試料から生成された第1の複数の配列リードを受信することを含む。本方法は、第1の複数の配列リードを参照ゲノム配列にアライメントして、参照ゲノム配列中のGBA遺伝子又はGBAP1遺伝子にアライメントされた第2の複数の配列リードを得ることを含み得る。本方法は、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた第2の複数の配列リードの配列リードの数を決定することを含み得る。本方法は、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数を決定することを含み得る。本方法は、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することを含み得る。本方法は、複数のGBA/GBAP1識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域におけるGBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングすることを含み得る。本方法は、GBA遺伝子及びGBAP1遺伝子の全コピー数、並びにハプロタイプを支持する複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定することを含み得る。本方法は、GBA遺伝子の領域若しくはGBAP1遺伝子の対応する領域におけるGBA遺伝子若しくはGBAP1遺伝子に由来する1つ以上のハプロタイプ、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象のGBA状態を決定することを含み得る。いくつかの実施形態では、方法は、GBA状態を表すか又は含むユーザインターフェース(user interface、UI)要素を含むUIを生成することを含む。
【0005】
いくつかの実施形態では、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域は、約10キロベースの長さのユニーク領域を含む。参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域は、hg38のchr1:155220429~155230539又は参照ヒトゲノム配列の対応する領域を含み得る。
【0006】
いくつかの実施形態では、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数を決定することは、(1a)GBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの深さ、(1b)ユニーク領域の長さ、(2a)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照ゲノム配列中の複数の領域のそれぞれにアライメントされた第1の複数の配列リードの配列リードの深さ、並びに(2b)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照ゲノムの複数の領域のそれぞれの長さ、を使用して、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数を決定することを含む。
【0007】
いくつかの実施形態では、本方法は、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された、補正された数を、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から決定することを含む。参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された、補正された数を決定することは、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されGC含量を補正された数を決定することを含み得る。参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されたGC含量を補正された数を決定することは、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されたGC含量を補正された数を、(1)GBA遺伝子とGBAP1遺伝子との間のユニーク領域のGC含量、並びに任意選択で(2)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照ゲノム配列中の1つ以上の領域のそれぞれのGC含量を使用して決定することを含み得る。GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された、補正された数を所与として、混合ガウスモデルを使用してGBA遺伝子及びGBAP1遺伝子の全コピー数を決定することを含み得る。いくつかの実施形態では、方法は、CYP21A2状態を表すか又は含むユーザインターフェース(UI)要素を含むUIを生成することを含む。
【0008】
いくつかの実施形態では、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、混合ガウス(Gaussian mixture)モデルを使用してGBA遺伝子とGBAP1遺伝子との間の領域のコピー数を決定することを含む。GBA遺伝子及びGBAP1遺伝子の全コピー数は、GBA遺伝子とGBAP1遺伝子との間の領域のコピー数に2を加えたものである。
【0009】
いくつかの実施形態では、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することを含む。所定の事後確率閾値は、0.95とすることができる。
【0010】
いくつかの実施形態では、混合ガウスモデルは、1次元混合ガウスモデルを含む。混合ガウスモデルの複数のガウスは、整数コピー数0~10.を表すことができる。混合ガウスモデルの複数のガウスは、5ガウスを含み得る。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数であることができる。
【0011】
いくつかの実施形態では、GBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングすることは、複数のGBA/GBAP1識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基のGBA/GBAP1識別塩基間の連鎖情報を分析することを含む。GBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングすることは、複数のGBA/GBAP1識別塩基のうちの2つ以上にそれぞれアライメントされた第2の複数の配列リードの配列リードを使用して、GBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングすることを含み得る。
【0012】
いくつかの実施形態では、第2の複数の配列リードの配列リードは、複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域に対して、0以上のアライメント品質スコアでアライメントされる。
【0013】
いくつかの実施形態では、複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域は、約1.1キロベースの長さである。複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域は、それぞれGBA遺伝子又はGBAP1遺伝子のエクソン9~11を含み得る。複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域は、p.L483P、p.D448H、c.1263del、RecNciI、RecTL、及びc.1263del+RecTLを含み得る。複数のGBA/GBAP1識別塩基は、10個のGBA/GBAP1識別塩基を含み得る。
【0014】
いくつかの実施形態では、1つ以上のハプロタイプは、野生型GBAハプロタイプ、野生型GBAP1ハプロタイプ、及び/又はGBA/GBAP1ハイブリッドハプロタイプを含む。GBA/GBAP1ハイブリッドハプロタイプは、GBA変異体ハプロタイプ又はGBAP1変異体ハプロタイプを含み得る。
【0015】
いくつかの実施形態では、1つ以上のハプロタイプのそれぞれのコピー数を決定することは、野生型GBAハプロタイプを支持する複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を所与として、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することを含む。1つ以上のハプロタイプのそれぞれのコピー数を決定することは、野生型GBAハプロタイプのコピー数が1であることを決定することを含み得る。野性型GBAハプロタイプの1つのコピーの尤度が、野性型GBAハプロタイプの2つのコピーの尤度より高いことを決定することは、複数のGBA/GBAP1識別塩基の連続するGBA/GBAP1識別塩基の1つ以上の対(又は全ての対)であって、1つ以上のハプロタイプの第1のハプロタイプが、連続するGBA/GBAP1識別塩基においてGBA塩基を含み、1つ以上のハプロタイプの第2のハプロタイプが、連続するGBA/GBAP1識別塩基においてGBA塩基及びGBAP1塩基、又は、GBAP1塩基及びGBA塩基を含む、1つ以上の対のそれぞれにおいて、(1)連続するGBA/GBAP1識別塩基でGBA塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、(2)連続するGBA/GBAP1識別塩基でGBA塩基及びGBAP1塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、(3)連続するGBA/GBAP1識別塩基でGBAP1塩基及びGBA塩基、若しくはGBA塩基及びGBAP1塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、並びに/又は(4)連続するGBA/GBAP1識別塩基でGBAP1塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、を所与として、野性型GBAハプロタイプの1つのコピーの尤度が、野性型GBAハプロタイプの2つのコピーの尤度より高いことを決定することを含むことができる。野生型GBAハプロタイプの1つのコピーの尤度は、連続するGBA/GBAP1識別塩基の1つ以上の対のそれぞれについて決定された野生型GBAハプロタイプの1つのコピーの尤度の合計(例えば、加重平均又は非加重平均)を含み得る。野生型GBAハプロタイプの2つのコピーの尤度は、連続するGBA/GBAP1識別塩基の1つ以上の対のそれぞれについて決定された野生型GBAハプロタイプの2つのコピーの尤度の合計(例えば、加重平均又は非加重平均)を含み得る。
【0016】
いくつかの実施形態では、野生型GBAハプロタイプのコピー数は、1である。対象のGBA状態を決定することは、対象がGBA変異体ハプロタイプのキャリアであることを決定することを含み得る。いくつかの実施形態では、1つ以上のハプロタイプは、4つのハプロタイプを含む。GBA遺伝子及びGBAP1遺伝子の全コピー数は、4であることができる。4つのハプロタイプのそれぞれのコピー数は、1であることができる。対象のGBA状態を決定することは、対象がGBA変異体ハプロタイプのキャリアであることを決定することを含み得る。
【0017】
いくつかの実施形態では、1つ以上のハプロタイプは、2つ以上のGBA変異体ハプロタイプを含む。2つ以上のGBA変異体ハプロタイプのいずれも、複数のGBA/GBAP1識別塩基のそれぞれにGBA塩基を含むことができない。2つ以上のGBA変異体ハプロタイプのいずれも、複数のGBA/GBAP1識別塩基の全てにおいてGBA塩基を含むことができない。対象のGBA状態を決定することは、対象がGBA変異体ハプロタイプの複合ヘテロ接合であることを決定することを含み得る。
【0018】
いくつかの実施形態では、本方法は、GBA塩基ではないGBA/GBAP1識別塩基における塩基をそれぞれ含む第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基のうちの1つ以上のそれぞれにおけるGBA塩基のコピー数が0であると決定することを含む。GBA塩基ではないGBA/GBAP1識別塩基における塩基は、GBAP1塩基である。GBA状態を決定することは、対象が、複数のGBA/GBAP1識別塩基のうちの1つ以上のそれぞれのホモ接合であることを決定することを含み得る。
【0019】
いくつかの実施形態では、第1の複数の配列リードは、それぞれ約100塩基対~約1000塩基対の長さである配列リードを含む。いくつかの実施形態では、第1の複数の配列リードは、ペアエンド配列リード及び/又は単一エンド配列リードを含む。いくつかの実施形態では、第1の複数の配列リードは、全ゲノム配列決定(whole genome sequencing、WGS)によって生成される。WGSは、臨床WGS(cWGS)であることができる。いくつかの実施形態では、試料は、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含む。
【0020】
本明細書に開示されるものは、CYP21A2状態を決定する方法を含む。いくつかの実施形態では、CYP21A2状態を決定するための方法は、プロセッサ(ハードウェアプロセッサ又は仮想プロセッサなど)の制御下にあり、対象から得られた試料から生成された第1の複数の配列リードを受信することを含む。本方法は、第1の複数の配列リードを参照ゲノム配列にアライメントして、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードを得ることを含み得る。本方法は、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードの配列リードの数を決定することを含み得る。本方法は、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を決定することを含み得る。本方法は、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することを含み得る。本方法は、複数のCYP21A2/CYP21A1P識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のCYP21A2/CYP21A1P識別塩基を含むCYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングすることを含み得る。本方法は、CYP21A2遺伝子及びCYP21A1P遺伝子の全コピー数、並びにハプロタイプを支持する複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定することを含み得る。本方法は、CYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプ、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象のCYP21A2状態を決定することを含み得る。
【0021】
いくつかの実施形態では、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を決定することは、(1a)CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの深さ、(1b)ユニーク領域の長さ、(2a)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照ゲノム配列中の複数の領域のそれぞれにアライメントされた第1の複数の配列リードの配列リードの深さ、並びに(2b)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照ゲノムの複数の領域のそれぞれの長さ、を使用して、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を決定することを含む。
【0022】
いくつかの実施形態では、本方法は、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された、補正された数を決定することを含む。参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された、補正された数を決定することは、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されGC含量を補正された数を決定することを含み得る。参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されたGC含量を補正された数を決定することは、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されたGC含量を補正された数を、(1)CYP21A2遺伝子又はCYP21A1P偽遺伝子のGC含量、並びに任意選択で(2)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照ゲノム配列中の1つ以上の領域のそれぞれのGC含量、を使用して決定することを含み得る。CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することは、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された、補正された数を所与として、混合ガウスモデルを使用してCYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することを含み得る。
【0023】
いくつかの実施形態では、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することは、CYP21A2遺伝子及びCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することを含む。所定の事後確率閾値は、0.95とすることができる。
【0024】
いくつかの実施形態では、混合ガウスモデルは、1次元混合ガウスモデルを含む。混合ガウスモデルの複数のガウスは、整数コピー数0~10.を表すことができる。混合ガウスモデルの複数のガウスは、5ガウスを含み得る。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数であることができる。
【0025】
いくつかの実施形態では、CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングすることは、複数のCYP21A2/CYP21A1P識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のCYP21A2/CYP21A1P識別塩基のCYP21A2/CYP21A1P識別塩基間の連鎖情報を分析することを含む。CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングすることは、複数のCYP21A2/CYP21A1P識別塩基のうちの2つ以上にそれぞれアライメントされた第2の複数の配列リードの配列リードを使用して、CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングすることを含む。
【0026】
いくつかの実施形態では、第2の複数の配列リードの配列リードは、複数のCYP21A2/CYP21A1P識別塩基を含むCYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域に対して、0以上のアライメント品質スコアでアライメントされる。
【0027】
いくつかの実施形態では、複数のCYP21A2/CYP21A1P識別塩基は、14個のCYP21A2/CYP21A1P識別塩基を含む。14個のCYP21A2/CYP21A1P識別塩基は、9個のCYP21A2/CYP21A1P組換え変異体を含み得る。14個のCYP21A2/CYP21A1P識別塩基は、hg38のchr6:32039081/32006353、32039128/32006400、32039132/32006404、32039143/32006407、32039426/32006690、32039548/32006812、32039802/32007066、32039807/32007071、32039810/32007074、32039816/32007080、32040182/32007446、32040216/32007481、32040421/32007686、及び32040535/32007800、又は参照ヒトゲノム配列のこれらの塩基を含み得る。
【0028】
いくつかの実施形態では、1つ以上のハプロタイプは、野生型CYP21A2ハプロタイプ、野生型CYP21A1P、及び/又はCYP21A2/CYP21A1Pハイブリッドハプロタイプを含む。CYP21A2/CYP21A1Pハイブリッドハプロタイプは、CYP21A2変異体ハプロタイプ又はCYP21A1P変異体ハプロタイプを含み得る。
【0029】
いくつかの実施形態では、1つ以上のハプロタイプのそれぞれのコピー数を決定することは、野生型CYP21A2ハプロタイプを支持する複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を所与として、野生型CYP21A2ハプロタイプの1つのコピーの尤度が野生型CYP21A2ハプロタイプの2つのコピーの尤度よりも高いことを決定することを含む。1つ以上のハプロタイプのそれぞれのコピー数を決定することは、野生型CYP21A2ハプロタイプのコピー数が1であることを決定することを含み得る。いくつかの実施形態では、野性型CYP21A2ハプロタイプの1つのコピーの尤度が、野性型CYP21A2ハプロタイプの2つのコピーの尤度より高いことを決定することは、複数のCYP21A2/CYP21A1P識別塩基の連続するCYP21A2/CYP21A1P識別塩基の1つ以上の対であって、1つ以上のハプロタイプの第1のハプロタイプが、連続するCYP21A2/CYP21A1P識別塩基においてCYP21A2塩基を含み、1つ以上のハプロタイプの第2のハプロタイプが、連続するCYP21A2/CYP21A1P識別塩基においてCYP21A2塩基及びCYP21A1P塩基、又は、CYP21A1P塩基及びCYP21A2塩基を含む、1つ以上の対のそれぞれにおいて、(1)連続するCYP21A2/CYP21A1P識別塩基でCYP21A2塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、(2)連続するCYP21A2/CYP21A1P識別塩基でCYP21A2塩基及びCYP21A1P塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、(3)連続するCYP21A2/CYP21A1P識別塩基でCYP21A1P塩基及びCYP21A2塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、並びに/又は(4)連続するCYP21A2/CYP21A1P識別塩基でCYP21A1P塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、を所与として、野性型CYP21A2ハプロタイプの1つのコピーの尤度が、野性型CYP21A2ハプロタイプの2つのコピーの尤度より高いことを決定することを含む。野生型CYP21A2ハプロタイプの1つのコピーの尤度は、連続したCYP21A2/CYP21A1P識別塩基の1つ以上の対のそれぞれについて決定された野生型CYP21A2ハプロタイプの1つのコピーの尤度の合計(例えば、加重平均又は非加重平均)を含み得る。野生型CYP21A2ハプロタイプの2つのコピーの尤度は、連続したCYP21A2/CYP21A1P識別塩基の1つ以上の対のそれぞれについて決定された野生型CYP21A2ハプロタイプの2つのコピーの尤度の合計(例えば、加重平均又は非加重平均)を含み得る。
【0030】
いくつかの実施形態では、野生型CYP21A2ハプロタイプのコピー数は、1である。本方法は、対象がCYP21A2変異体ハプロタイプのキャリアであることを決定することを含み得る。いくつかの実施形態では、1つ以上のハプロタイプは、4つのハプロタイプを含む。CYP21A2遺伝子及びCYP21A1P遺伝子の全コピー数は、4であることができる。4つのハプロタイプのそれぞれのコピー数は、1であることができる。対象のCYP21A2状態を決定することは、対象がCYP21A2変異体ハプロタイプのキャリアであることを決定することを含み得る。
【0031】
いくつかの実施形態では、1つ以上のハプロタイプは、2つ以上のハプロタイプを含む。2つ以上のハプロタイプのいずれも、複数のCYP21A2/CYP21A1P識別塩基のそれぞれにCYP21A2塩基を含み得ない。2つ以上のハプロタイプのそれぞれは、複数のCYP21A2/CYP21A1P識別塩基の全てにおいてCYP21A2塩基を含み得ない。本方法は、対象がCYP21A2変異体ハプロタイプの複合ヘテロ接合であることを決定することを含み得る。
【0032】
いくつかの実施形態では、1つ以上のハプロタイプは、ただ1つのハプロタイプを含む。ただ1つのハプロタイプは、複数のCYP21A2/CYP21A1P識別塩基のそれぞれにCYP21A2塩基を含み得ない。本方法は、対象がCYP21A2変異体ハプロタイプのホモ接合であることを決定することを含み得る。
【0033】
いくつかの実施形態では、第1の複数の配列リードは、それぞれ約100塩基対~約1000塩基対の長さである配列リードを含む。いくつかの実施形態では、第1の複数の配列リードは、ペアエンド配列リード及び/又は単一エンド配列リードを含む。いくつかの実施形態では、第1の複数の配列リードは、全ゲノム配列決定(WGS)によって生成される。WGSは、臨床WGS(cWGS)であることができる。いくつかの実施形態では、試料は、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含む。
【0034】
本明細書には、遺伝子組換え変異体を決定するためのシステム(例えば、コンピューティングシステム)が開示される。いくつかの実施形態では、遺伝子組換え変異体を決定するためのシステムは、実行可能な命令と、対象から得られた試料から生成された第1の複数の配列リードとを記憶するように構成された非一時的メモリを備える。システムは、非一時的メモリと通信するハードウェアプロセッサ又は仮想プロセッサ等のプロセッサを備えることができる。プロセッサは、実行可能な命令によって、第1の複数の配列リードを参照配列にアライメントして、参照配列中の遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた第2の複数の配列リードを得ることを実行するようにプログラムすることができる。プロセッサは、実行可能な命令によって、遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、遺伝子及び遺伝子パラログの全コピー数を決定することを実行するようにプログラムすることができる。プロセッサは、実行可能な命令によって、複数の遺伝子/遺伝子パラログ識別塩基を含む、遺伝子又(遺伝子の組換え変異体を含む)若しくは遺伝子パラログ、又は遺伝子の領域若しくは遺伝子パラログの対応する領域に由来する1つ以上のハプロタイプを、複数の遺伝子/遺伝子パラログ識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用してフェージングすることを実行するようにプログラムすることができる。プロセッサは、実行可能な命令によって、遺伝子及び遺伝子パラログの全コピー数と、ハプロタイプを支持する複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数とを使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定することを実行するようにプログラムすることができる。
【0035】
いくつかの実施形態では、遺伝子組換え変異体は、相互組換え変異体を含む。遺伝子組換え変異体は、非相互的組換え変異体を含み得る。いくつかの実施形態では、参照配列は、参照ゲノム配列を含む。
【0036】
いくつかの実施形態では、プロセッサは、実行可能な命令によって、遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの数を決定することを実行するようにプログラムされる。いくつかの実施形態では、遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの数は、遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの正規化及び/又はGC補正された数を含む。いくつかの実施形態では、遺伝子パラログは遺伝子である。遺伝子パラログは、偽遺伝子であることができる。いくつかの実施形態では、遺伝子及び遺伝子パラログは、少なくとも90%の配列同一性を有する。
【0037】
いくつかの実施形態では、遺伝子はGBA遺伝子であり、遺伝子パラログはGBAP1遺伝子である。いくつかの実施形態では、遺伝子はCYP21A2遺伝子であり、遺伝子パラログはCYP21A1P偽遺伝子である。いくつかの実施形態では、遺伝子は、ABCC6、ABCD1、ACTB、ACTG1、ACTN4、ADAMTSL2、ADIPOR1、AFG3L2、AGK、ALG1、ALMS1、ANKRD11、ANOS1、AP4S1、ARMC4、ARSE、ASNS、ATAD3A、B3GAT3、BCAP31、BDP1、BMPR1A、BRAF、BRCA1、C2、CACNA1C、CALM1、CD46、CEP290、CFH、CFH、CFH、CHEK2、CISD2、CLCNKA、CLCNKB、CORO1A、COX10、CP、CRYBB2、CSF2RA、CUBN、CUBN、CYCS、CYP11B1、CYP21A2、DCLRE1C、DHFR、DICER1、DIS3L2、DNAH11、DNAH11、DNM1、DSE、DUOX2、EGLN1、ELK1、ELMO2、ERCC6、ESPN、EYS、F8、FANCD2、FANCD2、FAR1、FHL1、FLG、FLNC、FOXD4、FXN、GBA、GH1、GJA1、GK、GLUD1、GLUD1、GOSR2、GUSB、HBA1、HBA2、HNRNPA1、HPS1、HSPD1、HYDIN、IDS、IFT122、IGLL1、KANSL1、KCTD1、KIF1C、KRAS、KRT14、KRT16、KRT17、KRT6A、KRT6B、KRT6C、LEFTY2、LRP5、LRP5、MAT2A、MID1、MOCS1、MSN、MSX2、MYO5B、NCF1、NEB、NECAP1、NEFH、NF1、NF1、NF1、NOTCH2、NXF5、OCLN、OTOA、PARN、PBX1、PIGA、PIGN、PIK3CA、PIK3CD、PKD1、PKP2、PMS2、PMS2、PMS2、PNPT1、POLH、PRODH、PRODH、PROS1、PRPS1、PRSS1、PTEN、RAD21、RBM8A、RBPJ、RDX、RMND1、RNF216、RNF216、RPL15、SALL1、SBDS、SDHA、SHOX、SLC25A15、SLC25A15、SLC33A1、SLC6A8、SMN1、SMN2、SOX2、SPTLC1、SRD5A3、SRP72、STAT5B、STRC、SYT14、TARDBP、TBL1XR1、TBX20、TIMM8A、TPM3、TPMT、TRAPPC2、TRIP11、TTN、TUBA1A、TUBB2A、TUBB2B、TUBB3、TUBB4A、TUBG1、TYR、UBA5、UBE3A、UNC93B1、USP18、VPS35、VWF、WRN、XIAP、ZEB2、又はZNF341である。
【0038】
いくつかの実施形態では、プロセッサは、実行可能な命令によって、遺伝子若しくは遺伝子パラログに由来する1つ以上のハプロタイプ、又は遺伝子の領域若しくは遺伝子パラログの対応する領域、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象の遺伝子変異体状態を決定することを実行するようにプログラムされる。いくつかの実施形態では、プロセッサは、実行可能な命令によって、遺伝子変異体状態を表す又は含むUI要素を含むユーザインターフェース(UI)を生成することを実行するようにプログラムすることができる。
【0039】
いくつかの実施形態では、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数を決定することは、(1a)遺伝子又は遺伝子パラログにアライメントされた配列リードの深さ、(1b)ユニーク領域の長さ、(2a)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の複数の領域のそれぞれにアライメントされた第1の複数の配列リードの配列リードの深さ、並びに(2b)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の複数の領域のそれぞれの長さ、を使用して、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数を決定することを含む。
【0040】
いくつかの実施形態では、プロセッサは、実行可能な命令によって、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された、補正された数を決定することを実行するようにプログラムされる。参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された、補正された数を決定することは、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されGC含量を補正された数を決定することを含み得る。参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されたGC含量を補正された数を決定することは、(1)遺伝子又は遺伝子パラログのGC含量、並びに任意選択で(2)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の1つ以上の領域のそれぞれのGC含量、を使用して、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されたGC含量を補正された数を決定することを含み得る。遺伝子及び遺伝子パラログの全コピー数を決定することは、遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された、補正された数を所与として、混合ガウスモデルを使用して遺伝子及び遺伝子パラログの全コピー数を決定することを含み得る。
【0041】
いくつかの実施形態では、遺伝子及び遺伝子パラログの全コピー数を決定することは、遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数を所与として、混合ガウスモデルを使用して遺伝子又は遺伝子パラログの間の領域のコピー数を決定することを含む。遺伝子及び遺伝子パラログの全コピー数は、遺伝子又は遺伝子パラログの間の領域のコピー数に2を加えたものであることができる。
【0042】
いくつかの実施形態では、遺伝子及び遺伝子パラログの全コピー数を決定することは、遺伝子及び遺伝子パラログにアライメントされた配列リードの正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して、遺伝子及び遺伝子パラログの全コピー数を決定することを含む。所定の事後確率閾値は、0.95とすることができる。
【0043】
いくつかの実施形態では、混合ガウスモデルは、1次元混合ガウスモデルを含む。混合ガウスモデルの複数のガウスは、整数コピー数0~10を表すことができる。混合ガウスモデルの複数のガウスは、5ガウスを含み得る。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数であることができる。
【0044】
いくつかの実施形態では、遺伝子又は遺伝子パラログに由来する1つ以上のハプロタイプをフェージングすることは、複数の遺伝子/遺伝子パラログ識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数の遺伝子/遺伝子パラログ識別塩基の遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することを含む。遺伝子又は遺伝子パラログに由来する1つ以上のハプロタイプをフェージングすることは、複数の遺伝子/遺伝子パラログ識別塩基のうちの2つ以上にそれぞれアライメントされた第2の複数の配列リードの配列リードを使用して、遺伝子又は遺伝子パラログに由来する1つ以上のハプロタイプをフェージングすることを含み得る。いくつかの実施形態では、第2の複数の配列リードの配列リードは、0以上のアライメント品質スコアを有する複数の遺伝子/遺伝子パラログ識別塩基を含む遺伝子の領域又は遺伝子パラログの対応する領域にアライメントされる。
【0045】
いくつかの実施形態では、1つ以上のハプロタイプは、野生型遺伝子ハプロタイプ、野生型遺伝子パラログ、及び/又は遺伝子/遺伝子パラログハイブリッドハプロタイプを含む。遺伝子/遺伝子パラログハイブリッドハプロタイプは、遺伝子変異体ハプロタイプ又は遺伝子パラログ変異体ハプロタイプを含み得る。
【0046】
いくつかの実施形態では、1つ以上のハプロタイプのそれぞれのコピー数を決定することは、野生型遺伝子ハプロタイプを支持する複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することを含み得る。1つ以上のハプロタイプのそれぞれのコピー数を決定することは、野生型遺伝子ハプロタイプのコピー数が1であることを決定することを含み得る。野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することは、1つ以上のハプロタイプの第1のハプロタイプが連続する遺伝子/遺伝子パラログ識別塩基で遺伝子塩基を含み、1つ以上のハプロタイプの第2のハプロタイプが連続する遺伝子/遺伝子パラログ識別塩基で遺伝子塩基及び遺伝子パラログ塩基、又は遺伝子パラログ塩基及び遺伝子塩基を含む複数の遺伝子/遺伝子パラログ識別塩基の連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対(又は全ての対)のそれぞれについて、(1)連続する遺伝子/遺伝子パラログ識別塩基で遺伝子塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、(2)連続する遺伝子/遺伝子パラログ識別塩基で遺伝子塩基及び遺伝子パラログ塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、(3)連続する遺伝子/遺伝子パラログ識別塩基で遺伝子塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、並びに/又は(4)連続する遺伝子/遺伝子パラログ識別塩基で遺伝子パラログ塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することを含み得る。野生型遺伝子ハプロタイプの1つのコピーの尤度は、連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対のそれぞれについて決定された野生型遺伝子ハプロタイプの1つのコピーの尤度の合計(例えば、加重平均又は非加重平均)を含み得る。野生型遺伝子ハプロタイプの2つのコピーの尤度は、連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対のそれぞれについて決定された野生型遺伝子ハプロタイプの2つのコピーの尤度の合計(例えば、加重平均又は非加重平均)を含み得る。
【0047】
いくつかの実施形態では、野生型遺伝子ハプロタイプのコピー数は、1である。プロセッサは、実行可能な命令によって、対象が遺伝子変異体ハプロタイプのキャリアであることを決定することを実行するようにプログラムすることができる。いくつかの実施形態では、1つ以上のハプロタイプは、4つのハプロタイプを含む。遺伝子及び遺伝子パラログの全コピー数は、4であることができる。4つのハプロタイプのそれぞれのコピー数は、1であることができる。対象の遺伝子変異体状態を決定することは、対象が遺伝子変異体ハプロタイプのキャリアであることを決定することを含み得る。
【0048】
いくつかの実施形態では、1つ以上のハプロタイプは、2つ以上のハプロタイプを含む。2つ以上のハプロタイプのいずれも、複数の遺伝子/遺伝子パラログ識別塩基のそれぞれに遺伝子塩基を含み得ない。2つ以上のハプロタイプのそれぞれは、複数の遺伝子/遺伝子パラログ識別塩基の全てにおいて遺伝子塩基を含み得ない。プロセッサは、実行可能な命令によって、対象が遺伝子変異体ハプロタイプの複合ヘテロ接合であることを決定することを実行するようにプログラムすることができる。
【0049】
いくつかの実施形態では、1つ以上のハプロタイプは、ただ1つのハプロタイプを含む。ただ1つのハプロタイプは、複数の遺伝子/遺伝子パラログ識別塩基のそれぞれにおいて遺伝子塩基を含み得ない。プロセッサは、実行可能な命令によって、対象が遺伝子変異体ハプロタイプのホモ接合であることを決定することを実行するようにプログラムすることができる。
【0050】
いくつかの実施形態では、第1の複数の配列リードは、それぞれ約100塩基対~約1000塩基対の長さである配列リードを含む。いくつかの実施形態では、第1の複数の配列リードは、ペアエンド配列リード及び/又は単一エンド配列リードを含む。いくつかの実施形態では、第1の複数の配列リードは、全ゲノム配列決定(WGS)によって生成される。WGSは、臨床WGS(cWGS)であることができる。いくつかの実施形態では、試料は、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含む。
【0051】
本明細書に記載されている主題の1以上の実装形態の詳細が、添付の図面及び以下の説明に記述されている。その他の特徴、態様、及び利点は、本明細書、図面、及び特許請求の範囲から明らかになるであろう。本概要も以下の発明を実施するための形態も、本発明の主題の範囲を定義又は制限するものと言っているわけではない。
【図面の簡単な説明】
【0052】
【
図1】リード及びリード対によって提供される遺伝子と遺伝子の類似体との間の信頼できる塩基差又は部位のセットの間の連鎖情報の分析を示す。
【
図2A1】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図2A2-1】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図2A2-2】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図2B1】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図2B2】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図2C1】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図2C2】標的コピー数コーリング及びハプロタイプフェージングによるチャレンジGBA変異体の非限定的な例示的検出を示す。
【
図3A】チャレンジCYP21A2変異体の非限定的な例示的検出を示す。
【
図3B】チャレンジCYP21A2変異体の非限定的な例示的検出を示す。
【
図4】1つ以上のGBA変異体又はGBA変異体状態(例えば、キャリア、複合ヘテロ接合又はホモ接合)を決定又は同定する例示的な方法を示すフロー図である。
【
図5】1つ以上のCYP21A2変異体又は変異体状態(例えば、キャリア、複合ヘテロ接合、又はホモ接合)を決定又は同定する例示的な方法を示すフロー図である。
【
図6】1つ以上の遺伝子組換え変異体又は遺伝子変異体状態(例えば、キャリア、複合ヘテロ接合、又はホモ接合)を決定又は同定する例示的な方法を示すフロー図である。
【
図7】1つ以上の遺伝子組換え変異体(例えば、GBA変異体、CYP21A2変異体)又は遺伝子変異体状態(例えば、キャリア、複合ヘテロ接合体、又はホモ接合体)を決定又は同定するように構成された例示的なコンピューティングシステムのブロック図である。
【0053】
図面全体を通して、参照番号は、参照要素間の対応を示すために再使用されてもよい。図面は、本明細書に記載される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図するものではない。
【発明を実施するための形態】
【0054】
以下の詳細な説明では、添付の図面を参照し、添付の図面は本明細書の一部をなす。図面において、同様の記号は、文脈上特に指示されない限り、典型的には同様の構成要素を特定する。詳細な説明、図面、及び特許請求の範囲に記載される例示的な実施形態は、限定することを意図するものではない。本明細書に提示される主題の趣旨又は範囲から逸脱することなく、その他の実施形態を利用することができ、その他の変更を加えることができる。本開示の態様は、本明細書に全般的に記載され、図面に例示されるように、多種多様な異なる構成で配置され、置換され、組み合わされ、分離され、及び設計され得ることが容易に理解され、それらの全てが本明細書で明示的に企図されており、本明細書の開示の一部をなす。
【0055】
本明細書で参照される全ての特許、公開された特許出願、その他の刊行物、及びGenBankからの配列、及び本明細書で参照されるその他のデータベースは、関連技術に関してそれら全体が本明細書に参照により組み込まれる。
【0056】
本明細書では、GBA状態を決定するための方法が開示される。いくつかの実施形態では、GBA状態を決定するための方法は、プロセッサ(ハードウェアプロセッサ又は仮想プロセッサなど)の制御下にあり、対象から得られた試料から生成された第1の複数の配列リードを受信することを含む。本方法は、第1の複数の配列リードを参照ゲノム配列にアライメントして、参照ゲノム配列中のGBA遺伝子又はGBAP1遺伝子にアライメントされた第2の複数の配列リードを得ることを含み得る。本方法は、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた第2の複数の配列リードの配列リードの数を決定することを含み得る。本方法は、参照ゲノム配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数を決定することを含み得る。本方法は、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することを含み得る。本方法は、複数のGBA/GBAP1識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域におけるGBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングすることを含み得る。本方法は、GBA遺伝子及びGBAP1遺伝子の全コピー数、並びにハプロタイプを支持する複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定することを含み得る。本方法は、GBA遺伝子の領域若しくはGBAP1遺伝子の対応する領域におけるGBA遺伝子若しくはGBAP1遺伝子に由来する1つ以上のハプロタイプ、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象のGBA状態を決定することを含み得る。
【0057】
本明細書に開示されるものは、CYP21A2状態を決定する方法を含む。いくつかの実施形態では、CYP21A2状態を決定するための方法は、プロセッサ(ハードウェアプロセッサ又は仮想プロセッサなど)の制御下にあり、対象から得られた試料から生成された第1の複数の配列リードを受信することを含む。本方法は、第1の複数の配列リードを参照ゲノム配列にアライメントして、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードを得ることを含み得る。本方法は、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードの配列リードの数を決定することを含み得る。本方法は、参照ゲノム配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を決定することを含み得る。本方法は、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することを含み得る。本方法は、複数のCYP21A2/CYP21A1P識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のCYP21A2/CYP21A1P識別塩基を含むCYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングすることを含み得る。本方法は、CYP21A2遺伝子及びCYP21A1P遺伝子の全コピー数、並びにハプロタイプを支持する複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定することを含み得る。本方法は、CYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプ、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象のCYP21A2状態を決定することを含み得る。
【0058】
本明細書には、遺伝子組換え変異体を決定するためのシステム(例えば、コンピューティングシステム)が開示される。いくつかの実施形態では、遺伝子組換え変異体を決定するためのシステムは、実行可能な命令と、対象から得られた試料から生成された第1の複数の配列リードとを記憶するように構成された非一時的メモリを備える。システムは、非一時的メモリと通信するハードウェアプロセッサ又は仮想プロセッサ等のプロセッサを備えることができる。プロセッサは、実行可能な命令によって、第1の複数の配列リードを参照配列にアライメントして、参照配列中の遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた第2の複数の配列リードを得ることを実行するようにプログラムすることができる。プロセッサは、実行可能な命令によって、遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、遺伝子及び遺伝子パラログの全コピー数を決定することを実行するようにプログラムすることができる。プロセッサは、実行可能な命令によって、複数の遺伝子/遺伝子パラログ識別塩基を含む、遺伝子(遺伝子の組換え変異体を含む)若しくは遺伝子パラログ、又は遺伝子の領域若しくは遺伝子パラログの対応する領域に由来する1つ以上のハプロタイプを、複数の遺伝子/遺伝子パラログ識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用してフェージングすることを実行するようにプログラムすることができる。プロセッサは、実行可能な命令によって、遺伝子及び遺伝子パラログの全コピー数と、ハプロタイプを支持する複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数とを使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定することを実行するようにプログラムすることができる。
【0059】
ショートリードデータにおける変異体の検出
セグメント重複は、遺伝子組換え変異体(例えば、遺伝子変換)を有する構造変異体(例えば、欠失又は重複を有する)のホットスポットである。遺伝子組換え変異体は、遺伝子の配列がその遺伝子のパラログにコピーされるか、又はその逆から生じることができる。遺伝子のパラログは、遺伝子又は偽遺伝子であることができる。セグメント重複は、高度に相同な遺伝子ファミリーメンバー又は偽遺伝子を有する遺伝子について生じることができる。多くの臨床的に関連する遺伝子は、高度に相同な遺伝子ファミリーメンバー又は偽遺伝子を有し、セグメント重複によって影響され得る。このような臨床的に関連する遺伝子としては、稀な疾患、がん、免疫学及び薬理遺伝学に重要な遺伝子が挙げられる。
【0060】
セグメント重複を受けた遺伝子の配列リード(例えば、リードアライメント及び変異体コーリング)を分析することは、情報学的に困難であり得る。そのような分析は、一塩基多型(single nucleotide polymorphism、SNP)、挿入及び欠失(インデル)、コピー数変異(copy number variation、CNV)、並びに構造変異(structural variation、SV)を含む異なる変異体の組み合わせ評価を必要とし得る。遺伝子及び相同遺伝子ファミリーメンバー又は偽遺伝子の高い配列類似性は、不十分な配列リードアライメント及び変異体コーリングをもたらし得る。標準的な二次分析パイプラインは、結果をもたらさないか、又は信頼できない結果をもたらす可能性がある。例えば、遺伝子及び遺伝子のパラログは、わずか数塩基(例えば、2、3、4、5、6、7、8、9、10、20、30又はそれ以上の塩基)だけ異なり得、アライメント及び変異体コーリングを困難にする。遺伝子及び遺伝子のパラログが数塩基異なる場合、そのような塩基を含まない配列リードは、同じ又は類似のアライメントスコア(例えば、ミスマッチのパーセンテージ)を有する遺伝子又はパラログにアライメントされ得る。結果として、リードを遺伝子及びパラログにアライメントすることは困難であり、低いアライメント品質(例えば、MapQ品質)をもたらす。結果として、そのような低品質リードアライメントを使用する変異体コーリングは困難であり得る。
【0061】
遺伝子及び遺伝子のパラログの標的化CNVコーリングは有用であり得る。遺伝子及びパラログの全コピー数は、全てのリードを使用したリード計数及び正規化によって決定することができる。集団深さ分布は、コピー数をコールするようにモデル化することができる。遺伝子及び遺伝子のパラログを区別することができ、それらのコピー数を、固定塩基差における配列リードカウントを使用して決定することができる。遺伝子融合は、例えば、固定塩基差における遺伝子のコピー数の変化に基づいて決定することができる。SNP及びインデルの標的化コーリングを行うことができる。スター対立遺伝子は、全てのコールされた変異体に基づいてコールすることができ、ハプロタイプに割り当てることができる。これらのプロセスのうちの1つ、いくつか、大部分、又は全ては、1つ以上のコンピューティングシステムによって連続的に、又は複数のコンピューティングシステムによって並列に実行され得る。
【0062】
本明細書に開示される方法は、遺伝子変換などの短い遺伝子組換えを検出するために使用することができ、ここで、遺伝子の配列は、別の遺伝子の配列と同一になるように変異される(例えば、遺伝子のパラログ)。変異される各配列は、単一塩基程度の小ささであり得る。本方法は、ハプロタイプフェージングによる単一塩基遺伝子変換の検出を可能にすることができる。GBA遺伝子の遺伝子組換え変異体(相互的又は非相互的)は、50,000~100,000人に1人の発生率を有するゴーシェ病をもたらす可能性がある。ヘテロ接合体は、パーキンソン病に関連する。CYP21A2遺伝子の遺伝子組換え変異体は、1:10,000~1:16,000の発生率を有する21-ヒドロキシラーゼ欠損先天性副腎過形成症(21-OHD CAH)をもたらし得る。
【0063】
目的の遺伝子及び目的の遺伝子のパラログ(例えば、偽遺伝子)は、本明細書において遺伝子A及び遺伝子Bと称される。配列リード(例えば、ショートリード配列リード)が参照ゲノムに遺伝子Bが存在すると、アライメント及び変異体コーリングが困難になり得る。しばしば、遺伝子Aの配列(又は1塩基)の小さなストレッチは、例えば、遺伝子変換のような組換えによって、遺伝子Bにおける対応する配列と同一に見えるように変異され得る。このタイプの組換え変異体又は遺伝子変換変異体は、遺伝子Aのリードを含有する変異体が遺伝子Aの代わりに遺伝子Bにアライメントし得るため、検出することが極めて困難であり得る。
【0064】
キャリア試料又は複合ヘテロ接合体のコーリング。遺伝子Aと遺伝子Bとの間の信頼できる塩基の相違又は部位のセットに基づいて、ハプロタイプフェージングを行うことができる。遺伝子Aと遺伝子Bとの間の信頼できる塩基の相違又は部位のセットに基づいて、組換え変異体又は遺伝子変換変異体をコール又は同定するためのコーラーは、リード及びリード対によって提供されるこれらの相違部位間の連鎖情報を分析することができる。連鎖情報は、例えば、リードバックフェージングによって分析することができる。部位n及び部位mをカバーする1つのリード又はリード対は、リード又はリード対が由来するハプロタイプが、部位nにおいて遺伝子A又はB塩基を有し、部位mにおいて遺伝子A又はB塩基を有するかどうかを示すことができる。次いで、コーラーは、信頼できる塩基差異のセットを有する領域中の遺伝子A又は遺伝子Bのいずれかに由来する全てのハプロタイプをフェージングし、遺伝子A及び遺伝子Bのハプロタイプ並びに1つ以上のハイブリッドハプロタイプ(同じハプロタイプ上の遺伝子A及び遺伝子B塩基の混合物)を同定することができる。
図1を参照すると、部位1及び部位4をカバーする1つのリード対は、リード対が由来するハプロタイプ(ハプロタイプx)が部位1に遺伝子A塩基を有し、部位4に遺伝子A塩基を有することを示すことができる。部位3及び部位5をカバーする1つのリード対は、そのリード対が由来するハプロタイプ(ハプロタイプy)が部位3に遺伝子A塩基を有し、部位5に遺伝子B塩基を有することを示すことができる。部位4及び部位5をカバーする1つのリードは、そのリードが由来するハプロタイプ(ハプロタイプy)が部位4に遺伝子A塩基を有し、部位5に遺伝子B塩基を有することを示すことができる。コーラーは、5つの信頼できる塩基差異のセットを有する領域中の遺伝子A又は遺伝子Bのいずれかに由来する全てのハプロタイプをフェージングし、遺伝子Aのハプロタイプ(ハプロタイプ1)及び遺伝子Bのハプロタイプ(ハプロタイプ2)並びにハイブリッドハプロタイプ(ハプロタイプ3及び4)を同定することができる。ハプロタイプの数、部位の数、及び部位(例えば、部位1及び4、又は部位3及び5)配列リードカバーは、説明のためだけに
図1に示されており、限定することを意図していない。
【0065】
異なるハプロタイプの相対存在量を評価するために、コーラーは、遺伝子A及び遺伝子Bの全コピー数(CN)並びに識別塩基におけるハプロタイプ支持リードカウントを使用して、各ハプロタイプのCNをコールすることができる。遺伝子A及び遺伝子Bの総CNは、混合ガウスモデルを使用して決定することができる。SMNコーラー及びCYP2D6コーラーによる混合ガウスモデルを使用してCNを決定することは、METHODS AND SYSTEMS FOR DIAGNOSING FROM WHOLE GENOME SEQUENCING DATAと題されたPCT公開第2021/045947号に記載されており、その内容は参照によりその全体が本明細書に組み込まれる。コーラーは、2つのシナリオを、すなわち野生型遺伝子Aハプロタイプの1つのコピー対野生型遺伝子Aハプロタイプの2つのコピーの比較をすることができる。コーラーは、データ中のサポートリードの数が与えられれば、どのシナリオがより可能性が高いかを決定することができる。コーラーが野生型遺伝子Aハプロタイプの1つのコピーのみをコールする場合、これは、個体が疾患を引き起こす変異体のキャリアであることを示す。個体が1つより多い変異体ハプロタイプのキャリアであり、そして目的の全ての変異体部位に遺伝子A塩基を保有するハプロタイプが存在しない場合、コーラーは、この試料を、野生型遺伝子Aのコピーを有さない複合ヘテロ接合体とコールする。
【0066】
変異体についてホモ接合の試料のコーリング。検出すべき遺伝子変換変異体のリストに基づいて、コーラーは、遺伝子A塩基のコピー数(copy number、CN)をコールすることができる。遺伝子A塩基又は遺伝子B塩基を支持するリードの数、並びに遺伝子A及び遺伝子Bの総CNを使用して、遺伝子A塩基のCN及び遺伝子B塩基のCNの最も可能性の高い組み合わせを決定することができる。遺伝子A塩基のCNが0とコールされる場合、これは、個体が野生型遺伝子A(目的の変異部位に遺伝子A塩基を保有するハプロタイプ)のコピーを有さず、遺伝子変換変異体についてホモ接合であることを示す。
【0067】
GBA変異体
ショートリードWGSデータにおけるチャレンジGBA変異体の検出
GBAとGBAP1との間の配列相同性は、マッピング品質の低下(
図2A1)及び標準的な二次分析パイプラインによるより正確でない変異体コールをもたらす。加えて、GBA塩基がGBAP1中の対応する塩基に変異している組換え変異体は、変異体リードがGBAP1にアライメントするため、検出が困難である。したがって、1000ゲノムプロジェクト(1kGP)からの2405個のWGSデータセットを使用して、Gauchianという、GBA変異体をコールするための新規なWGSベースのバイオインフォマティクス方法が開発された。
【0068】
Gauchian分析は、コピー数変化を決定することから始まる。相同領域にわたる相互組換えは、2つの遺伝子間の20.6kb領域のコピー数獲得(重複)又は喪失(融合)をもたらす。切断点は位置が変化し得るため、Gauchianは、コピー数多型(CNV)を検出するために、2つの遺伝子間のユニーク領域における配列決定深さを使用する(
図2A1、
図2A2、
図2B1、及び
図2B2)。2504個の1kGP試料のうち、108個の試料が相互組換えを有することが見出された(15個の欠失及び93個の重複)。重複はGBA-GBAP1融合を生じ得るが、常にGBAの2つのインタクトなコピーを残し、一方、欠失切断点がGBA遺伝子内に含まれる場合、融合はGBA変異体を生じ得る(GBA-GBAP1融合)。コピー数変化を決定した後、Gauchianは、表1に示されるGBA及びGBAP1の相同領域間の塩基差を使用して、2つの遺伝子を区別し、CNVの切断点を同定した(
図2A2)。主要な相同性領域であるエクソン9~11は、病原性欠失が最も起こりやすい場所である。したがって、Gauchianは、GBA及びGBAP1ハプロタイプの両方をエクソン9~11相同性領域にわたって位フェージングして、切断点を更に解明した(
図2C1及び
図2C2)。1kGP欠失試料について、Gauchianは、1つを除く全ての試料においてGBA遺伝子を変化させない切断点を同定した。切断点は、ほとんどがGBAとGBAP1との間で同一である、当該遺伝子を超えて3’UTRから伸長する領域に含まれていた(
図2A1における0マッピング品質領域)。そのようなCNVは知られており、GBA遺伝子、又は少なくともコード領域を無傷のまま残すため、良性と思われる。1つの欠失試料において、Gauchianは、RecNciI融合物を作製するエクソン9~11における切断点を同定した(
図2C1及び
図2C2)。
【0069】
【0070】
相互組換えから生じるCNVに加えて、Gauchianは、単純な小変異体並びに遺伝子変換を含む病原性GBA変異体の標的化コーリングを行い、GBA塩基がGBAP1中の対応する塩基に変異しているエクソン9~11中のSNVにチャレンジし、これもおそらく小さい遺伝子変換イベントを介して生じる。これらには、p.L483P、p.D448H、c.1263del(55bp欠失)、RecNciI(3 SNVs p.L483P、A495P及びVal499=を含む)、RecTL(RecNciI及びp.D448Hを含む)及びc.1263del+RecTL(RecNciI、p.D448H及びc.1263delを含む)が含まれる(
図2C1及び
図2C2)。GBAとGBAP1との間の高い相同性及び頻繁な遺伝子変換により、エクソン9~11は、標準的な二次分析パイプラインにとって非常に困難な領域となる。例えば、hg38中のGBAP1参照配列中の3つの位置が誤ってGBA塩基を含有するため(
図2C1)、GBAp.L483PリードはGBAP1に容易にアライメントされ、偽陰性コールを引き起こす。加えて、集団において、GBAに部分的に変換されたGBAP1ハプロタイプが存在し、それらの変換された塩基は、GBAP1リードをGBAにアライメントさせるように導き、近くの位置で偽陽性GBA変異体コールを引き起こすであろう(
図2C1、紫色の陰影/下2行)。Gauchianは、GBA又はGBAP1のいずれかにアライメントする全てのリードを所与として、相同性領域全体にわたってハプロタイプを位相決定し、したがって、これらの変異体を正確にコールすることができる。これはまた、RecTL又はc.1263del+RecTLなどのより大きな遺伝子変換イベントの同定を可能にしたが、標準的なパイプラインは、変異体リードがGBAP1にアライメントするため、これらを見逃すであろう。Gauchianは、1kGP中に単純な非組換え小変異体を有する42個の試料に加えて、p.L483Pを有する5個の試料、c.1263delを有する2個の試料及びc.1263del+RecTL変換を有する2個の試料を検出した。
【0071】
図2A1.GBA/GBAP1領域中(hg38)の各位置についてプロットされた2504個の1kGP試料にわたる中央値マッピング品質(赤線)。中央値フィルタは、50bpのウィンドウに適用される。GBAの11個のエクソンがオレンジ色のボックスとして示されている。GBAP1及びMTX1エクソンは、それぞれ緑色及び紫色のボックスとして示されている。GBAとGBAP1との間の4kbの主要な相同領域(98.1%の配列類似性、エクソン9~11)は、
図2A1においてピンク色で陰影が付けられており(
図2A2における緑色で囲まれた領域に対応する)、低いマッピング精度の領域を強調している。薄い青のボックスは、コピー数コーリングがGauchianで行われる2つの遺伝子間の10kbのユニーク領域を示す。
図2B1.2504個の1kGP試料における10kbのCNコーリング領域における正規化された深さの分布は、1(欠失)、2、及び3~8(重複)でピークを示す。この数に2を加えたものが、合わせたGBA及びGBAP1の両方の総コピーであった。10kbのユニーク領域は、相互組換えのために失われるか又は獲得されるであろうGBAとGBAP1との間の20.6kb領域の代用である(切断点は変動し得る)。通常、二倍体試料は、GBA+GBAP1の合計4コピー(それぞれ2コピー)及び10kbのユニーク領域の2コピーを有する。GBAとGBAP1との間の欠失は、10kb領域の1コピー喪失(ここでは1のCN)並びにGBA+GBAP1の1コピー喪失(ここでは3のCN)をもたらす。同様に、重複は、10kb領域の1コピー増加(現在ここではCN3)並びにGBA+GBAP1の1つのコピーの増加(ここではCN5)をもたらす。したがって、CN(GBA+GBAP1)は、10kb領域のCNより2つ多い。
【0072】
図2B2は、CNの人種依存分布を示す。
図2C1.エクソン9~11相同性領域における組換えハプロタイプは、GBA/GBAP1識別塩基により区別される(x軸)。参照ゲノム配列は、黄色の影付きである。GBAP1の最初の3つの部位がGBA塩基を示すhg38参照には誤差があり、これはアライメント誤差をもたらし得る。遺伝子変換又は融合欠失のいずれかから生じる、1つ又は数個の隣接部位がGBAP1塩基に変異しているものを含む、GBA組換えハプロタイプを、白色のバックグラウンドで示す。灰色の塩基は、融合/変換の切断点位置に応じて、塩基がGBA又はGBAP1のいずれかであり得ることを示す。部分的にGBAに変換され、偽陽性GBA変異体コールを引き起こす2つの例示的なGBAP1ハプロタイプが、紫色で影付けされている。第1の例について、特にhg38について、最初の3つの部位がGBAP1参照について間違っている場合、GBAP1上の逆L483P変異体は、GBAP1リードをGBAにアライメントさせるようにアライナに指示し、近くのA495P FPコールを引き起こす。第2の例では、リバース-c.1263del変異体は、55bpをGBAP1に挿入し、GBAP1リードをGBAにアライメントさせ、近くのD448H FPコールを引き起こす。
【0073】
全てのクラスのGBA変異体の検出は、ONTロングリード配列決定を使用して可能である。
交差検証
Gauchianの検証を求めて、(Oxford Nanopore Technologies)ONT配列決定を、Gauchianが相互組換えを検出した14個の試料(コピー数増加を有する11個及びコピー数減少を有する3個)、Gauchianが非相互組換えc.1263del+RecTLを検出した2個の試料、SNVを保有する9個の試料(p.L483P及び1 A456Pを保有する8個)及び12個のGBA陰性対照について行った。これらの試料は、1kGP及びAMP-PDから選択され、GATKがp.L483Pを見逃した2つの試料、及びGATKがp.A456P変異体を誤ってコールした2つの試料を含んだ。GATKの結果が異なる場合を含めて、全ての場合において、ONT及びGauchianの結果は一致していた。
【0074】
更に、GauchianはマルチコピーCNVの証拠を示したため、本発明者らは、デジタルPCRを使用して、Gauchianがコピー数増加(増加したコピー数:それぞれ1、3、5及び6)を検出した4つの試料における組換えに関与する20.6kb領域のコピー数を正確に定量した。dPCR結果は予想通りであり、CNはGauchian及びONTによって検出されたものと一致した(表2)。
【0075】
【0076】
健常集団、PD集団及びLBD集団におけるGBA組換え変異体及び非組換え変異体の有病率
Gauchianが検証されたため、GauchianをAMP-PDからのパーキンソン病(PD)及びレビー小体型認知症(LBD)コホートに適用して、GBA組換え変異体に対する最初の大規模分析を提供し、健常集団、PD集団及びLBD集団における異なるGBA突然変異の罹患率を推定した。
【0077】
GBA遺伝子を変化させない切断点を有するCNVについては(コピー数増加及び非病原性融合対立遺伝子)、対照に対してPD症例でもLBD症例でも富化はなかった(表3)。白人の中で、CNVは、2234人のPD症例(0.81%)のうち18人(10人の重複及び8人の欠失)及び1214人の対照(1.15%)のうち14人(7人の重複及び7人の欠失)において見出された(p値=0.35、フィッシャーの正確確率検定)。アフリカ人の中で、CNV(重複)は、25例のPD症例のうち2例及び33例の対照のうち3例において見出された(p値=1)。白人の中で、CNVは、2598人のLBD症例(1.31%)のうち34人(21人の重複及び13人の欠失)及び1941人の対照(1.24%)のうち24人(11人の重複及び13人の欠失)において見出された(p値=0.89)。1kGPコホート及びPDコホートの両方にわたって、CNV(特に重複)は、白人よりもアフリカ人において全体的に9倍を超えて頻度が高かった(1kGP:11.6%対0.6%。PD:8.6%対0.9%)。これらの結果は、調査されていない構造変異を示すアフリカ人ゲノムの最近の証拠と、より大きく、依然として大部分が調査されていないアフリカ人の遺伝的多様性と一致する。興味深いことに、重複を伴う10例のPD症例のうち3例が第2の病原性GBA変異体を有し、重複を伴う21例のLBD症例のうち4例が第2の病原性GBA変異体を有する。重複はGBA遺伝子自体を変化させないが、重複は第2のGBA変異体を獲得するより高い可能性をもたらす可能性がある。これは、RAPSODI及びQSBB ONTデータにおいて見出されたものと一致する。
【0078】
【0079】
良性CNVに加えて、組換え変異体が3つ全てのコホートにおいて検出された(表4)。GBA組換え変異体は、PDよりもLBDにおいてより一般的である(50/2598、1.92%対19/2325、0.82%、p値=0.0009)。GATK変異体コールは、AMP-PDからのPD及びLBD試料について利用可能であった。エクソン9~11における配列の相同性に起因して、GATKは、D448Hを除く全ての組換え変異体をアンダーコール(undercalled)した。D448Hについて、GATKは、塩基がGBAに変換されたGBAP1ハプロタイプに起因して、2つの偽陽性をコールした(
図2Cを参照のこと)。全てのPD及びLBD症例+対照集団について、GATKは35個の組換え変異体をコールし、Gauchianは77個をコールし、変異体コールは2倍以上であった。
【0080】
Gauchianはまた、3つのコホートにおいて単純な非組換え変異体を検出した(表5)。再び、GBA変異体は、PDよりもLBDにおいてより一般的である。
【0081】
【0082】
【0083】
Gauchian-WGSベースのGBAコーラー
Gauchianでは、本明細書に開示されるWGSベースのGBAコーラーは、SMN1/SMN2コーラーに記載されており(Chen et al.Spinal muscular atrophy diagnosis and carrier screening from genome sequencing data,Genet Med 22,945-953(2020)に記載され、その内容は参照によりその全体が本明細書に組み込まれる)、またCyriusCYP2D6コーラーに記載されている(Chen et al.,Cyrius:accurate CYP2D6 genotyping using whole genome sequencing data,Pharmacogenomics J 21,251-261(2021)に記載されており、その内容は参照によりその全体が本明細書に組み込まれる)ような密接に関連したパラログを解決する戦略に基づいて、この課題を克服するための新規なアプローチを使用している。いくつかの実施形態では、Gauchianの方法は、5、10、20、30、40、50、100、200、又はそれ以上の遺伝子の配列決定などの標的配列決定からの配列リードに適用することができる。
【0084】
最初に、Gauchianは、SMN1/SMN2コーラー及びCyriusCYP2D6コーラーによって使用される同様の標的化CNVコーリング法に従って、GBAとGBAP1との間の10kbのユニーク領域(chr1:155220429~155230539、hg38)のコピー数を計算する。この領域にアライメントされたリードの数を正規化し、GC含量について補正し、コピー数を混合ガウスモデルからコールした。期待された2つのコピー数(CN)からのこのコピー数(CN)の偏差は、CNVの存在を示す。例えば、1コピーは欠失を示し、3コピーは重複を示す。したがって、この数に2を加えると、GBAとGBAP1の両方を合わせた総コピーが得られる(
図2B1と
図2B2を比較されたい)。合わせたGBA及びGBAP1の両方の総コピーを、本明細書ではCN(GBA+GBAP1)と略記する。
【0085】
次のGauchianは、CyriusCYP2D6コーラーによって使用されるのと同様のアプローチに従って、CNVの切断点を同定する。これを行うために、GBAとGBAP1との間で異なる82個の信頼できる塩基を使用する。Gauchianは、CN(GBA+GBAP1)並びにGBA及びGBAP1特異的塩基を支持するリード数に基づいて、82個のGBA/GBAP1識別塩基位置のそれぞれにおけるGBACNを推定する。CNV切断点は、GBAのCNが変化するときに特定される。例えば、CN1からCN2への切り替えは欠失の切断点を示し、CN3からCN2への切り替えは重複の切断点を示す。正確な切断点は、次の段落に記載されるように、ハプロタイプフェージングによって更に精密化される。
【0086】
組換え変異体を同定するために、Gauchianは、重要なGBA/GBAP1組換え変異体(p.L483P、p.D448H、c.1263del、RecNciI、RecTL及びc.1263del+RecTL)を含む1.1kb領域(
図2C)を分析する。この領域は、10個のGBA/GBAP1塩基の差異を含む。リード及びリード対に基づいて、Gauchianは、この領域におけるGBA又はGBAP1のいずれかに由来する全てのハプロタイプを位フェージングし、ハイブリッドハプロタイプ(すなわち、同じハプロタイプ上のGBA及びGBAP1塩基の混合物)を同定する。異なるハプロタイプの相対量を評価するために、Gauchianは、CN(GBA+GBAP1)並びに各ハプロタイプのCNをコールするための識別塩基でのハプロタイプ支持リードカウントを使用する。Gauchianは、2つのシナリオ、すなわち野生型GBAハプロタイプの1つのコピー対野生型GBAハプロタイプの2つのコピーを比較する。Gauchianは、データ内のサポートリードの数が与えられると、どのシナリオがより可能性が高いかを決定する。Gauchianが野生型GBAハプロタイプの1つのコピーのみをコールする場合、これは、個体が病因変異体のキャリアであることを示す。個体が2つ以上の変異体ハプロタイプのキャリアであり、目的の全ての変異体部位にGBA塩基を有するハプロタイプが存在しない場合、Gauchianは、この試料を複合ヘテロ接合とコールする。ホモ接合変異体は、GBA塩基のCNが0とコールされる場合にコールされる。最後に、単純な小さな変異体について、Gauchianは、リードアライメントを解析し、SMN1/SMN2コーラー及びCyriusCYP2D6コーラーによって使用される変異体のCNをコールする。
【0087】
CYP21A2変異体
ヒトMHCクラスIII領域のRCCXモジュールは、99.6%の類似性を有する約30kbのタンデムリピートを含む。RCCXモジュールは、RP1、C4A/B、CYP21A2、及びTNXBをコードする。CYP21A1Pは、CYP21A2の偽遺伝子である。CYP21A2の遺伝子組換え変異体は、1:10,000~1:16,000の生児出生の発生率で21-ヒドロキシラーゼ欠損先天性副腎過形成症(21-OHD CAH)を引き起こし得る。C4A及びC4Bは一緒になって補体成分4(C4)を形成する。C4欠損は、狼瘡などの自己免疫疾患に関連する。TNXBにおける変異は、エーラー-ダンロス症候群を引き起こし得る。
【0088】
対象の試料中のRCCXリピートは、上記の通りであった。試料中のRCCXリピートのCNは、混合ガウスモデルを使用して決定した。
図3Aは、CNの人種依存分布を示す。欠失切断点は、区別するSNP部位のCNにおけるスイッチを調べることによって同定した。C4A及びC4Bは、C4A/C4B間の機能的差異をマークする5つのSNPを含む。
図3Bに示される9個の遺伝子組換え変異体を含む、CYP21A2とCYP21A1Pとの間の14個の差異にアライメントされたリード及びリード対を、ハプロタイプフェージングのためのリードバックフェージングで分析した。CYP21A2野生型ハプロタイプが対象の試料中に1つのコピーのみで存在するかどうかを、データ中の支持リードの深さ/数に基づいて試験した。
図3Cは、被験者が有していたCYP21A2野生型ハプロタイプ以外のCYP21A2ハプロタイプの分布を示す。CYP21A2野生型ハプロタイプは、全ての塩基が14位のCYP21A2塩基である11111111111111として表される。
図3Cに示されるCYP21A2ハプロタイプは、CYP21A2野生型ハプロタイプではないため、例えば、13番目の塩基がCYP21A1P塩基であり、残りの塩基がCYP21A2塩基であることを示す11111111111121によって表される。
【0089】
GBA変異体及び変異体状態の決定
図4は、1つ以上のGBA変異体又はGBA変異体状態を決定又は識別する例示的な方法400を示す流れ図である。方法400は、コンピューティングシステムの1つ以上のディスクドライブなどのコンピュータ可読媒体上に記憶された実行可能プログラム命令のセット内で具現化し得る。例えば、
図7に示され、以下でより詳細に説明されるコンピューティングシステム700は、方法400を実施するための実行可能プログラム命令のセットを実行することができる。方法400が開始された場合、実行可能プログラム命令は、RAMなどのメモリにロードされ、コンピューティングシステム700の1つ以上のプロセッサによって実行することができる。方法400は、
図7に示されるコンピューティングシステム700について説明されているが、説明は単なる例示であり、限定することを意図するものではない。いくつかの実施形態では、方法400又はその部分は、複数のコンピューティングシステムによって連続的に又は並列に実行され得る。
【0090】
方法400がブロック404で開始した後、方法400はブロック408に進み、コンピューティングシステム(例えば、
図7を参照して説明したコンピューティングシステム700)は、第1の複数の配列リードを参照配列(例えば、hg19又はhg38などの参照ゲノム配列)にアライメントして、参照配列中のGBA遺伝子又はGBAP1遺伝子にアライメントされた第2の複数の配列リードを得ることができる(参照配列中のGBA遺伝子又はGBAP1遺伝子に対する第2の複数の配列リードのそれぞれのアライメントを含む)。コンピューティングシステムは、対象から得られた試料から生成された第1の複数の配列リードを受信することができる。コンピューティングシステムは、第1の複数の配列リードをメモリに記憶することができる。コンピューティングシステムは、第1の複数の配列リードをメモリにロードすることができる。配列リードは、合成による配列決定、結合による配列決定、又はライゲーションによる配列決定などの技術によって生成することができる。配列リードは、Illumina,Inc.(San Diego,CA)からのMINISEQ、MISEQ、NEXTSEQ、HISEQ、及びNOVASEQ配列決定機器などの機器を使用して生成することができる。
【0091】
配列リードは、例えば、それぞれ50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000又はそれ以上の塩基対(bps)の長さとすることができる。例えば、配列リードは、それぞれ約100塩基対~約1000塩基対の長さである。配列リードは、ペアエンド配列リードを含み得る。配列リードは、シングルエンド配列リードを含み得る。配列リードは、全ゲノム配列決定(WGS)によって生成することができる。WGSは、臨床WGS(cWGS)であることができる。配列リードは、シングルエンド配列リードを含み得る。配列リードは、5、10、20、30、40、50、100、200、又はそれ以上の遺伝子の配列決定などの標的配列決定によって生成することができる。試料は、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含み得る。
【0092】
配列リードは、0以上のアライメント品質スコアで、参照配列中のGBA遺伝子又はGBAP1遺伝子にアライメントすることができる。配列リードは、約0のアライメント品質スコアで、参照配列中のGBA遺伝子又はGBAP1遺伝子にアライメントすることができる(例えば、遺伝子及び遺伝子パラログが高度に相同である領域に配列がアライメントされる場合)。コンピューティングシステムは、Burrows-Wheeler Aligner(BWA)、iSAAC、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP及びGSNAP、Geneious Assembler、LAST、MAQ、mrFAST及びmrsFAST、MOM、MOSAIK、MPscan、Novoaligh及びNovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3及びSOAP3-dp、SOCS、SSAHA及びSSAHA2、Stampy、SToRM、Subread及びSubjunc、Taipan、UGENE、VelociMapper、XpressAlign及びZOOMなどのアライナー又はアライメント方法を使用して、参照配列に配列リードをアライメントすることができる。
【0093】
方法400は、ブロック408からブロック412に進み、ここで、コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた第2の複数の配列リードの配列リードの数(例えば、正規化及び/又は補正された数)を決定する。参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域は、約10キロベースの長さのユニーク領域を含み得る。参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域は、hg38のchr1:155220429~155230539又は参照ヒトゲノム配列の対応する領域を含み得る。
【0094】
コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数を決定することができる。コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数を、(1a)GBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの深さ、(1b)ユニーク領域の長さ、(2a)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照配列の複数の領域のそれぞれにアライメントされた第1の複数の配列リードの配列リードの深さ、並びに/又は(2b)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照の複数の領域のそれぞれの長さを使用して決定することができる。
【0095】
コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された、補正された数を、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から決定することができる。参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された、補正された数を決定するために、コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されGC含量を補正された数を決定することができる。コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されたGC含量を補正された数を、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から、(1)GBA遺伝子とGBAP1との間のユニーク領域のGC含量を使用して決定することができる。コンピューティングシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されたGC含量を補正された数を、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化された数から、(1)GBA遺伝子とGBAP1遺伝子との間のユニーク領域のGC含量及び/又は(2)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照配列の1つ以上の領域(又はGBA遺伝子及びGBAP1遺伝子を含まない参照配列の1つ以上の領域)のそれぞれのGC含量を使用して決定することができる。例えば、コンピュータシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されたGC含量を補正された数を、(1)GBA遺伝子とGBAP1遺伝子との間のユニーク領域のGC含量、並びに(2)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照配列の領域のGC含量を使用して決定することができる。別の例として、コンピュータシステムは、参照配列中のGBA遺伝子とGBAP1遺伝子との間のユニーク領域にアライメントされた配列リードの正規化されたGC含量を補正された数を、(1)GBA遺伝子とGBAP1遺伝子との間のユニーク領域のGC含量、並びに(2)GBA遺伝子及びGBAP1遺伝子を含む遺伝子座以外の参照配列の複数の領域(例えば、2、3、4、5、10、20、30、40、50、100、200、300、400、500、1000、2000、3000、4000、5000、10000、又はそれ以上の領域)のGC含量を使用して決定することができる。
【0096】
方法400は、ブロック412からブロック416に進み、ここで、コンピューティングシステムは、GBA遺伝子とGBAP1遺伝子との間にアライメントされた配列リードの(例えば正規化された及び/又は補正された配列リードの)数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定する。コンピューティングシステムは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデルを使用してGBA遺伝子及びGBAP1遺伝子の全コピー数を決定することができる。コンピューティングシステムは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された、補正された数を所与として、混合ガウスモデルを使用してGBA遺伝子及びGBAP1遺伝子の全コピー数を決定することができる。
【0097】
全コピー数は、例えば、2、3、4、5、6、7、8、9、10又はそれ以上であることができる。混合ガウスモデルは、1次元混合ガウスモデルを含み得る。混合ガウスモデルの複数のガウスは、整数コピー数、例えば、0~5、0~6、0~7、0~8、0~9、0~10、0~11、0~12、0~13、0~14又は0~15を表すことができる。例えば、混合ガウスモデルの複数のガウスは、整数コピー数0~10を表すことができる。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数であることができる。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数(例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、又はそれ以上のコピー数)であることができる。ガウスの標準偏差は、例えば0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1以上であることができる、又は約0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1以上であることができる。混合ガウスモデルの複数のガウスは、例えば、5、6、7、8、9、10、11、12、13、14、15、16、又はそれ以上のガウスを含み得る。例えば、混合ガウスモデルの複数のガウスは、5ガウスを含み得る。
【0098】
GBA遺伝子及びGBAP1遺伝子の全コピー数を決定するために、コンピューティングシステムは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデルを使用してGBA遺伝子とGBAP1遺伝子との間の領域のコピー数を決定することができる。GBA遺伝子及びGBAP1遺伝子の全コピー数は、GBA遺伝子とGBAP1遺伝子との間の領域のコピー数に2を加えたものとすることができる。
【0099】
コンピューティングシステムは、GBA遺伝子とGBAP1遺伝子との間の領域にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して、GBA遺伝子及びGBAP1遺伝子の全コピー数を決定することができる。所定の事後確率閾値は、例えば0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99以上であることができる、又は約0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99以上であることができる。例えば、所定の事後確率閾値は、0.95である。
【0100】
方法400は、ブロック416からブロック420に進み、ここで、コンピューティングシステムは、複数のGBA/GBAP1識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基(又は識別塩基の位置若しくは部位)を含む、GBA遺伝子の領域又はGBAP1遺伝子の対応する領域におけるGBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングする。例えば、配列リードは、配列リードがGBA/GBAP1識別塩基(又はGBA/GBAP1識別塩基の部位)と重複するように、又は配列リードの塩基がGBA/GBAP1パラログ識別塩基(又はGBA/GBAP1パラログ識別塩基の部位)にアライメントされるように、参照配列にアライメントすることができる。第2の複数の配列リードの配列リードは、複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域に、0以上のアライメント品質スコアでアライメントすることができる。
【0101】
1つ以上のハプロタイプは、野生型GBAハプロタイプ、野生型GBAP1ハプロタイプ、及び/又はGBA/GBAP1ハイブリッドハプロタイプを含む。GBA/GBAP1ハイブリッドハプロタイプは、GBA塩基及びGBAP1塩基の両方を含み得る。GBA/GBAP1ハイブリッドハプロタイプは、組換え変異体であり得る。GBA/GBAP1ハイブリッドハプロタイプは、GBA変異体ハプロタイプ又はGBAP1変異体ハプロタイプを含み得る。ハプロタイプは相互組換え変異体を含み得る。ハプロタイプは、非相互的組換え変異体又は遺伝子変換変異体を含み得る。参照配列は、参照ゲノム配列を含み得る。
【0102】
GBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングするために、コンピューティングシステムは、複数のGBA/GBAP1識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基のGBA/GBAP1識別塩基間の連鎖情報を分析することができる。コンピューティングシステムは、複数のGBA/GBAP1識別塩基のうちの2つ以上にそれぞれアライメントされた第2の複数の配列リードの配列リードを使用して、GBA遺伝子又はGBAP1遺伝子に由来する1つ以上のハプロタイプをフェージングすることができる。例えば、
図1を参照すると、図に示される遺伝子A及び遺伝子BがそれぞれGBA遺伝子又はGBAP1遺伝子であると仮定すると、区別する塩基の部位1及び部位4をカバーする1つのリード対は、そのリード対が部位1のGBA遺伝子塩基及び部位4のGBA遺伝子塩基を有することに由来するハプロタイプ(ハプロタイプx)を示すことができる。区別する塩基の部位3及び部位5をカバーする1つのリード対は、リード対が部位3におけるGBA遺伝子塩基及び部位5におけるGBAP1遺伝子塩基を有することに由来するハプロタイプ(ハプロタイプy)を示すことができる。区別する塩基の部位4及び部位5をカバーする1つのリードは、リードが部位4におけるGBA遺伝子塩基及び部位5におけるGBAP1遺伝子塩基を有することに由来するハプロタイプ(ハプロタイプy)を示すことができる。コンピューティングシステムは、5つの信頼できる塩基差異のセットを有する領域中のGBA遺伝子又はGBAP1遺伝子のいずれかに由来する全てのハプロタイプをフェージングし、GBA遺伝子のハプロタイプ(ハプロタイプ1)及びGBAP1遺伝子のハプロタイプ(ハプロタイプ2)並びにハイブリッドハプロタイプ(ハプロタイプ3及び4)を同定することができる。ハプロタイプの数、部位におけるハプロタイプの塩基、部位の数、及び部位(例えば、部位1及び4、又は部位3及び5)配列リードカバーは、説明のためだけに
図1に示されており、限定することを意図していない。
【0103】
複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域は、約1.1(又は0.8、0.9、1、1.2、1.3、又はそれ以上)キロベースの長さであり得る。複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域は、それぞれGBA遺伝子又はGBAP1遺伝子のエクソン9~11を含み得る。複数のGBA/GBAP1識別塩基を含むGBA遺伝子の領域又はGBAP1遺伝子の対応する領域は、p.L483P、p.D448H、c.1263del、RecNciI、RecTL、及びc.1263del+RecTLを含み得る。複数のGBA/GBAP1識別塩基は、10個のGBA/GBAP1識別塩基を含み得る。
【0104】
方法400は、ブロック420からブロック424に進み、ここで、コンピューティングシステムは、GBA遺伝子及びGBAP1遺伝子の全コピー数、並びにハプロタイプを支持する複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定する。ハプロタイプのコピー数は、例えば、1、2、3、4又はそれ以上であり得る。
【0105】
コンピューティングシステムは、GBA遺伝子の領域若しくはGBAP1遺伝子の対応する領域におけるGBA遺伝子若しくはGBAP1遺伝子に由来する1つ以上のハプロタイプ、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象のGBA状態(例えば、キャリア、複合ヘテロ接合体又はホモ接合体)を決定することができる。コンピューティングシステムは、GBA状態を表す又は含むUI要素を含む、グラフィカルユーザインターフェースなどのユーザインターフェース(UI)を生成することができる。UIは、UI要素の一部としてGBA状態を含み得る。UI要素は、ウィンドウ(例えば、コンテナウィンドウ、ブラウザウィンドウ、テキスト端末、子ウィンドウ、又はメッセージウィンドウ)、メニュー(例えば、メニューバー、コンテキストメニュー、又はメニューエキストラ)、アイコン、又はタブであり得る。UI要素は、入力制御(例えば、チェックボックス、ラジオボタン、ドロップダウンリスト、リストボックス、ボタン、トグル、テキストフィールド、又は日付フィールド)のためのものであり得る。UI要素は、ナビゲーション(例えば、ブレッドクラム、スライダ、検索フィールド、ページ付け、スライダ、タグ、アイコン)であり得る。UI要素は、情報を提供することができる(例えば、ツールチップ、アイコン、プログレスバー、通知、メッセージボックス、又はモーダルウィンドウ)。UI要素は、コンテナ(例えば、アコーディオン)であり得る。
【0106】
キャリア。1つ以上のハプロタイプのそれぞれのコピー数を決定するために、コンピューティングシステムは、野生型GBAハプロタイプを支持する複数のGBA/GBAP1識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を所与として、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、1つ、1つ若しくは複数(例えば、2つ、3つ、若しくは4つ)、又は1つ以上のハプロタイプのそれぞれについて(例えば、それらの配列リードを使用して)、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度より高いことを決定することができる。尤度差は、例えば、1%、2%、3%、5%、10%、15%、20%、又はそれ以上であり得る。コンピューティングシステムは、野生型GBAハプロタイプのコピー数が1であると決定することができる。そのコンピュータシステムは、野性型GBAハプロタイプの1つのコピーの尤度が、GBA/GBAP1識別塩基の複数の連続したGBA/GBAP1識別塩基の1つ以上の対(又は、全ての対)のそれぞれの野性型GBAハプロタイプの2つのコピーの尤度より高いことを決定することができ、その際、1つ以上のハプロタイプの第1のハプロタイプは、連続したGBA/GBAP1識別塩基のGBA塩基を含み、1つ以上のハプロタイプの第2のハプロタイプは、連続したGBA/GBAP1識別塩基でGBA塩基及びGBAP1塩基(又は、GBAP1塩基及びGBA塩基)を含む。第1のハプロタイプは、連続したGBA/GBAP1識別塩基にGBA塩基を含み得る。第2のハプロタイプは、連続したGBA/GBAP1識別塩基間のGBA塩基からGBAP1塩基への変換(又はGBAP1塩基からGBA塩基への変換)を含み得る。連続したGBA/GBAP1識別塩基は、連続したGBA/GBAP1識別塩基が参照配列中の隣接塩基であるかどうかにかかわらず、複数のGBA/GBAP1識別塩基内で連続している。例えば、以下の実施例における部位5及び部位6におけるGBA/GBAP1識別塩基は、連続するGBA/GBAP1識別塩基が参照配列において隣接する塩基であるか否かにかかわらず、連続するGBA/GBAP1識別塩基である。コンピューティングシステムは、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定するために、連続したGBA/GBAP1識別塩基の1つ以上の対(又は全ての対)のそれぞれについて決定された尤度を組み合わせる(例えば、平均化又は加重平均化する)ことができる。
【0107】
コンピューティングシステムは、(1)それぞれが連続するGBA/GBAP1識別塩基においてGBA塩基を含む第2の複数の配列リードの配列リードの数を所与として、連続するGBA/GBAP1識別塩基の1つ以上の対(又は全ての対)のそれぞれについて、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。そのコンピューティングシステムは、(2)連続するGBA/GBAP1識別塩基のGBA塩基及びGBAP1塩基、(又は、GBAP1塩基及びGBA塩基)をそれぞれ含む第2の複数の配列リードの配列リードの数、及び/又は(3)連続するGBA/GBAP1識別塩基のGBAP1塩基及びGBA塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、を所与として、野性型GBAハプロタイプの1つのコピーの尤度が、連続するGBA/GBAP1識別塩基の1つ以上の対(又は、全ての対)のそれぞれの野性型GBAハプロタイプの2つのコピーの尤度より高いことを決定することができる。いくつかの実施形態では、コンピューティングシステムは、(4)それぞれが連続するGBA/GBAP1識別塩基においてGBAP1塩基を含む第2の複数の配列リードの配列リードの数を所与として、連続するGBA/GBAP1識別塩基の1つ以上の対(又は全ての対)のそれぞれについて、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0108】
例えば、GBA/GBAP1識別塩基間の連鎖情報を分析することによって、対象について以下のハプロタイプを決定することができる(例示目的のみのために、識別塩基の6つの塩基又は部位又は位置で)。
【0109】
【表6】
GBA遺伝子塩基からGBAP1遺伝子塩基への転換は、ハプロタイプ2について部位5と部位6との間で起こる。例えば、部位5及び部位6にGBA塩基を有するリードの数は98であり、部位5にGBA塩基及び部位6にGBAP1塩基を有するリードの数は105であり、部位5及び部位6にGBAP1塩基を有するリードの数は190である。部位5及び6にGBA塩基を有するリードの数が98であり、部位5にGBA塩基及び部位6にGBAP1塩基を有するリードの数が105であることを所与として、コンピューティングシステムは、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いと決定することができる。コンピューティングシステムは、野生型GBAP1ハプロタイプからのリードを使用することなく、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0110】
別の例として、GBA/GBAP1識別塩基間の連鎖情報を分析することによって、対象について以下のハプロタイプを決定することができる(例示目的のみのために6つの部位で)。
【0111】
【表7】
GBA塩基からGBAP1塩基への転換は、ハプロタイプ2の部位5と部位6との間で起こる。例えば、部位5及び6にGBA塩基を有するリードの数は98であり、部位5にGBA塩基及び部位6にGBAP1塩基を有するリードの数は105であり、部位5にGBAP1塩基及び部位6にGBA塩基を有するリードの数は95であり、部位5及び部位6にGBAP1塩基を有するリードの数は104である。部位5及び6にGBA塩基を有するリードの数が98であり、部位5にGBA塩基及び部位6にGBAP1塩基を有するリードの数が105であることを所与として、コンピューティングシステムは、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いと決定することができる。コンピューティングシステムは、野生型GBAP1ハプロタイプからのリードを使用することなく、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、部位5にGBAP1塩基及び部位6にGBA塩基を有するリードを使用することなく、野生型GBAハプロタイプの1つのコピーの尤度が野生型GBAハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。なぜなら、そのハプロタイプ(ハプロタイプ3)は、区別する塩基の部位/位置にほとんどGBAP1塩基を有し、したがって、GBA変異体ハプロタイプである可能性が低い/GBAP1変異体ハプロタイプである可能性が高いからである。
【0112】
野生型GBAハプロタイプのコピー数は、1(すなわち、GBA変異体ハプロタイプのキャリア)であり得る。コンピューティングシステムは、GBA変異体ハプロタイプのキャリアとしての対象のGBA状態を決定することができる。1つ以上のハプロタイプは、4つのハプロタイプを含み得る。GBA遺伝子及びGBAP1遺伝子の全コピー数は、4であることができる。4つのハプロタイプのそれぞれのコピー数は、1つ(例えば、野生型GBAハプロタイプの1つのコピー、GBA変異体ハプロタイプの1つのコピー、GBAP1野生型ハプロタイプの1つのコピー、及び高い割合(80%、85%、90%、95%、又はそれ以上など)の識別塩基でGBAP1塩基を有するハプロタイプの1つのコピー)であり得、したがって、GBA変異体ハプロタイプである可能性は低い/GBAP1変異体ハプロタイプである可能性が高い。コンピューティングシステムは、GBA変異体ハプロタイプのキャリアとしての対象のGBA状態を決定することができる。例えば、GBA/GBAP1識別塩基間の連鎖情報を分析することによって、対象について以下のハプロタイプを決定することができる(例示目的のみのために6つの部位で)。
【0113】
【表8】
対象は、野生型GBAハプロタイプの1つのコピー及びGBA変異体ハプロタイプの1つのコピーを有する(及び野生型GBAP1ハプロタイプの1つのコピー、及び識別塩基の部位/位置に主にGBAP1塩基を有するハプロタイプの1つのコピーを有し、したがって、GBA変異体ハプロタイプである可能性が低い/GBAP1変異体ハプロタイプである可能性が高い)ため、対象はGBA変異体ハプロタイプのキャリアである。
【0114】
1つ以上のハプロタイプは、3つのハプロタイプを含み得る。GBA遺伝子及びGBAP1遺伝子の全コピー数は、4であることができる。野生型GBAハプロタイプ、GBA変異体ハプロタイプ、及び野生型GBAP1ハプロタイプ(又は80%、85%、90%、95%、又はそれ以上などの高い割合の識別塩基でGBAP1塩基を有するハプロタイプ)のコピー数は、それぞれ1、1、及び2であり得る。コンピューティングシステムは、GBA変異体ハプロタイプのキャリアとしての対象のGBA状態を決定することができる。例えば、GBA/GBAP1識別塩基間の連鎖情報を分析することによって、対象について以下のハプロタイプを決定することができる(例示目的のみのために6つの部位で)。
【0115】
【表9】
対象は1つのコピーの野生型GBAハプロタイプ及び1つのコピーのGBA変異体ハプロタイプを有するため、対象はGBA変異体ハプロタイプのキャリアである。
【0116】
複合ヘテロ接合。1つ以上のハプロタイプは、2つ以上のGBA変異体ハプロタイプを含み得る。2つ以上のGBA変異体ハプロタイプのいずれも、複数のGBA/GBAP1識別塩基のそれぞれにGBA塩基を含むことができない。2つ以上のGBA変異体ハプロタイプのいずれも、複数のGBA/GBAP1識別塩基の全てにおいてGBA塩基を含むことができない。2つ以上のGBA変異体ハプロタイプのそれぞれは、複数のGBA/GBAP1識別塩基のうちの1つ以上において1つ以上のGBAP1塩基を含み得る。コンピューティングシステムは、GBA変異体ハプロタイプの複合ヘテロ接合として対象のGBA状態を決定することができる。例えば、GBA/GBAP1識別塩基間の連鎖情報を分析することによって、対象について以下のハプロタイプを決定することができる(例示目的のみのために6つの部位で)。
【0117】
【表10】
対象は野生型GBAハプロタイプのいかなるコピーも有さず、2つのGBA変異体ハプロタイプのそれぞれの1つのコピーを有するため、対象はGBA変異体ハプロタイプの複合ヘテロ接合型である。
【0118】
ホモ接合。1つ以上のハプロタイプは、GBA/GBAP1識別塩基において、又は複数のGBA/GBAP1識別塩基のうちの2つ以上のそれぞれにおいて、同一の塩基(例えば、GBA塩基又はGBAP1塩基)を含み得る。コンピューティングシステムは、対象が、複数のGBA/GBAP1識別塩基のうちの1つ以上においてホモ接合である(例えば、野生型GBAP1遺伝子ハプロタイプについてホモ接合又はGBA変異体ハプロタイプについてホモ接合である)ことを決定することができる。
【0119】
コンピューティングシステムは、GBA塩基ではないGBA/GBAP1識別塩基における塩基をそれぞれ含む第2の複数の配列リードの配列リードを使用して、複数のGBA/GBAP1識別塩基のうちの1つ以上のそれぞれにおけるGBA塩基のコピー数が0であると決定することができる。GBA塩基ではないGBA/GBAP1識別塩基における塩基は、GBAP1塩基であり得る。コンピューティングシステムは、対象のGBA状態が、複数のGBA/GBAP1識別塩基のうちの1つ、1つ若しくは複数、又はそれぞれにおいてGBA変異体ハプロタイプについてホモ接合であることを決定することができる。例えば、複数のGBA/GBAP1識別塩基に基づいて、コンピューティングシステムは、GBA塩基のコピー数(CN)を決定することができる。GBA塩基又はGBAP1塩基を支持するリードの数、並びにGBA遺伝子及びGBAP1遺伝子の総CNを使用して、GBA塩基のCN及びGBAP1塩基のCNの最も可能性の高い組み合わせを決定することができる。GBA塩基のCNが0と決定される場合、これは、対象が野生型GBA遺伝子ハプロタイプ(目的の変異部位にGBA塩基を保有するハプロタイプ)のコピーを有さず、GBA遺伝子変異体ハプロタイプについてホモ接合であることを示す。
【0120】
方法400は、ブロック428で終了する。
【0121】
CYP21A2変異体及び変異体状態の決定
図5は、1つ以上のCYP21A2変異体又は変異体状態を決定又は同定する例示的な方法500を示すフロー図である。方法500は、コンピューティングシステムの1つ以上のディスクドライブなどのコンピュータ可読媒体上に記憶された実行可能プログラム命令のセット内で具現化し得る。例えば、
図7に示され、以下でより詳細に説明されるコンピューティングシステム700は、方法500を実施するための実行可能プログラム命令のセットを実行することができる。方法500が開始された場合、実行可能プログラム命令は、RAMなどのメモリにロードされ、コンピューティングシステム700の1つ以上のプロセッサによって実行することができる。方法500は、
図7に示されるコンピューティングシステム700について説明されているが、説明は単なる例示であり、限定することを意図するものではない。いくつかの実施形態では、方法500又はその部分は、複数のコンピューティングシステムによって連続的に又は並列に実行され得る。
【0122】
方法500がブロック504で開始した後、方法500はブロック508に進み、コンピューティングシステム(例えば、
図7を参照して説明したコンピューティングシステム700)は、第1の複数の配列リードを参照配列(例えば、hg19又はhg38などの参照ゲノム配列)にアライメントして、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードを得る(参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子に対する第2の複数の配列リードのそれぞれのアライメントを含む)。コンピューティングシステムは、対象から得られた試料から生成された第1の複数の配列リードを受信することができる。コンピューティングシステムは、第1の複数の配列リードをメモリに記憶することができる。コンピューティングシステムは、第1の複数の配列リードをメモリにロードすることができる。配列リードは、合成による配列決定、結合による配列決定、又はライゲーションによる配列決定などの技術によって生成することができる。配列リードは、Illumina,Inc.(San Diego,CA)からのMINISEQ、MISEQ、NEXTSEQ、HISEQ、及びNOVASEQ配列決定機器などの機器を使用して生成することができる。
【0123】
配列リードは、例えば、それぞれ50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000又はそれ以上の塩基対(bps)の長さとすることができる。例えば、配列リードは、それぞれ約100塩基対~約1000塩基対の長さである。配列リードは、ペアエンド配列リードを含み得る。配列リードは、シングルエンド配列リードを含み得る。配列リードは、全ゲノム配列決定(WGS)によって生成することができる。WGSは、臨床WGS(cWGS)であることができる。試料は、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含み得る。
【0124】
配列リードは、0以上のアライメント品質スコアで、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされ得る。配列リードは、約0のアライメント品質スコアで、参照配列中のCYP21A2遺伝子又はCYP21A1P遺伝子にアライメントすることができる(例えば、遺伝子及び遺伝子パラログが高度に相同である領域に配列がアライメントされる場合)。コンピューティングシステムは、Burrows-Wheeler Aligner(BWA)、iSAAC、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP及びGSNAP、Geneious Assembler、LAST、MAQ、mrFAST及びmrsFAST、MOM、MOSAIK、MPscan、Novoaligh及びNovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3及びSOAP3-dp、SOCS、SSAHA及びSSAHA2、Stampy、SToRM、Subread及びSubjunc、Taipan、UGENE、VelociMapper、XpressAlign及びZOOMなどのアライナー又はアライメント方法を使用して、参照配列に配列リードをアライメントすることができる。
【0125】
方法500は、ブロック508からブロック512に進み、ここで、コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた第2の複数の配列リードの配列リードの数(例えば、正規化及び/又は補正された数)を決定する。
【0126】
コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を決定することができる。コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を、(1a)CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの深さ、(1b)ユニーク領域の長さ、(2a)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照配列の複数の領域のそれぞれにアライメントされた第1の複数の配列リードの配列リードの深さ、及び/又は(2b)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照の複数の領域のそれぞれの長さを使用して決定することができる。
【0127】
コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された、補正された数を、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から決定することができる。コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化され、補正された数を決定するために、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化され、GC含量を補正された数を決定することができる。コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されたGC含量を補正された数を、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、(1)CYP21A2遺伝子又はCYP21A1P偽遺伝子のGC含量を使用して決定することができる。コンピューティングシステムは、(1)CYP21A2遺伝子若しくはCYP21A1P偽遺伝子のGC含量、並びに/又は(2)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照配列の1つ以上の領域(又はCYP21A2遺伝子及びCYP21A1P偽遺伝子を含まない参照配列の1つ以上の領域)のそれぞれのGC含量を使用して、参照配列中のCYP21A2遺伝子若しくはCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、参照配列中のCYP21A2遺伝子若しくはCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されたGC含量を補正された数を決定することができる。例えば、コンピューティングシステムは、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されたGC含量を補正された数を、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、(1)CYP21A2遺伝子又はCYP21A1P偽遺伝子のGC含量、並びに(2)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照配列の領域のGC含量を使用して決定することができる。別の例として、コンピューティングシステムは、(1)CYP21A2遺伝子及びCYP21A1P偽遺伝子、並びに(2)CYP21A2遺伝子及びCYP21A1P偽遺伝子を含む遺伝子座以外の参照配列の複数の領域(例えば、2、3、4、5、10、20、30、40、50、100、200、300、400、500、1000、2000、3000、4000、5000、10000、又はそれ以上の領域)のGC含量を使用して、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数から、参照配列中のCYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化されたGC含量を補正された配列リードの数を決定することができる。
【0128】
方法500は、ブロック512からブロック516に進み、ここで、コンピューティングシステムは、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの、例えば正規化された及び/又は補正された数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、CYP21A2遺伝子又はCYP21A1P偽遺伝子の全コピー数を決定する。コンピューティングシステムは、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデルを使用してCYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することができる。コンピューティングシステムは、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された、補正された数を所与として、混合ガウスモデルを使用してCYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することができる。
【0129】
全コピー数は、例えば、2、3、4、5、6、7、8、9、10又はそれ以上であることができる。混合ガウスモデルは、1次元混合ガウスモデルを含み得る。混合ガウスモデルの複数のガウスは、整数コピー数、例えば、0~5、0~6、0~7、0~8、0~9、0~10、0~11、0~12、0~13、0~14又は0~15を表すことができる。例えば、混合ガウスモデルの複数のガウスは、整数コピー数0~10を表すことができる。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数であることができる。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数(例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、又はそれ以上のコピー数)であることができる。ガウスの標準偏差は、例えば0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1以上であることができる、又は約0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1以上であることができる。混合ガウスモデルの複数のガウスは、例えば、5、6、7、8、9、10、11、12、13、14、15、16、又はそれ以上のガウスを含み得る。例えば、混合ガウスモデルの複数のガウスは、5ガウスを含み得る。
【0130】
コンピューティングシステムは、CYP21A2遺伝子又はCYP21A1P偽遺伝子にアライメントされた配列リードの正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数を決定することができる。所定の事後確率閾値は、例えば0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99、若しくはそれ以上の、0.7、0.75、0.8、0.85、0.95、若しくはそれ以上であることができる、又は約0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99、若しくはそれ以上の、0.7、0.75、0.8、0.85、0.95、若しくはそれ以上であることができる。例えば、所定の事後確率閾値は、0.95である。
【0131】
方法500は、ブロック516からブロック520に進み、ここで、コンピューティングシステムは、複数のCYP21A2/CYP21A1P識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のCYP21A2/CYP21A1P識別塩基(又は識別塩基の位置若しくは部位)を含む、CYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子及びCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングする。例えば、配列リードは、配列リードがCYP21A2/CYP21A1P識別塩基(又はCYP21A2/CYP21A1P識別塩基の部位)と重複するように、又は配列リードの塩基がCYP21A2/CYP21A1Pパラログ識別塩基(又はCYP21A2/CYP21A1Pパラログ識別塩基の部位)にアライメントされるように、参照配列にアライメントすることができる。第2の複数の配列リードの配列リードは、複数のCYP21A2/CYP21A1P識別塩基を含むCYP21A2遺伝子の領域又はCYP21A1P偽遺伝子の対応する領域に対して、0以上のアライメント品質スコアでアライメントされる。ハプロタイプは相互組換え変異体を含み得る。ハプロタイプは、非相互的組換え変異体又は遺伝子変換変異体を含み得る。
【0132】
1つ以上のハプロタイプは、野生型CYP21A2ハプロタイプ、野生型CYP21A1P、及び/又はCYP21A2/CYP21A1Pハイブリッドハプロタイプを含み得る。CYP21A2/CYP21A1Pハイブリッドハプロタイプは、CYP21A2塩基及びCYP21A1P塩基の両方を含み得る。CYP21A2/CYP21A1Pハイブリッドハプロタイプは、組換え変異体であり得る。CYP21A2/CYP21A1Pハイブリッドハプロタイプは、CYP21A2変異体ハプロタイプ又はCYP21A1P変異体ハプロタイプを含み得る。
【0133】
CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプの位相を決定するために、コンピューティングシステムは、複数のCYP21A2/CYP21A1P識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数のCYP21A2/CYP21A1P識別塩基のCYP21A2/CYP21A1P識別塩基間の連鎖情報を分析することができる。コンピューティングシステムは、複数のCYP21A2/CYP21A1P識別塩基のうちの2つ以上にそれぞれアライメントされた第2の複数の配列リードの配列リードを使用して、CYP21A2遺伝子又はCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプをフェージングすることができる。例えば、
図1を参照して、図中に示される遺伝子A及び遺伝子BがそれぞれCYP21A2遺伝子又はCYP21A1P偽遺伝子であると仮定すると、部位1及び部位4をカバーする1つのリード対は、部位1におけるCYP21A2遺伝子塩基及び部位4におけるCYP21A2遺伝子塩基を有するリード対が由来するハプロタイプ(ハプロタイプx)を示し得る。部位3及び部位5をカバーする1つのリード対は、そのリード対が由来するハプロタイプ(ハプロタイプy)が部位3にCYP21A2遺伝子塩基及び部位5にCYP21A1P偽遺伝子塩基を有することを示し得る。部位4及び部位5をカバーする1つのリードは、リードが由来するハプロタイプ(ハプロタイプy)が部位4にCYP21A2遺伝子塩基及び部位5にCYP21A1P偽遺伝子塩基を有することを示し得る。コンピュータシステムは、5つの信頼できる塩基差異のセットを有する領域中のCYP21A2遺伝子又はCYP21A1P偽遺伝子のいずれかに由来する全てのハプロタイプをフェージングし、CYP21A2遺伝子のハプロタイプ(ハプロタイプ1)及びCYP21A1P偽遺伝子のハプロタイプ(ハプロタイプ2)並びにハイブリッドハプロタイプ(ハプロタイプ3及び4)を同定することができる。ハプロタイプの数、部位におけるハプロタイプの塩基、部位の数、及び部位(例えば、部位1及び4、又は部位3及び5)配列リードカバーは、説明のためだけに
図1に示されており、限定することを意図していない。
【0134】
複数のCYP21A2/CYP21A1P識別塩基は、14個(又は11個、12個、13個、15個、16個、17個、又はそれ以上)のCYP21A2/CYP21A1P識別塩基を含み得る。14個のCYP21A2/CYP21A1P識別塩基は、9個(又は6個、7個、8個、10個、11個、12個、又はそれ以上)のCYP21A2/CYP21A1P組換え変異体を含み得る。CYP21A2/CYP21A1P識別塩基は、hg38のchr6:32039081/32006353、32039128/32006400、32039132/32006404、32039143/32006407、32039426/32006690、32039548/32006812、32039802/32007066、32039807/32007071、32039810/32007074、32039816/32007080、32040182/32007446、32040216/32007481、32040421/32007686、及び32040535/32007800、又は参照ヒトゲノム配列のこれらの塩基を含み得る。
【0135】
方法500は、ブロック520からブロック524に進み、ここで、コンピューティングシステムは、CYP21A2遺伝子及びCYP21A1P偽遺伝子の全コピー数、並びにハプロタイプを支持する複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定する。ハプロタイプのコピー数は、例えば、1、2、3、4又はそれ以上であり得る。
【0136】
コンピューティングシステムは、CYP21A2遺伝子の領域若しくはCYP21A1P偽遺伝子の対応する領域におけるCYP21A2遺伝子若しくはCYP21A1P偽遺伝子に由来する1つ以上のハプロタイプ、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象のCYP21A2状態(例えば、保因者、複合ヘテロ接合又はホモ接合)を決定することができる。コンピューティングシステムは、CYP21A2状態を表す又は含むUI要素を含む、グラフィカルユーザインターフェースなどのユーザインターフェース(UI)を生成することができる。UIは、UI要素の一部としてCYP21A2状態を含み得る。UI要素は、ウィンドウ(例えば、コンテナウィンドウ、ブラウザウィンドウ、テキスト端末、子ウィンドウ、又はメッセージウィンドウ)、メニュー(例えば、メニューバー、コンテキストメニュー、又はメニューエキストラ)、アイコン、又はタブであり得る。UI要素は、入力制御(例えば、チェックボックス、ラジオボタン、ドロップダウンリスト、リストボックス、ボタン、トグル、テキストフィールド、又は日付フィールド)のためのものであり得る。UI要素は、ナビゲーション(例えば、ブレッドクラム、スライダ、検索フィールド、ページ付け、スライダ、タグ、アイコン)であり得る。UI要素は、情報を提供することができる(例えば、ツールチップ、アイコン、プログレスバー、通知、メッセージボックス、又はモーダルウィンドウ)。UI要素は、コンテナ(例えば、アコーディオン)であり得る。
【0137】
キャリア。1つ以上のハプロタイプのそれぞれのコピー数を決定するために、コンピューティングシステムは、野生型CYP21A2ハプロタイプを支持する複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を所与として、野生型CYP21A2ハプロタイプの1つのコピーの尤度が野生型CYP21A2ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、1つ、1つ若しくは複数(例えば、2つ、3つ、若しくは4つ)、又は1つ以上のハプロタイプのそれぞれについて(例えば、それらの配列リードを使用して)、野生型CYP21A2ハプロタイプの1つのコピーの尤度が野生型CYP21A2ハプロタイプの2つのコピーの尤度より高いことを決定することができる。尤度差は、例えば、1%、2%、3%、5%、10%、15%、20%、又はそれ以上であり得る。コンピューティングシステムは、野生型CYP21A2ハプロタイプのコピー数が1であることを決定することができる。コンピューティングシステムは、野性型CYP21A2ハプロタイプの1つのコピーの尤度が、CYP21A2/CYP21A1P識別塩基の複数の連続したCYP21A2/CYP21A1P識別塩基の1つ以上の対(又は、全ての対)のそれぞれの野性型CYP21A2ハプロタイプの2つのコピーの尤度より高いことを決定することができ、その際、1つ以上のハプロタイプの第1のハプロタイプは、連続したCYP21A2/CYP21A1P識別塩基のCYP21A2塩基を含み、1つ以上のハプロタイプの第2のハプロタイプは、連続したCYP21A2/CYP21A1P識別塩基でCYP21A2塩基及びCYP21A1P塩基(又は、CYP21A1P塩基及びCYP21A2塩基)を含む。第1のハプロタイプは、連続するCYP21A2/CYP21A1P識別塩基にCYP21A2塩基を含み得る。第2のハプロタイプは、連続したCYP21A2/CYP21A1P識別塩基の間のCYP21A2塩基からCYP21A1P塩基への(又はCYP21A1P塩基からCYP21A2塩基への転換)を含み得る。連続したCYP21A2/CYP21A1P識別塩基は、連続したCYP21A2/CYP21A1P識別塩基が参照配列中の隣接塩基であるかどうかにかかわらず、複数のCYP21A2/CYP21A1P識別塩基内で連続している。コンピューティングシステムは、野生型CYP21A2ハプロタイプの1つのコピーの尤度が野生型CYP21A2ハプロタイプの2つのコピーの尤度よりも高いことを決定するために、連続したCYP21A2/CYP21A1P識別塩基の1つ以上の対(又は全ての対)のそれぞれについて決定された尤度を組み合わせる(例えば、平均化又は加重平均化する)ことができる。
【0138】
コンピューティングシステムは、(1)それぞれが連続するCYP21A2/CYP21A1P識別塩基においてCYP21A2塩基を含む第2の複数の配列リードの配列リードの数を所与として、連続するCYP21A2/CYP21A1P識別塩基の1つ以上の対(又は全ての対)のそれぞれについて、野生型CYP21A2ハプロタイプの1つのコピーの尤度が野生型CYP21A2ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、(2)連続するCYP21A2/CYP21A1P識別塩基でCYP21A2塩基及びCYP21A1P塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、並びに/又は(3)連続するCYP21A2/CYP21A1P識別塩基でCYP21A1P塩基及びCYP21A2塩基をそれぞれ含む第2の複数の配列リードの配列リードの数、を所与として、野性型CYP21A2ハプロタイプの1つのコピーの尤度が、連続するCYP21A2/CYP21A1P識別塩基の1つ以上の対(又は、全ての対)のそれぞれにおいて、野性型CYP21A2ハプロタイプの2つのコピーの尤度より高いことを決定することができる。コンピューティングシステムは、(4)それぞれが連続するCYP21A2/CYP21A1P区別塩基においてCYP21A1P塩基を含む第2の複数の配列リードの配列リードの数を所与として、連続するCYP21A2/CYP21A1P区別塩基の1つ以上の対(又は全ての対)のそれぞれについて、野生型CYP21A2ハプロタイプの1つのコピーの尤度が野生型CYP21A2ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0139】
野生型CYP21A2ハプロタイプのコピー数は1であり得る。コンピューティングシステムは、対象がCYP21A2変異体ハプロタイプのキャリアであることを決定することができる。1つ以上のハプロタイプは、4つのハプロタイプを含み得る。CYP21A2遺伝子及びCYP21A1P遺伝子の全コピー数は、4であることができる。4つのハプロタイプのそれぞれのコピー数は、1つ(例えば、野生型CYP21A2ハプロタイプの1つのコピー、CYP21A2変異体ハプロタイプの1つのコピー、CYP21A1P野生型ハプロタイプの1つのコピー、及び高い割合(80%、85%、90%、95%、又はそれ以上など)の識別塩基でCYP21A1P塩基を有するハプロタイプの1つのコピー)であり得、したがって、CYP21A2変異体ハプロタイプである可能性は低い/CYP21A1P変異体ハプロタイプである可能性が高い。コンピューティングシステムは、CYP21A2変異体ハプロタイプのキャリアとしての対象のCYP21A2状態を決定することができる。1つ以上のハプロタイプは、3つのハプロタイプを含み得る。CYP21A2遺伝子及びCYP21A1P遺伝子の全コピー数は、4であることができる。野生型CYP21A2ハプロタイプ、CYP21A2変異体ハプロタイプ、及びCYP21A1P野生型ハプロタイプ(又は80%、85%、90%、95%、又はそれ以上などの高い割合の識別塩基でCYP21A1P塩基を有するハプロタイプ)のコピー数は、それぞれ1、1、及び2であり得る。コンピューティングシステムは、対象がCYP21A2変異体ハプロタイプのキャリアであることを決定することができる。
【0140】
複合ヘテロ接合。1つ以上のハプロタイプは、2つ以上のハプロタイプを含み得る。2つ以上のハプロタイプのいずれも、複数のCYP21A2/CYP21A1P識別塩基のそれぞれにCYP21A2塩基を含み得ない。2つ以上のハプロタイプのいずれも、複数のCYP21A2/CYP21A1P識別塩基の全てにおいてCYP21A2塩基を含み得ない。2つ以上のハプロタイプのそれぞれは、複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上においてCYP21A1P塩基を含み得る。コンピューティングシステムは、対象がCYP21A2変異体ハプロタイプの複合ヘテロ接合であることを決定することができる。
【0141】
ホモ接合。1つ以上のハプロタイプは、CYP21A2/CYP21A1P識別塩基において、又は複数のCYP21A2/CYP21A1P識別塩基のうちの2つ以上のそれぞれにおいて、同一の塩基(例えば、CYP21A塩基又はCYP21A1P塩基)を含み得る。コンピューティングシステムは、対象が、複数のCYP21A2/CYP21A1P識別塩基のうちの1つ以上においてホモ接合である(例えば、野生型CYP21A1P遺伝子ハプロタイプについてホモ接合であるか、又はCYP21A2遺伝子変異体のホモ接合である)ことを決定することができる。
【0142】
1つ以上のハプロタイプは、1つのハプロタイプのみを含み得る。唯一のハプロタイプは、複数のCYP21A2/CYP21A1P識別塩基のうちの1つ、1つ若しくは複数、又はそれぞれにおいてCYP21A2塩基を含まなくてもよい。コンピューティングシステムは、対象がCYP21A2変異体ハプロタイプのホモ接合であることを決定することができる。例えば、複数のCYP21A2/CYP21A1P識別塩基に基づいて、コンピューティングシステムは、CYP21A2塩基のコピー数(CN)を決定することができる。CYP21A2塩基又はCYP21A1P遺伝子塩基を支持するリードの数、並びにCYP21A2遺伝子及びCYP21A1P遺伝子の総CNを使用して、CYP21A2塩基のCN及びCYP21A1P遺伝子塩基のCNの最も可能性の高い組み合わせを決定することができる。CYP21A2塩基のCNが0と決定される場合、これは、対象が野生型CYP21A2遺伝子ハプロタイプ(目的の識別塩基にCYP21A2遺伝子塩基を保有するハプロタイプ)のコピーを有さず、CYP21A2遺伝子変異体ハプロタイプについてホモ接合であることを示す。
【0143】
方法500は、ブロック528で終了する。
【0144】
遺伝子組換え変異体及び遺伝子変異体状態の決定
図6は、1つ以上の遺伝子組換え変異体又は遺伝子変異体状態を決定又は同定する例示的な方法600を示す流れ図である。方法600は、コンピューティングシステムの1つ以上のディスクドライブなどのコンピュータ可読媒体上に記憶された実行可能プログラム命令のセット内で具現化し得る。例えば、
図7に示され、以下でより詳細に説明されるコンピューティングシステム700は、方法600を実施するための実行可能プログラム命令のセットを実行することができる。方法600が開始された場合、実行可能プログラム命令は、RAMなどのメモリにロードされ、コンピューティングシステム700の1つ以上のプロセッサによって実行することができる。方法600は、
図7に示されるコンピューティングシステム700について説明されているが、説明は単なる例示であり、限定することを意図するものではない。いくつかの実施形態では、方法600又はその部分は、複数のコンピューティングシステムによって連続的に又は並列に実行され得る。
【0145】
方法600がブロック604で開始した後、方法600はブロック608に進み、コンピューティングシステム(
図7を参照して説明したコンピューティングシステム700など)は、第1の複数の配列リードを参照配列(例えば、hg19又はhg38などの参照ゲノム配列)にアライメントして、参照配列中の遺伝子又は遺伝子パラログ(又はそれらの間の領域)にアライメントされた第2の複数の配列リードを得る(参照配列中の遺伝子又は遺伝子パラログに対する第2の複数の配列リードのそれぞれのアライメントを含む)。コンピューティングシステムは、対象から得られた試料から生成された第1の複数の配列リードを受信することができる。コンピューティングシステムは、第1の複数の配列リードをメモリに記憶することができる。コンピューティングシステムは、第1の複数の配列リードをメモリにロードすることができる。配列リードは、合成による配列決定、結合による配列決定、又はライゲーションによる配列決定などの技術によって生成することができる。配列リードは、Illumina,Inc.(San Diego,CA)からのMINISEQ、MISEQ、NEXTSEQ、HISEQ、及びNOVASEQ配列決定機器などの機器を使用して生成することができる。
【0146】
配列リードは、例えば、それぞれ50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000又はそれ以上の塩基対(bps)の長さとすることができる。例えば、配列リードは、それぞれ約100塩基対~約1000塩基対の長さである。配列リードは、ペアエンド配列リードを含み得る。配列リードは、シングルエンド配列リードを含み得る。配列リードは、全ゲノム配列決定(WGS)によって生成することができる。WGSは、臨床WGS(cWGS)であることができる。試料は、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液試料、生検試料、又はそれらの組み合わせを含み得る。
【0147】
配列リードは、0以上のアライメント品質スコアで、参照配列中の遺伝子又は偽遺伝子にアライメントされ得る。配列リードは、約0のアライメント品質スコアで、参照配列中の遺伝子又は偽遺伝子にアライメントすることができる(例えば、遺伝子及び遺伝子パラログが高度に相同である領域に配列がアライメントされる場合)。コンピューティングシステムは、Burrows-Wheeler Aligner(BWA)、iSAAC、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP及びGSNAP、Geneious Assembler、LAST、MAQ、mrFAST及びmrsFAST、MOM、MOSAIK、MPscan、Novoaligh及びNovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3及びSOAP3-dp、SOCS、SSAHA及びSSAHA2、Stampy、SToRM、Subread及びSubjunc、Taipan、UGENE、VelociMapper、XpressAlign及びZOOMなどのアライナー又はアライメント方法を使用して、参照配列に配列リードをアライメントすることができる。
【0148】
遺伝子パラログは、遺伝子であることができる。遺伝子パラログは、偽遺伝子であることができる。遺伝子及び遺伝子パラログは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、又はそれ以上の配列同一性を有する。いくつかの実施形態では、遺伝子はGBA遺伝子であり、遺伝子パラログはGBAP1遺伝子である。遺伝子がGBA遺伝子であり、遺伝子パラログがGBAP1遺伝子である場合、コンピューティングシステムは、
図4を参照して説明した方法400(又は方法400の1つ以上のこと)を実行することができる。いくつかの実施形態では、遺伝子はCYP21A2遺伝子であり、遺伝子パラログはCYP21A1P偽遺伝子である。遺伝子がCYP21A2遺伝子であり、遺伝子パラログがCYP21A1P偽遺伝子である場合、コンピューティングシステムは、
図5を参照して説明した方法500(又は方法500の1つ以上のこと)を実行することができる。いくつかの実施形態では、遺伝子は、ABCC6、ABCD1、ACTB、ACTG1、ACTN4、ADAMTSL2、ADIPOR1、AFG3L2、AGK、ALG1、ALMS1、ANKRD11、ANOS1、AP4S1、ARMC4、ARSE、ASNS、ATAD3A、B3GAT3、BCAP31、BDP1、BMPR1A、BRAF、BRCA1、C2、CACNA1C、CALM1、CD46、CEP290、CFH、CFH、CFH、CHEK2、CISD2、CLCNKA、CLCNKB、CORO1A、COX10、CP、CRYBB2、CSF2RA、CUBN、CUBN、CYCS、CYP11B1、CYP21A2、DCLRE1C、DHFR、DICER1、DIS3L2、DNAH11、DNAH11、DNM1、DSE、DUOX2、EGLN1、ELK1、ELMO2、ERCC6、ESPN、EYS、F8、FANCD2、FANCD2、FAR1、FHL1、FLG、FLNC、FOXD4、FXN、GBA、GH1、GJA1、GK、GLUD1、GLUD1、GOSR2、GUSB、HBA1、HBA2、HNRNPA1、HPS1、HSPD1、HYDIN、IDS、IFT122、IGLL1、KANSL1、KCTD1、KIF1C、KRAS、KRT14、KRT16、KRT17、KRT6A、KRT6B、KRT6C、LEFTY2、LRP5、LRP5、MAT2A、MID1、MOCS1、MSN、MSX2、MYO5B、NCF1、NEB、NECAP1、NEFH、NF1、NF1、NF1、NOTCH2、NXF5、OCLN、OTOA、PARN、PBX1、PIGA、PIGN、PIK3CA、PIK3CD、PKD1、PKP2、PMS2、PMS2、PMS2、PNPT1、POLH、PRODH、PRODH、PROS1、PRPS1、PRSS1、PTEN、RAD21、RBM8A、RBPJ、RDX、RMND1、RNF216、RNF216、RPL15、SALL1、SBDS、SDHA、SHOX、SLC25A15、SLC25A15、SLC33A1、SLC6A8、SMN1、SMN2、SOX2、SPTLC1、SRD5A3、SRP72、STAT5B、STRC、SYT14、TARDBP、TBL1XR1、TBX20、TIMM8A、TPM3、TPMT、TRAPPC2、TRIP11、TTN、TUBA1A、TUBB2A、TUBB2B、TUBB3、TUBB4A、TUBG1、TYR、UBA5、UBE3A、UNC93B1、USP18、VPS35、VWF、WRN、XIAP、ZEB2、又はZNF341である。
【0149】
いくつかの実施形態では、コンピューティングシステムは、遺伝子又は遺伝子パラログ(又はそれらの間の領域)にアライメントされた配列リードの数を決定することができる。遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの数は、遺伝子若しくは遺伝子パラログ、又はそれらの間の領域にアライメントされた配列リードの正規化及び/又はGC補正された数を含む。
【0150】
コンピューティングシステムは、(1a)遺伝子又は遺伝子パラログにアライメントされた配列リードの深さ、(1b)ユニーク領域の長さ、(2a)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の複数の領域のそれぞれにアライメントされた第1の複数の配列リードの配列リードの深さ、並びに/又は(2b)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照の複数の領域のそれぞれの長さを使用して、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数を決定することができる。コンピューティングシステムは、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された補正された数を決定することができる。参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された、補正された数を決定するために、コンピューティングシステムは、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されGC含量を補正された数を決定することを含み得る。コンピューティングシステムは、(1)遺伝子又は遺伝子パラログのGC含量を使用して、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されたGC含量を補正された数を決定することができる。コンピューティングシステムは、(1)遺伝子若しくは遺伝子パラログのGC含量、並びに/又は(2)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の1つ以上の領域(又は遺伝子及び遺伝子パラログを含まない参照配列の1つ以上の領域)のそれぞれのGC含量を使用して、参照配列中の遺伝子若しくは遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子若しくは遺伝子パラログにアライメントされた配列リードの正規化されたGC含量を補正された数を決定することができる。例えば、コンピューティングシステムは、(1)遺伝子又は遺伝子パラログのGC含量、並びに(2)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の1つの領域のGC含量を使用して、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されたGC含量を補正された数を決定することができる。別の例として、コンピューティングシステムは、(1)遺伝子又は遺伝子パラログのGC含量、並びに(2)遺伝子及び遺伝子パラログを含む遺伝子座以外の参照配列の複数の領域(例えば、2、3、4、5、10、20、30、40、50、100、200、300、400、500、1000、2000、3000、4000、5000、10000、又はそれ以上の領域)のGC含量を使用して、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数から、参照配列中の遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化されたGC含量を補正された数を決定することができる。
【0151】
方法600は、ブロック608からブロック612に進み、ここで、コンピューティングシステムは、遺伝子又は遺伝子パラログにアライメントされた配列リードの数を所与として、それぞれが異なる整数コピー数を表す複数のガウスを含む混合ガウスモデルを使用して、遺伝子及び遺伝子パラログの全コピー数を決定する。コンピューティングシステムは、遺伝子又は遺伝子パラログにアライメントされた配列リードの数(例えば、正規化及び/又は補正された配列リードの数)を所与として、混合ガウスモデルを使用して遺伝子及び遺伝子パラログの全コピー数を決定することができる。
【0152】
全コピー数は、例えば、2、3、4、5、6、7、8、9、10又はそれ以上であることができる。混合ガウスモデルは、1次元混合ガウスモデルを含み得る。混合ガウスモデルの複数のガウスは、整数コピー数、例えば、0~5、0~6、0~7、0~8、0~9、0~10、0~11、0~12、0~13、0~14又は0~15を表すことができる。例えば、混合ガウスモデルの複数のガウスは、整数コピー数0~10を表すことができる。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数であることができる。複数のガウスのそれぞれの平均は、ガウスによって表される整数コピー数(例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、又はそれ以上のコピー数)であることができる。ガウスの標準偏差は、例えば0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1以上であることができる、又は約0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1以上であることができる。混合ガウスモデルの複数のガウスは、例えば、5、6、7、8、9、10、11、12、13、14、15、16、又はそれ以上のガウスを含み得る。例えば、混合ガウスモデルの複数のガウスは、5ガウスを含み得る。
【0153】
遺伝子及び遺伝子パラログの全コピー数を決定するために、コンピューティングシステムは、遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数を所与として、混合ガウスモデルを使用して遺伝子又は遺伝子パラログの間の領域のコピー数を決定することができる。遺伝子及び遺伝子パラログの全コピー数は、遺伝子又は遺伝子パラログの間の領域のコピー数に2を加えたものであることができる。
【0154】
コンピューティングシステムは、遺伝子又は遺伝子パラログにアライメントされた配列リードの正規化された数を所与として、混合ガウスモデル及び所定の事後確率閾値を使用して、遺伝子及び遺伝子パラログの全コピー数を決定することができる。所定の事後確率閾値は、0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99以上であることができる、又は約0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99以上であることができる。例えば、所定の事後確率閾値は、0.95である。
【0155】
方法600は、ブロック612からブロック616に進み、ここで、コンピューティングシステムは、複数の/遺伝子パラログ識別塩基(又は識別塩基の位置若しくは部位)を含む遺伝子(遺伝子の組換え変異体を含む)若しくは遺伝子パラログ、又は遺伝子の領域若しくは遺伝子パラログの対応する領域の、又はそれに由来する1つ以上のハプロタイプを、複数の遺伝子/遺伝子パラログ識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用してフェージングする。例えば、配列リードは、配列リードが遺伝子/遺伝子パラログ識別塩基(又は遺伝子/遺伝子パラログ識別塩基の部位)と重複するように、又は配列リードの塩基が遺伝子/遺伝子パラログ識別塩基(又は遺伝子/遺伝子パラログ識別塩基の部位)にアライメントされるように、参照配列にアライメントされることができる。配列リードは、第2の複数の配列リードの参照配列にアライメントすることができ、0以上のアライメント品質スコアを有する複数の遺伝子/遺伝子パラログ識別塩基を含む遺伝子の領域又は遺伝子パラログの対応する領域にアライメントすることができる。
【0156】
1つ以上のハプロタイプは、野生型遺伝子ハプロタイプ、野生型遺伝子パラログ、及び/又は遺伝子/遺伝子パラログハイブリッドハプロタイプを含み得る。遺伝子/遺伝子パラログハイブリッドハプロタイプは、遺伝子塩基及び遺伝子パラログ塩基の両方を含み得る。遺伝子/遺伝子パラログハイブリッドハプロタイプは、組換え変異体であり得る。遺伝子/遺伝子パラログハイブリッドハプロタイプは、遺伝子変異体ハプロタイプ又は遺伝子パラログ変異体ハプロタイプを含み得る。遺伝子組換え変異体は、相互組換え変異体を含み得る。遺伝子組換え変異体は、非相互的組換え変異体又は遺伝子変換変異体を含み得る。
【0157】
遺伝子又は遺伝子パラログに由来する1つ以上のハプロタイプをフェージングするために、コンピューティングシステムは、複数の遺伝子/遺伝子パラログ識別塩基を含む領域又は対応する領域にアライメントされた第2の複数の配列リードの配列リードを使用して、複数の遺伝子/遺伝子パラログ識別塩基の遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することができる。コンピューティングシステムは、複数の遺伝子/遺伝子パラログ識別塩基のうちの2つ以上にそれぞれアライメントされた第2の複数の配列リードの配列リードを使用して、遺伝子又は遺伝子パラログに由来する1つ以上のハプロタイプをフェージングすることができる。例えば、
図1を参照すると、図に示される遺伝子A及び遺伝子Bがそれぞれ遺伝子又は遺伝子パラログであると仮定すると、部位1及び部位4をカバーする1つのリード対は、そのリード対が由来するハプロタイプ(ハプロタイプx)が部位1の遺伝子塩基及び部位4の遺伝子塩基を有することを示すことができる。部位3及び部位5をカバーする1つのリード対は、リード対が由来するハプロタイプ(ハプロタイプy)が部位3に遺伝子塩基を有し、部位5に遺伝子パラログ塩基を有することを示すことができる。部位4及び部位5をカバーする1つのリードは、リードが由来するハプロタイプ(ハプロタイプy)が部位4に遺伝子塩基を有し、部位5に遺伝子パラログ塩基を有することを示すことができる。コーラーは、5つの信頼できる塩基の違いにより、領域中の遺伝子又は遺伝子パラログのいずれかに由来する又は遺伝子パラログのいずれかに由来する全てのハプロタイプをフェージングし、遺伝子(ハプロタイプ1)及び遺伝子パラログ(ハプロタイプ2)のハプロタイプ並びにハイブリッドハプロタイプ(ハプロタイプ3及び4)を同定することができる。ハプロタイプの数、部位におけるハプロタイプの塩基、部位の数、及び部位(例えば、部位1及び4、又は部位3及び5)配列リードカバーは、説明のためだけに
図1に示されており、限定することを意図していない。
【0158】
方法600は、ブロック616からブロック620に進み、ここで、コンピューティングシステムは、遺伝子及び遺伝子パラログの全コピー数、並びにハプロタイプを支持する複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を使用して、1つ以上のハプロタイプのそれぞれのコピー数を決定する。ハプロタイプのコピー数は、例えば、1、2、3、4又はそれ以上であり得る。コンピューティングシステムは、遺伝子若しくは遺伝子パラログに由来する1つ以上のハプロタイプ、又は遺伝子の領域若しくは遺伝子パラログの対応する領域、及び/又は1つ以上のハプロタイプのそれぞれのコピー数を使用して、対象の遺伝子変異体状態(例えば、キャリア、複合ヘテロ接合、又はホモ接合)を決定することができる。コンピューティングシステムは、遺伝子変異体状態を表す又は含むUI要素を含む、グラフィカルユーザインターフェースなどのユーザインターフェース(UI)を生成することができる。UIは、UI要素の一部として遺伝子変異体の状態を含み得る。UI要素は、ウィンドウ(例えば、コンテナウィンドウ、ブラウザウィンドウ、テキスト端末、子ウィンドウ、又はメッセージウィンドウ)、メニュー(例えば、メニューバー、コンテキストメニュー、又はメニューエキストラ)、アイコン、又はタブであり得る。UI要素は、入力制御(例えば、チェックボックス、ラジオボタン、ドロップダウンリスト、リストボックス、ボタン、トグル、テキストフィールド、又は日付フィールド)のためのものであり得る。UI要素は、ナビゲーション(例えば、ブレッドクラム、スライダ、検索フィールド、ページ付け、スライダ、タグ、アイコン)であり得る。UI要素は、情報を提供することができる(例えば、ツールチップ、アイコン、プログレスバー、通知、メッセージボックス、又はモーダルウィンドウ)。UI要素は、コンテナ(例えば、アコーディオン)であり得る。
【0159】
キャリア。1つ以上のハプロタイプのそれぞれのコピー数を決定するために、コンピューティングシステムは、野生型遺伝子ハプロタイプを支持する複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上をそれぞれ含む第2の複数の配列リードの配列リードの数を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、1つ、1つ若しくは複数(例えば、2つ、3つ、若しくは4つ)、又は1つ以上のハプロタイプのそれぞれについて(例えば、それらの配列リードを使用して)、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度より高いことを決定することができる。尤度差は、例えば、1%、2%、3%、5%、10%、15%、20%、又はそれ以上であり得る。コンピューティングシステムは、野生型遺伝子ハプロタイプのコピー数が1であると決定することができる。野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高い場合、野生型遺伝子ハプロタイプのコピー数は1であり得る。
【0160】
いくつかの実施形態では、コンピューティングシステムは、1つ以上のハプロタイプの第1のハプロタイプが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基を含み、1つ以上のハプロタイプの第2のハプロタイプが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基及び遺伝子パラログ塩基(又は遺伝子パラログ塩基及び遺伝子塩基)を含む、複数の遺伝子/遺伝子パラログ識別塩基の連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対(又は全ての対)のそれぞれについて、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0161】
第1のハプロタイプは、連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基を含み得る。第2のハプロタイプは、連続する遺伝子/遺伝子パラログ識別塩基間に、遺伝子塩基から遺伝子パラログ塩基への(又は遺伝子パラログ塩基から遺伝子塩基への)トランジションを含み得る。連続した遺伝子/遺伝子パラログ識別塩基は、連続した遺伝子/遺伝子パラログ識別塩基が参照配列中の隣接塩基であるかどうかにかかわらず、複数の遺伝子/遺伝子パラログ識別塩基内で連続している。例えば、以下の実施例における部位2及び部位3(又は識別塩基の位置)における遺伝子/遺伝子パラログ識別塩基は、連続する遺伝子/遺伝子パラログ識別塩基が参照配列において隣接する塩基であるかどうかにかかわらず、連続する遺伝子/遺伝子パラログ識別塩基である。コンピューティングシステムは、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定するために、連続した遺伝子/遺伝子パラログ識別塩基の1つ以上の対(又は全ての対)のそれぞれについて決定された尤度を組み合わせる(例えば、平均化又は加重平均化する)ことができる。野生型遺伝子ハプロタイプの1つのコピーの尤度は、連続した遺伝子/遺伝子パラログ識別塩基の1つ以上の対のそれぞれについて決定された野生型遺伝子ハプロタイプの1つのコピーの尤度の合計を含み得る。野生型遺伝子ハプロタイプの2つのコピーの尤度は、連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対のそれぞれについて決定された野生型遺伝子ハプロタイプの2つのコピーの尤度の合計を含み得る。
【0162】
コンピューティングシステムは、(1)それぞれが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基を含む第2の複数の配列リードの配列リードの数を所与として、連続する遺伝子/遺伝子パラログ識別塩基の1つ以上(又は全て)の対について、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、(2)それぞれが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基及び遺伝子パラログ塩基を含む第2の複数の配列リードの配列リードの数、並びに/又はそれぞれが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基及び遺伝子塩基を含む第2の複数の配列リードの配列リードの数を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が、連続する遺伝子/遺伝子パラログ識別塩基の1つ以上(又は全て)の対について野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。いくつかの実施形態では、コンピューティングシステムは、(4)それぞれが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子パラログ塩基を含む第2の複数の配列リードの配列リードの数を所与として、連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対(又は全ての対)のそれぞれについて、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0163】
例えば、遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することによって、以下のハプロタイプ(例示目的のみのために6つの部位で)が対象について決定され得る。
【0164】
【表11】
遺伝子塩基から遺伝子パラログ塩基への転換は、ハプロタイプ2について部位2と部位3との間で起こる。例えば、部位2及び部位3に遺伝子塩基を有するリードの数は103であり、部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数は99であり、部位2及び部位3に遺伝子パラログ塩基を有するリードの数は210である。コンピューティングシステムは、部位2及び部位3に遺伝子塩基を有するリードの数が103であり、部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数が99である場合、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いと決定することができる。コンピューティングシステムは、野生型遺伝子パラログハプロタイプからのリードを使用することなく、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0165】
例を続けると、遺伝子塩基から遺伝子パラログ塩基への転換は、ハプロタイプ2について部位3と部位4との間で起こる。例えば、部位3及び部位4に遺伝子塩基を有するリードの数は100であり、部位3に遺伝子パラログ塩基及び部位4にパラログ塩基を有するリードの数は99であり、部位3及び部位4に遺伝子パラログ塩基を有するリードの数は190である。コンピューティングシステムは、部位3及び部位4に遺伝子塩基を有するリードの数が100であり、部位3に遺伝子パラログ塩基及び部位4に遺伝子塩基を有するリードの数が99である場合、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いと決定することができる。コンピューティングシステムは、野生型遺伝子パラログハプロタイプからのリードを使用することなく、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0166】
いくつかの実施形態では、コンピューティングシステムは、(1)部位2及び部位3に遺伝子塩基を有するリードの数、並びに部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数を考慮して決定された野生型遺伝子ハプロタイプの1つのコピーの尤度が、野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いこと、並びに(2)部位3及び部位4に遺伝子塩基を有するリードの数、並びに部位3に遺伝子パラログ塩基及び部位4に遺伝子塩基を有するリードの数を考慮して決定された野生型遺伝子ハプロタイプの1つのコピーの尤度が、野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを組み合わせる(例えば、平均化又は加重平均化する)ことによって、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。
【0167】
いくつかの実施形態では、コンピューティングシステムは、(1)1つ以上のハプロタイプのうちの第1のハプロタイプが連続する遺伝子/遺伝子パラログ識別塩基における遺伝子塩基を含む複数の遺伝子/遺伝子パラログ識別塩基の連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対(又は全ての対)のそれぞれについての配列リードの総数を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いと決定することができる。コンピューティングシステムは、(2)1つ以上のハプロタイプの第2のハプロタイプが、連続する遺伝子/遺伝子パラログ識別塩基において遺伝子塩基及び遺伝子パラログ塩基(又は遺伝子パラログ塩基及び遺伝子塩基)を含む複数の遺伝子/遺伝子パラログ識別塩基の連続する遺伝子/遺伝子パラログ識別塩基の1つ以上の対(又は全ての対)のそれぞれについての配列リードの総数に基づいて、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度より高いことを決定することができる。上記の例において、コンピューティングシステムは、(1)部位2及び部位3に遺伝子塩基を有するリード並びに部位3及び部位4に遺伝子塩基を有するリードの総数、並びに(2)部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリード並びに部位3に遺伝子パラログ塩基及び部位4に遺伝子塩基を有するリードの数を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いと決定することができる。
【0168】
例えば、遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することによって、以下のハプロタイプ(例示目的のみのために、識別塩基の6つの塩基又は部位又は位置において)が対象について決定され得る。
【0169】
【表12】
遺伝子塩基から遺伝子パラログ塩基への転換は、ハプロタイプ2について部位2と部位3との間で起こる。例えば、部位2及び3に遺伝子塩基を有するリードの数は103であり、部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数は99であり、部位2に遺伝子パラログ塩基及び部位3に遺伝子塩基を有するリードの数は90であり、部位2及び部位3に遺伝子パラログ塩基を有するリードの数は104である。コンピューティングシステムは、部位2及び部位3に遺伝子塩基を有するリードの数が103であり、部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数が99である場合、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いと決定することができる。コンピューティングシステムは、野生型遺伝子パラログハプロタイプからのリードを使用することなく、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、部位2の遺伝子パラログ塩基及び部位3の遺伝子塩基を有するリードを使用せずに、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度よりも高いことを決定することができるが、なぜなら、そのハプロタイプ(ハプロタイプ3)は、区別する塩基の部位/位置にほとんど遺伝子パラログ塩基を有し、したがって、遺伝子変異体ハプロタイプである可能性が低い/遺伝子パラログ変異体ハプロタイプである可能性が高いからである。
【0170】
野生型遺伝子ハプロタイプのコピー数は1であり得る。コンピューティングシステムは、対象が遺伝子変異体ハプロタイプのキャリアであることを決定することができる。1つ以上のハプロタイプは、4つのハプロタイプ(例えば、野生型遺伝子ハプロタイプの1つのコピー、遺伝子変異体ハプロタイプの1つのコピー、遺伝子パラログ野生型ハプロタイプの1つのコピー、及び高い割合(80%、85%、90%、95%、又はそれ以上など)の識別塩基で遺伝子パラログ塩基を有するハプロタイプの1つのコピー)を含み得、したがって、遺伝子変異体ハプロタイプである可能性は低い/遺伝子パラログ変異体ハプロタイプである可能性が高い。遺伝子及び遺伝子パラログの全コピー数は、4であることができる。4つのハプロタイプのそれぞれのコピー数は、1であることができる。コンピューティングシステムは、遺伝子変異体ハプロタイプのキャリアとしての対象の遺伝子変異体状態を決定することができる。例えば、遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することによって、以下のハプロタイプ(例示目的のみのために6つの部位で)が対象について決定され得る。
【0171】
【表13】
コンピューティングシステムは、部位2及び部位3における遺伝子塩基を有するリードの数(ハプロタイプ1)、並びに部位2における遺伝子塩基及び部位3における遺伝子パラログ塩基を有するリードの数(ハプロタイプ2)を所与として、部位2及び部位3における野生型遺伝子ハプロタイプ塩基の1つのコピーの尤度が、部位2及び部位3における野生型遺伝子塩基の2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、部位4及び部位5における遺伝子塩基を有するリードの数(ハプロタイプ1)並びに部位4における遺伝子パラログ塩基及び部位5における遺伝子塩基を有するリードの数(ハプロタイプ2)を所与として、部位4及び部位5における野生型遺伝子ハプロタイプ塩基の1つのコピーの尤度が部位4及び部位5における野生型遺伝子塩基の2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、部位2及び部位3に遺伝子塩基を有するリードの数(ハプロタイプ1)並びに部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数(ハプロタイプ2)、並びに/又は部位4及び部位5に遺伝子塩基を有するリードの数(ハプロタイプ1)並びに部位4に遺伝子パラログ塩基及び部位5に遺伝子塩基を有するリードの数(ハプロタイプ2)を所与として、野生型遺伝子ハプロタイプの1つのコピーの可能性が野生型遺伝子ハプロタイプの2つのコピーの可能性よりも高いことを決定することができる。対象は、野生型遺伝子ハプロタイプの1コピー及び遺伝子変異体ハプロタイプの1コピー(及び野生型遺伝子パラログハプロタイプの1コピー、及び識別塩基の部位/位置にほとんど遺伝子パラログ塩基を有するハプロタイプの1コピー、したがって遺伝子変異体ハプロタイプである可能性が低い/遺伝子パラログ変異体ハプロタイプである可能性が高い)を有するため、対象は遺伝子変異体ハプロタイプのキャリアである。
【0172】
1つ以上のハプロタイプは、3つのハプロタイプを含み得る。遺伝子及び遺伝子パラログ遺伝子の全コピー数は4であり得る。野生型遺伝子ハプロタイプ、遺伝子変異体ハプロタイプ、及び野生型遺伝子パラログハプロタイプ(又は、80%、85%、90%、95%、又はそれ以上など、高い割合の識別塩基で遺伝子パラログ塩基を有するハプロタイプ)のコピー数は、それぞれ1、1、及び2であり得る。コンピューティングシステムは、遺伝子変異体ハプロタイプのキャリアとしての対象の遺伝子状態を決定することができる。例えば、遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することによって、以下のハプロタイプ(例示目的のみのために6つの部位で)が対象について決定され得る。
【0173】
【表14】
コンピューティングシステムは、部位2及び部位3における遺伝子塩基を有するリードの数(ハプロタイプ1)、並びに部位2における遺伝子塩基及び部位3における遺伝子パラログ塩基を有するリードの数(ハプロタイプ2)を所与として、部位2及び部位3における野生型遺伝子ハプロタイプ塩基の1つのコピーの尤度が、部位2及び部位3における野生型遺伝子塩基の2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、部位4及び部位5における遺伝子塩基を有するリードの数(ハプロタイプ1)並びに部位4における遺伝子パラログ塩基及び部位5における遺伝子塩基を有するリードの数(ハプロタイプ2)を所与として、部位4及び部位5における野生型遺伝子ハプロタイプ塩基の1つのコピーの尤度が部位4及び部位5における野生型遺伝子塩基の2つのコピーの尤度よりも高いことを決定することができる。コンピューティングシステムは、部位2及び部位3に遺伝子塩基を有するリードの数(ハプロタイプ1)、並びに部位2に遺伝子塩基及び部位3に遺伝子パラログ塩基を有するリードの数(ハプロタイプ2)、並びに/又は部位4及び部位5に遺伝子塩基を有するリードの数(ハプロタイプ1)、並びに部位4に遺伝子パラログ塩基及び部位5に遺伝子塩基を有するリードの数(ハプロタイプ2)を所与として、野生型遺伝子ハプロタイプの1つのコピーの尤度が野生型遺伝子ハプロタイプの2つのコピーの尤度より高いことを決定することができる。対象は1つのコピーの野生型遺伝子ハプロタイプ及び1つのコピーの遺伝子変異体ハプロタイプを有するため、対象は、遺伝子変異体ハプロタイプのキャリアである。
【0174】
複合ヘテロ接合。1つ以上のハプロタイプは、2つ以上のハプロタイプを含み得る。2つ以上のハプロタイプのいずれも、複数の遺伝子/遺伝子パラログ識別塩基のそれぞれに遺伝子塩基を含み得ない。2つ以上のハプロタイプのそれぞれは、複数の遺伝子/遺伝子パラログ識別塩基の全てにおいて遺伝子塩基を含み得ない。2つ以上のハプロタイプのそれぞれは、複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上において遺伝子パラログ塩基を含み得る。コンピューティングシステムは、対象が遺伝子変異体ハプロタイプの複合ヘテロ接合であることを決定することができる。例えば、遺伝子/遺伝子パラログ識別塩基間の連鎖情報を分析することによって、以下のハプロタイプ(例示目的のみのために6つの部位で)が対象について決定され得る。
【0175】
【表15】
対象は野生型遺伝子ハプロタイプのいかなるコピーも有さず、2つの遺伝子変異体ハプロタイプのそれぞれの1つのコピーを有するため、対象は、遺伝子変異体ハプロタイプの複合ヘテロ接合である。
【0176】
ホモ接合。1つ以上のハプロタイプは、遺伝子/遺伝子パラログ識別塩基において、又は複数の遺伝子/遺伝子パラログ識別塩基のうちの2つ以上のそれぞれにおいて、同一の塩基(例えば、遺伝子塩基又は遺伝子パラログ塩基)を含み得る。コンピューティングシステムは、複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ以上において、対象がホモ接合(例えば、野生型遺伝子パラログハプロタイプについてホモ接合又は遺伝子変異体ハプロタイプについてホモ接合)であると決定することができる。
【0177】
1つ以上のハプロタイプは、1つのハプロタイプのみを含み得る。唯一のハプロタイプは、複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ、1つ若しくは複数、又はそれぞれにおいて遺伝子塩基を含み得ない。唯一のハプロタイプは、複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ、1つ若しくは複数、又はそれぞれにおいて遺伝子パラログ塩基を含み得る。コンピューティングシステムは、対象が、複数の遺伝子/遺伝子パラログ識別塩基のうちの1つ、1つ若しくは複数、又はそれぞれにおいて遺伝子変異体ハプロタイプのホモ接合であることを決定することができる。例えば、複数の遺伝子/遺伝子パラログ識別塩基に基づいて、コンピューティングシステムは、遺伝子塩基のコピー数(CN)を決定することができる。遺伝子塩基又は遺伝子パラログ塩基を支持するリードの数、並びに遺伝子及び遺伝子パラログの総CNを使用して、遺伝子塩基のCN及び遺伝子パラログ塩基のCNの最も可能性の高い組み合わせを決定することができる。遺伝子塩基のCNが0と決定される場合、これは、対象が野生型遺伝子ハプロタイプ(目的の改変部位に遺伝子A塩基を保有するハプロタイプ)のコピーを有さず、遺伝子変異体ハプロタイプについてホモ接合であることを示す。
【0178】
方法600は、ブロック624で終了する。
【0179】
実行環境
図7は、1つ以上の遺伝子組換え変異体(例えば、GBA変異体、CYP21A2変異体)又は遺伝子変異体状態(例えば、キャリア、複合ヘテロ接合、又はホモ接合)を決定又は識別するように構成された例示的なコンピューティングデバイス700の一般的なアーキテクチャを示す。
図7に示されるコンピューティングデバイス700の全般的な構築は、コンピュータハードウェア及びソフトウェア構成要素の構成を含む。コンピューティングデバイス700は、
図7に示されるものより多くの(又はより少ない)要素を含んでもよい。しかしながら、これらの全般的な従来の要素の全てが、有効な開示を提供するために示される必要はない。図示されるように、コンピューティングデバイス700は、処理ユニット710、ネットワークインターフェース720、コンピュータ可読媒体ドライブ730、入力/出力デバイスインターフェース740、ディスプレイ750、及び入力デバイス760を含み、これらの全ては、通信バスを介して互いに通信することができる。ネットワークインターフェース720は、1つ以上のネットワーク又はコンピューティングシステムに接続性を提供し得る。処理ユニット710は、したがって、ネットワークを介してその他のコンピューティングシステム又はサービスから情報及び命令を受信し得る。処理ユニット710はまた、メモリ770と通信し、入力/出力デバイスインターフェース740を介して任意選択のディスプレイ750の出力情報を更に提供し得る。入力/出力デバイスインターフェース740はまた、キーボード、マウス、デジタルペン、マイクロフォン、タッチスクリーン、ジェスチャ認識システム、音声認識システム、ゲームパッド、加速度計、ジャイロスコープ、又はその他の入力デバイスなどの、任意の入力デバイス760からの入力を受信し得る。
【0180】
メモリ770は、1つ以上の実施形態を実施するために処理ユニット710が実行するコンピュータプログラム命令(いくつかの実施形態ではモジュール又は構成要素としてグループ化される)を含み得る。メモリ770は、全般的に、RAM、ROM、及び/又はその他の永続的、補助的若しくは非一時的コンピュータ可読媒体を備える。メモリ770は、コンピューティングデバイス700の全般的な管理及び動作において、処理ユニット710によって使用するためのコンピュータプログラム命令を提供する動作システム772を記憶し得る。メモリ770は、本開示の態様を実施するためのコンピュータプログラム命令及びその他の情報を更に備え得る。
【0181】
例えば、一実施形態では、メモリ770は、
図4を参照して説明した方法400、
図5を参照して説明した方法500、又は
図6を参照して説明した方法600などの、1つ以上の遺伝子組換え変異体又は遺伝子変異体状態(例えば、キャリア、複合ヘテロ接合、又はホモ接合)を決定又は識別するための遺伝子変異体又は遺伝子変異体状態決定モジュール774を含む。加えて、メモリ770は、データストア790、及び/又は処理された配列リード、決定されたリードカウント、混合ガウスモデル、決定された組換え変異体、決定された組換え変異体のコピー数、若しくは決定された遺伝子変異体状態を記憶する1つ以上の他のデータストアを含み得るか、又はそれらと通信し得る。
【0182】
追加の考慮
前述の実施形態のうちの少なくともいくつかにおいて、一実施形態で使用される1以上の要素は、このような交換が技術的に実行可能でない場合を除いて、別の実施形態で互換的に使用することができる。当業者であれば、特許請求される主題の範囲から逸脱することなく、上記の方法及び構造に、種々のその他の省略、追加、及び修正がなされてもよいことを理解するであろう。このような修正及び変更は全て、添付の特許請求の範囲によって定義されるように、主題の範囲内に含まれることが意図される。
【0183】
当業者であれば、本明細書に開示される本プロセス及びその他のプロセス並びに方法について、プロセス及び方法において実行される機能が、異なる順序で実施され得ることを理解するであろう。更に、概説された工程及び動作は、例としてのみ提供され、工程及び動作の一部は任意選択であることができ、より少ない工程及び動作に組み合わされることができる、又は、開示される実施形態の本質を損なうことなく、追加の工程及び動作に拡大することができる。
【0184】
本明細書における実質的に任意の複数形及び/又は単数形の用語の使用について、当業者は、文脈及び/又は用途に適切なように、複数形から単数形に、及び/又は単数形から複数形に置き換えることができる。明確性のために、種々の単数形/複数形の順列が本明細書に明示的に記載されてもよい。本明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、文脈がそうでない旨を明確に指示しない限り、複数の指示対象を含む。したがって、「~するように構成されたデバイス(device configured to)」などの語句は、1つ以上の列挙されたデバイスを含むことが意図されている。このような1つ以上の列挙されたデバイスはまた、記載された詳細説明を実行するように集合的に構成され得る。例えば、「詳細説明A、B、及びCを実行するように構成されたプロセッサ」は、詳細説明Aを実行し、かつ詳細説明B及びCを実行するように構成された第2のプロセッサと関連して動作を行うように構成された、第1のプロセッサを含むことができる。本明細書における「又は」への任意の言及は、特に指示しない限り、「及び/又は」を包含することを意図する。
【0185】
全般的に、本明細書で使用される用語、特に添付の特許請求の範囲(例えば、添付の特許請求の範囲の本文)で使用される用語は、全般的に「オープン」ターム(open terms)として意図されることが当業者には理解されるであろう(例えば、用語「含む(including)」は「~を含むがこれらに限定されない(including but not limited to)」と解釈されるべきであり、用語「有する(having)」は「少なくとも有する(having at least)」と解釈されるべきであり、用語「含む(includes)」は「~を含むがこれらに限定するものではない(includes but is not limited to)」と解釈されるべきであるなど)。導入された請求項記載の具体的な数が意図されている場合、このような意図が請求項に明示的に列挙され、このような記載がない場合、このような意図は存在しないことも、当業者には更に理解されるであろう。例えば、理解を助けるために、以下の添付の特許請求の範囲は、請求項の記載を導入するための導入句「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」の使用を含んでもよい。しかしながら、このような語句の使用は、同じ請求項が、「1以上の」又は「少なくとも1つの」、及び「a」若しくは「an」などの不定冠詞を含む(例えば、「a」及び/又は「an」が、「少なくとも1つの」又は「1以上の」の意味に解釈されるべきである)場合であっても、不定冠詞「a」又は「an」による請求項記載の導入が、このような導入された請求項記載を含む任意の特定の請求項を、このような記載のうちの1つのみを含む実施形態に限定するものと解釈すべきではなく、請求項記載を導入するために使用される不定冠詞の使用についても同じく当てはまる。更に、導入された請求項記載の具体的な数が明示的に列挙されている場合であっても、このような記載が、少なくとも列挙された数の意味(例えば、「2つの記載」の無修飾の記載は、その他の修飾がないと、少なくとも2つの記載又は2つ以上の記載を意味する)で解釈されるべきであることを、当業者は認識するであろう。更に、「A、B、及びCなどのうちの少なくとも1つ」と類似した常套句が使用される場合には、全般的に、このような構造は、当業者がこの常套句を理解するであろう意味において意図される(例えば、「A、B、及びCのうちの少なくとも1つを有するシステム」としては、Aのみ、Bのみ、Cのみ、A及びBともに、A及びCともに、B及びCともに、並びに/又はA、B、及びCともに、などを有するシステムが挙げられるが、これらに限定されない)。「A、B、又はCなどのうちの少なくとも1つ」と類似した常套句が使用される場合には、全般的に、このような構造は、当業者がこの常套句を理解するであろう意味において意図される(例えば、「A、B、又はCのうちの少なくとも1つを有するシステム」としては、Aのみ、Bのみ、Cのみ、A及びBともに、A及びCともに、B及びCともに、並びに/又はA、B、及びCともに、などを有するシステムが挙げられるが、これらに限定されない)。本明細書、特許請求の範囲、又は図面にかかわらず、2つ以上の代替用語を提示する実質上任意の離接語及び/又は語句は、用語のうちの1つ、用語のいずれか、又は両方の用語を含む可能性を企図することが理解されるべきであると、当業者には更に理解されるであろう。例えば、語句「A又はB」は、「A」又は「B」又は「A及びB」の可能性を含むと理解されるであろう。
【0186】
加えて、本開示の特徴又は態様がマーカッシュ群の観点で記載されている場合、それによって、当業者は、本開示がまた、マーカッシュ群の構成要素の任意の個々の構成要素又はサブグループの観点でも記載されていることを認識するであろう。
【0187】
当業者には理解されるように、書面による説明を提供するという観点からなどの任意の及び全ての目的において、本明細書に開示される全ての範囲はまた、任意の及び全ての可能なサブ範囲並びにそれらのサブ範囲の組み合わせも包含する。任意の列挙された範囲は、同じ範囲が、少なくとも等半分、3分の1、4分の1、5分の1、10分の1などに分解されることを十分に記載し可能にするものとして容易に認識することができる。非限定的実施例として、本明細書で説明される各範囲は、下部3分の1、中部3分の1、及び上部3分の1などに容易に分解することができる。また、当業者には理解されるように、「最大で(up to)」、「少なくとも(at least)」、「より大きい(greater than)」、「より小さい(less than)」などの全ての言語は、列挙された数を含み、続いて上述のように下位範囲に分解され得る範囲を指す。最後に、当業者には理解されるように、範囲は、各個々の構成要素を含む。したがって、例えば、1~3個の物品を有する群は、1個、2個、又は3個の物品を有する群を意味する。同様に、1~5個の物品を有する群は、1個、2個、3個、4個、又は5個の物品を有する群などを意味する。
【0188】
本開示の種々の実施形態が例示目的で本明細書に記載されており、本開示の範囲及び趣旨から逸脱することなく種々の修正がなされ得ることが理解されるであろう。したがって、本明細書に開示される種々の実施形態は、以下の特許請求の範囲によって示される真の範囲及び趣旨を限定することを意図するものではない。
【0189】
全ての目的又は利点が、本明細書に記載される任意の特定の実施形態に従って必ずしも達成され得る必要性がないことを理解されたい。したがって、例えば、当業者であれば、特定の実施形態が、本明細書で教示又は示唆され得るその他の目的若しくは利点を必ずしも達成することなく、本明細書で教示されるような利点若しくは利点の群を達成又は最適化する方法で動作するように構成され得ることを、認識するであろう。
【0190】
本明細書に記載されるプロセスの全ては、1つ以上のコンピュータ又はプロセッサを含むコンピューティングシステムによって実行されるソフトウェアコードモジュール内に具現化され得、またそれを介して完全に自動化され得る。コードモジュールは、任意の種類の非一過性コンピュータ可読媒体又はその他のコンピュータ記憶デバイスに記憶されてもよい。いくつかの又は全ての方法は、専用のコンピュータハードウェアで具現化されてもよい。
【0191】
本明細書に記載されるもの以外の多くのその他の変形形態が、本開示から明らかとなるであろう。例えば、実施形態に応じて、本明細書に記載されるアルゴリズムのうちのいずれかの特定の行為、事象、又は機能を、異なる順序で実行することができ、追加し、統合し、又は全体を省略することができる(例えば、アルゴリズムの実施には全ての記載された行為又は事象が必要ではない)。更に、特定の実施形態では、行為又は事象は、逐次的ではなく、例えば、マルチスレッド処理、割り込み処理、又は複数のプロセッサ若しくはプロセッサコアを介して、又はその他の平行体系上で、同時に実行することができる。加えて、異なるタスク又はプロセスは、互いに機能することができる異なる機械装置及び/又はコンピューティングシステムによって実行することができる。
【0192】
本明細書に開示される実施形態に関連して説明される種々の例示的な論理ブロック及びモジュールは、処理ユニット若しくはプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はその他のプログラム可能な論理デバイス、別個のゲート若しくはトランジスタ論理、別個のハードウェア構成要素、又は本明細書に記載される機能を実行するように設計されたそれらの任意の組み合わせなどの機械装置によって、実装又は実行され得る。プロセッサはマイクロプロセッサであってもよいが、代替的に、プロセッサは、コントローラ、マイクロコントローラ、又はステートマシン、それらの組み合わせなどであってもよい。プロセッサは、コンピュータ実行可能命令を処理するように構成された電気回路を含むことができる。別の実施形態では、プロセッサは、コンピュータ実行可能命令を処理することなく論理動作を実行する、FPGA又はその他のプログラマブルデバイスを含む。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアに関連した1つ以上のマイクロプロセッサ、又は任意のその他のこのような構成の組み合わせとして実装することもできる。本明細書では主としてデジタル技術について記載されているが、プロセッサはまた、主にアナログ構成要素を含んでもよい。例えば、本明細書に記載の信号処理アルゴリズムの一部又は全ては、アナログ回路又は混合アナログ回路及びデジタル回路に実装されてもよい。コンピューティング環境は、少数例を挙げると、マイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、ポータブルコンピューティングデバイス、デバイスコントローラ、又は機器内のコンピューティングエンジンに基づくコンピュータシステムを含むが、これらに限定されない、任意の種類のコンピュータシステムを含むことができる。
【0193】
本明細書に記載され、かつ/又は添付の図面に示されるフロー図における任意のプロセス説明、要素又はブロックは、プロセスにおいて特定の論理関数又は要素を実施するための1つ以上の実行可能な命令を含むモジュール、セグメント、又はコードの部分を潜在的に表すものとして、理解されるべきである。交互実施形態は本明細書に記載される実施形態の範囲内に含まれ、当業者には理解されるように、関与する機能に応じて、要素又は機能を削除し、実質的に同時に又は逆の順序を含む図示された又は考察されたものからの順序から除外してもよい。
【0194】
上述の実施形態に多くの変形及び修正がなされてもよく、その要素は、その他の許容可能な例の中にあるものとして理解されるべきであることを強調するべきである。このような修正及び変形は全て、本明細書で本開示の範囲内に含まれ、以下の特許請求の範囲によって保護されることが意図される。
【国際調査報告】