特許第6374532号(P6374532)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人東北大学の特許一覧

特許6374532特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6374532
(24)【登録日】2018年7月27日
(45)【発行日】2018年8月15日
(54)【発明の名称】特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
(51)【国際特許分類】
   G06F 19/18 20110101AFI20180806BHJP
   G06F 19/24 20110101ALI20180806BHJP
【FI】
   G06F19/18
   G06F19/24
【請求項の数】34
【全頁数】56
(21)【出願番号】特願2016-566499(P2016-566499)
(86)(22)【出願日】2015年12月25日
(86)【国際出願番号】JP2015086194
(87)【国際公開番号】WO2016104688
(87)【国際公開日】20160630
【審査請求日】2017年3月29日
(31)【優先権主張番号】特願2014-265704(P2014-265704)
(32)【優先日】2014年12月26日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100103160
【弁理士】
【氏名又は名称】志村 光春
(72)【発明者】
【氏名】長崎 正朗
(72)【発明者】
【氏名】成相 直樹
(72)【発明者】
【氏名】小島 要
【審査官】 関 博文
(56)【参考文献】
【文献】 特表2014−502845(JP,A)
【文献】 特表2014−533858(JP,A)
【文献】 特表2014−507133(JP,A)
【文献】 NARIAI, Naoki et al.,TIGAR: transcript isoform abundance estimation method with gapped alignment of RNA-Seq data by varia,BIOINFORMATICS,2013年,Vol.29 No.18,pp.2292-2299,doi:10.1093/bioinformatics/btt381
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10−19/28
(57)【特許請求の範囲】
【請求項1】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータに対して、下記のステップ(1)〜(6):
(1) 個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化が行われるステップ;
(2) ステップ(1)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出されるステップ;
(3) ステップ(2)において算出された合計期待マッピング数が、それぞれ個々の当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出されるステップ;
(4) ステップ(3)において得られたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再びステップ(1)により改めて得られた個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出されるステップ;
(5) ステップ(4)において得られた新たな期待マッピング数に対して、再びステップ(2)又は(3)が実行され、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出されるステップ;
(6) ステップ(4)と(5)が、ステップ(4)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回のステップ(4)で算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、ステップ(5)において算出されるリードの割合の値と、前回のステップ(5)で算出される当該割合の値との間における差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、あるいは、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値が、最適化されたデータとして認定されるステップ;
が実行されることを特徴とする、遺伝子のリード情報の最適化方法であって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記のステップ(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒト全ゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) ステップ(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出され、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報が得られるステップ;
により実行されたことを特徴とする、最適化方法。
【請求項2】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおけるリード全体の塩基配列を観測データRとして、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を求めるステップ、並びに、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θ(θはT次元ベクトル、Tは当該遺伝子座群又は個別の遺伝子座のアリルの種類数)の推定値を求めるステップ、を含む被験者由来のDNAのリード情報の当該遺伝子座群又は個別の遺伝子座のアリルへのマッピングを、コンピュータにより最適化する最適化方法において、
上記目的パラメータθ及び、観測データRを媒介する潜在変数である、(1)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関するθに依存する変数T、及び、(2)リードnの開始位置に関するTに依存するSについて、
リードnの塩基配列を観測データRとして、観測データRからの目的パラメータθの推測工程において観測データRが依存するように、少なくとも(i)変数T及びS、あるいは、(ii)変数T、を繰り入れて当該推定値を算出することを特徴とする最適化方法であって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記のステップ(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) ステップ(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出され、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報が得られるステップ;
により実行されたことを特徴とする、最適化方法。
【請求項3】
リード情報は、シングルエンドのリード情報、又は、ペアエンドのリード情報であることを特徴とする、請求項1又は2に記載の最適化方法。
【請求項4】
最尤推定法、又は、ベイズ推定法に基づくステップの実行により、個々のリードにおける個々の選択された遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θの推定値を算出することを特徴とする、請求項1〜3のいずれか1項に記載の最適化方法。
【請求項5】
潜在変数T及びSが要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)、を潜在変数として用いることを特徴とする、請求項2〜4のいずれか1項に記載の最適化方法。
【請求項6】
下記(1)〜(5)のステップを行うことを特徴とする、請求項5に記載の最適化方法。
(1)所与されたθの初期値に基づいて、Znts=1又はZnt=1の事後確率の第1の更新値を算出し、さらに、当該Znts=1又はZnt=1の事後確率の第1の更新値に基づいてθの最尤推定値の第1の更新値を算出するステップ、あるいは、(2)所与されたZnts=1又はZnt=1の事後確率の初期値に基づいて、θの最尤推定値の第1の更新値を算出するステップ、
(3) 直前のステップ(4)(ただし、初回はステップ(1)又はステップ(2)である)により算出されたθの最尤推定値の更新値に基づいて、新たにZnts=1又はZnt=1の事後確率の更新値を算出するステップ、
(4) ステップ(3)において算出されたZnts=1又はZnt=1の事後確率の更新値に基づいて、θの最尤推定値の更新値を新たに算出するステップ、
(5) (i)ステップ(3)において算出されたZnts=1又はZnt=1、及び、ステップ(4)において算出されたθに基づいて対数尤度を計算して、対数尤度の収束性を評価するステップ、
(ii)ステップ(3)で算出されたZnts=1又はZnt=1の事後確率の更新値の収束性を評価するステップ、あるいは、
(iii)ステップ(4)で算出されたθの最尤推定値の更新値の収束性を評価するステップであって、
収束が認められれば、それぞれのステップにおけるθを最終推定値として決定し、収束が認められなければ、ステップ(3)、(4)、及び、(5)の繰り返しを決定する。
【請求項7】
下記(1)〜(5)のステップを行うことを特徴とする、請求項5に記載の最適化方法。
(1) 所与された選択された遺伝子座群又は個別の遺伝子座のアリルtのアリル頻度についての予備知識の分布を示すハイパーパラメータαの初期値に基づくθの事後分布の更新値に基づいてZnts又はZntの事後分布を算出し、さらに、当該Znts又はZntの事後分布に基づいてθの第1の更新事後分布の更新値を算出するステップ、あるいは、(2)所与されたZnts又はZntの初期分布に基づいてθの第1の事後分布の更新値を算出するステップ、
(3) 直前のステップ(4)(ただし、初回はステップ(1)又はステップ(2)である)により算出されたθに基づいて、新たにZnts又はZntの事後分布を算出するステップ、
(4) ステップ(3)において算出された Znts又はZntの事後分布を基にして、θの事後分布を新たに算出して更新するステップ、
(5) ステップ(4)において得られたθの事後分布の期待値の収束性を評価するステップであって、当該期待値における収束が認められれば、当該収束期待値をθの推定値として決定し、収束が認められなければ、ステップ(3)、(4)、及び、(5)の繰り返しを決定する。
【請求項8】
ステップ(a)及び(b)において実行されるマッピングは、一つのリードが複数の選択された遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容することを特徴とする、請求項1〜7のいずれか1項に記載の最適化方法。
【請求項9】
ステップ(a)の選択された遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出され、これが(b)ステップの再マッピングの対象とされることを特徴とする、請求項8に記載の最適化方法。
【請求項10】
選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項1〜9のいずれか1項に記載の最適化方法。
【請求項11】
MHCはHLAであることを特徴とする、請求項10に記載の最適化方法。
【請求項12】
請求項1〜11のいずれか1項に記載の最適化方法により得られた選択された遺伝子座群又は個別の遺伝子座のアリル頻度から当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの個別深度が算出され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座について当該個別深度の大きなアリルから順に2個以内について選択され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の要素として決定がなされることを特徴とする、選択された遺伝子座群又は個別の遺伝子座の遺伝型の決定方法。
【請求項13】
請求項1〜11のいずれか1項に記載の最適化方法により得られた選択された遺伝子座群又は個別の遺伝子座のアリル頻度から当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの個別深度が算出され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座について当該個別深度の大きなアリルから順に2個以内について選択され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の要素として決定がなされる遺伝型の判定方法において、全リード深度の5〜50%のいずれかの頻度数が棄却閾値として設定され、当該閾値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは遺伝型決定の要素から除外されることを特徴とする、選択された遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の決定方法。
【請求項14】
選択された遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素からの除外が行われた後、下記(i)又は(ii)の決定がなされることを特徴とする、請求項13に記載の遺伝型の決定方法。
(i) 当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個の当該遺伝子座のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上の場合には、当該アリルはホモ接合と決定がなされ、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる。
(ii) 当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個の当該遺伝子座のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされ、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる。
【請求項15】
最適化対象とされた、ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報、を最適化するコンピュータシステムであって、記録部と演算処理部を備え、下記の処理(A)〜(G):
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されており、
(B) 当該演算処理部では、前記記録部の情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理が実行され、
(C) 上記処理(B)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出され、
(D) 上記処理(C)において算出された合計期待マッピング数が、それぞれ個々の当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出される処理が実行され、
(E) 上記処理(C)において算出されたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再び上記処理(B)により改めて算出された個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出される処理が実行され、
(F) 上記処理(E)により算出された新たな期待マッピング数に対して、再び上記処理(C)又は(D)が実行されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出される処理が実行され、
(G) 上記処理(E)と(F)の処理が、処理(E)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の処理(E)において算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、処理(F)において算出されるリードの割合の値と、前回の処理(F)で算出される当該割合の値との差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値が、最適化されたデータとして認定が行われる;
が実行されることを特徴とするコンピュータシステムであって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理;
により実行されたことを特徴とする、コンピュータシステム。
【請求項16】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々のアリルに対する期待マッピング数を最適化するコンピュータシステムであって、記録部と演算処理部を具え、下記の処理(A)〜(E):
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(i)及び(ii):
(i)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(ii)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)=1の事後確率の初期値の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θに基づき、当該指標変数Znts又はZnt=1の事後確率の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZnt=1の事後確率に基づいて変数θの最尤推定値の第1の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの最尤推定値の第1の更新値に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新値が算出されるループ処理が、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束した変数θが最適化されたθとして、上記記録部に記録がなされる;
処理が実行されることを特徴とするコンピュータシステムであって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理;
により実行されたことを特徴とする、コンピュータシステム。
【請求項17】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータシステムであって、記録部と演算処理部を具え、下記処理(A)〜(E):
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαの初期値に基づくθの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(i)及び(ii):
(i)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(ii)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)の分布の初期分布の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの第1の更新事後分布に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新事後分布が算出されるループ処理が、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束したθの期待値が最適化された当該遺伝子座群又は個別の遺伝子座のアリル頻度のデータとして、上記記録部に記録がなされる;
が実行されることを特徴とするコンピュータシステムであって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理;
により実行されたことを特徴とする、コンピュータシステム。
【請求項18】
リード情報は、シングルエンドのリード情報、又は、ペアエンドのリード情報であることを特徴とする、請求項15〜17のいずれか1項に記載のコンピュータシステム
【請求項19】
処理(a)及び(b)において実行されるマッピングは、一つのリードが複数の選択された遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容することを特徴とする、請求項15〜18のいずれか1項に記載のコンピュータシステム。
【請求項20】
処理(a)の選択された遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出処理され、これが(b)処理の再マッピングの対象とされることを特徴とする、請求項19に記載のコンピュータシステム。
【請求項21】
被験者における、ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座の遺伝型遺伝型の判定を行うコンピュータシステムであって、記録部と演算処理部を備え、下記(α)〜(δ)の処理:
(α) 当該記録部には、請求項1〜11のいずれか1項に記載の最適化方法により得られた、被験者の当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、が少なくとも記録されており;
(β) 当該演算処理部では、前記記録部の当該遺伝子座群又は個別の遺伝子座のアリル頻度を基とする、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理、及び、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する算出された当該個別深度の割り振り処理が実行され;
(γ) 棄却閾値として設定されている、全リード深度の平均の5〜50%のいずれかの頻度数に対して、当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群又は個別の遺伝子座の遺伝型決定の要素から除外される処理が実行され;
(δ):
(δ)−1 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個の当該遺伝子座のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、当該アリルはホモ接合と決定がなされる処理が実行され、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる処理が実行され;
(δ)−2 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個の当該遺伝子座のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされる処理が実行され、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる処理が実行される;
が実行されることを特徴とするコンピュータシステム。
【請求項22】
選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項15〜21のいずれか1項に記載のコンピュータシステム。
【請求項23】
MHCはHLAであることを特徴とする、請求項22に記載のコンピュータシステム。
【請求項24】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報、を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第7の機能:
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されている記録部から、当該リード情報を読み出す、第1の機能、
(B) 上記第1の機能により読み出したリード情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理を実行する、第2の機能、
(C) 上記第2の機能により数値化した期待マッピング数が、当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数を算出する、第3の機能、
(D) 上記第3の機能により算出した合計期待マッピング数を、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を算出する、第4の機能、
(E) 上記第4の機能により算出したリードの割合を、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当て、当該割り当て頻度を前提にして、再び第2の機能で改めて算出した、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数を算出する、第5の機能、
(F) 上記第5の機能により算出した新たな期待マッピング数に対して、再び上記第3の機能又は第4の機能を実行して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を新たに算出する、第6の機能、
(G) 上記第5の機能と第6の機能を、第5の機能の実行により算出するリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の第5の機能の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、あるいは、上記第6の機能の実行により算出するリードの割合の値と、前回の第6の機能の実行により算出する当該割合の値との差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値を、最適化されたデータとして認定する、第7の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムであって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理;
により実行されたことを特徴とする、コンピュータプログラム。
【請求項25】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第5の機能:
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(i)及び(ii):
(i)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(ii)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)=1の事後確率の初期値の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θに基づき、当該指標変数Znts又はZnt=1の事後確率の算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能により算出した当該指標変数Znts又はZnt=1の事後確率に基づいて変数θの最尤推定値の第1の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの最尤推定値の第1の更新値に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新値を算出するループ処理を、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行し、収束した変数θが最適化されたθとして、上記記録部に記録を行う、第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムであって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理;
により実行されたことを特徴とする、コンピュータプログラム。
【請求項26】
ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第5の機能:
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαの初期値に基づくθの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(i)及び(ii):
(i)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(ii)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)の事後分布の初期分布の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能で算出した当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの第1の更新事後分布に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新事後分布を算出するループ処理を、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行して、収束したθの期待値を最適化された当該遺伝子座群又は個別の遺伝子座のアリル頻度のデータとして、上記記録部に記録を行う第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムであって、さらに上記の選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者の全ゲノムにおけるリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b):
(a) 被験者の全ゲノムにおけるリードの塩基配列情報において、ヒトゲノム参照配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座にマッピングされたリードが抽出されるステップ;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理;
により実行されたことを特徴とする、コンピュータプログラム。
【請求項27】
リード情報は、シングルエンドのリード情報、又は、ペアエンドのリード情報であることを特徴とする、請求項24〜26のいずれか1項に記載のコンピュータプログラム。
【請求項28】
上記コンピュータプログラムにおいて、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータの生成を、下記(a)及び(b)に従って行う機能をコンピュータにおいて実現するアルゴリズムが含まれることを特徴とする、請求項24〜27のいずれか1項に記載のコンピュータプログラム。
(a) 被験者のリードの配列情報に対して、ヒト遺伝子の塩基配列に対するマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードを抽出する機能;
(b) 機能(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、マッピングされたリードを当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出を行い、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報を得る機能。
【請求項29】
上記機能(a)及び(b)におけるマッピングは、一つのリードが複数の選択された遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容するマッピングであることを特徴とする、請求項24〜28のいずれか1項に記載のコンピュータプログラム。
【請求項30】
機能(a)における選択された遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードを併せて抽出処理し、これを機能(b)の再マッピングの対象に含めることを特徴とする、請求項29に記載のコンピュータプログラム。
【請求項31】
被験者における、ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座の遺伝型の判定を行うコンピュータプログラムであって、下記(α)〜(δ)の機能をコンピュータに実現させるためのアルゴリズムが含まれることを特徴とする、コンピュータプログラム。
(α) 請求項24〜30のいずれか1項に記載のコンピュータプログラムの実行により得られた、当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、を少なくとも読み出す、機能α;
(β) 前記機能αの実行により読み出した当該遺伝子座群又は個別の遺伝子座のアリル頻度から、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理を実行し、個々のアリルに対して算出された当該個別深度を割り振る処理を実行する、機能β;
(γ) 棄却閾値として全リード深度の5〜50%のいずれかの頻度数を設定し、前記機能βの実行により特定された当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルを、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外する処理を実行する、機能γ;
(δ) 下記(δ)−1及び(δ)−2に示す機能δ:
(δ)−1 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、このアリルをホモ接合と決定し、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定する処理を実行し;
(δ)−2 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個の当該遺伝子座群又は個別の遺伝子座のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であると決定し、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であると決定する処理を実行する。
【請求項32】
選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項24〜31のいずれか1項に記載のコンピュータプログラム。
【請求項33】
MHCはHLAであることを特徴とする、請求項32に記載のコンピュータプログラム。
【請求項34】
請求項24〜33のいずれか1項に記載のコンピュータプログラムが記録されていることを特徴とする、コンピュータにおいて読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、核酸に基づく遺伝的解析の分野に関する発明であり、より詳しくはヒト遺伝子の高性能シークエンサから導出されるリードの情報に基づき、選択された遺伝子座群又は個別の遺伝子座の遺伝型遺伝型の判定を、簡便かつ高感度に行うための手段を提供する発明である。当該遺伝子座群又は個別の遺伝子座としては、主要組織適合遺伝子抗原(major histocompatibility complex:MHC)の遺伝子座群又は個別の遺伝子座が好適例として上げられる。ヒトのMHCは、ヒト白血球型抗原(Human Leucocyte Antigen:HLA)である。
【背景技術】
【0002】
特定の遺伝子座群の遺伝型(アリル)は、生体における様々な疾病や器質に関連している。
【0003】
例えば、ヒトのMHCであるHLAのアリルは、臓器提供の際の適合性判定に重要であるのみならず、薬の感受性、糖尿病、自己免疫疾患、ナルコレプシー等の数多くの疾患との関連が、近年明らかになって来ている。よって、HLA遺伝子座群の各HLA遺伝座の遺伝型の決定を適切に行うことは、医療現場において極めて重要な事項である。
【0004】
現在主流のHLA遺伝型の決定方法は、HLAアリルの前後にプライマーを設計することでターゲット領域をPCR増幅し、シークエンスする手法(例えば、特許文献1)である。しかしながら、この手法では、増幅用プライマーの使用の際にオフターゲット増幅による影響等により、偽遺伝子領域が増幅される等、正確なHLAアリルの推定が困難になるという問題点が存在する。特許文献1は、特定のプライマーセットを用いることでこの問題を解決することを目指しているが、対象となるHLA遺伝子座が実質的には限定されており、HLA遺伝子の個人間の相違の多様性を鑑みると、PCR増幅を用いている以上、相応の不正確性が生ずると思われる。
【0005】
さらに、既知のHLAアリル配列を基にしてcDNAプローブを設計することでHLA遺伝子座におけるSNPタイピングによりHLA型を決定する手法が存在する(Itoh Y et al., Immunogenetics 2005)。しかしながら、この手法では新規のアリルを決定することが困難であり、また、アリルにおける個人のゲノムバリエーションが、SNPタイピング精度に影響を与えるという問題点が存在する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】WO 2014/065410 A1パンフレット
【発明の開示】
【発明が解決しようとする課題】
【0007】
上記した通りに、高性能シークエンサを何らかの形で用いるMHC等の遺伝子座群における遺伝型の決定をする際に、PCR法等の遺伝子増幅法を行う段階で生ずるオフターゲット領域の増幅等、不正確性の問題は、どれほど適切な増幅用プライマーを用いても常につきまとう問題である。これはどの遺伝子座群についても、ゲノム中に類似の塩基配列を持つ座位が複数存在する、あるいは遺伝的多型が存在する場合、当該遺伝子座群の各遺伝子座の遺伝型の決定の過程で同様の問題が伴うことになる。
【0008】
そこで、MHC遺伝子座群等の、特に複雑な構造の遺伝子座群に対してマッピングを行った高性能シークエンサで得られたリード情報を、各遺伝子座について遺伝型の決定をするために最適化する手段が必要となる。
【0009】
本発明は、この最適化手段を確率統計処理的な観点から提供することを課題とする。
【課題を解決するための手段】
【0010】
本発明者らは、この課題の解決に向けて検討を行う過程で、遺伝子座群として、ヒトのMHC遺伝子座群であるHLA遺伝子座群を選択して、被験者の検体DNAから高性能シークエンサにより全ゲノムシークエンスリードデータを得、当該遺伝子座群のHLAアリル参照配列に対するマッピングを行いリードデータとHLAアリル参照配列のマッピング対応情報を得た。当該リードデータに対して各リードの各HLAアリル毎の期待マッピング数と、各HLAアリル毎のアリル頻度を求めるために最尤推定処理を行い、さらに好ましくはベイズ推定処理を行うことによって、極めて高精度のHLA型決定に用いることが可能なHLAアリル毎の期待マッピング数の最適化がなされることを見出し、ゲノム中に類似の塩基配列を持つ座位が複数存在する、あるいは遺伝的多型が多数知られている遺伝子座群の各遺伝子座のアリルを正確に決定できる本発明を完成した。なお、本発明において「高性能シークエンサ」は、本発明の実施に用いることができる、大量のリード情報を比較的短期間で提供することができるシークエンサであり、いわゆる「次世代シークエンサ」を含むものである。本発明を行った時点における次世代シークエンサとしては、例えば、Genome Sequencer FLX(Roche(454)社)、Genome Analyzer IIx、HiSeq2000、HiSeq2500、MiSeq (共にIllumina社)、SOLiD (Applied Biosystem社)、PacBio RS II (Pacific Biosciences 社)等が挙げられるが、これらに限定されるものではなく、現在、将来において提供される高性能シークエンサの全てを含むものである。
【0011】
本発明完成時点において、リード情報には、概ね、シングルエンドのリード情報と、ペアエンドのリード情報の2種類の形式が認められる。シングルエンドのリード情報とは、リードに対応するDNA断片の塩基配列の片端の一定長又は可変長(概ね50〜300bp程度)についてのリード情報であり、ペアエンドのリード情報とは、当該DNA断片の両端の一定長又は可変長(概ね50〜300bp程度)についてのリード情報である。技術の進歩に応じてリード情報の内容も日進月歩であるが、本発明においては現在又は将来提供されるリード情報を適用させることが可能である。
【0012】
選択される遺伝子座群は、上記したように類似の塩基配列を有する遺伝子や擬遺伝子が複数存在し、当該遺伝子座群の各遺伝子座における遺伝的多型(アリル)が多数知られている遺伝子座が、好適な遺伝子座である。当業者の技術常識として、このような遺伝子座群として、HLAの遺伝子座群等のMHC遺伝子座群の他に、例えば、シトクロムP450(Cytochrome P450:CYP)遺伝子座群、免疫グロブリンをコードする遺伝子座群、T細胞受容体をコードする遺伝子座群、嗅覚受容体をコードする遺伝子群等が知られている。シトクロムP450は、薬物代謝、解毒に関与する酸化還元酵素ファミリーに属する酵素の総称であり、ヒトでは57個の機能遺伝子及び58個の擬遺伝子が知られている。さらに、当該遺伝子座群の遺伝的多型(アリル)はこれまでに2000種以上が知られており、これらに応じて各種薬物の代謝速度に個人差が現れることが知られている。本明細書に開示した実施例のMHC遺伝子座群の一つであるHLA遺伝子座群を、他の複雑な構造の遺伝子座、例えば、シトクロムP450遺伝子座群に置き換えても同様の良好な効果が得られることは、本発明完成時において明らかであった。
【0013】
また、個別の遺伝子座とは、遺伝子座群を構成する個別の遺伝子座であり、例えば、HLAの遺伝子座群であれば、HLA-A、HLA-B、HLA-C等が挙げられる。
【0014】
[A] 本発明の最適化方法
本発明は、選択された遺伝子座群又は個別の遺伝子座(以下、特定遺伝子座群又は個別の遺伝子座ともいう)のアリル由来のDNAのリード情報が混在したデータのリードの塩基配列に対してマッピングを行うことにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報(以下、特定遺伝子座群又は個別遺伝子座の対応リード情報ともいう)に対して、下記のステップ(1)〜(6)の全部又は一部が実行されることを特徴とする、遺伝子のリード情報の最適化方法(以下、本発明の最適化方法ともいう)を提供する。本発明の最適化方法は、コンピュータにおいて実行される方法である。
【0015】
(1) 個々のリードにおける個々の特定遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化が行われるステップ。
「期待マッピング数」は、リード毎に各アリルに対して定義され、後述する「合計期待マッピング数」は、アリル毎に定義され、さらに、「合計期待マッピング数の和」は、当該遺伝子座群又は個別の遺伝子座について定義されるマッピング数である。本発明においては、「マッピング」と「アライメント」は同意義である。
【0016】
(2) ステップ(1)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出されるステップ。
【0017】
当該ステップ(2)を数式で一例を示せば、例えば下記式(I)は、特定遺伝子座群又は個別の遺伝子座のアリルtから生ずる合計期待マッピング数rtの、存在度パラメータの現在の推定値に基づいた算出式である。
【0018】
【数1】
[式中、Zntは、もしリードnがアリルtから生じるならば1をとり、それ以外の場合は0である指標変数であり、Ez[Znt]は、Zntの期待値である。ここで、Zntの期待値は、Znt=1の事後確率と同値である。 ]
【0019】
(3) ステップ(2)において算出された合計期待マッピング数が、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出されるステップ。
【0020】
当該ステップ(3)を数式で一例を示せば、例えば下記式(II)は、リード総量に対して各特定遺伝子座群又は個別の遺伝子座のアリルに割り当てられたリードの割合E[θ]の算出式である。
【0021】
【数2】
[式中、rは特定遺伝子座のアリルt から生ずる合計期待マッピング数、θは特定遺伝子座群又は個別の遺伝子座のアリル上のリードの存在量の頻度を示すパラメータである。]
【0022】
(4) ステップ(3)において得られたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再びステップ(1)により改めて得られた個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出されるステップ。
【0023】
(5) ステップ(4)において得られた新たな期待マッピング数に対して、再びステップ(2)又は(3)が実行され、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出されるステップ。
【0024】
(6) ステップ(4)と(5)が、ステップ(4)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回のステップ(4)で算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、ステップ(5)において算出されるリードの割合の値と、前回のステップ(5)で算出される当該割合の値との間における差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値が、最適化されたデータとして認定されるステップ。
【0025】
上記の本発明の最適化方法においては、ステップ(1)と(4)において推定される個々のリード毎の特定遺伝子座群又は個別の遺伝子座のアリル毎に対する期待マッピング数と、ステップ(3)と(5)において合算される特定遺伝子座群又は個別の遺伝子座のアリル毎のアリル頻度、のそれぞれが算出される際に、最尤推定を行うためにExpectation Maximizationアルゴリズム(EMアルゴリズム)が使用され、更に好ましくは、ベイズ推定を行うために変分ベイズ法を使用される。
【0026】
ここで、EMアルゴリズムと変分ベイズ法等の最適化手段を行うための前提を説明する。これは本願の優先権の基礎となる先の出願(特願2014−265704号:以下、先の出願ともいう)における開示について、さらに詳細に解説するものである。本発明においては、EMアルゴリズムと変分ベイズ法の他に、スパースベイズ法、Gibbs sampling法、MCMC法、EP法、PowerEP法等が挙げられる。
【0027】
本明細書、請求の範囲、及び、図面に記載されたパラメータや数等を示す記号は、発明の開示の便宜ための記号であり、本発明はそれらの記号の種類に全く限定されない。
【0028】
本発明の推定方法における推定要素として、観測データ、目的パラメータ、及び、観測データと目的パラメータを結びつける潜在変数が挙げられ、例えば、以下のように設定できる。
【0029】
観測データ
観測データ(以下、Rとも表現される)は、上記の通りに「特定遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおける、DNAリード(以下、リードnとも表現される)の塩基配列」である。DNA混在データは、検体のDNAシークエンスによるDNAのリードを、これとは別に、ヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリルの参照配列をリファレンス配列としてマッピングを行って得られたリード個別の情報の総和として提供されるデータである。当該リファレンス配列は、例えば特定遺伝子座群がHLA遺伝子座群である場合は、IMGT/HLAデータベース等から得られるが、当該遺伝子座群について、過去に別の検体でシークエンシング等により決定されたゲノム配列を使用することも可能である。なお、新規の特定遺伝子座の遺伝型、例えば、新規のHLA型が明らかになった場合には、当該新規遺伝型がデータベース等に逐次繰り入れられていることが好適である。本発明によって明らかになった新規の遺伝型も同様の繰り入れを行うことが好適である。本発明による新規の遺伝型の決定については後述する。
【0030】
観測データRは、上記の通りにN個(Nは自然数:リードの本数換算)のDNA混在データのうちのn番目のリードデータにおける塩基配列である。これは、N個の独立した一様に分布したリードデータとして観測されると仮定される。シングルエンドリードの場合は一本のリードに対して一つの観測データRが当て嵌められるが、ペアエンドリードの場合には、一本の断片に対して両端の塩基配列に対応した2つの観測データが組として当て嵌められる。すなわち、ペアエンドリードの場合は、例えばRnaとRnbの組を構成するが、これらは同じ断片から由来する塩基情報であるため、このリードの組を一つの単位として扱うことによって、シングルエンドリードの場合と同様の統計的なモデルのもとで扱うことが容易に可能である(Nariai et al., Bioinformatics:15;29(18) 2013)。具体的には、当該先行文献に基づいた後述の[ペアエンドモデルの完全尤度]の記載の通りに計算対応が可能である。
【0031】
目的パラメータ
目的パラメータは、上記の観測データRを基に推定がなされるパラメータである。本発明は、1つの目的パラメータ(以下、θとも表現される)を伴っている。
【0032】
目的パラメータθは、ヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリルの頻度を表すベクトルである。例えば、パラメータベクトルθ=(θ,...,θ)’(以下、特に断らない限り、ベクトル又は行列における「’」は転置を示す。)として、各特定遺伝子座群又は個別の遺伝子座のアリルについての存在度の分数を
【数3】
の制約の下で示すことができる。この場合、特定遺伝子座群又は個別の遺伝子座のアリルはT個(Tは自然数)存在すると仮定され、個々の特定遺伝子座群又は個別の遺伝子座のアリルはt(tは1以上の整数)としてカウントされる。
【0033】
目的パラメータθを推定することにより、本発明の目的である特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリル頻度、あるいは遺伝型の推定を行うことができる。
【0034】
潜在変数
潜在変数は、上記観測データRが、どの特定遺伝子座群又は個別の遺伝子座のアリルから生成されたか、特定遺伝子座群又は個別の遺伝子座のアリルのどの場所から生成されたかを記述するため繰り入れられる非観測変数である。本発明においては、上記の2種の潜在変数(T,S)の当該2種、又は、Tを単独で繰り入れてパラメータθを算出推定することで、的確にこれらの目的変数の推定を行い、さらにヒトMHCであるHLA等の特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の推定を行うことができる。これらの潜在変数を、上記観測データRからの目的パラメータθの推測工程に、観測データRが依存するように繰り入れて、パラメータθを算出推定することで、各遺伝子座の遺伝型の推定を的確に行うことができる。
【0035】
上記の潜在変数Tは、リードnのヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリル選択に関する、上記θに依存する変数である。T=tは、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生することを意味している。
【0036】
上記の潜在変数Sは、リードnの開始位置に関する、上記Tに依存する変数である。S=sは、リードnが、位置s(1≦s≦l−L+1)(lは、特定遺伝子座群又は個別の遺伝子座のアリルtの長さであり、Lはリード長である)から発生していることを意味している。ここで、一般的にヒトMHCであるHLA等の本発明の推定方法の対象となる特定遺伝子座群又は個別の遺伝子座のアリルの長さlは、数百塩基長から数万塩基長であり、リードの塩基長よりも長いことが一般的である。また、開始位置sが1とは、特定遺伝子座群又は個別の遺伝子座のアリルの最初の塩基からリードが読まれたことを意味する。言い換えればSは、リードをヒトMHCであるHLA等の特定遺伝子座群又は個別の遺伝子座のアリルの参照配列にマッピングした際の、参照配列における開始位置のことを意味している。
【0037】
後述するように、特にペアエンドモデルの場合は、例えば、リード間の塩基断片の長さを反映する潜在変数F等を、上記TやSと共に遺伝型の推定計算に繰り入れることができる。
【0038】
本発明の推定方法の表現
上記指標を用いた本発明の推定方法は、例えば、「選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおけるリード全体の塩基配列を観測データRとして、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を求めるステップ、並びに、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θ(θはT次元ベクトル、Tは当該遺伝子座群又は個別の遺伝子座のアリルの種類数)の推定値を求めるステップ、を含む被験者由来のDNAのリード情報の当該遺伝子座群又は個別の遺伝子座のアリルへのマッピングを、コンピュータにより最適化する最適化方法において、
上記目的パラメータθ、及び、観測データRを媒介する潜在変数である、(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関するθに依存する変数T、及び、(b)リードnの開始位置に関するTに依存するSについて、
リードnの塩基配列を観測データRとして、観測データRからの目的パラメータθの推測工程において観測データRが依存するように、少なくとも(i)変数T及びS、あるいは、(ii) 変数T、を繰り入れて当該推定値を算出することを特徴とする、最適化方法。 」
として表現され得る。
【0039】
シングルエンドモデルの完全尤度
上記の指標を用いた本発明の最適化方法のパラメータと変数同士の依存関係を反映させた完全尤度(事後同時分布)は、条件付き確率の積として分解される。具体的には、下記式(1)により表される。各記号は、特に断らない限り、前記した通りである。
【0040】
【数4】
【0041】
式(1)において、
p(T=t|θ)は、θが所与のもと、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生する確率である。この確率は、p(T=t|θ)=θとして計算され得る((1)(a))。
【0042】
p(S=s|T=t)は、特定遺伝子座群又は個別の遺伝子座のアリルtが所与のもと、リードnが位置sから発生する確率である。この確率は、p(S=s|T=t)=1/(l−L+1)として計算され得る((1)(b))。ltはアリルtの参照配列の長さ、Lはリード長を表す。
【0043】
p(R|T=t,S=s)は、特定遺伝子座群又は個別の遺伝子座のアリル選択、及び、リードnの開始位置が所与のもと、リードnの塩基配列を観測する確率である。ここで、T及びSを要約するための指標変数Znts、又は、Tを要約するための指標変数Znt、を導入することが好適である((1)(c))。
【0044】
ntsは、(T,S)=(t,s)の場合、1に等しく、さもなければゼロである。仮に、πを、リードnの可能なマッピングについての全(t,s)組のセットとして、その時、各(t,s)∈πについて、下記式(2):
【数5】
(式中、subst ( , , )は、1からシークエンスの置換エラーを引いた数値を取るベースクオリティスコア依存置換確率関数であり、r[x]は、リードnの位置xの塩基文字であり、q[x]は、リードnの位置xのベースクオリティスコアであり、c[x]は、特定遺伝子座群又は個別の遺伝子座のアリルtの対応するDNA配列の位置xの塩基文字である)
によってリード配列の確率を計算することができる。ベースクオリティスコア置換確率関数,「subst ( , , )」 は、Phredベースクオリティスコアにしたがって決定することも可能であり、DNA−Seqデータからリードの参照DNA配列に対する最も良いアラインメントから見積もることもできる。なお、Phredベースクオリティスコアは、高性能シークエンサからFASTQフォーマットとして出力される塩基配列情報と共に提供される塩基読み取り精度の目安となるスコア、すなわち、シークエンサが出力するエラー率を示すスコアである(Phred quality score)。具体的には、当該スコアQは、
Q=−10log10Y(Yは、エラー率)、で表される。
【0045】
一方、Zntは、T=tの場合、1に等しく、さもなければゼロである。Zntは、上記Zntsを各tについて可能なsについて全てを考慮したものであるため、(2)式から
【数6】
によってリード配列の確率を計算することができる。
【0046】
また、上記はシークエンスの置換エラーを考慮した計算式であるが、シークエンスの挿入・欠失エラーを考慮した計算式も、同様に容易に導出可能である(Nariai et al., Bioinformatics:15;29(18))。
【0047】
上記式(1)で示した、本発明の推定方法の完全尤度の数式は、以上のように解釈される。
【0048】
この数式(1)は、シングルエンドモデルによる本発明の推定方法に係る潜在変数の事後確率や事後分布を求める基礎となるものである。
【0049】
なお、潜在変数Zntについて、上記のようにZntsに基づく変数としてではなく、Zntsとは独立した潜在変数として、すなわち上記のマッピングしたポジションを示す「s」を全く考慮に入れない潜在変数として設定が可能である。例えば、リードnがアリルtのどこかにマッピングされていれば、ポジション「s」は考慮に入れずに、マッピングツールが与えるマッピングスコアのみを利用して、期待マッピング数を算出する等も可能である。以下の開示における潜在変数Zntは、原則としてZntsに基づく変数として用いられているが、ここに示すZntsから独立した変数としてZntを用いることも可能である。
【0050】
ペアエンドモデルの完全尤度
ペアエンドデータの場合、上記の指標を用いた本発明の最適化方法のパラメータと変数同士の依存関係を反映させた完全尤度(事後同時分布)は、条件付き確率の積として分解される。具体的には、下記式(3)により表される。各記号は、特に断らない限り、前記した通りである。
【0051】
【数7】
【0052】
ここで、Fはペアエンドリードの組「RnaとRnb」のリファレンス配列へのマッピングから推測される塩基断片(フラグメント)の長さである。
【0053】
式(3)右辺において、p(T=t|θ)は、θが所与のもと、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生する確率である。この確率は、p(T=t|θ)=θとして計算され得る((3)(a))。
【0054】
p(F=f|T=t)は、遺伝子座のアリルtが所与のもと、塩基断片の長さfが発生する確率である。d(x)を、事前に与えられている塩基断片の長さの分布とすると、この確率は、
【数8】
として計算され得る。ここでlはアリルtの参照配列の長さ、Lはリード長である。塩基断片の長さの分布d(x)は、例えば、平均μ、標準偏差σの正規分布として与える。平均μ、標準偏差σは、塩基断片を作成した際において塩基断片長の分布が実験的に分かっていればその値を指定しても良いが、事前に多数のペアエンドリードをアライメントした結果からこれらのパラメータを推定して指定しても良い。
【0055】
p(S=s|T=t,F=f)は、特定遺伝子座群又は個別の遺伝子座のアリルtが所与のもと、断片長fのリードnの組が位置sから発生する確率である。この確率は、p(S=s|T=t,F=f)=1/(l−f+1)として計算され得る((3)(b))。lはアリルtの参照配列の長さ、Lはリード長、fは塩基断片の長さを表す。
【0056】
p(Rna|T=t,S=s)及びp(Rnb|T=t,S=s,F=f)は、特定遺伝子座群又は個別の遺伝子座のアリル選択、リードnの組の開始位置、断片長が所与のもと、下記式(4−1,4−2)で計算される:
【0057】
【数9】
【0058】
式中、subst ( , , )は、1からシークエンスの置換エラーを引いた数値を取るベースクオリティスコア依存置換確率関数であり、rna[x]は、リードnの組の一つ目の塩基配列Rnaの位置xの塩基文字であり、qna[x]は、リードnの組の一つ目の塩基配列位置xのベースクオリティスコアであり、cta[x]は、特定遺伝子座群又は個別の遺伝子座のアリルtのDNA配列について、リードnの組の一つ目の塩基配列とマッピングされた位置xの塩基文字であり、rnb[x]は、リードnの組の二つ目の塩基配列Rnbの位置xの塩基文字であり、qnb[x]は、リードnの組の一つ目の塩基配列位置xのベースクオリティスコアであり、ctb[x]は、特定遺伝子座群又は個別の遺伝子座のアリルtのDNA配列について、リードnの組の二つ目の塩基配列とマッピングされた位置xの塩基文字である。
【0059】
上記数式(3)は、ペアエンドモデルによる本発明の推定方法に係る潜在変数の事後確率や事後分布を求める基礎となるものである。
【0060】
なお、上記のシングルエンドモデルにおける潜在変数Zntについての開示は、このペアエンドモデルにおいても適用することができる。
【0061】
ハイパーパラメータ
特に、推定手段として変分ベイズ法等のベイズ推定法を行う際、ハイパーパラメータα(0<α)が繰り入れられ計算されることが好適であり、特に0<α≦0.1、もしくは対数尤度の下限を最大化する値であることが好適である。適切な値のハイパーパラメータαの繰り入れを行うことにより、はずれ値に強いロバスト性に優れたベイズ推定を行うことが可能となる。
【0062】
これを、上記式(II)を基に数式にて表すと、例えば、下記式(II)’で表される。
【0063】
【数10】
[式中、α=α+rである。]
【0064】
ハイパーパラメータαは、ベイズ推定における枠組みにおいて加味される定数である。すなわち、特定遺伝子座群又は個別の遺伝子座のアリル上のリードの存在量を示すパラメータθは、ベイズ推定における枠組みにおいては事後分布として推定することが可能であり、当該θの事前分布としてディリクレ分布(式(III)):
【数11】
[式中、Cは定数であり、Πt=1θ=1、Tは検討する特定遺伝子座群又は個別の遺伝子座のアリルの数であり、αはハイパーパラメータである。]
を仮定する。パラメータθの複雑さ(θ>0となる個数)をコントロールするハイパーパラメータαを、測定データの対数周辺尤度を最大化するように選択する。
【0065】
そして、測定データを前提としてθの事後分布を予測することは、潜在変数に対する積分を必要とし、閉形式で計算し難い。そこで、潜在変数とパラメータθの因子分解を仮定することによって、事後確率分布の近似式を得て導出される式が、上記式(II)’である。
【0066】
ハイパーパラメータについては、改めて記載を行う。
【0067】
上記した本発明の最適化方法は、特定遺伝子座群又は個別遺伝子座の対応リード情報であれば特に限定されずに用いることができる。例えば、特定遺伝子座群のある遺伝子座又は個別の遺伝子座に対応したプライマーを用いて調製された遺伝子増幅産物に対して、高性能シークエンサによる処理を経て得られた当該遺伝子座対応リード情報であっても良いし、当該遺伝子座対応リード情報をさらに当該遺伝子座のアリルとのマッピングを行ったリード情報であっても良い。しかしながら、本発明の最適化方法は、このような事前の特定遺伝子座群のある遺伝子座又は個別の遺伝子座における被験者の遺伝子の増幅工程を行わずに、被験者の遺伝子検体を高性能シークエンサで処理を行って得られる全ゲノムリード情報に対して、当該遺伝子座群又は個別の遺伝子座のアリルに対するマッピングを行った特定遺伝子座群又は個別遺伝子座の対応リード情報に対しても適用することができる。
【0068】
本発明においては、特定遺伝子座群又は個別遺伝子座の対応リード情報を取得するためのマッピングが、下記のステップ(a)及び(b)により実行されることを特徴とする、本発明の最適化方法を提供する。以下、これらのステップを行うプロセスを、「本発明の特定遺伝子座群又は個別の遺伝子座のマッピングプロセス」ともいう。
【0069】
(a) 遺伝子シークエンサにより得られた被験者のリードの塩基配列情報において、ヒト遺伝子の塩基配列に対するマッピングが行われ、特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードが抽出されるステップ、
【0070】
この最初のマッピングの対象はヒト全ゲノム配列であることが好適な態様の一つであり、慣習的に特定の人物(解析対象として選択された人物、あるいは特定の人物の組み合わせ)のゲノム配列が対象になる。通常は、国際ゲノムコンソーシアム等の機関が決定したゲノム配列である。この1回目のマッピングによって、当該遺伝子座群又は個別の遺伝子座のアリルに関係の無いリードを除くことができる。なお、上記のヒト全ゲノム配列以外に、例えば、ターゲットシークエンス、Exоmeシークエンス、RNAシークエンス、PacBio RS II、Oxford Nanopore等のロングリードシークエンスデータ等も上記マッピング対象配列として用いることができる。
【0071】
(b) ステップ(a)により抽出された特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報を、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングを行うことにより、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出され、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報が得られるステップ、
【0072】
この2回目のマッピングの対象は、データベースに登録されている特定遺伝子座群又は個別の遺伝子座の全てのアリルの遺伝子配列である。これにより、いわば仮の特定遺伝子座群又は個別の遺伝子座の対応リード情報を得ることができる。
【0073】
本発明の特定遺伝子座群又は個別の遺伝子座のマッピングプロセスに対応する、上記のステップ(b)におけるマッピングは、一つのリードが複数の特定遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容するものであることが好適である。この時点で機械的にマッピング対象が絞り込まれると、導出される特定遺伝子座群又は個別遺伝子座の対応リード情報に関して不適切なバイアスを折り込んでしまう可能性が強くなる。
【0074】
上述した通りに、上記ステップ(a)において用いる遺伝子シークエンサにより得られたリードの配列情報は、各DNA断片の両端からの読み取り(それぞれ50〜300bp程度)を行うペアエンドの配列情報であってもよい。各DNA断片の片側からの読み取り(50〜300bp程度)を行うシングルエンドの配列情報でも良いが、ペアエンドの方が、1本のDNAフラグメント(通常、300〜1000bp程度)に対応した配列情報が当該リードの両端で結ばれる範囲で特定され、より精度の高いマッピングが期待され、結果としてより精度の高いアリルの推定が可能となる。
【0075】
また、ステップ(a)の特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出され、これが(b)ステップの再マッピングの対象とされることが好ましい。上記ステップ(a)のマッピングの対象ゲノムは、特定の人物もしくは複数の人物の組み合わせのゲノムであり、具体的検出対象とは合わない場合が想定されるからである。例えば、特定遺伝子座群がヒトMHCであるHLA遺伝子座群である場合に、マッピングの対象ゲノムが西洋人のゲノムであり、被験者が日本人の場合には、HLA遺伝子座群の配列がマッピング対象ゲノムとは大きく異なる可能性があり、当該被験者のHLA遺伝子座群由来のリードが当該対象ゲノムにマッピングされない可能性がある。これを担保するために上記の処理が行われる。
【0076】
[B] 本発明の判定方法
本発明の最適化方法で得られた特定遺伝子座群又は個別遺伝子座の対応リード情報を、そのまま特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定指標として用いることが可能である。特に、高機能シークエンサの使用の段階で、特定遺伝子座群のある遺伝子座又は個別の遺伝子座に対応した遺伝子増幅用プライマーを用いたPCR法等の遺伝子増幅操作により、当該遺伝子座のアリルに対応したリードに絞り込んでいる場合は、その傾向が認められる。その場合には、当該遺伝子座の対応リード情報におけるリードの割合から当該遺伝子座のアリル毎のリードの個別深度が算出され、当該個別深度の大きな当該遺伝子座のアリルから順に2個以内を、被験者の当該遺伝子座の遺伝型として決定を行うことができる(本発明の判定方法)。しかしながら、このような場合であっても、結果に対する再検討を行い、偽陽性の可能性を出来る限り除くことが好適である。
【0077】
また、上記の本発明の特定遺伝子座群又は個別遺伝子座のマッピングプロセスを行った場合を含め、事前の当該遺伝子座群の遺伝子座に対する遺伝子増幅法を用いた絞り込みを行わなかった場合においては、結果に対する再検討を行う必要性はより高くなる。
【0078】
事前の遺伝子座に対する遺伝子増幅法を用いた絞り込みを行わない手法の場合(例えば、全ゲノムシークエンスをリファレンス配列とする場合)は、下記の再検討プロセスを行うことがより望ましい。
【0079】
この本発明の判定方法の好適な態様は、上述した本発明の最適化方法により得られた特定遺伝子座群又は個別遺伝子座の対応リード情報が、個別深度として算出されて再評価が行われることにより、極めて確度が高くなった特定遺伝子座群の各遺伝子座の又は個別の遺伝子座の遺伝型の判定方法である。
【0080】
すなわち本発明により、本発明の最適化方法により得られた特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合から当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの個別深度が算出され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座について当該個別深度の大きな当該遺伝子座のアリルから順に2個以内について選択され、当該遺伝子座の遺伝型の要素として決定がなされる特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定方法において、全リード深度の5〜50%、好ましくは10〜30%のいずれかの頻度数が棄却閾値として設定され、当該閾値以下の個別深度の特定遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群又は個別の遺伝子座の遺伝型決定の要素から除外されることを特徴とする特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定方法、が提供される。
【0081】
「全リード深度」とは、高性能シークエンサによる遺伝子検体の処理に伴い算出される、塩基毎の対応するDNA断片の数のことを意味するもので、被験対象の全ゲノムに対してどの程度の高性能シークエンサにおける重複読み取りが行われたかの平均値を示す指標である。具体的には、シークエンサで読まれた全リードに含まれる総塩基数を、ゲノムの長さ(ヒトの全ゲノムは30億塩基)で除した値である。例えば、100bpシングルエンドリードが9億リードあれば、全リード深度は「100×9億/30億 =30」で、「30×」となる。ここで「全ゲノムの長さ」は、全ゲノムシークエンスでは無い場合、例えば被験対象が「特定のHLA遺伝子座」である場合には、特定のHLA遺伝子座における全塩基数となる。
【0082】
「個別深度」とは、本発明においては、特定遺伝子座群又は個別の遺伝子座のアリルの塩基に対応するリードの重なりの数を数えたときに、平均どれくらいのリードが重なっているかを示す指標であって、本発明の最適化方法により得られた特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合から算出され得る。
【0083】
具体的には、「特定遺伝子座群又は個別の遺伝子座のアリルに割り振られたリード数」は、「当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合× 当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされた総リード数 」で算出される。
【0084】
上述したように、本発明の最適化方法に従って「特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合」が算出される。また、「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされた総リード数」は、例えば、「本発明の特定遺伝子座群又は個別遺伝子座のマッピングプロセス」において導出される。よって、「各特定遺伝子座群又は個別の遺伝子座のアリルに割り振られたリード数」は、本発明の最適化方法が行われることによって算出される。
【0085】
そして「個別深度」は、
「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの総塩基数 / 当該遺伝子座群又は個別の遺伝子座のアリルのリファレンス配列の塩基数 」で算出される。
【0086】
「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの総塩基数」は、各リードの平均的な塩基数は既知数であるから、上述した「各特定遺伝子座群又は個別の遺伝子座のアリルに割り振られたリード数」に、当該平均的塩基数を乗ずることによって算出される。「特定遺伝子座群又は個別の遺伝子座のアリルのリファレンス配列の塩基数」は、特定遺伝子座群又は個別の遺伝子座のアリル毎に異なる既知数である。よって、上記特定遺伝子座群又は個別の遺伝子座のアリルの「個別深度」は、上記したように、本発明の最適化方法により得られた特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合から算出される。
【0087】
以上をまとめると、各特定遺伝子座群又は個別の遺伝子座のアリルにおける個別深度「d」は、次式(IV)によって算出される。
【0088】
【数12】
[式中、Nは総リード数であり、cはリードnが含む塩基数であり、E[Znt]はリードnの遺伝子座のアリルtへの期待マッピング数であり、lは各遺伝子座のアリルの参照配列の長さ(塩基数)である。tは1からT(遺伝子座におけるアリルの総数)まで、nは1からNまでを採ることができる。]
【0089】
なお、ここに示したE[Znt]は、上述したE[Znts]を、各アリルtについて可能なsについて全て足し合わせたものとしても計算できる。
【0090】
上記のように「棄却深度」が全リード深度を基に設定されることにより、個別深度が小さい特定遺伝子座群又は個別の遺伝子座のアリルが遺伝型の決定要素から除外され、いわば偽陽性にあたる特定遺伝子座群又は個別の遺伝子座のアリル候補の除外によって本発明の判定方法の確度を高めることができる。
【0091】
棄却深度は、上述のように全リード深度の5〜50%、好ましくは同10〜30%、のいずれかの頻度数として選択することが可能である。棄却深度が小さければ、特定遺伝子座群又は個別の遺伝子座のアリルが、本発明の判定方法における特定遺伝子座群又は個別の遺伝子座の遺伝型の決定要素の候補となる機会が多くなるが、偽陽性を拾ってしまう危険性も増すことになる。逆に棄却深度が大きければ、偽陽性を拾う可能性は少なくなるけれども、真に被験者の特定遺伝子座群又は個別の遺伝子座の遺伝型を示すアリルを棄却してしまう可能性が高くなる。
【0092】
「個別深度の大きな特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリルから順に2個以内」、すなわち特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリルの個数の最大値を「2個」としたのは、異なる2個の遺伝子座のアリルがこれらのヘテロ接合と決定され、これを超える個数分はノイズとして排除されるという意味である。そして、当該個数が「1個」であれば当該遺伝子座は当該アリルのホモ接合、もしくはヘテロ接合かつもう一方のアリルは未知、と決定され、「0個」であれば該当する当該遺伝子座のアリルは未知と決定されるものである。
【0093】
さらに具体的な本発明の判定方法の態様を挙げれば、上述した特定遺伝子座群又は個別の遺伝子座の遺伝型決定の要素からの除外が行われた後、下記(i)又は(ii)の決定がなされることが好適である。
(i) 特定遺伝子座群の各遺伝子座又は個別の遺伝子座について遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上の場合には、当該1個のアリルはホモ接合と決定がなされ、若しくは、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされ、
(ii) 特定遺伝子座群の各遺伝子座又は個別の遺伝子座について遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされ、若しくは、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる。
【0094】
本発明の判定方法をこのような態様として行うことにより、一層的確な被験者の特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリルの決定が可能となる。
【0095】
なお、決定されるべきアリルが新規である場合には、当該新規アリルと最も近い既知のアリルがまず決定され、当該既知アリルの塩基配列と決定されるべき新規アリルの塩基配列の置換、挿入、欠失等による差分を認識することで、当該新規アリルの塩基配列決定をすることができる。当該新規アリルの塩基配列は、新しい遺伝型として、対象データベース等に逐次登録を行うことが好適である。
【0096】
以下、本発明の最適化方法と判定方法を、「本発明の方法」と総称することもある。
【0097】
[C] 本発明のコンピュータシステム
本発明のコンピュータシステムは、上述した本発明の方法を行う手段となるシステムであり、特に断らない限りは同一の用語は概念として重複する。「アルゴリズム」とは、コンピュータ分野の一般的な概念と同じく、問題を解くための手順を定式化した形で表現したものを意味する。
【0098】
本発明のコンピュータシステムは、通常のコンピュータシステムに関わるハードウエアを備えることができる。すなわち、通常ハードディスクドライブに該当する「記録部」、CPUに相当する「演算処理部」の他、例えば、RAMに相当する「一時記憶部」、キーボード、マウス、タッチパネル等に相当する「操作部」、ディスプレイに相当する「表示部」、操作部に応じたシリアル又はパラレルインターフェース等に相当する「出入力インターフェース(IF)部」、ビデオメモリとD/A変換部を備え、表示部のビデオ方式に応じたアナログ信号を出力する「通信インターフェース(IF)部」を備えている。当該通信IF部では、外部の情報、特に、ヒトゲノムデータベース等のヒトゲノム情報とデータ交換を行うことができる。
【0099】
以下においては特に断らない限り、本発明のコンピュータシステムの「演算処理部」が行う処理として説明する。「演算処理部」は、「操作部」が操作されて「通信IF部」を介して、特にヒトゲノムデータベースのデータを取得して「記録部」に記録し、適宜当該「記録部」からデータを「一時記憶部」に読み出し、所定の処理を行った後、その結果を再度「記録部」に記録する。当該「演算処理部」は、「操作部」の操作を促す画面データや処理結果を表示する画面データを作成し、入力IF部のビデオRAMを介して、これらの画像を「表示部」に表示する。本発明のプログラムは、用時又は予め「記録部」に記録、あるいは、外部のハードウエア資源に記録されており、必要に応じて「演算処理部」において、記載されたアルゴリズムに従った演算処理が行われる。
【0100】
本発明のコンピュータシステムは、特定遺伝子座群又は個別遺伝子座の対応リード情報を最適化するコンピュータシステムであって、記録部と演算処理部を備え、下記の処理(A)〜(G)の全て又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されており、
(B) 当該演算処理部では、前記記録部の情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理が実行され、
(C) 上記処理(B)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出され、
(D) 上記処理(C)において算出された合計期待マッピング数が、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出される処理が実行され、
(E) 上記処理(C)において算出されたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再び上記処理(B)により改めて算出された個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出される処理が実行され、
(F) 上記処理(E)により算出された新たな期待マッピング数に対して、再び上記処理(C)又は(D)が実行されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出される処理が実行され、
(G) 上記処理(E)と(F)が、処理(E)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の処理(E)において算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、処理(F)において算出されるリードの割合の値と、前回の処理(F)で算出される当該割合の値との差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値(アリル頻度)が、最適化されたデータとして認定が行われる;
が実行されることを特徴とするコンピュータシステムである。
【0101】
上記処理(B)〜(G)は、全ての特定遺伝子座群又は個別の遺伝子座のアリルに対して包括的に実行されることが好適である。この包括的な実行は、全ての当該遺伝子座群又は個別の遺伝子座のアリルに関して、一緒に全リードのマッピングの最適化アルゴリズムを実行することを意味するものである。
【0102】
さらに本発明のコンピュータシステムにおいて、被験者のデータベースに登録されている遺伝子のリード情報の当該遺伝子座群又は個別の遺伝子座のアリルに対するマッピングは、下記の(a)及び(b)の処理により実行され得る。下記の処理(a)及び(b)で示される過程は、特定遺伝子座群を対象とする場合は、その全ての遺伝子座について同時に行われることが好適である。
【0103】
(a) 遺伝子シークエンサにより得られた被験者のリードの配列情報に対して、ヒト全遺伝子の参照塩基配列に対するマッピングの後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座にマッピングされたリードが抽出される処理。
【0104】
(b) 前記(a)の処理により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座の各アリルに対する各リードのマッピング対応及びマッピング状態、すなわちリード配列のリファレンス配列におけるマッピング位置、リード配列とリファレンス配列の差異、及びマッピングスコアが特定されたリード情報が得られる処理。
【0105】
処理(b)において実行されるマッピングは、一つのリードが複数の特定遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容することが好適である。
【0106】
処理(a)の特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出処理され、これが(b)処理の再マッピングの対象とされることが好適である。
【0107】
さらに本発明は、被験者の特定遺伝子座群の各遺伝子座の遺伝型の判定を行うコンピュータシステムであって、記録部と演算処理部を備え、下記(α)〜(δ)の処理の全部又は一部;
(α) 当該記録部には、本発明の最適化方法により得られた、被験者の当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、が少なくとも記録されており;
(β) 当該演算処理部では、前記記録部の当該遺伝子座群又は個別の遺伝子座のアリル頻度を基とする、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理、及び、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する算出された当該個別深度の割り振り処理が実行され、
(γ) 棄却閾値として設定されている、全リード深度の平均の5〜50%、好ましくは10〜30%のいずれかの頻度数に対して、当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外される処理が実行され、
(δ):
(δ)−1 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、当該アリルはホモ接合と決定がなされる処理が実行され、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる処理が実行され、
(δ)−2 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされる処理が実行され、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる処理が実行される、
ことを特徴とするコンピュータシステムを提供する。
【0108】
上記に加えて、例えば(γ)の除外処理の実行の後、特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が0個のアリルについては、当該アリルに基づく当該遺伝子座の遺伝型の決定はなされない処理が実行される設定を、本発明のコンピュータシステムにおいて行うことも可能である。
【0109】
なお、これらのコンピュータシステムのカテゴリーは「物」であり、「装置」として置き換えることも可能である。
【0110】
[D] 本発明のプログラム
本発明のプログラムは、本発明のコンピュータシステムに本発明の方法を実行させるためのアルゴリズムを備えたコンピュータプログラムであり、特に断らない限りは同一の用語は概念として重複する。
【0111】
本発明のプログラムは、特定遺伝子座群又は個別遺伝子座の対応リード情報を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第7の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されている記録部から、当該リード情報を読み出す、第1の機能、
(B) 上記第1の機能により読み出したリード情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理を実行する、第2の機能、
(C) 上記第2の機能により数値化した期待マッピング数が、当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数を算出する、第3の機能、
(D) 上記第3の機能により算出した合計期待マッピング数を、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除して、当該遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を算出する、第4の機能、
(E) 上記第4の機能により算出したリードの割合を、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当て、当該割り当て頻度を前提にして、再び第2の機能で改めて算出した、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数を算出する、第5の機能、
(F) 上記第5の機能により算出した新たな期待マッピング数に対して、再び上記第3の機能又は第4の機能を実行して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を新たに算出する、第6の機能、
(G) 上記第5の機能と第6の機能を、第5の機能の実行により算出するリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の第5の機能の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、上記第6の機能の実行により算出するリードの割合の値と、前回の第6の機能の実行により算出する当該割合の値との差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値を、最適化されたデータとして認定する、第7の機能;
を実現させるアルゴリズムが含まれることを特徴とする、コンピュータプログラムである。
【0112】
さらに本発明は、被験者のデータベースに登録されている遺伝子のリード情報の特定遺伝子座群又は個別の遺伝子座のアリルに対するマッピングを、下記(a)及び(b)に従って行う機能をコンピュータにおいて実現するアルゴリズムが含まれることを特徴とする、本発明のプログラムを提供する。
(a) 遺伝子シークエンサにより得られた被験者のリードの配列情報に対して、ヒト遺伝子の塩基配列に対するマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードを抽出する機能。
(b) 機能(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態、すなわちリード配列のリファレンス配列におけるマッピング位置、リード配列とリファレンス配列の差異、及びマッピングスコアが特定されたリード情報を得る機能。
【0113】
さらに本発明は、被験者の特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定を行うコンピュータプログラムであって、下記(α)〜(δ)の機能をコンピュータに実現させるためのアルゴリズムが含まれることを特徴とする、コンピュータプログラムを提供する。
(α) 前記のコンピュータプログラムの実行により得られた、当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合、及び、全リード深度、を少なくとも読み出す、機能α。
(β) 前記機能αの実行により読み出した当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合から、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理を実行し、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して算出された当該個別深度を割り振る処理を実行する、機能β。
(γ) 棄却閾値として全リード深度の5〜50%、好ましくは10〜30%のいずれかの頻度数を設定し、前記機能Bの実行により特定された当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルを、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外する処理を実行する、機能γ。
(δ) 下記(δ)−1及び(δ)−2に示す機能δ。
(δ)−1 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、このアリルをホモ接合と決定し、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定する処理を実行し、
(δ)−2 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であると決定し、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であると決定する処理を実行する。
【0114】
上記の処理に、例えば前記機能γの除外処理の実行の後、特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が0個のアリルについては、当該アリルに基づく遺伝型の決定を行わない処理の実行をする機能を積極的に加えることもできる。
【0115】
本発明のコンピュータプログラムは、例えば、C言語、Java(登録商標)、Perl、Python等で記載することが可能である。
【0116】
本発明はさらに、本発明のプログラムが記録されていることを特徴とする、コンピュータにおいて読み取り可能な記録媒体又はコンピュータに接続し得る記録媒体(以下、本発明の記録媒体ともいう)を提供する。これらの記録媒体としては、フレキシブルディスク、フラッシュメモリ、ハードディスク等の磁気的媒体、CD、DVD、BD等の光学的媒体、MO、MD等の磁気光学的媒体等が挙げられ、特に限定されるものではない。本発明のコンピュータシステムの典型は、本発明のプログラムを実行することを特徴とするものである。
【発明の効果】
【0117】
本発明により、高性能シークエンサのリード情報に由来する特定遺伝子座群又は個別の遺伝子座のマッピング情報を、当該遺伝子座群の各遺伝型又は個別の遺伝子座の遺伝型の判定に向けて最適化する方法、最適化コンピュータシステム、及び、最適化用コンピュータプログラム、並びに当該最適化手段を用いた当該遺伝子座群の各遺伝子座の遺伝型又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム、及び、判定用コンピュータプログラムが提供される。これらの本発明により、極めて的確かつ簡便にゲノム中に類似の塩基配列を持つ座位が複数存在する、あるいは遺伝的多型が多数知られている遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定を行うことが可能である。当該遺伝子座群としては、例えば、ヒトMHCであるHLAの遺伝子座群、シトクロムP450遺伝子座群等、免疫グロブリンをコードする遺伝子座群、T細胞受容体をコードする遺伝子座群、嗅覚受容体をコードする遺伝子座群が挙げられる。
【図面の簡単な説明】
【0118】
図1】本発明の処理の流れを示した図面である。
図2-1】HLA対応リード情報の最適化工程の一態様を、潜在変数Zntを用いて示すフローシートである。
図2-2】HLA対応リード情報の最適化工程の一態様を、潜在変数Zntsを用いて示す、EMアルゴリズムのフローシートである。
図2-3】HLA対応リード情報の最適化工程の一態様を、潜在変数Zntsを用いて示す、変分ベイズ法のフローシートである。
図3】上記の最適化工程を経て得られた「各HLAアリルに割り当てられたリードの割合」を基に行う、HLAタイピング工程の一態様を示したフローシートである。
図4】シミュレーションデータの範囲の種々の深度で、4ケタ解像度でのHLA型の予測精度を示した図面である。
図5-1】本発明のシステムと他の方法によってHLA-Aのアリル頻度を検討した結果を示すグラフである。
図5-2】本発明のシステムと他の方法によってHLA-Bのアリル頻度を検討した結果を示すグラフである。
図5-3】本発明のシステムと他の方法によってHLA-Cのアリル頻度を検討した結果を示すグラフである。
【発明を実施するための形態】
【0119】
[A] EMアルゴリズムと変分ベイズ法を用いた本発明の推定方法
ここでは、先の出願において開示されたEMアルゴリズムと変分ベイズ法の内容についてさらに詳細に説明を行う。用いられる記号は、特に断らない限り前述した通りである。
【0120】
(1)EM(expectation-maximization)アルゴリズム
EMアルゴリズムは、潜在変数が存在する確率モデルにおいてパラメータの最尤推定値を求めるための手法である。本発明の推定方法においては、例えば、下記の内容で行うことができる。
【0121】
すなわちEM法による本発明の推定方法は、下記(1)〜(5)のステップを行うことを特徴とする本発明の推定方法として例示される(この方法を「本発明のEM法」ともいう)。
【0122】
(a)所与されたθの初期値に基づいて、Znts=1又はZnt=1の事後確率の第1の更新値を算出し、さらに、当該Znts=1又はZnt=1の事後確率の第1の更新値に基づいてθの最尤推定値の第1の更新値を算出するステップ、あるいは、(b)所与されたZnts=1又はZnt=1の事後確率の初期値に基づいて、θの最尤推定値の第1の更新値を算出するステップ、
(c) 直前のステップ(d)(ただし、初回はステップ(a)又はステップ(b)である)により算出されたθの最尤推定値の更新値に基づいて、新たにZnts=1又はZnt=1の事後確率の更新値を算出するステップ、
(d) ステップ(c)において算出されたZnts=1又はZnt=1の事後確率の更新値に基づいて、θの最尤推定値の更新値を新たに算出するステップ、
(e) (i)ステップ(c)において算出されたZnts=1又はZnt=1、及び、ステップ(d)において算出されたθに基づいて対数尤度を計算して、対数尤度の収束性を評価するステップ、
(ii)ステップ(c)で算出されたZnts=1又はZnt=1の事後確率の更新値の収束性を評価するステップ、あるいは、
(iii)ステップ(d)で算出されたθの最尤推定値の更新値の収束性を評価するステップであって、
収束が認められれば、それぞれのステップにおけるθを最終推定値として決定し、収束が認められなければ、ステップ(c)、(d)、及び、(e)の繰り返しを決定する。
【0123】
上記の(a)ステップは、繰り返し最適化を行う本法の初期値を定義するステップである。
【0124】
nts又はZntの初期値は、nについては1からNの各々の数字であり、tについては1からTについての各々の数字である。Zntsにおいて用いられるsについては、1≦s≦l−L+1、lは、特定遺伝子座のアリルtの長さ、Lはリード長である。そして、あるリードが複数箇所にマッピングしている場合、同様に確からしいと仮定して、Znts=1、Znt=1の事後確率の初期値は1/[リードnがマッピングしている合計箇所]とすることが好ましい。θの初期値は、各々の特定遺伝子座のアリル頻度は等しいと仮定して、1/Tとすることが好ましい。なお、被験者の母集団が特定の人種の集団である等、特定遺伝型のアリル頻度の事前情報が既知の場合には、これをθの初期値として用いることも可能である。
【0125】
(b)ステップは、現在の推定値(最初は(a)ステップで得られた初期化の値)に基づいて、Znts=1の事後確率rnts又はZnt=1の事後確率rntを算出するステップである。
【0126】
すなわち、P(Znts=1|θ)又はP(Znt=1|θ)を算出するステップであり(*は更新されたことを表している。以下、同様。)、
【数13】
として計算される。
【0127】
ここで、シングルエンドリードの場合、
【数14】
(logρntsを算出するための右辺第1項は上記式(1)(a)に、第2項は上記式(1)(c)に、及び、第3項は上記式(2)について、対数計算することにより算出することができる)
【0128】
また、ペアエンドリードの場合、
【数15】
(logρntsを算出するための右辺中括弧内第1項は上記式(3)(a)に、第2項は上記式(3)(a’)に、第3項は上記式(3)(b)に、第4項は上記式(4−1)に、及び、第5項は上記式(4−2)について、対数計算することにより算出することができる)
【0129】
一方Zntは、上記Zntsを各tについて可能なsについて全てを考慮したものであるため、
【数16】
として計算される。
【0130】
ここまでが本発明のEM法のEステップに相当する。
【0131】
(c)ステップは、本発明のEM法のMステップに相当するステップであり、(b)ステップで得られたZnts=1又はZnt=1の事後確率であるrnts又はrntに基づき、θの最尤推定値を求めるステップである。以下の通り、対数尤度を最大にするθを算出する。
【0132】
【数17】
又は、
【数18】
【0133】
(d)ステップと(e)ステップは、上記の通りである。収束基準の好適な一例として、存在量パラメータθ>10−7である特定遺伝子座群又は個別の遺伝子座のアリル頻度についての、相対的変化10−3が収束基準として使用されるが、異なる収束基準を用いることも可能である。
【0134】
なお、通常は(e)ステップの「ステップ(c)、(d)、及び、(e)の繰り返し」が、1回以上は行われるが、この繰り返し工程を1回も行わない、又は十分に収束していない状態でステップを終了して、特定遺伝子座群又は個別の遺伝子座のアリルのタイピングを行う事も可能である。
【0135】
(2)変分ベイズ法
変分ベイズ法は、ベイズ推定法においてパラメータの事後確率分布を推定することによって、よりノイズに強い安定した推定を行うための方法である。
【0136】
式(1)で示した、本発明の推定方法の完全尤度(事後同時分布)の数式は、全ての可能な潜在変数Zにわたる積分を伴い、解析的に解けない。そのため、当該完全尤度(事後同時分布)において、潜在的変数及びモデルパラメータの因子分解を、
【数19】
と仮定することによって、近似値を求めるものである。
【0137】
上述したように、θの事前分布について、本発明では、ディリクレ分布、
【数20】
[式中、Πt=1θ=1、Tは検討する特定遺伝子座群のアリルの数であり、αはハイパーパラメータであり、
【数21】
そしてг(・)は、ガンマ関数である。]
を用いる。本発明において、ヒトMHCであるHLA等の特定遺伝子座群又は個別の遺伝子座のアリル頻度の相対的差異について予備知識はないという仮定に基づいて、全ての特定遺伝子座群又は個別の遺伝子座のアリルについて単一のハイパーパラメータαが用いられることが好適である。当該単一ハイパーパラメータαは、目的パラメータの複雑さ、すなわち θ > 0 となる個数を制御する。α ≧1の時、α−1は、特定遺伝子座のアリルに割り当てられるリードの事前カウントとして解釈され得、α<1の時、当該事前分布は、特定遺伝子座群又は個別の遺伝子座のアリルのいくつかがゼロの傾向を与える。具体的には、0<α≦0.1、もしくは対数周辺尤度の下限を最大化するαを設定することが好適である。アリル頻度の事前情報が既知の場合は、αをそれぞれのtについてアリル頻度の事前情報の高いものから順に大きい値が与えられるようにα> 0を重み付けして設定することも可能である。ハイパーパラメータαが所与のもと、対数周辺尤度の下限は、変分ベイズ推定アルゴリズムによって繰り返しにより最大化される。
【0138】
変分ベイズ法による本発明の推定方法は、下記(a)〜(d)のステップを行うことを特徴とする本発明の推定方法として例示される(この方法を「本発明の変分ベイズ法」ともいう)。
【0139】
(a) 所与された特定遺伝子座群又は個別の遺伝子座のアリルtのアリル頻度についての予備知識の分布を示すハイパーパラメータαの初期値に基づくθの事後分布の更新値に基づいてZnts又はZntの事後分布を算出し、さらに、当該Znts又はZntの事後分布に基づいてθの第1の更新事後分布の更新値を算出するステップ、あるいは、(b)所与されたZnts又はZntの初期分布に基づいてθの第1の事後分布の更新値を算出するステップ、
(c) 直前のステップ(d)(ただし、初回はステップ(a)又はステップ(b)である)により算出されたθに基づいて、新たにZnts又はZntの事後分布を算出するステップ、
(d) ステップ(c)において算出された Znts又はZntの事後分布を基にして、θの事後分布を新たに算出して更新するステップ、
(e) ステップ(d)において得られたθの事後分布の期待値の収束性を評価するステップであって、当該期待値における収束が認められれば、当該収束期待値をθの推定値として決定し、収束が認められなければ、ステップ(c)、(d)、及び、(e)の繰り返しを決定する。
【0140】
上記の(a)ステップは、繰り返し最適化を行う本法の初期値を定義するステップである。具体的には、各特定遺伝子座群又は個別の遺伝子座のアリルtについて、q(θ)のパラメータであるαについて、各々の特定遺伝子座群又は個別の遺伝子座のアリル頻度は等しいと仮定して、α=(N/T+ α) / Σ(N/T + α)を設定することが好ましい。
【0141】
(b)ステップは、q(θ)の現在の推定値が所与のもと、E[Znts]又はE[Znt]を計算するステップである。E[Znts]の値は、nについては1からNの各々の数字であり、tについては1からTについての各々の数字であり、sについては1≦s≦l−L+1、lは、特定遺伝子座群又は個別の遺伝子座のアリルtの長さ、Lはリード長である。E[Znts]は、q(θ)の現在の推定値に基づいて、
【数22】
【0142】
ここで、シングルエンドリードの場合、
【数23】
(logρntsを算出するための右辺第1項の変数は上記式(1)(a)の対数に期待値を取ったもの、第2項は上記式(1)(c)に、及び、第3項は上記式(2)について、対数計算することにより算出することができる)
【0143】
また、ペアエンドリードの場合、
【数24】
(logρntsを算出するための右辺中括弧内第1項は上記式(3)(a)の対数に期待値を取ったもの、第2項は上記式(3)(a’)に、第3項は上記式(3)(b)に、第4項は上記式(4−1)に、及び、第5項は上記式(4−2)について、対数計算することにより算出することができる)
【0144】
一方Zntは、上記Zntsを各tについて可能なsについて全てを考慮したものであるため、
【数25】
として計算される。
【0145】
以下、Zntsの代わりに、Zntを用いて一連の計算を行い、以降のステップを実行することも可能である。
【0146】
ここで、
【数26】
(式中、ψ(・)はディガンマ関数である)
である。
【0147】
(c)ステップは、q(Z)の現在の推定値が所与のもと、Eθ[θ]を計算するステップである。
【0148】
θ[θ]は、q(Z)の現在の推定値に基づいて、
【数27】
として計算される。
【0149】
従って、q(θ)もまたディリクレ分布であり、事前分布p(θ)は共役事前分布である。
【0150】
(d)ステップにおいて、収束基準の好適な一例として、存在量パラメータの期待値Eθ[θ]>10−7である特定遺伝子座のアリル頻度についての、相対的変化10−3が収束基準として使用されるが、異なる収束基準を用いることも可能である。
【0151】
ここで変分の下限についての検討を行い、本発明の変分ベイズ法の更新により得られる収束値が、真の目的変数θを近似するものであることを示す。
【0152】
本発明の変分ベイズ法における対数周辺尤度は、
【数28】
(式中、
【数29】
として分解することができる。
【0153】
KL(q||p)は、q(θ, Z)とp(θ, Z |R)の間のカルバック・ライブラー距離であるので、対数周辺尤度は、L(q)によって下限を与えられる。すなわち、カルバック・ライブラー距離は常に0以上であるため、L(q)が当該周辺尤度の下限を構成する。上記の(b)ステップと(c)ステップを繰り返し更新する度に、L(q)(対数周辺尤度の下限)を増加させることが一般的に示される(Bishop CM. Pattern Recognition and Machine Learning. Springer Science:Business Media, LLC, New York, NY, USA; 2006)。
【0154】
上記の因子分解仮定
【数30】
を用いて、
【数31】
(式中、
【数32】
である。
【0155】
なお、通常は(e)ステップの「ステップ(c)、(d)、及び、(e)の繰り返し」が、1回以上は行われるが、この繰り返し工程を1回も行わない、又は収束する以前でステップを終了する場合も想定される。
【0156】
(3)EMアルゴリズムを用いるコンピュータシステムとコンピュータプログラム
【0157】
(i)上述したEMアルゴリズムを用いるコンピュータシステムとして、例えば、下記のコンピュータシステムが挙げられる。この本発明のコンピュータシステムの態様は、上記のEMアルゴリズムを用いた推定方法をコンピュータにおいて実行することを特徴とするコンピュータシステムである。
【0158】
当該コンピュータシステムは、特定遺伝子座群又は個別遺伝子座の対応リード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群のアリルに対する期待マッピング数を最適化するコンピュータシステムであって、記録部と演算処理部を具え、下記の処理(A)〜(E)の全部又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(b)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)=1、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)=1、の事後確率の初期値の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θに基づき、当該指標変数Znts又はZnt=1の事後確率の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZnt=1の事後確率に基づいて変数θの最尤推定値の第1の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの最尤推定値の第1の更新値に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新値が算出されるループ処理が、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束した変数θが最適化されたθとして、上記記録部に記録がなされる;
処理が実行されることを特徴とするコンピュータシステムである。
【0159】
(ii)上述したEMアルゴリズムを用いるコンピュータプログラムとして、例えば、下記のコンピュータプログラムが挙げられる。この本発明のコンピュータプログラムの態様は、上記のEMアルゴリズムを用いた推定方法をコンピュータにおいて実現することを特徴とするコンピュータプログラムである。
【0160】
当該コンピュータプログラムは、特定遺伝子座群又は個別遺伝子座の対応リード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第5の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(b)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)=1、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)=1、の事後確率の初期値の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θに基づき、当該指標変数Znts又はZntの算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能により算出した当該指標変数Znts=1又はZnt=1基づいて変数θの最尤推定値の第1の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの最尤推定値の第1の更新値に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新値を算出するループ処理を、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行し、収束した変数θが最適化されたθとして、上記記録部に記録を行う、第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムである。
【0161】
(4)変分ベイズ法を用いるコンピュータシステムとコンピュータプログラム
【0162】
(i)上述した変分ベイズ法を用いるコンピュータシステムとして、例えば、下記のコンピュータシステムが挙げられる。この本発明のコンピュータシステムの態様は、上記の変分ベイズ法を用いた推定方法をコンピュータにおいて実行することを特徴とするコンピュータシステムである。
【0163】
当該コンピュータシステムは、特定遺伝子座群又は個別遺伝子座の対応リード情報が混在したデータについて、個々のリードにおける個々のアリルに対する期待マッピング数を最適化するコンピュータシステムであって、記録部と演算処理部を具え、下記処理(A)〜(E)の全部又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαの初期値に基づくθの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数T
(b)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)の事後分布の初期分布の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの第1の更新事後分布に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新事後分布が算出されるループ処理が、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束したθの期待値が最適化されたθのデータとして、上記記録部に記録がなされる;
が実行されることを特徴とするコンピュータシステムである。
【0164】
(ii)上述した変分ベイズ法を用いるコンピュータプログラムとして、例えば、下記のコンピュータプログラムが挙げられる。この本発明のコンピュータプログラムの態様は、上記の変分ベイズ法を用いた推定方法をコンピュータにおいて実現することを特徴とするコンピュータプログラムである。
【0165】
当該コンピュータプログラムは、特定遺伝子座群又は個別遺伝子座の対応リード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第5の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαの初期値に基づくθの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座のアリル選択に関する、θに依存する変数T
(b)リードnの開始位置に関する、Tに依存するS
が要約された、指標変数Znts(Zntsは、(T,S)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tが要約された、Znt(Zntは、T=tの場合1であり、それ以外は0である。)、の事後分布の初期分布の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能で算出した当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの第1の更新事後分布に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新事後分布を算出するループ処理を、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行して、収束したθの期待値を最適化されたθのデータとして、上記記録部に記録を行う第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムである。
【0166】
[B] 本発明の方法のさらに具体的な形態
ここでは、特定遺伝子座群をヒトMHCであるHLA遺伝子座群として用いた例を開示するが、ここに開示したアルゴリズムは、他の遺伝子座、例えば、シトクロムP450遺伝子座群、免疫グロブリンをコードする遺伝子座群、T細胞受容体をコードする遺伝子座群、嗅覚受容体をコードする遺伝子座群を対象にしてもよい。上記したように、本発明の方法は最適化方法と判定方法の総称として用いる。
【0167】
図1は、被験者のHLA遺伝子座の遺伝型を予測するための本発明の方法の処理の流れである。この処理の流れの各々の要素は、全てコンピュータにおいて、必要に応じてコンピュータネットワークやデータベースを介して、コンピュータソフトウエアのアルゴリズムを実現する命令に基づき電子的に行われるものである。
【0168】
ボックスB1−1は、リードデータの存在を示しており、ボックスB1−2は、ヒトゲノム参照配列の存在を示している。上述した通り「リードデータ」(ボックスB1−1)は、被験者の遺伝子検体を高性能シークエンサで処理することにより得られる、個々のDNA断片(リード)の一部又は全部の塩基配列の電子情報であり、通常は読み取り精度を示す情報も付加されている(FASTQ:DNAの塩基配列を表すFASTAフォーマットに由来する用語)。また、この段階で「全リード深度」が確定している。「ヒトゲノム参照配列」(ボックスB1−2)は、上述した通りに一個人もしくは複数のゲノム配列情報に帰着するものであり、その提供源は特に限定されない。被験者と当該ゲノム配列情報の人種が異なっており、HLA遺伝子配列に関して異質性を含んでいることも想定される。参照配列のバージョン変更に本発明の実質的な効果が依存するものではなく、常にこれに対応させて被験者のHLA型を決定することが可能であり、現在又は将来提供される最新の参照配列を用いることができる。ヒトゲノム参照配列として、例えば、UCSC(University of California Santa Cruz)が管理しているヒトゲノム参照配列(hg19等)、Genome Reference Consortiumが管理しているヒトゲノム参照配列(GRCh37等)等が挙げられるが、これらに限定されるものではない。また、上述したように参照配列として、例えば、ターゲットシークエンス、Exоmeシークエンス、RNAシークエンス、PacBio RS II、Oxford Nanopore等のロングリードシークエンスデータ等も用いることができる。
【0169】
ステップS1は、1回目のマッピングを行うステップであり、上記ボックスB1−1の「リードデータ」を、ボックスB1−2の「ヒトゲノム参照配列」に対してマッピングを行うステップである。このマッピングに関しては、当業者であればコンピュータで当該マッピングを実現可能なアルゴリズムを含むコンピュータプログラムを作出して行うことも可能であるが、既に提供されているソフトウエアを用いることも可能である。既存のマッピング用のソフトウエアとして、例えば、BWA−MEM(http://bio-bwa.source.net/)、Bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)、Novoalign (http://www.novocraft.com/products/novoalign/) 等が挙げられる。が挙げられる。また、上記リードデータがペアエンドシークエンスデータの場合は、リードの両端の塩基配列(ペア)の一方がHLA遺伝子座にマッピングされており、他方がマッピングされていない場合は、当該ペアの両方のリードを抽出して以下の工程に用いることが好適である。
【0170】
なお、上記のヒトゲノム参照配列には「おとり配列」が含まれることが好適である。「おとり配列」とは、予め用意された参照配列には存在しないゲノム配列である。おとり配列を用いない場合、ヒトゲノム参照配列に登録されている配列由来ではないリードが、既存のヒトゲノム参照配列のどこかにマッピングされてしまう危険性が高くなり、マッピングの精度が低下する可能性があるからである。おとり配列としては、hs37d5(ftp: //ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz)等が例示される。
【0171】
ボックスB2は、上記S1における「1回目のマッピングの結果」の存在を示すボックスであり、マッピングの結果は、SAM形式又はBAM形式等のフォーマットで存在している。
【0172】
ステップS2−1は、上記ボックスB2の「1回目のマッピングの結果」から、「HLA遺伝子座群にマッピングされたリードの抽出」を行うステップであり、ステップS2−2は、ヒトゲノム参照配列のどの箇所にもマッピングがなされなかった「非マッピングリードの抽出」を行うステップである。これらの抽出の実行に関しては、当業者であればコンピュータで当該抽出を実現可能なアルゴリズムを含むコンピュータプログラムを作出して行うことも可能であるが、既に提供されているソフトウエアを用いることも可能である。既存の抽出用のソフトウエアとして、例えば、SAMtools(http://samtools.sourceforge.net/)が挙げられる。この抽出ステップにおいては必要な処理な処理が、少なくとも全てのHLA遺伝子座にわたるので数が多く、可能な限り効率的な演算を行うことが好適である。よって、全てのHLA遺伝子座(現状では、HLA−A、−B、−C、−DM、−DO、−DP、−DQ、−DR、−E、−F、−G、−H、−J、−K、−L、−P、−V、−MIC、及び−TAPがIMGT/HLAデータベースに登録されている)に関する抽出が行われるように、上記コンピュータプログラムが設計されていることが好適である。上記SAMtoolsにおいては、容易に抽出処理が可能である。ステップS2−2の「非マッピングリードの抽出」は、上述した通りに参照ゲノム配列と被験者のゲノム配列の根源的なズレによってマッピングされなかったHLA遺伝子座群由来のリードの喪失を防ぐためにステップとして設定されていることが好ましい。
【0173】
これらのステップS2により、実質的にHLA遺伝子座以外にマッピングされたリードの情報が除かれる。
【0174】
ボックスB3は、上記ステップS2により抽出されたリード情報(抽出済みリード)の存在を示すボックスであり、ボックスB4は、「HLAアリルの参照配列」の情報の存在を示すボックスである。HLAアリルの参照配列情報は、HLAアリルのゲノム情報が格納されているデータベースに由来する電子情報である。当該データベースとしては、例えば、IMGT/HLA(http://www.ebi.ac.uk/ipd/imgt/hla/)、等が挙げられる。これらのデータベース情報は、可能な限り最新の更新情報として取得することが好ましい。また、当該HLAアリルのゲノム情報には、実際にはタンパク質をコードしない遺伝子である「偽遺伝子」のHLAアリルも含めることが好適である。
【0175】
ステップS3は、前記ボックスB3の「抽出済みリード情報」の、ボックスB4の「HLAアリルの参照配列」に対する「2回目のマッピング」が実行されるステップである。この2回目のマッピングの実行形式は、一つのリードが複数のHLAアリルに対してマッピングされることを許容するように行われるようにマッピング用のソフトウエアが設計されていることが好適であり、上記のBWA−MEMにおいては「−aオプション」、Bowtie2においては「−kオプション」を指定して実行がなされることにより、この複数のHLAアリルに対するマッピングをコンピュータにおいて実現させることが可能である。
【0176】
ボックスB5は、上記ステップS3における「2回目のマッピングの結果」、すなわち、「HLA対応リード情報」の存在を示すボックスであり、当該情報はSAM形式又はBAM形式等のフォーマットで存在している。
【0177】
図1のうち、ここまでが上述した「本発明のマッピングプロセス」を示している。
【0178】
以下、ステップS4は上記「HLA対応リード情報」を最適化するステップであり、その詳細をフローシートとして図2図2−1、図2−2、図2−3)に示す。図2−1は、潜在変数Zntを用いた本発明の最適化方法の一態様(変分ベイズ法とEMアルゴリズム)を示すものであり、図2−2は、潜在変数Zntsを用いた本発明の最適化方法におけるEMアルゴリズムを用いた一態様を示すものであり、図2−3は、潜在変数Zntsを用いた本発明の最適化方法における変分ベイズ法を用いた一態様を示すものである。これらの態様に伴う詳細な計算工程は、特定遺伝子座群のアリルに対して前述した通りである。さらに、ボックスB6は所望する「HLA型の決定」がなされた電子情報の存在を示すボックスであるが、上記ステップS4からボックスB6に至る過程において、図3(後述)において示した棄却閾値を用いたHLAタイピング工程が好適に行われる。
【0179】
[潜在変数Zntを用いた最適化法の態様]
図2−1は、上記のように「HLA対応リード情報」の潜在変数Zntを用いた最適化工程の一態様を示すフローシートである。このフローシートは、直接的にはHLAアリル上の期待されるリードカウントについて、ベイズ推定を行うために、変分ベイズ法による予測を行う態様であるが、下記のハイパーパラメータαの繰り入れを行わない、最尤推定を行うためにEMアルゴリズムによる予測を行うことも可能である。
【0180】
ステップS4−11は、上記ボックスB4に示される「HLAアリルの参照配列」の読み出し、及び、ボックスB5に示される「HLA対応リード情報」の読み出しを行うステップである。
【0181】
ステップS4−12は、本コンピュータプログラムの実行による最適化処理に際して用いられるリードnの各HLAアリルへの期待マッピング数E[Znt]と、リード総量に対して各HLAアリルに割り当てられた合計期待マッピング数の割合の期待値E[θ]の初期化を行うためのステップである。
【0182】
ステップS4−13は、上記ステップS4−12により読み出した初期化値に基づき、全てのリードにおける個々のHLAアリルに対する合計期待マッピング数の数値化処理を行うステップである。ここに記載された数式の意義は、前述した通りである。rが「HLAアリルtに割り当てられた数値化された合計期待マッピング数」である。
【0183】
ステップS4−14は、上記ステップS4−13によって数値化された「合計期待マッピング数」を、それぞれ全てのHLAアリルにおける合計期待マッピング数の和で除して、リード総量に対して各HLAアリルに割り当てられた合計期待マッピング数の割合の期待値E[θ]を算出する処理を行うステップである。本ステップS4−14において、上述のようにハイパーパラメータαが繰り入れられており、ここでは変分ベイズ法の態様が記述されている。当該ハイパーパラメータαは、例えば、事前知識が何も無いと仮定して、一様分布を与えるα=1等が用いられるが、対数尤度の下限を最大化するα、例えば、α=0.01を用いることも好ましい。さらに前述したように、このハイパーパラメータの繰り入れを行わずに、パラメータθの最尤推定をおこなうEMアルゴリズム態様のフローシートとして用いることも可能である。
【0184】
ステップS4−15は、ループ処理に係わるステップであり、
(i)上記ステップS4−14により算出した合計期待マッピング数の割合の分布を、頻度分布として個々のHLAアリルに対して割り当て、当該割り当て頻度分布を前提にして、再び上記S4−13で改めて個々のリードにおける個々のHLAアリル毎の期待マッピング数を算出する機能、
(ii)上記(i)により算出した新たなリード毎の個々のHLAアリル毎の期待マッピング数に対して、再び上記ステップS4−13又はS4−14を実行して、HLAアリルにマッピングされているリード総量に対して各HLAアリルに割り当てられたリードの割合の分布を新たに算出する機能、
(iii)上記(i)と(ii)における算出処理を、今回の(i)の実行により算出するリード毎の個々のHLAアリルに対する期待マッピング数と、前回の(i)の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、今回の(ii)の実行により算出する合計期待マッピング数の割合の分布の期待値と、前回の(ii)の実行により算出する当該割合の分布の期待値との差が全てのHLAアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々のHLAアリルに対する期待マッピング数、又は、収束したHLAアリル毎のリードの割合の分布の期待値を、「収束値」として最適化されたデータとして認定する機能;
が、このステップS4−15の記述に含まれる。
【0185】
潜在変数Zntsを用いた最適化法の態様(1)
図2−2は、上記のように「HLA対応リード情報」の潜在変数Zntsを用いた最適化工程の一態様を示すフローシートである。このフローシートは、HLAアリル上の期待されるリードカウントについて、最尤推定を行うためにEMアルゴリズムによる予測を行うためのものである。
【0186】
ステップS4−21は上記ステップS4−11と同様に、「HLA対応リード情報」の読み出しを行うステップである。
【0187】
ステップS4−22は、本コンピュータプログラムの実行による最適化処理に際して用いられる潜在変数Znts(リードnがHLAアリルtの位置sから生成されている場合は1を取る潜在変数)と、θ(リード総量に対して各HLAアリルに割り当てられたリードの割合)の初期化を行うためのステップである。潜在変数Zntsの期待値は、E[Znts]と記述されている。ここでNは「リード総数」であり、Tは「HLAアリルの種類の総数」である。lは、HLAアリルtの長さであり、Lはリード長である。Mは、観測されたリードnのマッピング先の総数である。E[Znts]は、事前の無情報・一様分布を前提として、1/Mとして初期設定がなされている。θは、事前の無情報・一様分布を前提として、1/Tが初期値として与えられている。
【0188】
ステップS4−23は、上記ステップS4−22によって読み出した初期化情報に基づき、全てのリードにおける個々のHLAアリルに対する期待マッピング数の数値化処理を行うステップである。すなわち、直前に更新された(初回は上記ステップS4−22の初期化値)θtに基づいて、リードnのHLAアリルtの位置sへの割り当て分を示す潜在変数Zntsの期待値(E[Znts])、すなわち、「期待マッピング数」を再計算するステップであり、EM法のEステップに相当する。
【0189】
ステップS4−24は、上記ステップS4−23によって数値化された「期待マッピング数」を、HLAアリル毎に合算して「合計期待マッピング数」(r=Σn’,t’=t,s’ [Zn’t’s’])を算出し、さらに当該合計期待マッピング数を、それぞれ全てのHLAアリルにおける合計期待マッピング数の和で除して、リード総量に対して各HLAアリルに割り当てられたリードの割合「θ」の最尤推定値を算出する処理(θ=r/Σt’t’)を行うステップであり、EM法のMステップに相当するステップである。このステップは、対数尤度を局所最大化するθを算出することに対応している。
【0190】
ステップS4−25は、ループ処理に係わるステップである。すなわち、上記ステップS4−24で算出したθの最尤推定値の第1の更新値に基づいて上記ステップS4−23とステップS4−24を再度実行し、さらに、変数θの第2の更新値を算出するループ処理を、新たな更新値と前回の更新値との間における差異が全てのHLAアリルについて実質的に認められなくなるまで繰り返し実行し、収束した変数θが最適化されたθとして、上記記録部に記録を行う。
【0191】
潜在変数Zntsを用いた最適化法の態様(2)
図2−3は、上記のように「HLA対応リード情報」の潜在変数Zntsを用いた最適化工程の一態様を示すフローシートである。このフローシートは、HLAアリル上の期待されるリードカウント、及びHLAアリル頻度について、変分ベイズ法による予測を行うためのものである。
【0192】
ステップS4−31は上記ステップS4−11と同様に、「HLA対応リード情報」の読み出しを行うステップである。
【0193】
ステップS4−32は、本コンピュータプログラムの実行による最適化処理に際して用いられる潜在変数Znts(リードnがHLAアリルtの位置sから生成された場合は1、そうではない場合は0を取る指標変数)の事後分布と、θ(リード総量に対してHLAアリルに割り当てられたリードの割合)の事後分布の初期化を行うためのステップである。潜在変数Zntsの事後分布の期待値は、E[Znts]と記述されている。ここでNは「リード総数」であり、Tは「HLAアリルの種類の総数」である。lは、HLAアリルの長さであり、Lはリード長である。Mは、観測されたリードnのマッピング先の総数である。E[Znts]は、事前の無情報・一様分布を前提として、1/Mとして初期設定がなされている。θの事後分布の期待値であるEθ[θ]は、ディリクレ分布を事前分布として、αt/Σt’αt’として与えられる。ここでα=α+N/Tである。前述したように、αはハイパーパラメータであり、例えば、事前知識が何も無いと仮定して、一様分布を与えるα=1等が用いられるが、対数尤度の下限を最大化するα、例えばα=0.01を用いることも好ましい。
【0194】
ステップS4−33は、上記ステップS4−32によって読み出した初期化情報に基づき、全てのリードにおける個々のHLAアリルに対する期待マッピング数の数値化処理を行うステップである。すなわち、直前に更新された(初回は上記ステップS4−32の初期化値)θtの事後分布に基づいて、リードnのHLAアリルtの位置sへの割り当て分を示す潜在変数Zntsの事後分布の期待値(E[Znts])を再計算するステップであり、変分ベイズ法のEステップに相当する。
【0195】
ステップS4−34は、上記ステップS4−33によって数値化された「期待マッピング数」(E[Znts])によりθの事後分布を算出する、変分ベイズ法のMステップに相当するステップであり、θの事後分布の期待値Eθ[θ]は、直前のS4−33で算出されたE[Znts]によって、
【数33】
として計算される。
【0196】
ステップS4−35は、上記ステップS4−33とS4−34を繰り返すループ処理を行うか、当該ループ処理を終了するかの選択を行うステップである。
【0197】
すなわち、上記ステップS4−24で算出した変数θの第1の更新事後分布に基づいて上記ステップS4−33とS4−34を再度実行し、さらに、変数θの第2の更新事後分布を算出するループ処理を、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行して、収束したθの期待値を最適化されたθのデータとして、上記記録部に記録を行う。
【0198】
このようにして得られた「r」又は「θ」は、そのままHLAタイピングの指標とすることも可能であるが、好適には後述のHLAタイピング工程が施されることが好適である。
【0199】
図3は、上記の最適化工程を経て得られた「各HLAアリルに割り当てられたリードの割合『θ』、もしくはリードの割合『θ』の期待値」を基に、全リード深度を基準とする個別深度に対する棄却閾値を用いた当該HLAタイピング工程の一例を示したフローシートである。
【0200】
ステップS5−1は、上記の「各HLAアリルに割り当てられたリードの割合」から、各HLAアリルにおける「個別深度」を算出する処理を行うステップである。変数「t」と「n」の初期化を行い、S5−1ボックス内に示された数式を用いて当該個別深度「d」の算出処理が行われる。ここの算出過程の詳細については既に述べた。
【0201】
ステップS5−2は、ボックス内に記されているように、「各HLA遺伝子座について、HLAアリルのうち、個別深度「d」が大きなものから2つを選択し、最も大きい個別深度のアリルと、2番目に大きい個別深度のアリルを、それぞれ指定する処理を行うステップである。
【0202】
ステップS5−3は、上記の最も大きいアリルの個別深度「dfirst」が、棄却深度「D」よりも小さいか否かの選択処理を行うステップである。棄却深度「D」は、上述したように「全リード深度」の5〜50%、好適には10〜30%の間で選択される数値である。もしも、個別深度「dfirst」が棄却深度「D」よりも小さい場合には、「HLA型は決定されない」(結論D5−1)との判断がなされ、小さくない場合には、次の選択ステップS5−4に移行する判断がなされる。
【0203】
ステップS5−4は、上記の2番目に大きいアリルの個別深度「dsecond」が、棄却深度「D」よりも小さいか否かの選択処理を行うステップである。もしも、個別深度「dsecond」が棄却深度「D」よりも小さい場合には、選択ステップS5−5に移行する判断がなされ、小さくない場合には、選択ステップS5−6に移行する判断がなされる。
【0204】
ステップS5−5は、個別深度「dsecond」が棄却深度「D」よりも小さい場合に適用される選択ステップである。すなわち、上記「dfirst」が個別深度「D」の2倍より大きい場合には、「HLA型は、個別深度が最大のHLAアリルのホモ接合である」(結論D5−2)と決定する判断処理がなされ、2倍よりも大きくない場合には、「HLA型は、個別深度が最大のHLAアリルのヘテロ接合と決定し、ヘテロのもう一方のアリルは決定されない」(結論D5−3)とする判断処理がなされる。
【0205】
ステップS5−6は、ステップS5−4において「dsecond<D」ではない場合に適用される、さらなる選択ステップであって、上記「dfirst」が個別深度「D」の2倍より大きい場合には、「HLA型は、個別深度が最大のHLAアリルのホモ接合である」(結論D5−4)と決定する判断処理がなされ、2倍よりも大きくない場合には、「HLA型は、個別深度が最大と2番目のHLAアリルのヘテロ接合である」(結論D5−5)とする判断処理がなされる。
【0206】
以上のようにして本発明のシステムは、好適な形でのHLA型の決定(図1のボックスB6)を行うことができる。
【実施例】
【0207】
以下に、対象をヒトMHCであるHLAとして行った本発明の実施例を開示する。
【0208】
[A] 実施例において用いたソース
本実施例において用いたコンピュータシステムとコンピュータプログラム(以下、「本発明のシステム」と総称する)の実行に際して用いられたソースは、以下に示す通りである。
【0209】
(1)本発明のHLAマッピングプロセス
図1のボックスB1−1の「リード情報」を提供する次世代シークエンサは、HiSeq2000(Illumina社)を用いた。リード情報は、FASTAQフォーマットで提供され、引き続くリード情報も同様にFASTAQフォーマットである。
【0210】
ボックスB1−2の「ヒトゲノム参照配列」としては、hg19(UCSC)又はGRCh37(Genome Reference Consortium)を、おとり配列(hs37d5)と併せて用いた。
【0211】
ステップS1/S3のマッピングは、BWA−MEMにより実行された。ステップS3については、オプション “-a” が指定され、各リードについて全ての可能なマッピング先が出力されるように実行された。
【0212】
ボックスB2の「1回目のマッピング結果」、及び、ボックスB5の「2回目のマッピング結果」は、BAM形式で用いられた。
【0213】
ステップS2のマッピング結果の抽出用のソフトウエアとして、「SAMtools」を用いた。
【0214】
ボックスB4の「HLAアリルの参照配列」は、IMGT/HLAデータベースからFASTAフォーマットで提供された。
【0215】
(2)最適化プロセス
ステップS4の最適化プロセスは、図2−1の変分ベイズ法を用いたフローシートのアルゴリズムをペアエンドデータに適用することにより実行され、棄却深度は全リード深度の20%と設定がなされて、図3のフローシートのアルゴリズムにより棄却プロセスが実行された。
【0216】
[B]HLAタイピングの性能測定
(1)シミュレーション試験のあらまし
本発明のシステムの予測性能を、予測精度の観点で評価した。予測精度は、真のHLA型の中の真の陽性予測の分数として定義される。このシミュレーション実験において、6つのHLA遺伝子座(HLA−A、−B、−C、−DQA1、−DQB1、−DRB1)に関する2つのHLAアリル(ヘテロ接合又はホモ接合いずれか)が各個体で評価された。予測性能は、各方法について、2ケタ、4ケタ、6ケタ及び8ケタ解像度で別々に評価された。
【0217】
(2)シミュレーションデータ分析
シミュレーションデータ分析を用いて、本発明のシステムがHLA型を予測する性能を、他のシステムと比べて評価した。比較システムとして(a)PHLAT(Bai et al., BMC genomics, 15:325 (2014))、及び、(b)HLAminer(Warren et al., Genome medicine, 4(12):102 (2013))を用いた。これらの比較システムは、HLAクラスI遺伝子座(HLA−A、−B、−C)、及び、クラスII遺伝子座(HLA−DQA1、−DQB1及び−DRB1)を、全ヒトゲノム配列データから4ケタ解像度で分類することができることが知られている。
【0218】
まず、1000個体分のヒト試料のシミュレーションデータを準備した。6種類のHLA遺伝子座のためのそのHLAディプロタイプは、IMGT/HLAデータベースリリース3.15.0に登録されたHLAアリルからランダムに選択された。HLA型が各個体について確定されると、1000bpについて1つのSNPがヒトゲノムにおける平均塩基多様性に基づいて各個体のHLAアリルにおいて組み入れられた。次いで、100bpのペアエンドのリードデータ(平均深度が5×、10×、20×及び30×であって、その断片長分布の平均偏差及び標準偏差は、それぞれ300bp及び40bpとして設定された)が、0.1%の置換、削除及び挿入エラーを持って、HLAアリル配列の全域で均一に生成された。
【0219】
表1は、本発明のシステム及び上記既存ツールの予測精度を、30×シミュレーションデータ分析において示したものである。
【0220】
【表1】
【0221】
表1において、本発明のシステムは既存のPHLATやHLAminerでは実施出来ない8ケタ解像度でHLA型を99.94%という特に高い精度で推定することが出来た。既存のPHLATやHLAminerと推定精度を比較した場合、4ケタ解像度及び6ケタ解像度おいてはこれらの既存のソフトウエアよりも良好な解像性能を示すことが明らかになった。図4は、シミュレーションデータの範囲の種々の深度で、4ケタ解像度でのHLA型の予測精度を示した図面である。図4において、本発明のシステムを用いた場合の予測精度は、検討を行った深度全体にわたって、PHLAT及びHLAminerでの精度よりも常に良好であった。
【0222】
特に本発明のシステムでは、平均深度5×シミュレーションデータから、4ケタ解像度で99.36%の精度でHLA型の予測がなされた。PHLATは、尤度を算するためにSNP部位だけの検討が行われるが、その限られた情報のみでは、他の多型部位(例えば欠失又は挿入)がHLA型を決定するために重要な場合には有効とはいえない。PHLATのもう一つのあり得る欠点は、当該システムがHLAアリル頻度について事前情報を必要とすることである。しかし、HLAアリル頻度はヒト集団の中でも特に多様であり、提供された遺伝子検体の人種的なルーツを推測することは、常に可能であるとは限らない。それに対して本発明のシステムではHLAアリル頻度に関する事前情報は必要としない。
【0223】
(3)現実データの分析(1)
本発明のシステムを、国際HapMapプロジェクトで使用されたCEUトリオ試料(NA12878(子供)、NA12891(父親)、及び、NA12892(母親))の、PCR法による増幅がなされていない全ゲノムシークエンスデータに適用した。100bpのペアエンドデータを、HiSeq2000を用いて導出し、その平均挿入長は300bpであり、当該範囲における深度は各試料について45×であった(データ全てはIllumina社により提供された)。表2は、上記CEUトリオにおいて予測されたHLA型を示している。
【0224】
【表2】
【0225】
表2より、本発明のシステムを用いることにより予測されたクラスI遺伝子座(HLA−A、−B、及び、−C)に関するHLA型は、4ケタ解像度で実験的に検証されたHLA型と一致した。これらを表2中の太文字テキストで示した。HLA型の多くが、本発明のシステムにより、8ケタ解像度で予測された。本発明のシステムで予測されたHLA−A、−B及び−C遺伝子座のHLA型は、「B*07:02:01」(NA12891中の一つのアリル)を除いて、6ケタ解像度でPHLATにより予測されたものと一致していた。他の文献(Major et al., PloS one, 8(11):e78410 (2013))もまた、「B*07:02:01」としてNA12891の当該HLA−Bアリルの一つを報告している。これに対してPHLATは、当該HLA型を、「B*07:02:29」として予測した。全体的に本発明のシステムで予測されたトリオ(子供、父親及び母親)のHLA型は、PHLATで予測されたものよりも一致していた。
【0226】
本発明のシステムで予測されたHLA−DQA1、−DQB1及び−DRB1遺伝子座のHLA型は、DQA1*01:01:02(NA12878中の一つのアリル及びNA12892中の2つのアリル)を除いて、6ケタ解像度でPHLATにおいて予測されたものと一致していた。PHLATは、本発明のシステムではHLA型「DQA1*01:01:02」と予測したHLAアリルを「DQA1*01:01:01」として予測した。しかしながらそのゲノム配列自体が、IMGTデータベースリリース3.15.0において欠落しており、従って、両システム間の当否を判断することはできなかった。
【0227】
(4)現実データの分析(2)
本発明のシステムを、1KJPN集団(東北メディカル・メガバンク計画のコホート調査に参加した健常な日本人1,070人)に適用し、HLA−A、HLA−B、及び、HLA−C遺伝子座のHLAアリルを推定した。本例は、IMGT/HLAデータベースに登録されたゲノムHLAアリル配列に対する配列リードのマッピングに基づいている。これにより、2140アリルの中から2063アリルについてのHLA−Aアリルを、フル解像度(HLA命名規則における8桁)で、分類が可能であることを確認した。
【0228】
また、この際に予測された4桁解像度(アミノ酸配列を変更するヌクレオチドの相違)での、HLA−A、HLA−B、及び、HLA−Cのアリル頻度について、PCR−SSOP(Itoh,Y. et al.,Immunogenetics 57, 717-729(2005))を用いて別の日本人1018人の集団において決定された4桁解像度の頻度に非常に似ていることを確認した。比較された二つの日本人集団はどちらも1000人以上の十分な数のサンプルを含んでいるため、実際の日本人集団のHLAアリル頻度に近い分布をしていると考えられる。本発明のシステムの推定結果とPCR−SSOPの推定結果が非常に似ているという結果は、どちらの手法を使用しても、日本人集団のアリル頻度を4桁解像度で正しく推定できたということを示唆している。
【0229】
図5−1はHLA−Aについて、図5−2はHLA−Bについて、図5−3はHLA−Cについての両解析により算出されたHLAアリル頻度を検討した結果を示すグラフである。それぞれ、縦軸はアリル頻度、横軸は4桁解像度のHLAアリル型を示し、同じHLAアリル型の左側のグラフバーは今回の1KJPN集団において本発明のシステムを用いて推定した解析結果であり、右側のグラフバーは別の日本人1018人の集団においてPCR−SSOPが適用された解析結果を示している。
【産業上の利用可能性】
【0230】
本発明のシステムは、ヒトMHCであるHLA遺伝子座群やシトクロムP450遺伝子座群、免疫グロブリンをコードする遺伝子座群、T細胞受容体をコードする遺伝子座群、嗅覚受容体をコードする遺伝子座群等のゲノム中に類似の塩基配列を持つ座位が複数存在する、あるいは遺伝的多型が多数知られている遺伝子座群について、かならずしも遺伝子座特異的なプライマーデザイン又は当該遺伝子座群のアリル頻度の予備的知識の必要なく、全ゲノムシークエンスデータを用いる有効かつ正確な遺伝型のタイピングを実現する。個別、あるいは集団規模のシークエンスデータに関わらず、選択された任意の遺伝子座群での各遺伝子座の遺伝型のタイピングの際に、本発明のシステムを容易に適用することが可能であり、それは、遺伝型と表現型の関連を特定するための研究に、また、臓器移植の際のドナーとレシピエントのHLA型マッチングのような臨床業務に、有用である。また、HLA以外のMHC、例えば、マウスMHCであるH−2(histocompatibility-2)等の哺乳類のMHCや、ニワトリのB遺伝子座等の鳥類のMHCについて、本発明を適用して遺伝型を推定することにより、より的確かつ詳細な品種の鑑別、さらにペットや保護動物の疾病の治療指針を立てる基礎知見の提供手段として、本発明を用いることが可能である。
【符号の説明】
【0231】
B1−1・・・リードデータの存在を示すボックス
B1−2・・・ヒトゲノム参照配列の存在を示すボックス
S1・・・1回目のマッピングを行うステップ
B2・・・1回目のマッピングの結果の存在を示すステップ
S2−1・・・1回目のマッピングの結果からリードの抽出を行うステップ
S2−2・・・非マッピングリードの抽出を行うステップ
B3・・・S2により抽出されたリード情報の存在を示すボックス
B4・・・HLAアリルの参照配列の存在を示すボックス
S3・・・2回目のマッピングを行うステップ
B5・・・HLA対応リード情報の存在を示すボックス
B6・・・HLA型の決定がなされた電子情報の存在を示すボックス
S4−11・・・最適化を行うための読み出し機能を記述するステップ
S4−12・・・最適化処理を行うためのパラメータの初期化を行うステップ
S4−13・・・最適化を行うためのEステップの機能を記述するステップ
S4−14・・・最適化を行うためのMステップの機能を記述するステップ
S4−15・・・最適化を行うためのループ・収束機能を記述するステップ
S4−21・・・最適化を行うための読み出し機能を記述するステップ
S4−22・・・最適化処理を行うためのパラメータの初期化を行うステップ
S4−23・・・最適化を行うためのEステップの機能を記述するステップ
S4−24・・・最適化を行うためのMステップの機能を記述するステップ
S4−25・・・最適化を行うためのループ・収束機能を記述するステップ
S4−31・・・最適化を行うための読み出し機能を記述するステップ
S4−32・・・最適化処理を行うためのパラメータの初期化を行うステップ
S4−33・・・最適化を行うためのEステップの機能を記述するステップ
S4−34・・・最適化を行うためのMステップの機能を記述するステップ
S4−35・・・最適化を行うためのループ・収束機能を記述するステップ
S5−1・・・個別深度を算出する処理を行うステップ
S5−2・・・個別深度の大きな2つを選択する処理を行うステップ
S5−3・・・棄却深度と最大の個別深度の大小によって選択処理を行うステップ
D5−1・・・HLA型が決定されない結論を示すボックス
S5−4・・・棄却深度と2番目の個別深度の大小によって選択処理を行うステップ
S5−5・・・2番目の個別深度が棄却深度よりも小さい場合に行われるステップ
D5−2・・・最大の個別深度のHLAアリルのホモ接合との結論を示すボックス
D5−3・・・最大の個別深度のHLAアリルのヘテロ接合であり、もう一方のアリルは決定しないとの結論を示すボックス
S5−6・・・2番目の個別深度が棄却深度よりも小さくない場合に行われるステップ
D5−4・・・最大の個別深度のHLAアリルのホモ接合との結論を示すボックス
D5−5・・・最大と2番目の個別深度のHLAアリルのヘテロ接合との結論を示すボックス
図1
図2-1】
図2-2】
図2-3】
図3
図4
図5-1】
図5-2】
図5-3】