【課題を解決するための手段】
【0010】
本発明者らは、この課題の解決に向けて検討を行う過程で、遺伝子座群として、ヒトのMHC遺伝子座群であるHLA遺伝子座群を選択して、被験者の検体DNAから高性能シークエンサにより全ゲノムシークエンスリードデータを得、当該遺伝子座群のHLAアリル参照配列に対するマッピングを行いリードデータとHLAアリル参照配列のマッピング対応情報を得た。当該リードデータに対して各リードの各HLAアリル毎の期待マッピング数と、各HLAアリル毎のアリル頻度を求めるために最尤推定処理を行い、さらに好ましくはベイズ推定処理を行うことによって、極めて高精度のHLA型決定に用いることが可能なHLAアリル毎の期待マッピング数の最適化がなされることを見出し、ゲノム中に類似の塩基配列を持つ座位が複数存在する、あるいは遺伝的多型が多数知られている遺伝子座群の各遺伝子座のアリルを正確に決定できる本発明を完成した。なお、本発明において「高性能シークエンサ」は、本発明の実施に用いることができる、大量のリード情報を比較的短期間で提供することができるシークエンサであり、いわゆる「次世代シークエンサ」を含むものである。本発明を行った時点における次世代シークエンサとしては、例えば、Genome Sequencer FLX(Roche(454)社)、Genome Analyzer IIx、HiSeq2000、HiSeq2500、MiSeq (共にIllumina社)、SOLiD (Applied Biosystem社)、PacBio RS II (Pacific Biosciences 社)等が挙げられるが、これらに限定されるものではなく、現在、将来において提供される高性能シークエンサの全てを含むものである。
【0011】
本発明完成時点において、リード情報には、概ね、シングルエンドのリード情報と、ペアエンドのリード情報の2種類の形式が認められる。シングルエンドのリード情報とは、リードに対応するDNA断片の塩基配列の片端の一定長又は可変長(概ね50〜300bp程度)についてのリード情報であり、ペアエンドのリード情報とは、当該DNA断片の両端の一定長又は可変長(概ね50〜300bp程度)についてのリード情報である。技術の進歩に応じてリード情報の内容も日進月歩であるが、本発明においては現在又は将来提供されるリード情報を適用させることが可能である。
【0012】
選択される遺伝子座群は、上記したように類似の塩基配列を有する遺伝子や擬遺伝子が複数存在し、当該遺伝子座群の各遺伝子座における遺伝的多型(アリル)が多数知られている遺伝子座が、好適な遺伝子座である。当業者の技術常識として、このような遺伝子座群として、HLAの遺伝子座群等のMHC遺伝子座群の他に、例えば、シトクロムP450(Cytochrome P450:CYP)遺伝子座群、免疫グロブリンをコードする遺伝子座群、T細胞受容体をコードする遺伝子座群、嗅覚受容体をコードする遺伝子群等が知られている。シトクロムP450は、薬物代謝、解毒に関与する酸化還元酵素ファミリーに属する酵素の総称であり、ヒトでは57個の機能遺伝子及び58個の擬遺伝子が知られている。さらに、当該遺伝子座群の遺伝的多型(アリル)はこれまでに2000種以上が知られており、これらに応じて各種薬物の代謝速度に個人差が現れることが知られている。本明細書に開示した実施例のMHC遺伝子座群の一つであるHLA遺伝子座群を、他の複雑な構造の遺伝子座、例えば、シトクロムP450遺伝子座群に置き換えても同様の良好な効果が得られることは、本発明完成時において明らかであった。
【0013】
また、個別の遺伝子座とは、遺伝子座群を構成する個別の遺伝子座であり、例えば、HLAの遺伝子座群であれば、HLA-A、HLA-B、HLA-C等が挙げられる。
【0014】
[A]
本発明の最適化方法
本発明は、選択された遺伝子座群又は個別の遺伝子座(以下、特定遺伝子座群又は個別の遺伝子座ともいう)のアリル由来のDNAのリード情報が混在したデータのリードの塩基配列に対してマッピングを行うことにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報(以下、特定遺伝子座群又は個別遺伝子座の対応リード情報ともいう)に対して、下記のステップ(1)〜(6)の全部又は一部が実行されることを特徴とする、遺伝子のリード情報の最適化方法(以下、本発明の最適化方法ともいう)を提供する。本発明の最適化方法は、コンピュータにおいて実行される方法である。
【0015】
(1) 個々のリードにおける個々の特定遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化が行われるステップ。
「期待マッピング数」は、リード毎に各アリルに対して定義され、後述する「合計期待マッピング数」は、アリル毎に定義され、さらに、「合計期待マッピング数の和」は、当該遺伝子座群又は個別の遺伝子座について定義されるマッピング数である。本発明においては、「マッピング」と「アライメント」は同意義である。
【0016】
(2) ステップ(1)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出されるステップ。
【0017】
当該ステップ(2)を数式で一例を示せば、例えば下記式(I)は、特定遺伝子座群又は個別の遺伝子座のアリルtから生ずる合計期待マッピング数r
tの、存在度パラメータの現在の推定値に基づいた算出式である。
【0018】
【数1】
[式中、Z
ntは、もしリードnがアリルtから生じるならば1をとり、それ以外の場合は0である指標変数であり、E
z[Z
nt]は、Z
ntの期待値である。ここで、Z
ntの期待値は、Z
nt=1の事後確率と同値である。 ]
【0019】
(3) ステップ(2)において算出された合計期待マッピング数が、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出されるステップ。
【0020】
当該ステップ(3)を数式で一例を示せば、例えば下記式(II)は、リード総量に対して各特定遺伝子座群又は個別の遺伝子座のアリルに割り当てられたリードの割合E
q[θ
t]の算出式である。
【0021】
【数2】
[式中、r
tは特定遺伝子座のアリルt から生ずる合計期待マッピング数、θは特定遺伝子座群又は個別の遺伝子座のアリル上のリードの存在量の頻度を示すパラメータである。]
【0022】
(4) ステップ(3)において得られたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再びステップ(1)により改めて得られた個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出されるステップ。
【0023】
(5) ステップ(4)において得られた新たな期待マッピング数に対して、再びステップ(2)又は(3)が実行され、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出されるステップ。
【0024】
(6) ステップ(4)と(5)が、ステップ(4)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回のステップ(4)で算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、ステップ(5)において算出されるリードの割合の値と、前回のステップ(5)で算出される当該割合の値との間における差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値が、最適化されたデータとして認定されるステップ。
【0025】
上記の本発明の最適化方法においては、ステップ(1)と(4)において推定される個々のリード毎の特定遺伝子座群又は個別の遺伝子座のアリル毎に対する期待マッピング数と、ステップ(3)と(5)において合算される特定遺伝子座群又は個別の遺伝子座のアリル毎のアリル頻度、のそれぞれが算出される際に、最尤推定を行うためにExpectation Maximizationアルゴリズム(EMアルゴリズム)が使用され、更に好ましくは、ベイズ推定を行うために変分ベイズ法を使用される。
【0026】
ここで、EMアルゴリズムと変分ベイズ法等の最適化手段を行うための前提を説明する。これは本願の優先権の基礎となる先の出願(特願2014−265704号:以下、先の出願ともいう)における開示について、さらに詳細に解説するものである。本発明においては、EMアルゴリズムと変分ベイズ法の他に、スパースベイズ法、Gibbs sampling法、MCMC法、EP法、PowerEP法等が挙げられる。
【0027】
本明細書、請求の範囲、及び、図面に記載されたパラメータや数等を示す記号は、発明の開示の便宜ための記号であり、本発明はそれらの記号の種類に全く限定されない。
【0028】
本発明の推定方法における推定要素として、観測データ、目的パラメータ、及び、観測データと目的パラメータを結びつける潜在変数が挙げられ、例えば、以下のように設定できる。
【0029】
[
観測データ]
観測データ(以下、R
nとも表現される)は、上記の通りに「特定遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおける、DNAリード(以下、リードnとも表現される)の塩基配列」である。DNA混在データは、検体のDNAシークエンスによるDNAのリードを、これとは別に、ヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリルの参照配列をリファレンス配列としてマッピングを行って得られたリード個別の情報の総和として提供されるデータである。当該リファレンス配列は、例えば特定遺伝子座群がHLA遺伝子座群である場合は、IMGT/HLAデータベース等から得られるが、当該遺伝子座群について、過去に別の検体でシークエンシング等により決定されたゲノム配列を使用することも可能である。なお、新規の特定遺伝子座の遺伝型、例えば、新規のHLA型が明らかになった場合には、当該新規遺伝型がデータベース等に逐次繰り入れられていることが好適である。本発明によって明らかになった新規の遺伝型も同様の繰り入れを行うことが好適である。本発明による新規の遺伝型の決定については後述する。
【0030】
観測データR
nは、上記の通りにN個(Nは自然数:リードの本数換算)のDNA混在データのうちのn番目のリードデータにおける塩基配列である。これは、N個の独立した一様に分布したリードデータとして観測されると仮定される。シングルエンドリードの場合は一本のリードに対して一つの観測データR
nが当て嵌められるが、ペアエンドリードの場合には、一本の断片に対して両端の塩基配列に対応した2つの観測データが組として当て嵌められる。すなわち、ペアエンドリードの場合は、例えばR
naとR
nbの組を構成するが、これらは同じ断片から由来する塩基情報であるため、このリードの組を一つの単位として扱うことによって、シングルエンドリードの場合と同様の統計的なモデルのもとで扱うことが容易に可能である(Nariai et al., Bioinformatics:15;29(18) 2013)。具体的には、当該先行文献に基づいた後述の[ペアエンドモデルの完全尤度]の記載の通りに計算対応が可能である。
【0031】
[
目的パラメータ]
目的パラメータは、上記の観測データR
nを基に推定がなされるパラメータである。本発明は、1つの目的パラメータ(以下、θとも表現される)を伴っている。
【0032】
目的パラメータθは、ヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリルの頻度を表すベクトルである。例えば、パラメータベクトルθ=(θ
1,...,θ
T)’(以下、特に断らない限り、ベクトル又は行列における「’」は転置を示す。)として、各特定遺伝子座群又は個別の遺伝子座のアリルについての存在度の分数を
【数3】
の制約の下で示すことができる。この場合、特定遺伝子座群又は個別の遺伝子座のアリルはT個(Tは自然数)存在すると仮定され、個々の特定遺伝子座群又は個別の遺伝子座のアリルはt(tは1以上の整数)としてカウントされる。
【0033】
目的パラメータθを推定することにより、本発明の目的である特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリル頻度、あるいは遺伝型の推定を行うことができる。
【0034】
[
潜在変数]
潜在変数は、上記観測データR
nが、どの特定遺伝子座群又は個別の遺伝子座のアリルから生成されたか、特定遺伝子座群又は個別の遺伝子座のアリルのどの場所から生成されたかを記述するため繰り入れられる非観測変数である。本発明においては、上記の2種の潜在変数(T
n,S
n)の当該2種、又は、T
nを単独で繰り入れてパラメータθを算出推定することで、的確にこれらの目的変数の推定を行い、さらにヒトMHCであるHLA等の特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の推定を行うことができる。これらの潜在変数を、上記観測データR
nからの目的パラメータθの推測工程に、観測データR
nが依存するように繰り入れて、パラメータθを算出推定することで、各遺伝子座の遺伝型の推定を的確に行うことができる。
【0035】
上記の潜在変数T
nは、リードnのヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリル選択に関する、上記θに依存する変数である。T
n=tは、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生することを意味している。
【0036】
上記の潜在変数S
nは、リードnの開始位置に関する、上記T
nに依存する変数である。S
n=sは、リードnが、位置s(1≦s≦l
t−L+1)(l
tは、特定遺伝子座群又は個別の遺伝子座のアリルtの長さであり、Lはリード長である)から発生していることを意味している。ここで、一般的にヒトMHCであるHLA等の本発明の推定方法の対象となる特定遺伝子座群又は個別の遺伝子座のアリルの長さl
tは、数百塩基長から数万塩基長であり、リードの塩基長よりも長いことが一般的である。また、開始位置sが1とは、特定遺伝子座群又は個別の遺伝子座のアリルの最初の塩基からリードが読まれたことを意味する。言い換えればS
nは、リードをヒトMHCであるHLA等の特定遺伝子座群又は個別の遺伝子座のアリルの参照配列にマッピングした際の、参照配列における開始位置のことを意味している。
【0037】
後述するように、特にペアエンドモデルの場合は、例えば、リード間の塩基断片の長さを反映する潜在変数F
n等を、上記T
nやS
nと共に遺伝型の推定計算に繰り入れることができる。
【0038】
[
本発明の推定方法の表現]
上記指標を用いた本発明の推定方法は、例えば、「選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおけるリード全体の塩基配列を観測データRとして、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を求めるステップ、並びに、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θ(θはT次元ベクトル、Tは当該遺伝子座群又は個別の遺伝子座のアリルの種類数)の推定値を求めるステップ、を含む被験者由来のDNAのリード情報の当該遺伝子座群又は個別の遺伝子座のアリルへのマッピングを、コンピュータにより最適化する最適化方法において、
上記目的パラメータθ、及び、観測データRを媒介する潜在変数である、(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関するθに依存する変数T
n、及び、(b)リードnの開始位置に関するT
nに依存するS
nについて、
リードnの塩基配列を観測データR
nとして、観測データR
nからの目的パラメータθの推測工程において観測データR
nが依存するように、少なくとも(i)変数T
n及びS
n、あるいは、(ii) 変数T
n、を繰り入れて当該推定値を算出することを特徴とする、最適化方法。 」
として表現され得る。
【0039】
[
シングルエンドモデルの完全尤度]
上記の指標を用いた本発明の最適化方法のパラメータと変数同士の依存関係を反映させた完全尤度(事後同時分布)は、条件付き確率の積として分解される。具体的には、下記式(1)により表される。各記号は、特に断らない限り、前記した通りである。
【0040】
【数4】
【0041】
式(1)において、
p(T
n=t|θ)は、θが所与のもと、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生する確率である。この確率は、p(T
n=t|θ)=θ
tとして計算され得る((1)(a))。
【0042】
p(S
n=s|T
n=t)は、特定遺伝子座群又は個別の遺伝子座のアリルtが所与のもと、リードnが位置sから発生する確率である。この確率は、p(S
n=s|T
n=t)=1/(l
t−L+1)として計算され得る((1)(b))。l
tはアリルtの参照配列の長さ、Lはリード長を表す。
【0043】
p(R
n|T
n=t,S
n=s)は、特定遺伝子座群又は個別の遺伝子座のアリル選択、及び、リードnの開始位置が所与のもと、リードnの塩基配列を観測する確率である。ここで、T
n及びS
nを要約するための指標変数Z
nts、又は、T
nを要約するための指標変数Z
nt、を導入することが好適である((1)(c))。
【0044】
Z
ntsは、(T
n,S
n)=(t,s)の場合、1に等しく、さもなければゼロである。仮に、π
nを、リードnの可能なマッピングについての全(t,s)組のセットとして、その時、各(t,s)∈π
nについて、下記式(2):
【数5】
(式中、subst ( , , )は、1からシークエンスの置換エラーを引いた数値を取るベースクオリティスコア依存置換確率関数であり、r
n[x]は、リードnの位置xの塩基文字であり、q
n[x]は、リードnの位置xのベースクオリティスコアであり、c
t[x]は、特定遺伝子座群又は個別の遺伝子座のアリルtの対応するDNA配列の位置xの塩基文字である)
によってリード配列の確率を計算することができる。ベースクオリティスコア置換確率関数,「subst ( , , )」 は、Phredベースクオリティスコアにしたがって決定することも可能であり、DNA−Seqデータからリードの参照DNA配列に対する最も良いアラインメントから見積もることもできる。なお、Phredベースクオリティスコアは、高性能シークエンサからFASTQフォーマットとして出力される塩基配列情報と共に提供される塩基読み取り精度の目安となるスコア、すなわち、シークエンサが出力するエラー率を示すスコアである(Phred quality score)。具体的には、当該スコアQは、
Q=−10log
10Y(Yは、エラー率)、で表される。
【0045】
一方、Z
ntは、T
n=tの場合、1に等しく、さもなければゼロである。Z
ntは、上記Z
ntsを各tについて可能なsについて全てを考慮したものであるため、(2)式から
【数6】
によってリード配列の確率を計算することができる。
【0046】
また、上記はシークエンスの置換エラーを考慮した計算式であるが、シークエンスの挿入・欠失エラーを考慮した計算式も、同様に容易に導出可能である(Nariai et al., Bioinformatics:15;29(18))。
【0047】
上記式(1)で示した、本発明の推定方法の完全尤度の数式は、以上のように解釈される。
【0048】
この数式(1)は、シングルエンドモデルによる本発明の推定方法に係る潜在変数の事後確率や事後分布を求める基礎となるものである。
【0049】
なお、潜在変数Z
ntについて、上記のようにZ
ntsに基づく変数としてではなく、Z
ntsとは独立した潜在変数として、すなわち上記のマッピングしたポジションを示す「s」を全く考慮に入れない潜在変数として設定が可能である。例えば、リードnがアリルtのどこかにマッピングされていれば、ポジション「s」は考慮に入れずに、マッピングツールが与えるマッピングスコアのみを利用して、期待マッピング数を算出する等も可能である。以下の開示における潜在変数Z
ntは、原則としてZ
ntsに基づく変数として用いられているが、ここに示すZ
ntsから独立した変数としてZ
ntを用いることも可能である。
【0050】
[
ペアエンドモデルの完全尤度]
ペアエンドデータの場合、上記の指標を用いた本発明の最適化方法のパラメータと変数同士の依存関係を反映させた完全尤度(事後同時分布)は、条件付き確率の積として分解される。具体的には、下記式(3)により表される。各記号は、特に断らない限り、前記した通りである。
【0051】
【数7】
【0052】
ここで、F
nはペアエンドリードの組「R
naとR
nb」のリファレンス配列へのマッピングから推測される塩基断片(フラグメント)の長さである。
【0053】
式(3)右辺において、p(T
n=t|θ)は、θが所与のもと、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生する確率である。この確率は、p(T
n=t|θ)=θ
tとして計算され得る((3)(a))。
【0054】
p(F
n=f|T
n=t)は、遺伝子座のアリルtが所与のもと、塩基断片の長さfが発生する確率である。d
F(x)を、事前に与えられている塩基断片の長さの分布とすると、この確率は、
【数8】
として計算され得る。ここでl
tはアリルtの参照配列の長さ、Lはリード長である。塩基断片の長さの分布d
F(x)は、例えば、平均μ
F、標準偏差σ
Fの正規分布として与える。平均μ
F、標準偏差σ
Fは、塩基断片を作成した際において塩基断片長の分布が実験的に分かっていればその値を指定しても良いが、事前に多数のペアエンドリードをアライメントした結果からこれらのパラメータを推定して指定しても良い。
【0055】
p(S
n=s|T
n=t,F
n=f)は、特定遺伝子座群又は個別の遺伝子座のアリルtが所与のもと、断片長fのリードnの組が位置sから発生する確率である。この確率は、p(S
n=s|T
n=t,F
n=f)=1/(l
t−f+1)として計算され得る((3)(b))。l
tはアリルtの参照配列の長さ、Lはリード長、fは塩基断片の長さを表す。
【0056】
p(R
na|T
n=t,S
n=s)及びp(R
nb|T
n=t,S
n=s,F
n=f)は、特定遺伝子座群又は個別の遺伝子座のアリル選択、リードnの組の開始位置、断片長が所与のもと、下記式(4−1,4−2)で計算される:
【0057】
【数9】
【0058】
式中、subst ( , , )は、1からシークエンスの置換エラーを引いた数値を取るベースクオリティスコア依存置換確率関数であり、r
na[x]は、リードnの組の一つ目の塩基配列R
naの位置xの塩基文字であり、q
na[x]は、リードnの組の一つ目の塩基配列位置xのベースクオリティスコアであり、c
ta[x]は、特定遺伝子座群又は個別の遺伝子座のアリルtのDNA配列について、リードnの組の一つ目の塩基配列とマッピングされた位置xの塩基文字であり、r
nb[x]は、リードnの組の二つ目の塩基配列R
nbの位置xの塩基文字であり、q
nb[x]は、リードnの組の一つ目の塩基配列位置xのベースクオリティスコアであり、c
tb[x]は、特定遺伝子座群又は個別の遺伝子座のアリルtのDNA配列について、リードnの組の二つ目の塩基配列とマッピングされた位置xの塩基文字である。
【0059】
上記数式(3)は、ペアエンドモデルによる本発明の推定方法に係る潜在変数の事後確率や事後分布を求める基礎となるものである。
【0060】
なお、上記のシングルエンドモデルにおける潜在変数Z
ntについての開示は、このペアエンドモデルにおいても適用することができる。
【0061】
[
ハイパーパラメータ]
特に、推定手段として変分ベイズ法等のベイズ推定法を行う際、ハイパーパラメータα
0(0<α
0)が繰り入れられ計算されることが好適であり、特に0<α
0≦0.1、もしくは対数尤度の下限を最大化する値であることが好適である。適切な値のハイパーパラメータα
0の繰り入れを行うことにより、はずれ値に強いロバスト性に優れたベイズ推定を行うことが可能となる。
【0062】
これを、上記式(II)を基に数式にて表すと、例えば、下記式(II)’で表される。
【0063】
【数10】
[式中、α
t=α
0+r
tである。]
【0064】
ハイパーパラメータα
0は、ベイズ推定における枠組みにおいて加味される定数である。すなわち、特定遺伝子座群又は個別の遺伝子座のアリル上のリードの存在量を示すパラメータθは、ベイズ推定における枠組みにおいては事後分布として推定することが可能であり、当該θの事前分布としてディリクレ分布(式(III)):
【数11】
[式中、Cは定数であり、Π
Tt=1θ
t=1、Tは検討する特定遺伝子座群又は個別の遺伝子座のアリルの数であり、α
tはハイパーパラメータである。]
を仮定する。パラメータθの複雑さ(θ
t>0となる個数)をコントロールするハイパーパラメータα
0を、測定データの対数周辺尤度を最大化するように選択する。
【0065】
そして、測定データを前提としてθの事後分布を予測することは、潜在変数に対する積分を必要とし、閉形式で計算し難い。そこで、潜在変数とパラメータθの因子分解を仮定することによって、事後確率分布の近似式を得て導出される式が、上記式(II)’である。
【0066】
ハイパーパラメータについては、改めて記載を行う。
【0067】
上記した本発明の最適化方法は、特定遺伝子座群又は個別遺伝子座の対応リード情報であれば特に限定されずに用いることができる。例えば、特定遺伝子座群のある遺伝子座又は個別の遺伝子座に対応したプライマーを用いて調製された遺伝子増幅産物に対して、高性能シークエンサによる処理を経て得られた当該遺伝子座対応リード情報であっても良いし、当該遺伝子座対応リード情報をさらに当該遺伝子座のアリルとのマッピングを行ったリード情報であっても良い。しかしながら、本発明の最適化方法は、このような事前の特定遺伝子座群のある遺伝子座又は個別の遺伝子座における被験者の遺伝子の増幅工程を行わずに、被験者の遺伝子検体を高性能シークエンサで処理を行って得られる全ゲノムリード情報に対して、当該遺伝子座群又は個別の遺伝子座のアリルに対するマッピングを行った特定遺伝子座群又は個別遺伝子座の対応リード情報に対しても適用することができる。
【0068】
本発明においては、特定遺伝子座群又は個別遺伝子座の対応リード情報を取得するためのマッピングが、下記のステップ(a)及び(b)により実行されることを特徴とする、本発明の最適化方法を提供する。以下、これらのステップを行うプロセスを、「本発明の特定遺伝子座群又は個別の遺伝子座のマッピングプロセス」ともいう。
【0069】
(a) 遺伝子シークエンサにより得られた被験者のリードの塩基配列情報において、ヒト遺伝子の塩基配列に対するマッピングが行われ、特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードが抽出されるステップ、
【0070】
この最初のマッピングの対象はヒト全ゲノム配列であることが好適な態様の一つであり、慣習的に特定の人物(解析対象として選択された人物、あるいは特定の人物の組み合わせ)のゲノム配列が対象になる。通常は、国際ゲノムコンソーシアム等の機関が決定したゲノム配列である。この1回目のマッピングによって、当該遺伝子座群又は個別の遺伝子座のアリルに関係の無いリードを除くことができる。なお、上記のヒト全ゲノム配列以外に、例えば、ターゲットシークエンス、Exоmeシークエンス、RNAシークエンス、PacBio RS II、Oxford Nanopore等のロングリードシークエンスデータ等も上記マッピング対象配列として用いることができる。
【0071】
(b) ステップ(a)により抽出された特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報を、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングを行うことにより、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出され、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報が得られるステップ、
【0072】
この2回目のマッピングの対象は、データベースに登録されている特定遺伝子座群又は個別の遺伝子座の全てのアリルの遺伝子配列である。これにより、いわば仮の特定遺伝子座群又は個別の遺伝子座の対応リード情報を得ることができる。
【0073】
本発明の特定遺伝子座群又は個別の遺伝子座のマッピングプロセスに対応する、上記のステップ(b)におけるマッピングは、一つのリードが複数の特定遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容するものであることが好適である。この時点で機械的にマッピング対象が絞り込まれると、導出される特定遺伝子座群又は個別遺伝子座の対応リード情報に関して不適切なバイアスを折り込んでしまう可能性が強くなる。
【0074】
上述した通りに、上記ステップ(a)において用いる遺伝子シークエンサにより得られたリードの配列情報は、各DNA断片の両端からの読み取り(それぞれ50〜300bp程度)を行うペアエンドの配列情報であってもよい。各DNA断片の片側からの読み取り(50〜300bp程度)を行うシングルエンドの配列情報でも良いが、ペアエンドの方が、1本のDNAフラグメント(通常、300〜1000bp程度)に対応した配列情報が当該リードの両端で結ばれる範囲で特定され、より精度の高いマッピングが期待され、結果としてより精度の高いアリルの推定が可能となる。
【0075】
また、ステップ(a)の特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出され、これが(b)ステップの再マッピングの対象とされることが好ましい。上記ステップ(a)のマッピングの対象ゲノムは、特定の人物もしくは複数の人物の組み合わせのゲノムであり、具体的検出対象とは合わない場合が想定されるからである。例えば、特定遺伝子座群がヒトMHCであるHLA遺伝子座群である場合に、マッピングの対象ゲノムが西洋人のゲノムであり、被験者が日本人の場合には、HLA遺伝子座群の配列がマッピング対象ゲノムとは大きく異なる可能性があり、当該被験者のHLA遺伝子座群由来のリードが当該対象ゲノムにマッピングされない可能性がある。これを担保するために上記の処理が行われる。
【0076】
[B]
本発明の判定方法
本発明の最適化方法で得られた特定遺伝子座群又は個別遺伝子座の対応リード情報を、そのまま特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定指標として用いることが可能である。特に、高機能シークエンサの使用の段階で、特定遺伝子座群のある遺伝子座又は個別の遺伝子座に対応した遺伝子増幅用プライマーを用いたPCR法等の遺伝子増幅操作により、当該遺伝子座のアリルに対応したリードに絞り込んでいる場合は、その傾向が認められる。その場合には、当該遺伝子座の対応リード情報におけるリードの割合から当該遺伝子座のアリル毎のリードの個別深度が算出され、当該個別深度の大きな当該遺伝子座のアリルから順に2個以内を、被験者の当該遺伝子座の遺伝型として決定を行うことができる(本発明の判定方法)。しかしながら、このような場合であっても、結果に対する再検討を行い、偽陽性の可能性を出来る限り除くことが好適である。
【0077】
また、上記の本発明の特定遺伝子座群又は個別遺伝子座のマッピングプロセスを行った場合を含め、事前の当該遺伝子座群の遺伝子座に対する遺伝子増幅法を用いた絞り込みを行わなかった場合においては、結果に対する再検討を行う必要性はより高くなる。
【0078】
事前の遺伝子座に対する遺伝子増幅法を用いた絞り込みを行わない手法の場合(例えば、全ゲノムシークエンスをリファレンス配列とする場合)は、下記の再検討プロセスを行うことがより望ましい。
【0079】
この本発明の判定方法の好適な態様は、上述した本発明の最適化方法により得られた特定遺伝子座群又は個別遺伝子座の対応リード情報が、個別深度として算出されて再評価が行われることにより、極めて確度が高くなった特定遺伝子座群の各遺伝子座の又は個別の遺伝子座の遺伝型の判定方法である。
【0080】
すなわち本発明により、本発明の最適化方法により得られた特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合から当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの個別深度が算出され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座について当該個別深度の大きな当該遺伝子座のアリルから順に2個以内について選択され、当該遺伝子座の遺伝型の要素として決定がなされる特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定方法において、全リード深度の5〜50%、好ましくは10〜30%のいずれかの頻度数が棄却閾値として設定され、当該閾値以下の個別深度の特定遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群又は個別の遺伝子座の遺伝型決定の要素から除外されることを特徴とする特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定方法、が提供される。
【0081】
「全リード深度」とは、高性能シークエンサによる遺伝子検体の処理に伴い算出される、塩基毎の対応するDNA断片の数のことを意味するもので、被験対象の全ゲノムに対してどの程度の高性能シークエンサにおける重複読み取りが行われたかの平均値を示す指標である。具体的には、シークエンサで読まれた全リードに含まれる総塩基数を、ゲノムの長さ(ヒトの全ゲノムは30億塩基)で除した値である。例えば、100bpシングルエンドリードが9億リードあれば、全リード深度は「100×9億/30億 =30」で、「30×」となる。ここで「全ゲノムの長さ」は、全ゲノムシークエンスでは無い場合、例えば被験対象が「特定のHLA遺伝子座」である場合には、特定のHLA遺伝子座における全塩基数となる。
【0082】
「個別深度」とは、本発明においては、特定遺伝子座群又は個別の遺伝子座のアリルの塩基に対応するリードの重なりの数を数えたときに、平均どれくらいのリードが重なっているかを示す指標であって、本発明の最適化方法により得られた特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合から算出され得る。
【0083】
具体的には、「特定遺伝子座群又は個別の遺伝子座のアリルに割り振られたリード数」は、「当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合× 当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされた総リード数 」で算出される。
【0084】
上述したように、本発明の最適化方法に従って「特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合」が算出される。また、「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされた総リード数」は、例えば、「本発明の特定遺伝子座群又は個別遺伝子座のマッピングプロセス」において導出される。よって、「各特定遺伝子座群又は個別の遺伝子座のアリルに割り振られたリード数」は、本発明の最適化方法が行われることによって算出される。
【0085】
そして「個別深度」は、
「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの総塩基数 / 当該遺伝子座群又は個別の遺伝子座のアリルのリファレンス配列の塩基数 」で算出される。
【0086】
「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの総塩基数」は、各リードの平均的な塩基数は既知数であるから、上述した「各特定遺伝子座群又は個別の遺伝子座のアリルに割り振られたリード数」に、当該平均的塩基数を乗ずることによって算出される。「特定遺伝子座群又は個別の遺伝子座のアリルのリファレンス配列の塩基数」は、特定遺伝子座群又は個別の遺伝子座のアリル毎に異なる既知数である。よって、上記特定遺伝子座群又は個別の遺伝子座のアリルの「個別深度」は、上記したように、本発明の最適化方法により得られた特定遺伝子座群又は個別の遺伝子座のアリルのリードの割合から算出される。
【0087】
以上をまとめると、各特定遺伝子座群又は個別の遺伝子座のアリルにおける個別深度「d
t」は、次式(IV)によって算出される。
【0088】
【数12】
[式中、Nは総リード数であり、c
nはリードnが含む塩基数であり、E[Z
nt]はリードnの遺伝子座のアリルtへの期待マッピング数であり、l
tは各遺伝子座のアリルの参照配列の長さ(塩基数)である。tは1からT(遺伝子座におけるアリルの総数)まで、nは1からNまでを採ることができる。]
【0089】
なお、ここに示したE[Z
nt]は、上述したE[Z
nts]を、各アリルtについて可能なsについて全て足し合わせたものとしても計算できる。
【0090】
上記のように「棄却深度」が全リード深度を基に設定されることにより、個別深度が小さい特定遺伝子座群又は個別の遺伝子座のアリルが遺伝型の決定要素から除外され、いわば偽陽性にあたる特定遺伝子座群又は個別の遺伝子座のアリル候補の除外によって本発明の判定方法の確度を高めることができる。
【0091】
棄却深度は、上述のように全リード深度の5〜50%、好ましくは同10〜30%、のいずれかの頻度数として選択することが可能である。棄却深度が小さければ、特定遺伝子座群又は個別の遺伝子座のアリルが、本発明の判定方法における特定遺伝子座群又は個別の遺伝子座の遺伝型の決定要素の候補となる機会が多くなるが、偽陽性を拾ってしまう危険性も増すことになる。逆に棄却深度が大きければ、偽陽性を拾う可能性は少なくなるけれども、真に被験者の特定遺伝子座群又は個別の遺伝子座の遺伝型を示すアリルを棄却してしまう可能性が高くなる。
【0092】
「個別深度の大きな特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリルから順に2個以内」、すなわち特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリルの個数の最大値を「2個」としたのは、異なる2個の遺伝子座のアリルがこれらのヘテロ接合と決定され、これを超える個数分はノイズとして排除されるという意味である。そして、当該個数が「1個」であれば当該遺伝子座は当該アリルのホモ接合、もしくはヘテロ接合かつもう一方のアリルは未知、と決定され、「0個」であれば該当する当該遺伝子座のアリルは未知と決定されるものである。
【0093】
さらに具体的な本発明の判定方法の態様を挙げれば、上述した特定遺伝子座群又は個別の遺伝子座の遺伝型決定の要素からの除外が行われた後、下記(i)又は(ii)の決定がなされることが好適である。
(i) 特定遺伝子座群の各遺伝子座又は個別の遺伝子座について遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上の場合には、当該1個のアリルはホモ接合と決定がなされ、若しくは、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされ、
(ii) 特定遺伝子座群の各遺伝子座又は個別の遺伝子座について遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされ、若しくは、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる。
【0094】
本発明の判定方法をこのような態様として行うことにより、一層的確な被験者の特定遺伝子座群の各遺伝子座又は個別の遺伝子座のアリルの決定が可能となる。
【0095】
なお、決定されるべきアリルが新規である場合には、当該新規アリルと最も近い既知のアリルがまず決定され、当該既知アリルの塩基配列と決定されるべき新規アリルの塩基配列の置換、挿入、欠失等による差分を認識することで、当該新規アリルの塩基配列決定をすることができる。当該新規アリルの塩基配列は、新しい遺伝型として、対象データベース等に逐次登録を行うことが好適である。
【0096】
以下、本発明の最適化方法と判定方法を、「本発明の方法」と総称することもある。
【0097】
[C]
本発明のコンピュータシステム
本発明のコンピュータシステムは、上述した本発明の方法を行う手段となるシステムであり、特に断らない限りは同一の用語は概念として重複する。「アルゴリズム」とは、コンピュータ分野の一般的な概念と同じく、問題を解くための手順を定式化した形で表現したものを意味する。
【0098】
本発明のコンピュータシステムは、通常のコンピュータシステムに関わるハードウエアを備えることができる。すなわち、通常ハードディスクドライブに該当する「記録部」、CPUに相当する「演算処理部」の他、例えば、RAMに相当する「一時記憶部」、キーボード、マウス、タッチパネル等に相当する「操作部」、ディスプレイに相当する「表示部」、操作部に応じたシリアル又はパラレルインターフェース等に相当する「出入力インターフェース(IF)部」、ビデオメモリとD/A変換部を備え、表示部のビデオ方式に応じたアナログ信号を出力する「通信インターフェース(IF)部」を備えている。当該通信IF部では、外部の情報、特に、ヒトゲノムデータベース等のヒトゲノム情報とデータ交換を行うことができる。
【0099】
以下においては特に断らない限り、本発明のコンピュータシステムの「演算処理部」が行う処理として説明する。「演算処理部」は、「操作部」が操作されて「通信IF部」を介して、特にヒトゲノムデータベースのデータを取得して「記録部」に記録し、適宜当該「記録部」からデータを「一時記憶部」に読み出し、所定の処理を行った後、その結果を再度「記録部」に記録する。当該「演算処理部」は、「操作部」の操作を促す画面データや処理結果を表示する画面データを作成し、入力IF部のビデオRAMを介して、これらの画像を「表示部」に表示する。本発明のプログラムは、用時又は予め「記録部」に記録、あるいは、外部のハードウエア資源に記録されており、必要に応じて「演算処理部」において、記載されたアルゴリズムに従った演算処理が行われる。
【0100】
本発明のコンピュータシステムは、特定遺伝子座群又は個別遺伝子座の対応リード情報を最適化するコンピュータシステムであって、記録部と演算処理部を備え、下記の処理(A)〜(G)の全て又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されており、
(B) 当該演算処理部では、前記記録部の情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理が実行され、
(C) 上記処理(B)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出され、
(D) 上記処理(C)において算出された合計期待マッピング数が、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出される処理が実行され、
(E) 上記処理(C)において算出されたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再び上記処理(B)により改めて算出された個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出される処理が実行され、
(F) 上記処理(E)により算出された新たな期待マッピング数に対して、再び上記処理(C)又は(D)が実行されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出される処理が実行され、
(G) 上記処理(E)と(F)が、処理(E)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の処理(E)において算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、処理(F)において算出されるリードの割合の値と、前回の処理(F)で算出される当該割合の値との差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値(アリル頻度)が、最適化されたデータとして認定が行われる;
が実行されることを特徴とするコンピュータシステムである。
【0101】
上記処理(B)〜(G)は、全ての特定遺伝子座群又は個別の遺伝子座のアリルに対して包括的に実行されることが好適である。この包括的な実行は、全ての当該遺伝子座群又は個別の遺伝子座のアリルに関して、一緒に全リードのマッピングの最適化アルゴリズムを実行することを意味するものである。
【0102】
さらに本発明のコンピュータシステムにおいて、被験者のデータベースに登録されている遺伝子のリード情報の当該遺伝子座群又は個別の遺伝子座のアリルに対するマッピングは、下記の(a)及び(b)の処理により実行され得る。下記の処理(a)及び(b)で示される過程は、特定遺伝子座群を対象とする場合は、その全ての遺伝子座について同時に行われることが好適である。
【0103】
(a) 遺伝子シークエンサにより得られた被験者のリードの配列情報に対して、ヒト全遺伝子の参照塩基配列に対するマッピングの後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座にマッピングされたリードが抽出される処理。
【0104】
(b) 前記(a)の処理により抽出された当該遺伝子座群又は個別の遺伝子座にマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座の各アリルに対する各リードのマッピング対応及びマッピング状態、すなわちリード配列のリファレンス配列におけるマッピング位置、リード配列とリファレンス配列の差異、及びマッピングスコアが特定されたリード情報が得られる処理。
【0105】
処理(b)において実行されるマッピングは、一つのリードが複数の特定遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容することが好適である。
【0106】
処理(a)の特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出処理され、これが(b)処理の再マッピングの対象とされることが好適である。
【0107】
さらに本発明は、被験者の特定遺伝子座群の各遺伝子座の遺伝型の判定を行うコンピュータシステムであって、記録部と演算処理部を備え、下記(α)〜(δ)の処理の全部又は一部;
(α) 当該記録部には、本発明の最適化方法により得られた、被験者の当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、が少なくとも記録されており;
(β) 当該演算処理部では、前記記録部の当該遺伝子座群又は個別の遺伝子座のアリル頻度を基とする、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理、及び、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する算出された当該個別深度の割り振り処理が実行され、
(γ) 棄却閾値として設定されている、全リード深度の平均の5〜50%、好ましくは10〜30%のいずれかの頻度数に対して、当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外される処理が実行され、
(δ):
(δ)−1 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、当該アリルはホモ接合と決定がなされる処理が実行され、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる処理が実行され、
(δ)−2 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされる処理が実行され、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる処理が実行される、
ことを特徴とするコンピュータシステムを提供する。
【0108】
上記に加えて、例えば(γ)の除外処理の実行の後、特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が0個のアリルについては、当該アリルに基づく当該遺伝子座の遺伝型の決定はなされない処理が実行される設定を、本発明のコンピュータシステムにおいて行うことも可能である。
【0109】
なお、これらのコンピュータシステムのカテゴリーは「物」であり、「装置」として置き換えることも可能である。
【0110】
[D]
本発明のプログラム
本発明のプログラムは、本発明のコンピュータシステムに本発明の方法を実行させるためのアルゴリズムを備えたコンピュータプログラムであり、特に断らない限りは同一の用語は概念として重複する。
【0111】
本発明のプログラムは、特定遺伝子座群又は個別遺伝子座の対応リード情報を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第7の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されている記録部から、当該リード情報を読み出す、第1の機能、
(B) 上記第1の機能により読み出したリード情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理を実行する、第2の機能、
(C) 上記第2の機能により数値化した期待マッピング数が、当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数を算出する、第3の機能、
(D) 上記第3の機能により算出した合計期待マッピング数を、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除して、当該遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を算出する、第4の機能、
(E) 上記第4の機能により算出したリードの割合を、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当て、当該割り当て頻度を前提にして、再び第2の機能で改めて算出した、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数を算出する、第5の機能、
(F) 上記第5の機能により算出した新たな期待マッピング数に対して、再び上記第3の機能又は第4の機能を実行して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を新たに算出する、第6の機能、
(G) 上記第5の機能と第6の機能を、第5の機能の実行により算出するリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の第5の機能の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、上記第6の機能の実行により算出するリードの割合の値と、前回の第6の機能の実行により算出する当該割合の値との差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値を、最適化されたデータとして認定する、第7の機能;
を実現させるアルゴリズムが含まれることを特徴とする、コンピュータプログラムである。
【0112】
さらに本発明は、被験者のデータベースに登録されている遺伝子のリード情報の特定遺伝子座群又は個別の遺伝子座のアリルに対するマッピングを、下記(a)及び(b)に従って行う機能をコンピュータにおいて実現するアルゴリズムが含まれることを特徴とする、本発明のプログラムを提供する。
(a) 遺伝子シークエンサにより得られた被験者のリードの配列情報に対して、ヒト遺伝子の塩基配列に対するマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードを抽出する機能。
(b) 機能(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態、すなわちリード配列のリファレンス配列におけるマッピング位置、リード配列とリファレンス配列の差異、及びマッピングスコアが特定されたリード情報を得る機能。
【0113】
さらに本発明は、被験者の特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定を行うコンピュータプログラムであって、下記(α)〜(δ)の機能をコンピュータに実現させるためのアルゴリズムが含まれることを特徴とする、コンピュータプログラムを提供する。
(α) 前記のコンピュータプログラムの実行により得られた、当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合、及び、全リード深度、を少なくとも読み出す、機能α。
(β) 前記機能αの実行により読み出した当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合から、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理を実行し、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して算出された当該個別深度を割り振る処理を実行する、機能β。
(γ) 棄却閾値として全リード深度の5〜50%、好ましくは10〜30%のいずれかの頻度数を設定し、前記機能Bの実行により特定された当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルを、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外する処理を実行する、機能γ。
(δ) 下記(δ)−1及び(δ)−2に示す機能δ。
(δ)−1 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、このアリルをホモ接合と決定し、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定する処理を実行し、
(δ)−2 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であると決定し、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であると決定する処理を実行する。
【0114】
上記の処理に、例えば前記機能γの除外処理の実行の後、特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が0個のアリルについては、当該アリルに基づく遺伝型の決定を行わない処理の実行をする機能を積極的に加えることもできる。
【0115】
本発明のコンピュータプログラムは、例えば、C言語、Java(登録商標)、Perl、Python等で記載することが可能である。
【0116】
本発明はさらに、本発明のプログラムが記録されていることを特徴とする、コンピュータにおいて読み取り可能な記録媒体又はコンピュータに接続し得る記録媒体(以下、本発明の記録媒体ともいう)を提供する。これらの記録媒体としては、フレキシブルディスク、フラッシュメモリ、ハードディスク等の磁気的媒体、CD、DVD、BD等の光学的媒体、MO、MD等の磁気光学的媒体等が挙げられ、特に限定されるものではない。本発明のコンピュータシステムの典型は、本発明のプログラムを実行することを特徴とするものである。