(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-12
(45)【発行日】2024-03-21
(54)【発明の名称】mRNA前駆体スプライシングに対するゲノム変異の影響を予測するためのシステムおよび方法
(51)【国際特許分類】
G16B 25/00 20190101AFI20240313BHJP
C12Q 1/6869 20180101ALI20240313BHJP
【FI】
G16B25/00
C12Q1/6869 Z
【外国語出願】
(21)【出願番号】P 2019126722
(22)【出願日】2019-07-08
【審査請求日】2022-04-25
(31)【優先権主張番号】201821025433
(32)【優先日】2018-07-07
(33)【優先権主張国・地域又は機関】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
【住所又は居所原語表記】Nirmal Building,9th Floor,Nariman Point,Mumbai 400021,Maharashtra,India.
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】スリニワサン、ラジゴパル
(72)【発明者】
【氏名】ジャイン、アクリティ
(72)【発明者】
【氏名】チャウドゥーリ、ポウラミ
【審査官】塩田 徳彦
(56)【参考文献】
【文献】米国特許出願公開第2017/0240900(US,A1)
【文献】国際公開第2017/220315(WO,A1)
【文献】米国特許出願公開第2014/0199698(US,A1)
【文献】XUEQIU Jian et al.,In silico tools for splicing defect prediction - A survey from the viewpoint of end-users,[online],2014年07月31日,P.1-15,<URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4029872/pdf/nihms571302.pdf>,Retrieved from the Internet [retrieved on 20201016], XP055740912, doi: 10.1038/gim.2013.176, PMID: 24263461, PMCID: PMC4029872
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12Q 1/6869
(57)【特許請求の範囲】
【請求項1】
プロセッサによって実施される方法であって、
遺伝子転写物の少なくとも1つの候補変異体のゲノム位置情報と、前記遺伝子転写物の座標情報とを受け取ることと、
前記遺伝子転写物の前記座標情報と、前記ゲノム位置情報とに基づいて、前記少なくとも1つの候補変異体を、スプライスアクセプタ部位領域と
分岐部位領域とのうちの一方に分類することと、
前記少なくとも1つの候補変異体の前記分類から分類された領域に基づいて、mRNA前駆体スプライシングに対する前記少なくとも1つの候補変異体の影響を評価することであって、前記mRNA前駆体スプライシングに対する前記少なくとも1つの候補変異体の影響を評価することは、
MaxEntスコアを使用して、前記少なくとも1つの候補変異体によって、前記分類された領域内の天然のスプライスアクセプタ部位の弱化を同定することと、
前記弱化された天然のスプライスアクセプタ部位によって、新たなスプライスアクセプタ部位領域が生成されていると判定することと、
前記新たなスプライスアクセプタ部位領域が生成されているとの判定に応じて、位置重み付け行列(PWM)評価器を使用して、前記分類された領域内の同定された天然の分岐点の強度を評価することとを備え、前記PWM評価器は、実験的に判定されたヒトの分岐部位を使用して生成され、前記PWM評価器を生成することは、
分岐点として「A」を有する10量体について、前記判定されたヒトの分岐部位をフィルタリングすることと、
前記フィルタリングされた分岐部位を整列させて、前記フィルタリングされた分岐部位中の前記10量体の各位置におけるヌクレオチドのおのおのの頻度を計算することと、
前記10量体の各位置における前記ヌクレオチドのおのおのについてのバックグラウンド頻度を使用して、前記計算された頻度を正規化することと、
前記PWMを取得するために、前記正規化された頻度を使用して、(m×n)行列を構築することとを備え、前記(m×n)行列を構築することは、前記正規化された頻度のおのおのを、対数オッズ値に変換し、前記(m×n)行列を、前記対数オッズ値を使用して、前記PWM評価器へ変換することを備え、
前記生成されている新たなスプライスアクセプタ部位について、前記スプライスアクセプタ部位領域に対する前記少なくとも1つの候補変異体の影響を評価するステップは、
前記mRNA前駆体スプライシング中に活性である前記新たなスプライスアクセプタ部位領域の15ヌクレオチドから50ヌクレオチドの配列範囲における天然の分岐点の存在または不在を判定することと、
前記判定された前記天然の分岐点の存在または不在に基づいて、
前記PWM評価器を使用して、前記天然の分岐点の強度を評価し、前記天然の分岐点の前記評価された強度に基づいて、前記少なくとも1つの候補変異体を病原性として同定すること、または、
前記PWM評価器を使用して、代替分岐点をスクリーニングし、前記代替分岐点の前記評価された強度に基づいて、前記少なくとも1つの
候補変異体を病原性として予測することを備え、
前記方法はさらに、
前記代替分岐点が不在である間、
前記天然のスプライスアクセプタ部位領域の状態を判定することであって、前記状態は、破壊的な天然のスプライスアクセプタ部位領域または非破壊的な天然のスプライスアクセプタ部位領域を備える、判定することと、
前記判定された状態に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として予測することとを備えた、評価することと、
前記mRNA前駆体スプライシングに対する前記少なくとも1つの候補変異体の前記評価された影響に基づいて、前記少なくとも1つの候補変異体の病原性を予測することとを備えた、方法。
【請求項2】
前記少なくとも1つの候補変異体は、
前記遺伝子転写物の天然のイントロン-エクソンスプライスアクセプタ接合部に対する上流の15ヌクレオチドから下流の3ヌクレオチドの間のゲノム座標を有する前記スプライスアクセプタ部位領域に発生するとして、および、
前記遺伝子転写物の天然のスプライスアクセプタ接合部の上流の50ヌクレオチドから15ヌクレオチドの間のゲノム座標を有する前記
分岐部位領域に発生するとして分類される、請求項1に記載のプロセッサによって実施される方法。
【請求項3】
前記MaxEntスコアは、前記スプライスアクセプタ部位の強度または弱化を計算するためのスプライス部位強度判定ツールであり、前記MaxEntスコアは、影響を受けた天然のスプライスアクセプタ部位領域に対する、前記少なくとも1つの候補変異体の前記影響に基づいて割り当てられる、請求項1に記載のプロセッサによって実施される方法。
【請求項4】
前記生成されたPWM評価器は、閾値スコアに基づいて分岐点の強度を評価し、前記閾値スコアは、前記分岐点として「A」を有する分岐部位について取得された複数の分岐部位スコアを使用して判定される、請求項1に記載のプロセッサによって実施される方法。
【請求項5】
新たなスプライスアクセプタ部位が生成されていない場合の前記スプライスアクセプタ部位領域に対する前記少なくとも1つの候補変異体の影響を評価するステップは、
前記天然の分岐点に対する前記少なくとも1つの候補変異体の影響を判定し、前記判定された影響に基づいて、前記PWM評価器を使用して、前記天然の分岐部位の強度のレベルを同定することと、
前記少なくとも1つの候補変異体の上流の50ヌクレオチドおよび下流の50ヌクレオチドを有する配列範囲における代替スプライスアクセプタ部位領域をスクリーニングし、前記代替スプライスアクセプタ部位領域および弱化した天然のスプライスアクセプタ部位領域の強度の比較を実行することと、
生成されている新たな分岐点の存在を判定し、前記新たな分岐点と前記天然の分岐点の強度の比較を実行することとを備え、
前記方法はさらに、
前記同定された天然の分岐部位の前記強度のレベルに基づいて、
前記少なくとも1つの候補変異体を非病原性として同定すること、または、
前記天然のスプライスアクセプタ部位領域に対する上流の50ヌクレオチドから15ヌクレオチドの配列におけるスクリーニングされた代替分岐点に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として同定することを備え、
前記方法はさらに、
代替スプライスアクセプタ部位領域と、弱化した天然のスプライスアクセプタ部位との強度の前記比較に基づいて、
前記少なくとも1つの候補変異体を、非病原性として予測すること、または、
前記mRNAスプライシング中に活性である前記スプライスアクセプタ部位領域に対して15ヌクレオチドから50ヌクレオチドの配列範囲における天然の分岐点の存在を判定し、前記判定された存在および比較に基づいて、前記天然の分岐点の強度を、所定の閾値と比較することと、
前記代替スプライスアクセプタ部位領域の上流の50ヌクレオチドから15ヌクレオチドの配列範囲においてスクリーニングされた代替分岐点に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として予測することとを備えた、請求項1に記載のプロセッサによって実施される方法。
【請求項6】
前記新たな分岐点と前記天然の分岐点との強度の前記比較に基づいて、
前記少なくとも1つの候補変異体を非病原性であると予測すること、または、
前記mRNA前駆体プレスプライシング中に活性である前記スプライスアクセプタ部位領域に対する上流の15ヌクレオチドから50ヌクレオチドの範囲における天然の分岐点の存在を判定し、前記天然の分岐点の強度を、前記所定の閾値と比較することをさらに備えた、請求項5に記載のプロセッサによって実施される方法。
【請求項7】
前記判定された天然の分岐点の存在と、前記天然の分岐点の強度と前記所定の閾値との比較とに基づいて前記少なくとも1つの候補変異体を、病原性または非病原性として予測することをさらに備えた、請求項5に記載のプロセッサによって実施される方法。
【請求項8】
生成されている前記新たなスプライスアクセプタ部位についての前記分岐部位に対する前記少なくとも1つの候補変異体の影響を評価するステップは、
前記新たなスプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドを有する配列範囲における代替分岐点の存在を判定することと、
前記代替分岐点の前記存在に基づいて、前記少なくとも1つの候補変異体が、病原性または非病原性であると予測することとを備えた、請求項1に記載のプロセッサによって実施される方法。
【請求項9】
新たなスプライスアクセプタ部位が生成されていない場合の前記分岐部位に対する前記少なくとも1つの候補変異体の影響を評価するステップが、
前記天然のスプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドを有する配列範囲における天然の分岐点をスクリーニングすることと、
前記PWM評価器を使用して、前記分岐部位の強度のレベルを判定することとを備え、前記強度のレベルを判定することは、前記スクリーニングされた天然の分岐点に影響を与える前記少なくとも1つの候補変異体により、
前記方法はさらに、
前記分岐部位の強度の前記判定されたレベルに基づいて、
前記少なくとも1つの候補変異体を病原性として予測すること、または、
前記天然のスプライスアクセプタ部位領域の上流の50ヌクレオチドから15ヌクレオチドの配列範囲においてスクリーニングされた代替分岐点に基づいて、前記少なくとも1つの候補変異体を病原性または非病原性として予測することを備えた、請求項1に記載のプロセッサによって実施される方法。
【請求項10】
システムであって、
命令を記憶するメモリと、
前記メモリに結合された1つまたは複数のハードウェアプロセッサとを備え、前記1つまたは複数のハードウェアプロセッサは、前記命令によって、
遺伝子転写物の少なくとも1つの候補変異体のゲノム位置情報と、前記遺伝子転写物の座標情報とを受け取り、
前記遺伝子転写物の前記座標情報と、少なくとも1つの候補変異体の前記ゲノム位置情報とに基づいて、前記少なくとも1つの候補変異体を、スプライスアクセプタ部位領域と
分岐部位領域とのうちの一方に分類し、
前記少なくとも1つの候補変異体の前記分類から分類された領域に基づいて、mRNA前駆体スプライシングに対する前記少なくとも1つの候補変異体の影響を評価するように構成され、前記mRNA前駆体スプライシングに対する前記少なくとも1つの候補変異体の影響を評価することは、
MaxEntスコアを使用して、前記少なくとも1つの候補変異体によって、前記分類された領域内の天然のスプライスアクセプタ部位の弱化を同定することと、
前記弱化された天然のスプライスアクセプタ部位によって、新たなスプライスアクセプタ部位領域が生成されていると判定することと、
前記新たなスプライスアクセプタ部位領域が生成されているとの判定に応じて、PWM評価器を使用して、前記分類された領域内の同定された天然の分岐点の強度を評価することであって、前記PWM評価器は、実験的に判定されたヒトの分岐部位を使用して生成され、前記PWM評価器を生成することは、
分岐点として「A」を有する10量体について、前記判定されたヒトの分岐部位をフィルタリングすることと、
前記フィルタリングされた分岐部位を整列させて、前記フィルタリングされた分岐部位中の前記10量体の各位置におけるヌクレオチドのおのおのの頻度を計算することと、
前記10量体の各位置における前記ヌクレオチドのおのおのについてのバックグラウンド頻度を使用して、前記計算された頻度を正規化することと、
前記PWMを取得するために、前記正規化された頻度を使用して、(m×n)行列を構築することとを備え、前記(m×n)行列を構築することは、前記正規化された頻度のおのおのを、対数オッズ値に変換し、前記(m×n)行列を、前記対数オッズ値を使用して、前記PWM評価器へ変換することを備え、
前記生成されている新たなスプライスアクセプタ部位について、前記スプライスアクセプタ部位領域に対する前記少なくとも1つの候補変異体の影響を評価するステップは、
前記mRNA前駆体スプライシング中に活性である前記新たなスプライスアクセプタ部位領域の15ヌクレオチドから50ヌクレオチドの配列範囲における天然の分岐点の存在または不在を判定することと、
前記判定された前記天然の分岐点の存在または不在に基づいて、
前記PWM評価器を使用して、前記天然の分岐点の強度を評価し、前記天然の分岐点の前記評価された強度に基づいて、前記少なくとも1つの候補変異体を病原性として同定すること、または、
前記PWM評価器を使用して、代替分岐点をスクリーニングし、前記代替分岐点の前記評価された強度に基づいて、前記少なくとも1つの候補変異体を病原性として予測することを備え、
前記1つまたは複数のハードウェアプロセッサはさらに、
前記代替分岐点が不在である間、
前記天然のスプライスアクセプタ部位領域の状態を判定することであって、前記状態は、破壊的な天然のスプライスアクセプタ部位領域または非破壊的な天然のスプライスアクセプタ部位領域を備える、判定することと、
前記判定された状態に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として予測することとを備えた、評価することと、
mRNA前駆体スプライシングに対する前記少なくとも1つの候補変異体の前記評価された影響に基づいて、前記少なくとも1つの候補変異体の病原性を予測することとを備えた、システム。
【請求項11】
前記少なくとも1つの候補変異体は、
前記遺伝子転写物の天然のイントロン-エクソンスプライスアクセプタ接合部に対する上流の15ヌクレオチドから下流の3ヌクレオチドの間のゲノム座標を有する前記スプライスアクセプタ部位領域に発生するとして、および、
前記遺伝子転写物の天然のスプライスアクセプタ接合部の上流の50ヌクレオチドから15ヌクレオチドの間のゲノム座標を有する前記
分岐部位領域に発生するとして分類される、請求項10に記載のシステム。
【請求項12】
新たなスプライスアクセプタ部位が生成されていない場合の前記スプライスアクセプタ部位領域に対する前記少なくとも1つの候補変異体の影響を評価することは、
前記天然の分岐点に対する前記少なくとも1つの候補変異体の影響を判定し、前記判定された影響に基づいて、前記PWM評価器を使用して、天然の分岐部位の強度のレベルを同定することと、
前記少なくとも1つの候補変異体の上流の50ヌクレオチドおよび下流の50ヌクレオチドを有する配列範囲における代替スプライスアクセプタ部位領域をスクリーニングし、前記代替スプライスアクセプタ部位領域と、弱化した天然のスプライスアクセプタ部位領域との強度の比較を実行することと、
生成されている新たな分岐点の存在を判定し、前記新たな分岐点と前記天然の分岐点との強度の比較を実行することとを備え、
前記1つまたは複数のハードウェアプロセッサはさらに、前記命令によって、前記同定された天然の分岐部位の前記強度のレベルに基づいて、
前記少なくとも1つの候補変異体を非病原性として同定する、または、
前記天然のスプライスアクセプタ部位領域に対する上流の50ヌクレオチドから15ヌクレオチドの配列におけるスクリーニングされた代替分岐点に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として同定するように構成され、
前記1つまたは複数のハードウェアプロセッサはさらに、代替スプライスアクセプタ部位領域と、弱化した天然のスプライスアクセプタ部位との強度の比較に基づいて、前記命令によって、
前記少なくとも1つの候補変異体を、非病原性として予測する、または、
前記mRNAスプライシング中に活性である前記スプライスアクセプタ部位領域に対して15ヌクレオチドから50ヌクレオチドの配列範囲における天然の分岐点の存在を判定し、前記天然の分岐点の強度を、所定の閾値と比較するように構成され、
前記1つまたは複数のハードウェアプロセッサはさらに、前記新たな分岐点と、前記天然の分岐点との強度の比較に基づいて、前記命令によって、
前記少なくとも1つの候補変異体を、非病原性として予測するか、または、
前記mRNAスプライシング中に活性である前記スプライスアクセプタ部位領域に対する上流の15ヌクレオチドから50ヌクレオチドの配列範囲における天然の分岐点の存在を判定し、前記天然の分岐点の強度を、前記所定の閾値と比較するように構成され、
さらに、前記判定された存在および比較に基づいて、
前記代替スプライスアクセプタ部位領域の上流の50ヌクレオチドから15ヌクレオチドの前記配列範囲においてスクリーニングされた代替分岐点に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として予測することを備え、
前記1つまたは複数のハードウェアプロセッサはさらに、前記判定された天然の分岐点の存在と、前記天然の分岐点の強度と前記所定の閾値との比較とに基づいて、
前記少なくとも1つの候補変異体を、病原性または非病原性として予測するように構成された、請求項10に記載のシステム。
【請求項13】
生成されている前記新たなスプライスアクセプタ部位についての前記分岐部位に対する前記少なくとも1つの候補変異体の前記影響を評価することは、
前記新たなスプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドを有する配列範囲における代替分岐点の存在を判定することと、
前記代替分岐点の存在に基づいて、前記少なくとも1つの候補変異体が、病原性または非病原性であると予測することとを備え、
前記1つまたは複数のハードウェアプロセッサはさらに、前記命令によって、
新たなスプライスアクセプタ部位が生成されていない場合の前記分岐部位に対する前記少なくとも1つの候補変異体の前記影響を評価し、
前記天然のスプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドを有する配列範囲における天然の分岐点をスクリーニングし、
前記PWM評価器を使用して、前記分岐部位の強度のレベルを判定するように構成され、前記強度のレベルを判定することは、前記スクリーニングされた天然の分岐点に影響を与える前記少なくとも1つの候補変異体により、
前記1つまたは複数のハードウェアプロセッサはさらに、前記分岐部位の強度の前記判定されたレベルに基づいて、
前記少なくとも1つの候補変異体を病原性として予測するか、または、
前記天然のスプライスアクセプタ部位領域の上流の50ヌクレオチドから15ヌクレオチドの配列範囲においてスクリーニングされた代替分岐点に基づいて、前記少なくとも1つの候補変異体を、病原性または非病原性として予測するように構成された、請求項10に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書中の開示は、一般に、mRNAスプライシングに関し、より詳細には、mRNA前駆体スプライシングに対するゲノム変異の影響の予測に関する。
【背景技術】
【0002】
関連出願と優先権の相互参照:本出願は、2018年7月7日にインドで出願されたインドの完全明細書(名称:SYSTEM AND METHOD FOR PREDICTING EFFECT OF GENOMIC VARIATIONS ON PRE-MRNA SPLICING)、出願番号(201821025433号)の優先権を主張する。
【0003】
RNAスプライシングは、mRNA前駆体からイントロンを切り出し、そしてエクソンを一緒に縫合して、タンパク質をコード化するmRNA配列である最終ヌクレオチド配列を形成するプロセスである。
これに関して、分岐点(BP)選択およびスプライス部位(SS)選択は、RNAスプライシングにおける重要なステップであるが、それでも多くの一般的なスプライシング分析ツールはこのメカニズムをモデル化していない。
イントロンの一次分岐点の近くに突然変異があると、その分岐点は使用できなくなる可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
分岐点予測のための既存の方法は、湿式実験技術およびインシリコ方法を使用する。湿式実験技術は時間がかかり、労働集約的であるが、サポートベクターマシンアルゴリズムまたは機械学習ツールを含む既存の計算モデルは、正確な予測を妨げる多数の仮定に基づいている。正確な分岐点予測を容易にするために様々な計算方法が実施され、予測された分岐点はインビボ/インビトロで試験されたが、モデルの大部分は分岐点の正確な予測につながらない仮想の仮定に基づいて構築されている。一般に、疾患を引き起こす突然変異の検索は、目標とする遺伝子のエクソン、イントロン-エクソン接合部、およびプロモータ領域をコード化することにほぼ限られてきた。
【課題を解決するための手段】
【0005】
本開示の実施形態は、従来のシステムにおいて本発明者らによって認識された上述の技術的問題の1つまたは複数に対する解決策として技術的改善を提示する。たとえば、一実施形態では、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するためのプロセッサによって実施される方法が提供される。この方法は、遺伝子転写物の少なくとも1つの候補変異体のゲノム位置情報と、遺伝子転写物の座標情報とを受け取ることを含む。この方法は、遺伝子転写物の座標情報と、少なくとも1つの候補変異体のゲノム位置情報とに基づいて、少なくとも1つの候補変異体を、スプライスアクセプタ部位領域と、分岐部位領域との一方に分類することをさらに含む。この方法は、少なくとも1つの候補変異体の分類から分類された領域に基づいて、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響を評価することをさらに含む。本明細書では、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響を評価することは、MaxEntスコアを使用して、少なくとも1つの候補変異体によって、分類された領域内の天然のスプライスアクセプタ部位の弱化を同定することと、弱化された天然のスプライスアクセプタ部位によって、新たなスプライスアクセプタ部位領域が生成されていると判定することと、新たなスプライスアクセプタ部位領域が生成されていると判定することに応じて、PWM評価器を使用して、分類された領域内の、同定された天然の分岐点の強度を評価することとを備える。mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の評価された影響に基づいて、少なくとも1つの候補変異体の病原性を予測することをさらに含む。
【0006】
別の実施形態では、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するためのシステムが提供される。このシステムは、命令を記憶するメモリと、メモリに結合された1つまたは複数のハードウェアプロセッサとを含み、1つまたは複数のハードウェアプロセッサは、命令によって、遺伝子転写物の少なくとも1つの候補変異体のゲノム位置情報と、遺伝子転写物の座標情報とを受け取るように構成される。さらに、遺伝子転写物の座標情報と、少なくとも1つの候補変異体のゲノム位置情報とに基づいて、少なくとも1つの候補変異体を、スプライスアクセプタ部位領域と、分岐部位領域とのうちの一方に分類するように構成される。さらに、少なくとも1つの候補変異体の分類から分類された領域に基づいて、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響を評価するように構成され、該mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響を評価することは、MaxEntスコアを使用して、少なくとも1つの候補変異体によって、分類された領域内の天然のスプライスアクセプタ部位の弱化を同定することと、弱化された天然のスプライスアクセプタ部位によって、新たなスプライスアクセプタ部位領域が生成されていると判定することと、新たなスプライスアクセプタ部位領域が生成されていると判定することに応じて、PWM評価器を使用して、分類された領域内の、同定された天然の分岐点の強度を評価することとを備える。さらに、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の評価された影響に基づいて、少なくとも1つの候補変異体の病原性をさらに予測する。
【0007】
さらに別の実施形態では、1つまたは複数の非一時的な機械可読情報記憶媒体が提供される。該1つまたは複数の非一時的な機械可読情報記憶媒体は、1つまたは複数のハードウェアプロセッサによって実行されると、遺伝子転写物の少なくとも1つの候補変異体のゲノム位置情報と、遺伝子転写物の座標情報とを受け取らせる1つまたは複数の命令を備える。さらに、遺伝子転写物の座標情報と、少なくとも1つの候補変異体のゲノム位置情報とに基づいて、少なくとも1つの候補変異体を、スプライスアクセプタ部位領域と、分岐部位領域とのうちの一方に分類することを含む。さらに、少なくとも1つの候補変異体の分類から分類された領域に基づいて、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響を評価することを含む。ここで、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響を評価することは、MaxEntスコアを使用して、少なくとも1つの候補変異体によって、分類された領域内の天然のスプライスアクセプタ部位の弱化を同定することと、弱化された天然のスプライスアクセプタ部位によって、新たなスプライスアクセプタ部位領域が生成されていると判定することと、新たなスプライスアクセプタ部位領域が生成されていると判定することに応じて、PWM評価器を使用して、分類された領域内の、同定された天然の分岐点の強度を評価することとを備える。さらに、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の評価された影響に基づいて、少なくとも1つの候補変異体の病原性を予測することを含む。
【0008】
本明細書のいずれのブロック図も、本主題の原理を具現化する例示的なシステムの概念図を表すことを、当業者は認識されたい。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コードなどは、様々なプロセスを表し、これは、実質的にコンピュータ可読媒体で表され、したがって、コンピューティングデバイスまたはプロセッサが明示的に示されているか否かに関わらず、そのようなコンピューティングデバイスまたはプロセッサによって実行され得ることが認識されるであろう。
【0009】
本開示に組み込まれ、その一部を構成する添付の図面は、例示的な実施形態を例示し、その説明と共に、開示された原理を説明するのに役立つ。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本開示の実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するためのシステム102を実施するネットワーク環境を示す図である。
【
図2】
図2は、本開示の実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための方法を図示するフロー図である。
【
図3A】
図3Aは、本開示の実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための分析パイプラインを示す図である。
【
図3B】
図3Bは、本開示の実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための分析パイプラインを示す図である。
【
図3C】
図3Cは、本開示の実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための分析パイプラインを示す図である。
【
図4】
図4は、本開示のいくつかの実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するためのシステムのブロック図である。
【発明を実施するための形態】
【0011】
例示的な実施形態は、添付の図面を参照して説明される。図において、符号の左端の数字は、その符号が最初に現れる図を特定する。都合のよい場合はいつでも、図面全体を通して同じまたは類似の部分を指すために同じ符号が使用される。本明細書では開示された原理の例および特徴が説明されているが、開示された実施形態の趣旨および範囲から逸脱することなく変更、適合、および他の実施が可能である。以下の詳細な説明は例示のみとして考慮され、その真の範囲および趣旨は特許請求の範囲によって示される(明細書に含まれる場合)ことが意図される。
【0012】
疾患を引き起こすBPS突然変異を調査するための研究の1つは、他の塩基分岐点と比較してアデノシン分岐点において、より重度のスプライシング欠陥を引き起こしたことを提供する。分岐点における突然変異はラリアット形成を損ない、そしてイントロンの異状なスプライシングを導き得、それは遺伝子機能不全をもたらす。ラリアットは、mRNAプロセシングにおけるイントロンの除去中に形成されるなげなわ形状構造である。分岐部位での突然変異は異状なスプライシングを引き起こすことが示されており、それが今度は疾患表現型をもたらし得る。障害の診断およびスクリーニングのための診療所における次世代シークエンシング(NGS)の使用の急増は、疾患を説明し得る分岐部位における突然変異を確実に同定し得る手法から利益を得ることができる。そのようなツールの開発は、既知の信頼性の高い分岐部位の十分に大きい「ゴールドデータセット」の不在によって妨げられてきた。
【0013】
イントロンの正確な切除およびエクソンの結合は、真核生物の遺伝子発現に不可欠であるため、スプライシングはmRNA前駆体成熟プロセスの重要な部分を形成する。スプライシングの間、成熟したmRNAが転換のために細胞質に送られる前に、mRNA前駆体の一部が、核内のスプライセオソームによって除去される。組織局在化および発生段階に依存して、mRNA前駆体は異なるようにスプライスされて、代替転写物、すなわち、同じ遺伝子からの異なるタンパク質の発現をもたらす。ヒト遺伝子をコード化する70%を超えるタンパク質が代替的にスプライシングされており、代替的なスプライシングが、哺乳動物における表現型複雑性の進化の主な原因であると提案されている。
【0014】
エクソンスキッピングは、スプライシング突然変異の最も一般的な結果であり、続いて潜在的な5’および3’スプライス部位(5’SSおよび3’SS)の活性化が続く。エクソンスキッピングは、天然のスプライスアクセプタ部位の破壊または天然の分岐点の廃止に起因し、スプライシングを容易にするために利用可能な代替分岐点はない。効率的なスプライシングは、イントロン内に少なくとも3つの主要なシグナル、5’スプライス部位、3’スプライス部位、および分岐点配列を必要とする。スプライシングエンハンサおよびサイレンサとして知られているイントロンおよびエクソン中の補助配列は、スプライシングが構成的または代替的であると決定するために、連携して作用する。イントロンの5’末端は、スプライスドナー部位として知られており、イントロンの3’末端は、スプライスアクセプタ部位と呼ばれている。
【0015】
プロトタイプ配列からの乖離は、代替転写物の生成と関連している。イントロン内でのそのようなコンセンサス配列の発生は、疑似エクソンをフレーミングするより高等な真核生物の事例においては極めて一般的であり、これはスプライス境界の存在を示すが、正しいスプライシングを調節するには不十分であることを示す。3’末端は、スプライスアクセプタ部位、上流の分岐点配列、および分岐点配列の直後のポリピリミジン管の存在によって特徴付けられる。分岐点は、次の4つの主要基準に基づいて定義されている。それは、イントロンの3’スプライス末端に近接しており、分岐点配列の後にポリピリミジントラクトが続き、分岐点配列と3’スプライス部位との間の「AG」ジヌクレオチドが欠乏し、分岐点は大部分がアデニンである。したがって、既知のヒト遺伝子転写物の既存のデータベースの候補変異体からの分岐点変異体およびスプライス部位変異体の選択および正確な予測は、最も重要かつチャレンジングである。
【0016】
本開示の様々な実施形態は、リソース制約環境で利用される高精度でMaxEntツールおよび位置重み付け行列(PWM)評価器に基づいて、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための方法およびシステムを提供した。開示されたシステムは、リソースに制約のある環境においてリアルタイムで、またはCPU上でほぼリアルタイムで動作する変形パイプラインを含む。開示されたシステムおよび方法は、mRNA前駆体スプライシングに対するゲノム変異の影響を予測する際における解決策を提供する。mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための上記のシステムおよび方法の詳細な説明は、
図1乃至
図4を参照して表される図に関して示す。
【0017】
ここで図面を、より具体的には
図1乃至
図4を参照すると、ここでは、同様の符号が図面を通して一貫して対応する特徴を示しており、好ましい実施形態が示されており、これらの実施形態は、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための以下の例示的システムおよび方法の文脈で説明される。
【0018】
本明細書では、システム102は、入力、たとえば、以下ではまとめてデバイス104と呼ばれる多数のデバイスおよび/またはマシン104-1、104-2・・・104-Nを介した入力を受け取ることができる。デバイス104の例は、ポータブルコンピュータ、携帯情報端末、ハンドヘルドデバイス、VRカメラを具現化するデバイス、入力および出力を受け取り、記憶するように装備された記憶デバイスを含むことができるが、それらに限定されない。実施形態では、デバイス104は、データをキャプチャし、記憶することができるデバイスを含み得る。デバイス104は、ネットワーク106を介してシステム102に通信可能に結合されており、データをシステム102に送信することが可能であり得る。
【0019】
一実施態様では、ネットワーク106は、無線ネットワーク、有線ネットワーク、またはそれらの組合せであり得る。ネットワーク106は、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネットなどの異なるタイプのネットワークのうちの1つとして実施され得る。ネットワーク106は、専用ネットワークまたは共有ネットワークのいずれかであり得る。共有ネットワークは、互いに通信するために、様々なプロトコル、たとえば、ハイパテキスト転送プロトコル(HTTP)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、無線アプリケーションプロトコル(WAP)などを使用する様々なタイプのネットワークの関連付けを表す。ネットワーク106は、ルータ、ブリッジ、サーバ、コンピューティングデバイス、記憶デバイスなどを含む様々なネットワークデバイスを含み得る。
【0020】
デバイス104は、ネットワーク106を介してシステム102に入力を送ることができる。システム102は、mRNA前駆体スプライシングに対するゲノム変異の影響を予測させる。実施形態では、システム102は、コンピューティングデバイス110内に具現化され得る。コンピューティングデバイス110の例は、デスクトップパーソナルコンピュータ(PC)、ノートブック、ラップトップ、ポータブルコンピュータ、スマートフォン、タブレットなどを含み得るが、これらに限定されない。システム102はまた、入力、データセット、および出力/結果を記憶するためにデータリポジトリ112と関連付けられ得る。追加的または代替的に、データリポジトリ112は、mRNA前駆体スプライシングに対するゲノム変異の影響を予測する間に生成されたデータおよび/または情報を記憶するように構成され得る。リポジトリ112は、システム102を具現化するコンピューティングデバイス110の外部に構成され、通信可能に結合され得る。あるいは、データリポジトリ112は、システム102内に構成され得る。
【0021】
実施形態において、開示されたシステム102は、mRNA前駆体スプライシングに対するゲノム変異の影響を予測することを可能にし、それによって、正常なスプライシングを救済し得る代替分岐点の利用可能性に基づく高精度の病原性予測および分岐点変異体およびそれらの病原性の判定をもたらす。mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための方法のパイプラインの例示的な表示は、
図3A~
図3Cを参照してさらに図示および説明する。
【0022】
次に
図2を参照して示すように、本開示のいくつかの実施形態による、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための方法200のフロー図が記載される。方法200は、コンピュータ実行可能命令の一般的な文脈で説明され得る。一般に、コンピュータ実行可能命令は、特定の機能を実行するかまたは特定の抽象データタイプを実施する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、機能などを含むことができる。方法200は、通信ネットワークを介してリンクされているリモートプロセシングデバイスによって機能が実行される分散コンピューティング環境でも実現することができる。方法200が説明される順序は、限定として解釈されることは意図されず、方法200、または代替方法を実施するために、任意の数の説明された方法ブロックを、任意の順序で組み合わせることができる。さらに、方法200は、任意の適切なハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せで実施され得る。実施形態では、フローチャートに示される方法200は、システム、たとえば
図1のシステム102によって実行され得る。例示的な実施形態では、システム102は、例示的なコンピュータシステム、たとえばコンピュータシステム102で具現化され得る。
図2の方法200は、
図3A~
図3Cを参照して以下により詳細に説明される。
【0023】
図2を参照すると、例示された実施形態では、方法200は、202で開始され、ここでは、ヒトゲノムの特定のバージョンに対応するゲノム位置情報、参照対立遺伝子および代替対立遺伝子が受け取られる。変異体を完全に含む少なくとも1つの候補転写物は、既知のヒト遺伝子転写物(本明細書では、少なくとも1つの変異体と呼ばれる)の既存のデータベースから得られる。各転写物は、1つまたは複数の重複しない間隔の集合として表され、各間隔は、転写物が存在する染色体、間隔の開始ゲノム座標、間隔の終了ゲノム座標、および転写物が存在するストランド(フォワードまたはリバース)を含む4つの特徴によって表される。
【0024】
204において、少なくとも1つの候補変異体は、遺伝子転写物の座標情報と、少なくとも1つの候補変異体のゲノム位置情報とに基づいて、スプライスアクセプタ部位領域と、分岐部位領域とのうちの一方に発生すると分類される。さらに、少なくとも1つの候補変異体は、遺伝子転写物の天然のイントロン-エクソンスプライスアクセプタ接合部の上流の15ヌクレオチドから下流の3ヌクレオチドの間のゲノム座標に発生するスプライスアクセプタ部位領域として、および、遺伝子転写物の天然のスプライスアクセプタ接合部の上流の50ヌクレオチドから15ヌクレオチドの間のゲノム座標に存在する分岐部位領域として、分類される。本明細書では、ヌクレオチドとntは置換可能に使用される。
【0025】
206において、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の影響は、少なくとも1つの候補変異体の分類から分類された領域に基づいて評価される。評価は、MaxEntスコアを使用して、少なくとも1つの候補変異体によって、分類された領域内の天然のスプライスアクセプタ部位の弱化を同定し、次に、弱化された天然のスプライスアクセプタ部位によって、新たなスプライスアクセプタ部位領域が生成されていると判定することによって実行される。その後、新たなスプライスアクセプタ部位領域が生成されているとの判定に応じて、位置重み付け行列(PWM)評価器を使用して、分類された領域内の同定された天然の分岐点の強度。MaxEntは、スプライスアクセプタ部位の強度または弱化を計算するための既知のスプライス部位強度判定ツールであり、ここで、MaxEntツールは、影響を受ける天然のスプライスアクセプタ部位領域に対する少なくとも1つの候補変異体の影響に基づいてMaxEntスコアを割り当てる。例示的な実施形態では、天然に発生するスプライス部位または天然のスプライス部位アクセプタ領域である標準的なスプライス部位と、突然変異によって活性化されるスプライス部位である潜在的なスプライス部位との両方について、スプライスアクセプタ部位スコアを計算するために、利用可能なMaxEnt Scanツールが使用される。
【0026】
PWM評価器は、実験的に判定されたヒトの分岐部位を使用して生成される。例示的な実施形態では、エキソリボヌクレアーゼ消化およびRNA配列に基づいて同定された、実験的に判定された59,359のヒトの分岐部位(10量体)を使用してPWMが生成される。該例示的な実施形態では、分岐点部位の集合は、位置重み付け行列(PWM)のトレーニングセットとして分岐点に「A」を有する配列のみを選択することによって利用される。該例示的な実施形態では、分岐点として「C」/「T」/Gを有するものは非常に低い中央値を有するので、「A」が分岐点として選択される一方、既知のAは最高値を有し、生成されたPWMは、本実施形態にしたがって、分岐点として「A」に対する選択性を有すると示唆し、PWMスコアリングを「A」に制限するのが理想的である。したがって、PWMは、分岐点として既知の「A」を使用して構築された。実験的に判定された59,359のヒトの分岐部位(10量体)を分岐点としての「A」と整列させることによって、(m×n)のPWM行列が生成される。本実施形態では、(10×4)の行列が生成される。次いで、この整列を用いて、10量体の各位置における各ヌクレオチドの頻度が計算され、その後、各ヌクレオチドの頻度が、対数オッズスコアに変換される。
【0027】
該例示的実施形態では、Gencodeデータベースv19からの18,171の標準的な転写物からの175,031の固有のイントロンが、両側でエクソンをコード化することによって囲まれるというフィルタリング基準で同定および抽出される。すべてのイントロンにわたる各ヌクレオチド(A、T、C、G)の頻度は、分岐点のトレーニングセットにおける塩基の生の頻度を正規化するために使用される。上述のように、分岐点として「A」を使用して、既知の分岐部位について得られた分岐部位スコアに基づき、正規化された頻度は、最終的なPWMを生成するために対数オッズスコアに変換される。。分布の最初の四分位数が計算され、部位を信頼度の高い分岐部位に分類するための閾値として使用される。例示の実施形態では、判定された閾値は1.46である。さらに、各イントロンの3’末端から上流の10乃至50の塩基である40量体のイントロン配列が、ヒトゲノムから抽出され、分岐点閾値を超える10量体の配列スコアについてスキャンされる。
【0028】
208において、少なくとも1つの候補変異体の病原性が、mRNA前駆体スプライシングに対する少なくとも1つの候補変異体の評価された影響に基づいて予測される。少なくとも1つの候補変異体の病原性のさらなる評価および予測は、
図3A~
図3Cを参照してさらに詳細に説明する。
【0029】
mRNA前駆体スプライシングにおける病原性を予測する方法のための分析パイプラインを示す
図3A~
図3Cを参照する。本明細書において、分析パイプラインは、変異体を、病原性または非病原性として分類するように設計されている。本実施形態による分析手法は、
図3A~
図3Cによって表されるステップバイステップのパイプラインにしたがう。実施形態では、近接していた、すなわち標準的なスプライスアクセプタ領域の上流の15ヌクレオチドまでの変異体が、新たな潜在的なアクセプタ部位の生成、または新たな分岐部位の生成についてスクリーニングされる。分岐部位が生成されると、適切な下流スプライスアクセプタ部位スキャンが開始される。変異体がスプライスアクセプタを生成している場合は、適切なアップストリーム分岐部位が、PWM評価器を使用してスキャンされる。変異体が、標準的なスプライスアクセプタを破壊し、標準的な分岐部位が影響を受けない場合、適切な代替の下流のスプライスアクセプタについてのスクリーニングが実行される。新たな標準的なスプライスアクセプタが、標準的なスプライスアクセプタ部位の下流で予測された場合、実験的に証明された分岐点についてのスクリーニングがPWMツールを使用して実行される。パイプラインのステップバイステップのプロセスによる詳細なステップが、
図3A~
図3Cに記載されている。
【0030】
変異体302、たとえば、少なくとも1つの候補変異体が受け取られ、ここでヒトゲノムの特定のバージョンに対応するゲノム位置情報、参照対立遺伝子、および代替対立遺伝子が受け取られる
図3Aを参照する。変異体を完全に含む少なくとも1つの候補転写物は、既知のヒト遺伝子転写物(本明細書では、少なくとも1つの変異体と呼ばれる)の既存のデータベースから得られる。各転写物は、1つまたは複数の重複しない間隔の集合として表され、各間隔は、転写物が存在する染色体、間隔の開始ゲノム座標、間隔の終了ゲノム座標、および転写物が存在するストランド(フォワードまたはリバース)を含む4つの特徴によって表される。少なくとも1つの候補変異体は、ゲノム座標に基づいてスプライス作用領域に発生すると分類される。304において、遺伝子転写物の天然のイントロン-エクソンスプライスアクセプタ接合部の上流の15ヌクレオチドから下流の3ヌクレオチドの間のゲノム座標に発生する領域は、スプライスアクセプタ部位として分類される。306において、天然のスプライスアクセプタ部位の弱化が判定され、言い換えれば、分類された少なくとも1つの候補変異体が、天然のスプライスアクセプタ部位(天然の3’SS)に影響を及ぼしていると判定される。308において、分類された少なくとも1つの候補変異体は、新たな3’SSである新たな「AG」を生成するためにチェックされ、それによってMaxEntスコアを使用して判定されるように天然の3’SSを弱化させる。スプライスアクセプタ部位の判定された弱化、すなわち天然の3’SSの弱化に応じて、少なくとも1つの候補変異体が、天然の分岐点で十分であるかまたはブロックCに分岐するかがチェックされる。言い換えれば、310において、mRNA前駆体スプライシングの間に活性である新たなスプライスアクセプタ部位領域の15ヌクレオチドから50ヌクレオチドの配列範囲における天然の分岐点の存在または不在を判定する。その後、PWM評価器を使用して、天然の分岐点の強度が評価され、評価された天然の分岐点の強度に基づいて、少なくとも1つの候補変異体を、病原性として同定する(312)か、または、PWM評価器を使用して代替分岐点をスクリーニングし、代替分岐点の評価された強度に基づいて、少なくとも1つの候補を病原性として予測する(314)。317において、天然のスプライスアクセプタ部位領域の状態が判定される。本明細書における状態は、破壊された天然のスプライスアクセプタ部位領域、または、破壊されていない天然のスプライスアクセプタ部位領域を含む。316において、判定された状態に基づいて、少なくとも1つの候補変異体が、病原性または非病原性として予測される(318)。
【0031】
次に
図3Bを参照すると、コネクタBにおいて、少なくとも1つの候補変異体は、ゲノム座標に基づいて、分岐部位領域に発生すると分類される。320において、遺伝子転写物の天然のスプライスアクセプタ接合部の上流の50ヌクレオチドから15ヌクレオチドの間のゲノム座標を有する領域が、分岐部位として分類される。322において、天然のスプライスアクセプタ部位の弱化が判定され、言い換えれば、分類された少なくとも1つの候補変異体が、天然の3’SSに影響を及ぼしていると判定される。324において、分類された少なくとも1つの候補変異体は、新たな3’SSである新たな「AG」を生成するためにチェックされ、それによって、新たな3’SSの生成に応じた天然の3’SSの弱化が、MaxEntスコアを使用して判定される。判定されたスプライスアクセプタ部位の弱化に応じて、天然の分岐点または代替分岐点のいずれかについてスクリーニングされる。326において、生成されている新たなスプライスアクセプタ部位の分岐部位に対する少なくとも1つの候補変異体の影響が、新たなスプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドの配列範囲における代替分岐点の存在を判定することによって評価される。328において、代替分岐点が判定されない場合、少なくとも1つの変異体は病原性であると分類され、338において、代替分岐点が見出される場合、少なくとも1つの候補変異体は非病原性であると予測される。
【0032】
330において、新たなスプライスアクセプタ部位が生成されない場合の分岐部位に対する少なくとも1つの候補変異体の影響が、天然のスプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドを有する配列範囲における天然の分岐点についてスクリーニングし、332において、PWM評価器を使用して、分岐部位の強度のレベルを判定することによって評価される。本明細書では、強度のレベルは、スクリーニングされた天然の分岐点に影響を及ぼす少なくとも1つの候補変異体によって判定される。334において、分岐部位の判定された強度のレベルに基づいて、少なくとも1つの候補変異体が病原性として予測される。336において、天然のスプライスアクセプタ部位領域の上流の50ヌクレオチドから15ヌクレオチドの配列範囲においてスクリーニングされた代替分岐点に基づいて、少なくとも1つの候補変異体が病原性または非病原性として予測される(338)。
【0033】
次に
図3Cを参照すると、コネクタCにおいて、生成されている新たなスプライスアクセプタ部位がない場合のスプライスアクセプタ部位領域に対する少なくとも1つの候補変異体の影響が、340、342および344のステップを順次実行することによって評価される。340において、天然の分岐点に対する少なくとも1つの候補変異体の影響が判定され、判定された影響に基づいて、PWM評価器を使用して、天然の分岐部位の強度のレベルが同定される。342において、少なくとも1つの候補変異体の上流の50ヌクレオチドと、下流の50ヌクレオチドとを有する配列範囲における代替スプライスアクセプタ部位領域についてスクリーニングされ、代替スプライスアクセプタ部位領域と、弱化された天然のスプライスアクセプタ部位領域との強度の比較が実行される。344において、生成中の新たな分岐点の存在と、新たな分岐点および天然の分岐点の強度の比較を実行することが判定される。さらに340に基づいて、346において、少なくとも1つの候補変異体が、非病原性変異体として予測される(348)か、または、少なくとも1つの変異体候補が、天然のスプライスアクセプタ部位領域に対する上流の50ヌクレオチドから15ヌクレオチドの配列におけるスクリーニングされた代替分岐点(360)に基づいて、病原性変異体(350)または非病原性変異体(364)として予測される。
【0034】
さらに342に基づいて、少なくとも1つの候補変異体は、非病原性(348)として予想されるか、またはさらに、mRNAスプライシング中に活性であるスプライスアクセプタ部位領域に対して15ヌクレオチドから50ヌクレオチドの配列範囲において、天然の分岐点の存在が判定され(352)、その後、天然の分岐点の強度が、所定の閾値と比較される。そして、この比較に基づいて、少なくとも1つの候補変異体は病原性であると予測される(350)。さらに344に基づいて、少なくとも1つの候補変異体は、代替スプライスアクセプタ部位の上流の50ヌクレオチドから15ヌクレオチドの配列範囲においてスクリーニングされた代替分岐点に基づいて、病原性(354)または非病原性(356)と予測される。さらに、新たな分岐点と天然の分岐点との強度の比較に基づいて、少なくとも1つの候補変異体は、非病原性であると予測される(364)。そうでなければ、mRNAスプライシング中に活性であるスプライスアクセプタ部位領域の上流に対する15ヌクレオチドから50ヌクレオチドの範囲における天然の分岐点の存在が判定され、その後、天然の分岐点の強度と、所定の閾値(354)。判定された天然の分岐点の存在、および天然の分岐点の強度と、所定の閾値との比較とに基づいて、少なくとも1つの候補変異体は、病原性(362)または非病原性(364)として予測される。
【0035】
本実施形態によれば、本システムおよび方法の焦点は、ランダムな配列で与えられたBPを同定し、イントロンのスプライシングの機能的結果において、同定されたBPの役割を評価することである。さらに、PWMおよびMaxEntスコアの組合せを使用して、病原性に対する評価されたBPの影響を予測するための本実施形態の焦点。分岐点を予測することができる多くのツールがあるが、主な欠点は、ポリピラミジントラクト情報、実際のスプライスアクセプタ部位、およびスプライスアクセプタ部位領域までの距離のように、BPを予測する間、はるかに多くの入力データを必要とすることであり、これは、ランダムな配列で与えられた分岐点を予測するために、そのようなツールを制限する。本システムおよび方法は、BPとSSとを明確に区別し、個々の構成要素からの組み合わされた出力に基づいて変異体を評価する。
【0036】
検証および結果
【0037】
mRNA前駆体スプライシングに対するゲノム変異の影響を予測するための方法の結果は、以下の例を用いて検証されている。本明細書で論じられる例は、説明の目的のためだけであり、本主題の範囲を限定するためではないことが理解されるであろう。さらに、試験結果は、mRNA前駆体スプライシングに対するゲノム変異の影響を予測する具体例について示されており、記載された方法を通して形成され得る唯一の方法として決して解釈されるべきではない。
【0038】
例示的実施形態の1つにおいて、mRNA前駆体スプライシングに対するゲノム変異の影響を予測するためのシステムおよび方法。本実施形態では、エキソリボヌクレアーゼ消化およびRNA配列に基づいて同定された、最近実験的に判定された59,359のヒトの分枝部位(10量体)が考慮される。データセットは、高精度の推定上のBPS予測モデルをトレーニングするための包括的なデータセットを提供する(10)。本例は、分岐点部位のこの集合を利用して、分岐点に「A」を有する配列のみを、位置重み付け行列(PWM)評価器のためのトレーニングセットとして選択する。これは、さらなる臨床的解釈のために信頼性の高いアノテーションを提供するために、日常的な変異体アノテーションスキームの一部として使用され得るツールを生成および評価することが我々の目的であるからである。イントロンの3’スプライス末端からのBPSの距離(上流の-15から-50までのヌクレオチド)のようなパラメータは、BPS(分岐点配列)が、すべての転写物中のイントロン領域の一部であることを確認し、分析手法の精度を高めるために選択されたトレーニングセットから、PWMにおける上位25%のスコアに基づいて閾値を設定する。HSF(ヒューマンスプライシングファインダ)、SVM(サポートベクターマシン)、BPファインダ、機械学習予測ツールの出力などの他の既存の予測ツールの結果との比較が、実験的に証明されたBPS突然変異とともに実行され、提案モデルの精度が実証された。
【0039】
信頼性の高い分岐点データセットに列挙された既知の分岐点における3つのClinvar注釈付きの有害な突然変異の事例(表1)の病原性の役割の同定にPWMが成功したことに基づいて、本実施形態にしたがって記載された分析方法が以下に説明される。本分析は、潜在的なスプライス部位および分岐点の活性化によって、スプライシング異状を引き起こす変異体の、実験的に知られている事例を確認することに成功した。実験は様々な既知の変異体について行われた。
【0040】
例1-OTC:実施形態において、イントロン9中の変異体C>Gは、標準的なスプライスアクセプタ部位を破壊するものとして、オルニチンカルバモイルトランスフェラーゼコーディング遺伝子(OTC)のClinvarに基づく変異体スクリーニングの際に検出された。代替スプライスアクセプタ部位(MaxEnt:8.30)は、標準的なスプライスアクセプタ接合部の下流(エクソン領域)の25塩基として同定された。標準的な分岐部位(スコア:2.80)、すなわち同定された潜在的なスプライスアクセプタに対する上流の29塩基が適切であると考えられた。標準的なスプライスアクセプタの不活性化と、潜在的なアクセプタ部位の活性化とは、PCRの支援を用いて実験的に検証されており、結果として生じるスプライシングにおける異状は、タンパク質中に異状な50アミノC末端配列を引き起こし、高アンモニア危機を引き起こすことが証明されている。OTCに対応する値は表1に示す通りである。
【0041】
例2-MAN2B1:別の実施形態では、T>C遷移が、標準的なスプライスアクセプタ部位を破壊するマンノシダーゼアルファクラス2Bメンバ1遺伝子(MAN2B1)のイントロン14に見出された。標準的なスプライスアクセプタが失われると、潜在的な分岐部位が活性化され、また標準的な3’スプライス部位に対する下流の潜在的なスプライスアクセプタ(MaxEnt:4.78)の活性化が生じ、エクソン15の最初の31ntが欠失される。これは、終止コドンの導入の結果として、タンパク質の成熟前終結を引き起こすフレームシフト突然変異をもたらす(表1)。RT-PCRの支援により、標準的な3’スプライスアクセプタ部位の破壊と、部分的なエクソン欠失をもたらす潜在的なスプライス部位の活性化とが確認された。全体として、分析手法は、アルファ-マンノシダーゼの欠乏の背後にある原因の1つを明らかにする可能性を示した。
【0042】
【0043】
実験により、いくつかの発見事例が明らかになった。本明細書では、既知の病原性候補変異体によるスプライシング異状の背後にある理由が明らかにされ、そのような事例は発見事例として分類された。
【0044】
例3-アラニン--グリオキシル酸およびセリン--ピルビン酸アミノトランスフェラーゼ(AGXT):例示的実施形態では、変異体についてAGXT遺伝子をスクリーニングした際、イントロン5にA>G突然変異が見出された。変異体は標準的なスプライスアクセプタ部位にあるので、変異体の役割と、スプライシング異状に対する特定の影響とは定義されていないが、それは以前にスプライス部位突然変異として分類されている。イントロン5の標準的なスプライスアクセプタ部位は、変動の結果として破壊された(MaxEnt:4.01>-3.94)。天然のスプライスアクセプタ部位の破壊によって、標準的なスプライスアクセプタ部位に対する下流の潜在的なスプライスアクセプタ部位(MaxEnt:5.01)28ヌクレオチドが活性化された。さらに、潜在的なスプライスアクセプタを求めて、適切な分岐部位のスクリーニングがなされると、潜在的な分岐部位、すなわち潜在的なスプライスアクセプタ部位に対する上流の35塩基が見出された。全体として、提案されたモデルに基づいて、突然変異によって、元のスプライスアクセプタ部位が破壊され、そして潜在的なスプライスアクセプタは、潜在的な分岐点とともに、標準的なスプライス部位および標準的な分岐部位の下流で活性化されることを観察することができる(表2)。結果として形成されたタンパク質は、392アミノ酸長さであり、SNPの結果としてコア領域において9アミノ酸、すなわちβストランド全体を失う。欠失したタンパク質領域は、タンパク質の活性部位およびホモ二量体界面の一部を形成し、ピリドキサール5’リン酸結合に必須である。それゆえ、SNPによる欠失は、タンパク質機能不全を引き起こすので非常に有害である。異状なスプライシングをもたらす、適切な分岐部位を有する代替スプライスアクセプタの発生に基づいて仮説を引き出すことができる。スプライシングの中断による転写物の早期終了は、原発性高シュウ酸尿症の原因となり得る。
【0045】
例4-ミオシンXVA(MYO15A):別の実施形態では、標準的なスプライスアクセプタ部位を破壊する有害な変異体G>Aは、MYO15A遺伝子のイントロン49のスクリーニング時に見出された。変異体の結果として、潜在的な分岐部位(スコア:1.92)が、標準的なスプライスアクセプタ接合部で活性化された。潜在的な分岐部位に適した潜在的なスプライスアクセプタ部位は、標準的なスプライスアクセプタに対する下流の27nt(エクソン領域;MaxEnt:7.13)で活性化され、部分的なエクソン50スキッピング、または、スプライシングのためのイントロン50のより強いスプライスアクセプタ部位(MaxEnt:8.93)の使用の結果として生じ得る完全なエクソン50スキッピングをもたらす可能性がある。標準的なスプライスアクセプタの破壊およびスプライシングの結果によるスプライシング異状が、非症候群性遺伝性難聴の背後にある原因である可能性がある。結果として生じるスプライシング異状は、タンパク質のフレームの破壊をもたらさないが、SH3タンパク質のようなプロリンリッチのリガンドとのペプチドリガンド結合に必須のタンパク質領域を変化させる。タンパク質中のSH3領域は、酵素の適切な調節をもたらす分子内相互作用および多タンパク質複合体集合体の媒介にも不可欠である。したがって、たとえタンパク質のフレームが影響を受けなくても、タンパク質の必須の活性領域が変化して、切断型または非機能的タンパク質がもたらされる。全体として、この分析手法は、MYO15A遺伝子におけるイントロン49のスプライシングに対するイントロン変異体の影響およびその結果としての病原性の背後にある仮説を明らかにすることに成功した。
【0046】
例5-成長ホルモンレセプタ(GHR):さらに別の例示的実施形態では、再解釈された事例であるスプライスアクセプタ変異体(G>C)が、成長ホルモンレセプタのイントロン8のスクリーニング時に同定された。スプライスアクセプタ部位に存在する変異体(AG>AC)は、標準的なスプライスアクセプタ(MaxEnt:5.55>-2.52)を破壊し、その結果、特発性低身長をもたらした。GHRについての2つの異なる変異体転写物が報告されており、一方はエクソン9を完全にスキップしており、他方はエクソン9を部分的に欠失している。エクソン9が部分的に欠失した転写物は、標準的なスプライスアクセプタの下流(24nt)の潜在的なスプライス部位の活性化により形成された。スプライス変異体の発生が報告されているが、それらの形成の背後にある原因は解明されていない。潜在的なスプライスアクセプタ部位(すなわち、エクソン領域)のスプライス強度は、標準的なスプライスアクセプタ部位よりも大きく、目標とする変異体は、標準的なスプライスアクセプタ部位を破壊し、異状なスプライシングをもたらし、その結果、タンパク質の時期尚早の終結による非機能的タンパク質が生じる。この変異体は、標準的なスプライスアクセプタの破壊およびエクソン9のスキップに関連付けられており、下流の潜在的なスプライスアクセプタが、スプライシングのために使用されていなかったことを示す。しかし、分析モデルと実験的証拠とを用いて描かれた仮説に基づくと、GHR-(1-279)(スプライス変異体)、すなわち、潜在的なスプライスアクセプタ部位の活性化により形成されたものは、標準的な転写物と同じくらい高く表現され、したがって、標準的なスプライスアクセプタが破壊されると、イントロン10の破壊された標準的なスプライスアクセプタ部位を選択する代わりに、下流の潜在的なスプライスアクセプタが活性化される可能性が高く、これはエクソン9のスキップに至る(表2)。変異体の結果としてのGHRのタンパク質生成物は、GHRからの切断後に成長ホルモン結合タンパク質(GHBP)の一部を形成するタンパク質の一部から8アミノ酸を失う。それ故、タンパク質からのそのような必須領域の欠失は、タンパク質の機能不全をもたらし、そして変異体の有害性の背後にある原因であり得る。全体として、この分析手法は、GHRイントロン8スプライシングと、成長ホルモン非感受性を引き起こす病原性とにおける有害な変異体(G>C)の役割の再解釈に成功した。
【0047】
【0048】
実施形態では、予測される分岐部位変異体から生じる発見が研究された。ここで、実験的に知られている事例:十分に確立されたスプライス部位強度判定ツール(MaxEnt)とともに、PWMに基づく手法が、病原性(NTKR1、DYSF、TH)を引き起こす分岐点変異体の実験的に判定された事例について試験された。分析手法の出力は、実験的な知見を正確に反映した。
【0049】
例6-神経栄養レセプタチロシンキナーゼ1(NTRK1):実施形態では、予測された分岐点変異体の出力に基づいて、NTRK1(神経栄養性チロシンキナーゼレセプタ族)遺伝子の事例において、スプライスアクセプタ部位に対する上流の推定上の分岐部位配列である31塩基が、有害変異体T>Aを用いてスクリーニングされた。分岐部位のスコアは、突然変異後、劇的に減少し、5.70>3.17(表3)、潜在的なスプライスアクセプタ部位が活性化された。突然変異後に得られたスプライス生成物は、上流の潜在的なスプライスアクセプタ部位の使用に起因するイントロン(137bp)セグメントの挿入からなる。したがって、T>A分岐部位突然変異の役割は、無汗症を伴う痛みに対する先天性鈍感性(CIPA)の主な原因であることが証明されており、この分析手法は、それを判定するのに成功した。
【0050】
例7-ジスフェリン(DYSF):さらに別の例示的実施形態では、スクリーニングした際、DYSF遺伝子のイントロン31中の有害な突然変異(A>G)が同定された。分岐部位スコアにおける変化に基づいて、変異体が分岐部位を破壊することが明らかにされた(表3)。有害な突然変異A>Gは、分岐点を破壊することが実験的に確認されており、ラリアット形成の失敗およびジスフェリン遺伝子のエクソン32のスキップをもたらし、劣性遺伝性四肢帯筋ジストロフィ2B型(LGMD2B)および遠位提示を伴う筋ジストロフィをもたらす。
【0051】
例8-チロシンヒドロキシラーゼ(TH):さらに別の例示的実施形態では、PWMベースの手法は、THのイントロン11中に有害な変異体T>Aを含む推定上の分岐部位を同定した。有害な変異体は、エクソン12のスキップを介して代替的なスプライシングをもたらし、最終的なタンパク質生成物中に32アミノ酸が存在しないことを証明し、それを非機能的にするか、または、潜在的な分岐部位の使用によって、異状なスプライシングをもたらすか、または、部分的なイントロン保持(mRNA中の36ヌクレオチド)を介して、12の追加のアミノ酸が組み込まれ、タンパク質が機能しなくなる。変異体の結果として、予測される分岐部位についての分岐部位スコアが大幅に減少した(表3)。イントロン11の分岐点の上流2塩基の酵素チロシンヒドロキシラーゼ(TH)の遺伝子における分岐部位突然変異(T>A)が、重度の錐体外路運動障害を引き起こす異状なタンパク質生成物をもたらすことが証明されている。イントロン保持をもたらす代替的なスプライシングもまた、本方法を使用して検証された。
【0052】
【0053】
実施形態では、エクソンスキッピングをもたらすスプライシング異状を引き起こす分岐点の破壊が検証された。
【0054】
例9-グリコーゲンホスホリラーゼ、筋肉関連(PYGM):さらに別の例示的実施形態では、PYGM遺伝子中の予測された有害分岐点変異体から、分岐部位配列「TCCCTGACAG」、すなわちイントロン3のスプライスアクセプタ部位に対する上流の26塩基において、有害点突然変異A>Gが発見された。このイントロン突然変異A>Gは、マッカードル病を引き起こすエクソン4のスキップをもたらすことが実験的に証明されている(17)。天然のサンプルおよび突然変異のサンプルからの増幅されたPCR生成物に基づいて、エクソン4の保持が結論付けられ、変異体は、スプライスアクセプタ部位突然変異であるとして分類されたが、分岐部位の役割はアドレス指定されていない。提案された分析手法と、分岐部位強度について得られたスコアとに基づいて、エクソン4スキップの理論は、標準的なスプライスアクセプタに対する上流の26塩基である標準的な分岐点の混乱(4.43からヌル)によるものと仮定される(表4)。標準的なスプライスアクセプタへの変異体の近接性は上流の26塩基であり、したがって、スプライス部位の強度に影響を与える可能性は低いので、変異体は、分岐部位突然変異であると仮定することができる。全体として、分析手法は、実験的に検証されたスプライス突然変異を分岐点突然変異として判定し、分類することができた。
【0055】
例10-内部ミトコンドリア膜8Aのトランスロカーゼ(TIMM8A):さらに別の例示的実施形態では、最高のスコア3.40を有する推定上の分岐部位「TTTGTGATTC」における有害な変異体が、内部ミトコンドリア膜8のトランスロカーゼ(TIMM8A)遺伝子の唯一のイントロンにおけるスプライスアクセプタ部位に対する上流の23塩基で同定された。TIMM8A/DDP1遺伝子の機能不全はモール-トラネブジャエルグ症候群または難聴/ジストニア症候群を引き起こし、TIMM8Aのエクソンのコーディング領域に様々なミスセンスおよびナンセンスな突然変異の証拠がある。X連鎖ジストニア難聴を引き起こすイントロン変異体A>Cが最近発見された。TIMM8Aにおけるイントロン変異体は、おそらくスプライシング異状によるタンパク質機能不全を引き起こすことが証明されている。スプライシング異状の背後にある原因は、分岐点の混乱に関しては論じられていない。予測ツールから得られた分岐点スコアに基づいて、スプライシング異状が、分岐点破壊によるものであることは明らかであった(表3)。全体として、分析は、分岐部位スコアにおける変化(3.40>ヌル)に基づいて、実証済みのイントロン変異体を、分岐点突然変異として分類することができた。
【0056】
【0057】
本実施形態によれば、PWMに基づく分析手法は、任意の所与の配列において分岐点として「A」を有する推定上の分岐部位である変異体をスクリーニングし、イントロンのスプライシングへの分岐部位における突然変異の影響を判定するように設計される。前述の事例研究で観察されたように、本実施形態のPWMは、イントロン末端に近接して推定上の分岐部位を同定することができる。また、PWMの可能性は、他のツールによって同定された実験的に知られている分岐部位とクロスチェックされ、結果は正確に一致した。詳細に議論され研究された事例は、既知の分岐点突然変異の同定の成功を明らかにし、そして病理学的状況をもたらすスプライシングの推測された影響の背後にある原因を示す特定の事例の再解釈をももたらした。
【0058】
上述の例の基礎は、本実施形態にしたがって生成されたPWM行列である。PWMは、分岐点としてアデノシンを含む分岐部位10量体配列のデータセットを使用して生成される。PWMは、イントロン末端に近接した推定上の分岐部位を同定することができた。PWMの可能性は、他のツールによって同定された実験的に知られている分岐部位とクロスチェックされ、結果は正確に一致した。本方法の分析手法は、分岐点として「A」を用いて分岐部位における変異体をスクリーニングし、そしてスプライシングに対する変異体の影響と、結果として生じる病原性とを研究することに焦点を合わせている。観察されたように、例は、既知の分岐点突然変異の同定に成功し、そして病理学的状況をもたらすスプライシングの推測された影響の背後にある原因を示す特定の事例の再解釈をももたらした。変異スクリーニング時の入力データセットは、スプライス部位変異体であると推測されたが、生成されたPWMからの突然変異の前後の分岐部位について得られたスコアに基づく、COL4A5遺伝子中の特定の分岐点変異を示し、それは分岐部位を分裂させる分岐点突然変異であることを示した。Clinvar.vcfによるヒトゲノム中の推定上の分岐部位変異体のスクリーニングは、分岐部位突然変異として有害な変異体(病原性/おそらく病原性)を有する20の事例(表5)と、スプライス部位突然変異として20の有害な変異体(表6)とを首尾よく同定した。変異により劇的に影響を受けた分岐点/スプライス部位を選択するために、追加のフィルタ、すなわち突然変異前後の分岐部位スコア/スプライス部位アクセプタスコアの有意な変化を適用した。
【0059】
【0060】
20の潜在的な分岐点突然変異事例のうち、3つの既知の事例、すなわち、実験的に検証された分岐点突然変異と、推定上の分岐点においてスプライシング異状を引き起こす突然変異の2つの発見事例とが、首尾よく同定された。
【0061】
【0062】
イントロン/エクソン接合部に対する上流の15nt以内の変異体スクリーニングとともに、2つの実験的に証明された事例であるオルニチンカルバモイルトランスフェラーゼ(OTC)、マンノシダーゼアルファクラス2Bメンバ1(MAN2B1)が確認され、標準的なスプライスアクセプタ部位を破壊する変異体は、潜在的なスプライスアクセプタ部位および潜在的な分岐部位の活性化をもたらす。分岐部位突然変異の3つの既知の事例と、スプライス部位突然変異の2つの既知の事例とは、イントロンにおける潜在的な分岐部位(NTRK1、DYSF、TH;OTC、MAN2B1)の同定における分析モデルの効力を確認した一方、分岐部位突然変異およびスプライス部位突然変異(PYGM、TIMM8A;AGXT、MYO15A)の2つの発見事例は、潜在的な分岐点または潜在的なスプライス部位の活性化に基づいて、イントロン変異体を分岐点またはスプライス部位変異体として分類する際における分析手法モデルの効力を確認した。分析手法はまた、ネガティブな集合、すなわち分岐点を破壊するが病原性を引き起こさない分岐点変異体についても試験された。これは、PWMツールによって同定された予測分岐点が破壊されていたが、イントロンの通常の接合を可能にすることによって、破壊を補償する代替分岐点があることを示す。したがって、この分析手法は、通常のスプライシングを救済することができる代替分岐点の利用可能性に基づいて分岐点変異体を判定し、それらの病原性を判定することに成功している。
【0063】
本例において観察されるように、本システムおよび方法は、分岐点の崩壊を引き起こし、その部位において新たなスプライスアクセプタ(オリゴマーゴルジ複合体6の成分(COG6)、グルコシダーゼアルファ、酸(GAA))の生成をもたらす変異体の同定に成功した。また、変異の結果として標準的なスプライスアクセプタ部位に新たな分岐点が生成されたときに、標準的な部位の下流にある推定上のスプライスアクセプタ部位を同定することにも成功した。合計で、分岐部位またはスプライス部位の突然変異である可能性がある40の変異体が同定され、そしてスプライシング異状を引き起こすことにおけるそれらの役割は、設計されたツールの支援を受けて予測された。いくつかの突然変異はタンパク質のフレームに影響を及ぼさないが非常に有害であることが観察され、そのような事例については、タンパク質構造および機能のような属性がチェックされた。一塩基多型(SNP)は、タンパク質のフレーム変化を引き起こさなかったももの、AGXT、アシルCoAデヒドロゲナーゼ族番号9(ACAD9)、GHR、MYO15Aについて観察され、タンパク質の活性部位の一部の欠失を引き起こし、疾患状況をもたらす機能に影響を及ぼすかまたは機能を停止させた。エクソンスキッピングまたは部分的エクソン欠失が予測され、タンパク質が切断されるか、またはタンパク質の活性部位の欠失がそれを非機能的にするホスファターゼおよびテンシンホモログ(PTEN)のような特定の事例についても注目された。全体として、タンパク質の翻訳フレームに影響を及ぼすSNPは、おそらくタンパク質切断生成物に最も起因する病原性をもたらし、タンパク質の翻訳フレームに影響を及ぼさないSNPは、改変されるタンパク質のコア領域に起因する病原性をもたらす。推定上の分岐点突然変異のスクリーニングの結果として得られたデータセットが、同定された推定上の分岐点のヒューマンスプライシング因子データセットと比較され、同定された分岐点変異体予測結果とも比較された。これは、PWMベースの分析モデルが、分岐点予測のために、および、分岐部位突然変異またはスプライス部位突然変異の結果として、スプライシング異状を調査するために、信頼できることを確認した。
【0064】
したがって、PWMベースの手法は、任意の所与の配列における分岐点として「A」を有する推定上の分岐部位である変異体をスクリーニングし、イントロンのスプライシングに対する分岐部位における突然変異の影響を判定するように設計されている。
【0065】
本システムおよび方法の実施形態は、分岐点変異体を同定することができ、スプライス部位の様々な態様を判定する他の確立されたツールとともに、突然変異の結果に対してより詳細な生物学的説明を提供することに成功した。また、本実施形態を使用して同定された発見事例は、既知の病原性状況の背後にある原因を明らかにすることに強い可能性を保ち、治療開発のための基礎を提供する。イントロン中の推定上の分岐点またはスプライス部位変異体の予測は、エクソンスキッピング技術を使用して、可能な遺伝子型に基づく治療法の同定のための基礎を築くことができる(表7)。
【0066】
【0067】
†:
ヒューマンスプライシングファインダによって予測された分岐点(HSF)
*:Mercerらによって確認された分岐点。
‡:Kralovicova、Jらによって予測された分岐点変異体
---:他のツールと現在の目標とするツールによって予測された同じ分岐点
同定されたBP:他のツールで予測/確認された分岐点
予測された代替BP:本予測ツールによる、より高い可能性を有する予測された分岐点
【0068】
図4は、本開示と一致する実施形態を実施するための例示的なコンピュータシステム401のブロック図である。コンピュータシステム401は、単独で、またはシステム102のコンポーネントの組み合わせで実施され得る(
図1)。本開示に含まれるデバイスを実施するために、コンピュータシステム401の変形が使用され得る。コンピュータシステム401は、中央処理装置(「CPU」または「ハードウェアプロセッサ」)402を備え得る。ハードウェアプロセッサ402は、ユーザ生成要求またはシステム生成要求を実行するためのプログラムコンポーネントを実行するための少なくとも1つのデータプロセッサを備え得る。プロセッサは、統合システム(バス)コントローラ、メモリ管理制御ユニット、浮動小数点ユニット、グラフィック処理ユニット、デジタル信号処理ユニットなどの特殊処理ユニットを含み得る。プロセッサは、AMD Athlon
TM、Duron
TMまたはOpteron
TMなどのマイクロプロセッサ、ARMのアプリケーション、埋め込み式または安全なプロセッサ、IBM PowerPC
TM、Intelの Core、Itanium
TM、Xeon
TM、Celeron
TM、または他のプロセッサのラインなどを含み得る。プロセッサ902は、メインフレーム、分散プロセッサ、マルチコア、パラレル、グリッド、または他のアーキテクチャを使用して実施され得る。いくつかの実施形態は、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)などのような埋め込み技術を利用することができる。
【0069】
プロセッサ402は、I/Oインターフェース403を介して1つまたは複数の入力/出力(I/O)デバイスと通信するように配置され得る。I/Oインターフェース403は、限定することなく、オーディオ、アナログ、デジタル、モノラル、RCA、ステレオ、IEEE-1394、シリアルバス、ユニバーサルシリアルバス(USB)、赤外線、PS/2、BNC、同軸、コンポーネント、コンポジット、デジタルビジュアルインターフェース(DVI)、高品位マルチメディアインターフェース(HDMI(登録商標))、RFアンテナ、Sビデオ、VGA、IEEE 402.11a/b/g/n/x、Bluetooth(登録商標)、セルラ電話(たとえば、符号分割多元接続(CDMA)、高速パケットアクセス(HSPA+)、移動体通信用グローバルシステム(GSM(登録商標))、ロングタームエボリューション(LTE)、WiMaxなど)のような通信プロトコル/方法を使用することができる。
【0070】
I/Oインターフェース403を使用して、コンピュータシステム401は、1つまたは複数のI/Oデバイスと通信することができる。たとえば、入力デバイス404は、アンテナ、キーボード、マウス、ジョイスティック、(赤外線)リモコン、カメラ、カードリーダ、ファックス機、ドングル、バイオメトリックリーダ、マイクロフォン、タッチスクリーン、タッチパッド、トラックボール、センサ(たとえば、加速度計、光センサ、GPS、ジャイロスコープ、近接センサなど)、スタイラス、スキャナ、記憶デバイス、トランシーバ、ビデオデバイス/ソース、バイザなどであり得る。
【0071】
出力デバイス405は、プリンタ、ファックス機、ビデオディスプレイ(たとえば、陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、プラズマなど)、オーディオスピーカなどであり得る。いくつかの実施形態では、トランシーバ406は、プロセッサ402と関連して配置され得る。トランシーバは、様々なタイプの無線送信または受信を容易にし得る。たとえば、トランシーバは、IEEE802.11a/b/g/n、Bluetooth(登録商標)、FM、全地球測位システム(GPS)、2G/3G HSDPA/HSUPA通信などを提供するトランシーバチップ(たとえば、テキサスインスツルメンツ WiLink WL1283、ブロードコム BCM4750IUB8、インフィネオンテクノロジ X-Gold 618-PMB9800など)に動作可能に接続されたアンテナを含み得る。
【0072】
いくつかの実施形態において、プロセッサ402は、ネットワークインターフェース407を介して通信ネットワーク408と通信するように配置され得る。ネットワークインターフェース407は、通信ネットワーク408と通信し得る。ネットワークインターフェースは、限定することなく、直接接続、イーサネット(登録商標)(たとえば、ツイストペア10/100/1000 Base T)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、トークンリング、IEEE402.11a/b/g/n/xなどを含む接続プロトコルを使用し得る。通信ネットワーク408は、限定することなく、直接相互接続、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、(たとえば、無線アプリケーションプロトコルを使用する)無線ネットワーク、インターネットなどを含み得る。ネットワークインターフェース407および通信ネットワーク408を使用して、コンピュータシステム401はデバイス409、410と通信することができる。これらのデバイスは、限定することなく、パーソナルコンピュータ、サーバ、ファックス機、プリンタ、スキャナ、セルラ電話のような様々なモバイルデバイス、スマートフォン(たとえば、Apple iPhone(登録商標)、Blackberry、Androidベースの電話など)、タブレットコンピュータ、電子書籍リーダ(Amazon Kindle、Nookなど)、ラップトップコンピュータ、ノートブック、ゲーム機(Microsoft Xbox、任天堂DS、ソニーPlayStationなど)などを含み得る。いくつかの実施形態では、コンピュータシステム401自体が、これらのデバイスのうちの1つまたは複数を具現化し得る。
【0073】
いくつかの実施形態では、プロセッサ402は、記憶インターフェース412を介して1つまたは複数のメモリデバイス(たとえば、RAM713、ROM714など)と通信するように配置され得る。記憶インターフェースは、限定されないが、シリアルアドバンストテクノロジアタッチメント(SATA)、統合ドライブエレクトロニクス(IDE)、IEEE-1394、ユニバーサルシリアルバス(USB)、ファイバチャネル、スモールコンピュータシステムインターフェース(SCSI)などの接続プロトコルを使用して、メモリドライブ、リムーバブルディスクドライブなどを含むメモリデバイスに接続することができる。メモリドライブは、ドラム、磁気ディスクドライブ、磁気光ドライブ、光ドライブ、冗長独立ディスクアレイ(RAID)、ソリッドステートメモリデバイス、ソリッドステートドライブなどをさらに含み得る。たとえば、本開示において利用される任意のデータベースを実施するために、様々なメモリデバイスを使用することができる。
【0074】
メモリデバイスは、限定されないが、オペレーティングシステム416、ユーザインターフェースアプリケーション417、ユーザ/アプリケーションデータ418(たとえば、本開示で論じられる任意のデータ変数またはデータレコード)などを含む、プログラムまたはデータベースコンポーネントの集合を記憶し得る。オペレーティングシステム416は、コンピュータシステム401のリソース管理および動作を容易にすることができる。オペレーティングシステムの例としては、限定されないが、Apple Macintosh OS X、Unix系のシステムディストリビューション(たとえば、バークレーソフトウェアディストリビューション(BSD)、FreeBSD、NetBSD、OpenBSDなど)、リナックスディストリビューション(たとえば、Red Hat、Ubuntu、Kubuntuなど)、IBM OS/2、Microsoft Windows(XP、Vista/7/8など)、Apple IOS、Google Android、Blackberry OSなどを含み得る。ユーザインターフェース417は、テキストまたはグラフィック機能を介してプログラムコンポーネントの表示、実行、対話、操作、または動作を容易にし得る。たとえば、ユーザインターフェースは、カーソル、アイコン、チェックボックス、メニュー、スクローラ、ウィンドウ、ウィジェットなどのような、コンピュータシステム401に動作可能に接続されたディスプレイシステム上にコンピュータ対話インターフェース要素を提供することができる。限定しないが、Apple MacintoshオペレーティングシステムのAqua、IBM OS/2、Microsoft Windows(たとえば、Aero、Metroなど)、Unix X-Windows、ウェブインターフェースライブラリ(たとえば、ActiveX、Java(登録商標)、Javascript、AJAX、HTML、Adobe Flashなど)などを含むグラフィックユーザインターフェース(GUI)が使用され得る。
【0075】
いくつかの実施形態では、コンピュータシステム401は、本開示で説明されているように、データ、変数、レコードなどのようなユーザ/アプリケーションデータ418を記憶し得る。そのようなデータベースは、OracleまたはSybaseのようなフォールトトレラント、リレーショナル、スケーラブル、安全なデータベースとして実施され得る。あるいは、そのようなデータベースは、アレイ、ハッシュ、リンクリスト、構造化テキストファイル(たとえば、XML)、テーブルなどの標準化されたデータ構造を使用して、またはオブジェクト指向データベースとして(たとえば、ObjectStore、Poet、Zopeなどを使用して)実施され得る。そのようなデータベースは、時には本開示において上述した様々なコンピュータシステムの間で統合または分散され得る。任意のコンピュータまたはデータベースコンポーネントの構造および動作は、任意の実用的な組合せで組み合わされ、統合され、または分散され得ることを理解されたい。
【0076】
加えて、いくつかの実施形態では、送受信されるサーバ、メッセージング、および命令は、オペレーティングシステムを含むハードウェア、およびクラウド実施に存在するプログラムコード(すなわちアプリケーションコード)から発せられ得る。さらに、本明細書で提供されるシステムおよび方法の1つまたは複数は、クラウドベースの実施に適し得ることに留意されたい。たとえば、いくつかの実施形態では、開示された方法で使用されるデータのいくつかまたはすべては、任意のクラウドコンピューティングプラットフォームから供給されてもよく、またはそこに記憶されてもよい。
【0077】
記述された説明は、当業者が実施形態を製作および使用することを可能にするために本明細書中の主題を説明する。主題の実施形態の範囲は、特許請求の範囲によって定義され、当業者に想起される他の変更を含み得る。そのような他の変更は、それらが請求項の文字通りの文言と異ならない類似の要素を有する場合、またはそれらが請求項の文字通りの文言とは実質のない差異しか有さない同等の要素を含む場合、請求項の範囲内にあることが意図される。
【0078】
保護の範囲は、そのようなプログラム、それに加えて、メッセージを内部に有するコンピュータ可読手段に拡張され、そのようなコンピュータ可読記憶手段は、プログラムがサーバまたはモバイルデバイスまたは任意の適切なプログラマブルデバイス上で実行されるときに、方法の1つまたは複数のステップを実施するためのプログラムコード手段を含むことを理解されたい。ハードウェアデバイスは、サーバまたはパーソナルコンピュータなどのような任意の種類のコンピュータ、あるいはこれらの任意の組合せを含むプログラム可能な任意の種類のデバイスとすることができる。デバイスはまた、たとえば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)のようなハードウェア手段、または、たとえば、ASICおよびFPGA、または、少なくとも1つのマイクロプロセッサ、および、その中に配置されたソフトウェアモジュールを備えた少なくとも1つのメモリのような、ハードウェア手段とソフトウェア手段との組合せであり得る手段を含み得る。したがって、手段は、ハードウェア手段とソフトウェア手段との両方を含むことができる。本明細書に記載された方法の実施形態は、ハードウェアおよびソフトウェアで実施され得る。デバイスは、ソフトウェア手段をも含み得る。あるいは、実施形態は、たとえば、複数のCPUを使用して、異なるハードウェアデバイス上で実施され得る。
【0079】
本明細書における実施形態は、ハードウェア要素およびソフトウェア要素を含むことができる。ソフトウェアで実施される実施形態は、限定されないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書で説明されている様々なモジュールによって実行される機能は、他のモジュールまたは他のモジュールの組合せで実施され得る。この説明の目的のために、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらに関連して使用するためのプログラムを備える、記憶する、通信する、伝播する、または移送することができる任意の装置とすることができる。
【0080】
示されたステップは、示された例示的な実施形態を説明するために設定されており、進行中の技術開発は特定の機能が実行される方式を変えることが予想されるべきである。これらの例は、例示の目的で本明細書に提示されており、限定ではない。さらに、機能的な構築ブロックの境界は、説明の便宜上、本明細書では任意に定義されている。特定の機能およびそれらの関係が適切に実行される限り、代替の境界を定義することができる。代替形態(本明細書に記載されたものの等価物、拡張、変形、逸脱などを含む)は、本明細書に含まれる教示に基づいて当業者には明らかであろう。そのような代替は、開示された実施形態の範囲および趣旨内にある。また、「備える」、「有する」、「包含する」、および「含む」という用語および他の同様の形式は、意味的に等価であり、これらの単語のいずれかに続く単数または複数の項目は、そのような単数または複数の項目の網羅的な列挙であることを意味するのではなく、または列挙された単数または複数の項目のみに限定されるという点において無制限であり得ることが意図されている。本明細書および添付の特許請求の範囲で使用されるように(明細書に含まれる場合)、「a」、「an」、および「the」である単数形は、文脈が明らかにそうでないことを示さない限り、複数の言及を含む。
【0081】
さらに、本開示と一致する実施形態を実施する際に、1つまたは複数のコンピュータ可読記憶媒体が利用され得る。コンピュータ可読記憶媒体は、プロセッサによって読取可能な情報またはデータが記憶され得る任意のタイプの物理的なメモリを称する。したがって、コンピュータ可読記憶媒体は、本明細書に記載の実施形態と一致するステップまたは段階をプロセッサに実行させるための命令を含む、1つまたは複数のプロセッサによる実行のための命令を記憶し得る。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および過渡信号を排除する、すなわち非一時的であると理解されるべきである。例は、ランダムアクセスメモリ(RAM)、読出専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、および他の任意の既知の物理的記憶媒体を含む。
【0082】
開示および例は、開示された実施形態の真の範囲および趣旨を伴って、例示としてのみ考慮されることが意図される。