(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024116173
(43)【公開日】2024-08-27
(54)【発明の名称】選択的スプライシングの解析のためのシステムおよび方法
(51)【国際特許分類】
C12M 1/34 20060101AFI20240820BHJP
C12Q 1/6869 20180101ALI20240820BHJP
G16B 20/00 20190101ALN20240820BHJP
【FI】
C12M1/34 Z
C12Q1/6869 Z
G16B20/00
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024084158
(22)【出願日】2024-05-23
(62)【分割の表示】P 2021516538の分割
【原出願日】2019-05-22
(31)【優先権主張番号】62/675,590
(32)【優先日】2018-05-23
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.VISUAL BASIC
(71)【出願人】
【識別番号】520457111
【氏名又は名称】エンビサジェニックス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】マーティン アカーマン
(72)【発明者】
【氏名】マリア ルイーザ ピネダ
(57)【要約】
【課題】選択的スプライシングの解析のためのシステムおよび方法の提供。
【解決手段】ユーザにより提供されたゲノム、トランスクリプトームまたはその両方に関連する生物学的データを使用して選択的スプライシング事象を数量化するステップ、数量化された選択的スプライシング事象を、データベースに保存されている情報を用いて処理するステップ、統計的に有意な選択的スプライシング事象を識別するステップ、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対する選択的スプライシング事象の機能的影響を予測するステップ、一般に統計学的モデリングおよび機械学習アルゴリズムを使用して異常なスプライシング事象の創薬可能性および可逆性ならびにスプライシングの制御可能性を予測するステップを行うソフトウェアモジュールを含むシステムおよび方法が開示される。
【選択図】なし
【特許請求の範囲】
【請求項1】
明細書に記載の発明。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、開示全体があらゆる目的に関して参照により本明細書に組み込まれる、2018年5月23日出願の米国仮出願第62/675,590号の利益を主張するものである。
【0002】
連邦政府による資金提供を受けた研究に関する記載
本発明は、米国保健福祉省の国立衛生研究所から付与された助成金番号1R43GM116478-01および2R44GM116478-02A1の下、米国政府支援によりなされた。米国政府は本発明に対して一定の権利を有する。
【背景技術】
【0003】
背景
がんおよび遺伝子疾患は、米国において3,000万人を超える人に影響を及ぼしている。骨髄異形成症候群、急性骨髄性白血病、筋萎縮性側索硬化症、ハンチントン病および脊髄性筋萎縮症のような疾患は、RNAスプライシングのエラーによって引き起こされ得る。RNAスプライシングは、DNAのタンパク質非コード領域であるイントロンが新生メッセンジャーRNA前駆体(プレmRNA)から除去され、DNAのタンパク質コード領域であるエクソンが互いに接合して成熟メッセンジャーRNA(mRNA)が形成されるプロセスである。RNAスプライシングエラーの結果、機能性タンパク質を生じさせないスプライスされたRNAがもたらされ、それにより、多くの型のがんを含めた遺伝子疾患が引き起こされる。世界的なRNA治療薬市場は2020年までに約12億ドルになると予測される。
【0004】
参照による組込み
本明細書において言及されている全ての刊行物、特許および特許出願は、個々の刊行物、特許、または特許出願が、具体的にかつ個別に参照により組み込まれることが示されたものと同じ程度に参照により本明細書に組み込まれる。
【発明の概要】
【課題を解決するための手段】
【0005】
要旨
RNAスプライシングは、重要な治療的潜在性を有し得る。370種の遺伝障害がスプライシングエラーによって引き起こされることが報告されている。さらに、疾患を引き起こす全ての突然変異のうち約15%が、スプライシングを妨害すると予測され、同義のがん駆動突然変異のうちの約50%がスプライシングを損なう。したがって、広範な疾患に対する薬物革新を加速するための薬物の標的および/またはバイオマーカーとなり得る異常なスプライシング(単数または複数)を発見するという緊急のまだ対処されていない必要性が存在する。
【0006】
一態様では、選択的スプライシング(AS)事象を数量化するためのコンピュータにより実装されるシステムであって、プロセッサと、実行可能命令を実施するように構成されたオペレーティングシステムと、メモリと、選択的スプライシング数量化アプリケーションを創出するためのデジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムとを含むデジタル処理デバイスを含み、選択的スプライシング数量化アプリケーションが、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、情報をデータベースにマッピングして、マッピングされた情報を創出するステップと、ヒューリスティック近似を使用して、マッピングされた情報からデータ依存パラメータのセットを計算するステップと、データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップと、を行うためのソフトウェアモジュールを含む、コンピュータにより実装されるシステムが本明細書に開示される。一部の実施形態では、確率モデルは、ベイズ確率モデルである。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは自動で行われる。一部の実施形態では、データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップは自動で行われる。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回実行される。一部の実施形態では、データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップは、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは、ユーザによって調整されない。一部の実施形態では、データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップは、ユーザによって調整されない。一部の実施形態では、データ依存パラメータのセットは、断片サイズ分布を含む。一部の実施形態では、計算は、ヒューリスティック近似をさらに含み、ヒューリスティック近似は、インクルージョン比モデルをインクルージョン比のデータ駆動型モデルまたは数学的モデルに置き換えることを含む。一部の実施形態では、選択的スプライシング値は、エクソンインクルージョン比またはパーセントスプライス指数(PSI)を含む。一部の実施形態では、選択的スプライシング値は、エクソンレベルでの値である。一部の実施形態では、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データは、DNA配列、RNA配列、プレmRNA配列、およびmRNA配列のうちの1つまたは複数を含む。一部の実施形態では、ユーザから情報を受け取るステップは、クラウドネットワークを含むコンピュータネットワークを介したものである。一部の実施形態では、ソフトウェアモジュールは、ユーザが、選択的スプライシング値をソートすること、選択的スプライシング値をフィルターにかけること、データベースに保存されている情報を選択すること、選択的スプライシング値をデータベースに保存されている選択された情報とマージすること、1つまたは複数の統計的に有意な選択的スプライシング事象を閲覧すること、選択的スプライシング事象をその機能的影響の予測のために選択すること、またはこれらの組合せを行うことを可能にするユーザインターフェースをさらに含む。一部の実施形態では、本明細書のシステムは、ユーザが、1つまたは複数の統計的に有意な選択的スプライシング事象をユーザが選択した基準に基づいてソートする、フィルターにかける、または順位付けることを可能にするソフトウェアモジュールをさらに含む。
【0007】
別の態様では、選択的スプライシング事象を解析するためのコンピュータにより実装されるシステムであって、プロセッサと、実行可能命令を実施するように構成されたオペレーティングシステムと、メモリと、選択的スプライシング解析アプリケーションを創出するためのデジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムを含むデジタル処理デバイスを含み、選択的スプライシング解析アプリケーションが、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、情報を定量的に処理して、1つまたは複数の統計的に有意な選択的スプライシング事象を識別するステップであって、回帰モデルの1つまたは複数のパラメータを算出すること、および1つまたは複数のパラメータを使用して回帰モデルを情報に適用して、1つまたは複数の統計的に有意な選択的スプライシング事象を識別することを含むステップとを行うためのソフトウェアモジュールを含む、コンピュータにより実装されるシステムが本明細書に開示される。一部の実施形態では、回帰モデルは、薄板スプライン(Thin Plate Spline)に基づく回帰モデルである。一部の実施形態では、ゲノ
ム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報からエクソンインクルージョン比を含む情報が算出される。一部の実施形態では、回帰モデルは、薄板スプライン(TPS)モデルを含む。一部の実施形態では、本明細書のシステムは、1つまたは複数の統計的に有意な選択的スプライシング事象をデータベースまたは第2のデータベースに保存されている追加的な情報を用いて処理して、公共のデータセットにおける選択的スプライシング事象の再現性、臨床的メタデータに基づく記述的分析、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対するその機能的影響、異常なスプライシング事象の創薬可能性および可逆性ならびにスプライシング調節の制御可能性を数量化するステップであって、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の統計的に有意な選択的スプライシング事象の確率を、データベースに保存されている追加的な情報であって、公共のRNA-seqデータ、CLIP-seqデータ、mRNAアノテーション、GTExデータ、TCGAデータ、臨床的メタデータ、タンパク質構造情報、またはゲノムデータに基づく選択的スプライシングの複数のスプライシング型のアノテーションから得られたメタデータを含む、追加的な情報を使用して生成される複数の特徴を使用して定量的に推定することと、教師ありまたは半教師あり機械学習アルゴリズムを適用して、1つまたは複数の有意な選択的スプライシング事象の機能的影響を推定される確率に基づいて予測することとを含むステップを行うソフトウェアモジュールをさらに含む。公共のRNA-seqデータに関連する情報を含むアノテーションを生成するステップを行うソフトウェアモジュールをさらに含む、請求項21に記載のコンピュータにより実装されるシステム。一部の実施形態では、複数のスプライシング型は、選択的受容部位(AA)、選択的供与部位(AD)、カセットエクソン(CA)、およびイントロン保持(IR)のうちの1つまたは複数を含む。一部の実施形態では、アノテーションは、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む。一部の実施形態では、アノテーションは、ユーザから受け取った情報を使用して生成された1つまたは複数の新しいアノテーションを含む。一部の実施形態では、本明細書のシステムは、選択的スプライシング事象の1つまたは複数の機能的なスプライシング調節エレメントと潜在的なスプライシング調節エレメントを区別し、それにより、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性を予測するための半教師ありまたは教師あり機械学習分類器をさらに含む。一部の実施形態では、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性の予測は、スプライシング事象の解釈に利用されるように構成されている。一部の実施形態では、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データは、DNA配列、RNA配列、プレmRNA配列、およびmRNA配列のうちの1つまたは複数を含む。一部の実施形態では、ユーザから情報を受け取るステップは、クラウドネットワークを含むコンピュータネットワークを介したものである。一部の実施形態では、ソフトウェアモジュールは、ユーザが、選択的スプライシング値をソートすること、選択的スプライシング値をフィルターにかけること、データベースに保存されている情報を選択すること、選択的スプライシング値をデータベースに保存されている選択された情報とマージすること、1つまたは複数の統計的に有意な選択的スプライシング事象を閲覧すること、選択的スプライシング事象をその機能的影響の予測のために選択すること、またはこれらの組合せを行うことを可能にするユーザインターフェースをさらに含む。一部の実施形態では、本明細書のシステムは、ユーザが、1つまたは複数の統計的に有意な選択的スプライシング事象をユーザが選択した基準に基づいてソートする、フィルターにかける、または順位付けることを可能にするソフトウェアモジュールをさらに含む。
【0008】
さらに別の態様では、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対する選択的スプライシング事象の機能的影響を数量化するためのコンピュータにより実装されるシステムであって、プロセッサと、実行可能命令を実施するように構成されたオペレーティングシステムと、メモリと、選択的スプライシング機能的影響解析アプリケーションを創出するためのデジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムとを含むデジタル処理デバイスを含み、アプリケーションが、データベースに保存されている情報であって、公共のRNA-seqデータまたは他の生物学的データに基づいた選択的スプライシングの複数の型のアノテーションから得られたメタデータを含む、情報に基づく複数の特徴を生成するステップと、1つまたは複数の選択的スプライシング事象を得るステップと、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を複数の特徴に基づいて定量的に推定するステップと、教師ありまたは半教師あり機械学習アルゴリズムを適用して、1つまたは複数の選択的スプライシング事象の機能的影響を推定される確率に基づいて予測するステップと、1つまたは複数の選択的スプライシング事象の機能的影響の予測に基づいて、優先順位が付けられた、生物学的に関連する選択的スプライシング事象の一覧を生成するステップとを行うためのソフトウェアモジュールを含む、コンピュータにより実装されるシステムが本明細書に開示される。一部の実施形態では、半教師ありまたは教師あり機械学習アルゴリズムは、ランダムフォレスト、ベイズモデル、回帰モデル、ニューラルネットワーク、分類木、回帰木、判別分析、k近傍法、単純ベイズ分類器、サポートベクターマシン(SVM)、生成モデル、低密度分離法、グラフに基づく方法、ヒューリスティック手法、またはこれらの組合せを含む。一部の実施形態では、機械学習アルゴリズムを訓練セットを用いて訓練し、訓練セットの各データポイントは、複数の特徴のうちのある1つの特徴およびラベルを含み、ラベルは、ポジティブ、ネガティブ、またはアンラベルである。一部の実施形態では、訓練セットは、50以上の訓練データポイントで構成される。一部の実施形態では、複数の特徴は、RNAに基づく特徴、タンパク質ドメイン特徴、進化的特徴、変異性特徴、およびスプライシング調節特徴から選択される1つまたは複数のカテゴリーの特徴を含む。一部の実施形態では、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を定量的に推定するステップは、選択的スプライシングによる機能的なタンパク質ドメインの除去;選択的スプライシングによるナンセンス変異依存分解(NMD)および翻訳フレームシフト(FS);選択的スプライシング事象の変異性;選択的スプライシングを受けたタンパク質の生物学的ネットワークにおける重み付けされた接近中心性;またはこれらの組合せによって引き起こされる損傷を定量的に推定することを含む。一部の実施形態では、アノテーションは、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む。
【0009】
さらに別の態様では、選択的スプライシング事象を解析するためのコンピュータにより実装されるシステムであって、プロセッサ、実行可能命令を実施するように構成されたオペレーティングシステム、およびメモリを含むデジタル処理デバイスと、デジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムと、エクソン中心のデータマッピングを通じた選択的スプライシング事象の自動問い合わせが可能になるように構成されたデータベースであって、データベースの各エントリーが独立した選択的スプライシング事象を含み、データベースが、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを使用して生成された1つまたは複数のアノテーションを含み、生物学的データが、データベースのユーザにより提供されたものである、データベースと、第1の複数の選択的スプライシング事象の解析を第2の複数のプロセッサに分散するソフトウェアモジュールとを含む、コンピュータにより実装されるシステムが本明細書に開示される。一部の実施形態では、第1の複数のスプライシング事象は、コンピュータネットワークを介して分散される。
【0010】
なおさらに別の態様では、選択的スプライシング(AS)事象を数量化するためのコンピュータにより実装される方法であって、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、情報をデータベースにマッピングして、マッピングされた情報を創出するステップと、ヒューリスティック近似を使用して、マッピングされた情報からデータ依存パラメータのセットを計算するステップと、データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップとを含む、コンピュータにより実装される方法が本明細書に開示される。一部の実施形態では、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データは、DNA配列、RNA配列、プレmRNA配列、またはmRNA配列のうちの1つまたは複数を含む。一部の実施形態では、ユーザから情報を受け取るステップは、クラウドネットワークを含むコンピュータネットワークを介したものである。
【0011】
なおさらに別の態様では、選択的スプライシング(AS)事象を解析するためのコンピュータにより実装される方法であって、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、情報を定量的に処理して、1つまたは複数の統計的に有意な選択的スプライシング事象を識別するステップであって、回帰モデルの1つまたは複数のパラメータを算出すること、および1つまたは複数のパラメータを使用して回帰モデルを情報に適用して、1つまたは複数の統計的に有意な選択的スプライシング事象を識別することを含むステップとを含む、コンピュータにより実装される方法が本明細書に開示される。一部の実施形態では、確率モデルは、ベイズ確率モデルである。一部の実施形態では、回帰モデルは、薄板スプラインに基づく回帰モデルである。一部の実施形態では、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データは、DNA配列、RNA配列、プレmRNA配列、またはmRNA配列のうちの1つまたは複数を含む。一部の実施形態では、ユーザから情報を受け取るステップは、クラウドネットワークを含むコンピュータネットワークを介したものである。一部の実施形態では、本明細書の方法は、ユーザが、選択的スプライシング値をソートすること、選択的スプライシング値をフィルターにかけること、データベースに保存されている情報を選択すること、選択的スプライシング値をデータベースに保存されている選択された情報とマージすること、1つまたは複数の統計的に有意な選択的スプライシング事象を閲覧すること、選択的スプライシング事象をその機能的影響の予測のために選択すること、またはこれらの組合せを行うことを可能にするステップをさらに含む。一部の実施形態では、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報からエクソンインクルージョン比が算出される。一部の実施形態では、回帰モデルは、薄板スプライン(TPS)モデルを含む。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは自動で行われる。一部の実施形態では、データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップは自動で行われる。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回実行される。一部の実施形態では、確率モデルを適用して選択的スプライシング値を生成するステップは、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される。一部の実施形態では、マッピングされた情報からデータ依存パラメータのセットを計算するステップは、ユーザによって調整されない。一部の実施形態では、確率モデルを適用して選択的スプライシング値を生成するステップは、ユーザによって調整されない。一部の実施形態では、前記データ依存パラメータのセットの1つは、断片サイズ分布を含む。一部の実施形態では、計算は、ヒューリスティック近似をさらに含み、ヒューリスティック近似は、インクルージョン比モデルをインクルージョン比のデータ駆動型モデルまたは数学的モデルに置き換えることを含む。一部の実施形態では、選択的スプライシング値は、エクソンインクルージョン比またはパーセントスプライス指数(PSI)を含む。一部の実施形態では、選択的スプライシング値は、エクソンレベルでの値である。一部の実施形態では、本明細書の方法は、1つまたは複数の統計的に有意な選択的スプライシング事象をデータベースまたは第2のデータベースに保存されている追加的な情報を用いて処理して、公共のデータセットにおける選択的スプライシング事象の再現性、臨床的メタデータに基づく記述的分析、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対するその機能的影響、異常なスプライシング事象の創薬可能性および可逆性ならびにスプライシング調節の制御可能性を数量化するステップであって、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の統計的に有意な選択的スプライシング事象の確率を、データベースに保存されている追加的な情報であって、公共のRNA-seqデータ、CLIP-seqデータ、mRNAアノテーション、GTExデータ、TCGAデータ、臨床的メタデータ、タンパク質構造情報、またはゲノムデータに基づく選択的スプライシングの複数のスプライシング型のアノテーションから得られたメタデータを含む、追加的な情報を使用して生成される複数の特徴を使用して定量的に推定することと、教師ありまたは半教師あり機械学習アルゴリズムを適用して、1つまたは複数の有意な選択的スプライシング事象の機能的影響を推定される確率に基づいて予測することとを含むステップをさらに含む。一部の実施形態では、本明細書の方法は、公共のRNA-seqデータに関連する情報を含むアノテーションを生成するステップをさらに含む。一部の実施形態では、複数のスプライシング型は、選択的受容部位(AA)、選択的供与部位(AD)、カセットエクソン(CA)、およびイントロン保持(IR)のうちの1つまたは複数を含む。一部の実施形態では、アノテーションは、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む。一部の実施形態では、アノテーションは、ユーザから受け取った情報を使用して生成された1つまたは複数の新しいアノテーションを含む。一部の実施形態では、本明細書の方法は、選択的スプライシング事象の1つまたは複数の機能的なスプライシング調節エレメントと潜在的なスプライシング調節エレメントを区別し、それにより、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性を予測するための半教師ありまたは教師あり機械学習分類器をさらに含む。一部の実施形態では、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性の予測は、スプライシング事象の解釈に利用されるように構成されている。一部の実施形態では、本明細書の方法は、ユーザが、1つまたは複数の統計的に有意な選択的スプライシング事象をユーザが選択した基準に基づいてソートする、フィルターにかける、または順位付けることを可能にするソフトウェアモジュールをさらに含む。
【0012】
さらに別の態様では、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対する選択的スプライシング事象の機能的影響を数量化するためのコンピュータにより実装される方法であって、データベースに保存されている情報であって、公共のRNA-seqデータまたは他の生物学的データに基づいた選択的スプライシングの複数の型のアノテーションから得られたメタデータを含む、情報に基づく複数の特徴を生成するステップと、1つまたは複数の選択的スプライシング事象を得るステップと、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を複数の特徴に基づいて定量的に推定するステップと、教師ありまたは半教師あり機械学習アルゴリズムを適用して、1つまたは複数の選択的スプライシング事象の機能的影響を推定される確率に基づいて予測するステップと、1つまたは複数の選択的スプライシング事象の機能的影響の予測に基づいて、優先順位が付けられた、生物学的に関連する選択的スプライシング事象の一覧を生成するステップとを含む、コンピュータにより実装される方法が本明細書に開示される。一部の実施形態では、半教師ありまたは教師あり機械学習アルゴリズムは、ランダムフォレスト、ベイズモデル、回帰モデル、ニューラルネットワーク、分類木、回帰木、判別分析、k近傍法、単純ベイズ分類器、サポートベクターマシン(SVM)、生成モデル、低密度分離法、グラフに基づく方法、ヒューリスティック手法、またはこれらの組合せを含む。一部の実施形態では、機械学習アルゴリズムを訓練セットを用いて訓練し、訓練セットの各データポイントは、複数の特徴のうちのある1つの特徴およびラベルを含み、ラベルは、ポジティブ、ネガティブ、およびアンラベルである。一部の実施形態では、訓練セットは、50以上の訓練データポイントで構成される。一部の実施形態では、複数の特徴は、RNAに基づく特徴、タンパク質ドメイン特徴、進化的特徴、変異性特徴、およびスプライシング調節特徴から選択される1つまたは複数のカテゴリーの特徴を含む。一部の実施形態では、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を定量的に推定するステップは、選択的スプライシングによる機能的なタンパク質ドメインの除去;選択的スプライシングによるナンセンス変異依存分解(NMD)および翻訳フレームシフト(FS);選択的スプライシング事象の変異性;選択的スプライシングの重み付けされた接近中心性;またはこれらの組合せによって引き起こされる損傷を定量的に推定することを含む。一部の実施形態では、アノテーションは、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む。
【0013】
本開示の例示的な実施形態のみが示され、説明されている以下の詳細な説明から本開示の追加的な態様および利点が当業者には容易に明らかになろう。理解される通り、本開示は、他のおよび異なる実施形態が可能であり、そのいくつかの詳細は、全てが本開示から逸脱することなく種々の明白な観点での改変が可能なものである。したがって、図および説明は、例示的性質のものであり、拘束性のものではないとみなされるべきである。
参照による組込み
【0014】
本明細書において言及されている全ての刊行物、特許および特許出願は、個々の刊行物、特許、または特許出願が、具体的にかつ個別に参照により組み込まれることが示されたものと同じ程度に参照により本明細書に組み込まれる。
【0015】
本発明の新規特徴を、添付の特許請求の範囲において具体的に記載する。本主題の特徴および利点のより良い理解は、本発明の原理が利用されている例証的実施形態について記載する下記の詳細な説明、および添付図面(本明細書では「図(figure)」および「図(Fig.)」としても表される)を参照することにより得られる。
【図面の簡単な説明】
【0016】
【
図1】
図1は、5つの例示的コア:ユーザインターフェースコア、データベースコア、計算バックエンドコア、バイオインフォマティクスコア、および人工知能(AI)コアを含む、本明細書におけるシステムおよび方法の例示的非限定的な概略図である。
【0017】
【
図2-1】
図2Aは、例示的非限定的なユーザログインインターフェースを示す図である。
【0018】
【
図2-2】
図2Bは、新規プロジェクト(単数または複数)をリクエストするための非限定的例示的なユーザインターフェースを示す図である。
【0019】
【
図2-3】
図2Cは、リクエストされた新規プロジェクトについて、データセットを選択するための非限定的例示的なユーザインターフェースを示す図である。
【0020】
【
図2-4】
図2Dは、リクエストされた新規プロジェクトについて、データセットを確認するための非限定的例示的なユーザインターフェースを示す図である。
【0021】
【
図2-5】
図2Eは、プロジェクトをアクティブ化させるための非限定的例示的なユーザインターフェースを示す図である。
【0022】
【
図2-6】
図2Fは、プロジェクトを閲覧/編集するための非限定的例示的なユーザインターフェースを示す図であり、これには、SpliceTrapモジュール用のアップロードされたデータセット、およびSpliceDuoモジュール用のアップロードされた実験が含まれる。
【0023】
【
図2-7】
図2Gは、1つまたは複数のSpliceTrapデータセット、ならびに1つまたは複数の症例および対照データセットを選択することにより、新たな実験を開始するための非限定的例示的なユーザインターフェースを示す図である。
【0024】
【
図2-8】
図2Hは、統計的に有意なAS変化の一覧である実験結果を閲覧するための非限定的例示的なユーザインターフェースを示す図である。
【0025】
【
図2-9】
図2Iは、
図2Hに示すAS変化の実験結果について、カスタマイズ、ソート、およびフィルター処理するための非限定的例示的なユーザインターフェースを示す図である。
【0026】
【
図3】
図3は、例示的非限定的なユーザ階層を示す図である。
【0027】
【
図4】
図4は、入力物データ処理のためのSpliceCoreアプリケーションに関する例示的非限定的なフロー図である。
【0028】
【
図5】
図5は、計算バックエンドコアにおける計算ノードのクラスターのセットアップ、創出、および/または破壊の例示的非限定的な概略図である。
【0029】
【
図6-1】
図6A-6Cは、SpliceTrapモジュールの例示的非限定的な概略図である。
【
図6-2】
図6A-6Cは、SpliceTrapモジュールの例示的非限定的な概略図である。
【
図6-3】
図6A-6Cは、SpliceTrapモジュールの例示的非限定的な概略図である。
【0030】
【
図7-1】
図7A-7Cは、SpliceDuoモジュールの例示的非限定的な概略図である。
【
図7-2】
図7A-7Cは、SpliceDuoモジュールの例示的非限定的な概略図である。
【
図7-3】
図7A-7Cは、SpliceDuoモジュールの例示的非限定的な概略図である。
【0031】
【
図8】
図8は、計算バックエンドコアのTXdbビルディングモジュールの例示的非限定的な概略図である。
【0032】
【
図9】
図9は、バイオインフォマティクスコアの特性エンジニアリングの例示的非限定的な概略図である。
【0033】
【
図10-1】
図10Aは、計算バックエンドコアのSpliceImpactモジュールの例示的非限定的な概略図である。
【0034】
【
図10-2】
図10Bは、計算バックエンドコアのSpliceLearnモジュールの例示的非限定的な概略図である。
【0035】
【
図11】
図11は、1つまたは複数のCPU、メモリ、通信インターフェース、およびディスプレイを備えるデジタル処理デバイスの例示的非限定的な概略図である。
【0036】
【
図12】
図12は、ブラウザに基づくユーザインターフェース、および/またはネイティブモバイルユーザインターフェースを提供する、ウェブ/モバイルアプリケーション提供システムの例示的非限定的な概略図である。
【0037】
【
図13】
図13は、弾力的に負荷分散されたオートスケーリングウェブサーバー、およびアプリケーションサーバーリソース、ならびに同期的にレプリケートされたデータベースを含む、クラウドに基づくウェブ/モバイルアプリケーション提供システムの例示的非限定的な概略図である。
【0038】
【
図14】
図14は、パブリックリポジトリ中に存在するmRNA分子、またはRNA-seqデータからアセンブルされたmRNA分子に由来する2連エクソン(exon duo)および3連エクソン(exon trio)の抽出を含む、TXdbコンパイルプロセスの例示的非限定的な概略図である。
【0039】
【
図15】
図15は、TXdb v1と比較して、TXdb v2の5つのアノテートが付された分類の構成を示すために、TXdb v1で使用された4つのスプライシング型の相対数の例示的非限定的なグラフィック表現を示す図である。
【0040】
【
図16】
図16は、他のツールおよびTXdb v2の異なる分類に対して、TXdb v1においてアノテーションが付されたスプライシング事象の数を比較する例示的非限定的なグラフィック表現を示す図である。
【0041】
【
図17】
図17は、異なるTXdb分類における信頼度スコア分布の例示的非限定的なグラフィック表現を示す図である。
【0042】
【
図18】
図18は、訓練セットの結果について例示的非限定的なグラフィック表現を示す図であり、データセットは、MFASSデータセットにおけるスプライシング変化に基づき、ポジティブまたはネガティブとして表示されている。
【0043】
【
図19】
図19は、予測特性セットの例示的非限定的なグラフィック表現を示す図であり、RPB-RNA相互作用を識別するのに使用される各方法により裏付けられたRBPの数が特定される。
【0044】
【
図20】
図20は、エクソンインクルージョンを数量化するゲル電気泳動により検証された、SRSF2 RT-PCR増幅産物の例示的非限定的な画像を示す図である。
【0045】
【
図21】
図21は、観測されたイントロン保持の例示的非限定的なグラフィック表現を示す図である。
【0046】
【
図22-1】
図22Aは、ユーザがそのプロジェクトを編成するための、SpliceCoreにおいて利用可能なユーザインターフェース環境の例示的非限定的なイメージを示す図である。
【0047】
【
図22-2】
図22Bは、ユーザがプロジェクトデータセットおよび実験をレビューするための、SpliceCoreにおいて利用可能なユーザインターフェース環境の例示的非限定的なイメージを示す図である。
【0048】
【
図22-3】
図22Cは、ユーザがその実験の結果をレビューするための、SpliceCoreにおいて利用可能なユーザインターフェース環境の例示的非限定的なイメージを示す図である。
【0049】
【
図22-4】
図22Dは、ユーザがスプライシング事象をレビューするための、SpliceCoreにおいて利用可能なユーザインターフェース環境の例示的非限定的なイメージを示す図である。
【発明を実施するための形態】
【0050】
発明の詳細な説明
ここで、本開示の例示的な実施形態を詳細に参照し、その例を付属図に例示する。可能な限り、同じまたは同様の部分を参照するために図および開示全体を通して同じ参照番号を使用する。
【0051】
構成的なRNAスプライシングは、イントロンが除去され、大多数のエクソンが遺伝子内でそれらが現れる順にエクソンンライゲーションされるプロセスである。選択的スプライシング(AS)は、構成的なRNAスプライシングからの逸脱であり、ライゲーションステップの間にある特定のエクソンがスキップされ、その結果、様々な形態の成熟mRNA-ASバリアントがもたらされる。ASにより、より大きなRNAおよびタンパク質多様性が可能になる。
【0052】
多くのヒト疾患は、毒性mRNAアイソフォームの発現を導く異常なスプライシング変化によって引き起こされ得る。Human Gene Mutationデータベースによると、疾患を引き起こす全ての突然変異の3分の1および同義のがん駆動突然変異の半分により、重大な遺伝子のスプライシングが損なわれる。およそ370種の稀な遺伝障害が異常なスプライシングによって引き起こされる。例えば、骨髄異形成症候群(MDS)の患者の約45~85%において、U2AF1、ZRSR2、SRSF2およびSF3B1などのスプライシング因子(SF)の突然変異は再発性である。他の例は、筋萎縮性側索硬化症、網膜色素変性症、ハンチントン病、アルツハイマー病、嚢胞性線維症、家族性自律神経障害および脊髄性筋萎縮症(SMA)である。SMAの処置に関してSPINRAZA(登録商標)(ヌシネルセン)という薬物が最近認可されたことは、異常なスプライシングの操作により、遺伝障害を処置するための革新的な治療法をもたらすことができるという確かな証拠を示すものである。
【0053】
2007年に次世代シーケンシングが導入されるまで、ハイスループットスプライシング解析の主要な障壁は、RNA-seqのような都合のよい技術プラットフォームの欠如であった。それ以前は、トランスクリプトーム市場はマイクロアレイ技術が優位を占めていた。しかし、エクソンレベルでの解析に適したマイクロアレイプラットフォームはほんのわずかであり得る(例えば、エクソンアレイ)。これらのプラットフォームは、スプライシング事象を全く検出することができない遺伝子レベルでのマイクロアレイと比較して費用がかかり、かつ複雑であり得る。本明細書に提示されるシステムおよび方法は、エクソンレベルでのRNA-seq解析による異常なスプライシング事象の検出を有利に可能にすることができるものである。さらに、配列決定および公共のデータリポジトリの蓄積にかかる費用の著しい低減により、新規の潜在的な異常なスプライシング事象の発見を有利に可能にし、それにより、薬物標的の発見および検証を容易にすることができる。
【0054】
本明細書のシステムおよび方法の1つの利点は、完全な転写物アセンブリおよび遺伝子発現の数量化のために一般に使用される遺伝子中心の手法に置き換わる、RNA-seq解析およびトランスクリプトーム解釈のためのエクソン中心の手法である。スプライシングに影響を及ぼす突然変異によって引き起こされる疾患は一般的であるが、一般に使用される遺伝子中心の手法を使用して異常なスプライシング事象を識別することは難しい可能性がある。本明細書に提示されるシステムおよび方法は、存在量が少ない異常なmRNAアイソフォームの検出に関して高感度であり、人工知能(AI)、例えば、それらの疾患への関与を予測するためのSpliceImpactモジュール、異常なスプライシングなどのスプライシング事象の創薬可能性および制御可能性を予測するためのSpliceLearnモジュールを利用するものであり得る。例えば、遺伝子中心の手法により、一般には、変動して(differentially)発現される遺伝子を識別し、次いで、遺伝子富化(例えば、遺伝子オントロジー)を生物学的解釈のために使用することができる。このプロセスは生物学的に洞察に満ちたものであり得るが、潜在的な薬物標的および異常なスプライシング事象の一覧を作成することはできない可能性がある。一部の実施形態では、本明細書に提示されるエクソン中心の手法では、まず、変動してスプライスされるエクソンを識別し、異常なスプライシング事象を公共のデータにおけるそれらの再出現に基づいてアノテートし、機械学習を利用して、最も疾患に関連する、創薬可能性のあるエクソンに優先順位を付ける。既存の技術では、例えば、疾患過程または薬物処置により活性化される経路の研究など、包括的なRNA-seqプロファイリングに有用な遺伝子中心の解析のためのツールを提供することができる。しかし、エクソン中心の感度および生物学的解釈の欠如により、特定の薬物標的に優先順位を付けることが困難であり得る。さらに、Cufflinks、DEseq、EdgeR、RMATsおよびMAJIQなどのRNA-seq解析用のオープンソースツールでは、基本的なRNA-seq解析しかもたらされず、生物学的解釈の必要がまだ対処されずに大きく残っており、したがって、ユーザが、薬物標的に優先順位を付け、それらを制御するための治療薬を設計するための独自のやり方を考案する必要があり、これは、多くの場合、手動で行われ、長期間、例えば、数年を要し得る。本明細書のエクソン中心の手法は、薬物の発見のためのSpliceCoreプラットフォームを使用することにより、小分子またはアンチセンスRNAの標的とするRNA結合性タンパク質結合性部位などの特定のエクソンの配列を指し示す、疾患に関連するスプライシング事象を識別するための垂直的な道をもたらすものである。
【0055】
本開示の追加的な利点は、本明細書のシステムおよび方法が開発され、検証されていることである。具体的には、薬物発見の試みを通知するためのシステム/プラットフォームの特定の構成要素の能力が独立した技術によって実験的に検証されている。
【0056】
図1は、本明細書に開示されるシステムおよび方法の例示的な概略図を示す。この特定の実施形態では、システムおよび方法は、5つのコアモジュールを含み、これらは、他のモジュールと通信して、ASの数量化および解析が実現されるように接続されている。5つのコアモジュールは、フロントエンド/ユーザインターフェースコア、AIコア、TXdbデータベースコア、バイオインフォマティクスコア、および計算バックエンドコアを含む。各コアは、多数のサブモジュールを含み得、例示的なサブモジュールが
図1に示されている。この特定の実施形態では、ユーザは、ユーザインターフェースコアを使用してログインし、新しいプロジェクト(単数または複数)を要求し、要求された新しいプロジェクトのためにデータセットをアップロードすることができる。アップロードされたデータセットを、計算バックエンドコアのSpliceTrapモジュールを使用した自動実行のためにキューに入れることができる。SpliceTrapモジュールによりAS変化が数量化されて、ユーザ用の結果が生成される。例として、SpliceTrapモジュールにより、複数のAS値が生成される。数量化の結果を、ユーザインターフェースを介してユーザにレポートすることができる。ユーザインターフェースコアを使用すると、ユーザは、SpliceTrapの結果を使用して、SpliceDuoモジュールを使用した症例/対照比較を実施することができる。SpliceDuoモジュールにより、統計的に有意なAS変化(単数または複数)を識別することができる。SpliceDuoの少なくとも1回の実行が完了した後、実験レポートをユーザインターフェースで閲覧するために入手することが可能である。ユーザは、所有権のあるデータをTXdbデータベースコア、バイオインフォマティクスコアからのメタデータならびに/またはSpliceImpactおよびSpliceLearnモジュールからの結果と組み合わせる選択肢を有する。メタデータにより、ユーザの所有権のあるデータに対するアノテーションおよびマッピング参照をもたらすことができる。メタデータをAIコアおよびSpliceImpactおよびSpliceLearnモジュールによって使用することもできる。メタデータを用いて、SpliceImpactモジュールで機械学習を使用して、疾患を引き起こすAS変化に優先順位を付けることができ、かつSpliceLearnモジュールは、ユーザインターフェース側のユーザにとっての特定の治療介入点であり得る異常なスプライシング候補を予測するように構成されている。そのような予測結果はユーザインターフェースコアを使用した提示のために利用可能である。
ユーザインターフェース
【0057】
一部の場合では、本明細書のシステムおよび方法は、ユーザインターフェースコアを含む。
図2に示されている通り、ユーザインターフェースコアは、3層のスキームを含み得る:(1)ユーザアクセス管理およびデータアップロード、その後のSpliceTrap解析のためのプロジェクトダッシュボード/スクリーン;(2)ユーザが、SpliceDuoを使用した症例/対照比較を実施するために種々のSpliceTrap出力を選択することができる実験ダッシュボード/スクリーン;および(3)ユーザが、生物学的にかつ/または統計的に有意なAS変化を識別するために、ユーザの所有権のあるデータをTXdbメタデータおよび機械学習により予め算出された予測(すなわち、SpliceImpactおよびSpliceLearn)と組み合わせることができる予測解析用ダッシュボード/スクリーン。
【0058】
一部の場合では、本明細書のユーザインターフェースコアにより、ユーザが、数量化/解析のためにデータをアップロードするために使いやすいインターフェースを使用することが可能になる。そのようなデータは、任意の生物学的データを含み得る。そのようなデータは、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、またはその両方にマッピングすることができる生物学的データを含み得る。非限定的な例示的な生物学的データは、生RNA-seqデータである。
図2A~2Iは、
図4の個々のステップにおける非限定的な例示的なユーザインターフェースを示し、これは、ユーザがSpliceTrapおよびSpliceDuoモジュールの種々の機能性をインタラクティブに利用する/編集することを可能にするものである。例えば、
図2Gに示されている通り、多数のSpliceTrap実行の完了後、ユーザは、ユーザインターフェースを使用してSpliceDuoジョブを創出し、それをサブミットして完了させる。
【0059】
一部の場合では、ユーザインターフェースは、
図2H~2Iに示されている通り、ユーザのデータを閲覧すること、ソートすること、フィルターにかけること、ならびにユーザのデータをTXdbメタデータ、SpliceImpact/SpliceLearn予測値およびSpliceDuoの結果とマージすることを可能にするインタラクティブな機能性を含む。
【0060】
図3は、本明細書のシステムおよび方法の異なるレベルのユーザ階層を示す。ユーザプロジェクトオーナーは、プロジェクト、データセット、およびプロジェクト(単数または複数)の実験にアクセスすることができ、一方、プロジェクトチームメンバーは、指定されたデータセットおよび/またはプロジェクト(単数または複数)の実験のみにアクセスすることができる。管理者は、ユーザのプロジェクト情報にアクセスすることができるだけでなく、アカウント情報、および/またはユーザには提供されない本明細書のシステムおよび方法の情報、例えば、SpliceDuoモジュールのパラメータおよび設定にもアクセスすることができる。
【0061】
一部の場合では、ユーザインターフェースは、2つまたはそれよりも多くのユーザ環境を含む。
図22は、ユーザインターフェースの4つの例示的な異なるユーザ環境を示す。左上のパネルにある第1のユーザ環境は、プロジェクトダッシュボード(Project
Dashboard)であり、クライアントのプロジェクトを表示することができる。プロジェクト情報は、これだけに限定されないが、プロジェクトにおいて解析されるRNA-seqデータセットの数、実験の実行状況、ならびに認められたユーザおよび管理者を含み得る。右上のパネルにある第2のユーザ環境は、データセットおよび実験(Datasets and Experiments)である。RNA-seqデータセットがアップロードされたら、それらをSpliceTrapを用いて解析し、TXdb参照トランスクリプトームデータベースにマッピングすることができる。ダッシュボードには、解析プロセスおよびSpliceTrapによって処理されたダウンロードデータへのリンクを示すことができる。左下のパネルにある第3のユーザ環境は、実験結果(Experiments Results)インターフェースであり、統計的に有意なスプライシングエラーの表がユーザに対して表示される。縦の列は、TXdb ID、遺伝子名、dPSI(スプライシング変化)、再現性(同じスプライシング事象が統計的に有意であった症例データセットの数)、ならびに一貫性(症例データセットにおけるスプライシング数量化間の測定値の一致)を含み得る。右下のパネルにある第4のユーザ環境は、ユーザに対するRNAスプライシングレポートであり、ユーザは興味深い候補をフィルターにかけることができる。各候補について、スプライシング事象が記載されている一連の図表を入れて、そのようなデータをスプライシングレベル、リードカバレッジ、ゲノムへのRNA-seqマッピングプロファイル、疾患関与に関する情報、組織特異性、ならびに創薬可能性として含めることができる。
SpliceCore
【0062】
選択的スプライシング(AS)事象を数量化および解析するためのシステムおよび方法が本明細書に開示される。一部の実施形態では、本明細書のシステムおよび方法は、RNA配列データなどのユーザによる入力データから、AS変化を検出し、数量化し、解釈するためのプラットフォーム、例えば、クラウドに基づくプラットフォームを含む。入力データファイルの非限定的な例としては、BAM、SAM、FASTQ、FASTA、BED、およびGTFファイルが挙げられる。
【0063】
「SpliceCore」として知られる例示的なプラットフォームが本明細書に提示される。一部の実施形態では、SpliceCoreプラットフォームは、計算バックエンドコアと等価である。一部の実施形態では、SpliceCoreプラットフォームは、SpliceTrapモジュール、SpliceDuoモジュール、SpliceImpactモジュール、SpliceLearnモジュール、およびTXdbデータベースを構築するためのTXdb構築モジュールから選択される1つまたは複数のモジュールを含み得る。
【0064】
一部の場合では、SpliceCoreプラットフォームは、ソフトウェアモジュール、アプリケーション、アルゴリズム、ユーザインターフェース、メモリ、デジタル処理デバイス、データストレージ、データベース、計算記録のクラスター、クラウドネットワーク、通信要素、およびコンピュータプログラムのうちの1つまたは複数を含む。
【0065】
SpliceCoreプラットフォームは、その入力を、これだけに限定されないが、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、またはその両方にマッピングすることができる生物学的情報を含めた、ユーザにより提供されたデータセットとして取ることができる。
【0066】
一部の場合では、SpliceCoreプラットフォームは、SpliceTrapモジュールおよび/またはSpliceDuoモジュールを、例えば逐次的に実行して、大量の生物学的データ、例えば、多数のユーザからのRNA-seqデータを同時に解析するための安定、スケーラブル、かつ費用効果が大きい基盤がもたらされるように構成されている。一部の場合では、本明細書のプラットフォームは、バイオファーマバイオインフォマティクスワークフロー、プロジェクトの目的および異なるクラウドサービスプロバイダーに適応できるように構成されている。
【0067】
一部の場合では、本明細書のシステムおよび方法は、クラウドコンピューティングを使用するように構成されており、これにより、並行の分散コンピューティング、クラスターコンピューティング、計算スケーラビリティ、より大きなデータセットに対する訓練、種々のデータ型の組込み、および新規のスプライシング事象を妥当な時間内により少ない費用でより深く検索することが有利に可能になる。本明細書のクラウドに基づくプラットフォームの代替は、物理スーパーコンピュータを維持することである。そのようなリソースの維持、保護、およびアップデートに関連する費用はきわめて大きなものになり得る。クラウドコンピューティングの別の利点は、そのスケーラビリティであり得る。大きなクラウドコンピューティングリソースを一時的に構築し、利用し、廃棄することができ、したがって、計算の費用は需要に直接関連して変動する。
【0068】
図4は、SpliceCoreプラットフォームの非限定的な例示的なフローチャートを示す。この実施形態では、ユーザは、ログインしてプロジェクトをアクティブにし、自動SpliceTrap実行のためにキューに入れられたデータセットをアップロードすることができる。選択されたプロジェクトの下で、SpliceTrap実行からの結果を、同じくキューに入れられ、ユーザによる実験パラメータの調整後に実行されるSpliceDuo実験に使用することができる。実験レポートをユーザにユーザインターフェース、例えば、グラフィックユーザインターフェース(GUI)を介して提供することができる。
SpliceTrap
【0069】
一部の場合では、本明細書のシステムおよび方法は、SpliceTrapモジュールを含む。SpliceTrapモジュールは、ASの数量化のための確率モデル、例えば、ベイズモデルを含み得る。
【0070】
フロントエンド、または同等に、ユーザインターフェースを使用して、ユーザは、ユーザがSpliceTrapモジュールによる解析のためにいずれのデータファイル(単数または複数)、例えば、FASTA/FASTQをアップロードしたいかを選択することができる。このアップロードにより、
図5に示されている通り、SpliceTrapクラスターの創出の引き金となり得るSpliceTrapキューへのエントリーを創出することができる。目下創出されるクラスターが存在すると、実行をキューに入れることができる。次いで、SpliceTrapパイプラインによりデータを処理し、その出力を生じさせることができる。SpliceTrapが完全に実行された後、出力を創出し、ユーザのSpliceTrap結果データベースにアップロードすることができる。SpliceTrapモジュールにより、TXdb参照を生じさせることができる任意の種についてペアエンドまたはシングルエンドトランスクリプトーム(単数または複数)またはゲノム(単数または複数)データを解析することができる。
【0071】
一部の実施形態では、クラスターは、本明細書の1つまたは複数のデジタル処理デバイス、または同等に、計算ノードを含み得る。デジタル処理デバイスは、本明細書のシステムおよび方法から離れた場所にあってもよく、そうでなくてもよい。一部の場合では、クラスターのデバイスまたは計算ノードは、本明細書のクラスターまたはシステムおよび方法内の他のものとコンピュータネットワーク、例えば、クラウドネットワークを介して通信する。
【0072】
本明細書のSpliceTrapモジュールは、一部の場合では、ユーザによる入力情報の少なくとも一部分をデータベースにマッピングするソフトウェアモジュールを含む。一部の場合では、情報は、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、もしくはその両方に関連する生物学的データ、および/またはゲノム(単数または複数)、トランスクリプトーム(単数または複数)、もしくはその両方にマッピングすることができる生物学的データを含む。SpliceTrapモジュールは、マッピングされた情報からデータ依存パラメータのセットを計算するソフトウェアモジュールをさらに含み得る。一部の場合では、SpliceTrapモジュールは、ヒューリスティック近似を実施して、データ依存パラメータのセットを推定するように構成されている。一部の場合では、TXdbによりマッピングされた読み取りからのデータ依存パラメータは、これだけに限定されないが、断片サイズ分布、断片サイズ分布モデルおよびそのパラメータ、インクルージョン比分布、インクルージョン比分布モデルおよびそのパラメータ、2連エクソン(exon duo)または3連エクソン(exon trio)アイソフォームの長さ、ならびに2連エクソンまたは3連エクソンアイソフォームの発現レベルのうちの1つまたは複数を含む。ヒューリスティック近似では、実行時間を、データ依存パラメータの正確な最適化を計算するための実行時間よりも有意に減少させることができる。一部の場合では、時間のかかるパラメータの推定を多数のヒューリスティック近似に置き換えることができ、その結果、同等の出力がもたらされ、実行時間が非常に有意に減少する。一部の場合では、実行時間の減少は、同様の性能のハードウェアを使用してデータ依存パラメータの正確な最適化を計算するための実行時間の約6~40分の1というものである。一部の場合では、実行時間の減少は、同様の性能のハードウェアを使用してデータ依存パラメータの正確な最適化を計算する実行時間の10倍以上速いというものである。ヒューリスティック近似の非限定的な例は、データ依存パラメータのセットの少なくとも1つを、ユーザによってアップロードされた生物学的データの総量の0.1%未満、0.5%未満、0.8%未満、1%未満、2%未満、3%未満、5%未満、6%未満、8%未満、または10%未満を使用して推定することである。一部の場合では、生物学的データは、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、またはその両方と関連しないまたはそれにマッピングすることができない情報を含まない。一部の実施形態では、データ依存パラメータの推定に影響を及ぼすことなく生物学的データのサイズまたは量を低減するために、生物学的データを予備処理することができる。例えば、断片サイズ分布(FSD)は、ユーザによる入力データ全体の処理に基づくSpliceTrapモジュールパラメータである。112のRNA-seqデータセットからの28億の読み取りを用いたシミュレーションにより、正確なFSD推定のための最小のサンプルサイズが100,000読み取り(入力データ全体の1%未満)であり得ることが見出された。これにより、実行時間を4.0分/データセットから0.2分/データセットまで減少させることができ、絶対的な平均エラー(MAE)は0.06%である。一部の場合では、ヒューリスティック近似は、SpliceTrapモジュールによって利用されるインクルージョン比モデルをインクルージョン比の一様性の仮定に置き換えることを含む。一部の場合では、ヒューリスティック近似は、SpliceTrapモジュールによって利用されるインクルージョン比モデル(IRM)をインクルージョン比のデータ駆動型モデルまたは数学的モデルに置き換えることを含む。インクルージョン比モデルまたは同様の機能の他のモデルは、SpliceTrapのためのPrior情報をモデル化する、例えば、あらゆる型の入力データセットに対して別々にIRMを生成する時間のかかるステップであり得る。IRMを一様性の仮定に置き換えることにより、スピードを3.6分/データセットまで低減することができ、検出されたAS事象の92%が0%のMAEを示す。一部の場合では、PCRにより検証されたSpliceTrap予測の評価により、IRMの使用を伴うまたは伴わない一貫性が示される。一部の場合では、ヒューリスティック近似は、1つまたは複数の統計的に有意なAS変化を識別するための薄板スプライン(TPS)に基づくデータ平滑化モデルの1つよりも多くのパラメータについてカスタマイズされた組合せを使用することを含み、それにより、1つよりも多くのパラメータを反復して較正する必要がなくなる。SpliceDuoモジュールは、幾何的パラメータ(例えば、グリッドサイズg、グリッドの数M、および平滑化係数λ)をそのTPS回帰モデルに対して反復的に較正する。一部の場合では、112のRNA-seq試料に対して何千もの幾何的パラメータをシミュレートし、実行時間の8.8分/データセットの減少を伴ってAS発見率(例えば、ASD - 既知のAS事象の予測されるAS事象に対する比)、真陽性率(TPR - 再現性のあるAS事象の偽性AS事象に対する割合)および/または検出されたAS事象の量(N)が最大になる最適な組合せ(例えば、g=10、M=100、λ=0.05)を識別することができる。
【0073】
一部の場合では、SpliceTrapモジュールは、確率モデル、例えば、ベイズモデルをデータ依存パラメータのセットに適用することによって複数のAS値を生成するソフトウェアモジュールを含む。そのような複数のAS値は、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、またはその両方にマッピングすることができる生物学的データのAS変化を表し得る。一部の場合では、AS値は、各値がAS変化のレベルを一意に表し得る、定量的値である。一部の場合では、本明細書のAS値は、エクソンインクルージョン比および/またはパーセントスプライスイン(PSI)を含む。
【0074】
一部の実施形態では、本明細書のSpliceTrapモジュールにより、RNA-seqデータ(例えば、シングルエンドまたはペアエンドRNA-seqデータ)中のエクソンインクルージョンレベルを数量化する。SpliceTrapモジュールにより、エクソンスキッピング(CA)、選択的5’(AD)または3’(AA)スプライス部位、およびイントロン保持(IR)などの異なるスプライシングパターンについてのASプロファイルを生成することができる。SpliceTrapモジュールにより、TXdbデータベースを利用して、あらゆるエクソンのインクルージョンレベルを独立したベイズ推測問題として推定することができる。マイクロアレイに基づく方法とは異なり、SpliceTrapは、RNA-seqに依拠し得、したがって、相対的なスプライシング変化を推定するための読み取りのバックグラウンドセットを必要とせずに単一細胞条件内でのあらゆるエクソンのインクルージョンレベルを決定することができる。
【0075】
一部の場合では、ASを数量化するソフトウェアモジュールは自動である。効率および実行時間減少のために、ASを数量化するソフトウェアモジュールを、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データ、例えば、DNA、RNA、mRNA配列の各入力データセットに対して1回のみ実行することができる。一部の場合では、入力データセットは、任意の既存のRNA-seqプラットフォームからのRNA-seqデータを含む。一部の場合では、SpliceTrapモジュールの効率、利便性、および単純性を最適化するために、ASを数量化するソフトウェアモジュールを実行して、ユーザによる調整、例えば、SpliceTrapモジュールのパラメータの調整を伴わないAS値を生成することができる。
【0076】
図6A~6Cは、SpliceTrapモジュールの例示的な実施形態を示す。
図6Aを参照して、特定の実施形態では、入力ファイル、例えば、FASTAまたはFASTQファイルの形態のRNA-seqデータを、クラスターにおいて利用可能な計算コアの数に基づいて分割することができる。読み取りをばらばらにすることなくファイルを分割する(例えば、読み取りは、FASTAでは2行毎であり、FASTQでは4行毎である)。入力がペアエンドの場合、末端の2ファイルも分割する。
【0077】
図6Bを参照して、分割後に、BowtieまたはSTARなどのRNA-seqアライナーを使用して入力データをTXdbにマッピングすることによってマッピングジョブを行う。これにより、各読み取りのTXdbマッピングを含有するSAMファイルを生じさせることができる。次いで、これらのアラインメントをフィルターにかける。マッピングされなかった読み取りを除去することができる。アラインメントが異なる染色体に対するものであるまたは同じ染色体上で互いに遠く離れている場合には、アラインメントをフィルターにかけることができる。これにより、ペアエンドを延長することができる;末端が異なる染色体にマッピングされる場合、読み取り全体をフィルターにかけて取り除く。ペアエンド入力を使用する場合、末端間の断片サイズを算出する。各読み取りについて、両末端に存在する遺伝子IDのマッピング間の距離を算出する。このサイズが両末端に存在するTXdb IDの全てについて一貫している場合、これを断片サイズ一覧に追加する。これらのフィルターにかけられたマッピングを、各染色体または染色体の一部についてのファイルに分割することができ、これは、推定ステップの並行化に有用であり得る。
【0078】
図6Cを参照して、各TXdb遺伝子IDのインクルージョン比を推定するために、IDに関する情報を含有するBEDファイルを読み取ることができる。これにより、BEDファイルを多数の小片に分割することによって並行化することが容易になる。BEDファイルを染色体で分割することができ、各染色体を染色体が含有するIDの数に基づいて分割することができる。IDをシャッフルして、関連するIDが最終的に同じファイルに入ることを防止することができる。これは、互いに近いIDは通常同様の数のマッピングを受け、IDの推定時間が増大し得るという事実に起因する。したがって、シャッフリングにより、最も多くのマッピングを受けたIDが最終的に同じジョブに入ることを防止することができる。入力がペアエンドの場合、断片サイズヒストグラムを考慮することができる。
【0079】
その後、特定のジョブに関して染色体へのマッピングを含有するファイルを読み取る。各アラインメントについて、IDにおける読み取りの位置をマッピングし、エクソンマッピングおよびジャンクションマッピングを計数することができる。
【0080】
次いで、各IDに対して、その読み取り対の全てを使用して推定を実施する。最初の推定後、インクルージョン比に関するモデルを創出することができる。閾値、例えば10を超えるカバレッジ、および許容の最大値または最小値ではない比を有するIDのみを含めることができる。比の正確度を改善するために、インクルージョン比モデルのヒストグラムを使用することができ、推定を返すことができる。
【0081】
図6Bの参照を続けると、特定の実施形態では、TXdbデータベースを少なくとも2つのレベルの、「N」と称される信頼度によって層別化する。この実施形態では、信頼度は、所与のTXdb IDが既知であり、Priorデータによって支持される程度を指す。Priorデータは、パブリックドメインからのmRNAアノテーションを直接観察することによって、またはゲノムにマッピングされたRNA-seqデータに基づいて確率モデル(例えば、ベイズモデル)を使用することによって導き出すことができる。一部の実施形態では、Nは、スプライシング事象(単数または複数)の信頼度を示す数値を含む。例えば、N=0は最大の信頼度(例えば、周知のおよび/または特徴付けられたスプライシング事象)を表し、N>1は、TXdbアノテーションにおける種々のレベルの新規性を指す。新規性のレベルは、それらのTXdb IDの存在を支持するPrior情報の量に依存し得る。TXdbステップへのマッピング後、フィルターにかけられず、マッピングされないままのトランスクリプトームの読み取りには、マッピングの次のラウンドにおいて「マッピングされていない」とタグ付けされ、ここで、N=N+1である。一部の実施形態では、各ステップにおいて発行されたNの数値を有するトランスクリプトームの読み取りのバルク全体の中で、N=1から始まる読み取り以外は、N-1において「マッピングされていない」とタグ付けされた読み取りを含有するTXdb IDのみを「Priorの評価」ステップに移動させる。このタグ付け、再利用、および/または選択ステップは、計算費用および時間を低減して多数のTXdb ID(例えば、100万、200万、500万またはそれよりも多く)にわたるトランスクリプトームのデータの深い探索を可能にするために重要であり得る。
SpliceDuo
【0082】
一部の実施形態では、SpliceDuoモジュールが本明細書に開示される。SpliceDuoモジュールは、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、またはその両方に関連し得るまたはマッピングされ得る生物学的データの少なくとも一部分を処理して、統計的に有意なAS変化(単数または複数)を識別するソフトウェアモジュールを含み得る。一部の場合では、SpliceDuoモジュールは、SpliceTrapモジュールから算出された結果、例えば、複数のAS値に、回帰モデル、例えば、薄板スプライン(TPS)に基づく回帰モデルを適用する。一部の場合では、SpliceDuoモジュールは、ゲノム(単数または複数)、トランスクリプトーム(単数または複数)、またはその両方にマッピングされ得るまたは関連し得る生物学的データに回帰モデルを提供する。回帰モデルの非限定的な例は、TPSモデルである。
【0083】
一部の場合では、ユーザは、SpliceCoreフロントエンドにアクセスし、新しい実験を創出する。ユーザは、いずれの試料を症例および対照として設定するかを選択し、種々の実験パラメータを決定することができる。一部の場合では、ユーザは、SpliceTrapモジュールによって事前に処理された試料のみを選択することができる。次いで、選択した構成を、ユーザのデータベースに実験表としてアップロードすることができる。実験事象をSpliceDuoキューにアップロードすることができる。一部の場合では、SpliceDuoサーバーに、実行に利用可能な実験が存在することが通知される。この実験に使用される試料の数に基づいて、SpliceDuoクラスターをこの実験に割り当てることができる。クラスターを
図5に示されている通りに創出し、SpliceDuo実験を始めることができる。SpliceDuo実験の完了後、その結果がユーザのSpliceDuoの結果データベースに自動的にアップロードされる。次いで、ユーザは、SpliceCoreのフロントエンドを通じてまたはユーザインターフェースコアを介してレポートを閲覧することができる。一部の場合では、ユーザはまた、SpliceImpactおよび/またはSpliceLearn予測およびTXdbメタデータをレポート中にあるIDに追加することを選択する。ユーザはまた、SpliceDuoによって生成されたグラフをユーザインターフェースを介してダウンロードすることもできる。
【0084】
一部の場合では、本明細書のシステムおよび方法は、ユーザが、AS変化を表す複数のAS値をソートする、フィルターにかける、データベースに保存されている情報とマージする、またはこれらの組合せを行うことを可能にするソフトウェアモジュールを含む。この機能性により、ユーザが、SpliceTrapおよびSpliceDuoモジュールを用いて検出された最も重要なAS変化を、ユーザが選択した基準に従って順位付け、優先順位を付けることを可能にすることができる。例えば、バイオファーマパートナーの要求に従って、新しいメタデータ、SpliceLearnまたはSpliceImpact特徴をカスタマイズすることも可能である。
【0085】
一部の実施形態では、SpliceDuoモジュールは、データを予備処理する、例えば、症例および/または対照データセットをマージするステップ;データ変換プロセスの間の過剰適合を回避するために重要であり得る、使用される回帰モデルのパラメータを較正するステップ;回帰モデル、例えば、薄板スプライン(TPS)モデルを使用してデータを変換するステップ;偽発見率(FDR)を推定するステップ;ならびに図表を出力し、かつ/またはDuoファイルを出力するステップの1つまたは複数を含む。
【0086】
一部の場合では、SpliceDuoモジュールは、指定された閾値を超えるAS発見率(既知のAS事象の新規のAS事象に対する比)、真陽性率(再現性のあるAS事象の偽性AS事象に対する割合)、検出されたAS事象の総量、またはこれらの組合せが最大になる、最適化されるデータ依存パラメータ、例えば、グリッドサイズ、グリッドの数、および平滑化係数を含めた、回帰またはデータ回帰モデルのパラメータのセットを識別するように構成されている。例えば、AS発見率またはAS事象の真陽性率を、0.4を超える、0.5を超える、0.6を超える、0.7を超えるまたはそれよりも大きくなるように最大化することができる。
【0087】
一部の実施形態では、症例と対照の交差比較を実施して、疾患シナリオにおいてのみ生じるスプライシング事象を識別する。そのような比較は、数十、数百、数千、またはそれよりも大きな数のデータセットを含む。SpliceTrapおよびSpliceDuoモジュールの適用後、SpliceCoreプラットフォームにより、10億のRNA-seq読み取りから疾患に関連するスプライシング事象を識別することができる。高再現性フィルター(すなわち、入力データセットの大部分においてのみ検出されるスプライシング事象)を適用して、解析されたデータを、Genotype Tissue Expression project(GTEx)、Cancer Genome Atlas(TCGA)ならびにDatabase of Genotypes and Phenotypes(dbGAP)データベースから事前計算された公共のデータと迅速に比較する。これは、がん細胞株または小さな患者コホートに由来するデータにおいて識別された異常なスプライシングを、TCGAがん患者またはGTEx由来の特定の組織からの独立したデータを用いて確認するための必須なステップであり得る。
【0088】
RNA-seqデータにおいて観察された遺伝子発現値の大きなダイナミックレンジとは異なり、エクソンインクルージョンプロファイルは、ベータ(「U」形)分布を有する小さな範囲の確率様値(0~1)に制限され得る。したがって、データの分散(デルタ_PSI、PSI倍率変化)、または有意な外れ値を識別するためのt検定などのパラメトリック法を使用して統計的有意性をパーセントスプライスイン(PSI)変化に割り当てることは難しい可能性がある。一部の場合では、薄板スプライン(TPS)変換のノンパラメトリックインプリメンテーションを使用して、相対的なAS変化の分布を捕捉し、統計的有意性を割り当てる。一部の場合では、SpliceDuoモジュールにより、2つの異なる条件にわたるAS変化の分散に基づいて確率密度モデルを作製する。例えば、そのような2つの条件は、疾患と対照、処置応答者と非応答者であり得る。一部の場合では、TPSモデル(単数または複数)を使用して、各AS変化の偽発見率(false discovery rate)(FDR)を、それらの密度分布からのペアワイズ偏差の点から推定する。
【0089】
一部の実施形態では、本明細書のSpliceDuoモジュールは、指定された試料についてユーザのSpliceTrapデータベースに照会することによって開始される。
図7Aを参照して、特定の実施形態では、試料を症例または対照バケツに分離し、これらの試料をフィルターにかけることに使用する種々の明細をユーザが選択することができる。
図7Bを参照して、フィルターは、これだけに限定されないが、ユーザにより指定された1つまたは複数を含めた多数のカットオフに基づく:最小のインクルージョン比、ジャンクションマッピングの数、インクルージョン比に基づく動的カットオフ(これは、選択のレベルを3つ含み得る)、最小数の新規読み取り、最大p値、対照の最大エラー、対照の再現性、結合因子、およびグリッドアクス(grid axe)。対照データを、インクルージョン比、長いアイソフォームジャンクション、短いアイソフォームジャンクション、および新規読み取りマッピングの数の平均および平均エラーを見出すことによって統合することができる。次いで、この統合された対照データを、フィルターにかけられた症例データそれぞれとマージすることができる。次いで、このデータファイルを2つのファイル、1つはカセットエクソンAS変化用、1つは他の全てのAS変化用に分割することができる。
【0090】
図7Cを参照して、薄板スプライン回帰モデルを平滑データに使用する。追加的なIDをフィルターにかけて取り除くために、ノイズ回帰モデルを使用して、スコアを割り当てる。このプロセスの間に、各症例試料についてのグラフを創出することができる。データを、プロセスにおいてここまで到達した各IDにいずれの遺伝子が関連付けられるかを示すためにアノテートすることもできる。結果に対する実際の一連のIDを追加して、実験の最終的なレポートを作成し、ユーザのSpliceDuoの結果データベースにアップロードすることができる。
TXdbデータベース
【0091】
本明細書のTXdbデータベースは、TCGA、GTEX、およびdbGAPであるRNA-seqデータセットである公共のデータに関して新規に導き出された多数、例えば約500万のアノテートされたAS変化を含有するカスタマイズされたデータベースを含み得る。このカスタマイズされたデータベースのサイズは、同等のオープンソースデータベースよりも大きい可能性がある(約10倍またはそれよりも大きい)。
【0092】
一部の場合では、TXdbデータベースは、RNA-seqデータマッピングを通じた問い合わせが可能になるように構成されたデータベースを含み、データベースの各エントリーは、SpliceCoreプラットフォーム、SpliceTrapモジュール、および/またはSpliceDuoモジュールによって解析されるように構成された独立したスプライシング事象を含み得る。
【0093】
TXdbデータベースは、TXdbメタデータを含み、これは、パートナーの所有権のあるデータを公共のまたは所有権のある臨床的または生物学的データと迅速に接続するメタデータアーキテクチャである。あらゆるデータエントリーに対して、数十の臨床的なアノテーション記録をその中に、例えば、12種の異なるがん型として組み込む。例えば、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)そのようなスプライス部位が検出された頻度および試料の型;(iii)増え続ける数の公共の試料(例えば、25,000、40,000、100,000またはそれよりも多く)にわたって所与のASバリアントが観察される可能性;(iv)AS事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカーなどの、Cancer
Genome Atlas(TCGA)試料の臨床的ながんに関連する記述子;(v)ヒト遺伝子におけるAS事象の場所;(vi)AS事象の正常なヒト臓器および組織における行き渡り;(vii)SpliceImpactによる特徴および予測(ランダムフォレストを実装して、選択的スプライシングのタンパク質構造および機能に対する生物学的影響を予測する機械学習分類器);ならびに(viii)SpliceLearnによる予測(支持されたベクター機械を実装して、創薬可能なスプライシング調節部位を予測し、かつ/または調節されたスプライス部位と潜在的なスプライス部位を区別する機械学習分類器)など。
【0094】
一部の場合では、TXdbは、他の既存のデータベースとは異なる;TXdbはまた、マッピング参照として機能するように設計される。Apprisのような既存のスプライシングデータベースは、手動での問い合わせを対象にしており、ユーザが目的の遺伝子名またはBLAST配列をブラウズすることができる。対照的に、TXdbは、RNA-seqデータマッピングを通じた問い合わせを対象としている。各TXdbエントリーは、SpliceCoreプラットフォームを用いて解析された独立したスプライシング事象としての機能を果たし得、必要に応じて、多数のスプライシング事象(例えば、500万)の解析を数百の計算ノード全体を通して分配し、それにより時間および費用を最適化する。さらに、TXdbは、包括的であり、稀なまたは疑わしい新規スプライシング変化がインクルージョンされるという利点を有し得る。一部の場合では、TXdb中の多数のエントリー(例えば、450万)は、ENSEMBL、RefseqおよびUCSCのような既存のmRNAデータベースでは見出されない新規スプライシング変化である。SpliceCoreはスケーラブルなクラウドコンピューティングに対して実行することができるので、必要な場合にのみリソースをデプロイすることができ、その結果、一般には大学および医薬品会社によって使用される、維持するために費用がかかる物理コンピュータクラスターとは対照的に著しい費用の節約がもたらされる。結果として、SpliceCoreプラットフォームにより、疾患に関連するスプライシング変化のより徹底的な探索を行うことができる。他の既存のデータベースは、計算リソースを解析需要に適合させる能力を欠く可能性があり、費用が最適化されておらず、また、本明細書に開示されるTXdb中の多数のスプライシング変化(例えば、500万)と比較して、20K~300KのmRNAアイソフォームしか検出することができないので、解釈も限定される。
【0095】
図8は、公共のデータおよびPrior知見および新規スプライシング変化を使用したTXdbデータベースの構築の例示的な実施形態を示す。この特定の実施形態では、TXdbデータベースは、マッピング参照(単数または複数)として使用することができるアノテーションおよび参照TXdbファイルを含む。
【0096】
図14を参照して、特定の実施形態では、3連エクソンが公共のリポジトリに存在するmRNA分子から抽出される第2のTXdbデータベースをコンパイルする。その代わりにまたはそれと組み合わせて、mRNA分子を配列決定データから導き出すこともできる。配列決定データは、TRGAまたはGTExからのRNA-seqデータであり得る。TXdbデータベースは、以下のアノテーションを含み得る:カセットエクソン(CA)、選択的受容部位(AA)、選択的供与部位(AD)、およびイントロン保持(IR)。カセットエクソン(CA)は、3連エクソンとして表すことができ、真ん中のエクソンが対象であり、隣接するエクソンは、対応するスプライスジャンクションを有するトランスクリプトームコンテキストをもたらすものである。STARアライナー、StringTieおよび区別スクリプトを含むソフトウェアパイプラインを使用することができる。STARアライナーを使用して、エクソン-エクソンジャンクションを検出することができる。StringTieは、3連エクソンアセンブリのために使用することができる。区別スクリプトは、既知のアノテーションと新規アノテーションならびにアノテーションの正確な頻度、カバレッジ、および供給源を区別するように設計することができる。頻度は、2連エクソンまたは3連エクソンを含有するデータセットの数であり得る。カバレッジは、データ全体を通した2連エクソンまたは3連エクソンの平均カバレッジ、最大カバレッジおよび最小カバレッジであり得る。データ供給源は、2連エクソンまたは3連エクソンが発見された疾患および組織型の内訳であり得る。
【0097】
公共のリポジトリは、NCBI、Ensembl Genome Browser、OMIM、InterPro、Pfam、Prosite、UCSC genome browser、BLASTなどの、RefSeqまたはEnsemblアノテーションを有する任意のリポジトリを含み得る。2連エクソンおよび/または3連エクソンに信頼度スコアを割り当てることができる。スコア関数を用い、RNA-seqデータに由来する1つまたはいくつかの変数を、2連エクソンまたは3連エクソンが、技術的アーチファクトであるのではなく生細胞に存在するという確信を支持するまたは拒絶するエビデンスとして組み合わせるベイズ確率または他の統計学的および/または機械学習方法に基づいて信頼度スコアを推定することができる。信頼度を推定するための変数の例としては、2連エクソンまたは3連エクソンの存在を支持するRNA-seq読み取りの数を指す「カバレッジ」、および所与の2連エクソンまたは3連エクソンが検出されるデータセットの総数である「頻度」が挙げられる。
【0098】
信頼度スコアは、当技術分野で公知の任意の方法によって算出することができる。信頼度スコアを使用して、アノテーションを5つの異なるカテゴリーにソートすることができる。
図15は、5つのカテゴリーのそれぞれにおけるアノテーションの相対的な寄与の例示的な図表示を示す。1つのカテゴリーは、キュレートであり得、2連エクソンおよび/または3連エクソンがインクルージョンの状態およびスキッピングの状態の両方についてEnsemblまたはRefSeqアノテーションを有する。別のカテゴリーは、アノテートであり得、EnsemblまたはRefseqからインクルージョンの状態およびスキッピングの状態の両方が予測された2連エクソンおよび/または3連エクソンがソートされる。第3のカテゴリーは、予測-1であり得、公共のリポジトリまたは配列決定データからインクルージョンの状態およびスキッピングの状態の両方が予測された2連エクソンおよび/または3連エクソンがソートされる。第4のカテゴリーは、予測-2であり得、公共のリポジトリまたは配列決定データからインクルージョンの状態またはスキッピングの状態のいずれかが予測された2連エクソンおよび/または3連エクソンがソートされる。第5のカテゴリーは、理論上であり得、存在する可能性が高いが、それを裏付けるエビデンスが不十分である2連エクソンおよび/または3連エクソンがソートされる。
特徴エンジニアリング
【0099】
一部の実施形態では、公共の生物学的データベースを使用して、タンパク質ドメインアノテーション(例えば、Pfam)、一塩基バリアント(例えば、ExAc)、進化的保存(例えば、PhastCons)、CLIP-seqデータ(例えば、ENCODE)、および予測されるRNA結合性タンパク質(RBP)RNA相互作用(例えば、RBPmap)にわたる1つよりも多くの革新的な予測的特徴(例えば、200またはそれよりも多く)を抽出する。そのような特徴を本明細書のシステムおよび方法、例えば、SpliceImpactおよびSpliceLearnモジュールにおいて使用するために組み込むことができる。
【0100】
図9は、特徴をどのように異なる供給源および異なる型のデータから抽出することができるかを示す。この実施形態では、特徴は、これだけに限定されないが、RNA読み枠特徴(例えば、読み枠サイズ)、RNA調節特徴(例えば、スプライシング調節エレメント)、NMD特徴(例えば、中途終止コドン)、進化的保存特徴(例えば、保存スコア)、変異性特徴(例えば、損傷性突然変異スコア)、タンパク質フォールディング特徴(例えば、アルファヘリックス確率)、タンパク質ドメイン特徴(例えば、タンパク質ドメインサイズ)、再現性特徴(例えば、TCGAからのがん型試料の頻度)を含み得る。一部の実施形態では、本明細書に開示される特徴は、DNA、RNA、mRNA、RNAスプライシング調節の特性(例えば、CLIP-seqデータから得られる)、タンパク質間相互作用(例えば、酵母2-ハイブリッド)、RNAおよびタンパク質構造(例えば、mfold予測)、遺伝的変異(例えば、一塩基バリアント)、遺伝的保存(例えば、PhasConsスコア)、疾患経路データ(例えば、Reactome)およびカスタム疾患特異的特性(例えば、TCGAメタデータ)である。
【0101】
図19は、TXdbデータベースバージョン2からRBP-RNA相互作用を推測するために機械学習(ML)ソフトウェアにより使用される3つの方法およびこれらの方法のそれぞれに支持されるRBPの数を示す。これらの3つの方法は、結合-n-Seq(Bind-n-Seq)、RNA-競合(RNA-Compete)、およびRBPマップ(RBPmap)である。一塩基バリアント(SNV)毎に結合スコアを推定することができる。各方法からの結合スコアを、分位点、またはZ-スコアもしくはmin-maxなどの尺度化および/もしくは標準化のための任意の他の統計学的方法を使用して正規化することができる。各方法からのRBPは、表1に見られるようにスプライソソーム構造および機能のカリエス面を反映するオントロジー型にカテゴリー化することができる。各オントロジーにおける最も高い分位点スコアを代表として選択することができる。このデータを機械学習による特徴選択に使用することができる。
【0102】
表1:オントロジー群、各オントロジー中のRBPの数およびそれらのそれぞれについての最も優勢なRBPファミリーの例示的な表。
【表1】
【0103】
RNA競合は、ランダムk-merのライブラリーおよびマイクロアレイを使用した数量化を使用してRBP結合の優先度を識別するためのin-vitro結合富化手法である。k-merに対するRMPの結合スコアを正規化された中心e-スコアとして算出することができる。
【0104】
結合-n-seqは、ランダムk-merのライブラリーおよびRNA-seqを使用した数量化を使用してRBP結合の優先度を識別するためのin-vitro結合富化手法である。結合スコアをRBPにより選択されたプールにおけるk-merの頻度の入力ライブラリーの頻度に対する比として算出することができる。
【0105】
RBPマップは、RBP位置特異的スコアリング行列(PSSM)を、PSSMのクラスタリング傾向および保存される調節領域の全体的な傾向とみなされる重み付けされた重みアルゴリズムに基づいて予測およびマッピングするためのコンピュータによるツールである。結合スコアをPSSm頻度のバックグラウンド分布に基づいてZ-スコアとして算出することができる。
【0106】
図20は、骨髄異形成症候群(MDS)細胞分化システムを使用して、野生型(WT)SRSF2およびがん特異的SRSF2突然変異体を使用した機械学習(ML)ソフトウェア特徴選択の実験的検証を実施する機械学習(ML)ソフトウェアの検証を示す。トランスジェニックノックインヒトSRSF2突然変異体K562細胞をTSGA急性骨髄性白血病(AML)患者からの公共のRNA-seqデータと一緒に使用することができる。AML Cancer Genome AtlasからのRNA-seqデータをMLソフトウェアで使用して、突然変異体SRSF2によって促進されるAS事象を識別する。MDSは不完全な造血分化を特徴とするので、ヘミンを使用して、トランスジェニックノックインSRSF2P95H突然変異体K562細胞を終末赤血球系列にさらに分化させることができる。AS事象をRT-PCRによって検証することができる。
図20において見ることができる通り、MLソフトウェアによって予測されるスプライシング事象を、分化したトランスジェニックノックインSRSF2P95H突然変異体K562細胞によって検証した。
【0107】
一部の実施形態では、本明細書に開示されるシステムおよび方法は、1つまたは複数のデータベース、またはその使用を含む。本明細書に提示される本開示を考慮して、多くのデータベースが、ユーザからアップロードされたデータセット、TXdbメタデータ、特徴情報、アノテーション、公共のデータから抽出されたAS変化、AS値、数量化または予測されたRBP-RNAプロファイル、本明細書のシステムおよび方法の1つまたは複数のソフトウェアモジュールまたはコンピュータプログラムの保存および検索に適している。種々の実施形態では、適切なデータベースは、非限定的な例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向ソフトウェアモジュール、オブジェクトデータベース、実体関連モデルデータベース、連想データベース、およびXMLデータベースを含む。さらなる非限定的な例として、SQL、PostgreSQL、MySQL、Oracle、DB2、およびSybaseが挙げられる。一部の実施形態では、データベースは、インターネットに基づくものである。さらなる実施形態では、データベースはウェブに基づくものである。さらに別の実施形態では、データベースは、クラウドコンピューティングに基づくものである。他の実施形態では、データベースは、1つまたは複数のローカルコンピュータストレージデバイスに基づくものである。
SpliceImpact
【0108】
本明細書のシステムおよび方法は、SpliceImpactモジュールを含む。SpliceImpactモジュールは、潜在的に疾患を引き起こし得る生物学的に関連するAS変化に優先順位を付けるために、任意の公共のまたは所有権のある生物学的データ供給源に由来するタンパク質間相互作用、RNAおよびタンパク質構造、遺伝的変異、遺伝的保存、疾患経路データおよびカスタム疾患特異的特徴を組み込む統計学的方法を含む。
【0109】
一部の場合では、SpliceImpactモジュールは、ナンセンス変異依存分解(NMD)を通じてタンパク質機能を下方制御するAS事象の確率を推定するステップ;タンパク質ドメイン欠失を通じてタンパク質構造に損傷を与えるAS事象の確率を推定するステップ;AS事象の変異性を推定するステップ(変異性は、突然変異するとタンパク質機能に損傷を与える影響を引き起こすエクソン内のヌクレオチドの割合として決定することができる);AS事象をそれらのそれぞれのスコアを用いて経路間ネットワークにマッピングするステップ;および生物学的関連性によって順位付けられたASの一覧を出力するステップから選択される1つまたは複数のステップを含み得る。タンパク質ドメインをInterProデータベースから検索することまたはInterpro scan、Pfam、Coils、Prosite、CDD、TIGRFAM、SFLD、SUPERFAMILY、Gene3d、SMART、PRINTS、PIRASF、PRoDom、MobiDBLite、TMHMMおよび一次タンパク質配列に基づいて機能的要素および構造的要素を予測するための他のアルゴリズムを使用して新規に予測することができる。一塩基バリアント(SNV)の損傷性の潜在性を推定するために、機能的予測方法(例えば、SIFT、PolyPhen、Mutation Tester、Mutation assessor、LRTおよびFATHMM)の組合せを使用することができる。エクソン内の1つまたは複数のヌクレオチドの相加的な損傷性スコアを使用して、損傷性のAS事象に優先順位を付けることができる。
【0110】
一部の場合では、本明細書のシステムおよび方法は、データベースまたは第2のデータベースに保存されている情報を用いて複数のAS値を処理して、複数の優先順位が付けられた生物学的にまたは臨床的に意義のあるAS変化を識別するソフトウェアモジュールを含み、ここで、データベースまたは第2のデータベースに保存されている情報を用いて複数のAS値を処理するソフトウェアモジュールは、教師ありまたは半教師あり機械学習アルゴリズムを含み、情報は、複数のクラスのASのアノテーションから公共のRNA-seqデータ、CLIP-seqデータ、ゲノムデータ、スクリプトデータ、他の生物学的データに基づいて得られた、または所有権のあるまたはオープンソースアルゴリズムを使用してDNA、RNAもしくはタンパク質配列に基づいて新規に算出されたメタデータを含む。一部の場合では、本明細書のシステムおよび方法は、公共のRNA-seqデータおよびメタデータに関連する情報を含むアノテーションを生成するステップを行うソフトウェアモジュールを含む。一部の場合では、アノテーションは、ユーザによる入力情報に対するマッピング参照ももたらし得る。一部の場合では、本明細書のシステムおよび方法は、半教師ありまたは教師あり機械学習アルゴリズムを実施するソフトウェアモジュールを含み、ここで、機械学習アルゴリズムは、複数の特徴を入力として取り、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対するAS事象の影響に関する予測アルゴリズムおよび/または予測を出力する。一部の場合では、本明細書のシステムおよび方法は、データベースに保存されている情報を用い、予測アルゴリズム、予測(例えば、本明細書の予測アルゴリズム(単数または複数)を使用して生成された予測もしくは本明細書に開示されるシステムおよび方法の外部のツールを使用して生成された予測)、ならびに/または複数のクラスのASの公共のRNA-seqデータに基づいたアノテーションから得られたメタデータを含む情報を使用して複数のAS値を処理するソフトウェアモジュールを含む。一部の場合では、本明細書のシステムおよび方法は、複数の優先順位が付けられた生物学的にまたは臨床的に意義のあるAS変化を複数のAS値に基づいて生成するソフトウェアモジュールを含む。
【0111】
図10A~10Bを参照して、本明細書のSpliceImpactおよびSpliceLearnモジュールはどちらも、機械学習分類器/アルゴリズムを使用して予測的特徴のより大きなセットを組み込む。そのような機械学習分類器/アルゴリズムの非限定的な例としては、SVM、ランダムフォレスト、ニューラルネットワーク、ロジスティック回帰、および深層学習が挙げられる。一部の実施形態では、機械学習アルゴリズムは、機能的な転帰の決定的なエビデンスが分かっていない莫大な量のアンラベルAS変化を活用するための教師ありまたは半教師ありアルゴリズムである。一部の場合では、ポジティブ訓練試料は、PeptideAtlasの少なくとも2つのペプチドによって裏付けられ、APPRISデータベースにおいて「主要なアイソフォーム」とラベルされない多数のマイナーなヒトAS変化(例えば、943)ならびに/またはSwissprot/ENSEMBLデータベースにおいてアノテートされ、TXdbメタデータによって確認される実行可能なマイナーなスプライシング事象(すなわち、低頻度のスプライシング事象)をもたらすものであることが裏付けられたスプライシングアイソフォームを含む。ポジティブ訓練セットは、2つのアイソフォームの群:マイナーな「スキッピング」(例えば、312)アイソフォームおよびマイナーな「インクルージョン」(例えば、631)アイソフォームに分けられ、訓練に別々に使用することができる。
【0112】
一部の場合では、訓練には、約100のデータポイントまたはデータセットを使用する。一部の場合では、訓練には、約50から約5000までのデータポイントを使用する。
【0113】
一部の実施形態では、AS事象の機能的影響を予測するために使用することができる多数の説明的特徴を設計し、4つのカテゴリーに分ける:1)AS、タンパク質の短縮、フレームシフトおよびナンセンス変異依存分解に起因する予測されるタンパク質の長さの変動を説明する、RNAに基づく特徴;2)スプライシングのタンパク質ドメインに対する影響を説明する、タンパク質ドメイン特徴;3)45種の真核生物ゲノムにわたるAS保存をレポートする、進化的特徴;4)「重要な」エクソンはそれほど突然変異せず、mRNAにより多く含まれると仮定する、エキソームデータ(CosmicおよびClinVarデータベース)から抽出される変異性特徴;ならびに5)予測をある特定の疾患シナリオ(例えば、乳がんにおける遺伝子発現)に適合させるためのカスタム疾患特異的特徴。一部の実施形態では、説明的特徴の数を動的に更新する。一部の実施形態では、説明的特徴の数は、200よりも多い、300よりも多い、400よりも多い、500よりも多い、またはそれよりも多い。
【0114】
一部の場合では、機械学習分類器またはアルゴリズムを、MS(Hegyi. H. et al., Nucleic Acid Res 2011)を除く種々の方法によってタンパク質レベルで実験的に確認された150種のヒトAS事象などの独立した試験セットを使用して試験することができる。エクソンスキッピングおよびエクソンインクルージョンモデルの両方についてのこの特定の試験セットの予測可能性は、それぞれ曲線下面積0.74および0.84であった。
【0115】
さらに、方法を、文献から収集された14種の公知の疾患を引き起こすAS変化などの、独立した、疾患を引き起こすAS事象を用いて試験することができる。結果として、6種のAS変化が強力にネガティブ(すなわち、影響が大きい)と分類され、スコアは0.2を下回った。さらに、別の3種のAS事象は軽度にネガティブである(0.21~0.45)。一部の場合では、本明細書の半教師ありまたは教師あり機械学習アルゴリズムは、ランダムフォレストモデル、ベイズモデル、回帰モデル、ニューラルネットワーク、分類木、回帰木、判別分析、k近傍法、単純ベイズ分類器、サポートベクターマシン(SVM)、ランダムフォレスト、深層学習、生成モデル、低密度分離法、グラフに基づく方法、およびヒューリスティック手法を含む。
【0116】
一部の実施形態では、本明細書の機械学習アルゴリズムは、AS事象を機能的に予測するためのアルゴリズム(単数または複数)を出力する。出力されるアルゴリズム(単数または複数)は、明示的なまたは隠れた数式を有してもよく有さなくてもよい。出力されるアルゴリズム(単数または複数)は、機械学習アルゴリズムを使用して学習させるまたは訓練することができる1つまたは複数のパラメータ(単数または複数)を含み得る。
【0117】
AS事象を機能的に予測するためのアルゴリズムを出力するために、機械学習分類器は、訓練データを学習すること、または同様にモデル、または機能を含み得る。学習のために、機械学習アルゴリズムは、その入力データとして訓練データおよび/またはラベルを取ることができる。学習は、1つまたは複数の中止基準に達したら完了することができる。例えば、式Y=C0+C1×1+C2×2を有する線形回帰モデルは2つの予測因子変数、×1および×2、ならびに係数またはパラメータ、C0、C1、およびC2を有する。予測変数は、本実施例ではYである。機械学習アルゴリズムを使用してモデルのパラメータを学習させた後、学習されたモデルに各予測因子変数についての値を入れて、従属または予測変数(例えば、Y)の結果を生成することができる。
【0118】
本明細書の機械学習アルゴリズムは、教師あり学習手法を使用することができる。教師あり学習では、アルゴリズムにより、訓練データから機能またはモデルを生成することができる。訓練データは、ラベル付けすることができる。訓練データは、それに関連するメタデータを含み得る。訓練データの各訓練例は、少なくとも入力オブジェクトと所望の出力値からなる対であり得る。学習アルゴリズムは、ユーザに1つまたは複数の対照パラメータの決定を要求するものであり得る。これらのパラメータは、訓練データのサブセット、例えば、検証セットに対する性能を最適化することによって調整することができる。パラメータの調整および学習後、得られた機能/モデルの性能を、訓練セットとは別であってよい試験セットに対して測定することができる。教師あり学習手法では回帰法を使用することができる。
【0119】
機械学習アルゴリズムは、半教師あり学習手法を使用することができる。半教師あり学習では、ラベルデータとアンラベルデータの両方を組み合わせて、適正な機能または分類器を生成することができる。
【0120】
機械学習アルゴリズムは、強化学習手法を使用することができる。強化学習では、アルゴリズムは、世界の観察を考慮して作用の仕方の方針を学習することができる。あらゆる作用が環境に何らかの影響を及ぼし得、環境から学習アルゴリズムをガイドするフィードバックがもたらされ得る。
【0121】
機械学習アルゴリズムは、特徴選択手法を使用することができる。これは、再帰的に情報価値が小さい特徴を排除し、情報価値が最も大きい特徴を維持することによって学習の正確度を最適化するための方法である。あらゆる特徴の情報のレベルを、学習実行前に測定することもでき(LASSO、情報理論、シャノンエントロピーのような方法を使用して)、機械学習分類の間に測定することもできる(SVM c-因子、ランダムフォレスト特徴重要性など)。
【0122】
機械学習アルゴリズムは、変換手法を使用することができる。変換は教師あり学習と同様であり得るが、機能を明確に構築するものではない。その代わりに、訓練入力、訓練出力、および新しい入力に基づいて新しい出力を予測することを試みる。
【0123】
機械学習アルゴリズムは、「学習の学習」手法を使用することができる。学習の学習では、アルゴリズムは、以前の経験に基づいてそれ自体の誘導的偏りを学習することができる。
【0124】
機械学習アルゴリズムを訓練試料に適用して、予測モデルを生成する。機械学習アルゴリズムを「ポジティブ」対「ネガティブ」または「ポジティブ」対「アンラベル」データを使用して訓練することができる。一部の場合では、訓練セットの各データポイントは、特徴のセットの特徴、およびラベルを含み、ラベルは、ポジティブ、ネガティブ、およびアンラベルである。
【0125】
一部の実施形態では、機械学習アルゴリズムまたはモデルを周期的に訓練することができる。一部の実施形態では、機械学習アルゴリズムまたはモデルを非周期的に訓練することができる。
【0126】
一部の実施形態では、機械学習アルゴリズムを本明細書の機械学習分類器と交換することができる。
SpliceLearn
【0127】
本明細書のシステムおよび方法は、1つまたは複数のAS事象の機能的なスプライシング調節エレメントと潜在的なスプライシング調節エレメントを区別し、それにより、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および/または可逆性を予測するための教師あり機械学習分類器またはアルゴリズムを含み得る。一部の場合では、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性の予測は、スプライシング事象の解釈に利用されるように構成されている。一部の実施形態では、「SpliceImpact」の節の機械学習アルゴリズム(単数または複数)は、「SpliceLearn」モジュールならびに本明細書のシステムおよび方法の他のモジュールまたはプラットフォームにも適用可能である。
【0128】
治療介入の特定の点を予測するために、SpliceLearnモジュールは、機械学習、例えば、教師ありまたは半教師あり学習を使用して、誘導される点突然変異(例えば、CRISPRを使用する)、アンチセンスRNA(例えば、モルホリノ、LNA、ASO)の使用、特定のスプライシング因子(SF)のノックダウンまたは過剰発現によってレスキューすることができる異常なスプライシング候補を予測することができる。SFは、スプライシングの構成的な型および選択的な型のどちらも調節するRNA結合性タンパク質である。SF突然変異により、多くの遺伝子に影響を及ぼし、1つまたは複数の生物学的経路の調節解除を誘発する広範にわたる異常なスプライシングが生じ得る。SpliceLearnは、スプライシングプロファイル、CLIP-seqデータを使用して数量化されたRBP_RNA結合プロファイル、予測されるRBP_RNA結合プロファイル(例えば、RBPマップを使用する)ならびに/または機能的なスプライシング調節エレメントおよび隠れたスプライシング調節エレメント(すなわち非機能性)またはスプライス部位からのPrior情報に対して訓練することができる。このモジュールにより、スプライス部位の配列環境から抽出された予測的特徴、ならびに、一部のみが公的に入手可能である、200種よりも多くのSFの架橋結合免疫沈降および配列決定(CLIP-seq)からのRNA-タンパク質相互作用プロファイルを実装することができる。
デジタル処理デバイス
【0129】
一部の実施形態では、本明細書に記載のプラットフォーム、システム、媒体、および方法は、デジタル処理デバイスまたはその使用を含む。さらなる実施形態では、デジタル処理デバイスは、デバイスの機能を行う1つまたは複数のハードウェア中央処理装置(CPU)または汎用グラフィック処理装置(GPGPU)を含む。さらに別の実施形態では、デジタル処理デバイスは、実行可能命令を実施するように構成されたオペレーティングシステムをさらに含む。一部の実施形態では、デジタル処理デバイスを必要に応じてコンピュータネットワークに接続する。さらなる実施形態では、デジタル処理デバイスを必要に応じてインターネットに接続し、それによって、World Wide Webにアクセスする。さらに別の実施形態では、デジタル処理デバイスを必要に応じてクラウドコンピューティング基盤に接続する。他の実施形態では、デジタル処理デバイスを必要に応じてイントラネットに接続する。他の実施形態では、デジタル処理デバイスを必要に応じてデータストレージデバイスに接続する。
【0130】
本明細書の記載によると、適切なデジタル処理デバイスの非限定的な例として、サーバーコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、メディアストリーミングデバイス、手持ち型コンピュータ、インターネット家電、モバイルスマートフォン、タブレットコンピュータ、携帯情報端末、テレビゲームコンソール、およびビヒクルが挙げられる。多くのスマートフォンが本明細書に記載のシステムにおける使用に適することが当業者には理解されよう。セレクトテレビ、ビデオプレーヤー、および必要に応じたコンピュータネットワーク接続性を有するデジタルミュージックプレーヤーが本明細書に記載のシステムにおける使用に適することも当業者には理解されよう。適切なタブレットコンピュータは、当業者に公知のブックレット、スレート、および変換できる構成を有するものを含む。
【0131】
一部の実施形態では、デジタル処理デバイスは、実行可能命令を実施するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションを実行するためのサービスを提供する、プログラムおよびデータを含むソフトウェアである。適切なサーバーオペレーティングシステムの非限定的な例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows(登録商標) Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が挙げられることが当業者には理解されよう。適切なパーソナルコンピュータオペレーティングシステムの非限定的な例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIX(登録商標)様オペレーティングシステムが挙げられることが当業者には理解されよう。一部の実施形態では、オペレーティングシステムは、クラウドコンピューティングによって提供される。適切なモバイルスマートフォンオペレーティングシステムの非限定的な例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)BlackBerry OS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)Windows(登録商標) Phone(登録商標)OS、Microsoft(登録商標)Windows(登録商標) Mobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)が挙げられることも当業者には理解されよう。適切なメディアストリーミングデバイスオペレーティングシステムの非限定的な例として、Apple TV(登録商標)、Roku(登録商標)、Boxee(登録商標)、Google TV(登録商標)、Google Chromecast(登録商標)、Amazon Fire(登録商標)、およびSamsung(登録商標)HomeSync(登録商標)が挙げられることも当業者には理解されよう。適切なテレビゲームコンソールオペレーティングシステムの非限定的な例として、Sony(登録商標)PS3(登録商標)、Sony(登録商標)PS4(登録商標)、Microsoft(登録商標)Xbox 360(登録商標)、Microsoft Xbox One、Nintendo(登録商標)Wii(登録商標)、Nintendo(登録商標)Wii U(登録商標)、およびOuya(登録商標)が挙げられることも当業者には理解されよう。
【0132】
一部の実施形態では、デバイスは、ストレージおよび/またはメモリデバイスを含む。ストレージおよび/またはメモリデバイスは、データまたはプログラムを一過性または恒久的に保存するために使用される1つまたは複数の物理器械である。一部の実施形態では、デバイスは、揮発性メモリであり、保存された情報を維持するために電力を必要とする。一部の実施形態では、デバイスは、非揮発性メモリであり、デジタル処理デバイスに電力が供給されていない場合でも保存された情報が保持される。さらなる実施形態では、非揮発性メモリは、フラッシュメモリを含む。一部の実施形態では、非揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含む。一部の実施形態では、非揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM(登録商標))を含む。一部の実施形態では、非揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含む。他の実施形態では、デバイスは、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングに基づくストレージを含むストレージデバイスである。さらなる実施形態では、ストレージおよび/またはメモリデバイスは、本明細書に開示されるものなどのデバイスの組合せである。
【0133】
一部の実施形態では、デジタル処理デバイスは、ユーザに視覚情報を送るためのディスプレイを含む。一部の実施形態では、ディスプレイは、液晶ディスプレイ(LCD)である。さらなる実施形態では、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)である。一部の実施形態では、ディスプレイは、有機発光ダイオード(OLED)ディスプレイである。種々の別の実施形態では、OLEDディスプレイは、パッシブマトリックスOLED(PMOLED)またはアクティブマトリックスOLED(AMOLED)ディスプレイである。一部の実施形態では、ディスプレイは、プラズマディスプレイである。他の実施形態では、ディスプレイは、ビデオプロジェクターである。さらに他の実施形態では、ディスプレイは、VRヘッドセットなどの、デジタル処理デバイスと通信するヘッドマウントディスプレイである。さらなる実施形態では、適切なVRヘッドセットの非限定的な例として、HTC Vive、Oculus Rift、Samsung Gear VR、Microsoft HoloLens、Razer OSVR、FOVE VR、Zeiss VR One、Avegant Glyph、Freefly VRヘッドセットなどが挙げられる。さらに別の実施形態では、ディスプレイは、本明細書に開示されるものなどのデバイスの組合せである。
【0134】
一部の実施形態では、デジタル処理デバイスは、ユーザから情報を受け取るための入力デバイスを含む。一部の実施形態では、入力デバイスは、キーボードである。一部の実施形態では、入力デバイスは、非限定的な例として、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラー、またはスタイラスを含むポインティングデバイスである。一部の実施形態では、入力デバイスは、タッチスクリーンまたはマルチタッチスクリーンである。他の実施形態では、入力デバイスは、音声または他の音入力を捕捉するためのマイクロホンである。他の実施形態では、入力デバイスは、動きまたは視覚入力を捕捉するためのビデオカメラまたは他のセンサーである。さらなる実施形態では、入力デバイスは、Kinect、Leap Motionなどである。さらに別の実施形態では、入力デバイスは、本明細書に開示されるものなどのデバイスの組合せである。
【0135】
図11を参照して、特定の実施形態では、例示的なデジタル処理デバイス1101は、AS解析および/または数量化を実施し、生物学的に有意なAS変化を予測するようにプログラミングされているか、または他のやり方で構成されている。デバイス1101により本開示の種々の態様を調節することができる。この実施形態では、デジタル処理デバイス1101は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」ともいう)1105を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理用の複数のプロセッサであり得る。デジタル処理デバイス1101はまた、メモリまたは記憶場所1110(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)、電子ストレージユニット1115(例えば、ハードディスク)、ならびに、1つもしくは複数の他のシステム、および、キャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプターなどの周辺機器と通信するための通信インターフェース1120(例えば、ネットワークアダプター、ネットワークインターフェース)も含む。周辺機器は、残りのデバイスとストレージインターフェース1170を介して通信するストレージデバイス(単数または複数)または記憶媒体1165を含み得る。メモリ1110、ストレージユニット1115、インターフェース1120および周辺機器はCPU1105とマザーボードなどの通信バス1125を通じて通信する。ストレージユニット1115は、データを保存するためのデータストレージユニット(またはデータリポジトリ)であり得る。デジタル処理デバイス1101は、通信インターフェース1120の援助を用いてコンピュータネットワーク(「ネットワーク」)1130と作動可能にカップリングすることができる。ネットワーク1130は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク1130は、一部の場合では、電気通信および/またはデータネットワークである。ネットワーク1130は、クラウドコンピューティングなどの、分散コンピューティングを可能にする1つまたは複数のコンピュータサーバーを含み得る。ネットワーク1130は、一部の場合では、デバイス1101の援助を用いて、ピアツーピアネットワークを実装することができ、これにより、デバイス1101とカップリングしたデバイスがクライアントまたはサーバーとして挙動することが可能になる。
【0136】
図11の参照を続けて、デジタル処理デバイス1101は、ユーザから情報を受け取るための入力デバイス(単数または複数)1145、デバイスの他の要素と入力インターフェース1150を通じて通信する入力デバイス(単数または複数)を含む。デジタル処理デバイス1101は、デバイスの他の要素と出力インターフェース1160を介して通信する出力デバイス(単数または複数)1155を含み得る。
【0137】
図11への参照を続けて、メモリ1110は、これだけに限定されないが、ランダムアクセスメモリ構成要素(例えば、RAM)(例えば、スタティックRAM「SRAM」、ダイナミックRAM「DRAM」など)、またはリードオンリー構成要素(例えば、ROM)を含めた種々の構成要素(例えば、機械可読メディア)を含み得る。メモリ1110はまた、メモリ1110に保存され得るものなどの、デバイス起動中などのデジタル処理デバイス内の要素間の情報の移行を補助する基本ルーチンを含めた基本入出力システム(BIOS)も含み得る。
【0138】
図11への参照を続けて、CPU1105は、プログラムまたはソフトウェアに具体化することができる一連の機械可読命令を実行することができる。命令は、メモリ1110などの記憶場所に保存することができる。命令をCPU1105に方向付けることができ、その後、その命令により、CPU1105が、本開示の方法を実装するようにプログラムまたは他のやり方で構成される。CPU1105によって実施される操作の例は、フェッチ、デコード、実行、およびライトバックを含み得る。CPU1105は、集積回路などの回路の一部であり得る。デバイス1101の1つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)である。
【0139】
図11への参照を続けて、ストレージユニット1115は、ドライバー、ライブラリーおよび保存されたプログラムなどのファイルを記憶することができる。ストレージユニット1115は、ユーザデータ、例えば、ユーザ選好およびユーザプログラムを記憶することができる。デジタル処理デバイス1101は、一部の場合では、イントラネットまたはインターネットを通じて通信する、遠隔サーバー上に位置するなどの外部の1つまたは複数の追加的なデータストレージユニットを含み得る。ストレージユニット1115はまた、オペレーティングシステム、アプリケーションプログラムなどを記憶するために使用することもできる。必要に応じて、ストレージユニット1115は、デジタル処理デバイスに、(例えば、外部のポートコネクター(示していない)を介して)および/またはストレージユニットインターフェースを介して取り外し可能に干渉し得る。ソフトウェアは、完全にまたは部分的に、ストレージユニット1115の内部または外部のコンピュータ可読記憶媒体の内部に存在し得る。別の例では、ソフトウェアは、完全にまたは部分的に、プロセッサ(単数または複数)1105の内部に存在し得る。
【0140】
図11への参照を続けて、デジタル処理デバイス1101は、1つまたは複数の遠隔コンピュータシステム1102とネットワーク1130を通じて通信することができる。例えば、デバイス1101は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。
【0141】
図11への参照を続けて、ディスプレイ1135を通じて情報およびデータをユーザに表示することができる。ディスプレイは、バス1125にインターフェース1140を介して接続されており、ディスプレイとデバイス1101の他の要素の間のデータの移動は、インターフェース1140を介して制御することができる。
【0142】
本明細書に記載の方法は、例えば、メモリ1110または電子ストレージユニット1115などのデジタル処理デバイス1101の電子ストレージ位置に保存された機械(例えば、コンピュータプロセッサ)により実行可能なコードによって実装することができる。機械により実行可能なまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用中、プロセッサ1105によりコードを実行することができる。一部の場合では、コードをストレージユニット1115から検索し、プロセッサ1105がすぐにアクセスできるようにメモリ1110に記憶させることができる。一部の状況では、電子ストレージユニット1115を除外することができ、機械により実行可能な命令をメモリ1110に記憶させる。
非一時的コンピュータ可読記憶媒体
【0143】
一部の実施形態では、本明細書に開示されるプラットフォーム、システム、メディア、および方法は、必要に応じてネットワーク接続されたデジタル処理デバイスのオペレーティングシステムによる実行可能命令を含むプログラムを用いてコードされる1つまたは複数の非一時的コンピュータ可読記憶媒体を含む。さらなる実施形態では、コンピュータ可読記憶媒体は、デジタル処理デバイスの有形構成要素である。さらに別の実施形態では、コンピュータ可読記憶媒体は、必要に応じて、デジタル処理デバイスから取り外し可能である。一部の実施形態では、コンピュータ可読記憶媒体の非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどが挙げられる。一部の場合では、プログラムおよび命令は、メディア上に永久に、実質的に永久に、半永久的に、または非一時的にコードされる。
コンピュータプログラム
【0144】
一部の実施形態では、本明細書に開示されるプラットフォーム、システム、メディア、および方法は、少なくとも1つのコンピュータプログラム、またはその使用を含む。コンピュータプログラムは、指定された課題が実施されるように書かれた、デジタル処理デバイスのCPUにおいて実行可能な一連の命令を含む。コンピュータ可読命令は、例えば、特定の課題を遂行するまたは特定の抽象データ型を実装する関数、オブジェクト、Application Programming Interfaces(API)、データ構造などのプログラムモジュールとして実装され得る。本明細書に提示される本開示を踏まえて、コンピュータプログラムは種々の言語の種々のバージョンで書かれていてよいことが当業者には理解されよう。
【0145】
コンピュータ可読命令の機能性は、所望の通り、種々の環境において組み合わせることもでき、分散させることもできる。一部の実施形態では、コンピュータプログラムは、1つの命令シーケンスを含む。一部の実施形態では、コンピュータプログラムは、複数の命令シーケンスを含む。一部の実施形態では、コンピュータプログラムは、1つの場所から提供される。他の実施形態では、コンピュータプログラムは、複数の場所から提供される。種々の実施形態では、コンピュータプログラムは、1つまたは複数のソフトウェアモジュールを含む。種々の実施形態では、コンピュータプログラムは、一部または全部において、1つまたは複数のウェブアプリケーション、1つまたは複数のモバイルアプリケーション、1つまたは複数のスタンドアロンアプリケーション、1つまたは複数のウェブブラウザプラグイン、拡張機能、アドイン、またはアドオン、またはこれらの組合せを含む。
ウェブアプリケーション
【0146】
一部の実施形態では、コンピュータプログラムは、ウェブアプリケーションを含む。本明細書に提示される本開示を踏まえて、ウェブアプリケーションは、種々の実施形態では、1つまたは複数のソフトウェアフレームワークおよび1つまたは複数のデータベースシステムを利用することが当業者には理解されよう。一部の実施形態では、ウェブアプリケーションは、Microsoft(登録商標).NETまたはRuby on Rails(RoR)などのソフトウェアフレームワークに創出される。一部の実施形態では、ウェブアプリケーションは、非限定的な例として、リレーショナル、非リレーショナル、オブジェクト指向、連想、およびXMLデータベースシステムを含む1つまたは複数のデータベースシステムを利用する。さらなる実施形態では、適切なリレーショナルデータベースシステムの非限定的な例として、Microsoft(登録商標)SQL Server、mySQL(商標)、およびOracle(登録商標)が挙げられる。ウェブアプリケーションは、種々の実施形態では、1つまたは複数の言語の1つまたは複数のバージョンで書かれることも当業者には理解されよう。ウェブアプリケーションは、1つまたは複数のマークアップ言語、プレゼンテーション定義言語、クライアントサイドスクリプト言語、サーバーサイドコーディング言語、データベースクエリ言語、またはこれらの組合せで書かれ得る。一部の実施形態では、ウェブアプリケーションは、いくらかの程度まで、Hypertext Markup Language(HTML)、Extensible Hypertext Markup Language(XHTML)、またはeXtensible Markup Language(XML)などのマークアップ言語で書かれる。一部の実施形態では、ウェブアプリケーションは、いくらかの程度まで、Cascading Style Sheets(CSS)などのプレゼンテーション定義言語で書かれる。一部の実施形態では、ウェブアプリケーションは、いくらかの程度まで、Asynchronous Javascript(登録商標)およびXML(AJAX)、Flash(登録商標)Actionscript、Javascript(登録商標)、またはSilverlight(登録商標)などのクライアントサイドスクリプト言語で書かれる。一部の実施形態では、ウェブアプリケーションは、いくらかの程度まで、Active Server Pages(ASP)、ColdFusion(登録商標)、Perl、Java(登録商標)、Java(登録商標)Server Pages(JSP)、Hypertext Preprocessor(PHP)、Python(商標)、Ruby、Tcl、Smalltalk、WebDNA(登録商標)、またはGroovyなどのサーバーサイドコーディング言語で書かれる。一部の実施形態では、ウェブアプリケーションは、いくらかの程度まで、Structured Query Language(SQL)などのデータベースクエリ言語で書かれる。一部の実施形態では、ウェブアプリケーションは、IBM(登録商標)Lotus Domino(登録商標)などのエンタープライズサーバー製品を組み込む。一部の実施形態では、ウェブアプリケーションは、メディアプレーヤー要素を含む。種々の別の実施形態では、メディアプレーヤー要素は、非限定的な例として、Adobe(登録商標)Flash(登録商標)、HTML 5、Apple(登録商標)QuickTime(登録商標)、Microsoft(登録商標)Silverlight(登録商標)、Java(登録商標)、およびUnity(登録商標)を含む多くの適切なマルチメディア技術のうちの1つまたは複数を利用するものである。
【0147】
図12を参照して、特定の実施形態では、アプリケーション提供システムは、リレーショナルデータベース管理システム(RDBMS)1210がアクセスする1つまたは複数のデータベース1200を含む。適切なRDBMSとしては、Firebird、MySQL、PostgreSQL、SQLite、Oracle Database、Microsoft SQL Server、IBM DB2、IBM Informix、SAP Sybase、SAP Sybase、Teradataなどが挙げられる。この実施形態では、アプリケーション提供システムは、1つまたは複数のアプリケーションサーバー1220(例えば、Java(登録商標)サーバー、.NETサーバー、PHPサーバーなど)および1つまたは複数のウェブサーバー1230(例えば、Apache、IIS、GWSなど)をさらに含む。ウェブサーバー(単数または複数)は、必要に応じて1つまたは複数のウェブサービスをappアプリケーションプログラミングインターフェース(API)1240を介して公開する。システムは、インターネットなどのネットワークを介して、ブラウザに基づくおよび/またはモバイルネイティブなユーザインターフェースを提供する。
【0148】
図13を参照して、特定の実施形態では、アプリケーション提供システムは、あるいは、分散した、クラウドに基づくアーキテクチャ1300を有し、弾性的に負荷分散された、自動スケーリングウェブサーバーリソース1310およびアプリケーションサーバーリソース1320、ならびに同調的に反復されるデータベース1330を含む。
モバイルアプリケーション
【0149】
一部の実施形態では、コンピュータプログラムは、モバイルデジタル処理デバイスに提供されるモバイルアプリケーションを含む。一部の実施形態では、モバイルアプリケーションは、製造時にモバイルデジタル処理デバイスに提供される。他の実施形態では、モバイルアプリケーションは、本明細書に記載のコンピュータネットワークを介してモバイルデジタル処理デバイスに提供される。
【0150】
本明細書に提示される本開示を考慮して、モバイルアプリケーションは、当業者に公知の技法により、当技術分野に公知のハードウェア、言語、および開発環境を使用して創出される。モバイルアプリケーションは、いくつかの言語で書かれることが当業者には理解されよう。適切なプログラミング言語の非限定的な例として、C、C++、C#、Objective-C、Java(登録商標)、Javascript(登録商標)、Pascal、Object Pascal、Python(商標)、Ruby、VB.NET、WML、およびCSSを伴うもしくは伴わないXHTML/HTML、またはこれらの組合せが挙げられる。
【0151】
適切なモバイルアプリケーション開発環境は、いくつかの供給源から入手可能である。市販の開発環境の非限定的な例として、AirplaySDK、alcheMo、Appcelerator(登録商標)、Celsius、Bedrock、Flash Lite、.NET Compact Framework、Rhomobile、およびWorkLight Mobile Platformが挙げられる。非限定的な例として、Lazarus、MobiFlex、MoSync、およびPhonegapを含めた他の開発環境が費用なしで入手可能である。また、モバイルデバイス製造者により、非限定的な例として、iPhone(登録商標)およびiPad(登録商標)(iOS)SDK、Android(商標)SDK、BlackBerry(登録商標)SDK、BREW SDK、Palm(登録商標)OS SDK、Symbian SDK、webOS
SDK、およびWindows(登録商標)Mobile SDKを含むソフトウェア開発者キットが配布されている。
【0152】
非限定的な例として、Apple(登録商標)App Store、Google(登録商標)Play、Chrome WebStore、BlackBerry(登録商標)App World、App Store for Palmデバイス、App Catalog for webOS、Windows(登録商標)Marketplace
for Mobile、Ovi Store for Nokia(登録商標)デバイス、Samsung(登録商標)Apps、およびNintendo(登録商標)DSi
Shopを含むいくつかの商業的フォーラムがモバイルアプリケーションの配布のために利用可能であることが当業者には理解されよう。
スタンドアロンアプリケーション
【0153】
一部の実施形態では、コンピュータプログラムは、スタンドアロンアプリケーションを含み、これは、既存のプロセスのアドオンではなく、例えば、プラグインではなく、独立したコンピュータプロセスとして実行されるプログラムである。スタンドアロンアプリケーションはコンパイルされることも多いことが当業者には理解されよう。コンパイラは、プログラミング言語で書かれたソースコードをアセンブリ言語または機械コードなどのバイナリオブジェクトコードに変換するコンピュータプログラム(単数または複数)である。適切なコンパイルされたプログラミング言語の非限定的な例として、C、C++、Objective-C、COBOL、Delphi、Eiffel、Java(登録商標)、Lisp、Python(商標)、Visual Basic、およびVB.NET、またはこれらの組合せが挙げられる。多くの場合、少なくとも一部において、実行可能なプログラムを創出するために、編集が行われる。一部の実施形態では、コンピュータプログラムは、1つまたは複数の実行可能なコンパイルされたアプリケーションを含む。
ウェブブラウザプラグイン
【0154】
一部の実施形態では、コンピュータプログラムは、ウェブブラウザプラグイン(例えば、拡張機能など)を含む。計算において、プラグインは、より大きなソフトウェアアプリケーションに特定の機能性を付加する1つまたは複数のソフトウェア構成要素である。ソフトウェアアプリケーションのメーカーは、第三者開発者が、アプリケーションを拡張する能力を創出すること、新しい特徴の容易な追加をサポートすること、およびアプリケーションのサイズを縮小することが可能になるようにプラグインをサポートする。サポートされると、プラグインにより、ソフトウェアアプリケーションの機能性をカスタマイズすることが可能になる。例えば、プラグインは、ビデオを再生するため、インタラクティビティを生じさせるため、ウイルススキャンを行うため、および特定のファイル型を表示するためにウェブブラウザに一般に使用される。当業者は、Adobe(登録商標)Flash(登録商標)Player、Microsoft(登録商標)Silverlight(登録商標)、およびApple(登録商標)QuickTime(登録商標)を含めたいくつかのウェブブラウザプラグインに精通しているであろう。
【0155】
本明細書に提示される本開示を考慮して、非限定的な例として、C++、Delphi、Java(登録商標)、PHP、Python(商標)、およびVB.NET、またはこれらの組合せを含めた種々のプログラミング言語のプラグインの開発を可能にするいくつかのプラグインフレームワークが利用可能であることが当業者には理解されよう。
【0156】
ウェブブラウザ(インターネットブラウザとも称される)は、World Wide Web上で情報リソースを検索するため、提示するため、およびトラバースするために、ネットワークに接続されたデジタル処理デバイスと共に使用するために設計されたソフトウェアアプリケーションである。適切なウェブブラウザの非限定的な例として、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、Opera Software(登録商標)Opera(登録商標)、およびKDE Konquerorが挙げられる。一部の実施形態では、ウェブブラウザは、モバイルウェブブラウザである。モバイルウェブブラウザ(マイクロブラウザ、ミニブラウザ、およびワイヤレスブラウザとも称される)は、非限定的な例として、手持ち型コンピュータ、タブレットコンピュータ、ネットブックコンピュータ、サブノートコンピュータ、スマートフォン、音楽プレーヤー、携帯情報端末(PDA)、および携帯用ゲーム機システムを含むモバイルデジタル処理デバイスで使用するために設計されている。適切なモバイルウェブブラウザの非限定的な例として、Google(登録商標)Android(登録商標)ブラウザ、RIM BlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)Browser、Mozilla(登録商標)Firefox(登録商標)for mobile、Microsoft(登録商標)Internet Explorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)Basic Web、Nokia(登録商標)Browser、Opera Software(登録商標)Opera(登録商標)Mobile、およびSony(登録商標)PSP(商標)ブラウザが挙げられる。
ソフトウェアモジュール
【0157】
一部の実施形態では、本明細書に開示されるプラットフォーム、システム、メディア、および方法は、ソフトウェア、サーバー、および/もしくはデータベースモジュール、またはその使用を含む。本明細書に提示される本開示を考慮して、ソフトウェアモジュールは、当業者に公知の技法により、当技術分野に公知の機械、ソフトウェア、および言語を使用して創出される。本明細書に開示されるソフトウェアモジュールは、多数のやり方で実装される。種々の実施形態では、ソフトウェアモジュールは、ファイル、コードのセクション、プログラミングオブジェクト、プログラミング構造、またはこれらの組合せを含む。別の種々の実施形態では、ソフトウェアモジュールは、複数のファイル、複数のコードのセクション、複数のプログラミングオブジェクト、複数のプログラミング構造、またはこれらの組合せを含む。種々の実施形態では、1つまたは複数のソフトウェアモジュールは、非限定的な例として、ウェブアプリケーション、モバイルアプリケーション、およびスタンドアロンアプリケーションを含む。一部の実施形態では、ソフトウェアモジュールは、1つのコンピュータプログラムまたはアプリケーション中に存在する。他の実施形態では、ソフトウェアモジュールは、1つよりも多くのコンピュータプログラムまたはアプリケーション中に存在する。一部の実施形態では、ソフトウェアモジュールは、1つの機械をホストとして動作する。他の実施形態では、ソフトウェアモジュールは、1つよりも多くの機械をホストとして動作する。さらなる実施形態では、ソフトウェアモジュールは、クラウドコンピューティングプラットフォームをホストとして動作する。一部の実施形態では、ソフトウェアモジュールは、1つの場所にある1つまたは複数の機械をホストとして動作する。他の実施形態では、ソフトウェアモジュールは、1つよりも多くの場所にある1つまたは複数の機械をホストとして動作する。
【0158】
アプリケーション
【0159】
スプライシング因子突然変異に関連する疾患状態の識別
【0160】
一部の実施形態では、本明細書に開示されるプラットフォーム、システム、メディアおよび方法を医学的アプリケーションに適用する。一態様では、上記の開示を使用して、スプライシング因子突然変異に関連する疾患状態を識別することができる。第1に、個体の配列決定データからスプライシング因子突然変異を識別することができる。第2に、本明細書に記載のコンピュータにより実装される方法を適用して、スプライシング因子突然変異を有するものおよび有さないものの両方の、データベースからの配列決定データを解析する。次いで、スプライシング因子突然変異によって促進される選択的スプライシング事象の一覧を含有する出力を生じさせる。
【0161】
疾患状態は、遺伝性のものまたは放射線、重金属、毒物などの環境因子への曝露に起因するものであり得る。疾患状態としては、これだけに限定されないが、がん、白血病、中枢神経系の障害、筋ジストロフィー、ホルモン障害および慢性または異常な炎症などの免疫性障害を伴う疾患が挙げられる。疾患状態は、家族性自律神経障害(FD)、脊髄性筋萎縮症(SMA)、中鎖アシルCoAデヒドロゲナーゼ(MCAD)欠損症、ハッチンソン・ギルフォード早老症候群(HGPS)、筋強直性ジストロフィー1型(DM1)、筋強直性ジストロフィー2型(DM2)、常染色体優性網膜色素変性症(RP)、デュシェンヌ型筋ジストロフィー(DMD)、小頭症性骨異形成性原発性小人症1型(MOPD1)またはテイビ・リンダー症候群(TALS)、パーキンソニズムを伴う前頭側頭型認知症-17(FTDP-17)、福山型先天性筋ジストロフィー(FCMD)、筋萎縮性側索硬化症(ALS)、高コレステロール血症、および嚢胞性線維症(CF)を含み得る。がんは、これだけに限定されないが、膀胱がん、乳がん、結腸直腸がん、婦人科のがん、頭部のがん、頸部のがん、血液のがん、腎がん、肝がん、肺がん、膵がん、前立腺がん、皮膚がん、胃がんを含み得る。
【0162】
スプライシング因子突然変異としては、これだけに限定されないが、SRSF2、SF3B1、U2AF1、ZRSR2が挙げられる。スプライシング因子突然変異はまた、がんにおいて異所性発現を示すスプライシング因子、例えば、SRおよびhnRNPファミリーのメンバー、TRA2B、RBFOX1/2、MBNLまたは任意の欠陥のあるRNA結合性タンパク質なども含む。データベースは、例えばCancer Genome Atlas、UCSC Genome Browser、NCBI、GTExなどの公共のリポジトリを含み得る。データベースに含有される配列決定データは、これだけに限定されないが、RNA-seqデータおよびマイクロアレイデータを含み得る。選択的スプライシング事象は、これだけに限定されないが、BRCA1、BRCA2、EZH2、BIN1、BCL2L1、BCL2L11、CASP2、CCND1、CD44、ENAH、FAS、FGRF、HER2、HRAS、KLF6、MCL1、MKNK2、MSTR1、PKM、RAC1、RPS6KB1、VEGFA、IKBKAP、SMN2、MCAD、LMNA、DMPK、ZNF9、PRPF31、PRPF8、PRPF3、RP9、MAPT、TKTN、TPD-43、LDLR、CFTR、DMD、ATF2、およびU4atac snRNAをコードする遺伝子におけるスプライシング事象を含み得る。
【0163】
疾患の処置
【0164】
上記の方法を使用して、既知のスプライシング因子突然変異によって促進される選択的スプライシング事象の一覧を出力することができる。次いで、選択的スプライシング事象の調節回路を、選択的スプライシング事象を防止するために変更または妨害を受けやすい調節回路エレメントについて解析することができる。調節回路の改変後に、影響を受けた細胞について配列決定して、選択的スプライシング事象の存在または非存在をモニタリングすることができる。
【0165】
調節回路エレメントは、当業者に公知の方法によって妨害または改変することができる。そのような方法は、転写因子、シス調節エレメント、誘導性転写因子、構成的な転写因子などの改変を含み得る。そのような方法は、これだけに限定されないが、RNA干渉による遺伝子サイレンシングまたはプロモーター領域の改変を含み得る。方法は、例えばRNAi、siRNA、CRISPR Cas ヌクレアーゼ、TALEN、ジンクフィンガーヌクレアーゼなどの構成要素をさらに含み得る。
【0166】
疾患に関連する2連エクソンおよび/または3連エクソンの識別。
【0167】
一部の実施形態では、本明細書に開示されるプラットフォーム、システム、メディアおよび方法を医学的アプリケーションに適用する。一態様では、上記の開示を使用して、疾患状態に関連する2連エクソンおよび/または3連エクソンを識別することができる。方法は、まず、疾患に関連する突然変異に関するデータベースから疾患関連遺伝子配列決定データを受け取るステップを含み得る。データベースは、公共のデータベースであっても個人のデータベースであってもよい。データベースは、Cancer Genome Atlas、UCSC Genome Browser、NCBI、GTExなどの公共のリポジトリを含み得る。配列決定データは、RNA-seqデータまたはマイクロアレイデータであり得る。疾患に関連する選択的スプライシング事象は、これだけに限定されないが、以下の遺伝子を含み得る:RAS、HER2、p53、BRCA1、BRCA2、EZH2、BIN1、BCL2L1、BCL2L11、CASP2、CCND1、CD44、ENAH、FAS、FGRF、HER2、HRAS、KLF6、MCL1、MKNK2、MSTR1、PKM、RAC1、RPS6KB1、VEGFA、IKBKAP、SMN2、MCAD、LMNA、DMPK、ZNF9、PRPF31、PRPF8、PRPF3、RP9、MAPT、TKTN、TPD-43、LDLR、CFTR、DMD、ATF2、およびU4atac snRNAをコードする遺伝子。
【0168】
次に、本明細書に開示される方法を使用したアノテーションによって遺伝子配列決定データをソートして、TXdb v2データベースを創出することができる。これは、エクソン-エクソンジャンクションを検出するためのSTARアライナー、2連エクソンおよび/または3連エクソンをアセンブルするためのStringTieならびに本明細書に記載の通りの頻度、カバレッジおよび供給源の解析によって既知のアノテーションと新規のアノテーションを区別するためのスクリプトを含むソフトウェアパイプラインを含み得る。解析は、Microsoft Azureクラウドなどのクラウドサービスで並行計算によって実行することができる。データキューを処理するためにAnsibleおよびSlurmを用いてデプロイメントを自動的に管理することができる。
【0169】
次に、各2連エクソンおよび/または3連エクソンならびに関連するアノテーションが2つの状態:3つのエクソンが存在するインクルージョン、および真ん中のエクソンが存在せず、隣接するエクソンのみが残るスキッピング、にソートされる参照トランスクリプトームを創出する。
【0170】
次に、各2連エクソンおよび/または3連エクソンならびに関連するアノテーションに、EnsemblまたはRefSeqなどのデータベースからの既知の2連エクソンおよび/または3連エクソンの頻度およびカバレッジを使用して、信頼度スコアを適用する。ENSEMBLおよびRefSeqなどのデータベースからの既知の2連エクソンおよび/または3連エクソンの頻度およびカバレッジをPrior情報として使用し、ベイズ法に基づく信頼度スコアをあらゆる2連エクソンおよび/または3連エクソンに割り当てることができる。信頼度は、P(R|D)=P(D|R)P(R)/P(D)として算出することができ、ここで、Rは、アノテーションが信頼できる確率であり、Dは、信頼度のエビデンスである。Prior P(R)=P(F≧f|R)P(C≧c|R)は、GTExおよびTCGAデータにおいて所与のスプライシング事象が最小の頻度(F)およびカバレッジ(C)で観察される確率である。P(D|R)=P(F∩C|R)は、EnsembleおよびRefSeqアノテーションから経験的に推定される。予測因子PriorをP(D)=P(D|R=1)+P(D|R=?)として推定することができ、ここで、R=?は、アンラベルデータの未知の信頼度であり、P(F∩C|R)=?は、新しく予測されるアノテーションから算出される。
【0171】
次に、信頼度スコア、ならびに2連エクソンおよび/または3連エクソンがスキッピングの状態にあるかまたはインクルージョン状態にあるかを使用して、2連エクソンおよび/または3連エクソンを5つのカテゴリーのうちの1つであると識別する。カテゴリーは、キュレート、アノテート、予測-1、予測-2、または理論上である。キュレートは、インクルージョンの状態およびスキッピングの状態の両方についてアノテーションを有する2連エクソンおよび/または3連エクソンを含む。アノテートは、インクルージョンの状態またはスキッピングの状態のいずれかを有する2連エクソンおよび/または3連エクソンを含む。予測-1は、データベースからインクルージョンの状態およびスキッピングの状態の両方が予測された2連エクソンおよび/または3連エクソンを含む。予測-2は、インクルージョンの状態またはスキッピングの状態のいずれかがデータベースによって予測された2連エクソンおよび/または3連エクソンを含む。理論上は、存在する可能性が高いが、それを裏付けるエビデンスが不十分である2連エクソンおよび/または3連エクソンを含む。予測されるカテゴリーを新規の、疾患に関連する2連エクソンおよび/または3連エクソンの識別として出力する。
【実施例0172】
下記の例証的実施例は、本明細書に記載するソフトウェアアプリケーション、システム、および方法の実施形態を代表し、いかなる場合においても限定を意味しない。
【0173】
(実施例1)
CASC4エクソン9の探索
【0174】
Breast Cancer Research Treatmentに公開されている並行群間比較試験は、ASを探索するためのオープンソースプログラムMISOを使用しており、RT-PCRにより4/20の候補についてバリデートした。これと比較して、本明細書におけるシステムおよび方法は、RT-PCRにより113/155のAS事象をバリデートするのに使用されている。本明細書におけるシステムおよび方法は、競合会社のソフトウェアでは一切識別されないのとは反対に、これらの異常なスプライシング事象のうちの1つ(CASC4エクソン9)を潜在的抗がん標的として識別する。CASC4エクソン9は、MYC経路の一環として、アポトーシスを阻害し、増殖を増加させることが実験的に明らかにされている。CASC4エクソン9が、本明細書におけるシステムおよび方法を使用して発癌性として見出される前は、該遺伝子は文献に2回しか記載されず、本明細書におけるシステムおよび方法を使用してなされたこの発見が革新的で高い価値を有することが実証される。
【0175】
(実施例2)
パブリックデータリポジトリから抽出されたAS情報構造を用いた網羅的知識ベースの構築
【0176】
パブリックデータリポジトリから得た選択的スプライシング情報を用いて、TXdbデータベースの第2バージョンを構築し、それを実行して新規3連エクソンを識別した。TXdbデータベースの第1のバージョンは、4つの異なるスプライシング型:カセットエクソン(CA)、選択的受容部位(AA)、選択的供与部位(AD)、およびイントロン保持(IR)についてのアノテーションを含む。CAはいずれも、中央のエクソンが主体である3連エクソンとして表され、隣接するエクソンは、対応するスプライスジャンクションを含むトランスクリプトームコンテキストを提供する。3連エクソンの概念は、他のスプライシング型に適合するように考案された(
図14)。新規の3連エクソンを識別するために、エクソン-エクソンジャンクションを検出するためのSTARアライナー、3連エクソンアセンブリ用のString Tie、ならびに新規のアノテーションを既知のアノテーションと区別し、頻度(3連エクソンを含有するデータセットの数)、カバレッジ(データ全体を通じた3連エクソンの平均、最大、および最小カバレッジ)、およびソース(3連エクソンが発見された疾患および組織型のブレークダウン)を抽出するための内作スクリプトを使用してソフトウェアパイプラインを構築した。Microsoft
Azureクラウド上で並列式の計算法を使用して、分析を並行して実行し、キューを処理するためのAnsibleおよびSlurmを用いて、自動デプロイメントを管理した。新規TXdbをコンパイルするために、RefSeq(GRCh38.p12)およびEnsemble(GENCODE v28)アノテーションを最初に更新し、合計180,167例の公知3連エクソンをデータベースに追加した。TXdb v2では,異議のある公共記録に由来する13,512個のアノテーションを除去した。次に、1,256例のTCGA乳がん(BRCA)に由来するRNA-seqデータ、および死後組織31例から得られた10,491例のGTExデータセットを、公知および新規の組織特異的スプライシング事象を識別するために分析した。参照トランスクリプトームを調製するために、各3連エクソンを、2つの潜在的状態:(1)3つのエクソンが存在する「インクルージョン」、および(2)中央のエクソンが存在せず、隣接するエクソンのみが残存する「スキッピング」で表現した。全体で、5,980,591例のインクルージョン、および646,405例のスキッピング事象が、該データ内に観察された。
【0177】
ENSEMBLおよびRefSeqから得られた既知の3連エクソンの頻度およびカバレッジをPrior情報として使用して、ベイジアンに基づく信頼度スコアを3連エクソンそれぞれに割り振った。信頼度を、P(R|D)=P(D|R)P(R)/P(D)として算出し、式中、Rはアノテーションに信頼性がある確率であり、およびDは信頼度のエビデンスである。Prior P(R)=P(F≧f|R)P(C≧c|R)は、GTExデータおよびTCGAデータにおいて、最低の頻度(F)およびカバレッジ(C)で所定のスプライシング事象が観察される確率である。P(D|R)=P(F∩C|R)は、EnsembleおよびRefSeqアノテーションから実験的に推定される。
【0178】
最終的に、予測因子Priorを、P(D)=P(D|R=1)+P(D|R=?)として見積もり、式中、R=?は未表示データの不明な信頼度であり、およびP(F∩C|R)=?は新たに予測されたアノテーションから算出した。アノテーションを5つの異なる分類:(i)キュレート(Curated):インクルージョン状態およびスキッピング状態の両方について、EnsembleアノテーションまたはRefSeqアノテーションを有する3連エクソン;(ii)アノテート(Annotated):EnsembleまたはRefSeqにおいてインクルージョン状態またはスキッピング状態のいずれかを有する3連エクソン;(iii)予測-1(Predicted-1):TCGAおよび/またはGTExから予測されたインクルージョン状態およびスキッピング状態の両方を有する3連エクソン;(iv)予測-2(Predicted-2):TCGAおよび/またはGTExから予測されたインクルージョン状態およびスキッピング状態のいずれかを有する3連エクソン;(v)理論上(Theoretic):3連エクソンが存在する可能性があるが、しかし裏付けるエビデンスが不十分、にソートするのに、このモデルを使用した。
【0179】
結果:新たなTXdb v2は、合計6,626,996例の非冗長性スプライシング事象を識別した。アノテート分類単独は、オリジナルのTXdv v1のサイズと同等であるが、5分類をまとめた全体的な量は10倍を超えるサイズに増加している。キュレートおよび予測-1分類では、類似した信頼度スコアを有するようにする、スキッピングアイソフォームおよびインクルージョンアイソフォームの両方のソート要件に起因して、非CAスプライシング事象(AA、AD、IR)が最も濃縮されている。(
図15)。競合ツールと比較したとき、TXdb v2は、rMATs、MISO、およびMajiQ等のツールよりも、それらの各ウェブサイトにおいて利用可能なアノテーションリソースに基づけば、少なくとも20倍大きな参照トランスクリプトームを提供する(
図16)。ベイズモデルを用いて算出した信頼度スコアは、少なくとも4つの異なる期待群を含むマルチモーダル分布を示した。キュレートおよびアノテート分類のいずれも、局所的に最大の信頼度0.4を示した一方、予測-1は0.2を示し、予測-2および理論上は局所的最大値を有さなかったが、しかしその平均スコアは、それぞれ0.05および0.0009であった(
図17)。興味深いことに、143,479個の3連エクソンが、少なくとも1つのBRCAデータセットにおいて観察され、そのうちの64,976個は予測群に属し、TXdbにおける新規乳がん特異的3連エクソンとして45.3%を占める。
【0180】
(実施例3)
RNA結合タンパク質(RBP)と、TXdbにおいてアノテーションが付されたAS事象との間の予測された調節相互作用、ならびにASO化合物により標的とされ、調節されるスプライシング調節サーキットを識別するためのMLに基づくツールの開発
【0181】
TXdb v2内の6百万を超えるスプライシング事象に対する調節サーキットを識別し、それにアノテーションを付した。これを実現するために、高信頼度のPriorにおいて訓練されたML法が、RNA-seqデータのみ、およびin-silicoでのRBP結合プロファイルを使用してTXdb全体に適用可能である。文献において入手可能な公知で機能的なASO結合部位の数は少数であるので、単一ヌクレオチドバリアント(SNV)情報が、スプライシング調節に変化をもたらすRBP特異的結合の乱れに対するプロキシとして使用可能である。突然変異させたときに(例えば、CRISPRを使用して)、RBP結合を破壊するのに十分高感度の任意のヌクレオチドが、ASOブロッキングに対して同様に応答する可能性があると、理論付けられた。(Cheungおよび共同研究者らは、2,198個の異なるエクソン内の27,733例のヒト自然バリアントを対象に、エクソンSNVおよびイントロンSNVに対する超並列スプライシングミニ遺伝子レポーターを使用する試験を最近公表した。Cheung, R. et al. A Multiplexed Assay for Exon Recognition Reveals that an Unappreciated Fraction of Rare Genetic Cariats Cause Large-Effect Splicint Disruptions Mol. Cell. 73, 183-194. E8 (2019))。
【0182】
合計1,105個のSNVが、少なくとも25%のエクソンインクルージョンの減少を引き起こしたが(ΔPSI≦-0.25)、それは、エクソンインクルージョンを促進するRBPを活性化させるための結合部位、または反対に新たなスプライシングリプレッサー結合部位を創出するための結合部位が除去された可能性があると解釈された。14,936個のSNVからなる追加のセットは、スプライシングの変化との関連性を示さず(-0.05≦ΔPSI≦0.05)、したがって、エクソンスキッピングを駆動するSNVを予測するML分類器を訓練するための「ポジティブ」セットとして前者を表示し、後者を「ネガティブ」セットとして表示した(
図18)。一次RNA配列スクリーニングに基づきRBP結合を推定する3つの異なる方法を統合して、SNVがエクソンインクルージョンに及ぼす効果を判定し、ML予測特性を設計した:
【0183】
(i)RNA-Complete:ランダムなkマーのライブラリーを使用して、RBP結合の選好性を識別するin vitro結合富化アプローチ、およびマイクロアレイを使用する数量化。kマーに対するRBPの結合スコアを、標準化され、中心化されたeスコアとして算出した。
【0184】
(ii)Bind-n-seq:富化されたkマーの存在量を推定するために、マイクロアレイの代わりにRNA-seqを使用する点を除き、RNA-Completeと同様である。結合スコアを、入力物ライブラリーの頻度に対する、RBP選択されたプール中のkマーの頻度との間の比として算出した。
【0185】
(iii)RBPmap:RBP位置特異的スコアリングマトリックス(PSSM)のクラスタリング傾向(clustering propensity)および調節領域の全体的な傾向(tendency)が保存されていることを考慮する加重ランクアルゴリズムに基づき、PSSMを予測およびマッピングするための計算ツール。PSSM頻度のバックグラウンド分布に基づき、結合スコアをZ-スコアとして算出する。SNV毎に、3方法のうちの少なくとも1法によりカバーされる合計153個のRBPについて、結合スコアを見積もり(
図19)、分位点を使用して3つのスコアリング機能を標準化した。次に、RBPマトリックスの次元数およびまばらさを抑えつつ、直観的で生物学的に意義のある予測特性を設計するために、スプライソソームの構造および機能の様々な側面を反映するように、RMPサブセットを32のオントロジータイプに統合した(表1)。最大分位点スコアを代表として選択することにより、同一のオントロジー内の異なるRMPを併合し、次に3方法を通じてスコアを合計して、エビデンスの裏付けがより高いタンパク質を優遇した。このスコアリング機能から得られる直観的な知見として、一般的に、単一のRBPは、たとえそれが他のRMP(すなわち、所与のオントロジーの他のメンバー)を凌駕する必要があるとしても、スプライシング調節モチーフを支配的に占有することが挙げられる。ML訓練およびテストに備えて、このデータセットを使用して予備的な特性選択を実施した。
【0186】
結果:3つの異なる配列領域:(i)エクソンSNV、および(ii)上流イントロンにおいて生ずるSNV、または(iii)下流イントロンにおいて生ずるSNV内のポジティブデータセット(すなわち、エクソンスキッピングを促進するSNV)、およびネガティブデータセット(すなわち、スプライシングに対して効果を有さないSNV)を比較する際、各個別のオントロジーの予知力を評価するのにウィルコクソン検定を利用した(表1)。この分析によれば、エクソンSRタンパク質結合部位のSNV媒介式の除去は、エクソンインクルージョンの減少の強力な予測因子である(p<7.33-6)。これは、GAに富んだエクソン配列エンハンサーと結合してエクソンインクルージョンを促進するスプライシングアクチベーターとしてのSRタンパク質の役割について記載する多くの既報と一致する。したがって、エクソンアクチベーター(p<0.0003)およびAGに富んだエクソン結合モチーフ(p<9.92-6)がきわめて有意であった。興味深いことに、エクソンのスキッピングが上流または下流において生じたかを問わず、イントロンSNVは異なるいくつかの機能に影響を及ぼした。3’スプライス部位に隣接する上流配列において、スプライシングリプレッサーは、hnRNPファミリーのいくつかのメンバーを含み、その場合、CG結合RBPと共に(p<0.00025)きわめて予測的である(p<5.9-8)。スプライソソームC複合体中に存在するタンパク質(p<9.39-6)、必須RBP(p<7.2-5)、および組織特異性において3にランクされるRBP(p<4.34-18)を含め、特に強い一連の特性が5’スプライス部位に近接した下流イントロンで観察され、これは、いくつかのRBP、例えばSF3サブ複合体のメンバー、またはポリA結合タンパク質、例えばCPEB2、CPEB4、およびPCBP1は、必須タンパク質、スプライソソームC複合体のメンバーであり、また組織型全体を通じて普遍的に発現する傾向を有する、という事実により説明される。
【0187】
(実施例4)
RNA結合タンパク質(RBP)とTXdbにおいてアノテーションが付されたAS事象との間の予測された調節相互作用、ならびにWT SRSF2およびがん特異的SRSF2突然変異体を使用して、MLソフトウェアの実験的バリデーションを実施するためのMDS細胞分化システムの確立。
【0188】
がん特異的モデルの細胞系、計算パイプライン、およびRBP-RNA相互作用を促進することにより、がん特異的ASの調節において、特定モチーフの機能的重要性に対処する生化学的アプローチを使用した。トランスジェニックノックインヒトSRSF2突然変異体K562細胞(ヒト骨髄性白血病細胞)、およびTCGA急性骨髄性白血病(AML)患者から得られたマイニングパブリックRNA-seqデータを、MDS/白血病の状況においてSRSF2スプライシング標的を識別するのに使用した。
【0189】
突然変異体SRSF2により促進されるAS事象を識別するために、SRSF2突然変異を含む、または含まないAML Cancer Genome Atlas(TCGA)に由来するRNA-seqデータを分析した。トランスジェニックノックインSRSF2P95H突然変異体K562細胞を、実験的バリデーション用として使用した。MDSは血球分化の欠陥により特徴付けられ、したがってヘミンを使用して、K562細胞を終末赤血球系統までさらに分化させた。RT-PCRを使用して、いくつかのAS事象についてバリデートした。それらの中でも、EZH2におけるポイゾンエクソンインクルージョン事象、およびATF2におけるエクソンインクルージョン事象は、これまでに報告された。
図20に示すように、一貫した結果が得られた。これらの結果より、細胞系モデルおよび実験系の適切性がバリデートされた。さらに、TCGA-AML RNA-seqデータ内の新規AS事象INTS3が識別された。2つの連続したイントロン(イントロン4および5)の保持が、未成熟終止コドンを生成するINTS3に見出された。未成熟終止コドンはナンセンス媒介mRNA分解に関するmRNAを標的とすることが予測された。INTS3(インテグレーター複合体サブユニット3)はインテグレーター複合体のメンバーであり、転写の開始および休止したRNAポリメラーゼIIの放出の両方において重要な役割を演じている。イントロン4の保持は、SRSF2突然変異体細胞においてRT-PCRによりバリデートされた(
図20)。最近の報告によれば、SRSF2 WTは、Gに富んだモチーフ(GGWG、W=A/U)と結合することを好み、SRSF2突然変異体はCに富んだモチーフ(CCWG)と結合することを好む。突然変異体SRSF2は、INTS3において配列特異的な様式でイントロン保持を促進するか調査するために、イントロン4を含めエクソン4~エクソン5にまたがるミニ遺伝子レポーターを生成した(
図21)。エクソン4内に、2つのGGWGモチーフおよび4つのCCWGモチーフが存在する(WTミニ遺伝子)。エクソン4内にGGWGモチーフ(GGWGミニ遺伝子)またはCCWGモチーフ(CCWGミニ遺伝子)を内包する突然変異原性により、INTS3ミニ遺伝子の2つの追加のバージョンを生成させた。これらミニ遺伝子のそれぞれを、K562細胞内でSRSF2 WT、またはSRSF2突然変異体(P95H/P95L/P95R)をコードするcDNAを用いて同時トランスフェクトし、RT-PCRによりスプライシングを分析した。SRSF2 WTは、ミニ遺伝子のいずれにおいても、イントロン保持に対する活性を示さなかった。しかしながら、SRSF2突然変異体は、WTおよびCCWGミニ遺伝子についてイントロン保持を促進するが、しかしGGWGミニ遺伝子については促進しなかった。これより、SRSF2 WTの配列特異的な新規機能が実証された。
【0190】
(実施例5)
SpliceCoreのシステム構造およびユーザインターフェース。
【0191】
1.自動化されたバックエンドデプロイメントおよびスケーラビリティ:自動プラットフォームデプロイメントを可能にし、資源管理を計算するための自動化されたITインフラストラクチャーを開発して、SpliceCoreプラットフォームが、当社ユーザ用の独立したAzureアカウント内に容易に「クローン化される」のを可能にした。この開発により、Azureアカウントを保有するユーザのデータ方針を遵守しつつ、独自データセットの完全な隔離が保証される。したがって、データは組織から乖離せず、ソフトウェアはデータとリンクしており、ユーザは、保管を含む計算資源の型と量、およびランタイムを調節する仮想マシン、および各プロジェクト要件に対するコストを管理する能力を維持する。
【0192】
TerraformおよびAnsibleを使用する高性能計算クラスターの自動化:terraformコードは、Azure仮想マシン、Azure保管コンテナ、必要なディスク、セキュリティー方針、および保管コンテナを創出した。また、Terraformは、分析が完了したら資源を自動的に除去または破壊する。ジョブパラレルオーケストレーション、ツールセット(例えば、bowtie、samtool)、パッケージおよびモジュール(例えば、Python、R)、ならびにSpliceCoreプラットフォームを用いてスプライシング分析およびデータ解釈を実施するための全ての独自開発コードについて、Slurmをインストールおよび構成するために、Ansibleプレイブックを起草した。計算クラスターのエンジニアリングタスクには下記事項が含まれる:(i)エラーハンドリングは、バックエンドインフラストラクチャーおよびワークフロー、終了時またはエラー時のワークフロープロセスに対する追加のEメール通知により改善した。(ii)リモートクラウド保管環境(例えば、AWS S3)からのクラウドデータのダウンロード、およびデータアップロードをリファクターリングした。(iii)SpliceCoreレポート内のワークフローにより生成された新たなデータポイントをカプセル化するために、PostgreSQLデータベース構造を開発した。(iv)Azure Redis Cacheサービスを使用するPostgreSQLサービスのための、PostgreSQLデータベースサーバーからAzureデータベースへのデータレポートの抽出についてリファクターリングした。
【0193】
2.フロントエンドユーザインターフェース(UI):SpliceCoreのUIは、データ、情報、および見識をユーザと交換するのを可能にするコラボレーション環境である。UIは、当社アルゴリズムを用いてRNA-seqデータのアップロードおよび分析を可能にし、スプライシング定量結果をビルトイン式の予測的分析ツール、例えばSpliceImpactまたはTXdbメタデータ等に結び付ける。創薬ターゲットおよびバイオマーカーの選択を支援するために、リアルタイムでのデータ統合、ならびにグラフィックの可視化を可能にする対話型テーブルを開発した。フロントエンドユーザインターフェースのエンジニアリングタスクには下記事項が含まれる:(i)Bootstrap4およびRuby on Rails5.2.2を用いたモダンで応答性のUIの設計。(ii)プロジェクトおよび実験データに関するPostgreSQLデータベースのリファクターリングおよびその性能の向上。(iii)agGridおよびJavaScript(登録商標)を使用する実験結果表の性能、スケーラビリティ、およびフィルタリングの改善。(iv)スプライシング事象レポートデータの可視化、例えば症例と対照のジャンクションリード、およびPlot.ly JavaScript(登録商標)ライブラリーを使用するGTExの再現性等の追加。(v)外部ウェブリサーチツール、例えばUCSC Genome Browser、GeneCards、NCBI、Open
Targets、およびPubMed等の統合。(vi)ネイティブなMircosoft Azure仮想マシンおよび保管サービスを用いたセキュリティーの向上。
【0194】
【0195】
(i)プロジェクトダッシュボード:クライアントのプロジェクトの一覧、およびプロジェクトそれぞれについて、当該プロジェクトにおいて分析されたRNA-seqデータセットの数、実験の実行状態、承認されたユーザ、およびアドミニストレーターを表示する。プロジェクト名をクリックすると、データセットおよび実験ダッシュボードが立ち上がる(
図22A)。
【0196】
(ii)データセットおよび実験:アップロードされたRNA-seqデータセットの一覧を左側に、および実験の一覧を右側に表示する。RNA-seqデータセットがアップロードされると、それらはSpliceTrapを用いて自動的に分析され、当社の参照トランスクリプトームおよびデータベースTXdbに対してマッピングされる。ダッシュボードは分析プロセスを示し、準備が整い次第、SpliceTrap出力物(比のファイル)が実験用として利用可能となり、またダウンロードも可能である。実験は、SpliceDuoを使用して行う、RNA-seqデータの2つの異なる群間の症例対照比較である。実験デザインボタンをクリックすることにより、ユーザは、各実験で使用されるRNA-seqデータセットを選択(choose)および選択(select)することができる。実験ステータスは右側に現れる。実験が完了したら、それをクリックして実験結果ダッシュボードを立ち上げることができる(
図22B)。
【0197】
(iii)実験結果:これは、統計的に有意な差次的スプライシングエラーの数を表示する対話型テーブルである。デフォルトカラムは、TXdb ID、遺伝子の名称、dPSI(スプライシング変化)、再現性(同一のスプライシング事象が統計的に有意であった症例データセットの数)、およびコンシステンシー(症例データセット内のスプライシング定量間の一致性の指標)を表示する。さらに、右側の区画は、GTExおよびTCGA内の計算前のスプライシング事象、患者メタデータ、およびApliceImpact結果を含む、出力物に付加される数百の追加のカラムを提供する。カラムは、リアルタイムで付加、除去、ソート、およびフィルター処理可能であり、複数のデータセットのシームレスな統合を可能にする。(
図22C)。
【0198】
(iv)RNAスプライシングレポート:目的とする候補をフィルターにかけた後、スプライシング事象のそれぞれと関連する、左側のブルーの四角をクリックして、スプライシング事象のそれぞれを説明する一連のグラフィクスを視覚化することができる。視覚化には、スプライシングレベル、リードカバレッジ、ゲノム上のRNA-seqマッピングプロファイル、疾患の関与に関する情報、組織特異性、および創薬可能性が含まれた(
図22D)。
【0199】
特定の実施形態および実施例が、上記説明において提示されているが、本発明の主題は、特に開示された実施形態を超えてその他の代替的実施形態および/または使用、ならびに修正形態およびその等価物にまで拡張される。したがって、本明細書に添付の特許請求の範囲は、以下に記載する特定の実施形態のいずれによっても限定されない。例えば、本明細書で開示される任意の方法またはプロセスにおいて、方法またはプロセスの行為または操作は、任意の適する順番で実施されてもよく、開示された特定の順番のいずれにも必ずしも限定されない。様々な操作は、特定の実施形態を理解する際に役立ち得る順番、方式で複数の独立した操作として記載され得る;しかしながら、説明の順序は、これらの操作は順序依存性であることを示唆するものと解釈すべきでない。さらに、本明細書に記載される構造、システム、および/またはデバイスは、一体化したコンポーネントとして、または分離したコンポーネントとして具体化され得る。
【0200】
様々な実施形態を比較するために、それらの実施形態の特定の側面および利点が記載されている。全てのそのような側面または利点が、必ずしも特定の実施形態のいずれかにより達成されるわけではない。したがって、例えば様々な実施形態は、本明細書において教示されるように、1つの利点または利点の群を実現または最適化する方式で、本明細書においてやはり教示または示唆され得るようなその他の側面または利点を必ずしも達成することなく実施され得る。
【0201】
本明細書で使用される場合、Aおよび/またはBは、AまたはBのうちの1つもしくは複数、およびその組合せ、例えばAおよびBを包含する。用語「第1」、「第2」、「第3」等は、様々な要素、コンポーネント、領域、および/またはセクションを記載するのに本明細書において使用され得るが、これらの要素、コンポーネント、領域、および/またはセクションは、これらの用語により限定されるべきでないと理解される。これらの用語は、1つの要素、コンポーネント、領域、またはセクションを別の要素、コンポーネント、領域、またはセクションから区別するのに使用されるにすぎない。したがって、以下で議論される第1の要素、コンポーネント、領域、またはセクションは、本開示の教示から逸脱することなく、第2の要素、コンポーネント、領域、またはセクションと呼ぶこともあり得る。
【0202】
本明細書で使用される専門用語は、特定の実施形態を記載する目的に限定され、本開示を限定するように意図されない。本明細書で使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈が別途明示しない限り、複数形もやはり含むように意図されている。用語「含む(comprises)」および/または「含むこと(comprising)」、あるいは「含む(includes)」および/または「含むこと(including)」は、本明細書で使用されるとき、記載された特徴、領域、整数、ステップ、操作、要素、および/またはコンポーネントの存在を特定するが、しかし1つまたは複数のその他の特徴、領域、整数、ステップ、操作、要素、コンポーネント、および/またはその群の存在もしくは追加を排除しないものとさらに理解される。
【0203】
本明細書および特許請求の範囲で使用される場合、別途記載がなければ、用語「約」および「およそ」とは、実施形態に応じて、数値の±1%、±2%、±3%、±4%、±5%、±6%、±7%、±8%、±9%、±10%、±11%、±12%、±14%、±15%、または±20%未満のまたはそれに等しい変動を指す。非限定的な例として、約100メートルは、実施形態に応じて95メートル~105メートル(100メートルの±5%である)、90メートル~110メートル(100メートルの±10%である)、または85メートル~115メートル(100メートルの±15%である)の範囲を表す。
【0204】
好ましい実施形態が本明細書に提示および記載されているが、そのような実施形態は、例示目的に限定して提供されていることは当業者にとって明白である。ここで、非常に多くの変化、変更、および置換が、本開示の範囲から逸脱せずに、当業者において思いつくであろう。本明細書に記載する実施形態に対する様々な代替形態が実際に採用され得るものと理解すべきである。本明細書に記載する実施形態の非常に多くの異なる組合せが可能であり、そのような組合せは本開示の一部分と考えられる。さらに、本明細書における任意の1つの実施形態と関連付けて議論される全ての特徴は、本明細書におけるその他の実施形態で使用するために、容易に調整可能である。下記の特許請求の範囲は、本開示の範囲を定義すること、ならびにこれらの特許請求の範囲内の方法および構造ならびにその等価物は、それによりカバーされることが意図されている。
本発明は、例えば、以下の項目を提供する。
(項目1)
選択的スプライシング(AS)事象を数量化するためのコンピュータにより実装されるシステムであって、プロセッサと、実行可能命令を実施するように構成されたオペレーティングシステムと、メモリと、選択的スプライシング数量化アプリケーションを創出するためのデジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムとを含むデジタル処理デバイスを含み、前記選択的スプライシング数量化アプリケーションが、
(a)ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、
(b)前記情報をデータベースにマッピングして、マッピングされた情報を創出するステップと、
(c)ヒューリスティック近似を使用して、前記マッピングされた情報からデータ依存パラメータのセットを計算するステップと、
(d)前記データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップと
を行うためのソフトウェアモジュールを含む、コンピュータにより実装されるシステム。
(項目2)
選択的スプライシング事象を解析するためのコンピュータにより実装されるシステムであって、プロセッサと、実行可能命令を実施するように構成されたオペレーティングシステムと、メモリと、選択的スプライシング解析アプリケーションを創出するためのデジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムを含むデジタル処理デバイスを含み、前記選択的スプライシング解析アプリケーションが、
(a)ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、
(b)前記情報を定量的に処理して、1つまたは複数の統計的に有意な選択的スプライシング事象を識別するステップであって、
i.回帰モデルの1つまたは複数のパラメータを算出すること、および
ii.前記1つまたは複数のパラメータを使用して前記回帰モデルを前記情報に適用して、前記1つまたは複数の統計的に有意な選択的スプライシング事象を識別すること
を含むステップと
を行うためのソフトウェアモジュールを含む、コンピュータにより実装されるシステム。
(項目3)
前記確率モデルが、ベイズ確率モデルである、項目1に記載のコンピュータにより実装されるシステム。
(項目4)
前記回帰モデルが、薄板スプラインに基づく回帰モデルである、項目2に記載のコンピュータにより実装されるシステム。
(項目5)
前記ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データが、DNA配列、RNA配列、プレmRNA配列、およびmRNA配列のうちの1つまたは複数を含む、前記項目のいずれか一項に記載のコンピュータにより実装されるシステム。
(項目6)
前記情報をユーザから受け取るステップが、クラウドネットワークを含むコンピュータネットワークを介したものである、前記項目のいずれか一項に記載のコンピュータにより実装されるシステム。
(項目7)
前記ソフトウェアモジュールが、ユーザが、選択的スプライシング値をソートすること、選択的スプライシング値をフィルターにかけること、前記データベースに保存されている情報を選択すること、選択的スプライシング値を前記データベースに保存されている選択された情報とマージすること、前記1つまたは複数の統計的に有意な選択的スプライシング事象を閲覧すること、選択的スプライシング事象をその機能的影響の予測のために選択すること、またはこれらの組合せを行うことを可能にするユーザインターフェースをさらに含む、前記項目のいずれか一項に記載のコンピュータにより実装されるシステム。
(項目8)
前記ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報からエクソンインクルージョン比を含む情報が算出される、項目2に記載のコンピュータにより実装されるシステム。
(項目9)
前記回帰モデルが、薄板スプライン(TPS)モデルを含む、項目2に記載のコンピュータにより実装されるシステム。
(項目10)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが自動で行われる、項目1に記載のコンピュータにより実装されるシステム。
(項目11)
前記データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップが自動で行われる、項目1に記載のコンピュータにより実装されるシステム。
(項目12)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される、項目1に記載のコンピュータにより実装されるシステム。
(項目13)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回実行される、項目1に記載のコンピュータにより実装されるシステム。
(項目14)
前記データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップが、前記ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される、項目1に記載のコンピュータにより実装されるシステム。
(項目15)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが、前記ユーザによって調整されない、項目1に記載のコンピュータにより実装されるシステム。
(項目16)
前記データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップが、前記ユーザによって調整されない、項目1に記載のコンピュータにより実装されるシステム。
(項目17)
前記データ依存パラメータのセットが、断片サイズ分布を含む、項目1に記載のコンピュータにより実装されるシステム。
(項目18)
前記計算するステップが、ヒューリスティック近似をさらに含み、前記ヒューリスティック近似が、インクルージョン比モデルをインクルージョン比のデータ駆動型モデルまたは数学的モデルに置き換えることを含む、項目1に記載のコンピュータにより実装されるシステム。
(項目19)
前記選択的スプライシング値が、エクソンインクルージョン比またはパーセントスプライス指数(PSI)を含む、項目1に記載のコンピュータにより実装されるシステム。
(項目20)
前記選択的スプライシング値が、エクソンレベルでの値である、項目1に記載のコンピュータにより実装されるシステム。
(項目21)
前記1つまたは複数の統計的に有意な選択的スプライシング事象をデータベースまたは第2のデータベースに保存されている追加的な情報を用いて処理して、公共のデータセットにおける選択的スプライシング事象の再現性、臨床的メタデータに基づく記述的分析、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対するその機能的影響、異常なスプライシング事象の創薬可能性および可逆性ならびにスプライシング調節の制御可能性を数量化するステップであって、
前記タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の統計的に有意な選択的スプライシング事象の確率を、前記データベースに保存されている追加的な情報であって、公共のRNA-seqデータ、CLIP-seqデータ、mRNAアノテーション、GTExデータ、TCGAデータ、臨床的メタデータ、タンパク質構造情報、またはゲノムデータに基づく選択的スプライシングの複数のスプライシング型のアノテーションから得られたメタデータを含む、追加的な情報を使用して生成される複数の特徴を使用して定量的に推定することと、教師ありまたは半教師あり機械学習アルゴリズムを適用して、前記1つまたは複数の有意な選択的スプライシング事象の機能的影響を推定される確率に基づいて予測することとを含む、ステップ
を行うソフトウェアモジュールをさらに含む、項目2に記載のコンピュータにより実装されるシステム。
(項目22)
公共のRNA-seqデータに関連する情報を含むアノテーションを生成するステップを行うソフトウェアモジュールをさらに含む、項目21に記載のコンピュータにより実装されるシステム。
(項目23)
前記複数のスプライシング型が、選択的受容部位(AA)、選択的供与部位(AD)、カセットエクソン(CA)、およびイントロン保持(IR)のうちの1つまたは複数を含む、項目21に記載のコンピュータにより実装されるシステム。
(項目24)
前記アノテーションが、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む、項目21に記載のコンピュータにより実装されるシステム。
(項目25)
前記アノテーションが、前記ユーザから受け取った情報を使用して生成された1つまたは複数の新しいアノテーションを含む、項目21に記載のコンピュータにより実装されるシステム。
(項目26)
前記選択的スプライシング事象の1つまたは複数の機能的なスプライシング調節エレメントと潜在的なスプライシング調節エレメントを区別し、それにより、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性を予測するための半教師ありまたは教師あり機械学習分類器をさらに含む、項目2に記載のコンピュータにより実装されるシステム。
(項目27)
前記スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性の予測が、スプライシング事象の解釈に利用されるように構成されている、項目26に記載のコンピュータにより実装されるシステム。
(項目28)
前記ユーザが、前記1つまたは複数の統計的に有意な選択的スプライシング事象をユーザが選択した基準に基づいてソートする、フィルターにかける、または順位付けることを可能にするソフトウェアモジュールをさらに含む、前記項目のいずれか一項に記載のコンピュータにより実装されるシステム。
(項目29)
タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対する選択的スプライシング事象の機能的影響を数量化するためのコンピュータにより実装されるシステムであって、プロセッサと、実行可能命令を実施するように構成されたオペレーティングシステムと、メモリと、選択的スプライシング機能的影響解析アプリケーションを創出するためのデジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムとを含むデジタル処理デバイスを含み、前記アプリケーションが、
(a)データベースに保存されている情報であって、公共のRNA-seqデータまたは他の生物学的データに基づいた選択的スプライシングの複数の型のアノテーションから得られたメタデータを含む、情報に基づいて複数の特徴を生成するステップと、
(b)1つまたは複数の選択的スプライシング事象を得るステップと、
(c)前記タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を前記複数の特徴に基づいて定量的に推定するステップと、
(d)教師ありまたは半教師あり機械学習アルゴリズムを適用して、前記1つまたは複数の選択的スプライシング事象の機能的影響を推定される確率に基づいて予測するステップと、
(e)前記1つまたは複数の選択的スプライシング事象の機能的影響の予測に基づいて、優先順位が付けられた、生物学的に関連する選択的スプライシング事象の一覧を生成するステップと
を行うためのソフトウェアモジュールを含む、コンピュータにより実装されるシステム。
(項目30)
前記半教師ありまたは教師あり機械学習アルゴリズムが、ランダムフォレスト、ベイズモデル、回帰モデル、ニューラルネットワーク、分類木、回帰木、判別分析、k近傍法、単純ベイズ分類器、サポートベクターマシン(SVM)、生成モデル、低密度分離法、グラフに基づく方法、ヒューリスティック手法、またはこれらの組合せを含む、項目29に記載のコンピュータにより実装されるシステム。
(項目31)
前記機械学習アルゴリズムを訓練セットを用いて訓練し、前記訓練セットの各データポイントが、前記複数の特徴のうちのある1つの特徴およびラベルを含み、前記ラベルが、ポジティブ、ネガティブ、またはアンラベルである、項目29に記載のコンピュータにより実装されるシステム。
(項目32)
前記訓練セットが、50以上の訓練データポイントで構成される、項目31に記載のコンピュータにより実装されるシステム。
(項目33)
前記複数の特徴が、RNAに基づく特徴、タンパク質ドメイン特徴、進化的特徴、変異性特徴、およびスプライシング調節特徴から選択される1つまたは複数のカテゴリーの特徴を含む、項目31に記載のコンピュータにより実装されるシステム。
(項目34)
前記タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を定量的に推定するステップが、選択的スプライシングによる機能的なタンパク質ドメインの除去;選択的スプライシングによるナンセンス変異依存分解(NMD)および翻訳フレームシフト(FS);選択的スプライシング事象の変異性;選択的スプライシングを受けたタンパク質の生物学的ネットワークにおける重み付けされた接近中心性;またはこれらの組合せによって引き起こされる損傷を定量的に推定することを含む、項目29に記載のコンピュータにより実装されるシステム。
(項目35)
前記アノテーションが、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む、項目29に記載のコンピュータにより実装されるシステム。
(項目36)
選択的スプライシング事象を解析するためのコンピュータにより実装されるシステムであって、
(a)プロセッサ、実行可能命令を実施するように構成されたオペレーティングシステム、およびメモリを含むデジタル処理デバイスと、
(b)前記デジタル処理デバイスにより実行可能な命令を含むコンピュータプログラムと、
(c)エクソン中心のデータマッピングを通じた選択的スプライシング事象の自動問い合わせが可能になるように構成されたデータベースであって、前記データベースの各エントリーが独立した選択的スプライシング事象を含み、前記データベースが、ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを使用して生成された1つまたは複数のアノテーションを含み、前記生物学的データが、前記データベースのユーザにより提供されたものである、データベースと、
(d)第1の複数の選択的スプライシング事象の解析を第2の複数のプロセッサに分散するソフトウェアモジュールと
を含む、コンピュータにより実装されるシステム。
(項目37)
前記第1の複数のスプライシング事象が、コンピュータネットワークを介して分散される、項目36に記載のコンピュータにより実装されるシステム。
(項目38)
選択的スプライシング(AS)事象を数量化するためのコンピュータにより実装される方法であって、
(a)ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、
(b)前記情報をデータベースにマッピングして、マッピングされた情報を創出するステップと、
(c)ヒューリスティック近似を使用して、前記マッピングされた情報からデータ依存パラメータのセットを計算するステップと、
(d)前記データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップと、
を含む、コンピュータにより実装される方法。
(項目39)
選択的スプライシング(AS)事象を解析するためのコンピュータにより実装される方法であって、
(a)ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報をユーザから受け取るステップと、
(b)前記情報を定量的に処理して、1つまたは複数の統計的に有意な選択的スプライシング事象を識別するステップであって、
i.回帰モデルの1つまたは複数のパラメータを算出すること、および
ii.前記1つまたは複数のパラメータを使用して前記回帰モデルを前記情報に適用して、前記1つまたは複数の統計的に有意な選択的スプライシング事象を識別すること
を含むステップと
を含む、コンピュータにより実装される方法。
(項目40)
前記確率モデルが、ベイズ確率モデルである、項目38に記載のコンピュータにより実装される方法。
(項目41)
前記回帰モデルが、薄板スプラインに基づく回帰モデルである、項目39に記載のコンピュータにより実装される方法。
(項目42)
前記ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データが、DNA配列、RNA配列、プレmRNA配列、またはmRNA配列のうちの1つまたは複数を含む、前記項目のいずれか一項に記載のコンピュータにより実装される方法。
(項目43)
ユーザから情報を受け取るステップが、クラウドネットワークを含むコンピュータネットワークを介したものである、項目38または39に記載のコンピュータにより実装される方法。
(項目44)
ユーザが、選択的スプライシング値をソートすること、選択的スプライシング値をフィルターにかけること、前記データベースに保存されている情報を選択すること、選択的スプライシング値を前記データベースに保存されている前記選択された情報とマージすること、前記1つまたは複数の統計的に有意な選択的スプライシング事象を閲覧すること、選択的スプライシング事象をその機能的影響の予測のために選択すること、またはこれらの組合せを行うことを可能にするステップをさらに含む、項目38に記載のコンピュータにより実装される方法。
(項目45)
前記ゲノム、トランスクリプトーム、またはその両方に関連する生物学的データを含む情報からエクソンインクルージョン比が算出される、項目39に記載のコンピュータにより実装される方法。
(項目46)
前記回帰モデルが、薄板スプライン(TPS)モデルを含む、項目39に記載のコンピュータにより実装される方法。
(項目47)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが自動で行われる、項目38に記載のコンピュータにより実装される方法。
(項目48)
前記データ依存パラメータのセットに確率モデルを適用して、選択的スプライシング値を生成するステップが自動で行われる、項目38に記載のコンピュータにより実装される方法。
(項目49)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される、項目38に記載のコンピュータにより実装される方法。
(項目50)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回実行される、項目38に記載のコンピュータにより実装される方法。
(項目51)
前記確率モデルを適用して選択的スプライシング値を生成するステップが、ゲノムに関連する生物学的データの各DNA、RNA、またはmRNA配列に対して1回だけ実行される、項目38に記載のコンピュータにより実装される方法。
(項目52)
前記マッピングされた情報からデータ依存パラメータのセットを計算するステップが、前記ユーザによって調整されない、項目38に記載のコンピュータにより実装される方法。
(項目53)
前記確率モデルを適用して選択的スプライシング値を生成するステップが、前記ユーザによって調整されない、項目38に記載のコンピュータにより実装される方法。
(項目54)
前記データ依存パラメータのセットの1つが、断片サイズ分布を含む、項目38に記載のコンピュータにより実装される方法。
(項目55)
前記計算するステップが、ヒューリスティック近似をさらに含み、前記ヒューリスティック近似が、インクルージョン比モデルをインクルージョン比のデータ駆動型モデルまたは数学的モデルに置き換えることを含む、項目38に記載のコンピュータにより実装される方法。
(項目56)
前記選択的スプライシング値が、エクソンインクルージョン比またはパーセントスプライス指数(PSI)を含む、項目38に記載のコンピュータにより実装される方法。
(項目57)
前記選択的スプライシング値が、エクソンレベルでの値である、項目38に記載のコンピュータにより実装される方法。
(項目58)
前記1つまたは複数の統計的に有意な選択的スプライシング事象を、データベースまたは第2のデータベースに保存されている追加的な情報を用いて処理して、公共のデータセットにおける選択的スプライシング事象の再現性、臨床的メタデータに基づく記述的分析、タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対するその機能的影響、異常なスプライシング事象の創薬可能性および可逆性ならびにスプライシング調節の制御可能性を数量化するステップであって、
前記タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の統計的に有意な選択的スプライシング事象の確率を、前記データベースに保存されている追加的な情報であって、公共のRNA-seqデータ、CLIP-seqデータ、mRNAアノテーション、GTExデータ、TCGAデータ、臨床的メタデータ、タンパク質構造情報、またはゲノムデータに基づく選択的スプライシングの複数のスプライシング型のアノテーションから得られたメタデータを含む、追加的な情報を使用して生成される複数の特徴を使用して定量的に推定することと、教師ありまたは半教師あり機械学習アルゴリズムを適用して、前記1つまたは複数の有意な選択的スプライシング事象の機能的影響を推定される確率に基づいて予測することとを含む、ステップ
をさらに含む、項目39に記載のコンピュータにより実装される方法。
(項目59)
公共のRNA-seqデータに関連する情報を含むアノテーションを生成するステップをさらに含む、項目58に記載のコンピュータにより実装される方法。
(項目60)
前記複数のスプライシング型が、選択的受容部位(AA)、選択的供与部位(AD)、カセットエクソン(CA)、およびイントロン保持(IR)のうちの1つまたは複数を含む、項目58に記載のコンピュータにより実装される方法。
(項目61)
前記アノテーションが、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む、項目58に記載のコンピュータにより実装される方法。
(項目62)
前記アノテーションが、前記ユーザから受け取った情報を使用して生成された1つまたは複数の新しいアノテーションを含む、項目58に記載のコンピュータにより実装される方法。
(項目63)
前記選択的スプライシング事象の1つまたは複数の機能的なスプライシング調節エレメントと潜在的なスプライシング調節エレメントを区別し、それにより、スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性を予測するための半教師ありまたは教師あり機械学習分類器をさらに含む、前記項目のいずれか一項に記載のコンピュータにより実装されるシステム。
(項目64)
前記スプライシングの制御可能性、異常なスプライシング事象の創薬可能性および可逆性を予測することが、スプライシング事象の解釈に利用されるように構成されている、項目63に記載のコンピュータにより実装される方法。
(項目65)
前記ユーザが、前記1つまたは複数の統計的に有意な選択的スプライシング事象をユーザが選択した基準に基づいてソートする、フィルターにかける、または順位付けることを可能にするソフトウェアモジュールをさらに含む、項目39に記載のコンピュータにより実装される方法。
(項目66)
タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に対する選択的スプライシング事象の機能的影響を数量化するためのコンピュータにより実装される方法であって、
(a)データベースに保存されている情報であって、公共のRNA-seqデータまたは他の生物学的データに基づいた選択的スプライシングの複数の型のアノテーションから得られたメタデータを含む、情報に基づいて複数の特徴を生成するステップと、
(b)1つまたは複数の選択的スプライシング事象を得るステップと、
(c)前記タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を前記複数の特徴に基づいて定量的に推定するステップと、
(d)教師ありまたは半教師あり機械学習アルゴリズムを適用して、前記1つまたは複数の選択的スプライシング事象の機能的影響を推定される確率に基づいて予測するステップと、
(e)前記1つまたは複数の選択的スプライシング事象の機能的影響の予測に基づいて、優先順位が付けられた、生物学的に関連する選択的スプライシング事象の一覧を生成するステップと
を含む、コンピュータにより実装される方法。
(項目67)
前記半教師ありまたは教師あり機械学習アルゴリズムが、ランダムフォレスト、ベイズモデル、回帰モデル、ニューラルネットワーク、分類木、回帰木、判別分析、k近傍法、単純ベイズ分類器、サポートベクターマシン(SVM)、生成モデル、低密度分離法、グラフに基づく方法、ヒューリスティック手法、またはこれらの組合せを含む、項目66に記載のコンピュータにより実装される方法。
(項目68)
前記機械学習アルゴリズムを訓練セットを用いて訓練し、前記訓練セットの各データポイントが、複数の特徴のうちのある1つの特徴およびラベルを含み、前記ラベルが、ポジティブ、ネガティブ、およびアンラベルである、項目66に記載のコンピュータにより実装される方法。
(項目69)
前記訓練セットが、50以上の訓練データポイントで構成される、項目68に記載のコンピュータにより実装される方法。
(項目70)
前記複数の特徴が、RNAに基づく特徴、タンパク質ドメイン特徴、進化的特徴、変異性特徴、およびスプライシング調節特徴から選択される1つまたは複数のカテゴリーの特徴を含む、項目66に記載のコンピュータにより実装される方法。
(項目71)
前記タンパク質構造、タンパク質機能、RNA安定性、RNA完全性、または生物学的経路に損傷を与える1つまたは複数の選択的スプライシング事象の確率を定量的に推定するステップが、選択的スプライシングによる機能的なタンパク質ドメインの除去;選択的スプライシングによるナンセンス変異依存分解(NMD)および翻訳フレームシフト(FS);選択的スプライシング事象の変異性;選択的スプライシングの重み付けされた接近中心性;またはこれらの組合せによって引き起こされる損傷を定量的に推定することを含む、項目66に記載のコンピュータにより実装される方法。
(項目72)
前記アノテーションが、(i)公共のデータから検出されるあらゆるスプライスジャンクションのリードカバレッジ;(ii)スプライス部位が検出される頻度および試料の型;(iii)所与の選択的スプライシングバリアントが複数の公共の試料にわたって観察される可能性;(iv)選択的スプライシング事象の原発がんおよび転移における行き渡り、年齢、性別および民族性との相関、関連する生存率および再発率、ならびに分子および組織学的バイオマーカー;(v)ヒト遺伝子における選択的スプライシング事象の位置;(vi)選択的スプライシング事象の正常なヒト臓器または組織における行き渡り;(vii)カスタマイズされた特徴および予測;ならびに(viii)スプライシング調節相互作用(RBP-RNA)から選択される1つまたは複数を含む、項目66に記載のコンピュータにより実装される方法。
(項目73)
疾患状態を識別する方法であって、
(a)スプライシング因子エラーを識別するステップと、
(b)前記項目のいずれかに記載のコンピュータにより実装される方法を適用して、スプライシング因子エラーを有するまたは有さない配列決定データを解析するステップであって、前記配列決定データが、データベースに由来するものである、ステップと、
(c)前記スプライシング因子エラーによって促進される選択的スプライシング事象の一覧を出力するステップと、
を含む方法。
(項目74)
前記スプライシング因子エラーが、前記スプライシング因子の突然変異である、項目73に記載の方法。
(項目75)
前記スプライシング因子エラーが、前記スプライシング因子の異常な発現である、項目73に記載の方法。
(項目76)
前記スプライシング因子エラーが、異常なスプライシングである、項目73に記載の方法。
(項目77)
前記スプライシング因子エラーが、RNA不安定化に関連する、項目73に記載の方法。
(項目78)
前記データベースが、Cancer Genome Atlasである、項目73に記載の方法。
(項目79)
前記配列決定データが、RNA-seqデータである、項目73に記載の方法。
(項目80)
前記配列決定データが、マイクロアレイデータである、項目73に記載の方法。
(項目81)
前記疾患状態が、がん、白血病、中枢神経系の疾患、筋ジストロフィー、ホルモン障害、慢性炎症および異常な炎症からなる群から選択される、項目73に記載の方法。
(項目82)
前記疾患状態が、家族性自律神経障害(FD)、脊髄性筋萎縮症(SMA)、中鎖アシルCoAデヒドロゲナーゼ(MCAD)欠損症、ハッチンソン・ギルフォード早老症候群(HGPS)、筋強直性ジストロフィー1型(DM1)、筋強直性ジストロフィー2型(DM2)、常染色体優性網膜色素変性症(RP)、デュシェンヌ型筋ジストロフィー(DMD)、小頭症性骨異形成性原発性小人症1型(MOPD1)またはテイビ・リンダー症候群(TALS)、パーキンソニズムを伴う前頭側頭型認知症-17(FTDP-17)、福山型先天性筋ジストロフィー(FCMD)、筋萎縮性側索硬化症(ALS)、高コレステロール血症、および嚢胞性線維症(CF)からなる群から選択される、項目73に記載の方法。
(項目83)
前記疾患状態が遺伝性である、項目73に記載の方法。
(項目84)
前記疾患状態が、放射線への曝露に関連する、項目73に記載の方法。
(項目85)
前記選択的スプライシング事象の一覧が、BRCA1、BRCA2、EZH2、BIN1、BCL2L1、BCL2L11、CASP2、CCND1、CD44、ENAH、FAS、FGRF、HER2、HRAS、KLF6、MCL1、MKNK2、MSTR1、PKM、RAC1、RPS6KB1、VEGFA、IKBKAP、SMN2、MCAD、LMNA、DMPK、ZNF9、PRPF31、PRPF8、PRPF3、RP9、MAPT、TKTN、TPD-43、LDLR、CFTR、DMD、ATF2、およびU4atac snRNAをコードする遺伝子を含む群のうちの少なくとも1つの遺伝子を含む、項目73に記載の方法。
(項目86)
前記AS事象の一覧に基づいて処置レジメンが推奨される、項目73に記載の方法。
(項目87)
疾患特異的2連エクソン(exon duo)または3連エクソン(exon trio)を識別するためのコンピュータにより実装される方法であって、
(a)供給源から疾患関連遺伝子配列決定データを受け取るステップと、
(b)既知のアノテーションと新規のアノテーションを区別するステップであって、頻度、カバレッジ、および供給源を抽出する、ステップと、
(c)既知のアノテーションに基づいて前記疾患特異的2連エクソンまたは3連エクソンに信頼度スコアを割り当てるステップと、
(d)前記アノテーションをインクルージョンの状態またはスキッピングの状態に基づいてソートするステップと、
(e)予測される2連エクソンおよび/または3連エクソンの一覧を出力するステップと
を含む、コンピュータにより実装される方法。
(項目88)
前記供給源が、TCGAまたはGTEx RNA-seqデータである、項目87に記載のコンピュータにより実装される方法。
(項目89)
前記供給源が、公共のデータベースである、項目87に記載のコンピュータにより実装される方法。
(項目90)
前記信頼度スコアが、ベイズ確率モデル、薄板スプラインに基づく回帰モデルを含む群のうちの少なくとも1つを使用して算出される、項目87に記載のコンピュータにより実装される方法。
(項目91)
ステップ(d)が、前記アノテーションを5つのカテゴリーにソートすることを含む、項目87に記載のコンピュータにより実装される方法。
(項目92)
前記5つのカテゴリーが、キュレート、アノテート、予測-1、予測-2および理論上である、項目91に記載のコンピュータにより実装される方法。
(項目93)
キュレートが、インクルージョンの状態およびスキッピングの状態の両方についてEnsemblまたはRefSeqアノテーションを有する2連エクソンまたは3連エクソンを含む、項目92に記載のコンピュータにより実装される方法。
(項目94)
アノテートが、配列決定データまたは公共のリポジトリからインクルージョンの状態およびスキッピングの状態の両方が予測された2連エクソンまたは3連エクソンを含む、項目92に記載のコンピュータにより実装される方法。
(項目95)
予測-1が、配列決定データまたは公共のリポジトリからインクルージョンの状態およびスキッピングの状態の両方が予測された2連エクソンまたは3連エクソンを含む、項目92に記載のコンピュータにより実装される方法。
(項目96)
予測-2が、配列決定データまたは公共のリポジトリからインクルージョンの状態またはスキッピングの状態のいずれかが予測された2連エクソンまたは3連エクソンを含む、項目92に記載のコンピュータにより実装される方法。
(項目97)
理論上が、存在する可能性が高いが、それを裏付けるエビデンスが不十分である2連エクソンまたは3連エクソンを含む、項目92に記載のコンピュータにより実装される方法。
(項目98)
前記配列決定データがGTExである、項目94から97までに記載のコンピュータにより実装される方法。
(項目99)
前記公共のリポジトリがTCGAである、項目94から97までに記載のコンピュータにより実装される方法。
(項目100)
疾患に関連する2連エクソンまたは3連エクソンを識別する方法であって、
(a)項目87に記載のコンピュータにより実装される方法を、疾患に関連する突然変異に関するデータベース配列決定データに適用するステップと、
(b)予測される2連エクソンおよび/または3連エクソンの一覧を出力するステップと
を含む、方法。
(項目101)
前記疾患に関連する突然変異が、BRCA1、BRCA2、EZH2、BIN1、BCL2L1、BCL2L11、CASP2、CCND1、CD44、ENAH、FAS、FGRF、HER2、HRAS、KLF6、MCL1、MKNK2、MSTR1、PKM、RAC1、RPS6KB1、VEGFA、IKBKAP、SMN2、MCAD、LMNA、DMPK、ZNF9、PRPF31、PRPF8、PRPF3、RP9、MAPT、TKTN、TPD-43、LDLR、CFTR、DMD、ATF2、およびU4atac snRNAをコードする遺伝子を含む群のうちの少なくとも1つの遺伝子である、項目100に記載の方法。