IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

特許7437310RNAシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法
<>
  • 特許-RNAシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法 図1
  • 特許-RNAシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法 図2
  • 特許-RNAシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法 図3
  • 特許-RNAシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-14
(45)【発行日】2024-02-22
(54)【発明の名称】RNAシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20240215BHJP
   C12M 1/00 20060101ALI20240215BHJP
   G16B 25/10 20190101ALI20240215BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
G16B25/10
【請求項の数】 14
(21)【出願番号】P 2020547424
(86)(22)【出願日】2019-03-13
(65)【公表番号】
(43)【公表日】2021-06-24
(86)【国際出願番号】 EP2019056354
(87)【国際公開番号】W WO2019175284
(87)【国際公開日】2019-09-19
【審査請求日】2022-03-10
(31)【優先権主張番号】62/642,877
(32)【優先日】2018-03-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ウー,ジエ
(72)【発明者】
【氏名】チャン,イー ヒム
【審査官】牧野 晃久
(56)【参考文献】
【文献】米国特許出願公開第2017/0152560(US,A1)
【文献】米国特許出願公開第2016/0078168(US,A1)
【文献】米国特許出願公開第2004/0142325(US,A1)
【文献】特表2014-523406(JP,A)
【文献】詳細な注釈づけられている冗長性のない核酸データベースRefSeq,[online],2020年4月18日, [令和5年1月25日検索], インターネット<URL: https://bi.biopapyrus.jp/db/refseq.html>
【文献】ショートリードのマッピングBowtie, [online],2020年6月30日, [令和5年1月25日検索], インターネット<URL: https://bi.biopapyrus.jp/rnaseq/mapping/bowtie/>
【文献】NICOLE CLOONAN; ET AL,STEM CELL TRANSCRIPTOME PROFILING VIA MASSIVE-SCALE MRNA SEQUENCING,NATURE METHODS,2008年05月30日,VOL:5, NR:7,PAGE(S):613 - 619,http://dx.doi.org/10.1038/nmeth.1223
【文献】J. Clinical Bioinformatics,2012年,2:21, p.1-12
(58)【調査した分野】(Int.Cl.,DB名)
C12Q
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
遺伝子転写物の発現レベルを特徴づけるための方法であって、以下:
複数の遺伝子転写物のそれぞれから1つ又は複数のユニークな特徴を抽出すること;
抽出されたユニークな特徴をユニークな特徴データベースに格納すること;
1つの細胞から抽出された複数の遺伝子転写物から配列決定された複数の遺伝子転写物シーケンスデータを受け取ること;
プロセッサによって、前記複数の遺伝子転写物シーケンスデータを、前記ユニークな特徴データベースに格納された前記抽出されたユニークな特徴と比較すること;
前記遺伝子転写物シーケンスデータと抽出されたユニークな特徴との間の一致に基づいて、前記抽出された遺伝子転写物を識別すること;及び
前記識別された遺伝子転写物に基づいて遺伝子転写物発現レベルに関する情報をコンパイルすること;
を含む方法。
【請求項2】
前記ユニークな特徴が、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな転写開始位置、及び/又はユニークな転写停止位置のうちの1つ又は複数を含む、請求項1に記載の方法。
【請求項3】
前記比較することは、前記複数の遺伝子転写物シーケンスデータのそれぞれを1つ又は複数のユニークな特徴と整列させることを含む、請求項1に記載の方法。
【請求項4】
識別された遺伝子転写物を定量化するステップをさらに含む、請求項1に記載の方法。
【請求項5】
前記複数の遺伝子転写物シーケンスデータを取得するために、1つ又は複数の細胞から抽出された複数の遺伝子転写物をシーケンシングするステップをさらに含む、請求項1に記載の方法。
【請求項6】
前記ユニークな特徴データベースにおいて、前記抽出されたユニークな特徴の少なくともいくつかを注釈情報に関連付けるステップをさらに含む、請求項1に記載の方法。
【請求項7】
前記ユニークな特徴データベースが、完全な遺伝子転写物ではなく、抽出されたユニークな特徴を含む、請求項1に記載の方法。
【請求項8】
前記識別するステップは、前記識別された遺伝子転写物が前記抽出された遺伝子転写物である確率を求めることを含む、請求項1に記載の方法。
【請求項9】
遺伝子転写物シーケンスデータが2つの異なる遺伝子転写物から抽出されたユニークな特徴と一致し、且つ前記識別するステップが、前記抽出された、又は抽出された可能性のある2つ以上の遺伝子転写物を識別することを含む、請求項1に記載の方法。
【請求項10】
遺伝子転写物発現レベルを特徴づけるためのシステムであって、以下
数の遺伝子転写物のそれぞれからユニークな特徴を抽出するように構成された特徴抽出モジュール;
複数の遺伝子転写物の前記それぞれから抽出された前記ユニークな特徴を格納するように構成されたデータベース;
1つの細胞から抽出された複数の遺伝子転写物から配列決定された複数の遺伝子転写物シーケンスデータを受け取るように構成されたプロセッサ;
(i)前記遺伝子転写物シーケンスデータを、前記ユニークな特徴データベースに格納された前記抽出されたユニークな特徴と比較するように、且つ(ii)前記遺伝子転写物シーケンスデータと抽出されたユニークな特徴との間の一致に基づいて、前記抽出された遺伝子転写物を識別するように構成された比較モジュール;及び
前記識別された遺伝子転写物に基づいて遺伝子転写物発現レベルに関する情報をコンパイルするように構成されたコンパイルモジュール;
を含むシステム。
【請求項11】
前記特徴抽出モジュールは、前記抽出されたユニークな特徴の少なくともいくつかを注釈情報に関連付けるようにさらに構成される、請求項10に記載のシステム。
【請求項12】
前記ユニークな特徴データベースに格納された前記ユニークな特徴が、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな転写開始位置、及び/又はユニークな転写停止位置のうちの1つ又は複数を含む、請求項10に記載のシステム。
【請求項13】
前記比較することは、前記複数の遺伝子転写物シーケンスデータのそれぞれを1つ又は複数のユニークな特徴と整列させることを含む、請求項10に記載のシステム。
【請求項14】
遺伝子転写物シーケンスデータが2つの異なる遺伝子転写物から抽出されたユニークな特徴と一致し、且つ前記識別するステップが、前記抽出された、又は抽出された可能性のある2つ以上の遺伝子転写物を識別することを含む、請求項10に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、遺伝子転写物におけるユニークな特徴を使用して遺伝子転写物発現レベルを特徴づけるための方法及びシステムに向けられている。
【背景技術】
【0002】
バックグラウンド
RNAシーケンシングはトランスクリプトーム研究にとって重要なツールである。このハイスループット技術は、以前の技術と比較して、より広いダイナミックレンジで新規で低発現の転写産物を検出する機能など、いくつかの利点を提供する。
【0003】
真核生物のタンパク質の多様性は、トランスクリプトームの複雑さを大幅に増加させる選択的スプライシングによって大幅に増加する。例えば、マルチエクソンのヒト遺伝子の90%以上が選択的スプライシングを経験していると推定されており、その多くはRNAシーケンシングデータによって明らかにされている。これらの転写変異体の発現は高度に調節されており、さまざまな組織もしくは発達段階、及び腫瘍もしくは疾患で異なって発現している。結果として、RNAシーケンシングデータから遺伝子及び転写産物の発現を推定することは、基礎的及び臨床的なバイオインフォマティクス研究において重要な要素である。
【0004】
しかしながら、RNAシーケンシングデータから遺伝子及び転写産物の発現を推定することは困難である。例えば、多くの遺伝子は1より多い転写産物を発現するため、それらが由来する転写産物にシーケンシングリードを割り当てることは、いずれの転写産物発現推定プログラムが解決しなければならない主要な問題である。他の課題には、例えば、読み取りカバレッジの不均一な分布などが含まれる。
【0005】
現在のツールは、異なる発現されたアイソフォームの構造を解明し、且つRNA配列決定データに基づいてそれらの発現レベルを推定しようと試みる。例えば、一部のソフトウェアは、すべてのフラグメントを識別しようとして、RNAシーケンシングリードを最小数の転写産物にアセンブルでき、そして次に生成統計モデルを利用して転写産物の存在量を推定する。他の分析ソフトウェアは、読み取りをゲノムではなくトランスクリプトームに直接マッピングし、そして次にモデルを使用して読み取りを異なるアイソフォームに割り当てる。
【0006】
しかしながら、これらの現在のツールは、RNAシーケンシングデータを分析するときに直面するすべての課題を解決するわけではない。例えば、ツールは典型的には、転写開始部位から転写停止部位までのRNAシーケンスリード全体を調べるが、これには時間がかかり、計算効率が悪い。さらに、小さな条件付きRNAや低品質のRNAシーケンスデータなど、トランスクリプトーム構造の解決の複雑さが増すにつれて、フルRNAシーケンスの読み取りに依存するツールの効果は低下する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
開示の概要
RNA配列決定データから遺伝子転写物発現レベルを効果的かつ効率的に決定するツールに対する継続的な必要性が存在する。
【課題を解決するための手段】
【0008】
本開示は、RNAシーケンシングデータから遺伝子転写物発現レベルを特徴づけるための本発明の方法及びシステムに関する。本明細書の様々な実施形態及び実装は、とりわけ、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな開始位置、及び/又はユニークな停止位置を包含するがこれらに限定されない、遺伝子転写物からユニークな特徴を抽出するシステムを対象とする。システムは、遺伝子転写物を受信又は配列決定し、その配列を、ユニークな特徴データベースに保存されている抽出されたユニークな特徴と比較する。これらの配列と抽出されたユニークな特徴とのマッチングに基づいて、システムは遺伝子転写物を識別し、且つ遺伝子転写物の発現レベルに関する情報をコンパイルする。
【0009】
一般に、一態様では、遺伝子転写物発現レベルを特徴づけるための方法が提供される。当該方法は、以下:
(i)複数の遺伝子転写物のそれぞれから1つ又は複数のユニークな特徴を抽出すること、
(ii)抽出されたユニークな特徴をユニークな特徴データベースに保存すること、
(iii)遺伝子転写物から配列決定された複数の配列を受け取ること、ここで、前記配列の少なくともいくつかは、抽出されたユニークな特徴の1つ又は複数を含むこと、
(iv)プロセッサによって、前記複数の配列を、前記ユニークな特徴データベースに格納されている前記抽出されたユニークな特徴と比較すること、
(v)配列と抽出されたユニークな特徴との一致に基づいて、前記配列が生成された遺伝子転写物を特定すること、
(vi)前記同定された遺伝子転写物に基づいて転写物発現レベルに関する情報をコンパイルすること、
を含む。
【0010】
一実施形態によれば、前記ユニークな特徴は、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな開始位置、及び/又はユニークな停止位置のうちの1つ又は複数を含む。
【0011】
一実施形態によれば、比較することは、遺伝子転写物から配列決定された複数の配列のそれぞれを1つ又は複数のユニークな特徴と整列させることを含む。
【0012】
一実施形態によれば、当該方法は、RNAシーケンシングのためのサンプルを提供するステップをさらに含む。
【0013】
一実施形態によれば、当該方法は、前記複数の配列を生成するために、1つ又は複数の細胞からの遺伝子転写物をシーケンシングするステップをさらに包含する。
【0014】
一実施形態によれば、当該方法は、前記ユニークな特徴データベースにおいて、前記抽出されたユニークな特徴の少なくともいくつかを注釈情報に関連付けるステップをさらに包含する。
【0015】
一実施形態によれば、前記ユニークな特徴データベースは、完全な遺伝子転写物ではなく、抽出されたユニークな特徴を含む。
【0016】
一実施形態によれば、識別するステップは、識別された遺伝子転写物が、前記配列が生成された転写物である確率を含む。
【0017】
一実施形態によれば、前記配列は、2つの異なる遺伝子から抽出されたユニークな特徴と一致し、且つ識別するステップは、前記配列が生成された、又は生成された可能性のある2つ以上の遺伝子転写物を識別することを含む。
【0018】
一態様によれば、遺伝子転写物発現レベルを特徴づけるためのシステムである。当該システムは、以下:
複数の遺伝子転写物のそれぞれから抽出されたユニークな特徴のデータベース、
遺伝子転写物から配列決定された複数の配列を、(i)前記ユニークな特徴データベースに保存された抽出されたユニークな特徴と比較するように、且つ(ii)配列と抽出されたユニークな特徴との間の一致に基づいて、前記配列が生成された遺伝子転写物を識別するように構成された比較モジュール、及び
前記識別されたしき遺伝子転写物に基づいて遺伝子転写物発現レベルに関する情報をコンパイルするように構成されたコンパイルモジュール、
を包含する。
【0019】
一実施形態によれば、当該システムは、前記複数の遺伝子転写物から前記ユニークな特徴を抽出するように構成された特徴抽出モジュールをさらに包含する。一実施形態によれば、前記特徴抽出モジュールは、前記抽出されたユニークな特徴の少なくともいくつかを注釈情報に関連付けるようにさらに構成される。
【0020】
様々な実装形態では、プロセッサ又はコントローラは、1つ又は複数の記憶媒体(一般に、本明細書では「メモリ」と呼ばれる、例えば、RAM、PROM、EPROM、及びEEPROMなどの揮発性及び不揮発性コンピュータメモリ、フロッピーディスクコンパクトディスク、光ディスク、磁気テープなど)。いくつかの実装形態では、記憶媒体は、1つ又は複数のプロセッサ及び/又はコントローラ上で実行されると、本明細書で論じられる機能の少なくともいくつかを実行する1つ又は複数のプログラムで符号化され得る。本明細書で論じられる様々な実施形態の様々な態様を実施するために、そこに記憶された1つ又は複数のプログラムをプロセッサ又はコントローラにロードできるように、様々な記憶媒体hをプロセッサ又はコントローラ内に固定することができるか、又は可搬性にすることができる。「プログラム」又は「コンピュータプログラム」という用語は、本明細書では、一般的な意味で使用され、1つ又は複数のプロセッサ又はコントローラをプログラムするために利用できるいずれのタイプのコンピュータコード(例えば、ソフトウェア又はマイクロコード)を指す。
【0021】
前述の概念及び以下でより詳細に論じられる追加の概念のすべての組み合わせ(そのような概念が相互に矛盾しないという条件で)は、本明細書に開示される本発明の主題の一部であると考えられることを理解されたい。特に、本開示の終わりに現れるクレームされた主題のすべての組み合わせは、本明細書に開示された本発明の主題の一部であると考えられる。参照により組み込まれるいずれの開示にも現れる可能性のある、本明細書で明示的に使用される用語は、本明細書で開示される特定の概念と最も一致する意味を与えられるべきであることも理解されたい。
【0022】
様々な実施形態のこれら及び他の態様は、以下に説明する実施形態(複数可)から明らかであり、参照して解明されるであろう。
【0023】
図面の簡単な説明
図面では、同様の参照文字は通常、異なるビュー全体で同じ部分を参照する。また、図面は必ずしも縮尺どおりではなく、代わりに、一般に、様々な実施形態の原理を説明することに重点が置かれている。
【図面の簡単な説明】
【0024】
図1図1は、一実施形態による、遺伝子発現レベルを特徴づけるための方法のフローチャートである。
図2図2は、一実施形態による、遺伝子転写物のユニークな特徴を使用する転写物発現推定の概略図である。
図3図3は、一実施形態による、遺伝子又は遺伝子転写物発現レベルの特徴付けのためのシステム及び方法の概略図である。
図4図4は、一実施形態による、遺伝子発現レベルを特徴づけるためのシステムの概略図である。
【発明を実施するための形態】
【0025】
実施形態の詳細な説明
本開示は、遺伝子転写物から抽出されたユニークな特徴を使用して、遺伝子転写物発現レベルに関する情報をコンパイルするためのシステム及び方法の様々な実施形態を説明する。より一般的には、出願人は、RNAシーケンシングデータを使用して遺伝子転写物発現レベルの迅速かつ効率的な特徴付けを可能にするシステムを提供することが有益であることを認識し、理解している。当該システムは、他の多くのユニークな特徴の中でも、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな開始位置、及び/又はユニークな停止位置を包含するがこれらに限定されない、遺伝子転写物から抽出されたユニークな特徴を格納するユニークな特徴データベースを含む。当該システムは、遺伝子転写物を受信又は配列決定し、且つその配列を、前記ユニーク特徴データベースで抽出されたユニークな特徴と比較する。配列の少なくとも一部が1つ又は複数の抽出されたユニークな特徴と一致する場合、配列が生成された遺伝子転写物が識別される。このようにして、システムは、RNAシーケンシングデータのソースから遺伝子転写産物の発現レベルに関する情報をコンパイルすることができる。
【0026】
図1を参照すると、一実施形態では、RNAシーケンシングデータを使用して遺伝子転写物発現レベルを特徴づけるための方法100のフローチャートである。当該方法のステップ110で、遺伝子転写物からユニークな特徴が抽出される。一実施形態によれば、標的又は調査されたトランスクリプトーム中のほとんど又はすべての転写物について、当該システムは、シーケンシングによって得られた、及び/又は遺伝子分析に基づいて同定された転写物をスキャンすることができ、且つこれらのトランスクリプトを比較して、ユニークな機能を識別できる。当該システムは、この比較に基づいて、単一の遺伝子からの転写及び/又は選択的スプライシングから生じることが見出されたユニークな特徴のみを利用することができる。あるいは、当該システムは、2つ以上の遺伝子からの転写及び/又は選択的スプライシングから生じることが見出されたユニークな特徴を利用し得る。例えば、本明細書に記載又は他の方法で想定される方法について十分にユニークな特徴として識別される前及び/又は後に、機能が見つかる可能性のある遺伝子又は選択的スプライスの数を決定するための閾値が存在する場合がある。
【0027】
ユニークな特徴は、RNAが転写される遺伝子のスプライシングから生じるRNA配列のパラメータである。多くの場合、パラメータは、RNAが転写される遺伝子の選択的スプライシングから生じる。例えば、遺伝子転写物のユニークな特徴は、遺伝子からの転写物のサブセットにユニークなエクソンである可能性があるユニークなエクソンに起因する可能性がある。遺伝子転写物のユニークな特徴は、他のプロセスの中でのエクソンスキッピングなど、1つの遺伝子からの転写物のサブセットに特有のエクソンジャンクションである可能性がある、ユニークなエクソンジャンクションに起因する可能性がある。遺伝子転写物のユニークな特徴は、転写物に保持されている1つ又は複数のイントロンに起因し得るユニークなイントロン保持イベントに起因し得る。遺伝子からの異なる転写物は、遺伝子に沿った異なる位置で開始及び/又は終了する可能性があるため、遺伝子転写物のユニークな特徴は、ユニークな転写開始及び/又は停止部位に起因し得る。
【0028】
本明細書に記載されるように、これらのユニークな識別子を定量化することは、典型的にはRNAシーケンシングデータから生じるデコンボリューション(deconvolution)問題を効果的に解決することができる。例えば、分解されたRNAがシーケンスされた場合でも、ユニークな機能が十分な読み取りでカバーされている限り、転写産物の発現をそれに応じて評価できる。さらに、抽出されたユニークな特徴は、RNAシーケンシングデータが取得された生物のトランスクリプトーム全体に見られる全情報のサブセットのみを含む場合がある。これにより、既存のシステムが直面する問題の多くがさらに解決され、計算時間が大幅に短縮される。また、大量のRNAシーケンシングデータを短時間で迅速にスクリーニングすることもできる。
【0029】
方法のステップ120で、抽出されたユニークな特徴は、ユニークな特徴データベースに格納される。ユニークな特徴データベースは、システムの一部である場合もあれば、システムから離れた場所にある場合もある。例えば、ユニークな特徴データベースは、システムのプロセッサ又は他のコンポーネントに関連付けられたデータベース又はメモリであり得る。あるいは、ユニークな特徴データベースは、RNAシーケンシングデータを特徴づけるためにユニークな特徴を使用してシステムから遠隔的に保持されるデータベース又はメモリであり得る。例えば、生成されたユニークな特徴データベースは、1つ又は複数のシステムによって利用され得、その一部又はすべては、本明細書に記載又は他の方法で想定される分析を実行するために、データベース又はメモリに対して分散化され得る。したがって、システムは、システムとリモートデータベースもしくはメモリとの間の通信を容易にする有線及び/又は無線通信システムを含むことができるか、そうでなければ通信することができる。抽出されたユニークな特徴は、検索及びダウンストリーム使用のためにユニークな特徴データベースに保存され得るか、又は抽出されたユニークな特徴に対するRNAシーケンシングデータの迅速な検索及び/又は比較又は整列を可能にするフォーマットでユニークな特徴データベースに保存され得る。一実施形態によれば、ユニークな特徴データベースは、完全な遺伝子転写物ではなく抽出されたユニークな特徴を含み、これは、遺伝子及び/又は遺伝子転写物の迅速な同定を容易にする。
【0030】
方法のステップ122において、ユニークな特徴データベースにおける1つ又は複数のユニークな特徴は、注釈情報に関連付けられる。例えば、ユニークな特徴は、それが抽出された遺伝子に関する情報、及び/又はそれが抽出された転写物からの情報で、メモリ内でラベル付け、タグ付け、マーク付け、又は他の方法で関連付けられ得る。注釈情報は、ゲノム内のユニークな特徴又は関連する転写物の位置に関する情報、ユニークな特徴が抽出された生物に関する情報、ユニークな特徴が抽出された遺伝子の選択的スプライシングに関する情報、及び/又はユニークな特徴のソース、ユニークな特徴の位置などに関する他の情報を含み得る
【0031】
当該方法のステップ130で、RNAが配列決定されるか、又はRNAシーケンシングデータが取得される。例えば、RNAは、リボ核酸を含むか、又はリボ核酸を潜在的に含むサンプルから配列決定され得る。したがって、一実施形態によれば、方法のステップ128において、サンプルは、核酸抽出及び分析のために提供される。サンプルは、細菌、ウイルス、真菌などの1つ又は複数の微生物の1つ又は複数の細胞から、及び/又は他の多くのソースの中でも特に植物又は動物から、リボ核酸を構成し得る。サンプルは、1つの生物又は複数の生物からのリボ核酸分子を含み得る。サンプルは、臨床現場、環境、屋内又は屋外の表面、又はその他のソースから取得できる。サンプルのソース、又はサンプル中のリボ核酸(複数可)に制限がないことが認識されている。サンプル及び/又はその中のリボ核酸は、シーケンシングプラットフォームに少なくとも部分的に依存し得るいずれの調製方法を使用してシーケンシングのために調製され得る。一実施形態によれば、リボ核酸は、他の多くの調製物又は処理の中でも、抽出、精製、及び/又は増幅され得る。
【0032】
当該システムは、サンプルからリボ核酸の少なくとも一部を配列決定するように構成されたシーケンシングプラットフォームを含み得る。リボ核酸を配列決定するためのいずれの方法及び/又はプラットフォームを利用して、RNAシーケンシングデータを取得することができる。したがって、シーケンシングプラットフォームは、本明細書に記載又は他の方法で想定されるいずれのシステムを包含するがこれらに限定されない、いずれのシーケンシングプラットフォームであり得る。一実施形態によれば、シーケンシングプラットフォームは、下流の分析及び特徴付けのためのコントローラ又は他の分析モジュールを含み得る。別の一実施形態によれば、シーケンシングプラットフォームは、生成されたRNAシーケンシングデータを、リアルタイムで、又は特定の時点で、ローカル又はリモートコントローラ又は他の分析モジュールに伝達して、ダウンストリームの分析と特性評価を行う。
【0033】
あるいは、システムは、リモートシーケンシングプラットフォームから、又は保存されたRNAシーケンシングデータを含むデータベースもしくはメモリから、RNAシーケンシングデータを検索又は受信することができる。例えば、システムは、保存されたRNAシーケンシングデータを含むローカル及び/又は遠隔のデータベース又はメモリと通信していてもよく、又はRNAシーケンシングデータのアップロード又は他の配信を受信し得る。したがって、本明細書に記載又は他の方法で想定される分析は、RNAシーケンシングデータが得られるときに実行され得、及び/又はRNAシーケンシングデータが得られた後に得られ得る。
【0034】
方法のステップ140において、システムは、配列決定された、又は得られた配列を、ユニークな特徴データベースに格納された抽出されたユニークな特徴と比較する。例えば、システムは、配列決定又は取得された配列を、ユニークな特徴データベースに格納された抽出されたユニークな特徴と比較するように構成又はプログラムされたプロセッサ又は他のコンピューティングコンポーネントを含み得る。比較は、例えば、配列決定された、又は取得された配列を、ユニークな特徴データベース又はメモリ又はプロセッサのいずれかで、抽出されたユニークな特徴の1つ又は複数に整列させることによって実行され得る。
【0035】
一実施形態によれば、システムは、アルゴリズムを利用して、配列決定された、又は得られた配列を、抽出されたユニークな特徴と比較することができる。例えば、ペアエンドRNAシーケンシングデータを使用してエクソン包含レベルを定量化するSpliceTrap、又はサンプル全体で差次的に調節されたアイソフォーム又はエクソンを識別するMISO(Mixture-of-Isoforms)などのスプライシング定量化アルゴリズムは、オプションで変更して使用できる。例えば、スプライシング定量化アルゴリズムは、RNAシーケンシングリードからの既知又は新規の選択的スプライシングイベントを定量化できる。これらは、ユニークな特徴の定量化に適用可能であり、ユニークな特徴の比率及び発現を推定するために使用及び/又は変更することができる。エクソンジャンクションと特徴的な領域の読み取りが重要になる可能性があり、アルゴリズムを使用して最適なソリューションを見つけることができる。一実施形態によれば、カセットエクソンは、特定の転写物において代替的にスキップされ得、その封入率及び発現レベルは、中間エクソン(複数可)及び/又はエクソンジャンクションにおける読み取りを調べることによって調査され得る。
【0036】
当該方法のステップ150において、配列が生成された遺伝子転写物は、配列と抽出されたユニークな特徴との間の一致に基づいて識別及び/又は定量化される。一実施形態によれば、遺伝子転写物の確実な同定のための閾値又は確率的要件があり得、これは、必要に応じて、同定されたユニークな特徴(複数可)の質、固有の特徴の量、及び/又は他のパラメータに基づくことができる。一実施形態によれば、システムは、それらを識別する間、又はそれらを識別することに加えて、遺伝子転写物を定量化する。例えば、システムは、識別された遺伝子転写物をカウント、追跡、記録、又はその他の方法で定量化する。これにより、ユニークな特徴から測定された相対的な発現に基づいて、遺伝子転写物の発現に関する情報が容易になる。例えば、スプライシング定量化アルゴリズムを使用して、遺伝子転写物を定量化することができる。
【0037】
一実施形態によれば、配列は、2つ以上の異なる遺伝子転写物から抽出された1つ以上のユニークな特徴と一致する。例えば、いくつかの実施形態では、短い配列は、いくつかの異なる遺伝子転写物に見られるユニークな特徴を含み得るが、完全な転写物を区別することができる追加の配列情報を欠いている。したがって、識別するステップ150は、配列が生成された、又は生成され得た可能性のある2つ以上の転写物を識別することを含み得る。システムは、明確に定義できる、又は複数の転写物を潜在的に同定する配列を報告することができる転写物のみを報告するように構成することができる。
【0038】
図2を参照すると、一実施形態では、遺伝子転写物のユニークな特徴を使用する転写物発現推定の概略図200である。遺伝子10は、少なくとも3つの異なる転写物(n1、n2、及びn3)を包含し、そのそれぞれが異なるエクソン20のセットを包含する。一実施形態によれば、この遺伝子の3つの異なる転写物は、2つのユニークな特徴30、1つのスキップされたエクソン50及び1つの代替スプライス部位60、によって識別され得る。例えば、ユニークな特徴50が比較42に存在し、読み取りがn2対n1又はn3であることの識別を可能にする。別の例として、ユニークな特徴60が比較44に存在し、これは、読み取りがn3対n1又はn2であることの識別を可能にする。転写産物n1、n2、及びn3の発現は、各特徴を個別に調べてから、観察結果を組み合わせることで解決できる。
【0039】
方法のステップ160で、システムは、分析されたRNA配列から同定された遺伝子転写物及び/又は遺伝子に基づいて、遺伝子転写物及び/又は遺伝子発現レベルに関する情報をコンパイルする。一実施形態によれば、システムは、各配列が方法のステップ150で識別されるときに、特定の遺伝子転写物又は遺伝子を追跡、記録、保存、又はさもなければカウントすることができる。転写産物の発現レベルは、他の多くのフォーマットの中でもFPKM値などの標準フォーマットを包含する、いずれのフォーマットで要約できる。特徴の定量化が収集及び要約され、特徴と転写物との関係に基づいて転写物の発現が解釈される。複雑なケースでは、線形モデルを使用して行列を解くことができる。トランスクリプト全体で読み取りが不均一に分布しているために、異なる機能から要約された結果の間に矛盾がある場合は、平均や最大などの特定の代表値を使用できる。一実施形態によれば、コンパイルは、ユニークな特徴データベースからの注釈情報を含む。一実施形態によれば、システムは、同定された転写物が配列が生成された転写物である確率を含む確率情報として、又は確率情報とともに転写物発現レベルを報告することができる。
【0040】
本明細書に記載されるように、抽出されたユニークな特徴は、特定の遺伝子転写物及び/又は遺伝子発現プロファイルのマーカーとして使用することができる。ユニークな機能を使用する利点の1つは、遺伝子レベルとスプライシングレベルの両方からのビューを組み合わせることができることである。さらに、1つの遺伝子からのユニークな特徴の定量化を使用して、その遺伝子からの転写産物の発現パターンをモデル化することができる。実際、これは、転写産物の実際の発現値を知らなくても実行できる。
【0041】
図3を参照することは、本明細書に記載されるか、さもなければ想定される、遺伝子転写物発現レベルの特徴付けのためのシステム及び方法の概略図300である。システムは、本明細書に記載されるか、さもなければ想定されるように、遺伝子構造310から抽出されるユニークな特徴322を含むユニークな特徴データベース320を包含する。ユニークな特徴データベース320はまた、抽出されたユニークな特徴322に関連する1つ又は複数の特徴注釈324を含み得る。複数のRNAシーケンシングリード330は、シーケンシング又はシーケンシングデータの受信のいずれかによって取得され、340で、ユニークな特徴データベース320内で抽出されたユニークな特徴322と比較される。転写物発現レベル350は、ユニークな特徴データベース320内の特徴注釈を使用して、遺伝子及び/又は遺伝子転写物をコンパイル、要約、又は他の方法で特徴付けることによって得られる。
【0042】
図4を参照することは、一実施形態では、遺伝子転写物発現レベルを特徴づけるためのシステム400の概略図である。システム400は、1つ又は複数のシステムバス410を介して相互接続された、プロセッサ420、メモリ426、ユーザインターフェース440、通信インターフェース450、及びストレージ460のうちの1つ又は複数を包含する。システムがシーケンサー又はシーケンシングプラットフォームを含むか又は実装するものなどのいくつかの実施形態では、ハードウェアは、いずれのシーケンサー又はシーケンシングプラットフォームであり得る追加のシーケンシングハードウェア415を包含し得る。図4は、いくつかの点で抽象化を構成し、システム400の構成要素の実際の構成は、図示されたものとは異なり、より複雑であり得ることが理解されよう。
【0043】
一実施形態によれば、システム400は、メモリ426又はストレージ460に格納された命令を実行することができるか、さもなければデータを処理することができるプロセッサ420を備える。プロセッサ420は、方法の1つ又は複数のステップを実行し、且つ本明細書で説明又は他の方法で想定されるモジュールの1つ又は複数を含むことができる。プロセッサ420は、1つ又は複数のモジュールから形成され得、且つ例えば、メモリ426を含むことができる。プロセッサ420は、マイクロプロセッサ、マイクロコントローラ、複数のマイクロコントローラ、回路、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、単一プロセッサー、又は複数プロセッサを包含するがそれらに限定されない、いずれの好適な形態をとることができる。
【0044】
メモリ426は、不揮発性メモリ及び/又はRAMを包含する、いずれの好適な形態をとることができる。メモリ426は、例えば、キャッシュ又はシステムメモリなどの様々なメモリを包含することができる。したがって、メモリ426は、静的ランダムアクセスメモリ(SRAM)、動的RAM(DRAM)、フラッシュメモリ、読み取り専用メモリ(ROM)、又は他の同様のメモリデバイスを包含することができる。メモリは、とりわけ、オペレーティングシステムを格納できる。RAMは、データを一時的に保存するためにプロセッサによって使用される。一実施形態によれば、オペレーティングシステムは、プロセッサによって実行されると、システム400の1つ又は複数のコンポーネントの動作を制御するコードを含むことができる。プロセッサが本明細書に記載の1つ又は複数の機能を実装する実施形態では、他の実施形態でそのような機能に対応すると説明されているソフトウェアを省略できることは明らかであろう。
【0045】
ユーザインターフェース440は、管理者などのユーザとの通信を可能にするための1つ又は複数のデバイスを包含し得る。ユーザインターフェースは、情報の伝達及び/又は受信を可能にする任意のデバイス又はシステムであり得、ユーザーコマンドを受信するためのディスプレイ、マウス、及び/又はキーボードを包含し得る。いくつかの実施形態では、ユーザインターフェース440は、通信インターフェース450を介して遠隔端末に提示され得るコマンドラインインターフェース又はグラフィカルユーザインターフェースを包含し得る。ユーザインターフェースは、システムの他の1つ以上の構成要素と共に配置され得るか、又はシステムから離れた場所に配置され、有線及び/又は無線通信ネットワークを介して通信される。
【0046】
通信インターフェース450は、他のハードウェアデバイスとの通信を可能にするための1つ又は複数のデバイスを包含し得る。例えば、通信インターフェース450は、イーサネットプロトコルに従って通信するように構成されたネットワークインターフェースカード(NIC)を包含し得る。さらに、通信インターフェース450は、TCP/IPプロトコルに従った通信のためのTCP/IPスタックを実装することができる。通信インターフェース450のための様々な代替又は追加のハードウェア又は構成が明らかになるであろう。
【0047】
ストレージ460は、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスクストレージメディア、光ストレージメディア、フラッシュメモリデバイス、又は同様のストレージメディアなどの1つ又は複数の機械可読ストレージメディアを含み得る。様々な実施形態では、ストレージ460は、プロセッサ420による実行のための命令、又はプロセッサ420が動作することができるデータを格納することができる。例えば、ストレージ460は、システム400の様々な動作を制御するためのオペレーティングシステム461を格納することができる。システム400がシーケンサを実装し、且つシーケンシングハードウェア415を包含する場合、ストレージ460は、シーケンシングハードウェア415を操作するためのシーケンシング命令462を包含することができる。一実施形態によれば、ストレージ460は、本明細書に記載又は他の方法で想定される方法に従って抽出された固有の特徴データベース464を包含し得る。
【0048】
ストレージ460に格納されていると説明される様々な情報が、メモリ426に追加的又は代替的に格納され得ることは明らかであろう。この点において、メモリ426はまた、ストレージデバイスを構成すると見なされ得、ストレージ460は、メモリと見なされ得る。他のさまざまな取り決め(arrangements)が明らかになる。さらに、メモリ426及びストレージ460は両方とも、非一時的な機械可読媒体であると見なされ得る。本明細書で使用される場合、非一時的という用語は、一時的信号を除外するが、揮発性及び不揮発性メモリの両方を含むすべての形態の記憶を包含すると理解されるであろう。
【0049】
システム400は、説明された各コンポーネントのうちの1つを包含するものとして示されているが、様々なコンポーネントは、様々な実施形態で複製され得る。例えば、プロセッサ420は、本明細書に記載の方法を独立して実行するように構成された、又は複数のプロセッサが協力して本明細書に記載の機能を達成するように本明細書に記載の方法のステップ又はサブルーチンを実行するように構成された複数のマイクロプロセッサを包含し得る。さらに、システム400がクラウドコンピューティングシステムに実装されている場合、様々なハードウェアコンポーネントは、別個の物理システムに属していてもよい。例えば、プロセッサ420は、第1のサーバに第1のプロセッサを包含し、第2のサーバに第2のプロセッサを包含し得る。他の多くのバリエーションと構成が可能である。
【0050】
一実施形態によれば、プロセッサ420は、本明細書に記載又は他の方法で想定される方法の1つ又は複数の機能又はステップを実行するための1つ又は複数のモジュールを備える。例えば、プロセッサ420は、特徴抽出モジュール422、比較モジュール424、及び/又はコンパイルモジュール428を含み得る。一実施形態によれば、特徴抽出モジュール422は、遺伝子及び/又は遺伝子転写物を分析して、RNAが転写される遺伝子のスプライシングから生じるRNA配列の1つ又は複数のパラメータを同定する。RNAが転写される遺伝子の選択的スプライシングが含まれるがこれに限定されない。ユニークな特徴は、遺伝子及び/又は遺伝子転写物から特徴を識別するためのいずれのプロセスを使用して抽出することができる。一実施形態によれば、システムは、単一の遺伝子からの転写及び/又は選択的スプライシングから生じることが見出されるユニークな特徴のみを利用することができる。あるいは、システムは、2つ以上の遺伝子からの転写及び/又は選択的スプライシングから生じることが見出されたユニークな特徴を利用し得る。例えば、特徴が、本明細書に記載又は他の方法で想定される方法に対して十分にユニークな特徴として識別されるか、又は識別されない前及び/又は後に見出され得る遺伝子又は代替スプライスの数を決定するための閾値があり得る。他の多くの特徴の中で、抽出されたユニークな特徴は、ユニークなエクソンジャンクション、ユニークなイントロン保持イベント、ユニークな転写開始及び/又は停止部位、及び他の多くの結果である可能性があります。一度抽出されると、ユニークな特徴は、ユニークな特徴データベース464又は他のメモリに格納され得る。いくつかの実施形態では、ユニークな特徴は、システムの他の1つ又は複数のコンポーネントからリモートで格納される。
【0051】
一実施形態によれば、プロセッサ420は、比較モジュール424を備える。一実施形態によれば、比較モジュール424は、配列決定又は取得された配列を、ユニークな特徴データベース464に格納された抽出されたユニークな特徴と比較する。例えば、比較は、RNA配列を、ユニークな特徴データベース又はメモリ又はプロセッサのいずれかで、抽出されたユニークな特徴の1つ又は複数に整列させることによって、実行され得る。一実施形態によれば、システムは、アルゴリズムを利用して、配列を抽出されたユニークな特徴と比較することができる。比較モジュール424は、配列と抽出されたユニークな特徴との間の一致に基づいて、配列が生成された遺伝子転写物を識別し得、及び/又は遺伝子転写物が転写された遺伝子を識別し得る。一実施形態によれば、遺伝子転写物及び/又は遺伝子のポジティブな同定のための閾値又は確率的要件があり得、これは、必要に応じて、同定されたユニークな特徴(複数可)の質、ユニークな特徴の量、及び/又は他のパラメータに基づくことができる。比較モジュール424は、遺伝子転写物をカウント、追跡、記録、又はさもなければ定量化することができ、これは、ユニークな特徴から測定された相対的発現に基づく遺伝子転写物発現に関する情報を容易にする。比較モジュール424は、他の方法の中でもとりわけ、スプライシング定量化アルゴリズムを利用して、遺伝子転写物を定量化することができる。
【0052】
一実施形態によれば、プロセッサ420は、コンパイルモジュール428を備える。一実施形態によれば、コンパイルモジュール428は、配列が生成された又は転写された、識別された遺伝子転写物及び/又は識別された遺伝子に基づいて、遺伝子転写物及び/又は遺伝子発現レベルに関する情報をコンパイル又は要約する。一実施形態によれば、システムは、各配列が分析されるときに、特定の遺伝子転写物又は遺伝子を追跡、記録、保存、又はさもなければカウントすることができる。転写産物の発現レベルは、他の多くのフォーマットの中でもFPKM値などの標準フォーマットを包含する、いずれのフォーマットで要約できる。一実施形態によれば、コンパイルモジュール428は、識別された遺伝子転写物及び/又は識別された遺伝子に関連するユニークな特徴データベースから注釈情報を検索、コンパイル、及び/又は要約する。
【0053】
一実施形態によれば、本明細書に記載又は他の方法で想定されるシステムは、効率及び精度の両方において、既存のシステムに勝る重要な機能的利点を提供する。例えば、遺伝子転写産物の同定を改善することにより、システムは既存のシステムに比べて大幅な計算効率を提供する。転写産物からのすべての読み取りではなく、小さな領域の情報のみを使用することにより、遺伝子発現の推定が単純化され、局所的な重要な要素が定量化される。これにより、システムはRNAシーケンシングデータの改善されたハイスループットスクリーニングを実行できる。
【0054】
別の実施形態によれば、本明細書に記載又は他の方法で想定されるシステムは、低品質のRNAシーケンシングデータ及びscRNAシーケンシングデータで一般的である不完全なRNAからの転写物発現レベルの決定を可能にすることによって既存のシステムを改善する。本明細書に記載のアプローチは、転写が非常に高い又は非常に低い領域から生じるバイアスを回避する。
【0055】
別の一実施形態によれば、本明細書に記載又は他の方法で想定されるシステムは、ユニークな特徴が表現型と相関している既存のシステムを改善する。遺伝子発現と比較して、これらの特徴の定量化は、より高い解像度のプロファイルを提供する。これらの局所測定でより詳細なパターンを明らかにできるため、ユニークな特徴が未知の転写変異体の影響を捉えることができる可能性があるため、これもより堅牢である可能性があります。同様に、他のプロセスの中でもscRNAシーケンシングデータのサブポピュレーション推論など、RNAシーケンシングサンプルをクラスター化するための追加の証拠として、ユニークな特徴を使用できる。
【0056】
本明細書で定義及び使用されるすべての定義は、辞書の定義、参照により組み込まれる文書内の定義、及び/又は定義された用語の通常の意味を制御するように理解されるべきである。
【0057】
本明細書及び特許請求の範囲で、本明細書で使用される不定冠詞「a」及び「an」は、反対に明確に示されない限り、「少なくとも1つ」を意味すると理解されるべきである。
【0058】
本明細書及び特許請求の範囲で、本明細書で使用される「及び/又は」という句は、そのように結合された要素、すなわち、いくつかの場合は又は他の場合に結合的に存在し、分離的に存在する要素の「いずれか又は両方」を意味すると理解されるべきである。「及び/又は」でリストされた複数の要素は、同じ方法で解釈する必要がある。つまり、そのように結合された要素の「1つ以上」。「及び/又は」節によって具体的に識別される要素以外の他の要素が、具体的に識別される要素に関連するかどうかにかかわらず、オプションで存在し得る。
【0059】
本明細書及び特許請求の範囲で使用される場合、「又は」は、上記で定義された「及び/又は」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を区切る場合、「又は」又は「及び/又は」は包括的であると解釈されるものとあうえう。つまり、要素の数又はリストの少なくとも1つを包含するが、複数及び、オプションで、追加のリストされていないアイテムを包含すると解釈される。「ただ1つ」又は「正確に1つ」、又は特許請求の範囲で使用される場合、「からなる」など、反対に明確に示される用語のみが、番号又はリストの正確に1つの要素を含むことを指す。「の1つのみ」又は「正確に1つ」などの反対に明確に示される用語のみ、又は特許請求の範囲で使用される場合、「からなる」は、数の正確に1つの要素を含むことを指す。一般に、本明細書で使用される「又は」という用語は、「いずれか(either)」、「いずれか(one of)」、「いずれか1つのみ(only one of)」、「正確に1つ(exactly one of)」など、排他性の用語が先行する場合にのみ、排他的な代替案(すなわち、「一方又は他方であるが両方ではない」)を示すと解釈されるものとする。
【0060】
本明細書の明細書及び特許請求の範囲で使用される場合、1つ又は複数の要素のリストに関連する「少なくとも1つ」という句は、要素のリスト内の任意の1つ又は複数の要素から選択される少なくとも1つの要素を意味すると理解されるべきである。ただし、必ずしも要素のリスト内に具体的にリストされているすべての要素の少なくとも1つを含み、要素のリスト内の要素の組み合わせを除外するわけではない。この定義はまた、「少なくとも1つ」という句が参照する要素のリスト内で具体的に識別される要素以外の要素が、具体的に識別される要素に関連するかどうかにかかわらず、オプションで存在できることを可能にする。
【0061】
反対に明確に示されない限り、複数のステップ又は行為を含む本明細書で請求される方法において、方法のステップ又は行為の順序は、必ずしも方法のステップ又は行為が記載されているその順序に限定されないことも理解されたい。
【0062】
特許請求の範囲、ならびに上記の明細書において、「含む(comprising)」、「含む(including)」、「運ぶ(carrying)」、「有する(having)」、「含む(containing)」、「関与する(involving)」、「保持する(holding)」、「構成される(composed of)」などのすべての移行句は、制限がない、すなわち、含むがこれに限定されないことを意味すると理解されるべきである。移行句「からなる(consisting of)」及び「本質的にからなる(consisting essentially of)」のみが、それぞれクローズド又はセミクローズド移行句でなければならない。
【0063】
いくつかの本発明の実施形態が本明細書に記載及び図示されているが、当業者は、機能を実行するため、及び/又は結果及び/又は本明細書に記載の1つ又は複数の利点を得るための他の様々な手段及び/又は構造を容易に想定するであろう。そして、そのような変形及び/又は修正のそれぞれは、本明細書に記載の本発明の実施形態の範囲内であると見なされる。より一般的には、当業者は、本明細書に記載のすべてのパラメータ、寸法、材料、及び構成が例示的であることを意味し、実際のパラメータ、寸法、材料、及び/又は構成が、本発明の教示が使用される特定の用途に依存することを容易に理解するであろう。当業者は、日常的な実験だけを使用して、本明細書に記載の特定の本発明の実施形態と多くの同等物を認識するか、又は確認することができるであろう。したがって、前述の実施形態は例としてのみ提示され、添付の特許請求の範囲及びそれに相当する範囲内で、本発明の実施形態は、具体的に記載及び請求される以外の方法で実施できることを理解されたい。本開示の本発明の実施形態は、本明細書に記載の個々の特徴、システム、物品、材料、キット、及び/又は方法のそれぞれを対象とする。さらに、2つ以上のそのような特徴、システム、物品、材料、キット、及び/又は方法の任意の組み合わせが、そのような機能、システム、記事、材料、キット、及び/又は方法が相互に矛盾していない場合、本開示の本発明の範囲内に含まれる。
【0064】
請求項1
遺伝子転写物の発現レベルを特徴づけるための方法(100)であって、以下:
複数の遺伝子転写物のそれぞれから1つ又は複数のユニークな特徴を抽出すること(110);
抽出されたユニークな特徴をユニークな特徴データベースに格納すること(120);
遺伝子転写物から配列決定された複数の配列を受け取ること(130)であって、ここで、前記配列の少なくともいくつかは、前記抽出されたユニークな特徴のうちの1つ又は複数を含むこと;
プロセッサによって、前記複数の配列を、前記ユニークな特徴データベースに格納された前記抽出されたユニークな特徴と比較すること(140);
配列と抽出されたユニークな特徴との間の一致に基づいて、前記配列が生成された遺伝子転写物を識別すること(150);及び
前記識別された遺伝子転写物に基づいて遺伝子転写物発現レベルに関する情報をコンパイルすること(160);
を含む方法。
請求項2
前記ユニークな特徴が、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな開始位置、及び/又はユニークな停止位置のうちの1つ又は複数を含む、請求項1に記載の方法。
請求項3
前記比較することは、前記複数の配列のそれぞれを1つ又は複数のユニークな特徴と整列させることを含む、請求項1に記載の方法。
請求項4
識別された遺伝子転写物を定量化する(150)ステップをさらに含む、請求項1に記載の方法。
請求項5
前記複数の配列を生成するために、1つ又は複数の細胞からの遺伝子転写物をシーケンシングする(130)ステップをさらに含む、請求項1に記載の方法。
請求項6
前記ユニークな特徴データベースにおいて、前記抽出された前記ユニークな特徴の少なくともいくつかを注釈情報に関連付けるステップ(122)をさらに含む、請求項1に記載の方法。
請求項7
前記ユニークな特徴データベースが、完全な遺伝子転写物ではなく、抽出されたユニークな特徴を含む、請求項1に記載の方法。
請求項8
前記識別するステップが、前記識別された遺伝子転写物が、前記配列が生成された転写物である確率を含む、請求項1に記載の方法。
請求項9
配列が2つの異なる遺伝子転写物から抽出されたユニークな特徴と一致し、且つ前記識別するステップが、前記配列が生成された、又は生成された可能性のある2つ以上の遺伝子転写物を識別することを含む、請求項1に記載の方法。
請求項10
遺伝子転写物発現レベルを特徴づけるためのシステム(400)であって、以下:
複数の遺伝子転写物のそれぞれから抽出されたユニークな特徴のデータベース(464);
(i)遺伝子転写物から配列決定された複数の配列を、前記ユニークな特徴データベースに格納された前記抽出されたユニークな特徴と比較するように、且つ(ii)配列と抽出されたユニークな特徴との間の一致に基づいて、遺伝子転写物及び/又は前記配列が生成された遺伝子を識別するように構成された比較モジュール(424);及び
前記識別された遺伝子転写物に基づいて遺伝子転写物発現レベルに関する情報をコンパイルするように構成されたコンパイルモジュール(428);
を含むシステム。
請求項11
前記複数の遺伝子転写物から前記ユニークな特徴を抽出するように構成された特徴抽出モジュール(422)をさらに含む、請求項10に記載のシステム。
請求項12
前記特徴抽出モジュールは、前記抽出されたユニークな特徴の少なくともいくつかを注釈情報に関連付けるようにさらに構成される、請求項11に記載のシステム。
請求項13
前記ユニークな特徴データベースに格納された前記ユニークな特徴が、ユニークなエクソン、ユニークなエクソンジャンクション、ユニークなイントロン、ユニークな開始位置、及び/又はユニークな停止位置のうちの1つ又は複数を含む、請求項10に記載のシステム。
請求項14
前記比較することは、前記複数の配列のそれぞれを1つ又は複数のユニークな特徴と整列させることを含む、請求項10に記載のシステム。
請求項15
配列が2つの異なる遺伝子転写物から抽出されたユニークな特徴と一致し、且つ前記識別するステップが、前記配列が生成された、又は生成された可能性のある2つ以上の遺伝子転写物を識別することを含む、請求項10に記載のシステム。
図1
図2
図3
図4