(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-16
(54)【発明の名称】変異解析機構及びその操作方法を備えた遺伝情報処理システム
(51)【国際特許分類】
G16H 50/50 20180101AFI20220208BHJP
【FI】
G16H50/50
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021535278
(86)(22)【出願日】2019-12-18
(85)【翻訳文提出日】2021-07-20
(86)【国際出願番号】 US2019067117
(87)【国際公開番号】W WO2020132030
(87)【国際公開日】2020-06-25
(32)【優先日】2018-12-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521265667
【氏名又は名称】アイオンコ インコーポレイテッド
(74)【代理人】
【識別番号】110000796
【氏名又は名称】特許業務法人三枝国際特許事務所
(72)【発明者】
【氏名】リー ジーン
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA22
(57)【要約】
遺伝情報処理システムは、ゲノム縦列反復参照カタログ(130)から配列長k(216)ヌクレオチドのインデル解析縦列反復k-mer(314)を受信することであって、インデル解析縦列反復k-mer(314)が、参照ヒトゲノム内で固有であり、参照縦列反復配列(212)と、参照縦列反復配列(212)の直前及び直後の隣接配列(214)と、を含む、受信することと、インデル解析縦列反復k-mer(314)に対応する正常サンプルDNA情報(110)内の対応正常サンプル配列(634)及びがん性サンプルDNA情報(112)内の対応がん性サンプル配列(638)を同定することと、対応がん性サンプル配列(638)及び対応正常サンプル配列(634)間の比較に基づいて、対応がん性サンプル配列(638)が腫瘍性インデル変異(644)を含むかどうかを判定することと、を含む、ゲノム縦列反復参照カタログ(130)に基づいて、正常サンプルDNA情報(110)及びがん性サンプルDNA情報(112)を含むDNAサンプルセット(106)を解析することと、腫瘍性インデル変異(644)が対応がん性サンプル配列(638)に存在するとき、腫瘍マーカー(650)としてインデル解析縦列反復k-mer(314)の実例の参照縦列反復配列(212)を同定するためにゲノム縦列反復参照カタログ(130)を修正することと、を行うように構成される制御ユニット(512)を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
遺伝情報処理システム(100)であって、
ゲノム縦列反復参照カタログ(130)から配列長k(216)ヌクレオチドのインデル解析縦列反復k-mer(314)を受信することであって、前記インデル解析縦列反復k-mer(314)が、参照ヒトゲノム内で固有であり、
参照縦列反復配列(212)と、
前記参照縦列反復配列(212)の直前及び直後の隣接配列(214)と、を含む、前記受信することと、
前記インデル解析縦列反復k-mer(314)に対応する正常サンプルDNA情報(110)内の対応正常サンプル配列(634)及びがん性サンプルDNA情報(112)内の対応がん性サンプル配列(638)を同定することと、前記対応がん性サンプル配列(638)及び前記対応正常サンプル配列(634)間の比較に基づいて、前記対応がん性サンプル配列(638)が腫瘍性インデル変異(644)を含むかどうかを判定することと、を含む、前記ゲノム縦列反復参照カタログ(130)に基づいて、前記正常サンプルDNA情報(110)及び前記がん性サンプルDNA情報(112)を含む、DNAサンプルセット(106)を解析することと、
前記腫瘍性インデル変異(644)が前記対応がん性サンプル配列(638)に存在するとき、腫瘍マーカー(650)としてインデル解析縦列反復k-mer(314)の実例の前記参照縦列反復配列(212)を同定するために前記ゲノム縦列反復参照カタログ(130)を修正することと、
を行うように構成される制御ユニット(512)を含む、
前記遺伝情報処理システム(100)。
【請求項2】
前記制御ユニット(512)が、前記腫瘍マーカー(650)に基づいて、がん相関行列(142)を生成するように構成される、請求項1に記載のシステム(100)。
【請求項3】
前記制御ユニット(512)が、前記参照縦列反復配列(212)及び前記対応正常サンプル配列(634)間の差に基づいて、野生型配列として前記対応正常サンプル配列(634)を同定するように構成される、請求項1に記載のシステム(100)。
【請求項4】
前記インデル解析縦列反復k-mer(314)の前記配列長k(216)が最小で、19ヌクレオチド塩基対である、請求項1に記載のシステム(100)。
【請求項5】
前記参照縦列反復配列(212)が、少なくとも5ヌクレオチド塩基対の縦列反復配列長(220)を含む、請求項1に記載のシステム(100)。
【請求項6】
遺伝情報処理システム(100)の操作方法(700)であって、
ゲノム縦列反復参照カタログ(130)から配列長k(216)ヌクレオチドのインデル解析縦列反復k-mer(314)を受信することであって、前記インデル解析縦列反復k-mer(314)が、参照ヒトゲノム内で固有であり、
参照縦列反復配列(212)と、
前記参照縦列反復配列(212)の直前及び直後の隣接配列(214)と、を含む、前記受信することと、
前記インデル解析縦列反復k-mer(314)に対応する正常サンプルDNA情報(110)内の対応正常サンプル配列(634)及びがん性サンプルDNA情報(112)内の対応がん性サンプル配列(638)を同定することと、前記対応がん性サンプル配列(638)及び前記対応正常サンプル配列(634)間の比較に基づいて、前記対応がん性サンプル配列(638)が腫瘍性インデル変異(644)を含むかどうかを判定することと、を含む、前記ゲノム縦列反復参照カタログ(130)に基づいて、前記正常サンプルDNA情報(110)及び前記がん性サンプルDNA情報(112)を含む、DNAサンプルセット(106)を解析することと、
前記腫瘍性インデル変異(664)が前記対応がん性サンプル配列(638)に存在するとき、腫瘍マーカー(650)としてインデル解析縦列反復k-mer(314)の実例の前記参照縦列反復配列(212)を同定するために前記ゲノム縦列反復参照カタログ(130)を修正することと、
を含む、前記方法(700)。
【請求項7】
前記腫瘍マーカー(650)に基づいて、がん相関行列(142)を生成することをさらに含む、請求項6に記載の方法(700)。
【請求項8】
前記参照縦列反復配列(212)及び前記対応正常サンプル配列(634)間の差に基づいて、野生型配列として前記対応正常サンプル配列(634)を同定することをさらに含む、請求項6に記載の方法(700)。
【請求項9】
前記インデル解析縦列反復k-mer(314)の前記配列長k(216)が最小で、19ヌクレオチド塩基対である、請求項6に記載の方法(700)。
【請求項10】
前記参照縦列反復配列(212)が、少なくとも5ヌクレオチド塩基対の縦列反復配列長(220)を含む、請求項6に記載の方法(700)。
【請求項11】
遺伝情報処理システム(100)用の制御回路で実行可能な命令を含む非一時的なコンピューター可読媒体であって、前記命令が、
ゲノム縦列反復参照カタログ(130)から配列長k(216)ヌクレオチドのインデル解析縦列反復k-mer(314)を受信することであって、前記インデル解析縦列反復k-mer(314)が、参照ヒトゲノム内で固有であり、
参照縦列反復配列(212)と、
前記参照縦列反復配列(212)の直前及び直後の隣接配列(214)と、を含む、前記受信することと、
前記インデル解析縦列反復k-mer(314)に対応する正常サンプルDNA情報(110)内の対応正常サンプル配列(634)及びがん性サンプルDNA情報(112)内の対応がん性サンプル配列(638)を同定することと、前記対応がん性サンプル配列(638)及び前記対応正常サンプル配列(634)間の比較に基づいて、前記対応がん性サンプル配列(638)が腫瘍性インデル変異(644)を含むかどうかを判定することと、を含む、前記ゲノム縦列反復参照カタログ(130)に基づいて、前記正常サンプルDNA情報(110)及び前記がん性サンプルDNA情報(112)を含む、DNAサンプルセット(106)を解析することと、
前記腫瘍性インデル変異(664)が前記対応がん性サンプル配列(638)に存在するとき、腫瘍マーカー(650)としてインデル解析縦列反復k-mer(314)の実例の前記参照縦列反復配列(212)を同定するために前記ゲノム縦列反復参照カタログ(130)を修正することと、
を含む、前記非一時的なコンピューター可読媒体。
【請求項12】
前記腫瘍マーカー(650)に基づいて、がん相関行列(142)を生成することをさらに含む、請求項11に記載の非一時的なコンピューター可読媒体。
【請求項13】
前記参照縦列反復配列(212)及び前記対応正常サンプル配列(634)間の差に基づいて、野生型配列として前記対応正常サンプル配列(634)を同定することをさらに含む、請求項11に記載の非一時的なコンピューター可読媒体。
【請求項14】
前記インデル解析縦列反復k-mer(314)の前記配列長k(216)が最小で、19ヌクレオチド塩基対である、請求項11に記載の非一時的なコンピューター可読媒体。
【請求項15】
前記参照縦列反復配列(212)が、少なくとも5ヌクレオチド塩基対の縦列反復配列長(220)を含む、請求項11に記載の非一時的なコンピューター可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、一般に、遺伝情報処理システム、特に、変異解析用のシステムに関する。
【背景技術】
【0002】
現代の消費者向け及び産業用電子機器、特に、パーソナル医療デバイス、携帯電話、及び携帯診断デバイスなどのデバイスは、身体の病気及び疾患の評価及び診断を含む現代生活を支援する機能レベルの向上を提供している。既存の技術の研究開発は、無数の種々の方向性を取り得る。
【0003】
ユーザーがパーソナル医療デバイス及び携帯診断デバイスの発展を享受するようになると、新旧のパラダイムは、オンデマンドの健康診断用のこの新しいデバイスの余地を利用し始める。オンデマンドの健康診断用に、この新しいデバイス機能を利用する多くの技術的解決策がある。しかし、ユーザーは、多くの場合、変異及び腫瘍の発症について遺伝物質を解析する能力を備えていない。
【0004】
従って、変異解析機構を備えた遺伝情報処理システムの必要性は、依然として残っている。増加の一途をたどる商業競争圧力を考慮すると、市場において増加する消費者の期待及び重要な製品の差別化の機会の減少とともに、これらの問題に対する答えが見つけられることが、ますます重要になっている。さらに、費用を低減し、効率及び性能を改善し、競争圧力を満たすべきニーズにより、これらの問題に対する答えを見つける重大な必要性に、さらに大きな緊急性が加わる。
【0005】
これらの問題の解決策は、長い間求められているが、以前の開発は、いかなる解決策を教示または示唆しておらず、従って、これらの問題の解決策は、当業者とは長い間無縁であった。
【発明の概要】
【0006】
本発明の一実施形態は、ゲノム縦列反復参照カタログの配列長kヌクレオチドのインデル解析縦列反復k-merを受信することであって、インデル解析縦列反復k-merは、参照ヒトゲノム内で固有であり、参照縦列反復配列と、参照縦列反復配列の直前及び直後の隣接配列を含む、受信することと、インデル解析縦列反復k-merに対応する正常サンプルDNA情報内の対応正常サンプル配列及びがん性サンプルDNA情報内の対応がん性サンプル配列を同定することと、対応がん性サンプル配列及び対応正常サンプル配列間の比較に基づいて、対応がん性サンプル配列が腫瘍性インデル変異を含むかどうかを判定することと、を含む、ゲノム縦列反復参照カタログに基づいて、正常サンプルDNA情報及びがん性サンプルDNA情報を含むDNAサンプルセットを解析することと、腫瘍性インデル変異が対応がん性サンプル配列に存在するとき、腫瘍マーカーとしてインデル解析縦列反復k-merの実例の参照縦列反復配列を同定するためにゲノム縦列反復参照カタログを修正することと、を行うように構成される制御ユニットを含む、遺伝情報処理システムを提供する。
【0007】
本発明の一実施形態は、ゲノム縦列反復参照カタログの配列長kヌクレオチドのインデル解析縦列反復k-merを受信することであって、インデル解析縦列反復k-merは、参照ヒトゲノム内で固有であり、参照縦列反復配列と、参照縦列反復配列の直前及び直後の隣接配列を含む、受信することと、インデル解析縦列反復k-merに対応する正常サンプルDNA情報内の対応正常サンプル配列及びがん性サンプルDNA情報内の対応がん性サンプル配列を同定することと、対応がん性サンプル配列及び対応正常サンプル配列間の比較に基づいて、対応がん性サンプル配列が腫瘍性インデル変異を含むかどうかを判定することと、を含む、ゲノム縦列反復参照カタログに基づいて、正常サンプルDNA情報及びがん性サンプルDNA情報を含むDNAサンプルセットを解析することと、腫瘍性インデル変異が対応がん性サンプル配列に存在するとき、腫瘍マーカーとしてインデル解析縦列反復k-merの実例の参照縦列反復配列を同定するためにゲノム縦列反復参照カタログを修正することと、を含む遺伝情報処理システムの操作方法を提供する。
【0008】
本発明の一実施形態は、遺伝情報処理システム用の制御回路で実行可能な命令を含む非一時的なコンピューター可読媒体を提供し、命令は、ゲノム縦列反復参照カタログの配列長kヌクレオチドのインデル解析縦列反復k-merを受信することであって、インデル解析縦列反復k-merは、参照ヒトゲノム内で固有であり、参照縦列反復配列と、参照縦列反復配列の直前及び直後の隣接配列を含む、受信することと、インデル解析縦列反復k-merに対応する正常サンプルDNA情報内の対応正常サンプル配列及びがん性サンプルDNA情報内の対応がん性サンプル配列を同定することと、対応がん性サンプル配列及び対応正常サンプル配列間の比較に基づいて、対応がん性サンプル配列が腫瘍性インデル変異を含むかどうかを判定することと、を含む、ゲノム縦列反復参照カタログに基づいて、正常サンプルDNA情報及びがん性サンプルDNA情報を含むDNAサンプルセットを解析することと、腫瘍性インデル変異が対応がん性サンプル配列に存在するとき、腫瘍マーカーとしてインデル解析縦列反復k-merの実例の参照縦列反復配列を同定するためにゲノム縦列反復参照カタログを修正することと、を含む。
【0009】
本発明の特定の実施形態は、上述のものに加えて、またはそれらの代わりに、他のステップまたは要素を有する。ステップまたは要素は、添付図面を参照して解釈されるとき、以下の詳細な説明を読むことから当業者に明らかになるであろう。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態における変異解析機構を備えた遺伝情報処理システム100である。
【
図2】
図1のゲノム縦列反復参照カタログに対する固有参照縦列反復k-merの特徴である。
【
図3】
図1のゲノム縦列反復参照カタログの固有参照縦列反復k-merの例である。
【
図4】ゲノム縦列反復参照カタログのエントリーの例示的な図である。
【
図5】遺伝情報処理システムの例示的なブロック図である。
【
図6】遺伝物質解析システムの機能についての制御フローである。
【
図7】本発明の一実施形態における遺伝情報処理システムの動作方法のフローチャートである。
【発明を実施するための形態】
【0011】
以下の実施形態は、当業者が本発明を作成及び使用することを可能とするのに十分詳細に記載される。他の実施形態が、本開示に基づいて明らかであろうこと、及びシステム、処理、または機械的な変更が、本発明の実施形態の範囲から逸脱することなく行われ得ることを理解すべきである。
【0012】
以下の説明では、本発明の完全な理解を提供するために、多くの特定の詳細が与えられる。しかし、本発明がこれらの特定の詳細なしで実施され得ることは明らかであろう。本発明の実施形態を曖昧にすることを回避するために、一部の周知のシステム構成、及び処理ステップは、詳細には開示されない。
【0013】
システムの実施形態を示す図面は、半概略図であり、縮尺通りではなく、特に、寸法の一部は、提示を明確にするためであり、図面中で誇張して示される。
【0014】
本明細書の「モジュール」という用語は、用語が使用される文脈に応じて、本発明の実施形態におけるソフトウェア、ハードウェア、またはそれらの組み合わせを含み得る。例えば、ソフトウェアは、マシンコード、ファームウェア、埋め込まれたコード、及びアプリケーションソフトウェアであり得る。さらに、例えば、ハードウェアは、回路、プロセッサー、コンピューター、集積回路、集積回路コア、圧力センサ、慣性センサ、微小電気機械システム(MEMS)、受動デバイス、またはそれらの組み合わせであり得る。さらに、モジュールが以下の装置請求項のセクションに記載される場合、モジュールは、装置請求項の目的及び範囲のためのハードウェア回路を含むとみなされる。
【0015】
以下の実施形態の説明におけるモジュールは、説明されるように、または示されるように、互いに接続させることができる。接続は、接続された部材間に介在する部材の有無で、それぞれ、直接的または間接的であり得る。接続は、部材間の物理的接触または通信によるものであり得る。
【0016】
ここで
図1を参照すると、本明細書では、本発明の一実施形態における変異解析機構を備えた遺伝情報処理システム100が示される。変異解析機構は、配列決定されたデオキシリボ核酸(以下「DNA」)セグメントなどの遺伝物質を表す遺伝情報において変異を同定及び解析する機構である。例えば、変異解析機構は、変異を同定し、腫瘍性DNA配列の存在を判定し得る。
【0017】
遺伝情報処理システム100は、遺伝情報を処理するためのコンピューティングデバイス102を含み得る。例えば、コンピューティングデバイス102は、ノートブックまたはラップトップコンピューター、マルチメディアコンピューター、デスクトップコンピューター、グリッドコンピューティングリソース、仮想化コンピューターリソース、クラウドコンピューティングリソース、ピアツーピア分散型コンピューティングデバイス、DNA塩基配列決定デバイス、またはそれらの組み合わせなどのコンピューティングデバイスの型または種類のいずれかであり得る。コンピューティングデバイス102の詳細は、以下に述べられる。
【0018】
遺伝情報処理システム100は、システム入力104を受信し得る。システム入力104は、コンピューティングデバイス102による処理のための情報である。例えば、システム入力104は、配列決定されたDNA情報のセットであるDNAサンプルセット106であり得る。DNAサンプルセット106の例は、生検中に、または体液中の細胞内に封入されていないDNAを指す無細胞DNAから、抽出された組織などのヒト患者から誘導または抽出された遺伝情報を含み得る。DNAサンプルセット106は、DNA配列を表すコード化または非コード化テキスト文字列の形態であり得る。
【0019】
DNAサンプルセット106は、正常サンプルDNA情報110、及びがん性サンプルDNA情報112を含み得る。正常サンプルDNA情報110は、がんのない生物学的サンプルに由来する配列決定されたDNAである。がん性サンプルDNA情報112は、特定形態のがんの確認された症例を有する生物学的サンプルに由来する配列決定されたDNAである。一般に、DNAサンプルセット106の特定の実例の正常サンプルDNA情報110及びがん性サンプルDNA情報112は、単一のヒト患者から採取されたサンプルであり得る。
【0020】
正常サンプルDNA情報110及びがん性サンプルDNA情報112の両方は、サンプル補足情報120を含み得る。サンプル補足情報120は、正常サンプルDNA情報110及びがん性サンプルDNA情報112の様々な態様を特徴付ける情報である。例えば、サンプル補足情報120は、サンプル仕様情報122、サンプルソース情報124、患者人口統計情報126、またはそれらの組み合わせなどの情報を含み得る。
【0021】
サンプル仕様情報122は、DNAサンプルセット106内の配列決定されたDNAに関する技術情報または仕様である。例えば、サンプル仕様情報122は、イントロン及びエクソン領域、特定の遺伝子、もしくは染色体などの、DNAフラグメントが対応するゲノム内の位置、遺伝物質を抽出及び配列決定するために使用される処理、方法、及び機器、各サンプルの配列読み取りの数、配列読み取りのそれぞれの読み取り長、またはそれらの組み合わせに関する情報を含み得る。
【0022】
サンプルソース情報124は、サンプル情報の起源に関する詳細であり得る。例えば、サンプルソース情報124は、がんの種類、がんの発症段階、サンプルが抽出された器官もしくは組織の形態、またはそれらの組み合わせに関する情報を含み得る。
【0023】
患者人口統計情報126は、サンプルが採取された患者に関する人口統計情報である。例えば、患者人口統計情報126は、年齢、性別、民族性、患者が居住している、もしくは訪れたことがある地理的位置、患者が地理的な場所に滞在もしくは居住した期間、遺伝的障害もしくはがんの発症の素因、またはそれらの組み合わせを含み得る。
【0024】
遺伝情報処理システム100の一実施形態では、DNAサンプルセット106を、特定形態のがんの存在またはがんが発症する可能性を判定するマーカーとして使用することができる特定のDNA配列の変異パターンを同定するために、変異解析機構で解析することができる。例えば、遺伝情報処理システム100は、正常サンプルDNA情報110の特定の配列及びがん性サンプルDNA情報112の特定の配列間の差に基づいて、変異パターンを同定し得、これらは、両方ともに、ゲノム縦列反復参照カタログ130に基づいたヒトゲノム内の同じ位置に対応する。
【0025】
ゲノム縦列反復参照カタログ130は、一意に同定することができるヒトゲノム内の縦列反復配列のカタログである。一例として、ゲノム縦列反復参照カタログ130は、GRCh38参照ゲノムなどの参照ゲノムに基づくことができる。縦列反復配列は、マイクロサテライトDNA配列などの、直接隣接する同一の反復ヌクレオチド単位の一連の複数の実例を含むDNA配列である。遺伝情報処理システム100は、正常サンプルDNA情報110及びがん性サンプルDNA情報112中の対応配列を同定するための参照配列としてゲノム縦列反復参照カタログ130の一意に同定可能な縦列反復配列を使用し得る。正常サンプルDNA情報110及びがん性サンプルDNA情報112の対応配列は、変異した配列を同定し、がん性サンプルDNA情報112で同定された変異が腫瘍性であるかどうかを判定するために、変異解析機構で解析することができる。遺伝情報処理システム100は、がん性サンプルDNA情報112で同定された腫瘍性配列、及び、ゲノム縦列反復参照カタログ130内の縦列反復配列のエントリーを修正または補足するサンプル補足情報120などの変異解析機構からの情報を使用し得る。変異解析機構の詳細は、以下に説明されるであろう。
【0026】
本発明の一実施形態では、遺伝情報処理システム100は、ゲノム縦列反復参照カタログ130から、がん相関行列142などのシステム出力140を生成し得る。がん相関行列142は、同定された腫瘍配列を、特定の種類のがんに相関させる行列である。例えば、がん相関行列142は、腫瘍性であることが判明したときに、特定形態のがんの存在、または特定形態のがんが発症する可能性を示すゲノム縦列反復参照カタログ130中の一意に同定可能な縦列反復配列の複数の実例を含む指標であり得る。がん相関行列142の生成に関する詳細は、以下で議論される。
【0027】
ここで
図2を参照すると、本明細書では、
図1のゲノム縦列反復参照カタログ130の固有参照縦列反復k-mer210の特徴が示される。固有参照縦列反復k-mer210は、参照ヒトゲノム内に1回のみ出現するDNA配列である。固有参照縦列反復k-mer210は、参照縦列反復配列212、隣接配列214、及び配列長k216を含む、様々な特性に基づいて同定することができる。
【0028】
配列長k216は、固有参照縦列反復k-mer210における塩基対の総数を値「k」として定義する。塩基対という用語は、アデニン(A)、シトシン(C)、グアニン(G)、チミン(T)のDNAのヌクレオチドを指す。例示を目的として、
図2は、21塩基対の配列長k216を有する固有参照縦列反復k-mer210を示すが、固有参照縦列反復k-mer210の配列長k216が異なり得ることが理解される。例えば、配列長-k216は、21塩基対超または21塩基対未満であり得る。一具体例として、配列長k216は、19塩基対~50塩基対以上の塩基対の範囲であり得る。
【0029】
参照縦列反復配列212は、指定された最小長のDNA配列であり、これは、直接隣接する同一の反復ヌクレオチド単位の一連の複数の実例である。例えば、参照縦列反復配列212は、指定された最小長のミニサテライトDNAまたはマイクロサテライトDNA配列であり得る。参照縦列反復配列212の各実例は、配列中のヌクレオチド塩基対の全長または総数である縦列反復配列長220、及び参照反復単位222を特徴とし得る。例示を目的として、
図2は、22番染色体上の「10,513,372」で始まる分子場所に位置する、「A8」で注釈された「AAAAAAAA」の参照縦列反復配列212の特定の実例を示す。この例では、
図2の参照縦列反復配列212は、8塩基対の縦列反復配列長220を含む。
【0030】
参照反復単位222は、参照縦列反復配列212における反復ヌクレオチドパターンの単一単位である。参照反復単位222は、反復単位長224及び反復単位パターン226を特徴とし得る。反復単位長224は、参照反復単位222内のヌクレオチド数である。反復単位パターン226は、参照反復単位222を形成する塩基対の組み合わせである。例えば、反復単位長224は、モノヌクレオチド、2つの異なるヌクレオチドの組み合わせの反復単位パターン226を含むジヌクレオチド、2つもしくは3つのヌクレオチドの組み合わせの反復単位パターン226を含むトリヌクレオチド、または2つ、3つ、または4つの異なるヌクレオチドの組み合わせの反復単位パターン226を含むテトラヌクレオチドであり得る。
図2は、1塩基対の反復単位長224を有する参照反復単位222、及びヌクレオチド「A」の反復単位パターン226を示す。
【0031】
DNA配列における変異の検出は、参照縦列反復配列212における参照反復単位222の反復パターンにより促進されることが判明している。例えば、置換変異による参照反復単位222のパターンへの変化または参照反復単位222の数は、参照反復単位222の一貫した反復性のために、より容易に検出することができる。従って、参照縦列反復配列212は、変異の検出を改善するために使用される。
【0032】
参照縦列反復配列212の各実例は、一般に、以下、ゲノム縦列反復配列と呼ばれる、参照ゲノム内のマイクロサテライトまたは縦列反復配列のサブセットとして選択することができる。より具体的には、参照縦列反復配列212は、縦列反復配列長220に基づいて選択することができる。例えば、参照縦列反復配列212は、塩基対の最小数を超える縦列反復配列長220を有するゲノム縦列反復配列として選択することができる。例えば、参照縦列反復配列212は、5塩基対~8塩基対の範囲に及ぶ最小数の塩基対を有する縦列反復配列長220を有するゲノム縦列反復配列として選択することができる。換言すれば、参照縦列反復配列212は、5つ以上の塩基対、6つ以上の塩基対、7つ以上の塩基対、または8つ以上の塩基対の配列であり得る。
【0033】
縦列反復配列長220が低減するにつれて、変異が発生する確率が減少することが判明している。具体的には、5塩基対未満の縦列反復配列長220に対する変異率は、5塩基対以上の縦列反復配列長220を有するゲノム縦列反復配列よりも大幅に少ない。従って、参照縦列反復配列212は、5以上の縦列反復配列長220を有するゲノム縦列反復配列として選択することができる。
【0034】
参照縦列反復配列212の各実例は、本明細書で縦列反復関連k-mer230と呼ばれる配列長k216を有する配列に含まれる、または配列の一部とされ得る。より具体的には、縦列反復関連k-mer230は、参照縦列反復配列212の特定の1つを含む、配列長k216を有する配列変形物のセットである。
【0035】
縦列反復関連k-mer230で表される変形物は、隣接配列214で決定することができる。隣接配列214は、参照ゲノム内の参照縦列反復配列212の直前及び直後の両方にある塩基対である。より具体的には、隣接配列214は、参照ヒトゲノム内の特定の位置で参照縦列反復配列212の直前及び直後に存在する塩基対の特定の実例である。参照縦列反復配列212の前にある隣接配列214は、リーディング隣接配列232と呼ぶことができ、参照縦列反復配列212に続く隣接配列214は、テーリング隣接配列234と呼ぶことができる。リーディング隣接配列232及びテーリング隣接配列234は、少なくとも1つの塩基対を含み、参照縦列反復配列212の一部ではない。隣接配列214は、イタリック体の文字で、
図2に示される。
【0036】
隣接配列の合計と呼ばれる、リーディング隣接配列232及びテーリング隣接配列234の塩基対の総数は、配列長k216及び縦列反復配列長220に基づく固定値である。隣接配列の合計は、固有参照縦列反復k-mer210または縦列反復関連k-mer230の配列長k216と参照縦列反復配列212の縦列反復配列長220との間の差として計算することができる。一例として、21塩基対の配列長k216及び8塩基対の縦列反復配列長220を有する縦列反復関連k-mer230のうちの1つでは、隣接配列の合計は、13塩基対である。
【0037】
縦列反復関連k-mer230のそれぞれは、隣接配列214に基づく多数の位置バリアントk-mer236のうちの1つを表し得る。位置バリアントk-mer236は、リーディング隣接配列232及びテーリング隣接配列234に特定数の塩基対を有する縦列反復関連k-mer230の特定の実例である。例えば、位置バリアントk-mer236のそれぞれは、リーディング隣接配列232及びテーリング隣接配列234に含まれる塩基対数に従って、互いに異なり得る。一般に、リーディング隣接配列232及びテーリング隣接配列234に含まれる塩基対数は、位置バリアントk-merの種々の実例間で反比例し得る。位置バリアントk-mer236は、括弧内の塩基対の配列として、
図2に示される。
【0038】
一例として、
図2に示される位置バリアントk-mer236のそれぞれは、21塩基対の配列長k216及び8塩基対の縦列反復配列長220を有する。例を続けるには、位置バリアントk-mer236の第1の実例は、12塩基対のリーディング隣接配列232及び1塩基対のテーリング隣接配列234を有し得、11塩基対を有するリーディング隣接配列232及び2塩基対を有するテーリング隣接配列234を有する位置バリアントk-mer236の第2の実例、1塩基対を有するリーディング隣接配列232及び12塩基対を有するテーリング隣接配列234を含む位置バリアントk-mer236の最後の実例まで続く。
【0039】
所与のk-merに対する、位置バリアント合計と呼ばれる位置バリアントk-mer236の総数は、以下のものとして計算することができる:
位置バリアント合計=(配列長k)-(縦列反復配列長)-1
この例では、
図2に示される縦列反復関連k-mer230の実例は、21の配列長k216及び6の縦列反復配列長220に対する位置バリアントk-mer236の12の種々の実例を表す、12の位置バリアント合計を有し得る。
【0040】
位置バリアントk-mer236のうちの1つ以上が、ゲノム縦列反復参照カタログ130の基準として使用される参照ゲノム内で固有であることが判明するとき、参照縦列反復配列212の特定の実例に対する縦列反復関連k-mer230は、固有参照縦列反復k-mer210のうちの1つとして決定することができる。より具体的には、参照ゲノム内に1回のみ出現するか、またはそれの1つの位置にのみ存在する位置バリアントk-mer236は、固有参照縦列反復k-mer210のうちの1つとして同定することができる。
【0041】
参照縦列反復配列212及び固有参照縦列反復k-mer210の隣接配列214の組み合わせは、
図1の正常サンプルDNA情報110、
図1のがん性サンプルDNA情報112、またはそれらの組み合わせにおいて、対応配列の正確且つ精密な同定を可能とし得、これらの両方は、固有参照縦列反復k-mer210由来の参照縦列反復配列212の同じ実例を含むことが判明している。反復単位パターン226及び反復単位長224の同じ実例を共有する特定の配列が、ヒトゲノム内の多数の場所に存在し得るので、ヒトゲノム内の特定の場所に存在する参照縦列反復配列212の特定の実例を同定しようとする時、検索またはマッチングの基準として参照縦列反復配列212のみを使用すると、誤認及び不正確な結果につながり得る。例えば、参照縦列反復配列212の特定の実例にのみ一致する配列について、正常サンプルDNA情報110、がん性サンプルDNA情報112、またはそれらの組み合わせによる検索を実行すると、1つの配列位置を他のものから区別するいかなる方法のない、同じ縦列反復配列の多数の実例を潜在的に戻し得る。一具体例として、参照縦列反復配列212の特定の実例を表すテキスト文字列の検索は、正常サンプルDNA情報110、がん性サンプルDNA情報112、またはそれらの組み合わせにおいて一致する文字列の拡張したまたは不正確なカウントを戻し得、これは、配列の位置情報を解析することが困難または不可能であり得る。例えば、22番染色体内のみで、「A8」の参照縦列配列212は、様々な場所で少なくとも26回出現する。従って、参照縦列反復配列212及び固有参照縦列反復k-mer210の隣接配列214の組み合わせが、ゲノム内に正確に位置することができるので、固有参照縦列反復k-mer210は、正常サンプルDNA情報110、がん性サンプルDNA情報112、またはそれらの組み合わせにおいて対応配列を同定するために使用されている利点を提供する。
【0042】
ここで
図3を参照すると、本明細書では、
図1のゲノム縦列反復参照カタログ130内の参照縦列反復配列212の1つの実例に対する縦列反復関連k-mer230の唯一の実例の例が示される。参照縦列反復配列212の例は、多数の縦列反復インデルバリアント310とともに示される。縦列反復インデルバリアント310は、参照反復単位222(括弧内の配列により示される)の数の変化を含む、参照縦列反復配列212の変形物である。より具体的には、縦列反復インデルバリアント310は、参照縦列反復配列212中の参照反復単位222のうちの1つ以上の挿入または欠失を含む、参照縦列反復配列212の実例である。一例として、22番染色体上の10,513,372位で始まる「AAAAAAAA」の参照縦列反復配列212が、例示目的で使用される。簡潔にするために、参照縦列反復配列212及び縦列反復インデルバリアント310は、
図2の反復単位パターン226及び参照縦列反復配列212または縦列反復インデルバリアント310のいずれかにおける反復単位数で注釈される。反復単位パターン226が、「A」であり、参照縦列反復配列212が
図2の参照反復単位222のうちの8つを含むので、例えば、「AAAAAAAA」は、「A8」と呼ばれる。
図2に示される縦列反復インデルバリアント310の例は、参照縦列反復配列212への挿入を「A9」、「A10」、及び「A11」として示すが、欠失は、「A7」、「A6」、及び「A5」として示される。縦列反復インデルバリアント310は、参照縦列反復配列212と比較して、挿入変異及び欠失変異(以下、インデル変異と呼ばれる)を表し得る。
【0043】
参照縦列反復配列212と関連する縦列反復インデルバリアント310の数は、インデルバリアント値312で決定することができる。インデルバリアント値312は、縦列反復インデルバリアント310に対する参照反復単位222の参照縦列反復配列212への挿入及び欠失数を表す整数である。例えば、負の整数値のインデルバリアント値312は、参照反復単位222の欠失を表し得、正の整数値のインデルバリアント値312は、参照反復単位222の挿入を表し得、ゼロのインデルバリアント値312は、ヒトゲノム内に存在する、つまり、挿入または欠失のいずれもないような参照縦列反復配列212に対応し得る。
【0044】
縦列反復インデルバリアント310のそれぞれは、関連縦列反復インデルk-mer316に含まれ得る。関連縦列反復インデルk-mer316は、参照ゲノムの特定の位置に存在するが、参照反復単位222の1つ以上の挿入または欠失を伴う参照縦列反復配列212の実例を含む、
図2の配列長k216の配列である。換言すれば、関連縦列反復インデルk-mer216は、ヒトゲノムの特定の位置の参照縦列反復配列212を、縦列反復インデルバリアント310のうちの1つで置き換える配列である。一例として、22番染色体上の10,513,372位で始まる参照縦列反復配列212「A8」では、関連縦列反復インデルk-mer216は、隣接配列230として参照縦列反復配列212「A8」の特定実例の前及び後にあるが、参照縦列反復配列212を、縦列反復インデルバリアント310のうちの1つで置き換え得る既存の塩基対を維持する。縦列反復関連k-mer230と同様に、関連縦列反復インデルk-mer316は、
図2のリーディング隣接配列232及び
図2のテーリング隣接配列234を含み得、リーディング隣接配列232及びテーリング隣接配列234は、少なくとも1つの塩基対を含み、縦列反復インデルバリアント310の一部ではない。例えば、「CCTAG」のリーディング隣接配列232及び「CAATTAC」のテーリング隣接配列234を有する固有参照縦列反復k-mer210に基づく関連縦列反復インデルk-mer316の実例は、「A8」の参照縦列反復配列212を縦列反復インデルバリアント310の1つで置き換え得る。具体例として、
図3に示されるように、参照縦列反復配列212「A8」は、参照反復単位222の挿入を表す、「+3」、「+2」、及び「+1」のインデルバリアント値312にそれぞれ対応する「A11」、「A10」、または「A9」で置き換えることができる。具体例を続けるために、参照縦列反復配列212「A8」は、「-3」、「-2」、及び「-1」のインデルバリアント値312に対応する「A5」、「A6」、または「A7」で置き換えることができ、これらは、それぞれ、参照反復単位222の挿入を表す。
【0045】
一般に、参照縦列反復配列212の所与の実例では、縦列反復インデルバリアント310を含む関連縦列反復インデルk-mer316は、
図2の固有参照縦列反復k-mer210または縦列反復インデルバリアント310で置き換えられる参照縦列反復配列212の特定の実例を含む縦列反復関連k-mer230として配列長k216の同じ値のものである。例えば、
図3に示されるように、22番染色体上の10,513,372位で始まる参照縦列反復配列212「A8」に対する配列長k216が21塩基対である縦列反復関連k-mer230は、縦列反復インデルバリアント310の塩基対の数に関係なく、配列長k216が21塩基対である関連縦列反復インデルk-mer316を有することになる。具体例として、「A5」及び「A13」の関連縦列反復インデルk-mer316は、それぞれ、16及び10の隣接配列214における塩基対の総数を有することになる。
【0046】
関連縦列反復インデルk-mer316は、関連縦列反復インデルk-mer216が、縦列反復インデルバリアント310を含む
図2の位置バリアントk-mer236を含む配列長k216を有する一連の配列変形物であるという点で、縦列反復関連k-mer230と同様であり得る。より具体的には、関連縦列反復インデルk-mer216の位置バリアントk-mer236のそれぞれは、縦列反復インデルバリアント310の所与の実例のリーディング隣接配列232及びテーリング隣接配列234中の特定数の塩基対を含み得る。例えば、位置バリアントk-mer236のそれぞれは、リーディング隣接配列232及びテーリング隣接配列234に含まれる塩基対数に従って、互いに異なり得る。一般に、リーディング隣接配列232及びテーリング隣接配列234に含まれる塩基対数は、位置バリアントk-merの種々の実例間で反比例し得る。配列長k216の特定値に対する、インデル位置バリアント合計と呼ばれる関連縦列反復インデルk-mer316の総数は、以下のものとして計算することができる:
IPVT=(k)-(TRSL+IVV)-1
「IPVT」は、インデル位置バリアントの合計を表し、「k」は、配列長k216を表し、「TRSL」は、縦列反復配列長220を表し、「IVV」は、インデルバリアント値312を表す。一般に、インデル位置バリアントの合計は、縦列反復インデルバリアント310の1つを表すインデルバリアント値312に応じて変動し得る。例として、「A8」の参照縦列反復配列212及び21の配列長k216の場合、「A5」及び「A11」の縦列反復インデルバリアントk-mer210を含む関連縦列反復インデルバリアントk-mer316のインデル位置バリアントの合計は、それぞれ、15及び9である。「A5」の縦列反復インデルバリアントk-mer210を含む関連縦列反復インデルバリアントk-mer316の例では、位置バリアントk-mer236の1番目の実例は、リーディング隣接配列232中の15塩基対及びテーリング隣接配列234中の1塩基対を含み得るが、位置バリアントk-mer235の15番目の実例は、リーディング隣接配列232の1塩基対及びテーリング隣接配列234の15塩基対を含み得る。簡潔にするために、縦列反復インデルバリアント310のそれぞれに対し、位置バリアントk-mer236の1つの実例のみが
図3に示される。
【0047】
一般に、インデルバリアント値312は、参照縦列反復配列212で発生し得る可能な挿入及び欠失数を最大化するように選択することができる。しかし、高すぎるインデルバリアント値312は、変異解析機構によりで使用することができる可能な配列の数を低減させ得る。例えば、縦列反復インデルバリアント中の塩基対の総数が、配列長k216に近づくにつれて、関連縦列反復インデルk-mer316の数が少なくなる可能性がある。従って、3~5の範囲のインデルバリアント値312は、がん性サンプルDNA情報112に可能な挿入及び欠失変異の程度を変化させるのに十分な範囲を提供し得、また固有参照縦列反復k-mer210に対して正常サンプルDNA情報110の可能な変形を網羅することが判明している。例示を目的として、
図3の固有参照縦列反復配列212は、-3~+3の範囲に及ぶインデルバリアント値312を有する縦列反復インデルバリアント310とともに示され、これは、それぞれ、参照縦列反復配列212中の参照反復単位222の3つの欠失または3つの挿入に対応する。インデルバリアント値312がゼロである縦列反復インデルバリアント310は、挿入または欠失のない配列に対応し、参照縦列反復配列212を表す。
【0048】
縦列反復インデルバリアント310は、
図2の固有参照縦列反復k-mer210とともに、がん性サンプルDNA情報112におけるインデル変異を同定するために使用することができる。例えば、
図1の遺伝情報処理システム100は、変異解析機構を備えた固有参照縦列反復配列212の1つの実例の縦列反復インデルバリアント310を使用し得る。一般に、変異解析機構は、遺伝情報処理システム100が、参照縦列反復配列212の特定の実例に対応する
図1のがん性サンプルDNA情報112の配列にインデル変異が存在するかどうかを迅速且つ正確に判定することを可能とする。
【0049】
参照縦列反復配列212における変異パターンの解析は、特定形態のがんの存在または発症の可能性を示すために使用することができることが判明している。特に、インデル変異は、置換型変異よりも1桁以上高い頻度で発生することが判明している。従って、縦列反復インデルバリアント310を用いてインデル変異を検出するために参照縦列反復配列212を使用すると、特定形態のがんと関連する変異の発症または存在を検出するマーカーとして使用されるという利点を提供する。
【0050】
変異同定処理の目的のために、縦列反復インデルバリアント310の少なくとも1つは、
図1の正常サンプルDNA情報110及びがん性サンプルDNA情報112の対応配列を同定する変異解析機構で使用されるマッチング処理による、参照ゲノム内に存在しない関連縦列反復インデルk-mer316の少なくとも1つの実例を含むことが重要である。例えば、縦列反復インデルバリアント310のうちの1つに対する関連縦列反復インデルk-mer316の1つの実例が参照ゲノムに存在しないとき、がん性サンプルDNA情報112の配列と関連縦列反復インデルk-mer316の特定の実例の間の一致は、特定のインデル変異が存在することを検証することができる。しかし、参照ゲノムに出現しない複数の関連縦列反復インデルk-mer316を含む縦列反復インデルバリアント310は、配列決定エラーまたは隣接配列の点変異による誤認を阻止し得る。従って、最小数の縦列反復インデルバリアント310は、特定の場所の配列が、固有参照縦列反復k-mer210を使用して、挿入変異または欠失変異を含むときに、正確に同定するために参照ゲノムに出現または存在すべきでない。
【0051】
変異同定処理に使用することができる固有参照縦列反復k-mer210の実例は、インデル解析縦列反復k-mer314と呼ばれる。インデル解析縦列反復k-mer314は、参照ゲノムに出現しない縦列反復インデルバリアント310の関連実例を有する固有参照縦列反復k-mer210のサブセットである。換言すれば、固有参照縦列反復k-mer210に含まれる参照縦列反復配列212が、参照ゲノムに出現しない縦列反復インデルバリアント310のうちの少なくとも1つも含む場合、固有参照縦列反復k-mer210は、インデル解析縦列反復k-mer314のうちの1つである。ゲノム縦列反復参照カタログ130は、インデル解析縦列反復k-mer314のうちの1つである参照縦列反復配列212の特定の実例に対する固有参照縦列反復k-mer210のいずれかを同定し得る。
【0052】
ここで
図4を参照すると、本明細書では、ゲノム縦列反復参照カタログ130におけるエントリーの例示的な図が示される。ゲノム縦列反復参照カタログ130は、参照縦列反復配列212の各実例のカタログエントリー410を含み得る。
図2の参照縦列反復配列212の各実例のカタログエントリー410は、縦列反復配列情報412を含み得る。縦列反復配列情報412は、参照縦列反復配列212を特徴付ける情報である。例えば、縦列反復配列情報412は、配列位置414、縦列反復配列長220、参照反復単位222の反復単位長224、参照反復単位222の反復単位パターン226、またはそれらの組み合わせを含み得る。
【0053】
配列位置414は、参照ゲノム内の参照縦列反復配列212の位置に関する情報である。一例として、配列位置414は、縦列反復配列の分子位置に基づいて記載することができ、これは、参照縦列反復配列212が位置する染色体、ならびに参照縦列反復配列212の開始及び終了をマークする染色体の塩基対番号を含み得る。配列位置414は、互いに参照縦列反復配列212の1つの実例を区別する固有の識別子として機能し得る。例えば、同じ反復単位パターン226及び反復単位長224を共有する参照縦列反復配列212の複数の実例は、参照縦列反復配列212のそれぞれに特異的な配列位置414に基づいて互いに区別することができる。
【0054】
参照縦列反復配列212の各実例のカタログエントリー410は、縦列反復関連k-mer230の1つ以上の実例に対する情報を含み得る。例えば、カタログエントリー410は、配列長k216の様々な値の縦列反復関連k-mer230の情報を含み得る。例示を目的として、19塩基対~50塩基対の配列長k216の範囲に及ぶ縦列反復関連k-mer230のための情報を含むカタログエントリー410のこの実例が示されるが、カタログエントリー410は、50塩基対を超える縦列反復関連k-mer230に関する情報を含み得ることが理解される。別の例として、カタログエントリー410は、
図2の固有参照縦列反復k-mer210、
図3のインデル解析縦列反復k-mer314、またはそれらの組み合わせである縦列反復関連k-mer230のいずれかに関する情報を含み得る。一具体例として、カタログエントリー410は、固有参照縦列反復k-mer210である配列長k216の参照縦列反復配列212の特定の実例に対する縦列反復関連k-mer230の総数及びいずれかを含み得る。例えば、10,513,372位で始まる参照縦列反復配列212「A8」の30塩基対の配列長k216を全て有する縦列反復関連k-mer316間の完全一致解析は、固有参照縦列反復k-mer210である16の配列の総数をもたらす。
【0055】
別の具体例として、カタログエントリー410は、参照ゲノム内に出現しないインデル解析縦列反復k-mer314の特定の実例に対する縦列反復インデルバリアント310の総数及びいずれかを含み得る。例示を目的として、以下の表1は、22番染色体上の、’372と注釈された、10,513,372位で始まる参照縦列反復配列212「A8」に対する30塩基対の配列長k216を全て有する関連縦列反復インデルk-mer316間の完全一致解析をまとめたものである。この例では、「-5」~「5」の範囲に及ぶインデルバリアント値312を有する縦列反復インデルバリアント310の各実例に対する関連縦列反復インデルk-mer316のそれぞれは、参照ゲノムには出現しないが、これは、参照縦列反復配列212の他の実例に対する場合ではないことがある。
【表1】
【0056】
参照縦列反復配列212のそれぞれに対する情報を編成するための一般的なレイアウトを備えたテンプレートとしての例示的な目的のために、
図4に示されるゲノム縦列反復参照カタログ130が示される。縦列反復配列情報412を含む参照縦列反復配列212の情報は、情報の追加のまたは異なる部分を用いる異なる分類化及び配置を含み得ることが理解される。さらに、ゲノム縦列反復参照カタログ130の能動または使用中バージョンは、カタログエントリー410の様々な分類に対応する値が追加されることが理解される。
【0057】
ここで
図5を参照すると、本明細書では、遺伝情報処理システム100の例示的なブロック図が示される。遺伝情報処理システム100は、第1のデバイス502、第2のデバイス506、またはそれらの組み合わせ上に実装することができる。第1のデバイス502は、
図1のコンピューティングデバイス102であり得る。第1のデバイス502は、第2のデバイス506と通信するために通信経路504に直接または間接で接続し得るか、またはスタンドアロンデバイスであり得る。
【0058】
第2のデバイス506は、様々な集中型または分散型コンピューティングデバイスのいずれかであり得る。例えば、第2のデバイス506は、マルチメディアコンピューター、ラップトップコンピューター、デスクトップコンピューター、グリッドコンピューティングリソース、仮想化コンピューターリソース、クラウドコンピューティングリソース、ルータ、スイッチ、ピアツーピア分散型コンピューティングデバイス、DNA塩基配列決定デバイス、またはそれらの組み合わせであり得る。
【0059】
第2のデバイス506は、単一の空間に集中化させ、異なる空間に分散させ、異なる地理的位置に分散させ、電気通信ネットワーク内に埋め込むことができる。第2のデバイス506は、第1のデバイス502と通信するために、通信経路504と接続し得る。
【0060】
例示を目的として、コンピューティングデバイス102として第1のデバイス502を有する遺伝情報処理システム100が記載されるが、第2のデバイス506は、コンピューティングデバイス102であり得ることが理解される。さらに、例示を目的として、コンピューティングシステム200は、通信経路504のエンドポイントとしての第2のデバイス506及び第1のデバイス502とともに示されるが、遺伝情報処理システム100は、第1のデバイス502、第2のデバイス506、及び通信経路504間に異なる区画を有し得ることが理解される。例えば、第1のデバイス502、第2のデバイス506、またはそれらの組み合わせもまた、通信経路504の一部として機能し得る。
【0061】
通信経路504は、様々なネットワーク及びネットワークトポロジーに及び、それを表し得る。例えば、通信経路504は、無線通信、有線通信、光、超音波、またはそれらの組み合わせを含み得る。衛星通信、セルラー通信、ブルートゥース(登録商標)、赤外線データ協会規格(IrDA)、無線忠実度(WiFi)、及びマイクロ波アクセスの世界的な相互運用性(WiMAX)は、通信経路504に含まれ得る無線通信の例である。イーサネット、デジタル加入者線(DSL)、家庭用ファイバー(FTTH)、及び基本電話サービス(POTS)は、通信経路504に含まれ得る有線通信の例である。さらに、通信経路504は、多数のネットワークトポロジー及び距離を横断し得る。例えば、通信経路504は、直接接続、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)、ワイドエリアネットワーク(WAN)、またはそれらの組み合わせを含み得る。
【0062】
第1のデバイス502は、第2のデバイス506に通信経路504を介して第1のデバイス送信508で情報を送信し得る。第2のデバイス506は、第1のデバイス502に通信経路504を介して第2のデバイス送信510で情報を送信し得る。
【0063】
第1のデバイス502は、第1の制御ユニット512、第1のストレージユニット514、第1の通信ユニット516、及び第1のユーザーインターフェース518を含み得る。第1の制御ユニット512は、第1の制御インターフェース522を含み得る。第1の制御ユニット512は、コンピューティングシステム200のインテリジェンスを提供するために第1のソフトウェア526を実行し得る。
【0064】
第1の制御ユニット512は、多数の種々の方法で実装することができる。例えば、第1の制御ユニット512は、プロセッサー、特定用途向け集積回路(ASIC)、組み込みプロセッサー、マイクロプロセッサー、ハードウェア制御ロジック、ハードウェア有限状態機械(FSM)、デジタル信号プロセッサー(DSP)、またはそれらの組み合わせであり得る。第1の制御インターフェース522は、第1の制御ユニット512及び第1のデバイス502内の他の機能ユニット間の通信に使用することができる。第1の制御インターフェース522は、また、第1のデバイス502の外部にある通信に使用することができる。
【0065】
第1の制御インターフェース522は、他の機能ユニットもしくは外部ソースから情報を受信し得るか、または他の機能ユニットもしくは外部宛先に情報を送信し得る。外部ソース及び外部宛先は、第1のデバイス502の外部のソース及び宛先を指す。
【0066】
第1の制御インターフェース522は、種々の方法で実装することができ、どの機能ユニットまたは外部ユニットが第1の制御インターフェース522と接続されているかに応じて、種々の実装を含み得る。例えば、第1の制御インターフェース522は、圧力センサ、慣性センサ、微小電気機械システム(MEMS)、光回路、導波路、無線回路、有線回路、またはそれらの組み合わせを用いて実装することができる。
【0067】
第1のストレージユニット514は、第1のソフトウェア526を格納し得る。第1のストレージユニット514は、関連情報も格納し得る。例えば、第1のストレージユニット514は、
図1のゲノム縦列反復参照カタログ130、
図1のDNAサンプルセット106、またはそれらの組み合わせを含み得る。
【0068】
第1のストレージユニット514は、揮発性メモリ、不揮発性メモリ、内部メモリ、外部メモリ、またはそれらの組み合わせであり得る。例えば、第1のストレージユニット514は、不揮発性ランダムアクセスメモリ(NVRAM)などの不揮発性ストレージ、フラッシュメモリ、ディスクストレージ、または静的ランダムアクセスメモリ(SRAM)などの揮発性ストレージであり得る。
【0069】
第1のストレージユニット514は、第1のストレージインターフェース524を含み得る。第1のストレージインターフェース524は、第1のデバイス502内の他の機能ユニット間の通信に使用することができる。第1のストレージインターフェース524は、第1のデバイス502の外部にある通信に使用することもできる。
【0070】
第1のストレージインターフェース524は、他の機能ユニットもしくは外部ソースから情報を受信し得るか、または他の機能ユニットもしくは外部宛先に情報を送信し得る。外部ソース及び外部宛先は、第1のデバイス502の外部のソース及び宛先を指す。
【0071】
第1のストレージインターフェース524は、どの機能ユニットまたは外部ユニットが、第1のストレージユニット514と接続されているかに応じて、種々の実装を含み得る。第1のストレージインターフェース524は、第1の制御インターフェース522の実装と同様の技術及び手法を用いて実装することができる。
【0072】
第1の通信ユニット516は、第1のデバイス502への及びそれからの外部通信を可能とし得る。例えば、第1の通信ユニット516は、第1のデバイス502が
図1の第2のデバイス506、周辺デバイスまたはコンピューターデスクトップなどのアタッチメント、及び通信経路504と通信することを可能とし得る。
【0073】
第1の通信ユニット516は、第1のデバイス502が、通信経路504の一部として機能することを可能とし且つ通信経路504へのエンドポイントまたは末端ユニットであることに限定されない通信ハブとしても機能し得る。第1の通信ユニット516は、通信経路504と対話するためのマイクロエレクトロニクスまたはアンテナなどの能動及び受動構成要素を含み得る。
【0074】
第1の通信ユニット516は、第1の通信インターフェース528を含み得る。第1の通信インターフェース528は、第1の通信ユニット516及び第1のデバイス502内の他の機能ユニット間の通信に使用することができる。第1の通信インターフェース528は、他の機能ユニットから情報を受信し得るか、または他の機能ユニットに情報を送信し得る。
【0075】
第1の通信インターフェース528は、どの機能ユニットが、第1の通信ユニット516と接続されているかに応じて、種々の実装を含み得る。第1の通信インターフェース528は、第1の制御インターフェース522の実装と同様の技術及び手法を用いて実装することができる。
【0076】
第1のユーザーインターフェース518は、ユーザー(図示せず)が、第1のデバイス502と接続し、対話することを可能とする。第1のユーザーインターフェース518は、入力デバイス及び出力デバイスを含み得る。第1のユーザーインターフェース518の入力デバイスの例は、データ及び通信入力を提供するために、キーパッド、タッチパッド、ソフトキー、キーボード、マイクロフォン、遠隔信号を受信するための赤外線センサ、またはそれらの任意の組み合わせを含み得る。
【0077】
第1のユーザーインターフェース518は、第1の表示インターフェース530を含み得る。第1の表示インターフェース530は、ディスプレイ、プロジェクタ、ビデオスクリーン、スピーカ、またはそれらの任意の組み合わせを含み得る。
【0078】
第1の制御ユニット512は、コンピューティングシステム200で生成された情報を表示する第1のユーザーインターフェース518を動作させ得る。第1の制御ユニット512は、コンピューティングシステム200の他の機能のための第1のソフトウェア526も実行し得る。第1の制御ユニット512は、さらに、第1の通信ユニット516を介して通信経路504と対話するための第1のソフトウェア526を実行し得る。
【0079】
第2のデバイス506は、第1のデバイス502を用いる複数デバイスの実施形態において、本発明の実施形態を実装するために最適化することができる。第2のデバイス506は、第1のデバイス502と比較して、追加のまたはより高い性能の処理力を提供し得る。第2のデバイス506は、第2の制御ユニット534、第2の通信ユニット536、及び第2のユーザーインターフェース538を含み得る。
【0080】
第2のユーザーインターフェース538は、ユーザー(図示せず)が、第2のデバイス506と接続し、対話することを可能とする。第2のユーザーインターフェース538は、入力デバイス及び出力デバイスを含み得る。第2のユーザーインターフェース538の入力デバイスの例は、データ及び通信入力を提供するために、キーパッド、タッチパッド、ソフトキー、キーボード、マイクロフォン、またはそれらの任意の組み合わせを含み得る。第2のユーザーインターフェース538の出力デバイスの例は、第2の表示インターフェース540を含み得る。第2の表示インターフェース540は、ディスプレイ、プロジェクタ、ビデオスクリーン、スピーカ、またはそれらの任意の組み合わせを含み得る。
【0081】
第2の制御ユニット534は、コンピューティングシステム200の第2のデバイス506の情報を提供するために、第2のソフトウェア542を実行し得る。第2のソフトウェア542は、第1のソフトウェア526と連動して動作させ得る。第2の制御ユニット534は、第1の制御ユニット512と比較して追加の性能を提供し得る。
【0082】
第2の制御ユニット534は、情報を表示する第2のユーザーインターフェース538を動作させ得る。第2の制御ユニット534は、通信経路504を介して第1のデバイス502と通信する第2の通信ユニット536を動作させることを含む、コンピューティングシステム200の他の機能のための第2のソフトウェア542も実行し得る。
【0083】
第2の制御ユニット534は、多数の種々の方法で実装することができる。例えば、第2の制御ユニット534は、プロセッサー、組み込みプロセッサー、マイクロプロセッサー、ハードウェア制御ロジック、ハードウェア有限状態機械(FSM)、デジタル信号プロセッサー(DSP)、またはそれらの組み合わせであり得る。
【0084】
第2の制御ユニット534は、第2の制御装置インターフェース544を含み得る。第2の制御装置インターフェース544は、第2の制御ユニット534及び第2のデバイス506内の他の機能ユニット間の通信に使用することができる。第2の制御装置インターフェース544は、また、第2のデバイス506の外部にある通信に使用することができる。
【0085】
第2の制御装置インターフェース544は、他の機能ユニットもしくは外部ソースから情報を受信し得るか、または他の機能ユニットもしくは外部宛先に情報を送信し得る。外部ソース及び外部宛先は、第2のデバイス506の外部のソース及び宛先を指す。
【0086】
第2の制御装置インターフェース544は、種々の方法で実装することができ、どの機能ユニットまたは外部ユニットが、第2の制御装置インターフェース544と接続されるかに応じて、種々の実装を含み得る。例えば、第2の制御装置インターフェース544は、圧力センサ、慣性センサ、微小電気機械システム(MEMS)、光回路、導波管、無線回路、有線回路、またはそれらの組み合わせを用いて実装することができる。
【0087】
第2のストレージユニット546は、第2のソフトウェア542を格納し得る。第2のストレージユニット546は、
図1のゲノム縦列反復参照カタログ130、
図1のDNAサンプルセット106、またはそれらの組み合わせも格納し得る。第2のストレージユニット546は、第1のストレージユニット514を補足する追加のストレージ容量を提供するようなサイズにすることができる。
【0088】
例示を目的として、第2のストレージユニット546が単一の要素として示されるが、第2のストレージユニット546は、ストレージ要素の分散であり得ることが理解される。さらに、例示を目的として、コンピューティングシステム200は、単一の階層ストレージシステムとしての第2のストレージユニット546とともに示されるが、コンピューティングシステム200は、異なる構成で第2のストレージユニット546を有し得ることが理解される。例えば、第2のストレージユニット546は、種々のレベルのキャッシング、メインメモリ、回転媒体、またはオフラインストレージを含むメモリ階層システムを形成する種々のストレージ技術で形成することができる。
【0089】
第2のストレージユニット546は、揮発性メモリ、不揮発性メモリ、内部メモリ、外部メモリ、またはそれらの組み合わせであり得る。例えば、第2のストレージユニット546は、不揮発性ランダムアクセスメモリ(NVRAM)などの不揮発性ストレージ、フラッシュメモリ、ディスクストレージ、または静的ランダムアクセスメモリ(SRAM)などの揮発性ストレージであり得る。
【0090】
第2のストレージユニット546は、第2のストレージインターフェース548を含み得る。第2のストレージインターフェース548は、第2のデバイス506内の他の機能ユニット間の通信に使用することができる。第2のストレージインターフェース548は、第2のデバイス506の外部にある通信に使用することもできる。
【0091】
第2のストレージインターフェース548は、他の機能ユニットもしくは外部ソースから情報を受信し得るか、または他の機能ユニットもしくは外部宛先に情報を送信し得る。外部ソース及び外部宛先は、第2のデバイス506の外部のソース及び宛先を指す。
【0092】
第2のストレージインターフェース548は、どの機能ユニットまたは外部ユニットが、第2のストレージユニット546と接続されているかに応じて、種々の実装を含み得る。第2のストレージインターフェース548は、第2の制御装置インターフェース544の実装と同様の技術及び手法を用いて実装することができる。
【0093】
第2の通信ユニット536は、第2のデバイス506への及びそれからの外部通信を可能とし得る。例えば、第2の通信ユニット536は、第2のデバイス506が通信経路504を介して第1のデバイス502と通信することを可能とし得る。
【0094】
第2の通信ユニット536は、第2のデバイス506が、通信経路504の一部として機能することを可能とし且つ通信経路504へのエンドポイントまたは末端ユニットであることに限定されない通信ハブとしても機能し得る。第2の通信ユニット536は、通信経路504と対話するためのマイクロエレクトロニクスまたはアンテナなどの能動及び受動構成要素を含み得る。
【0095】
第2の通信ユニット536は、第2の通信インターフェース550を含み得る。第2の通信インターフェース550は、第2の通信ユニット536及び第2のデバイス506内の他の機能ユニット間の通信に使用することができる。第2の通信インターフェース550は、他の機能ユニットから情報を受信し得るか、または他の機能ユニットに情報を送信し得る。
【0096】
第2の通信インターフェース550は、どの機能ユニットが第2の通信ユニット536と接続されているかに応じて、種々の実装を含み得る。第2の通信インターフェース550は、第2の制御装置インターフェース544の実装と同様の技術及び手法を用いて実装することができる。
【0097】
第1の通信ユニット516は、第1のデバイス送信508で第2のデバイス506に情報を送信するために、通信経路504と結合し得る。第2のデバイス506は、通信経路504の第1のデバイス送信508から、第2の通信ユニット536で情報を受信し得る。
【0098】
第2の通信ユニット536は、第2のデバイス送信510で第1のデバイス502に情報を送信するために、通信経路504と結合し得る。第1のデバイス502は、通信経路504の第2のデバイス送信510から、第1の通信ユニット516で情報を受信し得る。コンピューティングシステム200は、第1の制御ユニット512、第2の制御ユニット534、またはそれらの組み合わせで実行することができる。例示を目的として、第2のデバイス506は、第2のユーザーインターフェース538、第2のストレージユニット546、第2の制御ユニット534、及び第2の通信ユニット536を有する区画とともに示されるが、第2のデバイス506は、異なる区画を有し得ることが理解される。例えば、第2のソフトウェア542は、機能の一部または全てが、第2の制御ユニット534及び第2の通信ユニット536に存在し得るように、別々に分割することができる。さらに、第2のデバイス506は、明確にするため、
図5に示されていない他の機能ユニットを含み得る。
【0099】
第1のデバイス502の機能ユニットは、他の機能ユニットとは個別に独立して動作し得る。第1のデバイス502は、第2のデバイス506及び通信経路504とは個別に独立して動作し得る。
【0100】
第2のデバイス506の機能ユニットは、他の機能ユニットとは個別に独立して動作し得る。第2のデバイス506は、第1のデバイス502及び通信経路504とは個別に独立して動作し得る。
【0101】
例示を目的として、遺伝情報解析システム100は、第1のデバイス502及び第2のデバイス506の動作により説明される。第1のデバイス502及び第2のデバイス506は、遺伝情報解析システム100のモジュール及び機能のいずれかを動作させ得ることが理解される。
【0102】
ここで
図6を参照すると、本明細書では、遺伝情報解析システム100の機能のための制御フローが示される。遺伝情報解析システム100は、参照縦列反復配列212に基づくDNAサンプルセット106からの情報で、ゲノム縦列反復参照カタログ130内の情報を補足及び精査するために実装することができる。一般に、遺伝情報処理システム100は、DNA配列の特定の位置における変異の存在、がんの徴候を判定する変異パターンの相関関係、またはそれらの組み合わせを判定するために、DNAサンプルセット106の1つ以上を解析し得る。遺伝情報処理システム100の機能は、サンプルセット評価モジュール610、配列カウントモジュール612、変異解析モジュール614、カタログ修正モジュール616、がん相関モジュール618、またはそれらの組み合わせを用いて実装することができる。配列カウントモジュール612は、サンプルセット評価モジュール610に結合させることができる。変異解析モジュール614は、配列カウントモジュール612に結合させることができる。カタログ修正モジュール616は、変異解析モジュール614に結合させることができる。がん相関モジュール618は、変異解析モジュール614、カタログ修正モジュール616、またはそれらの組み合わせに結合させることができる。
【0103】
遺伝情報処理システム100は、サンプルセット評価モジュール610を用いて、正常サンプルDNA情報110及びがん性サンプルDNA情報112を含むDNAサンプルセット106の範囲を評価し得る。例えば、サンプルセット評価モジュール610は、変異解析機構を用いて、正常サンプルDNA情報110及びがん性サンプルDNA情報112の解析を容易にするために、DNAサンプルセット106を評価して、DNAサンプルセット106の因子及び特性を同定し得る。サンプルセット評価モジュール610の実装は、任意であり得る。
【0104】
サンプルセット評価モジュール610は、DNAサンプルセット106のサンプル解析スコープ620を生成し得る。サンプル解析スコープ620は、DNAサンプルセット106が解析される方法を決定するための1つ以上の要因のセットである。例えば、サンプル解析スコープ620は、正常サンプルDNA情報110、がん性サンプルDNA情報112、またはそれらの組み合わせの配列位置414及び配列の配列長k216に基づいて使用することができるインデル解析縦列反復k-mer314を同定するために、サンプル仕様情報122などのDNAサンプルセット106のサンプル補足情報120に基づくことができる。
【0105】
遺伝情報処理システム100は、一実装では、変異解析機構で処理するために、ゲノム縦列反復参照カタログ130、DNAサンプルセット106、またはそれらの組み合わせから、インデル解析縦列反復k-mer314及び関連情報を受信し得る。遺伝情報処理システム100の変異解析機構は、配列カウントモジュール612及び変異解析モジュール614を用いて実装することができる。配列カウントモジュール612は、参照配列に対応するサンプルセット内の特定のDNA配列の配列カウントを計算するためのものである。配列カウントモジュール612は、サンプル配列読み取り630の数に基づいて配列カウントを計算し得、これは、正常サンプルDNA情報110、がん性サンプルDNA情報112、またはそれらの組み合わせのDNAフラグメントの配列読み取りである。
【0106】
正常サンプルDNA情報110では、配列カウントモジュール612は、正常サンプルDNA情報110において同定された対応正常サンプル配列634の各実例に対し、正常サンプル配列カウント632を計算し得る。対応正常サンプル配列634は、インデル解析縦列反復k-mer314のうちの特定の1つの縦列反復インデルバリアント310のうちの1つに対応する正常サンプルDNA情報110内のDNA配列である。正常サンプル配列カウント632は、対応正常サンプル配列634が正常サンプルDNA情報セット110において同定された回数である。
【0107】
同様に、がん性サンプルDNA情報112では、配列カウントモジュール612は、がん性サンプルDNA情報112において同定された対応がん性サンプル配列638の各実例に対し、がん性サンプル配列カウント636を計算し得る。対応がん性サンプル配列638は、インデル解析縦列反復k-mer314のうちの特定の1つに対する、縦列反復インデルバリアント310の1つに対応するがん性サンプルDNA情報112中のDNA配列である。がん性サンプル配列カウント636は、対応がん性サンプル配列638が、がん性サンプルDNA情報セット112において同定される回数である。
【0108】
配列カウントモジュール612は、固有参照縦列反復k-mer210、より具体的には、インデル解析縦列反復k-mer314の所与の実例に対し、対応正常サンプル配列634及び対応がん性サンプル配列638を同定し得る。例えば、配列カウントモジュール612は、インデル解析縦列反復k-mer314の縦列反復インデルバリアント310のうちの1つ以上と一致させるために、DNAサンプルセット106の正常サンプルDNA情報110及びがん性サンプルDNA情報112を、それぞれ検索し得る。一具体例として、配列カウントモジュール612は、インデル解析縦列反復k-mer314の縦列反復インデルバリアント310のうちの1つと完全に一致する一連の連続塩基対を検索し得る。
【0109】
配列カウントモジュール612は、正常サンプルDNA情報110のサンプル配列読み取り630のそれぞれにおいて同定された対応正常サンプル配列634のそれぞれの総数として、正常サンプル配列カウント632を計算し得る。多くの場合、対応正常サンプル配列634は、縦列反復インデルバリアント310の単一の実例に対応することになる。これらの場合、正常サンプル配列カウント632の合計値は、正常サンプルDNA情報セット110内のサンプル配列読み取り630の総数に等しくなる。例えば、正常サンプルDNA情報セット110がDNAセグメント毎のサンプル配列読み取り630の50の実例を含む場合、対応正常サンプル配列634の所与の実例に対する正常サンプル配列カウント632もまた50であるべきである。配列読み取り数及び正常サンプル配列カウント632間に統一性がない場合は、一般に、配列決定エラーに起因する可能性がある。
【0110】
多くの場合、対応正常サンプル配列634は、インデルバリアント値312がゼロであるインデル解析縦列反復k-mer314と一致することになる。これは、参照反復単位222の挿入または削除を有さない参照縦列反復配列212を含む固有参照縦列反復k-mer210である。しかし、一部の場合では、対応正常サンプル配列634は異なり得る。対応正常サンプル配列634及びインデルバリアント値312がゼロであるインデル解析縦列反復k-mer314間の差は、正常サンプルDNA情報110における、野生型変形物または天然に存在する変形物を説明し得る。
【0111】
同様に、配列カウントモジュール612は、がん性サンプルDNA情報112のサンプル配列読み取り630に出現する対応がん性サンプル配列638のそれぞれに対し、がん性サンプル配列カウント636を計算し得る。可能な変異により、がん性サンプルDNA情報112は、縦列反復インデルバリアント310の種々の実例と一致する対応がん性サンプル配列638の複数の種々の実例を含み得、対応がん性サンプル配列638はそれぞれ、がん性サンプル配列カウント636の様々な値を有する。一例として、一部の場合では、対応がん性サンプル配列638及びがん性サンプル配列カウント636は、対応正常サンプル配列634及び正常サンプル配列カウント632と一致することになる。これは、変異がないことを示す。別の例として、インデル解析縦列反復k-mer314の所与の実例では、がん性サンプルDNA情報112は、対応正常サンプル配列634及び縦列反復インデルバリアント310の1つ以上の他の実例と同じものである対応がん性サンプル配列638間にがん性サンプル配列カウント636の開きがあることになる。インデル解析縦列反復k-mer314の所与の実例では、配列カウントモジュール612は、がん性サンプルDNA情報112内の対応がん性サンプル配列638の種々の実例のそれぞれに対し、がん性サンプル配列カウント636を追跡し得る。
【0112】
フローは、変異解析モジュール614に続き得る。変異解析モジュール614は、がん性サンプルDNA情報112の対応がん性サンプル配列638に変異が存在するかどうかを判定するためのものである。一般に、がん性サンプルDNA情報112における変異の存在は、対応正常サンプル配列634及び対応がん性サンプル配列638間の参照縦列反復配列212の差に基づいて決定することができる。より具体的には、参照反復単位222の数の差は、インデル変異の存在を表し得、これは、対応正常サンプル配列634と比較した、対応がん性サンプル配列638における、参照反復単位222の挿入または欠失による変異である。例えば、変異解析モジュール614は、対応がん性サンプル配列638が、対応正常サンプル配列634のものとは異なる縦列反復インデルバリアント310の1つと一致するときに変異が存在することを判定し得る。別の例では、変異解析モジュール614は、配列差カウント640に基づいて、対応正常サンプル配列634及び対応がん性サンプル配列638間の差を決定し得る。配列差カウント640は、対応正常サンプル配列634とは異なる、対応がん性サンプル配列638の総数である。配列差カウント640が差を示さない場合、例えば、配列差カウント640がゼロであるとき、変異解析モジュール614は、対応がん性サンプル配列638に変異が存在しないことを判定し得る。
【0113】
一般に、変異解析モジュール614は、配列差カウント640がゼロでない値であるときに、インデル変異が発生していることを判定し得る。例えば、一実装では、変異解析モジュール614は、配列差カウント640が、正常サンプルDNA情報110、がん性サンプルDNA情報112、またはそれらの組み合わせを配列決定するために使用される方法に対して配列決定エラーパーセンテージよりも大きいときに、インデル変異が腫瘍性インデル変異であるかどうかを判定し得る。
【0114】
別の実装では、変異解析モジュール614は、腫瘍表示閾値642に基づいて、インデル変異が腫瘍性インデル変異644であるかどうかを判定し得る。腫瘍表示閾値642は、がん性サンプルDNA情報112における特定の配列の変異の数が腫瘍性インデル変異644の存在を示すかどうかの指標である。腫瘍性インデル変異644は、配列差カウント640が腫瘍表示閾値642を超えるときに発生する。一例として、腫瘍表示閾値642は、サンプル配列読み取り630の総数及び配列差カウント640間の割合に基づくことができる。一具体例として、腫瘍表示閾値642は、配列差カウント640が、がん性サンプルDNA情報112に対するサンプル配列読み取り630の70%より大きいときのものであり得る。別の具体例では、腫瘍表示閾値642は、配列差カウント640が、がん性サンプルDNA情報112に対するサンプル配列読み取り630の80%より大きいときのものであり得る。さらなる具体例では、腫瘍表示閾値642は、配列差カウント640が、がん性サンプルDNA情報112に対するサンプル配列読み取り630の90%より大きいときのものであり得る。
【0115】
対応がん性サンプル配列638が腫瘍性インデル変異644を含む場合、遺伝情報処理システム100は、ゲノム縦列反復参照カタログ130を更新または修正するために、カタログ修正モジュール616を実装し得る。例えば、カタログ修正モジュール616は、腫瘍性インデル変異644が対応がん性サンプル配列638に存在するとき、腫瘍マーカー650としての参照縦列反復配列212についてカタログエントリー410の実例を同定することにより、ゲノム縦列反復参照カタログ130を修正し得る。
【0116】
腫瘍マーカー650として同定される参照縦列反復配列212に対する
図4のカタログエントリー410は、腫瘍マーカー情報652を含むように、カタログ修正モジュール616で修正することができる。腫瘍マーカー情報652は、腫瘍を特徴付ける情報である。例えば、腫瘍マーカー情報652は、腫瘍発生カウント654を含み得、これは、腫瘍性インデル変異644が、所与の形態のがんについて参照縦列反復配列212の特定の実例において同定された回数のカウントである。一具体例として、腫瘍発生カウント654は、多数のがん患者のDNAサンプルセット106の解析からコンパイルすることができる。
【0117】
別の例では、腫瘍マーカー情報652は、がん性サンプル配列カウント636、DNAサンプルセット106のサンプル配列読み取り630の総数、DNAサンプルセット106に対するサンプル補足情報120の全部もしくは一部、またはそれらの組み合わせと一緒に、縦列反復インデルバリアント310の種々の実例と一致する対応がん性サンプル配列638の種々の実例に関する情報を含み得る。さらなる例では、腫瘍マーカー情報652は、対応正常サンプル配列634とは異なった対応がん性サンプル配列638内の参照反復単位222の数を含み得る。
【0118】
腫瘍マーカー情報652は、サンプル補足情報120に基づく情報を含み得る。例えば、腫瘍マーカー情報652は、がんの種類、がんの発症段階、サンプルが抽出された器官もしくは組織の形態、またはそれらの組み合わせなどのサンプルソース情報124のサンプル補足情報120を含み得る。別の例では、腫瘍マーカー情報652は、年齢、性別、民族性、患者が居住している、もしくは訪れたことがある地理的位置、患者が地理的な場所に滞在もしくは居住した期間、遺伝的障害もしくはがんの発症の素因、またはそれらの組み合わせなどの患者人口統計情報126のサンプル補足情報120を含み得る。
【0119】
遺伝情報処理システム100は、がん相関モジュール618を有するがん相関行列142を生成するために、腫瘍マーカー650として同定される参照縦列反復配列212の1つ以上の実例を使用し得る。例えば、がん相関モジュール618は、ゲノム縦列反復参照カタログ130内の腫瘍マーカー650のそれぞれに対して、腫瘍発生カウント654に基づいて、がんマーカー660を同定し得る。がんマーカー660は、参照縦列反復配列212の実例のインデル変異に特異的な変異ホットスポットである。一実施態様では、がん相関モジュール618は、回帰解析に基づいてがんマーカー660を同定し得る。例えば、回帰解析は、がんマーカー660を判定するために、腫瘍マーカー650、腫瘍発生カウント654、またはそれらの組み合わせからの最適な感度及び特異性に対する受信者動作特性曲線を用いて実施することができる。
【0120】
別の実施態様では、がん相関モジュール618は、腫瘍マーカー650に対する腫瘍発生カウント654と腫瘍マーカー650について解析されている特定形態のがんのDNAサンプルセット106の総数の比率または割合に基づいて、がんマーカー660を同定することができる。一具体例として、がん相関モジュール618は、腫瘍発生カウント654及び解析されたDNAサンプルセット106の総数間の比率が、特定形態のがんについて解析されたDNAサンプルセット106の90%以上であるときに、腫瘍マーカー650としてがんマーカー660を同定し得る。この場合、がん相関行列142は、この方法で同定されたがんマーカー660を含み得る。
【0121】
さらなる実施態様では、がん相関モジュール618は、特定形態のがんについてのDNAサンプルセット106の割合で共通である腫瘍マーカー650としてがん相関行列142を生成する。例えば、がん相関モジュール618は、DNAサンプルセット106の総数の90%以上出現する腫瘍マーカー650としてがん相関行列142を生成し得る。他の実施態様では、がん相関モジュール618は、回帰解析またはクラスタリングなどの他の方法を介してがん相関行列142を生成し得る。
【0122】
がん相関モジュール618は、亜集団に対するがん相関行列142を生成するために、患者人口統計情報126などのサンプル補足情報120を考慮に入れる、がん相関行列142を生成し得る。例えば、がん相関モジュール618は、性別、国籍、地理的位置、職業、年齢、または他の特性に特異的な患者人口統計情報126に基づいて、がん相関行列142を生成し得る。
【0123】
遺伝情報処理システム100は、例として、モジュール機能または順序で説明されている。遺伝情報処理システム100は、モジュールを別々に分割するか、またはモジュールの順序を変え得る。例えば、サンプルセット評価モジュール610は、第2のデバイス506及び配列カウントモジュール612上に実装することができ、変異解析モジュール614及びがん相関モジュール618は、第1のデバイス502上に実装することができる。
【0124】
例示を目的として、様々なモジュールは、第1のデバイス502または第2のデバイス506に特異的であると説明されている。しかし、モジュールは、別々に分散させることができることが理解される。例えば、様々なモジュールは、異なるデバイスに実装することができ、またはモジュールの機能は、複数のデバイスに分散させることができる。さらに、例として、様々なモジュールは、非一時的なメモリ媒体に格納することができる。
【0125】
より具体的な例として、上述の1つ以上のモジュールは、異なるシステム、異なるデバイス、異なるユーザー、もしくはそれらの組み合わせに分散させるために、製造するために、またはそれらの組み合わせで、非一時的なメモリ媒体に格納することができる。さらに、より具体的な例として、上述のモジュールは、チップまたはプロセッサーなどの単一のハードウェアユニットを使用して、または複数のハードウェアユニットにわたって、実装または格納することができる。
【0126】
本出願に記載されたモジュールは、
図5の第1の制御ユニット516または
図5の第2の制御ユニット538内のハードウェア実装またはハードウェアアクセラレータであり得る。モジュールは、また、
図5に示されるように、第1のデバイス502または第2のデバイス506内であるが、それぞれ、第1の制御ユニット516または第2の制御ユニット538の外側にあるハードウェア実装またはハードウェアアクセラレータであり得る。しかし、第1の制御ユニット516、第2の制御ユニット538、またはそれらの組み合わせは、モジュールに対する全てのハードウェアアクセラレータを集合的に言及し得ることが理解される。
【0127】
本出願に記載されるモジュールは、第1の制御ユニット512、第2の制御ユニット536、またはそれらの組み合わせにより実行されるべき、非一時的なコンピューター可読媒体に格納された命令として実装することができる。非一時的なコンピューター媒体は、
図5の第1のストレージユニット514、
図5の第2のストレージユニット546、またはそれらの組み合わせを含み得る。非一時的なコンピューター可読媒体は、ハードディスクドライブ、不揮発性ランダムアクセスメモリ(NVRAM)、ソリッドステートストレージデバイス(SSD)、コンパクトディスク(CD)、デジタルビデオディスク(DVD)、またはユニバーサルシリアルバス(USB)フラッシュメモリデバイスなどの不揮発性メモリを含み得る。非一時的なコンピューター可読媒体は、遺伝情報処理システム100の一部として組み込むか、または遺伝情報処理システム100の取り外し可能な部分として設置することができる。
【0128】
ここで
図7を参照すると、本明細書では、本発明の一実施形態における遺伝情報処理システム100の動作方法700のフローチャートが示される。方法700は、ゲノム縦列反復参照カタログの配列長kヌクレオチドのインデル解析縦列反復k-merを受信することであって、インデル解析縦列反復k-merは、参照ヒトゲノム内で固有であり、参照縦列反復配列と、ブロック702の参照縦列反復配列の直前及び直後の隣接配列を含む、受信することと、インデル解析縦列反復k-merに対応する正常サンプルDNA情報内の対応正常サンプル配列及びがん性サンプルDNA情報内の対応がん性サンプル配列を同定することと、ブロック704内の対応正常サンプル配列との比較に基づいて、対応がん性サンプル配列の対応する縦列反復配列にインデル変異が存在するかどうかを判定することと、を含む、ゲノム縦列反復参照カタログに基づいて、正常サンプルDNA情報及びがん性サンプルDNA情報を含むDNAサンプルセットを解析することと、腫瘍性インデル変異がブロック706の対応がん性サンプル配列に存在するとき、腫瘍マーカーとしてインデル解析縦列反復k-merの実例の参照縦列反復配列を同定するためにゲノム縦列反復参照カタログを修正することと、を含む。
【0129】
得られる方法、処理、装置、デバイス、製品、及び/またはシステムは、簡単、費用対効果の高い、複雑ではなく、汎用性の高い、正確で、高感度で、且つ効果的であり、既知の構成要素を、簡単、効率的、且つ経済的な製造、適用、及び利用に適合させることにより実装することができる。本発明の実施形態の別の重要な態様は、それが、費用の低減、システムの単純化、及び性能の向上という歴史的傾向を価値ある形で支援及び補助することである。
【0130】
従って、本発明の実施形態のこれら及び他の価値ある態様は、技術の状態を少なくとも次のレベルに進める。
【0131】
本発明が特定の最良の様式とともに説明されているが、多くの代替、修正、及び変形が、上述の説明に照らして、当業者には明らかであることを理解すべきである。従って、含まれる特許請求の範囲の範囲内にあるそのような全ての代替、修正、及び変形を包含することが意図される。本明細書に記載される、または添付の図面に示される全ての事項は、例示的且つ非限定的な意味で解釈されるべきである。
【配列表】
【国際調査報告】