(58)【調査した分野】(Int.Cl.,DB名)
前記希少疾患統計モジュールが、フィッシャーの正確確率検定を用いて、少なくとも1つの変異体に基づいて希少疾患の可能性を計算するように構成される、請求項3に記載のコンピュータシステム。
前記一般疾患統計モジュールが、フィッシャーの正確確率検定を用いて、少なくとも1つの変異体に基づいて一般疾患の可能性を計算するように構成される、請求項3に記載のコンピュータシステム。
前記希少疾患統計モジュールが、フィッシャーの正確確率検定を用いて、少なくとも1つの変異体に基づいて希少疾患の可能性を計算するよう構成される、請求項10に記載の非一時的なコンピュータ可読記録媒体。
前記一般疾患統計モジュールが、フィッシャーの正確確率検定を用いて、少なくとも1つの変異体に基づいて一般疾患の可能性を計算するよう構成される、請求項10に記載の非一時的なコンピュータ可読記録媒体。
前記希少疾患統計モジュールが、フィッシャーの正確確率検定を用いて、少なくとも1つの変異体に基づいて希少疾患の可能性を計算するよう構成される、請求項17に記載のコンピュータ実施方法。
前記一般疾患統計モジュールが、フィッシャーの正確確率検定を用いて、少なくとも1つの変異体に基づいて一般疾患の可能性を計算するよう構成される、請求項17に記載のコンピュータ実施方法。
【発明を実施するための形態】
【0007】
システム、方法、プロセス、およびデータ構造のさまざまな実施形態を、図面を参照しながら説明する。他の実施形態を表すシステム、方法、プロセス、およびデータ構造の変形についても説明する。システム、方法、プロセス、およびデータ構造のいくつかの態様、利点、および新規の特徴を本書にて説明する。そのような利点のすべてが、必ずしも任意の特定の実施形態に従って実現できるわけではないことは理解されるべきである。したがって、システム、方法、プロセス、および/またはデータ構造は、本書に教示または示唆され得る他の利点を必ずしも実現しなくとも、本書に教示する1つの利点または一群の利点を実現する方法で具体化または実施できる。
【0008】
ゲノム配列決定データは、個人のゲノム配列を1つ以上の参照配列と比較することによって個人のゲノム配列における変異体を検出できるようにアライメントできる。統計および/または機械学習法を適用し、ゲノム変異体情報と、ゲノム変異体と疾患との潜在的関連性に関する情報とに基づいて疾患の可能性を予測することができる。
【0009】
本書に開示するのは、ゲノム変異体解析、疾患可能性予測、解析および予測検証、ならびにカスタマイズされたレポート作成のためのシステムと方法である。そのようなシステムおよび方法を用いて、臨床医、研究者および/または患者に対し、信頼性の高い、変異体に基づく疾患の可能性の解析と予測を行うことができる。
【0010】
ゲノム配列決定とアライメントプロセスの実施例
図1は、ゲノム配列決定とアライメントのための例示的な運用環境におけるデータフローの一実施形態を示す流れ図である。
図1に例示するように、DNAサンプルは複数の患者110から取得できる。いくつかの実施形態では、90人を超える患者のDNAサンプルを取得し、一度にバッチ処理できる。いくつかの実施形態では、DNAサンプルは胎児から取得できる。他のいくつかの実施形態では、DNAサンプルは、他のさまざまな生体サンプルから取得できる。例えば、生体サンプルはヒト(乳幼児を含む)組織、動物組織、および大量の細胞を含む細胞株などの大きなサンプルなどであってよい。DNAサンプルは、例えば細胞が小さく数が限られている細胞株など、希少な資源、また場合によっては貴重な資源などの限られた資源から取得することもできる。DNAサンプルは、単一細胞から、または特定の精製およびさまざまな目的のための他の処理手順を経て取得できる。実施形態によっては、
図1の方法はブロックがこれより少なくても追加されていてもよく、かつ、ブロックは図示した順序とは異なる順序で実施できる。
【0011】
実施形態によっては、取得したDNAサンプルは多置換増幅(「MDA」)などの技術を用いて増幅できる。MDA増幅法は、取得したDNAサンプルを、ゲノム解析に十分な適量にまで短時間で増幅させることができる。従来のPCR増幅法と比べて、MDAは一般により低いエラー頻度でより大きな産物を生成する。
【0012】
いくつかの実施形態では、MDAプロセスは、サンプル調製、条件、反応の終了、およびDNA産物の精製などのステップを含む。MDA増幅プロセスの完了後、増幅されたDNAサンプル120を取得できる。
【0013】
本開示のいくつかの実施形態によれば、増幅されたDNAサンプルはライブラリ構築プロセスを行うことができる。ライブラリ構築プロセスの際、増幅されたDNAサンプル120を入れた試験管にはバーコード付きのラベルを貼付できる。例えば、増幅されたDNAサンプルが合計96ある場合、増幅されたDNAサンプル120を入れた試験管には、バーコード1からバーコード96が付いたラベルを貼付できる。増幅されたDNAサンプル120のライブラリ130はこのように構築できる。DNAサンプルをヒト(乳幼児を含む)組織、動物組織、および大量の細胞を含む細胞株などの大きなサンプルから取得した場合、DNA断片化法(せん断など)と、PCR増幅に基づくライブラリ構築法とを用いてライブラリ130を構築できる。DNAサンプルを、細胞が小さく数が限られている細胞株などの限られた資源から取得した場合、例えば、多置換増幅(MDA)や、多重アニーリングとループ化による増幅サイクル(MBLAC)に基づく増幅法などの他の方法を用いてライブラリ130を構築できる。いくつかの実施形態では、サンプルのバーコードに追加の関連情報を含むことができる。
【0014】
いくつかの実施形態では、増幅されたDNAサンプル120は、ライブラリ130として配列決定プロセスを行うことができる。いくつかの実施形態では、配列決定にIon Proton(登録商標)システムなどのシーケンサを使用できる。他のいくつかの実施形態では、配列決定のために他の最新式配列決定システムを使用できる。ショットガンシーケンシング、1分子リアルタイムシーケンシング、イオン半導体シーケンシング、パイロシーケンシング、合成によるシーケンシング、連結によるシーケンシング、チェーンターミネーションシーケンシングなど、さまざまな配列決定法からデータを取得し、生データ140を得るのに用いることができる。
【0015】
いくつかの実施形態では、配列決定カバレッジの品質と深度を確保するために、ライブラリ130の各サンプルを特定の深度に配列決定し、20×〜50×カバレッジを得ることができる。いくつかの実施形態では、配列決定プロセスにおいて、これより大きいまたは小さいカバレッジを実施できる。配列決定された各サンプルに対しカバレッジを上げる目的は、検出されるゲノム変異体が、配列決定人工産物ではなく必ず本物のゲノム変異体であるようにすることである。
【0016】
配列決定後、生データ140を取得できる。先のステップで用いられた特定の配列決定法に応じて、生データ140は、全ゲノム配列決定法および標的配列決定法の両方から取得が可能である。実施形態によっては、標的配列決定法は、部分ゲノムに対する標的配列決定、例えば全エクソーム配列決定、遺伝子のサブセットおよび/またはゲノムの特定の関心領域に対する配列決定などである。次いで、生データ140に、さらなる解析用パイプラインで他のステップを実施することができる。いくつかの実施形態では、生データ140で解読プロセスを実施できる。実施形態によっては、解読プロセスは、先に作成されたバーコードを読み取るステップを含むことができ、また、各個人/胎児と関連する生データが特定できるような方法で生データ140にアノテーション(注釈)を付けることができる。
【0017】
いくつかの実施形態では、患者配列150は配列処理ステップを行ってから、アライメントデータファイル180にすることができる。実施形態によっては、品質管理(「QC」)、フィルタリング、およびアライメントを含んでよい。処理後、アライメントした配列データ170を取得できる。いくつかの実施形態では、1つ以上の参照ゲノムをアライメントのために使用できる。いくつかの実施形態では、アライメントに使用できる参照ゲノムはヒトゲノム(hgl9、GRCh37)である。他のいくつかの実施形態では、他の参照ゲノムもアライメントに使用できる。配列データのアライメント後に、アライメントした配列データ170は、アライメント後クリーンアップを行い、アライメントデータファイル180にすることができる。いくつかの実施形態では、アライメントデータファイルはBAMまたはSAMファイルの形式であってよい。他のいくつかの実施形態では、アライメントデータファイル180は異なる形式であってよい。
【0018】
処理ステップの詳細は、
図2と併せてよりよく理解できる。
図2は、ゲノム配列決定結果を受け取った後の配列処理ステップの一実施形態を示す流れ図である。
図2の方法は配列処理モジュール530によって実施できる。実施形態によっては、
図2の方法はブロックがこれより少なくても追加されていてもよく、かつ、ブロックは図示した順序とは異なる順序で実施できる。
【0019】
方法200はブロック210から開始する。方法200はブロック215へ進み、ここで、配列処理モジュール530が、受け取った患者配列150で品質管理(「QC」)を実施できる。上述のように、患者配列150は胎児の配列を含んでもよい。
【0020】
いくつかの実施形態では、ブロック215で実施されるQCは、所望の配列深度に達したか、サンプル混同の可能性があるか、全体的な配列決定品質が良好かなどを検査するステップを含むことができる。いくつかの実施形態では、全体的な配列決定品質はPhredクオリティスコア(「Q20」ともいう)に基づいて決定できる。PhredはDNA配列トレースのためのBase−callingプログラムである。Phredの塩基特異的な品質スコアは4〜約60の範囲であってもよく、値が高くなるのに応じて一般にシーケンシングリードの質が高くなる。いくつかの実施形態では、品質スコアは、エラー確率に対数的に関係していてよい。いくつかの実施形態では、100b以上のPhredクオリティスコア(Q20)であれば、QCステップの配列決定品質要件を満たすのに十分であり得る。別の実施形態では、それより高いまたは低い閾値をカスタマイズおよび採用できる。
【0021】
方法200は判定ブロック220へ進み、ここで、受け取った患者配列150がQCチェックに問題なく合格したかを決定する。判定ブロック220に対する回答が「NO」(否定)であれば、いくつかの実施形態では、QCチェックに合格しない、受け取った患者配列150の一部はそれ以上処理できない。そのような場合、その後のステップは、再度配列決定するステップおよび/または低品質配列データの原因を調査するステップを含むことができる。他のいくつかの実施形態では、QCチェックに合格しない配列決定データに対し異なる手法をとることができる。
【0022】
判定ブロック220に対する回答が「YES」(肯定)であれば、方法200はブロック225へ進み、ここで、QCチェック済みの患者配列にフィルタリングを行うことができる。実施形態によっては、フィルタリングで、配列決定アダプタ、ならびに染料、低複雑性リード、および/または配列決定プラットフォーム特異的人工産物など一般的な汚染物質を除去できる。
【0023】
次いで、方法200はブロック230へ進み、ここで、QCチェックとフィルタリング済みの患者配列を、1つ以上の参照ゲノムにアライメントできる。先述のように、いくつかの実施形態では、参照ヒトゲノムhgl9、GRCh37を使用できる。別の実施形態では、1つ以上の他の参照ゲノムを使用してもよい。いくつかの実施形態では、配列処理モジュール530または別のモジュールを、参照ゲノム情報の更新を自動的に検索し、ゲノム配列決定解析とアライメントとに使用する参照ゲノムを更新するよう構成できる。
【0024】
方法200はブロック235へ進み、ここで、アライメント後クリーンアップを行う。いくつかの実施形態では、アライメント後クリーンアッププロセスは、PCR重複を除去するステップ、基本品質値を調整するステップを含むことができる。いくつかの実施形態では、アライメント後クリーンアッププロセスはGATKソフトウェアパッケージによって実行できる。次いで、方法200はブロック240で終了する。
【0025】
変異体解析と疾患の可能性予測プロセスの実施例
図3は、データベースクエリ、変異体解析、疾患の可能性の統計的予測、検証、およびカスタマイズされたレポート作成のプロセスの一実施形態を示す系統図と流れ図である。
図3では、方法300は1つ以上の疾患/変異体データ構造310を構成するステップを含む。疾患/変異体データ構造310は、複数のデータベース305から、疾患関連ゲノム変異体に関連する情報を引き出すステップを含むことができる。疾患ゲノム変異体アソシエーションの既存のデータベースは、不適切で低品質なデータを含むことがある。したがって、複数のデータベース305から受け取った情報から低品質データや不適切な情報を除去するステップを、1つ以上の疾患/変異体データ構造310の構成に含むことができる。
【0026】
いくつかの実施形態では、情報はOMIM(Online Mendelian Inheritance in Man)データベース、dbSNP、1000Genomesなどのデータベースから引き出すことができる。いくつかの実施形態では、関連疾患ゲノム変異体アソシエーション情報は、研究文献から引き出し、1つ以上の疾患/変異体データ構造310に含めることもできる。実施形態によっては、疾患/変異体データ構造310は、複数のデータベース305で新しいリリースが利用可能となったときに、自動的に更新するよう設定できる。
【0027】
いくつかの実施形態では、疾患/変異体データ構造310は、遺伝子位置やゲノム変異体の細部だけでなく、各変異体の種類も含むことができる。例えば、変異体の種類は、短い挿入/欠失(INDEL)、構造変異体(SV)、コピー数変異体(CNV)、一塩基置換(SNV/SNP)などであり得る。いくつかの実施形態では、単一ゲノム変異体は2種類以上の変異体に分類できる。例えば、大きな欠失はCNVとして定義することもできる。
【0028】
いくつかの実施形態では、疾患/変異体データ構造310は、関与する疾患を2つ以上の分類に区分けできる。いくつかの実施形態では、疾患は希少疾患と一般疾患とに分類できる。実施形態によっては、希少疾患は、アスペルガー症候群/障害、ボーエン病、腫瘍随伴性天疱瘡などの疾患などであり得る。希少疾患のリストは米国国立衛生研究所(NIH)のウェブサイトから入手できる。実施形態によっては、一般疾患は、ざ瘡、アレルギー、インフルエンザ、風邪、高山病、関節炎、背痛などであり得る。
【0029】
変異体解析モジュール320はアライメントデータファイル180を受け取り、アライメントデータファイル180を用いて変異体解析を行うことができる。例えば、変異体解析モジュール320は、BAM/SAMファイルをVCFファイルおよび/または他のファイルに変換するソフトウェアパッケージを用いることができる。変異体解析モジュール320は、変異体の遺伝子位置を特定する他の変異体呼び出し機能などを実行することもできる。
【0030】
いくつかの実施形態では、変異体解析320がアライメントデータファイルの処理を終了した後、検出された変異体を患者変異体データ構造360に保存できる。いくつかの実施形態では、検出された変異体は、変異体解析モジュール320によって疾患/変異体データ構造302から引き出される情報に基づくアノテーションと一緒に、患者変異体データ構造360に保存できる。
【0031】
変異体は変異体解析モジュール320によって検出された後、希少疾患用統計モジュール325と一般疾患用統計モジュール330とでこれを用いて、一般疾患の可能性、希少疾患の可能性および/または配列決定人工産物を決定できる。
【0032】
いくつかの実施形態では、一般疾患用統計モジュール330は、フィッシャーの正確確率検定などの統計解析モデルを用いて一般疾患の可能性を調べることができる。実施形態によっては、他の統計解析ツールを使用してもよい。さらに、いくつかの実施形態では、一般疾患の種類によって異なる統計解析ツールを用いることができる。他のいくつかの実施形態では、決定木、ナイーブベイズアルゴリズム、カーネル法、および/またはサポートベクターマシンなどの機械学習技術も一般疾患用統計モジュール330で使用できる。
【0033】
いくつかの実施形態では、一般疾患用統計モジュール330は、患者が一般疾患を発症する可能性を示すのに使用できる数値を生成できる。いくつかの実施形態では、カットオフ値を決定し、一般疾患を発症する可能性にこれを適用することにより、可能性がカットオフ値未満である一般疾患が、レポート作成モジュール345にそれ以上レポートされないようにできる。いくつかの実施形態では、2つ以上のカットオフ値を決定し、異なる種類の一般疾患に適用することができる。いくつかの実施形態では、カットオフ値を厳格に選択することにより、発症の可能性が高い一般疾患のみをレポート作成モジュール345にレポートできる。
【0034】
いくつかの実施形態では、希少疾患用統計モジュール325は、決定木、ナイーブベイズアルゴリズム、カーネル法、および/またはサポートベクターマシンなどの機械学習技術を用いて希少疾患の可能性を予測することができる。いくつかの実施形態では、特定の種類の希少疾患を、1つ以上の特定の機械学習技術と関連付けることができる。さらに、希少疾患用統計モジュール325は配列決定エラーの可能性を決定することもできる。可能性値は、変異体が、患者または胎児に実際に存在する変異体ではなく、配列決定エラーの結果である可能性を決定できる。いくつかの実施形態では、配列決定エラーの可能性テストに合格した疾患関連変異体のみをレポート作成モジュール345にさらにレポートできる。
【0035】
いくつかの実施形態では、希少疾患用統計モジュール325は、患者が希少疾患を発症する可能性を示すのに使用できる数値を生成できる。いくつかの実施形態では、カットオフ値を決定し、希少疾患を発症する可能性にこれを適用することにより、可能性がカットオフ値未満である希少疾患が、レポート作成モジュール345にそれ以上レポートされないようにできる。いくつかの実施形態では、2つ以上のカットオフ値を決定し、異なる種類の希少疾患に適用することができる。いくつかの実施形態では、カットオフ値を厳格に選択することにより、発症の可能性が高い希少疾患のみをレポート作成モジュール345にレポートできる。
【0036】
レポート作成モジュール345は、それぞれ統計モジュール325および330から受け取った希少疾患および一般疾患のリスト、各疾患のそれぞれの可能性、ゲノム変異体情報、ならびに/または他の関連情報を収集し、受け取った各疾患と変異体の情報が、疾患可能性の1つ以上のカットオフ値と配列決定エラーとに合格したかを検証できる。次いで、レポート作成モジュールが、希少疾患および一般疾患関連変異体の最初のリストを検証ステップ350に提出し、さらに検証を行うことができる。
【0037】
いくつかの実施形態では、検証ステップ350は、PCRおよび/または再配列決定を実行するステップを含むことにより、1つ以上の希少疾患または一般疾患を引き起こすと予測される同定された変異体が、配列決定エラーによって生成された人工産物でないことを検証できる。他のいくつかの実施形態では、他の検証技術を用いて、同定された変異体の存在を正確かつ安価に検証できる。
【0038】
変異体に関係する各検証ステップの完了時に、検証の結果をレポート作成モジュール345に折り返しレポートできる。いくつかの実施形態では、レポート作成モジュールは、1つ以上のカスタマイズされたレポート360を、レポートの閲覧者の特定のニーズに基づいて作成できる。例えば、レポートの閲覧者が医師である場合、医師向けにカスタマイズされたレポート360は、可能性値によってランク付けできる希少/一般疾患の可能性;変異体位置、参照ゲノム配列、変異体ゲノム配列などの変異体情報;検証の結果;配列決定パラメーター;アライメントパラメーター;および/または検証パラメーターなどの情報を含むことができる。例えば医薬品情報など、追加的な情報があれば、それも含むことができる。
【0039】
いくつかの実施形態では、レポートの閲覧者が、患者、または患者および/もしくは胎児の親戚、友達、および/もしくは家族である場合、カスタマイズされたレポート360は、医師向けのレポートにも含まれる情報を含むことができる。加えて、カスタマイズされたレポート360は、患者やその家族のために、疾患や変異体に関する学術用語や専門用語の解釈に役立つ情報を含むことができる。さらに、カスタマイズされたレポート360は、翻訳された項目、段落、および/または他の情報を含むことで、英語が第一言語でない患者やその家族が、作成されたレポートの科学的・技術的詳細をよりよく理解できるようにできる。
【0040】
図4は、ユーザが、カスタマイズされた変異体解析と疾患可能性レポートとを、そのような解析および/またはレポートの検証に関する情報を含めて作成できるよう作成し、ユーザに提示できる例示的なユーザインターフェースである。
図4では、例示的なユーザインターフェース400は、使用される配列決定と検証の方法へのリンク402を含むことができる。いくつかの実施形態では、配列決定と検証の方法(Sequencing and Validation Methods)402は、ユーザインターフェース400に直接表示することもできる。
【0041】
例示的なユーザインターフェース400は、少なくとも一部は疾患の可能性に基づいて、最上位の可能性のある疾患のリストを含むことができる。いくつかの実施形態では、一般疾患と希少疾患に対しそれぞれ最上位の可能性のある疾患の個別リストを作成できる。例示的なユーザインターフェース400では、例えば可能性のある疾患(Possible Disease)1〜8(マーキングした404〜420)をリストアップし、オプションとして、レポートに表示される、可能性のある疾患のそれぞれ、そのサブセット、またはそのすべてを選択できる。
【0042】
図6Aは、疾患リスク、キャリア状態、形質、および/または薬物反応などの情報を含むことができる臨床レポートの実施形態である。
図6Aでは、臨床レポート(Clinical Report)を作成して医師、患者、患者の家族などに提示できる。図示する例示的なレポート600は、患者の名前、疾患リスク、キャリア状態、患者の形質、および/または配列決定データとゲノム配列に関係する変異体とを見るためのリンク620などの情報を含むことができる。
【0043】
いくつかの実施形態では、臨床レポートで患者に提示される疾患リスクは、数値または図表で表される疾患の可能性を含むこともできる。
【0044】
実施形態によっては、リンク610などのリンクをクリックすることにより、疾患リスク記載項目またはキャリア状態記載項目に関連する各変異体(Variant)をさらに調査できる。例示的なレポート600にリストアップされる各変異体に関する詳細を作成し、ユーザに自動的に提示できる。
【0045】
図6Bは、変異体、疾患関連性、疾患の可能性、および疾患遺伝子などの情報を含むレポートの実施形態である。実施形態によっては、例示的なレポート650などのレポートは、特定の変異体に関する詳細を含むことができる。この実施例には変異体1(付番615)を示す。これはSNV(単一ヌクレオチド変異体)という種類で、このSNVはGからCへの突然変異などである。関連している可能性のある疾患はX病で、疾患の確率が99%である。宿主/隣接遺伝子は遺伝子Xである。
【0046】
図6Cは、1つ以上のゲノム変異体に関連する特定の疾患リスクを示すよう作成し、ユーザに提示できるユーザインターフェースの実施形態である。
図6Cのこの実施形態には、遺伝子OGT(641)と遺伝子CXorf65とを示す。各遺伝子のゲノム座標も表示する。例えば、OGTのゲノム座標は70711329である。いくつかの実施形態では、各遺伝子のdbSNP ID(例えば、643)も、対立遺伝子情報とともに表示できる。いくつかの実施形態では、遺伝子の染色体地図を表示できる。ユーザインターフェース640には、実施形態に応じて、例示的な実施形態645に示すように、リスク対立遺伝子の数と疾患リスクの可能性(百分率値)とを示す棒グラフを作成し、ユーザに提示することもできる。他のいくつかの実施形態では、他の種類の図表を作成して同様の情報を表示できる。他の種類の図表は、散布図、円グラフなどであってよい。
【0047】
図6Dは、患者の特定のゲノム変異体に関する詳細の実施形態である。この特定の実施例では、疾患に関連している可能性のある変異体に関するより詳細な情報を調査できる。例示的なユーザインターフェース650では、OGTの記号が付いた遺伝子が同定されている。遺伝子OGTによってコードされたタンパク質の機能に関する情報が、遺伝子の染色体位置、説明、および別名とともに提供される。いくつかの実施形態では、ユーザインターフェースに外部リンクを提供できる。例えば、ユーザインターフェース650は、UCSC Genome Browser、NCBI Gene、NCBI Protein、OMIM、Wikipediaなどへのリンクを含むことができる。
【0048】
図7は、ユーザおよびその潜在的な疾患リスクに関係する可能性のある家系関連情報を示し、作成してユーザに提示することができるインターフェース700の実施形態であり。例えば、個人間の遺伝的距離に関する情報を、ユーザインターフェース700に示すようなツリー形式で表示できる。いくつかの実施形態では、関係する可能性のある別の個人の遺伝的変異体や疾患リスクに関する情報が入手できる場合、そのような情報を患者が利用できるようにすることができる。実施形態によっては、そのような情報へのリンクを、ツリー形式で患者に表示できる。さらに、いくつかの実施形態では、医師がユーザインターフェース700に示すようなツリー形式の図式を見て、関連する個人の集団において共通の遺伝的変異体および/または他の家系情報および、または社会的情報を見つけることができるかもしれない。
【0049】
図8は、患者のゲノム配列データに関するゲノム配列決定変異体ファイルを視覚化するレポートを提供するユーザインターフェースの実施形態である。例示的なVCFファイルビューア660に示すように、各染色体に関係する変異体がハイライトされている。いくつかの実施形態では、インターフェース800は表示された染色体の少なくとも一部に、クリック可能なリンクを含むことができ、ユーザがこのリンクを追って特定の配列情報を閲覧できるようにする。
【0050】
図9Aは、疾患の確率の警告を作成し、ユーザに提示できる疾患予測レポートテンプレートの実施形態であり、このテンプレートは、突然変異と関連疾患リスクの棒グラフ表示を含むことができる。テンプレート900では、棒グラフは疾患リスクの割合と突然変異の数との関係を示す特定の疾患リスク925の指標を含むことができる。いくつかの実施形態では、テンプレート900は、疾患/変異体データ構造302から検索された関連疾患情報、例えば疾患の説明、疾患の種類(例えば、単一遺伝子疾患)、それについて予測レポートが作成される、関連疾患を引き起こす遺伝子/突然変異のリスト、および同定された突然変異のリストも含むことができる。
【0051】
いくつかの実施形態では、テンプレート900は、疾患予測レポートの染色体図へのリンク915も含むことができる。いくつかの実施形態では、疾患予測レポートの染色体図は、関連変異体の位置を、その変異体だけでなく、もっとも近い遺伝子や疾患遺伝子といった情報などその変異体を取り巻くゲノム環境に関する情報とともに表示できる。実施形態によっては、テンプレート900は疾患を発症する可能性がとりわけ高いことについてユーザに警告を表示し、専門家の助けを求めるよう患者に助言できる。いくつかの実施形態では、ユーザがリストの閲覧を希望する場合に、特定の疾患領域に関する専門家のリスト930を作成し、ユーザに表示できる。
【0052】
図9Bは、疾患のリスクを示すよう作成し、ユーザに提示できる疾患予測レポートテンプレートの実施形態であり、このテンプレートは、遺伝子型データと関連疾患リスクの散布図表示を含むことができる。テンプレート950では、散布
図965は疾患リスクの割合とリスク遺伝子型の数との関係を示すことができる特定の疾患リスクの指標を含むことができる。いくつかの実施形態では、テンプレート950は、疾患/変異体データ構造302から検索された関連疾患情報、例えば疾患の説明、疾患の種類(例えば、単一遺伝子疾患)、それについて予測レポートが作成される、関連疾患を引き起こす遺伝子/突然変異のリスト、および同定された突然変異のリストも含むことができる。
【0053】
いくつかの実施形態では、テンプレート950は、疾患予測レポートの染色体図へのリンク915も含むことができる。いくつかの実施形態では、疾患予測レポートの染色体図は、関連変異体の位置を、その変異体だけでなく、もっとも近い遺伝子や疾患遺伝子といった情報などその変異体を取り巻くゲノム環境に関する情報とともに表示できる。実施形態によっては、テンプレート950は、疾患を発症する可能性がとりわけ高いことについてユーザに警告を表示し、専門家の助けを求めるよう患者に助言できる。いくつかの実施形態では、ユーザがリストの閲覧を希望する場合に、特定の疾患領域に関する専門家のリスト960を作成し、ユーザに表示できる。
【0054】
データ処理システムの実施例
図5は、ゲノム配列変異体解析データおよび疾患可能性データを計算し、提示するシステム510の一実施形態を示すブロック図である。
【0055】
図5のこの実施形態では、変異体解析モジュール514、統計モジュール516、配列処理モジュール530、およびレポート作成モジュール526が、患者や胎児に関するゲノム配列と変異体に関する情報、および疾患関連性情報を保存できる大容量記憶装置512と交信する。
【0056】
いくつかの実施形態では、レポート作成モジュール526は、I/Oインターフェースおよび装置522を通じて消費者に提示できるユーザインターフェースを作成するようにとの命令を実行することもできる。いくつかの実施形態では、本開示におけるデータ保存は、Sybase、Oracle、CodeBaseおよびMicrosoft(登録商標)SQL Server、ならびに他の種類のデータ構造、例えば、フラットファイルデータベース、エンティティリレーションシップデータベース、オブジェクト指向データベース、記録ベースのデータベース、および/または非構造化データベースなどのリレーショナルデータベースを用いて実行できる。
【0057】
コンピュータシステム510は、例えば、IBM、Macintosh、もしくはLinux(商標登録)/Unix(商標登録)互換であり得るコンピュータ、またはサーバ、またはワークステーションなどであってよい。一実施形態では、コンピュータシステム510は、例えば、サーバ、デスクトッ型プコンピュータ、タブレット型コンピュータ、ラップトップ型コンピュータを含む。一実施形態では、例示的なコンピュータシステム510は1つ以上の中央処理装置(「CPU」)520を含み、このCPUはそれぞれ従来の、または独自のマイクロプロセッサを含むことができる。コンピュータシステム510は、情報の一時記憶用のランダムアクセスメモリ(「RAM」)などの1つ以上のメモリ524、情報の永久記憶用の1つ以上のリードオンリーメモリ(「ROM」)、および1つ以上の大容量記憶装置512、例えばハードドライブ、フロッピー(商標登録)ディスク、ソリッドステートドライブ、または光学式記録媒体などをさらに含む。典型的には、コンピュータシステム510のモジュールは、規格に準拠したバスシステム528を用いてコンピュータに接続されている。異なる実施形態では、規格に準拠したバスシステムを、例えば、周辺機器相互接続(「PCI」)、MicroChannel、小型コンピュータシステムインターフェース(「SCSI」)、インダストリースタンダードアーキテクチャー(「ISA」)および拡張ISA(「EISA」)アーキテクチャーに実装できよう。加えて、コンピュータシステム510のコンポーネントとモジュールとに設けられている機能を、より少ないコンポーネントとモジュールとにまとめること、または、追加的なコンポーネントとモジュールとにさらに分けることができる。
【0058】
コンピュータシステム510は、一般に、オペレーティングシステムソフトウェア、例えばWindows(商標登録) XP、Windows(商標登録) Vista、Windows(商標登録)7、Windows(商標登録) 8、Windows(商標登録) Server、Unix(商標登録)、Linux(商標登録)、SunOS、Solaris、または他の互換オペレーティングシステムによって制御および調整する。Macintoshシステムでは、オペレーティングシステムは、MAC OS Xなど任意の利用可能なオペレーティングシステムであってよい。別の実施形態では、コンピュータシステム510は、独自のオペレーティングシステムによって制御できる。従来のオペレーティングシステムは、特に、コンピュータ実行プロセスを制御および予定し、メモリ管理を実行し、ファイルシステム、ネットワーク、I/Oサービス、およびグラフィカルユーザインターフェース(「GUI」)などのユーザインターフェースを提供する。
【0059】
例示的なコンピュータシステム510は、1つ以上の一般に入手可能な入出力(I/O)装置およびインターフェース522、例えば、キーボード、マウス、タッチパッド、およびプリンタを含むことができる。一実施形態では、I/O装置およびインターフェース522は、ユーザにデータの視覚的プレゼンテーションを可能にするモニタなど、1つ以上の表示装置を備える。より具体的には、表示装置は、例えば、GUIやアプリケーションソフトウェアデータの表示、およびマルチメディア表示を提供する。コンピュータシステム510は、1つ以上のマルチメディア機器、例えばスピーカ、ビデオカード、グラフィックアクセラレータ、およびマイクロフォンなども含むことができる。
【0060】
図5の実施形態では、I/O装置およびインターフェース522は、さまざまな外部装置との通信インターフェースを提供する。このモジュールは、例として、ソフトウェアコンポーネント、オブジェクト指向ソフトウェアコンポーネント、クラスコンポーネントおよびタスクコンポーネントなどのコンポーネント、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、表、アレイ、および変数を含むことができる。
図5に示す実施形態では、コンピュータシステム510は、本書の他の場所に記述する機能を実装するために、変異体解析モジュール514、統計モジュール516、配列処理モジュール530、およびレポート作成モジュール526を実行するよう構成されてもいる。
【0061】
一般に、本書で使用する用語「モジュール」は、ハードウェアもしくはファームウェアに組み込まれる論理、または、例えばJava(商標登録)、Lua、CもしくはC++などのプログラミング言語で書かれた、場合によっては入口点と出口点とを有するソフトウェア命令の集合を指す。ソフトウェアモジュールは、ダイナミックリンクライブラリにインストールされた実行可能プログラムにコンパイルし、リンクするか、または、例えばBASIC、PerlまたはPythonなどのインタプリト型プログラミング言語で書き込むことができる。当然のことながら、ソフトウェアモジュールは、他のモジュールもしくはそれ自体から呼び出すこと、および/または、検出されたイベントもしくは割り込みに応じて呼び出すことができる。計算装置での実行用に構成されたソフトウェアモジュールは、コンパクトディスク、デジタルビデオディスク、フラッシュドライブ、または任意の他の有形媒体などのコンピュータ可読媒体で提供できる。そのようなソフトウェアコードは、一部または全部を、コンピュータシステム510などの実行計算装置の記憶装置に保存し、計算装置によって実行できる。ソフトウェア命令は、EPROMなどのファームウェアに埋め込むことができる。さらに当然のことながら、ハードウェアモジュールは、ゲートおよびフリップフロップなどの接続される論理演算装置で構成、ならびに/または、プログラマブルゲートアレイもしくはプロセッサなどのプログラマブルユニットで構成できる。本書に記述するモジュールは、好ましくは、ソフトウェアモジュールとして実装されるが、ハードウェアまたはファームウェアで実現してもよい。一般に、本書に記述するモジュールは、物理的構成または記憶装置にかかわりなく、他のモジュールと組み合わせたり、サブモジュールに分割したりできる論理モジュールを指す。
【0062】
いくつかの実施形態では、本書に記述する1つ以上のコンピュータシステム、データストアおよび/またはモジュールは、1つ以上のオープンソースプロジェクトまたは他の既存のプラットフォームを用いて実装できる。例えば、本書に記述する1つ以上のコンピュータシステム、データストアおよび/またはモジュールは、一部は、以下の1つ以上と関連する技術を活用することにより実装できる:Drools、Hibernate、JBoss、Kettle、Spring Framework、NoSQL(例えば、MongoDBによって実装されるデータベースソフトウェア)および/またはDB2データベースソフトウェア。
【0063】
他の実施形態
前述のシステムと方法を、特定の実施形態に関して記述してきたが、本書の開示から当業者には他の実施形態が明らかとなろう。さらに、他の組み合わせ、省略、置き換えおよび変更が、本書の開示に照らして当業者には明らかとなろう。本発明のいくつかの実施形態を記述してきたが、これらの実施形態はほんの一例として提示しており、本発明の範囲を制限するものではない。実際、本書に記述する新規の方法とシステムは、その趣旨から逸脱することなく、他のさまざまな形式で具現化できる。さらに、実施形態に関係した、任意の特定の特徴、態様、方法、性質、特性、品質、属性、要素などの本書における開示は、本書に記載する他のすべての実施形態で用いることができる。
【0064】
本書に記述するすべてのプロセスは、1つ以上の汎用コンピュータまたはプロセッサによって実行されるソフトウェアコードモジュールに組み込み、これを用いて完全に自動化できる。コードモジュールは、任意の種類のコンピュータ可読媒体または他のコンピュータ記憶装置に保存できる。別法として、いくつかの、またはすべての方法は、専門のコンピュータハードウェアで具体化できる。加えて、本書で言及されるコンポーネントは、ハードウェア、ソフトウェア、ファームウェアまたはそれらの組み合わせに実装できる。
【0065】
条件法の用語、特に「can(できる)」、「could(できよう)」、「might(かもしれない)」または「may(てあってよい)」は、特に明記しない限り、文脈において、一般に、特定の実施形態が特定の特徴、要素および/またはステップを含むのに対し、他の実施形態がそれを含まないことを伝えるのに用いられると理解される。したがって、そのような条件法の用語は、特徴、要素および/もしくはステップが何らかの形で1つ以上の実施形態に必要であること、または、これらの特徴、要素および/もしくはステップが任意の特定の実施形態に含まれるか、任意の特定の実施形態で実行可能であるかは別として、1つ以上の実施形態が、ユーザ入力またはプロンプティングの有無にかかわらず、決定のための論理を必然的に含むことを一般に意味するものではない。
【0066】
本書に記述する、および/または添付の図面に描写する流れ図の任意のプロセス説明、要素またはブロックは、特定の論理関数または要素をプロセスに実装するための1つ以上の実行可能な命令を含むモジュール、セグメント、またはコードの一部を潜在的に表していると理解されるべきである。代替実装は、本書に記述する実施形態の範囲内に含まれ、その中で、当業者が理解するような関係する機能に応じて、要素または機能を削除すること、図示または説明とは異なる順序で(実質的に同時、または逆の順序も含む)実行することができる。