(58)【調査した分野】(Int.Cl.,DB名)
配列データを前処理し、前処理された配列データを生成するよう構成された複数のシーケンシングデバイスであって、前記前処理された配列データが配列データと注釈を含み、前記注釈が前記配列データと既存のゲノムデータベースの間のアライメントデータを含む、複数のシーケンシングデバイスと、
前記複数のシーケンシングデバイスから、複数の患者の前記前処理された配列データを取得するように構成されたシーケンシングデバイスインターフェースと、
解析ネットワークと、
シーケンシングデバイスインターフェースに結合された、患者特異的な解析ネットワークトポロジーを有するゲノム解析エンジンを形成する解析ネットワークを経由して相互接続され、前記前処理された配列データに基づいて、患者からの配列データを、患者特異的な解析ネットワークトポロジーの処理経路にしたがって、患者特異的なゲノムデータに並列に処理するように構成された複数の解析ノードと
を含む、ゲノム解析システム。
前記シーケンシングデバイスインターフェースが、少なくとも5台のシーケンシングデバイスから並列に前記配列データを得るように構成される、請求項1に記載のシステム。
前記シーケンシングデバイスインターフェースが、少なくとも10台のシーケンシングデバイスから並列に前記配列データを得るように構成される、請求項11に記載のシステム。
前記シーケンシングデバイスインターフェースが、少なくとも100台のシーケンシングデバイスから並列に前記配列データを得るように構成される、請求項1に記載のシステム。
前記通知が、処理ステータス、解析エンジン管理ステータス、アラート、アラーム、シーケンシングデバイス命令、解析推奨、予後、診断およびノード間通信のうちの少なくとも1つを含む、請求項16に記載のシステム。
前記ルートが、ケアの現場、シーケンシングデバイス、患者およびヘルスケアサービス提供元のうちの少なくとも1つに通知が送信されることを可能にする、請求項19に記載のシステム。
前記解析エンジンが、前記解析ノードの中の処理ルートを確立し、それに従って、前記シーケンスされたデータおよびゲノムデータのうちの少なくとも1つがルーティングされるように構成されることを特徴とする請求項1に記載のシステム。
前記ゲノムデータが、前記正規化されたゲノム配列に対して、ホットスポット、重み付き参照点、および解析のための優先順位のうちの少なくとも1つを含む、請求項35に記載のシステム。
少なくとも1つの解析ストリームオブジェクトに関する少なくとも1つのストリーム管理機能性に従って、前記解析エンジンを管理するように構成されたゲノムストリーム管理ノードをさらに含む、請求項1に記載のシステム。
前記解析データストリームが、シーケンシングデバイスからシーケンシングデバイスインターフェースおよび解析エンジンを介して、出力デバイスに延びる、請求項39に記載のシステム。
前記少なくとも1つのストリーム管理機能性が、解析ルートの変更、ストリームオブジェクトに従う解析ストリームのインスタンス生成、解析ストリームオブジェクトに基づくトランザクションの実行、解析の改変、解析ストリームオブジェクトに基づく通知トリガー基準の構築、および解析ストリームの脱構築のうちの1つを含む、請求項38に記載のシステム。
ユーザーが前記シーケンシングデバイスインターフェースを経由して前記シーケンシングデバイスにフィードバックを提供することを可能にするように構成された管理インターフェースをさらに含む、請求項1に記載のシステム。
前記シーケンシングデバイス命令が、標的の配列領域のシーケンスを反復すること、シーケンシングを中断すること、シーケンスを開始すること、充分なトリガーでデータを送信すること、シーケンシングデバイスから配列データを削除すること、管理命令にライセンスを与えること、配列イベントに優先順位を付けること、配列データの命令を転送すること、およびシーケンスのスケジューリングを行うことのうちの少なくとも1つを含む、請求項44に記載のシステム。
前記ユーザーが、解析ノード、ヘルスケア提供元、研究者、シーケンシングデバイスマネージャー、解析システムマネージャー、および患者のうちの少なくとも1つを含む、請求項43に記載のシステム。
前記シーケンシングデバイスインターフェースが、配列データを表わす画像データに適用された画像認識アルゴリズムを介して、配列データを取得するように構成される、請求項1に記載のシステム。
前記シーケンシングデバイスが、連続時間符号化振幅顕微鏡法(STEAM)を経由して前記画像データをDNA塩基に翻訳するようにさらに構成される、請求項47に記載のシステム。
前記解析エンジンが、配列データを表わす画像データに適用された画像認識アルゴリズムを介して、配列データを取得するように構成される、請求項1に記載のシステム。
前記解析エンジンが、連続時間符号化振幅顕微鏡法(STEAM)を経由して前記画像データをDNA塩基に翻訳するようにさらに構成される、請求項50に記載のシステム。
配列データを前処理して前処理された配列データを生成するよう構成された複数のシーケンシングデバイスであって、前記前処理された配列データが配列データと注釈を含み、前記注釈が診断コードを含む、複数のシーケンシングデバイスと、
前記複数のシーケンシングデバイスから、複数の患者の前記前処理された配列データを取得するように構成されたシーケンシングデバイスインターフェースと、
解析ネットワークと、
シーケンシングデバイスインターフェースに結合された、患者特異的な解析ネットワークトポロジーを有するゲノム解析エンジンを形成する解析ネットワークを経由して相互接続され、前記前処理された配列データに基づいて、患者からの配列データを、患者特異的な解析ネットワークトポロジーの処理経路にしたがって、患者特異的なゲノムデータに並列に処理するように構成された複数の解析ノードと
を含む、ゲノム解析システム。
【発明を実施するための形態】
【0020】
以下の説明はコンピューター/サーバーに基づくゲノム解析システムに対して描かれているが、様々な代替の構成も好適であると考えられ、様々な計算デバイス(サーバー、インターフェース、システム、データベース、エージェント、ピア、エンジン、モジュール、コントローラー、または個別もしくは集合的に操作する他のタイプの計算デバイスが含まれる)を用いることができるということが、言及されるべきである。かかる用語は、有形の非一時的なコンピューター読み取り可能なストレージメディア(例えばハードドライブ、ソリッドステートドライブ、RAM、フラッシュ、ROM、メモリ、分散型メモリなど)で記憶されたソフトウェア命令を実施するように構成された、少なくとも1つのプロセッサー(おそらくマルチコアプロセッサー)を含む、計算デバイスを表わすと見なされるということが、認識されるべきである。ソフトウェア命令は、好ましくは、開示した装置に関して以下に論じられるような役割、責任、または他の機能性を提供する、計算デバイスを構成またはプログラムする。特に好ましい実施形態において、様々なサーバー、システム、データベースまたはインターフェースは、おそらく,HTTP、HTTPS、AES、公開鍵−秘密鍵交換、ウェブサービスAPI、公知の金融取引プロトコル、または他の電子情報交換方法に基づいて、規格化されたプロトコルまたはアルゴリズムを使用して、データを交換する。データ交換は、好ましくは、パケットスイッチネットワーク、インターネット、LAN、WAN、VPNまたは他のタイプのパケットスイッチネットワークにわたって行われる。
【0021】
開示した手法は、多くの有利な手法的効果(ゲノム解析デバイスを構成する1つ以上のシグナルを生成してゲノム解析に参加することが含まれる)を提供するということが、認識されるべきである。シグナルは遺伝子配列から導出された情報に従って生成することができる。さらに、シグナルは、解析、ルーティング、ストレージ、通知、ライセンス管理、管理、アラート、インベントリ、ロギング、レポーティング、セキュリティ、メタデータ、ダッシュボード、解析ストリームフロー、またはゲノム解析の他の態様に影響するパラメーターがおそらく含まれる、構成パラメーターを表わすことができる。
【0022】
以下の考察は、本発明の主題の多くの実施形態例を提供する。各実施形態は発明の要素の単一の組み合わせを表わすが、本発明の主題は開示した要素のすべての組み合わせを含むと判断される。したがって、一実施形態が要素A、BおよびCを含み、第2の実施形態が要素BおよびDを含むならば、その時、本発明の主題は、たとえ明確に開示されなかったとしても、A、B、CまたはDの他の残りの組み合わせも含むと判断される。
【0023】
本明細書における説明において、および続く特許請求の範囲にわたって使用されるように、「1つの(a)」、「1つの(an)」および「その(the)」の意味には、文脈が明確に指示しない限り、複数の参照が含まれる。さらに、本明細書における説明中で使用されるように、「〜中(in)」の意味には、文脈が明確に指示しない限り、「〜中(in)」および「〜上(on)」が含まれる。
【0024】
本明細書において開示される本発明の代替の要素または実施形態の群分けは、限定として解釈するべきできない。各群メンバーを、個別に、または群の他のメンバーもしくは本明細書において見出される他の要素との任意の組み合わせで、参照および請求することができる。群のうちの1つ以上のメンバーは、利便性および/または特許性の理由のために群中に包含または削除することできる。任意のかかる包含または削除が起こる場合、本明細書は、添付の請求項中で使用されるすべてのマーカッシュ群の書面の説明を満たすように修飾された群を含有すると本明細書において見なされる。
【0025】
本明細書において使用される時、および文脈が規定しない限り、「〜に結合された」という用語には、直接的結合(相互に結合された2つの要素が互いに接触する)および間接的結合(少なくとも1つの追加の要素は2つの要素の間に設置される)の両方が含まれることが意図される。したがって、「〜に結合された」および「〜と結合された」という用語は、同義的に使用される。さらに、「〜に結合された」および「〜と結合結合された」という用語は、「〜と通信可能に結合され」、ネットワークデバイスがおそらく1つ以上の中間デバイスを経由してネットワークにわたって互いと通信できることを意味するように婉曲に使用される。
【0026】
概要
好ましいゲノム解析ストリーム管理システムは、生配列データを事前解析、注釈または解析して、ゲノムデータの解析結果を生成するための大規模にスケーラブルなシステムを含む。企図されたシステムは、ゲノムデータ上のリアルタイムで利用可能な即時の情報を、ヘルスケア提供元、患者、科学者または他のユーザーに対して提供するために有用である。以前の手法は、およそ30億塩基対のヒトゲノムをシーケンスし、20,000〜25,000遺伝子をマップするには、数日、数週間または数か月かかり得るが、このゲノム解析システムは数分または数時間で応答の早い目標を達成することができる。システムは、生遺伝子データを前注釈すること、複数の解析ノードに対して注釈された遺伝子データのパケットを構造解析すること、大規模な大陸全域の解析ネットワーク上で並列にこれらの解析を実行すること、およびおそらくケアの現場、患者、ヘルスケア提供元、科学者もしくは研究者または他のユーザーに対して、通知を送受信することによってこの目標を達成する。このシステムの効率性および迅速性は、ハイスループットネットワークを経由して複数の解析ノード上で操作される平行な解析に起因する。ゲノムデータ結果は、配列データ上での予後、診断または他の解析を非常にタイムリーな様式で提供することができる。
【0027】
ゲノム解析ストリーム管理システムは、ネットワークを通してデータストリームも管理する。管理システムは、処理ルートを確立すること、トラフィック負荷もしくは解析負荷に基づいてルートを調整すること、解析エンジンを管理すること、解析を開始もしくは改変すること、配列データ結果においてより高い信頼レベルを獲得するために追加の解析を要求すること、またはインプット、処理、解析もしくは出力を効率的に管理する他のアクション行うことができる。
【0028】
ゲノムデータは、大規模な遺伝的データ(例えば、倍数性/核型、ヘテロ接合性、対立遺伝子頻度などのデータが含まれる静的ゲノム情報に加えて、静的情報における変化の時間経過、進化解析データなどが含まれる動的ゲノム情報)、高解像度のデータ(例えばゲノムDNA、コンティグに対するcDNAデータ、組み立てられたコンティグ、染色体、遺伝子、および/または疾患関連配列情報、部分的または完全なトランスクリプトームデータ、hnRNA、mRNA、snRNA、siRNA、スプライスバリアントが含まれる様々なタイプのRNAデータなど)に加えて、核酸の群(複数可)の情報(例えばコドン使用頻度、特にRNAについてのまれな核酸塩基)であってよい。さらに、ゲノムデータは文脈情報も含み得ること、および特に好ましい文脈上の情報は、配列が従属するか参加する制御経路に関連するデータを含むこと、そこで制御経路は、複製レベル、アポトーシスレベル、転写レベル、翻訳レベルまたは翻訳後レベル上であってよいことが認識されるべきである。したがって、情報が、核酸配列によってコードされたタンパク質産物の活性または機能とも関係/連関し得るおよび/またはプロテオミクスデータに関連し得ることが指摘されるべきである。なおさらなる企図された態様において、ゲノムデータは疾患関係情報(例えば病原体または病態生理学と関連付けた配列および/または調節性データ)も含むかまたは関連し得る。
【0029】
分散型解析システムネットワークは、コンピューター/サーバーに基づくゲノム解析システムまたは計算デバイスの任意の構成(サーバー、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラー、または個別もしくは集合的に操作する他のタイプの計算デバイスが含まれる)であってよい。解析システムは複数の解析ノードを有することができ、当該システムにおいてノード自体を地理的に分散させることができる。開示した分散型ゲノム解析ストリーム管理システムにおける使用に適合させることができる分散型ネットワークシステムの一例には、National LambdaRail(商標)(NLR)が含まれる。
【0030】
ノードは、大学または連邦研究所に加えて、解析を行う可能性のある国際設備において国にわたって分散させることができる。NLRは、その13のメンバー(CENIC、Florida LambdaRail、Front Range GigaPoP/University Corporation for Atmospheric Research、Lonestar Education and Research Network、Mid−Atlantic Terascale Partnership:MATP / Virginia Tech Foundation、North Carolina Light Rail、Oak Ridge National Laboratory、Oklahoma State Regents for Higher Education、Pacific Northwest Gigapop、Pittsburgh Supercomputing Center / University of Pittsburgh、Southeastern Universities Research Association、Southern Light Rail、およびUniversity of New Mexico(ニューメキシコ州を代表して))と連関した地域ネットワークを有する。
【0031】
図1中で、本出願人によるアクセス可能なNational LambdaRail(商標)(NLR)190が提示される。
【0032】
NLR190は、企図された分散型解析システムのためのバックボーンとして機能することができる全国的で先進的光ネットワークインフラストラクチャーである。NLR190は、米国一帯で12,000マイルおよび21州をカバーする高速光ファイバーネットワークインフラストラクチャーである。NLR190は商業的な回線事業者が行うような使用上の制約を課さず、ユーザーに全体的なフレキシビリティおよび制御を提供する。1600Gbpsの総容量、40Gを実装した製品、および100Gのために進行中のプランニング(2012年時点で)を備えて、NLR190は、広範囲の先進的研究プロジェクトおよび官民のパートナーシップのための最先端のネットワークプラットフォームである。280を超える参加大学および連邦研究所がNLR190を使用する。NLR190は最初の大陸横断型の10ギガビットのイーサネットネットワーク製品である。NLR190は、5つの国際的な交換ポイントを有し、Global Lambda Integrated Facilityとの提携を経由して世界中の他のネットワークへのリンクを有する。
【0033】
ゲノム解析ストリーム管理システム
図2は、ゲノム解析システム200の概要を示す。
【0034】
解析エンジン240は、ネットワーク(NLR290、光ファイバーネットワーク、統合もしくはスタンドアロンの広域ネットワーク、都市規模ネットワーク、企業プライベートネットワーク、仮想プライベートネットワーク、イントラネット、無線ネットワーク、または他のネットワーク等)によって相互に接続された多くのノード(例えば、ノード230,231,232,233,234,235はノードの種類および数の例示であり、それらは
図2中で図示されるものに限定されない)にわたって、分散させることができる。
【0035】
ノード230、231、232、233、234または235には、コンピューター、クライアント、サーバー、ピアが含まれるか、または好ましくは高性能計算設備(HPC)231が含まれ得る。ノードには、ネットワークインフラストラクチャー自体、スイッチ(例えばCisco(登録商標)、Juniper(登録商標)など)、モデム、リピーター、ハブ、ブリッジ、アプリケーション層ゲートウエイ、ルーター、多層スイッチ、コンバータ、ホストバスアダプター、ハブ、ファイアウォール、または他のネットワーク要素も含まれ得る。ノード230、231、232、233、234または235は、各ノードが配列データを解析できる1つ以上のゲノム解析モジュールを含むことができる場合に、ゲノム解析を行うことに関して代替可能であると判断することができるということが、認識されるべきである。
【0036】
ノード230、231、232、233、234または235は、一般的なゲノム解析ノード、ゲノム解析のために構成またはプログラムされた一般的な目的のノード、特異的なゲノム解析の役割または責任(ルーティング、処理、シーケンシング、転送、データクレンジング、マッピングまたは他の機能等)に専用のノードであってよい。特異的なノードの役割または責任にかかわらず、一部の実施形態において、ノードの消失により、失われたノードの機能性が別のノードへシフトされることが要求されるならば、役割または責任はノードからノードに移動することができる。
【0037】
ノード230、231、232、233、234または235には、特異的な解析(DNAおよびRNAの配列解析、遺伝子発現解析、アライメント解析、ゲノム比較解析、パターン検索、DNAモチーフ解析、DNAプロモーター解析、DNAおよび/もしくはRNAの二次構造および三次構造の解析、DNAコピー数多型、DNAメチル化、マイクロRNA解析、mRNA発現プロファイリング、スプライスバリアント解析、タンパク質配列(およびいくつかの事例において構造)解析、または他のゲノム解析ツールおよび方法(例えば系統樹アセンブリー、進化距離の計算、突然変異率の決定など)等)を支配する解析管理ノード230が含まれ得る。
【0038】
ノードの1つの許容可能な形態には、2012年7月20日に出願されたシリアル番号61/673943を有する共有の米国仮出願(本明細書において参照としてその全体を援用し、それに対して本出願は優先権を主張する)中で記載されるような、グラフィックプロセッサーユニット(GPU)上で操作される1つ以上のモデリングエンジンが含まれ得る。
【0039】
ノード230、231、232、233、234または235には、システムの一部またはゲノム解析システムのすべてを支配する解析設備管理能力が含まれ得る。マネージャーノード230を、自動ダッシュボードまたはユーザー生成ダッシュボードによりシステムへのインターフェースとして操作して、ゲノムデータストリームまたはゲノム解析フローをモニタリングまたは管理することができる。マネージャーノード230を使用して、データ上での注釈もしくは表記を作成するか、処理命令を作成するか、データもしくは解析を正規化するか、メモリを管理するか、または他の機能を行うことができる。マネージャーノード230は、定数、命名規則、プロパティ、ナビゲーション方法、マニュピレータ方法、ユーティリティ方法、データおよび解析の品質制御パラメーター、ならびに他の機能を定義することができる。マネージャーノード230は、ユーザー(例えばシステムマネージャー、管理者、エンドユーザーなど)が機能または解析を要求するために使用できるインターフェースを提供できるということが、認識されるべきである。マネージャーノード230は、API、クライアントコンピューターもしくはサーバー、ラップトップ、タブレット、モバイルデバイス、ブラウザ、または他のインターフェースを介して構成またはプログラムされてよい。マネージャーノード230を使用して、解析を追加、反復、改変、もしくは解除することができるか、シーケンスされたデータのプロパティを確認もしくは設定することができるか、ゲノムデータベースリポジトリ中で見出されるデータとシーケンスされたデータを融合もしくはアライメントさせることができるか、解析をリルーティングすることができるか、または他の機能を行うことができる。
【0040】
ノード230、231、232、233、234または235は、所望される解析に従って単独でまたは総体で操作することができる。ノード230、231、232、233、234または235は、連続で、反復して、並列に、またはそのいくつかの組み合わせで、操作することができる。ノードが、ゲノムデータの一般的な目的の処理またはカスタマイズされた処理を扱う特異的な構成またはトポロジーにノードをアレンジすることを可能にするので、かかるアプローチは有利であると判断される。例えば、各々のノードが患者配列データの異なる部分で操作される場合、または各々のノードが配列データに異なる解析方式を適用する場合、ノード230〜235を患者に特異的なトポロジーに構成されてよい。特異的な解析もしくは緊急度が患者に要求される場合、または特定のデータ解析が実質的な処理時間/リソースを要求する場合、かかるアプローチは有利であると判断される。
【0041】
解析エンジン240は、ノード230、231、232、233、234または235、およびマネージャーノード230の支配下でおそらく操作されるネットワーク290からなることができる。解析エンジン240は、シーケンシングデバイス210、211または212から遺伝的データを得る(シーケンシングデバイス210,211,212はシーケンシングデバイスの種類および数の例示であり、それらは
図2中で図示されたものに限定されない)。シーケンシングデバイス210、211または212は、解析エンジン240と通信するように構成またはプログラムされてよい(例えば、エンジン240全体として、個々のノード230〜235、マネージャーノード230経由で、など)。シーケンシングデバイス210、211または212は、シーケンシングデバイスインターフェース220、221もしくは222または他のインターネット、ネットワークもしくは通信プロトコルおよびインターフェースを介して、解析エンジン240と通信することができる。例示的なインターフェースは、1つ以上のプロトコル(トランスミッション制御プロトコル(TCP)、ハイパーテキスト転送プロトコル(HTTP)、共通インターネットファイルシステム(CIFS)、ネットワークファイルシステム(NFS)、ファイル転送プロトコル(FTP)、セキュアファイル転送プロトコル(SFTP)、ハイパーテキスト転送プロトコルセキュア(HTTPS)、ネットワークアドレス変換(NAT)、セキュアコピープロトコル(SCP)、または公知のもしくはまだ実装されていない他のプロトコルのうちの1つ以上がおそらく含まれる)を活用することができる。例えば、シーケンシングデバイス210〜212は、1つ以上のファイアウォールの後ろで操作されるように構成されてよい。それらの対応するプロバイダーのオフィスでの配備に際して、シーケンシングデバイス210〜212は、デバイスインタフェース220〜222のうちの1つ以上(それはHTTPサーバとして構成され得る)に、ファイアウォールを介して、HTTP要求を送信することができる。要求の受信に際して、デバイスインタフェース220〜222は、おそらくファイアウォールを介してNAT接続を経由して、対応するシーケンスデバイスとの接続(例えばTCP/IPセッション、SSLセッションなど)を確立することができる。次いで、シーケンシングデバイス210〜212は、おそらく生データストリームとして、FTP経由のファイルとして、XMLストリームとして、または他の形式で、インターフェース220〜222を経由して、ノード230〜235に、それらのゲノムデータを送信することができる。
【0042】
例として、解析ストリーム管理の初期実験は、「トランスポーター」(そこでデータストリームはAES−128を使用して暗号化される)と呼ばれるプロプライエタリなUDPに基づくクライアントサーバーの構造を利用する。初期実装はトランスポータークライアントの20のインスタンスを含み、各々はサニーヴェール(カリフォルニア)において実行され、各々は2スレッド、9000の最大転送単位(MTU)および240mb/秒/スレッドの速度制限であった。すべてのトランスポータークライアントのインスタンスは、フェニックス(アリゾナ)において実行されるトランスポーターサーバの3つのインスタンスに同時に接続された。すべての転送および処理統計はZabbixモニタリングパッケージを使用して収集された。フェニックスにおけるファイアウォールで測定されるように中央の転送スピードは8.232Gb/秒であり、トラフィックの上位1%は9.55Gb/秒を超えるピーク転送速度を達成した。この全体的な転送スピードは、17.4秒ごとに1つのエクソームのスループットを表わす。実験的なセットアップにおいて、ストリームオブジェクトは、各々の患者について1つのエンドポイントから別のもの(例えばトランスポーターのスレッドおよびインスタンス)へのデータのフローに加えて、データの解析およびトランスポートを表わした。さらに、ストリームオブジェクトは収集またはモニタリングされた統計も表わすと判断することができる。
【0043】
シーケンシングデバイス210、211または212は、典型的には遠隔地の設備またはヘルスケア提供元250、251もしくは252に(ケアの現場、モール、医院、薬局、研究(または臨床的な)研究所、または他の場所等に)設置される。シーケンシングデバイス210、211または212は、生物学的サンプルにおけるヌクレオチドの配列を決定する。企図された解析システム200とインターフェースする能力を欠く従来のシーケンシングデバイスは、シーケンシングデバイスインターフェース220、221または222を経由して解析エンジン240とインターフェースするように構成されてよい。シーケンシングデバイスインターフェースは、解析エンジン240に結合するようにシーケンシングデバイスを構成するかまたはそうでなければ適合するアフターマーケットモジュールとして構築することができる。例示的なゲノムデバイスインタフェースとして構成できる技術には、Digi International Inc.(URL www.digi.comを参照、Digi Connect ME、Digi Connect Wi−ME、PortServerなど)またはLantronix Inc.(URL www.lantronix.comを参照、XPort(登録商標)、xPico(商標)、UDS1100、WiPort(登録商標)など)によって、提供されるデバイスサーバー製品が含まれ得る。かかるデバイスサーバーは、ゲノム解析モジュールを搭載して、シーケンシングデバイスインターフェース220〜222として操作することができるか、またはシーケンシングデバイス210〜212に統合することができる。
【0044】
シーケンシングデバイス210、211または212は、ケアの現場、モール、医院、薬局、研究所または他の提供元の場所250、251または252に設置することができる。シーケンシングデバイス210,211,212が普及し、コスト効率が向上するのに伴い、どのような場所にも設置することができる。シーケンシングデバイス210、211または212は、モバイルの携帯型のデバイス、運輸保安局によって使用することができるセキュリティデバイス、研究所でのポータブルデバイス、ラップトップまたは他のデバイス上でアクセス可能かもしれない。シーケンシングデバイス210、211または212は、疾病対策センター(CDC)または類似の公衆衛生当局によって同定された疾患アウトブレイクの本質を確認すること、開発途上国または先進国での新興伝染病を追跡すること、またはテロリスト、戦争時もしくは衝突状態における生物学的脅威を検討することが、緊急に必要であり得る非常事態の領域に配達することができる。
【0045】
ネットワーク自体290またはプロバイダー250、251もしくは252は、レポートサーバ(例えばMicrosoft Reporting Services Report Server)または他のレポーティングエンジン(
図2に不図示)を有して、レポーティングテンプレート、ユーザー定義レポート、ゲノムドローイングツール、視覚的な出力または他の情報の提供することができる。レポートビルダー、レポートデザイナーまたはレポートを生成する他の手法があり得る。
【0046】
シーケンシングデバイスインターフェース220、221または222を「アダプター」として操作して、解析エンジン240によって表わされる「クラウド」にシーケンシングデバイスを接続することができる。シーケンシングデバイスインターフェース220、221または222は、シーケンシングデバイス(それが所望される通信能力を欠く従来のデバイス(不図示)であるか、パッシブか、またはそれが接続される他のデバイスについて知らない場合)に対してローカルであってよい。単一のシーケンシングデバイスインターフェース220、221または222は1つ以上の他のデバイスと接続して、解析要求に従ってデータを交換することができる。シーケンシングデバイスインターフェース220、221または222は、メーカー、モデル、所属、医療グループまたは他の分類に従って管理することができる。したがって、マネージャーノード230はシーケンシングデバイスと通信して、各々のデバイスは適切にエコシステム内で操作されるかまたは所望される解析に従って参加することを保証することができる。
【0047】
システム200全体は、並列に操作するように好ましくは構築される。ゲノム解析システム200は何百、何千およびまたはそれ以上のシーケンシングデバイスの処理を同時にサポートすることができ、システム200は何百、何千およびまたはそれ以上の患者を同時に解析することができる。システム200は、集団または群のサンプルの処理または遺伝子解析もサポートすることができる。
【0048】
ゲノム解析システム200は高速度で並列に多くの患者を処理することができる。処理速度は、単位時間あたりのどのくらい多くの患者が所定の時間で処理される(おそらく完了まで処理される)かに基づき得る。例えば、ゲノム解析システム200は1日あたり少なくとも5人の患者の速度で配列データをゲノムデータに処理するように構成されてよい。例示的な実施形態において、ゲノム解析システム200は1日で少なくとも10人の患者、より好ましくは1時間で少なくとも10人の患者、さらにより好ましくは1日で少なくとも100人の患者、またはなおより好ましくは1時間で少なくとも100人の患者の速度で配列データをゲノムデータに処理することができる。
【0049】
解析エンジン240はゲノムデータを処理する。解析エンジン240は患者からのゲノムデータを個別に処理することができ、解析エンジン240は、患者からのゲノムデータを、類似の人口統計または他の群を備えた集団データセットまたはサンプルに対して比較することができる。本出願人は、患者データを比較することができるヒトの統計的またはベースラインのゲノムデータを表わす「Homo Statisticus」という用語を造語する。Homo Statisticus表示には、連続的にデータを収集したデータベース、プライベートデータベースまたは正規化された配列を発展させた、公共ゲノムデータベース中で見出されるデータが含まれ得る。解析エンジン240は配列データを処理して、正規化されたゲノム配列の関数としてゲノムデータを生成することができる。正規化された遺伝子配列は、患者の集団もしくはサブ集団または他のデータソースからの統計的なコンパイルであってよい。正規化されたゲノム配列に基づいて、ゲノムデータは、ホットスポット、重み付き参照点、または解析のための優先順位を含むことができる。解析エンジン240は、正規化された配列に基づく差異的配列またはラフなアライメントも生成することができる。
【0050】
解析エンジン240は、シーケンシングデバイス210、211または212にフィードバックを提供することができる。解析エンジン240はインターフェースとして管理ノード230を利用することができ、ユーザーがシーケンシングデバイス210、211または212との間のフィードバックを提供するように構成またはプログラムされることを可能にする。ユーザーは、シーケンシングデバイス命令(シーケンシングを反復する要求、シーケンシングを開始もしくは停止する要求、データを送信もしくは受信する要求、データを削除する要求、ライセンス管理する要求、または他の命令等)を提供することができる。
【0051】
ゲノム解析ストリームは、シーケンシングデバイス210、211または212から、解析エンジン240を介する、通知のポイント(プロバイダー250または251または252等)へのデータのストリームと判断することができる。したがって、解析ストリームは、制御、操作、またはそうでなければ管理することができる別個の管理可能なオブジェクトと判断することができる。ストリームオブジェクトは、ストリームの本質を記載するストリーム属性を含むことができる。例示的な属性には、ストリーム識別子(例えばGUID、UUID、名称など)、解析トポロジー、ソースポイントの情報(例えばケアの現場識別子、シーケンシングデバイス識別子)、通知ポイントの情報(例えばヘルスケア提供元識別子など)、患者情報、通知トリガー基準、ビリングコード、ビリングもしくはインボイシング情報、またはストリームに関連する他の情報が含まれる。マネージャーノード230またはシステム内の他の要素はストリーム属性を活用して、解析、ルーティング、レポーティング、アラート生成または他の管理機能に関してストリームを適切に管理する。ストリームオブジェクトには、解析の様々なステージで実際に処理されているゲノムデータがさらに含まれ得る。ストリームオブジェクトは、ゲノムデータのデータフローも表わすと判断されるということが、認識されるべきである。したがって、データのストリームは、バッチで同時に処理することができるか、またはエンドツーエンドの完全なストリームとして管理することができる。データまたは結果が収集され、ユーザーにデリバーされると、ゲノム解析は同時に行うことができる。ストリームはマネージャーノード230によって管理される管理可能なオブジェクトであってよい。マネージャーノード230は、1つ以上の管理機能性(解析ルートの変更、ストリームオブジェクトに従う解析ストリームのインスタンス生成、解析ストリームオブジェクトに基づくトランザクションの実行、解析の改変、解析ストリームオブジェクトに基づく通知トリガー基準の構築、解析ストリームの脱構築、または解析ストリームを管理する他の管理機能性がおそらく含まれる)に従って少なくとも1つの解析ストリームオブジェクト(例えば解析データストリーム、配列データに適用された解析ルートなど)を管理することによって、解析エンジン240を管理することができる。
【0052】
解析エンジン240は、ゲノム解析のために必要に応じて、その処理構成、解析構成またはルーティング構成を変化させることができる動的システムと判断される。マネージャーノード230は、ユーザーによって制御することができるか、または解析操作における他のノードを自動的に管理および構成するように構成されてよい。これらの構成変化または命令は解析ストリームを管理し、それらには、ストリーム管理機能性(ゲノムデータの関数としての通知、処理ステータス、解析エンジン管理ステータス、アラート、アラーム、シーケンシングデバイス命令、解析推奨、予後、診断、ノード間通信、より高い信頼レベルを得ることを求める要求、または他の通知の生成等)が含まれ得る。マネージャーノードは解析ネットワーク内のルートを構成する通知も生成することができる。さらに、マネージャーノードはストリームをリルーティングできるだけでなく、ノードのチェーンを処理して全体の解析ストリームを管理することができる。
【0053】
管理ノード230は、解析ノード230、231、232、233、234または235、解析ストリームおよび解析エンジン240を管理する1つ以上のツールを提供する。管理ノード230はダッシュボードを含み、全体のシステム、特定のグループのためにダッシュボード、加入者のためにダッシュボード、シグナル解析のためのダッシュボード、ユーザー定義のダッシュボード、解析のレポートおよび出力をデザインするダッシュボード、インプットおよび出力解析のためのダッシュボード、システムをモニターする視覚的なダッシュボード、または他のダッシュボードを管理することができる。オーバービューが収集したストリームオブジェクトがどのくらい処理されているかを知らせる(おそらくリアルタイムで観察される)ことを提示できる場合、企図されるダッシュボードは、ゲノム解析ストリームオブジェクトに関して情報を提示できるということが、認識されるべきである。さらに、ストリームオブジェクトは、ストリームのインスタンス生成、ストリームの脱構築、ストリームの脱アクティブ化、ストリームに関してのシステム効率のモニター、または他の制御の適用によって、かかるダッシュボードを経由して制御することができる。
【0054】
解析システム200は、データまたは解析ストリームをルーティングするように構成またはプログラムされてよい。解析エンジン240は、シーケンスされたデータの状態、他のゲノムデータがどのくらいルーティングされるか、および解析システムにどのくらい負荷がかるかに依存して、解析ノード230、231、232、233または234、または235の中で処理ルートを確立するように構成されてよい。解析エンジン240は、予想される診断、予後、優先度、緊急度、配列注釈、トラフィック負荷、解析負荷、演算帯域幅、メモリ制約、アラートステータス、解析のステータス、ユーザー定義のインプット、ゲノム解析のタイプ、要求もしくは要求される解析反復の数、信頼レベル、または他の解析パラメーターの関数として処理ルートを確立することができる。かかる実施形態において、解析エンジン240は、現在の解析を適合させる特異的な構成をとることができる。例えば、優先的なデータは高ボリュームの処理ノードにルーティングすることができ、一方でそれほど緊急でないデータは低ボリュームノード上でのバッチ処理として実行することができる。患者が所望されない突然変異を示す確率が低い特定の人口統計に関連付けられた場合のシナリオを考慮されたい。マネージャーノード230は、高ボリュームに従う1つ以上の他のノード、人口統計の情報に基づくハイスループットトポロジーまたはゲノムプロファイル情報を構成されてよい。高ボリューム、ハイスループットのトポロジーは、対応する患者データをそれが入ってくると処理し、おそらくストリームの1つ以上のFIFOバッファを形成する。特に興味深い患者データストリームが導入される場合、おそらく緊急度または非常事態に起因して、マネージャーノード230は専用トポロジーとして1つ以上のノードを割り当てて急患のデータを解析する。かかるリソースの取得は、高ボリューム、ハイスループットのトポロジーに影響を与え得る。しかしながら、急患のデータはタイムリーな様式で処理して緊急度または緊急事態に取り組むことができる。
【0055】
解析エンジン240は有料サービスとして操作することができ、それは加入者が登録するか、支払情報を発行するか、またはゲノム解析能力にアクセスするために
システムにログインすることを要求する。ノード230、231、232、233、234または235(管理ノード230等)は、加入者リスト、ライセンス要求、ログイン機能性、決済手段および他の有料関連機能を管理することができる。ゲノム解析ストリームオブジェクトが解析エンジン240によって処理されると、マネージャーノード230のうちの1つ以上はリソースの程度をモニターすることができるか、またはサービスは解析に適用される。計算された使用に基づいて、マネージャーノード230は、与えられたサービスの提供と交換して、1つ以上のアカウント(例えばヘルスケア提供元アカウント、保険アカウント、患者アカウントなど)に料金をチャージすることができる。解析、緊急度、優先順位、解析のために使用されるアルゴリズム、または他のゲノム解析ストリームオブジェクト属性に要求されるリソースの中のものに基づいて、料金を適用することができるということが、認識されるべきである。
【0056】
解析エンジン240は画像認識に基づいて配列データを処理するようにさらに構成されてよい。シーケンシングデバイス210、211または212も画像認識に基づいて配列データを処理するように構成されてよい。ゲノム出力または連続時間符号化振幅顕微鏡法(STEAM)もしくは他のプロセスからの他のデータ出力は、DNA塩基に翻訳できることが企図される。塩基呼び出し工程で、データ出力からの各々の画像は特定のDNA塩基のためのインディケーターとして操作することができる。例えば、画像は認識することができるバーコードの形態と判断することができる。さらに、画像は解析システムを介してトランスポートされた解析ストリームの一部であってよい。
【0057】
STEAMはハイスループット画像化の方法である。電荷結合素子(CCD)および相補型金属酸化膜半導体(CMOS)デバイスなどの従来の画像センサーとは異なり、STEAMは高輝度照明なしに非常に速いシャッタースピードを提供することができる。STEAM方法は二次元画像を一次元の増幅された連続的な時間ドメイン波形にマップする。STEAMは、広帯域光パルスのスペクトル上に最初に情報をスタンプし、次いで時間ドメインの連続的なストリームにスペクトルをマップすることによって、これを達成する。この方法は画像ストリーミングおよび増幅の両方を提供するように構成され、高速下で迅速な物理的現象を取得するように構成される。STEAMは従来のCCDより少なくとも1,000速く、610万フレーム/秒ほどの高いフレーム速度を有する。さらに、この方法は、27ps(ピコセカンド)のシャッタースピードを提供する。
【0058】
ハイスループット画像化の方法として、STEAMを使用して、まれな疾患細胞、癌細胞または他の生物学的もしくはゲノムの材料を同定することができる。この細胞同定法は、解析システム200における多数のアプリケーション(癌スクリーニングおよび他の診断試験が含まれる)を有することができる。
【0059】
解析システム200はスケール不変特徴変換(SIFT)等のアルゴリズムまたは画像認識を実行する他のアルゴリズムを使用できることがさらに企図される。SIFTは、照明、画像ノイズ、スケーリング、翻訳、ビューポイント、変換および回転に対して不変である局所画像特徴ベクトルのクラスを使用する、画像認識のための広く公知のアルゴリズムである。特徴は、段階的なフィルタリング(すなわちスケールスペース極値検出、キーポイント局所化、オリエンテーション割り当て、キーポイント説明子の生成など)を介して検出され、画像キーはそれらについて作成される。したがって、解析システムから得られた画像を解析して、それらが公知のオブジェクトに関連する特徴に対応する画像特徴(例えばSIFT特徴など)を有するかどうかを決定することができる。
【0060】
ゲノム解析を行うために使用することができる例示的手法には、米国特許出願公開第2012/0066001号および国際公開第2013/086424号、国際公開第2013/086355号、国際公開第2013/062505号、国際公開第2013/052937号および国際公開第2011/139345号に記載されに記載されるようなFive3 Genomics LLC(URL five3genomics.comを参照)によって提供されるものが含まれる。追加の手法には、連続時間符号化振幅顕微鏡法(STEAM)およびSanborn et al.による2012/0059670号に記載された手法が含まれる。
【0061】
アドオンモジュール経由のゲノム解析ストリーム管理
図3は本発明の主題の別の態様を図示し、アドオンモジュール370を使用してシーケンシングデバイス310を構成されてよい。
【0062】
アドオンモジュール370はアフターマーケットデバイスであってよいか、またはアドオンモジュール370はシーケンシングデバイス310自体に統合することができる。あるいは、アドオンモジュール370は、解析クラウド300(例えばウェブサービス、サービス型ソフトウェア(SaaS)、サービス型インフラストラクチャー(IaaS)、サービス型プラットフォーム(PaaS)など)または他の構成に統合することができる。アドオンモジュール370は、1つ以上のハードウェアプラットフォーム上で実行されるアプリケーションパッケージまたはクラウドに基づくアプリケーションも含むことができる。
【0063】
アドオンモジュール370は、デバイス、解析ストリームまたは解析の中の間で、および解析システム300(例えばNLR390およびHPC330、331、332、333、334または335)の間で通信を促進する多様な手法で構成または組み込むことができる。アドオンモジュール370は、多くの転送形式(転送形式は各々の解析設備/ノード330、331、332、333、334または335によって定義することができる)に従って事前解析された配列データをパッケージングするように構成されてよい。アドオンモジュール370は、シーケンスデバイスとして操作される従来のシーケンスデバイス310と結合されるか、既存のシーケンシングデバイス内の従来のデバイス310と結合されるか、または他のデバイスと従来のデバイスを結合するように構成されたハードウェアモジュールであってよい。シーケンシングデバイス310自体は、アドオンモジュール370として操作することができる。シーケンシングデバイス310は、アドオンモジュール370の機能性を含む記憶命令のためのストレージメディア301も含むことができる。アドオンモジュール370もしくはその機能性は、解析ノード330、331、332、333、334もしくは335中で統合することができるか、またはアドオンモジュール370は、リモートネットワーク対応のシーケンサー310と通信するソフトウェアアダプターとして操作することができる。アドオンモジュール370、シーケンシングデバイス310および他のデバイスの他の構成が、統合デバイス、入れ子デバイス、統合機能性を備えたデバイス、または分離されたデバイスもしくは機能性としてであるかに関わらず、企図される。
【0064】
アドオンモジュール370は好ましくは前処理を遂行して、さらなる解析のために生データを注釈する。生データの配列注釈は、解析システム300がどのくらいデータを解析しなければならないかを説明することを支援する。配列注釈は、多くの種類の注釈(解析ノードの所有権、データの所有権、生インプットデータ、事前解析および注釈された配列、出力、解析およびデータストリームのルーティング、ならびに他の因子等)を組み込むことができる。配列注釈は、生データと既存のゲノムデータベースまたは公共のゲノムデータベースとの間のラフなアライメントを提供して、予備的診断、予後または他の解析結果を得ることができる。例えば、配列注釈には、患者特異的なデータ、疾患または診断関係または関連データ(ゲノムにおける推定または実際の配列場所を同定するデータなどが含まれ得る。したがって、配列注釈はより大規模な予備的解析(生データがどのくらいより大きな解析内でフィットするかを注釈すること、優先度情報(例えば、どの遺伝子またはどのホットスポットを最初におよびどこで解析しなければならないか)、緊急度情報、または他の因子等)も提供することができる。例えば、アドオンモジュール370はシーケンシングデバイス310から配列データを受信し、配列データを事前解析することができる。事前解析器306は、XMLファイルストリーム内の配列データをパッケージングし、注釈を含むことができ、様々なルール、要求、またはXMLファイルストリーム内のタグとしての他の因子を知らせる。
【0065】
アドオンモジュール370は、1つ以上の有線または無線の接続を経由して、解析システム300、解析エンジン240、シーケンシングデバイス310または解析ノード330、331、332、333、334もしくは335と所望されるように通信することができる。アドオンモジュール370は、有線接続または無線接続のすべての形態を利用して、解析エンジン240および解析ノード/設備330、331、332、333、334または335に接続することができる(携帯電話接続(例えばGSM、CDMAなど)WiMAX、WiGIG、Wi−Fi、Wi−Fi Directまたは他のタイプ無線インフラストラクチャーが含まれる)。アドオンモジュール370は、有線接続または無線接続のすべての形態を使用して、シーケンシングマシン310にも接続することができる(イーサネット、WiFi、WiGIG、USB、W−USB、ブルートゥースまたは接続の他のすべての形態等)。
【0066】
アドオンモジュール370は、解析設備300またはシーケンシングデバイス310とモジュールが対話することを可能にする多数の追加のコンポーネントを含むことができる。例示的コンポーネントには、ライセンスマネージャー304、コントローラー303、メモリ305および事前解析器306が含まれる。生データがシーケンシングデバイス310から得られると、事前解析器306はデータを前処理して、1つ以上の事前解析された配列307を形成することができる。
【0067】
コントローラー303はシーケンシングデバイス310と結合される。あるいは、コントローラー303はポート360を介してシーケンシングデバイス310と結合されてよい。コントローラー303は、シーケンシングデバイス310とアドオンモジュール370と解析システム300との間で、コマンド、命令、生データ、注釈、解析ストリームおよび他の情報が交換することができる、双方向データパスを提供する。コントローラー303は、解析システム300および解析設備/ノード330、331、332、333、334または335からコマンドをさらに受信して、シーケンシングデバイス310を制御することができる。
【0068】
アドオンモジュール370は生データ(すなわちシーケンシングデバイス310から直接受信されたデータ)を得る事前解析器306も含み、事前解析を行って事前解析された配列307を提供することができる。事前解析は、シーケンシングデバイス310のメモリ301、アドオンモジュールのメモリ305、分散型解析ネットワークからのメモリ300、解析設備/ノード330、331、332、333、334もしくは335、公共のデータソース、または他のデータソース中の配列または他のゲノムデータに基づいて、配列注釈を生成することができる。アドオンモジュール370は事前解析された配列307を生成し、それには、生配列から導出された他のデータと共に配列注釈(予備的遺伝子同定(例えば名称または機能によって)、ゲノムホットスポット、ゲノム比較(例えば参照配列への、または以前の試験への)、患者vs集団の比較、生データを公共のゲノムデータベースまたは他のデータベースからのシーケンスされたゲノムデータおよび他のデータと比較するラフなアライメント等)が含まれ得る。他の注釈には、推定場所、疾患連関性、相対的存在量情報、遺伝子連関性、核酸のクラス、チェーン・オブ・カストディ、組織もしくは組織サンプルのソース、患者情報、患者識別子、人口統計の情報、地理情報、診断情報、ヘルスケア提供元情報、配列解析の意図、アカウント情報、家族情報、患者既往歴、心理学的情報、生殖細胞系または他のものも含まれ得る。
【0069】
アドオンモジュール370は、解析システム300および解析設備/ノード330、331、332、333、334または335とシーケンシングデバイス310が通信することを可能にする。アドオンモジュール370は、さらなる処理のために、事前解析されたデータ307を解析設備/ノード330、331、332、333、334または335に転送し、事前解析されたデータ307を配列注釈307に基づいて設備/ノード330、331、332、333、334または335に転送することができる。例えば、アドオンモジュール370は、ルーチンまたは緊急のデータを、疾病対策センター(CDC)、研究施設、他の施設330、331、332、333、334または335に転送することができる。
【0070】
アドオンモジュール370は、同じシーケンシングデバイス310内でのデータの処理または他の解析ノード/設備330、331、332、333、334もしくは335でのデータの処理を制御する配列注釈307を生成することもできる。これらの注釈は、処理パラメーター(ルーティングパラメーター、解析パラメーター、パスパラメーター、デスティネーションパラメーター、ソースパラメーター、優先度パラメーター、緊急度パラメーター、サービスパラメーターのクラス、ビリングパラメーター、支払いパラメーター、ライセンス制御パラメーター、運営処理パラメーター、または他の処理パラメーター等)を作成する。
【0071】
ライセンスマネージャー304は、モジュール370が、解析システム300を介してアクセス可能な解析設備またはノード330、331、332、333、334もしくは335への操作上のアクセスを制御することを可能とする。ライセンスマネージャー304には、1つ以上のキー(例えば加入キー)が含まれ、それに加えて、認可または認証の異なる情報または方法が組み込まれ得る(加入識別子、可能な使用の数、ライセンス期限、サービスのタイプまたは解析のタイプについての許可レベル、可能なタイプのサービスまたは解析についてのインディケーター、解析アカウント、および解析管理モジュールを有すること等)。
【0072】
ライセンスマネージャー304は権利管理実施モジュールとして操作することができる。一部の実施形態において、ライセンスマネージャー304は、ライセンスルールセットに従って、解析エンジン300に問い合わせて、シーケンシングデバイス310がアクセスサービスに十分な権利または特権を解析エンジン300によって提供するかを決定するように、構成またはプログラムされる。例えば、シーケンシングデバイス310は医師のオフィス内に配備することができる。医師は加入料金を払って、ゲノム解析エンジン300の1つ以上のサービスにアクセスすることができる。ライセンスマネージャー304は、医師の加入アカウントに問い合わせて、医師が納入済みであるかどうかを決定するか、または医師がアクセスするサービスのレベルを決定することができる。シーケンシングデバイス310が解析エンジン300にデータを供給すると、ライセンスマネージャー304は、医師の解析エンジン300との対話を適切に清算することができる。
【0073】
ライセンスマネージャー305が、アカウントに関してシーケンシングデバイス310に関連する1つ以上のゲノム解析ストリームオブジェクトをモニターまたはそうでなければ管理できるということも、認識されるべきである。アカウントには、ケアの現場プロバイダーのアカウント、患者のアカウント、保険アカウント、または他のアカウントが含まれ得る。配列データがシーケンスデバイス310経由で生成されると、ライセンスマネージャー304は、解析エンジン300が適切にルーティングするかまたはそうでなければ解析を指令することを可能にする注釈として配列データにストリームオブジェクト識別子を添付することができる。
【0074】
配列データの前処理ゲノム解析ストリーム
図4は、
図3のアドオンモジュール370と併用することができるゲノムデータを前処理する方法400を図示し、
図3からのアドオンモジュール370は前処理エンジンとして操作することができる。
【0075】
方法400は、前処理エンジンにアクセスを提供することが含まれ得る工程410で開始することができる。例えば、前処理エンジンには、
図3を参照して論じられるアドオンモジュール370のうちの1つ以上が含まれ得る。工程410は、サービスもしくはライセンスへの加入、アクセスのロック解除、ソフトウェアのインストール、アクセスの認証、アクセスの認可、または前処理エンジンにアクセスするための認証の他の形態の利用もユーザーに要求することができる。アクセスの提供は、アクションの広範囲のスペクトル(前処理エンジンを販売すること、前処理エンジンをインストールすること、前処理エンジンを従来のデバイスデザインに組込むこと、またはそうでなければ前処理エンジンを利用可能にすることが含まれる)をカバーできるということが、認識されるべきである。
【0076】
工程420には、公知の解析関係情報を記憶する先験的知識ベースへのアクセスを提供することが含まれ得る。知識ベースには、公知の配列についての解析関係データまたは解析データの他の形態が含まれ得る。知識ベースは、
図3中で示されるように解析設備300で設置することができ、公共のゲノムデータベース、研究所データベース、プロプライエタリなデータベース、ユーザー定義もしくは作成されたデータベース、または他の知識ベースである。データを前処理エンジンによって使用して、さらなる解析のために配列データを適切に注釈することができる。知識ベースは、
図3中で示されるようにアドオンモジュール370のメモリ305中に存在することができるか、遠隔地のメモリ中で利用可能になり得るか、
図3中で示されるように配列マシン310のメモリ301中に存在することができるか、加入するデータベースであってよいか、または任意の種類またはメモリの形態であってよい。
【0077】
工程430で、前処理エンジンは、
図3中で示されるようにシーケンシングデバイス310から典型的には直接生配列データを受信する。生配列データは、メモリ、バッファ、データベースまたは他のソースからのものであってよい。生データ配列データは、任意の形式(例えばAxt、BAM、BAMBAM、BED、MAF、マイクロアレイ、SAM、WIG、XMLまたは他の形式)であってよい。生配列データは、シーケンシングデバイスから受信されて完全解析の前に前処理されるデータを含むことができる。
【0078】
前処理方法400には、任意の先験的知識ベースからの公知のゲノムマップに対する生データのラフなアライメントを実行して、配列注釈を生成する工程440も含まれ得る。生データのラフなアライメントは、染色体と比較した位置、染色体内の相対的位置、公知の対立遺伝子との連関性、公知のマーカーとの連関性、公知の突然変異との連関性、または先験的知識ベースもしくは経験的データコレクションからの任意の公知のパターンもしくは配列との連関性に基づいて、生データを大まかにアライメントさせることによって、ゲノムデータの処理および解析を促進する。
【0079】
生データの前処理は、
図3中で示されるように解析システム300を通して起こる解析と並列に起こり得る。既に事前解析されたデータストリームの一部は
図3中で示されるように解析システム300を介する解析のために転送することができ、一方でデータストリームのより新しいセクションが前処理されている。この並列処理はシーケンサー出力に基づいてリアルタイムで行うことができる。
【0080】
工程450には、生配列と配列注釈とを関連付けて前処理された配列データを生成することが含まれ得る。この工程には、前処理して生配列データのいくつかのレベルの内容を決定することが含まれる。配列注釈の生配列との関連性は、生配列データを適切に注釈するために、知識ベースからの情報に従う1つ以上のポリシーまたはルールに基づき得る。
【0081】
配列注釈は、ゲノム内の位置(例えば特異的な染色体または染色分体上、染色体外など)、公知の疾患マーカー、突然変異(例えば点突然変異/移行/塩基転換、挿入、欠失、転座など)、診断コード、手順コード、ビリングコード、解析ルーティング情報、統計情報、患者情報、人口統計、地理的座標、チェーン・オブ・カストディおよびその他を含むことができる。配列注釈は、ヘルスケア提供元への推奨、処置推奨、予防処置もしくは治療処置のための推奨、推定診断、推測予後、解析優先順位、アラートトリガー、アラート通知、さらなる解析のための要求、より高いレベルの信頼のための要求、起こり得る転帰のリスト、要求もしくは随意の処置の経過、特定の条件に対するリスクまたは素因の徴候、または他の情報も含むことができる。
【0082】
工程460には、さらなるより詳細な解析のために前処理された配列データを配列解析設備に転送することが含まれ得る。前処理された配列を転送するプロセスには、
図3中で示されるように、注釈された前処理された配列データを解析設備330、331、332、333、334または335に送信することが含まれ得る。これらの前処理された配列は
図3中で示されるように設備330、331、332、333、334または335に好ましくはプッシュされるが、前処理された配列を
図3中で示されるように設備330、331、332、333、334または335によってプルすることができる。前処理された配列の伝達は、好適なプロトコル(HTTP、FTP、SSL、HTTPS、プロプライエタリ、XMLまたは他のもの等)経由であってよい。
【0083】
対話型のゲノム解析ストリーム管理システム
図5は、解析設備500が1つ以上のシーケンシングデバイス(例えばシーケンシングデバイス510または511)と対話することができる本発明の主題のさらに別の態様を図示する。設備500はアダプター571またはアダプター572を経由してシーケンシングデバイスにアクセスまたは制御することができる。以前に言及されるように、
図3中のアドオンモジュール370はアダプターに好適な候補である。アダプター571およびアダプター572は、それぞれ、シーケンシングデバイス510,511の外部に存在するものとして図示されるが、今度登場するシーケンシングデバイス510〜511にアダプターの役割または責任を統合または組み込むことができることも企図される。
【0084】
図5中の企図された解析システムには、解析エンジン(例えばNLR590およびHPC 530、531、532、533、534または535)およびアダプター571または572が含まれる。上記のように、アダプター571,572または
図3中で示されるようなアドオンモジュール300は、シーケンシングデバイス510に添付されたデバイスであってよいか、シーケンシングデバイス510または511内で統合することができるか、シーケンシングデバイス511自体であるか、またはNLR590および解析ノード530、531、532、533、534もしくは535上に構築される解析クラウド(おそらく500)の一部としてのアダプター572として利用可能もしくは操作することができる。他の実施形態において、アダプター571,572は、ポート561または562を介してシーケンシングデバイス510または511と通信することができる。アダプター571または572は、図示されるような標的のシーケンシングデバイスに依存して異なる形態をとることができるということが、認識されるべきである。
【0085】
解析エンジン500は、
図5中の解析システムを経由してゲノム配列の部分的または完全な解析を行うことができる。
【0086】
アダプター571はシーケンシングデバイス510と結合し、デバイス510と解析設備530、531、532、533、534または535との間の、またはエコシステム500中の他の要素の中ででさえ、双方向通信を可能にする。アダプター571は、複数のシーケンシングデバイスが調整される様式で並列に操作することを可能にすることができる。
【0087】
アダプター571または572は、コマンドまたは命令501を設備がシーケンシングマシン510または511に発行することを可能にすることもできる。一部の実施形態において、アダプター571または572は、命令501を、「設備」形式からシーケンシングデバイス510または511によって理解し得るコマンドに転換する。
【0088】
アダプター571は、シーケンシングデバイス510の近くに、またはシーケンシングデバイス511から遠いアダプター572の場合はこれから遠くに設置することができる。
図5はシーケンシングデバイス510または511あたり単一のアダプター571または572を図示するが、
図5中のシステムは、1つのシーケンシングデバイスあたり複数のアダプター、1つのアダプターにつき複数のシーケンシングデバイス、または複数のシーケンシングデバイスと対話する複数のアダプターを有することもできる。例えば、シーケンシングデバイス510に近い1つのアダプター571は、認証のためのライセンスマネージャーを含むことができ、一方で遠いアダプター572はコマンド形式変換を提供する。
【0089】
アダプター571または572は、コマンドおよび応答の発行を支配するように確立されたルールセットによる1つ以上のポリシーを含むことができる。アダプター571または572のためのルールセットは、タイミング問題、バッファ、キー、トークン、事前解析命令、コマンド、先験的知識ベース、および
図5中のゲノム解析システムにおける他の要素を管理することができる。
【0090】
各々のクラスのアダプターは、シーケンシングデバイスの異なる形またはモデルを標的とすることができる。さらに、シーケンシングデバイスの不均一な混合物は、複数のシーケンシングデバイスアダプターを経由して単一の共通コア解析エンジンにより動作できることが企図される。複数のシーケンシングデバイスアダプターは複数のシーケンシングデバイスを標的とするように構成されてよい。例えば、アダプター571は解析エンジン500によって理解される共通の正規化されたプロトコル形式に従って操作されるように構成されてよい。さらに、適合された571は、共通の正規化されたプロトコルからシーケンシングデバイス510によって消費することができるデバイス特異的プロトコルへ転換する1つ以上の転換モジュールを含むことができる。
【0091】
シーケンシングデバイス510または511に発行することができる例示的な命令には、シーケンシングを反復する(例えば、ゲノム中の特異的な領域または全体的にシーケンシング深度を増加させる)か、中断するか、開始するか、または異なるデバイス中の同じ患者サンプルの平行なシーケンシングを調整する命令501が含まれる。命令501は、データを送信するか、データを削除するか、またはシーケンシングに優先順位を付ける命令でもあり得る。命令501は、データがシーケンシングのために転送または予定されるべきであるということを知らせることができる。命令501にはライセンス管理命令も含まれ得る。さらに、命令501は、多数の因子(患者データ、ヘルスケア提供元、疾患情報、または他の因子が含まれる)に基づいて導出され得る。
【0092】
分散型ゲノムストレージ設備
図6は分散型ゲノムストレージ設備600の図を示す。一部の実施形態において、ゲノムレコードは、データベース680、681、682、683、684もしくは685または図示されるようにゲノム解析システム600における他の設備に関連付けられた解析ノード630、631、632、633、634または635に記憶される。National Center for Biotechnology Information(NCBI)、European Molecular Biology Laboratory−European Bioinformatics Institute(EMBL−EBI)、DNA Databank of Japan(DDBJ)、International Nucleotide Sequence Database Collaboration(INSDC)、NCBI Reference Sequence(RefSeq)、Vertebrate Genome Annotation Database(VEGA)、Consensus coding sequences(CCDS)、または他のリポジトリが含まれるが、これらに限定されない、複数のゲノミクスデータベースリポジトリがある。
【0093】
データベース680、681、682、683、684または685に記憶されたレコードは、任意の所望の形式に従って記憶することができる。レコードはゲノム全体、ゲノムの部分、関心のある遺伝子または領域についての配列(例えば、公知のSNP、突然変異、または転座および重複が含まれるゲノム中の他の変化をカバーする)、メタデータ(例えば特異的な配列についての科学的および/または医学的な注釈)、解析結果、医師、統計の指図によるコメント、またはデータの他の部分であってよい。好ましくは、680、681、682、683、684または685に記憶されたレコードを患者の集団に関連させ、人口統計にわたる研究または解析を可能にする。
【0094】
レコードデータベース680、681、682、683、684または685に記憶されたレコードは、ゲノムデータ間の差異的データ、患者と標準的なヒトとの間の差異的データ、患者と集団との間の差異的データを記憶することができる。参照因子または人口統計因子は、サンプル時間、組織、人、性別、家族、コミュニティー、人口統計、正規化された配列、疾患、食餌、環境、年齢、および他の人口統計因子に基づくことができる。最も好ましくは、かかる差異はBAMBAM形式および/または系統樹形式で表現される。
【0095】
好ましい実施形態はゲノム検索エンジン630を含み、ユーザーがエンジン630にクエリーを発行することを可能にする。検索エンジン630は、レコードデータベース680、681、682、683、684または685の中でマッチするレコードを見出し、検索エンジン630を配列または他の因子によってインデックス付けし、レコード索引680に記憶することができる。分散型ゲノムデータベース600についての索引は、多くの識別子(患者識別子、集団識別子、人口統計、疾患、診断、性別、年齢、場所、職業、危険因子、配列、遺伝子、経路、対立遺伝子、予後、または他の識別子等)に基づき得る。
【0096】
端末(コンピューター650等)経由のネットワーク690を介する、レコード索引640の検索エンジン630へのクエリーは、様々な形態をとることができる。それらは、自然言語クエリー、キーワード検索、配列検索、マシンコマンド、API、またはデータを問い合わせる他の形態であってよい。
解析ストリームk
【0097】
これまでに提示された開示の発明の主題は、主にゲノム解析ストリーム管理に注目してきた。しかしながら、開示した大陸に広がる解析ストリーム管理システムは、ゲノム解析を超えるケアのより幅広い分野へ適用できるということが、認識されるべきである。開示の手法が、以前は組み合わせることが不可能だった解析エンゲージメントポイントの統合システムを効果的に構築することによって、既存の公知のゲノム解析を追い越すということが、認識されるべきである。
【0098】
図7は、変換可能なヘルスケアを提供することができる包括的な学習システムを示す。解析ストリームは、エンゲージメントポイントの中で管理可能なコンピューターに基づくオブジェクトとしてエコシステムを介してフローする。例えば、データのヘルスケアストリームは、知識ドメインの要素(例えばモデル、人工知能など)からの解析データを搭載することができる。個人のヘルスケアストリームのインスタンスが作成され、生データ(例えばゲノム情報、バイオメトリクス、保険プランデータなど)が入れられると、対応するストリームオブジェクトは、対応する解析データ(例えば診断、予後、推奨、促進など)をオーバーレイまたは埋め込んだ1つ以上の適切な解析体へデータをルーティングすることができる。
【0099】
次いで、個人のストリームは、個人(または場合によっては個人の生活も)を表す、組み立てられたヒトシグナルエンジン標本とみなすことができる。したがって、ストリームオブジェクトはデリバリードメインを介してストリームデータを送ることができ、ヘルスケア提供元ネットワーク、ケア設備、研究所、薬局、ホスピスまたは他の事業体へ個人のストリームデータを提供することができる。デリバードメイン中の各々の要素は個人のヘルスケアストリーム内のデータを増大させることもできるということが、認識されるべきである。
【0100】
個人のヘルスケアストリームが、特異的なトピック(例えば特異的な疾患状態)に関してまたは包括的な生命に関して発展を経て成熟するにつれて、次いでストリームオブジェクトは、支払人ドメイン内のアウトカム駆動性設備へデータをルーティングすることができる。したがって、開示のストリーム管理エンジンは、関係データをストリーム解析の最終的な配置に関与する利害関係者に直接送ることができる。例えば、ストリームオブジェクトは、相対的ストリームデータを、雇用者、政府、金融機関、給付担当マネージャー、または他の事業体に提供することができる。
【0101】
開示のエコシステムは、ゲノミクスを超えて、他のタイプのストリームデータを処理することができる。例えば、開示した解析エンジンは、推測プロテオミクス(Five3(商標)URL five3genomics.com/technologies/paradigmを参照)または実際の定量的プロテオミクス(OncoplexDx(商標)URL www.oncoplexdx.comを参照)も、解析ストリームに搭載することができる。なおさらに、かかるデータは、様々な癌タイプのために無数の臨床プロトコルを結合した1つ以上の臨床プロトコルデータベース(Eviti(商標)URL www.eviti.comを参照)と相関させるかまたは結び付けることができ、それは様々な疾患状態に悩まされる患者を治療する何千もの癌専門医とさらに組み合わされる。ストリーム解析ノード(例えばPARADIGM、Oncoplexなど)を実際の治療およびヘルスケア提供元と相関させることは、疾患状態が生じた後ではなく、生涯にわたる個人のための最適なケアの主要なインディケーターとして、より高い洞察を提供するということが、認識されるべきである。したがって、個人のヘルスケア解析ストリームは生まれる時に開始し、子孫とまとめることを介して死亡後にもおそらく存在し得る。非常に実際的な意味において、開示したエコシステムは、「生涯にわたるケア」、またはより特に癌に関してはストリームに基づく「生涯にわたる癌ケア」を生み出すと判断することができる。
【0102】
人の生涯は、ストリームデータを解析ノードから解析ノードへ向けた、ゆりかごから墓場までのストリームオブジェクトとして表わすことができるとういう考え方において、開示したシステムは生涯にわたってその人に関して総体として学習する(すなわち、相関性を確立するかまたは解明を同定する)ということが、認識されるべきである。したがって、システムは現在の疾患状態の範囲を超えて学習することができる。人の疾患状態(過去、現在または未来)は、健康な状態の画像化(URL www.qiimaging.comでQi Imaging(商標)を参照)が含まれるか、または「ビッグデータ」に関するアウトカムレベル(場合によってはnet.orange(商標)を参照、URL www.ndorange.comを参照)が含まれる他の情報とも相関させることができる。なおさらに、ストリームオブジェクトが同時期の家族メンバーの中で、または世代にわたって相互相関される場合、ストリームオブジェクトは、家族マネージャーの世代にわたって記憶することができる。かかる実施形態において、解析ストリームはエピジェネティックレベルでの洞察を提供する。
【0103】
図7中で図示されるすべての動的要素の中での統合は、1つ以上の解析ストリームオブジェクトの生涯のスパンにわたってエピジェネティック効果を評価する能力を生じさせるということが、認識されるべきである。例えば、リアルタイムの処置プロトコルは、子孫に連関する解析ストリームに加えて、現在の解析ストリームに関する処置の正、負または中立の効果と相関させることができる。一部の実施形態において、解析ストリームオブジェクトは、エピジェネティックストリームオブジェクトまたは世代を超えたエピジェネティックストリームオブジェクトと判断することができる。
【0104】
開示した、学習に基づく生涯にわたるケアまたは生涯にわたる癌ケアの解析ストリームは、より特異的な情報(特異的なゲノム情報が含まれる)に関して得られたデータによってさらに増大され得る。一部の実施形態において、シーケンシングデバイスは、二重微小染色体、マイクロRNA、循環腫瘍細胞に関連するゲノム情報、または他の情報を表わす配列データにより解析ストリームを増大することができる。かかるデータは1つ以上の解析ストリーム、特にエピジェネティックストリームにわたって相関させることもできる。
【0105】
解析ストリームは、バイオメトリクスデータ(1つ以上の解析ストリームに統合されるバイタルサインモニタリングデータが含まれる)も活用することができる。人が1つ以上のヘルスケア提供元(例えば医院、病院、救急車など)と連動されると、ヘルスケア提供元は、多くの場合データの1つ以上のポイントを収集する。従来は、収集されたすべてのデータのうちの99%以上は廃棄される。開示したエコシステムにおいて、すべてのデータはその人のヘルスケア解析ストリームに保存または統合することができる。例えば、患者のバイタルサインデータはiSirona(商標)DeviceConX(商標)技術経由で収集することができ、次いでそれは電子カルテ交換を介して送ることができる。さらに、バイタルサインデータは解析ストリームオブジェクトへ結合するかまたはその内で統合することができる。したがって、リアルタイムバイタルサインデータは他のストリーム関連データと相関させることができる(例えばマルチバリアント解析、因子分析、推論など)。例えば、リアルタイムのパルス酸素濃度計データは、1つ以上のエピジェネティックストリームオブジェクトにわたってゲノムデータと相関させることができる。
【0106】
本発明の主題のさらに別の態様には、ストリームオブジェクト内のストリームの管理から導出された解析データに基づくソーシャルネットワークの形成が含まれると判断される。1つ以上のストリームオブジェクトと連関したストリームが解析ノードを介して通過すると、ストリームオブジェクトは解析プロファイルにより注釈することができ、そこで解析プロファイルは、ストリームオブジェクトストリームと連関した可能なヘルスケアコンテキストを表わすと判断することができる。次いで、解析エンジンは、エンドユーザー(例えば患者、利害関係者、ヘルスケア提供元、サービス提供元、支払人など)への推奨を提供して、類似のプロファイルに基づいて、互いの中で、ソーシャルネットワークを連結するかまたはインスタンスを作成する。例として、患者の群がBRCA突然変異を有する類似のゲノムプロファイル(おそらく類似の表現型のプロファイルを有する)に関連付けられた場合のシナリオを考慮されたい。解明に応答して、ソーシャルネットワークエンジンとして操作する解析エンジンは、患者または他の利害関係者に利用可能なソーシャルネットワークのインスタンスを作成することができ、それを介して利害関係者は通信するかまたはエクスペリエンスを共有することができる。ソーシャルネットワークは、おそらく分子的フィンガープリント法の本質に依存して、共通ネットワーク、または個々のスタンドアロンのネットワークとしてインスタンスを作成することができる。したがって、ストリーム基づいてインスタンスを作成したソーシャルネットワークは、公共に開放するか、特異的なゲノムプロファイルを示す個人へのみ開放するか、または特異的なゲノムプロファイルを有する特異的な患者と連関した利害関係者のみに限定される。ソーシャルネットワークは、患者の間の相互サポート、ケア提供元の間での知識シェア、利害関係者の間でのエビデンスベースケアの中での調整されたデリバリー、決断のサポート、ホームケアの統合、ホスピスのサポート、または利害関係者の間での他のタイプの連続的な情報交換を提供できるということが、認識されるべきである。
【0107】
上記のソーシャルネットワーク例はヘルスケア環境に基づくソーシャルネットワークについて記載したが、ソーシャルネットワークは、他のアクティビティ(解析プロファイル情報に基づく情報または解析プロファイル情報の関数としての情報の共有が含まれる)もサポートできるということが、認識されるべきである。例えば、人の好き嫌いをゲノム特性と相関させることができ、類似の特性を有する他の人と推奨として共有することができる。参加者の「総体的な(omic)」(例えば、ゲノム、プロテオーム、経路などの)情報が解析され、音楽または他のコンテンツに対する彼らの好き嫌いの指標が提供される、ゲノムに基づくソーシャルネットワークを考慮されたい。開示の解析エンジンは、ゲノム特性と音楽属性の中の相関性を確立することを試みることができる。次いで、エンジンは、彼らの特性に基づいて他の参加者への音楽の推奨を提供することができる。さらに別の例には、ゲノム特性に基づいて人々をマッチングさせることが含まれ得る。例えば、人々は、相補的な特性、類似の特性または他の特性に基づいて、ともにマッチングさせることができる。ソーシャルネットワークは、ヘルスケア、音楽およびマッチングを参照するが、ソーシャルネットワークはかかる市場を超えて広がることができるということが、認識されるべきである。例示的な追加のゲノムに基づくソーシャルネットワークには、ゲームネットワーク、ショッピングネットワーク、芸能もしくは娯楽ネットワーク(例えばワイン試飲会、映画クラブなど)、教育もしくは学術ネットワーク(例えば、個人指導、勉強グループなど)、趣味ネットワーク、または他のタイプのネットワークが含まれ得る。
【0108】
本出願人は、参照された事業体または技術との既存の提携関係または協力関係を介して、および上で検討した実験的なセットアップによって証明されるように、上記のシステム解析管理をデリバーする、独特の能力を有することが認識されるべきである。さらに、2013年7月2日に出願された譲受人共通の米国仮出願第61/842316号、第61/842323号および第61/842325号は、ヘルスケア解析ストリームを介して統一ヘルスケア管理の様々な態様を記載する。例えば、第61/842323号は、人の生涯にわたるヘルスケア解析ストリームデータの視覚的提示を表わすエネルギーバランスを開示する。エネルギーバランスは花として提示され、そこで花の各々の花弁は1つ以上のストリームオブジェクトメトリクスに対応する。例示的メトリクスは、活動レベル、睡眠、栄養、運動、カロリー、病原体への曝露のリスク、または人の対応するストリームオブジェクトに関連する他のストリームデータを表わすことができる。サイズ、色、形状、または他の花弁属性は、対応するメトリクスの態様を表わすことができる。緑色はメトリクス許容可能な範囲中であることを知らせ、一方で赤色は、メトリクスが許容可能ではないということを知らせることができる。
【0109】
追加の考慮
以下の表は請求項の観点から上記の発明の主題を示す。表1は、シーケンシングデバイスが分散型ゲノム解析システムと通信することを可能にするように構成またはプログラムされたアドオンモジュールに結合されたシーケンスデバイスを含むシーケンシングシステムに関する請求項を含む。
【表1】
表1:アドオンモジュールを備えたシーケンシングシステム
【0110】
表2は、生配列データを前処理し、前処理されたデータをゲノム解析設備に転送できる方法を略述する。
【表2】
表2:配列データの前処理
【0111】
表3は、ゲノム解析エンジンは双方向交換を介してシーケンシングデバイスと対話式に動作して、ゲノム解析ストリームを管理することができる、配列解析システムを示す。シーケンシングデバイスは1つ以上のアダプターを活用することができる。
【表3】
表3:解析エンジンおよびシーケンシングデバイスの中での対話型シーケンシング
【0112】
表4は、分散型データおよびゲノム検索エンジンを有するゲノムストレージ設備を示す。上記のように、(1)集中化されたデータセンターに設置された処理コンピューターおよびストレージコンピューターに大きなゲノムデータを迅速に伝送する能力、(2)患者の癌組織のDNA中で見出されるすべての変動を正確に評価する能力、(3)不均一な疾患(癌等)において多くのクローンを同定する能力、および(4)細胞シグナル経路上の各クローンの各変動の全身性影響を予測するの能力を妨害する複数の問題がある。開示した分散型システムは、実行可能な情報を導出する大規模なスケーリングを提供する。さらに、本出願人は、4つの障害をすべて克服する能力および適切な時間での適切な患者のための適切な治療を予測する能力の実証に成功した。高速の大陸レベルでの広がりの実証として、本出願人の実験は、700マイルのトランスポート、処理、および1人の患者あたり69時間または82秒で6,000エクソームの突然変異解析をもたらした。トランスポートは、National LambdaRail(米国一帯の病院、クリニックおよび大学にわたって、帯域幅クラッシングデータを迅速に確実に伝送することに優れている、12,000マイルの光ファイバーネットワーク)によって促進された。
【表4】
表4:分散型ゲノムストレージ設備
【0113】
本明細書における発明概念から逸脱することなく、上記したものの他にさらに多くの修飾が可能であることは、当業者に明らかであるべきである。したがって、本発明の主題は添付の請求項の範囲以外では限定することができない。さらに、明細書および請求項の両方の解釈において、すべての用語は、文脈と矛盾しないで可能な限り広範囲の様式で解釈されるべきである。特に、「含む」および「含むこと」という用語は、非独占的な様式で要素、構成要素または工程を指すと解釈されるべきであり、参照された要素、構成要素または工程は、明示的に参照されない他の要素、構成要素または工程と共に存在または利用または組み合わせることができることを示す。明細書請求項がA、B、C....およびNからなる群から選択されるもののうちの少なくとも1つを指す場合、この文言は、A+NまたはB+Nなどではなく、群から1要素のみを要求すると解釈されるべきである。
【0114】
本願は以下の発明をも包含する。
(1)
複数のシーケンシングデバイスから、複数の患者の配列データを取得するように構成されたシーケンシングデバイスインターフェースと、
解析ネットワークと、
シーケンシングデバイスインターフェースに結合されたゲノム解析エンジンを形成する解析ネットワークを経由して相互接続され、患者からの配列データをゲノムデータに並列に処理するように構成された複数の解析ノードと
を含む、ゲノム解析システム。
(2)
前記解析エンジンが、少なくとも10人の患者からの配列データを並列に処理するように構成される、(1)に記載のシステム。
(3)
前記解析エンジンが、少なくとも100人の患者からの配列データを並列に処理するように構成される、(2)に記載のシステム。
(4)
前記解析エンジンが、少なくともYの時間単位あたりX人の患者の速度で配列データをゲノムデータに処理するように構成され、Xが少なくとも3人であり、Yが多くとも1日である、(1)に記載のシステム。
(5)
Xが10人であり、Yが1日である、(4)に記載のシステム。
(6)
Xが10人であり、Yが1時間である、(4)に記載のシステム。
(7)
Xが100人であり、Yが1日である、(4)に記載のシステム。
(8)
Xが100人であり、Yが1時間である、(4)に記載のシステム。
(9)
前記解析ネットワークが光ファイバーデータリンクを含む、(1)に記載のシステム。
(10)
前記解析ネットワークが大陸に広がるネットワークを含む、(9)に記載のシステム。
(11)
前記シーケンシングデバイスインターフェースが、少なくとも5台のシーケンシングデバイスから並列に前記配列データを得るように構成される、(1)に記載のシステム。
(12)
前記シーケンシングデバイスインターフェースが、少なくとも10台のシーケンシングデバイスから並列に前記配列データを得るように構成される、(11)に記載のシステム。
(13)
前記シーケンシングデバイスインターフェースが、少なくとも100台のシーケンシングデバイスから並列に前記配列データを得るように構成される、(1)に記載のシステム。
(14)
前記ゲノムデータが患者のゲノムデータを個別に含む、(1)に記載のシステム。
(15)
前記ゲノムデータが患者の人口統計と関連付けたゲノムデータを含む、(1)に記載のシステム。
(16)
前記解析エンジンが、前記ゲノムデータの関数として通知を生成するように構成される、(1)に記載のシステム。
(17)
前記通知が、処理ステータス、解析エンジン管理ステータス、アラート、アラーム、シーケンシングデバイス命令、解析推奨、予後、診断およびノード間通信のうちの少なくとも1つを含む、(16)に記載のシステム。
(18)
前記通知が、シーケンスされたデータに関してより高い信頼レベルを得ることを求める要求を含む、(16)に記載のシステム。
(19)
前記通知が解析ネットワーク内のルートを構成する、(16)に記載のシステム。
(20)
前記ルートが、ケアの現場、シーケンシングデバイス、患者およびヘルスケアサービス提供元のうちの少なくとも1つに通知が送信されることを可能にする、(19)に記載のシステム。
(21)
前記解析エンジンが、前記解析ノードの中の処理ルートを確立し、それに従って、前記シーケンスされたデータおよびゲノムデータのうちの少なくとも1つがルーティングされるように構成されることを特徴とする(1)に記載のシステム。
(22)
前記処理ルートが予想される診断の関数として確立される、(21)に記載のシステム。
(23)
前記処理ルートが優先度の関数として確立される、(21)に記載のシステム。
(24)
前記処理ルートが緊急度の関数として確立される、(21)に記載のシステム。
(25)
前記処理ルートが、前記シーケンスされたデータおよびゲノムデータのうちの少なくとも1つ内の配列注釈の関数として確立される、(21)に記載のシステム。
(26)
前記処理ルートが、トラフィック負荷、解析負荷、演算帯域幅およびメモリ制約のうちの少なくともの1つの関数として確立される、(21)に記載のシステム。
(27)
前記解析ノードが、前記配列データおよび前記ゲノムデータのうちのいくつかを少なくとも交換するように構成される、(1)に記載のシステム。
(28)
前記解析エンジンを管理するように構成されたエンジン管理ノードをさらに含む、(1)に記載のシステム。
(29)
前記エンジン管理ノードが、解析ステータスをユーザーに送信するように構成される、(28)に記載のシステム。
(30)
前記エンジン管理ノードが、解析ダッシュボードを生成するように構成される、(28)に記載のシステム。
(31)
前記エンジン管理ノードが、解析エンジンダッシュボードを生成するように構成される、(28)に記載のシステム。
(32)
前記解析ノードがネットワークスイッチを含む、(1)に記載のシステム。
(33)
前記解析ノードが高性能計算設備を含む、(1)に記載のシステム。
(34)
前記解析ノードが少なくとも5台の高性能計算設備を含む、(33)に記載のシステム。
(35)
前記解析エンジンが、前記配列データを処理して、正規化されたゲノム配列の関数として前記ゲノムデータを生成する、(1)に記載のシステム。
(36)
前記正規化されたゲノム配列が患者の集団からの統計的なコンパイルを含む、(35)に記載のシステム。
(37)
前記ゲノムデータが、前記正規化されたゲノム配列に対して、ホットスポット、重み付き参照点、および解析のための優先順位のうちの少なくとも1つを含む、(35)に記載のシステム。
(38)
少なくとも1つの解析ストリームオブジェクトに関する少なくとも1つのストリーム管理機能性に従って、前記解析エンジンを管理するように構成されたゲノムストリーム管理ノードをさらに含む、(1)に記載のシステム。
(39)
前記解析ストリームオブジェクトの各々が、前記ゲノムデータへの処理を介して、前記配列データの解析データストリームを含む、(38)に記載のシステム。
(40)
前記解析データストリームが、シーケンシングデバイスからシーケンシングデバイスインターフェースおよび解析エンジンを介して、出力デバイスに延びる、(39)に記載のシステム。
(41)
前記解析ストリームオブジェクトが、前記配列データに適用される少なくとも1つの解析ルートを含む、(38)に記載のシステム。
(42)
前記少なくとも1つのストリーム管理機能性が、解析ルートの変更、ストリームオブジェクトに従う解析ストリームのインスタンス生成、解析ストリームオブジェクトに基づくトランザクションの実行、解析の改変、解析ストリームオブジェクトに基づく通知トリガー基準の構築、および解析ストリームの脱構築のうちの1つを含む、(38)に記載のシステム。
(43)
ユーザーが前記シーケンシングデバイスインターフェースを経由して前記シーケンシングデバイスにフィードバックを提供することを可能にするように構成された管理インターフェースをさらに含む、(1)に記載のシステム。
(44)
前記フィードバックがシーケンシングデバイス命令を含む、(43)に記載のシステム。
(45)
前記シーケンシングデバイス命令が、標的の配列領域のシーケンスを反復すること、シーケンシングを中断すること、シーケンスを開始すること、充分なトリガーでデータを送信すること、シーケンシングデバイスから配列データを削除すること、管理命令にライセンスを与えること、配列イベントに優先順位を付けること、配列データの命令を転送すること、およびシーケンスのスケジューリングを行うことのうちの少なくとも1つを含む、(44)に記載のシステム。
(46)
前記ユーザーが、解析ノード、ヘルスケア提供元、研究者、シーケンシングデバイスマネージャー、解析システムマネージャー、および患者のうちの少なくとも1つを含む、(43)に記載のシステム。
(47)
前記シーケンシングデバイスインターフェースが、配列データを表わす画像データに適用された画像認識アルゴリズムを介して、配列データを取得するように構成される、(1)に記載のシステム。
(48)
前記画像認識アルゴリズムがスケール不変特徴変換の関数として操作される、(47)に記載のシステム。
(49)
前記シーケンシングデバイスが、連続時間符号化振幅顕微鏡法(STEAM)を経由して前記画像データをDNA塩基に翻訳するようにさらに構成される、(47)に記載のシステム。
(50)
前記解析エンジンが、配列データを表わす画像データに適用された画像認識アルゴリズムを介して、配列データを取得するように構成される、(1)に記載のシステム。
(51)
前記画像認識アルゴリズムがスケール不変特徴変換の関数として操作される、(50)に記載のシステム。
(52)
前記解析エンジンが、連続時間符号化振幅顕微鏡法(STEAM)を経由して前記画像データをDNA塩基に翻訳するようにさらに構成される、(50)に記載のシステム。