(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6368832
(24)【登録日】2018年7月13日
(45)【発行日】2018年8月1日
(54)【発明の名称】ゲノムデータの動的指標付与および可視化を提供する分散システム
(51)【国際特許分類】
G06F 19/26 20110101AFI20180723BHJP
【FI】
G06F19/26
【請求項の数】20
【全頁数】20
(21)【出願番号】特願2017-130451(P2017-130451)
(22)【出願日】2017年7月3日
(62)【分割の表示】特願2016-135820(P2016-135820)の分割
【原出願日】2012年12月7日
(65)【公開番号】特開2017-208115(P2017-208115A)
(43)【公開日】2017年11月24日
【審査請求日】2017年7月3日
(31)【優先権主張番号】61/568,478
(32)【優先日】2011年12月8日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】514145338
【氏名又は名称】ファイヴ3 ゲノミクス,エルエルシー
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(72)【発明者】
【氏名】ヴァスク,チャールズ ジョゼフ
(72)【発明者】
【氏名】サンボーン,ジョン ザキャリー
(72)【発明者】
【氏名】ベンツ,ステファン
【審査官】
塩田 徳彦
(56)【参考文献】
【文献】
米国特許出願公開第2004/0111674(US,A1)
【文献】
特開2006−065501(JP,A)
【文献】
国際公開第2011/149534(WO,A2)
【文献】
特開2001−125929(JP,A)
【文献】
特表2013−531980(JP,A)
【文献】
SAM, BAM, Thank You Ma'am,[online],2009年 7月24日,[2015年8月4日検索],インターネット,URL,http://massgenomics.org/2009/07/sam-bam-thank-you-maam.html
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10 − 19/28
(57)【特許請求の範囲】
【請求項1】
指標付きゲノムデータベースにアクセスする、ハンドヘルド又はモバイルブラウザ対応コンピューティングデバイスを提供するステップであって、前記指標付きゲノムデータベースがスケーリングエンジンに連結され、前記指標付きゲノムデータベースが複数のゲノム配列オブジェクトを記憶し、前記ゲノム配列オブジェクトがそれぞれ、スケール関連アノテーションを有する、ステップと、
前記ハンドヘルド又はモバイルブラウザ対応コンピューティングデバイスからの要求を前記指標付きゲノムデータベースおよび前記スケーリングエンジンのうちの少なくとも1つによって受け取るステップであって、前記要求が前記ゲノム配列オブジェクトの識別およびユーザが選択したズームレベルの識別を含む、ステップと、
前記スケーリングエンジンを使用して、要求された前記ゲノム配列オブジェクトの前記スケール関連アノテーションおよび選択された前記ズームレベルからスケール関連情報を生成するステップと、
前記スケール関連情報を表すゲノム表示オブジェクトを生成するステップと、
前記ゲノム表示オブジェクトを前記ハンドヘルド又はモバイルブラウザ対応コンピューティングデバイスに送信するステップと、
を含む、ゲノム情報を提供する方法。
【請求項2】
前記ハンドヘルド又はモバイルブラウザ対応コンピューティングデバイスが、タブレットまたは携帯電話である、請求項1に記載の方法。
【請求項3】
前記ハンドヘルド又はモバイルブラウザ対応コンピューティングデバイスが、医療機関、研究者、患者、または保険機関によって操作される、請求項1に記載の方法。
【請求項4】
前記ゲノム配列オブジェクトが、ゲノム領域を表す、請求項1に記載の方法。
【請求項5】
前記ゲノム領域が、ゲノム全体、染色体、染色体断片、または対立遺伝子である、請求項4に記載の方法。
【請求項6】
前記ゲノム領域が、SAM形式、BAM形式、またはBAMBAM形式を有する、請求項4に記載の方法。
【請求項7】
前記ゲノム配列オブジェクトが、異なる配列オブジェクトまたは参照配列オブジェクトを含む、請求項1に記載の方法。
【請求項8】
前記要求が、表示されるデータによる解像度の指示および前記ハンドヘルド又はモバイルブラウザ対応コンピューティングデバイスのアプリケーションによって利用されるデータ点の数の指示のうち少なくとも1つを含む、請求項1に記載の方法。
【請求項9】
前記スケール関連アノテーションが、ゲノム構造情報、ゲノム変異情報、疾患情報、遺伝子関連情報、および参照配列に関する差分情報のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項10】
前記スケール関連アノテーションが、1つまたは複数の特定のズームレベルに対するアノテーションに適性を示すデータを含む、請求項1に記載の方法。
【請求項11】
前記スケール関連アノテーションが、前記配列オブジェクトに関連したメタデータを含む、請求項1に記載の方法。
【請求項12】
前記メタデータが、患者識別、設備識別、医師識別、および保険情報のうちの少なくとも1つを含む、請求項11に記載の方法。
【請求項13】
前記スケール関連アノテーションが、選択された閲覧者への表示に特有のアノテーションを含む、請求項1に記載の方法。
【請求項14】
前記閲覧者が、医師、研究者、患者、および保険業者からなる群より選択される、請求項13に記載の方法。
【請求項15】
前記スケーリングエンジンが、前記ズームレベルにより前記ゲノム配列オブジェクトの完全データセットを要約する、請求項1に記載の方法。
【請求項16】
前記スケール関連情報を生成するステップが、前記ゲノム配列オブジェクトのサイズに基づく、請求項1に記載の方法。
【請求項17】
前記スケール関連情報を生成するステップが、前記スケール関連アノテーションに基づく、請求項1に記載の方法。
【請求項18】
前記スケール関連情報を生成するステップが、前記ゲノム配列オブジェクトのサイズおよび前記スケール関連アノテーションに基づく、請求項1に記載の方法。
【請求項19】
前記ゲノム表示オブジェクトが、図形オブジェクトを含む、請求項1に記載の方法。
【請求項20】
前記スケーリングエンジンが、前記スケール関連情報をグラフィックライブラリ内の前記図形オブジェクトにマッピングする、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2011年12月8日に出願された米国特許仮出願第61/568478号の利益を主張する。本出願および本明細書に論じられた他のすべての外因材料は、それらの全体が参照によって組み込まれる。
【0002】
本発明の分野は計算ゲノミクスであり、特に、複雑なゲノム情報の動的図形表示に関する。
【背景技術】
【0003】
以下の記述は、本発明を理解する上で有益であり得る情報を含む。本明細書に提示されたあらゆる情報は、先行技術であるか、もしくは現在特許請求されている発明に関し、または具体的もしくは黙示的に参照されたあらゆる出版物は先行技術であることを認めるものではない。
【0004】
高性能配列解読装置が出現し、ゲノムデータセット全体が利用可能になって、ゲノム分析におけるボトルネックは、もはや解読速度ではなく、データ記憶、検索、および協調分析である。データ記憶、検索、および分析に関連した困難は、様々なユーザから表示された情報の変化する要求によってさらに度合いを増す。異なる視点から見ると、ゲノムデータを情報密度が高く選択的に表示することは、現在利用可能な大量のデータを使用するより重要である。
【0005】
当技術分野で公知のゲノムブラウザはいくつかあるが、公知のブラウザのすべては、実質的な難点を有する。例えば、UCSCゲノムブラウザ(http://genome.ucsc.edu)は、大量のデータを図形形状で提供するが、ズームレベルと無関係な所定の表示として、ユーザが指定した情報密度を収容できない。したがって、このようなブラウザは、すべてのズームレベルで要求に最適に応答できない。同様に、NCBI(http://www.ncbi.nlm.nih.gov/nuccore/)のグラフィカルビューアのようなグラフィカルビューアも、ある種の所定のパラメータに限定され、したがって内容の動的表示および適応を可能にすることができない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
それ故、複雑なゲノム情報を表示する様々なシステムおよび方法が当技術分野に公知であっても、それにもかかわらず多くの不都合が残っている。したがって、複雑なゲノム情報の図形表示、特に動的な図形表示に対する改良されたデバイスおよび方法の提供が依然として必要とされている。
【課題を解決するための手段】
【0007】
本発明の主題は、ゲノムデータの動的可視化のための方法およびデバイスを対象とし、ゲノムの可視化システムは、配列オブジェクト内のスケール関連アノテーションに従って、情報内容の表示を適応させる。したがって、適応可能な内容の表示は、著しく低減されたデータ分析および転送で達成できる。
【0008】
本発明の主題の特に好ましい一態様では、ゲノムの可視化システムは、ゲノム領域の配列オブジェクトの表示を記憶する、指標付きゲノムデータベースを含むことが企図される。最も典型的には、配列オブジェクトは、複数のスケール関連アノテーションを含む。スケーリングエンジンは、指標付きゲノムデータ記憶装置に連結され、(a)ユーザが選択したズームレベルの関数として、配列オブジェクトのスケール関連アノテーションから引き出されたスケール関連情報を調節し、(b)ズームレベルに基づいたスケール関連情報を表すゲノム表示オブジェクトを動的に生成し、(c)ゲノム表示オブジェクトをユーザに表すように出力デバイスを構成するように構成される。
【0009】
本発明の主題に限定しないが、配列オブジェクトは、SAM/BAMもしくはBAMBAM形式を有し、かつ/またはゲノム領域は、ゲノム全体、染色体、染色体断片、もしくは対立遺伝子であることが概して好ましい。
【0010】
スケーリングエンジンに関しては、BAMサーバおよび/または可視化サーバの1つまたは複数は、スケーリングエンジンとして作動してもよいことが企図される。さらに、スケーリングエンジンは、ズームレベルに基づいてダウンサンプリングすることにより(ダウンサンプリングは、ズームレベルから引き出されたデータ密度の関数であってもよい)、スケール関連情報を調節するようにさらに構成されてもよいことが企図される。別法として、または追加として、スケーリングエンジンは、ズームレベルを決定するように構成され、任意選択として、ズームレベルにより配列オブジェクトの完全データセットを要約するように構成されることが企図される。所望の場合、スケーリングエンジンはまた、異なる配列オブジェクトにおけるスケール関連アノテーションの相違からスケール関連情報を引き出すように構成されてもよい。
【0011】
一層さらに企図される態様では、配列オブジェクトは、参照配列オブジェクトを含み、参考配列オブジェクトは、生の配列データ、統計学者(homo statisticus)からの配列データ、および/または指定された時点からの配列データであることが最も好ましい。別法として、または追加として、配列オブジェクトは、参照ゲノム領域(例えば、統計学者(homo statisticus)からの、または特定の時点への参照ゲノム領域)に対して異なる配列オブジェクトを含む。同様に、スケール関連アノテーションは大幅に変化してもよく、好ましくは、ゲノム構造情報(例えば、染色体同定、染色体内の位置、対立遺伝子など)、ゲノム変異情報(例えば、変異、転座、逆位、欠失、繰り返し、およびコピー数)、疾患情報(例えば、疾患のタイプ、疾患の状況、および疾患に対する治療選択)、遺伝子関連情報(例えば、生の配列データもしくは処理された配列データ、遺伝子同定、遺伝子制御の情報、および疾患に関連した遺伝子の情報)、参照配列に関する差分情報、ならびに/またはメタデータ(例えば、患者識別、設備識別、医師識別、および保険情報)を含む。
【0012】
本発明の主題に限定しないが、ゲノムの可視化システムは、スケール関連アノテーションを表す図形オブジェクトを記憶する、ゲノム・グラフィックライブラリをさらに含むことが概して好ましい。このようなシステムでは、スケーリングエンジンは、スケール関連情報をズームレベルにより、グラフィックライブラリから図形オブジェクトにマッピングし、ゲノム表示オブジェクトは、マッピングされた図形オブジェクトを含むことが特に好ましい。適切な出力デバイスに関しては、表示装置、ブラウザ、プリンタ、3Dプリンタ、および/またはスピーカが特に好ましい。
【0013】
本発明の主題の様々な目的、特徴、態様および利点は、同じ番号が同じ構成要素を表す添付図面とともに、好ましい実施形態の以下の詳述からより明らかになろう。
【図面の簡単な説明】
【0014】
【
図1】分散されたゲノムの可視化環境の概要を示す図である。
【
図2】可視化スケーリングエンジンを含む、可能なゲノムの可視化システムを示す図である。
【
図3】ベースズームレベルにおける例示的表示画面を示す図である。
【
図4】サブキロベース・ズームレベルにおける
図3の例示的表示画面を示す図である。
【
図5】キロベース・ズームレベルにおける
図4の例示的表示画面を示す図である。
【
図6】染色体ズームレベルにおける
図5の例示的表示画面を示す図である。
【発明を実施するための形態】
【0015】
本発明の主題は、ゲノムデータの動的可視化のためのデバイスおよび方法を対象とする。企図されたシステムおよび方法は、情報の豊富な内容を選択しスケーラブル表示を可能にする一方で、データ集約およびデータ通信量を低減する。
【0016】
以下の説明はコンピュータ/サーバベースのゲノムの可視化システムに結び付けているが、様々な代替構成も適切であると考えられ、サーバ、インターフェイス、システム、データベース、エージェント、ピア、エンジン、制御装置を含む様々なコンピューティングデバイス、または個別にもしくは集合的に作動する他のタイプのコンピューティングデバイスを利用してもよいことに留意されたい。コンピューティングデバイスは、有形の持続性コンピュータ可読記憶媒体(例えば、ハードドライブ、半導体ドライブ、RAM、フラッシュ、ROMなど)上に記憶された、ソフトウェア命令を実行するように構成されたプロセッサを含むことを理解されたい。ソフトウェア命令は、好ましくは、コンピューティングデバイスが、開示された装置に対して以下に論じるような役割、義務、または他の機能を提供するように構成する。特に好ましい実施形態では、様々なサーバ、システム、データベース、またはインターフェイスは、恐らくHTTP、HTTPS、AES、公開秘密鍵交換、ウェブサービスAPI、公知の金融取引プロトコル、または他の電子情報交換方法に基づいた標準プロトコルまたはアルゴリズムを使用して、データを交換する。データ交換は、好ましくは、パケット交換方式ネットワーク、インターネット、LAN、WAN、VPN、または他のタイプのパケット交換ネットワークを介して実行される。
【0017】
以下の検討を通して、サーバ、サービス、インターフェイス、ポータル、プラットフォーム、またはコンピューティングデバイスから形成された他のシステムに関して、多くの参照がなされる。こうした用語の使用は、コンピュータ可読の有形の持続性媒体上に記憶されたソフトウェア命令を実行するように構成された、少なくとも1つのプロセッサを有する、1つまたは複数のコンピューティングデバイスを表すと考えられることを理解されたい。例えば、サーバは、ウェブサーバ、データベースサーバ、または記載した役割、義務、または機能を果たす方法で他のタイプのコンピュータサーバとして作動する、1つまたは複数のコンピュータを含むことができる。
【0018】
本明細書の記載および以下の特許請求の範囲全体を通して使用される場合、「a」、「an」、および「the」の意味は、文脈が明確にそうでないと指定しない限り、複数の参照を含む。また本明細書に使用される場合、「in」の意味は、文脈が明確にそうでないと指定しない限り、「in」および「on」を含む。
【0019】
本明細書の数値範囲の列挙は、単にその範囲内に該当するそれぞれの値を個別に言及する略記法としての役割を果たすことのみを意図する。本明細書で指摘しない限り、それぞれの値は、本明細書に個別に列挙されるかのように、本明細書に組み込まれる。本明細書で説明されるすべての方法は、本明細書で指摘されるか、または明らかに文脈と矛盾しない限り、あらゆる適切な順番で行うことができる。本明細書のいくつかの実施形態に対して提供された任意の、またはすべての例もしくは例示的な言い回し(たとえば「など」)の使用は、特に主張しない限り、単に本発明をよりよく説明することだけを意図し、本発明の範囲に対する制限を設けるものではない。本明細書中のいかなる言葉も,任意の特許請求されていない要素が本発明の実施において必須であることを示すものとして解釈されるべきではない。
【0020】
本明細書に開示された本発明の代替要素または実施形態の群は、限定として解釈されるべきではない。各群の要素は、群の他の要素もしくは本明細書に見出される他の要素を個別にまたはあらゆる組合せを指し、群の他の要素もしくは本明細書に見出される他の要素を個別にまたはあらゆる組合せを主張することができる。群の1つまたは複数の要素を、利便性および/もしくは特許性の理由で群に含む、または群から削除することができる。あらゆるこのような包含または削除が起きるとき、本明細書は、修正された、すなわち、添付の特許請求の範囲に使用されるすべてのマルクーシュ群の明細書を実行するような群を含むと、本明細書では考えられる。それぞれの実施形態は発明の要素の単一の組合せを表すが、発明の主題は、開示された要素のすべての可能な組合せを含むとみなされる。したがって、1つの実施形態が要素A、BおよびCを含み、第2の実施形態が要素BおよびDを含む場合は、発明の主題は、明確に開示されていない場合であっても、A、B、C、またはDの他の残りの組合せも含むとみなされる。
【0021】
本明細書で使用される場合、文脈がそうでないと指定しない限り、用語「coupled to(に結合される)」は、直接結合(互いに結合される2つの要素が互いに接触する)および間接結合(少なくとも1つの追加要素がその2つの要素の間に配置されている)の両方を含むことが意図される。したがって、用語「coupled to」および「coupled with」は、同義に用いられる。
【0022】
企図されたデバイスおよび方法は、他の代替ゲノムのパワーエンジンまたは他のゲノムデータ記憶手段とわずかな統合が可能になるように、疎結合されたBAMサーバおよびゲノムの可視化エンジンの好都合な特徴を組み合わせる。加えて、各構成要素は、
図1に概略的に例示的に示されたように、複数のBAMサーバまたは複数の可視化エンジンを収容するために必要に応じてスケーリングできる。最も好ましくは、各サーバは、充分に柔軟であるので、独立して記憶、認証、およびデータ検索を勝手に維持し、同時に各サーバが一部を他のサーバと協働し得る場合に分散性を維持する。さらに、大きいデータ源から提供されたデータを動的にスケーリングするBAMサーバおよび可視化エンジンの両方の能力は、将来のデータ形式およびファイル形式のデータサイズの著しい増加を緩和するのに役立つ。
【0023】
図2は、ゲノム情報の画像表示を異なるスケーリングの観察で生成できる、ゲノムの可視化システム200を示す。システム200は、指標付きゲノムデータベース220およびスケーリングエンジン230を含む。一部の実施形態では、システム200はまた、ゲノム・グラフィックライブラリ237、または恐らくシステム200によって供給されるサービスのクライアントとして作動する、デバイス250さえも含むことができる。例えば、デバイス250は、ブラウザ対応コンピューティングデバイス(例えば、携帯電話、タブレット、コンピュータなど)を含むことができ、ブラウザ対応コンピューティングデバイスを通して、医療機関または患者は、ネットワーク215を介して関心対象のゲノム情報にアクセスできる。スケーリングエンジン230は、ゲノム情報の画像表示をユーザのブラウザにHTTP、または他の適切なプロトコルを介して提供できる。
【0024】
ゲノムの可視化システム200は、ゲノム領域を表す1つまたは複数の配列オブジェクト223を記憶する、指標付きゲノムデータベース220を含み、配列オブジェクト223は、複数のスケール関連アノテーションを含むことが概して企図される。スケーリングエンジン230は、指標付きゲノムデータベース220と結合され、ユーザが選択したズームレベル252の関数として、配列オブジェクト223のスケール関連アノテーション225から引き出されるスケール関連情報233を調節するように構成される。次いで、スケーリングエンジン230は、ズームレベル252に基づくスケール関連情報233を表す、ゲノム表示オブジェクト235を動的に生成し、出力デバイス250がゲノム表示オブジェクト235をユーザに表すように構成する。
【0025】
本明細書に使用される場合、用語「ゲノム領域」は、通常、配列名ならびにその配列内の閉区間を特定する開始および終了座標を指す。例示的ゲノム領域はchr1:1234〜5678であり、この場合、chr1はヒト参照ゲノムからの染色体1の配列を指し、1234は開始座標であり、5678は終了座標である。しかし、ゲノム領域の特定の形式は、大幅に変化してもよく、適切な形式は、特に染色体の位置および/またはサブ位置、遺伝子名または機能、領域内の遺伝子(複数可)の規制面、領域内の遺伝子(複数可)の染色質構造面、配列の長さなどへの言及を含むことが、当業者には容易にわかるべきである。したがって、異なる視点から見ると、ゲノム領域は、ゲノム全体、染色体、染色体断片、もしくは対立遺伝子であってもよい。さらに、単一要求内の複数のゲノム領域の特定は、ゲノム領域間のあらゆる公知のデリミターを使用することによって可能であることに留意されたい。
【0026】
それ故、配列オブジェクト223は、多数のデータ形式を有してもよく、すべての公知の形式は、こうした形式も1つまたは複数のスケール関連アノテーションを含む限り、適切であると考えられることを認識されたい。例えば、企図された配列オブジェクトに対する特に好ましい形式は、SAM/BAMおよびBAMBAM形式を含む。同様に、配列オブジェクト223は、参照ゲノムのゲノム領域(例えば、統計学者(homo statisticus)から)または試験試料のゲノム領域を表してもよいことを理解されたい。配列オブジェクト223が分析される試験試料からである場合、分析は、参照ゲノムおよび/または異なる時点からの同じ対象のゲノムに対して実行されることが特に好ましい。したがって、適切な参照配列オブジェクト223は、生の配列データ、統計学者(homo statisticus)からの配列データ、および/または指定された時点からの試験対象の配列データを含んでもよい。さらに、配列オブジェクト223を、読み取られた生データまたは組み立てられた配列(例えば、全長の遺伝子)に必ずしも限定する必要はないが、配列オブジェクト223は、参照配列領域(例えば、領域には不一致の対応するベースのみが一覧にされる)に対して異なる配列オブジェクト223であってもよいか、または参照配列領域に対して異なる配列オブジェクト223を含んでもよいことを認識されたい。前述同様に、こうした参照ゲノム領域は、より初期の時点に取られた同じ試験発端者から、または実際に健康な発端者もしくは複数の健康な発端者(統計学者(homo statisticus))からの仮想の共通配列からであってもよい。
【0027】
スケール関連アノテーション225に関しては、アノテーション225は大幅に変化してもよく、ゲノム分析で公知のすべてのアノテーションは、本明細書での使用に適切であると考えられることが企図される。例えば、特に好ましいアノテーション225は、様々なスケールレベル(染色体上の配列の位置、染色体内の位置、対立遺伝子情報など)のゲノム構造に関連したゲノム構造、および様々なスケールレベル(染色体転座、繰り返しまたはコピー数、挿入、欠失、逆位、SNP、遍位、トランスバージョンなどの様々な変異など)のゲノム変異に関連したゲノム変異を含む。同様に、スケール関連アノテーション225はまた、様々なスケールレベル(例えば、倍数性、コピーおよび/または繰り返し数、変異またはコピー数に関連した疾患のタイプ/状況/治療など)の疾患情報も含んでもよい。さらに企図された態様では、スケール関連アノテーション225は、様々なスケールレベル(例えば、遺伝子の機能的または調節ネットワークの一部としての遺伝子、遺伝子名または機能的同定、生の配列データまたは処理された配列データ、遺伝子同定、遺伝子制御の情報、および疾患に関連した遺伝子の情報)の遺伝子関連情報も含んでもよい。
【0028】
当然のことながら、関連情報のすべてまたは一部は、参照配列(例えば、統計学者(homo statisticus)またはより初期の時点)に対して異なる情報として表されてもよく、これはデータサイズおよび複雑性を有利に低減することを理解されたい。加えて、スケール関連アノテーション225は、通常、配列オブジェクトに関連したメタデータも含み、最も典型的には、患者識別、設備識別、医師識別、および/または保険情報を含む。
【0029】
異なる視点から見ると、スケール関連アノテーション225は、選択された閲覧者(医師、研究者、患者、保険など)への表示に適切なアノテーションを含む。例えば、閲覧者が医師である場合、スケール関連アノテーション225を、ゲノム全体の表示形式を簡易化した形式(例えば、円形プロット、分裂中期スプレッド(metaphase spread)など)に関連させてもよく、この場合、変異は単純なポインタまたは他の図形ツールによって示される。一方、閲覧者が研究者である場合、スケール関連アノテーション225を、実際の生の配列データおよびコピー数/対立遺伝子頻度が提供される表示形式に関連させてもよい。
【0030】
さらに、また閲覧者にかかわらず、視覚的表現のタイプは、ズームに対して適切な内容が表示されるように、ズームレベル252の関数として動的に変化することを認識されたい。それ故、スケール関連アノテーション225は、1つまたは複数の特定のズームレベル252に対する特定のアノテーションに適性を示すデータをさらに含んでもよい。当然のことながら、所与のズームレベルでの表示への適性はまた、以下にさらに論じるようにこのようなデータと無関係に決定されてもよい。ユーザによって選択されたズームレベル252は、様々な技法を通して決定されることが可能である。一部の実施形態では、ズームレベル252を、ユーザプロファイル、すなわち、医療提供者、患者、保険会社、研究者、または他のタイプのプロファイルに基づいて決定することができる。例えば、最高レベルのズーム(すなわち、ゲノム領域の最大表示)を表すズームレベル252を、患者がデータを見ているときにデフォルトとして選択することができる。別法として、研究者は、関心対象の特定領域を目標とするデフォルトのズームレベル252を有してもよい。ズームレベル252を確立するための他の技法には、可視化デバイス(例えば、ブラウザ、アプリケーションなど)からユーザが選択した境界ボックスを受信すること、参照領域(統計学者(homo statisticus))に対して特異的ゲノム領域上で自動的にトリガーすること、関心対象の領域を示す配列デバイスからゲノム情報を受信すること、または他の技法が含まれる。
【0031】
スケール関連アノテーション225を図形表示する選択肢は多数あり、図形表示は、公知の記号および注記を使用して実行されることが特に好ましい。最も好ましくは、公知の記号および注記を、スケール関連アノテーション225を表す図形オブジェクトを記憶するように構成された、ゲノム・グラフィックライブラリ237内に記憶することができる。このような場合、スケーリングエンジンは、スケール関連情報233をズームレベル252に従ってグラフィックライブラリ237から図形オブジェクトにマッピングするように構成され、ゲノム表示オブジェクト235は、マッピングされた図形オブジェクトを含むことが特に好ましい。例えば、スケーリングエンジン230は、ズームレベル252を、公知の変異に関する患者のゲノム情報を精査している医療提供者から受信する。スケーリングエンジン230は、配列オブジェクト223を関連したスケール関連アノテーション225と共に指標付きゲノムデータベース220から獲得する。スケーリングエンジン230は、スケール関連アノテーション225、医療提供者情報(例えば、承認、プロファイルなど)、およびズームレベル252の関数として、スケール関連情報233を引き出す。したがって、スケール関連情報233は、配列オブジェクト223のゲノム領域を適切なズームレベル、ならびに観察者に対して詳細の適切なレベルで表す。換言すると、所与のレベルのズームで、スケール関連情報233は、医療提供者に適切であるはずである情報を表す。観察者が患者であった場合、スケール関連情報233は、ズームレベル252および配列オブジェクト223が同一であっても、患者に適切であるはずであるゲノム情報の異なる表示を恐らく届けるはずである。次いで、スケーリングエンジン230は、スケール関連情報233をゲノム・グラフィックライブラリ237内の1つまたは複数の図形オブジェクトにマッピングして、ゲノム表示オブジェクト235を生成する。
【0032】
ゲノム・グラフィックライブラリ237は、単なる図形要素よりむしろゲノム図形オブジェクトを記憶するように構成されていることを認識されたい。ゲノム・グラフィックライブラリ237を、要望通りに追加のゲノム図形オブジェクトで更新することができるか、または既存のゲノム図形オブジェクトを、場合により異なる図形(例えば、テクスチャ、スキン、テーマなど)で修正することができる。このような手法は、視覚的表現のブランディングまたはカスタマイズができるので、市場内で有利だと考えられている。
【0033】
ハードウェアに関しては、企図されたデバイスおよび方法は、多くの手法で構成され作動されてもよいことに留意されたい。また特定の構成および/または作動の手法は、少なくとも一部は機能的構成要素および相互接続を決定付けることを理解されたい。したがって、好ましい態様の以下の記載は、単に当業者には例示的助言としてみなされるべきである。
【0034】
適切なBAMサーバに関しては、BAMサーバは、ゲノム領域によって指標を付けられたデータに効率的にランダムアクセスできる分散ネットワーク・サーバシステムであるか、またはゲノム領域によって指標を付けられたデータに効率的にランダムアクセスできる分散ネットワーク・サーバシステムを含み、固定接続を経て、かつ暗号化ファイルアクセスを介して、暗号化データへの保護されたアクセスを支持することが概して好ましい。典型的な使用の場合、ユーザは、1.ネットワークを経てBAMサーバに接続し、2.2つのパラメータ、A)データ記録およびB)ゲノム領域の一覧の要求を発行し、3.すべてのデータ入力をあらゆる提供されたゲノム領域に重なる記録から受信する。本明細書に使用される場合、用語「データ記録」は、各入力がゲノム領域に関連するデータ入力のセットを指す。データ入力は、単数、1列の文字、数および/または文字列の一覧を含む、あらゆるデータであることが可能である。データ入力の一般例の一部は、配列リードおよび解読装置、既知遺伝子座決定、または検出された変異からの関連したリード品質である。
【0035】
ゲノム領域への指標付与 データ記録がBAMサーバに追加されたときに、BAMサーバはデータ入力をゲノム領域によってソートし、次いで好ましくは、ゲノムアプリケーション内で一般に使用され、その使用はUCSCゲノムブラウザおよびSAMツールソフトウェア・ライブラリに完全に説明されているように、R木状のビニング指標(binning index)を生成する。簡潔に述べると、指標付き配列は、重複したビンに分割される。全配列を網羅する1つのビンから始まり、2つの新しいビンが加えられて、前のビンを半分に分割する。次いで指標は、各ビンからそのビン内に適合するデータ入力にポインタを有するが、より小さいビンはない。次いでクエリを重複させるデータ入力を検索することは、クエリを重複させるビンのみを調べることである。
【0036】
データアクセス保護 最も典型的には、BAMサーバが、データファイル・アクセスサーバに対する各要求を確認することにより、非公開のデータ記録へのアクセスを制限する。クライアントが、データファイル・アクセスサーバにより、充分なセキュリティ証明書を提供しない場合、あらゆる結果へのアクセスが拒否される。各BAMサーバを独自のデータファイル・アクセスサーバに対して構成することができ、柔軟な許可スキームおよびフェデレーション認証方法が可能になる。
【0037】
データ記憶に関しては、BAMサーバのデータ記録は、BAMサーバに局所的に現れるファイルシステム上に記憶されることが概して企図される。このファイルシステムは、BAMサーバに直接取り付けられるディスク、および/またはネットワークにアクセス可能なディスクを使用してもよい。保護されたデータ記録は、暗号化形式(例えば、CTRモードを使用する、AES対称ブロック暗号化)に記憶されることがさらに好ましい。BAMサーバは、通常、暗号化鍵にアクセスすることはない。保護されたデータ記録の要求を処理する際に、データファイル・アクセスサーバがアクセスを許可した場合、データファイル・アクセスサーバは、要求されたファイルに対する暗号化鍵を提供する。BAMサーバは、要求を処理する間にその鍵を使用し、要求の処理が完了するとすぐに鍵は処分される。
【0038】
適切な要求方法は、通常、HTTPSを経るRESTfulクエリを使用して、SSL保証のHTTPプロトコル、またはその内部でHTTPSクエリが作成される代替の暗号化トンネリング機構を使用して作成される。クエリのRESTful特性により、BAMサーバを地理的にかつ局所的に分散することができて、最大処理能力を消費アプリケーションに提供する。BAMサーバの局所性の唯一の制限は、基本データへの直接のファイルアクセスであり、基本データは、適切なプロトコル(VPNを経るNFS、または他のこのような解決策)を使用して広域ネットワークを経て表すことも可能である。
【0039】
さらに好ましい態様では、データの動的スケーリングが企図される。要求されたゲノム領域のサイズ、および表示されるデータによる解像度についての知識に基づいて、恐らくスケーリングエンジン230として作動するBAMサーバは、データを動的にスケーリング(「ダウンサンプリング」)することができて、処理時間および転送時間を低減する、より簡約された型を提供する。このダウンサンプリングは、2つの並列機構に達成されることが最も好ましい。第1の機構は、基本データの知識を必要とせず、いくつかのレベルに予め簡約されたBAMサーバファイルを提供することによって達成される。次いでBAMサーバは、データの「生」のレベル、あるいは簡約されたファイルの1つを提供するべきである場合に、クエリのときに動的に決定することができる。この決定は、消費アプリケーションによって利用されるデータ点の数を示す要求内に、追加のパラメータを含むことによってなされる。消費アプリケーションが、スケーリングエンジン230として作動もできる可視化エンジンである場合、有益なデータ点計算の一例は、スクリーンに描かれる画素数に基づくことが可能である。ダウンサンプリングのための第2の機構は、BAMサーバにアクセス可能な全データの動的要約である。この機構は、どのフィールドが要約できるかを理解できるように、ファイルタイプについての追加情報をBAMサーバに提供すること、および要約の機構を要求する。ゲノム座標指標を超える単一データ列のみをもつファイルの場合、これを自動的に決定でき、中央値または平均値の要約を自動的に実行できる。より複雑なデータタイプまたはより複雑な要約技法については、BAMサーバは、その要約を実行する方法を概説するパラメータを要求する。一例は、SAM/BAM形式でのファイルのダウンサンプリングであり、これは個々のリードを各位置でサブサンプリングによりダウンサンプリングを実行するはずであり、消費アプリケーションに限定数を戻して提供するに過ぎない。
【0040】
BAMサーバは、複数の形式からファイルを読み取り、ゲノム的に指標が付いたデータならびにSQLiteおよびJSONなどの追加の記憶形式のどちらも理解できるので、企図されたシステムおよび方法は容易に拡張可能であることをさらに理解されたい。要求されたファイルの形式は、消費アプリケーションにより現在提供されているが、ファイル形式の自動検出も企図される。BAMサーバのアーキテクチャは、外国の指標スキームを理解し、しかも統一インターフェイスを提供できる、プラグインの形式で追加のデータ形式を支援することが好ましい。これらのプラグインは、統一資源識別子(URI)REST要求を介して、またはBAMサーバ内の適切な形式の自動検出によって指定される。
【0041】
動的なゲノムの可視化エンジンに関しては、動的なゲノムの可視化エンジンは、ゲノム内の位置にマッピングする一般的な属性をもつ複数のタイプのデータを解釈し、データの画像ベースの解釈を生成することができると概して企図される。ゲノム「ブラウザ」の概念はある意味では、すでに公知である(例えば、2001年に創設された、University of California、Santa Cruz Genome Browser(米国カリフォルニア大学サンタクルーズ校のゲノムブラウザ)(URL、genome.ucsc.edu参照))ことに留意されたい。しかし、現在公知のブラウザは、データの閲覧をユーザが指定した密度に制限し、過去のある種の制限の要求に時宜を得て有意なやり方で応答することができない。それにひきかえ、本明細書に企図された動的なゲノムの可視化エンジンは、ユーザによって要求されるデータ量を把握し、適切なときにより圧縮して要約した版を提供するために、表された可視化を変更できる。あるレベルで、そのレベルのダウンサンプリングは、BAMサーバによって処理され、BAMサーバは可視化を試みる領域を把握し、可視化エンジンに送信されたデータを自動的に低減する。より高いレベルでは、エンジン自体が充分に大量のデータが要求されることを認識する場合、生成された基本的な可視化は、エンドユーザにより有益な要約を提供するために方法を変更する。
【0042】
表示は、閲覧しようと試みるデータの密度に基づいて大幅に変えることができる。
図3〜6は、ユーザが閲覧しているウィンドウ内の様々な数のベースに基づいて、これらの表示の変化の仕方の一部の例を表し、そのウィンドウでは、表示が、ブラウザ内にゲノム表示オブジェクト235を生成するために使用される、ゲノム図形オブジェクトから生成される。これらの表示は動的に生成され、予め計算されていないが、ある種の使用の場合には、予め生成された静止画像は除外されず、企図されたデバイスおよび方法によって支援されることを重視することが重要である。
図3では、ヒトゲノムの52のベースが、約1000の水平画素を跨いで、全コピー数、対立遺伝子の特定コピー数、BAMからの生の配列データ、およびUCSC既知遺伝子のアノテーショントラックと共に示されている。これらのトラックはそれぞれ、前に概説されたBAMサーバのアーキテクチャから動的に引かれ、それぞれのトラックは、必要なデータを獲得するために単独のBAMサーバにクエリを行うことができる。このような少数のベースが示されているので、BAMサーバまたは可視化エンジンのいずれでもダウンサンプリングは実行されない。したがって、最低のズームレベルは生の配列または計算された配列のベースのリードでは特に好ましい。
【0043】
図4は、同じ領域のゲノムからの約1000のベースを示す、サブキロベース・ズームレベルを表す。この解像度およびベースの数では、BAMサーバ上にダウンサンプリングは起きないが、可視化エンジンは、各データ源の表示を変え始めて、増加したビューポートを収容する。特に、各ベース上の文字は、もはや上部参照ベースバー上および個々のBAMリード内のいずれにも現れず、代わりに単色を用いて識別された変更を表す。
【0044】
図5は、キロベース・ズームレベルで約2メガベース(200万ベース)を表示する一方で、画素数は一定に維持されている。結果として、BAMサーバおよび可視化エンジンのどちらも、引き出すデータをダウンサンプリングした。BAMサーバは、可視化エンジンを提供するコピー数データの量を低減し、可視化エンジンは、閲覧が実現不可能であるので、生のデータトラックを無視した。加えて、可視化エンジンは、画像ヒストグラムを頂部に生成することにより、変異トラック(一番下のトラック)の1つを要約し始めた。最後に、可視化エンジンは、より正確な画像を生成するために、それぞれの画素の真下に位置するコピー数変化に対して複数のデータ点と一緒に平均化した。
【0045】
最後の解像度、
図6は、すべての染色体12を染色体ズームレベルで表す。先のダウンサンプリングのすべては、この解像度で生じ、追加のダウンサンプリングは、停止してテキストを除去し、UCSC既知遺伝子およびCOSMIC変異トラックの両方をより多くのグラフ表示で画像の底部に表示する。1つの明瞭な例がこれらの図に表されてきたが、このエンジンは、所定のまた予め引き出された解像度レベルに限定されない動的可視化に対する枠組みを提供し、さらにここに示されたもの超える多くの異なるタイプの基礎データを収容することができる。
【0046】
すでに記載されたものに加えて、より多くの修正形態が、本明細書の発明概念から逸脱することなく可能であることが、当業者には明らかであるべきである。したがって、本発明の主題は、添付の特許請求の範囲の精神以外に限定されない。さらに、本明細書および特許請求の範囲の両方を解釈する際に、すべての用語は、文脈と一致する可能な最も広い範囲の方法で解釈されるべきである。特に、用語「comprises」および「comprising」は、非排他的手法で要素、構成要素、もしくはステップを指すように解釈されるべきであり、言及された要素、構成要素、もしくはステップは、存在してもよく、または利用されてもよく、または明確に言及されていない他の要素、構成要素、もしくはステップと組み合わせられてもよいことを示す。組み込まれた参照における用語の定義または使用が、本明細書に提供されたその用語の定義と矛盾する、または相容れない場合は、本明細書に提供されたその用語の定義を適用し、参照におけるその用語の定義は適用しない。本明細書の主張が、A、B、C…およびNからなる群から選択されたものの少なくとも1つを指す場合、その文はAプラスNではない、またはBプラスNではないなどの群から唯一の要素を必要とすると解釈されるべきである。