特許第5863775号(P5863775)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シュライナーズ ホスピタルズ フォー チルドレンの特許一覧 ▶ ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニアの特許一覧

特許5863775遺伝的イメージングのためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5863775
(24)【登録日】2016年1月8日
(45)【発行日】2016年2月17日
(54)【発明の名称】遺伝的イメージングのためのシステムおよび方法
(51)【国際特許分類】
   G06F 19/26 20110101AFI20160204BHJP
【FI】
   G06F19/26ZNA
【請求項の数】14
【全頁数】40
(21)【出願番号】特願2013-511212(P2013-511212)
(86)(22)【出願日】2011年5月6日
(65)【公表番号】特表2013-533530(P2013-533530A)
(43)【公表日】2013年8月22日
(86)【国際出願番号】US2011035557
(87)【国際公開番号】WO2011146263
(87)【国際公開日】20111124
【審査請求日】2013年7月12日
(31)【優先権主張番号】12/781,679
(32)【優先日】2010年5月17日
(33)【優先権主張国】US
【前置審査】
(73)【特許権者】
【識別番号】508373279
【氏名又は名称】シュライナーズ ホスピタルズ フォー チルドレン
(73)【特許権者】
【識別番号】506115514
【氏名又は名称】ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア
(74)【代理人】
【識別番号】100102978
【弁理士】
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【弁理士】
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【弁理士】
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【弁理士】
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【弁理士】
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【弁理士】
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【弁理士】
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【弁理士】
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100114340
【弁理士】
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100114889
【弁理士】
【氏名又は名称】五十嵐 義弘
(74)【代理人】
【識別番号】100121072
【弁理士】
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】チョー キホ
(72)【発明者】
【氏名】グリーンハルフ デビッド ジー.
【審査官】 松野 広一
(56)【参考文献】
【文献】 米国特許出願公開第2003/0077648(US,A1)
【文献】 X. Xiao et al,Using cellular automata to generate image representation for biological sequences,Amino Acids,2005年 2月10日,Vol.28,pp.29-35
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10−19/28
PubMed
(57)【特許請求の範囲】
【請求項1】
遺伝的配列を表す数値データセットを形成するコンピュータにより実現される方法であって、以下の段階を含む方法:
一連のヌクレオチドまたはアミノ酸を含む遺伝的配列を表す電子情報を受け取る段階;
遺伝的アナライザの電子的なセットを獲得する段階であって、遺伝的アナライザが、長い遺伝的配列内の定義済みの配列をインシリコで認識し、前記定義済みの配列内の定義済みの位置でまたは前記定義済みの配列の後で前記長い配列をインシリコで切り離すソフトウェアアルゴリズムであり、各遺伝的アナライザが「n」個のヌクレオチドまたはアミノ酸を含む定義済みの配列を認識し、前記遺伝的アナライザのセットが、前記セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける、前記遺伝的配列に存在する「X」個の異なるヌクレオチドまたはアミノ酸のすべての可能な組合せを含み、前記遺伝的アナライザのセットが遺伝的アナライザの既知の順序を有し、Xnが前記セット内の遺伝的アナライザの数であり、かつ各遺伝的アナライザが、所与の遺伝的アナライザの配列と同一である遺伝的配列中の「n」個のヌクレオチドまたはアミノ酸の各セグメント内の指定の部位または各セグメントの末端において前記遺伝的配列内の切断部位を提供する一意の配列を有する前記段階;
前記遺伝的配列を、遺伝的アナライザの前記順序付きセットを用いて、一連の数のグループを含む数値データへ変換する段階であって、数のグループが、遺伝的アナライザの前記セットの一意の遺伝的アナライザごとに生成され、前記グループ内の各数が、前記所与の一意の遺伝的アナライザによって提供される前記遺伝的配列内の連続する切断部位間のヌクレオチドまたはアミノ酸の総数を含み、かつ前記数値データセット内の数の前記グループが、遺伝的アナライザの前記セットの前記既知の順序で編成される前記段階;
前記遺伝的配列の最初のn-1個のヌクレオチドまたはアミノ酸、前記数値データ、および前記遺伝的配列の最後のヌクレオチドまたはアミノ酸を順に含む数値データセットを生成する段階;および
前記数値データセットを遺伝的画像の電子表現へ符号化する段階であって、前記数値データセットが遺伝的画像内に図形的に符号化される前記段階。
【請求項2】
遺伝的画像の電子表現を機械可読記憶装置に記憶する段階をさらに含む、請求項1記載のコンピュータにより実現される方法。
【請求項3】
目視できる遺伝的画像を提供するために表示装置上で電子表現を表示する段階をさらに含む、請求項2記載のコンピュータにより実現される方法。
【請求項4】
電子表現をプリンタへ提供する段階、および基材上に目視できる遺伝的画像を印刷する段階をさらに含む、請求項2記載のコンピュータにより実現される方法。
【請求項5】
セット内の遺伝的アナライザの既知の順序がアルファベット順である、請求項1記載のコンピュータにより実現される方法。
【請求項6】
遺伝的配列がヌクレオチド配列である、請求項1記載のコンピュータにより実現される方法。
【請求項7】
遺伝的画像が着色画素のアレイである、請求項1記載のコンピュータにより実現される方法。
【請求項8】
遺伝的画像が二等分された正方形で構成されており、前記二等分された正方形の色、サイズ、明暗度および/または位置が数値データセットを符号化している、請求項1記載のコンピュータにより実現される方法。
【請求項9】
遺伝的画像が2色を使用して数値データセットを符号化し、一方は遺伝的アナライザを特定し、もう一方は連続する切断部位間のヌクレオチドまたはアミノ酸の各総数を表す、請求項1記載のコンピュータにより実現される方法。
【請求項10】
プロセッサと、
機械可読記憶装置と、
前記記憶装置内の遺伝的アナライザの順序付きセットと
を含む、遺伝的画像を生成するためのコンピュータシステムであって、
前記プロセッサが、前記プロセッサに請求項1〜9のいずれか一項記載の方法を行わせるプログラムでプログラムされている、システム。
【請求項11】
表示装置をさらに含み、かつプロセッサが、前記表示装置上で電子表現を表示して目視できる遺伝的画像を提供するようにさらにプログラムされている、請求項10記載のシステム。
【請求項12】
プリンタをさらに含み、かつプロセッサが、前記プリンタに電子表現を提供し、かつ前記プリンタに、基材上に目視できる遺伝的画像を印刷させるようにさらにプログラムされている、請求項10記載のシステム。
【請求項13】
プロセッサと、
機械可読記憶装置と、
画像を走査し、かつ前記画像を電子データへ変換するスキャナと、
前記記憶装置内の遺伝的アナライザの順序付きセットと
を含む、請求項1〜9のいずれか一項記載の方法により生成される遺伝的画像を読み取るためのシステムであって、
前記プロセッサに、
スキャナから電子データを獲得させるよう、
前記記憶装置から前記遺伝的アナライザの順序付きセットを獲得させるよう、
電子データを復号して、少なくとも一つのヌクレオチド配列またはアミノ酸配列を表す数値データセットを獲得させるよう、ここで前記電子データが一連の数のグループを含み、かつ数のグループが、遺伝的アナライザの前記セットの一意の遺伝的アナライザごとに生成され、前記グループ内の各数が、前記所与の一意の遺伝的アナライザによって提供される前記ヌクレオチド配列またはアミノ酸配列内の連続する切断部位間のヌクレオチドまたはアミノ酸の総数を含み、かつ数値データセット内の数の前記グループが、遺伝的アナライザの前記セットの前記既知の順序で編成され、かつ
前記数値データセットを、遺伝的アナライザの前記順序付きセットを用いて、ヌクレオチド配列またはアミノ酸配列へ変換させるよう、
前記プロセッサがプログラムでプログラムされている、
システム。
【請求項14】
有形の機械可読記憶装置であって、プロセッサにより実行されると、コンピュータシステムに請求項1〜9のいずれか一項記載の方法を行わせる、該機械可読記憶装置上に記憶されたデータを含む、有形の機械可読記憶装置。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
本発明は遺伝的イメージングに関し、より詳細には、生の生物配列データから開始して、遺伝的画像を作成するためのシステムおよび方法に関する。
【背景技術】
【0002】
背景
配列決定技術の進歩は、生物学研究に供される様々な種のゲノムおよびゲノムが転写された分子(RNA)からの膨大な量の遺伝情報の急速な蓄積に寄与している。ゲノム配列データの重要な生物医学的応用の一つが、基準と照合するアライメント解析による、膨大な範囲の疾患経過と関連付けられる遺伝的多型を識別することである。遺伝的配列情報のアライメント解析は、特に比較されるべき配列のサイズが大きいときには、相当に面倒であり、この作業は、ある程度の分子生物学およびゲノミクスにおける訓練を必要とする。
【0003】
最近注目を集めているパーソナル・ゲノム・プロジェクトは、個人からの遺伝的配列データ、ならびにおそらくは動物および植物からの遺伝的配列データも、医療目的および行政上の目的のためのツールとして使用できることを示唆している。しかし、ほとんどの遺伝的配列データは、迅速な日常の識別のためのツールとして使用するにはあまりにもかさばりすぎる。
【発明の概要】
【0004】
概要
本発明は、少なくとも一部は、核酸配列やアミノ酸配列などの遺伝的配列データを、(コンピュータによるなど)電子的に、または、目視や光学走査装置によるなど、光学的に解析することのできるコンパクトで移植性のある画像を提供する、新規のいわゆる遺伝的画像として表すことができるという発見に基づくものである。この新規の方法では、所与の配列についての遺伝的配列データが、まず、数値データセットへ変換され、それがさらに、遺伝的画像を形成するように符号化される。遺伝的画像は、そこからさかのぼって元の遺伝的配列データを突き止めることができる。
【0005】
一局面において、本発明は、ヌクレオチド配列を表す数値データセットを形成するコンピュータにより実現される方法を特徴とする。これらの方法は、一連のヌクレオチドを含むヌクレオチド配列を表す電子情報を受け取る段階;遺伝的アナライザの電子的なセットを獲得する段階であり、各遺伝的アナライザが「n」個のヌクレオチドを含み、セットが、セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける、ヌクレオチド配列に存在する「X」個の異なるヌクレオチドのすべての可能な組合せを含み、セットが遺伝的アナライザの既知の順序を有し、Xnがセット内の遺伝的アナライザの数であり、各遺伝的アナライザが、所与の遺伝的アナライザと同一である「n」個のヌクレオチドの各セグメント内の指定の部位または各セグメントの末端においてヌクレオチド配列内の切断部位を提供する一意の配列を有する段階;ヌクレオチド配列を、遺伝的アナライザの順序付きセットを用いて、一連の数のグループを含む数値データへ変換する段階であり、数のグループが、遺伝的アナライザのセットの一意の遺伝的アナライザごとに生成され、グループ内の各数が、所与の一意の遺伝的アナライザによって提供されるヌクレオチド配列内の連続する切断部位間のヌクレオチドの総数を含み、数値データセット内の数のグループが、遺伝的アナライザのセットの既知の順序で編成される段階;ならびに、ヌクレオチド配列の5'末端の最初のn-1個のヌクレオチド、数値データ、およびヌクレオチド配列の3'ヌクレオチドを順に含む数値データセットを生成する段階を含む。
【0006】
これらの方法は、数値データセットを遺伝的画像の電子表現へ符号化する段階;および遺伝的画像の電子表現を機械可読記憶装置に記憶する段階をさらに含むことができる。またこれらの方法は、目視できる遺伝的画像を提供するために表示装置上で電子表現を表示する段階および/または電子表現をプリンタに提供し、基材上に目視できる遺伝的画像を印刷する段階も含むことができる。
【0007】
別の局面において、本発明は、遺伝的アナライザの順序付きセットのディジタル表現を含む有形の機械可読記憶装置を特徴とし、遺伝的アナライザのセットは一連のヌクレオチド配列のディジタル表現を含み、各遺伝的アナライザは「n」個のヌクレオチドを含み、セットは、セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける、ヌクレオチド配列に存在する「X」個の異なるヌクレオチドのすべての可能な組合せを含み、セットが遺伝的アナライザの既知の順序を有し、Xnがセット内の遺伝的アナライザの数であり、各遺伝的アナライザは、所与の遺伝的アナライザと同一であるヌクレオチド配列内の「n」個のヌクレオチドの各セグメント内の指定の部位または各セグメントの末端においてヌクレオチド配列内の切断部位を提供する一意の配列を有する。
【0008】
これらの記憶装置において、セット内の遺伝的アナライザの順序は、例えば、アルファベット順とすることができる。これらの記憶装置のある態様では、n=4であり、X=4である。様々な態様において、記憶装置は、コンピュータ内のメモリまたは移植性のある有形の機械可読媒体とすることができる。
【0009】
また、別の局面において、本発明は、有体物と、機械可読形式の非英数字のマーキングを含み、機械によって読み取られると、プロセッサに、遺伝的画像を数値データセットへ復号させ、数値データセットを、ヌクレオチド配列やアミノ酸配列などの特定の遺伝的配列へ変換させる、有体物上に表示される遺伝的画像とであり、またはこれらを含む製造品も含む。これらの製造品における有体物は、例えば、容器、紙片もしくはプラスチック片、またはラベル、または電子表示装置など、その上に遺伝的画像を表示することのできる他の任意の製品とすることができる。これらの遺伝的画像において、画像は、着色画素のアレイとすることができる。
【0010】
また本発明は、機械によって読み取られると、プロセッサに、(a)数値データセットを、機械可読形式の非英数字のマーキングを含み、機械によって読み取られると、プロセッサに、遺伝的画像を復号して特定の遺伝的配列を提供させる遺伝的画像の電子表現へ符号化させ、または(b)数値データセットを特定の遺伝的配列へ変換させることができる数値データセットを含む有形の機械可読記憶装置も含む。
【0011】
これらの有形の記憶装置において、記憶装置は、コンピュータ内の電子メモリ、ユニバーサル・シリアル・バス(USB:universal serial bus)互換メモリ、または磁気もしくは光ディスクとすることができ、またはこれらを含むことができる。
【0012】
また本発明は、遺伝的アナライザのセットを生成する方法も含む。これらの方法は、各遺伝的アナライザ内の文字の配列の長さ「n」を選択する段階;「X」を各遺伝的アナライザ内の異なる文字の数として選択する段階;遺伝的アナライザの「n」個の位置のそれぞれにおける、配列に存在する「X」個の異なる文字のすべての可能な組合せを計算して、Xn個の遺伝的アナライザの基本セットを作成する段階;遺伝的アナライザの基本セットを特定の順序で配置して遺伝的アナライザの順序付きセットを作成する段階;および遺伝的アナライザの順序付きセットを機械可読記憶媒体に記憶する段階を含む。
【0013】
これらの方法において、遺伝的アナライザの順序付きセットは、一連のヌクレオチド配列のディジタル表現を含むことができ、各遺伝的アナライザは「n」個のヌクレオチドを含み、セットは、セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける、ヌクレオチド配列に存在する「X」個の異なるヌクレオチドのすべての可能な組合せを含み、セットは、遺伝的アナライザの既知の順序を有し、Xnはセット内の遺伝的アナライザの数であり、各遺伝的アナライザは、所与の遺伝的アナライザと同一であるヌクレオチド配列内の「n」個のヌクレオチドの各セグメント内の指定の部位または各セグメントの末端においてヌクレオチド配列内の切断部位を提供する一意の配列を有する。例えば、「n」は4とすることができ、文字は核酸またはアミノ酸とすることができる。
【0014】
さらに別の局面において、本発明は、ヌクレオチド配列を表す遺伝的画像を読み取る方法を特徴とする。これらの方法は、本明細書で述べる一つまたは複数の遺伝的画像を有する製造品を獲得する段階;製造品を走査して、遺伝的画像のマーキングを電子データへ変換する段階;電子データを復号して、少なくとも一つのヌクレオチド配列を表す数値データセットを獲得する段階;および数値データセットをヌクレオチド配列へ変換する段階を含む。例えば、数値データセットをヌクレオチド配列へ変換する段階は、本明細書で述べるように、遺伝的アナライザの既知の順序付きセットの使用を含むことができる。
【0015】
また本発明は、第1のヌクレオチド配列および第2のヌクレオチド配列を表す、本明細書で述べる遺伝的画像を有する少なくとも2つの製造品を獲得し、製造品を走査して、それぞれの遺伝的画像のマーキングを、第1のヌクレオチド配列および第2のヌクレオチド配列を表す電子データへ変換し、第1のヌクレオチド配列および第2のヌクレオチド配列を表す電子データを比較して差異の位置を突き止め、差異の電子データを復号して、第1のヌクレオチド配列と第2のヌクレオチド配列との差異を表す数値データセットを獲得し、遺伝的アナライザの順序付きセットを使用して数値データセットを変換し、第1のヌクレオチド配列と第2のヌクレオチド配列との差異を表すヌクレオチド配列を提供することによって2つ以上のヌクレオチド配列を比較する方法も含む。
【0016】
また別の局面において、本発明は、プロセッサに、一連のヌクレオチドを含むヌクレオチド配列を表す電子情報を受け取らせるように;機械可読記憶装置から遺伝的アナライザの順序付きセットを獲得させるように;ヌクレオチド配列を、遺伝的アナライザの順序付きセットを用いて、一連の数のグループを含む数値データへ変換させるように、ここで数のグループは、遺伝的アナライザのセットの一意の遺伝的アナライザごとに生成され、グループ内の各数は、所与の一意の遺伝的アナライザによって提供されるヌクレオチド配列内の連続する切断部位間のヌクレオチドの総数を含み、数値データセット内の数のグループは、遺伝的アナライザのセットの既知の順序で編成され;ヌクレオチド配列の5'末端の最初のn-1個のヌクレオチド、数値データ、およびヌクレオチド配列の3'ヌクレオチドを順に含む数値データセットを生成させるように、プログラムでプログラムされているプロセッサと、機械可読記憶装置と、記憶装置内の本明細書で述べる遺伝的アナライザの順序付きセットと、を含む遺伝的画像を生成するシステムも含む。
【0017】
これらのシステムにおいて、プロセッサは、数値データセットを遺伝的画像の電子表現へ符号化し、遺伝的画像の電子表現を機械可読記憶装置に記憶するようにさらにプログラムすることができる。これらのシステムは表示装置をさらに含むことができ、プロセッサは、表示装置上で電子表現を表示して目視できる遺伝的画像を提供するようにさらにプログラムすることができる。これらのシステムはプリンタをさらに含むことができ、プロセッサは、プリンタに電子表現を提供し、プリンタに、基材上に目視できる遺伝的画像を印刷させるようにさらにプログラムすることができる。
【0018】
また本発明は、遺伝的画像を読み取るためのシステムも特徴とする。これらのシステムは、プロセッサと、機械可読記憶装置と、画像を走査し、画像を電子データへ変換するスキャナと、記憶装置内の本明細書で述べる遺伝的アナライザの順序付きセットとを含み、プロセッサは、プロセッサに、スキャナから電子データを獲得させ、記憶装置から遺伝的アナライザの順序付きセットを獲得させ、電子データを復号して、少なくとも一つのヌクレオチド配列を表す数値データセットを獲得させ、数値データセットを、遺伝的アナライザの順序付きセットを用いて、ヌクレオチド配列へ変換させるプログラムでプログラムされており、電子データは一連の数のグループを含み、数のグループは、遺伝的アナライザのセットの一意の遺伝的アナライザごとに生成され、グループ内の各数は、所与の一意の遺伝的アナライザによって提供されるヌクレオチド配列内の連続する切断部位間のヌクレオチドの総数を含み、数値データセット内の数のグループは、遺伝的アナライザのセットの既知の順序で編成される。
【0019】
定義
本明細書において使用する場合、「遺伝的画像」とは、機械可読の数値データセットへ変換され、次いで、遺伝的画像を形成するように符号化されている遺伝的配列データの表現、例えば、有形の物体上のマーキングや、画面またはモニタ上の画像や、機械可読媒体上に記憶された電子表現などである。遺伝的配列データは、DNAやRNAなどの核酸配列や、アミノ酸配列など、少なくとも一つの生体高分子配列を表す。図1Aは、二等分された正方形で構成された例示的な様式化された遺伝的画像を含み、色、サイズ、明暗度、位置などなどの正方形の様々な特徴が合わさって、配列データから変換された数値データセットの符号化された機械可読表現を記号化している。本明細書において使用する場合、遺伝的画像は、例えば、コンピュータもしくはテレビのモニタ上や、電話機もしくは携帯情報端末(PDA:personal digital assistant)の画面上などの、またはコンピュータもしくは他の装置において電子的に記憶、解析される、または、紙もしくはプラスチックのラベルや、プラスチック、金属、もしくはセラミックのシート、ディスク、もしくはカードなどの有形の物体に組み込まれる、無体のデータパターンとしての、機械可読形式で符号化された配列データを含む。
【0020】
遺伝的配列データは、まず、数値データセットへ変換され、次いで、その数値データセットは、機械可読である遺伝的画像を形成するように符号化される。そのような遺伝的画像は、自動化された光学的または非光学的(例えば電子的)工程を用いて、解析および/またはさらなる処理のために符号化配列データを入力し、または「読み取る」ことができるという点で機械可読である。ある態様では、人間が目視で遺伝的画像を読み取ることができる。様々な態様において、符号化配列データは、英数字データを含むこともでき、無線周波数識別(RFID:radio frequency identification)素子、ホログラム、半導体メモリ素子、磁気素子、光磁気素子、光ディスク要素、JPEG(Joint Photographics Experts Group)画像やPNG(Portable Network Graphics)画像などの画像形式などの形態へ組み込むことができる。ある態様では、配列データはPNGとして符号化される。図1Aには、遺伝的画像が、ブドウの内因性レトロウイルス配列のある遺伝情報を表す色分けされたPNGの形で示されている。よって、(例えば、ブドウの内因性レトロウイルス配列の制限酵素断片長多型解析の形などの)実際の遺伝情報は、PNG遺伝的画像として符号化され、データの視覚表現および/または機械可読表現である。
【0021】
本明細書において使用する場合、生体高分子とは、特定の配列において結合された複数の生物由来の単量体単位を含む分子である。典型的な例には、DNA、RNAなどといった核酸配列や、ポリペプチド、タンパク質などのアミノ酸配列が含まれる。よって、単量体単位には、リボヌクレオチド、リボヌクレオシド、デオキシリボヌクレオチド、デオキシリボヌクレオシド、アミノ酸などが含まれ得る。また単量体単位には、天然のアミノ酸、ヌクレオチド、もしくはヌクレオシドを模倣し、代用し、もしくは置換するのに用いられる非天然もしくは合成のアミノ酸、ヌクレオチドもしくはヌクレオシド、または非天然もしくは合成の化合物も含まれ得る。したがって、生体高分子には、天然および非天然のペプチド、タンパク質、酵素、抗体、一本鎖もしくは多重鎖のDNAもしくはRNAなどのポリヌクレオチドもしくはポリヌクレオシド、メッセンジャーRNA(一次血単核細胞から誘導されたメッセンジャーRNAなど)、ペプチド核酸などが含まれ得る。したがって、「遺伝的画像」における「遺伝的」という用語は、説明のためのものであり、配列データを、天然のゲノムからのDNA配列もしくはRNA配列、または天然のゲノムに対応するペプチド、タンパク質などに限定するためのものではないことに留意されたい。
【0022】
本明細書において使用する場合、遺伝的配列データとは、生体高分子の配列の少なくとも一部分を記述する情報である。典型的な例には、ゲノム、染色体、遺伝子、トランスポゾン、レトロトランスポゾン、内因性レトロウイルス要素、レトロウイルスゲノム、レトロウイルスタンパク質、その部分などといったゲノム配列データが含まれる。様々な態様において、配列データは、生体高分子の連続した部分、生体高分子の完全な配列、多型配列、制限酵素断片長多型(RFLP:restriction fragment length polymorphism)プロファイル、または単一ヌクレオチド多型(SNP:single nucleotide polymorphism)プロファイルなどを表すことができる。
【0023】
本明細書において使用する場合、「非配列」データとは、配列データ以外の任意の関心対象のデータである。非配列データの典型的な例は、対象、系統発生的分類、生物、細胞、試料、実験、データ発生源、名前、染色体、遺伝子、トランスポゾン、レトロウイルス、商標その他の商用マーク、免許番号や許可番号などの識別子、行政の規制印もしくは承認コードなどのうちの一つまたは複数の局面を記述することができる。非配列データは、人間が読めるものとすることができ、かつ/または機械可読形式で符号化することができる。様々な態様において、非配列データは、自動認識およびデータ取得(AIDC:Automatic Identification and Data Capture)と互換性のある形式で符号化することができる。ある態様では、配列データおよび非配列データは、それぞれ、英数字データとして、または、バーコード、ホログラム、無線周波数識別(RFID)素子、半導体メモリ素子、磁気素子、光磁気素子、光ディスク要素、PNGやJPEGなどの画像形式などといった形へ、独立に符号化することができる。特定の態様では、非配列データの少なくとも一部分を人間が読める形式とすることができ、配列データの少なくとも一部分を人間が読めない形式、機械可読形式、典型的には暗号化機械可読形式で符号化することができる。そのような一態様は、例えば、ユーザが遺伝的画像ラベルから識別のための非機密の非配列データを読み取ることを可能にする同時に、遺伝的画像の形で符号化されている(または任意選択で暗号化も施されている)機密の配列データを機密として保持することができ、アクセスを、対応する暗号鍵を所有しているユーザだけに制限することができる。ある態様では、配列データおよび非配列データは、それぞれ、PNG画像などの遺伝的画像において独立に符号化される。様々な態様において、配列データおよび非配列データの少なくとも一方が暗号化される。ある態様では、配列データおよび非配列データは、異なる暗号化鍵で暗号化される。
【0024】
本明細書において使用する場合、多型配列とは、名目的にはある集団において保存されるが、その集団に2つ以上の異なる特定の配列を含む配列である。よって、様々な態様において、多型配列データは、例えば、他の種、対象、細胞型、疾患状態、遺伝子、染色体、レトロウイルス、または内因性レトロウイルス要素と比較した、そのような個々の種、対象、細胞型、疾患状態、遺伝子、染色体、レトロウイルス、内因性レトロウイルス要素に対応する。
【0025】
本明細書において使用する場合、制限酵素断片長多型(RFLP)とは、制限酵素を用いて配列を断片へ分解し、結果として得られる断片のサイズを、ゲル電気泳動法などによって解析することによって検出することができるゲノムの配列における変異である。本明細書において使用する場合、制限酵素断片長多型(RFLP)プロファイルは、DNA配列やRNA配列などの親配列の一つまたは複数の複製に対する制限酵素の作用によって生成される部分配列断片の集まりを記述するデータを含む。RFLPプロファイルは、典型的には、一意の断片の数、(例えば電気泳動法によって決定される)各一意の断片のサイズ、および/または各一意の断片の数または強度などといったデータを含む。典型的には、RFLPプロファイルは、個々の種、対象、細胞型、疾患状態、遺伝子、染色体、レトロウイルス、または内因性レトロウイルス要素に関連する配列データに対応し、それによって、配列データの発生源を特定することができる。
【0026】
本明細書において使用する場合、単一ヌクレオチド多型(SNP)とは、例えば、同じ種の異なる個体間で異なるゲノム核酸配列における一つのヌクレオチドの変異である。公知のSNPまたはSNPパターンが、特定の種、個体、細胞型、疾患状態、遺伝子、染色体、レトロウイルス、または内因性レトロウイルス要素に対応することが示されており、本明細書で述べる方法を使用して検出することができる。
【0027】
本明細書において使用する場合、制限酵素または制限エンドヌクレアーゼとは、特定の核酸配列を認識し、二本鎖または一本鎖のDNAまたはRNAを、(制限部位と呼ばれる)その特定のヌクレオチド配列内の特定の位置において切断する生物タンパク質(酵素)である。
【0028】
本明細書において使用する場合、遺伝的アナライザとは、長い配列内の定義済みの配列をインシリコで(in silico)認識し、当該定義済みの配列内の定義済みの位置または当該定義済みの配列の後で「切断する」(インシリコで長い配列を切り離す)ソフトウェアアルゴリズムである。特定の遺伝的アナライザを、「4ヌクレオチド遺伝的アナライザ」のように、それが認識する配列の長さによって表すことができ、「4ヌクレオチド遺伝的アナライザ」は、4ヌクレオチド長の配列を認識する遺伝的アナライザを表す。遺伝的アナライザは、4ヌクレオチド遺伝的アナライザを使用するときには、4つのヌクレオチドの4番目の直後など、その配列の末端において認識される配列を切断することができ、認識される配列内のある他の定義済みの位置で切断することもできる。よって、遺伝的アナライザは、物理的な制限酵素ではなく(生物タンパク質ではなく)、インシリコでそのように働く。本明細書で述べるように、複数の遺伝的アナライザの定義済みのセットが、インシリコで長い遺伝的配列を切断して、次に数値データセットを生成するためにさらに別の情報と一緒に記録される一意の断片のセットを生成するのに使用される。
【0029】
特に定義しない限り、本明細書で使用するすべての科学技術用語は、本発明が属する分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書で述べる方法および材料と類似の、または等価の方法および材料を本発明の実施または試験に際して使用することができるが、以下では適切な方法および材料を説明する。本明細書において言及するすべての文献、特許出願、特許、およびその他の参照文献は、参照によりその全体が本明細書に組み入れられる。矛盾が生じる場合には、定義を含めて、本明細書が優先される。加えて、材料、方法、および実施例は、例示にすぎず、限定を意図するものではない。
【0030】
以下に、本発明の基本的な諸特徴および種々の態様を列挙する。
[1]
ヌクレオチド配列を表す数値データセットを形成するコンピュータにより実現される方法であって、以下の段階を含む方法:
一連のヌクレオチドを含むヌクレオチド配列を表す電子情報を受け取る段階;
遺伝的アナライザの電子的なセットを獲得する段階であって、各遺伝的アナライザが「n」個のヌクレオチドを含み、前記セットが、前記セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける、前記ヌクレオチド配列に存在する「X」個の異なるヌクレオチドのすべての可能な組合せを含み、前記セットが遺伝的アナライザの既知の順序を有し、Xnが前記セット内の遺伝的アナライザの数であり、かつ各遺伝的アナライザが、所与の遺伝的アナライザと同一である「n」個のヌクレオチドの各セグメント内の指定の部位または各セグメントの末端において前記ヌクレオチド配列内の切断部位を提供する一意の配列を有する前記段階;
前記ヌクレオチド配列を、遺伝的アナライザの前記順序付きセットを用いて、一連の数のグループを含む数値データへ変換する段階であって、数のグループが、遺伝的アナライザの前記セットの一意の遺伝的アナライザごとに生成され、前記グループ内の各数が、前記所与の一意の遺伝的アナライザによって提供される前記ヌクレオチド配列内の連続する切断部位間のヌクレオチドの総数を含み、かつ前記数値データセット内の数の前記グループが、遺伝的アナライザの前記セットの前記既知の順序で編成される前記段階;ならびに
前記ヌクレオチド配列の5'末端の最初のn-1個のヌクレオチド、前記数値データ、および前記ヌクレオチド配列の3'ヌクレオチドを順に含む数値データセットを生成する段階。
[2]
数値データセットを遺伝的画像の電子表現へ符号化する段階;および
前記遺伝的画像の前記電子表現を機械可読記憶装置に記憶する段階
をさらに含む、[1]記載のコンピュータにより実現される方法。
[3]
目視できる遺伝的画像を提供するために表示装置上で電子表現を表示する段階をさらに含む、[2]記載のコンピュータにより実現される方法。
[4]
電子表現をプリンタへ提供する段階、および基材上に目視できる遺伝的画像を印刷する段階をさらに含む、[2]記載のコンピュータにより実現される方法。
[5]
遺伝的アナライザの順序付きセットのディジタル表現を含む有形の機械可読記憶装置であって、遺伝的アナライザの前記セットが一連のヌクレオチド配列のディジタル表現を含み、各遺伝的アナライザが「n」個のヌクレオチドを含み、前記セットが、前記セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける、前記ヌクレオチド配列に存在する「X」個の異なるヌクレオチドのすべての可能な組合せを含み、前記セットが遺伝的アナライザの既知の順序を有し、Xnが前記セット内の遺伝的アナライザの数であり、かつ各遺伝的アナライザが、所与の遺伝的アナライザと同一である前記ヌクレオチド配列内の「n」個のヌクレオチドの各セグメント内の指定の部位または各セグメントの末端において前記ヌクレオチド配列内の切断部位を提供する一意の配列を有する、有形の機械可読記憶装置。
[6]
セット内の遺伝的アナライザの順序がアルファベット順である、[5]記載の記憶装置。
[7]
n=4であり、かつX=4である、[5]記載の記憶装置。
[8]
コンピュータ内のメモリを含む、[5]記載の記憶装置。
[9]
移植性のある有形の機械可読媒体を含む、[5]記載の記憶装置。
[10]
有体物と、
機械可読形式の非英数字のマーキングを含み、機械によって読み取られると、プロセッサに、遺伝的画像を数値データセットへ復号させ、かつ前記数値データセットを特定の遺伝的配列へ変換させる、前記有体物上に表示された遺伝的画像と
を含む製造品。
[11]
遺伝的配列がヌクレオチド配列である、[10]記載の製造品。
[12]
遺伝的配列がアミノ酸配列である、[10]記載の製造品。
[13]
有体物が容器、紙片もしくはプラスチック片、またはラベルである、[10]記載の製造品。
[14]
有体物が電子表示装置である、[10]記載の製造品。
[15]
遺伝的画像が着色画素のアレイである、[10]記載の製造品。
[16]
機械によって読み取られると、プロセッサに、
(a)数値データセットを、機械可読形式の非英数字のマーキングを含み、機械によって読み取られると、プロセッサに、遺伝的画像を復号して特定の遺伝的配列を提供させる遺伝的画像の電子表現へ符号化させるか、または
(b)数値データセットを特定の遺伝的配列へ変換させる
数値データセットを含む、有形の機械可読記憶装置。
[17]
コンピュータ内の電子メモリ、ユニバーサル・シリアル・バス互換メモリ、または磁気もしくは光ディスクを含む、[16]記載の有形の記憶装置。
[18]
遺伝的アナライザのセットを生成する方法であって、以下の段階を含む方法:
各遺伝的アナライザ内の文字の配列の長さ「n」を選択する段階;
「X」を各遺伝的アナライザ内の異なる文字の数として選択する段階;
遺伝的アナライザの「n」個の位置のそれぞれにおける、配列に存在する「X」個の異なる文字のすべての可能な組合せを計算して、Xn個の遺伝的アナライザの基本セットを作成する段階;
遺伝的アナライザの前記基本セットを特定の順序で配置して遺伝的アナライザの順序付きセットを作成する段階;および
遺伝的アナライザの前記順序付きセットを機械可読記憶媒体に記憶する段階。
[19]
遺伝的アナライザの順序付きセットが、一連のヌクレオチド配列のディジタル表現を含み、各遺伝的アナライザが「n」個のヌクレオチドを含み、前記セットが、前記セット内の遺伝的アナライザの「n」個の位置のそれぞれにおける前記ヌクレオチド配列に存在する「X」個の異なるヌクレオチドのすべての可能な組合せを含み、前記セットが遺伝的アナライザの既知の順序を有し、Xnが前記セット内の遺伝的アナライザの数であり、かつ各遺伝的アナライザが、所与の遺伝的アナライザと同一である前記ヌクレオチド配列内の「n」個のヌクレオチドの各セグメント内の指定の部位または各セグメントの末端においてヌクレオチド配列内の切断部位を提供する一意の配列を有する、[18]記載の方法。
[20]
「n」が4である、[18]記載の方法。
[21]
文字がアミノ酸である、[18]記載の方法。
[22]
ヌクレオチド配列を表す遺伝的画像を読み取る方法であって、以下の段階を含む方法:
[10]記載の製造品を獲得する段階;
前記製造品を走査して、前記遺伝的画像のマーキングを電子データへ変換する段階;
前記電子データを復号して、少なくとも一つのヌクレオチド配列を表す数値データセットを獲得する段階;および
前記数値データセットをヌクレオチド配列へ変換する段階。
[23]
数値データセットをヌクレオチド配列へ変換する段階が、遺伝的アナライザの既知の順序付きセットの使用を含む、[22]記載の方法。
[24]
2つ以上のヌクレオチド配列を比較する方法であって、以下の段階を含む方法:
第1のヌクレオチド配列および第2のヌクレオチド配列を表す少なくとも2つの[10]記載の製造品を獲得する段階;
前記製造品を走査して、それぞれの遺伝的画像のマーキングを、前記第1のヌクレオチド配列および前記第2のヌクレオチド配列を表す電子データへ変換する段階;
前記第1のヌクレオチド配列および前記第2のヌクレオチド配列を表す前記電子データを比較して任意の差異の位置を突き止める段階;
任意の差異の前記電子データを復号して、前記第1のヌクレオチド配列と前記第2のヌクレオチド配列との間の前記差異を表す数値データセットを獲得する段階;ならびに
遺伝的アナライザの順序付きセットを使用して前記数値データセットを変換し、前記第1のヌクレオチド配列と前記第2のヌクレオチド配列との間の前記差異を表すヌクレオチド配列を提供する段階。
[25]
プロセッサと、
機械可読記憶装置と、
前記記憶装置内の[5]記載の遺伝的アナライザの順序付きセットと
を含む、遺伝的画像を生成するためのシステムであって、
前記プロセッサに、
一連のヌクレオチドを含むヌクレオチド配列を表す電子情報を受け取らせるよう、
前記記憶装置から前記遺伝的アナライザの順序付きセットを獲得させるよう、
前記ヌクレオチド配列を、遺伝的アナライザの前記順序付きセットを用いて、一連の数のグループを含む数値データへ変換させるよう、ここで数のグループが、遺伝的アナライザの前記セットの一意の遺伝的アナライザごとに生成され、前記グループ内の各数が、前記所与の一意の遺伝的アナライザによって提供される前記ヌクレオチド配列内の連続する切断部位間のヌクレオチドの総数を含み、かつ数値データセット内の数の前記グループが、遺伝的アナライザの前記セットの前記既知の順序で編成され、かつ
前記ヌクレオチド配列の5'末端の最初のn-1個のヌクレオチド、前記数値データ、および前記ヌクレオチド配列の3'ヌクレオチドを順に含む数値データセットを生成させるよう、
前記プロセッサがプログラムでプログラムされている、
システム。
[26]
プロセッサが、数値データセットを遺伝的画像の電子表現へ符号化し、かつ
前記遺伝的画像の前記電子表現を機械可読記憶装置に記憶する
ようにさらにプログラムされている、[25]記載のシステム。
[27]
表示装置をさらに含み、かつプロセッサが、前記表示装置上で電子表現を表示して目視できる遺伝的画像を提供するようにさらにプログラムされている、[26]記載のシステム。
[28]
プリンタをさらに含み、かつプロセッサが、前記プリンタに電子表現を提供し、かつ前記プリンタに、基材上に目視できる遺伝的画像を印刷させるようにさらにプログラムされている、[26]記載のシステム。
[29]
プロセッサと、
機械可読記憶装置と、
画像を走査し、かつ前記画像を電子データへ変換するスキャナと、
前記記憶装置内の[5]記載の遺伝的アナライザの順序付きセットと
を含む、遺伝的画像を読み取るためのシステムであって、
前記プロセッサに、
スキャナから電子データを獲得させるよう、
前記記憶装置から前記遺伝的アナライザの順序付きセットを獲得させるよう、
電子データを復号して、少なくとも一つのヌクレオチド配列を表す数値データセットを獲得させるよう、ここで前記電子データが一連の数のグループを含み、かつ数のグループが、遺伝的アナライザの前記セットの一意の遺伝的アナライザごとに生成され、前記グループ内の各数が、前記所与の一意の遺伝的アナライザによって提供される前記ヌクレオチド配列内の連続する切断部位間のヌクレオチドの総数を含み、かつ数値データセット内の数の前記グループが、遺伝的アナライザの前記セットの前記既知の順序で編成され、かつ
前記数値データセットを、遺伝的アナライザの前記順序付きセットを用いて、ヌクレオチド配列へ変換させるよう、
前記プロセッサがプログラムでプログラムされている、
システム。
本発明の他の特徴および利点は、以下の詳細な説明、および特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0031】
本特許または特許出願ファイルは、カラーで作図された少なくとも一つの図面を含む。カラー図面を備える本特許または特許出願文献の複製は、請求および必要な手数料の支払いに応じて、特許庁により提供される。
図1A】一連の異なるプライマーを使用して赤ブドウのゲノムDNAの試料から識別されたレトロウイルス要素のセットを表すPNG(Portable Network Graphics)(1620×640画素)画像の形の遺伝的画像の図である。各データ点は、特定の配列が特定の遺伝的アナライザを用いて切断されるときに生成される断片の総数を表す。本明細書でさらに詳細に述べるように、これらの要素は、3ヌクレオチド遺伝的アナライザのセットを用いて切断されたものである。1遺伝的アナライザ当たりの生成断片サイズの総数は、遺伝的アナライザの順序と、プライマーセットとによって数値データセットを作成するように配置され、数値データセットは、cutEvolutionソフトウェアによって遺伝的画像を生成するように処理された。
図1B】遺伝的アナライザを使用した遺伝的配列情報の数値データセットへの変換、およびその後の数値データセットの遺伝的画像への符号化のためのプロトコルの概要を示す図である。この遺伝的画像は、そこからさかのぼって元のヌクレオチド配列を突き止めることもできる。
図1C-1】図1C-A〜1C-Gは、仮説による例と、2ヌクレオチド長のヌクレオチドのすべての可能な組合せを表す16個の2ヌクレオチド遺伝的アナライザのセットを使用して、15個のヌクレオチドのヌクレオチド列(遺伝的配列情報)を遺伝的画像へ変換するのに使用される様々な段階および要素とを示す一連の図である。
図1C-2】図1C-1の続きである。
図2A】3ヌクレオチド遺伝的アナライザのセットを使用した、マウス乳癌ウイルス(MMTV:mouse mammary tumor virus)超抗原の内因性レトロウイルス配列のセグメントについてのヌクレオチド配列情報の数値データセットへの変換の概略図のセットである。図2Aは、3ヌクレオチド遺伝的アナライザの全体セットを示す。
図2B】3ヌクレオチド遺伝的アナライザのセットを使用した、マウス乳癌ウイルス(MMTV:mouse mammary tumor virus)超抗原の内因性レトロウイルス配列のセグメントについてのヌクレオチド配列情報の数値データセットへの変換の概略図のセットである。図2Bは、図2Aの3ヌクレオチド遺伝的アナライザのセットを「切断順序」で示す。
図2C】3ヌクレオチド遺伝的アナライザのセットを使用した、マウス乳癌ウイルス(MMTV:mouse mammary tumor virus)超抗原の内因性レトロウイルス配列のセグメントについてのヌクレオチド配列情報の数値データセットへの変換の概略図のセットである。図2Cは、各ヌクレオチドの相対位置を容易に識別することができるように、遺伝的アナライザごとに(左軸上の配列位置によって上から下へリストされた)246塩基対断片上の切断位置によって(最上部に横方向に遺伝的アナライザの順序で左から右へ)順次にリストされた、結果として得られる数値データ(切断断片のサイズ)の視覚化である。数値データセットから再構築された完全なヌクレオチド配列は、元の配列と同一であることが確認された。
図2D図2Cに示す「ボックス」内の情報の拡大図である。
図2E】本明細書において「cutEvolution」と呼ぶ、配列カッター・ツール・プログラムを使用して、所与の遺伝的アナライザを所与の遺伝的配列に適用するソフトウェアベースの配列カッター・ツール・プログラムの基本モジュールの概略図である。cutEvolutionツールは、ヌクレオチド配列ファイルを読み取り、特定のサイズの遺伝的アナライザ(3ヌクレオチド遺伝的アナライザなど)の所与のセットについての断片サイズのリストを生成するプログラムである。配列ファイルの位置および名前、使用されるべき遺伝的アナライザ(GA)、およびデータについての出力位置は、すべて、cutEvolutionプロジェクトファイルにおいて定義される。
図3A】4ヌクレオチド遺伝的アナライザのセットを使用した、ヒトHIV-1A1ヌクレオチド配列の数値データセットへの変換の一連の概略図である。図3Aは、4ヌクレオチド遺伝的アナライザのための遺伝的アナライザの4つの異なる部分セットを示す。4ヌクレオチド遺伝的アナライザの各部分セットは、それぞれ64個のアナライザからなり、特定のヌクレオチド型(A、C、G、またはT)のすべての位置を説明することができる。よって、全部合わせると、これら4つの部分セットは、所与のヌクレオチド配列内のすべてのヌクレオチド位置を説明することになる。
図3B】4ヌクレオチド遺伝的アナライザのセットを使用した、ヒトHIV-1A1ヌクレオチド配列の数値データセットへの変換の一連の概略図である。図3Bは、4ヌクレオチド遺伝的アナライザの完全セットの切断順序を表す。
図3C】4ヌクレオチド遺伝的アナライザのセットを使用した、ヒトHIV-1A1ヌクレオチド配列の数値データセットへの変換の一連の概略図である。図3Cは、図3Aおよび図3Bに示す順序付き4ヌクレオチド遺伝的アナライザの全体セット(合計256)を使用した、HIV-1A1ヌクレオチド配列の数値データセットへの変換を示す概略図である。HIV-1A1のヌクレオチド配列は、受入番号第AB098331の下に記載されており、HIV配列データベース(ワールド・ワイド・ウェブ上のウェブサイトhiv.lanl.gov参照)から取得され、4ヌクレオチド遺伝的アナライザの全体セットを用いて配列を切断することにより数値データセットへ変換されたものである。切断断片サイズは、まず遺伝的アナライザごとの切断順序によって順次に配置され、次いでこれらの断片グループは、用いられた遺伝的アナライザの順序で配置された。
図3D】4ヌクレオチド遺伝的アナライザのセットを使用した、ヒトHIV-1A1ヌクレオチド配列の数値データセットへの変換の一連の概略図である。図3Dは、図3Cに示す「ボックス」内の情報の拡大図である。
図4A】cutEvolutionソフトウェアプログラムによって実行される「切断」工程から開始し、遺伝的画像の生成で終了する、数値配列データを符号化する方法を示す流れ図である。この例示的な図では、最終的な遺伝的画像は、図1Aに示す遺伝的画像と同じPNG画像ファイルの形である。
図4B】PNGベース遺伝的画像のためのRGB配色を使用して数値データセットを遺伝的画像へ変換する一方法の図である。この例では、2色を使用してデータセット情報が表される(すなわち、色1は、プライマー部分セット番号、プライマーID番号、およびクローン番号を表し、色2は、遺伝的アナライザのサイズおよび断片/切断の数を表す)。これらの例は、例えば、異なる断片サイズなどを含むように変更され得る柔軟な方式を表す。
図4C】10進値を256進数へ変換することによる、配列識別情報(プライマー番号およびクローン番号)の第1のRGB色への変換と、遺伝的アナライザ数と総断片数の対の第2のRGB色への変換の例である。
図4D】PNGベース遺伝的画像内の4つのデータ点の色表現である。各データ点は、10×10画素および2色(各色が図4Cに示すデータを表す)を含む二等分された「ボックス」として表される。この図は、各遺伝的アナライザによって切断された配列ごとに生成された断片の総数のデータ点の方向を示す。
図4E】白ブドウのレトロウイルス要素配列の遺伝的アナライザデータセットのカラーPNGベースの遺伝的画像(1440×640画素)の図である。各データ点は、特定の配列が特定の遺伝的アナライザを用いて切断されるときに生成される断片の総数を表す。この画像は、白ブドウから単離されたブドウゲノムDNAから増幅されたレトロ要素の3ヌクレオチド遺伝的アナライザ解析から生成されたものであり、レトロウイルス要素と結果として得られる遺伝的画像とが、ブドウの種類によって(例えば、赤ブドウ試料から得られた図1aと比べて)どのように異なるかを示す。
図5】どのようにして遺伝的画像において識別される多型からさかのぼってその元のヌクレオチド配列を突き止めることができるかを示す概略的流れ図である。流れ図は、どのようにして2つの異なる遺伝的画像の走査およびオーバーレイによって識別される多型からさかのぼって多型ヌクレオチド配列が突き止められるかを説明する。
図6】単一ヌクレオチド多型と、遺伝的アナライザおよび関連する切断断片プロファイルについての複数の認識部位における結果として生じる変化との図である。4ヌクレオチド遺伝的アナライザでは、単一ヌクレオチド多型は、4つの遺伝的アナライザについての認識部位の除去または付加をもたらす。その結果、24個の数値データ点において変化が生じることになる。
図7図7Aおよび図7Bは、それぞれ、図2C図3Cおよび図1Aと同様の一連の画像を示す。これら一連の画像は、3ヌクレオチド遺伝的アナライザセットを使用した、2つの短いレトロウイルス要素配列(一つは緑ブドウ由来のもの(図7A)、一つは赤ブドウ由来のもの(図7B))の遺伝的画像への変換を表す。この解析で使用された3ヌクレオチド遺伝的アナライザの完全セットが図2Aに示されている。使用された遺伝的アナライザの順序は図2Bに示されている。図7Aは、3ヌクレオチド遺伝的アナライザの完全セットを用いて、図示の順序で切断された、緑ブドウのレトロウイルス要素配列についての遺伝的画像を作成する際のイベントの流れを示す。図は、切断位置および結果として得られる断片サイズの視覚化である(図2Cと同様)。このデータは、次いで、断片サイズだけが切断の順序によって順次にリストされたより小さいデータセットへ統合され、これらの断片グループは、次いで、利用された遺伝的アナライザの順序でリストされた(図3Cと同様のデータセット)。このデータセットは、次いで、遺伝的画像へ変換することができる。次いで生成された遺伝的画像の表現が表示される(図4Eと同様)。図7Bは、赤ブドウ由来のレトロウイルス要素配列からの結果として得られるデータを示す、図7Aと同様の図である。
図8】本明細書で述べる方法を実施するのに使用することができるコンピュータシステムの一態様の図である。
【発明を実施するための形態】
【0032】
詳細な説明
開示の発明は、一般に、遺伝的画像、遺伝的画像を作成する方法、および遺伝的画像を使用して、遺伝的配列情報を記憶し、取得し、比較する方法に関するものである。本発明は、任意の遺伝的配列(DNAおよびRNA)、またはアミノ酸配列を、次に遺伝的画像を生成するように符号化される数値データセットへ変換するための新規のプロトコルを含む。遺伝的画像は、そこからさかのぼって元の遺伝的配列情報を突き止めることができる。
【0033】
1.遺伝的画像の概要
遺伝的画像は、目視や機械などによって解析することができる、DNAやRNAなどの遺伝的配列情報の表現である。遺伝的画像は、元の配列情報よりもずっと少ない記憶空間しか要しない、遺伝的配列の、圧縮され、符号化された形であり、容易に解析し、他の遺伝的画像と比較して、2つの異なる遺伝的配列間の差異を容易に検出することができる。
【0034】
様々な態様において、特定の遺伝的配列(大量の遺伝情報を含む配列など)を表す数値データセットは、JPEG、JPS(JPEGステレオ)、PNG、PNS(PNGステレオ)などの画像形式で表される遺伝的画像を形成するように符号化することができる。図1Aに、そのようなPNG遺伝的画像の一例を示す。図1Aは、一連の異なるプライマーを使用して、赤ブドウのゲノムDNAの試料から識別されたレトロウイルス要素のセットを表すPNG(Portable Network Graphics)(1620×640画素)画像の形の遺伝的画像の図である。各データ点は、特定の配列が特定の遺伝的アナライザを用いて切断されるときに生成される断片の総数を表す。本明細書においてさらに詳細に述べるように、これらの要素は、3ヌクレオチド遺伝的アナライザのセットを用いて切断されたものである。遺伝的アナライザごとの生成断片サイズの数は、遺伝的アナライザ順序とプライマーセットとによって、データセットを作成するように配置され、データセットは、本発明者らのcutEvolutionソフトウェアによって画像を生成するように処理された。また、ある態様では、少量の遺伝的配列データの遺伝的画像を、2次元または3次元(またはさらに多次元)のバーコードまたは棒グラフとして表すこともできる。
【0035】
別の態様では、遺伝的画像は、ホログラム、無線周波数識別(RFID)素子、半導体メモリ素子、磁気素子、光磁気素子、光ディスク要素などの形とすることができる。一般に、配列のGA解析は、次にそのデータの視覚化、すなわち遺伝的画像を形成するように処理されるデータセットを作成する。これは任意の画像と同様のものであり、そのため、画像は、フラッシュドライブまたは他の何らかの電子媒体上に記憶することもでき、紙または他の媒体上に印刷することもできる。また、画像形式は、コンピュータモニタ上、携帯電話の画面上、携帯情報端末(PDA)の画面上など、モニタまたは画面上に電子的に表示することもできる。いずれの場合も、この表現は、例えば、レーザスキャナや、電荷結合素子(CCD)などの撮像装置を用いた、目視による、または光学的な解析および比較を可能にする。紙または他の非電子媒体上の画像は、例えば、ディジタル方式で走査し、次いで機械によって比較することができる。例えば、これらの画像は、次いで、指紋照合プログラムや顔認識プログラムなどの標準的なパターン認識ソフトウェアを使用して比較することができる。あるいは、遺伝的画像は、有形の印刷出力も、コンピュータまたは他の画面もしくはモニタ上に表示された画像も必要とせずに、コンピュータによって、ディジタル方式で電気的に解析し、比較することもできる。
【0036】
ある態様では、配列データを暗号化することができる。本明細書において使用する場合、「暗号化された」配列データは、その配列データが、まず対応する暗号鍵を用いて解読されない限り、通常は、読み取ることも解釈することもできないように、暗号アルゴリズムによって変換されている。暗号化形式の例の中には、それだけに限らないが、AES-256、RSA-256などが含まれる。しかし、本明細書で述べる遺伝的画像を作成する工程は、もとより、非常にセキュアなシステムを提供するものである。というのは、遺伝的アナライザ内の長さおよび切断位置、ならびに使用される遺伝的アナライザセットの順序がすべて、事実上、遺伝的画像を読み取るのに必要とされる「鍵」だからである。また、遺伝的画像と一緒に記憶され得る非配列データも、任意の標準的な暗号化形式を使用して暗号化することができる。
【0037】
本明細書で述べる遺伝的画像は、典型的には、患者ファイル、試料容器、患者IDブレスレット、試験動物または試験動物のケージに添付することのできるタグ、出荷ラベルまたは通関ラベル、免許書、許可書、セキュリティバッジ、合鍵、入場券、特定の場所またはアドレスなどといった、ある他の物体または対象と、遺伝的画像上に符号化されたデータとの対応を指示するのに使用され得る。遺伝的画像は、それがラベル上に表されるときには、試料容器の表面に印刷され、または埋め込まれたパターン、人または動物に移植されたタグなどの形とすることができる。ラベルは、配列データをパターンとして、例えば、接着剤付きの紙、布、プラスチック、金属などとして組み込んだ不活性基材とすることができる。ラベルは、磁気のストリップやディスク、書込み可能なディジタル・ビデオ・ディスク、無線周波数識別(RFID)タグなど、機械書換え可能な基材とすることができる。またラベルは、例えば、携帯電話のディスプレイや、コンピュータその他のモニタ上などにおける、例えば、偏光液晶画素、発光ダイオード画素、電子ペーパ画素などの活性化された画素素子において具現化された画像としてなど、符号化された機械可読データの一時的な物理的態様とすることもできる。配列データは、そのため、配列データを遺伝的画像へ組み込むことによって記憶することができ、例えば、対応する機械読取装置などを用いて、遺伝的画像を読み取り、復号することによって取得することができる。また、配列データは、例えば、符号化データを目視で比較することや、符号化データを対応する機械読取装置に読み込み、そこでデータを自動的に比較することによって比較することもできる。ある態様では、符号化非配列データは人が目視で比較することができ、そこに符号化された配列データはやはり人間が読めない形のままとすることができる。例えば、配列データは、配列の人間による判読を容易にしない画像として符号化することができるが、とはいえ、同じ配列または異なる配列に対応する2つの画像は、目視で、それら2つの画像を見る人に、同じまたは異なるように見えてもよい。
【0038】
2.遺伝的アナライザを用いて遺伝的画像を生成する方法の概要
図1Bの流れ図に示すように、本発明は、(本明細書で述べる)いわゆる「遺伝的アナライザ」の作成および使用を含み、各遺伝的アナライザは、任意の遺伝的(核酸やアミノ酸など)配列または非遺伝的配列を、例えばコンピュータなどインシリコで、(本明細書で「数値データセット」と呼ぶ)数値形式へ変換することができる。一般には、遺伝的アナライザは、制限酵素のインシリコ表現である。よって、遺伝的アナライザは、特定の配列、例えば、そこで長い核酸配列がインシリコで「切断」され得る(分離され得るなど)、3個、4個、5個、6個、7個、またはそれ以上の核酸を表す文字(DNAではA、C、G、およびT、RNAではA、C、G、およびUなど)の配列の表現である。以下でさらに詳細に述べるように、遺伝的アナライザのセットが生成され、遺伝的配列を「切断」して数値データセットを生成するのに使用される。
【0039】
「配列」が、核酸またはアミノ酸の配列ではない文字、数、および/または記号の配列などの非遺伝的配列である場合には、遺伝的アナライザは、文字、数、または記号を同様に含むはずであり、核酸塩基(ACGT)またはアミノ酸だけに限定されるべきではない。遺伝的アナライザのセット内の各一意の遺伝的アナライザは、ヌクレオチド配列を、所与の遺伝的アナライザの配列と同一であるヌクレオチドのセグメントの直後で「切断する」ことに留意されたい。よって、遺伝的アナライザAGGは、例えば、ヌクレオチド配列内でAGGセグメントが出現する度にその後で、ヌクレオチド配列を「切断」すると言われることになる。当然ながら、切断部位は、遺伝的アナライザの末端のところではなく、その配列内の任意の事前に指定される位置において発生してもよい。例えば、遺伝的アナライザは、毎回最初のヌクレオチドの後で切断するように定義することもできるはずであり、そのため、遺伝的アナライザAGGは、AGGセグメントが発生する都度、「A」と「G」との間で「切断」するはずである。
【0040】
数値データセットは、それが一度作成されると、他のソフトウェアプログラムを使用して遺伝的画像へ、例えば、図1Bに概略的に示すように、図1Aに示すPNGベース遺伝的画像の実例として変換することができる。またこの工程を逆に実行して、遺伝的画像を取り込み、そこからさかのぼって、遺伝的画像を作成するのに使用された元の遺伝的配列を突き止めることもできる。
【0041】
上記で簡単に論じたように、一例では、遺伝的アナライザのセットは、ある遺伝的アナライザヌクレオチド配列長の各位置における対応するヌクレオチド(A、C、G、およびT/U)(またはある長さのアミノ酸の遺伝的アナライザの各位置における対応するアミノ酸)のすべての可能な組合せのグループである。原則として、遺伝的アナライザ配列長は、1個から無限大までの範囲とすることができるが、実際には、遺伝的アナライザの長さは、典型的には、2個から関心対象の長さまで、例えば、利用可能なコンピュータリソースおよび遺伝的画像へ変換されるべき配列の長さが与えられた場合の計算処理上有用な遺伝的アナライザの数をもたらす長さまでの範囲である。よって、ヌクレオチド配列についての遺伝的アナライザは、典型的には、長さが2個、3個、4個、5個、6個、7個、8個、9個、または10個のヌクレオチドである。例えば、長さが最大約1000個のヌクレオチド塩基までの短い遺伝的配列を切断するためには、短い遺伝的アナライザ、例えば、長さが3個、4個、5個、または6個のヌクレオチドを使用するはずであり、他方、例えば、長さが最大約1,000,000個のヌクレオチド塩基までの長い遺伝的配列を切断するためには、長い遺伝的アナライザ、例えば、長さが7個または8個のヌクレオチドを使用するはずである。
【0042】
例えば、1個のヌクレオチド配列長についてのインシリコの遺伝的アナライザの完全セットは、(DNAでは)A、C、G、およびTであり、(RNAでは)A、C、G、Uである。同様に、2個のDNAヌクレオチド配列長についてのインシリコの遺伝的アナライザの完全セットは、4塩基(DNAの)A、C、G、Tまたは(RNAの)A、C、G、Uに基づく16個の可能な2塩基配列のそれぞれを含む。3個のヌクレオチドの長さを有する完全な遺伝的アナライザのセットは、64個の遺伝的アナライザを含む。よって、一般に、インシリコの遺伝的アナライザの完全セットは、ヌクレオチド塩基やアミノ酸などの異なる単位の数(X)(ヌクレオチドでは4であり、コード化アミノ酸では20である)の、遺伝的アナライザの配列長(n)乗、例えばXnと等しい数の遺伝的アナライザを含む。
【0043】
一例として、この等式は、3ヌクレオチド長である4個の異なるヌクレオチド塩基の遺伝的アナライザのセットについては43=(図2Aおよび図2Cに示すようにAAA、AAC、...で始まり、TTTで終わる)合計64個のセット内の遺伝的アナライザになるはずである。別の例では、4ヌクレオチド、7ヌクレオチド、および8ヌクレオチドの遺伝的アナライザのセットが、それぞれ、44=(図3Aおよび図3Bに示すようにAAAA、AAAC、...かつTTTTで終わる)256メンバ、47=16,384メンバ(AAAAAAA、AAAAAAC、...TTTTTTT)、ならびに48=65,536メンバ(AAAAAAAA、AAAAAAAC、........、TTTTTTTT)で構成される。
【0044】
別の例では、等式は、各アナライザが4アミノ酸長である20個の異なるアミノ酸の遺伝的アナライザのセットについて204=合計160,000個のセット内の遺伝的アナライザになるはずである。遺伝的アナライザの長さは、最終的なデータセットのサイズに影響を及ぼし得ることに留意されたい。さらに、生成される断片サイズの総数は、遺伝的画像サイズに最大の影響を及ぼし得る。
【0045】
インシリコで遺伝的アナライザの完全セットを用いて配列を「切断」すると、配列は、数の順序付きの一意のセットへ変換され、このセットを本明細書では数値データセットと呼ぶ。解析はインシリコで行われるため、遺伝的アナライザにおいてはどんなヌクレオチドやアミノ酸でも使用することができ、エピジェネチックな情報を取り込むこともできる。よって、単一ヌクレオチドの差異やエピジェネチックな差異などの任意の多型を含む遺伝的配列情報を、数値データセットへ変換することができる。エピジェネチックな情報とは、生物の発達に影響を及ぼし得るDNA配列以外の要因をいう。例えば、メチル化に際しては、メチル基がシトシンの炭素5の位置に加えられ、これは普通、CpG(シトシンの次にグアニンが来る)ジヌクレオチドにおいて発生する。このメチル化は、遺伝子発現を安定化したり、ウイルス遺伝子を抑制したりすることによって、多くの点で生物に微妙に影響を及ぼす。これらのメチル化部位を発見する一方法は、単離されたDNAを亜硫酸水素塩で処理することであり、これにより非メチル化シトシン残基はウラシル残基へ変換されるが、メチル化シトシン残基は不変のまま残る。亜硫酸水素塩処理されたDNAが配列を決定されるとき、これらの塩基対変化は、亜硫酸水素塩処理されていない配列との比較によって検出することができる。2つの画像(亜硫酸水素塩処理の前と後)を比較してメチル化部位を見つけることができる。次いで、これらのメチル化部位を配列ファイル上に記し、遺伝的アナライザを使用して検出および/または解析することができる。例えば、遺伝的アナライザは、新しい「メチル化」塩基を含めることによってメチル化状況を取り込むことができ、そのため、ACTGの塩基だけではなく、メチル化シトシン残基を表す、(任意の文字または記号とすることのできる)新しい塩基「X」も含むことができるはずである。
【0046】
ヌクレオチド配列情報の数値データセットへの変換は、数値データセットを符号化して、コンパクトで、移植性があり、走査可能で、追跡可能な形式の遺伝的画像を作成する(PNG、JPEGなどといった利用可能なグラフィックス形式を使用する)高解像度グラフィックスプログラムの使用を可能にする。遺伝的画像は、例えば、微生物および植物を含む人間およびその他の種からの異なる遺伝的配列の間で多型を識別するなどのために走査することができる。遺伝的画像における数値データ点の順序付きの特性により、光学式走査などの解析時に識別された遺伝的多型は元のヌクレオチド配列データまでその起源をたどることができる。このプロトコルは、遺伝的アナライザを使用した遺伝的配列の数値変換および遺伝的画像の生成を伴い、任意の遺伝情報をコンパクトで移植性のある形式で記憶すると共に、ゲノムレベルおよび発現レベルで多型を比較し、追跡するための効率的なツールである。
【0047】
3.遺伝的アナライザを生成する方法
前述のように、遺伝的アナライザは、ソフトウェアプログラムの一部であり、インシリコのDNA制限酵素とみなすことができる。しかし、インビトロで使用される実際のDNA制限酵素と比べた場合の違いがある。第1に、利用可能なインビトロDNA制限酵素および対応する認識部位の限られた数とは対照的に、遺伝的アナライザの独自の設計は、関心対象の配列長についてのヌクレオチド配列のすべての可能な組合せの認識を可能にする。第2に、遺伝的アナライザは、cDNA形式に変換せずに、RNAヌクレオチド配列を認識することができる。第3に、遺伝的アナライザは、例えば、シトシンのメチル化に基づくなどして、エピジェネチックな情報を取り込むことができる。例えば、前述のように、遺伝的アナライザは、メチル化シトシンを意味する新しい塩基「X」で表される新しい「メチル化」塩基を含めることによってメチル化状況を検出することができる。第4に、個々の遺伝的アナライザに対応する遺伝的配列上の実際の切断部位は、典型的には、遺伝的アナライザの定義済みの配列の末端、例えば、4ヌクレオチド長遺伝的アナライザ内の第4のヌクレオチドの後などに、または遺伝的アナライザ内の2つのヌクレオチド間の位置に対応するある他の指定の点にある。
【0048】
遺伝的アナライザのセットを定義済みのヌクレオチド配列長を用いて合成するために、各位置における4ヌクレオチド(A、C、G、T/U)のすべての潜在的組合せが、例えば、Microsoft(登録商標)Excel(登録商標)のVisual Basicプログラム内で設計されたマクロプログラムなどのアルゴリズムを使用して計算される。この実装は、最大10ヌクレオチドまでの遺伝的アナライザ長について最近のデスクトップコンピュータ上で計算処理可能である。長さが11個、12個、13個、14個、15個、またはそれ以上のヌクレオチドなど、長い配列長を有する遺伝的アナライザの集合の作成を容易にするために、同じアルゴリズムを、Mathematica(登録商標)やMatLab(登録商標)などの別のプログラムにおいて、またはC/CC+、Javaなどといった言語で直接、より効率よく実施することもできる。以下の表1に、遺伝的アナライザセットの各メンバ内に7個のヌクレオチドを有するなどの遺伝的アナライザセットを合成するための例示的なMicrosoft(登録商標)Excel(登録商標)のマクロプログラムを示す。
【0049】
(表1)遺伝的アナライザを生成するための例示的マクロ
【0050】
遺伝的アナライザの可能な組合せの全体セットは、それが一度計算されると、所望の順序で並べられ、その順序はメモリまたは機械可読記憶装置に記憶される。順序は、その順序が後で使用するために記憶される限り、例えば、アルファベット順とすることもでき(図2Bなどを参照)、Aで始まるすべての遺伝的アナライザ、次いでCで始まるすべての遺伝的アナライザ、次いでTで始まるすべての遺伝的アナライザ、次いでGで始まるすべての遺伝的アナライザとすることもでき(図3B参照)、任意の他の順序とすることもできる。遺伝的アナライザのセットはcutEvolutionツールに含まれており、より大きな遺伝的アナライザの組合せは、以下でさらに詳細に述べるように、データベース管理システムに記憶することができる。また、遺伝的アナライザのセットは、ディスクや携帯用メモリデバイスなどの任意の有形の記憶媒体上に記憶することもできる。
【0051】
4.遺伝的配列の数値データセットへの変換
遺伝的アナライザのセットは、それが一度生成されると、個々の標的遺伝的配列についての(その切断の位置およびサイズを指示する数値データのセットの形の)切断断片の一意のプロファイルを生成するために、特定の標的遺伝的配列にインシリコの切断装置として適用される。遺伝的アナライザは、その都度新しく生成することもでき、一度生成してメモリに記憶し、必要に応じて使用することもできる。セット内の遺伝的アナライザの順序は変化してもよく、そのため、時々で異なる順序が使用されてもよいこと(また、正確な順序が対応する遺伝的画像を読み取るために知られていなければならないこと)に留意されたい。この情報が正確にどのように、どこに記憶されるかは、ソフトウェア設計および解析の具体的種類に依存する。結果として得られる、標的配列からの切断断片で構成される数値データセットは、一意であり、解析される配列の間における任意の遺伝的多型の明確で迅速な識別のための高解像度遺伝的画像の生成を可能にする。
【0052】
変換解析を受ける全ヌクレオチド配列(DNAまたはRNA)が、遺伝的アナライザの一つの完全なセット(64メンバを有する3ヌクレオチド遺伝的アナライザのセットや、256メンバを有する4ヌクレオチド遺伝的アナライザのセットなど)を用いて切断される。遺伝的アナライザは、例えば、最後の位置にあるヌクレオチド(A、C、G、またはT/U)についての遺伝的アナライザの認識特異性に応じて、切断工程の間に4つの異なるグループの順序で編成されてもよい。例えば、図2Aおよび図3Aには、それぞれ、3ヌクレオチド遺伝的アナライザおよび4ヌクレオチド遺伝的アナライザについての遺伝的アナライザの4つの異なる部分セットが示されている。3ヌクレオチド遺伝的アナライザおよび4ヌクレオチド遺伝的アナライザの各部分セットは、それぞれ、16個または64個のアナライザからなり、特定のヌクレオチド型(A、C、G、またはT)のすべての位置を説明することができる。例えば、部分セット「A」は、標的配列内のヌクレオチド「A」のすべての位置を識別する。というのは、この部分セット内の遺伝的アナライザによって行われる標的配列内のすべての切断は、定義上、「A」の後になければならないからである。同じことが、部分セットC、部分セットG、および部分セットTについても当てはまり、これらの部分セットはすべて、これらのそれぞれのヌクレオチドの後で切断するすべての遺伝的アナライザを示している。
【0053】
ヌクレオチド配列は、各遺伝的アナライザを用いて切断され、結果として得られる切断断片は、配列の5'末端からの各断片の位置の順序で数(断片のサイズ)として記録される。全ヌクレオチド配列情報を数値データセットへ変換するために、セット内のすべての遺伝的アナライザが、配列を切断するのに個々に利用される。この変換工程(切断)から取得される数値データセットは、ここでは、使用される遺伝的アナライザのセットに応じて、5'末端および/または3'末端上の少数のヌクレオチドを除く、配列内のあらゆるヌクレオチドの位置および識別情報に関する情報を含む。
【0054】
順序付き切断断片で構成される、各遺伝的アナライザからの数値データは、この変換工程で利用された遺伝的アナライザの順序の一連の数として収集することができる。遺伝的アナライザのセットおよび順序は、配列または配列のグループの切断解析の間固定される。データセットは、解析し、追跡することができるように所定の順序である必要があるが、実際の遺伝的アナライザ順序は、適用ごとに変更し、別のレベルのセキュリティを提供することができる。数が順序付きであるのは、遺伝的アナライザの各セットが順序付き断片サイズのセット、すなわち出現順序での断片サイズのリストを作成するからである。断片サイズの各グループは、次いで、遺伝的アナライザのセットの所定の順序で順序付けられ、この所定の順序は変更することができるが、結果として得られる遺伝的画像を読み取るために知られていなければならない。
【0055】
遺伝的アナライザの所与のセットにおいて認識されない5'末端ヌクレオチド(4ヌクレオチドのセットを使用する場合には最初の3つのヌクレオチドなど)を説明するために、それらのヌクレオチド識別情報(A、C、G、またはT/U)を、さらに別の変換を行わずに、数値データセットの先頭に入力することができる。加えて、遺伝的アナライザによって認識されるが、その末端位置のために関連する切断断片(数値データ)の生成に寄与しない3'末端のところの最後のヌクレオチドも、数値データセットの最後に付加することができる。よって、最終的な数値変換された配列データセットは、少数の5'末端ヌクレオチド(利用される遺伝的アナライザセットによって異なる)+一連の数(=切断発生および使用された遺伝的アナライザの順序の切断断片のサイズ)+一つの3'末端ヌクレオチドからなる。
【0056】
本明細書で述べるソフトウェアのバージョンでは、知られる必要がある末端ヌクレオチドはただ一つだけである。というのは、配列が遺伝的アナライザを用いて切断されるとき、その最終的な断片サイズは、常に、最後の切断部位から配列の末端までの長さになるからである。すべてのその他の断片については、常にその断片の最後のヌクレオチドが知られている。それは使用される遺伝的アナライザの配列と同じものになる。しかし、その最後の断片の末端配列は知られない。というのは、その末端は切断によって作成されないからである。これは、すべての遺伝的アナライザについてのすべての最後の断片に当てはまることになる。しかし、配列の末端から1塩基対のところで切断し、1の最後の断片サイズを作り出す遺伝的アナライザが常にあり、そのため、その最後の一つがなくても、他のすべての塩基をさかのぼって突き止めることができる。これを説明するために、その最後の塩基および他の重要な不変の情報(最初のn-1個の塩基、GAサイズ、およびGA順序)を、遺伝的画像からさかのぼって元の配列を突き止めるために、データセットへ直接符号化する必要がある。ソフトウェアの他の変形では、n-1個および最後の塩基データを含める必要をなくすこともできる。
【0057】
あるいは、すべての遺伝的アナライザからの切断断片データが組み合わされ、同じサイズの切断断片の数として認識されてもよい。その結果、数値データセットは、よりコンパクトになり、しかも、遺伝的画像の生成のための元のヌクレオチド配列の一意の特性を維持する。この態様では、情報は、RFLPと同様のやり方で順序付けされる。配列の変化は目視でわかる。というのは、ある特定の断片サイズの総数は、遺伝的アナライザの完全なセットを用いて切断されるときに変化するはずだからである。このようにして、配列の変化を迅速に判定し、どの配列がより詳細に調べられ、比較される必要があるか特定することができる。
【0058】
図1C-Aから図1C-Eに、2ヌクレオチド遺伝的アナライザのセットを使用した、15個のヌクレオチドの仮想のヌクレオチド配列の数値データセットへの変換を例示する。この例では、標的ヌクレオチド配列
が、図1C-Aに示す、(GA(2)-1からGA(2)-16まで指定された)16個の2ヌクレオチド遺伝的アナライザのセットを使用した解析を受ける。セット内の各一意の遺伝的アナライザは、図1C-Cに示すように、標的配列が様々な遺伝的アナライザと整合する標的配列上の特定の位置を認識する。例えば、遺伝的アナライザAA(GA(2)-1)は、標的配列には全く表されておらず、そのため、どんな切断も生成しない。これにより、この第1の遺伝的アナライザと関連付けられた数「15」が作成される。
【0059】
遺伝的アナライザAC(GA(2)-2)は、標的配列において1度表されており、そのため、その標的配列内での出現の直後に、すなわち位置5の後だけに切断を生成する。これにより、一方が5ヌクレオチド長であり、他方が10ヌクレオチド長である2つの断片が作成される。これにより、この第2の遺伝的アナライザと関連付けられた2つの数、「5」および「10」が作成される。
【0060】
この例では、遺伝的アナライザの大部分は1回切断する。遺伝的アナライザCC(GA(2)-6)と遺伝的アナライザTG(GA(2)-16)だけが2回切断する。例えば、遺伝的アナライザTGは、位置2の後と、位置9の後で切断し、よって、それぞれ、2、7、および6の各ヌクレオチド長である3つの断片を作成する。よって、セット内のこの最後の遺伝的アナライザは、この特定の遺伝的アナライザと関連付けられた3つの数、「2」、「7」、および「6」を作成する。
【0061】
各認識部位は、セット内の個々の遺伝的アナライザから作成された断片のヌクレオチド長を表す数を生成するためのインシリコの「切断」を作成する。これらの切断イベントから生成された(それぞれがその特定の遺伝的アナライザと関連付けられた)数は、図形表現(図1C-D)、表形式表現(図1C-E)、および数字列(図1C-F)として提示される。これらの数は、それぞれがその特定の遺伝的アナライザと関連付けられており、次に遺伝的画像(図1C-G)へ符号化することのできる数値データセットを形成する。「図形表現」は、どのようにして数からさかのぼって元の配列を突き止めることができるかを導く視覚的リンクを提供する。生成される各数は標的配列上の位置に関して一意であるため、どのGAがどの切断数を生成したか(またはどの切断数に対応するか)を知ることによって、元の配列を突き止め、再構築することができる。遺伝的画像の生成を、以下でさらに詳細に説明する。
【0062】
図2A図2Cに、3ヌクレオチド遺伝的アナライザのセットを使用した、実際のヌクレオチド配列情報の数値データセットへの変換を例示する。マウス乳癌ウイルス(MMTV)超抗原内因性レトロウイルス配列のセグメント(246ヌクレオチド)に、3ヌクレオチド遺伝的アナライザの全体セットを使用した切断解析を施した。図2Aには、第3の、すなわち最後の位置にあるヌクレオチド(第3の/最後の位置にあるA、C、G、およびT)によって指示される3ヌクレオチド遺伝的アナライザの4つの異なる部分セットが示されている。3ヌクレオチド遺伝的アナライザの各部分セットは、(それぞれが最後の位置に4つの可能なヌクレオチドのうちの特定の一つを有する)16個のアナライザからなる。図2Bには、遺伝的アナライザの同じセットが、AAA、AAC、AAG、AAT、...で始まり、TTA、TTC、TTG、およびTTTで終わるその切断順序で示されている。
【0063】
図2Cには、各ヌクレオチドの相対位置を容易に特定することができるように、遺伝的アナライザごとに1〜246(標的遺伝的配列内のヌクレオチドの総数)のスケール上での切断位置によって順次にリストされた結果として得られる数値データ(切断断片のサイズ)が示されている。64個の可能な3ヌクレオチド遺伝的アナライザがあり、これらは、「GA(GAのサイズ)-切断順序の番号」として識別される。これらは、正しく配置されるときには、図2Cの最上部に横方向にGA(3)-01からGA(3)-64までの順序で配置される。この例では、使用されたGAの末端ヌクレオチド(A、C、G、Tのいずれか)を表すのに異なる色が使用されており、そのため、Aで終わるすべてのGAはある色であり、Cで終わるすべてのGAは別の色であり、以下同様である。この色表現は、この特定の図では、配列の再構築を検証するときに、末端ヌクレオチドをより適切に視覚化し、または強調表示するために使用されているにすぎない。当然ながら、末端ヌクレオチドが区別するのに、グレースケールまたは他の表示(フォントの型やサイズなど)を使用することもできるが、最後のヌクレオチドのこの着色または強調表示は、当然ながら、工程における必要な段階ではない。
【0064】
図2Cの縦左側の太字の数は、246個のヌクレオチド位置を表す。右側の縦の配列は、再構築された配列(色付き)および元の配列である。遺伝的アナライザ列の下の数は、その遺伝的アナライザを用いて切断されたときに得られる断片のサイズを指示する。例えば、GA(3)-01の下の列には、12(これが左縦ルーラ上の位置12において発生することを指示する線と共に)、31(位置43にある)、48(位置91にある)、1(位置92にある)、1(位置93にある)、12(位置105にある)、および141(位置246にある)がある。この情報は、GA(3)-01を用いた配列の切断が、12、31、48、1、1、12、および141の各ヌクレオチド長の7個の断片をもたらすことを指示している(これは、これらの断片サイズすべての合計が246個の塩基と等しいはずなので検査することができる)。246個のヌクレオチド位置の最初の60個について、図2Cに示す「ボックス」の詳細図が図2Dに表されている。
【0065】
GA(3)-01は青で着色されており、青はこの遺伝的アナライザが文字Tで終わることを指示する。配列を復号するためには、位置12、43、91、92、93、および105のところにTがなければならない。最後の断片(位置246にある)は切断によってではなく、ヌクレオチド配列の末端に達することによって作成された断片であり、したがって、元の配列を再構築する際には使用されない。(正しく配置されるときに)図2Cの右側に沿って示すように、元のヌクレオチド配列は、切断断片の数値データセットから再構築することができる。最初の2つのヌクレオチド(5'-AA)は、どんな3ヌクレオチド遺伝的アナライザによっても認識されず、関連する数値データをもたらさないため、これらは再構築された配列に加えられる。加えて、3'末端の最後のヌクレオチド(A)は遺伝的アナライザ(GA(3)-49[TAA]、図2Cのアステリスクの意味である)によって認識されるが、この特定の切断イベントは、最後のヌクレオチドを説明する数値データを生成しない。よって、最後のヌクレオチド(A)は、数値データセットからの再構築時に加えられる。数値データセットから再構築された完全なヌクレオチド配列は、図の右側の2本線に沿って示すように、元の配列と同一であることが確認される。
【0066】
また、図2Cの断片情報は、(以下でより詳細に論じる、HIV-1A1配列についての、図3Cに表す数のリストなどのように)先頭の塩基、断片サイズ、および末端塩基だけがリストされる数値データセットとして視覚化することもできる。配列位置はこの一連の数から推論することができるため、断片サイズさえあればよい。
【0067】
一般に、遺伝的アナライザは、本明細書において「cutEvolution」と呼ぶ、配列カッター・ツール・ソフトウェア・プログラムを使用して、所与の遺伝的配列に適用される。cutEvolutionツールは、増幅されたヌクレオチド配列ファイルを読み取り、数値データセットを生成するプログラムであり、数値データセットは、断片サイズおよび/または所与の遺伝的アナライザについて生成された断片の総数のリストである。配列ファイルの位置および名前、使用されるべき遺伝的アナライザ、ならびにデータについての出力位置および出力の種類は、すべて、cutEvolutionプロジェクトファイルにおいて定義される。図2Eに、cutEvolutionソフトウェアプログラム20の基本モジュールの概略図を示す。入力データはプロジェクトファイル22および配列ファイル24に記憶される。cutEvolutionプロジェクトファイル22は、XML形式で実施することができ、cutEvolutionソフトウェア20の入力プロセッサ26によって入力データ、ツールを実行するためのパラメータ、ならびに出力位置および出力の種類(テキストまたは画像)を見つけるのに使用される定義を含む。配列ファイル24は、解析され、遺伝的画像へ変換されるべきヌクレオチドまたはアミノ酸の配列などの遺伝的配列情報を含む。
【0068】
cutEvolutionソフトウェア20は、機械可読メモリに記憶された遺伝的アナライザの一つまたは複数のセット(例えば、図2Eでは、すべて3ヌクレオチド遺伝的アナライザのセット(28a)およびすべて4ヌクレオチド遺伝的アナライザのセットが含まれる)(28b)を含む。当然ながら、他のサイズの遺伝的アナライザを必要に応じて含むこともできる。また、プログラムは、いわゆる入力プロセッサモジュール26、切断アルゴリズムモジュール30、ならびに出力プロセッサテキストモジュール32aおよび出力プロセッサ画像モジュール32bも含む。
【0069】
増幅されたヌクレオチド配列および遺伝的アナライザは、cutEvolution入力プロセッサモジュール26によって読み取られる。関心対象のDNA配列の両末端と一致するDNAの小さい特定の配列(プライマーセット)を、その領域のPCR増幅に使用することができる。しかし、他の用途では、遺伝的アナライザのセットによって解析されるべき配列の獲得は、プライマーセットおよびPCRを使用することによって行われなくてもよい。以下の工程は、アプリケーションへ入力されるすべての増幅されたヌクレオチド配列について適用される:
1.配列がロードされ、リスト内の遺伝的アナライザごとの出現について走査される(3カッターについては64個の遺伝的アナライザ、4カッターについては256個の遺伝的アナライザなど)。
2.一致ごとに、断片サイズが以下のように計算される:
([現在の切断位置]+[遺伝的アナライザのサイズ])-[前の切断位置]。
【0070】
例外は以下の通りである:
1.各配列走査の最初に、[前の切断位置]が0に設定される。
2.一致が見つからない場合、断片サイズは元の配列の配列長に設定される。
3.最後の一致の後の配列の残りの部分は、最後の断片サイズである。
【0071】
各断片サイズは、遺伝的アナライザごとに、指定の番号順に書き出され、遺伝的アナライザの順序は、選択された配列ファイルについての解析全体を通して一定に保たれる。
【0072】
ある特定の態様では、出力形式はコンマ区切り値形式(csv:comma separated values)とすることができ、csv形式は、スプレッドシートおよび他のプログラムへ容易にインポートすることができる。この態様では、出力は、配列ID(対象ID、プライマーセットID、クローン番号など)を表す列と、遺伝的アナライザを表す行として編成される。一般に、データ出力は、配列IDを表す列と、遺伝的アナライザセットを表す行とを有するなど、様々な配列として編成することができる。
【0073】
図3A図3Dに、HIV-1(ヒト免疫不全ウイルス-1)株の全ゲノム配列が、4ヌクレオチド遺伝的アナライザの完全セットを用いた切断によって数値データ形式へ変換された変換プロトコルを例示する。変換工程の最後に、解析されるHIVゲノム配列についての順次数値データセットの、先頭の3つのヌクレオチドと、末端の一つのヌクレオチドとが加えられた。結果として得られる、このゲノム配列からのサイズと位置両方における切断断片の数値プロファイルは、最終的に元の配列情報を表す。
【0074】
図3Bおよび図3Cには、4ヌクレオチド遺伝的アナライザの全体セットを使用した、HIV-1ヌクレオチド配列の数値データセットへの変換が示されている。HIV-1A1のヌクレオチド配列(受入番号AB098331、図3C)はHIV配列データベース(インターネットアドレスhiv.lanl.gov)から取得され、4ヌクレオチド遺伝的アナライザの全体セット(合計256個、図3Aにリストされ、図3Bに(AAAAで始まりGGGGで終わる)切断順序でリストされている)を用いて配列を切断することによって、数値データセットへ変換された。切断断片のサイズは、遺伝的アナライザごとに、切断順序によって順次に配置され、切断断片を表す(GA(4)-001からGA(4)-256として識別される)全256個の遺伝的アナライザからの数値データ点は、用いられた遺伝的アナライザの順序で配置された。これらの数値データセットは、以下でさらの詳細に述べるように、遺伝的画像を生成するためにインポートすることが可能である。
【0075】
図3Cには、左上隅でTGGから始まる完全な数値データセットが示されている。生成された最初の断片(遺伝的アナライザGA(4)-001の最初の出現も推論する)は27ヌクレオチド長であり、次の断片(GA(4)-001配列の次の出現を推論する)は587ヌクレオチド長である(すなわち、この次の「切断」は、GA(4)-001配列の最初の出現から587個のヌクレオチドの後に出現する)。最初の遺伝的アナライザ(GA(4)-001)についての数値データセット断片サイズ数は、27、587、1、194、19、27、1、1、などのように続く。数値データセットは、遺伝的アナライザごとに切断順序で(GA(4)-002、GA(4)-003、など)続き、これらは、断片サイズ数間に点在する。数の全体セットは、図3Cの右側の中ほどの...、1、1、380、25、144、Cで終わる。
【0076】
図3Cは、「ボックス」で囲まれた情報のセクションを含む。このボックスは、図3Dにおいて、見やすいように拡大されている。図2Cおよび図3Cはデータの一般概念を示すものであることに留意されたい。例えば、図2Cおよび図2Dは、配列の切断がどのようにして発生するか、および断片がどのようにして作成されるかを視覚化するのに使用される。他方、図3Cおよび図3Dは、(例えば、別の例について図2Cに示すような)表形式のデータをどのようにして集約し、長い数字列の形の数値データセットにするかの一例を提供するものである。また図3Cおよび図3Dには、どれ程のデータが遺伝的画像に入れられるかも例示されている。
【0077】
この数値データセットにおいて、最初の3文字(TGG)は、どんな4ヌクレオチド遺伝的アナライザによっても切断されない最初の3つのヌクレオチドを表し、次いで、一連の数(それぞれ、この例では、27、587、1、194、などである(切断位置に関連する)断片サイズにおけるAAAA切断など、所与の遺伝的アナライザについての断片サイズを指示する)が続き、次いで、元の遺伝的配列の末端にある単一のヌクレオチドであるCで終わる。
【0078】
5.遺伝的画像を生成するための数値データセットの符号化
遺伝的配列情報は、前述のように遺伝的アナライザのセットを使用して数値データへ完全に変換され、次いで、一意の遺伝的画像を生成するように符号化することができる。数値データセットは、解析される配列ごとの切断プロファイルの一意性を保証するために、遺伝的アナライザごとの切断イベント/断片の順序で、グラフィック画像として符号化される。よって、遺伝的画像は、数値データセットの暗号化圧縮バージョンである。
【0079】
あるいは、すべての遺伝的アナライザからの切断断片プロファイルを組み合わせることによって作成された認識データが、遺伝的画像を形成するように符号化されてもよい。加えて、同じヌクレオチド配列からの(遺伝的アナライザの異なるセットを使用することによって作成された)数値データセットの複数のバージョンを符号化すれば、走査結果の正確さも向上し得る。遺伝的画像は、記憶し、表示するのにコンパクトで、移植性があり、本明細書において論じるように、ラベルなどへ有形的に組み込むことができる。遺伝的画像内の個々の数値データ点は、元の配列情報の比較解析および追跡のために走査することができる。
【0080】
ヌクレオチド配列情報の数値変換は、複雑な配列情報をコンパクトで移植性のある形式で表示する高解像度グラフィックスプログラムの使用を可能にする。数値配列情報は、例えば、以下でさらの詳細に述べるように、プログラムを使用して走査および追跡が可能な遺伝的画像へ符号化される。遺伝的画像は、例えばJPEG/PNG/GIFなど、様々な利用可能な形式のいずれかで作成することができる。例えば、遺伝的画像は、PNG形式(libpng.orgのワールド・ワイド・ウェブなどを参照)のヒートダイヤグラムとして生成することができる。
【0081】
2つの例示的な種類の遺伝的画像をヌクレオチド配列の断片データから生成することができ、cutEvolutionソフトウェアツールを使用して計算される。どちらの種類の画像においても、遺伝的アナライザの一つのセットだけが使用される。必要な場合は、複数の遺伝的画像をまとめてグループ化して、より多くの情報を含むより大きな画像を作成することもできる。
1.断片ブロック画像(FBI:Fragment Block Image) この種の画像では、複数の配列についての生成断片の総数に関する情報だけが色分けされる。これらの画像は2色を使用し、一方の色は配列を識別し、他方の色は特定の遺伝的アナライザによる生成断片の総数を識別する。FBIは、編成のために2次元(XおよびY)軸を使用し、一方の軸には配列が、他方の軸には遺伝的アナライザが記載される。
2.断片行画像(FRI:Fragment Row Image) この種の画像では、一つの配列についての各生成断片のサイズおよび順序に関する情報が色分けされる。この画像も2色を使用し、一方の色は配列を識別し、他方の色は断片サイズを識別する。FRIは、編成のために2次元(XおよびY)軸を使用し、一方の軸には遺伝的アナライザが、他方の軸には切断/断片数が記載される。
【0082】
FBI画像もFRI画像も、標準PNG(Portable Network Graphics)ファイルとして実施することができる。プログラミングライブラリを使用し、遺伝的アナライザデータセットを利用して遺伝的画像内の正しい色ブロックおよび位置を決定し、一貫性を保証するために定義済みのカラーマップから色を検証することによって、遺伝的画像が作成される。遺伝的画像内の色データ割当て、ブロックサイズ、および/またはデータ編成は、記憶されるべきデータの種類に応じて、他の情報を含むように変更することができる。
【0083】
大量のデータを記憶し、しかも元の配列を再構築することができるようにするために、データは、圧縮2値記憶媒体としてなど、圧縮されるべきである。cutEvolutionツールは、PNG形式などで画像を生成するための出力プロセッサモジュールを含む。cutEvolutionの出力プロセッサ画像モジュールは、以下の要件を満たす画像を作成する。
1.配列データは、そのような大容量データセット間の比較が効率よく行われるように圧縮されなければならない。
2.遺伝的画像は、画像内の任意の位置からさかのぼって元の配列内の特定の位置を突き止めることを可能にしなければならない。これは、2つの画像を比較するときにさかのぼって元の配列を突き止めることを可能にする。
3.また遺伝的画像は、遺伝的画像から元の配列全部を再構築することも可能にしなければならない。
【0084】
遺伝的画像は、前述の切断工程において使用された遺伝的アナライザの順序に基づいて作成される。例えば、単純なFBIのPNGベースの画像においては、各列は配列を表し、各行は特定の遺伝的アナライザを表す。この種のアラインメントでは、遺伝的画像内の(例えば、x、y座標と色とで表される)任意のデータ点からさかのぼって配列および遺伝的アナライザを突き止めることができる。この単純なアラインメント編成は、遺伝的画像の複雑さおよび目的に応じて変更することができる。データ点の色は、使用されたプライマーID、クローン番号、遺伝的アナライザや断片情報などの詳細情報を符号化するのに使用される。
【0085】
ワイン試料からのゲノムブドウDNAの(様々なプライマーセットを使用した)PCR増幅によって得られた(各配列がクローン番号で識別される)レトロウイルス要素配列のセットを使用したFBIの作成が、図4Aおよび図4Bに示されている。遺伝的画像は、図4Aの流れ図で概説する工程を使用して作成され、図4Aには、工程が、cutEvolutionソフトウェアプログラムを使用した前述の「切断」工程から始まることが示されている。プログラムは、関連情報、この例では、クローン番号、プライマーID番号、遺伝的アナライザ、断片の数などを表す数のリストの形のデータおよびメタデータのセットを生成する。この具体例では、配列データは、実際には一つの配列ではなく、異なるレトロ要素の一連の異なる配列である。これらの配列は、異なるプライマーセット(プライマーID番号)を使用したPCRによって獲得されたものである。同じプライマーセットから様々な配列が獲得されてもよく、そのため、正確にどの配列があるプライマーセットから獲得されたかをさらに区別するために、発明者らはクローン番号を加えている。この数のセットは遺伝的画像へ、例えば、x、y、カラーRGBの形式などへ変換され、次いでPNG画像として表現される。
【0086】
RGB配色は、各色が256通りの濃淡の組合せを可能にする赤/緑/青(Red/Green/Blue)の混合を使用する。RGBは、合計で2563通りの色の組合せを提供し、これは16,777,216通りの固有色と等しい。カッターアルゴリズムによって生成されるデータは、RGB色濃淡の最大組合せ数を超えない数値へマップされる必要がある。対象についてのデータは大きく、何百ものプライマーおよび配列の組合せを作り出す可能性が高いため、2563通りの組合せでは、通常は、情報を適切に記憶するのに十分ではない。このために、各データ点は、図4Bに示すデータアラインメント(ボックス内の最大値)を使用して2色で表すことができる。
【0087】
図4Bでは、配列識別は、色1を生成するのに使用される計8桁について、プライマー部分セット(数0〜15を含む)、プライマーID(数0〜999を含む)、およびクローン番号(数0〜999を含む)から構成される。色2は、7ヌクレオチド遺伝的アナライザセットに十分である遺伝的アナライザ識別数に対応する5桁、および断片数のための3桁(数0〜999)で生成される。図4Cに示すように、前述のように配置されたデータ点ごとの数値は、10進値を256進数へ変換することによってRGB色へ変換される。例えば、プライマー・クローン対の数(色1)、00113064などは、256進数001 185 168になるはずである。遺伝的アナライザと断片数の対の数(色2)、00064072などは、256進数000 250 072になるはずである。
【0088】
図4Dに示すように、最終的なPNGベース遺伝的画像内の各データ点は、10×10画素のボックス(より高い圧縮では異なり得る)として表され、(図4Cに示すようなデータの変換によって決定される)2色が図示のように描かれる。図4Dには、最終的な遺伝的画像内の4つのデータブロックの2次元編成を例示するための詳細図が示されている。この例では、3ヌクレオチド遺伝的アナライザのセットを使用して複数の配列が切断され、断片の総数だけがコード化され、そのため遺伝的画像は、各列が1配列を表し、各行が一つの遺伝的アナライザを表すように編成された。図4Dには、2つの遺伝的アナライザに対応する遺伝的画像の一部分だけが示されている。
【0089】
図4Eに、PNGベース遺伝的画像を例示する。特に、図4Eには、白ワイン試料についての、図1Aと同様の遺伝的アナライザのセットを用いて切断されたレトロウイルス要素配列のグループについて生成された断片の総数の1440×640画素表現が示されている。
【0090】
図7Aおよび図7Bに、それぞれ、図2C図3C、および図1Aと同様の一連の画像を示す。これら一連の画像は、2つの短いレトロウイルス要素配列(一つは緑ブドウ由来(図7A)、一つは赤ブドウ由来(図7B))の、3ヌクレオチド遺伝的アナライザセットを使用した遺伝的画像への変換を表すものである。この解析で使用された3ヌクレオチド遺伝的アナライザの完全セットが図2Aに示されている。使用された遺伝的アナライザの順序は図2Bに示されている。図7Aには、3ヌクレオチド遺伝的アナライザの完全セットを用いて、図示の順序で切断された、緑ブドウ由来のレトロウイルス要素配列についての遺伝的画像を作成する際のイベントの流れが示されている。この図は、(図2Cと同様の)切断位置および結果として得られる断片サイズの視覚化である。このデータは、次いで、断片サイズだけが切断の順序で順次にリストされたより小さいデータセットへ統合され、次いでこれらの断片グループは、利用された遺伝的アナライザの順序でリストされた(図3Cと同様のデータセット)。次いでこのデータセットは、遺伝的画像へ変換することができる。生成された遺伝的画像の表現が示される(図4Eと同様)。図7Bは、図7Aと同様であるが、赤ブドウ由来レトロウイルス要素配列からの結果として得られるデータを示すものである。
【0091】
6.遺伝的画像の比較および復号
ラベル、カード、または電子画面などの遺伝的画像を復号し、読み取る基本的な方法は、遺伝的画像を提供する段階、遺伝的画像を読み取り、復号して対応する数値データセットを生成する段階、および既知の遺伝的アナライザのセットを適用して元の対応する遺伝的配列を獲得する段階を含む。同じ基本的段階は、遺伝的画像が、携帯電話、PDA、または類似の機器などの電子画面上に表示される場合にも使用される。復号する段階は、一般に、本明細書で述べる符号化する段階の逆である。
【0092】
加えて、2つ以上の異なるヌクレオチド配列から生成された遺伝的画像の2つ以上を、コンピュータその他のモニタ上で、またはラベル、紙、プラスチック媒体などの他の有体物上で画像を走査し、オーバーレイすることによって比較して、多型などの差異を特定することもできる。遺伝的画像は、PNGやJPEGなどの標準的な画像形式を使用して生成され、例えば平面スキャナやパスポートスキャナなどの任意の高解像度グラフィックスまたは画像スキャナを使用して光学的に走査することができる。異なる配列から導出された遺伝的画像をオーバーレイすることによって、不一致/多型が強調表示され、それに続いて、数値データ点から導出された関連するコードを容易に特定することができる。
【0093】
異なる遺伝的画像内に存在する不一致/多型は、配列データ内の差異または多型に直接結びついている。例えば、図5に、2つの遺伝的画像の比較において特定された多型からさかのぼって、遺伝的画像を作成するのに使用された元のヌクレオチド配列を突き止めるための概要を示す。流れ図は、どのようにして、2つの異なる遺伝的画像(AおよびB)の走査およびオーバーレイによって特定された多型からさかのぼって多型ヌクレオチド配列を突き止めるかを、2つの遺伝的画像を走査し、オーバーレイなどによって比較する段階、符号化された数値配列データを(切断断片のプロファイルの解析などによって)解析する段階、切断断片および関連する遺伝的アナライザ内の不一致を特定する段階、および主要な欠失および/または付加を含む多型ヌクレオチドを確認する段階を含む各段階によって説明している。
【0094】
各遺伝的画像は、(第1の特定の生体高分子の遺伝的配列データに対応する)機械可読の符号化数値データセットを組み込んだ有形のラベルとすることができる。ある態様では、遺伝的画像は、第1の配列と第2の配列との対応する類似性または差異が、人間のオペレータによるなど目視で、あるいは、機械によって識別され得るように構成することができる。例えば、ある態様では、高解像度遺伝的画像内の差異は、画像内に肉眼で見える色およびパターンがあるときに、目視検査によって見分けることができる。そのような比較を容易にするために、例えば、遺伝的画像を半透明な材料へ組み込んで、重ね合わされた画像を比較してオーバーラップ領域または差異領域を見分けられるようにすることができる。加えて、遺伝的アナライザの異なるセットを使用して作成された単一のヌクレオチド配列のデータ画像の複数の解析によって、走査データのロバスト性を確実にすることもできる。しかし実際には、異なる遺伝的画像を機械によって比較する方がはるかに実用的である。というのは、データセット間の差異は、通常は、肉眼で見分けるのがあまりに難しいからである。
【0095】
以下の2つの要因は、異なる遺伝的画像の比較時に特定される多型から元のヌクレオチド配列を突き止めるのに役立ち得る。第1に、遺伝的アナライザの全セットを用いた切断により生成された数値配列データは、設計上、元の配列上のあらゆる単一のヌクレオチドを説明することができる。第2に、遺伝的画像を生成するための切断断片の順序付き数値データセットを作成するのに使用される符号化システムは、解析される元のヌクレオチド配列の一意性/識別を保存するように設計されている。
【0096】
また、遺伝的画像(または基礎をなす数値データセット)は、例えば、遺伝的画像を有形の媒体に印刷することも、付着させることも、あるいは、遺伝的画像をモニタまたは画面上で表示することさえもなく、遺伝的画像を解析することによって、コンピュータ内で解析し、比較することもできる。よって、遺伝的画像を表す複数のデータファイルを、肉眼で見るための視覚化を必要とせずに、コンピュータによって比較することができるが、画像は、コンピュータモニタ上に表示させた状態でコンピュータによって比較することができる。
【0097】
前述のように、図5には、2つの遺伝的画像AおよびBの比較の具体例が示されており、2つの画像間の特定の不一致が、例えば、目視検査や、コンピュータ比較によって判定される。その後、不一致を生じさせる多型から、不一致の数に応じて、複数の切断断片における変化を突き止めることができる。事実、基準配列に対する一つのヌクレオチド不一致は、遺伝的アナライザの長さに応じた当該領域に関連する遺伝的アナライザについての認識部位の変化(除去および付加)のカスケードをもたらし得る。
【0098】
例えば、図6に、単一ヌクレオチド多型と、遺伝的アナライザおよび関連する切断断片プロファイルについての複数の認識部位における結果として生じる変化を示す。4ヌクレオチド遺伝的アナライザでは、単一ヌクレオチド多型(TからGへの変化)は、4つの遺伝的アナライザについての認識部位の除去または付加をもたらす(ACCTからACCGへ、CCTGからCCGGへ、CTGAからCGGAへ、およびTGAAからGGAAへ)。その結果、24個の数値データ点において変化が生じる。特に、ある遺伝的アナライザについての認識部位の除去は、2つの切断断片の除去と、一つの切断断片の付加とをもたらし(3つのデータ点における変化をもたらし)、別の遺伝的アナライザについての認識部位の付加は、一つの切断断片を除去し、2つの切断断片を付加する(さらに3つのデータ点における変更をもたらし、一つの遺伝的アナライザにつき合計6つのデータ点で、4つの遺伝的アナライザについて24の変化をもたらす)。
【0099】
その結果、単一ヌクレオチド多型の数値データ点の変化の数への増幅は、目視による判読性の向上、およびそのような遺伝的画像比較の正確さに寄与するはずである。その後に、強調表示された/不一致の断片を取り囲む切断断片のプロファイルおよびそれぞれの遺伝的アナライザを簡単に調べることにより、主要な欠失および/または付加を含む不一致のヌクレオチドが正確に特定される。この追跡工程において特定された多型の確認が必要とされる場合には、多型座を包囲するヌクレオチド配列の選択的セグメントにアライメント解析を施すことができる。
【0100】
コード化データを走査し、多型を追跡することのできる画像解析プログラムを作成することができる。遺伝的画像は配列データ(RFLPまたは完全な配列)の物理表現とすることができるため、任意の多型を、画像パターンの変化として可視化することができ、変化を追跡し、解析するプログラムを、既存の技術から作成し、適応させることができる。たとえ配列データが暗号化される場合でさえも、パターン変化を解析可能とし、肉眼で見えるようにすることさえもでき、研究者らが盲検試験を行うことが可能になる。この画像解析プログラムのゲノミクスにおける一応用は、遺伝的画像へ符号化されるいくつかの大きな配列内の単一ヌクレオチド多型(SNP)を走査し、検出することができることであろう。画像は、(完全配列のリストと比べて)相対的に小さくなるはずなので、多くの配列を、解析のために大きな配列ファイルをダウンロードし、または記憶しなくても、迅速に、正確に比較することができる。
【0101】
7.物理的遺伝的画像および電子的遺伝的画像および遺伝的画像の使用
前述のように、新規の遺伝的画像は、紙、ボール紙、プラスチックのシートおよびフィルム、金属、セラミックその他の材料を含む任意の数の基材上で物理的形態を取ることができる。遺伝的画像は、それだけに限定されないが、印刷、レーザなどによる彫刻、浮き彫り、その他の方法で基材に施すことができる。加えて、遺伝的画像を施すための基材の性質は多くの形を取ることができ、任意の数の異なる物体の形とすることができる。例えば、基材は、クレジットカードや運転免許証などの小型のプラスチックカードの一部とすることも、小型のプラスチックカードの形を取ることもできる。基材は、容器の壁面とすることも、医薬品の小瓶などの容器に添付されたラベルとすることもできる。基材は、特定の識別を必要とする任意の物体の表面の一部、またはそこに添付されたラベルとすることもできる。
【0102】
また、遺伝的画像は、コンピュータモニタ上や、テレビ、携帯電話、携帯情報端末(PDA)、あるいは遺伝的画像を提示することのできる画面を含む任意の他の類似の機器の画面上などに、電子的に、かつ/または光学的に表示することもできる。遺伝的画像のこれらの電子的/光学的表現は、それらが解析され、走査され、かつ/または他の遺伝的画像と比較される間に、一時的に提示することができ、次いで、モニタまたは画面から削除することができる。当然ながら、遺伝的画像は、例えば、数値データセットや、遺伝的画像自体、例えばPDFなどとして、機械可読の形で記憶することができる。
【0103】
よって、新規の遺伝的画像は、例えば、名前、住所、および/または他の情報などと一緒に、個人識別カードに記載することができる。言い換えると、新規の遺伝的画像は、各遺伝的画像が、例えば個々の対象の遺伝物質に基づく一意のゲノム配列データを表す、「ユニバーサルID」コードとして使用することができる。通常、対象には、社会保障番号、運転免許証番号、患者ID番号、などといった様々な理由での識別番号がランダムに割り当てられ得る。患者は、患者がかかりつけの医師に通うときの番号や患者が緊急治療のために救急処置室に担ぎ込まれる場合の別の番号など、単一の医療ネットワーク内で複数のID番号を同時取得し得る。患者が別の医療ネットワークへ移る場合には、その患者にさらに多くのID番号が割り当てされ得る。他方、「ユニバーサルID」は、第1に、一意で、固有なものとすることができ、その人がどこに位置していようとも有効とすることができる。さらに、「ユニバーサルID」は、暗号化配列データに基づくものとすることができるため、患者のゲノムデータのプライバシを保つことができる。同様に、そのような「ユニバーサルID」コードは、法医学目的、系統発生的研究、動物実験、食品、生物その他の生物学的製剤の規制または安全のためのモニタリング、絶滅危機種のモニタリング、および合成配列データまたはDNC識別タグのモニタリングなどのために設定することもできる。
【0104】
遺伝的画像は、「ユニバーサルID」として使用されるときに、例えば、(裁判所や学校など)建物へのアクセス権を得るため、身分証明チェックポイントを通過するため、航空機または他の安全保護された乗り物もしくは場所に入るため、(自動化ガソリン給油機その他の自動化支払システムなどで)カード所持者の識別を必要とするクレジットカードで買物をするためなど、必要とされる都度、携帯電話またはPDAまたは他の類似の機器の画面上に表示することもできる。
【0105】
新規の遺伝的画像は、人、動物、植物、微生物の識別が必要とされる任意の状況において使用することができる。例えば、遺伝的画像は、例えば、食料品(梱包)や農産物の商取引に際して、特定の野菜、果物(ブドウ、リンゴ、オレンジなど)、魚(寿司用マグロなど)、肉(神戸牛など)、または(チーズやワインなど)加工食品もしくは飲料が、実際に、それが申し立て通りのものであることを確認するのに使用することができる。
【0106】
8.遺伝的画像の誤り検査
同じ標的遺伝的配列への遺伝的アナライザの第2のセットの適用は、結果として得られる数値データセットと符号化遺伝的画像との誤り検査の明快な方法として使用することができる。遺伝的アナライザの第2のセットが同じ元の遺伝的配列を提供するように再構築され得る数値データセット(および遺伝的画像)を提供する場合には、システムが適正に機能したことを確信することができる。
【0107】
9.ハードウェアおよびソフトウェアの実装
図8は、本明細書で述べるコンピュータにより実現される方法のいずれかと関連して説明した動作に使用され得るコンピュータシステム1000の一つの可能な実装の概略図である。システム1000は、プロセッサ1010と、メモリ1020と、記憶装置1030と、入力/出力装置1040とを含む。各構成要素1010、1020、1030、および1040は、システムバス1050を使用して相互接続されている。プロセッサ1010は、システム1000内で実行するための命令を処理することができる。一つの実装では、プロセッサ1010は、シングルスレッドプロセッサである。別の実装では、プロセッサ1010は、マルチスレッドプロセッサである。プロセッサ1010は、メモリ1020または記憶装置1030に記憶された命令を処理して、入力/出力装置1040上のユーザインターフェース用のグラフィカル情報を表示することができる。
【0108】
メモリ1020は、システム1000内の情報を記憶する。ある実装では、メモリ1020は、コンピュータ可読媒体である。メモリ1020は、揮発性メモリおよび/または不揮発性メモリを含むことができる。
【0109】
記憶装置1030は、システム1000のための大容量記憶を提供することができる。一つの実装では、記憶装置1030はコンピュータ可読媒体である。様々な異なる実装では、記憶装置1030は、ハード・ディスク・デバイスや光ディスクデバイスなどのディスクデバイス、テープデバイスなどとすることができる。
【0110】
入力/出力装置1040は、システム1000のための入力/出力動作を提供する。ある実装では、入力/出力装置1040は、キーボードおよび/またはポインティングデバイスを含む。ある実装では、入力/出力装置1040は、グラフィカル・ユーザ・インターフェースを表示するための表示装置を含む。
【0111】
前述の特徴は、ディジタル電子回路として実施することもでき、コンピュータのハードウェア、ソフトウェア、ファームウェア、またはこれらの組合せとして実施することもできる。これらの特徴は、プログラマブルプロセッサによる実行のために、情報担体、例えば機械可読記憶装置などにおいて有形的に実施されたコンピュータプログラム製品において実施することができ、これらの特徴は、入力データに作用し、出力を生成することにより前述の実装の機能を果たすように命令のプログラムを実行するプログラマブルプロセッサによって実施することができる。前述の特徴は、データ記憶システム、少なくとも1台の入力装置、および少なくとも1台の出力装置との間でデータおよび命令を送受信するように結合された少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能な一つまたは複数のコンピュータプログラムにおいて実施することができる。コンピュータプログラムは、あるアクティビティを実行し、またはある結果をもたらすように、コンピュータにおいて、直接的または間接的に使用することができる命令のセットを含む。コンピュータプログラムは、コンパイルされ、または解釈された言語を含む任意の形のプログラミング言語で書くことができ、独立型プログラムとしてや、モジュール、コンポーネント、サブルーチン、またはコンピューティング環境での使用に適する他のユニットとしての形を含む、任意の形で配備することができる。
【0112】
命令のプログラムの実行に適するプロセッサには、例を挙げると、汎用と専用両方のマイクロプロセッサ、任意の種類のコンピュータの単独のプロセッサまたは複数のプロセッサのうちの一つが含まれる。一般に、プロセッサは、読取り専用メモリまたはランダム・アクセス・メモリまたはこれら両方から命令およびデータを受け取る。コンピュータは、命令を実行するためのプロセッサと、命令およびデータを記憶するための一つまたは複数のメモリをと含む。一般に、コンピュータは、データファイルを記憶するための一つまたは複数の大容量記憶装置も含み、または大容量記憶装置とやりとりするように動作可能に結合されており、このような装置には、内蔵ハードディスクや取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、光ディスクが含まれる。コンピュータプログラム命令およびデータを有形的に具現化するのに適した記憶装置には、例を挙げると、EPROM、EEPROM、フラッシュ・メモリ・デバイスなどの半導体メモリデバイス、内蔵ハードディスクや取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、CD-ROMディスクおよびDVD-ROMディスクを含む、あらゆる形の不揮発性メモリが含まれる。プロセッサおよびメモリは、ASIC(特定用途向け集積回路)によって補足することもでき、ASICに組み込むこともできる。
【0113】
ユーザとの対話を可能にするために、これらの特徴は、ユーザに情報を表示するためのCRT(ブラウン管)やLCD(液晶ディスプレイ)などの表示装置と、ユーザがコンピュータに情報を提供するためのキーボードおよびマウスやトラックボールなどのポインティングデバイスとを有するコンピュータ上で実施することができる。
【0114】
これらの特徴は、データサーバなどのバックエンドコンポーネントを含む、またはアプリケーションサーバやインターネットサーバなどのミドルウェアコンポーネントを含む、またはグラフィカル・ユーザ・インターフェースもしくはインターネットブラウザを有するクライアントコンピュータなどのフロントエンドコンポーネントを含む、またはこれらの任意の組合せを含むコンピュータシステムにおいて実施することができる。システムの構成要素は、通信ネットワークなどのディジタルデータ通信の任意の形または媒体によって接続することができる。通信ネットワークの例には、LAN、WAN、インターネットを形成するコンピュータおよびネットワークなどが含まれる。
【0115】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバとは、一般に、相互にリモートであり、通常は、前述のネットワークのようなネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で走る、相互に対してクライアント・サーバ関係を有するコンピュータプログラムによって生じる。
【0116】
プロセッサ1010は、コンピュータプログラムに関連すた命令を実行する。プロセッサ1010は、論理ゲート、加算器、乗算器、カウンタなどのハードウェアを含んでいてよい。プロセッサ1010は、算術演算および論理演算を行う別の論理演算装置(ALU)をさらに含んでいてもよい。
【0117】
他の態様
以上、本発明のいくつかの態様を説明した。とはいえ、本発明の趣旨および範囲を逸脱することなく様々な改変が加えられ得ることが理解されるであろう。したがって、他の態様も添付の特許請求の範囲内に含まれる。
図1A
図1B
図1C-1】
図1C-2】
図2A
図2B
図2C
図2D
図2E
図3A
図3B
図3C
図3D
図4A
図4B
図4C
図4D
図4E
図5
図6
図7A
図7B
図8
【配列表】
[この文献には参照ファイルがあります.J-PlatPatにて入手可能です(IP Forceでは現在のところ参照ファイルは掲載していません)]