(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-04
(45)【発行日】2023-10-13
(54)【発明の名称】参照ガイド式ゲノムシーケンシング
(51)【国際特許分類】
G16B 30/20 20190101AFI20231005BHJP
【FI】
G16B30/20
(21)【出願番号】P 2022529772
(86)(22)【出願日】2020-07-01
(86)【国際出願番号】 US2020040568
(87)【国際公開番号】W WO2021188137
(87)【国際公開日】2021-09-23
【審査請求日】2022-05-27
(32)【優先日】2020-03-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504056130
【氏名又は名称】ウェスタン デジタル テクノロジーズ インコーポレーテッド
(74)【代理人】
【識別番号】110000110
【氏名又は名称】弁理士法人 快友国際特許事務所
(72)【発明者】
【氏名】キニー、ジャスティン
【審査官】岡北 有平
(56)【参考文献】
【文献】米国特許出願公開第2014/0371110(US,A1)
【文献】欧州特許出願公開第02759952(EP,A1)
【文献】Mohammad Ruhul Amin, et al.,NanoBLASTer: Fast Alignment and Characterization of Oxford Nanopore Single Molecule Sequencing Reads,IEEE 6th Conference on Computational Advances in Bio and Medical Sciences,2016年,Pages 1-6,[検索日:2023年4月7日], <URL:https://doi.org/10.1109/ICCABS.2016.7802776>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 ー 99/00
(57)【特許請求の範囲】
【請求項1】
サンプルゲノム中の位置が不明であると共に、前記サンプルゲノムの一部を構成する複数のサンプルリードを、ゲノムシーケンシングのため
に処理する方法であって、
前記複数のサンプルリードの各サンプルリードについて、
複数のサブストリングシーケンスを
複数の参照シーケンスと比較すること
であって、
前記複数のサブストリングシーケンスは、前記サンプルリードの少なくとも一部の塩基配列を示しており、
前記複数の参照シーケンスは、参照ゲノムの一部を示している、前記比較することと、
前記複数のサブストリング
シーケンスのうちの1つ以上に一致する1つ以上の
前記参照シーケンス
である1つ以上の参照シーケンスを識別することと、
前記参照ゲノム内の前記1つ以上
の参照シーケンスに基づいて、前記参照ゲノム内の前記サンプルリードの確率的位置を決定することと、
前記複数のサンプルリードについて決定された前記確率的位置の分布に基づいて、前記参照ゲノムを
複数のパーティションに分割することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルリードを複数のサンプルグループに選別することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルグループの各々を、前記複数のパーティションのうちの対応する1つに関連付けることと、
前記サンプルリードを前記参照ゲノムの前記関連するパーティションと比較することによって、前記複数のサンプルグループの各サンプルグループの前記サンプルリードを整列させることと、を含む、方法。
【請求項2】
異なるメモリにおいて
、前記複数のパーティションの
各パーティションを記憶することを更に含む、請求項1に記載の方法。
【請求項3】
前記複数のサンプルグループの各サンプルグループを異なるメモリに記憶することを更に含む、請求項
1又は2に記載の方法。
【請求項4】
異なるプロセッサを使用して、前記複数のサンプルグループのそれぞれのサンプルグループ内のサンプルリードを整列させることを更に含む、請求項
1~3のいずれか一項に記載の方法。
【請求項5】
前記参照ゲノムを
前記複数のパーティションに分割することが、
ゲノムシーケンシングのための、前記サンプルリードの塩基配列が前記参照ゲノムの塩基配列に正確に一致するアルゴリズム
、又は、前記サンプルリードの塩基配列が前記参照ゲノムの塩基配列に近似一致
するアルゴリズムのうちの少なくとも1つの実行に先行する、請求項1
~4のいずれか一項に記載の方法。
【請求項6】
サンプルゲノム中の位置が不明であると共に、前記サンプルゲノムの一部を構成する複数のサンプルリードを、ゲノムシーケンシングのため
に処理するためのシステムを動作させる方法であって、
前記複数のサンプルリードの各サンプルリードについて、
複数のサブストリングシーケンスを
複数の参照シーケンスと比較することであって、
前記複数のサブストリングシーケンスは、前記サンプルリードの少なくとも一部の塩基配列を示しており、
前記複数の参照シーケンスは、参照ゲノムの一部を示しており、
前記サブストリングシーケンスを前記システムのセルの複数のグループに、一度に1つのサブストリング
シーケンスずつ記憶することであって、セルの各グループが、セルの少なくとも1つの他のグループに記憶された別の参照シーケンスに部分的に重複する参照シーケンスを更に記憶する、記憶すること、及び
記憶された参照シーケンスが、前記セルのグループに記憶された前記サブストリングシーケンスと一致する、前記セルの複数のグループのうちのセルの1つ以上のグループを識別すること、を含む、比較することと、
前記セルの1つ以上の識別されたグループに基づいて、前記参照ゲノム内の前記サンプルリードの確率的位置を決定することと、
前記複数のサンプルリードについて決定された前記確率的位置の分布に基づいて、前記参照ゲノムを
複数のパーティションに分割することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルリードを複数のサンプルグループに選別することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルグループのそれぞれを、前記複数のパーティションのうちの対応する1つに関連付けることと、
前記サンプルリードを前記参照ゲノムの前記関連するパーティションと比較することによって、前記複数のサンプルグループの各サンプルグループのサンプルリードを整列させることと、を含む、方法。
【請求項7】
前記システムの異なるメモリに
前記複数のパーティションの
各パーティションを記憶することを更に含む、請求項
6に記載の方法。
【請求項8】
前記複数のサンプルグループの各サンプルグループを前記システムの異なるメモリに記憶することを更に含む、請求項
6又は7に記載の方法。
【請求項9】
前記システムの異なるプロセッサを使用して、前記複数のサンプルグループのそれぞれのサンプルグループ内のサンプルリードを整列させることを更に含む、請求項
6~8のいずれか一項に記載の方法。
【請求項10】
前記参照ゲノムを
前記複数のパーティションに分割することが、
ゲノムシーケンシングのための、前記サンプルリードの塩基配列が前記参照ゲノムの塩基配列に正確に一致するアルゴリズム
、又は、前記サンプルリードの塩基配列が前記参照ゲノムの塩基配列に近似一致
するアルゴリズムのうちの少なくとも1つの実行に先行する、請求項
6~9のいずれか一項に記載の方法。
【請求項11】
サンプルゲノム中の位置が不明であると共に、前記サンプルゲノムの一部を構成する複数のサンプルリードを、ゲノムシーケンシングのため
に処理するためのシステムであって、
セルの複数のグループと、
回路であって、
前記複数のサンプルリードの各サンプルリードについて、
参照ゲノムの一部を示している複数の参照シーケンスと比較するために、
前記サンプルリードの少なくとも一部の塩基配列を示している複数のサブストリングシーケンスを
、セルの複数のグループに一度に1つのサブストリングシーケンスずつ記憶し、前記セルの複数のグループのうちのセルの各グループが、前記セルの複数のグループうちのセルの少なくとも1つの他のグループに記憶された別の参照シーケンスに部分的に重複する参照シーケンスを更に記憶し、
記憶された
前記参照シーケンスが、前記セルのグループに記憶された前記サブストリングシーケンスと一致する、前記セルの複数のグループのうちのセルの1つ以上のグループを識別し、
前記セルの1つ以上の識別されたグループに少なくとも部分的に基づいて、前記参照ゲノム内の前記サンプルリードの確率的位置を決定するように構成された、
前記回路と、
少なくとも1つのプロセッサであって、
前記複数のサンプルリードについて決定された前記確率的位置の分布に基づいて、前記参照ゲノムを
複数のパーティションに分割
し、
前記少なくとも1つのプロセッサが、前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルリードを複数のサンプルグループに選別し、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルグループのそれぞれを、前記複数のパーティションのうちの対応する1つに関連付け、
前記サンプルリードを前記参照ゲノムの前記関連するパーティションと比較することによって、前記複数のサンプルグループの各サンプルグループの前記サンプルリードを整列させるように構成された
、前記少なくとも1つのプロセッサと、を備える、システム。
【請求項12】
複数のメモリの異なるメモリに
前記複数のパーティションの
各パーティションを記憶するように構成された複数のメモリを更に備える、請求項
11に記載のシステム。
【請求項13】
前記複数のサンプルグループのそれぞれのサンプルグループを記憶するように各々構成された複数のメモリを更に備える、請求項
11又は12に記載のシステム。
【請求項14】
前記少なくとも1つのプロセッサの異なるプロセッサが、前記複数のサンプルグループのそれぞれのサンプルグループ内のサンプルリードを整列させる、請求項
11~13のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、「DEVICES AND METHODS FOR LOCATING A SAMPLE READ IN A REFERENCE GENOME」という名称の2020年3月に17日に出願された同時係属中の米国出願第16/820,711号(代理人整理番号WDA-4726-US)に関し、その内容全体が参照により本明細書に組み込まれる。本出願はまた、「REFERENCE-GUIDED GENOME SEQUENCING」という名称の2020年3月に17日に出願された同時係属中の米国出願第16/821,849号(代理人整理番号WDA-4724-US)に関し、その内容全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
現在のDNA(デオキシリボ核酸)サンプルハンドリングの制限は、サンプルゲノム中の一般に未知の場所を有するサンプルリード又はサンプルゲノムの部分につながる。サンプルゲノム内のサンプルリードを位置付けるためにサンプルリードを互いに比較する際に参照ゲノムを使用しないデノボシーケンシングの場合、サンプルリードは、典型的には1つの大きなグループとして分析され、これは、大きなグループ内のサンプルリードを互いに比較してサンプルゲノム内のサンプルリードの位置を判定するために、著しいメモリリソース及び高い計算コストを必要とする。デノボシーケンシングのそのような従来の方法は、ゲノムシーケンシングのために処理される必要がある大量のデータに対してスケーラブルではない。より詳細には、デノボシーケンシングの従来の方法は、通常、高価な2TB DRAMなどの共有メモリにサンプルリードの大きなグループを記憶する。独立した高帯域幅チャネルで共有DRAMに接続することができる計算コアの数は、(例えば、最大24個のコアに)制限されるため、この配置は、デノボシーケンシングに使用することができる独立した計算スレッドの数を(例えば、最大128個の計算スレッドに)制限する。
【0003】
サンプルゲノム内のサンプルリードを位置付けるために参照ゲノムを使用する、参照整列式シーケンシングの場合、参照ゲノム内のサンプルリードを位置付けるために、完全参照ゲノムは、典型的には各サンプルリードについて検索される。そのような参照整列式シーケンシングはまた、完全参照ゲノムを記憶するための著しいメモリリソース及び各サンプルリードを完全参照ゲノムと比較するための高い計算コストを必要とする。参照整列式シーケンシングの従来の方法はまた、限定されたスケーラビリティを有する。より詳細には、参照整列式シーケンシングの従来の方法は、対応する計算スレッドによって処理されるグループにサンプルリードをランダムに分割し得る。しかしながら、各計算スレッドは、典型的には、参照ゲノム全体を記憶するために、16GB DRAMなどの大きな専用メモリを必要とする。他の技術では、参照ゲノムは、単一の共有16GB DRAMに記憶され得るが、従来のデノボシーケンシングについて上述したように、この共有メモリ配置は、共有メモリにアクセスすることができるコア及び計算スレッドの数を制限する。したがって、計算コスト、メモリリソース、及びスケーラビリティに関してゲノムシーケンシングを改善する必要がある。
【図面の簡単な説明】
【0004】
本開示の実施形態の特徴及び利点は、図面と併せて以下に記載される詳細な説明からより明らかになるであろう。図面及び関連する説明は、本開示の実施形態を例示するために提供され、特許請求されるものの範囲を限定するものではない。
【0005】
【
図1】1つ以上の実施形態によるゲノムシーケンシングのためのシステムのブロック図である。
【0006】
【
図2】1つ以上の実施形態による、
図1のシステムの参照ガイド式デバイスにおける複数のセルのグループの例を示す。
【0007】
【
図3】1つ以上の実施形態によるデノボゲノムシーケンシングの例を示す。
【0008】
【
図4】1つ以上の実施形態によるデノボゲノムシーケンシングプロセスのフローチャートである。
【0009】
【
図5】1つ以上の実施形態による、参照整列式ゲノムシーケンシングの例を示す。
【0010】
【
図6】1つ以上の実施形態による参照整列式ゲノムシーケンシングプロセスのフローチャートである。
【発明を実施するための形態】
【0011】
以下の詳細な説明において、本開示の完全な理解を提供するために、多数の具体的な詳細が示されている。しかしながら、開示された様々な実施形態が、これらの具体的な詳細のいくつかなしで実施され得ることは、当業者には明らかであろう。他の例では、様々な実施形態を不必要に不明瞭にすることを避けるために、周知の構造及び技術が詳細に示されていない。
システムの実施例
【0012】
図1は、ホスト101
1~101
N及び1つ以上の実施形態による参照ガイド式デバイス102を含むゲノムシーケンシングのためのシステム100のブロック図である。ホスト101は、参照ガイド式デバイス102によって選別されたサンプルリードを含む参照ガイド式デバイス102からそれぞれのサンプルグループ11
1~11
Nを受信するために、参照ガイド式デバイス102と通信する。他の実装では、ホスト101は代わりに、それぞれのホスト101によるさらなる処理のために、サンプルリードのプールからのどのサンプルリードを共有メモリから取得するかを示す指示又はデータ構造を受信し得る。
【0013】
ホスト101が参照整列シーケンシングを実行する実装では、ホスト101はまた、サンプルリードのために決定された確率的場所に対応するヒト参照ゲノムH38などの参照ゲノムの一部を含む選択的な参照パーティション12
1~12
Nを受信し得る。任意選択の参照パーティション12
1~12
Nは、デバイス102、又は完全参照ゲノムを記憶した共有メモリなどの別のデバイスから受信され得る。
図5及び
図6を参照して以下でより詳細に論じられるように、任意選択の参照パーティション12
1~12
Nは、サンプルグループ11内のサンプルリードを関連する参照パーティション12と比較することによって、それぞれのサンプルグループ11内のサンプルリードを重なり合うセグメント、又はコンティグに整列させるためにホスト101によって使用することができる。
【0014】
ホスト101がデノボシーケンシングを行う実装では、ホスト101は、任意選択の参照パーティション121~12Nを受信しない場合がある。そのようなデノボシーケンシング実装のホスト101は、サンプルグループ11内のサンプルリードをサンプルグループ内の他のサンプルリードと比較することによって、それぞれのサンプルグループ11内のサンプルリードを重なり合うセグメント、又はコンティグに整列させる。
【0015】
説明を容易にするために、本開示の例示的な実施形態は、DNAシーケンシングの文脈で説明される。しかしながら、本開示の実施形態は、DNAシーケンシングに限定されず、一般に、RNA(リボ核酸)シーケンシングを含む任意の核酸塩基のシーケンシングに適用することができる。
【0016】
図1の例のサンプルリードは、最初に、1つ以上のホスト101又は
図1に示されていない別のデバイスによって参照ガイド式デバイス102に提供されて、デバイス102の1つ以上のアレイ104に記憶された参照ゲノム内のサンプルリードの確率的位置を決定し得る。いくつかの実装では、Illuminaデバイス(San Diego,CaliforniaのIllumina,Inc.製)又はナノポアデバイスのようなサンプルリードを生成するリードデバイスが、参照ガイド式デバイス102にサンプルリードを提供し得る。他の実装では、ホスト101又は別のデバイスのうちの1つ以上は、参照ゲノム内のサンプルリードの確率的位置を決定するために、サンプルリードからのサンプルサブストリングを参照ガイド式デバイス102に提供し得る。その部分について、デバイス102は、デバイス102の1つ以上のアレイ104に記憶された参照ゲノムと比較されたサンプルサブストリングに基づいて、サンプルリードの確率的位置を示す、デバイス102のメモリ108に記憶されたインデックス10をホスト101に提供し得る。デバイス102、及びデバイス102を使用して参照ゲノム内のサンプルリードを確率的に位置付ける方法の例は、関連する同時係属出願第16/820,711号に提供され、これは上記参照により組み込まれる。
【0017】
ホスト101は、例えば、正確なマッチングのためのseed and extendアルゴリズム及び/又はより計算的に複雑なアルゴリズム、例えば、ゲノム内のサンプルリードの近似マッチングのためのBurrows-Wheelerアルゴリズム又はSmith-Watermanアルゴリズムなど、プロセッサ109を使用するゲノムシーケンシングアルゴリズムを実装し得る、デスクトップ若しくはサーバーなどのコンピュータ、スマートストレージデバイス、又は他の処理ノードを含むことができる。以下でより詳細に論じられるように、デバイス102は、デノボ又は参照整列式シーケンシングの前にサンプルリードをサンプルグループ11に前処理するために使用され得る。これに関して、参照ガイド式デバイス102によって提供される確率的位置は、メモリリソース及び計算コストに関して、さもなければホスト101のプロセッサ109によって実行されることになるアルゴリズムの効率を置き換えるか、又は改善し得る。更に、
図3~
図6を参照して以下でより詳細に論じられるように、デバイス102によって提供されるサンプルリードの確率的位置付け及びサンプルグループ11へのサンプルリードの選別は、ゲノムシーケンシングのスケーラビリティに対する改善を可能にし、それによって、デノボ又は参照整列式ゲノムシーケンシングを実行ための費用及び時間を減じることができる。
【0018】
図1に示すように、各ホスト101は、プロセッサ109と、サンプルグループ11を記憶し、任意選択的に参照パーティション12を記憶するメモリ112と、を含む。プロセッサ109は、例えば、中央処理ユニット(Central Processing Unit、CPU)、マイクロプロセッサ(Microprocessor Unit、MPU)、又はマイクロコントローラ(Microcontroller Unit、MCU)を含むことができる。プロセッサ109はまた、システム・オン・チップ(System on a Chip、SoC)であり得る。
【0019】
ホスト101のメモリ112は、例えば、DRAMなどの揮発性RAM、不揮発性RAM、ストレージクラスメモリ(Storage Class Memory、SCM)、又は他のソリッドステートメモリを含むことができる。メモリ112は、プロセッサ109によって使用されるデータを記憶及び検索するために、プロセッサ109によってアクセスすることができる。これに関して、メモリ112に記憶されたデータは、プロセッサ109によって実行されるアプリケーションからロードされた命令、及び/又はそのようなアプリケーションを実行する際に使用されるデータを含むことができる。
【0020】
本明細書の説明は、一般に、ソリッドステートメモリを指しているが、ソリッドステートメモリは、フラッシュ集積回路、Chalcogenide RAM(C-RAM)、位相変化メモリ(PC-RAM若しくはPRAM)、プログラマブル金属化セルRAM(PMC-RAM若しくはPMCm)、Ovonic Unified Memory(OUM)、Resistive RAM(RRAM)、NANDメモリ(例えば、単一レベルセル(Single-Level Cell、SLC)メモリ、マルチレベルセル(Multi-Level Cell、MLC)メモリ(すなわち、2つ以上のレベル)、又はそれらの任意の組み合わせ)、NORメモリ、EEPROM、Ferroelectric Memory(FeRAM)、Magnetoresistive RAM(MRAM)、他の別個の不揮発性メモリ(Non-Volatile Memory、NVM)チップ、又はそれらの任意の組合せをなどの様々なタイプのメモリデバイスのうちの1つ以上を含み得ることが理解される。
【0021】
いくつかの実装における参照ガイド式デバイス102は、例えば、参照ゲノムに対するサンプルリードからサンプルサブストリングシーケンスの確率的位置を示すインデックス10を生成するための1つ以上の特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)又はフィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)を含むことができる。サンプルサブストリングシーケンスの確率的位置は、サンプルサブストリングシーケンスが採取されたサンプルリードの確率的位置を、複数のサンプルリードを記憶するホスト101又は他のデバイスに提供することができる。上記のように、いくつかの実装におけるホスト101又は別のデバイスのうちの1つ以上は、デバイス102の1つ以上のアレイ104にロードするために現在のサンプルサブストリングシーケンスを参照ガイド式デバイス102に提供し得る。他の実装では、ホスト101又は別のデバイスのうちの1つ以上は、参照ガイド式デバイス102にサンプルリードを提供することができ、参照ガイド式デバイス102は、参照ゲノムと比較するために1つ以上のアレイ104にロードされる、サンプルリードからのサンプルサブストリングシーケンスを決定し得る。
【0022】
ホスト101及びデバイス102は、物理的に共同配置されてもよく、又は物理的に共同配置されなくてもよい。例えば、いくつかの実装では、ホスト101及びデバイス102は、ローカルエリアネットワーク(Local Area Network、LAN)又はインターネットなどのワイドエリアネットワーク(Local Area Network、WAN)、又はデータバス若しくはファブリックを使用することなどによって、ネットワークを介して通信し得る。加えて、当業者は、システム100の他の実装が、サンプルリードの確率的位置を提供するための複数のデバイス102を含み得ることを理解するであろう。特定の実施形態では、ホスト101のうちの1つ以上及び1つ以上のデバイス102は、単一のデバイスとして統合される。
【0023】
図1の例に示すように、デバイス102は、セルの1つ以上のアレイ104を含む。本明細書で使用される場合、セルは、一般に、本開示において塩基と称される1つ以上のヌクレオチドを表す1つ以上の値を記憶するためのメモリ位置を指す。いくつかの実装では、1つ以上のアレイ104は、セルに記憶された1つ以上の値に対して1つ以上の動作を実行するための論理も含むセルを含むことができる。そのような例では、1つ以上のアレイ内の各セルは、参照ゲノムからの参照塩基を表す参照値と、サンプルサブストリングシーケンスからの塩基を表すサンプル値とを記憶することができる。セルは、1つ以上の動作を実行し、回路106又は1つ以上のアレイ104の回路によって使用することができる値を出力し、1つ以上のアレイ104内のセルのグループが、セルのグループに記憶されたサブストリングシーケンスと一致する参照シーケンスを記憶しているかどうかを判定し得る。いくつかの実装では、アレイ104は、1つ以上の収縮期アレイを含み、収縮期アレイにおいて、参照ゲノムから参照塩基を表す参照値がロードされ、サンプルサブストリングシーケンスからの塩基を表すサンプル値が、参照値と比較するためにセルにロードされ得、その後、サンプル値をアレイ104のセルの別のグループにおける次のセルに渡す。
【0024】
他の実装では、1つ以上のアレイ104は、セルに記憶された値が一致するかどうかを判定するための動作を実行しない場合があるソリッドステートメモリセルを含むことができる。例えば、いくつかの実装における回路106は、各セルに記憶された値が一致するかどうかを判定し得る。別の変形例として、1つ以上のアレイ104は各々、参照塩基を表す参照値又はサンプル塩基を表すサンプル値のいずれかを記憶し得る。そのような実装では、参照値を記憶するセルは、参照塩基とサンプル塩基との比較のためにサンプル値を記憶するセルと対になり得る。更に他の実装では、アレイ104内のセルは、レジスタ、ラッチ、又はフリップフロップなどの回路要素を含むことができる。
【0025】
デバイス102の回路106は、例えば、ハードワイヤード論理、アナログ回路、及び/又はそれらの組み合わせを含むことができる。他の実装では、回路106は、1つ以上のASIC、マイクロコントローラ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、FPGA、及び/又はそれらの組み合わせを含むことができる。いくつかの実装では、回路106は、メモリ108と組み合わされ得る1つ以上のSoCを含むことができる。以下でより詳細に論じられ、関連する出願第16/820,711号で論じられているように、回路106は、記憶された参照シーケンスがセルのグループに記憶された現在のサブストリングシーケンスと一致する1つ以上のアレイ104内のセルのグループを識別するように構成することができる。
【0026】
より詳細には、1つ以上のアレイ104におけるセルの各グループについて、参照ゲノムからの参照塩基の参照シーケンスをセルのグループに記憶することができる。参照シーケンスは、セルのそれぞれのグループにおけるセルの順序に対応する。セルの各グループは、セルの1つ以上の他のグループに記憶された1つ以上の他の参照シーケンスによって表される参照ゲノムの少なくとも1つの他の部分と部分的に重複する参照ゲノムの一部を表す参照シーケンスを記憶するように構成される。アレイ内のそのような重複する参照シーケンスの記憶の例は、
図2を参照して以下でより詳細に論じられる。
【0027】
加えて、1つ以上のアレイ104内のセルの各グループは、セルのそれぞれのグループの順序に対応する同じ現在のサブストリングシーケンスを記憶するように構成され得る。上記のように、回路106は、記憶された現在のサブストリングシーケンスがセルのグループに記憶された参照シーケンスと一致する1つ以上のアレイ104内のセルの複数のグループ間のセルのグループを識別するように構成されている。一致するシーケンスによるセルのグループの識別は、1つ以上のXNOR動作及びAND動作などの少なくとも1つの論理動作を実行した後、セルから出力された値に基づいて、回路106によって、いくつかの実装で行われ得る。XNOR及びANDは例として言及されているが、当業者は、同じ結果が異なる論理の組み合わせを介して他の実施形態において達成することができることを認識するであろう。他の実装では、一致するシーケンスによるセルのグループの識別は、参照塩基を表す参照値及びサンプル塩基を表すサンプル値を乗じた後、セルから出力された値に基づいて、回路106によって行われ得る。更に、いくつかの実装における回路106は、セル自体によって実行される動作のいくつかの代わりに、セルに記憶された値に対して全ての動作を実行し得る。
【0028】
デバイス102のメモリ108は、例えば、インデックス10を記憶するためのDRAMなどの揮発性メモリを含むことができる。他の実装では、メモリ108は、MRAMなどの不揮発性メモリを含むことができる。
図1に示すように、メモリ108は、インデックス10を記憶し、インデックス10は、1つ以上のアレイ104にロードされた、又は1つ以上のアレイ104に記憶された重複する参照シーケンスによって表される参照ゲノム内のサンプルリードの確率的位置を決定するために使用することができる。いくつかの実装では、インデックス10は、マッチングシーケンスを記憶するとして識別されたセルのグループに対応する参照ゲノム内のインデックス又は位置を示すビットマップ又は他のデータ構造などのデータ構造を含むことができる。回路106は、アレイ104のセルの各グループにロードされる異なるサンプルサブストリングシーケンスのためのインデックス10を更新し得る。いくつかの実装では、回路106は、セルの複数の一致するグループを有するサブストリングシーケンスのためのインデックス10の平均位置を示し得る。他の実装では、特定のサブストリングシーケンスのためのセルの第1の一致グループ又はセルの特定の一致グループのみが使用され得、又は回路106は、一致するシーケンスを記憶する単一のグループのセルを有するサブストリングシーケンスのために、インデックス10を全く更新しなくてもよい。
【0029】
更に、いくつかの実装は、一致するシーケンスを有するセルのグループの位置を示すためのインデックス又は他のデータ構造を使用しない場合がある。例えば、いくつかの実装における回路106は、一致するシーケンスを有するセルのグループを示すホスト101に直接データを出力し得るか、又は特定のサンプルグループ11に選別されたサンプルリードを直接出力し得る。これに関して、システム100内のデバイス102又は別のデバイスは、ホスト101のためのグループ11へのサンプルリードの選別を実行し得る。
【0030】
本開示を参照して当業者には理解されるように、他の実装は、
図1の例におけるシステム100のために示されたものとは異なる構成要素の数又は構成を含み得る。例えば、他の実装は、サンプルリードをサンプルグループ11に選別するように構成されたハードウェア加速器(例えば、グラフィック処理ユニット(Graphics Processing Unit、GPU))などの別のデバイスとデバイス102を組み合わせ得るか、又は異なる数のデバイス102を含み得るか、又はサンプルリードをサンプルグループ11に選別するための専用デバイスを含み得る。上記のように、システム100の他の実装は、サンプルリードがサンプルグループ11に選別される前に、複数のサンプルリード又は複数のサンプルリードの一部を一時的に記憶するための共有メモリを含み得る。更に他の実装では、デバイス102は、DNAサンプル内の塩基を検出する、Illumina又はナノポアデバイスなどの読み取りデバイスによって生成されるときに、サンプルリードを受信し得る。
【0031】
図2は、1つ以上の実施形態による、参照ガイド式デバイス102内の複数のセルのグループの例を示す。
図2の例に示すように、アレイ104は、セル110
1~110
L-19のグループを含む。
図2におけるセルのグループ110
1~110
L-19は、カラムとして示されているが、他の実装では、カラムとして物理的に配置されていないセルのグループを含み得る。いくつかの実装では、アレイ104は、セルの1つのグループからの欠陥のあるセルを、同じアレイの異なる部分又は異なるアレイにおけるスペアセルのプールに位置する別のセルと置換し得る。各セルグループが、セルの前のグループから1つの参照塩基だけシフトされた重複する参照シーケンスを記憶する実装では、Lは、全参照ヒトゲノムH38の場合のように、セルの32億のグループ又はカラムなどの、参照ゲノムの全長と等しくなり得る。他の実装は、代わりに、2つの参照塩基など、異なる数の参照塩基によってシフトされた重複した参照シーケンスを記憶し得、その結果、セル又はカラムのより少ないグループが必要とされ、アレイ104のより小さいサイズを可能にする。しかしながら、2つ以上の参照塩基だけ重複をシフトさせることは、サブストリングシーケンスに対する一致を見つける可能性を低減するという犠牲を払う可能性がある。
【0032】
図2の例に示すように、セル110の各グループは、参照塩基を表す参照値(例えば、R1、R2、R3など)、及びサンプル塩基を表すサンプル値(S1、S2、S3など)を記憶している。各参照値及び各サンプル値は、2ビットで表すことができ、それは、例えば、DNAシーケンシングの場合、4つの可能な塩基-アデニン(A)、グアニン(G)、シトシン(C)、及びチミン(T)が存在するからである。セル110の各グループは、サンプル値S1~S20の同じサンプルシーケンスを記憶しているが、セル110の各グループは、セルの隣接するグループに記憶された参照シーケンスから1つの参照塩基だけシフトされた、異なる部分的に重複する参照シーケンスを記憶している。例えば、セル110
1のグループは、参照値R1~R20を有する第1の参照シーケンスを記憶しており、セル110
2のグループは、参照値R2~R21を有する第2の参照シーケンスを記憶している。他の実施形態では、シフトされたオフセット及び結果として生じる重複は、
図2の実施例に示されるものとはセルグループにわたって異なり得る。
【0033】
部分的に重なり合う参照シーケンス及びアレイ104のサブストリングシーケンスを記憶する配置は、通常、参照ゲノム内のサンプルリードの確率的位置の効率的な位置付けを可能にする。更に、参照シーケンスは、アレイ104内に一回だけロード又は記憶されるだけでよい。次いで、サンプルリードからの異なるサブストリングシーケンスをロード又は記憶することの繰り返しは、参照ゲノム内のサンプルリードの確率的位置を提供し得、これは、
図3~
図6の例示的なプロセスを参照して以下に論じられるように、より効率的なデノボ又は参照整列式シーケンシングのために、サンプルリードをリードのグループにインテリジェントに選別するためにホスト101によって使用され得る。これに関して、異なる実装は、ROM又はNANDフラッシュセルなどの第1のタイプのセルを使用して、参照シーケンスを記憶し得、MRAMセルなどのより良好な書き込み耐久性を有する、反復される上書きにより適した第2のタイプのセルを使用して、サブストリングシーケンスを記憶し得る。
【0034】
サンプル値S1~S20を含む
図2の例では、20のサブストリングシーケンスの長さが使用される。関連する同時係属出願第16/820,711号でより詳細に論じられるように、セル又はカラムのグループ内のセルの数に対応するサブストリングシーケンスの長さは、一致するシーケンスを記憶するセル又はカラムのグループを特定するために必要なセル及び操作の数に対する参照ゲノム内のサブストリングシーケンスの所望の特異性に基づいて選択することができる。
例示的なプロセス
【0035】
図3は、1つ以上の実施形態によるデノボシーケンシングの例を示す。
図3に示すように、複数のサンプルリード13は、参照ガイド式デバイス102を使用して参照ゲノム14と比較されて、前処理114において、複数のリードをより小さいサンプルグループ11
1~11
Nに選別する。各サンプルグループ11は、参照ゲノム14内のサンプルリードの確率的位置に基づいて、H38などの参照ゲノム14の一部に対応する複数のサンプルリード13からのサンプルリードを含む。次いで、各グループのサンプルリードを同じサンプルグループ11内の他のサンプルリードと整列させて、サンプルグループ11
1~11
Nに対応するコンティグ1~N又は重複DNAセグメントを形成することができる。サンプルリードの整列は、デノボシーケンシングを実施するための当該技術分野で既知のseed and extendアルゴリズムなどの1つ以上のアルゴリズムを使用して、サンプルリードを同じサンプルグループ11内の他のサンプルリードと比較することによって実行され得る。次いで、各コンティグが集められ、対応するアセンブリ1~Nを形成し、次いで、これは、ゲノムのシーケンシングを完了するために染色体にマッピングされ得る。
【0036】
前処理114の外側に示されるデノボシーケンシングの部分は、ホスト101によって独立して実行され得、これは、全てのサンプルリードが単一の共有メモリに記憶され得る従来のデノボシーケンシングと比較して、デノボシーケンシングのスケーラビリティ及び効率を改善する。
図3の例では、サンプルグループ11への複数のサンプルリード13の選別は、従来のデノボシーケンシングのように、サンプルリードの全てを記憶するために単一のメモリを使用するよりも小さい、DRAMなどのN個のメモリに記憶されることを可能にする。上記のように、独立した高帯域幅チャネルを有する、2TB DRAMなどのより大きな共有メモリに接続することができる計算コアの数は、限定されている(例えば、最大24個のコア)。これは、サンプルリードをシーケンシングされたゲノムに組み立てかつマッピングするために使用することができる独立した計算スレッドの数を(例えば、最大128個の計算スレッドに)制限する。
【0037】
一方、
図3に示される配置は、スケーラビリティを改善することができ、それにより、それぞれのサンプルグループを記憶するより小さい各メモリが、最大数の独立した高帯域幅チャネルによってアクセスすることができ、その結果、複数のサンプルリードが単一の共有メモリに記憶されている従来の配置と比較して、より多くの総数の処理コア及び独立した計算スレッドを生じる。加えて、サンプルリードを組み立てかつマッピングする効率は、サンプルリードを確率的に位置付けることによって増加する。サンプルリードはまた、互いに10%以内など、サンプルグループ間でほぼ均一に分割され得、これにより、ホスト101の間でワークロードを分配し、並列化を改善する。
【0038】
例えば、複数のリード13がX=200,000のロングリード(例えば、1サンプルリード当たり5,000個の塩基をもたらすナノポアデバイスからのリード)を含む場合、各サンプルグループ11は、N=1,000サンプルグループ11を有する200個のサンプルリードを含み得る。次いで、サンプルグループ11のための各共有メモリにサンプルリードを記憶するために必要なサイズは、Nのファクタによって減少し、単一の大きなメモリと比較して、1,000個のより小さいメモリに対する全体的なコストの低減をもたらす。次いで、各サンプルグループ11は、Y=24処理コアによってアクセスされ得る。結果として生じる並列化は、サンプルリードを組み立てるために使用することができるコアの全体的な数を、単一の共有メモリの従来の例における24から、それぞれのサンプルグループ11を記憶する1,000個のメモリの実施例における24,000個のコアに増加させることができる。
【0039】
図4は、1つ以上の実施形態によるデノボゲノムシーケンシングプロセスのフローチャートである。
図4のプロセスは、例えば、参照ガイド式デバイス102及びホスト101を含むシステム100によって実行することができる。
【0040】
ブロック402において、複数のサンプルリード(例えば、
図3の複数のサンプルリード13)の各サンプルリードについて、サンプルリードからのサブストリングシーケンスは、参照ゲノム(例えば、
図3の参照ゲノム14)の異なる部分を表す参照シーケンスと比較される。いくつかの実装では、比較は、セルのグループに記憶された参照シーケンスに対するセルのグループに記憶されたサブストリングシーケンスの比較の結果を表すセルの複数のグループ(例えば、
図1のアレイ(複数可)104)におけるセルの各グループのための比較値を決定することを含むことができる。
【0041】
サブストリングシーケンスは、サンプルリードからの塩基の連続するシーケンスを含む。サブストリングシーケンスは、1つ以上のホスト101又はデバイス102によってランダムに選択され得る。他の実装では、サブストリングシーケンスは、サブストリングシーケンスがサンプルリード全体に広がるように選択され得る。関連する同時係属出願第16/820,711号に記載されているように、17~25個の塩基の長さを有するサブストリングシーケンスは、H38などの参照ゲノム内のサブストリングシーケンスを位置付けるために、ほとんどのサブストリングシーケンスに対して十分な数の固有の一致を提供することができる(すなわち、参照ゲノム内の1つの位置にのみ一致する)。17塩基よりも短いサブストリングの長さは、参照ゲノム内のサンプルリードの確率的位置を決定するために、サンプルリードからのより多くのサブストリングシーケンスを必要とする。参照ゲノムH38の場合、15塩基より短いサブストリング長さは、試みられたほぼ全てのサブストリングシーケンスについて、参照ゲノム内の任意の固有の一致を識別することができない場合がある。
【0042】
一方、25塩基を超えるサブストリング長さは、デバイス102内のアレイ104内のセルに関して追加の記憶コストと、一致するシーケンスを見つけるために必要な動作の増加に起因してより大きな計算コストとを伴い、固有のマッチの数はほとんど改善されない。結果として、上記の
図2の例は、20塩基のサブストリング長さを使用し、これは、
図2のセル110の各グループが所定の数の20個のセルを含むことを意味する。当業者は、参照ゲノムの特定の部分に関連する状態のための医学的診断又は遺伝的スクリーニングの場合であり得るように、異なる参照ゲノム又は参照ゲノムの一部を使用する場合など、他の例の場合には、異なるサブストリング長さ又はデバイス102におけるセルの各グループにおける異なる所定の数のセルが好ましい場合があることを、本開示を参照して理解するであろう。更に、計算コスト、セル数、及びより多数の固有のマッチに関する精度の間の異なるトレードオフもまた、アレイ(複数可)104内のセルの各グループに使用されるセルの数に影響を及ぼし得る。
【0043】
ブロック404において、1つ以上の参照シーケンスが、サンプルリードからの1つ以上の比較されたサブストリングシーケンスに一致する各サンプルリードについて識別される。一致する参照シーケンスを識別する際に、デバイス102のアレイ(複数可)104内のセル110のグループは、
図2のアレイ104の例で上述したように、参照ゲノムの一部を表す参照シーケンスを記憶するものとして識別され得る。いくつかの実装では、識別は、例えば、アレイ(複数可)104及び/又はデバイス102の回路106内のセルのXNOR及びANDゲートの組み合わせなどによって、論理ゲートを使用してデバイス102によって行われ得る。他の実装では、一致する参照シーケンス又は一致する参照シーケンスを記憶するセルのグループの識別は、内積又は値のドット積を使用することなどによって、塩基の記憶された参照値及びサンプル値を使用して計算を実行することによって行われ得る。アレイ(複数可)104にロード又は記憶されたサブストリングシーケンスに一致する参照シーケンスの識別の例は、関連する同時係属出願第16/820,711号に提供されている。
【0044】
ブロック406では、システム100は、各サンプルリードについて、1つ以上の比較されたサブストリングシーケンスに一致する1つ以上の識別された参照シーケンスに基づいて、参照ゲノム内のサンプルリードの確率的位置を決定する。これに関して、デバイス102のアレイ104内のセルの第1の一致グループは、各サブストリングシーケンスの位置として使用されてもよく、又は代替的に、いくつかのサブストリングシーケンスがセルの複数の一致するグループをもたらすと仮定して、サブストリングシーケンスの可能な位置として、セルの複数のマッチンググループが使用され得る。場合によっては、サンプルリード内の読み取りデバイス又は変異によって引き起こされるリードエラーなど、サブストリングシーケンス内のエラーに起因して、サブストリングシーケンスのための一致する位置が存在しない場合がある。回路106又はホスト101によってブロック406で決定されたサンプルリードの位置は、サンプルリードから異なるサブストリングシーケンスに対して複数の可能な位置を識別することができ、一致する位置から導出されたコンセンサス又は統計を使用して、参照ゲノム内のサンプルリードを確率的に位置付けることができるという意味で確率的であることができる。
【0045】
一例では、全てのサブストリングシーケンスについてのセルの全ての一致するグループの全ての位置の平均が、参照ゲノム内のサンプルリードの最も可能性の高い位置を識別するために使用される。別の例では、セルの一致するグループを有する各サブストリングシーケンスのための1つの位置のみが、平均で使用される。更に別の例では、サンプルリードの確率的位置は、サブストリングシーケンスのセルの一致するグループに対応する参照ゲノム内の最も遠い位置を識別することによって決定され得る。他の例では、一致する位置のグループに対する1つ以上の外れ値位置は、参照ゲノム内のサンプルリードの確率的位置を決定する際に廃棄され得る。
【0046】
ブロック408において、デバイス102又はホスト101のうちの1つ以上は、それぞれのサンプルリードの決定された確率的位置に基づいて複数のサンプルリードを複数のサンプルグループに選別する。各サンプルグループは、ホスト101の間でサンプルリードを組み立てかつマッピングするワークロードをより均一に分配するために、ほぼ同じ数のサンプルリード(例えば、互いに10%以内)を含み得る。いくつかの実装では、インデックス10又はデータ構造の一部は、サンプルグループ11としてホスト101によって処理されるサンプルリードのグループを示すホスト101にデバイス102によって提供され得る。そのような実装では、各ホスト101は、割り当てられたサンプルグループ11に対応するサンプルリードを共有メモリから検索し得る。他の実装では、デバイス102は、ホストに割り当てられたサンプルグループ11内に確率的に位置するサンプルリードを有する各ホスト101を提供し得る。更に他の実装では、割り当てられたサンプルグループのためのサンプルリードは、別のホスト101から検索され得る。
【0047】
ブロック410では、各サンプルグループ11は、異なるメモリに記憶される。いくつかの実装では、各ホスト101は、その割り当てられたサンプルグループ11を記憶するためのメモリ112などのそれ自体のメモリを含み得る。上述のように、ホスト101間に分散された多数のメモリを使用することは、通常、2TB DRAMなどの単一の大きなメモリに複数のサンプルリードの全てを記憶するよりも安価である。更に、各メモリは、ホスト101のプロセッサ109によってローカルにアクセスすることができ、システム100全体を通して同時に並行して動作するように、より多くの計算スレッドを可能にする。これは、サンプルリードのより速いシーケンシング又はアセンブリを提供することができる。
【0048】
ブロック412では、サンプルグループのサンプルリードをサンプルグループ内の他のサンプルリードと比較することによって、各サンプルグループのサンプルリードが整列させられる。ブロック412における比較は、従来のデノボシーケンシングのように、1つの大きな複数のサンプルリードからのサンプルリードをランダムに比較するよりも迅速に完了することができ、それは、それぞれの局所的なサンプルグループにおけるサンプルリードが少なく、上述のブロック402~408において行われる前処理により、重複するサンプルリードのより大きな可能性があるからである。
【0049】
本開示を参照して当業者には理解されるように、
図4に示されるブロックの順序は、他の実装では異なり得る。例えば、ブロック402~406は、ブロック408における複数のサンプルリードを選別することへ進む前に、サンプルリードの反復のためにシーケンスにおいて繰り返され得る。
【0050】
図4のゲノムシーケンシングは、参照整列式シーケンシングとは対照的に、デノボであるが、
図4のプロセスは、参照ガイド式ゲノムシーケンシングの新規技術を使用して、サンプルリードを確率的に局所化されたサンプルリードのグループに前処理又は選別して、デノボシーケンシングの効率、コスト、及びスケーラビリティを改善する。参照整列式シーケンシングについて以下に論じられる例示的なプロセスはまた、複数のサンプルリードを確率的に局所化されたサンプルリードのグループに前処理又は選別し、参照整列式シーケンシングの効率、コスト、及びスケーラビリティを改善する。更に、以下の
図5及び
図6を参照して論じられた参照整列式シーケンシング例は、参照整列式シーケンシングのために参照ゲノムを分割することを更に提供する。
【0051】
図5は、1つ以上の実施形態による、参照整列式ゲノムシーケンシングの例を示す。
図5に示すように、上述の
図3におけるデノボシーケンシングの例と同様に、複数のサンプルリード13は、参照ガイド式デバイス102を使用して参照ゲノム14と比較されて、前処理116において、複数のサンプルリードをより小さいサンプルグループ11
1~11
Nに選別する。しかしながら、
図3のデノボシーケンシングの例とは異なり、
図5の参照整列式シーケンシングは、前処理116においてそれぞれのサンプルグループ11
1~11
Nのために決定された確率的位置に関連した参照パーティション12
1~12
Nに参照ゲノム14を分割することを更に含む。いくつかの実装では、各参照パーティション12は、関連するサンプルグループ11として同じメモリ(例えば、
図1のメモリ112)に記憶され得る。他の実装では、サンプルグループ11及び関連する参照パーティション12は、異なるメモリに記憶され得る。
【0052】
図5において各参照パーティション12
1~12
Nを異なるメモリに記憶することによって、参照ゲノムのどの部分が、ランダムにグループ化されたサンプルリードを含んでいたかを知ることなく、ランダムにグループ化されたサンプルリードのための各ホスト101において参照ゲノム14全体を記憶するために必要とされるよりも少ないメモリが必要とされる。より小さな参照パーティション12への参照ゲノム14の分割は、サンプルリード13を確率的に局所化されたサンプルグループ11
1~11
Nに選別するための前処理116によって可能にされ、それにより、参照ゲノムの部分を特定のサンプルグループ11に関連付ける。
【0053】
いくつかの実装では、参照ゲノムの部分内に確率的位置を有するサンプルリードがない場合、参照ゲノムの部分は、廃棄されるか又は参照パーティション121~12Nのいずれにおいても使用されない場合がある。そのようなケースは、例えば、参照ゲノムの特定の部分にのみ関連し得る医学的診断又は遺伝的スクリーニングに起因し得る。そのような場合、処理リソース、メモリリソース、及び時間に関する参照整列式シーケンシングの効率は、完全参照ゲノムを記憶して比較する必要がないことによって、更に改善される。
【0054】
図5の例では、各サンプルグループ11は、参照ゲノム14内のサンプルリードの確率的位置に基づいて、H38などの、参照ゲノム14の参照パーティション12に対応する複数のサンプルリード13からのサンプルリードのほぼ同じ数(例えば、互いに10%以内)を含む。各サンプルグループのサンプルリードが、同じサンプルグループ11内の他のサンプルリードと整列させられ、サンプルグループ11
1~11
Nに対応するコンティグ1~N又は重複DNAセグメントを形成する。サンプルリードの整列は、参照整列式シーケンシングを実施するための当該技術分野で既知のseed and extendアルゴリズムなどの1つ以上のアルゴリズムを使用して、サンプルグループ11のサンプルリードを局所化された参照パーティション12と比較することによって実行することができる。次いで、各コンティグが集められ、対応するアセンブリ1~Nを形成し、次いで、これは、サンプルゲノムのシーケンシングを完了するために染色体にマッピングされ得る。
【0055】
更に、参照整列式シーケンシングのための参照ゲノムの部分を記憶するための複数のメモリの使用は、参照ゲノム全体が、16GB DRAMなどの単一の共有メモリに記憶され得る従来の参照整列式シーケンシングと比較して、参照整列式シーケンシングのスケーラビリティ及び効率を改善する。上記のように、独立した高帯域幅チャネルを有する共有メモリなどに接続することができる計算コアの数は、限定されている(例えば、最大24個のコア)。これは、サンプルリードをシーケンシングされたゲノムに組み立てかつマッピングするために使用することができる独立した計算スレッドの数を(例えば、最大128個の計算スレッドに)制限する。
【0056】
一方、
図5に示される配置は、スケーラビリティを改善することができ、それにより、それぞれの参照パーティション12を記憶するより小さい各メモリが、最大数の独立した高帯域幅チャネルによってアクセスすることができ、その結果、参照ゲノム全体が単一の共有メモリに記憶され得る従来の配置と比較して、より多くの総数の処理コア及び独立した計算スレッドを生じる。加えて、サンプルリードを組み立てかつマッピングする効率は、サンプルリードを確率的に位置付けることによって増加する。
【0057】
図6は、1つ以上の実施形態による参照整列式ゲノムシーケンシングプロセスのフローチャートである。
図4のプロセスは、例えば、参照ガイド式デバイス102及びホスト101を含むシステム100によって実行することができる。
【0058】
ブロック602において、複数のサンプルリード(例えば、
図3の複数のサンプルリード13)の各サンプルリードについて、サンプルリードからのサブストリングシーケンスは、参照ゲノム(例えば、
図5の参照ゲノム14)の異なる部分を表す参照シーケンスと比較される。サブストリングシーケンスは、サンプルリードからの塩基の連続するシーケンスを含む。サブストリングシーケンスは、1つ以上のホスト101又はデバイス102によってランダムに選択され得る。他の実装では、サブストリングシーケンスは、サブストリングシーケンスがサンプルリード全体に広がるように選択され得る。関連する同時係属出願第16/820,711号に記載され、また上述したように、17~25個の塩基の長さを有するサブストリングシーケンスは、H38などの参照ゲノム内のサブストリングシーケンスを位置付けるために、ほとんどのサブストリングシーケンスに対して十分な数の固有の一致を提供することができる(すなわち、参照ゲノム内の1つの位置にのみ一致する)。
【0059】
当業者は、参照ゲノムの特定の部分に関連する遺伝状態のための医学的診断又はスクリーニングの場合であり得るように、異なる参照ゲノム又は参照ゲノムの一部を使用する場合など、他の例の場合には、異なるサブストリング長さ又はデバイス102におけるセルの各グループにおける異なる所定の数のセルが好ましい場合があることを、本開示を参照して理解するであろう。更に、計算コスト、デバイス102のアレイ(複数可)104におけるセル数、及びより多数の固有のマッチに関する精度の間の異なるトレードオフもまた、アレイ(複数可)104内のセルの各グループに使用されるセルの数に影響を及ぼし得る。
【0060】
ブロック604において、各サンプルリードについて、サンプルリードから取得された比較されたサブストリングシーケンスのうちの1つ以上に一致する1つ以上の参照シーケンスが識別される。一致する参照シーケンスを識別する際に、デバイス102のアレイ(複数可)104内のセル110のグループは、
図2のアレイ104の例で上述したように、参照ゲノムの一部を表す参照シーケンスを記憶するものとして識別され得る。いくつかの実装では、識別は、例えば、アレイ(複数可)104及び/又はデバイス102の回路106内のセルのXNOR及びANDゲートの組み合わせなどによって、論理ゲートを使用してデバイス102によって行われ得る。他の実装では、一致する参照シーケンス又は一致する参照シーケンスを記憶するセルのグループの識別は、内積又は値のドット積を使用することなどによって、塩基の記憶された参照値及びサンプル値を使用して計算を実行することによって行われ得る。
【0061】
ブロック606では、システム100は、1つ以上の比較されたサブストリングシーケンスに一致する1つ以上の参照シーケンスに基づいて、参照ゲノム内の各サンプルリードのための確率的位置を決定する。デバイス102のアレイ104内のセルの第1の一致グループは、各サブストリングシーケンスの位置として使用されてもよく、又は代替的に、いくつかのサブストリングシーケンスがセルの複数の一致するグループをもたらすと仮定して、サブストリングシーケンスの可能な位置として、セルの複数のマッチンググループが使用され得る。場合によっては、サブストリングシーケンスは、いかなる一致する参照シーケンスも有しない場合がある。デバイス102の回路106又はホスト101によってブロック606で決定されたサンプルリードの位置は、サンプルリードから異なるサブストリングシーケンスに対して複数の可能な位置を識別することができ、一致する位置から導出されたコンセンサス又は統計を使用して、参照ゲノム内のサンプルリードを確率的に位置付けることができるという意味で確率的であることができる。
【0062】
一例では、全てのサブストリングシーケンスについてのセルの全ての一致するグループの全ての位置の平均が、参照ゲノム内のサンプルリードの最も可能性の高い位置を識別するために使用される。別の例では、セルの一致するグループを有する各サブストリングシーケンスのための1つの位置のみが、平均で使用される。更に別の例では、サンプルリードの確率的位置は、サブストリングシーケンスのセルの一致するグループに対応する参照ゲノム内の最も遠い位置を識別することによって決定され得る。他の例では、一致する位置のグループに対する1つ以上の外れ値位置は、参照ゲノム内のサンプルリードの確率的位置を決定する際に廃棄され得る。
【0063】
ブロック608において、デバイス102又は1つ以上のホスト101は、それぞれのサンプルリードについてブロック606で決定された確率的位置に基づいて、参照整列式シーケンシングのための参照ゲノムを分割する。参照ゲノムのパーティションは、サンプルリードについて決定された位置の分布に基づいてサイズが変化し得る。例えば、パーティションのサイズは、各パーティションが、他の参照パーティション又はサンプルグループとしてサンプルリードの数の10%以内を有する各参照パーティション又はサンプルグループによって、ほぼ等しい数のサンプルリードを有するサンプルグループに関連付けられるように、パーティション内に位置するサンプルリードの数に基づき得る。他の実装では、参照ゲノムのパーティションは等しく分割され得、サンプルグループ間のサンプルリードの数のより大きな変動が許容され得る。
【0064】
これに関して、参照ゲノムの部分内に確率的な位置を有するサンプルリードがない場合、参照ゲノムのいくつかの部分は、廃棄されるか、又はサンプルグループに割り当てられない場合がある。そのような場合は、例えば、参照ゲノムの特定の部分にのみ関連し得る医療診断又はスクリーニングに起因し得る。そのような場合、処理リソース、メモリリソース、及び時間に関する参照整列式シーケンシングの効率は、完全参照ゲノムを記憶して比較する必要がないことによって、更に改善される。
【0065】
ブロック610において、参照ゲノムの異なるパーティションは、ホスト101のメモリ112内などの異なるメモリに記憶される。各ホスト101は、参照ゲノムを記憶するシステム100内の共有メモリなどの、デバイス102から、又は別のデバイスから参照ゲノムの一部分を受信し得る。
図5を参照して上述したように、異なるメモリに参照ゲノムの局所化されたパーティションを記憶することは、サンプルリードがランダムにグループ化された場合であるように、参照ゲノム全体を複数のより大きなメモリに記憶する必要なしに、より多くの数の処理コアによる並列処理を可能にすることができる。
【0066】
ブロック612において、デバイス102又はホスト101のうちの1つ以上は、それぞれのサンプルリードの決定された確率的位置に基づいて複数のサンプルリードを複数のサンプルグループに選別する。サンプルリードは、各サンプルグループがほぼ同じ数のサンプルリードを含むように選別され得る(例えば、最もサンプルリードを有するサンプルグループの10%の範囲内)。いくつかの実装では、インデックス10又はデータ構造の一部は、サンプルグループ11としてホスト101によって処理されるサンプルリードのグループを示すホスト101にデバイス102によって提供され得る。そのような実装では、各ホスト101は、割り当てられたサンプルグループ11に対応するサンプルリードを共有メモリから検索し得る。他の実装では、デバイス102は、ホスト101に割り当てられたサンプルグループ11内に確率的に位置するサンプルリードを有する各ホスト101を提供し得る。更に他の実装では、割り当てられたサンプルグループのためのサンプルリードは、別のホスト101から検索され得る。
【0067】
ブロック614において、参照ゲノムの異なるパーティションは、サンプルグループにおけるサンプルリードの確率的位置に基づいて、それぞれのサンプルグループと関連付けられる。上記のように、参照ゲノムのパーティションは、サンプルグループ内のサンプルリードについて決定された確率的位置の分布に基づいてサイズが変化し得る。これに関して、パーティションのサイズは、各パーティションがほぼ等しい数のサンプルリードに関連付けられるように、パーティション内に位置するサンプルリードの数に基づき得る。他の実装では、参照ゲノムのパーティションは、サンプルグループ内のサンプルリードの分布を考慮することなく等しく分割され得る。
【0068】
ブロック616において、各サンプルグループ11は、ブロック610において参照ゲノムの関連付けられたパーティションを記憶するために使用される同じ又は異なるメモリであり得る異なるメモリに記憶される。いくつかの実装では、各ホスト101は、
図1のメモリ112と同様に、それぞれの関連するサンプルグループ11及び参照ゲノムパーティション12を記憶する、自己のメモリを含み得る。上述のように、ホスト101間に分散されたより多数のメモリを使用することは、通常、2TB DRAMなどの単一の大きなメモリに複数のサンプルリードの全てを記憶するよりも安価である。更に、各メモリは、ホスト101のプロセッサ109によってアクセスすることができ、同時に並行して動作するように、より多くの計算スレッドを可能にする。これは、サンプルリードのより速いシーケンシング又はアセンブリを提供することができる。
【0069】
ブロック618では、サンプルグループのサンプルリードをサンプルグループの参照ゲノムの関連するパーティションと比較することによって、各サンプルグループのサンプルリードが整列させられる。ブロック618における比較は、参照整列式シーケンシングの従来の技術のように、サンプルリードを完全参照ゲノムと比較するよりも、迅速に完了することができる。なぜならば、参照ゲノムのパーティションのサイズがより小さいため、サンプルグループ内のサンプルリードを位置付けるために必要な比較が少ないためである。更に、より多くのメモリにおける参照ゲノムのより小さいパーティションの記憶は、より多くの計算されたスレッドが異なるメモリに記憶された参照ゲノムのパーティションにアクセスすることを可能にするより大きなスケーラビリティを促進する。
【0070】
本開示を参照して当業者には理解されるように、
図6に示されるブロックの順序は、他の実装では異なり得る。例えば、ブロック608における参照ゲノムの分割は、ブロック612において複数のサンプルリードを複数のサンプルグループに選別した後に行い得る。別の例として、各サンプルグループは、ブロック610において異なるメモリに参照ゲノムの異なるパーティションを記憶する前に、ブロック616において異なるメモリに記憶され得る。更に別の例として、ブロック602~606は、ブロック408において参照ゲノムを分割することへ進む前に、サンプルリードの反復のために順番に繰り返され得る。
【0071】
上述のように、前述の参照ガイド式デバイス及び方法は通常、サンプルリードが参照ゲノム内に確率的に位置付けられることを可能にする。これは、さらなるシーケンシングのために参照ゲノム内のそれらの位置に基づいてサンプルリードをグループに前処理することによって、デノボ及び参照整列式シーケンシングの効率を改善することができる。デノボシーケンシングの場合、これは、より少数の計算スレッドによってサンプルリードの全てにアクセスするためにより大きくかつより高価なメモリが使用される従来の方法と比較して、より多くの計算スレッドがより小さいメモリのサンプルリードの複数の局所化されたグループにアクセスすることを可能にすることによって、デノボシーケンシングのスケーラビリティ及び効率を改善することができる。参照整列式シーケンシングの場合、サンプルリードの局所化されたグループは、参照ゲノムのより小さくかつ統計的により関連した部分が、各局所化されたグループのためのより小さくかつより安価なメモリに記憶されることを可能にする一方、それぞれが完全参照ゲノムを記憶する1つ又は著しく少ない共有メモリを使用し得る従来の参照整列式シーケンシングと比較して、スケーラビリティを改善するように、より多くの計算スレッドが複数のより小さなメモリにアクセスすることを可能にする。
他の実施形態
【0072】
当業者は、本明細書に開示される実施例に関連して説明される様々な例示的な論理ブロック、モジュール、及びプロセスが、電子ハードウェア、ソフトウェア、又は両方の組み合わせとして実装され得ることを理解するであろう。更に、前述のプロセスは、プロセッサ、コントローラ、又は他の回路に特定の機能を行わせる又は実行させるコンピュータ可読媒体上で具体化することができる。
【0073】
ハードウェア及びソフトウェアのこの互換性を明確に説明するために、様々な例示的な構成要素、ブロック、及びモジュールが、概してそれらの機能性に関して上述されている。そのような機能がハードウェア又はソフトウェアとして実装されるかどうかは、システム全体に課せられる特定のアプリケーション及び設計制約に依存する。当業者は、それぞれの特定の用途ごとに様々な方法で、記載された機能を実装し得るが、そのような実装決定は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。
【0074】
本明細書に開示される実施例に関連して説明される様々な例示的な論理ブロック、ユニット、モジュール、及び回路は、本明細書に記載の機能を実行するように設計された汎用プロセッサ、GPU、DSP、ASIC、FPGA若しくは他のプログラマブル論理デバイス、個別のゲート若しくはトランジスタロジック、個別のハードウェア構成要素、又はそれらの任意の組み合わせで実施又は実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又は状態機械であり得る。プロセッサ又はコントローラ回路はまた、コンピューティングデバイス、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、SoC、DSPコアと組み合わせた1つ以上のマイクロプロセッサ、又は任意の他のそのような構成の組み合わせとして実装され得る。
【0075】
本明細書に開示される実施例に関連して説明される方法又はプロセスのアクティビティは、ハードウェア、プロセッサ、若しくはコントローラ回路によって実行されるソフトウェアモジュール、又は2つの組み合わせにおいて直接具体化され得る。方法又はアルゴリズムのステップはまた、実施例に提供されるものから代替の順序で実行され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルメディア、光メディア、又は当技術分野で知られている任意の他の形式の記憶媒体に存在し得る。例示的な記憶媒体は、プロセッサ又はコントローラ回路が、記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサ又はコントローラ回路に結合される。代替的に、記憶媒体は、プロセッサ又はコントローラ回路と一体であり得る。プロセッサ又はコントローラ回路及び記憶媒体は、ASIC又はSoCに存在し得る。
【0076】
開示された例示的な実施形態の前述の説明は、当業者が本開示の実施形態を作製又は使用することを可能にするために提供される。これらの実施例に対する様々な修正は、当業者には容易に明らかであり、本明細書に開示される原理は、本開示の範囲から逸脱することなく他の実施例に適用され得る。説明された実施形態は、あらゆる点で、例示的であり、かつ制限的でないものと考慮されるべきである。更に、以下の特許請求の範囲における「A及びBのうちの少なくとも1つ」の形態の言語の使用は、「Aのみ、Bのみ、又はA及びBの両方」を意味すると理解されるべきである。