(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-16
(45)【発行日】2024-02-27
(54)【発明の名称】参照誘導ゲノム配列決定
(51)【国際特許分類】
G16B 30/00 20190101AFI20240219BHJP
C12Q 1/6874 20180101ALI20240219BHJP
【FI】
G16B30/00
C12Q1/6874 Z
(21)【出願番号】P 2022529855
(86)(22)【出願日】2020-07-01
(86)【国際出願番号】 US2020040530
(87)【国際公開番号】W WO2021188136
(87)【国際公開日】2021-09-23
【審査請求日】2022-06-06
(32)【優先日】2020-03-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504056130
【氏名又は名称】ウェスタン デジタル テクノロジーズ インコーポレーテッド
(74)【代理人】
【識別番号】110000110
【氏名又は名称】弁理士法人 快友国際特許事務所
(72)【発明者】
【氏名】キニー、ジャスティン
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】特開2004-234297(JP,A)
【文献】特開2003-216615(JP,A)
【文献】特開2014-146318(JP,A)
【文献】特開2019-83781(JP,A)
【文献】米国特許出願公開第2013/0338934(US,A1)
【文献】青山 健人,”スーパーコンピュータ「京」上でのエクソーム解析パイプラインの開発”,情報処理学会 論文誌(トランザクション) コンピューティングシステム(ACS) Vol.9 No.2 [online] ,日本,情報処理学会,2016年07月14日,第9巻第2号,p.15-33,ISSN:1882-7829
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16Z 99/00
C12Q 1/6874
(57)【特許請求の範囲】
【請求項1】
ゲノム配列決定のために、複数の試料リードを処理する
システムのためのコンピュータプログラムであって、
前記システムのコンピュータに、
前記複数の試料リードの各試料リードについて、
前記試料リードからのサブストリング配列を、参照ゲノムの異なる部分を表す参照配列と比較することと、
1つ以上の比較されたサブストリング配列と一致する1つ以上の参照配列を特定することと、
前記1つ以上の比較されたサブストリング配列と一致する前記1つ以上の特定された参照配列に基づいて、前記参照ゲノム内の前記試料リードの確率的位置を決定することと、
前記それぞれの試料リードの前記決定された確率的位置に少なくとも部分的に基づいて、前記複数の試料リードを複数の試料群に選別することと、
前記複数の試料群の各試料群の試料リードを、前記試料群の試料リードを前記試料群の他の試料リードと比較することによって整列させることと、を実行させる、コンピュータプログラム。
【請求項2】
前記システムの前記コンピュータに、
前記複数の試料群の各試料群を、異なるメモリに記憶することを更に
実行させる、請求項1に記載の
コンピュータプログラム。
【請求項3】
前記複数の試料群の各試料群が、ほぼ同じ数の試料リードを含む、請求項1に記載の
コンピュータプログラム。
【請求項4】
前記システムの前記コンピュータに、
異なるプロセッサを使用して、前記複数の試料群のそれぞれの試料群の試料リードを整列させることを更に
実行させる、請求項1に記載の
コンピュータプログラム。
【請求項5】
前記複数の試料リードを前記複数の試料群に選別することが、ゲノム配列決定のための完全一致アルゴリズム及び近似一致アルゴリズムのうちの少なくとも1つの実行に先行する、請求項1に記載の
コンピュータプログラム。
【請求項6】
前記試料リードからのサブストリング配列を参照配列と比較することが、
前記サブストリング配列を複数のセルの群に、一度に1つのサブストリング配列ずつ記憶することであって、前記複数のセルの群の各セルの群が、前記複数のセルの群のうちの少なくとも1つの他のセルの群に記憶された別の参照配列と部分的に重複する参照配列を更に記憶する、記憶することと、
前記記憶された参照配列が前記セルの群に記憶された前記サブストリング配列と一致する前記複数のセルの群のうちのセルの群を特定することと、を更に含む、請求項1に記載の
コンピュータプログラム。
【請求項7】
前記システムの前記コンピュータに、
デノボゲノム配列決定のために、前記複数の試料群を使用することを更に
実行させる、請求項1に記載の
コンピュータプログラム。
【請求項8】
ゲノム配列決定のために、複数の試料リードを処理する
システムのためのコンピュータプログラムであって、
前記システムのコンピュータに、
前記複数の試料リードの各試料リードについて、
前記試料リードからのサブストリング配列を、参照ゲノムの異なる部分を表す参照配列と比較することであって、
前記サブストリング配列を前記システムの複数のセルの群に、一度に1つのサブストリング配列ずつ記憶することであって、各セルの群が、少なくとも1つの他のセルの群に記憶された別の参照配列と部分的に重複する参照配列を更に記憶する、記憶すること、及び
前記記憶された参照配列が前記セルの群に記憶された前記サブストリング配列と一致する前記複数のセルの群のうちの1つ以上のセルの群を特定すること、を含む、比較することと、
前記1つ以上の特定されたセルの群に基づいて、前記参照ゲノム内の前記試料リードの確率的位置を決定することと、
前記それぞれの試料リードの前記決定された確率的位置に少なくとも部分的に基づいて、前記複数の試料リードを複数の試料群に選別することと、
前記複数の試料群の各試料群の試料リードを、前記試料群の試料リードを前記試料群の他の試料リードと比較することによって整列させることと、を実行させる、コンピュータプログラム。
【請求項9】
前記システムの前記コンピュータに、
前記複数の試料群の各試料群を、前記システムの異なるメモリに記憶することを更に
実行させる、請求項
8に記載の
コンピュータプログラム。
【請求項10】
前記複数の試料群の各試料群が、ほぼ同じ数の試料リードを含む、請求項
8に記載の
コンピュータプログラム。
【請求項11】
各記憶されたサブストリング配列について、前記複数のセルの群の各セルの群の比較値を決定することを
前記システムの前記コンピュータに更に実行させ、前記比較値が、前記記憶されたサブストリング配列と前記セルの群に記憶された前記参照配列との比較の結果を表す、請求項
8に記載の
コンピュータプログラム。
【請求項12】
前記複数の試料リードを前記複数の試料群に選別することが、ゲノム配列決定のための完全一致アルゴリズム及び近似一致アルゴリズムのうちの少なくとも1つの実行に先行する、請求項
8に記載の
コンピュータプログラム。
【請求項13】
前記システムの前記コンピュータに、
前記システムの異なるプロセッサを使用して、前記複数の試料群のそれぞれの試料群の試料リードを整列させることを更に
実行させる、請求項
8に記載の
コンピュータプログラム。
【請求項14】
前記システムの前記コンピュータに、
デノボゲノム配列決定のために、前記複数の試料群を使用することを更に
実行させる、請求項
8に記載の
コンピュータプログラム。
【請求項15】
ゲノム配列決定のために、複数の試料リードを処理するためのシステムであって、
複数のセルの群と、
回路であって、
前記複数の試料リードの各試料リードについて、
参照ゲノムの異なる部分を表す参照配列と比較するために、前記試料リードからのサブストリング配列を前記複数のセルの群に、一度に1つのサブストリング配列ずつ記憶することであって、前記複数のセルの群の各セルの群が、前記複数のセルの群のうちの少なくとも1つの他のセル群に記憶された別の参照配列と部分的に重複する参照配列を更に記憶する、記憶することと、
前記記憶された参照配列が前記セルの群に記憶された前記サブストリング配列と一致する前記複数のセルの群のうちの1つ以上のセルの群を特定することと、
前記1つ以上の特定されたセルの群に少なくとも部分的に基づいて、前記試料リードの前記参照ゲノム内の確率的位置を決定することと、を行うように構成されている、回路と、
前記それぞれの試料リードの前記決定された確率的位置に基づいて、前記複数の試料リードを複数の試料群に選別するように構成された少なくとも1つのプロセッサと、を含み、
複数のプロセッサを更に含み、前記複数のプロセッサのうちの異なるプロセッサが、前記複数の試料群のそれぞれの試料群の試料リードを、前記試料群の試料リードを前記試料群の他の試料リードと比較することによって整列させるように構成されている、システム。
【請求項16】
前記複数の試料群のそれぞれの試料群を記憶するように各々構成された複数のメモリを更に含む、請求項
15に記載のシステム。
【請求項17】
前記複数の試料群の各試料群が、ほぼ同じ数の試料リードを含む、請求項
15に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願の相互参照
本出願は、2020年3月17日に出願され、「DEVICES AND METHODS FOR LOCATING A SAMPLE READ IN A REFERENCE GENOME」と題する、同時係属中の米国出願第16/820,711号(弁理士ドケット番号WDA-4726-US)に関し、その内容全体が、参照により本明細書に組み込まれる。本出願はまた、2020年3月18日に出願された、「REFERENCE-GUIDED GENOME SEQUENCING」と題する、同時係属中の米国出願番号16/822,010号(弁理士ドケット番号WDA-4725-US)にも関し、その内容全体が、参照により本明細書に組み込まれる。
【0002】
現在のDNA(デオキシリボ核酸)試料の取り扱いにおける制限により、試料リード又は試料ゲノムの部分が、試料ゲノムにおいて概して未知の位置を有することになる。参照ゲノムを使用しないデノボ配列決定の場合、試料リード(sample reads)を互いに比較して、試料リードを試料ゲノム内で位置決定する際に、試料リードは、典型的には、単一の大規模な群として分析され、これには、大規模な群の試料リードを相互に比較して、試料ゲノム内の試料リードの位置を決定するために、大量のメモリリソース及び高い計算コストを必要とする。そのようなデノボ配列決定の従来の方法は、ゲノム配列決定のために処理される必要がある大量のデータに対して拡張可能ではない。より詳細には、デノボ配列決定の従来の方法は、通常、高価な2TB DRAMなどの共有メモリに、試料リードの大規模な群を記憶する。独立した高帯域幅チャネルを有する共有DRAMに接続することができる計算コアの数(例えば、最大24個のコア)が制限されるため、この配置は、デノボ配列決定に使用され得る独立した計算スレッドの数(例えば、最大128個の計算スレッド)を制限する。
【0003】
参照ゲノムを使用して試料ゲノム内の試料リードを位置決定する参照整列(referenced-aligned)配列決定の場合、典型的には、各試料リードについて、全参照ゲノムを検索して、参照ゲノム内で試料リードを位置決定する。そのような参照整列配列決定はまた、全参照ゲノムを記憶するための大量のメモリリソースと、各試料リードを全参照ゲノムと比較するための高い計算コストと、を必要とする。参照整列配列決定の従来の方法はまた、限定された拡張性を有する。より詳細には、参照整列配列決定の従来の方法は、試料リードを、対応する計算スレッドによって処理される群に、ランダムに分配することができる。しかしながら、各計算スレッドは、典型的には、参照ゲノム全体を記憶するために、16GB DRAMなどの大規模な専用メモリを必要とする。他の技術では、参照ゲノムは、単一の共有16GB DRAMに記憶され得るが、従来のデノボ配列決定について上述したように、この共有メモリの配置により、共有メモリにアクセスすることができるコア及び計算スレッドの数が制限される。したがって、計算コスト、メモリリソース、及び拡張性に関して、ゲノム配列決定を改善する必要がある。
【図面の簡単な説明】
【0004】
本開示の実施形態の特徴及び利点は、図面と併せて、以下に記載される詳細な説明からより明らかになるであろう。図面及び関連する説明は、本開示の実施形態を例示するために提供されるものであって、特許請求の範囲を限定するものではない。
【0005】
【
図1】1つ以上の実施形態による、ゲノム配列決定のためのシステムのブロック図である。
【0006】
【
図2】1つ以上の実施形態による、
図1のシステムの参照ガイドデバイスにおける複数のセルの群の例を示す。
【0007】
【
図3】1つ以上の実施形態による、デノボゲノム配列決定の例を示す。
【0008】
【
図4】1つ以上の実施形態による、デノボゲノム配列決定プロセスのフローチャートである。
【0009】
【
図5】1つ以上の実施形態による、参照整列ゲノム配列決定の例を示す。
【0010】
【
図6】1つ以上の実施形態による、参照整列ゲノム配列決定プロセスのフローチャートである。
【発明を実施するための形態】
【0011】
以下の詳細な説明において、本開示の完全な理解を提供するために、数多くの具体的な詳細が記載される。しかしながら、開示された様々な実施形態が、これらの具体的な詳細の一部を用いることなく実施され得ることは、当業者には明らかであろう。他の例では、様々な実施形態を不必要に不明瞭にすることを避けるために、周知の構造及び技術は詳細に示されていない。
システムの実施例
【0012】
図1は、1つ以上の実施形態による、ホスト101
1~101
Nを含むゲノム配列決定のためのシステム100、及び参照ガイドデバイス102のブロック図である。ホスト101は、参照ガイドデバイス102と通信して、参照ガイドデバイス102によって選別された試料リードを含む参照ガイドデバイス102から、それぞれの試料群11
1~11
Nを受信する。他の実装形態では、ホスト101は、代わりに、指示又はデータ構造(それぞれのホスト101による更なる処理のために、試料リードのプールからのどの試料リードを、共有メモリから取得するかを示す)を受信することができる。
【0013】
ホスト101が参照整列配列決定を実行する実装形態では、ホスト101もまた、任意選択的な参照区画12
1~12
Nを受信することができ、これは、試料リードについて決定された確率的位置に対応する、ヒト参照ゲノムH38などの参照ゲノムの一部分を含む。任意選択的な参照区画12
1~12
Nは、デバイス102から、又は別のデバイスから(例えば、全参照ゲノムを記憶する共有メモリから)受信され得る。
図5及び
図6を参照して、以下でより詳細に論じられるように、任意選択的な参照区画12
1~12
Nは、ホスト101によって使用され、試料群11の試料リードを関連付けられた参照区画12と比較することによって、それぞれの試料群11の試料リードを、重複セグメント又はコンティグに整列させることができる。
【0014】
ホスト101がデノボ配列決定を実行する実装形態では、ホスト101は、任意選択的な参照区画121~12Nを受信しない場合がある。かかるデノボ配列決定の実装形態では、ホスト101は、試料群11の試料リードを試料群の他の試料リードと比較することによって、それぞれの試料群11の試料リードを重複するセグメント又はコンティグに整列させる。
【0015】
説明を容易にするために、本開示の例示的な実施形態は、DNA配列決定の文脈で説明されるであろう。しかしながら、本開示の実施形態は、DNA配列決定に限定されず、一般に、RNA(リボ核酸)配列決定を含む任意の核酸ベースの配列決定に適用され得る。
【0016】
図1の例の試料リードは、最初に、1つ以上のホスト101又は
図1に示されていない別のデバイスによって参照ガイドデバイス102に提供されて、デバイス102の1つ以上のアレイ104に記憶された参照ゲノム内で試料リードの確率的位置を決定することができる。いくつかの実装形態では、Illuminaデバイス(Illumina,Inc.of San Diego,California)又はナノポアデバイスのような試料リードを生成するリードデバイスは、試料リードを、参照ガイドデバイス102に提供することができる。他の実装形態では、ホスト101又は別のデバイスのうちの1つ以上は、参照ゲノム内で試料リードの確率的位置を決定するために、試料リードからの試料サブストリングを、参照ガイドデバイス102に提供することができる。その部分に関して、デバイス102は、デバイス102の1つ以上のアレイ104に記憶された参照ゲノムと比較して、試料サブストリングに基づいて試料リードの確率的位置を示す、デバイス102のメモリ108に記憶されたインデックス10を、ホスト101に提供することができる。デバイス102の例及びデバイス102を使用して、参照ゲノム内で試料リードを確率的に位置決定する方法は、関連する同時係属中の出願第16/820,711号に提供されている(上記の参照により援用される)。
【0017】
ホスト101は、例えば、デスクトップ又はサーバ、スマート記憶デバイス、又は他の処理ノードなどのコンピュータを含むことができ、これは、プロセッサ109を使用してゲノム配列決定アルゴリズム(例えば、ゲノムの試料リードの完全一致のためのシード及び拡張アルゴリズム、及び/又は近似一致のためのBurrows-Wheelerアルゴリズム又はSmith-Watermanアルゴリズムなどのより計算的に複雑なアルゴリズム)を実装することができる。以下でより詳細に論じられるように、デバイス102は、デノボ又は参照整列配列決定の前に、試料リードを試料群11に前処理するために使用することができる。これに関して、参照ガイドデバイス102によって提供される確率的位置は、メモリリソース及び計算コストに関して、別途ホスト101のプロセッサ109によって実行されるであろうアルゴリズムを置き換えるか、又はその効率を改善することができる。加えて、
図3~
図6を参照して以下でより詳細に論じられるように、デバイス102によって提供される試料リードの確率的位置及び試料群11への試料リードの選別は、ゲノム配列決定の拡張性に対する改善を可能にし、それによって、デノボ又は参照整列ゲノム配列決定を実行するための費用及び時間を低減することができる。
【0018】
図1に示されるように、各ホスト101は、プロセッサ109と、試料群11を記憶し、任意選択的に、参照区画12を記憶するメモリ112と、を含む。プロセッサ109は、例えば、中央処理ユニット(Central Processing Unit、CPU)、マイクロプロセッサ(Microprocessor、MPU)、又はマイクロコントローラ(Microcontroller、MCU)を含むことができる。プロセッサ109はまた、システムオンチップ(System on a Chip、SoC)の一部でもあり得る。
【0019】
ホスト101のメモリ112は、例えば、DRAMなどの揮発性RAM、不揮発性RAM、ストレージクラスメモリ(Storage Class Memory、SCM)、又は他のソリッドステートメモリを含むことができる。メモリ112は、プロセッサ109によってアクセスされて、プロセッサ109によって使用されるデータを記憶及び取得することができる。これに関して、メモリ112に記憶されたデータは、プロセッサ109によって実行されるアプリケーションからロードされた命令、及び/又はそのようなアプリケーションを実行する際に使用されるデータを含むことができる。
【0020】
本明細書の説明は、一般に、ソリッドステートメモリを指しているが、ソリッドステートメモリは、様々なタイプのメモリデバイス、例えば、フラッシュ集積回路、カルコゲニドRAM(Chalcogenide RAM、C-RAM)、相変化メモリ(PC-RAM若しくはPRAM)、プログラマブルメタリゼーションセルRAM(PMC-RAM若しくはPMCm)、Ovonic統合メモリ(Ovonic Unified Memory、OUM)、抵抗変化型RAM(Resistive RAM、RRAM)、NANDメモリ(例えば、シングルレベルセル(Single-Level Cell、SLC)メモリ、マルチレベルセル(Multi-Level Cell、MLC)メモリ(すなわち、2つ以上のレベル)、又はそれらの任意の組み合わせ)、NORメモリ、EEPROM、強誘電体メモリ(Ferroelectric Memory、FeRAM)、磁気抵抗RAM(Magnetoresistive RAM、MRAM)、他の離散不揮発性メモリ(Non-Volatile Memory、NVM)チップ、又はそれらの任意の組み合わせ、のうちの1つ以上を含み得る。
【0021】
いくつかの実装形態における参照ガイドデバイス102は、例えば、参照ゲノムに対する試料リードから試料サブストリング配列の確率的位置を示すインデックス10を生成するための、1つ以上の特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)又はフィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)を含むことができる。試料サブストリング配列の確率的位置は、複数の試料リードを記憶するホスト101又は他のデバイスに、試料サブストリング配列が取得された試料リードの確率的位置を提供することができる。上述のように、いくつかの実装形態では、ホスト101又は別のデバイスのうちの1つ以上は、参照誘導デバイス102に、デバイス102の1つ以上のアレイ104にロードするための現在の試料サブストリング配列を提供することができる。他の実装形態では、ホスト101又は別のデバイスのうちの1つ以上は、参照ガイドデバイス102に、試料リードを提供することができ、参照ガイドデバイス102は、参照ゲノムと比較するために、1つ以上のアレイ104にロードされる試料リードからの試料サブストリング配列を決定することができる。
【0022】
ホスト101及びデバイス102は、物理的に同じ位置に配置されていても、いなくてもよい。例えば、いくつかの実装形態では、ホスト101及びデバイス102は、インターネットなどのローカルエリアネットワーク(Local Area Network、LAN)若しくはワイドエリアネットワーク(Wide Area Network、WAN)、又はデータバス若しくはファブリックを使用することなどによって、ネットワークを介して通信することができる。加えて、当業者は、システム100の他の実装形態が、試料リードの確率的位置を提供するための複数のデバイス102を含み得ることを理解するであろう。ある特定の実施形態では、ホスト101及び1つ以上のデバイス102のうちの1つ以上は、単一のデバイスとして統合される。
【0023】
図1の例に示されるように、デバイス102は、セルの1つ以上のアレイ104を含む。本明細書で使用される場合、セルは、一般に、本開示における1つ以上のヌクレオチド(塩基と称される)を表す1つ以上の値を記憶するためのメモリ位置を指す。いくつかの実装形態では、1つ又は複数のアレイ104は、セルに記憶された1つ又は複数の値に対して1つ以上の操作を実行するための論理も含むセルを含むことができる。このような例では、1つ以上のアレイの各セルに、参照ゲノムからの参照塩基を表す参照値と、試料サブストリング配列からの塩基を表す試料値と、を記憶することができる。セルは、1つ以上のアレイ104のセルの群が、セルの群に記憶されたサブストリング配列と一致する参照配列を記憶しているかどうかを決定するために、1つ以上の操作を実行して、回路106又は1つ以上のアレイ104の回路によって使用され得る値を出力することができる。いくつかの実装形態では、アレイ104は、1つ以上のシストリックアレイを含むことができ、そこで、参照ゲノムからの参照塩基を表す参照値がロードされ、アレイ104のセルの別の群の次のセルに試料値を渡す前に、参照値との比較のために、試料サブストリング配列からの塩基を表す試料値がセルにロードされ得る。
【0024】
他の実装形態では、1つ又は複数のアレイ104は、セルに記憶された値が一致するかどうかを決定するための操作を実行しない可能性があるソリッドステートメモリのセルを含むことができる。例えば、いくつかの実装形態では、回路106は、各セルに記憶された値が一致するかどうかを決定することができる。別の変形例として、1つ又は複数のアレイ104は、各々、参照塩基を表す参照値又は試料塩基を表す試料値のいずれかを記憶することができる。かかる実装形態では、参照値を記憶するセルは、参照塩基と試料塩基との比較のために、試料値を記憶するセルと対になり得る。更に他の実装形態では、アレイ104のセルは、レジスタ、ラッチ、又はフリップフロップなどの回路要素を含むことができる。
【0025】
デバイス102の回路106は、例えば、ハードワイヤード論理、アナログ回路、及び/又はそれらの組み合わせを含むことができる。他の実装形態では、回路106は、1つ以上のASIC、マイクロコントローラ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、FPGA、及び/又はそれらの組み合わせを含むことができる。いくつかの実装形態では、回路106は、1つ以上のSoCを含むことができ、これは、メモリ108と組み合わせることができる。以下でより詳細に論じられ、関連する出願第16/820,711で論じられているように、回路106は、記憶された参照配列が、セルの群に記憶された現在のサブストリング配列と一致する1つ又は複数のアレイ104のセルの群を特定するように構成され得る。
【0026】
より詳細には、1つ又は複数のアレイ104の各セルの群について、参照ゲノムから参照塩基の参照配列を、セルの群に記憶することができる。参照配列は、セルのそれぞれの群におけるセルの順序に対応する。各セルの群は、参照ゲノムの一部分を表す参照配列(1つ以上の他のセル群に記憶された1つ以上の他の参照配列によって表される参照ゲノムの少なくとも1つの他の部分と部分的に重複する)を記憶するように構成されている。アレイにおけるそのような重複する参照配列のストレージの例は、
図2を参照して、以下でより詳細に論じられる。
【0027】
加えて、1つ又は複数のアレイ104の各セルの群は、セルのそれぞれの群の順序に対応する同じ現在のサブストリング配列を記憶するように構成され得る。上述のように、回路106は、記憶された現在のサブストリング配列が、セルの群に記憶された参照配列と一致する、1つ又は複数のアレイ104の複数のセルの群の中からセルの群を特定するように構成されている。一致する配列を有するセルの群の識別は、いくつかの実装形態では、1つ以上のXNOR操作及びAND操作などの少なくとも1つの論理操作を実行した後、セルから出力された値に基づいて、回路106によって行われ得る。XNOR及びANDは例として言及されているが、当業者は、同じ結果が、異なる論理の組み合わせを介して他の実施形態において達成され得ることを認識するであろう。他の実装形態では、一致する配列を有するセルの群の識別は、参照塩基を表す参照値と、試料塩基を表す試料値とを乗算した後、セルから出力された値に基づいて、回路106によって行われ得る。加えて、いくつかの実装形態における回路106は、セル自体によって実行されるいくつかの操作の代わりに、セルに記憶された値に対して、すべての操作を実行することができる。
【0028】
デバイス102のメモリ108は、例えば、インデックス10を記憶するためのDRAMなどの揮発性メモリを含むことができる。他の実装形態では、メモリ108は、MRAMなどの不揮発性メモリを含むことができる。
図1に示されるように、メモリ108は、インデックス10を記憶し、これは、1つ又は複数のアレイ104にロード又は記憶された重複する参照配列によって表される参照ゲノム内で試料リードの確率的位置を決定するために使用され得る。いくつかの実装形態では、インデックス10は、一致する配列を記憶するものとして識別されたセルの群に対応する参照ゲノムのインデックス若しくは位置を示す、ビットマップ又は他のデータ構造などのデータ構造を含むことができる。回路106は、アレイ104の各セルの群にロードされる異なる試料サブストリング配列のインデックス10を更新することができる。いくつかの実装形態では、回路106は、セルの複数の一致する群を有するサブストリング配列のインデックス10の平均位置を示し得る。他の実装形態では、特定のサブストリング配列のセルの第1の一致するセルの群又は特定の一致するセルの群のみが使用されてもよく、又は回路106は、一致する配列を記憶する1つよりも多いセルの群を有するサブストリング配列のインデックス10を全く更新しなくてもよい。
【0029】
加えて、いくつかの実装形態は、一致する配列を有するセルの群の位置を示すために、インデックス又は他のデータ構造を使用しない場合がある。例えば、いくつかの実装形態では、回路106は、一致する配列を有するセルの群を示すデータをホスト101に直接出力するか、又は特定の試料群11に選別された試料リードを直接出力することができる。これに関して、システム100内のデバイス102又は別のデバイスは、ホスト101のための、試料リードの群11への選別を実行することができる。
【0030】
本開示を参照して当業者によって理解されるように、他の実装形態は、
図1の例のシステム100に示されているものとは異なる数又は配置の構成要素を含み得る。例えば、他の実装形態は、デバイス102は、試料リードを試料群11に選別するように構成されたハードウェアアクセラレータ(例えば、グラフィックスプロセッシングユニット(Graphics Processing Unit、GPU))などの別のデバイスと組み合わせてもよく、又は異なる数のデバイス102を含むか、若しくは試料リードを試料群11に選別するための専用デバイスを含んでもよい。上述のように、システム100の他の実装形態は、試料リードが試料群11に分類される前に、複数の試料リード又は複数の試料リードの部分を一時的に記憶するための共有メモリを含むことができる。更に他の実装形態では、デバイス102は、DNA試料内の塩基を検出するIllumina又はナノポアデバイスなどのリードデバイスによって試料リードが生成されると、試料リードを受信することができる。
【0031】
図2は、1つ以上の実施形態による、参照ガイドデバイス102の複数のセルの群の例を示す。
図2の例に示されるように、アレイ104は、セルの群110
1~110
L-19を含む。
図2では、セルの群110
1~110
L-19がカラムとして示されているが、他の実装形態は、カラムとして物理的に配置されていないセルの群を含んでもよい。いくつかの実装形態では、アレイ104は、あるセルの群からの欠陥セルを、同じアレイの異なる部分又は異なるアレイの予備セルのプールに位置する別のセルで、置き換えることができる。実装形態では、各セルの群が、以前のセルの群から1つの参照塩基だけシフトした重複する参照配列を記憶し、Lは、全参照ヒトゲノムH38の場合のように、32億個のセルの群又はカラムなどの参照ゲノムの全長と等しくなり得る。他の実装形態は、代わりに、異なる数の参照塩基だけ(例えば、2つの参照塩基だけ)シフトした重複する参照配列を記憶し、そのため、必要なセル又はカラムの群がより少なく、アレイ104のサイズがより小さくなる。しかしながら、重複を2つ以上の参照塩基分シフトさせることは、サブストリング配列と一致するものが見つかる可能性が低くなるという犠牲を払う可能性がある。
【0032】
図2の例に示されるように、セル110の各群は、参照塩基を表す参照値(例えば、R1、R2、R3など)、及び試料塩基を表す試料値(S1、S2、S3など)を記憶する。例えば、DNA配列決定の場合、4つの可能な塩基-アデニン(A)、グアニン(G)、シトシン(C)、及びチミン(T)が存在するため、各参照値及び各試料値は、2ビットで表すことができる。セル110の各群は、試料値S1~S20の同じ試料配列を記憶しているが、セル110の各群は、隣接するセルの群に記憶された参照配列から1つの参照塩基だけシフトした異なる部分的に重複する参照配列を記憶する。例えば、セルの群110
1は、参照値R1~R20を有する第1の参照配列を記憶し、セルの群110
2は、参照値R2~R21を有する第2の参照配列を記憶する。他の実施形態では、オフセット分シフトした(shifted-by offsets)得られた重複は、
図2の例に示されたものよりも、セル群にわたって異なる可能性がある。
【0033】
部分的に重複する参照配列及びアレイ104のサブストリング配列を記憶する配置は、通常、参照ゲノム内で試料リードの確率的位置の効率的な位置決定を可能にする。加えて、参照配列は、アレイ104に、一度だけ、ロード又は記憶される必要がある。次いで、試料リードからの異なるサブストリング配列のロード又は記憶の繰り返しにより、参照ゲノム内で試料リードの確率的位置が提供され得、
図3~
図6の例示的なプロセスを参照して以下に論じられるように、ホスト101によって、より効率的なデノボ又は参照整列配列決定のために、試料リードをリードの群に知的に選別するために使用され得る。これに関して、異なる実装形態は、ROM又はNANDフラッシュセルなどの第1のセルのタイプを使用して、参照配列を記憶し、MRAMセルなどのより良好な書き込み耐久性で繰り返し上書きするのにより好適な第2のセルのタイプを使用して、サブストリング配列を記憶することができる。
【0034】
試料値S1~S20を含む
図2の例では、長さが20のサブストリング配列が使用される。関連する同時係属中の出願第16/820,711号でより詳細に論じられるように、セル又はカラムの群内のセルの数に対応するサブストリング配列の長さは、一致する配列を記憶するセル又はカラムの群を特定するために必要なセル及び操作の数に対する参照ゲノム内のサブストリング配列の所望の一意性に基づいて選択され得る。
例示的なプロセス
【0035】
図3は、1つ以上の実施形態による、デノボ配列決定の例を示す。
図3に示されるように、複数の試料リード13は、参照ガイドデバイス102を使用して参照ゲノム14と比較されて、前処理114で、複数のリードがより小さい試料群11
1~11
Nに選別される。各試料群11は、複数の試料リード13からの試料リードを含み、これは、参照ゲノム14内の試料リードの確率的位置に基づいて、H38などの参照ゲノム14の一部分に対応する。次いで、各群の試料リードを同じ試料群11の他の試料リードと整列させて、試料群11
1~11
Nに対応するコンティグ1~N又は重複するDNAセグメントを形成することができる。試料リードの整列は、デノボ配列決定を実行するための当該技術分野で既知のシード及び拡張アルゴリズムなどの1つ以上のアルゴリズムを使用して、試料リードを、同じ試料群11の他の試料リードと比較することによって実行することができる。次いで、各コンティグをアセンブリして、対応するアセンブリ1~Nを形成し、次いで、染色体にマッピングして、ゲノムの配列決定を完了することができる。
【0036】
前処理114の外側に示されているデノボ配列決定の部分は、ホスト101によって独立して実行され得、これにより、すべての試料リードが単一の共有メモリに記憶され得る従来のデノボ配列決定と比較して、デノボ配列決定の拡張性及び効率が改善される。
図3の例では、試料群11への複数の試料リード13の選別は、試料リードを、DRAMなどのNメモリの数に記憶することを可能にし、これは、従来のデノボ配列決定のように、すべての試料リードを記憶するために単一のメモリを使用するよりも小さい。上述のように、独立した高帯域幅チャネルを有する2TB DRAMなどのより大きな共有メモリに接続することができる計算コアの数は制限されており(例えば、最大24個のコア)、試料リードを配列決定されたゲノムにアセンブリ及びマッピングするために使用され得る独立した計算スレッドの数(例えば、最大128個の計算スレッド)が制限される。
【0037】
一方、
図3に示される配置は、それぞれの試料群を記憶するより小さい各メモリが、最大数の独立した高帯域幅チャネルによってアクセスされ得るように、拡張性を改善することができるため、複数の試料リードが単一の共有メモリに記憶されている従来の配置と比較して、処理コア及び独立した計算スレッドの総数が増加する。加えて、試料リードをアセンブリ及びマッピングする効率は、試料リードを確率的に位置決定することによって増加する。試料リードはまた、試料群間でほぼ均等に分割されて(例えば、互いに10%以内)、ホスト101間で作業負荷を分配し、並列化を改善することができる。
【0038】
例えば、複数のリード13が、X=200,000個のロングリード(例えば、1試料リード当たり5,000塩基が得られるナノポアデバイスからのリード)を含む場合、各試料群11は、N=1,000個の試料群11を有する200個の試料リードを含み得る。次いで、試料群11の各共有メモリに試料リードを記憶するために必要なサイズは、N分の1に減少し、単一の大規模なメモリと比較して、1,000個のより小さいメモリに対する全体的なコストが低減される。次いで、各試料群11は、Y=24処理コアによってアクセスされ得る。得られた並列化により、試料リードをアセンブリするために使用することができるコアの全体的な数を、単一の共有メモリの従来の例での24コアから、それぞれの試料群11を記憶する1,000個のメモリの例での24,000コアに増やすことができる。
【0039】
図4は、1つ以上の実施形態による、デノボゲノム配列決定プロセスのフローチャートである。
図4のプロセスは、例えば、参照ガイドデバイス102及びホスト101を含むシステム100によって実行することができる。
【0040】
ブロック402では、複数の試料リード(例えば、
図3の複数の試料リード13)の各試料リードについて、試料リードからのサブストリング配列は、参照ゲノム(例えば、
図3の参照ゲノム14)の異なる部分を表す参照配列と比較される。いくつかの実装形態では、比較は、複数のセルの群(例えば、
図1のアレイ104)における各セルの群の比較値を決定することを含み得、セルの群に記憶されたサブストリング配列とセルの群に記憶された参照配列との比較の結果を表す。
【0041】
サブストリング配列は、試料リードからの連続した塩基の配列を含む。サブストリング配列は、1つ以上のホスト101又はデバイス102によってランダムに選択され得る。他の実装形態では、サブストリング配列は、サンプリング配列が、試料リード全体に広がるように選択され得る。関連する同時係属中の出願第16/820,711号に記載されているように、17~25塩基長を有するサブストリング配列は、H38などの参照ゲノム内のサブストリング配列を位置決定するために、ほとんどのサブストリング配列に対して十分な数の固有の一致を提供することができる(すなわち、参照ゲノム内の1つの位置でのみ一致する)。17塩基よりも短いサブストリング長は、参照ゲノム内で試料リードの確率的位置を決定するために、試料リードから、より多数のサブストリング配列を必要とする。参照ゲノムH38の場合、15塩基よりも短いサブストリング長は、試みられたほぼすべてのサブストリング配列について、参照ゲノム内で、いずれの固有の一致も特定することができない可能性がある。
【0042】
他方、25塩基を超えるサブストリング長は、デバイス102内のアレイ104のセルに関して、追加のストレージコスト、及び一致する配列を見つけるために必要な操作の増加に起因して、より大きな計算コストが生じ、固有の一致の数がほとんど改善されない。結果として、上記の
図2の例は、20塩基のサブストリング長を使用し、これは、
図2のセル110の各群が所定の数の20個のセルを含むことを意味する。本開示を参照して当業者は、デバイス102の細胞の各セルの群における異なるサブストリング長又は異なる所定の数の細胞が、異なる参照ゲノム若しくは参照ゲノムの一部分を使用する場合、また参照ゲノムの特定の部分に関連する状態について医学的診断又は遺伝的スクリーニングをする場合など、他の実施例について好ましい可能性があることを理解するであろう。加えて、より多くの固有の一致に関して、計算コスト、セルの数、及び精度の間の異なるトレードオフもまた、アレイ104の各セルの群に使用されるセルの数に影響を及ぼす可能性がある。
【0043】
ブロック404において、試料リードからの1つ以上の比較されたサブストリング配列と一致する各試料リードについて、1つ以上の参照配列が特定される。一致する参照配列を特定する際に、デバイス102のアレイ104のセルの群110は、
図2のアレイ104の例で上で論じたように、参照ゲノムの一部分を表す参照配列を記憶しているものとして特定され得る。いくつかの実装形態では、識別は、例えば、アレイ104及び/又はデバイス102の回路106のセルのXNOR及びANDのゲートの組み合わせなどによって、論理ゲートを使用してデバイス102によって行われ得る。他の実装形態では、一致する参照配列又は一致する参照配列を記憶するセルの群の識別は、値の内積若しくはドット積を使用することなどによって、塩基の記憶された参照値及び試料値を使用して計算を実行することによって行われ得る。アレイ104にロード又は記憶されたサブストリング配列と一致する参照配列を特定する例は、関連する同時係属中の出願第16/820,711号に提供されている。
【0044】
ブロック406では、システム100は、各試料リードについて、1つ以上の比較されたサブストリング配列と一致する1つ以上の特定された参照配列に基づいて、参照ゲノム内で試料リードの確率的位置を決定する。これに関して、デバイス102のアレイ104の第1の一致するセルの群は、各サブストリング配列の位置として使用してもよく、又は代替的に、いくつかのサブストリング配列が複数の一致するセルの群をもたらすものと仮定して、複数の一致するセルの群を、サブストリング配列の可能な位置として使用してもよい。場合によっては、リードデバイスによって引き起こされたリードエラー又は試料リードの変異など、サブストリング配列のエラーに起因して、サブストリング配列に対して一致する位置が存在しない場合がある。回路106又はホスト101によってブロック406で決定された試料リードの位置は、試料リードからの異なるサブストリング配列について複数の可能な位置を特定することができ、一致する位置から導出されたコンセンサス又は統計を使用して、参照ゲノム内で試料リードを確率的に位置決定することができるという意味で確率的であり得る。
【0045】
一例として、すべてのサブストリング配列について、すべての一致するセルの群のすべての位置の平均を使用して、参照ゲノム内で試料リードの最も可能性の高い位置を特定する。別の例として、一致するセルの群を有する各サブストリング配列について、1つの位置のみが、平均に使用される。更に別の例として、読み取られた試料の確率的位置は、サブストリング配列について一致するセルの群に対応する参照ゲノム内の最も離れた位置を特定することによって決定することができる。他の例として、一致する位置の群に関する1つ以上の外れ値の位置は、参照ゲノム内で試料リードの確率的位置を決定する際に破棄され得る。
【0046】
ブロック408では、デバイス102又は1つ以上のホスト101は、それぞれの試料リードの決定された確率的位置に基づいて、複数の試料リードを、複数の試料群に選別する。各試料群は、ホスト101間で試料リードをアセンブリ及びマッピングする作業負荷をより均等に分散するために、ほぼ同じ数(例えば、互いに10%以内)の試料リードを含み得る。いくつかの実装形態では、インデックス10又はデータ構造の一部は、デバイス102によってホスト101に提供され得、ホスト101によって試料群11として処理される試料リードの群を示す。かかる実装形態では、各ホスト101は、割り当てられた試料群11に対応する試料リードを、共有メモリから取得することができる。他の実装形態では、デバイス102は、ホストに割り当てられた試料群11内に確率的に位置していた試料リードを、各ホスト101に提供することができる。更に他の実装形態では、割り当てられた試料群の試料リードは、別のホスト101から取得され得る。
【0047】
ブロック410では、各試料群11は、異なるメモリに記憶される。いくつかの実装形態では、各ホスト101は、その割り当てられた試料群11を記憶するためのメモリ112など、それ自体のメモリを含み得る。上述のように、ホスト101間で分散された多数のメモリを使用することは、通常、2TB DRAMなどの単一の大規模なメモリに、すべての複数の試料リードを記憶するよりも安価である。更に、各メモリは、ホスト101のプロセッサ109によってローカルにアクセスされ得、より多数の計算スレッドが、システム100全体にわたって、同時に平行して操作されるようになる。これにより、試料リードのより速い配列決定又はアセンブリを提供され得る。
【0048】
ブロック412では、試料群の試料リードを、試料群の他の試料リードと比較することによって、各試料群の試料リードを整列させる。ブロック412における比較は、従来のデノボ配列決定のように、1つの大きな複数の試料リードからの試料リードをランダムに比較するよりも迅速に完了することができる。これは、位置決定される各試料群の試料リードがより少なく、上述のブロック402~408で実行される前処理に起因して、試料リードが重複する可能性がより高いためである。
【0049】
本開示を参照して当業者に理解されるように、
図4に示されるブロックの順序は、他の実装形態では異なり得る。例えば、ブロック402~406は、ブロック408の複数の試料リードの選別に進む前に、試料リードの反復のために、順に繰り返すことができる。
【0050】
参照整列配列決定とは対照的に、
図4のゲノム配列決定が、デノボであるにもかかわらず、
図4のプロセスは、参照誘導ゲノム配列決定の新規技術を使用して、試料リードを、確率的に位置決定された試料リードの群に前処理又は選別して、デノボ配列決定の効率、コスト、及び拡張性を改善する。参照整列配列決定について以下に論じられる例示的なプロセスはまた、参照整列配列決定の効率、コスト、及び拡張性を改善するために、複数の試料リードを、確率的に位置決定された試料リード群に前処理又は選別する。加えて、以下の
図5及び
図6を参照して論じられる参照整列配列決定の例は、参照整列配列決定のために参照ゲノムを分配することを更に提供する。
【0051】
図5は、1つ以上の実施形態による、参照整列ゲノム配列決定の例を示す。
図5に示されるように、上述の
図3のデノボ配列決定の例と同様に、複数の試料リード13は、参照ガイドデバイス102を使用して参照ゲノム14と比較されて、前処理116で、複数の試料リードがより小さい試料群11
1~11
Nに選別される。しかしながら、
図3のデノボ配列決定の例とは異なり、
図5の参照整列配列決定は、参照ゲノム14を参照区画12
1~12
Nに分配することを更に含み、これは、前処理116で、それぞれの試料群11
1~11
Nについて決定された確率的位置に関連付けられている。いくつかの実装形態では、各参照区画12は、関連付けられた試料群11と同じメモリ(例えば、
図1のメモリ112)に記憶され得る。他の実装形態では、試料群11及び関連付けられた参照区画12は、異なるメモリに記憶され得る。
【0052】
参照区画12
1~12
Nの各々を
図5の異なるメモリに記憶することによって、参照ゲノムのどの部分がランダムに群化された試料リードを含んでいたかを知ることなく、ランダムに群化された試料リードについて、各ホスト101における参照ゲノム14全体を記憶するために必要とされるメモリがより少ない。参照ゲノム14のより小さな参照区画12への分配は、前処理116が試料リード13を確率的に位置決定された試料群11
1~11
Nに選別することによって可能になり、それによって、参照ゲノムの部分を特定の試料群11に関連付ける。
【0053】
いくつかの実装形態では、参照ゲノムの部分は、参照ゲノムのその部分内に確率的位置を有する試料リードがない場合、参照区画121~12Nのいずれにおいても破棄されるか、又は使用されない可能性がある。そのような場合は、例えば、参照ゲノムの特定の部分にのみ関連し得る医学的診断又は遺伝的スクリーニングに起因し得る。そのような場合、処理リソース、メモリリソース、及び時間に関して、参照整列配列決定の効率は、全参照ゲノムを記憶して比較する必要がないため、更に改善される。
【0054】
図5の例では、各試料群11は、参照ゲノム14内の試料リードの確率的位置に基づいて、H38などの参照ゲノム14の参照区画12に対応する、複数の試料リード13からのほぼ同じ数(例えば、互いに10%以内)の試料リードを含む。次いで、各試料群11の試料リードを同じ試料群11の他の試料リードと整列させて、試料群11
1~11
Nに対応するコンティグ1~N又は重複するDNAセグメントを形成する。試料リードの整列は、参照整列配列決定を実施するための当該技術分野で既知のシード及び拡張アルゴリズムなどの1つ以上のアルゴリズムを使用して、試料群11の試料リードを、位置決定された参照区画12と比較することによって実行することができる。次いで、各コンティグをアセンブリして、対応するアセンブリ1~Nを形成し、次いで、染色体にマッピングして、試料ゲノムの配列決定を完了することができる。
【0055】
加えて、参照整列配列決定のための参照ゲノムの部分を記憶するために複数のメモリを使用することで、参照ゲノム全体が16GB DRAMなどの単一の共有メモリに記憶され得る従来の参照整列配列決定と比較して、参照整列配列決定の拡張性及び効率が改善する。上述のように、独立した高帯域幅チャネルを有するそのような共有メモリに接続することができる計算コアの数は制限されており(例えば、最大24コア)、試料リードを配列決定されたゲノムにアセンブリ及びマッピングするために使用され得る独立した計算スレッドの数(例えば、最大128個の計算スレッド)が制限される。
【0056】
一方、
図5に示される配置は、それぞれの参照区画12を記憶するより小さい各メモリが、最大数の独立した高帯域幅チャネルによってアクセスされ得るように、拡張性を改善することができるため、参照ゲノム全体が単一の共有メモリに記憶され得る従来の配置と比較して、処理コア及び独立した計算スレッドの総数が増加する。加えて、試料リードをアセンブリ及びマッピングする効率は、試料リードを確率的に位置決定することによって増加する。
【0057】
図6は、1つ以上の実施形態による、参照整列ゲノム配列決定プロセスのフローチャートである。
図4のプロセスは、例えば、参照ガイドデバイス102及びホスト101を含むシステム100によって実行することができる。
【0058】
ブロック602では、複数の試料リード(例えば、
図3の複数の試料リード13)の各試料リードについて、試料リードからのサブストリング配列は、参照ゲノム(例えば、
図5の参照ゲノム14)の異なる部分を表す参照配列と比較される。サブストリング配列は、試料リードからの連続した塩基の配列を含む。サブストリング配列は、1つ以上のホスト101又はデバイス102によってランダムに選択され得る。他の実装形態では、サブストリング配列は、サンプリング配列が、試料リード全体に広がるように選択され得る。関連する同時係属中の出願第16/820,711号に記載されているように、また上述のように、17~25塩基長を有するサブストリング配列は、H38などの参照ゲノム内のサブストリング配列を位置決定するために、ほとんどのサブストリング配列に対して十分な数の固有の一致を提供することができる(すなわち、参照ゲノム内の1つの位置でのみ一致する)。
【0059】
本開示を参照して当業者は、デバイス102の細胞の各セルの群における異なるサブストリング長又は異なる所定の数の細胞が、異なる参照ゲノム若しくは参照ゲノムの一部分を使用する場合、また参照ゲノムの特定の部分に関連する遺伝的状態について医学的な診断又はスクリーニングをする場合など、他の実施例について好ましい可能性があることを理解するであろう。加えて、より多くの固有の一致に関して、計算コスト、デバイス102のアレイ104のセルの数、及び精度の間の異なるトレードオフもまた、アレイ104の各セルの群に使用されるセルの数に影響を及ぼす可能性がある。
【0060】
ブロック604では、各試料リードについて、試料リードから取得された比較されたサブストリング配列のうちの1つ以上と一致する1つ以上の参照配列が特定される。一致する参照配列を特定する際に、デバイス102のアレイ104のセルの群110は、
図2のアレイ104の例で上で論じたように、参照ゲノムの一部分を表す参照配列を記憶しているものとして特定され得る。いくつかの実装形態では、識別は、例えば、アレイ104及び/又はデバイス102の回路106のセルのXNOR及びANDのゲートの組み合わせなどによって、論理ゲートを使用してデバイス102によって行われ得る。他の実装形態では、一致する参照配列又は一致する参照配列を記憶するセルの群の識別は、値の内積若しくはドット積を使用することなどによって、塩基の記憶された参照値及び試料値を使用して計算を実行することによって行われ得る。
【0061】
ブロック606では、システム100は、1つ以上の比較されたサブストリング配列と一致する1つ以上の参照配列に基づいて、参照ゲノム内の各試料リードの確率的位置を決定する。デバイス102のアレイ104の第1の一致するセルの群は、各サブストリング配列の位置として使用してもよく、又は代替的に、いくつかのサブストリング配列が複数の一致するセルの群をもたらすものと仮定して、複数の一致するセルの群を、サブストリング配列の可能な位置として使用してもよい。場合によっては、サブストリング配列は、いずれの一致する参照配列も有しない可能性がある。デバイス102の回路106又はホスト101によってブロック606で決定された試料リードの位置は、試料リードからの異なるサブストリング配列について複数の可能な位置を特定することができ、一致する位置から導出されたコンセンサス又は統計を使用して、参照ゲノム内で試料リードを確率的に位置決定することができるという意味で確率的であり得る。
【0062】
一例として、すべてのサブストリング配列について、すべての一致するセルの群のすべての位置の平均を使用して、参照ゲノム内で試料リードの最も可能性の高い位置を特定する。別の例として、一致するセルの群を有する各サブストリング配列について、1つの位置のみが、平均に使用される。更に別の例として、読み取られた試料の確率的位置は、サブストリング配列について一致するセルの群に対応する参照ゲノム内の最も離れた位置を特定することによって決定することができる。他の例として、一致する位置の群に関する1つ以上の外れ値の位置は、参照ゲノム内で試料リードの確率的位置を決定する際に破棄され得る。
【0063】
ブロック608では、デバイス102又は1つ以上のホスト101は、それぞれの試料リードについてブロック606で決定された確率的位置に基づいて、参照整列配列決定のための参照ゲノムを分配する。参照ゲノムの区画は、試料リードについて決定された位置の分布に基づいて、サイズが変化し得る。例えば、区画のサイズは、区画内に位置する試料リードの数に基づくことができ、そのため、各区画は、例えば、他の参照区画又は試料群として試料リードの数の10%以内を有する各参照区画又は試料群によって、ほぼ等しい数の試料リードを有する試料群に関連付けられるようになる。他の実装形態では、参照ゲノムの区画は均等に分配され得、試料群間の試料リードの数のより大きな変動が許容され得る。
【0064】
これに関して、参照ゲノムのその部分内に確率的位置を有する試料リードがない場合、参照ゲノムのいくつかの部分は、廃棄されるか、又は試料群に割り当てられない場合がある。そのような場合は、例えば、参照ゲノムの特定の部分にのみ関連し得る医学的診断又はスクリーニングに起因し得る。そのような場合、処理リソース、メモリリソース、及び時間に関して、参照整列配列決定の効率は、全参照ゲノムを記憶して比較する必要がないため、更に改善される。
【0065】
ブロック610では、参照ゲノムの異なる区画は、ホスト101のメモリ112などの異なるメモリに記憶される。各ホスト101は、参照ゲノムを記憶するシステム100の共有メモリなどの、デバイス102から、又は別のデバイスから、参照ゲノムの一部分を受信することができる。
図5を参照して上で論じたように、参照ゲノムの位置決定された区画を異なるメモリに記憶すると、試料リードがランダムに群化された場合のように、参照ゲノム全体を複数のより大規模なメモリに記憶しなくても、より多数の処理コアによる並列処理が可能になる。
【0066】
ブロック612では、デバイス102又は1つ以上のホスト101は、それぞれの試料リードの決定された確率的位置に基づいて、複数の試料リードを、複数の試料群に選別する。試料リードは、各試料群がほぼ同じ数の試料リードを含むように選別され得る(例えば、最も試料リードを有する試料群の10%の範囲内)。いくつかの実装形態では、インデックス10又はデータ構造の一部は、デバイス102によってホスト101に提供され得、ホスト101によって試料群11として処理される試料リードの群を示す。かかる実装形態では、各ホスト101は、割り当てられた試料群11に対応する試料リードを、共有メモリから取得することができる。他の実装形態では、デバイス102は、ホスト101に割り当てられた試料群11内に確率的に位置していた試料リードを、各ホスト101に提供することができる。更に他の実装形態では、割り当てられた試料群の試料リードは、別のホスト101から取得され得る。
【0067】
ブロック614では、参照ゲノムの異なる区画は、試料群の試料リードの確率的位置に基づいて、それぞれの試料群に関連付けられる。上述のように、参照ゲノムの区画は、試料群内の試料リードについて決定された確率的位置の分布に基づいて、サイズが変化し得る。これに関して、区画のサイズは、各区画がほぼ等しい数の試料リードに関連付けられるように、区画内に位置する試料リードの数に基づくことができる。他の実装形態では、参照ゲノムの区画は、試料群内の試料リードの分布を考慮することなく、均等に分配され得る。
【0068】
ブロック616では、各試料群11は、異なるメモリに記憶され、これは、ブロック610の参照ゲノムの関連付けられた区画を記憶するために使用されるメモリと同じか又は異なり得る。いくつかの実装形態では、各ホスト101は、それぞれの関連付けられた試料群11及び参照ゲノム区画12を記憶する
図1のメモリ112と同様に、それ自体のメモリを含み得る。上述のように、ホスト101間で分散された多数のメモリを使用することは、通常、2TB DRAMなどの単一の大規模なメモリに、すべての複数の試料リードを記憶するよりも安価である。更に、各メモリは、ホスト101のプロセッサ109によってアクセスされ得、より多数の計算スレッドが、同時に並行して操作されるようになる。これにより、試料リードのより速い配列決定又はアセンブリを提供され得る。
【0069】
ブロック618では、試料群の試料リードを、試料群の参照ゲノムの関連付けられた区画と比較することによって、各試料群の試料リードを整列させる。ブロック618における比較は、参照ゲノムの区画のサイズがより小さいため、試料群の試料リードを位置決定するために必要な比較が少ないことから、参照整列配列決定の従来の技術のように、試料リードを全参照ゲノムと比較するよりも迅速に完了することができる。加えて、より多くのメモリにおける参照ゲノムのより小さい区画のストレージは、より大きな拡張性を促進し、より多くの計算スレッドが、異なるメモリに記憶された参照ゲノムの区画にアクセスすることが可能になる。
【0070】
本開示を参照して当業者に理解されるように、
図6に示されるブロックの順序は、他の実装形態では異なり得る。例えば、ブロック608における参照ゲノムの分配は、ブロック612で複数の試料リードを複数の試料群に選別した後に起こり得る。別の例として、各試料群は、ブロック616の異なるメモリに記憶された後、参照ゲノムの異なる区画が、ブロック610の異なるメモリに記憶され得る。更に別の例として、ブロック602~606は、ブロック408における参照ゲノムの分配に進む前に、試料リードの反復のために、順に繰り返すことができる。
【0071】
上述のように、前述の参照ガイドデバイス及び方法は、通常、試料リードを参照ゲノム内に確率的に位置決定することを可能にする。これにより、更なる配列決定のために参照ゲノムのそれらの位置に基づいて、試料リードを群に前処理することによって、デノボ及び参照整列配列決定の効率を改善することができる。これにより、デノボ配列決定の場合、より小さい数の計算スレッドがすべての試料リードにアクセスするためにより大きくより高価なメモリを使用する従来の方法と比較して、より小さいメモリで、より多くの計算スレッドを、試料リードの複数の位置決定された群にアクセスさせることで、デノボ配列決定の拡張性及び効率を改善することができる。参照整列配列決定の場合、試料リードの位置決定された群は、より小さく統計的により関連する参照ゲノムの部分を、位置決定された群ごとにより小さくより安価なメモリに記憶することを可能にし、また一方で、より多くの計算スレッドを、複数の小さいメモリにアクセスさせることも可能にして、(全参照ゲノムを各々記憶する1つ又は大幅に少ない共有メモリを使用し得る従来の参照整列配列決定と比較して)拡張性を改善する。
他の実施形態
【0072】
当業者は、本明細書に開示される実施例に関連して、説明される様々な例示的な論理ブロック、モジュール、及びプロセスが、電子ハードウェア、ソフトウェア、又は両方の組み合わせとして実装され得ることを理解するであろう。更に、前述のプロセスは、プロセッサ、コントローラ、又は他の回路に、特定の機能を実施又は実行させるコンピュータ可読媒体上で具現化することができる。
【0073】
ハードウェア及びソフトウェアのこの互換性を明確に説明するために、様々な例示的な構成要素、ブロック、及びモジュールが、概して、それらの機能性に関して上に記載された。そのような機能性がハードウェア又はソフトウェアとして実装されるかどうかは、システム全体に課せられる特定のアプリケーション及び設計の制約に依存する。当業者は、特定の用途ごとに様々な方法で記載された機能を実装することができるが、そのような実装形態の決定は、本開示の範囲からの逸脱を引き起こすものと解釈されるべきではない。
【0074】
本明細書に開示される実施例に関連して説明される様々な例示的な論理ブロック、ユニット、モジュール、及び回路は、本明細書に記載の機能を実施するように設計された汎用プロセッサ、GPU、DSP、ASIC、FPGA、若しくは他のプログラマブル論理デバイス、離散ゲート若しくはトランジスタ論理、個別のハードウェアコンポーネント、又はそれらの任意の組み合わせで実装又は実施され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンであり得る。プロセッサ又はコントローラ回路はまた、計算デバイスの組み合わせ(例えば、DSPとマイクロプロセッサとの組み合わせ)、複数のマイクロプロセッサ、SoC、DSPコアと併せた1つ以上のマイクロプロセッサ、又は任意の他のそのような構成)として実装され得る。
【0075】
本明細書に開示される実施例に関連して説明される方法又はプロセスの活動は、ハードウェア、プロセッサ若しくはコントローラ回路によって実行されるソフトウェアモジュール、又はその2つの組み合わせで、直接具現化され得る。本方法又はアルゴリズムのステップはまた、実施例に提供されているものとは別の順序で実施され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能な媒体、光学媒体、又は当該技術分野で既知の任意の他の形態の記憶媒体に常駐し得る。例示的な記憶媒体は、プロセッサ又はコントローラ回路が、記憶媒体から情報を読み取り、かつ記憶媒体に情報を書き込むことができるように、プロセッサ又はコントローラ回路に結合される。代替的に、記憶媒体は、プロセッサ又はコントローラ回路と一体化され得る。プロセッサ又はコントローラ回路及び記憶媒体は、ASIC又はSoCに常駐してもよい。
【0076】
開示された例示的な実施形態の前述の説明は、当業者が本開示の実施形態を作成又は使用することを可能にするために提供される。これらの実施例に対する様々な修正形態は、当業者には容易に明らかであり、本明細書に開示される原理は、本開示の範囲から逸脱することなく他の実施例に適用され得る。説明された実施形態は、あらゆる点で、例示的であり、かつ制限的でないものと考慮されるべきである。加えて、以下の特許請求の範囲において、「A及びBのうちの少なくとも1つ」の形態の言語の使用は、「Aのみ、Bのみ、又はA及びBの両方」を意味すると理解されるべきである。