特許7361218 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ウェスタン　デジタル　テクノロジーズ　インコーポレーテッドの特許一覧

特許7361218参照ガイド式ゲノムシーケンシング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-04

(45)【発行日】2023-10-13

(54)【発明の名称】参照ガイド式ゲノムシーケンシング

(51)【国際特許分類】

G16B 30/20 20190101AFI20231005BHJP

【ＦＩ】

G16B30/20

【請求項の数】 14

(21)【出願番号】P 2022529772

(86)(22)【出願日】2020-07-01

(65)【公表番号】

(43)【公表日】2023-01-31

(86)【国際出願番号】 US2020040568

(87)【国際公開番号】W WO2021188137

(87)【国際公開日】2021-09-23

【審査請求日】2022-05-27

(31)【優先権主張番号】16/822,010

(32)【優先日】2020-03-18

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】504056130

【氏名又は名称】ウェスタンデジタルテクノロジーズインコーポレーテッド

(74)【代理人】

【識別番号】110000110

【氏名又は名称】弁理士法人快友国際特許事務所

(72)【発明者】

【氏名】キニー、ジャスティン

【審査官】岡北有平

(56)【参考文献】

【文献】米国特許出願公開第２０１４／０３７１１１０（ＵＳ，Ａ１）

【文献】欧州特許出願公開第０２７５９９５２（ＥＰ，Ａ１）

【文献】Mohammad Ruhul Amin, et al.，NanoBLASTer: Fast Alignment and Characterization of Oxford Nanopore Single Molecule Sequencing Reads，IEEE 6th Conference on Computational Advances in Bio and Medical Sciences，2016年，Pages 1-6，[検索日：2023年4月7日], <URL:https://doi.org/10.1109/ICCABS.2016.7802776>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００ー９９／００

(57)【特許請求の範囲】

【請求項1】

サンプルゲノム中の位置が不明であると共に、前記サンプルゲノムの一部を構成する複数のサンプルリードを、ゲノムシーケンシングのために処理する方法であって、
前記複数のサンプルリードの各サンプルリードについて、
複数のサブストリングシーケンスを複数の参照シーケンスと比較することであって、
前記複数のサブストリングシーケンスは、前記サンプルリードの少なくとも一部の塩基配列を示しており、
前記複数の参照シーケンスは、参照ゲノムの一部を示している、前記比較することと、
前記複数のサブストリングシーケンスのうちの１つ以上に一致する１つ以上の前記参照シーケンスである１つ以上の参照シーケンスを識別することと、
前記参照ゲノム内の前記１つ以上の参照シーケンスに基づいて、前記参照ゲノム内の前記サンプルリードの確率的位置を決定することと、
前記複数のサンプルリードについて決定された前記確率的位置の分布に基づいて、前記参照ゲノムを複数のパーティションに分割することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルリードを複数のサンプルグループに選別することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルグループの各々を、前記複数のパーティションのうちの対応する１つに関連付けることと、
前記サンプルリードを前記参照ゲノムの前記関連するパーティションと比較することによって、前記複数のサンプルグループの各サンプルグループの前記サンプルリードを整列させることと、を含む、方法。

【請求項2】

異なるメモリにおいて、前記複数のパーティションの各パーティションを記憶することを更に含む、請求項１に記載の方法。

【請求項3】

前記複数のサンプルグループの各サンプルグループを異なるメモリに記憶することを更に含む、請求項１又は２に記載の方法。

【請求項4】

異なるプロセッサを使用して、前記複数のサンプルグループのそれぞれのサンプルグループ内のサンプルリードを整列させることを更に含む、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記参照ゲノムを前記複数のパーティションに分割することが、ゲノムシーケンシングのための、前記サンプルリードの塩基配列が前記参照ゲノムの塩基配列に正確に一致するアルゴリズム、又は、前記サンプルリードの塩基配列が前記参照ゲノムの塩基配列に近似一致するアルゴリズムのうちの少なくとも１つの実行に先行する、請求項１～４のいずれか一項に記載の方法。

【請求項6】

サンプルゲノム中の位置が不明であると共に、前記サンプルゲノムの一部を構成する複数のサンプルリードを、ゲノムシーケンシングのために処理するためのシステムを動作させる方法であって、
前記複数のサンプルリードの各サンプルリードについて、
複数のサブストリングシーケンスを複数の参照シーケンスと比較することであって、
前記複数のサブストリングシーケンスは、前記サンプルリードの少なくとも一部の塩基配列を示しており、
前記複数の参照シーケンスは、参照ゲノムの一部を示しており、
前記サブストリングシーケンスを前記システムのセルの複数のグループに、一度に１つのサブストリングシーケンスずつ記憶することであって、セルの各グループが、セルの少なくとも１つの他のグループに記憶された別の参照シーケンスに部分的に重複する参照シーケンスを更に記憶する、記憶すること、及び
記憶された参照シーケンスが、前記セルのグループに記憶された前記サブストリングシーケンスと一致する、前記セルの複数のグループのうちのセルの１つ以上のグループを識別すること、を含む、比較することと、
前記セルの１つ以上の識別されたグループに基づいて、前記参照ゲノム内の前記サンプルリードの確率的位置を決定することと、
前記複数のサンプルリードについて決定された前記確率的位置の分布に基づいて、前記参照ゲノムを複数のパーティションに分割することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルリードを複数のサンプルグループに選別することと、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルグループのそれぞれを、前記複数のパーティションのうちの対応する１つに関連付けることと、
前記サンプルリードを前記参照ゲノムの前記関連するパーティションと比較することによって、前記複数のサンプルグループの各サンプルグループのサンプルリードを整列させることと、を含む、方法。

【請求項7】

前記システムの異なるメモリに前記複数のパーティションの各パーティションを記憶することを更に含む、請求項６に記載の方法。

【請求項8】

前記複数のサンプルグループの各サンプルグループを前記システムの異なるメモリに記憶することを更に含む、請求項６又は７に記載の方法。

【請求項9】

前記システムの異なるプロセッサを使用して、前記複数のサンプルグループのそれぞれのサンプルグループ内のサンプルリードを整列させることを更に含む、請求項６～８のいずれか一項に記載の方法。

【請求項10】

【請求項11】

サンプルゲノム中の位置が不明であると共に、前記サンプルゲノムの一部を構成する複数のサンプルリードを、ゲノムシーケンシングのために処理するためのシステムであって、
セルの複数のグループと、
回路であって、
前記複数のサンプルリードの各サンプルリードについて、
参照ゲノムの一部を示している複数の参照シーケンスと比較するために、前記サンプルリードの少なくとも一部の塩基配列を示している複数のサブストリングシーケンスを、セルの複数のグループに一度に１つのサブストリングシーケンスずつ記憶し、前記セルの複数のグループのうちのセルの各グループが、前記セルの複数のグループうちのセルの少なくとも１つの他のグループに記憶された別の参照シーケンスに部分的に重複する参照シーケンスを更に記憶し、
記憶された前記参照シーケンスが、前記セルのグループに記憶された前記サブストリングシーケンスと一致する、前記セルの複数のグループのうちのセルの１つ以上のグループを識別し、
前記セルの１つ以上の識別されたグループに少なくとも部分的に基づいて、前記参照ゲノム内の前記サンプルリードの確率的位置を決定するように構成された、前記回路と、
少なくとも１つのプロセッサであって、
前記複数のサンプルリードについて決定された前記確率的位置の分布に基づいて、前記参照ゲノムを複数のパーティションに分割し、
前記少なくとも１つのプロセッサが、前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルリードを複数のサンプルグループに選別し、
前記複数のサンプルリードの各々の前記確率的位置に基づいて、前記複数のサンプルグループのそれぞれを、前記複数のパーティションのうちの対応する１つに関連付け、
前記サンプルリードを前記参照ゲノムの前記関連するパーティションと比較することによって、前記複数のサンプルグループの各サンプルグループの前記サンプルリードを整列させるように構成された、前記少なくとも１つのプロセッサと、を備える、システム。

【請求項12】

複数のメモリの異なるメモリに前記複数のパーティションの各パーティションを記憶するように構成された複数のメモリを更に備える、請求項１１に記載のシステム。

【請求項13】

前記複数のサンプルグループのそれぞれのサンプルグループを記憶するように各々構成された複数のメモリを更に備える、請求項１１又は１２に記載のシステム。

【請求項14】

前記少なくとも１つのプロセッサの異なるプロセッサが、前記複数のサンプルグループのそれぞれのサンプルグループ内のサンプルリードを整列させる、請求項１１～１３のいずれか一項に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、「ＤＥＶＩＣＥＳＡＮＤＭＥＴＨＯＤＳＦＯＲＬＯＣＡＴＩＮＧＡＳＡＭＰＬＥＲＥＡＤＩＮＡＲＥＦＥＲＥＮＣＥＧＥＮＯＭＥ」という名称の２０２０年３月に１７日に出願された同時係属中の米国出願第１６／８２０，７１１号（代理人整理番号ＷＤＡ－４７２６－ＵＳ）に関し、その内容全体が参照により本明細書に組み込まれる。本出願はまた、「ＲＥＦＥＲＥＮＣＥ－ＧＵＩＤＥＤＧＥＮＯＭＥＳＥＱＵＥＮＣＩＮＧ」という名称の２０２０年３月に１７日に出願された同時係属中の米国出願第１６／８２１，８４９号（代理人整理番号ＷＤＡ－４７２４－ＵＳ）に関し、その内容全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

現在のＤＮＡ（デオキシリボ核酸）サンプルハンドリングの制限は、サンプルゲノム中の一般に未知の場所を有するサンプルリード又はサンプルゲノムの部分につながる。サンプルゲノム内のサンプルリードを位置付けるためにサンプルリードを互いに比較する際に参照ゲノムを使用しないデノボシーケンシングの場合、サンプルリードは、典型的には１つの大きなグループとして分析され、これは、大きなグループ内のサンプルリードを互いに比較してサンプルゲノム内のサンプルリードの位置を判定するために、著しいメモリリソース及び高い計算コストを必要とする。デノボシーケンシングのそのような従来の方法は、ゲノムシーケンシングのために処理される必要がある大量のデータに対してスケーラブルではない。より詳細には、デノボシーケンシングの従来の方法は、通常、高価な２ＴＢＤＲＡＭなどの共有メモリにサンプルリードの大きなグループを記憶する。独立した高帯域幅チャネルで共有ＤＲＡＭに接続することができる計算コアの数は、（例えば、最大２４個のコアに）制限されるため、この配置は、デノボシーケンシングに使用することができる独立した計算スレッドの数を（例えば、最大１２８個の計算スレッドに）制限する。

【0003】

サンプルゲノム内のサンプルリードを位置付けるために参照ゲノムを使用する、参照整列式シーケンシングの場合、参照ゲノム内のサンプルリードを位置付けるために、完全参照ゲノムは、典型的には各サンプルリードについて検索される。そのような参照整列式シーケンシングはまた、完全参照ゲノムを記憶するための著しいメモリリソース及び各サンプルリードを完全参照ゲノムと比較するための高い計算コストを必要とする。参照整列式シーケンシングの従来の方法はまた、限定されたスケーラビリティを有する。より詳細には、参照整列式シーケンシングの従来の方法は、対応する計算スレッドによって処理されるグループにサンプルリードをランダムに分割し得る。しかしながら、各計算スレッドは、典型的には、参照ゲノム全体を記憶するために、１６ＧＢＤＲＡＭなどの大きな専用メモリを必要とする。他の技術では、参照ゲノムは、単一の共有１６ＧＢＤＲＡＭに記憶され得るが、従来のデノボシーケンシングについて上述したように、この共有メモリ配置は、共有メモリにアクセスすることができるコア及び計算スレッドの数を制限する。したがって、計算コスト、メモリリソース、及びスケーラビリティに関してゲノムシーケンシングを改善する必要がある。

【図面の簡単な説明】

【0004】

本開示の実施形態の特徴及び利点は、図面と併せて以下に記載される詳細な説明からより明らかになるであろう。図面及び関連する説明は、本開示の実施形態を例示するために提供され、特許請求されるものの範囲を限定するものではない。

【0005】

【図1】１つ以上の実施形態によるゲノムシーケンシングのためのシステムのブロック図である。

【0006】

【図2】１つ以上の実施形態による、図１のシステムの参照ガイド式デバイスにおける複数のセルのグループの例を示す。

【0007】

【図3】１つ以上の実施形態によるデノボゲノムシーケンシングの例を示す。

【0008】

【図4】１つ以上の実施形態によるデノボゲノムシーケンシングプロセスのフローチャートである。

【0009】

【図5】１つ以上の実施形態による、参照整列式ゲノムシーケンシングの例を示す。

【0010】

【図6】１つ以上の実施形態による参照整列式ゲノムシーケンシングプロセスのフローチャートである。

【発明を実施するための形態】

【0011】

以下の詳細な説明において、本開示の完全な理解を提供するために、多数の具体的な詳細が示されている。しかしながら、開示された様々な実施形態が、これらの具体的な詳細のいくつかなしで実施され得ることは、当業者には明らかであろう。他の例では、様々な実施形態を不必要に不明瞭にすることを避けるために、周知の構造及び技術が詳細に示されていない。
システムの実施例

【0012】

図１は、ホスト１０１_１～１０１_Ｎ及び１つ以上の実施形態による参照ガイド式デバイス１０２を含むゲノムシーケンシングのためのシステム１００のブロック図である。ホスト１０１は、参照ガイド式デバイス１０２によって選別されたサンプルリードを含む参照ガイド式デバイス１０２からそれぞれのサンプルグループ１１_１～１１_Ｎを受信するために、参照ガイド式デバイス１０２と通信する。他の実装では、ホスト１０１は代わりに、それぞれのホスト１０１によるさらなる処理のために、サンプルリードのプールからのどのサンプルリードを共有メモリから取得するかを示す指示又はデータ構造を受信し得る。

【0013】

ホスト１０１が参照整列シーケンシングを実行する実装では、ホスト１０１はまた、サンプルリードのために決定された確率的場所に対応するヒト参照ゲノムＨ３８などの参照ゲノムの一部を含む選択的な参照パーティション１２_１～１２_Ｎを受信し得る。任意選択の参照パーティション１２_１～１２_Ｎは、デバイス１０２、又は完全参照ゲノムを記憶した共有メモリなどの別のデバイスから受信され得る。図５及び図６を参照して以下でより詳細に論じられるように、任意選択の参照パーティション１２_１～１２_Ｎは、サンプルグループ１１内のサンプルリードを関連する参照パーティション１２と比較することによって、それぞれのサンプルグループ１１内のサンプルリードを重なり合うセグメント、又はコンティグに整列させるためにホスト１０１によって使用することができる。

【0014】

ホスト１０１がデノボシーケンシングを行う実装では、ホスト１０１は、任意選択の参照パーティション１２_１～１２_Ｎを受信しない場合がある。そのようなデノボシーケンシング実装のホスト１０１は、サンプルグループ１１内のサンプルリードをサンプルグループ内の他のサンプルリードと比較することによって、それぞれのサンプルグループ１１内のサンプルリードを重なり合うセグメント、又はコンティグに整列させる。

【0015】

説明を容易にするために、本開示の例示的な実施形態は、ＤＮＡシーケンシングの文脈で説明される。しかしながら、本開示の実施形態は、ＤＮＡシーケンシングに限定されず、一般に、ＲＮＡ（リボ核酸）シーケンシングを含む任意の核酸塩基のシーケンシングに適用することができる。

【0016】

図１の例のサンプルリードは、最初に、１つ以上のホスト１０１又は図１に示されていない別のデバイスによって参照ガイド式デバイス１０２に提供されて、デバイス１０２の１つ以上のアレイ１０４に記憶された参照ゲノム内のサンプルリードの確率的位置を決定し得る。いくつかの実装では、Ｉｌｌｕｍｉｎａデバイス（ＳａｎＤｉｅｇｏ，ＣａｌｉｆｏｒｎｉａのＩｌｌｕｍｉｎａ，Ｉｎｃ．製）又はナノポアデバイスのようなサンプルリードを生成するリードデバイスが、参照ガイド式デバイス１０２にサンプルリードを提供し得る。他の実装では、ホスト１０１又は別のデバイスのうちの１つ以上は、参照ゲノム内のサンプルリードの確率的位置を決定するために、サンプルリードからのサンプルサブストリングを参照ガイド式デバイス１０２に提供し得る。その部分について、デバイス１０２は、デバイス１０２の１つ以上のアレイ１０４に記憶された参照ゲノムと比較されたサンプルサブストリングに基づいて、サンプルリードの確率的位置を示す、デバイス１０２のメモリ１０８に記憶されたインデックス１０をホスト１０１に提供し得る。デバイス１０２、及びデバイス１０２を使用して参照ゲノム内のサンプルリードを確率的に位置付ける方法の例は、関連する同時係属出願第１６／８２０，７１１号に提供され、これは上記参照により組み込まれる。

【0017】

ホスト１０１は、例えば、正確なマッチングのためのｓｅｅｄａｎｄｅｘｔｅｎｄアルゴリズム及び／又はより計算的に複雑なアルゴリズム、例えば、ゲノム内のサンプルリードの近似マッチングのためのＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒアルゴリズム又はＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムなど、プロセッサ１０９を使用するゲノムシーケンシングアルゴリズムを実装し得る、デスクトップ若しくはサーバーなどのコンピュータ、スマートストレージデバイス、又は他の処理ノードを含むことができる。以下でより詳細に論じられるように、デバイス１０２は、デノボ又は参照整列式シーケンシングの前にサンプルリードをサンプルグループ１１に前処理するために使用され得る。これに関して、参照ガイド式デバイス１０２によって提供される確率的位置は、メモリリソース及び計算コストに関して、さもなければホスト１０１のプロセッサ１０９によって実行されることになるアルゴリズムの効率を置き換えるか、又は改善し得る。更に、図３～図６を参照して以下でより詳細に論じられるように、デバイス１０２によって提供されるサンプルリードの確率的位置付け及びサンプルグループ１１へのサンプルリードの選別は、ゲノムシーケンシングのスケーラビリティに対する改善を可能にし、それによって、デノボ又は参照整列式ゲノムシーケンシングを実行ための費用及び時間を減じることができる。

【0018】

図１に示すように、各ホスト１０１は、プロセッサ１０９と、サンプルグループ１１を記憶し、任意選択的に参照パーティション１２を記憶するメモリ１１２と、を含む。プロセッサ１０９は、例えば、中央処理ユニット（Central Processing Unit、ＣＰＵ）、マイクロプロセッサ（Microprocessor Unit、ＭＰＵ）、又はマイクロコントローラ（Microcontroller Unit、ＭＣＵ）を含むことができる。プロセッサ１０９はまた、システム・オン・チップ（System on a Chip、ＳｏＣ）であり得る。

【0019】

ホスト１０１のメモリ１１２は、例えば、ＤＲＡＭなどの揮発性ＲＡＭ、不揮発性ＲＡＭ、ストレージクラスメモリ（Storage Class Memory、ＳＣＭ）、又は他のソリッドステートメモリを含むことができる。メモリ１１２は、プロセッサ１０９によって使用されるデータを記憶及び検索するために、プロセッサ１０９によってアクセスすることができる。これに関して、メモリ１１２に記憶されたデータは、プロセッサ１０９によって実行されるアプリケーションからロードされた命令、及び／又はそのようなアプリケーションを実行する際に使用されるデータを含むことができる。

【0020】

本明細書の説明は、一般に、ソリッドステートメモリを指しているが、ソリッドステートメモリは、フラッシュ集積回路、ＣｈａｌｃｏｇｅｎｉｄｅＲＡＭ（Ｃ－ＲＡＭ）、位相変化メモリ（ＰＣ－ＲＡＭ若しくはＰＲＡＭ）、プログラマブル金属化セルＲＡＭ（ＰＭＣ－ＲＡＭ若しくはＰＭＣｍ）、ＯｖｏｎｉｃＵｎｉｆｉｅｄＭｅｍｏｒｙ（ＯＵＭ）、ＲｅｓｉｓｔｉｖｅＲＡＭ（ＲＲＡＭ）、ＮＡＮＤメモリ（例えば、単一レベルセル（Single-Level Cell、ＳＬＣ）メモリ、マルチレベルセル（Multi-Level Cell、ＭＬＣ）メモリ（すなわち、２つ以上のレベル）、又はそれらの任意の組み合わせ）、ＮＯＲメモリ、ＥＥＰＲＯＭ、ＦｅｒｒｏｅｌｅｃｔｒｉｃＭｅｍｏｒｙ（ＦｅＲＡＭ）、ＭａｇｎｅｔｏｒｅｓｉｓｔｉｖｅＲＡＭ（ＭＲＡＭ）、他の別個の不揮発性メモリ（Non-Volatile Memory、ＮＶＭ）チップ、又はそれらの任意の組合せをなどの様々なタイプのメモリデバイスのうちの１つ以上を含み得ることが理解される。

【0021】

いくつかの実装における参照ガイド式デバイス１０２は、例えば、参照ゲノムに対するサンプルリードからサンプルサブストリングシーケンスの確率的位置を示すインデックス１０を生成するための１つ以上の特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）又はフィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）を含むことができる。サンプルサブストリングシーケンスの確率的位置は、サンプルサブストリングシーケンスが採取されたサンプルリードの確率的位置を、複数のサンプルリードを記憶するホスト１０１又は他のデバイスに提供することができる。上記のように、いくつかの実装におけるホスト１０１又は別のデバイスのうちの１つ以上は、デバイス１０２の１つ以上のアレイ１０４にロードするために現在のサンプルサブストリングシーケンスを参照ガイド式デバイス１０２に提供し得る。他の実装では、ホスト１０１又は別のデバイスのうちの１つ以上は、参照ガイド式デバイス１０２にサンプルリードを提供することができ、参照ガイド式デバイス１０２は、参照ゲノムと比較するために１つ以上のアレイ１０４にロードされる、サンプルリードからのサンプルサブストリングシーケンスを決定し得る。

【0022】

ホスト１０１及びデバイス１０２は、物理的に共同配置されてもよく、又は物理的に共同配置されなくてもよい。例えば、いくつかの実装では、ホスト１０１及びデバイス１０２は、ローカルエリアネットワーク（Local Area Network、ＬＡＮ）又はインターネットなどのワイドエリアネットワーク（Local Area Network、ＷＡＮ）、又はデータバス若しくはファブリックを使用することなどによって、ネットワークを介して通信し得る。加えて、当業者は、システム１００の他の実装が、サンプルリードの確率的位置を提供するための複数のデバイス１０２を含み得ることを理解するであろう。特定の実施形態では、ホスト１０１のうちの１つ以上及び１つ以上のデバイス１０２は、単一のデバイスとして統合される。

【0023】

図１の例に示すように、デバイス１０２は、セルの１つ以上のアレイ１０４を含む。本明細書で使用される場合、セルは、一般に、本開示において塩基と称される１つ以上のヌクレオチドを表す１つ以上の値を記憶するためのメモリ位置を指す。いくつかの実装では、１つ以上のアレイ１０４は、セルに記憶された１つ以上の値に対して１つ以上の動作を実行するための論理も含むセルを含むことができる。そのような例では、１つ以上のアレイ内の各セルは、参照ゲノムからの参照塩基を表す参照値と、サンプルサブストリングシーケンスからの塩基を表すサンプル値とを記憶することができる。セルは、１つ以上の動作を実行し、回路１０６又は１つ以上のアレイ１０４の回路によって使用することができる値を出力し、１つ以上のアレイ１０４内のセルのグループが、セルのグループに記憶されたサブストリングシーケンスと一致する参照シーケンスを記憶しているかどうかを判定し得る。いくつかの実装では、アレイ１０４は、１つ以上の収縮期アレイを含み、収縮期アレイにおいて、参照ゲノムから参照塩基を表す参照値がロードされ、サンプルサブストリングシーケンスからの塩基を表すサンプル値が、参照値と比較するためにセルにロードされ得、その後、サンプル値をアレイ１０４のセルの別のグループにおける次のセルに渡す。

【0024】

他の実装では、１つ以上のアレイ１０４は、セルに記憶された値が一致するかどうかを判定するための動作を実行しない場合があるソリッドステートメモリセルを含むことができる。例えば、いくつかの実装における回路１０６は、各セルに記憶された値が一致するかどうかを判定し得る。別の変形例として、１つ以上のアレイ１０４は各々、参照塩基を表す参照値又はサンプル塩基を表すサンプル値のいずれかを記憶し得る。そのような実装では、参照値を記憶するセルは、参照塩基とサンプル塩基との比較のためにサンプル値を記憶するセルと対になり得る。更に他の実装では、アレイ１０４内のセルは、レジスタ、ラッチ、又はフリップフロップなどの回路要素を含むことができる。

【0025】

デバイス１０２の回路１０６は、例えば、ハードワイヤード論理、アナログ回路、及び／又はそれらの組み合わせを含むことができる。他の実装では、回路１０６は、１つ以上のＡＳＩＣ、マイクロコントローラ、デジタル信号プロセッサ（Digital Signal Processor、ＤＳＰ）、ＦＰＧＡ、及び／又はそれらの組み合わせを含むことができる。いくつかの実装では、回路１０６は、メモリ１０８と組み合わされ得る１つ以上のＳｏＣを含むことができる。以下でより詳細に論じられ、関連する出願第１６／８２０，７１１号で論じられているように、回路１０６は、記憶された参照シーケンスがセルのグループに記憶された現在のサブストリングシーケンスと一致する１つ以上のアレイ１０４内のセルのグループを識別するように構成することができる。

【0026】

より詳細には、１つ以上のアレイ１０４におけるセルの各グループについて、参照ゲノムからの参照塩基の参照シーケンスをセルのグループに記憶することができる。参照シーケンスは、セルのそれぞれのグループにおけるセルの順序に対応する。セルの各グループは、セルの１つ以上の他のグループに記憶された１つ以上の他の参照シーケンスによって表される参照ゲノムの少なくとも１つの他の部分と部分的に重複する参照ゲノムの一部を表す参照シーケンスを記憶するように構成される。アレイ内のそのような重複する参照シーケンスの記憶の例は、図２を参照して以下でより詳細に論じられる。

【0027】

加えて、１つ以上のアレイ１０４内のセルの各グループは、セルのそれぞれのグループの順序に対応する同じ現在のサブストリングシーケンスを記憶するように構成され得る。上記のように、回路１０６は、記憶された現在のサブストリングシーケンスがセルのグループに記憶された参照シーケンスと一致する１つ以上のアレイ１０４内のセルの複数のグループ間のセルのグループを識別するように構成されている。一致するシーケンスによるセルのグループの識別は、１つ以上のＸＮＯＲ動作及びＡＮＤ動作などの少なくとも１つの論理動作を実行した後、セルから出力された値に基づいて、回路１０６によって、いくつかの実装で行われ得る。ＸＮＯＲ及びＡＮＤは例として言及されているが、当業者は、同じ結果が異なる論理の組み合わせを介して他の実施形態において達成することができることを認識するであろう。他の実装では、一致するシーケンスによるセルのグループの識別は、参照塩基を表す参照値及びサンプル塩基を表すサンプル値を乗じた後、セルから出力された値に基づいて、回路１０６によって行われ得る。更に、いくつかの実装における回路１０６は、セル自体によって実行される動作のいくつかの代わりに、セルに記憶された値に対して全ての動作を実行し得る。

【0028】

デバイス１０２のメモリ１０８は、例えば、インデックス１０を記憶するためのＤＲＡＭなどの揮発性メモリを含むことができる。他の実装では、メモリ１０８は、ＭＲＡＭなどの不揮発性メモリを含むことができる。図１に示すように、メモリ１０８は、インデックス１０を記憶し、インデックス１０は、１つ以上のアレイ１０４にロードされた、又は１つ以上のアレイ１０４に記憶された重複する参照シーケンスによって表される参照ゲノム内のサンプルリードの確率的位置を決定するために使用することができる。いくつかの実装では、インデックス１０は、マッチングシーケンスを記憶するとして識別されたセルのグループに対応する参照ゲノム内のインデックス又は位置を示すビットマップ又は他のデータ構造などのデータ構造を含むことができる。回路１０６は、アレイ１０４のセルの各グループにロードされる異なるサンプルサブストリングシーケンスのためのインデックス１０を更新し得る。いくつかの実装では、回路１０６は、セルの複数の一致するグループを有するサブストリングシーケンスのためのインデックス１０の平均位置を示し得る。他の実装では、特定のサブストリングシーケンスのためのセルの第１の一致グループ又はセルの特定の一致グループのみが使用され得、又は回路１０６は、一致するシーケンスを記憶する単一のグループのセルを有するサブストリングシーケンスのために、インデックス１０を全く更新しなくてもよい。

【0029】

更に、いくつかの実装は、一致するシーケンスを有するセルのグループの位置を示すためのインデックス又は他のデータ構造を使用しない場合がある。例えば、いくつかの実装における回路１０６は、一致するシーケンスを有するセルのグループを示すホスト１０１に直接データを出力し得るか、又は特定のサンプルグループ１１に選別されたサンプルリードを直接出力し得る。これに関して、システム１００内のデバイス１０２又は別のデバイスは、ホスト１０１のためのグループ１１へのサンプルリードの選別を実行し得る。

【0030】

本開示を参照して当業者には理解されるように、他の実装は、図１の例におけるシステム１００のために示されたものとは異なる構成要素の数又は構成を含み得る。例えば、他の実装は、サンプルリードをサンプルグループ１１に選別するように構成されたハードウェア加速器（例えば、グラフィック処理ユニット（Graphics Processing Unit、ＧＰＵ））などの別のデバイスとデバイス１０２を組み合わせ得るか、又は異なる数のデバイス１０２を含み得るか、又はサンプルリードをサンプルグループ１１に選別するための専用デバイスを含み得る。上記のように、システム１００の他の実装は、サンプルリードがサンプルグループ１１に選別される前に、複数のサンプルリード又は複数のサンプルリードの一部を一時的に記憶するための共有メモリを含み得る。更に他の実装では、デバイス１０２は、ＤＮＡサンプル内の塩基を検出する、Ｉｌｌｕｍｉｎａ又はナノポアデバイスなどの読み取りデバイスによって生成されるときに、サンプルリードを受信し得る。

【0031】

図２は、１つ以上の実施形態による、参照ガイド式デバイス１０２内の複数のセルのグループの例を示す。図２の例に示すように、アレイ１０４は、セル１１０_１～１１０_Ｌ－１９のグループを含む。図２におけるセルのグループ１１０_１～１１０_Ｌ－１９は、カラムとして示されているが、他の実装では、カラムとして物理的に配置されていないセルのグループを含み得る。いくつかの実装では、アレイ１０４は、セルの１つのグループからの欠陥のあるセルを、同じアレイの異なる部分又は異なるアレイにおけるスペアセルのプールに位置する別のセルと置換し得る。各セルグループが、セルの前のグループから１つの参照塩基だけシフトされた重複する参照シーケンスを記憶する実装では、Ｌは、全参照ヒトゲノムＨ３８の場合のように、セルの３２億のグループ又はカラムなどの、参照ゲノムの全長と等しくなり得る。他の実装は、代わりに、２つの参照塩基など、異なる数の参照塩基によってシフトされた重複した参照シーケンスを記憶し得、その結果、セル又はカラムのより少ないグループが必要とされ、アレイ１０４のより小さいサイズを可能にする。しかしながら、２つ以上の参照塩基だけ重複をシフトさせることは、サブストリングシーケンスに対する一致を見つける可能性を低減するという犠牲を払う可能性がある。

【0032】

図２の例に示すように、セル１１０の各グループは、参照塩基を表す参照値（例えば、Ｒ１、Ｒ２、Ｒ３など）、及びサンプル塩基を表すサンプル値（Ｓ１、Ｓ２、Ｓ３など）を記憶している。各参照値及び各サンプル値は、２ビットで表すことができ、それは、例えば、ＤＮＡシーケンシングの場合、４つの可能な塩基－アデニン（Ａ）、グアニン（Ｇ）、シトシン（Ｃ）、及びチミン（Ｔ）が存在するからである。セル１１０の各グループは、サンプル値Ｓ１～Ｓ２０の同じサンプルシーケンスを記憶しているが、セル１１０の各グループは、セルの隣接するグループに記憶された参照シーケンスから１つの参照塩基だけシフトされた、異なる部分的に重複する参照シーケンスを記憶している。例えば、セル１１０_１のグループは、参照値Ｒ１～Ｒ２０を有する第１の参照シーケンスを記憶しており、セル１１０_２のグループは、参照値Ｒ２～Ｒ２１を有する第２の参照シーケンスを記憶している。他の実施形態では、シフトされたオフセット及び結果として生じる重複は、図２の実施例に示されるものとはセルグループにわたって異なり得る。

【0033】

部分的に重なり合う参照シーケンス及びアレイ１０４のサブストリングシーケンスを記憶する配置は、通常、参照ゲノム内のサンプルリードの確率的位置の効率的な位置付けを可能にする。更に、参照シーケンスは、アレイ１０４内に一回だけロード又は記憶されるだけでよい。次いで、サンプルリードからの異なるサブストリングシーケンスをロード又は記憶することの繰り返しは、参照ゲノム内のサンプルリードの確率的位置を提供し得、これは、図３～図６の例示的なプロセスを参照して以下に論じられるように、より効率的なデノボ又は参照整列式シーケンシングのために、サンプルリードをリードのグループにインテリジェントに選別するためにホスト１０１によって使用され得る。これに関して、異なる実装は、ＲＯＭ又はＮＡＮＤフラッシュセルなどの第１のタイプのセルを使用して、参照シーケンスを記憶し得、ＭＲＡＭセルなどのより良好な書き込み耐久性を有する、反復される上書きにより適した第２のタイプのセルを使用して、サブストリングシーケンスを記憶し得る。

【0034】

サンプル値Ｓ１～Ｓ２０を含む図２の例では、２０のサブストリングシーケンスの長さが使用される。関連する同時係属出願第１６／８２０，７１１号でより詳細に論じられるように、セル又はカラムのグループ内のセルの数に対応するサブストリングシーケンスの長さは、一致するシーケンスを記憶するセル又はカラムのグループを特定するために必要なセル及び操作の数に対する参照ゲノム内のサブストリングシーケンスの所望の特異性に基づいて選択することができる。
例示的なプロセス

【0035】

図３は、１つ以上の実施形態によるデノボシーケンシングの例を示す。図３に示すように、複数のサンプルリード１３は、参照ガイド式デバイス１０２を使用して参照ゲノム１４と比較されて、前処理１１４において、複数のリードをより小さいサンプルグループ１１_１～１１_Ｎに選別する。各サンプルグループ１１は、参照ゲノム１４内のサンプルリードの確率的位置に基づいて、Ｈ３８などの参照ゲノム１４の一部に対応する複数のサンプルリード１３からのサンプルリードを含む。次いで、各グループのサンプルリードを同じサンプルグループ１１内の他のサンプルリードと整列させて、サンプルグループ１１_１～１１_Ｎに対応するコンティグ１～Ｎ又は重複ＤＮＡセグメントを形成することができる。サンプルリードの整列は、デノボシーケンシングを実施するための当該技術分野で既知のｓｅｅｄａｎｄｅｘｔｅｎｄアルゴリズムなどの１つ以上のアルゴリズムを使用して、サンプルリードを同じサンプルグループ１１内の他のサンプルリードと比較することによって実行され得る。次いで、各コンティグが集められ、対応するアセンブリ１～Ｎを形成し、次いで、これは、ゲノムのシーケンシングを完了するために染色体にマッピングされ得る。

【0036】

前処理１１４の外側に示されるデノボシーケンシングの部分は、ホスト１０１によって独立して実行され得、これは、全てのサンプルリードが単一の共有メモリに記憶され得る従来のデノボシーケンシングと比較して、デノボシーケンシングのスケーラビリティ及び効率を改善する。図３の例では、サンプルグループ１１への複数のサンプルリード１３の選別は、従来のデノボシーケンシングのように、サンプルリードの全てを記憶するために単一のメモリを使用するよりも小さい、ＤＲＡＭなどのＮ個のメモリに記憶されることを可能にする。上記のように、独立した高帯域幅チャネルを有する、２ＴＢＤＲＡＭなどのより大きな共有メモリに接続することができる計算コアの数は、限定されている（例えば、最大２４個のコア）。これは、サンプルリードをシーケンシングされたゲノムに組み立てかつマッピングするために使用することができる独立した計算スレッドの数を（例えば、最大１２８個の計算スレッドに）制限する。

【0037】

一方、図３に示される配置は、スケーラビリティを改善することができ、それにより、それぞれのサンプルグループを記憶するより小さい各メモリが、最大数の独立した高帯域幅チャネルによってアクセスすることができ、その結果、複数のサンプルリードが単一の共有メモリに記憶されている従来の配置と比較して、より多くの総数の処理コア及び独立した計算スレッドを生じる。加えて、サンプルリードを組み立てかつマッピングする効率は、サンプルリードを確率的に位置付けることによって増加する。サンプルリードはまた、互いに１０％以内など、サンプルグループ間でほぼ均一に分割され得、これにより、ホスト１０１の間でワークロードを分配し、並列化を改善する。

【0038】

例えば、複数のリード１３がＸ＝２００，０００のロングリード（例えば、１サンプルリード当たり５，０００個の塩基をもたらすナノポアデバイスからのリード）を含む場合、各サンプルグループ１１は、Ｎ＝１，０００サンプルグループ１１を有する２００個のサンプルリードを含み得る。次いで、サンプルグループ１１のための各共有メモリにサンプルリードを記憶するために必要なサイズは、Ｎのファクタによって減少し、単一の大きなメモリと比較して、１，０００個のより小さいメモリに対する全体的なコストの低減をもたらす。次いで、各サンプルグループ１１は、Ｙ＝２４処理コアによってアクセスされ得る。結果として生じる並列化は、サンプルリードを組み立てるために使用することができるコアの全体的な数を、単一の共有メモリの従来の例における２４から、それぞれのサンプルグループ１１を記憶する１，０００個のメモリの実施例における２４，０００個のコアに増加させることができる。

【0039】

図４は、１つ以上の実施形態によるデノボゲノムシーケンシングプロセスのフローチャートである。図４のプロセスは、例えば、参照ガイド式デバイス１０２及びホスト１０１を含むシステム１００によって実行することができる。

【0040】

ブロック４０２において、複数のサンプルリード（例えば、図３の複数のサンプルリード１３）の各サンプルリードについて、サンプルリードからのサブストリングシーケンスは、参照ゲノム（例えば、図３の参照ゲノム１４）の異なる部分を表す参照シーケンスと比較される。いくつかの実装では、比較は、セルのグループに記憶された参照シーケンスに対するセルのグループに記憶されたサブストリングシーケンスの比較の結果を表すセルの複数のグループ（例えば、図１のアレイ（複数可）１０４）におけるセルの各グループのための比較値を決定することを含むことができる。

【0041】

サブストリングシーケンスは、サンプルリードからの塩基の連続するシーケンスを含む。サブストリングシーケンスは、１つ以上のホスト１０１又はデバイス１０２によってランダムに選択され得る。他の実装では、サブストリングシーケンスは、サブストリングシーケンスがサンプルリード全体に広がるように選択され得る。関連する同時係属出願第１６／８２０，７１１号に記載されているように、１７～２５個の塩基の長さを有するサブストリングシーケンスは、Ｈ３８などの参照ゲノム内のサブストリングシーケンスを位置付けるために、ほとんどのサブストリングシーケンスに対して十分な数の固有の一致を提供することができる（すなわち、参照ゲノム内の１つの位置にのみ一致する）。１７塩基よりも短いサブストリングの長さは、参照ゲノム内のサンプルリードの確率的位置を決定するために、サンプルリードからのより多くのサブストリングシーケンスを必要とする。参照ゲノムＨ３８の場合、１５塩基より短いサブストリング長さは、試みられたほぼ全てのサブストリングシーケンスについて、参照ゲノム内の任意の固有の一致を識別することができない場合がある。

【0042】

一方、２５塩基を超えるサブストリング長さは、デバイス１０２内のアレイ１０４内のセルに関して追加の記憶コストと、一致するシーケンスを見つけるために必要な動作の増加に起因してより大きな計算コストとを伴い、固有のマッチの数はほとんど改善されない。結果として、上記の図２の例は、２０塩基のサブストリング長さを使用し、これは、図２のセル１１０の各グループが所定の数の２０個のセルを含むことを意味する。当業者は、参照ゲノムの特定の部分に関連する状態のための医学的診断又は遺伝的スクリーニングの場合であり得るように、異なる参照ゲノム又は参照ゲノムの一部を使用する場合など、他の例の場合には、異なるサブストリング長さ又はデバイス１０２におけるセルの各グループにおける異なる所定の数のセルが好ましい場合があることを、本開示を参照して理解するであろう。更に、計算コスト、セル数、及びより多数の固有のマッチに関する精度の間の異なるトレードオフもまた、アレイ（複数可）１０４内のセルの各グループに使用されるセルの数に影響を及ぼし得る。

【0043】

ブロック４０４において、１つ以上の参照シーケンスが、サンプルリードからの１つ以上の比較されたサブストリングシーケンスに一致する各サンプルリードについて識別される。一致する参照シーケンスを識別する際に、デバイス１０２のアレイ（複数可）１０４内のセル１１０のグループは、図２のアレイ１０４の例で上述したように、参照ゲノムの一部を表す参照シーケンスを記憶するものとして識別され得る。いくつかの実装では、識別は、例えば、アレイ（複数可）１０４及び／又はデバイス１０２の回路１０６内のセルのＸＮＯＲ及びＡＮＤゲートの組み合わせなどによって、論理ゲートを使用してデバイス１０２によって行われ得る。他の実装では、一致する参照シーケンス又は一致する参照シーケンスを記憶するセルのグループの識別は、内積又は値のドット積を使用することなどによって、塩基の記憶された参照値及びサンプル値を使用して計算を実行することによって行われ得る。アレイ（複数可）１０４にロード又は記憶されたサブストリングシーケンスに一致する参照シーケンスの識別の例は、関連する同時係属出願第１６／８２０，７１１号に提供されている。

【0044】

ブロック４０６では、システム１００は、各サンプルリードについて、１つ以上の比較されたサブストリングシーケンスに一致する１つ以上の識別された参照シーケンスに基づいて、参照ゲノム内のサンプルリードの確率的位置を決定する。これに関して、デバイス１０２のアレイ１０４内のセルの第１の一致グループは、各サブストリングシーケンスの位置として使用されてもよく、又は代替的に、いくつかのサブストリングシーケンスがセルの複数の一致するグループをもたらすと仮定して、サブストリングシーケンスの可能な位置として、セルの複数のマッチンググループが使用され得る。場合によっては、サンプルリード内の読み取りデバイス又は変異によって引き起こされるリードエラーなど、サブストリングシーケンス内のエラーに起因して、サブストリングシーケンスのための一致する位置が存在しない場合がある。回路１０６又はホスト１０１によってブロック４０６で決定されたサンプルリードの位置は、サンプルリードから異なるサブストリングシーケンスに対して複数の可能な位置を識別することができ、一致する位置から導出されたコンセンサス又は統計を使用して、参照ゲノム内のサンプルリードを確率的に位置付けることができるという意味で確率的であることができる。

【0045】

一例では、全てのサブストリングシーケンスについてのセルの全ての一致するグループの全ての位置の平均が、参照ゲノム内のサンプルリードの最も可能性の高い位置を識別するために使用される。別の例では、セルの一致するグループを有する各サブストリングシーケンスのための１つの位置のみが、平均で使用される。更に別の例では、サンプルリードの確率的位置は、サブストリングシーケンスのセルの一致するグループに対応する参照ゲノム内の最も遠い位置を識別することによって決定され得る。他の例では、一致する位置のグループに対する１つ以上の外れ値位置は、参照ゲノム内のサンプルリードの確率的位置を決定する際に廃棄され得る。

【0046】

ブロック４０８において、デバイス１０２又はホスト１０１のうちの１つ以上は、それぞれのサンプルリードの決定された確率的位置に基づいて複数のサンプルリードを複数のサンプルグループに選別する。各サンプルグループは、ホスト１０１の間でサンプルリードを組み立てかつマッピングするワークロードをより均一に分配するために、ほぼ同じ数のサンプルリード（例えば、互いに１０％以内）を含み得る。いくつかの実装では、インデックス１０又はデータ構造の一部は、サンプルグループ１１としてホスト１０１によって処理されるサンプルリードのグループを示すホスト１０１にデバイス１０２によって提供され得る。そのような実装では、各ホスト１０１は、割り当てられたサンプルグループ１１に対応するサンプルリードを共有メモリから検索し得る。他の実装では、デバイス１０２は、ホストに割り当てられたサンプルグループ１１内に確率的に位置するサンプルリードを有する各ホスト１０１を提供し得る。更に他の実装では、割り当てられたサンプルグループのためのサンプルリードは、別のホスト１０１から検索され得る。

【0047】

ブロック４１０では、各サンプルグループ１１は、異なるメモリに記憶される。いくつかの実装では、各ホスト１０１は、その割り当てられたサンプルグループ１１を記憶するためのメモリ１１２などのそれ自体のメモリを含み得る。上述のように、ホスト１０１間に分散された多数のメモリを使用することは、通常、２ＴＢＤＲＡＭなどの単一の大きなメモリに複数のサンプルリードの全てを記憶するよりも安価である。更に、各メモリは、ホスト１０１のプロセッサ１０９によってローカルにアクセスすることができ、システム１００全体を通して同時に並行して動作するように、より多くの計算スレッドを可能にする。これは、サンプルリードのより速いシーケンシング又はアセンブリを提供することができる。

【0048】

ブロック４１２では、サンプルグループのサンプルリードをサンプルグループ内の他のサンプルリードと比較することによって、各サンプルグループのサンプルリードが整列させられる。ブロック４１２における比較は、従来のデノボシーケンシングのように、１つの大きな複数のサンプルリードからのサンプルリードをランダムに比較するよりも迅速に完了することができ、それは、それぞれの局所的なサンプルグループにおけるサンプルリードが少なく、上述のブロック４０２～４０８において行われる前処理により、重複するサンプルリードのより大きな可能性があるからである。

【0049】

本開示を参照して当業者には理解されるように、図４に示されるブロックの順序は、他の実装では異なり得る。例えば、ブロック４０２～４０６は、ブロック４０８における複数のサンプルリードを選別することへ進む前に、サンプルリードの反復のためにシーケンスにおいて繰り返され得る。

【0050】

図４のゲノムシーケンシングは、参照整列式シーケンシングとは対照的に、デノボであるが、図４のプロセスは、参照ガイド式ゲノムシーケンシングの新規技術を使用して、サンプルリードを確率的に局所化されたサンプルリードのグループに前処理又は選別して、デノボシーケンシングの効率、コスト、及びスケーラビリティを改善する。参照整列式シーケンシングについて以下に論じられる例示的なプロセスはまた、複数のサンプルリードを確率的に局所化されたサンプルリードのグループに前処理又は選別し、参照整列式シーケンシングの効率、コスト、及びスケーラビリティを改善する。更に、以下の図５及び図６を参照して論じられた参照整列式シーケンシング例は、参照整列式シーケンシングのために参照ゲノムを分割することを更に提供する。

【0051】

図５は、１つ以上の実施形態による、参照整列式ゲノムシーケンシングの例を示す。図５に示すように、上述の図３におけるデノボシーケンシングの例と同様に、複数のサンプルリード１３は、参照ガイド式デバイス１０２を使用して参照ゲノム１４と比較されて、前処理１１６において、複数のサンプルリードをより小さいサンプルグループ１１_１～１１_Ｎに選別する。しかしながら、図３のデノボシーケンシングの例とは異なり、図５の参照整列式シーケンシングは、前処理１１６においてそれぞれのサンプルグループ１１_１～１１_Ｎのために決定された確率的位置に関連した参照パーティション１２_１～１２_Ｎに参照ゲノム１４を分割することを更に含む。いくつかの実装では、各参照パーティション１２は、関連するサンプルグループ１１として同じメモリ（例えば、図１のメモリ１１２）に記憶され得る。他の実装では、サンプルグループ１１及び関連する参照パーティション１２は、異なるメモリに記憶され得る。

【0052】

図５において各参照パーティション１２_１～１２_Ｎを異なるメモリに記憶することによって、参照ゲノムのどの部分が、ランダムにグループ化されたサンプルリードを含んでいたかを知ることなく、ランダムにグループ化されたサンプルリードのための各ホスト１０１において参照ゲノム１４全体を記憶するために必要とされるよりも少ないメモリが必要とされる。より小さな参照パーティション１２への参照ゲノム１４の分割は、サンプルリード１３を確率的に局所化されたサンプルグループ１１_１～１１_Ｎに選別するための前処理１１６によって可能にされ、それにより、参照ゲノムの部分を特定のサンプルグループ１１に関連付ける。

【0053】

いくつかの実装では、参照ゲノムの部分内に確率的位置を有するサンプルリードがない場合、参照ゲノムの部分は、廃棄されるか又は参照パーティション１２_１～１２_Ｎのいずれにおいても使用されない場合がある。そのようなケースは、例えば、参照ゲノムの特定の部分にのみ関連し得る医学的診断又は遺伝的スクリーニングに起因し得る。そのような場合、処理リソース、メモリリソース、及び時間に関する参照整列式シーケンシングの効率は、完全参照ゲノムを記憶して比較する必要がないことによって、更に改善される。

【0054】

図５の例では、各サンプルグループ１１は、参照ゲノム１４内のサンプルリードの確率的位置に基づいて、Ｈ３８などの、参照ゲノム１４の参照パーティション１２に対応する複数のサンプルリード１３からのサンプルリードのほぼ同じ数（例えば、互いに１０％以内）を含む。各サンプルグループのサンプルリードが、同じサンプルグループ１１内の他のサンプルリードと整列させられ、サンプルグループ１１_１～１１_Ｎに対応するコンティグ１～Ｎ又は重複ＤＮＡセグメントを形成する。サンプルリードの整列は、参照整列式シーケンシングを実施するための当該技術分野で既知のｓｅｅｄａｎｄｅｘｔｅｎｄアルゴリズムなどの１つ以上のアルゴリズムを使用して、サンプルグループ１１のサンプルリードを局所化された参照パーティション１２と比較することによって実行することができる。次いで、各コンティグが集められ、対応するアセンブリ１～Ｎを形成し、次いで、これは、サンプルゲノムのシーケンシングを完了するために染色体にマッピングされ得る。

【0055】

更に、参照整列式シーケンシングのための参照ゲノムの部分を記憶するための複数のメモリの使用は、参照ゲノム全体が、１６ＧＢＤＲＡＭなどの単一の共有メモリに記憶され得る従来の参照整列式シーケンシングと比較して、参照整列式シーケンシングのスケーラビリティ及び効率を改善する。上記のように、独立した高帯域幅チャネルを有する共有メモリなどに接続することができる計算コアの数は、限定されている（例えば、最大２４個のコア）。これは、サンプルリードをシーケンシングされたゲノムに組み立てかつマッピングするために使用することができる独立した計算スレッドの数を（例えば、最大１２８個の計算スレッドに）制限する。

【0056】

一方、図５に示される配置は、スケーラビリティを改善することができ、それにより、それぞれの参照パーティション１２を記憶するより小さい各メモリが、最大数の独立した高帯域幅チャネルによってアクセスすることができ、その結果、参照ゲノム全体が単一の共有メモリに記憶され得る従来の配置と比較して、より多くの総数の処理コア及び独立した計算スレッドを生じる。加えて、サンプルリードを組み立てかつマッピングする効率は、サンプルリードを確率的に位置付けることによって増加する。

【0057】

図６は、１つ以上の実施形態による参照整列式ゲノムシーケンシングプロセスのフローチャートである。図４のプロセスは、例えば、参照ガイド式デバイス１０２及びホスト１０１を含むシステム１００によって実行することができる。

【0058】

ブロック６０２において、複数のサンプルリード（例えば、図３の複数のサンプルリード１３）の各サンプルリードについて、サンプルリードからのサブストリングシーケンスは、参照ゲノム（例えば、図５の参照ゲノム１４）の異なる部分を表す参照シーケンスと比較される。サブストリングシーケンスは、サンプルリードからの塩基の連続するシーケンスを含む。サブストリングシーケンスは、１つ以上のホスト１０１又はデバイス１０２によってランダムに選択され得る。他の実装では、サブストリングシーケンスは、サブストリングシーケンスがサンプルリード全体に広がるように選択され得る。関連する同時係属出願第１６／８２０，７１１号に記載され、また上述したように、１７～２５個の塩基の長さを有するサブストリングシーケンスは、Ｈ３８などの参照ゲノム内のサブストリングシーケンスを位置付けるために、ほとんどのサブストリングシーケンスに対して十分な数の固有の一致を提供することができる（すなわち、参照ゲノム内の１つの位置にのみ一致する）。

【0059】

当業者は、参照ゲノムの特定の部分に関連する遺伝状態のための医学的診断又はスクリーニングの場合であり得るように、異なる参照ゲノム又は参照ゲノムの一部を使用する場合など、他の例の場合には、異なるサブストリング長さ又はデバイス１０２におけるセルの各グループにおける異なる所定の数のセルが好ましい場合があることを、本開示を参照して理解するであろう。更に、計算コスト、デバイス１０２のアレイ（複数可）１０４におけるセル数、及びより多数の固有のマッチに関する精度の間の異なるトレードオフもまた、アレイ（複数可）１０４内のセルの各グループに使用されるセルの数に影響を及ぼし得る。

【0060】

ブロック６０４において、各サンプルリードについて、サンプルリードから取得された比較されたサブストリングシーケンスのうちの１つ以上に一致する１つ以上の参照シーケンスが識別される。一致する参照シーケンスを識別する際に、デバイス１０２のアレイ（複数可）１０４内のセル１１０のグループは、図２のアレイ１０４の例で上述したように、参照ゲノムの一部を表す参照シーケンスを記憶するものとして識別され得る。いくつかの実装では、識別は、例えば、アレイ（複数可）１０４及び／又はデバイス１０２の回路１０６内のセルのＸＮＯＲ及びＡＮＤゲートの組み合わせなどによって、論理ゲートを使用してデバイス１０２によって行われ得る。他の実装では、一致する参照シーケンス又は一致する参照シーケンスを記憶するセルのグループの識別は、内積又は値のドット積を使用することなどによって、塩基の記憶された参照値及びサンプル値を使用して計算を実行することによって行われ得る。

【0061】

ブロック６０６では、システム１００は、１つ以上の比較されたサブストリングシーケンスに一致する１つ以上の参照シーケンスに基づいて、参照ゲノム内の各サンプルリードのための確率的位置を決定する。デバイス１０２のアレイ１０４内のセルの第１の一致グループは、各サブストリングシーケンスの位置として使用されてもよく、又は代替的に、いくつかのサブストリングシーケンスがセルの複数の一致するグループをもたらすと仮定して、サブストリングシーケンスの可能な位置として、セルの複数のマッチンググループが使用され得る。場合によっては、サブストリングシーケンスは、いかなる一致する参照シーケンスも有しない場合がある。デバイス１０２の回路１０６又はホスト１０１によってブロック６０６で決定されたサンプルリードの位置は、サンプルリードから異なるサブストリングシーケンスに対して複数の可能な位置を識別することができ、一致する位置から導出されたコンセンサス又は統計を使用して、参照ゲノム内のサンプルリードを確率的に位置付けることができるという意味で確率的であることができる。

【0062】

【0063】

ブロック６０８において、デバイス１０２又は１つ以上のホスト１０１は、それぞれのサンプルリードについてブロック６０６で決定された確率的位置に基づいて、参照整列式シーケンシングのための参照ゲノムを分割する。参照ゲノムのパーティションは、サンプルリードについて決定された位置の分布に基づいてサイズが変化し得る。例えば、パーティションのサイズは、各パーティションが、他の参照パーティション又はサンプルグループとしてサンプルリードの数の１０％以内を有する各参照パーティション又はサンプルグループによって、ほぼ等しい数のサンプルリードを有するサンプルグループに関連付けられるように、パーティション内に位置するサンプルリードの数に基づき得る。他の実装では、参照ゲノムのパーティションは等しく分割され得、サンプルグループ間のサンプルリードの数のより大きな変動が許容され得る。

【0064】

これに関して、参照ゲノムの部分内に確率的な位置を有するサンプルリードがない場合、参照ゲノムのいくつかの部分は、廃棄されるか、又はサンプルグループに割り当てられない場合がある。そのような場合は、例えば、参照ゲノムの特定の部分にのみ関連し得る医療診断又はスクリーニングに起因し得る。そのような場合、処理リソース、メモリリソース、及び時間に関する参照整列式シーケンシングの効率は、完全参照ゲノムを記憶して比較する必要がないことによって、更に改善される。

【0065】

ブロック６１０において、参照ゲノムの異なるパーティションは、ホスト１０１のメモリ１１２内などの異なるメモリに記憶される。各ホスト１０１は、参照ゲノムを記憶するシステム１００内の共有メモリなどの、デバイス１０２から、又は別のデバイスから参照ゲノムの一部分を受信し得る。図５を参照して上述したように、異なるメモリに参照ゲノムの局所化されたパーティションを記憶することは、サンプルリードがランダムにグループ化された場合であるように、参照ゲノム全体を複数のより大きなメモリに記憶する必要なしに、より多くの数の処理コアによる並列処理を可能にすることができる。

【0066】

ブロック６１２において、デバイス１０２又はホスト１０１のうちの１つ以上は、それぞれのサンプルリードの決定された確率的位置に基づいて複数のサンプルリードを複数のサンプルグループに選別する。サンプルリードは、各サンプルグループがほぼ同じ数のサンプルリードを含むように選別され得る（例えば、最もサンプルリードを有するサンプルグループの１０％の範囲内）。いくつかの実装では、インデックス１０又はデータ構造の一部は、サンプルグループ１１としてホスト１０１によって処理されるサンプルリードのグループを示すホスト１０１にデバイス１０２によって提供され得る。そのような実装では、各ホスト１０１は、割り当てられたサンプルグループ１１に対応するサンプルリードを共有メモリから検索し得る。他の実装では、デバイス１０２は、ホスト１０１に割り当てられたサンプルグループ１１内に確率的に位置するサンプルリードを有する各ホスト１０１を提供し得る。更に他の実装では、割り当てられたサンプルグループのためのサンプルリードは、別のホスト１０１から検索され得る。

【0067】

ブロック６１４において、参照ゲノムの異なるパーティションは、サンプルグループにおけるサンプルリードの確率的位置に基づいて、それぞれのサンプルグループと関連付けられる。上記のように、参照ゲノムのパーティションは、サンプルグループ内のサンプルリードについて決定された確率的位置の分布に基づいてサイズが変化し得る。これに関して、パーティションのサイズは、各パーティションがほぼ等しい数のサンプルリードに関連付けられるように、パーティション内に位置するサンプルリードの数に基づき得る。他の実装では、参照ゲノムのパーティションは、サンプルグループ内のサンプルリードの分布を考慮することなく等しく分割され得る。

【0068】

ブロック６１６において、各サンプルグループ１１は、ブロック６１０において参照ゲノムの関連付けられたパーティションを記憶するために使用される同じ又は異なるメモリであり得る異なるメモリに記憶される。いくつかの実装では、各ホスト１０１は、図１のメモリ１１２と同様に、それぞれの関連するサンプルグループ１１及び参照ゲノムパーティション１２を記憶する、自己のメモリを含み得る。上述のように、ホスト１０１間に分散されたより多数のメモリを使用することは、通常、２ＴＢＤＲＡＭなどの単一の大きなメモリに複数のサンプルリードの全てを記憶するよりも安価である。更に、各メモリは、ホスト１０１のプロセッサ１０９によってアクセスすることができ、同時に並行して動作するように、より多くの計算スレッドを可能にする。これは、サンプルリードのより速いシーケンシング又はアセンブリを提供することができる。

【0069】

ブロック６１８では、サンプルグループのサンプルリードをサンプルグループの参照ゲノムの関連するパーティションと比較することによって、各サンプルグループのサンプルリードが整列させられる。ブロック６１８における比較は、参照整列式シーケンシングの従来の技術のように、サンプルリードを完全参照ゲノムと比較するよりも、迅速に完了することができる。なぜならば、参照ゲノムのパーティションのサイズがより小さいため、サンプルグループ内のサンプルリードを位置付けるために必要な比較が少ないためである。更に、より多くのメモリにおける参照ゲノムのより小さいパーティションの記憶は、より多くの計算されたスレッドが異なるメモリに記憶された参照ゲノムのパーティションにアクセスすることを可能にするより大きなスケーラビリティを促進する。

【0070】

本開示を参照して当業者には理解されるように、図６に示されるブロックの順序は、他の実装では異なり得る。例えば、ブロック６０８における参照ゲノムの分割は、ブロック６１２において複数のサンプルリードを複数のサンプルグループに選別した後に行い得る。別の例として、各サンプルグループは、ブロック６１０において異なるメモリに参照ゲノムの異なるパーティションを記憶する前に、ブロック６１６において異なるメモリに記憶され得る。更に別の例として、ブロック６０２～６０６は、ブロック４０８において参照ゲノムを分割することへ進む前に、サンプルリードの反復のために順番に繰り返され得る。

【0071】

上述のように、前述の参照ガイド式デバイス及び方法は通常、サンプルリードが参照ゲノム内に確率的に位置付けられることを可能にする。これは、さらなるシーケンシングのために参照ゲノム内のそれらの位置に基づいてサンプルリードをグループに前処理することによって、デノボ及び参照整列式シーケンシングの効率を改善することができる。デノボシーケンシングの場合、これは、より少数の計算スレッドによってサンプルリードの全てにアクセスするためにより大きくかつより高価なメモリが使用される従来の方法と比較して、より多くの計算スレッドがより小さいメモリのサンプルリードの複数の局所化されたグループにアクセスすることを可能にすることによって、デノボシーケンシングのスケーラビリティ及び効率を改善することができる。参照整列式シーケンシングの場合、サンプルリードの局所化されたグループは、参照ゲノムのより小さくかつ統計的により関連した部分が、各局所化されたグループのためのより小さくかつより安価なメモリに記憶されることを可能にする一方、それぞれが完全参照ゲノムを記憶する１つ又は著しく少ない共有メモリを使用し得る従来の参照整列式シーケンシングと比較して、スケーラビリティを改善するように、より多くの計算スレッドが複数のより小さなメモリにアクセスすることを可能にする。
他の実施形態

【0072】

当業者は、本明細書に開示される実施例に関連して説明される様々な例示的な論理ブロック、モジュール、及びプロセスが、電子ハードウェア、ソフトウェア、又は両方の組み合わせとして実装され得ることを理解するであろう。更に、前述のプロセスは、プロセッサ、コントローラ、又は他の回路に特定の機能を行わせる又は実行させるコンピュータ可読媒体上で具体化することができる。

【0073】

ハードウェア及びソフトウェアのこの互換性を明確に説明するために、様々な例示的な構成要素、ブロック、及びモジュールが、概してそれらの機能性に関して上述されている。そのような機能がハードウェア又はソフトウェアとして実装されるかどうかは、システム全体に課せられる特定のアプリケーション及び設計制約に依存する。当業者は、それぞれの特定の用途ごとに様々な方法で、記載された機能を実装し得るが、そのような実装決定は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。

【0074】

本明細書に開示される実施例に関連して説明される様々な例示的な論理ブロック、ユニット、モジュール、及び回路は、本明細書に記載の機能を実行するように設計された汎用プロセッサ、ＧＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ若しくは他のプログラマブル論理デバイス、個別のゲート若しくはトランジスタロジック、個別のハードウェア構成要素、又はそれらの任意の組み合わせで実施又は実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又は状態機械であり得る。プロセッサ又はコントローラ回路はまた、コンピューティングデバイス、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＳｏＣ、ＤＳＰコアと組み合わせた１つ以上のマイクロプロセッサ、又は任意の他のそのような構成の組み合わせとして実装され得る。

【0075】

本明細書に開示される実施例に関連して説明される方法又はプロセスのアクティビティは、ハードウェア、プロセッサ、若しくはコントローラ回路によって実行されるソフトウェアモジュール、又は２つの組み合わせにおいて直接具体化され得る。方法又はアルゴリズムのステップはまた、実施例に提供されるものから代替の順序で実行され得る。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルメディア、光メディア、又は当技術分野で知られている任意の他の形式の記憶媒体に存在し得る。例示的な記憶媒体は、プロセッサ又はコントローラ回路が、記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサ又はコントローラ回路に結合される。代替的に、記憶媒体は、プロセッサ又はコントローラ回路と一体であり得る。プロセッサ又はコントローラ回路及び記憶媒体は、ＡＳＩＣ又はＳｏＣに存在し得る。

【0076】

開示された例示的な実施形態の前述の説明は、当業者が本開示の実施形態を作製又は使用することを可能にするために提供される。これらの実施例に対する様々な修正は、当業者には容易に明らかであり、本明細書に開示される原理は、本開示の範囲から逸脱することなく他の実施例に適用され得る。説明された実施形態は、あらゆる点で、例示的であり、かつ制限的でないものと考慮されるべきである。更に、以下の特許請求の範囲における「Ａ及びＢのうちの少なくとも１つ」の形態の言語の使用は、「Ａのみ、Ｂのみ、又はＡ及びＢの両方」を意味すると理解されるべきである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版