(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】ハイスループット・シーケンシングにおける脅威検出のためのFAST-NA
(51)【国際特許分類】
G16B 30/00 20190101AFI20241119BHJP
【FI】
G16B30/00
(21)【出願番号】P 2022562675
(86)(22)【出願日】2021-02-22
(86)【国際出願番号】 US2021019077
(87)【国際公開番号】W WO2021216184
(87)【国際公開日】2021-10-28
【審査請求日】2022-10-14
(32)【優先日】2020-04-22
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-04-22
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520435267
【氏名又は名称】レイセオン ビービーエヌ テクノロジーズ コープ
【氏名又は名称原語表記】RAYTHEON BBN TECHNOLOGIES CORP.
【住所又は居所原語表記】10 Moulton Street Cambridge Massachusetts 02138 US
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ビール,ジェイコブ,スチュアート,マイケル
(72)【発明者】
【氏名】ミッチェル,トーマス,クッシング
(72)【発明者】
【氏名】ウィショグロッド,ダニエル
【審査官】鈴木 和樹
(56)【参考文献】
【文献】米国特許出願公開第2016/0132640(US,A1)
【文献】米国特許出願公開第2018/0089365(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
プロセッサによって実行される、リアルタイムでシーケンサーの出力を解析する方法であって、当該方法は:
複数の標的シグネチャー断片を
少なくとも1つのデータベースから得る段階であって、各標的シグネチャー断片は、
指定された遺伝的標的のグループ
に含まれる遺伝的標的の遺伝的配列に由来する
ものであり、かつ、標的を非標的と区別するものであるとして前記少なくとも1つのデータベースに登録されている遺伝子配列の断片である、段階と;
リアルタイムで試料を配列決定するシーケンサーにより出力される試験配列の複数の部分を受領する段階と;
前記シーケンサーが前記試料を配列決定するのとリアルタイムで、前記複数の標的シグネチャー断片の少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを判定する段階と;
前記遺伝的標的のグループの
各遺伝的標的について、前記複数の標的シグネチャー断片の少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかの前記判定に少なくとも基づいて、
その遺伝的標的が前記試料において存在するそれぞれの確率を決定する段階と;
前記試料の解析を出力する段階であって、該解析は、各遺伝的標的が前記試料中に存在するそれぞれの確率を示す、段階とを含む、
方法。
【請求項2】
前記試験配列の前記複数の部分は、第1の部分と第2の部分とを含み、前記シーケンサーによって出力される前記試験配列の前記第1の部分は、前記試験配列の前記第2の部分が前記シーケンサーによって生成される前に受領される、請求項1に記載の方法。
【請求項3】
前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを判定する前に、前記試験配列の前記複数の部分をフィルタリングすることを含む、請求項1に記載の方法。
【請求項4】
前記試験配列の前記複数の部分をフィルタリングすることは、前記試験配列の前記複数の部分から前記試験配列の低品質部分を除去することを含む、請求項3に記載の方法。
【請求項5】
前記試験配列の低品質部分は、連続して繰り返される閾値数より多くの核酸塩基をもつ前記試験配列の部分を含む、請求項4に記載の方法。
【請求項6】
遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的に対応するそれぞれの複数の標的シグネチャー断片のうちの少なくとも1つのそれぞれの標的シグネチャー断片が前記試験配列において存在すると判定された回数を示すカウント値を決定することをさらに含む、請求項1に記載の方法。
【請求項7】
前記遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的が前記試料において存在するそれぞれの確率を決定することは、それぞれの遺伝的標的のそれぞれのカウント値に基づく、請求項6に記載の方法。
【請求項8】
それぞれの遺伝的標的が前記試料において存在するそれぞれの確率は、それぞれの遺伝的標的のそれぞれのカウント値が増加するにつれて増加する、請求項7に記載の方法。
【請求項9】
それぞれの遺伝的標的のそれぞれのカウント値がそれぞれの閾値を超えるかどうかを判定する段階と;
それぞれのカウント値が前記閾値を超えることに基づいて、それぞれの遺伝的標的が前記試料において存在すると判定する段階とをさらに含む、
請求項7に記載の方法。
【請求項10】
リアルタイムでシーケンサーの出力を解析するためのシステムであって、当該システムは:
メモリ;
標的シグネチャー断片を記憶するように構成された少なくとも1つのデータベース;
前記メモリおよび前記少なくとも1つのデータベースに結合された少なくとも1つのプロセッサを有しており、前記プロセッサは:
複数の標的シグネチャー断片を前記少なくとも1つのデータベースから取得する段階であって、各標的シグネチャー断片は、
指定された遺伝的標的のグループ
に含まれる遺伝的標的の遺伝的配列に由来する
ものであり、かつ、標的を非標的と区別するものであるとして前記少なくとも1つのデータベースに登録されている遺伝子配列の断片である、段階と;
試料をリアルタイムで配列決定するシーケンサーによって出力される試験配列の複数の部分を受領する段階と;
前記シーケンサーが前記試料を配列決定するのとリアルタイムで、前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを判定する段階と;
前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の前記少なくとも1つの部分に存在するかどうかの前記判定に少なくとも基づいて、前記遺伝的標的のグループの
各遺伝的標的について、
その遺伝的標的が前記試料において存在するそれぞれの確率を決定する段階と;
前記試料の解析を出力する段階であって、該解析は、各遺伝的標的が前記試料において存在するそれぞれの確率を示す、段階とを実行するように構成されている、
システム。
【請求項11】
前記試験配列の前記複数の部分は、第1の部分と第2の部分とを含み、前記シーケンサーによって出力される前記試験配列の前記第1の部分は、前記試験配列の前記第2の部分が前記シーケンサーによって生成される前に受領される、請求項10に記載のシステム。
【請求項12】
前記シーケンサーをさらに含む、請求項11に記載のシステム。
【請求項13】
前記少なくとも1つのプロセッサはさらに、前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを判定する前に、前記試験配列の前記複数の部分をフィルタリングするように構成されている、請求項10に記載のシステム。
【請求項14】
前記試験配列の前記複数の部分をフィルタリングすることは、前記試験配列の前記複数の部分から前記試験配列の低品質部分を除去することを含む、請求項13に記載のシステム。
【請求項15】
前記試験配列の低品質部分は、連続して繰り返される閾値数より多くの核酸塩基をもつ前記試験配列の部分を含む、請求項14に記載のシステム。
【請求項16】
前記少なくとも1つのプロセッサは、さらに、前記遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的に対応するそれぞれの複数の標的シグネチャー断片のうちの少なくとも1つのそれぞれの標的シグネチャー断片が前記試験配列において存在すると判定された回数を示すカウント値を決定するように構成されている、請求項10に記載のシステム。
【請求項17】
前記遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的が前記試料において存在するそれぞれの確率を決定することは、それぞれの遺伝的標的のそれぞれのカウント値に基づく、請求項16に記載のシステム。
【請求項18】
それぞれの遺伝的標的が前記試料において存在するそれぞれの確率は、それぞれの遺伝的標的のそれぞれのカウント値が増加するにつれて増加する、請求項17に記載のシステム。
【請求項19】
前記少なくとも1つのプロセッサは、さらに:
それぞれの遺伝的標的のそれぞれのカウント値がそれぞれの閾値を超えるかどうかを判定し;
それぞれのカウント値が前記閾値を超えることに基づいて、それぞれの遺伝的標的が前記試料において存在すると判定するように構成されている、
請求項17に記載のシステム。
【請求項20】
シーケンサーの出力をリアルタイムで解析するためのコンピュータ実行可能命令のシーケンスを記憶している非一時的なコンピュータ読み取り可能媒体であって、前記コンピュータ実行可能命令のシーケンスは、少なくとも1つのプロセッサに:
複数の標的シグネチャー断片を
少なくとも1つのデータベースから取得する段階であって、各標的シグネチャー断片は、
指定された遺伝的標的のグループのそれぞれの遺伝的標的の遺伝的配列に由来する
ものであり、かつ、標的を非標的と区別するものであるとして前記少なくとも1つのデータベースに登録されている遺伝子配列の断片である、段階と;
試料をリアルタイムで配列決定するシーケンサーによって出力される試験配列の複数の部分を受領する段階と;
前記シーケンサーが前記試料を配列決定するのとリアルタイムで、前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを判定する段階と;
前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の前記少なくとも1つの部分に存在するかどうかの前記判定に少なくとも基づいて、前記遺伝的標的のグループの
各遺伝的標的について、
その遺伝的標的が前記試料において存在するそれぞれの確率を決定する段階と;
前記試料の解析を出力する段階であって、該解析は、各遺伝的標的が前記試料において存在するそれぞれの確率を示す、段階とを実行するように命令する命令を含む、
媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2020年4月22日出願の「検出および診断標的化のためのFAST-NA」と題する米国仮出願第63/013,872号、および2020年4月22日出願の「ハイスループット・シーケンシングにおける脅威検出のためのFAST-NA」と題する米国仮出願第63/013,875号に対し、米国特許法第119条(e)項に基づく優先権を主張するものであり、各出願は参照によりその全体が本明細書に組み込まれる。
【0002】
技術分野
本願は、概括的には、特定の遺伝子配列を検出することに関し、より詳細には、一側面では、悪質な遺伝子配列の断片を識別および/または分類するために配列フィルタを使用するためのシステムおよび方法に関する。
【背景技術】
【0003】
現在、研究所は、核酸配列情報を用いてデオキシリボ核酸(DNA)や他の配列を製造することが可能である。例示的なシナリオでは、顧客が遺伝子配列中のヌクレオチドを(電子テキストファイルのように簡単なフォーマットで)研究所に提供し、研究所が顧客に配送するために該配列を合成(すなわち製造)する。この技術は、悪質な有機体(organism)の合成をひそかに要求する悪質な行為者の恐怖を引き起こす。インフルエンザや炭疽のような疾病が効果的に「メールオーダー」され、それにより公衆衛生上のリスクをもたらす可能性がある。そのようなシナリオを防ぐために、そのような合成サービスを提供する研究所は、典型的には、その配列が悪質な有機体と関連していないことを保証するために、顧客によって提供された遺伝子配列を検査する。
【0004】
現在の技術は、約200塩基対ほどの短い配列を認識することができる。だが、クラスター化された規則的に間隔をおいた短い回文反復(Clustered Regularly Interspaced Short Palindromic Repeat、CRISPR)機構などのオリゴ・ベースの組み立ておよび編集における最近の進歩により、DNAの小さなセグメントを一緒に「切り取ってはぎ合わせる」ことが可能になっている。したがって、無分別な顧客は、悪質な有機体のパーツを複数の良質な有機体のDNA配列に埋め込んだり、または他の仕方で悪質な有機体を小さな断片で合成したりすることにより、検知されることを避けることができた。これらの短いまたはハイブリッドDNA配列からの病原性配列は、それらが合成され、送達された後、悪質な有機体に再構築されうる。
【0005】
遺伝物質の試料は、病原性遺伝物質を含む幅広い多様な遺伝物質を含みうる。試料は、試料中に存在する一つまたは複数の病原体を識別するために、解析されることができる。たとえば、関心対象の病原体が試料中に存在するかどうかを判定するために、試料が解析されてもよい。試料は、試料を解析して試料の遺伝子配列を示す情報を出力するように構成された「シーケンサー」によって配列決定されうる。関心対象の病原体が試料中に存在するかどうかを判定するために、その遺伝子配列が解析されてもよい。
【発明の概要】
【課題を解決するための手段】
【0006】
側面および実施形態は、標的有機体「シグネチャー」(標的有機体に存在するが、類似しているが非標的の有機体には存在しない比較的短い遺伝子配列の断片)を識別するための装置および方法に向けられる。何が「標的有機体」と考えられるか、および何が標的有機体を「非標的有機体」から区別するかは、ユーザーによって制御または選択されうる。たとえば、標的有機体は、SARS-CoV-2コロナウイルスのような悪質な有機体であってもよく、非標的有機体は、他の悪質でないコロナウイルスのような良性の有機体であってもよい。他の例では、標的有機体シグネチャーは、非標的有機体から区別することが望ましいことがありうる任意の標的有機体のシグネチャーをより広く指しうる。すなわち、標的有機体は悪質な有機体であってもよいが、「標的有機体」という句は悪質な有機体よりも広いことが理解されるべきである。たとえば、標的有機体は、特定の種、属、または他の生物学的分類に属する生命体であってもよく、非標的有機体は、その特定の生物学的分類に属さない生命体であってもよい。標的基準の他の例も、本開示の範囲内である。さまざまな例において、標的有機体または標的遺伝子配列は、代替的にまたは追加的に「関心対象の遺伝子配列」または「関心対象の病原体」と称され、その配列または病原体が「良性」、「悪質」であるなど他の点でどのように分類されるかにかかわらなくてもよい。
【0007】
しかしながら、説明のために、標的有機体が悪質な有機体であり、標的シグネチャーが悪質な遺伝子配列断片である例が与えられる。これらの例は説明の目的で提供されるものであり、限定することを意図したものではない。解析されるべき配列中のそのようなシグネチャーの検出は、あるレベルの確実性をもって、その配列が悪質な遺伝暗号を含むことを示すことができる。たとえば、その配列が合成を要求された配列である場合、その配列の合成は、拒否される、またはさらなる調査およびレビューが完了するまで延期されることができる。いくつかの例では本開示の原理は、合成手順に適用可能である(たとえば、合成手順を実施するか否かに関する決定を助けるため)が、本開示の原理は、合成に関わる例に限定されないことを理解されたい。よって、単に説明の目的のために提供される、合成に関わる例によって、限定は暗示されない。
【0008】
そのようなシグネチャーはまた、その配列が遺伝情報を含む有機体のタイプ(悪質か否か)に従って配列を分類するために使用されることもできる。他の例では、試料中の標的有機体を識別するために、配列が標的遺伝暗号を含むかどうかを判定するために、試料が解析されてもよい。たとえば、試料がSARS-CoV-2コロナウイルスを含むかどうかを判定するために、試料が解析されてもよい。
【0009】
悪質な有機体のシグネチャーを識別するために、既知の悪質な有機体の配列および一つまたは複数の既知の良性の有機体についての配列が使用されてもよい。それぞれの配列は比較的短い断片に分解され、悪質な有機体の断片が良性の有機体の断片と比較される。より効率的な比較のために、良性の有機体の断片は、ブルーム(Bloom)・フィルタのような確率的データ構造に配置されてもよい。一致が見つかった場合、すなわち、その悪質な有機体の断片が良性の有機体にも存在する場合、その悪質な有機体の断片は、その悪質な有機体にとって適切なシグネチャーではない。他方、その悪質な有機体のシグネチャー断面がその悪質な有機体にのみ存在することが知られている場合には、その悪質な有機体の断片は適切なシグネチャーである可能性がある。適切なシグネチャーは、その有機体の種、その断片が採取された試料の識別子、および/またはその試料内のその断片の位置を含む、その断片または対応する悪質な有機体に関するメタデータとともに、悪質なシグネチャーのデータベースに記憶されてもよい。
【0010】
いくつかの例では、シグネチャーの集合がフィルタリングされて、一つまたは複数の普遍的シグネチャーの、より小さい集合を識別してもよい。たとえば、コロナウイルス疾患2019(COVID-19)を引き起こす重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)ウイルスのいくつかの変異体の配列のような、既知の悪質な有機体の変異体のグループが、一つまたは複数の標的シグネチャーを得るために解析されてもよい。上記で論じたように、標的シグネチャーのそれぞれは、それが前記一つまたは複数の既知の良性の有機体の配列のいずれにも存在せず、よって悪質な有機体を一意的に識別しうるので、シグネチャーとして識別されてもよい。標的シグネチャーのグループは、その後、それらの標的シグネチャーのうち、変異体のグループのすべての変異体に存在するものを識別することによって、フィルタリングされてもよい。この部分集合内の標的シグネチャーは、各シグネチャーがその悪質な有機体のすべての変異体に普遍的に存在するということで、「普遍的〔ユニバーサル〕シグネチャー」と称されることがある。たとえば、SARS-CoV-2ウイルスの変異体のグループを考える。普遍的シグネチャーは、SARS-CoV-2ウイルスの各変異体の配列中に存在し、かつその普遍的シグネチャーを生成するために使用される良性な有機体の一つまたは複数の配列中に存在しないシグネチャーである。普遍的シグネチャーは、任意的に、さらに処理され、その後の解析のためにシグネチャー・データベースに記憶されてもよい。
【0011】
1つのアプローチでは、未知の配列(たとえば、顧客によって提供されたもの)は、その配列が一つまたは複数のシグネチャー断片を含むかどうかを迅速に判定することができるシグネチャー・データベースと比較することによって試験されることができ、それにより、その配列を潜在的に悪質なものとして識別することができる。断片と一緒に記憶されたメタデータは、識別を助ける、または洗練し、識別における信頼レベルを決定するために使用されてもよく、またはさらなる解析のために他のシステムまたはユーザーに提供されてもよい。第2のアプローチでは、試験される配列は、複数のそのようなフィルタと比較されることができ、それらのフィルタのそれぞれは、特定のカテゴリーの有機体についてのシグネチャーを含む。たとえば、1つのフィルタはインフルエンザ・シグネチャー断片を識別してもよく、別のフィルタは炭疽菌シグネチャー断片を識別してもよい。より効率的な分類のために、シグネチャー断片の各フィルタは、ブルーム・フィルタのような確率的データ構造内に配置されてもよい。このようにして、配列は、それが遺伝情報を含む有機体の一つまたは複数のタイプに従って分類されることができる。
【0012】
いくつかの例では、シーケンサーが試料の配列決定を終了する前に、一つまたは複数の有機体の試料に基づく、シーケンサーによる未知配列出力(たとえば、DNAシーケンサーによるDNA配列出力)が解析されてもよい。解析は、シーケンサーの動作とリアルタイムまたはほぼリアルタイムで実行されうる。すなわち、解析は、シーケンサーがまだ試料の配列決定を行っている間に、実行されてもよい。いくつかの例では、解析は、メガバイト(MB)毎分で測定されるような、シーケンサーが試料を配列決定する速度とほぼ等しいか、またはそれよりも大きい速度で実行されうる。よって、本明細書で使用されるところでは、「リアルタイム」または「ほぼリアルタイム」の解析とは、シーケンサーによって試験配列が出力されることと試験配列が解析されることとの間に、解析手順に付随するのでない意図的な遅延を全く挿入することなく、シーケンサーによって試験配列が出力される際にその試験配列に対して実行される解析をいう。いくつかの例では、解析は、MB/分で測定されるような、シーケンサーが試料を配列決定する速度とほぼ等しいか、またはそれよりも大きい速度で解析が行われる限り、「リアルタイム」または「ほぼリアルタイム」とみなされてもよい。いくつかの例では、解析は、シーケンサーが試料の配列決定を終了する前に、遺伝子配列がシーケンサーによって最初に配列決定されてから数ミリ秒以内に、その遺伝子配列の特定の部分について実行および/または完了されてもよい。他の例では、解析は、数ナノ秒、数マイクロ秒、数秒などのような異なる時間以内に、遺伝子配列の特定の部分について実行および/または完了されてもよい。
【0013】
配列中に標的が検出される回数の記録がつけられてもよい。いくつかの例ではシーケンサーによって出力される配列全体が解析されるかもしれないので、標的がそのシーケンスによって表されることを示す悪質な断片を識別する多くの機会があるかもしれない。一つまたは複数の脅威のそれぞれが試料中に存在する確率が、それぞれの脅威が識別された回数に基づいて決定されてもよい。たとえば、配列内で1回識別されるだけの脅威には低い確率が割り当てられてもよく、一方、配列内で100回より多く識別される脅威には高い確率が割り当てられてもよい。
【0014】
本明細書に記載されるシステムおよび方法は、悪質な有機体の識別および/または分類に限定されない。たとえば、いくつかの用途では、遺伝的配列(たとえば、非悪質な有機体からの)は、種、タクソン、または有機体の他のカテゴリーを識別するために、シグネチャー・データベースと突き合わせて比較されてもよい。
【0015】
ある側面によれば、悪質な有機体配列の領域を識別する方法が提供される。この方法は、少なくとも1つの良性有機体から得られた第1の配列から導出された複数の良性の断片を識別する段階と;悪質な有機体から得られた第2の配列から複数の候補シグネチャー断片を抽出する段階と;前記複数の候補シグネチャー断片のそれぞれについて、その候補シグネチャー断片が前記複数の良性の断片のうちの少なくとも1つと一致するかどうかを判定する段階と;前記候補シグネチャー断片が前記複数の良性の断片のうちの前記少なくとも1つと一致しないことに応答して、前記候補シグネチャー断片を悪質なシグネチャー断片として識別する段階とを含む。
【0016】
ある実施形態では、本方法は、悪質なシグネチャー断片が少なくとも1つの試験配列中に存在するかどうかを判定することを含む。さらなる実施形態では、本方法は、前記少なくとも1つの試験配列に存在する複数の悪質なシグネチャー断片について、前記複数の悪質なシグネチャー断片の共通の特徴を決定することを含む。さらに別の実施形態では、前記複数の悪質なシグネチャー断片の共通の特徴を決定することは、前記複数の悪質なシグネチャー断片のうちの少なくとも1つの断片に関するメタデータを参照して実行される。さらなる実施形態では、メタデータは、断片が得られた有機体の属の識別子、断片が得られた有機体の種の識別子、および第2の配列上で断片が生成された位置のうちの少なくとも1つを含む。
【0017】
別の実施形態では、前記複数の良性の断片および候補シグネチャー断片は、DNA断片、RNA断片、およびアミノ酸断片のうちの1つである。別の実施形態では、前記複数の良性の断片は、確率的データ構造に配置される。さらなる実施形態では、確率的データ構造は、ブルーム・フィルタおよび探索木のうちの1つである。
【0018】
ある実施形態では、前記複数の良性断片を識別することは、少なくとも1つの良性有機体から得られた前記第1の配列から前記複数の良性断片を抽出することを含む。別の実施形態では、前記少なくとも1つの良性有機体は、少なくとも1つの悪質な株を有する有機体の、非悪質な株である。さらに別の実施形態では、前記少なくとも1つの良性有機体は、少なくとも1つの悪質な有機体を有する属に属する。
【0019】
別の実施形態では、本方法は、前記複数の良性断片に含まれるべき良性断片の最小数を予測することを含み、該最小数は閾値未満の偽陽性率を与えるのに十分であり、偽陽性率は、悪質な断片として識別された候補シグネチャー断片が良性有機体の配列中に存在する率である。さらなる実施形態では、良性の断片の最小数は、悪質な有機体のタイプに関連して選択される。
【0020】
ある実施形態では、前記複数の良性の断片は、第1の配列の複数のn長の部分配列であり、前記悪質な断片は、前記複数のn長の部分配列にはないn長の部分配列である。
【0021】
別の実施形態では、前記複数の候補シグネチャー断片は、その配列の第1の複数のn長の部分配列を含み、第1の複数のn長部分配列は、それぞれがその配列の異なる位置で始まり、前記複数の良性部分配列は、既知の良性配列の第2の複数のn長の部分配列を含み、前記第2の複数のn長の部分配列は、それぞれが前記既知の良性配列の異なる位置で始まる。別の実施形態では、悪質な断片は、病原体の遺伝子配列である。
【0022】
別の側面によれば、システムが提供される。システムは、少なくとも1つの良性有機体から得られた第1の配列からの複数の良性の断片を記憶するように構成された良性の断片データベースと、悪質な有機体から得られた第2の配列から複数の候補シグネチャー断片を抽出し;複数の候補シグネチャー断片のそれぞれについて、その候補シグネチャー断片が前記複数の良性の断片のうちの少なくとも1つと一致するかどうかを判定し;その候補シグネチャー断片が前記複数の良性の断片のうちの前記少なくとも1つと一致しないことに応答して、前記候補シグネチャー断片を悪性シグネチャー断片として識別するように構成されたプロセッサとを含む。
【0023】
別の側面によれば、生物学的配列を分類する方法が提供される。この方法は、第1の特質を有する第1の複数の有機体から第1の複数の配列断片を生成する段階と;第2の特質を有する第2の複数の有機体から第2の複数の配列断片を生成する段階と;複数の良性配列断片を識別する段階と;前記複数の良性配列断片のうちの少なくとも1つを除去するために、前記第1の複数の配列断片および前記第2の複数の配列断片をフィルタリングする段階とを含む。
【0024】
ある実施形態によれば、本方法は、以下を含む。試験配列が前記第1の複数の配列断片に存在するかどうかを判定する段階と;前記試験配列が前記第1の複数の配列断片に存在することに応答して、前記試験配列が前記第1の特質を有するものとして識別する段階と;前記試験配列が前記第2の複数の配列断片に存在するかどうかを判定する段階と;前記試験配列が前記第2の複数の配列断片に存在することに応答して、前記試験配列が前記第2の特質を有するものとして識別する段階とを含む。
【0025】
別の側面によれば、前記第1の複数の配列断片、前記第2の複数の配列断片、および前記複数の良性の配列断片は、DNA断片、RNA断片、およびアミノ酸断片のうちの1つである。
【0026】
さらに別の実施形態によれば、前記第1の複数の配列断片は、第1の確率的データ構造に配置され、前記第2の複数の配列断片は、第2の確率的データ構造に配置される。さらなる実施形態によれば、前記第1の確率的データ構造および前記第2の確率的データ構造は、それぞれ、ブルーム・フィルタおよび探索木の1つである。
【0027】
さらに別の実施形態によれば、前記第1の特質は第1のクラスの病原体を同定し、前記第2の特質は第2のクラスの病原体を同定する。
【0028】
少なくとも1つの例によれば、リアルタイムでシーケンサーの出力を解析する方法が提供され、該方法は、遺伝的標的のグループを識別する段階と、該遺伝的標的のグループを識別することに応答して複数の標的シグネチャー断片を得る段階であって、各標的シグネチャー断片は、該遺伝的標的のグループのそれぞれの遺伝的標的の遺伝的配列に由来する、段階と、リアルタイムで試料を配列決定するシーケンサーにより出力される試験配列の複数の部分を受領する段階と、前記シーケンサーが前記試料を配列決定するのとリアルタイムまたはほぼリアルタイムで、該複数の標的シグネチャー断片の少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを判定する段階と、該遺伝的標的のグループのそれぞれの遺伝的標的について、該複数の標的シグネチャー断片の少なくとも1つの標的シグネチャー断片が、前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかの前記判定に少なくとも基づいて、それぞれの遺伝的標的が前記試料中に存在する確率を決定する段階と、前記試料の解析を出力する段階であって、該解析は、各遺伝的標的が前記試料中に存在するそれぞれの確率を示す、段階とを含む。
【0029】
さまざまな例において、前記試験配列の前記複数の部分は、第1の部分と第2の部分とを含み、前記シーケンサーによって出力される前記試験配列の前記第1の部分は、前記試験配列の前記第2の部分が前記シーケンサーによって生成される前に受領される。少なくとも1つの例において、本方法は、前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを決定する前に、前記試験配列の前記複数の部分をフィルタリングすることを含む。さまざまな例において、前記試験配列の前記複数の部分をフィルタリングすることは、前記試験配列の前記複数の部分から前記試験配列の低品質部分を除去することを含む。少なくとも1つの例においては、前記試験配列の低品質部分は、連続して繰り返される閾値数より多くの核酸塩基をもつ前記試験配列の部分を含む。
【0030】
さまざまな例において、本方法は、遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的に対応するそれぞれの複数の標的シグネチャー断片のうちの少なくとも1つのそれぞれの標的シグネチャー断片が試験配列中に存在すると判定された回数を示すカウント値を決定することを含む。少なくとも1つの例において、遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的が試料中に存在するそれぞれの確率を決定することは、それぞれの遺伝的標的のそれぞれのカウント値に基づく。さまざまな例において、それぞれの遺伝的標的が試料中に存在するそれぞれの確率は、それぞれの遺伝的標的のそれぞれのカウント値が増加するにつれて増加する。少なくとも1つの例においては、本方法は、それぞれの遺伝的標的のそれぞれのカウント値がそれぞれの閾値を超えるかどうかを判定する段階と、それぞれのカウント値が閾値を超えることに基づいて、それぞれの遺伝的標的が試料中に存在すると判定する段階とを含む。
【0031】
少なくとも1つの例によれば、リアルタイムでシーケンサーの出力を解析するためのシステムが提供される。システムは、メモリ、標的シグネチャー断片を記憶するように構成された少なくとも1つのデータベース、前記メモリおよび前記少なくとも1つのデータベースに結合された少なくとも1つのプロセッサを有する。該プロセッサは、遺伝的標的のグループを識別する段階と、遺伝的標的のグループを識別することに応答して複数の標的シグネチャー断片を前記少なくとも1つのデータベースから取得する段階であって、各標的シグネチャー断片は、遺伝的標的のグループのそれぞれの遺伝的標的の遺伝子配列に由来する、段階と、試料をリアルタイムで配列決定するシーケンサーによって出力される試験配列の複数の部分を受領し、シーケンサーが試料を配列決定するのとリアルタイムまたはほぼリアルタイムで、複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、試験配列の前記複数の部分のうちの試験配列の少なくとも1つの部分に存在するかどうかを判定する段階と、複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、試験配列の前記複数の部分のうちの試験配列の前記少なくとも1つの部分に存在するかどうかの前記判定に少なくとも基づいて、遺伝的標的のグループのそれぞれの遺伝的標的について、それぞれの遺伝的標的が試料中に存在するそれぞれの確率を決定する段階と、試料の解析を出力する段階であって、該解析は、各遺伝的標的が試料中に存在するそれぞれの確率を示す、段階とを実行するように構成される。
【0032】
さまざまな例において、前記試験配列の前記複数の部分は、第1の部分と第2の部分とを含み、前記シーケンサーによって出力される前記試験配列の前記第1の部分は、前記試験配列の前記第2の部分が前記シーケンサーによって生成される前に受領される。少なくとも1つの例において、本システムはさらに前記シーケンサーを含む。さまざまな例において、前記少なくとも1つのプロセッサはさらに、前記複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が前記試験配列の前記複数の部分のうちの前記試験配列の少なくとも1つの部分に存在するかどうかを決定する前に、前記試験配列の前記複数の部分をフィルタリングするように構成される。少なくとも1つの例において、前記試験配列の前記複数の部分をフィルタリングすることは、前記試験配列の前記複数の部分から前記試験配列の低品質部分を除去することを含む。さまざまな例において、前記試験配列の低品質部分は、連続して繰り返される閾値数より多くの核酸塩基をもつ前記試験配列の部分を含む。
【0033】
少なくとも1つの例において、前記少なくとも1つのプロセッサは、さらに、遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的に対応するそれぞれの複数の標的シグネチャー断片のうちの少なくとも1つのそれぞれの標的シグネチャー断片が試験配列中に存在すると判定された回数を示すカウント値を決定するように構成される。さまざまな例において、遺伝的標的のグループの各遺伝的標的について、それぞれの遺伝的標的が試料中に存在するそれぞれの確率を決定することは、それぞれの遺伝的標的のそれぞれのカウント値に基づく。少なくとも1つの例において、それぞれの遺伝的標的が試料中に存在するそれぞれの確率は、それぞれの遺伝的標的のそれぞれのカウント値が増加するにつれて増加する。さまざまな例において、前記少なくとも1つのプロセッサは、さらに、それぞれの遺伝的標的のそれぞれのカウント値がそれぞれの閾値を超えるかどうかを判定し、それぞれのカウント値が閾値を超えることに基づいて、それぞれの遺伝的標的が試料中に存在すると判定するように構成される。
【0034】
さまざまな例によれば、シーケンサーの出力をリアルタイムで解析するためのコンピュータ実行可能命令のシーケンスを記憶している非一時的なコンピュータ読み取り可能媒体が提供され、コンピュータ実行可能命令のシーケンスは、少なくとも1つのプロセッサに、遺伝的標的のグループを識別する段階と、遺伝的標的のグループを識別することに応答して複数の標的シグネチャー断片を取得する段階であって、各標的シグネチャー断片は、遺伝的標的のグループのそれぞれの遺伝的標的の遺伝子配列に由来する、段階と、試料をリアルタイムで配列決定するシーケンサーによって出力される試験配列の複数の部分を受領し、シーケンサーが試料を配列決定するのとリアルタイムまたはほぼリアルタイムで、複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、試験配列の前記複数の部分のうちの試験配列の少なくとも1つの部分に存在するかどうかを判定する段階と、複数の標的シグネチャー断片のうちの少なくとも1つの標的シグネチャー断片が、試験配列の前記複数の部分のうちの試験配列の前記少なくとも1つの部分に存在するかどうかの判定に少なくとも基づいて、遺伝的標的のグループのそれぞれの遺伝的標的について、それぞれの遺伝的標的が試料中に存在するそれぞれの確率を決定する段階と、試料の解析を出力する段階であって、該解析は、各遺伝的標的が試料中に存在するそれぞれの確率を示す、段階とを実行するように命令する命令を含む。
【0035】
これらの例示的側面および実施形態のさらに他の側面、実施形態、および利点は、以下で詳細に議論される。本明細書に開示された実施形態は、本明細書に開示された原理の少なくとも1つと整合する任意の仕方で、他の実施形態と組み合わせることができる。「ある実施形態」、「いくつかの実施形態」、「代替的な実施形態」、「さまざまな実施形態」、「一実施形態」などへの言及は、必ずしも相互に排他的ではなく、記載された特定の特徴、構造、または特性が少なくとも1つの実施形態に含まれうることを示すことを意図している。本明細書におけるそのような用語の出現は、必ずしもみな同じ実施形態を指すものではない。
【図面の簡単な説明】
【0036】
少なくとも1つの実施形態のさまざまな側面が、添付の図面を参照して後述されるが、これらの図面は、同縮尺であることは意図されていない。図面は、さまざまな側面および実施形態の例解およびさらなる理解を提供するために含まれており、本明細書に組み込まれ、本明細書の一部を構成するが、本開示の外縁の定義として意図されるものではない。図面において、さまざまな図面に示されている同一またはほぼ同一の各構成要素は、同様の数字で表されている。明確のため、すべての構成要素がすべての図においてラベル付けされているわけではない。
【
図1】それらを本開示の諸側面による、シグネチャー断片を識別し、それらを試験配列と比較するためのコンピュータ・システムのブロック図である。
【
図2A】本開示の諸側面による、良性の断片の抽出を示す。
【
図2B】本開示の諸側面による、候補シグネチャー断片の抽出を示す。
【
図3】本開示の諸側面による、シグネチャー断片を識別するプロセスの一例のフロー図である。
【
図4】本開示の諸側面による、試験配列を試験するプロセスの一例のフロー図である。
【
図5】本開示の諸側面による、シグネチャー断片を識別し、それらを試験配列と比較するための別のコンピュータ・システムのブロック図である。
【
図6】本開示の諸側面による、シグネチャー断片を識別するプロセスの一例のフロー図である。
【
図7】本開示の諸側面による、試験配列を試験するプロセスの一例のフロー図である。
【
図8】本開示の諸側面および実施形態が実装されうるコンピュータ・システムの一例のブロック図である。
【
図9】本開示の諸側面による、標的シグネチャー断片のいくつかのセットの図である。
【
図10】本開示の諸側面による、シグネチャー断片をフィルタリングするプロセスの一例のフロー図である。
【
図11】一例による、シーケンサーの出力を解析する一例のフロー図である。
【発明を実施するための形態】
【0037】
遺伝子配列を識別し分類するシステムおよび方法が記載される。たとえば、悪質な有機体(たとえば、炭疽菌やインフルエンザのような病原体)の遺伝的特徴が単離されてもよい。そのような悪質な有機体のシグネチャーは、悪質な有機体には存在するが、関連する良性の有機体には存在せず、それにより該悪質な有機体の配列を一意的に識別する遺伝子配列の断片であってもよい。ひとたびそのような悪質な有機体シグネチャーが識別されると、試験配列がその悪質な有機体シグネチャーを含むかどうかを迅速に判定するために、未知の組成の試験配列が悪質な有機体シグネチャーと比較されることができる。もしそうなら、試験配列はさらなる調査のためにフラグを立てられてもよく、および/または悪質な配列情報を含むものとして識別されてもよい。
【0038】
悪質な配列を識別および/または分類するために、種々のアプローチが使用されうる。あるアプローチによれば、良性断片データベースには、既知の良性の有機体に由来する配列が入れられている。配列は、デオキシリボ核酸(DNA)配列、リボ核酸(RNA)配列、他の核酸配列、アミノ酸配列等を表すことができる。良性断片データベースは、ブルーム・フィルタのような確率的データ構造として配置されてもよく、良性の有機体は、関心対象の悪質な有機体との、それらの類似した構造または分類のために選択されてもよい。
【0039】
システムは、特定の悪質な有機体についての一つまたは複数のシグネチャー断片を識別することによって「トレーニングされる」。トレーニング・プロセスにおいて、悪質な有機体からの配列が、候補シグネチャー断片に分解される。次いで、各候補シグネチャー断片が存在するかどうかを判定するために、良性断片データベースが検査される。候補シグネチャー断片が良性断片データベースに存在する場合、候補シグネチャー断片は、適切なシグネチャー断片ではない、すなわち、それは、悪質な有機体にも良性の有機体にも同様に存在するので、悪質な有機体を識別するのに有用ではない。他方、候補シグネチャー断片が良性断片データベースに存在しない場合、候補断片は悪質な有機体を識別する際に使用される悪質なシグネチャー断片でありうる。つまり、試験配列中にその悪質なシグネチャーの断片が存在するということは、試験配列が良性断片データベース中に表されている良性の有機体のいずれにも由来しないことを意味する。次いで、悪質なシグネチャー断片が、トレーニング・プロセスの一部として、悪質シグネチャー・データベースに編成されることができる。断片および/または対応する悪質な有機体に関するメタデータも記憶されてもよい。メタデータは、有機体の〔生物分類上の〕種、断片が採取された試料の識別子、および試料内の断片の位置を含む。
【0040】
トレーニング・プロセスが完了した後では、システムは、未知の組成の配列を試験して、それらがトレーニング・プロセスにおいて識別された悪質なシグネチャー断片のいずれかを含むかどうかを判定することができる。試験配列断片と悪質シグネチャー・データベース内の悪質なシグネチャー断片との間の一致は、試験配列が悪質な有機体についての配列情報を含んでいる可能性があることを示し、試験配列はさらなる吟味のためにフラグを立てられてもよい。試験配列断片のある領域に一致する悪質なシグネチャー断片について記憶されているメタデータは、試験配列または試験配列断片を識別または分類するために参照されうる。たとえば、複数の悪質なシグネチャー断片が試験配列中に見つかった場合、一致する悪質なシグネチャー断片の共通の特徴が、メタデータから決定されうる。たとえば、一致する悪質なシグネチャー断片がすべて、特定の有機体の特定の試料(または関連する試料)からのものであると判断されることがあり、このことは、顧客がその有機体を複製しようとしていることを示唆しうる。
【0041】
別のアプローチによれば、複数のシグネチャー・データベースが使用されてもよく、各シグネチャー・データベースは、特定の既知のタイプまたはクラスの有機体についてのシグネチャー断片を収容する。たとえば、インフルエンザ・シグネチャー・データベースは、インフルエンザ有機体の一つまたは複数の配列に独特に存在するシグネチャー断片を記憶してもよく、炭疽菌シグネチャー・データベースについても同様である。トレーニング・プロセスにおいて、各シグネチャー・データベース中の断片は、良性断片データベース中に存在する任意の断片をフィルタリング除去して、その特定のシグネチャー・データベースによって表される有機体についての断片のみを残すために、上述のアプローチにおけるように、一つまたは複数の良性断片データベースと比較されてもよい。
【0042】
次いで、未知の構成の試験配列が試験配列断片に分解され、複数のシグネチャー・データベースのそれぞれと比較されることができる。特定のシグネチャー・データベースにおける試験配列断片の存在は、試験配列断片が対応する有機体タイプについての情報を含むことを示しうる。たとえば、試験配列断片とインフルエンザシグネチャーデータベース内のシグネチャー断片との一致は、試験配列がインフルエンザ病原体についての配列の一部または全部を含むことを示しうる。特定の試験配列からの異なる試験配列断片が、複数のシグネチャー・データベース内のシグネチャー断片と一致することがありうる。試験配列またはその領域を、それが配列情報を含んでいる可能性のある一つまたは複数の有機体タイプに従って分類するために、試験配列中の一致の数および/または一致の位置が使用されてもよい。
【0043】
本明細書に記載された方法および装置の実施形態は、適用においては、以下の説明に記載された、または添付の図面に示された構成要素の構成および配置の詳細に限定されないことを理解されたい。方法および装置は、他の実施形態において実装可能であり、さまざまな仕方で実施または実行されることができる。具体的な実装の例は、例解の目的のためだけに本明細書で提供されており、限定することを意図したものではない。また、本明細書中で使用される表現および用語は、記述のためのものであり、限定的に理解されるべきではない。本明細書における「含む」、「有する」、「もつ」、「包含する」、「関わる」およびそれらの変形の使用は、列挙された項目およびその等化物ならびに追加的な項目を包含することを意味する。「または」への言及は、包含的であると解釈でき、よって、「または」を使用して記載される用語が、記載される用語のうちの単一のもの、複数のもの、および全部を示しうる。前後、左右、頂底、上下、垂直および水平への言及は、説明の便宜のために意図されたものであり、本システムおよび方法またはそれらの構成要素を、いずれか1つの位置または空間配向に限定するものではない。
【0044】
図1は、悪質なシグネチャー断片であってもよい標的シグネチャー断片を識別する方法を実行するように構成されたシステム100についてのブロック図である。何が「標的有機体」と考えられるか、および何が標的有機体を「非標的有機体」から区別するかは、ユーザーによって制御または選択されうる。説明を明確にするために、
図1は、標的有機体が悪質な有機体であってもよく、非標的有機体が良性の有機体であってもよい例を提供するが、この例は限定するものではないことを理解されたい。
【0045】
システム100は、良性の有機体配列(図示せず)に由来するいくつかの良性断片112、114を記憶するように構成された良性断片データベース110を含む。いくつかの例では、良性断片データベース110は、それが非標的有機体配列から導出された断片を記憶するので、「非標的断片データベース」と考えることができる。システム100は、さらに、悪質な有機体配列(図示せず)または「標的有機体配列」から導出されたいくつかの候補シグネチャー断片122、124、ならびに候補シグネチャー断片122、124に関するメタデータ122'、124'を記憶するように構成された候補シグネチャー・データベース120を含む。たとえば、メタデータ122'、124'は、候補シグネチャー断片122、124が由来する有機体の生物学的分類を示す分類学的情報を示してもよい。システム100は、説明の目的のために、いくつかの異なるデータベース110、120、140、150を含むものとして説明されていることが理解されるべきである。いくつかの例では、システム100は、データベース110、120、140、150によって記憶される情報を記憶するように構成された追加のまたはより少ないデータベース(単一のデータベースを含む)を含むことができる。
【0046】
システム100はまた、候補シグネチャー断片122、124のそれぞれを良性断片データベース110と比較して、所与の候補シグネチャー断片122、124が良性断片112、114のいずれかと一致するかどうかを判定するように構成されたプロセッサ130を含む。少なくとも1つの例において、所与の候補シグネチャー断片122、124は、該所与の候補シグネチャー断片122、124が良性断片112、114のいずれかの厳密な一致である場合に、良性断片112、114のいずれかと「一致」する。候補シグネチャー断片122が良性断片112と一致する場合、候補シグネチャー断片122は悪質な有機体配列を一意的に識別しないことがわかる。他方、候補シグネチャー断片124が良性断片112、114のいずれとも一致しない場合、候補シグネチャー断片124は、悪質な有機体配列を一意的に識別しうる。その場合、候補シグネチャータグ124は、悪質シグネチャー断片142、144の1つとして悪質シグネチャー・データベース140に記憶されてもよい。いくつかの例では、悪質シグネチャー・データベース140は、それが標的有機体配列から導出された断片を記憶するので、「標的断片データベース」と考えることができる。悪質シグネチャー・データベース140は、悪質なシグネチャー断片142、144に関連するメタデータ142'、144'をさらに記憶してもよい。たとえば、メタデータ142'、144'は、悪質なシグネチャー断片142、144が由来する有機体の生物学的分類を示す分類学的情報を示してもよい。
【0047】
システム100は、さらに、いくつかの試験配列152、154を記憶するように構成された試験配列データベース150を含む。システム100の試験動作中、試験配列データベース150内の試験配列152、154のうちの一つまたは複数が、悪質なシグネチャー断片142、144と比較され、悪質なシグネチャー断片142、144が試験配列152、154のうちの該一つまたは複数に存在するかどうかが判定される。もしそうであれば、悪質なシグネチャー断片142、144のいずれかと一致する試験配列152、154のいずれかは、悪質な有機体(またはより一般的には標的有機体)の配列(またはそのシグネチャー断片)を含むものとしてフラグを立てられてもよい。いくつかの実施形態において、前記一つまたは複数の試験配列152、154は、完全な遺伝子配列(たとえば、完全なDNA鎖、他の核酸配列、アミノ酸配列などを表す)であってもよい。他の実施形態では、前記一つまたは複数の試験配列152、154は、所与の長さの部分配列でありうる。ここで、試験のための最適な長さが選択される。好ましい実施形態では、前記一つまたは複数の試験配列152、154全体が、たとえば逐次順で、解析される。いくつかの実施形態では、前記一つまたは複数の試験配列152、154は、まず、前記一つまたは複数の試験配列152、154上の、悪質なシグネチャーが見つかると予想される位置において、悪質なシグネチャー断片142、144と比較されてもよい。一致が見つからない場合、より可能性の低い位置が検査されてもよい。
【0048】
いくつかの実施形態では、ユーザー・インターフェースは、比較の結果を表示または他の仕方で提供するため、および/または試験配列が悪質な有機体を表しうるという警告または他の通信を発するために使用されうる。
【0049】
良性断片データベース110は、ブルーム・フィルタのような空間効率のよい、確率的データ構造として構成されてもよい。そのようなフィルタは、要素が集合のメンバーであるかどうかを迅速かつ効率的に試験するために使用できる。今の文脈では、そのようなフィルタは、候補シグネチャー断片が、良性断片データベース110内の一つまたは複数の良性断片と一致する(たとえば、厳密に一致する)かどうか(その場合、候補シグネチャー断片は、確実に、悪質なシグネチャー断片として適切ではない)、または代替的に、候補シグネチャー断片が、良性断片データベース110内のどの良性断片とも一致しない(たとえば、厳密に一致しない)かどうか(その場合、候補シグネチャー断片は、悪質なシグネチャー断片として適切でありうる)を迅速に決定するために使用できる。
【0050】
「偽陽性」は、候補シグネチャー断片が、良性断片データベース110内のいずれの良性断片とも一致しないが、それにもかかわらず、悪質な有機体の配列に固有ではない場合に起こりうる。たとえば、候補シグネチャー断片は、抽出が行われなかった良性の有機体の配列からであれば生成されたであろう良性の断片と一致することがありうる。この状況では、悪質なシグネチャー断片の偽陽性識別の結果、動作の試験フェーズにおいて、良性の有機体の配列が誤って悪質な有機体の配列であると識別され、それにより追加の(不必要な)調査が必要となる可能性がある。偽陽性の発生を許容可能なレベルまで減らすために、良性断片データベース110に十分に多数の良性の断片を入れることができる;良性断片データベース110のサイズが大きくなるにつれて、偽陽性の割合はゼロに近づく。所与の有機体のタイプについての一例では、150万塩基対の良性配列の集合から良性断片を生成すると、4%の偽陽性率が得られることがある。塩基対の数を10倍に(1150万に)増やすと、偽陽性率は0.25%に低下しうる。
【0051】
いくつかの実施形態では、良性の有機体の配列からの良性の断片112、114のシステム100による抽出が必要とされないように、良性断片データベース110は、良性の断片112、114を(たとえば、外部源から)入れられてもよい。他の実施形態では、良性断片データベース110および/またはプロセッサ130は、一つまたは複数の既知の良性の有機体から得られた配列から良性の断片112、114を抽出するように構成されうる。断片の長さnは、構成可能であってもよく、所与の長さnの断片は、本明細書ではnグラムと称される。ここに示される例は3グラムの断片を使用するが、任意の現実的な長さnを使用することができる。
【0052】
図2Aは、いくつかの実施形態による、良性の有機体からの、6つのヌクレオチドを含む例示的な良性DNA配列202(「CAGGTT」)が、良性断片データベース110に記憶するために、どのようにして抽出されて、複数の3グラム断片202a~202dにされうるかを示す。DNAは、例解の目的のための例としてのみ提供され、本開示の原理は、RNA、アミノ酸配列などの他の核酸にも適用可能であることを理解されたい。3グラム断片202a~202dのそれぞれは、異なる開始点における、良性DNA配列202のヌクレオチドの部分配列を表す。たとえば、第1の3グラム断片202aは、良性DNA配列202の第1の位置で始まる3ヌクレオチド部分配列(「CAG」)を含み、第2の3グラム断片202bは、配列202の第2の位置で始まる3ヌクレオチド部分配列(「AGG」)を含む、などである。したがって、長さmのDNA配列はm-n個の断片を生じることがある。
【0053】
図1に戻ると、候補シグネチャー・データベース120および/またはプロセッサ130は、システム100の動作の試験フェーズ中に検出されるべき一つまたは複数の既知の悪質な有機体から得られた配列から、候補シグネチャー断片122、124を導出するように構成されてもよい。候補シグネチャー断片122、124の長さは、nグラム良性断片と同じ(たとえば、3)であるように選択されてもよい。
【0054】
図2Bは、いくつかの実施形態による、候補シグネチャー・データベース120に記憶するために、悪質なDNA配列204がどのようにして抽出されて、複数の3グラム断片204a~204dとされるかを示す。抽出は、
図2Aの良性DNA配列202とほぼ同じ方法で行われる。たとえば、第1の3グラム断片204aは、悪質なDNA配列202の第1の位置で始まる3ヌクレオチド部分配列(「GCA」)を含み、第2の3グラム断片204bは、配列204の第2の位置で始まる3ヌクレオチド部分配列(「CAG」)を含む、などとなる。
【0055】
プロセッサ130は、さらに、良性断片データベース110内の良性の断片112、114のいずれとも一致しない候補シグネチャー断片122、124を候補シグネチャー・データベース120内で識別するように構成される。そのような一致のない候補シグネチャー断片122、124は、悪質なシグネチャー断片142、144として識別され、悪質シグネチャー・データベース140に記憶されることができる。
図2Aおよび
図2Bを参照すると、たとえば、候補シグネチャー断片204b(「CAG」)は良性断片202aと一致し、候補シグネチャー断片204c(「AGG」)は良性断片202bと一致し、候補シグネチャー断片204d(「GGT」)は良性断片202cと一致する。よって、候補シグネチャー断片204b、204c、または204dはいずれも、悪質なシグネチャー断片として識別されない。しかしながら、候補シグネチャー断片204a(「GCA」)は、良性断片データベース110には一致がなく、悪質なシグネチャー断片として識別される。
【0056】
図1に戻ると、プロセッサ130によって識別される悪質なシグネチャー断片142、144は、悪質シグネチャー・データベース140に記憶される。
【0057】
良性断片データベース110、候補シグネチャー・データベース120、および/または悪質シグネチャー・データベース140のそれぞれは、性能を改善するために、配置され、データを入れられ、または最適化されうる。たとえば、所与のデータベース内の重複する断片が除去されてもよく、その中に記憶された断片が、最適化の目的で、ソートまたはフィルタリングされてもよい。下記でより詳細に論じられるように、たとえば、標的断片は、普遍的な標的シグネチャーの部分集合を識別するためにフィルタリングされてもよい。いくつかの実施形態では、良性断片データベース110、候補シグネチャー・データベース120、および/または悪質シグネチャー・データベース140は、暗号化されたフォーマットで記憶されるか、さもなければ権限のない当事者によるアクセスに対して他の仕方で保護され、実行時またはその直前に復号されてもよい。
【0058】
候補シグネチャー・データベース120および/または悪質シグネチャー・データベース140は、それぞれが記憶する断片について、または対応する悪質な有機体についてのメタデータ122'、124'、142'、144'をも記憶することができる。そのようなメタデータは、たとえば、断片が作成された日時;断片が得られた試料/有機体の識別子;その試料中での断片の位置;断片の固有の識別子;対応する有機体の種または属;その有機体の一般的なカテゴリー(たとえば、ウイルス、細菌)などを含みうる。
【0059】
図3は、悪質な遺伝子配列の諸領域を識別するための方法300の一例のフロー図である。
【0060】
方法300は、段階310で始まる。
【0061】
段階320において、複数の良性断片が識別される。該複数の良性断片は、少なくとも1つの良性の有機体から得られた第1の配列に由来する。上記に照らして理解されるように、段階320は、より広義には、少なくとも1つの非標的有機体から得られた第1の配列から導出された複数の非標的断片を識別することを含みうる。いくつかの実施形態において、複数の良性断片は、
図2Aを参照して上述したように、一つまたは複数の既知の良性の有機体からの配列から抽出される。特に、長さnの良性の断片が、そのような良性の配列から抽出されてもよい。そのような断片の長さnは、後の段階で悪質なシグネチャー断片の識別を容易にするのに十分であるように選択されうる。たとえば、長さn=20の断片が悪質な配列を一意的に識別するために必要であるシナリオを考える。言い換えれば、長さn<20の断片で、悪質な配列には存在するが、良性の配列には存在しないものはないだろう。そのようなシナリオでは、良性の断片と悪質なシグネチャー断片の両方の長さnは、20(または、それ以上)であってもよい。
【0062】
図2Aを参照して上述したように、良性の断片は良性の配列から抽出されてもよい。それは、良性の配列内の各位置で始まる部分配列に対応するn長の断片を、可能であれば、作製することによる。換言すれば、良性配列中の各位置(たとえば、ヌクレオチド)およびその後のn個の位置(もしあれば)が、良性断片によって表されうる。他の実施形態では、良性配列中のある種の位置のみが、良性断片の基礎として使用されうる。たとえば、配列または他のパラメータの化学的性質のため、良性配列上の特定の開始位置には悪質なシグネチャー断片が対応することが不可能であるか、またはありそうにないことがある。その場合、それらの特定の開始位置は、良性断片を抽出するための基礎として使用されなくてもよい。
【0063】
いくつかの実施形態では、一つまたは複数の良性配列からの良性断片の抽出は、システムによって実行されなくてもよい。むしろ、抽出がすでに実行されていて、良性の断片は、たとえば第三者によってシステムに提供されてもよい。たとえば、良性の断片のデータベースが利用可能にされてもよい。別の例では、良性の断片は、以前の動作中にシステムによって抽出され、維持されていてもよく、そのため、再び抽出される必要はない。システムをトレーニングするための良性の断片の抽出および/または使用は、ローリング方式で実行されてもよい、すなわち、結果の精度を改善するために、新しい良性の断片が経時的に追加されてもよいことが理解されよう。
【0064】
複数の良性断片は、全体的にまたは部分的に、悪質なシグネチャー断片を識別するのに関連するまたは有用な少なくとも1つの特性を有する少なくとも1つの良性の有機体から導出されてもよい。いくつかの実施形態では、関心対象の悪質な有機体に何らかの仕方で類似する良性の有機体が、良性の断片を抽出するために使用されてもよい。良性の有機体と悪質な有機体の類似性は、それらの遺伝子配列の類似性を反映している可能性があり、そのためシステムは比較的少数の差異を悪質なシグネチャーの断片として識別することができる。たとえば、良性の有機体は、関心対象の悪質な微有機体の非悪質な株であってもよい。別の例では、良性の有機体および悪質な有機体は、共通の属、または関連する有機体のより広い範囲に属していてもよい。標的有機体がSARS-CoV-2およびその悪質な変種を含む例において、良性の有機体は、良性コロナウイルスおよび/またはSARS-CoV-2ほど悪質でないコロナウイルスのような他のコロナウイルスを含みうる。この例では、どの有機体(たとえば、どのコロナウイルス)が良性であると考えられるかをユーザーが決定することができ、前記複数の良性断片が由来するのは、これらの選択された有機体からである。以下でより詳細に議論するように、ある種の有機体は、標的または非標的有機体としてではなく、代替的に「中立」として分類されてもよい。
【0065】
段階330では、複数の候補シグネチャー断片が、悪質な有機体から得られた第2の配列から抽出される。上記に照らして理解されるように、段階330は、より広義には、標的有機体から得られた第2の配列から導出された複数の候補シグネチャー断片を識別することを含みうる。段階330が繰り返して実行され、複数の悪質な(または標的の)有機体のそれぞれから得られたそれぞれの配列から複数の候補シグネチャー断片が抽出されてもよい。いくつかの実施形態では、抽出は、
図2Bを参照して上述したように実行される。特に、長さnの候補シグネチャー断片は、一つまたは複数の悪質な有機体から得られた配列から抽出されてもよい。そのような断片の長さnは、後の段階で悪質なシグネチャー断片の識別を容易にするのに十分であるように選択されうる。
【0066】
段階340では、複数の候補シグネチャー断片のそれぞれについて、その候補シグネチャー断片が複数の良性断片のうちの少なくとも1つと一致するかどうかが判定される。少なくとも1つの例において、段階340は、候補シグネチャー断片が複数の良性断片のうちの少なくとも1つと正確に一致するかどうかを判定することを含む。いくつかの実施形態では、複数の良性の断片は、確率的データ構造(たとえば、ブルーム・フィルタ)として良性断片データベースに配置され、各候補シグネチャー断片について、ブルーム・フィルタ上で照会が行われる。他の実施形態では、複数の良性の断片は、配列、検索木、リレーショナルデータベース、スキーマフリーのデータベース、nタプルの集合、または他の仕方で格納されて、適切に照会される。いくつかの実施形態では、複数の良性断片は、効率を高めるために複製解除され、ソートされ、および/またはフィルタリングされる。
【0067】
段階350では、候補シグネチャー断片は、該候補シグネチャー断片が複数の良性配列断片のうちの前記少なくとも1つと一致しないに応答して、悪質なシグネチャー断片として識別される。いくつかの実施形態では、悪質なシグネチャー断片として識別される候補シグネチャー断片は、悪質なシグネチャー断片についての任意のメタデータとともに、悪質シグネチャー・データベース内の悪質なシグネチャー断片として記憶されうる。他の実施形態では、別個の悪質シグネチャー・データベースが使用されなくてもよく、候補シグネチャー断片が候補シグネチャー・データベース内で悪質なシグネチャー断片としてフラグ付けされてもよく、トレーニング・プロセスの終了時に、悪質なシグネチャー断片としてフラグ付けされていない候補シグネチャー断片が、破棄される、またはさもなくば試験プロセス中に使用されないのでもよい。
【0068】
プロセス300は段階360で終了する。
【0069】
いくつかの例では、ひとたびトレーニング・プロセスが完了すると、一つまたは複数の悪質なシグネチャー断片が存在するかどうかを判定するために、試験配列が検査されてもよい。存在すれば、試験配列は、さらなる吟味のためにフラグを立てられ、および/または、たとえば、
図4に関して後述するように、合成/複製が実行される例における合成/複製プロセスから拒絶について考慮されうる。さまざまな例において、ひとたびプロセス300が完了すると、悪質なシグネチャー断片(または「標的シグネチャー断片」)がさらに処理される。たとえば、標的シグネチャー断片は、
図10に関して後述するように、一つまたは複数の普遍的な標的シグネチャー断片および/または一つまたは複数の低相同性の普遍的なシグネチャー断片を識別するためにフィルタリングされてもよい。さらに、いくつかの例では、一つまたは複数の普遍的な標的シグネチャー断片および/または一つまたは複数の低相同性の普遍的シグネチャー断片が試験配列中に存在するかどうかを決定するために、試験配列が検査されてもよい。すなわち、いくつかの例では、プロセス300で提供される悪質なシグネチャー断片が
図10に従ってフィルタリングされて、普遍的な標的シグネチャー断片を識別してもよく、普遍的な標的シグネチャー断片が、
図4に従って試験配列を検査するために使用されてもよい。
【0070】
図4は、悪質なシグネチャー断片の存在について一つまたは複数の試験配列を試験するための方法400の一例のためのフロー図である。
【0071】
方法400は、段階410で開始される。
【0072】
段階420において、悪質なシグネチャー断片が少なくとも1つの試験配列に存在するかどうかが判定される。一例では、悪質なシグネチャー断片は、上述した段階350において悪質なシグネチャー断片として識別された候補シグネチャー断片を含んでいてもよい。別の例では、悪質なシグネチャー断片は、後述する工程1008で識別される普遍的な標的シグネチャー断片を含んでいてもよい。別の例では、悪質なシグネチャー断片は、後述する工程1010で識別された低相同性の普遍的な標的シグネチャー断片を含んでいてもよい。
【0073】
いくつかの実施形態では、前記少なくとも1つの試験配列は、複製の目的のために提供される配列である。配列は、単一の遺伝子配列を表してもよく、あるいは、後にCRISPRのような機構を用いて「切り取ってはぎ合わせる」ことが意図された領域を含んでいてもよい。いくつかの実施形態では、前記少なくとも1つの試験配列は、完全な遺伝的配列(たとえば、完全なDNA鎖を表す)でありうる。他の実施形態では、前記少なくとも1つの試験配列は、完全な遺伝子配列の部分配列であってもよい。部分配列の最適な長さ、または部分配列に含まれる完全な遺伝子配列の部分が選択されてもよい。たとえば、試験配列は、完全な遺伝子配列の部分配列であってもよく、その部分配列は、完全な遺伝子配列のある位置または領域から、その領域内に悪質なシグネチャー断片を発見する確からしさに基づいて選択される。さらに他の実施形態では、部分配列は、完全な遺伝子配列の既知の良性の領域を省略するように選択されてもよい。いくつかの例では、前記少なくとも1つの試験配列は、
図11に関して後述するように、前記少なくとも1つの試験配列が受領される際にリアルタイムまたはほぼリアルタイムで解析されうる。たとえば、少なくとも1つの試験配列は、シーケンサーが前記少なくとも1つの試験配列を生成する際にリアルタイムで解析されてもよい。
【0074】
前記少なくとも1つの試験配列上のそれぞれの逐次的な位置において、悪質なシグネチャー断片が前記少なくとも1つの試験配列と比較されうる。たとえば、3グラムの悪質なシグネチャー断片が、まず前記少なくとも1つの試験配列上の位置1~3と比較され、次いで前記少なくとも1つの試験配列上の位置2~4と比較される、などとしてもよい。
【0075】
いくつかの実施形態において、それぞれの少なくとも1つの試験配列および/または悪質なシグネチャー断片について、一致の数およびタイプが記憶されてもよい。たとえば、前記少なくとも1つの試験配列上のそれぞれの悪質なシグネチャー断片の位置、悪質なシグネチャー断片のタイプ、前記少なくとも1つの試験配列において各悪質なシグネチャー断片が生起する回数、および他の情報を示すデータが記憶されてもよい。
【0076】
悪質なシグネチャーの断片および/または対応する悪質な有機体に関するメタデータが、試験配列を識別または分類するために使用されうる。たとえば、複数の悪質なシグネチャー断片が試験配列中に見つかった場合、一致した悪質なシグネチャー断片の共通の特徴は、メタデータから決定されてもよい。たとえば、一致する悪質なシグネチャーの断片はすべて、特定の有機体の特定の試料(または関連する試料)からのものであると判断されることがあり、このことは、顧客がその有機体を複製しようとしていることを示唆しうる。試験配列におけるシグネチャー断片の数に依存して、試験配列に反映される悪質な有機体の属、種、またはさらには特定の試料を識別することが可能となりうる。
【0077】
悪質な有機体または有機体のタイプに対応するシグネチャー断片のタイプおよび数を追跡し、解析して、試験配列に関する結論を引き出すことができる。たとえば、試験配列中のインフルエンザ・シグネチャー断片の数、累積長、または他の統計量が所与の閾値を超える場合、自動的に、試験配列がインフルエンザを合成しようとする試みであるという結論を下すことができる。別の実施形態では、そのような統計は、配列が非道な目的のために提出されたという判断における信頼のレベルを決定するために使用されうる。
【0078】
任意的な段階430において、前記少なくとも1つの試験配列について決定がされてもよい。たとえば、前記少なくとも1つの試験配列上で生起する悪質なシグネチャー断片の数およびタイプ、およびそれらが関係する悪質な有機体に依存し、合成/複製アプリケーションを含む非限定的な例における合成/複製アプリケーションから前記少なくとも1つの試験配列を拒絶する決定、および/またはシステムおよび/またはユーザーによるさらなる吟味のために前記少なくとも1つの試験配列にフラグを付ける決定を行うことができる。いくつかの実施形態では、悪質なシグネチャー断片の生起の閾値数が設定されてもよく、該閾値が超過されるかどうかに基づいて、前記少なくとも1つの試験配列に関して決定がされうる。異なる悪質な有機体について異なる閾値が設定されてもよく、より危険な病原体は低い/ゼロの閾値をもち、より危険性の低い病原体はより高い閾値をもつ。
【0079】
方法400は段階440で終了する。
【0080】
悪質な有機体の配列の存在を識別するための上述のアプローチに加えて、試験配列をいくつかの有機体(病原体を含むがそれに限定されない)のうちの一つまたは複数として迅速に分類することが有用である用途もある。
【0081】
図5は、未知の配列を分類するために使用可能な、シグネチャー断片を識別する方法を実行するように構成されたシステム500のためのブロック図である。システム500は、いくつかの側面におけるシステム100と類似していてもよく、いくつかの相違点をここで論じる。
【0082】
システム500は、良性の有機体の配列(図示せず)から導出されたいくつかの良性断片512、514を記憶するように構成された少なくとも1つの良性断片データベース510を含む。システム500は、さらに、悪質な有機体の配列(図示せず)から導出されたいくつかの候補シグネチャー断片522a~522c、524a~524cを記憶するように構成された複数の悪質シグネチャー・データベース520a~520cを含む。このアプローチでは、悪質シグネチャー・データベース520a~520cのそれぞれは、ブルーム・フィルタのような確率的データ構造として編成されてもよい。悪質シグネチャー・データベース520a~520cのそれぞれは、異なる悪質な有機体のタイプまたはグループに対応しうる。たとえば、悪質シグネチャー・データベース520aは、インフルエンザ有機体についてのシグネチャー断片を記憶してもよく、悪質シグネチャー・データベース520bは、炭疽菌についてのシグネチャー断片を記憶してもよく、悪質シグネチャー・データベース520cは、天然痘ウイルスについてのシグネチャー断片を記憶してもよい。それぞれの悪質シグネチャー・データベースはまた、悪質シグネチャー・データベース140に関して上述したように、そこに記憶された断片に関するメタデータ(図示せず)をも記憶してもよい。
【0083】
システム500は、さらに、候補シグネチャー断片(図示せず)を複数の良性断片配列512、514と比較するように構成されたプロセッサ530を含む。一致が見つからない場合、特定の候補シグネチャー断片は、悪質シグネチャー断片データベース520a~520cのうちの1つに関連する特定のタイプの悪質な有機体のための適切なシグネチャー断片であると判断されうる。もしそうであれば、候補シグネチャー断片は、悪質な有機体のタイプに対応する悪質シグネチャー断片データベース(たとえば、520b)の1つに記憶されてもよい。前の例を続けると、候補シグネチャー断片がインフルエンザについての適切なシグネチャー断片であることが判明した場合、候補シグネチャー断片は、悪質シグネチャー断片データベース520a内にシグネチャー断片522aとして格納されうる。
【0084】
システム100におけるように、システム500における候補シグネチャー断片は、既知の有機体の配列から抽出されてもよい。ここで議論された例は悪質な有機体に関わるが、同じ技術が、関心対象の非悪質な有機体を識別または分類するために使用されうることが理解されるであろう。候補シグネチャー断片は、一つまたは複数の候補シグネチャー断片データベース(図示せず)に格納されてもよい。
【0085】
候補シグネチャー断片がいくつかの悪質な有機体または悪質な有機体のタイプについて記憶される場合、候補シグネチャー断片は、候補シグネチャー断片が特定の有機体または有機体のタイプと関連付けられることを許容するいくつもある仕方で、一つまたは複数のデータベースに記憶されうる。ある実施形態では、候補シグネチャー断片は、単一の候補シグネチャー断片データベースに記憶されうる。ここで、各候補シグネチャー断片は、特定の悪質な有機体または悪質な有機体のタイプに(識別子または他の関連付けによって)関連付けられる。他の実施形態において、候補シグネチャー断片は、それらの関連する悪質な有機体または有機体のタイプに従って異なるデータベースに記憶されうる。
【0086】
良性の断片は、同様に、共通のデータベースに記憶されてもよく、あるいは、それらが由来する良性の有機体のタイプに応じて、またはそれらがシグネチャー断片を識別するために使用される対象の悪性の有機体または有機体のタイプに応じて、別個に記憶されてもよい。
【0087】
システム100と同様に、システム500は、いくつかの試験配列552、554を記憶するように構成された試験配列データベース550をさらに含む。システム500の試験動作中、試験配列データベース550内の試験配列552、554のうちの一つまたは複数が、悪質シグネチャー断片データベース520a~520cのうちの一つまたは複数におけるシグネチャー断片と比較され、悪質なシグネチャー断片522a~c、524a~cのうちのいずれかが、試験配列552、554のうちの前記一つまたは複数に存在するかどうかを判断する。たとえば、試験配列552、554は、悪質シグネチャー断片データベース520a~cのそれぞれのブルーム・フィルタに適用されて、何らかの一致が見つかるかどうかを判定してもよい。もし見つかれば、悪質なシグネチャー断片522a-c、524a-cのいずれかに一致する試験配列552、554のいずれかは、そのような悪質なシグネチャー断片を含む悪質シグネチャー断片データベース520a-cに関連する悪質な有機体の配列(またはその断片)を含むものとしてフラグ付けされてもよい。
【0088】
いくつかの実施形態では、前記一つまたは複数の試験配列552、554は、完全な遺伝子配列(たとえば、完全なDNA鎖を表す)であってもよい。他の実施形態では、前記一つまたは複数の試験配列552、554は、所与の長さの部分配列であってもよい。ここで、試験のための最適な長さが選択される。いくつかの実施形態では、前記一つまたは複数の試験配列552、554は、まず、悪質なシグネチャーが見つかると期待されうる前記一つまたは複数の試験配列552、554上の位置で、悪質なシグネチャー断片522a~c、524a~cと比較されうる。一致が見つからない場合、より可能性の低い位置が検査されてもよい。
【0089】
図6は、システム500などを用いて遺伝子配列の領域を分類するための方法600の一例のフロー図である。
【0090】
方法600は、段階610で始まる。
【0091】
段階620において、第1の複数の配列断片が第1の特質を有する第1の複数の有機体から生成され、段階630において、第2の複数の配列断片が第2の特質を有する第2の複数の有機体から生成される。いくつかの実施形態では、抽出は、
図2Bを参照して上述したように実行される。具体的には、長さnの候補シグネチャー断片が、第1の特質を有する複数の悪質な有機体から、および第2の特質を有する複数の悪質な有機体から得られた配列から抽出されてもよい。特質(trait)は、有機体のタイプ(たとえば、インフルエンザ、コロナウイルスなど)の分類またはカテゴリーであってもよい。
【0092】
段階640において、複数の良性配列断片が識別される。段階640は、方法300の段階320とほぼ同じ仕方で実行されてもよい。上述したように、いくつかの実施形態では、複数の良性配列断片の抽出は、システムによって実行されなくてもよい。むしろ、抽出はすでに実行されていて、良性配列断片は、たとえば第三者によってシステムに提供されてもよい。たとえば、良性断片のデータベースが利用可能にされてもよい。別の例では、良性配列断片は、以前の動作中にシステムによって抽出され、維持されていたものでもよい。
【0093】
段階650において、第1の複数の候補配列断片は、複数の良性配列断片のうちの少なくとも1つを除去するようにフィルタリングされ、段階660において、第2の複数の候補配列断片は、複数の良性配列断片のうちの少なくとも1つを除去するようにフィルタリングされる。他の複数の候補配列断片もフィルタリングされてもよい。本方法は2つのそのような複数に限定されない。段階650および660は、方法300の段階340とほぼ同じ仕方で実行されうる。特に、候補シグネチャー断片の各複数は、(たとえば、ブルーム・フィルタ内の)良性断片と比較され、良性断片と一致する候補シグネチャー断片があれば、それは適切なシグネチャー断片ではないとして識別されうる。適切であると見出されたシグネチャー断片は、シグネチャー断片によって一意的に識別される有機体のタイプに対応する悪質シグネチャー断片データベースの1つに記憶されうる。悪質シグネチャー断片データベースは、ブルーム・フィルタのような複数の確率的データ構造として組織化されてもよい。
【0094】
方法600は段階670で終了する。
【0095】
いくつかの例では、ひとたびトレーニング・プロセスが完了すると、試験配列は、一つまたは複数の悪質なシグネチャー断片が存在するかどうかを判定するために検査されてもよい;もし存在するならば、試験配列は、さらなる吟味のためにフラグを立てられてもよく、および/または、たとえば、
図7に関して後述するように、合成/複製プロセスを含む非限定的な例における合成/複製プロセスからの拒絶について考慮されうる。さまざまな例において、ひとたび方法600が完了すると、悪質なシグネチャー断片(または「標的シグネチャー断片」)がさらに処理される。たとえば、標的シグネチャー断片は、
図10に関して後述するように、一つまたは複数の普遍的な標的シグネチャー断片および/または一つまたは複数の低相同性の普遍的なシグネチャー断片を識別するためにフィルタリングされてもよい。さらに、いくつかの例では、一つまたは複数の普遍的な標的シグネチャー断片および/または一つまたは複数の低相同性の普遍的シグネチャー断片が試験配列中に存在するかどうかを決定するために、試験配列が検査されてもよい;すなわち、いくつかの例では、方法600で提供された悪質なシグネチャー断片が
図10に従ってフィルタリングされて、普遍的な標的シグネチャー断片を決定してもよく、普遍的な標的シグネチャー断片が
図7に従って試験配列を検査するために使用されてもよい。
【0096】
図7は、一つまたは複数の悪質シグネチャー・データベースに格納された悪質なシグネチャー断片の存在について、一つまたは複数の試験配列を試験するための方法700の一例のフロー図である。
【0097】
方法700は、段階710で開始される。
【0098】
段階720において、悪質なシグネチャー断片が少なくとも1つの試験配列に存在するかどうかが判定される。段階720は、方法400の段階420と同様に実行されてもよい。前記少なくとも1つの試験配列またはその断片は、複数の断片シグネチャー断片データベースに(たとえば、ブルーム・フィルタにおいて)格納された前記一つまたは複数のシグネチャー断片と比較されうる。いくつかの実施形態では、試験配列は、すべてのシグネチャー断片データベース、またはシグネチャー断片データベースの何らかの標準的な部分集合と比較されうる。他の実施形態では、具体的なシグネチャー断片データベースは、試験配列の何らかの既知の特徴に基づいて比較のために選択されうる。たとえば、試験配列がコロナウイルスについての遺伝子配列を含む可能性がより高いと決定された場合、試験配列は、コロナウイルスとは無関係のシグネチャー断片データベースとは比較されなくてもよい。いくつかの実施形態では、試験配列が比較される対象となるシグネチャー断片データベースは、ユーザー、たとえばシステム500のオペレータによって選択可能でありうる。
【0099】
任意的な段階730において、前記少なくとも1つの試験配列について決定がなされてもよい。段階730は、方法400の段階430と同様に実行されうる。
【0100】
方法700は、段階740で終了する。
【0101】
上述のように、プロセス300は、工程350において、標的シグネチャー断片を識別するために実行されてもよい。同様に、プロセス600は、工程650および660において、標的シグネチャー断片を識別するために実行されてもよい。プロセス300、600、またはそれらの個別的な工程のそれぞれは、いくつかの標的シグネチャー断片を識別するために数回実行されうる。いくつかの例において、いくつかの標的シグネチャー断片が単一の有機体(たとえば、単一のSARS-CoV-2ウイルス)から識別されうる。他の例では、プロセス300、600のいずれかまたは両方を実行する際に、いくつかの有機体(たとえば、いくつかのコロナウイルスを含む)のそれぞれから、いくつかの標的シグネチャー断片が識別されてもよい。
【0102】
有機体のグループは、標的有機体および非標的有機体を含みうる。たとえば、コロナウイルスのグループを考える。いくつかのコロナウイルスは、少なくとも、ヒトに有害ではない、または害が最小限であることから、非標的ウイルスと考えられてもよい。SARS-CoV-2コロナウイルスのような他のコロナウイルスは、少なくともヒトに有害であるため、標的と考えられてもよい。SARS-CoV-1コロナウイルスのようなさらに他のコロナウイルスは、少なくとも、ヒトに有害かもしれないが、世界からほとんど根絶されていることから、中立と考えられてもよい。よって、そのようなコロナウイルスは、そのようなコロナウイルスが試料中に見出される可能性が極めて低いので重要でないと考えられてもよいため、中立として識別されうる。
【0103】
適切な行動を取れるよう試料中のコロナウイルスが悪質か良性のものであるかを決定するために、試料中である種の標的コロナウイルスを他の非標的または中立のコロナウイルスから区別できることが有利でありうる。よって、コロナウイルスの第1のグループを標的コロナウイルス(たとえば、SARS-CoV-2ウイルスおよびその遺伝的変異体)として、コロナウイルスの第2のグループを非標的コロナウイルスとして、およびコロナウイルスの第3の任意的なグループを中立コロナウイルスとして定義することが有利でありうる。さらに、コロナウイルスの第1のグループ中のすべてのコロナウイルスを普遍的に識別するが、コロナウイルスの第2のグループ中のどのコロナウイルスも識別しない一つまたは複数の普遍的〔ユニバーサル〕な標的シグネチャー断片を識別することが有利でありうる。コロナウイルスの第3のグループは中立のグループであるため、普遍的な標的シグネチャー断片が第3のグループ内のいずれかのコロナウイルスを識別するか否かは重要でないかもしれない。
【0104】
たとえば、
図9は、一例による、いくつかの標的有機体(たとえば、上述したコロナウイルスの第1のグループ)から識別された標的シグネチャー断片のいくつかのセットの
図900を示す。描画900は、標的シグネチャー断片の第1の集合902と、標的シグネチャー断片の第2の集合904と、断片の2つの集合902、904の数学的な交わりを表す一つまたは複数の普遍的な標的断片906とを含む。描画900は、説明の目的で、標的シグネチャー断片の2つの集合を含むが、他の例では、本明細書で論じた原理は、標的シグネチャー断片の任意の他の複数個の集合にも適用可能でありうる。上記の例を続けると、標的コロナウイルスの第1のグループが2つのコロナウイルスを含む場合、標的シグネチャー断片の2つの集合902、904は、それらの2つのコロナウイルスのそれぞれについての標的シグネチャー断片の集合とみなされうる。
【0105】
標的シグネチャー断片の第1の集合902は、第1の有機体(SARS-CoV-2ウイルスなど)から識別されうる。たとえば、標的シグネチャー断片の第1の集合902は、第1の有機体の配列を解析することによって、方法300の工程350、または方法600の工程650および/または660において識別されうる。標的シグネチャー断片の第2の集合904は、第2の有機体(SARS-CoV-2ウイルスの遺伝的変異体のような)から識別されうる。たとえば、標的シグネチャー断片の第1の集合902は、第2の有機体の配列を解析することによって、プロセス300の工程350またはプロセス600の工程650および/または660のその後の実行時に識別されうる。
【0106】
一つまたは複数の標的シグネチャー断片が、標的シグネチャー断片902の第1の集合と標的シグネチャー断片904の第2の集合の両方にあることがある。
図9において、これらの普遍的な標的シグネチャー・断片906は、集合902、904の数学的な交わりによって表される。普遍的な標的シグネチャー断片906は、描画900のすべての集合902、904に存在するので、「普遍的」である。
【0107】
いくつかの例において、普遍的な標的シグネチャー断片の集合が、標的コロナウイルスのグループのような有機体のグループについて識別されうる。普遍的な標的シグネチャー断片の集合は、それらの普遍的な標的シグネチャー断片が由来するもとになった標的シグネチャー断片のすべての集合の組み合わせよりも有意に小さくてもよい。たとえば、
図9では、集合902、904が少なくとも1つの共通しない標的シグネチャー断片を含む限り、該少なくとも1つの共通しない標的シグネチャー断片が普遍的な標的シグネチャー断片906から除外されるため、普遍的な標的シグネチャー断片906のサイズは、標的シグネチャー断片の第1の集合902と標的シグネチャー断片の第2の集合904のサイズの組み合わせより小さくなる。普遍的な標的シグネチャー断片の集合を識別し、普遍的な標的シグネチャー断片の集合を使用して、普遍的な標的シグネチャー断片が少なくとも1つの試験配列中に存在するかどうかを決定する(たとえば、工程420および720で上述したように)ことが有利でありうる。ある非限定的な例では、普遍的な標的シグネチャー断片の集合は、類似の有機体に由来する標的シグネチャー断片の集合から識別されてもよい。たとえば、SARS-CoV-2ウイルスから、およびSARS-CoV-2ウイルスのいくつかの遺伝的変異体のそれぞれから、標的シグネチャー断片の集合が導出されてもよい。普遍的な標的シグネチャー断片の集合は、これらの集合から識別されうる。結果として得られる普遍的な標的シグネチャー断片の集合が、一つまたは複数の試験配列に適用されて、たとえば、所与の試験配列がSARS-CoV-2ウイルスまたはその遺伝的変異体に由来するか否かを予測してもよい。
【0108】
これは、少なくとも、上述したように、普遍的な標的シグネチャー断片の集合のサイズが、普遍的な標的シグネチャー断片の集合を作成するために使用される標的シグネチャー断片の集合の組み合わせのサイズよりも著しく小さいことがありうるために、有利でありうる。よって、前記少なくとも1つの試験配列を解析することは、少なくとも、前記少なくとも1つの試験配列を比較するための標的シグネチャー断片がより少ないため、有意に速くなりうる。さらに、少なくとも、標的シグネチャー断片が標的シグネチャー断片のすべての集合に存在する場合、それがスプリアスである可能性が低くなるため、偽陽性の数が低減されうる。対照的に、1つだけの標的有機体の配列中に現れる標的シグネチャー断片が見せかけである可能性はより高く、偽陽性を生じる可能性が高い。普遍的シグネチャー断片の集合を識別することに加えて、偽陽性をさらに減少させるために、バックグラウンド配列に関して低い相同性の証拠となる普遍的シグネチャーのみを識別するよう、前記集合をフィルタリングすることが有利でありうる。
【0109】
低相同性の普遍的なシグネチャーを含む普遍的なシグネチャーは、さまざまな実装において使用されうる。たとえば、普遍的シグネチャーは、関心対象の遺伝子の存在について試料を解析する際に物理的プローブとして使用されうる。たとえば、普遍的なシグネチャーは、ポリメラーゼ連鎖反応(PCR)プロセスにおけるプライマーとして使用されて、どの遺伝子(たとえば、ある種のコロナウイルス遺伝子)に結合するかについてポリメラーゼに「指示」することができる。次いで、PCRプロセスが実行されて、試料において、普遍的シグネチャーによって示される関心対象の遺伝子を増幅することができる。さまざまな例において、普遍的シグネチャーは、有利には、関心対象の病原体ではない病原体由来の遺伝子のような他の遺伝子を増幅することなく、関心対象の遺伝子を有利に増幅する。たとえば、関心対象の病原体がSARS-CoV-2コロナウイルスである場合、普遍的シグネチャーは、関心対象でない他のコロナウイルスを増幅することなく、SARS-CoV-2コロナウイルスを増幅することができる。次いで、関心対象の増幅された遺伝子を含有する試料が、その後の解析において使用されうる。
【0110】
図10は、一例による、シグネチャー断片をフィルタリングするプロセス1000を示す。プロセス1000は、たとえば、プロセッサ130、プロセッサ530、両者の組み合わせ、または別の計算装置(単数または複数)によって実行されてもよい。説明の目的で、プロセス1000の説明は、プロセッサ530およびシステム500の他の側面に関して提供される。
【0111】
工程1002において、プロセス1000が開始される。
【0112】
工程1004において、プロセッサ530は、普遍的な標的シグネチャー断片の集合を識別するための標的有機体のグループを識別する。いくつかの例において、標的有機体のグループは、ユーザーによって特定されてもよい。上記の例を続けると、標的有機体のグループは、悪質なコロナウイルス(良性または中立のコロナウイルスではない)を含みうるコロナウイルスの第1のグループを含みうる。たとえば、ユーザーが、SARS-CoV-2ウイルスおよびその遺伝的変異体を、標的有機体のグループとして識別することができる。標的「有機体」は、例示の目的のためにのみ指定されており、本開示の原理が、より広く、一般に「標的」に適用可能であること;いくつかの例では、プロセス1000は、有機体配列に加えて、または有機体配列の代わりに、合成配列に関して実行されてもよいことを理解されたい。すなわち、作用1004において識別された標的のグループは、標的有機体配列、標的合成配列、または両者の組合せを含みうる。
【0113】
工程1006では、プロセッサ530は、標的有機体のグループの各標的有機体について、標的シグネチャー断片の集合を取得する。標的有機体のグループは、標的シグネチャー断片の集合が識別され、データベースに記憶されている有機体を含みうる。たとえば、シグネチャー断片データベース520a~520cの任意のものが、SARS-CoV-2ウイルスおよびその遺伝的変異体のための標的シグネチャー断片の諸集合を記憶することができる。よって、プロセッサ530は、各標的有機体についての標的シグネチャー断片の諸集合を、シグネチャー断片データベース520a~520cのうちの対応する一つまたは複数に要求することによって、標的シグネチャー断片の諸集合を得ることができる。別の例では、標的シグネチャー断片の集合は、標的有機体のうちの少なくとも1つについてまだ識別されていないことがありうる。そのような標的有機体のそれぞれについて、プロセッサ530および/またはプロセッサ130は、プロセス300および/またはプロセス600を実行して、その標的有機体のための標的シグネチャー断片の集合を識別することができる。
【0114】
プロセス300、600に関して上述したように、所与の有機体について識別される標的シグネチャー断片は、どの配列がバックグラウンドとして選択されるか(たとえば、どの配列が工程320において良性であると特定されるか)に基づいて変化しうる。さまざまな例において、プロセス300、600を実行する際に、プロセッサ130、530は、バックグラウンドとして作用する有機体の特定のグループを識別することができる。上記の例を続け、コロナウイルスの集合(たとえば、すべての既知のコロナウイルス)を考える。コロナウイルスの該集合における各コロナウイルスは、標的の第1のグループ(たとえば、SARS-CoV-2およびその遺伝的変異体のような悪質なコロナウイルス)、非標的の第2のグループ(たとえば、良性のコロナウイルス)、または中立なものの第3のグループ(たとえば、SARS-CoV-1)のいずれかに属するものとして、(たとえば、ユーザーによって)分類されうる。
【0115】
プロセス300を例として用いると、工程320で識別される複数の良性の断片は、非標的の第2のグループから導出されてもよい。工程330で識別される複数の候補シグネチャー断片は、標的の第1のグループから導出されてもよい。中立の第3のグループは、プロセス300を実行する際に使用されなくてもよい。よって、工程350で識別された標的シグネチャー断片は、所与のコロナウイルス試料を標的グループまたは非標的グループに属するものとして分類することができうる。標的シグネチャー断片は、中立グループに分類されるコロナウイルスを識別してもよく、識別しなくてもよいが、上述のように、中立グループにおけるコロナウイルスが識別されるか否かは重要ではないことがありうる。
【0116】
工程1008では、プロセッサ530は、工程1006で取得された標的シグネチャー断片の諸集合をフィルタリングし、普遍的な標的シグネチャー断片の集合を識別する。普遍的な標的シグネチャー断片は、標的シグネチャー断片の諸集合の一つ一つの集合に存在する標的シグネチャー断片を含んでいてもよい。一例では、プロセッサ530は、工程1006で取得された標的シグネチャー断片のすべての集合内の各標的シグネチャー断片を解析し、それぞれの標的シグネチャー断片が工程1006で取得された標的シグネチャー断片のすべての集合内に存在するかどうかを判定する。それぞれの標的シグネチャー断片が標的シグネチャー断片の各集合に存在するかどうかを判定することは、プロセス400と実質的に類似してもよく、ここで、工程420の「悪質な断片」は、それぞれの標的シグネチャー断片であり、工程420の「少なくとも1つの試験配列」は、工程1006で取得される標的シグネチャー断片のすべての集合内のすべての標的シグネチャー断片を含む。別の例では、それぞれの標的シグネチャー断片が標的シグネチャー断片の各集合に存在するかどうかを決定することは、マッチング・アルゴリズムを実行することを含んでいてもよい。たとえば、各標的シグネチャー断片を、工程1006で取得された標的シグネチャー断片のすべての集合内の他のすべての標的シグネチャー断片に対して突き合わせる要素ごとのマッチング・アルゴリズムである。さらに他の例では、標的シグネチャー断片が工程1006で取得された標的シグネチャー断片のすべての集合に存在するかどうかを決定するために、他の方法が実装されてもよい。
【0117】
いくつかの例では、標的シグネチャー断片が動作1006で得られた標的シグネチャー断片のすべての集合に存在するのでないならば、その標的シグネチャー断片は、普遍的な標的シグネチャー断片の集合に追加されない。他の例では、標的シグネチャー断片が工程1006で得られた標的シグネチャー断片の諸集合の少なくとも閾値数において存在するならば、その標的シグネチャー断片は普遍的な標的シグネチャー断片の集合に追加される。たとえば、閾値数は、標的シグネチャー断片の集合の特定の数、または工程1006で得られた標的シグネチャー断片の集合の特定の閾値割合であってもよい。閾値量は、静的であっても可変であってもよい。たとえば、閾値数は、工程1006で取得される標的シグネチャー断片の集合の数が変化するにつれて変化してもよい。
【0118】
いくつかの例では、動作1008は、普遍的な標的シグネチャー断片の集合が、少なくとも閾値数の普遍的な標的シグネチャー断片を含むかどうかを判定することを含んでいてもよい。集合が、少なくとも閾値数の普遍的な標的シグネチャー断片を含まない場合(たとえば、普遍的な標的シグネチャー断片が存在しないか、または、十分でない場合)、プロセス1000は、工程1014に進み、終了してもよい。他の例では、ユーザーに通知が提供されてもよいが、プロセス1000は、ユーザーが反対の指示を提供することを受けて、継続されてもよい。さらに他の例では、普遍的な標的シグネチャーの集合が閾値数の断片を含むまで、標的シグネチャー断片が普遍的な標的シグネチャーの集合に追加されるための条件は、自動的に、および/またはユーザーによって指令されて、緩和されてもよい。
【0119】
工程1010において、プロセッサ530は、工程1008において識別された普遍的な標的シグネチャー断片の集合から、低相同性の普遍的な標的シグネチャー断片を識別する。相同性〔ホモロジー〕は、普遍的な標的シグネチャー断片と、工程320において識別された、および/または、良性断片データベース110、510のいずれかまたは両方に記憶された複数の良性断片などの一つまたは複数のバックグラウンド配列との間のある程度の類似性を指しうる。普遍的な標的シグネチャー断片の集合から、低相同性の普遍的な標的シグネチャー断片――すなわち前記一つまたは複数のバックグラウンド配列とあまり類似していない普遍的な標的シグネチャー断片――を識別することが有利でありうる。そのような有意に一意的な標的シグネチャー断片は、試験配列がバックグラウンド配列とわずかに異なる偽陽性となる可能性が低いからである。
【0120】
相同性の程度は、生物学的配列間の類似の程度を決定するためのアルゴリズム、たとえば、基本的局所整列探索ツール(basic local alignment search tool、BLAST)アルゴリズムを実行することによって決定されてもよい。そのようなアルゴリズムの出力は、生物学的配列間の相同性のパーセンテージ、共有されるプライマーの数などのような相同性パラメータとして表現されてもよく、またはかかる相同性パラメータを決定するために使用されてもよい。工程1010は、プロセッサ530が、普遍的な標的シグネチャー断片のうち、ある閾値以内など、ある種の基準を満たす相同性パラメータを有するものを識別することを含んでいてもよい。たとえば、低相同性基準は、80%を超える相同性を有し、一つまたは複数のプライマーを前記一つまたは複数のバックグラウンド配列と共有するのでないことを含みうる。すなわち、この例では、普遍的な標的シグネチャー断片が前記一つまたは複数のバックグラウンド配列と80%超およびプライマーを共有する場合、その普遍的な標的シグネチャー断片は、前記一つまたは複数のバックグラウンド配列に関して高すぎる相同性を有するものとして拒絶されうる。よって、工程1010において、プロセッサ530は、低相同性の普遍的な標的シグネチャー断片の、より小さな(または等しいサイズの)集合を識別するために、普遍的な標的シグネチャー断片の集合をフィルタリングする。
【0121】
工程1012において、プロセッサ530は、低相同性の普遍的な標的シグネチャー断片の集合を出力する。いくつかの例において、プロセッサ530はまた、普遍的な標的シグネチャー断片の集合をも出力してもよい。たとえば、低相同性の普遍的な標的シグネチャー断片の集合(および/または普遍的な標的シグネチャー断片の集合)は、データベース140、520a~520cのいずれかに出力されて、それに格納されてもよい。その後、該集合は、たとえば、プロセス400、700に関して上述したように(または、プロセス1100で後述するように)、一つまたは複数の試験配列の解析において実装されてもよい。すなわち、試験配列を解析して、普遍的な標的シグネチャー断片および/または低相同性の普遍的な標的シグネチャー断片が試験配列中に存在するかどうかを判定し、もし存在するならば、試験配列が標的有機体(または合成配列)に由来しうることを判定することができる。
【0122】
動作1014において、プロセス1000は終了する。
【0123】
よって、プロセス1000は、複数の標的有機体のための標的シグネチャー断片の複数の集合が、単一の、より小さな集合に凝縮されることを可能にする。この単一の、より小さな集合は、より少ない偽陽性でより速い解析を実行することが有利でありうる場合などに、標的シグネチャー断片の前記複数の集合の代わりに実装されうる。
【0124】
説明の目的で、非限定的な例を提供する。以下の例では、プロセス1000は、標的シグネチャー断片の複数の集合から低相同性の普遍的な標的シグネチャー断片の集合を識別するために実行される。標的シグネチャー断片の各集合は、SARS-CoV-2またはその遺伝的変異体などのそれぞれの標的コロナウイルスを識別することができうる。すべての集合が一緒になって、共非標的コロナウイルスまたは中立コロナウイルスと区別されて標的として分類される任意の既知のコロナウイルスを識別することができうる。
【0125】
工程1004において、標的有機体のグループが識別される。上記のように、このグループは標的コロナウイルスを含んでいてもよい。これらの標的コロナウイルスは悪性コロナウイルスであってもよい。たとえば、標的コロナウイルスは、SARS-CoV-2およびその遺伝的変異体を含みうる。
【0126】
工程1006では、各標的有機体について標的シグネチャー断片が得られる。これらの標的シグネチャー断片の少なくとも1つは、すでに以前に得られていて、データベース(たとえば、悪質シグネチャー・データベース140)に格納されていてもよく、その場合、工程1006は、データベースからこれらの標的シグネチャー断片を取得することを含む。さらに、これらの標的シグネチャー断片のうちの少なくとも1つは、まだ取得されていなくてもよく、その場合、標的シグネチャー断片を取得するためのプロセス(たとえば、プロセス300または600)が実行されてもよい。プロセス1000は、すべての標的シグネチャー断片が取得されると、工程1008に進んでもよい。
【0127】
上述したように、特定のバックグラウンドが、標的シグネチャー断片を識別する際に選択されてもよい。たとえば、特定のコロナウイルス(たとえば、SARS-CoV-2およびその遺伝的変異体)が標的とされている場合、バックグラウンドは、良性と考えられうるすべての他のコロナウイルスであってもよく、または、それらを含んでいてもよい。いくつかの例においては、上述のように、ある種のコロナウイルスが中立として分類されてもよい。
【0128】
工程1008において、標的シグネチャー断片は、一つまたは複数の普遍的な標的シグネチャー断片を識別するためにフィルタリングされる。上述のように、普遍的な標的シグネチャー断片は、すべての標的有機体(または標的有機体のある少なくとも閾値割合)について、標的シグネチャー断片の中で普遍的である断片を含むことができる。たとえば、普遍的な標的シグネチャー断片は、標的コロナウイルスのすべてに普遍的に存在してもよく、非標的コロナウイルスのすべてに不在であってもよい。中立が識別される例においては、普遍的な標的シグネチャー断片が該中立なものに存在するか否かは無関係でありうる。よって、工程1008において、試験配列のその後の分類のために、低減された数の高有効性シグネチャーが識別されうる。
【0129】
工程1010において、低相同性の普遍的な標的シグネチャー断片が、普遍的な標的シグネチャー断片から識別される。たとえば、BLASTアルゴリズムを実行して、普遍的な標的シグネチャー断片とバックグラウンド・コロナウイルスとの間の相同性の程度を決定することができる。これは、少なくとも、普遍的な標的シグネチャー断片のサイズが、標的シグネチャー断片の組み合わせのサイズよりも有意に小さい可能性があるため、工程1006で得られた標的シグネチャー断片とバックグラウンド・コロナウイルスとの間の相同性の程度を決定するよりも、計算的により実際的である可能性がある。
【0130】
いずれかの普遍的な標的シグネチャー断片が、十分に有意である相同性の程度を示すと決定された場合(たとえば、少なくとも80%の相同性を示す)、普遍的な標的シグネチャー断片は、普遍的な標的シグネチャー断片がバックグラウンド・コロナウイルスとあまりにも類似しているため、低相同性の普遍的な標的シグネチャー断片ではないとして識別されうる。そのような高い相同性の断片は、バックグラウンドのコロナウイルスとあまりにも類似している可能性があり、よって偽陽性を生じる可能性が高い。逆に、普遍的な標的シグネチャー断片が低い程度の相同性を示す場合(たとえば、80%未満の相同性を示す場合)、普遍的な標的シグネチャー断片は、低相同性の普遍的なシグネチャー断片として識別されうる。少なくとも、バックグラウンド・コロナウイルスとの低い程度の相同性のおかげで低相同性の普遍的な標的シグネチャー断片は、偽陽性を生じにくい可能性があるため、低相同性の普遍的なシグネチャー断片が有利でありうる。
【0131】
工程1012では、低相同性の普遍的な標的シグネチャー断片および/または普遍的な標的シグネチャー断片が出力される。たとえば、プロセッサ530は、悪質シグネチャー・データベース140などのデータベースにそれらの断片を提供することによって断片を出力することができる。上述のように、断片は、後に、試験配列を分類するために使用されてもよい。たとえば、低相同性の普遍的な標的シグネチャー断片または普遍的な標的シグネチャー断片を用いて、ある種のコロナウイルスの試験配列を解析して、そのコロナウイルスが標的コロナウイルスであるか非標的コロナウイルスであるかを決定することができる。少なくとも、フィルタリングされた断片の数がより少なく、よって、試料を比較するための断片がより少ないために、(たとえば、工程1006で取得された標的シグネチャー断片の集合を使用して)より多数の標的シグネチャー断片が実装されたとした場合よりも、解析をより迅速に実行することが可能でありうる。よって、本明細書に開示された例は、試験配列の比較的速く、高効率の分類を可能にする。
【0132】
標的の有無について解析される試験配列(またはその一部分)は、いくつかの仕方で受け取ることができる。いくつかの例では、完全な試験配列またはその部分がファイルに記憶されてもよく、そのファイルが、ファイル内の試験配列にアクセスし、試験配列を分類するように構成されたコンピューティング装置に伝送されてもよい。試験配列は、DNAシーケンサーのようなシーケンサーによって決定されたものであってもよい。当業者には理解されるように、シーケンサーは、試料を解析し、試料の遺伝子配列を決定し、試料の遺伝子配列を含む遺伝子読み取りを出力することによって、遺伝子配列決定プロセスを自動化するために使用される。前記読み取りは、テキスト文字列として出力されてもよく、これは、上述のように、ファイルに記憶されてもよい。
【0133】
いくつかの例では、本開示の原理は、シーケンサーが試料の配列決定を終了する前に、シーケンサーの出力に適用されてもよい。たとえば、実質的にリアルタイムまたはほぼリアルタイムで配列がシーケンサーから出力される際に、遺伝子配列が解析(たとえば、配列を標的または非標的として分類することを含む)されてもよい。
【0134】
図11は、一例による、シーケンサーの出力を解析するプロセス1100を示す。さまざまな例において、プロセス1100は、プロセッサ130、530などのプロセッサによって実行されてもよい。プロセッサは、いくつかの例では、シーケンサーの構成要素であってもよい。他の例では、プロセッサは、シーケンサー以外の装置の構成要素であってもよい。たとえば、プロセッサは、シーケンサーの出力をリアルタイムまたはほぼリアルタイムで受領するために、シーケンサーに通信上結合されうる装置の構成要素であってもよい。他の例では、プロセッサは、他の装置の構成要素であってもよい。
【0135】
工程1102で、プロセス1100が開始される。
【0136】
工程1104では、標的のグループが同定される。たとえば、試験配列において検索されるべき有機体のグループが同定されてもよい。いくつかの例では、標的のグループは、ユーザーによって選択されてもよい。ユーザーは、たとえば、SARS-CoV-2およびその遺伝的変異体のようなコロナウイルスのある種のグループを選択してもよい。
【0137】
工程1106では、工程1104で同定された各標的について、標的シグネチャー断片が得られる。標的シグネチャー断片は、普遍的な標的シグネチャー断片および/または低相同性の普遍的な標的シグネチャー断片を含みうる。いくつかの例では、標的シグネチャー断片は、たとえば、上述の工程350、650、および660で識別された断片を含んでいてもよい。標的シグネチャー断片は、データベース140、520a~520cの1つのような標的シグネチャー断片を含むデータベースにアクセスすることによって得られてもよい。
【0138】
工程1108において、試験配列の一部が受領される。試験配列の該一部は、シーケンサーの出力からリアルタイムまたはほぼリアルタイムで受領されてもよい。
【0139】
工程1108は、シーケンサーが特定の試料の配列決定を終了する前に実行されてもよい。よって、工程1108で受け取られた試験配列の前記一部は、最終的には、全体としてシーケンサーによって全体として提供されうる、試料の全遺伝子配列の一部分のみでありうることが認識されるべきである。さらに、シーケンサーは、それぞれがそれぞれの遺伝子配列を有する複数の有機体を含む試料を解析しているところであってもよい。よって、工程1108は、複数の遺伝子配列の配列断片を受領することを含んでいてもよい。
【0140】
工程1110において、工程1108で受け取られた試験配列の前記一部がフィルタリングされる。工程1110は、工程1108と並列に実行されてもよい。すなわち、試験配列のある種の部分が、工程1110でフィルタリングされてもよく、一方、試験配列のフィルタリングされていない部分が工程1108で受け取られてもよい。試験配列の前記一部をフィルタリングすることは、試験配列の前記一部から低品質の読み取り情報を除去することを含んでいてもよい。低品質の読み取り情報には、不正確である可能性が高い配列情報、すなわち、試料の真の遺伝子配列を表す可能性が低い情報を含みうる。そのような不正確さは、シーケンサーが試料を誤って配列決定することによって導入される可能性がある。少なくとも、読取情報が誤りを含み、よって不正確な分類につながる可能性があるので、低品質の読取情報をフィルタ除去することが有利でありうる。
【0141】
試験配列の前記一部をフィルタリングすることは、低品質の読み取り情報を除外するために一つまたは複数の規則を適用することを含んでいてもよい。たとえば、試験配列の一部が、同じ核酸塩基を連続して閾値数より多く含んでいる場合、それらの繰り返される核酸塩基が正確に遺伝的配列を表している可能性は低いため、試験配列のその一部はフィルタ除去されてもよい。この例を続けると、試験配列の前記一部は、たとえば、連続して10個を超えるシトシン、グアニン、アデニン、チミン、または前述のものの組み合わせのインスタンスを含む場合には、フィルタ除去されてもよい。閾値は、どの核酸塩基が考慮されているかによって異なってもよい。たとえば、試験配列の前記一部は、たとえば、連続して10個を超えるチミンのインスタンス、または連続して6個を超えるシトシンのインスタンスを含む場合に、フィルタ除去されてもよい。他の例では、低品質の読み取り情報をフィルタ除去するために、他の規則が適用されてもよい。
【0142】
工程1112において、標的は、試験配列のフィルタリングされた部分において識別される。工程1112は、工程1108および/または1110と並列に実行されてもよい。すなわち、試験配列の追加部分が工程1108において受領されてもよく、その間、試験配列のある部分が工程1110でフィルタリングされてもよく、その間さらに、標的が、工程1112において試験配列のフィルタリングされた部分において識別される。標的は、プロセス400および700において上述のように識別されうる。たとえば、工程1106で得られた標的シグネチャー断片のいずれかが、試験配列のフィルタリングされた部分に存在するかどうかについての判定が行われてもよい。複数の標的が、試験配列のフィルタリングされた部分において識別されてもよい。たとえば、SARS-CoV-2ウイルスおよびその遺伝的変異体の両方が、試験配列のフィルタリングされた部分において識別されうる。各標的が試験配列の一部分において識別された回数の指示が、たとえば、プロセッサにとってアクセス可能な記憶装置および/またはメモリに記憶されてもよい。
【0143】
工程1114において、試験配列が終了したかどうか、または解析のために追加的な部分が残っているかどうかについて判定がされる。たとえば、工程1114は、シーケンサーが依然として試料の配列を出力しているかどうかを判断することを含んでいてもよい。配列が完全に配列決定されておらず、よって、配列が末端になっていない(1114 NO)場合、プロセス1110は、工程1108に戻る。工程1108~1112は、配列全体が工程1108~1112で解析されたと判断される(1114 YES)まで、繰り返し(および、いくつかの例では、同時に)実行され、配列全体が解析されたと判断された時点で、プロセス1110は、工程1116に進む。いくつかの例において、工程1108~1112は、シーケンサーが配列を出力する速度と実質的に類似の速度で、いくつかの例において、より大きな速度で実行される。たとえば、シーケンサーが約4MB/分以上で配列を出力する例では、工程1108~112は、シーケンサーの出力と実質的にリアルタイムまたはほぼリアルタイムで配列の解析が実行されるように、少なくとも4MB/分の情報に関して実行されうる。
【0144】
工程1116において、一つまたは複数の標的が試験配列中に存在する確率に関して決定がされる。工程1112に関して上述したように、試験配列の各部分は、試験配列のその部分に基づいて試料中にどの標的が存在しうるかを決定するために、解析されうる。いくつかの例において、工程1112において識別されたすべての標的が、工程1112において識別されたことにより、試料中にあると決定される。しかしながら、他の実施形態においては、標的は、その標的が少なくとも閾値回数、工程1112において識別される場合にのみ、試料中にあると決定されうる。工程1112において標的が試料中に存在するという単一の判定は、(配列決定が完了した後に単離された試験配列の高品質の断片ではなく)試験配列全体に対して実行されたときには、少なくとも、実質的にフィルタリングされていない試験配列が誤りを含む高い可能性がありうるので、決定的ではない可能性がある。よって、標的が試料中において少なくとも閾値回数、識別される場合にのみ、標的が試料中に存在すると判定することが有利でありうる。さらに、いくつかの例では、二値分類(たとえば、標的が存在するか存在しないか)は、いくつかの例では決定されなくてもよい。むしろ、所与の標的が存在する非離散的確率が決定されてもよい。
【0145】
一例では、標的は、少なくとも閾値回数、工程1112において識別される場合にのみ、存在すると判定されてもよい。たとえば、閾値は、工程1112において試料中で識別される標的の100個のインスタンスであってもよい。閾値は、標的に基づいて変化しうる。各標的について複数の閾値が実装されてもよい。たとえば、第1の閾値は、標的が試料中に存在する可能性が低いことに対応してもよく、第2の閾値は、標的が試料中に存在する可能性が中程度であることに対応してもよく、第3の閾値は、標的が試料中に存在する可能性が高いことに対応してもよい。任意の数の閾値が実装されてもよく、標的によって変化してもよい。いくつかの例において、標的が試料中に存在する確率に関して決定がされてもよく、工程1112における標的のより多数の識別は、一般に、標的が試料中に存在する、より大きな確率に対応しうる。
【0146】
工程1118では、工程1104において同定された各標的の存在の確率が出力される。各標的についての確率は、たとえば、二値予測(たとえば、存在するか存在しないか)、非離散的な確率(たとえば、標的が存在する98%の可能性)、多層予測(たとえば、標的が存在しない、または標的が存在する可能性が低い、中程度、または高いという予測)などとして表現されうる。確率は、異なる標的については異なる仕方で表現されてもよく、それは、標的が存在するという信頼レベルに基づいて変わってもよい。たとえば、標的が存在する可能性が5%未満である場合、工程1118における出力は、単に、標的が存在しないことを示してもよい。標的が存在する可能性が99%を超える場合、工程1118における出力は、単に、標的が存在することを示してもよい。標的が存在する確率が5~99%である場合、工程1118における出力は、標的が存在するパーセンテージでの確率を示してもよい。他の例では、出力の他のフォーマットが考えられる。工程1118は、ユーザーに対して、たとえばユーザーにとってアクセス可能なユーザー・インターフェースに対して、確率(単数または複数)を出力することを含みうる。工程1118は、代替的または追加的に、一つまたは複数の遠隔またはローカルなデータベースに情報を保存することを含んでいてもよい。他の例では、工程1118は、追加的なまたは異なる仕方で情報を出力することを含んでいてもよい。
【0147】
工程1120において、プロセス1100は終了する。上述のさまざまな例において、核酸配列が解析され、標的シグネチャー断片などに使用されてもよい。いくつかの例では、核酸配列は、解析、フィルタリングなどを実行する前に、アミノ酸配列に変換されてもよい。たとえば、プロセス1000では、標的シグネチャー断片はアミノ酸シグネチャーであってもよく、プロセス1000の残りの部分は、アミノ酸配列に関して実行されてもよい。よって、前述の説明における配列への言及は、核酸配列、アミノ酸配列、両方の組み合わせなどを指すことができる。核酸配列のアミノ酸配列への翻訳は、プロセス1000の実行中、実行前、または実行後に実行されうる。同様に、プロセス1100において、工程1108で受け取られた試験配列は、プロセス1100の残りの部分を実行する前に、アミノ酸配列に変換されてもよい。
【0148】
図8は、分散コンピュータ・システム800のブロック図であり、ここで、上述のさまざまな側面および機能が実施されうる。分散コンピュータ・システム800は、システム100、500の構成要素の一部または全部を含んでいてもよく、またはそれらに結合されてもよい。分散コンピュータ・システム800は、一つまたは複数のコンピュータ・システムを含んでいてもよい。たとえば、図示のように、分散コンピュータ・システム800は、3つのコンピュータ・システム802、804、および806を含む。図示のように、コンピュータ・システム802、804、および806は、通信ネットワーク808によって相互接続され、通信ネットワーク808を通じてデータを交換することができる。ネットワーク808は、コンピュータ・システムがをれを通じてデータを交換することができる任意の通信ネットワークを含んでいてもよい。ネットワーク808を介してデータを交換するために、コンピュータ・システム802、804、806およびネットワーク808は、特にトークン・リング、イーサネット、ワイヤレス・イーサネット、ブルートゥース(登録商標)、無線信号伝達、赤外線信号伝達、TCP/IP、UDP、HTTP、FTP、SNMP、SMS、MMS、SS7、JSON、XML、REST、SOAP、CORBA IIOP、RMI、DCOMおよびウェブ・サービスを含むさまざまな方法、プロトコルおよび標準を使用することができる。
【0149】
いくつかの実施形態によれば、三次元合成視点を生成するために論じられる機能および動作は、コンピュータ・システム802、804、および806上で、個別に、および/または組み合わせて実行されうる。たとえば、コンピュータ・システム802、804、および806は、たとえば、協働ネットワークへの参加をサポートする。ある代替では、単一のコンピュータシステム(たとえば、802)が、三次元合成視点を生成することができる。コンピュータ・システム802、804、および806は、携帯電話、スマートフォン、タブレット、「ファブレット」などのパーソナル・コンピューティング装置を含んでいてもよく、デスクトップ・コンピュータ、ラップトップ・コンピュータなどを含んでいてもよい。
【0150】
本明細書で議論される実施形態に従ったさまざまな側面および機能は、
図4に示されるコンピュータ・システム802を含む一つまたは複数のコンピュータ・システムにおいて実行される特殊化されたハードウェアまたはソフトウェアとして実装されうる。ある実施形態では、コンピュータ・システム802は、上述のプロセスおよび/または動作を実行するように特別に構成されたパーソナル・コンピューティング装置である。図示のように、コンピュータ・システム802は、少なくとも1つのプロセッサ810(たとえば、シングルコアまたはマルチコアプロセッサ)、メモリ812、バス814、入出力インターフェース(たとえば、816)、および記憶装置818を含む。プロセッサ810は、一つまたは複数のマイクロプロセッサまたは他のタイプのコントローラを含むことができ、データを操作する一連の命令を実行することができる。図示のように、プロセッサ810は、相互接続要素(たとえば、バス814)によって、メモリ812を含む他のシステム構成要素に接続される。いくつかの例では、プロセッサ810は、プロセッサ130、530のいずれかまたは両方であってもよく、それらを含んでいてもよく、またはそれらに結合されてもよい。たとえば、プロセッサ810は、単独で、または他の装置と組み合わせて、プロセス300、400、600、700、1000、および/または1100のいずれかを実行することができる。
【0151】
メモリ812および/または記憶装置818は、コンピュータ・システム802の動作中にプログラムおよびデータを記憶するために使用されてもよい。たとえば、メモリ812は、ダイナミックランダムアクセスメモリ(DRAM)またはスタティックメモリ(SRAM)のような比較的高性能の揮発性のランダムアクセスメモリであってもよい。さらに、メモリ812は、データを記憶するための任意の装置、たとえばディスク・ドライブまたは他の不揮発性記憶装置、たとえばフラッシュメモリ、ソリッドステート、または相変化メモリ(PCM)を含んでいてもよい。さらなる実施形態では、合成三次元ビューの生成および/またはレンダリングに関して議論された機能および動作は、メモリ812および/または記憶装置818からコンピュータ・システム802上で実行されるアプリケーションにおいて具現されることができる。たとえば、アプリケーションは、ダウンロードおよび/または購入のために「アプリ・ストア」を通じて利用可能にされることができる。ひとたびインストールされるかまたは実行のために利用可能にされると、コンピュータ・システム802は、合成三次元ビューを生成することに関連する機能を実行するように特別に構成されうる。
【0152】
コンピュータ・システム802はまた、入力装置(たとえば、画像を捕捉するためのカメラ)、出力装置、および組み合わせ入出力装置などの一つまたは複数のインターフェース816を含む。インターフェース816は、入力を受け取るか、出力を提供するか、またはその両方を行うことができる。記憶装置818は、プロセッサによって実行されるべきプログラムを定義する命令が記憶されているコンピュータ読み取り可能かつコンピュータ書き込み可能な不揮発性記憶媒体を含んでいてもよい。記憶システム818はまた、媒体上または媒体内に記録される情報を含んでいてもよく、この情報は、アプリケーションによって処理されてもよい。さまざまな実施形態とともに使用できる媒体は、たとえば、光ディスク、磁気ディスクまたはフラッシュメモリ、SSDなどを含むことができる。さらに、諸側面および実施形態は、特定のメモリ・システムまたは記憶システムには適用されない。
【0153】
いくつかの実施形態では、コンピュータ・システム802は、コンピュータ・システム802に含まれるハードウェア構成要素(たとえば、入出力装置、タッチスクリーン、カメラなど)の少なくとも一部を管理するオペレーティング・システムを含んでいてもよい。プロセッサ810のような一つまたは複数のプロセッサまたはコントローラは、オペレーティング・システムを実行することができる。該オペレーティング・システムは、とりわけ、Microsoft社から入手可能なWindowsベースのオペレーティング・システム(たとえば、Windows NT、ME、XP、Vista、7、8、またはRT)、Apple Computerから入手可能なオペレーティング・システム(たとえば、システムXを含むMAC OS)、多くのLinux(登録商標)ベースのオペレーティングシステムディストリビューションのうちの1つ(たとえば、Red Hat社から入手可能なEnterprise Linuxオペレーティング・システム)、Oracle社から入手可能なSolarisオペレーティング・システム、またはさまざまなソースから入手可能なUNIX(登録商標)オペレーティング・システムでありうる。パーソナル・コンピューティング装置のために設計されたオペレーティング・システム(たとえば、iOS、Androidなど)を含む多くの他のオペレーティング・システムが使用されてもよく、実施形態は、任意の特定のオペレーティング・システムに限定されない。
【0154】
プロセッサおよびオペレーティング・システムは、一緒になって、アプリケーション(たとえば、「アプリ・ストア」から入手可能な「アプリ」)が実行されうるコンピューティング・プラットフォームを定義する。加えて、画像を生成および操作するためのさまざまな機能は、プログラムされていない環境で実装されてもよい(たとえば、HTML、XML、または他のフォーマットで作成された文書がブラウザプログラムのウィンドウ内で見るときにグラフィカル・ユーザー・インターフェースの諸側面をレンダリングするか、または他の機能を実行する)。さらに、本開示の諸側面に従ったさまざまな実施形態は、プログラムされたもしくはプログラムされていないコンポーネント、またはそれらの任意の組み合わせとして実装されてもよい。さまざまな実施形態は、部分的に、MATLAB(登録商標)関数、スクリプト、および/またはバッチ・ジョブとして実装されてもよい。このように、本開示は特定のプログラミング言語に限定されず、任意の適切なプログラミング言語も使用できる。
【0155】
例として、三次元合成ビューを生成するためのさまざまな機能が実施されうるコンピュータ・システムの1つのタイプとして前記コンピュータ・システム802が示されているが、諸側面および実施形態は、
図8に示されるコンピュータ・システム上で実施されることに限定されない。さまざまな側面および機能は、
図8に示されたものとは異なるアーキテクチャーまたは構成要素を有する一つまたは複数のコンピュータまたは類似の装置上で実施されてもよい。
【0156】
本明細書で提供される例は、遺伝子配列の解析を可能にする。上記で与えられるいくつかの例において、遺伝的配列は、有機体に由来しうる。しかしながら、上述の原理は、有機体に由来する遺伝子配列に限定されるものではなく、合成配列のような他の配列と関連して実施されてもよいことを理解されたい。
【0157】
少なくとも1つの実施形態のいくつかの側面を上述したが、当業者には、さまざまな変更、修正、および改善が容易に思いつくであろうことが理解されるであろう。そのような変更、修正、および改善は、本開示の一部であることが意図されており、本開示の範囲内であることが意図されている。よって、上記の説明および図面は、単に例であり、本開示の範囲は、添付の特許請求の範囲およびそれらの均等物の適切な構成から決定されるべきである。