IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エフ.ホフマン−ラ ロシュ アーゲーの特許一覧

特許7574420多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法
<>
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図1
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図2
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図3
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図4
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図5
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図6
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図7
  • 特許-多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-18
(45)【発行日】2024-10-28
(54)【発明の名称】多数のノイズのある配列からからコンセンサス配列を生成する深層学習ベースの技法
(51)【国際特許分類】
   G16B 30/10 20190101AFI20241021BHJP
【FI】
G16B30/10
【請求項の数】 16
(21)【出願番号】P 2023516102
(86)(22)【出願日】2021-09-09
(65)【公表番号】
(43)【公表日】2023-09-26
(86)【国際出願番号】 US2021049561
(87)【国際公開番号】W WO2022056060
(87)【国際公開日】2022-03-17
【審査請求日】2023-03-10
(31)【優先権主張番号】63/077,357
(32)【優先日】2020-09-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100161908
【弁理士】
【氏名又は名称】藤木 依子
(72)【発明者】
【氏名】モヒユディン,マーグフーブ
(72)【発明者】
【氏名】サーラエイアン,サイード・ムハンマドエブラヒム
【審査官】山田 倍司
(56)【参考文献】
【文献】米国特許出願公開第2013/0217006(US,A1)
【文献】米国特許出願公開第2019/0348152(US,A1)
【文献】米国特許出願公開第2006/0136144(US,A1)
【文献】米国特許第9109861(US,B1)
【文献】米国特許出願公開第2010/0094563(US,A1)
【文献】国際公開第2020/049293(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
特定の分子のコンセンサス配列を生成する方法であって、
前記特定の分子の一組の配列にアクセスするステップであって、前記一組の配列のそれぞれは前記一組の配列中の他の配列から独立して生成されており、前記一組の配列のそれぞれは一組の順序付きの塩基を含む、アクセスするステップと、
前記一組の配列の前記一組の順序付きの塩基の各塩基ごとに、前記塩基を一組の基準位置の中からの一の基準位置と関係付けるアライメント結果を生成するように前記一組の配列を使用してアライメントプロセスを実行するステップと、
前記一組の基準位置の各基準位置ごとに、前記基準位置にアライメントされた前記一組の順序付きの塩基からの各塩基を表す前記基準位置についての特徴ベクトルを生成するステップと、
前記特定の分子についての前記コンセンサス配列を生成するように、機械学習モデルを使用して、前記一組の基準位置についての前記特徴ベクトルを処理するステップと、を含み、
前記一組の配列の少なくとも1つの各配列ごとに、
前記配列が1つまたは複数のホモポリマーを含み、前記1つまたは複数のホモポリマーのそれぞれが前記配列中の同じ塩基の多数の連続した表示を含むことを決定するステップと、
前記1つまたは複数のホモポリマーのそれぞれが単一塩基へ畳み込まれている前記配列の畳み込まれた表示を生成するステップと、をさらに含み、前記アライメントプロセスは、前記配列の前記畳み込まれた表示を使用して実行され、
前記畳み込まれた表示は、前記1つまたは複数のホモポリマーごとに、前記ホモポリマー中の塩基の量のインジケーションを含み、前記インジケーションは、前記配列中における前記ホモポリマーの位置をも示す、方法。
【請求項2】
前記アライメントプロセッシングを実行するステップは、多重配列アライメントを実行するステップを含む、請求項1に記載の方法。
【請求項3】
前記一組の基準位置の各基準位置ごとに、前記特徴ベクトルは、前記一組の配列それぞれごとに、前記一組の順序付きの塩基のどれが前記基準位置にアライメントされるのかに関するインジケーションを含む、請求項1または2に記載の方法。
【請求項4】
前記一組の基準位置の少なくとも1つの基準位置の各基準位置ごとに、前記特徴ベクトルは、前記一組の配列の少なくとも1つのそれぞれが前記基準位置にアライメントされた塩基を含まないというインジケーションを含む、請求項1から3のいずれかに記載の方法。
【請求項5】
前記機械学習モデルは、回帰型ニューラルネットワークを含む、請求項1からのいずれかに記載の方法。
【請求項6】
前記機械学習モデルは、1つまたは複数の長短期記憶(LSTM)ユニットを含む、請求項1からのいずれかに記載の方法。
【請求項7】
前記一組の配列の少なくともいくつかの各配列ごとに、前記一組の順序付きの塩基の1つまたは複数の各塩基ごとの品質メトリクスにアクセスするステップをさらに含み、前記生成された特徴ベクトルの少なくとも1つは、1つまたは複数の品質値を含み、前記1つまたは複数の品質値のそれぞれは、前記品質メトリクスを含むまたは前記品質メトリクスに基づく、
請求項1からのいずれかに記載の方法。
【請求項8】
特定の分子のコンセンサス配列を生成するシステムであって、
1つまたは複数のデータプロセッサと、
非一時的なコンピュータ可読記憶媒体と、を備え、前記非一時的なコンピュータ可読記憶媒体は、前記1つまたは複数のデータプロセッサで実行されるときに、
前記特定の分子の一組の配列にアクセスするステップであって、前記一組の配列のそれぞれは前記一組の配列中の他の配列から独立して生成されており、前記一組の配列のそれぞれは一組の順序付きの塩基を含む、アクセスすることと、
前記一組の配列の前記一組の順序付きの塩基の各塩基ごとに、前記塩基を一組の基準位置の中からの一の基準位置と関係付けるアライメント結果を生成するように前記一組の配列を使用してアライメントプロセスを実行することと、
前記一組の基準位置の各基準位置ごとに、前記基準位置にアライメントされた前記一組の順序付きの塩基からの各塩基を表す前記基準位置についての特徴ベクトルを生成することと、
前記特定の分子についての前記コンセンサス配列を生成するように、機械学習モデルを使用して、前記一組の基準位置についての前記特徴ベクトルを処理することと、
を含む一組のアクションを前記1つまたは複数のデータプロセッサに実行させる命令を含
前記一組のアクションは、前記一組の配列の少なくとも1つの各配列ごとに、
前記配列が1つまたは複数のホモポリマーを含み、前記1つまたは複数のホモポリマーのそれぞれが前記配列中の同じ塩基の多数の連続した表示を含むことを決定することと、
前記1つまたは複数のホモポリマーのそれぞれが単一塩基へ畳み込まれている前記配列の畳み込まれた表示を生成することと、をさらに含み、前記アライメントプロセスは、前記配列の前記畳み込まれた表示を使用して実行され、
前記畳み込まれた表示は、前記1つまたは複数のホモポリマーのそれぞれごとに、前記ホモポリマー中の塩基の量のインジケーションを含み、前記インジケーションは、前記配列中における前記ホモポリマーの位置をも示す、
システム。
【請求項9】
前記アライメントプロセッシングを実行することは、多重配列アライメントを実行するステップを含む、請求項に記載のシステム。
【請求項10】
前記一組の基準位置の各基準位置ごとに、前記特徴ベクトルは、前記一組の配列のそれぞれごとに、もしあれば、前記一組の順序付きの塩基のどれが前記基準位置にアライメントされるのかに関するインジケーションを含む、請求項またはに記載のシステム。
【請求項11】
前記一組の基準位置の少なくとも1つの基準位置の各基準位置ごとに、前記特徴ベクトルは、前記一組の配列の少なくとも1つのそれぞれが前記基準位置にアライメントされた塩基を含まないというインジケーションを含む、請求項から10のいずれかに記載のシステム。
【請求項12】
前記機械学習モデルは、回帰型ニューラルネットワークを含む、請求項から11のいずれかに記載のシステム。
【請求項13】
前記機械学習モデルは、1つまたは複数の長短期記憶(LSTM)ユニットを含む請求項から12のいずれかに記載のシステム。
【請求項14】
前記一組のアクションは、
前記一組の配列の少なくともいくつかの各配列ごとに、前記一組の順序付きの塩基の1つまたは複数の塩基のそれぞれごとの品質メトリクスにアクセスすることをさらに含み、前記生成された特徴ベクトルの少なくとも1つは、1つまたは複数の品質値を含み、前記1つまたは複数の品質値のそれぞれは、前記品質メトリクスを含むまたは前記品質メトリクスに基づく、請求項から13のいずれかに記載のシステム。
【請求項15】
特定の分子の一組の配列にアクセスすることであって、前記一組の配列のそれぞれは前記一組の配列中の他の配列から独立して生成されており、前記一組の配列のそれぞれは一組の順序付きの塩基を含む、アクセスすることと、
前記一組の配列の前記一組の順序付きの塩基の各塩基ごとに、前記塩基を一組の基準位置の中からの一の基準位置と関係付けるアライメント結果を生成するように前記一組の配列を使用してアライメントプロセスを実行することと、
前記一組の基準位置の各基準位置ごとに、前記基準位置にアライメントされた前記一組の順序付きの塩基からの各塩基を表す前記基準位置についての特徴ベクトルを生成することと、
前記特定の分子についてのコンセンサス配列を生成するように、機械学習モデルを使用して、前記一組の基準位置についての前記特徴ベクトルを処理することと、
を含む一組のアクションを1つまたは複数のデータプロセッサに実行させるように構成された命令を含み、
前記一組のアクションは、前記一組の配列の少なくとも1つの各配列ごとに、
前記配列が1つまたは複数のホモポリマーを含み、前記1つまたは複数のホモポリマーのそれぞれが前記配列中の同じ塩基の多数の連続した表示を含むことを決定することと、
前記1つまたは複数のホモポリマーのそれぞれが単一塩基へ畳み込まれている前記配列の畳み込まれた表示を生成することと、をさらに含み、前記アライメントプロセスは、前記配列の前記畳み込まれた表示を使用して実行され、
前記畳み込まれた表示は、前記1つまたは複数のホモポリマーのそれぞれごとに、前記ホモポリマー中の塩基の量のインジケーションを含み、前記インジケーションは、前記配列中における前記ホモポリマーの位置をも示す、
コンピュータプログラム。
【請求項16】
前記アライメントプロセッシングを実行することは、多重配列アライメントを実行することを含む、請求項15に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
[0001]本出願は、2020年9月11日に出願した米国仮特許出願第63/077,357号の利益および優先権を主張するものであり、これは、全ての目的について全体として参照により本明細書に組み込まれる。
【背景技術】
【0002】
[0002]生物学的サンプルは、複数の組の順序付き核酸を特定する配列を特定するために使用され得る。むしろ最近、一分子シーケンシングは、急速に技術が進歩し、用途が広がっている。これらの技法は、個々の分子を配列決定することができ、PCR増幅せずにリアルタイムで実行することができる。この技法は、遺伝子を病気に関係付ける包括的なライブラリの構築、新しい病気の特定および特徴付け、希少疾患の特徴付け、および治療法の特定を助けることに関して信じられないほど有望である。
【0003】
[0003]しかしながら、多くの既存のシーケンシングシステム(例えば、第3世代または次世代の技法)は、エラーの影響を受けやすいままであり、エラー率は40%に到達し得る。エラー率が減少できる場合、シーケンシングの有用性は、非常に高まる。
【発明の概要】
【0004】
[0004]いくつかの実施形態では、特定の分子のコンセンサス配列を生成するコンピュータ利用方法が提供される。特定の分子の一組の配列がアクセスされ、前記一組の配列のそれぞれは前記一組の配列中の他の配列から独立して生成されており、前記一組の配列のそれぞれは一組の順序付きの塩基を含む。アライメントプロセスは、前記一組の配列の順序付きの前記一組の塩基の各塩基ごとに、塩基を前記一組の基準位置の中からの一の基準位置と関係付けるアライメント結果を生成するように前記一組の配列を使用して実行される。前記一組の基準位置の各基準位置ごとに、特徴ベクトルは、基準位置にアライメントされた前記一組の順序付きの塩基からの各塩基を表す基準位置について生成される。前記一組の基準位置についての特徴ベクトルは、特定の分子についてのコンセンサス配列を生成するように、機械学習モデルを使用して処理される。
【0005】
[0005]アライメントプロセッシングを実行するステップは、多重配列アライメントを実行するステップを含むことができる。前記一組の基準位置の各基準位置ごとに、特徴ベクトルは、前記一組の配列のそれぞれごとに、もしあれば、前記一組の順序付きの塩基のどれが基準位置にアライメントされるのかに関するインジケーションを含むことができる。前記一組の基準位置の少なくとも1つの基準位置の各基準位置ごとに、特徴ベクトルは、前記一組の配列の少なくとも1つのそれぞれが基準位置にアライメントされた塩基を含まないというインジケーションを含むことができる。方法は、前記一組の配列の少なくとも1つの各配列ごとに、配列が1つまたは複数のホモポリマーを含み、各1つまたは複数のホモポリマーが配列中の同じ塩基の多数の連続した表示を含むことを決定するステップと、各1つまたは複数のホモポリマーが単一塩基へ畳み込まれている配列の畳み込まれた表示を生成するステップと、をさらに含むことができ、アライメントプロセスは、配列の畳み込まれた表示を使用して実行される。畳み込まれた表示は、1つまたは複数のホモポリマーごとに、ホモポリマー中の塩基の量のインジケーションを含むことができる。機械学習モデルは、回帰型ニューラルネットワークを含むことができる。機械学習モデルは、1つまたは複数の長短期記憶(LSTM)ユニットを含むことができる。方法は、前記一組の配列の少なくともいくつかの各配列ごとに、前記一組の順序付きの塩基の1つまたは複数の塩基のそれぞれごとの品質メトリクスにアクセスするステップをさらに含んでもよく、生成された特徴ベクトルの少なくとも1つは、1つまたは複数の品質値を含み、各1つまたは複数の品質値は、品質メトリクスを含むまたは品質メトリクスに基づく。
【0006】
[0006]いくつかの実施形態では、1つまたは複数のデータプロセッサと、命令を含む非一時的なコンピュータ可読記憶媒体と、を含み、命令は、1つまたは複数のデータプロセッサで実行されるときに、本明細書中に開示された1つまたは複数の方法の一部または全部を1つまたは複数のデータプロセッサに実行させる、システムが提供される。
【0007】
[0007]いくつかの実施形態では、非一時的な機械可読記憶媒体に有形で具体化され、本明細書中に開示された1つまたは複数の方法の一部または全部を1つまたは複数のデータプロセッサに実行させるように構成された命令を含む
コンピュータプログラム製品が提供される。
【0008】
[0008]本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、1つまたは複数のデータプロセッサで実行されるときに、本明細書中に開示された1つまたは複数の方法の一部または全部、および/あるいは1つまたは複数のプロセスの一部または全部を1つまたは複数のデータプロセッサに実行させる命令を含む非一時的なコンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、本明細書中に開示された1つまたは複数の方法の一部または全部、および/あるいは1つまたは複数のプロセスの一部または全部を1つまたは複数のデータプロセッサに実行させるように構成された命令を含む非一時的な機械可読記憶媒体に有形で具体化されるコンピュータプログラム製品を含む。
【0009】
[0009]用いられている用語および表現は、説明の用語として使用され、限定ではなく、そのような用語および表現の使用において、図示および説明される特徴、またはその一部の任意の均等物を除外する意図はないが、権利主張される発明の範囲内で様々な修正が可能であることが認識される。したがって、権利主張される本発明は、実施形態および任意選択の特徴によって具体的に開示されているが、開示された本明細書中の概念の修正および変更が当業者によって用いられてもよく、そのような修正および変更は、添付の特許請求の範囲によって定められる本発明の範囲内にあるとみなされることを理解されたい。
【0010】
[0010]本開示は、以下の添付図面に関連して説明される。
【図面の簡単な説明】
【0011】
図1】[0011]コンセンサス配列を生成するための例示的な配列評価ネットワークを示す図である。
図2】[0012]図2(A)~(D)は、コンセンサス配列を生成するための配列の例示的な処理を示す図である。
図3】[0013]コンセンサス配列に対応する結果を生成するために一組の配列の表示を処理する例示的なニューラルネットワークを示す図である。
図4】[0014]図4(A)~(D)は、コンセンサス配列を生成するための配列の例示的な処理を示す図である。
図5】[0015]図5(A)~(D)は、コンセンサス配列を生成するための配列の例示的な処理を示す図である。
図6】[0016]コンセンサス配列に対応する結果を生成するために一組の配列の表示を処理する例示的なニューラルネットワークを示す図である。
図7】[0017]コンセンサス配列を生成するために一組の配列を処理する例示的なプロセのフローチャートである。
図8】[0018]コンセンサス配列を生成するための2つの技法のそれぞれについてのクラスタのサイズにわたっての例示的なコンセンサス塩基レベルのフレッド(Phred)スコアを示すグラフである。
【発明を実施するための形態】
【0012】
[0019]添付図面では、同様の構成要素および/または特徴は、同じ参照ラベルを有することができる。さらに、同じタイプの様々な構成要素は、ダッシュによる参照ラベル、および同様の構成要素の中で区別する第2のラベルに続くことによって区別することができる。第1の参照ラベルだけが本明細書に使用される場合、説明は、第2の参照ラベルに関わりなく、同じ第1の参照ラベルを有する同様の構成要素のいずれか1つに適用可能である。
【0013】
詳細な説明
I.概要
[0020]本明細書中に開示された技法は、コンセンサス配列を生成するために同じ分子、遺伝子、および/またはサンプルに関する多重配列を処理することができる。それぞれの個々の配列は、(例えば)増幅、サンプル調製、および/または配列決定中に導入されるエラーになる傾向があり得る。しかしながら、多重配列の一括評価は、結果として得られる配列が何らかのエラーを含む確率を減少させる、および/または配列中のエラーの量を(例えば、平均して)減少させることができる。
【0014】
[0021]個々の配列は、互いから独立していることができ、ならびに/あるいは(例えば)異なる技法を使用して、異なる機械を使用して、異なるサンプル部分を使用して、および/または互いに対して異なる時間で生成されていることができる。他の実施形態では、個々の配列は、例えば、次世代または第3世代シーケンサ(すなわち、ナノポアシーケンサ)による並列シーケンシングなどによって、同じサンプルを使用して、同じ機械上で、およびほぼ同時に生成されていることができる。個々の配列の各々は、一組の順序付きの塩基(例えば、核酸塩基)を含むことができる。個々の配列の各々は、特定の分子であることができ、(例えば)20,000個のヌクレオチドよりも少ない、15,000個のヌクレオチドよりも少ない、10,000個のヌクレオチドよりも少ない、5,000個のヌクレオチドよりも少ない、1,000個のヌクレオチドよりも少ない、500個のヌクレオチドよりも少ない、または200個のヌクレオチドよりも少ない、長さを有することができる。
【0015】
[0022]いくつかの例では、配列は、より長くてもよく、(例えば)20,000個のヌクレオチドよりも多い、15,000個のヌクレオチドよりも多い、10,000個のヌクレオチドよりも多い、5,000個のヌクレオチドよりも多い、1,000個のヌクレオチドよりも多い、500個のヌクレオチドよりも多い、または200個のヌクレオチドよりも多い長さを有することができる。これらの状況では、各配列は、(例えば、それぞれは、1,000個のヌクレオチドよりも少ないかまたは等しい、500個のヌクレオチドよりも少ないかまたは等しい、200個のヌクレオチドよりも少ないかまたは等しい、または100個のヌクレオチドよりも少ないかまたは等しい長さを有する)多数の部分に分割されてもよく、あるいは配列は、分断なしで全体として処理されてもよい。次いで、一組の配列の対応する部分は、その部分についてのコンセンサス配列を予測するために部分特定のやり方で一括して評価され得る。次いで、この部分についてのコンセンサス配列は、サンプルについてのコンセンサス配列を形成するように連結され得る。
【0016】
[0023]個々の配列は、アライメント技法を使用して互いにアライメントされ得る。アライメント技法は、多重配列アライメントを含むことができ、これは、配列をアライメントするために(例えば)プログレッシブ法、反復法、隠れマルコフ法、および/またはコンセンサス法を使用し得る。アライメントは、挿入および/または欠失タイプのエラーを考慮するために少なくともいくつかの連続したヌクレオチド間にギャップを導入することを含み得る。
【0017】
[0024]いくつかの例では、各配列の修飾した表示が生成され、次いで、修飾した表示は、アライメント技法を使用してアライメントされる。配列の修飾した表示は、(同じ塩基の多数の連続的なインスタンスを含む)配列中のいずれかのホモポリマーを検出し、各ホモポリマーを単一塩基へ畳み込むことによって生成され得る。例えば、配列は、3連続グアニンを含むことができ、これは、修飾した表示中で単一のグアニンによって置き換えられ得る。
【0018】
[0025]配列がアライメントされるにしても、配列の修飾した表示がアライメントされるにしても、アライメントの結果は、(個々の塩基および潜在的にホモポリマーを表し得る)一組の位置のそれぞれごとに、それぞれのアライメントされた配列が位置に関連してどの塩基を含むかに関してインジケーションを含むことができる。
【0019】
[0026]一組の特徴ベクトルが、アライメント結果に基づいて生成され得る。例えば、アライメント結果における位置ごとに、特徴ベクトルは、アライメントされた配列ごとに、どの塩基(またはギャップ)が位置にアライメントされるかを示すことができる。配列の簡略にされた修飾した表示がアライメントされるとき、およびホモポリマーの表示が所与の位置にアライメントされるとき、特徴ベクトルは、ホモポリマーに含まれたいくつかの塩基をさらに特定することができる。いくつかの例では、特徴ベクトルは、1つまたは複数の品質メトリクスをさらに含む。
【0020】
[0027]次いで、特徴ベクトルは、機械学習モデルによって処理され得る。機械学習モデルは、入力に表されるような同じ個数の位置を表し、位置ごとに、位置に対応するように予測される特定のヌクレオチド(またはギャップ/ヌル値)を特定する出力を(例えば)生成するように構成され得る。いくつかの例では、出力は、位置ごとに、位置に関連した信頼指標をさらに含む。特徴ベクトルが、1よりも大きい、2よりも大きい等の長さをそれぞれ有するので、モデルの出力の合計サイズは、入力のサイズよりも小さくなり得る。
【0021】
[0028]次いで、トータルモデル出力は、後処理され得る。例えば、出力は、各ギャップ/ヌル値を除去するために簡略にされ得る。次いで、(例えば、特定の分子または特定のサンプルについての)コンセンサス配列は、後処理された出力に定められ得る、または後処理された出力に基づいて定められ得る。コンセンサス配列は、(例えば、同じ分子が、ローリングサークル増幅または反復配列のコンカテマーによって生成される分子のように、多数の異なる配列を生成するために反復して使用されるときに)分子内コンセンサス予測であってもよく、または(例えば、同じまたは異なるタイプの異なる分子が、多数の異なる配列を生成するために使用されるとき)分子間コンセンサス予測であってもよい。
【0022】
[0029]コンセンサス配列は、(例えば、中央サーバおよび/または中央コンピューティングシステムから)、ケアプロバイダおよび/または研究所に関連したデバイスを含み得る別のデバイスへ送信され得る。いくつかの例では、コンセンサス配列が何らかの変種および/または突然変異(例えば、単一のヌクレオチド変種)を含むか予測するために、コンセンサス配列は、1つまたは複数の参照配列の各々と比較されてもよく、比較に基づく結果が、別のデバイスへ送信され得る。
【0023】
[0030]いくつかの例では、コンセンサス配列は、PCR増幅前に所与のDNA断片に取り付けられ得る固有の分子識別子(UMI:Unique Molecular Identifier)として使用される。次いで、UMIは、特定の断片に対応する各複製を特定するためにタグとして使用され得る。したがって、PCR複製から生じる読み取りデータは、同じUMIを検出することによって特定することができ、UMIに関連した読み取りデータは、畳み込むことができ、これにより、元のサンプル中の断片の相対濃度を正確に推定するのを助けることができる。
【0024】
[0031]いくつかの例では、コンセンサス配列は、配列アセンブリリファインメントに使用され得る。例えば、アセンブリプロセス中にコンティグを生成するために一緒にクラスタ化される読み取りデータのセット、またはアセンブリプロセスによって生成される所与のコンティグにアライメントされる読み取りデータのセットは、コンセンサスコンティグを生成するように畳み込まれてもよく、したがって、アセンブリされたコンティグ中のエラーを減少させることができる。
【0025】
II.配列特定、配列表示、配列アライメント、特徴ベクトル、および機械学習モデル
II.A.配列特定
[0032]配列は、(例えば)被検者から収集された血液、唾液、または組織生検を含み得るサンプルを処理することによって特定することができる。シーケンシングは、単一分子を配列決定するための技術を含むように現れている。例示的な一分子シーケンシングシステムは、ナノポアシーケンシング、一分子リアルタイムシーケンシング(SMRT)、イルミナのシーケンシング・バイ・シンセシス(sequencing-by-synthesis)、およびヘリコスシーケンシング(Helicos sequencing)を含む。
【0026】
II.A.1.ナノポアシーケンシング
[0033]ナノポアシーケンシングは、合成膜中にタンパク質ポアを埋め込むことを含む。イオン電流が、ナノポアを通過することができる。ナノポアは、ポア入口の近くにポリメラーゼ分子を有することができる。4つのヌクレオチド塩基に対応するタグを有するヌクレオチドが導入され得る。ポリメラーゼ分子は、塩基対の配列を作り出すためにタグ付けされたヌクレオチドを組み込むことができる。ナノポアは、DNA鋳型鎖が組み込まれるときに、対応するタグを取り込むことができる。ナノポア中のタグは、測定できる電流またはいくつかの他の電気特性に検出可能な変化を引き起こすことができる。各タグは、ヌクレオチド配列が特定され得るように、特定の電流変化を引き起こすことができる。
【0027】
[0034]ナノポアシーケンシングの他の方法は、ポアを通じて直接配列されるように分子を通すことを含むこともできる。配列される分子は、核酸分子、核酸の誘導体分子もしくは修飾された分子、またはポアに通されることができるいくつかの他のマクロ分子であり得る。
【0028】
[0035]挿入および欠失のエラーおよび不整合は、ナノポアシーケンシング中に導入され得る。エラー率は、電流の変化に基づいて塩基配列を特定するために使用することができるより正確なベースコールアルゴリズムを用いて減少され得る。さらに、ナノポアにおけるDNA分子のシーケンシングを反復することによって、コンセンサス配列を作り出し、ナノポアシーケンシングのエラー率を減少させることができる。
【0029】
II.A.2.一分子リアルタイムシーケンシング(SMRT)
[0036]一分子リアルタイムシーケンシング(SMRT)は、並列化された一分子DNAシーケンシングの方法である。二重鎖分子を単一の円形鋳型に変換するために、アダプタが、DNAまたはRNA分子の端部に加えられ得る。DNAポリメラーゼ酵素が、鋳型に取り付けられ得る。シーケンシング中、鋳型DNA分子は、ゼロモード導波路内で置くことができる。ポリメラーゼがヌクレオチドを組み込むとき、光が発せられ得る。ヌクレオチド塩基ごとに発せられる光は異なり、したがって、各ヌクレオチドが特定され得る。
【0030】
[0037]エラーは、挿入、欠失、および「ダーク塩基(Dark base)」の結果としてSMRTシーケンシング中に生じ得る。ダーク塩基は、イメージング中に蛍光でない塩基であり、したがって、配列中で特定することができない。シングルパスシーケンス(single-pass sequence)については、エラー率は、約11%である。単一の鋳型分子の多数のパスをとり、配列を平均化することで、コンセンサス配列における信頼性を構築することができる。
【0031】
II.A.3.イルミナシーケンシング
[0038]イルミナシーケンシングは、DNAシーケンシングのためのシークエンシング・バイ・シンセシス手法である。アダプタは、DNA断片の端部に加えられてもよく、DNA断片は、フローセル上でハイブリダイズされ得る。DNAポリメラーゼ分子は、各DNA断片の相補体を作り出すことができる。次いで、元のDNA断片は、洗い流すことができる。ブリッジ増幅は、クラスタを作り出すために相補鎖をクローン的に増幅することができる。増幅後、逆鎖は裂かれ、洗い落とされ得る。シーケンシング中、蛍光ヌクレオチドが導入され、ヌクレオチド鎖への付加を競うことができる。したがって、所与のタイプの適合している蛍光ヌクレオチドが、塩基対を形成するために選択的に加えられ得る。光源は、光信号が発せられるように蛍光ヌクレオチドを励起するために使用され得る。異なる蛍光ヌクレオチドが、反復的に加えられ(および続いてイメージされ)得る。各ヌクレオチド塩基は、異なる光信号を発することができ、そのため、加えられれたヌクレオチドが決定され得る。
【0032】
[0039]ヌクレオチド置換は、イルミナシーケンシング中のエラーの大部分を引き起こす。他のエラーは、励起スペクトルと放出スペクトルとの間のクロストーク、クラスタ間のクロストーク、整相、および調光から生じ得る。Phredクオリティスコア(Q)は、イルミナシーケンシング中の塩基ごとに定義される。このクオリティスコアは、式Q=-10log10(P)を使用して定義される。より高いQスコアは、より小さいエラーの確率(P)を示すのに対して、より低いQスコアは、より高いエラーの可能性を示す。例えば、20のクオリティスコアは、99%の精度を表す。塩基決定中の強度プロファイルおよび信号対ノイズ比から決定することができるクオリティ予測値を使用して、塩基に関連したクオリティスコアを決定することができる。Phredクオリティスコアおよび/または他のタイプのクオリティスコアは、他のシーケンシング手法から生成される配列にも適用され得る。
【0033】
II.A.4.ヘリコスシーケンシング
[0040]ヘリコスシーケンシングを用意するために、各DNA分子は、約35個の塩基対を平均化する長さに切断され得る。プライマーが、各DNA鎖の3’末端に加えられてもよい。シーケンシングのための鋳型として働く各鎖は、蛍光ヌクレオチドでラベル付けられ得る。DNA鎖は、フローセルにハイブリダイズされ得る。レーザは、フローセルを照明することができ、各鋳型の位置を示す。各鋳型のイメージがとられてもよく、次いで、蛍光ラベルが切り裂かれ得る。
【0034】
[0041]DNAポリメラーゼ、および4つのヌクレオチド塩基のうちの1つに対応する蛍光ヌクレオチドは、フローセルに加えられてもよい。DNAポリメラーゼは、蛍光ヌクレオチドに対応するヌクレオチドを有する鋳型ごとに蛍光ヌクレオチドを挿入することができる。例えば、DNAポリメラーゼは、T蛍光ヌクレオチドを配列中の次のAヌクレオチドを有する各鋳型へ加える。イメージング後、蛍光ヌクレオチドのための蛍光ラベルは、除去されてもよく、別のヌクレオチドに対応する新しい蛍光が導入され得る。プロセスは、所望の読み取り長が実現されるまで反復され得る。
【0035】
[0042]ヘリコスシーケンシングも、主にダーク塩基およびヌクレオチド置換の結果としてエラーに悩まされている。SMRTシーケンシングと同様に、反復するシーケンシングは、エラーを減少させ、特定された塩基における信頼性を高めることができる。しかしながら、反復されるシーケンシングは、シーケンシングプロセスのコストを増大させ得る。
【0036】
II.B.配列表示
[0043]いくつかの例では、配列表示は、1つまたは複数の位置ごとに、特定の配列中のその位置に存在する塩基(例えば、ヌクレオチド)を特定することができる。例えば、シーケンシング出力は、配列表示が75個のヌクレオチドを特定するように、75個のヌクレオチドを有する配列を特定することができる。
【0037】
[0044]いくつかの例では、1つまたは複数の塩基の各々は、塩基同定に根底をなす生データに基づいて生成されていることができる品質および/または信頼指標にさらに関連している。例えば、光信号が、対応する塩基を予測するために使用されていてもよく、および周波数、強度、および/またはパルス幅が、(例えば、予め定められたルックアップテーブルおよび/または関係に基づいて)予測された塩基の信頼性を特定するために使用されてもよい。
【0038】
[0045]いくつかの例では、当初検出された配列は、同じ塩基の多数の連続的な位置を含む1つまたは複数のホモポリマーを含む。次いで、配列表示は、各ホモポリマーを対応する塩基の単一のインスタンスに置き換える畳み込まれた表示を含むことができる。いくつかの例では、置換値および/または対応する構造が、各ホモポリマー中の塩基の量を特定する。
【0039】
[0046]いくつかの例では、配列表示は、符号化された表示を含む。例えば、「A」(または「C」、「G」、または「T」)を含む配列表示ではなく、符号化は、塩基の2進数または整数の表示を含むことができる。例えば、各位置は、その位置における塩基がアデニン、シトシン、グアニン、チミン、または潜在的に上記にないものであるかを示すように設定されることになる少なくとも4つまたは少なくとも5つの2進値で関連付けることができる。そのような符号化は、(例えば)ワンホット符号化に対応し得る。別の例として、配列表示は、一組の整数のセット(または一組の他の文字)の各々が特定のヌクレオチド(例えば、および潜在的にギャップまたはヌル値)を表すように構成され得る。
【0040】
II.C.配列アライメント
[0047]配列エラーを減少させるのを助けるために、コンセンサス配列は、一組の配列を使用して生成され得る。いくつかの例では、一組の配列の少なくとも一部または全部は、同じサンプル、同じ分子、同じシーケンシングシステム、および/または同じシーケンシングデバイスを使用して生成されていることができる。代替としてまたはさらに、一組の配列の少なくとも一部または全部は、異なるサンプル、異なる分子、異なるシーケンシングシステム、および/またはシーケンシングデバイスを使用して生成されていてもよい。例示的な一例として、一組の配列は、同じシーケンシングシステムおよび技法(例えば、ナノポアシーケンシング)を使用するとともに、同じサンプルを使用することによって生成されていることができる。コンセンサス配列は、シーケンシングシステム内に局所的に決定され、ユーザへ出力され得る。
【0041】
[0048]一組の配列表示(各ホモポリマーを単一塩基に置き換える配列自体または畳み込まれたバージョンを含むことができる)は、互いにアライメントされることが可能であり、これにより特徴ベクトルの生成を助けることができる。アライメントは、コスト関数または損失関数を使用して実行される。例えば、一組の潜在的なアライメントの各々は、アライメントされた塩基が同じでないインスタンスごとにおよび/またはギャップごとにペナルティを導入して評価され得る。より低い総コスト(すなわち、ペナルティの合計)に関連したアライメントは、より高い総コストに関連した代替アライメントよりも優先的に選ばれ得る。いくつかの例では、潜在的なアライメントは、ペアワイズで反復的に評価される。
【0042】
[0049]いくつかの例では、配列は、多重配列アライメント技法を使用してアライメントされる。多重配列アライメント技法は、(例えば)プログレッシブアライメント構成を使用することができる(例えば、まず、配列間の関係を特定する案内木を生成するクラスタリング技法を使用し、次いで、最も類似するペアで始まり、次に最も類似する配列を反復してアライメントすることへ進むやり方で反復的にアライメントを組み合わせる)。プログレッシブ方法を実施する例示的な技法は、クラスタルファミリー(Clustal family)(例えば、クラスタルW(ClustalW))、および/またはTコーヒー(T-Coffee)における1つまたは複数のバージョンを含む。多重配列アライメント技法は、反復法を含むことができ、反復法は、再び案内木を使用し、配列をアライメントへ反復的に連続して加えることができる。しかしながら、プログレッシブ法とは異なり、反復法は、初期配列を反復して再アライメントすることを含むことができる。反復法は、(例えば)(例えば、PRRN/PRRPで実施されるように)再アライメントのために山登り法アルゴリズムを使用することができ、(例えば、DIALIGNで実施されるように)ギャップペナルティを含む必要がなく、および/または(例えば、MUSCLE法に使用されるように)配列類似性を特定するために距離メトリックを使用することができる。多重配列アライメント技法は、高いまたは最も高い確率に関連したアライメントが選択され得るように、(例えば、塩基差の可能性、塩基一貫性、および/またはキャップ出現に基づいて)特定の提案されたアライメントの確率を生成することができる隠れマルコフモデルを使用することができる。例示的な隠れマルコフ法は、配列アライメントおよびモデリングシステム(SAM)ソフトウェア、ならびにHMMERソフトウェアに使用される。多重配列アライメント技法は、PRANKまたはProGraphMSAなど、系統発生認識法(phylogeny-aware method)を使用することができる。
【0043】
II.D.特徴ベクトル
[0050]したがって、アライメントされた配列表示は、位置に対応する第1の次元、および個々の配列に対応する第2の次元を含む多数の次元を有することができる。特徴ベクトルは、アライメントに表された位置ごとに生成され得る。所与の位置に関連した特徴ベクトルは、一組の配列にわたって所与の位置に関連した塩基(および/またはギャップ)を示すことができる。
【0044】
[0051]ヌクレオチドは、(例えば)所与の配列について、どのヌクレオチドが特定の位置にアライメントされるかを特定するワンホット符号化を使用して示すことができる。したがって、特徴ベクトルは、(潜在的な塩基ごとに、およびギャップについて)アライメントされた配列がその位置に塩基(またはギャップ)を含むかを示し得る一組の2進値を含むことができる。簡略にされた配列の修飾した表示がアライメントされ、ホモポリマーの表示が所与の位置へアライメントされるとき、特徴ベクトルは、ホモポリマーに含まれたいくつかの塩基をさらに特定することができる。
【0045】
[0052]いくつかの例では、特徴ベクトルは、1つまたは複数の品質メトリクスをさらに含む。例えば、品質メトリクスは、(例えば)生データ(例えば、ピークの高さおよび幅)、および生データの特徴をエラーの確率に関係付ける経験的データに基づいて生成され得る。ホモポリマーが畳み込まれたインスタンスでは、一組のアライメントされた配列表示における所与のヌクレオチド表示は、別々の品質メトリクスにそれぞれ関連付けられ得る元の配列からの多数のヌクレオチドに対応し得る。したがって、特徴ベクトルは、別々の品質メトリクス(例えば、平均、中央、最大、または最小)に基づいて生成される1つまたは複数の統計を含んでもよく、一組のアライメントされた配列表示におけるヌクレオチドが(ホモポリマーでなく)単一塩基のみを表す場合、潜在的に、特徴ベクトルは、品質メトリクス自体を含む。
【0046】
[0053]特徴ベクトルは、一組の配列の各々を特徴付けることができ、それが(例えば)塩基が所与の位置、多数の品質メトリクス、多数の塩基量などに関連付けられる多数の符号化を含み得るようになっている。例えば、特徴ベクトルは、(例えば、塩基および品質メトリクスを特定する)第1の配列に対応する第1の値のセット、第2の配列に対応する第2の値のセットなどを含むことができる。
【0047】
II.E.機械学習モデル
[0054]特徴ベクトルを処理するために使用される機械学習モデルは、(例えば)回帰型ニューラルネットワーク(例えば、1つまたは複数の長短期記憶(LSTM)セル、または1つまたは複数のゲート付き回帰型ユニット(GRU)を含む)、または畳み込みニューラルネットワークを含み得る。例えば、モデルは、1つまたは複数の層を含むことができ、それぞれは、1つまたは複数のLSTMセルを有する。各LSTMセルは、(先のLSTMセルの値が現在のセルに影響を与えることになる程度を制御する)忘却ゲート、(入力が現在のセルに影響を与えることになる程度を制御する)1つまたは複数の入力ゲート、および(セルの1つまたは複数の状態が出力されることになる程度を制御する)出力ゲートを含むことができる。別の例として、モデルは、1つまたは複数の層を含むことができ、それぞれは、1つまたは複数のGRUを有する。各GRUは、(メモリから流れ出る情報の程度を制御する)忘却ゲート、および(先のセルの状態がメモリに記憶される程度を制御する)更新ゲートを含むことができる。
【0048】
[0055]いくつかの例では、機械学習モデルは、(例えば)3つ以上、4つ以上、5つ以上、7つ以上、または10個以上の層を含むことができる深層機械学習モデルであってもよく、および/あるいは深層機械学習モデルは、(例えば、1つまたは複数の2つ以上のまたは3つ以上のLSTM層および/またはGRU層を含み得る)3つ以上、4つ以上、5つ以上、7つ以上、または10個以上の隠れ層を含むことができる。例えば、回帰型ネットワークは、深層回帰型ネットワークが1つまたは複数の回帰型接続を含む多数の(例えば、2つ以上、3つ以上など)隠れ層を含むことができるように、隠れ層において回帰型(フィードバック)接続を含む。深層機械学習モデルは、(1つまたは複数のあるいは2つ以上のLSTMユニットをそれぞれ含む)(例えば)2つ以上、3つ以上、4つ以上、または5つ以上のLSTM層、および/または(1つまたは複数のあるいは2つ以上のGRUをそれぞれ含む)2つ以上、3つ以上、4つ以上、または5つ以上のGRU層を含むことができる。
【0049】
[0056]機械学習モデル(例えば、回帰型ニューラルネットワーク)は、可変長入力を受信するように構成されてもよく、ならびに/あるいは前処理が、(例えば、パディングを使用して)特徴ベクトルのサイズを予め定められたおよび/または静的な入力データサイズに適合させるように実行され得る。機械学習の入力は、[a,b]の次元を有することができ、機械学習モデルの出力は、[c,d]の次元を有することができ、ただし、(例えば)a=c、および/またはb>dである。実際の最大のまたは潜在的な入力は、aおよびbによって表される(例えば、塩基および/またはギャップを表す)位置の量に対応することができ、潜在的な塩基の個数の合計(例えば、4つ)、ギャップ、ホモポリマー中の塩基の量、および/あるいは1つまたは複数の品質メトリクスの量を特定することができ、ならびに/あるいは潜在的な塩基の個数の合計(例えば、4つ)、ギャップ、ホモポリマー中の塩基の量、および/あるいは1つまたは複数の品質メトリクスの量に基づくことができる。
【0050】
[0057]機械学習モデルは、教師ありまたは教師なし学習を使用して訓練することができる。例えば、よく特徴付けられたセルライン(cell line)が、教師あり学習を支援するために、知られているグランドトゥルース結果と共にサンプルとして使用されてもよい。いくつかの例では、モデルは、1人または複数人の第1の被検者に関連したデータを使用して訓練することができ、続いて1人または複数人の異なる第2の被検者のサンプルを処理するために使用され得る。別の例として、教師なし学習が、クラスタリング、または(例えば、クラスタまたは入力エントロピー間の分離を最適化する)エントロピーに基づく最適化を使用することによって実行され得る。
【0051】
[0058]機械学習モデルは、ヌクレオチドにわたってのクラス不均衡により、1つまたは複数のヌクレオチドの普及に対してのギャップの普及における不均衡により、および/またはホモポリマーよりも一般的である単一のヌクレオチドインスタンスにより、フォーカル損失関数を使用して訓練することができる。
【0052】
[0059]いくつかの例では、損失関数は、バイナリの意味で何らかのエラーにペナルティを科すように定めることができる。いくつかの例では、損失関数は、絶対長とは異なった予測された長さの程度に基づいてスケール変更する項で定義することができる。損失がヌクレオチドの予測と長さの予測との両方に依存するとき、ヌクレオチド(またはギャップ)の予測に関する項は、長さの予測に関する項から独立して決定され得る。例えば、モデルが、所与のコラムが単一のアデニンを表し、代わりにそれが単一のグアニンを含むことを予測した場合、損失は、ヌクレオチドエラーに選択的にペナルティを科すことができる。モデルがヌクレオチド(またはギャップ)、および各コラムについての長さを予測するインスタンスでは、損失関数は、長さの予測の精度と同じヌクレオチドの予測の精度を重み付けするように構成され得る。
【0053】
III.例示的な配列評価ネットワーク
[0060]図1は、コンセンサス配列を生成する例示的な配列評価ネットワーク100を示す。ユーザデバイス105は、医療ケアプロバイダ(例えば、内科医、看護師、医師の事務所、病院、医療/臨床検査室など)であり得る、またその傘下にあり得るユーザに関連した(例えば、ユーザに所有されているおよび/またはユーザによって使用される)コンピューティングデバイスを含むことができる。ユーザデバイス105は、シーケンシング評価が特定の被検者に対して実行されることになることを示すユーザからの入力を受信することができる。入力は、(例えば)特定の被検者の名前、特定の被検者の英数字の識別子、特定の被検者の現住所、特定の被検者の人口統計上の情報(例えば、年齢、人種、性別)、被検者の1つまたは複数の診断、被検者の1つまたは複数の潜在的な診断、および/あるいは被検者がかかる1つまたは複数の症状を特定することができる。ユーザデバイス105は、(例えば、1つもしくは複数の遺伝子、1つもしくは複数の染色体、またはゲノム内の任意の変種、および/または任意の変種のカテゴリー分類の配列を特定する)要求されている配列解析のタイプを示す入力をさらに受信することができる。ユーザデバイス105は、(例えば)項目への入力を、1つまたは複数のインタフェース上のフィールド、および/あるいは1つまたは複数の用途に関連したコンテンツに変換することができる。
【0054】
[0061]フィールド項目および/またはコンテンツは、要求された情報を特定するために被検者のサンプルの収集および解析を調整するように構成され得るサンプル管理システム110へ(例えば、1つまたは複数のウェブサーバを介して)送信され得る。サンプル管理システム110は、医学研究室に関連し得る。サンプル管理システム110は、サンプル(例えば、特定のタイプのサンプル)の収集が要求されるおよび/または権限付与されることを示す情報を1人または複数人の研究所の技術者に与えることができ(または情報を1人または複数人の研究所の技術者に伝達することができ)、要求されたサンプルのタイプ(例えば、血液、または唾液)、(例えば、収集されるべきサンプルの体積を示すことができる)要求される評価のタイプ、および/あるいは要求される1つまたは複数のサンプルの体積をさらに示すことができる。
【0055】
[0062]収集されたサンプルは、1つまたは複数のシーケンシングシステム115-1、115-2、...115-nを使用して処理され得る。1つまたは複数のシーケンシングシステム115-1、115-2、...115-nの各々は、配列を特定するためにサンプルの少なくとも一部を処理するように構成された1つまたは複数のデバイスを含むことができる。配列は、サンプル管理システム110によって受信される要求に対応する配列を含むことができる。いくつかの例では、各シーケンシングシステムは、異なるタイプのシーケンシングを実行する。単一のサンプル、またはサンプルの単一の部分が、配列の多数の予測を生成するために複数回使用されてもよく、および/またはサンプルの異なる部分は、異なるシーケンシング予測を生成するために使用されてもよい。シーケンシングシステム115-1、115-2、...115-nの1つまたは複数の各々は、一分子シーケンシングシステム、次世代シーケンシングシステム、および/または(例えば、セクションII.Aにおける)本明細書中に開示されたシーケンシングシステムを使用することができる。いくつかの例では、各多重配列は、2つ以上のシーケンシングシステム、2つ以上の一分子シーケンシングシステム、2つ以上の次世代シーケンシングシステム、および/または本明細書中に開示された2つ以上のシーケンシングシステムを使用して特定される。
【0056】
[0063]各シーケンシングシステム115-1、115-2、...115-nによって特定される各配列は、一組の順序付きの塩基(例えば、ヌクレオチド)を特定することができる。シーケンシングシステム115-1、115-2、...115-nの1つ、複数、または全部のそれぞれは、シーケンシングシステムを使用し、および/またはセクションII.Aに記載されたような手法に基づいて配列を決定することができる。1つまたは複数のシーケンシングシステム115-1、115-2、...115-nの各々は、1つまたは複数の品質メトリクスをさらに与えることができる。例えば、シーケンシングシステムは、1つまたは複数のルックアップテーブルおよび/またはアルゴリズムを使用して1つまたは複数の生データの特性を塩基予測の信頼性と関連付けることができる。例えば、光または電気信号からの1つまたは複数の強度(例えば、振幅)、1つまたは複数の幅、1つまたは複数の歪み、および/あるいは1つまたは複数のピーク量は、ヌクレオチドの予測の信頼性に対応し得る。したがって、シーケンシングシステム115-1、115-2、...115-nからの出力は、一組の順序付きのヌクレオチド、および対とされた一組の品質メトリクス(例えば、信頼性スコア)を含むことができる。
【0057】
[0064]各シーケンシングシステム115-1、115-2、...115-nからの出力は、システム管理システム110に役立ち(例えば、送信され)得る。いくつかの例では、シーケンシングシステム115-1、115-2、...115-nの1つ、複数、または全部のそれぞれは、サンプル管理システム110と同じ場所に(例えば、単一の建物内におよび/または単一の住所に)位置する。いくつかの例では、シーケンシングシステム115-1、115-2、...115-nの1つ、複数、または全部のそれぞれは、(例えば、サンプル、またはサンプルの一部が、サンプル管理システム110に関連したある位置から1つまたは複数のシーケンシングシステムに関連した1つまたは複数の他の位置へ発送され得るように)サンプル管理システム110から遠隔にある。
【0058】
[0065]サンプル管理システム110は、(例えば、配列データを遺伝子の1つまたは複数の特定の部分、1つまたは複数の特定の遺伝子、ゲノムの1つまたは複数の特定の部分に洗練するために、1つまたは複数の品質メトリクスを異なるスケールまたは変数型へ変換するためになど)シーケンシングシステムからの出力を、必要ではないが、さらに処理することができる。サンプル管理システム110は、(例えば)1つまたは複数の遠隔コンピューティングシステム、1つまたは複数の遠隔サーバ、1つまたは複数のクラウドコンピューティングシステム、および/あるいは1つまたは複数のクラウドサーバを含み得る機械学習コンセンサス配列システム120へ出力および/またはその処理されたバージョンを送信するおよび/またはさもなければ役立たせることができる。送信は、1つまたは複数のウェブサイトおよび/あるいは1つまたは複数のウェブポータルを介して行われ得る。いくつかの例では、送信は、被検者を特定するおよび/または特徴付ける情報、ならびに/あるいは配列解析についての論理的解釈を特定する情報などのさらなる情報が付随する。いくつかの実施形態では、シーケンサは、シーケンシングシステムとコンセンサス配列システムとの両方を含むことができる。例えば、シーケンサは、機械学習の計算を実行するように構成されている1つまたは複数のプロセッサ(例えば、NVIDIA GPU、AMD GPUs、または専用の機械学習CPU)を含むことができる。
【0059】
[0066]機械学習コンセンサス配列システム120は、コンセンサス配列を特定するために、シーケンシングシステム115-1、115-2、...115-nからの出力(またはその処理されたバージョン)を一括解析することができる。コンセンサス配列は、一組の配列に基づいて生成された単一の配列を含むことができる。一組の配列は、異なるシーケンシングシステム(例えば、シーケンシングシステム115-1、115-2、...115-n)を使用して、および/または異なるシーケンシングシステムを使用して生成される少なくとも2つ、少なくとも3つ、または少なくとも4つの配列を含むことができ、ならびに/あるいは一組の配列は、異なる実行中に、異なる時間に、サンプルの異なる部分を使用して、および/または異なるサンプルを使用して生成される少なくとも2つ、少なくとも3つ、または少なくとも4つの配列を含むことができる。コンセンサス配列は、1つまたは複数の機械学習モデルを使用して、ならびに/あるいは1つもしくは複数のコードおよび/あるいは1つもしくは複数の関数の実行によって生成され得る。例示的なコードおよび/または関数は、他のコードおよび/または関数は示されていないと理解されるが、図1に示される。例えば、機械学習コンセンサス配列システム120は、オペレーティングシステムのためのコードを含むことができる。
【0060】
[0067]機械学習コンセンサス配列システム120は、適宜、(例えば、シーケンシングシステム115-1、115-2、...115-nから)各配列中の各ホモポリマーを検出するように構成され得るホモポリマー検出コード125を含むことができる。配列表示は、一組の順序付きのヌクレオチド、および/または一組の(例えば、セクションII.Bに示されるような)順序付きのヌクレオチドの修正バージョンを含むことができる。修正バージョンは、初期配列中の各ホモポリマーを単一塩基に畳み込むことができる。ホモポリマー検出コード125は、2つ以上(または3つ以上、4つ以上など)の連続ヌクレオチドがホモポリマーと同じヌクレオチドである任意のインスタンスを特定することができる。ホモポリマー検出コード125は、それぞれの検出されたホモポリマーが(例えば、ホモポリマーのヌクレオチドの単一のインスタンスによって)置き換えられる修飾した配列表示をさらに生成することができる。いくつかの例では、修飾した配列表示、他の配列表示、またはメタデータは、ホモポリマーごとに、ホモポリマー中に含まれたいくつかのヌクレオチド、および/またはホモポリマー中のヌクレオチドごとの品質メトリクスをさらに示すことができる。ホモポリマー検出コード125は、ホモポリマーごとに、品質統計を特定することができる。例えば、品質統計は、ホモポリマー中のヌクレオチドにわたっての平均、中央、最大、または最小の品質メトリクスを含み得る。
【0061】
[0068]機械学習コンセンサス配列システム120は、互いに対して配列の表示および/または配列の修飾した表示をアライメントすることができるアライメントコード130を含むことができる。アライメントは、セクションII.Cに示されるように、1つまたは複数のアライメント技法および/または手法に従って実行され得る。アライメントは、多重配列アライメント法、プログレッシブアライメント法、コンセンサスアライメント法、隠れマルコフアライメント法などを用いて実行され得る。アライメントは、1つまたは複数のギャップを配列表示の1つまたは複数の部分をシフトする表示などに導入することを含み得る。損失関数または目的関数に応じて、ギャップは、アライメントされたヌクレオチドの間の不整合(例えば、または不整合の少なくとも閾度)を有することを支持して優先的に加えられ得る。
【0062】
[0069]特徴ベクトル生成コード135は、一組の特徴を生成するために、アライメントされた配列表示を使用するように構成され得る。特徴ベクトルは、セクションII.Aに説明されるような技法および/または手法に従って生成され得る。いくつかの例では、アライメントされた配列表示は、一組の位置に対応し、特徴ベクトルは、位置ごとに生成される。特徴ベクトルは、(例えば)位置にアライメントされたヌクレオチドの絶対的または相対的な量(またはその表示)が特定のヌクレオチドとして特定されることを示すことができる。例えば、特徴ベクトルは、7個または9個の配列が特定の位置にシトシンを含んだことを示すことができる。アライメントが畳み込まれたおよび/または修飾した表示をアライメントするインスタンスでは、特徴ベクトルは、位置と配列の組合せごとに表された塩基の量を示すことができる。特徴ベクトルは、1つまたは複数のヌクレオチドを特定する信頼性に対応し得る1つまたは複数の品質メトリクスを含むことができる。
【0063】
[0070]機械学習モデルコード140は、(例えば、多数の位置に対応する)特徴ベクトルのセットを使用してコンセンサス配列を予測するために、(多重配列に対応する)特徴ベクトルを使用することができる。コンセンサス配列は、LSTMニューラルネットワーク、および/または深層ニューラルネットワーク、あるいは本明細書中に記載されたニューラルネットワークのいずれかの組合せなど、機械学習モデル(例えば、セクションII.E中に説明されるモデル)を使用して予測され得る。コンセンサス配列は、一組の順序付きのヌクレオチドを含むことができる
【0064】
[0071]機械学習コンセンサス配列システム120は、コンセンサス配列をユーザデバイス105へ送信することができる。いくつかの例では、機械学習コンセンサス配列システム120、ユーザデバイス105、および/または別のシステムは、コンセンサス配列が何らかの変種を含むか予測するために、コンセンサス配列を1つまたは複数の参照配列と比較することができる。変種は、(例えば)一塩基多型(single nucleotide polymorphism)および/またはコピー数多型(copy-number variation)を含み得る。機械学習コンセンサス配列システム120が、何らかの変種を検出するために解析を実行するとき、(例えば、任意の変種を特定する)変種解析の結果は、ユーザデバイス105へ送信され得る。次いで、診断、予後、治療選択、および/または他の推奨は、結果を使用して知らされ得る。
【0065】
IV.コンセンサス配列の特定のための例示的な処理
IV.A.個々のヌクレオチドの表示の使用
[0072]図2(A)~図2(D)は、コンセンサス配列を生成するための配列の例示的な処理を示す。図2(A)は、特定の(同じ)分子の7個の例示的な配列s~sを示す。s~sの各々は、配列分割である。分割した配列は、同じDNA断片に対応する一組の配列を含むことができる。分割された配列は、例えば、同じ分子を複数回シーケンシングすることによって、および/または同じ分子の多数のコピーをシーケンシングすることによって、生成され得る。例示的な配列s~sの各々が、(例えば)1つまたは複数のシーケンシングシステムを使用して、1つまたは複数の異なるシーケンシング機械を使用して、および/または1つまたは複数の異なる実体の制御下で、生成されていることが可能である。例示的な配列s~sの各々は、一組の順序付きの核酸を含む。各配列は、1つまたは複数のシーケンシングシステムを使用して、1つまたは複数の異なるシーケンシング機械を使用して、異なる実行中に、異なる時間で、および/または異なる実体の制御下で生成されていることが可能である。いくつかの例では、例示的な配列s~sの1つまたは複数の各々は、1つまたは複数の増幅されたまたはクローンが作られた配列の異なる部分を使用して生成されていることが可能である。いくつかの例では、例示的な配列s~sの1つ、複数、または全部のそれぞれは、サンプルの同じ部分、および/または同じサンプルを処理することによって生成されていることが可能である。
【0066】
[0073]図2(B)は、例示的な配列s~sが互いにアライメントされるアライメント結果を示す。アライメント結果は、潜在的な欠失および/または挿入を考慮するために連続した塩基間に多数のギャップを含む。アライメントは、本明細書中に(例えば、セクションII.Cに)開示された1つまたは複数のアライメント技法を使用して実行されている。示されたインスタンスでは、一般に、位置ごとに、位置は、(配列にわたって)たった1つだけのヌクレオチドと、潜在的に1つまたは複数のギャップを含む。しかしながら、ある位置(p)に関して、特定の配列(s)は、他の配列中に存在するのとは異なる塩基を含む。アライメント関数の構成および/またはハイパーパラメータは、ヌクレオチドが異なる位置へ分離されることを可能にするために、1つまたは複数のさらなるギャップを導入するのではなく、(例えば、特定の程度まで)配列にわたってヌクレオチドの不整合を受け入れるのかに影響を与えることができると理解される。
【0067】
[0074]図2(C)は、特定のアライメントされた配列の例示的な表示を示す。具体的には、位置ごとに、2進値のセットが決定され、それぞれはギャップ上のヌクレオチド塩基に対応する。特定のアライメントされた配列についての位置におけるヌクレオチドが、対応する塩基(またはギャップ)に等しく、さもなければ0に設定され得る場合、値は、1に設定され得る。したがって、いくつかの例では、各位置は、1、およびたった1、1の値に関連している。これらの2進値は、配列ごとに決定され得る。
【0068】
[0075]図2(D)は、特定の位置における配列ごとの2進値を含む特徴ベクトルの一部を示す。詳細には、図2(D)に示された特徴ベクトルは、第1の位置pに対応する。特徴ベクトルは、全ての配列(s~s)にわたって第1の位置でヌクレオチドを表すことができることが理解されるが、ヌクレオチドの示された表示は、第1の3つの配列s~sにおける第1の位置pでヌクレオチドに対応する。
【0069】
[0076]示された特徴ベクトルは、配列の読み取りデータごとに、品質メトリクスのセット(異なる配列の異なる値であり得るQ~Q)をさらに含む。いくつかの例では、示されたインスタンスにおける4つのスコアは、対応する配列における対応する位置におけるヌクレオチドが、特定のヌクレオチドである確率に対応し得る。例えば、Qは、ヌクレオチドがグアニンである確率を示し得る。したがって、スコアは、「1」の2進値に関連したヌクレオチドについての関連において最も高いものであり得る(例えば、配列sについておよび位置pにおいてヌクレオチドがグアニンであることが予測されるとすると、配列sについて、および位置pで、品質メトリクスQが、品質メトリクスQ、Q、およびQよりも高いことができるようになっている)。
【0070】
[0077]いくつかの例では、各品質メトリクスは、所与のタイプのヌクレオチドに対応する生データの一部を解釈する際の信頼性の程度を反映する。例えば、4つのヌクレオチドの各々は、特定の波長および/または信号署名に関連し得る。信号がシトシンに関連した特定の波長におけるピークを明らかに含む、および/またはシトシンの信号署名を明らかに含む場合、シトシンに関連した品質メトリクスは、ヌクレオチドがシトシンであるという予測における高い信頼性を示すように高いものであり得る。代替として、信号が、シトシンに関連した特定の波長におけるピークを明確に欠き、および/またはシトシンの信号署名を明確に欠く場合、シトシンに関連した品質メトリクスは、ヌクレオチドがシトシンでなかったという予測における高い信頼性を示すようにやはり高いものであり得る。一方、信号がシトシンに関連した特定の波長で弱いおよび/または幅広いピークを含む、ならびに/あるいはシトシンの信号署名のいくつかの弱い表示を含む場合、シトシンに関連した品質メトリクスは、ヌクレオチドがシトシンであるかに関して予測が低い信頼性を示すように低いものであり得る。1つまたは複数の品質メトリクスは、対応する配列を生成する1つまたは複数のデバイスによって出力することができる。品質メトリクスは、(例えば)2進数、整数、または実数値であり得る。
【0071】
[0078]図2(D)に(一部が)示された例示的な特徴ベクトルは、単一の位置に対応する。各さらなる位置は、別の対応する特徴ベクトルに関連し得る。
[0079]次いで、特徴ベクトルが、機械学習モデルに入力され得る。図3は、コンセンサス配列に対応する結果を生成するために特徴ベクトルのセットを処理する例示的なニューラルネットワークを示す。実際には、ネットワークが特徴ベクトルを受信することができると理解されるが、簡単に説明するために、図3は、対応する特徴ベクトルの代わりにニューラルネットワークに入力されるアライメントされた塩基を示す。
【0072】
[0080]示された機械学習モデルは、深層回帰型ニューラルネットワークを含み、詳細には、深層LSTMモデルを含む。このモデルは、[m,n]のサイズを有する入力データを受信するように動的に構成され得、ただし、mは、(アライメントされた配列の表現データセットにおけるいくつかの位置に対応する)いくつかの特徴ベクトルに等しいものであり得るとともに、nは、特徴ベクトルの長さに等しくすることができる。特徴ベクトルの長さ(n)は、(1)(例えば、単一の特定の分子に対応する利用可能であるいくつかの配列データセット、および(2)(例えば、全ての潜在的な塩基を表すように4、または全ての潜在的な塩基+ギャップを表すように5であり得る)ヌクレオチドの符号化の長さの合計+個々のヌクレオチド同定に関する品質メトリクスの量の積に等しい(または以上である)ように定義することができる。したがって、図2(A)~図2(D)に示された例については、各特徴ベクトルの長さ(n)は、7*(4+4)=56であり得る。目標特徴ベクトル長を実現するために、特徴ベクトルが埋められ得、および/またはサブサンプリングが使用され得ることが理解されよう。例えば、分割配列の最大数が100であると特定された場合、特徴ベクトル長は、100*(分割配列あたりの特徴の個数)として定義され得る。いくつかの分割配列が100未満である状況では、ベクトルは、特徴ベクトル長へ埋められるゼロであり得る。いくつかの実際の分割配列が100よりも多い状況では、サブサンプリングは、100まで量を減少させるように実行され得る。このようにして、コラムあたりの特徴ベクトルのサイズが、固定され得る。
【0073】
[0081]図3に示された各ノードは、下層内の対応するノード(例えば、入力ノードまたは下側の隠れ層内のノード)から、および同じ層内の隣接した(例えば、先の)ノードからデータを受信するLSTMユニットを含むことができる。図3中のLSTMネットワークは例示的であり、他のニューラルネットワーク(例えば、1つまたは複数のゲート付き回帰型ユニット、1つまたは複数の双方向LSTMユニット、1つまたは複数の双方向ゲート付き回帰型ユニットなどを含むネットワーク)が予期されることが理解されよう。したがって、LSTM層は、所与の位置における塩基の予測が前の1つまたは複数の前の位置における1つまたは複数の塩基の予測に基づいて知らされ得るように、隣接したノードを横切って選択情報表示を送ることができる。出力は、位置ごとに、予測されたコンセンサス・ヌクレオチド(またはギャップ)を含むことができる。いくつかの例では、出力は、位置ごとに、予測内の信頼性に対応する信頼指標をさらに含む。
【0074】
[0082]出力は、例えば、あらゆるギャップを除去するように後処理され得る。次いで、結果として得られる配列は、コンセンサス配列として特定され得る。
[0083]示されたインスタンスは、多数のLSTM層の各々が同じ方向に接続されるネットワークに対応する。いくつかの例では、双方向LSTM(またはGRU)ネットワークが、(例えば、交互する層における接続が正反対の方向である場合に)代わりに使用され得ることが理解されよう。
【0075】
IV.B.個々のヌクレオチドおよびホモポリマーの表示の使用
[0084]図4(A)~図4(D)は、コンセンサス配列を生成するための配列の別の例示的な処理を示す。図4(A)に特定される配列は、図2(A)に特定される配列と同じである。しかしながら、配列の表示は、ホモポリマーが配列をアライメントする前に畳み込まれるという点で異なるように生成される。したがって、連続的なヌクレオチドが同じヌクレオチドであると特定される各インスタンスは、第1のヌクレオチドを除いて全て除去するように修正される。次いで、配列表示は、(例えば、図4(B)に示されるように)アライメントされてもよく、この配列表示は、本明細書中(例えば、セクションII.C中)に開示された1つまたは複数のアライメント技法を使用して実行され得る。示されたインスタンスでは、位置ごとに、位置は、(配列にわたって)たった1つのヌクレオチド、および潜在的に1つまたは複数のギャップを含む。
【0076】
[0085]図4(C)は、各配列が数値によってどのように表され得るかを示す。示されたケースでは、位置ごとに、5つの2進値が、その位置におけるヌクレオチドが4つのヌクレオチドまたはギャップのいずれか1つに対応するかを示すように定められる。第6の「長さ」の値は、どのくらい多くのヌクレオチドがその位置に表されるのかを示す。したがって、3つの塩基を含んだホモポリマーが、単一のヌクレオチド表示に畳み込まれる場合、長さの値は、その位置について3に設定され得る。
【0077】
[0086]特徴ベクトルは、一組の畳み込まれた配列の表示に基づいて生成され得る(図4(D))。図2(D)の例にあるように、特徴ベクトルは、1つまたは複数の品質メトリクスを含むことができる。図2(D)の例とは対照的に、特徴ベクトルは、配列表示ごとに、長さの値も含む。
【0078】
[0087]特に、(例えば、図4(A)~図4(D)に対応する)ホモポリマーの畳み込まれた配列表示を使用して決定される特徴ベクトルの量は、(例えば、図2(A)~図2(D)に対応する)畳み込まれていない配列表示を使用して決定される特徴ベクトルの量よりも小さいものであり得る。しかしながら、示されたインスタンスでは、ホモポリマーの畳み込まれた配列表示を使用して決定される特徴ベクトルの長さは、(例えば、前者の場合における加えられた長さの値により)畳み込まれていない配列表示を使用して決定される特徴ベクトルの長さよりも長いものであり得る。
【0079】
[0088]図5(A)~図5(D)は、コンセンサス配列を生成するための配列のさらに別の例示的な処理を示す。図5(A)に特定された配列は、図2(A)および図4(A)に特定された配列と同じである。図5(B)に示されたアライメントされた配列表示は、(ホモポリマーが畳み込まれるように)図4(B)に示された配列と同じである。しかしながら、(図5(C)に示された)数的な配列表示では、(ギャップの)ヌクレオチドのどれがその位置に存在するかを示すために2進数を使用するのではなく、値は、その位置で表されるいくつかのヌクレオチドを示すことができる。すなわち、別々の長さの値を含むのではなく、どちらでもヌクレオチドまたはギャップの位置がその位置に対応する長さの値が「1」の代わりに使用される。したがって、ホモポリマーの表示は、1よりも大きいヌクレオチドまたはギャップの値を有することができる。そして、(図5(D)に示された)特徴ベクトルは、長さの値を含む必要がない。
【0080】
[0089]図6は、コンセンサス配列に対応する結果を生成するために一組の配列の表示を処理するための例示的なニューラルネットワークを示す。示されたニューラルネットワークは、(例えば、図4(A)~図4(D)または図5(A)~図5(D)に示されるような)ホモポリマーの畳み込まれた配列表示に基づいて生成される特徴ベクトルのセットを受信するように構成され得る。ニューラルネットワークは、同じタイプのニューラルネットワークであってもよく、および/または図3に関連して説明されるように1つまたは複数の同じ特徴を含んでもよい。
【0081】
[0090]このインスタンスでは、モデルの出力は、(位置ごとに)ヌクレオチド同定(またはギャップ)、およびまた長さを含み得る。例えば、コラム1に対応する出力は、配列が2つのグアニンで始まることを予測することができる。
【0082】
[0091]後処理は、出力中の任意のギャップを削除し、単一の位置/コラムが多数のヌクレオチドに対応することが予測される任意のインスタンスを拡張するために使用され得る。例えば、後処理は、「G2、C1、T1、-、C1」の出力を「G、G、C、T、C」へ変換することができる。
【0083】
V.例示的な配列評価プロセス
[0092]図7は、コンセンサス配列を生成するために一組の配列を処理する例示的なプロセス700のフローチャートを示す。プロセス700は、一組の配列がアクセスされるブロック705で始まる。一組の配列の各々は、特定の分子に対応する(例えば、それにのみ対応する)ことができる。一組の配列の1つ、複数、または全部のそれぞれは、異なる時間で行われるシーケンシングにより、異なる技法を使用して行われるシーケンシングにより、および/または異なる機械を使用して行われるシーケンシングにより、同じサンプルをシーケンシングによって生成されていることができる。
【0084】
[0093]いくつかの例では、プロセス700は、ブロック710および715を含む。いくつかの例では、プロセス700は、ブロック710および715を含まない。ブロック710において、一組の配列のそれぞれごとの各ホモポリマーが特定される。ブロック715において、ホモポリマーを含む配列ごとに、配列の畳み込まれた表示が生成される。畳み込まれた表示は、各ホモポリマーが単一のヌクレオチド識別子だけによって表されるように修正された(例えば、一組の順序付きのヌクレオチドの同定を含む)配列の初期表示を含むことができる。したがって、例えば、G、G、Gを含む初期配列は、単一のGを有する3つのヌクレオチド識別子を置き換えるように修正され得る。メタデータおよび/または別のデータ構造が、多くのヌクレオチドが畳み込まれた表示中の単一の値によってどのように表されるか追跡するために使用され得る。
【0085】
[0094]したがって、配列表示は、一組の順序付きの識別子を含むことができ、一組の順序付きの識別子は、ヌクレオチドの識別子、ホモポリマーの識別子、および/またはギャップの識別子を含むことができる。ブロック720において、アライメントプロセスは、アライメント結果を生成するために一組の配列(または一組の配列の畳み込まれた表示)を使用して実行される。アライメント結果は、一組の基準位置のそれぞれごとに、および一組の配列の各配列ごとに、その位置に対応する塩基(またはギャップもしくはホモポリマー)を特定することができる。アライメントは、本明細書中に(例えば、セクションII.C中に)開示されたアライメント技法を使用して実行され得る。基準位置は、(例えば、アライメントを助けるために)データ処理のために使用される位置を含むことができる。したがって、例えば、アライメント技法が、グランドトゥルースにおける異なるヌクレオチドとの関連を潜在的に表すように配列の配列内部分の範囲内に識別子にわたり十分な不整合が存在するという予測をもたらすときに、基準位置が、追加されたり含まれたりしてもよい。
【0086】
[0095]各配列は、ベクトル、またはベクトルのセット(例えば、マトリックス)を使用して表すことができる。例えば、各ヌクレオチドまたはホモポリマーは、4個または5個の2進数を含むようにワンホット符号化(または他の符号化)を使用して表され得る。いくつかの例では、ベクトルは、所与の配列についての単一の位置で表されるヌクレオチドの量(例えば、長さ)をさらに特定することができる。
【0087】
[0096]ブロック725において、特徴ベクトルは、基準位置ごとに生成され得る。特徴ベクトルは、(例えば)単一のベクトルを生成するために(例えば、1つまたは複数のヌクレオチド、ギャップ、品質メトリクス、および/または長さに対応する)ベクトルのセットを付加することによって生成され得る。特徴ベクトルは、(例えば、代替として)(例えば、異なるヌクレオチドおよび潜在的にギャップを表す一軸を有する)2次元マトリックスおよび/または多次元アレイをベクトルに変換することによって生成され得る。各配列の表示は、単一のベクトルが特定の位置に関して一組の配列の各々からのデータを表すことができるように互いに連結および/または付加され得る。異なる特徴ベクトルは、基準位置ごとに生成され得る。
【0088】
[0097]ブロック730において、特徴ベクトルは、特定の分子についてのコンセンサス配列を生成するように機械学習モデルを使用して処理され得る。例えば、各特徴ベクトルは、ニューラルネットワークの異なる入力ノードへ供給され得る。ニューラルネットワークは、(例えば)回帰型ニューラルネットワーク、LSTMニューラルネットワーク、および/または深層ニューラルネットワークを含むことができる。ニューラルネットワークは、水平結合および順方向結合を含み得る。機械学習モデルからの出力は、基準位置ごとに、位置に対応する特定のヌクレオチド、ギャップ、またはホモポリマーを予測することができる。所与の位置が特定のホモポリマーに対応するという予測に関しては、出力は、ホモポリマーの長さ、およびホモポリマーのヌクレオチドを特定することができる。
【0089】
[0098]いくつかの例では、機械学習モデルの出力は後処理される。後処理は、各ヌクレオチドを特定し、および/またはギャップを除去するためにホモポリマーの表示を拡張することを含むことができる。
【0090】
[0099]ブロック735において、コンセンサス配列が出力される。例えば、コンセンサス配列が、別のデバイスへ送信され得る、および/または(例えば、ディスプレイを介して)提示され得る。コンセンサス配列は、(例えば、識別子、サンプル、被検者などとの関連で)さらにまたは追加で記憶され得る。
【0091】
[00100]コンセンサス配列は、コンセンサス配列中の任意の変種(例えば、一塩基多型またはコピー数多型)を検出するために1つまたは複数の参照信号と比較されてもよい。変種は、(例えば、ルックアップテーブルおよび/または1つまたは複数のルールを使用した)病状の診断、および/または治療の特定を助けることができる。いくつかの例では、コンセンサス配列は、配列決定されたサンプルに関連した病状に(例えば、ルックアップテーブル中で)関連していることができ、これによりそれに続く病状の診断を助けることができる。
【0092】
VI.実施例
[00101]サンプルからの変種がサンプルの処理により生じる塩基の変化から区別できるように、固有のバーコードが、PCR増幅の前にサンプルからの各DNA分子に取り付けられた。次いで、バーコードを用いてタグ付けされた配列読み取り中の塩基は、(セクションII.A.3中で説明された)シーケンシングを使用して決定される。
【0093】
[00102]次いで、コンセンサス配列が、配列の1つまたは複数のクラスタごとに決定された。より具体的には、配列の「クラスタ」は、同じタグを有するとともに同じ位置にアライメントされる特定の個数の配列を含むように定められ、クラスタについてのコンセンサス配列は、2つの技法ごとに決定された。このプロセスは、異なるクラスタサイズを使用して全てのクラスタについて反復された。各技法は、クラスタについての(およびクラスタサイズについての)コンセンサス配列を決定するために使用された。
【0094】
[00103]技法ごとに、およびクラスタサイズごとに、コンセンサス塩基レベルのPhredスコアが決定された。2つの技法は、(1)本明細書中に説明されるように、プロセス700のブロック710~730におけるアクションで実行される「深層コンセンサス」法、および(2)fgbioのCallMolecularConsensusReadsを使用してタグ付けされた分子についてのコンセンサス配列を特定する「fgbio」法であった。コンセンサス塩基レベルのPhredスコアは、より高いスコアが低いエラー確率およびその逆を表すように定められた。例えば、20のコンセンサス塩基レベルのPhredスコアは、99%の精度を表す。
【0095】
[00104]図8は、異なるクラスタサイズにわたる2つの技法ごとにクラスタサイズを横にしてコンセンサス塩基レベルのPhredスコアを示す。深層コンセンサス法を使用することにより生成されるスコアは、fgbio法を使用することによって生成されるスコアにわたって一貫してより良かった。深層コンセンサス法のfgbio法と比べて改善された性能は、小さいクラスタサイズについて特に顕著であった。
【0096】
VII.さらなる考慮すべき事項
[00105]本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、1つまたは複数のデータプロセッサで実行されるときに、本明細書中に開示された1つまたは複数の方法の一部または全部、および/あるいは1つまたは複数のプロセスの一部または全部を1つまたは複数のデータプロセッサに実行させる命令を含む非一時的なコンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、本明細書中に開示された1つまたは複数の方法の一部または全部、および/あるいは1つまたは複数のプロセスの一部または全部を1つまたは複数のデータプロセッサに実行させるように構成された命令を含む非一時的な機械可読記憶媒体に有形で具体化されるコンピュータプログラム製品を含む。
【0097】
[00106]用いられている用語および表現は、説明の用語として使用され、限定ではなく、そのような用語および表現の使用において図示および説明された特徴またはその一部の任意の均等物を除外する意図はないが、権利主張される本発明の範囲内で様々な修正が可能であるころが認識される。したがって、権利主張される本発明は、実施形態および任意選択の特徴によって具体的に開示されているが、本明細書中に開示された概念の、修正、および変形が、当業者によって用いられてもよく、そのような修正および変形は、添付の特許請求の範囲によって定められるような本発明の範囲内であるとみなされることを理解されたい。
【0098】
[00107]後に続く説明は、好ましい例示的な実施形態だけを与え、本開示の範囲、適用可能性、または構成を限定するものではない。むしろ、好ましい例示的な実施形態の後に続く説明は、当業者に様々な実施形態を実施するための説明の可能性をもたらす。添付の特許請求の範囲に記載された要旨および範囲から逸脱することなく要素の機能および配置に様々な変更がなされてもよいことが理解されよう。
【0099】
[00108]具体的な詳細は、実施形態の徹底的な理解を与えるために以下の説明に与えられる。しかしながら、実施形態は、これらの具体的な詳細なしで実施されてもよいことが理解されよう。例えば、回路、システム、ネットワーク、プロセス、および他の構成要素は、実施形態を不要な詳細で曖昧にしないために、ブロック図の形態で構成要素として示され得る。他のインスタンスでは、よく知られている回路、プロセス、アルゴリズム、構造、および技法は、実施形態を曖昧にするのを避けるために不要な詳細なしで示される場合がある。
図1
図2
図3
図4
図5
図6
図7
図8
【配列表】
0007574420000001.app