(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-01
(54)【発明の名称】オリゴヌクレオチド配列における欠失の検出
(51)【国際特許分類】
G16B 20/20 20190101AFI20231124BHJP
G16B 40/20 20190101ALI20231124BHJP
【FI】
G16B20/20
G16B40/20
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023548971
(86)(22)【出願日】2021-10-20
(85)【翻訳文提出日】2023-05-19
(86)【国際出願番号】 AU2021051220
(87)【国際公開番号】W WO2022082262
(87)【国際公開日】2022-04-28
(32)【優先日】2020-10-23
(33)【優先権主張国・地域又は機関】AU
(81)【指定国・地域】
(71)【出願人】
【識別番号】523152086
【氏名又は名称】ジーニアス ゲノミクス プロプライエタリー リミテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】ウォン、テッド
(72)【発明者】
【氏名】スー、チョン
(72)【発明者】
【氏名】キーオン、マシュー
(72)【発明者】
【氏名】グンネウィグ、ボリス
(57)【要約】
本明細書に開示されているものは、遺伝子配列における欠失を検出するための方法である。方法は、欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データをプロセッサにより受け取ることを含む。プロセッサは、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割し、複数のセグメントに対して機械学習モデルをトレーニングする。プロセッサは、複数のテストリードを含むテスト配列決定データを受け取り、複数のテストリードをそれぞれ複数のテストセグメントに分割し、トレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し、テスト配列決定データにおける欠失を検出する。評価ステップの計算複雑性を大きく低減するアラインメントおよびバリアントコールの必要がない。
【選択図】
図4
【特許請求の範囲】
【請求項1】
ゲノム配列における欠失を検出するためのコンピュータ実装方法であって、
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを受け取ること;
前記複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割すること;
前記複数のセグメントに対して機械学習モデルをトレーニングすること;
複数のテストリードを含むテスト配列決定データを受け取ること;
前記複数のテストリードをそれぞれ複数のテストセグメントに分割すること;および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出すること
を含む、方法。
【請求項2】
前記トレーニングセグメントおよび前記テストセグメントがk-merである、請求項1に記載の方法。
【請求項3】
前記テスト配列決定データがシーケンサーにより生成される、請求項1または2に記載の方法。
【請求項4】
前記テスト配列決定データが、前記シーケンサーからFASTQファイルで提供される、請求項3に記載の方法。
【請求項5】
前記機械学習デルが、ニューラルネットワークである、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークが、ゲート付き回帰型ユニットを含む、請求項5に記載の方法。
【請求項7】
前記ニューラルネットワークが、前記トレーニング配列決定データおよび前記テスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含む、請求項6に記載の方法。
【請求項8】
さらに、前記セグメントをコードすることおよび前記コードされたセグメントを前記双方向ゲート付き回帰型ユニットへの入力として直接使用することを含む、請求項7に記載の方法。
【請求項9】
さらに、グラフィックスプロセシングユニット上で前記方法の1つまたは複数のステップを実行することを含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
さらに、前記欠失に基づく疾患を検出することを含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記疾患を検出することが、前記トレーニング済みの機械学習デルの出力である、請求項10に記載の方法。
【請求項12】
前記トレーニング配列決定データおよび前記テスト配列決定データが、合成による配列決定により獲得される、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記トレーニング配列決定データおよび前記テスト配列決定データがRNAリードを含み、前記欠失が被験者のゲノムにある、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記リードが100~200塩基対長であり、前記セグメントが4~100塩基対長である、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記セグメントが4~20塩基対長である、請求項14に記載の方法。
【請求項16】
コンピュータで実行する場合、前記コンピュータに請求項1から15のいずれか一項に記載の方法を実行させる、ソフトウエア。
【請求項17】
遺伝子配列における欠失を検出するためのコンピュータシステムであって:
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを格納するように構成されたデータメモリ;
前記複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割する;
前記複数のセグメントに対して機械学習モデルをトレーニングする;
複数のテストリードを含むテスト配列決定データを受け取る;
前記複数のテストリードをそれぞれ複数のテストセグメントに分割する;および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出する
ように構成されたプロセッサ
を備える、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、オーストラリア仮特許出願第2020903839号の優先権を主張するものであり、その内容は、参照によりそれらの全体が本明細書に組み込まれる。
【0002】
本開示は、ゲノムにおける欠失を検出することに関する。
【背景技術】
【0003】
近年、DNA、RNAまたは他のオリゴヌクレオチド配列の比較的短いフラグメントを大量に並行して読み取る、合成による配列決定の導入により、ヒトゲノム全体の解析が容易になっている。これらの「リード」は、1つのヌクレオチド塩基が異なる塩基に変更されている、一塩基多型などの変異体を検出するために、参照ゲノムに対してアライメントされることが多い。
【0004】
変異体の別の形態は、欠失を含む構造的変異体である。しかし、ショートリードからの欠失の検出は、欠失した領域が1つのリードよりも長い場合が多く、アラインメントプロセスの計算コストが高くなり、不正確になるため困難である。
【0005】
本明細書に含まれている文書、行為、資料、装置、記事などの議論はいずれも、これらの事項のいずれかまたはすべてが、添付の特許請求の範囲のそれぞれの優先日以前に存在した本開示に関連する分野において、先行技術基準の一部を形成していること、または共通の一般的知識であったことを認めるものとして受け取られることはない。
【0006】
本明細書全体を通じて、単語「含む(comprise)」、または「含む(comprises)もしくは「含んでいる(comprising)」などの変形は、述べられた要素、整数もしくはステップ、または要素、整数もしくはステップの群を含むが、任意の他の要素、整数もしくはステップ、または要素、整数もしくはステップの群を排除しないことを意味すると理解されるであろう。
【発明の概要】
【0007】
本開示は、欠失を検出するための方法を提供し、ショートリードをアライメントする代わりに、各リードは、長さkのセグメントに分割され、k-merまたは単にmerとも呼ばれる。次に、提案された方法は、アラインメントなしでk-merに対して直接機械学習モデルをトレーニングする。欠失の場合、方法は、次に、欠失したk-merがないことおよび欠失したDNA配列に属している部分が欠落しているk-merが存在することを検出することができる。結果として、そのような欠失に関連している疾患を正確に診断することができる。
【0008】
本明細書に開示されているものは、遺伝子配列における欠失を検出するためのコンピュータ実装方法である。方法は、欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを受け取ること、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割すること、複数のセグメントに対して機械学習モデルをトレーニングすること、複数のテストリードを含むテスト配列決定データを受け取ること、複数のテストリードをそれぞれ複数のテストセグメントに分割すること、およびトレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し、テスト配列決定データにおける欠失を検出することを含む。
【0009】
方法は、配列の複数のセグメントに対して機械学習デルをトレーニングし、評価することが利点である。結果として、評価ステップの計算複雑性を大きく低減するアラインメントおよびバリアントコールの必要がない。トレーニングステップの計算コストは高い可能性があるが、このステップが、トレーニングデータセット全体に対して一度だけ実行されることに留意する。
【0010】
いくらかの実施形態において、トレーニングセグメントおよびテストセグメントは、k-merである。
【0011】
いくらかの実施形態において、テスト配列決定データは、シーケンサーにより生成される。いくらかの実施形態において、テスト配列決定データは、シーケンサーからFASTQファイルで提供される。
【0012】
いくらかの実施形態において、機械学習モデルは、ニューラルネットワークである。いくらかの実施形態において、ニューラルネットワークは、ゲート付き回帰型ユニットを含む。いくらかの実施形態において、ニューラルネットワークは、トレーニング配列決定データおよびテスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含む。いくらかの実施形態において、方法はさらに、セグメントをコードすることおよびコードされたセグメントを双方向ゲート付き回帰型ユニットへの入力として直接使用することを含む。
【0013】
いくらかの実施形態において、方法はさらに、グラフィックスプロセシングユニット上でその方法の1つまたは複数のステップを実行することを含む。
【0014】
いくらかの実施形態において、方法はさらに、欠失に基づく疾患を検出することを含む。
【0015】
いくらかの実施形態において、疾患を検出することは、トレーニング済みの機械学習モデルの出力である。
【0016】
いくらかの実施形態において、トレーニング配列決定データおよびテスト配列決定データは、合成による配列決定により獲得される。
【0017】
いくらかの実施形態において、トレーニング配列決定データおよびテスト配列決定データはRNAリードを含み、欠失は、被験者のゲノムにある。
【0018】
いくらかの実施形態において、リードは100~200塩基対長であり、セグメントは4~100塩基対長である。
【0019】
いくらかの実施形態において、セグメントは、4~20塩基対長である。
【0020】
ソフトウエアは、コンピュータで実行する場合、コンピュータに上記の方法を実行させる。
【0021】
遺伝子配列における欠失を検出するためのコンピュータシステムがさらに開示される。コンピュータシステムは、欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを格納するように構成されたデータメモリ、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割する、複数のセグメントに対して機械学習モデルをトレーニングする、複数のテストリードを含むテスト配列決定データを受け取る、複数のテストリードをそれぞれ複数のテストセグメントに分割する、およびトレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し、テスト配列決定データにおける欠失を検出するように構成されたプロセッサを備える。
【0022】
実施例は、以下の図面を参照してここで説明される。
【図面の簡単な説明】
【0023】
【
図1】
図1は、ゲノムにおける欠失を検出するためのコンピュータシステムを図解する。
【
図2】
図2は、DNA配列における欠失を検出するための方法を図解する。
【
図3】
図3は、埋め込み層を含む機械学習モデルを図解する。
【
図4】
図4は、ゲート付き回帰型ユニットへの直接入力を用いる機械学習モデルを図解する。
【発明を実施するための形態】
【0024】
システム
図1は、ゲノムにおける欠失を検出するためのコンピュータシステム100を図解する。コンピュータシステム100は、プロセッサ101、プログラムメモリ102、データメモリ103、コミュニケーションポート104、グラフィックスプロセシングユニット(GPU)105およびデータベース106を備える。システム100は、コミュニケーションポート104を介して、オリゴヌクレオチド112の複数の鎖が接続されるフローセル111および鎖112に付着した蛍光標識をキャプチャするためのカメラ113を含むシーケンサー110に接続される。一例において、シーケンサー110は、合成により配列決定を実行し、それにより各サイクルにおいて、鎖112における現在の位置にどの塩基があるかに応じて、1つの標識が各鎖112に付着する。各塩基の標識は、異なる色で蛍光性であり、そのためカメラ113は、画像の各着色ドットが塩基の1つを表す画像をキャプチャする。次に、プロセッサ101は、塩基呼び出し法を実行して各サイクルについて塩基を決定し、各鎖からの塩基を「リード」に結合させることができる。一例において、シーケンサー110は、イルミナによるX10次世代シーケンシング(NGS)シーケンサーである。
【0025】
プロセッサ101がシーケンサー110から画像データを受け取る可能性があるか、シーケンサー110から塩基呼び出しを受け取る可能性があることに留意する。後者の場合、シーケンサー110は、内部で塩基呼び出しを実行し、例えば、塩基およびさらなる品質情報を含むFASTQファイルを提供する。塩基またはヌクレオチドを示唆するシーケンサー110から受け取ったデータはいずれも、配列決定データと呼ばれる。プロセッサ101は、配列決定データを使用して、遺伝子配列における欠失を検出する。
【0026】
欠失は、DNAの一種の変異体である。他の種類には、1つの塩基が変更されている一塩基多型(SNP)が含まれる。SNPは、参照ゲノムに対してリードをアラインメントし、リードと参照ゲノムとの間の差異を決定することにより検出することができる。しかし、欠失の場合、参照ゲノムの長い部分が試料中に欠落しているのでアラインメントは困難である。そのため、プロセッサ101は、アラインメントなしの異なるアプローチを使用する。
【0027】
いくらかの例において、フローセル111上の鎖112は、RNAの鎖であり、そのため、配列決定データは、DNA配列がRNAにどのように発現するかを示唆する発現データを表す。発現データから、次に、プロセッサ101は、参照ゲノムのどの領域が発現されていないかを同定することにより参照配列と比較した場合のDNA配列における欠失を検出することができる。
【0028】
方法
図2は、DNA配列における欠失を検出するためのプロセッサ101により実行される方法200を図解する。方法200は、トレーニング配列決定データを受け取ること201を含む。トレーニング配列決定データは、シーケンサー110からの複数のトレーニングリードを含む。トレーニングリードは、2つのセットに分離され、標識される。第1のセットは、欠失がある遺伝子配列に関連し(例えば「1」と標識される)、第2のセットは、欠失がない遺伝子配列に関連する(例えば「0」と標識される)。標識はまた、個々の被験者が疾患を有しているか健康であるかを示唆する可能性がある。
【0029】
プロセッサ101は、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割する。例えば、トレーニングリードは、150bp長であり得、一方で、セグメントは10~50pb長である。
【0030】
プロセッサ101は、次に、複数のセグメントに対して機械学習モデルをトレーニングする。トレーニングが完了し、トレーニング済みの機械学習モデルがデータメモリ103に格納されると、プロセッサ101は、複数のテストリードを含むテスト配列決定データを受け取る204。いくらかの例において、テスト配列決定データは、診断されるべき患者からの試料由来である。
【0031】
プロセッサ101は、複数のテストリードをそれぞれ複数のテストセグメントに再度分割し205、トレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し206、テスト配列決定データにおける欠失を検出する。
【0032】
機械学習モデル
図3は、ニューラルネットワークの形態での機械学習モデル300を図解する。この例において、機械学習モデル300は、入力層301および埋め込み層304、双方向ゲート付き回帰型ユニット(GRU)309、密結合層312およびシグモイド出力313を含む。
【0033】
入力層301は、プロセッサ101がリード302を分割した後の入力リード302の一例およびセグメント303のセットを示す。埋め込み層は、word2vecモジュール305およびkmerモデル306を含み、その両方は、いくらかの例において省略される可能性がある。Word2vecは、自然言語処理のための技術である。word2vecアルゴリズムは、ニューラルネットワークモデルを使用して、テキストの大規模コーパスから単語対応付けを学習する。トレーニングすると、そのようなモデルは、同義語を検出することができるか、部分的な文章に対して、追加の単語を提案することができる。ここで、Word2vecは、リードのセグメントに適用することができる。
【0034】
さらに、埋め込み層304は、埋め込み行列308を含む。埋め込み行列は、元の空間(kの1つ)から実数値空間への線形マッピングであり、そこでエンティティは、意味のある関係を有することができる。ニューラルネットワークの他の行列と同様に、埋め込み行列は、同様にトレーニングすることができる。そのため、ここでは、元の空間は、すべての可能なkmerの空間であり得、埋め込み行列は、その空間を実数値空間にマッピングする。
【0035】
埋め込み層からの実数値化された結果は、双方向GRUで使用される。これは、埋め込み層304の出力をそれぞれ受け取る複数の個々のGRU310を含む。この例において、GRU311および312の2つの文字列があり、各文字列は、文字列内の1つのGRUの出力が、「下流の」GRUへの入力として機能するように、直列に接続された複数のGRUを含む。文字列311および312の両方からの結果は、マージ操作313によりマージされる。次に、マージ操作313の結果は、複数のニューロン(図示せず)を含む密結合層314に提供される。密結合層において、層内の各ニューロンは、前の層に存在するすべてのニューロンからの入力を受け取る-したがって、それらは、密に接続している。換言すると、密結合層は、完全に接続した層であり、1つの層内のすべてのニューロンが次の層内のものと接続していることを意味する。モデルのより詳細については、参照により本明細書に含まれている、Nature Scientific Reports(2018)8:15270のZhen Shen,Wenzheng Bao&De-Shuang Huang,「Recurrent Neural Network for Predicting Transcription Factor Binding Sites」に認めることができる。
【0036】
最後に、シグモイド関数315は、密結合層の結果に基づいて出力分類/標識を算出する。この出力は、疾患の指標または欠失の存在である可能性がある。
【0037】
直接学習
図3は、埋め込み層を示すが、ワンホットエンコーディング{’A’:0,’C’:1,’G’:2,’T’:3,’N’:4}を使用するなど、埋め込み層304なしでセグメントに対して学習することも可能である。
【0038】
図4は、得られた機械学習モデル400を図解しており、入力リード401は、セグメント402に分割され、コードされたセグメント402は、双方向GRU403に直接使用される。これは、セグメントの有無がアップレギュレーションまたはダウンレギュレーションよりも二分決定に近いので、欠失を検出するこの場合に特に有用である。
【0039】
実施例
本開示は、DNAゲノムレベルで機械学習ニューラルネットワークにより、どのように差分解析を行うことができるかについて設定する。例えば、健康な被検者のゲノムにおける21番染色体を考慮する。ある時点で、染色体上の2つのDNA片が欠失する。欠失したDNAは、疾患につながる可能性がある。
【0040】
本明細書で開示された方法は、機械学習を使用してそれらの欠失した領域を「記憶する」。以下の実施例は、プロセスの説明を提供するために大幅に簡略化されている。
【0041】
21番染色体の配列:0123456789各数字は、特定のヌクレオチドの位置を表す。数字は、説明目的で以下のヌクレオチドに使用される。
【0042】
この実施例において、k-mer長は4に設定される。これにより、健康なゲノムおよびバイナリ標識から以下のk-merとなるであろう。バイナリ標識0は、「健康」を意味する。
【0043】
【0044】
ここで、「23456」の欠失があり、この欠失領域から以下のk-merとなる。バイナリ標識1は、「疾患」を意味する。
【0045】
【0046】
ニューラルネットワークがトレーニングされると、プロセッサ101は、テストセグメントとして「789」を使用することができる。結果は、非常に低い確率(約0.01)であり、この領域が疾患と重ならないことを示唆する。テストセグメント「2345」について、ネットワークは、非常に高い確率(約0.99)を与え、この領域が疾患と重なることを示唆する。
【0047】
この意味で、ネットワークは、「辞書」のように機能し、双方向GRUを使用して何が健康であるか(0)および何が疾患であるか(1)を記憶する。k-merが左から右および右から左に向きを変えることができるので、GRUは、双方向である。
【0048】
実装
一例において、開示された方法は:
【0049】
【0050】
によるなどのKerasを使用するKaggleに基づいて実装される。
【0051】
別の例において、方法は、一次元畳み込み層を使用する。Kerasソリューションは:
【0052】
【0053】
のようである。
【0054】
提案されたモデルは、標準勾配降下を使用して4エポック後に、99%のトレーニング正解率を達成することができた。ドロップアウト層を挿入するなど、過学習を防止する試みはなかった。モデルの出力は、シグモイドであり(ソフトマックスの可能性もある)、各DNA配列について確率を生成する。
【0055】
図5は、十分なROCを達成する可能性がある、閾値が0.50のシグモイド曲線を図解する。
【0056】
以前述べたように、プロセッサ101はまた、プロセッサ101の外部に配置される可能性もあるGPU105を含む。一例において、機械学習モデルのトレーニングもしくは評価または両方は、GPU105により少なくとも部分的に実行される。利点は、GPUが高度な並列性でデザインされることであり、ニューラルネットワークのトレーニングが大きく短縮された時間枠内で完了することができることを意味する。
【0057】
実験
開示された方法は:
・より長い染色体(chr1およびchr18)
・種々のシーケンシングカバレッジ(10×、30×、50×および100×)
・領域の数(1~3)
に対してテストされた。
【0058】
前と同じように損失関数は、binary_crossentropy(https://keras.io/losses/)である。2つの隠れ層。実装では、ルールを使用して、配列決定データをワンホットエンコーディングに変換することができる:{’A’:0,’C’:1,’G’:2,’T’:3,’N’:4}。
【0059】
正確性は良好であり、chr18からの分離はchr21と同様に良好であった。モデルの頑健性を改善するために、メモリ使用率を削減することができる。例えば、ゲノム全体からのリードの代わりに、ゲノムのランダムなサブセットをロードする可能性があり得る。さらに、モデルは、拡張することができ、隠れ層を増やすと結果を改善することができる。
【0060】
当業者は、本開示の広い一般的な範囲から逸脱することなく、上述した実施形態に対して多くの変形および/または修飾を行うことができることを理解するであろう。そのため、本実施形態は、すべての点で例示としてみなされるべきであり、限定的であるとみなされるべきではない。
【手続補正書】
【提出日】2022-04-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ゲノム配列における欠失を検出するためのコンピュータ実装方法であって、
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数の
アラインメントされていないトレーニングリードを含むトレーニング配列決定データを受け取ること;
前記
アラインメントされていない複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割すること;
前記複数のセグメントに対して機械学習モデルをトレーニングすること;
複数の
アラインメントされていないテストリードを含むテスト配列決定データを受け取ること;
前記複数の
アラインメントされていないテストリードをそれぞれ複数のテストセグメントに分割すること;および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出すること
を含
み、
前記トレーニング配列決定データおよび前記テスト配列決定データがRNAリードを含み、前記欠失が被験者のゲノムにあり、
前記機械学習デルが、前記トレーニング配列決定データおよび前記テスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含むニューラルネットワークであり、
さらに前記複数のセグメントをコードすることおよび前記コードされたセグメントを前記双方向ゲート付き回帰型ユニットへの入力として直接使用することを含む、
方法。
【請求項2】
前記トレーニングセグメントおよび前記テストセグメントがk-merである、請求項1に記載の方法。
【請求項3】
前記テスト配列決定データがシーケンサーにより生成される、請求項1または2に記載の方法。
【請求項4】
前記テスト配列決定データが、前記シーケンサーからFASTQファイルで提供される、請求項3に記載の方法。
【請求項5】
さらに、グラフィックスプロセシングユニット上で前記方法の1つまたは複数のステップを実行することを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
さらに、前記欠失に基づく疾患を検出することを含む、請求項1から
5のいずれか一項に記載の方法。
【請求項7】
前記疾患を検出することが、前記トレーニング済みの機械学習デルの出力である、請求項
6に記載の方法。
【請求項8】
前記トレーニング配列決定データおよび前記テスト配列決定データが、合成による配列決定により獲得される、請求項1から
7のいずれか一項に記載の方法。
【請求項9】
前記リードが100~200塩基対長であり、前記セグメントが4~100塩基対長である、請求項1から
8のいずれか一項に記載の方法。
【請求項10】
前記セグメントが4~20塩基対長である、請求項
9に記載の方法。
【請求項11】
コンピュータで実行する場合、前記コンピュータに請求項1から
10のいずれか一項に記載の方法を実行させる、ソフトウエア。
【請求項12】
遺伝子配列における欠失を検出するためのコンピュータシステムであって:
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを格納するように構成されたデータメモリ;
前記複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割する;
前記複数のセグメントに対して機械学習モデルをトレーニングする;
複数のテストリードを含むテスト配列決定データを受け取る;
前記複数のテストリードをそれぞれ複数のテストセグメントに分割する;および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出する
ように構成されたプロセッサ
を備え
、
前記トレーニング配列決定データおよび前記テスト配列決定データがRNAリードを含み、前記欠失が被験者のゲノムにあり、
前記機械学習デルが、前記トレーニング配列決定データおよび前記テスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含むニューラルネットワークであり、
前記方法が、さらに前記複数のセグメントをコードすることおよび前記コードされたセグメントを前記双方向ゲート付き回帰型ユニットへの入力として直接使用すること含む、
コンピュータシステム。
【国際調査報告】