特表2023-550539 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ジーニアスゲノミクスプロプライエタリーリミテッドの特許一覧

特表2023-550539オリゴヌクレオチド配列における欠失の検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-12-01

(54)【発明の名称】オリゴヌクレオチド配列における欠失の検出

(51)【国際特許分類】

G16B 20/20 20190101AFI20231124BHJP

G16B 40/20 20190101ALI20231124BHJP

【ＦＩ】

G16B20/20

G16B40/20

【審査請求】未請求

【予備審査請求】有

(21)【出願番号】P 2023548971

(86)(22)【出願日】2021-10-20

(85)【翻訳文提出日】2023-05-19

(86)【国際出願番号】 AU2021051220

(87)【国際公開番号】W WO2022082262

(87)【国際公開日】2022-04-28

(31)【優先権主張番号】2020903839

(32)【優先日】2020-10-23

(33)【優先権主張国・地域又は機関】AU

(81)【指定国・地域】

(71)【出願人】

【識別番号】523152086

【氏名又は名称】ジーニアスゲノミクスプロプライエタリーリミテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】ウォン、テッド

(72)【発明者】

【氏名】スー、チョン

(72)【発明者】

【氏名】キーオン、マシュー

(72)【発明者】

【氏名】グンネウィグ、ボリス

(57)【要約】

本明細書に開示されているものは、遺伝子配列における欠失を検出するための方法である。方法は、欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データをプロセッサにより受け取ることを含む。プロセッサは、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割し、複数のセグメントに対して機械学習モデルをトレーニングする。プロセッサは、複数のテストリードを含むテスト配列決定データを受け取り、複数のテストリードをそれぞれ複数のテストセグメントに分割し、トレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し、テスト配列決定データにおける欠失を検出する。評価ステップの計算複雑性を大きく低減するアラインメントおよびバリアントコールの必要がない。
【選択図】図４

【特許請求の範囲】

【請求項1】

ゲノム配列における欠失を検出するためのコンピュータ実装方法であって、
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを受け取ること；
前記複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割すること；
前記複数のセグメントに対して機械学習モデルをトレーニングすること；
複数のテストリードを含むテスト配列決定データを受け取ること；
前記複数のテストリードをそれぞれ複数のテストセグメントに分割すること；および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出すること
を含む、方法。

【請求項2】

前記トレーニングセグメントおよび前記テストセグメントがｋ－ｍｅｒである、請求項１に記載の方法。

【請求項3】

前記テスト配列決定データがシーケンサーにより生成される、請求項１または２に記載の方法。

【請求項4】

前記テスト配列決定データが、前記シーケンサーからＦＡＳＴＱファイルで提供される、請求項３に記載の方法。

【請求項5】

前記機械学習デルが、ニューラルネットワークである、請求項１から４のいずれか一項に記載の方法。

【請求項6】

前記ニューラルネットワークが、ゲート付き回帰型ユニットを含む、請求項５に記載の方法。

【請求項7】

前記ニューラルネットワークが、前記トレーニング配列決定データおよび前記テスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含む、請求項６に記載の方法。

【請求項8】

さらに、前記セグメントをコードすることおよび前記コードされたセグメントを前記双方向ゲート付き回帰型ユニットへの入力として直接使用することを含む、請求項７に記載の方法。

【請求項9】

さらに、グラフィックスプロセシングユニット上で前記方法の１つまたは複数のステップを実行することを含む、請求項１から８のいずれか一項に記載の方法。

【請求項10】

さらに、前記欠失に基づく疾患を検出することを含む、請求項１から９のいずれか一項に記載の方法。

【請求項11】

前記疾患を検出することが、前記トレーニング済みの機械学習デルの出力である、請求項１０に記載の方法。

【請求項12】

前記トレーニング配列決定データおよび前記テスト配列決定データが、合成による配列決定により獲得される、請求項１から１１のいずれか一項に記載の方法。

【請求項13】

前記トレーニング配列決定データおよび前記テスト配列決定データがＲＮＡリードを含み、前記欠失が被験者のゲノムにある、請求項１から１２のいずれか一項に記載の方法。

【請求項14】

前記リードが１００～２００塩基対長であり、前記セグメントが４～１００塩基対長である、請求項１から１３のいずれか一項に記載の方法。

【請求項15】

前記セグメントが４～２０塩基対長である、請求項１４に記載の方法。

【請求項16】

コンピュータで実行する場合、前記コンピュータに請求項１から１５のいずれか一項に記載の方法を実行させる、ソフトウエア。

【請求項17】

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、オーストラリア仮特許出願第２０２０９０３８３９号の優先権を主張するものであり、その内容は、参照によりそれらの全体が本明細書に組み込まれる。

【0002】

本開示は、ゲノムにおける欠失を検出することに関する。

【背景技術】

【0003】

近年、ＤＮＡ、ＲＮＡまたは他のオリゴヌクレオチド配列の比較的短いフラグメントを大量に並行して読み取る、合成による配列決定の導入により、ヒトゲノム全体の解析が容易になっている。これらの「リード」は、１つのヌクレオチド塩基が異なる塩基に変更されている、一塩基多型などの変異体を検出するために、参照ゲノムに対してアライメントされることが多い。

【0004】

変異体の別の形態は、欠失を含む構造的変異体である。しかし、ショートリードからの欠失の検出は、欠失した領域が１つのリードよりも長い場合が多く、アラインメントプロセスの計算コストが高くなり、不正確になるため困難である。

【0005】

本明細書に含まれている文書、行為、資料、装置、記事などの議論はいずれも、これらの事項のいずれかまたはすべてが、添付の特許請求の範囲のそれぞれの優先日以前に存在した本開示に関連する分野において、先行技術基準の一部を形成していること、または共通の一般的知識であったことを認めるものとして受け取られることはない。

【0006】

本明細書全体を通じて、単語「含む（comprise）」、または「含む（comprises）もしくは「含んでいる（comprising）」などの変形は、述べられた要素、整数もしくはステップ、または要素、整数もしくはステップの群を含むが、任意の他の要素、整数もしくはステップ、または要素、整数もしくはステップの群を排除しないことを意味すると理解されるであろう。

【発明の概要】

【0007】

本開示は、欠失を検出するための方法を提供し、ショートリードをアライメントする代わりに、各リードは、長さｋのセグメントに分割され、ｋ－ｍｅｒまたは単にｍｅｒとも呼ばれる。次に、提案された方法は、アラインメントなしでｋ－ｍｅｒに対して直接機械学習モデルをトレーニングする。欠失の場合、方法は、次に、欠失したｋ－ｍｅｒがないことおよび欠失したＤＮＡ配列に属している部分が欠落しているｋ－ｍｅｒが存在することを検出することができる。結果として、そのような欠失に関連している疾患を正確に診断することができる。

【0008】

本明細書に開示されているものは、遺伝子配列における欠失を検出するためのコンピュータ実装方法である。方法は、欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを受け取ること、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割すること、複数のセグメントに対して機械学習モデルをトレーニングすること、複数のテストリードを含むテスト配列決定データを受け取ること、複数のテストリードをそれぞれ複数のテストセグメントに分割すること、およびトレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し、テスト配列決定データにおける欠失を検出することを含む。

【0009】

方法は、配列の複数のセグメントに対して機械学習デルをトレーニングし、評価することが利点である。結果として、評価ステップの計算複雑性を大きく低減するアラインメントおよびバリアントコールの必要がない。トレーニングステップの計算コストは高い可能性があるが、このステップが、トレーニングデータセット全体に対して一度だけ実行されることに留意する。

【0010】

いくらかの実施形態において、トレーニングセグメントおよびテストセグメントは、ｋ－ｍｅｒである。

【0011】

いくらかの実施形態において、テスト配列決定データは、シーケンサーにより生成される。いくらかの実施形態において、テスト配列決定データは、シーケンサーからＦＡＳＴＱファイルで提供される。

【0012】

いくらかの実施形態において、機械学習モデルは、ニューラルネットワークである。いくらかの実施形態において、ニューラルネットワークは、ゲート付き回帰型ユニットを含む。いくらかの実施形態において、ニューラルネットワークは、トレーニング配列決定データおよびテスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含む。いくらかの実施形態において、方法はさらに、セグメントをコードすることおよびコードされたセグメントを双方向ゲート付き回帰型ユニットへの入力として直接使用することを含む。

【0013】

いくらかの実施形態において、方法はさらに、グラフィックスプロセシングユニット上でその方法の１つまたは複数のステップを実行することを含む。

【0014】

いくらかの実施形態において、方法はさらに、欠失に基づく疾患を検出することを含む。

【0015】

いくらかの実施形態において、疾患を検出することは、トレーニング済みの機械学習モデルの出力である。

【0016】

いくらかの実施形態において、トレーニング配列決定データおよびテスト配列決定データは、合成による配列決定により獲得される。

【0017】

いくらかの実施形態において、トレーニング配列決定データおよびテスト配列決定データはＲＮＡリードを含み、欠失は、被験者のゲノムにある。

【0018】

いくらかの実施形態において、リードは１００～２００塩基対長であり、セグメントは４～１００塩基対長である。

【0019】

いくらかの実施形態において、セグメントは、４～２０塩基対長である。

【0020】

ソフトウエアは、コンピュータで実行する場合、コンピュータに上記の方法を実行させる。

【0021】

遺伝子配列における欠失を検出するためのコンピュータシステムがさらに開示される。コンピュータシステムは、欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを格納するように構成されたデータメモリ、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割する、複数のセグメントに対して機械学習モデルをトレーニングする、複数のテストリードを含むテスト配列決定データを受け取る、複数のテストリードをそれぞれ複数のテストセグメントに分割する、およびトレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し、テスト配列決定データにおける欠失を検出するように構成されたプロセッサを備える。

【0022】

実施例は、以下の図面を参照してここで説明される。

【図面の簡単な説明】

【0023】

【図1】図１は、ゲノムにおける欠失を検出するためのコンピュータシステムを図解する。

【図2】図２は、ＤＮＡ配列における欠失を検出するための方法を図解する。

【図3】図３は、埋め込み層を含む機械学習モデルを図解する。

【図4】図４は、ゲート付き回帰型ユニットへの直接入力を用いる機械学習モデルを図解する。

【図5】図５は、シグモイド曲線を図解する。

【発明を実施するための形態】

【0024】

システム
図１は、ゲノムにおける欠失を検出するためのコンピュータシステム１００を図解する。コンピュータシステム１００は、プロセッサ１０１、プログラムメモリ１０２、データメモリ１０３、コミュニケーションポート１０４、グラフィックスプロセシングユニット（ＧＰＵ）１０５およびデータベース１０６を備える。システム１００は、コミュニケーションポート１０４を介して、オリゴヌクレオチド１１２の複数の鎖が接続されるフローセル１１１および鎖１１２に付着した蛍光標識をキャプチャするためのカメラ１１３を含むシーケンサー１１０に接続される。一例において、シーケンサー１１０は、合成により配列決定を実行し、それにより各サイクルにおいて、鎖１１２における現在の位置にどの塩基があるかに応じて、１つの標識が各鎖１１２に付着する。各塩基の標識は、異なる色で蛍光性であり、そのためカメラ１１３は、画像の各着色ドットが塩基の１つを表す画像をキャプチャする。次に、プロセッサ１０１は、塩基呼び出し法を実行して各サイクルについて塩基を決定し、各鎖からの塩基を「リード」に結合させることができる。一例において、シーケンサー１１０は、イルミナによるＸ１０次世代シーケンシング（ＮＧＳ）シーケンサーである。

【0025】

プロセッサ１０１がシーケンサー１１０から画像データを受け取る可能性があるか、シーケンサー１１０から塩基呼び出しを受け取る可能性があることに留意する。後者の場合、シーケンサー１１０は、内部で塩基呼び出しを実行し、例えば、塩基およびさらなる品質情報を含むＦＡＳＴＱファイルを提供する。塩基またはヌクレオチドを示唆するシーケンサー１１０から受け取ったデータはいずれも、配列決定データと呼ばれる。プロセッサ１０１は、配列決定データを使用して、遺伝子配列における欠失を検出する。

【0026】

欠失は、ＤＮＡの一種の変異体である。他の種類には、１つの塩基が変更されている一塩基多型（ＳＮＰ）が含まれる。ＳＮＰは、参照ゲノムに対してリードをアラインメントし、リードと参照ゲノムとの間の差異を決定することにより検出することができる。しかし、欠失の場合、参照ゲノムの長い部分が試料中に欠落しているのでアラインメントは困難である。そのため、プロセッサ１０１は、アラインメントなしの異なるアプローチを使用する。

【0027】

いくらかの例において、フローセル１１１上の鎖１１２は、ＲＮＡの鎖であり、そのため、配列決定データは、ＤＮＡ配列がＲＮＡにどのように発現するかを示唆する発現データを表す。発現データから、次に、プロセッサ１０１は、参照ゲノムのどの領域が発現されていないかを同定することにより参照配列と比較した場合のＤＮＡ配列における欠失を検出することができる。

【0028】

方法
図２は、ＤＮＡ配列における欠失を検出するためのプロセッサ１０１により実行される方法２００を図解する。方法２００は、トレーニング配列決定データを受け取ること２０１を含む。トレーニング配列決定データは、シーケンサー１１０からの複数のトレーニングリードを含む。トレーニングリードは、２つのセットに分離され、標識される。第１のセットは、欠失がある遺伝子配列に関連し（例えば「１」と標識される）、第２のセットは、欠失がない遺伝子配列に関連する（例えば「０」と標識される）。標識はまた、個々の被験者が疾患を有しているか健康であるかを示唆する可能性がある。

【0029】

プロセッサ１０１は、複数のトレーニングリードをそれぞれトレーニングリードより短い複数のトレーニングセグメントに分割する。例えば、トレーニングリードは、１５０ｂｐ長であり得、一方で、セグメントは１０～５０ｐｂ長である。

【0030】

プロセッサ１０１は、次に、複数のセグメントに対して機械学習モデルをトレーニングする。トレーニングが完了し、トレーニング済みの機械学習モデルがデータメモリ１０３に格納されると、プロセッサ１０１は、複数のテストリードを含むテスト配列決定データを受け取る２０４。いくらかの例において、テスト配列決定データは、診断されるべき患者からの試料由来である。

【0031】

プロセッサ１０１は、複数のテストリードをそれぞれ複数のテストセグメントに再度分割し２０５、トレーニング済みの機械学習モデルを複数のテストセグメントに対して評価し２０６、テスト配列決定データにおける欠失を検出する。

【0032】

機械学習モデル
図３は、ニューラルネットワークの形態での機械学習モデル３００を図解する。この例において、機械学習モデル３００は、入力層３０１および埋め込み層３０４、双方向ゲート付き回帰型ユニット（ＧＲＵ）３０９、密結合層３１２およびシグモイド出力３１３を含む。

【0033】

入力層３０１は、プロセッサ１０１がリード３０２を分割した後の入力リード３０２の一例およびセグメント３０３のセットを示す。埋め込み層は、ｗｏｒｄ２ｖｅｃモジュール３０５およびｋｍｅｒモデル３０６を含み、その両方は、いくらかの例において省略される可能性がある。Ｗｏｒｄ２ｖｅｃは、自然言語処理のための技術である。ｗｏｒｄ２ｖｅｃアルゴリズムは、ニューラルネットワークモデルを使用して、テキストの大規模コーパスから単語対応付けを学習する。トレーニングすると、そのようなモデルは、同義語を検出することができるか、部分的な文章に対して、追加の単語を提案することができる。ここで、Ｗｏｒｄ２ｖｅｃは、リードのセグメントに適用することができる。

【0034】

さらに、埋め込み層３０４は、埋め込み行列３０８を含む。埋め込み行列は、元の空間（ｋの１つ）から実数値空間への線形マッピングであり、そこでエンティティは、意味のある関係を有することができる。ニューラルネットワークの他の行列と同様に、埋め込み行列は、同様にトレーニングすることができる。そのため、ここでは、元の空間は、すべての可能なｋｍｅｒの空間であり得、埋め込み行列は、その空間を実数値空間にマッピングする。

【0035】

埋め込み層からの実数値化された結果は、双方向ＧＲＵで使用される。これは、埋め込み層３０４の出力をそれぞれ受け取る複数の個々のＧＲＵ３１０を含む。この例において、ＧＲＵ３１１および３１２の２つの文字列があり、各文字列は、文字列内の１つのＧＲＵの出力が、「下流の」ＧＲＵへの入力として機能するように、直列に接続された複数のＧＲＵを含む。文字列３１１および３１２の両方からの結果は、マージ操作３１３によりマージされる。次に、マージ操作３１３の結果は、複数のニューロン（図示せず）を含む密結合層３１４に提供される。密結合層において、層内の各ニューロンは、前の層に存在するすべてのニューロンからの入力を受け取る－したがって、それらは、密に接続している。換言すると、密結合層は、完全に接続した層であり、１つの層内のすべてのニューロンが次の層内のものと接続していることを意味する。モデルのより詳細については、参照により本明細書に含まれている、ＮａｔｕｒｅＳｃｉｅｎｔｉｆｉｃＲｅｐｏｒｔｓ（２０１８）８：１５２７０のＺｈｅｎＳｈｅｎ，ＷｅｎｚｈｅｎｇＢａｏ＆Ｄｅ－ＳｈｕａｎｇＨｕａｎｇ，「ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＰｒｅｄｉｃｔｉｎｇＴｒａｎｓｃｒｉｐｔｉｏｎＦａｃｔｏｒＢｉｎｄｉｎｇＳｉｔｅｓ」に認めることができる。

【0036】

最後に、シグモイド関数３１５は、密結合層の結果に基づいて出力分類／標識を算出する。この出力は、疾患の指標または欠失の存在である可能性がある。

【0037】

直接学習
図３は、埋め込み層を示すが、ワンホットエンコーディング｛’Ａ’：０，’Ｃ’：１，’Ｇ’：２，’Ｔ’：３，’Ｎ’：４｝を使用するなど、埋め込み層３０４なしでセグメントに対して学習することも可能である。

【0038】

図４は、得られた機械学習モデル４００を図解しており、入力リード４０１は、セグメント４０２に分割され、コードされたセグメント４０２は、双方向ＧＲＵ４０３に直接使用される。これは、セグメントの有無がアップレギュレーションまたはダウンレギュレーションよりも二分決定に近いので、欠失を検出するこの場合に特に有用である。

【0039】

実施例
本開示は、ＤＮＡゲノムレベルで機械学習ニューラルネットワークにより、どのように差分解析を行うことができるかについて設定する。例えば、健康な被検者のゲノムにおける２１番染色体を考慮する。ある時点で、染色体上の２つのＤＮＡ片が欠失する。欠失したＤＮＡは、疾患につながる可能性がある。

【0040】

本明細書で開示された方法は、機械学習を使用してそれらの欠失した領域を「記憶する」。以下の実施例は、プロセスの説明を提供するために大幅に簡略化されている。

【0041】

２１番染色体の配列：０１２３４５６７８９各数字は、特定のヌクレオチドの位置を表す。数字は、説明目的で以下のヌクレオチドに使用される。

【0042】

この実施例において、ｋ－ｍｅｒ長は４に設定される。これにより、健康なゲノムおよびバイナリ標識から以下のｋ－ｍｅｒとなるであろう。バイナリ標識０は、「健康」を意味する。

【0043】

【表1】

【0044】

ここで、「２３４５６」の欠失があり、この欠失領域から以下のｋ－ｍｅｒとなる。バイナリ標識１は、「疾患」を意味する。

【0045】

【表2】

【0046】

ニューラルネットワークがトレーニングされると、プロセッサ１０１は、テストセグメントとして「７８９」を使用することができる。結果は、非常に低い確率（約０．０１）であり、この領域が疾患と重ならないことを示唆する。テストセグメント「２３４５」について、ネットワークは、非常に高い確率（約０．９９）を与え、この領域が疾患と重なることを示唆する。

【0047】

この意味で、ネットワークは、「辞書」のように機能し、双方向ＧＲＵを使用して何が健康であるか（０）および何が疾患であるか（１）を記憶する。ｋ－ｍｅｒが左から右および右から左に向きを変えることができるので、ＧＲＵは、双方向である。

【0048】

実装
一例において、開示された方法は：

【0049】

【数1】

【0050】

によるなどのＫｅｒａｓを使用するＫａｇｇｌｅに基づいて実装される。

【0051】

別の例において、方法は、一次元畳み込み層を使用する。Ｋｅｒａｓソリューションは：

【0052】

【数2】

【0053】

のようである。

【0054】

提案されたモデルは、標準勾配降下を使用して４エポック後に、９９％のトレーニング正解率を達成することができた。ドロップアウト層を挿入するなど、過学習を防止する試みはなかった。モデルの出力は、シグモイドであり（ソフトマックスの可能性もある）、各ＤＮＡ配列について確率を生成する。

【0055】

図５は、十分なＲＯＣを達成する可能性がある、閾値が０．５０のシグモイド曲線を図解する。

【0056】

以前述べたように、プロセッサ１０１はまた、プロセッサ１０１の外部に配置される可能性もあるＧＰＵ１０５を含む。一例において、機械学習モデルのトレーニングもしくは評価または両方は、ＧＰＵ１０５により少なくとも部分的に実行される。利点は、ＧＰＵが高度な並列性でデザインされることであり、ニューラルネットワークのトレーニングが大きく短縮された時間枠内で完了することができることを意味する。

【0057】

実験
開示された方法は：
・より長い染色体（ｃｈｒ１およびｃｈｒ１８）
・種々のシーケンシングカバレッジ（１０×、３０×、５０×および１００×）
・領域の数（１～３）
に対してテストされた。

【0058】

前と同じように損失関数は、ｂｉｎａｒｙ＿ｃｒｏｓｓｅｎｔｒｏｐｙ（https://keras.io/losses/）である。２つの隠れ層。実装では、ルールを使用して、配列決定データをワンホットエンコーディングに変換することができる：｛’Ａ’：０，’Ｃ’：１，’Ｇ’：２，’Ｔ’：３，’Ｎ’：４｝。

【0059】

正確性は良好であり、ｃｈｒ１８からの分離はｃｈｒ２１と同様に良好であった。モデルの頑健性を改善するために、メモリ使用率を削減することができる。例えば、ゲノム全体からのリードの代わりに、ゲノムのランダムなサブセットをロードする可能性があり得る。さらに、モデルは、拡張することができ、隠れ層を増やすと結果を改善することができる。

【0060】

当業者は、本開示の広い一般的な範囲から逸脱することなく、上述した実施形態に対して多くの変形および／または修飾を行うことができることを理解するであろう。そのため、本実施形態は、すべての点で例示としてみなされるべきであり、限定的であるとみなされるべきではない。

【図1】

【図2】

【図3】

【図4】

【図5】

【手続補正書】

【提出日】2022-04-22

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ゲノム配列における欠失を検出するためのコンピュータ実装方法であって、
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のアラインメントされていないトレーニングリードを含むトレーニング配列決定データを受け取ること；
前記アラインメントされていない複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割すること；
前記複数のセグメントに対して機械学習モデルをトレーニングすること；
複数のアラインメントされていないテストリードを含むテスト配列決定データを受け取ること；
前記複数のアラインメントされていないテストリードをそれぞれ複数のテストセグメントに分割すること；および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出すること
を含み、
前記トレーニング配列決定データおよび前記テスト配列決定データがＲＮＡリードを含み、前記欠失が被験者のゲノムにあり、
前記機械学習デルが、前記トレーニング配列決定データおよび前記テスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含むニューラルネットワークであり、
さらに前記複数のセグメントをコードすることおよび前記コードされたセグメントを前記双方向ゲート付き回帰型ユニットへの入力として直接使用することを含む、
方法。

【請求項2】

前記トレーニングセグメントおよび前記テストセグメントがｋ－ｍｅｒである、請求項１に記載の方法。

【請求項3】

前記テスト配列決定データがシーケンサーにより生成される、請求項１または２に記載の方法。

【請求項4】

前記テスト配列決定データが、前記シーケンサーからＦＡＳＴＱファイルで提供される、請求項３に記載の方法。

【請求項5】

さらに、グラフィックスプロセシングユニット上で前記方法の１つまたは複数のステップを実行することを含む、請求項１から４のいずれか一項に記載の方法。

【請求項6】

さらに、前記欠失に基づく疾患を検出することを含む、請求項１から５のいずれか一項に記載の方法。

【請求項7】

前記疾患を検出することが、前記トレーニング済みの機械学習デルの出力である、請求項６に記載の方法。

【請求項8】

前記トレーニング配列決定データおよび前記テスト配列決定データが、合成による配列決定により獲得される、請求項１から７のいずれか一項に記載の方法。

【請求項9】

前記リードが１００～２００塩基対長であり、前記セグメントが４～１００塩基対長である、請求項１から８のいずれか一項に記載の方法。

【請求項10】

前記セグメントが４～２０塩基対長である、請求項９に記載の方法。

【請求項11】

コンピュータで実行する場合、前記コンピュータに請求項１から１０のいずれか一項に記載の方法を実行させる、ソフトウエア。

【請求項12】

遺伝子配列における欠失を検出するためのコンピュータシステムであって：
欠失がある遺伝子配列および欠失がない遺伝子配列に関連する複数のトレーニングリードを含むトレーニング配列決定データを格納するように構成されたデータメモリ；
前記複数のトレーニングリードをそれぞれ前記トレーニングリードより短い複数のトレーニングセグメントに分割する；
前記複数のセグメントに対して機械学習モデルをトレーニングする；
複数のテストリードを含むテスト配列決定データを受け取る；
前記複数のテストリードをそれぞれ複数のテストセグメントに分割する；および
前記トレーニング済みの機械学習モデルを前記複数のテストセグメントに対して評価し、前記テスト配列決定データにおける欠失を検出する
ように構成されたプロセッサ
を備え、
前記トレーニング配列決定データおよび前記テスト配列決定データがＲＮＡリードを含み、前記欠失が被験者のゲノムにあり、
前記機械学習デルが、前記トレーニング配列決定データおよび前記テスト配列決定データのフォワードおよびリバースのリード方向で処理するために双方向ゲート付き回帰型ユニットを含むニューラルネットワークであり、
前記方法が、さらに前記複数のセグメントをコードすることおよび前記コードされたセグメントを前記双方向ゲート付き回帰型ユニットへの入力として直接使用すること含む、
コンピュータシステム。

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版