特表2024-516768 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エックス　デベロップメント　エルエルシーの特許一覧

特表2024-516768植物における機械学習駆動型遺伝子発見及び遺伝子編集

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3A
3B
3C
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-17

(54)【発明の名称】植物における機械学習駆動型遺伝子発見及び遺伝子編集

(51)【国際特許分類】

C12N 15/09 20060101AFI20240410BHJP

G06N 5/045 20230101ALI20240410BHJP

C12Q 1/68 20180101ALI20240410BHJP

【ＦＩ】

C12N15/09 Z

G06N5/045

C12Q1/68

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023556475

(86)(22)【出願日】2021-11-24

(85)【翻訳文提出日】2023-11-01

(86)【国際出願番号】 US2021060694

(87)【国際公開番号】W WO2022197336

(87)【国際公開日】2022-09-22

(31)【優先権主張番号】17/207,169

(32)【優先日】2021-03-19

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】516326438

【氏名又は名称】エックスデベロップメントエルエルシー

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100126480

【弁理士】

【氏名又は名称】佐藤睦

(72)【発明者】

【氏名】ザムフト，ブラッドリー

(72)【発明者】

【氏名】シン，ヴィカシュ

(72)【発明者】

【氏名】ヴォージュ，マティアス

(72)【発明者】

【氏名】グエン，ソン

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA08

4B063QA13

4B063QA17

4B063QQ09

4B063QQ43

4B063QR08

4B063QR42

4B063QR55

4B063QR62

4B063QS34

4B063QX02

(57)【要約】

【課題】本開示は、遺伝子発見のための機構として、説明可能な機械学習方法及び特徴重要性機構を活用すること、さらに、遺伝子発見の出力を活用して、理想的な遺伝子発現プロファイル、及び、所望の表現型につながる必要なゲノム編集を推奨することに関する。
【解決手段】本開示の態様は、植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、遺伝子発現プロファイルを、出力データとして表現型を予測するタスクのために構築された予測モデルに、入力することと、予測モデルを使用して、植物についての表現型の予測を生成することと、説明可能な人工知能システムによって、表現型を予測するために予測モデルによってなされた決定を解析することと、解析に基づいて、予測に対して最大の寄与又は影響を有するものとして、表現型に対する候補遺伝子標的のセットを同定することと、を対象とする。
【選択図】図８

【特許請求の範囲】

【請求項1】

方法であって、
植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、
遺伝子発現プロファイルの特徴と前記表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、前記遺伝子発現プロファイルのセットを入力することと、
前記予測モデルを使用して、前記遺伝子発現プロファイルのセットの前記特徴と前記表現型との間の前記関係又は前記相関に基づいて、前記植物についての前記表現型の前記予測を生成することと、
説明可能な人工知能システムによって、前記表現型を予測するために前記予測モデルによってなされた決定を解析することであって、前記解析することが、（ｉ）前記表現型の前記予測で使用される前記特徴についての特徴重要度スコアのセットを生成することと、（ｉｉ）前記特徴の各々と関連付けられた前記特徴重要度スコアに基づいて、前記特徴をランク付けするか又はそうでなければソートすることと、を含む、前記予測モデルによってなされた決定を解析することと、
前記ランク付けされた又はそうでなければソートされた特徴に基づいて、前記予測に対して最大の寄与又は影響を有するものとして、前記表現型に対する候補遺伝子標的のセットを同定することと、
前記同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、
を含む、方法。

【請求項2】

前記説明可能な人工知能システムが、前記予測モデルによってなされた前記決定を解析するために、ＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓ、ＤｅｅｐＬＩＦＴ、統合勾配、ＬｏｃａｌＩｎｔｅｒｐｒｅｔａｂｌｅＭｏｄｅｌ－ａｇｎｏｓｔｉｃＥｘｐｌａｎａｔｉｏｎｓ（ＬＩＭＥ）、アテンションベースのニューラルネットワークモデル、又はＬａｙｅｒ－ｗｉｓｅＲｅｌｅｖａｎｃｅＰｒｏｐａｇａｔｉｏｎを使用する、請求項１に記載の方法。

【請求項3】

前記ゲノム領域のセットを前記同定することが、前記候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに、前記候補遺伝子標的のセットを入力することと、前記モデリングされた遺伝子編集に基づいて、前記候補遺伝子標的のセット内の１つ以上の遺伝子をゲノム編集し、前記表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、
前記遺伝子編集モデルを使用して、前記候補遺伝子標的のセット内の１つ以上の遺伝子の前記ゲノム編集のための前記最適な遺伝子標的に基づいて、前記表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む、請求項１に記載の方法。

【請求項4】

前記説明可能な人工知能システムが、前記表現型の前記予測で使用される前記特徴に対する前記特徴重要度スコアとしてＳｈａｐｌｅｙ値のセットを生成するＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓを使用し、
前記Ｓｈａｐｌｅｙ値が、各特徴重要度及び方向の推定値を表し、
前記遺伝子編集モデルが、前記Ｓｈａｐｌｅｙ値から直接的に制御の方向性を確認することによって前記遺伝子編集をモデリングする、請求項３に記載の方法。

【請求項5】

前記予測モデルが、ガウス過程モデルであり、
前記遺伝子編集モデルが、２つの構成要素、（ｉ）根底にあるガウス過程関数の前記ガウス過程モデル、及び（ｉｉ）様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して前記遺伝子編集をモデリングする、請求項３に記載の方法。

【請求項6】

前記予測モデルが、深層ニューラルネットワークであり、
前記遺伝子編集モデルが、前記深層ニューラルネットワークに対して敵対的攻撃を実施することによって前記遺伝子編集をモデリングし、前記敵対的攻撃が、前記深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって前記表現型を最大化又は最小化するように最適化することと、を含む、請求項３に記載の方法。

【請求項7】

前記理想的な遺伝子発現プロファイルを、前記植物についての遺伝子発現の自然に生じる分布と比較することと、
前記比較に基づいて、前記理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、
遺伝子編集システムを使用して、前記遺伝子編集推奨に従って前記植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む、請求項３に記載の方法。

【請求項8】

非一時的機械可読記憶媒体で有形に具現化されたコンピュータプログラム製品であって、１つ以上のデータプロセッサに、アクションを実施させるように構成された命令を含み、前記アクションが、
植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、
遺伝子発現プロファイルの特徴と前記表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、前記遺伝子発現プロファイルのセットを入力することと、
前記予測モデルを使用して、前記遺伝子発現プロファイルのセットの前記特徴と前記表現型との間の前記関係又は前記相関に基づいて、前記植物についての前記表現型の前記予測を生成することと、
説明可能な人工知能システムによって、前記表現型を予測するために前記予測モデルによってなされた決定を解析することであって、前記解析することが、（ｉ）前記表現型の前記予測で使用される前記特徴についての特徴重要度スコアのセットを生成することと、（ｉｉ）前記特徴の各々と関連付けられた前記特徴重要度スコアに基づいて、前記特徴をランク付けするか又はそうでなければソートすることと、を含む、前記予測モデルによってなされた決定を解析することと、
前記ランク付けされた又はそうでなければソートされた特徴に基づいて、前記予測に対して最大の寄与又は影響を有するものとして、前記表現型に対する候補遺伝子標的のセットを同定することと、
前記同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、
を含む、コンピュータプログラム製品。

【請求項9】

【請求項10】

前記アクションが、
前記ゲノム領域のセットを前記同定することが、前記候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに前記候補遺伝子標的のセットを入力することと、前記モデリングされた遺伝子編集に基づいて、前記候補遺伝子標的のセット内の１つ以上の遺伝子をゲノム編集し、前記表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、
前記遺伝子編集モデルを使用して、前記候補遺伝子標的のセット内の１つ以上の遺伝子を前記ゲノム編集するための前記最適な遺伝子標的に基づいて、前記表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む、請求項８に記載のコンピュータプログラム製品。

【請求項11】

【請求項12】

前記予測モデルが、ガウス過程モデルであり、
前記遺伝子編集モデルが、２つの構成要素、（ｉ）根底にあるガウス過程関数の前記ガウス過程モデル、及び（ｉｉ）様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して前記遺伝子編集をモデリングする、請求項１０に記載のコンピュータプログラム製品。

【請求項13】

【請求項14】

前記アクションが、
前記理想的な遺伝子発現プロファイルを、前記植物についての遺伝子発現の自然に生じる分布と比較することと、
前記比較に基づいて、前記理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、
遺伝子編集システムを使用して、前記遺伝子編集推奨に従って前記植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む、請求項１０に記載のコンピュータプログラム製品。

【請求項15】

システムであって、
１つ以上のデータプロセッサと、
前記１つ以上のデータプロセッサ上で実行されたときに、前記１つ以上のデータプロセッサにアクションを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を備え、前記アクションが、
植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、
遺伝子発現プロファイルの特徴と前記表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、前記遺伝子発現プロファイルのセットを入力することと、
前記予測モデルを使用して、前記遺伝子発現プロファイルのセットの前記特徴と前記表現型との間の前記関係又は前記相関に基づいて、前記植物についての前記表現型の前記予測を生成することと、
説明可能な人工知能システムによって、前記表現型を予測するために前記予測モデルによってなされた決定を解析することであって、前記解析することが、（ｉ）前記表現型の前記予測で使用される前記特徴についての特徴重要度スコアのセットを生成することと、（ｉｉ）前記特徴の各々と関連付けられた前記特徴重要度スコアに基づいて、前記特徴をランク付けするか又はそうでなければソートすることと、を含む、前記予測モデルによってなされた決定を解析することと、
前記ランク付けされた又はそうでなければソートされた特徴に基づいて、前記予測に対して最大の寄与又は影響を有するものとして、前記表現型に対する候補遺伝子標的のセットを同定することと、
前記同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、を含む、システム。

【請求項16】

【請求項17】

【請求項18】

前記予測モデルが、ガウス過程モデルであり、
前記遺伝子編集モデルが、２つの構成要素、（ｉ）根底にあるガウス過程関数の前記ガウス過程モデル、及び（ｉｉ）様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して前記遺伝子編集をモデリングする、請求項１６に記載のシステム。

【請求項19】

【請求項20】

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０２１年３月１９日出願の米国特許出願第１７／２０７，１６９号の利益及び優先権を主張し、これは、全ての目的のために参照によりその全体が本明細書に組み込まれる。

【0002】

（発明の分野）
本開示は、植物ゲノム編集に関し、特に、遺伝子発見のための機構として、説明可能な機械学習方法及び特徴重要性機構（ニューラルネットワーク及び他の非線形モデルの両方で）を活用すること、さらに、これらの遺伝子発見モデルの出力を活用して、所望の表現型につながる、必要なゲノム編集を含む、理想的な遺伝子発現プロファイルを推奨することに関する。

【背景技術】

【0003】

遺伝的多様性は、主に性的組換え及び突然変異誘発の機能であり、植物における形質改善の重要な手段である。例えば、植物の遺伝資源における遺伝的多様性は、植物育種家が、農業従事者に好まれる形質（例えば、高い生産力、大きい種子など）及び育種家に好まれる形質（例えば、害虫及び病害抵抗性並びに感光性など）の両方を含む、所望の特性を有する新規の栽培品種や改善された栽培品種を開発する機会を提供する。数千年にわたって、植物栽培化は、進化力（例えば、選択、突然変異、移入、遺伝的浮動など）を介した天然の遺伝的変異性に依存して、好ましい遺伝的変化を選択していた。植物栽培化又は人工選択は、他の対立遺伝子を犠牲にして少数の対立遺伝子に有利に働き、選択された対立遺伝子の増加した頻度を結果的にもたらす。その結果、植物栽培化は、野生型における多様性と比較したとき、遺伝的多様性を低減する。さらに、進化力に起因する遺伝的変異体の生成は、完全に制御されておらず、植物栽培の環境に大きく依存していた。

【0004】

遺伝的多様性に対するある程度の制御を得て、新しい品種を作り出すために、育種家は、植物の遺伝的多様性を解析し、その解析を使用して、植物ゲノムに遺伝性突然変異を導入するために異なる技術を使用してきた。例えば、様々な統計ツール（例えば、多変量統計）と組み合わせられた形態学的、細胞学的、生化学的、及び分子マーカの特性評価が、種の異なる株、品種、又は種目間の遺伝的多様性を評価するために使用され得る。これらの技術は、遺伝的多様性の評価、異なる群への遺伝資源の分類、及び超越分離などのハイブリッド表現型を開発するための多様な親の選択において使用されている。しかしながら、多様性解析からの収量及び品質の根底にあるゲノム因子について取得される知識が多いほど、従来の育種アプローチの限界がより明らかになる。組換え及び非特異的突然変異誘発のランダムな性質に起因して、選択遺伝資源のさらなる改善は、多くの場合、リンケージドラッグ、所望の形質に遺伝的に連結された有害な遺伝物質の転移によって損なわれる、長く退屈なプロセスである。したがって、天然又はランダムに誘導される多様性への依存は、従来の育種プロセスを減速させ、予測不可能な育種結果に寄与する制限要因である。

【0005】

前世紀では、様々な変異原（例えば、化合物及び照射）の使用は、遺伝的変異体の大きいプールの迅速な生成を容易にしており、これは、次いで、育種プロセスをスピードアップするために使用され得る。しかしながら、これらの方法は、生成された突然変異の非特異的性質、同時に突然変異した大量のヌクレオチド、及び、ときには、大きなゲノム断片の欠失、複製、又は再編成を含む、数個の欠点を有する。結果として、ランダム突然変異誘発を介した関心対象の突然変異の同定は、長く労働集約的なプロセスである。配列特異的な操作されたエンドヌクレアーゼ、メガヌクレアーゼ、ジンクフィンガヌクレアーゼ（zinc finger nuclease、ＺＦＮ）、転写活性化因子様エフェクタヌクレアーゼ（transcription activator-like effector nuclease、ＴＡＬＥＮ）及びＩＩ型のクラスタ化して規則的な配置の短い回文配列リピート（clustered regularly interspaced short palindromic repeat、ＣＲＩＳＰＲ）／ＣＲＩＳＰＲ関連タンパク質９（CRISPR-associated protein 9、Ｃａｓ９）の開発が、植物ゲノムにおける標的化遺伝子編集（標的化突然変異誘発）のためのツールを提供している。これらのプログラム可能なヌクレアーゼは、部位特異的な様式で一本鎖又は二本鎖ＤＮＡ切断（double-stranded DNA break、ＤＳＢ）の生成を可能にする。真核細胞では、誘導されたＤＳＢは、誤差プローン末端結合経路又は誤差フリー相同組換え修復（homology-directed repair、ＨｄＲ）経路のいずれかを介して修復され得る。両方の経路は、標的遺伝子座に遺伝子改変を導入するために利用される。それにもかかわらず、従来の遺伝的多様性解析は、遺伝子発見及び所望の表現型につながる遺伝子改変の同定を制限したままである。したがって、ＣＲＩＳＰＲ及び他の遺伝子編集ツールの莫大な潜在性にもかかわらず、この潜在性が完全に実現されることになる場合、重大な課題が残っている。

【発明の概要】

【0006】

様々な実施形態では、方法であって、植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、遺伝子発現プロファイルのセットを入力することと、予測モデルを使用して、遺伝子発現プロファイルのセットの特徴と表現型との間の関係又は相関に基づいて、植物についての表現型の予測を生成することと、説明可能な人工知能システムによって、表現型を予測するために予測モデルによってなされた決定を解析することであって、解析することが、（ｉ）表現型の予測で使用される特徴についての特徴重要度スコアのセットを生成することと、（ｉｉ）特徴の各々と関連付けられた特徴重要度スコアに基づいて、特徴をランク付けするか又はそうでなければソートすることと、を含む、予測モデルによってなされた決定を解析することと、ランク付けされた又はそうでなければソートされた特徴に基づいて、予測に対して最大の寄与又は影響を有するものとして、表現型に対する候補遺伝子標的のセットを同定することと、同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、を含む、方法が提供される。

【0007】

いくつかの実施形態では、説明可能な人工知能システムが、予測モデルによってなされた決定を解析するために、ＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓ、ＤｅｅｐＬＩＦＴ、統合勾配、ＬｏｃａｌＩｎｔｅｒｐｒｅｔａｂｌｅＭｏｄｅｌ－ａｇｎｏｓｔｉｃＥｘｐｌａｎａｔｉｏｎｓ（ＬＩＭＥ）、アテンションベースのニューラルネットワークモデル、又はＬａｙｅｒ－ｗｉｓｅＲｅｌｅｖａｎｃｅＰｒｏｐａｇａｔｉｏｎを使用する。

【0008】

いくつかの実施形態では、方法は、ゲノム領域のセットを同定することが、候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに候補遺伝子標的のセットを入力することと、モデリングされた遺伝子編集に基づいて、候補遺伝子標的のセット内の１つ以上の遺伝子をゲノム編集し、表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、遺伝子編集モデルを使用して、候補遺伝子標的のセット内の１つ以上の遺伝子をゲノム編集するための最適な遺伝子標的に基づいて、表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む。

【0009】

いくつかの実施形態では、説明可能な人工知能システムが、表現型の予測で使用される特徴に対する特徴重要度スコアとしてＳｈａｐｌｅｙ値のセットを生成するＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓを使用し、Ｓｈａｐｌｅｙ値が、各特徴重要度及び方向の推定値を表し、遺伝子編集モデルが、Ｓｈａｐｌｅｙ値から直接的に制御の方向性を確認することによって遺伝子編集をモデリングする。

【0010】

いくつかの実施形態では、予測モデルは、ガウス過程モデルであり、遺伝子編集モデルは、２つの構成要素、（ｉ）根底にあるガウス過程関数のガウス過程モデル、及び（ｉｉ）様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して遺伝子編集をモデリングする。

【0011】

いくつかの実施形態では、予測モデルが、深層ニューラルネットワークであり、遺伝子編集モデルが、深層ニューラルネットワークに対して敵対的攻撃を実施することによって遺伝子編集をモデリングし、敵対的攻撃が、深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって表現型を最大化又は最小化するように最適化することと、を含む。

【0012】

いくつかの実施形態では、方法は、理想的な遺伝子発現プロファイルを、植物についての遺伝子発現の自然に生じる分布と比較することと、比較に基づいて、理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、遺伝子編集システムを使用して、遺伝子編集推奨に従って植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む。

【0013】

いくつかの実施形態では、システムであって、１つ以上のデータプロセッサと、１つ以上のデータプロセッサ上で実行されたときに、１つ以上のデータプロセッサに、本明細書に開示された１つ以上の方法の一部又は全てを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を含む、システムが提供される。

【0014】

いくつかの実施形態では、非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品であって、１つ以上のデータプロセッサに、本明細書に開示された１つ以上の方法の一部又は全てを実施させるように構成された命令を含む、コンピュータプログラム製品が提供される。

【0015】

用いられている用語及び表現は、説明の用語として使用され、限定するものではなく、示され、説明された特徴の任意の均等物、又はその一部分を除外するそのような用語及び表現の使用における意図は存在しないが、特許請求の範囲の本発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び任意選択的な特徴により具体的に開示されているが、本明細書に開示される概念の修正及び変形が、当業者によって行われ得、そのような修正及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあるとみなされることを理解されたい。

【図面の簡単な説明】

【0016】

本開示は、以下の非限定的な図を考慮してより良好に理解されるであろう。

【図1】様々な実施形態による、植物における遺伝子発見及び遺伝子編集の両方のための機械学習パイプラインのブロック図を示す。

【図2A】様々な実施形態による例示的な深層ニューラルネットワークを示す。

【図2B】様々な実施形態による、遺伝子間相互作用発見のためのグラフ蒸留を示す。

【図3A】様々な実施形態による、遺伝子編集をモデリングするためのガウス過程モデル及びベイズ最適化の使用を示す。

【図3B】様々な実施形態による、遺伝子編集をモデリングするためのガウス過程モデル及びベイズ最適化の使用を示す。

【図3C】様々な実施形態による、Ｓｈａｐｌｅｙ値を使用することと比較された、ベイズ最適化を使用する遺伝子編集モデリングの結果を示す。

【図4】様々な実施形態による、遺伝子編集をモデリングするための深層学習アーキテクチャに対する敵対的攻撃を示す。

【図5】様々な実施形態による例示的な差分進化アルゴリズムを示す。

【図6】様々な実施形態による、敵対ベースのモデリングアプローチを使用して決定された理想的な遺伝子発現プロファイルの例を示す。

【図7】様々な実施形態による遺伝子発見及び編集システムのブロック図を示す。

【図8】様々な実施形態による遺伝子発見及び編集のための例示的な流れを示す。

【図9】様々な実施形態による、所与の表現型についての重要な遺伝子セット又はクラスタを同定するための例示的な流れを示す。

【0017】

添付図では、同様の構成要素及び／又は特徴は、同じ参照符号を有し得る。さらに、同じタイプの様々な構成要素は、同様の構成要素間を区別するダッシュ及び第２の符号による参照符号に従って区別され得る。本明細書において第１の参照符号のみが使用される場合、説明は、第２の参照符号にかかわらず、同じ第１の参照番号を有する同様の構成要素のうちのいずれか１つに適用可能である。

【発明を実施するための形態】

【0018】

以下の説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性、又は構成を限定することを意図されない。むしろ、好ましい例示的な実施形態の以下の説明は、様々な実施形態を実装するための有効な説明を当業者に提供することになる。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置において様々な変更がなされ得ることが理解される。

【0019】

具体的な詳細は、実施形態の完全な理解を提供するために、以下の説明に与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図の形態で構成要素として示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。

【0020】

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として図示されるプロセスとして説明され得ることに留意されたい。フローチャート又は図は、順次プロセスとして動作を説明し得るが、動作の多くは、並列又は同時に実施されてもよい。加えて、動作の順番は、再配置されてもよい。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加のステップを有してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、呼び出し関数又はメイン関数への関数のリターンに対応し得る。

【0021】

Ｉ．序論
植物における特定の表現型を支配する根底にある生物学的機構を理解することは、従来、実験の長い反復を必要とした。そのような実験は、遺伝子操作（遺伝子送達系を介した遺伝子ノックアウト及び過剰発現など）及び重要な分子シグナル伝達経路の薬理学的標的化を含んでいた。このプロセスは、分子機構がほとんど解明されていない生物にとって、特に時間及び資源集約的であり、これらの機構に関する知識の重要なポートフォリオを構築するプロセスに、科学界は、歴史的に数十年を要してきた。

【0022】

生物のゲノムにおける、一塩基多型（single nucleotide polymorphism、ＳＮＰ）と呼ばれる、ゲノムにおける特定の塩基対の差異を、特定の表現型と関連付けるための従来の計算アプローチは、ゲノムワイド関連解析（genome-wide association study、ＧＷＡＳ）及び量的形質遺伝子座（quantitative trait loci、ＱＴＬ）解析に基づいている。ＧＷＡＳは、特定の表現型の分布を有する自然に生じるゲノムサンプルの統計解析を通じて、特定の遺伝的変異体を特定の表現型と関連付けるために使用される。ＱＴＬ解析は、最終的な目標が表現型変異をゲノムの特定の領域と関連付けることであるという点でＧＷＡＳと同様であるが、集団における自然変異を観察するのではなく、ＱＴＬは、特定の表現型に関して２つの遺伝的に対照的な株を標的とし、第１世代（Ｆ１）及び第２世代（Ｆ２）の子孫を解析する。ＧＷＡＳ及びＱＴＬ解析は、後に検証された関心のある候補ＳＮＰを同定する際に多大な進歩を遂げたが、ＧＷＡＳ及びＱＴＬ解析のいくつかの弱点は、複雑な非線形相互作用（エピスタシスなど）のモデリング、原因となるＳＮＰの同定、及び弱い効果サイズのＳＮＰの同定における弱点である。

【0023】

ＧＷＡＳ及びＱＴＬ解析のためのより洗練された非線形機械学習法を利用するために、近年、深層学習アーキテクチャに注目が集まっている。深層ニューラルネットワーク（deep neural network、ＤＮＮ）、深層信念ネットワーク（deep belief network）、回帰型ニューラルネットワーク（recurrent neural network、ＲＮＮ）、畳み込みニューラルネットワーク（convolutional neural network、ＣＮＮ）などの、深層学習アーキテクチャは、コンピュータビジョン、マシンビジョン、音声認識、自然言語処理、音声認識、バイオインフォマティクス、機械翻訳を含む技術分野に適用されており、それらは、人間の能力に匹敵し、場合によっては、人間の能力を凌ぐ結果を生み出している。深層学習アーキテクチャが適用され、ＧＷＡＳ及びＱＴＬデータセットを伴う様々な予測タスク（例えば、リスク予測）においてある程度の成功を実証してきたが、それらの現実世界の適用及び展開における主要な懸念は、これらのネットワークで使用されるアルゴリズムのブラックボックス的性質に起因する固有の説明可能性の欠如である。したがって、ほとんどの植物表現型の遺伝的構造及び分散は、ほとんど説明されていないままである。

【0024】

これらの限界及び問題に対処するために、植物表現型のきめ細かい制御を取得するという重要な目標を有する植物における遺伝子発見及び遺伝子編集の両方のための機械学習パイプラインが本明細書で開示される。パイプラインは、２つの別個の構成要素に分解され得る。第１の構成要素については、特定の表現型に関して所与の植物種において潜在的に関連する遺伝子が、説明可能な人工知能法（explainable artificial intelligence、ＸＡＩ）を通じて同定され得る。より具体的には、入力として遺伝子発現プロファイルを使用して表現型値を予測する機械学習モデル（非線形）は、予測モデルに対して最大の影響を有する遺伝子を同定するためにＸＡＩを介して検査され得る。予測モデルに対するＸＡＩによって同定されたこれらの上位遺伝子は、その特定の植物種及び表現型についての分子制御プロセスに関与する候補遺伝子として役立つ。第２の構成要素について、特定の表現型の発現に関与するように標的化された上位遺伝子を考慮して、モデリング技術が、それらの特定の遺伝子の制御に関する示唆を生成するように適用され得る。より具体的には、パイプラインの第２の構成要素は、制御の方向性（上方／下方制御）に関する粗い粒度及び細かい粒度の推奨の両方を行い、これは、合成生物学における方法を介して行われ得るアクション可能な編集に変換され得る。

【0025】

１つの例示的な実施形態では、方法であって、植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、遺伝子発現プロファイルのセットを入力することと、予測モデルを使用して、遺伝子発現プロファイルのセットの特徴と表現型との間の関係又は相関に基づいて、植物についての表現型の予測を生成することと、説明可能な人工知能システムによって、表現型を予測するために予測モデルによってなされた決定を解析することであって、解析することが、（ｉ）表現型の予測で使用される特徴についての特徴重要度スコアのセットを生成することと、（ｉｉ）特徴の各々と関連付けられた特徴重要度スコアに基づいて、特徴をランク付けするか又はそうでなければソートすることと、を含む、予測モデルによってなされた決定を解析することと、ランク付けされた特徴に基づいて、予測に対して最大の寄与又は影響を有するものとして、表現型に対する候補遺伝子標的のセットを同定することと、を含む、方法が提供される。方法は、同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することをさらに含み得る。ゲノム領域のセットを同定することが、候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに候補遺伝子標的のセットを入力することと、モデリングされた遺伝子編集に基づいて、候補遺伝子標的のセット内の各遺伝子をゲノム編集し、表現型を最大化又は最小化するための最適な遺伝子標的のセットを同定することと、を含み得る。方法は、遺伝子編集モデルを使用して、候補遺伝子標的のセット内の各遺伝子のゲノム編集のための最適な遺伝子標的のセットに基づいて、表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含み得る。

【0026】

ＩＩ．機械学習パイプライン
図１は、様々な実施形態による、植物における遺伝子発見及び遺伝子編集の両方のための機械学習パイプライン１００のブロック図を示す。機械学習パイプライン１００は、説明可能な人工知能を介した植物における遺伝子発見のための第１の構成要素１０５と、機械学習を使用して植物における遺伝子編集をモデリングするための第２の構成要素１１０と、を備える。第１の構成要素１０５は、遺伝子発現プロファイル１２０から所与の植物の特定の表現型１１５を予測するように構成されたモデルアーキテクチャを含む。所与の植物の表現型は、植物の観察可能な特性に対する環境と併せて遺伝子型の集合的発現を説明する。植物の高さ、バイオマス、芽密度、葉の形状、色、果実又は穀物の生産、耐乾燥性、耐虫性などは、全て、同じ遺伝子型内であっても、異なる成長条件で変化し得る表現型特性（離散的及び連続的変異）の例である。モデルアーキテクチャは、表現型１１５の予測を示す応答変数を出力するように訓練される。いくつかの事例では、表現型１１５は、バイナリ、序数、又は連続表現型であり、モデルアーキテクチャの出力層は、表現型１１５を同定するために最も好適な応答変数のタイプに従って非線形活性化関数を使用する（例えば、連続表現型には双曲線正接関数又は線形関数、バイナリ表現型にはシグモイド関数、序数又はマルチクラス表現型にはソフトマックス関数が使用され得る）。ある特定の事例では、予測される特定の表現型１１５は、連続表現型であり、モデルアーキテクチャの出力層は、双曲線正接関数などの非線形活性化関数を使用して、連続表現型１１５を同定するための応答変数を生成する。

【0027】

植物の細胞は、外部及び内部シグナルに依存して、それらが含有する遺伝子の発現のレベルを調節する。様々な遺伝子の発現レベルを制御することは、各細胞がそのサイズ、形状、及び機能を制御することを可能にする。植物の細胞が、それらが含有する遺伝子を発現するやり方は、植物の表現型、例えば、所与の昆虫若しくは草木に対する抵抗性、又はそれが甘い果実若しくは酸っぱい果実を生産することになるかどうかに影響を及ぼす。遺伝子発現プロファイリング１２５は、どの遺伝子が任意の所与の瞬間に細胞内で発現されているかを測定する。これは、細胞が分裂しているか否か、細胞の環境にどのような因子が存在するか、細胞が他の細胞から受信しているシグナル、さらには時刻を含む、外部及び内部刺激によって細胞遺伝子発現が影響されるためである。どの遺伝子が発現されているかを決定するために、遺伝子発現プロファイリング１２５は、ｍＲＮＡレベルの量を測定し、転写レベルで各細胞によって発現される遺伝子のパターンを示す。いくつかの事例では、これは、２つ以上の実験条件における相対的なｍＲＮＡ量を測定し、次いで、特定の遺伝子が発現されることをどの条件が結果的にもたらしたかを評価することを意味する。異なる技術が、ｍＲＮＡレベルの量を測定し、遺伝子発現を決定するために使用され得る。いくつかの事例では、ｍＲＮＡレベルは、マイクロアレイ解析、逆転写ポリメラーゼ連鎖反応（reverse transcription polymerase chain reaction、ＲＴ－ＰＣＲ）を介して、組織の精製ＲＮＡの逆転写反応から結果的に生じるＤＮＡであるｃＤＮＡの次世代シーケンシング（ＲＮＡ－ｓｅｑ）を通じて、又はそれらの任意の組み合わせで測定される。

【0028】

遺伝子発現プロファイリング１２５は、植物の特定の組織において、その成長サイクルにおける特定の時間に測定された、固定された遺伝子のセットについての特徴（ａ）～（ｎ）を含む遺伝子発現プロファイル１２０を出力する。遺伝子が、特定の時間にｍＲＮＡを作製するために組織の細胞によって使用されている場合、遺伝子は、遺伝子発現プロファイル１２０内で「オン」とみなされ、遺伝子が、特定の時間にｍＲＮＡを作製するために組織の細胞によって使用されていない場合、遺伝子は、遺伝子発現プロファイル１２０内で「オフ」とみなされる。

【0029】

いくつかの事例では、遺伝子発現プロファイルは、組織がサンプリングされた特定の時点における所与の組織における固定された測定された遺伝子のセットについての遺伝子発現の数値表現のセット（例えば、対数変換された遺伝子発現プロファイル）に変換される。いくつかの事例では、追加のデータ１２７が、本明細書でより詳細に説明されるように、第１の構成要素１０５のモデルアーキテクチャへの遺伝子発現プロファイルを含む入力のために生成される（例えば、入力データは、環境及び管理実践システム、栽培システム、マルチオミクスシステム、並びに／又はモデリングシステムから取得され得る）。追加のデータ１２７は、（ｉ）植物が任意の所与の瞬間（例えば、ｍＲＮＡレベルの量が測定された瞬間）までに曝露される環境条件に関するデータと、（ｉｉ）植物が任意の所与の瞬間（例えば、ｍＲＮＡレベルの量が測定された瞬間）までに曝露される維持条件に関するデータと、を含み得る。環境条件は、植物が、例えば、温度、降水量、土壌特性などに曝露される場所特有の環境条件を含む。維持条件は、植物の成長の管理の任意の調整可能な態様、例えば、肥料又は水などの入力、植え付け、施肥、収穫などのタイミングを含む。

【0030】

植物生物学におけるゲノム予測のための従来のモデルは、線形モデル（線形回帰）、又はリッジ回帰最良線形不偏予測（ridge regression best linear unbiased prediction、ｒｒＢＬＵＰ）などの線形混合効果モデルのいずれかであった。植物における様々な表現型（特に、高度に多遺伝子であるもの）に寄与する根底にあるプロセスは、本質的に非線形であることが公知であるが、従来のモデリング方法論の多くは、厳密に線形の形態をとる。ヒルの式（Hill equation）、モノー方程式（Monod equation）、及びミカエリス・メンテン式（Michaelis-Menten equation）などの生化学システムを支配する最も基本的な方程式のいくつかでさえも、一般に非線形である。しかし、ゲノム予測を目的とするアプローチの大部分は、それらが計算的に扱い易く、線形係数の検査を通して解釈可能性を組み込んでいるという単純な理由のために、線形方法を使用してきた。深層ニューラルネットワークなどのより複雑なモデリング方法論を使用するとき、解釈可能性は、当然には与えられない。

【0031】

それにもかかわらず、より表現力のある非線形モデルが、生物系の固有の非線形性質をモデリングするのにより好適であるため、表現型１１５を予測するためのモデルアーキテクチャは、深層学習アーキテクチャ１３０であり、これは、大きい遺伝的変異を呈する多数のサンプルが提供されるとき（例えば、遺伝子発現プロファイル１１０と同様に）、より強力な予測モデルとして機能する。いくつかの事例では、深層学習アーキテクチャ１３０は、深層ニューラルネットワーク（すなわち、２つ以上の隠れ層）であるが、本明細書の教示は、単独で、アンサンブルなどの複数として、又は組み合わせて実装されるニューラルネットワーク及び他の非線形モデルの両方に適用可能であることが理解されるべきである。深層学習アーキテクチャ１３０は、入力データ（遺伝子発現プロファイル１１０）の特徴と表現型との間の関係又は相関を学習することによって、出力データとして表現型を予測するタスクのために構築される。具体的には、深層学習アーキテクチャ１３０は、どのように、隠れ層内の非線形パターンを捕捉し、１つ以上の活性化関数の使用によって、確率（例えば、バイナリ分類）又はある間隔内の予測された応答変数（例えば、連続応答の場合）に関して出力を生成するかをアルゴリズムに学習させる様式で構築される。その後、非線形活性化関数に渡される線形変換を支配する重みが、ラベル付きサンプルのセット（例えば、表現型グラウンドトゥルースでラベル付けされた遺伝子発現プロファイルのセットを含む訓練データ）から、訓練プロセスで学習される。

【0032】

図２Ａは、例示的な深層ニューラルネットワーク２００を示す（この事例では、例示的な深層ニューラルネットワークは、フィードフォワードニューラルネットワークであるが、本開示の趣旨及び範囲から逸脱することなく、他のタイプのニューラルネットワークが実装され得ることが理解されるべきである）。深層ニューラルネットワーク２００は、入力層２０５と、複数の隠れ層２１０ａ～２１０（ｎ）と、出力層２１５と、を備える。入力層２０５は、入力データ又は特徴を深層ニューラルネットワーク２００に供給するために使用される。いくつかの事例では、入力データ又は特徴は、遺伝子発現プロファイル又はその変換されたバージョン、例えば、対数変換された遺伝子発現プロファイルである。深層ニューラルネットワーク２００は、複数の隠れ層２１０ａ～２１０（ｎ）を使用して入力データに一連の関数を適用する。隠れ層の数は、深層ニューラルネットワーク２００の深度を定義する。複数の隠れ層２１０ａ～２１０（ｎ）を有することによって、深層ニューラルネットワーク２００は、より単純な関数をカスケーディングすることによって複雑な関数を計算し得る。いくつかの事例では、深層ニューラルネットワーク２００の深度は、２つ以上の隠れ層である。ある特定の事例では、深層ニューラルネットワーク２００の深度は、図２Ａに図示されるように、２つの隠れ層である。

【0033】

複数の隠れ層２１０ａ～２１０（ｎ）内の各ノード２２０は、深層ニューラルネットワーク２００の基本処理ユニットであるニューロンである。ニューロンの処理は、２つのステップ、すなわち、（１）各ニューロンがその入力及び重みの加重和を計算するステップと、（２）各ノードが活性化関数と呼ばれる変換を適用して出力を生成するステップとにおいて実装され得る。各層のニューロンは、前の層のニューロンの出力を入力として受信する。接続の強度が重みと呼ばれ、重みは、その重要性を反映する重み付け係数である。重みは、ネットワークが訓練段階中に学習しなければならないパラメータである。接続がゼロの重みを有する場合、ニューロンは、次の層の対応するニューロンにいかなる影響も有していない。影響は、重みが正であるときに興奮性であり、重みが負であるときに抑制性である。したがって、深層ニューラルネットワークは、ノードがニューロンに対応し、エッジがそれらの間のリンクに対応する有向非巡回グラフ（directed acyclic graph、ＤＡＧ）として見ることができる。各ニューロンは、入力として、その入ってくるエッジに接続されたニューロンの出力の加重和を受信する。活性化関数は、ニューロンの出ていくエッジにおける意思決定構成要素として使用される。活性化関数は、線形又は非線形であり得、深層ニューラルネットワーク２００の出力のタイプ（連続、バイナリ、カテゴリ、及びカウント）を決定し、入力データの非線形パターンを捕捉するために重要である。活性化関数の例は、線形活性化関数、正規化線形ユニット（rectifier linear unit、ＲｅＬＵ）、漏れＲｅＬＵ、シグモイド活性化関数、ソフトマックス活性化関数、双曲線正接活性化関数、及び指数活性化関数を含む。

【0034】

出力層２１５は、予測（例えば、特定の表現型）を示す応答変数を出力する。出力層で使用される活性化関数は、異なる問題に対して異なる。バイナリ分類問題に関して、出力は、０又は１のいずれかである必要がある。したがって、シグモイド活性化関数が使用され得る。マルチクラス分類問題に関して、ソフトマックス活性化関数が使用され得る。回帰問題に関して、出力が所定のカテゴリではない場合、線形ユニット活性化関数が使用され得る。いくつかの事例では、特定の表現型は、バイナリ、序数、又は連続表現型であり、出力層２１５は、特定の表現型を同定するために最も好適な応答変数のタイプに従って非線形活性化関数を使用する（例えば、連続表現型には双曲線正接関数、バイナリ表現型にはシグモイド関数、序数又はマルチクラス表現型にはソフトマックス関数が使用され得る）。ある特定の事例では、予測される特定の表現型は、連続表現型であり、出力層２１５は、双曲線正接関数などの非線形活性化関数を使用して、特定の連続表現型を同定するための応答変数を生成する。

【0035】

深層ニューラルネットワーク２００のための訓練段階は、深層ニューラルネットワーク２００のためのハイパーパラメータを選択すること（例えば、隠れ層の数又は活性化関数を選択すること）と、訓練データから深層ニューラルネットワーク２００にデータセットを入力する反復動作を実施して、深層ニューラルネットワーク２００のための損失又は誤差関数を最小化する学習されたパラメータのセット（例えば、重み及び／又はバイアス）を見つけることと、学習されたパラメータのセットを用いてネットワークを検証又は試験することと、を含む。ハイパーパラメータは、深層ニューラルネットワーク２００の挙動を制御するために調整又は最適化され得る設定である。ほとんどのニューラルネットワークは、メモリ又は実行コストなどのネットワークの異なる態様を制御するハイパーパラメータを明示的に定義する。しかしながら、追加のパラメータが、ネットワークを特定のシナリオに適合させるために定義され得る。例えば、ハイパーパラメータは、ネットワークの隠れ層の数、隠れ層内のニューロンの数、ネットワークの学習率、又はネットワークに対する活性化関数のタイプを含み得る。ハイパーパラメータを定義することは困難であり得、したがって、調整プロセスが、特定のシナリオに対する最適なハイパーパラメータ値のセットを定義するために使用され得る。ハイパーパラメータ調整は、異なるハイパーパラメータの組み合わせを有する値のグリッドからハイパーパラメータのための値の組み合わせを選択することを含み得る値検索プロセスを含む。上述の値検索プロセスは、網羅的であるか、又はベイズ最適化若しくは遺伝的アルゴリズムなどのより知的な最適化技術を活用するかのいずれかであり得る。

【0036】

ハイパーパラメータ調整プロセス、ネットワーク訓練、及び試験／検証プロセスを実装するために、訓練データが、取得され、セットに分割され、前処理され得る（例えば、グラウンドトゥルースラベルで注釈付けされる）。例えば、訓練データは、１つ以上の表現型についての遺伝子発現プロファイルのセットを取得することと、データのセットを前処理することと、データのセットを訓練セット（学習可能なパラメータを学習するためにネットワークを訓練するための）（例えば、７０％）、調整セット（ハイパーパラメータを調整し、最適な学習不能なパラメータを選択するための）（例えば、１５％）、及び試験又は検証セット（ネットワークの汎化能力を推定するための）（例えば、１５％）に分割することと、データのサブセットをグランドトゥルースラベルで注釈付けすることと、によって生成され得る。いくつかの事例では、訓練データは、グランドトゥルースラベルを有する遺伝子発現プロファイル、又はその変換バージョン、例えば、グランドトゥルースラベルを有する対数変換された遺伝子発現プロファイルである。

【0037】

データのセットは、Ｋ分割交差検証（K-Fold Cross-Validation）、１つ抜き交差検証（Leave-one-out Cross-Validation）、１グループ抜き交差検証（Leave-one-group-out Cross-Validation）、入れ子構造の交差検証（Nested Cross-Validation）などの、検証技術を使用して取得され分割され得る。例えば、Ｋ分割交差検証が使用され得、ｋ－１個のフォールドが訓練（外部訓練）に使用され、残りのフォールドが試験に使用される。次いで、対応する訓練を用いた各フォールド内で、ｋ分割交差検証が使用され、ｋ－１個のフォールドが訓練（内部訓練）に使用され、残りのフォールドが調整評価に使用される。グリッド内の各ハイパーパラメータの組み合わせのネットワークは、内部訓練データセットを用いて訓練され、より少ない予測誤差を有するグリッド内の組み合わせが、各フォールド内の最適ハイパーパラメータとして選択される。次いで、サンプルサイズが外部訓練セットを使用して小さい場合、ネットワークは、最適ハイパーパラメータを用いて再びフィッティングされる。最後に、これらの推定されたモデルパラメータ（重み及び／又はバイアス）を用いて、試験セットの予測が取得される。このプロセスが各フォールドで繰り返され、ｋ個の試験セットの平均予測性能が予測性能として報告される。いくつかの事例では、試験セットの予測は、Ｂｌａｎｄ－Ａｌｔｍａｎ法及びＳｐｅａｒｍａｎの順位相関係数などの相関技術を使用し、誤差、正確度、精度、再現率、受信者操作特性曲線（receiver operating characteristic curve、ＲＯＣ）などの性能測定基準を計算して、グラウンドトゥルースに対して評価される。

【0038】

深層ニューラルネットワーク２００のための訓練プロセスの各反復は、訓練及び／又は調整セットからデータセットを入力することと、モデルパラメータのセットを使用する損失又は誤差関数（例えば、改変された交差エントロピー損失）の値が、以前の反復における異なるモデルパラメータのセットを使用する損失又は誤差関数の値よりも小さくなるように、モデルパラメータのセット（定義されたハイパーパラメータのセットで構成された）を学習することと、を伴い得る。損失又は誤差関数は、ラベル／グラウンドトゥルースと、遺伝子発現プロファイルのセットに対する推論された表現型などの推論されたデータとの間の差を測定するために構築され得る。初期値（例えば、ランダム値又は事前知識に基づいて選択された値）が、深層ニューラルネットワーク２００を訓練するための開始点として使用されるべきモデルパラメータのセットに割り当てられ、深層ニューラルネットワーク２００のための訓練プロセスの各反復は、モデルパラメータのセットを微調整するために、ネットワークを通して損失を逆方向に供給すること（すなわち、逆伝播）をさらに伴い得る。データのバッチを深層ニューラルネットワーク２００に反復的に通過させ、訓練データセットのサブセットに基づいて誤差を推定し、誤差が減少するように重みを更新するこのプロセスは、勾配降下法として知られている。本明細書で使用される場合、アクションが何かに「基づいている」とき、これは、アクションが何かの少なくとも一部に少なくとも部分的に基づくことを意味する。深層ニューラルネットワーク２００のモデルパラメータのセットが、損失又は誤差関数を最適化することによって訓練されると、ネットワークは、遺伝子発現プロファイルのセットから未知の遺伝子型の表現型を予測することができる。訓練損失を追跡することに加えて、訓練損失と試験損失との間の明確な相違が認められたときに深層ニューラルネットワークの訓練を停止する早期停止を実装するために、試験損失が追加的に追跡され得る。早期停止プロセスは、過剰適合に対抗し、ニューラルネットワークが検証データへの汎化を犠牲にして訓練データに対して極めて良好に機能するシナリオを防止する。

【0039】

誤差勾配の推定に使用される訓練セットからのデータの例の数は、バッチサイズであり、学習アルゴリズムのダイナミクスに影響する重要なハイパーパラメータである。深層ニューラルネットワーク２００を訓練することは、初期のモデルパラメータのセット及び学習アルゴリズムの構成に敏感であり得るため、困難であり得る。この課題の理由は、モデルパラメータのセットが更新されたとき、各データのバッチの後に、ネットワーク内の深い層への入力の分布が変化し得ることである。これは、学習アルゴリズムに、移動する標的を持続的に追跡させ得る（内部共変量シフトとして知られている）。いくつかの事例では、この課題を克服するために、深層ニューラルネットワーク２００を訓練するためにバッチ正規化が使用される。バッチ正規化は、各隠れ層２１０の出力をスケーリングすることによって、例えば、前の層からのノードの活性化などの、データのバッチごとの各入力変数の活性化を標準化することによって実施され得る。前の層の活性化を標準化することは、後続の層が重み更新中に入力の拡散及び分布について行う仮定が、少なくとも劇的には変化しなくなることを意味する。これは、学習プロセスを安定させ、深層ニューラルネットワーク２００を訓練するために必要とされる訓練エポックの数を低減する（訓練を高速化する）。

【0040】

理解されるべきであるように、他の訓練－調整－検証機構が企図され、実装され得る。例えば、深層ニューラルネットワーク２００は、訓練され得、ハイパーパラメータは、第１のデータのサブセットからのデータに対して調整され得、第２のデータのサブセットからのデータは、モデルの性能を試験及び評価するためだけに使用され得る。さらに、本明細書で説明される訓練－調整－検証機構は、新しい深層ニューラルネットワーク２００を訓練することに焦点を当てている。これらの訓練－調整－検証機構はまた、他のデータセットから訓練された既存の深層ニューラルネットワーク２００を微調整するために利用され得る。例えば、いくつかの事例では、深層ニューラルネットワーク２００は、第１の表現型についての遺伝子発現プロファイルデータを使用して事前訓練されていてもよい。それらの場合、深層ニューラルネットワーク２００は、第２の表現型についての遺伝子発現プロファイルの新しいセットを使用する転移学習及び再訓練／検証のために使用され得る。

【0041】

図２Ａに関して説明されるフィードフォワードニューラルネットワークの代替として、いくつかの実施形態で実装される例示的な学習アーキテクチャ１３０は、グラフニューラルネットワーク（graph neural network、ＧＮＮ）である。ＧＮＮは、一般的な無向／有向ラベル付きグラフ（２つの構成要素：ノード（頂点）及びエッジからなるデータ構造）として符号化された入力データを処理し、ノードレベル、エッジレベル、及びグラフレベルの予測タスクを実施するやり方を提供することができるニューラルネットワークである。したがって、そのような実施形態では、遺伝子発現プロファイル１２０は、植物種における遺伝子のグラフ構造化表現として構成される。各ノードが遺伝子を表し、各エッジが遺伝子間相互作用を表す遺伝子のグラフ構造化表現が与えられると、ＧＮＮは、ノードを再帰ユニットに変換し、エッジをフィードフォワードニューラルネットワークに変換する。次いで、ＧＮＮは、全てのノードに対して近傍集約をｎ回実施し、グラフ表現Ｈを得るために全てのノードの埋め込みベクトルにわたってグローバルプーリングを実施する。次いで、グラフ表現Ｈは、遺伝子発現プロファイル１２０に対する表現型１１５を予測するために使用される上位層に渡される。

【0042】

本明細書で説明されるＤＮＮ又はＧＮＮなどの深層ニューラルネットワークの代替として、いくつかの実施形態で実装される例示的な深層学習アーキテクチャ１３０は、ガウス過程モデルなどの非線形モデルである。ガウス過程モデルは、ガウス確率分布の汎化であり、分類及び回帰タスクのためのノンパラメトリック機械学習アルゴリズムの基礎として使用され得る。ガウス過程を伴う機械学習アルゴリズムは、怠惰学習を使用して深層学習アーキテクチャ１３０で実装され得、点間の類似性の尺度（カーネル関数）は、訓練データから未知の点に対する値（例えば、遺伝子発現プロファイル１２０に対する表現型１１５）を予測するために使用され得る。予測は、その点についての推定値のみならず、不確実性情報も有し、一次元ガウス分布として表現される。多出力予測に関して、多変量ガウス分布が各点における周辺分布である多変量ガウス過程が使用され得る。

【0043】

関心対象の表現型１１５に対する候補遺伝子標的を生成するために、ＸＡＩ技術が、ホールドアウトデータセット又は新しい入力データのセット（すなわち、遺伝子発現プロファイル１２０のセット）における全ての予測に対する各特徴の重要度を取得するために適用される。いくつかの事例では、入力として遺伝子発現プロファイル１２０を使用して表現型１１５を予測する深層学習アーキテクチャ１３０は、ＸＡＩ１３５を介して解析されて、深層学習アーキテクチャ１３０の出力又は予測に対して最大の寄与又は影響を有する特徴（例えば、１つ以上の遺伝子１４０）を同定する。ＸＡＩ１３５の主な目標は、表現型の決定において重要な役目を果たす遺伝子を同定する重要度の尺度（例えば、Ｓｈａｐｌｅｙ値）を定義することである。ＸＡＩは、機械学習モデルの決定（例えば、解の結果）が理解及び解釈され得るような人工知能（artificial intelligence、ＡＩ）の適用における技術を指す。ＸＡＩは、機械学習モデルの設計者であっても、ＡＩが機械学習モデルによって特定の決定に到達した理由を説明することができない、機械学習における「ブラックボックス」の概念とは対照的である。いくつかの事例では、ＸＡＩ１３５のために使用される技術は、機械学習モデルの決定を解析及び説明するためのゲーム理論アプローチである、ＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓ（ＳＨＡＰ）である。しかしながら、ＸＡＩのための他の技術が、機械学習モデルによって行われた予測を理解及び解釈するために企図されることが理解されるであろう。例えば、代替的又は追加的に、統合勾配などの勾配ベースのアプローチ、ＤｅｅｐＬＩＦＴなどの逆伝播アプローチ、ＬｏｃａｌＩｎｔｅｒｐｒｅｔａｂｌｅＭｏｄｅｌ－ａｇｎｏｓｔｉｃＥｘｐｌａｎａｔｉｏｎｓ（ＬＩＭＥ）などのモデル非依存技術、アテンションベースのニューラルネットワークモデルなどのニューラルネットワーク及びアテンション重みアプローチ、又はＬａｙｅｒ－ｗｉｓｅＲｅｌｅｖａｎｃｅＰｒｏｐａｇａｔｉｏｎ（ＬＲＰ）などのディープテイラー分解アプローチが、機械学習モデルによって行われた予測を理解及び解釈するために使用され得る。

【0044】

機械学習モデルのＳＨＡＰベースの説明の背後にある核となる概念は、強力ゲーム理論からの公平な割り当て結果を使用して、モデルの出力に対する信用をその入力特徴の間で割り当てることである。言い換えると、ＳＨＡＰ説明方法は、各特徴（例えば、遺伝子発現プロファイルにおける各遺伝子）の影響を示すために予測を分解する。これを行うために、ＳＨＡＰ説明方法は、協力ゲーム理論からＳｈａｐｌｅｙ値を計算する。特徴は、異なる大きさ及び符号を有するモデルの出力又は予測に寄与し、これは、Ｓｈａｐｌｅｙ値によって説明される。したがって、Ｓｈａｐｌｅｙ値は、各特徴の重要度（寄与又は影響の大きさ）及び方向（符号）の推定値を表す。正のＳｈａｐｌｅｙ値を有する特徴は、表現型の予測値を増加させるが、一方、負のＳｈａｐｌｅｙ値を有する特徴は、表現型の予測値を減少させる。次いで、絶対Ｓｈａｐｌｅｙ値の平均が、各特徴の重要度をランク付けし、ソートするために使用され得る。

【0045】

ＸＡＩ１３５のために使用される技術（例えば、ＳＨＡＰ）は、（ｉ）予測において使用される特徴（一部又は全ての入力特徴）についての特徴重要度スコア（定量値）のセットと、（ｉｉ）ホールドアウトデータセット又は新しい入力データのセット（すなわち、遺伝子発現プロファイル１２０のセット）における全ての予測についての各特徴に対する重要度スコアの集約を通した特徴のランク付け又はそうでなければソートと、を生成する。例えば、ＳＨＡＰに関して、絶対Ｓｈａｐｌｅｙ値の平均によってランク付け及びソートされると、最上位にランク付け又はソートされた特徴１４０（例えば、遺伝子のセット）が、深層学習アーキテクチャ１３０の出力又は予測に対して最大の寄与又は影響を有するものとして同定される。最上位のランク付け又はソートされた特徴１４０は、絶対Ｓｈａｐｌｅｙ値の最大平均を有する特徴（例えば、単一の遺伝子、５つの遺伝子、１０個の遺伝子、１５個の遺伝子など）をソート及び同定することによって同定され得る。最上位のランク付け又はソートされた特徴１４０は、その特定の植物種及び表現型の分子制御プロセスに関与する候補遺伝子であり得、遺伝子編集をモデリングするために第２の構成要素１１０において使用される。

【0046】

ＧＮＮに関する別の例として、ＧＮＮ蒸留プロセスが、（ｉ）重要なサブグラフ構造及びノード特徴を識別することと、（ｉｉ）ノードがサンプルにわたって集約され、ランク付けされて、個々のノードの重要度のリストを作成し得る、各予測についての重要なサブグラフのサブセットを取得することと、によって、ＧＮＮの予測の解釈を取得するために活用され得る。図２Ｂは、遺伝子間相互作用発見のためのグラフ蒸留２５０を示す。マルチオミクス訓練データは、グラフの各ノードが遺伝子を表すグラフのセットに変換される。入力訓練データ２５５は、凍結され事前訓練された教師グラフ２６０に供給されて、予測を生成し、予測は、蒸留された生徒グラフ２７０の標的ラベル２６５として使用される。生徒グラフ２７０は、２つの目的、（１）教師グラフ２６０の出力と同様の予測２７５を作成すること、及び（２）エントロピー正則化２８０を通して達成される最小数のエッジを有することを伴って訓練される。訓練の後、蒸留された生徒グラフ２７０内の残りのエッジは、所与の出力予測に寄与する最も重要な遺伝子間相互作用を表す。

【0047】

深層学習アーキテクチャ１３０上のＸＡＩ機構から取得されたランク付けされた特徴１４０（例えば、遺伝子）は、第１の構成要素１０５の基礎として機能する。いくつかの事例では、所与の表現型と関連付けられることが文献に文書化されている遺伝子などの特徴のセットが、第１の構成要素１０５の性能をベンチマークするために活用され得る。例えば、第１の構成要素１０５からのランク付けされた特徴１４０のセットが与えられると、特徴１４０のランク付けにおける上位ｋ個の特徴において捕捉された全文献特徴の数を計算することによって、「ｋにおけるリコール」測定基準が計算され得る。ｋは、この測定基準に影響し得る重要なパラメータであるが、一方で、集約測定基準は、１から開始してデータセット内の特徴の数までの全てのｋについて、ｋにおけるリコールを計算することから曲線を生成することによって取得され得る。所定の特徴数ｋまでのそのような曲線の積分は、第１の構成要素１０５に対する正確度の測定基準として使用され得る連続値「ｋに対する曲線下面積」を得る。特徴リコールをベンチマーキングするための上述のアプローチは、数十年もの生物学的実験及び検証から結果的に生じた遺伝子及び表現型などの特徴間の関連をモデルがどのように捕捉しているかを評価するために有用であるが、真の関連のセットは、不完全であり、したがって、既知の文献遺伝子のセットで捕捉されない第１の構成要素１０５に由来する関連は、正しい可能性がある（さらなる生物学的検証から確認される）。いくつかの事例では、表現型及び特徴発見を予測するための訓練されたモデルの展開は、特徴リコールをベンチマーキングするためのアプローチによって決定されるようなモデルの性能に基づいて実装され得る。例えば、特徴リコールをベンチマーキングするためのアプローチに従って、１つのモデルが別のモデルより優れた性能を備えている場合、より高い性能のモデルが、表現型予測及び特徴発見（例えば、遺伝子発見）のための展開において使用され得る。

【0048】

第２の構成要素１１０は、遺伝子編集をモデリングし、所与の表現型１１５について理想的な遺伝子発現プロファイル１４５を生成するように構成されたモデルアーキテクチャを含む。モデルアーキテクチャは、理想的な遺伝子発現プロファイル１４５を生成するために１つ以上の様々なアプローチ（Ａ）～（Ｎ）を使用するモデラ１５０を含む。理想的な遺伝子発現プロファイル１４５は、表現型１１５を最大化又は最小化するための特徴１４０における全ての遺伝子に対する遺伝子発現の推奨である。次いで、理想的な遺伝子発現プロファイル１４５は、遺伝子編集推奨１５５が、理想的な遺伝子発現プロファイル１４５内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御することであるかどうかを理解するために、植物種についての遺伝子発現の自然に生じる分布と比較され得る。

【0049】

第１のアプローチ（Ａ）は、予測に使用された特徴１４０に対する特徴重要度スコア（例えば、Ｓｈａｐｌｅｙ値）のセットから直接的に遺伝子編集をモデリングするための制御の方向性（上方制御又は下方制御）を確認するモデラ１５０を含む。例えば、深層学習アーキテクチャ１３０上のＸＡＩ機構は、特徴寄与と予測された表現型との間の相関を取得するために、遺伝子発現値（例えば、バイナリ：１＝発現又は０＝非発現）に対して特徴重要度スコア（例えば、Ｓｈａｐｌｅｙ値）のセットをプロットする。この相関は、深層学習アーキテクチャ１３０のコンテキストにおいて、遺伝子などのある特定の特徴が、上方制御又は下方制御を通じて表現型にどのように影響し得るかを決定するために、モデラ１５０によって活用される。例えば、遺伝子（ａ）発現の上方制御は、予測された表現型（Ｉ）に対して正に相関し得るが、一方、遺伝子（ｂ）発現の上方制御は、予測された表現型（Ｉ）に対して負に相関し得る。次いで、モデラ１５０は、確認された制御の方向性（上方制御又は下方制御）に基づいて、所与の表現型１１５について理想的な遺伝子発現プロファイル１４５を生成する。上記の例を続けると、表現型（Ｉ）についての理想的な遺伝子発現プロファイル１４５は、植物内の所与の表現型（Ｉ）の発現に正に寄与するために、遺伝子（ａ）の上方制御（又は遺伝子（ａ）の増加した発現）及び遺伝子（ｂ）の下方制御（又は遺伝子（ｂ）の減少した発現）を含み得る。

【0050】

第２のアプローチ（Ｂ）は、遺伝子編集のモデリングを遺伝子発現最適化問題として扱うモデラ１５０を含む。より具体的には、ベイズ最適化が、遺伝子編集をモデリングするために使用され得る。ベイズ最適化は、目的関数の最小値又は最大値を見つけるために、検索を指示するための探索及び活用の両方を組み込むシーケンシャルサーチフレームワークである。ベイズ最適化の目標は、（ｉ）関数が高い値（所与の表現型と高い相関）を返すことになるため、所与のデータ点がサンプリングに良好な配置であること、及び（ｉｉ）サンプリング後に得られる大量の知識に対応して、リターンの不確実性が非常に大きいため、別の所与のデータ点がサンプリングに良好な配置であること、を決定することになるような関数が根底にある、確率モデルを構築することである。ベイズ最適化アルゴリズムは、２つの構成要素、（ｉ）根底にある関数の確率モデル、及び（ｉｉ）様々なデータ点をサンプリングするための獲得関数を含む。

【0051】

図３Ａ及び図３Ｂに示されるように、確率モデルは、ガウス過程モデル（深層学習アーキテクチャ１３０に関して説明されたような）であり得、根底にある関数は、特徴３１０（例えば、図１に関して説明された特徴１４０）におけるガウス過程関数３０５であり得る。ガウス過程関数３０５を使用して、モデラ１５０は、特徴３１０におけるガウス過程関数３０５の分布を推定し得、これは、次いで、将来のサンプリングを指示するために使用され得る。ガウス過程関数３０５の最良の推定値は、平均μ［ｘ］によって与えられ、不確実性は、分散σ^２［ｘ］によって与えられる。ガウス過程関数３０５及びその不確実性から、モデラ１５０は、獲得関数３１５を使用して、次にサンプリングするべき点を選択し得る。サンプリングは、より多くのサンプルを取得するための獲得関数３１５において、ガウス過程関数３０５に関して既知の全てのことである、事後確率情報の使用を伴う。言い換えると、ガウス過程関数３０５に関して既知の全てのことは、最も利益を生む可能性が高い検索空間のエリアをサンプリングするために使用され、したがって、獲得関数３１５は、検索における場所の条件付き確率を最適化して、次のサンプルを生成することになる。獲得関数３１５は、ガウス過程関数上の各データ点ｘにおいて平均及び分散をとり、この位置で次にサンプリングすることがどの程度望ましいかを示す値を計算する（探索及び活用を考慮して）。いくつかの事例では、獲得関数３１５は、活用と探索との間のトレードオフのバランスをとるためのモデルの調整可能なハイパーパラメータである。獲得関数３１５の例としては、信頼上限、トンプソンサンプリング、期待改善度、及び改善確率が挙げられる。追加のサンプル及びガウス過程関数３０５を介したそれらの評価が収集されると、サンプルがデータセットに追加され、次いで、事後情報が更新される。このプロセスは、ガウス過程関数３０５の極値の位置を特定するか、十分に良好な結果の位置を特定するか、又はリソースが使い果たされるまで繰り返される。反復プロセスが完了すると、モデラ１５０は、ガウス過程関数３０５の決定された極値に基づいて、所与の表現型１１５について理想的な遺伝子発現プロファイル１４５を生成する。

【0052】

図３Ｃは、ベイズ最適化による推奨がＳｈａｐｅｌｙ値と一致することを示す。上図３５０は、形質を最大化するために次のデータ点をサンプリングするためのベイズ最適化による推奨（破線の垂直線）を例示する。下図３５５は、各遺伝子の発現レベルのそのＳＨＡＰ値との相関を例示し、ＳＨＡＰが高いほど、それが形質に寄与する。相関は、形質又は表現型を最大化するために、最初の３つの遺伝子が下方制御されるべきであり、最後の遺伝子が上方制御されるべきであることを示し、これは、上図３５０のベイズ最適化によって提供される推奨と一致する。

【0053】

第３のアプローチ（Ｃ）は、敵対的な例を使用して深層学習アーキテクチャ１３０に対して敵対的攻撃を実施して、遺伝子編集をモデリングするモデラ１５０を含む。敵対的な例は、ニューラルネットワークへの入力であり、これは、ネットワークからの変更された出力を結果的にもたらす。図４に示されるように、敵対的攻撃を実施することは、訓練されたネットワーク４００の重みを凍結することによって最適化問題を反転させること、及び、代わりに、表現型４１０を最大化又は最小化するために入力４０５（敵対的な例）のセットにわたって最適化することを含む。最適化は、（ｉ）パイプラインの遺伝子発見構成要素（すなわち、第１の構成要素１０５）と一致する遺伝子などの、図１に関して説明された特徴１４０を識別することと、（ｉｉ）全ての他の遺伝子発現及び／又はカウント（これは、全てのサンプルにわたる平均遺伝子発現及び／又はカウントであり得る）を保持しながら、表現型４１０を最大化する遺伝子などの特徴１４０の各々の最適な発現及び／又はカウントとして、訓練されたネットワーク４００についての新しい最適化問題を定義することと、（ｉｉｉ）特徴１４０において観察される最大／最小発現及び／又はカウント、生物学的根拠に基づく制約（例えば、遺伝子（ａ）及び遺伝子（ｂ）が、それぞれ、タンパク質による結合のために一緒に発現されなければならないタンパク質及びリガンドを発現する）、実験方法の限界（例えば、ＣＲＩＳＰＲ／Ｃａｓ９は、同時に標的化され得る遺伝子の数に制約を有する）、又はそれらの任意の組み合わせに基づいて、遺伝子発現に対する制約を定義することと、を含む。

【0054】

いくつかの事例では、勾配ベースの最適化技術が、定義された新しい最適化問題に対する解を見つけるためにモデラ１５０によって活用され、それは、ネットワークの重みではなく入力のセットに関する勾配をとる。しかしながら、他の事例では、遺伝子発現に対する制約を定義することが有利であることを考慮すると、差分進化などの離散最適化技術がモデラ１５０によって活用される。差分進化は、所与の品質尺度（例えば、表現型１１５の最大／最小）に関して候補解（例えば、特徴１４０の各々の発現及び／又はカウント）を改善しようと反復的に試みることによって問題を最適化する技術である。図５に示されるように、差分進化アルゴリズム５００は、候補解の集団５０５（個々の）を維持し、特定のプロセスに従って既存の解を組み合わせることによって新しい解を作成することによって、設計空間を検索する。いくつかの事例では、特定のプロセスは、（ｉ）標的ベクトルを選択することと、（ｉｉ）２つの集団メンバーをランダムに選択することと、（ｉｉｉ）２つの集団メンバーに基づいて、重み付き差分ベクトルを構築することと、（ｉｖ）集団メンバーに対して第３のランダムに選択されたベクトルを追加することと、（ｖ）重み付き差分ベクトルと第３のランダムベクトルと標的ベクトルとの間で交差を実施して、新しい目的値（例えば、コスト値）を有する候補を含む試行ベクトルを取得することと、を含み、（ｖｉ）最良の新しい目的値を有する候補は、個々の新しい目的値が改善され、その結果、次世代のための集団５１０の一部を形成し、そうでなければ新しい目的値が破棄される様式で、アルゴリズムの次の反復で保持される。プロセスは、それ自体を、所与の終了基準が満たされるまで繰り返す。反復プロセスが完了すると、モデラ１５０は、敵対的攻撃から決定された最適な入力のセット（遺伝子発現に対応する）に基づいて、所与の表現型１１５に対する理想的な遺伝子発現プロファイル１４５を生成する。

【0055】

図６は、ＤＮＮのＳＨＡＰベースのＸＡＩで同定された遺伝子ＡＴ２Ｇ４５６６０、ＡＴ２Ｇ４５６６０、ＡＴ５Ｇ４４５９０、ＡＴ３Ｇ５２４８０について、敵対ベースのモデリングアプローチを使用して決定された理想的な遺伝子発現プロファイル６００の例を示す。理想的な遺伝子発現プロファイル６００が、線形回帰（linear regression、ＬＲ）モデルのＳＨＡＰベースのＸＡＩで同定された遺伝子ＡＴ２Ｇ４５６６０、ＡＴ２Ｇ４５６６０、ＡＴ５Ｇ４４５９０、ＡＴ３Ｇ５２４８０について、敵対ベースのモデリングアプローチを使用して決定された理想的な遺伝子発現プロファイル６０５に対する比較で示される。また、遺伝子編集推奨が、理想的な遺伝子発現プロファイル６００／６０５内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御することであるかどうかを理解するために、サンプル１～３にわたる植物種についての遺伝子発現の自然に生じる分布に対する理想的な遺伝子発現プロファイル６００／６０５の比較である。この事例では、推奨は、比較に基づいて、ＡＴ５Ｇ４４５９０を上方制御するが、一方で、ＡＴ２Ｇ４５６６０、ＡＴ２Ｇ４５６６０、及びＡＴ３Ｇ５２４８０を下方制御する。

【0056】

理解されるべきであるように、他のモデリングアプローチが企図され、実装され得る。例えば、人工ニューラルネットワーク（artificial neural network、ＡＮＮ）は、遺伝子編集予測のために訓練され得、遺伝子発現プロファイルは、訓練されたＡＮＮを使用して最適化され得る。さらに、本明細書に説明されるモデリングアプローチは、遺伝子編集をモデリングするための単一のアプローチを使用することに焦点を当てているが、これらのアプローチのうちの２つ以上は、アプローチのアンサンブルとして組み合わせて使用され得、結果的に得られる遺伝子発現プロファイルは、理想的な遺伝子発現プロファイルを取得するために選択又は組み合わせられ得る。例えば、全てのモデルは、各試験インスタンスに対して予測（投票）を行い、最終的な出力予測は、投票の過半数を受ける予測である。いずれの予測も投票の過半数を獲得しない場合、アンサンブル法は所与のインスタンスに対して安定した予測を行うことができなかったと決定され得る。あるいは、平均化技術が使用され得、この場合、テストデータセットのインスタンスごとに、平均予測が計算される。重みもまた、１つ以上のモデルの重要度を増加させるために、これらのアンサンブル技術のうちのいずれかにおいて実装され得る。

【0057】

ＩＩＩ．遺伝子発見及び編集システム
図７は、遺伝子発見及び編集システム７００のブロック図を示す。遺伝子発見及び編集システム７００は、本明細書に説明されるシステム、構成要素、及び技術が実装される１つ以上の場所にある１つ以上のコンピューティングデバイス上にコンピュータプログラムとして実装されるシステムの例である。遺伝子発見及び編集システム７００は、植物システム７０５、遺伝子発見システム７０７、遺伝子編集モデリングシステム７１０、及び遺伝子編集システム７１２を含む。

【0058】

植物システム７０５は、植物７１５から開始することによって植物生成ライフサイクルを実行し得る。植物７１５は、植物組織７１７を取得するために、自動化システム、例えば、ロボット制御システムによって、又は手動のいずれかで解剖され得る。次いで、植物組織７１５は、改変された組織７２１を生成するために、ライブラリ７２０を使用して改変され得る。ライブラリ７２０は、試薬の複数のバージョンのコレクション、例えば、代謝経路の多くの異なるバージョンを与えるために組み合わせてアセンブルされたＤＮＡ配列のコレクションである。ライブラリ７２０は、例えば、プラスミド、直鎖状ＤＮＡ断片、合成ガイドＲＮＡ（synthetic guide RNA、ｓｇＲＮＡ）、ＲＮＡ、タンパク質などを含み得る。ライブラリ７２０は、植物の以前のライフサイクル中にモデルから生成された出力から、又は別のソース、例えば、専門家からの手動設計から、ライブラリ７２０のための情報をコンパイルするライブラリ設計システム７２５から生成され得る。

【0059】

改変された組織システム７２２は、例えば、栽培において、改変された組織７２１を新しい植物７２７に成長させ、新しい植物７２７を栽培システム７３０に提供する。栽培システム７３０は、植物７２７が成長する環境条件及び管理実践を指示する環境及び管理実践システム７３２によって支配され得る。栽培システム７３０は、植物７２７が成長するにつれてそれらから組織サンプル及び測定値を取得し、サンプル及び測定値からデータを抽出し、抽出されたデータを環境及び管理実践システム７３２、マルチオミクスシステム７３５、及び／又はモデリングシステム７３７に提供する。データ抽出は、組織サンプリング、分子抽出及び精製、並びに分子定量化又は同定を含み得、植物の任意の又は多数の別個の組織／器官において、成長の様々な時点で、又は植物７２７のライフサイクル全体を通して連続的に起こり得る。環境及び管理実践システム７３２は、抽出されたデータ（栽培システム７３０から受信される場合）、管理実践プロファイルデータ、及び環境条件プロファイルデータを、様々なモデル７４０の開発のためにモデリングシステム７３７に提供する。管理実践プロファイルデータは、様々な成長の時点における、又はプラント７２７のライフサイクル全体を通して連続的な、植物７２７の成長の管理の任意の調整可能な態様、例えば、肥料又は水などの入力、植え付け、施肥、収穫のタイミングなどを含み得る。データ環境条件プロファイルデータは、様々な成長の時点で、又はプラント７２７のライフサイクル全体を通して連続的に、植物７２７が曝露される場所特有の環境条件、例えば、温度、降水量、土壌特性などを含み得る。マルチオミクスシステム７３５は、サンプル及び測定から抽出されたデータを追跡し、抽出されたデータから小型植物のマルチオミクスプロファイル（例えば、遺伝子発現プロファイル）を生成し、様々なモデル７４０の開発のためにマルチオミクスプロファイルをモデリングシステム７３７に提供する。

【0060】

モデリングシステム７３７は、遺伝子発見及び編集システム７００が、次いで、現在の植物７２７の成長及び所望の表現型を有する新しい植物の生成をガイドするために使用し得る、様々なモデル（例えば、機械学習モデル）の開発（例えば、設計、訓練、検証、及び展開）のために受信したデータ（例えば、植物抽出データ、マルチオミクスプロファイル、管理実践プロファイル、環境条件プロファイルなど）を使用する。例えば、モデリングシステム７３７は、訓練又は更新された機械学習モデルを、（ｉ）新しい植物の改変をガイドするためにライブラリ設計システム７２５、（ｉｉ）植物７２７の成長及び管理をガイドするために環境及び管理実践システム７３２、（ｉｉｉ）表現型予測を生成し、遺伝子発見を容易にするために遺伝子発見システム７０７、並びに（ｉｖ）遺伝子編集をモデリングするために遺伝子編集モデリングシステム７１０に提供し、理想的な遺伝子発現プロファイルを生成し、遺伝子編集の推奨を容易にし得る。

【0061】

遺伝子発見システム７０７は、１つ以上の植物（例えば、植物システム７０５で成長している植物７２７）についての入力データ（例えば、植物抽出データ、マルチオミクスシステム７３５からの遺伝子発現プロファイルなどのマルチオミクスプロファイル、管理実践システム７３２からの管理実践プロファイル、環境条件プロファイル）を取得し、データを１つ以上のモデル７５０に入力するための発見コントローラ７４５を含む。入力データは、環境及び管理実践システム７３２、栽培システム７３０、マルチオミクスシステム７３２、及び／又はモデリングシステム７３７から取得され得る。１つ以上のモデル７５０（例えば、図１に関して説明される深層学習アーキテクチャ１３０）は、入力データの特徴（例えば、マルチオミクスプロファイル内の遺伝子発現プロファイル）と表現型との間の関係又は相関を学習することによって、表現型７５２を出力データとして予測するタスクのために構築される。１つ以上のモデル７５０は、モデリングシステム７３７（様々なモデル７４０）から取得され得る。遺伝子発見システム７０７は、説明可能な技術を１つ以上のモデル７５０に適用して、入力データのセット（例えば、遺伝子発現プロファイルのセット）内の全ての予測に関する各特徴の重要度を取得するためのＸＡＩモジュール７５５をさらに含む。いくつかの事例では、入力として遺伝子発現プロファイルを使用する、表現型７５２を予測する１つ以上のモデル７５０は、１つ以上のモデル７５０の出力又は予測に対して最大の寄与又は影響を有する特徴（例えば、１つ以上の遺伝子）を同定するためにＸＡＩモジュール７５５を介して検査される。ＸＡＩモジュール７５５の主な目標は、表現型の決定に重要な役割を果たす遺伝子などの特徴を同定する重要度の尺度（例えば、Ｓｈａｐｌｅｙ値）を定義することである。ＸＡＩモジュール７５５は、その特定の植物種及び表現型についての分子制御プロセスに関与する候補遺伝子であり得る特徴のセット７５７を出力し、遺伝子編集をモデリングするために遺伝子編集モデリングシステム７１０によって使用される。

【0062】

遺伝子編集モデリングシステム７１０は、表現型７５２及び特徴のセット７５７を取得し、表現型７５２及び特徴のセット７５７を１つ以上のモデル７６２に入力するためのモデリングコントローラ７６０を含む。１つ以上のモデル７６２は、モデリングシステム７３７（様々なモデル７４０）から取得され得る。１つ以上のモデル７６２（例えば、図１に関して説明されるモデラ１５０）は、遺伝子編集をモデリングし、理想的な遺伝子発現プロファイル７６５を生成するために、１つ以上の様々なアプローチ（Ａ）～（Ｎ）を使用する。理想的な遺伝子発現プロファイル７６５は、表現型７５２を最大化、最小化、又はそうでなければ調節するための特徴のセット７５７内の全ての遺伝子に対する遺伝子発現の推奨である。遺伝子編集モデリングシステム７１０は、遺伝子編集システム７１２によって使用され得る遺伝子編集推奨７７５を決定するために、理想的な遺伝子発現プロファイル７６５を植物種についての遺伝子発現の自然に生じる分布（例えば、マルチオミクスプロファイル内の遺伝子発現）と比較するための推奨モジュール７７０をさらに含む。推奨７７５は、理想的な遺伝子発現プロファイル７６５内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するためのものであり得る。いくつかの事例では、推奨モジュール７７０は、理想的な遺伝子発現プロファイル７６５に基づいて遺伝子の発現を調節することになる編集をどこで行うかを決定するために１つ以上のモデル７７２を使用する。これらは、複数の塩基対の領域であり得、これらの領域に対してどのようにコンビナトリアル編集を行うかについての戦略、又は特定の編集が決定された正確な場所を潜在的に有する。１つ以上のモデル７７２は、遺伝的に多様な植物集団から集められた標的遺伝子のゲノムコンテキストから標的遺伝子の発現レベルを予測するニューラルネットワーク又は非線形モデルであり得る。１つ以上のモデル７７２は、対応する発現値と組み合わせて、標的遺伝子のコンテキストを考慮して、以下の集団データのうちのいずれかに対して訓練され得る：ゲノム配列、ＳＮＰ、メチローム、クロマチンアクセシビリティなど。ゲノム編集の推奨は、１つ以上のモデル７７２の入力特徴アブレーション解析とともに特徴重要度の調査に続いて、標的遺伝子の発現レベルから抽出され得る。

【0063】

遺伝子編集システム７１２は、推奨７７５に従って、所与の植物種（例えば、植物７２７）のゲノムに対して遺伝子編集又は摂動を行う。遺伝子編集システムの例としては、ＣＲＩＳＰＲ／Ｃａｓ９、ＣＲＩＳＰＲ／Ｃｐｆ１、ＣＲＩＳＰＲ／Ｃａｓ１２、ＣＲＩＳＰＲ塩基編集、ＣＲＩＳＰＲ阻害、制限酵素、ジンクフィンガヌクレアーゼ、転写活性化因子様エフェクタヌクレアーゼ（ＴＡＬＥＮ）などが挙げられる。例えば、遺伝子編集システム７１２は、１つ以上の標的遺伝子の遺伝子制御ゲノム領域（プロモータ、５’ＵＴＲ、３’ＵＴＲ、ターミネータ）において、それらの発現を改変（上方制御又は下方制御）するために、１つ以上のコンビナトリアル編集（「バッシング」）を行い得る。追加的又は代替的に、遺伝子編集システム７１２は、１つ以上の標的遺伝子の転写因子の結合部位に対して、発現に対するそれらの効果を調節（上方制御又は下方制御）するために、１つ以上の特定のコンビナトリアル編集を行い得る。追加的又は代替的に、遺伝子編集システム７１２は、遺伝子操作を介して、１つ以上の標的遺伝子の発現に影響（上方制御又は下方制御）し得る、ゲノム上の任意の他の領域の１つ以上のゲノム改変を行い得る。追加的又は代替的に、遺伝子編集システム７１２は、ＣＲＩＳＰＲｉ（標的阻害）、ＣＲＩＳＰＲａ（標的活性化）、ＲＮＡｉなどのように、ゲノム改変を伴わずに、１つ以上の標的遺伝子の発現を調節（上方制御又は下方制御）し得る。システムはまた、システム７１０によって決定された編集が集団において既にアクセス可能である場合、交差を行うこともできる。次いで、所与の植物種の改変されたゲノムは、ライブラリ７２０及び改変された組織システム７２２による使用のためにライブラリ設計システム７２５に送られて、例えば、栽培において、改変されたゲノムからの改変された組織を新しい植物に成長させ得る。

【0064】

ＩＶ．遺伝子発見及び編集技術
図８は、遺伝子発見及び編集のための処理の例を例示する簡略化されたフローチャート８００である。図８に図示される処理は、それぞれのシステム、ハードウェア、又はそれらの組み合わせの１つ以上の処理ユニット（例えば、プロセッサ、コア）によって実行されたソフトウェア（例えば、コード、命令、プログラム）において実装され得る。ソフトウェアは、非一時的記憶媒体（例えば、メモリデバイス）に記憶され得る。図８に提示され、以下に説明される方法は、例示的であり、非限定的であることが意図されている。図８は、特定のシーケンス又は順序で起こる様々な処理ステップを図示するが、これは、限定を意図するものではない。ある特定の代替的な実施形態では、ステップは、いくつかの異なる順序で実施されてもよく、又はいくつかのステップは、並行して実施されてもよい。図１及び図７に図示される実施形態などのいくつかの実施形態では、図８に図示される処理は、図１及び図７に関して説明される機械学習パイプライン１００並びに／又は遺伝子発見及び編集システム７００の構成要素によって実施され得る。

【0065】

プロセス８００は、遺伝子発現プロファイルの訓練セットが、植物の組織サンプルにおいて測定された遺伝子のセットについて取得される、ブロック８０５で始まる。ブロック８１０では、遺伝子発現プロファイルの訓練セットが、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、反復的に入力される。ブロック８１５では、予測モデルが、損失又は誤差関数を最小化することによって、遺伝子発現プロファイルの訓練セットに対して訓練される。いくつかの実施形態では、予測モデルは、フィードフォワードニューラルネットワークなどの深層ニューラルネットワークである。他の実施形態では、予測モデルは、ガウス過程モデルなどの別のタイプの非線形モデルである。予測モデルのための訓練プロセスの各反復は、訓練及び／又は調整セットからデータセットを入力することと、モデルパラメータのセットを使用する損失又は誤差関数（例えば、改変された交差エントロピー損失）の値が、以前の反復における異なるモデルパラメータのセットを使用する損失又は誤差関数の値よりも小さくなるように、モデルパラメータのセット（定義されたハイパーパラメータのセットで構成された）を学習することと、を伴い得る。損失又は誤差関数は、ラベル／グラウンドトゥルースと、遺伝子発現プロファイルの訓練セットに対する推論された表現型などの推論されたデータとの間の差を測定するために構築され得る。

【0066】

ブロック８２０では、訓練に応答して、非線形アルゴリズムは、植物の表現型を予測するために使用される遺伝子発現プロファイルの訓練セット内の関係及び相関を学習する。追加的に、訓練に応答して、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関と関連付けられた学習されたモデルパラメータのセットが、予測モデルのために取得される。ブロック８２５では、訓練された予測モデルは、学習されたモデルパラメータのセットを有する予測モデルとして展開される。

【0067】

ブロック８３０では、遺伝子発現プロファイルのセットが、植物の組織において測定された遺伝子のセットについて取得される。ブロック８３５では、遺伝子発現プロファイルのセットは、出力データとして表現型を予測するタスクのために構築された予測モデルに、入力される。ブロック８４０では、予測モデルが、遺伝子発現プロファイルのセットの特徴と表現型との間の関係又は相関に基づいて、植物についての表現型の予測を生成するために使用される。ブロック８４５では、表現型を予測するために予測モデルによってなされた決定が、説明可能な人工知能システムによって解析され、解析することが、（ｉ）表現型の予測で使用される特徴についての特徴重要度スコアのセットを生成することと、（ｉｉ）特徴の各々と関連付けられた特徴重要度スコアに基づいて、特徴をランク付けするか又はそうでなければソートすることと、を含む。説明可能な人工知能システムは、予測モデルによってなされた決定を解析するために、ＳＨＡＰ、統合勾配、ＬＩＭＥ、アテンションベースのニューラルネットワークモデル、又はＬＲＰを使用し得る。ブロック８５０では、予測に対して最大の寄与又は影響を有する表現型についての候補遺伝子標的のセットが、ランク付けされた特徴に基づいて同定され、例えば、予測に対して最大の寄与又は影響を有する上位１、５、１０、１５などの遺伝子が、ランク付けされた特徴に基づいて候補遺伝子標的として同定される。

【0068】

ブロック８５５では、編集されたときに、期待される表現型変化を実現するために遺伝子発現プロファイルにおいて必要な変化を提供する、同定された候補遺伝子標的のセットに基づいて、ゲノム領域のセットが同定される。ゲノム領域のセットを同定することは、候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに候補遺伝子標的のセットを入力することと、モデリングされた遺伝子編集に基づいて、候補遺伝子標的のセット内の各遺伝子をゲノム編集し、したがって、表現型を最大化、最小化、又はそうでなければ調節するための最適な遺伝子標的のセットを同定することと、を含む。ブロック８６０では、遺伝子編集モデルが、候補遺伝子標的のセット内の各遺伝子をゲノム編集するための最適な遺伝子標的のセットに基づいて、表現型のための理想的な遺伝子発現プロファイルを生成するために使用される。説明可能な人工知能システムがＳＨＡＰを使用する事例では、遺伝子編集モデルは、Ｓｈａｐｌｅｙ値から直接的に制御の方向性を確認することによって遺伝子編集をモデリングし得る。予測モデルがガウス過程モデルである事例では、遺伝子編集モデルは、２つの構成要素、（ｉ）根底にあるガウス過程関数のガウス過程モデル、及び（ｉｉ）様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して遺伝子編集をモデリングし得る。予測モデルが深層ニューラルネットワークである事例では、遺伝子編集モデルは、深層ニューラルネットワークに対して敵対的攻撃を実施することによって遺伝子編集をモデリングし得、敵対的攻撃が、深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって表現型を最大化、最小化、又はそうでなければ調節するように最適化することと、を含む。

【0069】

ブロック８６５では、理想的な遺伝子発現プロファイルが、植物についての遺伝子発現の自然に生じる分布と比較される。ブロック８７０では、理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨が、既存のサンプルにわたる推奨される発現プロファイルと自然に生じる発現プロファイルとの間の比較に基づいて決定される。ブロック８７５では、遺伝子編集システムが、遺伝子編集推奨に従って植物のゲノムに対して遺伝子編集又は摂動を行うために使用される。

【0070】

図９は、所与の表現型について重要な遺伝子セット又はクラスタを同定するための処理の例を例示する簡略化されたフローチャート９００である。この例示的なプロセスでは、所与の表現型の予測において有意である遺伝子のセット又はクラスタは、深層ニューラルネットワークの第２の層におけるＳＨＡＰ／ＸＡＩ値の解釈を介して同定される。しかしながら、本明細書に説明される全ての他のＸＡＩ及びモデリング技術（例えば、ＬＩＭＥ、統合勾配、ベイズ最適化、敵対的攻撃など）は、単一の遺伝子情報に対して直接的に適用される代わりに、このクラスタリング技術を用いて同様の様式で適用され得ることが理解されるべきである。図９に図示される処理は、それぞれのシステム、ハードウェア、又はそれらの組み合わせの１つ以上の処理ユニット（例えば、プロセッサ、コア）によって実行されたソフトウェア（例えば、コード、命令、プログラム）において実装され得る。ソフトウェアは、非一時的記憶媒体（例えば、メモリデバイス）に記憶され得る。図９に提示され、以下に説明される方法は、例示的であり、非限定的であることが意図されている。図９は、特定のシーケンス又は順序で起こる様々な処理ステップを図示するが、これは、限定を意図するものではない。ある特定の代替的な実施形態では、ステップは、いくつかの異なる順序で実施されてもよく、又はいくつかのステップは、並行して実施されてもよい。図１及び図７に図示される実施形態などのいくつかの実施形態では、図９に図示される処理は、図１及び図７に関して説明される機械学習パイプライン１００並びに／又は遺伝子発見及び編集システム７００の構成要素によって実施され得る。

【0071】

プロセス９００は、遺伝子発現プロファイルの訓練セットが、植物の組織サンプルにおいて測定された遺伝子のセットについて取得される、ブロック９０５で始まる。ブロック９１０では、遺伝子発現プロファイルの訓練セットが、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された深層ニューラルネットワークモデル（例えば、フィードフォワードニューラルネットワークモデル）に、反復的に入力される。ブロック９１５では、深層ニューラルネットワークモデルが、損失又は誤差関数を最小化することによって、遺伝子発現プロファイルの訓練セットに対して訓練される。深層ニューラルネットワークモデルのための訓練プロセスの各反復は、訓練及び／又は調整セットからデータセットを入力することと、モデルパラメータのセットを使用する損失又は誤差関数（例えば、改変された交差エントロピー損失）の値が、以前の反復における異なるモデルパラメータのセットを使用する損失又は誤差関数の値よりも小さくなるように、モデルパラメータのセット（定義されたハイパーパラメータのセットで構成された）を学習することと、を伴い得る。損失又は誤差関数は、ラベル／グラウンドトゥルースと、遺伝子発現プロファイルの訓練セットに対する推論された表現型などの推論されたデータとの間の差を測定するために構築され得る。

【0072】

ブロック９２０では、訓練に応答して、非線形アルゴリズムは、植物の表現型を予測するために使用される遺伝子発現プロファイルの訓練セット内の関係及び相関を学習する。追加的に、訓練に応答して、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関と関連付けられた学習されたモデルパラメータのセットが、深層ニューラルネットワークモデルのために取得される。

【0073】

ブロック９２５では、訓練された深層ニューラルネットワークモデルは、所与の表現型に対する重要な遺伝子のクラスタ又はセットを同定するために改変される。いくつかの事例では、Ｎ個の層及び入力次元Ｄ（ここで、Ｄは、発現情報が取得された遺伝子の数である）を伴う訓練された深層ニューラルネットワークモデルが与えられると、深層ニューラルネットワークモデル内の第１の隠れ層が分離され、第１の隠れ層の各ノードと関連付けられた重み又はモデルパラメータのセットが深層ニューラルネットワークモデルから抽出され得る。第１の隠れ層内の各ノードについて、各重みベクトルの上位Ｋ個の構成要素（絶対値）をとることによって、元の入力層内のノードとのクラスタ関係が定義され、Ｋは、クラスタの理想的なサイズであると定義される。第１の隠れ層内の各ノード（活性化ステップの前）は、入力の線形結合によって表され得るため、このクラスタリング機構は、第１の隠れ層内の各ノードから、第１の隠れ層内のノードに対して最も強い影響を有する遺伝子のセットへのマップを直観的に作成する。その特定のノードに対応する重みの分布に基づいて隠れ層のノードごとに固有のｋを柔軟に定義する方法、又は上位クラスタ内の遺伝子をとる、重み自体に対する別個のクラスタリングステップを含む、上位ｋを越える代替的なクラスタリングが、このマッピングを作成するために使用され得る。

【0074】

第１の隠れ層における各ノードと入力空間におけるその対応する遺伝子との間にマッピングが作成されると、深層ニューラルネットワークモードの入力層が除去され得、ＳＨＡＰなどのＸＡＩ又は統合勾配が、ニューラルネットワークに対する特徴重要度スコアを取得するために、下流処理で使用され得る。深層ニューラルネットワークの第１の隠れ層が入力層になるため、特徴重要度スコアのセットが、第１の隠れ層内の全ての単一ノードごとに取得される。第１の隠れ層内の全ての単一ノードごとに取得された特徴重要度スコアのセットは、第１の隠れ層内のノードの元の遺伝子へのマッピングと結合されて、これらの遺伝子のクラスタ又はセットについての特徴重要度スコアのセットを得ることができる。

【0075】

ブロック９３０では、改変された深層ニューラルネットワークモデルは、モデルパラメータの学習されたセットと、元の遺伝子への第１の隠れ層内のノードのマッピングとを有する深層ニューラルネットワークモデルとして展開される。ブロック９３５では、改変された深層ニューラルネットワークモデルは、図８のブロック８３０～８７０に関して説明されるように、遺伝子発見及び編集のために使用され得る。

【0076】

Ｖ．実施例
様々な実施形態で実装されるシステム及び方法は、以下の例を参照することによってより良好に理解され得る。

【0077】

実施例１：シーケンシャルニューラルネットワークを構築して、シロイヌナズナ（Arabidopsis thaliana）の自然遺伝的変異体系統が生殖期に達するのにかかる時間（開花までの時間）をモデリングした。一例では、モデルを、葉から収集された公的に入手可能なトランスクリプトームに対して訓練した（Kawakatsu et al., 2016, Cell, 166(2):492-505）。トランスクリプトームデータは、７２８個の天然遺伝的変異体について利用可能であり、そのうちの６２０個は、開花時期情報（抽苔開始日数）を保有していた。トランスクリプトームデータを、ＲＮＡ－ｓｅｑによって実験的に生成し、分位数を正規化し、その後、元の２４，１７５個の転写物カウント（特徴）を単位分散に標準化することによって前処理した。ホールドアウトデータセットを、モデル訓練の前に作成し、これは、元のデータの２０％を含有した。データの残りの８０％を使用してモデルを訓練した。これらは、（１）リッジ回帰モデルと、（２）ＡｕｔｏＫｅｒａｓ実装のアルゴリズムによって調整されたハイパーパラメータを有する多数のシーケンシャルニューラルネットワークと、を含んだ（Ｊｉｎｅｔａｌ．，２０１９，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ＆ＤａｔａＭｉｎｉｎｇ（ｐｐ．１９４６－１９５６））。２０％検証データセットに対する最小平均二乗誤差として測定された最高性能のニューラルネットワークモデルアーキテクチャを、その後、完全なデータセットに対して交差検証した。ピアソン相関及びスピアマン順位相関係数を平均して、同じホールドアウトデータセットに対するモデルの性能を比較した。ＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓを適用した後に取得された特徴重要度スコアを、データの異なる分割に対して訓練されたモデルにわたって平均し、その後、ランクソートした。モデルが影響力のある遺伝子のセットを同定した程度を、関心対象の表現型に関与することが科学文献において知られている遺伝子のリストに対してベンチマークした。モデルからの出力としての上位の影響力のある遺伝子の、提案された変化の方向性を含む発現レベルの推奨を、表現型値との相関解析によってさらに確認した。遺伝子発現における変化の方向性に影響するゲノム編集を、標的遺伝子の配列を取り囲む制御配列のモデリングに基づいて提案し、ＣｈＩＰ－ｓｅｑ及びエピゲノムマークなどのクロマチンアクセシビリティ情報を追加的に組み込んだ。遺伝子編集のために提案された制御領域を、シロイヌナズナ（Ａｒａｂｉｄｏｐｓｉｓ）におけるコンビナトリアルＣＲＩＳＰＲ／Ｃａｓ９編集による遺伝子改変の標的とした。このプロセスは、シロイヌナズナ（Ａｒａｂｉｄｏｐｓｉｓ）の集団における標的遺伝子の制御領域において大規模な遺伝的変異を生じる。これらの集団からの分子及び表現型データのさらなる獲得は、現在のモデルの組の性能を反復的に改善することが期待される。

【0078】

ＶＩ．追加の考慮事項
具体的な詳細は、実施形態の完全な理解を提供するために、上記の説明に与えられている。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解される。例えば、回路は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図で示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。

【0079】

上記に説明された技術、ブロック、ステップ、及び手段の実装は、様々な方式で行われ得る。例えば、これらの技術、ブロック、ステップ、及び手段は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る。ハードウェア実装の場合、処理ユニットは、１つ以上の特定用途向け集積回路（application specific integrated circuit、ＡＳＩＣ）、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、デジタル信号処理デバイス（digital signal processing device、ＤＳＰＤ）、プログラマブル論理デバイス（programmable logic device、ＰＬＤ）、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、上記に説明された機能を実施するように設計された他の電子ユニット、及び／又はそれらの組み合わせの中に実装され得る。

【0080】

また、実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として図示されるプロセスとして説明され得ることに留意されたい。フローチャートは、順次プロセスとして動作を説明し得るが、動作の多くは、並列又は同時に実施されてもよい。加えて、動作の順番は、再配置されてもよい。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加のステップを有してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、呼び出し関数又はメイン関数への関数のリターンに対応する。

【0081】

さらに、実施形態は、ハードウェア、ソフトウェア、スクリプト言語、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、及び／又はそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、スクリプト言語、及び／又はマイクロコードに実装されるとき、必要なタスクを実施するためのプログラムコード又はコードセグメントは、記憶媒体などの機械可読媒体に記憶され得る。コードセグメント又は機械実行可能命令は、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、スクリプト、クラス、又は命令、データ構造、及び／若しくはプログラムステートメントの任意の組み合わせを表し得る。コードセグメントは、情報、データ、引数、パラメータ、及び／又はメモリ内容を渡す及び／又は受信することによって、別のコードセグメント又はハードウェア回路に結合され得る。情報、引数、パラメータ、データなどは、メモリ共有、メッセージ通過、チケット通過、ネットワーク伝送などを含む任意の好適な手段を介して渡されるか、転送されるか、又は送信され得る。

【0082】

ファームウェア及び／又はソフトウェア実装では、方法論は、本明細書に説明される機能を実施するモジュール（例えば、手順、機能など）を用いて実装され得る。命令を有形で具現化する任意の機械可読媒体が、本明細書に説明される方法論を実装する際に使用され得る。例えば、ソフトウェアコードは、メモリ内に記憶され得る。メモリは、プロセッサ内又はプロセッサの外部に実装され得る。本明細書で使用される場合、「メモリ」という用語は、任意のタイプの長期、短期、揮発性、不揮発性、又は他の記憶媒体を指し、任意の特定のタイプのメモリ若しくはメモリの数、又はメモリが記憶される媒体のタイプに限定されるものではない。

【0083】

さらに、本明細書に開示されるように、「記憶媒体」、「記憶」、又は「メモリ」という用語は、読み出し専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（random access memory、ＲＡＭ）、磁気ＲＡＭ、コアメモリ、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、及び／又は情報を記憶するための他の機械可読媒体を含む、データを記憶するための１つ以上のメモリを表し得る。「機械可読媒体」という用語は、限定されるものではないが、ポータブル若しくは固定記憶デバイス、光学記憶デバイス、無線チャネル、並びに／又は命令及び／若しくはデータを含有若しくは担持する、記憶することができる様々な他の記憶媒体を含む。

【0084】

本開示の原理は、特定の装置及び方法と関連して上記に説明されてきたが、この説明は、単に例としてなされ、本開示の範囲に対する限定ではないことを明確に理解されたい。

【図1】