(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-17
(54)【発明の名称】植物における機械学習駆動型遺伝子発見及び遺伝子編集
(51)【国際特許分類】
C12N 15/09 20060101AFI20240410BHJP
G06N 5/045 20230101ALI20240410BHJP
C12Q 1/68 20180101ALI20240410BHJP
【FI】
C12N15/09 Z
G06N5/045
C12Q1/68
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023556475
(86)(22)【出願日】2021-11-24
(85)【翻訳文提出日】2023-11-01
(86)【国際出願番号】 US2021060694
(87)【国際公開番号】W WO2022197336
(87)【国際公開日】2022-09-22
(32)【優先日】2021-03-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516326438
【氏名又は名称】エックス デベロップメント エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100126480
【氏名又は名称】佐藤 睦
(72)【発明者】
【氏名】ザムフト,ブラッドリー
(72)【発明者】
【氏名】シン,ヴィカシュ
(72)【発明者】
【氏名】ヴォージュ,マティアス
(72)【発明者】
【氏名】グエン,ソン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA08
4B063QA13
4B063QA17
4B063QQ09
4B063QQ43
4B063QR08
4B063QR42
4B063QR55
4B063QR62
4B063QS34
4B063QX02
(57)【要約】
【課題】 本開示は、遺伝子発見のための機構として、説明可能な機械学習方法及び特徴重要性機構を活用すること、さらに、遺伝子発見の出力を活用して、理想的な遺伝子発現プロファイル、及び、所望の表現型につながる必要なゲノム編集を推奨することに関する。
【解決手段】本開示の態様は、植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、遺伝子発現プロファイルを、出力データとして表現型を予測するタスクのために構築された予測モデルに、入力することと、予測モデルを使用して、植物についての表現型の予測を生成することと、説明可能な人工知能システムによって、表現型を予測するために予測モデルによってなされた決定を解析することと、解析に基づいて、予測に対して最大の寄与又は影響を有するものとして、表現型に対する候補遺伝子標的のセットを同定することと、を対象とする。
【選択図】
図8
【特許請求の範囲】
【請求項1】
方法であって、
植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、
遺伝子発現プロファイルの特徴と前記表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、前記遺伝子発現プロファイルのセットを入力することと、
前記予測モデルを使用して、前記遺伝子発現プロファイルのセットの前記特徴と前記表現型との間の前記関係又は前記相関に基づいて、前記植物についての前記表現型の前記予測を生成することと、
説明可能な人工知能システムによって、前記表現型を予測するために前記予測モデルによってなされた決定を解析することであって、前記解析することが、(i)前記表現型の前記予測で使用される前記特徴についての特徴重要度スコアのセットを生成することと、(ii)前記特徴の各々と関連付けられた前記特徴重要度スコアに基づいて、前記特徴をランク付けするか又はそうでなければソートすることと、を含む、前記予測モデルによってなされた決定を解析することと、
前記ランク付けされた又はそうでなければソートされた特徴に基づいて、前記予測に対して最大の寄与又は影響を有するものとして、前記表現型に対する候補遺伝子標的のセットを同定することと、
前記同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、
を含む、方法。
【請求項2】
前記説明可能な人工知能システムが、前記予測モデルによってなされた前記決定を解析するために、SHapley Additive exPlanations、DeepLIFT、統合勾配、Local Interpretable Model-agnostic Explanations(LIME)、アテンションベースのニューラルネットワークモデル、又はLayer-wise Relevance Propagationを使用する、請求項1に記載の方法。
【請求項3】
前記ゲノム領域のセットを前記同定することが、前記候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに、前記候補遺伝子標的のセットを入力することと、前記モデリングされた遺伝子編集に基づいて、前記候補遺伝子標的のセット内の1つ以上の遺伝子をゲノム編集し、前記表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、
前記遺伝子編集モデルを使用して、前記候補遺伝子標的のセット内の1つ以上の遺伝子の前記ゲノム編集のための前記最適な遺伝子標的に基づいて、前記表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む、請求項1に記載の方法。
【請求項4】
前記説明可能な人工知能システムが、前記表現型の前記予測で使用される前記特徴に対する前記特徴重要度スコアとしてShapley値のセットを生成するSHapley Additive exPlanationsを使用し、
前記Shapley値が、各特徴重要度及び方向の推定値を表し、
前記遺伝子編集モデルが、前記Shapley値から直接的に制御の方向性を確認することによって前記遺伝子編集をモデリングする、請求項3に記載の方法。
【請求項5】
前記予測モデルが、ガウス過程モデルであり、
前記遺伝子編集モデルが、2つの構成要素、(i)根底にあるガウス過程関数の前記ガウス過程モデル、及び(ii)様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して前記遺伝子編集をモデリングする、請求項3に記載の方法。
【請求項6】
前記予測モデルが、深層ニューラルネットワークであり、
前記遺伝子編集モデルが、前記深層ニューラルネットワークに対して敵対的攻撃を実施することによって前記遺伝子編集をモデリングし、前記敵対的攻撃が、前記深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって前記表現型を最大化又は最小化するように最適化することと、を含む、請求項3に記載の方法。
【請求項7】
前記理想的な遺伝子発現プロファイルを、前記植物についての遺伝子発現の自然に生じる分布と比較することと、
前記比較に基づいて、前記理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、
遺伝子編集システムを使用して、前記遺伝子編集推奨に従って前記植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む、請求項3に記載の方法。
【請求項8】
非一時的機械可読記憶媒体で有形に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、アクションを実施させるように構成された命令を含み、前記アクションが、
植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、
遺伝子発現プロファイルの特徴と前記表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、前記遺伝子発現プロファイルのセットを入力することと、
前記予測モデルを使用して、前記遺伝子発現プロファイルのセットの前記特徴と前記表現型との間の前記関係又は前記相関に基づいて、前記植物についての前記表現型の前記予測を生成することと、
説明可能な人工知能システムによって、前記表現型を予測するために前記予測モデルによってなされた決定を解析することであって、前記解析することが、(i)前記表現型の前記予測で使用される前記特徴についての特徴重要度スコアのセットを生成することと、(ii)前記特徴の各々と関連付けられた前記特徴重要度スコアに基づいて、前記特徴をランク付けするか又はそうでなければソートすることと、を含む、前記予測モデルによってなされた決定を解析することと、
前記ランク付けされた又はそうでなければソートされた特徴に基づいて、前記予測に対して最大の寄与又は影響を有するものとして、前記表現型に対する候補遺伝子標的のセットを同定することと、
前記同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、
を含む、コンピュータプログラム製品。
【請求項9】
前記説明可能な人工知能システムが、前記予測モデルによってなされた前記決定を解析するために、SHapley Additive exPlanations、DeepLIFT、統合勾配、Local Interpretable Model-agnostic Explanations(LIME)、アテンションベースのニューラルネットワークモデル、又はLayer-wise Relevance Propagationを使用する、請求項8に記載のコンピュータプログラム製品。
【請求項10】
前記アクションが、
前記ゲノム領域のセットを前記同定することが、前記候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに前記候補遺伝子標的のセットを入力することと、前記モデリングされた遺伝子編集に基づいて、前記候補遺伝子標的のセット内の1つ以上の遺伝子をゲノム編集し、前記表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、
前記遺伝子編集モデルを使用して、前記候補遺伝子標的のセット内の1つ以上の遺伝子を前記ゲノム編集するための前記最適な遺伝子標的に基づいて、前記表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む、請求項8に記載のコンピュータプログラム製品。
【請求項11】
前記説明可能な人工知能システムが、前記表現型の前記予測で使用される前記特徴に対する前記特徴重要度スコアとしてShapley値のセットを生成するSHapley Additive exPlanationsを使用し、
前記Shapley値が、各特徴重要度及び方向の推定値を表し、
前記遺伝子編集モデルが、前記Shapley値から直接的に制御の方向性を確認することによって前記遺伝子編集をモデリングする、請求項10に記載のコンピュータプログラム製品。
【請求項12】
前記予測モデルが、ガウス過程モデルであり、
前記遺伝子編集モデルが、2つの構成要素、(i)根底にあるガウス過程関数の前記ガウス過程モデル、及び(ii)様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して前記遺伝子編集をモデリングする、請求項10に記載のコンピュータプログラム製品。
【請求項13】
前記予測モデルが、深層ニューラルネットワークであり、
前記遺伝子編集モデルが、前記深層ニューラルネットワークに対して敵対的攻撃を実施することによって前記遺伝子編集をモデリングし、前記敵対的攻撃が、前記深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって前記表現型を最大化又は最小化するように最適化することと、を含む、請求項10に記載のコンピュータプログラム製品。
【請求項14】
前記アクションが、
前記理想的な遺伝子発現プロファイルを、前記植物についての遺伝子発現の自然に生じる分布と比較することと、
前記比較に基づいて、前記理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、
遺伝子編集システムを使用して、前記遺伝子編集推奨に従って前記植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む、請求項10に記載のコンピュータプログラム製品。
【請求項15】
システムであって、
1つ以上のデータプロセッサと、
前記1つ以上のデータプロセッサ上で実行されたときに、前記1つ以上のデータプロセッサにアクションを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を備え、前記アクションが、
植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、
遺伝子発現プロファイルの特徴と前記表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、前記遺伝子発現プロファイルのセットを入力することと、
前記予測モデルを使用して、前記遺伝子発現プロファイルのセットの前記特徴と前記表現型との間の前記関係又は前記相関に基づいて、前記植物についての前記表現型の前記予測を生成することと、
説明可能な人工知能システムによって、前記表現型を予測するために前記予測モデルによってなされた決定を解析することであって、前記解析することが、(i)前記表現型の前記予測で使用される前記特徴についての特徴重要度スコアのセットを生成することと、(ii)前記特徴の各々と関連付けられた前記特徴重要度スコアに基づいて、前記特徴をランク付けするか又はそうでなければソートすることと、を含む、前記予測モデルによってなされた決定を解析することと、
前記ランク付けされた又はそうでなければソートされた特徴に基づいて、前記予測に対して最大の寄与又は影響を有するものとして、前記表現型に対する候補遺伝子標的のセットを同定することと、
前記同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、を含む、システム。
【請求項16】
前記アクションが、
前記ゲノム領域のセットを前記同定することが、前記候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに前記候補遺伝子標的のセットを入力することと、前記モデリングされた遺伝子編集に基づいて、前記候補遺伝子標的のセット内の1つ以上の遺伝子をゲノム編集し、前記表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、
前記遺伝子編集モデルを使用して、前記候補遺伝子標的のセット内の1つ以上の遺伝子を前記ゲノム編集するための前記最適な遺伝子標的に基づいて、前記表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む、請求項15に記載のシステム。
【請求項17】
前記説明可能な人工知能システムが、前記表現型の前記予測で使用される前記特徴に対する前記特徴重要度スコアとしてShapley値のセットを生成するSHapley Additive exPlanationsを使用し、
前記Shapley値が、各特徴重要度及び方向の推定値を表し、
前記遺伝子編集モデルが、前記Shapley値から直接的に制御の方向性を確認することによって前記遺伝子編集をモデリングする、請求項16に記載のシステム。
【請求項18】
前記予測モデルが、ガウス過程モデルであり、
前記遺伝子編集モデルが、2つの構成要素、(i)根底にあるガウス過程関数の前記ガウス過程モデル、及び(ii)様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して前記遺伝子編集をモデリングする、請求項16に記載のシステム。
【請求項19】
前記予測モデルが、深層ニューラルネットワークであり、
前記遺伝子編集モデルが、前記深層ニューラルネットワークに対して敵対的攻撃を実施することによって前記遺伝子編集をモデリングし、前記敵対的攻撃が、前記深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって前記表現型を最大化又は最小化するように最適化することと、を含む、請求項16に記載のシステム。
【請求項20】
前記アクションが、
前記理想的な遺伝子発現プロファイルを、前記植物についての遺伝子発現の自然に生じる分布と比較することと、
前記比較に基づいて、前記理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、
遺伝子編集システムを使用して、前記遺伝子編集推奨に従って前記植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む、請求項16に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年3月19日出願の米国特許出願第17/207,169号の利益及び優先権を主張し、これは、全ての目的のために参照によりその全体が本明細書に組み込まれる。
【0002】
(発明の分野)
本開示は、植物ゲノム編集に関し、特に、遺伝子発見のための機構として、説明可能な機械学習方法及び特徴重要性機構(ニューラルネットワーク及び他の非線形モデルの両方で)を活用すること、さらに、これらの遺伝子発見モデルの出力を活用して、所望の表現型につながる、必要なゲノム編集を含む、理想的な遺伝子発現プロファイルを推奨することに関する。
【背景技術】
【0003】
遺伝的多様性は、主に性的組換え及び突然変異誘発の機能であり、植物における形質改善の重要な手段である。例えば、植物の遺伝資源における遺伝的多様性は、植物育種家が、農業従事者に好まれる形質(例えば、高い生産力、大きい種子など)及び育種家に好まれる形質(例えば、害虫及び病害抵抗性並びに感光性など)の両方を含む、所望の特性を有する新規の栽培品種や改善された栽培品種を開発する機会を提供する。数千年にわたって、植物栽培化は、進化力(例えば、選択、突然変異、移入、遺伝的浮動など)を介した天然の遺伝的変異性に依存して、好ましい遺伝的変化を選択していた。植物栽培化又は人工選択は、他の対立遺伝子を犠牲にして少数の対立遺伝子に有利に働き、選択された対立遺伝子の増加した頻度を結果的にもたらす。その結果、植物栽培化は、野生型における多様性と比較したとき、遺伝的多様性を低減する。さらに、進化力に起因する遺伝的変異体の生成は、完全に制御されておらず、植物栽培の環境に大きく依存していた。
【0004】
遺伝的多様性に対するある程度の制御を得て、新しい品種を作り出すために、育種家は、植物の遺伝的多様性を解析し、その解析を使用して、植物ゲノムに遺伝性突然変異を導入するために異なる技術を使用してきた。例えば、様々な統計ツール(例えば、多変量統計)と組み合わせられた形態学的、細胞学的、生化学的、及び分子マーカの特性評価が、種の異なる株、品種、又は種目間の遺伝的多様性を評価するために使用され得る。これらの技術は、遺伝的多様性の評価、異なる群への遺伝資源の分類、及び超越分離などのハイブリッド表現型を開発するための多様な親の選択において使用されている。しかしながら、多様性解析からの収量及び品質の根底にあるゲノム因子について取得される知識が多いほど、従来の育種アプローチの限界がより明らかになる。組換え及び非特異的突然変異誘発のランダムな性質に起因して、選択遺伝資源のさらなる改善は、多くの場合、リンケージドラッグ、所望の形質に遺伝的に連結された有害な遺伝物質の転移によって損なわれる、長く退屈なプロセスである。したがって、天然又はランダムに誘導される多様性への依存は、従来の育種プロセスを減速させ、予測不可能な育種結果に寄与する制限要因である。
【0005】
前世紀では、様々な変異原(例えば、化合物及び照射)の使用は、遺伝的変異体の大きいプールの迅速な生成を容易にしており、これは、次いで、育種プロセスをスピードアップするために使用され得る。しかしながら、これらの方法は、生成された突然変異の非特異的性質、同時に突然変異した大量のヌクレオチド、及び、ときには、大きなゲノム断片の欠失、複製、又は再編成を含む、数個の欠点を有する。結果として、ランダム突然変異誘発を介した関心対象の突然変異の同定は、長く労働集約的なプロセスである。配列特異的な操作されたエンドヌクレアーゼ、メガヌクレアーゼ、ジンクフィンガヌクレアーゼ(zinc finger nuclease、ZFN)、転写活性化因子様エフェクタヌクレアーゼ(transcription activator-like effector nuclease、TALEN)及びII型のクラスタ化して規則的な配置の短い回文配列リピート(clustered regularly interspaced short palindromic repeat、CRISPR)/CRISPR関連タンパク質9(CRISPR-associated protein 9、Cas9)の開発が、植物ゲノムにおける標的化遺伝子編集(標的化突然変異誘発)のためのツールを提供している。これらのプログラム可能なヌクレアーゼは、部位特異的な様式で一本鎖又は二本鎖DNA切断(double-stranded DNA break、DSB)の生成を可能にする。真核細胞では、誘導されたDSBは、誤差プローン末端結合経路又は誤差フリー相同組換え修復(homology-directed repair、HdR)経路のいずれかを介して修復され得る。両方の経路は、標的遺伝子座に遺伝子改変を導入するために利用される。それにもかかわらず、従来の遺伝的多様性解析は、遺伝子発見及び所望の表現型につながる遺伝子改変の同定を制限したままである。したがって、CRISPR及び他の遺伝子編集ツールの莫大な潜在性にもかかわらず、この潜在性が完全に実現されることになる場合、重大な課題が残っている。
【発明の概要】
【0006】
様々な実施形態では、方法であって、植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、遺伝子発現プロファイルのセットを入力することと、予測モデルを使用して、遺伝子発現プロファイルのセットの特徴と表現型との間の関係又は相関に基づいて、植物についての表現型の予測を生成することと、説明可能な人工知能システムによって、表現型を予測するために予測モデルによってなされた決定を解析することであって、解析することが、(i)表現型の予測で使用される特徴についての特徴重要度スコアのセットを生成することと、(ii)特徴の各々と関連付けられた特徴重要度スコアに基づいて、特徴をランク付けするか又はそうでなければソートすることと、を含む、予測モデルによってなされた決定を解析することと、ランク付けされた又はそうでなければソートされた特徴に基づいて、予測に対して最大の寄与又は影響を有するものとして、表現型に対する候補遺伝子標的のセットを同定することと、同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することと、を含む、方法が提供される。
【0007】
いくつかの実施形態では、説明可能な人工知能システムが、予測モデルによってなされた決定を解析するために、SHapley Additive exPlanations、DeepLIFT、統合勾配、Local Interpretable Model-agnostic Explanations(LIME)、アテンションベースのニューラルネットワークモデル、又はLayer-wise Relevance Propagationを使用する。
【0008】
いくつかの実施形態では、方法は、ゲノム領域のセットを同定することが、候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに候補遺伝子標的のセットを入力することと、モデリングされた遺伝子編集に基づいて、候補遺伝子標的のセット内の1つ以上の遺伝子をゲノム編集し、表現型を最大化、最小化、又はそうでなければ調節するために最適な遺伝子標的のセットを同定することと、を含み、遺伝子編集モデルを使用して、候補遺伝子標的のセット内の1つ以上の遺伝子をゲノム編集するための最適な遺伝子標的に基づいて、表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含む。
【0009】
いくつかの実施形態では、説明可能な人工知能システムが、表現型の予測で使用される特徴に対する特徴重要度スコアとしてShapley値のセットを生成するSHapley Additive exPlanationsを使用し、Shapley値が、各特徴重要度及び方向の推定値を表し、遺伝子編集モデルが、Shapley値から直接的に制御の方向性を確認することによって遺伝子編集をモデリングする。
【0010】
いくつかの実施形態では、予測モデルは、ガウス過程モデルであり、遺伝子編集モデルは、2つの構成要素、(i)根底にあるガウス過程関数のガウス過程モデル、及び(ii)様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して遺伝子編集をモデリングする。
【0011】
いくつかの実施形態では、予測モデルが、深層ニューラルネットワークであり、遺伝子編集モデルが、深層ニューラルネットワークに対して敵対的攻撃を実施することによって遺伝子編集をモデリングし、敵対的攻撃が、深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって表現型を最大化又は最小化するように最適化することと、を含む。
【0012】
いくつかの実施形態では、方法は、理想的な遺伝子発現プロファイルを、植物についての遺伝子発現の自然に生じる分布と比較することと、比較に基づいて、理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨を決定することと、遺伝子編集システムを使用して、遺伝子編集推奨に従って植物のゲノムに対して遺伝子編集又は摂動を行うことと、をさらに含む。
【0013】
いくつかの実施形態では、システムであって、1つ以上のデータプロセッサと、1つ以上のデータプロセッサ上で実行されたときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部又は全てを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を含む、システムが提供される。
【0014】
いくつかの実施形態では、非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部又は全てを実施させるように構成された命令を含む、コンピュータプログラム製品が提供される。
【0015】
用いられている用語及び表現は、説明の用語として使用され、限定するものではなく、示され、説明された特徴の任意の均等物、又はその一部分を除外するそのような用語及び表現の使用における意図は存在しないが、特許請求の範囲の本発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び任意選択的な特徴により具体的に開示されているが、本明細書に開示される概念の修正及び変形が、当業者によって行われ得、そのような修正及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあるとみなされることを理解されたい。
【図面の簡単な説明】
【0016】
本開示は、以下の非限定的な図を考慮してより良好に理解されるであろう。
【
図1】様々な実施形態による、植物における遺伝子発見及び遺伝子編集の両方のための機械学習パイプラインのブロック図を示す。
【
図2A】様々な実施形態による例示的な深層ニューラルネットワークを示す。
【
図2B】様々な実施形態による、遺伝子間相互作用発見のためのグラフ蒸留を示す。
【
図3A】様々な実施形態による、遺伝子編集をモデリングするためのガウス過程モデル及びベイズ最適化の使用を示す。
【
図3B】様々な実施形態による、遺伝子編集をモデリングするためのガウス過程モデル及びベイズ最適化の使用を示す。
【
図3C】様々な実施形態による、Shapley値を使用することと比較された、ベイズ最適化を使用する遺伝子編集モデリングの結果を示す。
【
図4】様々な実施形態による、遺伝子編集をモデリングするための深層学習アーキテクチャに対する敵対的攻撃を示す。
【
図5】様々な実施形態による例示的な差分進化アルゴリズムを示す。
【
図6】様々な実施形態による、敵対ベースのモデリングアプローチを使用して決定された理想的な遺伝子発現プロファイルの例を示す。
【
図7】様々な実施形態による遺伝子発見及び編集システムのブロック図を示す。
【
図8】様々な実施形態による遺伝子発見及び編集のための例示的な流れを示す。
【
図9】様々な実施形態による、所与の表現型についての重要な遺伝子セット又はクラスタを同定するための例示的な流れを示す。
【0017】
添付図では、同様の構成要素及び/又は特徴は、同じ参照符号を有し得る。さらに、同じタイプの様々な構成要素は、同様の構成要素間を区別するダッシュ及び第2の符号による参照符号に従って区別され得る。本明細書において第1の参照符号のみが使用される場合、説明は、第2の参照符号にかかわらず、同じ第1の参照番号を有する同様の構成要素のうちのいずれか1つに適用可能である。
【発明を実施するための形態】
【0018】
以下の説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性、又は構成を限定することを意図されない。むしろ、好ましい例示的な実施形態の以下の説明は、様々な実施形態を実装するための有効な説明を当業者に提供することになる。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置において様々な変更がなされ得ることが理解される。
【0019】
具体的な詳細は、実施形態の完全な理解を提供するために、以下の説明に与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図の形態で構成要素として示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。
【0020】
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として図示されるプロセスとして説明され得ることに留意されたい。フローチャート又は図は、順次プロセスとして動作を説明し得るが、動作の多くは、並列又は同時に実施されてもよい。加えて、動作の順番は、再配置されてもよい。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加のステップを有してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、呼び出し関数又はメイン関数への関数のリターンに対応し得る。
【0021】
I.序論
植物における特定の表現型を支配する根底にある生物学的機構を理解することは、従来、実験の長い反復を必要とした。そのような実験は、遺伝子操作(遺伝子送達系を介した遺伝子ノックアウト及び過剰発現など)及び重要な分子シグナル伝達経路の薬理学的標的化を含んでいた。このプロセスは、分子機構がほとんど解明されていない生物にとって、特に時間及び資源集約的であり、これらの機構に関する知識の重要なポートフォリオを構築するプロセスに、科学界は、歴史的に数十年を要してきた。
【0022】
生物のゲノムにおける、一塩基多型(single nucleotide polymorphism、SNP)と呼ばれる、ゲノムにおける特定の塩基対の差異を、特定の表現型と関連付けるための従来の計算アプローチは、ゲノムワイド関連解析(genome-wide association study、GWAS)及び量的形質遺伝子座(quantitative trait loci、QTL)解析に基づいている。GWASは、特定の表現型の分布を有する自然に生じるゲノムサンプルの統計解析を通じて、特定の遺伝的変異体を特定の表現型と関連付けるために使用される。QTL解析は、最終的な目標が表現型変異をゲノムの特定の領域と関連付けることであるという点でGWASと同様であるが、集団における自然変異を観察するのではなく、QTLは、特定の表現型に関して2つの遺伝的に対照的な株を標的とし、第1世代(F1)及び第2世代(F2)の子孫を解析する。GWAS及びQTL解析は、後に検証された関心のある候補SNPを同定する際に多大な進歩を遂げたが、GWAS及びQTL解析のいくつかの弱点は、複雑な非線形相互作用(エピスタシスなど)のモデリング、原因となるSNPの同定、及び弱い効果サイズのSNPの同定における弱点である。
【0023】
GWAS及びQTL解析のためのより洗練された非線形機械学習法を利用するために、近年、深層学習アーキテクチャに注目が集まっている。深層ニューラルネットワーク(deep neural network、DNN)、深層信念ネットワーク(deep belief network)、回帰型ニューラルネットワーク(recurrent neural network、RNN)、畳み込みニューラルネットワーク(convolutional neural network、CNN)などの、深層学習アーキテクチャは、コンピュータビジョン、マシンビジョン、音声認識、自然言語処理、音声認識、バイオインフォマティクス、機械翻訳を含む技術分野に適用されており、それらは、人間の能力に匹敵し、場合によっては、人間の能力を凌ぐ結果を生み出している。深層学習アーキテクチャが適用され、GWAS及びQTLデータセットを伴う様々な予測タスク(例えば、リスク予測)においてある程度の成功を実証してきたが、それらの現実世界の適用及び展開における主要な懸念は、これらのネットワークで使用されるアルゴリズムのブラックボックス的性質に起因する固有の説明可能性の欠如である。したがって、ほとんどの植物表現型の遺伝的構造及び分散は、ほとんど説明されていないままである。
【0024】
これらの限界及び問題に対処するために、植物表現型のきめ細かい制御を取得するという重要な目標を有する植物における遺伝子発見及び遺伝子編集の両方のための機械学習パイプラインが本明細書で開示される。パイプラインは、2つの別個の構成要素に分解され得る。第1の構成要素については、特定の表現型に関して所与の植物種において潜在的に関連する遺伝子が、説明可能な人工知能法(explainable artificial intelligence、XAI)を通じて同定され得る。より具体的には、入力として遺伝子発現プロファイルを使用して表現型値を予測する機械学習モデル(非線形)は、予測モデルに対して最大の影響を有する遺伝子を同定するためにXAIを介して検査され得る。予測モデルに対するXAIによって同定されたこれらの上位遺伝子は、その特定の植物種及び表現型についての分子制御プロセスに関与する候補遺伝子として役立つ。第2の構成要素について、特定の表現型の発現に関与するように標的化された上位遺伝子を考慮して、モデリング技術が、それらの特定の遺伝子の制御に関する示唆を生成するように適用され得る。より具体的には、パイプラインの第2の構成要素は、制御の方向性(上方/下方制御)に関する粗い粒度及び細かい粒度の推奨の両方を行い、これは、合成生物学における方法を介して行われ得るアクション可能な編集に変換され得る。
【0025】
1つの例示的な実施形態では、方法であって、植物の組織サンプルにおいて測定された遺伝子のセットについての遺伝子発現プロファイルのセットを取得することと、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、遺伝子発現プロファイルのセットを入力することと、予測モデルを使用して、遺伝子発現プロファイルのセットの特徴と表現型との間の関係又は相関に基づいて、植物についての表現型の予測を生成することと、説明可能な人工知能システムによって、表現型を予測するために予測モデルによってなされた決定を解析することであって、解析することが、(i)表現型の予測で使用される特徴についての特徴重要度スコアのセットを生成することと、(ii)特徴の各々と関連付けられた特徴重要度スコアに基づいて、特徴をランク付けするか又はそうでなければソートすることと、を含む、予測モデルによってなされた決定を解析することと、ランク付けされた特徴に基づいて、予測に対して最大の寄与又は影響を有するものとして、表現型に対する候補遺伝子標的のセットを同定することと、を含む、方法が提供される。方法は、同定された候補遺伝子標的のセットに基づいて、編集されたときに、期待される表現型変化を実現するために、遺伝子発現プロファイルにおいて必要な変化を提供する、ゲノム領域のセットを同定することをさらに含み得る。ゲノム領域のセットを同定することが、候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに候補遺伝子標的のセットを入力することと、モデリングされた遺伝子編集に基づいて、候補遺伝子標的のセット内の各遺伝子をゲノム編集し、表現型を最大化又は最小化するための最適な遺伝子標的のセットを同定することと、を含み得る。方法は、遺伝子編集モデルを使用して、候補遺伝子標的のセット内の各遺伝子のゲノム編集のための最適な遺伝子標的のセットに基づいて、表現型のための理想的な遺伝子発現プロファイルを生成することをさらに含み得る。
【0026】
II.機械学習パイプライン
図1は、様々な実施形態による、植物における遺伝子発見及び遺伝子編集の両方のための機械学習パイプライン100のブロック図を示す。機械学習パイプライン100は、説明可能な人工知能を介した植物における遺伝子発見のための第1の構成要素105と、機械学習を使用して植物における遺伝子編集をモデリングするための第2の構成要素110と、を備える。第1の構成要素105は、遺伝子発現プロファイル120から所与の植物の特定の表現型115を予測するように構成されたモデルアーキテクチャを含む。所与の植物の表現型は、植物の観察可能な特性に対する環境と併せて遺伝子型の集合的発現を説明する。植物の高さ、バイオマス、芽密度、葉の形状、色、果実又は穀物の生産、耐乾燥性、耐虫性などは、全て、同じ遺伝子型内であっても、異なる成長条件で変化し得る表現型特性(離散的及び連続的変異)の例である。モデルアーキテクチャは、表現型115の予測を示す応答変数を出力するように訓練される。いくつかの事例では、表現型115は、バイナリ、序数、又は連続表現型であり、モデルアーキテクチャの出力層は、表現型115を同定するために最も好適な応答変数のタイプに従って非線形活性化関数を使用する(例えば、連続表現型には双曲線正接関数又は線形関数、バイナリ表現型にはシグモイド関数、序数又はマルチクラス表現型にはソフトマックス関数が使用され得る)。ある特定の事例では、予測される特定の表現型115は、連続表現型であり、モデルアーキテクチャの出力層は、双曲線正接関数などの非線形活性化関数を使用して、連続表現型115を同定するための応答変数を生成する。
【0027】
植物の細胞は、外部及び内部シグナルに依存して、それらが含有する遺伝子の発現のレベルを調節する。様々な遺伝子の発現レベルを制御することは、各細胞がそのサイズ、形状、及び機能を制御することを可能にする。植物の細胞が、それらが含有する遺伝子を発現するやり方は、植物の表現型、例えば、所与の昆虫若しくは草木に対する抵抗性、又はそれが甘い果実若しくは酸っぱい果実を生産することになるかどうかに影響を及ぼす。遺伝子発現プロファイリング125は、どの遺伝子が任意の所与の瞬間に細胞内で発現されているかを測定する。これは、細胞が分裂しているか否か、細胞の環境にどのような因子が存在するか、細胞が他の細胞から受信しているシグナル、さらには時刻を含む、外部及び内部刺激によって細胞遺伝子発現が影響されるためである。どの遺伝子が発現されているかを決定するために、遺伝子発現プロファイリング125は、mRNAレベルの量を測定し、転写レベルで各細胞によって発現される遺伝子のパターンを示す。いくつかの事例では、これは、2つ以上の実験条件における相対的なmRNA量を測定し、次いで、特定の遺伝子が発現されることをどの条件が結果的にもたらしたかを評価することを意味する。異なる技術が、mRNAレベルの量を測定し、遺伝子発現を決定するために使用され得る。いくつかの事例では、mRNAレベルは、マイクロアレイ解析、逆転写ポリメラーゼ連鎖反応(reverse transcription polymerase chain reaction、RT-PCR)を介して、組織の精製RNAの逆転写反応から結果的に生じるDNAであるcDNAの次世代シーケンシング(RNA-seq)を通じて、又はそれらの任意の組み合わせで測定される。
【0028】
遺伝子発現プロファイリング125は、植物の特定の組織において、その成長サイクルにおける特定の時間に測定された、固定された遺伝子のセットについての特徴(a)~(n)を含む遺伝子発現プロファイル120を出力する。遺伝子が、特定の時間にmRNAを作製するために組織の細胞によって使用されている場合、遺伝子は、遺伝子発現プロファイル120内で「オン」とみなされ、遺伝子が、特定の時間にmRNAを作製するために組織の細胞によって使用されていない場合、遺伝子は、遺伝子発現プロファイル120内で「オフ」とみなされる。
【0029】
いくつかの事例では、遺伝子発現プロファイルは、組織がサンプリングされた特定の時点における所与の組織における固定された測定された遺伝子のセットについての遺伝子発現の数値表現のセット(例えば、対数変換された遺伝子発現プロファイル)に変換される。いくつかの事例では、追加のデータ127が、本明細書でより詳細に説明されるように、第1の構成要素105のモデルアーキテクチャへの遺伝子発現プロファイルを含む入力のために生成される(例えば、入力データは、環境及び管理実践システム、栽培システム、マルチオミクスシステム、並びに/又はモデリングシステムから取得され得る)。追加のデータ127は、(i)植物が任意の所与の瞬間(例えば、mRNAレベルの量が測定された瞬間)までに曝露される環境条件に関するデータと、(ii)植物が任意の所与の瞬間(例えば、mRNAレベルの量が測定された瞬間)までに曝露される維持条件に関するデータと、を含み得る。環境条件は、植物が、例えば、温度、降水量、土壌特性などに曝露される場所特有の環境条件を含む。維持条件は、植物の成長の管理の任意の調整可能な態様、例えば、肥料又は水などの入力、植え付け、施肥、収穫などのタイミングを含む。
【0030】
植物生物学におけるゲノム予測のための従来のモデルは、線形モデル(線形回帰)、又はリッジ回帰最良線形不偏予測(ridge regression best linear unbiased prediction、rrBLUP)などの線形混合効果モデルのいずれかであった。植物における様々な表現型(特に、高度に多遺伝子であるもの)に寄与する根底にあるプロセスは、本質的に非線形であることが公知であるが、従来のモデリング方法論の多くは、厳密に線形の形態をとる。ヒルの式(Hill equation)、モノー方程式(Monod equation)、及びミカエリス・メンテン式(Michaelis-Menten equation)などの生化学システムを支配する最も基本的な方程式のいくつかでさえも、一般に非線形である。しかし、ゲノム予測を目的とするアプローチの大部分は、それらが計算的に扱い易く、線形係数の検査を通して解釈可能性を組み込んでいるという単純な理由のために、線形方法を使用してきた。深層ニューラルネットワークなどのより複雑なモデリング方法論を使用するとき、解釈可能性は、当然には与えられない。
【0031】
それにもかかわらず、より表現力のある非線形モデルが、生物系の固有の非線形性質をモデリングするのにより好適であるため、表現型115を予測するためのモデルアーキテクチャは、深層学習アーキテクチャ130であり、これは、大きい遺伝的変異を呈する多数のサンプルが提供されるとき(例えば、遺伝子発現プロファイル110と同様に)、より強力な予測モデルとして機能する。いくつかの事例では、深層学習アーキテクチャ130は、深層ニューラルネットワーク(すなわち、2つ以上の隠れ層)であるが、本明細書の教示は、単独で、アンサンブルなどの複数として、又は組み合わせて実装されるニューラルネットワーク及び他の非線形モデルの両方に適用可能であることが理解されるべきである。深層学習アーキテクチャ130は、入力データ(遺伝子発現プロファイル110)の特徴と表現型との間の関係又は相関を学習することによって、出力データとして表現型を予測するタスクのために構築される。具体的には、深層学習アーキテクチャ130は、どのように、隠れ層内の非線形パターンを捕捉し、1つ以上の活性化関数の使用によって、確率(例えば、バイナリ分類)又はある間隔内の予測された応答変数(例えば、連続応答の場合)に関して出力を生成するかをアルゴリズムに学習させる様式で構築される。その後、非線形活性化関数に渡される線形変換を支配する重みが、ラベル付きサンプルのセット(例えば、表現型グラウンドトゥルースでラベル付けされた遺伝子発現プロファイルのセットを含む訓練データ)から、訓練プロセスで学習される。
【0032】
図2Aは、例示的な深層ニューラルネットワーク200を示す(この事例では、例示的な深層ニューラルネットワークは、フィードフォワードニューラルネットワークであるが、本開示の趣旨及び範囲から逸脱することなく、他のタイプのニューラルネットワークが実装され得ることが理解されるべきである)。深層ニューラルネットワーク200は、入力層205と、複数の隠れ層210a~210(n)と、出力層215と、を備える。入力層205は、入力データ又は特徴を深層ニューラルネットワーク200に供給するために使用される。いくつかの事例では、入力データ又は特徴は、遺伝子発現プロファイル又はその変換されたバージョン、例えば、対数変換された遺伝子発現プロファイルである。深層ニューラルネットワーク200は、複数の隠れ層210a~210(n)を使用して入力データに一連の関数を適用する。隠れ層の数は、深層ニューラルネットワーク200の深度を定義する。複数の隠れ層210a~210(n)を有することによって、深層ニューラルネットワーク200は、より単純な関数をカスケーディングすることによって複雑な関数を計算し得る。いくつかの事例では、深層ニューラルネットワーク200の深度は、2つ以上の隠れ層である。ある特定の事例では、深層ニューラルネットワーク200の深度は、
図2Aに図示されるように、2つの隠れ層である。
【0033】
複数の隠れ層210a~210(n)内の各ノード220は、深層ニューラルネットワーク200の基本処理ユニットであるニューロンである。ニューロンの処理は、2つのステップ、すなわち、(1)各ニューロンがその入力及び重みの加重和を計算するステップと、(2)各ノードが活性化関数と呼ばれる変換を適用して出力を生成するステップとにおいて実装され得る。各層のニューロンは、前の層のニューロンの出力を入力として受信する。接続の強度が重みと呼ばれ、重みは、その重要性を反映する重み付け係数である。重みは、ネットワークが訓練段階中に学習しなければならないパラメータである。接続がゼロの重みを有する場合、ニューロンは、次の層の対応するニューロンにいかなる影響も有していない。影響は、重みが正であるときに興奮性であり、重みが負であるときに抑制性である。したがって、深層ニューラルネットワークは、ノードがニューロンに対応し、エッジがそれらの間のリンクに対応する有向非巡回グラフ(directed acyclic graph、DAG)として見ることができる。各ニューロンは、入力として、その入ってくるエッジに接続されたニューロンの出力の加重和を受信する。活性化関数は、ニューロンの出ていくエッジにおける意思決定構成要素として使用される。活性化関数は、線形又は非線形であり得、深層ニューラルネットワーク200の出力のタイプ(連続、バイナリ、カテゴリ、及びカウント)を決定し、入力データの非線形パターンを捕捉するために重要である。活性化関数の例は、線形活性化関数、正規化線形ユニット(rectifier linear unit、ReLU)、漏れReLU、シグモイド活性化関数、ソフトマックス活性化関数、双曲線正接活性化関数、及び指数活性化関数を含む。
【0034】
出力層215は、予測(例えば、特定の表現型)を示す応答変数を出力する。出力層で使用される活性化関数は、異なる問題に対して異なる。バイナリ分類問題に関して、出力は、0又は1のいずれかである必要がある。したがって、シグモイド活性化関数が使用され得る。マルチクラス分類問題に関して、ソフトマックス活性化関数が使用され得る。回帰問題に関して、出力が所定のカテゴリではない場合、線形ユニット活性化関数が使用され得る。いくつかの事例では、特定の表現型は、バイナリ、序数、又は連続表現型であり、出力層215は、特定の表現型を同定するために最も好適な応答変数のタイプに従って非線形活性化関数を使用する(例えば、連続表現型には双曲線正接関数、バイナリ表現型にはシグモイド関数、序数又はマルチクラス表現型にはソフトマックス関数が使用され得る)。ある特定の事例では、予測される特定の表現型は、連続表現型であり、出力層215は、双曲線正接関数などの非線形活性化関数を使用して、特定の連続表現型を同定するための応答変数を生成する。
【0035】
深層ニューラルネットワーク200のための訓練段階は、深層ニューラルネットワーク200のためのハイパーパラメータを選択すること(例えば、隠れ層の数又は活性化関数を選択すること)と、訓練データから深層ニューラルネットワーク200にデータセットを入力する反復動作を実施して、深層ニューラルネットワーク200のための損失又は誤差関数を最小化する学習されたパラメータのセット(例えば、重み及び/又はバイアス)を見つけることと、学習されたパラメータのセットを用いてネットワークを検証又は試験することと、を含む。ハイパーパラメータは、深層ニューラルネットワーク200の挙動を制御するために調整又は最適化され得る設定である。ほとんどのニューラルネットワークは、メモリ又は実行コストなどのネットワークの異なる態様を制御するハイパーパラメータを明示的に定義する。しかしながら、追加のパラメータが、ネットワークを特定のシナリオに適合させるために定義され得る。例えば、ハイパーパラメータは、ネットワークの隠れ層の数、隠れ層内のニューロンの数、ネットワークの学習率、又はネットワークに対する活性化関数のタイプを含み得る。ハイパーパラメータを定義することは困難であり得、したがって、調整プロセスが、特定のシナリオに対する最適なハイパーパラメータ値のセットを定義するために使用され得る。ハイパーパラメータ調整は、異なるハイパーパラメータの組み合わせを有する値のグリッドからハイパーパラメータのための値の組み合わせを選択することを含み得る値検索プロセスを含む。上述の値検索プロセスは、網羅的であるか、又はベイズ最適化若しくは遺伝的アルゴリズムなどのより知的な最適化技術を活用するかのいずれかであり得る。
【0036】
ハイパーパラメータ調整プロセス、ネットワーク訓練、及び試験/検証プロセスを実装するために、訓練データが、取得され、セットに分割され、前処理され得る(例えば、グラウンドトゥルースラベルで注釈付けされる)。例えば、訓練データは、1つ以上の表現型についての遺伝子発現プロファイルのセットを取得することと、データのセットを前処理することと、データのセットを訓練セット(学習可能なパラメータを学習するためにネットワークを訓練するための)(例えば、70%)、調整セット(ハイパーパラメータを調整し、最適な学習不能なパラメータを選択するための)(例えば、15%)、及び試験又は検証セット(ネットワークの汎化能力を推定するための)(例えば、15%)に分割することと、データのサブセットをグランドトゥルースラベルで注釈付けすることと、によって生成され得る。いくつかの事例では、訓練データは、グランドトゥルースラベルを有する遺伝子発現プロファイル、又はその変換バージョン、例えば、グランドトゥルースラベルを有する対数変換された遺伝子発現プロファイルである。
【0037】
データのセットは、K分割交差検証(K-Fold Cross-Validation)、1つ抜き交差検証(Leave-one-out Cross-Validation)、1グループ抜き交差検証(Leave-one-group-out Cross-Validation)、入れ子構造の交差検証(Nested Cross-Validation)などの、検証技術を使用して取得され分割され得る。例えば、K分割交差検証が使用され得、k-1個のフォールドが訓練(外部訓練)に使用され、残りのフォールドが試験に使用される。次いで、対応する訓練を用いた各フォールド内で、k分割交差検証が使用され、k-1個のフォールドが訓練(内部訓練)に使用され、残りのフォールドが調整評価に使用される。グリッド内の各ハイパーパラメータの組み合わせのネットワークは、内部訓練データセットを用いて訓練され、より少ない予測誤差を有するグリッド内の組み合わせが、各フォールド内の最適ハイパーパラメータとして選択される。次いで、サンプルサイズが外部訓練セットを使用して小さい場合、ネットワークは、最適ハイパーパラメータを用いて再びフィッティングされる。最後に、これらの推定されたモデルパラメータ(重み及び/又はバイアス)を用いて、試験セットの予測が取得される。このプロセスが各フォールドで繰り返され、k個の試験セットの平均予測性能が予測性能として報告される。いくつかの事例では、試験セットの予測は、Bland-Altman法及びSpearmanの順位相関係数などの相関技術を使用し、誤差、正確度、精度、再現率、受信者操作特性曲線(receiver operating characteristic curve、ROC)などの性能測定基準を計算して、グラウンドトゥルースに対して評価される。
【0038】
深層ニューラルネットワーク200のための訓練プロセスの各反復は、訓練及び/又は調整セットからデータセットを入力することと、モデルパラメータのセットを使用する損失又は誤差関数(例えば、改変された交差エントロピー損失)の値が、以前の反復における異なるモデルパラメータのセットを使用する損失又は誤差関数の値よりも小さくなるように、モデルパラメータのセット(定義されたハイパーパラメータのセットで構成された)を学習することと、を伴い得る。損失又は誤差関数は、ラベル/グラウンドトゥルースと、遺伝子発現プロファイルのセットに対する推論された表現型などの推論されたデータとの間の差を測定するために構築され得る。初期値(例えば、ランダム値又は事前知識に基づいて選択された値)が、深層ニューラルネットワーク200を訓練するための開始点として使用されるべきモデルパラメータのセットに割り当てられ、深層ニューラルネットワーク200のための訓練プロセスの各反復は、モデルパラメータのセットを微調整するために、ネットワークを通して損失を逆方向に供給すること(すなわち、逆伝播)をさらに伴い得る。データのバッチを深層ニューラルネットワーク200に反復的に通過させ、訓練データセットのサブセットに基づいて誤差を推定し、誤差が減少するように重みを更新するこのプロセスは、勾配降下法として知られている。本明細書で使用される場合、アクションが何かに「基づいている」とき、これは、アクションが何かの少なくとも一部に少なくとも部分的に基づくことを意味する。深層ニューラルネットワーク200のモデルパラメータのセットが、損失又は誤差関数を最適化することによって訓練されると、ネットワークは、遺伝子発現プロファイルのセットから未知の遺伝子型の表現型を予測することができる。訓練損失を追跡することに加えて、訓練損失と試験損失との間の明確な相違が認められたときに深層ニューラルネットワークの訓練を停止する早期停止を実装するために、試験損失が追加的に追跡され得る。早期停止プロセスは、過剰適合に対抗し、ニューラルネットワークが検証データへの汎化を犠牲にして訓練データに対して極めて良好に機能するシナリオを防止する。
【0039】
誤差勾配の推定に使用される訓練セットからのデータの例の数は、バッチサイズであり、学習アルゴリズムのダイナミクスに影響する重要なハイパーパラメータである。深層ニューラルネットワーク200を訓練することは、初期のモデルパラメータのセット及び学習アルゴリズムの構成に敏感であり得るため、困難であり得る。この課題の理由は、モデルパラメータのセットが更新されたとき、各データのバッチの後に、ネットワーク内の深い層への入力の分布が変化し得ることである。これは、学習アルゴリズムに、移動する標的を持続的に追跡させ得る(内部共変量シフトとして知られている)。いくつかの事例では、この課題を克服するために、深層ニューラルネットワーク200を訓練するためにバッチ正規化が使用される。バッチ正規化は、各隠れ層210の出力をスケーリングすることによって、例えば、前の層からのノードの活性化などの、データのバッチごとの各入力変数の活性化を標準化することによって実施され得る。前の層の活性化を標準化することは、後続の層が重み更新中に入力の拡散及び分布について行う仮定が、少なくとも劇的には変化しなくなることを意味する。これは、学習プロセスを安定させ、深層ニューラルネットワーク200を訓練するために必要とされる訓練エポックの数を低減する(訓練を高速化する)。
【0040】
理解されるべきであるように、他の訓練-調整-検証機構が企図され、実装され得る。例えば、深層ニューラルネットワーク200は、訓練され得、ハイパーパラメータは、第1のデータのサブセットからのデータに対して調整され得、第2のデータのサブセットからのデータは、モデルの性能を試験及び評価するためだけに使用され得る。さらに、本明細書で説明される訓練-調整-検証機構は、新しい深層ニューラルネットワーク200を訓練することに焦点を当てている。これらの訓練-調整-検証機構はまた、他のデータセットから訓練された既存の深層ニューラルネットワーク200を微調整するために利用され得る。例えば、いくつかの事例では、深層ニューラルネットワーク200は、第1の表現型についての遺伝子発現プロファイルデータを使用して事前訓練されていてもよい。それらの場合、深層ニューラルネットワーク200は、第2の表現型についての遺伝子発現プロファイルの新しいセットを使用する転移学習及び再訓練/検証のために使用され得る。
【0041】
図2Aに関して説明されるフィードフォワードニューラルネットワークの代替として、いくつかの実施形態で実装される例示的な学習アーキテクチャ130は、グラフニューラルネットワーク(graph neural network、GNN)である。GNNは、一般的な無向/有向ラベル付きグラフ(2つの構成要素:ノード(頂点)及びエッジからなるデータ構造)として符号化された入力データを処理し、ノードレベル、エッジレベル、及びグラフレベルの予測タスクを実施するやり方を提供することができるニューラルネットワークである。したがって、そのような実施形態では、遺伝子発現プロファイル120は、植物種における遺伝子のグラフ構造化表現として構成される。各ノードが遺伝子を表し、各エッジが遺伝子間相互作用を表す遺伝子のグラフ構造化表現が与えられると、GNNは、ノードを再帰ユニットに変換し、エッジをフィードフォワードニューラルネットワークに変換する。次いで、GNNは、全てのノードに対して近傍集約をn回実施し、グラフ表現Hを得るために全てのノードの埋め込みベクトルにわたってグローバルプーリングを実施する。次いで、グラフ表現Hは、遺伝子発現プロファイル120に対する表現型115を予測するために使用される上位層に渡される。
【0042】
本明細書で説明されるDNN又はGNNなどの深層ニューラルネットワークの代替として、いくつかの実施形態で実装される例示的な深層学習アーキテクチャ130は、ガウス過程モデルなどの非線形モデルである。ガウス過程モデルは、ガウス確率分布の汎化であり、分類及び回帰タスクのためのノンパラメトリック機械学習アルゴリズムの基礎として使用され得る。ガウス過程を伴う機械学習アルゴリズムは、怠惰学習を使用して深層学習アーキテクチャ130で実装され得、点間の類似性の尺度(カーネル関数)は、訓練データから未知の点に対する値(例えば、遺伝子発現プロファイル120に対する表現型115)を予測するために使用され得る。予測は、その点についての推定値のみならず、不確実性情報も有し、一次元ガウス分布として表現される。多出力予測に関して、多変量ガウス分布が各点における周辺分布である多変量ガウス過程が使用され得る。
【0043】
関心対象の表現型115に対する候補遺伝子標的を生成するために、XAI技術が、ホールドアウトデータセット又は新しい入力データのセット(すなわち、遺伝子発現プロファイル120のセット)における全ての予測に対する各特徴の重要度を取得するために適用される。いくつかの事例では、入力として遺伝子発現プロファイル120を使用して表現型115を予測する深層学習アーキテクチャ130は、XAI135を介して解析されて、深層学習アーキテクチャ130の出力又は予測に対して最大の寄与又は影響を有する特徴(例えば、1つ以上の遺伝子140)を同定する。XAI135の主な目標は、表現型の決定において重要な役目を果たす遺伝子を同定する重要度の尺度(例えば、Shapley値)を定義することである。XAIは、機械学習モデルの決定(例えば、解の結果)が理解及び解釈され得るような人工知能(artificial intelligence、AI)の適用における技術を指す。XAIは、機械学習モデルの設計者であっても、AIが機械学習モデルによって特定の決定に到達した理由を説明することができない、機械学習における「ブラックボックス」の概念とは対照的である。いくつかの事例では、XAI135のために使用される技術は、機械学習モデルの決定を解析及び説明するためのゲーム理論アプローチである、SHapley Additive exPlanations(SHAP)である。しかしながら、XAIのための他の技術が、機械学習モデルによって行われた予測を理解及び解釈するために企図されることが理解されるであろう。例えば、代替的又は追加的に、統合勾配などの勾配ベースのアプローチ、DeepLIFTなどの逆伝播アプローチ、Local Interpretable Model-agnostic Explanations(LIME)などのモデル非依存技術、アテンションベースのニューラルネットワークモデルなどのニューラルネットワーク及びアテンション重みアプローチ、又はLayer-wise Relevance Propagation(LRP)などのディープテイラー分解アプローチが、機械学習モデルによって行われた予測を理解及び解釈するために使用され得る。
【0044】
機械学習モデルのSHAPベースの説明の背後にある核となる概念は、強力ゲーム理論からの公平な割り当て結果を使用して、モデルの出力に対する信用をその入力特徴の間で割り当てることである。言い換えると、SHAP説明方法は、各特徴(例えば、遺伝子発現プロファイルにおける各遺伝子)の影響を示すために予測を分解する。これを行うために、SHAP説明方法は、協力ゲーム理論からShapley値を計算する。特徴は、異なる大きさ及び符号を有するモデルの出力又は予測に寄与し、これは、Shapley値によって説明される。したがって、Shapley値は、各特徴の重要度(寄与又は影響の大きさ)及び方向(符号)の推定値を表す。正のShapley値を有する特徴は、表現型の予測値を増加させるが、一方、負のShapley値を有する特徴は、表現型の予測値を減少させる。次いで、絶対Shapley値の平均が、各特徴の重要度をランク付けし、ソートするために使用され得る。
【0045】
XAI135のために使用される技術(例えば、SHAP)は、(i)予測において使用される特徴(一部又は全ての入力特徴)についての特徴重要度スコア(定量値)のセットと、(ii)ホールドアウトデータセット又は新しい入力データのセット(すなわち、遺伝子発現プロファイル120のセット)における全ての予測についての各特徴に対する重要度スコアの集約を通した特徴のランク付け又はそうでなければソートと、を生成する。例えば、SHAPに関して、絶対Shapley値の平均によってランク付け及びソートされると、最上位にランク付け又はソートされた特徴140(例えば、遺伝子のセット)が、深層学習アーキテクチャ130の出力又は予測に対して最大の寄与又は影響を有するものとして同定される。最上位のランク付け又はソートされた特徴140は、絶対Shapley値の最大平均を有する特徴(例えば、単一の遺伝子、5つの遺伝子、10個の遺伝子、15個の遺伝子など)をソート及び同定することによって同定され得る。最上位のランク付け又はソートされた特徴140は、その特定の植物種及び表現型の分子制御プロセスに関与する候補遺伝子であり得、遺伝子編集をモデリングするために第2の構成要素110において使用される。
【0046】
GNNに関する別の例として、GNN蒸留プロセスが、(i)重要なサブグラフ構造及びノード特徴を識別することと、(ii)ノードがサンプルにわたって集約され、ランク付けされて、個々のノードの重要度のリストを作成し得る、各予測についての重要なサブグラフのサブセットを取得することと、によって、GNNの予測の解釈を取得するために活用され得る。
図2Bは、遺伝子間相互作用発見のためのグラフ蒸留250を示す。マルチオミクス訓練データは、グラフの各ノードが遺伝子を表すグラフのセットに変換される。入力訓練データ255は、凍結され事前訓練された教師グラフ260に供給されて、予測を生成し、予測は、蒸留された生徒グラフ270の標的ラベル265として使用される。生徒グラフ270は、2つの目的、(1)教師グラフ260の出力と同様の予測275を作成すること、及び(2)エントロピー正則化280を通して達成される最小数のエッジを有することを伴って訓練される。訓練の後、蒸留された生徒グラフ270内の残りのエッジは、所与の出力予測に寄与する最も重要な遺伝子間相互作用を表す。
【0047】
深層学習アーキテクチャ130上のXAI機構から取得されたランク付けされた特徴140(例えば、遺伝子)は、第1の構成要素105の基礎として機能する。いくつかの事例では、所与の表現型と関連付けられることが文献に文書化されている遺伝子などの特徴のセットが、第1の構成要素105の性能をベンチマークするために活用され得る。例えば、第1の構成要素105からのランク付けされた特徴140のセットが与えられると、特徴140のランク付けにおける上位k個の特徴において捕捉された全文献特徴の数を計算することによって、「kにおけるリコール」測定基準が計算され得る。kは、この測定基準に影響し得る重要なパラメータであるが、一方で、集約測定基準は、1から開始してデータセット内の特徴の数までの全てのkについて、kにおけるリコールを計算することから曲線を生成することによって取得され得る。所定の特徴数kまでのそのような曲線の積分は、第1の構成要素105に対する正確度の測定基準として使用され得る連続値「kに対する曲線下面積」を得る。特徴リコールをベンチマーキングするための上述のアプローチは、数十年もの生物学的実験及び検証から結果的に生じた遺伝子及び表現型などの特徴間の関連をモデルがどのように捕捉しているかを評価するために有用であるが、真の関連のセットは、不完全であり、したがって、既知の文献遺伝子のセットで捕捉されない第1の構成要素105に由来する関連は、正しい可能性がある(さらなる生物学的検証から確認される)。いくつかの事例では、表現型及び特徴発見を予測するための訓練されたモデルの展開は、特徴リコールをベンチマーキングするためのアプローチによって決定されるようなモデルの性能に基づいて実装され得る。例えば、特徴リコールをベンチマーキングするためのアプローチに従って、1つのモデルが別のモデルより優れた性能を備えている場合、より高い性能のモデルが、表現型予測及び特徴発見(例えば、遺伝子発見)のための展開において使用され得る。
【0048】
第2の構成要素110は、遺伝子編集をモデリングし、所与の表現型115について理想的な遺伝子発現プロファイル145を生成するように構成されたモデルアーキテクチャを含む。モデルアーキテクチャは、理想的な遺伝子発現プロファイル145を生成するために1つ以上の様々なアプローチ(A)~(N)を使用するモデラ150を含む。理想的な遺伝子発現プロファイル145は、表現型115を最大化又は最小化するための特徴140における全ての遺伝子に対する遺伝子発現の推奨である。次いで、理想的な遺伝子発現プロファイル145は、遺伝子編集推奨155が、理想的な遺伝子発現プロファイル145内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御することであるかどうかを理解するために、植物種についての遺伝子発現の自然に生じる分布と比較され得る。
【0049】
第1のアプローチ(A)は、予測に使用された特徴140に対する特徴重要度スコア(例えば、Shapley値)のセットから直接的に遺伝子編集をモデリングするための制御の方向性(上方制御又は下方制御)を確認するモデラ150を含む。例えば、深層学習アーキテクチャ130上のXAI機構は、特徴寄与と予測された表現型との間の相関を取得するために、遺伝子発現値(例えば、バイナリ:1=発現又は0=非発現)に対して特徴重要度スコア(例えば、Shapley値)のセットをプロットする。この相関は、深層学習アーキテクチャ130のコンテキストにおいて、遺伝子などのある特定の特徴が、上方制御又は下方制御を通じて表現型にどのように影響し得るかを決定するために、モデラ150によって活用される。例えば、遺伝子(a)発現の上方制御は、予測された表現型(I)に対して正に相関し得るが、一方、遺伝子(b)発現の上方制御は、予測された表現型(I)に対して負に相関し得る。次いで、モデラ150は、確認された制御の方向性(上方制御又は下方制御)に基づいて、所与の表現型115について理想的な遺伝子発現プロファイル145を生成する。上記の例を続けると、表現型(I)についての理想的な遺伝子発現プロファイル145は、植物内の所与の表現型(I)の発現に正に寄与するために、遺伝子(a)の上方制御(又は遺伝子(a)の増加した発現)及び遺伝子(b)の下方制御(又は遺伝子(b)の減少した発現)を含み得る。
【0050】
第2のアプローチ(B)は、遺伝子編集のモデリングを遺伝子発現最適化問題として扱うモデラ150を含む。より具体的には、ベイズ最適化が、遺伝子編集をモデリングするために使用され得る。ベイズ最適化は、目的関数の最小値又は最大値を見つけるために、検索を指示するための探索及び活用の両方を組み込むシーケンシャルサーチフレームワークである。ベイズ最適化の目標は、(i)関数が高い値(所与の表現型と高い相関)を返すことになるため、所与のデータ点がサンプリングに良好な配置であること、及び(ii)サンプリング後に得られる大量の知識に対応して、リターンの不確実性が非常に大きいため、別の所与のデータ点がサンプリングに良好な配置であること、を決定することになるような関数が根底にある、確率モデルを構築することである。ベイズ最適化アルゴリズムは、2つの構成要素、(i)根底にある関数の確率モデル、及び(ii)様々なデータ点をサンプリングするための獲得関数を含む。
【0051】
図3A及び
図3Bに示されるように、確率モデルは、ガウス過程モデル(深層学習アーキテクチャ130に関して説明されたような)であり得、根底にある関数は、特徴310(例えば、
図1に関して説明された特徴140)におけるガウス過程関数305であり得る。ガウス過程関数305を使用して、モデラ150は、特徴310におけるガウス過程関数305の分布を推定し得、これは、次いで、将来のサンプリングを指示するために使用され得る。ガウス過程関数305の最良の推定値は、平均μ[x]によって与えられ、不確実性は、分散σ
2[x]によって与えられる。ガウス過程関数305及びその不確実性から、モデラ150は、獲得関数315を使用して、次にサンプリングするべき点を選択し得る。サンプリングは、より多くのサンプルを取得するための獲得関数315において、ガウス過程関数305に関して既知の全てのことである、事後確率情報の使用を伴う。言い換えると、ガウス過程関数305に関して既知の全てのことは、最も利益を生む可能性が高い検索空間のエリアをサンプリングするために使用され、したがって、獲得関数315は、検索における場所の条件付き確率を最適化して、次のサンプルを生成することになる。獲得関数315は、ガウス過程関数上の各データ点xにおいて平均及び分散をとり、この位置で次にサンプリングすることがどの程度望ましいかを示す値を計算する(探索及び活用を考慮して)。いくつかの事例では、獲得関数315は、活用と探索との間のトレードオフのバランスをとるためのモデルの調整可能なハイパーパラメータである。獲得関数315の例としては、信頼上限、トンプソンサンプリング、期待改善度、及び改善確率が挙げられる。追加のサンプル及びガウス過程関数305を介したそれらの評価が収集されると、サンプルがデータセットに追加され、次いで、事後情報が更新される。このプロセスは、ガウス過程関数305の極値の位置を特定するか、十分に良好な結果の位置を特定するか、又はリソースが使い果たされるまで繰り返される。反復プロセスが完了すると、モデラ150は、ガウス過程関数305の決定された極値に基づいて、所与の表現型115について理想的な遺伝子発現プロファイル145を生成する。
【0052】
図3Cは、ベイズ最適化による推奨がShapely値と一致することを示す。上
図350は、形質を最大化するために次のデータ点をサンプリングするためのベイズ最適化による推奨(破線の垂直線)を例示する。下
図355は、各遺伝子の発現レベルのそのSHAP値との相関を例示し、SHAPが高いほど、それが形質に寄与する。相関は、形質又は表現型を最大化するために、最初の3つの遺伝子が下方制御されるべきであり、最後の遺伝子が上方制御されるべきであることを示し、これは、上
図350のベイズ最適化によって提供される推奨と一致する。
【0053】
第3のアプローチ(C)は、敵対的な例を使用して深層学習アーキテクチャ130に対して敵対的攻撃を実施して、遺伝子編集をモデリングするモデラ150を含む。敵対的な例は、ニューラルネットワークへの入力であり、これは、ネットワークからの変更された出力を結果的にもたらす。
図4に示されるように、敵対的攻撃を実施することは、訓練されたネットワーク400の重みを凍結することによって最適化問題を反転させること、及び、代わりに、表現型410を最大化又は最小化するために入力405(敵対的な例)のセットにわたって最適化することを含む。最適化は、(i)パイプラインの遺伝子発見構成要素(すなわち、第1の構成要素105)と一致する遺伝子などの、
図1に関して説明された特徴140を識別することと、(ii)全ての他の遺伝子発現及び/又はカウント(これは、全てのサンプルにわたる平均遺伝子発現及び/又はカウントであり得る)を保持しながら、表現型410を最大化する遺伝子などの特徴140の各々の最適な発現及び/又はカウントとして、訓練されたネットワーク400についての新しい最適化問題を定義することと、(iii)特徴140において観察される最大/最小発現及び/又はカウント、生物学的根拠に基づく制約(例えば、遺伝子(a)及び遺伝子(b)が、それぞれ、タンパク質による結合のために一緒に発現されなければならないタンパク質及びリガンドを発現する)、実験方法の限界(例えば、CRISPR/Cas9は、同時に標的化され得る遺伝子の数に制約を有する)、又はそれらの任意の組み合わせに基づいて、遺伝子発現に対する制約を定義することと、を含む。
【0054】
いくつかの事例では、勾配ベースの最適化技術が、定義された新しい最適化問題に対する解を見つけるためにモデラ150によって活用され、それは、ネットワークの重みではなく入力のセットに関する勾配をとる。しかしながら、他の事例では、遺伝子発現に対する制約を定義することが有利であることを考慮すると、差分進化などの離散最適化技術がモデラ150によって活用される。差分進化は、所与の品質尺度(例えば、表現型115の最大/最小)に関して候補解(例えば、特徴140の各々の発現及び/又はカウント)を改善しようと反復的に試みることによって問題を最適化する技術である。
図5に示されるように、差分進化アルゴリズム500は、候補解の集団505(個々の)を維持し、特定のプロセスに従って既存の解を組み合わせることによって新しい解を作成することによって、設計空間を検索する。いくつかの事例では、特定のプロセスは、(i)標的ベクトルを選択することと、(ii)2つの集団メンバーをランダムに選択することと、(iii)2つの集団メンバーに基づいて、重み付き差分ベクトルを構築することと、(iv)集団メンバーに対して第3のランダムに選択されたベクトルを追加することと、(v)重み付き差分ベクトルと第3のランダムベクトルと標的ベクトルとの間で交差を実施して、新しい目的値(例えば、コスト値)を有する候補を含む試行ベクトルを取得することと、を含み、(vi)最良の新しい目的値を有する候補は、個々の新しい目的値が改善され、その結果、次世代のための集団510の一部を形成し、そうでなければ新しい目的値が破棄される様式で、アルゴリズムの次の反復で保持される。プロセスは、それ自体を、所与の終了基準が満たされるまで繰り返す。反復プロセスが完了すると、モデラ150は、敵対的攻撃から決定された最適な入力のセット(遺伝子発現に対応する)に基づいて、所与の表現型115に対する理想的な遺伝子発現プロファイル145を生成する。
【0055】
図6は、DNNのSHAPベースのXAIで同定された遺伝子AT2G45660、AT2G45660、AT5G44590、AT3G52480について、敵対ベースのモデリングアプローチを使用して決定された理想的な遺伝子発現プロファイル600の例を示す。理想的な遺伝子発現プロファイル600が、線形回帰(linear regression、LR)モデルのSHAPベースのXAIで同定された遺伝子AT2G45660、AT2G45660、AT5G44590、AT3G52480について、敵対ベースのモデリングアプローチを使用して決定された理想的な遺伝子発現プロファイル605に対する比較で示される。また、遺伝子編集推奨が、理想的な遺伝子発現プロファイル600/605内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御することであるかどうかを理解するために、サンプル1~3にわたる植物種についての遺伝子発現の自然に生じる分布に対する理想的な遺伝子発現プロファイル600/605の比較である。この事例では、推奨は、比較に基づいて、AT5G44590を上方制御するが、一方で、AT2G45660、AT2G45660、及びAT3G52480を下方制御する。
【0056】
理解されるべきであるように、他のモデリングアプローチが企図され、実装され得る。例えば、人工ニューラルネットワーク(artificial neural network、ANN)は、遺伝子編集予測のために訓練され得、遺伝子発現プロファイルは、訓練されたANNを使用して最適化され得る。さらに、本明細書に説明されるモデリングアプローチは、遺伝子編集をモデリングするための単一のアプローチを使用することに焦点を当てているが、これらのアプローチのうちの2つ以上は、アプローチのアンサンブルとして組み合わせて使用され得、結果的に得られる遺伝子発現プロファイルは、理想的な遺伝子発現プロファイルを取得するために選択又は組み合わせられ得る。例えば、全てのモデルは、各試験インスタンスに対して予測(投票)を行い、最終的な出力予測は、投票の過半数を受ける予測である。いずれの予測も投票の過半数を獲得しない場合、アンサンブル法は所与のインスタンスに対して安定した予測を行うことができなかったと決定され得る。あるいは、平均化技術が使用され得、この場合、テストデータセットのインスタンスごとに、平均予測が計算される。重みもまた、1つ以上のモデルの重要度を増加させるために、これらのアンサンブル技術のうちのいずれかにおいて実装され得る。
【0057】
III.遺伝子発見及び編集システム
図7は、遺伝子発見及び編集システム700のブロック図を示す。遺伝子発見及び編集システム700は、本明細書に説明されるシステム、構成要素、及び技術が実装される1つ以上の場所にある1つ以上のコンピューティングデバイス上にコンピュータプログラムとして実装されるシステムの例である。遺伝子発見及び編集システム700は、植物システム705、遺伝子発見システム707、遺伝子編集モデリングシステム710、及び遺伝子編集システム712を含む。
【0058】
植物システム705は、植物715から開始することによって植物生成ライフサイクルを実行し得る。植物715は、植物組織717を取得するために、自動化システム、例えば、ロボット制御システムによって、又は手動のいずれかで解剖され得る。次いで、植物組織715は、改変された組織721を生成するために、ライブラリ720を使用して改変され得る。ライブラリ720は、試薬の複数のバージョンのコレクション、例えば、代謝経路の多くの異なるバージョンを与えるために組み合わせてアセンブルされたDNA配列のコレクションである。ライブラリ720は、例えば、プラスミド、直鎖状DNA断片、合成ガイドRNA(synthetic guide RNA、sgRNA)、RNA、タンパク質などを含み得る。ライブラリ720は、植物の以前のライフサイクル中にモデルから生成された出力から、又は別のソース、例えば、専門家からの手動設計から、ライブラリ720のための情報をコンパイルするライブラリ設計システム725から生成され得る。
【0059】
改変された組織システム722は、例えば、栽培において、改変された組織721を新しい植物727に成長させ、新しい植物727を栽培システム730に提供する。栽培システム730は、植物727が成長する環境条件及び管理実践を指示する環境及び管理実践システム732によって支配され得る。栽培システム730は、植物727が成長するにつれてそれらから組織サンプル及び測定値を取得し、サンプル及び測定値からデータを抽出し、抽出されたデータを環境及び管理実践システム732、マルチオミクスシステム735、及び/又はモデリングシステム737に提供する。データ抽出は、組織サンプリング、分子抽出及び精製、並びに分子定量化又は同定を含み得、植物の任意の又は多数の別個の組織/器官において、成長の様々な時点で、又は植物727のライフサイクル全体を通して連続的に起こり得る。環境及び管理実践システム732は、抽出されたデータ(栽培システム730から受信される場合)、管理実践プロファイルデータ、及び環境条件プロファイルデータを、様々なモデル740の開発のためにモデリングシステム737に提供する。管理実践プロファイルデータは、様々な成長の時点における、又はプラント727のライフサイクル全体を通して連続的な、植物727の成長の管理の任意の調整可能な態様、例えば、肥料又は水などの入力、植え付け、施肥、収穫のタイミングなどを含み得る。データ環境条件プロファイルデータは、様々な成長の時点で、又はプラント727のライフサイクル全体を通して連続的に、植物727が曝露される場所特有の環境条件、例えば、温度、降水量、土壌特性などを含み得る。マルチオミクスシステム735は、サンプル及び測定から抽出されたデータを追跡し、抽出されたデータから小型植物のマルチオミクスプロファイル(例えば、遺伝子発現プロファイル)を生成し、様々なモデル740の開発のためにマルチオミクスプロファイルをモデリングシステム737に提供する。
【0060】
モデリングシステム737は、遺伝子発見及び編集システム700が、次いで、現在の植物727の成長及び所望の表現型を有する新しい植物の生成をガイドするために使用し得る、様々なモデル(例えば、機械学習モデル)の開発(例えば、設計、訓練、検証、及び展開)のために受信したデータ(例えば、植物抽出データ、マルチオミクスプロファイル、管理実践プロファイル、環境条件プロファイルなど)を使用する。例えば、モデリングシステム737は、訓練又は更新された機械学習モデルを、(i)新しい植物の改変をガイドするためにライブラリ設計システム725、(ii)植物727の成長及び管理をガイドするために環境及び管理実践システム732、(iii)表現型予測を生成し、遺伝子発見を容易にするために遺伝子発見システム707、並びに(iv)遺伝子編集をモデリングするために遺伝子編集モデリングシステム710に提供し、理想的な遺伝子発現プロファイルを生成し、遺伝子編集の推奨を容易にし得る。
【0061】
遺伝子発見システム707は、1つ以上の植物(例えば、植物システム705で成長している植物727)についての入力データ(例えば、植物抽出データ、マルチオミクスシステム735からの遺伝子発現プロファイルなどのマルチオミクスプロファイル、管理実践システム732からの管理実践プロファイル、環境条件プロファイル)を取得し、データを1つ以上のモデル750に入力するための発見コントローラ745を含む。入力データは、環境及び管理実践システム732、栽培システム730、マルチオミクスシステム732、及び/又はモデリングシステム737から取得され得る。1つ以上のモデル750(例えば、
図1に関して説明される深層学習アーキテクチャ130)は、入力データの特徴(例えば、マルチオミクスプロファイル内の遺伝子発現プロファイル)と表現型との間の関係又は相関を学習することによって、表現型752を出力データとして予測するタスクのために構築される。1つ以上のモデル750は、モデリングシステム737(様々なモデル740)から取得され得る。遺伝子発見システム707は、説明可能な技術を1つ以上のモデル750に適用して、入力データのセット(例えば、遺伝子発現プロファイルのセット)内の全ての予測に関する各特徴の重要度を取得するためのXAIモジュール755をさらに含む。いくつかの事例では、入力として遺伝子発現プロファイルを使用する、表現型752を予測する1つ以上のモデル750は、1つ以上のモデル750の出力又は予測に対して最大の寄与又は影響を有する特徴(例えば、1つ以上の遺伝子)を同定するためにXAIモジュール755を介して検査される。XAIモジュール755の主な目標は、表現型の決定に重要な役割を果たす遺伝子などの特徴を同定する重要度の尺度(例えば、Shapley値)を定義することである。XAIモジュール755は、その特定の植物種及び表現型についての分子制御プロセスに関与する候補遺伝子であり得る特徴のセット757を出力し、遺伝子編集をモデリングするために遺伝子編集モデリングシステム710によって使用される。
【0062】
遺伝子編集モデリングシステム710は、表現型752及び特徴のセット757を取得し、表現型752及び特徴のセット757を1つ以上のモデル762に入力するためのモデリングコントローラ760を含む。1つ以上のモデル762は、モデリングシステム737(様々なモデル740)から取得され得る。1つ以上のモデル762(例えば、
図1に関して説明されるモデラ150)は、遺伝子編集をモデリングし、理想的な遺伝子発現プロファイル765を生成するために、1つ以上の様々なアプローチ(A)~(N)を使用する。理想的な遺伝子発現プロファイル765は、表現型752を最大化、最小化、又はそうでなければ調節するための特徴のセット757内の全ての遺伝子に対する遺伝子発現の推奨である。遺伝子編集モデリングシステム710は、遺伝子編集システム712によって使用され得る遺伝子編集推奨775を決定するために、理想的な遺伝子発現プロファイル765を植物種についての遺伝子発現の自然に生じる分布(例えば、マルチオミクスプロファイル内の遺伝子発現)と比較するための推奨モジュール770をさらに含む。推奨775は、理想的な遺伝子発現プロファイル765内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するためのものであり得る。いくつかの事例では、推奨モジュール770は、理想的な遺伝子発現プロファイル765に基づいて遺伝子の発現を調節することになる編集をどこで行うかを決定するために1つ以上のモデル772を使用する。これらは、複数の塩基対の領域であり得、これらの領域に対してどのようにコンビナトリアル編集を行うかについての戦略、又は特定の編集が決定された正確な場所を潜在的に有する。1つ以上のモデル772は、遺伝的に多様な植物集団から集められた標的遺伝子のゲノムコンテキストから標的遺伝子の発現レベルを予測するニューラルネットワーク又は非線形モデルであり得る。1つ以上のモデル772は、対応する発現値と組み合わせて、標的遺伝子のコンテキストを考慮して、以下の集団データのうちのいずれかに対して訓練され得る:ゲノム配列、SNP、メチローム、クロマチンアクセシビリティなど。ゲノム編集の推奨は、1つ以上のモデル772の入力特徴アブレーション解析とともに特徴重要度の調査に続いて、標的遺伝子の発現レベルから抽出され得る。
【0063】
遺伝子編集システム712は、推奨775に従って、所与の植物種(例えば、植物727)のゲノムに対して遺伝子編集又は摂動を行う。遺伝子編集システムの例としては、CRISPR/Cas9、CRISPR/Cpf1、CRISPR/Cas12、CRISPR塩基編集、CRISPR阻害、制限酵素、ジンクフィンガヌクレアーゼ、転写活性化因子様エフェクタヌクレアーゼ(TALEN)などが挙げられる。例えば、遺伝子編集システム712は、1つ以上の標的遺伝子の遺伝子制御ゲノム領域(プロモータ、5’UTR、3’UTR、ターミネータ)において、それらの発現を改変(上方制御又は下方制御)するために、1つ以上のコンビナトリアル編集(「バッシング」)を行い得る。追加的又は代替的に、遺伝子編集システム712は、1つ以上の標的遺伝子の転写因子の結合部位に対して、発現に対するそれらの効果を調節(上方制御又は下方制御)するために、1つ以上の特定のコンビナトリアル編集を行い得る。追加的又は代替的に、遺伝子編集システム712は、遺伝子操作を介して、1つ以上の標的遺伝子の発現に影響(上方制御又は下方制御)し得る、ゲノム上の任意の他の領域の1つ以上のゲノム改変を行い得る。追加的又は代替的に、遺伝子編集システム712は、CRISPRi(標的阻害)、CRISPRa(標的活性化)、RNAiなどのように、ゲノム改変を伴わずに、1つ以上の標的遺伝子の発現を調節(上方制御又は下方制御)し得る。システムはまた、システム710によって決定された編集が集団において既にアクセス可能である場合、交差を行うこともできる。次いで、所与の植物種の改変されたゲノムは、ライブラリ720及び改変された組織システム722による使用のためにライブラリ設計システム725に送られて、例えば、栽培において、改変されたゲノムからの改変された組織を新しい植物に成長させ得る。
【0064】
IV.遺伝子発見及び編集技術
図8は、遺伝子発見及び編集のための処理の例を例示する簡略化されたフローチャート800である。
図8に図示される処理は、それぞれのシステム、ハードウェア、又はそれらの組み合わせの1つ以上の処理ユニット(例えば、プロセッサ、コア)によって実行されたソフトウェア(例えば、コード、命令、プログラム)において実装され得る。ソフトウェアは、非一時的記憶媒体(例えば、メモリデバイス)に記憶され得る。
図8に提示され、以下に説明される方法は、例示的であり、非限定的であることが意図されている。
図8は、特定のシーケンス又は順序で起こる様々な処理ステップを図示するが、これは、限定を意図するものではない。ある特定の代替的な実施形態では、ステップは、いくつかの異なる順序で実施されてもよく、又はいくつかのステップは、並行して実施されてもよい。
図1及び
図7に図示される実施形態などのいくつかの実施形態では、
図8に図示される処理は、
図1及び
図7に関して説明される機械学習パイプライン100並びに/又は遺伝子発見及び編集システム700の構成要素によって実施され得る。
【0065】
プロセス800は、遺伝子発現プロファイルの訓練セットが、植物の組織サンプルにおいて測定された遺伝子のセットについて取得される、ブロック805で始まる。ブロック810では、遺伝子発現プロファイルの訓練セットが、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された予測モデルに、反復的に入力される。ブロック815では、予測モデルが、損失又は誤差関数を最小化することによって、遺伝子発現プロファイルの訓練セットに対して訓練される。いくつかの実施形態では、予測モデルは、フィードフォワードニューラルネットワークなどの深層ニューラルネットワークである。他の実施形態では、予測モデルは、ガウス過程モデルなどの別のタイプの非線形モデルである。予測モデルのための訓練プロセスの各反復は、訓練及び/又は調整セットからデータセットを入力することと、モデルパラメータのセットを使用する損失又は誤差関数(例えば、改変された交差エントロピー損失)の値が、以前の反復における異なるモデルパラメータのセットを使用する損失又は誤差関数の値よりも小さくなるように、モデルパラメータのセット(定義されたハイパーパラメータのセットで構成された)を学習することと、を伴い得る。損失又は誤差関数は、ラベル/グラウンドトゥルースと、遺伝子発現プロファイルの訓練セットに対する推論された表現型などの推論されたデータとの間の差を測定するために構築され得る。
【0066】
ブロック820では、訓練に応答して、非線形アルゴリズムは、植物の表現型を予測するために使用される遺伝子発現プロファイルの訓練セット内の関係及び相関を学習する。追加的に、訓練に応答して、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関と関連付けられた学習されたモデルパラメータのセットが、予測モデルのために取得される。ブロック825では、訓練された予測モデルは、学習されたモデルパラメータのセットを有する予測モデルとして展開される。
【0067】
ブロック830では、遺伝子発現プロファイルのセットが、植物の組織において測定された遺伝子のセットについて取得される。ブロック835では、遺伝子発現プロファイルのセットは、出力データとして表現型を予測するタスクのために構築された予測モデルに、入力される。ブロック840では、予測モデルが、遺伝子発現プロファイルのセットの特徴と表現型との間の関係又は相関に基づいて、植物についての表現型の予測を生成するために使用される。ブロック845では、表現型を予測するために予測モデルによってなされた決定が、説明可能な人工知能システムによって解析され、解析することが、(i)表現型の予測で使用される特徴についての特徴重要度スコアのセットを生成することと、(ii)特徴の各々と関連付けられた特徴重要度スコアに基づいて、特徴をランク付けするか又はそうでなければソートすることと、を含む。説明可能な人工知能システムは、予測モデルによってなされた決定を解析するために、SHAP、統合勾配、LIME、アテンションベースのニューラルネットワークモデル、又はLRPを使用し得る。ブロック850では、予測に対して最大の寄与又は影響を有する表現型についての候補遺伝子標的のセットが、ランク付けされた特徴に基づいて同定され、例えば、予測に対して最大の寄与又は影響を有する上位1、5、10、15などの遺伝子が、ランク付けされた特徴に基づいて候補遺伝子標的として同定される。
【0068】
ブロック855では、編集されたときに、期待される表現型変化を実現するために遺伝子発現プロファイルにおいて必要な変化を提供する、同定された候補遺伝子標的のセットに基づいて、ゲノム領域のセットが同定される。ゲノム領域のセットを同定することは、候補遺伝子標的のセットの遺伝子編集をモデリングするタスクのために構築された遺伝子編集モデルに候補遺伝子標的のセットを入力することと、モデリングされた遺伝子編集に基づいて、候補遺伝子標的のセット内の各遺伝子をゲノム編集し、したがって、表現型を最大化、最小化、又はそうでなければ調節するための最適な遺伝子標的のセットを同定することと、を含む。ブロック860では、遺伝子編集モデルが、候補遺伝子標的のセット内の各遺伝子をゲノム編集するための最適な遺伝子標的のセットに基づいて、表現型のための理想的な遺伝子発現プロファイルを生成するために使用される。説明可能な人工知能システムがSHAPを使用する事例では、遺伝子編集モデルは、Shapley値から直接的に制御の方向性を確認することによって遺伝子編集をモデリングし得る。予測モデルがガウス過程モデルである事例では、遺伝子編集モデルは、2つの構成要素、(i)根底にあるガウス過程関数のガウス過程モデル、及び(ii)様々なデータ点をサンプリングするための獲得関数を含む、ベイズ最適化アルゴリズムを使用して遺伝子編集をモデリングし得る。予測モデルが深層ニューラルネットワークである事例では、遺伝子編集モデルは、深層ニューラルネットワークに対して敵対的攻撃を実施することによって遺伝子編集をモデリングし得、敵対的攻撃が、深層ニューラルネットワークの重みを凍結することと、制約された入力の空間にわたって表現型を最大化、最小化、又はそうでなければ調節するように最適化することと、を含む。
【0069】
ブロック865では、理想的な遺伝子発現プロファイルが、植物についての遺伝子発現の自然に生じる分布と比較される。ブロック870では、理想的な遺伝子発現プロファイル内の特定の遺伝子、遺伝子のサブグループ、又は各遺伝子を上方制御又は下方制御するための遺伝子編集推奨が、既存のサンプルにわたる推奨される発現プロファイルと自然に生じる発現プロファイルとの間の比較に基づいて決定される。ブロック875では、遺伝子編集システムが、遺伝子編集推奨に従って植物のゲノムに対して遺伝子編集又は摂動を行うために使用される。
【0070】
図9は、所与の表現型について重要な遺伝子セット又はクラスタを同定するための処理の例を例示する簡略化されたフローチャート900である。この例示的なプロセスでは、所与の表現型の予測において有意である遺伝子のセット又はクラスタは、深層ニューラルネットワークの第2の層におけるSHAP/XAI値の解釈を介して同定される。しかしながら、本明細書に説明される全ての他のXAI及びモデリング技術(例えば、LIME、統合勾配、ベイズ最適化、敵対的攻撃など)は、単一の遺伝子情報に対して直接的に適用される代わりに、このクラスタリング技術を用いて同様の様式で適用され得ることが理解されるべきである。
図9に図示される処理は、それぞれのシステム、ハードウェア、又はそれらの組み合わせの1つ以上の処理ユニット(例えば、プロセッサ、コア)によって実行されたソフトウェア(例えば、コード、命令、プログラム)において実装され得る。ソフトウェアは、非一時的記憶媒体(例えば、メモリデバイス)に記憶され得る。
図9に提示され、以下に説明される方法は、例示的であり、非限定的であることが意図されている。
図9は、特定のシーケンス又は順序で起こる様々な処理ステップを図示するが、これは、限定を意図するものではない。ある特定の代替的な実施形態では、ステップは、いくつかの異なる順序で実施されてもよく、又はいくつかのステップは、並行して実施されてもよい。
図1及び
図7に図示される実施形態などのいくつかの実施形態では、
図9に図示される処理は、
図1及び
図7に関して説明される機械学習パイプライン100並びに/又は遺伝子発見及び編集システム700の構成要素によって実施され得る。
【0071】
プロセス900は、遺伝子発現プロファイルの訓練セットが、植物の組織サンプルにおいて測定された遺伝子のセットについて取得される、ブロック905で始まる。ブロック910では、遺伝子発現プロファイルの訓練セットが、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関を学習する非線形アルゴリズムにより、出力データとして表現型を予測するタスクのために構築された深層ニューラルネットワークモデル(例えば、フィードフォワードニューラルネットワークモデル)に、反復的に入力される。ブロック915では、深層ニューラルネットワークモデルが、損失又は誤差関数を最小化することによって、遺伝子発現プロファイルの訓練セットに対して訓練される。深層ニューラルネットワークモデルのための訓練プロセスの各反復は、訓練及び/又は調整セットからデータセットを入力することと、モデルパラメータのセットを使用する損失又は誤差関数(例えば、改変された交差エントロピー損失)の値が、以前の反復における異なるモデルパラメータのセットを使用する損失又は誤差関数の値よりも小さくなるように、モデルパラメータのセット(定義されたハイパーパラメータのセットで構成された)を学習することと、を伴い得る。損失又は誤差関数は、ラベル/グラウンドトゥルースと、遺伝子発現プロファイルの訓練セットに対する推論された表現型などの推論されたデータとの間の差を測定するために構築され得る。
【0072】
ブロック920では、訓練に応答して、非線形アルゴリズムは、植物の表現型を予測するために使用される遺伝子発現プロファイルの訓練セット内の関係及び相関を学習する。追加的に、訓練に応答して、遺伝子発現プロファイルの特徴と表現型との間の関係又は相関と関連付けられた学習されたモデルパラメータのセットが、深層ニューラルネットワークモデルのために取得される。
【0073】
ブロック925では、訓練された深層ニューラルネットワークモデルは、所与の表現型に対する重要な遺伝子のクラスタ又はセットを同定するために改変される。いくつかの事例では、N個の層及び入力次元D(ここで、Dは、発現情報が取得された遺伝子の数である)を伴う訓練された深層ニューラルネットワークモデルが与えられると、深層ニューラルネットワークモデル内の第1の隠れ層が分離され、第1の隠れ層の各ノードと関連付けられた重み又はモデルパラメータのセットが深層ニューラルネットワークモデルから抽出され得る。第1の隠れ層内の各ノードについて、各重みベクトルの上位K個の構成要素(絶対値)をとることによって、元の入力層内のノードとのクラスタ関係が定義され、Kは、クラスタの理想的なサイズであると定義される。第1の隠れ層内の各ノード(活性化ステップの前)は、入力の線形結合によって表され得るため、このクラスタリング機構は、第1の隠れ層内の各ノードから、第1の隠れ層内のノードに対して最も強い影響を有する遺伝子のセットへのマップを直観的に作成する。その特定のノードに対応する重みの分布に基づいて隠れ層のノードごとに固有のkを柔軟に定義する方法、又は上位クラスタ内の遺伝子をとる、重み自体に対する別個のクラスタリングステップを含む、上位kを越える代替的なクラスタリングが、このマッピングを作成するために使用され得る。
【0074】
第1の隠れ層における各ノードと入力空間におけるその対応する遺伝子との間にマッピングが作成されると、深層ニューラルネットワークモードの入力層が除去され得、SHAPなどのXAI又は統合勾配が、ニューラルネットワークに対する特徴重要度スコアを取得するために、下流処理で使用され得る。深層ニューラルネットワークの第1の隠れ層が入力層になるため、特徴重要度スコアのセットが、第1の隠れ層内の全ての単一ノードごとに取得される。第1の隠れ層内の全ての単一ノードごとに取得された特徴重要度スコアのセットは、第1の隠れ層内のノードの元の遺伝子へのマッピングと結合されて、これらの遺伝子のクラスタ又はセットについての特徴重要度スコアのセットを得ることができる。
【0075】
ブロック930では、改変された深層ニューラルネットワークモデルは、モデルパラメータの学習されたセットと、元の遺伝子への第1の隠れ層内のノードのマッピングとを有する深層ニューラルネットワークモデルとして展開される。ブロック935では、改変された深層ニューラルネットワークモデルは、
図8のブロック830~870に関して説明されるように、遺伝子発見及び編集のために使用され得る。
【0076】
V.実施例
様々な実施形態で実装されるシステム及び方法は、以下の例を参照することによってより良好に理解され得る。
【0077】
実施例1:シーケンシャルニューラルネットワークを構築して、シロイヌナズナ(Arabidopsis thaliana)の自然遺伝的変異体系統が生殖期に達するのにかかる時間(開花までの時間)をモデリングした。一例では、モデルを、葉から収集された公的に入手可能なトランスクリプトームに対して訓練した(Kawakatsu et al., 2016, Cell, 166(2):492-505)。トランスクリプトームデータは、728個の天然遺伝的変異体について利用可能であり、そのうちの620個は、開花時期情報(抽苔開始日数)を保有していた。トランスクリプトームデータを、RNA-seqによって実験的に生成し、分位数を正規化し、その後、元の24,175個の転写物カウント(特徴)を単位分散に標準化することによって前処理した。ホールドアウトデータセットを、モデル訓練の前に作成し、これは、元のデータの20%を含有した。データの残りの80%を使用してモデルを訓練した。これらは、(1)リッジ回帰モデルと、(2)AutoKeras実装のアルゴリズムによって調整されたハイパーパラメータを有する多数のシーケンシャルニューラルネットワークと、を含んだ(Jin et al.,2019,In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining(pp.1946-1956))。20%検証データセットに対する最小平均二乗誤差として測定された最高性能のニューラルネットワークモデルアーキテクチャを、その後、完全なデータセットに対して交差検証した。ピアソン相関及びスピアマン順位相関係数を平均して、同じホールドアウトデータセットに対するモデルの性能を比較した。SHapley Additive exPlanationsを適用した後に取得された特徴重要度スコアを、データの異なる分割に対して訓練されたモデルにわたって平均し、その後、ランクソートした。モデルが影響力のある遺伝子のセットを同定した程度を、関心対象の表現型に関与することが科学文献において知られている遺伝子のリストに対してベンチマークした。モデルからの出力としての上位の影響力のある遺伝子の、提案された変化の方向性を含む発現レベルの推奨を、表現型値との相関解析によってさらに確認した。遺伝子発現における変化の方向性に影響するゲノム編集を、標的遺伝子の配列を取り囲む制御配列のモデリングに基づいて提案し、ChIP-seq及びエピゲノムマークなどのクロマチンアクセシビリティ情報を追加的に組み込んだ。遺伝子編集のために提案された制御領域を、シロイヌナズナ(Arabidopsis)におけるコンビナトリアルCRISPR/Cas9編集による遺伝子改変の標的とした。このプロセスは、シロイヌナズナ(Arabidopsis)の集団における標的遺伝子の制御領域において大規模な遺伝的変異を生じる。これらの集団からの分子及び表現型データのさらなる獲得は、現在のモデルの組の性能を反復的に改善することが期待される。
【0078】
VI.追加の考慮事項
具体的な詳細は、実施形態の完全な理解を提供するために、上記の説明に与えられている。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解される。例えば、回路は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図で示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。
【0079】
上記に説明された技術、ブロック、ステップ、及び手段の実装は、様々な方式で行われ得る。例えば、これらの技術、ブロック、ステップ、及び手段は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る。ハードウェア実装の場合、処理ユニットは、1つ以上の特定用途向け集積回路(application specific integrated circuit、ASIC)、デジタル信号プロセッサ(digital signal processor、DSP)、デジタル信号処理デバイス(digital signal processing device、DSPD)、プログラマブル論理デバイス(programmable logic device、PLD)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、上記に説明された機能を実施するように設計された他の電子ユニット、及び/又はそれらの組み合わせの中に実装され得る。
【0080】
また、実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として図示されるプロセスとして説明され得ることに留意されたい。フローチャートは、順次プロセスとして動作を説明し得るが、動作の多くは、並列又は同時に実施されてもよい。加えて、動作の順番は、再配置されてもよい。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加のステップを有してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、呼び出し関数又はメイン関数への関数のリターンに対応する。
【0081】
さらに、実施形態は、ハードウェア、ソフトウェア、スクリプト言語、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、及び/又はそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、スクリプト言語、及び/又はマイクロコードに実装されるとき、必要なタスクを実施するためのプログラムコード又はコードセグメントは、記憶媒体などの機械可読媒体に記憶され得る。コードセグメント又は機械実行可能命令は、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、スクリプト、クラス、又は命令、データ構造、及び/若しくはプログラムステートメントの任意の組み合わせを表し得る。コードセグメントは、情報、データ、引数、パラメータ、及び/又はメモリ内容を渡す及び/又は受信することによって、別のコードセグメント又はハードウェア回路に結合され得る。情報、引数、パラメータ、データなどは、メモリ共有、メッセージ通過、チケット通過、ネットワーク伝送などを含む任意の好適な手段を介して渡されるか、転送されるか、又は送信され得る。
【0082】
ファームウェア及び/又はソフトウェア実装では、方法論は、本明細書に説明される機能を実施するモジュール(例えば、手順、機能など)を用いて実装され得る。命令を有形で具現化する任意の機械可読媒体が、本明細書に説明される方法論を実装する際に使用され得る。例えば、ソフトウェアコードは、メモリ内に記憶され得る。メモリは、プロセッサ内又はプロセッサの外部に実装され得る。本明細書で使用される場合、「メモリ」という用語は、任意のタイプの長期、短期、揮発性、不揮発性、又は他の記憶媒体を指し、任意の特定のタイプのメモリ若しくはメモリの数、又はメモリが記憶される媒体のタイプに限定されるものではない。
【0083】
さらに、本明細書に開示されるように、「記憶媒体」、「記憶」、又は「メモリ」という用語は、読み出し専用メモリ(read only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、磁気RAM、コアメモリ、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、及び/又は情報を記憶するための他の機械可読媒体を含む、データを記憶するための1つ以上のメモリを表し得る。「機械可読媒体」という用語は、限定されるものではないが、ポータブル若しくは固定記憶デバイス、光学記憶デバイス、無線チャネル、並びに/又は命令及び/若しくはデータを含有若しくは担持する、記憶することができる様々な他の記憶媒体を含む。
【0084】
本開示の原理は、特定の装置及び方法と関連して上記に説明されてきたが、この説明は、単に例としてなされ、本開示の範囲に対する限定ではないことを明確に理解されたい。
【国際調査報告】