IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7522936グラフニューラルネットワークに基づく遺伝子表現型予測
<>
  • 特許-グラフニューラルネットワークに基づく遺伝子表現型予測 図1
  • 特許-グラフニューラルネットワークに基づく遺伝子表現型予測 図2
  • 特許-グラフニューラルネットワークに基づく遺伝子表現型予測 図3
  • 特許-グラフニューラルネットワークに基づく遺伝子表現型予測 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-17
(45)【発行日】2024-07-25
(54)【発明の名称】グラフニューラルネットワークに基づく遺伝子表現型予測
(51)【国際特許分類】
   G06N 3/04 20230101AFI20240718BHJP
   G06N 3/0464 20230101ALI20240718BHJP
   G16B 20/30 20190101ALI20240718BHJP
   G16B 40/20 20190101ALI20240718BHJP
【FI】
G06N3/04 100
G06N3/0464
G16B20/30
G16B40/20
【請求項の数】 10
(21)【出願番号】P 2023543455
(86)(22)【出願日】2023-05-19
(65)【公表番号】
(43)【公表日】2024-07-09
(86)【国際出願番号】 CN2023095224
(87)【国際公開番号】W WO2023217290
(87)【国際公開日】2023-11-16
【審査請求日】2023-07-19
(31)【優先権主張番号】202211238697.7
(32)【優先日】2022-10-11
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】章 依依
(72)【発明者】
【氏名】呉 翠玲
(72)【発明者】
【氏名】徐 曉剛
(72)【発明者】
【氏名】王 軍
(72)【発明者】
【氏名】李 蕭縁
(72)【発明者】
【氏名】虞 舒敏
【審査官】渡辺 一帆
(56)【参考文献】
【文献】中国特許出願公開第113593635(CN,A)
【文献】中国特許出願公開第106096327(CN,A)
【文献】中国特許出願公開第114333986(CN,A)
【文献】特開2022-117452(JP,A)
【文献】LIU, Yang et al.,"Phenotype Prediction and Genome-Wide Association Study Using Deep Convolutional Neural Network of Soybean",Frontiers in Genetics [online],2019年,Vol. 10,pp. 1-10,[retrieved on 2024.06.13], Retrieved from the Internet: <URL: https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2019.01091/full>,<DOI: 10.3389/fgene.2019.01091>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/02-3/10
G16B 20/00-20/50
G16B 40/20
(57)【特許請求の範囲】
【請求項1】
特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築するステップであって、前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは2つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられるステップと、
前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集するステップと、
前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、
符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させるステップであって、前記グラフニューラルネットワークの各層のネットワークは、長さ3の1次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有されるステップと、
前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップと、
前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップと、を含む
ことを特徴とする遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法。
【請求項2】
前記遺伝子座検出の確率値に基づいて前記遺伝子データを符号化することは、
遺伝子座検出に基づく遺伝子型が0/0、0/1、1/1である確率値PLを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Pに換算することと、
【数1】
各前記遺伝子座について、得られた該遺伝子座の確率Pで、該遺伝子座に対応する遺伝子型表現として3次元ベクトル[a,b,c]を構成することであって、前記a、b、cは、それぞれ該遺伝子座の遺伝子型が0/0、0/1、1/1である確率を表すことと、
検出されなかった遺伝子座について、その遺伝子型表現をベクトル[0,0,0]で表すことと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記遺伝子データが前記グラフニューラルネットワークの各層のネットワークを順次通過する際に、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新する
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することは、
前記グラフニューラルネットワークの現在の層における各ノードcについて、
前記ノードcの1次近傍ノードからm個の候補ノードを構築するステップであって、mは0より大きい整数であるステップと、
前記ノードcのm個の候補ノードから、前記ノードcの近傍ノードとしてn個のノードを非復元抽出し、かつmがnより小さい場合、全てのm個の候補ノードを前記ノードcの近傍ノードとしてサンプリングするステップと、
前記ノードcの全ての近傍ノードの情報を集約して、前記ノードcの近傍情報
【数2】
を取得するステップと、
前記ノードcの前記近傍情報
【数3】
と前記ノードcの情報hを結合して得られる情報に対して畳み込み及び活性化操作を行い、前記グラフニューラルネットワークの現在の層のネットワークにおける前記ノードcの出力情報
【数4】
を取得し、
【数5】
を前記グラフニューラルネットワークにおける次の層のネットワークへの入力とするステップと、を含み、
ここで、前記ノードcの全ての近傍ノードの情報を集約する式は、
【数6】
となり、
ここで、hはノードcのi番目の近傍ノードの情報を表し、wはノードcのi番目の近傍ノードの重みを表し、
前記畳み込み及び活性化操作を行う具体的な式は、
【数7】
となり、
ここで、
【数8】
は前記グラフニューラルネットワークの現在の層のネットワークにおける前記ノードcの出力情報を表し、σは活性化関数を表し、Wは畳み込みカーネルパラメータを表し、hは前記グラフニューラルネットワークの現在の層のネットワークに入力された前記ノードcの情報を表す
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップは、
前記グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される3次元のベクトルを結合して、結合後のベクトルを得るステップと、
前記結合後のベクトルを前記多層パーセプトロンに入力し、前記多層パーセプトロンから出力される分類結果を得、前記分類結果を前記遺伝子データに対応する表現型分類結果とするステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップは、
s個の表現型をそれぞれクラスとしてk個の区間に均等に分けて、s×k次元の遺伝子型表現真値ベクトルを得るステップであって、s×k次元は前記表現型分類結果の次元と一致するステップと、
損失関数を用いて、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて、マルチ表現型教師あり訓練を行うステップと、を含む
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記損失関数は、焦点損失Focal Loss関数であり、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて分類損失を計算する式は、
【数9】
となり、
ここで、px,yは、特徴マップの横座標xと縦座標yにおける前記表現型分類結果の信頼度を表し、
【数10】
は、特徴マップの横座標xと縦座標yにおける前記表現型の遺伝子型表現真値ベクトルの真のクラスラベルを表し、1は正のサンプルを表し、0は負のサンプルを表し、γは0より大きい値であり、αは[0,1]の間の小数であり、γとαはいずれも訓練に関与しない固定値である
ことを特徴とする請求項6に記載の方法。
【請求項8】
分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、
符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得るステップであって、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記請求項1~7のいずれか1項に記載の方法により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークであるステップと、を含む
ことを特徴とするグラフニューラルネットワークに基づく遺伝子表現型予測方法。
【請求項9】
プロセッサとメモリとを含むデバイスであって、前記メモリにはプログラムが格納されており、当該プログラムが前記プロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法のステップが実施される
ことを特徴とする遺伝子表現型予測のためのグラフニューラルネットワークの訓練デバイス。
【請求項10】
プロセッサとメモリとを含むデバイスであって、前記メモリにはプログラムが格納されており、当該プログラムが前記プロセッサによって実行されると、請求項8に記載の方法のステップが実施される
ことを特徴とするグラフニューラルネットワークに基づく遺伝子表現型予測デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、知能計算育種分野に関し、特に、グラフニューラルネットワークに基づく遺伝子表現型予測及び対応するグラフニューラルネットワークの訓練に関する。
【背景技術】
【0002】
人類文明の発展過程に伴い、作物育種は主に、経験に基づく農業者の主観的判断、作物育種学科の確立、分子選抜育種という3つの歴史的段階を経てきた。現在、ビッグデータ人工知能などの学科の発展と、遺伝子編集、合成生物学などのゲノム指向の精密改良技術の確立に伴い、作物育種は知能育種という新たな時代を迎えた。
【0003】
高脂質・高タンパク質の植物である大豆は、食料生産の重要な構成部分である。大豆をいかにして高収量に選抜・育種するかは、現在、農学者が取り組んでいる問題である。ゲノミックセレクション(Genomic Selection)の提案は遺伝子育種に1つの方向を提供し、既存の代表的な方法として、最良線形不偏予測(Best Linear Unbiased Prediction、BLUP)、ゲノミック最良線形不偏予測(Genomic Best Linear Unbiased Prediction、GBLUP)、リッジ回帰最良線形不偏予測(Ridge Regression Best Linear Unbiased Prediction、RR-BLUP)、ラッソ回帰(Least Absolute Shrinkage and Selection Operator、LASSO)などがある。しかし、これらの方法の性能は、育種において期待される性能にはまだ程遠いものである。
【0004】
深層学習の発展に伴い、研究者は深層学習を育種分野への応用を試み始めた。例えば、西北農林科技大学のチームが提案した深層学習に基づく遺伝子表現型予測(DeepGS)アルゴリズムでは、畳み込みニューラルネットワークを構築することにより、小麦の表現型形質を予測でき、従来のゲノミックセレクションの性能を超えた。しかし、既存の深層学習に基づくゲノミックセレクションのほとんどは、単純な畳み込みニューラルネットワークを使用しており、遺伝子に関する事前知識が利用されていない。
【0005】
グラフニューラルネットワークは、事前知識グラフに基づいて訓練することができ、大きな効果を得ることができる。グラフニューラルネットワークは、スペクトルに基づく方法と空間領域に基づく方法に分けられ、グラフニューラルネットワーク(Graph Neural Network、GNN)、グラフ畳み込みネットワーク(Graph Convolutional Network、GCN)、グラフアテンションネットワーク(Graph Attention Network、GAT)などの方法を含む。まだ関連する研究の初期段階にある、育種に関する知識とグラフニューラルネットワークを組み合わせることは、今後の知能育種の大きな傾向である。
【発明の概要】
【0006】
従来技術の不足を解決し、遺伝子表現型予測の性能を高める目的を実現するために、本発明に用いられる技術的解決策は以下の通りである。
【0007】
本発明の実施形態は、遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を提供し、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法は、特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築するステップであって、前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは2つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられるステップと、前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集するステップと、前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させるステップであって、前記グラフニューラルネットワークの各層のネットワークは、長さ3の1次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有されるステップと、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップと、前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップと、を含む。
【0008】
さらに、前記遺伝子座検出の確率値に基づいて前記遺伝子データを符号化することは、遺伝子座検出に基づく遺伝子型が0/0、0/1、1/1である確率値PLを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Pに換算することと、
【数1】
各前記遺伝子座について、得られた該遺伝子座の確率Pで、該遺伝子座に対応する遺伝子型表現として3次元ベクトル[a,b,c]を構成することであって、前記a、b、cは、それぞれ該遺伝子座の遺伝子型が0/0、0/1、1/1である確率を表すことと、検出されなかった遺伝子座について、その遺伝子型表現をベクトル[0,0,0]で表すことと、を含む。
【0009】
さらに、前記遺伝子データが前記グラフニューラルネットワークの各層のネットワークを順次通過する際に、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することができる。具体的には、前記グラフニューラルネットワークの現在の層における各ノードcについて、前記ノードcの1次近傍ノードからm個の候補ノードを構築するステップであって、mは0より大きい整数であるステップと、前記ノードcのm個の候補ノードから、前記ノードcの近傍ノードとして置換せずにn個のノードをサンプリングし、かつmがnより小さい場合、全てのm個の候補ノードを前記ノードcの近傍ノードとしてサンプリングするステップと、前記ノードcの全ての近傍ノードの情報を集約して、前記ノードcの近傍情報
【数2】
を取得するステップと、前記ノードcの前記近傍情報
【数3】
と前記ノードcの情報hを結合して得られる情報に対して畳み込み及び活性化操作を行い、前記グラフニューラルネットワークの現在の層のネットワークにおける前記ノードcの出力情報
【数4】
を取得し、
【数5】
を前記グラフニューラルネットワークにおける次の層のネットワークへの入力とするステップと、を含むことができる。
【0010】
ここで、前記ノードcの全ての近傍ノードの情報を集約する式は、
【数6】
となり、
ここで、hはノードcのi番目の近傍ノードの情報を表し、wはノードcのi番目の近傍ノードの重みを表す。
【0011】
前記畳み込み及び活性化操作を行う具体的な式は、
【数7】
となり、
ここで、
【数8】
は現在の層のネットワークにおけるノードcの出力情報、すなわち次の層ネットワークの入力を表し、σは活性化関数を表し、Wは畳み込みカーネルパラメータを表し、hは現在の層のネットワークに入力された前記ノードcの情報を表す。
【0012】
さらに、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップは、前記グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される3次元のベクトルを結合して、結合後のベクトルを得るステップと、前記結合後のベクトルを前記多層パーセプトロンに入力し、前記多層パーセプトロンから出力される分類結果を得、前記分類結果を前記遺伝子データに対応する表現型分類結果とするステップと、を含む。
【0013】
さらに、前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップは、具体的には、s個の表現型をそれぞれクラスとしてk個の区間に均等に分けて、s×k次元の遺伝子型表現真値ベクトルを得るステップであって、s×k次元は前記表現型分類結果の次元と一致するステップと、損失関数を用いて、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて、マルチ表現型教師あり訓練を行うステップと、を含むことができる。
【0014】
前記損失関数は、焦点損失関数Focal Lossであってもよく、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて分類損失を計算する式は、
【数9】
となり、
ここで、px,yは、特徴マップの横座標xと縦座標yにおける前記表現型分類結果の信頼度を表し、
【数10】
は、当該位置における前記表現型の遺伝子型表現真値ベクトルの真のクラスラベルを表し、1は正のサンプルを表し、0は負のサンプルを表し、γは0より大きい値であり、αは[0,1]の間の小数であり、γとαはいずれも訓練に関与しない固定値である。
【0015】
本発明の実施形態は、グラフニューラルネットワークに基づく遺伝子表現型予測方法を提供し、前記グラフニューラルネットワークに基づく遺伝子表現型予測方法は、分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得るステップと、を含む。ここで、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記方法により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークである。
【0016】
本発明の実施形態は、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を実現するための、遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置を提供し、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置は、グラフニューラルネットワーク構築モジュールと、データ取得モジュールと、プリコーディングモジュールと、遺伝子データ入力モジュールと、分類モジュールとを含む。前記グラフニューラルネットワーク構築モジュールは、遺伝子座と表現型との相関性に基づいて、遺伝子に対してグラフニューラルネットワークを構築し、ノードは遺伝子座を表し、エッジは2つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられる。前記データ取得モジュールは、サンプルの遺伝子データを収集し、サンプルに対応する表現型データを取得し、グラフニューラルネットワークの訓練と検証のための訓練セットと検証セットの分割を行う。前記プリコーディングモジュールは、訓練データについて、遺伝子座検出に基づいて遺伝子データをプレコーディングし、遺伝子座及び対応する遺伝子型を得る。前記遺伝子データ入力モジュールは、符号化された遺伝子データを構築されたグラフニューラルネットワークに入力し、各層のネットワークは、長さ3の1次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有される。前記分類モジュールは、各ノードの出力結果を結合し、結合後の結果を多層パーセプトロンに入力し、表現型分類結果を出力し、損失関数に基づいてモデルを教師あり訓練する。
【0017】
本発明の実施形態は、前記グラフニューラルネットワークに基づく遺伝子表現型予測方法を実現するための、グラフニューラルネットワークに基づく遺伝子表現型予測装置を提供し、前記グラフニューラルネットワークに基づく遺伝子表現型予測装置は、分類対象の遺伝子データをプリコーディングモジュールによって符号化した後、遺伝子データ入力モジュールを通過させ、訓練された分類モジュールに入力し、分類対象の遺伝子データに対応する表現型結果を得る。
【0018】
本発明の利点及び有益な効果は、まず、遺伝子表現型の間の相関性の事前知識を利用して遺伝子グラフニューラルネットワークを構築し、相関性の弱い遺伝子座を除去することにより、入力遺伝子の次元を効果的に削減し、それによって次元削減及びノイズ除去の目的を達成する。また、表現型を複数の区間に分けて分類予測を行うことにより、訓練の難易度を効果的に低減させ、モデルアルゴリズムの安定性を向上させることができ、かつ複数の表現型の同時訓練・予測が可能である。本発明が提供する技術的解決策は、rrBLUPのような従来のゲノミックセレクションと比較して、ピアソン相関係数(Pearson Correlation Coefficient)の20~30%の向上を含む、個々の表現型の予測においてより優れた性能を有する。
【図面の簡単な説明】
【0019】
図1】本発明の一実施形態による遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法のフローチャートである。
図2】本発明の一実施形態によるグラフニューラルネットワークに基づく遺伝子表現型予測方法のフローチャートである。
図3】本発明の一実施形態によるグラフニューラルネットワークに基づく遺伝子表現型分類認識のための簡略化されたモデルアーキテクチャ図である。
図4】本発明の一実施形態による遺伝子表現型予測のためのグラフニューラルネットワークの訓練デバイスの構造概略図である。
【発明を実施するための形態】
【0020】
以下、添付図面と合わせて本発明の具体的な実施形態について詳細に説明する。本明細書で説明される具体的な実施形態は、本発明を例示及び説明するためだけのものであり、本発明を限定することを意図するものではないことを理解されたい。
【0021】
図1に示すように、本発明の一実施形態によれば、遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を提供する。方法は、以下のステップS110~ステップS160を含んでもよい。
【0022】
ステップS110において、特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築する。構築されたグラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは2つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられる。
【0023】
本発明の一実施形態では、以下の表1に示す大豆の遺伝子座と表現型との相関性情報に基づいて、大豆遺伝子のグラフニューラルネットワークを構築することができる。ここで、遺伝子座は39個あり、2つの遺伝子座が同じ表現型と相関する回数が多いほど、エッジの重みが高くなる。したがって、エッジの重みは、遺伝子座の間の関連度を反映することができる。
【表1】
【0024】
ステップS120において、前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集する。ここで、訓練データを、訓練セットと検証セットに分割することができ、それぞれグラフニューラルネットワークを訓練と検証するために用いられる。
【0025】
本発明の一実施形態では、3000大豆サンプルの遺伝子データ、すなわち一塩基多型(Single Nucleotide Polymorphisms、SNP)遺伝子座情報が収集され、訓練及び検証する時に表1に係る39個の遺伝子座の情報のみを使用する。収集される各大豆サンプルに対応するs種の表現型データは、草丈、分枝の数、豆粒の数、及び茎の数を含み、すなわちs=4である。上記のデータは、4:1の割合で複数の訓練セットと少なくとも1つの検証セットにランダムに分割することができる。
【0026】
ステップS130において、前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得る。
【0027】
本発明の一実施形態によれば、遺伝子座検出の確率値PLに基づいて入力された遺伝子データを符号化し、遺伝子座検出に基づく遺伝子型が0/0、0/1、1/1である確率値PLを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Pに換算する。
【数11】
【0028】
ここで、ある遺伝子座について、得られた確率Pで、該遺伝子座に対応する遺伝子型表現として3次元ベクトル[a,b,c]を構成することができ、前記a、b、cは、それぞれ該遺伝子座の遺伝子型が0/0、0/1、1/1である確率を表す。検出されなかった遺伝子座について、その遺伝子型表現をベクトル[0,0,0]で表すことができる。
【0029】
ステップS140において、符号化された前記遺伝子データを構築されたグラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させる。ここで、前記グラフニューラルネットワークの各層のネットワークは、長さ3の1次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有される。
【0030】
本発明の一実施形態では、39×3次元の符号化された遺伝子データを構築されたグラフニューラルネットワークに入力する。前記グラフニューラルネットワークは、8つのネットワーク層を有するグラフニューラルネットワークであってよく、各層のネットワークは、長さ3の1次元畳み込みカーネルを3つ用い、畳み込みカーネルが近傍間で共有される。
【0031】
グラフニューラルネットワークの各層において、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することができ、具体的には、以下のステップS141~ステップS144を含むことができる。
【0032】
ステップS141において、グラフニューラルネットワークにおいて、現在の層における各ノードについて、そのノードの1次近傍ノードからm個の候補ノードを構築する。ここで、mは0より大きい整数である。
【0033】
ステップS142において、中心ノードであるノードcについて、ノードcのm個の候補ノードから、ノードcの近傍ノードとしてn個のノードを非復元抽出(sampling without replacement)する。mがnより小さい場合、すなわち候補ノードがn個未満である場合、全ての候補ノードを近傍ノードとしてサンプリングする。本実施形態では、n=4とする。
【0034】
ステップS143において、ノードcの全ての近傍ノードの情報を集約して、ノードcの近傍情報
【数12】
を取得する。
【0035】
具体的には、集約する式は以下のように表すことができる。
【数13】
【0036】
ここで、hはノードcのi番目の近傍ノードの情報を表し、wはノードcのi番目の近傍ノードの重みを表す。
【0037】
本発明の一実施形態では、nが4に等しい場合、ノードcの集約近傍情報
【数14】
は、以下のように計算することができる。
【数15】
【0038】
ステップS144において、ノードcの集約近傍情報
【数16】
とノードcの情報hを結合して、結合後の情報に対して畳み込み及び活性化操作を行い、グラフニューラルネットワークの現在の層の出力情報
【数17】
を取得する。
【0039】
具体的には、以下のような式となる。
【数18】
【0040】
ここで、
【数19】
は現在の層のネットワークにおけるノードcの出力情報、すなわち次の層ネットワークの入力を表し、σは活性化関数を表し、Wは畳み込みカーネルパラメータを表し、CONCATは結合操作を表し、hは現在の層のネットワークに入力されたノードcの情報を表す。
【0041】
ステップS150において、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得る。
【0042】
ステップS160において、前記遺伝子データに対応する表現型分類結果及び遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練する。ここで、損失関数は、主に、前記表現型分類結果及び前記遺伝子型表現に基づいて損失値を計算するために用いられる。
【0043】
本発明の一実施形態では、上記ステップS150は、具体的には、次のステップS151を含んでいてよい。
【0044】
ステップS151において、グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される3次元のベクトルを結合し、結合後のベクトルを多層パーセプトロンに入力し、多層パーセプトロンから出力される分類結果を得、前記分類結果を表現型分類結果とする。
【0045】
本発明の一実施形態では、全ての39個のノードから出力される3次元の確率ベクトルを結合して、39×3=117次元の結合確率ベクトルを出力する。そして、この結合確率ベクトルを2層の全結合ネットワークに入力して、分類結果が得られる。ここで、全結合ネットワークの第1層は、117次元の結合確率ベクトルが入力され、80次元の中間確率ベクトルを出力する。次に、全結合ネットワークの第2層は、80次元の中間確率ベクトルが入力され、20次元の最終確率ベクトルを出力し、20次元の最終確率ベクトルを前記表現型分類結果とする。
【0046】
本発明の一実施形態では、上記ステップS160は、具体的には、次のステップS161~ステップS162を含んでいてよい。
【0047】
ステップS161において、s個の表現型をそれぞれクラスとしてk個の区間に均等に分けて、s×k次元の遺伝子型表現真値ベクトル(以下、単に真値ベクトルともいう)を得る。
【0048】
本発明の一実施形態では、4つの表現型をそれぞれクラスとして5つの区間に均等に分けると、真値ベクトルの次元は4×5=20となる。このように、真値ベクトルの次元は、多層パーセプトロンが出力する表現型分類結果の次元に対応する。一例として、草丈を、区間に従って極低、低、正常、高、極高という5つのクラスに均等に分けることができる。その他の表現型も同様に分類することができ、ここでは説明を省略する。
【0049】
ステップS162において、損失関数を用いて、前記表現型分類結果及び表現型の真値ベクトルに基づいて、マルチ表現型教師あり訓練を行う。
【0050】
本発明の一実施形態によれば、教師あり訓練における損失関数は、焦点損失関数Focal Lossとすることができ、分類損失を計算する式は、次のとおりであってよい。
【数20】
【0051】
ここで、px,yは、特徴マップの横座標xと縦座標yにおける前記表現型分類結果の信頼度を表し、
【数21】
は、当該位置における前記表現型の真値ベクトルの真のクラスラベルを表し、1は正のサンプルを表し、0は負のサンプルを表し、γは0より大きい値であり、αは[0,1]の間の小数であり、γとαはいずれも訓練に関与しない固定値である。本発明の一実施形態では、αを0.1、γを2とする場合に、訓練効果が最も優れる。例えば、オプティマイザ(Optimizer)として確率的勾配降下法(Stochastic Gradient Descent,SGD)を使用して、4つのグラフィックスプロセッシングユニット(Graphics Processing Unit,GPU)で訓練を行うことができ、バッチサイズ(batch size)を16、訓練ステップ数を50k、初期学習率を0.01とし、訓練ステップ数が20kステップと40kステップに達すると初期学習率を10分の1にしてもよい。
【0052】
本発明の一実施形態によれば、グラフニューラルネットワークに基づく遺伝子表現型予測方法をさらに提供する。図2に示すように、該遺伝子表現型予測方法は、以下のステップS210~ステップS220を含んでもよい。
【0053】
ステップS210において、分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得る。ここで、ステップS210の処理は、上記ステップS130の処理とほぼ同じであり、具体的には上記を参照できるため、ここでは説明を省略する。
【0054】
ステップS220において、符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得る。ここで、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記訓練方法により得られた、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークであってもよく、ここでは具体的な訓練方法を詳細に説明しない。
【0055】
簡略化されたグラフニューラルネットワークを例にとると、分類対象の遺伝子データに対応する生物種が5つの遺伝子座を持つと仮定すると、グラフニューラルネットワークの各層のネットワークには5つのノードが含まれる。図3に示すように、入力された分類対象の遺伝子データが、多層のグラフニューラルネットワーク310によって畳み込み及び活性化操作を行われた後、グラフニューラルネットワークの出力が、多層パーセプトロン320に入力され、多層パーセプトロン320によって前記遺伝子データの最終的な分類結果が出力される。
【0056】
この部分の実施形態は、上述した方法の実施形態と同様であり、ここでは説明を省略する。
【0057】
本発明の一実施形態によれば、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を実現するための、遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置をさらに提供し、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置は、グラフニューラルネットワーク構築モジュールと、データ取得モジュールと、プリコーディングモジュールと、遺伝子データ入力モジュールと、分類モジュールとを含む。グラフニューラルネットワーク構築モジュールは、特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築する。前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは2つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられる。データ取得モジュールは、前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集する。プリコーディングモジュールは、前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得る。遺伝子データ入力モジュールは、符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させる。前記グラフニューラルネットワークの各層のネットワークは、長さ3の1次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有される。分類モジュールは、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得て、前記表現型分類結果に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練する。
【0058】
この部分の実施形態は、上述した方法の実施形態と同様であり、ここでは説明を省略する。
【0059】
本発明の一実施形態によれば、前記グラフニューラルネットワークに基づく遺伝子表現型予測方法を実現するための、グラフニューラルネットワークに基づく遺伝子表現型予測装置をさらに提供し、前記グラフニューラルネットワークに基づく遺伝子表現型予測装置は、前記プレコーディングモジュール、及び前記訓練方法及び/又は訓練装置によって訓練して得られた遺伝子表現型予測ネットワークを含むことができる。具体的には、分類対象の遺伝子データがプリコーディングモジュールによって符号化された後、符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、分類対象の遺伝子データに対応する表現型結果を得る。前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記訓練方法及び/又は訓練装置により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークである。
【0060】
この部分の実施形態は、上述した方法の実施形態と同様であり、ここでは説明を省略する。
【0061】
前記グラフニューラルネットワークに基づく遺伝子表現型予測方法の実施形態に対応して、本発明は、グラフニューラルネットワークに基づく遺伝子表現型予測デバイスの実施形態をさらに提供する。
【0062】
図4を参照すると、本発明の実施形態は、メモリ(具体的には不揮発性メモリ430及び/又は内部メモリ440を含み得る)と1つ以上のプロセッサ410とを含むグラフニューラルネットワークに基づく遺伝子表現型予測デバイスを提供する。ここで、メモリ430、440には実行可能なコードが格納され、前記1つ以上のプロセッサ410が前記実行可能なコードを実行するとき、上記実施形態におけるグラフニューラルネットワークに基づく遺伝子表現型予測方法を実施する。図4に示すように、該デバイスは、前記プロセッサ410と前記メモリ430、440とを接続するための内部バス420をさらに含む。また、該デバイスは、外部と通信するためのネットワークインタフェース450を含んでもよい。
【0063】
本発明のグラフニューラルネットワークに基づく遺伝子表現型予測デバイスの実施形態は、データ処理能力を有する任意のデバイスに適用することができ、データ処理能力を有する任意のデバイスは、コンピュータなどのデバイス又は装置であってもよい。装置の実施形態は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよく、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。ソフトウェアによって実現されることを例にとると、論理的な意味での装置として、不揮発性メモリに対応するコンピュータプログラム命令を、それが配置されているデータ処理能力を有する任意のデバイスのプロセッサを介して内部メモリに読み込んで実行することによって形成される。ハードウェアレベルでは、図4に示すように、本発明のグラフニューラルネットワークに基づく遺伝子表現型予測デバイスが配置されるデータ処理能力を有する任意のデバイスのハードウェア構造図であり、図4に示すプロセッサ、内部メモリ、ネットワークインタフェース、及び不揮発性メモリに加えて、実施形態において装置が配置されるデータ処理能力を有する任意のデバイスは、通常、該データ処理能力を有する任意のデバイスの実際の機能に応じて、他のハードウェアを含むことができ、ここでは説明を省略する。
【0064】
上述した装置における各ユニットの機能及び役割の実現過程は、上述した方法の対応するステップの実現過程を参照できるため、ここでは説明を省略する。
【0065】
装置の実施形態については、方法の実施形態にほぼ対応しているため、関連する部分は方法の実施形態の一部の説明を参照すればよい。上述した装置の実施形態は、単なる例示的なものであり、前記分離コンポーネントとして説明されたユニットは、物理的に分離されてもよく、又は物理的に分離されなくてもよく、ユニットとして表示されたコンポーネントは、物理的なユニットであってもよく、又は物理的なユニットでなくてもよく、即ち、一箇所に位置してもよく、又は複数のネットワークユニットに分散されてもよい。実際の要求に応じて、その一部又は全部のユニットを選択して、本発明の解決策の目的を実現することができる。当業者であれば、創造的な労力をかけずに理解し、実施することができる。
【0066】
本発明の実施形態は、プログラムが格納されたコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されると、上述の実施形態におけるグラフニューラルネットワークに基づく遺伝子表現型予測方法を実現する。
【0067】
前記コンピュータ読み取り可能な記憶媒体は、ハードディスクや内部メモリなどの前述したいずれかの実施形態に記載のデータ処理能力を有する任意のデバイスの内部記憶ユニットであってもよい。また、前記コンピュータ読み取り可能な記憶媒体は、前記デバイスに装備されたプラグインハードディスク、スマートメディアカード(Smart Media(登録商標) Card、SMC)、SDカード、フラッシュカード(Flash Card)などのデータ処理能力を有する任意外部記憶デバイスであってもよい。さらに、前記コンピュータ読み取り可能な記憶媒体は、データ処理能力を有する任意のデバイスの内部記憶ユニットと外部記憶デバイスの両方からなることもできる。前記コンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラム及び前記データ処理能力を有する任意のデバイスに必要な他のプログラム及びデータを記憶するために用いられ、また、出力された又は出力予定のデータを一時的に記憶するために用いられてもよい。
【0068】
上述の実施形態は、本発明の技術的解決策を説明するためのものであり、それに限定されるものではない。前述の実施形態を参照して本発明を詳細に説明したが、当業者であれば理解されるように、前述の実施形態に記載された技術的解決策を修正したり、その技術的特徴の一部又は全部に対して等価の置換を行ったりすることができ、これらの修正又は置換は、対応する技術的解決策の本質を本発明の実施形態の技術的解決策の範囲から逸脱させるものではない。
図1
図2
図3
図4