特許7522936 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7522936グラフニューラルネットワークに基づく遺伝子表現型予測

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-17

(45)【発行日】2024-07-25

(54)【発明の名称】グラフニューラルネットワークに基づく遺伝子表現型予測

(51)【国際特許分類】

G06N 3/04 20230101AFI20240718BHJP

G06N 3/0464 20230101ALI20240718BHJP

G16B 20/30 20190101ALI20240718BHJP

G16B 40/20 20190101ALI20240718BHJP

【ＦＩ】

G06N3/04 100

G06N3/0464

G16B20/30

G16B40/20

【請求項の数】 10

(21)【出願番号】P 2023543455

(86)(22)【出願日】2023-05-19

(65)【公表番号】

(43)【公表日】2024-07-09

(86)【国際出願番号】 CN2023095224

(87)【国際公開番号】W WO2023217290

(87)【国際公開日】2023-11-16

【審査請求日】2023-07-19

(31)【優先権主張番号】202211238697.7

(32)【優先日】2022-10-11

(33)【優先権主張国・地域又は機関】CN

【早期審査対象出願】

(73)【特許権者】

【識別番号】521162399

【氏名又は名称】之江実験室

(74)【代理人】

【識別番号】110000729

【氏名又は名称】弁理士法人ユニアス国際特許事務所

(72)【発明者】

【氏名】章依依

(72)【発明者】

【氏名】呉翠玲

(72)【発明者】

【氏名】徐曉剛

(72)【発明者】

【氏名】王軍

(72)【発明者】

【氏名】李蕭縁

(72)【発明者】

【氏名】虞舒敏

【審査官】渡辺一帆

(56)【参考文献】

【文献】中国特許出願公開第１１３５９３６３５（ＣＮ，Ａ）

【文献】中国特許出願公開第１０６０９６３２７（ＣＮ，Ａ）

【文献】中国特許出願公開第１１４３３３９８６（ＣＮ，Ａ）

【文献】特開２０２２－１１７４５２（ＪＰ，Ａ）

【文献】LIU, Yang et al.，"Phenotype Prediction and Genome-Wide Association Study Using Deep Convolutional Neural Network of Soybean"，Frontiers in Genetics [online]，2019年，Vol. 10，pp. 1-10，[retrieved on 2024.06.13], Retrieved from the Internet: <URL: https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2019.01091/full>，<DOI: 10.3389/fgene.2019.01091>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／１０

Ｇ１６Ｂ２０／００－２０／５０

Ｇ１６Ｂ４０／２０

(57)【特許請求の範囲】

【請求項1】

特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築するステップであって、前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは２つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられるステップと、
前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集するステップと、
前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、
符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させるステップであって、前記グラフニューラルネットワークの各層のネットワークは、長さ３の１次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有されるステップと、
前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップと、
前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び／又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップと、を含む
ことを特徴とする遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法。

【請求項2】

前記遺伝子座検出の確率値に基づいて前記遺伝子データを符号化することは、
遺伝子座検出に基づく遺伝子型が０／０、０／１、１／１である確率値ＰＬを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Ｐに換算することと、

【数1】

各前記遺伝子座について、得られた該遺伝子座の確率Ｐで、該遺伝子座に対応する遺伝子型表現として３次元ベクトル［ａ，ｂ，ｃ］を構成することであって、前記ａ、ｂ、ｃは、それぞれ該遺伝子座の遺伝子型が０／０、０／１、１／１である確率を表すことと、
検出されなかった遺伝子座について、その遺伝子型表現をベクトル［０，０，０］で表すことと、を含む
ことを特徴とする請求項１に記載の方法。

【請求項3】

前記遺伝子データが前記グラフニューラルネットワークの各層のネットワークを順次通過する際に、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新する
ことを特徴とする請求項１に記載の方法。

【請求項4】

前記均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することは、
前記グラフニューラルネットワークの現在の層における各ノードｃについて、
前記ノードｃの１次近傍ノードからｍ個の候補ノードを構築するステップであって、ｍは０より大きい整数であるステップと、
前記ノードｃのｍ個の候補ノードから、前記ノードｃの近傍ノードとしてｎ個のノードを非復元抽出し、かつｍがｎより小さい場合、全てのｍ個の候補ノードを前記ノードｃの近傍ノードとしてサンプリングするステップと、
前記ノードｃの全ての近傍ノードの情報を集約して、前記ノードｃの近傍情報

【数2】

を取得するステップと、
前記ノードｃの前記近傍情報

【数3】

と前記ノードｃの情報ｈ_ｃを結合して得られる情報に対して畳み込み及び活性化操作を行い、前記グラフニューラルネットワークの現在の層のネットワークにおける前記ノードｃの出力情報

【数4】

を取得し、

【数5】

を前記グラフニューラルネットワークにおける次の層のネットワークへの入力とするステップと、を含み、
ここで、前記ノードｃの全ての近傍ノードの情報を集約する式は、

【数6】

となり、
ここで、ｈ_ｉはノードｃのｉ番目の近傍ノードの情報を表し、ｗ_ｉはノードｃのｉ番目の近傍ノードの重みを表し、
前記畳み込み及び活性化操作を行う具体的な式は、

【数7】

となり、
ここで、

【数8】

は前記グラフニューラルネットワークの現在の層のネットワークにおける前記ノードｃの出力情報を表し、σは活性化関数を表し、Ｗは畳み込みカーネルパラメータを表し、ｈ_ｃは前記グラフニューラルネットワークの現在の層のネットワークに入力された前記ノードｃの情報を表す
ことを特徴とする請求項３に記載の方法。

【請求項5】

前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップは、
前記グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される３次元のベクトルを結合して、結合後のベクトルを得るステップと、
前記結合後のベクトルを前記多層パーセプトロンに入力し、前記多層パーセプトロンから出力される分類結果を得、前記分類結果を前記遺伝子データに対応する表現型分類結果とするステップと、を含む
ことを特徴とする請求項１に記載の方法。

【請求項6】

前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び／又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップは、
ｓ個の表現型をそれぞれクラスとしてｋ個の区間に均等に分けて、ｓ×ｋ次元の遺伝子型表現真値ベクトルを得るステップであって、ｓ×ｋ次元は前記表現型分類結果の次元と一致するステップと、
損失関数を用いて、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて、マルチ表現型教師あり訓練を行うステップと、を含む
ことを特徴とする請求項５に記載の方法。

【請求項7】

前記損失関数は、焦点損失ＦｏｃａｌＬｏｓｓ関数であり、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて分類損失を計算する式は、

【数9】

となり、
ここで、ｐ_ｘ，ｙは、特徴マップの横座標ｘと縦座標ｙにおける前記表現型分類結果の信頼度を表し、

【数10】

は、特徴マップの横座標ｘと縦座標ｙにおける前記表現型の遺伝子型表現真値ベクトルの真のクラスラベルを表し、１は正のサンプルを表し、０は負のサンプルを表し、γは０より大きい値であり、αは［０，１］の間の小数であり、γとαはいずれも訓練に関与しない固定値である
ことを特徴とする請求項６に記載の方法。

【請求項8】

分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、
符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得るステップであって、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記請求項１～７のいずれか１項に記載の方法により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークであるステップと、を含む
ことを特徴とするグラフニューラルネットワークに基づく遺伝子表現型予測方法。

【請求項9】

プロセッサとメモリとを含むデバイスであって、前記メモリにはプログラムが格納されており、当該プログラムが前記プロセッサによって実行されると、請求項１～７のいずれか１項に記載の方法のステップが実施される
ことを特徴とする遺伝子表現型予測のためのグラフニューラルネットワークの訓練デバイス。

【請求項10】

プロセッサとメモリとを含むデバイスであって、前記メモリにはプログラムが格納されており、当該プログラムが前記プロセッサによって実行されると、請求項８に記載の方法のステップが実施される
ことを特徴とするグラフニューラルネットワークに基づく遺伝子表現型予測デバイス。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、知能計算育種分野に関し、特に、グラフニューラルネットワークに基づく遺伝子表現型予測及び対応するグラフニューラルネットワークの訓練に関する。

【背景技術】

【0002】

人類文明の発展過程に伴い、作物育種は主に、経験に基づく農業者の主観的判断、作物育種学科の確立、分子選抜育種という３つの歴史的段階を経てきた。現在、ビッグデータ人工知能などの学科の発展と、遺伝子編集、合成生物学などのゲノム指向の精密改良技術の確立に伴い、作物育種は知能育種という新たな時代を迎えた。

【0003】

高脂質・高タンパク質の植物である大豆は、食料生産の重要な構成部分である。大豆をいかにして高収量に選抜・育種するかは、現在、農学者が取り組んでいる問題である。ゲノミックセレクション（ＧｅｎｏｍｉｃＳｅｌｅｃｔｉｏｎ）の提案は遺伝子育種に１つの方向を提供し、既存の代表的な方法として、最良線形不偏予測（ＢｅｓｔＬｉｎｅａｒＵｎｂｉａｓｅｄＰｒｅｄｉｃｔｉｏｎ、ＢＬＵＰ）、ゲノミック最良線形不偏予測（ＧｅｎｏｍｉｃＢｅｓｔＬｉｎｅａｒＵｎｂｉａｓｅｄＰｒｅｄｉｃｔｉｏｎ、ＧＢＬＵＰ）、リッジ回帰最良線形不偏予測（ＲｉｄｇｅＲｅｇｒｅｓｓｉｏｎＢｅｓｔＬｉｎｅａｒＵｎｂｉａｓｅｄＰｒｅｄｉｃｔｉｏｎ、ＲＲ－ＢＬＵＰ）、ラッソ回帰（ＬｅａｓｔＡｂｓｏｌｕｔｅＳｈｒｉｎｋａｇｅａｎｄＳｅｌｅｃｔｉｏｎＯｐｅｒａｔｏｒ、ＬＡＳＳＯ）などがある。しかし、これらの方法の性能は、育種において期待される性能にはまだ程遠いものである。

【0004】

深層学習の発展に伴い、研究者は深層学習を育種分野への応用を試み始めた。例えば、西北農林科技大学のチームが提案した深層学習に基づく遺伝子表現型予測（ＤｅｅｐＧＳ）アルゴリズムでは、畳み込みニューラルネットワークを構築することにより、小麦の表現型形質を予測でき、従来のゲノミックセレクションの性能を超えた。しかし、既存の深層学習に基づくゲノミックセレクションのほとんどは、単純な畳み込みニューラルネットワークを使用しており、遺伝子に関する事前知識が利用されていない。

【0005】

グラフニューラルネットワークは、事前知識グラフに基づいて訓練することができ、大きな効果を得ることができる。グラフニューラルネットワークは、スペクトルに基づく方法と空間領域に基づく方法に分けられ、グラフニューラルネットワーク（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋ、ＧＮＮ）、グラフ畳み込みネットワーク（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＧＣＮ）、グラフアテンションネットワーク（ＧｒａｐｈＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋ、ＧＡＴ）などの方法を含む。まだ関連する研究の初期段階にある、育種に関する知識とグラフニューラルネットワークを組み合わせることは、今後の知能育種の大きな傾向である。

【発明の概要】

【0006】

従来技術の不足を解決し、遺伝子表現型予測の性能を高める目的を実現するために、本発明に用いられる技術的解決策は以下の通りである。

【0007】

本発明の実施形態は、遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を提供し、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法は、特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築するステップであって、前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは２つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられるステップと、前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集するステップと、前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させるステップであって、前記グラフニューラルネットワークの各層のネットワークは、長さ３の１次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有されるステップと、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップと、前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び／又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップと、を含む。

【0008】

さらに、前記遺伝子座検出の確率値に基づいて前記遺伝子データを符号化することは、遺伝子座検出に基づく遺伝子型が０／０、０／１、１／１である確率値ＰＬを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Ｐに換算することと、

【数1】

各前記遺伝子座について、得られた該遺伝子座の確率Ｐで、該遺伝子座に対応する遺伝子型表現として３次元ベクトル［ａ，ｂ，ｃ］を構成することであって、前記ａ、ｂ、ｃは、それぞれ該遺伝子座の遺伝子型が０／０、０／１、１／１である確率を表すことと、検出されなかった遺伝子座について、その遺伝子型表現をベクトル［０，０，０］で表すことと、を含む。

【0009】

さらに、前記遺伝子データが前記グラフニューラルネットワークの各層のネットワークを順次通過する際に、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することができる。具体的には、前記グラフニューラルネットワークの現在の層における各ノードｃについて、前記ノードｃの１次近傍ノードからｍ個の候補ノードを構築するステップであって、ｍは０より大きい整数であるステップと、前記ノードｃのｍ個の候補ノードから、前記ノードｃの近傍ノードとして置換せずにｎ個のノードをサンプリングし、かつｍがｎより小さい場合、全てのｍ個の候補ノードを前記ノードｃの近傍ノードとしてサンプリングするステップと、前記ノードｃの全ての近傍ノードの情報を集約して、前記ノードｃの近傍情報

【数2】

を取得するステップと、前記ノードｃの前記近傍情報

【数3】

【数4】

を取得し、

【数5】

を前記グラフニューラルネットワークにおける次の層のネットワークへの入力とするステップと、を含むことができる。

【0010】

ここで、前記ノードｃの全ての近傍ノードの情報を集約する式は、

【数6】

となり、
ここで、ｈ_ｉはノードｃのｉ番目の近傍ノードの情報を表し、ｗ_ｉはノードｃのｉ番目の近傍ノードの重みを表す。

【0011】

前記畳み込み及び活性化操作を行う具体的な式は、

【数7】

となり、
ここで、

【数8】

は現在の層のネットワークにおけるノードｃの出力情報、すなわち次の層ネットワークの入力を表し、σは活性化関数を表し、Ｗは畳み込みカーネルパラメータを表し、ｈ_ｃは現在の層のネットワークに入力された前記ノードｃの情報を表す。

【0012】

さらに、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップは、前記グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される３次元のベクトルを結合して、結合後のベクトルを得るステップと、前記結合後のベクトルを前記多層パーセプトロンに入力し、前記多層パーセプトロンから出力される分類結果を得、前記分類結果を前記遺伝子データに対応する表現型分類結果とするステップと、を含む。

【0013】

さらに、前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び／又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップは、具体的には、ｓ個の表現型をそれぞれクラスとしてｋ個の区間に均等に分けて、ｓ×ｋ次元の遺伝子型表現真値ベクトルを得るステップであって、ｓ×ｋ次元は前記表現型分類結果の次元と一致するステップと、損失関数を用いて、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて、マルチ表現型教師あり訓練を行うステップと、を含むことができる。

【0014】

前記損失関数は、焦点損失関数ＦｏｃａｌＬｏｓｓであってもよく、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて分類損失を計算する式は、

【数9】

となり、
ここで、ｐ_ｘ，ｙは、特徴マップの横座標ｘと縦座標ｙにおける前記表現型分類結果の信頼度を表し、

【数10】

は、当該位置における前記表現型の遺伝子型表現真値ベクトルの真のクラスラベルを表し、１は正のサンプルを表し、０は負のサンプルを表し、γは０より大きい値であり、αは［０，１］の間の小数であり、γとαはいずれも訓練に関与しない固定値である。

【0015】

本発明の実施形態は、グラフニューラルネットワークに基づく遺伝子表現型予測方法を提供し、前記グラフニューラルネットワークに基づく遺伝子表現型予測方法は、分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得るステップと、を含む。ここで、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記方法により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークである。

【0016】

本発明の実施形態は、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を実現するための、遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置を提供し、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置は、グラフニューラルネットワーク構築モジュールと、データ取得モジュールと、プリコーディングモジュールと、遺伝子データ入力モジュールと、分類モジュールとを含む。前記グラフニューラルネットワーク構築モジュールは、遺伝子座と表現型との相関性に基づいて、遺伝子に対してグラフニューラルネットワークを構築し、ノードは遺伝子座を表し、エッジは２つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられる。前記データ取得モジュールは、サンプルの遺伝子データを収集し、サンプルに対応する表現型データを取得し、グラフニューラルネットワークの訓練と検証のための訓練セットと検証セットの分割を行う。前記プリコーディングモジュールは、訓練データについて、遺伝子座検出に基づいて遺伝子データをプレコーディングし、遺伝子座及び対応する遺伝子型を得る。前記遺伝子データ入力モジュールは、符号化された遺伝子データを構築されたグラフニューラルネットワークに入力し、各層のネットワークは、長さ３の１次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有される。前記分類モジュールは、各ノードの出力結果を結合し、結合後の結果を多層パーセプトロンに入力し、表現型分類結果を出力し、損失関数に基づいてモデルを教師あり訓練する。

【0017】

本発明の実施形態は、前記グラフニューラルネットワークに基づく遺伝子表現型予測方法を実現するための、グラフニューラルネットワークに基づく遺伝子表現型予測装置を提供し、前記グラフニューラルネットワークに基づく遺伝子表現型予測装置は、分類対象の遺伝子データをプリコーディングモジュールによって符号化した後、遺伝子データ入力モジュールを通過させ、訓練された分類モジュールに入力し、分類対象の遺伝子データに対応する表現型結果を得る。

【0018】

本発明の利点及び有益な効果は、まず、遺伝子表現型の間の相関性の事前知識を利用して遺伝子グラフニューラルネットワークを構築し、相関性の弱い遺伝子座を除去することにより、入力遺伝子の次元を効果的に削減し、それによって次元削減及びノイズ除去の目的を達成する。また、表現型を複数の区間に分けて分類予測を行うことにより、訓練の難易度を効果的に低減させ、モデルアルゴリズムの安定性を向上させることができ、かつ複数の表現型の同時訓練・予測が可能である。本発明が提供する技術的解決策は、ｒｒＢＬＵＰのような従来のゲノミックセレクションと比較して、ピアソン相関係数（ＰｅａｒｓｏｎＣｏｒｒｅｌａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）の２０～３０％の向上を含む、個々の表現型の予測においてより優れた性能を有する。

【図面の簡単な説明】

【0019】

【図1】本発明の一実施形態による遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法のフローチャートである。

【図2】本発明の一実施形態によるグラフニューラルネットワークに基づく遺伝子表現型予測方法のフローチャートである。

【図3】本発明の一実施形態によるグラフニューラルネットワークに基づく遺伝子表現型分類認識のための簡略化されたモデルアーキテクチャ図である。

【図4】本発明の一実施形態による遺伝子表現型予測のためのグラフニューラルネットワークの訓練デバイスの構造概略図である。

【発明を実施するための形態】

【0020】

以下、添付図面と合わせて本発明の具体的な実施形態について詳細に説明する。本明細書で説明される具体的な実施形態は、本発明を例示及び説明するためだけのものであり、本発明を限定することを意図するものではないことを理解されたい。

【0021】

図１に示すように、本発明の一実施形態によれば、遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を提供する。方法は、以下のステップＳ１１０～ステップＳ１６０を含んでもよい。

【0022】

ステップＳ１１０において、特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築する。構築されたグラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは２つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられる。

【0023】

本発明の一実施形態では、以下の表１に示す大豆の遺伝子座と表現型との相関性情報に基づいて、大豆遺伝子のグラフニューラルネットワークを構築することができる。ここで、遺伝子座は３９個あり、２つの遺伝子座が同じ表現型と相関する回数が多いほど、エッジの重みが高くなる。したがって、エッジの重みは、遺伝子座の間の関連度を反映することができる。

【表1】

【0024】

ステップＳ１２０において、前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集する。ここで、訓練データを、訓練セットと検証セットに分割することができ、それぞれグラフニューラルネットワークを訓練と検証するために用いられる。

【0025】

本発明の一実施形態では、３０００大豆サンプルの遺伝子データ、すなわち一塩基多型（ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅＰｏｌｙｍｏｒｐｈｉｓｍｓ、ＳＮＰ）遺伝子座情報が収集され、訓練及び検証する時に表１に係る３９個の遺伝子座の情報のみを使用する。収集される各大豆サンプルに対応するｓ種の表現型データは、草丈、分枝の数、豆粒の数、及び茎の数を含み、すなわちｓ＝４である。上記のデータは、４：１の割合で複数の訓練セットと少なくとも１つの検証セットにランダムに分割することができる。

【0026】

ステップＳ１３０において、前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得る。

【0027】

本発明の一実施形態によれば、遺伝子座検出の確率値ＰＬに基づいて入力された遺伝子データを符号化し、遺伝子座検出に基づく遺伝子型が０／０、０／１、１／１である確率値ＰＬを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Ｐに換算する。

【数11】

【0028】

ここで、ある遺伝子座について、得られた確率Ｐで、該遺伝子座に対応する遺伝子型表現として３次元ベクトル［ａ，ｂ，ｃ］を構成することができ、前記ａ、ｂ、ｃは、それぞれ該遺伝子座の遺伝子型が０／０、０／１、１／１である確率を表す。検出されなかった遺伝子座について、その遺伝子型表現をベクトル［０，０，０］で表すことができる。

【0029】

ステップＳ１４０において、符号化された前記遺伝子データを構築されたグラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させる。ここで、前記グラフニューラルネットワークの各層のネットワークは、長さ３の１次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有される。

【0030】

本発明の一実施形態では、３９×３次元の符号化された遺伝子データを構築されたグラフニューラルネットワークに入力する。前記グラフニューラルネットワークは、８つのネットワーク層を有するグラフニューラルネットワークであってよく、各層のネットワークは、長さ３の１次元畳み込みカーネルを３つ用い、畳み込みカーネルが近傍間で共有される。

【0031】

グラフニューラルネットワークの各層において、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することができ、具体的には、以下のステップＳ１４１～ステップＳ１４４を含むことができる。

【0032】

ステップＳ１４１において、グラフニューラルネットワークにおいて、現在の層における各ノードについて、そのノードの１次近傍ノードからｍ個の候補ノードを構築する。ここで、ｍは０より大きい整数である。

【0033】

ステップＳ１４２において、中心ノードであるノードｃについて、ノードｃのｍ個の候補ノードから、ノードｃの近傍ノードとしてｎ個のノードを非復元抽出（ｓａｍｐｌｉｎｇｗｉｔｈｏｕｔｒｅｐｌａｃｅｍｅｎｔ）する。ｍがｎより小さい場合、すなわち候補ノードがｎ個未満である場合、全ての候補ノードを近傍ノードとしてサンプリングする。本実施形態では、ｎ＝４とする。

【0034】

ステップＳ１４３において、ノードｃの全ての近傍ノードの情報を集約して、ノードｃの近傍情報

【数12】

を取得する。

【0035】

具体的には、集約する式は以下のように表すことができる。

【数13】

【0036】

ここで、ｈ_ｉはノードｃのｉ番目の近傍ノードの情報を表し、ｗ_ｉはノードｃのｉ番目の近傍ノードの重みを表す。

【0037】

本発明の一実施形態では、ｎが４に等しい場合、ノードｃの集約近傍情報

【数14】

は、以下のように計算することができる。

【数15】

【0038】

ステップＳ１４４において、ノードｃの集約近傍情報

【数16】

とノードｃの情報ｈ_ｃを結合して、結合後の情報に対して畳み込み及び活性化操作を行い、グラフニューラルネットワークの現在の層の出力情報

【数17】

を取得する。

【0039】

具体的には、以下のような式となる。

【数18】

【0040】

ここで、

【数19】

は現在の層のネットワークにおけるノードｃの出力情報、すなわち次の層ネットワークの入力を表し、σは活性化関数を表し、Ｗは畳み込みカーネルパラメータを表し、ＣＯＮＣＡＴは結合操作を表し、ｈ_ｃは現在の層のネットワークに入力されたノードｃの情報を表す。

【0041】

ステップＳ１５０において、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得る。

【0042】

ステップＳ１６０において、前記遺伝子データに対応する表現型分類結果及び遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び／又は前記多層パーセプトロンのモデルパラメータを教師あり訓練する。ここで、損失関数は、主に、前記表現型分類結果及び前記遺伝子型表現に基づいて損失値を計算するために用いられる。

【0043】

本発明の一実施形態では、上記ステップＳ１５０は、具体的には、次のステップＳ１５１を含んでいてよい。

【0044】

ステップＳ１５１において、グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される３次元のベクトルを結合し、結合後のベクトルを多層パーセプトロンに入力し、多層パーセプトロンから出力される分類結果を得、前記分類結果を表現型分類結果とする。

【0045】

本発明の一実施形態では、全ての３９個のノードから出力される３次元の確率ベクトルを結合して、３９×３＝１１７次元の結合確率ベクトルを出力する。そして、この結合確率ベクトルを２層の全結合ネットワークに入力して、分類結果が得られる。ここで、全結合ネットワークの第１層は、１１７次元の結合確率ベクトルが入力され、８０次元の中間確率ベクトルを出力する。次に、全結合ネットワークの第２層は、８０次元の中間確率ベクトルが入力され、２０次元の最終確率ベクトルを出力し、２０次元の最終確率ベクトルを前記表現型分類結果とする。

【0046】

本発明の一実施形態では、上記ステップＳ１６０は、具体的には、次のステップＳ１６１～ステップＳ１６２を含んでいてよい。

【0047】

ステップＳ１６１において、ｓ個の表現型をそれぞれクラスとしてｋ個の区間に均等に分けて、ｓ×ｋ次元の遺伝子型表現真値ベクトル（以下、単に真値ベクトルともいう）を得る。

【0048】

本発明の一実施形態では、４つの表現型をそれぞれクラスとして５つの区間に均等に分けると、真値ベクトルの次元は４×５＝２０となる。このように、真値ベクトルの次元は、多層パーセプトロンが出力する表現型分類結果の次元に対応する。一例として、草丈を、区間に従って極低、低、正常、高、極高という５つのクラスに均等に分けることができる。その他の表現型も同様に分類することができ、ここでは説明を省略する。

【0049】

ステップＳ１６２において、損失関数を用いて、前記表現型分類結果及び表現型の真値ベクトルに基づいて、マルチ表現型教師あり訓練を行う。

【0050】

本発明の一実施形態によれば、教師あり訓練における損失関数は、焦点損失関数ＦｏｃａｌＬｏｓｓとすることができ、分類損失を計算する式は、次のとおりであってよい。

【数20】

【0051】

ここで、ｐｘ，ｙは、特徴マップの横座標ｘと縦座標ｙにおける前記表現型分類結果の信頼度を表し、

【数21】

は、当該位置における前記表現型の真値ベクトルの真のクラスラベルを表し、１は正のサンプルを表し、０は負のサンプルを表し、γは０より大きい値であり、αは［０，１］の間の小数であり、γとαはいずれも訓練に関与しない固定値である。本発明の一実施形態では、αを０．１、γを２とする場合に、訓練効果が最も優れる。例えば、オプティマイザ（Ｏｐｔｉｍｉｚｅｒ）として確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，ＳＧＤ）を使用して、４つのグラフィックスプロセッシングユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＧＰＵ）で訓練を行うことができ、バッチサイズ（ｂａｔｃｈｓｉｚｅ）を１６、訓練ステップ数を５０ｋ、初期学習率を０．０１とし、訓練ステップ数が２０ｋステップと４０ｋステップに達すると初期学習率を１０分の１にしてもよい。

【0052】

本発明の一実施形態によれば、グラフニューラルネットワークに基づく遺伝子表現型予測方法をさらに提供する。図２に示すように、該遺伝子表現型予測方法は、以下のステップＳ２１０～ステップＳ２２０を含んでもよい。

【0053】

ステップＳ２１０において、分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得る。ここで、ステップＳ２１０の処理は、上記ステップＳ１３０の処理とほぼ同じであり、具体的には上記を参照できるため、ここでは説明を省略する。

【0054】

ステップＳ２２０において、符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得る。ここで、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記訓練方法により得られた、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークであってもよく、ここでは具体的な訓練方法を詳細に説明しない。

【0055】

簡略化されたグラフニューラルネットワークを例にとると、分類対象の遺伝子データに対応する生物種が５つの遺伝子座を持つと仮定すると、グラフニューラルネットワークの各層のネットワークには５つのノードが含まれる。図３に示すように、入力された分類対象の遺伝子データが、多層のグラフニューラルネットワーク３１０によって畳み込み及び活性化操作を行われた後、グラフニューラルネットワークの出力が、多層パーセプトロン３２０に入力され、多層パーセプトロン３２０によって前記遺伝子データの最終的な分類結果が出力される。

【0056】

この部分の実施形態は、上述した方法の実施形態と同様であり、ここでは説明を省略する。

【0057】

本発明の一実施形態によれば、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法を実現するための、遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置をさらに提供し、前記遺伝子表現型予測のためのグラフニューラルネットワークの訓練装置は、グラフニューラルネットワーク構築モジュールと、データ取得モジュールと、プリコーディングモジュールと、遺伝子データ入力モジュールと、分類モジュールとを含む。グラフニューラルネットワーク構築モジュールは、特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築する。前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは２つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられる。データ取得モジュールは、前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集する。プリコーディングモジュールは、前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得る。遺伝子データ入力モジュールは、符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させる。前記グラフニューラルネットワークの各層のネットワークは、長さ３の１次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有される。分類モジュールは、前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得て、前記表現型分類結果に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び／又は前記多層パーセプトロンのモデルパラメータを教師あり訓練する。

【0058】

この部分の実施形態は、上述した方法の実施形態と同様であり、ここでは説明を省略する。

【0059】

本発明の一実施形態によれば、前記グラフニューラルネットワークに基づく遺伝子表現型予測方法を実現するための、グラフニューラルネットワークに基づく遺伝子表現型予測装置をさらに提供し、前記グラフニューラルネットワークに基づく遺伝子表現型予測装置は、前記プレコーディングモジュール、及び前記訓練方法及び／又は訓練装置によって訓練して得られた遺伝子表現型予測ネットワークを含むことができる。具体的には、分類対象の遺伝子データがプリコーディングモジュールによって符号化された後、符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、分類対象の遺伝子データに対応する表現型結果を得る。前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記訓練方法及び／又は訓練装置により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークである。

【0060】

この部分の実施形態は、上述した方法の実施形態と同様であり、ここでは説明を省略する。

【0061】

前記グラフニューラルネットワークに基づく遺伝子表現型予測方法の実施形態に対応して、本発明は、グラフニューラルネットワークに基づく遺伝子表現型予測デバイスの実施形態をさらに提供する。

【0062】

図４を参照すると、本発明の実施形態は、メモリ（具体的には不揮発性メモリ４３０及び／又は内部メモリ４４０を含み得る）と１つ以上のプロセッサ４１０とを含むグラフニューラルネットワークに基づく遺伝子表現型予測デバイスを提供する。ここで、メモリ４３０、４４０には実行可能なコードが格納され、前記１つ以上のプロセッサ４１０が前記実行可能なコードを実行するとき、上記実施形態におけるグラフニューラルネットワークに基づく遺伝子表現型予測方法を実施する。図４に示すように、該デバイスは、前記プロセッサ４１０と前記メモリ４３０、４４０とを接続するための内部バス４２０をさらに含む。また、該デバイスは、外部と通信するためのネットワークインタフェース４５０を含んでもよい。

【0063】

本発明のグラフニューラルネットワークに基づく遺伝子表現型予測デバイスの実施形態は、データ処理能力を有する任意のデバイスに適用することができ、データ処理能力を有する任意のデバイスは、コンピュータなどのデバイス又は装置であってもよい。装置の実施形態は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよく、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。ソフトウェアによって実現されることを例にとると、論理的な意味での装置として、不揮発性メモリに対応するコンピュータプログラム命令を、それが配置されているデータ処理能力を有する任意のデバイスのプロセッサを介して内部メモリに読み込んで実行することによって形成される。ハードウェアレベルでは、図４に示すように、本発明のグラフニューラルネットワークに基づく遺伝子表現型予測デバイスが配置されるデータ処理能力を有する任意のデバイスのハードウェア構造図であり、図４に示すプロセッサ、内部メモリ、ネットワークインタフェース、及び不揮発性メモリに加えて、実施形態において装置が配置されるデータ処理能力を有する任意のデバイスは、通常、該データ処理能力を有する任意のデバイスの実際の機能に応じて、他のハードウェアを含むことができ、ここでは説明を省略する。

【0064】

上述した装置における各ユニットの機能及び役割の実現過程は、上述した方法の対応するステップの実現過程を参照できるため、ここでは説明を省略する。

【0065】

装置の実施形態については、方法の実施形態にほぼ対応しているため、関連する部分は方法の実施形態の一部の説明を参照すればよい。上述した装置の実施形態は、単なる例示的なものであり、前記分離コンポーネントとして説明されたユニットは、物理的に分離されてもよく、又は物理的に分離されなくてもよく、ユニットとして表示されたコンポーネントは、物理的なユニットであってもよく、又は物理的なユニットでなくてもよく、即ち、一箇所に位置してもよく、又は複数のネットワークユニットに分散されてもよい。実際の要求に応じて、その一部又は全部のユニットを選択して、本発明の解決策の目的を実現することができる。当業者であれば、創造的な労力をかけずに理解し、実施することができる。

【0066】

本発明の実施形態は、プログラムが格納されたコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されると、上述の実施形態におけるグラフニューラルネットワークに基づく遺伝子表現型予測方法を実現する。

【0067】

前記コンピュータ読み取り可能な記憶媒体は、ハードディスクや内部メモリなどの前述したいずれかの実施形態に記載のデータ処理能力を有する任意のデバイスの内部記憶ユニットであってもよい。また、前記コンピュータ読み取り可能な記憶媒体は、前記デバイスに装備されたプラグインハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ、ＳＭＣ）、ＳＤカード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などのデータ処理能力を有する任意外部記憶デバイスであってもよい。さらに、前記コンピュータ読み取り可能な記憶媒体は、データ処理能力を有する任意のデバイスの内部記憶ユニットと外部記憶デバイスの両方からなることもできる。前記コンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラム及び前記データ処理能力を有する任意のデバイスに必要な他のプログラム及びデータを記憶するために用いられ、また、出力された又は出力予定のデータを一時的に記憶するために用いられてもよい。

【0068】

上述の実施形態は、本発明の技術的解決策を説明するためのものであり、それに限定されるものではない。前述の実施形態を参照して本発明を詳細に説明したが、当業者であれば理解されるように、前述の実施形態に記載された技術的解決策を修正したり、その技術的特徴の一部又は全部に対して等価の置換を行ったりすることができ、これらの修正又は置換は、対応する技術的解決策の本質を本発明の実施形態の技術的解決策の範囲から逸脱させるものではない。

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版