(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025036347
(43)【公開日】2025-03-14
(54)【発明の名称】優秀な多面発現性遺伝子のマイニング方法、装置、機器及び媒体
(51)【国際特許分類】
G16B 40/00 20190101AFI20250306BHJP
G16B 25/00 20190101ALI20250306BHJP
G16B 45/00 20190101ALI20250306BHJP
【FI】
G16B40/00
G16B25/00
G16B45/00
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2024147835
(22)【出願日】2024-08-29
(31)【優先権主張番号】202311109290.9
(32)【優先日】2023-08-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】523462790
【氏名又は名称】中国農業科学院農業信息研究所
(74)【代理人】
【識別番号】110001896
【氏名又は名称】弁理士法人朝日奈特許事務所
(72)【発明者】
【氏名】▲張▼ 丹丹
(72)【発明者】
【氏名】▲趙▼ 瑞雪
(72)【発明者】
【氏名】▲鮮▼ 国建
(72)【発明者】
【氏名】寇 ▲遠▼▲涛▼
(57)【要約】 (修正有)
【課題】遺伝子マイニングの技術分野に関し、優秀な多面発現性遺伝子のマイニング方法、装置、機器及び媒体を提供する。
【解決手段】優秀な多面発現性遺伝子のマイニング方法は、実体クラスを選択して対応するデータ属性及びオブジェクト属性を決定することにより、性状制御遺伝子本体モデルを構築することと、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出してトリプレットを構築し、且つ、マルチソース知識の融合によって性状制御遺伝子知識グラフを生成することと、異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築することと、予測モデルに基づいて未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、未知の性状の遺伝子を優秀な多面発現性遺伝子とすることと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
優秀な多面発現性遺伝子のマイニング方法であって、
優秀な多面発現性遺伝子マイニング目的に応じて実体クラスを選択し、且つ前記実体クラスにおける異なる実体のデータ属性及び実体間のオブジェクト属性を決定し、前記実体クラス、データ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築し、前記実体クラスはタンパク質、遺伝子、性状、信号経路、遺伝子記号、タンパク質ファミリー、構造ドメイン、細胞内局在化、細胞成分、分子機能、生物学的過程、代謝経路及び酵素を含み、且つ前記タンパク質、遺伝子及び性状を中心実体とし、前記データ属性は対応する実体の特性であり、前記オブジェクト属性は異なる実体間の関係であることと、
前記性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築し、且つ前記トリプレットに基づいてマルチソース知識の関連付け・融合を行って、性状制御遺伝子知識グラフを生成することと、
前記性状制御遺伝子知識グラフにおける異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築し、且つ前記性状制御遺伝子予測モデルの計算に必要なマルチソースデータを確認し、前記性状制御遺伝子予測モデルは未知の性状の遺伝子と既知の性状の遺伝子との間の類似度を計算するためのものであり、必要なマルチソースデータは異なる遺伝子同士が共通接続されたノードの個数、異なる遺伝子同士が共通接続されたノードタイプの数、異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値、異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数、及び異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数を含み、計算式は、
S(g1,g2)=C(k)・D(k)・S(p1,p2)・C(m)・D(m)であり、
ただし、g1が既知の性状の遺伝子であり、p1が既知の性状の遺伝子に対応するタンパク質であり、g2が未知の性状の遺伝子であり、p2が未知の性状の遺伝子に対応するタンパク質であり、S(g1,g2)が未知の性状の遺伝子と既知の性状の遺伝子との間の類似度であり、C(k)は異なる遺伝子同士が共通接続されたノードの個数であり、D(k)は異なる遺伝子同士が共通接続されたノードタイプの数であり、S(p1,p2)は異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値であり、C(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数であり、D(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数であることと、
前記マルチソースデータを取得し、且つそれを前記性状制御遺伝子予測モデルに入力して未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とすることと、を含むことを特徴とする優秀な多面発現性遺伝子のマイニング方法。
【請求項2】
前記マルチソースデータベースは文献データベース及び分野科学データベースを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築する前記過程は、
性状実体を検索語として、文献データベースに基づいて性状実体に関連するタンパク質実体を取得し、且つ性状実体とタンパク質実体との関係を検査した後、タンパク質-関連-性状のトリプレットを構築することと、
各タイプの分野科学データベースに基づいて異種のタンパク質配列を取得し、且つタンパク質配列に基づいてタンパク質実体の相同性タンパク質及び対応する遺伝子を抽出して、タンパク質-相同性-タンパク質のトリプレット及びタンパク質-対応-遺伝子のトリプレットを構築することと、
各タイプの分野科学データベースに基づいてタンパク質実体及び遺伝子実体に関連する構造化データを取得し、前記構造化データをクリーニングした後、異なる分野科学データベースにおける共有タンパク質一意識別子属性に基づいてタンパク質、遺伝子及び性状以外の他の実体間のトリプレットを構築することと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記マルチソースデータを取得する前記過程は、
前記性状制御遺伝子知識グラフに基づいて、既知の性状の遺伝子g1に接続される第1実体ノードセットN(g1)と、未知の性状の遺伝子に接続される第2実体ノードセットN(g2)とをクエリすることと、
前記第1実体ノードセットN(g1)及び第2実体ノードセットN(g2)における共通に存在する実体ノードを、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードとして選択し、判定式は、
k=N(g1)∩N(g2)であることと、
既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードの個数C(k)を決定し、且つノードの実体タイプに基づいて分割して、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードタイプの数D(k)を取得することと、
前記性状制御遺伝子知識グラフに基づいて、既知の性状の遺伝子g1に対応するタンパク質P1に接続される第3実体ノードセットN(p1)と、未知の性状の遺伝子g2に対応するタンパク質p2に接続される第4実体ノードセットN(p2)とをクエリすることと、
前記第3実体ノードセットN(P1)及び第4実体ノードセットN(P2)における共通に存在する実体ノードを、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードとして選択し、判定式は、
m=N(p1)∩N(p2)であることと、
既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードの個数C(m)を決定し、且つノードの実体タイプに基づいて分割して、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数D(m)を取得することと、
異なるタンパク質のタンパク質配列を取得し、且つタンパク質配列間の類似度S(p1,p2)を計算することと、を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記所定閾値を決定する過程は、
所定年度期間の文献データベースから既知の遺伝子-関連-性状のトリプレットをデータセットとして選択し、且つ遺伝子間の類似度スコアを計算することと、
遺伝子が初めて発見された年度に基づいて、前記データセットを所定比率で分割して、訓練セット及び検証セットを取得することと、
前記訓練セットにおける遺伝子の類似度スコアを昇順でソートし、且つ小さいものから大きいものへとトラバースし、トラバースして取得された類似度スコアを順に閾値として、対応するMacro-F1値を計算することと、
Macro-F1値を最大値として選択した場合、対応する遺伝子実体類似度スコアを所定閾値として、前記検証セットに基づいて検証を行ったところ、最終的な所定閾値を取得することと、を含むことを特徴とする請求項3に記載の方法。
【請求項6】
優秀な多面発現性遺伝子のマイニング装置であって、前記装置は、
優秀な多面発現性遺伝子マイニング目的に応じて実体クラスを選択し、且つ前記実体クラスにおける異なる実体のデータ属性及び実体間のオブジェクト属性を決定し、前記実体クラス、データ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築するためのものであり、前記実体クラスはタンパク質、遺伝子、性状、信号経路、遺伝子記号、タンパク質ファミリー、構造ドメイン、細胞内局在化、細胞成分、分子機能、生物学的過程、代謝経路及び酵素を含み、且つ前記タンパク質、遺伝子及び性状を中心実体とし、前記データ属性は対応する実体の特性であり、前記オブジェクト属性は異なる実体間の関係である本体モデル構築モジュールと、
前記性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築し、且つ前記トリプレットに基づいてマルチソース知識の関連付け・融合を行って、性状制御遺伝子知識グラフを生成するための知識グラフ生成モジュールと、
前記性状制御遺伝子知識グラフにおける異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築し、且つ前記性状制御遺伝子予測モデルの計算に必要なマルチソースデータを確認するためのものであり、前記性状制御遺伝子予測モデルは未知の性状の遺伝子と既知の性状の遺伝子との間の類似度を計算するためのものであり、必要なマルチソースデータは異なる遺伝子同士が共通接続されたノードの個数、異なる遺伝子同士が共通接続されたノードタイプの数、異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値、異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数、及び異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数を含み、計算式は、
S(g1,g2)=C(k)・D(k)・S(p1,p2)・C(m)・D(m)であり、
ただし、g1が既知の性状の遺伝子であり、p1が既知の性状の遺伝子に対応するタンパク質であり、g2が未知の性状の遺伝子であり、p2が未知の性状の遺伝子に対応するタンパク質であり、S(g1,g2)が未知の性状の遺伝子と既知の性状の遺伝子との間の類似度であり、C(k)は異なる遺伝子同士が共通接続されたノードの個数であり、D(k)は異なる遺伝子同士が共通接続されたノードタイプの数であり、S(p1,p2)は異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値であり、C(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数であり、D(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数である予測モデル構築モジュールと、
前記マルチソースデータを取得し、且つそれを前記性状制御遺伝子予測モデルに入力して未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とするための多面発現性遺伝子マイニングモジュールと、を備えることを特徴とする優秀な多面発現性遺伝子のマイニング装置。
【請求項7】
コンピュータ装置であって、
メモリとプロセッサを備え、前記メモリと前記プロセッサとの間が互いに通信接続され、前記メモリにコンピュータ命令が記憶され、前記プロセッサが前記コンピュータ命令を実行することにより、請求項1~5のいずれか1項に記載の優秀な多面発現性遺伝子のマイニング方法を実行することを特徴とするコンピュータ装置。
【請求項8】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体にコンピュータ命令が記憶され、前記コンピュータ命令がコンピュータに請求項1~5のいずれか1項に記載の優秀な多面発現性遺伝子のマイニング方法を実行させるためのものであることを特徴とするコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は遺伝子マイニングの技術分野に関し、具体的には、優秀な多面発現性遺伝子のマイニング方法、装置、機器及び媒体に関する。
【背景技術】
【0002】
作物の育種についての科学研究において、性状は主に重要な機能的遺伝子によって制御される。耐乾性や耐病性などの優秀な組合せ性状を同時に持つ多面発現性遺伝子(1つの遺伝子により制御される性状が2以上である場合には、多面発現性遺伝子である)をマイニングして機能分析を行うことは、高収量・上質の新品種を得るキーポイントである。従来のゲノムワイド関連解析(GWAS)方法及び量的形質遺伝子座(QTL)マッピング方法はゲノムデータ(遺伝的変異遺伝子座)と表現型データ(目標性状)との間の関連付けを確立することを意図しており、いずれもゲノムレベルの科学的データのみを考慮しているが、他の関連データ(候補遺伝子の経路データ、タンパク質レベルデータなどを含む)をまとめて考慮しておらず、遺伝子と性状との間のデータ関連付けを正確に確立することが困難であり、知識発見結果の精度が低くて解釈可能性が低い。従って、従来の方法は多次元・マルチタイプの科学的データを同時に考慮できず、種間遺伝子間の関連についての指摘が欠けており、優秀な多面発現性遺伝子のマイニングに試練をもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0003】
これに鑑みて、本発明は、優秀な多面発現性遺伝子のマイニングの精度が低くて解釈可能性が低いという問題を解決するために、優秀な多面発現性遺伝子のマイニング方法、装置、機器及び媒体を提供する。
【課題を解決するための手段】
【0004】
第1の態様では、本発明は優秀な多面発現性遺伝子のマイニング方法を提供し、この方法は、
優秀な多面発現性遺伝子マイニング目的に応じて実体クラスを選択し、且つ実体クラスにおける異なる実体のデータ属性及び実体間のオブジェクト属性を決定し、実体クラス、データ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築することと、
性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレット(triplet、三元組)を構築し、且つトリプレットに基づいてマルチソース知識の関連付け・融合を行って、性状制御遺伝子知識グラフを生成することと、
性状制御遺伝子知識グラフにおける異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築し、且つ性状制御遺伝子予測モデルの計算に必要なマルチソースデータを確認することと、
マルチソースデータを取得し、且つそれを性状制御遺伝子予測モデルに入力して未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とすることと、を含む。
【0005】
本発明の実施例による優秀な多面発現性遺伝子のマイニング方法は、実体クラスを選択して対応するデータ属性及びオブジェクト属性を決定することにより、性状制御遺伝子本体モデルを構築し、性状制御遺伝子本体モデルに基づいて予め設定されたマルチソースのデータベースから様々な実体及びそれらの実体間の関係を抽出することにより、異なる実体間のトリプレットを構築し、トリプレットに基づいて性状制御遺伝子知識グラフを生成し、且つ異なる実体間の関係に基づいて性状制御遺伝子予測モデルを構築して、性状制御遺伝子予測モデルの計算に必要なマルチソースデータを取得することにより、未知の性状の遺伝子と既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とする。本発明は本体モデルを構築してそれへ入力してから知識グラフを生成して、これを基に性状制御遺伝子の予測を行うことにより、知識発見結果の解釈可能性を向上させて、生物学的意味上の特徴への考慮を追加して、更に、優秀な多面発現性遺伝子マイニングの精度を向上させることができる。
【0006】
選択可能な一実施形態では、実体クラスはタンパク質、遺伝子、性状、信号経路、遺伝子記号、タンパク質ファミリー、構造ドメイン、細胞内局在化、細胞成分、分子機能、生物学的過程、代謝経路及び酵素を含み、且つタンパク質、遺伝子及び性状を中心実体とし、データ属性は対応する実体の特性であり、オブジェクト属性は異なる実体間の関係である。
【0007】
本発明は実体クラスを選択して実体クラス間のデータ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築することにより、論理モデルによって実体間の抽象化レベルにおける関係を説明することができ、モデルのフレームワークを用いて本体モデルにおける実体及び実体のコア属性の値範囲を整理することにより、性状制御遺伝子発見結果の解釈可能性が低いという問題を解決することができる。
【0008】
選択可能な一実施形態では、マルチソースデータベースは文献データベース及び分野科学データベースを含む。
【0009】
本発明は組織関連文献データベース及び分野科学知識ベースにおける多次元科学的データのデータ層構築方式によって分野内の最新の学科知識をシステム化学科知識と融合することにより、優秀な多面発現性遺伝子が発見されにくいという問題を解決することができる。
【0010】
選択可能な一実施形態では、性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築する過程は、性状実体を検索語として、文献データベースに基づいて性状実体に関連するタンパク質実体を取得し、且つ性状実体とタンパク質実体との関係を検査した後、タンパク質-関連-性状のトリプレットを構築することと、各タイプの分野科学データベースに基づいて異種のタンパク質配列を取得し、且つタンパク質配列に基づいてタンパク質実体の相同性タンパク質及び対応する遺伝子を抽出して、タンパク質-相同性-タンパク質のトリプレット及びタンパク質-対応-遺伝子のトリプレットを構築することと、各タイプの分野科学データベースに基づいてタンパク質実体及び遺伝子実体に関連する構造化データを取得し、構造化データをクリーニングした後、異なる分野科学データベースにおける共有タンパク質一意識別子属性に基づいてタンパク質、遺伝子及び性状以外の他の実体間のトリプレットを構築することと、を含む。
【0011】
本発明は既存のデータによって様々な実体間の関係を抽出して対応するトリプレットを構築するとともに、トリプレットに対してマルチソース知識の関連付け・融合を行うことにより、複数のソースの同一実体又は概念についての記述情報を解決して低冗長・高精度のマージを実現することができ、それによりトリプレットに基づいて本体モデルへ入力してすべての実体を含む性状制御遺伝子知識グラフを生成し、優秀な多面発現性遺伝子のマイニングにデータサポートを提供する。
【0012】
選択可能な一実施形態では、性状制御遺伝子予測モデルは未知の性状の遺伝子と既知の性状の遺伝子との間の類似度を計算するためのものであり、必要なマルチソースデータは異なる遺伝子同士が共通接続されたノードの個数、異なる遺伝子同士が共通接続されたノードタイプの数、異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値、異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数、及び異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数を含み、計算式は、
S(g1,g2)=C(k)・D(k)・S(p1,p2)・C(m)・D(m)であり、
ただし、g1が既知の性状の遺伝子であり、p1が既知の性状の遺伝子に対応するタンパク質であり、g2が未知の性状の遺伝子であり、p2が未知の性状の遺伝子に対応するタンパク質であり、S(g1,g2)が未知の性状の遺伝子と既知の性状の遺伝子との間の類似度であり、C(k)は異なる遺伝子同士が共通接続されたノードの個数であり、D(k)は異なる遺伝子同士が共通接続されたノードタイプの数であり、S(p1,p2)は異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値であり、C(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数であり、D(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数である。
【0013】
本発明は知識グラフにおける異なる実体間の関係構造に基づいて、融合グラフにおけるノードの属性情報、トポロジー構造情報の性状制御遺伝子マイニング方法を提案し、制御遺伝子予測結果の精度が低いという問題を解決することができ、且つ優秀な多面発現性遺伝子マイニング結果の信頼性を確保することができる。
【0014】
選択可能な一実施形態では、性状制御遺伝子予測モデルの計算に必要なマルチソースデータを取得する過程は、性状制御遺伝子知識グラフに基づいて、既知の性状の遺伝子g1に接続される第1実体ノードセットN(g1)と、未知の性状の遺伝子に接続される第2実体ノードセットN(g2)とをクエリすることと、第1実体ノードセットN(g1)及び第2実体ノードセットN(g2)における共通に存在する実体ノードを、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードとして選択し、判定式は、
k=N(g1)∩N(g2)であることと、
既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードの個数C(k)を決定し、且つノードの実体タイプに基づいて分割して、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードタイプの数D(k)を取得することと、性状制御遺伝子知識グラフに基づいて、既知の性状の遺伝子g1に対応するタンパク質p1に接続される第3実体ノードセットN(p1)と、未知の性状の遺伝子g2に対応するタンパク質p2に接続される第4実体ノードセットN(p2)とをクエリすることと、第3実体ノードセットN(p1)及び第4実体ノードセットN(p2)における共通に存在する実体ノードを、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードとして選択し、判定式は、
m=N(p1)∩N(p2)であることと、
既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードの個数C(m)を決定し、且つノードの実体タイプに基づいて分割して、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数D(m)を取得することと、異なるタンパク質のタンパク質配列を取得し、且つタンパク質配列間の類似度S(p1,p2)を計算することと、を含む。
【0015】
本発明は性状制御遺伝子知識グラフにより予測モデルに必要なマルチソースデータを取得し、知識グラフに実体のすべてのノード情報が含まれており、異なる遺伝子実体の共通接続ノードに基づいて遺伝子間の類似度を計算し、共通接続ノードの数が多いほど、共通接続ノードのタイプが多くなり、遺伝子間の類似度が高くなることを表し、種間多次元科学的データの融合を実現して、知識発見結果の解釈可能性を増加させることができる。
【0016】
選択可能な一実施形態では、所定閾値を決定する過程は、
所定年度期間の文献データベースから既知の遺伝子-関連-性状のトリプレットをデータセットとして選択し、且つ遺伝子間の類似度スコアを計算することと、遺伝子が初めて発見された年度に基づいて、データセットを所定比率で分割して、訓練セット及び検証セットを取得することと、訓練セットにおける遺伝子の類似度スコアを昇順でソートし、且つ小さいものから大きいものへとトラバースし、トラバースして取得された類似度スコアを順に閾値として、対応するMacro-F1値を計算することと、Macro-F1値を最大値として選択した場合、対応する遺伝子実体類似度スコアを所定閾値として、検証セットに基づいて検証を行ったところ、最終的な所定閾値を取得することと、を含む。
【0017】
本発明は決定された既存の遺伝子-関連-性状データに対して類似度の判定・所定閾値の決定を行うことにより、類似度が所定閾値を超えた未知の性状の遺伝子が確実に既知の性状の遺伝子と同じ性状制御効果を有するように確保することができ、それにより優秀な多面発現性遺伝子マイニングの精度及び信頼性を向上させる。
【0018】
第2の態様では、本発明は優秀な多面発現性遺伝子のマイニング装置を提供し、この装置は、
優秀な多面発現性遺伝子マイニング目的に応じて実体クラスを選択し、且つ実体クラスにおける異なる実体のデータ属性及び実体間のオブジェクト属性を決定し、実体クラス、データ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築するための本体モデル構築モジュールと、
性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築し、且つトリプレットに基づいてマルチソース知識の関連付け・融合を行って、性状制御遺伝子知識グラフを生成するための知識グラフ生成モジュールと、
性状制御遺伝子知識グラフにおける異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築し、且つ性状制御遺伝子予測モデルの計算に必要なマルチソースデータを確認するための予測モデル構築モジュールと、
マルチソースデータを取得し、且つそれを性状制御遺伝子予測モデルに入力して未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とするための多面発現性遺伝子マイニングモジュールと、を備える。
【0019】
本発明の実施例による優秀な多面発現性遺伝子のマイニング装置は、実体クラスを選択して対応するデータ属性及びオブジェクト属性を決定することにより、性状制御遺伝子本体モデルを構築し、性状制御遺伝子本体モデルに基づいて予め設定されたマルチソースのデータベースから様々な実体及びそれらの実体間の関係を抽出することにより、異なる実体間のトリプレットを構築し、トリプレットに基づいて性状制御遺伝子知識グラフを生成し、且つ異なる実体間の関係に基づいて性状制御遺伝子予測モデルを構築して、性状制御遺伝子予測モデルの計算に必要なマルチソースデータを取得することにより、遺伝子間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とする。本発明は本体モデルを構築してそれへ入力してから知識グラフを生成し、これを基に性状制御遺伝子の予測を行うことにより、知識発見結果の解釈可能性を向上させて、生物学的意味上の特徴への考慮を追加して、更に、優秀な多面発現性遺伝子マイニングの精度を向上させることができる。
【0020】
第3の態様では、本発明はコンピュータ装置を提供し、メモリとプロセッサを備え、メモリとプロセッサとの間が互いに通信接続され、メモリにコンピュータ命令が記憶され、プロセッサがコンピュータ命令を実行することにより、上記第1の態様又はそれに対応するいずれか1つの実施形態に係る優秀な多面発現性遺伝子のマイニング方法を実行する。
【0021】
第4の態様では、本発明はコンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体にコンピュータ命令が記憶され、コンピュータ命令がコンピュータに上記第1の態様又はそれに対応するいずれか1つの実施形態に係る優秀な多面発現性遺伝子のマイニング方法を実行させるためのものである。
【図面の簡単な説明】
【0022】
本発明の具体的な実施形態又は従来技術の技術案をより明確に説明するために、以下、具体的な実施形態又は従来技術の記述に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は単に本発明の実施形態の一部であって、当業者であれば、創造的な労力をせずに、これらの図面に基づいて他の図面を取得することもできる。
【0023】
【
図1】本発明の実施例による優秀な多面発現性遺伝子のマイニング方法の模式的なフローチャートである。
【
図2】本発明の実施例による優秀な多面発現性遺伝子のマイニング方法における性状制御遺伝子本体モデルの模式図である。
【
図3】本発明の実施例による優秀な多面発現性遺伝子のマイニング方法における遺伝子の類似度の計算の模式図である。
【
図4】本発明の実施例による優秀な多面発現性遺伝子のマイニング方法における優秀な多面発現性遺伝子のマイニングの模式図である。
【
図5】本発明の実施例による優秀な多面発現性遺伝子のマイニング装置のブロック構成図である。
【
図6】本発明の実施例によるコンピュータ装置のハードウェアの構造模式図である。
【発明を実施するための形態】
【0024】
本発明の実施例の目的、技術案及び利点をより明確にするために、以下、本発明の実施例の図面を参照しながら本発明の実施例の技術案を明確且つ完全に説明し、明らかに、説明される実施例は本発明の実施例の一部であり、実施例の全部ではない。本発明の実施例に基づいて、当業者が創造的な労力をせずに取得する他の実施例は、いずれも本発明の保護範囲に属する。
【0025】
本発明の実施例は未知の性状の遺伝子に対して多面発現性状マイニングを行うシーンに適用される。本発明の実施例は優秀な多面発現性遺伝子のマイニング方法を提供し、性状制御遺伝子知識グラフを構築し、且つ知識グラフに基づいて優秀な多面発現性遺伝子マイニングを行うことにより、遺伝子マイニング精度を向上させて、解釈可能性を増加させる効果を実現する。なお、図面のフローチャートに示されるステップは例えば1組のコンピュータ実行可能命令のコンピュータシステムにおいて実行されてもよく、且つフローチャートに論理順序を示すが、いくつかの場合には、ここの順序と異なる順序で図示又は説明されたステップを実行してもよい。
【0026】
本実施例では、上記コンピュータに使用されることができる優秀な多面発現性遺伝子のマイニング方法を提供し、
図1は本発明の実施例による優秀な多面発現性遺伝子のマイニング方法のフローチャートであり、
図1に示すように、該プロセスは以下のステップS101~S104を含む。
【0027】
ステップS101 優秀な多面発現性遺伝子マイニング目的に応じて実体クラスを選択し、且つ実体クラスにおける異なる実体のデータ属性及び実体間のオブジェクト属性を決定し、実体クラス、データ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築する。
【0028】
具体的に、本発明の実施例では、13種類の実体クラス、16種類のデータ属性及び14個のオブジェクト属性により性状制御遺伝子本体モデルが構築されるが、これらに限られない。ここで、13種類の実体クラスは、タンパク質(Protein)、遺伝子(Gene)、性状(Trait)、信号経路(Signal Pathway)、遺伝子記号(Gene Symbol)、タンパク質ファミリー(Protein Family)、構造ドメイン(Domain)、細胞内局在化(Subcellular Location)、細胞成分(Cellular Component)、分子機能(Molecular Function)、生物学的過程(Biological Process)、代謝経路(Metabolic Pathway)及び酵素(Enzyme)を含み、且つタンパク質、遺伝子及び性状を中心実体とし、また、データ属性は対応する実体の特性であり、オブジェクト属性は異なる実体間の関係であり、これにより構築された性状制御遺伝子本体モデルは
図2に示される。タンパク質タイプの実体を例として、関連付けられる(associates with)オブジェクト属性により性状タイプと既知の性状のタンパク質タイプとを接続し、既知の性状タンパク質と性状との関連関係の確立を実現する。同時に、タンパク質自身のデータを説明する属性、即ち、タンパク質識別子(protein ID:protein identity)、種(species)、初回被発見時間(date of creation)、機能記述(function description)、影響表現型記述(phenotype disruption)及びPubMed文献番号(PMID:PubMed identity)を追加する。また、相同性(homologous to)オブジェクト属性により2つのタンパク質間の関連付けを本体モデルにおける重要なオブジェクト属性として確立することは、種間多次元科学的データの融合を実現する重要な基礎でもある。これを基に、対応付ける(corresponding to)ことによりタンパク質と遺伝子との間の関連関係を構築し、且つ遺伝子自身のデータを説明する属性、即ち、遺伝子識別子(gene ID:gene identity)、種(species)、物理的位置(location)、PANTHERデータベース番号(panther identity)、転写物の名称(transcript name)を追加する。一致する(identify with)オブジェクト属性によりタンパク質と遺伝子記号との間の関連関係を確立することは、種間遺伝子機能知識発見のキーポイントとされるが、例示的なものに過ぎず、これに限られない。
【0029】
ステップS102 性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築し、且つトリプレットに基づいてマルチソース知識の関連付け・融合を行って、性状制御遺伝子知識グラフを生成する。
【0030】
具体的に、本発明の実施例では、性状制御遺伝子本体モデルは異なる実体タイプの間に異なるタイプのオブジェクト属性が存在することだけを説明したが、性状制御遺伝子本体モデルへ入力して性状制御遺伝子知識グラフを得る必要もある。本発明の実施例は文献データベース及び分野科学データベースにおける決定された既存のデータから異なる実体及びそれらの実体間の関係を抽出するが、これに限られない。ここで、文献データベースにおける文献は分野内の最新の成果を含み、文献における関連知識が抽出されることは、最新の知識及び分野の研究進捗状況を表す。科学者の最新の成果発見が一般的に最初に文献に発表されるからである。従って、文献から抽出された知識は分野内の最も新規の知識である。分野科学データベースはシステム化・規範化された分野知識を含み、これらの知識を改めて組織及び融合することは、知識抽出の効率を向上させ、分野知識グラフの知識関連を広げることができ、分野知識の発見にとって重要な意味を有する。本発明の実施例はそれぞれPubmed文献データベース及びUnipro分野科学データベースを選択したが、実際の操作ではUnipro分野科学データベースを通じてPubmed文献データベースに遡及することは、例示的なものに過ぎず、これに限られない。2種類のデータベースの融合は、最も新規の知識と規範化・システム化された知識とを融合することであり、知識抽出の効率を向上させるだけでなく、分野知識グラフの知識関連も広げ、更に新たな学科知識の発見を実現した。
【0031】
選択可能な一実施形態では、本発明の実施例は性状(traits)記述キーワードを検索語として、Uniprot分野科学データベースを通じてPubmed文献データベースに接続してタンパク質IDを取得し、且つ、文献と性状との間の関係を更に手動でチェックして、タンパク質-関連-性状のトリプレットを確立する。
【0032】
選択可能な一実施形態では、本発明の実施例はUniportデータベースから異種のタンパク質配列をダウンロードし、次に、BLAST計算ツールを利用して異種のタンパク質配列間の類似度を計算し、これにより、タンパク質-タンパク質の相同性関係及びタンパク質-遺伝子の対応関係を取得し、タンパク質-相同性-タンパク質のトリプレット及びタンパク質-対応-遺伝子のトリプレットを構築する。
【0033】
選択可能な一実施形態では、本発明の実施例は各タイプの分野科学データベースから、関連付けられる遺伝子、タンパク質に関する構造化データをダウンロードし、且つpandasを通じてデータクリーニングを行う。異なる科学的データベースにおける共有タンパク質一意識別子登録番号に基づいて、タンパク質一意識別子属性の関連を利用してタンパク質、遺伝子及び性状以外の他の実体間のトリプレットの構築を行う。
【0034】
選択可能な一実施形態では、本発明の実施例は以上に抽出された実体トリプレットに対してマルチソース知識の関連付け・融合を行い、主に複数のソースの同一実体又は概念についての記述情報を解決して低冗長・高精度のマージを実現する。最終的に、13種類の実体クラス、16種類のデータ属性及び14個のオブジェクト属性を含む性状制御遺伝子知識グラフが形成され、
図3に性状制御遺伝子知識グラフの一部を示す。
【0035】
ステップS103 性状制御遺伝子知識グラフにおける異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築し、且つ性状制御遺伝子予測モデルの計算に必要なマルチソースデータを確認する。
【0036】
具体的に、本発明の実施例では、
図3に示すように、性状制御遺伝子知識グラフに異なる実体間の接続関係を示し、そのうち、遺伝子と性状との間の知識レベル構造に含まれる科学的データの次元が多い。従って、本発明の実施例は知識グラフにおける遺伝子と性状との間の多次元科学的データの関連特徴をまとめて、未知の性状の遺伝子と既知の性状の遺伝子との間の類似度を計算するための1つの性状制御遺伝子予測モデルを提案し、必要なマルチソースデータは、異なる遺伝子同士が共通接続されたノードの個数、異なる遺伝子同士が共通接続されたノードタイプの数、異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値、異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数、及び異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数を含み、計算式は、
S(g1,g2)=C(k)・D(k)・S(p1,p2)・C(m)・D(m)であり、
ただし、g1が既知の性状の遺伝子であり、p1が既知の性状の遺伝子に対応するタンパク質であり、g2が未知の性状の遺伝子であり、p2が未知の性状の遺伝子に対応するタンパク質であり、S(g1,g2)が未知の性状の遺伝子と既知の性状の遺伝子との間の類似度であり、C(k)は異なる遺伝子同士が共通接続されたノードの個数であり、D(k)は異なる遺伝子同士が共通接続されたノードタイプの数であり、S(p1,p2)は異なる遺伝子に対応するタンパク質間のタンパク質配列類似度値であり、C(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードの個数であり、D(m)は異なる遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数である。
【0037】
ステップS104 マルチソースデータを取得し、且つそれを性状制御遺伝子予測モデルに入力して未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とする。
【0038】
具体的に、本発明の実施例では、性状制御遺伝子知識グラフから性状制御遺伝子予測モデルの計算に必要なマルチソースデータを取得し、即ち、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードの個数C(k)及び共通接続されたノードタイプの数D(k)、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードの個数C(m)並びに共通接続されたノードタイプの数D(m)、並びに対応するタンパク質間のタンパク質配列類似度値S(p1,p2)を取得し、取得過程は、
第1として、性状制御遺伝子知識グラフに基づいて、既知の性状の遺伝子g1に接続される第1実体ノードセットN(g1)と、未知の性状の遺伝子に接続される第2実体ノードセットN(g2)とをクエリすることと、
第2として、第1実体ノードセットN(g1)及び第2実体ノードセットN(g2)における共通に存在する実体ノードを、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードとして選択し、判定式は、
k=N(g1)∩N(g2)であることと、
第3として、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードの個数C(k)を決定し、且つノードの実体タイプに基づいて分割して、既知の性状の遺伝子と未知の性状の遺伝子とが共通接続されたノードタイプの数D(k)を取得することと、
第4として、性状制御遺伝子知識グラフに基づいて、既知の性状の遺伝子g1に対応するタンパク質p1に接続される第3実体ノードセットN(p1)と、未知の性状の遺伝子g2に対応するタンパク質p2に接続される第4実体ノードセットN(p2)とをクエリすることと、
第5として、第3実体ノードセットN(P1)及び第4実体ノードセットN(P2)における共通に存在する実体ノードを、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードとして選択し、判定式は、
m=N(p1)∩N(p2)であることと、
第6として、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードの個数C(m)を決定し、且つノードの実体タイプに基づいて分割して、既知の性状の遺伝子及び未知の性状の遺伝子に対応するタンパク質同士が共通接続されたノードタイプの数D(m)を取得することと、
第7として、異なるタンパク質のタンパク質配列を取得し、且つタンパク質配列間の類似度S(p1,p2)を計算することである。
【0039】
選択可能な一実施形態では、性状制御遺伝子予測モデルに基づいて未知の性状の遺伝子と既知の性状の遺伝子との間の類似度を計算し、スコアが高いほど、該遺伝子と既知の性状の遺伝子との緊密度が高くなって、同じ性状に制御される可能性が高くなることを示している。本発明の実施例は類似度が所定閾値を超えた場合、未知の性状の遺伝子が既知の性状の遺伝子と同じ性状に制御されるように予め設定される。複数回マイニングした後、マイニングされた性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とし、本発明の実施例は性状の個数が2つ以上の未知の性状の遺伝子を優秀な多面発現性遺伝子とするが、これに限られない。ここで、所定閾値の決定過程は下記通りである。
【0040】
第1として、所定年度期間の文献データベースから既知の遺伝子-関連-性状のトリプレットをデータセットとして選択し、且つ遺伝子間の類似度スコアを計算する。本発明の実施例は1988~2023年の文献データから抽出された遺伝子-性状の関連データセットを選択して実験を行ったが、これに限られない。
【0041】
第2として、遺伝子が初めて発見された年度に基づいて、データセットを所定比率で分割して、訓練セット及び検証セットを取得する。本発明の実施例は従来の研究結果に基づいてデータセットを8:2の所定比率で分割し、即ち、1988~2017年の文献から抽出された遺伝子-性状の関連データセットを訓練セットとして選択し、2018~2023年の遺伝子-性状の関連データセットを検証セットとして選択する。
【0042】
第3として、訓練セットにおける遺伝子の類似度スコアを昇順でソートし、且つ小さいものから大きいものへとトラバースし、トラバースして取得された類似度スコアを順に閾値として、対応するMacro-F1値を計算する。Macro-F1値の計算式は、
であり、
ただし、TPは実際に正サンプルであって正サンプルと予測されることを表し、FPは実際に負サンプルであるが正サンプルと予測されることを表し、FNは実際に正サンプルであるが負サンプルと予測されることを表し、TNは実際に負サンプルであって負サンプルと予測されることを表し、Precisionは適合率を表し、Recallは再現率を表す。
【0043】
第5として、Macro-F1値を最大値として選択した場合、対応する遺伝子実体類似度スコアを所定閾値として、検証セットに基づいて検証を行ったところ、最終的な所定閾値を取得する。2018~2023年の文献データセットで検証を行うことにより、検証セットにおける重みスコアが閾値以上の遺伝子をスクリーニングしてそれを性状の制御遺伝子として予測し、且つ精度の評価を行ってモデルの科学性及び有効性を検証し、それにより本発明の実施例の所定閾値が2009.44であると決定されるが、これに限られない。
【0044】
選択可能な一実施形態では、本発明の実施例は性状制御遺伝子予測モデルに基づいて遺伝子実体LOC_Os05g12260及び遺伝子実体LOC_Os02g15640に対して類似度の計算を行う。
図3に示される性状制御遺伝子知識グラフの一部から分かるように、2つの遺伝子実体間の重複ノードの数が13であり、重複ノードのカテゴリ数が4であり、対応するタンパク質がQ6I5C3及びQ6EN42であり、それらのタンパク質間のタンパク質配列類似度が79.191であり、2つのタンパク質実体間の重複ノードの数が2であり、重複ノードのカテゴリ数が2である。性状制御遺伝子予測モデルに基づいて2つの遺伝子実体間の類似度スコアが13*4*79.19*2*2=16471.72であることが得られ、該類似度スコアが遺伝子類似度閾値2009.44よりも著しく大きい。従って、遺伝子LOC_Os02g15640が耐乾性の性状にも関連する可能性があると推測され、また、科学者は、2019年に、イネ遺伝子LOC_Os02g15640が確実に耐乾性の性状に関連する(Hanetal., 2019)ことを証明しており、これは性状制御遺伝子予測モデルの科学性を更に証明した。
【0045】
選択可能な一実施形態では、
図4に示すように、本発明の実施例は優秀な多面発現性コムギ遺伝子TraesCS2A02G338300のマイニングを例とする。文献の報道によれば、シロイヌナズナ遺伝子AT5G39610が耐塩性(Salt resistance)の性状に関連し(He X J, 2010)、イネ遺伝子LOC_Os11g03370が耐乾性(Drought resistance)及び耐塩性の性状に関連し(Zheng X, 2009)、イネ遺伝子LOC_Os04g38720が粒重(Grain weight)及び幹長(Pant height)の性状に関連し(Jiang, Dagang, Chen, 2018;Chen X, Lu S, Wang Y, 2015)、イネ遺伝子LOC_Os12g03050が耐病性(Disease resistant)の性状に関連する(Chromosomes TR, Consortia S, 2005)ことが証明された。性状制御遺伝子予測モデルに基づいて遺伝子の類似度の計算を行い、計算結果によれば、コムギ遺伝子TraesCS5B02G054200とこの4つの遺伝子との間の類似度スコアがいずれも閾値よりも著しく超えたことを示し、従って、該遺伝子は1対の遺伝子が複数の性状に影響を与える機能を有する可能性があると予測され、優秀な多面発現性遺伝子であり、即ち、該遺伝子は粒重、耐塩性、耐乾性、耐病性及び幹長の5つの性状を制御する可能性がある。現在、文献の報道によれば、コムギ遺伝子TraesCS2A02G338300が確実に耐乾性の性状に関連する(Lv S, Guo H, Zhang M, 2020)ことが証明された。
【0046】
選択可能な一実施形態では、本発明の実施例は発見された優秀な多面発現性遺伝子に関して、転写レベルの遺伝子発現量、タンパク質レベルのタンパク質含有量の測定及びハプロタイプ分析などの分子生物学実験方法から発見結果の精度を更に検証する。
【0047】
本発明の実施例による優秀な多面発現性遺伝子のマイニング方法は、実体クラスを選択して対応するデータ属性及びオブジェクト属性を決定することにより、性状制御遺伝子本体モデルを構築し、性状制御遺伝子本体モデルに基づいて予め設定されたマルチソースのデータベースから様々な実体及びそれらの実体間の関係を抽出することにより、異なる実体間のトリプレットを構築し、トリプレットに基づいて性状制御遺伝子知識グラフを生成し、且つ異なる実体間の関係に基づいて性状制御遺伝子予測モデルを構築して、性状制御遺伝子予測モデルの計算に必要なマルチソースデータを取得することにより、遺伝子間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とする。本発明は本体モデルを構築してそれへ入力してから知識グラフを生成して、これを基に性状制御遺伝子の予測を行うことにより、知識発見結果の解釈可能性を向上させて、生物学的意味上の特徴への考慮を追加して、更に、優秀な多面発現性遺伝子マイニングの精度を向上させることができる。
【0048】
本実施例は優秀な多面発現性遺伝子のマイニング装置を提供し、
図5に示すように、本体モデル構築モジュール501、知識グラフ生成モジュール502、予測モデル構築モジュール503、及び多面発現性遺伝子マイニングモジュール504を備える。
【0049】
本体モデル構築モジュール501は、優秀な多面発現性遺伝子マイニング目的に応じて実体クラスを選択し、且つ実体クラスにおける異なる実体のデータ属性及び実体間のオブジェクト属性を決定し、実体クラス、データ属性及びオブジェクト属性に基づいて性状制御遺伝子本体モデルを構築するためのものである。
【0050】
知識グラフ生成モジュール502は、性状制御遺伝子本体モデルに基づいて、マルチソースデータベースから様々な実体及びそれらの実体間の関係を抽出して、異なる実体間の関係を特徴づけるトリプレットを構築し、且つトリプレットに基づいてマルチソース知識の関連付け・融合を行って、性状制御遺伝子知識グラフを生成するためのものである。
【0051】
予測モデル構築モジュール503は、性状制御遺伝子知識グラフにおける異なる実体間の接続関係に基づいて性状制御遺伝子予測モデルを構築し、且つ性状制御遺伝子予測モデルの計算に必要なマルチソースデータを確認するためのものである。
【0052】
多面発現性遺伝子マイニングモジュール504は、マルチソースデータを取得し、且つそれを性状制御遺伝子予測モデルに入力して未知の性状の遺伝子と異なる既知の性状の遺伝子との間の類似度を計算し、類似度が所定閾値を超えた場合、未知の性状の遺伝子と既知の性状の遺伝子が同じ性状に制御されると予測され、予測された性状が所定個数を超えた場合、該未知の性状の遺伝子を優秀な多面発現性遺伝子とするためのものである。
【0053】
上記各モジュール及びユニットの更なる機能記述は上記の対応する実施例と同様であり、ここで詳細な説明は省略する。
【0054】
本実施例における優秀な多面発現性遺伝子のマイニング装置は機能ユニットの形式で示され、ここのユニットはASIC(Application Specific Integrated Circuit、特定用途向け集積回路)回路、1つ又は複数のソフトウェア又は固定プログラムを実行するプロセッサ及びメモリ、及び/又は上記機能を提供し得る他のデバイスを指す。
【0055】
本発明の実施例はコンピュータ装置を更に提供し、上記
図5に示される優秀な多面発現性遺伝子のマイニング装置を有する。
【0056】
図6を参照し、
図6は本発明の選択可能な実施例によるコンピュータ装置の構造模式図であり、
図6に示すように、該コンピュータ装置は1つ又は複数のプロセッサ10と、メモリ20と、各部品を接続するためのインターフェースとを備え、該インターフェースが高速インターフェースと低速インターフェースを含む。各部品は異なるバスを介して互いに通信接続され、且つ共通マザーボードに取り付けられることができ、又は必要に応じて他の方式で取り付けられてもよい。プロセッサはコンピュータ装置において実行される命令を処理することができ、該命令はメモリに記憶される命令、又はメモリにおける外部入力/出力装置(例えば、インターフェースに結合される表示装置)にGUIの図形情報を表示する命令を含む。いくつかの選択可能な実施形態では、必要な場合、複数のプロセッサ及び/又は複数本のバスを複数のメモリとともに使ってもよい。同様に、複数のコンピュータ装置を接続してもよく、各装置が必要な操作の一部を提供する(例えば、サーバアレイ、1組のブレードサーバ、又はマルチプロセッサシステムとして)。
図6では、1つのプロセッサ10を例とする。
【0057】
プロセッサ10は中央処理装置、ネットワークプロセッサ又はそれらの組み合わせであってもよい。そのうち、プロセッサ10はハードウェアチップを更に含んでもよい。上記ハードウェアチップは特定用途向け集積回路、プログラマブルロジックデバイス又はそれらの組み合わせであってもよい。上記プログラマブルロジックデバイスは複雑なプログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、汎用アレイロジック又はそれらの任意の組み合わせであってもよい。
【0058】
ここで、メモリ20に少なくとも1つのプロセッサ10により実行され得る命令が記憶され、それにより少なくとも1つのプロセッサ10に上記実施例に示される方法を実行して実現させる。
【0059】
メモリ20は記憶プログラム領域及び記憶データ領域を含んでもよく、記憶プログラム領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、記憶データ領域はコンピュータ装置の使用に基づいて作成されるデータなどを記憶することができる。また、メモリ20は高速ランダムアクセスメモリを含んでもよく、非一時的メモリ、例えば、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスを更に含んでもよい。いくつかの選択可能な実施形態では、メモリ20は、選択可能に、プロセッサ10に対して遠隔設置されたメモリを含み、これらの遠隔メモリがネットワーク経由で該コンピュータ装置に接続され得る。上記ネットワークの実例はインターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びそれらの組み合わせを含むが、それらに限られない。
【0060】
メモリ20は揮発性メモリ、例えばランダムアクセスメモリを含んでもよく、また、メモリは不揮発性メモリ、例えばフラッシュメモリ、ハードディスク又はソリッドステートドライブを含んでもよく、メモリ20は上記種類のメモリの組み合わせを更に含んでもよい。
【0061】
該コンピュータ装置は、該コンピュータ装置と他の装置又は通信ネットワークとの通信に用いられる通信インターフェース30を更に備える。
【0062】
本発明の実施例はコンピュータ可読記憶媒体を更に提供し、本発明の実施例による上記方法はハードウェア、ファームウェアにおいて実現され、又は記憶媒体に記録され得るように実現され、又はネットワークからダウンロードした、遠隔記憶媒体又は非一時的機械可読記憶媒体に最初に記憶されてローカル記憶媒体に記憶されようとするコンピュータコードとして実現されてもよく、それにより、ここで説明される方法は、汎用コンピュータ、専用プロセッサ又はプログラマブル又は専用ハードウェアを用いる記憶媒体に記憶されるようなソフトウェアに処理され得る。ここで、記憶媒体は磁気ディスク、光ディスク、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ、ハードディスク又はソリッドステートドライブなどであってもよく、更に、記憶媒体は上記種類のメモリの組み合わせを更に含んでもよい。理解できるように、コンピュータ、プロセッサ、マイクロプロセッサコントローラ又はプログラマブルハードウェアはソフトウェア又はコンピュータコードを記憶又は受信可能な記憶コンポーネントを含み、ソフトウェア又はコンピュータコードがコンピュータ、プロセッサ又はハードウェアによりアクセスして実行されると、上記実施例に示される方法を実現する。
【0063】
図面を参照して本発明の実施例を説明したが、当業者であれば、本発明の主旨及び範囲を逸脱せずに、種々の修正及び変形を行うことができ、このような修正及び変形はいずれも添付の請求項により限定された範囲に含まれる。