(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-05-16
(45)【発行日】2024-05-24
(54)【発明の名称】遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置
(51)【国際特許分類】
G06F 18/15 20230101AFI20240517BHJP
G06N 3/09 20230101ALI20240517BHJP
G16B 20/00 20190101ALI20240517BHJP
G16B 40/20 20190101ALI20240517BHJP
【FI】
G06F18/15
G06N3/09
G16B20/00
G16B40/20
(21)【出願番号】P 2024013809
(22)【出願日】2024-02-01
【審査請求日】2024-02-01
(31)【優先権主張番号】202310202392.9
(32)【優先日】2023-03-06
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】應 志文
(72)【発明者】
【氏名】章 依依
(72)【発明者】
【氏名】徐 曉剛
(72)【発明者】
【氏名】王 軍
【審査官】坂庭 剛史
(56)【参考文献】
【文献】特表2022-546984(JP,A)
【文献】国際公開第2022/197336(WO,A1)
【文献】特表2019-515369(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/15
G06N 3/09
G16B 20/00
G16B 40/20
(57)【特許請求の範囲】
【請求項1】
遺伝子の有意性増強に基づく知的表現型予測の訓練方法であって、
遺伝子サンプルの表現型値と対応する遺伝子配列とを取得するステップ1であって、前記遺伝子配列は一連の遺伝子座を含む、ステップ1と、
前記表現型値を利用して表現型平均値を算出し、前記表現型平均値によって遺伝子の表現型を分類し、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、遺伝子形態と表現型カテゴリに関連性がないという仮説に基づいて、遺伝子形態と表現型カテゴリとの期待分布分割表を得、前記実際の分布分割表と前記期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、前記仮説が成り立つ確率値を得、前記確率値に基づいて、表現型に対する遺伝子座の有意性値を算出するステップ2と、
前記有意性値によって、符号化された遺伝子座に対して重み付けを行い、遺伝子サンプルに対応する遺伝子増強データX
kを得るステップ3であって、前記重み付けは、各符号化された遺伝子座と対応する遺伝子の有意性値とを乗算することを指し、
【数1】
x
kは符号化された遺伝子座、P
kはカイ二乗仮説が成り立つ確率値、-log
10P
kは遺伝子の有意性値を表す、ステップ3と、
ニューラルネットワークモデルを構築し、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップ4と、を含み、
前記ステップ2は、
有意性値を算出する必要がある遺伝子座kについて、遺伝子座kの形態と表現型yの間に有意な関係がないというカイ二乗仮説H
0kを立てるステップ2.1と、
N個の遺伝子サンプルの表現型の平均値を算出し、前記平均値に基づいてすべての遺伝子サンプルを分類し、遺伝子座の複数の形態を組み合わせて、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の実際の分布状況O
mnを得るステップ2.2であって、遺伝子座の複数の形態はAA、Aa、aaという3つの形態であり、欠失はカウントしない、前記分類は、前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことを指し、平均値以上のものは高表現型のカテゴリに分類され、平均値未満のものは低表現型のカテゴリに分類される、ステップ2.2と、
遺伝子座kの形態と表現型yの間に有意な関係がないという前記カイ二乗仮説H
0kに基づいて、遺伝子形態と表現型の高低との期待分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の期待分布状況E
mnを得、カイ二乗統計量χ
2を算出し、前記カイ二乗統計量によって、カイ二乗分割表を照会し、前記カイ二乗仮説が成り立つ確率値P
kを得、前記確率値P
kに基づいて、すべての遺伝子座の有意性値を算出するステップ2.3であって、
【数2】
mは遺伝子座の形態の数を表し、nは遺伝子サンプルの表現型カテゴリの数を表す、ステップ2.3と、を含む、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測の訓練方法。
【請求項2】
前記ステップ2.2において、
前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことは、
【数3】
となり、ここで、
は平均値を表し、平均値以上のものは高表現型のカテゴリに分類され、合計でHN株とされ、平均値未満のものは低表現型のカテゴリに分類され、合計でLN株とされ、
前記ステップ2.3において、
遺伝子座kの形態と表現型yの間に有意な関係がないという前記カイ二乗仮説H
0kに基づいて、
【数4】
が得られ、数4により、遺伝子形態と表現型の高低との期待分布状況が得られ、
【数5】
ここで、O
11、E
11はそれぞれ遺伝子形態がAAである高表現型の実際値と期待値、O
12、E
12はそれぞれ遺伝子形態がAAである低表現型の実際値と期待値、O
21、E
21はそれぞれ遺伝子形態がAaである高表現型の実際値と期待値、O
22、E
22はそれぞれ遺伝子形態がAaである低表現型の実際値と期待値、O
31、E
31はそれぞれ遺伝子型がaaである高表現型の実際値と期待値、O
32、E
32はそれぞれ遺伝子型がaaである低表現型の実際値と期待値を表す、
ことを特徴とする請求項1に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法。
【請求項3】
前記遺伝子座の符号化方式は、ワンホット(One-Hot)エンコーディングを採用する、
ことを特徴とする請求項1に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法。
【請求項4】
前記ステップ4において、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップは、
前記遺伝子増強データセットXに対して訓練セットとテストセットに分け、前記訓練セットを前記ニューラルネットワークモデルに入力して学習訓練を行い、前記ネットワークに入力する1回当たりのデータ量(batch size)を設定し、入力次元をbatch size*m*Kとし、ニューラルネットワークにより遺伝子増強データの特徴を抽出し、全結合層を通じて前記特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、前記真の表現型値と前記予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、対応するパラメータを更新し、複数回の反復更新を行い、損失値が収束するまで反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得るステップを含む、
ここで、mは遺伝子座の形態の数、Kは配列長を表す、
ことを特徴とする請求項1に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法。
【請求項5】
メモリと、1つまたは複数のプロセッサとを含む遺伝子の有意性増強に基づく知的表現型予測の訓練装置であって、前記メモリには実行可能なコードが記憶されており、前記1つまたは複数のプロセッサは前記実行可能なコードを実行すると、請求項1~4のいずれか1項に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法を実施する、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測の訓練装置。
【請求項6】
請求項1に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法によって訓練された遺伝子増強データ表現型予測のモデルにより、遺伝子サンプルの表現型を予測する、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測方法。
【請求項7】
メモリと、1つまたは複数のプロセッサとを含む遺伝子の有意性増強に基づく知的表現型予測装置であって、前記メモリには実行可能なコードが記憶されており、前記1つまたは複数のプロセッサが前記実行可能なコードを実行すると、請求項6に記載の遺伝子の有意性増強に基づく知的表現型予測方法を実施する、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能の技術分野に関し、特に、遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置に関する。
【背景技術】
【0002】
遺伝子表現型予測において、深層学習モデルを用いて予測する方法が広く注目され、応用されている。現在主流な方法の1つは、畳み込みニューラルネットワークを用いて遺伝子データに対して特徴抽出を行い、それによって遺伝子表現型予測のモデルを訓練することである。しかし、当該方法では、各遺伝子自体の表現型への寄与度が無視され、表現型予測の精度が低いという問題があった。
【発明の概要】
【0003】
従来技術の不足を解決し、遺伝子表現型予測の予測精度を向上させるという目的を実現するために、本発明に用いられる技術的解決策は以下の通りである。
【0004】
本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測の訓練方法を提供し、当該方法は、
遺伝子サンプルの表現型値と対応する遺伝子配列とを取得するステップ1であって、前記遺伝子配列は一連の遺伝子座を含む、ステップ1と、
前記表現型値を利用して表現型平均値を算出し、前記表現型平均値によって遺伝子の表現型を分類し、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、遺伝子形態と表現型カテゴリに関連性がないという仮説に基づいて、遺伝子形態と表現型カテゴリとの期待分布分割表を得、前記実際の分布分割表と前記期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、前記仮説が成り立つ確率値を得、前記確率値に基づいて、表現型に対する遺伝子座の有意性値を算出するステップ2と、
前記有意性値によって、符号化された遺伝子座に対して重み付けを行い、遺伝子サンプルに対応する遺伝子増強データXkを得るステップ3であって、前記重み付けは、各符号化された遺伝子座と対応する遺伝子の有意性値とを乗算することを指し、
Xk=-log10Pk*xk
ここで、xkは符号化された遺伝子座、Pkはカイ二乗仮説が成り立つ確率値、-log10Pkは遺伝子の有意性値を表すステップ3と、
ニューラルネットワークモデルを構築し、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップ4と、を含む。
【0005】
前記ステップ2は、
有意性値を算出する必要がある遺伝子座kについて、遺伝子座kの形態と表現型yの間に有意な関係がないというカイ二乗仮説H
0kを立てるステップ2.1と、
N個の遺伝子サンプルの表現型の平均値を算出し、前記平均値に基づいてすべての遺伝子サンプルを分類し、遺伝子座の複数の形態を組み合わせて、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の実際の分布状況O
mnを得るステップ2.2であって、遺伝子座の複数の形態はAA、Aa、aaという3つの形態であり、欠失はカウントしない、前記分類は、前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことを指し、平均値以上のものは高表現型のカテゴリに分類され、平均値未満のものは低表現型のカテゴリに分類される、ステップ2.2と、
遺伝子座kの形態と表現型yの間に有意な関係がないという前記カイ二乗仮説H
0kに基づいて、遺伝子形態と表現型の高低との期待分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の期待分布状況E
mnを得、カイ二乗統計量χ
2を算出し、前記カイ二乗統計量によって、カイ二乗分割表を照会し、前記カイ二乗仮説が成り立つ確率値P
kを得、前記確率値P
kに基づいて、すべての遺伝子座の有意性値を算出するステップ2.3であって、
【数1】
mは遺伝子座の形態の数を表し、nは遺伝子サンプルの表現型カテゴリの数を表す、ステップ2.3と、を含む。
【0006】
前記ステップ2.2において、
前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことは、
【数2】
となり、ここで、
【数3】
は平均値を表し、平均値以上のものは高表現型のカテゴリに分類され、合計でHN株とされ、平均値未満のものは低表現型のカテゴリに分類され、合計でLN株とされ、
前記ステップ2.3において、
遺伝子座kの形態と表現型yの間に有意な関係がないという前記カイ二乗仮説H
0kに基づいて、
【数4】
が得られ、数4により、遺伝子形態と表現型の高低との期待分布状況が得られ、
【数5】
ここで、O
11、E
11はそれぞれ遺伝子形態がAAである高表現型の実際値と期待値、O
12、E
12はそれぞれ遺伝子形態がAAである低表現型の実際値と期待値、O
21、E
21はそれぞれ遺伝子形態がAaである高表現型の実際値と期待値、O
22、E
22はそれぞれ遺伝子形態がAaである低表現型の実際値と期待値、O
31、E
31はそれぞれ遺伝子型がaaである高表現型の実際値と期待値、O
32、E
32はそれぞれ遺伝子型がaaである低表現型の実際値と期待値を表す。
【0007】
前記遺伝子座の符号化方式は、ワンホット(One-Hot)エンコーディングを採用する。
【0008】
前記ステップ4において、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップは、
前記遺伝子増強データセットXに対して訓練セットとテストセットに分け、前記訓練セットを前記ニューラルネットワークモデルに入力して学習訓練を行い、前記ネットワークに入力する1回当たりのデータ量(batch size)を設定し、入力次元をbatch size*m*Kとし、ニューラルネットワークにより遺伝子増強データの特徴を抽出し、全結合層を通じて前記特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、前記真の表現型値と前記予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、対応するパラメータを更新し、複数回の反復更新を行い、損失値が収束するまで反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得るステップを含む。ここで、mは遺伝子座の形態の数、Kは配列長を表す。
【0009】
本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測の訓練装置を提供し、当該装置は、メモリと、1つまたは複数のプロセッサとを含み、前記メモリには実行可能なコードが記憶されており、前記1つまたは複数のプロセッサは前記実行可能なコードを実行すると、前記遺伝子の有意性増強に基づく知的表現型予測の訓練方法を実施する。
【0010】
本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測方法を提供し、当該方法は、
前記遺伝子の有意性増強に基づく知的表現型予測の訓練方法によって訓練された遺伝子増強データ表現型予測のモデルにより、遺伝子サンプルの表現型を予測する。
【0011】
本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測装置を提供し、当該装置は、メモリと、1つまたは複数のプロセッサとを含み、前記メモリには実行可能なコードが記憶されており、前記1つまたは複数のプロセッサが前記実行可能なコードを実行すると、前記遺伝子の有意性増強に基づく知的表現型予測方法を実施する。
【0012】
本発明の利点および有益な効果は以下の通りである。本発明による遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置は、カイ二乗検定を用いて各SNP遺伝子座の有意性値を算出し、その有意性値を当該遺伝子座の寄与度として遺伝子符号化データに対して重み付けを行い、その後深層学習ニューラルネットワークを用いて重み付けされた遺伝子データの特徴を抽出する。本発明は、従来の知的予測とは異なり、深層学習ネットワークを用いて遺伝子データの特徴をより簡単に抽出できるだけでなく、当該表現型に対する異なる遺伝子座の有意性値を通じて遺伝子符号化データに対して重み付けを行い、深層学習ネットワークを用いて遺伝子データの特徴を抽出することにより、各遺伝子自体の表現型への寄与度を加え、遺伝子表現型予測の精度を向上させることができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態による遺伝子の有意性増強に基づく知的表現型予測方法のフローを示す概略図である。
【
図2】本発明の一実施形態による有意性増強プロセスの概略図である。
【
図3】本発明の一実施形態による遺伝子の有意性増強に基づく知的表現型予測装置の構成を示す概略図である。
【発明を実施するための形態】
【0014】
以下、添付図面と合わせて本発明の具体的な実施形態について詳細に説明する。なお、本明細書で説明される具体的な実施形態は、本発明を例示および説明するためだけのものであり、本発明を限定することを意図するものではないことを理解されたい。
【0015】
図1に示すように、本発明の一実施形態によれば、遺伝子の有意性増強に基づく知的表現型予測方法を提供する。当該方法は、以下のステップ1~ステップ5を含む。
【0016】
ステップ1において、遺伝子サンプルの表現型値と対応する遺伝子配列とを取得し、遺伝子配列は一連の遺伝子座を含む。
【0017】
本発明の一実施形態では、N個の遺伝子サンプルの表現型値と対応する遺伝子配列を取得し、遺伝子配列の長さをKとし、遺伝子配列は遺伝子座(一塩基多型、Single Nucleotide Polymorphisms:SNP)で構成される。
【0018】
ステップ2において、表現型値を利用して表現型平均値を算出し、表現型平均値によって遺伝子の表現型を分類し、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、遺伝子形態と表現型カテゴリに関連性がないという仮説に基づいて、遺伝子形態と表現型カテゴリとの期待分布分割表を得、実際の分布分割表と期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、仮説が成り立つ確率値を得、確率値に基づいて、表現型に対する遺伝子座の有意性値を算出する。
【0019】
本発明の実施形態では、表現型に対する遺伝子座の有意性値を算出する。遺伝子サンプルNの表現型平均値
を算出し、表現型平均値
に基づいて表現型に対してバイナリ分類を行い、表現型の分類と遺伝子の3つの形態により、3つの遺伝子形態における、遺伝子サンプルの表現型の高低の実際の分布分割表を得る。当該遺伝子座の形態と表現型の高低に関連性がないという仮説を立て、3つの遺伝子形態における遺伝子サンプルの表現型の高低との期待分布分割表を得る。実際の分布分割表と期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、仮説が成り立つ確率値を得、確率値に基づいて、表現型に対する遺伝子座の有意性値を算出する。具体的には、以下のステップ2.1~2.3を含む。
【0020】
ステップ2.1において、有意性値を算出する必要がある遺伝子座kについて、遺伝子座kの形態と表現型yの間に有意な関係がないというカイ二乗仮説H0kを立てる。
【0021】
ステップ2.2において、N個の遺伝子サンプルの表現型の平均値を算出し、平均値に基づいてすべての遺伝子サンプルを分類し、遺伝子座の複数の形態を組み合わせて、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の実際の分布状況O
mnを得る。
具体的には、N個の遺伝子サンプルの表現型yの平均値
を算出する。
【数6】
平均値
に基づいてすべての遺伝子サンプルに対してバイナリ分類を行い、平均値以上のものは高表現型のカテゴリに分類され、合計でHN株とされ、平均値未満のものは低表現型のカテゴリに分類され、合計でLN株とされる。遺伝子座の3つの形態をAA、Aa、aaと表し、欠失はカウントしないとする。個数統計によって遺伝子形態と表現型の高低との実際の分布分割表を得ることができる。
【表1】
O
11は遺伝子形態がAAである高表現型の実際値、O
12は遺伝子形態がAAである低表現型の実際値、O
21は遺伝子形態がAaである高表現型の実際値、O
22は遺伝子形態がAaである低表現型の実際値、O
31は遺伝子型がaaである高表現型の実際値、O
32は遺伝子型がaaである低表現型の実際値を表す。
【0022】
ステップ2.3において、遺伝子座kの形態と表現型yの間に有意な関係がないというカイ二乗仮説H0kに基づいて、遺伝子形態と表現型の高低との期待分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の期待分布状況Emnを得、カイ二乗統計量χ2を算出し、カイ二乗統計量によって、カイ二乗分割表を照会し、カイ二乗仮説が成り立つ確率値Pkを得、確率値Pkに基づいて、すべての遺伝子座の有意性値を算出する。
【0023】
具体的には、遺伝子座kの形態と表現型yの間に有意な関係がないというカイ二乗仮説H
0kに基づいて、原理的に
【数7】
が得られ、
これにより、遺伝子形態と表現型の高低との期待分布分割表を得、
【表2】
ここで、E
11は遺伝子形態がAAである高表現型の期待値、E
12は遺伝子形態がAAである低表現型の期待値、E
21は遺伝子形態がAaである高表現型の期待値、E
22は遺伝子形態がAaである低表現型の期待値、E
31は遺伝子型がaaである高表現型の期待値、E
32は遺伝子型がaaである低表現型の期待値を表す。
【0024】
カイ二乗統計量χ
2を算出し、カイ二乗分割表を照会することにより、カイ二乗仮説が成り立つ確率値P
kを得ることができ、カイ二乗仮説が成り立つ確率値P
kに基づいて、すべての遺伝子座の有意性値を算出する。
【数8】
ここで、mは遺伝子座の形態の数、nは遺伝子サンプルの表現型カテゴリの数を表す。
【0025】
ステップ3において、有意性値によって、符号化された遺伝子座に対して重み付けを行い、遺伝子サンプルに対応する遺伝子増強データを得る。前記重み付けは、各符号化された遺伝子座と対応する遺伝子の有意性値とを乗算することを指す。
【0026】
本発明の実施形態では、ステップ2により表現型に対するすべてのK個の遺伝子座の有意性値を算出し、3つの遺伝子形態の重みがバランスするように、各遺伝子サンプルの各遺伝子座に対してワンホットエンコーディング(One-Hot Encoding)を行い、符号化された遺伝子座xkを得る。例えば、遺伝子座の形態AAを[1、0、0]、Aaを[0、1、0]、aaを[0、0、1]、欠失を[0、0、0]と符号化する。そして、符号化された遺伝子データに対して重み付けを行い、すなわち、各符号化された遺伝子座xkと対応する遺伝子の有意性値-log10Pkを乗算し、遺伝子サンプルに対応する遺伝子増強データXkを得る。
Xk=-log10Pk*xk
【0027】
ステップ4において、ニューラルネットワークモデルを構築し、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得る。
【0028】
遺伝子増強データセットXに対して訓練セットとテストセットに分け、訓練セットをニューラルネットワークモデルに入力して学習訓練を行う。まず、ネットワークに入力する1回当たりのデータ量(batch size)を設定し、入力次元をbatch size*m*Kとし、mは遺伝子座の形態の数、Kは配列長を表し、ニューラルネットワークにより遺伝子増強データの特徴を抽出する。次に、全結合層を通じて特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、真の表現型値と予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、対応するパラメータを更新する。複数回の反復更新を行い、損失値が収束するまで反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得る。
【0029】
本発明の実施形態において、ニューラルネットワークモデルの構築では、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)と全結合ニューラルネットワーク(Fully Connected Neural Network:FCNN)を用いて特徴抽出のための畳み込みニューラルネットワークを構築し、L1lossをモデルの損失ネットワークとして使用し、反復を停止するための条件パラメータやハイパーパラメータなどを含むニューラルネットワーク全体のパラメータを初期化し、ステップ3で得られた遺伝子増強データセットXを7:3の割合で訓練セットとテストセットに分け、訓練セットを深層学習ネットワークに入力して学習訓練を行う。まず、ネットワークに入力する1回当たりのデータ量(batch size、バッチサイズ)を設定し、入力次元をbatch size*3*Kとし、畳み込みニューラルネットワークにより遺伝子増強データの特徴を抽出する。次に、全結合層を通じて特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、真の表現型値と予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、ネットワークの対応するパラメータを更新する。すべてのデータが1回の反復を経た後、1回の訓練反復として記録することができ、損失値が収束に達するように、ネットワークの反復回数を200回や300回などに設定してもよい。損失値が収束または停止条件に達すると、反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得る。
【0030】
ステップ5において、訓練された遺伝子増強データ表現型予測のモデルによって、遺伝子サンプルの表現型を予測する。
【0031】
前記遺伝子の有意性増強に基づく知的表現型予測方法の実施形態に対応して、本発明は、遺伝子の有意性増強に基づく知的表現型予測装置の実施形態をさらに提供する。
【0032】
図3を参照すると、本発明の実施形態による遺伝子の有意性増強に基づく知的表現型予測装置は、メモリと、1つまたは複数のプロセッサとを含み、メモリには実行可能なコードが記憶されており、前記1つまたは複数のプロセッサが前記実行可能なコードを実行すると、上記実施形態における遺伝子の有意性増強に基づく知的表現型予測方法を実施する。
【0033】
本発明の遺伝子の有意性増強に基づく知的表現型予測装置の実施形態は、データ処理能力を有する任意のデバイスに適用することができ、データ処理能力を有する任意のデバイスは、コンピュータなどのデバイスまたは装置であってもよい。装置の実施形態は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよく、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。ソフトウェアによって実現されることを例にとると、論理的な意味での装置として、不揮発性メモリに対応するコンピュータプログラム命令を、それが配置されているデータ処理能力を有する任意のデバイスのプロセッサを介して内部メモリに読み込んで実行することによって形成される。ハードウェアレベルでは、
図3に示すように、本発明の遺伝子の有意性増強に基づく知的表現型予測装置が配置されるデータ処理能力を有する任意のデバイスのハードウェア構造図であり、
図3に示すプロセッサ、内部メモリ、ネットワークインタフェース、および不揮発性メモリに加えて、実施形態において装置が配置されるデータ処理能力を有する任意のデバイスは、通常、該データ処理能力を有する任意のデバイスの実際の機能に応じて、他のハードウェアを含むことができ、ここでは説明を省略する。
【0034】
上述した装置における各ユニットの機能および役割の実現プロセスは、上述した方法の対応するステップの実現プロセスを参照できるため、ここでは説明を省略する。
【0035】
装置の実施形態については、方法の実施形態にほぼ対応しているため、関連する部分は方法の実施形態の一部の説明を参照すればよい。上述した装置の実施形態は、単なる例示的なものであり、前記分離コンポーネントとして説明されたユニットは、物理的に分離されてもよく、または物理的に分離されなくてもよく、ユニットとして表示されたコンポーネントは、物理的なユニットであってもよく、または物理的なユニットでなくてもよく、即ち、一箇所に位置してもよく、または複数のネットワークユニットに分散されてもよい。実際の要求に応じて、その一部または全部のユニットを選択して、本発明の解決策の目的を実現することができる。当業者であれば、創造的な労力をかけずに理解し、実施することができる。
【0036】
本発明の実施形態は、プログラムが格納されたコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されると、上述の実施形態における遺伝子の有意性増強に基づく知的表現型予測方法を実現する。
【0037】
前記コンピュータ可読記憶媒体は、ハードディスクや内部メモリなどの前述したいずれかの実施形態に記載のデータ処理能力を有する任意のデバイスの内部記憶ユニットであってもよい。また、前記コンピュータ可読記憶媒体は、前記デバイスに装備されたプラグインハードディスク、スマートメディアカード(Smart Media(登録商標) Card、SMC)、SDカード、フラッシュカード(Flash Card)などのデータ処理能力を有する任意外部記憶デバイスであってもよい。さらに、前記コンピュータ可読記憶媒体は、データ処理能力を有する任意のデバイスの内部記憶ユニットと外部記憶デバイスの両方からなることもできる。前記コンピュータ可読記憶媒体は、前記コンピュータプログラムおよび前記データ処理能力を有する任意のデバイスに必要な他のプログラムおよびデータを記憶するために用いられ、また、出力されたまたは出力予定のデータを一時的に記憶するために用いられてもよい。
【0038】
上述の実施形態は、本発明の技術的解決策を説明するためのものであり、それに限定されるものではない。前述の実施形態を参照して本発明を詳細に説明したが、当業者であれば理解されるように、前述の実施形態に記載された技術的解決策を修正したり、その技術的特徴の一部または全部に対して等価の置換を行ったりすることができ、これらの修正または置換は、対応する技術的解決策の本質を本発明の実施形態の技術的解決策の範囲から逸脱させるものではない。
【要約】 (修正有)
【課題】遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置を提供する。
【解決手段】方法は、遺伝子の形態と表現型の高低により実際の分布分割表を構築し、次に、カイ二乗仮説に基づいて遺伝子の形態と表現型の高低との期待分布分割表を構築し、各遺伝子座と表現型に対してカイ二乗検定を行い、カイ二乗分割表に基づいてカイ二乗仮説が成り立つ確率値を得、表現型に対する遺伝子座の有意性値を得、遺伝子を符号化し、各遺伝子座の有意性値に基づいて、遺伝子の符号化データに対して重み付けを行い、それにより、遺伝子データと表現型との関連性を高め、遺伝子座に基づく表現型予測の精度を大幅に向上させる。本発明では、二倍体の染色体を持つ生物を対象とし、深層学習訓練の方法を採用し、遺伝子座のデータを増強することで、遺伝子座から表現型への予測精度を向上させる。
【選択図】
図1