特開2024-126005 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特開2024-126005遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024126005

(43)【公開日】2024-09-19

(54)【発明の名称】遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置

(51)【国際特許分類】

G16B 40/00 20190101AFI20240911BHJP

G06N 3/08 20230101ALI20240911BHJP

【ＦＩ】

G16B40/00

G06N3/08

【審査請求】有

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2024013809

(22)【出願日】2024-02-01

(11)【特許番号】

(45)【特許公報発行日】2024-05-24

(31)【優先権主張番号】202310202392.9

(32)【優先日】2023-03-06

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】521162399

【氏名又は名称】之江実験室

(74)【代理人】

【識別番号】110000729

【氏名又は名称】弁理士法人ユニアス国際特許事務所

(72)【発明者】

【氏名】應志文

(72)【発明者】

【氏名】章依依

(72)【発明者】

【氏名】徐曉剛

(72)【発明者】

【氏名】王軍

(57)【要約】（修正有）

【課題】遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置を提供する。
【解決手段】方法は、遺伝子の形態と表現型の高低により実際の分布分割表を構築し、次に、カイ二乗仮説に基づいて遺伝子の形態と表現型の高低との期待分布分割表を構築し、各遺伝子座と表現型に対してカイ二乗検定を行い、カイ二乗分割表に基づいてカイ二乗仮説が成り立つ確率値を得、表現型に対する遺伝子座の有意性値を得、遺伝子を符号化し、各遺伝子座の有意性値に基づいて、遺伝子の符号化データに対して重み付けを行い、それにより、遺伝子データと表現型との関連性を高め、遺伝子座に基づく表現型予測の精度を大幅に向上させる。本発明では、二倍体の染色体を持つ生物を対象とし、深層学習訓練の方法を採用し、遺伝子座のデータを増強することで、遺伝子座から表現型への予測精度を向上させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

遺伝子の有意性増強に基づく知的表現型予測の訓練方法であって、
遺伝子サンプルの表現型値と対応する遺伝子配列とを取得するステップ１であって、前記遺伝子配列は一連の遺伝子座を含む、ステップ１と、
前記表現型値を利用して表現型平均値を算出し、前記表現型平均値によって遺伝子の表現型を分類し、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、遺伝子形態と表現型カテゴリに関連性がないという仮説に基づいて、遺伝子形態と表現型カテゴリとの期待分布分割表を得、前記実際の分布分割表と前記期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、前記仮説が成り立つ確率値を得、前記確率値に基づいて、表現型に対する遺伝子座の有意性値を算出するステップ２と、
前記有意性値によって、符号化された遺伝子座に対して重み付けを行い、遺伝子サンプルに対応する遺伝子増強データＸ_ｋを得るステップ３であって、前記重み付けは、各符号化された遺伝子座と対応する遺伝子の有意性値とを乗算することを指し、

【数1】

ｘ_ｋは符号化された遺伝子座、Ｐ_ｋはカイ二乗仮説が成り立つ確率値、－ｌｏｇ_１０Ｐ_ｋは遺伝子の有意性値を表す、ステップ３と、
ニューラルネットワークモデルを構築し、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップ４と、を含み、
前記ステップ２は、
有意性値を算出する必要がある遺伝子座ｋについて、遺伝子座ｋの形態と表現型ｙの間に有意な関係がないというカイ二乗仮説Ｈ_０ｋを立てるステップ２．１と、
Ｎ個の遺伝子サンプルの表現型の平均値を算出し、前記平均値に基づいてすべての遺伝子サンプルを分類し、遺伝子座の複数の形態を組み合わせて、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の実際の分布状況Ｏ_ｍｎを得るステップ２．２であって、遺伝子座の複数の形態はＡＡ、Ａａ、ａａという３つの形態であり、欠失はカウントしない、前記分類は、前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことを指し、平均値以上のものは高表現型のカテゴリに分類され、平均値未満のものは低表現型のカテゴリに分類される、ステップ２．２と、
遺伝子座ｋの形態と表現型ｙの間に有意な関係がないという前記カイ二乗仮説Ｈ_０ｋに基づいて、遺伝子形態と表現型の高低との期待分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の期待分布状況Ｅ_ｍｎを得、カイ二乗統計量χ^２を算出し、前記カイ二乗統計量によって、カイ二乗分割表を照会し、前記カイ二乗仮説が成り立つ確率値Ｐ_ｋを得、前記確率値Ｐ_ｋに基づいて、すべての遺伝子座の有意性値を算出するステップ２．３であって、

【数2】

ｍは遺伝子座の形態の数を表し、ｎは遺伝子サンプルの表現型カテゴリの数を表す、ステップ２．３と、を含む、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測の訓練方法。

【請求項2】

前記ステップ２．２において、
前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことは、

【数3】

となり、ここで、

は平均値を表し、平均値以上のものは高表現型のカテゴリに分類され、合計でＨＮ株とされ、平均値未満のものは低表現型のカテゴリに分類され、合計でＬＮ株とされ、
前記ステップ２．３において、
遺伝子座ｋの形態と表現型ｙの間に有意な関係がないという前記カイ二乗仮説Ｈ_０ｋに基づいて、

【数4】

が得られ、数４により、遺伝子形態と表現型の高低との期待分布状況が得られ、

【数5】

ここで、Ｏ_１１、Ｅ_１１はそれぞれ遺伝子形態がＡＡである高表現型の実際値と期待値、Ｏ_１２、Ｅ_１２はそれぞれ遺伝子形態がＡＡである低表現型の実際値と期待値、Ｏ_２１、Ｅ_２１はそれぞれ遺伝子形態がＡａである高表現型の実際値と期待値、Ｏ_２２、Ｅ_２２はそれぞれ遺伝子形態がＡａである低表現型の実際値と期待値、Ｏ_３１、Ｅ_３１はそれぞれ遺伝子型がａａである高表現型の実際値と期待値、Ｏ_３２、Ｅ_３２はそれぞれ遺伝子型がａａである低表現型の実際値と期待値を表す、
ことを特徴とする請求項１に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法。

【請求項3】

前記遺伝子座の符号化方式は、ワンホット（Ｏｎｅ－Ｈｏｔ）エンコーディングを採用する、
ことを特徴とする請求項１に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法。

【請求項4】

前記ステップ４において、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップは、
前記遺伝子増強データセットＸに対して訓練セットとテストセットに分け、前記訓練セットを前記ニューラルネットワークモデルに入力して学習訓練を行い、前記ネットワークに入力する１回当たりのデータ量（ｂａｔｃｈｓｉｚｅ）を設定し、入力次元をｂａｔｃｈｓｉｚｅ＊ｍ＊Ｋとし、ニューラルネットワークにより遺伝子増強データの特徴を抽出し、全結合層を通じて前記特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、前記真の表現型値と前記予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、対応するパラメータを更新し、複数回の反復更新を行い、損失値が収束するまで反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得るステップを含む、
ここで、ｍは遺伝子座の形態の数、Ｋは配列長を表す、
ことを特徴とする請求項１に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法。

【請求項5】

メモリと、１つまたは複数のプロセッサとを含む遺伝子の有意性増強に基づく知的表現型予測の訓練装置であって、前記メモリには実行可能なコードが記憶されており、前記１つまたは複数のプロセッサは前記実行可能なコードを実行すると、請求項１～４のいずれか１項に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法を実施する、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測の訓練装置。

【請求項6】

請求項１に記載の遺伝子の有意性増強に基づく知的表現型予測の訓練方法によって訓練された遺伝子増強データ表現型予測のモデルにより、遺伝子サンプルの表現型を予測する、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測方法。

【請求項7】

メモリと、１つまたは複数のプロセッサとを含む遺伝子の有意性増強に基づく知的表現型予測装置であって、前記メモリには実行可能なコードが記憶されており、前記１つまたは複数のプロセッサが前記実行可能なコードを実行すると、請求項６に記載の遺伝子の有意性増強に基づく知的表現型予測方法を実施する、
ことを特徴とする遺伝子の有意性増強に基づく知的表現型予測装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人工知能の技術分野に関し、特に、遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置に関する。

【背景技術】

【0002】

遺伝子表現型予測において、深層学習モデルを用いて予測する方法が広く注目され、応用されている。現在主流な方法の１つは、畳み込みニューラルネットワークを用いて遺伝子データに対して特徴抽出を行い、それによって遺伝子表現型予測のモデルを訓練することである。しかし、当該方法では、各遺伝子自体の表現型への寄与度が無視され、表現型予測の精度が低いという問題があった。

【発明の概要】

【0003】

従来技術の不足を解決し、遺伝子表現型予測の予測精度を向上させるという目的を実現するために、本発明に用いられる技術的解決策は以下の通りである。

【0004】

本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測の訓練方法を提供し、当該方法は、
遺伝子サンプルの表現型値と対応する遺伝子配列とを取得するステップ１であって、前記遺伝子配列は一連の遺伝子座を含む、ステップ１と、
前記表現型値を利用して表現型平均値を算出し、前記表現型平均値によって遺伝子の表現型を分類し、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、遺伝子形態と表現型カテゴリに関連性がないという仮説に基づいて、遺伝子形態と表現型カテゴリとの期待分布分割表を得、前記実際の分布分割表と前記期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、前記仮説が成り立つ確率値を得、前記確率値に基づいて、表現型に対する遺伝子座の有意性値を算出するステップ２と、
前記有意性値によって、符号化された遺伝子座に対して重み付けを行い、遺伝子サンプルに対応する遺伝子増強データＸ_ｋを得るステップ３であって、前記重み付けは、各符号化された遺伝子座と対応する遺伝子の有意性値とを乗算することを指し、
Ｘ_ｋ＝－ｌｏｇ_１０Ｐ_ｋ＊ｘ_ｋ
ここで、ｘ_ｋは符号化された遺伝子座、Ｐ_ｋはカイ二乗仮説が成り立つ確率値、－ｌｏｇ_１０Ｐ_ｋは遺伝子の有意性値を表すステップ３と、
ニューラルネットワークモデルを構築し、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップ４と、を含む。

【0005】

前記ステップ２は、
有意性値を算出する必要がある遺伝子座ｋについて、遺伝子座ｋの形態と表現型ｙの間に有意な関係がないというカイ二乗仮説Ｈ_０ｋを立てるステップ２．１と、
Ｎ個の遺伝子サンプルの表現型の平均値を算出し、前記平均値に基づいてすべての遺伝子サンプルを分類し、遺伝子座の複数の形態を組み合わせて、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の実際の分布状況Ｏ_ｍｎを得るステップ２．２であって、遺伝子座の複数の形態はＡＡ、Ａａ、ａａという３つの形態であり、欠失はカウントしない、前記分類は、前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことを指し、平均値以上のものは高表現型のカテゴリに分類され、平均値未満のものは低表現型のカテゴリに分類される、ステップ２．２と、
遺伝子座ｋの形態と表現型ｙの間に有意な関係がないという前記カイ二乗仮説Ｈ_０ｋに基づいて、遺伝子形態と表現型の高低との期待分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の期待分布状況Ｅ_ｍｎを得、カイ二乗統計量χ^２を算出し、前記カイ二乗統計量によって、カイ二乗分割表を照会し、前記カイ二乗仮説が成り立つ確率値Ｐ_ｋを得、前記確率値Ｐ_ｋに基づいて、すべての遺伝子座の有意性値を算出するステップ２．３であって、

【数1】

ｍは遺伝子座の形態の数を表し、ｎは遺伝子サンプルの表現型カテゴリの数を表す、ステップ２．３と、を含む。

【0006】

前記ステップ２．２において、
前記平均値に基づいてすべての遺伝子サンプルに対してバイナリ分類を行うことは、

【数2】

となり、ここで、

【数3】

【数4】

が得られ、数４により、遺伝子形態と表現型の高低との期待分布状況が得られ、

【数5】

【0007】

前記遺伝子座の符号化方式は、ワンホット（Ｏｎｅ－Ｈｏｔ）エンコーディングを採用する。

【0008】

前記ステップ４において、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得るステップは、
前記遺伝子増強データセットＸに対して訓練セットとテストセットに分け、前記訓練セットを前記ニューラルネットワークモデルに入力して学習訓練を行い、前記ネットワークに入力する１回当たりのデータ量（ｂａｔｃｈｓｉｚｅ）を設定し、入力次元をｂａｔｃｈｓｉｚｅ＊ｍ＊Ｋとし、ニューラルネットワークにより遺伝子増強データの特徴を抽出し、全結合層を通じて前記特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、前記真の表現型値と前記予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、対応するパラメータを更新し、複数回の反復更新を行い、損失値が収束するまで反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得るステップを含む。ここで、ｍは遺伝子座の形態の数、Ｋは配列長を表す。

【0009】

本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測の訓練装置を提供し、当該装置は、メモリと、１つまたは複数のプロセッサとを含み、前記メモリには実行可能なコードが記憶されており、前記１つまたは複数のプロセッサは前記実行可能なコードを実行すると、前記遺伝子の有意性増強に基づく知的表現型予測の訓練方法を実施する。

【0010】

本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測方法を提供し、当該方法は、
前記遺伝子の有意性増強に基づく知的表現型予測の訓練方法によって訓練された遺伝子増強データ表現型予測のモデルにより、遺伝子サンプルの表現型を予測する。

【0011】

本発明の実施形態は、遺伝子の有意性増強に基づく知的表現型予測装置を提供し、当該装置は、メモリと、１つまたは複数のプロセッサとを含み、前記メモリには実行可能なコードが記憶されており、前記１つまたは複数のプロセッサが前記実行可能なコードを実行すると、前記遺伝子の有意性増強に基づく知的表現型予測方法を実施する。

【0012】

本発明の利点および有益な効果は以下の通りである。本発明による遺伝子の有意性増強に基づく知的表現型予測、訓練方法および装置は、カイ二乗検定を用いて各ＳＮＰ遺伝子座の有意性値を算出し、その有意性値を当該遺伝子座の寄与度として遺伝子符号化データに対して重み付けを行い、その後深層学習ニューラルネットワークを用いて重み付けされた遺伝子データの特徴を抽出する。本発明は、従来の知的予測とは異なり、深層学習ネットワークを用いて遺伝子データの特徴をより簡単に抽出できるだけでなく、当該表現型に対する異なる遺伝子座の有意性値を通じて遺伝子符号化データに対して重み付けを行い、深層学習ネットワークを用いて遺伝子データの特徴を抽出することにより、各遺伝子自体の表現型への寄与度を加え、遺伝子表現型予測の精度を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】本発明の一実施形態による遺伝子の有意性増強に基づく知的表現型予測方法のフローを示す概略図である。

【図2】本発明の一実施形態による有意性増強プロセスの概略図である。

【図3】本発明の一実施形態による遺伝子の有意性増強に基づく知的表現型予測装置の構成を示す概略図である。

【発明を実施するための形態】

【0014】

以下、添付図面と合わせて本発明の具体的な実施形態について詳細に説明する。なお、本明細書で説明される具体的な実施形態は、本発明を例示および説明するためだけのものであり、本発明を限定することを意図するものではないことを理解されたい。

【0015】

図１に示すように、本発明の一実施形態によれば、遺伝子の有意性増強に基づく知的表現型予測方法を提供する。当該方法は、以下のステップ１～ステップ５を含む。

【0016】

ステップ１において、遺伝子サンプルの表現型値と対応する遺伝子配列とを取得し、遺伝子配列は一連の遺伝子座を含む。

【0017】

本発明の一実施形態では、Ｎ個の遺伝子サンプルの表現型値と対応する遺伝子配列を取得し、遺伝子配列の長さをＫとし、遺伝子配列は遺伝子座（一塩基多型、ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅＰｏｌｙｍｏｒｐｈｉｓｍｓ：ＳＮＰ）で構成される。

【0018】

ステップ２において、表現型値を利用して表現型平均値を算出し、表現型平均値によって遺伝子の表現型を分類し、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、遺伝子形態と表現型カテゴリに関連性がないという仮説に基づいて、遺伝子形態と表現型カテゴリとの期待分布分割表を得、実際の分布分割表と期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、仮説が成り立つ確率値を得、確率値に基づいて、表現型に対する遺伝子座の有意性値を算出する。

【0019】

本発明の実施形態では、表現型に対する遺伝子座の有意性値を算出する。遺伝子サンプルＮの表現型平均値

を算出し、表現型平均値

に基づいて表現型に対してバイナリ分類を行い、表現型の分類と遺伝子の３つの形態により、３つの遺伝子形態における、遺伝子サンプルの表現型の高低の実際の分布分割表を得る。当該遺伝子座の形態と表現型の高低に関連性がないという仮説を立て、３つの遺伝子形態における遺伝子サンプルの表現型の高低との期待分布分割表を得る。実際の分布分割表と期待分布分割表を利用して、カイ二乗統計量を算出し、カイ二乗分割表を照会することにより、仮説が成り立つ確率値を得、確率値に基づいて、表現型に対する遺伝子座の有意性値を算出する。具体的には、以下のステップ２．１～２．３を含む。

【0020】

ステップ２．１において、有意性値を算出する必要がある遺伝子座ｋについて、遺伝子座ｋの形態と表現型ｙの間に有意な関係がないというカイ二乗仮説Ｈ_０ｋを立てる。

【0021】

ステップ２．２において、Ｎ個の遺伝子サンプルの表現型の平均値を算出し、平均値に基づいてすべての遺伝子サンプルを分類し、遺伝子座の複数の形態を組み合わせて、遺伝子形態と表現型カテゴリとの実際の分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の実際の分布状況Ｏ_ｍｎを得る。
具体的には、Ｎ個の遺伝子サンプルの表現型ｙの平均値

を算出する。

【数6】

平均値

に基づいてすべての遺伝子サンプルに対してバイナリ分類を行い、平均値以上のものは高表現型のカテゴリに分類され、合計でＨＮ株とされ、平均値未満のものは低表現型のカテゴリに分類され、合計でＬＮ株とされる。遺伝子座の３つの形態をＡＡ、Ａａ、ａａと表し、欠失はカウントしないとする。個数統計によって遺伝子形態と表現型の高低との実際の分布分割表を得ることができる。

【表1】

Ｏ_１１は遺伝子形態がＡＡである高表現型の実際値、Ｏ_１２は遺伝子形態がＡＡである低表現型の実際値、Ｏ_２１は遺伝子形態がＡａである高表現型の実際値、Ｏ_２２は遺伝子形態がＡａである低表現型の実際値、Ｏ_３１は遺伝子型がａａである高表現型の実際値、Ｏ_３２は遺伝子型がａａである低表現型の実際値を表す。

【0022】

ステップ２．３において、遺伝子座ｋの形態と表現型ｙの間に有意な関係がないというカイ二乗仮説Ｈ_０ｋに基づいて、遺伝子形態と表現型の高低との期待分布分割表を構築し、異なる表現型カテゴリにおける各遺伝子形態の期待分布状況Ｅ_ｍｎを得、カイ二乗統計量χ^２を算出し、カイ二乗統計量によって、カイ二乗分割表を照会し、カイ二乗仮説が成り立つ確率値Ｐ_ｋを得、確率値Ｐ_ｋに基づいて、すべての遺伝子座の有意性値を算出する。

【0023】

具体的には、遺伝子座ｋの形態と表現型ｙの間に有意な関係がないというカイ二乗仮説Ｈ_０ｋに基づいて、原理的に

【数7】

が得られ、
これにより、遺伝子形態と表現型の高低との期待分布分割表を得、

【表2】

ここで、Ｅ_１１は遺伝子形態がＡＡである高表現型の期待値、Ｅ_１２は遺伝子形態がＡＡである低表現型の期待値、Ｅ_２１は遺伝子形態がＡａである高表現型の期待値、Ｅ_２２は遺伝子形態がＡａである低表現型の期待値、Ｅ_３１は遺伝子型がａａである高表現型の期待値、Ｅ_３２は遺伝子型がａａである低表現型の期待値を表す。

【0024】

カイ二乗統計量χ^２を算出し、カイ二乗分割表を照会することにより、カイ二乗仮説が成り立つ確率値Ｐ_ｋを得ることができ、カイ二乗仮説が成り立つ確率値Ｐ_ｋに基づいて、すべての遺伝子座の有意性値を算出する。

【数8】

ここで、ｍは遺伝子座の形態の数、ｎは遺伝子サンプルの表現型カテゴリの数を表す。

【0025】

ステップ３において、有意性値によって、符号化された遺伝子座に対して重み付けを行い、遺伝子サンプルに対応する遺伝子増強データを得る。前記重み付けは、各符号化された遺伝子座と対応する遺伝子の有意性値とを乗算することを指す。

【0026】

本発明の実施形態では、ステップ２により表現型に対するすべてのＫ個の遺伝子座の有意性値を算出し、３つの遺伝子形態の重みがバランスするように、各遺伝子サンプルの各遺伝子座に対してワンホットエンコーディング（Ｏｎｅ－ＨｏｔＥｎｃｏｄｉｎｇ）を行い、符号化された遺伝子座ｘ_ｋを得る。例えば、遺伝子座の形態ＡＡを［１、０、０］、Ａａを［０、１、０］、ａａを［０、０、１］、欠失を［０、０、０］と符号化する。そして、符号化された遺伝子データに対して重み付けを行い、すなわち、各符号化された遺伝子座ｘ_ｋと対応する遺伝子の有意性値－ｌｏｇ_１０Ｐ_ｋを乗算し、遺伝子サンプルに対応する遺伝子増強データＸ_ｋを得る。
Ｘ_ｋ＝－ｌｏｇ_１０Ｐ_ｋ＊ｘ_ｋ

【0027】

ステップ４において、ニューラルネットワークモデルを構築し、遺伝子増強データセットによって、表現型予測訓練を行い、訓練された遺伝子増強データ表現型予測のモデルを得る。

【0028】

遺伝子増強データセットＸに対して訓練セットとテストセットに分け、訓練セットをニューラルネットワークモデルに入力して学習訓練を行う。まず、ネットワークに入力する１回当たりのデータ量（ｂａｔｃｈｓｉｚｅ）を設定し、入力次元をｂａｔｃｈｓｉｚｅ＊ｍ＊Ｋとし、ｍは遺伝子座の形態の数、Ｋは配列長を表し、ニューラルネットワークにより遺伝子増強データの特徴を抽出する。次に、全結合層を通じて特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、真の表現型値と予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、対応するパラメータを更新する。複数回の反復更新を行い、損失値が収束するまで反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得る。

【0029】

本発明の実施形態において、ニューラルネットワークモデルの構築では、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）と全結合ニューラルネットワーク（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ：ＦＣＮＮ）を用いて特徴抽出のための畳み込みニューラルネットワークを構築し、Ｌ１ｌｏｓｓをモデルの損失ネットワークとして使用し、反復を停止するための条件パラメータやハイパーパラメータなどを含むニューラルネットワーク全体のパラメータを初期化し、ステップ３で得られた遺伝子増強データセットＸを７：３の割合で訓練セットとテストセットに分け、訓練セットを深層学習ネットワークに入力して学習訓練を行う。まず、ネットワークに入力する１回当たりのデータ量（ｂａｔｃｈｓｉｚｅ、バッチサイズ）を設定し、入力次元をｂａｔｃｈｓｉｚｅ＊３＊Ｋとし、畳み込みニューラルネットワークにより遺伝子増強データの特徴を抽出する。次に、全結合層を通じて特徴を接続して、予測の表現型値を出力し、真の表現型値と予測の表現型値を比較し、真の表現型値と予測の表現型値を損失ネットワークに入力して損失計算を行い、得られた損失値を順伝播し、ネットワークの対応するパラメータを更新する。すべてのデータが１回の反復を経た後、１回の訓練反復として記録することができ、損失値が収束に達するように、ネットワークの反復回数を２００回や３００回などに設定してもよい。損失値が収束または停止条件に達すると、反復を停止し、訓練された遺伝子増強データ表現型予測のモデルを得る。

【0030】

ステップ５において、訓練された遺伝子増強データ表現型予測のモデルによって、遺伝子サンプルの表現型を予測する。

【0031】

前記遺伝子の有意性増強に基づく知的表現型予測方法の実施形態に対応して、本発明は、遺伝子の有意性増強に基づく知的表現型予測装置の実施形態をさらに提供する。

【0032】

図３を参照すると、本発明の実施形態による遺伝子の有意性増強に基づく知的表現型予測装置は、メモリと、１つまたは複数のプロセッサとを含み、メモリには実行可能なコードが記憶されており、前記１つまたは複数のプロセッサが前記実行可能なコードを実行すると、上記実施形態における遺伝子の有意性増強に基づく知的表現型予測方法を実施する。

【0033】

本発明の遺伝子の有意性増強に基づく知的表現型予測装置の実施形態は、データ処理能力を有する任意のデバイスに適用することができ、データ処理能力を有する任意のデバイスは、コンピュータなどのデバイスまたは装置であってもよい。装置の実施形態は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよく、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。ソフトウェアによって実現されることを例にとると、論理的な意味での装置として、不揮発性メモリに対応するコンピュータプログラム命令を、それが配置されているデータ処理能力を有する任意のデバイスのプロセッサを介して内部メモリに読み込んで実行することによって形成される。ハードウェアレベルでは、図３に示すように、本発明の遺伝子の有意性増強に基づく知的表現型予測装置が配置されるデータ処理能力を有する任意のデバイスのハードウェア構造図であり、図３に示すプロセッサ、内部メモリ、ネットワークインタフェース、および不揮発性メモリに加えて、実施形態において装置が配置されるデータ処理能力を有する任意のデバイスは、通常、該データ処理能力を有する任意のデバイスの実際の機能に応じて、他のハードウェアを含むことができ、ここでは説明を省略する。

【0034】

上述した装置における各ユニットの機能および役割の実現プロセスは、上述した方法の対応するステップの実現プロセスを参照できるため、ここでは説明を省略する。

【0035】

装置の実施形態については、方法の実施形態にほぼ対応しているため、関連する部分は方法の実施形態の一部の説明を参照すればよい。上述した装置の実施形態は、単なる例示的なものであり、前記分離コンポーネントとして説明されたユニットは、物理的に分離されてもよく、または物理的に分離されなくてもよく、ユニットとして表示されたコンポーネントは、物理的なユニットであってもよく、または物理的なユニットでなくてもよく、即ち、一箇所に位置してもよく、または複数のネットワークユニットに分散されてもよい。実際の要求に応じて、その一部または全部のユニットを選択して、本発明の解決策の目的を実現することができる。当業者であれば、創造的な労力をかけずに理解し、実施することができる。

【0036】

本発明の実施形態は、プログラムが格納されたコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されると、上述の実施形態における遺伝子の有意性増強に基づく知的表現型予測方法を実現する。

【0037】

前記コンピュータ可読記憶媒体は、ハードディスクや内部メモリなどの前述したいずれかの実施形態に記載のデータ処理能力を有する任意のデバイスの内部記憶ユニットであってもよい。また、前記コンピュータ可読記憶媒体は、前記デバイスに装備されたプラグインハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ、ＳＭＣ）、ＳＤカード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などのデータ処理能力を有する任意外部記憶デバイスであってもよい。さらに、前記コンピュータ可読記憶媒体は、データ処理能力を有する任意のデバイスの内部記憶ユニットと外部記憶デバイスの両方からなることもできる。前記コンピュータ可読記憶媒体は、前記コンピュータプログラムおよび前記データ処理能力を有する任意のデバイスに必要な他のプログラムおよびデータを記憶するために用いられ、また、出力されたまたは出力予定のデータを一時的に記憶するために用いられてもよい。

【0038】

上述の実施形態は、本発明の技術的解決策を説明するためのものであり、それに限定されるものではない。前述の実施形態を参照して本発明を詳細に説明したが、当業者であれば理解されるように、前述の実施形態に記載された技術的解決策を修正したり、その技術的特徴の一部または全部に対して等価の置換を行ったりすることができ、これらの修正または置換は、対応する技術的解決策の本質を本発明の実施形態の技術的解決策の範囲から逸脱させるものではない。

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版