(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024041583
(43)【公開日】2024-03-27
(54)【発明の名称】プログラム、情報処理装置、および情報処理方法
(51)【国際特許分類】
G16B 20/00 20190101AFI20240319BHJP
【FI】
G16B20/00
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022146476
(22)【出願日】2022-09-14
(71)【出願人】
【識別番号】522365878
【氏名又は名称】株式会社DAERA
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】田中 博
(72)【発明者】
【氏名】辻 真吾
(72)【発明者】
【氏名】下川 和郎
(57)【要約】
【課題】より高い精度でポリジェニックリスクスコアを算出する技術の提供を目的とする。
【解決手段】目標個体のジェノタイプに関するデータから中間ベクトルを算出する第1ステップと、中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第2ステップと、算出されたポリジェニックリスクスコアを出力する第3ステップと、に基づいて、ポリジェニックリスクスコアを算出する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータに、
目標個体のジェノタイプに関するデータから中間ベクトルを算出する第1ステップと、
前記中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第2ステップと、
前記算出されたポリジェニックリスクスコアを出力する第3ステップと、
を実行させるプログラムであって、
前記中間ベクトルは、生物個体のジェノタイプに関する第1データを説明変数とし、前記生物個体の表現型に関する第2データを目的変数とする多変量情報処理であって、前記第1データよりも次元が小さくかつ前記第1データと前記第2データの相互関係を縮約した特徴量ベクトルを、前記第1データから算出可能とする多変量情報処理に基づいて算出されるものであり、
前記ポリジェニックリスクスコアは、前記第1データ、前記第2データ及び前記特徴量ベクトルから導出された、前記生物個体の表現型に含まれる前記特定の表現型を推論するための予測式に基づいて算出されるものである、
プログラム。
【請求項2】
前記中間ベクトルは、少なくとも入力層、中間層及び出力層を有し、前記中間層のノード数が前記入力層及び前記出力層のノード数よりも小さいニューラルネットワークに対して、前記第1データを説明変数とし、前記第2データを目的変数として学習を行い生成された学習モデルの前記中間層から抽出されるベクトルである、
請求項1に記載のプログラム。
【請求項3】
前記予測式は、線形回帰式またはロジスティック回帰式である、請求項1に記載のプログラム。
【請求項4】
前記学習モデルは、バリデーションの誤差が所定の条件を満たすエポック数まで学習を行うことにより生成され、
前記エポック数は、前記ニューラルネットワークの出力と、前記第2データに基づく正解ラベルとの平均二乗誤差の極小値付近のエポック数である、請求項2に記載のプログラム。
【請求項5】
前記表現型は、疾患および生体情報パラメータの少なくとも1つの表現型を含む、請求項1に記載のプログラム。
【請求項6】
ジェノタイプに基づいて、ポリジェニックリスクスコアを出力する情報処理装置であって、
目標個体のジェノタイプに関するデータから中間ベクトルを算出する中間ベクトル算出部と、
前記中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出するポリジェニックリスクスコア算出部と、
前記算出されたポリジェニックリスクスコアを出力するポリジェニックリスクスコア出力部と、
を備え、
前記中間ベクトルは、生物個体のジェノタイプに関する第1データを説明変数とし、前記生物個体の表現型に関する第2データを目的変数とする多変量情報処理であって、前記第1データよりも次元が小さくかつ前記第1データと前記第2データの相互関係を縮約した特徴量ベクトルを、前記第1データから算出可能とする多変量情報処理に基づいて算出されるものであり、
前記ポリジェニックリスクスコアは、前記第1データ、前記第2データ及び前記特徴量ベクトルから導出された、前記生物個体の表現型に含まれる前記特定の表現型を推論するための予測式に基づいて算出されるものである、
情報処理装置。
【請求項7】
情報処理方法であって、
目標個体のジェノタイプに関するデータから中間ベクトルを算出する第1ステップと、
前記中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第2ステップと、
前記算出されたポリジェニックリスクスコアを出力する第3ステップと、
を含み、
前記中間ベクトルは、生物個体のジェノタイプに関する第1データを説明変数とし、前記生物個体の表現型に関する第2データを目的変数とする多変量情報処理であって、前記第1データよりも次元が小さくかつ前記第1データと前記第2データの相互関係を縮約した特徴量ベクトルを、前記第1データから算出可能とする多変量情報処理に基づいて算出されるものであり、
前記ポリジェニックリスクスコアは、前記第1データ、前記第2データ及び前記特徴量ベクトルから導出された、前記生物個体の表現型に含まれる前記特定の表現型を推論するための予測式に基づいて算出されるものである、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、ポリジェニックリスクスコアの算出に用いられるプログラム、情報処理装置、および情報処理方法に関する。
【背景技術】
【0002】
ゲノムワイド関連解析(GWAS:Genome-wide Association Studies)は、表現型(フェノタイプ:Phenotype)と遺伝的変異の統計的な相関を解析する手法であり、近年、例えばヒトの疾患と数百万ヶ所の遺伝的変異との関係を網羅的に解析する目的で実施されてきている。ゲノムワイド関連解析による解析結果を用いて、個人の遺伝的な観点での疾患リスクを予測する手法として、ポリジェニックリスクスコア(PRS:Polygenic Risk Score)が用いられてきている。ゲノムワイド関連解析結果を用いたポリジェニックリスクスコアモデルの構築には、近年、機械学習が導入されてきている(例えば非特許文献1乃至3)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Hannah L Nicholls, Christopher R John, David S Watson, Patricia B Munroe, Michael R Barnes, Claudia P Cabrera, (2020) "Reaching the End-Game for GWAS: Machine Learning Approaches for the Prioritization of Complex Disease Loci" Front. Genet. 11:350, https://doi.org/10.3389/fgene.2020.00350
【非特許文献2】David O. Enoma, Janet Bishung, Theresa Abiodun, Olubanke Ogunlana, Victor Chukwudi Osamor, "Machine learning approaches to genome-wide association studies, Journal of King Saud University - Science, Volume 34, Issue 4, 2022, 101847, ISSN 1018-3647, https://doi.org/10.1016/j.jksus.2022.101847
【非特許文献3】Liu Y, Wang D, He F, Wang J, Joshi T and Xu D (2019) "Phenotype Prediction and Genome-Wide Association Study Using Deep Convolutional Neural Network of Soybean", Front. Genet. 10:1091, https://doi.org/10.3389/fgene.2019.01091
【発明の概要】
【発明が解決しようとする課題】
【0004】
ポリジェニックリスクスコアの算出においては、特定の疾病の有無等、特定の表現型を対象とした分析が行われてきている。しかしながら、当該表現型と複数の一塩基多型(SNP:Single Nucleotide Polymorphism)との関係性について解析したところポリジェニックリスクスコアの計算の算出処理には改善の余地があり、ポリジェニックリスクスコアの算出精度を向上させることが可能であることがわかった。
【0005】
本実施形態は、複数の表現型について、複数の一塩基多型との関係性をモデル化し、より高い精度でポリジェニックリスクスコアを算出する技術の提供を目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様は、コンピュータに、目標個体のジェノタイプに関するデータから中間ベクトルを算出する第1ステップと、中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第2ステップと、算出されたポリジェニックリスクスコアを出力する第3ステップと、を実行させるプログラムであって、中間ベクトルは、生物個体のジェノタイプに関する第1データを説明変数とし、生物個体の表現型に関する第2データを目的変数とする多変量情報処理であって、第1データよりも次元が小さくかつ第1データと第2データの相互関係を縮約した特徴量ベクトルを、第1データから算出可能とする多変量情報処理に基づいて算出されるものであり、ポリジェニックリスクスコアは、第1データ、第2データ及び特徴量ベクトルから導出された、生物個体の表現型に含まれる特定の表現型を推論するための関数に基づいて算出されるものであるプログラムを提供する。
【発明の効果】
【0007】
本実施形態によれば、複数の表現型について、複数の一塩基多型との関係性をモデル化し、より高い精度でポリジェニックリスクスコアを算出する技術が提供される。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本実施形態に係るポリジェニックリスクスコア算出装置10の機能ブロック図の一例である。
【
図2】
図2は、本実施形態に係るポリジェニックリスクスコアの算出に用いられるモデル作成装置20の機能ブロック図の一例である。
【
図3】
図3は、本実施形態に係るポリジェニックリスクスコア算出装置30の機能ブロック図の一例である。
【
図4】
図4は、本実施形態に係るポリジェニックリスクスコア算出装置の物理的構成の一例を示す図である。
【
図5A】本実施形態に係るポリジェニックリスクスコア算出装置10および30、および学習モデル作成装置20により実行される処理の概要を模式的に示す図である。
【
図5B】本実施形態に係るポリジェニックリスクスコア算出装置10および30、および学習モデル作成装置20により実行される処理の概要を模式的に示す図である。
【
図6】
図6は、本実施形態におけるエポック数に対する平均二乗誤差の関係を示す図である。
【
図7】
図7は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートの一例である。
【
図8】
図8は、本実施形態により実行される学習処理のフローチャートの一例である。
【
図9】
図9は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートである。
【
図10】
図10は、実施例および比較例におけるフェノタイプの予測値の平均二乗誤差を示す。
【発明を実施するための形態】
【0009】
以下、添付図面を参照しながら本実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。
【0010】
はじめに、後述する本願発明の実施の形態に至った経緯について説明する。
【0011】
ゲノムワイド関連解析では、一般的に、一塩基多型と、病気等を含む表現型とが関連付けられる。例えば将来における病気の発症を予測する場合、一つのSNPの違いのみに基づいて将来の病気や疾患の発症や罹患の可能性を予測するのは困難であったため、近年では、複数のSNPを組み合わせて予測することが可能なポリジェニックリスクスコアが提案され、利用されてきている。
【0012】
従来のポリジェニックリスクスコアの算出においては、個人の個々のジェノタイプ(アレル)ごとに重み付けを行い足し合わせることにより個人ごとのポリジェニックリスクスコアを算出する。算出されたポリジェニックリスクスコアは、例えば、個人ごとに算出されたポリジェニックリスクスコアの集団全体での分布を求め、点数の高い個人のスコアの、標準値に対するリスク比に基づき、特定の疾患について、個人ごとの将来の疾患のリスクの予測に用いられる。近年のゲノムワイド関連解析の発展に伴い、より多くのSNPについてのデータがリスク予測に利用できるようになってきている。
【0013】
これまで、ポリジェニックリスクスコアは一定の成功を収めているものの、一般的には、SNPごとに統計解析した結果を線形回帰などによりまとめる方法が採用されており、本発明者らは、予測精度の改善の余地があると考え研究を進めてきた。本発明者らは、従来のポリジェニックリスクスコアの算出においては、SNPごとの遺伝子型が表現型の予測式の導出に用いられるが、SNP間の関係性が表現型の予測に関与する可能性には注目されていない点に着目した。すなわち、本発明は、SNP間の相互関係に注目し、相互関係を考慮することにより表現型予測の精度の向上を実現する。
【0014】
後述するように、本発明の実施形態においては、複数のSNPと複数の表現型との対応関係の特性を要約した特徴量ベクトルを用いた予測式に基づきポリジェニックリスクスコアを算出する。これにより、従来のポリジェニックリスクスコアの算出方法に比べ、SNP間の相互関係の影響を考慮することができると考えられる。従って、本実施形態のポリジェニックリスクスコアの算出方法を用いることにより、疾患等の表現型の予測精度を向上することができると考えられる。
【0015】
近年、遺伝子型を計測することの技術的困難性は低くなってきている。しかしながら、計測された遺伝子型をもとに表現型を予測する技術はまだまだ向上の余地があると考えられ、個々人の将来の健康状態や病気の発症や罹患について予測することには改善の余地がある。本発明の実施形態の方法を用いることにより、このような将来の健康状態や、病気の発症や罹患の予測精度を向上することができる。
【0016】
以下、図面を参照しながら本実施形態に係るポリジェニックリスクスコア算出方法、ポリジェニックリスクスコア算出装置、およびポリジェニックリスクスコア算出プログラムを説明する。なお、本実施形態において、SNPを取得する生物個体は任意の生物であってよく、例えばヒトについてポリジェニックリスクスコアを算出する場合には、複数人のヒトのSNPと疾患や生体パラメータ等の表現型とに関するデータを用いる。
【0017】
図1は、本実施形態に係るポリジェニックリスクスコア算出装置10の機能ブロック図の一例である。ポリジェニックリスクスコア算出装置10は、取得部12と、入力部14と、中間ベクトル算出部16と、PRS算出部18と、PRS出力部19と、を備える。
【0018】
取得部12は、例えばポリジェニックリスクスコア算出装置10の外部にあるデータベースDBから目標個体のSNPデータを取得する。SNPデータは、各生物個体が有する複数のSNPに関するデータである。データベースDBは、任意の生物個体についてのSNPデータを格納するデータベースであり、例えば、目標個体についてのSNPデータを格納してもよい。目標個体は、例えば疾患を予測する対象となる被験者であってよく、目標個体のSNPデータとは、例えば、被験者がそれぞれ有する複数のSNPである。ここでは、目標個体のSNPデータが、外部のデータベースDBから取得される場合を例に説明したが、目標個体のSNPデータは、例えばポリジェニックリスクスコア算出装置10のメモリ(後述のメモリ10b(
図4参照))に保存されていてもよく、メモリから取得されてもよい。
【0019】
入力部14は、取得部12により取得されたSNPデータを、中間ベクトル算出部16に入力する。
【0020】
中間ベクトル算出部16は、入力されたSNPデータにより中間ベクトルを算出する。具体的には、中間ベクトル算出部16は、生物個体のジェノタイプ(SNP)に関するデータ(本実施形態において、第1データ)を説明変数とし、生物個体の表現型に関するデータ(本実施形態において、第2データ)を目的変数とする多変量情報処理であって、第1データよりも次元が小さくかつ第1データと第2データの相互関係を縮約した特徴量ベクトルを、第1データから算出可能とする多変量情報処理に基づいて、中間ベクトルを算出する。多変量情報処理として、例えば、後述のようにオートエンコーダ式のニューラルネットワークを用いた処理が適用されてもよい。
【0021】
PRS算出部18は、中間ベクトル算出部16により算出された中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する。PRS算出部は、SNPデータ(第1データ)、表現型データ(第2データ)及び特徴量ベクトルから導出された、生物個体の表現型に含まれる特定の表現型を推論するための予測式に基づいて、ポリジェニックリスクスコアを算出する。この予測式は、所定の関数であってもよい。予測式としては、例えば機械学習を用いた予測式が用いられてもよい。例えば、表現型として定量的な数値を算出する場合、予測式は線形回帰式であってもよい。また、例えば、表現型として疾患の発症の確率を算出する場合、予測式は多変量ロジスティック解析により算出される多重ロジスティック回帰式であってもよい。
【0022】
PRS出力部19は、算出されたポリジェニックリスクスコアを出力する。
【0023】
上述のように、本実施形態のポリジェニックリスクスコア算出装置10により実行されるポリジェニックリスクスコアの算出処理においては、生物個体のSNPデータを説明変数とし、生物個体の表現型データを目的変数とする多変量情報処理に基づいて算出される中間ベクトルがポリジェニックリスクスコアの算出の際に用いられる。本実施形態における中間ベクトルは、SNPデータよりも次元が小さくかつSNPデータと表現型データの相互関係を縮約した特徴量ベクトルを、SNPデータから算出可能とする多変量情報処理に基づいて算出される。ポリジェニックリスクスコアは、SNPデータ、表現型データ及び特徴量ベクトルから導出された、生物個体の表現型に含まれる特定の表現型を推論するための関数に基づいて、算出される。ここで、本実施形態において出力される中間ベクトルは、複数のSNPと複数の表現型との「多対多」の対応関係の特性が縮約されたベクトル表現である。中間ベクトルを用いた回帰法によって表現型を予測することにより、例えば、SNPデータを入力として回帰法によって表現型を予測する場合に比べ、予測精度を向上することができるようになる。また、回帰分析の結果を早く収束させることもできるようになる。
【0024】
次に、本実施形態のポリジェニックリスクスコアの算出にニューラルネットワークを用いる場合を例に、本実施形態に係るポリジェニックリスクスコアの算出をさらに具体的に説明する。
【0025】
図2を参照して、本実施形態に係る例示のポリジェニックリスクスコアの算出に用いられる学習モデルの作成処理および学習モデルの作成処理を実行するモデル作成装置20について説明する。
図2は、本実施形態に係るポリジェニックリスクスコアの算出に用いられるモデル作成装置20の機能ブロック図の一例である。モデル作成装置20は、取得部22と、入力部24と、学習モデル作成部26と、中間ベクトル抽出部28と、予測式導出部29と、を備える。
【0026】
取得部22は、例えばモデル作成装置20の外部にあるデータベースDB2から複数の生物個体のSNPデータ(ジェノタイプデータ。本実施形態において、SNPデータを「第1データ」ともいう。)および複数の生物個体の表現型データ(本実施形態において、表現型データを「第2のデータ」ともいう。)を取得する。データベースDB2は、任意の生物個体についてのSNPデータおよび表現型データのセットを格納するデータベースであり、例えば、複数の生物個体についてのSNPデータおよび表現型データの複数のセットを格納してもよい。生物個体のSNPデータとは、上述のように、例えば、被験者がそれぞれ有する複数のSNPである。生物個体の表現型データとは、各被験者についての観察可能な特徴や形質を示すデータであり、例えば、各被験者の1または複数の疾患に対する発症の有無に関するデータや、各被験者の身長や体重などの身体的な特徴を示すデータ等であってもよい。なお、本実施形態のデータベースDB2は、SNPデータおよび表現型データの複数のセットが格納されている場合を例に説明したが、データベースDB2の構成はこれに限られない。例えば、複数のSNPデータが生物個体を識別する情報と関連付けられて格納されたデータベースと、複数の表現型データが生物個体を識別する情報と関連付けられて格納されたデータベースとを、それぞれ用意し、複数のSNPデータおよび複数の表現型データをそれぞれのデータベースから生物個体を識別する情報に基づいて取得してもよい。また、生物個体によって、SNPデータや表現型データが異なるデータベースに格納され、データが複数のデータベースから取得されるように構成されていてもよい。
【0027】
入力部24は、ニューラルネットワーク26aの学習の際、取得部22により取得されたSNPデータおよび表現型データを、学習モデル作成部26に入力する。また、入力部24は、予測式を導出する際に、取得部22により取得されたSNPデータを中間ベクトル抽出部28に、当該SNPデータに対応する表現型のうち少なくとも特定の1または複数の表現型データを予測式導出部29に、それぞれ入力する。
【0028】
学習モデル作成部26は、ニューラルネットワーク26aを有し、入力されたSNPデータを説明変数とし、健康診断の数値や病気の有無など考え得る複数の表現型データを目的変数として、ニューラルネットワーク26aの学習(機械学習)を行う。ここで、ニューラルネットワーク26aは、少なくとも入力層、中間層及び出力層を備えて構成され、中間層のノード数は、入力層及び出力層のノード数よりも小さい。ニューラルネットワーク26aの学習は周知の手法を適用できる。例えば、学習モデル作成部26は、生物個体から計測された遺伝子型である複数のSNPデータを入力層に入力し、当該生物個体の表現型データが出力層から出力されるようにニューラルネットワーク26aの学習を行う。後述するように、学習フェーズにおいては、Validationが極小となる回数まで学習が行われるように構成されてもよい。
【0029】
本実施形態で用いられるニューラルネットワーク26aは、例えばオートエンコーダ式のネットワークに相当し、学習が進んだニューラルネットワーク26aにおける中間層は、複数の個体のSNPと複数の表現型との対応関係を縮約する潜在空間(Latent Space)として機能する。従って、ニューラルネットワーク26aの中間層から、複数のSNP(SNP群)と複数の表現型(疾患群等)との「多対多」の対応関係を要約する特徴量を抽出することが可能となる。
【0030】
中間ベクトル抽出部28は、学習モデル作成部26により作成されたニューラルネットワーク26aに基づいて作成された、中間ベクトルを抽出して出力する学習モデル28aを備える。学習モデル28aとしては、学習モデル作成部26で学習されたニューラルネットワーク26aを用いることができる。この場合、中間ベクトル抽出部28は、学習モデル28aの中間層のノード値からなるベクトルを、中間ベクトルとして出力する。また、学習モデル28aとして、学習モデル作成部26で学習されたニューラルネットワーク26aのうちの入力層から中間層までで構成される第2ニューラルネットワーク(すなわち、ニューラルネットワーク26aの中間層に相当する部分が、学習モデル28aの出力層となる)を用いてもよい。この場合、中間ベクトル抽出部28は、学習モデル28aの出力層からの出力ベクトルを、中間ベクトルとして出力する。
【0031】
なお、中間ベクトル抽出部28による中間ベクトルの出力に用いられる学習モデル28aは、例えば、上述のように学習モデル28aによりValidationが極小となるまで学習を行うことにより作成された学習済みモデルであってもよい。また、Validationが極小となる前の段階で学習を止めた学習モデルであってもよい。
【0032】
予測式導出部29は、中間ベクトル抽出部28に生物個体のSNPデータを入力したときに出力される中間ベクトルを説明変数とし、当該生物個体の表現型のうち特定の1または複数の表現型データを目的変数とする予測式を導出する。上述のように、本実施形態においては、予測式は、例えば、線形回帰式や多変量ロジスティック解析により算出されるロジスティック回帰式であってもよい。
【0033】
次に、
図3を参照して、本実施形態に係る例示のポリジェニックリスクスコアの算出に用いられるポリジェニックリスクスコア算出装置について説明する。
図2を参照して上述したモデル作成装置20は、本実施形態の学習フェーズで用いられるのに対し、
図3に示されるポリジェニックリスクスコア算出装置30は、本実施形態の推論フェーズ、すなわち、目標個体のポリジェニックリスクスコアを算出する際に用いられる。
図3は、本実施形態に係るポリジェニックリスクスコア算出装置30の機能ブロック図の一例である。ポリジェニックリスクスコア算出装置30は、取得部32と、入力部34と、中間ベクトル算出部36と、PRS算出部38と、PRS出力部39と、を備える。
【0034】
取得部32は、データベースDB3から目標個体のSNPデータを取得する。データベースDB3は、目標個体についてのSNPデータを格納するデータベースであってもよい。目標個体のSNPデータとは、例えば、被験者が有する複数のSNPである。本実施形態においては、目標個体のSNPデータは、例えば目標個体検査装置40を用いて、目標個体から計測され、データベースDB3に格納されてもよい。あるいは、例えば目標個体検査装置40を用いて計測された目標個体のSNPデータが、データベースDB3に格納されることなく、取得部32により取得されてもよい。
【0035】
入力部34は、取得部32により取得されたSNPデータを、中間ベクトル抽出部36に入力する。
【0036】
中間ベクトル抽出部36は、学習モデル36aを備え、学習モデル36aから中間ベクトルを抽出する。学習モデル36aとして、学習モデル作成装置20により作成された学習モデル28aが適用される。中間ベクトル抽出部36から出力される中間ベクトルは、学習モデル36aの入力層に入力される目標個体のSNPデータより次元が小さいベクトルである。
【0037】
PRS算出部38は、中間ベクトル抽出部36により抽出された中間ベクトルを、予測式38aに入力し、目標個体の特定の表現型の予測値を算出し、この予測値に基づいてポリジェニックリスクスコアを算出する。予測式38aは、予測式導出部29により導出された予測式が適用される。
【0038】
PRS出力部39は、PRS算出部により算出されるポリジェニックリスクスコアを出力する。
【0039】
図4は、本実施形態に係るポリジェニックリスクスコア算出装置の物理的構成の一例を示す図である。ポリジェニックリスクスコア算出装置10は、演算部に相当するCPU(Central Processing Unit)等のプロセッサ10aと、メモリ10bと、通信部10cと、入力部10dと、表示部10eと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例ではポリジェニックリスクスコア算出装置10が一台のコンピュータで構成される場合について説明するが、ポリジェニックリスクスコア算出装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、
図2で示す構成は一例であり、ポリジェニックリスクスコア算出装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
【0040】
プロセッサ10aは、メモリ10bに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。プロセッサ10aは、SNPデータ等を用いてポリジェニックリスクスコアを算出するプログラム(ポリジェニックリスクスコア算出プログラム)を実行する演算部である。プロセッサ10aは、入力部10dや通信部10cから種々のデータを受け取り、データの演算結果を表示部10eに表示したり、メモリ10bに格納したりする。
【0041】
メモリ10bは、例えばRAM(Random Access Memory)と、記憶部に相当するROM(Read only Memory)とを有していてもよい。RAMは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAMは、プロセッサ10aが実行するプログラムや、ポリジェニックリスクスコアの算出に用いられるデータ(例えばSNPデータや表現型データ)を記憶してもよい。なお、これらは例示であって、RAMには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
【0042】
ROMは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されていてもよい。ROMは、例えばポリジェニックリスクスコア算出プログラムや、書き換えが行われないデータを記憶してもよい。
【0043】
通信部10cは、ポリジェニックリスクスコア算出装置10を他の機器に接続するインターフェースである。通信部10cは、インターネット等の通信ネットワークに接続されてよい。
【0044】
入力部10dは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及び/またはタッチパネルを含んでよい。
【0045】
表示部10eは、プロセッサ10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10eは、例えば、本実施形態に係るポリジェニックリスクスコア算出方法により出力されるポリジェニックリスクスコアを表示してもよい。
【0046】
ポリジェニックリスクスコア算出プログラムは、メモリ10b(例えばRAMやROM)等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10cにより接続される通信ネットワークを介して提供されてもよい。ポリジェニックリスクスコア算出装置10では、プロセッサ10aがポリジェニックリスクスコア算出プログラムを実行することにより、
図1乃至
図3を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、ポリジェニックリスクスコア算出装置10は、プロセッサ10aとメモリ10bとが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、ポリジェニックリスクスコア算出装置10は、プロセッサ10aとしてGPU(Graphical Processing Unit)を備えていてもよく、GPUがポリジェニックリスクスコア算出プログラムを実行することにより、
図1乃至
図3を用いて説明した様々な動作が実現されてもよい。
【0047】
図5Aおよび
図5Bは、本実施形態に係るポリジェニックリスクスコア算出装置10により実行される処理の概要を説明する。
図5Aおよび
図5Bは、本実施形態に係るポリジェニックリスクスコア算出装置10および30、および学習モデル作成装置20により実行される処理の概要を模式的に示す図である。すなわち、
図5Aは、学習モデル作成装置20により実施される本実施形態におけるポリジェニックリスクスコアの算出に用いられる学習モデルの学習フェーズの処理を説明する図であり、
図5Bは、ポリジェニックリスクスコア算出装置10および30により実行されるポリジェニックリスクスコアの算出の推論フェーズの処理を説明する図である。
【0048】
まず、学習フェーズについて説明する。ポリジェニックリスクスコア算出装置20の取得部22により、データベースDB2より、SNPおよび表現型(フェノタイプ)のデータを取得する。取得部22により取得されるSNPデータは、
図5Aに示されるように、例えば複数の被験者(被験者1、被験者2、…、被験者N)が有する多数のSNP(SNP1、SNP2、…、SNPn)である。また、取得部22により取得される表現型のデータは、例えば複数の被験者(被験者1、被験者2、…、被験者N)について、表現型の例である1または複数の疾病名(病名1、病名2、…、病名m)に対する疾患の有無や発症の履歴に関するデータであってもよい。本実施形態においては、表現型として、他の指標やパラメータを用いることも可能である。表現型として、例えば、被験者の各種生体情報パラメータを用いてもよい。生体情報パラメータとしては、例えば、身長、体重、血圧などの生理検査情報、血糖値、ヘモグロビン濃度等の検体検査情報及び正常範囲との相違を記号化したものが用いられてもよい。本実施形態においては、SNP群として、100万以上のSNPを含み、表現型群として、100以上200以下の範囲の表現型を含んでいてもよいが、これらに限られるものではない。例えば、表現型群は50以下の表現型を含んでもよい。なお、
図5Aに示すとおり、SNPデータは、各被験者のデプロイドであってよい。また、SNPデータは被験者のハプロイドやデプロイドに限られない。例えばSNPを用いる対象はヒト以外の動物等を含む他の生物種であってもよく、用いるSNPデータはそれらのヒト以外の生物種のSNPデータであってもよい。例えば対象のSNPデータは、ある生物種のテトラプロイド(4倍体)等の他の倍数体(ポリプロイド、polyploid)であってもよい。
【0049】
次に、取得した多数のSNPのデータおよび取得した多数の表現型のデータが入力部24により学習モデル作成部26のニューラルネットワーク26aに入力され、多数のSNPのデータを説明変数とし、多数の表現型のデータを目的変数として、それぞれ入力および出力として、機械学習を行い学習モデルが構築される。本実施形態の機械学習においては、例えばニューラルネットワーク等の公知の学習モデルが用いられてもよい。
【0050】
なお、本実施形態においては、学習は任意の回数で行われてもよい。学習の回数(エポック数)は、例えば平均二乗誤差が極小となる回数など、公知の方法により所定の条件を満たすエポック数が決定されてもよい。
図6に、本実施形態におけるエポック数に対する平均二乗誤差の関係を示す。本実施形態においては、平均二乗誤差として、ニューラルネットワークによる出力と、表現型データ(本実施形態における第2データ)に基づく正解ラベルとの平均二乗誤差を算出してもよい。
図6に示されるように、本実施形態においては、100回目前後でバリデーションの最小二乗誤差が極小を示しており、エポック数として例えば極小値付近である95以上110以下の回数、例えば100回をエポック数として学習を実施してもよい。
【0051】
こうして学習した学習モデル(以下、学習済みモデルとも称する)から、中間ベクトル抽出部28により、中間ベクトルを抽出する。ここで、抽出される中間ベクトル(中間層ベクトル)の次元は、学習段階において入力したSNPデータの次元より小さい。
【0052】
また、本実施形態におけるニューラルネットワークにおいて、学習モデルの入力層(SNPデータの入力層)のニューロン数である入力層ニューロン数と、出力層(表現型データの出力層)のニューロン数である出力層ニューロン数と、中間層のニューロン数である中間層ニューロン数とは、例えば入力層ニューロン数≫出力層ニューロン数≒中間層ニューロン数の関係であってもよい。上述のように、本実施形態においては、例えば、入力層ニューロン数は10万以上100万未満、または100万以上であってもよく、中間層ニューロン数は出力層ニューロン数がほぼ同数で、いずれも例えば100未満、あるいは100以上200以下であってよい。
【0053】
続いて、抽出した中間ベクトルのベクトル表現を説明変数、学習段階に先立ってデータベースDB2より取得した表現型データを目的変数として、予測式を導出する。予測式は、上述のように、例えば線形回帰式であってもよく、中間ベクトルのベクトル表現と、表現型データとの関係を表す線形回帰式は、例えば、エラスティックネット(Elastic Net)等正則化を内包した線形回帰等の方法を用いて導出されてもよい。上述のように、予測式は、線形回帰式に限らず、多変量ロジスティック解析により算出されるロジスティック回帰式であってもよい。
【0054】
次に、目標個体のポリジェニックリスクスコアを算出する推論フェーズについて説明する。
図5Bに示されるように、取得部12または取得部32により、目標個体XのSNPデータが取得される。例えば、被験者XのSNP群(SNP1、SNP2、…、SNPn)をデータベースDBより取得してもよい。なお、推論は、複数の目標個体(複数の被験者)について行ってもよい。
【0055】
取得したSNPデータは学習モデルに入力され、目標個体Xの中間ベクトルを抽出する。
【0056】
続いて、抽出した目標個体X(被験者X)の中間ベクトルのベクトル表現を、先に導出した予測式に入力し、目標個体Xについての、1または複数の表現型に関する予測結果を算出する。例えば、被験者Xの中間ベクトルの出力に用いられる入力として、上述のように被験者XのSNP群を用いた場合には、1または複数の病名(病名1、病名2、…、病名m)に対する疾患予測を予測結果として算出する。こうして、被験者Xのポリジェニックリスクスコアが算出される。なお、予測式を用いて算出される表現型は、例えば、1または複数の特定の疾患に関する表現型であってもよいし、疾患を特定せず、算出可能な多数の表現型を算出してもよい。本実施形態において、ポリジェニックリスクスコアとして算出される予測結果は0以上1以下の値であってよい。例えば定量的な表現型について予測する場合、予測式として線形回帰式が用いられてもよい。また、任意の症例や疾患のリスクの予測である場合、予測式としてロジスティック回帰式が用いられてもよい。また、算出されるスコアが所定の閾値を超える場合に当該疾患のリスクが高いと判断してもよい。
図5Bに示すように、被験者Xは病名11についてポリジェニックリスクスコアが0.931と比較的高い値となっている。このとき、例えば閾値が0.9であれば、被験者Xは病名11について疾患の可能性が高いといえる。
【0057】
以上説明してきたように、本実施形態のポリジェニックリスクスコア算出装置10により実行されるポリジェニックリスクスコアの算出処理においては、複数の生物個体(例えば複数の被験者)のSNPデータおよび表現型データをそれぞれ説明変数および目的変数として構築された学習モデルの中間層から抽出される中間ベクトルのベクトル表現が、ポリジェニックリスクスコアの算出に用いられる予測式の導出に利用される。また、目標個体のポリジェニックリスクスコアの算出においては、目標個体のSNPデータを学習モデルに入力して得られる中間ベクトルのベクトル表現が、先に導出された予測式の入力として用いられる。本実施形態において抽出される中間ベクトルの次元は学習モデルの入力層や出力層の次元よりも小さい。従って、複数のSNPと複数の表現型との「多対多」の対応関係の特性が縮約されたノードである中間ベクトルのベクトル表現に基づいて、ポリジェニックリスクスコアが算出される。これにより、SNPデータを入力として回帰法により表現型を予測する場合に比べ、複数のSNPデータと複数の表現型との対応関係を効果的に考慮して表現型の予測(例えば目標個体の疾患の予測)が行われることになるので、表現型の予測精度を向上することができる。予測される表現型としては、病気や疾患の発症や罹患の予測に限られず、例えば発症や罹患の前の状態の予測であってもよい。例えば将来的に発症や罹患の結果が生じ得る兆候を予測してもよい。
【0058】
図7を参照して、本実施形態に係るポリジェニックリスクスコア算出装置10により実行されるポリジェニックリスクスコアの算出処理を説明する。
図7は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートの一例である。
はじめに、目標個体のジェノタイプに関するデータ(SNPデータ)から所定の多変量情報処理に基づいて、中間ベクトルを算出する(S702)。本実施形態において、ポリジェニックリスクスコア算出装置10は、データベースDBから目標個体のSNPデータを取得し、取得された目標個体のSNPデータに対して所定の多変量情報処理を行うことにより、SNPデータよりも次元が小さくかつSNPデータと表現型データの相互関係を縮約した特徴量ベクトルを、中間ベクトルとして算出する。
【0059】
次に、中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する(S704)。本実施形態において、ポリジェニックリスクスコア算出装置10は、ステップS702で算出された中間ベクトルを特定の関数に入力して、ポリジェニックリスクスコアを算出する。
【0060】
続いて、ポリジェニックリスクスコア算出装置10は、ステップS704で算出されたポリジェニックリスクスコアを出力する(S706)。本実施形態においては、ポリジェニックリスクスコアは、PRS出力部19により出力される。
次に、
図8を参照して、本実施形態に係る例示のモデル作成装置20により実行される学習処理について説明する。
図8は、本実施形態により実行される学習処理のフローチャートの一例である。すなわち、
図8に示される学習処理は、本実施形態における学習フェーズでの処理である。
【0061】
はじめに、モデル作成装置20は、説明変数として用いられる生物個体のSNPデータを取得する(S802)。
【0062】
次に、モデル作成装置20は、目的変数として用いられる生物個体のフェノタイプのデータ(表現型データ)を取得する(S804)。
【0063】
なお、ここでは、SNPデータが取得された後に表現型データが取得される場合を例に説明したが、SNPデータおよび表現型データの取得工程はこれに限られず、例えばSNPデータおよび表現型データが同時に取得されてもよいし、表現型データが取得されてからSNPデータが取得されてもよい。
【0064】
続いて、モデル作成装置20は、取得した生物個体のSNPデータおよび表現型データ(フェノタイプのデータ)を、それぞれ説明変数および目的変数として、ニューラルネットワークモデルを構築する(S806)。本実施形態において、モデル作成装置20は、生物個体のSNPデータおよび表現型データに基づいて、ニューラルネットワーク26aの学習を行う。
【0065】
モデル作成装置20は、学習終了条件を満たす場合(S808:YES)、学習を終了する。一方、学習終了条件を満たさない場合(S808:NO)、モデル作成装置20は、再び処理S802~S806を実行する。ここで、学習終了条件は、例えば、上述したように所定のエポックが経過することであってもよい。また、上述したように、学習終了条件は任意に決定されてもよく、例えば上述の例で示したようにバリデーションの最小二乗誤差が極小となるエポック数付近で終了する終了条件としてもよく、あるいは、バリデーションの最小二乗誤差が極小となる前の任意のエポック数に達した段階で終了し、続くプロセスに移行してもよい。なお、学習終了条件を満たさず、モデル作成装置20が再びS802~S806の処理を実行する場合、学習に使われるSNPデータや表現型データは、これまでの学習においては使われていないデータであってもよいし、以前の学習に使われたデータであってもよい。
【0066】
学習終了条件を満たすと、モデル作成装置20は学習を終了し、ニューラルネットワーク26aに基づいて学習モデル28aを作成し、学習モデル28aを用いて中間ベクトルを抽出して出力する(S810)。
【0067】
モデル作成装置20は、ステップS810で抽出した中間ベクトルを用いて、予測式を導出する(S812)。
【0068】
図9を参照して、本実施形態に係るポリジェニックリスクスコア算出装置30により実行されるポリジェニックリスクスコアの算出処理を説明する。
図9は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートである。すなわち、
図9に示されるポリジェニックリスクスコアの算出処理は、本実施形態における推論フェーズでの処理である。
【0069】
はじめに、ポリジェニックリスクスコア算出装置30は、データベースDB3から目標個体のSNPデータを取得する(S902)。
【0070】
次に、ポリジェニックリスクスコア算出装置30は、ステップS902で取得されたSNPデータをステップS810で作成した学習モデル28aと等価な学習モデル36aに入力する(S904)。
【0071】
続いて、ポリジェニックリスクスコア算出装置30は、学習モデル36aから中間ベクトルを抽出する(S906)。
【0072】
次に、ポリジェニックリスクスコア算出装置30は、抽出した中間ベクトルのベクトル表現を、ステップS812で導出した予測式38aに入力し、ポリジェニックリスクスコアを算出する(S908)。
【0073】
その後、ポリジェニックリスクスコア算出装置30は、ポリジェニックリスクスコアを出力する(S910)。
【0074】
次に、
図10を参照して、本実施形態に係るポリジェニックリスクスコアの算出処理に利用される学習モデル(学習済みモデル)により得られる中間ベクトルを利用した表現型の予測精度につき、大豆を例に検証した結果を説明する。本検証においては、上記非特許文献3の研究者らにより提供されるデータを使用した。実施例においては、大豆のSNPのデータおよび各種フェノタイプのデータを用いて機械学習を行って学習済みモデルを構築し、中間ベクトルを出力し、フェノタイプと中間ベクトルのベクトル表現との予測式として線形回帰式を導出した。フェノタイプとして、大豆の高さ(Height)、吸水特性(Moisture)、脂質(Oil)、およびタンパク質(Protein)のデータを使用した。次に、目標個体となる大豆のSNPデータを学習済みモデルに入力し、目標個体の中間ベクトルを出力し、得られた目標個体の中間ベクトルのベクトル表現を線形回帰式に入力し、上記4つのフェノタイプの予測値を算出した。また、比較例として、目標個体のSNPデータを説明変数とし、表現型データを目的変数として線形回帰を行い、フェノタイプの予測値を算出した。
【0075】
図10は、実施例および比較例におけるフェノタイプの予測値の平均二乗誤差を示す。
図10に示すように、予測を行った4種のフェノタイプのうち、いずれのフェノタイプにおいても、実施例の平均二乗誤差は比較例に比べ低いという結果となった。特に、高さについては約29.51%低下し、顕著な結果が得られた。
図10からはわかりにくいが、吸水特性についても、実施例においては、比較例に比べ、約0.17%低い結果となっており、いずれの表現型についても予測精度の向上が確認できた。
【0076】
上述の本実施形態のポリジェニックリスクスコアの算出処理は、ポリジェニックリスクスコア算出装置10により実施される場合を例に説明したが、本実施形態の構成はこれに限らない。例えば、ポリジェニックリスクスコアの算出処理における一部の処理を他の演算装置で実行することも可能である。例えば、一部の処理をクラウドサーバ等のサーバを用いて実行してもよい。同様に、本実施形態の例示の学習モデルの作成処理についても、一部または全部の処理について、上述のようにモデル作成装置20により実行されてもよいし、ポリジェニックリスクスコアの算出に用いられるポリジェニックリスクスコア算出装置と同じ装置で実行されてもよく、他の装置やサーバ等で実行されてもよい。
【0077】
以上、具体例を参照しつつ本実施形態について説明した。しかし、本開示はこれらの具体例に限定されるものではない。これら具体例に、当業者が適宜設計変更を加えたものも、本開示の特徴を備えている限り、本開示の範囲に包含される。前述した各具体例が備える各要素およびその配置、条件、形状などは、例示したものに限定されるわけではなく適宜変更することができる。前述した各具体例が備える各要素は、技術的な矛盾が生じない限り、適宜組み合わせを変えることができる。
【符号の説明】
【0078】
10、30 ポリジェニックリスクスコア算出装置、10a プロセッサ、10b メモリ、10c 通信部、10d 入力部、10e 表示部、12 取得部、14 入力部、16 中間ベクトル算出部、18 PRS算出部、19 PRS出力部、20 モデル作成装置、20 学習モデル作成装置、22 取得部、24 入力部、26 学習モデル作成部、26a ニューラルネットワーク、28 中間ベクトル抽出部、28a 学習モデル、29 予測式導出部、32 取得部、34 入力部、36 中間ベクトル抽出部、36a 学習モデル、38 PRS算出部、39 PRS出力部、40 目標個体検査装置、DB、DB2、DB3 データベース