特開2024-41583 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＤＡＥＲＡの特許一覧

特開2024-41583プログラム、情報処理装置、および情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024041583

(43)【公開日】2024-03-27

(54)【発明の名称】プログラム、情報処理装置、および情報処理方法

(51)【国際特許分類】

G16B 20/00 20190101AFI20240319BHJP

【ＦＩ】

G16B20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022146476

(22)【出願日】2022-09-14

(71)【出願人】

【識別番号】522365878

【氏名又は名称】株式会社ＤＡＥＲＡ

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】田中博

(72)【発明者】

【氏名】辻真吾

(72)【発明者】

【氏名】下川和郎

(57)【要約】

【課題】より高い精度でポリジェニックリスクスコアを算出する技術の提供を目的とする。
【解決手段】目標個体のジェノタイプに関するデータから中間ベクトルを算出する第１ステップと、中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第２ステップと、算出されたポリジェニックリスクスコアを出力する第３ステップと、に基づいて、ポリジェニックリスクスコアを算出する。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータに、
目標個体のジェノタイプに関するデータから中間ベクトルを算出する第１ステップと、
前記中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第２ステップと、
前記算出されたポリジェニックリスクスコアを出力する第３ステップと、
を実行させるプログラムであって、
前記中間ベクトルは、生物個体のジェノタイプに関する第１データを説明変数とし、前記生物個体の表現型に関する第２データを目的変数とする多変量情報処理であって、前記第１データよりも次元が小さくかつ前記第１データと前記第２データの相互関係を縮約した特徴量ベクトルを、前記第１データから算出可能とする多変量情報処理に基づいて算出されるものであり、
前記ポリジェニックリスクスコアは、前記第１データ、前記第２データ及び前記特徴量ベクトルから導出された、前記生物個体の表現型に含まれる前記特定の表現型を推論するための予測式に基づいて算出されるものである、
プログラム。

【請求項2】

前記中間ベクトルは、少なくとも入力層、中間層及び出力層を有し、前記中間層のノード数が前記入力層及び前記出力層のノード数よりも小さいニューラルネットワークに対して、前記第１データを説明変数とし、前記第２データを目的変数として学習を行い生成された学習モデルの前記中間層から抽出されるベクトルである、
請求項１に記載のプログラム。

【請求項3】

前記予測式は、線形回帰式またはロジスティック回帰式である、請求項１に記載のプログラム。

【請求項4】

前記学習モデルは、バリデーションの誤差が所定の条件を満たすエポック数まで学習を行うことにより生成され、
前記エポック数は、前記ニューラルネットワークの出力と、前記第２データに基づく正解ラベルとの平均二乗誤差の極小値付近のエポック数である、請求項２に記載のプログラム。

【請求項5】

前記表現型は、疾患および生体情報パラメータの少なくとも１つの表現型を含む、請求項１に記載のプログラム。

【請求項6】

ジェノタイプに基づいて、ポリジェニックリスクスコアを出力する情報処理装置であって、
目標個体のジェノタイプに関するデータから中間ベクトルを算出する中間ベクトル算出部と、
前記中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出するポリジェニックリスクスコア算出部と、
前記算出されたポリジェニックリスクスコアを出力するポリジェニックリスクスコア出力部と、
を備え、
前記中間ベクトルは、生物個体のジェノタイプに関する第１データを説明変数とし、前記生物個体の表現型に関する第２データを目的変数とする多変量情報処理であって、前記第１データよりも次元が小さくかつ前記第１データと前記第２データの相互関係を縮約した特徴量ベクトルを、前記第１データから算出可能とする多変量情報処理に基づいて算出されるものであり、
前記ポリジェニックリスクスコアは、前記第１データ、前記第２データ及び前記特徴量ベクトルから導出された、前記生物個体の表現型に含まれる前記特定の表現型を推論するための予測式に基づいて算出されるものである、
情報処理装置。

【請求項7】

情報処理方法であって、
目標個体のジェノタイプに関するデータから中間ベクトルを算出する第１ステップと、
前記中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第２ステップと、
前記算出されたポリジェニックリスクスコアを出力する第３ステップと、
を含み、
前記中間ベクトルは、生物個体のジェノタイプに関する第１データを説明変数とし、前記生物個体の表現型に関する第２データを目的変数とする多変量情報処理であって、前記第１データよりも次元が小さくかつ前記第１データと前記第２データの相互関係を縮約した特徴量ベクトルを、前記第１データから算出可能とする多変量情報処理に基づいて算出されるものであり、
前記ポリジェニックリスクスコアは、前記第１データ、前記第２データ及び前記特徴量ベクトルから導出された、前記生物個体の表現型に含まれる前記特定の表現型を推論するための予測式に基づいて算出されるものである、
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本実施形態は、ポリジェニックリスクスコアの算出に用いられるプログラム、情報処理装置、および情報処理方法に関する。

【背景技術】

【0002】

ゲノムワイド関連解析（ＧＷＡＳ：Genome-wide Association Studies）は、表現型（フェノタイプ：Phenotype）と遺伝的変異の統計的な相関を解析する手法であり、近年、例えばヒトの疾患と数百万ヶ所の遺伝的変異との関係を網羅的に解析する目的で実施されてきている。ゲノムワイド関連解析による解析結果を用いて、個人の遺伝的な観点での疾患リスクを予測する手法として、ポリジェニックリスクスコア（ＰＲＳ：Polygenic Risk Score）が用いられてきている。ゲノムワイド関連解析結果を用いたポリジェニックリスクスコアモデルの構築には、近年、機械学習が導入されてきている（例えば非特許文献１乃至３）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Hannah L Nicholls, Christopher R John, David S Watson, Patricia B Munroe, Michael R Barnes, Claudia P Cabrera, (2020) "Reaching the End-Game for GWAS: Machine Learning Approaches for the Prioritization of Complex Disease Loci" Front. Genet. 11:350, https://doi.org/10.3389/fgene.2020.00350

【非特許文献2】David O. Enoma, Janet Bishung, Theresa Abiodun, Olubanke Ogunlana, Victor Chukwudi Osamor, "Machine learning approaches to genome-wide association studies, Journal of King Saud University - Science, Volume 34, Issue 4, 2022, 101847, ISSN 1018-3647, https://doi.org/10.1016/j.jksus.2022.101847

【非特許文献3】Liu Y, Wang D, He F, Wang J, Joshi T and Xu D (2019) "Phenotype Prediction and Genome-Wide Association Study Using Deep Convolutional Neural Network of Soybean", Front. Genet. 10:1091, https://doi.org/10.3389/fgene.2019.01091

【発明の概要】

【発明が解決しようとする課題】

【0004】

ポリジェニックリスクスコアの算出においては、特定の疾病の有無等、特定の表現型を対象とした分析が行われてきている。しかしながら、当該表現型と複数の一塩基多型（ＳＮＰ：Single Nucleotide Polymorphism）との関係性について解析したところポリジェニックリスクスコアの計算の算出処理には改善の余地があり、ポリジェニックリスクスコアの算出精度を向上させることが可能であることがわかった。

【0005】

本実施形態は、複数の表現型について、複数の一塩基多型との関係性をモデル化し、より高い精度でポリジェニックリスクスコアを算出する技術の提供を目的とする。

【課題を解決するための手段】

【0006】

本開示の一態様は、コンピュータに、目標個体のジェノタイプに関するデータから中間ベクトルを算出する第１ステップと、中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する第２ステップと、算出されたポリジェニックリスクスコアを出力する第３ステップと、を実行させるプログラムであって、中間ベクトルは、生物個体のジェノタイプに関する第１データを説明変数とし、生物個体の表現型に関する第２データを目的変数とする多変量情報処理であって、第１データよりも次元が小さくかつ第１データと第２データの相互関係を縮約した特徴量ベクトルを、第１データから算出可能とする多変量情報処理に基づいて算出されるものであり、ポリジェニックリスクスコアは、第１データ、第２データ及び特徴量ベクトルから導出された、生物個体の表現型に含まれる特定の表現型を推論するための関数に基づいて算出されるものであるプログラムを提供する。

【発明の効果】

【0007】

本実施形態によれば、複数の表現型について、複数の一塩基多型との関係性をモデル化し、より高い精度でポリジェニックリスクスコアを算出する技術が提供される。

【図面の簡単な説明】

【0008】

【図1】図１は、本実施形態に係るポリジェニックリスクスコア算出装置１０の機能ブロック図の一例である。

【図2】図２は、本実施形態に係るポリジェニックリスクスコアの算出に用いられるモデル作成装置２０の機能ブロック図の一例である。

【図3】図３は、本実施形態に係るポリジェニックリスクスコア算出装置３０の機能ブロック図の一例である。

【図4】図４は、本実施形態に係るポリジェニックリスクスコア算出装置の物理的構成の一例を示す図である。

【図5A】本実施形態に係るポリジェニックリスクスコア算出装置１０および３０、および学習モデル作成装置２０により実行される処理の概要を模式的に示す図である。

【図5B】本実施形態に係るポリジェニックリスクスコア算出装置１０および３０、および学習モデル作成装置２０により実行される処理の概要を模式的に示す図である。

【図6】図６は、本実施形態におけるエポック数に対する平均二乗誤差の関係を示す図である。

【図7】図７は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートの一例である。

【図8】図８は、本実施形態により実行される学習処理のフローチャートの一例である。

【図9】図９は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートである。

【図10】図１０は、実施例および比較例におけるフェノタイプの予測値の平均二乗誤差を示す。

【発明を実施するための形態】

【0009】

以下、添付図面を参照しながら本実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。

【0010】

はじめに、後述する本願発明の実施の形態に至った経緯について説明する。

【0011】

ゲノムワイド関連解析では、一般的に、一塩基多型と、病気等を含む表現型とが関連付けられる。例えば将来における病気の発症を予測する場合、一つのＳＮＰの違いのみに基づいて将来の病気や疾患の発症や罹患の可能性を予測するのは困難であったため、近年では、複数のＳＮＰを組み合わせて予測することが可能なポリジェニックリスクスコアが提案され、利用されてきている。

【0012】

従来のポリジェニックリスクスコアの算出においては、個人の個々のジェノタイプ（アレル）ごとに重み付けを行い足し合わせることにより個人ごとのポリジェニックリスクスコアを算出する。算出されたポリジェニックリスクスコアは、例えば、個人ごとに算出されたポリジェニックリスクスコアの集団全体での分布を求め、点数の高い個人のスコアの、標準値に対するリスク比に基づき、特定の疾患について、個人ごとの将来の疾患のリスクの予測に用いられる。近年のゲノムワイド関連解析の発展に伴い、より多くのＳＮＰについてのデータがリスク予測に利用できるようになってきている。

【0013】

これまで、ポリジェニックリスクスコアは一定の成功を収めているものの、一般的には、ＳＮＰごとに統計解析した結果を線形回帰などによりまとめる方法が採用されており、本発明者らは、予測精度の改善の余地があると考え研究を進めてきた。本発明者らは、従来のポリジェニックリスクスコアの算出においては、ＳＮＰごとの遺伝子型が表現型の予測式の導出に用いられるが、ＳＮＰ間の関係性が表現型の予測に関与する可能性には注目されていない点に着目した。すなわち、本発明は、ＳＮＰ間の相互関係に注目し、相互関係を考慮することにより表現型予測の精度の向上を実現する。

【0014】

後述するように、本発明の実施形態においては、複数のＳＮＰと複数の表現型との対応関係の特性を要約した特徴量ベクトルを用いた予測式に基づきポリジェニックリスクスコアを算出する。これにより、従来のポリジェニックリスクスコアの算出方法に比べ、ＳＮＰ間の相互関係の影響を考慮することができると考えられる。従って、本実施形態のポリジェニックリスクスコアの算出方法を用いることにより、疾患等の表現型の予測精度を向上することができると考えられる。

【0015】

近年、遺伝子型を計測することの技術的困難性は低くなってきている。しかしながら、計測された遺伝子型をもとに表現型を予測する技術はまだまだ向上の余地があると考えられ、個々人の将来の健康状態や病気の発症や罹患について予測することには改善の余地がある。本発明の実施形態の方法を用いることにより、このような将来の健康状態や、病気の発症や罹患の予測精度を向上することができる。

【0016】

以下、図面を参照しながら本実施形態に係るポリジェニックリスクスコア算出方法、ポリジェニックリスクスコア算出装置、およびポリジェニックリスクスコア算出プログラムを説明する。なお、本実施形態において、ＳＮＰを取得する生物個体は任意の生物であってよく、例えばヒトについてポリジェニックリスクスコアを算出する場合には、複数人のヒトのＳＮＰと疾患や生体パラメータ等の表現型とに関するデータを用いる。

【0017】

図１は、本実施形態に係るポリジェニックリスクスコア算出装置１０の機能ブロック図の一例である。ポリジェニックリスクスコア算出装置１０は、取得部１２と、入力部１４と、中間ベクトル算出部１６と、ＰＲＳ算出部１８と、ＰＲＳ出力部１９と、を備える。

【0018】

取得部１２は、例えばポリジェニックリスクスコア算出装置１０の外部にあるデータベースＤＢから目標個体のＳＮＰデータを取得する。ＳＮＰデータは、各生物個体が有する複数のＳＮＰに関するデータである。データベースＤＢは、任意の生物個体についてのＳＮＰデータを格納するデータベースであり、例えば、目標個体についてのＳＮＰデータを格納してもよい。目標個体は、例えば疾患を予測する対象となる被験者であってよく、目標個体のＳＮＰデータとは、例えば、被験者がそれぞれ有する複数のＳＮＰである。ここでは、目標個体のＳＮＰデータが、外部のデータベースＤＢから取得される場合を例に説明したが、目標個体のＳＮＰデータは、例えばポリジェニックリスクスコア算出装置１０のメモリ（後述のメモリ１０ｂ（図４参照））に保存されていてもよく、メモリから取得されてもよい。

【0019】

入力部１４は、取得部１２により取得されたＳＮＰデータを、中間ベクトル算出部１６に入力する。

【0020】

中間ベクトル算出部１６は、入力されたＳＮＰデータにより中間ベクトルを算出する。具体的には、中間ベクトル算出部１６は、生物個体のジェノタイプ（ＳＮＰ）に関するデータ(本実施形態において、第１データ)を説明変数とし、生物個体の表現型に関するデータ（本実施形態において、第２データ）を目的変数とする多変量情報処理であって、第１データよりも次元が小さくかつ第１データと第２データの相互関係を縮約した特徴量ベクトルを、第１データから算出可能とする多変量情報処理に基づいて、中間ベクトルを算出する。多変量情報処理として、例えば、後述のようにオートエンコーダ式のニューラルネットワークを用いた処理が適用されてもよい。

【0021】

ＰＲＳ算出部１８は、中間ベクトル算出部１６により算出された中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する。ＰＲＳ算出部は、ＳＮＰデータ（第１データ）、表現型データ（第２データ）及び特徴量ベクトルから導出された、生物個体の表現型に含まれる特定の表現型を推論するための予測式に基づいて、ポリジェニックリスクスコアを算出する。この予測式は、所定の関数であってもよい。予測式としては、例えば機械学習を用いた予測式が用いられてもよい。例えば、表現型として定量的な数値を算出する場合、予測式は線形回帰式であってもよい。また、例えば、表現型として疾患の発症の確率を算出する場合、予測式は多変量ロジスティック解析により算出される多重ロジスティック回帰式であってもよい。

【0022】

ＰＲＳ出力部１９は、算出されたポリジェニックリスクスコアを出力する。

【0023】

上述のように、本実施形態のポリジェニックリスクスコア算出装置１０により実行されるポリジェニックリスクスコアの算出処理においては、生物個体のＳＮＰデータを説明変数とし、生物個体の表現型データを目的変数とする多変量情報処理に基づいて算出される中間ベクトルがポリジェニックリスクスコアの算出の際に用いられる。本実施形態における中間ベクトルは、ＳＮＰデータよりも次元が小さくかつＳＮＰデータと表現型データの相互関係を縮約した特徴量ベクトルを、ＳＮＰデータから算出可能とする多変量情報処理に基づいて算出される。ポリジェニックリスクスコアは、ＳＮＰデータ、表現型データ及び特徴量ベクトルから導出された、生物個体の表現型に含まれる特定の表現型を推論するための関数に基づいて、算出される。ここで、本実施形態において出力される中間ベクトルは、複数のＳＮＰと複数の表現型との「多対多」の対応関係の特性が縮約されたベクトル表現である。中間ベクトルを用いた回帰法によって表現型を予測することにより、例えば、ＳＮＰデータを入力として回帰法によって表現型を予測する場合に比べ、予測精度を向上することができるようになる。また、回帰分析の結果を早く収束させることもできるようになる。

【0024】

次に、本実施形態のポリジェニックリスクスコアの算出にニューラルネットワークを用いる場合を例に、本実施形態に係るポリジェニックリスクスコアの算出をさらに具体的に説明する。

【0025】

図２を参照して、本実施形態に係る例示のポリジェニックリスクスコアの算出に用いられる学習モデルの作成処理および学習モデルの作成処理を実行するモデル作成装置２０について説明する。図２は、本実施形態に係るポリジェニックリスクスコアの算出に用いられるモデル作成装置２０の機能ブロック図の一例である。モデル作成装置２０は、取得部２２と、入力部２４と、学習モデル作成部２６と、中間ベクトル抽出部２８と、予測式導出部２９と、を備える。

【0026】

取得部２２は、例えばモデル作成装置２０の外部にあるデータベースＤＢ２から複数の生物個体のＳＮＰデータ（ジェノタイプデータ。本実施形態において、ＳＮＰデータを「第１データ」ともいう。）および複数の生物個体の表現型データ（本実施形態において、表現型データを「第２のデータ」ともいう。）を取得する。データベースＤＢ２は、任意の生物個体についてのＳＮＰデータおよび表現型データのセットを格納するデータベースであり、例えば、複数の生物個体についてのＳＮＰデータおよび表現型データの複数のセットを格納してもよい。生物個体のＳＮＰデータとは、上述のように、例えば、被験者がそれぞれ有する複数のＳＮＰである。生物個体の表現型データとは、各被験者についての観察可能な特徴や形質を示すデータであり、例えば、各被験者の１または複数の疾患に対する発症の有無に関するデータや、各被験者の身長や体重などの身体的な特徴を示すデータ等であってもよい。なお、本実施形態のデータベースＤＢ２は、ＳＮＰデータおよび表現型データの複数のセットが格納されている場合を例に説明したが、データベースＤＢ２の構成はこれに限られない。例えば、複数のＳＮＰデータが生物個体を識別する情報と関連付けられて格納されたデータベースと、複数の表現型データが生物個体を識別する情報と関連付けられて格納されたデータベースとを、それぞれ用意し、複数のＳＮＰデータおよび複数の表現型データをそれぞれのデータベースから生物個体を識別する情報に基づいて取得してもよい。また、生物個体によって、ＳＮＰデータや表現型データが異なるデータベースに格納され、データが複数のデータベースから取得されるように構成されていてもよい。

【0027】

入力部２４は、ニューラルネットワーク２６ａの学習の際、取得部２２により取得されたＳＮＰデータおよび表現型データを、学習モデル作成部２６に入力する。また、入力部２４は、予測式を導出する際に、取得部２２により取得されたＳＮＰデータを中間ベクトル抽出部２８に、当該ＳＮＰデータに対応する表現型のうち少なくとも特定の１または複数の表現型データを予測式導出部２９に、それぞれ入力する。

【0028】

学習モデル作成部２６は、ニューラルネットワーク２６ａを有し、入力されたＳＮＰデータを説明変数とし、健康診断の数値や病気の有無など考え得る複数の表現型データを目的変数として、ニューラルネットワーク２６ａの学習（機械学習）を行う。ここで、ニューラルネットワーク２６ａは、少なくとも入力層、中間層及び出力層を備えて構成され、中間層のノード数は、入力層及び出力層のノード数よりも小さい。ニューラルネットワーク２６ａの学習は周知の手法を適用できる。例えば、学習モデル作成部２６は、生物個体から計測された遺伝子型である複数のＳＮＰデータを入力層に入力し、当該生物個体の表現型データが出力層から出力されるようにニューラルネットワーク２６ａの学習を行う。後述するように、学習フェーズにおいては、Ｖａｌｉｄａｔｉｏｎが極小となる回数まで学習が行われるように構成されてもよい。

【0029】

本実施形態で用いられるニューラルネットワーク２６ａは、例えばオートエンコーダ式のネットワークに相当し、学習が進んだニューラルネットワーク２６ａにおける中間層は、複数の個体のＳＮＰと複数の表現型との対応関係を縮約する潜在空間（Latent Space）として機能する。従って、ニューラルネットワーク２６ａの中間層から、複数のＳＮＰ（ＳＮＰ群）と複数の表現型（疾患群等）との「多対多」の対応関係を要約する特徴量を抽出することが可能となる。

【0030】

中間ベクトル抽出部２８は、学習モデル作成部２６により作成されたニューラルネットワーク２６ａに基づいて作成された、中間ベクトルを抽出して出力する学習モデル２８ａを備える。学習モデル２８ａとしては、学習モデル作成部２６で学習されたニューラルネットワーク２６ａを用いることができる。この場合、中間ベクトル抽出部２８は、学習モデル２８ａの中間層のノード値からなるベクトルを、中間ベクトルとして出力する。また、学習モデル２８ａとして、学習モデル作成部２６で学習されたニューラルネットワーク２６ａのうちの入力層から中間層までで構成される第２ニューラルネットワーク（すなわち、ニューラルネットワーク２６ａの中間層に相当する部分が、学習モデル２８ａの出力層となる）を用いてもよい。この場合、中間ベクトル抽出部２８は、学習モデル２８ａの出力層からの出力ベクトルを、中間ベクトルとして出力する。

【0031】

なお、中間ベクトル抽出部２８による中間ベクトルの出力に用いられる学習モデル２８ａは、例えば、上述のように学習モデル２８ａによりＶａｌｉｄａｔｉｏｎが極小となるまで学習を行うことにより作成された学習済みモデルであってもよい。また、Ｖａｌｉｄａｔｉｏｎが極小となる前の段階で学習を止めた学習モデルであってもよい。

【0032】

予測式導出部２９は、中間ベクトル抽出部２８に生物個体のＳＮＰデータを入力したときに出力される中間ベクトルを説明変数とし、当該生物個体の表現型のうち特定の１または複数の表現型データを目的変数とする予測式を導出する。上述のように、本実施形態においては、予測式は、例えば、線形回帰式や多変量ロジスティック解析により算出されるロジスティック回帰式であってもよい。

【0033】

次に、図３を参照して、本実施形態に係る例示のポリジェニックリスクスコアの算出に用いられるポリジェニックリスクスコア算出装置について説明する。図２を参照して上述したモデル作成装置２０は、本実施形態の学習フェーズで用いられるのに対し、図３に示されるポリジェニックリスクスコア算出装置３０は、本実施形態の推論フェーズ、すなわち、目標個体のポリジェニックリスクスコアを算出する際に用いられる。図３は、本実施形態に係るポリジェニックリスクスコア算出装置３０の機能ブロック図の一例である。ポリジェニックリスクスコア算出装置３０は、取得部３２と、入力部３４と、中間ベクトル算出部３６と、ＰＲＳ算出部３８と、ＰＲＳ出力部３９と、を備える。

【0034】

取得部３２は、データベースＤＢ３から目標個体のＳＮＰデータを取得する。データベースＤＢ３は、目標個体についてのＳＮＰデータを格納するデータベースであってもよい。目標個体のＳＮＰデータとは、例えば、被験者が有する複数のＳＮＰである。本実施形態においては、目標個体のＳＮＰデータは、例えば目標個体検査装置４０を用いて、目標個体から計測され、データベースＤＢ３に格納されてもよい。あるいは、例えば目標個体検査装置４０を用いて計測された目標個体のＳＮＰデータが、データベースＤＢ３に格納されることなく、取得部３２により取得されてもよい。

【0035】

入力部３４は、取得部３２により取得されたＳＮＰデータを、中間ベクトル抽出部３６に入力する。

【0036】

中間ベクトル抽出部３６は、学習モデル３６ａを備え、学習モデル３６ａから中間ベクトルを抽出する。学習モデル３６ａとして、学習モデル作成装置２０により作成された学習モデル２８ａが適用される。中間ベクトル抽出部３６から出力される中間ベクトルは、学習モデル３６ａの入力層に入力される目標個体のＳＮＰデータより次元が小さいベクトルである。

【0037】

ＰＲＳ算出部３８は、中間ベクトル抽出部３６により抽出された中間ベクトルを、予測式３８ａに入力し、目標個体の特定の表現型の予測値を算出し、この予測値に基づいてポリジェニックリスクスコアを算出する。予測式３８ａは、予測式導出部２９により導出された予測式が適用される。

【0038】

ＰＲＳ出力部３９は、ＰＲＳ算出部により算出されるポリジェニックリスクスコアを出力する。

【0039】

図４は、本実施形態に係るポリジェニックリスクスコア算出装置の物理的構成の一例を示す図である。ポリジェニックリスクスコア算出装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）等のプロセッサ１０ａと、メモリ１０ｂと、通信部１０ｃと、入力部１０ｄと、表示部１０ｅと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例ではポリジェニックリスクスコア算出装置１０が一台のコンピュータで構成される場合について説明するが、ポリジェニックリスクスコア算出装置１０は、複数のコンピュータが組み合わされて実現されてもよい。また、図２で示す構成は一例であり、ポリジェニックリスクスコア算出装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

【0040】

プロセッサ１０ａは、メモリ１０ｂに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。プロセッサ１０ａは、ＳＮＰデータ等を用いてポリジェニックリスクスコアを算出するプログラム（ポリジェニックリスクスコア算出プログラム）を実行する演算部である。プロセッサ１０ａは、入力部１０ｄや通信部１０ｃから種々のデータを受け取り、データの演算結果を表示部１０ｅに表示したり、メモリ１０ｂに格納したりする。

【0041】

メモリ１０ｂは、例えばＲＡＭ（Random Access Memory）と、記憶部に相当するＲＯＭ（Read only Memory）とを有していてもよい。ＲＡＭは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭは、プロセッサ１０ａが実行するプログラムや、ポリジェニックリスクスコアの算出に用いられるデータ（例えばＳＮＰデータや表現型データ）を記憶してもよい。なお、これらは例示であって、ＲＡＭには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

【0042】

ＲＯＭは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されていてもよい。ＲＯＭは、例えばポリジェニックリスクスコア算出プログラムや、書き換えが行われないデータを記憶してもよい。

【0043】

通信部１０ｃは、ポリジェニックリスクスコア算出装置１０を他の機器に接続するインターフェースである。通信部１０ｃは、インターネット等の通信ネットワークに接続されてよい。

【0044】

入力部１０ｄは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及び／またはタッチパネルを含んでよい。

【0045】

表示部１０ｅは、プロセッサ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｅは、例えば、本実施形態に係るポリジェニックリスクスコア算出方法により出力されるポリジェニックリスクスコアを表示してもよい。

【0046】

ポリジェニックリスクスコア算出プログラムは、メモリ１０ｂ（例えばＲＡＭやＲＯＭ）等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｃにより接続される通信ネットワークを介して提供されてもよい。ポリジェニックリスクスコア算出装置１０では、プロセッサ１０ａがポリジェニックリスクスコア算出プログラムを実行することにより、図１乃至図３を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、ポリジェニックリスクスコア算出装置１０は、プロセッサ１０ａとメモリ１０ｂとが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。また、ポリジェニックリスクスコア算出装置１０は、プロセッサ１０ａとしてＧＰＵ（Graphical Processing Unit）を備えていてもよく、ＧＰＵがポリジェニックリスクスコア算出プログラムを実行することにより、図１乃至図３を用いて説明した様々な動作が実現されてもよい。

【0047】

図５Ａおよび図５Ｂは、本実施形態に係るポリジェニックリスクスコア算出装置１０により実行される処理の概要を説明する。図５Ａおよび図５Ｂは、本実施形態に係るポリジェニックリスクスコア算出装置１０および３０、および学習モデル作成装置２０により実行される処理の概要を模式的に示す図である。すなわち、図５Ａは、学習モデル作成装置２０により実施される本実施形態におけるポリジェニックリスクスコアの算出に用いられる学習モデルの学習フェーズの処理を説明する図であり、図５Ｂは、ポリジェニックリスクスコア算出装置１０および３０により実行されるポリジェニックリスクスコアの算出の推論フェーズの処理を説明する図である。

【0048】

まず、学習フェーズについて説明する。ポリジェニックリスクスコア算出装置２０の取得部２２により、データベースＤＢ２より、ＳＮＰおよび表現型（フェノタイプ）のデータを取得する。取得部２２により取得されるＳＮＰデータは、図５Ａに示されるように、例えば複数の被験者（被験者１、被験者２、…、被験者Ｎ）が有する多数のＳＮＰ（ＳＮＰ１、ＳＮＰ２、…、ＳＮＰｎ）である。また、取得部２２により取得される表現型のデータは、例えば複数の被験者（被験者１、被験者２、…、被験者Ｎ）について、表現型の例である１または複数の疾病名（病名１、病名２、…、病名ｍ）に対する疾患の有無や発症の履歴に関するデータであってもよい。本実施形態においては、表現型として、他の指標やパラメータを用いることも可能である。表現型として、例えば、被験者の各種生体情報パラメータを用いてもよい。生体情報パラメータとしては、例えば、身長、体重、血圧などの生理検査情報、血糖値、ヘモグロビン濃度等の検体検査情報及び正常範囲との相違を記号化したものが用いられてもよい。本実施形態においては、ＳＮＰ群として、１００万以上のＳＮＰを含み、表現型群として、１００以上２００以下の範囲の表現型を含んでいてもよいが、これらに限られるものではない。例えば、表現型群は５０以下の表現型を含んでもよい。なお、図５Ａに示すとおり、ＳＮＰデータは、各被験者のデプロイドであってよい。また、ＳＮＰデータは被験者のハプロイドやデプロイドに限られない。例えばＳＮＰを用いる対象はヒト以外の動物等を含む他の生物種であってもよく、用いるＳＮＰデータはそれらのヒト以外の生物種のＳＮＰデータであってもよい。例えば対象のＳＮＰデータは、ある生物種のテトラプロイド（４倍体）等の他の倍数体（ポリプロイド、polyploid）であってもよい。

【0049】

次に、取得した多数のＳＮＰのデータおよび取得した多数の表現型のデータが入力部２４により学習モデル作成部２６のニューラルネットワーク２６ａに入力され、多数のＳＮＰのデータを説明変数とし、多数の表現型のデータを目的変数として、それぞれ入力および出力として、機械学習を行い学習モデルが構築される。本実施形態の機械学習においては、例えばニューラルネットワーク等の公知の学習モデルが用いられてもよい。

【0050】

なお、本実施形態においては、学習は任意の回数で行われてもよい。学習の回数（エポック数）は、例えば平均二乗誤差が極小となる回数など、公知の方法により所定の条件を満たすエポック数が決定されてもよい。図６に、本実施形態におけるエポック数に対する平均二乗誤差の関係を示す。本実施形態においては、平均二乗誤差として、ニューラルネットワークによる出力と、表現型データ（本実施形態における第２データ）に基づく正解ラベルとの平均二乗誤差を算出してもよい。図６に示されるように、本実施形態においては、１００回目前後でバリデーションの最小二乗誤差が極小を示しており、エポック数として例えば極小値付近である９５以上１１０以下の回数、例えば１００回をエポック数として学習を実施してもよい。

【0051】

こうして学習した学習モデル（以下、学習済みモデルとも称する）から、中間ベクトル抽出部２８により、中間ベクトルを抽出する。ここで、抽出される中間ベクトル（中間層ベクトル）の次元は、学習段階において入力したＳＮＰデータの次元より小さい。

【0052】

また、本実施形態におけるニューラルネットワークにおいて、学習モデルの入力層（ＳＮＰデータの入力層）のニューロン数である入力層ニューロン数と、出力層（表現型データの出力層）のニューロン数である出力層ニューロン数と、中間層のニューロン数である中間層ニューロン数とは、例えば入力層ニューロン数≫出力層ニューロン数≒中間層ニューロン数の関係であってもよい。上述のように、本実施形態においては、例えば、入力層ニューロン数は１０万以上１００万未満、または１００万以上であってもよく、中間層ニューロン数は出力層ニューロン数がほぼ同数で、いずれも例えば１００未満、あるいは１００以上２００以下であってよい。

【0053】

続いて、抽出した中間ベクトルのベクトル表現を説明変数、学習段階に先立ってデータベースＤＢ２より取得した表現型データを目的変数として、予測式を導出する。予測式は、上述のように、例えば線形回帰式であってもよく、中間ベクトルのベクトル表現と、表現型データとの関係を表す線形回帰式は、例えば、エラスティックネット（Elastic Net）等正則化を内包した線形回帰等の方法を用いて導出されてもよい。上述のように、予測式は、線形回帰式に限らず、多変量ロジスティック解析により算出されるロジスティック回帰式であってもよい。

【0054】

次に、目標個体のポリジェニックリスクスコアを算出する推論フェーズについて説明する。図５Ｂに示されるように、取得部１２または取得部３２により、目標個体ＸのＳＮＰデータが取得される。例えば、被験者ＸのＳＮＰ群（ＳＮＰ１、ＳＮＰ２、…、ＳＮＰｎ）をデータベースＤＢより取得してもよい。なお、推論は、複数の目標個体（複数の被験者）について行ってもよい。

【0055】

取得したＳＮＰデータは学習モデルに入力され、目標個体Ｘの中間ベクトルを抽出する。

【0056】

続いて、抽出した目標個体Ｘ（被験者Ｘ）の中間ベクトルのベクトル表現を、先に導出した予測式に入力し、目標個体Ｘについての、１または複数の表現型に関する予測結果を算出する。例えば、被験者Ｘの中間ベクトルの出力に用いられる入力として、上述のように被験者ＸのＳＮＰ群を用いた場合には、１または複数の病名（病名１、病名２、…、病名ｍ）に対する疾患予測を予測結果として算出する。こうして、被験者Ｘのポリジェニックリスクスコアが算出される。なお、予測式を用いて算出される表現型は、例えば、１または複数の特定の疾患に関する表現型であってもよいし、疾患を特定せず、算出可能な多数の表現型を算出してもよい。本実施形態において、ポリジェニックリスクスコアとして算出される予測結果は０以上１以下の値であってよい。例えば定量的な表現型について予測する場合、予測式として線形回帰式が用いられてもよい。また、任意の症例や疾患のリスクの予測である場合、予測式としてロジスティック回帰式が用いられてもよい。また、算出されるスコアが所定の閾値を超える場合に当該疾患のリスクが高いと判断してもよい。図５Ｂに示すように、被験者Ｘは病名１１についてポリジェニックリスクスコアが０．９３１と比較的高い値となっている。このとき、例えば閾値が０．９であれば、被験者Ｘは病名１１について疾患の可能性が高いといえる。

【0057】

以上説明してきたように、本実施形態のポリジェニックリスクスコア算出装置１０により実行されるポリジェニックリスクスコアの算出処理においては、複数の生物個体（例えば複数の被験者）のＳＮＰデータおよび表現型データをそれぞれ説明変数および目的変数として構築された学習モデルの中間層から抽出される中間ベクトルのベクトル表現が、ポリジェニックリスクスコアの算出に用いられる予測式の導出に利用される。また、目標個体のポリジェニックリスクスコアの算出においては、目標個体のＳＮＰデータを学習モデルに入力して得られる中間ベクトルのベクトル表現が、先に導出された予測式の入力として用いられる。本実施形態において抽出される中間ベクトルの次元は学習モデルの入力層や出力層の次元よりも小さい。従って、複数のＳＮＰと複数の表現型との「多対多」の対応関係の特性が縮約されたノードである中間ベクトルのベクトル表現に基づいて、ポリジェニックリスクスコアが算出される。これにより、ＳＮＰデータを入力として回帰法により表現型を予測する場合に比べ、複数のＳＮＰデータと複数の表現型との対応関係を効果的に考慮して表現型の予測（例えば目標個体の疾患の予測）が行われることになるので、表現型の予測精度を向上することができる。予測される表現型としては、病気や疾患の発症や罹患の予測に限られず、例えば発症や罹患の前の状態の予測であってもよい。例えば将来的に発症や罹患の結果が生じ得る兆候を予測してもよい。

【0058】

図７を参照して、本実施形態に係るポリジェニックリスクスコア算出装置１０により実行されるポリジェニックリスクスコアの算出処理を説明する。図７は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートの一例である。
はじめに、目標個体のジェノタイプに関するデータ（ＳＮＰデータ）から所定の多変量情報処理に基づいて、中間ベクトルを算出する（Ｓ７０２）。本実施形態において、ポリジェニックリスクスコア算出装置１０は、データベースＤＢから目標個体のＳＮＰデータを取得し、取得された目標個体のＳＮＰデータに対して所定の多変量情報処理を行うことにより、ＳＮＰデータよりも次元が小さくかつＳＮＰデータと表現型データの相互関係を縮約した特徴量ベクトルを、中間ベクトルとして算出する。

【0059】

次に、中間ベクトルから、特定の表現型に関するポリジェニックリスクスコアを算出する（Ｓ７０４）。本実施形態において、ポリジェニックリスクスコア算出装置１０は、ステップＳ７０２で算出された中間ベクトルを特定の関数に入力して、ポリジェニックリスクスコアを算出する。

【0060】

続いて、ポリジェニックリスクスコア算出装置１０は、ステップＳ７０４で算出されたポリジェニックリスクスコアを出力する（Ｓ７０６）。本実施形態においては、ポリジェニックリスクスコアは、ＰＲＳ出力部１９により出力される。
次に、図８を参照して、本実施形態に係る例示のモデル作成装置２０により実行される学習処理について説明する。図８は、本実施形態により実行される学習処理のフローチャートの一例である。すなわち、図８に示される学習処理は、本実施形態における学習フェーズでの処理である。

【0061】

はじめに、モデル作成装置２０は、説明変数として用いられる生物個体のＳＮＰデータを取得する（Ｓ８０２）。

【0062】

次に、モデル作成装置２０は、目的変数として用いられる生物個体のフェノタイプのデータ（表現型データ）を取得する（Ｓ８０４）。

【0063】

なお、ここでは、ＳＮＰデータが取得された後に表現型データが取得される場合を例に説明したが、ＳＮＰデータおよび表現型データの取得工程はこれに限られず、例えばＳＮＰデータおよび表現型データが同時に取得されてもよいし、表現型データが取得されてからＳＮＰデータが取得されてもよい。

【0064】

続いて、モデル作成装置２０は、取得した生物個体のＳＮＰデータおよび表現型データ（フェノタイプのデータ）を、それぞれ説明変数および目的変数として、ニューラルネットワークモデルを構築する（Ｓ８０６）。本実施形態において、モデル作成装置２０は、生物個体のＳＮＰデータおよび表現型データに基づいて、ニューラルネットワーク２６ａの学習を行う。

【0065】

モデル作成装置２０は、学習終了条件を満たす場合（Ｓ８０８：ＹＥＳ）、学習を終了する。一方、学習終了条件を満たさない場合（Ｓ８０８：ＮＯ）、モデル作成装置２０は、再び処理Ｓ８０２～Ｓ８０６を実行する。ここで、学習終了条件は、例えば、上述したように所定のエポックが経過することであってもよい。また、上述したように、学習終了条件は任意に決定されてもよく、例えば上述の例で示したようにバリデーションの最小二乗誤差が極小となるエポック数付近で終了する終了条件としてもよく、あるいは、バリデーションの最小二乗誤差が極小となる前の任意のエポック数に達した段階で終了し、続くプロセスに移行してもよい。なお、学習終了条件を満たさず、モデル作成装置２０が再びＳ８０２～Ｓ８０６の処理を実行する場合、学習に使われるＳＮＰデータや表現型データは、これまでの学習においては使われていないデータであってもよいし、以前の学習に使われたデータであってもよい。

【0066】

学習終了条件を満たすと、モデル作成装置２０は学習を終了し、ニューラルネットワーク２６ａに基づいて学習モデル２８ａを作成し、学習モデル２８ａを用いて中間ベクトルを抽出して出力する（Ｓ８１０）。

【0067】

モデル作成装置２０は、ステップＳ８１０で抽出した中間ベクトルを用いて、予測式を導出する（Ｓ８１２）。

【0068】

図９を参照して、本実施形態に係るポリジェニックリスクスコア算出装置３０により実行されるポリジェニックリスクスコアの算出処理を説明する。図９は、本実施形態により実行されるポリジェニックリスクスコアの算出処理のフローチャートである。すなわち、図９に示されるポリジェニックリスクスコアの算出処理は、本実施形態における推論フェーズでの処理である。

【0069】

はじめに、ポリジェニックリスクスコア算出装置３０は、データベースＤＢ３から目標個体のＳＮＰデータを取得する（Ｓ９０２）。

【0070】

次に、ポリジェニックリスクスコア算出装置３０は、ステップＳ９０２で取得されたＳＮＰデータをステップＳ８１０で作成した学習モデル２８ａと等価な学習モデル３６ａに入力する（Ｓ９０４）。

【0071】

続いて、ポリジェニックリスクスコア算出装置３０は、学習モデル３６ａから中間ベクトルを抽出する（Ｓ９０６）。

【0072】

次に、ポリジェニックリスクスコア算出装置３０は、抽出した中間ベクトルのベクトル表現を、ステップＳ８１２で導出した予測式３８ａに入力し、ポリジェニックリスクスコアを算出する（Ｓ９０８）。

【0073】

その後、ポリジェニックリスクスコア算出装置３０は、ポリジェニックリスクスコアを出力する（Ｓ９１０）。

【0074】

次に、図１０を参照して、本実施形態に係るポリジェニックリスクスコアの算出処理に利用される学習モデル（学習済みモデル）により得られる中間ベクトルを利用した表現型の予測精度につき、大豆を例に検証した結果を説明する。本検証においては、上記非特許文献３の研究者らにより提供されるデータを使用した。実施例においては、大豆のＳＮＰのデータおよび各種フェノタイプのデータを用いて機械学習を行って学習済みモデルを構築し、中間ベクトルを出力し、フェノタイプと中間ベクトルのベクトル表現との予測式として線形回帰式を導出した。フェノタイプとして、大豆の高さ（Height）、吸水特性（Moisture）、脂質（Oil）、およびタンパク質（Protein）のデータを使用した。次に、目標個体となる大豆のＳＮＰデータを学習済みモデルに入力し、目標個体の中間ベクトルを出力し、得られた目標個体の中間ベクトルのベクトル表現を線形回帰式に入力し、上記４つのフェノタイプの予測値を算出した。また、比較例として、目標個体のＳＮＰデータを説明変数とし、表現型データを目的変数として線形回帰を行い、フェノタイプの予測値を算出した。

【0075】

図１０は、実施例および比較例におけるフェノタイプの予測値の平均二乗誤差を示す。図１０に示すように、予測を行った４種のフェノタイプのうち、いずれのフェノタイプにおいても、実施例の平均二乗誤差は比較例に比べ低いという結果となった。特に、高さについては約２９．５１％低下し、顕著な結果が得られた。図１０からはわかりにくいが、吸水特性についても、実施例においては、比較例に比べ、約０．１７％低い結果となっており、いずれの表現型についても予測精度の向上が確認できた。

【0076】

上述の本実施形態のポリジェニックリスクスコアの算出処理は、ポリジェニックリスクスコア算出装置１０により実施される場合を例に説明したが、本実施形態の構成はこれに限らない。例えば、ポリジェニックリスクスコアの算出処理における一部の処理を他の演算装置で実行することも可能である。例えば、一部の処理をクラウドサーバ等のサーバを用いて実行してもよい。同様に、本実施形態の例示の学習モデルの作成処理についても、一部または全部の処理について、上述のようにモデル作成装置２０により実行されてもよいし、ポリジェニックリスクスコアの算出に用いられるポリジェニックリスクスコア算出装置と同じ装置で実行されてもよく、他の装置やサーバ等で実行されてもよい。

【0077】

以上、具体例を参照しつつ本実施形態について説明した。しかし、本開示はこれらの具体例に限定されるものではない。これら具体例に、当業者が適宜設計変更を加えたものも、本開示の特徴を備えている限り、本開示の範囲に包含される。前述した各具体例が備える各要素およびその配置、条件、形状などは、例示したものに限定されるわけではなく適宜変更することができる。前述した各具体例が備える各要素は、技術的な矛盾が生じない限り、適宜組み合わせを変えることができる。

【符号の説明】

【0078】

１０、３０ポリジェニックリスクスコア算出装置、１０ａプロセッサ、１０ｂメモリ、１０ｃ通信部、１０ｄ入力部、１０ｅ表示部、１２取得部、１４入力部、１６中間ベクトル算出部、１８ＰＲＳ算出部、１９ＰＲＳ出力部、２０モデル作成装置、２０学習モデル作成装置、２２取得部、２４入力部、２６学習モデル作成部、２６ａニューラルネットワーク、２８中間ベクトル抽出部、２８ａ学習モデル、２９予測式導出部、３２取得部、３４入力部、３６中間ベクトル抽出部、３６ａ学習モデル、３８ＰＲＳ算出部、３９ＰＲＳ出力部、４０目標個体検査装置、ＤＢ、ＤＢ２、ＤＢ３データベース

【図1】