IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7551483形質予測モデル作成装置及び形質予測モデル作成方法
<>
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図1
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図2
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図3
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図4
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図5
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図6
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図7
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図8
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図9
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図10
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図11
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図12
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図13
  • 特許-形質予測モデル作成装置及び形質予測モデル作成方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-06
(45)【発行日】2024-09-17
(54)【発明の名称】形質予測モデル作成装置及び形質予測モデル作成方法
(51)【国際特許分類】
   G16B 20/00 20190101AFI20240909BHJP
   G16B 40/00 20190101ALI20240909BHJP
【FI】
G16B20/00
G16B40/00
【請求項の数】 8
(21)【出願番号】P 2020205213
(22)【出願日】2020-12-10
(65)【公開番号】P2022092408
(43)【公開日】2022-06-22
【審査請求日】2023-02-17
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】小澤 政博
(72)【発明者】
【氏名】徐 宸原
(72)【発明者】
【氏名】春木 耕祐
【審査官】山崎 誠也
(56)【参考文献】
【文献】特開2021-087412(JP,A)
【文献】国際公開第2020/138479(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数の集団各々について、要約統計量と多型間相関情報とに基づいて複数の第一の形質予測モデルを作成する第一作成部と、
一塩基多型データ及び形質値を含む複数のデータセットを用いた、前記複数の集団各々の前記複数の第一の形質予測モデルの正則化回帰に基づいて、前記複数の集団のうちの特定の集団に関する第二の形質予測モデルを作成する第二作成部と、
を具備し、
前記第一作成部は、前記要約統計量と前記多型間相関情報とに基づいて、互いに異なるアルゴリズムと前記要約統計量及び/又は前記多型間相関情報に対する基準値とを用いて、前記複数の第一の形質予測モデルを作成する、
形質予測モデル作成装置。
【請求項2】
前記第二の形質予測モデルは、前記複数の第一の形質予測モデル各々の出力値と当該出力値に対する加重平均パラメータとの積算値の、前記複数の集団及び前記複数の第一の形質予測モデルに亘る総和により規定され、
前記第二作成部は、前記複数のデータセットに基づいて、前記出力値と前記形質値との誤差関数と、前記加重平均パラメータに対する正則化項とを含む目的関数を最小化する前記加重平均パラメータの値を決定する、
請求項1記載の形質予測モデル作成装置。
【請求項3】
前記正則化項は、L1正則化項とL2正則化項との和を含む、請求項記載の形質予測モデル作成装置。
【請求項4】
前記第一作成部は、前記複数の集団各々の前記複数の第一の形質予測モデルを、一塩基多型間の相関に応じて分割された複数のゲノム領域毎に作成し、
前記第二作成部は、前記複数の集団各々の前記複数のゲノム領域毎に作成された前記複数の第一の形質予測モデルに基づいて、前記第二の形質予測モデルを作成する、
請求項1記載の形質予測モデル作成装置。
【請求項5】
前記複数の集団に関する複数個の一塩基多型データに基づいて、単一のゲノム領域を一塩基多型間の相関に応じて前記複数のゲノム領域に分割する分割部を更に備える、請求項記載の形質予測モデル作成装置。
【請求項6】
前記要約統計量として、GWAS統計量を取得する第一取得部を更に備える、請求項1記載の形質予測モデル作成装置。
【請求項7】
前記多型間相関情報として、連鎖不平衡係数を取得する第二取得部を更に備える、請求項1記載の形質予測モデル作成装置。
【請求項8】
コンピュータが、
複数の集団各々について、要約統計量と多型間相関情報とに基づいて複数の第一の形質予測モデルを作成する第一作成工程と、
一塩基多型データ及び形質値を含む複数のデータセットを用いた、前記複数の集団各々の前記複数の第一の形質予測モデルの正則化回帰に基づいて前記複数の集団のうちの特定の集団に関する第二の形質予測モデルを作成する第二作成工程と、
を具備し、
前記第一作成工程は、前記要約統計量と前記多型間相関情報とに基づいて、互いに異なるアルゴリズムと前記要約統計量及び/又は前記多型間相関情報に対する基準値とを用いて、前記複数の第一の形質予測モデルを作成する、
形質予測モデル作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、形質予測モデル作成装置及び形質予測モデル作成方法に関する。
【背景技術】
【0002】
ヒトゲノム配列上に存在する数千万カ所の遺伝子変異とヒト疾患との発症の関係を網羅的に検討する遺伝統計解析手法であるゲノムワイド関連解析(GWAS:genome-wide association studies)が行われている。ゲノムワイド関連解析の結果を用いて、遺伝的変異の重み付きの和を個人ごとに計算したポリジェニックリスクスコアが様々な疾病や形質と相関を持つことが示されており、疾患リスクの高い個人を特定することで予防的な介入を行うなど、個人の体質に応じた個別化医療への応用が期待されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2016-99901号公報
【非特許文献】
【0004】
【文献】Nature: Common polygenic variation contributes to risk of schizophrenia that overlaps with bipolar disorder
【文献】The American Journal of Human Genetics: Modeling Linkage Disequilibrium Increases Accuracy of Polygenic Risk Scores
【文献】Nature Genetics: Clinical use of current polygenic risk scores may exacerbate health disparities
【発明の概要】
【発明が解決しようとする課題】
【0005】
ゲノムワイド関連解析から得られた一塩基多型と形質の関連性の網羅的な(ゲノムワイドな)要約統計量を用いて、各個人ゲノムデータから、その個人の疾病のなりやすさ等を予測する予測モデルを作成する方法が多数研究されている(非特許文献1、2参照)。
【0006】
これらの方法は、ゲノムワイドな要約統計量から形質の予測に有用と思われる統計上有意な一部の一塩基置換の統計量のみを残して当該統計量の値を当該一塩基置換に対する予測時の重みとして用いる、あるいは統計量の値を修正して予測時の重みとして用いる方法である。また、これらの方法で作成した予測モデルの予測精度は、ゲノムワイド関連解析のサンプルサイズ(被験者数)が大きくなればなるほど向上する傾向にあることが知られている。
【0007】
ところが、これらの方法はゲノムワイド関連解析を行った民族集団と予測対象の民族集団とが同一であることを想定しており、異なる民族集団に対しては予測精度が低下することが指摘されている(非特許文献3)。
【0008】
ゲノムワイド関連解析は世界各地で実施されているものの、その多くは欧州人を対象にした解析であり、日本人等の非欧州人については大規模なゲノムワイド関連解析の結果が存在しない。そのため、日本人等の非欧州人を予測対象とした場合、同じ民族のゲノムワイド関連解析の結果をもとに作成した予測モデルではサンプルサイズの小ささから予測精度が小さなものに留まってしまう。欧州人のゲノムワイド関連解析の結果をもとに作成した予測モデルでは民族差による影響で予測精度が小さなものに留まってしまう。
【0009】
本発明が解決しようとする課題は、一個体に関する形質の予測精度を向上することが可能な形質予測モデル作成装置、形質予測装置及び形質予測モデル作成方法を提供することである。
【課題を解決するための手段】
【0010】
実施形態に係る形質予測モデル作成装置は、第一作成部と第二作成部とを有する。第一作成部は、複数の集団各々について、要約統計量と多型間相関情報とに基づいて複数の第一の形質予測モデルを作成する。第二作成部は、一塩基多型データ及び形質値を含む複数のデータセットを用いた、前記複数の集団各々の前記複数の第一の形質予測モデルの正則化回帰に基づいて、前記複数の集団のうちの特定の集団に関する第二の形質予測モデルを作成する。
【図面の簡単な説明】
【0011】
図1】第一実施形態に係る形質予測モデル作成装置の構成例を示す図
図2】第一実施形態に係る形質予測モデル作成装置の処理例を示す図
図3】一塩基多型データの一例を示す図
図4】第二形質予測モデルの構成例を示す図
図5】第一実施形態の実施例に係る4種の形質予測モデルの予測精度を示す棒グラフ
図6】第一実施形態に係る形質予測装置の構成例を示す図
図7】第一実施形態に係る形質予測装置の処理例を示す図
図8図7に示す形質予測装置の処理例を模式的に示す図
図9】第二実施形態に係る形質予測モデル作成装置の構成例を示す図
図10】第二実施形態に係る形質予測モデル作成装置の処理例を示す図
図11図10のステップSC3におけるゲノム領域の分割処理を模式的に示す図
図12】第二実施形態に係る形質予測装置の構成例を示す図
図13】第二実施形態に係る形質予測装置の処理例を示す図
図14図13に示す形質予測装置の処理例を模式的に示す図
【発明を実施するための形態】
【0012】
本発明者らは、同一民族集団のゲノムワイド関連解析の結果から予測モデルを作成する場合と、異なる民族集団のゲノムワイド関連解析の結果から予測モデルを作成する場合とで、最適な予測モデルを作成する方法に違いがあることを見出した。その違いとは、同一民族集団のゲノムワイド関連解析の結果から予測モデルを作成する場合には、統計上の有意さが低い効果の弱い一塩基多型を予測モデルに含めても予測がうまくいく一方、異なる民族集団のゲノムワイド関連解析の結果から予測モデルを作成する場合には効果の弱い一塩基多型を予測モデルに含めると予測がうまくいかなくなるというような違いである。
【0013】
この違いは、統計上有意な効果の強い一塩基多型による影響は民族集団によって違いがなく同様に予測に使える一方、効果の弱い一塩基多型による影響は民族集団固有の差があるために、異なる民族集団の結果から予測モデルを作成する場合には、効果の弱い一塩基多型の影響を予測モデルに含めることは予測上悪影響を及ぼすというような差から生じるのではないかと考えられる。
【0014】
上記のような観察の結果、本発明者らは、一塩基多型と形質との関連性に関するゲノムワイドな要約統計量から作成される形質予測モデルについて、同一の民族集団のゲノムワイド関連解析結果から、効果量の強い一塩基多型のみを含む予測モデルや、効果量の弱い一塩基多型も含む形質予測モデルなど、複数の予測モデルを作成すると同時に、異なる民族集団のゲノムワイド関連解析の結果からも同様に複数の予測モデルを作成し、さらに複数の要約統計量をメタ解析により統合した要約統計量からも同様に複数の予測モデルを作成し、これらの複数の予測モデルを適切な正則化回帰によってアンサンブル学習することによって、同一の民族集団のゲノムワイド関連解析結果から作成する予測モデルと、異なる民族集団のゲノムワイド関連解析結果から作成する予測モデルのいずれよりも、予測精度の高い予測モデルが作成可能であることを見出した。
【0015】
以下、図面を参照しながら本実施形態に係わる形質予測モデル作成装置、形質予測装置及び形質予測モデル作成方法を説明する。
【0016】
本実施形態に係わる形質予測モデル作成装置は、形質を予測するための予測モデルを作成するコンピュータである。形質予測装置は、形質予測モデル作成装置により作成された予測モデルを用いて一個体の形質を予測するコンピュータである。以下、形質を予測するための予測モデルを形質予測モデルと呼ぶことにする。形質予測モデルは、一個体の一塩基多型データを入力して当該一個体の形質に対応する形質値を出力するように学習された数理モデル又は機械学習モデルである。なお、以下の実施形態において、一塩基多型を多型とも表記することがある。
【0017】
(第一実施形態:形質予測モデル作成装置)
図1は、第一実施形態に係る形質予測モデル作成装置1の構成例を示す図である。図1に示すように、形質予測モデル作成装置1は、処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15を有する。
【0018】
処理回路11は、CPU(Central Processing Unit)等のプロセッサとRAM(Random Access Memory)等のメモリとを有する。処理回路11は、形質予測モデルを作成する。処理回路11は、記憶装置12に記憶されているプログラムを実行することにより取得部111、パラメータ計算部112、第一作成部113、第二作成部114及び/又は出力部115を実現する。処理回路11のハードウェア実装は上記態様のみに限定されない。例えば、取得部111、パラメータ計算部112、第一作成部113、第二作成部114及び出力部115を実現する特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の回路により構成されても良い。取得部111、パラメータ計算部112、第一作成部113、第二作成部114及び/又は出力部115は、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されても良い。取得部111、パラメータ計算部112、第一作成部113、第二作成部114及び/又は出力部115の機能又は当該機能をコンピュータに実現させるためのプログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録されてもよい。
【0019】
取得部111は、形質予測モデルを作成するための種々の情報を取得する。例えば、取得部111は、要約統計量や多型間相関情報等の、形質予測モデルを作成するためのパラメータを取得してもよい。要約統計量は、一塩基多型と形質との関連性を表すパラメータである。要約統計量は、ゲノムワイド関連解析に関する要約統計量であり、GWAS統計量が用いられる。要約統計量は、一集団の要約統計量と複数集団の要約統計量とを含む。以下、一集団の要約統計量を個別要約統計量と呼び、複数集団の要約統計量を統合要約統計量と呼び、両者を特に区別しないときは要約統計量と呼ぶ。多型間相関情報は、一塩基多型間の相関を表すパラメータである。多型間相関情報は、連鎖不平衡(LD:Linkage Disequilibrium)の度合いを表すパラメータ、例えば、LD参照パネルが用いられる。また、取得部111は、一塩基多型データ及び当該一塩基多型データに対応する形質値の組合せを含むデータセットを取得する。なお、取得部111は、一塩基多型データと形質値とを個別に取得することも可能である。
【0020】
パラメータ計算部112は、要約統計量や多型間相関情報等の、形質予測モデルを作成するためのパラメータを計算する。例えば、パラメータ計算部112は、複数の個別要約統計量をメタ解析して統合要約統計量を計算する。
【0021】
第一作成部113は、複数の集団各々について、要約統計量と多型間相関情報とに基づいて複数の第一の形質予測モデルを作成する。
【0022】
第二作成部114は、一塩基多型データ及び形質値を含む複数のデータセットを用いた、複数の集団各々の複数の第一の形質予測モデルの正則化回帰に基づいて、当該複数の集団のうちの特定の集団に関する第二の形質予測モデルを作成する。
【0023】
出力部115は、第二作成部114により作成された第二の形質予測モデルを出力する。
【0024】
記憶装置12は、ROM(Read Only Memory)やHDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等により構成される。記憶装置12は、処理回路11による種々の演算結果や処理回路11が実行する種々のプログラム等を記憶する。
【0025】
入力機器13は、ユーザからの各種指令を入力する。入力機器13としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器13からの出力信号は処理回路11に供給される。なお、入力機器13としては、処理回路11に有線又は無線を介して接続されたコンピュータであっても良い。
【0026】
通信機器14は、ネットワークを介して接続された外部機器との間で情報通信を行うためのインタフェースである。
【0027】
表示機器15は、種々の情報を表示する。表示機器15としては、CRT(Cathode-Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、LED(Light-Emitting Diode)ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。
【0028】
次に、形質予測モデル作成装置1の処理例について説明する。
【0029】
図2は、形質予測モデル作成装置1の処理例を示す図である。図2に示すように、まず、取得部111は、K(2以上の整数)個の集団に関する個別要約統計量及び多型間相関情報を取得する(ステップSA1)。集団は、民族的な単位としての集団、地理的な単位としての集団、人種的な単位としての集団、生物学的な単位としての集団等如何なる単位としての集団でもよい。しかしながら、以下の説明を具体的に行うため、集団は民族集団であるとする。例えば、集団Aは日本人集団、集団Bは中国人集団、集団Cは欧州人集団でもよい。
【0030】
個別要約統計量及び多型間相関情報は、ゲノムワイド関連解析により得られるパラメータである。個別要約統計量及び多型間相関情報は、一塩基多型データと当該一塩基多型データに対応する形質値との関連性(相関)に基づいて計算される。
【0031】
図3は、一塩基多型データの一例を示す図である。一塩基多型データは、一個体の一塩基多型(SNP:Single Nucleotide Polymorphism)に関するデータである。一塩基多型データは、遺伝子型により表記してもよいし、カテゴリ行列により表記してもよい。
【0032】
遺伝子型表記による一塩基多型データは、例えば、各個人の塩基配列を構成する塩基の系列データであり、標準的な塩基配列に対して異なり得る少なくとも1箇所の遺伝子座(DNA位置)における塩基のデータを含むものとする。塩基のデータは、例えば、A、T、G及びC等の塩基の種類を表す記号のデータにより表されてもよいし、塩基の種類を任意の数値や文字、符号等に置き換えたものでもよい。本実施形態においては、標準的な塩基配列に対して異なり得る1箇所のDNA位置をSNPと表記する。ここで、SNPにおける個々の塩基はアリル(allele)又は対立遺伝子とも呼ばれる。遺伝子型表記による一塩基多型データは、取得部111により外部のコンピュータ等から取得される。
【0033】
カテゴリ行列表記による一塩基多型データは、少なくとも1箇所のSNPについて、2つのアリルが基準とされる塩基配列と一致するか否かを表すカテゴリ(分類値)のデータを含む。例えば、図3に示すように、SNP2における基準のアリルが“G”であるとする。この場合、サンプル1のSNP2における遺伝子型が“GG”であり、基準のアリルに双方とも一致するので、サンプル1のSNP2におけるカテゴリは“0”に分類される。同様に、サンプル2では遺伝子型が“GA”であり、基準のアリルに片方のみが一致する(片方のみが一致しない)ので、カテゴリは“1”に分類され、サンプル3では遺伝子型が“AA”であり、基準のアリルに双方とも一致しないので、カテゴリは“2”に分類される。カテゴリ行列表記による一塩基多型データは、パラメータ計算部112により遺伝子型表記による一塩基多型データに基づいて計算されてもよいし、取得部111により外部のコンピュータ等から取得されてもよい。
【0034】
ここで、ゲノムワイド関連解析による個別要約統計量の具体的な計算方法について説明する。なお、以下の説明において、一塩基多型データは、カテゴリ表記のデータであるとする。カテゴリ表記の一塩基多型データは多型情報と呼ぶこともある。
【0035】
ゲノムワイド関連解析は、各一塩基多型と興味の対象となる形質との関連性(相関)を調べて、多重検定によって発見を行っていく方法である。全p個の多型がある場合には、ある形質値yに対して以下の(1)式に示すp個の回帰モデルを当てはめる。形質値yは、予測対象の形質の値である。例えば、予測対象の形質が疾病の罹患の有無であれば、形質値yは2値をとり、予測対象の形質がHbA1cであれば、形質値yは連続値をとる。なお、jは一塩基多型の番号であり、1からpまでの整数をとる。
【0036】
【数1】
【0037】
ここで、Zは切片項を含む年齢や性別等の共変量、hはリンク関数、xはj番目のSNPの多型情報(0,1,又は2)を表す説明変数である。リンク関数hは、共変量Z及び多型情報xのときの形質値yの期待値E(y|Z,x)と、共変量Z及び多型情報xに基づく回帰モデルとを接続する関数である。リンク関数hとしては、予測対象の形質が疾病の罹患の有無等の2値で表現されるのであればロジスティック回帰を用いれば良く、予測対象の形質がHbA1c等の連続値で表現されるのであれば線形回帰を用いればよい。
【0038】
特定の集団について、p個の回帰モデルの当てはめることにより、p個の回帰係数β,・・・,β及びp個の回帰係数の標準誤差se,・・・,seを計算することができる。回帰係数β及び標準誤差seは、この集団における、各多型とある形質との関連性を評価する個別要約統計量となる。回帰係数β及び標準誤差seは、GWAS統計量の一種である。
【0039】
個別要約統計量は、特定の集団の各個人の一塩基多型データと形質値とに基づいて計算される。各種の国際コンソーシアムが成果として要約統計量を公表しており、これらの個別要約統計量を用いてもよい。
【0040】
上記の通り、多型間相関情報としては、具体的には連鎖不平衡係数rが用いられる。連鎖不平衡係数rは、例えば1,000人ゲノムプロジェクトの成果として公開されている個人レベルの多型情報に基づいて計算可能である。より詳細には、多型情報に基づいて各SNPの遺伝子型頻度とアリル頻度とが計算され、2SNP間の遺伝子型頻度とアリル頻度により当該2SNP間の連鎖不平衡係数rが計算される。
【0041】
これら個別要約統計量と多型間相関情報とは、取得部111が外部装置から取得してもよいし、上記手法を用いてパラメータ計算部112が計算してもよい。
【0042】
ステップSA1が行われるとパラメータ計算部112は、集団間の統合要約統計量を計算する(ステップSA2)。メタ解析は、各集団から得られた結果を標準化した指標で比較するとともに、全体として統合する手法である。ステップSA2においてパラメータ計算部112は、複数の個別要約統計量をメタ解析して統合要約統計量を計算する。例えば、日本人集団の個別要約統計量と欧州人集団の個別要約統計量とをメタ解析して日本人及び欧州人集団の統合要約統計量が計算される。メタ解析の手法は、特に限定されず、サンプルサイズ法や逆分散法等、如何なる方法でもよい。以下、メタ解析の手法として逆分散法を用いたときの統合要約統計量の計算方法について説明する。
【0043】
全K個の集団でそれぞれ計算した要約統計量から統合要約統計量を計算するには、各多型について、集団kの個別要約統計量をβ,seとして、wをw=1/se とすれば、統合要約統計量は、以下の(2)式により表される。
【0044】
【数2】
【0045】
ここで、複数の個別要約統計量のメタ解析に基づく統合要約統計量の計算は、METAL等のプログラムを用いて実行されればよい。
【0046】
ステップSA2が行われると第一作成部113は、K個の集団に亘るM(2以上の整数)個の第一形質予測モデルを作成する(ステップSA3)。網羅的な(ゲノムワイドな)多型と形質の関連性の要約統計量から、形質予測モデルを作成する方法としては、非特許文献1や非特許文献2が開示されており、これらの方法によって第一形質予測モデルを作成することができる。
【0047】
具体的には、第一作成部113は、要約統計量と多型間相関情報とに基づいて、互いに異なるアルゴリズムと要約統計量及び多型間相関情報に対する基準値とを用いて、複数の第一形質予測モデルを作成する。アルゴリズムとしては、例えば、PRSice2やLDPred等の如何なるアルゴリズムが用いられるとよい。要約統計量に対する基準値としては、例えば、P値に対する閾値が用いられる。多型間相関情報に対する基準値としては、例えば、連鎖不平衡係数に対する閾値が用いられる。この場合、第一作成部113は、P値に対する複数の閾値と連鎖不平衡係数に対する複数の閾値とを設定し、P値に対する複数の閾値と連鎖不平衡係数に対する複数の閾値との複数の組合せ毎にPRSice2を用いて複数の第一形質予測モデルを作成し、また、P値に対する複数の閾値と連鎖不平衡係数に対する複数の閾値との複数の組合せ毎にLDPredを用いて複数の第一形質予測モデルを作成する。第一作成部113は、複数の集団について、上記の通り、互いに異なるアルゴリズムと要約統計量及び多型間相関情報に対する基準値とを用いて、複数の第一形質予測モデルを作成する。ここで、第一作成部113は、一集団の個別要約統計量に基づいて当該一集団の第一形質予測モデルを作成する。また、第一作成部113は、複数集団により構成される一集団の統合要約統計量及び多型間相関情報に基づいて当該集団の第一形質予測モデルを作成する。このようにして、ステップSA3においては,多数の第一形質予測モデルが作成される。
【0048】
ゲノムワイドな多型と形質の関連性の検定が目的である場合(回帰係数βが0であるという帰無仮説の検定が目的である場合)、多型の個数pは通常数十万から数千万という大きさであり、多数の仮説検定を繰り返すことから、偽陽性を制御するためにP値が5×10-8などの多重検定補正による厳しい有意水準を満たすことが要求される。P値は正規分布の累積確率密度関数の逆関数Φ-1を用いてΦ-1(-2|β/se|)などから計算される。
【0049】
一方で、予測が目的となる場合では、有意にならなくとも予測に有用である多型が含まれる可能性があり、例えば1×10-2などの大きめのP値が用いられる。P値の選定は形質予測モデルの性能に関わるが、遺伝構造などにより形質によって適切なP値は異なるため、適切に決定する必要がある。
【0050】
非特許文献1の方法では、一塩基多型間の独立性を仮定し、要約統計量の回帰係数を用いて一塩基多型と形質値との関係を線形回帰モデルによって推定している。多型間の独立性の仮定は、連鎖不平衡の関係にある一塩基多型間では成り立たない。そのため、事前に定めた連鎖不平衡係数rの閾値によって連鎖不平衡の関係にある一塩基多型を予め剪定し、剪定した一塩基多型のうちのP値が事前に定めた閾値以下である一塩基多型の集合Aのみを用いる。集合Aに含まれる一塩基多型(SNP)のインデックスは、上記の通りjで表される。この場合、第一形質予測モデルの出力する予測値PRSは、以下の(3)式に従い、j番目のSNPの多型情報xと回帰係数βとに基づいて計算される。このように、連鎖不平衡係数rの閾値とP値の閾値との組合せに応じて、予測値PRSの計算に用いる一塩基多型が異なるので、当該組合せに応じて予測精度が異なることとなる。
【0051】
【数3】
【0052】
なお、上記の説明においては、要約統計量に対する基準値と多型間相関情報に対する基準値との双方を変えて複数の第一形質予測モデルを作成するとしたが、第一作成部113は、要約統計量に対する基準値と多型間相関情報に対する基準値との何れか一方のみを変えて複数の第一形質予測モデルを作成してもよい。
【0053】
ステップSA3が行われると取得部111は、N(Nは1以上の整数)個の検証用データセットを取得する(ステップSA4)。ステップSA4において取得される検証用データセットは、第二形質予測モデルの予測対象の特定集団に属する人物のデータセットである。
【0054】
ステップSA4が行われると第二作成部114は、M個の第一形質予測モデルの正則化回帰に基づいて特定集団に関する第二形質予測モデルを作成する(ステップSA5)。M個の第一形質予測モデルのアンサンブル学習により第二形質予測モデルが作成されることとなる。
【0055】
図4は、第二形質予測モデルFの構成例を示す図である。図4に示すように、ステップSA3において複数の第一形質予測モデルFが作成される。第一形質予測モデルFは、一個人iの一塩基データを入力して当該一個人の第一形質値PRSi,mを出力する。第二形質予測モデルFは、複数の集団各々の複数の第一の形質予測モデルFに亘る、各第一形質予測モデルFの出力値PRSi,mと当該第一形質予測モデルFに対する重みパラメータ(以下、加重平均パラメータと呼ぶ)wとの積の総和PRSを計算するための構成を有する。すなわち、第一形質予測モデルFが出力する第一形質値PRSi,mと第一形質予測モデルFに対応する加重平均パラメータwとに基づいて、第二形質予測モデルFの出力値である第二形質値PRSは、以下の(4)式に従い計算される。
【0056】
【数4】
【0057】
第二形質予測モデルFの計算は、複数の第一の形質予測モデルFにそれぞれ対応する複数の加重平均パラメータwのセットw^の計算に帰着される。第二作成部114は、N個の検証用データセットを用いた、複数の第一形質予測モデルFの正則化回帰に基づいて加重平均パラメータを計算する。具体的には、第二作成部114は、N個の検証用データセットに基づいて、予測値と形質値との誤差関数と、加重平均パラメータwに対する正則化項とを含む目的関数を最小化する加重平均パラメータwの値を決定する。正則化回帰は、リッジ回帰やラッソ回帰、エラスティックネット回帰等の如何なる手法を用いてもよい。リッジ回帰は、正則化項として、L2正則化を含む。ラッソ回帰は、正則化項として、L1正則化項を含む。エラスティックネット回帰は、正則化項として、L1正則化項とL2正則化項との和を含む。
【0058】
エラスティックネット回帰を用いた場合、加重平均パラメータセットw^の目的関数の最小化は、以下の(5)式のように表される。
【0059】
【数5】
【0060】
ここで、λ及びαは、エラスティックネット回帰のハイパーパラメータである。λは正則化強度であり、αはL1正則化項に対するペナルティとL2正則化項に対するペナルティとのバランスを調整するパラメータである。
【0061】
第二作成部114は、検証用データセットを用いたk分割交差検証により、加重平均パラメータセットw^とハイパーパラメータλ及びαとを決定する。具体的には、第二作成部114は、ステップSA4において取得したN個の検証用データセットをk個に分割し、任意のハイパーパラメータλ及びαのもとでk-1個の検証用データセットを目的関数に適用して加重平均パラメータセットw^を決定し、決定した加重平均パラメータセットw^のもとで残りの1個の検証用データセットを第二形質予測モデルFに適用して出力値PRSを算出し、出力値PRSに基づいて予測精度を算出する。この残りの1個の検証用データセットは、評価用データセットと表記することもある。
【0062】
第二作成部114は、加重平均パラメータセットw^の決定と予測精度の算出とを、k分割した全ての検証用データセットが1回ずつ評価用データセットになるようにk回反復する。k回の反復後、第二作成部114は、予測精度が最大化するような最適なハイパーパラメータλ及びαを決定し、当該ハイパーパラメータλ及びαを目的関数に設定し、当該目的関数を用いて最終的な加重平均パラメータセットw^を決定し、決定された加重平均パラメータセットw^を特定民族集団に関する加重平均パラメータセットw^に設定する。これにより、複数の第一の形質予測モデルFのアンサンブル学習をモデル化した、特定民族集団に関する第二形質予測モデルが作成されることとなる。
【0063】
なお、加重平均パラメータセットw^とハイパーパラメータλ及びαとの決定方法は、上記方法によらず、適宜変更可能である。例えば、加重平均パラメータセットw^の決定と予測精度の算出との反復回数は、k回に限定されず、k回より少ない回数でも、多い回数でもよい。
【0064】
第二作成部114は、作成対象の民族集団に関する検証用データセットを用いてステップSA5を実行することにより、当該民族集団に関する第二形質予測モデルを作成することが可能である。
【0065】
ステップSA5が行われると出力部115は、ステップSA5において作成された第二形質予測モデルを出力する(ステップSA6)。ステップSA6において出力部115は、第二形質予測モデルを記憶装置12に保存したり、形質予測装置2に送信したりする。第二形質予測モデルは、具体的には、複数の第一予測モデルと複数の加重平均パラメータセットとの組合せのデータである。第二形質予測モデルは、対応する民族種を表す識別子が関連付けて管理される。
【0066】
ステップSA6が行われると形質予測モデル作成装置1の動作が終了する。
【0067】
[実施例]
次に、第一実施形態に係る形質予測モデル作成装置1の実施例について説明する。本実施例は、多因子的な質的形質の一例として、二型糖尿病の罹患に着目し、第一実施形態に係る形質予測モデルの作成および評価を実施した例である。一塩基多型と二型糖尿病の罹患の相関の要約統計量としては、Asian Genetic Epidemiology Networkで公開されている東アジア人に対する要約統計量と、DIAGRAM Consortiumで公開されている欧州人に対する要約統計量とを用いた。一塩基多型間の相関行列の計算には1,000人ゲノムプロジェクトで公開されている個人レベルの多型情報を用いた。検証用データセット及び評価用データセットには東北メディカル・メガバンク計画の8,444名を用い、そのうちの2/3を検証用データセット、1/3を評価用データセットとして用いた。
【0068】
形質予測モデルについては、(1)東アジア人の要約統計量のみを用いてPRSice2を使い作成した予測モデルのうち検証用データセットで最大の予測精度となった形質予測モデル、(2)東アジア人の要約統計量のみを用いてLDPredで作成した予測モデルのうち検証用データセットで最大の予測精度となった形質予測モデル、(3)東アジア人の要約統計量を用いてPRSice2及びLDPredで作成した複数の形質予測モデルをエラスティックネット回帰により検証用データセットで最大の予測精度となった形質予測モデル、(4)東アジア人の要約統計量と、欧州人の要約統計量と、東アジア人及び欧州人の要約統計量をメタ解析して得られた統合要約統計量から、PRSice2及びLDPredで作成した複数の予測モデルをエラスティックネット回帰により検証用データセットで最大の予測精度となった形質予測モデル、の4通りを確認した。4番目の形質予測モデルが第一実施形態に係る第二形質予測モデルである。
【0069】
PRSice2を用いた形質予測モデルの作成については、多型間の相関を計算するための個人レベルの一塩基多型データについては1,000人ゲノムプロジェクトから同一民族集団のサンプルを抽出して用い、連鎖不平衡係数に対する基準値(閾値)は0.2,0.4,0.6,0.8、P値に対する基準値(閾値)については5×10-8,1×10-7,1×10-6,1×10-5,1×10-4,1×10-3,1×10-2,1×10-1,1、その他のパラメータについてはPRSice2の既定値を設定し、連鎖不平衡係数の閾値とP値の閾値との組合せ数に対応して36個の形質予測モデルを作成した。
【0070】
LDPredを用いた形質予測モデルの作成については、一塩基多型データについては1,000人ゲノムプロジェクトから同一民族集団のサンプルを抽出して用い、LDPredの設定パラメータであるρパラメータについては規定値の1.3×10-1,1×10-1,3×10-2,1×10-2,3×10-3,1×10-3を用いて、7個の形質予測モデルを作成した。
【0071】
(4)の形質予測モデルは、東アジア人と欧州人との各々についてPRSice2による36個の第一形質予測モデルとLDPredによる7個の第一形質予測モデルとを作成し、日本人に関する検証用データセットに基づいた、東アジア人に関するPRSice2による36個の第一形質予測モデル及びLDPredによる7個の第一形質予測モデルと、欧州人に関するPRSice2による36個の第一形質予測モデル及びLDPredによる7個の第一形質予測モデルとのアンサンブル学習により、日本人に関する第二形質予測モデルとして作成される。
【0072】
図5は、上記4種の形質予測モデルの予測精度を示す棒グラフである。図6に示すように、(1)の形質予測モデルは、検証用データセットにおけるAUCによる予測精度は61.8%、(2)の形質予測モデルの予測精度は62.3%、(3)の形質予測モデルの予測精度は64.4%、(4)の形質予測モデル(第一実施形態に係る第二形質予測モデル)の予測精度は65.1%である。このように、第一実施形態に係る第二形質予測モデルの予測精度が最も高い予測精度となった。
【0073】
上記の通り、第一実施形態に係る形質予測モデル作成装置1は、第一作成部113と第二作成部114とを有する。第一作成部113は、複数の集団各々について、要約統計量と多型間相関情報とに基づいて複数の第一形質予測モデルFを作成する。第二作成部114は、一塩基多型データ及び形質値を含む複数のデータセットを用いた、複数の集団各々の複数の第一形質予測モデルFの正則化回帰に基づいて、複数の集団のうちの特定集団に関する第二形質予測モデルFを作成する。
【0074】
上記の通り、第二形質予測モデルFは、複数の第一形質予測モデルFのアンサンブル学習をモデル化したものとなる。効果の強い因子は集団差を超えて同様に影響を及ぼすため平均化すればよく、また、効果の弱い因子は同じ集団でないと予測に使えないため同じ集団から情報を取らなければならない。アンサンブル学習によれば、このような効果の強い因子と効果の弱い因子とを特定集団に対して最適に学習することができる。よって、特定集団に最適な第二形質予測モデルFを作成することが可能になる。以上により、第一実施形態によれば、予測精度の高いポリジェニックモデルを作成することができる。
【0075】
(第一実施形態:形質予測装置)
図6は、第一実施形態に係る形質予測装置2の構成例を示す図である。図6に示すように、形質予測装置2は、処理回路21、記憶装置22、入力機器23、通信機器24及び表示機器25を有する。
【0076】
処理回路21は、CPU等のプロセッサとRAM等のメモリとを有する。処理回路21は、第二形質予測モデルを用いて一個体の形質を予測する。処理回路21は、記憶装置22に記憶されているプログラムを実行することにより取得部211、第一予測部212、第二予測部213及び/又は出力部214を実現する。処理回路21のハードウェア実装は上記態様のみに限定されない。例えば、取得部211、第一予測部212、第二予測部213及び/又は出力部214を実現する特定用途向け集積回路(ASIC)等の回路により構成されても良い。取得部211、第一予測部212、第二予測部213及び/又は出力部214は、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されても良い。取得部211、第一予測部212、第二予測部213及び/又は出力部214の機能又は当該機能をコンピュータに実現させるためのプログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録されてもよい。
【0077】
取得部211は、種々の情報を取得する。例えば、取得部211は、形質予測対象である一個体の一塩基多型データ等を取得する。また、取得部111は、形質予測モデル作成装置1により作成された第二形質予測モデルを取得してもよい。具体的には、取得部211は、第二形質予測モデルとして、複数の第一形質予測モデルと当該複数の第一形質予測モデルにそれぞれ対応する複数の加重平均パラメータとを取得する。
【0078】
第一予測部212は、一個体の一塩基多型データを複数の第一形質予測モデルにそれぞれ適用して当該一個体に関する複数の第一の形質値を計算する。
【0079】
第二予測部213は、第一予測部212により計算された複数の第一の形質値と、一個体が属する集団に関連付けられた、複数の第一形質予測モデルにそれぞれ対応する複数の加重平均パラメータとに基づいて、当該一個体に関する第二の形質値を計算する。
【0080】
出力部214は、第二予測部213により計算された第二の形質値を出力する。
【0081】
記憶装置22は、ROMやHDD、SSD、集積回路記憶装置等により構成される。記憶装置22は、処理回路21による種々の演算結果や処理回路21が実行する種々のプログラム等を記憶する。また、記憶装置22は、形質予測モデル作成装置1により作成された第二形質予測モデルを、民族種を表す識別子に関連付けて記憶する。具体的には、記憶装置22は、第二形質予測モデルとして、複数の第一形質予測モデルと当該複数の第一形質予測モデルにそれぞれ対応する複数の加重平均パラメータとを記憶する。
【0082】
入力機器23は、ユーザからの各種指令を入力する。入力機器23としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器23からの出力信号は処理回路21に供給される。なお、入力機器23としては、処理回路21に有線又は無線を介して接続されたコンピュータであっても良い。
【0083】
通信機器24は、ネットワークを介して接続された外部機器との間で情報通信を行うためのインタフェースである。
【0084】
表示機器25は、種々の情報を表示する。表示機器25としては、CRTディスプレイや液晶ディスプレイ、有機ELディスプレイ、LEDディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。
【0085】
次に、形質予測装置2の処理例について説明する。図7は、第一実施形態に係る形質予測装置2の処理例を示す図である。図7に示すように、まず、取得部211は、形質予測対象の一個体に関する一塩基多型データを取得する(ステップSB1)。
【0086】
ステップSB1が行われると第一予測部212は、ステップSB1において取得された一塩基多型データを、M個の第一形質予測モデルに適用して、形質予測対象の一個体に関するM個の第一形質値を計算する(ステップSB2)。ステップSB2が行われると第二予測部213は、ステップSB2において計算されたM個の第一形質値に基づいて、形質予測対象の一個体に関する第二形質値を計算する(ステップSB3)。ステップSB3が行われると出力部214は、ステップSB3において計算された第二形質値を出力する(ステップSB4)。ステップSB4において出力部214は、第二形質値を、例えば、表示機器25に表示してもよいし、記憶装置22に記録してもよいし、通信機器24を介して他のコンピュータに送信してもよい。
【0087】
ステップSB4が行われると形質予測装置2の動作が終了する。
【0088】
図8は、図7に示す形質予測装置2の処理例を模式的に示す図である。形質予測対象の一個体は、例えば、日本人であるとする。この場合、第一予測部212は、日本人に関する第二形質予測モデルを記憶装置22から読み出す。具体的には、第一予測部212は、日本人に対応する識別子に関連付けられた第二形質予測モデルを記憶装置22に格納されている複数の第二形質予測モデルから選択して読み出す。日本人に対応する第二形質予測モデルとして、M個の第一形質予測モデルFとM個の加重平均パラメータwとが読み出される。
【0089】
次に第一予測部212は、形質予測対象の一個体に関する一塩基多型データを、M個の第一形質予測モデルFにそれぞれ適用してM個の第一形質値PRSを計算する。そして第二予測部213は、下記(6)式に従い、M個の第一形質値PRSにそれぞれM個の加重平均パラメータwを乗算してM個の積算値を計算し、M個の積算値を加算して第二形質値PRSを計算する。このようにして、日本人の一個人に関する高精度の第二形質値PRSを得ることができる。
【0090】
【数6】
【0091】
上記の通り、第一実施形態に係る形質予測装置2は、取得部211、第一予測部212、第二予測部213及び出力部214を有する。取得部211は、一個体に関する一塩基多型データを取得する。第一予測部212は、一塩基多型データを複数の第一形質予測モデルFにそれぞれ適用して一個体に関する複数の第一形質値PRSを計算する。第二予測部213は、複数の第一形質値PRSと、一個体が属する集団に関連付けられた、複数の第一形質予測モデルFにそれぞれ対応する複数の加重平均パラメータwとに基づいて、一個体に関する第二形質値PRSを計算する。出力部214は、第二形質値PRSを出力する。
【0092】
上記の通り、形質予測装置2は、複数の第一形質予測モデルFのアンサンブル学習を行うことにより、予測精度の高い第二形質値PRSを計算することができる。
【0093】
(第二実施形態:形質予測モデル作成装置)
次に、第二実施形態に係る形質予測モデル作成装置1について説明する。なお以下の説明において、第一実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
【0094】
図9は、第二実施形態に係る形質予測モデル作成装置1の構成例を示す図である。図9に示すように、第二実施形態に係る形質予測モデル作成装置1は、処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15を有する。処理回路11は、記憶装置12に記憶されているプログラムを実行することにより取得部111、パラメータ計算部112、第一作成部113、第二作成部114、出力部115及び/又は分割部116を実現する。処理回路11のハードウェア実装は上記態様のみに限定されない。例えば、取得部111、パラメータ計算部112、第一作成部113、第二作成部114、出力部115及び/又は分割部116を実現する特定用途向け集積回路(ASIC)等の回路により構成されても良い。取得部111、パラメータ計算部112、第一作成部113、第二作成部114、出力部115及び/又は分割部116は、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されても良い。取得部111、パラメータ計算部112、第一作成部113、第二作成部114、出力部115及び/又は分割部116の機能又は当該機能をコンピュータに実現させるためのプログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録されてもよい。
【0095】
分割部116は、複数の集団に関する複数個の一塩基多型データに基づいて、単一のゲノム領域を、一塩基多型間の相関に応じて複数のゲノム領域に分割する。各ゲノム領域の遺伝子座(DNA位置)は、集団の種類に応じて異ならず、複数の集団について共通である。
【0096】
第一作成部113は、複数の集団各々の複数の第一の形質予測モデルを、複数のゲノム領域毎に作成する。
【0097】
第二作成部114は、複数のゲノム領域毎に作成された、複数の集団各々の複数の第一の形質予測モデルに基づいて、第二の形質予測モデルを作成する。
【0098】
次に、第二実施形態に係る形質予測モデル作成装置1の処理例について説明する。
【0099】
図10は、第二実施形態に係る形質予測モデル作成装置1の処理例を示す図である。図10に示すように、まず、取得部111は、K(2以上の整数)個の集団に関する個別要約統計量及び多型間相関情報を取得する(ステップSC1)。ステップSC1における処理は図2のステップSA1における処理と同様である。
【0100】
ステップSC1が行われるとパラメータ計算部112は、集団間の統合要約統計量を計算する(ステップSC2)。ステップSC2における処理は図2のステップSA2における処理と同様である。
【0101】
ステップSC2が行われると分割部116は、K個の集団に対して共通するL個のゲノム領域に分割する(ステップSC3)。以下、ゲノム領域の分割処理について詳細に説明する。
【0102】
図11は、ステップSC3におけるゲノム領域の分割処理を模式的に示す図である。図11の上段は、日本人集団のDNAの相関構造を表すLDプロットを示しており、図11の下段は、欧州人集団のDNAの相関構造を表すLDプロットを示している。図11の上段及び下段各々の左側のLDプロットの注目領域の拡大図が、右側に示されている。LDプロットの各点には、対応する両SNP間の連鎖不平衡係数rが割り当てられている。物理的に近い位置にあるSNP同士は強い相関を有する。特定の領域については遠くの位置のSNPまで強い相関を有していることがある。この強い相関を有する領域はLDブロックと呼ばれている。例えば、LDプロットを構成する各点のうち、閾値より連鎖不平衡係数rを有し且つ空間的に連続する点の集合がLDブロックに設定される。LDブロックの位置は民族によって異なっている。一連の塩基配列について複数のLDブロックが設定される。
【0103】
分割部116は、複数のLDブロックを複数のゲノム領域にそれぞれ設定する。各ゲノム領域は、各LDブロックが占めるDNA位置の上端P1と下端P2との間の領域として規定される。この上端P1と下端P2とは、各ゲノム領域を定義する。上端P1と下端P2とは分割点とも呼ばれる。分割部116は、各ゲノム領域について上端側の分割点P1と下端側の分割点P2の位置との組合せを記録する。この際、分割部116は、異なる民族について共通のゲノム領域を設定する。例えば、図11に示すように、同一LDブロックについて、日本人と欧州人とでDNA位置が異なる場合であっても、日本人と欧州人とで共通のDNA位置にゲノム領域が設定される。ゲノム領域は、日本人のLDブロックと欧州人のLDブロックとを包含するように設定されてもよいし、日本人のLDブロックと欧州人のLDブロックとのうち大きい方又は小さい方に設定されてもよいし、日本人のLDブロックと欧州人のLDブロックとの和領域や積領域等に設定されてもよい。各ゲノム領域の上端側の分割点と下端側の分割点の位置との組合せは、記憶装置12に保存され、形質予測装置2に送信される。
【0104】
ゲノム領域の分割処理は、概念的には、上記の通りであるが、アルゴリズムの一例を以下に示す。また、分割部116は、N人のM個の多型情報に基づいてゲノム行列Xを構築する。但し、多型情報は、列ごとに平均「0」、分散「1」となるように正規化されている。ゲノム行列Xは、i行j列目の要素xijがi番目の人のj番目の多型情報であるN×M次元の行列である。このとき多型間の相関はV=XX/NのM×M次元の対称行列で表され、Vのi行j列目の要素は、N人の集団中でのi番目の多型とj番目の多型の相関を示す値となる。このVを、対角上の要素が全て「1」であるような小さな次元の対称行列と、他の要素は「0」であるような行列として近似することで、集団中で互いに一塩基多型間の相関のない領域に分割することができる。
【0105】
複数の集団で共通して互いに多型間の相関のない領域に分割するため、分割部116は、下記の(7)式に従い、1つ目の集団で計算した相関Vk1と2つ目の集団で計算した相関Vk2とに基づいて行列Vtransを計算する。行列Vtransのi行j列目の要素は、相関Vk1,i,jの絶対値が相関Vk2,i,jの絶対値に比して大きい場合、相関Vk1,i,jを有し、相関Vk2,i,jの絶対値が相関Vk1,i,jの絶対値に比して大きい場合、相関Vk2,i,jを有する。
【0106】
【数7】
【0107】
分割部116は、以下の(8)式で表されるVtransの対角成分の和を計算し、この値が基準値よりも小さな値となる点を分割点とすることで、複数の集団で共通して互いに多型間の相関がない領域に分割することができる。
【0108】
【数8】
【0109】
例えば、図11の上段の日本人で計算した相関がVk1に相当し、下段の欧州人で計算した相関がVk2に相当します。行列Vtransは、LDプロットの各点についてVk1とVk2とのうち大きい方が選択されたものに相当する。分割部116は、LDブロットの任意のDNA位置に縦線を引き、当該縦線にある各点の和を計算し、当該和と閾値とを比較する。閾値は任意の値に設定されればよい。分割部116は、和が閾値を上回るDNA位置を基準として左右両側に位置をずらしながら和を計算し、当該和が閾値未満になるDNA位置を分割点P1及びP2として特定する。図11の「分割しない」と記載されたDNA位置は、日本人の和は閾値未満であるが、欧州人の和は閾値以上であるので分割されない。分割点P1及びP2は、日本人の和と欧州人の和との双方が閾値未満であるので分割されることとなる。
【0110】
ここで、複数の集団で共通して互いに多型間の相関のない領域に分割する場合に用いる多型情報については、1,000人ゲノムプロジェクトの特定の民族集団の多型情報を用いてもよい。また、ゲノム領域の分割については、一般に入手可能なLDetectを用いて互いに多型間の相関のない領域に分割をしてもよい。
【0111】
ステップSC3が行われると第一作成部113は、K個の集団に関し、L個のゲノム領域毎にM個の第一形質予測モデルを作成する(ステップSC4)。ステップSC4において第一作成部113は、個別要約統計量及び統合要約統計量を用いて、各ゲノム領域毎にL×M個の第一形質予測モデルを作成する。第一形質予測モデルの作成方法は、第一実施形態に係る第一形質予測モデルの作成方法と同様の方法が用いられればよい。
【0112】
ステップSC4が行われると取得部111は、作成対象の民族集団に属するN個の検証用データセットを取得する(ステップSC5)。
【0113】
ステップSC5が行われると第二作成部114は、L×M個の第一形質予測モデルの正則化回帰に基づいて特定集団に関する第二形質予測モデルを作成する(ステップSC6)。第二実施形態に係る第二形質予測モデルFは、複数の集団各々の複数の第一形質予測モデルFml及び複数のゲノム領域Glに亘る、各第一形質予測モデルFmlの出力値PRSi,mlと当該第一形質予測モデルFに対する加重平均パラメータwmlとの積の総和PRSを計算するための構成を有する。すなわち、第一形質予測モデルFが出力する個人iに対する予測値PRSi,ml、予測値PRSi,mlに対する加重平均パラメータwmlに基づいて、第二形質予測モデルFの出力値PRSは、以下の(9)式に従い計算される。
【0114】
【数9】
【0115】
第二形質予測モデルFの計算は、第一実施形態に係る第二形質予測モデルの計算と同様の方法で行われればよい。すなわち、第二作成部114は、N個の検証用データセットを用いた、複数の第一形質予測モデルFmlの正則化回帰に基づいて加重平均パラメータを計算する。具体的には、第二作成部114は、N個の検証用データセットに基づいて、予測値と形質値との誤差関数と、加重平均パラメータに対する正則化項とを含む目的関数を最小化する加重平均パラメータの値を決定する。正則化回帰は、リッジ回帰やラッソ回帰、エラスティックネット回帰等の如何なる手法を用いてもよい。
【0116】
エラスティックネット回帰を用いた場合、加重平均パラメータセットw^の目的関数の最小化は、以下の(10)式のように表される。第二作成部114は、第一実施形態と同様、例えば、検証用データセットを用いたk分割交差検証により、予測精度が最大化するような最適な加重平均パラメータセットw^とハイパーパラメータλ及びαとを決定することが可能である。
【0117】
【数10】
【0118】
第二作成部114は、作成対象の民族集団に関する検証用データセットを用いてステップSC6の処理を実行することにより、当該民族集団に関する第二形質予測モデルを作成することが可能である。
【0119】
ステップSC6が行われると出力部115は、ステップSC6において作成された第二形質予測モデルを出力する(ステップSC7)。ステップSC7において出力部115は、第二形質予測モデルを記憶装置12に保存したり、形質予測装置2に送信したりする。第二形質予測モデルは、具体的には、複数のゲノム領域各々についての複数の第一予測モデルと複数の加重平均パラメータセットとの組合せのデータである。第二形質予測モデルは、対応する民族種を表す識別子が関連付けて管理される。
【0120】
上記の通り、第二実施形態に係る形質予測モデル作成装置1は、複数のゲノム領域各々について第一形質予測モデルFm,lを作成し、複数のゲノム領域に亘る複数の第一形質予測モデルFm,lのアンサンブル学習をモデル化した第二形質予測モデルFを作成する。集団差を超えて同様な影響を及ぼすゲノム領域と及ぼさないゲノム領域とが存在する場合に、各第一形質予測モデルFm,lは各ゲノム領域の性質を個別に学習することができる。第二形質予測モデルFは、これら第一形質予測モデルFm,lのアンサンブル学習をモデル化したものであるので、ゲノム領域の性質の相違を特定集団に対して最適に学習することができる。よって、特定集団に最適な第二形質予測モデルFを作成することが可能になる。以上により、第二実施形態によれば、予測精度の高いポリジェニックモデルを作成することができる。
【0121】
(第二実施形態:形質予測装置)
次に、第二実施形態に係る形質予測装置2について説明する。なお以下の説明において、第一実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
【0122】
図12は、第二実施形態に係る形質予測装置2の構成例を示す図である。図12に示すように、形質予測装置2は、処理回路21、記憶装置22、入力機器23、通信機器24及び表示機器25を有する。処理回路21は、記憶装置22に記憶されているプログラムを実行することにより取得部211、第一予測部212、第二予測部213、出力部214及び/又は分割部215を実現する。処理回路21のハードウェア実装は上記態様のみに限定されない。例えば、取得部211、第一予測部212、第二予測部213、出力部214及び/又は分割部215を実現する特定用途向け集積回路(ASIC)等の回路により構成されても良い。取得部211、第一予測部212、第二予測部213、出力部214及び/又は分割部215は、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されても良い。取得部211、第一予測部212、第二予測部213、出力部214及び/又は分割部215の機能又は当該機能をコンピュータに実現させるためのプログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録されてもよい。
【0123】
分割部215は、一個人の一塩基多型データに基づいて、単一のゲノム領域を、一塩基多型間の相関に応じて複数のゲノム領域に分割する。分割部215は、単一のゲノム領域を、当該複数の集団に対して共通する区分けで複数のゲノム領域に分割する。
【0124】
第一予測部212は、複数のゲノム領域各々について、一塩基多型データを複数の第一形質予測モデルにそれぞれ適用して複数の第一の形質値を計算する。
【0125】
第二予測部213は、複数のゲノム領域各々の複数の第一の形質値と、一個体が属する集団に関連付けられた、複数の第一形質予測モデルにそれぞれ対応する複数の加重平均パラメータとに基づいて、当該一個体に関する第二の形質値を計算する。
【0126】
次に、第二実施形態に係る形質予測装置2の処理例について説明する。図13は、第二実施形態に係る形質予測装置2の処理例を示す図である。図13に示すように、まず、取得部211は、形質予測対象の一個体に関する複数のゲノム領域に亘る一塩基多型データを取得する(ステップSD1)。
【0127】
ステップSD1が行われると分割部215は、ステップSD1において取得された一塩基多型データを、L個のゲノム領域にそれぞれ対応するL個の一塩基多型データに分割する(ステップSD2)。ステップSD2において分割部215は、例えば、形質予測モデル作成装置1の分割部116により規定された各ゲノム領域の上端側の分割点と下側の分割点とに基づいて、ステップSD1において取得された一塩基多型データのゲノム領域を分割する。これにより、ステップSD1において取得された一塩基多型データは、L個のゲノム領域にそれぞれ対応するL個の一塩基多型データに分割される。なお、分割部215は、形質予測モデル作成装置1の分割部116と同様の手法によりゲノム領域を分割してもよい。
【0128】
ステップSD2が行われると第一予測部212は、L個のゲノム領域各々について、一塩基多型データをM個の第一形質予測モデルに適用して、形質予測対象の一個体に関するM個の第一形質値を計算する(ステップSD3)。ステップSD3が行われると第二予測部213は、ステップSD3において計算されたL×M個の第一形質値に基づいて、形質予測対象の一個体に関する第二形質値を計算する(ステップSD4)。ステップSD4が行われると出力部214は、ステップSD4において計算された第二形質値を出力する(ステップSD5)。ステップSD5において出力部214は、第二形質値を、例えば、表示機器25に表示してもよいし、記憶装置22に記録してもよいし、通信機器24を介して他のコンピュータに送信してもよい。
【0129】
ステップSD5が行われると形質予測装置2の動作が終了する。
【0130】
図14は、図13に示す形質予測装置の処理例を模式的に示す図である。形質予測対象の一個体は、例えば、日本人であるとする。この場合、第一予測部212は、日本人に関する第二形質予測モデルを記憶装置22から読み出す。具体的には、第一予測部212は、日本人に対応する識別子に関連付けられた第二形質予測モデルを記憶装置22に格納されている複数の第二形質予測モデルから選択して読み出す。日本人に対応する第二形質予測モデルとして、L×M個の第一形質予測モデルFm,lとL×M個の加重平均パラメータwm,lとが読み出される。
【0131】
次に分割部215は、ステップSD1において取得された一塩基多型データを、L個のゲノム領域Gにそれぞれ対応するL個の一塩基多型データに分割する。第一予測部212は、各ゲノム領域Gについて、当該ゲノム領域Gの一塩基多型データをM個の第一形質予測モデルFに適用してM個の第一形質値PRSを計算する。L個のゲノム領域G全てについて第一形質値PRSを計算するので、L×M個の第一形質値PRSが計算されることとなる。そして第二予測部213は、下記(11)式に従い、L×M個の第一形質値PRSにそれぞれL×M個の加重平均パラメータwm,lを乗算してL×M個の積算値を計算し、L×M個の積算値を加算して第二形質値PRSを計算する。このようにして、日本人に関する高精度の第二形質値PRSを得ることができる。
【0132】
【数11】
【0133】
上記の通り、第二実施形態によれば、ゲノム領域の性質の差異を考慮した第二形質予測モデルを利用するので、更に予測精度の高い第二形質値を計算することができる。
【0134】
かくして、上記の幾つかの実施形態によれば、一個体に関する形質の予測精度を向上することが可能になる。
【0135】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0136】
1…形質予測モデル作成装置、2…形質予測装置、11…処理回路、12…記憶装置、13…入力機器、14…通信機器、15…表示機器、21…処理回路、22…記憶装置、23…入力機器、24…通信機器、25…表示機器、111…取得部、112…パラメータ計算部、113…第一作成部、114…第二作成部、115…出力部、116…分割部、211…取得部、212…第一予測部、213…第二予測部、214…出力部、215…分割部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14