IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ゲノミクス ピーエルシーの特許一覧

特表2024-536911遺伝子データを分析するためのコンピュータ実装方法および装置
<>
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図1
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図2
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図3
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図4
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図5
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図6
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図7
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図8
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図9
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図10
  • 特表-遺伝子データを分析するためのコンピュータ実装方法および装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-08
(54)【発明の名称】遺伝子データを分析するためのコンピュータ実装方法および装置
(51)【国際特許分類】
   G16B 25/00 20190101AFI20241001BHJP
【FI】
G16B25/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024522021
(86)(22)【出願日】2022-10-05
(85)【翻訳文提出日】2024-06-07
(86)【国際出願番号】 GB2022052515
(87)【国際公開番号】W WO2023062339
(87)【国際公開日】2023-04-20
(31)【優先権主張番号】2114554.5
(32)【優先日】2021-10-12
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】522074486
【氏名又は名称】ゲノミクス ピーエルシー
(74)【代理人】
【識別番号】100092783
【弁理士】
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100120134
【弁理士】
【氏名又は名称】大森 規雄
(72)【発明者】
【氏名】ウィール,マイケル
(72)【発明者】
【氏名】プラグノル,ヴィンセント ヤン マリー
(72)【発明者】
【氏名】ムーア,レイチェル
(72)【発明者】
【氏名】ウェルズ,ダニエル
(72)【発明者】
【氏名】セス,プリヤンカ
(72)【発明者】
【氏名】パーマー,ダンカン
(57)【要約】
遺伝子データを分析するコンピュータ実装方法が提供され、この方法は、対象個体について目的の表現型または目的の表現型組合せのポリジェニック・リスク・スコアを受け取ることと、対象個体の個体遺伝子データを受け取ることであって、個体遺伝子データが、対象個体の祖先に関する情報を有する、個体遺伝子データを受け取ることと、個体遺伝子データを使用して祖先空間内で個体位置を決定することと、ポリジェニック・リスク・スコアおよび個体位置を使用して、目的の表現型または目的の表現型組合せについて、対象個体のリスクへの遺伝的寄与を計算することと、を含む。対応する装置も提供される。
【特許請求の範囲】
【請求項1】
遺伝子データを分析するコンピュータ実装方法であって、
対象個体について目的の表現型または目的の表現型組合せのポリジェニック・リスク・スコアを受け取ることと、
前記対象個体の個体遺伝子データを受け取ることであって、前記個体遺伝子データが、前記対象個体の祖先に関する情報を有する、個体遺伝子データを受け取ることと、
前記個体遺伝子データを使用して祖先空間内で個体位置を決定することと、
前記ポリジェニック・リスク・スコアおよび前記個体位置を使用して、前記目的の表現型または目的の表現型組合せについて、前記対象個体のリスクへの遺伝的寄与を計算することと、を含むコンピュータ実装方法。
【請求項2】
前記個体位置が、順序付け可能な変数の組合せによって表される、請求項1に記載の方法。
【請求項3】
前記個体位置が、連続変数または擬似連続変数の組合せによって表される、請求項2に記載の方法。
【請求項4】
前記個体位置が、複数の祖先のうちの1つまたは重み付けされた組合せへの割り当てを含む、請求項1から3のいずれかに記載の方法。
【請求項5】
前記遺伝的寄与が、前記個体位置に対する連続的または擬似連続的な依存性を有する、請求項1から4のいずれかに記載の方法。
【請求項6】
前記遺伝的寄与が、前記祖先空間の各軸に対応する部分寄与の合計を含み、各部分寄与が、祖先空間のそれぞれの軸に沿った前記個体位置の座標を使用して計算される、請求項1から5のいずれかに記載の方法。
【請求項7】
前記祖先空間が非等方性であり、それにより、前記個体位置のそれぞれの座標に対する各部分寄与の依存性が前記部分寄与間で異なる、請求項6に記載の方法。
【請求項8】
前記部分寄与の少なくとも2つが、共有される事前分布によって関係付けられる、前記個体位置のそれぞれの座標に対する依存性を有する、請求項7に記載の方法。
【請求項9】
前記共有される事前分布は、前記少なくとも2つの部分寄与の前記依存性が同じ分布からサンプリングされるように指定される、請求項8に記載の方法。
【請求項10】
前記共有される事前分布が、複数の訓練個体からの訓練データおよび1つまたは複数の所定のハイパーパラメータを使用して決定される、請求項9に記載の方法。
【請求項11】
各部分寄与が、前記ポリジェニック・リスク・スコアと、前記祖先空間のそれぞれの軸に沿った前記個体位置の前記座標との積を含む、請求項6から10のいずれかに記載の方法。
【請求項12】
前記遺伝的寄与を計算することが、前記個体位置と前記祖先空間内の参照位置との間の前記祖先空間内での距離を計算し、前記距離を使用して前記遺伝的寄与を計算することを含む、請求項1から5のいずれかに記載の方法。
【請求項13】
前記参照位置が、前記ポリジェニック・リスク・スコアの計算に使用される係数を訓練するために使用された祖先の前記祖先空間内での位置である、請求項12に記載の方法。
【請求項14】
前記祖先空間が、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義され、
前記遺伝的寄与を計算することが、前記距離を計算する前に、前記参照遺伝子データ中のそれぞれの軸によって説明される分散を使用して前記祖先空間の各軸をスケーリングすることを含む、請求項12または13に記載の方法。
【請求項15】
前記距離が、前記祖先空間内のユークリッド距離である、請求項12から14のいずれかに記載の方法。
【請求項16】
前記遺伝的寄与が、前記ポリジェニック・リスク・スコアと前記距離との積を含む、請求項12から15のいずれかに記載の方法。
【請求項17】
前記遺伝的寄与を計算することが、前記個体位置に対する線形の依存性を使用することを含む、請求項1から16のいずれかに記載の方法。
【請求項18】
前記遺伝的寄与を計算することが、前記個体位置に対する非線形の依存性を使用することを含む、請求項1から16のいずれかに記載の方法。
【請求項19】
前記非線形の依存性が、正則化された関数を含む、請求項18に記載の方法。
【請求項20】
前記非線形の依存性が、ペナルティ付きBスプラインを含む、請求項18または19に記載の方法。
【請求項21】
前記非線形の依存性が、ベイズ推論を使用して前記遺伝的寄与を計算するための事前分布としてガウス過程を使用して決定される、請求項18に記載の方法。
【請求項22】
前記ガウス過程が、ゼロの平均値関数を有する、請求項21に記載の方法。
【請求項23】
前記ガウス過程が、前記対象個体の前記リスクへの前記遺伝的寄与の事前推定に対応する平均値ベクトルを有する、請求項21に記載の方法。
【請求項24】
前記ガウス過程のカーネル関数が停留関数である、請求項21から23のいずれかに記載の方法。
【請求項25】
前記ガウス過程のカーネル関数が、サンプル間の類似度が低下するのに伴い、ゼロまで減衰する、請求項21から24のいずれかに記載の方法。
【請求項26】
前記カーネル関数が、放射基底関数または有理二次共分散関数である、請求項21から25のいずれかに記載の方法。
【請求項27】
前記ベイズ推論のための事後分布が、前記ガウス過程と、複数の異なる祖先を有する複数の訓練個体からの訓練データとを使用して決定される、請求項21から26のいずれかに記載の方法。
【請求項28】
前記事後分布を決定することが、前記事後分布を正規分布として近似することを含む、請求項27に記載の方法。
【請求項29】
前記ガウス過程のカーネル関数が、1つまたは複数のハイパーパラメータに依存する、請求項21から28のいずれかに記載の方法。
【請求項30】
前記ハイパーパラメータが、前記ポリジェニック・リスク・スコア、前記個体位置、および前記ポリジェニック・リスク・スコアと前記位置との間の相互作用の各々に関連するハイパーパラメータを含む、請求項29に記載の方法。
【請求項31】
前記遺伝的寄与が、前記個体位置に依存しない前記ポリジェニック・リスク・スコアを使用して計算される、祖先に依存しない成分を含む、請求項1から30のいずれかに記載の方法。
【請求項32】
前記遺伝的寄与が、前記ポリジェニック・リスク・スコアに依存しない前記個体位置に基づいて計算される、祖先に依存する成分を含む、請求項1から31のいずれかに記載の方法。
【請求項33】
前記祖先空間が、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義される、請求項1から32のいずれかに記載の方法。
【請求項34】
各参照個体が、複数の祖先の1つに割り当てられる、請求項33に記載の方法。
【請求項35】
前記祖先空間の座標系が、前記参照遺伝子データに次元削減を適用することによって決定される、請求項33または34に記載の方法。
【請求項36】
前記次元削減が、主成分分析、独立成分分析、非負行列分解、または因子分析を含む、請求項35に記載の方法。
【請求項37】
前記次元削減が、前記祖先空間を祖先の有限の集合に離散化することを含み、前記個体位置は、前記祖先の有限の集合の各祖先についての連続的または擬似連続的な所属割合を含む、請求項35に記載の方法。
【請求項38】
前記祖先空間の前記座標系が、前記祖先空間によって説明される前記参照遺伝子データの分散を最大にするように選択される、請求項35から37のいずれかに記載の方法。
【請求項39】
前記祖先空間が、前記個体遺伝子データよりも低い次元数を有し、前記個体位置を決定することが、前記個体遺伝子データを前記祖先空間に投影することを含む、請求項1から38のいずれかに記載の方法。
【請求項40】
前記個体位置および前記ポリジェニック・リスク・スコアに対する前記遺伝的寄与の依存性が、複数の異なる祖先を有する複数の訓練個体からの訓練データを使用して決定され、前記訓練データは、各前記訓練個体につき、遺伝子データと、前記訓練個体が前記目的の表現型または表現型組合せを有するかどうかとを含む、請求項1から39のいずれかに記載の方法。
【請求項41】
前記訓練データが、前記訓練個体の各々につき、1つまたは複数の非遺伝的共変量に関する情報を有するデータをさらに含み、前記遺伝的寄与が、前記非遺伝的共変量の存在下で結合推定され、
前記方法が、前記対象個体の個体共変量データを受け取ることをさらに含み、前記個体共変量データは、前記対象個体についての追加的な非遺伝的共変量に関する情報を有する、請求項40に記載の方法。
【請求項42】
前記非遺伝的共変量が、体重、身長、挙動特性、医学的形質、および血液または尿に基づく測定値などのその他のバイオマーカ、の1つまたは複数を含む、請求項41に記載の方法。
【請求項43】
前記リスクへの前記遺伝的寄与を出力することをさらに含む、請求項1から42のいずれかに記載の方法。
【請求項44】
前記リスクが、平均の推定遺伝的寄与を有する個体に対する相対リスクであり、前記方法が、
前記相対リスクへの前記遺伝的寄与および非遺伝的寄与を使用して、前記目的の表現型または目的の表現型組合せについての前記対象個体の前記相対リスクを計算することと、
前記相対リスクを出力することと
をさらに含む、請求項1から43のいずれかに記載の方法。
【請求項45】
前記相対リスクを計算することが、損失関数を使用して、前記対象個体の前記相対リスクの分布から前記対象個体の前記相対リスクの値を決定することを含む、請求項44に記載の方法。
【請求項46】
前記損失関数が、平均二乗誤差関数または非対称指数損失関数である、請求項45に記載の方法。
【請求項47】
前記遺伝的寄与を使用して、前記目的の表現型または目的の表現型組合せについての前記対象個体の絶対リスクを計算することと、
前記絶対リスクを出力することと
をさらに含む、請求項1から46のいずれかに記載の方法。
【請求項48】
前記絶対リスクまたは相対リスクを計算することが、前記対象個体のハザード比を決定することを含み、前記ハザード比が、前記ポリジェニック・リスク・スコアおよび前記遺伝的寄与を使用して正規化される、請求項44から47のいずれかに記載の方法。
【請求項49】
命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがコンピュータによって実行されると、前記コンピュータに請求項1から48のいずれかに記載の方法を実施させる、コンピュータプログラム。
【請求項50】
命令を含むコンピュータ可読媒体であって、前記命令は、コンピュータによって実行されると、前記コンピュータに請求項1から48のいずれかに記載の方法を実施させる、コンピュータ可読媒体。
【請求項51】
遺伝子データを分析するための装置であって、プロセッサを備え、前記プロセッサが、
対象個体について目的の表現型または目的の表現型組合せのポリジェニック・リスク・スコアを受け取ることと、
前記対象個体の個体遺伝子データを受け取ることであって、前記遺伝子データが、前記対象個体の祖先に関する情報を有する、個体遺伝子データを受け取ることと、
前記個体遺伝子データを使用して祖先空間内で個体位置を決定することと、
前記ポリジェニック・リスク・スコアおよび前記個体位置を使用して、前記目的の表現型または目的の表現型組合せについて、前記対象個体のリスクへの遺伝的寄与を計算することと
を行うように構成されている、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生体に関する遺伝子データおよび表現型データを分析して生体に関する情報を得ることに関し、詳細には、生体の祖先に基づいて、目的の表現型または目的の表現型組合せを有する生体のリスクの向上した推定を可能にするものである。
【背景技術】
【0002】
ポリジェニック・リスク・スコア(polygenic risk score:PRS)は、生体が遺伝的に受け継いだDNAが発現し得る表現型への、DNAの寄与を定量的に要約したものである。PRSは、対象となる表現型に(直接または間接的に)関連するすべてのDNA変異体をその算出に含める場合もあれば、または、その構成部分が生体の生態(細胞、組織、他の生物学的単位、機構または作用を含む)の特定の側面により関連すれば、構成部分を使用する場合もある。PRSは、生体の過去、現在、および将来の生態の諸側面を推測するために、直接、または生体に関する複数の測定結果もしくは記録の一部として、使用することができる。
【0003】
PRSは、疾患予防、層化、および診断のための手段として注目を集めている。人間の健康および医療を向上させる文脈で、PRSは幅広い実際的用途を有し、それらには、これらに限定されないが、ある疾患または表現型を発症するリスクの予測、ある表現型の発現年齢の予測、疾患重篤度の予測、疾患亜型の予測、治療に対する反応の予測、個体への適切なスクリーニング戦略の選択、適切な薬物介入の選択、および、他の予測アルゴリズムの事前確率の設定が含まれる。
【0004】
PRSは、他の高次元の入力データ(例えば撮像)からの予測または分類を行うための人工知能および機械学習手法の利用において、入力源としての直接的な用途を有し得る。それらを使用して、例えば非遺伝子データに基づいて予測測定結果を特定するように、それらアルゴリズムを訓練するのを助けることができる。個体に関する予測的記述を行うのに有用性を有するのに加えて、それらは、多数の個体のPRSを計算してから、そのPRSに基づいて個体をグループ化することにより、これらに限定されないが上記の用途を含む、個体のコホートを特定するために使用することもできる。
【0005】
PRSは、臨床試験のための個体の選択を支援することもでき、例えば、関連する疾患または表現型を発症する可能性がより高い個体を採用することによって試験設計を最適化し、それにより新しい治療法の有効性の査定を向上させる。PRSは、それが計算される個体に関する情報を持っているが、その血縁者(個体が遺伝的に受け継いだDNAの一部を共有している)に関する情報も持っている。個体のDNAがその表現型に与える影響に関する情報は、DNA変異体の特定の組合せを持っていることの潜在的な影響の適切な査定から導出することができる。
【0006】
以下では、遺伝子関連研究(genetic association studies:GAS)に由来する、近年の豊富な情報の分析に着目する。これらの研究は、表現型の遺伝学的根拠へのDNA変異体の潜在的な寄与を体系的に査定する。2000年代半ば以降、GAS(一般にはゲノムワイド関連研究:GWAS(genome-wide association studies)、または単一の変異体もしくはゲノムのある領域の変異体を対象とする関連研究、すなわち、ゲノムの特定の領域に限定されたGWAS)が、数百万の個体における何千もの(主としてヒトの)表現型に行われており、遺伝子型と表現型との間の数十億個の潜在的なリンクを生成している。それにより得られる生データは、多くの場合、その後簡略化されて要約統計データを得る。GAS要約統計データは、各遺伝子変異体(帰属されたものであれ観察されたものであれ)につき、GASの表現型に対する遺伝子変異体の推測効果量(effect size)と、推測効果量の標準誤差とから構成される。他の場合には、ある調査における個体の完全な遺伝的プロファイルと、それら個体の表現型に関する情報とから構成される個体レベルのデータが直接入手できる場合もある。しかし、個体レベルのデータは、個体のデータのプライバシーに対する要件のために、通例はあまり広く入手することができない。
【0007】
PRSは、冠動脈疾患や乳がんなどの疾患の個体固有の相対リスクを提供するために、多数の適切に重み付けされた遺伝子変異体を集約する。しかし、重み付けされた遺伝子変異体から相対リスクへのマッピングは簡単ではない。1つの理由は、PRSを生成するために使用される分析戦略が、通例は未較正のスコアを生じること、すなわち、PRSはそれが導出された母集団においても容易に解釈可能でないことである。さらに、各遺伝子変異体に関連する効果量は祖先の関数として変動するため、PRSの解釈は母集団間でばらつく。したがって、集約された「PRSの単位当たりの効果量」は、ヒトの母集団間で一定ではない。
【0008】
これらの制約を踏まえて、1つの実際的な選択肢は、多様なヒトの母集団を表すコホートの集まりの中でPRSを調査するものである。そして、それらコホートの各々におけるPRSの効果量を推定することができる。しかし、該当するデータ(遺伝子データと結果データを組み合わせる)が存在しない場合があり、またはすべての個体が明確に定義された祖先グループにきれいに当てはまるとは限らないため、これは常に可能という訳ではない。混成祖先の個体、すなわち、小さいまたは十分に研究されていない母集団に由来する個体は、しばしば、少数の一般に使用される祖先グループに当てはまらない。
【0009】
課題は外挿であり、つまり、特定の母集団からの限られた症例対照または予見的なデータセットに基づいて、PRS効果量を、異なる母集団に由来するかまたは訓練セットの特徴に正確に当てはまらないかのいずれかである個体へと外挿する必要がある。PRSおよび相対リスクを計算するための既存の方法は、これらの要因を十分に考慮せず、大きな割合の個体に不正確であるスコアにつながる。
【発明の概要】
【0010】
これらおよびその他の制限に対処するために、本発明の第1の態様によれば、遺伝子データを分析するコンピュータ実装方法が提供され、この方法は、対象個体について目的の表現型または目的の表現型組合せのポリジェニック・リスク・スコアを受け取ることと、対象個体の個体遺伝子データを受け取ることであって、遺伝子データが、対象個体の祖先に関する情報を有する、個体遺伝子データを受け取ることと、個体遺伝子データを使用して祖先空間内で個体位置を決定することと、ポリジェニック・リスク・スコアおよび個体位置を使用して、目的の表現型または目的の表現型組合せについて、対象個体のリスクへの遺伝的寄与を計算することと、を含む。
【0011】
祖先空間内での個体の位置を使用してリスクへの遺伝的寄与を決定することは、方法が、少数の所定の祖先の1つにうまく当てはまらない個体を加味することを可能にする。これは、リスク推定と、遺伝的リスクに基づいて適切な介入を行う能力とを向上させることができる。
【0012】
一部の実施形態では、個体位置が、順序付け可能な変数の組合せによって表される。順序付け可能な変数を使用することにより、位置を互いに対して一貫性をもってランク付けまたは配置して、それらが特定の予め定められた祖先にどれほど類似しているかを推論することができる。
【0013】
一部の実施形態では、個体位置が、連続変数または擬似連続変数の組合せによって表される。連続変数または擬似連続変数を使用することは、位置をランク付けし、比較する能力をさらに向上させる。
【0014】
一部の実施形態では、個体位置が、複数の祖先のうちの1つまたは重み付けされた組合せへの割り当てを含む。祖先の重み付けされた組合せを使用することは、混成祖先の個体について向上した予測を可能にする。
【0015】
一部の実施形態では、遺伝的寄与が、個体位置に対する連続的または擬似連続的な依存性を有する。遺伝的寄与が位置と共に少なくとも擬似連続的に変動できるようにすることは、混成祖先の個体に適切なリスクを割り当てることができる分解能を向上させる。
【0016】
一部の実施形態では、遺伝的寄与が、祖先空間の各軸に対応する部分寄与の合計を含み、各部分寄与が、祖先空間のそれぞれの軸に沿った個体位置の座標を使用して計算される。これは、祖先空間の各軸に相対的に位置を考慮することにより、遺伝的寄与が位置と共に変動する様態に最大の柔軟性を可能にする。
【0017】
一部の実施形態では、祖先空間が非等方性であり、それにより、個体位置のそれぞれの座標に対する各部分寄与の依存性が部分寄与間で異なる。これは、遺伝的寄与が祖先空間内で位置と共に変動する態様の最大の柔軟性をさらに向上させる。
【0018】
一部の実施形態では、部分寄与の少なくとも2つが、共有される事前分布によって関係付けられる、個体位置のそれぞれの座標に対する依存性を有する。異なる軸における依存性を関係付けることは、依存性を決定する際にオーバーフィッティングの傾向を低減することができる制約を導入する。
【0019】
一部の実施形態では、共有される事前分布は、少なくとも2つの部分寄与の依存性が同じ分布からサンプリングされるように指定される。これは、異なる軸における変動が類似する関数形式を有するが、その固有の値が変動する可能性があることが分かっている場合に有利であり得る。
【0020】
一部の実施形態では、共有される事前分布が、複数の訓練個体からの訓練データおよび1つまたは複数の所定のハイパーパラメータを使用して決定される。ハイパーパラメータの使用は、利用可能な情報に応じて、フィッティングに対する制約の強さを変動させることを可能にする。
【0021】
一部の実施形態では、各部分寄与が、ポリジェニック・リスク・スコアと、祖先空間のそれぞれの軸に沿った個体位置の座標との積を含む。これは、PRSと祖先空間内の座標とを組み合わせる簡単で効果的な方法である。
【0022】
一部の実施形態では、遺伝的寄与を計算することが、個体位置と祖先空間内の参照位置との間の祖先空間内での距離を計算し、その距離を使用して遺伝的寄与を計算することを含む。単一の距離に依存するように変動を低減することにより、祖先空間の既知の領域の外側に外挿するリスクが低減される。
【0023】
一部の実施形態では、参照位置が、ポリジェニック・リスク・スコアの計算に使用される係数を訓練するために使用された祖先の祖先空間内での位置である。これは、PRSが最も大きい効果量を有する可能性が高い点を表すので、一般には適切な参照点であり、任意の方向に減少していく可能性が高い。
【0024】
一部の実施形態では、祖先空間が、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義され、遺伝的寄与を計算することが、距離を計算する前に、参照遺伝子データ中のそれぞれの軸によって説明される分散を使用して、祖先空間の各軸をスケーリングすることを含む。このスケーリングは、軸が説明する分散の観点から最も有意な軸が、距離に最も寄与するようになり、それにより、それらをより重く重み付けすることを意味する。
【0025】
一部の実施形態では、上記距離が、祖先空間内のユークリッド距離である。ユークリッド距離は、簡単で容易に計算できる距離の尺度である。
【0026】
一部の実施形態では、遺伝的寄与が、ポリジェニック・リスク・スコアと距離との積を含む。これは、PRSと祖先空間内の距離とを組み合わせる簡単で効果的な方法である。
【0027】
一部の実施形態では、遺伝的寄与を計算することが、個体位置に対する線形の依存性を使用することを含む。線形の依存性は、一貫した挙動で依存性をモデル化するための簡単な方法を提供する。
【0028】
一部の実施形態では、遺伝的寄与を計算することが、個体位置に対する非線形の依存性を使用することを含む。非線形の依存性は、ある状況では適当であることもある、より複雑な依存性を可能にする。
【0029】
一部の実施形態では、非線形の依存性が、正則化された関数を含む。正則化された関数を使用することは、依存性が妥当で滑らかな形状を有することを保証し、特にデータが疎な場合にオーバーフィッティングを回避する助けとなる。例えば、非線形の依存性が、ペナルティ付きBスプラインを含む。
【0030】
一部の実施形態では、非線形の依存性は、ベイズ推論を使用して遺伝的寄与を計算するための事前分布としてガウス過程を使用して決定される。ガウス過程は、特に遺伝学の場合などデータが未知の関数依存性を有する確率的過程から得られる場合に、非線形の依存性を決定するのに適する。
【0031】
一部の実施形態では、ガウス過程が、ゼロの平均値ベクトルを有する。これは、ガウス過程の分析を単純化すると共に、また平均値の効果を後で追加することができるため、方法の一般性に影響しない。
【0032】
一部の実施形態では、ガウス過程が、対象個体のリスクへの遺伝的寄与の事前推定に対応する平均値ベクトルを有する。これは、方法が、様々な母集団のリスクに関する知識を加味するために、祖先空間の領域におけるオッズ比を参照遺伝子データから離れるようにコントロールすることを可能にする。
【0033】
一部の実施形態では、ガウス過程のカーネル関数は停留関数である。この選択は、絶対値が異なる場合であっても一般に予想される、遺伝的寄与の変動が祖先空間の異なる部分で似たものになることを保証する助けとなる。
【0034】
一部の実施形態では、ガウス過程のカーネル関数が、サンプル間の類似度が低下するのに伴い、ゼロまで減衰する。これは、参照遺伝子データが比較的疎な祖先空間の領域で遺伝的寄与が歪まないことを保証する助けとなる。例えば、一部の実施形態では、カーネル関数が、放射基底関数または有理二次共分散関数である。
【0035】
一部の実施形態では、ベイズ推論のための事後分布が、ガウス過程と、複数の異なる祖先を有する複数の訓練個体からの訓練データとを使用して決定される。これは、事後分布を、使用されている特定のデータセットに関連付ける。
【0036】
一部の実施形態では、事後分布を決定することが、事後分布を正規分布として近似することを含む。一部の実装は非正規分布となる場合があるため、これは扱いやすさを維持するのを助ける。
【0037】
一部の実施形態では、ガウス過程のカーネル関数が、1つまたは複数のハイパーパラメータに依存する。ハイパーパラメータを使用してカーネル関数をコントロールすることは、オーバーフィッティングを防ぎ、祖先空間において距離の有意な概念を強制する。例えば、一部の実施形態では、ハイパーパラメータが、ポリジェニック・リスク・スコア、個体位置、およびポリジェニック・リスク・スコアと位置との間の相互作用の各々に関連するハイパーパラメータを含む。
【0038】
一部の実施形態では、遺伝的寄与が、個体位置に依存しないポリジェニック・リスク・スコアを使用して計算される、祖先に依存しない成分を含む。これは、祖先空間内の個体位置に起因する変動に関係なく、PRSがある程度リスクに寄与することを可能にする。
【0039】
一部の実施形態では、遺伝的寄与が、ポリジェニック・リスク・スコアに依存しない個体位置に基づいて計算される、祖先に依存する成分を含む。これは、リスクが、他の個体の遺伝的変動に関係なく、祖先に起因する増大したリスクを加味することを可能にする。
【0040】
一部の実施形態では、祖先空間が、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義される。一部の実施形態では、各参照個体が、複数の祖先の1つに割り当てられる。異なる祖先を有する個体からの参照遺伝子データを使用することは、方法が、祖先空間および個体位置を決定する際に幅広い様々な祖先を加味することを可能にする。
【0041】
一部の実施形態では、祖先空間の座標系が、参照遺伝子データに次元削減を適用することによって決定される。これは、遺伝子データなどの高次元データを、よりコンパクトで効率的な形で特徴付けるための効率的な技法である。例えば、一部の実施形態では、次元削減が、主成分分析または独立成分分析を含む。
【0042】
一部の実施形態では、次元削減が、祖先空間を祖先の有限の集合に離散化することを含み、個体位置は、祖先の有限の集合の各祖先についての連続的または擬似連続的な所属割合を含む。これは、個体位置を、定義された祖先グループの観点から表す簡単な方法を提供する。
【0043】
一部の実施形態では、祖先空間の座標系が、祖先空間によって説明される参照遺伝子データの分散を最大にするように選択される。これは、遺伝的寄与が、祖先に起因する変動を可能な限り加味することを保証する。
【0044】
一部の実施形態では、祖先空間が、個体遺伝子データよりも低い次元数を有し、個体位置を決定することが、個体遺伝子データを祖先空間に投影することを含む。これは、新しい個体についての遺伝的寄与が計算されることを可能にする。
【0045】
一部の実施形態では、個体位置およびポリジェニック・リスク・スコアに対する遺伝的寄与の依存性が、複数の異なる祖先を有する複数の訓練個体からの訓練データを使用して決定され、訓練データは、各訓練個体につき、遺伝子データと、その訓練個体が目的の表現型または表現型組合せを有するかどうかとを含む。訓練データは、様々な研究から利用可能な具体的な情報に応じて、参照遺伝子データと同じであってもそうでなくともよい。
【0046】
一部の実施形態では、訓練データが、訓練個体の各々につき、1つまたは複数の非遺伝的共変量に関する情報を有するデータをさらに含み、遺伝的寄与は、非遺伝的共変量の存在下で結合推定され、方法は、対象個体の個体共変量データを受け取ることをさらに含み、個体共変量データは、対象個体についての追加的な非遺伝的共変量に関する情報を有する。これは、遺伝的寄与が、遺伝的寄与に間接的に影響し得る、それ自体が祖先と相関する可能性のある他の因子を考慮することを可能にする。例えば、一部の実施形態では、非遺伝的共変量が、体重、身長、挙動特性、医学的形質、および血液または尿に基づく測定値などのその他のバイオマーカ、の1つまたは複数を含む。
【0047】
一部の実施形態では、方法は、リスクへの遺伝的寄与を出力することをさらに含む。これは、遺伝的寄与を下流で利用することを可能にする。
【0048】
一部の実施形態では、リスクが、平均の推定遺伝的寄与を有する個体に対する相対リスクであり、方法は、相対リスクへの遺伝的寄与および非遺伝的寄与を使用して、目的の表現型または目的の表現型組合せについての対象個体の相対リスクを計算することと、相対リスクを出力することとをさらに含む。相対リスクは、個体がある表現型を発現する見込みとより直接的に相関付けることのできる尺度である。
【0049】
一部の実施形態では、相対リスクを計算することが、損失関数を使用して、対象個体の相対リスクの分布から対象個体の相対リスクの値を決定することを含む。損失関数は、分布から予想値としての単一の値の適切な選択を決定する。例えば、一部の実施形態では、損失関数が、平均二乗誤差関数または非対称指数損失関数である。
【0050】
一部の実施形態では、方法は、いずれかの先行請求項の方法によって計算された遺伝的寄与を使用して、目的の表現型または目的の表現型組合せについての対象個体の絶対リスクを計算することと、絶対リスクを出力することとをさらに含む。絶対リスクは、個体が特定の表現型を発現する見込みを表すための別の有用な尺度である。
【0051】
本発明の第2の態様によれば、遺伝子データを分析するための装置が提供され、この装置はプロセッサを備え、プロセッサは、対象個体について目的の表現型または目的の表現型組合せのポリジェニック・リスク・スコアを受け取ることと、対象個体の個体遺伝子データを受け取ることであって、遺伝子データが、対象個体の祖先に関する情報を有する、個体遺伝子データを受け取ることと、個体遺伝子データを使用して祖先空間内で個体位置を決定することと、ポリジェニック・リスク・スコアおよび個体位置を使用して、目的の表現型または目的の表現型組合せについて、対象個体のリスクへの遺伝的寄与を計算することとを行うように構成されている。プロセッサは、上記のコンピュータ実装方法に関して説明されたものと同様の動作を実施するようにさらに構成されてよい。
【0052】
本発明はまた、コンピュータに上記方法を実施させる命令を含むコンピュータプログラム、または、コンピュータによって実行されると、コンピュータに上記方法を実施させる命令を含むコンピュータ可読媒体として具現化されてよい。
【0053】
本発明の実施形態は、添付図面を参照して単なる例としてさらに説明される。
【図面の簡単な説明】
【0054】
図1】従来技術の方法によるPRSの単位当たりの推定オッズ比を示す図である。
図2】本発明の一実施形態による方法のフローチャートである。
図3】祖先空間に投影された、南アジア個体を欠く訓練データを示す図である。
図4図3の訓練データを使用した、遺伝的寄与の線形の絶対位置モデルの下での様々な祖先についての効果量推定を示す図である。
図5図4と同じモデルおよび条件の下での遺伝的寄与における様々な項についての最大尤度推定を示す図である。
図6】遺伝的寄与が祖先空間のより少ない次元を使用する、図4と同様の効果量推定を示す図である。
図7図3図6と同じ訓練データについての、遺伝的寄与の線形の相対位置モデルの下での様々な祖先のPRSの単位当たりの推定オッズ比を示す図である。
図8図7と同じモデルの下での様々な祖先についての効果量推定を示す図である。
図9図3図8と同じ訓練データについての、遺伝的寄与の階層的な線形の絶対位置モデルの下での様々な祖先についての効果量推定を示す図である。
図10図3図9と同じ訓練データについての、遺伝的寄与の非線形の絶対位置モデルの下での様々な祖先についての効果量推定を示す図である。
図11図2図7と同じ訓練データについての、遺伝的寄与のガウス過程による相対位置モデルの下での様々な祖先についての効果量推定を示す図である。
【発明を実施するための形態】
【0055】
先行技術
上述したように、PRSの形態の重み付けされた遺伝子変異体から個体の相対リスクへのマッピングは簡単ではない。課題は外挿であり、つまり、特定の母集団からの限られた症例対照または予見的なデータセットに基づいて、PRS効果量を、異なる母集団に由来するかまたは訓練セットの特徴に正確に当てはまらないかのいずれかである個体へと外挿する必要がある。
【0056】
最も単純な手法は、標準化されたポリジェニック・リスク・スコア(PRS)の効果量がすべての母集団にわたって一定である、またはそれと等価に、標準化されたPRSによって説明される表現型の分散が祖先に依存しない、と仮定することである。これは明らかに誤っているが、限られたデータが利用可能な場合には、適当な開始点を提供し得る。この結果、次のモデルが得られる:
~Bernoulli(π) (1)
logit(π)=β+βPRSPRS,i
ここで、Yは、個体iがある疾患を有するか(1)それとも有さないか(0)を示すランダム変数であり、πは、個体iが該当する確率であり、XPRS,iは個体iのPRSであり、βPRSはPRSの効果量であり、βは一定の係数である。他の共変量が含められ得るが、ここでは分かりやすさのために省かれている。いくつかの既存の手法は、主成分(PC(primary component)、下記でさらに詳細に説明される)またはこのモデルにおける共変量としてのヨーロッパ祖先の割合を含めるが、PRSとの相互作用はない。したがって、これは依然として単一のPRS効果量を生じる(Amariuta, T., Ishigaki, K., Sugishita, H. et al. 2020 Methods, Eq. 2, Fritsche et al. 2021 Methods, Eq. 1 and Bitarello and Mathieson 2021)。
【0057】
現行技術に相当する、第2の、そしてより適当な手法は、各個体を所定の祖先の集まりの1つに割り当て、各祖先において式(1)のモデルをフィッティングすることからなる。この結果、次のモデルが得られる:
【0058】
【数1】
ここで、
【0059】
【数2】
は、母集団kのPRS効果量であり、一定の係数も母集団間でβ0,kとして変動することを許される。
【0060】
この手法が図1に視覚化される。図1は、1,000人ゲノムのデータセットによって定義される最初の2つの主成分(PC)に投影され、PRSの1標準偏差に関連する推定オッズ比(オッズ比:OR)によって色付けされた、試験データセット中のサンプルを示す。図1に示すデータの場合、PRSは1の標準分布を有するように標準化されるので、PRSの1標準偏差当たりのオッズ比は、単純にモデル(2)におけるe β PRS kに対応する。
【0061】
図1は、1000人ゲノムのデータセットによって定義されるPCを使用した、祖先空間への個体の投影を示す。祖先空間へのこの種の投影については、本発明と関係して下記でさらに説明するが、既存の手法では通例行われない。図1に示す投影は、後に説明される本発明の実施形態と容易に比較できる形式で、既存の手法を実証する役割を果たす。
【0062】
示されるように、各個体は、5つの事前に定められた祖先グループ、すなわち、ヨーロッパ(EUR)、南アジア(SAS)、アメリカ先住民(AMR_NAT)、東アジア(EAS)、およびアフリカ(AFR_SS)、の1つに厳密に割り当てられる(またはハードコールされる(hard-called))。言い換えると、各個体は、何らかの尺度によってその個体が最も似ている祖先グループに単純に割り当てられる。オッズ比は、ハードコールされたグループごとに個別に推定され、この結果、ヨーロッパと東アジアおよびヨーロッパとアフリカとの間の祖先の連続的クライン(cline)に沿って不連続性が生じる。同様の不連続性が、PC3およびPC4によって定められる軸に沿って南アジアとアメリカ先住民へのクラインに沿って存在するが、これはここでは図示していない。赤い点は、混合サンプルの除去とそれに続くクラスタ割り当ての後にそのグループに割り当てられたサンプルの平均値によって定められる、1,000人ゲノム中の5つの超母集団の各々の中のサンプルのクラスタ中心を表す。
【0063】
ある以前の研究が、理論的根拠に基づいて予測されていたように、祖先空間内で距離を求めて予測性能の減衰を実証した(Priveet al. 2021)。しかし、祖先空間内の距離の使用は、PRS効果量の有意性と関係付けられておらず、または祖先に基づいてリスクスコアを補正するために使用される。一部の研究は、遺伝的距離と共にPRSの精度が低下する度合いを定量化することを試みたが(Prive et al. 2021)、この現象を説明する方法論は全く開発されていない。
【0064】
相対効果量を不正確に推定することは、遺伝的性質の役割を過剰推定するか過小推定するかのいずれかである未較正のデータセットを生む。これは、予防または診断措置が、該当しない個体に適用されかねないため、有害である可能性がある。標準化されたPRSの正しい効果量を推定するには、個体の遺伝的性質を適切に重み付けすることが必要であり、このスケールによる効果量の解釈は、PRSの1標準偏差の変化に伴う対数オッズの変化である。本発明はこれらの問題に対処する。すべての個体を別個の均質なグループにグループ化することから離れるために、本発明は、代わりに、PRS効果量が祖先空間内で個体の位置と共に変動することを許し、この祖先の連続的な定義を使用するモデルを構築する。
【0065】
本発明の紹介
図2は、遺伝子データを分析するコンピュータ実装方法の一実施形態を示す。方法は、対象個体について目的の表現型または目的の表現型組合せのポリジェニック・リスク・スコア(PRS)10を受け取ることS10を含む。上述したように、PRSは、特定の表現型または表現型組合せに関するリスクに対する、個体の遺伝子変異体の影響を定量的に要約したものである。PRS10は、任意の好適な方法を使用して計算されてよい。PRS10の計算は、例えば同じコンピュータシステムによって、本方法の直前に行われてよい。代替として、PRS10は、別の時に他の場所で計算され、本方法を実施するシステムに送信されてよい。PRS10は、任意の表現型に関係してよい。例えば、目的の表現型は、心臓疾患、がん、糖尿病、または任意の他の関心対象の疾患などの疾患であり得る。
【0066】
方法は、対象個体の個体遺伝子データ20を受け取るステップS20をさらに含む。個体遺伝子データ20は、対象個体の祖先に関する情報を有する。例えば、個体遺伝子データ20は、個体の祖先を示すことが知られている複数の遺伝子変異体に関するデータを含む場合がある。しかし、個体遺伝子データ20が、目的の表現型または目的の表現型組合せに関する情報を有する遺伝子変異体に関する情報を含むことは必要ではない。目的の表現型に直接関係する個体の遺伝的性質に関する情報は、すでにPRS10に符号化されている。
【0067】
祖先空間
方法は、個体遺伝子データを使用して祖先空間内で個体位置を決定することS30をさらに含む。祖先空間は、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義されてよい。例えば、参照遺伝子データは、GWAS、または図1との関連で言及された1000人ゲノムデータベースなどの公共利用可能なデータベースから導出されてよい。参照遺伝子データは、参照個体の祖先に関する情報を有する。例えば、参照遺伝子データは、少なくとも、個体の祖先を示すことが知られている複数の遺伝子変異体に関する、各参照個体のデータを含んでよい。
【0068】
参照遺伝子データが情報を有する対象の複数の遺伝子変異体は、個体遺伝子データが情報を有する対象の複数の遺伝子変異体と同じであるかまたは実質的に重複していてよい(例えば、変異体のうち少なくとも50%が2つの集団間で同じである)。個体に使用されるのと同じ遺伝子変異体を使用して祖先空間を定義することにより、空間内での個体の配置の精度を向上させることができる。
【0069】
各参照個体は、複数の祖先の1つに割り当てられてよい。例えば、参照個体は、先に述べた予め定義された祖先グループ、すなわち、ヨーロッパ(EUR)、南アジア(SAS)、アメリカ先住民(AMR_NAT)、東アジア(EAS)、およびアフリカ(AFR_SS)、の1つに割り当てられてよい。使用される参照遺伝子データに応じて、より多いまたはより少ない予め定められた祖先グループが含められてよい。このようにして参照個体をラベル付けすることは、各祖先グループに関連する祖先空間内の領域を定めるのを助ける。代替として、参照個体のサブセットのみが、複数の祖先の1つに割り当てられてもよい。これは、参照遺伝子データが予め定められた祖先グループのどれにもよく一致しない混合した個体を含んでいる場合に好ましいことがある。
【0070】
可能な限り多くの参照個体からの、そして幅広い祖先を有する個体からのデータを参照遺伝子データに含めることが好ましい。これは、祖先空間をより好適に定義するのを助け、対象個体に関する内挿が祖先空間のより大きい領域にわたってより確実に行われることを可能にする。
【0071】
一部の実施形態では、祖先空間の座標系が、参照遺伝子データに次元削減を適用することによって決定される。ヒトの遺伝学では、次元削減の統計方法論を使用して、非常に高次元の遺伝空間(数百万の変異体がある)を、より少ない数の次元を有する部分空間にマッピングすることが知られている。この部分空間が祖先空間である。本発明は主として、祖先空間内の位置を使用してPRSの効果量を補正することに関する。しかし、祖先空間の選択と、それがどのように導出されるかは、PRS効果量を推定するために使用されるモデルに対して下流の影響を及ぼす。
【0072】
一部の実施形態では、次元削減は、祖先空間を祖先の有限の集合に離散化することを含んでよく、個体位置は、祖先の有限の集合の各祖先についての連続的または擬似連続的な所属割合を含む。例えば、個体位置は、複数の祖先のうちの1つまたは重み付けされた組合せへの割り当てを含んでよい。個体位置が、個体について異なる別個の祖先の混合を示せるようにすることにより、図1に説明される先行技術の「ハードコール」手法と比べて、個体の祖先のより正確な推定を得ることができる。これはひいては、対象個体のPRSの効果量のより正確な推定を可能にする。
【0073】
祖先空間は、通例、参照遺伝子データをk次元に次元数削減することを通じて近似される。通例は、線形の次元削減技術が使用される。例えば、次元削減は、主成分分析(primary component analysis:PCA)、独立成分分析、非負行列分解、または因子分析を含んでよい。新しいサンプル(すなわち、対象個体からの個体遺伝子データ)を、祖先空間である次元削減された部分空間に投影することが可能である限り、非線形の次元削減技術を使用することも可能である。例えば、祖先空間は、主成分分析(PCA)を行い、最初のk個の主成分(PC)を取ることによって定義されてよい。通例、祖先空間は、2、3、または4次元を有し得る。しかし、例えば5、6、7、8、9、10、または10よりも多い次元を有する、より高次元の祖先空間が使用されてもよい。
【0074】
本出願の残りにおける例には、最初の4つのPCによって占められる線形の部分空間が使用される。
【0075】
一部の実施形態では、祖先空間の座標系は、祖先空間によって説明される参照遺伝子データの分散を最大にするように選択される。例えば、次元削減がPCAを含む場合、これは、参照遺伝子データ中で最も大きい分散を説明するPCを選択することによって実現されてよい。
【0076】
この選択は、祖先空間の軸が、祖先の違いを反映するばらつきに最も良く対応することを意味する。例えば、参照遺伝子データが各参照個体の複数の遺伝子変異体に関するデータを含む場合、参照遺伝子データの分散は、個体の祖先を示すことが知られている遺伝子変異体間の、またはデータセット中の祖先グループ間で変動すると見られる変異体間の分散であり得る。
【0077】
一部の実施形態では、祖先空間は、個体遺伝子データよりも低い次元数を有し、個体位置を決定することは、個体遺伝子データを祖先空間に投影することを含む。祖先空間が決定されたら、個体遺伝子データを祖先空間に投影することによって個体位置を決定することができる。個体位置は、様々な方法で祖先空間内に表されてよい。一部の実施形態では、個体位置は、順序付け可能な変数、擬似連続変数、または連続変数の組合せによって表されてよい。例えば、個体位置は、祖先空間の各軸または次元に対応する、順序付け可能な変数、擬似連続変数、または連続変数を含んでよい。変数の種類は、祖先空間のすべての次元に同じであっても、または祖先空間の次元間で異なってもよい。
【0078】
PRS10が、遺伝学的に定義された祖先空間上での位置を条件とする相対リスクと理解されると、有用であることが多い。PRSは、祖先空間内のある位置を条件とするそのPRSの期待値(平均値)が0である場合、「中心にある(centered)」と呼ばれる。(中心にある)PRSは、祖先空間内のある位置を条件とするそのPRSの分散、または母集団ラベルが1である場合、「標準化された」と呼ばれる。必須ではないが、PRSが個体の相対リスクだけを反映し、祖先グループ間の違いは捉えないように、中心にありかつ標準化されたPRSが使用されることが好ましい。
【0079】
中心にありかつ標準化されたPRSは、中心極限定理のために、PCマップ(すなわち、祖先空間)の任意の点において平均値が0および分散が1の正規分布とみなすことができる。異なるが関係する技術を使用してこの標準化を得ることができるが、それらは本文書の対象ではない。
【0080】
遺伝的寄与の計算
方法は、ポリジェニック・リスク・スコア10および個体位置を使用して、目的の表現型または目的の表現型組合せについて、対象個体のリスクへの遺伝的寄与を計算することS40をさらに含む。
【0081】
祖先空間内の個体位置が決定されたら、個体位置と単位PRS当たりの効果量との間の関係を使用して、その個体のリスクへの遺伝的寄与を求めることができる。個体位置、PRS、およびリスクへの遺伝的寄与間の関係は、各種の方法でモデル化され得る。本方法では、2つの広い手法が検討される。上述したように、本出願における例は、1000人ゲノムプロジェクトのデータから定義される最初の4つのPCによって占められる線形の部分空間を使用して、祖先空間を定義する。
【0082】
第1の広い手法は、多次元の「絶対位置」手法である。そのような実施形態では、遺伝的寄与は、祖先空間の各軸に対応する部分寄与の合計を含み、各部分寄与は、祖先空間のそれぞれの軸に沿った個体位置の座標を使用して計算される。言い換えると、祖先空間の各軸または次元における個体位置の座標はすべて、個体位置に対する遺伝的寄与の依存性に独立して寄与する。個体位置およびPRSに対する遺伝的寄与の依存性を得るために、PRS、祖先空間の各軸(参照遺伝子データの切り捨て次元数削減によって定められる)およびそれらの相互作用を含むモデルをフィッティングして、リスクに対するPRSの効果量寄与の、祖先に固有の推定を得る。
【0083】
そのような「絶対位置」手法の実施形態では、祖先空間は非等方性であってよく、それにより、個体位置のそれぞれの座標に対する各部分寄与の依存性が部分寄与間で異なる。これは、祖先空間の異なる軸に沿った個体位置の変化によって表される、対象個体の祖先の異なるばらつきを説明するための遺伝的寄与の依存性のフィッティングに、最大の柔軟性を可能にする。
【0084】
第2の広い手法は、単次元の「相対位置」手法である。そのような実施形態では、遺伝的寄与を計算することは、個体位置と祖先空間内の参照位置との間の祖先空間内での距離を計算し、その距離を使用して遺伝的寄与を計算することを含む。言い換えると、遺伝的寄与は、個体位置と参照点との間の祖先空間における絶対距離にのみ依存する。例えば、距離は、祖先空間内のユークリッド距離であってよい。遺伝的寄与は、ポリジェニック・リスク・スコアと距離との積を含んでよい。
【0085】
このモデルの「相対位置」セットの中で、祖先空間の中の各サンプルの絶対位置が、遺伝的寄与の依存性に直接取り込まれるのではなく、対象個体の個体位置と何らかの参照点との間の相対距離が、多次元の祖先空間の軸の何らかの関数として使用される。一部の実施形態では、参照位置は、ポリジェニック・リスク・スコアの計算に使用される係数を訓練するために使用された祖先の祖先空間内での位置である。言い換えると、参照位置は、PRSを生成するために、すなわち、対象個体のPRSをその個体遺伝子データに基づいて得るために使用される係数の組を(例えば機械学習アルゴリズムにより)訓練するために、使用された訓練データの祖先に対応する。
【0086】
この「相対位置」手法は、PRSによって説明される分散は、PRSをフィッティングするために使用された母集団からの祖先距離と共に単調減衰するという観察を根拠とする。よって、この相対距離およびPRSとのその相互作用が、遺伝的寄与の依存性のモデルをフィッティングする際に共変量として含められる。これにより、PRSを訓練するために使用された母集団からの祖先距離と共に連続的に変動するPRS効果量を推定することが可能となる。
【0087】
一部の実施形態では、祖先空間は、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義され、遺伝的寄与を計算することは、距離を計算する前に、参照遺伝子データ中のそれぞれの軸によって説明される分散を使用して、祖先空間の各軸をスケーリングすることを含む。相対位置手法を使用する場合、祖先空間の軸をそれらが説明する分散によってスケーリングすることは、より有意な座標が相対位置においてより重く重み付けされることを保証する。
【0088】
第1の(多次元)手法または第2の(単次元)手法のいずれでも、遺伝的寄与は、個体位置に対する連続的または擬似連続的な依存性を有してよい。さらに、多次元手法および単次元手法のいずれにも、PRSおよび個体位置に対する遺伝的寄与の線形の依存性と非線形の依存性の両方が考慮される。具体的には、ロジスティック回帰に基づく推定が考慮され、これは、個体位置とオッズ比の対数の変化との間の線形の依存性とガウス過程および一般加法モデル(general additive model:GAM)を使用する祖先固有のPRSの非線形に基づく推定とを暗黙的に仮定する。
【0089】
線形モデル
一部の実施形態では、遺伝的寄与を計算することは、個体位置に対する線形の依存性を使用することを含む。上述したように、これは、個体位置を、多次元の絶対位置または単次元の相対位置のいずれかとして取り込むことができる。
【0090】
絶対位置
一部の実施形態では、遺伝的寄与は、祖先空間の各軸に対応する部分寄与の合計を含み、各部分寄与は、祖先空間のそれぞれの軸に沿った個体位置の座標を使用して計算される。祖先に依存する効果量PRSの推定を取り込む簡単な方法は、次のロジスティックモデルで、個体のPRS、個体位置(この例では主成分として)、およびそれらの相互作用を共変量として含めるものである。
【0091】
【数3】
ここで、上記と同様、Yは、個体iがある疾患を有するか(1)それとも有さないか(0)を示すランダム変数であり、πは個体iが該当する確率であり、XPRS,iは個体iのPRSであり、βPRSはPRS単独の効果量であり、βは一定の係数である。また、
【0092】
【数4】
は、PCjに対応する祖先空間次元(軸)についての個体iの個体位置の座標であり、
【0093】
【数5】
は、位置単独の効果量であり、
【0094】
【数6】
は、位置とPRSの組合せに対応する効果量である。各部分寄与は、ポリジェニック・リスク・スコアと、祖先空間のそれぞれの軸に沿った個体位置の座標との積を含む。
【0095】
このモデルでは、祖先情報がない場合の何らかの全効果量を仮定し、それが次いで祖先空間内の個体位置によって修正される。PRSが祖先位置に関係なく平均値0および分散1を有するように標準化されるとすると、次のように個体iの祖先固有のPRS効果量βPRS,iを評価することができ、これは、PRSの1標準偏差に相当する効果量である:
【0096】
【数7】
これは、上記のモデル(3)の式を以下に簡略化する
【0097】
【数8】
PC空間内のクラスタ中心の位置を与えられると、この式を使用して、上記のモデル(2)によって与えられる先行技術のカテゴリ手法と同等になることができる。モデル(3)を使用して、Wald統計を使用して本モデルの下でPRS効果量推定の信頼区間を評価することも平易である。
【0098】
【数9】
ここで、Vは共分散行列である。すると、以下となる
CI95%=βPRS,i±1.96×SE
【0099】
モデル(3)は単純で極めて高速であり、祖先カテゴリに離散的に割り当てをする先行技術の方法に対して連続的なまたは擬似連続的な拡張を提供する。潜在リスクの基礎となるモデルは線形なので、標準化されたPRSの1単位の解釈は、PRSスケール上の位置と共に変動することがない。
【0100】
この実施形態および他の実施形態において、個体位置およびポリジェニック・リスク・スコアに対する遺伝的寄与の依存性は、複数の異なる祖先を有する複数の訓練個体からの訓練データを使用して決定される。訓練データは、各訓練個体につき、遺伝子データと、その訓練個体が目的の表現型または表現型組合せを有するかどうかとを含む。
【0101】
PRSおよび個体位置に対する遺伝的寄与の依存性のモデルを訓練するために使用される訓練データは、祖先空間を定義するために使用される参照遺伝子データと異なってよいことは注目に値する。例えば、参照遺伝子データは、遺伝的祖先の決定に関連する遺伝子変異体に関する情報のみを含んでよく、モデルを訓練するためにも使用できるのに十分な、目的の表現型に関連するデータを含まなくてよい。一部の実施形態では、参照遺伝データと訓練データは同じであってよいが、これは常に当てはまるとは限らない。
【0102】
訓練データ中に表されない祖先空間の領域への外挿は、偽の結果につながることがあるため、外挿ではなく内挿するように注意しなければならない。超母集団(例えば、予め定められた祖先グループの1つに実質的に対応する)が、訓練データには存在しないが参照遺伝子データ(全世界の遺伝的多様性を捉えると想定される)に存在する場合は、単一のPCが、その超母集団をその他から区別する。さらに、他の超母集団からの残りの個体は、そのPCによって定義される祖先空間の軸に沿って大幅には異ならない可能性が高い。この結果、その単一のPCの効果量推定の不安定性が生じ、極端な推定値を生じやすくなる。
【0103】
例えば、図3は、祖先空間(1000人ゲノムからの最初の4つのPCによって定義される)のPC3/PC4面に投影された訓練データの例を示し、この訓練データはSAS祖先の個体を欠いている。図3の塗りつぶした赤い点およびラベルは、1000人ゲノムデータからの各超母集団の重心を示す。見て取れるように、この訓練は、SAS重心の周りのサンプルを全く欠いている。
【0104】
図4は、モデル(3)の下の1000人ゲノム中の5つの主要な超母集団各々の平均位置における個体についての効果量推定(単位PRS当たりの推定効果量)を示し、このモデルは、図3の訓練データを使用して訓練されている。効果量の推定は、ロジスティック回帰で最初の4つのPCを使用して超母集団ごとに報告され(青)、試験においてその母集団内の離散推定と比較される(赤)。離散推定は、すべての超母集団からの完全な試験データを祖先空間中のその位置に適する補正と共に使用するのではなく、その超母集団からの試験データだけを使用して計算される推定である。青い円(「1KG」)は、1000人ゲノム中の超母集団の中央値PC位置におけるオッズ比を指し、青い三角形(「経験に基づく」)は、所与の超母集団中の試験セットの個体の平均値PC位置におけるオッズ比を指す。青い四角形の点の推定(「グループ平均」)は、各超母集団ラベル中の訓練セット個体にわたる平均効果量推定を表す。訓練データにSASの個体が欠けているため、SASの位置における個体の推定効果量は、妥当に予想される1.0の最小限界よりも下である。
【0105】
図5は、相互作用係数(モデル(3)の
【0106】
【数10】
)の最大尤度に基づく推定(MLE)と、それに関連する95%信頼区間を示す。相互作用係数ごとに、MLEは黒の点として示され、それに関連する標準誤差がひげとして示される。予想されるように、PC3に沿った訓練データの不足(SASの超母集団が欠けているため)から、モデル(3)のロジスティックフィットにおける相互作用係数の標準誤差は大きい。これは、図5のPC3(それについては南アジアの個体が最も高い重み付けを有する)の大きい負の点推定に起因して、図4のSAS個体についての過度に低い効果量推定につながる。
【0107】
この種の不安定な推定を防ぐために、いくつかの変更が考えられ得る。1つの手法は、訓練データに存在しない超母集団を祖先空間内でその他の超母集団から分離するPCを判定し、そのPCをモデル(3)で共変量(およびPRSとのそれに対応する相互作用係数
【0108】
【数11】
)として除去するものである。しかし、この手法は、効果量を過剰推定するようにバイアスがかかる。何故ならば、モデルは、欠落している超母集団中の新しい対象個体は、祖先空間内で実際よりも訓練データの個体にはるかに近いと「考える」からである。
【0109】
この補正の手法は図6に示され、引き続き図3図5の先の例で使用されたものと同じデータを使用する。図6は、3つのみのPCによって定義される祖先空間内のモデル(3)の下での各超母集団の平均位置における個体の効果量推定を示す。効果量推定は、最初の4つのPCを用いるモデルで南アジアを残りの超母集団から区別するPCを除去した後に、モデル(3)に従ってロジスティック回帰で3つのPCを使用して、1000人ゲノム中の5つの主要な超母集団の各々について報告され(青)、試験においてその母集団内の離散推定と比較される(赤)。青い円(「1KG」)は、1000人ゲノム中の超母集団の中央値PC位置におけるオッズ比を指し、青い三角形(「経験に基づく」)は、所与の超母集団中の試験セット個体の平均値PC位置におけるオッズ比を指す。青い四角形の点の推定(「グループ平均」)は、各超母集団ラベル中の個体にわたる平均効果量推定を表す。見て取れるように、SASのオッズ比は、試験において超母集団中の離散推定よりも高い。
【0110】
代替の手法は、例えばLASSO、エラスティックネット、またはリッジ回帰を使用して、オーバーフィッティングを防ぐために遺伝的寄与の依存性のモデルに正則化項を導入するものである。
【0111】
相対位置
一部の実施形態では、遺伝的寄与を計算することは、個体位置と祖先空間内の参照位置との間の祖先空間内での距離を計算し、その距離を使用して遺伝的寄与を計算することを含む。この場合、効果量は、以下のモデルを使用して、祖先と共に連続的に変動するものとしてモデル化することができる:
~Bernoulli(π) (4)
logit(π)=β+βPRSPRS,i+βEUREUR,i+βPRS×EURPRS,iEUR,i
ここで、XEUR,iは、個体iから祖先空間内のEUR超母集団の中央値位置までの遺伝的距離である。以下では、この距離は、最初の4つのPCをそれらが参照遺伝子データ中で説明する分散によってスケーリングした後のユークリッド距離として定義される。言い換えると、祖先空間は、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義され、遺伝的寄与を計算することは、距離を計算する前に、参照遺伝子データ中のそれぞれの軸によって説明される分散を使用して祖先空間の各軸をスケーリングすることを含む。しかし、方法はこれらの選択に制限されず、より多いまたは少ないPCを含めることが可能であり、また非ユークリッド距離の尺度が使用され得る。
【0112】
図7は、図3図6で使用されたものと同じ例示的な訓練データを示す。ここでは、データは、PC1およびPC2によって定義される祖先空間内の面に投影される。各点は、訓練データ中の訓練個体であり、モデル(4)に従った各自の推定PRS効果量(「オッズ比」)によって色付けされている。本方法の線形モデルでは、図1に示される先行技術の手法と異なり、不連続性がない。
【0113】
モデル(4)の結果、図8に示されるように、試験セットのSASの効果量推定との近い一致が生じる。図8では、効果量推定は、モデル(4)に従ってロジスティック回帰で3つのPCを使用して1,000人ゲノム中の5つの主要な超母集団の各々について報告され、試験においてその母集団内の離散推定と比較される(赤)。青い円(「1KG」)は、1000人ゲノム中の超母集団の中央値PC位置におけるオッズ比を指し、青い三角形(「経験に基づく」)は、所与の超母集団中の試験セットの個体の平均値PC位置におけるオッズ比を指す。青い四角形の点の推定(「グループ平均」)は、各超母集団ラベル中の個体にわたる平均効果量推定を表す。
【0114】
しかし、試験推定は、コホート/環境の影響または小さいサンプルサイズ(AMR_NATの場合のように)に起因する大きな不確定性のために、異なり得る。EASの効果量の推定は、前の手法と比較してわずかに低く、AFR_SSはわずかに高く、これはこのモデルの低い柔軟性を反映する可能性があることに留意されたい。
【0115】
モデル(4)(および他の同様の「相対位置」モデル)は、個体位置がそれに沿って移動する祖先空間内の軸に関係なく、PRS効果量は、個体位置が変化するときに同じように変化すると仮定する。予測の判別/精度は祖先空間内で距離と共におよそ線形に低下することが以前に観察されているため、これは妥当な仮定である。加えて、個体を距離によってビニングする場合に、同様の効果量が観察される。
【0116】
モデル(4)は、多次元の線形モデルと同じ利点を有する。しかし、それは、祖先空間が遺伝的寄与のモデルの目的で実質的に単一次元に削減されるので、新しい個体が外挿範囲(すなわち訓練データによってカバーされる領域の外側)に位置を有する可能性がはるかに低い、という追加的な利益も有する。むしろ、このモデルは、個体訓練データ中の訓練個体間を内挿し、その結果、モデルパラメータ(すなわち、相互作用係数)のより安定した推定を生じる。これは、相互作用係数を効果的に正則化する。
【0117】
モデル(4)の制約は、多次元モデル(モデル(3)によって例示される)と比べて追加的な仮定を行うことである。これは、このモデルが、柔軟性がより低く、自由度がより少ないことを意味する。PRS効果量が祖先空間内であらゆる方向に同じように変化するという仮定が不正確であり得るという可能性がある。この場合、相対位置モデルは訓練データをアンダーフィッティングし、結果としてバイアスのかかった推定となる。加えて、相対位置モデルは、参照点の指定も必要とする。アフリカのサンプルが、モデルをフィッティングするために使用された訓練データに存在しない場合、このモデルには同様の外挿問題が存在するが、そのような訓練データの欠如に対して多次元モデルよりもロバストである可能性が高い。
【0118】
階層モデル
モデル(3)および(4)は、スペクトルの両極端と見ることができる。スペクトルの一方の端(モデル(3))では、祖先空間内の変動の軸同士の間で情報を共有することなく、各PC相互作用係数が推定される。この場合、祖先空間の各軸に対応する部分寄与は互いから独立している。スペクトルの他方の端(モデル(4))では、祖先空間の軸同士がまとまって単一の距離となる。事実上、この距離は、PCにまたがって情報を完全に共有する。
【0119】
これら2つの両極端の間は「階層」モデルであり、これは、異なる相互作用項およびPCにまたがって情報を共有し、同時に、それぞれに異なる係数を許容する柔軟性を保つ。これは、実質的に、1(「相対距離」モデルに相当)とPCの数(「絶対距離」モデルに相当)との中間にある、いくらかの自由度を提供する。そのような実施形態では、部分寄与の少なくとも2つが、共有される事前分布によって関係付けられる個体位置のそれぞれの座標に対する依存性を有する。これらのモデルは、相互作用係数にわたって共有される事前分布を使用する。これは、情報の共有を可能にし、またPRS効果量が各PCに対応する祖先空間内の軸に沿って同じように変化すべきであるという事前信念を表し、一方で、その変化が各軸に沿って全く同じでなくてよいことを許容する。一部の実施形態では、モデルは、各軸に沿った変化が互いとどれほど似ているかを訓練データから知ることができる。
【0120】
共有される事前分布によって部分寄与の依存性を関係付けることは、「個体」のグループ間で情報を共有する標準的な階層線形モデル(マルチレベルモデルとしても知られる)といくらかの類似性を有する。しかし、本事例では、モデルが連続的な祖先空間に移動しているので、情報は相互作用係数(それぞれの座標に対する部分寄与の依存性を表す)自体にわたって共有される。
【0121】
本階層モデルはまた、各相互作用係数が同じ数のデータ点を有するので、モデルが、相互作用係数のそれぞれ異なる不確定性に依拠して各相互作用係数をどれほど正則化すべきかを知らせるという点で、標準的な階層モデルと異なる。
【0122】
祖先空間を定義するために使用された参照遺伝子データには存在するが、訓練データには欠落している超母集団を区別するPCについて、推定は、勾配が学習される範囲がより小さいことに起因して、より不確実になる。その結果、これらの推定はより強く正則化される。
【0123】
このモデルは次のように表すことができる:
【0124】
【数12】
これは次を示唆し:
【0125】
【数13】
a、b、c、およびdは、ハイパーパラメータである。
【0126】
モデル(3)については、各部分寄与が、ポリジェニック・リスク・スコアと、祖先空間のそれぞれの軸に沿った個体位置の座標との積を含む。しかし、ここでは、部分寄与は共有される事前分布によって互いと関係付けられる。
【0127】
その他のモデルについて、図に与えられるデータおよび例は、最初の4つの主成分のみを使用するが、一般には任意の数が含められ得る。この数を参照遺伝子データ中の信号PCの総数まで増やすことは、分散パラメータσPRS×PCの学習を支援し得る。
【0128】
主成分の符号は任意であるため、これらは訓練データに対して調和される必要があり、そうでなければ、学習されたσPRS×PCは、例えば一方の係数が-0.1であり、他方が+0.1であるため、人為的に膨張されることになる。これは結果として、情報共有の損失と、十分な正則化の失敗につながり得る。調和は、すべての学習された相互作用係数の符号が同じになるように主成分の符号を変える(例えばマイナス1を掛けることにより)ことによって行われてよい。主成分の符号は任意であるため、すべてが一貫している限り、選択される符号(正または負)は問題とならない。
【0129】
【数14】
は分布からサンプリングされ、そのパラメータは、データ自体とそれらパラメータ自体に対する事前分布(ユーザによって設定されたハイパーパラメータを有する)との両方からの情報を使用して、それ自体が学習される。このようにして、共有される事前分布が部分寄与の依存性の定義に影響を与える。実際、共有される事前分布は、少なくとも2つの部分寄与の依存性が同じ分布からサンプリングされるように指定される。事後分布からの一方の組のサンプルは、対象個体または訓練個体ごとではなく、主成分ごとに取られる。その結果は、各
【0130】
【数15】
の事後分布となる。
【0131】
共有される事前分布は、複数の訓練個体からの訓練データおよび1つまたは複数の所定のハイパーパラメータを使用して決定される。相互作用係数は似ていなければならないという事前信念の強さは、ハイパーパラメータを変動させることによって変動させることができる。上記で例示した特定の実装では、ハイパーパラメータdを変動させることができ、dのより小さい値は、それらが似ているというより強い信念に対応する。
【0132】
相互作用係数
【0133】
【数16】
の事後分布から、オッズ比の分布を各訓練個体(または唯一の対象個体)に計算することができる。個体iについての各事後サンプルは、予測子(単位PRS当たりの効果量を得るにはXPRS,i=1)同士の積と、係数の事後推定との和、すなわち
【0134】
【数17】
である。よって、完全な分布はA・Bによって与えられ、Aは、N個の個体およびM個の予測子のN×M行列
【0135】
【数18】
であり、(上記と同様、「1PRS単位当たりの」オッズ比を得るにはXPRS,iが1に設定される)、BはM×P行列であり、Pは事後サンプルの数である。
【0136】
そして、何らかの損失関数、一般には平均二乗誤差、を与えられて各個体についての点推定を導出することができるが、損失関数は、過剰推定が過小推定よりも悪いと考えられるまたはその逆の場合には、別の例えば非対称指数損失であり得る。
【0137】
このモデルは、モデルのパラメータ、特にグランドσPRS×PC、をフィッティングするのを助ける、「非中心」バージョンで示されている。しかし、このモデルは、それと等価であり、示唆されるモデルとして示される「中心」バージョンで構築されることも可能である。非相互作用PC係数
【0138】
【数19】
は、効果量に直接影響するのではなく、祖先空間のあるエリア内の絶対基準確率に影響する。これは、これらが似るための論拠が、相互作用係数
【0139】
【数20】
よりも弱いことを意味する。しかし、非相互作用係数は、階層的な事前分布によって関係付けられることも可能である。上記のモデル中で事前分布が記述されない場合は、均一な事前分布または弱情報(weakly informative)事前分布が仮定される。
【0140】
このベイズモデル(5)におけるパラメータを、ハミルトニアン・モンテカルロを使用してフィッティングして、図に示される例示的結果を得る。しかし、例えば変分推論または統合型入れ子ラプラス近似のような他の近似が使用されることも可能である。ハミルトニアン・モンテカルロを使用してフィッティングされた場合、モデルは、他の線形手法よりも低速となるが、下記でさらに説明される変分ガウス過程よりは高速である。
【0141】
図9は、モデル(5)の下での各超母集団の平均位置における個体の効果量推定を示す。効果量推定は、モデル(5)を使用して1,000人ゲノム中の5つの主要な超母集団の各々について報告され(青)、試験においてその母集団内の離散推定と比較される(赤)。青い円(「1KG」)は、1000人ゲノム中の超母集団の中央値PC位置におけるオッズ比を指し、青い三角形(「経験に基づく」)は、所与の超母集団中の試験セット個体の平均値PC位置におけるオッズ比を指す。青い四角形の点の推定(「グループ平均」)は、各超母集団ラベル中の個体にわたる平均効果量推定を表す。
【0142】
モデル(5)は、上記の単次元モデルのように、試験セットの中の離散推定に非常に近いSASの効果量を生成するのに十分に正則化する。しかし、モデル(5)は、他の多次元モデルのように、試験セットの中の離散推定と似たEAS/AFR_SSの効果量推定を有するのに十分に柔軟でもある。モデル(5)は、全く同一の効果をハードコーディングするまたは効果が「自由」になるのを許すのではなく、相互作用係数が訓練データとどれほど似ているかを学習することにより、単次元(相対位置)モデルと多次元(絶対位置)モデルとの間のバランスを取る。訓練データが、祖先空間の異なる軸に沿った部分寄与の依存性が実際に異なることを示唆する場合には、大きい標準偏差が学習され、依存性はそれほど強く正則化されないことになる。
【0143】
非線形モデル
ここまで説明されたすべてのモデルは線形モデルであり、そこでは、祖先空間内の個体位置に対する遺伝的寄与(またはその部分寄与)の依存性は線形であった。これは、個体位置におけるある大きさおよび方向の変化が、祖先空間の中のどこでそれが起こるのかに関係なく、遺伝的寄与に対して同じ影響を有することを意味する。しかし、非線形モデルを考えることもできる。そのような実施形態では、遺伝的寄与を計算することは、個体位置に対する非線形の依存性を使用することを含む。
【0144】
一般化加法モデル(Generalised Additive Model:GAM)
非線形モデルの第1の例は、一般化加法モデル(GAM)である。GAMの場合、各係数と共変量(PRSまたは個体位置)との間に単純な線形の依存性を有する代わりに、この依存性を各共変量の任意の関数としてモデル化することができる:
~Bernoulli(p|X) (6)
logit(p|X)=β+f(X)+f(X)+・・・+f(X
【0145】
非線形の依存性は、正則化された関数を含んでよい。これは、依存性が滑らかになり、急な不連続性や、生物学的に妥当である見込みが低いその他の特徴を含まないことを保証する。選択する一般的な関数形式は、ペナルティ付きBスプライン(Pスプラインとも呼ばれる)であり、これは非線形形式のモデリングを可能にする。そのような実施形態では、非線形の依存性はペナルティ付きBスプラインを含む。ペナルティ付きBスプラインでは、ペナルティ(「ラムダ」)が関数の曲率に課せられ、関数は値が大きくなるにつれて完全に線形になる。このラムダ値は、値のグリッドにわたる交差検証を使用して学習されてよい。好ましいラムダ値を選定する1つの方法は、バイアスのかかっていないリスク推定子を最小にする値を選定するものである。
【0146】
この種のモデルの例として、図10は、モデル(6)の下での各超母集団の平均位置における個体の効果量推定を示す。単次元の相対位置モデルが、EURからの単一の距離およびPRSとのその相互作用と共に使用される。効果量推定は、モデル(6)を使用して1,000人ゲノム中の5つの主要な超母集団の各々について報告され(青)、試験においてその母集団内の離散推定と比較される(赤)。青い円(「1KG」)は、1,000人ゲノム中の超母集団の中央値PC位置におけるオッズ比を指し、青い三角形(「経験に基づく」)は、所与の超母集団中の試験セット個体の平均値PC位置におけるオッズ比を指す。青い四角形の点(「グループ平均」)は、各超母集団ラベル中の試験セット個体にわたる平均効果量推定を表す。
【0147】
モデル(6)を使用した結果は、図8に示される単次元モデルの結果と非常に似ている。モデル(6)は、下記で説明される変分ガウス過程戦略より高速であるが、依然として非線形の依存性を柔軟に許容する。しかし、図10のペナルティ付きBスプラインの例をフィッティングするための様々なラムダ値にまたがるグリッド検索は低速であり、それが、様々なラムダ値を試験するために使用できるグリッド間隔を制限する。
【0148】
ガウス過程
非線形の依存性をフィッティングする代替法は、ガウス過程を使用することである。そのような実施形態では、非線形の依存性は、ベイズ推論を使用して遺伝的寄与を計算するための事前分布としてガウス過程を使用して決定される。
【0149】
ガウス過程回帰の場合、以下の設定が仮定される。訓練データは、ノイズが付加された位置[x,x,...,x]の集まりにおける何らかの未知の関数f:X→Rからの観察値[y,y,...,y]の集まりを含む:
=f(x)+ε ただしi=1,2,...,n
ここで、εはノイズ項である。
【0150】
この訓練データから、到来する新しいデータについての未知の関数fの推定値:y=f(x)+εが決定される。これを行うために、データがガウス過程(Gaussian Process:GP)として知られる確率的過程からサンプリングされると仮定される。GPから取られるサンプルは、予想関数E[f(x)]=μ(x)および共分散関数Cov[f(x),f(x’)]=k(x,x’)となるような関数μ(.)およびk(.,.)を有する。このサンプリング手順の簡易表記は、GP(μ(.),k(・,・))である。
【0151】
GPの各有限の部分集合(詳細には、訓練に使用されるデータの部分集合)は、多変量正規分布からサンプリングされる。訓練データの点間をどのように内挿するかは、関数μ(.)およびk(.,.)の選択によって決まる。この状況では、Yが連続的でなく、離散的なケース/コントロールラベルになるという追加的な複雑性がある。Yがベルヌーイ分布しており、ケースであることのリスクを支配する基礎的な潜在的分布がGPからサンプリングされると仮定する。
~Bernoulli(π) (7)
logit(π)=GP(μ(.),k(・,・))
【0152】
また、予測平均値および分散を評価する標準的な方法は計算量O(n)を有するという追加的な問題があり、nはデータ点の数である。これは、nが数千台であるときには問題とならないが、遺伝子データの場合にそうであり得るように、サンプルサイズが数十万に近づくと標準的な手法を扱いにくいものにする。
【0153】
ある個体のPRS当たりの効果量を推定するために、事後分布を使用する。ベイズ推論のための事後分布は、ガウス過程と、複数の異なる祖先を有する複数の訓練個体からの訓練データとを使用して決定される。
【0154】
潜在空間をケース・コントロール状態Yに関係付けるリンク関数(ベルヌーイ関数)の導入に伴う問題の1つは、事後分布が正規分布でなくなることである。扱いやすさを維持するために、一部の実施形態では、非ガウス事後分布は、正規分布を用いて近似される。したがって、事後分布を決定することは、事後分布を正規分布として近似することを含む。この近似を行うために使用され得る一連の方法が存在する。例えば、ラプラス近似、期待値伝搬、およびカルバック・ライブラー(KL)発散最小化である。本実施形態では、正規分布qによって正確な事後分布pを近似し、KL(q||p)を最小化することにより、後者の手法が使用される。この最小化問題は、ニュートンの方法を使用して解くことができ、これもO(n)である。変分近似の完全な詳細は、(Nickisch and Rasmussen 2008)に詳細に記載される。
【0155】
ガウス過程を使用する場合、ガウス過程がGP(0,k(・,・)によって与えられるように、ゼロの平均値関数μ(.)=0を仮定するのが普通である。この選択はフィッティングを単純化し、またガウス過程の形状は完全にその共分散関数によって決定されるので、平均値は常に後で追加し戻すことができる。そのような実施形態では、ガウス過程は、ゼロの平均値関数を有する。しかし、場合によっては、フィッティングの前かまたはフィッティングの後に追加して戻すかのいずれかで、非ゼロの平均値関数を含めることが望ましいこともある。例えば、非ゼロの平均値関数を使用して、祖先空間の領域におけるPRSの単位当たりのOR(効果量)を、実質的に、その祖先位置に遺伝子データが存在しない場合にPRS寄与に対する事前分布として、訓練データから離れる方へコントロールすることができる。例えば、アフリカ祖先の個体に見られる効果量を、それらが祖先減衰の「最悪事例シナリオ」に相当することに基づいて、祖先空間にわたる最小の効果量として設定することができる。したがって、一部の実施形態では、ガウス過程は、対象個体のリスクへの遺伝的寄与の事前推定に対応する平均値ベクトルを有する。この手法は、GPの非線形性に起因して、フィッティングをより困難にし得る。
【0156】
ガウス過程の挙動にとって最も重要なのは、カーネル関数k(x,x’)の選択である。カーネル関数は、位置xおよびx’の任意の対間の予想される共分散についての関数形式を記述する。
【0157】
任意選択で、ガウス過程のカーネル関数は停留関数である。停留関数は、2つの点の間の距離に依存し、それらの絶対位置に依存するのではない。これは、ガウス過程の挙動が祖先空間全体にわたって似たものになることを意味する。カーネル関数は追加的に等方性であってよく、その場合、それは2つの点の間の距離の大きさのみに依存する。任意選択で、ガウス過程のカーネル関数は、サンプル間の類似度が低下するのに伴い、ゼロまで減衰する。減衰するカーネル関数を選択することは、関数の値が、どの訓練データからも遠い祖先空間の領域内で減衰して平均値まで戻ることを保証する。これは、対象個体が、祖先空間内で訓練データの近傍にない個体位置を有するときに、関数の予期されない挙動を制御し、低減するのを助けることができる。例えば、カーネル関数は、放射基底関数または有理二次共分散関数であってよい。以下の例示的実施形態では、放射基底関数(radial basis function:RBF)がカーネルとして使用される。
【0158】
任意選択で、ガウス過程のカーネル関数は、1つまたは複数のハイパーパラメータに依存する。例えば、このハイパーパラメータは、ポリジェニック・リスク・スコア、個体位置、およびポリジェニック・リスク・スコアと位置との間の相互作用の各々に関連するハイパーパラメータを含んでよい。以下の例では、1つの分散ハイパーパラメータθ、および3つの長さ尺度ハイパーパラメータlPRS、lPC、lPRS×PCが、それぞれPRS、PC、およびPRS×PCの相互作用に使用される。
【0159】
ハイパーパラメータは、祖先空間の各軸に沿った個体位置の座標に関連する、すなわち各PCに対応する、ハイパーパラメータを含んでよい。ハイパーパラメータは、PRSと個体位置の各座標との間の相互作用に関連するハイパーパラメータを含んでよい。しかし、この例では、単一の長さ尺度ハイパーパラメータが個体位置(PC)に使用され、単一の長さ尺度ハイパーパラメータが、PRSと個体位置との間の相互作用(PRS×PC)に使用される。これは、参照遺伝子データ中でPCが説明する分散でPCの相対的な長さ尺度をスケーリングすることによって実現される。したがって、祖先空間は、複数の異なる祖先を有する複数の参照個体からの参照遺伝子データを使用して定義され(先に説明したように)、遺伝的寄与を計算することは、距離を計算する前に、参照遺伝子データ中のそれぞれの軸によって説明される分散を使用して、祖先空間の各軸をスケーリングすることを含む。このスケーリングおよび低減した数のハイパーパラメータの使用は、速度を向上させ、オーバーフィッティングを防ぎ、祖先空間におけるロバストな「距離」の概念を強制する。
【0160】
上記で説明された他のモデルについて、ガウス過程は、絶対位置の多次元手法または相対位置の単次元手法のいずれとも使用することができる。
【0161】
絶対位置
絶対位置モデルでは、遺伝的寄与は、祖先空間の各軸に対応する部分寄与の合計を含み、各部分寄与は、祖先空間のそれぞれの軸に沿った個体位置の座標を使用して計算される。ガウス過程のフレームワークをこの場合における予測問題に適用するために、訓練個体の各々に対応するサンプルがベクトルによって定義される:
=[xi,PRS,xi,PC,xi,PC×PRS
ここで、xi,PRS、xi,PC、およびxi,PRS×PCは、それぞれ、標準化されたPRS、祖先空間位置における位置、および個体iについての対応する相互作用である。そして、放射基底関数を使用するカーネル関数は次によって与えられる:
【0162】
【数21】
【0163】
ガウス過程のカテゴリ化にアピールすることにより、PCの非線形の効果が、個体のケース状態の予測に自然に取り込まれることが可能になる。さらに、カーネルの関数形式に応じて、ガウス過程は、PRSの効果量が訓練データから離れる方へ0になることを強制することができる。これは望ましい性質である。つまり、情報が存在しない(カーネルによって規定される)ときに、推定が訓練データにおける疾患の保有率になることが予想される。
【0164】
ガウス過程カテゴリ化を用いることの利益は、欠点でもある。このフレームワークでは、PRSの変化が、ケース確率に非線形に影響する。よって、リスクに対するPRSの影響は、その値の関数として変動する(PRSを含む項に対して線形のカーネルが強制されない限り)。GPのフィッティングも低速であり得る。速度は、スパース変分ガウス過程を使用することによって、または次元数削減を介して近似を行うことによって改善され得る。前者の手法は、ロバストに最適化するのが困難であり得る。しかし、近年の論文は、ガウス過程回帰のロバスト性を向上させる手法を提案しているが、カテゴリ化についてはまだ提案されていない。放射基底関数カーネルは適切な選択である。何故ならば、訓練された長さ尺度ハイパーパラメータが、結果として、データが存在しないときに迅速に基準レベルに戻る推定値を生じるためである。
【0165】
相対位置
相対位置手法では、遺伝的寄与を計算することは、個体位置と祖先空間内の参照位置との間の祖先空間内での距離を計算し、その距離を使用して遺伝的寄与を計算することを含む。GPフレームワークのこの単次元実装には、異なる予測子の組が使用される。モデル(4)の予測子、すなわち、
~Bernoulli(π) (4)
logit(π)=β+βPRSPRS,i+βEUREUR,i+βPRS×EURPRS,iEUR,i
に代えて、モデル(7)に従って、ゼロの平均値関数および以下のカーネル関数を有するガウス過程が使用される。
【0166】
【数22】
【0167】
上記の多次元の実施形態と同様に、4つのハイパーパラメータがカーネル関数で使用される。この実施形態では、これらはθ、lPRS、lEURおよびlPRS×EURと表記される。これらのハイパーパラメータは、PRS、参照点からの距離(この例では、参照遺伝子データ中の中央値のヨーロッパの位置として決定されるヨーロッパクラスタ中心からのユークリッド距離)、およびPRSと距離との間の相互作用にそれぞれ関する情報が点の対の間で共有される際の全体スケーリングおよび長さ尺度を支配する。
【0168】
図11は、各超母集団の平均位置における個体の効果量推定を示す。効果量推定は、モデル(7)、ゼロの平均値関数、および(8)のカーネルを使用してGPフレームワークから導出される。効果量推定は、ヨーロッパクラスタ中心(上記で定義の通り)からの単一の距離およびGPフレームワークにおけるPRSとのその相互作用を使用して、1,000人ゲノム中の5つの主要な超母集団の各々について報告される。超母集団の重心にあるフィッティングされた推定(青)が、試験においてその母集団内の離散推定(赤)と比較される。青い円(「1KG」)は、1000人ゲノム中の超母集団の中央値PC位置におけるオッズ比を指し、青い三角形(「経験に基づく」)は、所与の超母集団中の試験セット個体の平均値PC位置におけるオッズ比を指す。青い四角形の点の推定(「グループ平均」)は、各超母集団ラベル中の個体にわたる平均効果量推定を表す。
【0169】
単次元の相対位置モデルのこのGP実装は、参照点からの距離の関数としてのPRS効果量の非線形の変化を可能にする。すなわち、それは、PRSによって説明される遺伝率と参照点からのゲノム距離との間の経験的に観察された関係を取り込むが、この関係を線形になるように制約することはない。本明細書で検討される他の単次元(相対位置の)祖先空間モデルと同様、このモデルは、PRSによって説明される遺伝率の変化が、祖先空間内で参照点から移動する方向と無関係であると仮定する。これの欠点は、この仮定が、訓練データが入手可能な祖先空間の領域については効果量推定に対して必要以上の影響を有し得、訓練データがほとんど入手可能でない領域では、過度に確信の高い効果量推定を提供し得ることである。
【0170】
PRSと位置の両方に依存するのではない寄与
本明細書に提示される例示的モデルはすべて、拡張が可能である。例えば、新しい標準化されたPRSおよび相互作用項をモデルに追加することにより、異なるまたは類似する祖先で訓練されたさらなるPRSが組み込まれ得る。そして、対象個体のリスクに対するこれらPRSの総計遺伝的寄与が評価され得る。
【0171】
PRSと個体位置の両方に依存する遺伝的寄与(またはそれの部分寄与)の成分は、一般に、上記で相互作用項と呼ばれている。加えて、上記の様々なモデルに示されたように、遺伝的寄与は、PRSと個体位置の両方に依存するのではない成分を含むことができる。遺伝的寄与は、個体位置に依存しないポリジェニック・リスク・スコアを使用して計算される、祖先に依存しない成分を含んでよい。例えば、祖先に依存しない成分は、上記のモデル(4)ではβPRSPRS,iと表記されている。同様に、遺伝的寄与は、ポリジェニック・リスク・スコアに依存しない個体位置に基づいて計算される、祖先に依存する成分を含んでよい。例えば、祖先に依存する成分は、モデル(4)ではβEUREUR,iと表記されている。
【0172】
その他の特徴
上述したように、個体位置およびポリジェニック・リスク・スコアに対する遺伝的寄与の依存性は、複数の異なる祖先を有する複数の訓練個体からの訓練データを使用して決定される。訓練データは、訓練個体の各々につき、遺伝子データと、その訓練個体が目的の表現型または表現型組合せを有するかどうかとを含む。訓練データは、祖先空間を定義するために使用された参照遺伝子データと異なってよい。
【0173】
統合リスクツール
一部の実施形態では、訓練データは、訓練個体の各々につき、1つまたは複数の非遺伝的共変量に関する情報を有するデータをさらに含み、遺伝的寄与は、この非遺伝的共変量の存在下で結合推定される。例えば、非遺伝的共変量は、体重、身長、挙動特性、医学的形質、および血液または尿に基づく測定値などのその他のバイオマーカ、の1つまたは複数を含んでよい。
【0174】
これは、モデルが、遺伝的寄与の依存性を決定するときに遺伝的共変量と非遺伝的共変量との間の相関を考慮することを可能にし、それが精度をさらに向上させることができる。そのような実施形態では、方法は、対象個体の個体共変量データを受け取ることをさらに含み、個体共変量データは、対象個体についての追加的な非遺伝的共変量に関する情報を有する。遺伝的寄与を計算することは、この個体共変量データを使用することをさらに含んでよい。代替または追加として、個体共変量データは、対象個体のリスクへの非遺伝的寄与を計算するときに使用されてよい。
【0175】
出力
計算されたら、リスクへの遺伝的寄与が出力され得る。一部の実施形態では、方法は、リスクへの遺伝的寄与を出力することをさらに含む。代替または追加として、遺伝的寄与は、特定の表現型または表現型組合せを発現する個体のリスクを査定するための他の有用な指標を計算するために使用されるさらなる計算の一部として使用され得る。
【0176】
一部の実施形態では、このリスクは、平均の推定遺伝的寄与を有する個体に対する相対リスクである。この平均の推定遺伝的寄与は、類似する個体、例えば類似する祖先を有する個体、の平均遺伝子データに基づいてよい。平均の推定遺伝的寄与は、母集団または類似する個体における表現型または表現型組合せの平均保有率に基づいてもよい。そのような実施形態では、方法は、上記のいずれかの先行請求項に記載された方法のいずれかを使用して計算された相対リスクへの遺伝的寄与および非遺伝的寄与を使用して、目的の表現型または目的の表現型組合せについての対象個体の相対リスクを計算することS50と、相対リスクを出力することS60とをさらに含む。上述したように、非遺伝的寄与は、非遺伝的共変量に基づいて計算されてよい。
【0177】
相対リスクを計算することは、損失関数を使用して、対象個体の相対リスクの分布から対象個体の相対リスクの値を決定することを含んでよい。例えば、損失関数は、平均二乗誤差関数または非対称指数損失関数であってよい。
【0178】
相対リスクに加えて、方法は絶対リスクを計算するために使用され得る。一部の実施形態では、方法は、いずれかの先行請求項の方法を使用して計算された遺伝的寄与を使用して、目的の表現型または目的の表現型組合せについての対象個体の絶対リスクを計算することと、絶対リスクを出力することとをさらに含む。
【符号の説明】
【0179】
10 ポリジェニック・リスク・スコア(PRS)
20 個体遺伝子データ
30 非遺伝的寄与
40 相対リスク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【国際調査報告】