(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】遺伝子データを解析するためのコンピュータ実装方法および装置
(51)【国際特許分類】
G16B 20/00 20190101AFI20241126BHJP
C12Q 1/686 20180101ALI20241126BHJP
C12Q 1/6874 20180101ALI20241126BHJP
C12Q 1/6883 20180101ALI20241126BHJP
【FI】
G16B20/00
C12Q1/686 Z
C12Q1/6874 Z
C12Q1/6883 Z
(21)【出願番号】P 2022513533
(86)(22)【出願日】2020-08-28
(86)【国際出願番号】 GB2020052060
(87)【国際公開番号】W WO2021038234
(87)【国際公開日】2021-03-04
【審査請求日】2023-06-02
(32)【優先日】2019-08-28
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】522074486
【氏名又は名称】ゲノミクス ピーエルシー
(74)【代理人】
【識別番号】100092783
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100120134
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100141025
【氏名又は名称】阿久津 勝久
(72)【発明者】
【氏名】プラグノル,ヴィンセント ヤン マリー
(72)【発明者】
【氏名】ムーア,レイチェル
(72)【発明者】
【氏名】クラポール,エヴァ マリア ローラ
【審査官】藤原 拓也
(56)【参考文献】
【文献】S.L.Spainほか,"Strategies for fine-mapping complex traits",Human Molecular Genetics,2015年07月08日,Vol.24,No.R1,P.R111-R119,doi:10.1093/hmg/ddv260
【文献】A.Mahajanほか,"Fine-mapping type 2 diabetes loci to single-variant resolution using high-density imputation and islet-specific epigenome maps",Nature Genetics,2018年10月08日,Vol.50,P.1505-1513,doi:10.1038/s41588-018-0241-6
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12Q 1/686
C12Q 1/6874
C12Q 1/6883
(57)【特許請求の範囲】
【請求項1】
生物に関する情報を取得するために前記生物に関する遺伝子データを解析するコンピュータ実装方法であって、
前記生物のゲノムの対象領域における、標的表現型を含む1つ以上の表現型と複数の遺伝子変異型との間の、関連の強度を含む入力データを受信するステップと、
前記対象領域内の1つ以上の独立した表現型-変異型関連を特定するために、前記入力データのすべてまたはサブセットに、ファインマッピングアルゴリズムを適用するステップであって、関連ごとに、前記複数の遺伝子変異型から1つ以上のファインマッピング済み変異型のセットを特定すること、およびファインマッピング済み変異型ごとに、前記表現型-変異型関連の原因となる推定確率を決定することを含み、前記セット内の前記ファインマッピング済み変異型の確率の合計が1になる、ファインマッピングアルゴリズムを適用するステップと、
前記入力データおよび前記ファインマッピング済み変異型のセットに基づいて、ファインマッピング予測モデルを算出するステップであって、前記ファインマッピング済み変異型のセットの前記標的表現型に対する効果を定量化する、ファインマッピング予測モデルを算出するステップと、
残留関連データを取得するために、前記ファインマッピング予測モデルを使用して、前記ファインマッピング済み変異型のセットの前記標的表現型に対する効果を前記入力データから減算するステップと、
前記標的表現型と前記複数の遺伝子変異型との間のさらなる予測相関を特定するために、機械学習アルゴリズムを前記残留関連データに適用するステップと、を含む方法。
【請求項2】
前記関連の強度が、前記標的表現型に対する前記複数の遺伝子変異型の各々の推定効果量と、前記推定効果量の各々の標準誤差とを含む、請求項1に記載の方法。
【請求項3】
前記入力データを受信するステップが、
複数の個体の各々について、遺伝子型および対応する表現型を含む個体レベルデータを受信するステップと、
前記個体レベルデータを使用して、前記標的表現型に対する前記複数の遺伝子変異型の各々の推定効果量と、前記推定効果量の各々の標準誤差とを決定するステップとを含む、請求項1または2に記載の方法。
【請求項4】
前記ファインマッピング済み変異型のセットを特定することが、反復法を使用して実行され、各反復が、
前記入力データに基づいて、前に特定されたファインマッピング済み変異型とは異なる、前記ゲノムの領域内のファインマッピング済み変異型を特定するステップと、
前記ゲノムの領域内の前記遺伝子変異型間の相関の行列を使用して、既に特定された前記ファインマッピング済み変異型の前記標的表現型に対する前記効果を考慮するように前記入力データを更新するステップと、
前記更新された入力データに基づいて、さらなる反復を行うかどうかを決定するステップとを含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記ファインマッピング済み変異型のセットを特定することが、前記標的表現型に影響を与えることが知られている複数の素因形質を使用するステップを含み、前記素因形質を使用する前記ステップが、
前記素因形質についてのファインマッピング済み変異型のセットを決定するステップと、
前記複数の素因形質と前記標的表現型との関係に基づいて、前記標的表現型についての前記ファインマッピング済み変異型のセットに、前記素因形質についての前記ファインマッピング済み変異型のうちの1つ以上の各々を含めるかどうかを決定するステップとを含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記ファインマッピング済み変異型のセットを特定することが、前記標的表現型に影響を与えることが知られている1つ以上の直接原因となる素因形質についてのファインマッピング済み変異型のセットを特定するステップを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記ファインマッピング予測モデルを算出するステップが、
前記1つ以上の素因形質についての前記ファインマッピング済み変異型のセットの、前記1つ以上の素因形質に対する効果量を決定するステップと、
前記素因形質の効果量と前記標的表現型の効果量との所定の関係に基づいて、前記標的表現型についての前記ファインマッピング済み変異型のセットに含まれる、前記素因形質についての前記ファインマッピング済み変異型の各々の前記標的表現型の効果量を決定するステップとを含む、請求項5または6に記載の方法。
【請求項8】
前記関連の強度が、前記標的表現型に対する前記複数の遺伝子変異型の各々の推定効果量、および前記推定効果量の各々の標準誤差を含み、
前記ファインマッピング予測モデルが、前記ファインマッピング済み変異型の各々についての前記標的表現型に対するファインマッピング済み効果量を含み、前記ファインマッピング済み効果量が、前記ファインマッピング済み変異型が前記表現型-変異型関連の原因となる前記推定確率を考慮して、前記ファインマッピング済み変異型の前記推定効果量から算出される、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記ファインマッピング済み変異型のセットの前記標的表現型に対する前記効果が、機械学習アルゴリズムを使用して推定される、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記ファインマッピング済み変異型のセットが、前記標的表現型の原因となる可能性が高いことが知られている1つ以上の変異型をさらに含む、請求項9に記載の方法。
【請求項11】
前記関連の強度が、前記標的表現型に対する前記複数の遺伝子変異型の各々の推定効果量と、前記推定効果量の各々の標準誤差とを含み、
前記ファインマッピング済み変異型のセットの前記標的表現型に対する前記効果を前記入力データから減算する前記ステップが、前記入力データ内の複数の前記遺伝子変異型の各々についての残留効果量を取得するステップを含み、前記残留関連データが前記残留効果量を含み、等分散を保証するための前記効果量の適切な繰込み後に、遺伝子変異型iの残留効果量
【数1】
が、以下の式により与えられ、
【数2】
ここで、β
iは遺伝子変異型iの推定限界効果量であり、Nはファインマッピング済み変異型の数であり、p
jは変異型jが原因となる確率であり、
【数3】
は、前記標的表現型に対するj番目のファインマッピング済み変異型のファインマッピング済み効果量であり、r
ijは前記j番目のファインマッピング済み変異型と前記遺伝子変異型iとの相関である、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記入力データが複数の異なる遺伝学的研究から導出され、機械学習アルゴリズムを前記残留関連データに適用する前記ステップが、前記異なる遺伝学的研究間の各遺伝子変異型と前記標的表現型との関連の強度の一貫性に依存する、前記標的表現型の原因となる前記複数の遺伝子変異型の各々についての事前確率を使用するステップを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記機械学習アルゴリズムを前記残留関連データに適用するステップが、前記対象領域における前記複数の遺伝子変異型のゲノムアノテーションに依存する、前記標的表現型の原因となる前記複数の遺伝子変異型の各々についての事前確率を使用するステップを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記ファインマッピング予測モデルと前記機械学習アルゴリズムにより特定された前記さらなる予測相関とを前記個体からの遺伝子データに適用することによって、前記標的表現型についての個体のポリジェニックリスクスコアを算出するステップをさらに含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記ポリジェニックリスクスコアが、以下の加重和
【数4】
によって与えられ、ここで、Lは前記PRSに寄与する変異型の数であり、各変異型は、前記ファインマッピング予測モデルまたは前記機械学習アルゴリズムからの前記さらなる予測相関に含まれ、α
lは、前記標的表現型に対する変異型lの関連の強度を定量化し、前記関連の強度は、前記ファインマッピング予測モデルによって、または前記機械学習アルゴリズムからの前記さらなる予測相関によって指定され、X
lは変異型lの遺伝子型である、請求項14に記載の方法。
【請求項16】
前記個体の前記ポリジェニックリスクスコアが、前記ファインマッピング予測モデルを前記個体からの遺伝子データに適用することによって提供される第1の部分ポリジェニックリスクスコアと、前記機械学習アルゴリズムの前記さらなる予測相関を前記個体からの前記遺伝子データに適用することによって提供される第2の部分ポリジェニックリスクスコアとの組合せから導出される、請求項14または15のいずれか一項に記載の方法。
【請求項17】
前記入力データが、生物の複数の異なる集団から導出され、
前記ファインマッピング予測モデルを算出するステップが、異なる集団に対応する前記入力データの一部について別個に実行されて、複数のそれぞれの集団一致のファインマッピング予測モデルを取得すること、および前記機械学習アルゴリズムを残留関連データに適用する前記ステップが、異なる集団に対応する前記入力データの一部について別個に実行されて、集団一致のさらなる予測相関の複数のそれぞれのセットを取得すること、のいずれかまたは両方が満たされる、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記方法が、
異なる集団の混合に由来する遺伝子を有する個体から入力データを受信するステップと、
複数の集団一致のファインマッピング予測モデルの各々を、前記集団一致のファインマッピング予測モデルの集団に一致する前記入力データの対応部分に一致させ、一致する各ファインマッピング予測モデルを前記入力データの前記対応部分に適用すること、および
集団一致のさらなる予測相関の複数のセットの各々を、前記集団一致のさらなる予測相関のセットの集団に一致する前記入力データの対応部分に一致させ、一致するさらなる予測相関の各セットを前記入力データの前記対応部分に適用すること、
のいずれかまたは両方を実行することによって、前記個体のポリジェニックリスクスコアを算出するステップとをさらに含む、請求項17に記載の方法。
【請求項19】
集団一致のさらなる予測相関の複数のセットの各々を一致させる前記ステップが実行され、複数の集団一致のファインマッピング予測モデルの各々を一致させる前記ステップが実行されず、前記ポリジェニックリスクスコアを算出する前記ステップが、共有の集団一貫ファインマッピング予測モデルを前記個体からの前記入力データに適用するステップを含む、請求項18に記載の方法。
【請求項20】
前記方法が、
前記異なる集団のうちの1つに主に由来する遺伝子を有する個体から入力データを受信するステップと、
集団一致のファインマッピング予測モデルを前記個体からの前記入力データのすべてに適用し、前記集団一致のファインマッピング予測モデルを前記個体の集団に一致させること、および
集団一致のさらなる予測相関のセットを前記個体からの前記入力データのすべてに適用し、前記集団一致のさらなる予測相関のセットを前記個体の集団に一致させること、
のいずれかまたは両方を実行することによって、前記個体のポリジェニックリスクスコアを算出するステップとをさらに含む、請求項17に記載の方法。
【請求項21】
前記集団一致のさらなる予測相関のセットを適用する前記ステップが実行され、前記集団一致のファインマッピング予測モデルを適用する前記ステップが実行されず、前記ポリジェニックリスクスコアを算出する前記ステップが、共有の集団一貫ファインマッピング予測モデルを前記個体からの前記入力データに適用するステップを含む、請求項20に記載の方法。
【請求項22】
前記ファインマッピングアルゴリズムによって前記1つ以上のファインマッピング済み変異型を特定するステップが、前記複数の遺伝子変異型と前記標的表現型以外の表現型との間の関連を考慮する、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記生物がヒトである、請求項1~22のいずれか一項に記載の方法。
【請求項24】
生物に関する情報を取得するために生物に関する遺伝子データを解析する装置であって、
前記生物のゲノムの対象領域における、標的表現型を含む1つ以上の表現型と複数の遺伝子変異型との間の関連の強度を含む入力データを受信するように構成された受信部と、
データ処理部とを備え、前記データ処理部が、
関連ごとに、前記複数の遺伝子変異型から1つ以上のファインマッピング済み変異型のセットを特定すること、およびファインマッピング済み変異型ごとに、表現型-変異型関連の原因となる推定確率を決定することによって、ファインマッピングアルゴリズムを前記入力データのすべてまたはサブセットに適用して、前記対象領域内の1つ以上の独立した表現型-変異型関連を特定し、前記セット内の前記ファインマッピング済み変異型の確率の合計が1になり、
前記入力データおよび前記ファインマッピング済み変異型のセットに基づいて、前記ファインマッピング済み変異型のセットの前記標的表現型に対する効果を定量化するファインマッピング予測モデルを算出し、
前記ファインマッピング予測モデルを使用して、前記ファインマッピング済み変異型のセットの前記標的表現型に対する前記効果を前記入力データから減算して、残留関連データを取得し、かつ、
機械学習アルゴリズムを前記残留関連データに適用して、前記標的表現型と前記複数の遺伝子変異型との間でさらなる予測相関を特定するように構成されている、装置。
【請求項25】
命令を含むコンピュータ
プログラムであって、前記命令は、前記プログラムがコンピュータによって実行されたとき、請求項1~23のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。
【請求項26】
命令を含むコンピュータ可読媒体であって、前記命令が、コンピュータによって実行されたとき、請求項1~23のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に対象の表現型について改善されたポリジェニックリスクスコア(PRS)を取得することを可能にする文脈において、生物に関する情報を取得するために生物に関する遺伝子データおよび表現型データを解析することに関する。
【背景技術】
【0002】
PRSは、生物が示し得る表現型に対する生物の遺伝DNAの寄与の定量的要約である。PRSは、対象の表現型に(直接的または間接的に)関連するすべてのDNA変異型を含むことができ、または、表現型の構成部分が生物の生物学的属性の特定の側面(細胞、組織、または他の生物学的単位、機構、もしくは過程を含む)により関連する場合には、その構成部分を使用することができる。PRSを、直接的に、または生物についての複数の測定もしくは記録の一部として使用して、生物の過去、現在、および将来の生物学的属性の側面を推定することができる。ヒトの健康および健康管理の向上の文脈において、PRSには様々な実用的用途があり、この用途には、疾患または表現型の発症リスクの予測、表現型の発症年齢の予測、疾患の重症度の予測、疾患のサブタイプの予測、治療に対する反応の予測、個体に適したスクリーニング戦略の選択、適切な薬物介入の選択、および他の予測アルゴリズムの事前確率の設定が含まれるが、これらに限定されない。PRSを、他の高次元入力データ(例えば、イメージング)から予測または分類を行うための人工知能アプローチおよび機械学習アプローチの適用における入力源として直接使用することができる。PRSを使用して、例えば、非遺伝的データに基づく予測測定値を特定するように、これらのアルゴリズムをトレーニングすることを助けることができる。PRSは、個体に関する予測ステートメントを作成する際に有用であるだけでなく、多数の個体のPRSを算出し、次いでPRSに基づいて個体をグループ化することによって、上記の適用に含まれるがこれらに限定されない個体のコホートを特定するために使用することもできる。PRSは、臨床試験のための個体の選択にも役立ち、例えば、関連する疾患または表現型を発症する可能性がより高い個体を採用することによって試験設計を最適化し、それにより、新しい治療の有効性の評価を高めることができる。PRSは、PRSを算出する個体に関する情報だけでなく、その血縁者(遺伝DNAのごく一部を共有する)に関する情報も伝える。個体の表現型に対する個体のDNAの影響に関する情報は、DNA変異型の特定の組合せを伝えることの潜在的な影響の関連評価から導出され得る。以下では、遺伝子関連解析(GAS)から導出される最近の大量の情報の解析に焦点を当てる。これらの研究は、表現型の遺伝的基盤に対するDNA変異型の潜在的な寄与を系統的に評価する。
【0003】
2000年代半ば以降、GAS(通常、ゲノムワイド関連解析(GWAS)、または単一の変異型を標的とした関連解析、またはゲノムのある領域内の変異型、またはゲノムの特定の領域に制限されたGWAS)が、何百万もの個体の何千もの(主にヒトの)表現型に対して行われ、遺伝子型と表現型との間に何十億もの潜在的な関連性を生み出している。結果として得られた生データは、多くの場合、その後、要約統計データを生成するために単純化される。GAS要約統計データは、遺伝子変異型(帰属であっても観察であっても)ごとに、GASの表現型に対する遺伝子変異型の推定効果量と、推定効果量の標準誤差とから構成される。他の場合、研究における個体の完全な遺伝子プロファイルとそれらの表現型に関する情報とから構成される個体レベルデータは、直接利用可能であり得る。しかしながら、個体レベルデータは、通常、個体のデータのプライバシに関する要件により、あまり広く利用できない。
【0004】
以下で、表現型を単一研究と同義であるものとする。しかしながら、同じもしくは同様の表現型に関する複数の異なる研究から、または複数の異なる表現型が測定される単一コホートから、データが得られる場合が非常に多い。
【0005】
PRSは、通常、小さい個々の効果を各々有する、多数の遺伝子変異型の効果の集合から構成されて、対象の形質の集合予測を構築する。このようなスコアに含まれる変異型は、変異型が形質に直接影響を与える(弱いが直接的に)という意味で「原因変異型」であるか、または、原因となる他の未知の変異型と強く相関しているが、タグ変異型自体は表現型に直接影響を与えないことを意味する「タグ変異型」であり得る。
【0006】
PRSは、個体レベルデータまたは要約統計データを使用して算出することができる。PRS構築のための戦略は拡大しているが、正確なPRSを構築するために広く認められている一般的なアプローチは、基礎となる生物学的関連を最もよく捕捉する変異型の組合せを調査することによって、関連のすべての領域で信号をデコンヴォルーションすることから構成されている。このプロセスは、関連ごとに、各変異型に確率重みを割り当てることにより、どの変異型が直接原因となる可能性があるかを記述する。このプロセスは「ファインマッピング」と呼ばれ、このタスクを実現するためのいくつかの戦略が以前に提案されている(例えば、Benner他、Bioinformatics 2016、15;32(10):1493-1501参照)。
【0007】
関連の数は様々であり、多くのゲノム領域は単一の潜在的な関連を含み、一部のゲノム領域は複数の独立した関連を含む(まれであるが、最大10の関連が報告されている)。領域内のすべての関連に関与する変異型の正しい組合せを特定する際の技術的な課題は、これらの変異型が互いに相関し得ることである。相関が大きいほど、これらの相関を分解するために必要なサンプルの数が多くなる。
【0008】
PRSを構築するツールには、要約統計データを利用するように設計されているものもある。1つのこのようなアプローチは、枝刈りおよび閾値化を指し、最も関連する変異型がPRSに寄与するように選択され、その大きく相関する変異型が除去される。その後、残りの変異型の中で最も関連する変異型が選択され、残りの変異型の有意性が予め定義された閾値を下回るまでプロセスが繰り返される。LDpredソフトウェア(https://github.com/bvilhjal/ldpred)によって普及したさらなるアプローチは、妥当な変異型の複数のランダムな選択をゲノム全域にわたって反復し、変異型が選択または除去されると、残留信号を推定する。
【0009】
要約統計データに基づく戦略の長所は、個体レベルデータの共有に関する制限がないことが、はるかに大きいサンプルサイズを科学界に提供できることを意味することである。そのため、現在のPRS設計の多くは、これらの大きい要約統計データセットに基づいている。
【0010】
しかしながら、すべての要約統計データに基づく方法について、相関する変異型は、変異型間の相関が何であると予想されるかを記述する外部データソースを参照することによって処理される。遺伝子変異型間の相関のパターンは、連鎖不平衡(LD)と呼ばれる。これらの外部データソースにおける相関は、要約統計データの生成に使用される個体レベルデータから取得される相関に完全には一致しない。これは、正しい相関とはどうあるべきかに関する不確実性により、ファインマッピング手順にさらなる不確実性を引き起こす。したがって、要約統計データに基づくファインマッピングは、基礎となるLDパターンに関する不確実性によって基本的に制限される。
【0011】
LDのパターンを記述するために外部データセットに依存する別の制限は、異なる集団がLDの別個のパターンを有することである。したがって、1つの集団に対して行われる推定は、異なる集団について正確である可能性は低い。言い換えると、参照LDデータセットに基づいて導出されたPRSは、集団の変動に対して限られた堅牢性をもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明の目的は、生物に関する遺伝子データの解析を向上させ、かつ/または、個体についてより堅牢および/もしくは正確なPRSを取得することを可能にすることである。
【0013】
LDのパターンは集団間で異なるが、1つの集団の形質または疾患に影響を与える変異型は、一般に、異なる集団の同じの形質/疾患にも影響を与える。したがって、ファインマッピング技術を使用して、原因変異型、または原因変異型を含むもしくはタグ付けする可能性がある変異型のセットを特定すると、特に集団の変動に対する堅牢性を高めることによって、PRSがより正確になる。
【0014】
しかしながら、すべての変異型、特に標的表現型に対する効果が小さい多数の変異型を、ファインマッピングできるわけではない。したがって、どの変異型が原因となるかに関して正確なステートメントを作成する必要がなく、予測問題のみに焦点を当てた代替技術が、PRS構築にも有用である。
【0015】
したがって、疾患を予測する際、または特定の薬物もしくは治療に対する個体の反応を予測する際に高い臨床有用性を持つ可能性があるPRSの正確な導出は、ファインマッピングの利点を活用する統計技術の恩恵を受け、かつ必要に応じて代替的な機械学習技術の使用も可能にする。
【課題を解決するための手段】
【0016】
本発明の態様によれば、生物に関する情報を取得するために生物に関する遺伝子データを解析するコンピュータ実装方法であって、生物のゲノムの対象領域における、標的表現型を含む1つ以上の表現型と複数の遺伝子変異型との関連の強度を含む入力データを受信するステップと、ファインマッピングアルゴリズムを入力データのすべてまたはサブセットに適用して、対象領域内の1つ以上の独立した表現型-変異型関連を特定するステップであって、関連ごとに、複数の遺伝子変異型から1つ以上のファインマッピング済み変異型のセットを特定すること、およびファインマッピング済み変異型ごとに、表現型-変異型関連の原因となる推定確率を決定することを含み、セット内のファインマッピング済み変異型の確率の合計が1になる、ステップと、入力データおよびファインマッピング済み変異型のセットに基づいて、ファインマッピング済み変異型のセットの標的表現型に対する効果を定量化するファインマッピング予測モデルを算出するステップと、ファインマッピング予測モデルを使用して、ファインマッピング済み変異型のセットの標的表現型に対する効果を入力データから減算して、残留関連データを取得するステップと、機械学習アルゴリズムを残留関連データに適用して、標的表現型と複数の遺伝子変異型とのさらなる予測相関を特定するステップとを含む方法が提供される。
【0017】
ファインマッピング技術を使用して、標的表現型の原因となる可能性があるファインマッピング済み変異型を特定し、ファインマッピング済み変異型の効果を考慮した後に残っている(残留関連データを介した)残留信号をさらに解析することにより、方法は、データに存在し得るさらなる弱い相関を考慮することができる。これらの追加の相関を含めることにより、モデルの予測精度が向上する。
【0018】
一実施形態において、関連の強度は、標的表現型に対する複数の遺伝子変異型の各々の推定効果量と、推定効果量の各々の標準誤差とを含む。推定効果量およびその誤差は、多数の研究による要約統計データとして広く利用可能であり、それにより大量のデータへのアクセスが可能になる。
【0019】
一実施形態において、入力データを受信するステップは、複数の個体の各々について、遺伝子型および対応する表現型を含む個体レベルデータを受信するステップと、個体レベルデータを使用して、標的表現型に対する複数の遺伝子変異型の各々の推定効果量と、推定効果量の各々の標準誤差とを決定するステップとを含む。個体レベルデータは、要約統計データに存在し得る領域内の変異型間の相関に関する基礎となる仮定の影響を受けないため、一部の実施形態で使用することができ、それにより、意図しないバイアスまたは誤差を引き起こす可能性を低減させる。
【0020】
一実施形態において、ファインマッピング済み変異型のセットを特定するステップは、反復法を使用して実行され、各反復は、入力データに基づいて、前に特定されたファインマッピング済み変異型とは異なる、ゲノムの領域内のファインマッピング済み変異型を特定するステップと、ゲノムの領域内の遺伝子変異型間の相関の行列を使用して、既に特定されたファインマッピング済み変異型の標的表現型に対する効果を考慮するように入力データを更新するステップと、更新された入力データに基づいて、さらなる反復を行うかどうかを決定するステップとを含む。反復アプローチを使用することにより、単一のファインマッピング済み変異型によって考慮されない残留信号から、複数のファインマッピング済み変異型を特定することができ、それにより、要約データに存在する信号の使用を最大化することができる。
【0021】
一実施形態において、ファインマッピング済み変異型のセットを特定するステップは、標的表現型に影響を与えることが知られている複数の素因(instrument)形質を使用するステップを含み、素因形質を使用するステップは、素因形質についてのファインマッピング済み変異型のセットを決定するステップと、複数の素因形質と標的表現型との関係に基づいて、標的表現型についてのファインマッピング済み変異型のセットに、素因形質についてのファインマッピング済み変異型のうちの1つ以上の各々を含めるかどうかを決定するステップとを含む。複数の素因形質と標的表現型との関係は、素因形質と標的表現型との関連の潜在的に複雑なパターンを考慮することができる。代わりにまたは加えて、他の実施形態において、ファインマッピング済み変異型のセットを特定するステップは、標的表現型に影響を与えることが知られている1つ以上の直接原因となる素因形質についてのファインマッピング済み変異型のセットを特定するステップを含む。このような場合、複数の素因形質と標的表現型との関連の複雑なパターンを考慮する必要はなくてよい。
【0022】
素因形質の使用は、遺伝子変異型が標的表現型に小さい効果のみを与え、素因形質に大きい効果を与える場合に、表現型についてのファインマッピング済み変異型を決定する精度を向上させることができる。
【0023】
実施形態において、ファインマッピング予測モデルを算出するステップは、1つ以上の素因形質についてのファインマッピング済み変異型のセットの、1つ以上の素因形質に対する効果量を決定するステップと、素因形質の効果量と標的表現型の効果量との所定の関係に基づいて、標的表現型についてのファインマッピング済み変異型のセットに含まれる、素因形質についてのファインマッピング済み変異型の各々の標的表現型の効果量を決定するステップとを含む。素因形質に対する遺伝子変異型の効果が標的表現型に対する効果よりも大きい場合に、素因形質を使用して効果量の推定を向上させることもできる。これは、素因形質と標的表現型との関係自体が十分に特徴付けされている場合に特に効果的であり得る。
【0024】
実施形態において、ファインマッピング済み変異型のセットの標的表現型に対する効果は、機械学習アルゴリズムを使用して推定される。このような実施形態において、ファインマッピング済み変異型のセットおよびそれらの対応する限界効果量が機械学習アルゴリズムに入力されて、残留関連データがファインマッピング済み変異型のセットにのみ対応する限界効果量になるように、効果量を生成する。ファインマッピング済み変異型のセットは、標的表現型の原因となる可能性が高いことが知られている1つ以上の変異型をさらに含むことができる。
【0025】
これにより、原因となる可能性が最も高い変異型に焦点を当てることによって、機械学習アルゴリズムが適用される遺伝子変異型の数を減らす。これにより、計算負荷が軽減され、方法の効率が向上する。
【0026】
実施形態において、関連の強度は、標的表現型に対する複数の遺伝子変異型の各々の推定効果量、および推定効果量の各々の標準誤差を含み、ファインマッピング予測モデルは、ファインマッピング済み変異型の各々についての標的表現型に対するファインマッピング済み効果量を含み、ファインマッピング済み効果量は、ファインマッピング済み変異型が表現型-変異型関連の原因となる推定確率を考慮して、ファインマッピング済み変異型の推定効果量から算出される。原因となる確率に応じてファインマッピング済み変異型の効果量を調整することにより、原因となる確実性が低い場合に、ファインマッピング済み変異型の有意性が過大評価されないことを保証する。
【0027】
実施形態において、関連の強度は、標的表現型に対する複数の遺伝子変異型の各々の推定効果量と、推定効果量の各々の標準誤差とを含み、ファインマッピング済み変異型のセットの標的表現型に対する効果を入力データから減算するステップは、入力データ内の複数の遺伝子変異型の各々についての残留効果量を取得するステップを含み、残留関連データは残留効果量を含み、等分散を保証するための効果量の適切な繰込み後に、遺伝子変異型iの残留効果量
【0028】
【0029】
【数2】
ここで、β
iは遺伝子変異型iの推定限界効果量であり、Nはファインマッピング済み変異型の数であり、p
jは変異型jが原因となる確率であり、
【0030】
【数3】
は、標的表現型に対するj番目のファインマッピング済み変異型のファインマッピング済み効果量であり、r
ijはj番目のファインマッピング済み変異型と遺伝子変異型iとの相関である。
【0031】
上記のアプローチにより、ゲノムの対象領域における変異型の残留効果を機械学習アルゴリズムによるさらなる解析のために明確に特定することが可能になる。
【0032】
実施形態において、入力データは複数の異なる遺伝学的研究から導出され、機械学習アルゴリズムを残留関連データに適用するステップは、異なる遺伝学的研究間の各遺伝子変異型と標的表現型との関連の強度の一貫性に依存する、標的表現型の原因となる複数の遺伝子変異型の各々についての事前確率を使用するステップを含む。機械学習アルゴリズムに非平坦事前分布を使用することにより、方法は、特定のデータが信頼できる確実性に関するさらなる情報を考慮して、その精度を向上させることができる。
【0033】
実施形態において、機械学習アルゴリズムを残留関連データに適用するステップは、対象領域における複数の遺伝子変異型のゲノムアノテーションに依存する、標的表現型の原因となる複数の遺伝子変異型の各々についての事前確率を使用するステップを含む。ゲノムアノテーションを含めることにより、特定の変異型が標的表現型の原因となる可能性に関するさらなるデータを提供し、それにより効果量の決定を向上させる。
【0034】
実施形態において、方法は、ファインマッピング予測モデルと機械学習アルゴリズムにより特定されたさらなる予測相関とを使用して、標的表現型についての個体のポリジェニックリスクスコアを算出するステップをさらに含む。
【0035】
機械学習アルゴリズムにより特定されたさらなる相関を考慮すると、方法が、ファインマッピング済み変異型のセットにより説明されない残留信号を考慮できることによって、PRSの精度が向上する。
【0036】
実施形態において、入力データは、生物の複数の異なる集団から導出され、以下のいずれかまたは両方が満たされる。すなわち、ファインマッピング予測モデルを算出するステップは、異なる集団に対応する入力データの一部について別個に実行されて、複数のそれぞれの集団一致のファインマッピング予測モデルを取得する、かつ、機械学習アルゴリズムを残留関連データに適用するステップは、異なる集団に対応する入力データの一部について別個に実行されて、集団一致のさらなる予測相関の複数のそれぞれのセットを取得する。
【0037】
ファインマッピング予測モデルと、特定の集団に一致するさらなる残留予測相関のセットとを提供することにより、方法は、ゲノムの対象領域内の連鎖不均衡(変異型間の相関)の起こり得る変動を考慮することができる。
【0038】
実施形態において、方法は、異なる集団の混合に由来する遺伝子を有する個体から入力データを受信するステップと、複数の集団一致のファインマッピング予測モデルの各々を、集団一致のファインマッピング予測モデルの集団に一致する入力データの対応部分に一致させ、一致する各ファインマッピング予測モデルを入力データの対応部分に適用すること、および集団一致のさらなる予測相関の複数のセットの各々を、集団一致のさらなる予測相関のセットの集団に一致する入力データの対応部分に一致させ、一致するさらなる予測相関の各セットを入力データの対応部分に適用すること、のいずれかまたは両方を実行することによって、個体のポリジェニックリスクスコアを算出するステップとをさらに含む。
【0039】
複数のファインマッピング予測モデルおよび/または個体からの入力データの異なる複数のそれぞれの部分に一致するさらなる残留予測相関のセットを使用して個体のポリジェニックリスクスコアを算出することにより、方法は、異なる集団に関連する変異型間の相関の系統的な差異を考慮した、より正確な予測リスクスコアを提供することができる。
【0040】
実施形態において、方法は、異なる集団のうちの1つに主に由来する遺伝子を有する個体から入力データを受信するステップと、集団一致のファインマッピング予測モデルを個体からの入力データのすべてに適用し、集団一致のファインマッピング予測モデルを個体の集団に一致させること、および集団一致のさらなる予測相関のセットを個体からの入力データのすべてに適用し、集団一致のさらなる予測相関のセットを個体の集団に一致させること、のいずれかまたは両方を実行することによって、個体のポリジェニックリスクスコアを算出するステップとを含む。
【0041】
ファインマッピング予測モデルと個体の集団に一致するさらなる残留予測相関のセットとを使用してポリジェニックリスクスコアを算出することにより、方法は、異なる集団に関連する変異型間の相関の系統的な差異を考慮した、より正確な予測リスクスコアを提供することができる。
【0042】
実施形態において、ファインマッピングアルゴリズムによって1つ以上のファインマッピング済み変異型を特定するステップは、複数の遺伝子変異型と標的表現型以外の表現型との関連を考慮する。
【0043】
他の表現型との相関に関する情報を使用することにより、ファインマッピング済み変異型とそれらの効果量とを特定するために使用できる利用可能な情報の量が最大化される。これにより、方法の結果の精度がさらに向上する。
【0044】
別の態様によれば、生物に関する情報を取得するために生物に関する遺伝子データを解析する装置であって、生物のゲノムの対象領域における、標的表現型を含む1つ以上の表現型と複数の遺伝子変異型との関連の強度を含む入力データを受信するように構成された受信部と、データ処理部とを備え、データ処理部が、関連ごとに、複数の遺伝子変異型から1つ以上のファインマッピング済み変異型のセットを特定すること、およびファインマッピング済み変異型ごとに、表現型-変異型関連の原因となる推定確率を決定することによって、ファインマッピングアルゴリズムを入力データのすべてまたはサブセットに適用して、対象領域内の1つ以上の独立した表現型-変異型関連を特定し、セット内のファインマッピング済み変異型の確率の合計が1になり、入力データおよびファインマッピング済み変異型のセットに基づいて、ファインマッピング済み変異型のセットの標的表現型に対する効果を定量化するファインマッピング予測モデルを算出し、ファインマッピング予測モデルを使用して、ファインマッピング済み変異型のセットの標的表現型に対する効果を入力データから減算して、残留関連データを取得し、かつ、機械学習アルゴリズムを残留関連データに適用して、標的表現型と複数の遺伝子変異型とのさらなる予測相関を特定するように構成されている、装置が提供される。
【0045】
添付図面を参照しながら、本発明の実施形態について、単に例としてさらに説明する。
【図面の簡単な説明】
【0046】
【
図1】生物に関する情報を取得するために遺伝子データを解析する方法を示すフローチャートである。
【
図2】生物に関する情報を取得するために遺伝子データを解析する装置を示す図である。
【
図3】冠動脈疾患(CAD)と低密度リポタンパク質(LDL)との効果量の比較を示すグラフである。
【
図4】染色体6のLPA領域におけるLDLに関連するファインマッピング済み変異型を特定するために4つのそれぞれの独立した関連信号を特定するための、ステップワイズ前方回帰解析におけるステップを表す4つのグラフである。
【
図5】
図4で特定された4つの関連信号についてのLDL結合効果量対LDL限界効果量の推定を示すグラフである。
【
図6】
図4および
図5の解析を使用して取得した残留関連データにLDpred機械学習アルゴリズムを適用することによって取得した、染色体6のLPA領域についてのCADのPRS重みを示すグラフである。
【
図7】先行するファインマッピングステップなしでLDpred機械学習アルゴリズムをCAD変異型データに直接適用することによって取得した、染色体6のLPA領域についてのCADのPRS重みを示すグラフである。
【発明を実施するための形態】
【0047】
本開示の実施形態は、生物に関する情報を取得するために生物に関する遺伝子データを解析するコンピュータ実装方法に関する。
図1は、これらの方法の枠組みを示す。
図2は、方法を実行するための装置6を示す。
【0048】
ステップS1で、(例えば、装置6の受信部8によって)入力データ2が受信される。受信部8は、データ通信インタフェースを備えることができる。データ通信インタフェースは、入力データ2を装置6のデータ処理部10に提供することを可能にする。データ処理部10は、後述するデータ処理機能を実行するように構成されたコンピュータハードウェア、ファームウェア、および/またはソフトウェアの任意の適切な組合せを含むことができる。オプションでコンピュータ可読媒体に設けられるコンピュータプログラムは、後述する方法のいずれかを実行するための命令を含んで提供され得る。装置6は、独立型ユニット(例えば、単一のPCまたはワークステーション)として示されているが、これは必須ではない。他の実施形態において、装置6は、ネットワークによって接続された複数のコンピュータを含む分散コンピューティングシステムを備える。
【0049】
一部の実施形態において、入力データ2は、生物のゲノムの対象領域における標的表現型を含む1つ以上の表現型と複数の遺伝子変異型との関連の強度を含む。一部の実施形態において、入力データ2は、GWAS要約統計量および個体レベルデータのいずれかまたは両方を含む。さらに詳細に後述するように、方法は、入力データ2を使用して、(i)標的表現型に対する直接的な原因効果を有する高信頼度を持つ変異型(ファインマッピング済み変異型と呼ばれる)を特定し、(ii)高信頼度の変異型に対する条件付け後に残留関連データ(残留信号と呼ぶことができ、かつ/もしくは残留信号から導出することができる)を取得し、かつ/または、個体の形質リスクを(例えばPRSの形で)予測することができる。この方法は、生物がヒトである実施形態で使用するときに特に有利である。
【0050】
標的表現型は、GWASの被験体になっているか、または関連する個体レベルの遺伝子データが利用可能である、任意の対象の表現型であり得る。このような表現型には多くの例があり、遺伝子(および関連するヌクレオチド配列)の発現のレベルおよび発現の調整、後成的な特徴(例えば、ヌクレオチド修飾、染色体の立体配座)、タンパク質またはペプチドの存在レベル、タンパク質またはペプチドの機能および/または分子構造、生物の分子量(例えば、薬物、ホルモン、DNA分子、もしくはRNA分子、代謝産物、ビタミン)、生化学過程および代謝過程の特徴(例えば、基礎代謝率、プロトロンビン時間、活性化部分トロンボプラスチン時間)、細胞形態および機能(例えば、平均赤血球容積、絶対好中球数)、組織形態および機能(例えば、骨のミネラル密度、髪の色)、器官および器官系形態ならびに機能(例えば、左室駆出分画、努力肺活量)、外部刺激(例えば、光、音、触覚、または他の感覚入力)に対する反応、物質または病原体への暴露に対する反応(例えば、食事摂取、薬物、ガス、ウイルス、細菌)、行動および生活様式の特徴(例えば、喫煙、アルコール消費量、職業)、生殖およびライフコースの特徴ならびに機能(例えば、初経年齢、胎盤重量、教育年数)、疾患または症状(例えば、糖尿病、心血管疾患、肥満)の発症、経緯、および予後、測定可能な解剖学的特徴(例えば、ボディマス指数、除脂肪筋肉量、体脂肪率)、測定可能な生理学的または機能的特徴(例えば、心拍数、血圧、知能)、ならびに測定可能な心理的または認知的特徴(例えば、流動性知能の指標、精神病症状)が含まれる。これらの測定値のいずれも、絶対値または相対値であり得る。表現型は、形質と呼ばれることも多い。
【0051】
ステップS2で、ファインマッピングアルゴリズムが入力データ2のすべてまたはサブセットに適用される。実施形態において、ファインマッピングステップは、原因となる高信頼度の変異型を特定し、それにより、ファインマッピング済み変異型のセットを取得する。ステップS2に関するさらなる詳細は後述する。
【0052】
ステップS3で、入力データ2とファインマッピング済み変異型とに基づいて、ファインマッピング予測モデルが算出される。ファインマッピング予測モデルは、標的表現型に対するファインマッピング済み変異型の効果量を定量化する。効果量とは、所与の変異型が疾患リスク(または、より一般的には、所与の表現型を有するまたは発現する「リスク」)にどの程度影響を与えるかを指す。例えば、効果量が1.2であれば、その所与の変異型のリスクアレル(個体ごとに0、1、または2として符号化され得る)当たりのリスクが20%増加することを意味する。したがって、効果量の定量化により、ファインマッピング予測モデルは、個体からの遺伝子データに基づいて個体に関する予測を行うことができる。S3に関するさらなる詳細は後述する。
【0053】
ステップS4で、ファインマッピング予測モデルを使用して、ファインマッピング済み変異型のセットの標的表現型に対する効果を入力データ2から減算して、残留関連データを取得する。ステップS4に関するさらなる詳細は後述する。
【0054】
ステップS5で、機械学習アルゴリズムを残留関連データに適用して、入力データ2の標的表現型と複数の遺伝子変異型とのさらなる予測相関を特定する。以下の具体的な例では、LDpredと呼ばれる機械学習アルゴリズムが使用される。LDpredは、ファインマッピングおよびPRS生成の技術分野において公知である。実装用ソフトウェアは、https://github.com/bvilhjal/ldpredで入手可能である。さらなる予測相関は、(ファインマッピング済み変異型の効果を考慮した後に)ファインマッピング済み変異型以外の変異型に関連する効果量を定量化することができ、それにより、ファインマッピング予測モデルが個体からの遺伝子データにのみ適用された場合に対して、個体に関する予測を向上させることができる。
【0055】
ステップS6で、PRSモデルが評価される。PRSモデルは、ステップS3のファインマッピング予測モデルから一部が導出され、ステップS5で実行された機械学習によるさらなる予測相関から一部が導出され得る。後述するように、ファインマッピング予測モデルと機械学習によるさらなる予測相関との組合せは、変異型に対する加重和の形を取る、PRSを算出するための手段を定義することができ、ファインマッピング済み変異型の重みがファインマッピング予測モデルによって提供され、他の変異型の重みが機械学習によるさらなる予測相関によって提供される。これは、トレーニングされた機械学習アルゴリズムを、変異型に対するこのような加重和の観点で解釈できる場合に可能である。他の実施形態において、トレーニングされた機械学習アルゴリズムは、より複雑であり、したがってPRSモデルの一部として異なる方法で表現され得る。
【0056】
ステップS6で算出されたPRSモデルを使用して、個体からの遺伝子データに基づいてPRSスコアを算出することができる。PRSモデルは、PRSモデルを表すデータとして(例えば、
図2の装置6のデータ通信インタフェースを介して)出力され得る。したがって、ステップS6までのステップ(機械学習アルゴリズムのトレーニングを含む)を、1つの装置6で実行することができ、PRSモデルの使用を伴う後続の(例えば、個体のPRSスコアを算出するための)ステップを、必要なデータ処理タスクを実行可能なコンピュータハードウェア、ファームウェア、および/またはソフトウェアの任意の適切な組合せを含む他の装置(図示せず)で実行することができる。あるいは、PRSスコアの算出を、PRSモデルを算出したものと同じ装置6で行うことができる。
【0057】
ステップS7で、ステップS6で算出されたPRSモデルを使用して、個体のPRSスコアを算出する。PRSスコアは、PRSスコアを表すデータ4として出力され得る。
【0058】
算出されたPRSモデルは、任意の個体から取得した遺伝情報からPRSスコアを算出することができるという意味で、一般的なレベルの生物に関する(例えば、一般的にヒトに関する)情報を構成する。PRSスコアは、特定の個体生物(例えば、単一のヒトの被験者)に関する情報を構成する。
【0059】
[適用シナリオの例]
図3~
図7は、シナリオの例における
図1の方法の使用を示し、以下に示す方法ステップのより詳細な説明において参照する。
【0060】
図3は、LDLの効果量が、LDLに関連する95の別個の座位でCADの効果量とどのように相関するかを示す。この相関は、LDLがCADに略直接的な因果的影響を与えると理解されるため、部分的に観察される。したがって、LDLをCADの適切な素因と呼び、これは、LDLに関する情報を使用してCADのPRSの精度を向上させることができることを意味する。
【0061】
図4は、確立された方法(ステップワイズ前方回帰)を使用する、染色体6のLPA領域における
図1の方法を使用したLDLのファインマッピングの結果を示す。各回帰ステップは、追加の独立した表現型-変異型関連を特定し、合計4つの独立した表現型-変異型関連が特定されている。各プロットにおいて、黒い三角形は、新たに特定されたファインマッピング済み変異型またはファインマッピング済み変異型の信頼できるセット(CS)を表す。各ステップで、ファインマッピング確率が低い(<1%)遺伝子変異型はグレーである。第1のLDL関連信号は、後方確率が1%を超える4つのファインマッピング済み変異型を有し、残りの3つのLDL関連信号は、ファインマッピング確率が>1%の単一のファインマッピング済み変異型を特定する。
【0062】
図5は、この例のLDL素因形質について、
図4に示す4つの独立した表現型-変異型関連から推定された4つの結合推定効果量が、4つの限界推定効果量とわずかに異なることを示す。
【0063】
図6および
図7は、染色体6の同じLPA領域について導出されたCADのPRS重みを示す。
図6では、ファインマッピング済みCAD変異型をLDLのファインマッピングおよび効果量(
図4および
図5)から外挿し、LDpred解析の前にCADデータから減算して残留信号(さらなる予測相関を表す)を捕捉したことを示す。したがって、
図6は、LDLファインマッピング(黒)から導出されたPRS重みと、LDpred残留信号(グレー)から導出されたPRS重みとを組み合わせている。これは、最初のファインマッピングのステップなしで、CADのみに基づく標準的なLDpred解析戦略が適用された
図7とは対照的である。最初のLDLファインマッピングを行わないプロセスの精度が制限された結果の1つは、
図7において第4の信号が検出されていないことである。これは、CADデータのみではこの関連を特徴付けるには不十分であるからである。
【0064】
図1のステップS2~S7の実装形態の詳細のさらなる例を以下に示し、必要に応じて、例示の目的で上記の適用シナリオの例を参照する。
【0065】
[ステップS2:ファインマッピング]
前述したように、ステップS2で、方法は、ファインマッピングアルゴリズムを入力データ2のすべてまたはサブセットに適用して、対象領域内の1つ以上の独立した表現型-変異型関連を特定する。対象領域内の1つ以上の独立した表現型-変異型関連の特定は、対象の表現型について、原因変異型であるかまたは原因変異型のタグ変異型である高信頼度を有する変異型である、高信頼度のファインマッピング済み変異型を特定することを含むことができる。関連ごとに、1つ以上のファインマッピング済み変異型のセットが複数の遺伝子変異型から特定される。
【0066】
図4は、上記の適用シナリオの例の文脈における、ファインマッピングアルゴリズムの適用を示す。この場合のファインマッピングアルゴリズムは、染色体6の領域(図示の4つのプロットの各々につき1つ)内のLDLについての4つの独立した表現型-変異型関連を特定する。
【0067】
ファインマッピングアルゴリズムは、通常、原因変異型、あるいは原因変異型を含むまたは厳密にタグ付けする信頼できる変異型のセットを探し当てることによって、標的表現型の基礎となる原因生物学的属性を捕捉するように設計される。ファインマッピングアルゴリズムは、通常、基礎となる生物学的属性にマッピングするデータの個別の要約を提供することなく予測信号を捕捉する、LASSO、ランダムフォレスト、またはニューラルネットワークなどの機械学習技術に基づく、代替の純粋な予測アプローチとは対照的である。
【0068】
表現型-変異型関連は、ある程度の相関が2つの特定された変異型間にあり得る場合でも、第2のファインマッピング済み変異型と表現型との関連は、表現型に関連付けられた第1のファインマッピング済み変異型との相関のみによるものではないという意味で独立している。言い換えると、表現型に関連付けられた第1のファインマッピング済み変異型を考慮または条件付けした後でも、第2のファインマッピング済み変異型は表現型に関連付けられる。一方、CS内の変異型のうちの1つを選択し、この変異型に対して条件付けすると、CS内の他のすべての変異型における関連が消滅し、すなわち、変異型間の高い相関により複数の関連が存在するだけであるため、CS内の複数の変異型は互いに独立していない。
【0069】
独立した各表現型-変異型関連は、単一のファインマッピング済み変異型、または(複数の)ファインマッピング済み変異型の信頼できるセット(CS)に関連付けられ得る。したがって、関連ごとに、1つ以上のファインマッピング済み変異型のセットが、複数の遺伝子変異型から特定される。ファインマッピング済み変異型のCSは、標的表現型の原因となる可能性が高いと考えられる2つ以上のファインマッピング済み変異型のセットである。方法は、ファインマッピング済み変異型ごとに、表現型-変異型関連の原因となる推定確率を決定し、セット内のファインマッピング済み変異型の確立の合計は1になる。1つのファインマッピング済み変異型のみが特定される場合、推定確率は、単にそのファインマッピング済み変異型について1になる。
図4で、前方回帰ステップ2~4は、単一のファインマッピング済み変異型を特定する例を示すが、前方回帰ステップ1は、ファインマッピング済み変異型のCSを特定する。
【0070】
一部の実施形態において、ファインマッピングアルゴリズムによる1つ以上のファインマッピング済み変異型の特定は、複数の遺伝子変異型と標的表現型以外の表現型との関連を考慮する。したがって、このような実施形態の入力データ2は、生物のゲノムの対象領域における複数の表現型と複数の遺伝子変異型との関連の強度を含む。複数の表現型との関連を使用すると、多数の研究のデータを活用しやすくなり、幅広い異なる表現型を網羅することができ、多くの形質が同じ原因変異型を共有できるという事実を利用することができる。
【0071】
実施形態において、入力データ2は、個々の変異型と標的表現型との関連を、限界変異型効果量および標準誤差の形で記述するデータを含む。このような実施形態において、関連の強度は、標的表現型に対する複数の遺伝子変異型の各々の推定効果量、および推定効果量の各々の標準誤差を含むことができる。推定効果量は、限界変異型効果量である。限界変異型効果量とは、単独で考慮したとき、すなわち、近くの相関変異型の影響を無視したときの変異型の影響を指す。例えば、タグ変異型は、強い限界効果量を有することができるが、その「真の」効果量はゼロである。この形式の入力データは、一般に要約統計データと呼ばれる。
【0072】
実施形態において、ファインマッピングアルゴリズムを入力データ2のすべてまたはサブセットに適用して、対象領域内の1つ以上の独立した表現型-変異型関連を特定することは、以下を含む。所与のDNA領域(すなわち、生物のゲノムの領域)内の確率モデル(例えば、ベイズ統計モデル)を使用することにより、研究(標的表現型と1つ以上の遺伝子変異型との関連の強度に関するデータを各々含む)がクラスタに割り当てられ、各クラスタは原因変異型の同様のパターンを有すると仮定される。次に、マルコフ連鎖モンテカルロアルゴリズムなどを使用して、可能なクラスタ割当てのスペースを探索する。研究をクラスタに割り当てる反復のセット数が実行されると、クラスタの特徴のセットを使用して、対応するクラスタに割り当てられた表現型の原因となる可能性がある単一の変異型または遺伝子変異型のCS(すなわち、1つ以上のファインマッピング済み変異型のセット)を特定することができる。この方法を多数の表現型に基づいて使用すると、表現型に影響を与える変異型を特定する検出力および精度が向上する。この種の方法のさらなる詳細は、PCT出願第PCT/GB2019/050525号に見られる。
【0073】
場合によって、方法は、所与のDNA領域について、せいぜい単一のファインマッピング済み変異型またはファインマッピング済み変異型の単一のCSを特定する。しかしながら、領域内に原因となる可能性がある複数の独立したファインマッピング済み変異型(または対応する複数のCS)が存在し得る。これらの追加の独立したファインマッピング済み変異型の特定は、対象の疾患または形質の追加の予測を提供し、したがって、疾患または形質を発症する個体のリスクを予測する能力を向上させる。
【0074】
[要約統計データのみが利用可能であるときのステップS2の代替実装形態]
要約統計データのみが利用可能であるときに、追加の独立したファインマッピング済み変異型を特定することができる。実施形態において、これは、ゲノムの領域内の遺伝子変異型間の相関を考慮することによって実現され、この相関は、通常、1000ゲノムコンソーシアムまたはハプロタイプリファレンスコンソーシアムなどのリファレンスパネルの亜集団からしばしば取得される、位置i、jにおける遺伝子型g_i、g_j の相関r_ijの行列である「LD行列」によって要約される。FINEMAP(Benner他、Bioinformatics 2016、15;32(10):10):1493-501)などの方法は、多数の研究および表現型を考慮するこの設定に適切に適応され得る。
【0075】
別のそのような実施形態は、DNA領域内で既に特定されたファインマッピング済み変異型の効果を考慮するように要約統計データを更新し、次に追加のファインマッピング済み変異型の残留証拠を評価することによって、追加の原因変異型(本明細書ではファインマッピング済み変異型と呼ばれる)を特定する。この場合、ファインマッピング済み変異型のセットを特定することは、反復法を使用して実行される。各反復は、入力データに基づいて、前に特定されたファインマッピング済み変異型とは異なるゲノムの領域内のファインマッピング済み変異型を特定することと、ゲノムの領域内の遺伝子変異型間の相関の行列を使用して、既に特定されたファインマッピング済み変異型の標的表現型に対する影響を考慮するように入力データを更新することと、更新された入力データに基づいて、さらなる反復を行うかどうかを決定する(例えば、所定の有意性の閾値を超えなくなったとき、かつ/またはP値がすべて比較的平坦であるときなど、更新された入力データが対象の情報を含まなくなったと判定されたときに停止する)こととを含む。
【0076】
このアプローチは、せいぜい1つのファインマッピング済み変異型の追加または除去を提案することによって、DNA領域内のファインマッピング済み変異型の空間を探索するために反復的に適用することができる(https://projecteuclid.org/euclid.aoas/1507168840)。したがって、一部の実施形態において、前に特定されたファインマッピング済み変異型とは異なるファインマッピング済み変異型を特定するステップは、前に特定されたファインマッピング済み変異型を、ファインマッピング済み変異型のセットから除去することを含む。これらの方法のさらなる詳細は、PCT出願第PCT/GB2019/050525号に見られる。
【0077】
[個体レベルデータを使用するステップS2の代替実装形態]
代替のファインマッピング戦略は、個体レベルデータを使用してファインマッピングを実行することである。このような実施形態において、入力データを受信するステップは、複数の個体の各々について遺伝子型および対応する表現型を含む個体レベルデータを受信することと、個体レベルデータを使用して、標的表現型に対する複数の遺伝子変異型の各々の推定効果量、および推定効果量の各々の標準誤差を決定することとを含む。これは、ステップワイズ回帰法を使用して、前方選択、後方消去、またはこれら2つの組合せを用いてファインマッピング済み変異型の空間を探索することによって実現することができる。
【0078】
あるいは、個体レベルデータを要約統計データと組み合わせて使用し、PCT出願第PCT/GB2019/050525号に記載されているような要約統計量に基づくファインマッピング法により取得した情報を活用することができる。これを実現できる1つの方法は、PCT出願第PCT/GB2019/050525号に記載されているような方法により取得した単一のファインマッピング済み変異型/CSを使用し、その後のステップワイズ回帰ステップ(前述したように、前方選択と後方消去との組合せを使用することができる)でこれらに対して条件付けすることである。
【0079】
あるいは、個体レベルデータから導出され、既に特定されたファインマッピング済み変異型に対して条件付けされた残留要約統計データを取得することができる。このようにして、高信頼度のファインマッピング済み変異型として既に特定された変異型の効果が除去され、残留相関を使用してさらなるファインマッピング済み変異型を特定することが可能になる。
【0080】
これは、個体レベルデータを利用できないときに要約統計データに対して行われる条件付けと同様の方法で行われ、LD情報が不要であるという大きい利点がある。これらの導出された残留要約統計データを、PCT出願第PCT/GB2019/050525号に記載されているような方法の入力として使用することができる。この手順を反復的に繰り返すことができる。この方法は、個体レベルデータから導出された要約統計データのみを使用することに基づくことができ、または、個体レベルデータが存在しない研究からLDパネルを使用して導出された残留要約統計データと組み合わせることができる。
【0081】
[1つまたは複数の素因形質を使用するステップS2の代替実装形態]
ステップS2の代替実装形態は、素因研究を利用し、ファインマッピング済み変異型のセットを特定することが、標的表現型に影響を与えることが知られている1つ以上の素因形質を使用することを含むようになっている。形質が対象の形質に強く相関するとき、標的表現型の素因として形質を定義する。特殊なケースは、標的表現型の直接的な原因となる/標的表現型を修飾する素因である。例えば、LDLは冠動脈疾患の素因形質と考えることができ、冠動脈疾患は全生存についての素因形質である。素因研究は、素因形質と、標的表現型に関して考慮されている複数の遺伝子変異型との関連の強度に関する情報を提供する。
【0082】
多くの場合、標的表現型に対する変異型の効果は、標的表現型の信頼できるセット(CS)を特定するには小さすぎる。しかしながら、この効果は、適切な検出力の素因研究を使用してファインマッピングを実現可能にするには十分であり得る。言い換えると、素因形質に対する変異型の効果が標的表現型に対する変異型の効果よりも大きいため、変異型が素因形質の原因となるかどうかを正確に判定することがより容易になる。その文脈において、ファインマッピングおよび原因信号の特定は、素因研究のみに基づくため、普通なら特徴付けされない標的表現型に関する情報を提供する。
【0083】
上記の知見に基づいて、ファインマッピング済み変異型のセットの特定は、標的表現型に影響を与えることが知られている1つ以上の直接原因となる素因形質についてのファインマッピング済み変異型のセットを特定することを含む。これは、ステップS2のファインマッピングを補うために素因形質を使用する比較的簡単な方法であるが、既知の直接原因となる素因形質を利用できることが必要である。他の実施形態において、ファインマッピング済み変異型のセットの特定は、標的表現型に影響を与えることが知られている複数の素因形質を使用することを含む。方法は、次に、素因形質についてのファインマッピング済み変異型のセットを決定することと、素因形質と標的表現型との関係に基づいて、標的表現型についてのファインマッピング済み変異型のセットに、素因形質についてのファインマッピング済み変異型のうちの1つ以上の各々を含めるかどうかを決定することとを含む。この場合、複数の素因形質と標的表現型との関係は、素因形質と標的表現型との関連の潜在的に複雑なパターンを考慮することができ、必ずしも直接原因となる素因形質ではない素因形質の利用を可能にする。
【0084】
図3~
図5は、CADの素因形質であるLDLについてファインマッピングを行う例を示し、LDLについて特定されたファインマッピング済み変異型(
図4)を、CADを対象の表現型として使用する後続のステップ(
図6)で使用する。
【0085】
[ステップS3:ファインマッピング予測モデルの算出(例えば、ファインマッピング済み変異型の効果量を推定するため)]
前述したように、ステップS3で、方法は、入力データ2とファインマッピング済み変異型のセット(ステップS2で特定)に基づいて、ファインマッピング予測モデルを算出する。ファインマッピング予測モデルは、ファインマッピング済み変異型のセットの標的表現型に対する効果を定量化する。標的表現型に対する効果は、標的表現型についてのファインマッピング済み効果量を使用して定量化することができ、その場合、ファインマッピング予測モデルは、変異型間の相関を考慮するファインマッピング済み変異型の各々についての標的表現型に対するファインマッピング済み効果量から構成されるか、またはこれを含む。
【0086】
関連の強度が要約統計データ(例えば、標的表現型に対する複数の遺伝子変異型の各々の推定効果量、および推定効果量の各々の標準誤差)を含む実施形態において、ファインマッピング済み効果量は、標的形質(すなわち標的表現型)についての単一のGWASによる限界要約統計データから直接取得することができる。単一のファインマッピング済み変異型が領域内で特定されると、GWAS要約統計データで報告される効果量を使用することができる。変異型のCSが特定されると、GWAS要約統計データは、変異型が原因となる確率(CSの残りの変異型に対する)に従って重み付けされ得る。一部の実施形態において、したがって、各ファインマッピング済み効果量は、ファインマッピング済み変異型が表現型-変異型関連の原因となる推定確率(例えば、前述したように重み付けとして入力データ2から導出される)を考慮して、ファインマッピング済み変異型の推定効果量(例えば、入力データ2から導出される)から算出され得る。例えば、ファインマッピング済み効果量は、推定効果量にファインマッピング済み変異型が原因となる確率を乗算することに基づいて導出され得る。
【0087】
[相関関連の存在下でのステップS3の代替実装形態]
いくつかの独立した生物学的関連を捕捉する複数の信頼できるセットが同じDNA領域内で特定されたときに、補正を効果量に適用して、関連間の相関を制御することが望ましい。補正済み効果量は、一般に、結合効果量と呼ばれる。これは、
図4を参照して前述した染色体6のLPA領域におけるファインマッピングの例に示される。
図5は、LDL素因形質について、4つの結合推定効果量が4つの限界推定効果量とわずかに異なることを示す。関連が密接に相関している場合、その差異は大きくなり得る。
【0088】
複数のファインマッピング済み変異型が互いに独立して形質に関連付けられているとき、それらの間に依然として何らかの相関があり得る。これらの独立したファインマッピング済み変異型の限界効果量は、変異型間の相関を考慮するように調整する必要がある。したがって、言い換えると、結合効果量は、変異型間の相関を考慮した1つの形質についての複数の変異型、例えば、LDLの例における4つのファインマッピング済み変異型間に何らかの相関があることを考慮した、4つのファインマッピング済み変異型の効果量である。
【0089】
結合効果量の推定についてのこの補正は、集団固有のDNA領域における変異型相関(またはLD)のパターンが十分に特徴付けられるという前提で、要約統計データ(Yang他、Nature Genetics 2012、44(4):369-75に記載)を使用して適用され得る。あるいは、この補正は、個体レベルデータを使用して適用され得、それにより、DNA領域内で特定されたすべての選択されたファインマッピング済み変異型が、回帰モデルを使用して結合して当てはめられる。この補正は、いくつかの別個の関連が、相関する信頼できる変異型のセットに関連付けられる場合に必要である。
【0090】
[1つまたは複数の素因形質を使用するステップS3の代替実装形態]
効果量の推定のための代替方法は、素因研究を活用する。この種の実施形態において、ステップS2のファインマッピング済み変異型のセットの特定は、標的表現型に影響を与えることが知られている1つ以上の素因形質についてのファインマッピング済み変異型のセットを決定することを含む。次に、ファインマッピング予測モデルの算出は、1つ以上の素因形質についてのファインマッピング済み変異型のセットの1つ以上の素因形質に対する効果量を決定することと、素因形質の効果量と標的表現型の効果量との所定の関係に基づいて、標的表現型についてのファインマッピング済み変異型のセットに含まれる素因形質についてのファインマッピング済み変異型の各々の標的表現型の効果量を決定することとを含む。遺伝子変異型が素因形質に与える影響は標的表現型よりも大きいため、標的表現型よりも素因形質に対するその変異型の効果量を推定することが容易である。
【0091】
したがって、外部データまたはゲノムワイドデータが、素因形質と標的表現型の効果量との関係を正確に特徴付けることを可能にする場合、標的表現型の効果量をより正確に推定するために、素因形質のより良好な推定効果量を活用することができる。素因形質の効果量と標的表現型の効果量との関係を特徴付ける1つの方法は、素因形質と標的表現型との両方についてファインマッピングされるように定義された変異型の効果量に対して線形回帰を行うことである。
【0092】
図3は、LDLおよびCADの効果量の関係を、LDL関連変異型の大きいセットを使用して推定する例を示す。LDLは、この例ではCADの素因形質として機能する。
【0093】
すべての研究/表現型を潜在的な素因形質として使用するステップS3の代替実装形態
ステップS3の代替案は、前述した(かつPCT出願第PCT/GB2019/050525号に詳述されている)確率モデルをトレーニングするために使用されるすべての研究について特定された独立したファインマッピング済み変異型(またはCS)を利用することである。これは、少なくとも1つの疾患/形質の原因となる可能性がある変異型のセットをもたらす。
【0094】
次に、ステップS5の機械学習アルゴリズムを、この変異型のセットに適用することができる(通常、このセットの変異型の数は、ステップS5に使用される数よりもはるかに少ない)。それにより、ファインマッピング済み変異型のセットの標的表現型に対する効果は、機械学習アルゴリズムを使用して推定され、この機械学習アルゴリズムはステップS5で使用されるアルゴリズムと同じであることが好ましい。ステップS3の本実施形態の入力は、ファインマッピング済み変異型の各々についての限界効果量であり、すなわち、この段階では信号減算が適用されていない。ステップS3の本実施形態の出力は、ステップS5の出力と同じであり、すなわち、効果量の推定の不確実性と、変異型が焦点の表現型の原因となる確率とを考慮した残留効果量に基づく重みのセットである。ファインマッピング済み変異型のサブセットについて計算されたこれらの重みは、次いで、複数の遺伝子変異型の効果量から減算され、それにより、ステップS4の他の実施形態と同等の残留関連データを生成する。
【0095】
一部の実施形態において、ファインマッピング済み変異型のセットを、疾患/形質の原因となる可能性が高い、文献で報告された変異型のセットと組み合わせることができる。それにより、ファインマッピング済み変異型のセットは、標的表現型の原因となる可能性が高いことが知られている1つ以上の変異型をさらに含む。
【0096】
[集団間データを使用するステップS3の代替実装形態]
集団にわたる効果量の一貫性について仮定することができる。一方では、効果量は集団にわたって一定であると仮定することができる。他方では、十分なデータが利用可能であれば、一致する集団において前記方法のいずれかを用いて、集団固有のデータセットのみを使用して効果量を推定することができる。
【0097】
中間プロセスは、集団にわたる効果量に関する情報を借用する階層モデルであり、データがこれをサポートする場合に、推定効果量の何らかの変動を可能にする。
【0098】
[ステップS4およびS5:減算および機械学習]
ステップS4およびS5で、方法は、ファインマッピング予測モデルを使用して、ファインマッピング済み変異型のセットの標的表現型に対する効果を入力データ2から減算して残留関連データを取得することと、機械学習アルゴリズムを残留関連データに適用して、標的表現型と複数の遺伝子変異型とのさらなる予測相関を特定することとを含む。
【0099】
実施形態において、機械学習アルゴリズムは、LDpredによって提案されたモデルを含み、残留信号を特定するために要約統計データのみを必要とする。
【0100】
その例示的な文脈において、変異型ごとに3種類の効果量を定義する。
・βiは、要約統計データを使用するときの要約統計データからの推定効果量である、変異型iの限界効果を指す。
・pjは、ファインマッピング済み変異型jが原因となる確率を指す(信頼できるセット内の確率の合計は1になる)。
・
【0101】
【数4】
は、ファインマッピングステップに基づくファインマッピング済み変異型jの推定原因効果を指し、したがって、標的表現型に対するj番目のファインマッピング済み変異型の推定ファインマッピング済み効果量に対応する。ほとんどの変異型は原因効果を持たないが、信頼できるセット内のファインマッピング済み変異型は、非ゼロ値、したがって非ゼロ値p
jを持つ。
・
【0102】
【数5】
は、変異型iの残留効果量、すなわち変異型iの限界効果であるが、信頼できるセット内の相関変異型の効果が減算されている。
【0103】
これらの表記法により、効果量βiを正規化して、その分散が等しくなるようにした後、減算を行うことができる。
【0104】
【数6】
ここで、r
ijは、変異型i、j間の相関を捕捉する。この相関は、集団固有であり、連鎖不均衡のパターンと呼ばれることが多い。この減算は、ファインマッピング確率p
jが非ゼロであるすべての変異型に対して行われる。それにより、本実施形態において、入力データからファインマッピング済み変異型のセットの標的表現型に対する効果を減算するステップは、標的表現型に対する複数の遺伝子変異型の各々の推定効果量から効果量の加重和を減算して、複数の遺伝子変異型の各々の残留効果量を取得することを含む。本実施形態において、残留関連データは残留効果量を含む。
【0105】
その後、ファインマッピングがない場合(すなわち、ステップS2およびS3が実行されず、機械学習ステップが入力データに対して直接操作される場合)に実行する方法と同一の方法で、推定の機械学習ステップをこれらの残留効果量に対して実行することができる。ファインマッピングを追加すると、機械学習プロセスの出力に大きい差異が生じ得る。これらの大きい差異は、例えば、
図6(ファインマッピングによる方法を使用して導出されたPRS重量を示す)と
図7(ファインマッピングなしの方法を使用して導出されたPRS重みを示す)との差異によって示すように、機械学習アルゴリズムからの出力を使用してPRS重み(以下で定義)を算出する場合に見られる。さらに、ファインマッピング済み信号は、一般的に集団にわたって共有される真の原因変異型に近似するため、集団の差異に対するより良好な堅牢性をもたらす。
【0106】
機械学習ステップS5は、変異型間の相関を考慮しながら、残留信号に基づいて変異型に割り当てられた有意性を示す、非ファインマッピング済み変異型(すなわち、入力データ2に含まれていたが、ステップS2でファインマッピング済み変異型として特定されなかった変異型)の重みのセットを出力することができる。このプロセスは、変異型間の集団固有の相関パターンによって大きく影響されるため、集団固有の変異型のセットおよび重みが生じる。したがって、入力データが生物の複数の異なる集団から導出される実施形態において、i番目の変異型とj番目の変異型との相関rijは集団に依存する。
【0107】
図6および
図7は、機械学習/LDpredの重みが、原因となると推定される変異型を正確に特徴付けるファインマッピング出力、または少なくとも真の原因変異型と密接に相関するファインマッピング出力とは対照的に、領域にわたって広く分布している様子を示す。
【0108】
変異型固有の事前分布における関連する形質関連データの組込み
LDpredなどの遺伝的予測のためのベイズ機械学習アルゴリズムは、通常、変異型が原因となる確率を捕捉する事前値に依存する。通常、同じ事前値がすべての変異型に割り当てられる。これは、平坦事前分布と呼ばれる。すべての変異型に割り当てられる事前値が小さいと、ほとんどの重みが小さいかゼロに等しいスパースモデルになるが、値が大きくなるほど、予測重みが多数の変異型にわたって広がる、より拡散したモデルになる。変異型ごとに平坦事前分布を仮定する標準LDpredモデルの代替案は、変異型固有の方法で事前確率を適応させるために、形質間情報を活用することである。
【0109】
これを実現する1つの方法は、ロジスティック回帰モデルを使用することである。2値結果変数は、個体の独立コホートを使用して、標的表現型の十分な検出力のGWASと同じ標的表現型のGWASとの間の限界変異型効果量の方向の一貫性を示す。
【0110】
これは、入力データが複数の異なる遺伝学的研究から導出される場合に、機械学習アルゴリズムを残留関連データに適用するステップが、異なる遺伝学的研究間の各遺伝子変異型と標的表現型との関連の強度の一貫性に依存する、標的表現型の原因となる複数の遺伝子変異型の各々についての事前確率を使用することを含むことができることを意味する。関連する形質に対して行われたGWASによる関連の強度(例えばP値)は、入力/予測変数として使用される。結果として得られる回帰係数の線形結合(各回帰係数は、関連する形質が標的表現型であることをどのように予測するかを捕捉する)は、入力変数(すなわち、当てはめ値)によって重み付けされ、次いで正規化手順が行われ、その後、変異型固有の事前分布として機能することができる。その結果、機械学習アルゴリズムは、標的表現型に最も関連する形質に関連の証拠を持つこれらの変異型についてより高い重みを生成する。
【0111】
変異型固有の重みの定義のための別の選択肢は、GWASではない外部ゲノム研究から導出されたゲノムアノテーションの組込みである。このような場合、機械学習アルゴリズムを残留関連データに適用するステップは、対象領域における複数の遺伝子変異型のゲノムアノテーションに依存する、標的表現型の原因となる複数の遺伝子変異型の各々についての事前確率を使用することを含む。機械学習アルゴリズムをさらに強化し、予測性能を向上させるために、このような機能情報、例えば、タンパク質コード変異型の存在、または関連する転写因子に対するDNA結合部位を、GWASデータから定義される事前分布と組み合わせることができる。
【0112】
[ステップS6およびS7:PRSモデルおよびPRSの算出]
実施形態において、方法は、ファインマッピング予測モデル(ステップS3で算出)および機械学習アルゴリズム(ステップS5)により特定されたさらなる予測相関を使用して、標的表現型についての個体のPRSを算出することをさらに含む。実施形態において、ファインマッピング予測モデルおよび機械学習アルゴリズムにより特定されたさらなる予測相関を使用して、PRSモデルを定義する(ステップS6)。PRSモデルを使用して、個体からの遺伝子データ3を考慮して個体のPRSを算出することができる(ステップS7)。実施形態において、PRSモデルは変異型に対する加重和であり、ファインマッピング予測モデルおよび機械学習アルゴリズムにより特定されたさらなる予測相関によって重みが提供される。実施形態において、PRSは以下のように算出される。
【0113】
【数7】
ここで、LはPRSに寄与する変異型の数であり、各変異型はファインマッピング予測モデルまたは機械学習アルゴリズムからのさらなる予測相関に含まれ、X
lは変異型lの遺伝子型であり、α
lは、標的表現型に対する変異型lの予測的影響を定量化するPRS重みである(すなわち、標的表現型に対する変異型lの関連の強度を定量化する)。PRS重みは、効果量に関連し、ファインマッピング予測モデル(ステップS3で算出)によって、または機械学習アルゴリズムからのさらなる予測相関(ステップS5で取得)によって指定され得る。
【0114】
ファインマッピング済み変異型の場合、PRS重みαlは、通常、変異型が原因となる確率plによって重み付けされた、標的表現型に対する変異型lの効果量βlに直接関連し、したがって、
αl=plβl
となる。
【0115】
素因形質が使用され、素因および標的の効果量間の関係(比例数βl=Kβ’lなど。ここでβ’lは素因研究の効果量である)が確立されている場合、PRSの重量はこの素因に基づく。
αl=plKβ’l
【0116】
機械学習アルゴリズムによって割り当てられたPRS重みを持つ変異型の場合、効果量とPRS重みとの関係は、あまり直接的ではないことがあり、アルゴリズムの詳細に依存する。
【0117】
一部の実施形態において、個体のポリジェニックリスクスコアは、ファインマッピング予測モデルを個体からの遺伝子データに適用することによって提供される第1の部分ポリジェニックリスクスコア(例えば、遺伝子データのみのファインマッピング済み変異型に基づく)と、機械学習アルゴリズムからのさらなる予測相関を個体からの遺伝子データに適用することによって提供される第2の部分ポリジェニックリスクスコア(例えば、ファインマッピング済み変異型以外の遺伝子データの変異型に基づく)との組合せ(例えば合計)から導出され得る。
【0118】
PRS重みの算出につながる機械学習ステップは、集団固有であり得、遺伝子データを使用して特定できる祖先に基づいて、異なるPRSを異なる個体に適用できることを意味する。
【0119】
一部の実施形態において、入力データ2は、生物の複数の異なる集団(例えば、異なる種類の祖先)から導出され、以下のいずれかまたは両方が満たされる。
i)ファインマッピング予測モデルの算出は、異なる集団に対応する入力データの一部について別個に実行されて、複数のそれぞれの集団一致のファインマッピング予測モデルを取得する。
ii)機械学習アルゴリズムの残留関連データへの適用は、異なる集団に対応する入力データの一部について別個に実行されて、集団一致のさらなる予測相関の複数のそれぞれのセットを取得する。
【0120】
集団のうちの1つに由来する個体(例えば、異なる集団のうちの1つに主に由来する遺伝子を有する個体)のPRSは、以下のように算出され得る。入力データは個体から受信される。以下のいずれかまたは両方を実行することによって、個体のPRSが算出される。
i)集団一致のファインマッピング予測モデルを個体からの入力データのすべてに適用し、集団一致のファインマッピング予測モデルを個体の集団に一致させる。
ii)集団一致のさらなる予測相関のセットを個体からの入力データのすべてに適用し、集団一致のさらなる予測相関のセットを個体の集団に一致させる。
【0121】
[混合個体のPRSを算出するための代替実装形態]
アフリカ系アメリカ人の個体など、2つ以上の明確な祖先群の混合である個体の場合、染色体の異なるセグメントをこれらの祖先の各々に割り当てることができる。ファインマッピングアプローチの重要な動機は、集団にわたって一貫している可能性がより高い原因変異型およびCSを特定することである。しかしながら、ファインマッピング以上に、機械学習方法を含む予測アルゴリズムの種類は、連鎖不均衡のパターンに依存し、したがって標的集団に依存する。したがって、異なる集団について異なるPRSが導出される。
【0122】
集団遺伝学の分野は、個体の染色体セグメントを、それらの染色体セグメントが由来する別個の集団に一致させる方法を確立した。このプロセスは「染色体ペインティング」と呼ばれる。混合個体を適切に処理するために、この染色体ペインティングステップを、当該個体の遺伝子型データに適用する。個体を単一の集団に割り当てるのではなく、母系染色体コピーおよび父系染色体コピーを別々に考慮して、関連する集団固有のPRSを適切な染色体セグメントに適用する混合PRSを構築する。
【0123】
この種の実施形態において、個体からの入力データ(異なる集団の混合に由来する遺伝子を有する)が受信される。以下のいずれかまたは両方を実行することによって、個体のPRSが算出される。
i)複数の集団一致のファインマッピング予測モデルの各々を、集団一致のファインマッピング予測モデルの集団に一致する入力データの対応部分に一致させ、一致する各ファインマッピング予測モデルを入力データの対応部分に適用する。
ii)集団一致のさらなる予測相関の複数のセットの各々を、集団一致のさらなる予測相関のセットの集団に一致する入力データの対応部分に一致させ、一致するさらなる予測相関の各セットを入力データの対応部分に適用する。
【0124】
実際には、ファインマッピング予測モデルは、集団にわたって概ね一貫していることが予想され、ファインマッピング済み変異型のセット、および場合によっては、ファインマッピング済み変異型の効果量さえも固有になり、集団間情報を使用してそれらを正しく取得するようになっている。したがって、上記の方法では、さらなる予測相関のセットに関して集団との一致を行うことに最も大きい価値があると予想される。したがって、実施形態において、ファインマッピング予測モデルは、i)ファインマッピング済み変異型の選択およびii)これらの変異型に関連付けられた効果量のいずれかまたは両方について、複数の利用可能な集団データセットからのデータを組み合わせることによって確立される。このような実施形態において、ポリジェニックリスクスコアは、共有の集団一貫ファインマッピング予測モデル(すなわち、属する集団に関係なく複数の個体に有効なファインマッピング予測モデル)を個体からの入力データに適用することによって導出され得、さらなる予測相関のみが集団固有の方法で確立される。
【符号の説明】
【0125】
2 入力データ
3 遺伝子データ
4 PRSスコアを表すデータ
6 装置
8 受信部
10 データ処理部