(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-11
(54)【発明の名称】遺伝子データを分析するためのコンピュータ実施方法および装置
(51)【国際特許分類】
G16B 20/20 20190101AFI20231228BHJP
【FI】
G16B20/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023533271
(86)(22)【出願日】2021-11-26
(85)【翻訳文提出日】2023-07-26
(86)【国際出願番号】 GB2021053069
(87)【国際公開番号】W WO2022117997
(87)【国際公開日】2022-06-09
(32)【優先日】2020-12-01
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】522074486
【氏名又は名称】ゲノミクス ピーエルシー
(74)【代理人】
【識別番号】100092783
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100120134
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100221327
【氏名又は名称】大川 亮
(72)【発明者】
【氏名】ムーア,レイチェル
(72)【発明者】
【氏名】プラグノル,ヴィンセント ヤン マリー
(72)【発明者】
【氏名】ウィール,マイケル
(72)【発明者】
【氏名】ウェルズ,ダニエル
(72)【発明者】
【氏名】スペンサー,クリストファー チャールズ アラン
(57)【要約】
複数の入力単位を受け取ることを含む、有機体についての遺伝子データを分析する方法が開示される。各入力単位は、ゲノムの領域における遺伝的バリアントと表現型または表現型組合せとの間の関連についての情報を含む。当該方法は、各バリアントについて、入力単位に基づいてバリアントが表現型または表現型組合せのいずれの原因であるかを決定することを含む反復を実行することを含む。バリアントが表現型または表現型組合せの原因である場合、入力単位、および当該領域におけるバリアントの間の相関についての情報に基づいて、表現型または表現型組合せに対するバリアントのサンプリング済み効果量が決定される。各バリアントについて、サンプリング済み効果量の反復にわたる、またはサンプリング済み効果量を用いて算出される事後効果量の平均に基づいて、表現型または表現型組合せに対するバリアントの予測効果量が決定される。
【特許請求の範囲】
【請求項1】
有機体についての遺伝子データを分析するコンピュータ実施方法であって、
複数の入力単位を受け取ることであって、各入力単位が、前記有機体のゲノムの対象の領域における複数の遺伝的バリアントと前記有機体の複数の表現型または表現型組合せのうちの1つとの間の関連についての情報を含む、受け取ることと、
前記複数の遺伝的バリアントの各々について、
前記複数の入力単位に基づいて、前記遺伝的バリアントが前記複数の表現型または表現型組合せのいずれの原因であるかを決定すること、および、
前記遺伝的バリアントが前記表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合に、前記複数の入力単位、および前記対象の領域における前記複数の遺伝的バリアントの間の相関についての情報に基づいて、前記1つまたは複数の表現型または表現型組合せの各々に対する前記遺伝的バリアントのサンプリング済み効果量を決定すること
を含む1つまたは複数の反復を実行することと、
各遺伝的バリアントについて、前記1つまたは複数の表現型または表現型組合せに対する前記遺伝的バリアントの前記サンプリング済み効果量の前記反復の少なくとも部分集合にわたる、または前記サンプリング済み効果量を用いて算出される前記入力単位についての前記遺伝的バリアントの事後効果量の平均に基づいて、前記表現型または表現型組合せのうちの1つまたは複数に対する前記遺伝的バリアントの予測効果量を決定することと
を含む方法。
【請求項2】
前記遺伝的バリアントが前記複数の表現型または表現型組合せのいずれの原因であるかを決定することは、
前記遺伝的バリアントが前記表現型または表現型組合せのいずれの原因でもないと仮定した場合の前記複数の入力単位からの前記情報の確率、
前記遺伝的バリアントが前記表現型または表現型組合せの全ての原因であると仮定した場合の前記複数の入力単位からの前記情報の確率、および、
前記表現型または表現型組合せの1つまたは複数の部分集合について、前記遺伝的バリアントが表現型または表現型組合せの前記部分集合の原因であると仮定した場合の前記複数の入力単位からの前記情報の確率
を含む複数の確率を算出することと、
前記複数の確率に基づく確率で前記遺伝的バリアントが前記複数の表現型または表現型組合せのいずれの原因であるかを確率的に決定することと
を含む、請求項1に記載の方法。
【請求項3】
前記遺伝的バリアントが前記表現型または表現型組合せのうちの1つまたは複数の原因であると仮定した場合の前記複数の入力単位からの前記情報の前記確率は、
原因であることが期待される前記複数の遺伝的バリアントの割合、
前記複数の入力単位、および
前記表現型または表現型組合せに対する前記遺伝的バリアントの前記効果量の間の相関
に依存する、請求項2に記載の方法。
【請求項4】
前記遺伝的バリアントが前記表現型または表現型組合せのいずれの原因でもないと仮定した場合の前記複数の入力単位からの前記情報の前記確率は、
原因であることが期待される前記複数の遺伝的バリアントの割合、および
前記複数の入力単位
に依存する、請求項2または3に記載の方法。
【請求項5】
前記表現型または表現型組合せの前記1つまたは複数の部分集合の各々について、前記遺伝的バリアントが表現型または表現型組合せの前記部分集合の原因であると仮定した場合の前記複数の入力単位からの前記情報の前記確率は、
原因であることが期待される前記複数の遺伝的バリアントの割合、
前記複数の遺伝的バリアントと表現型または表現型組合せの前記部分集合のうちの1つとの間の関連についての情報を含む前記入力単位を含む入力単位の部分集合、および
前記表現型または表現型組合せに対する前記遺伝的バリアントの前記効果量の間の相関
に依存する、請求項2から4のいずれか一項に記載の方法。
【請求項6】
原因であることが期待される前記複数の遺伝的バリアントの前記割合は、予め定められる、請求項3から5のいずれか一項に記載の方法。
【請求項7】
前記表現型または表現型組合せに対する前記遺伝的バリアントの前記効果量の間の前記相関は、予め定められる、請求項3から6のいずれか一項に記載の方法。
【請求項8】
原因であることが期待される前記複数の遺伝的バリアントの前記割合は、各反復において更新される、請求項3から5のいずれか一項、または7に記載の方法。
【請求項9】
前記表現型に対する前記遺伝的バリアントの前記効果量の間の前記相関は、各反復において更新される、請求項3から6のいずれか一項、または8に記載の方法。
【請求項10】
前記入力単位は、それぞれの個体群から決定され、前記複数の確率の各々は、それぞれの入力単位の対の間の前記個体群における重複を定量化する1つまたは複数のパラメータに依存する、請求項2から9のいずれか一項に記載の方法。
【請求項11】
前記遺伝的バリアントの前記サンプリング済み効果量を決定することは、前記1つまたは複数の表現型または表現型組合せに対する前記遺伝的バリアントの効果量の確率分布を算出することと、前記確率分布から前記効果量の値をサンプリングすることとを含む、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記確率分布は、多変量正規分布である、請求項11に記載の方法。
【請求項13】
前記効果量の値の前記サンプリングは、モンテカルロギブスサンプラを用いて行われる、請求項11または12に記載の方法。
【請求項14】
各反復における前記効果量の値の前記サンプリングは、1つまたは複数の以前の反復からの前記サンプリング済み効果量に依存する、請求項11から13のいずれか一項に記載の方法。
【請求項15】
前記確率分布は、前記表現型または表現型組合せに対する前記遺伝的バリアントの前記効果量の間の相関に依存する、請求項11から14のいずれか一項に記載の方法。
【請求項16】
前記表現型または表現型組合せに対する前記遺伝的バリアントの前記効果量の間の前記相関は、予め定められる、請求項15に記載の方法。
【請求項17】
前記表現型または表現型組合せに対する前記遺伝的バリアントの前記効果量の間の前記相関は、各反復において更新される、請求項15に記載の方法。
【請求項18】
前記サンプリング済み効果量を決定することは、前記複数の表現型または表現型組合せの間の原因関係のモデルを用いることを含む、請求項1から17のいずれか一項に記載の方法。
【請求項19】
前記1つまたは複数の反復の各々は、原因であると決定された各遺伝的バリアントについて、各入力単位の他の各遺伝的バリアントと前記表現型または表現型組合せとの間の関連についての情報から重み付き効果量を減算することをさらに含み、
前記重み付き効果量は、前記遺伝的バリアントと他の各遺伝的バリアントとの間のそれぞれの相関係数により重み付けされた、前記入力単位の前記表現型または表現型組合せに対する前記遺伝的バリアントの前記サンプリング済み効果量であり、
前記相関係数は、前記対象の領域における前記複数の遺伝的バリアントの間の相関についての前記情報に基づいて決定される、
請求項1から18のいずれか一項に記載の方法。
【請求項20】
1つまたは複数の反復を実行することは、予め定められた数の反復を実行することを含む、請求項1から19のいずれか一項に記載の方法。
【請求項21】
前記1つまたは複数の反復の各々は、収束パラメータを評価するステップをさらに含み、1つまたは複数の反復を実行することは、前記収束パラメータに対する予め定められた条件が満たされるまで反復を実行することを含む、請求項1から20のいずれか一項に記載の方法。
【請求項22】
前記複数の遺伝的バリアントと前記表現型または表現型組合せの各々との間の関連についての前記情報は、前記複数の遺伝的バリアントの各々について、前記遺伝的バリアントと前記表現型または表現型組合せとの間の関連の強さの推定値、および関連の強さの前記推定値の誤差を含む、請求項1から21のいずれか一項に記載の方法。
【請求項23】
ターゲット個体についてターゲット表現型またはターゲット表現型組合せについての多遺伝子リスクスコアを決定する方法であって、
前記ターゲット個体のゲノムの対象の領域についての遺伝情報を受け取ることと、
請求項1から22のいずれか一項に記載の遺伝子データを分析する方法を用いて決定される、前記対象の領域における複数の遺伝的バリアントの前記ターゲット表現型またはターゲット表現型組合せに対する予測効果量を受け取ることと、
前記ターゲット個体についての前記遺伝情報および前記予測効果量に基づいて前記多遺伝子リスクスコアを決定することと
を含む方法。
【請求項24】
有機体についての遺伝子データを分析するための装置であって、
複数の入力単位を受け取るように構成される受信ユニットであって、各入力単位が、前記有機体のゲノムの対象の領域における複数の遺伝的バリアントと前記有機体の複数の表現型または表現型組合せのうちの1つとの間の関連についての情報を含む、受信ユニットと、
前記複数の遺伝的バリアントの各々について、
前記複数の入力単位に基づいて、前記遺伝的バリアントが前記複数の表現型または表現型組合せのいずれの原因であるかを決定すること、および、
前記遺伝的バリアントが前記表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合に、前記複数の入力単位、および前記対象の領域における前記複数の遺伝的バリアントの間の相関についての情報に基づいて、前記1つまたは複数の表現型または表現型組合せに対する前記遺伝的バリアントのサンプリング済み効果量を決定すること
を含む1つまたは複数の反復を実行し、
各遺伝的バリアントについて、前記1つまたは複数の表現型または表現型組合せに対する前記遺伝的バリアントの前記サンプリング済み効果量の前記反復の少なくとも部分集合にわたる、または前記サンプリング済み効果量を用いて算出される前記入力単位についての前記遺伝的バリアントの事後効果量の平均に基づいて、前記表現型または表現型組合せのうちの1つまたは複数に対する前記遺伝的バリアントの予測効果量を決定する
ように構成されるデータ処理ユニットと
を備える装置。
【請求項25】
プログラムがコンピュータにより実行された場合に、請求項1から23のいずれか一項に記載の方法を前記コンピュータに実行させる命令を含むコンピュータプログラム。
【請求項26】
コンピュータにより実行された場合に、請求項1から23のいずれか一項に記載の方法を前記コンピュータに実行させる命令を含むコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に対象の表現型について向上した多遺伝子リスクスコア(PRS)を得ることを可能とすることに関連して、有機体についての遺伝子データおよび表現型データを分析して有機体についての情報を得ることに関する。
【背景技術】
【0002】
PRSは、有機体の遺伝DNAの、それが呈し得る表現型に対する寄与の定量的要約である。PRSは、その計算において、対象の表現型に(直接的または間接的に)関連する全てのDNAバリアントを含む場合もあり、または、その構成部分が有機体の生態(細胞、組織、もしくは他の生物学的単位、機構またはプロセスを含む)の特定の態様により強く関連している場合には、それらの構成部分を用いる場合もある。PRSは、有機体の過去、現在、および未来の生態の態様を推測するために、直接用いることもでき、または有機体についての複数の測定または記録の一部として用いることもできる。
【0003】
PRSは、疾患予防、層別化および診断のためのツールとして注目を集めている。ヒトの健康および健康管理を向上させることに関して、PRSは、限定されるものではないが、疾患または表現型を発現するリスクの予測、表現型の発症年齢の予測、疾患の重症度の予測、疾患サブタイプの予測、処置に対する反応の予測、個体についての適切なスクリーニング戦略の選択、適切な薬物療法介入の選択、および他の予測アルゴリズムについての事前確率の設定を含む、様々な実用的用途を有する。
【0004】
PRSは、他の高次元入力データ(例えばイメージング)から予測または分類を行うことへの人工知能および機械学習アプローチの適用における入力源としての直接的な用途を有し得る。例えば非遺伝子データに基づく予測測定を特定するために、これらのアルゴリズムを訓練する一助として用いられる場合がある。個体についての予測的記述を行うことにおける有用性を有するとともに、多数の個体についてPRSを算出し、次いでPRSに基づいて個体をグルーピングすることにより、個体のコホートを特定するために用いることもでき、これは上記の応用例に含まれるが限定されない。
【0005】
PRSは、例えば関連する疾患または表現型を発現する可能性がより高い個体を採用することにより試験設計を最適化し、それにより新たな治療法の有効性の評価を向上させるために、臨床試験のための個体の選択を助けることもできる。PRSは、算出の対象とする個体に加え、(その遺伝DNAの一部を共有する)その親族についての情報も保持する。表現型に対する個体のDNAの影響についての情報は、DNAバリアントの任意の特定の組合せを保持することの潜在的影響の任意の関連する評価から導出することができる。
【0006】
以下では、遺伝子関連研究(GAS)から導出される最近の豊富な情報の分析に着目する。これらの研究は、表現型の遺伝的基盤に対するDNAバリアントの潜在的寄与を系統的に評価する。
【0007】
2000年代中頃から、GAS(典型的にはゲノムワイド関連研究:GWAS、または単一バリアント、もしくはゲノムの領域におけるバリアントを対象とした関連研究、またはゲノムの特定の領域に制限されたGWAS)が数百万の個体における何千もの(主にヒトの)表現型について行われてきており、遺伝子型と表現型との間の数十億の潜在的な関連付けをもたらしている。結果として得られる生データは次いで、要約統計データを生成するために単純化される場合が多い。GAS要約統計データは、(帰属されたものかまたは観測されたものかに関わらず)各遺伝的バリアントについて、GASの表現型に対する遺伝的バリアントの推測効果量、および推測効果量の標準誤差からなる。他の場合においては、研究における個体の完全な遺伝子プロファイルおよびその表現型についての情報からなる個体レベルデータが、直接利用可能であり得る。しかしながら、個体レベルデータは、通常、個体のデータのプライバシーに対する要件に起因して、より利用可能性が低い。
【0008】
PRSは、対象の形質についての集合的予測量を構築するための、典型的には各々が小さい個々の効果を有する、多数の遺伝的バリアントの効果の集合からなる。PRSは、GWASから決定されるバリアントの効果量を用いて算出することができる。そのようなスコアに含まれるバリアントは、バリアントが(弱くしかし直接に)形質に直接的に影響するという意味において「原因バリアント」であるか、または「タグバリアント」であり得、これは、原因となる他の未知のバリアントと強く相関しているが、タグバリアント自体は表現型に直接的効果を有しないことを意味する。
【0009】
PRS構築のための戦略は拡大しつつあるが、高精度なPRSを構築するための広く受け入れられている一般的アプローチは、基礎となる生物学的関連を最良に捉えるバリアントの組合せを調査することにより、全ての関連領域における信号のデコンボリューションを行うことからなる。関連の数は様々であり、多くのゲノム領域は単一の潜在的関連を含むが、一部のゲノム領域は複数の独立した関連を含む(稀ではあるが最大10が報告されている)。
【0010】
PRSを構築するための一部のツールは、要約統計量データを利用するように設計される。LDpred softwareにより一般化された1つのアプローチ(Vilhjalmssonら、2015年、https://github.com/bvilhjal/ldpred)は、単一のGWASに基づいてゲノムワイドに妥当なバリアントの複数のランダムな選択を反復し、バリアントが選定または除外されることに伴って、残留信号を推定する。
【0011】
この課題に対処するための既存の方法は、対象の形質(または表現型)または形質の組合せを呈する個体からの訓練データセットを用いてPRSを作成することに基づく。しかしながら、特定の表現型について利用可能なデータの量は、量および質の両方において大きく異なる場合がある。例えば、対象の形質が脳卒中の可能性である場合、これを堅牢にかつ一貫して定量化することが難しい場合がある。これは、脳卒中リスクの研究から算出されるPRSの有用性に影響を及ぼす。この種の表現型についてのPRSの算出を向上させるように、複数の研究からのデータを分析することができることが有利であろう。
【発明の概要】
【0012】
本発明の目的は、有機体についての遺伝子データの分析を向上させ、かつ/または、個体についてより堅牢かつ/または高精度なPRSを得ることを可能とすることである。
【0013】
本発明の一態様によれば、有機体についての遺伝子データを分析するコンピュータ実施方法が提供される。当該方法は、複数の入力単位を受け取ることであって、各入力単位が、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体の複数の表現型または表現型組合せのうちの1つとの間の関連についての情報を含む、受け取ることと、複数の遺伝的バリアントの各々について、複数の入力単位に基づいて、遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを決定すること、および、遺伝的バリアントが表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合に、複数の入力単位、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、1つまたは複数の表現型または表現型組合せの各々に対する遺伝的バリアントのサンプリング済み効果量を決定することを含む1つまたは複数の反復を実行することと、各遺伝的バリアントについて、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量の反復の少なくとも部分集合にわたる、またはサンプリング済み効果量を用いて算出される入力単位についての遺伝的バリアントの事後効果量の平均に基づいて、表現型または表現型組合せのうちの1つまたは複数に対する遺伝的バリアントの予測効果量を決定することとを含む方法。
【0014】
異なる表現型または表現型組合せに関連する複数の入力単位からのデータを用いてどのバリアントが原因であるかを決定することによって、関連する表現型または表現型組合せについての研究からの情報を含めることにより、原因バリアントをより高い信頼性で特定することができる。その一方で、各入力単位について別々に予測効果量を決定することにより、方法が異なる表現型または表現型組合せについて異なる効果量を決定することも可能となる。それにより、高品質なデータの大規模なデータセットを用いる検定力を、表現型別の結論を生成する能力と組み合わせることができる。より高精度な予測効果量を得ることにより、結果としてより高精度なPRSを算出することができる。
【0015】
いくつかの実施形態において、遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを決定することは、遺伝的バリアントが表現型または表現型組合せのいずれの原因でもないと仮定した場合の複数の入力単位からの情報の確率、遺伝的バリアントが表現型または表現型組合せの全ての原因であると仮定した場合の複数の入力単位からの情報の確率、および、表現型または表現型組合せの1つまたは複数の部分集合について、遺伝的バリアントが表現型または表現型組合せの部分集合の原因であると仮定した場合の複数の入力単位からの情報の確率を含む複数の確率を算出することと、複数の確率に基づく確率で遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを確率的に決定することとを含む。確率的サンプリングを用いることにより、方法が原因バリアントの多数の異なる組合せを検討して、観測データを最良に説明する全体的効果を特定することが可能となる。バリアントが表現型または表現型組合せの部分集合のみの原因であることを可能とすることにより、方法が表現型別の遺伝子機構を考慮することを可能とすることができる。
【0016】
いくつかの実施形態において、遺伝的バリアントが表現型または表現型組合せのうちの1つまたは複数の原因であると仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、複数の入力単位、および表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関に依存する。いくつかの実施形態において、遺伝的バリアントが表現型または表現型組合せのいずれの原因でもないと仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、および複数の入力単位に依存する。いくつかの実施形態において、表現型または表現型組合せのうちの1つまたは複数の部分集合の各々について、遺伝的バリアントが表現型または表現型組合せの部分集合の原因であると仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、複数の遺伝的バリアントと表現型または表現型組合せの部分集合のうちの1つとの間の関連についての情報を含む入力単位を含む入力単位の部分集合、および表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関に依存する。これらの項により、原因であるバリアントの割合についての既存の情報を分析に組み込むことが可能となり、入力単位間の予測効果量を異ならせることが可能となる。原因でない場合、効果量はゼロであるため、効果間の相関はいずれも適切でない。
【0017】
いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、予め定められる。いくつかの実施形態において、表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関は、予め定められる。パラメータの予め定められた値を用いることにより、計算効率の高い方式で既存の知識を方法に組み込むことが可能となる。
【0018】
いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、各反復において更新される。いくつかの実施形態において、表現型に対する遺伝的バリアントの効果量の間の相関は、各反復において更新される。パラメータを各反復において学習および更新することにより、真のパラメータ値に方法を収束させることが可能となり、これはより高精度な結果を提供し得るが、より計算コストの高いものであり得る。
【0019】
いくつかの実施形態において、入力単位は、それぞれの個体群から決定され、複数の確率の各々は、それぞれの入力単位の対の間の個体群における重複を定量化する1つまたは複数のパラメータに依存する。用いられるデータによっては、一部の個体が複数の入力単位に存在する場合があり、これは導き出される結論を歪ませることがある。これを考慮するためのパラメータを追加することで、結果として得られる効果量の精度が向上する。
【0020】
いくつかの実施形態において、遺伝的バリアントのサンプリング済み効果量を決定することは、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントの効果量の確率分布を算出することと、確率分布から効果量の値をサンプリングすることとを含む。確率分布を用いることにより、正しい可能性が最も高いと考えられる範囲において値が選定されるように促しつつも、方法が複数の異なる効果量をサンプリングすることが可能となる。
【0021】
いくつかの実施形態において、確率分布は、多変量正規分布である。多変量正規分布を用いることは、異なる入力単位についての異なる効果量を可能とする簡便な方法を提供する。いくつかの実施形態において、効果量の値のサンプリングは、モンテカルロギブスサンプラを用いて行われる。このタイプのサンプリングアルゴリズムは、本出願に特に適している。
【0022】
いくつかの実施形態において、各反復における効果量の値のサンプリングは、1つまたは複数の以前の反復からのサンプリング済み効果量に依存する。このタイプの依存性により、サンプリングが可能な値の空間を効率的に探索することを可能とすることができる。
【0023】
いくつかの実施形態において、確率分布は、表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関に依存する。これにより、精度および計算効率を向上させるために、入力単位間における効果量の差異の可能性の高い範囲を制御することが可能となる。
【0024】
いくつかの実施形態において、表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関は、予め定められる。パラメータの予め定められた値を用いることにより、計算効率の高い方式で既存の知識を方法に組み込むことが可能となる。
【0025】
いくつかの実施形態において、表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関は、各反復において更新される。パラメータを各反復において学習および更新することにより、真のパラメータ値に方法を収束させることが可能となり、これはより高精度な結果を提供し得るが、より計算コストの高いものであり得る。
【0026】
いくつかの実施形態において、サンプリング済み効果量を決定することは、複数の表現型または表現型組合せの間の原因関係のモデルを用いることを含む。これにより、表現型間の原因関係の方向性または大きさについての既存の知識を分析に組み込むことが可能となる。
【0027】
いくつかの実施形態において、1つまたは複数の反復の各々は、原因であると決定された各遺伝的バリアントについて、各入力単位の他の各遺伝的バリアントと表現型または表現型組合せとの間の関連についての情報から重み付き効果量を減算することをさらに含み、重み付き効果量は、遺伝的バリアントと他の各遺伝的バリアントとの間のそれぞれの相関係数により重み付けされた、入力単位の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量であり、相関係数は、対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて決定される。原因であると決定されたバリアントの効果を関連付けられたバリアントから減算することにより、単一の原因関係に基づいて複数の原因バリアントが誤って特定されないことが確実になる。入力単位別の相関係数を用いることにより、方法が部分母集団間での遺伝的相関のばらつきを考慮することが可能となる。
【0028】
いくつかの実施形態において、1つまたは複数の反復を実行することは、予め定められた数の反復を実行することを含む。予め定められた数の反復を実行することは、計算効率を高く維持しつつ、既知のタイプの課題について十分な結果を提供し得る。
【0029】
いくつかの実施形態において、1つまたは複数の反復の各々は、収束パラメータを評価するステップをさらに含み、1つまたは複数の反復を実行することは、収束パラメータに対する予め定められた条件が満たされるまで反復を実行することを含む。収束パラメータを算出することは、反復の適切な数が不明な場合に有利であり得る。
【0030】
いくつかの実施形態において、複数の遺伝的バリアントと表現型または表現型組合せの各々との間の関連についての情報は、複数の遺伝的バリアントの各々について、遺伝的バリアントと表現型または表現型組合せとの間の関連の強さの推定値、および関連の強さの推定値の誤差を含む。上記で述べたように、このタイプの要約統計データを用いることは、大量のデータが利用可能であるという利点を有する。
【0031】
別の態様によれば、ターゲット個体についてターゲット表現型またはターゲット表現型組合せについての多遺伝子リスクスコアを決定する方法が提供される。当該方法は、ターゲット個体のゲノムの対象の領域についての遺伝情報を受け取ることと、前出の請求項のいずれかに記載の遺伝子データを分析する方法を用いて決定される、対象の領域における複数の遺伝的バリアントのターゲット表現型またはターゲット表現型組合せに対する予測効果量を受け取ることと、ターゲット個体についての遺伝情報および予測効果量に基づいて多遺伝子リスクスコアを決定することとを含む。上記で述べたように、多遺伝子リスクスコアの算出は、遺伝的バリアントについて決定される予測効果量の特に望ましい用途であり、様々な臨床アプリケーションに用いることができる。
【0032】
本発明の別の態様によれば、有機体についての遺伝子データを分析するための装置が提供される。当該装置は、複数の入力単位を受け取るように構成される受信ユニットであって、各入力単位が、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体の複数の表現型または表現型組合せのうちの1つとの間の関連についての情報を含む、受信ユニットと、複数の遺伝的バリアントの各々について、複数の入力単位に基づいて、遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを決定すること、および、遺伝的バリアントが表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合に、複数の入力単位、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量を決定することを含む1つまたは複数の反復を実行し、各遺伝的バリアントについて、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量の反復の少なくとも部分集合にわたる、またはサンプリング済み効果量を用いて算出される入力単位についての遺伝的バリアントの事後効果量の平均に基づいて、表現型または表現型組合せのうちの1つまたは複数に対する遺伝的バリアントの予測効果量を決定するように構成されるデータ処理ユニットとを備える。
【0033】
本発明は、当該方法をコンピュータに実行させる命令を含むコンピュータプログラム、またはコンピュータにより実行された場合に当該方法をコンピュータに実行させる命令を含むコンピュータ可読媒体において具現化されてもよい。
【0034】
添付の図面を参照して、本発明の実施形態を単に例としてさらに説明する。
【図面の簡単な説明】
【0035】
【
図1】本発明に係る、有機体についての遺伝子データを分析する方法のフローチャートである。
【
図2】
図1の方法における反復を実行するステップにおける各反復のステップを示すフローチャートである。
【
図3】本発明に係る多遺伝子リスクスコアを決定する方法のフローチャートである。
【発明を実施するための形態】
【0036】
図1は、有機体についての遺伝子データを分析するコンピュータ実施方法を示す。通常、有機体はヒトであるが、当該方法は、他の有機体に適用されてもよい。当該方法は「有機体」について言及するが、これは特定の個々の有機体を指すのではなく、有機体または有機体の群を総称するものであってもよい。
【0037】
当該方法は、複数の入力単位10を受け取るステップS10を含む。入力単位10は、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体の複数の表現型または表現型組合せとの間の関連についての情報を含む。複数の表現型は、対象となり得る任意の物理的な、挙動的な、または他の表現型を含んでよい。複数の表現型組合せは、個々の表現型のいずれかの組合せを含んでよい。遺伝的バリアントは通常、一塩基多型であるが、有機体のゲノムの一部分の挿入または欠失などの他のタイプの遺伝的バリエーションを含んでもよい。いくつかの実施形態において、複数の表現型または表現型組合せは、互いに原因関係を有することが知られているまたは疑われる表現型または表現型の組合せである。入力単位の各々は、複数の遺伝的バリアントと複数の表現型または表現型組合せのうちの1つとの間の関連についての情報を含むことになる。
【0038】
各入力単位10は、1つまたは複数のゲノムワイド関連研究(GWAS)から導出されてよく、よって研究またはGWASと称されてもよい。各入力単位10は、個体、例えば対応するGWASに関与する個体の群についての、複数の遺伝的バリアントと入力単位10の表現型との間の関連についての情報を含む。
【0039】
本明細書に記載の実施形態において、複数の遺伝的バリアントと入力単位10の表現型または表現型組合せとの間の関連についての情報は、複数の遺伝的バリアントの各々について、遺伝的バリアントと入力単位10の表現型または表現型組合せとの間の関連の強さの推定値、および関連の強さの推定値の誤差を含む。したがって、各入力単位10は、1~nの番号を付した各バリアントiについて、バリアントiと入力単位の表現型または表現型組合せとの間の関連の強さの推定値
【0040】
【0041】
【数2】
として表現されるその推定値についての精度を含む。このタイプのデータは、通常、要約統計データと称される。要約統計量データの強みは、プライバシー上の懸念に起因する個体レベルデータの共有の制限がないことにより、より大幅に大きいサンプルサイズが遺伝子分析のために利用可能となり得るということを意味する。ただし、他の実施形態においては、他のタイプの情報、例えば入力単位10が決定される元となる群における全ての個体についての個体レベルデータが用いられてもよい。
【0042】
各入力単位10における関連の強さの推定値
【0043】
【数3】
は、GWAS研究において各バリアントから独立に推定される限界効果量である。主要な課題は、母集団における遺伝的バリアント間の相関の結果である。限界効果量は、実際には対象の領域内における他の相関する遺伝的バリアントに起因する寄与を含んでよい。例えば、バリアントaおよびバリアントbが高頻度でともに出現し、バリアントbが入力単位10の表現型のリスクを増大させる(すなわちその表現型の原因である)場合、バリアントaが入力単位10の表現型とともに個体に頻繁に出現するため、効果がバリアントaに帰属されてもよい。したがって、単一の原因バリアントが、それら自体は原因でなく原因バリアントに相関するのみである多数の他のバリアントにおける顕著な関連を生じさせる。
【0044】
近傍のバリアントとの相関を有するように調整される所与の各バリアントiにおける未知の真の効果量βi(または関連の強さ)を決定することが望ましい。遺伝的予測の課題は、その真の効果量βiの集合を推定することにある。全ての
【0045】
【数4】
の値は通常0とは異なるが、非ゼロのβ
iの値の数は通常、より大幅に少ない。したがって、遺伝子データを分析する多数の方法が直面する課題は、K個の真の原因バリアントX
iの部分集合およびそれらの真の関連の強さβ
iを特定することにある。原因バリアントの数Kは、一般に未知である。この、原因バリアントおよびそれらの対応する真の効果量の集まり(X
i,β
i)は、複数の表現型のうちの1つまたは複数についての多遺伝子リスクスコアを算出するために用いられ得る。
【0046】
本方法において、どのバリアントが原因であるかおよびそれらの対応する効果量の推定は、1つまたは複数の反復を実行するステップS12において可能な(Xi,βi)の空間を探索することにより実現される。このステップの詳細については、下記でさらに論じる。いくつかの実施形態において、1つまたは複数の反復を実行することは、予め定められた数の反復を実行することを含む。これは、高精度な結果を得るためにおおよそどれだけの数の反復が必要であるかが既知である場合に有利であり得る。いくつかの実施形態において、1つまたは複数の反復の各々は、収束パラメータを評価するステップをさらに含み、1つまたは複数の反復を実行することは、収束パラメータに対する予め定められた条件が満たされるまで反復を実行することを含む。これは、高精度な結果をもたらすためにどれだけの数の反復が必要とされるかが不明な場合に有利であり得る。
【0047】
上記で述べたように、遺伝子データを分析するための現在利用可能な方法論(LDpredなど)は、一度に1つのGWASを考え、例えばモンテカルロサンプリングにより、どのバリアントがターゲット表現型の原因であるかのランダムサンプリングを行う。LDpredは、1つの研究および1つの遺伝的バリアントについてベイズ計算を解くことが可能なことに依拠している。これは次いで、ギブスサンプリング技法を用いて、1つから複数の相関バリアントに方法論を拡張する。厳密には、所与の遺伝的バリアントについて、LDpredは以下の事前仮定を用いる。
- 確率(1-p)で、ターゲット表現型に対する遺伝的バリアントの効果が0である(すなわち、バリアントは原因でない)。
- 確率pで、ターゲット表現型に対する効果が平均0および分散σ2で正規分布する(すなわち、バリアントは原因であり、0を中心とする効果量の分布を有する)。
【0048】
これらの仮定、およびターゲット表現型についての訓練GWASにおける要約統計量
【0049】
【0050】
【数6】
により、ターゲット表現型に対する真の効果量β
iの事後分布についての解析公式を導出し、真の効果量を推定するためにこの分布からサンプリングすることが可能である。
【0051】
しかしながら、このアプローチには、特に一部の表現型または表現型組合せについて不十分なまたは最適には及ばない結果をもたらし得るより小規模な研究に関して、制限がある。一部の表現型または表現型組合せについての研究は、一貫してかつ定量的に表現型を評価することの困難さに起因して、小規模または低品質である場合があり、それにより、それらの表現型について不十分な予測結果をもたらす。例えば、心臓発作(冠動脈疾患、CAD)の遺伝的特徴を研究する場合、心臓発作患者のコホートを収集することが困難である。大規模なコホートにおいて系統的に行うことが可能な血中脂質の測定を行うことが、より簡単である。低密度リポタンパク質(LDL)と呼ばれる血中脂質のサブタイプのレベルを増大させる遺伝的バリアントは、心臓発作リスクに寄与する可能性が非常に高いことがわかっている。したがって、2つの表現型の間の関連から有用な情報を導き出すために、心臓発作の遺伝的特徴とともに血中脂質の遺伝的特徴を説明する研究を共同で分析することが有益である。これは、ほとんどの既存の方法のように、一度に単一の研究のみを分析する場合には不可能なことである。
【0052】
複数の研究を考える場合、現在利用可能な方法は、複数の研究を単一のメタ分析に組み合わせ、そのメタ分析に対するさらなる処理、例えばPRSの決定を行うことからなる。複数の研究に基づいてバリアントとターゲット表現型との間の関連の根拠を考慮するツールの一例として、GWASの多形質分析(MTAG、Turleyら、2018年)がある。MTAGは、GWASの集合を組み合わせ、各入力GWASについて、入力GWASごとの更新された要約統計量をもたらす一種のメタ分析を生成する。これらの更新された要約統計量は、LDPred(Craigら、Nature Genetics、2020年)を含む任意の標準的なPRS構築方法論に供給することができる。しかしながら、MTAGは、バリアントが説明する表現型分散および2つの研究の効果量の間の相関度についての事前仮定を含む、ゲノムにおける全てのバリアントについての固定的な大域的仮定を行う。これらの仮定は、不正確である場合が多い。LDLおよびCADを用いてCADを予測する例においては、CADおよびLDLの両方の原因であるいくつかのバリアント、およびCADのみの原因である他のバリアントが存在し、これはMTAGにおいて用いられる相関一定の仮定に反する。加えて、MTAGは、LD情報を同時に考慮することなく限界要約統計量を用い、これは、この方法が入力データセットの豊富さを完全に利用していないことを意味する。
【0053】
複数の研究を組み合わせるための別の既存のアプローチとして、別の背景において開発された単一バリアントのベイズ計算がある(Trochetら、Genetic Epidemiology、2019年)。この方法においては、目的は効果量の予測ではなく、遺伝的関連を検出する力を向上させるために複数の研究を組み合わせることにある。したがって、遺伝的バリアントは個別に検討され、それらの間の相関パターンを制御する動機づけはない。
【0054】
これらの制限を克服するために、本方法は、原因バリアントおよびその効果量を決定する場合に複数の表現型または表現型組合せについての複数の研究からの情報を組み合わせることを可能とするが、重要なことには、各遺伝的バリアントの決定された効果量が入力単位10の間で異なることを可能とする。これにより、より大規模でより堅牢な研究のより大きい検定力を、対象の表現型または表現型組合せについての他の研究からのデータとともに用いることで、どのバリアントが対象の表現型または表現型組合せの原因であるかの推定を向上させつつ、一方で対象の表現型または表現型組合せに特有の効果量を導出することが可能となる。
【0055】
これは、LDPred(Vilhjalmssonら、2015年)のベイズ計算を、1つの研究から、複数の異なる表現型についての任意の数の研究に拡張することを伴う。そうすることにより、Trochetらの単一バリアント・複数研究の成果と、Vilhjalmssonらの複数バリアント・単一研究の成果との間の関連付けが得られる。両方の方法論的アプローチの間の関係を理解することにより、複数の研究をフレキシブルに統合し、単一の研究ではなく複数のGWASに基づいて予測アルゴリズムを作成することが可能となる。
【0056】
図2に示すように、本方法のステップS12における各反復は、複数の遺伝的バリアントの各々について、複数の入力単位10に基づいて、遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを決定することを含む。既存の方法では、他の選択肢も可能であるが例えば物理的順序でまたはランダムサンプリングにより、遺伝的バリアントが1つずつ検討される。しかしながら、各バリアントにおいて、本方法は、単一の研究ではなく複数の研究を組み込み、(例えば、下記でさらに論じるように、ベイズ分析により)入力単位10の各々に対するバリアントの原因性および効果量のモデルの確率を評価する。したがって、本方法は、既存の方法のように入力単位10を一度に1つずつ検討する、または入力単位10を単一のメタ分析に組み合わせるのではなく、入力単位10の全てをともに分析することにより、各遺伝的バリアントがどの表現型または表現型組合せの原因であるかを決定する。
【0057】
上述の既存の方法の一部に対する重要な相違点は、本方法においては、全てではないが一部の原因バリアントを入力単位10間で共有することが本方法により可能となる点である。これにより、方法が表現型を横断した原因関係の複雑性を効果的にモデル化することが可能となる。
【0058】
遺伝的バリアントが表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合、複数の入力単位10、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、入力単位10の各々について1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量12を決定するステップが行われる。したがって、原因バリアントおよび合同効果量の空間の探索において、あるバリアントが1つまたは複数の表現型または表現型組合せの原因として選択された場合、各表現型について異なる効果量がサンプリングされる。
【0059】
図1の実施形態において、遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを決定することは、複数の確率を算出するステップS120と、複数の確率に基づく確率で遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを確率的に決定するステップS122とを備える。複数の確率は、遺伝的バリアントが表現型または表現型組合せのいずれのものでもないと仮定した場合の複数の入力単位からの情報の確率、遺伝的バリアントが表現型または表現型組合せの全ての原因であると仮定した場合の複数の入力単位からの情報の確率、および、表現型または表現型組合せのうちの1つまたは複数の部分集合について、遺伝的バリアントが表現型または表現型組合せの部分集合の原因であると仮定した場合の複数の入力単位からの情報の確率を含む。
【0060】
ステップS120において、遺伝的バリアントが表現型または表現型組合せの全ての原因であると仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、複数の入力単位10、および入力単位10の各々についての表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関に依存してよい。遺伝的バリアントが表現型または表現型組合せのいずれの原因でもないと仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、および複数の入力単位10に依存してよい。表現型または表現型組合せの1つまたは複数の部分集合の各々について、遺伝的バリアントが表現型または表現型組合せの部分集合の原因であると仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、複数の遺伝的バリアントと表現型または表現型組合せの部分集合のうちの1つとの間の関連についての情報を含む入力単位10を含む入力単位10の部分集合、および表現型に対する遺伝的バリアントの効果量の間の相関に依存してよい。確率は、事前値と組み合わされてよい。
【0061】
例えば、脳卒中についてのPRSが必要であり、複数の遺伝的バリアントと血圧との間の関連、および複数の遺伝的バリアントと脳卒中リスクとの間の関連についての情報をそれぞれ含む2つの入力単位10が利用可能である状況を考える。本方法は、血圧を増大させるバリアントは常に脳卒中のリスクを増大させるが、逆は必ずしも真でないという事実をモデル化することができる。
【0062】
脳卒中の例において、任意の所与のバリアントについて、3つの代替的構成が考えられてよい。
・確率p0=(1-p1-p2)で、バリアントが入力単位10の全ての表現型について0の効果量を有するという帰無仮説
・確率p1で、2つの入力単位10の表現型についての遺伝的バリアントの効果量が多変量ガウス分布に従う、すなわち遺伝的バリアントが脳卒中および血圧の両方の原因であるという第1の対立仮説
・確率p2で、脳卒中の入力単位10に対する遺伝的バリアントの効果量がガウス分布に従い、血圧の入力単位10に対する遺伝的バリアントの効果量が0である、すなわち遺伝的バリアントが脳卒中のみの原因であるという第2の対立仮説
【0063】
次いで、これらの事前確率を、他の関連因子に応じて各場合について上記の確率と組み合わせることができる。
【0064】
上記の例のような脳卒中リスクおよび血圧などの単一の表現型に加え、入力単位は、2つの以上の表現型の組合せに関するものであってもよい。この場合、各入力単位は、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体の複数の表現型組合せのうちの1つとの間の関連についての情報を含む。例えば、入力単位10は、血圧および性別の組合せに関するものであってよく、それにより、別個の入力単位10が男性における血圧および女性における血圧について用いられる。次いで、方法は、表現型の特定の組合せについてのバリアントの原因性の異なる代替的構成の間での選択を行ってよい。例えば、いくつかのバリアントは男性および女性の両方における高血圧の原因である場合があり、一方で他のバリアントは、男性における高血圧の原因であるが女性における高血圧の原因ではない場合がある。本方法により、異なる群における原因性についての情報を共同で利用して、両方の群についての効果量の推定を向上させることが可能となる。
【0065】
別の例は、依存症に寄与するバリアントが、喫煙の媒介となるため、肺がんと関連するというものである。しかし、個体が喫煙者でない場合、依存症関連の遺伝情報を含まないPRSを考えることを望むであろう。したがって、当該方法は、2つの異なる表現型組合せ、すなわち喫煙者における肺がんおよび非喫煙者における肺がん(すなわち肺がんの表現型と喫煙者/非喫煙者の行動表現型との組合せ)を考える場合がある。次いで、各遺伝的バリアントについて3つの確率、すなわち、遺伝的バリアントが原因でない(すなわち、いずれのタイプの肺がんにも関連しない)と仮定した場合の複数の入力単位からの情報の確率、遺伝的バリアントが入力単位の全ての原因である(すなわち、喫煙者および非喫煙者の肺がんの間で「共有される」)と仮定した場合の複数の入力単位からの情報の確率、および、遺伝的バリアントが喫煙者からの入力単位10のみの部分集合の原因である(すなわち、バリアントが喫煙者の肺がんのみの原因である)と仮定した場合の複数の入力単位からの情報の確率が算出される。この状況において、2つのカテゴリ(「喫煙者における肺がん」および「非喫煙者における肺がん」)は、2つの異なる表現型組合せである。したがって、当該方法は、原因バリアントの異なる集合を、それらの対応する入力単位10について決定してよい。これにより、一部のバリアント(依存症関連バリアントなど)が非喫煙者については原因でない場合があるということを可能としつつも、喫煙者を含めたより大規模な研究の検定力を用いて、原因バリアントの推定を向上させることが可能となる。
【0066】
パラメータpcは、所与の構成の下で原因であることが期待される複数の遺伝的バリアントの割合である。いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、予め定められる。これは、推定値が利用可能である場合に、より計算効率が高いものであり得る。代替的に、pcの値のグリッドを考えることができ、結果を有する個体レベルデータのデータセットにおける予測を最大化することにより、pcについての最適なパラメータ値を選択することができる。いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、各反復において更新される。これにより、方法をpcの真の値に収束させることが可能となり、それにより精度が潜在的に向上する。
【0067】
帰無仮説の下では、サンプリング済み効果量12の値は、全ての入力単位10について0に等しい。したがって、バリアントのサンプリング済み効果量βiについての共分散行列は、パラメータの値における不確実性(入力単位jからのバリアントiの限界効果量の標準誤差についてSEi,jと称される)のみにより決定付けられる。それ自体は研究のサンプルサイズに依存し、入力単位10の要約統計量において規定される。厳密には、以下の通りである。
【0068】
【数7】
式中、SE
i,jは、バリアントiおよび入力単位jについての標準誤差を指し、ここでは合計m個の入力単位10が存在する。
【0069】
対立仮説の下では、バリアントiのサンプリング済み効果量βiは非ゼロであり、多変量ガウシアンの各次元について平均0および複数の未知の分散
【0070】
【数8】
の多変量ガウシアン(バリアントが原因であると決定された表現型の数、すなわち部分集合における表現型の数に対して適切な次元数を有する)として分布する。代替的構成cの各々において、新たな指定が存在する。
【0071】
【0072】
【数10】
であり、ρ
iは、m個の入力単位10の各々についての、ターゲット表現型に対する遺伝的バリアントiの効果量の間の相関である。各代替的構成cにおいて、分散
【0073】
【数11】
は、その構成の下でバリアントiが原因でない任意の入力単位jについて、ゼロとなる。いくつかの実施形態において、入力単位10の各々についてのターゲット表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関ρ
iは、予め定められ、これはより計算効率が高いものであり得る。予め定められた値は、異なる表現型または表現型組合せについての効果がどれだけ強く相関しているかのアプリオリ推定が可能となる場合、既存の外部データに基づくものであってよい。
【0074】
他の実施形態において、入力単位10の各々の表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関は、各反復において更新される。これにより、方法を真の相関係数に収束させることが可能となり、潜在的により高精度な結果をもたらす。代替的に、相関の値のグリッドを考えることができ、結果を有する個体レベルデータのデータセットにおける予測を最大化することにより、これらの相関についての最適なパラメータ値を選択することができる。ここで与えられる例では、効果量の間の相関は、入力単位10の全ての組合せについて同じである単一のパラメータである。
【0075】
相関は、相関行列であってもよく、それにより、相関が入力単位10の異なる組合せの間で異なることが可能となる。これを用いて、特定の表現型または表現型組合せの間原因関係の強さ(または存在)の異なる期待を考慮することができる。
【0076】
ステップS122の一実施形態において、各バリアントiについて、C個の可能な構成のうちの特定の構成kに属する事後オッズOddsi,kを、ステップS120において決定された確率を用いて算出することができる。
【0077】
【数12】
このとき、バリアントがどの構成に属するか(すなわち、遺伝的バリアントが複数の表現型のいずれの原因であるか)を確率的に決定するために用いられるオッズは、式(4)に示すように計算される。これらの式におけるβ
iは、次元mのベクトルであり、すなわち、m個の入力単位10の各々に対するバリアントiの効果を指定する。
【0078】
入力単位10がそれぞれの個体群から決定される場合、また入力単位10を決定するために用いられる研究によっては、1つの潜在的課題は、研究間でのサンプル重複である。例えば、脳卒中リスク研究が、1つの入力単位10を導出するために用いられてよく、その結果、別の血圧研究から導出される入力単位10と共同で分析される。脳卒中リスク研究を行うために用いられる個体群における個体の一部は、血圧研究の個体群にも存在する場合がある。例えば、脳卒中リスク研究の個体群は、血圧研究の集合の部分集合であってよい。これを考慮するために、いくつかの実施形態において、複数の確率の各々は、それぞれの入力単位10の対の間の個体群における重複を定量化する1つまたは複数のパラメータに依存する。
【0079】
例えば、その可能性を考慮するための1つの方法は、上記で示す共分散行列Viを以下のようになるように更新することである。
【0080】
【数13】
式中、係数r
x,yは、研究間でのサンプルの重複を考慮し、また(下記でさらに論じるように)サンプルの共有に起因するサンプリング済み効果量12間の相関をモデル化する。表記を明確にするために、これらのr
x,yは、バリアントレベルの相関を表す相関係数r
i,j(下記でより詳細に論じる)とは無関係である。この追加(Trochetら、2019年に記載)は、高精度な結果を実現するために実用上重要であるが、不可欠ではなく、それなしでも十分な結果が実現され得る。
【0081】
遺伝的バリアントが表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合、事後の平均および分散を、1つまたは複数の表現型または表現型組合せの全てにわたる合同効果量について計算することができる。遺伝的バリアントのサンプリング済み効果量12を決定するステップは、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントの効果量の確率分布を算出するステップS124と、確率分布から効果量の値をサンプリングするステップS126とを含む。
【0082】
実用上、妥当な時間内に全ての可能な原因バリアントおよび全ての可能な対応する効果量の空間を完全に探索することは不可能であるため、サンプリング済み効果量12が用いられる。したがって、原因バリアントおよびその対応する効果量の空間を探索するために、サンプリング技法、例えばモンテカルロシミュレーションが用いられる。いくつかの実施形態において、各反復における効果量の値のサンプリングは、1つまたは複数の以前の反復からのサンプリング済み効果量12に依存する。これは、可能な値の空間を十分に探索するようにサンプリング技法を誘導するために用いられ得る。いくつかの実施形態において、効果量の値のサンプリングは、モンテカルロギブスサンプラを用いて行われる。
【0083】
サンプリング済み効果量を決定することは、複数の表現型または表現型組合せの間の原因関係のモデルを用いることを含んでよい。これは、表現型の効果量の間の相関を用いて、例えば上記で述べた相関の行列を用いて導入することができる。この原因関係は、複数の確率を決定する場合に用いることもできる。
【0084】
好ましい実施形態において、確率分布は、多変量正規分布である。確率分布は、入力単位10の各々の表現型または表現型組合せに対する遺伝的バリアントの効果量の間の相関に依存してよい。上記で確率について論じたように、入力単位10の各々の表現型に対する遺伝的バリアントの効果量の間の相関は、予め定められてよい。代替的に、表現型に対する遺伝的バリアントの効果量の間の相関は、各反復において更新されてよく、それにより、方法を相関の真の値に収束させることが可能となる。
【0085】
バリアントが構成kに属すると決定される特定の例において、確率分布は、効果量についての事後平均であり、多変量正規分布として分布する。
【0086】
【0087】
ゲノムの領域における原因バリアントの正しい組合せを特定することにおける技術的課題は、バリアントが互いに相関し得ることである。したがって、PRSを算出することを目的として遺伝子データを分析するための方法のいくつかの実施形態における重要なステップは、遺伝的バリアントの間の相関を考慮する能力である。上記で述べたように、バリアント間の相関により、一部のバリアントが、入力単位10の表現型または表現型組合せの原因でない場合であっても、入力単位10における大きい限界効果量を有するということが生じ得る。
【0088】
これを考慮するために、いくつかの実施形態において、1つまたは複数の反復の各々は、原因であると決定された各遺伝的バリアントについて、各入力単位10の他の各遺伝的バリアントと表現型または表現型組合せとの間の関連についての情報から重み付き効果量を減算するステップS128をさらに含む。したがって、遺伝的バリアントiが原因であると決定され、サンプリング済み効果量βiが遺伝的バリアントiについて決定された場合、その原因バリアントの効果は、周囲の相関バリアントから減算される。重み付き効果量は、遺伝的バリアントと他の各遺伝的バリアントjとの間のそれぞれの相関係数により重み付けされた、入力単位10についての表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量12である。
【0089】
特定の実施形態において、この結果として、以下の補正が他の遺伝的バリアントjの各々の限界効果量に適用される。
【0090】
【0091】
上記の式において、βiは、現在原因であると決定されているバリアントの各々のサンプリング済み効果量12である。値ri,jは、バリアントiおよびjの各対の間の相関を表す相関係数である。相関係数は、参照配列の参照集合から推定され得る、対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて決定される。この補正式は、遺伝子型決定された各バリアントXiが分散1を有するように正規化されており、その関連する限界効果量
【0092】
【数16】
がそれに応じて更新されていることを仮定する。これが当てはまらない場合、各推定効果量についての標準誤差を考慮するために、追加の補正を適用する必要がある。
【0093】
この補正の効果は、あるバリアントが原因であるか否かが決定された場合に、その限界効果量が、その反復において原因であるとそれまでに決定されている全てのバリアントのサンプリング済み効果量に基づいて上記の式を用いて補正されることである。したがって、そのような実施形態において、式(4)および(6)において用いられる効果量βiは、実際には式(7)を用いて算出される補正効果量となる。非常に微妙な点は、特定の遺伝的バリアントについてのこの減算ステップが、減算の行われる時点において他のバリアントのいずれが原因としてサンプリングされているかに依存する点である。したがって、遺伝的バリアントがサンプリングされる順序に応じて、βiにおけるいくらかの差異が反復間で生じ得る。
【0094】
重要なことには、多くの場合、データ自体から直接遺伝的バリアント間の相関係数(上記の例における値ri,j)を算出することは不可能であり、代わりに、1,000人ゲノムコンソーシアムにより生成されるデータなどの参照母集団から生じる必要がある。これらの相関係数の集合は、連鎖不平衡マップ(またはLDマップ)と称されてよく、遺伝的バリアント間の共分散構造を反映する。これらの相関係数は、部分母集団の間で変動し得る。例えば、ヨーロッパ系祖先の個体は、東南アジア系祖先の個体とは異なるLDパターンを有する場合がある。したがって、1つの部分母集団について行われる、または複数の部分母集団の混合の個体からのデータに基づいて行われる推論は、異なる部分母集団についてはそれほど高精度でない可能性が高い。例えば、PRSの構築をサポートするデータセットは、ヨーロッパ系祖先の大規模なコホートに基づく場合が多い。結果として、これらのスコアは、非ヨーロッパ系祖先においては性能が不十分である場合が多い。単一の研究のみを分析する既存の方法においては、それらの相関係数は、研究の起点の母集団と合致する参照母集団LDマップから決定される。
【0095】
本方法においては、バリアント相関の祖先別のパターンと整合するように遺伝的バリアント間の相関を考慮して効果量減算ステップS128が行われてよい。本方法は、適切な場合には、複数の参照LDマップを並列に扱ってよい。あるバリアントが1つまたは複数の表現型の原因であると決定されると、減算ステップS128が祖先別に適用される。したがって、入力単位10がそれぞれの個体群から決定される場合、遺伝的バリアントと他の各遺伝的バリアントとの間の相関係数は、入力単位10の個体群の祖先に依存する。各研究が行われた祖先とその合致するLDマップ(共分散構造)との間で、1対1マッピングが用いられてよい。
【0096】
例えば、入力単位10のうちの少なくとも1つの個体群が共通の祖先を有する個体を含む場合、相関係数は、共通の祖先を有する個体についての対象の領域における遺伝的バリアントの間の相関に基づいて決定される。
【0097】
別の例において、複数の入力単位10は、複数の祖先の混合からの個体を含む研究から導出される。入力単位10のうちの少なくとも1つの個体群が異なる祖先を有する個体を含む場合、相関係数は、異なる祖先の各々を有する個体についての対象の領域における遺伝的バリアントの間の相関の平均に基づいて決定される。当該方法は、混合の入力単位10についてのLDマップを、複数の「一次」LDマップの平均として決定し、これらの「一次」LDマップの各々は、遺伝的バリアントの間の相関の良好に規定された参照祖先集合から決定される。
【0098】
用いられる入力データによっては、複数の遺伝的バリアントの全てが全ての祖先について有意な頻度で存在しない場合があることが考えられる。例えば、一部の遺伝的バリアントは、特定の祖先の個体のみにおいて見られる場合がある。これが当てはまり、原因効果がこれらの低頻度バリアントのうちの1つに割り当てられる場合、所与の祖先において存在しないこのバリアントは、同じ祖先についての他のバリアントと相関しないと見なされ得る。したがって、低頻度バリアントと全ての他のバリアントとの間の相関についてのri,jの相関係数は、ゼロに設定されてよい。
【0099】
1つまたは複数の反復が完了すると、当該方法は、各遺伝的バリアントについて、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量12の反復の少なくとも部分集合にわたる平均に基づいて、表現型または表現型組合せのうちの1つまたは複数に対する遺伝的バリアントの予測効果量14を決定するステップS14を含む。予測効果量14は、サンプリング済み効果量12を用いて算出される、入力単位についての遺伝的バリアントの事後効果量の平均に基づくものであってもよい。いずれの場合も、平均は、反復の少なくとも部分集合にわたって取られる。平均のための任意の好適な方法が用いられてよい。複数の反復および平均を用いることで、結果が効果量サンプリングのランダム性に打ち勝つ。原因バリアントおよびその予測効果量14の集合が決定されると、予測効果量14に基づいてPRSを決定することが簡単になる。一実施形態において、サンプリング済み効果量の平均は、加重平均であってよく、原因であると決定された各バリアントのサンプリング済み効果量は、バリアントが原因である事後確率により重み付けされる。
【0100】
例えば、バリアントiについての平均効果量
【0101】
【0102】
【数18】
として算出されてよい。式中、Lは、任意選択的に数回の初期バーンイン反復の後の、反復の合計数を示す。バリアントが原因である事後確率は、任意の好適な方法で決定されてよい。例えば、実行される反復の合計数の割合としての、バリアントが原因であると決定された反復の数を用いて決定されてよい。代替的に、バリアントが原因である事後確率は、反復の都度、ベイズ因子の計算(4)に示すように、バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率、およびバリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率から算出されてよい。
【0103】
通常、当該方法は、入力単位10が決定される元となる個体群の規模におけるばらつきが大きすぎない場合に、最大限の性能を果たす。例えば、より小規模な個体群およびより大規模な個体群から導出された2つの入力単位10が用いられる場合、一般に、より小規模な個体群がより大規模な個体群の規模の~約20%以上であると、著しい性能向上が見られる。
【0104】
いくつかの実施形態において、各遺伝的バリアントについてのサンプリング済み効果量12の1つまたは複数は、破棄されてよく、予測効果量14を得るために用いられる平均に含まれなくてよく、すなわち、反復の部分集合のみからのサンプリング済み効果量が用いられる。含まれない数は、予め定められてもよく、またはサンプリング済み効果量12の値に基づくものであってもよい。破棄されるサンプリング済み効果量12は、方法の最初の反復、例えば最初の10回の反復、最初の20回の反復、または何らかの他の予め定められた回数の反復からのものであってよい。これらは、多くの場合「バーンイン」反復と称され、モンテカルロギブスサンプラなどのサンプリング技法は有用なサンプリングパターンに収束するまでに数回の反復を要するため、通常破棄される。
【0105】
一般にPRSを決定することが望ましいことを考慮して、本発明は、
図3に示すように、ターゲット個体についてターゲット表現型またはターゲット表現型組合せについての多遺伝子リスクスコアを決定する方法において用いることもできる。上述の方法を用いて得られる効果量の向上した推定により、より高精度なPRSの決定が可能となる。
【0106】
PRSを決定する方法は、ターゲット個体のゲノムの対象の領域周辺の遺伝情報16を受け取るステップS20を含む。これは、対象の領域における個体により表現される遺伝的バリアントについての情報(一塩基多型、欠失または挿入など)を含んでよい。
【0107】
当該方法は、上述の遺伝子データを分析する方法を用いて決定された、対象の領域における複数の遺伝的バリアントのターゲット表現型またはターゲット表現型組合せに対する予測効果量14を受け取るステップS22をさらに含む。
【0108】
当該方法は、ターゲット個体16についての遺伝情報および予測効果量14に基づいて多遺伝子リスクスコア20を決定するステップS24をさらに含む。
【0109】
一実施形態において、PRS20は、以下のように算出される。
【0110】
【数19】
式中、Kは、PRS20に寄与するバリアントの数であり、x
kは、バリアントkについての遺伝子型であり、α
kは、ターゲット表現型または表現型組合せに対するバリアントkの予測的影響を定量化する(すなわち、ターゲット表現型または表現型組合せに対するバリアントkの関連の強さを定量化する)バリアントkについてのPRS重みである。通常、PRS重みα
kは、単に上記で算出されるバリアントkについての平均効果量、すなわち
【0111】
【0112】
遺伝子データを分析する方法は、有機体についての遺伝子データを分析するための装置により実行されてよく、これも
図1に示す。当該装置は、複数の入力単位10を受け取るように構成される受信ユニット200を備え、各入力単位は、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体の複数の表現型または表現型組合せのうちの1つとの間の関連についての情報を含む。装置は、複数の遺伝的バリアントの各々について、複数の入力単位10に基づいて、遺伝的バリアントが複数の表現型または表現型組合せのいずれの原因であるかを決定することと、遺伝的バリアントが表現型または表現型組合せのうちの1つまたは複数の原因であると決定された場合に、複数の入力単位10、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量12を決定することとを含む1つまたは複数の反復を実行するように構成されるデータ処理ユニット210をさらに備える。データ処理ユニット210はさらに、各遺伝的バリアントについて、1つまたは複数の表現型または表現型組合せに対する遺伝的バリアントのサンプリング済み効果量12の反復の少なくとも部分集合にわたる、またはサンプリング済み効果量を用いて算出される入力単位についての遺伝的バリアントの事後効果量の平均に基づいて、表現型または表現型組合せのうちの1つまたは複数に対する遺伝的バリアントの予測効果量14を決定するように構成される。
【0113】
本発明は、プログラムがコンピュータにより実行された場合に、遺伝子データを分析する方法をコンピュータに実行させる命令を含むコンピュータプログラムにおいて具現化されてもよい。本発明は、コンピュータにより実行された場合に、遺伝子データを分析する方法をコンピュータに実行させる命令を含むコンピュータ可読媒体において具現化されてもよい。
【0114】
結果
実例として、本方法をUKバイオバンクのコホートにおける虚血性脳卒中の予測に適用した。
【0115】
MEGASTROKEコンソーシアム(34,217のケースおよび406,111のコントロール)、FinnGenコンソーシアム(6,462のケースおよび125,569のコントロール)、UKバイオバンク(3,216のケースおよび168,269のコントロール)、およびバイオバンク・ジャパン(17,671のケースおよび192,383のコントロール)からの虚血性脳卒中についてのGWAS研究をメタ分析した。単独での単一の形質のこのメタ分析を考慮し、既存の方法を適用すると、予測精度(曲線下面積(AUC)を用いて定量化される)は、ヨーロッパ系祖先の個体において0.576(95% CI 0.565~0.587)であった。
【0116】
虚血性脳卒中のメタ分析を別個の高血圧のメタ分析[GERA(31,000のケースおよび30847のコントロール)およびUKBB(61,925のケースおよび108,249のコントロール)]と組み合わせるために、本方法を適用した。この組合せ分析は、訓練セットにおけるヨーロッパ系祖先の個体において0.599(95% CI 0.589~0.610)という向上したAUCをもたらし、本方法の利点を実証した。
【0117】
参考文献
Bayesian meta-analysis across genome-wide association studies of diverse phenotypes, Trochet H, Pirinen M, Band G, Jostins L, McVean G, Spencer C, Genetic Epidemiology 2019
Multi-trait analysis of genome-wide association summary statistics using MTAG, P Turley et al. Nature Genetics 2018
Vilhjalmsson BJ, Yang J, Finucane HK, et al. Modeling Linkage Disequilibrium Increases Accuracy of Polygenic Risk Scores. Am J Hum Genet 2015.
Variable prediction accuracy of polygenic scores within an ancestry group, Hakhamanesh Mostafavi, Arbel Harpak Ipsita Agarwal, Dalton Conley, Jonathan K Pritchard, Molly Przeworski, eLife, 2020
Bycroft et al, The UK Biobank resource with deep phenotyping and genomic data, Nature 2018
A correction for sample overlap in genome-wide association studies in a polygenic pleiotropy-informed framework, Marissa LeBlanc, Verena Zuber, Wesley K. Thompson, Ole A. Andreassen, Schizophrenia and Bipolar Disorder Working Groups of the Psychiatric Genomics Consortium, Arnoldo Frigessi, and Bettina Kulle Andreassen, 2018
Multitrait analysis of glaucoma identifies new risk loci and enables polygenic prediction of disease susceptibility and progression, Jamie E. Craig et al, Nature Genetics 2020
【符号の説明】
【0118】
10 入力単位
12 サンプリング済み効果量
14 予測効果量、効果量
16 遺伝情報、ターゲット個体、個体遺伝情報
20 多遺伝子リスクスコア、PRS
【国際調査報告】