(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-28
(54)【発明の名称】異なる薬物使用パターンについての表現型測定値からの時間的データに対する共変量補正
(51)【国際特許分類】
G16B 20/00 20190101AFI20250121BHJP
G16B 40/00 20190101ALI20250121BHJP
【FI】
G16B20/00
G16B40/00
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024539697
(86)(22)【出願日】2022-12-28
(85)【翻訳文提出日】2024-06-28
(86)【国際出願番号】 US2022054196
(87)【国際公開番号】W WO2023129622
(87)【国際公開日】2023-07-06
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-06-10
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-06-10
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-06-10
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-10-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ペトコ・プラメノフ・フィジエフ
(72)【発明者】
【氏名】ジェレミー・フランシス・マクレー
(72)【発明者】
【氏名】カイ-ハウ・ファー
(57)【要約】
複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するコンピュータ実装方法。個体のコホートが、2つの別個の時点について、関連付けられた表現型測定値、共変量測定値、及び薬物使用パターンを有する。第1及び第2の時点についての表現型測定値が、共変量補正され、生物学的統計の使用を通じて薬物使用補正される。
【特許請求の範囲】
【請求項1】
複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するコンピュータ実装方法であって、
前記個体のコホートについて、かつ第1及び第2の時点について、
前記複数の表現型についての表現型測定値にアクセスすることと、
前記複数の交絡因子についての共変量測定値にアクセスすることと、
前記複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
前記共変量測定値に基づいて前記第1及び第2の時点についての前記表現型測定値を共変量補正し、それによって、前記第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
前記薬物使用パターンの各々について、前記共変量補正された表現型測定値に対する前記複数の薬物の使用に応答した表現型シフトを予測するために前記デルタを使用する第2の回帰モデルをフィッティングすることと、
前記表現型シフトに基づいて前記第1及び第2の時点についての前記表現型測定値を薬物使用補正し、それによって、前記第1の時点についての薬物使用補正された表現型測定値を生成することと、を含む、コンピュータ実装方法。
【請求項2】
前記複数の交絡因子が、年齢、性別、遺伝的主成分、食事、及び喫煙状態を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記共変量補正が、第1の回帰モデルをフィッティングすることによって前記共変量測定値を除去して回帰分析することによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記表現型シフト予測が、前記薬物使用パターンの各々について表現型シフトをモデル化する第2の回帰モデルをフィッティングすることによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記第2の回帰モデルが、前記薬物使用パターンの各々についての前記表現型シフトを連続的かつ累積的に含めることによって、前記デルタを繰り返し予測する前進型選択段階的回帰モデルである、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記薬物使用パターンが、
前記第1及び第2の時点で薬物を服用していないことと、
前記第1の時点と前記第2の時点との間で前記薬物を服用することを開始することと、
前記第1の時点と前記第2の時点との間で前記薬物を服用することを停止することと、
前記第1及び第2の時点で前記薬物を服用していることと、を含む、請求項4に記載のコンピュータ実装方法。
【請求項7】
前記第2の回帰モデルが、前記薬物使用パターンの各々についてバイナリインジケータ独立変数を有する、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記共変量補正、前記デルタ決定、前記表現型シフト予測、及び前記薬物使用補正が、前記複数の薬物中の薬物について薬物ごとに実行される、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記第2の回帰モデルが、前記薬物の各々に対して反復的にフィッティングされる、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記薬物を薬物カテゴリのセットに群化することを更に含む、請求項8に記載のコンピュータ実装方法。
【請求項11】
前記共変量補正、前記デルタ決定、前記表現型シフト予測、及び前記薬物使用補正が、前記薬物カテゴリのセット内の薬物カテゴリについて薬物カテゴリごとに実行される、請求項10に記載のコンピュータ実装方法。
【請求項12】
前記第2の回帰モデルが、前記薬物カテゴリの各々に対して反復的にフィッティングされる、請求項11に記載のコンピュータ実装方法。
【請求項13】
前記第2の回帰モデルが、前記個体のコホート内の個体について個体ごとに前記第1の時点と前記第2の時点との間で経過した時間に応答して、表現型シフトを更にモデル化する、請求項1に記載のコンピュータ実装方法。
【請求項14】
前記第2の回帰モデルが、前記第1の時点と前記第2の時点との間の平均への回帰に応答して、表現型シフトを更にモデル化する、請求項1に記載のコンピュータ実装方法。
【請求項15】
前記第2の回帰モデルが、前記複数の薬物における関連薬物のセットに対して共同でフィッティングされる、請求項8に記載のコンピュータ実装方法。
【請求項16】
前記薬物使用補正が、第3の回帰モデルをフィッティングすることによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項17】
第1の時点と第2の時点との間で前記薬物を服用することを開始する第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、前記第1及び第2の時点で薬物を服用していない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が前記第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、前記第1の時点についての前記表現型測定値を薬物使用補正することを更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記薬物使用補正が、第4の回帰モデルをフィッティングすることによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項19】
前記第1の時点と前記第2の時点との間で前記薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、前記第1及び第2の時点で前記薬物を服用している第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が前記第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、前記第2の時点についての前記表現型測定値を薬物使用補正することを更に含む、請求項18に記載のコンピュータ実装方法。
【請求項20】
ランクに基づく逆正規変換を、前記第1及び第2の時点についての前記薬物使用補正された表現型測定値に適用することと、前記第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項21】
前記第1及び第2の時点についての前記正規化された薬物使用補正された表現型測定値を共変量補正することと、
前記第1及び第2の時点について、共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、を更に含む、請求項20に記載のコンピュータ実装方法。
【請求項22】
前記共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアント多遺伝子リスクスコアを生成することを更に含む、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記複数の表現型が、複数の定量的表現型に対応する、請求項1に記載のコンピュータ実装方法。
【請求項24】
前記複数の定量的表現型における定量的表現型が、定量的バイオマーカー測定値である、請求項23に記載のコンピュータ実装方法。
【請求項25】
前記共変量補正、前記デルタ決定、前記表現型シフト、及び前記薬物使用補正において使用するために、前記複数の定量的表現型を非冗長セットに剪定することを更に含む、請求項23に記載のコンピュータ実装方法。
【請求項26】
前記非冗長セットにおける定量的表現型の各ペアが、上限閾値よりも低い絶対ペアワイズピアソン相関を有する、請求項25に記載のコンピュータ実装方法。
【請求項27】
前記上限閾値が、0.95である、請求項26に記載のコンピュータ実装方法。
【請求項28】
前記複数の定量的表現型における冗長な定量的表現型の各群の中から、前記非冗長セットに含めるために、最も多くのサンプルを有する表現型を選択することを更に含む、請求項26に記載のコンピュータ実装方法。
【請求項29】
前記複数の表現型が、複数のカテゴリ表現型に対応する、請求項1に記載のコンピュータ実装方法。
【請求項30】
前記複数のカテゴリ表現型におけるカテゴリ表現型が、臨床診断である、請求項29に記載のコンピュータ実装方法。
【請求項31】
薬物-表現型関連性を検出するために前記第2の回帰モデルを使用することを更に含む、請求項4に記載のコンピュータ実装方法。
【請求項32】
前記薬物-表現型関連性が、潜在的な望ましくない副作用及び所望の標的効果を含む、請求項31に記載のコンピュータ実装方法。
【請求項33】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリに、複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するためのコンピュータ命令がロードされており、前記命令が、前記プロセッサ上で実行されると、
前記個体のコホートについて、かつ第1及び第2の時点について、
前記複数の表現型についての表現型測定値にアクセスすることと、
前記複数の交絡因子についての共変量測定値にアクセスすることと、
前記複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
前記共変量測定値に基づいて前記第1及び第2の時点についての前記表現型測定値を共変量補正し、それによって、前記第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
前記薬物使用パターンの各々について、前記共変量補正された表現型測定値に対する前記複数の薬物の使用に応答した表現型シフトを予測するために前記デルタを使用することと、前記表現型シフトに基づいて前記第1の時点についての前記表現型測定値を薬物使用補正し、それによって、前記第1及び第2の時点についての薬物使用補正された表現型測定値を生成することと、を含むアクションを実装する、システム。
【請求項34】
複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサ上で実行されると、
前記個体のコホートについて、かつ第1及び第2の時点について、
前記複数の表現型についての表現型測定値にアクセスすることと、
前記複数の交絡因子についての共変量測定値にアクセスすることと、
前記複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
前記共変量測定値に基づいて前記第1及び第2の時点についての前記表現型測定値を共変量補正し、それによって、前記第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
前記薬物使用パターンの各々について、前記共変量補正された表現型測定値に対する前記複数の薬物の使用に応答した表現型シフトを予測するために前記デルタを使用することと、表現型シフト予測に基づいて前記第1及び第2の時点についての前記表現型測定値を薬物使用補正し、それによって、前記第1及び第2の時点についての薬物使用補正された表現型測定値を生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権出願)
本出願は、以下の利益及び優先権を主張する。
2021年12月29日に出願された「PERIODIC MASK PATTERN FOR REVELATION LANGUAGE MODELS」と題する米国仮特許出願第63/294,813号(代理人整理番号ILLM1063-1/IP-2296-PRV)、
2021年12月29日に出願された「CLASSIFYING MILLIONS OF VARIANTS OF UNCERTAIN SIGNIFICANCE USING PRIMATE SEQUENCING AND DEEP LEARNING」と題する米国仮特許出願第63/294,816号(代理人整理番号ILLM1064-1/IP-2297-PRV)、
2021年12月29日に出願された「IDENTIFYING GENES WITH DIFFERENTIAL SELECTIVE CONSTRAINT BETWEEN HUMANS AND NON-HUMAN PRIMATES」と題する米国仮特許出願第63/294,820号(代理人整理番号ILLM1065-1/IP-2298-PRV)、
2021年12月29日に出願された「DEEP LEARNING NETWORK FOR EVOLUTIONARY CONSERVATION」と題する米国非仮特許出願第63/294,827号(代理人整理番号ILLM1066-1/IP-2299-PRV)、
2021年12月29日に出願された「INTER-MODEL PREDICTION SCORE RECALIBRATION」と題する米国仮特許出願第63/294,828号(代理人整理番号ILLM1067-1/IP-2301-PRV)、
2021年12月29日に出願された「SPECIES-DIFFERENTIABLE EVOLUTIONARY PROFILES」と題する米国仮特許出願第63/294,830号(代理人整理番号ILLM1068-1/IP-2302-PRV)、
2022年6月10日に出願された「OPTIMIZED BURDEN TEST BASED ON NESTED T-TESTS THAT MAXIMIZE SEPARATION BETWEEN CARRIERS AND NON-CARRIERS」と題する米国仮特許出願第63/351,283号(代理人整理番号ILLM1070-1/IP-2368-PRV)、
2022年6月10日に出願された「RARE VARIANT POLYGENIC RISK SCORES」と題する米国仮特許出願第63/351,299号(代理人整理番号ILLM1071-1/IP-2378-PRV)、及び
2022年6月10日に出願された「COVARIATE CORRECTION INCLUDING DRUG USE FROM TEMPORAL DATA」と題する米国仮特許出願第63/351,317号(代理人整理番号ILLM1073-1/IP-2387-PRV)。
【0002】
優先権出願は、本明細書に完全に記載されているかのように参照によって組み込まれる。
【0003】
(発明の分野)
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、順序付きデータを分析するための深層畳み込みニューラルネットワークの使用に関する。
【0004】
(関連出願)
本出願は、2022年10月18日に出願された「OPTIMIZED BURDEN TEST BASED ON NESTED T-TESTS THAT MAXIMIZE SEPARATION BETWEEN CARRIERS AND NON-CARRIERS」と題する米国非仮特許出願第17/968,285号(代理人整理番号ILLM1070-2/IP-2368-US)に関する。関連出願は、全ての目的のために参照により本明細書に組み込まれる。
【0005】
本出願は、2022年10月18日に出願された「RARE VARIANT POLYGENIC RISK SCORES」と題する米国非仮特許出願第17/968,723号(代理人整理番号ILLM1071-2/IP-2378-US)に関する。関連出願は、全ての目的のために参照により本明細書に組み込まれる。
【0006】
(参照による組み込み)
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)、
Jaganathan,K.et al.Predicting splicing from primary sequence with deep learning.Cell 176,535-548(2019)、
2017年10月16日に出願された「TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA」と題する米国特許出願第62/573,144号(代理人整理番号ILLM1000-1/IP-1611-PRV)、
2017年10月16日に出願された「PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国特許出願第62/573,149号(代理人整理番号ILLM1000-2/IP-1612-PRV)、
2017年10月16日に出願された「DEEP SEMI-SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA」と題する米国特許出願第62/573,153号(代理人整理番号ILLM1000-3/IP-1613-PRV)、
2017年11月7日に出願された「PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国特許出願第62/582,898号(代理人整理番号ILLM 1000-4/IP-1618-PRV)、
2018年10月15日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/160,903号(代理人整理番号ILLM1000-5/IP-1611-US)、
2018年10月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」と題する米国特許出願第16/160,986号(代理人整理番号ILLM1000-6/IP-1612-US)、
2018年10月15日に出願された「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/160,968号(代理人整理番号ILLM1000-7/IP-1613-US)、
2018年10月15日に出願された「DEEP LEARNING-BASED SPLICE SITE CLASSIFICATION」と題する米国特許出願第16/160,978号(代理人整理番号ILLM1001-4/IP-1680-US)、
2019年5月8日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/407,149号(代理人整理番号ILLM1010-1/IP-1734-US)、
2021年4月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS TO PREDICT VARIANT PATHOGENICITY USING THREE-DIMENSIONAL(3D)PROTEIN STRUCTURES」と題する米国特許出願第17/232,056号(代理人整理番号ILLM1037-2/IP-2051-US)、
2021年4月15日に出願された「MULTI-CHANNEL PROTEIN VOXELIZATION TO PREDICT VARIANT PATHOGENICITY USING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第63/175,495号(代理人整理番号ILLM1047-1/IP-2142-PRV)、
2021年4月16日に出願された「EFFICIENT VOXELIZATION FOR DEEP LEARNING」と題する米国特許出願第63/175,767号(代理人整理番号ILLM1048-1/IP-2143-PRV)、
2021年9月7日に出願された「ARTIFICIAL INTELLIGENCE-BASED ANALYSIS OF PROTEIN THREE-DIMENSIONAL(3D)STRUCTURES」と題する米国特許出願第17/468,411号(代理人整理番号ILLM1037-3/IP-2051A-US)、
2021年10月6日に出願された「PROTEIN STRUCTURE-BASED PROTEIN LANGUAGE MODELS」と題する米国仮特許出願第63/253,122号(代理人整理番号ILLM1050-1/IP-2164-PRV)、
2021年11月19日に出願された「PREDICTING VARIANT PATHOGENICITY FROM EVOLUTIONARY CONSERVATION USING THREE-DIMENSIONAL(3D)PROTEIN STRUCTURE VOXELS」と題する米国仮特許出願第63/281,579号(代理人整理番号ILLM1060-1/IP-2270-PRV)、
2021年11月19日に出願された「COMBINED AND TRANSFER LEARNING OF A VARIANT PATHOGENICITY PREDICTOR USING GAPED AND NON-GAPED PROTEIN SAMPLES」と題する米国仮特許出願第63/281,592号(代理人整理番号ILLM1061-1/IP-2271-PRV)、
2021年12月29日に出願された「PERIODIC MASK PATTERN FOR REVELATION LANGUAGE MODELS」と題する米国仮特許出願第63/294,813号(代理人整理番号ILLM1063-1/IP-2296-PRV)、
2021年12月29日に出願された「CLASSIFYING MILLIONS OF VARIANTS OF UNCERTAIN SIGNIFICANCE USING PRIMATE SEQUENCING AND DEEP LEARNING」と題する米国仮特許出願第63/294,816号(代理人整理番号ILLM1064-1/IP-2297-PRV)、
2021年12月29日に出願された「IDENTIFYING GENES WITH DIFFERENTIAL SELECTIVE CONSTRAINT BETWEEN HUMANS AND NON-HUMAN PRIMATES」と題する米国仮特許出願第63/294,820号(代理人整理番号ILLM1065-1/IP-2298-PRV)、
2021年12月29日に出願された「DEEP LEARNING NETWORK FOR EVOLUTIONARY CONSERVATION」と題する米国非仮特許出願第63/294,827号(代理人整理番号ILLM1066-1/IP-2299-PRV)、
2021年12月29日に出願された「INTER-MODEL PREDICTION SCORE RECALIBRATION」と題する米国仮特許出願第63/294,828号(代理人整理番号ILLM1067-1/IP-2301-PRV)、及び
2021年12月29日に出願された「SPECIES-DIFFERENTIABLE EVOLUTIONARY PROFILES」と題する米国仮特許出願第63/294,830号(代理人整理番号ILLM1068-1/IP-2302-PRV)。
【背景技術】
【0007】
本セクションで考察される主題は、単に本セクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、本セクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。本セクションの主題は、単に異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0008】
広義のゲノミクスは、機能的ゲノミクスとも呼ばれ、ゲノム配列決定、トランスクリプトームプロファイリング及びプロテオミクスなどのゲノムスケールアッセイを使用することによって生物の全てのゲノムエレメントの機能を特徴付けることを目的とする。ゲノミクスは、データ主導の科学として生じ、予め考えられたモデル及び仮説を試験することによってではなく、ゲノムスケールデータの調査から新規の特性を発見することによって動作する。ゲノミクスの適用には、遺伝子型と表現型との間の関連を見出すこと、患者の層別化のためのバイオマーカーを発見すること、遺伝子の機能を予測すること、並びに生物統計解析を使用して転写エンハンサー及び一塩基多型(single nucleotide polymorphism、SNP)などの生化学的に活性なゲノム領域及び残基を図表化することが含まれる。
【0009】
ゲノミクスデータは、ペアワイズ相関の視覚的調査のみによってマイニングするには大きすぎ、かつ複雑すぎる。その代わりに、予期しない関係の発見をサポートし、新規な仮説及びモデルを導き出し、予測を行うために、分析ツールが必要とされる。仮定及び領域専門知識がハード符号化されるいくつかのアルゴリズムとは異なり、機械学習アルゴリズムは、データ内のパターンを自動的に検出するように設計される。したがって、機械学習アルゴリズムは、データ駆動型科学、特にゲノミクスに適している。しかしながら、機械学習アルゴリズムの性能は、データがどのように表されるかに、すなわち、各変数(特徴とも呼ばれる)がどのように計算されるかに強く依存し得る。例えば、蛍光顕微鏡画像から腫瘍を悪性又は良性として分類するために、前処理アルゴリズムは、細胞を検出し、細胞型を特定し、各細胞型について細胞カウントのリストを生成することができる。
【0010】
機械学習モデルは、人手で設計した特徴の例である推定細胞カウントを、腫瘍を分類するための入力特徴として取ることができる。中心的な問題は、分類性能がこれらの特徴の質及び関連性に大きく依存することである。例えば、細胞形態、細胞間の距離又は器官内の局在化等の関連する視覚的特徴は、細胞カウントにおいて捕捉されず、データのこの不完全な表現は、分類精度を低減させ得る。
【0011】
機械学習のサブ規律である深層学習は、特徴の計算を機械学習モデル自体に埋め込み、エンドツーエンドモデルを生成することによって、この問題に対処する。この結果は、先行する動作の結果を入力として取ることによってますます複雑になる特徴を計算する、連続する基本動作を含む機械学習モデルである深層ニューラルネットワークの開発によって実現されている。ディープニューラルネットワークは、上記の例における細胞形態及び細胞の空間的構成など、複雑度の高い関連する特徴を発見することによって予測精度を改善することができる。深層ニューラルネットワークの構築及び訓練は、特にグラフィカル処理ユニット(graphical processing unit、GPU)の使用を通して、データの爆発、アルゴリズムの進歩、及び計算能力の実質的な増加によって可能になった。
【0012】
教師あり学習の目標は、特徴を入力として取り、いわゆるターゲット変数の予測を返すモデルを得ることである。教師あり学習問題の例は、標準スプライス部位配列の有無、スプライシング分岐点の位置又はイントロン長などのRNA上の特徴を考慮して、イントロンがスプライシングされるか否か(標的)を予測する問題である。機械学習モデルを訓練することは、そのパラメータを学習することを指し、これは一般に、未知のデータに対して正確な予測を行う目的で、訓練データに対する損失関数を最小化することを含む。
【0013】
計算生物学における多くの教師あり学習問題について、入力データは、複数の列又は特徴を有する表として表すことができ、その各々は、予測を行うのに潜在的に有用である数値データ又はカテゴリデータを含有する。いくつかの入力データは、表形式の特徴(例えば、温度又は時間)として自然に表されるが、他の入力データは、表の表現に適合させるために、特徴抽出と呼ばれるプロセスを使用して最初に変換される必要がある(例えば、デオキシリボ核酸(deoxyribonucleic acid、DNA)配列をk-merカウントに変換する)。イントロン-スプライシング予測問題のために、標準スプライス部位配列の有無、スプライシング分岐点の位置及びイントロン長は、表形式で収集された前処理された特徴であることができる。表形式データは、ロジスティック回帰などの単純な線形モデルから、ニューラルネットワーク及び多くの他のものなどのより柔軟な非線形モデルに及ぶ、広範囲の教師あり機械学習モデルの標準である。
【0014】
ロジスティック回帰は、バイナリ分類器、すなわち、バイナリターゲット変数を予測する教師あり学習モデルである。具体的には、ロジスティック回帰は、活性化関数の一種であるシグモイド関数を使用して[0,1]区間にマッピングされた入力特徴の加重和を計算することによって、陽性クラスの確率を予測する。ロジスティック回帰、又は異なる活性化関数を使用する他の線形分類器のパラメータは、加重和における重みである。線形分類器は、例えばイントロンがスプライシングされたか否かのクラスが入力特徴の加重和で十分に識別できない場合に失敗する。予測性能を改善するために、新しい入力特徴は、新しい方法で既存の特徴を変換又は組み合わせることによって、例えば、累乗又はペアワイズ積を取ることによって、手動で追加されることができる。
【0015】
ニューラルネットワークは、隠れ層を使用して、これらの非線形特徴変換を自動的に学習する。各隠れ層は、シグモイド関数又はより一般的な正規化線形ユニット(rectified-linear unit、ReLU)などの非線形活性化関数によって変換された出力を有する複数の線形モデルと考えることができる。同時に、これらの層は、入力特徴を関連する複雑なパターンに構成し、2つのクラスを区別するタスクを容易にする。
【0016】
深層ニューラルネットワークは、多くの隠れ層を使用し、各ニューロンが先行する層の全てのニューロンから入力を受信するとき、層は全結合されていると言われる。ニューラルネットワークは、一般に、非常に大きなデータセットでモデルを訓練するのに適したアルゴリズムである確率的勾配降下法を使用して訓練する。現代の深層学習フレームワークを使用するニューラルネットワークの実施態様は、異なるアーキテクチャ及びデータセットを用いたラピッドプロトタイピングを可能にする。全結合ニューラルネットワークは、スプライス因子の結合モチーフの存在又は配列保存などの配列特徴から、所与の配列に対してスプライシングされたエクソンの割合を予測すること、潜在的に疾患を引き起こす遺伝子バリアントを優先順位付けすること、並びに所与のゲノム領域において、クロマチンマーク、遺伝子発現及び進化的保存などの特徴を用いてシス調節エレメントを予測することを含む、いくつかのゲノミクス用途に使用することができる。
【0017】
効果的な予測のためには、空間的及び縦断的データにおける局所依存性を考慮しなければならない。例えば、DNA配列又は画像のピクセルのシャッフリングは、情報パターンを激しく乱す。これらの局所依存性は、特徴の順序付けが任意である表形式データとは別に、空間又は縦断的データを設定する。結合領域が、配列決定(ChIP-seq)データが続く、クロマチン免疫沈降における高信頼度結合事象として定義される、特定の転写因子による結合対非結合としてゲノム領域を分類する問題を考慮されたい。転写因子は、配列モチーフを認識することによってDNAに結合する。配列中のk-merインスタンスの数又は位置重み行列(position weight matrix、PWM)マッチなどの配列由来の特徴に基づく全結合層を、このタスクに使用することができる。k-mer又はPWMインスタンス頻度は、配列内のモチーフをシフトさせることに対してロバストであるため、そのようなモデルは、異なる位置に位置する同じモチーフを有する配列に十分に一般化することができる。しかしながら、それらは、転写因子結合が明確な間隔を有する複数のモチーフの組み合わせに依存するパターンを認識することができない。更に、可能なk-merの数は、k-mer長とともに指数関数的に増加し、これは、保存及び過剰適合の両方の課題をもたらす。
【0018】
畳み込み層は、同じ全結合層が局所的に、例えば6bpウィンドウ内で、全ての配列位置に適用される、全結合層の特別な形態である。このアプローチはまた、例えば、転写因子GATA1及びTAL1について、複数のPWMを使用して配列を走査することとみなすことができる。位置にわたって同じモデルパラメータを使用することによって、パラメータの総数は劇的に低減され、ネットワークは、訓練中に見られない位置でモチーフを検出することができる。各畳み込み層は、フィルタと配列との間の一致を量子化するスカラー値を全ての位置において生成することによって、いくつかのフィルタを用いて配列を走査する。全結合ニューラルネットワークにおけるように、非線形活性化関数(一般にReLU)が各層において適用される。次に、プーリング演算が適用され、これは、位置軸にわたって連続するビン内の活性化を集約し、一般に、各チャネルについて最大又は平均活性化を取る。プーリングは、有効配列長を減少させ、信号を粗大化する。後続の畳み込み層は、前の層の出力を構成し、GATA1モチーフ及びTAL1モチーフがある距離範囲に存在したかどうかを検出することができる。最後に、畳み込み層の出力は、最終予測タスクを実行するために全結合ニューラルネットワークへの入力として使用することができる。したがって、異なるタイプのニューラルネットワーク層(例えば、全結合層及び畳み込み層)を単一のニューラルネットワーク内で組み合わせることができる。
【0019】
畳み込みニューラルネットワーク(convolutional neural network、CNN)は、DNA配列のみに基づいて様々な分子表現型を予測することができる。用途としては、転写因子結合部位の分類、並びにクロマチン特徴、DNAコンタクトマップ、DNAメチル化、遺伝子発現、翻訳効率、RBP結合、及びマイクロRNA(microRNA、miRNA)標的などの分子表現型の予測が挙げられる。配列から分子表現型を予測することに加えて、畳み込みニューラルネットワークは、人手で設計したバイオインフォマティクスパイプラインによって伝統的に対処されるより技術的なタスクに適用することができる。例えば、畳み込みニューラルネットワークは、ガイドRNAの特異性を予測し、ChIP-seqをノイズ除去し、Hi-Cデータ分解能を向上させ、DNA配列から実験室起源を予測し、遺伝子バリアントを呼び出すことができる。畳み込みニューラルネットワークはまた、ゲノムにおける長期依存性をモデル化するために使用されてきた。相互作用する調節エレメントは、折り畳まれていない直鎖状DNA配列上に離れて位置し得るが、これらのエレメントは、多くの場合、実際の3Dクロマチン立体構造において近位である。したがって、線形DNA配列からの分子表現型のモデリングは、クロマチンの粗い近似ではあるが、長期依存性を可能にし、モデルがプロモーター-エンハンサーループなどの3D組織化の態様を暗示的に学習することを可能にすることによって改善することができる。これは、最大32kbの受容野を有する拡張畳み込みを使用することによって達成される。拡張畳み込みはまた、スプライス部位が10kbの受容野を使用して配列から予測されることを可能にし、それによって、典型的なヒトイントロンと同じ長さの距離にわたる遺伝子配列の統合を可能にする(Jaganathan,K.et al.Predicting splicing from primary sequence with deep learning.Cell 176,535-548(2019)を参照)。
【0020】
異なるタイプのニューラルネットワークは、それらのパラメータ共有スキームによって特徴付けることができる。例えば、全結合層はパラメータ共有を有さないが、畳み込み層は、それらの入力の全ての位置において同じフィルタを適用することによって並進不変性を課す。回帰型ニューラルネットワーク(recurrent neural network、RNN)は、異なるパラメータ共有方式を実装する、DNA配列又は時系列などの順次データを処理するための畳み込みニューラルネットワークの代替である。回帰型ニューラルネットワークは、各配列エレメントに同じ演算を適用する。この演算は、入力として、前の配列エレメントのメモリ及び新しい入力を取る。これはメモリを更新し、任意選択で出力を発し、この出力は後続の層に渡されるか、又はモデル予測として直接使用されるかのいずれかである。各配列エレメントに同じモデルを適用することによって、回帰型ニューラルネットワークは、処理された配列における位置指数に対して不変である。例えば、回帰型ニューラルネットワークは、配列中の位置にかかわらず、DNA配列中のオープンリーディングフレームを検出することができる。このタスクは、開始コドンとそれに続くインフレーム停止コドンなどの特定の一連の入力の認識を必要とする。
【0021】
畳み込みニューラルネットワークに対する回帰型ニューラルネットワークの主な利点は、理論的には、それらがメモリを介して無限に長い配列を通じて情報を引き継ぐことができることである。更に、回帰型ニューラルネットワークは、mRNA配列のような広く変化する長さの配列を自然に処理することができる。しかしながら、様々なトリック(拡張畳み込みなど)と組み合わされた畳み込みニューラルネットワークは、オーディオ合成及び機械翻訳などの配列モデリングタスクに関して、回帰型ニューラルネットワークに匹敵する、又は回帰型ニューラルネットワークよりも更に良好な性能に達することができる。回帰型ニューラルネットワークは、単一細胞DNAメチル化状態、RBP結合、転写因子結合、及びDNAアクセシビリティを予測するために、畳み込みニューラルネットワークの出力を集約することができる。更に、回帰型ニューラルネットワークは逐次演算を適用するので、容易に並列化することができず、したがって、畳み込みニューラルネットワークよりも計算がはるかに遅い。
【0022】
ヒト遺伝子コードの大部分は全てのヒトに共通であるが、各ヒトは固有の遺伝子コードを有する。いくつかの場合において、ヒト遺伝子コードは、ヒト集団の比較的小さい群の個体間で共通であり得る、遺伝子バリアントと呼ばれる外れ値を含み得る。例えば、特定のヒトタンパク質は、アミノ酸の特定の配列を含み得るが、そのタンパク質のバリアントは、他の点では同じ特定の配列において1つのアミノ酸が異なり得る。
【0023】
遺伝子バリアントは病原的であり得、疾患をもたらし得る。そのような遺伝子バリアントのほとんどは、自然淘汰によってゲノムから枯渇しているが、どの遺伝子バリアントが病原性である可能性が高いかを特定する能力は、研究者がこれらの遺伝子バリアントに焦点を当てて、対応する疾患及びそれらの診断、治療、又は治癒の理解を得る助けとなることができる。何百万ものヒト遺伝子バリアントの臨床的解釈は不明のままである。最も頻繁な病原性バリアントのいくつかは、タンパク質のアミノ酸を変化させる単一ヌクレオチドミスセンス変異である。しかし、全てのミスセンス変異が病原性であるわけではない。
【0024】
生物学的配列から分子表現型を直接予測することができるモデルは、遺伝的バリエーションと表現型バリエーションとの間の関連を調べるためのインシリコ摂動ツールとして使用することができ、定量的形質遺伝子座特定及びバリアント優先順位付けのための新しい方法として出現した。これらのアプローチは、複雑な表現型のゲノムワイド関連研究によって特定されたバリアントの大部分が非コードであり、それがそれらの効果及び表現型への寄与を推定することを困難にすることを考慮すると、非常に重要である。更に、連鎖不平衡は、共遺伝されるバリアントのブロックをもたらし、これは、個々の原因バリアントを正確に特定することを困難にする。したがって、そのようなバリアントの影響を評価するための照合ツールとして使用することができる配列に基づく深層学習モデルは、複雑な表現型の潜在的なドライバーを見出すための有望なアプローチを提供する。一例としては、転写因子結合、クロマチンアクセシビリティ又は遺伝子発現予測に関して、2つのバリアント間の差異から間接的に非コード単一ヌクレオチドバリアント及び短い挿入又は欠失(インデル)の効果を予測することが挙げられる。別の例としては、配列又はスプライシングに対する遺伝子バリアントの定量的効果から新規スプライス部位生成を予測することが挙げられる。
【0025】
タンパク質配列及び配列保存データからミスセンスバリアントの病原性を予測するために、バリアント効果予測のためのエンドツーエンド深層学習アプローチが適用される(Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)を参照。本明細書では「PrimateAI」と称される)。PrimateAIは、異種間情報を使用するデータ増強を用いて既知の病原性のバリアントで訓練した深層ニューラルネットワークを使用する。特に、PrimateAIは、野生型及び変異タンパク質の配列を使用して、差異を比較し、訓練した深層ニューラルネットワークを使用して変異の病原性を決定する。病原性予測のためにタンパク質配列を利用するこのようなアプローチは、真円度問題及び以前の知識への過剰適合を回避することができるので、有望である。しかしながら、深層ニューラルネットワークを効果的に訓練するのに十分な数のデータと比較して、ClinVarにおいて利用可能な臨床データの数は比較的少ない。このデータ不足を克服するために、PrimateAIは、一般的なヒトバリアント及び霊長類由来のバリアントを良性データとして使用し、トリヌクレオチド文脈に基づいてシミュレートされたバリアントをラベルなしデータとして使用した。
【0026】
PrimateAIは、配列アラインメントで直接訓練した場合、従来の方法よりも性能が優れている。PrimateAIは、重要なタンパク質ドメイン、保存されたアミノ酸位置、及び配列依存性を、約120,000のヒトサンプルからなる訓練データから直接学習する。PrimateAIは、候補の発達障害遺伝子における良性及び病原性のデノボ変異を区別すること、及びClinVarにおける事前知識を再現することにおいて、他のバリアント病原性予測ツールの性能を実質的に上回る。これらの結果は、PrimateAIが、臨床報告の事前知識への依存を減らすことができるバリアント分類ツールのための重要な前進であることを示唆する。
【0027】
タンパク質生物学の中心は、構造エレメントが観察された機能をどのように生じさせるかの理解である。過度のタンパク質構造データは、構造-機能関係を支配する規則を系統的に導出するための計算方法の開発を可能にする。しかしながら、これらの方法の性能は、タンパク質構造表現の選択に決定的に依存する。
【0028】
タンパク質部位は、タンパク質構造内の微小環境であり、それらの構造的又は機能的役割によって区別される。部位は、三次元(3D)位置と、構造又は機能が存在するこの位置の周りの局所近傍とによって定義することができる。合理的なタンパク質工学の中心は、アミノ酸の構造的配置がどのようにしてタンパク質部位内に機能的特徴を作り出すかの理解である。タンパク質中の個々のアミノ酸の構造的及び機能的役割の決定は、タンパク質機能の操作及び改変の助けとなるための情報を提供する。機能的又は構造的に重要なアミノ酸を特定することにより、標的タンパク質の機能特性を改変するための部位特異的変異誘発などの集中的な工学的努力が可能になる。あるいは、この知識は、所望の機能を無効にする工学設計を回避する助けとなることができる。
【0029】
構造は配列よりもはるかに保存されていることが確立されているので、タンパク質構造データの増加は、データ駆動型アプローチを使用して構造-機能関係を支配する基礎パターンを系統的に研究する機会を提供する。任意の計算タンパク質分析の基本的な態様は、タンパク質構造情報がどのように表されるかである。機械学習方法の性能は、使用される機械学習アルゴリズムよりもデータ表現の選択に依存することが多い。良好な表現は、最も重要な情報を効率的に捕捉するが、不良な表現は、基礎となるパターンのないノイズの多い分布を生成する。
【0030】
過度のタンパク質構造及び深層学習アルゴリズムの最近の成功は、タンパク質構造のタスク特異的表現を自動的に抽出するためのツールを開発する機会を提供する。
【0031】
ヒトゲノムにおける70,000,000を超える考えられるミスセンスバリアントのうち、大多数は未知の臨床的重要性を有し、わずか約0.1%が臨床バリアントデータベースにおいてアノテートされている。一般的な疾患における希少浸透性バリアントの役割を理解すべき機会が生じる。良性の結果を有するものからの有害なバリアントの正確な区別は、精密医療及び標的薬物開発の両方の利益をもたらし得る。
【図面の簡単な説明】
【0032】
本特許又は出願ファイルは、カラーで作成された少なくとも1つの図面を含む。カラー図面を有するこの特許又は特許出願公開のコピーは、要求があり、必要な料金が支払われれば、庁によって提供される。カラー図面はまた、補足コンテンツタブを介してPAIRで利用可能であり得る。
【0033】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
【
図1A】加重希少バリアントPRSを決定する方法を例示する概略図である。
【
図1B】特定の複数の遺伝子及び特定の表現型についての希少バリアント多遺伝子リスクスコアの例示的な計算を例示する。
【
図2】開示される技術を実装するために使用され得る例示的なコンピュータシステムを示す。
【
図4】遺伝子型の変化に応答した表現型効果を例示する例である。
【
図5】心血管疾患患者Xに対応する複数の表現型を例示する。
【
図6】一般的バリアント対希少バリアントについてのゲノムワイド関連解析をグラフで対比している。
【
図7】それぞれ、遺伝子解像度における特定の個々の一般的バリアント又は特定の集約された希少バリアントに対する遺伝的関連性検定を例示する。
【
図8】希少バリアント総和検定を最適化するための方法の概略図である。
【
図9】バリアントの病原性を決定するためのシステムのプロセスを例示するフロー図である。
【
図10】開示される技術の一実施態様による、病原性分類器の例示的な処理アーキテクチャを示す。
【
図11】開示される技術を実装するために使用され得る例示的なコンピュータシステムを示す。
【
図12】最終的な病原性スコアを決定する一実施態様を例示する。
【
図13】各遺伝子内の多重検定を補正するためのプロセスのフロー図である。
【
図14】共変量について表現型値を補正する方法の概略図である。
【
図15】複数の表現型に対する複数の薬物の使用に応答して表現型シフトを予測することを表す概略図である。
【
図16】特定のコホートについての薬物使用パターン及び表現型データを得るための実験設定を表す概略図である。
【
図17】心血管疾患患者Xに対応する複数の表現型を例示する。
【
図18】異なるタイプの総和検定ごとに特定された有意な遺伝子-表現型対の総数を定量化するグラフである。
【
図19-1】病原性分類器PrimateAI-3Dによって特定された疾患重症度及び発症の年齢に影響する希少有害バリアントを例示するグラフの集合である。
【
図19-2】病原性分類器PrimateAI-3Dによって特定された疾患重症度及び発症の年齢に影響する希少有害バリアントを例示するグラフの集合である。
【
図19-3】病原性分類器PrimateAI-3Dによって特定された疾患重症度及び発症の年齢に影響する希少有害バリアントを例示するグラフの集合である。
【
図20】異なる病原性スコアと表現型値との平均絶対スピアマン相関のグラフである。
【
図21】希少有害バリアントと一般的ゲノムワイド関連解析バリアントとのヒートマップ比較である。
【
図22】希少有害バリアントと一般的ゲノムワイド関連解析バリアントとの更なる比較である。
【
図23-1】UK Biobankコホートにおける全個体にわたるコレステロール経路及び総コレステロール分布を例示する。
【
図23-2】UK Biobankコホートにおける全個体にわたるコレステロール経路及び総コレステロール分布を例示する。
【
図26】定量的表現型についてのPRS外れ値のグラフである。
【
図27】2つの別個のコホートからの正規化された総コレステロール分布のグラフを含む。
【
図28】2つの別個のコホート間で希少バリアントPRS外れ値及び表現型を比較するグラフを含む。
【
図29】民族性による性能結果を例示するグラフを含む。
【
図30】正常なコレステロールレベルに対して使用される一般的PRSバリアント及び希少PRS遺伝子に対する効果量及び頻度を比較する表である。
【
図31】34個の遺伝子-表現型対のセットに対する異なる病原性スコアリング方法によって説明される表現型分散の平均割合のグラフであり、34個の遺伝子-表現型対のセットは、希少ミスセンス及びLoFバリアントについてのそれらの濃縮に基づいて選択された。
【
図32】定量的表現型と臨床表現型との間の全てのペアワイズ比較についての、GWAS遺伝子における希少バリアントの濃縮のヒートマップである。
【
図33】同じ遺伝子についてのシングルトンLoFバリアントの平均効果量と最も有意なGWASバリアントの効果量との間の比の絶対値の分布のグラフを含む。
【
図34】5%の偽発見率で有意であった遺伝子-表現型対からの遺伝子のいずれかにおける個体当たりのバリアントの数を示す。
【
図35】訓練データ対検定データ分割における効果量の比較を示す。
【
図36】一般的バリアントPRSサブセットと希少バリアントPRSサブセットとを比較するグラフを含む。
【発明を実施するための形態】
【0034】
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する種々の修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、その他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0035】
様々な実施態様の詳細な説明は、添付の図面と併せて読むと、より良く理解することができる。図が様々な実施態様の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、モジュール、プロセッサ、又はメモリ)のうちの1つ以上は、単一のハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリのブロック、ハードディスクなど)又は複数のハードウェアに実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能であってもよい、など。様々な実施態様は、図面に示された配置及び手段に限定されないことを理解されたい。
【0036】
モジュールとして指定された図の処理エンジン及びデータベースは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかのモジュールは、異なるプロセッサ、コンピュータ若しくはサーバ上に実装されてもよく、又は多数の異なるプロセッサ、コンピュータ若しくはサーバの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。図のモジュールはまた、方法におけるフローチャートステップと考えることができる。また、モジュールは、必ずしもメモリ内に隣接して配置された全てのコードを有する必要はない。コードのいくつかの部分は、他のモジュール又は他の機能からのコードが間に配置された状態で、コードの他の部分から分離することができる。
【0037】
開示される技術は、希少バリアントについての多遺伝子リスクスコアリングの質を改善するために使用され得る。開示される技術は、重度の早期発症疾患のリスクが最も高く、かつ臨床的介入から最大の利益を受ける、表現型スペクトルの極端な患者を特定するために使用され得る。これらの開示を提示する研究者らは、重度の早期発症疾患と関連付けられた外れ値表現型が、小さい効果量を有する多くの一般的バリアントの集合的アクションによるよりも、希少浸透性バリアントによってより良好に説明されることを示す。多くの世代にわたる自然淘汰によって、主に有害な結果が取り除かれた一般的バリアントとは異なり、希少バリアントは、大部分がフィルタリングされておらず、複雑な形質及び疾患において高度に浸透性の効果を発揮する潜在性を保持している。開示される技術は、表現型応答に対する希少な病原性バリアントの寄与の定量化のための新規の加重和モデルを含む。
【0038】
序論
開示される技術は、複数の表現型関連遺伝子からの希少有害バリアントの加重和に基づいて、相補的な希少バリアント多遺伝子リスクスコアモデルを開発する。ゲノムワイド関連解析(genome-wide association study、GWAS)は、遺伝子変異又はバリアントを、遅発性発達障害(delayed development disorder、DDD)などの遺伝子疾患及び複雑な形質の表現型と関連付けるためのツールである。GWASツールは、非常に希少なバリアントよりも、一般的又は半一般的バリアントで良好に機能する。例えば、UK Biobankコホートは、200,643個のエクソーム及び関連する患者データを含む。有害であると考えられる希少バリアントのほぼ半分が、データセット内で1人の個体のみに現れた。従来の統計解析及び総和検定は、大きいコホートにおいて希少バリアントの事例が1つしか存在しない場合に破綻する。
【0039】
個々のゲノムワイド関連解析(genome-wide association study、GWAS)バリアントは、臨床的実行可能性には軽度すぎる傾向がある効果を付与するが、数百から数百万の一般的バリアントからのシグナルを組み合わせた多遺伝子リスクスコアは、疾患のリスクが高い表現型極値の患者を予測するための有意な有効性を示している。しかしながら、既存の一般的バリアント多遺伝子リスクスコアモデルは、未知の有意性のバリアントを解釈する際の課題及びそれらの効果量推定における不正確さに起因して、希少バリアントを大幅に排除している。既存の一般的バリアント多遺伝子リスクスコアモデルと比較して、開示される技術は、個体が各遺伝子において希少有害バリアントを保有するかどうかに基づいて、遺伝子にわたるリスクを集約するように構成された希少バリアント多遺伝子リスクスコアモデルを含む。
【0040】
個体の遺伝子型は、個体の表現型に寄与し(表現型は、個体の1つ以上の観察可能な物理的特性として定義される)、したがって、遺伝子型と表現型との間には、特定のバリアント又はバリアント群を有する個体における物理的形質、異常、又は疾患の存在の予測を補助するために使用され得る統計的相関が存在する。特定の遺伝的障害は、単一遺伝子のバリアント(すなわち、単一遺伝子性遺伝的障害)によって引き起こされ得るが、複数の遺伝子のバリアント(すなわち、多遺伝子性遺伝的障害)によって引き起こされる遺伝的障害がより一般的である。したがって、重度の疾患を引き起こす可能性が高い希少有害バリアントについて多遺伝子リスクスコアを決定するためのロバストな方法が必要とされている。
【0041】
一般集団からの健常な個体の最近の大規模なゲノム及びエクソーム配列決定研究は、平均的なヒトが最近の変異を通じて生じた数十の潜在的に有害な希少バリアントを保有することを明らかにした。多くの世代にわたる自然淘汰によって、主に有害な結果が取り除かれた一般的バリアントとは異なり、希少バリアントは、大部分がフィルタリングされておらず、複雑な形質及び疾患において高度に浸透性の効果を発揮する潜在性を保持している。200,643個のUK Biobankエクソームの公的な公開は、バリアント病原性予測の正確度の急速な進歩と一緒に、一般的なヒト疾患及び複雑な形質の包括的なセットに対する希少浸透性バリアントの影響を調べる機会を生み出すとともに、一般集団のための個人ゲノム配列決定の潜在的有用性への見通しを提供する。
【0042】
最近の指数関数的なヒト集団の成長は、GWASにおいて特定された一般的バリアントとは対照的に、有害な結果を有するものを取り除くための自然淘汰のための十分な時間を提供することなく、ランダムに生じる変異を介して多数の希少バリアントを作り出した。本発明者らは、軽度の臨床的リスクと関連付けられた一般的バリアントを含有する各GWAS遺伝子座において、はるかに重大な重症度を有する希少有害バリアントも存在するはずであり、バリアントの重症度が集団におけるその頻度に反比例する対立遺伝子系列を形成することを検定することに着手した。
【0043】
希少有害バリアントの高浸透性にもかかわらず、大多数の個体が所与の表現型について希少有害バリアントを保有しないため、それらの希少性は、表現型分散を説明する能力を集団の小さい割合に限定する。したがって、開示される技術に説明されている希少バリアントPRSの一実施態様は、母集団全体にわたって説明される分散に関して、一般的バリアントPRSの約20分の1のみ実施する。しかしながら、極端な表現型の個体を考慮すると、この傾向が逆転した:外れ値表現型(zスコア≧3)を有する個体は、一般的バリアントPRSの1.8倍と比較して、ベースライン集団よりも、1又は99パーセンタイルの希少バリアントPRSスコアを有する可能性が3倍高かった。
【0044】
一般的バリアントPRSモデルの臨床的採用に対する顕著な障壁は、異なる祖先を有する集団間におけるそれらの限定された一般化可能性であった。これらの問題は、連鎖不平衡に起因する一般的バリアントPRSモデルにおける予測因子として、疾患に関連するが原因ではないバリアントの組み込みに由来する。原因バリアントの影響は、コホート間で一般化されると予想され得るが、真の原因バリアントとモデルにおいて使用されるバリアントとの間の相関が保たれることになるという保証はなく、むしろ、これらの相関は、集団祖先における差異並びに遺伝子型判定及びインピュテーションにおける技術的アーチファクトによって影響される。比較すると、希少バリアントPRSモデルは、希少有害バリアントを予測因子として直接使用し、母集団における希少及び最近の歴史を考慮すると、一般的バリアントについての相関から因果関係を区別することを困難にする連鎖不平衡問題によって大きく影響されない。むしろ、希少バリアント多遺伝子リスクを予測するための課題は、意義不明のバリアント(variants of uncertain significance、VUS)の効果の正確な解釈にあり、これは、有意な希少バリアント関連性を有する遺伝子を特定すること、及び所与の臨床表現型についての希少有害バリアントの効果量を推定することの両方にとって重要である。希少バリアントPRS遺伝子に出現する希少有害バリアントのほぼ半分が、200,643個のUK Biobankエクソームコホート全体において1個体のみに見られるため、この問題は、従来の統計解析にとって扱い難いようであり得るが、深層学習、ハイスループット実験アッセイ、及び密接に関連する霊長類種からのバリアント情報を採用する最近の進歩は、各々、ゲノムワイドスケールでVUS問題を解決することに向けた進歩を示している。希少バリアントPRS遺伝子の根底にある例外的な対立遺伝子不均一性は、バリアント効果予測の観点から課題であり得るが、逆説的に、それはまた、異なるコホートにわたる希少バリアントPRSモデルのロバスト性及び移植性に対する鍵であり、遺伝子当たり数千の固有の希少有害バリアントにわたるシグナルを統合することによって、希少バリアントPRSは、データ中に存在し得る任意のバリアント特異的アーチファクトの効果を平滑化する所望の特性を達成する。
【0045】
希少及び一般的遺伝的バリアントが一般的な疾患及び複雑な形質のリスクに寄与する程度は、ヒト遺伝学の分野において数十年にわたって議論されてきた。開示される技術は、GWAS遺伝子座の大きい割合における希少浸透性バリアントの存在を示し、全集団分散並びに重度の早期発症疾患のリスクが最も高い外れ値個体に対する希少及び一般的バリアントの相対的寄与を定量化することによって、これらの観点を調和させることを助ける。
【0046】
精密医療の観点から、UK Biobankコホートは、概して、UK集団からの成人の代表的な横断であり、希少浸透性バリアントの総和及び一般集団におけるそれらの効果を特徴付ける固有の機会も提示する。開示される技術の1つの実施態様において研究された90個の臨床的及び定量的表現型のうちの1つ以上について有意であった500個の遺伝子にわたって、個体の86%が、少なくとも1つの希少有害バリアントを保有し、個体当たり平均2.03個の希少有害バリアントを有した。開示される技術のいくつかの実施態様は、これらの希少有害バリアントが高い浸透効果を有し、同じ遺伝子座に存在する一般的GWASバリアントよりも平均して10倍大きい効果量に寄与することを示す。平均して、個体の5.2%が、所定の表現型について希少有害バリアントを保有し、個体の0.4%が、所定の遺伝子について希少浸透性バリアントを保有した。
【0047】
開示される技術は、検出力を最大化し、良性ミスセンス変数をフィルタ除去するために、希少バリアント総和検定アプローチを補強する。開示される技術のいくつかの実施態様では、総和検定検出力は、総和検定の有意性を最大化する最大対立遺伝子カウントに対するカットオフを見つけるために、観察されたバリアントの対立遺伝子カウントにわたって第1のグリッド検索を実施することによって最大化され、良性ミスセンスバリアントは、総和検定の有意性を最大化する病原性スコアの最適閾値を見つけるために、病原性スコア(例えば、PrimateAI-3Dスコア)閾値に対する複数のカットオフにわたって第2のグリッド検索を実施することによってフィルタ除去される。
【0048】
開示される技術は、複数の表現型関連遺伝子からの希少有害バリアントの加重和に基づいて、希少有害バリアント多遺伝子リスクスコアモデルを開発する。個々のゲノムワイド関連研究バリアントは、単一遺伝子障害と比較して、複数の遺伝子におけるバリアントによって引き起こされる臨床的実行可能性及び遺伝的障害に対して過度に軽度である効果を与える傾向がある。したがって、複数のバリアントからのシグナルを組み合わせる多遺伝子リスクスコアモデルは、疾患のリスクが高い患者を予測するためにより有効であることが多い。しかしながら、既存の多遺伝子リスクスコアモデルは、主に、一般的バリアントに対して最適化されており、意義不明のバリアントを解釈する困難さ、低検出力研究による課題、及び希少バリアントのサンプルサイズが小さいことに起因する不正確な効果量推定に起因して、希少バリアントを除外する。開示される技術は、個体が特定の遺伝子内に少なくとも1つの希少有害バリアントを保有するかどうかに基づいて、遺伝子解像度ベースでリスクを集約することによって、希少バリアントを含めるために、先行する多遺伝子リスクスコアモデルを改善する。
【0049】
開示される希少多遺伝子リスクスコアは、関連性の強度が表現型と関連付けられた遺伝子及び表現型応答に対する希少バリアントの寄与を定量化する総和検定として計算される。個体のコホートについて、バリアントキャリア状態及び特定の測定された表現型値を表すデータが得られる。総和スコアは、得られたデータを使用して関連付けられた遺伝子の各々について計算され、総和スコアは、関連付けられた遺伝子の各々のキャリア状態と、1つ以上の希少病原性バリアントの関連付けられた遺伝子における存在に対する表現型応答との間のコホートにおける、結果的な非ランダムな関連性を特定する。キャリア状態は、特定の遺伝子における1つ以上の希少病原性バリアントの存在又は非存在によって決定されるブール変数である。特定の希少バリアントの病原性は、遺伝子がタンパク質として発現される場合の機能に対する特定の希少バリアントの予測される影響によって決定され、予測される影響は、畳み込みニューラルネットワーク病原性分類器によって病原性スコアとして決定される。特定の希少バリアントの希少性は、集団における特定の希少バリアントの所定の閾値を下回る出現によって決定される(すなわち、最大対立遺伝子カウント)。
【0050】
関連性の強度は、それぞれの遺伝子についての希少病原性バリアントのキャリア状態に対する有効強度スコア、及びそれぞれの遺伝子についての遺伝子ごとの解像度における希少病原性バリアントのキャリア状態に対するそれぞれの表現型応答として定量化される。表現型応答に対する関連付けられた遺伝子にわたるコホート内の対象のキャリア状態の寄与についてのスコアは、有効強度スコアに基づいて決定され得る。開示される技術のいくつかの実施態様では、特定の表現型は、定量的バイオマーカー表現型であり、遺伝子についての結果的な非ランダムな関連性に対する有効強度スコアは、総和スコアの線形回帰成分に対する両側t検定を使用して、定量的バイオマーカー表現型に対して決定される。両側t検定は、キャリアと非キャリアとの平均表現型測定値間の差が所定の有意水準で有意であるか否かを決定するために、p値を生成する。
【0051】
開示される技術の他の実施態様では、指定された表現型は、カテゴリ臨床診断表現型であり、遺伝子についての結果的な非ランダムな関連性についての有効強度スコアは、キャリア状態についてのベータ係数としてカテゴリ臨床診断表現型について決定される。ベータ係数は、総和スコアのロジスティック回帰成分を使用して決定され、ロジスティック回帰成分は、キャリア状態及び複数の共変量に対応するバイナリインジケータ変数から臨床診断ラベルを予測するように適合される。
【0052】
開示される技術のいくつかの実施態様では、特定の遺伝子及び特定の表現型に対する各総和検定は、特定の遺伝子について最適化されるとともに、特定の表現型値について補正される。開示される技術のいくつかの実施態様は、特定の遺伝子についての最適化又は特定の表現型値についての補正のいずれかを伴い得るが、他方を伴わない。
【0053】
開示される技術の更なる実施態様は、キャリアと非キャリアとの間の分離を最大化する入れ子型t検定を使用することによって、希少バリアント総和検定を最適化し、総和検定パラメータは、特定の遺伝子に関して最適化される。総和検定検出力は、総和検定の有意性を最大化する最大対立遺伝子カウントに対するカットオフを見つけるために、観察されたバリアントの対立遺伝子カウントにわたって第1のグリッド検索を実施することによって最大化され、良性ミスセンスバリアントは、総和検定の有意性を最大化する病原性スコアの最適閾値を見つけるために、病原性スコア(例えば、PrimateAI-3Dスコア)閾値に対する複数のカットオフにわたって第2のグリッド検索を実施することによってフィルタ除去される。
【0054】
開示される技術のいくつかの実施態様では、グリッド検索手順は、複数の対立遺伝子カウント及び複数の病原性スコア閾値を検索することを伴い、グリッド検索は、複数の対立遺伝子カウント及び複数の病原性スコア閾値からの対立遺伝子カウント及び病原性スコア閾値の複数の組み合わせの生成と、対立遺伝子カウント及び病原性スコア閾値の複数の組み合わせに対応する希少病原性バリアントの複数の群の特定と、個体のコホートにおける希少病原性バリアントの特定の群のキャリアを個体のコホートにおける希少病原性バリアントの特定の群の非キャリアから分離するキャリア状態に依存した希少病原性バリアントの複数の群の総和検定と、対立遺伝子カウント及び病原性スコア閾値の複数の組み合わせに対応する複数の効果量及びp値の決定と、を含む。
【0055】
最も有意なp値を有する対立遺伝子カウント及び病原性スコア閾値の特定の組み合わせが、特定の遺伝子についての最適な組み合わせとして使用されるように選択される。それぞれの遺伝子は、各それぞれの遺伝子のキャリアと非キャリアとの間の最適な分離をもたらす同様の最大対立遺伝子カウント閾値及び/又は最小病原性スコア閾値を有してもよく、又は有していなくてもよい。複数の病原性スコア閾値における病原性スコア閾値が、希少病原性バリアントの群における希少病原性バリアントについて決定された病原性スコアの病原性スコア分位数に対応する。開示される技術のいくつかの実施態様では、病原性スコアは、PrimateAI-3Dなどの畳み込みニューラルネットワーク病原性分類器によって生成される。開示される技術の他の実施態様では、広範囲の追加のAI、機械学習、及び深層学習モデルが、病原性スコアを生成するために採用される。
【0056】
上記のグリッド検索手順は、生成された偽発見率補正p値に対する多重検定のための補正を必要とする。開示される技術のいくつかの実施態様では、Benjamini-Hochberg手順を使用して多重検定補正が実施される。開示される技術の他の実施態様では、適応的並べ替え検定手順を使用して多重検定補正が実施される。
【0057】
開示される技術の更なる実施態様は、時間的に分散された検出点にわたる薬物使用に共変量補正を適用する。総和検定入力データは、測定された表現型値に関して補正される。表現型応答値は、複数の共変量について共変量補正され、複数の薬物について薬物使用補正される。開示される技術のいくつかの実施態様では、複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物に応答した表現型シフトが、共変量補正及び薬物使用補正された表現型測定値を生成するために予測される。
【0058】
開示される技術のいくつかの実施態様では、表現型シフトは、個体のコホートについての表現型ごとの複数の交絡因子(例えば、年齢、性別、遺伝的主成分、食事、及び喫煙状態)を有する個体のコホートの複数の表現型に対する複数の薬物の使用、並びに複数の表現型に対する表現型測定値、複数の交絡因子についての共変量測定値、及び2つの別個の時点におけるコホート内の各個体に対する複数の薬物についての薬物使用パターンに応答して予測される。
【0059】
表現型測定値は、第1の回帰モデルをフィッティングすることによって共変量測定値を除去して回帰分析することによって、共変量測定値に基づいて第1及び第2の時点について共変量補正され、それによって、第1及び第2の時点について共変量補正された表現型測定値を生成する。デルタは、第1及び第2の時点についての共変量補正された表現型測定値間の差に基づいて決定される。薬物使用パターンの各々について、共変量補正された表現型測定値に対する複数の薬物の使用に応答した表現型シフトを予測するためにデルタを使用する第2の回帰モデルがフィッティングされる。
【0060】
第2の回帰モデルは、薬物使用パターンの各々についての表現型シフトを連続的かつ累積的に含めることによって、デルタを繰り返し予測する前進型選択段階的回帰モデルである。第2の回帰モデルは、薬物使用パターンの各々についてバイナリインジケータ独立変数を有し、薬物使用パターンは、第1及び第2の時点で薬物を服用しないこと、第1及び第2の時点の間で薬物を服用し始めること、第1及び第2の時点の間で薬物を服用することを停止すること、並びに第1及び第2の時点で薬物を服用することを含む。開示される技術のいくつかの実施態様では、共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正は、複数の薬物中の薬物について薬物ごとに実行される。開示される技術の他の実施態様では、共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正は、複数の薬物カテゴリ内の薬物カテゴリについて、薬物カテゴリごとに実行される(例えば、スタチン、NSAID、オピオイドなど)。
【0061】
第2の回帰モデルは、個体のコホート内の個体について個体ごとに第1の時点と第2の時点との間で経過した時間に応答した表現型シフト、及び第1の時点と第2の時点との間の平均への回帰に応答した表現型シフトを更にモデル化する。第2の回帰モデルは、複数の薬物における関連薬物のセットに対して共同でフィッティングされる。
【0062】
開示される技術のいくつかの実施態様では、薬物使用補正は、第3の回帰モデルをフィッティングすることによって実装され、第1の時点と第2の時点との間で薬物を服用し始める第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用しない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第1の時点についての表現型測定値を薬物使用補正することを含む。
【0063】
第4の回帰モデルがフィッティングされ、第4の回帰モデルは、第1の時点と第2の時点との間で薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、第1の時点及び第2の時点で薬物を服用する第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第2の時点についての表現型測定値を薬物使用補正することを含む。
【0064】
ランクに基づく逆正規変換が、第1及び第2の時点についての薬物使用補正された表現型測定値に適用されて、第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成し得る。次いで、正規化された薬物使用補正された表現型測定値が、第1及び第2の時点について共変量補正され、第1及び第2の時点について共変量補正され正規化された薬物使用補正された表現型測定値を生成する。共変量補正され正規化された薬物使用補正された表現型測定値は、希少バリアント多遺伝子リスクスコアを生成するために使用され得、関心対象の表現型についての測定値は、共変量及び薬物使用パターンに応答した表現型シフトに対して補正される。
【0065】
開示される技術のいくつかの実施態様では、構築された回帰モデルは、望ましくない副作用及び所望の標的効果などの薬物-表現型関連性を検出するために使用され得る。
【0066】
希少バリアント多遺伝子リスクスコア(Polygenic Risk Score、PRS)
図1Aは、加重希少バリアントPRSを決定する方法を例示する概略図である。データベース102は、コホートiに属する個体の群に対応するゲノム及び表現型データを含む。コホートi104は、遺伝子配列決定及び複数の表現型測定値についての検定を受けたN人の個体を含む。コホートi104内の個体についての配列決定データは、複数のバリアントキャリア状態に対応するデータを含む。特定の遺伝子は、3つの公知の考えられる希少有害バリアント(例えば、バリアントA、バリアントB、及びバリアントC)を保有し得、そのうち、個体は、キャリア(すなわち、個体がそれぞれのバリアントを保有し、したがって、それらがそのバリアントのキャリアである)又は非キャリア(すなわち、個体がそれぞれのバリアントを保有せず、したがって、それらがそのバリアントのキャリアではない)であり得る。当業者は、バリアントA、バリアントB、及びバリアントCが例示的な例として与えられており、遺伝子が任意の数の希少有害バリアントを保有し得ることを認識するであろう。開示される技術は、バリアントを、集団内のバリアント出現率が所定の閾値を下回る場合、「希少」と定義し、遺伝子が所定の閾値を上回るタンパク質として発現されるときに、バリアントの病原性が影響に対して測定された影響を有すると予測される場合、「有害」と定義する。希少性及び病原性の両方についてのそれぞれの所定の閾値は、遺伝子特異的である(すなわち、各個々の遺伝子は、別の遺伝子と異なり得る、個々に決定された希少性閾値及び病原性閾値に対応することになる)。
【0067】
コホートi104内の各個体についてのゲノム及びエクソーム配列決定から得られたゲノムデータに加えて、表現型データもまた、各個体に対して利用可能である(すなわち、個体Nは、表現型Dについてx
nの測定された値を有する)。特定の遺伝子型と特定の表現型との間の関係についてモデル122を構築することによって、特定の表現型に対する特定の遺伝子型の効果量を測定することが可能である。箱ひげ
図124は、表現型Dに対する1つ以上の特定の希少有害バリアントのキャリア状態の影響が、p値(すなわち、キャリアと非キャリアとの間の平均表現型値を比較した場合の有意性の程度)及びβ係数(すなわち、従属変数及び独立変数の分散が1に等しくなるように基礎データが標準化されている、キャリアの平均表現型値と非キャリアの平均表現型値とを結ぶ回帰直線から得られる重み推定値)の両方の形態で測定される、代表的な遺伝的関連性検定を例示する。
【0068】
特定の表現型が定量的バイオマーカー表現型である本技術のいくつかの実施態様では、関連性の強度は、両側t検定によって決定されるp値として定量化される。特定の表現型が定性的表現型(例えば、カテゴリ臨床診断表現型)である、開示される技術の他の実施態様では、関連性の強度は、ロジスティック回帰のβ係数として定量化される。
【0069】
開示される技術では、キャリア状態は、バリアント解像度ベースではなく遺伝子解像度ベースで定義される。特定の遺伝子について、個体は、個体が特定の遺伝子内に少なくとも1つの希少有害バリアントを保有する場合、キャリアとして定義される(すなわち、2つの希少有害バリアントに関してキャリアである個体は、1つの希少有害バリアントに関してキャリアである個体と区別されないが、ゼロの希少有害バリアントに関してキャリアである個体は、非キャリアとして区別される)。決定142は、複数の希少バリアントのキャリア状態と表現型応答との間のコホートi104における関連性の強度の有効強度スコアについて行われ得る。
【0070】
グラフ144は、複数の希少バリアントのキャリア状態と表現型応答との間のコホートi104における関連性の強度の有効強度スコアを決定するためのt検定を含む。t検定の帰無仮説は、コホートi内のキャリアのサンプル平均とコホートi104内の非キャリアのサンプル平均との間の差の絶対値がゼロに等しいことを述べている。t検定の対立仮説は、コホートi104内のキャリアのサンプル平均とコホートi104内の非キャリアのサンプル平均との間の差の絶対値がゼロに等しくないことを述べている。帰無仮説を受け入れるか拒絶するかの決定は、特定の有意性レベルα及びαに対応する結果として生じるp値によって駆動される。それぞれのt検定は、特定の共有される表現型応答についての複数の遺伝子特異的有効強度スコア(チャート124に表されるように、p値又はβ係数によって測定される)を得るために、複数のそれぞれの遺伝子について実施され得る。
【0071】
加重総和検定162は、複数のそれぞれの遺伝子特異的有効強度スコアから生成され得る。希少バリアントPRSとして説明されるこの計算は、方程式164に示され、希少バリアントPRSは、複数の遺伝子についての特定の遺伝子についての効果量及びキャリア状態の積の合計に等しい。
【0072】
ここで、考察は、複数のそれぞれの遺伝子特異的有効強度スコアを使用して、特定の個体についての希少バリアントPRS、特定の個体について配列決定された特定の複数のそれぞれの遺伝子、及び関心対象の特定の表現型を生成する例を提供する。
【0073】
図1Bは、特定の複数の遺伝子及び特定の表現型についての希少バリアント多遺伝子リスクスコアの例示的な計算を例示する。ヘッダ行108は、特定の個体に関する遺伝子、効果量、及びキャリア状態に対応する列ラベルの群を含む。遺伝子列内に含まれる遺伝子は、遺伝子A(行118)、遺伝子B(行128)、遺伝子C(行138)、遺伝子D(行148)、及び遺伝子E(行158)であり、遺伝子A~Eは、特定の表現型Yに関与する遺伝子であると仮定され得る。各遺伝子についての効果量に関して、効果量Aが遺伝子A(行118)に対応し、効果量Bが遺伝子B(行128)に対応し、効果量Cが遺伝子C(行138)に対応し、効果量Dが遺伝子D(行148)に対応し、効果量Eが遺伝子E(行158)に対応する。キャリア状態は、特定の遺伝子内の少なくとも1つの特定された希少有害バリアントの存在を説明するブール変数である(例えば、コホートi104において検出されたバリアントA、B、及びCが、遺伝子A(行118)に特有であると仮定し、したがって、コホートi104についての表に列挙された各個体が、遺伝子Aについてのキャリアとみなされることになる)。ゲノムが
図1Bで特徴付けられている個体は、それぞれ、遺伝子A(行118)、遺伝子C(行138)、遺伝子D(行148)、及び遺伝子E(行158)における少なくとも1つの希少有害バリアントに対するキャリアである。個体は、遺伝子B(行128)における任意の希少有害バリアントに対するキャリアではない。
【0074】
加重総和スコア162を出力するために、方程式164が適用される。特定の個体についての方程式164は、方程式182と等価であるとみなされ得、特定の個体は、遺伝子A(行118)に対応する効果量A、遺伝子C(行138)に対応する効果量C、遺伝子D(行148)に対応する効果量D、及び遺伝子E(行158)に対応する効果量Eの合計と等価である特定の表現型Yについての希少バリアントPRSを有する。特定の個体が少なくとも1つの希少有害バリアントに対するキャリアであるそれぞれの遺伝子について、キャリア状態は、1に等しい(すなわち、効果量*1=効果量)。遺伝子B(行128)に対応する効果量Bは、特定の個体が少なくとも1つの希少有害バリアントに対するキャリアではないため、方程式182には示されず、したがって、キャリア状態は、ゼロに等しく(すなわち、効果量*0=0)、遺伝子B(行128)に対応する効果量Bは、方程式182に存在しない。
【0075】
図2は、開示された技術を実施するために使用することができる例示的コンピュータシステム200を示す。コンピュータシステム200は、バスサブシステム242を介して多数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(central processing unit、CPU)244を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム236を含む記憶サブシステム210、ユーザインターフェース入力デバイス238、ユーザインターフェース出力デバイス248、並びにネットワークインターフェースサブシステム246を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム200とのユーザ対話を可能にする。ネットワークインターフェースサブシステム246は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0076】
一実施態様では、希少バリアントPRSモデル240は、記憶サブシステム210及びユーザインターフェース入力デバイス238に通信可能にリンクされる。
【0077】
ユーザインターフェース入力デバイス238は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム200に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0078】
ユーザインターフェース出力デバイス248は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(cathode ray tube、CRT)、液晶ディスプレイ(liquid crystal display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム200からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0079】
記憶サブシステム210は、本明細書に説明されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ249によって実行される。
【0080】
プロセッサ249は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒化再構成可能構造(coarse-grained reconfigurable architecture、CGRA)であることができる。プロセッサ249は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ249の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX2 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0081】
記憶サブシステム210で使用されるメモリサブシステム222は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)232と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)234とを含む多数のメモリを含むことができる。ファイル記憶サブシステム236は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム210内のファイル記憶サブシステム236によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0082】
バスサブシステム242は、コンピュータシステム200の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム242は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
【0083】
コンピュータシステム200自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、
図2に示されるコンピュータシステム200の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム200の多くの他の構成は、
図2に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0084】
代替的な希少有害多遺伝子リスクスコアモデル
一実施態様では、開示される技術は、上記で論じられたモデルとは異なる希少有害多遺伝子リスクスコアモデルを使用し得る。遺伝子中のバリアントに割り当てられた重みが、その遺伝子中の全ての希少有害バリアントにわたって観察された効果量に等しかった、すなわち、遺伝子中の全てのバリアントについて同じである、希少有害バリアントの加重和を使用することに代えて、開示される技術は、各有意な遺伝子内のバリアントごとの重みを推定し得る。バリアントごとの重みは、バリアント病原性スコア(例えば、PrimateAI-3D)及び個体の形質値に対するlog10変換された対立遺伝子頻度の線形回帰を介して、有意な遺伝子について希少有害バリアントを保有する個体から推定され得る。これは、いくつかの実施態様では、説明される分散に関して18%だけ性能を改善し得る。
【0085】
遺伝子型
図1に説明される多遺伝子リスクスコアを計算する方法は、遺伝子型判定アレイ(すなわち、特定の個体の全ゲノム配列決定)、及びエクソーム配列決定(すなわち、特定の個体のゲノムのタンパク質コーディング領域の配列決定)によって決定される、個体の遺伝子型と関連付けられたデータを伴う。ここで、考察は、ゲノムデータ、それらの関連する特徴、及び特定の個体についての遺伝子型と表現型との間の関係の詳細に移る。
【0086】
図3は、遺伝子バリアントの例を例示する。例示的な参照遺伝子配列A 302は、Nの長さを保有し、各配列位置は、チミン、アデニン、グアニン、又はシトシンのいずれかのヌクレオチド塩基を含む。参照遺伝子配列A 302は、特定の遺伝子のセグメントについての天然の、又は正常な遺伝子配列とみなされ得る。参照遺伝子配列A 302は、2つの例示的なバリアント配列1A 322及び1B 342と比較され、バリアント配列は、5番目の塩基位置にそれぞれの単一ヌクレオチドバリアントを保有するが、それ以外は参照配列と同一の組成を保有する。例えば、単一ヌクレオチド置換は、参照遺伝子配列A 302におけるシトシン304と比較して、バリアント1A 322におけるアデニン324及びバリアント1B 342におけるチミン344として示される。参照遺伝子配列A 302、バリアント1A 322、及びバリアント1B 342が転写され、タンパク質のアミノ酸単位に翻訳される場合、単一ヌクレオチドバリアント324及び344は、それぞれ、天然タンパク質中に存在するアミノ酸と比較して、少なくとも1つの類似又は異なるアミノ酸をもたらし得る。バリアント1A 322又はバリアント1B 342が、それぞれ、変換されたタンパク質において少なくとも1つの変化したアミノ酸をもたらす場合、それぞれのバリアントはまた、それぞれのバリアントを保有する個体について変化した表現型をもたらし得る。
【0087】
図4は、遺伝子型の変化に応答した表現型効果を例示する例である。例示的な参照遺伝子配列A 402は、Nの長さを保有し、各配列位置は、チミン、アデニン、グアニン、又はシトシンのいずれかのヌクレオチド塩基を含む。参照遺伝子配列A 402は、特定の遺伝子のセグメントについての天然の、又は正常な遺伝子配列とみなされ得る。参照遺伝子配列A 402は、3つの例示的なバリアント配列1A 422、1B 442、及び1C 462と比較され、バリアント配列は、5番目の塩基位置にそれぞれの単一ヌクレオチドバリアントを保有するが、それ以外は参照配列と同一の組成を有する。例えば、単一ヌクレオチド置換は、参照遺伝子配列A 402におけるシトシン404と比較して、バリアント1A 422におけるアデニン404、バリアント1B 442におけるチミン444、及びバリアント1C 462におけるグアニン464として示される。
【0088】
参照遺伝子配列A 402は、参照遺伝子配列A 402を含む特定の遺伝子の天然タンパク質組成物であるタンパク質A 406をもたらす。天然タンパク質A 406を保有する個体は、健常な表現型である表現型A 408を提示することになる。バリアント1A 422は、変異タンパク質1A 426をもたらし、変異タンパク質1A 426は、天然タンパク質A 406とは異なるタンパク質構造及び機能をもたらすミスセンス変異を含む。ミスセンスタンパク質1A 406を保有する個体は、疾患表現型である表現型1A 428を提示することになる。バリアント1B 442は、変異タンパク質1B 446をもたらし、変異タンパク質1B 446は、天然タンパク質A 406と比較してタンパク質構造及び機能に変化をもたらさない同義変異を含む(すなわち、バリアント1B 442の5位における単一ヌクレオチドバリアントに応答してアミノ酸変化が起こらない)。同義タンパク質1B 446を保有する個体は、表現型1B 448、表現型A 408に類似する健常な表現型を提示することになる。バリアント1C 462は、変異タンパク質1C 466をもたらし、変異タンパク質1C 466は、天然タンパク質A 406と比較して、切断された非機能的タンパク質構造及び機能をもたらすナンセンス変異を含む。ナンセンスタンパク質1C 466を保有する個体は、表現型1C 468を提示することになり、生存不能な胚又は有意に短縮された寿命をもたらす可能性が高い。
【0089】
当業者であれば、バリアント1A 422、1B 442、及び1C 462が簡略化された例として列挙されており、潜在的な表現型表現が、限られた数の別個の表現ではなく広いスペクトルに及ぶことを認識するであろう。更に、当業者はまた、多くの表現型応答が、単一遺伝子内の複数のバリアント、又は組み合わせられた多遺伝子バリアント効果に起因して生じることを認識するであろう。開示される技術の多くの実施態様は、個体の生活の質及び/又は平均余命に実質的な損害を引き起こすことが知られている重度の遺伝的障害と関連付けられた特定の表現型応答についての多遺伝子リスクスコアリングに具体的に対処する。
【0090】
表現型
次に、表現型表現について更に詳細に考察する。
図4は、広範な生物レベルにおける複数の表現型の例を例示するが、
図5は、ここで、定量的バイオマーカー値又はカテゴリ臨床診断のいずれかとして説明されることができる標的化された測定可能なレベルにおける複数の表現型の例を例示する。
【0091】
本出願は、「定量的バイオマーカー値」及び「定量的表現型」を互換的に使用することに留意されたい。本出願はまた、「カテゴリ臨床診断」及び「定性的表現型」も互換的に使用することに留意されたい。
【0092】
図5は、心血管疾患患者X 500に対応する複数の表現型を例示する。心血管疾患患者X 500は、患者Xのゲノム内の複数の遺伝的バリアントに応答した複数の観察可能な表現型によって説明され得る。これらの表現型は、定性的であってもよく、又は定量的であってもよい。定性的表現型は、人口統計出力502(例えば、祖先、生物学的性別など)、カテゴリバイオマーカー504(例えば、血液中の特定のタンパク質の存在についてのバイナリ変数、決定閾値によって決定される血液中の患者の代謝産物レベルのバイナリ分類、又は特定の組織学的形態の存在についてのマルチクラス変数)、臨床診断506(例えば、心血管疾患診断についてのバイナリ変数、特定のがん診断についてのバイナリ変数など)、又は疾患重症度の尺度(例えば、腫瘍転移の進行段階、難治性セリアック病1型対2型などの疾患サブタイプの分類など)を含み得る。
【0093】
定量的表現型は、正確な血液又は尿バイオマーカー値522(例えば、クレアチン、コレステロール、低密度リポタンパク質(low-density lipoprotein、LDL)、トリグリセリド、グルコースなど)、ボディマス測定値542(例えば、身長、体重、体脂肪率、ボディマス指数など)、又はバイタルサイン(例えば、安静時心拍数、収縮期及び拡張期血圧、呼吸数など)を含み得る。当業者は、心血管疾患患者X 500について列挙された定量的及び定性的表現型が非限定的な例であり、個体の健康及び組成を説明するために採用され得る無限数の観察可能な値が存在することを認識するであろう。
【0094】
遺伝子-表現型関連性検定
これまでの考察は、特定の個体を説明するために使用されるゲノム及び表現型のデータについての定義及び文脈を包含する。
図1は、特定の表現型についての遺伝子解像度レベルにおける特定の希少有害バリアントキャリア状態についての遺伝的関連性を決定する方法を高レベルで説明する。ここで、ゲノムワイド関連解析の導入、並びに一般的及び希少バリアントの両方についてのそれらの実装を介して、より詳細にこの方法を再考する。希少バリアントについての従来のゲノムワイド関連解析とは対照的に、考察は、少なくとも1つの特定の希少有害バリアントを含む複数の特定の遺伝子についての複数の希少バリアント総和検定が、複数の特定の遺伝子及び特定の表現型についての希少バリアント多遺伝子リスクスコアを決定するために実装される、改善された有用性を有する新規の方法論に向けられる。この考察は、希少有害バリアントが重度の早発性遺伝子疾患に関与する統計的可能性に起因して、特に希少有害バリアントに焦点を当てている。
【0095】
図6は、一般的バリアント対希少バリアントについてのゲノムワイド関連解析をグラフで対比している。グラフ602及び604は、それぞれ、コレステロールレベル及び一般的バリアント又は希少バリアントについてのゲノムワイド関連性を説明する。グラフ602及び604の両方について、交互の色は、連続する染色体を示す。グラフ602は、データ点として個々の一般的バリアントを示すのに対して、グラフ604は、個々の遺伝子(すなわち、モデル122に示されるように単一キャリア状態に凝縮された特定の遺伝子についての全ての希少バリアント)を示す。グラフ602に示される一般的バリアントゲノムワイド関連解析は、コレステロールレベルと強く関連付けられるゲノム内の多くの場所を見つける。互いに近い一般的バリアントが頻繁に相関するという事実に起因して、関連性は、多くの関連するバリアントを有するピークとして生じる。結果として、特定の関連する遺伝子座内の任意の原因バリアントを検出することは、かなりの努力を必要とし得る。
【0096】
グラフ604は、ヒトゲノム中の19,500個のタンパク質コード遺伝子についての希少バリアントゲノムワイド関連解析結果を示しており、少数の希少バリアントが強く関連付けられている。それらの希少性に起因して、希少バリアントゲノムワイド関連解析は、グラフ602に示される一般的バリアントゲノムワイド関連解析と比較して、あまり強力ではない。希少バリアントは、典型的には、互いに相関せず、したがって、効果は近くの遺伝子には及ばないことになる。したがって、有意な遺伝子は、グラフ602内のクラスタではなく単離されているように見える。タンパク質配列を変化させるバリアントは、特異的に検定され、これは、原因バリアントが、希少バリアントゲノムワイド関連解析によって特定された有意な遺伝子について特定され得ることを意味する。
【0097】
図6は、ゲノムワイドレベルにおける複数の遺伝的関連性を例示するが、ここでの考察は、特定の個々のバリアントについての遺伝的関連性検定(すなわち、特定の個々の一般的バリアント対立遺伝子用量と、特定の個々の一般的バリアント対立遺伝子用量値の関連する遺伝子における存在に対する表現型応答との結果的な非ランダムな関連性)、又はバリアントの特定の集約についての遺伝的関連性(すなわち、関連する遺伝子の各々のキャリア状態と、1つ以上の希少病原性バリアントの関連する遺伝子における存在に対する表現型応答との間のコホートにおける結果的な非ランダムな関連性)に移る。
【0098】
図7は、それぞれ、遺伝子解像度における特定の個々の一般的バリアント又は特定の集約された希少バリアントに対する遺伝的関連性検定を例示する。遺伝子型判定アレイからの単一一般的バリアント遺伝的関連性検定702については、各個々のバリアントが、個々の一般的バリアントについてのマイナー対立遺伝子の数(ボックスプロット704、706、及び708は、それぞれ、ゼロ、1つ、又は2つのマイナー対立遺伝子についての表現型値分布に対応する)と、関心対象の表現型(例えば、コレステロール)との間の関係を求めるために評価され得る。線形回帰モデルが、特定のバリアント及び表現型応答についての関連性の有効強度スコアを測定するp値及びβ係数を得るために、各マイナー対立遺伝子カウント値についての平均値間で構築され得る。
【0099】
対照的に、エクソーム配列決定から得られた希少バリアントについて、個々のバリアントごとの検定は、各希少バリアントについての発生率が低すぎるため、有用ではない。希少バリアントの遺伝的関連性を検定するために、総和検定722が、チャート122において示されているように、特定の遺伝子内の集約されたバリアントに対して実施される。単一一般的バリアント遺伝的関連性検定702と比較して、集約された希少バリアント総和検定722は、遺伝子内の少なくとも1つの希少バリアントについてのキャリア状態(ボックスプロット724及び726は、それぞれ、非キャリア及びキャリアについての表現型値分布に対応する)と、関心対象の表現型との間の関連性の強度を測定する。希少性についてフィルタリングすることに加えて、病原性測定閾値によって決定される有害バリアントのみが含まれる。
【0100】
開示される技術のいくつかの実施態様では、関心対象の表現型応答は、カテゴリ臨床診断である。したがって、遺伝子についての結果的な非ランダムな関連性についての有効強度スコアは、キャリア状態についてのベータ係数としてカテゴリ臨床診断表現型について決定され、ベータ係数は、総和スコアのロジスティック回帰成分を使用して決定される。
【0101】
希少バリアント総和検定の最適化
ここで、個々に決定された希少性閾値(すなわち、最大対立遺伝子カウント)及び特定の遺伝子についての病原性スコア閾値の概念を再考する。上記の図は、特定の表現型上の特定の遺伝子についての特定の複数の希少有害バリアントの遺伝的関連性検定を説明しており、最大希少閾値及び最小病原性スコア閾値は、特定の遺伝子に特異的であり、異なる特定の遺伝子についての最大希少閾値及び最小病原性スコア閾値とは異なり得る。
【0102】
図8に関して以下で説明される実施態様では、「最適化」は、標的目標が、特定の遺伝子に関する最も有意なt検定統計量をもたらすパラメータの組み合わせを特定することであるため、希少性に関する最大閾値及び病原性に関する最小スコアを特定することを指す。しかしながら、他の実施態様では、最適化のための標的目標は、遺伝的及び医学的コンテキストに起因して異なり得る。当業者は、検定統計量(p値など)の解釈が文脈依存的であり、したがって、有意性と関連付けられた目標値又は値の範囲が、サンプルサイズ、統計的検出力、遺伝子ごと又はバリアントごとの効果量の変動、誤差分散、真の効果のベースレート、及び考えられる総和検定結果と関連付けられたペイオフ計算などの、様々なパラメータによって影響されることを認識するであろう。
【0103】
本出願は、「希少性閾値」、「最大対立遺伝子カウント」、「対立遺伝子カウント閾値」、及び「AC」という用語を互換的に使用することに留意されたい。本出願はまた、「病原性閾値」、「病原性スコア閾値」、「最小病原性スコア閾値」、及び「PST」という用語を互換的に使用することに留意されたい。
【0104】
次に、考察は、最も有意なp値を有する対立遺伝子カウントと病原性スコア閾値との特定の組み合わせを決定し、その特定の組み合わせを最適な組み合わせとして使用するために開示される技術に移る。対立遺伝子カウント及び病原性スコア閾値の複数の組み合わせ内の対立遺伝子カウント及び病原性スコア閾値の各組み合わせについての各p値は、多重検定(すなわち、対立遺伝子カウント及び病原性スコア閾値の複数の組み合わせにわたるグリッド検索内で実施される特定の表現型上の特定の遺伝子についての特定の複数の希少有害バリアントの遺伝的関連性検定についてのt検定)を考慮するために補正される。
【0105】
図8は、希少バリアント総和検定を最適化するための方法の概略図である。データベース802は、コホートiに属する個体の群に対応するゲノム及び表現型データを含む。コホートi804は、遺伝子配列決定及び複数の表現型測定値についての検定を受けたN人の個体を含む。コホートi804内の個体についての配列決定データは、複数のバリアントキャリア状態に対応するデータを含む。特定の遺伝子は、3つの公知の考えられる希少有害バリアント(例えば、バリアントA、バリアントB、及びバリアントC)を保有し得、そのうち、個体は、キャリア(すなわち、個体がそれぞれのバリアントを保有し、したがって、それらがそのバリアントのキャリアである)又は非キャリア(すなわち、個体がそれぞれのバリアントを保有せず、したがって、それらがそのバリアントのキャリアではない)であり得る。当業者は、バリアントA、バリアントB、及びバリアントCが例示的な例として与えられており、遺伝子が任意の数の希少有害バリアントを保有し得ることを認識するであろう。開示される技術は、バリアントを、集団内のバリアント出現率が所定の閾値を下回る場合、「希少」と定義し、遺伝子が所定の閾値を上回るタンパク質として発現されるときに、バリアントの病原性が影響に対して測定された影響を有すると予測される場合、「有害」と定義する。希少性及び病原性の両方についてのそれぞれの所定の閾値は、遺伝子特異的である(すなわち、各個々の遺伝子は、別の遺伝子と異なり得る、個々に決定された希少性閾値及び病原性閾値に対応することになる)。
【0106】
コホートi804内の各個体についてのゲノム及びエクソーム配列決定から得られたゲノムデータに加えて、表現型データもまた、各個体に対して利用可能である(すなわち、個体Nは、表現型Dについてxnの測定された値を有する)。
【0107】
希少性及び病原性についての最適な閾値を決定するために、グリッド検索は、全ての考えられる病原性スコア閾値(pathogenicity score threshold、PST)及び最大対立遺伝子カウント閾値(allele count threshold、AC)822を含む空間にわたって検索するように実施される。グリッド822内では、各個々の検定(PST値m及びAC値Nに対応する)は、t検定824である。各t検定824について、帰無仮説は、バリアント群のキャリアである個体の表現型値と、バリアント群のキャリアではない個体の表現型値との差が統計的に有意ではないと述べている。対立仮説は、バリアント群のキャリアである個体の表現型値と、バリアント群のキャリアではない個体の表現型値との差が統計的に有意であると述べている。t検定は、不均一な有意水準で各t検定に対するp値を得るために、PST及びAC値の各考えられる組み合わせに対してグリッド全体にわたって反復的に実施される。複数のPST値及びAC値の組み合わせ並びに関連するp値842内で、サブコホート(PSTm、ACn)844は、指定されたPST値m及びAC値Nを満たすN人の個体についてのゲノム及び表現型のデータを含む(すなわち、バリアントBが特定のt検定についての病原性又は対立遺伝子カウントについての指定された閾値を満たさない場合、バリアントBについてのキャリア状態は、集約されたバイナリキャリア状態変数内で考慮されない)。
【0108】
最も有意なp値に対応するPST及びACの組み合わせが、特定の遺伝子に対する最適なPST及びACの組み合わせ862として出力される。開示される技術のいくつかの実施態様では、決定された最適なPST及びACの組み合わせ862における最適化に続いて、希少バリアント総和検定が実施される。したがって、最適化された総和検定を実施する方法は、特定の表現型に対する特定の遺伝子における希少病原性バリアントの総和検定効果の有意性を最大化する最大対立遺伝子カウントと最小病原性スコア閾値との最適な組み合わせが特定の遺伝子についての総和検定のためのパラメータとして採用されるように、特定の遺伝子についての全ての最適化された総和検定が開始されるように実施される。
【0109】
タンパク質構造に基づく病原性の決定
したがって、ここまでの考察は、個体が各遺伝子において希少有害バリアントを保有するかどうかに基づいて、遺伝子にわたるリスクを集約するように構成された希少バリアント多遺伝子リスクスコアモデルを説明してきた。
図1、
図6、
図7、及び
図8に説明される希少バリアント多遺伝子リスクスコアモデルは、特定の表現型に対する特定の遺伝子における希少病原性バリアントの総和検定効果の有意性を最大化する、最大対立遺伝子カウント及び最小病原性スコア閾値の最適な組み合わせで実施される。
【0110】
ここで、考察は、タンパク質構造に基づく病原性決定のためのシステムの説明に移り、開示される技術の一実施態様は、バリアントの病原性を決定するように構成された畳み込みニューラルネットワーク病原性分類器を実装する。特定の遺伝子についての特定のバリアントに対応する病原性スコア出力は、特定のt検定824における特定の遺伝子についての病原性スコア閾値として実装され得る。複数のm個の病原性スコア閾値は、最適病原性スコア閾値862などの最適最小病原性スコア閾値を決定するために、グリッド検索822内で検定され得る。
【0111】
図9は、バリアントの病原性を決定するためのシステムのプロセスを例示するフロー
図900である。ステップ902において、システムの配列アクセサ904は、参照アミノ酸配列及び代替アミノ酸配列にアクセスする。912において、システムの3D構造生成器914は、参照アミノ酸配列の3Dタンパク質構造を生成する。いくつかの実施態様では、3Dタンパク質構造は、ヒトタンパク質の相同性モデルである。一実施態様では、いわゆるSwissModel相同性モデリングパイプラインが、予測されたヒトタンパク質構造の公開リポジトリを提供する。別の実施態様では、いわゆるHHpred相同性モデリングは、鋳型構造から標的タンパク質の構造を予測するためにModellerと呼ばれるツールを使用する。
【0112】
タンパク質は、原子の集合及び3D空間におけるそれらの座標によって表される。アミノ酸は、炭素原子、酸素(O)原子、窒素(N)原子、及び水素(H)原子などの様々な原子を有することができる。原子は、側鎖原子及び骨格原子として更に分類することができる。骨格炭素原子は、アルファ炭素(Cα)原子及びβ炭素(Cβ)原子を含むことができる。
【0113】
ステップ922において、システムの座標分類器924は、アミノ酸ベースで3Dタンパク質構造の3D原子座標を分類する。一実施態様では、アミノ酸ごとの分類は、3D原子座標を21個のアミノ酸カテゴリ(停止又はギャップアミノ酸カテゴリを含む)に帰属させることを含む。一例では、アルファ炭素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下にアルファ炭素原子をそれぞれ列挙することができる。別の例では、β炭素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下にβ炭素原子をそれぞれ列挙することができる。
【0114】
更に別の例では、酸素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下に酸素原子をそれぞれ列挙することができる。更に別の例では、窒素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下に窒素原子をそれぞれ列挙することができる。更に別の例では、水素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下に水素原子をそれぞれ列挙することができる。
【0115】
当業者は、種々の実施において、アミノ酸ごとの分類が、21個のアミノ酸カテゴリのサブセット及び異なる原子エレメントのサブセットを含むことができることを理解するであろう。
【0116】
本出願は、非限定的な例としてボクセル及びボクセル化を使用する。当業者であれば、様々な実施態様において、様々な次元の特徴、ベクトル、アレイなどの、データを配置及び処理する異なるフォーマットが、代替として、又は組み合わせとして使用され得ることを理解するであろう。
【0117】
ステップ932において、システムのボクセルグリッド生成器934は、ボクセルグリッドをインスタンス化する。ボクセルグリッドは、任意の解像度、例えば、3×3×3、5×5×5、7×7×7などを有することができる。ボクセルグリッド内のボクセルは、任意のサイズ、例えば、各辺に1オングストローム(Å)、各辺に2Å、各辺に3Åなどであることができる。当業者は、ボクセルが立方体であるので、これらの例示的な寸法が立方体寸法を指すことを理解するであろう。また、当業者は、これらの例示的な寸法が非限定的であり、ボクセルが任意の立方体寸法を有することができることを理解するであろう。
【0118】
ステップ942において、システムのボクセルグリッドセンタラ944は、アミノ酸レベルで標的バリアントを経験する参照アミノ酸にボクセルグリッドを中心とする。一実施態様では、ボクセルグリッドは、標的バリアントを経験する参照アミノ酸の特定の原子の原子座標、例えば、標的バリアントを経験する参照アミノ酸のアルファ炭素原子の3D原子座標に中心付けられる。
【0119】
距離チャネル
ボクセルグリッド内のボクセルは、複数のチャネル(又は特徴)を有することができる。一実施態様では、ボクセルグリッド内のボクセルは、複数の距離チャネル(例えば、それぞれ、21個のアミノ酸カテゴリ(停止又はギャップアミノ酸カテゴリを含む)に対する21個の距離チャネル)を有する。ステップ952において、システムの距離チャネル生成器954は、ボクセルグリッド内のボクセルに対するアミノ酸ごとの距離チャネルを生成する。距離チャネルは、21個のアミノ酸カテゴリの各々について独立して生成される。
【0120】
例えば、アラニン(A)アミノ酸カテゴリを考慮されたい。更に、例えば、ボクセルグリッドが3×3×3のサイズであり、27個のボクセルを有することを考慮されたい。次いで、一実施態様では、アラニン距離チャネルは、ボクセルグリッド内の27個のボクセルに対する27個の距離値をそれぞれ含む。アラニン距離チャネルにおける27個の距離値は、ボクセルグリッドにおける27個のボクセルのそれぞれの中心から、アラニンアミノ酸カテゴリにおけるそれぞれの最も近い原子まで測定される。
【0121】
一例では、アラニンアミノ酸カテゴリは、アルファ炭素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニンアルファ炭素原子である。別の例では、アラニンアミノ酸カテゴリは、β炭素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニンβ炭素原子である。
【0122】
更に別の例では、アラニンアミノ酸カテゴリは酸素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニン酸素原子である。更に別の例では、アラニンアミノ酸カテゴリは窒素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニン窒素原子である。更に別の例では、アラニンアミノ酸カテゴリは水素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニン水素原子である。
【0123】
アラニン距離チャネルと同様に、距離チャネル生成器954は、残りのアミノ酸カテゴリの各々について距離チャネル(すなわち、ボクセルごとの距離値のセット)を生成する。他の実施態様では、距離チャネル生成器954は、21個のアミノ酸カテゴリのサブセットについてのみ距離チャネルを生成する。
【0124】
他の実施態様では、最も近い原子の選択は、特定の原子タイプに限定されない。すなわち、対象アミノ酸カテゴリ内で、特定のボクセルへの最も近い原子が、最も近い原子の原子エレメントに関係なく選択され、特定のボクセルの距離値が、対象アミノ酸カテゴリの距離チャネルに含めるために計算される。
【0125】
更に他の実施態様では、距離チャネルは、原子エレメントベースで生成される。アミノ酸カテゴリについて距離チャネルを有する代わりに、又はそれに加えて、原子が属するアミノ酸に関係なく、原子エレメントカテゴリについて距離値を生成することができる。例えば、参照アミノ酸配列中のアミノ酸の原子が、7つの原子エレメント、炭素、酸素、窒素、水素、カルシウム、ヨウ素及び硫黄に及ぶことを考慮されたい。次いで、ボクセルグリッド内のボクセルは、7つの距離チャネルを有するように構成され、その結果、7つの距離チャネルの各々は、対応する原子エレメントカテゴリ内のみの最も近い原子への距離を指定する27個のボクセルごとの距離値を有する。他の実施態様では、7つの原子エレメントのサブセットのみについての距離チャネルを生成することができる。更に他の実施態様では、原子エレメントカテゴリ及び距離チャネル生成は、同じ原子エレメント、例えば、アルファ炭素(Cα)原子及びβ炭素(Cβ)原子の変形形態に更に階層化することができる。
【0126】
更に他の実施態様では、距離チャネルは、原子タイプベースで生成することができ、例えば、側鎖原子のみについての距離チャネル及び骨格原子のみについての距離チャネルである。
【0127】
最も近い原子は、ボクセル中心から所定の最大走査半径(例えば、6オングストローム(Å))内で検索することができる。また、複数の原子が、ボクセルグリッド内の同じボクセルに最も近くてもよい。
【0128】
距離は、ボクセル中心の3D座標と原子の3D原子座標との間で計算される。また、距離チャネルは、同じ位置に中心付けられる(例えば、標的バリアントを経験する参照アミノ酸のアルファ炭素原子の3D原子座標に中心付けられる)ボクセルグリッドを用いて生成される。
【0129】
距離は、ユークリッド距離であることができる。また、距離は、原子サイズ(又は原子の影響)によって(例えば、問題の原子のレナード-ジョーンズポテンシャル及び/又はファンデルワールス原子半径を使用することによって)パラメータ化することができる。また、距離値は、最大走査半径によって、又は対象アミノ酸カテゴリ若しくは対象原子エレメントカテゴリ若しくは対象原子タイプカテゴリ内の最も遠い最も近い原子の最大観察距離値によって正規化することができる。いくつかの実施態様では、ボクセルと原子との間の距離は、ボクセル及び原子の極座標に基づいて計算される。極座標は、ボクセルと原子との間の角度によってパラメータ化される。一実施態様では、この角度情報は、ボクセルの角度チャネルを生成するために(すなわち、距離チャネルとは無関係に)使用される。いくつかの実施態様では、最も近い原子と隣接原子(例えば、骨格原子)との間の角度は、ボクセルを用いて符号化される特徴として使用されることができる。
【0130】
参照対立遺伝子及び代替対立遺伝子チャネル
ボクセルグリッド内のボクセルはまた、参照対立遺伝子及び代替対立遺伝子チャネルを有することができる。ステップ962において、システムのワンホットエンコーダ964は、参照アミノ酸配列内の参照アミノ酸の参照ワンホット符号化と、代替アミノ酸配列内の代替アミノ酸の代替ワンホット符号化とを生成する。参照アミノ酸は標的バリアントを経験する。代替アミノ酸は標的バリアントである。参照アミノ酸及び代替アミノ酸は、参照アミノ酸配列及び代替アミノ酸配列においてそれぞれ同じ位置に位置する。参照アミノ酸配列及び代替アミノ酸配列は、1つの例外を除いて、同じ位置ごとのアミノ酸組成を有する。例外は、参照アミノ酸配列中の参照アミノ酸及び代替アミノ酸配列中の代替アミノ酸を有する位置である。
【0131】
ステップ972において、システムの連結器974は、アミノ酸ごとの距離チャネルと参照及び代替ワンホット符号化とを連結する。別の実施態様では、連結器974は、原子エレメントごとの距離チャネルと、参照ワンホット符号化及び代替ワンホット符号化とを連結する。更に別の実施態様では、連結器974は、原子タイプごとの距離チャネルと、参照ワンホット符号化及び代替ワンホット符号化とを連結する。
【0132】
ステップ982において、システムのランタイムロジック984は、連結されたアミノ酸ごとの/原子エレメントごとの/原子タイプごとの距離チャネル並びに参照及び代替ワンホット符号化を病原性分類器(病原性決定エンジン)を介して処理して、標的バリアントの病原性を決定し、これは次に、アミノ酸レベルで標的バリアントを生成する基礎となるヌクレオチドバリアントの病原性決定として推測される。病原性分類器は、良性及び病原性バリアントのラベル付きデータセットを使用して、例えば、誤差逆伝播アルゴリズムを使用して学習する。良性及び病原性バリアントのラベル付きデータセット、並びに病原性分類器の例示的なアーキテクチャ及び学習に関する更なる詳細は、共有に係る米国特許出願第16/160,903号、同第16/160,986号、同第16/160,968号、及び同第16/407,149号に見出すことができる。
【0133】
図10は、開示される技術の一実施態様による、病原性分類器900の例示的な処理アーキテクチャ1000を示す。処理アーキテクチャ1000は、処理モジュール1006、1010、1014、1018、1022、1010、1030、1034、1038、及び1042のカスケードを含み、その各々は、1D畳み込み(1×1×1 CONV)、3D畳み込み(3×3×3 CONV)、ReLU非線形性、及びバッチ正規化(batch normalization、BN)を含むことができる。処理モジュールの他の例は、全結合(fully-connected、FC)層、ドロップアウト層、平坦化層、並びに良性クラス及び病原性クラスに属する標的バリアントについて指数関数的に正規化されたスコアを生成する最終ソフトマックス層を含む。
図10では、「64」は、特定の処理モジュールによって適用される畳み込みフィルタの数を示す。
図10では、入力ボクセル1002のサイズは15×15×15×8である。
図10はまた、処理アーキテクチャ1000によって生成された中間入力1004、1008、1012、1016、1020、1024、1028、1032、1036、及び1040のそれぞれの体積次元を示す。
【0134】
図11は、開示された技術を実施するために使用することができる例示的コンピュータシステム1100を示す。コンピュータシステム1100は、バスサブシステム1142を介して多数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)1144を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム1136を含む記憶サブシステム1110、ユーザインターフェース入力デバイス1138、ユーザインターフェース出力デバイス1148、並びにネットワークインターフェースサブシステム1146を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム1100とのユーザ対話を可能にする。ネットワークインターフェースサブシステム1146は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0135】
一実施態様では、病原性分類器1000は、記憶サブシステム1110及びユーザインターフェース入力デバイス1138に通信可能にリンクされている。
【0136】
ユーザインターフェース入力デバイス1138は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム1100に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0137】
ユーザインターフェース出力デバイス1148は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1100からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0138】
記憶サブシステム1110は、本明細書に説明されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ1148によって実行される。
【0139】
プロセッサ1148は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は粗粒化再構成可能構造(CGRA)であることができる。プロセッサ1148は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ1148の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX11 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX11 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0140】
記憶サブシステム1110で使用されるメモリサブシステム1122は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(RAM)1132と、固定命令が記憶された読み取り専用メモリ(ROM)1134とを含む多数のメモリを含むことができる。ファイル記憶サブシステム1136は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム1110内のファイル記憶サブシステム1136によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0141】
バスサブシステム1140は、コンピュータシステム1100の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム1142は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
【0142】
コンピュータシステム1100自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、
図11に示されるコンピュータシステム1100の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム1100の多くの他の構成は、
図11に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0143】
図12は、最終的な病原性スコアを決定する一実施態様1200を例示する。アクション1202において、一実施態様では、病原性分類器1000は、第1の参照アミノ酸と同じ第1の代替アミノ酸について第1の病原性スコアを生成する。アクション1212において、一実施態様では、病原性分類器1000は、第1の参照アミノ酸とは異なる第2の代替アミノ酸に対する第2の病原性スコアを生成する。アクション1222において、一実施態様では、第2の代替アミノ酸についての最終的な病原性スコアは、第2の代替アミノ酸についての第2の病原性スコアである。
【0144】
他の代替において、第2の代替アミノ酸についての最終的な病原性スコアは、第1の病原性スコア及び第2の病原性スコアの組み合わせに基づく。1222aにおける第1の代替では、一実施態様では、第2の代替アミノ酸についての最終的な病原性スコアは、第1の病原性スコアと第2の病原性スコアとの合計に対する第2の病原性スコアの比である。1222bにおける第2の代替では、一実施態様では、第2の代替アミノ酸についての最終的な病原性スコアは、第2の病原性スコアから第1の病原性スコアを減算することによって決定される。
【0145】
当業者であれば、他の現在及び将来の人工知能、機械学習、及び深層学習モデル、データセット、及び学習技法を、開示される技術の趣旨から逸脱することなく、開示されるバリアント病原性分類器に組み込むことができることを理解するであろう。
【0146】
多重検定のための補正
これまでの議論は、表現型と関連付けられた遺伝子と表現型応答への希少バリアントの寄与との間の関連性の強度が定量化される最適化された総和検定を実施する方法を含む開示される技術の実施態様を説明しており、総和検定は、対立遺伝子カウントと、最も有意なp値を有する病原性スコア閾値との特定の組み合わせに対して最適化される。最適化された総和検定は、特定の遺伝子内の少なくとも1つの希少有害バリアントのキャリアと非キャリアとの間の分離を最大化する複数の入れ子型t検定に基づく。開示される技術のこの実施態様では、最適化方法内で実施される多重t検定は、各遺伝子内の多重検定を補正する必要性を保証する。
【0147】
次に、考察は、PST値とAC値との最適な組み合わせに対応する最も有意なp値の補正の説明に移る。
【0148】
図13は、各遺伝子内の多重検定を補正するためのプロセスのフロー
図1300である。偽発見率(false discovery rate、FDR)補正に続いて、p値は、PST及びACの両方についての総和検定最適化を考慮するために多重検定について更に補正される。FDR補正されたp値1302は、値範囲に分離される。開示される技術の一実施態様では、多重検定補正1300のための以下のアルゴリズムに従う。開示される技術の他の実施態様では、他の形態の多重検定補正が使用され得る。範囲(0,1e-5]内の値について、FDR補正されたp値1302は、Benjamini-Hochberg FDR補正1310を受ける。
【0149】
範囲(0.01,1]内の値について、FDR補正されたp値1302は、並べ替え検定ステップ1312を受ける。ステップ1312において、一実施態様では、生成された並べ替えの総数のカウント(N)がゼロに設定される。他の実施態様では、Nは、任意の所定の開始値に設定され得る。他の実施態様では、Nは、任意の所定の開始値に設定され得る。ステップ1312に続いて、ステップ1322は、表現型ラベルの1,000個の並べ替えの生成を伴い、NをN+1000に等しく設定する。次のステップ1342において、データの各並べ替えに対して総和検定が実施され、元の観察されたデータよりも有意なp値をもたらす並べ替えの割合pがカウントされる。Nが100/pよりも大きい場合、ステップ1362に進む。ステップ1362において、停止し、pを出力する。ステップ1362における停止点は、N<10,000を保証し、計算効率を維持する。すなわち、並べ替えの数(N)は、10,000未満に制限され、それによって、計算上実行不可能な、又は計算上非効率的な、又は計算上高価なカウントに達することが防止される。
【0150】
範囲(1e-5,0.01]内の値について、FDR補正されたp値1302は、並べ替え検定ステップ1314を受ける。ステップ1314において、表現型ラベルの10,000個の並べ替えが生成される。ステップ1314に続いて、ステップ1324は、一般化された極値分布を、並べ替えられたデータからの各それぞれの総和検定に対する検定統計値の絶対値にフィッティングすることを伴う。次のステップ1344において、補正されたp値は、フィッティングされた分布の曲線下面積から推定される。すなわち、ステップ1362では、初期p値が出力されるが、それに対して、ステップ1344では、補正されたp値が推定される。
【0151】
共変量についての表現型値の補正
これまでの考察は、表現型と関連付けられた遺伝子の関連性の強度及び表現型応答に対する希少バリアントの寄与を定量化することを包含しており、希少多遺伝子リスクスコアに寄与する複数の遺伝子の有効強度スコアは、ブールキャリア状態変数によって決定され、希少多遺伝子リスクスコアモデル(すなわち、総和検定)は、対立遺伝子カウントと、最も有意なp値を有する病原性スコア閾値との特定の最適な組み合わせについて最適化される。ここで、表現型測定値が共変量補正され、かつ薬物使用補正される、最適化の追加の方法を導入するために、表現型測定値の概念を再考する。
【0152】
本出願は、「薬物使用」、「薬物使用パターン」、「薬物カテゴリ使用」、及び「薬物カテゴリ使用パターン」という用語を互換的に使用することに留意されたい。また、本出願は、1つ以上の他の共変量及び関心対象の転帰の両方に関連付けられた共変量を説明するために、「交絡因子」という用語を使用することに留意されたい(例えば、タバコ使用は、心血管疾患の薬物使用パターン及び表現型測定と関連付けられた交絡因子である。当業者は、開示される技術が、腫瘍学的疾患、糖尿病などの、任意の疾患に適用され得ることを理解するであろう。
【0153】
図14は、共変量について表現型値を補正する方法1400の概略図である。ステップ1402において、定量的表現型のデータセットは、非冗長データセットに剪定される。ステップ1404において、複数の関心対象の薬物は、薬物カテゴリのセットに群化される。ステップ1406において、非冗長定量的表現型データセット内の各表現型は、薬物カテゴリのセット内の各薬物カテゴリについての薬物使用について補正される(例えば、スタチン、血圧薬など)。ステップ1408において、各補正された表現型は、逆ランク正規変換される。ステップ1410において、補正された表現型は、複数の交絡因子(例えば、年齢、性別、遺伝的主成分、食事、喫煙状態など)について更に補正される。交絡因子に関して、交絡因子は、試験薬物と転帰との間の関係を交絡させる因子である。いくつかの試験は、試験中の補助的薬物又は精神療法などの補助的治療を可能にし得る。これらは、結果が検定される薬物よりもむしろ補助剤に起因し得るため、交絡因子である。一例として、鎮痛剤の試験は、副木、クリーム、マッサージ、温浴、及びカイロプラクタの操作などの、非薬物鎮痛剤の参加者の使用を無視することが多い。これらの追加の試験治療に対する応答は、試験の結果を著しく混乱させる可能性がある。一般的な交絡因子は、参加者の属性であり、例えば、ボディマス指数、喫煙状態、病気の発症年齢、社会経済的状態、教育的状態、及びサポートネットワークの程度である。人生の出来事もまた、潜在的な交絡因子である。それらは、参加者の気分及び症状レベルに大きな変化を引き起こし得、これは、特に、参加者と評価者との間の関係において、どんなに小さい出来事にも当てはまる。実験群と対照群との間で一致しない全ての既知の交絡因子は、統計分析において考慮され得る。
【0154】
ここで、考察は、第1及び第2の時点における個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するように構成された、開示される技術の一実施態様の詳細な説明に移り、コホート内の個体は、2つの時点で測定された並べ替えられた薬物使用パターンに基づいて群化される(例えば、第1及び第2の時点で薬物を服用せず、第1及び第2の時点の間で薬物を服用し始め、第1及び第2の時点の間で薬物を服用することを停止し、第1及び第2の時点で薬物を服用する)。生物統計学及び集団遺伝学研究において一般的に使用される共変量補正のための他の戦略とは対照的に、単一時点ではなく複数時点の使用は、より低い誤差分散及び表現型シフトに対する特定の交絡因子の影響のより正確な近似をもたらす。
【0155】
図15は、複数の表現型に対する複数の薬物の使用に応答して表現型シフトを予測することを表す概略図である。データベース1502は、コホートjに属する個体群に対応するゲノム及び表現型のデータを含む。ステップ1522において、複数の交絡因子についての共変量測定値、複数の表現型についての表現型測定値、及び複数の薬物カテゴリについての薬物使用パターンが、データベース1502から2つの時点t
1及びt
2においてアクセスされる。ステップ1542、1562、1582、及び1592は、複数の表現型内の各表現型について実施される。当業者は、開示される技術が、3つ、4つ、5つなどの、任意の数の時点に拡張され得ることを理解するであろう。
【0156】
ステップ1542において、表現型測定値は、t1及びt2における複数の交絡因子について共変量補正され、第1の回帰モデルをフィッティングすることによって交絡因子補正された値を生成する。ステップ1562において、第1の回帰モデルが、交絡因子補正された値に対するデルタδを決定するために使用される。したがって、共変量補正は、第1の回帰モデルをフィッティングすることによって共変量測定値を除去して回帰分析することによって実装される。ステップ1582及び1592は、複数の薬物カテゴリ内の各薬物カテゴリについて実施される。ステップ1582において、δは、第2の回帰モデルをフィッティングすることによって、特定の薬物カテゴリの使用に応答した表現型シフトを予測するために使用される。ステップ1592において、交絡因子補正された値は、特定の薬物カテゴリについての薬物使用について更に補正されて、特定の表現型についての交絡因子補正され、薬物カテゴリ使用補正された値を生成する。したがって、表現型シフト予測は、薬物使用パターンの各々について表現型シフトをモデル化する第2の回帰モデルをフィッティングすることによって実装される。第2の回帰モデルは、薬物使用パターンの各々についてバイナリインジケータ変数を有する。
【0157】
図16は、特定のコホートについての薬物使用パターン及び表現型データを得るための実験設定を表す概略図である。データベース1602は、コホートjに属する個体群に対応するゲノム及び表現型のデータを含む。データベース1602は、第1の時点t
1において、特定の薬物カテゴリzを服用していない個体1622と、特定の薬物カテゴリzを服用している個体1624とをそれぞれ含む2つのサブコホートにセグメント化される。特定の薬物カテゴリzを服用していない個体1622を含むサブコホートは、それぞれ、特定の薬物カテゴリzを継続的に服用しなかった個体1642と、第1の時点t
1の後、第2の時点t
2の前に特定の薬物カテゴリzを服用し始めた個体1644とを含む、より小さいサブコホートに更にセグメント化され得る。
【0158】
特定の薬物カテゴリzを服用している個体1646を含むサブコホートは、それぞれ、特定の薬物カテゴリzを服用することを停止した個体1646と、第1の時点t1の後、第2の時点t2の前に特定の薬物カテゴリzを服用し続けていた個体1648とを含む、より小さいサブコホートに更にセグメント化され得る。
【0159】
表現型値傾向グラフ1662は、サブコホート1642(すなわち、t1又はt2において薬物カテゴリzを服用していなかった患者)についてt1及びt2において測定された表現型値の例を例示し、特定の表現型値は、t1においてy軸上で高くなり始め、t2においてわずかに増加する。表現型値傾向グラフ1664は、サブコホート1644(すなわち、t1において薬物カテゴリzを服用していなかったが、t2の前に薬物カテゴリzを服用し始めた患者)についてt1及びt2において測定された表現型値の例を例示し、特定の表現型値は、t1においてy軸上で高くなり始め、t2において減少する。表現型値傾向グラフ1666は、サブコホート1646(すなわち、t1において薬物カテゴリzを服用していたが、t2の前に薬物カテゴリzを服用することを停止した患者)についてt1及びt2において測定された表現型値の例を例示し、特定の表現型値は、t1においてy軸上で低下し始め、t2において増加する。表現型値傾向グラフ1668は、サブコホート1648(すなわち、t1及びt2において薬物カテゴリzを服用していた患者)についてt1及びt2において測定された表現型値の例を例示し、特定の表現型値は、t1においてy軸上で低下し始め、t2において低いままである。
【0160】
開示される技術のいくつかの実施態様では、表現型値(すなわち、薬物カテゴリzに応答した表現型シフト)に対する薬物効果は、モデル1682によって学習され得、t1及びt2における表現型値に対するデルタ(δy)は、薬物カテゴリzのβ係数を伴う回帰としてモデル化される。このモデルは、帰無仮説が、薬物カテゴリzについてのβ係数がゼロに等しいと述べ、対立仮説が、薬物カテゴリzについてのβ係数がゼロに等しくないと述べる場合、有意性について検定され得る。
【0161】
開示される技術のいくつかの実施態様では、データベース1602からのデータに基づいて構築されるステップ1542及び1582からの回帰モデルは、以下のプロトコルを介して構築される。
【0162】
34個の薬物カテゴリ(例えば、スタチン、NSAID、オピオイドなど)の表現型シフト効果を、5年離れたt1及びt2で測定されたそれらの定量的表現型値及び対応する共変量を有した参加者のコホートから推定した。各定量的表現型について、t1及びt2における共変量補正された値は、薬物使用を除く全ての共変量(例えば、年齢、性別、遺伝的主成分、食事、喫煙状態など)を除去して回帰分析することによって生成される。2つの時点間の差は、以下のように計算される。
【0163】
【0164】
各薬物カテゴリXについて、コホート内の全ての個体は、t1及びt2におけるそれらの薬物使用に従って4つの群に分割され(サブコホート1642、1644、1646、及び1648に説明されるように)、個体がその群に属するかどうかを符号化するバイナリインジケータ変数が各群に対して導入される。
1)t1及びt2の両方の時点で薬物Xを服用していなかった個体(インジケータ変数:X00)
2)時点t1とt2との間に薬物Xの服用を開始した個体(インジケータ変数:X01)
3)時点t1~t2の間に薬物Xの服用を停止した個体(インジケータ変数:X10)
4)両方の時点t1及びt2で薬物Xを服用していた個体(インジケータ変数:X11)
【0165】
どの薬物が表現型Yに対して有意な効果を有するかを決定するために、以下の形態の前進型選択段階的回帰がフィッティングされ、全ての薬物カテゴリにわたって繰り返す。
【0166】
【0167】
上記の方程式において、項βttは、t1とt2との間の経過した時間の効果をモデル化しており(コホート内の各個体についてのt=t2-t1)、項
【0168】
【数3】
は、t
1とt
2との間の平均への回帰に起因する効果を考慮しており、β
0は、切片である。出発薬物Xの効果をモデル化する係数β
01のp値が10
-3を上回って増加したとき、段階的手順が停止される。
【0169】
関連薬物のセットDが決定された後、それらの個々の効果は、以下の回帰をフィッティングすることによって一緒に推定され得る。
【0170】
【0171】
コホート内の全ての個体にわたるt1における表現型Yについての生の値は、以下のように補正され得る。
【0172】
【0173】
X(d)は、個体が初診時t1において薬物Xを服用していたかどうかを符号化するバイナリインジケータ変数である。薬物使用について補正した後、値
【0174】
【数6】
は、逆ランク正規変換され得、全ての他の共変量が、除去されて回帰分析され得る。共変量補正され正規化され薬物使用補正された表現型測定値が、希少バリアント多遺伝子リスクスコアを生成するために使用され得る。
【0175】
開示される技術のいくつかの実施態様では、薬物使用補正は、第3の回帰モデルをフィッティングすることによって実装され、第1の時点と第2の時点との間で薬物を服用し始める第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用しない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第1の時点についての表現型測定値を薬物使用補正することを含む。第4の回帰モデルがフィッティングされ、第4の回帰モデルは、第1の時点と第2の時点との間で薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、第1の時点及び第2の時点で薬物を服用する第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第2の時点についての表現型測定値を薬物使用補正することを含む。
【0176】
ランクに基づく逆正規変換が、第1及び第2の時点についての薬物使用補正された表現型測定値に適用されて、第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成し得る。次いで、正規化された薬物使用補正された表現型測定値が、第1及び第2の時点について共変量補正され、第1及び第2の時点について共変量補正され正規化された薬物使用補正された表現型測定値を生成する。共変量補正され正規化された薬物使用補正された表現型測定値は、希少バリアント多遺伝子リスクスコアを生成するために使用され得、関心対象の表現型についての測定値は、共変量及び薬物使用パターンに応答した表現型シフトに対して補正される。
【0177】
図17は、心血管疾患患者X 1700に対応する複数の表現型を例示する。心血管疾患患者X 1700について測定された表現型値は、複数の交絡因子によって影響されることになる。これらの交絡因子の例は、人口統計1702(例えば、年齢、性別、民族性など)、心理社会的因子1722(メンタルヘルス関連の交絡因子、社会経済的クラスなど)、タバコ及びアルコール消費1742、薬物使用1704(例えば、違法薬物などの正式な薬物効果分析に含まれない薬物)、ボディマス測定値1724(例えば、ボディマス指数、体脂肪率、腹部脂肪密度など)、又は食事及びライフスタイル因子1744(例えば、食事制限、食習慣、運動など)を含む。当業者は、これらが非限定的な交絡因子であり、測定された表現型値に影響を及ぼし得る多数の追加の交絡因子が存在することを認識するであろう。
【0178】
非自明性及び進歩性の客観的な指標としての性能測定結果
これまでの考察は、特定の表現型についての特定の遺伝子内の希少有害バリアントキャリア状態について構築された多遺伝子リスクスコアモデルを含む希少バリアント総和検定について開示された技術の複数の実施態様を包含しており、モデルパラメータ(すなわち、病原性スコア閾値及び最大対立遺伝子カウント)は、入れ子型t検定(すなわち、グリッド検索)を介して最適化され、両方の表現型値は、複数の共変量について共変量補正され、複数の薬物使用パターンについて薬物使用補正される。次に、考察は、開示される技術の様々な実施態様の性能結果に移る。
【0179】
図18は、異なるタイプの総和検定ごとに特定された有意な遺伝子-表現型対の総数を定量化するグラフ1800である。異なる型の総和検定について90個の表現型にわたって特定された有意な遺伝子-表現型対の総数は、PrimateAI-3Dによって優先順位付けされた希少LoF及び有害ミスセンスバリアントについての複合検定が他のアプローチよりも性能が優れていることを示す。陰性対照として、同義バリアントに対して行われた総和検定についての有意な遺伝子型-表現型対の数も示される。
【0180】
図19は、病原性分類器PrimateAI-3Dによって特定された疾患重症度及び発症の年齢に影響する希少有害バリアントを例示するグラフの集合である。グラフ1902は、LDLR遺伝子、並びにLDLコレステロール及びリポタンパク質代謝の障害とのその関連性に対応する。LDLR遺伝子における希少ミスセンスバリアントのキャリアについては、LDLコレステロールレベル(y軸)は、PrimateAI-3Dパーセンタイルスコア(x軸)と正に相関する。以下、PrimateAI-3Dスコアは、遺伝子間の比較を容易にするために各遺伝子内で0から1に正規化されたPrimateAI-3Dパーセンタイルスコアを指す。グラフ1904は、PrimateAI-3Dスコアが、LDLR遺伝子における希少ミスセンスバリアントのキャリアについて脂質異常症の発症年齢を予測することを例示する。
【0181】
グラフ1922は、LDLRの下方制御因子である、PCSK9遺伝子に対応する。LDLRの下方制御因子である、PCSK9におけるミスセンスバリアントのキャリアのLDLコレステロールレベルは、PrimateAI-3Dスコアと負に相関する。グラフ1924は、キャリアのLDLコレステロールレベルが、非キャリアと同様の速度で年齢とともに増加するが、平均して同じ年齢群の非キャリアよりも低いことを示す。グラフ1942は、GCK遺伝子に対応しており、GCK遺伝子における希少ミスセンスバリアントのキャリアについて、HbA1cレベルがPrimateAI-3Dと相関することを示している。グラフ1944は、キャリアのHbA1cレベルが、非キャリアと同様の速度で年齢とともに増加するが、平均して、キャリアの人生においてより早く前糖尿病閾値に達することを示す。
【0182】
図20は、異なる病原性スコアと表現型値との平均絶対スピアマン相関のグラフ2000である。グラフ2000は、同じバリアントのキャリアによる理論上の上限セットと比較した、34個の遺伝子-表現型対のベンチマークセットにおける表現型値との異なる病原性スコアの平均絶対スピアマン相関を示す。
【0183】
図21は、希少有害バリアントと一般的ゲノムワイド関連解析バリアントとのヒートマップ2100の比較である。表現型の各対について、ヒートマップは、y軸上の表現型と関連付けられたGWAS遺伝子と、x軸上の表現型と関連付けられた希少バリアント遺伝子との間の重複の統計的有意性を示す。
【0184】
図22は、希少有害バリアントと一般的ゲノムワイド関連解析バリアントとの更なる比較である。グラフ2200Aは、LoF、有害ミスセンス(PrimateAI-3D>0.5)、及び潜在性スプライス(SpliceAI>0.2)バリアントについてのバリアント効果量とバリアント対立遺伝子頻度との関係を示す。同義及び良性のミスセンス(PrimateAI-3D<0.5)バリアントが陰性対照として示される。ドットサイズは、各ドットにおけるバリアントの数の平方根に比例する。グラフ2200Bは、最も希少なLoFバリアントの効果量を、同じ遺伝子に対するリードGWASバリアントの効果量で除算した分布を含む。高pLI(上のプロット)及び低pLI(下のプロット)遺伝子の両方のヒストグラムが示される。赤色の垂直線は、各分布の平均を示す。グラフ2200Cは、異なるGWAS有意性を有する遺伝子によって層別化された、希少バリアント濃縮(公称p値≦0.05)を有する明確にマッピングされたGWAS遺伝子のパーセンテージを示す。結果は、高pLI遺伝子(pLI>0.5)及び低pLI遺伝子(pLI<0.5)について別々にプロットされる。高信頼度GWAS遺伝子は、p値<10~100を有するリードバリアントを有し、関連する遺伝子におけるコーディングバリアントと強いLD(r
2>=0.9)を有するものとして定義された。破線は、公称p値閾値(p<0.05)を偶然に満たすことになる遺伝子の期待されるパーセンテージを示す。
【0185】
図23は、UK Biobankコホートにおける全個体にわたるコレステロール経路及び総コレステロール分布を例示する。例示2302は、コレステロール経路を含み、希少バリアントPRSモデルにおける遺伝子が写真上に重ねられている。各遺伝子について、数字及び矢印は、効果量及び効果の方向を示す。グラフ2304は、UK Biobankコホートにおける全ての個体にわたる総コレステロールの分布を示し、一般的及び希少バリアントの平均効果量が示されている。
【0186】
図24は、希少バリアントPRS性能の測定を含む。グラフ2402は、UKBBの90%をPRS訓練に使用し、10%を検定に使用した、一般的バリアントPRS(AF>1%)、希少バリアントPRS(AF<0.1%)、及び72個の表現型を有する複合PRSの平均相関を示す。箱ひげ図は、形質間のピアソン相関(R)の分布を示す。グラフ2404は、モデルへの遺伝子又は遺伝子座の包含を決定するための異なる有意性カットオフを使用したPRS性能(表現型との平均相関)の比較である。データ点サイズは、各PRSモデルにおいて使用される遺伝子又は遺伝子座の数に対応する。
【0187】
図25は、PRS外れ値の濃縮のグラフ2500である。グラフ2500は、表現型外れ値である個体内のPRS外れ値の濃縮を示す。x軸は、表現型外れ値を定義するために使用されるzスコア閾値を示し、y軸は、ベースライン集団に対する表現型外れ値個体におけるPRS外れ値の濃縮を示す。
【0188】
図26は、定量的表現型についてのPRS外れ値のグラフ2600である。グラフ2600は、56個の定量的表現型についてのPRS外れ値を示す。バーは、99及び99.9パーセンタイルの表現型外れ値閾値における個体を説明するための、一般的バリアントPRS又は希少バリアントPRSのいずれかについての統計的有意性を示す。
【0189】
図27は、2つの別個のコホートからの正規化された総コレステロール分布のグラフ2702及び2704を含む。グラフ2702は、コレステロールPRSについて下位0.5%(低)、0.5~99.5%(中)、及び上位0.5%(高)群にあるUK Biobank個体からの正規化された総コレステロール分布を示し、コホートの50%は、PRSを訓練するために使用され、残りは検定のために使用される。グラフ2704は、コレステロールPRSについて下位0.5%(低)、0.5~99.5%(中)、及び上位0.5%(高)群にあるMGB個体からの正規化された総コレステロール分布を示し、コホートの50%は、PRSを訓練するために使用され、残りは検定のために使用される。
【0190】
図28は、2つの別個のコホート間で希少バリアントPRS外れ値及び表現型を比較するグラフ2802及び2804を含む。グラフ2802は、両方のコホートにおいて測定された17個の定量的表現型についての希少バリアントPRS外れ値検定を示す。PRS及び表現型の外れ値を、集団の上位0.5%及び下位0.5%の個体として定義した。グラフ2804は、17個の定量的表現型について、希少バリアントPRSと表現型との間の相関を示す。
【0191】
図29は、民族性による性能結果を例示するグラフ2902及び2904を含む。グラフ2902は、MGBコホートにおける低及び高PRS群についての正規化されたコレステロール分布を示しており、白人及び非白人個体の両方について結果が示されている。グラフ2904は、白人及び非白人個体の両方について、MGBにおける11個の表現型の各々についての低PRS(<0.5%)群と高PRS(>99.5%)群との間の平均zスコア距離の比較を示す。
【0192】
図30は、正常なコレステロールレベルに対して使用される一般的PRSバリアント及び希少PRS遺伝子に対する効果量及び頻度を比較する表3000である。
【0193】
図31は、34個の遺伝子-表現型対のセットに対する異なる病原性スコアリング方法によって説明される表現型分散の平均割合のグラフ3100であり、34個の遺伝子-表現型対のセットは、希少ミスセンス及びLoFバリアントについてのそれらの濃縮に基づいて選択された。説明される表現型分散の割合は、各スコアリング方法からの各スコアと、対応するバリアントのキャリアの表現型値との間の二乗スピアマン相関として計算される。方法は、グラフ3100において、同じミスセンスバリアントのキャリアの表現型値を使用することによって計算された理論上の上限と、同じ同義バリアントのキャリア及びランダムスコアである、2つの理論上の下限と比較される。
【0194】
図32は、定量的表現型と臨床表現型との間の全てのペアワイズ比較についての、GWAS遺伝子における希少バリアントの濃縮のヒートマップ3200である。表現型の各対について、ヒートマップ3200は、1つの表現型(y軸)のGWAS遺伝子の最も有意なサブセットの順位付けの統計的有意性を、第2の表現型(x軸)に影響を及ぼす希少有害バリアントに対するそれらの濃縮によって示す。各表現型からの全ての有意なGWASバリアントの効果を除去して回帰分析した後、希少有害バリアントについての総和検定が計算される。ヒートマップ2100は、ヒートマップ3200の主対角線上に濃縮された表現型のサブセットを示す。
【0195】
図33は、同じ遺伝子についてのシングルトンLoFバリアントの平均効果量と最も有意なGWASバリアントの効果量との間の比の絶対値の分布のグラフ3300を含む。グラフ3300Aは、グラフ2200Bからの高pLI遺伝子に対する同じ遺伝子についてのシングルトンLoFバリアントの平均効果量と最も有意なGWASバリアントの効果量との間の比の絶対値の分布を示す。グラフ3300Bは、グラフ2200Bからの低pLI遺伝子に対する同じ遺伝子についてのシングルトンLoFバリアントの平均効果量と最も有意なGWASバリアントの効果量との間の比の絶対値の分布を示す。
【0196】
図34は、5%の偽発見率で有意であった遺伝子-表現型対からの遺伝子のいずれかにおける個体当たりのバリアントの数を示す。グラフ3400は、有意性閾値を通過した1031個の遺伝子-表現型対からの500個の遺伝子を含む。1人当たりのバリアントの平均数は2.03であり、標準偏差は1.51である。
【0197】
図35は、訓練データ対検定データ分割における効果量の比較3500を示す。コホートの50%を訓練セットとして使用し、その他の50%を試験セットとして使用して、希少バリアント検定を実施した。グラフ3500では、訓練セットにおいてp値<10
-7を有する遺伝子について、訓練セット対検定セットからの効果量が比較される。
【0198】
図36は、一般的バリアントPRSサブセットと希少バリアントPRSサブセットとを比較するグラフ3600を含む。グラフ3600Aは、遺伝子座が一般的及び希少検定の両方において有意であることが必要とされた場合の一般的及び希少PRS相関を示す。PRSを90%で訓練し、残りで検定した。グラフ3600Bは、訓練サンプルの数による、最大値に対する一般的及び希少PRS相関を示す。グラフ3600Cは、PrimateAI-3Dを使用した希少PRSモデル対PrimateAI-3Dなしで構築された希少バリアントPRSモデルから説明される効果量及び分散の比を示す。
【0199】
条項
開示される技術、特に、このセクションで開示される条項は、システム、方法、又は製品として実施され得る。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
【0200】
開示される技術、又はその要素の1つ以上の実施態様及び条項は、示された方法ステップを実行するためのコンピュータ使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の1つ以上の実施態様及び条項は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の1つ以上の実施態様及び条項は、本明細書に記載の方法ステップのうちの1つ以上を実行するための手段の形態で実装することができ、この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0201】
このセクションで説明される条項は、特徴として組み合わせることができる。簡潔性の目的で、特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、このセクションに記載される条項で特定された特徴が、本出願の他のセクションにおける実施態様として特定された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。これらの条項は、相互排他的、網羅的、又は制限的であることを意味せず、開示される技術は、これらの条項に限定されず、むしろ、特許請求される技術及びその均等物の範囲内の全ての可能な組み合わせ、修正、及び変形を包含する。
【0202】
このセクションで説明される条項の他の実施態様は、このセクションに記載される条項のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションに記載される条項の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行してこのセクションに記載される条項のいずれかを行うように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0203】
本発明者らは、以下の条項を開示する。
1.複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するコンピュータ実装方法であって、
個体のコホートについて、かつ第1及び第2の時点について、
複数の表現型についての表現型測定値にアクセスすることと、
複数の交絡因子についての共変量測定値にアクセスすることと、
複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
共変量測定値に基づいて第1及び第2の時点についての表現型測定値を共変量補正し、それによって、第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
第1及び第2の時点についての共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
薬物使用パターンの各々について、共変量補正された表現型測定値に対する複数の薬物の使用に応答した表現型シフトを予測するためにデルタを使用する第2の回帰モデルをフィッティングすることと、
表現型シフトに基づいて第1及び第2の時点についての表現型測定値を薬物使用補正し、それによって、第1の時点についての薬物使用補正された表現型測定値を生成することと、を含む、コンピュータ実装方法。
2.複数の交絡因子が、年齢、性別、遺伝的主成分、食事、及び喫煙状態を含む、条項1に記載のコンピュータ実装方法。
3.共変量補正が、第1の回帰モデルをフィッティングすることによって共変量測定値を除去して回帰分析することによって実装される、条項1に記載のコンピュータ実装方法。
4.表現型シフト予測が、薬物使用パターンの各々について表現型シフトをモデル化する第2の回帰モデルをフィッティングすることによって実装される、条項1に記載のコンピュータ実装方法。
5.第2の回帰モデルが、薬物使用パターンの各々についての表現型シフトを連続的かつ累積的に含めることによって、デルタを繰り返し予測する前進型選択段階的回帰モデルである、条項4に記載のコンピュータ実装方法。
6.薬物使用パターンが、
第1及び第2の時点で薬物を服用していないことと、
第1の時点と第2の時点との間で薬物を服用することを開始することと、
第1の時点と第2の時点との間で薬物を服用することを停止することと、
第1及び第2の時点で薬物を服用していることと、を含む、条項4に記載のコンピュータ実装方法。
7.第2の回帰モデルが、薬物使用パターンの各々についてバイナリインジケータ独立変数を有する、条項6に記載のコンピュータ実装方法。
8.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正が、複数の薬物中の薬物について薬物ごとに実行される、条項1に記載のコンピュータ実装方法。
9.第2の回帰モデルが、薬物の各々に対して反復的にフィッティングされる、条項8に記載のコンピュータ実装方法。
10.薬物を薬物カテゴリのセットに群化することを更に含む、条項8に記載のコンピュータ実装方法。
11.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正が、薬物カテゴリのセット内の薬物カテゴリについて薬物カテゴリごとに実行される、条項10に記載のコンピュータ実装方法。
12.第2の回帰モデルが、薬物カテゴリの各々に対して反復的にフィッティングされる、条項11に記載のコンピュータ実装方法。
13.第2の回帰モデルが、個体のコホート内の個体について個体ごとに第1の時点と第2の時点との間で経過した時間に応答して、表現型シフトを更にモデル化する、条項1に記載のコンピュータ実装方法。
14.第2の回帰モデルが、第1の時点と第2の時点との間の平均への回帰に応答して、表現型シフトを更にモデル化する、条項1に記載のコンピュータ実装方法。
15.第2の回帰モデルが、複数の薬物における関連薬物のセットに対して共同でフィッティングされる、条項8に記載のコンピュータ実装方法。
16.薬物使用補正が、第3の回帰モデルをフィッティングすることによって実装される、条項1に記載のコンピュータ実装方法。
17.第1の時点と第2の時点との間で薬物を服用することを開始する第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用していない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第1の時点についての表現型測定値を薬物使用補正することを更に含む、条項16に記載のコンピュータ実装方法。
18.薬物使用補正が、第4の回帰モデルをフィッティングすることによって実装される、条項1に記載のコンピュータ実装方法。
19.第1の時点と第2の時点との間で薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用している第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第2の時点についての表現型測定値を薬物使用補正することを更に含む、条項18に記載のコンピュータ実装方法。
20.ランクに基づく逆正規変換を、第1及び第2の時点についての薬物使用補正された表現型測定値に適用することと、第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、を更に含む、条項1に記載のコンピュータ実装方法。
21.第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を共変量補正することと、第1及び第2の時点についての共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、を更に含む、条項12に記載のコンピュータ実装方法。
22.共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアント多遺伝子リスクスコアを生成することを更に含む、条項12に記載のコンピュータ実装方法。
23.複数の表現型が、複数の定量的表現型に対応する、条項1に記載のコンピュータ実装方法。
24.複数の定量的表現型における定量的表現型が、定量的バイオマーカー測定値である、条項23に記載のコンピュータ実装方法。
25.共変量補正、デルタ決定、表現型シフト、及び薬物使用補正において使用するために、複数の定量的表現型を非冗長セットに剪定することを更に含む、条項23に記載のコンピュータ実装方法。
26.非冗長セットにおける定量的表現型の各ペアが、上限閾値よりも低い絶対ペアワイズピアソン相関を有する、条項25に記載のコンピュータ実装方法。
27.上限閾値が、0.95である、条項26に記載のコンピュータ実装方法。
28.複数の定量的表現型における冗長な定量的表現型の各群の中から、非冗長セットに含めるために、最も多くのサンプルを有する表現型を選択することを更に含む、条項26に記載のコンピュータ実装方法。
29.複数の表現型が、複数のカテゴリ表現型に対応する、条項1に記載のコンピュータ実装方法。
30.複数のカテゴリ表現型におけるカテゴリ表現型が、臨床診断である、条項29に記載のコンピュータ実装方法。
31.薬物-表現型関連性を検出するために第2の回帰モデルを使用することを更に含む、条項4に記載のコンピュータ実装方法。
32.薬物-表現型関連性が、潜在的な望ましくない副作用及び所望の標的効果を含む、条項31に記載のコンピュータ実装方法。
33.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリに、複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するためのコンピュータ命令がロードされており、命令が、プロセッサ上で実行されると、
個体のコホートについて、かつ第1及び第2の時点について、
複数の表現型についての表現型測定値にアクセスすることと、
複数の交絡因子についての共変量測定値にアクセスすることと、
複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
共変量測定値に基づいて第1及び第2の時点についての表現型測定値を共変量補正し、それによって、第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
第1及び第2の時点についての共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
薬物使用パターンの各々について、共変量補正された表現型測定値に対する複数の薬物の使用に応答した表現型シフトを予測するためにデルタを使用することと、表現型シフトに基づいて第1の時点についての表現型測定値を薬物使用補正し、それによって、第1及び第2の時点についての薬物使用補正された表現型測定値を生成することと、を含むアクションを実装する、システム。
34.複数の交絡因子が、年齢、性別、遺伝的主成分、食事、及び喫煙状態を含む、条項33に記載のシステム。
35.共変量補正が、第1の回帰モデルをフィッティングすることによって共変量測定値を除去して回帰分析することによって実装される、条項33に記載のシステム。
36.表現型シフト予測が、薬物使用パターンの各々について表現型シフトをモデル化する第2の回帰モデルをフィッティングすることによって実装される、条項33に記載のシステム。
37.第2の回帰モデルが、薬物使用パターンの各々についての表現型シフトを連続的かつ累積的に含めることによって、デルタを繰り返し予測する前進型選択段階的回帰モデルである、条項36に記載のシステム。
38.薬物使用パターンが、
第1及び第2の時点で薬物を服用していないことと、
第1の時点と第2の時点との間で薬物を服用することを開始することと、
第1の時点と第2の時点との間で薬物を服用することを停止することと、
第1及び第2の時点で薬物を服用していることと、を含む、条項36に記載のシステム。
39.第2の回帰モデルが、薬物使用パターンの各々についてバイナリインジケータ独立変数を有する、条項38に記載のシステム。
40.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正が、複数の薬物中の薬物について薬物ごとに実行される、条項33に記載のシステム。
41.第2の回帰モデルが、薬物の各々に対して反復的にフィッティングされる、条項40に記載のシステム。
42.薬物を薬物カテゴリのセットに群化することを含むアクションを更に実装する、条項40に記載のシステム。
43.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正が、薬物カテゴリのセット内の薬物カテゴリについて薬物カテゴリごとに実行される、条項42に記載のシステム。
44.第2の回帰モデルが、薬物カテゴリの各々に対して反復的にフィッティングされる、条項43に記載のシステム。
45.第2の回帰モデルが、個体のコホート内の個体について個体ごとに第1の時点と第2の時点との間で経過した時間に応答して、表現型シフトを更にモデル化する、条項33に記載のシステム。
46.第2の回帰モデルが、第1の時点と第2の時点との間の平均への回帰に応答して、表現型シフトを更にモデル化する、条項33に記載のシステム。
47.第2の回帰モデルが、複数の薬物における関連薬物のセットに対して共同でフィッティングされる、条項40に記載のシステム。
48.薬物使用補正が、第3の回帰モデルをフィッティングすることによって実装される、条項33に記載のシステム。
49.第1の時点と第2の時点との間で薬物を服用することを開始する第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用していない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第1の時点についての表現型測定値を薬物使用補正することを含むアクションを更に実装する、条項48に記載のシステム。
50.薬物使用補正が、第4の回帰モデルをフィッティングすることによって実装される、条項33に記載のシステム。
51.第1の時点と第2の時点との間で薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用している第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第2の時点についての表現型測定値を薬物使用補正することを含むアクションを更に実装する、条項50に記載のシステム。
52.ランクに基づく逆正規変換を、第1及び第2の時点についての薬物使用補正された表現型測定値に適用することと、第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、を含むアクションを更に実装する、条項33に記載のシステム。
53.第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を共変量補正することと、第1及び第2の時点についての共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、を含むアクションを更に実装する、条項44に記載のシステム。
54.共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアント多遺伝子リスクスコアを生成することを含むアクションを更に実装する、条項44に記載のシステム。
55.複数の表現型が、複数の定量的表現型に対応する、条項33に記載のシステム。
56.複数の定量的表現型における定量的表現型が、定量的バイオマーカー測定値である、条項55に記載のシステム。
57.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正において使用するために、複数の定量的表現型を非冗長セットに剪定することを含むアクションを更に実装する、条項55に記載のシステム。
58.非冗長セットにおける定量的表現型の各ペアが、上限閾値よりも低い絶対ペアワイズピアソン相関を有する、条項57に記載のシステム。
59.上限閾値が、0.95である、条項58に記載のシステム。
60.複数の定量的表現型における冗長な定量的表現型の各群の中から、非冗長セットに含めるために、最も多くのサンプルを有する表現型を選択することを含むアクションを更に実装する、条項58に記載のシステム。
61.複数の表現型が、複数のカテゴリ表現型に対応する、条項33に記載のシステム。
62.複数のカテゴリ表現型におけるカテゴリ表現型が、臨床診断である、条項61に記載のシステム。
63.薬物-表現型関連性を検出するために第2の回帰モデルを使用することを含むアクションを更に実装する、条項36に記載のシステム。
64.薬物-表現型関連性が、潜在的な望ましくない副作用及び所望の標的効果を含む、条項63に記載のシステム。
65.複数の交絡因子を有する個体のコホートの複数の表現型に対する複数の薬物の使用に応答した表現型シフトを予測するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
個体のコホートについて、かつ第1及び第2の時点について、
複数の表現型についての表現型測定値にアクセスすることと、
複数の交絡因子についての共変量測定値にアクセスすることと、
複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
共変量測定値に基づいて第1及び第2の時点についての表現型測定値を共変量補正し、それによって、第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
第1及び第2の時点についての共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
薬物使用パターンの各々について、共変量補正された表現型測定値に対する複数の薬物の使用に応答した表現型シフトを予測するためにデルタを使用することと、表現型シフト予測に基づいて第1及び第2の時点についての表現型測定値を薬物使用補正し、それによって、第1及び第2の時点についての薬物使用補正された表現型測定値を生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
66.複数の交絡因子が、年齢、性別、遺伝的主成分、食事、及び喫煙状態を含む、条項65に記載の非一時的コンピュータ可読記憶媒体。
67.共変量補正が、第1の回帰モデルをフィッティングすることによって共変量測定値を除去して回帰分析することによって実装される、条項65に記載の非一時的コンピュータ可読記憶媒体。
68.表現型シフト予測が、薬物使用パターンの各々について表現型シフトをモデル化する第2の回帰モデルをフィッティングすることによって実装される、条項65に記載の非一時的コンピュータ可読記憶媒体。
69.第2の回帰モデルが、薬物使用パターンの各々についての表現型シフトを連続的かつ累積的に含めることによって、デルタを繰り返し予測する前進型選択段階的回帰モデルである、条項68に記載の非一時的コンピュータ可読記憶媒体。
70.薬物使用パターンが、
第1及び第2の時点で薬物を服用していないことと、
第1の時点と第2の時点との間で薬物を服用することを開始することと、
第1の時点と第2の時点との間で薬物を服用することを停止することと、
第1及び第2の時点で薬物を服用していることと、を含む、条項68に記載の非一時的コンピュータ可読記憶媒体。
71.第2の回帰モデルが、薬物使用パターンの各々についてバイナリインジケータ独立変数を有する、条項70に記載の非一時的コンピュータ可読記憶媒体。
72.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正が、複数の薬物中の薬物について薬物ごとに実行される、条項65に記載の非一時的コンピュータ可読記憶媒体。
73.第2の回帰モデルが、薬物の各々に対して反復的にフィッティングされる、条項72に記載の非一時的コンピュータ可読記憶媒体。
74.薬物を薬物カテゴリのセットに群化することを更に含む方法を実装する、条項72に記載の非一時的コンピュータ可読記憶媒体。
75.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正が、薬物カテゴリのセット内の薬物カテゴリについて薬物カテゴリごとに実行される、条項74に記載の非一時的コンピュータ可読記憶媒体。
76.第2の回帰モデルが、薬物カテゴリの各々に対して反復的にフィッティングされる、条項75に記載の非一時的コンピュータ可読記憶媒体。
77.第2の回帰モデルが、個体のコホート内の個体について個体ごとに第1の時点と第2の時点との間で経過した時間に応答して、表現型シフトを更にモデル化する、条項65に記載の非一時的コンピュータ可読記憶媒体。
78.第2の回帰モデルが、第1の時点と第2の時点との間の平均への回帰に応答して、表現型シフトを更にモデル化する、条項65に記載の非一時的コンピュータ可読記憶媒体。
79.第2の回帰モデルが、複数の薬物における関連薬物のセットに対して共同でフィッティングされる、条項72に記載の非一時的コンピュータ可読記憶媒体。
80.薬物使用補正が、第3の回帰モデルをフィッティングすることによって実装される、条項65に記載の非一時的コンピュータ可読記憶媒体。
81.第1の時点と第2の時点との間で薬物を服用することを開始する第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用していない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第1の時点についての表現型測定値を薬物使用補正することを更に含む方法を実装する、条項80に記載の非一時的コンピュータ可読記憶媒体。
82.薬物使用補正が、第4の回帰モデルをフィッティングすることによって実装される、条項65に記載の非一時的コンピュータ可読記憶媒体。
83.第1の時点と第2の時点との間で薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、第1及び第2の時点で薬物を服用している第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、第2の時点についての表現型測定値を薬物使用補正することを更に含む方法を実装する、条項82に記載の非一時的コンピュータ可読記憶媒体。
84.ランクに基づく逆正規変換を、第1及び第2の時点についての薬物使用補正された表現型測定値に適用することと、第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、を更に含む方法を実装する、条項65に記載の非一時的コンピュータ可読記憶媒体。
85.第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を共変量補正することと、第1及び第2の時点についての共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、を更に含む方法を実装する、条項76に記載の非一時的コンピュータ可読記憶媒体。
86.共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアント多遺伝子リスクスコアを生成することを更に含む方法を実装する、条項76に記載の非一時的コンピュータ可読記憶媒体。
87.複数の表現型が、複数の定量的表現型に対応する、条項65に記載の非一時的コンピュータ可読記憶媒体。
88.複数の定量的表現型における定量的表現型が、定量的バイオマーカー測定値である、条項87に記載の非一時的コンピュータ可読記憶媒体。
89.共変量補正、デルタ決定、表現型シフト予測、及び薬物使用補正において使用するために、複数の定量的表現型を非冗長セットに剪定することを更に含む方法を実装する、条項87に記載の非一時的コンピュータ可読記憶媒体。
90.非冗長セットにおける定量的表現型の各ペアが、上限閾値よりも低い絶対ペアワイズピアソン相関を有する、条項89に記載の非一時的コンピュータ可読記憶媒体。
91.上限閾値が、0.95である、条項90に記載の非一時的コンピュータ可読記憶媒体。
92.複数の定量的表現型における冗長な定量的表現型の各群の中から、非冗長セットに含めるために、最も多くのサンプルを有する表現型を選択することを更に含む方法を実装する、条項90に記載の非一時的コンピュータ可読記憶媒体。
93.複数の表現型が、複数のカテゴリ表現型に対応する、条項65に記載の非一時的コンピュータ可読記憶媒体。
94.複数のカテゴリ表現型におけるカテゴリ表現型が、臨床診断である、条項93に記載の非一時的コンピュータ可読記憶媒体。
95.薬物-表現型関連性を検出するために第2の回帰モデルを使用することを更に含む方法を実装する、条項68に記載の非一時的コンピュータ可読記憶媒体。
96.薬物-表現型関連性が、潜在的な望ましくない副作用及び所望の標的効果を含む、条項95に記載の非一時的コンピュータ可読記憶媒体。
【手続補正書】
【提出日】2023-10-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
希少バリアントについての多遺伝子リスクスコアの生成で使用するための表現型測定値を補正するためのコンピュータ実装方法であって、
個体のコホートについて、かつ第1及び第2の時点について、
複数の表現型についての表現型測定値にアクセスすることと、
複数の交絡因子についての共変量測定値にアクセスすることと、
複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
前記共変量測定値に基づいて前記第1及び第2の時点についての前記表現型測定値を共変量補正し、それによって、前記第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
前記薬物使用パターンの各々について、前記共変量補正された表現型測定値に対する前記複数の薬物の使用に応答した表現型シフトを予測するために前記デルタを使用する第2の回帰モデルをフィッティングすることと、
前記表現型シフトに基づいて前記第1及び第2の時点についての前記表現型測定値を薬物使用補正し、それによって、前記第1の時点についての薬物使用補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記薬物使用補正された表現型測定値を正規化して、前記第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記正規化された薬物使用補正された表現型測定値を共変量補正して、前記第1及び第2の時点についての共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、
前記共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアントについての多遺伝子リスクスコアを生成することと、を含む、コンピュータ実装方法。
【請求項2】
前記複数の交絡因子が、年齢、性別、遺伝的主成分、食事、及び喫煙状態を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記共変量補正が、第1の回帰モデルをフィッティングすることによって前記共変量測定値を除去して回帰分析することによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記表現型シフト予測が、前記薬物使用パターンの各々について表現型シフトをモデル化する第2の回帰モデルをフィッティングすることによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記第2の回帰モデルが、前記薬物使用パターンの各々についての前記表現型シフトを連続的かつ累積的に含めることによって、前記デルタを繰り返し予測する前進型選択段階的回帰モデルである、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記薬物使用パターンが、
前記第1及び第2の時点で薬物を服用していないことと、
前記第1の時点と前記第2の時点との間で前記薬物を服用することを開始することと、
前記第1の時点と前記第2の時点との間で前記薬物を服用することを停止することと、
前記第1及び第2の時点で前記薬物を服用していることと、を含む、請求項4に記載のコンピュータ実装方法。
【請求項7】
前記第2の回帰モデルが、前記薬物使用パターンの各々についてバイナリインジケータ独立変数を有する、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記共変量補正、前記デルタ決定、前記表現型シフト予測、及び前記薬物使用補正が、前記複数の薬物中の薬物について薬物ごとに実行される、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記第2の回帰モデルが、前記薬物の各々に対して反復的にフィッティングされる、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記薬物を薬物カテゴリのセットに群化することを更に含む、請求項8に記載のコンピュータ実装方法。
【請求項11】
前記共変量補正、前記デルタ決定、前記表現型シフト予測、及び前記薬物使用補正が、前記薬物カテゴリのセット内の薬物カテゴリについて薬物カテゴリごとに実行される、請求項10に記載のコンピュータ実装方法。
【請求項12】
前記第2の回帰モデルが、前記薬物カテゴリの各々に対して反復的にフィッティングされる、請求項11に記載のコンピュータ実装方法。
【請求項13】
前記第2の回帰モデルが、前記個体のコホート内の個体について個体ごとに前記第1の時点と前記第2の時点との間で経過した時間に応答して、表現型シフトを更にモデル化する、請求項1に記載のコンピュータ実装方法。
【請求項14】
前記第2の回帰モデルが、前記第1の時点と前記第2の時点との間の平均への回帰に応答して、表現型シフトを更にモデル化する、請求項1に記載のコンピュータ実装方法。
【請求項15】
前記第2の回帰モデルが、前記複数の薬物における関連薬物のセットに対して共同でフィッティングされる、請求項8に記載のコンピュータ実装方法。
【請求項16】
前記薬物使用補正が、第3の回帰モデルをフィッティングすることによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項17】
第1の時点と第2の時点との間で前記薬物を服用することを開始する第1の薬物使用パターンについての第1のバイナリインジケータ独立変数、前記第1及び第2の時点で薬物を服用していない第2の薬物使用パターンについての第2のバイナリインジケータ独立変数、並びに個体が前記第1の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、前記第1の時点についての前記表現型測定値を薬物使用補正することを更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記薬物使用補正が、第4の回帰モデルをフィッティングすることによって実装される、請求項1に記載のコンピュータ実装方法。
【請求項19】
前記第1の時点と前記第2の時点との間で前記薬物を服用することを停止する第3の薬物使用パターンについての第3のバイナリインジケータ独立変数、前記第1及び第2の時点で前記薬物を服用している第4の薬物使用パターンについての第4のバイナリインジケータ独立変数、個体が前記第2の時点で特定の薬物を服用していたかどうかを符号化する薬物特異的バイナリインジケータ独立変数に基づいて、前記第2の時点についての前記表現型測定値を薬物使用補正することを更に含む、請求項18に記載のコンピュータ実装方法。
【請求項20】
前記薬物使用補正された表現型測定値を正規化することが、前記第1及び第2の時点についての前記薬物使用補正された表現型測定値にランクに基づく逆正規変換を適用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項21】
前記複数の表現型が、複数の定量的表現型に対応する、請求項1に記載のコンピュータ実装方法。
【請求項22】
前記複数の定量的表現型における定量的表現型が、定量的バイオマーカー測定値である、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記共変量補正、前記デルタ決定、前記表現型シフト、及び前記薬物使用補正において使用するために、前記複数の定量的表現型を非冗長セットに剪定することを更に含む、請求項21に記載のコンピュータ実装方法。
【請求項24】
前記非冗長セットにおける定量的表現型の各ペアが、上限閾値よりも低い絶対ペアワイズピアソン相関を有する、請求項23に記載のコンピュータ実装方法。
【請求項25】
前記上限閾値が、0.95である、請求項24に記載のコンピュータ実装方法。
【請求項26】
前記複数の定量的表現型における冗長な定量的表現型の各群の中から、前記非冗長セットに含めるために、最も多くのサンプルを有する表現型を選択することを更に含む、請求項24に記載のコンピュータ実装方法。
【請求項27】
前記複数の表現型が、複数のカテゴリ表現型に対応する、請求項1に記載のコンピュータ実装方法。
【請求項28】
前記複数のカテゴリ表現型におけるカテゴリ表現型が、臨床診断である、請求項27に記載のコンピュータ実装方法。
【請求項29】
薬物-表現型関連性を検出するために前記第2の回帰モデルを使用することを更に含む、請求項4に記載のコンピュータ実装方法。
【請求項30】
前記薬物-表現型関連性が、潜在的な望ましくない副作用及び所望の標的効果を含む、請求項29に記載のコンピュータ実装方法。
【請求項31】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリに、希少バリアントについての多遺伝子リスクスコアの生成で使用するための表現型測定値を補正するコンピュータ命令がロードされており、前記命令が、前記プロセッサ上で実行されると、
個体のコホートについて、かつ第1及び第2の時点について、
複数の表現型についての表現型測定値にアクセスすることと、
複数の交絡因子についての共変量測定値にアクセスすることと、
複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
前記共変量測定値に基づいて前記第1及び第2の時点についての前記表現型測定値を共変量補正し、それによって、前記第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
前記薬物使用パターンの各々について、前記共変量補正された表現型測定値に対する前記複数の薬物の使用に応答した表現型シフトを予測するために前記デルタを使用することと、
前記表現型シフトに基づいて前記第1の時点についての前記表現型測定値を薬物使用補正し、それによって、前記第1及び第2の時点についての薬物使用補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記薬物使用補正された表現型測定値を正規化して、前記第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記正規化された薬物使用補正された表現型測定値を共変量補正して、前記第1及び第2の時点についての共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、
前記共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアントについての多遺伝子リスクスコアを生成することと、を含むアクションを実装する、システム。
【請求項32】
希少バリアントについての多遺伝子リスクスコアの生成で使用するための表現型測定値を補正するコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサ上で実行されると、
個体のコホートについて、かつ第1及び第2の時点について、
複数の表現型についての表現型測定値にアクセスすることと、
複数の交絡因子についての共変量測定値にアクセスすることと、
複数の薬物についての薬物使用パターンにアクセスすることと、
表現型ごとに、
前記共変量測定値に基づいて前記第1及び第2の時点についての前記表現型測定値を共変量補正し、それによって、前記第1及び第2の時点についての共変量補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記共変量補正された表現型測定値間の差に基づいて、デルタを決定することと、
前記薬物使用パターンの各々について、前記共変量補正された表現型測定値に対する前記複数の薬物の使用に応答した表現型シフトを予測するために前記デルタを使用することと、
表現型シフト予測に基づいて前記第1及び第2の時点についての前記表現型測定値を薬物使用補正し、それによって、前記第1及び第2の時点についての薬物使用補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記薬物使用補正された表現型測定値を正規化して、前記第1及び第2の時点についての正規化された薬物使用補正された表現型測定値を生成することと、
前記第1及び第2の時点についての前記正規化された薬物使用補正された表現型測定値を共変量補正して、前記第1及び第2の時点についての共変量補正され正規化された薬物使用補正された表現型測定値を生成することと、
前記共変量補正され正規化された薬物使用補正された表現型測定値を使用して、希少バリアントについての多遺伝子リスクスコアを生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
【国際調査報告】