(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-19
(54)【発明の名称】年齢を決定するための方法およびデバイス
(51)【国際特許分類】
C12Q 1/6816 20180101AFI20220112BHJP
C12Q 1/6823 20180101ALI20220112BHJP
C12Q 1/6837 20180101ALI20220112BHJP
C12Q 1/6874 20180101ALI20220112BHJP
C12Q 1/6872 20180101ALI20220112BHJP
C12Q 1/6869 20180101ALI20220112BHJP
C12N 15/11 20060101ALI20220112BHJP
C12N 15/12 20060101ALI20220112BHJP
C12M 1/00 20060101ALI20220112BHJP
【FI】
C12Q1/6816 Z
C12Q1/6823 Z
C12Q1/6837 Z
C12Q1/6874 Z
C12Q1/6872 Z
C12Q1/6869 Z
C12N15/11 Z
C12N15/12
C12M1/00 A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021543580
(86)(22)【出願日】2019-10-08
(85)【翻訳文提出日】2021-05-18
(86)【国際出願番号】 EP2019077252
(87)【国際公開番号】W WO2020074533
(87)【国際公開日】2020-04-16
(32)【優先日】2018-10-08
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】521145303
【氏名又は名称】トーマス ヨット.ツェー. マッツェン ゲーエムベーハー
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】シーダリヒ, ティム
(72)【発明者】
【氏名】グル, シェラズ
(72)【発明者】
【氏名】ツァリアーニ, アンドレア
(72)【発明者】
【氏名】チャチュルスキ, ラウラ
(72)【発明者】
【氏名】クラウセン, カルステン
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029AA23
4B029FA15
4B063QA01
4B063QA20
4B063QQ08
4B063QQ42
4B063QR50
4B063QR55
(57)【要約】
本発明は、年齢の決定に関する。具体的には、本発明は、年齢指標を決定するための方法、および個体の年齢を決定するための方法に関する。前記方法は、ゲノムDNA配列のセットのDNAメチル化レベルを含むデータに基づく。前記年齢指標を、データにLeast Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を、好ましくはその後のステップワイズ回帰と組み合わせて適用することによって決定することが好ましい。さらに、本発明は、ゲノムDNA配列の集合および遺伝子セット、ならびに、個体の健康状態および/またはフィットネス状態を診断し、老化に影響を及ぼす分子を同定するための、それらの使用に関する。
【特許請求の範囲】
【請求項1】
年齢指標を決定するための方法であって、
(a)各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)前記訓練データセットに、Least Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用し、それにより、前記年齢指標および縮小訓練データセットを決定するステップであって、
独立変数が前記ゲノムDNA配列のメチル化レベルであり、好ましくは従属変数が前記年齢であり、
前記年齢指標が、
(i)集合としての前記ゲノムDNA配列のセットのサブセット、および
(ii)前記集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
前記縮小訓練データセットが、前記訓練データセットのうち、前記LASSOによって除外される前記ゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、ステップと
を含む方法。
【請求項2】
個体の年齢を決定するための方法であって、
(a)各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)前記訓練データセットに、Least Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用し、それにより、前記年齢指標および縮小訓練データセットを決定するステップであって、
独立変数が前記ゲノムDNA配列のメチル化レベルであり、好ましくは従属変数が前記年齢であり、
前記年齢指標が、
(i)集合としての前記ゲノムDNA配列のセットのサブセット、および
(ii)前記集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
前記縮小訓練データセットが、前記訓練データセットのうち、前記LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、ステップと、
(c)年齢が決定される個体について前記年齢指標に含まれるゲノムDNA配列の少なくとも80%、好ましくは100%に関するDNAメチル化レベルをもたらすステップと、
(d)前記個体の年齢を、そのDNAメチル化レベルおよび前記年齢指標に基づいて決定するステップと
を含み、
好ましくは前記決定された年齢が前記個体の暦年齢と異なり得る、方法。
【請求項3】
前記回帰法が、前記LASSOの後にステップワイズ回帰を適用することをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記ステップワイズ回帰を前記縮小訓練データセットに適用する、請求項3に記載の方法。
【請求項5】
前記年齢指標に含まれる前記集合が、前記ゲノムDNA配列のセットよりも小さい、請求項1から4のいずれかに記載の方法。
【請求項6】
前記年齢指標に含まれる前記集合が、前記縮小訓練データセットに含まれるゲノムDNA配列のセットよりも小さい、請求項1から5のいずれかに記載の方法。
【請求項7】
前記ステップワイズ回帰が双方向除外であり、統計学的に有意でない独立変数が除去され、好ましくは有意レベルが0.05である、請求項3から6のいずれかに記載の方法。
【請求項8】
前記LASSOを、biglasso Rパッケージを用いて、好ましくはコマンド「cv.biglasso」を適用することによって実施し、好ましくは「nfold」が20である、請求項1から7のいずれかに記載の方法。
【請求項9】
前記回帰法が、リッジ回帰(L2正則化)を含まないかまたは前記L2正則化パラメータ/ラムダパラメータが0である、請求項1から8のいずれかに記載の方法。
【請求項10】
前記LASSO L1正則化パラメータ/アルファパラメータが1である、請求項1から9のいずれかに記載の方法。
【請求項11】
各繰り返しにおいて少なくとも1つのさらなる個体のデータを前記訓練データに追加し、それにより、前記訓練データセットを繰り返し拡大することを含めて、前記年齢指標を繰り返し更新する、請求項1から10のいずれかに記載の方法。
【請求項12】
1回の更新ラウンドにおいて、さらなる個体のそれぞれに関する追加されるデータが、
(i)最初の訓練データセット、または拡大訓練データセットのいずれかに含まれるゲノムDNA配列のセットの少なくとも5%、好ましくは50%、より好ましくは100%、および/または
(ii)前記縮小訓練データセットに含有されるゲノムDNA配列
に関する前記個体のDNAメチル化レベルを含む、請求項11に記載の方法。
【請求項13】
前記拡大訓練データセットにデータを寄与する全ての個体に関して存在しないゲノムDNA配列(独立変数)は全て前記拡大訓練データセットから除去する、請求項11または12に記載の方法。
【請求項14】
1回の更新ラウンドにおいて、メチル化レベルが追加される前記ゲノムDNA配列のセットが、前記さらなる個体(複数可)のそれぞれについて同一である、請求項11から13のいずれかに記載の方法。
【請求項15】
1回の更新ラウンドが、前記LASSOを前記拡大訓練データセットに適用し、それにより、更新された年齢指標および/または更新された縮小訓練データセットを決定することを含む、請求項11から14のいずれかに記載の方法。
【請求項16】
前記少なくとも1つのさらなる個体に関するデータが追加される訓練データセットが、最初の縮小訓練データセット、または前記更新された縮小訓練データセットのいずれかであり得る縮小訓練データセットである、請求項11から15のいずれかに記載の方法。
【請求項17】
前記縮小訓練データセットが、前記繰り返しにおける前の縮小訓練データセットである、請求項16に記載の方法。
【請求項18】
1回の更新ラウンドが、前記ステップワイズ回帰を前記縮小訓練データセットに適用し、それにより、更新された年齢指標を決定することを含む、請求項11から17のいずれかに記載の方法。
【請求項19】
1回の更新ラウンドにおいて、少なくとも1つの個体に関するデータを前記訓練データセットおよび/または前記縮小訓練データセットから除去する、請求項1から18のいずれかに記載の方法。
【請求項20】
個体のデータの追加および/または除去が、前記個体の少なくとも1つの特徴に依存し、前記特徴が、民族、性別、暦年齢、居住地、出生地、少なくとも1つの疾患および/または少なくとも1つの生活様式因子であり、前記生活様式因子が、薬物消費、環境汚染物質への曝露、交代勤務またはストレスから選択される、請求項11から19のいずれかに記載の方法。
【請求項21】
前記年齢指標の質を決定し、前記質の決定が、
(a)前記訓練データセットにデータを寄与していない複数の個体に関する試験データセットを準備するステップであって、前記試験データセットが、前記個体のそれぞれについて、
(i)前記年齢指標に含まれるゲノムDNA配列のセットの前記DNAメチル化レベル、および
(ii)前記暦年齢
を含む、ステップと、
(b)前記年齢指標の質を統計学的評価および/またはドメイン境界の評価によって決定するステップであって、
前記統計学的評価が、
(i)前記試験データセットに含まれる個体の年齢を決定するステップと、
(ii)前記個体(複数可)の決定された年齢と暦年齢を相関させ、この相関を説明する少なくとも1つの統計学的パラメータを決定するステップと、
(iii)前記統計学的パラメータ(複数可)が、前記年齢指標の許容される質を示すものか否かを判定するステップであって、好ましくは前記統計学的パラメータが決定係数(R
2)および平均絶対誤差(MAE)から選択され、R
2が0.50よりも大きい、好ましくは0.70よりも大きい、好ましくは0.90よりも大きい、好ましくは0.98よりも大きいことおよび/またはMAEが6歳未満、好ましくは4歳未満、好ましくは最大1歳であることは、許容される質を示す、ステップと
を含み、
ドメイン境界の評価が、
(iv)前記年齢指標のドメイン境界を決定するステップであって、
前記ドメイン境界が、前記年齢指標に含まれる各ゲノムDNA配列の最小DNAメチル化レベルおよび最大DNAメチル化レベルであり、
前記最小DNAメチル化レベルおよび最大DNAメチル化レベルが、前記年齢指標を決定するために使用された訓練データセットにおいて見いだされる、
ステップと、
(v)前記試験データセットが前記ドメイン境界を超えるかどうかを決定するステップであって、前記ドメイン境界を越えないことは、許容される質を示す、ステップと
を含む、ステップと
を含む、請求項1から20のいずれかに記載の方法。
【請求項22】
前記訓練データセットおよび/または前記試験データセットが、少なくとも10の個体、好ましくは少なくとも30の個体、好ましくは少なくとも200の個体を含み、好ましくは前記訓練データセットが少なくとも200の個体を含み、かつ前記試験データセットが少なくとも30の個体を含む、請求項1から21のいずれかに記載の方法。
【請求項23】
前記年齢指標は、その質が許容されないものである場合には更新される、請求項21または22に記載の方法。
【請求項24】
前記個体の前記年齢は、当該個体のDNAメチル化レベル、および更新された年齢指標に基づいて決定される、請求項11から23のいずれかに記載の方法。
【請求項25】
前記個体のデータが前記年齢指標の生成に使用される訓練データセットに寄与していない場合には、当該個体の年齢が前記年齢指標のみを用いて決定される、請求項2から24のいずれかに記載の方法。
【請求項26】
前記データに含まれる個体の数が所定の値に達している、かつ/または前の更新から所定の時間が経過している場合には、前記年齢指標がさらに更新されない、請求項1から25のいずれかに記載の方法。
【請求項27】
前記訓練データセットに含まれるゲノムDNA配列のセットが、メチル化レベルを暦年齢に関連付けることができるゲノムDNA配列から事前選択されたものである、請求項1から26のいずれかに記載の方法。
【請求項28】
前記事前選択されたセットが、少なくとも400000、好ましくは少なくとも800000のゲノムDNA配列を含む、請求項27に記載の方法。
【請求項29】
前記訓練データセットに含まれるゲノムDNA配列が、互いに重複せず、かつ/または対立遺伝子当たり1度しか生じない、請求項1から28のいずれかに記載の方法。
【請求項30】
前記縮小訓練データセットが、少なくとも90、好ましくは少なくとも100、好ましくは少なくとも140のゲノムDNA配列を含む、請求項1から29のいずれかに記載の方法。
【請求項31】
前記縮小訓練データセットが、5000未満、好ましくは2000未満、好ましくは500未満、好ましくは350未満、好ましくは300未満のゲノムDNA配列を含む、請求項1から30のいずれかに記載の方法。
【請求項32】
前記年齢指標が、少なくとも30、好ましくは少なくとも50、好ましくは少なくとも60、好ましくは少なくとも80のゲノムDNA配列を含む、請求項1から31のいずれかに記載の方法。
【請求項33】
前記年齢指標が、300未満、好ましくは150未満、好ましくは110未満、好ましくは100未満、好ましくは90未満のゲノムDNA配列を含む、請求項1から32のいずれかに記載の方法。
【請求項34】
個体のゲノムDNA配列の前記DNAメチル化レベルが、前記ゲノムDNA配列を含む前記個体の生物材料の試料において測定されたものである、請求項1から33のいずれかに記載の方法。
【請求項35】
前記試料が、口腔細胞を含む、請求項34に記載の方法。
【請求項36】
試料を非侵襲的に得るステップをさらに含む、請求項34または35のいずれかに記載の方法。
【請求項37】
前記DNAメチル化レベルが、メチル化シーケンシング、バイサルファイトシーケンシング、PCR法、高分解能融解分析(HRM)、メチル化感受性一塩基プライマー伸長(MS-SnuPE)、メチル化感受性一本鎖コンフォメーション分析、メチル感受性切断計数(MSCC)、塩基特異的切断/MALDI-TOF、複合バイサルファイト制限分析(COBRA)、メチル化DNA免疫沈降(MeDIP)、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシングおよび/またはバイサルファイト処理を伴わない直接シーケンシング(ナノポア技術)によって測定されたものである、請求項34から36のいずれかに記載の方法。
【請求項38】
個体のゲノムDNA配列の前記DNAメチル化レベルが、塩基特異的切断/MALDI-TOFおよび/またはPCR法で測定されたものであり、塩基特異的切断/MALDI-TOFはAgena技術であり、好ましくは前記PCR法がメチル化特異的PCRである、請求項34から37のいずれかに記載の方法。
【請求項39】
前記年齢指標に含まれる前記ゲノムDNA配列の前記DNAメチル化レベルが、年齢が決定される個体の前記ゲノムDNA配列を含む生物材料の試料において決定されたものである、請求項34から38のいずれかに記載の方法。
【請求項40】
cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg27320127、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788、およびcg20088545のうちの少なくとも10種、好ましくは少なくとも50種、好ましくは少なくとも70種、好ましくは全て、または連続ヌクレオチド配列の少なくとも70%、好ましくは少なくとも90%を含むその断片を含むゲノムDNA配列の集合。
【請求項41】
cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg16677512、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg22077936、cg08044253、cg12548216、cg05211227、cg13759931、cg08686931、cg07955995、cg07529089、cg01520297、cg00087368、cg05087008、cg24724428、cg19112204、cg04525002、cg08856941、cg16465695、cg08097417、cg21628619、cg09460489、cg13460409、cg25642673、cg19702785、cg18506897、cg21165089、cg27540719、cg21807065、cg18815943、cg23677767、cg07802350、cg11176990、cg10321869、cg17343879、cg08662753、cg14911690、cg12804730、cg16322747、cg14231565、cg10501210、cg09275691、cg15008041、cg05812299、cg24319133、cg12658720、cg20576243、cg03473532、cg07381960、cg05106770、cg04320377、cg19432688、cg22519947、cg06831571、cg08194377、cg01636910、cg14305139、cg04028695、cg15743533、cg03680898、cg20088545、cg13333913、cg19301963、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625、およびcg23128025の少なくとも4種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは少なくとも70種、好ましくは全て、または連続ヌクレオチド配列の少なくとも70%、好ましくは少なくとも90%を含むその断片を含む、請求項39に記載のゲノムDNA配列の集合。
【請求項42】
cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625、およびcg23128025のうちの少なくとも4種、好ましくは少なくとも10種、好ましくは全てを含む、請求項41に記載のゲノムDNA配列の集合。
【請求項43】
cg11330075、cg00831672、cg27320127、cg10240079、cg02536625、およびcg23128025のうちの少なくとも4種、好ましくは全てを含む、請求項41または42に記載のゲノムDNA配列の集合。
【請求項44】
前記ゲノムDNA配列の集合に加えておよび/またはその代わりに、その相補配列を含む、請求項40から43のいずれかに記載のゲノムDNA配列の集合。
【請求項45】
SIM bHLH転写因子1(SIM1)、微小管関連タンパク質4(MAP4)、プロテインキナーゼCゼータ(PRKCZ)、グルタミン酸イオンチャネル型受容体AMPA型サブユニット4(GRIA4)、BCL10、免疫シグナル伝達アダプター(BCL10)、5’-ヌクレオチダーゼドメイン含有1(NT5DC1)、腫瘍形成能抑制7(ST7)、プロテインキナーゼCイータ(PRKCH)、グリア細胞由来神経栄養因子(GDNF)、ムスケリン1(MKLN1)、エクソシスト複合体成分6B(EXOC6B)、プロテインS(PROS1)、電位依存性カルシウムチャネルサブユニットアルファ1D(CACNA1D)、ケルチ様ファミリーメンバー42(KLHL42)、OTUデユビキチナーゼ7A(OTUD7A)、細胞死関連タンパク質(DAP)、コイルドコイルドメイン含有179(CCDC179)、ヨードチロニン脱ヨード酵素2(DIO2)、一過性受容体電位カチオンチャネルサブファミリーVメンバー3(TRPV3)、MT-RNR2様5(MTRNR2L5)、フィラミンB(FLNB)、フューリン、対塩基性アミノ酸切断酵素(FURIN)、溶質運搬体ファミリー25メンバー17(SLC25A17)、Gパッチドメイン含有1(GPATCH1)、UDP-GlcNAc:ベータGalベータ-1,3-N-アセチルグルコサミニルトランスフェラーゼ9(B3GNT9)、zyg-11ファミリーメンバーA、細胞周期調節因子(ZYG11A)、発作関連6ホモログ様(SEZ6L)、ミオシンX(MYO10)、アセチル-CoAカルボキシラーゼアルファ(ACACA)、Gタンパク質サブユニットアルファi1(GNAI1)、CUEドメイン含有2(CUEDC2)、ホメオボックスD13(HOXD13)、クルッペル様因子14(KLF14)、溶質運搬体ファミリー1メンバー2(SLC1A2)、アセトアセチルCoAシンテターゼ(AACS)、アンキリンリピートおよび無菌アルファモチーフドメイン含有1A(ANKS1A)、マイクロRNA 7641-2(MIR7641-2)、V型コラーゲンアルファ1鎖(COL5A1)、亜ヒ酸塩メチルトランスフェラーゼ(AS3MT)、溶質運搬体ファミリー26メンバー5(SLC26A5)、ヌクレオポリン107(NUP107)、長鎖遺伝子間タンパク質ノンコーディングRNA1797(LINC01797)、ミオシンIC(MYO1C)、アンキリンリピートドメイン37(ANKRD37)、ホスホジエステラーゼ4C(PDE4C)、EFハンドドメイン含有1(EFHC1)、特徴不明のLOC375196(LOC375196)、ELOVL脂肪酸エロンガーゼ2(ELOVL2)、WASタンパク質ファミリーメンバー3(WASF3)、17番染色体オープンリーディングフレーム82(C17orf82)、Gタンパク質共役型受容体158(GPR158)、Fボックスおよびロイシンリッチリピートタンパク質7(FBXL7)、リプリー転写リプレッサー3(RIPPLY3)、ESCRT-IのVPS37Cサブユニット(VPS37C)、ポリペプチドN-アセチルガラクトサミン転移酵素様6(GALNTL6)、DENNドメイン含有3(DENND3)、核受容体コリプレッサー2(NCOR2)、内皮PASドメインタンパク質1(EPAS1)、PBXホメオボックス4(PBX4)、長鎖遺伝子間タンパク質ノンコーディングRNA1531(LINC01531)、配列類似性を有するファミリー110メンバーA(FAM110A)、グリコシルトランスフェラーゼ8ドメイン含有1(GLT8D1)、Gタンパク質サブユニットガンマ2(GNG2)、MT-RNR2様3(MTRNR2L3)、ジンクフィンガータンパク質140(ZNF140)、ras1のキナーゼ抑制因子(KSR1)、タンパク質ジスルフィドイソメラーゼファミリーAメンバー5(PDIA5)、精子形成関連7(SPATA7)、パントテン酸キナーゼ1(PANK1)、ユビキチン特異的ペプチダーゼ4(USP4)、Gタンパク質サブユニットアルファq(GNAQ)、電位依存性カリウムチャネル修飾因子サブファミリーSメンバー1(KCNS1)、DNAポリメラーゼガンマ2、アクセサリーサブユニット(POLG2)、ストークヘッドボックス2(STOX2)、ニューレキシン3(NRXN3)、BMS1、リボソーム生合成因子(BMS1)、フォークヘッドボックスE3(FOXE3)、NADH:ユビキノンオキシドレダクターゼサブユニットA10(NDUFA10)、レラキシンファミリーペプチド受容体3(RXFP3)、GATA結合性タンパク質2(GATA2)、イソプレノイドシンターゼドメイン含有(ISPD)、アデノシンデアミナーゼ、RNA特異的B1(ADARB1)、Wntファミリーメンバー7B(WNT7B)、プレクストリンおよびSec7ドメイン含有3(PSD3)、膜アンカー型ジャンクションタンパク質(MAJIN)、ピリジンヌクレオチド-ジスルフィドオキシドレダクターゼドメイン1(PYROXD1)、シンギュリン様1(CGNL1)、7番染色体オープンリーディングフレーム50(C7orf50)、MORNリピート含有1(MORN1)、アトラスチンGTPアーゼ2(ATL2)、WDリピートおよびFYVEドメイン含有2(WDFY2)、膜貫通タンパク質136(TMEM136)、イノシトールポリリン酸-5-ホスファターゼA(INPP5A)、TBC1ドメインファミリーメンバー9(TBC1D9)、インターフェロン調節因子2(IRF2)、サーチュイン7(SIRT7)、XXIII型コラーゲンアルファ1鎖(COL23A1)、グアニン一リン酸シンターゼ(GMPS)、カリウム2孔ドメインチャネルサブファミリーKメンバー12(KCNK12)、SIN3-HDAC複合体関連因子(SINHCAF)、ヘモグロビンサブユニットイプシロン1(HBE1)、ならびにチューダードメイン含有1(TDRD1)のうちの少なくとも10種、好ましくは少なくとも30種、好ましくは少なくとも50種、好ましくは少なくとも70種、好ましくは全てを含む遺伝子セット。
【請求項46】
ISPD、KCNK12、GNG2、SIRT7、GPATCH1、GRIA4、LINC01531、LOC101927577、NCOR2、WASF3、TRPV3、ACACA、GDNF、EFHC1、MYO10、COL23A1、TDRD1、ELOVL2、GNAI1、MAP4、CCDC179、KLF14、ST7、INPP5A、SIM1、SLC1A2、AS3MT、KSR1、DSCR6、IRF2、KCNS1、NRXN3、C11orf85、HBE1、FOXE3、TMEM136、HOXD13、LOC375196、PANK1、MIR107、COL5A1、PBX4、ZNF140、GALNTL6、NUP107、LOC100507250、MTRNR2L5、C17orf82、MKLN1、FURIN、KLHL42、MORN1、ANKS1A、BCL10、DENND3、FAM110A、PROS1、WNT7B、FBXL7、GATA2、VPS37C、NRP1、POLG2、ANKRD37、GMPS、およびWDFY2のうちの少なくとも5種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは全てを含む、請求項45に記載の遺伝子セット。
【請求項47】
微小管関連タンパク質4(MAP4)、プロテインキナーゼCゼータ(PRKCZ)、グルタミン酸イオンチャネル型受容体AMPA型サブユニット4(GRIA4)、腫瘍形成能抑制7(ST7)、プロテインキナーゼCイータ(PRKCH)、電位依存性カルシウムチャネルサブユニットアルファ1D(CACNA1D)、細胞死関連タンパク質(DAP)、一過性受容体電位カチオンチャネルサブファミリーVメンバー3(TRPV3)、フューリン、対塩基性アミノ酸切断酵素(FURIN)、アセチル-CoAカルボキシラーゼアルファ(ACACA)、Gタンパク質サブユニットアルファi1(GNAI1)、溶質運搬体ファミリー1メンバー2(SLC1A2)、ホスホジエステラーゼ4C(PDE4C)、ELOVL脂肪酸エロンガーゼ2(ELOVL2)、核受容体コリプレッサー2(NCOR2)、内皮PASドメインタンパク質1(EPAS1)、Gタンパク質サブユニットガンマ2(GNG2)、パントテン酸キナーゼ1(PANK1)、ユビキチン特異的ペプチダーゼ4(USP4)、Gタンパク質サブユニットアルファq(GNAQ)、電位依存性カリウムチャネル修飾因子サブファミリーSメンバー1(KCNS1)、DNAポリメラーゼガンマ2、アクセサリーサブユニット(POLG2)、NADH:ユビキノンオキシドレダクターゼサブユニットA10(NDUFA10)、レラキシンファミリーペプチド受容体3(RXFP3)、イソプレノイドシンターゼドメイン含有(ISPD)、イノシトールポリリン酸-5-ホスファターゼA(INPP5A)、サーチュイン7(SIRT7)、グアニン一リン酸シンターゼ(GMPS)、SIN3-HDAC複合体関連因子(SINHCAF)、チューダードメイン含有1(TDRD1)のうちの少なくとも5種、好ましくは少なくとも10種、好ましくは少なくとも20種、好ましくは全てを含む、請求項45に記載の遺伝子セット。
【請求項48】
前記ゲノムDNA配列の集合が、請求項2から39に記載の方法による縮小訓練データセットおよび/または年齢指標に含まれ、
前記遺伝子セットが、タンパク質、またはマイクロRNAもしくは長鎖ノンコーディングRNAをコードする前記ゲノムDNA配列の集合から選択することによって得られる、
請求項2から39に記載の方法によって得られる請求項40から44のいずれかに記載のゲノムDNA配列の集合または請求項45から47のいずれかに記載の遺伝子セット。
【請求項49】
個体の健康状態の診断における使用のための、請求項40から44または48に記載のゲノムDNA配列の集合、または請求項45から48のいずれかに記載の遺伝子セット。
【請求項50】
前記健康状態が、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんの状態を含み、
前記状態は、前記疾患、または疾患に関連付けられる表現型の非存在、存在、またはステージを示す、
請求項49に記載の使用のためのゲノムDNA配列の集合または遺伝子セット。
【請求項51】
前記老化関連疾患が、アルツハイマー病、パーキンソン病、アテローム性動脈硬化症、心血管疾患、がん、関節炎、白内障、骨粗鬆症、2型糖尿病、高血圧症、老化黄斑変性症および/または良性前立腺肥大症である、請求項50に記載の使用のためのゲノムDNA配列の集合または遺伝子セット。
【請求項52】
個体のフィットネス状態を決定するための、請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または請求項45から48のいずれかに記載の遺伝子セットの使用。
【請求項53】
前記フィットネス状態が、前記個体の血圧、体重、免疫細胞のレベル、炎症のレベルおよび/または認知機能を含む、請求項52に記載の使用。
【請求項54】
個体の健康状態および/またはフィットネス状態を診断するための方法であって、請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または請求項45から48のいずれかに記載の遺伝子セットを準備するステップを含む方法。
【請求項55】
前記ゲノムDNA配列を含む前記個体の生体試料中の前記ゲノムDNA配列のメチル化レベルを決定するステップをさらに含む、請求項54に記載の方法。
【請求項56】
前記健康状態が、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんの状態を含み、
好ましくは前記老化関連疾患が、アルツハイマー病、パーキンソン病、アテローム性動脈硬化症、心血管疾患、がん、関節炎、白内障、骨粗鬆症、2型糖尿病、高血圧症、老化黄斑変性症および/または良性前立腺肥大症であり、かつ/または
前記フィットネス状態が、前記個体の血圧、体重、免疫細胞のレベル、炎症のレベルおよび/または認知機能を含む、
請求項54または55に記載の方法。
【請求項57】
前記生体試料が、非侵襲的に、好ましくは頬スワブによって得たものである、請求項55または56に記載の方法。
【請求項58】
老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法であって、請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または請求項45から48のいずれかに記載の遺伝子セットを準備するステップを含み、
前記分子が、個体に投与されると、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんを好転させる、防止するおよび/または逆転させるものである、方法。
【請求項59】
前記ゲノムDNA配列のうちの少なくとも1つのDNAメチル化レベルを決定するステップをさらに含む、請求項58に記載の方法。
【請求項60】
同定された分子が、個体に投与されると、前記個体における前記ゲノムDNA配列のうちの少なくとも1つのDNAメチル化レベルを上昇させ、かつ/または、前記個体における前記ゲノムDNA配列のうちの少なくとも1つのDNAメチル化レベルを低下させるものである、請求項58または59に記載の方法。
【請求項61】
前記DNAメチル化レベルが、変更前よりも若い暦年齢に関連付けられるように変更される、請求項60に記載の方法。
【請求項62】
請求項45から48に記載の遺伝子セットを準備し、前記遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を決定するステップをさらに含む、請求項58から61のいずれかに記載の方法。
【請求項63】
前記同定された分子が、前記遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を阻害し、かつ/または、前記遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を増強するものである、請求項62に記載の方法。
【請求項64】
前記タンパク質活性が、変更前よりも若い暦年齢に関連付けられるように変更される、請求項63に記載の方法。
【請求項65】
請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または請求項45から48のいずれかに記載の遺伝子セットをスポットとして含むチップであって、各配列が、別々のスポットに含有される、チップ。
【請求項66】
少なくとも1つの独特のプライマー対を含むキットであって、
各プライマー対のうち一方のプライマーが、請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは請求項45から48のいずれかに記載の遺伝子セットに含まれる遺伝子のうちの1つのリバース鎖に結合するフォワードプライマーであり、他方のプライマーが、フォワード鎖に結合するリバースプライマーであり、
前記フォワードプライマーおよびリバースプライマーの3’末端と相補的な2つのヌクレオチドが、30ヌクレオチド超3000ヌクレオチド未満、好ましくは1000ヌクレオチド未満離れている、
キット。
【請求項67】
請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは請求項45から48のいずれかに記載の遺伝子セットに含まれる遺伝子のうちの1つと相補的なプローブを少なくとも1つ含むキット。
【請求項68】
前記プライマーまたはプローブが、メチル化されたDNAまたはメチル化されていないDNAのいずれかに特異的に結合し、メチル化されていないシトシンが、ウラシルに変換されている、請求項65または66に記載のキット。
【請求項69】
請求項65に記載のチップを含むキット。
【請求項70】
生物材料用の容器および/または頬スワブ用の材料をさらに含む、請求項51から57のいずれかに記載のキット。
【請求項71】
生体試料からゲノムDNAを抽出し、精製し、かつ/または増幅するための材料をさらに含み、前記材料が、スピンカラムおよび/または酵素である、請求項66から70のいずれかに記載のキット。
【請求項72】
亜硫酸水素塩をさらに含む、請求項66から71のいずれかに記載のキット。
【請求項73】
請求項2から39のいずれかに記載の方法、請求項40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、および/または請求項45から48のいずれかに記載の遺伝子セットによって得られた年齢指標を含むデータキャリア。
【請求項74】
年齢が決定される個体に関する調査票をさらに含み、前記調査票が、無記入であり得るまたは前記個体に関する情報を含み得る、請求項66から72のいずれかに記載のキットまたは請求項73に記載のデータキャリア。
【請求項75】
前記訓練データセット、縮小訓練データセットおよび/または追加されたデータが、前記個体(複数可)に関連付けることができる生活様式またはリスクパターンに関する少なくとも1つの因子をさらに含む、請求項1から39のいずれかに記載の方法。
【請求項76】
前記因子が、薬物消費、環境汚染物質、交代勤務およびストレスから選択される、請求項75に記載の方法。
【請求項77】
前記訓練データセットおよび/または前記縮小訓練データセットが、DNAメチル化レベルおよび/またはコードされるタンパク質の活性/レベルが前記生活様式因子のうちの少なくとも1つに関連付けられる配列に限定される、請求項75または76に記載の方法。
【請求項78】
前記個体の決定された年齢と暦年齢の差に関連付けられる少なくとも1つの生活様式因子を決定するステップをさらに含む、請求項75から77のいずれかに記載の方法。
【請求項79】
一連の個体中の個体に対する年齢指標を決定する方法であって、前記決定が、前記個体において見いだされるゲノムDNA配列のメチル化のレベルに基づくものであり、
前記個体の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列のセットから選択されるゲノムDNA配列の集合のメチル化レベルに基づいて、
前記個体についての年齢指標が、複数の個体についてのゲノムDNA配列のメチル化のレベルの統計学的評価に依拠する様式でもたらされる、方法において、
前記個体についての前記年齢指標が、一連の個体の中で先行する個体について同じ年齢指標を決定するために使用した先行する統計学的評価のために参照した複数の個体とは異なる複数の個体についてのゲノムDNA配列のメチル化のレベルの統計学的評価に依拠する様式でもたらされ、
第1の統計学的評価のために使用された複数の個体が、少なくとも、一連の個体からの追加的な先行する少なくとも1つの個体が含められることによって修正されるという点で、前記複数の個体に差異が生じ、
好ましくは前記個体についての前記年齢指標が、2つの異なる複数の個体についての少なくとも2つの異なる統計学的評価の結果、集合のメチル化レベルから前記年齢指標を算出した場合に使用した少なくとも1つの係数に変化が生じ、かつ/または見いだされる異なるゲノムDNA配列またはCgP遺伝子座のメチル化のレベルが考慮される様式でもたらされる
ことを特徴とする方法。
【請求項80】
前記個体の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列からゲノムDNA配列のセットを準備するステップと、
複数の個体について、前記セットのゲノムDNA配列のメチル化のレベルを決定するステップと、
前記セットからゲノムDNA配列の集合を選択するステップであって、
前記集合内のゲノムDNA配列の数が前記セット内のゲノムDNA配列の数よりも少ないかまたはそれと等しくなり、
かつ
前記集合の配列のメチル化レベルに基づいて前記個体の年齢を算出することができる
ように選択するステップと、
前記個体由来の生物材料の試料において、少なくとも前記集合の配列のメチル化のレベルを決定するステップと、
前記集合の配列のメチル化のレベルに基づいて前記個体の年齢を算出するステップと、
特に、統計学的評価を考慮して、前記集合のゲノムDNA配列を再選択する必要があるか否か、および/または前記個体の年齢をメチル化のレベルに基づいて算出するやり方を変更すべきか否かを判定するステップと、
前記判定に応じて、前記個体を含むように個体の群を修正するステップと、
修正された群の個体のメチル化のレベルの決定に基づいて前記セットからゲノムDNA配列の集合を再選択するステップ
および/または
集合のメチル化レベルから前記年齢指標を算出した場合に使用した少なくとも1つの係数を変化させるステップ
のうちの少なくとも1つと
を含む、個体において見いだされるゲノムDNA配列のメチル化のレベルに基づく、請求項79に記載の個体の年齢を決定する方法。
【請求項81】
前記個体の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列からゲノムDNA配列のセットを事前選択するステップと、
複数の個体について、前記事前選択されたゲノムDNA配列のメチル化のレベルを決定するステップと、
前記事前選択されたセットからゲノムDNA配列の集合を選択するステップであって、
前記集合内のゲノムDNA配列の数が前記事前選択されたセット内のゲノムDNA配列の数よりも少なくなり、
前記集合の配列のメチル化レベルに基づいて前記個体の年齢を算出することができ、
かつ
算出された年齢に関する統計学的評価は、前記算出された年齢の許容される質を示す
ように選択するステップと、
前記個体由来の生物材料の試料において前記集合の配列のメチル化のレベルを決定するステップと、
前記集合の配列のメチル化のレベルに基づいて前記個体の年齢を算出するステップと、
前記算出された年齢の質の統計学的評価基準を算出するステップと、
前記統計学的評価基準に従った質が許容されるものであるか否かを判定するステップと、
前記質が許容されるものと判断された場合、前記個体の算出された年齢を出力するステップと、
前記質が許容できないものと判断された場合、ゲノムDNA配列を再選択する必要があることを決定するステップと、
前記個体を含むように個体の群を修正するステップと、
修正された群の個体のメチル化のレベルの決定に基づいて、ゲノムDNA配列の集合を前記事前選択されたサブセットから再選択するステップと
を含む、請求項80に記載の個体の年齢を決定する方法。
【請求項82】
ゲノムDNA配列の選択が、前記個体のゲノムDNA配列のメチル化レベル、特に、関連性のあるCpG遺伝子座を同定するための少なくとも1つの回帰法、特に、関連性のあるCpGを同定するための主成分分析、LASSO/elastic net回帰および/またはXPG Boost法のうちの少なくとも1つを使用した統計解析に関する値の統計解析に基づく、前記請求項のうち一項に記載の年齢を決定する方法。
【請求項83】
前記事前選択されたセットが、
少なくとも90のゲノムDNA配列、
好ましくは少なくとも100のゲノムDNA配列、
特に好ましくは少なくとも140のゲノムDNA配列
を含み、
かつ/または
前記事前選択されたセットが、
2000未満のゲノムDNA配列、
特に500未満のゲノムDNA配列、
特に350未満のゲノムDNA配列、
特に170未満のゲノムDNA配列、
特に150未満のゲノムDNA配列
を含み、
かつ/または
前記選択された集合が、
少なくとも30のゲノムDNA配列、
好ましくは少なくとも50のゲノムDNA配列、
特に好ましくは少なくとも60のゲノムDNA配列
を含み、
かつ/または
前記選択された集合が、
150未満のゲノムDNA配列、
特に110未満のゲノムDNA配列、
特に100未満のゲノムDNA配列、
特に90未満のゲノムDNA配列、
特に80未満のゲノムDNA配列、
特に70未満のゲノムDNA配列
を含む、
前記請求項のうち一項に記載の年齢を決定する方法。
【請求項84】
暦年齢と生物学的年齢の差異を評価するための方法であって、
前記方法請求項のうちの一項に従って、メチル化レベルに基づく年齢を決定するステップと、
決定された生物学的年齢を既知の暦年齢と比較するステップであって、
特に、
複数の個体について差異を決定し、複数の個体について前記差異に影響を及ぼす可能性も影響を及ぼさない可能性もある因子を決定し、多数の個体において暦年齢と前記生物学的年齢の差異に対して大きな影響を持つ因子を決定する、ステップと
を含む方法。
【請求項85】
1つの固定された集合のものよりも多くのCpG遺伝子座のメチル化レベルを決定し、
1つよりも多くの集合について、前記年齢指標の決定を可能にするデータを、年齢をそれぞれのデータに基づいて算出することができるように準備し、
前記年齢を算出するための1つの集合の選択を、測定された前記個体のある特定のメチル化レベル、または前記個体に関連付けることができる生活様式もしくはリスクパターンに関する因子のいずれかに基づいて行う、
前記請求項のうちの一項に記載の方法。
【請求項86】
前記個体において見いだされるゲノムDNA配列のメチル化のレベルを、
メチル化シーケンシング/バイサルファイトシーケンシング、
PCR法、特に、メチル化特異的PCR(MSP)、リアルタイムメチル化特異的PCR、定量的メチル化特異的PCR(QMSP)、COLD-PCR、メチル化DNA特異的結合性タンパク質を使用したPCR、標的化多重PCR、リアルタイムPCRおよびマイクロアレイに基づくPCRのうちの少なくとも1つ、
高分解能融解分析(HRM)、
メチル化感受性一塩基プライマー伸長(MS-SnuPE)、
メチル化感受性一本鎖コンフォメーション分析、
メチル感受性切断計数(MSCC)、
塩基特異的切断/MALDI-TOF、例えばAgena、
複合バイサルファイト制限分析(COBRA)、
メチル化DNA免疫沈降(MeDIP)、
マイクロアレイに基づく方法、
ビーズアレイに基づく方法、
パイロシーケンシング、バイサルファイト処理を伴わない直接シーケンシング(ナノポア技術)
のうちの少なくとも1つによって測定する、前記請求項のうちの一項に記載の年齢を決定する方法。
【請求項87】
前記個体の群を、前記個体を前記群に追加することによって修正する、前記請求項のうちの一項に記載の年齢を決定する方法。
【請求項88】
前記個体を含むように前記個体の群を修正するステップが、個体の年齢および/または個体のゲノムDNA配列の一部もしくは全部のメチル化レベルとは無関係の因子を特に考慮して、少なくとも1つの他の個体を前記群から除外することを含む、前記請求項のうちの一項に記載の年齢を決定する方法。
【請求項89】
以下の条件:
前記ゲノムDNA配列において検出されたメチル化レベルの一部または全部が低すぎるとみなされる、
単一の個体の予測年齢が前記個体の既知の暦年齢からあまりにもかけ離れている、
いくつかの個体の予測年齢がいくつかの個体の既知の暦年齢からの系統偏差を示す、
いくつかの個体の予測年齢が前記個体の既知の暦年齢のあちこちに散らばっており、分散が大きすぎるとみなされる、
いくつかの個体の予測年齢が前記個体の既知の暦年齢からの系統偏差を示す、
所与の集合に基づいて年齢が決定された個体の数が所定の数に達した、
前の再選択から指定時間が経過した
のうちの少なくとも1つまたは好ましくはいくつかが満たされた場合、追加的な個体について得られたメチル化レベルに基づいて前記集合を変更する決定を行う、前記請求項のうちの一項に記載の年齢を決定する方法。
【請求項90】
前記方法の請求項のうちの一項に従って年齢を決定することが可能になる様式で得られたおよび/または調製された個体の生物材料用の容器を少なくとも含むキットであって、患者の同定に関する情報を保有する情報媒体も含み、
前記方法の請求項のうちの一項に記載の方法を実行するためのもしくはどのように実行されたか、および/または、前記方法の請求項に記載の方法によって決定された年齢関連データを含むデータキャリアを作製するためのデータを準備するため、
および/または、前記方法の請求項に記載の方法によって決定された年齢関連データを含むデータキャリアを準備するための指示をさらに含む、キット。
【請求項91】
老化に影響を及ぼすことに関していくつかの分子をスクリーニングする方法であって、特に請求項79に記載の方法において集合のために選択されたゲノムDNA配列を参照することにより、生物学的年齢とよく相関するいくつかのゲノムDNA配列を決定するステップと、前記いくつかの分子のうちのある分子が、前記ゲノムDNA配列のメチル化レベルに対する正の効果を有するかどうかを、特にin-silicoにおける決定によって決定するステップとを含む方法。
【請求項92】
メチル化レベルの決定における使用のために適合させたいくつかのスポット、特に500未満、好ましくは385未満、特に193未満、特に160未満のスポットを含むチップであって、前記スポットが、cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788、およびcg20088545のうちの少なくとも1つのメチル化レベルの決定において使用するために特異的に適合させた少なくとも1つのスポットおよび好ましくはいくつかのスポットを含む、チップ。
【請求項93】
前記スポットが、前記請求項に列挙されているCpG遺伝子座に対して少なくとも10スポット、好ましくは前記請求項に列挙されているCpG遺伝子座に対して20スポット、特に、前記請求項に列挙されているCpG遺伝子座に対して少なくとも50スポット、特に、前記請求項に列挙されているCpG遺伝子座の全てに対するスポットを含む、請求項92に記載のチップ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、年齢の決定に関する。具体的には、本発明は、年齢指標を決定するための方法、および個体の年齢を決定するための方法に関する。前記方法は、ゲノムDNA配列のセットのDNAメチル化レベルを含むデータに基づく。前記年齢指標を、データにLeast Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を、好ましくはその後のステップワイズ回帰と組み合わせて適用することによって決定することが好ましい。さらに、本発明は、ゲノムDNA配列の集合および遺伝子セット、ならびに、個体の健康状態および/またはフィットネス状態を診断し、老化に影響を及ぼす分子を同定するための、それらの使用に関する。さらなる態様では、本発明は、チップまたはキット、特に、前記ゲノムDNA配列の集合のDNAメチル化レベルを検出するために使用することができるチップまたはキットに関する。
【背景技術】
【0002】
ヒトが年を取ると、その体が、例えば歯、関節の摩耗、筋力低下、知力低下などに関してさまざまに変化する。しかし、健康は一般に人が年を取るにつれて低下するが、誕生日が同じ人でさえ、なお健康には個体間で大きな差異が存在する。したがって、一部の人は他の人よりも老化が速い。
【0003】
また、双生児の一生を観察した試験において、遺伝物によって決定される平均寿命は約25%のみであり、寿命の変動の残りの75%は生活様式および環境因子が占めることが見いだされている。
【0004】
いくつかの疾患は、ヒトにおいて暦年齢が進むにしたがってより頻繁に生じることが見いだされている。しかし、暦年齢は、多くの場合「生物学的年齢」と称される個体の老化に伴う健康状態の理想的な指標ではない。生物学的年齢とより類似した年齢を決定することは、個体がアルツハイマー病などの老化関連疾患に関して高リスクを有するか否かの評価に役立ち得る。決定された年齢が暦年齢よりも高い場合、老化関連疾患の過程を防止するまたは緩徐化するために、予防措置、例えば、生活様式の変化を指示することができる。代替年齢の決定はまた、診断を改善するため、例えば、老化関連疾患に焦点を当てるべきか否かを評価するためにも有用であり得る。
【0005】
さらに、個体の暦年齢が分からない場合、同じではないにもかかわらず、代替年齢を暦年齢の指標として使用することができる。代替年齢の決定が生体試料に基づくものである場合、当該代替年齢を、例えば、法医学においても、犯罪現場において犯罪者の血痕が見いだされる場合に使用することができる。
【0006】
ある特定の個体の群、例えば、栄養摂取などに関して特定の地域の習慣を有するある特定の国に住む人は他の人よりも老化が遅いこともさらに提唱されている。異なる群の個体の年齢を決定することが、生物学的年齢に影響を及ぼす因子の同定に役立ち得る。Alegria-Torres et al., Epigenomics, 2011 June; 3(3): 267-277を参照されたい。
【0007】
暦年齢と暦年齢とは異なる年齢の両方が既知の場合に示され得るのは絶対値ではなく暦年齢との差異であることに留意する。
【0008】
ヒトの年齢を、その個体において見いだされるゲノムDNA配列のメチル化のレベルに基づいて決定することが提案されている。特に、WO2012/162139を参照されたい。WO2012/162139では、指定のCG遺伝子座の大きな群から選択される、ゲノムDNAにおけるCG遺伝子座の1つまたは複数のシトシンメチル化を観察することが提案されている。
【0009】
追加的なCpG遺伝子座が列挙されているWO2015/048665も参照されたい。
【0010】
文献WO2012/162139では、例えば、様々な暦年齢の100個体の参照(訓練)データセットを、特定の技術プラットフォームおよび組織を使用して収集し、次いで、各個体について得られたCpG遺伝子座のメチル化レベルを含むこの参照データセットに当てはまる特定の多変量線形モデルを設計することができることも提案されている。係数の推定に関しては、例えば、最小二乗回帰が提案されている。次いで、各CpG遺伝子座に割り当てられた係数を使用して、訓練データセットには含まれない個体の未知の代替年齢を決定する。これらの係数の決定に「一個抜き解析」を使用することが提案されている。そのような「一個抜き解析」では、参照データセットの1つを除いて全ての対象に多変量回帰モデルを当てはめ、次いで、予測を残された対象の暦年齢と比較する。また、WO2012/162139では、モデルの正確度を改善するために上位の予測因子についてスクリーニングする試験が提案されている。
【0011】
それにもかかわらず、非常に多数のCpG遺伝子座の使用、および、非常に多数の対応するメチル化レベル測定値から年齢指標を導き出す実質的な実験的なコンピュータによる取り組みにもかかわらず、WO2012/162139によって得られる平均正確度はなお3~5歳の範囲にしか入らないと述べられている。これにより、現行の年齢決定方法の正確度および/または効率が最適以下であることが実証される。
【0012】
さらに、多数のメチル化レベルを測定および評価することには費用がかかる。
この点において、ヒトゲノムにおいて見いだすことができるCpG遺伝子座は約2800万種であることに留意すべきである。これらのCpG遺伝子座の一部のメチル化レベルは老化による影響を受けない可能性があると考えられるとしても、メチル化レベルが年齢の影響を受けるCpG遺伝子座が非常に多く残る。メチル化レベルの決定に使用される検出方法が時間を経て改善され、それにより、ますます多くのCpG遺伝子座のメチル化レベルを決定することが可能になり得ると考えられるが、現在すでに少なくともおよそ800.000(800000)種のCpG遺伝子座のメチル化レベルを市販の機器および方法を使用して決定することが可能である。それでも、そのような測定には費用がかかり、したがって、非常に多数のCpG遺伝子座の測定に基づいて年齢を決定することにも非常に費用がかかることになる。したがって、現行の年齢決定方法は、数百種のCpG遺伝子座に基づく。しかし、数百種のCpG遺伝子座に基づいて年齢を決定するために必要とされる費用、設備および専門知識がなお現行の年齢決定方法の広くいきわたった使用の障害となっている。
【先行技術文献】
【非特許文献】
【0013】
【非特許文献1】Alegria-Torres et al., Epigenomics, 2011 June; 3(3): 267-277
【発明の概要】
【発明が解決しようとする課題】
【0014】
したがって、改善された年齢決定方法が必要とされている。特に、必要なデータ入力が少ないが正確度は少なくともほぼ同じである改善された年齢決定方法が必要とされている。
【0015】
老化関連疾患もしくはがん、または老化関連疾患もしくはがんに関連する表現型を処置または防止するための薬物をスクリーニングするための改善された手段がさらに必要とされている。特に、そのような手段はまた、個体の健康状態またはフィットネス状態の診断にも望ましい。
【0016】
費用効果が大きい様式で年齢を決定することも望ましい。
【0017】
極めて費用効果が大きいものではなく、かつ/または極めて厳密ではないとしても、少なくとも他の年齢決定の方法を独立して評価することを可能にする年齢の決定を可能にすることも望ましいと思われる。言い換えれば、決定された年齢を他の年齢指標を用いて検証するために使用することができる代替年齢指標が必要とされている。そのような交差検証は診断において非常に重要である。
【課題を解決するための手段】
【0018】
上記の技術的な問題に対処する手段を特許請求の範囲に提示し、また本明細書において以下に概説する。
【0019】
その最も広範な態様では、本発明は、年齢指標を決定するための方法、個体の年齢を決定するための方法、および/またはゲノムDNA配列の集合に関する。
【0020】
特に、本発明および本明細書に提示される年齢指標を決定するための方法は、
(a)複数の個体の訓練データセットであって、各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)訓練データセットにLeast Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用し、それにより、年齢指標および縮小訓練データセットを決定するステップであって、
独立変数がゲノムDNA配列のメチル化レベルであり、好ましくは従属変数が年齢であり、
年齢指標が、
(i)集合としてのゲノムDNA配列のセットのサブセット、および
(ii)集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
縮小訓練データセットが、訓練データセットのうち、LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、
ステップと
を含む。
【0021】
特に、個体の年齢を決定するための方法は、
(a)複数の個体の訓練データセットであって、各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)訓練データセットにLeast Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用し、それにより、年齢指標および縮小訓練データセットを決定するステップであって、
独立変数がゲノムDNA配列のメチル化レベルであり、好ましくは従属変数が年齢であり、
年齢指標が、
(i)集合としてのゲノムDNA配列のセットのサブセット、および
(ii)集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
縮小訓練データセットが、訓練データセットのうち、LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、
ステップと、
(c)年齢が決定される個体について年齢指標に含まれるゲノムDNA配列の少なくとも80%、好ましくは100%に関するDNAメチル化レベルをもたらすステップと、
(d)個体の年齢をそのDNAメチル化レベルおよび年齢指標に基づいて決定するステップと、
を含み、
好ましくは決定された年齢は、個体の暦年齢と異なり得る。
【0022】
特に、ゲノムDNA配列の集合は、cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg27320127、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788、およびcg20088545のうちの少なくとも1種、好ましくは少なくとも10種、好ましくは少なくとも50種、好ましくは少なくとも70種、好ましくは全て、または連続ヌクレオチド配列の少なくとも70%、好ましくは少なくとも90%を含むその断片を含む。
【0023】
好ましくは前記ゲノムDNA配列の集合が縮小訓練データセットおよび/または前記年齢指標を決定するための方法によって得られた年齢指標に含まれる。
【0024】
さらに好ましい態様では、本発明は、SIM bHLH転写因子1(SIM1)、微小管関連タンパク質4(MAP4)、プロテインキナーゼCゼータ(PRKCZ)、グルタミン酸イオンチャネル型受容体AMPA型サブユニット4(GRIA4)、BCL10、免疫シグナル伝達アダプター(BCL10)、5’-ヌクレオチダーゼドメイン含有1(NT5DC1)、腫瘍形成能抑制7(ST7)、プロテインキナーゼCイータ(PRKCH)、グリア細胞由来神経栄養因子(GDNF)、ムスケリン1(MKLN1)、エクソシスト複合体成分6B(EXOC6B)、プロテインS(PROS1)、電位依存性カルシウムチャネルサブユニットアルファ1D(CACNA1D)、ケルチ様ファミリーメンバー42(KLHL42)、OTUデユビキチナーゼ7A(OTUD7A)、細胞死関連タンパク質(DAP)、コイルドコイルドメイン含有179(CCDC179)、ヨードチロニン脱ヨード酵素2(DIO2)、一過性受容体電位カチオンチャネルサブファミリーVメンバー3(TRPV3)、MT-RNR2様5(MTRNR2L5)、フィラミンB(FLNB)、フューリン、対塩基性アミノ酸切断酵素(FURIN)、溶質運搬体ファミリー25メンバー17(SLC25A17)、Gパッチドメイン含有1(GPATCH1)、UDP-GlcNAc:ベータGalベータ-1,3-N-アセチルグルコサミニルトランスフェラーゼ9(B3GNT9)、zyg-11ファミリーメンバーA、細胞周期調節因子(ZYG11A)、発作関連6ホモログ様(SEZ6L)、ミオシンX(MYO10)、アセチル-CoAカルボキシラーゼアルファ(ACACA)、Gタンパク質サブユニットアルファi1(GNAI1)、CUEドメイン含有2(CUEDC2)、ホメオボックスD13(HOXD13)、クルッペル様因子14(KLF14)、溶質運搬体ファミリー1メンバー2(SLC1A2)、アセトアセチルCoAシンテターゼ(AACS)、アンキリンリピートおよび無菌アルファモチーフドメイン含有1A(ANKS1A)、マイクロRNA 7641-2(MIR7641-2)、V型コラーゲンアルファ1鎖(COL5A1)、亜ヒ酸塩メチルトランスフェラーゼ(AS3MT)、溶質運搬体ファミリー26メンバー5(SLC26A5)、ヌクレオポリン107(NUP107)、長鎖遺伝子間タンパク質ノンコーディングRNA1797(LINC01797)、ミオシンIC(MYO1C)、アンキリンリピートドメイン37(ANKRD37)、ホスホジエステラーゼ4C(PDE4C)、EFハンドドメイン含有1(EFHC1)、特徴不明のLOC375196(LOC375196)、ELOVL脂肪酸エロンガーゼ2(ELOVL2)、WASタンパク質ファミリーメンバー3(WASF3)、17番染色体オープンリーディングフレーム82(C17orf82)、Gタンパク質共役型受容体158(GPR158)、Fボックスおよびロイシンリッチリピートタンパク質7(FBXL7)、リプリー転写リプレッサー3(RIPPLY3)、ESCRT-IのVPS37Cサブユニット(VPS37C)、ポリペプチドN-アセチルガラクトサミン転移酵素様6(GALNTL6)、DENNドメイン含有3(DENND3)、核受容体コリプレッサー2(NCOR2)、内皮PASドメインタンパク質1(EPAS1)、PBXホメオボックス4(PBX4)、長鎖遺伝子間タンパク質ノンコーディングRNA1531(LINC01531)、配列類似性を有するファミリー110メンバーA(FAM110A)、グリコシルトランスフェラーゼ8ドメイン含有1(GLT8D1)、Gタンパク質サブユニットガンマ2(GNG2)、MT-RNR2様3(MTRNR2L3)、ジンクフィンガータンパク質140(ZNF140)、ras1のキナーゼ抑制因子(KSR1)、タンパク質ジスルフィドイソメラーゼファミリーAメンバー5(PDIA5)、精子形成関連7(SPATA7)、パントテン酸キナーゼ1(PANK1)、ユビキチン特異的ペプチダーゼ4(USP4)、Gタンパク質サブユニットアルファq(GNAQ)、電位依存性カリウムチャネル修飾因子サブファミリーSメンバー1(KCNS1)、DNAポリメラーゼガンマ2、アクセサリーサブユニット(POLG2)、ストークヘッドボックス2(STOX2)、ニューレキシン3(NRXN3)、BMS1、リボソーム生合成因子(BMS1)、フォークヘッドボックスE3(FOXE3)、NADH:ユビキノンオキシドレダクターゼサブユニットA10(NDUFA10)、レラキシンファミリーペプチド受容体3(RXFP3)、GATA結合性タンパク質2(GATA2)、イソプレノイドシンターゼドメイン含有(ISPD)、アデノシンデアミナーゼ、RNA特異的B1(ADARB1)、Wntファミリーメンバー7B(WNT7B)、プレクストリンおよびSec7ドメイン含有3(PSD3)、膜アンカー型ジャンクションタンパク質(MAJIN)、ピリジンヌクレオチド-ジスルフィドオキシドレダクターゼドメイン1(PYROXD1)、シンギュリン様1(CGNL1)、7番染色体オープンリーディングフレーム50(C7orf50)、MORNリピート含有1(MORN1)、アトラスチンGTPアーゼ2(ATL2)、WDリピートおよびFYVEドメイン含有2(WDFY2)、膜貫通タンパク質136(TMEM136)、イノシトールポリリン酸-5-ホスファターゼA(INPP5A)、TBC1ドメインファミリーメンバー9(TBC1D9)、インターフェロン調節因子2(IRF2)、サーチュイン7(SIRT7)、XXIII型コラーゲンアルファ1鎖(COL23A1)、グアニン一リン酸シンターゼ(GMPS)、カリウム2孔ドメインチャネルサブファミリーKメンバー12(KCNK12)、SIN3-HDAC複合体関連因子(SINHCAF)、ヘモグロビンサブユニットイプシロン1(HBE1)、ならびにチューダードメイン含有1(TDRD1)のうちの少なくとも1種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは少なくとも50種、好ましくは少なくとも70種、好ましくは全てを含む遺伝子セットに関する。
【0025】
好ましくは前記遺伝子セットは、タンパク質、またはマイクロRNAもしくは長鎖ノンコーディングRNAをコードするそれら前記ゲノムDNA配列の集合から選択することによって得たものであることが好ましい。
【0026】
さらに好ましい態様では、本発明は、個体の健康状態および/またはフィットネス状態を診断するための、本発明によるゲノムDNA配列の集合または遺伝子セットの使用に関する。
【0027】
さらに好ましい態様では、本発明は、老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法であって、本発明によるゲノムDNA配列の集合または遺伝子セットを準備するステップを含み、分子が、個体に投与されると、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんを好転させる、防止するおよび/または逆転させるものである、方法に関する。
【0028】
さらに好ましい態様では、本発明は、チップまたはキット、特に、本発明によるゲノムDNA配列の集合または遺伝子セットのDNAメチル化レベルを検出するために使用することができるチップまたはキットに関する。
【0029】
特に、チップは、本発明によるゲノムDNA配列または遺伝子セットを含み、各配列が別々のスポットに含有される。
【0030】
特に、キットは、
(a)少なくとも1つの独特のプライマー対であって、
各プライマー対のうち一方のプライマーが、本発明によるゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは遺伝子セットに含まれる遺伝子のうちの1つのリバース鎖に結合するフォワードプライマーであり、他方のプライマーがフォワード鎖に結合するリバースプライマーであり、
フォワードプライマーおよびリバースプライマーの3’末端と相補的な2つのヌクレオチドが、30ヌクレオチド超3000ヌクレオチド未満、好ましくは1000ヌクレオチド未満離れている、
プライマー対、あるいは
(b)本発明によるゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは遺伝子セットに含まれる遺伝子のうちの1つと相補的な少なくとも1つのプローブと
を含む。
【0031】
本発明は、少なくとも部分的に、Least Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用することにより、さらに縮小したゲノムDNA配列のセットを含むが、それでもなお許容される質を有する年齢指標を決定することができるという驚くべき発見に基づき、ここで、独立変数はゲノムDNA配列のメチル化レベルであり、従属変数は年齢である。これは、以前の方法では必要であってリッジ回帰(L2パラメータ)が省略されたので、特に驚くべきものであった。さらに驚くべきことに、本発明において決定されたゲノムDNA配列のセットと以前に決定されたゲノムDNA配列のセットの重複は非常に小さかった。したがって、公知の年齢指標とは全く異なるゲノムDNA配列を含むが、同様に十分に機能する年齢指標を見いだすことができたことはさらに驚くべきものである。
【0032】
ゲノムDNA配列の数を減少させると同時に正確な年齢決定を確実にすることには多くの利点がある。1つの利点は、特に、より単純な実験的方法の使用が可能になるので、ゲノムDNA配列のDNAメチル化レベルを決定するための費用、労力および/または必要な専門知識が減少することである。別の利点は、縮小したゲノムDNA配列の集合によってコードされる薬物標的候補が絞り込まれることである。さらなる利点は、個体の健康状態の診断に関する代替または改善されたツールが提供されることである。したがって、代替的なまたは改善された年齢指標を決定するための方法は、他の方法によって得られた結果、すなわち診断または薬物候補を検証するためにも有用である。
一般用語
【0033】
別段の定義のない限り、本明細書において使用される全ての科学技術用語は、本発明の属する当業者に一般に理解されるものと同じ意味を有する。本明細書に記載の方法および材料と類似した、またはそれと等しい任意の方法および材料を本発明の実施または試験に使用することができるが、好ましい方法および材料が記載されている。本発明の目的に関して、次の用語を以下に定義する。
【0034】
本明細書で使用される「a(1つの)」および「an(1つの)」という冠詞は、1つまたは1つよりも多く(すなわち、少なくとも1つ)の、その冠詞の文法上の目的語を指す。例として、「an(1つの)要素」は、1つの要素または1つよりも多くの要素を意味する。
【0035】
本明細書で使用される場合、「および/または」は、付随する列挙された項目の1つまたは複数のありとあらゆる可能性のある組合せ、ならびに、代替(または)と解釈される場合には組合せがないことを指し、それを包含する。
【0036】
本発明の目的のひとつは産業用途のための新規性を提供することである。
【0037】
この目的は、独立請求項において特許請求されるものによって実現される。
【0038】
一部の好ましい実施形態が従属請求項に記載されている。現在特許請求されていない好ましい実施形態が発明の詳細な説明において見いだされることは当業者には明らかであろう。さらに、本発明のある特定の態様は、当面は独立請求項において特許請求されないにもかかわらず、発明の詳細な説明において見いだされ、後で参照され得ることに留意されたい。
【発明を実施するための形態】
【0039】
本発明による年齢指標を決定するための方法、前記方法によって得られた年齢指標、前記年齢指標に含まれるゲノムDNA配列の集合、および本発明による個体の年齢を決定するための方法に関する実施形態および定義を以下に記載する。
【0040】
本明細書で使用される場合、年齢指標は、個体の年齢を、前記個体のある特定のゲノムDNA配列のDNAメチル化レベルに基づいて決定するために使用することができる統計学的モデルを指す。
【0041】
決定された個体の年齢は、本明細書で使用される場合、必ずしも前記個体の暦年齢と同じ年齢ではない。通常、個体の決定された年齢と暦年齢は異なり、これらが同じ場合は偶然の一致である。決定された年齢は、本明細書では「代替年齢」とも称される。あらゆる年齢を「年齢(歳)」および/または、好ましくは「日齢」で計数することができる。決定された個体の年齢は、本明細書で使用される場合、前記個体の生物学的年齢は、暦年齢よりも良好な指標である。個体の暦年齢とは、その個体が生まれた時から経過した時間を指す。生物学的年齢は、本明細書で使用される場合、個体の健康状態に関する。好ましくは健康状態は、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんの状態に関連し、ここで、状態は、疾患または疾患に関連付けられる表現型の非存在、存在、またはステージを示す。したがって、本発明の年齢指標を個体の健康状態の診断のために使用することができる。
【0042】
特に、年齢指標は、本明細書で使用される場合、独立変数を含む線形モデルを指す。本明細書では、年齢指標の生成に使用する年齢指標または線形モデルに含まれる独立変数は、ある特定のゲノムDNA配列のDNAメチル化レベルを指す。
【0043】
好ましくは本発明の年齢指標および/または本発明の年齢指標を生成するために使用する線形モデルの従属変数は年齢である。
【0044】
線形モデルでは、独立変数(ある特定のゲノムDNA配列のメチル化レベル)のセットによって複数の個体の年齢を予測し、各独立変数が少なくとも1つの係数を有する。予測年齢および暦年齢は非常によく相関することが好ましい、言い換えれば、平均して非常に類似していることが好ましい。しかし、1つの個体の、本明細書では「決定された年齢」とも称される予測年齢は、その個体の暦年齢と、例えば数歳異なり得る。
【0045】
具体的には、メチル化レベルは、本明細書で使用される場合、ベータ値を指す。ベータ値は、本明細書で使用される場合、試料に含有される全ての細胞の全ての対立遺伝子のゲノムDNAのある特定の部分内の全ての関連するシトシンの中での、メチル化されたシトシンのメチル化されたシトシンとメチル化されていないシトシンの合計に対する比を記載するものである。1つの特定のシトシン分子のメチル化の状態は二者択一的であり、メチル化されていないか(0;0%)メチル化されているか(1;100%)である。メチル化されたシトシンは、「5’mC」とも称される。その結果、したがって、2つの対立遺伝子を有する単一細胞のゲノムDNA内の特定の位置におけるシトシンについてのベータ値は、通常、0、0.5または1である。したがって、細胞の集団のゲノムDNA内の特定のCpG位置におけるベータ値は、0から1の間の値を取り得る(対立遺伝子数にかかわらず)。さらに、単一の対立遺伝子のある特定のゲノムDNA配列内の全てのCpGを考慮した場合のベータ値は、0から1の間の値を取り得る。本明細書では、好ましくはある特定のゲノムDNA配列内の1つのCpGのみを考慮する。本明細書では、試料は、好ましくは1つよりも多くの対立遺伝子を含み得る1つよりも多くの細胞を含む。したがって、ゲノムDNA配列のベータ値は、本明細書で使用される場合、事実上0から1の間のあらゆる値を取り得ることが明らかである。本明細書では、CpGのメチル化レベルは、前記CpGに含まれるシトシンによって規定され、グアニンによっては規定されない。
【0046】
本明細書では、好ましくはCG/CpGは、いわゆるCluster CG番号(Illumina(商標)メチル化プローブID番号)によって指定されるIllumina(商標)プローブに対応する。事前選択されたCpGのセットのメチル化レベルを、Illumina(商標)DNAメチル化アレイを使用して測定することができる。CpGのメチル化レベルを定量化するために、ソフトウェアを使用して、メチル化のベータ値を算出することができる。Illumina(商標)メチル化プローブIDは、その後数字が続く「cg」という用語、例えば、cg11330075またはcg25845463によって特徴付けられる。「CG」、「cg」、「CpG」、「CpG遺伝子座」、「CpG部位」、および「cg部位」という用語は、本明細書では互換的に使用される。Illumina(商標)DNAメチル化アレイを用いたDNAメチル化レベルの決定が周知であり、確立されており、本発明に使用することができるが、他の方法も記載され、示されている理由によっては好ましい場合がある。したがって、その代わりに、またはそれに加えて、CpGのメチル化レベルを、当技術分野で公知の他の方法を使用して定量化することもできる。それにもかかわらず、別段の指定のない限り、本発明において同定されるCG/CpGは、Illumina(商標)メチル化プローブIDに一致する。
【0047】
さらに、シトシンのメチル化を一塩基分解能で決定することが可能であるが、ゲノムDNA配列のメチル化レベルを決定するためには、その必要はなく、前記配列内の関連するシトシンの平均メチル化シグナルで十分である。本明細書では、好ましくは後ろにグアニンが続くシトシン(CpGジヌクレオチド)のみを関連性があると考慮する。塩基およびヌクレオチド、例えば、シトシンおよびシチジンの一般名は、それぞれ、本明細書では互換的に使用され、それぞれの塩基を含む特定のヌクレオチドを指す。本明細書では、「メチル化レベル」および「DNAメチル化レベル」という用語は、互換的に使用される。本明細書では、メチル化レベルについて言及する場合、0%~100%および0~1の範囲が互換的に使用される。
【0048】
本明細書で使用される場合、ゲノムDNA配列は、個体のゲノムDNAの可干渉性部分を指す。本明細書では、ある特定のゲノムDNA配列は、それが関係するゲノムDNA配列の参照配列と必ずしも同一である必要はないが、そのバリアントであり得る。好ましくはゲノムDNA配列は独特の配列である。当業者は、配列がある特定の参照ゲノムDNA配列のバリアントであるかどうかを、「GenBank」または「EMBL-NAR」などのデータベースを調べることおよび一般的な知見を使用することによって容易に決定することができる。
【0049】
本明細書では、ゲノムDNA配列のメチル化レベルは、前記ゲノムDNA配列に含まれる少なくとも1つのCpGジヌクレオチド内の少なくとも1つのシトシンのメチル化レベルを指す。
【0050】
本明細書では、好ましくはゲノムDNA配列のメチル化レベルは、前記ゲノムDNA配列に含まれるちょうど1つのCpGジヌクレオチド内のちょうど1つのシトシンのメチル化レベルを指す。好ましくは前記ゲノムDNA配列は、メチル化レベルは考慮されないが、前記CpGジヌクレオチドの同定を可能にするさらなるヌクレオチドを含む。したがって、本明細書では、ゲノムDNA配列をCpG遺伝子座によって定義することができる。
【0051】
本明細書では、非常に好ましくはゲノムDNA配列をIllumina(商標)メチル化プローブIDによって定義する。「Illumina(商標)メチル化プローブID」、「Illumina(商標)CpG cluster ID」、「Illumina(商標)Cluster CG番号」、「Illumina(商標)プローブ」、Illumina(商標)メチル化プローブID番号という用語、およびその等価物は、「Illumina(商標)」または「(商標)」という用語を伴っても伴わなくても、本明細書では互換的に使用される。
【0052】
複数の個体とは、本明細書で使用される場合、1つよりも多くの個体を指す。個体とは、本明細書で使用される場合、ゲノムDNA内に5’-メチル化シトシン(5’-mc)を有する生物を指す。好ましくは生物は脊椎動物であり、より好ましくは哺乳動物であり、最も好ましくはヒトである。好ましくは個体の少なくとも1つのゲノムDNA配列のメチル化レベルが、個体の老化および/または健康状態に関連付けられる。本明細書で使用される場合、個体は、任意の性別を有することができ、例えば、雄、雌、雌雄同体、または他のものであり得る。したがって、「彼」、「彼女」、「それ」、または「彼の」、「彼女の」、「その」という用語は、個体に関しては本明細書では互換的に使用される。
【0053】
通常、個体の同一性は既知であるが、その必要はない。特に、個体の同一性および/または暦年齢が未知であったとしても、本発明の方法によって個体の年齢を決定することができる。したがって、本発明による個体の年齢を決定するための方法により、生体試料しか入手可能でない個体の暦年齢を予測することが可能になる。そのような生体試料は、例えば、毛髪細胞、口腔細胞、唾液、血液および/または精子を含む。したがって、個体の年齢を決定するための方法は、犯行現場において、彼/彼女の生物材料の一部をそこに残した個体の暦年齢を推定するために有用である。さらに、個体の年齢を決定するための方法は、個体の暦年齢に関するデータが記録されていないまたは入手可能でない場合に前記個体の暦年齢を推定するために有用である。
【0054】
回帰法は、本明細書で使用される場合、変数間の関係、特に、従属変数と1つまたは複数の独立変数との間の関係を推定するための統計学的プロセスを指す。回帰分析は、独立変数の中でいずれが従属変数と関連するかを理解するため、およびこれらの関係の形態を探究するためにも使用される。好ましくは回帰法は線形回帰を含む。好ましくは回帰法は縮小を使用する線形回帰を含む。縮小は、データ値を平均値のような中心点まで縮小させることである。本明細書では、回帰法は、Least Absolute Shrinkage and Selection Operator(LASSO)を含む。
【0055】
LASSOは、単純なスパースモデル(すなわち、パラメータが少ないモデル)を推奨するものである。この特定の型の回帰は、高レベルの多重共線性を示すモデルに対して、または、変数の選択および/またはパラメータ除外のような、モデル選択のある特定の部分の自動化が望まれる場合によく適する。LASSO回帰では、係数の大きさの絶対値と等しいペナルティを付加するL1正則化を実施する。この型の正規化の結果、係数が少ないスパースモデルがもたらされ得る;いくつかの係数はゼロになり得、モデルから除外される。より大きなペナルティにより、よりゼロに近い係数値がもたらされ、これは、より単純なモデルを作製するために理想的である。言い換えれば、線形モデルの独立変数の数を減少させるために、LASSOを使用することができる。「LASSO」、「lasso」および「Lasso回帰」という用語は本明細書では同義に使用される。
【0056】
好ましい実施形態では、LASSOを、biglasso Rパッケージを用いて、好ましくはコマンド「cv.biglasso」を適用することによって実施する。好ましくは「nfold」は20である。
【0057】
好ましい実施形態では、LASSO L1正則化パラメータ/アルファパラメータは1である。
【0058】
好ましくは本発明の回帰法はリッジ回帰(L2正則化)を含まないかまたはL2正則化パラメータ/ラムダパラメータが0である。
【0059】
対照的に、Elastic Net法では、L1正則化パラメータまたはアルファパラメータは1ではないが、およそ0.1~0.9である。さらに、Elastic Net法は、リッジ回帰を含む。したがって、好ましくは本発明の回帰法は、Elastic Net法を含まない。さらに、本発明の年齢指標は、Elastic Net法を適用することによって決定されるものではないことが好ましい。
【0060】
好ましくは本発明の回帰法は、LASSOの後にステップワイズ回帰を適用することをさらに含む。好ましくはステップワイズ回帰を縮小訓練データセットに適用する。
【0061】
したがって、特に好ましい実施形態では、年齢指標を決定するための方法は、
(a)複数の個体の訓練データセットであって、各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)訓練データセットに、
(i)Least Absolute Shrinkage and Selection Operator(LASSO)を適用し、それにより、縮小訓練データセットを決定することと、
(ii)その後のステップワイズ回帰を適用し、それにより、年齢指標を決定することと
を含む、回帰法を適用するステップであって、
好ましくは前記ステップワイズ回帰を前記縮小訓練データセットに適用し、
独立変数がゲノムDNA配列のメチル化レベルであり、好ましくは従属変数が年齢であり、
年齢指標が、
(i)集合としてのゲノムDNA配列のセットのサブセット、および
(ii)集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
縮小訓練データセットが、訓練データセットのうち、LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、ステップと
を含む。
【0062】
したがって、特に好ましい実施形態では、個体の年齢を決定するための方法は、
(a)複数の個体の訓練データセットであって、各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)訓練データセットに、
(i)Least Absolute Shrinkage and Selection Operator(LASSO)、それにより、縮小訓練データセットを決定することと、
(ii)その後のステップワイズ回帰、それにより、年齢指標を決定することと
を含む、回帰法を適用するステップであって、
好ましくは前記ステップワイズ回帰を前記縮小訓練データセットに適用し、
独立変数がゲノムDNA配列のメチル化レベルであり、好ましくは従属変数が年齢であることが好ましく、
年齢指標が、
(i)集合としてのゲノムDNA配列のセットのサブセット、および
(ii)集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数、
を含み、
縮小訓練データセットが、訓練データセットのうち、LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、ステップと、
(c)年齢が決定される個体について年齢指標に含まれるゲノムDNA配列の少なくとも80%、好ましくは100%に関するDNAメチル化レベルをもたらすステップと、
(d)個体の年齢をそのDNAメチル化レベルおよび年齢指標に基づいて決定するステップと、
を含み、好ましくは決定された年齢が個体の暦年齢と異なり得る。
【0063】
ステップワイズ回帰は、本明細書で使用される場合、予測変数の選択を自動手順によって行う、回帰モデルを当てはめる方法である。各ステップにおいて、変数を、いくつかの予め指定された基準に基づいて、説明変数のセットに追加するかまたは差し引くかを検討する。これは、F検定またはt検定の配列の形を取り得るが、調整されたR2、Akaike information criterion(AIC)、Bayesian information criterion、Mallows’s Cp、PRESS、または偽発見率などの他の技法も可能である。主要な手法は、変数増加法、変数減少法および双方向除外である。変数増加法は、選択されたモデル当てはめ基準を使用して各変数の追加を検定し、それを含めることにより最も統計的に有意な当てはめの改善がもたらされる変数(もしあれば)を追加し、モデルが統計的に有意な程度まで改善されなくなるまでこのプロセスを繰り返すことを伴う。
【0064】
変数減少法は、選択されたモデル当てはめ基準を使用して各変数の削除を検定し、それがなくなることによりもたらされるモデル当てはめの悪化が最も統計学的に有意でない変数(もしあれば)を削除し、統計的に有意な当てはめの喪失を伴わずに削除することができるさらなる変数がなくなるまでこのプロセスを繰り返すことを伴う。双方向除外は、変数増加法と変数減少法の組合せであり、各ステップにおいて、含められる変数または除外される変数を検定する。本明細書では、好ましくはステップワイズ回帰によって検討される変数は、LASSO回帰によって選択される変数である。
【0065】
好ましい実施形態では、ステップワイズ回帰は、双方向除外である。好ましくは前記ステップワイズ回帰を適用する際に統計学的に有意でない独立変数を除去する。好ましくは変数を追加する/含めるか除去/除外するかを決定するための有意水準は、0.05である。
【0066】
本発明に従って年齢指標を決定するために、ゲノムDNA配列のセットを、本発明による回帰法によって少なくとも一段階で、好ましくは二段階で縮小する。好ましくは出発ゲノムDNA配列のセットは、メチル化レベルを暦年齢に関連付けることができるゲノムDNA配列から事前選択されたものである。そのような事前選択されたセットは、例えば、Illumina(商標)DNAメチル化アレイである。次いで、LASSOを適用し、それにより、どちらもゲノムDNA配列の集合を含む年齢指標および縮小訓練データセットを決定する。
【0067】
ある特定の実施形態では、訓練データセットに含まれるゲノムDNA配列のセットは、メチル化レベルを暦年齢に関連付けることができるゲノムDNA配列から事前選択されたものである。好ましくは事前選択されたセットは、少なくとも400000、好ましくは少なくとも800000のゲノムDNA配列を含む。Infinium MethylationEPIC BeadChip Kitによってアッセイされた配列が特に適切である。
【0068】
ある特定の実施形態では、訓練データセットに含まれるゲノムDNA配列は、互いに重複せず、かつ/または対立遺伝子当たり1度しか生じない。これは、同程度に小さい、すなわち、10000未満のゲノムDNA配列のセットのみが事前選択された場合に特に好ましい。
【0069】
好ましい実施形態では、ステップワイズ回帰を縮小訓練データセットに適用し、それにより、ゲノムDNA配列の集合を含む年齢指標を決定する。
【0070】
さらに驚くべきことに、LASSOおよびその後のステップワイズ回帰を適用することによって決定されたゲノムDNA配列の集合は、より小さく、それぞれの年齢指標は、ステップワイズ回帰を伴わずにLASSOのみを適用することによって決定されたゲノムDNA配列の集合または年齢指標よりも良好な性能を有することが見いだされている。
【0071】
さらに驚くべきことに、LASSOおよびその後のステップワイズ回帰を適用することによって決定された年齢指標は、変数は少ないが、Horvath, Genome Biology 2013, 14: R115におけるものなどの先行技術による方法と比較して少なくともほぼ同じ高さかまたはさらには改善された正確度を有することが見いだされた。
【0072】
本明細書では、年齢指標に含まれるサブセットは、「集合」または「ゲノムDNA配列の集合」とも称される。本明細書で使用される場合、ゲノムDNA配列のサブセット(集合)は、最大でもゲノムDNA配列のセットと同じ大きさである。
【0073】
好ましくは本発明の年齢指標に含まれる集合は、前記年齢指標を決定するために使用されるゲノムDNA配列のセットよりも小さい。
【0074】
好ましくは本発明の年齢指標に含まれる集合は、前記年齢指標を決定するために使用される縮小訓練データセットに含まれるゲノムDNA配列のセットよりも小さい。
【0075】
ある特定の実施形態では、縮小訓練データセットは、少なくとも90、好ましくは少なくとも100、好ましくは少なくとも140のゲノムDNA配列を含む。
【0076】
ある特定の実施形態では、縮小訓練データセットは、5000未満、好ましくは2000未満、好ましくは500未満、好ましくは350未満、好ましくは300未満のゲノムDNA配列を含む。
【0077】
縮小訓練データセットに含まれるゲノムDNA配列のセットは、好ましくは事前選択されたゲノムDNA配列のセットと比較してはるかに縮小されており、好ましくは90%よりも大きい、好ましくは99%よりも大きい、好ましくは99.9%よりも大きい。しかし、前記ゲノムDNA配列のセットは、その後のステップワイズ回帰の最適化の潜在性があまりにも早く限定されることがなく、かつ/または性能が低い年齢指標が得られることがないだけの大きさでなければならない。本明細書では、30未満のゲノムDNA配列を含む年齢指標の性能が、少なくとも30、好ましくは少なくとも50、好ましくは少なくとも60、好ましくは少なくとも80のゲノムDNA配列を含む年齢指標と比較してむしろ低いことが意図されている。しかし、できるだけ少ないゲノムDNA配列を含む年齢指標が好ましい。
【0078】
したがって、ある特定の実施形態では、年齢指標は、少なくとも30、好ましくは少なくとも50、好ましくは少なくとも60、好ましくは少なくとも80のゲノムDNA配列を含む。
【0079】
好ましい実施形態では、年齢指標は、300未満、好ましくは150未満、好ましくは110未満、好ましくは100未満、好ましくは90未満のゲノムDNA配列を含む。
【0080】
非常に好ましい実施形態では、年齢指標は、80~100、好ましくは80~90、好ましくは88のゲノムDNA配列を含む。
【0081】
さらに、本発明の年齢指標は、集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数を含む。1つの係数で十分であるので、年齢指標は、集合に含有されるゲノムDNA配列ごとにちょうど1つの係数を含むことが好ましい。
【0082】
係数は、本明細書で使用される場合、独立変数の重みを指し、独立変数は、本明細書では、ある特定のゲノムDNA配列のメチル化レベルである。個体の年齢を予測または決定するために、係数をゲノムDNA配列のメチル化レベルに掛ける、または、言い換えれば、各ゲノムDNA配列およびそのメチル化レベルに重みを付け、次いで、全ての重み付けされたメチル化レベルを合計する。好ましくはメチル化レベルは0から1(それぞれ、メチル化されていない、および完全にメチル化された)の間である。
【0083】
本明細書では、年齢指標を生成するために使用されるデータセットは、「訓練データセット」とも称される。本明細書で使用される場合、縮小訓練データセットは、ある特定のゲノムDNA配列のデータが除外されるかまたは考慮されない訓練データセットを指す。本明細書では、縮小訓練データセットは、LASSOを含む回帰法を訓練データセットに適用することによって決定される。
【0084】
好ましい実施形態では、訓練データセットは、ゲノムDNA配列のセットに含まれるゲノムDNA配列のメチル化レベルを列として含み、複数の個体を行として含む行列を含む。好ましくは前記個体の暦年齢が行列のさらなる列に含まれる。
【0085】
ある特定の実施形態では、本発明の年齢指標を繰り返し更新し、各繰り返しにおいて少なくとも1つのさらなる個体のデータを訓練データに追加し、それにより、訓練データセットを繰り返し拡大することを含む。
【0086】
年齢指標の前記繰り返し更新により、年齢指標の性能、特にその正確度が繰り返し改善されることが予想される。
【0087】
本明細書では、繰り返し更新は、年齢指標を更新する連続したラウンドを指す。本明細書で使用される場合、1ラウンドの更新または更新ラウンドは、本発明のある特定のまたは好ましい実施形態において指定されている。本明細書で使用される場合、異なる更新のラウンドは、同じ実施形態または異なる実施形態を指し得る。好ましくは繰り返しの各更新ラウンドは、本発明の同じ実施形態によって指定される。年齢指標の更新に関して、さらなる個体とは、訓練データセットにはデータを寄与していないが、更新ラウンドにはデータが追加される個体を指す。訓練データセットの拡大とは、本明細書で使用される場合、少なくとも1つのさらなる個体のデータを訓練データセットに追加することを指す。
【0088】
ある特定の実施形態では、1回の更新ラウンドにおいて、さらなる個体のそれぞれに関する追加されるデータは、
(i)最初の訓練データセット、または拡大訓練データセットのいずれかに含まれるゲノムDNA配列のセットの少なくとも5%、好ましくは50%、より好ましくは100%、および/または
【0089】
(ii)縮小訓練データセットに含有されるゲノムDNA配列
の、個体のDNAメチル化レベルを含む。
【0090】
前記選択肢(i)は、特に、出発ゲノムDNA配列のセット、特に、事前選択されたゲノムDNA配列のセットを指す。一般には、この出発ゲノムDNA配列のセットは大きく、例えば、少なくとも800000のゲノムDNA配列を含む。したがって、出発セットの少なくとも5%のメチル化レベルを訓練データセットに追加することにより、年齢指標を決定するために使用することができる十分に大きな訓練データセットがもたらされる。好ましくは訓練データセットは、訓練データセットに含まれる個体の全てのDNAメチル化レベルが存在するゲノムDNA配列に限定される。
【0091】
したがって、好ましい実施形態では、拡大訓練データセットにデータを寄与する全ての個体に関して存在しないゲノムDNA配列(独立変数)は全て拡大訓練データセットから除去する。好ましくは前記選択肢(i)に従って年齢指標を更新することは、特に、いくつかのまたは多数の更新ラウンドを行う場合には、最初の訓練データセット、または拡大訓練データセットのいずれかに含まれるゲノムDNA配列のセットの少なくとも50%、好ましくは100%を追加することを含む。
【0092】
好ましい実施形態では、1回の更新ラウンドにおいて、メチル化レベルが追加されるゲノムDNA配列のセットは、さらなる個体(複数可)のそれぞれについて同一である。これは、1ラウンドの更新内でゲノムDNA配列が過剰に除去されることを回避するために特に有用である。
【0093】
本明細書では、年齢指標を更新することにより、それに含まれるゲノムDNA配列の集合(独立変数)および/または各前記ゲノムDNA配列の係数(複数可)を変化させることができる。注目すべきことに、前記選択肢(i)により、前記ゲノムDNA配列の集合を拡大、制限、および/または変更することが可能になり、一方、選択肢(ii)では、前記ゲノムDNA配列の集合を制限することのみが可能になる。選択肢(i)および(ii)の両方により、前記係数を変化させることが可能になる。しかし、選択肢(ii)の利点は、少なくとも1つのさらなる個体の縮小したゲノムDNA配列のセットのメチル化レベルだけを準備する必要があることである。さらに、前記選択肢(ii)は、前記ゲノムDNA配列の集合のサイズをさらに縮小するために特に有用である。言い換えれば、選択肢(i)は、異なる目的のための異なる年齢指標、例えば、ある特定の個体の群の年齢指標を生成するため、または異なる年齢指標をさらなる精密化の基礎として決定するために特に有用である;選択肢(ii)は、一般にすでに有用である年齢指標を微調整および最適化するため、すなわち、独立変数の数をさらに減少させるため、例えば、個別化されていない既製使用のために特に有用である。選択肢(i)および(ii)の両方を組み合わせて、選択肢(i)の柔軟性と選択肢(ii)の合理化を組み合わせることができる。
【0094】
ある特定の実施形態では、1回の更新ラウンドは、LASSOを拡大訓練データセットに適用し、それにより、更新された年齢指標および/または更新された縮小訓練データセットを決定することを含む。
【0095】
ある特定の実施形態では、少なくとも1つのさらなる個体に関するデータが追加される訓練データセットは、最初の縮小訓練データセット、または更新された縮小訓練データセットのいずれかであり得る縮小訓練データセットである。好ましくは縮小訓練データセットは繰り返しにおける前の縮小訓練データセットである。
【0096】
したがって、更新された縮小訓練データセットは、LASSOを拡大訓練データセットに適用すること、および/または少なくとも1つのさらなる個体のデータを縮小訓練データセットに追加することによって生じ得る。
【0097】
好ましい実施形態では、1回の更新ラウンドは、ステップワイズ回帰を縮小訓練データセットに適用し、それにより、更新された年齢指標を決定することを含む。
【0098】
ある特定の実施形態では、1回の更新ラウンドにおいて、少なくとも1つの個体に関するデータを訓練データセットおよび/または縮小訓練データセットから除去する。
【0099】
ある特定の実施形態では、訓練データセット、縮小訓練データセットおよび/または追加されたデータは、個体(複数可)に関連付けることができる生活様式もしくはリスクパターンに関する少なくとも1つの因子および/または個体(複数可)の特徴をさらに含む。好ましくは因子は、薬物消費、環境汚染物質、交代勤務およびストレスから選択される。
【0100】
ある特定の実施形態では、ゲノムDNA配列の事前選択、ならびに/または個体のデータの追加および/もしくは除去は、個体の少なくとも1つの特徴に依存する。本明細書では、個体の特徴は、例えば、民族、性別、暦年齢、居住地、出生地、少なくとも1つの疾患および/または少なくとも1つの生活様式因子である。本明細書で使用される場合、生活様式因子は、薬物消費、環境汚染物質への曝露、交代勤務またはストレスから選択される。
【0101】
ある特定の実施形態では、訓練データセットおよび/または縮小訓練データセットは、DNAメチル化レベルおよび/またはコードされるタンパク質の活性/レベルが前記特徴および/または生活様式因子のうちの少なくとも1つに関連付けられるゲノムDNA配列に限定される。
【0102】
任意のステップで、すなわち、ゲノムDNA配列の事前選択期ならびに/または前記データセットおよび/もしくは年齢指標の更新期の開始時に訓練データセットおよび/または縮小訓練データセット内のデータを個体の生活様式因子および/または特徴に基づいて選択することにより、前記特徴および/または生活様式因子のある特定の組合せを有する個体またはある特定の個体の群の年齢の決定に特によく適する年齢指標を決定することが可能になる。さらに、年齢決定のために異なる年齢指標を適用することは、個体または個体の群のある特定の素因、例えば、ストレスまたは薬物消費の主な影響を決定するために有用であり得る。例えば、喫煙関連老化に関して最適化された年齢指標を使用した場合に、交代勤務に関連する老化に関して最適化された年齢指標を使用した場合よりも、決定された個体の年齢が予測年齢よりもはるかに大きい場合、それにより、個体の老化に関連する健康状態に対して喫煙が交代勤務よりも重要な因子であることが示され得る。
【0103】
ある特定の実施形態では、年齢指標の質を決定し、前記質の決定は、
(a)訓練データセットにデータを寄与していない複数の個体に関する試験データセットを準備するステップであって、試験データセットが、前記個体のそれぞれについて、
(i)年齢指標に含まれるゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、ステップと、
(b)年齢指標の質を統計学的評価および/またはドメイン境界の評価によって決定するステップであって、
統計学的評価が、
(i)試験データセットに含まれる個体の年齢を決定するステップと、
(ii)前記個体(複数可)の決定された年齢と暦年齢を相関させ、この相関を記述する少なくとも1つの統計学的パラメータを決定するステップと、
(iii)統計学的パラメータ(複数可)が、年齢指標の許容される質を示すものか否かを判定するステップであって、統計学的パラメータが決定係数(R2)および平均絶対誤差(MAE)から選択されることが好ましく、R2が0.50よりも大きい、好ましくは0.70よりも大きい、好ましくは0.90よりも大きい、好ましくは0.98よりも大きいことおよび/またはMAEが6歳未満、好ましくは4歳未満、好ましくは最大1歳であることは、許容される質を示す、ステップと
を含み、
ドメイン境界の評価が、
(iv)年齢指標のドメイン境界を決定するステップであって、
ドメイン境界が、年齢指標に含まれる各ゲノムDNA配列の最小DNAメチル化レベルおよび最大DNAメチル化レベルであり、
前記最小DNAメチル化レベルおよび最大DNAメチル化レベルが、年齢指標を決定するために使用された訓練データセットにおいて見いだされる
ステップと、
(v)試験データセットがドメイン境界を超えるかどうかを決定するステップであって、ドメイン境界を越えないことは、許容される質を示す、ステップと
を含む、ステップと、
を含む。
【0104】
本明細書で使用される場合、試験データセットは、訓練データセットに基づいて決定された年齢指標を評価するために使用することができるデータセットである。通常、前記訓練データセットと試験データセットは同じ構造を有する。特に、試験データセットと訓練データセットは、同じゲノムDNA配列のセットを含む。しかし、必須の差異として、試験データセットのみが、それぞれの訓練データセットにデータを寄与していない個体のデータを含有する。
【0105】
年齢指標の評価は、本明細書で使用される場合、統計学的評価および/またはドメイン境界の評価を含む。
【0106】
統計学的評価に関しては、試験データセットの個体の年齢を決定し、前記個体の暦年齢と比較する。2つの変数の相関を記述するために一般に使用される任意の統計学的測定値またはパラメータを適用することができる。好ましくは統計学的パラメータは決定係数(R2)および平均絶対誤差(MAE)から選択される。好ましくはR2が0.50よりも大きい、好ましくは0.70よりも大きい、好ましくは0.90よりも大きい、好ましくは0.98よりも大きいことおよび/またはMAEが6歳未満、好ましくは4歳未満、好ましくは最大1歳であることは、許容される質を示す。本明細書で指定されていなければ、当業者は測定の結果またはパラメータを一般的な知見に基づいて評価することができる。疑わしい場合、質を許容できるものではないと判断すべきである。
【0107】
試験データセットが年齢指標のドメインの境界内に完全に含有されない場合、年齢指標は、許容される質を有さないと判断される。年齢指標のドメイン境界は、本明細書で使用される場合、年齢指標に含まれる各ゲノムDNA配列の最小DNAメチル化レベルおよび最大DNAメチル化レベルを指す。より詳細には、前記最小DNAメチル化レベルおよび最大DNAメチル化レベルは、年齢指標を決定するために使用された訓練データセットにおいて見いだされる。
【0108】
試験データセットは合理的なサイズを有するべきである。特に統計学的評価に関しては、試験データセットは、小さすぎず、しかし少なくとも10の個体、好ましくは少なくとも30の個体、好ましくは少なくとも200の個体を含むべきである。ドメイン境界の決定に関しては、試験データセットは、加えて、大きすぎず、したがって、最大で1000の個体、好ましくは最大で200の個体を含むべきである。それよりも大きい場合、例えば、試験データセットの個体の5%、好ましくは1%に対してドメイン境界のいくらかの変動が許容され得る。
【0109】
ある特定の実施形態では、訓練データセットおよび/または試験データセットは、少なくとも10の個体、好ましくは少なくとも30の個体、好ましくは少なくとも200の個体を含む。好ましくは訓練データセットが少なくとも200の個体を含み、試験データセットが少なくとも30個体を含む。
【0110】
注目すべきことに、許容される質を有さないと判断された年齢指標は、それでもなお、個体の年齢を決定するために有用であり得る。「許容される質」という用語は、本明細書で使用される場合、特に、更新を通じて最適な年齢指標が決定されることを指す。したがって、年齢指標の許容される質または許容されない質は、本明細書で使用される場合、年齢指標の絶対的な質に関するものではなく、他の年齢指標、特に、本発明の方法による異なる更新のラウンドにおいて決定された年齢指標と比較した相対的な質に関する。
【0111】
好ましい実施形態では、年齢指標を、その質が許容されないものである場合には更新する。質は、年齢指標の評価に関して上で説明した通り許容されるまたは許容できるものではないものと判断される。
【0112】
ある特定の実施形態では、データに含まれる個体の数が所定の値に達している、かつ/または前の更新から所定の時間が経過している場合には、年齢指標のさらなる更新を行わない。所定の時間は、潜在的な更新ラウンドについての質評価の数も指し得る。
【0113】
例えば、年齢指標が、何千ものもしくはさらには数百万の個体のかねてからのデータを含むか、または新しい試験データセットを用いた最新の10もしくはさらには100の評価の許容される質が示された場合、年齢指標のさらなる最適化は期待されず、更新を停止することができる。
【0114】
ある特定の実施形態では、個体のゲノムDNA配列のDNAメチル化レベルを、前記ゲノムDNA配列を含む前記個体の生物材料の試料において測定する。好ましくは試料は口腔細胞を含む。
【0115】
DNAメチル化レベルを決定するために適した方法は、例えば、メチル化シーケンシング、バイサルファイトシーケンシング、PCR法、高分解能融解分析(HRM)、メチル化感受性一塩基プライマー伸長(MS-SnuPE)、メチル化感受性一本鎖コンフォメーション分析、メチル感受性切断計数(MSCC)、塩基特異的切断/MALDI-TOF、複合バイサルファイト制限分析(COBRA)、メチル化DNA免疫沈降(MeDIP)、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシングおよび/またはバイサルファイト処理を伴わない直接シーケンシング(ナノポア技術)である。
【0116】
好ましい実施形態では、個体のDNAメチル化レベルを、Illumina(商標)DNAメチル化アレイ、好ましくはInfinium MethylationEPIC BeadChip KitなどのDNAメチル化アレイを用いて測定する。DNAメチル化アレイは、非常に多数のゲノムDNA配列、特に出発および/または事前選択されたゲノムDNA配列のDNAメチル化レベルを測定する場合に特に適している。
【0117】
好ましい実施形態では、個体のゲノムDNA配列のDNAメチル化レベルを塩基特異的切断/MALDI-TOFおよび/またはPCR法によって測定し、塩基特異的切断/MALDI-TOFはAgena技術であり、PCR法はメチル化特異的PCRであることが好ましい。塩基特異的切断/MALDI-TOFおよび/またはPCR法は、縮小したゲノムDNA配列のセットのDNAメチル化レベルを測定する場合、特に、本発明の年齢指標を用いて年齢が決定される個体のデータを縮小訓練データセットに追加し、かつ/またはメチル化レベルをもたらすために特に適している。
【0118】
DNAメチル化レベルの決定に関するさらなる詳細を以下に本発明のさらなる態様においておよび実施例においてさらに説明する。
【0119】
ある特定の実施形態では、本発明による年齢指標を決定するための方法および/または個体の年齢を決定するための方法は、個体の生物材料の試料を得るステップをさらに含む。生物材料は、個体の任意の部分に由来するものであってよいが、好ましくは試料は、非侵襲的に得たものである。好ましくは個体は胎児ではない。
【0120】
好ましい実施形態では、試料を頬スワブから得る。
【0121】
本明細書では、本発明の年齢指標を、個体の年齢を決定するためのツールとして使用することができる。したがって、本発明による個体の年齢を決定するための方法は、年齢指標を決定するための本発明の方法の全てのステップを含む、または本発明による年齢指標をもたらすステップを含む。さらに、個体の年齢を決定する前記方法は、前記年齢指標に含まれるゲノムDNA配列の少なくとも80%、好ましくは100%の、年齢が決定される個体のDNAメチル化レベルをもたらすステップと、個体の年齢をそのDNAメチル化レベルおよび前記年齢指標に基づいて決定するステップとを含む。
【0122】
言い換えれば、もたらされた年齢指標に含まれるゲノムDNA配列の少なくとも80%、好ましくは100%のメチル化レベルは、年齢が決定される個体に関してもたらされたものでなければならない。前記個体のゲノムDNA配列の欠損したメチル化レベルを、例えば、もたらされたメチル化レベルの中央値または平均値を使用することによって入力することができる。
【0123】
ある特定の実施形態では、個体の年齢を、当該個体のDNAメチル化レベル、および更新された年齢指標に基づいて決定する。特に、最初にもたらされた年齢指標の質が許容できるものでない場合には、更新された年齢指標に基づいて年齢を決定する。
【0124】
好ましい実施形態では、個体の年齢が、前記年齢指標を生成するために使用されるまたは使用された訓練データセットにデータが提供されていない場合には、当該個体の年齢を年齢指標のみを用いて決定する。
【0125】
ある特定の実施形態では、個体の年齢を決定するための方法は、前記個体の決定された年齢と暦年齢の差に関連付けられる少なくとも1つの生活様式因子を決定するステップをさらに含む。
【0126】
好ましい実施形態では、本発明によるゲノムDNA配列の集合は、cg27320127を含まない。
【0127】
ある特定の実施形態では、本発明によるゲノムDNA配列の集合は、cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg16677512、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg22077936、cg08044253、cg12548216、cg05211227、cg13759931、cg08686931、cg07955995、cg07529089、cg01520297、cg00087368、cg05087008、cg24724428、cg19112204、cg04525002、cg08856941、cg16465695、cg08097417、cg21628619、cg09460489、cg13460409、cg25642673、cg19702785、cg18506897、cg21165089、cg27540719、cg21807065、cg18815943、cg23677767、cg07802350、cg11176990、cg10321869、cg17343879、cg08662753、cg14911690、cg12804730、cg16322747、cg14231565、cg10501210、cg09275691、cg15008041、cg05812299、cg24319133、cg12658720、cg20576243、cg03473532、cg07381960、cg05106770、cg04320377、cg19432688、cg22519947、cg06831571、cg08194377、cg01636910、cg14305139、cg04028695、cg15743533、cg03680898、cg20088545、cg13333913、cg19301963、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625、およびcg23128025のうちの少なくとも1種、好ましくは少なくとも4種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは少なくとも70種、好ましくは全て、または連続ヌクレオチド配列の少なくとも70%、好ましくは少なくとも90%を含むその断片を含む。
【0128】
好ましくは前記ゲノムDNA配列の集合が年齢指標を決定するための方法によって得られた年齢指標に含まれ、前記方法は、LASSOの後にステップワイズ回帰を適用することを含む。
【0129】
本明細書では、遺伝子は、タンパク質をコードするゲノムDNA配列(コード配列;CDS)、またはマイクロRNAもしくは長鎖ノンコーディングRNAを指す。本明細書では、タンパク質をコードするゲノムDNA配列は、前記タンパク質を翻訳するためのmRNAもコードする。マイクロRNA(miRNA)は、RNAサイレンシングおよび遺伝子発現の転写後調節において機能する小さな非コードRNA分子(約22ヌクレオチドを含有する)である。長鎖ノンコーディングRNA(長鎖ncRNA、lncRNA)は、タンパク質に翻訳されない(しかし、場合によってペプチドに翻訳される)、一般には200個よりも多くのヌクレオチドを有する転写物の一種である。それでも、大多数の長鎖ノンコーディングRNAが、機能的である、すなわち、転写調節において機能的である可能性が高い。
【0130】
好ましい実施形態では、本発明の遺伝子セットは、KCNK12を含まない。
【0131】
ある特定の実施形態では、本発明の遺伝子セットは、ISPD、KCNK12、GNG2、SIRT7、GPATCH1、GRIA4、LINC01531、LOC101927577、NCOR2、WASF3、TRPV3、ACACA、GDNF、EFHC1、MYO10、COL23A1、TDRD1、ELOVL2、GNAI1、MAP4、CCDC179、KLF14、ST7、INPP5A、SIM1、SLC1A2、AS3MT、KSR1、DSCR6、IRF2、KCNS1、NRXN3、C11orf85、HBE1、FOXE3、TMEM136、HOXD13、LOC375196、PANK1、MIR107、COL5A1、PBX4、ZNF140、GALNTL6、NUP107、LOC100507250、MTRNR2L5、C17orf82、MKLN1、FURIN、KLHL42、MORN1、ANKS1A、BCL10、DENND3、FAM110A、PROS1、WNT7B、FBXL7、GATA2、VPS37C、NRP1、POLG2、ANKRD37、GMPS、およびWDFY2のうちの少なくとも1種、好ましくは少なくとも5種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは全てを含む。
【0132】
好ましくは前記遺伝子セットは、タンパク質、またはマイクロRNAもしくは長鎖ノンコーディングRNAをコードするゲノムDNA配列の集合から選択することによって得られ、ここで、前記ゲノムDNA配列の集合は、年齢指標を決定するための方法によって得られた年齢指標に含まれ、前記方法は、LASSOの後にステップワイズ回帰を適用することを含む。
【0133】
好ましい実施形態では、本発明によるゲノムDNA配列の集合は、cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625、およびcg23128025のうちの少なくとも1種、好ましくは少なくとも4種、好ましくは少なくとも10種、好ましくは全てを含む。
【0134】
前記ゲノムDNA配列の集合が年齢指標を決定するための方法によって得られた年齢指標に含まれることが好ましく、ここで、前記方法は、LASSOの後にステップワイズ回帰を適用することを含み、前記年齢指標に含まれる前記ゲノムDNA配列の各係数の絶対値は20よりも大きい。
【0135】
非常に好ましい実施形態では、本発明によるゲノムDNA配列の集合は、cg11330075、cg00831672、cg27320127、cg10240079、cg02536625、およびcg23128025のうちの少なくとも1種、好ましくは少なくとも4種、好ましくは全てを含む。
【0136】
好ましくは前記ゲノムDNA配列の集合が年齢指標を決定するための方法によって得られた年齢指標に含まれ、ここで、前記方法は、LASSOの後にステップワイズ回帰を適用することを含み、前記年齢指標に含まれる前記ゲノムDNA配列の各係数の絶対値は40よりも大きい。
【0137】
好ましい実施形態では、本発明によるゲノムDNA配列の集合に含まれるゲノムDNA配列は完全な配列であり、その断片ではない。
【0138】
好ましい実施形態では、本発明によるゲノムDNA配列の集合は、前記ゲノムDNA配列の集合に加えておよび/またはその代わりに、その相補配列を含む。本明細書では、ゲノムDNA配列は、記載されている配列および/またはその逆相補配列を指す。当業者は、記載されている配列を使用すべきかその逆相補配列を使用すべきかを容易に判断することができる。デフォルト設定で、および大多数の適用に関して、記載されている配列が使用されるが、一部の適用に関して、例えば、プローブを用いて前記配列のメチル化レベルを決定するためには、その相補配列をプローブとして使用する。
【0139】
好ましい実施形態では、本発明の遺伝子セットは、微小管関連タンパク質4(MAP4)、プロテインキナーゼCゼータ(PRKCZ)、グルタミン酸イオンチャネル型受容体AMPA型サブユニット4(GRIA4)、腫瘍形成能抑制7(ST7)、プロテインキナーゼCイータ(PRKCH)、電位依存性カルシウムチャネルサブユニットアルファ1D(CACNA1D)、細胞死関連タンパク質(DAP)、一過性受容体電位カチオンチャネルサブファミリーVメンバー3(TRPV3)、フューリン、対塩基性アミノ酸切断酵素(FURIN)、アセチル-CoAカルボキシラーゼアルファ(ACACA)、Gタンパク質サブユニットアルファi1(GNAI1)、溶質運搬体ファミリー1メンバー2(SLC1A2)、ホスホジエステラーゼ4C(PDE4C)、ELOVL脂肪酸エロンガーゼ2(ELOVL2)、核受容体コリプレッサー2(NCOR2)、内皮PASドメインタンパク質1(EPAS1)、Gタンパク質サブユニットガンマ2(GNG2)、パントテン酸キナーゼ1(PANK1)、ユビキチン特異的ペプチダーゼ4(USP4)、Gタンパク質サブユニットアルファq(GNAQ)、電位依存性カリウムチャネル修飾因子サブファミリーSメンバー1(KCNS1)、DNAポリメラーゼガンマ2、アクセサリーサブユニット(POLG2)、NADH:ユビキノンオキシドレダクターゼサブユニットA10(NDUFA10)、レラキシンファミリーペプチド受容体3(RXFP3)、イソプレノイドシンターゼドメイン含有(ISPD)、イノシトールポリリン酸-5-ホスファターゼA(INPP5A)、サーチュイン7(SIRT7)、グアニン一リン酸シンターゼ(GMPS)、SIN3-HDAC複合体関連因子(SINHCAF)、チューダードメイン含有1(TDRD1)のうちの少なくとも1種、好ましくは少なくとも5種、好ましくは少なくとも10種、好ましくは少なくとも20種、好ましくは全てを含む。
【0140】
好ましくは前記遺伝子セットを、本発明の遺伝子セットを利用可能なアッセイを用いてレベルおよび/または活性を決定することができるタンパク質をコードする遺伝子に関してさらにフィルターにかけることによって得る。言い換えれば、前記遺伝子セットを、候補薬物標的についてさらに富化させる。
【0141】
一般的に言うと、本発明による年齢指標を決定するための方法および本発明によるゲノムDNA配列の集合は密接に結びついており、共通の発明の概念に基づく。したがって、本明細書における本発明によるゲノムDNA配列の集合の説明および定義を使用して、どちらもゲノムDNA配列の集合を含む本発明の年齢指標および/または縮小訓練データセットをさらに特定することができる。さらに、前記年齢指標および/または縮小訓練データセットを使用して、年齢指標を決定するための方法および/または個体の年齢を決定するための方法をさらに特定することができる。同様に、本発明の年齢指標に含まれ得る本発明によるゲノムDNA配列の集合を、本発明による年齢指標を決定するための方法によって得ることが好ましい。さらに、これは、本発明によるゲノムDNA配列の集合から選択されることが好ましい本発明の遺伝子セットにも当てはまる。
【0142】
さらに好ましい態様では、本発明は、本発明による年齢指標を決定するための方法によって得られた年齢指標、および/または前記方法によって得られた前記年齢指標に含まれるゲノムDNA配列の集合に関する。
【0143】
さらに好ましい態様では、本発明は、本明細書の実施例に記載の年齢指標に関する。
【0144】
実施例に記載の年齢指標の使用に関して、年齢指標を決定するための方法によって得られた年齢指標および/またはそれに含まれるゲノムDNA配列の集合には、本発明によるゲノムDNA配列の集合および/または遺伝子セットの、特に、個体の健康状態および/もしくはフィットネス状態を診断するための方法における、ならびに/または、老化に影響を及ぼす分子を同定するためのin silicoおよび/もしくはin vitroスクリーニング方法における使用に関して本明細書に記載されていることと同じことが当てはまる。
【0145】
さらに好ましい態様では、本発明は、本発明によるゲノムDNA配列の集合、または本発明による遺伝子セットを準備するステップを含む、個体の健康状態および/またはフィットネス状態を診断するための方法に関する。
【0146】
本明細書では、好ましくは健康状態は、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんの状態を含み、当該状態は、疾患または疾患に関連付けられる表現型の非存在、存在、またはステージを示す。したがって、健康状態は、本明細書で使用される場合、老化に関連するものであることが好ましい。
【0147】
本明細書では、老化関連疾患に関連付けられる表現型は、老化関連疾患の少なくとも1つの症状を指すことが好ましい。さらに、通常、進行する老化関連疾患もしくはがんまたはそれに関連付けられる表現型は、ある特定のステージにある。したがって、本明細書では、老化関連疾患もしくはがんまたはそれに関連付けられる表現型は、存在しないかまたは存在する、または、ある特定のステージにある可能性がある。
【0148】
好ましい実施形態では、老化関連疾患は、アルツハイマー病、パーキンソン病、アテローム性動脈硬化症、心血管疾患、がん、関節炎、白内障、骨粗鬆症、2型糖尿病、高血圧症、老化黄斑変性症および/または良性前立腺肥大症である。
【0149】
本明細書では、好ましくはフィットネス状態は、個体の血圧、体重、免疫細胞のレベル、炎症のレベルおよび/または認知機能を含む。
【0150】
本明細書では、好ましくは個体の健康状態および/またはフィットネス状態は、その個体の生物学的年齢に関係するものである。さらに、本発明に従って決定される個体の年齢は、前記生物学的年齢および/または前記健康状態および/またはフィットネス状態を、前記個体の暦年齢により説明されるものよりも良好に説明するものである。
【0151】
特に、個体の健康状態および/またはフィットネス状態を診断することは、1つの特異的疾患および/または健康/フィットネスパラメータを診断することと相補的なものである。主に、健康状態および/またはフィットネス状態を診断することにより、個体に関する全人的または統合された展望がもたらされ得る。例えば、診断がやや消極的である場合、個体が生活様式および/または環境を変化させることが示され得る。さらに、健康状態および/またはフィットネス状態を診断することは、個体の生活様式または環境に対するある特定の医学的処置または変化により、個体の全体的な健康状態および/またはフィットネス状態が改善されたかどうかを評価するために特に有用である。個体の全体的な健康状態および/またはフィットネス状態が、特に老化に関連する場合、前記個体のウエルビーイングに関して重大な因子であることは自明である。言い換えれば、本発明による健康状態および/またはフィットネス状態を診断するための方法により、個体の疾患の状態がアッセイされるだけでなく、個体が生物学的にどのくらい若年であるか高齢であるかを診断することが可能になり得る。
【0152】
ある特定の実施形態では、個体の健康状態および/またはフィットネス状態を診断するための方法は、前記ゲノムDNA配列を含む前記個体の生体試料におけるゲノムDNA配列のメチル化レベルを決定するステップをさらに含む。
【0153】
ゲノムDNA配列および生体試料のメチル化レベルを決定することに関して、本発明の年齢指標を決定するための方法および/または個体の年齢に関して上記のことと同じことが当てはまる。
【0154】
本発明による個体の健康状態および/またはフィットネス状態を診断するための方法は、前記方法の医学的適用および/または非医学的適用を含む。
【0155】
さらに好ましい態様では、本発明は、老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法であって、本発明によるゲノムDNA配列の集合、または本発明の遺伝子セットを準備するステップを含む方法に関する。好ましくは分子は、個体に投与されると、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんを好転させる、防止するおよび/または逆転させるものである。好ましくは前記スクリーニング方法はin vitro方法である。
【0156】
老化関連疾患およびそれに関連付けられる表現型に関して、個体の健康状態および/またはフィットネス状態を診断するための方法に関して上記のことと同じことが当てはまる。さらに、老化関連疾患および/またはそれに関連付けられる表現型の防止は、その非存在を維持することに関し、好転は、ステージを通じた増悪を緩徐化すること、ステージを維持すること、および/またはより早いステージに後戻りさせることに関し、逆転は、より早いステージに後戻りさせること、好ましくは疾患および/またはそれに関連付けられる表現型が存在しないところまで後戻りさせることに関する。
【0157】
本明細書では、がんは好ましい老化関連疾患である。
【0158】
ある特定の実施形態では、本発明のスクリーニング方法は、ゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの少なくとも1つおよび/または遺伝子セットに含まれる遺伝子のうちの少なくとも1つのDNAメチル化レベルを決定するステップをさらに含む。
【0159】
好ましい実施形態では、同定された分子は、個体に投与されると、前記個体における前記ゲノムDNA配列または遺伝子のうちの少なくとも1つのDNAメチル化レベルを上昇させ、かつ/または、前記ゲノムDNA配列または遺伝子のうちの少なくとも1つのDNAメチル化レベルを低下させるものである。好ましくはDNAメチル化レベルが変更前よりも若い暦年齢に関連付けられるように変更される。
【0160】
したがって、本発明によるゲノムDNA配列の集合または遺伝子セットを、前記配列または遺伝子のメチル化の状態を、変更前よりも若い暦年齢に関連付けられるように変更する分子、すなわち薬物候補をスクリーニングするために使用することができる。例えば、ゲノムDNA配列のメチル化レベルが暦年齢と共に上昇する場合、薬物は、前記ゲノムDNA配列のメチル化レベルを低下させるものであるべきである。同様に、ゲノムDNA配列のメチル化レベルが暦年齢と共に低下する場合、薬物は、前記ゲノムDNA配列のメチル化レベルを上昇させるものであるべきである。
【0161】
ある特定の実施形態では、本発明のスクリーニング方法は、本発明の遺伝子セットが準備される場合、遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を決定するステップをさらに含む。好ましくは前記遺伝子セットは、タンパク質をコードする遺伝子のみを含む。
【0162】
好ましい実施形態では、同定された分子は、遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を阻害し、かつ/または、遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を増強するものである。好ましくはタンパク質活性が変更前よりも若い暦年齢に関連付けられるように変更される。例えば、ゲノムDNA配列によってコードされるタンパク質のタンパク質活性が暦年齢と共に上昇する場合、薬物は、前記タンパク質の活性を低下させる/阻害するものであるべきである。同様に、ゲノムDNA配列によってコードされるタンパク質のタンパク質活性が暦年齢と共に低下する場合、薬物は、前記タンパク質の活性を上昇させる/増強するものであるべきである。
【0163】
本明細書で使用される場合、タンパク質の活性とは、前記タンパク質のレベル、特に、その活性型のレベルも包含する。
【0164】
さらに好ましい態様では、本発明は、本発明によるゲノムDNA配列の集合、または本発明の遺伝子セットをスポットとして含むチップであって、各配列が別々のスポットに含有される、チップに関する。好ましくはチップはマイクロアレイチップである。
【0165】
さらに好ましい態様では、本発明は、
(a)少なくとも1つの独特のプライマー対であって、各プライマー対のうち一方のプライマーが、本発明によるゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは本発明の遺伝子セットに含まれる遺伝子のうちの1つのリバース鎖に結合するフォワードプライマーであり、他方のプライマーがフォワード鎖に結合するリバースプライマーであり、フォワードプライマーおよびリバースプライマーの3’末端と相補的な2つのヌクレオチドが、30ヌクレオチド超3000ヌクレオチド未満、好ましくは1000ヌクレオチド未満離れている、プライマー対;
(b)本発明によるゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは本発明の遺伝子セットに含まれる遺伝子のうちの1つと相補的な少なくとも1つのプローブ;および/または
(c)本発明によるチップ
を含むキットに関する。
【0166】
好ましくは前記プライマー対をポリメラーゼ連鎖反応(PCR)に使用する。前記プライマーは、DNAメチル化特異的であってもそうでなくてもよい。好ましくは前記プライマーをメチル化特異的PCR法に使用する。DNAメチル化レベルは、増幅したPCR産物を、例えば、配列決定によって、または、メチル化された配列もしくはメチル化されていない配列のいずれかに結合するプライマーを用いた異なるPCRによって得られた産物の数量を比較することによってアッセイすることによって決定することができる。好ましくは前記プローブをハイブリダイゼーション法、例えば、in-situハイブリダイゼーション法、またはマイクロアレイ法に使用する。
【0167】
ある特定の実施形態では、プライマーまたはプローブはメチル化されたDNAまたはメチル化されていないDNAのいずれかに特異的に結合し、ここで、メチル化されていないシトシンはウラシルに変換されている。
【0168】
本明細書では、メチル化されていないシトシンのウラシルへの変換をバイサルファイト処理によって行うことが好ましい。
【0169】
ある特定の実施形態では、キットは、生物材料用の容器および/または頬スワブ用の材料をさらに含む。
【0170】
ある特定の実施形態では、キットは、生体試料からゲノムDNAを抽出し、精製し、かつ/または増幅するための材料をさらに含み、ここで、材料は、スピンカラムおよび/または酵素である。
【0171】
ある特定の実施形態では、キットは、亜硫酸水素塩をさらに含む。
【0172】
さらに好ましい態様では、本発明は、本発明によるゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの少なくとも1つおよび/または本発明の遺伝子セットに含まれる遺伝子のうちの1つのDNAメチル化レベルを決定するための、本発明のチップおよび/または本発明のキットの使用に関する。
【0173】
さらに好ましい態様では、本発明は、個体の健康状態および/またはフィットネス状態を診断するための、本発明のチップおよび/または本発明のキットの使用に関する。
【0174】
さらに好ましい態様では、本発明は、老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法における、本発明のチップおよび/または本発明のキットの使用に関する。
【0175】
個体の健康状態および/またはフィットネス状態を診断すること、ならびに老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法に関して、個体の健康状態および/またはフィットネス状態を診断するための方法および老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法に関して上記のことと同じことが当てはまる。
【0176】
さらに好ましい態様では、本発明は、本発明の年齢指標、本発明によるゲノムDNA配列の集合、および/または本発明の遺伝子セットを含むデータキャリアに関する。
【0177】
ある特定の実施形態では、本発明のキットおよび/またはデータキャリアは、年齢が決定される個体に関する調査票をさらに含み、調査票は、無記入であり得るまたは前記個体に関する情報を含み得る。
【0178】
本発明は、さらに、以下のさらなる態様および実施形態に関する。
【0179】
さらなる態様では、本発明は、個体において見いだされるゲノムDNA配列のメチル化のレベルに基づいて個体の年齢を決定する方法であって、個体の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列からゲノムDNA配列のセットを事前選択するステップと、複数の個体について、事前選択されたゲノムDNA配列のメチル化のレベルを決定するステップと、事前選択されたセットからゲノムDNA配列の集合を選択するステップであって、集合内のゲノムDNA配列の数が事前選択されたセット内のゲノムDNA配列の数よりも少なくなり、集合の配列のメチル化レベルに基づいて個体の年齢を算出することができ、かつ、算出された場合の年齢の統計学的評価は、算出された年齢の許容される質を示す、ステップと、個体由来の生物材料の試料において集合の配列のメチル化のレベルを決定するステップと、集合の配列のメチル化のレベルに基づいて個体の年齢を算出するステップと、算出された年齢の質の評価基準を決定するステップと、決定された質が許容されるものであるか否かを判定するステップと、質が許容されるものと判断された場合、個体の算出された年齢を出力するステップと、判断を考慮して集合についてゲノムDNA配列を再選択するステップと、判断に応じて個体を含むように個体の群を修正するステップと、修正された群の個体のメチル化のレベルの決定に基づいて、ゲノムDNA配列の集合を事前選択されたサブセットから再選択するステップとを含む方法に関する。
【0180】
一部の実施形態では、個体の年齢に関連付けることができるメチル化のレベルを有するいくつかのゲノムDNA配列から選択されたゲノムDNA配列の集合を最初に使用し、一般には、集合内のゲノムDNA配列の数は、それらを選択するところの数よりも少ない。次いで、集合のゲノムDNA配列からメチル化レベルを得、それから年齢を決定する。一連の年齢決定の過程では、集合の組成および/または集合のゲノムDNA配列について得られたメチル化レベルに基づいて年齢を決定するやり方を、一連の決定の間に生成されたまたは得られた追加的な情報に基づいて、特に、さらに決定されたメチル化レベルに基づいて、反復して変更する。本発明の一部の実施形態では、年齢の決定は、複数の個体からの特定のゲノムDNA配列(またはCpG遺伝子座)のメチル化レベルに関する評価に基づき、ここで、複数の個体は、年齢が決定されるその個体を含むが、そうである必要はないことに留意されたい。
【0181】
驚くべきことに、このように、先行技術に対する有意な改善を実現することができることが見いだされている。
【0182】
一般的に言うと、現時点で検討されている集合および/または集合のゲノムDNA配列について得られたそれぞれのメチル化レベルに基づいて年齢を決定する(最良の)やり方のそのような適合を、メチル化レベルおよび好ましくは暦年齢が既知のさらなる個体ごとに変更することができる。時には、これを個体ごとには行わず、これらの個体のうちの一部に関してのみ行うこともできる。
【0183】
適合は、5、8、10、20、50または100の個体などの、1つよりも多くの複数の追加的な個体についてゲノムDNA配列のメチル化のレベルが決定された後にのみ実施することができる。これは、ある特定のゲノムDNA配列を選択して集合に入れるため、および/またはある特定のゲノムDNA配列のメチル化レベルに基づく年齢決定の最良のやり方を決定するための統計学的評価の労力が実質的なものである場合に特に有利になる。
【0184】
したがって、外れ値が測定された場合には、集合の組成および/またはメチル化レベルに基づいて年齢を決定する最良のやり方を単に何度も繰り返す必要はない。
【0185】
そうではなく、(統計学的)評価基準により、参照としての複数の個体のサイズがある特定の数よりも小さい、例えば、メチル化レベルが決定された全ての個体および/または選択されたゲノムDNA配列のメチル化レベルが決定されており、暦年齢も既知である全ての個体の全体数よりも小さいことが示されることに単に起因して、(統計学的)評価基準に従った質が簡単に許容できるものではないと判断される可能性がある。
【0186】
まず集合の組成および/もしくはゲノムDNA配列について得られたメチル化レベルに基づいて年齢を決定する最良のやり方を何度も繰り返した後、特定の個体の年齢決定を行うこと、ならびに/または、まず追加的な個体の年齢を算出し、次いで、後で集合および/または最良のやり方を何度も繰り返すことが可能である。
【0187】
本明細書では、「個体(individuum)」および「個体(individual)」という用語は、互換的に使用される。
【0188】
集合の組成および/またはそれぞれのメチル化レベルに基づいて年齢を得るための最良のやり方が個体の年齢の出力後に実施される場合、メチル化レベルを個体の暦年齢(既知の場合)などの個体に関する追加的な情報と一緒に保管し、したがって、保管された情報を後で統計学的(再)評価のために使用することができる。したがって、そのようなメチル化レベル情報を複数の追加的な個体について収集した後に集合および/または最良のやり方を何度も繰り返すことができる。
【0189】
上記から明らかなように、基本的に、本発明は、一実施形態では、それ自体により決定されるべき未知の結果がもたらされる測定値の統計学的評価に基づく未知の年齢の決定を改善することを提案する。驚くべきことに、これは、そのような情報を参照群に含めることによって方法の信頼度の全体的な改善を実現することができるので、それ自体矛盾しない。したがって、自己学習手法を容易にインプリメントすることができることが見いだされている。
【0190】
平均して、方法によって決定された年齢は、大きな個体群に関しては、それらの暦年齢の平均に対応するはずである。決定された年齢は、生物学的年齢であるかまたは少なくとも生物学的年齢により近く、暦年齢とは異なる可能性があり、また、多くの場合、暦年齢と相対して変動するので、それから、それにより特定の個体が平均よりも速く老化するか否かを決定することができるので、唯一有用なものである。
【0191】
したがって、暦年齢と相対して入手可能な最良の情報に従って決定された年齢のあらゆる偏差が重要である。方法は、生物学的年齢と既知の暦年齢の間の年齢の差異を確立する方法に関する、または、差異の測定および/または方法によって得られた生物学年齢間の差異を評価すると結論づけるまたは言い換えることができる。
【0192】
そのような比較のために入手可能な最良の情報を使用することでは、一般には、所定の固定数ではなく、入手可能な最大数の個体を含めることが見いだされている。全体として、個体から得られる1つおよび同じ検体について決定された年齢は、集合および/またはゲノム配列について得られたメチル化レベルに基づいて年齢を決定する最良のやり方が変化した場合、変更される。
【0193】
そのような変化に起因して、全体的な精度および/または変動がもたらされ得るが、本発明は、これに起因する全体的な精度および/または変動の改善を提供する。
【0194】
検体が、メチル化レベルの変化が防止される様式で保管される場合、測定値が十分にノイズを有さないものであり、また、再度の繰り返しに起因する変化が十分に大きければ、決定される年齢の変化を検出することは容易であることに留意されたい。したがって、本発明の自己学習手法の頻繁なインプリメンテーションを容易に検出することができることが見いだされている。
【0195】
一般的な手法では、個体の年齢または有害な健康状態に関連付けられることが既知のメチル化のレベルを有する全2800万のゲノムDNA配列から、既知の約2800万部位よりも少ないゲノムDNA配列のセットを積極的に事前選択する必要はない。そうではなく、そのような積極的な事前選択は、例えば、選択された方法に起因して、限られた数の既知の部位だけが評価される場合に、すでに行われているものとみなすべきである。
【0196】
事前選択は、例えば、Illumina(商標)によって提供されるものなどの、メチル化レベルを決定する特定の方法を選択することによって、および/または、それぞれを個体において見いだされるゲノムDNA配列の1つだけ、または全てではなく一部の決定に使用することができるスポットの限られた集合体を有し、年齢に関連付けられるメチル化のレベルを有するDNAチップを選択することによって行うことができる。したがって、特定の検出方法を使用するという決定は、暗黙の事前選択である。
【0197】
また、事前選択は、そのような様式で導き出されたデータのみを評価する場合、すなわち、集合および/または事前選択されたセットのセットの基礎を構成するおよそ2800万部位全て未満からのデータを評価する場合に、行われているとみなすことができる。
【0198】
典型的には、事前選択されたセットは、2800万の異なるゲノムDNA配列よりも著しく小さい。特に、市販の方法では、800,000(800000)またはそれよりも多くの異なるゲノムDNA配列のメチル化のレベルを決定することが可能になるが、特定部位または「スポット」の集合体を使用して非常に限られた数の異なるゲノムDNA配列のみのメチル化のレベルを決定することを可能にするチップを使用する方法は、個体の年齢の決定における使用に関して著しく安価であることが理解されよう。
【0199】
例えば、ある特定の方法では、1つまたは数千の異なるゲノムDNA配列のみ、好ましくはさらに少ない、特に1000以下のCpG遺伝子座、好ましくは500の異なるゲノムDNA配列またはCpG遺伝子座、好ましくは200未満の異なるゲノムDNA配列またはCpG遺伝子座、好ましくは150以下の異なるゲノムDNA配列またはCpG遺伝子座のメチル化のレベルを決定することを可能にするチップを使用することができる。
【0200】
集合の一部分を構成するゲノムDNA配列についてメチル化のレベルの決定だけを行うことが可能である。この場合、再繰り返しの間、集合の組成は、以前に考慮されたある特定のゲノムDNA配列が再繰り返し後に考慮されないものになった場合、および/または集合自体のゲノム配列について得られたメチル化レベルに基づいて年齢を決定する最良のやり方が変更される場合、例えば、集合のゲノムDNA配列について得られたメチル化レベルと個体の暦年齢の多変量(線形)相関から得られる回帰係数が変化する場合にのみ、変更することができる。また、再繰り返し前にさらなる配列のメチル化のレベルの決定を行うことも可能である。
【0201】
個体のメチル化のレベルの各決定に、現時点で集合の一部を構成しているものよりも(いくらか)多くのゲノムDNA配列(またはCpG遺伝子座)、例えば、約もしくは少なくとも10または約もしくは少なくとも20または約もしくは少なくとも50のより多くの配列またはCpG遺伝子座を含めることが可能である。
【0202】
それでも、個体の年齢に関連付けることができるメチル化のレベルを有し、現時点で集合の一部を構成せずに各個体または一部の個体について決定されるゲノムDNA配列の数は、通常はむしろ少ない。例えば、現時点では集合の一部を構成していないゲノムDNA配列について、現時点で集合の一部を構成しているゲノムDNA配列の数の5倍以下についてメチル化のレベルを決定することが可能である。したがって、集合が、例えば、100の異なるゲノムDNA配列を含む場合、異なるゲノム配列の全体数は、通常、500未満になる。一般には、追加的なゲノムDNA配列またはCpG遺伝子座ははるかに少数である。
【0203】
一部の実施形態では、それぞれのゲノムDNA配列がそれから年齢を決定するところのゲノムDNA配列の集合の一部を構成しないが、年齢に関連付けることができるメチル化のレベルを決定する追加的なゲノムDNA配列は、400よりも少なく、好ましくは300よりも少なく、特に100よりも少なく、特に60未満、50未満または40未満のCpG遺伝子座である。それに加えて、かつ/またはその代わりとして、集合の一部を構成しないゲノムDNA配列の集合内のゲノムDNA配列に対する比は、好ましくは5よりも少ない、好ましくは4よりも少ない、好ましくは3よりも少ない、好ましくは2よりも少ない。現時点では集合の一部を構成していないが、再繰り返しに役立つ可能性がある場合にのみ追加的なメチル化のレベルをもたらすために使用される追加的な配列も、一般には慎重に選択されることに留意する。これは事前選択で行うことができる。
【0204】
例えば、メチル化レベルが、同じく選択されて集合に入れられるが、全体的なメチル化が非常に低いまたは分散が高いCpG遺伝子座のメチル化レベルとよく相関するCpG遺伝子座を選択してセットに入れることができる。また、特定の有害な生活様式を示すことが分かっているCpG遺伝子座を、そのような遺伝子座は統計学的多変量解析において優勢ではないにもかかわらず、含めることができる。さらに、最初の参照群のサブセットに関連するCpG遺伝子座をさらに選択することができる。
【0205】
上記から明らかなように、セットおよび/または集合全体の正確な数は、十分に安価なチップなどの手頃な測定方法の利用可能性に依存する。また、データ処理費用が障害になり得る。それぞれを異なるCpG遺伝子座のメチル化レベルの決定における使用のために適合させた1000以下、500以下、200以下のスポットを有するゲノムDNA配列のメチル化のレベルを決定するために適合させたチップを使用することが好ましい場合がある。
【0206】
このチップは、以下のゲノムDNA配列またはCpG遺伝子座:
cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788、およびcg20088545のうちの1種または複数種、特に少なくとも20種、30種、40種、50種、60種、70種、80種、90種または100種、および特に全てのメチル化のレベルを決定することを可能にする少なくとも1スポット、好ましくは少なくとも10スポット、特に少なくとも20スポット、30スポット、40スポット、50スポット、60スポット、70スポット、80スポット、90スポットまたは100スポット、特に全てのスポットを含むことが特に好ましい。
【0207】
特に、前記ゲノムDNA配列またはCpG遺伝子座のそれぞれを前記チップの別々のスポットに含める。言い換えれば、前記チップの1つのスポットは前記ゲノムDNA配列またはCpG遺伝子座の1つによって規定される。チップを使用してメチル化レベルを測定する場合に少なくとも複数のCpG遺伝子座を参照することが有用であることは明らかであろう。特に、上記のCG遺伝子座のうちの少なくとも10種、好ましくは少なくとも20種、好ましくは少なくとも50種、および特に好ましくは全てが、個体(individuum)の年齢に関連付けることができるメチル化のレベルを有する事前選択されたゲノムDNA配列のセットの一部を構成し、したがって、上記のCG遺伝子座の全て、または、好ましい実施形態では、上記のCG遺伝子座の少なくともいくつかまたはごく一部のいずれかを含むゲノムDNA配列の集合を容易に得ることができる。本発明の好ましい実施形態では、前記チップを、ゲノムDNA配列のセット、特に本発明による縮小訓練データセットに含まれるゲノムDNA配列のDNAメチル化レベルを決定するために使用することができる。
【0208】
一部の場合では、CpG遺伝子座は、とりわけ公知のWO2012/162139最新のCpG遺伝子座であるcg27320127をさらに含む。上で同定されているCpGは、Illumina(商標)メチル化プローブIDを使用して同定される。
【0209】
ある特定の実施形態では、チップは、以下のゲノムDNA配列のメチル化のレベルを決定することを可能にするスポットの全体数は少なく、特に1600未満のスポット、特に800未満のスポット、特に400未満のスポット、好ましくは200未満のスポットが含まれる。
【0210】
個体(individuum)の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列のセットを定義する場合、セットは、個体(individuum)の年齢に関連付けることができるメチル化のレベルを有するヒトのゲノムDNA配列全体とは異なり、当技術分野で公知の個体(individuum)の年齢に関連付けることができるメチル化のレベルを有することが当技術分野で公知であると仮定されるCpG遺伝子座の一部または全部、例えば、WO2012/162139A1に列挙されているものを含めることができることに留意するべきである。しかし、当技術分野で公知のものに対して新規であると考えられる上記のCpG遺伝子座のうちの少なくとも10種、好ましくは20種、特に好ましくは50種、100種、特に全てが、事前選択された個体(individuum)の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列のセットの一部を構成し得る、特に、5000種以下、特に2000種以下、特に1000種以下、特に250種以下のゲノムDNA配列またはCpG遺伝子座を含み、かつ/または、事前選択されたセット内のゲノムDNA配列の全体数の少なくとも10%、好ましくはその少なくとも10%、および特に好ましくは少なくとも15%、20%、25%、33%、50%、66%、75%、80%、100%の画分を構成するとみなされる。したがって、好ましい場合では、関連するものとして本明細書に列挙されているCpG遺伝子座および新しく開示されるCpG遺伝子座は集合のかなりの部分を構成する。
【0211】
その中から集合を選択するところのセットに入るとみなされるCG遺伝子座の全体数は、それぞれの最先端に従って容易に、かつ費用効果が大きい様式で測定可能な異なる遺伝子座の数に依存することが留意されよう。例えば、測定プロセスにおいて、それぞれのCpG遺伝子座を含むDNA断片に結合するオリゴヌクレオチドを有するDNAチップの価格は、異なる部位の数によって大きく変動し、1000またはそれよりも多くの部位を有するチップから500、384、192または96の異なる部位を有するチップまで費用は著しく降下する。
【0212】
96または384という数は、決して制限するものではないが、現行の検査法において頻繁に使用される数を指すことに留意する。通常、ヒトにおける既知のCpG遺伝子座全てではなく、容易に利用できるものだけを使用することが決定されたら、事前選択するステップが実施されたとみなすことができることをすでに述べた。したがって、そのような事前選択のステップは、対応して少数のメチル化レベルだけを含むデータセットを参照することによってなされ得る。
【0213】
個体由来の生物材料の試料における集合の配列のメチル化のレベルを決定することは、当該試料に対してすでに行われた測定を参照して行うことができることにも留意する。したがって、ある特定の配列のメチル化のレベル決定を、対応するデータファイルを開くことによって実施することができる。事前選択されたセットからゲノムDNA配列の集合を特異的様式で選択することについても同じことが当てはまる。個体からの参照データの先行する解析によって決定された集合を含むデータベースが参照された場合にこの選択がなされたとみなされるべきである。
【0214】
年齢の算出に関しては、最も頻繁に、セット内および/または複数内のゲノムDNA配列の数は、例えば、5よりも多く、特に、10よりも多く、特に、少なくとも50の異なるゲノムDNA配列を含むので、幾分大きいことに留意する。また、群内の個体の数も幾分大きく、好ましくは少なくとも10の個体、好ましくは少なくとも50の個体、特に少なくとも100の個体、特に少なくとも200の個体、および好ましい実施形態では少なくとも1000の個体を含む。したがって、通常、決定されたメチル化のレベルに基づいて個体の年齢を算出する最良のやり方を決定するためには数学的解析、特に統計解析が必要である。そのような算出の「最良の」やり方は、絶対的な最良のやり方でなくてよく、非常に良好なやり方を指し得ることに留意するべきである。言い換えれば、決定のやり方は、算出が特に単純なものであるとしても、および/または絶対極値ではなく統計関数の局所的極値が使用されたことが理由で、「最良の」やり方であると言うことができる。
【0215】
上記から明らかなように、一般には、集合の配列のメチル化のレベルに基づいた個体の年齢の算出は、多変量回帰から、特に多変量線形回帰からの回帰係数も使用する様式で年齢を算出するためにパーセンテージなどのメチル化のレベルに関する値を使用する様式で行われる。統計学的評価基準などの評価基準の算出は、異なるやり方で実施される。例えば、配列のメチル化のレベル自体を信頼できるものとみなすことができるか否かを決定することができる。レベルが例外的に低い場合、例えば、決定の誤差が生じている可能性があり(例えば、メチル化レベル測定のノイズに起因して)、したがって、その測定を無視するかまたは他のレベルと比較して低く重み付けするべきであるので、それぞれの配列および/またはメチル化のレベルを使用することが望ましい場合がある。また、メチル化のレベルが特に高いまたは低い場合、メチル化のレベルと年齢の間の線形相関を仮定する多変量線形回帰においてなど、最初の算出の間になされた仮定を適用しないことがよい場合がある。
【0216】
一般に、メチル化のレベルが個体の年齢と直線的に相関するという仮定は有用であるが、非常に高いまたは非常に低いメチル化のレベルが観察される場合、または個体の暦年齢が参照群の個体の平均よりも著しく低いまたは高い場合に当てはめる必要はないことに留意するべきである。ある特定の個体を群分けした後に、個体の年齢が、参照集合において見いだされる配列のメチル化のレベルに基づいてどのようにして最良に算出されるかを決定することによって、より線形の相関を決定することが有用であり得る。例えば、男性個体および女性個体、小児、ティーンエイジャー、若年成人、中年者および高齢者を弁別することが望ましい場合がある。また、例えば、喫煙者と非喫煙者、特定の異なる栄養習慣を有する人の間、例えば、脂肪の多いものを頻繁に食べる人とそうでない人、魚を頻繁に食べる人と赤身肉を頻繁に食べる人、アルコールまたは特定のアルコール、例えばビールまたはワインなどのアルコール飲料などを頻繁におよび/または定期的に飲む人、定期的に運動する人としない人、汚染物質または放射性材料および/もしくはある特定の化学物質などの危険物質に曝露する有害な環境で働いている人を区別することが有用であり得る。
【0217】
したがって、算出された年齢の質の統計学的評価基準の算出に、既知の暦年齢の算出された生物学的年齢に対する有意な偏差が、参照セットに関して得られた偏差の全体よりも大きく、かつ/または集合の配列のメチル化のレベルが測定された複数の他の個体よりも大きいか否かを考慮に入れることができる。有意性が少なくとも2σ、3σ、4σ、5σまたは6σである場合、差異を有意に大きいとみなすことができる。
【0218】
また、質の統計学的評価基準を、個体の参照セットが十分に大きいか否かを決定することによって推定することができる。これは、例えば、スピアマン相関が0.85未満、好ましくは0.90未満、好ましくは0.91未満および好ましくは0.92であり、平均誤差(MAE)が6歳よりも大きい、好ましくは5歳よりも大きい、特に4歳よりも大きい回帰がなされた場合には当てはまらない。算出された別々の年齢のそれぞれについて信頼区間を推定することも可能であること、および、統計学的評価基準の算出に、算出された年齢の信頼区間の決定を含めることができることが理解されよう。しかし、算出された年齢の質の統計学的評価基準の算出は、例えば、基礎をなす参照群が十分に大きいかどうかを決定することによって、より容易に行うことができる。群が小さすぎると考えられる場合には、質が十分に高いものではないと決定することができる。これは、参照群全体における個体の数が少なすぎる場合、および/または参照群における個体の数が、それぞれ事前選択されたゲノムDNA配列のセットまたは選択された集合におけるゲノムDNA配列またはCpG遺伝子座の数を考慮して少なすぎる場合に当てはまる。
【0219】
年齢を推定および算出する最良のやり方を決定する際に、メチル化レベルが決定された個体の全てまたは喫煙者であるもしくは女性であるなどのある特定の特性を有する個体の全てが参照されたのではない場合、算出された年齢の質が十分に高いものではないことを決定することもできる。この場合、(統計学的)評価基準は、参照群内のメンバーの数に対する、メチル化のレベルおよび適用可能な場合には追加的な情報が入手可能な個体の数になる。
【0220】
そのような差異の算出は、個体の年齢の算出前であっても新しいデータが参照群に入れられていないことを決定することによって行うことができる。次いで、質が許容されるものと判断される場合に少なくとも個体の年齢が出力されるが、算出の質が疑わしいまたは不十分な場合であっても年齢を出力することが可能であることに留意するべきである。例えば、それでもなお、個体の年齢を出力することが有用であり得、これは、オペレーターが、算出された年齢の質が何故疑わしいとみなされたのかが容易に説明される任意の特定の問題を検出することができるかどうかを確認することが可能になるからである。例えば、個体が間違って群分けされ、したがって、強力な喫煙者である若年男性の群について得られたゲノムDNA配列の集合および回帰係数を使用して年齢が決定されたが、当該個体が高齢の非喫煙女性であることが起こり得る。一部の実施形態では、CpG遺伝子座の複数の集合をセットに基づいて定義し、これらの集合のうちの1つを、解析された1つまたは複数の特定のCpG遺伝子座のメチル化レベルおよび/またはその独立にもたらされた追加的な情報から導き出された特定の情報に基づいて選択する。事前選択されたセット内のCpG遺伝子座のうちのいくつかを選択することができ、したがって、特定の集合を選択することができる。いくつかの集合からの特定の集合のそのような準備および/または選択は、それ自体が発明であるとみなされるべきである。また、算出された年齢を個体への説明と共に出力し、標準のまたは保証された質が実現されなかったとして返却することが可能になる。
【0221】
また、集合および/または配列のメチル化のレベルに基づいて年齢を得る最良のやり方の再繰り返しが得られたら、年齢を再算出し、その時初めて、個体の算出された年齢を修正された様式で出力することが可能になる。
【0222】
個体の群の修正は、通常、メチル化のレベルがさらに決定された1または複数の個体を含めることによって行う。しかし、個体を交換すること、または、個体の群を、群を分割することによって修正することなども可能になる。例えば、最初の個体の群が幾分小さく、したがって、喫煙者と非喫煙者、男性と女性、若年者と高齢者、アルコールを飲む人と飲まない人を区別することが望ましくないか、実行可能でないかまたは合理的でない場合が生じ得る。次いで、しばらくした後、多数の測定を行い、一部の場合では、喫煙者である個体または非喫煙者である個体などの追加的な特性を決定し、したがって、次いで、1つの個体または数個体をそれらの特性に基づいて追加し、そのような特性に従って群を分割することによって、群を修正することができる。
【0223】
メチル化のレベルは、多数の生きている生物体において、生物体の年齢に関係する様式で変化することに留意するべきである。しかし、年齢を決定する方法は、通常、哺乳動物、特に霊長類、特にヒトの年齢を決定するために使用される。それでもなお、例えば、特に高価な動物を売買する場合に、他の生物に対して、年齢の少なくとも大まかな推定値が有用であり得る。
【0224】
好ましい実施形態では、個体は、ヒトである。当然、これは、今度は参照群の個体にも当てはまる。上に列挙されている多数のステップには広範囲にわたる算出が必要であることがすでに上記されている。したがって、これらのステップをコンピュータによって実行される自動化された様式でインプリメントすることが極めて重要である。セットまたは集合において少なくとも20の異なるゲノムDNA配列が考慮される場合、および参照群から少なくとも20個体、好ましくは100個体である場合、コンピュータによるインプリメンテーションを伴わない算出は特に誤差が多いと予測され、したがって、それら全体の結果が全く役に立たず、信頼できないものと考えなければならないことに留意するべきである。そのような算出はまた、ヒトによって行われる計算の費用の観点から手頃なものでもなく、結果を待つことがあらゆる個体に許容されるものでもない。したがって、算出および評価ステップの少なくとも1つおよび好ましくは全てをコンピュータによって実行することが極めて重要だと考えられる。
【0225】
それに従って個体において見いだされるゲノムDNA配列のメチル化のレベルを決定するところのやり方に関しては、当技術分野においてそれ自体が公知の以下の方法、メチル化シーケンシング/バイサルファイトシーケンシング、PCR法、特に、メチル化特異的PCR(MSP)、リアルタイムメチル化特異的PCR、定量的メチル化特異的PCR(QMSP)、COLD-PCR、メチル化DNA特異的結合性タンパク質を使用したPCR、標的化多重PCR、リアルタイムPCRおよびマイクロアレイに基づくPCRのうちの少なくとも1つ、高分解能融解分析(HRM)、メチル化感受性一塩基プライマー伸長(MS-SnuPE)、メチル化感受性一本鎖コンフォメーション分析、メチル感受性切断計数(MSCC)、塩基特異的切断/MALDI-TOF、例えばAgena、複合バイサルファイト制限分析(COBRA)、メチル化DNA免疫沈降(MeDIP)、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシング、バイサルファイト処理を伴わない直接シーケンシング(ナノポア技術)を参照されたい。
【0226】
本発明者らは、来るべき技術または公知であるがこれまでのところ使用もしくは市場許容性がわずかしか見られていない技術を使用して、メチル化レベルを決定する別のやり方が利用可能になると予測する。したがって、提示した方法の一覧は排他的なものではない。また、種々のCpGのメチル化レベルを決定する種々の方法を使用することが可能であり得る。また、事前選択および選択のためにメチル化レベルを決定する種々の方法を使用することが可能であり得る。
【0227】
メチル化のレベルを本発明のために使用可能な様式で検出する方法の中で、以下の方法が現在のところ特に好ましい:メチル化シーケンシング/バイサルファイトシーケンシング、メチル化特異的PCR(MSP)、リアルタイムメチル化特異的PCR、定量的メチル化特異的PCR(QMSP)、COLD-PCR、塩基特異的切断/MALDI-TOF、例えばAgena、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシング。
【0228】
一部の実施形態では、メチル化のレベルを最初に決定する個体の群は、自己学習によりなお重要なプロセスが導かれたとしても十分に安定なままである算出された年齢を得るために十分に大きなものである。言い換えれば、集合の選択および/または結果を得るための最良のやり方を何度も繰り返すことによるプロセスの最初の訓練は、最初の参照について十分に安定な値を有するように少なくとも50個体に関するものであるべきであるが、通常、実際の測定を開始する前に参照群が100個体または200個体などのより多数を有することが好ましい。上記の通り、集合の組成およびそれから年齢を算出する最良のやり方の全てを何度も繰り返すことを、十分に多数の追加的な個体をさらに考慮するまたは参照群に追加することができた後に延期することができる。
【0229】
一部の実施形態では、事前選択されたセット内のゲノムDNA配列の数を、幾分少なくすることができるが、それでもなお、集合を有用な様式で修正することが可能である。
【0230】
一部の実施形態では、事前選択されたセットは、一方では、少なくとも90のCpG遺伝子座、好ましくは少なくとも100のCpG遺伝子座、特に好ましくは少なくとも140のCpG遺伝子座、特に少なくとも150のCpG遺伝子座を含む。
【0231】
広範囲の個体を調査する場合、事前選択されたセット内のCpG遺伝子座がより多数であることが望ましいが、明白に規定され、明確に定義された群におけるメチル化レベルの測定は、事前選択されたセット内のより少数の参考CpG遺伝子座に依拠し得、時には、さらには90のCpG遺伝子座またはそれ未満が必要であることに留意するべきである。他方では、事前選択されたセットは、種々の理由で過剰なものではない。まず第1に、CpG遺伝子座のメチル化レベルの決定は、より多くのCpG遺伝子座をメチル化レベルに関して調査する場合よりも費用がかかり、複雑である。
【0232】
したがって、多数のCpG遺伝子座に依拠する方法は費用がかかるものであり、集合内または事前選択されたセット内のCpG遺伝子座の数を減少させることにより、費用が著しく低減する。また、考慮する必要があるCpG遺伝子座が少ない場合にはデータ処理が著しく簡易化される。これは、集合内のCpG遺伝子座の再繰り返しおよびそのような遺伝子座について得られたメチル化を処理する最良のやり方の両方に当てはまる。一般に、算出により特定の集合を何度も繰り返すことが拡大される、または最良のやり方がいくつかのゲノムDNA配列を考慮して高度に非線形の様式で成長するとみなすべきであることに留意する。したがって、データ解析の観点から、同様に考慮するCpG遺伝子座の数を減少させることが好ましい。しかし、事前選択されたセットにおいてたった350、170、150またはさらには100のCpG遺伝子座を考慮する場合であっても、システムを過剰決定することなく最も重要なCpG遺伝子座のメチル化レベルを決定するための、例えば多重線形回帰、主成分分析、部分最小二乗解析などの多変量解析の全体的な計算労力は、いずれにせよコンピュータによるインプリメンテーションなしでは処理できないものになる。
【0233】
決定されたメチル化レベルを、電子的な自動化された様式で、例えば、データを処理する際に、そのようなデータ処理がメチル化レベルの決定後すぐに行われない場合であっても使用することができるメチル化レベルについての電子記録またはファイルを確立することによって提供することが必要であると考えられる;試料からメチル化レベルを得るために使用される最終的な段階とデータ解析のために使用される段階の間のデータ伝送にコンピュータインターフェースを使用しないと、誤差源が導入され、これは、許容されないものとみなされるべきである。
【0234】
したがって、方法は、一般に、コンピュータによりインプリメントされるステップを有するコンピュータによりインプリメントされる方法であること、および、少なくともいくつかのステップを必ずコンピュータを使用して実行しなければならないことに留意するべきである。
【0235】
一部の実施形態では、選択された集合は、幾分少数のCpG遺伝子座を有し、特に、150未満のCpG遺伝子座、特に110未満のCpG遺伝子座、特に100未満のCpG遺伝子座、特に、90未満のCpG遺伝子座、特に、80未満のCpG遺伝子座、特に、70未満のCpG遺伝子座を含む。そのような比較的少数のCpG遺伝子座を考慮することでもなお、例えば、生活様式からの、例えば、食物、葉酸およびビタミンB12摂取などのビタミン摂取、ポリフェノール、セレン摂取、肥満および/または身体活動、タバコの煙、アルコール消費、ヒ素および大気汚染などの環境汚染物質、芳香族炭化水素および他の有機汚染物質、心理学的ストレス、交代勤務などに起因する多数の異なる影響を要因として含めることが可能になることが見いだされている。この点に関しては、論文”Alegria-Torres et al., Epigenomics, 2011 June; 3(3): 267-277”を参照されたい。これらの著者らにより、生活様式が多数の因子についてのエピジェネティクスに対して著しい影響を及ぼすこと、およびDNAメチル化が生活様式の影響を受けることが示されている。
【0236】
他方では、幾分少数のCpG遺伝子座を集合において考慮に入れることで十分であるが、集合は小さすぎるべきではない。そうでなければ、暦年齢と相対して決定される年齢または年齢の偏差が、測定誤差、参照群のデータベースが不十分なことなどの影響を受けるリスクが存在する。したがって、一部の実施形態では、少なくとも30のCpG遺伝子座、好ましくは少なくとも50のCpG遺伝子座、特に、少なくとも60のCpG遺伝子座を集合に含めることが望ましい。
【0237】
集合に適するものとして上に示されている数は、集合の参考CpG遺伝子座のメチル化レベルからデータを決定する最良のやり方の1回または複数回の再繰り返し後に確証されることに留意するべきである。
【0238】
一部の実施形態では、集合を何度も繰り返す場合、再繰り返し後の集合内のメンバーの数は再繰り返し前の集合内のメンバーの数とは異なり得る。
【0239】
しかし、一部の実施形態では、そのような再繰り返しにより、集合のCpG遺伝子座の数を必要に応じて変動させることができる、すなわち、1つまたは複数のCpG遺伝子座および集合の集合内の1つまたは複数の他のCpG遺伝子座に対する単なる置き換えは禁じられていない。
【0240】
上記の通り、通常、集合のCpG遺伝子座のメチル化レベルから年齢を決定する最良のやり方は、群内の個体の既知の暦年齢に対するメチル化レベルの多重回帰(多重線形回帰が好ましい)によって得られる係数に依拠し得る。一部の実施形態では、メチル化レベルを、所与のCpG遺伝子座の最小のメチル化に対する0%から所与のCpG遺伝子座の100%まで変動する値を考慮することによって使用し、後者の値は、メチル化レベルが所与のCpG遺伝子座について可能性のある最大のメチル化に対応する場合に使用される。言い換えれば、メチル化レベルの値を中心化および正規化する。当然、0%から100%の間を変動するパーセンテージを使用するのではなく、0から1の間の値を使用することもできる。他の値の範囲を使用することができるが、結果を評価する場合などには、0から1または0%から100%の間の値を使用することが特に直観的である。
【0241】
上記の通り、一部の実施形態では、個体の算出された年齢を出力した後、集合の再選択を測定値の質の判断とは独立して行う。
【0242】
さらに、個体の算出された年齢が許容されるものではないと判断された場合、年齢の出力を、ゲノムDNA配列の集合の再選択が行われた後、かつ再選択された集合について年齢が再算出された後にのみ行う実施形態が存在する。
【0243】
メチル化レベルまたはメチル化レベルに関する値の統計解析に関して、原理上は異なる方法を使用することができる。しかし、少なくとも1つの回帰法、例えば、算出された年齢の偏差の原因である主要成分を検索する主成分分析、最小二乗回帰、部分最小二乗回帰、LAS-SO/弾性ネット回帰および/または関連性のあるCpGを同定するためのXPG Boost法を使用した統計解析を実施することが適切であることが見いだされている。注目すべきことに、上でさらに説明した通り、LASSOと弾性ネットは異なる回帰法であり、これは、少なくとも、LASSOはリッジ回帰を含まず、かつ/または弾性ネットでは、L1正則化パラメータが1ではないことが理由である。
【0244】
方法自体に対してだけでなく、本発明による方法を実行する際に使用するキット、すなわちそのような方法において使用するためのキットに対しても保護が探求されることに留意する。
【0245】
特に、そのようなキットは、本明細書に開示される方法に従って年齢を決定することが可能になる様式で得られたおよび/または調製された個体の生物材料用の容器を少なくとも含み、キットは、患者または個体の同定に関する情報を保有する情報媒体も含み、キットは、本発明の方法を実行するための指示および/または、例えば、プローブを特定の研究所に証明書と一緒に送付することによってそのような本発明の方法をどのように実行するかの指示、および/または本発明による方法によって決定された年齢関連データを含むデータキャリアを作製するためのデータを準備するための指示および/または本発明による方法によって決定された年齢関連データを含むデータキャリアを準備するための指示をさらに含む。
【0246】
上記の通り、例えば、犯行現場において加害者の暦年齢の推定値をもたらすためにその加害者由来のDNAを伴う生物材料が試料採取されたことが原因で個体の絶対的な年齢を決定する必要があることが頻繁にあるが、決定された年齢と既知の暦年齢の比較が好ましいことも頻繁にある。
【0247】
また、メチル化レベルが決定された特定のCpG遺伝子座のメチル化レベルを考慮して暦年齢と生物学的年齢の差異を評価することが有用であり得る。これらの特定のCpG遺伝子座が集合の一部分を構成する必要はないことに留意するべきである。例えば、ある特定のCpG遺伝子座は、人が喫煙するか否か、および喫煙者が特に強力な喫煙者であるか否かに高度に依存するメチル化レベルを有し得る。
【0248】
個体についての標準の生物学的年齢を算出する場合、そのようなメチル化レベルを集合に含めることは望ましくない場合があるが、ある特定のメチル化レベルにより個体の環境または他のストレスが示されることを個体に示すことが有用であり得る。
【0249】
例えば、生物学的個体の年齢は、非喫煙者に特に有用であるCpG遺伝子座の集合を使用して決定することができる。これは、個体が非喫煙者であると示されている場合に有用であり得る。しかし、例えば、喫煙者の親のもとで育ったことが原因で非喫煙者が長期間にわたって強制的に受動喫煙させられている場合が生じ得る。その場合、特定のCpG遺伝子座のメチル化レベルは、真の非喫煙者と相対して実質的な変化を受けている可能性があり、したがって、そうではなく正確な生物学的年齢が決定されたとしても、個体に、喫煙挙動を示すある特定のCpGのメチル化レベルにより、その人が(受動)喫煙を強力に受けていることが示されることを示すことが有用であり得る。
【0250】
これにより、ある特定の場合では、事前選択されたセットが、大きな参照群における生物学的年齢を代表するものではないが、それでもなお、特定の個体に関連しうる追加的なCpG遺伝子座を含み得ることが示される。
【0251】
老化挙動とメチル化レベルの関連を考慮すると、メチル化レベルの挙動を変更することが役立ち得ることに留意するべきである。これは、妥当な手段を使用して行うことができる。とりわけ、薬物がそのような手段の一部を構成し得ると仮定することが合理的である。したがって、ある特定のCpG遺伝子座に関してメチル化レベルが対照群と相対して変化しており、この変化が有害な影響に関係するものであることが見いだされている場合、薬物が、メチル化レベルの変化を引き起こす生化学的有害作用を防止するため、または変化を起こさせないために役立ち得る。
【0252】
これを理解し、いくつかの分子を老化に影響を及ぼすことに関してスクリーニングする薬物スクリーニングの方法であって、特定のCpG遺伝子座について、スクリーニングされたいくつかの分子のうちのある分子がCpG遺伝子座のメチル化レベルに対する正の効果有するかどうかを決定するステップを含む方法も提案される。これは、特に、少なくとも部分的にin-silicoでなされる決定によって行うことができる。
【0253】
したがって、本発明に従って年齢を決定する方法において、第1のゲノムDNA配列の集合を選択した後、一連の個体について年齢を決定すること、および、一連の個体のうちの少なくとも一部の個体について、集合内のゲノムDNA配列に対して追加的なゲノムDNA配列のメチル化レベルを決定し、個体の群を、一連の個体からの少なくとも一部の個体を含むように修正し、一連の個体のうちの少なくとも一部の個体について決定された、追加的なゲノムDNA配列について得られたメチル化レベルを考慮して、ゲノムDNA配列の集合を変更すべきかどうかに関する決定を行うことができる。
【0254】
したがって、一連の個体の各単一の決定により、幾分小さく容易に許容される信頼区間を有する結果である、許容される結果が得られたとしても、一連の個体の間に得られる増え続けるデータを使用した測定の過程中、生物学的年齢の決定を反復して変更する。反復して実行される再繰り返しは、前に示されているように、統計解析で得られ、個体について得られたメチル化レベルを使用した個体の年齢の算出に使用される回帰パラメータの修正のみに関し得る、または、集合全体を変更すべきである、すなわち、追加的なDNA配列を追加し、および/または現時点で考慮されているDNA配列を考慮しないものにすべきであることを決定するものであり得る。
【0255】
結果自体が許容される場合であっても、全体的な質が改善されることが理解されよう。しかし、追加的なDNA配列を追加することによって集合自体を変化させる場合、およびそのような集合への選択を行うことができる利用可能なゲノムDNA配列の数が少ない場合、追加的な配列の追加が実際に役立つ様式で選択を行うことができるプールまたはセットを形成するDNA配列を定義することに注意を払うべきである。したがって、少なくとも一部の場合では、年齢に関連付けることができるメチル化レベルを有する非常に多数のゲノムDNA配列で出発すること、および、次いでこの考慮される多数のゲノムDNA配列を縮小し、したがって、特に標準の測定の間に反復して頻繁に、例えば、8番目、10番目もしくは100番目の個体ごとに、または、例えばx=10%、20%、25%、33%、50%、66%、75%、100%など、x%多くの個体を参照群に追加することができた後に選択が行われることが有用であると考えられる。したがって、セットは、慎重に選択すべきであり、有用な事前選択を決定するための多重選択ステップが多くの場合に望ましい可能性がある。
【0256】
例えば、まず、数百個体のゲノムDNA配列のメチル化レベルを800,000(800000)ほどの異なるゲノムDNA配列について測定することができる。得られたデータセットから、例えば、患者の実際の年齢に対して得られたメチル化レベルのデータセットの主要成分を決定する主成分分析を考慮して、数千のゲノムDNA配列を選択することができる。次いで、選択された数千のゲノムDNA配列について、数百またはそれよりも多く、例えば、数千個体に関して追加的な測定を実施することができ、したがって、生成されたデータセットから、例えば、384の異なるまたはオリゴヌクレオチドスポットを有するDNAチップによって検出可能なメチル化レベルを有する384のDNA配列のうち、数百のゲノムDNA配列を選択することができる。
【0257】
再度、ゲノムDNA配列の数を数千から384のゲノムDNA配列まで減少させることは、さらなる主成分分析を考慮して、それぞれのメチル化レベルの値を考慮して、高度に相関する異なるゲノムDNA配列のいくつかのメチル化レベルを考慮してなどで行うことができる。
【0258】
最終的な選択が行われ、ゲノムDNA配列のセットが、384の異なるゲノムDNA配列または96のゲノムDNA配列に当てはまり得る、全てのメチル化レベルの安価な決定を可能にするために十分に小さいものになった後、それらの残りのゲノムDNA配列から集合を決定することができるが、メチル化レベルの決定は、残りのメチル化DNA配列の全てについて過剰な費用を伴わずに決定することができる。
【0259】
本発明の一部の実施形態では、集合、または得られたメチル化レベルを考慮して年齢を決定する最良のやり方を変更すべきか否かを決定する場合、決定は、個体のできるだけ大きなセットに基づいて行う。したがって、現時点で使用している参照群の個体に加えて少なくとも一部の個体について、集合のメチル化レベル以外の追加的なデータを準備することができる。次いで、集合、または年齢を決定する最良のやり方を変更すべきか否かに関する決定を(同じく)追加的な個体について得られたメチル化レベルを考慮して行う。
【0260】
通常、追加的な個体に関する情報を、年齢を算出する最良のやり方に関する決定、または所与の個体の群を単に拡大することによる集合に入れるもしくは集合から出すゲノムDNA配列の選択に関する決定などに使用することに留意するべきである。しかし、個体を参照群から同時に削除すること、または、参照群を、各群が特定の特性を有する個体を有するいくつかの群に分割することが有用である、ある特定の場合が存在し得る。前に使用した参照群から個体を除外する1つの理由は、多数の追加的な個体を参照群に追加し、それを行うことにより、前の個体と追加された個体の両方の群全体を解析する場合に、前に存在していた個体が現時点で統計学的外れ値を構成するメチル化レベルを有することが見いだされる可能性があるからである。
【0261】
さらに、850000ほどのCpG遺伝子座のメチル化レベルを測定する検出方法などの、メチル化レベルを検出するための第1の検出方法を使用した事前選択が行われているが、実際の測定はCpG遺伝子座が少数のやり方でのみメチル化レベルを決定することができる方法を用いて実施され、また、交差比較においてこれらのCpG遺伝子座のメチル化レベルが同じCpGのメチル化レベルの挙動とは異なる挙動を示す場合が生じる可能性がある。ここで、第1の手段によって得られる最初の測定に最初に依拠することが有用であり得るが、集合のメチル化レベルをもたらすことに実際に使用される正確な第2の方法のために十分に大きなデータベースが利用可能になれば、より複雑な第1の方法を用いて得られたデータを削除することができる。削除が有用であり得る他の理由は、最終的に共通の特性を共有する十分に多数の個体から試料採取する場合、参照群から削除される個体はこの特性を共有しないからである。例えば、しばらくした後に、肥満ではない徹底的に訓練された運動選手について最良の結果が得られるように集合および年齢を決定する最良のやり方が決定されるべきことが決定された場合、肥満の個体を最初の参照群から削除することが可能である。
【0262】
集合および/またはメチル化レベルに基づいた年齢決定の最良のやり方を、多数の個体からのデータが利用可能な1回だけ修正することが可能であるが、それに加えて、および/またはその代わりに、以下の条件のうちの少なくとも1つを満たす場合、特定の個体についてのメチル化レベルを考慮して集合および/または最良のやり方の再評価を行うべきと決定することができる:ゲノムDNA配列において検出されたメチル化レベルの一部または全部が低すぎるとみなされる、単一の個体の予測年齢が個体の既知の暦年齢からあまりにもかけ離れている、いくつかの個体の予測年齢がいくつかの個体の既知の暦年齢からの系統偏差を示す、いくつかの個体の予測年齢が前記いくつかの個体の既知の暦年齢のあちこちに散らばっており、分散が大きすぎるとみなされる、いくつかの個体の予測された年齢が個体の既知の暦年齢からの系統偏差を示す、所与の集合に基づいて年齢が決定された個体の数が所定の数に達している、前の再選択から指定時間が経過している。
【0263】
集合および/または最良のやり方の再繰り返しまたは再評価がすぐに必要であることを決定することができ、かつ/または、そのような再繰り返しを、上記の条件を満たす場合に十分に多数の個体のデータが利用可能になるまで延期することを決定することができる。再繰り返しを延期する別の理由は、そのような再繰り返しが特定の間隔でしか行われないからである;基本的に、これらの場合の全てに関して、個体に関する情報、特にゲノムDNA配列において検出されたメチル化レベル、好ましくは既知の場合には個体の暦年齢を再繰り返し前に保管し、次いで、保管された情報全てを使用した再繰り返しを実施する。
【0264】
一部の実施形態では、決定された年齢の質の判断は、既知の暦年齢との比較を行うという点で行われる。ほとんどの場合、質の評価基準とすることができる信頼区間が公知である。非常に広範な信頼区間は、決定された年齢が信頼できるものではないことを示すものであり得る。また、一度大きな個体群が調査された場合、決定される年齢は以前に決定された他の個体の年齢からあまりにもかけ離れることはない可能性が高い。言い換えれば、一度大きな参照群が調査され、新しい個体の決定された生物学的年齢が、以前にデータが解析された、老化が速いまたは遅い他の個体よりもはるかに速いまたははるかに遅い老化挙動を示した場合、特に、老化に影響を及ぼす追加的な因子が分かっていない場合には、誤差が生じた可能性が低いことはない。そのような場合、年齢は正しい可能性があるが、その質は満足できる様式で評価されたものではない。それにもかかわらず、そのような場合、決定された年齢が信頼できるものであると保証することができないとしても、決定された年齢が信頼できるものとして行動することが個体にとって得策であり得るので、決定された年齢を個体に知らせる。例えば、以前に大きな個体群では観察されていない特別に速い老化挙動が観察された場合、実際の暦年齢と比べて年齢が高いことの質は評価されていないが、個体が医師に相談することが必要になり得る。
したがって、本発明は、以下の項目に関する:
【0265】
1.年齢指標を決定するための方法であって、
(a)各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)訓練データセットに、Least Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用し、それにより、年齢指標および縮小訓練データセットを決定するステップであって、
独立変数がゲノムDNA配列のメチル化レベルであり、好ましくは従属変数は年齢であり、
年齢指標が、
(i)集合としてのゲノムDNA配列のセットのサブセット、および
(ii)集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
縮小訓練データセットが、訓練データセットのうち、LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、
ステップと
を含む方法。
【0266】
2.個体の年齢を決定するための方法であって、
(a)各個体について、
(i)ゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、複数の個体の訓練データセットを準備するステップと、
(b)訓練データセットに、Least Absolute Shrinkage and Selection Operator(LASSO)を含む回帰法を適用し、それにより、年齢指標および縮小訓練データセットを決定するステップであって、
独立変数がゲノムDNA配列のメチル化レベルであり、好ましくは従属変数は年齢であり、
年齢指標が、
(i)集合としてのゲノムDNA配列のセットのサブセット、および
(ii)集合に含有されるゲノムDNA配列ごとに少なくとも1つの係数
を含み、
縮小訓練データセットが、訓練データセットのうち、LASSOによって除外されるゲノムDNA配列のDNAメチル化レベル以外の全てのデータを含む、
ステップと、
(c)年齢が決定される個体について年齢指標に含まれるゲノムDNA配列の少なくとも80%、好ましくは100%に関するDNAメチル化レベルを準備するステップと、
(d)個体の年齢をそのDNAメチル化レベルおよび年齢指標に基づいて決定するステップと、
を含み、
好ましくは決定された年齢が個体の暦年齢と異なり得る、方法。
【0267】
3.回帰法が、LASSOの後にステップワイズ回帰を適用することをさらに含む、項目1または2に記載の方法。
【0268】
4.ステップワイズ回帰を縮小訓練データセットに適用する、項目3に記載の方法。
【0269】
5.年齢指標に含まれる集合が、ゲノムDNA配列のセットよりも小さい、項目1から4のいずれかに記載の方法。
【0270】
6.年齢指標に含まれる集合が、縮小訓練データセットに含まれるゲノムDNA配列のセットよりも小さい、項目1から5のいずれかに記載の方法。
【0271】
7.ステップワイズ回帰が双方向除外であり、統計学的に有意でない独立変数が除去され、好ましくは有意レベルが0.05である、項目3から6のいずれかに記載の方法。
【0272】
8.LASSOを、biglasso Rパッケージを用いて、好ましくはコマンド「cv.biglasso」を適用することによって実施し、好ましくは「nfold」は20である、項目1から7のいずれかに記載の方法。
【0273】
9.回帰法が、リッジ回帰(L2正則化)を含まないかまたはL2正則化パラメータ/ラムダパラメータが0である、項目1から8のいずれかに記載の方法。
【0274】
10.LASSO L1正則化パラメータ/アルファパラメータが1である、項目1から9のいずれかに記載の方法。
【0275】
11.各繰り返しにおいて少なくとも1つのさらなる個体のデータを訓練データに追加し、それにより、訓練データセットを繰り返し拡大することを含めて、年齢指標を繰り返し更新する、項目1から10のいずれかに記載の方法。
【0276】
12.1回の更新ラウンドにおいて、さらなる個体のそれぞれに関する追加されるデータが、
(i)最初の訓練データセット、または拡大訓練データセットのいずれかに含まれるゲノムDNA配列のセットの少なくとも5%、好ましくは50%、より好ましくは100%、および/または
(ii)縮小訓練データセットに含有されるゲノムDNA配列
に関する個体のDNAメチル化レベルを含む、項目11に記載の方法。
【0277】
13.拡大訓練データセットにデータを寄与する全ての個体に関して存在しないゲノムDNA配列(独立変数)は全て拡大訓練データセットから除去する、項目11または12に記載の方法。
【0278】
14.1回の更新ラウンドにおいて、メチル化レベルが追加されるゲノムDNA配列のセットが、さらなる個体のそれぞれについて同一である、項目11から13のいずれかに記載の方法。
【0279】
15.1回の更新ラウンドが、LASSOを拡大訓練データセットに適用し、それにより、更新された年齢指標および/または更新された縮小訓練データセットを決定することを含む、項目11から14のいずれかに記載の方法。
【0280】
16.少なくとも1つのさらなる個体に関するデータが追加される訓練データセットが、最初の縮小訓練データセット、または更新された縮小訓練データセットのいずれかであり得る縮小訓練データセットである、項目11から15のいずれかに記載の方法。
【0281】
17.縮小訓練データセットが、繰り返しにおける前の縮小訓練データセットである、項目16に記載の方法。
【0282】
18.1回の更新ラウンドが、ステップワイズ回帰を縮小訓練データセットに適用し、それにより、更新された年齢指標を決定することを含む、項目11から17のいずれかに記載の方法。
【0283】
19.1回の更新ラウンドにおいて、少なくとも1つの個体に関するデータを訓練データセットおよび/または縮小訓練データセットから除去する、項目1から18のいずれかに記載の方法。
【0284】
20.個体のデータの追加および/または除去が、個体の少なくとも1つの特徴に依存し、特徴が、民族、性別、暦年齢、居住地、出生地、少なくとも1つの疾患および/または少なくとも1つの生活様式因子であり、生活様式因子が、薬物消費、環境汚染物質への曝露、交代勤務またはストレスから選択される、項目11から19のいずれかに記載の方法。
【0285】
21.年齢指標の質を決定し、前記質の決定が、
(a)訓練データセットにデータを寄与していない複数の個体に関する試験データセットを準備するステップであって、試験データセットが、前記個体のそれぞれについて、
(i)年齢指標に含まれるゲノムDNA配列のセットのDNAメチル化レベル、および
(ii)暦年齢
を含む、ステップと、
(b)年齢指標の質を統計学的評価および/またはドメイン境界の評価によって決定するステップであって、
統計学的評価が、
(i)試験データセットに含まれる個体の年齢を決定するステップと、
(ii)前記個体(複数可)の決定された年齢と暦年齢を相関させ、この相関を説明する少なくとも1つの統計学的パラメータを決定するステップと、
(iii)統計学的パラメータ(複数可)が、年齢指標の許容される質を示すものか否かを判定するステップであって、好ましくは統計学的パラメータが決定係数(R2)および平均絶対誤差(MAE)から選択されることが好ましく、R2が0.50よりも大きい、好ましくは0.70よりも大きい、好ましくは0.90よりも大きい、好ましくは0.98よりも大きいことおよび/またはMAEが6歳未満、好ましくは4歳未満、好ましくは最大1歳であることは、許容される質を示す、ステップと
を含み、
ドメイン境界の評価が、
(iv)年齢指標のドメイン境界を決定するステップであって、
ドメイン境界が、年齢指標に含まれる各ゲノムDNA配列の最小DNAメチル化レベルおよび最大DNAメチル化レベルであり、
前記最小DNAメチル化レベルおよび最大DNAメチル化レベルが、年齢指標を決定するために使用された訓練データセットにおいて見いだされる、
ステップと、
(v)試験データセットがドメイン境界を超えるかどうかを決定するステップであって、ドメイン境界を越えないことは、許容される質を示す、ステップと
を含む、ステップと
を含む、項目1から20のいずれかに記載の方法。
【0286】
22.訓練データセットおよび/または試験データセットが、少なくとも10の個体、好ましくは少なくとも30の個体、好ましくは少なくとも200の個体を含み、好ましくは訓練データセットが少なくとも200個体を含み、かつ試験データセットが少なくとも30個体を含む、項目1から21のいずれかに記載の方法。
【0287】
23.年齢指標は、その質が許容されないものである場合には更新される、項目21または22に記載の方法。
【0288】
24.個体の年齢は、当該個体のDNAメチル化レベル、および更新された年齢指標に基づいて決定される、項目11から23のいずれかに記載の方法。
【0289】
25.個体のデータが年齢指標の生成に使用される訓練データセットに提供されていない場合には、当該個体の年齢を年齢指標のみを用いて決定される、項目2から24のいずれかに記載の方法。
【0290】
26.データに含まれる個体の数が所定の値に達している、かつ/または前の更新から所定の時間が経過している場合には、年齢指標がさらに更新されない、項目1から25のいずれかに記載の方法。
【0291】
27.訓練データセットに含まれるゲノムDNA配列のセットが、メチル化レベルを暦年齢に関連付けることができるゲノムDNA配列から事前選択されたものである、項目1から26のいずれかに記載の方法。
【0292】
28.事前選択されたセットが、少なくとも400000、好ましくは少なくとも800000のゲノムDNA配列を含む、項目27に記載の方法。
【0293】
29.訓練データセットに含まれるゲノムDNA配列が、互いに重複せず、かつ/または対立遺伝子当たり1度しか生じない、項目1から28のいずれかに記載の方法。
【0294】
30.縮小訓練データセットが、少なくとも90、好ましくは少なくとも100、好ましくは少なくとも140のゲノムDNA配列を含む、項目1から29のいずれかに記載の方法。
【0295】
31.縮小訓練データセットが、5000未満、好ましくは2000未満、好ましくは500未満、好ましくは350未満、好ましくは300未満のゲノムDNA配列を含む、項目1から30のいずれかに記載の方法。
【0296】
32.年齢指標が、少なくとも30、好ましくは少なくとも50、好ましくは少なくとも60、好ましくは少なくとも80のゲノムDNA配列を含む、項目1から31のいずれかに記載の方法。
【0297】
33.年齢指標が、300未満、好ましくは150未満、好ましくは110未満、好ましくは100未満、好ましくは90未満のゲノムDNA配列を含む、項目1から32のいずれかに記載の方法。
【0298】
34.個体のゲノムDNA配列のDNAメチル化レベルが、ゲノムDNA配列を含む前記個体の生物材料の試料において測定されたものである、項目1から33のいずれかに記載の方法。
【0299】
35.試料が、口腔細胞を含む、項目34に記載の方法。
【0300】
36.試料を非侵襲的に得るステップをさらに含む、項目34または35に記載の方法。
【0301】
37.DNAメチル化レベルが、メチル化シーケンシング、バイサルファイトシーケンシング、PCR法、高分解能融解分析(HRM)、メチル化感受性一塩基プライマー伸長(MS-SnuPE)、メチル化感受性一本鎖コンフォメーション分析、メチル感受性切断計数(MSCC)、塩基特異的切断/MALDI-TOF、複合バイサルファイト制限分析(COBRA)、メチル化DNA免疫沈降(MeDIP)、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシングおよび/またはバイサルファイト処理を伴わない直接シーケンシング(ナノポア技術)によって測定されたものである、項目34から36のいずれかに記載の方法。
【0302】
38.個体のゲノムDNA配列のDNAメチル化レベルが、塩基特異的切断/MALDI-TOFおよび/またはPCR法で測定されたものであり、塩基特異的切断/MALDI-TOFはAgena技術であり、好ましくはPCR法はメチル化特異的PCRである、項目34から37のいずれかに記載の方法。
【0303】
39.年齢指標に含まれるゲノムDNA配列のDNAメチル化レベルが、年齢が決定される個体の前記ゲノムDNA配列を含む生物材料の試料において決定されたものである、項目34から38のいずれかに記載の方法。
【0304】
40.cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg27320127、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788、およびcg20088545のうちの少なくとも10種、好ましくは少なくとも50種、好ましくは少なくとも70種、好ましくは全て、または連続ヌクレオチド配列の少なくとも70%、好ましくは少なくとも90%を含むその断片を含むゲノムDNA配列の集合。
【0305】
41.cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg16677512、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg22077936、cg08044253、cg12548216、cg05211227、cg13759931、cg08686931、cg07955995、cg07529089、cg01520297、cg00087368、cg05087008、cg24724428、cg19112204、cg04525002、cg08856941、cg16465695、cg08097417、cg21628619、cg09460489、cg13460409、cg25642673、cg19702785、cg18506897、cg21165089、cg27540719、cg21807065、cg18815943、cg23677767、cg07802350、cg11176990、cg10321869、cg17343879、cg08662753、cg14911690、cg12804730、cg16322747、cg14231565、cg10501210、cg09275691、cg15008041、cg05812299、cg24319133、cg12658720、cg20576243、cg03473532、cg07381960、cg05106770、cg04320377、cg19432688、cg22519947、cg06831571、cg08194377、cg01636910、cg14305139、cg04028695、cg15743533、cg03680898、cg20088545、cg13333913、cg19301963、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625、およびcg23128025の少なくとも4種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは少なくとも70種、好ましくは全て、または連続ヌクレオチド配列の少なくとも70%、好ましくは少なくとも90%を含むその断片を含む、項目39に記載のゲノムDNA配列の集合。
【0306】
42.cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625、およびcg23128025のうちの少なくとも4種、好ましくは少なくとも10種、好ましくは全てを含む、項目41に記載のゲノムDNA配列の集合。
【0307】
43.cg11330075、cg00831672、cg27320127、cg10240079、cg02536625、およびcg23128025のうちの少なくとも4種、好ましくは全てを含む、項目41または42に記載のゲノムDNA配列の集合。
【0308】
44.前記ゲノムDNA配列の集合に加えておよび/またはその代わりに、その相補配列を含む、項目40から43のいずれかに記載のゲノムDNA配列の集合。
【0309】
45.SIM bHLH転写因子1(SIM1)、微小管関連タンパク質4(MAP4)、プロテインキナーゼCゼータ(PRKCZ)、グルタミン酸イオンチャネル型受容体AMPA型サブユニット4(GRIA4)、BCL10、免疫シグナル伝達アダプター(BCL10)、5’ヌクレオチダーゼドメイン含有1(NT5DC1)、腫瘍形成能抑制7(ST7)、プロテインキナーゼCイータ(PRKCH)、グリア細胞由来神経栄養因子(GDNF)、ムスケリン1(MKLN1)、エクソシスト複合体成分6B(EXOC6B)、プロテインS(PROS1)、電位依存性カルシウムチャネルサブユニットアルファ1D(CACNA1D)、ケルチ様ファミリーメンバー42(KLHL42)、OTUデユビキチナーゼ7A(OTUD7A)、細胞死関連タンパク質(DAP)、コイルドコイルドメイン含有179(CCDC179)、ヨードチロニン脱ヨード酵素2(DIO2)、一過性受容体電位カチオンチャネルサブファミリーVメンバー3(TRPV3)、MT-RNR2様5(MTRNR2L5)、フィラミンB(FLNB)、フューリン、対塩基性アミノ酸切断酵素(FURIN)、溶質運搬体ファミリー25メンバー17(SLC25A17)、Gパッチドメイン含有1(GPATCH1)、UDP-GlcNAc:ベータGalベータ-1,3-N-アセチルグルコサミニルトランスフェラーゼ9(B3GNT9)、zyg-11ファミリーメンバーA、細胞周期調節因子(ZYG11A)、発作関連6ホモログ様(SEZ6L)、ミオシンX(MYO10)、アセチル-CoAカルボキシラーゼアルファ(ACACA)、Gタンパク質サブユニットアルファi1(GNAI1)、CUEドメイン含有2(CUEDC2)、ホメオボックスD13(HOXD13)、クルッペル様因子14(KLF14)、溶質運搬体ファミリー1メンバー2(SLC1A2)、アセトアセチルCoAシンテターゼ(AACS)、アンキリンリピートおよび無菌アルファモチーフドメイン含有1A(ANKS1A)、マイクロRNA 7641-2(MIR7641-2)、V型コラーゲンアルファ1鎖(COL5A1)、亜ヒ酸塩メチルトランスフェラーゼ(AS3MT)、溶質運搬体ファミリー26メンバー5(SLC26A5)、ヌクレオポリン107(NUP107)、長鎖遺伝子間タンパク質ノンコーディングRNA1797(LINC01797)、ミオシンIC(MYO1C)、アンキリンリピートドメイン37(ANKRD37)、ホスホジエステラーゼ4C(PDE4C)、EFハンドドメイン含有1(EFHC1)、特徴不明のLOC375196(LOC375196)、ELOVL脂肪酸エロンガーゼ2(ELOVL2)、WASタンパク質ファミリーメンバー3(WASF3)、17番染色体オープンリーディングフレーム82(C17orf82)、Gタンパク質共役型受容体158(GPR158)、Fボックスおよびロイシンリッチリピートタンパク質7(FBXL7)、リプリー転写リプレッサー3(RIPPLY3)、ESCRT-IのVPS37Cサブユニット(VPS37C)、ポリペプチドN-アセチルガラクトサミン転移酵素様6(GALNTL6)、DENNドメイン含有3(DENND3)、核受容体コリプレッサー2(NCOR2)、内皮PASドメインタンパク質1(EPAS1)、PBXホメオボックス4(PBX4)、長鎖遺伝子間タンパク質ノンコーディングRNA1531(LINC01531)、配列類似性を有するファミリー110メンバーA(FAM110A)、グリコシルトランスフェラーゼ8ドメイン含有1(GLT8D1)、Gタンパク質サブユニットガンマ2(GNG2)、MT-RNR2様3(MTRNR2L3)、ジンクフィンガータンパク質140(ZNF140)、ras1のキナーゼ抑制因子(KSR1)、タンパク質ジスルフィドイソメラーゼファミリーAメンバー5(PDIA5)、精子形成関連7(SPATA7)、パントテン酸キナーゼ1(PANK1)、ユビキチン特異的ペプチダーゼ4(USP4)、Gタンパク質サブユニットアルファq(GNAQ)、電位依存性カリウムチャネル修飾因子サブファミリーSメンバー1(KCNS1)、DNAポリメラーゼガンマ2、アクセサリーサブユニット(POLG2)、ストークヘッドボックス2(STOX2)、ニューレキシン3(NRXN3)、BMS1、リボソーム生合成因子(BMS1)、フォークヘッドボックスE3(FOXE3)、NADH:ユビキノンオキシドレダクターゼサブユニットA10(NDUFA10)、レラキシンファミリーペプチド受容体3(RXFP3)、GATA結合性タンパク質2(GATA2)、イソプレノイドシンターゼドメイン含有(ISPD)、アデノシンデアミナーゼ、RNA特異的B1(ADARB1)、Wntファミリーメンバー7B(WNT7B)、プレクストリンおよびSec7ドメイン含有3(PSD3)、膜アンカー型ジャンクションタンパク質(MAJIN)、ピリジンヌクレオチド-ジスルフィドオキシドレダクターゼドメイン1(PYROXD1)、シンギュリン様1(CGNL1)、7番染色体オープンリーディングフレーム50(C7orf50)、MORNリピート含有1(MORN1)、アトラスチンGTPアーゼ2(ATL2)、WDリピートおよびFYVEドメイン含有2(WDFY2)、膜貫通タンパク質136(TMEM136)、イノシトールポリリン酸-5-ホスファターゼA(INPP5A)、TBC1ドメインファミリーメンバー9(TBC1D9)、インターフェロン調節因子2(IRF2)、サーチュイン7(SIRT7)、XXIII型コラーゲンアルファ1鎖(COL23A1)グアニン一リン酸シンターゼ(GMPS)、カリウム2孔ドメインチャネルサブファミリーKメンバー12(KCNK12)、SIN3-HDAC複合体関連因子(SINHCAF)、ヘモグロビンサブユニットイプシロン1(HBE1)、ならびにチューダードメイン含有1(TDRD1)のうちの少なくとも10種、好ましくは少なくとも30種、好ましくは少なくとも50種、好ましくは少なくとも70種、好ましくは全てを含む遺伝子セット。
【0310】
46.ISPD、KCNK12、GNG2、SIRT7、GPATCH1、GRIA4、LINC01531、LOC101927577、NCOR2、WASF3、TRPV3、ACACA、GDNF、EFHC1、MYO10、COL23A1、TDRD1、ELOVL2、GNAI1、MAP4、CCDC179、KLF14、ST7、INPP5A、SIM1、SLC1A2、AS3MT、KSR1、DSCR6、IRF2、KCNS1、NRXN3、C11orf85、HBE1、FOXE3、TMEM136、HOXD13、LOC375196、PANK1、MIR107、COL5A1、PBX4、ZNF140、GALNTL6、NUP107、LOC100507250、MTRNR2L5、C17orf82、MKLN1、FURIN、KLHL42、MORN1、ANKS1A、BCL10、DENND3、FAM110A、PROS1、WNT7B、FBXL7、GATA2、VPS37C、NRP1、POLG2、ANKRD37、GMPS、およびWDFY2のうちの少なくとも5種、好ましくは少なくとも10種、好ましくは少なくとも30種、好ましくは全てを含む、項目45に記載の遺伝子セット。
【0311】
47.微小管関連タンパク質4(MAP4)、プロテインキナーゼCゼータ(PRKCZ)、グルタミン酸イオンチャネル型受容体AMPA型サブユニット4(GRIA4)、腫瘍形成能抑制7(ST7)、プロテインキナーゼCイータ(PRKCH)、電位依存性カルシウムチャネルサブユニットアルファ1D(CACNA1D)、細胞死関連タンパク質(DAP)、一過性受容体電位カチオンチャネルサブファミリーVメンバー3(TRPV3)、フューリン、対塩基性アミノ酸切断酵素(FURIN)、アセチル-CoAカルボキシラーゼアルファ(ACACA)、Gタンパク質サブユニットアルファi1(GNAI1)、溶質運搬体ファミリー1メンバー2(SLC1A2)、ホスホジエステラーゼ4C(PDE4C)、ELOVL脂肪酸エロンガーゼ2(ELOVL2)、核受容体コリプレッサー2(NCOR2)、内皮PASドメインタンパク質1(EPAS1)、Gタンパク質サブユニットガンマ2(GNG2)、パントテン酸キナーゼ1(PANK1)、ユビキチン特異的ペプチダーゼ4(USP4)、Gタンパク質サブユニットアルファq(GNAQ)、電位依存性カリウムチャネル修飾因子サブファミリーSメンバー1(KCNS1)、DNAポリメラーゼガンマ2、アクセサリーサブユニット(POLG2)、NADH:ユビキノンオキシドレダクターゼサブユニットA10(NDUFA10)、レラキシンファミリーペプチド受容体3(RXFP3)、イソプレノイドシンターゼドメイン含有(ISPD)、イノシトールポリリン酸-5-ホスファターゼA(INPP5A)、サーチュイン7(SIRT7)、グアニン一リン酸シンターゼ(GMPS)、SIN3-HDAC複合体関連因子(SINHCAF)、チューダードメイン含有1(TDRD1)のうちの少なくとも5種、好ましくは少なくとも10種、好ましくは少なくとも20種、好ましくは全てを含む、項目45に記載の遺伝子セット。
【0312】
48.ゲノムDNA配列の集合が、項目2から39に記載の方法による縮小訓練データセットおよび/または年齢指標に含まれ、
前記遺伝子セットが、タンパク質、またはマイクロRNAもしくは長鎖ノンコーディングRNAをコードする前記ゲノムDNA配列の集合から選択することによって得られる、
項目2から39に記載の方法によって得られる項目40から44のいずれかに記載のゲノムDNA配列の集合または項目45から47のいずれかに記載の遺伝子セット。
【0313】
49.個体の健康状態の診断における使用のための、項目40から44または48に記載のゲノムDNA配列の集合、または項目45から48のいずれかに記載の遺伝子セット。
【0314】
50.健康状態が、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんの状態を含み、
状態は、疾患、または疾患に関連付けられる表現型の非存在、存在、またはステージを示す、
項目49に記載の使用のためのゲノムDNA配列の集合または遺伝子セット。
【0315】
51.老化関連疾患が、アルツハイマー病、パーキンソン病、アテローム性動脈硬化症、心血管疾患、がん、関節炎、白内障、骨粗鬆症、2型糖尿病、高血圧症、老化黄斑変性症および/または良性前立腺肥大症である、項目50に記載の使用のためのゲノムDNA配列の集合または遺伝子セット。
【0316】
52.個体のフィットネス状態を決定するための、項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または項目45から48のいずれかに記載の遺伝子セットの使用。
【0317】
53.フィットネス状態が、個体の血圧、体重、免疫細胞のレベル、炎症のレベルおよび/または認知機能を含む、項目52に記載の使用。
【0318】
54.個体の健康状態および/またはフィットネス状態を診断するための方法であって、項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または項目45から48のいずれかに記載の遺伝子セットを準備するステップを含む方法。
【0319】
55.ゲノムDNA配列を含む個体の生体試料中の前記ゲノムDNA配列のメチル化レベルを決定するステップをさらに含む、項目54に記載の方法。
【0320】
56.健康状態が、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんの状態を含み、
好ましくは老化関連疾患が、アルツハイマー病、パーキンソン病、アテローム性動脈硬化症、心血管疾患、がん、関節炎、白内障、骨粗鬆症、2型糖尿病、高血圧症、老化黄斑変性症および/または良性前立腺肥大症であり、かつ/または
フィットネス状態が、個体の血圧、体重、免疫細胞のレベル、炎症のレベルおよび/または認知機能を含む、
項目54または55に記載の方法。
【0321】
57.生体試料が、非侵襲的に、好ましくは頬スワブによって得たものである、項目55または56に記載の方法。
【0322】
58.老化に影響を及ぼす分子を同定するためのin silicoおよび/またはin vitroスクリーニング方法であって、項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または項目45から48のいずれかに記載の遺伝子セットを準備するステップを含み、
分子が、個体に投与されると、少なくとも1つの老化関連疾患、少なくとも1つの老化関連疾患に関連付けられる少なくとも1つの表現型、および/またはがんを好転させる、防止するおよび/または逆転させるものである、方法。
【0323】
59.ゲノムDNA配列のうちの少なくとも1つのDNAメチル化レベルを決定するステップをさらに含む、項目58に記載の方法。
【0324】
60.同定された分子が、前記個体に投与されると、個体におけるゲノムDNA配列のうちの少なくとも1つのDNAメチル化レベルを上昇させ、かつ/または、個体におけるゲノムDNA配列のうちの少なくとも1つのDNAメチル化レベルを低下させるものである、項目58または59に記載の方法。
【0325】
61.DNAメチル化レベルが、変更前よりも若い暦年齢に関連付けられるように変更される、項目60に記載の方法。
【0326】
62.項目45から48に記載の遺伝子セットを準備し、遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を決定するステップをさらに含む、項目58から61のいずれかに記載の方法。
【0327】
63.同定された分子が、遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を阻害し、かつ/または、遺伝子セットによってコードされる少なくとも1種のタンパク質の活性を増強するものである、項目62に記載の方法。
【0328】
64.タンパク質活性が、変更前よりも若い暦年齢に関連付けられるように変更される、項目63に記載の方法。
【0329】
65.項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、または項目45から48のいずれかに記載の遺伝子セットをスポットとして含むチップであって、各配列が、別々のスポットに含有される、チップ。
【0330】
66.少なくとも1つの独特のプライマー対を含むキットであって、
各プライマー対のうち一方のプライマーが、項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは項目45から48のいずれかに記載の遺伝子セットに含まれる遺伝子のうちの1つのリバース鎖に結合するフォワードプライマーであり、他方のプライマーが、フォワード鎖に結合するリバースプライマーであり、
フォワードプライマーおよびリバースプライマーの3’末端と相補的な2つのヌクレオチドが、30ヌクレオチド超3000ヌクレオチド未満、好ましくは1000ヌクレオチド未満離れている、
キット。
【0331】
67.項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合に含まれるゲノムDNA配列のうちの1つまたは項目45から48のいずれかに記載の遺伝子セットに含まれる遺伝子のうちの1つと相補的なプローブを少なくとも1つ含むキット。
【0332】
68.プライマーまたはプローブが、メチル化されたDNAまたはメチル化されていないDNAのいずれかに特異的に結合し、メチル化されていないシトシンが、ウラシルに変換されている、項目65または66に記載のキット。
【0333】
69.項目65に記載のチップを含むキット。
【0334】
70.生物材料用の容器および/または頬スワブ用の材料をさらに含む、項目51から57のいずれかに記載のキット。
【0335】
71.生体試料からゲノムDNAを抽出し、精製し、かつ/または増幅するための材料をさらに含み、材料が、スピンカラムおよび/または酵素である、項目66から70のいずれかに記載のキット。
【0336】
72.亜硫酸水素塩をさらに含む、項目66から71のいずれかに記載のキット。
【0337】
73.項目2から39のいずれかに記載の方法、項目40から44もしくは48のいずれかに記載のゲノムDNA配列の集合、および/または項目45から48のいずれかに記載の遺伝子セットによって得られた年齢指標を含むデータキャリア。
【0338】
74.年齢が決定される個体に関する調査票をさらに含み、調査票が、無記入であり得るまたは前記個体に関する情報を含み得る、項目66から72のいずれかに記載のキットまたは項目73に記載のデータキャリア。
【0339】
75.訓練データセット、縮小訓練データセットおよび/または追加されたデータが、個体(複数可)に関連付けることができる生活様式またはリスクパターンに関する少なくとも1つの因子をさらに含む、項目1から39のいずれかに記載の方法。
【0340】
76.因子が、薬物消費、環境汚染物質、交代勤務およびストレスから選択される、項目75に記載の方法。
【0341】
77.訓練データセットおよび/または縮小訓練データセットが、DNAメチル化レベルおよび/またはコードされるタンパク質の活性/レベルが生活様式因子のうちの少なくとも1つに関連付けられる配列に限定される、項目75または76に記載の方法。
【0342】
78.前記個体の決定された年齢と暦年齢の差に関連付けられる少なくとも1つの生活様式因子を決定するステップをさらに含む、項目75から77のいずれかに記載の方法。
【0343】
さらなる態様では、本発明は、以下の項目に関する:
【0344】
項目番号79は、個体において見いだされるゲノムDNA配列のメチル化のレベルに基づいて個体の年齢を決定する方法であって、
個体の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列からゲノムDNA配列のセットを事前選択するステップと、
複数の個体について、事前選択されたゲノムDNA配列のメチル化のレベルを決定するステップと、
事前選択されたセットからゲノムDNA配列の集合を選択するステップであって、
集合内のゲノムDNA配列の数が事前選択されたセット内のゲノムDNA配列の数よりも少なくなり、
集合の配列のメチル化レベルに基づいて個体の年齢を算出することができ、
かつ、
算出された年齢に関する統計学的評価は、算出された年齢の許容される質を示す
ように選択するステップと、
個体由来の生物材料の試料において集合の配列のメチル化のレベルを決定するステップと、
集合の配列のメチル化のレベルに基づいて個体の年齢を算出するステップと、
算出された年齢の質の統計学的評価基準を算出するステップと、
統計学的評価基準に従った質が許容されるものであるか否かを判定するステップと、
質が許容されるものと判断された場合、個体の算出された年齢を出力するステップと、
質が許容できないものと判断された場合、ゲノムDNA配列を再選択する必要があることを決定するステップと、
個体を含むように個体の群を修正するステップと、
修正された群の個体のメチル化のレベルの決定に基づいて、ゲノムDNA配列の集合を事前選択されたサブセットから再選択するステップと
を含む方法に関する。
【0345】
さらに、本発明は、個体がヒトである、上に列挙されている番号付けされた項目79に記載の年齢を決定する方法に関する項目80を開示している。
【0346】
さらに、本発明は、少なくとも1つのステップ、
特に以下のステップのうちの少なくとも1つ、
および好ましくは以下のステップのうちの全てが、
コンピュータによりインプリメントされるステップである、
上に列挙されている番号付けされた前記項目のうちの一項に記載の年齢を決定する方法に関する項目番号81を開示している:
事前選択されたセットからゲノムDNA配列の集合を選択するステップであって、
集合内のゲノムDNA配列の数が事前選択されたセット内のゲノムDNA配列の数よりも少なくなり、
集合の配列のメチル化レベルに基づいて個体の年齢を算出することができ、
かつ、
算出された年齢に関する統計学的評価は、算出された年齢の許容される質を示す
ように選択するステップ、
個体由来の生物材料の試料において集合の配列のメチル化のレベルを決定するステップ、
集合の配列のメチル化のレベルに基づいて個体の年齢を算出するステップ、
算出された年齢の質の統計学的評価基準を算出するステップ、
統計学的評価基準に従った質が許容されるものであるか否かを判定するステップ、
質が許容されるものと判断された場合、個体の算出された年齢を出力するステップ、
質が許容できないものと判断された場合、ゲノムDNA配列を再選択する必要があることを決定するステップ、
個体を含むように個体の群を修正するステップ、
修正された群の個体のメチル化のレベルの決定に基づいて、ゲノムDNA配列の集合を事前選択されたサブセットから再選択するステップ。
【0347】
さらに、本発明は、個体において見いだされるゲノムDNA配列のメチル化のレベルを、メチル化シーケンシング/バイサルファイトシーケンシング、PCR法、特に、メチル化特異的PCR(MSP)、リアルタイムメチル化特異的PCR、定量的メチル化特異的PCR(QMSP)、COLD-PCR、メチル化DNA特異的結合性タンパク質を使用したPCR、標的化多重PCR、リアルタイムPCRおよびマイクロアレイに基づくPCRのうちの少なくとも1つ、高分解能融解分析(HRM)、メチル化感受性一塩基プライマー伸長(MS-SnuPE)、メチル化感受性一本鎖コンフォメーション分析、メチル感受性切断計数(MSCC)、塩基特異的切断/MALDI-TOF、例えばAgena、複合バイサルファイト制限分析(COBRA)、メチル化DNA免疫沈降(MeDIP)、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシング、バイサルファイト処理を伴わない直接シーケンシング(ナノポア技術)のうちの少なくとも1つによって測定する、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号82を開示している。
【0348】
【0349】
さらに、本発明は、ゲノムDNA配列のメチル化のレベルを、メチル化シーケンシング/バイサルファイトシーケンシング、メチル化特異的PCR(MSP)、リアルタイムメチル化特異的PCR、定量的メチル化特異的PCR(QMSP)、COLD-PCR、塩基特異的切断/MALDI-TOF、例えばAgena、マイクロアレイに基づく方法、ビーズアレイに基づく方法、パイロシーケンシングのうちの少なくとも1つによって測定する、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号83を開示している。
【0350】
さらに、本発明は、事前選択されたゲノムDNA配列についてメチル化のレベルが決定される複数の個体が、少なくとも50個体、好ましくは少なくとも100個体、特に少なくとも200個体を含む、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法を示す項目番号84を開示している。
【0351】
さらに、本発明は、個体の群を、個体を群に追加することによって修正する、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号85を開示している。
【0352】
さらに、本発明は、個体を含むように個体の群を修正するステップが、特に個体の年齢および/または個体のゲノムDNA配列の一部もしくは全部のメチル化レベルとは無関係の因子を考慮して、少なくとも1つの他の個体を群から除外することを含む、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号86を開示している。
【0353】
さらに、本発明は、
第1のゲノムDNA配列の集合を選択した後、一連の個体について年齢を決定し、
一連の個体のうちの少なくとも一部の個体について、集合内のゲノムDNA配列に対して追加的なゲノムDNA配列のメチル化レベルを決定し、
個体の群を、一連の個体からの少なくとも一部の個体を含むように修正し、
一連の個体のうちの少なくとも一部の個体について決定された、追加的なゲノムDNA配列について得られたメチル化レベルを考慮して、ゲノムDNA配列の集合を変更すべきかどうかに関する決定を行う、
上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号87を開示している。
【0354】
さらに、本発明は、
少なくとも一部の個体について、事前選択されたセット内の全てのゲノムDNA配列のメチル化レベルを決定し、
少なくとも一部の個体について得られたこれらのメチル化レベルの全てのメチル化レベルを考慮して、ゲノムDNA配列の集合を変更すべきかどうかに関する決定を行う、
上に列挙されている番号付けされた前記項目に記載の年齢を決定する方法に関する項目番号88を開示している。
【0355】
さらに、本発明は、以下の条件:
ゲノムDNA配列において検出されたメチル化レベルの一部または全部が低すぎるとみなされる、
単一の個体の予測年齢が個体の既知の暦年齢からあまりにもかけ離れている、
いくつかの個体の予測年齢がいくつかの個体の既知の暦年齢からの系統偏差を示す、
いくつかの個体の予測年齢が前記個体の既知の暦年齢のあちこちに散らばっており、分散が大きすぎるとみなされる、
いくつかの個体の予測年齢が前記個体の既知の暦年齢からの系統偏差を示す、
所与の集合に基づいて年齢が決定された個体の数が所定の数に達した、
前の再選択から指定時間が経過した
のうちの少なくとも1つまたは好ましくはいくつかが満たされた場合、追加的な個体について得られたメチル化レベルに基づいて集合を変更する決定を行う、上に列挙されている番号付けされた前記項目に記載の年齢を決定する方法に関する項目番号89を開示している。
【0356】
さらに、本発明は、統計学的評価基準に従った質が許容されるものであるか否かを判定するステップが、個体の少なくとも一部の既知の暦年齢を考慮に入れた年齢の統計学的評価、特に、単一の個体の予測年齢が個体の既知の暦年齢から、特に既知の外れ値挙動に対してかけ離れているか否かを考慮に入れた統計学的評価を含む、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号90を開示している。
さらに、本発明は、事前選択されたセットが、少なくとも90のゲノムDNA配列、好ましくは少なくとも100のゲノムDNA配列、特に好ましくは少なくとも140のゲノムDNA配列を含み、かつ/または、事前選択されたセットが、2000未満のゲノムDNA配列、特に500未満のゲノムDNA配列、特に350未満のゲノムDNA配列、特に170未満のゲノムDNA配列、特に150未満のゲノムDNA配列を含む、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号91を開示している。
【0357】
さらに、本発明は、選択された集合が、少なくとも30のゲノムDNA配列、好ましくは少なくとも50のゲノムDNA配列、特に好ましくは少なくとも60のゲノムDNA配列を含み、かつ/または、選択された集合が、150未満のゲノムDNA配列、特に110未満のゲノムDNA配列、特に100未満のゲノムDNA配列、特に90未満のゲノムDNA配列、特に80未満のゲノムDNA配列、特に70未満のゲノムDNA配列を含む、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号92を開示している。
【0358】
さらに、本発明は、再選択された集合が、少なくとも30のゲノムDNA配列、好ましくは少なくとも50のゲノムDNA配列、特に好ましくは少なくとも60のゲノムDNA配列を含み、かつ/または、選択された集合が、150未満のゲノムDNA配列、特に110未満のゲノムDNA配列、特に100未満のゲノムDNA配列、特に90未満のゲノムDNA配列、特に80未満のゲノムDNA配列、特に70未満のゲノムDNA配列を含む、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号93を開示している。
【0359】
さらに、本発明は、再選択された集合内のゲノムDNA配列の数が、最初に選択された集合内のゲノムDNA配列の数とは異なる、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号94を開示している。
【0360】
さらに、本発明は、選択された集合に含まれる少なくとも1つのゲノムDNA配列が、再選択された集合のゲノムDNA配列に含まれない、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号95を開示している。
【0361】
さらに、本発明は、年齢を、集合のゲノムDNA配列のメチル化レベルの統計解析から、群内の個体の既知の年齢を考慮して、特に、それぞれの集合のゲノムDNA配列について、群内の個体の既知の年齢に対するメチル化レベル値の多数の線形回帰において得られた係数を使用して決定する、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号96を開示している。
【0362】
さらに、本発明は、メチル化レベルから、得られたレベルを中心化および/または正規化することによってメチル化レベル値を決定し、メチル化レベル値を統計解析に供する、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号97を開示している。
【0363】
さらに、本発明は、個体の算出された年齢を出力した後に、集合の再選択を測定値の質の判断とは独立して行う、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号98を開示している。
【0364】
さらに、本発明は、個体の算出された年齢を許容されるものではないと判断し、年齢の出力を、ゲノムDNA配列の集合の再選択が行われた後、かつ再選択された集合について年齢が再算出された後にのみ行う、上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法に関する項目番号99を開示している。
【0365】
さらに、本発明は、ゲノムDNA配列の選択が、個体のゲノムDNA配列のメチル化レベルに関する値の統計解析、特に、関連性のあるCpG遺伝子座を同定するための少なくとも1つの回帰法、特に、関連性のあるCpGを同定するための主成分分析、LASSO/弾性ネット回帰および/またはXPG Boost法のうちの少なくとも1つを使用した統計解析に基づく上に列挙されている番号付けされた前記項目のうちの1つに記載の年齢を決定する方法を示す項目番号100を開示している。
【0366】
さらに、本発明は、上に列挙されている番号付けされた前記項目のうちの1つに記載の方法に従って年齢を決定することが可能になる様式で得られたおよび/または調製された個体の生物材料用の容器を少なくとも含むキットであって、患者の同定に関する情報を保有する情報媒体も含み、上に列挙されている番号付けされた前記項目のうちの1つに記載の方法を実行するためのもしくはどのように実行されたか、および/または上に列挙されている番号付けされた項目に記載の前記方法に従った方法によって決定された年齢関連データを含むデータキャリアを作製するためのデータを準備するため、および/または、上に列挙されている番号付けされた項目に記載の前記方法に従った方法によって決定された年齢関連データを含むデータキャリアを準備するための、指示をさらに含む、キットに関する項目番号101を開示している。
【0367】
さらに、本発明は、暦年齢と生物学的年齢の差異を評価するための方法であって、上に列挙されている番号付けされた前記項目のうちの1つに記載の方法に従った方法によってメチル化レベルに基づく年齢を決定するステップと、決定された生物学的年齢を既知の暦年齢と比較するステップとを含む方法に関する項目番号102を開示している。
【0368】
さらに、本発明は、複数の個体について差異を決定し、複数の個体について差異に影響を及ぼす可能性も影響を及ぼさない可能性もある因子の値を決定し、多数の個体において歴年齢と生物学的年齢の差異に対して大きな影響を持つ因子を決定する、上に列挙されている番号付けされた前記項目に記載の暦年齢と生物学的年齢の差異を評価するための方法に関する項目番号103を開示している。
【0369】
さらに、本発明は、老化に影響を及ぼすことに関していくつかの分子をスクリーニングする方法であって、特に上に列挙されている番号付けされた項目79に記載の方法において集合のために選択されたゲノムDNA配列を参照することにより、生物学的年齢とよく相関するいくつかのゲノムDNA配列を決定するステップと、いくつかの分子のうちのある分子が、ゲノムDNA配列のメチル化レベルに対する正の効果を有するかどうかを、特にin-silicoにおける決定によって決定するステップとを含む方法に関する項目番号104を開示している。
【0370】
さらに、本発明は、複数の個体から選択されたゲノムDNA配列のメチル化レベルの評価に基づいて個体の年齢を決定する方法であって、複数の個体が、前記個体を含む方法に関する項目番号105を開示している。
【0371】
さらに、本発明は、メチル化レベルの決定における使用のために適合させたいくつかのスポット、特に500未満、好ましくは385未満、特に193未満、特に160未満のスポットを含むチップであって、前記スポットが、cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788、およびcg20088545のうちの少なくとも1つのメチル化レベルの決定において使用するために特異的に適合させた少なくとも1つのスポットおよび好ましくはいくつかのスポットを含む、チップに関する項目番号106を開示している。
【0372】
さらに、本発明は、一連の個体中の個体に対する年齢指標を決定する方法であって、決定が、個体において見いだされるゲノムDNA配列のメチル化のレベルに基づくものであり、個体の年齢に関連付けることができるメチル化のレベルを有するゲノムDNA配列のセットから選択されるゲノムDNA配列の集合のメチル化レベルに基づいて、個体についての年齢指標が、複数の個体についてのゲノムDNA配列のメチル化のレベルの統計学的評価に依拠する様式でもたらされる、方法において、個体についての年齢指標が、一連の個体の中で先行する個体について同じ年齢指標を決定するために使用した先行する統計学的評価のために参照した複数の個体とは異なる複数の個体についてのゲノムDNA配列のメチル化のレベルの統計学的評価に依拠する様式でもたらされ、第1の統計学的評価のために使用された複数の個体が、少なくとも、一連からの追加的な先行する少なくとも1つの個体が含められたことによって修正されるという点で、複数の個体に差異が生じ、好ましくは個体についての年齢指標が、2つの異なる複数の個体についての少なくとも2つの異なる統計学的評価の結果、1つの(an)集合のメチル化レベルから年齢指標を算出した場合に使用した少なくとも1つの係数に変化が生じ、かつ/または見いだされる異なるゲノムDNA配列またはCgP遺伝子座のメチル化のレベルが考慮される様式でもたらされることを特徴とする、方法に関する項目番号107を開示している。
【0373】
一部の態様では、一連の個体中の個体に対する年齢指標をゲノムDNA配列のメチル化のレベルに基づいて決定する方法であって、ゲノムDNA配列の集合を選択し、個体についての年齢指標を、前の測定値の統計学的評価を連続的に改善して、より良好なモデルを得る様式でもたらす方法が開示される。
【図面の簡単な説明】
【0374】
【
図1】
図1は、LASSOの性能を示すグラフである。148のcg部位のセットが最適であると判定された。Lasso回帰およびその成績を示す4つのプロットが示されている。4つのプロット全てにおいて、垂直の点線は選択された変数の数に対して選択された自動閾値を表す。全てのプロットが20回の交差検証の実行によって生じた平均値とそれに加えて範囲区間を報告するものである。異なる軸はbiglassoパッケージに従った異なるモデルメトリクスを示す。上の2つのプロットは交差検証された誤差の合計および決定係数(R
2)を報告するものであり、下の2つのプロットはLASSO回帰のRによるインプリメンテーションからの2つの特定のパラメータ:信号対雑音比および<bs>を報告するものである。詳細はhttps://cran.rstudio.com/web/packages/biglasso/biglasso.pdfにある。
【0375】
【
図2】
図2は、LASSOおよびその後のステップワイズ回帰によって得られた年齢指標の性能を示すグラフである。259個体の訓練データセットおよび30個体の試験データセットの暦年齢(実際の年齢)および決定された年齢(予測年齢)が示されている。訓練データセットと試験データセットの間に関連性のあるまたは有意な差は認められなかった。示されている変動係数R
2は、マージした訓練データおよび試験データに基づくものである。
【0376】
【
図3】
図3は、代表的なCpG部位と暦年齢の相関を示すグラフである。マージした訓練データおよび試験データの個体をそれらの暦年齢に基づいて群分けした(>48歳、25~48歳、および<25歳;それぞれ「高年」、「中年」および「若年」)。年齢群ごとに8つの代表的なCpG部位についてのDNAメチル化レベル(「値」)の分布が示されている。CpG部位に含まれる遺伝子がアノテートされている。
【0377】
【
図4】
図4は、HorvathによりGenome Biology 2013, 14: R115において記載されているCG部位のセットとのCG部位の重複を示す図である。ベン図は、本発明においてLASSOを適用することによって決定された148のゲノムDNA配列(CpG)のセット(IME-Cerascreen)とHorvathによりGenome Biology 2013, 14: R115において報告されている353のCpG一覧との間の重複の量を報告するものである。
図5も参照されたい。
【0378】
【
図5】
図5は、本発明においてLASSOを適用することによって決定されたCG部位(IME-Cerascreen)とその後のステップワイズ回帰を適用することによって決定されたCG部位(IME_Cerascreen_8)の重複を示す図である。HorvathによりGenome Biology 2013, 14: R115において記載されているCG部位のセットとの重複も示されている。
図4も参照されたい。
【実施例】
【0379】
(実施例1)
生体試料由来のDNAのCpGのメチル化レベルの測定
非常に多数の、およそ850.000(850000)のCpGについて、それぞれのメチル化レベルを以下のやり方で測定した:
【0380】
いくつかの試験対象の人から頬スワブで口腔細胞を採取し、QIAamp 96 DNA Swab BioRobot Kit(Qiagen、Hilden、Germany)を使用して口腔細胞からゲノムDNAを精製した。精製されたゲノムDNAを、Zymo EZ DNA Methylation Kit(Zymo、Irvine、CA、USA)を使用して亜硫酸水素ナトリウムで処理した。この処理により、メチル化されていないシトシンはウラシルに変換されるが、メチル化されたシトシンは変化しないまま残る。
【0381】
さらなるステップは全てInfinium MethylationEPIC Kit(Illumina(商標)、San Diego、CA、USA)の構成品を用い、製造者の指示に従って実施した。要するに、亜硫酸水素塩で処理した試料を変性させ、中和して、増幅のために調製した。次いで、増幅したDNAを終夜ステップにおいて等温で増幅させ、酵素により断片化した。断片化されたDNAを、イソプロパノールを用いて沈殿させ、遠心分離によって4℃で収集し、ハイブリダイゼーション緩衝剤中に再懸濁させた。次いで、断片化され、再懸濁したDNA試料をInfinium MethylationEPIC BeadChip(Illumina(商標))に分配し、BeadChipをIllumina(商標)Hybridization Oven内で終夜インキュベートして、試料をBeadChipに、ビーズに共有結合で連結させた遺伝子座に特異的な50merに断片をアニーリングさせることによってハイブリダイズさせた。
【0382】
ハイブリダイズしなかったDNAおよび非特異的にハイブリダイズしたDNAを洗い流し、BeadChipを染色および伸長のために毛細血管フロースルーチャンバー内で調製した。捕捉されたDNAを鋳型として使用したBeadChipでのオリゴの一塩基伸長によりBeadChipに蛍光標識が組み入れられ、それにより、照会されたCpG部位のメチル化レベルが決定される。BeadChipを、iScan Systemを用い、ビーズ上の一塩基伸長産物のフルオロフォアを励起させるためにレーザーを使用し、フルオロフォアから放出された光の高分解能画像を記録してスキャンした。データを、解析されるCpGそれぞれについてベータ値の算出を可能にするGenomeStudio Methylation Module(Illumina(商標))を使用して解析した。
【0383】
この手順を用いて、試料および人当たり850‘000(850000)よりも多くの異なるIllumina(商標)により定義されたCpGのメチル化レベルを測定し、850‘000(850000)を超える異なるCpGの各メチル化レベルおよび数値をもたらした。これを多数の試料に対して行い、各試料は異なる個体に由来するものであった。数値を、0が、CpGについて可能性のある最小のメチル化に対応し、1が、CpGについて最大のメチル化に対応するように正規化した。注目すべきことに、1は100%または完全なメチル化にも対応する。
(実施例2)
塩基特異的切断/MALDI-TOF(Agena)によるCpGのメチル化レベルの測定
【0384】
数百の異なるCpGの予め選択されたセットのメチル化レベルを決定するために、Agena Bioscience(San Diego、CA、USA)からのEpiTYPER DNA Methylation Analysis Kitを使用した。本実施例では、384の異なるCpGの384のメチル化レベルを決定した。
【0385】
再度、多数の人から頬スワブで口腔細胞を採取し、QIAamp 96 DNA Swab BioRobot Kit(Qiagen、Hilden、Germany)を使用して口腔細胞からゲノムDNAを精製した。精製されたゲノムDNAを、Zymo EZ DNA Methylation Kit(Zymo、Irvine、CA、USA)を使用して亜硫酸水素ナトリウムで処理した。この処理により、メチル化されていないシトシンはウラシルに変換されるが、メチル化されたシトシンは変化しないまま残る。
【0386】
その後、目的のCpGを含有する標的領域を、標的領域ごとに、それぞれがそれぞれT7プロモーターでタグ付けされたリバースプライマーを含有する特異的なプライマー対を使用してPCRによって増幅した。
【0387】
次いで、PCR産物をエビ由来アルカリホスファターゼで処理して、未反応のヌクレオチドを試料から除去し、T7 RNAポリメラーゼを使用してin vitroにおける転写を行った。得られたRNA転写物をウラシル残基において特異的に切断し、SpectroCHIPアレイに分配した。このチップをデータ取得のためにMALDI-TOF質量分析計に入れ、得られたデータをEpiTYPERソフトウェアで解析した。
【0388】
結果から、384の異なるCpGの各メチル化レベルに関する数値をもたらした。数値を再度、0が、CpGについて可能性のある最小のメチル化に対応し、1(100%)がCpGについての最大のメチル化に対応するように正規化した。
【0389】
384の異なるゲノムDNA配列のメチル化レベルを実施例2の方法によって決定したが、およそ850.000(850000)の異なるゲノムDNA配列と比較して、実施例2に従った解析の費用が著しく低く、適用時に費用が1/5未満になることが認められた。
(実施例3)
メチル化特異的PCR(msPCR)によるCpGのメチル化レベルの測定
【0390】
192の異なるCpGの予め選択されたセットのメチル化レベルを決定するために、リアルタイム定量的メチル化特異的PCR(msPCR)を以下の様式で実施した:
【0391】
192の、解析されるCpGを含有する標的領域のそれぞれについて、フォワードプライマー1つとリバースプライマー2つを含有するオリゴヌクレオチド3つの特定のセットを設計した。リバースプライマー2つは、一方が、メチル化された変化していないCと相補的なGを3’末端に有し、第2のフォワードプライマーが、変換されたウラシルと相補的なAを3’末端に有するように設計した。
【0392】
次いで、多数の人から頬スワブで口腔細胞を採取し、QIAamp 96 DNA Swab BioRobot Kit(Qiagen、Hilden、Germany)を使用して口腔細胞からゲノムDNAを精製した。精製されたゲノムDNAを、Zymo EZ DNA Methylation Kit(Zymo、Irvine、CA、USA)を使用して亜硫酸水素ナトリウム出会処理した。この処理により、メチル化されていないシトシンはウラシルに変換されるが、メチル化されたシトシンは変化しないまま残る。
【0393】
試料中に含有されるCpGのメチル化レベルを決定するために、オリゴヌクレオチド3つのセットそれぞれについて、2つのPCR反応を開始し、第1のPCR反応ではフォワードプライマーおよび2つのリバースプライマーのうちの第1のプライマーを使用し、第2のPCR反応ではフォワードプライマーおよび2つのリバースプライマーのうちの第2のプライマーを使用した。各CpGのメチル化レベルを、増幅した標的領域のそれぞれに特異的なTaqManプローブを用いたリアルタイム定量的msPCRを使用して決定した。
【0394】
結果から、192の異なるCpGの各メチル化レベルに関する数値をもたらした。数値を再度、0が、CpGについて可能性のある最小のメチル化に対応し、1(100%)がCpGについて最大のメチル化に対応するように正規化した。
【0395】
異なるゲノムDNA配列の数は実施例2の方法よりも少ないが、この方法は費用に関しては非常に競合的なものである。
(実施例4)
LASSOを使用した年齢予測因子の生成
【0396】
289個体(訓練データセットについて259個体および試験データセットについて30個体)のDNAメチル化レベルを、異なる記載がない限り実施例1に記載の通り決定した。簡単に述べると、850000の異なるゲノムDNA配列のDNAメチル化レベルを、頬スワブ試料からInfinium MethylationEPIC BeadChip(Illumina(商標))を使用して決定した。メチル化レベルをプログラムR v3.4.2を使用してベータ値として正規化し、したがって、これは0から1の間の値を有し得る。データセット、すなわち訓練データセットは表1の構造を有するデータ行列であった。
【表1】
【0397】
統計ソフトウェアR v3.4.1およびbiglassoパッケージを使用し、コマンド
cvfit<-cv.biglasso(Vars800bm、Age、seed=2401、nfolds=20)
を使用してLASSO回帰を実施した。ここで、Vars800bmは、表1に示されている模範的な行列に関する訓練データセットであり、cg部位が独立変数であり、年齢がモデリングされる従属変数である;seedは、ランダム発生装置によって使用される数である;およびnfoldsは、モデルの構築に使用しなければならない交差検証反復の数である。交差検証に関して20という値を使用した。biglassoパッケージは、以下であった:”The biglasso Package: A Memory-and Computation-Effic Solver for LASSO Model Fitting with Big Data in R”
、Yaohui Zeng and Patrick Breheny in arXiv:1701.05936v2 [statCO] 11 March 2018。
【0398】
LASSO回帰で得られたモデル(年齢指標)の式は以下の通りであった:Age=+53.9126*cg27320127+43.1588*cg16267121+31.5464*cg00831672+30.4384*cg27173374+26.5197*cg16867657+20.9302*cg14681176+19.0975*cg25606723+16.8674*cg11607603+16.6092*cg08097417+15.0595*cg11330075+14.5786*cg12333719+14.1955*cg10543136+13.6743*cg21807065+12.4988*cg19851481+12.1954*cg08224787+11.7822*cg19702785+11.7706*cg13759931+11.6845*cg19112204+11.4521*cg07955995+10.869*cg18815943+10.829*cg24724428+10.7537*cg22101188+10.4571*cg19215678+9.551*cg22519947+9.5225*cg06161948+9.3932*cg16677512+9.2647*cg05396610+8.9059*cg21628619+8.7864*cg15609017+8.6846*cg24954665+8.5015*cg25642673+8.284*cg07802350+7.9408*cg05087008+7.8335*cg12548216+7.7144*cg09965557+7.6203*cg16999154+7.6057*cg12238343+7.5126*cg08044253+7.0673*cg16465695+6.939*cg13206721+6.6733*cg09001642+6.1215*cg11176990+6.0675*cg07625177+6.0657*cg05292016+5.9961*cg16593468+5.9511*cg07291317+5.5409*cg18506897+5.4739*cg07120630+5.2279*cg08662753+5.1938*cg24088134+5.1655*cg00097800+4.8623*cg16950671+4.6431*cg16245716+4.6364*cg06279276+4.6224*cg08686931+4.1089*cg27540719+4.0082*cg07529089+3.9294*cg06945504+3.8147*cg23677767+3.7304*cg07766948+3.7296*cg00876345+3.541*cg05972734+3.5305*cg22540792+3.4169*cg08118942+3.1845*cg02032962+3.1329*cg09460489+3.0723*cg22444338+3.0498*cg08856941+2.8317*cg03741619+2.7707*cg03230469+2.6979*cg06153788+2.6678*cg10522765+2.6533*cg14911690+2.5934*cg06186727+2.5488*cg03526652+2.5152*cg01520297+2.4409*cg09805798+2.3836*cg07513002+2.3539*cg08960065+2.3285*cg06335143+2.3044*cg16673857+2.2379*cg05990274+2.0254*cg04525002+1.9303*cg13154327+1.8016*cg07494888+1.7889*cg03388189+1.7543*cg08478427+1.7476*cg18768299+1.6312*cg21165089+1.6196*cg17665505+1.613*cg13460409+1.5347*cg14305139+1.4346*cg12804730+1.2032*cg04875128+1.2025*cg05211227+1.1767*cg18737844+1.1712*cg21460868+1.15*cg26430984+1.135*cg10321869+1.0067*cg14756158+1.0021*cg16322747+0.9948*cg17343879+0.9605*cg22077936+0.7994*cg18339380+0.5436*cg00087368+0.3003*cg05812299+0.281*cg12732998+0.0507*cg16456442+0.0277*cg17760405+0.0165*cg12658720-0.2038*cg08457029-0.4098*cg21962791-0.4232*cg15761531-0.4506*cg19810954-0.4626*cg20425444-0.5866*cg23128025-0.6731*cg25845463-0.6945*cg03324695-1.0445*cg01636910-1.4555*cg12650870-1.8012*cg01820962-2.2813*cg07782620-2.4468*cg04320377-2.6024*cg09275691-2.6286*cg15008041-2.7124*cg20576243-3.4046*cg13973351-3.5199*cg08194377-3.5713*cg07381960-4.0608*cg10240079-4.2758*cg14231565-4.8117*cg24319133-4.8449*cg03680898-5.694*cg19301963-6.83*cg03473532-7.515*cg13333913-8.0702*cg05106770-8.3397*cg04287203-9.4713*cg27394136-9.4931*cg10501210-10.8424*cg19432688-12.9786*cg02536625-13.2229*cg04028695-14.2271*cg16781885-14.728*cg15743533-14.9252*cg04733826-15.7917*cg20088545-16.5954*cg06831571-367.4866。
【0399】
この年齢指標には、+16.6092*cg08097417などの148項目が含まれ、プラス記号は、メチル化レベルが年齢と正に相関することを示し、マイナス記号は、メチル化レベルが年齢と負に相関することを示す。番号が付されたcgは、Infinium MethylationEPIC BeadChipに従ったゲノムDNA配列を指し、cgに掛けられる係数の絶対値はこのcgの重要性を示す。
【0400】
種々のモデル性能確認により、148のcg部位を選択することが最適であることが確認された(
図1)。
【0401】
この年齢指標は以下の性能を有した:R2=0.72、選択された変数=148(ゼロでない係数)、ここで、R2は決定係数である。統計値は、訓練データセットに使用した259(289-30)個体とは異なるが前記289個体と同じ集団から引き出された30個体(約10%)のデータからなる独立した試験データセットを用いて決定した。
【0402】
さらに、289個体からの64個体または150個体のデータにLASSOを適用した(表2)。
【表2】
【0403】
これにより、別の個体のデータをデータセットに繰り返し追加し、年齢指標を繰り返し更新した場合にLASSOの性能が向上したことが示唆された。
(実施例5)
LASSOおよびその後のステップワイズ回帰を使用した年齢予測因子の生成
【0404】
LASSO(実施例4)を実施した後に得られた縮小訓練データセットにステップワイズ回帰を適用して、cg部位/CpGの最良の有意なセットを抜き出し、それにより、モデルを最適化した。縮小訓練データセット(IME_blasso[,-1])は、LASSOによって選択された148のcg部位に関する148列のみを保持した以外は実施例4において使用した訓練データセットと同じであった。
【0405】
ステップワイズ回帰を統計ソフトウェアR v3.4.1および以下のコマンドを使用して実施した:
model_blasso<-step(lm(Age~.,data=IME_blasso[,-1]),direction=“both”)、ここで、有意でない変数を除去する方向は「両方」、つまり、変数の追加と除去の両方が許容された。
【0406】
LASSO回帰およびその後のステップワイズ回帰で得られたモデル(年齢指標)の式は以下の通りであった:Age=+66.2822*cg11330075+65.203*cg00831672+55.7265*cg27320127+44.4116*cg27173374+38.3902*cg14681176+37.8069*cg06161948+36.6564*cg08224787+31.9397*cg05396610+30.1919*cg15609017+28.089*cg09805798+27.9392*cg19215678+27.8502*cg12333719+27.226*cg03741619+27.0323*cg16677512+25.9599*cg03230469+25.3932*cg19851481+24.5374*cg10543136+22.5525*cg07291317+21.8666*cg26430984+20.3621*cg16950671+20.3269*cg16867657+19.7973*cg22077936+18.7137*cg08044253+18.2047*cg12548216+18.1936*cg05211227+18.0812*cg13759931+17.6857*cg08686931+17.5303*cg07955995+16.1143*cg07529089+14.8703*cg01520297+14.6684*cg00087368+14.4397*cg05087008+14.4361*cg24724428+14.3055*cg19112204+14.2968*cg04525002+14.2302*cg08856941+13.3831*cg16465695+11.8127*cg08097417+11.7798*cg21628619+11.3523*cg09460489+11.2461*cg13460409+10.6268*cg25642673+10.4347*cg19702785+9.7844*cg18506897+9.5931*cg21165089+9.093*cg27540719+8.9361*cg21807065+8.8577*cg18815943+8.6138*cg23677767+7.1699*cg07802350+7.0528*cg11176990+6.5416*cg10321869+6.5049*cg17343879+5.8296*cg08662753+5.696*cg14911690+3.2983*cg12804730+3.1388*cg16322747-4.8653*cg14231565-5.5608*cg10501210-6.047*cg09275691-6.35*cg15008041-9.1942*cg05812299-9.3144*cg24319133-9.4566*cg12658720-9.8704*cg20576243-10.4082*cg03473532-10.6429*cg07381960-11.1592*cg05106770-12.0021*cg04320377-12.3296*cg19432688-12.9858*cg22519947-13.7116*cg06831571-13.8029*cg08194377-13.8668*cg01636910-14.6975*cg14305139-15.0408*cg04028695-16.3295*cg15743533-16.3314*cg03680898-18.6196*cg20088545-19.0952*cg13333913-19.3068*cg19301963-21.5752*cg13973351-23.0892*cg16781885-26.0415*cg04287203-32.3606*cg27394136-48.0918*cg10240079-50.0227*cg02536625-63.4434*cg23128025-519.3495。
【0407】
用語および統計値の意味は、実施例4において説明されている通りである。cg配列および係数に関するさらなる詳細は表6に見いだすことができる。
【0408】
したがって、ステップワイズ回帰を適用すると、選択される変数の数がさらに減少した。実際、年齢指標は88のゲノムDNA配列(cg部位/CpG)のみに含有された。
さらに、LASSOおよびその後のステップワイズ回帰によって得られた年齢指標の性能は以下の通りであった:
【0409】
訓練データを用いた場合はR2=0.9884であり、(実施例4において説明されている通り30の試験個体のデータを含有する試験データセットを用いた場合は)R2=0.9929であった。したがって、性能は、ステップワイズ回帰を伴わずにLASSOによって得られた年齢指標と比べて増強された。
【0410】
試験データに関する性能は訓練データセットと同様に良好であり、これにより、年齢指標が優れた性能を有することが示唆される(
図2)。さらに、そのような高い決定係数値は、先行技術の年齢指標に対する有意な改善を示す。
【0411】
個体(マージした訓練データセットおよび試験データセット)をそれらの暦年齢に基づいて群分けすることにより、回帰分析によって選択された代表的なcg部位のメチル化レベルが年齢群とよく相関することが確認することができた(
図3)。
【0412】
次いで、年齢指標およびその決定を表3においてHorvath, Genome Biology 2013, 14: R115の年齢指標と比較した:
【表3】
【0413】
これにより、LASSO+ステップワイズ回帰によって得られた年齢指標の性能が、ゲノムDNA配列の数(独立変数)が約25%だけであるにもかかわらず、少なくとも関連性のある先行技術の年齢指標と同様に良好である、またはさらにはより良好であることが確認された。
【0414】
年齢指標に含まれる小さなゲノムDNA配列のセットにより、代替の、すなわち、より単純な方法(実施例2および3を参照されたい)を使用して、年齢の決定がなされる個体のDNAメチル化レベルを決定することが可能になる。
【0415】
さらに、LASSO単独でまたはLASSO+その後のステップワイズ回帰を用いて決定されたcg部位のセットは、Horvath, Genome Biology 2013, 14: R115において決定されたcg部位との重複が極めてわずかであった(
図4および5)。
(実施例6)
cg部位/CpGのセットからの遺伝子セットの決定
【0416】
LASSO(実施例4)またはLASSO+ステップワイズ回帰(実施例5)を適用することによって決定されたcg部位の一覧を、遺伝子内に完全に含有されるcg部位についてフィルターにかけた。第1の一覧(表4)では、LASSOによって決定された148のCpGに基づいて、106(部分的に重複する)コード配列およびmiRNAまたは長鎖ノンコーディングRNAなどの非コード配列を選択した:
【表4-1】
【表4-2】
【表4-3】
【表4-4】
【表4-5】
【表4-6】
【表4-7】
【0417】
縮小遺伝子セットでは(表5)、新薬の開発につながるような遺伝子標的を表4から選択した。具体的には、コードされるタンパク質の活性または機能を決定するためのin vitroアッセイが当技術分野で公知である遺伝子を選択した。
【表5-1】
【表5-2】
【0418】
最後に、LASSO+ステップワイズ回帰によって決定された88のCpGから68(部分的に重複する)のコード配列およびmiRNAまたは長鎖ノンコーディングRNAなどの非コード配列の一覧をから選択した(表6)。この表は、さらに、それぞれの年齢指標の係数およびそれらの標準誤差を示す(実施例5を参照されたい)。
【0419】
【表6-1】
【表6-2】
【表6-3】
【表6-4】
【表6-5】
【表6-6】
(実施例7)
年齢指標の繰り返し更新
【0420】
試験データのドメイン境界が年齢指標の訓練セットのドメイン境界の外側にあるかどうかの決定に基づいて、場合ごとに年齢指標を自動的に更新した(発端者;個体)。ドメイン境界は、年齢指標に含まれる各ゲノムDNA配列の最小DNAメチル化レベルおよび最大DNAメチル化レベルであった。最小のDNAメチル化レベルおよび最大のDNAメチル化レベルは、年齢指標を決定するために使用した元の訓練データセットにおいて見いだされた。これらの値は、別の個体の値が入ってきて、CpGについての元の最小値および最大値が置き換えられた場合にいつでも変化する。したがって、CpGごとの最小値は小さくなり(最小値がまだ0ではない場合)、最大値は大きくなる(まだ1ではない場合)。そうすることで、年齢指標のドメイン境界は最適な値まで拡大し、年齢指標がさらに更新される見込みがますますなくなる。
【0421】
更新は以下のRコードを用いて行った:
【数1】
【数2】
【数3】
(実施例8)
データのさらなる統計解析および年齢の予測
【0422】
およそ200個体からDNAを試料採取した。これらの試料は全て、北ドイツにおいて得られたものであるが、広範なデータベースを有することを目的として、暦年齢、全体的な健康状態、肥満症、身体的フィットネスのレベル、ニコチンおよびアルコールなどの薬物を含めた薬物消費などの因子を考慮していかなる個体も排除されないよう注意を払った。したがって、群は一般集団を代表するものとみなされる。
【0423】
およそ100個体の生体試料由来のDNAのCpGのメチル化レベルを、実施例1の方法を使用して決定し、その結果、各個体について多数のおよそ850.000(850000)のCpGがもたらされた。
【0424】
データの量および計算費用を考慮して、データをより小さな任意の群に分割し、次いで、これらのより小さな群のデータを解析した。
【0425】
16個体の第1の群のデータを使用して、主成分分析を実施し、約10の主要成分が群試料中のCpGのメチル化レベルに関して観察される分散のほとんど全ての要因であり、最初の2つの構成成分がすでに変動の98%におよび、それにより、非常に多数の異なるCpGのメチル化レベルを考慮しているにもかかわらず、数の減少が勧められることが明白に示されることが見いだされた。主成分分析に基づき、回帰技法を使用して、各群について予測因子モデルを確立したが、構築されたモデルではそれでもなお係数の一部が有意でないことが基本的に示された。
【0426】
そうであっても、決定されたいくつかの係数が統計的有意性を有さないことも決定された。
【0427】
これを考慮して、98個体の第1のより大きな群からのデータを、考慮されるCpGの数が明白に減少している一方で、全てのパラメータの高い統計的有意性を維持するモデルを確立する意図で解析した。この目的のために、第1のLASSO回帰を実行した;LASSO回帰が当技術分野で周知の技法であること、およびLasso回帰をインプリメントするためのソフトウェアパッケージが容易に入手可能であることに留意されたい。所与のCpGのメチル化レベルが特定の統計学的関連性を有するか否かを区別することができ、これにより、いくらかの関連性を有するCpGのみを考慮することが可能になることに留意されたい。具体的には、この点において、”The biglasso Package: A Memory-and Computation-Effic Solver for LASSO Model Fitting with Big Data in R” by Yaohui Zeng and Patrick Breheny in arXiv: 1701.05936v2 [statCO] 11 March 2018を参照する。LASSO回帰により最適なセットが構成されることが決定された50の異なるCpGのみの選択を使用して、導き出されたモデルをさらに最適化するための試みを行った。これは、XgBoostアルゴリズムを使用して行った。XgBoostは、いくつかの言語に対する勾配ブースティングフレームワークを提供する周知のオープンソースソフトウェアライブラリーであることに留意されたい。XgBoostは統計学的モデルに使用される係数を修正する働きをすることに留意されたい。XgBoostアルゴリズムおよびそのインプリメンテーションに関するさらなる詳細については”XGBoost: A Scalable Tree Boosting System”, by T. Chen and C. Guestrin, arXiv: 1603.02754v3, 10. Juni 2016を参照されたい。引用文書の内容は、開示のためにその全体が本明細書に含められる。
【0428】
良好な回帰係数をもたらす高性能モデルを得ることができることが見いだされた。
【0429】
しかし、考慮される群について高い回帰係数が実現され、高性能モデルがそのままで維持されたことに満足するのではなく、別の98個体からのデータを前と同じ様式で解析した。第2群に関して、約78のCpGをモデルに考慮すべきであり、78のCpGのうち8のCpGが第1の98個体の任意の群について選択された50のCpGと重複することが見いだされた。
【0430】
次いで、別の実行を行い、マージした群では、70のCpGが、最初に考慮されたおよそ850000の異なるCpGからのCpGの有用な選択を構成することが決定された。これらの70のCpGから、10のCpGが第1群のものとだけ重複し、12のCpGが第2群のものとだけ重複し、8のCpGが両群と重複した。
【0431】
XgBoostを用いて実施した回帰により、20ラウンドの交差検証後に同じ高性能を維持することが可能になった。
【0432】
これにより、統計学的手段、特にLASSO回帰、PCAまたは多数のCpGのうちの特定のCpGが統計学的関連性を有するか否かを区別する他の手段により、CpGの数を非常に大きなセット全体から幾分小さなセットまで著しく減少させることが可能になり、これにより、上の実施例2および3において言及した方法を使用した安価な検出が可能になる。
【0433】
次いで、CpGの小さなセットのみに関して、考慮されるCpGが少数であるにもかかわらず、特に確立された統計学的モデルのパラメータを何度も繰り返すことにより高精度かつ小さな信頼区間で年齢を決定することを可能にする有用なモデルを確立することができる。
【0434】
このように、考慮されるCpGが全体的少数であるにもかかわらず、年齢の決定は最初に極めて高精度になり、時間と共に増す信頼度を有する。
【国際調査報告】