(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108768
(43)【公開日】2024-08-13
(54)【発明の名称】情報処理装置、方法及びプログラム
(51)【国際特許分類】
G16H 50/30 20180101AFI20240805BHJP
【FI】
G16H50/30
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023013321
(22)【出願日】2023-01-31
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(71)【出願人】
【識別番号】507148456
【氏名又は名称】学校法人 岩手医科大学
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】永田 雅俊
(72)【発明者】
【氏名】中村 みゆき
(72)【発明者】
【氏名】清水 厚志
(72)【発明者】
【氏名】小巻 翔平
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
(57)【要約】
【課題】エピゲノム情報から未来の生物学的年齢に関する予測を効果的に行うことのできる情報処理装置を提供する。
【解決手段】複数のサンプルについて生活習慣の各項目の値と、年齢と、DNA修飾レベルデータとを記憶しているデータベース15を参照し、年齢及びDNA修飾レベルデータが入力される対象者について、DNA修飾レベルデータが当該対象者と同一であるまたは類似すると判定されるサンプルからなるグループを前記データベースから決定する第1処理21と、前記グループにおける年齢とDNA修飾レベルデータとの関係から、前記対象者が前記グループに対応する生活習慣を継続した場合の未来のDNA修飾レベルデータを予測する第2処理222と、当該予測した未来のDNA修飾レベルデータに生物学的年齢予測モデルを適用することで、前記対象者の未来の生物学的年齢を予測する第3処理22と、を実行する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
複数のサンプルについて生活習慣の各項目の値と、年齢と、DNA修飾レベルデータとを記憶しているデータベースを参照し、年齢及びDNA修飾レベルデータが入力される対象者について、DNA修飾レベルデータが当該対象者と同一であるまたは類似すると判定されるサンプルからなるグループを前記データベースから決定する第1処理と、
前記グループにおける年齢とDNA修飾レベルデータとの関係から、前記対象者が前記グループに対応する生活習慣を継続した場合の未来のDNA修飾レベルデータを予測する第2処理と、
当該予測した未来のDNA修飾レベルデータに生物学的年齢予測モデルを適用することで、前記対象者の未来の生物学的年齢を予測する第3処理と、を実行することを特徴とする情報処理装置。
【請求項2】
前記対象者について入力された年齢でのDNA修飾レベルデータに前記生物学的年齢予測モデルを適用して、当該年齢での生物学的年齢を予測する第4処理をさらに実行し、
前記第1処理では、前記グループを、DNA修飾レベルデータが前記同一であると判定されるものとして決定し、
前記第2処理では、前記グループに対応する生活習慣を、前記対象者の当該年齢までの生活習慣を継続するものとして扱い、
前記第4処理で予測された当該年齢での生物学的年齢からの未来への変化として、前記第3処理で予測された未来の生物学的年齢を、前記対象者が当該生活習慣を継続したことによる結果として出力する第5処理をさらに実行することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記対象者について入力された年齢でのDNA修飾レベルデータに前記生物学的年齢予測モデルを適用して、当該年齢での生物学的年齢を予測する第4処理をさらに実行し、
前記第1処理では、前記グループを、DNA修飾レベルデータが前記類似であると判定されるものとして決定し、
前記第2処理では、前記グループに対応する生活習慣を、前記対象者の当該年齢までの生活習慣を部分的に変更するものとして扱い、
前記第4処理で予測された当該年齢での生物学的年齢からの未来への変化として、前記第3処理で予測された未来の生物学的年齢を、前記対象者が前記生活習慣を部分的に変更したことによる結果として出力する第5処理をさらに実行することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記第1処理ではさらに、前記類似であると判定された前記グループを第1グループとし、且つ、前記データベースを参照してDNA修飾レベルデータが前記対象者と同一であると判定されるグループを第2グループとして決定し、
前記第2グループの生活習慣と前記第1グループの生活習慣との相違を、前記対象者が前記生活習慣を部分的に変更する内容として抽出する第6処理をさらに実行することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記第2処理では、前記関係をモデル化するものとして、前記グループにおいて年齢を説明変数とし、DNA修飾レベルデータを目的変数とする回帰モデルを生成して、当該回帰モデルを適用することにより、前記対象者について入力される年齢及び当該年齢におけるDNA修飾レベルデータから、当該対象者の未来におけるDNA修飾レベルデータを予測することを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記第2処理では、前記データベースを参照して、DNA修飾レベルデータを構成する複数の被修飾サイトのうち、当該被修飾サイトにおける修飾レベルと年齢との間に相関があるものを判定し、
当該相関があるものと判定された被修飾サイトに関して、前記グループにおいて前記回帰モデルを生成することで、当該対象者の未来におけるDNA修飾レベルデータを予測し、
当該相関がないものとして判定された被修飾サイトに関して、当該対象者の未来におけるDNA修飾レベルデータの予測値に代わる値として、当該対象者について前記入力された年齢におけるDNA修飾レベルデータの値を用いることを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記第1処理では、前記データベースを参照して、DNA修飾レベルデータを構成する複数の被修飾サイトの各々及び前記生活習慣の各項目のうち、当該被修飾サイトにおける修飾レベルと当該生活習慣の各項目の値との間に偏相関があるものを判定し、少なくとも1つの生活習慣の項目との間で当該偏相関があるものと判定された被修飾サイトにおけるDNA修飾レベルデータを用いて、前記同一であるまたは類似すると判定されるサンプルからなるグループを決定することを特徴とする請求項1に記載の情報端末装置。
【請求項8】
複数のサンプルについて生活習慣の各項目の値と、年齢と、DNA修飾レベルデータとを記憶しているデータベースを参照し、年齢及びDNA修飾レベルデータが入力される対象者について、DNA修飾レベルデータが当該対象者と同一であるまたは類似すると判定されるサンプルからなるグループを前記データベースから決定する第1処理と、
前記グループにおける年齢とDNA修飾レベルデータとの関係から、前記対象者が前記グループに対応する生活習慣を継続した場合の未来のDNA修飾レベルデータを予測する第2処理と、
当該予測した未来のDNA修飾レベルデータに生物学的年齢予測モデルを適用することで、前記対象者の未来の生物学的年齢を予測する第3処理と、をコンピュータが実行することを特徴とする情報処理方法。
【請求項9】
コンピュータを請求項1ないし7のいずれかに記載の情報処理装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物学的年齢予測モデルを用いる情報処理装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来の技術として、健康診断の結果から健康余命の予測値を個人毎に算出して表示する技術(特許文献1)があり、健康状態を定量的に把握できるようにすることで、疾病予防や健康管理の意欲を高めることができるようにする効果が述べられている。また、近年の機械学習技術を応用し、健診データや体調情報から健康年齢を予測する手法(特許文献2)やそれに影響を与える項目を分析するプログラム(特許文献3)が提案されている。特許文献4では、対象者の過去の複数回の受診記録を基に、将来の健康状態を予測する手法が提案されている。
【0003】
また、非特許文献1および2には、遺伝子の働きを制御するエピゲノム(DNAメチル化)に関する情報を用いて、生物学的年齢(またはエピゲノム年齢)を推定できる技術が報告されている。特許文献5では、個人の健康診断データ及び遺伝子解析データを入力として、個人の生物学的年齢を出力する手法が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007-287184号公報
【特許文献2】特開2019-145057号公報
【特許文献3】特開2020-004126号公報
【特許文献4】特開2018-194904号公報
【特許文献5】特開2021-135618号公報
【非特許文献】
【0005】
【非特許文献1】Field, Adam E., Neil A. Robertson, Tina Wang, Aaron Havas, Trey Ideker, and Peter D. Adams. "DNA methylation clocks in aging: categories, causes, and consequences." Molecular cell 71, no. 6 (2018): 882-895.
【非特許文献2】Horvath, Steve, and Kenneth Raj. "DNA methylation-based biomarkers and the epigenetic clock theory of ageing." Nature Reviews Genetics 19, no. 6 (2018): 371.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、以上のような従来技術では、エピゲノム情報から未来の生物学的年齢に関する予測を効果的に行うことができないという課題があった。
【0007】
特許文献1~4等の健康プログラムでは、エピゲノム情報は利用せずに、血圧や血糖値などの健康診断結果を用いることを前提としているため、健診実施内容の違いや、問診票記入漏れや検査漏れ等による健診結果の欠落等測定できていない項目があった場合に対応が困難であった。特許文献5ではさらに遺伝子関連の情報を利用するが、特許文献1~4と同じく健康診断のデータの利用も前提であるため、特許文献1~4と同様の困難を抱えていた。
【0008】
また、非特許文献1,2や特許文献5等のように、エピゲノムに関する情報を用いて生物学的年齢を推定することで実年齢との差異が判明した場合でも、現在の生活習慣を継続するのがよいのか改めるべきなのかは自明ではない。エピゲノムは遺伝的な要因も含め、過去の生活習慣や環境の影響を受けるため、直近で2時点以上の複数回の測定データがない限りは、現在の生活習慣が生物学的年齢に対してどのように影響していくと予測されるのか分からなかった。この結果として、運動や食事等の生活習慣を改善することでどの程度生物学的年齢の加速を抑えられるかまでは不明であり、行動変容の動機付けにつながりにくいことも想定された。
【0009】
上記従来技術の課題に鑑み、本発明は、エピゲノム情報から未来の生物学的年齢に関する予測を効果的に行うことのできる情報処理装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するため、本発明は、情報処理装置であって、複数のサンプルについて生活習慣の各項目の値と、年齢と、DNA修飾レベルデータとを記憶しているデータベースを参照し、年齢及びDNA修飾レベルデータが入力される対象者について、DNA修飾レベルデータが当該対象者と同一であるまたは類似すると判定されるサンプルからなるグループを前記データベースから決定する第1処理と、前記グループにおける年齢とDNA修飾レベルデータとの関係から、前記対象者が前記グループに対応する生活習慣を継続した場合の未来のDNA修飾レベルデータを予測する第2処理と、当該予測した未来のDNA修飾レベルデータに生物学的年齢予測モデルを適用することで、前記対象者の未来の生物学的年齢を予測する第3処理と、を実行することを特徴とする。また当該装置に対応する方法及びプログラムであることを特徴とする。
【発明の効果】
【0011】
本発明によれば、データベースを活用することにより、対象者のエピゲノム情報であるDNA修飾レベルデータから、未来の生物学的年齢に関する予測を効果的に行うことができる。
【図面の簡単な説明】
【0012】
【
図3】DNAメチル化率を説明するための模式図である。
【
図4】一実施形態に係る情報処理装置の機能ブロック図である。
【
図5】一実施形態に係る情報処理装置の動作のフローチャートである。
【
図6】情報処理装置の各部で扱うデータの模式例を示す図である。
【
図7】情報処理装置の各部で扱うデータの模式例を示す図である。
【
図8】情報処理装置の各部で扱うデータの模式例を示す図である。
【
図9】クラスタリングの模式例としてウォード法の例を示す図である。
【
図10】生物学的年齢算出部等での処理例をSLグループの場合に関して模式的に示す図である。
【
図11】生物学的年齢算出部等での処理例をCLグループの場合に関して模式的に示す図である。
【
図12】生物学的年齢算出部で得られる情報及びその意義を模式的に示す図である。
【
図13】生活習慣の影響項目を模式的に示す図である。
【
図14】式(6)の算出内容の模式例を示す図である。
【
図15】データベースに登録されたデータでSLグループとCLグループとの生活習慣の相違の例と、生活習慣の変更項目及び値の例を示す図である。
【
図16】一般的なコンピュータにおけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0013】
本発明の各実施形態を説明する前に、
図1~
図3を参照して医学上の既知事項であるエピゲノム(DNAメチル化)やDNAメチル化率について簡単に説明する。
図1上段側に示すように、DNAの塩基配列(アデニン(A)、グアニン(G)、チミン(T)、シトシン(C)の4種類の有機塩基の配列)であるゲノムは、各個人の生まれ持った遺伝的な特徴であって不変な、先天的な特性として解析可能なものである。一方、
図1下段側及び
図2に示すように、DNAの働きを制御するエピゲノムは、環境・時間依存的な変化を示す可変な、後天的な特性として解析可能なものである。
【0014】
各個人のほとんどの細胞においてDNA(ゲノム)は不変であるのに対し、発達段階・老化及び外部環境によって変化するエピゲノムは細胞の多様性を担い、細胞の運命を決めるものであることが知られている。例えば、iPS細胞(人工多能性幹細胞)はエピゲノムのリセットにより作製され、老化はエピゲノムの情報損失、変乱あるいは無秩序化に関連している。
【0015】
DNAのシトシン(C)はメチル化されることがあり、遺伝子の制御(スイッチ)に関与する。特にCとGが連続する場合に多く、当該のメチル化されうる位置はCGサイトまたはCpGサイトと呼ばれる。ヒトでは2,600万程のCpGサイトがある。
図2,3の模試例では各々のCpGサイトを、識別子としての添え字(i=1,2,…,n,…)を付してCpG
i(i=1,2,…,n,…)として示している。
【0016】
上記の通り、DNAメチル化等のエピゲノムは遺伝子スイッチの役割を果たすものであることが知られている。高メチル化状態はDNAが折りたたまれており遺伝子を読み取ることができない状態であるのに対し、逆に低メチル化状態はDNAにアクセスして遺伝子を読み取ることができる状態である。
【0017】
以上のように、エピゲノム(DNAメチル化)は、各個人の身体環境をモニタリングした情報を含んでいる。
図3の模式例に示されるように個別の細胞(及びこの細胞が構成する器官)ごとにDNAメチル化の状態は異なりうるが、多数のDNAにおける各サイトのメチル化率の情報を取得することが可能である。このメチル化率は各個人の身体環境が何らかの形で反映された数値となっている。
図3では、左側に示されるように4個の細胞の4個のDNAにおいて、2つのCpGサイトCpG
1,CpG
2があって図示されるようにメチル化状態の有無が存在する場合に、各CpGサイトのメチル化率が右側に示される通り算出されること(CpG
1は4個中4個で100%、CpG
2は4個中1個で25%)が例として示されている。
【0018】
図4は、一実施形態に係る情報処理装置の機能ブロック図である。情報処理装置100は、エピゲノムデータセット入力部11、エピゲノムデータ解析部12、生活習慣データ入力部13、対応付け保存部14、データベース15、分析部20及び生活習慣アドバイス生成部24を備える。分析部20はさらに生活習慣相関算出部211、グループ判定部21、年齢相関算出部221、回帰モデル生成部222、生物学的年齢算出部22、生活習慣相違抽出部23を含む。
【0019】
なお、
図4の機能ブロック間の矢印のうちの一部に付されているデータD1~D7は、当該機能ブロック間で入出力して扱われるデータであり、後述する
図6等で同一符号を付したものが当該データD1~D7の例となっている。
【0020】
図5は、一実施形態に係る情報処理装置100の動作のフローチャートであり、図示するように当該フローチャートはステップS1~S3で構成される。当該フローチャートの全体的な概要として、ステップS1はエピゲノムデータセット入力部11、エピゲノムデータ解析部12、生活習慣データ入力部13及び対応付け保存部14によって多数のサンプルについての情報をデータベース15に保存してデータベース15を構築する処理に該当する。ステップS2は、当該構築されたデータベース15を参照し、且つ、対象者の現在についての情報を入力として受け付けることで、分析部20が対象者の未来に関する分析を行う処理に該当する。ステップS3は、ステップS2で当該分析した結果により、生活習慣アドバイス生成部24が対象者へのアドバイス情報を生成する処理に該当する。
【0021】
以下、
図5のフローチャートの各ステップを説明しながら、
図4の情報処理装置100の各部の処理内容の詳細に関して説明する。
図6、
図7及び
図8は、情報処理装置100の各部で扱うデータの模式例をそれぞれデータ例D1~D5及びD6,D7として分けて示す図であり、以下の説明において適宜参照する。
【0022】
<ステップS1> ステップS1では、多数のサンプル(健康関連の情報(ゲノム関連情報及び生活習慣情報)の取得対象となる多数の対象者)についての情報を取得してデータベース15を構築してから、ステップS2へと進む。このステップS1は以下の手順S11~S14として構成することができる。なお、手順S11,S12と手順S13とはその先後を問わず実施でき、並行して実施してもよい。これら手順S11,S12と手順S13とを終えた後に手順S14を実施することができる。
【0023】
(手順S11) エピゲノムデータデータセット入力部11が各サンプルのゲノム関連情報を取得し、これをエピゲノムデータ解析部12へと出力する。
【0024】
ゲノム関連情報(
図6にデータ例D1として模式例を示す)は、一般的な次世代シーケンサーの出力フォーマットであるFASTQ形式または参照配列にマッピング済みのBAM形式及びそれに準ずる形式で、ユーザID、年齢(暦年齢、生活年齢、実年齢であり、後述する「生物学的年齢」から区別される)、性別、人種を含むユーザ情報を含む。エピゲノムデータセット入力部11はこれらのデータを受け取り、フォーマットのチェックを行ったうえでエピゲノムデータ解析部12へ出力する。
【0025】
ここで、データ入力がFASTQ形式の場合は、冗長な配列情報やシークエンス結果の精度が低いデータを除外するため、データに含まれるクオリティー値に基づいたチェックを行うとともに、シーケンスリードのトリミングを行った上でヒトゲノム参照配列への位置づけによりBAMファイルとなる。
【0026】
(手順S12) 手順S11で得た各サンプルのゲノム関連情報をエピゲノムデータ解析部12が解析することで、個々のエピゲノムの箇所における修飾レベル(
図6にデータ例D2として、あるサンプルのサイトCpG
34(chr12:12番染色体上の3428031-3428032番塩基というアドレス)において算出された修飾レベルの値40%を示す)を算出して対応付け保存部14へと出力する。
【0027】
ここで、領域ごとのエピゲノムによる修飾レベルは、統計的検定による有意確率とともに算出することができる。なお、これら手順S11,S12の一連の処理のためのツール類は一般に公開されているため、手動による調整を行なってもよい。これにより、各々の対象者のゲノム配列における、DNAメチル化のようなエピゲノムによるDNA修飾レベル(前述の
図3でも模式例として示したもの)のデータとなる。
【0028】
(手順S13) 生活習慣データ入力部13が各サンプル(エピゲノムデータセット入力部11においてゲノム関連情報を受け付けたのと共通の各サンプル)についての生活習慣データを取得し、これを対応付け保存部14へと出力する。
【0029】
この生活習慣データは、生活習慣に関連して予め定義されている各項目と、その実績値(定量値や定性値として与えられる実績値)として取得することができる。例えば、一般的な問診に基づいた生活習慣に関連するアンケートデータ(例えば前述した
図1下段にも示される喫煙、食事、運動、精神的なストレス等に関するデータ)を含めて生活習慣データを取得してもよい。また例えば、スマートフォンやウェアラブルデバイスを介して取得される定量的なデータを含めて生活習慣データを取得してもよい。例えば、食事に関するデータであれば、1単位80kcalで換算される食品交換表で主食、果物などのカテゴリごとに単位数を取得することできる。運動に関するデータであれば、1週間等の一定期間での運動頻度、運動強度、運動時間などを取得することができる。
【0030】
なお、生活習慣の各項目について複数種類のフォーマットに対応するため、各項目とその数量単位等による実績値とが統一された形式で登録ができるよう、生活習慣データ入力部13でチェックを受けるようにしてよい。(すなわち、共通項目についてサンプル間で異なるフォーマットの実績値が取得される場合は、所定規則により共通フォーマットの実績値に変換したうえで、生活習慣データ入力部13から対応付け保存部14へと出力するようにすればよい。)
【0031】
図6ではデータ例D3,D4として、このように食事や運動に関するデータを含んで取得される生活習慣データの元データ及び出力データの模式例が示されている。すなわち、元データD3は生活習慣データ入力部13への入力データの例であり、出力データD4は生活習慣データ入力部13から対応付け保存部14へと出力されるデータの例である。
【0032】
(手順S14) 以上の手順S12,S13で得たDNA修飾レベルデータと生活習慣データとを、対応付け保存部14が対応するサンプルID及びそのユーザ情報(年齢、性別等のうち少なくとも年齢)と紐づけたうえで、データベース15へと保存することによってデータベース15を構築する。
【0033】
図7に、ステップS1で以上のようにして構築されたデータベース15の登録情報D6の模式例を表形式で示す。
図7では、各サンプルのユーザについて年齢(Age)と、DNA修飾レベル(エピゲノム修飾率)データとして、DNAメチル化部位(各々のCpG領域CpG
i(i=1,2,…))におけるメチル化率と、生活習慣(食事に関する各項目Diet_i(i=1,2,…)や運動に関する各項目Exer_i(i=1,2,…))に関するデータと、がユーザID(User101,102,103,104等)ごとに蓄積された表(データベース15での登録情報D6の内容を表す表)の形で、登録情報D6の例を示している。
【0034】
<ステップS2> ステップS2では、分析部20が、対象者の現在の年齢(t歳とする)と、対象者の現在t歳時点でのDNA修飾レベルデータと、を入力として受け付け、所定の生物学的年齢予測モデルを用いてこの対象者の現在のt歳時点での生物学的年齢を推定し、さらに、この対象者について予測する未来(k年後とする)の入力も受け付け、ステップS1で構築されているデータベース15を参照して分析することで、この対象者の未来であるk年後のt+k歳での生物学的年齢を推定してから、ステップS3へと進む。
【0035】
ここで、ステップS2の詳細を説明する前に、その前提事項として、前掲の非特許文献1,2等でも提案されている生物学的年齢予測モデルについて説明する。
【0036】
生物学的年齢予測モデルでは、エピゲノムの特定箇所の修飾率を分析することで、暦年齢よりも生体組織の機能的な能力及び老化の度合いを表す指標として、生物学的年齢を計算することができる。生物学的年齢を計算するためのモデルは、一般に、様々な老化指標から得られる生物学的年齢を目的変数、エピゲノム修飾率データ(一般に、被修飾サイトの修飾レベルのデータ)を説明変数として、多重線形回帰モデルや過学習を抑えるために正則化項を加えた回帰モデル(Elastic Net等)によって学習される。ここで、エピゲノム修飾率データはDNAメチル化のレベルであってもよいし、DNAヒドロキシメチル化であってもよい。例えば、エピゲノム修飾率データとしてDNAメチル化率を用いる場合、年齢(生物学的年齢)に相関する複数のDNAメチル化部位(CpG領域)を用いて、以下の式(1)のようなモデルにより生物学的年齢(biological age)Fを計算できる。
【0037】
【0038】
式(1)において、bk(k=0,1,…n)は当該予測モデルにおける係数であり、βk (k=1,2,…,n)は当該予測モデルにおけるk番目のCpG領域のメチル化率である。なお、当該予測モデルにおいてk=1,2,…,nの全てのCpG領域ではなく、そのうちの一部のみが生物学的年齢に相関するものである場合は、相関しないCpG領域のメチル化率βkに対する係数bkがbk=0であるものとすればよい。なお、より一般に任意の予想モデルを用いる場合は、メチル化率に限らないDNA修飾レベルを被修飾サイトの修飾レベルとすればよい。
【0039】
ここで例として、CpG領域の2、4、16、55番の領域が意味を持つモデルとして、対象のCpG領域とその係数を指定したとすると、上記の一般的な式(1)は具体的に以下の式(2)の通りとなり、各係数b
k (k=0,2,4,16)が例えば
図6,8のデータ例D5のように与えられるものとなる。
【0040】
【0041】
このようなモデルにより、どのCpG領域が生物学的年齢に影響するのかが判明する。エピゲノム情報を用いた生物学的年齢予測モデルはこれまでに様々なモデルが提案されており、本実施形態では後述する生物学的年齢算出部22において、任意のモデルD5を予め指定したうえで、対象者の生物学的年齢を算出することができる。(予測モデルD5について、上記の式(2)や
図6,8に示されるモデルD5は任意のモデルD5のうちの一例である。)
【0042】
以上の通りのモデルに基づく生物学的年齢を前提として、ステップS2は具体的に、分析部20の各部における以下の手順S21,S22,S23により、対象者の現在t歳での生物学的年齢と、未来のt+k歳での生物学的年齢とを推定することができる。
【0043】
(手順S21) グループ判定部21が、入力として対象者のDNA修飾レベルデータを受け付け、データベース15を参照することで、当該対象者に対応するSLグループ及びCLグループをデータベース15内のサンプル集合として判定し、このSLグループ及びCLグループを回帰モデル生成部222、生物学的年齢算出部22及び生活習慣相違抽出部23へと出力する。グループ判定部21は当該判定する際に、生活習慣相関算出部211から得られる情報を利用する。
【0044】
図7に入力データ例D7として示される通り、グループ判定部21では対象者のDNA修飾レベルデータを、データベース15に登録されている各サンプル(当該対象者以外の他ユーザ)のDNA修飾レベルデータと同様の形式により、入力として受け付けることができる。なお、対象者のDNA修飾レベルデータの入力に関しては、DNA修飾レベルデータの形で直接受け付けるのではなく、対象者のゲノム関連情報の形で受け付け、前述したエピゲノムデータセット入力部11及びエピゲノムデータ解析部12と同様の処理を分析部20において行うことにより、対象者のDNA修飾レベルデータを得るようにしてもよい。
【0045】
ここで、対象者の生活習慣と近いグループをSL(similar)グループと呼ぶこととし、また、生活習慣の一部が対象者と異なるようなグループをCL(closer)グループと呼ぶことにする。グループ判定部21はこれらSLグループ及びCLグループを判定する。本実施形態では以下のような考察に基づき、対象者に関して生活習慣データを入力として用いることなく、生活習慣が反映されていると考えられるDNA修飾レベルデータを入力とし、データベース15と照合することにより、グループ判定部21がSLグループ及びCLグループを判定することができる。
【0046】
運動や食事などの生活習慣は複数のDNA修飾に影響を与えるが、その影響を受ける領域は生活習慣に関する項目およびその頻度や強度によって異なる。例えば、DNA修飾としてDNAメチル化を考えた場合、前述した
図2でも模式的に示される通り、生活習慣の項目が与える影響はCpG領域によって異なり、生物学的年齢予測モデルに使われるCpG領域の一部(あるいは全部)も影響を受けうる。その影響度合いは、生活習慣が近いほど近くなると考えられる。この生活習慣の近さは、対象者のエピゲノム修飾率データをデータベース15に登録されている他ユーザ(全サンプル)のエピゲノム修飾率データと比較することで評価することができる。
【0047】
上記考察の通り、グループ特定部21では、生活習慣の影響がエピゲノム修飾率に反映されているものとして、生活習慣の近さをエピゲノム修飾率の近さとして推定して、SLグループ及びCLグループを判定することができる。すなわち、生活習慣項目データと相関のあるエピゲノム修飾率データを用いて、データベース15内の各サンプルと対象者との類似度Sを算出し、Sが一定の基準を満たす場合に各サンプルのSLグループへの分類を行い、これに次ぐ基準で類似していると判定される各サンプルをCLグループに分類すればよい。
【0048】
ここで2ユーザa,b間の類似度S(a,b)は、生活習慣と相関するDNA修飾としてDNAメチル化を考えた場合、相関のある複数のCpGサイトのDNAメチル化率から算出し、ユークリッド距離d(a,b)等からこれと大小関係が逆転するものとして類似度S(a,b)を算出することができる。
【0049】
すなわち、対象者について入力され、且つ、データベース15に他ユーザについて登録されているDNAメチル化率の項目が全部でN個(CpGi,i=1,2,…,N)であるものとし、このうちのM個(M≦N)のDNAメチル化率(CpGk(j),j=1,2,…,M)が生活習慣に相関があるものとし、ユーザa,bの当該生活習慣に相関するk(j)番目の項目のDNAメチル化率を前述の式(1),(2)と同様に文字「β」を用いてそれぞれβk(j)[a]及びβk(j)[b]と表記すると、ユーザa,b間の生活習慣に影響するメチル化率(M次元ベクトル)間のユークリッド距離d(a,b)を以下の式(3)で計算できる。
【0050】
【0051】
上記ユーザa,b間の距離d(a,b)(=dとする)を所定の減少関数f(d)に入力することで、ユーザa,b間の生活習慣の類似度S(a,b)をS(a,b)=f(d(a,b))として計算することができる。この減少関数f(d)としては例えば以下の式(4)を用いることができる。この関数fは、ユーザa,bの生活習慣に影響するDNAメチル化率(M次元ベクトル)が同一であり距離d(a,b)が最小値のゼロとなる場合に最類似であるものとして類似度の最大値1を出力し、DNAメチル化率の違いが大きくなるに従って正の範囲でゼロに漸近する形で類似度の値が減少するという挙動を示す。
【0052】
【0053】
なお、距離d(a,b)は式(3)のユークリッド距離(L2距離)に限らず、マンハッタン距離(L1距離)等のその他の距離を用いてもよい。距離dの減少関数f(d)についても式(4)に限らず、同様の挙動を示すその他の減少関数を用いてもよい。
【0054】
類似度S(a,b)について、式(3),(4)により0<S(a,b)≦1の範囲で算出されるものとし、一実施形態に係るグループ判定部21ではユーザaを対象者とし、ユーザbをデータベース15に登録されている全サンプル(対象者以外の全ての他ユーザ)として全てのユーザbについて類似度S(a,b)を計算し、予め設定しておく閾値TH_S及び閾値TH_Cにより以下のようにSLグループ及びCLグループを判定するようにしてよい。
SLグループ={b|S(a,b)>TH_S}
CLグループ={b|TH_S≧S(a,b)>TH_C}
閾値TH_S及びTH_Cは、1>TH_S>TH_C>0の範囲で設定しておく。
【0055】
すなわち、この実施形態では、類似度S(a,b)が閾値TH_Sより大となる全ての他ユーザbが最類似するものとしてSLグループを形成し、これに次ぐ類似度S(a,b)として、閾値TH_S以下且つ閾値TH_Cより大となる全ての他ユーザbが、その次に類似するCLグループを形成するものとして、各グループを決定することができる。
【0056】
あるいは、別の実施形態として、ユーザaを対象者に限定しない形で、類似度S(a,b)の評価を以上と同様に行うようにし、グループ判定部21がデータベース15に登録されている全サンプル(全ユーザ)又は当該全サンプルに対象者を加えた集合について、生活習慣に相関があるDNAメチル化率のM次元ベクトル空間上での任意のユーザa,b間の類似度S(a,b)に基づくクラスタリングを適用し、このクラスタリング結果からSLグループ及びCLグループを定めるようにしてもよい。
【0057】
ここで、クラスタリング手法としては任意の既存手法を用いてよく、ウォード法などの階層クラスタリング手法やK-means法(K平均化法)などの非階層クラスタリング手法を用いることができる。最適なクラスタ数の決め方に関しても、エルボー法やK-meansに情報量規準を適用したX-means法などの、任意の既存手法を用いることができる。
【0058】
グループ判定部21では以上のようにクラスタリングを行い、対象者も含めてクラスタリングした場合には、対象者が所属するクラスタをSLグループとして決定し、対象者が所属しないが、SLグループに最も類似していると判定されるクラスタをCLグループとして決定することができる。ここで、最類似クラスタであるCLグループは、SLグループの代表位置(前述のM次元ベクトルの当該SLグループ内での重心等)をaとし、その他のクラスタのそれぞれの代表位置(同じく、当該クラスタにおける前述のM次元ベクトルの重心等)をbとし、類似度S(a,b)が最大となるクラスタとして定めてもよいし、次の
図9のウォード法の例のように、クラスタリング処理の際に得られる情報から最類似クラスタを定めるようにしてもよい。
【0059】
図9は、グループ判定部21による処理の模式例を示し、対象者(new_userとする)を含めてウォード法によりクラスタリングを行うことで、当該対象者が所属するクラスタとしてSLグループ={new_user, user_101, user_102}が決定され、また、このSLグループに最類似のクラスタとしてCLグループ={user_103, user_104}が決定された例である。ここで、周知のようにウォード法のデンドログラム(樹形図)においてSLグループが次に統合される対象として、SLグループに最類似であるCLグループを決定することができる。なお、この
図9は模式例であり、データベース15に登録されている全サンプルは多数であることから、実際にはSLグループ及びCLグループはいずれも多数のサンプルで構成されるものとなりうる。
【0060】
対象者を含めずにデータベース15に登録されている全サンプルだけをクラスタリングする場合は、クラスタリング結果の各クラスタの代表位置b(前述のM次元ベクトルの重心等)と対象者aとの類似度S(a,b)を求め、類似度が最大(上位1番目)のクラスタをSLグループとし、類似度が上位2番目のクラスタをCLグループとすればよい。
【0061】
以上、グループ判定部21の処理を説明したが、当該グループ判定において必要となる情報である、データベース15に各サンプル(各ユーザ)について登録されているDNAメチル化率の全N個の項目(CpGi,i=1,2,…,N)の中からM個(M≦N)のDNAメチル化率(CpGk(j),j=1,2,…,M)を生活習慣に相関があるものとして決定する処理は、生活習慣相関算出部211が行うようにすればよい。
【0062】
具体的に生活習慣相関算出部211は、データベース15を参照し、登録されている全サンプル(全ユーザ)のDNAメチル化率の各項目CpGk(k=1,2,…,N)(後述の説明での変数名との重複を防ぐためiに代えてkとする)のメチル化率β
kと、生活習慣の各項目B(B=1,2,…)の評価値と、の偏相関r
Bkを算出し、少なくとも1つの生活習慣Bについてその絶対値|r
Bk|が閾値以上となるような項目CpGkを、生活習慣に相関があるものとして決定し、グループ判定部21に出力することができる。あるいは、いずれの項目CpGkが生活習慣と関連することが知見として判明している場合は、偏相関の算出を省略して手動で指定してもよい。
図7のデータ例D6では、全項目CpGk(k=1,2,…)のうち3項目CpG3,CpG4,CpG5が生活習慣に相関があり、その他の項目は相関がないと判定されたことが例として描かれている。
【0063】
この偏相関rBkに関しては、既存の統計手法により生活習慣項目間の影響を除いた偏相関の値rBkとして、以下の式(5)によって算出することができる。偏相関として算出することで、注目するCpGk(k=1,2,…,N)に対して異なる複数の生活習慣項目が影響している場合であっても、交絡してしまう影響を排除することができる。(なお、独立変数間で相関が強すぎる場合、多重共線性の問題で偏相関係数の推定値が不安定となるケースもありうる。例えば、生活習慣項目として極めて近い種類(例えば、炭水化物摂取量と摂取カロリー)が存在するケースが該当しうる。このようなケースにおける不安定性を防ぐため、極めて近い種類の複数項目を同じ1種類のみの生活習慣項目として扱うか、いずれか1項目のみを用いるか等の設定を予め設けて、生活習慣データ入力部13でのデータ入力を受け付けるようにしてもよい。)
【0064】
【0065】
ここで、Sijは生活習慣項目Bと各エピゲノム修飾率の分散共分散行列Sのi行j列の余因子(i行j列の要素を取り除いて作った行列式に(-1)i+jを掛けたもの)であり、データベース15に記録されている全サンプルの(生活習慣項目, エピゲノム修飾率)の情報を用いて計算することができる。この余因子Sijを計算するための分散共分散行列Sは以下の式(5A)の通りであり、その要素を表す添え字に関して、xは当該偏相関rBkの計算対象として注目するCpGkのDNAメチル化率であり、yは当該計算対象として注目する生活習慣の項目の1つ(偏相関rBkに対応する生活習慣項目B)であり、z(z=z1,z2,…,zp)は当該項目B以外の生活習慣項目p個のそれぞれである。すなわち、式(5)の分子の余因子S12は、行列Sの1行2列の要素(Sxyと同じ行または列にある要素)を取り除いた行列式から算出されるものであり、同様に、分母の余因子S11,S22も、行列Sの1行1列の要素(Sxxと同じ行または列にある要素)、2行2列の要素(Syyと同じ行または列にある要素)をそれぞれ取り除いた行列式から算出されるものである。(換言すれば、式(5A)の行列Sの余因子行列S~のi行j列の成分が式(5)で用いるSijである。なお、行列Sが対称のため、その余因子行列S~も対称であって転置の有無を問わない。)
【0066】
【0067】
なお、rBkの値は、以上のように偏相関として計算する以外にも、データベース15に登録されている全サンプルの情報を用いて機械学習等の任意の手法によって、項目B,k間の影響度を表すものとして計算してもよい。
【0068】
(手順S22) 回帰モデル生成部222が、グループ判定部21で得たSLグループ及びCLグループのそれぞれにおける年齢に基づく回帰モデル(回帰モデルSLM及びCLMとする)を生成し、入力されている現在t歳の対象者のDNA修飾レベルデータD7に回帰モデルSLM及びCLMを適用してそのk年後の未来であるt+k歳の時点でのDNA修飾レベルデータ(それぞれD8SL及びD8CLとする)を推定して、生物学的年齢算出部22へ出力する。回帰モデル生成部222では、回帰モデルを当該生成するために、年齢相関算出部221から得られる情報を利用する。
【0069】
手順S22ではさらに、生物学的年齢算出部22が、前述した式(2)で例示される予め指定される予測モデルD5を用いて、対象者の現在t歳時点でのDNA修飾レベルデータD7から現在t歳時点での生物学的年齢F[現在t歳]を計算すると共に、回帰モデル生成部222で推定された未来t+k歳時点でのDNA修飾レベルデータ(D8SL及びD8CLとする)から、それぞれ未来t+k歳時点での生物学的年齢F[未来t+k歳, SLグループ]及びF[未来t+k歳, CLグループ]を算出し、生活習慣アドバイス生成部24へと出力する。
【0070】
図10及び
図11は、以上の手順S22による生物学的年齢算出部22等での処理を、各機能部及び各データに関して上記で説明した符号を付すことによって模式的に示す図であり、
図10がSLグループの回帰モデルを適用する場合を、
図11がCLグループの回帰モデルを適用する場合を、それぞれ示しており、対象者の現在年齢t=45歳からk=2年後のt+k=47歳での生物学的年齢をそれぞれ算出する模式例を示している。以下、手順S22の意義及び詳細(回帰モデル生成部222及び年齢相関算出部221の詳細)を説明する。
【0071】
手順S22で得られる情報の意義については、
図10及び
図11内に示され、さらに
図12にも模式的に示されるように、以下の通りである。
●生物学的年齢F[未来t+k歳, SLグループ]…対象者が現在t歳の時点からk年後のt+k歳の時点まで、現在までと同様の生活習慣を継続した場合に想定される、未来のt+k歳の時点での生物学的年齢
●生物学的年齢F[未来t+k歳, CLグループ]…対象者が現在t歳の時点からk年後のt+k歳の時点まで、現在までの生活習慣を変更することで現在までとは異なる生活習慣を継続した場合に想定される、未来のt+k歳の時点での生物学的年齢
【0072】
従って、
図12内にも模式的に示される通り対象者について、現在までと同様の生活習慣を今後も継続した場合と、現在までの生活習慣を今後は変更した場合と、それぞれにおける生物学的年齢のk年後の未来での変化を以下の通り、得ることが可能となる。
●F[現在t歳]→F[未来t+k歳, SLグループ]…生活習慣を継続した場合の変化
●F[現在t歳]→F[未来t+k歳, CLグループ]…生活習慣を変更した場合の変化
【0073】
図12の例は、生活習慣を継続することで、生物学的年齢の実年齢との差分Δyが正の方向にさらに増加して老化してしまうが、生活習慣を変更することで差分Δyを減少させて負に転じさせ、生物学的年齢の若返りが期待される例となっているが、この逆となる場合や、いずれの場合でも同じ変化となるような場合もありうる。
【0074】
なお、具体的にF[未来t+k歳, CLグループ]がどの生活習慣を変更することに該当するかは、後述する生活習慣相違抽出部23において、SLグループの生活習慣とCLグループの生活習慣の相違として抽出することができる。
【0075】
以上のような意義を有する情報が得られる理由は次の通りである。すなわち、対象者がSLグループに属するとき、または生活習慣の一部を変更してCLグループに属すると仮定したとき、当該ユーザのCpGのDNAメチル化率は各グループ内の平均的な時間的変動と同程度に変化すると予想されるためである。
図13は、生活習慣の影響項目を模式的に示す図であり、前述の
図7のデータ例D6のように、CpG領域のうちCpG3,CpG4,CpG5が生活習慣に関連する場合に、SLグループからCLグループへと生活習慣を変更した場合に、CpG3,CpG4に影響があり、SLグループの生活習慣を継続した場合とCLグループの生活習慣を継続した場合とで、CpG3,CpG4のメチル化率の時間変化が異なりうることを示している。(なお、この例におけるCpG3,CpG4のように、具体的なメチル化サイトのいずれに影響があるかの判定は、別途の分析等を要するが、本実施形態では具体的にいずれのCpGサイトが影響するかの情報がなくとも、生活習慣アドバイス情報を生成することができる。)
【0076】
そこで、回帰モデル生成部222は、(実)年齢と相関があるCpGを対象として、年齢に基づく回帰モデルを生成し、対象ユーザのk年後のDNAメチル化率を算出する。
【0077】
いずれのCpGが年齢と関連するかは、年齢相関算出部221がデータベース15に登録されている全サンプルの情報を参照し、(実)年齢データとDNAメチル化データの各値からピアソンの相関係数を算出することで特定し、回帰モデル生成部222に出力することができる。年齢相関算出部221では算出された相関係数の絶対値|rBk|が閾値以上となるような項目CpGkを、実年齢に相関があるものとして決定すればよい。あるいは、このようなCpGは、年齢と関連することが知見として判明している場合は、相関係数の算出を省略して手動で指定してもよい。(なお、生活習慣相関算出部211では複数の項目がCpGサイトのメチル化率と関連する場合があるため偏相関を用いることができるのに対し、年齢相関算出部221では単変量としての実年齢を扱うので、単純にピアソンの相関係数を用いることができる。)
【0078】
具体的に、回帰モデル生成部222は、年齢と関連するCpGを対象として、SLグループまたはCLグループの年齢データとDNAメチル化率から、年齢をt、DNAメチル化率をβi=βi(t)とする回帰モデルを生成できる。ここでの回帰モデルは、例えば式(6)のようなロジスティック回帰を用いることができる。回帰モデルにより、対象ユーザのk年後のt+k歳の時点でのDNAメチル化率βi(t+k)をそれぞれのCpGについて算出できる。
【0079】
【0080】
ここで、slope(傾き)及びintercept(切片)は、SLグループ及びCLグループのそれぞれに対して、その全サンプルの(説明変数,目的変数)=(年齢t,メチル化率βi(t))データ(なお、ここでのtは、対象者tの年齢ではなく、各サンプルの年齢である)をロジスティック関数でフィッティングして求めた値を用いればよい。
【0081】
図14は、式(6)の算出内容の模式例として、回帰モデル生成部222で生成した回帰モデルからt+k歳の時点のメチル化率β
i(t+k)を算出することを示す図である。例EX1に示すように、対象者の現在t歳時点でのメチル化率βi(t)を表す点A=(t,β
i(t))は一般に、必ずしもSLグループまたはCLグループでフィッティングしたロジスティック関数グラフG上には乗らない点であるため、このグラフGを水平方向に平行移動したグラフG'(不図示)が点Aに乗るようにし、当該グラフG'上においてt+k歳の時点のメチル化率として点B=(t+k,β
i(t+k))を予測するのが、式(6)の意味である。
【0082】
換言すれば、点A=(t,βi(t))を水平方向にΔt(例EX1ではΔt<0)だけ移動した点A'であってグラフG上の点となる点A'を定め、点A'のk年後のメチル化率をグラフG上から点B'として得て、このメチル化率をそのまま(すなわち、点B'を水平方向に-Δt(例EX1では-Δt>0)だけ移動したものとして)点Bのt+k歳時点のメチル化率として採用することができる。すなわち、四角形A'B'BAは平行四辺形であり、対象者のk年後のメチル化率の変化分を、SLグループまたはCLグループのロジスティック関数から推定することに相当する。
【0083】
なお、
図14の例EX1ではグラフGはSLグループまたはCLグループのいずれかとして示しているが、実際には例EX2に示すように、SLグループ及びCLグループのそれぞれのグラフG=G(SL),G(CL)において、点Aから点Bを定め、SLグループの場合のメチル化率の点B=(t+k,β
i(t+k))と、CLグループの場合のメチル化率の点B=(t+k,β
i(t+k))との両方を予測すればよい。(なお、便宜上β
i(t+k)として同一の表記を用いているが、
図14の例EX2にも示されるように、その値はSLグループ及びCLグループの場合で一般に異なるものとなりうる。)
【0084】
なお、メチル化率が[0,1]の範囲を取ることから式(6)のようにロジスティック関数でフィッティングした結果から予測したが、例えば予測する未来k年が短い等でデータ上問題なければ線形関数で直線フィッティングしたり、その他の予測モデルを用いてもよい。
【0085】
なお、生活習慣と関連するCpGにおいても、一部は年齢と相関するものを含むと考えられるため、そのようなCpGはSLグループまたはCLグループのクラスタリング計算時に除外するか、年齢影響を補正することができる。
【0086】
また、SLグループやCLグループ内においても、遺伝的要因等の影響により個人間のばらつきが大きい場合も考えられるため、極端な外れ値を持つようなデータはグループ内でのセレクションを行ってもよい。すなわち、グループ判定部21でSLグループ及びCLグループを定める際に、データベース15内の全サンプルを用いるものとしたが、予め外れ値と判定されるサンプルを除外するようにしてもよい。あるいは、データベース15内の全サンプルを用いてSLグループ及びCLグループを定めたうえで、各グループから外れ値と判定されるサンプルを除外するようにしてもよい。
【0087】
(手順S23) 生活習慣相違抽出部23が、グループ判定部21で得たSLグループ及びCLグループ間の生活習慣で相違する項目と、当該相違する項目についてSLグループからCLグループへと変更後の値とを抽出して生活習慣アドバイス生成部24へと出力する。
【0088】
生活習慣相違抽出部23は、SLグループ及びCLグループの生活習慣項目データについてデータベース15へ問い合わせを行い、2群に差異があるかの比較を行う。生活習慣項目ごとでSLグループとCLグループに差異があるかは、既存の統計解析手法であるカイ二乗検定やフィッシャーの正確検定等により判別できる。有意に差のある生活習慣項目とCLグループ内のそれぞれでの代表値(平均値、最頻値、中央値など)を、変更後の生活習慣項目(L)および値としての頻度/強度等(V)とする。
【0089】
例えば、SLグループとCLグループで
図15のようなデータがデータベース15に登録されていた場合を考える。生活習慣項目としてDiet2で有意に差があったとした場合、対象ユーザはDiet2の頻度または強度をSLグループの代表値である2からCLグループの代表値である1へと変更することで、CLグループと同様の生活習慣へと生活習慣を対象者が変更した場合の、k年後の生物学的年齢となると予測される。
【0090】
<ステップS3> ステップS3では、以上のステップS2において分析部20が分析した結果の全部又は一部を、生活習慣アドバイス生成部24が生活習慣アドバイスとして出力し、
図5のフローを終了する。
【0091】
生活習慣アドバイス生成部24では、例えば前述した
図12や
図15の情報を、生活習慣アドバイスとして出力できる。例えば
図12の情報として、対象者が現在t歳からk年後の未来のt+k歳に至るまで、現在までの生活習慣を継続した場合と、CLグループの生活習慣に変更した場合とで、t歳からt+k歳に至る際の生物学的年齢の変化の違いの情報を、
図12に示されるようなグラフ等の形で可視化して、生活習慣アドバイスとして出力してよい。また例えば
図15の情報として、
図12のようなCLグループの生活習慣へと変更することで生物学的年齢の若返り(あるいは老化速度の低減)が期待される場合に、具体的にどの生活習慣項目をどのように変更すればよいかの情報を、生活習慣アドバイスとして出力してよい。
【0092】
以上、本発明の実施形態によれば、従来の健康プログラムと比較してより根本的なゲノムレベルの情報を用いて計算された生物学的年齢を用いているため、健康状態の維持・向上のための行動変容に極めて高い効果があると期待される。一度十分なユーザ数によるデータ登録が行われれば、生活習慣項目パラメータが精度よく定まるため、その後のユーザ、すなわち、以上説明してきた対象者においては、生活習慣に関するデータは不要となる。つまり、ゲノム関連情報さえあれば、どのような生活習慣をしているかという情報なしに、生物学的年齢が今後どのように推移すると予測されるか、対象者と生活習慣が同一であると判定されるSLグループの推定結果として現在の生活習慣を継続した場合と、対象者と生活習慣が類似している(部分的に異なる)と判定されるCLグループの推定結果として生活習慣を部分的に変更して改善した場合について提示することが可能である。(なお、CLグループの選ばれ方によっては、
図12の例のように改善ではなく、改悪となる場合も起こりうる。ただし、改悪となる場合であっても、改悪につながる生活習慣の変更をしないように促す提示を行うことが可能である。)
【0093】
以下、本発明の実施形態に関する種々の補足例、追加例、代替例などについて説明する。
【0094】
(1) 本発明の実施形態によれば、健康状態の維持・向上のための行動変容を促すアドバイス情報を生成することができるため、国連が主導する持続可能な開発目標(SDGs)の目標3「あらゆる年齢のすべての人々の健康的な生活を確保し、福祉を推進する」に貢献することが可能となる。
【0095】
(2) 以上の説明ではCLグループは1つであるものとして説明してきたが、データベース15内のデータによって、あるいは、グループ判定部21でのグループ判定の仕方によって、CLグループは1つに限らず、複数グループとして定めることもできるため、生活習慣アドバイス生成部24ではそれら全ての場合について提示をしてもよいし、将来的に生物学的年齢の低くなるCLグループのケースや、生活習慣の変更が少ないケースを提示してもよい。また、以上の説明では、SLグループ及びCLグループの両方を決定し、それらに係る生物学的年齢を算出するものとして説明してきたが、それらの何れか一方のグループのみを決定し、それに係る生物学的年齢を算出するようにしてもよい。
【0096】
SLグループ及びCLグループは、既登録ユーザのデータに基づいて予めグルーピングしておくことができる。新たなユーザデータが登録される際にエピゲノムデータおよび生活習慣データが揃っている場合には、グルーピングを再実施してDBを更新する。このとき当該ユーザが属するグループがSLグループとなる。新たなユーザデータがエピゲノムデータのみの場合には、
図9のようなクラスタリング手順によりSLグループとCLグループが定められるが、データベース15内のグルーピング情報は更新せず保持する。
【0097】
(3) 現在の年齢nや未来k年後の年齢n+kに関しては、整数に限らず実数でもよく、例えばk=0.5年として半年後の予測を行うようにしてもよい。
【0098】
(4)…(手順S22)についての補足説明
手順S22では、前述の通り、回帰モデル生成部222において、SLグループ及びCLグループのそれぞれについて、年齢に基づく回帰モデル(回帰モデルSLM及びCLM)を生成し、入力されている現在t歳の対象者のDNA修飾レベルデータD7に回帰モデルSLM及びCLMを適用してそのk年後の未来であるt+k歳の時点でのDNA修飾レベルデータ(それぞれD8SL及びD8CL)を推定するものとした。また、手順S22ではさらに、前述の通り、生物学的年齢算出部22が、回帰モデル生成部222で推定された未来t+k歳時点でのDNA修飾レベルデータ(D8SL及びD8CL)から、それぞれ未来t+k歳時点での生物学的年齢F[未来t+k歳, SLグループ]及びF[未来t+k歳, CLグループ]を算出するものとした。
【0099】
ここで、SLグループ及びCLグループのいずれの場合も、データベース15の全サンプルを参照して年齢相関算出部221が実年齢に相関があると判定したDNA修飾レベルデータに関して、回帰モデル生成部222がその回帰モデルを生成することで、生物学的年齢算出部22において現在t歳の時点のDNA修飾レベルデータから、未来のt+k歳の時点でのDNA修飾レベルデータを推定することができる。一方で、実年齢に相関がないと判定されたDNA修飾レベルデータに関しては、回帰モデルを生成できないので、未来のt+k歳の時点でのDNA修飾レベルデータを推定することができない。
【0100】
従って、SLグループ及びCLグループのいずれの場合も、生物学的年齢算出部22において、未来のt+k歳の時点での生物学的年齢を算出可能なためには、用いるモデルに現れるCpG領域(すなわち、DNA修飾レベルデータを構成する複数の被修飾サイトの各々)の全てについて、年齢相関算出部221においてその修飾レベルの値(DNAメチル化率)と実年齢との間に相関があると判定されている必要がある。例えば、前掲の式(2)のモデルであれば、CpG領域の2、4、16、55番の4つの領域全てについて、実年齢に相関があると判定されている場合のみに、t+k歳の時点でのこれら4領域でのメチル化率β2(t+k歳),β4(t+k歳),β16(t+k歳),β55(t+k歳)が回帰モデルから推定され、式(2)によりt+k歳の時点での生物学的年齢を算出することができる。
【0101】
ここで、実際には、生物学的年齢算出部22で用いるモデルに現れるCpG領域のうち、一部分に関して、実年齢に相関があるとは判定されないこともありうる。例えば、式(2)のモデルの場合であれば、4つの領域のうち3つの2、4、16番目の領域では実年齢と相関があると判定されたが、残りの1つの55番目の領域については、実年齢に相関がないと判定され、その未来のメチル化率β55(t+k歳)を推定できない場合がありうる。
【0102】
このような場合は、実年齢に相関がないと判定された領域の未来のメチル化率について、現在のメチル化率と同じ値であるものとして、生物学的年齢算出部22により、未来の生物学的年齢を算出するようにすればよい。すなわち、上記の例のように、式(2)のモデルでβ55(t+k歳)のみが推定できない場合、「β55(t+k歳)=β55(t歳)」であるものとして式(2)を適用し、以下の値として対象者の未来のt+k歳の時点での生物学的年齢を算出すればよい。
b0+b2・β2(t+k歳)+ b4・β4(t+k歳)+ b16・β16(t+k歳)+ b55・β55(t歳)
【0103】
上記のように算出してよいことは次の考察による。生物学的年齢予測モデルに使われているCpG領域に関して、モデルによっては全てが実年齢と相関するものもあるが、一部のモデルでは、部分的に実年齢と相関していないものもありうる。このような実年齢と相関しないCpG領域のメチル化率は、生物学的年齢の算出時に全体を調整するような項として機能することが想定される。従って、一部でも実年齢と相関するCpG領域がモデルに含まれていれば、将来のメチル化率として予測した値を用い、相関のないCpG領域については、生物学的年齢を算出するための主要な項ではないものとして、未来の値に代わる値として現在のままの値を用いるようにしてよい。
【0104】
なお、仮に、生物学的年齢予測モデルの全てのCpG領域が実年齢と相関がないものとして判定されたとする場合には、本発明の実施形態の手法を適用できない(あるいは、適用したとしても未来の生物学的年齢が現在と変わらないものとして常に算出され、妥当な算出結果を得ることができない)こととなるが、そのようなモデルが存在することはおよそ現実的ではないものと考えられる。あるいは、用いる生物学的年齢予測モデルについて、予め、現れるCpG領域の少なくとも一部が実年齢と相関することを確認しておき、当該確認されたモデルを用いるようにしてもよい。
【0105】
(5)
図16は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。情報処理装置100は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で情報処理装置100を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77と、これらの間でデータを授受するためのバスBSと、を備える。
【0106】
情報処理装置100の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。データベース15は、補助記憶装置としてのROM74として実現してよい。
【符号の説明】
【0107】
100…情報処理装置、11…エピゲノムデータセット入力部、12…エピゲノムデータ解析部、13…生活習慣データ入力部、14…対応付け保存部、15…データベース、20…分析部、211…生活習慣相関算出部、21…グループ判定部、221…年齢相関算出部、222…回帰モデル生成部、22…生物学的年齢算出部、23…生活習慣相違抽出部、24…生活習慣アドバイス生成部