(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022142021
(43)【公開日】2022-09-30
(54)【発明の名称】情報処理装置、方法及びプログラム
(51)【国際特許分類】
G16H 50/30 20180101AFI20220922BHJP
【FI】
G16H50/30
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021041978
(22)【出願日】2021-03-16
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(71)【出願人】
【識別番号】507148456
【氏名又は名称】学校法人 岩手医科大学
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】永田 雅俊
(72)【発明者】
【氏名】清水 厚志
(72)【発明者】
【氏名】小巻 翔平
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
5L099AA04
5L099AA15
(57)【要約】
【課題】生体情報と生活習慣の情報とを効率的に活用して健康に関する情報を得ることのできる情報処理装置を提供する。
【解決手段】複数のサンプルの各々につき、実年齢と、生活習慣が反映される生体情報の各項目の評価値と、生活習慣の各項目の実績値と、を対応付けたデータベース15を参照することで、各サンプルの前記評価値に生物学的年齢予測モデルを適用して生物学的年齢を算出する第1処理21と、前記データベース15を参照して、前記生活習慣の各項目による、前記生物学的年齢への影響度を算出する第2処理22と、を実行することを特徴とする。
【選択図】
図4
【特許請求の範囲】
【請求項1】
複数のサンプルの各々につき、実年齢と、生活習慣が反映される生体情報の各項目の評価値と、生活習慣の各項目の実績値と、を対応付けたデータベースを参照することで、各サンプルの前記評価値に生物学的年齢予測モデルを適用して生物学的年齢を算出する第1処理と、
前記データベースを参照して、前記生活習慣の各項目による、前記生物学的年齢への影響度を算出する第2処理と、を実行することを特徴とする情報処理装置。
【請求項2】
前記第2処理では、前記生活習慣の各項目と、前記生体情報の各項目と、の偏相関を用いて前記影響度を算出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記データベースを参照して、実年齢の一定範囲ごとに前記生物学的年齢が若いと判定されるサンプルから、当該実年齢の一定範囲における前記生体情報の評価値の模範値を算出する第3処理と、
指定されるサンプルについて、当該サンプルにおける前記生体情報の評価値と、当該サンプルにおける実年齢に対応する前記生体情報の評価値の模範値とを比較することにより、当該サンプルにおける生物学的年齢を若くするのに有効と判定される前記生活習慣の項目を出力する第4処理と、をさらに実行することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記第2処理では、前記生活習慣の各項目(B)と、前記生体情報の各項目(k)と、の偏相関(rBk)を算出し、
前記第4処理では、指定されるサンプルにおける生体情報の各項目(k)の前記評価値と前記模範値との差分によって前記比較し、
前記差分と、前記偏相関(rBk)と、を用いて、当該サンプルにおける生物学的年齢を若くするのに有効と判定される前記生活習慣の項目(B)を出力することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記第1処理では、前記生物学的年齢予測モデルを適用して生物学的年齢を算出するに際して、各サンプルの生体情報の各項目(k)の評価値に対する所定係数(bk)の重みづけ和として算出し、
前記第4処理では、前記差分の絶対値(Dwk)に対して前記所定係数(bk)と前記偏相関(rBk)とを乗じた値(rBk*bk*Dwk)を生体情報の各項目(k)について加算した和を生活習慣の各項目(B)について算出し、当該和の値が負であって且つその絶対値がより大きいものに対応する生活習慣の項目を、当該サンプルにおける生物学的年齢を若くするのにより有効な項目であるものとして出力することを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記データベースにおける、前記生活習慣が反映される生体情報の各項目のうち少なくとも一部に、エピゲノム修飾率が含まれることを特徴とする請求項1ないし5のいずれかに記載の情報処理装置。
【請求項7】
前記データベースにおける、前記生活習慣が反映される生体情報の各項目のうち少なくとも一部に、健診データの項目が含まれることを特徴とする請求項1ないし6のいずれかに記載の情報処理装置。
【請求項8】
前記データベースにおける、前記生活習慣の各項目のうち少なくとも一部に、運動、食事、喫煙、睡眠又はストレスに関する項目が含まれることを特徴とする請求項1ないし7のいずれかに記載の情報処理装置。
【請求項9】
複数のサンプルの各々につき、実年齢と、生活習慣が反映される生体情報の各項目の評価値と、生活習慣の各項目の実績値と、を対応付けたデータベースを参照することで、各サンプルの前記評価値に生物学的年齢予測モデルを適用して生物学的年齢を算出する第1処理と、
前記データベースを参照して、前記生活習慣の各項目による、前記生物学的年齢への影響度を算出する第2処理と、を実行することを特徴とする情報処理方法。
【請求項10】
コンピュータを請求項1ないし8のいずれかに記載の情報処理装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、健康に関連する情報を処理する情報処理装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来の技術として、健康診断の結果から健康余命の予測値を個人毎に算出して表示する技術(特許文献1)があり、健康状態を定量的に把握できるようにすることで、疾病予防や健康管理の意欲を高めることができるようにする効果が述べられている。また、近年の機械学習技術を応用し、健診データや体調情報から健康年齢を予測する手法(特許文献2)やそれに影響を与える項目を分析するプログラム(特許文献3)が提案されている。
【0003】
非特許文献1および2には、遺伝子の働きを制御するエピゲノム(DNAメチル化)に関する情報を用いて、生物学的年齢(またはエピゲノム年齢)を推定できる技術が報告されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007-287184号公報
【特許文献2】特開2019-145057号公報
【特許文献3】特開2020-004126号公報
【非特許文献】
【0005】
【非特許文献1】Field, Adam E., Neil A. Robertson, Tina Wang, Aaron Havas, Trey Ideker, and Peter D. Adams. "DNA methylation clocks in aging: categories, causes, and consequences." Molecular cell 71, no. 6 (2018): 882-895.
【非特許文献2】Horvath, Steve, and Kenneth Raj. "DNA methylation-based biomarkers and the epigenetic clock theory of ageing." Nature Reviews Genetics 19, no. 6 (2018): 371.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、これらのような健康プログラムでは血圧や血糖値などの健康診断結果を用いることを前提としているため、健診実施内容の違いや、問診票記入漏れや検査漏れ等による健診結果の欠落等測定できていない項目があった場合に対応が困難となる課題があった。また、エピゲノムに関する情報を用いて生物学的年齢を推定した場合でも、具体的にどのような生活習慣が影響を与えているかを把握することができないという課題があった。
【0007】
上記従来技術の課題に鑑み、本発明は、生体情報と生活習慣の情報とを効率的に活用して健康に関する情報を得ることのできる情報処理装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明は情報処理装置であって、複数のサンプルの各々につき、実年齢と、生活習慣が反映される生体情報の各項目の評価値と、生活習慣の各項目の実績値と、を対応付けたデータベースを参照することで、各サンプルの前記評価値に生物学的年齢予測モデルを適用して生物学的年齢を算出する第1処理と、前記データベースを参照して、前記生活習慣の各項目による、前記生物学的年齢への影響度を算出する第2処理と、を実行することを第1の特徴とする。
【0009】
さらに、当該情報処理装置が、前記データベースを参照して、実年齢の一定範囲ごとに前記生物学年齢が若いと判定されるサンプルから、当該実年齢の一定範囲における前記生体情報の評価値の模範値を算出する第3処理と、指定されるサンプルについて、当該サンプルにおける前記評価値と、当該サンプルにおける実年齢に対応する前記生体情報の評価値の模範値とを比較することにより、当該サンプルにおける生物学的年齢を若くするのに有効と判定される前記生活習慣の項目を出力する第4処理と、をさらに実行することを第2の特徴とする。また、当該情報処理装置に対応する方法及びプログラムであることを特徴とする。
【発明の効果】
【0010】
前記第1の特徴によれば、生活習慣の実績値から各サンプルの生物学的年齢を算出し、この生物学的年齢と生体情報とを考慮することで、生活習慣の健康への影響を推定することができるため、生物学的年齢を介して生体情報と生活習慣の情報とを効率的に活用することで健康に関する情報を得ることができる。前記第2の特徴によればさらに、生物学的年齢を若くするのに有効と判定される生活習慣の項目を出力することが可能となる。
【図面の簡単な説明】
【0011】
【
図3】DNAメチル化率を説明するための模式図である。
【
図4】一実施形態に係る情報処理装置の機能ブロック図である。
【
図5】一実施形態に係る情報処理装置の動作のフローチャートである。
【
図6】情報処理装置の各部で扱うデータの模式例を示す図である。
【
図7】構築されるデータベースの登録情報の模式例を示す図である。
【
図9】データベースに対する模範値の記録例を示す図である。
【
図10】生活習慣影響解析部及び生活習慣アドバイス生成部の処理(ステップS3,4の処理)を説明するためのデータ例を示す図である。
【
図11】
図10等の例との共通例として、生活習慣影響度解析部の処理を説明するための図である。
【
図12】一般的なコンピュータにおけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0012】
本発明の各実施形態を説明する前に、
図1~
図3を参照して医学上の既知事項であるエピゲノム(DNAメチル化)やDNAメチル化率について簡単に説明する。
図1上段側に示すように、DNAの塩基配列(アデニン(A)、グアニン(G)、チミン(T)、シトシン(C)の4種類の有機塩基の配列)であるゲノムは、各個人の生まれ持った遺伝的な特徴であって不変な、先天的な特性として解析可能なものである。一方、
図1下段側及び
図2に示すように、DNAの働きを制御するエピゲノムは、環境・時間依存的な変化を示す可変な、後天的な特性として解析可能なものである。
【0013】
各個人のほとんどの細胞においてDNA(ゲノム)は不変であるのに対し、発達段階・老化及び外部環境によって変化するエピゲノムは細胞の多様性を担い、細胞の運命を決めるものであることが知られている。例えば、iPS細胞(人工多能性幹細胞)はエピゲノムのリセットにより作製され、老化はエピゲノムの情報損失、変乱あるいは無秩序化に関連している。
【0014】
DNAのシトシン(C)はメチル化されることがあり、遺伝子の制御(スイッチ)に関与する。特にCとGが連続する場合に多く、当該のメチル化されうる位置はCGサイトまたはCpGサイトと呼ばれる。ヒトでは2,600万程のCpGサイトがある。
図2,3の模試例では各々のCpGサイトを、識別子としての添え字(i=1,2,…,n,…)を付してCpG
i(i=1,2,…,n,…)として示している。
【0015】
上記の通り、DNAメチル化等のエピゲノムは遺伝子スイッチの役割を果たすものであることが知られている。高メチル化状態はDNAが折りたたまれており遺伝子を読み取ることができない状態であるのに対し、逆に低メチル化状態はDNAにアクセスして遺伝子を読み取ることができる状態である。
【0016】
以上のように、エピゲノム(DNAメチル化)は、各個人の身体環境をモニタリングした情報を含んでいる。
図3の模式例に示されるように個別の細胞(及びこの細胞が構成する器官)ごとにDNAメチル化の状態は異なりうるが、多数のDNAにおける各サイトのメチル化率の情報を取得することが可能である。このメチル化率は各個人の身体環境が何らかの形で反映された数値となっている。
図3では、左側に示されるように4個の細胞の4個のDNAにおいて、2つのCpGサイトCpG
1,CpG
2があって図示されるようにメチル化状態の有無が存在する場合に、各CpGサイトのメチル化率が右側に示される通り算出されること(CpG
1は4個中4個で100%、CpG
2は4個中1個で25%)が例として示されている。
【0017】
図4は、一実施形態に係る情報処理装置の機能ブロック図である。情報処理装置100は、エピゲノムデータセット入力部11、エピゲノムデータ解析部12、生活習慣データ入力部13、対応付け保存部14、データベース15、生物学的年齢算出部21、生活習慣影響解析部22及び生活習慣アドバイス生成部23を備える。
【0018】
なお、
図4の機能ブロック間の矢印のうちの一部に付されているデータD1~D5は、当該機能ブロック間で入出力して扱われるデータであり、後述する
図6,8,10等で同一符号を付したものが当該データD1~D5の例となっている。
【0019】
図5は、一実施形態に係る情報処理装置100の動作のフローチャートであり、図示するように当該フローチャートはステップS1~S4で構成される。当該フローチャートの全体的な概要として、ステップS1がエピゲノムデータセット入力部11、エピゲノムデータ解析部12、生活習慣データ入力部13及び対応付け保存部14によって多数のサンプルについての情報をデータベース15に保存してデータベース15を構築する処理に該当し、ステップS2~S4が、このように構築されたデータベース15を生物学的年齢算出部21、生活習慣影響解析部22及び生活習慣アドバイス生成部23がこの順番で解析して、データベース15から生活習慣に関連する様々な情報を引き出す処理に該当する。
【0020】
以下、
図5のフローチャートの各ステップを説明しながら、
図4の情報処理装置100の各部の処理内容の詳細に関して説明する。
図6は、情報処理装置100の各部で扱うデータの模式例をデータ例D1~D5として分けて示す図であり、以下の説明において適宜参照する。
【0021】
<ステップS1> ステップS1では、多数のサンプル(健康関連の情報(ゲノム関連情報及び生活習慣情報)の取得対象となる多数の対象者)についての情報を取得してデータベース15を構築してから、ステップS2へと進む。このステップS1は以下の手順11~14として構成することができる。なお、手順11,12と手順13とはその先後を問わず実施でき、並行して実施してもよい。これら手順11,12と手順13とを終えた後に手順14を実施することができる。
【0022】
(手順11) エピゲノムデータデータセット入力部11が各サンプルのゲノム関連情報を取得し、これをエピゲノムデータ解析部12へと出力する。
【0023】
ゲノム関連情報(
図6にデータ例D1として模式例を示す)は、一般的な次世代シーケンサーの出力フォーマットであるFASTQ形式または参照配列にマッピング済みのBAM形式及びそれに準ずる形式で、ユーザID、年齢(暦年齢、生活年齢、実年齢であり、後述する「生物学的年齢」から区別される)、性別、人種を含むユーザー情報を含む。エピゲノムデータセット入力部11はこれらのデータを受け取り、フォーマットのチェックを行ったうえでエピゲノムデータ解析部12へ出力する。
【0024】
ここで、データ入力がFASTQ形式の場合は、冗長な配列情報やシークエンス結果の精度が低いデータを除外するため、データに含まれるクオリティー値に基づいたチェックを行うとともに、シーケンスリードのトリミングを行った上でヒトゲノム参照配列への位置づけによりBAMファイルとなる。
【0025】
(手順12) 手順11で得た各サンプルのゲノム関連情報をエピゲノムデータ解析部12が解析することで、個々のエピゲノムの箇所における修飾レベル(
図6にデータ例D2として、あるサンプルのサイトCpG
34(chr12:12番染色体上の3428031-3428032番塩基というアドレス)において算出された修飾レベルの値40%を示す)を算出して対応付け保存部14へと出力する。
【0026】
ここで、領域ごとのエピゲノムによる修飾レベルは、統計的検定による有意確率とともに算出することができる。なお、これら手順11,12の一連の処理のためのツール類は一般に公開されているため、手動による調整を行なってもよい。これにより、各々の対象者のゲノム配列における、DNAメチル化のようなエピゲノムによるDNA修飾レベル(前述の
図3でも模式例として示したもの)のデータとなる。
【0027】
(手順13) 生活習慣データ入力部13が各サンプル(エピゲノムデータセット入力部11においてゲノム関連情報を受け付けたのと共通の各サンプル)についての生活習慣データを取得し、これを対応付け保存部14へと出力する。
【0028】
この生活習慣データは、生活習慣に関連して予め定義されている各項目と、その実績値(定量値や定性値として与えられる実績値)として取得することができる。例えば、一般的な問診に基づいた生活習慣に関連するアンケートデータ(例えば前述した
図1下段にも示される喫煙、食事、運動、精神的なストレス等に関するデータ)を含めて生活習慣データを取得してもよい。また例えば、スマートフォンやウェアラブルデバイスを介して取得される定量的なデータを含めて生活習慣データを取得してもよい。例えば、食事に関するデータであれば、1単位80kcalで換算される食品交換表で主食、果物などのカテゴリごとに単位数を取得することできる。運動に関するデータであれば、1週間等の一定期間での運動頻度、運動強度、運動時間などを取得することができる。
【0029】
なお、生活習慣の各項目について複数種類のフォーマットに対応するため、各項目とその数量単位等による実績値とが統一された形式で登録ができるよう、生活習慣データ入力部13でチェックを受けるようにしてよい。(すなわち、共通項目についてサンプル間で異なるフォーマットの実績値が取得される場合は、所定規則により共通フォーマットの実績値に変換したうえで、生活習慣データ入力部13から対応付け保存部14へと出力するようにすればよい。)
【0030】
図6ではデータ例D3,D4として、このように食事や運動に関するデータを含んで取得される生活習慣データの元データ及び出力データの模式例が示されている。すなわち、元データD3は生活習慣データ入力部13への入力データの例であり、出力データD4は生活習慣データ入力部13から対応付け保存部14へと出力されるデータの例である。
【0031】
(手順14) 以上の手順12,13で得たDNA修飾レベルデータと生活習慣データとを、対応付け保存部14が対応するサンプルID及びそのユーザ情報(年齢、性別等のうち少なくとも年齢)と紐づけたうえで、データベース15へと保存することによってデータベース15を構築する。
【0032】
図7に、ステップS1で以上のようにして構築されたデータベース15の登録情報の模式例を表形式で示す。
図7では、各サンプルのユーザについて年齢(Age)と、DNA修飾レベル(エピゲノム修飾率)データとして、DNAメチル化部位(各々のCpG領域CpG
i(i=1,2,…))におけるメチル化率と、生活習慣(食事に関する各項目Diet_i(i=1,2,…)や運動に関する各項目Exer_i(i=1,2,…))に関するデータと、がユーザID(User001,002,003等)ごとに蓄積された表(データベース15での登録情報の内容を表す表)を例として、部分P1に示している。
【0033】
なお、
図7ではさらに部分P2として、このデータベース15が、生物学的年齢予測モデルによって算出された生物学的年齢(B_Age)を受け取り、ユーザIDと紐づけて格納することが示されているが、この部分P2は後述するステップS2においてデータベース15にさらに追加される情報を表すものである。(
図7のうち部分P1が、ステップS1において構築されるデータベース15の情報を表している。)
【0034】
<ステップS2> ステップS2では、生物学的年齢算出部21が以下の手順21,22,23を実施してから、ステップS3へと進む。
【0035】
(手順21) ステップS1で構築されたデータベース15の登録情報を参照し、登録されている各サンプルについて、指定される生物学的年齢予測モデルを適用することにより生物学的年齢を算出する。
【0036】
生物学的年齢予測モデルでは、エピゲノムの特定箇所の修飾率を分析することで、暦年齢よりも生体組織の機能的な能力及び老化の度合いを表す指標として、生物学的年齢を計算することができる。生物学的年齢を計算するためのモデルは、一般に、様々な老化指標から得られる生物学的年齢を目的変数、エピゲノム修飾率データ(一般に、被修飾サイトの修飾レベルのデータ)を説明変数として、多重線形回帰モデルや過学習を抑えるために正則化項を加えた回帰モデル(Elastic Net等)によって学習される。ここで、エピゲノム修飾率データはDNAメチル化のレベルであってもよいし、DNAヒドロキシメチル化であってもよい。(なお、ステップS1でのエピゲノムデータ解析部12においても同様に、DNAメチル化率に限らず任意種類のエピゲノム修飾率を算出することができる。)例えば、エピゲノム修飾率データとしてDNAメチル化率を用いる場合、年齢(生物学的年齢)に相関する複数のDNAメチル化部位(CpG領域)を用いて、以下の式(1)のようなモデルにより生物学的年齢(biological age)Fを計算できる。
【0037】
【0038】
式(1)において、bk(k=0,1,…n)は当該予測モデルにおける係数であり、CpGk(k=1,2,…,n)は当該予測モデルにおけるk番目のCpG領域のメチル化率である。なお、当該予測モデルにおいてk=1,2,…,nの全てのCpG領域ではなく、そのうちの一部のみが生物学的年齢に相関するものである場合は、相関しないCpG領域のメチル化率CpGkに対する係数bkがbk=0であるものとすればよい。なお、より一般に任意の予想モデルを用いる場合は、メチル化率を被修飾サイトの修飾レベルとすればよい。
【0039】
ここで例として、CpG領域の2、4、16、55番の領域が意味を持つモデルとして、対象のCpG領域とその係数を指定したとすると、上記の一般的な式(1)は具体的に以下の式(2)の通りとなり、各係数b
k(k=0,2,4,16)が例えば
図8(及び
図6)のデータ例D5のように与えられるものとなる。(なお、
図6のデータ例D5では予測モデルの係数に加えて、模式例として予測モデルによる生物学的年齢の計算例も示しているが、この計算を行うのは生物学的年齢算出部21である。)
【0040】
【0041】
このようなモデルにより、どのCpG領域が生物学的年齢に影響するのかが判明する。エピゲノム情報を用いた生物学的年齢予測モデルはこれまでに様々なモデルが提案されており、任意のモデルを予め指定するようにしてよい。
【0042】
(手順22) 上記の手順21によりデータベース15の各サンプルについて、そのIDと紐づける形で以下のように、当該サンプルの(実)年齢n=n(ID)及び生物学的年齢F=F(ID)の情報が得られる。
(ID, 年齢n, 生物学的年齢F)
【0043】
そこで、手順22では各サンプルにおけるこの情報(ID, n, F)を利用して次に説明する「BYグループ」を求め、このBYグループ毎のエピゲノム修飾率の代表値を算出する。
【0044】
すなわち、実年齢プラスマイナスa(例えばa=1)歳の範囲で、生物学的年齢が暦年齢より低い方からt%の集団を生物学的に若いグループとしてBYグループと呼ぶこととし、例えば実年齢45歳プラスマイナスaをBY@45などと表記することとする。ここで、tの値は予め指定し、例えば年齢nが正規分布に従う場合に平均値μより標準偏差σだけ低い値(μ-σ)以下の集団となる確率Pr (n≦μ-σ)などでもよい。
【0045】
当該表記の定義より、例えばBYグループである「BY@45」は以下の3つの条件を満たすサンプル集合となる。
BY@45={ID|「45-a≦n(ID)≦45+a」且つ「F(ID)<n(ID)」
且つ「CDF(F(ID))≦t%」}
【0046】
上記において第1条件「45-a≦n(ID)≦45+a」は実年齢n(ID)が45±a歳の範囲にあることであり、第2条件「F(ID)<n(ID)」は生物学的年齢F(ID)の方が実年齢n(ID)よりも小さい(若い)ことである。(ここで、生物学的年齢に関して、その値(目盛り)は、実年齢の値と比較して若ければ健康的であることを意味するように(モデル自体が)予め定義されている。)なお、実年齢、生物学的年齢共に整数で与えてもよいし、実数で与えてもよい。
【0047】
また、第3条件「CDF(F(ID))≦t%」は、「実年齢が45±a歳の範囲」であり且つ「F<n」である(生物学的年齢が実年齢より若い)ような、当該実年齢付近での「健康的グループ」において、F(生物学的年齢)の値の累積分布関数CDFの値がt%以下となることである。(すなわち、当該IDのサンプルの生物学的年齢F(ID)が当該「健康的グループ」内での若い側の上位何%であるかの値がCDF(F(ID))である。)
【0048】
すなわち、BYグループである「BY@45」は、実年齢が45歳付近(45歳と同一である、又は、45歳と近いと判定される)にあるサンプル集合(第1条件を満たすサンプル集合)から、生物学的年齢を考慮して模範的な健康状態にあると判定される部分集合を抽出した一例であり、当該模範的な健康状態に該当するものを抽出する条件として、第2条件及び第3条件の両方を課したものである。変形例として、第2条件又は第3条件のいずれか一方のみを課したものを、BYグループである「BY@45」として求めるようにしてもよい。
【0049】
手順22ではこのように定義されるBYグループ「BY@n」を、想定される実年齢nの様々な値(例えばn=44,45,46等)について求めたうえで、BYグループ「BY@n」ごとのエピゲノム修飾率の代表値を算出する。代表値としては例えば平均値や最頻値など、任意の統計的指標を利用してよい。ここで、BYグループ「BY@n」は上記の通り、実年齢n付近のサンプルにおいて模範的な健康状態にあると判定されたグループであるため、当該代表値として算出されたエピゲノム修飾率は、実年齢n付近における模範的な健康状態が反映されたものと考えることができる。
【0050】
(手順23) 上記の手順21で各サンプルについて算出した生物学的年齢と、手順22で各BYグループ「BY@n」について算出したエピゲノム修飾率(代表値)とを、データベース15に対して記録して保存する。
【0051】
ここで、生物学的年齢については、ステップS1で構築した(ID, 実年齢等の個人情報, エピゲノム修飾率, 生活習慣)の情報にさらに紐づける形で、(ID, 実年齢等の個人情報, エピゲノム修飾率, 生活習慣, 生物学的年齢)としてデータベース15に記録すればよい。当該記録した例が前述の
図7であり、部分P1(実年齢(Age)、エピゲノム修飾率、生活習慣)の情報に対してさらに部分P2の生物学的年齢(B_Age)の情報が記録されている。
【0052】
また、各BYグループ「BY@n」について算出したエピゲノム修飾率(代表値)も別途に、データベース15にさらに記録するようにすればよい。
図9は、当該記録の例であり、前述の式(2)の生物学的年齢モデル(特定のCpG領域のメチル化率が生物学的年齢に相関するモデル)を用いる場合の、実年齢n=44,45,46(歳)等の各BYグループ「BY@n」について記録する例である。
【0053】
<ステップS3> ステップS3では、データベース15における全サンプルの(ID, 実年齢, DNA修飾レベル, 生活習慣, 生物学的年齢)の情報を参照することにより、生活習慣影響度解析部22が、生活習慣の各項目(
図7に例示したような食事に関する各項目Diet_i(i=1,2,…)や運動に関する各項目Exer_i(i=1,2,…)等の各項目)のうち、生物学的年齢算出部21で用いたモデルで相関があるとされている項目について、生物学的年齢への影響度を算出し、この影響度を生活習慣アドバイス生成部23へと出力してから、ステップS4へと進む。
【0054】
すなわち、運動や食事などの生活習慣は複数のエピゲノム修飾に影響を与えるが、その影響を受ける領域は生活習慣に関する項目およびその頻度や強度によって異なる。例えば、エピゲノム修飾としてDNAメチル化を考えた場合、模式例として前述した
図2に示されるように、生活習慣の項目が与える影響はCpG領域によって異なり、生物学的年齢予測モデルに使われるCpG領域の一部も影響を受ける。
【0055】
生活習慣影響度解析部22では、この影響度を、データベース15内の全サンプルのエピゲノム修飾率(生物学的年齢予測モデルで用いられているエピゲノム修飾率)と生活習慣データを用いて、既存の統計手法により生活習慣項目間の影響を除いた偏相関の値rBkとして、以下の式(3)によって算出することができる。偏相関として算出することで、注目するCpGkに対して異なる複数の生活習慣項目が影響している場合であっても、交絡してしまう影響を排除することができる。(なお、独立変数間で相関が強すぎる場合、多重共線性の問題で偏相関係数の推定値が不安定となるケースもありうる。例えば、生活習慣項目として極めて近い種類(例えば、炭水化物摂取量と摂取カロリー)が存在するケースが該当しうる。このようなケースにおける不安定性を防ぐため、極めて近い種類の複数項目を同じ1種類のみの生活習慣項目として扱うか、いずれか1項目のみを用いるか等の設定を予め設けて、生活習慣データ入力部13でのデータ入力を受け付けるようにしてもよい。)
【0056】
【0057】
ここで、Sijは生活習慣項目Bと各エピゲノム修飾率の分散共分散行列Sのi行j列の余因子(i行j列の要素を取り除いて作った行列式に(-1)i+jを掛けたもの)であり、データベース15に記録されている全サンプルの(生活習慣項目, エピゲノム修飾率)の情報を用いて計算することができる。この余因子Sijを計算するための分散共分散行列Sは以下の式(3A)の通りであり、その要素を表す添え字に関して、xは当該偏相関rBkの計算対象として注目するCpGkのDNAメチル化率であり、yは当該計算対象として注目する生活習慣の項目の1つ(偏相関rBkに対応する生活習慣項目B)であり、z(z=z1,z2,…,zp)は当該項目B以外の生活習慣項目p個のそれぞれである。すなわち、式(3)の分子の余因子S12は、行列Sの1行2列の要素(Sxyと同じ行または列にある要素)を取り除いた行列式から算出されるものであり、同様に、分母の余因子S11,S22も、行列Sの1行1列の要素(Sxxと同じ行または列にある要素)、2行2列の要素(Syyと同じ行または列にある要素)をそれぞれ取り除いた行列式から算出されるものである。(換言すれば、式(3A)の行列Sの余因子行列S~のi行j列の成分が式(3)で用いるSijである。なお、行列Sが対称のため、その余因子行列S~も対称であって転置の有無を問わない。)
【0058】
【0059】
図10ではデータ例D6として、このように計算した偏相関r
Bkの例が、式(2)や
図8でも示したデータ例D5の生物学年齢予測モデルに対応する例(すなわち、エピゲノム修飾のうちDNAメチル化としてCpG領域の2、4、16、55番を対象とした例)として示されている。なお、
図10は、生活習慣影響解析部22及び生活習慣アドバイス生成部23の処理(ステップS3,4の処理)を説明するためのデータ例を示す図であり、以下においても適宜参照する。
【0060】
影響度rBkの値は、偏相関として計算する以外にも、機械学習等の任意の手法によって計算してもよい。
【0061】
<ステップS4> ステップS4では、アドバイス情報を生成する対象者として指定されるサンプル(データベース15に記録されているいずれかのサンプル)について、当該対象者のサンプルにおけるエピゲノム修飾率及び実年齢を、データベース15に記録されている模範値としてのBYグループ「BY@n」毎のエピゲノム修飾率に対して照合し、生活習慣影響解析部22から得られる影響度r
Bkも考慮することにより、当該対象者の生物学年齢を若くするのに有効と判定されるような生活習慣の項目を当該対象者に対する健康増進のためのアドバイス情報として生活習慣アドバイス生成部23が出力して、以上の
図5のフローが終了する。
【0062】
生活習慣影響度解析部22では具体的に、以下の手順31,32,33,34でアドバイス情報を生成することができる。
【0063】
(手順31) 偏相関係数等として得られた影響度rBkに対し、対応するエピゲノム領域の生物学的年齢予測モデルにおける係数を乗じることで、各生活習慣項目がエピゲノム領域を通じて生物学的年齢に与える影響度を推定する。
【0064】
図10はこの手順31の例を示しており、データD6に示すようなエピゲノム修飾率の項目kを行方向とし、生活習慣の項目Bを列方向とすることで影響度r
Bkがk行B列の要素値となるような行列に対して、データD5に示すような生物学的年齢予測モデルの係数が要素kとなるような列ベクトルb
kと、をアダマール積として乗算する(影響度r
Bkの行列のk行目の要素をb
k倍する)ことにより、データD7に示すような影響度「r
Bk*b
k」の行列を得る。
【0065】
(手順32) さらに、対象者の実年齢(m歳とする)に対応するBYグループ「BY@m」のエピゲノム修飾率(すなわち、m歳付近での模範値)との差に注目し、各生活習慣項目がエピゲノム修飾率に与える影響を差分ウェイト「Dwk」(差分の絶対値)として算出する。
【0066】
図11は、
図10等の例との共通例として、生活習慣影響度解析部22の処理を説明するための図であり、データD8が手順32の例を示している。例えば、対象者User011が実年齢45歳だとして、
図9のBY@45と比較した生物学的年齢のCpG領域のメチル化率が
図11のデータ例D8のようであったとする。すると、各CpG領域のメチル化率は、(対象者User011の今後における生活習慣の改善によって)BY@45のメチル化率(模範値)までは近づけられると考えられ、その差の絶対値を差分ウェイト「Dw
k」として算出する。
【0067】
この差分ウェイトは対象者によって異なる値となり、例えば
図11でのCpG2の差分ウェイトは、
図9(及び
図11)の模範値0.9との差分としてUser011(メチル化率0.6)では0.3(=|0.9-0.6|)であるが、同じ実年齢45歳のUser012(メチル化率0.7)では0.2(=|0.9-0.7|)となっている。
【0068】
(手順33) 以上の手順31で求めた影響度「rBk*bk」と手順32で求めた差分ウェイト「Dwk」とを用いて、これらの積「rBk*bk*Dwk」について以下の式(4)のように、生活習慣の項目Bごとにエピゲノム修飾率の項目kによる総和「Σk」を求めることにより、当該生活習慣Bの影響度EBを算出する。ここで、差分ウェイトの大きいエピゲノム領域ほど生活習慣による改善が見込める部分であるため、このように重みづけ和として影響度EBを算出している。Kは当該予測モデルにおけるエピゲノム修飾率の項目kの総数である。
【0069】
【0070】
図11のデータ例D9は、同図のデータ例D8の対象者User011について、この式(4)で生活習慣の項目B(=Diet1, Diet2,Diet3, Exer1,…)ごとに当該モデルでのエピゲノム修飾率の項目k(=CpG
2, CpG
4, CpG
16, CpG
55)の総和として影響度E
Bを算出した例である。このデータ例D9において例えば対象者User011の生活習慣項目Diet1については以下のように影響度が算出されている。
CpG
2の項目=(0.1)*(-5.0)*|0.9-0.6|=-0.15
CpG
4の項目=(-0.1)*(3.0)*|0.1-0.4|=-0.09
CpG
16の項目=(0.0)*(2.0)*|0.0-0.0|=0.0
CpG
55の項目=(0.2)*(-4.5)*|0.5-0.4|=-0.09
以上の総和としての対象者User011の生活習慣項目Diet1の影響度=-0.33
【0071】
(手順34) 手順33で求めた影響度EBの値がマイナス側へと大きいと判定されるような生活習慣Bの項目を、当該対象者の生物学的年齢を若くするのに寄与するもの、すなわち、健康状態の改善に寄与するものとして、アドバイス情報を出力する。なお、アドバイス情報の出力に関して、影響度EBの値のマイナス側への大きさの程度と、生活習慣の当該項目Bと、に応じた所定様式のテキスト等を予め設けておき、このテキスト情報等の形でアドバイス情報を出力してもよい。
【0072】
図11の対象者User011についてのデータ例D9であれば、Diet2の値の総和が-0.915で、最も効果的であることがわかる。この影響度E
Bにおける値は生物学的年齢への加減を表すので、マイナスの場合は老化を抑える方向に、プラスの場合は老化を加速する方向を意味している。ここで、生活習慣の項目は正の方向を前提としているので、上記値がプラスであればその生活習慣を抑制する方向に、マイナスであれば増加させる方向と考える。つまり、この例では、Diet2を増加させる生活習慣がこの対象者には最も有効ということになる。
【0073】
以上、本発明の実施形態によれば、従来の健康プログラムと比較してより根本的なゲノムレベルの情報を用いて計算された生物学的年齢を用いているため、健康状態の維持・向上のための行動変容に極めて高い効果があると期待される。また、一度十分なユーザのサンプル数によるデータ登録が行われれば、生活習慣項目パラメータが精度よく定まるため、その後のユーザのサンプルにおいては、生活習慣に関するデータは不要となる。つまり、ゲノム関連情報(ゲノム修飾率のように、生活習慣が生体情報として反映された情報)と実年齢情報さえあれば、どのような生活習慣をしているかという情報なしに、生物学的年齢を低くするための生活習慣を提示することが可能である。
【0074】
すなわち、ステップS4での生活習慣アドバイス生成部23でアドバイス情報を生成する対象者は、データベース15に既に登録されているサンプルから指定するものとして説明したが、未登録の新規の対象者を指定するようにしてもよい。この際、当該新規対象者について、その実年齢nと、そのゲノム関連情報をエピゲノムデータ解析部12で処理したDNA修飾レベルデータとを、生活習慣アドバイス生成部23へと入力するようにすればよい。
【0075】
以下、種々の補足事項、追加例、代替例などに関して説明する。
【0076】
(1) 本発明の実施形態によれば、健康状態の維持・向上のための行動変容を促すアドバイス情報を生成することができるため、国連が主導する持続可能な開発目標(SDGs)の目標3「あらゆる年齢のすべての人々の健康的な生活を確保し、福祉を推進する」に貢献することが可能となる。
【0077】
(2) ステップS1で構築するデータベース15では、ゲノム関連情報より得られるDNA修飾レベルデータを各サンプルについて登録するものとしたが、これに代えて、または、加えて、DNA修飾レベルデータと同様の性質を有する別情報、すなわち、生活習慣が生体情報として反映される1つ以上の任意項目の評価値を登録するようにしてもよい。例えば、健康指標変数であるBMIの値や血液検査項目(LDLコレステロール値)や何らかのバイオマーカーなどのような、健診データ等の評価値を登録するようにしてもよい。また、生活習慣の項目に関して、運動や食事に関する項目以外にも、
図1,2の模式例においても示すように、睡眠、喫煙、ストレス等に関する項目の実績値を生活習慣データ入力部13において受け付け、データベース15に登録するようにしてもよい。
【0078】
(3) 本発明の実施形態ではエピゲノム情報から推定する生物学的年齢を用いるが、これには次のような意義がある。生物学的年齢とは生体組織の機能的な能力・老化の度合いを表す指標である。また、エピゲノム年齢とは生物学的年齢の1つであり、ゲノム内のメチル化状態に基づいた数学的アルゴリズムで推定される年齢であり、数百~数十万箇所のメチル化変数から機械学習でモデル化できるものである。エピゲノムとしてDNAメチル化率がよく用いられることから、DNAメチル化年齢とも呼ばれる。エピゲノム年齢の利点として、あらゆる生物学的年齢の中で最も有効な指標とされ、死亡率との関連が強く、健康度の指標となり、組織や臓器ごとの老化進行度がわかることが挙げられる。例えば、がん細胞ではエピゲノム年齢が進んでいたり、エピゲノム年齢が高いとウイルスに罹患しやすいとの報告もある。
【0079】
(4)
図12は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。情報処理装置100は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で情報処理装置100を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77と、これらの間でデータを授受するためのバスBSと、を備える。
【0080】
情報処理装置100の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。データベース15は、補助記憶装置としてのROM74として実現してよい。
【符号の説明】
【0081】
100…情報処理装置、11…エピゲノムデータセット入力部、12…エピゲノムデータ解析部、13…生活習慣データ入力部、14…対応付け保存部、15…データベース、21…生物学的年齢算出部、22…生活習慣影響解析部、23…生活習慣アドバイス生成部