IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユジン バイオソフト カンパニー,リミテッドの特許一覧

特表2024-530322パーソナライズ生体年齢予測モデル生成方法及びシステム
<>
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図1
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図2
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図3
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図4
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図5
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図6
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図7
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図8
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図9
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図10
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図11
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図12
  • 特表-パーソナライズ生体年齢予測モデル生成方法及びシステム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-16
(54)【発明の名称】パーソナライズ生体年齢予測モデル生成方法及びシステム
(51)【国際特許分類】
   G16H 50/30 20180101AFI20240808BHJP
【FI】
G16H50/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024513366
(86)(22)【出願日】2022-02-24
(85)【翻訳文提出日】2024-03-27
(86)【国際出願番号】 KR2022002749
(87)【国際公開番号】W WO2023033275
(87)【国際公開日】2023-03-09
(31)【優先権主張番号】10-2021-0114310
(32)【優先日】2021-08-28
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523481425
【氏名又は名称】ユジン バイオソフト カンパニー,リミテッド
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】ユ,ジン テ
(72)【発明者】
【氏名】ユ,ジン ホ
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA15
(57)【要約】
本発明は、健康診断データに基づいて年齢別歴年齢に対する超過年齢を求めて個人別生物学的年齢を予測することが可能なモデルを生成するためのパーソナライズ生物学的年齢予測モデル生成方法及びそのシステムに関する。より具体的には、本発明は、男女または歴年齢帯によって老化メカニズムが互いに異なることを勘案して、性別と歴年齢帯別に生物学的年齢予測モデルを構築し、各年齢帯別生物学的年齢予測モデルに従って生物学的年齢を予測することができるようにするパーソナライズ生物学的年齢予測モデル生成方法およびシステムに関する。
【選択図】図7
【特許請求の範囲】
【請求項1】
健康診断システムから収集された健康診断データから生物学的年齢予測モデルを生成するためのパーソナライズ生物学的年齢予測モデル生成システムで行われる、
バイナリロジスティック回帰モデルを生成するために、トレーニングデータ(training data)として用いられる年齢区間(x~y)を設定するためのトレーニングデータ設定手段(120)の年齢区間設定過程と、
前記年齢区間設定過程で設定された年齢区間で各年齢単位を1単位とし、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループに区分し、各年齢単位別のバイナリロジスティック回帰モデル(Mx~My)を生成するバイナリロジスティック回帰モデル生成手段(130)のバイナリロジスティック回帰モデル生成過程と、
バイナリロジスティック回帰モデルに従って、サンプル対象である個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する年齢予測確率演算手段(140)の年齢予測確率演算過程と、
アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析によってカットオフ(cutoff)(Cm)を抽出するカットオフ抽出手段(150)のカットオフ抽出過程と、
オーバーエイジグループ(OAGm)と予測される確率(Pm)からカットオフ(Cm)を適用(Pm-Cm)して、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算する年齢予測確率補正手段(160)の年齢予測確率補正過程と、
前記年齢予測確率補正過程によって求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢(Individual’s excess aging)を求める超過年齢演算手段(170)の超過年齢演算過程と、
前記超過年齢演算過程によって求めた個人別超過年齢を歴年齢に足して生物学的年齢を求める生物学的年齢演算手段(180)の生物学的年齢演算過程と、を含んでなることを特徴とする、パーソナライズ生物学的年齢予測モデル生成方法。
【請求項2】
前記バイナリロジスティック回帰モデル生成過程におけるトレーニングデータは、健診項目情報に応じて構成され、
前記健診項目情報は、
体質量指数、腰周り、収縮期血圧、弛緩期血圧を含む身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンを含む血液検査指標とを含む健康保険健診項目データからなることを特徴とする、請求項1に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項3】
前記バイナリロジスティック回帰モデル生成過程におけるトレーニングデータは、健診項目情報に応じて構成され、
トレーニングデータとして用いられる健診項目情報を照会及び追加、削除設定するための健診項目情報設定過程をさらに含んでなることを特徴とする、請求項1または2に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項4】
前記バイナリロジスティック回帰モデル生成過程におけるトレーニングデータに対する条件情報を設定するための条件情報設定過程をさらに含んでなることを特徴とする、請求項1に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項5】
前記条件情報設定過程における条件情報は、男女性別情報であることを特徴とする、請求項4に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項6】
前記バイナリロジスティック回帰モデル生成過程において、
バイナリロジスティック回帰モデル(Mx~My)は、
設定された年齢区間で各年齢単位を1単位とし、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループを区分し、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループを反応変数とし、トレーニングデータを予測変数として、各年齢単位別に生成するようにしたことを特徴とする、請求項1に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項7】
前記年齢予測確率演算過程において、バイナリロジスティック回帰モデルに従って、サンプル対象である個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)の演算は次の数1、
【数1】
ここで、
Y:個人別老化状態(Individual’s aging status)
P(Y=OAGm):オーバーエイジグループと予測される確率(probability to be predicted as OAGm)
Yi:i番目の個人別老化状態(ith individual’s aging status)
i=1、2、…、:サンプル番号(sample number)
m=26(x)、27、…、75(y);トレーニングデータに用いられる年齢
(chronological age observed in the traning data)
CA:歴年齢(Chronological age)
Xk:k番目の独立変数(kth independent variable)
βk:k番目の独立変数の回帰係数(regression coefficient of kth independent variable)
p:独立変数の数(number of independent variable)、
で行われることを特徴とする、請求項1に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項8】
前記超過年齢演算過程において、個人別超過年齢は、
個人別に計算されたDm(m=26、…、75)に当該年齢(=m)を乗じて全て足した値の平均を示す次の数2、
【数2】
ここで、N:sample number i=1、2、…、N
Δi:weighted mean of (Pim-Cm)
Cm:前記年齢予測確率演算過程を介して求められたカットオフ(Cm)値
(cutoff of Pm to predict individual’s aging status from ROC curve analysis)、
で演算されることを特徴とする、請求項1に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項9】
前記超過年齢演算過程において、個人別超過年齢は、
オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均で求めるが、追加的に適用する加重値(Wm)を適用して、加重値平均は、次の数3、
【数3】
ここで、N:sample number i=1、2、…、N
Δi:weighted mean of (Pim-Cm)
Cm:前記年齢予測確率演算過程を介して求められたカットオフ(Cm)値
(cutoff of Pm to predict individual’s aging status from ROC curve analysis)
Wm:歴年齢をm以上に予測するための加重値(weight applied for the model to predict CA≧m)、
によって演算されることを特徴とする、請求項1に記載のパーソナライズ生物学的年齢予測モデル生成方法。
【請求項10】
健康診断システムから提供される健康診断データを収集してデータ保存手段に保存管理するための健診データ収集手段(110)と、
設定されたトレーニングデータ基準年齢区間(x~y)及び健診項目情報に応じて健診データ収集手段(110)から提供される健診データから有効なトレーニングデータを決定するためのトレーニングデータ設定手段(120)と、
前記トレーニングデータ設定手段(120)によって設定されたトレーニングデータに対して設定された年齢区間(x~y)内の年齢単位ごとにバイナリロジスティック回帰モデル(Mx~My)を生成するバイナリロジスティック回帰モデル生成手段(130)と、
バイナリロジスティック回帰モデル生成手段(130)によって生成されたバイナリロジスティック回帰モデルに従って、トレーニングデータの各個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する年齢予測確率演算手段(140)と、
アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を介してカットオフ(cutoff)(Cm)を抽出するカットオフ抽出手段(150)と、
前記年齢予測確率演算手段(140)を介して演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)からカットオフ(Cm)を適用(Pm-Cm)して、個人別オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算して、前記年齢予測確率演算手段(140)で演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)を補正する年齢予測確率補正手段(160)と、
前記年齢予測確率補正手段(160)を介して求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢(Individual’s excess aging)を求める超過年齢演算手段(170)と、
前記超過年齢演算手段(170)を介して求めた個人別超過年齢を用いて歴年齢から生物学的年齢を演算する生物学的年齢演算手段(180)と、
健診データ収集手段(110)から収集された健康診断データ、トレーニングデータ設定手段で設定されたトレーニングデータが保存管理されるデータ保存手段(190)と、を含んでなることを特徴とする、パーソナライズ生物学的年齢予測モデル生成システム。
【請求項11】
前記トレーニングデータ設定手段(120)の年齢区間、健診項目情報をユーザが照会、設定することができるようにプロセスを提供するユーザ設定手段をさらに含んでなることを特徴とする、請求項10に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項12】
前記トレーニングデータ設定手段(120)でトレーニングデータを決定するための条件情報をユーザが設定し得るようにプロセスを提供するユーザ設定手段をさらに含んでなることを特徴とする、請求項10または11に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項13】
前記ユーザ設定手段の条件情報は男女性別情報であることを特徴とする、請求項12に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項14】
前記バイナリロジスティック回帰モデル生成手段(130)でのバイナリロジスティック回帰モデル(Mx~My)は、
設定された年齢区間で各年齢単位を1単位とし、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループを区分し、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループを反応変数とし、トレーニングデータを予測変数にして、各年齢単位別に生成するようにしたことを特徴とする、請求項10に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項15】
前記トレーニングデータ設定手段(120)の健診項目情報は、
体質量指数、腰周り、収縮期血圧、弛緩期血圧を含む身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンを含む血液検査指標とを含む健康保険健診項目データからなることを特徴とする、請求項10または11に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項16】
前記年齢予測確率演算手段(140)は、バイナリロジスティック回帰モデルに従って、サンプル対象である個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)の演算は次の数4、
【数4】
ここで、
Y:個人別老化状態(Individual’s aging status)
P(Y=OAGm):オーバーエイジグループと予測される確率(probability to be predicted as OAGm)
Yi:i番目の個人別老化状態(ith individual’s aging status)
i=1、2、…、:サンプル番号(sample number)
m=26(x)、27、…、75(y);トレーニングデータに用いられる年齢
(chronological age observed in the traning data)
CA:歴年齢(Chronological age)
Xk:k番目の独立変数(kth independent variable)
βk:k番目の独立変数の回帰係数(regression coefficient of kth independent variable)
p:独立変数の数(number of independent variable)、
で行われることを特徴とする、請求項10に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項17】
前記超過年齢演算手段(170)では、オーバーエイジグループ(OAGm)と予測される確率(Dm)に対して次の数5、
【数5】
ここで、N:sample number i=1、2、…、N
Δi:weighted mean of (Pim-Cm)
Cm:カットオフ抽出手段(150)を介して求められたカットオフ(Cm)値
(cutoff of Pm to predict individual’s aging status from ROC curve analysis)、
を介して加重値平均(Δi)を求めて個人別超過年齢を求めることを特徴とする、請求項10に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【請求項18】
前記超過年齢演算手段(170)では、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対して次の数6、
【数6】
ここで、N:sample number i=1、2、…、N
Δi:weighted mean of (Pim-Cm)
Cm:カットオフ抽出手段(150)を介して求められたカットオフ(Cm)値
(cutoff of Pm to predict individual’s aging status from ROC curve analysis)
Wm:歴年齢をm以上に予測するための加重値(weight applied for the model to predict CA≧m)、
を介して加重値平均(Δi)を求めて個人別超過年齢を求めることを特徴とする、請求項10に記載のパーソナライズ生物学的年齢予測モデル生成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パーソナライズで生物学的年齢を予測するためのモデル生成方法に係り、具体的には、健康診断データに基づいて年齢別歴年齢に対する超過年齢を求めて個人別生物学的年齢を予測することが可能なモデルを生成するためのパーソナライズ生物学的年齢予測モデル生成方法及びそのシステムに関する。
【背景技術】
【0002】
一般的に、歴年齢は、今年度と出生年度との差を示すものであり、個人の現在健康状態を問わず、同一年度に生まれた人は、いずれも同一の歴年齢を有するしかない。
【0003】
したがって、個人の現在健康状態または全般的な身体機能低下と関連のある「老化」を歴年齢のみでは完全に示すことができないため、老化に関連した身体機能低下を示す「生物学的年齢」を予測または測定することができる技術の開発が必要である。
【0004】
生物学的年齢とは、歴年齢とは異なり、体の全般的な健康状態によって変わる部分を数値化したもので、すなわち、体の健康及び老化程度を数値で示したものである。
同じ歴年齢の人々であっても、体の健康状態が互いに異なり得るため、体の全般的な健康状態を測定または推定して求められた生物学的年齢を利用することが、歴年齢よりは現在の全般的な健康状態、老化、さらには実質的な期待寿命を測定することがより正確であるといえる。
【0005】
<生物学的年齢の予測/測定のための既存の研究>
生物学的年齢を測定しようとする研究は、1969年にComfortから始まって現在まで引き続き持続されてきている。
【0006】
生物学的年齢の測定に使用するバイオマーカーが備えるべき要因としては、
1)身体の機能または新陳代謝システムに対する情報の提供
2)歴年齢との相関関係がある定量的な特性の保有
3)再現性、敏感性、具体的な特性の保有
4)ヒトだけでなく、実験動物への適用にも適することなどがある
【0007】
これらを考慮して、身体的(physical)、生理的(physiological)、生化学的(biochemical)なバイオマーカーを用いて生物学的年齢を測定しようとする研究が行われた。
【0008】
生物学的年齢の測定に多く使用するバイオマーカーとしては、体質量指数(BMI)、血圧(収縮期血圧、弛緩期血圧)、腰回り、肺活量、筋肉量、アルブミン、コレステロール数値などがあり、これらを独立因子として用いて多重回帰分析(multivariable linear regression analysis)、主成分分析(PCA、principal component analysis)を用いて生物学的年齢測定モデルを研究している。
【0009】
<死亡危険度予測の研究>
Levine and Crimminsは、生物学的年齢を用いて10年間死亡率を予測する研究を行い、Brown and McDaidは、歴年齢、教育程度、性別、所得、結婚状態、職業、人種、宗教、喫煙、飲酒、活動量、肥満などの要因が成人の死亡率に及ぼす影響に関する調査及び研究を行った。
【0010】
一方、性別、喫煙有無、歴年齢、underwriting classを含む9個の要因でロジスティック回帰モデルを構築して死亡危険度を評価するモデルを研究した事例もある。
【0011】
韓国内では、大規模の韓国人を対象とした健康診断データを用いて生物学的年齢を測定するモデルを構築した後、生物学的年齢が歴年齢よりも多く測定された場合、17年間の死亡に及ぼす影響力をCox回帰モデルを用いて研究した事例がある。
【0012】
現在、論文または特許の形態で公開されている生物学的年齢測定モデルでは、個人の生物学的年齢=55.7歳のように一つの数値のみで提示されるが、この数値が意味する定量及び定性的な解析が客観的ではなく不明であるため、個人の老化状態を一つの数値ではなく生物学的年齢確率スペクトル/分布のように他の形態で示す必要がある。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】韓国公開特許第2014-0126229号公報
【0014】
<生物学的年齢測定に関するSCI級論文>
現在公開されている生物学的年齢測定モデル
(a)A new approach to the concept and computation of biological age
2006、Mechanisms of Ageing and Development(チェコ人対象)
【0015】
バイオマーカーの影響力を非線形的にモデリング
(b)A method for identifying biomarkers of aging and constructing an index of biological age in humans
2007、Journal of Gerontology(京都大学校、日本人男性対象)
【0016】
PCA分析技法を用いたモデリング(R2=0.52)
(c)Development of models for predicting biological age(BA) with physical、biochemical、and hormonal parameters
2008、Arch Gerontol Geriatr(総合生体、身体、生化学、ホルモン年齢に区分、韓国人対象)
【0017】
Multiple linear regressionモデリング(男性R2=0.62、女性R2=0.66)
(d)Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean men
2009、Archives of Gerontology and Geriatrics(年齢帯別に正常、糖異常、糖尿患者に区分、ソウル大学校、韓国人男性対象)
【0018】
PCA分析技法を用いたモデリング(R2=0.581)
(e)Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults
2012、Gerontology(年齢帯別に正常、肥満患者に区分、ソウル峨山病院、韓国人対象)
【0019】
PCA分析技法を用いたモデリング(男性R2=0.638、女性R2=0.672)
(f)生物学的年齢が死亡に及ぼす影響力の分析
Biological age as a useful index to predict seventeen-year survival and mortality in Koreans
2017、BMC Geriatrics(55万余の韓国人を対象に17年間追跡調査した資料を用いて、生物学的年齢が死亡に及ぼす影響力を分析)
【0020】
ここで、前記R2は、決定係数(coefficient of determination)を意味する
【0021】
<多重線形回帰分析モデル:MLR>
図3は、線形回帰直線を示す。
図3における線形回帰直線は、Y=a+b*Xのような線形回帰式で表示することができる。
図3で示した点は、各個人の測定された座標X(健診数値)、Y(年齢)を示すが、健診数値が大きくなるほど歴年齢が増加する傾向を示す。これを線形回帰モデルで表現すると、健診数値は、大きくなるほど年齢を増加させる影響を示す。
(健診数値が年齢増加に及ぼす定量的な影響力が線形回帰式の傾き)
【0022】
すなわち、健診数値と年齢(より正確には歴年齢)との増減関係のどこかに存在すると推定される生物学的年齢を前記線形回帰式のY値と考えてみようとするのが、線形回帰モデルを用いた生物学的年齢予測モデルの概要といえる。
【0023】
多重線形回帰分析モデルは、次の数1で表すことができる。
【0024】
【数1】
多重線形回帰モデル(MLR、Multivariable Linear Regression)
【0025】
前記数1は、従属変数(Y)を歴年齢とし、BMI、SBP、HDLの3つの変数を独立変数として、独立変数が歴年齢に及ぼす線形的な影響力を示したものである。
ここで、a1、a2、a3は、回帰係数(regression coefficient)であって、それぞれBMI、SBP、HDLが歴年齢に及ぼす影響力を示す。
そして、a0は回帰定数(interceptまたはregression constant)である。
【0026】
前記数1によって計算されるYは、BMI、SBP、HDL測定値を入力したときに計算される数値であるが、この数値を生物学的年齢として考えようとするのがMLRモデルの核心である。
【0027】
このような多重線形回帰モデル(MLR)は、次の問題点がある。
若者の場合は、BA(生物学的年齢)がCA(歴年齢)に比べて高く予測(overestimate)され、高齢者の場合は、生物学的年齢(BA)が低く(underestimate)予測される。
【0028】
これは、データが持っている特性のためであると推定され、正確にどのメカニズムのためであるかは分からない。
【0029】
図4は、歴年齢(X)と生物学的年齢(Y)との関係を示すグラフであって、多重線形回帰モデルのover(under) estimationの例を示す。
生物学的年齢(BA)において歴年齢(CA)が健康診断項目に従属的(従属変数)であるという点で、矛盾が存在する。
【0030】
すなわち、歴年齢(CA)は、健康診断項目ではなく、カレンダー時間(calendar time)に従属的なものである。
【0031】
特に、健康診断項目と歴年齢(CA)との相関関係が「1」であるとすると、健康診断項目自体はそれ自体で無駄である。(根拠:Ingram、1988)
これは、モデル樹立の際に立てた仮定自体に矛盾があることを意味する。
【0032】
次は、多重線形回帰モデルの問題点を言及した論文である。
(A)2008線形回帰モデル-MLRモデル
Development of models for predicting biological age(BA) with physical、biochemical、and hormonal parameters
【0033】
(b)2009ソウル大学校病院モデル-PCAモデル
Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean
【0034】
(c)2011ソウル峨山病院モデル-PCAモデル
Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults
【0035】
(d)2010生物学的年齢モデル間の比較論文
An empirical comparative study on biological age estimation algorithms with an application of Work Ability Index(WAI)
【0036】
<主成分分析モデルの説明;PCA>
主成分分析法(PCA;Principal Component Analysis)は、
図5に示すように、多数の変数v1~v5が示す共通の特性を分析して、これらを代表することが可能な少数の独立的要因(要因1、要因2)を見つける方法である。
【0037】
例えば、SBP、DBP、HDL、LDL、TGの5つの変数を用いてPCA分析を行うと、「血圧要因」と「コレステロール要因」という2つの独立的要因を抽出することができる。
【0038】
多数の健康診断変数(BMI、WST、SBP、DBP、AST、ALT、GGTP、HDL、LDL、TG、肺活量など)にPCAを適用して、これらの変数に共通して存在する「1つの要因」を抽出する。
【0039】
このようにPCAを介して抽出された「1つの要因と歴年齢は相当な水準の量の相関関係」があると分析される。(Pearson’ correlation coefficient 0.8)
【0040】
したがって、PCA方法で抽出された「1つの要因」を、人の実際老化状態を示す「生物学的年齢」と決定しようとするのが、PCA生物学的年齢予測モデルの核心である。
次は、PCAを用いた生物学的年齢予測モデルである。
【0041】
(a)2009ソウル大学校病院モデル-PCAモデル
Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean men
【0042】
(b)2011ソウル峨山病院モデル-PCAモデル
Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults
【0043】
(c)2007日本人モデル-PCAモデル
A Method for Identifying Biomarkers of Aging and Constructing an Index of Biological Age in Humans PCA
【0044】
PCAを用いた生物学的年齢予測モデルの特徴
PCA分析では、多重回帰分析法とは異なり、従属変数、独立変数の区分がない。すなわち、健康診断項目が5つであるとするとき、5つの数値で共通して出る要素(主成分)を選び出す方法であるといえる。
【0045】
図5において、5つの変数が座標上での位置をみると、v1~v3とv4~v5は互いに異なる2つのクラスター(cluster)に属していると見ることができ、これは5つの変数を2つの要因として説明することができるといえる。
【0046】
結局、入力値としては5つの変数が入るが、実際の生物学的年齢(BA)の予測に使用される変数は、要因1と要因2であるといえる。
【0047】
ここで、実際の生物学的年齢予測モデルには、最も影響力が大きい要因1つのみを使用する。
【0048】
PCAを用いた生物学的年齢予測モデルは、多重線形回帰分析(MLR)モデルとは異なり、歴年齢(CA)を従属変数として使用しないが、抽出された最も大きい影響力を示す要因を年齢(例えば、1歳、2歳)などの単位(すなわち、unit)を有するようにし、生物学的年齢(BA)の予測におけるバイアス(bias)を補正するために、歴年齢(CA)が独立変数として生物学的年齢(BA)予測モデルに入る。
【0049】
PCAモデルをまとめると、次の数2で表すことができる。
【0050】
【数2】
【0051】
ここで、BAは生物学的年齢、X1はPCAを介して抽出された一つの主成分要因、CAは歴年齢を意味し、FはX1を入力変数として用いた変換関数、GはCAを入力変数として用いた変換関数を意味する。
【0052】
すなわち、生物学的年齢は、PCA主成分要因及び歴年齢にそれぞれ加重値を乗じた後、足して計算した数値を意味するのである。
【0053】
<PCAモデルの欠点>
PCAモデムを介して抽出した主成分が、歴年齢と非常に高い相関関係を持つため、これが生物学的年齢を代表する数値であるというのは、研究者の主観的な意見に過ぎない。
【0054】
また、PCAを介して抽出された要因を、「年齢」という単位を有する変数(生物学的年齢)とするために、「歴年齢」をパラメータとして用いた変換関数を導入したものであり、客観的に立証されたものではなく、研究者の単純なアイディアに過ぎない。
【0055】
「歴年齢」をパラメータとして用いて生物学的年齢モデルに含ませたもう一つの理由は、「歴年齢」をパラメータとして用いる前には、MLRモデルのように若者層では過大評価(Overestimation)され、高齢者層では過小評価(Underestimation)される現象が同様に発生するためである。
【0056】
韓国公開特許第2014-0126229号公報の「生物学的年齢演算モデル生成方法及びシステムとその生物学的年齢の演算方法及びシステム」では、前記PCA生物学的年齢予測モデルを用いて生物学的年齢を演算する方法を提供している。
【発明の概要】
【発明が解決しようとする課題】
【0057】
老齢化が急速に進んでいる国内環境でより健康なライフを長い間に営むための予防次元で個人別老化状態を予測するための方法が求められる。
【0058】
本発明は、男女または歴年齢帯によって老化メカニズムが互いに異なることを勘案して、性別と歴年齢帯別に生物学的年齢予測モデルを構築し、各年齢帯別生物学的年齢予測モデルに従って生物学的年齢を予測することができるようにするパーソナライズ生物学的年齢予測モデル生成方法およびシステムを提供することを目的とする。
【0059】
また、本発明は、単純に生物学的年齢(例:55歳)の数値だけを提示するよりは、個人の老化状態を生物学的年齢確率スペクトル/分布などの形態で示すようにすることにより、より客観的かつ明確な解析が可能な生物学的年齢情報を提供することができるようにしたパーソナライズ生物学的年齢予測モデル及びサービスシステムを提供することを目的とする。
【課題を解決するための手段】
【0060】
現在、論文または特許に公開されている生物学的年齢測定モデルでは、個人の生物学的年齢=55.7歳のように一つの数値のみで提示されるが、この数値が意味する定量及び定性的な解析が客観的ではなく不明であるため、個人の老化状態を一つの数値ではなく生物学的年齢確率スペクトル/分布などの形態で示す必要がある。
【0061】
本発明は、従来の生物学的年齢予測モデル(MLR、PCA)とは異なり、健診データを用いて生物学的年齢を直接予測するのではなく、健診データを通じて歴年齢が説明しない「超過老化要因(すなわち、Δ)」を算出することを技術的特徴とする。
【0062】
本発明は、男女または歴年齢帯によって老化メカニズムが互いに異なると予想されるため、性別と歴年齢帯によって異なるように動作する複数の生物学的年齢測定モデルを開発しようとする。
【0063】
本発明は、同一歴年齢の人々を代表する数値(例:体質量指数平均、血圧平均など)と比較したとき、個人から測定された健診数値差の分布を考慮した統計モデルで生物学的年齢を予測しようとする。
【0064】
本発明のパーソナライズ生物学的年齢予測モデル生成方法は、
バイナリロジスティック回帰モデルを生成するために、トレーニングデータ(training data)として用いられる年齢区間(x~y)を設定するための年齢区間設定過程と、
前記年齢区間設定過程で設定された年齢区間で各年齢単位を1単位とし、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループに区分し、各年齢単位別のバイナリロジスティック回帰モデル(Mx~My)を生成するバイナリロジスティック回帰モデル生成過程と、
バイナリロジスティック回帰モデルに従って、サンプル対象である個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する年齢予測確率演算過程と、
アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(Receiver Operating Characteristic curve)分析によってカットオフ(Cm)を抽出するカットオフ抽出過程と、
オーバーエイジグループ(OAGm)と予測される確率(Pm)からカットオフ(Cm)を適用(Pm-Cm)して、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算する年齢予測確率補正過程と、
前記年齢予測確率補正過程によって求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢(Individual’s excess aging)を求める超過年齢演算過程と、
前記超過年齢演算過程によって求めた個人別超過年齢を歴年齢に足して生物学的年齢を求める生物学的年齢演算過程と、を含んでなることを特徴とする。
【0065】
そして、前記バイナリロジスティック回帰モデル生成過程におけるトレーニングデータは、健診項目情報に応じて構成され、トレーニングデータとして用いられる健診項目情報を照会及び追加、削除設定するための健診項目情報設定過程をさらに含んでなることを特徴とする。
【0066】
また、前記バイナリロジスティック回帰モデル生成過程でのトレーニングデータに対する男女条件情報を設定するための条件情報設定過程をさらに含んでなることができる。
【0067】
前記超過年齢演算過程において、個人別超過年齢は、
個人別に計算されたDm(m=26、…、75)に当該年齢(=m)を乗じて全て足した値の平均で演算されることを特徴とする。
【0068】
本発明のパーソナライズ生物学的年齢予測モデル生成システムは、
健康診断システムから提供される健康診断データを収集してデータ保存手段に保存管理するための健診データ収集手段と、
設定されたトレーニングデータ基準年齢区間(x~y)及び健診項目情報に応じて健診データ収集手段から提供される健診データから有効なトレーニングデータを決定するためのトレーニングデータ設定手段と、
前記トレーニングデータ設定手段によって設定されたトレーニングデータに対して設定された年齢区間(x~y)内の年齢単位ごとにバイナリロジスティック回帰モデル(Mx~My)を生成するバイナリロジスティック回帰モデル生成手段と、
バイナリロジスティック回帰モデル生成手段によって生成されたバイナリロジスティック回帰モデルに従って、トレーニングデータの各個人別にオーバーエイジグループと予測される確率(Pm)を演算する年齢予測確率演算手段と、
アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を介してカットオフ(cutoff)(Cm)を抽出するカットオフ抽出手段と、
前記年齢予測確率演算手段によって演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)からカットオフ(Cm)を適用(Pm-Cm)して個人別オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算して、前記年齢予測確率演算手段で演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)を補正する年齢予測確率補正手段と、
前記年齢予測確率補正手段を介して求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢(Individual’s excess aging)を求める超過年齢演算手段と、
前記超過年齢演算手段を介して求めた個人別超過年齢を用いて歴年齢から生物学的年齢を演算する生物学的年齢演算手段と、
健診データ収集手段から収集された健康診断データ、トレーニングデータ設定手段で設定されたトレーニングデータが保存管理されるデータ保存手段と、を含んでなることを特徴とする。
【0069】
前記トレーニングデータ設定手段の年齢区間、健診項目情報をユーザが照会、設定することができるようにプロセスを提供するユーザ設定手段をさらに含んでなることを特徴とする。
【0070】
前記トレーニングデータ設定手段でトレーニングデータを決定するための条件情報をユーザが設定し得るようにプロセスを提供するユーザ設定手段をさらに含んでなり、条件情報は男女性別情報であることを特徴とする。
【0071】
前記トレーニングデータ設定手段の健診項目情報は、
体質量指数、腰周り、収縮期血圧、弛緩期血圧などの身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンなどの血液検査指標とを含む健康保険健診項目データから構成されることを特徴とする。
【発明の効果】
【0072】
このような本発明は、国民健康保険公団に既に蓄積されている高品質の大規模健康診断データを活用して生物学的年齢予測モデルを開発することにより、生物学的年齢予測モデルを開発するためのデータを別途構築、研究する過程にかかる費用及び時間を減らすことができる。
【0073】
また、本発明は、男女、年齢帯によってその老化の程度を異にすることに勘案して、健診データを用いて男女、年齢帯別による各個人の相対的な値を用いて個人別超過年齢を演算し、これを加重値情報として生物学的年齢を予測することができるようにすることにより、より信頼度のあるパーソナライズ生体予測モデルを生成することができる。
【図面の簡単な説明】
【0074】
図1】歴年齢と収縮期血圧との相関関係を示すデータ分布の例示を示す図である。
図2】歴年齢とヘモグロビンとの相関関係を示すデータ分布の例示を示す図である。
図3】多重線形回帰分析モデル(MLR)において、線形回帰直線を示す図である。
図4】歴年齢(X)と生物学的年齢(Y)との関係を示すグラフである。
図5】主成分分析法(PCA;Principal Component Analysis)を用いた生物学的年齢予測モデルを示す図である。
図6】本発明のパーソナライズ生物学的年齢予測モデル生成方法の過程を示すフローチャートである。
図7】本発明において、バイナリロジスティック回帰モデルを生成する過程を示す図である。
図8】本発明において、バイナリロジスティック回帰モデルに従って求められた確率値(Pm)を示す図表である。
図9】本発明において、カットオフ抽出過程を介して抽出されたカットオフ値を示す図表である。
図10】本発明において、年齢予測確率修正過程を介して求められたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)を示す図表である。
図11】本発明において、個人別超過年齢のプロファイルの例を示す図である。
図12】本発明において、生物学的年齢を予測するためのモデル生成過程に対する実施形態を示すフローチャートである。
図13】本発明のパーソナライズ生物学的年齢モデル生成システムの構成を示すブロック図である。
【発明を実施するための形態】
【0075】
本発明のパーソナライズ生物学的年齢予測モデル生成方法は、健診データを介して歴年齢が説明しない「超過老化要因(Δ)」を算出し、これを用いて生物学的年齢を予測するようにすることをその技術的特徴とする。
【0076】
本発明のパーソナライズ生物学的年齢モデル生成過程は、次のように行われる。
バイナリロジスティック回帰モデルを生成するために、トレーニングデータ(training data)として用いられる年齢区間(x~y)を設定するための年齢区間設定過程と、前記年齢区間設定過程で設定された年齢区間で各年齢単位を1単位とし、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループに区分し、各年齢単位別のバイナリロジスティック回帰モデル(Mx~My)を生成するバイナリロジスティック回帰モデル生成過程と、
バイナリロジスティック回帰モデルに従って、サンプル対象である個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する年齢予測確率演算過程と、
アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を介してカットオフ(cutoff)(Cm)を抽出するカットオフ抽出過程と、
オーバーエイジグループ(OAGm)と予測される確率(Pm)からカットオフ(Cm)を適用(Pm-Cm)して、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算する年齢予測確率補正過程と、
前記年齢予測確率補正過程を介して求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢(Individual’s excess aging)を求める超過年齢演算過程と、
前記超過年齢演算過程を介して求めた個人別超過年齢を歴年齢に足して生物学的年齢を求める生物学的年齢演算過程と、を含んでなる。
【0077】
本発明の生物学的年齢予測モデルは、多重二進ロジスティック回帰分析(MBLR;Multivariable binary logistic regression)と定義することができ、その特徴を単純化させると、次のように表すことができる。
【0078】
本発明の生物学的年齢予測モデル(MBLR);
生物学的年齢(BA)=歴年齢(CA)+Δ
Δ=f(BMI、SBP、.....、CA)
ここで、f(BMI、SBP、…)は、健康診断数値を入力変数として用いたバイナリロジスティック回帰分析(binary logic regression)モデルに基づいた超過老化要因計算関数を示す。
【0079】
これに対比される従来のMLRモデル、PCAモデルは、次のように表すことができる。
MLRモデル:BA=a0+a1×BMI+a2×SBP+…
PCAモデル:BA=F(BMI、SBP、…)+G(CA)
このように構成される本発明は、
生物学的年齢(BA)を求める際に、歴年齢(CA)に対する超過年齢(Δi)を求めることができるようにすることをその技術的特徴とするものであって、図6に示すように、
(a)年齢区間設定過程、
(b)バイナリロジスティック回帰モデル生成過程、
(c)年齢予測確率演算過程、
(d)カットオフ抽出過程、
(e)年齢予測確率修正過程、
(f)超過年齢演算過程、
(g)生物学的年齢演算過程を含んでなる。
【0080】
前記年齢区間設定過程は、
生物学的年齢を求めるためのトレーニングデータを用いるための健康保険健診データの対象を設定するための過程であって、バイナリロジスティック回帰モデルを求めるために用いられる年齢区間(x~y)を設定する。
【0081】
本発明の実施形態は、26歳(x)~75歳(y)を健康保険健診データの対象として設定する。
【0082】
前記26歳、75歳は、健康保険データの特性のために使用された値であって、健康保険データでない場合、x(26歳)、y(75歳)は変更できる。
【0083】
前記バイナリロジスティック回帰モデル生成過程は、2つのグループからオーバーエイジと予測される確率(Pm)を求めるためのバイナリロジスティック回帰モデルを生成するための過程であって、「歴年齢」を2つのグループに区分し、この2つのグループからいずれか1つのグループ(OAGm)を予測することが可能なモデルを生成するための過程である。
【0084】
前記設定された26歳~75歳の区間で設定することができる年齢単位は、50個の単位であり、単位ごとに健診項目別のトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループに分ける。
【0085】
図7は、バイナリロジスティック回帰モデルを生成する過程を示す図である。
図7に示すように、各単位年齢において当該年齢未満グループ(UAGm)、当該年齢以上グループ(OAGm)に区分し、各単位でトレーニングデータとして2つのグループからいずれか一つを選択して総50個のバイナリロジスティック回帰モデルを生成する。
【0086】
例えば、26歳単位において、26歳未満グループと26歳以上グループを設定し、トレーニングデータとして設定された健診項目データ単位で26歳未満グループ、26歳以上グループを区分(0、1)して年齢予測確率演算過程で26歳以上を予測するためのバイナリロジスティック回帰モデル(M26)を生成する。健診項目別の特定値に対して26歳未満の人々は「0」、26歳以上の人々は「1」に区分してバイナリロジスティック回帰モデル(M26)を生成する。
【0087】
体質量指数、腰周り、収縮期血圧、弛緩期血圧などの身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンなどの血液検査指標といった健康保険健診項目の各健診データに対して26歳未満の人々と26歳以上の人々に区分してバイナリロジスティック回帰モデル(M26)を生成する。
【0088】
すなわち、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループをY軸とする反応変数とし、前記トレーニングデータ(健診データ)をX軸とする予測変数に応じてバイナリロジスティック回帰モデルを生成する。
【0089】
トレーニングデータとして用いられる前記健康保険健診項目を照会及び健診項目情報として追加及び削除設定することができるように健診項目情報設定過程をさらに含んで構成することができる。
【0090】
また、トレーニングデータに対する条件情報を設定するための条件情報設定過程をさらに含むことができ、前記条件情報は、男女性別情報で構成することができる。
【0091】
これによれば、男女性別による生物学的年齢予測モデルを別個に構成することができる。
このような過程を26歳~76歳まで行って総50個のバイナリロジスティック回帰モデル(M26~M75)を生成する。
【0092】
前記年齢予測確率演算過程は、上述のように生成されたバイナリロジスティック回帰モデル(M26~M75)に従って、個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する過程である。
【0093】
次の数3は、前記バイナリロジスティック回帰モデルによる年齢予測確率演算過程を示す。
【0094】
【数3】
【0095】
ここで、
Y:個人別老化状態(individual’s aging status)
P(Y=OAGm):オーバーエイジグループと予測される確率(probability to be predicted as OAGm)
Yi:i番目の個人別老化状態(ith individual’s aging status)
i=1、2、…、:サンプル番号(sample number)
m=26(x)、27、…、75(y);トレーニングデータに用いられる年齢
(chronological age observed in the traning data)
CA:歴年齢(Chronological age)
Xk:k番目の独立変数(kth independent variable)
βk:k番目の独立変数の回帰係数(regression coefficient of kth independent variable)
p:独立変数の数(number of independent variable)
【0096】
図8は、バイナリロジスティック回帰モデルに従って求められた確率値(Pm)を示す図表である。
図8の図表において、確率値「P45」は、バイナリロジスティック回帰モデル(M45)を用いて求められた確率値であり、45歳以上に予測される確率値を意味する。
【0097】
例えば、サンプルID=1の人は、45歳以上に予測される確率(P45)が0.655であり、75歳以上に予測される確率は0.211であることを意味する。
【0098】
年齢予測確率演算過程は、これらの確率値をすべての人々(サンプル)に対して全ての年齢に対する各50個(P26~P75)ずつ計算して前記図8のような図表を生成する。
【0099】
すなわち、個人別に全ての年齢単位に対して確率(Pm)値を求めるのである。
ここで、図8に示すように、オーバーエイジグループ(OAG26)と予測される確率(P26)を考察すると、0.998であって、1に近いことが分かる。
【0100】
これは、絶対的な値であって、上述した確率(Pm)に対して生物学的年齢を予測する場合に不正確であることにより、相対的な値を利用しなければならないより正確な生物学的年齢の予測が可能となる。
【0101】
したがって、生物学的年齢を判断するための基準値であるカットオフ(Cm)が必要である。
【0102】
前記カットオフ抽出過程は、26歳~75歳に対するすべての人を対象に50個のモデル(M26~M75)に対して求められた確率値(Pm)を対象にROC(Receiver Operating Characteristic and Area Under the Curve)カーブ分析を介して生物学的年齢を判断するための基準値を求めるための過程であって、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、 前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を行ってカットオフ(cutoff)(Cm)を抽出する。
【0103】
このようなカットオフ抽出過程は、YoudenのJ統計量(Youdens’ J statistic)を最大化する時点でカットオフ(Cm)抽出することであり、敏感度(Sensitivity)と特異度(Specificity)とを足したものが最大となるカットオフ抽出した結果を意味する。
【0104】
図9は、カットオフ抽出過程を介して抽出されたカットオフ値を示す図表である。
例えば、図9の図表において、C45は、モデル(M45)で求められたカットオフ値であって、確率値が0.547以上に計算されるときは、該当人の年齢が45歳以上の集団に属すると予測するという意味である。
【0105】
前記年齢予測確率補正過程は、前記年齢予測確率演算過程を介して求められたカットオフ(Cm)値をオーバーエイジグループ(OAGm)と予測される確率(Pm)に適用(Pm-Cm)して、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に補正する過程である。
【0106】
図10は、前記年齢予測確率補正過程を介して求められたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)を示す図表である。
【0107】
図10の図表において、D26~D75は、個人別に50個ずつ計算された確率値(P26~P75)から、ROCカーブを介して計算されたカットオフ(C26~C75)をそれぞれ差し引いた値である。(Dm=Pm-Cm)
【0108】
例えば、ID=1の人の歴年齢が35歳であるが、この人が45歳以上と予測される可能性であるD45が「D45=0.108(P45-C45;0.655-0.547)」のとおりである。
【0109】
ここで、(-)値の場合には、当該年齢未満と考えることができる。
前記超過年齢演算過程は、上記の過程を介して求められたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて生物学的年齢を求めるための個人別超過年齢(Individual’s excess aging)を求める過程である。
【0110】
次の数4は、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を演算する過程を示す。
【0111】
【数4】
【0112】
ここで、N:sample number i=1、2、…、N
Δi:weighted mean of (Pim-Cm)
Cm:カットオフ抽出手段150を介して求められたカットオフ(Cm)値
(cutoff of Pm to predict individual’s aging status from ROC curve analysis)
すなわち、各個人別に計算されたDm(m=26、…、75)に当該年齢(=m)を乗じて全て足した値の平均を各個人の「超過年齢」と定義したものである。
【0113】
ここで、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均で個人別超過年齢を求めるので、追加的に適用する加重値(Wm)がある場合、これを適用して加重値平均を求めることができる。
【0114】
次の数5は、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を演算する過程を示す。
【0115】
【数5】
【0116】
ここで、N:sample number i=1、2、…、N
Δi:weighted mean of (Pim-Cm)
Cm:カットオフ抽出手段150を介して求められたカットオフ(Cm)値
(cutoff of Pm to predict individual’s aging status from ROC curve analysis)
Wm:歴年齢をm以上に予測するための加重値(weight applied for the model to predict CA≧m)
【0117】
前記生物学的年齢演算過程は、前記超過年齢演算過程で求めた超過年齢を用いて歴年齢に足して生物学的年齢を求める過程である。
【0118】
このような本発明は、健康保険健診データを用いて生物学的年齢を予測するためのモデル(アルゴリズム)を生成することをその技術的特徴とする。
【0119】
本発明では、歴年齢(CA)に対する超過年齢(Δi)を求めて生物学的年齢を予測することができるようにする。
【0120】
まず、生物学的年齢を求めるためのトレーニングデータを用いるための健康保険健診データの対象を設定する。
【0121】
本発明の実施形態では、26歳~75歳をそのトレーニングデータ年齢対象(x~y)として設定し、これは、バイナリロジスティック回帰モデルを求めるための年齢区間である。
【0122】
上述したように、健康保険健診データの特性を考慮して26歳~75歳を、バイナリロジスティック回帰モデルを求めるための年齢区間として設定する。
【0123】
また、トレーニングデータとして用いられる健診項目を健診項目情報として設定するための健診項目情報設定過程をさらに含むことができ、ユーザ(管理者)が生物学的年齢予測のためにトレーニングデータとして用いられる健診項目を設定することができる。
【0124】
図12は、本発明において、生物学的年齢を予測するためのモデル生成過程に対する実施形態を示すフローチャートである。次に、図12を参照してその動作過程の実施形態を説明する。
【0125】
まず、トレーニングデータに用いられる年齢を初期化し、m=26歳を設定する。
その後、トレーニングデータによって26歳未満のアンダーエイジグループ(UAG26)と26歳以上のオーバーエイジグループ(OAG26)とに区分する。
【0126】
すなわち、健康診断データに対して前記26歳未満、26歳以上に区分するのであり、健康診断項目別の特定値に対して健診データのサンプル対象(人)を確認して26歳未満のサンプル(人)はアンダーエイジグループ(UAGm)「0」に設定し、26歳以上のサンプル(人)はオーバーエイジグループ(OAGm)「1」に設定し、これにより26歳に該当するバイナリロジスティック回帰モデル(M26)を生成するのである。
【0127】
前記バイナリロジスティック回帰モデルは、2個のグループにおいてオーバーエイジ(OAGm)と見られる確率(Pm)を求めるためのものであり、前述したように、体質量指数、腰周り、収縮期血圧、弛緩期血圧などの身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンなどの血液検査指標といった健康保険健診項目の各健診データを利用し、必要に応じて追加または削除して健診項目情報として設定することができる。
【0128】
以後、上述のように生成されたバイナリロジスティック回帰モデル(M26)に従って、個人別にオーバーエイジグループ(OAG26)と予測される確率(P26)を前記数3によって演算して年齢予測確率を求める。
【0129】
すなわち、このような年齢予測確率は、個人別老化状態(individual’s aging status)を示したものであり、オーバーエイジグループと予測される確率(probability to be predicted as OAGm)を示す。
【0130】
以後、上述したように、生物学的年齢を判断するための基準値であるカットオフ(Cm)を求めるので、2分型反応変数としてアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)に設定し、予測変数として前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を設定して、ROCカーブ(curve)分析を介してカットオフ(cutoff)(Cm)を抽出することにより、26歳以上に予測される確率(P26)を対象に、ROCカーブ分析を介して生物学的年齢を判断するためのカットオフ(C26)値を求める。
【0131】
その後、上述のように求めたカットオフ(C26)を適用して前記年齢予測確率を補正する過程を行う。
【0132】
年齢予測確率補正過程では、オーバーエイジグループ(OAG26)と予測される確率(P26)から前記年齢予測確率演算過程を介して求められたカットオフ(C26)値を演算(P26-C26)して、オーバーエイジグループ(OAG26)と予測される超過確率(D26)を求める。
【0133】
このように、各個人別にカットオフ(C26)を適用して、オーバーエイジグループ(OAG26)と予測される超過確率(D26)を求める。
【0134】
上述のように、個人(サンプル)別にオーバーエイジグループ(OAG26)と予測される超過確率(D26)まで全て求めると、リターンしてm=27に設定し、上述したような過程を介して各バイナリロジスティックモデル(M27)、オーバーエイジグループ(OAG27)と予測される確率(P27)、カットオフ(C27)、オーバーエイジグループ(OAG27)と予測される超過確率(D27)を求める。
【0135】
このような過程をm=75まで繰り返して、各個人別にオーバーエイジグループ(OAG75)と予測される超過確率(D75)まで求める。
【0136】
26歳~75歳の区間で設定することが可能な単位は、総50個の単位であり、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)に区分し、図7に示すように、50個のモデルに対してバイナリロジスティック回帰モデルを生成する。
【0137】
上記で例を挙げて説明したように、体質量指数、腰周り、収縮期血圧、弛緩期血圧などの身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンなどの血液検査指標といったトレーニングデータに対して26歳未満の値を有する人々と、26歳以上の値を有する人々に区分してバイナリロジスティック回帰モデル(M26)を生成し、このような過程を27、28、…、75歳に対するバイナリロジスティック回帰モデル(M27~M75)を生成する。
【0138】
上述のように生成されたバイナリロジスティック回帰モデル(M26~M75)に従って、個人別老化状態を示す図8に示されているように、オーバーエイジグループ(OAGm)と予測される確率(Pm)を全ての年齢単位(m=26~75)でのPm(P26~P75)を計算して求める。
【0139】
これは、上記で例を挙げたように、サンプルID=1の人は、45歳以上の集団に属する確率(P45)が0.655であり、75歳以上の集団に属する確率は0.211であることを意味する。
【0140】
上述のように求められたカットオフ(C26~C75)は、ROCカーブ(curve)分析によって抽出された値であり、YoudenのJ統計量(Youden’s J statistic)を最大化する時点でカットオフ(Cm)抽出することを意味する。
【0141】
前記年齢予測確率演算補正過程を介して演算されたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)は、年齢予測確率過程で求められたオーバーエイジグループ(OAGm)と予測される確率(Pm)にカットオフ(Cm)を適用したものであって、各個人別に図10に示すように、26歳~75歳までD26~D75を求める。
【0142】
このようなm=75まで繰り返して各個人別にオーバーエイジグループ(OAG75)と予測される超過確率(D75)まで全て求めると、前記過程を介して求められたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて生物学的年齢を求めるための個人別超過年齢(Individual’s excess aging)を求める。
【0143】
このような個人別超過年齢は、前記数4を介して加重値平均(Δi)を求めることができる。
【0144】
すなわち、数4によれば、各個人別に計算されたDm(m=26、…、75)に当該年齢(=m)を乗じて全て足した値の平均を各個人の「超過年齢」と定義するのである。
【0145】
このように求めた加重値平均を個人別超過年齢にして歴年齢に適用して生物学的年齢を求めることができる。
【0146】
図11は、各個人別超過年齢のプロファイルの例を示す図であり、X軸をトレーニングデータ年齢対象26~75と設定し、Y軸をオーバーエイジグループ(OAGm)と予測される超過確率(Dm)にして、各年齢対象別オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を示す。
【0147】
このような本発明は、健康保険健診データを用いて各個人別老化程度を示した情報の平均情報を求め、これに基づいて生物学的年齢を予測することが可能なモデル(アルゴリズム)を生成するようにする。
【0148】
一方、図13は、上述した本発明のパーソナライズ生物学的年齢モデル生成システムの構成を示す。
【0149】
健康診断システムから提供される健康診断データを収集してデータ保存手段190に保存管理するための健診データ収集手段110と、
設定されたトレーニングデータ基準年齢区間(x~y)及び健診項目情報に応じて健診データ収集手段110から収集された健診データから有効なトレーニングデータを決定するためのトレーニングデータ設定手段120と、
前記トレーニングデータ設定手段120によって設定されたトレーニングデータに対して設定された年齢区間(x~y)内の年齢単位ごとにバイナリロジスティック回帰モデル(Mx~My)を生成するバイナリロジスティック回帰モデル生成手段130と、
バイナリロジスティック回帰モデル生成手段130を介して生成されたバイナリロジスティック回帰モデルに従って、トレーニングデータの各個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する年齢予測確率演算手段140と、
アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を介してカットオフ(Cm)を抽出するカットオフ抽出手段150と、
前記年齢予測確率演算手段140を介して演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)からカットオフ(Cm)を適用(Pm-Cm)して個人別オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算して、前記年齢予測確率演算手段140で演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)を補正する年齢予測確率補正手段160と、
前記年齢予測確率補正手段160を介して求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢(Individual’s excess aging)を求める超過年齢演算手段170と、
前記超過年齢演算手段170を介して求めた個人別超過年齢を用いて歴年齢から生物学的年齢を演算する生物学的年齢演算手段180と、
健診データ収集手段110から収集された健康診断データ、およびトレーニングデータ設定手段120を介して設定されたトレーニングデータが保存管理されるデータ保存手段190と、を含んで構成される。
【0150】
このような本発明のパーソナライズ生物学的年齢予測システムは、健康診断システムから提供された健康診断データからトレーニングデータを設定し、これから個人別超過年齢情報を抽出して生物学的年齢を予測することができるようにすることをその技術的特徴とする。
【0151】
健康診断システムから健康診断データの提供を受けてパーソナライズ生物学的年齢モデルを生成するための生物学的年齢予測モデル生成システムで構成され、
前記生体年齢予測モデル生成システムにおいて、
前記健診データ収集手段110は、健康診断システムから提供された健康診断データを収集するための手段であって、収集された健康診断データをデータ保存手段190に保存管理するための手段である。
【0152】
前記トレーニングデータ設定手段120は、生物学的年齢予測モデルを生成するためのトレーニングデータを設定するための手段であって、設定されたトレーニングデータ基準年齢区間(x~y)及び健診項目情報に応じて前記データ保存手段190に保存された健診データからバイナリロジスティック回帰モデル生成手段の有効なトレーニングデータを決定するための手段である。
【0153】
前記バイナリロジスティック回帰モデル生成手段130は、前記トレーニングデータ設定手段120によって設定されたトレーニングデータに対して設定された年齢区間内の年齢単位ごとにバイナリロジスティック回帰モデル(Mx~My)を生成する手段であって、
設定された年齢区間で各年齢単位を1単位とし、年齢単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループを区分し、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループとトレーニングデータ(健診データ)を反応変数にして各年齢単位別のバイナリロジスティック回帰モデル(Mx~My)を生成するための手段である。
【0154】
前記年齢予測確率演算手段140は、前記バイナリロジスティック回帰モデル生成手段130で生成された50個のバイナリロジスティック回帰モデルに従って、個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算するための手段である。
【0155】
前記カットオフ抽出手段150は、前記年齢予測確率演算手段140で演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)を補正するためのカットオフ(Cm)を抽出するための手段であって、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を介してカットオフ(Cm)を抽出するための手段である。
【0156】
前記年齢予測確率補正手段160は、前記年齢予測確率演算手段140を介して演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)を補正するための手段であって、オーバーエイジグループ(OAGm)と予測される確率(Pm)にカットオフ(Cm)を適用(Pm-Cm)して、個人別オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算して、前記年齢予測確率演算手段140で演算されたオーバーエイジグループ(OAGm)と予測される確率(Pm)を補正するための手段である。
【0157】
前記超過年齢演算手段170は、生物学的年齢を求めるための個人別超過年齢を求めるための手段であって、前記年齢予測確率補正手段160を介して求めたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均(Δi)を求めて個人別超過年齢を求めるための手段である。
【0158】
前記生物学的年齢演算手段180は、前記超過年齢演算手段170を介して求めた個人別超過年齢を用いて歴年齢から生物学的年齢を演算するための手段である。
【0159】
以下、このような構成からなる本発明のシステムの動作を説明する。
健診データ収集手段110では、健康診断システムから提供された健診データを収集してデータ保存手段190に保存する。
【0160】
トレーニングデータ設定手段120では、前記データ保存手段190に保存された健康診断データからバイナリロジスティック回帰モデルを求めるためのトレーニングデータを設定する。
【0161】
トレーニングデータ設定手段120では、設定された年齢区間(x~y)及び健康診断項目に対してトレーニングデータを決定する。
【0162】
本発明の実施形態は、健康保険健診データを用い、26歳(x)~75歳(y)と年齢区間が設定される。
【0163】
前記トレーニングデータ設定手段120の年齢区間、健診項目情報をユーザ(管理者)が照会、再設定し得るようにプロセスを提供するユーザ設定手段をさらに含んで構成することができる。
【0164】
また、前記トレーニングデータ設定手段120でトレーニングデータを決定するための条件情報をユーザが設定し得るようにプロセスを提供するユーザ設定手段をさらに含んで構成することができる。
【0165】
前記条件情報は、男女性別情報で構成することができ、男女性別情報を設定して男女性別による生物学的年齢予測モデルを区分して構成することができる。
【0166】
その後、バイナリロジスティック回帰モデル生成手段130では、前記トレーニングデータ設定手段120の年齢区間内の各年齢単位として50個を設定し、単位ごとにトレーニングデータをアンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループに区分し、バイナリロジスティック回帰モデルを生成する。
【0167】
これは、2つのグループにおいてオーバーエイジと見られる確率(Pm)を求めるためのバイナリロジスティック回帰モデルを生成するための過程である。
【0168】
m=26歳の単位で、26歳未満のグループ(UAG26)と、26歳以上のグループ(OAG26)を設定し、トレーニングデータ別に26歳未満のサンプル(人)は0、26歳以上のサンプル(人)は1に区分し、バイナリロジスティック回帰モデル(M26)を生成する。
【0169】
すなわち、体質量指数、腰周り、収縮期血圧、弛緩期血圧などの身体検査指標と、肝数値3種(AST、ALT、γ-GTP)、クレアチニン、コレステロール3種(HDL、LDL、TG)、空腹血糖、ヘモグロビンなどの血液検査指標といった健康保険健診項目に対するトレーニングデータに対して26歳未満の人々と26歳以上の人々に区分してバイナリロジスティック回帰モデル(M26)を生成する。
【0170】
すなわち、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)の2つのグループをY軸とする反応変数とし、前記トレーニングデータ(健診項目別健診データ)をX軸とする予測変数にして、バイナリロジスティック回帰モデルを生成する。
このような過程を26歳~76歳まで行って総50個のバイナリロジスティック回帰モデル(M26~M75)を生成する。
【0171】
上述したようにバイナリロジスティックモデルが生成されると、上述のように生成されたバイナリロジスティック回帰モデル(M26~M75)に従って、個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)を演算する。
【0172】
このようなオーバーエイジグループ(OAGm)と予測される確率(Pm)は、生物学的年齢を予測するために個人別超過年齢を求めるための情報であって、前記数3によって求めることができる。
【0173】
図8に示すように、バイナリロジスティック回帰モデルに従って個人別確率値(Pm)を求めることができる。
【0174】
例えば、サンプルID=1の人は、45歳以上の集団に属する確率(P45)が0.655であり、75歳以上の集団に属する確率は0.211であることを意味する。
【0175】
一方、カットオフ抽出手段150では、前記個人別にオーバーエイジグループ(OAGm)と予測される確率(Pm)に対してROCカーブ分析によってカットオフ(cutoff)(Cm)を抽出する。
【0176】
前記カットオフ(Cm)は、生物学的年齢を判断するための基準値であって、アンダーエイジグループ(UAGm)、オーバーエイジグループ(OAGm)を2分型反応変数として設定し、前記オーバーエイジグループ(OAGm)と予測される確率(Pm)を予測変数として設定してROCカーブ(curve)分析を行うことにより、図9に示すようなカットオフ(Cm)値を求めることができる。
【0177】
その後、年齢予測確率補正手段160では、前記カットオフ抽出手段150で求めたカットオフ(Cm)値を用いて、前記年齢予測確率演算手段140で求めたオーバーエイジグループと予測される確率(Pm)を補正する。
【0178】
このような年齢予測確率補正は、前記年齢予測確率演算手段140によって求められたカットオフ(Cm)値をオーバーエイジグループ(OAGm)と予測される確率(Pm)に適用(Pm-Cm)して、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)を演算することであり、図10に示すように、個人別に補正されたオーバーエイジグループ(OAGm)と予測される超過確率(Dm)を求めることができる。
【0179】
図10によれば、ID=1の人の歴年齢が35歳であるが、D45モデルで演算したとき、すなわち、この人が45歳以上の集団に属すると予測される可能性であるD45は、「D45=0.108(P45-C45;0.655~0.547)」のとおりである。
ここで、(-)値の場合には、当該年齢未満と考えることができる。
【0180】
超過年齢演算手段170では、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する数4によって加重値平均(Δi)を求めて個人別超過年齢を求める。
【0181】
このとき、オーバーエイジグループ(OAGm)と予測される超過確率(Dm)に対する加重値平均で個人別超過年齢を求めるので、追加的に適用する加重値(Wm)がある場合、これを適用して前記数5のように加重値平均を求めることができる。
【0182】
生物学的年齢演算手段では、前記超過年齢演算手段で求めた超過年齢を用いて歴年齢から生物学的年齢(BA=CA+Δi)を求める。
【0183】
このような本発明によれば、健康保険健診データから歴年齢に対する超過年齢を算出し、これから生物学的年齢を予測することができるようにすることにより、より信頼できる生物学的年齢を提供することができる。
【産業上の利用可能性】
【0184】
本発明は、国民健康保険公団に蓄積されている高品質の大規模健康診断データを活用して生物学的年齢予測モデルを開発したものであり、医療及び統計分析産業分野において広く利用してその実用的且つ経済的な価値を実現することができる技術である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【国際調査報告】