IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 協和発酵バイオ株式会社の特許一覧 ▶ 国立大学法人京都大学の特許一覧 ▶ 国立大学法人弘前大学の特許一覧

特許7501862健康改善経路探索装置及び健康改善経路探索方法
<>
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図1
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図2
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図3
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図4
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図5
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図6
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図7
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図8
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図9
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図10
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図11
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図12
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図13
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図14
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図15
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図16
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図17
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図18
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図19
  • 特許-健康改善経路探索装置及び健康改善経路探索方法 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-10
(45)【発行日】2024-06-18
(54)【発明の名称】健康改善経路探索装置及び健康改善経路探索方法
(51)【国際特許分類】
   G16H 20/00 20180101AFI20240611BHJP
【FI】
G16H20/00
【請求項の数】 6
(21)【出願番号】P 2022557618
(86)(22)【出願日】2021-10-22
(86)【国際出願番号】 JP2021039081
(87)【国際公開番号】W WO2022085785
(87)【国際公開日】2022-04-28
【審査請求日】2023-04-12
(31)【優先権主張番号】P 2020178148
(32)【優先日】2020-10-23
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度、国立研究開発法人科学技術振興機構 研究成果展開事業 センター・オブ・イノベーションプログラム『真の社会イノベーションを実現する革新的「健やか力」創造拠点』委託研究開発、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】308032666
【氏名又は名称】協和発酵バイオ株式会社
(73)【特許権者】
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
(73)【特許権者】
【識別番号】504229284
【氏名又は名称】国立大学法人弘前大学
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【弁理士】
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100140888
【弁理士】
【氏名又は名称】渡辺 欣乃
(74)【代理人】
【識別番号】100208591
【弁理士】
【氏名又は名称】井後 智哉
(72)【発明者】
【氏名】中村 和貴
(72)【発明者】
【氏名】奥野 恭史
(72)【発明者】
【氏名】小島 諒介
(72)【発明者】
【氏名】内野 詠一郎
(72)【発明者】
【氏名】村下 公一
(72)【発明者】
【氏名】伊東 健
(72)【発明者】
【氏名】中路 重之
【審査官】鹿谷 真紀
(56)【参考文献】
【文献】特開2009-211126(JP,A)
【文献】特開2020-42761(JP,A)
【文献】米国特許出願公開第2014/0058738(US,A1)
【文献】特開2020-3882(JP,A)
【文献】特開2018-55424(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成する第1モデル生成部と、
前記第1モデルに入力される前記複数の説明変数の値、及び、該複数の説明変数の値に基づいて前記第1モデルにより予測される前記健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成する第2モデル生成部と、
前記複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、前記第1モデル及び前記第2モデルに基づき、各測定対象値に対応する前記健康指標の値及び前記存在確率をそれぞれ導出し、互いに連続する前記複数の説明変数の値間を遷移するように、前記現在値を起点とし各測定対象値を遷移する複数の経路を特定し、前記複数の経路のうち、終点における前記健康指標の値が前記現在値における前記健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、前記候補経路のうち、経路に含まれる各測定対象値の前記存在確率の積が最大となる経路を健康改善経路として特定する経路探索部と、を備える健康改善経路探索装置。
【請求項2】
前記経路探索部は、前記健康指標の値が前記現在値における前記健康指標の値よりも改善している経路のうち、前記健康指標の値が最も改善している経路を前記候補経路として特定する、請求項1記載の健康改善経路探索装置。
【請求項3】
前記経路探索部は、前記健康指標の値が前記現在値における前記健康指標の値よりも改善している経路のうち、前記健康指標の値が予め定められた目標値における前記健康指標の値と一致する経路を前記候補経路として特定する、請求項1又は2記載の健康改善経路探索装置。
【請求項4】
前記経路探索部は、前記現在値を基準値として、該基準値に近似する前記複数の説明変数の値を前記測定対象値として選択する第1処理を実行した後に、選択した前記測定対象値のうち前記第2モデルに入力された際の前記存在確率が最も高い前記測定対象値を新たな前記基準値として、該基準値に近似する前記複数の説明変数の値を前記測定対象値として選択する第2処理を繰り返し実行する、請求項1~3のいずれか一項記載の健康改善経路探索装置。
【請求項5】
前記経路探索部は、前記起点から前記終点までの各測定対象値を最短且つランダムに遷移する経路をランダム経路として特定し、前記候補経路のうち、経路に含まれる各測定対象値の前記存在確率の積が、最大且つ前記ランダム経路に含まれる各測定対象値の存在確率の積以上となる経路を前記健康改善経路として特定する、請求項1~4のいずれか一項記載の健康改善経路探索装置。
【請求項6】
情報処理装置が実行する健康改善経路探索方法であって、
複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成するステップと、
前記第1モデルに入力される前記複数の説明変数の値、及び、該複数の説明変数の値に基づいて前記第1モデルにより予測される前記健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成するステップと、
前記複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、前記第1モデル及び前記第2モデルに基づき、各測定対象値に対応する前記健康指標の値及び前記存在確率をそれぞれ導出し、互いに連続する前記複数の説明変数の値間を遷移するように、前記現在値を起点とし各測定対象値を遷移する複数の経路を特定し、前記複数の経路のうち、終点における前記健康指標の値が前記現在値における前記健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、前記候補経路のうち、経路に含まれる各測定対象値の前記存在確率の積が最大となる経路を健康改善経路として特定するステップと、
を含む健康改善経路探索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一態様は、健康改善経路探索装置及び健康改善経路探索方法に関する。
【背景技術】
【0002】
個別化医療は、個人の体質及び環境等に合わせた医療上の決定、治療又は介入を行う治療法として期待されている。個別化医療に係る技術の一例として、特許文献1には、ユーザの生体情報を基に、生活習慣情報のうち改善すべき因子である改善因子を抽出し、該改善因子を改善する為の改善策を決定する生活習慣改善支援システムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2009-217703号公報
【非特許文献】
【0004】
【文献】T. Chen, C. Guestrin, XGBoost,in: Proceedings of the 22nd ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining, ACM, New York, NY, USA, 2016: pp. 785-794.
【文献】Tibshirani, R., Johnstone, I.,Hastie, T. & Efron, B. Least angle regression. The Annals of Statistics 32,407-499 (2004).
【文献】Hastie, T. & Efron, B. lars:Least Angle Regression, Lasso and Forward Stagewise. R package version 1.2(2013).
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、特許文献1に記載の発明は、生活習慣の改善策を提案できるものの、具体的な改善プロセスまでは提案していないため、ヒトにとって実行可能な(すなわち、取り組みやすい)改善プロセスを提案することができていない。
【0006】
本発明の一態様は上記実情に鑑みてなされたものであり、ヒトにとって実行可能な健康改善プロセスを提案することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る健康改善経路探索装置は、複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成する第1モデル生成部と、第1モデルに入力される複数の説明変数の値、及び、該複数の説明変数の値に基づいて第1モデルにより予測される健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成する第2モデル生成部と、複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、第1モデル及び第2モデルに基づき、各測定対象値に対応する健康指標の値及び存在確率をそれぞれ導出し、互いに連続する複数の説明変数の値間を遷移するように、現在値を起点とし各測定対象値を遷移する複数の経路を特定し、複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定する経路探索部と、を備える。
【0008】
本発明の一態様に係る健康改善経路探索方法は、複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成するステップと、第1モデルに入力される複数の説明変数の値、及び、該複数の説明変数の値に基づいて第1モデルにより予測される健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成するステップと、複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、第1モデル及び第2モデルに基づき、各測定対象値に対応する健康指標の値及び存在確率をそれぞれ導出し、互いに連続する複数の説明変数の値間を遷移するように、現在値を起点とし各測定対象値を遷移する複数の経路を特定し、複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定するステップと、を含む。
【0009】
本発明の一態様に係る健康改善経路探索装置及び健康改善経路探索方法では、複数の説明変数に基づいて目的変数である健康指標を予測する第1モデルが生成され、入力される複数の説明変数の値及びその予測値である健康指標の値の組み合わせ毎の存在確率を導出する第2モデルが生成される。第1モデル及び第2モデルに複数の測定対象値が入力されると、各測定対象値及びその予測値である健康指標の値の組み合わせ毎の存在確率がそれぞれ導出される。そして、本健康改善経路探索装置及び健康改善経路探索方法では、複数の説明変数の現在値を起点として、各測定対象値を遷移する複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善し、且つ経路内の各測定対象値の存在確率の積が最大となる経路が健康改善経路として特定される。このような構成によれば、健康診断等により取得された複数の説明変数の現在値が入力されたとき、現在値から所定範囲内の複数の測定対象値から各測定対象値及びその予測値である健康指標の値の組合せの存在確率が導出される。そして、各測定対象値を遷移する経路のうち、起点から終点までにおいて健康指標が改善しており、且つ経路内の各測定対象値の存在確率が最大となる経路が特定される。このように特定された経路は、健康指標が改善するまでに存在確率の高い各測定対象値を遷移するため、現実的な値のみを経由し、具体的に健康を改善する順序を示す経路となる。このような健康改善経路が示されることにより、ヒトにとって実行可能な健康改善プロセスを提案することができる。
【発明の効果】
【0010】
本発明の一態様によれば、ヒトにとって実行可能な健康改善プロセス、より具体的には健康指標の値を改善するための実行可能なヒトの測定値の改善順序を提案することができる。
【図面の簡単な説明】
【0011】
図1】健康改善経路探索装置の機能構成を示すブロック図である。
図2】予測モデルにおける説明変数と目的変数との関係を示す概念図である。
図3】代理モデルにおけるデータの存在確率を示す概念図である。
図4】経路探索結果を示す概念図である。
図5】経路探索のアルゴリズムの擬似コードを示す図である。
図6】健康改善経路探索装置のハードウェア構成図である。
図7】健康改善経路探索装置が実行する処理のフローチャートである。
図8】実施例1におけるデータセットの例を示す。
図9】実施例1における回帰モデルのスコアを示す図である。
図10】実施例1における回帰モデルの変数重要度を示す図である。
図11】実施例1における階層ベイズモデルのグラフィカルモデルを示す図である。
図12】実施例1におけるWBICの評価結果を示す図である。
図13】実施例1における各インスタンスの実行可能性スコアを示すヒストグラムである。
図14】実施例1における経路探索結果の例を示す図である。
図15】実施例2におけるデータセットの例を示す。
図16】実施例2における回帰モデルの変数重要度を示す図である。
図17】実施例2における回帰モデルのスコアを示す図である。
図18】実施例2におけるWBICの評価結果を示す図である。
図19】実施例2における各インスタンスの実行可能性スコアを示すヒストグラムである。
図20】実施例2における経路探索結果の例を示す図である。
【発明を実施するための形態】
【0012】
以下、実施形態について図面を参照しつつ詳細に説明する。説明において、同一要素又は同一機能を有する要素には同一の符号を付し、重複する説明を省略する。
【0013】
実施形態に係る健康改善経路探索装置1は、複数の説明変数を基に目的変数である健康指標を予測し、健康指標の改善プロセスとなる経路を探索する装置である。変数とは、健康診断等により計測されたヒトの測定値、すなわち身体的特徴、体組成、生体情報等を言い、具体的には、年齢、性別、身長、体重、BMI、血圧値、血糖値、HbA1c、γ-GTP、AST、ALT、アルブミン、クレアチニン、HDLコレステロール、LDLコレステロール、中性脂肪、血中酸素飽和度、肺活量、赤血球、白血球、ヘマトクリット、脚点(leg score)等が挙げられる。説明変数とは、因果関係の原因となる変数であり、目的変数とは、因果関係の結果となる変数である。例えば、健康指標の値、具体的には高血圧症の指標である血圧値、糖尿病の指標である血糖値やHbA1c、腎機能の指標であるクレアチニン、肝機能の指標であるγ-GTP、ASTまたはALT、高脂血症や動脈硬化症の指標であるHDLコレステロール、LDLコレステロールまたは中性脂肪、肺機能の指標である血中酸素飽和度や肺活量等の疾病や臓器機能の指標となる測定値を目的変数とし、目的変数以外の変数の一部または全部を説明変数とすることができる。経路とは、複数の説明変数から予測される健康指標について、現在の健康指標の値(起点)から、改善された健康指標の値(終点)までを結ぶ経路であり、各変数の改善順序(改善プロセス)を示す。ここで、経路を単に直線的な経路(最短距離)とした場合、経路上においてヒトが取り得ない非現実的な変数の値を含む可能性がある。経路がこのような非現実的な変数の値を含む場合、当該経路はヒトにとって実行可能な経路とならない。健康改善経路探索装置1は、ヒトが取り得る現実的な変数の値を段階的に経由する経路を探索することにより、ヒトが取り得ない非現実的な変数の値を含む経路を回避する。
【0014】
図1は、本実施形態に係る健康改善経路探索装置1の機能構成を示すブロック図である。健康改善経路探索装置1は、データベース11と、第1モデル生成部12と、第2モデル生成部13と、経路探索部14と、を備える。
【0015】
データベース11は、健康診断の受診者又は患者等のインスタンスごとに、身体的特徴、体組成、及び生体情報等のデータをデータセットとして記憶する。データには、例えば、変数である年齢、性別、身長、体重、血圧値、血糖値、γ-GTP(γ-glutamyl transpeptidase)、及び脚点(leg score)等が含まれるが、これらに限られない。データベース11は、インターネット等のネットワークを介してアクセス可能な外部の記憶装置としてもよい。
【0016】
第1モデル生成部12は、複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成する。第1モデル生成部12は、データベース11からデータセットを取得して機械学習を実行することにより、予測モデル(第1モデル)を生成する。第1モデル生成部12は、例えば、データセットのデータを説明変数及び目的変数として選択し、複数の説明変数から目的変数である健康指標を回帰する回帰モデルを生成する。第1モデル生成部12は、例えば、個人ごとの体組成データ及び血液データ等を説明変数として、目的変数である血圧値を回帰する回帰モデルを生成する。
【0017】
第1モデル生成部12は、機械学習の前処理として、データベース11から取得したデータセットをtrainデータ11a(訓練データセット)とtestデータ11b(テストデータセット)とに分割する。第1モデル生成部12は、trainデータ11aとtestデータ11bとが所定の比率(例えば、80%及び20%)となるように、データセットをランダムに分割してもよい。第1モデル生成部12は、mean(平均)及び標準偏差により連続値の説明変数を標準化してもよい。第1モデル生成部12は、ワンホットエンコーディング(One-hot encoding)により離散値の説明変数をダミー変数に置換してもよい。第1モデル生成部12は、多重代入法により説明変数の欠損値を補完してもよい。第1モデル生成部12は、GBDT(Gradient Boosting Decision Tree)系のアルゴリズムであるXGBoost(非特許文献1参照)を用いて回帰モデルを生成してもよい。第1モデル生成部12は、trainデータ11aに対する5-分割交差検証(5-Fold cross validation)により回帰モデルのハイパーパラメータを決定してもよい。
【0018】
図2は、予測モデルにおける説明変数と目的変数との関係を示す概念図である。図2は、横軸が第1の説明変数を示し、縦軸が第2の説明変数を示し、変数空間であるグラフ内のプロットが目的変数を示す。目的変数の値は、第1の説明変数の値及び第2の説明変数の値に応じて回帰される。プロットの濃淡は、目的変数の健康指標における改善の度合いを示す。第1の説明変数及び第2の説明変数は、例えばそれぞれが体組成データ及び血液データ等である。目的変数は、例えば血圧値等の改善対象となる値である。
【0019】
図1に戻り、第2モデル生成部13は、第1モデルに入力される複数の説明変数の値、及び、該複数の説明変数の値に基づいて第1モデルにより予測される健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成する。第2モデル生成部13は、例えば、複数の説明変数の変数空間における予測値の取りやすさを確率として計算できる代理モデル(第2モデル)を生成する。第2モデル生成部13は、例えば階層ベイズモデリングにより、階層ベイズモデルを生成する。階層ベイズモデルは、入力データを変化させた場合にも確率を柔軟に表現することができる。
【0020】
図3は、代理モデルにおけるデータの存在確率を示す概念図である。図3は、横軸が第1の説明変数を示し、縦軸が第2の説明変数を示し、変数空間であるグラフ内の濃淡がデータの存在確率を示す。図3は、第1の説明変数及び第2の説明変数の値と予測値である健康指標の値の組合せの存在確率の関係を示す。図3において、データの存在確率が高いほど、グラフ内の濃淡が濃くなる。
【0021】
図1に戻り、経路探索部14は、複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、第1モデル及び第2モデルに基づき、各測定対象値に対応する健康指標の値及び存在確率をそれぞれ導出し、互いに連続する複数の説明変数の値間を遷移するように、現在値を起点とし各測定対象値を遷移する複数の経路を特定し、複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定する。
【0022】
経路探索部14は、例えば体重及び血液データ等の説明変数から、予測モデルによって血圧値等の目的変数を予測し、代理モデルによってその値の取りやすさを存在確率として導出する。経路探索部14は、複数の説明変数の値を所定の範囲内で変化させて予測モデル及び代理モデルの入力とすることにより、各測定対象値の入力としてもよい。経路探索部14は、入力される各測定対象値に対応する健康指標の値及び存在確率を導出し、現在値を起点として各測定対象値を遷移する経路を特定し、現在値における健康指標よりも終点における健康指標の値が改善している候補経路のうち、経路内の各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定する。
【0023】
なお、すべての説明変数は、予測モデルに介入できるが、経路探索に不向きな説明変数(例えば性別等)が存在する。そこで、経路探索を行うにあたり、適切な説明変数を選択する必要がある。経路探索部14は、すべての説明変数のうち、予測モデルに介入する説明変数(以下、「介入変数」という。)を決定する。経路探索部14は、例えば、予測モデルにおける変数の重要度の上位から所定の数を選択すること等により介入変数を決定してもよい。経路探索部14は、決定した介入変数を用いて、予測モデルによって目的変数を予測する。
【0024】
経路探索部14は、複数の説明変数の変数空間を格子状に区切ったグラフとして扱い、格子点をノードとして結ぶことにより経路を構築する。本明細書では、予測モデル及び代理モデルを用いて算出されたそれぞれのノードの状態を取る確率をノードの確率として定義し、特定の経路上のノードの確率の積を「実行可能性 (actionability)」として定義する。実行可能性は、その値が大きいほど、存在確率が高いノードを経由することとなり、ヒトにとって実行可能な経路であることを示す。一方、実行可能性は、その値が小さいほど、存在確率が低いノードを経由することとなり、ヒトにとって実行可能ではない経路であることを示す。経路探索部14は、例えば、実行可能性の対数の負値を経路コストとして算出し、現在値に対応するノードを起点として、各測定対象値に対応する各ノードまでの経路コストが最小となる経路を求める。すなわち、経路探索部14は、各ノードまでの経路コストが最小となり、実行可能性が最大となる経路を求める。このように求めた経路の概念図を図4に示す。図4は、経路の順序の例をノード間の矢印により示す。
【0025】
経路探索部14は、健康指標の値が現在値における健康指標の値よりも改善している経路のうち、健康指標の値が最も改善している経路を候補経路として特定してもよい。また、経路探索部14は、現在値を基準値として、該基準値に近似する複数の説明変数の値を測定対象値として選択する第1処理を実行した後に、選択した測定対象値のうち第2モデルに入力された際の存在確率が最も高い測定対象値を新たな基準値として、該基準値に近似する複数の説明変数の値を測定対象値として選択する第2処理を繰り返し実行してもよい。
【0026】
図5は、経路探索のアルゴリズムの擬似コードである。経路探索部14は、図5に示すような擬似コードにより、幅優先探索において探索反復数L内で最も改善している予測値を達成するノードへの経路を探索する。経路探索部14は、擬似コードの3行目で現在のノードと隣接するノードのリストを取得し、5-7行目でこれらのノードに対して経路コストの更新を行う。隣接するノードは、例えば現在のノードの値から、1単位(例えば、trainデータ11aにおける各介入変数の0.2σ)変動させたノードである。隣接するノードは、近似するノードと言い換えることができる。1単位は、変数空間を格子状に区切ったセルのサイズに対応する。経路探索部14は、11行目で次の探索起点となるノードを選択する。探索起点となるノードは、未探索のノードのうち、経路コストが最小となるノードである。経路探索部14は、2-12行目で所定の回数(例えば、探索反復数L=20,000回)の経路探索を行うようにループし、13行目で回帰モデルの予測値が最も改善しているノードを終点ノードとして選択して、終点ノードまでの経路を健康改善経路として取得する。予測値が同一のノードが複数存在した場合、経路探索部14は、経路コストが最小の経路を健康改善経路として取得する。
【0027】
経路探索部14は、起点から終点までの各測定対象値を最短且つランダムに遷移する経路をランダム経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が、最大且つランダム経路に含まれる各測定対象値の存在確率の積以上となる経路を健康改善経路として特定してもよい。経路探索部14は、例えば、経路探索のアルゴリズムにより取得された候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路である最適経路として特定する。経路探索部14は、最適経路の起点及び終点を最短手順でランダムに結んだ経路を特定する。そして、経路探索部14は、最適経路に含まれる各測定対象値の存在確率の積が、ランダム経路に含まれる各測定対象値の存在確率の積以上となる経路を健康改善経路として特定する。
【0028】
経路探索部14は、例えば、実行可能性スコア=log(最適経路の実行可能性)-log(ランダム経路の実行可能性)により表されるスコアを算出する。ここで、ランダム経路実行可能性は、例えば、10個のランダム経路の実行可能性の幾何平均としてもよい。実行可能性スコアは、最適経路実行可能性がランダム経路実行可能性と比較してどれだけ効率的であるかを示す。実行可能性スコアが0の場合、最適経路は、ランダム経路と同じ実行可能性を有する。経路探索部14は、実行可能性スコアが大きいほど、ランダム経路よりも最適経路の実行可能性が高いと評価することができる。経路探索部14は、実行可能性スコアが0未満である場合、最適経路よりもランダム経路の実行可能性が高いと評価することができる。このようにして、経路探索部14は、最適経路の妥当性を評価する。
【0029】
経路探索部14は、経路の探索結果を示す結果データを出力する。結果データのデータ構造は限定されない。
【0030】
図6は、健康改善経路探索装置1のハードウェア構成図である。図6に示されるように、健康改善経路探索装置1は、一つ又は複数のプロセッサ103と、メモリ104と、ストレージ105と、入出力ポート106と、を有する情報処理装置100により構成される。入出力ポート106は、外部のデバイス等との間で制御信号の入出力を行う。ストレージ105は、各種処理を実行するためのプログラムを記録している。ストレージ105は、コンピュータ読み取り可能であればどのようなものであってもよい。具体例として、ハードディスク、不揮発性の半導体メモリ、磁気ディスク及び光ディスク等が挙げられる。メモリ104は、ストレージ105からロードしたプログラム及びプロセッサ103の演算結果等を一時的に記憶する。プロセッサ103は、メモリ104と協働してプログラムを実行することで、上述した各機能モジュールを構成する。
【0031】
なお、健康改善経路探索装置1のハードウェア構成は、必ずしもプログラムにより各機能モジュールを構成するものに限られない。例えば健康改善経路探索装置1の各機能モジュールは、専用の論理回路又はこれを集積したASIC(Application Specific Integrated Circuit)により構成されていてもよい。
【0032】
次に、図7を参照して、健康改善経路探索装置1が実行する健康改善経路探索方法について説明する。図7は、健康改善経路探索装置1が実行する処理のフローチャートである。
【0033】
健康改善経路探索装置1は、複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成する(ステップS1)。健康改善経路探索装置1は、例えば、データセットのデータを説明変数及び目的変数として選択し、複数の説明変数から目的変数である健康指標を回帰する回帰モデルを生成する。
【0034】
健康改善経路探索装置1は、第1モデルに入力される複数の説明変数の値、及び、該複数の説明変数の値に基づいて第1モデルにより予測される健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成する(ステップS2)。健康改善経路探索装置1は、例えば、階層ベイズモデリングにより、階層ベイズモデルを生成する。
【0035】
健康改善経路探索装置1は、複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、第1モデル及び第2モデルに基づき、各測定対象値に対応する健康指標の値及び存在確率をそれぞれ導出し、互いに連続する複数の説明変数の値間を遷移するように、現在値を起点とし各測定対象値を遷移する複数の経路を特定し、複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定する(ステップS3)。健康改善経路探索装置1は、例えば体重及び血液データ等の説明変数を変化させ、予測モデルによって目的変数を予測し、代理モデルによってその値の取りやすさを存在確率として導出する。健康改善経路探索装置1は、入力される各測定対象値に対応する健康指標の値及び存在確率を導出し、現在値を起点として各測定対象値を遷移する経路を特定し、現在値における健康指標よりも終点における健康指標の値が改善している候補経路のうち、経路内の各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定する。
【0036】
以下、実施例を具体的に説明するが、本開示はそれらに何ら限定されるものではない。
【0037】
[実施例1]
実施例1では、糖尿病に関する公開データセット(非特許文献2、3参照)(以下、単に「公開データセット」という。)をベンチマークとなるデータセットとして用いて、実行可能性の評価を行った。図8は、実施例1におけるデータセットの例を示す。説明変数には、年齢、性別、bmi、血圧値(average blood pressure)、T細胞(T-Cells)、低密度リポタンパク質(low-density lipoproteins)、高密度リポタンパク質(high-densitylipoproteins)、甲状腺刺激ホルモン(thyroid stimulating hormone)、ラモトリギン(lamotrigine)、及び血糖値(blood sugar level)が含まれる。公開データセットには、欠損値が含まれていない。
【0038】
実施例1では、公開データセットを80%及び20%の比率になるようにランダムに分割して、それぞれを訓練データセット及びテストデータセットとして、XGBoostを用いて回帰モデルを生成した。回帰モデルは、公開データセットのうち、9種類の連続値の説明変数及び1種類の離散値の説明変数から、目的変数である糖尿病の将来進行度合いを回帰するモデルである。
【0039】
図9は、実施例1における回帰モデルのスコアを示す図である。図9は、横軸が真の目的変数を示し、縦軸が回帰モデルによる目的変数の予測値を示す。生成した回帰モデルは、テストデータセットのRMSE(Root Mean Squared Error)が62.19となり、R(決定係数)が0.246となった。
【0040】
図10は、実施例1における回帰モデルの変数重要度を示す図である。図10は、横軸が変数重要度を示し、縦軸が変数の種類を示す。XGBoostによる回帰モデルでは、回帰モデルにおける変数重要度が算出可能である。変数重要度は、XGBoostによる回帰モデルにおける寄与度と言い換えることができる。実施例1では、経路探索における介入変数として変数重要度の上位5変数を選択した。具体的には、上位5変数はbmi、bp(血圧値)、s1(T細胞)、s3(高密度リポタンパク質)、及びs5(ラモトリギン)である。
【0041】
次に、公開データセットと回帰モデルの予測値とに基づいて、階層ベイズモデリングにより、階層ベイズモデルを導出した。図11は、実施例1における階層ベイズモデルのグラフィカルモデルの例を示す図である。実施例1では、WBIC(Widely applicable Bayesian information criterion)を使用して、階層ベイズモデルにおけるmixture componentsの妥当な数の評価を行った。mixturecomponentsは、階層ベイズモデルにおけるデータのクラスタ数と言い換えることができる。図12は、実施例1におけるWBICの評価結果を示す図である。図12は、横軸がmixture componentsの数を示し、縦軸がWBICの値を示す。WBICは、値が小さいほど、階層ベイズモデルにおけるmixture componentsの数として妥当であることを示す。実施例1では、mixturecomponentsの数が2のとき、WBICの最小値が得られた。
【0042】
そして、導出した階層ベイズモデルを用いて経路探索を行った。10種類の説明変数から、上述の変数重要度の上位5変数を介入変数として選択し、残りの5種類の変数を固定して経路探索を行った。介入変数を変動させる単位は訓練データセットにおける0.2σに設定した。各インスタンスについて探索反復数L=20,000回の探索を実施し、最も低い糖尿病の将来進行度合いの値を有する経路を最適経路として取得した。
【0043】
図13は、実施例1における各インスタンスの実行可能性スコアを示すヒストグラムである。実行可能性スコアは、87のインスタンス中83のインスタンスにおいて0以上であり、中央値は2.06であった。この結果は、改善後の目的変数が同じであっても、そこに至るまでの実行可能性は経路ごとに異なることを示す。また、結果は、健康改善経路探索装置1によって探索された経路のほとんどがランダム経路よりも高い実行可能性を有することを示す。
【0044】
図14は、実施例1における経路探索結果の例を示す図である。図14(a)及び図14(b)はそれぞれ別個のインスタンスに対する経路探索結果の例を示す。図14(a)及び図14(b)の左側のグラフは、経路探索結果の起点(initial)から終点(destination)までの最適経路(Optimal Path)の例を示す。最適経路は、実際のデータ(Actual Data)が存在する確率の高いノードを経由している。図14(a)及び図14(b)の右側のグラフは、最適経路における健康指標の改善値及び介入変数の改善順序を示す。図14(a)の例では、bp、bmi、bp、s5、bpの改善順序が糖尿病の改善、すなわち健康指標である糖尿病の将来進行度合いを改善するための実行可能性の高い経路である。図14(b)の例では、bmi、s5、s3、bmiの改善順序が糖尿病を改善するための実行可能性の高い経路である。
【0045】
[実施例2]
実施例2では、岩木健康増進プロジェクト(Iwaki Health PromotionProject、以下、「IHPP」という。UMIN試験ID:UMIN000040459)により取得されたデータセット(以下、「IHPPデータセット」という。)を用いて実行可能性の評価を行った。IHPPでは、日本の青森県弘前市岩木地区の20歳以上の住人を対象に、2005年から生理・生化学データ、個人生活活動データ、社会環境データ等、広範な健康診断データを取得している。図15は、実施例2におけるデータセットの例を示す図である。IHPPデータセットには、年齢、BMI、収縮期血圧(Systolic Blood Pressure、以下「SBP」という。)、拡張期血圧(DiastolicBlood Pressure)、性別、及び高血圧の病歴が含まれる。実施例2では、収縮期血圧(SBP)を改善するシナリオを検討した。
【0046】
IHPPデータセットには、2,000以上の測定項目やアンケート回答項目が含まれており、欠損値の多い項目も含まれているため、変数の選択を行った。具体的には、説明変数から血圧に関する測定項目、アンケート回答に関する項目、25%以上の欠損値を含む項目等を除外することにより、変数の選択を行った。また、XGBoostベースのRFE(Recursive Feature Elimination)を実施することにより、説明変数を削減した。RFEに用いたデータには、カテゴリ変数に対してワンホットエンコーディングを適用し、中央値により欠損値を置換した。このような処理により、変数が25種類になるまで削減した。図16は、実施例2における回帰モデルの変数重要度を示す図である。変数重要度の上位項目には、年齢、脚点(脚部筋肉量点数)、BMI、ウエスト、血清血糖、及びγ-GTP等の高血圧に関連する項目であり、収縮期血圧の予測モデルとしては臨床的視点で妥当な説明変数が選択されたと推測できる。
【0047】
実施例2では、IHPPデータセットを80%及び20%の比率になるようにランダムに分割して、それぞれを訓練データセット及びテストデータセットとして、XGBoostを用いて回帰モデルを生成した。実施例2では、多重代入法を用いて欠損値を置換した後に回帰モデルを生成した。多重代入法の欠損値の推定には、連続変数にはBayesian Ridge、離散変数にはRandom Forestを用いた。
【0048】
図17は、実施例2における回帰モデルのスコアを示す図である。図17は、横軸が真の目的変数を示し、縦軸が回帰モデルによる目的変数の予測値を示す。生成した回帰モデルは、テストデータセットのRMSEが15.42となり、Rが0.330となった。
【0049】
次に、IHPPデータセットと回帰モデルの予測値とに基づいて、階層ベイズモデリングにより、階層ベイズモデルを導出した。図18は、実施例2におけるWBICの評価結果を示す図である。図18は、横軸がmixture componentsの数を示し、縦軸がWBICの値を示す。実施例2では、mixturecomponentsの数が5のとき、WBICの最小値が得られた。
【0050】
そして、導出した階層ベイズモデルを用いて経路探索を行った。25種類の説明変数から、上述の変数重要度の上位5変数、すなわち脚点、血清血糖、BMI、ウエスト、及びγ-GTPを介入変数として選択した。介入変数を変動させる単位は訓練データセットにおける0.2σに設定した。収縮期血圧に関して、高値を有する参加者の血圧を下げるシナリオを想定し、予測収縮期血圧が訓練データセットにおけるmean+1σ以上、かつ介入変数が欠損していない参加者データを解析対象のインスタンスとした。解析対象となったインスタンスは391件であった。各インスタンスについて探索反復数L=20,000回の探索を実施し、最も低い収縮期血圧値を有する経路を最適経路として取得した。
【0051】
図19は、実施例2における各インスタンスの実行可能性スコアを示すヒストグラムである。実行可能性スコアは、391のインスタンス中341のインスタンスにおいて0以上であり、中央値は0.78であった。この結果は、実際の健康診断により取得されたデータセットを用いて、収縮期血圧を改善するための実行可能な経路が探索可能であることを示し、健康改善経路探索装置1によって探索された経路のほとんどがランダム経路よりも高い実行可能性を有することを示す。
【0052】
図20は、実施例2における経路探索結果の例を示す図である。図20(a)及び図20(b)はそれぞれ別個のインスタンスに対する経路探索結果の例を示す。図20(a)及び図20(b)の左側のグラフは、最適経路の例を示す。最適経路は、実際のデータが存在する確率の高いノードを経由している。図20(a)及び図20(b)の右側のグラフは、最適経路における健康指標の改善値及び介入変数の改善順序を示す。図20(a)の例では、概ね、血清血糖、脚点、γ-GTPの改善順序が健康指標の値である収縮期血圧を改善するための実行可能性の高い経路である。これらの変数は互いに関連があり、複数の変数が血圧改善のために変動する経路として妥当である。血圧を改善するための臨床的視点においても、これらの変数の変化の方向は妥当である。例えば、高値の血清血糖は高血圧のリスクファクターであると報告されている。図20(b)の例では、γ-GTP、脚点、γ-GTPの改善順序が実行可能性の高い経路である。図20(a)と同様に、介入変数の値の臨床的視点での変化の方向は妥当であるが、図20(b)の例では一時的に回帰モデルの予測値が元の予測値よりも高いノードを経由している。これは、予測値が最善となるノードを選択し、そのノードに至るまでの確率上の最適経路を求めており、経由するノードの予測値を考慮していないためである。健康改善経路探索装置1は、予測値が悪化するノードを探索範囲から除外してもよい。
【0053】
[作用効果]
次に、本実施形態に係る健康改善経路探索装置1の作用効果について説明する。
【0054】
本実施形態に係る健康改善経路探索装置1は、複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成する第1モデル生成部12と、第1モデルに入力される複数の説明変数の値、及び、該複数の説明変数の値に基づいて第1モデルにより予測される健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成する第2モデル生成部13と、複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、第1モデル及び第2モデルに基づき、各測定対象値に対応する健康指標の値及び存在確率をそれぞれ導出し、互いに連続する複数の説明変数の値間を遷移するように、現在値を起点とし各測定対象値を遷移する複数の経路を特定し、複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定する経路探索部14と、を備える。
【0055】
本実施形態に係る健康改善経路探索方法は、複数の説明変数の値に基づいて目的変数である健康指標の値を予測する第1モデルを生成するステップと、第1モデルに入力される複数の説明変数の値、及び、該複数の説明変数の値に基づいて第1モデルにより予測される健康指標の値の組み合わせ毎の存在しやすさを示す存在確率を導出する第2モデルを生成するステップと、複数の説明変数の現在値から所定範囲内の複数の測定対象値を入力として、第1モデル及び第2モデルに基づき、各測定対象値に対応する健康指標の値及び存在確率をそれぞれ導出し、互いに連続する複数の説明変数の値間を遷移するように、現在値を起点とし各測定対象値を遷移する複数の経路を特定し、複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善している一又は複数の経路を候補経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が最大となる経路を健康改善経路として特定するステップと、を含む。
【0056】
本実施形態に係る健康改善経路探索装置1及び健康改善経路探索方法では、複数の説明変数に基づいて目的変数である健康指標を予測する第1モデルが生成され、入力される複数の説明変数の値及びその予測値である健康指標の値の組み合わせ毎の存在確率を導出する第2モデルが生成される。第1モデル及び第2モデルに複数の測定対象値が入力されると、各測定対象値及びその予測値である健康指標の値の組み合わせ毎の存在確率がそれぞれ導出される。そして、本健康改善経路探索装置1及び健康改善経路探索方法では、複数の説明変数の現在値を起点として、各測定対象値を遷移する複数の経路のうち、終点における健康指標の値が現在値における健康指標の値よりも改善し、且つ経路内の各測定対象値の存在確率の積が最大となる経路が健康改善経路として特定される。このような構成によれば、健康診断等により取得された複数の説明変数の現在値が入力されたとき、現在値から所定範囲内の複数の測定対象値から各測定対象値及びその予測値である健康指標の値の組合せの存在確率が導出される。そして、各測定対象値を遷移する経路のうち、起点から終点までにおいて健康指標が改善しており、且つ経路内の各測定対象値の存在確率が最大となる経路が特定される。このように特定された経路は、健康指標が改善するまでに存在確率の高い各測定対象値を遷移するため、現実的な値のみを経由し、具体的に健康を改善する順序を示す経路となる。このような健康改善経路が示されることにより、ヒトにとって実行可能な健康改善プロセスを提案することができる。
【0057】
上記健康改善経路探索装置1において、経路探索部14は、健康指標の値が現在値における健康指標の値よりも改善している経路のうち、健康指標の値が最も改善している経路を候補経路として特定してもよい。これにより、健康指標の改善の結果が最もよいと見込まれる健康改善プロセスを提案することができる。
【0058】
経路探索部14は、現在値を基準値として、該基準値に近似する複数の説明変数の値を測定対象値として選択する第1処理を実行した後に、選択した測定対象値のうち第2モデルに入力された際の存在確率が最も高い測定対象値を新たな基準値として、該基準値に近似する複数の説明変数の値を測定対象値として選択する第2処理を繰り返し実行してもよい。入力される測定対象値のうち、存在確率の低い測定対象値を遷移する経路を回避することにより、効率的に、現実的な経路を探索することができる。
【0059】
上記健康改善経路探索装置1において、経路探索部14は、起点から終点までの各測定対象値を最短且つランダムに遷移する経路をランダム経路として特定し、候補経路のうち、経路に含まれる各測定対象値の存在確率の積が、最大且つランダム経路に含まれる各測定対象値の存在確率の積以上となる経路を健康改善経路として特定してもよい。ランダム経路以上の存在確率の積を有する健康改善経路が特定されることとなり、存在確率の積に基づいて、特定された健康改善経路がランダム経路と比較してどれだけ効率的であるかを示すことができ、ヒトにとってより実行可能である健康改善プロセスを提案することができる。
【0060】
以上、本実施形態に係る健康改善経路探索装置1について説明したが、本発明は上記実施形態に限定されない。健康指標の値が現在値における健康指標の値よりも改善している経路のうち、健康指標の値が最も改善している経路を候補経路として特定すると説明したが、経路探索部14は、健康指標の値が現在値における健康指標の値よりも改善している経路のうち、健康指標の値が予め定められた目標値における健康指標の値と一致する経路を候補経路として特定してもよい。経路探索部14は、例えば、予測値が目標値と一致するか、又は下回った(若しくは上回った)場合に探索を終了する等のような探索条件を付してもよい。これにより、健康指標のガイドライン又は臨床的な知見等によって健康指標の目標値が予め定められている場合についても、探索コストを減少させながら経路を探索することができる。
【0061】
また、実施形態では、第1モデル生成部12は、XGBoostを用いる例を説明したが、本発明はモデルに依存しないため、深層学習のような回帰モデルを用いてもよい。階層ベイズモデリングにおける説明変数は、正規分布又はカテゴリ分布を仮定して説明したが、データに従った分布を選択してもよい。これにより、医療データに多く見られるノイズが多いデータ、欠損が多いデータ等にも対応可能である。経路探索部14は、特定の単位で介入変数を変動させて経路探索を行ったが、より精密に測定可能な変数については、ユーザの嗜好又は環境に応じて変動単位を調整してもよい。また、実施形態では、介入変数を変数重要度の上位から選択したが、XAI(explainable AI)におけるCounterfactualsのような技術と組み合わせて介入点を見つけてもよい。また、実施形態では、第2モデルとして階層ベイズモデルを生成する例を説明したが、これに限定されず、データの存在確率を表現可能な任意のモデルを第2モデルとして用いることが可能である。
【符号の説明】
【0062】
1…健康改善経路探索装置、11…データベース、12…第1モデル生成部、13…第2モデル生成部、14…経路探索部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20