(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-17
(45)【発行日】2023-08-25
(54)【発明の名称】疾病リスク評価方法、疾病リスク評価システム、及び健康情報処理装置
(51)【国際特許分類】
G16H 50/30 20180101AFI20230818BHJP
【FI】
G16H50/30
(21)【出願番号】P 2021152523
(22)【出願日】2021-09-17
【審査請求日】2022-07-13
(31)【優先権主張番号】P 2021090157
(32)【優先日】2021-05-28
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(73)【特許権者】
【識別番号】521233943
【氏名又は名称】株式会社 SAI
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】和田 智之
(72)【発明者】
【氏名】種石 慶
(72)【発明者】
【氏名】福間 康文
(72)【発明者】
【氏名】マオ ザイシン
(72)【発明者】
【氏名】塚田 央
【審査官】吉田 誠
(56)【参考文献】
【文献】特開2020-173525(JP,A)
【文献】特開2004-310209(JP,A)
【文献】特表2013-536971(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00 - 80/00
(57)【特許請求の範囲】
【請求項1】
特定の疾病に対する罹患リスクを評価する疾病評価システム(1)であって、
健康に関連する診断データを格納する診断データデータベース(21)と、
前記診断データデータベース(21)から前記診断データを読み出し、前記疾病の進行のレベルによって変化す
る診断データ
として予め定められた診断データをフィルタリングによって
前記診断データから除外する第1フィルタリング部(11)と、
前記第1フィルタリング部(11)で除外されなかった診断データに対して
予め機械学習
済の
第1のモデルを用いたクラスタリングを行い、罹患リスクの高いグループと罹患リスクの低いグループとに分ける第1クラスタリング部(12)と、
前記第1クラスタリング部(12)で罹患リスクの高いグループにクラスタリングされた前記診断データのみを前記診断データデータベースから抽出する第2フィルタリング部(13)と、
前記第2フィルタリング部(13)で抽出した前記診断データに対して
予め機械学習済の第2のモデルを用いたクラスタリングを行い、複数の疾病の進行のレベルに分ける第2クラスタリング部(14)と、
前記第1クラスタリング部(12)及び前記第2クラスタリング部(14)におけるクラスタリングの結果を格納するクラスタリング結果記憶部(15)と
を備えることを特徴とする、疾病評価システム。
【請求項2】
前記クラスタリング結果記憶部(15)に格納されたクラスタリングの結果をグラフに表示するためのマッピング処理を行うマッピング処理部をさらに備えることを特徴とする、請求項
1に記載の疾病評価システム。
【請求項3】
検証用データベース(24)に格納された検証用データと、前記機械学習のモデルを用いたクラスタリングの結果であるAI予測データとを比較する検証部(17)をさらに備えることを特徴とする、請求項
1又は
2に記載の疾病評価システム。
【請求項4】
前記
予め機械学習
済の
第1のモデルを用いたクラスタリング
及び前記予め機械学習済の第2のモデルを用いたクラスタリングは、半教師ありクラスタリングであることを特徴とする、請求項
1~
3のいずれか1項に記載の疾病評価システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、健康段階での特定の疾病に罹患するリスクが高いかどうかを判定する疾病リスク評価方法、疾病リスク評価システム、及び健康情報処理装置に関する。
【背景技術】
【0002】
近年の先端医療の発達に伴い、発病後の治療や医療技術が進んでいる。その影響で、寿命が延びる反面、国民全体の医療費は増え、その財政負担は、大きな社会問題となっている。また、身体的な疾患に加え、ストレスによる鬱等のメンタルヘルスの問題や、不健康に至る生活習慣のコントロールや改善の必要性も指摘されている。
医療費を軽減し、国民が健康で働くことができる、すなわち健康寿命が延伸するためには、疾患が顕在化していない健康段階で、罹患リスクを管理し、発病に近づけないよう、超早期の健康管理の実現が求められている。そのためには、健康段階で、兆候が出る前にどのような病気に罹患するリスクが高いのかを知る必要がある。
人間ドック等の健診や病気の診断に用いられる指標(測定値の基準)は、発症の兆候が現れたことを示すものであり、健康段階でのリスク基準を与えるものではないため、健康段階で有効な新たな指標が求められている。
現在は遺伝子およびその変異がどのような病気に罹患しやすいかの指標となっているが、環境因子によって遺伝子の発現が異なることが知られている。また、多くの場合、特定の病気に関連すると言われる遺伝子変異は一つではなく多数ある。よって、遺伝子情報だけでは今の健康状態からどの病気の罹患リスクが高いのか、また発症段階に近づいているのかを見極めることは難しい。
Big Dataを解析することによって、遺伝子情報を用いずとも、どのような病気に罹患しやすいかを知ることができれば、健康段階でどの病気に罹患するリスクが高いかがわかる。また健康状態によって変化する測定値によって判断されれば、どのような測定値になれば罹患リスクが減るかを分析することができる。遺伝子情報に頼らずに、特定の個人を取り巻く環境や測定値より、健康段階・発症後に関わらず、特定の病気への罹患リスクが高いかどうかを判定する手法が求められている。
疾患が顕在化していない健康段階で、罹患リスクを管理し、発病に近づけないよう、超早期の健康管理を実現するためには、下記の要件がそろっている必要があると考える。
一つは、病気の診断や健康診断等で用いられる健康に関連しうる測定値で、罹患の兆候が表れる前に、特定の病気に罹患するリスクが高いかどうかを判断できることであり、一つは前項の兆候が現れる前から発病に至るまでの程度が知れることである。
【先行技術文献】
【特許文献】
【0003】
【発明の開示】
【発明が解決しようとする課題】
【0004】
特許文献1は、自己組織化マップの技術を用いて、状態を推定すると言っているが、ごく一般的なUnsupervised Learningを説明しているだけで、その適用の効果は説明されていない。また、健診データを分類するだけなので、我々が目指す、健康段階の罹患リスクを見出すこともできていない。
経時的な推論を含まない手法では、罹患リスクを管理し、発病に近づけないよう、超早期の健康管理技術を実現させたとは言えない。また、経時的な検証が必要となる。
我々は、健診データを含む様々な環境データから、健康段階の人間に対する、特定の疾患に対する罹患リスクの大小を、遺伝子情報を用いずとも判定する技術を開発する。さらに、健康段階であっても罹患リスクに近づいているかどうかを定量化する。
我々は、前述の2つの要件を達成する方法とそれを用いたシステムを考案した。
(1)病気の診断や健康診断等で用いられる測定値で、発病の兆候が表れる前に、特定の病気に罹患するリスクが高いかどうかを判断できること
いわゆるデータ主導解析でこの機能の実現をすることが考えられ、特許文献1もそのようなアプローチである。健康段階では診断やその兆候を示すバイオマーカーが存在しないため、教師あり学習の手法は使えない。しかしながら、特許文献1で用いられている教師なし学習自己組織化マップであるが、兆候のある無し、つまり、特定の病気のリスクが顕在化しているかどうかでマッピングをしてしまい、兆候が現れる前の特定の疾患の罹患リスクの大小や兆候が現れる前の発病に近づいているかどうかの判定には使えない。
つまり、特許文献1は、すでに世の中で知られている自己組織化マップを用いて、マッピングをしたと言っているだけで、我々の目的を実現する手法としては機能を満たしてない。また、我々の目的を実現するための考案は示されていない。
(2)前項の兆候が現れる前から発病に至るまでの程度が知れること
また、特許文献1に限らず、健康段階から特定の病気に罹患するリスクの程度を健診データから判断する手法は考案されていない。また、遺伝子検査は、後天的な遺伝子発現の変化や環境因子の影響が非常に多いことが昨今のスタディで知られてきており、健診データから罹患リスクの程度を判定することは重要である。
【0005】
そこで本発明は、健康段階での潜在的な発病傾向を事前に検出することができ、対象疾病に対する将来の疾病リスクを定量化できる疾病リスク評価方法、疾病リスク評価システム、及び健康情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
我々は、罹患リスクが顕在化していない健康段階から発病後までの人間までを含めた、罹患リスクが高いグループと低いグループに分けるステップと、罹患リスクが高いと判断されたグループの中で罹患の程度をさらに分けると言う複数のステップを踏んで目的を達成することを考案した。また、それぞれのステップにおいては、データ主導解析に用いるデータの種類を変えることによって実現することも考案し、検証した。
具体的には、病気の進行度によって値が変わるデータ(病気の判定に用いるバイオマーカー)を外して罹患リスクが高いグループと低いグループに分ける教師なし学習Clusteringを行う。病気の進行度によって変わるデータを外すことにより、病気が進んだ人も健康段階にある人も、罹患リスクによって分類することで一つのグループにすることができる。
次に、病気の進行度によって値が変わるデータを戻して、進行度(発病、兆候が現れるリスクの高い低い)を段階分けもしくは定量化を行う。これは、従来のSupervised Learningの技術で実現できる。
従来の進行度判定手法において、既存のバイオマーカーが全ての患者の進行に当てはまることが無かったが、そのリスクが高いGroupに対して既存のバイオマーカーを適用することによって、より精度よく進行状況の把握と管理が可能になる。
データ主導解析によるものなので、個々のデータと結果とのメカニズムの詳細までは示せないが、PublicにAvailableなデータを用いて、我々の方法が有効であることを検証した。この検証をもって、我々の考案が課題を解決する有効な方法であることを示していると言える。
【発明の効果】
【0007】
本発明によれば、検証の結果からわかるように、兆候が現れていない健康段階で、特定の疾病に罹患するリスクが高いかどうかを判定できる。また、健康段階から発病までの連続した発病リスク程度(Disease Score)を得ることができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施の形態による疾病リスク評価方法の評価ステップを示す図
【
図4】本実施の形態による疾病リスク評価方法の概念図
【
図5】対象疾病を心血管疾患とした場合に用いるデータのフィルター処理流れを示す図
【
図7】対象疾病を糖尿病とした場合に用いるデータのフィルター処理流れを示す図
【
図9】対象疾病を鬱病とした場合に用いるデータのフィルター処理流れを示す図
【
図12】心血管疾患サブタイプ生成に用いるパラメータ一覧
【
図16】本実施の形態による疾病リスク評価システムの全体を示す概念図
【
図17】本実施の形態による疾病リスク評価システムのクラスタリング処理に関する構成を示す図
【
図18】本実施の形態による疾病リスク評価システムのマッピング処理に関する構成を示す図
【
図19】本実施の形態による疾病リスク評価システムの検証処理に関する構成を示す図
【発明を実施するための形態】
【0009】
以下本発明の疾病リスク評価方法の実施の形態について説明する。
図1は、本実施の形態による評価ステップである。
S1では、健康状態に関連しうるデータを集めデータベースとする。
遺伝子変異解析のように、なるべく多くのデータを集めた方が良いが、例えば糖尿病を対象とする場合には、白血球数、リンパ球パーセント、赤血球数、血小板数、HDLコレステロール、クレアチニン、アルブミン、身長、収縮期血圧、及び既往歴の全てか又は一部のデータを用い、心血管疾患を対象とする場合には、白血球数、リンパ球パーセント、赤血球数、血小板数、HbA1c、クレアチニン、アルブミン、身長、収縮期血圧、及び睡眠時間の全てか又は一部のデータを用い、鬱病を対象とする場合には、白血球数、リンパ球パーセント、HbA1c、総/HDLコレステロール、クレアチニン、アルブミン、身長、収縮期血圧、睡眠時間、及び既往歴の全てか又は一部のデータを用いる。例示するように、それぞれの疾患に対して、少なくとも10つのデータを用いることで好ましい評価を得ることができ、一部のデータ項目が上記で例示した項目と置換されてもよく、例示した項目の一部が存在しない場合には、データとして存在する他の項目を用いることもできる。
【0010】
S2では、疾患のレベルに相関するデータ(特徴量)を除外する。例えば糖尿病を対象とする場合には、糖尿病の判定に用いるHbA1cは少なくとも除外する。このように、S2では、疾患のレベルに相関するデータ(特徴量)を除外する。S2のステップによって、疾患のレベルに相関するデータ(特徴量)が含まれないデータベースができる。
【0011】
S3では、疾患のレベルに相関するデータ(特徴量)が含まれないデータベースを用いて、罹患リスクが高いグループと罹患リスクが低いグループとに分ける。S3における分離はセミスーパーバイズドクラスタリング(Semi-Supervised Clustering)の技術が適している。なお、アンスーパーバイズドクラスタリング(Unsupervised Clustering)を用いてもよい。
発症した事例が含まれるようにクラスタリングすることにより、罹患リスクが高いグループを抽出することができる。
【0012】
S4では、罹患リスクの高いグループに対し、疾患のレベルに相関するデータ(特徴量)を戻す。すなわち、罹患リスクが高いグループと罹患リスクが低いグループとに分ける処理(S3)で除外したデータ、例えば糖尿病において外したHbA1cを戻す。
【0013】
そして、S5では、罹患リスクの高いグループに対し、疾患のレベルに相関するデータ(特徴量)を含めて、健康段階から発病後までの疾病のレベルを定量化する。
S5では、教師あり学習(Supervised Learning:スーパーバイズドラーニング)が適している。教師あり学習によって、実際にデータが無いところも数値化できる。
特定の疾患に対してS5までの処理を行うと、次の対象疾患に対してS1からS5までの処理を行う。このように、対象とする疾患全てについて罹患リスクが高いか低いかのグループの分類分けと疾病レベルの定量化を行う。
対象とする全ての疾患に対しての処理が終わると、S6では、個別被検者のスコアを作成する。罹患リスクの高いグループに対し、スコアで表示し、罹患リスクが高い疾病を示すて定量化した罹患レベルを表示する。スコアは、例えば0から100までの数値的な表示で行い、スコアを表示するグラフィカルな手法として、バーチャート、又はレーダーチャートを用いることができる。
【0014】
S6によって、この検査を受ける人間は、自分が気を付けるべき疾病名と、罹患リスクの程度を知ることができる。
【0015】
図2にスコアの表示例を示す。
本評価方法と本評価システムが、健康情報処理装置に実装されたときに出力されるべき表示の例である。前述の超早期の健康管理を実現するための要件である、「罹患するリスクが高いと判断された病気」と「兆候が現れる前から発病に至るまでの程度」が示されている。
【0016】
検証方法
図3は検証結果を示し、
図3(a)はS3によるグループの分類についての検証結果、
図3(b)はリスクが高いと分類されたグループに対する疾患程度を示す検証結果を示す。
公開されているデータ(CDC(Centers for Disease Control and Prevention)NHANES2013-2014)でTrainingさせ、同じく公開されている別のデータ(CDC NHANES2011-2012)でValidateした。このように、検証はトレーニングしたデータと違うデータセットを用意して検証した。
図3(a)では、Validationは●ドットで示している。
【0017】
図3(a)の赤の実線はCardio-vasculatureについてトレーニングしたデータにクラスタリングした結果高リスクと分類された人たちの発症率の平均値を年代ごとに示したものである。
発症率の高齢から、発症率が低い若年まで、連続して高リスクのグループと低リスクのグループに分かれているのがわかる。これは、まだ健康である若いうちから、高リスク、低リスクのグループに分けられることがわかる。これは、現在の環境値(測定値)から推測して、将来Cardio-Vascularに罹患する可能性が高いことを予測できることを意味する。
実線に重なっており、Trainingした知識は、他のデータでも有効であることを示した。
【0018】
図3(b)は、分離後のリスクが高いと分類されたグループに対し、分離ステップで除かれたデータを戻してSupervised Learningすることによって、健康段階から発病後までの疾患程度(Disease Score)を示している。これまでは診断に用いられている兆候を示すバイオマーカーを主要な説明変数としたデータ主導解析であったために、兆候が現れる前の程度は解析できていない。しかしながら本発明においては、兆候が現れる前段階では、Semi-Supervised Clusteringを用い、兆候が現れる段階ではSupervised Learningと疾病の程度によって値が変化するデータを用いているために、健康段階から発病後までの疾患程度(Disease Score)を連続して示すことができる。
【0019】
図4は本実施形態の疾病リスク評価方法におけるグループの分類(S1~S3)までの更に詳細な概念図である。
本実施の形態による疾病リスク評価方法では、血液検査データ、身体測定データ、人口統計データ、問診データ、及び尿検査データの中から少なくとも2つのカテゴリーデータを用いて少なくとも2つのグループにクラスタリングし、いずれのグループに属するか又はいずれのグループに近いかを判定することで、健康段階にある推定対象者について疾病リスクを推定するものであり、対象疾病の診断に用いられるか対象疾病の進行の判断に用いられる疾患パラメータを除外したデータを用いる。
【0020】
図4に示すように、本実施の形態による疾病リスク評価方法では、コンピュータは、少なくとも2つのカテゴリーデータを取得する学習データ取得ステップS10と、データの中から特定パラメータを除去するフィルター処理ステップS20と、特定パラメータを除去したデータを用いて機械学習を行う学習ステップS30と、クラスタリングの結果を表示するためのマッピング処理ステップS40と、学習ステップS30によってクラスタリングされたグループや判定結果を表示する表示ステップS50とを有する。
【0021】
フィルター処理ステップS20は、第1フィルター処理ステップS21と、第2フィルター処理ステップS22とを有する。
第1フィルター処理ステップS21では、あらかじめ設定した対象疾病に対して、データの中から、対象疾病の診断に用いられるか対象疾病の進行の判断に用いられる疾患パラメータを除外する。
第2フィルター処理ステップS22では、クラスタリングの結果表示に用いる表示パラメータ、互いに強い相関を持つパラメータの一方のパラメータ、及びクラスタリングのパフォーマンスを低下させるパラメータを除外する。
学習ステップS30では、疾病リスクによるクラスタリングが、例えば、低リスクのグループと、高リスクのグループに分離されるようなパラメータを発見的に学習する。
マッピング処理ステップS40では、例えば疾病リスク率と年齢分布との2軸におけるマッピングで行われる。
表示ステップS50では、例えばX軸を年齢分布、Y軸を疾病リスクとして、低リスクのグループと高リスクのグループとを折れ線グラフで二次元的に表示する。
【0022】
コンピュータは、学習ステップS30によってクラスタリングされたグループの検証を行う検証ステップS60を有している。
学習ステップS30では、過去の第1所定期間におけるデータを学習データとして用い、検証ステップS60では、第1所定期間より以前の第2所定期間におけるデータを検証データとして用いる。例えば、学習データとして、CDC(Centers for Disease Control and Prevention)2013-2014データを用い、検証データとしてCDC2011-2012データを用いる。
検証ステップS60で用いる検証データは、第1フィルター処理ステップS21によって疾患パラメータを除外し、第2フィルター処理ステップS22によってクラスタリングの結果表示に用いる表示パラメータ、又は互いに強い相関を持つパラメータの一方のパラメータ、及びクラスタリングのパフォーマンスを低下させるパラメータを除外する。
表示ステップS50では、低リスクのグループと高リスクのグループとをプロットで表示することで、折れ線グラフとの一致性を表示する。
【0023】
コンピュータは、推定対象者について、いずれのグループに属するか又はいずれのグループに近いかを判定する判定ステップS70を有している。
判定ステップS70で用いる推定対象者の対象者データは、第1フィルター処理ステップS21によって疾患パラメータを除外し、第2フィルター処理ステップS22によってクラスタリングの結果表示に用いる表示パラメータ、互いに強い相関を持つパラメータの一方のパラメータ、及びクラスタリングのパフォーマンスを低下させるパラメータを除外する。
表示ステップS50では、推定対象者の判定結果をプロットで表示することで、低リスクのグループと高リスクのグループとの折れ線グラフと比較でき、いずれのグループに近いか、リスクポジションを判断できる。また、年齢層毎の分布から、経年後のリスク評価を行うことができる。
【0024】
なお、学習ステップS30、検証ステップS60、及び判定ステップS70で用いるパラメータ、特に、性別、年齢層別、及び問診については正規化して用いることが好ましく、例えばSD値で正規化して用いる。
疾病リスクのクラスタリングでは、対象疾病について高リスクにあるグループを、健康段階から発病、進行段階までを一つのグループとして抽出し、抽出したグループを進行度合いに応じてグレーディングすることが好ましい。
また、疾病リスクのクラスタリングでは、Kernel k-means法や独自のカーネル関数を使用することができる。例えば、初期化(中心点設定)は、疾病ラベルの付いた学習データの40%に対して行い、中心点(各未病範疇)における、年齢層毎の 高リスク、低リスクのクラスタリングを行う。
【0025】
検証ステップS60では、学習ステップS30で用いる教師データで検証を行うことができ、構築されたクラスタリングのモデルに対して、検証データを入力し、学習データの結果と、疾患リスクの有病率の誤差を比較して検証することができる。また、発病者の過去履歴から検証することもできる。
【0026】
このように、対象疾病の診断に用いられるか対象疾病の進行の判断に用いられる疾患パラメータを除外したデータを用いて機械学習を行うことで、健康段階での潜在的な発病傾向を事前に検出することができ、対象疾病に対する将来の疾病リスクを定量化できる。
そして、疾病リスクの高いグループと、疾病リスクの低いグループの生活習慣を分析することにより、健康増進マネージメントを可能とするアプリケーションを実現でき、疾病リスクを低減するための介入指針を示すことができる。
【0027】
図5は、対象疾病を心血管疾患とした場合に用いるデータのフィルター処理流れを示し、
図6は、
図5に示すパラメータ一覧である。
図5に示すように、対象疾病を心血管疾患とした場合には、第1フィルター処理ステップS21で6個のパラメータを除去し、第2フィルター処理ステップS22で更に6個のパラメータを除去する。
【0028】
第1フィルター処理ステップS21では、
図6に示すパラメータの中で、血液検査データである、総コレステロール及び直接HDL-コレステロールを、疾患パラメータとして除外する。また、第1フィルター処理ステップS21では、
図6に示すパラメータの中で、問診データである、心臓発作、冠状動脈性心臓病、狭心症、又はうっ血性心不全であるとの推定対象者の現在又は過去における疾病についての問診パラメータを、疾患パラメータとして除外する。
【0029】
第2フィルター処理ステップS22では、
図6に示すパラメータの中で、血液検査データである、分葉核好中球パーセント及びエピ-25-ヒドロキシビタミンD3を除外し、身体測定データであるBMIを除外する。分葉核好中球パーセントは、クラスタリングのパフォーマンスを向上させるためであり、エピ-25-ヒドロキシビタミンD3は、25-ヒドロキシビタミンD3と互いに相関性が強いためであり、BMIは平均腹部矢状径と互いに相関性が強いためである。
また、第2フィルター処理ステップS22では、
図6に示すパラメータの中で、人口統計データである、年齢及び性別のパラメータを除外し、問診データである「食事はしなかったか?」との問診パラメータを除外する。
性別は、クラスタリングのパフォーマンスを向上させるためであり、「食事はしなかったか?」との問診パラメータは、「バランスのよい食事を取る余裕はなかった」との問診パラメータと互いに相関性が強いためである。
【0030】
図7は、対象疾病を糖尿病とした場合に用いるデータのフィルター処理流れを示し、
図8は、
図7に示すパラメータ一覧である。
図7に示すように、対象疾病を糖尿病とした場合には、第1フィルター処理ステップS21で2個のパラメータを除去し、第2フィルター処理ステップS22で更に7個のパラメータを除去する。
【0031】
第1フィルター処理ステップS21では、
図8に示すパラメータの中で、血液検査データであるHbA1cを、疾患パラメータとして除外する。また、第1フィルター処理ステップS21では、
図8に示すパラメータの中で、問診データである、糖尿病であるとの推定対象者の現在又は過去における疾病についての問診パラメータを、疾患パラメータとして除外する。
【0032】
第2フィルター処理ステップS22では、
図8に示すパラメータの中で、血液検査データである赤血球葉酸を除外し、身体測定データであるBMIを除外する。赤血球葉酸は、クラスタリングのパフォーマンスを向上させるためであり、BMIは平均腹部矢状径と互いに相関性が強いためである。
また、第2フィルター処理ステップS22では、
図8に示すパラメータの中で、人口統計データである、年齢及び性別のパラメータを除外し、問診データである「バランスのよい食事を取る余裕はなかった」、「食事はしなかったか?」、及び「食料不足が心配」との問診パラメータを除外する。
性別及びこれらの問診パラメータは、クラスタリングのパフォーマンスを向上させるためである。
【0033】
図9は、対象疾病を鬱病とした場合に用いるデータのフィルター処理流れを示し、
図10は、
図9に示すパラメータ一覧である。
図9に示すように、対象疾病を鬱病とした場合には、第1フィルター処理ステップS21では除外するパラメータは無く、第2フィルター処理ステップS22で13個のパラメータを除去する。
【0034】
第2フィルター処理ステップS22では、
図10に示すパラメータの中で、血液検査データである、赤血球分布幅、赤血球数、血小板数、単球パーセント、平均血小板容積、平均赤血球容積、ヘモグロビン、好塩基球パーセント、及び好酸球パーセントを除外し、身体測定データである平均腹部矢状径を除外する。赤血球分布幅、赤血球数、血小板数、単球パーセント、平均血小板容積、平均赤血球容積、ヘモグロビン、好塩基球パーセント、及び好酸球パーセントは、クラスタリングのパフォーマンスを向上させるためであり、平均腹部矢状径はBMIと互いに相関性が強いためである。
また、第2フィルター処理ステップS22では、
図10に示すパラメータの中で、人口統計データである、年齢及び性別のパラメータを除外し、問診データである「医者に糖尿病だと言われた?」との問診パラメータを除外する。
性別及びこの問診パラメータは、クラスタリングのパフォーマンスを向上させるためである。
【0035】
なお、本実施の形態では、対象疾病を心血管疾患とした場合には、カテゴリーデータとして、血液検査データ、身体測定データ、問診データ、及び尿検査データを用い、これらのカテゴリーデータの中から35個のパラメータを用い、対象疾病を糖尿病とした場合には、カテゴリーデータとして、血液検査データ、身体測定データ、問診データ、及び尿検査データを用い、これらのカテゴリーデータの中から38個のパラメータを用い、対象疾病を鬱病とした場合には、カテゴリーデータとして、血液検査データ、身体測定データ、問診データ、及び尿検査データを用い、これらのカテゴリーデータの中から34個のパラメータを用いているが、いずれかのカテゴリーデータだけを用いてもよく、少なくとも2つのカテゴリーデータを用いることが好ましい。特に、血液検査データのカテゴリーデータを用いないことで、精神的苦痛を伴う侵襲性の高い、浸潤的な検査を行うことなく、健康段階での発病リスクを推定できる。
【0036】
また、パラメータの個数についても任意の個数とすることができる。
例えば、対象疾病が心血管疾患であれば、血液検査データとして、総コレステロール及び直接HDL-コレステロールを有していれば、疾患パラメータとして判定データから除外するが、血液検査データとして、25-ヒドロキシビタミンD2、白血球数、ビタミンB12、分葉核好中球パーセント、赤血球分布幅、赤血球葉酸、赤血球数、血小板数、単球パーセント、平均血小板容積、平均赤血球容積、リンパ球パーセント、ヘモグロビン、HbA1c、エピ-25-ヒドロキシビタミンD3、25-ヒドロキシビタミンD3、好塩基球パーセント、又は好酸球パーセントを血液検査パラメータとして有していれば、少なくとも1つの血液検査パラメータを判定データとして用いることができる。
また、対象疾病が心血管疾患であれば、身体測定データとして、収縮期血圧、拡張期血圧、腕囲、平均腹部矢状径、BMI、又は身長を身体測定パラメータとして有していれば、少なくとも1つの身体測定パラメータを判定データとして用いることができる。
また、対象疾病が心血管疾患であれば、問診データとして、推定対象者が現在又は過去において、心臓発作、冠状動脈性心臓病、狭心症、又はうっ血性心不全であるとの問診を、問診パラメータとして有していれば、疾患パラメータとして判定データから除外するが、問診データとして、腎臓結石、糖尿病、喘息、腎臓、肝炎、又は睡眠に関する問診を、問診パラメータとして有していれば、少なくとも1つの問診パラメータを判定データとして用いることができる。
また、対象疾病が心血管疾患であれば、尿検査データとして、クレアチニン又はアルブミンを尿検査パラメータとして有していれば、少なくとも1つの尿検査パラメータを判定データとして用いることができる。
【0037】
また、対象疾病が糖尿病であれば、血液検査データとして、HbA1cは、疾患パラメータとして判定データから除外するが、血液検査データとして、25-ヒドロキシビタミンD2、白血球数、ビタミンB12、総コレステロール、分葉核好中球パーセント、赤血球分布幅、赤血球葉酸、赤血球数、血小板数、単球パーセント、平均血小板容積、平均赤血球容積、リンパ球パーセント、ヘモグロビン、エピ-25-ヒドロキシビタミンD3、25-ヒドロキシビタミンD3、好塩基球パーセント、好酸球パーセント、又は直接HDL-コレステロールを血液検査パラメータとして有していれば、少なくとも1つの血液検査パラメータを判定データとして用いることができる。
また、対象疾病が糖尿病であれば、身体測定データとして、収縮期血圧、拡張期血圧、腕囲、平均腹部矢状径、BMI、又は身長を身体測定パラメータとして有していれば、少なくとも1つの身体測定パラメータを判定データとして用いることができる。
また、対象疾病が糖尿病であれば、問診データとして、推定対象者が現在又は過去において糖尿病であるとの問診は、疾患パラメータとして判定データから除外するが、問診データとして、腎臓結石、喘息、腎臓、肝炎、心臓発作、冠状動脈性心臓病、狭心症、うっ血性心不全、又は睡眠に関する問診を、問診パラメータとして有していれば、少なくとも1つの問診パラメータを判定データとして用いることができる。
また、対象疾病が糖尿病であれば、尿検査データとして、クレアチニン又はアルブミンを尿検査パラメータとして有していれば、少なくとも1つの尿検査パラメータを判定データとして用いることができる。
このように、少なくとも1つのカテゴリーデータを用い、任意の個数のパラメータによる判定データを用いて、推定対象者について、いずれのグループに属するか又はいずれのグループに近いかを判定し、少なくともリスク率と年齢との2軸によってグループと判定結果とをマッピング表示することができる。
【0038】
また、対象疾病が鬱病であれば、血液検査データとして、25-ヒドロキシビタミンD2、白血球数、ビタミンB12、総コレステロール、分葉核好中球パーセント、赤血球分布幅、赤血球葉酸、赤血球数、血小板数、単球パーセント、平均血小板容積、平均赤血球容積、リンパ球パーセント、ヘモグロビン、HbA1c、エピ-25-ヒドロキシビタミンD3、25-ヒドロキシビタミンD3、好塩基球パーセント、好酸球パーセント、又は直接HDL-コレステロールを血液検査パラメータとして有していれば、少なくとも1つの血液検査パラメータを判定データとして用いることができる。
また、対象疾病が鬱病であれば、身体測定データとして、収縮期血圧、拡張期血圧、腕囲、平均腹部矢状径、BMI、又は身長を身体測定パラメータとして有していれば、少なくとも1つの身体測定パラメータを判定データとして用いることができる。
また、対象疾病が鬱病であれば、問診データとして、糖尿病、腎臓結石、喘息、腎臓、肝炎、心臓発作、冠状動脈性心臓病、狭心症、うっ血性心不全、又は睡眠に関する問診を、問診パラメータとして有していれば、少なくとも1つの問診パラメータを判定データとして用いることができる。
また、対象疾病が糖尿病であれば、尿検査データとして、クレアチニン又はアルブミンを尿検査パラメータとして有していれば、少なくとも1つの尿検査パラメータを判定データとして用いることができる。
このように、少なくとも1つのカテゴリーデータを用い、任意の個数のパラメータによる判定データを用いて、推定対象者について、いずれのグループに属するか又はいずれのグループに近いかを判定し、少なくともリスク率と年齢との2軸によってグループと判定結果とをマッピング表示することができる。
【0039】
なお、
図6、
図8及び
図10に示す、相対的重要度は、全てのパラメータの重要度値を0から1の間に正規化することによって計算した。
パラメータXについての相対的重要度(X)は、以下の式による。
相対的重要度(X)=(重要度X-全パラメータの最小重要度)/(全パラメータの最大重要度-全パラメータの最小重要度)
ここで、重要度X=全てのパラメータの分離力-Xを除く分離力
パラメータの重要度は、1個のパラメータを削除することで、この削除によって分離力にどの程度影響するかを測定することによって計算される。
【0040】
図11は、心血管疾患サブタイプ生成のプロセスを示す図である。
図11は、対象疾病を心血管疾患とした場合に用いるデータのフィルター処理流れを示し、
図12は、
図11の心血管疾患サブタイプ生成のプロセスに用いるパラメータ一覧である。
図11に示すように、対象疾病を心血管疾患とした場合には、第1フィルター処理ステップS21で4個のパラメータを除去し、第2フィルター処理ステップS22で6個のパラメータを除去する。
【0041】
第1フィルター処理ステップS21では、問診データである「心臓発作を起こしたと言ったことはありますか?」、「冠状動脈性心臓病を患っていると言ったことはありますか?」、「狭心症/狭心症があると言ったことはありますか?」、及び「うっ血性心不全があったと言ったことはありますか?」との問診パラメータを除外する。
【0042】
第2フィルター処理ステップS22では、
図12に示すパラメータの中で、血液検査データである、セグメント化された好中球の割合及びエピ-25-ヒドロキシビタミンD3を除外し、身体測定データであるBMIを除外し、人口統計データである年齢及び性別のパラメータを除外し、問診データである「食欲不振でしたか?」との問診パラメータを除外する。セグメント化された好中球の割合、エピ-25-ヒドロキシビタミンD3、年齢、性別、問診パラメータは、クラスタリングのパフォーマンスを向上させるために除外される。
【0043】
図13は、心血管疾患サブカテゴリ分析を示す図である。
図13の混同行列は、さまざまな心血管疾患のサブタイプの分離を示している。例えば、
図13の例において、人が以前に心臓発作を起こしたことがある場合、アルゴリズムがその人を心臓発作のサブタイプとして識別する可能性は60%、心不全のサブタイプとして26%の可能性、脳卒中のサブタイプとして14%の可能性がある。
サブカテゴリ分析では、入力として、バイオマーカーを示す疾患を除く測定値が入力され、出力として、患者がどの疾患サブタイプを持っているかを出力又は表示する。健康段階から、発病後まで疾病の進行度に応じて、特定の疾病についてさらにサブ分類を行い、各サブ分類における罹患の程度を表示する。
【0044】
図13のマトリックスは、心血管疾患のサブタイプの分類に関する検証結果を示している。ここでは、実際に疾病が診断されている被験者データと、これらを用いずに、AIでサブ分類したカテゴリの一致度を示している。
図13の心血管疾患のサブタイプの分類に関する検証において、入力として、心血管リスク分析結果を入力し、出力として、患者が、心臓発作、心不全、又は脳卒中のいずれの心血管疾患の疾患サブタイプを持っていかを出力又は表示する。ここで用いられるクラスタリングアルゴリズムは、リスク分析の際に用いたアルゴリズムとほぼ同一であるが、心血管疾患サブカテゴリ分析の処理は、下記の点で、リスク分析の処理と異なる。第1に、両者の出力が異なる。リスク分析では、低リスクまたは高リスクの2つの出力しかない。これに対し、サブタイプの分類では、出力の数はサブタイプのクラスの数と同じである。この実験では、心臓発作、心不全、脳卒中の3つのサブタイプが考慮されている。第2に、教師データ(グラウンドトゥルースデータ)が異なる。リスク分析では、健康な被験者と病気の被験者の2種類のラベル付きデータが必要である。これに対し、サブタイプの分類では、疾患のサブタイプごとにラベル付きデータが必要である。この実験では、心臓発作を起こした被験者、心不全を患った被験者、脳卒中を起こした被験者の3種類のラベル付きデータが使用されている。
【0045】
図14は、緑内障サブカテゴリ分類の概要を示す図である。
図14は、本発明による緑内障サブカテゴリ分類の手法と、従来の教師無しクラスタリングを用いた手法との違いを示している。まず、クラスタリングの手法として、従来の手法においては、教師なしクラスタリングを行うのに対し、本発明の手法では、半教師ありクラスタリングを行う。半教師ありクラスタリングは、好ましくは多段階半教師ありクラスタリングであってもよい。従来の教師なしクラスタリングのデメリットは、クラスタリングの結果が予測できない点と、結果のクラスタがターゲットのサブタイプに対応するという保証がない点であって。これに対し、本発明の手法において半教師ありクラスタリングを用いるメリットは、事前に決定されたクラスタ群のクラスタタイプが、少量のラベル付きデータによって事前に決定されている点である。
【0046】
また、従来の教師無しクラスタリングを用いた手法では、入力データとして、値が疾患の進行に比例するバイオマーカーを使用するのに対し、本発明の手法では、値が疾患の進行に比例するバイオマーカーを除外する。従来の手法において値が疾患の進行に比例するバイオマーカーを使用するデメリットは、予測が現在の対象者の状態に限定される点と、将来の進行を予測できない点である。これに対し、本発明の手法において値が疾患の進行に比例するバイオマーカーを除外するメリットは、予測が現在の対象者の状態に限定されない点と、現状の疾患の進行のレベルを予測できる点である。
【0047】
また、従来の教師無しクラスタリングを用いた手法では、疾患のサブタイプが単一の出力結果として出力されるのに対し、本発明の手法では、2段階の出力が行われ、第1段階の出力として疾患のサブタイプが出力され、第2段階の出力として現状の疾患の進行のレベルが出力される。
【0048】
図15は、糖尿病進行速度分析のグラフを示す図である。
本発明の他の態様においては、健康段階から、発病までの疾病の進行度に応じて、特定の疾病の罹患において、リスクの程度に応じて、予測される進行スピードを予測するステップ又は表示するステップをさらに含むようにしてもよい。
糖尿病進行速度分析における入力及び出力はいずれもリスク分析の入力及び出力と同一であるが、結果の視覚化方法がリスク分析と異なる。加齢に伴うリスク分析では、x軸は年齢、y軸は有病率である。この種のグラフは、さまざまな年齢のさまざまなリスクグループにおける病気またはリスクのある人々の割合を示している。進行速度分析では、x軸は年齢であり、y軸は疾患を示すバイオマーカーの平均値である。例えば、糖尿病の場合、y軸は同じ年齢とリスクグループの被験者のHbA1cの平均値である。 HbA1cは糖尿病の進行に比例するため、HbA1cの変化が速いほど、糖尿病の進行が速いことを示している。したがって、進行速度分析の傾きは、さまざまな年齢のさまざまなリスクグループの被験者の糖尿病の進行率を示している。
【0049】
図16は、本実施の形態による疾病リスク評価システム1の全体を示す概念図である。
疾病リスク評価システム1は、クラウドAIプラットフォームの一部として実装することが可能である。クラウドAIプラットフォームは、医療機関等の顧客データを管理する顧客データ管理センターやユーザ端末50から入力されたデータに基づいて、ユーザ端末50に健康マップを提供する健康マップAPIを有し、本発明の疾病リスク評価システム1は、健康マップAPIを実現するためのシステムであり、健康マップを生成するための具体的な処理を行うシステムである。顧客データ管理センター、ユーザ端末、及び疾病リスク評価システム1を含む健康マップAPIは、ネットワークを介して接続され、データのやり取りを行う。
【0050】
疾病リスク評価システム1は、データ処理部10とデータベース20を備える。データ処理部20は、クラスタリング処理を行うための第1フィルタリング部11、第1クラスタリング部12、第2フィルタリング部13、第2クラスタリング部14及びクラスタリングモデル記憶部15を備える。また、データ処理部20は、マッピング処理を行うためのマッピング部16をさらに備えるようにしてもよい。また、データ処理部20は、クラスタリング処理における機械学習の検証を行う検証部17をさらに備えるようにしてもよい。
【0051】
データベース20は、クラスタリング処理に関連するデータを格納するための学習データデータベース21及びAIパラメータデータベース22を含む。また、データベース20は、クラスタリング処理における機械学習の検証に関連するデータを格納するための検証用データデータベース24を含むようにしてもよい。
【0052】
図17は、本実施の形態による疾病リスク評価システム1のクラスタリング処理に関する構成を示す図である。
本実施の形態による、特定の疾病に対する罹患リスクを評価する疾病評価システム1は、健康に関連する診断データを格納する診断データデータベース21と、診断データベース21から診断データを読み出し、疾病のレベルによって変化する診断データを除外する第1フィルタリング部11と、第1フィルタリング部11で除外されなかった診断データに対してクラスタリングを行い、罹患リスクの高いグループと罹患リスクの低いグループとに分ける第1クラスタリング部12と、第1クラスタリング部12で罹患リスクの高いグループにクラスタリングされた診断データのみを診断データデータベースから抽出する第2フィルタリング部13と、第2フィルタリング部13で抽出した診断データに対してクラスタリングを行い、複数の疾病レベルに分ける第2クラスタリング部14と、
前記第1クラスタリング部12及び前記第2クラスタリング部14におけるクラスタリングの結果を格納するクラスタリング結果記憶部15とを備える。
【0053】
診断データデータベース21は、ユーザ端末50又は外部システムの端末等のデータ入力端末30から受け付けた健康に関連する診断データを格納する。ここで、健康に関連する診断データとは、健康診断や人間ドック等により得られた診断結果や、医療機関における診察時や検査時に得られた診断結果等、健康に関連する何らかの診断、診察又は検査の結果をいう。診断データには、
図6、8、10及び12の表中に示されるような測定項目が含まれる。
【0054】
第1フィルタリング部11は、診断データベース21から診断データを読み出し、疾病のレベルによって変化する診断データを除外する。即ち、第1フィルタリング部11において、疾患のレベルに相関するデータ(特徴量)が除外される。
【0055】
第1クラスタリング部12は、第1フィルタリング部11で除外されなかった診断データに対してクラスタリングを行い、罹患リスクの高いグループと罹患リスクの低いグループとに分ける。
【0056】
第2フィルタリング部13は、第1クラスタリング部12で罹患リスクの高いグループにクラスタリングされた診断データのみを診断データデータベースから抽出する。
【0057】
第2クラスタリング部14は、第2フィルタリング部13で抽出した診断データに対してクラスタリングを行い、複数の疾病レベルに分ける。
【0058】
クラスタリング結果記憶部15は、前記第1クラスタリング部12及び前記第2クラスタリング部14におけるクラスタリングの結果を格納する。
【0059】
AIパラメータデータベース22には、AIエンジンに対して学習を行い最適化されたパラメータが格納されている。例えば、AIエンジンが、ニューラルネットワークで構築されている場合は、AIパラメータデータベース22には、各層のノードの重み付けが格納されている。
【0060】
図18は、本実施の形態による疾病リスク評価システムのマッピング処理に関する構成を示す図である。
図18に示すように、本実施の形態による、特定の疾病に対する罹患リスクを評価する疾病評価システム1は、クラスタリング結果記憶部15に格納されたクラスタリングの結果をグラフに表示するためのマッピング処理を行うマッピング処理部16をさらに備えるようにしてもよい。
【0061】
診断データデータベース21には、顧客のIDや氏名等の顧客に関する顧客データとその顧客の健康に関する診断結果が関連付けられて格納されている。顧客ごとに罹患リスクの評価結果をグラフ等に表示するために、診断データデータベース21に格納されている顧客データを利用するようにしてもよい。
【0062】
マッピング処理部16は、クラスタリング結果記憶部15に格納されたクラスタリングの結果をグラフに表示するためのマッピング処理を行う。
【0063】
図19は、本実施の形態による疾病リスク評価システムの検証処理に関する構成を示す図である。
本実施の形態による、特定の疾病に対する罹患リスクを評価する疾病評価システム1は、検証用データベース24に格納された検証用データと、データ処理部10におけるクラスタリングの結果であるAI予測データとを比較する検証部17をさらに備えるようにしてもよい。
【0064】
検証用データデータベース24には、検証用データが格納されている。検証用データは好ましくは数年分の検証用データが時系列で格納されている。
【0065】
検証部17は、検証用データベース24に格納された検証用データと、データ処理部10におけるクラスタリングの結果であるAI予測データとを比較する。比較されるAI予測データは、例えば、第1クラスタリング部12におけるクラスタリングの結果または第2クラスタリング部14におけるクラスタリングの結果である。例えば、第1クラスタリング部12において、罹患リスクの高いグループと罹患リスクの低いグループとに分けるクラスタリングの検証を行う場合に、例えば4年間の蓄積データがあった場合、前半の2年分の蓄積データを用いてAIによる学習を行い、そのAIエンジンで、予測される後半の2年分のデータと、実際の後半の2年分のデータの疾病ラベルを比較することにより検証を行う。
【0066】
また、検証部17において、例えば、年齢グループ毎の発症リスクの程度と、実際の発症分布とを比較することにより、その分布が適正か否かを検証するようにしてもよい。
【産業上の利用可能性】
【0067】
本発明によれば、生活習慣の改善などの介入を通して、発病リスクの軽減を提案できる。
以上で説明した構成により、本発明においては、罹患リスクが顕在化していない健康な人(健康段階)から既に発病した人までを含めて、罹患リスクが高いグループと低いグループに分ける第1の段階と、罹患リスクが高いと判断されたグループの中で罹患の程度をさらに分ける第2の段階の2段階を経る手法により、健康段階から特定の病気に罹患するリスクの程度を健診データから判断することを可能にした。罹患リスクが高いグループと低いグループに分ける第1の段階においては、例えば糖尿病におけるHbA1cのように、疾患のレベルに相関するデータ(特徴量)を除外することにより、疾患のレベルに相関するデータ(特徴量)がクラスタリングに与える影響を避け、疾患の進行度に関わらず、また発症前から、特定の疾病に対する罹患リスクが高いグループと低いグループに分けることを可能にした。これにより、特定の疾病について、その進行状態に関わらず、発病前の健康である状態から、その疾病に対する罹患リスクを推定することができ、健康段階からその特定の疾病についての予防となる健康管理を行うことが可能となる。
例えば、糖尿病の罹患リスクを健康段階から判断できるようになるためには、HbA1cのような病気の進行度に比例して変化するデータは除いて、太っている(肥満)と言った疾病の進行によって変化しないしかしながらダメージとしては蓄積されて将来罹患するリスクを高める原因となりうるパラメータのデータは残して、クラスタリングをすることで実現できる。
上記記載は実施例についてなされたが、本発明はそれに限らず、本発明の原理と添付の請求の範囲の範囲内で種々の変更および修正をすることができることは当業者に明らかである。
【符号の説明】
【0068】
S10 学習データ取得ステップ
S20 フィルター処理ステップ
S21 第1フィルター処理ステップ
S22 第2フィルター処理ステップ
S30 学習ステップ
S40 マッピング処理ステップ
S50 表示ステップ
S60 検証ステップ
S70 判定ステップ
1 疾病リスク評価システム
10 データ処理部
11 第1フィルタリング部
12 第1クラスタリング部
13 第2フィルタリング部
14 第2クラスタリング部
15 マッピング部
16 比較部
20 データベース
21 学習データデータベース
22 AIパラメータデータベース
24 検証用データデータベース
30 データ入力端末
40 クラスタリングモデル記憶部
50 ユーザ端末