(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023111787
(43)【公開日】2023-08-10
(54)【発明の名称】A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造
(51)【国際特許分類】
G16H 50/20 20180101AFI20230803BHJP
G01N 33/49 20060101ALI20230803BHJP
G01N 33/48 20060101ALI20230803BHJP
【FI】
G16H50/20
G01N33/49 Z
G01N33/48 Z
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022013822
(22)【出願日】2022-01-31
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度、国立研究開発法人日本医療研究開発機構、「難治性疾患実用化研究事業」、「難治性副腎疾患の診療に直結するエビデンス創出」委託研究開発、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504160781
【氏名又は名称】国立大学法人金沢大学
(71)【出願人】
【識別番号】502235485
【氏名又は名称】医療法人医仁会
(74)【代理人】
【識別番号】100088904
【弁理士】
【氏名又は名称】庄司 隆
(74)【代理人】
【識別番号】100124453
【弁理士】
【氏名又は名称】資延 由利子
(74)【代理人】
【識別番号】100135208
【弁理士】
【氏名又は名称】大杉 卓也
(72)【発明者】
【氏名】米田 隆
(72)【発明者】
【氏名】唐島 成宙
(72)【発明者】
【氏名】米谷 充弘
(72)【発明者】
【氏名】南保 英孝
(72)【発明者】
【氏名】川上 将輝
(72)【発明者】
【氏名】成瀬 光栄
【テーマコード(参考)】
2G045
5L099
【Fターム(参考)】
2G045AA25
2G045CA26
2G045DB10
2G045JA03
5L099AA04
(57)【要約】 (修正有)
【課題】2つの疾患のどちらであるかを診断するための診断支援装置、診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造を提供することである。
【解決手段】診断支援装置は、データベースの両側性アルドステロン症患者(A疾患)の複数の生体測定データ及び片側性原発性アルドステロン症患者(B疾患)の複数の生体測定データを、それぞれ学習用データとして使用し、該学習用の複数の生体測定データから複数の学習用説明変数を生成した上で、A疾患又はB疾患の疑いのある被験者がA疾患又はB疾患のいずれかであることを予測(診断補助)又は判定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置であって、
A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を、それぞれ学習用データとして保存する学習用データ保存部と、
該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測するための学習モデルを構築するモデル構築部と、
A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを予測用データとして受理する予測用データ受理部と、及び
該予測用データ受理部により受理された該予測用データの生体測定データを、該モデル構築部により構築された該学習モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測又は判定する予測部と
を備えたことを特徴とする診断支援装置。
【請求項2】
前記学習用データ保存部に保存された学習用の生体測定データ群について、少なくとも1つ生体測定データが欠損している場合に、存在する他の生体測定データから、欠損している生体測定データを推定して補完する学習用欠損値補完部を更に備え、
前記モデル構築部は、該学習用欠損値補完部により補完されたA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該学習モデルを構築するモデル構築部である、請求項1に記載の診断支援装置。
【請求項3】
前記学習用データ保存部に保存された学習用の生体測定データ群について、該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群間で不均衡が生じている場合に、不均衡データ解消部を更に備え、
前記モデル構築部は、該A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群間の不均衡を解消した生体測定データ群又は該学習用欠損値補完部により補完されたA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群の不均衡を解消した生体測定データ群を用いて、該学習モデルを構築するモデル構築部である、請求項1又は2に記載の診断支援装置。
【請求項4】
前記モデル構築部は、複数の学習モデルから構築されている、請求項1~3のいずれか1に記載の診断支援装置。
【請求項5】
前記学習モデルは、以下のいずれか1以上から構築されている、請求項4に記載の診断支援装置。
1)ランダムフォレスト
2)K-Nearest Neighbor
3)Multi Layer Perceptron
4)Support Vector Machine
5)Logistic Regression
6)Naive Bayes
7)LightGBM
【請求項6】
前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症である、請求項1~5のいずれか1である診断支援装置。
【請求項7】
前記生体測定データは、以下のいずれか1の組み合わせである、請求項6に記載の診断支援装置。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【請求項8】
前記生体測定データは、副腎静脈サンプリング(AVS)及び/又は副腎CTスキャンを含まない、請求項6又は7に記載の診断支援装置。
【請求項9】
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用学習済みモデルであって、該学習済みモデルは、以下を含む。
1)学習用データとしてA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群、及び
2)該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いた機械学習により、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測又は判定するための学習済モデル
【請求項10】
前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
請求項9に記載の学習済みモデル。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【請求項11】
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援方法であって、該方法は以下の工程を含む診断支援方法。
1)A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて機械学習を行ってA疾患又はB疾患の判定可能な学習済モデルを生成する学習済モデル生成工程
2)A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを、該学習済モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測又は判定する工程。
【請求項12】
前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
請求項11に記載の診断支援方法。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【請求項13】
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援プログラムであって、該プログラムは以下の工程を含む診断支援プログラム。
1)A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いた機械学習を行ってA疾患又はB疾患の判定可能な学習済モデルを生成する学習済モデル生成工程
2)A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを、該学習済モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測又は判定する工程。
【請求項14】
前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
請求項13に記載の診断支援プログラム。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【請求項15】
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用データ構造であって、該データ構造は、以下を含む。
1)学習用データとしてA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群、及び
2)該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測又は判定するための学習済モデルのデータ。
【請求項16】
前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
請求項15に記載の診断支援用データ構造。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造に関する。
【背景技術】
【0002】
原発性アルドステロン症(PA)は、本態性高血圧と比較して心血管病の合併が多く日本人で約300万人の患者が推定されている高血圧疾患である。その約半数はアルドステロン産生腺腫(APA)というサブタイプで、病側副腎切除を行うことで治癒可能である。
しかし、従来、病型診断に至るまでは、順にスクリーニング検査、複数の確定検査、CTスキャン、副腎静脈カテーテル検査の施行が必要であり、その診断方法の煩雑さから診断まで至らず適切な治療を受けられない症例が多かった。
【0003】
非特許文献1では、原発性アルドステロン症サブタイプを予測するための人工知能システムを開示している。しかし、該システムは、本システムと比較して、1)使用するマーカーが異なる及び2)副腎CTスキャン検査結果が必要である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Artificial Intelligence Systems for Predicting Primary Aldosteronism Subtype. Journal of the Endocrine Society,Volume 3, Issue Supplement_1, April-May 2019, SUN-367
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、2つの疾患(特に、両側性アルドステロン症又は片側性原発性アルドステロン症)のどちらであるかを診断するための診断支援装置、診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造を提供することを課題とした。
【課題を解決するための手段】
【0006】
上記した課題を解決するために、本発明では、5000例近くの副腎疾患のデータベースの両側性アルドステロン症患者(A疾患)の複数の生体測定データ及び片側性原発性アルドステロン症患者(B疾患)の複数の生体測定データを、それぞれ学習用データとして使用し、該学習用の複数の生体測定データから複数の学習用説明変数を生成した上で、A疾患又はB疾患の疑いのある被験者がA疾患又はB疾患のいずれかであることを予測(診断補助)又は判定できる診断支援装置、診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造を構築した。
さらに、前記診断支援装置は、両側性アルドステロン症又は片側性原発性アルドステロン症の特定診断補助では、副腎静脈サンプリング(AVS)及び副腎CTスキャンの測定データを使用することなく、高い検出感度及び/又は高い特異度を有することを確認して、本発明を完成した。
【0007】
すなわち、本発明は以下の通りである。
1.A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置であって、
A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を、それぞれ学習用データとして保存する学習用データ保存部と、
該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測するための学習モデルを構築するモデル構築部と、
A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを予測用データとして受理する予測用データ受理部と、及び
該予測用データ受理部により受理された該予測用データの生体測定データを、該モデル構築部により構築された該学習モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測又は判定する予測部と
を備えたことを特徴とする診断支援装置。
2.前記学習用データ保存部に保存された学習用の生体測定データ群について、少なくとも1つ生体測定データが欠損している場合に、存在する他の生体測定データから、欠損している生体測定データを推定して補完する学習用欠損値補完部を更に備え、
前記モデル構築部は、該学習用欠損値補完部により補完されたA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該学習モデルを構築するモデル構築部である、前項1に記載の診断支援装置。
3.前記学習用データ保存部に保存された学習用の生体測定データ群について、該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群間で不均衡が生じている場合に、不均衡データ解消部を更に備え、
前記モデル構築部は、該A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群間の不均衡を解消した生体測定データ群又は該学習用欠損値補完部により補完されたA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群の不均衡を解消した生体測定データ群を用いて、該学習モデルを構築するモデル構築部である、前項1又は2に記載の診断支援装置。
4.前記モデル構築部は、複数の学習モデルから構築されている、前項1~3のいずれか1に記載の診断支援装置。
5.前記学習モデルは、以下のいずれか1以上から構築されている、前項4に記載の診断支援装置。
1)ランダムフォレスト
2)K-Nearest Neighbor
3)Multi Layer Perceptron
4)Support Vector Machine
5)Logistic Regression
6)Naive Bayes
7)LightGBM
6.前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症である、前項1~5のいずれか1である診断支援装置。
7.前記生体測定データは、以下のいずれか1の組み合わせである、請求項6に記載の診断支援装置。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
8.前記生体測定データは、副腎静脈サンプリング(AVS)及び/又は副腎CTスキャンを含まない、請求項6又は7に記載の診断支援装置。
9.A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用学習済みモデルであって、該学習済みモデルは、以下を含む。
1)学習用データとしてA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群、及び
2)該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いた機械学習により、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測又は判定するための学習済モデル
10.前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
前項9に記載の学習済みモデル。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
11.A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援方法であって、該方法は以下の工程を含む診断支援方法。
1)A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて機械学習を行ってA疾患又はB疾患の判定可能な学習済モデルを生成する学習済モデル生成工程
2)A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを、該学習済モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測又は判定する工程。
12.前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
前項11に記載の診断支援方法。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
13.A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援プログラムであって、該プログラムは以下の工程を含む診断支援プログラム。
1)A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いた機械学習を行ってA疾患又はB疾患の判定可能な学習済モデルを生成する学習済モデル生成工程
2)A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを、該学習済モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測又は判定する工程。
14.前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
前項13に記載の診断支援プログラム。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
15.A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用データ構造であって、該データ構造は、以下を含む。
1)学習用データとしてA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群、及び
2)該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測又は判定するための学習済モデルのデータ。
16.前記A疾患と前記B疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ前記生体測定データは、以下のいずれか1の組み合わせである、
前項15に記載の診断支援用データ構造。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【発明の効果】
【0008】
高い検出感度及び/又は特異度を有する2つの疾患(特に、両側性アルドステロン症又は片側性原発性アルドステロン症)のどちらであるかを診断補助するための診断支援装置、診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造を提供する。
【図面の簡単な説明】
【0009】
【
図1】第1の実施形態による診断支援装置の機能構成例を示すブロック図である。
【
図2】第2の実施形態による診断支援装置の機能構成例を示すブロック図である。
【
図3】第3の実施形態による診断支援装置の機能構成例を示すブロック図である。
【
図4】第4の実施形態による診断支援装置の機能構成例を示すブロック図である。
【
図5】各学習モデルに最適となる生体測定データの選択。(A)スクリーニングデータセット、(B)確認テストデータセットでの生体測定データの選択。
【
図6】アルドステロン産生腺腫の予測診断のための受信者動作特性曲線。(A)スクリーニングデータセット、(B)5つの最も重要な変数でのスクリーニングデータセット、及び(C)確認テストデータセットを使用したモデルの受信者動作特性曲線。
【発明を実施するための形態】
【0010】
(本発明の対象)
本発明は、2つの疾患(特に、両側性アルドステロン症又は片側性原発性アルドステロン症)のどちらであるかを診断補助するための診断支援装置、診断支援装置、診断支援用学習済みモデル、診断支援方法、診断支援プログラム及び診断支援用データ構造に関する。
【0011】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。
図1は、第1の実施形態によるA疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置1の機能構成例を示すブロック図である。
図1に示すように、第1の実施形態による診断支援装置1Aは、学習用データ保存部2、モデル構築部3、学習済モデル4、予測用データ受理部5及び予測部6の構成(機能ブロック)を含む。なお、説明の便宜上、各構成を分けているが、各構成は組み合わせても良いし、他を含んでも良い。以下の他の実施例でも同様である。
上記構成は、は、ハードウェア、ソフトウェア等の何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロックは、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスク又は半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また、各構成は、同一のハードウェアに搭載されている必要はなく、構成の一部が他の媒体(例、クラウド)に搭載されていても良い。以下の他の実施例でも同様である。
【0012】
〇学習用データ保存部2
学習用データ保存部2は、A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を、それぞれ学習用データとして受理する。
なお、学習用データの一部(例えば、約20%)を検証データとして分割する。以後、学習用データは、検証用データも含む。
分割方法としては、特に限定されないが、ホールドアウト法、クロスバリデーション、k-分割交差検証、Leave-One-Out等を使用することができる。
これらのデータは、例えば、公知の疾患データベース(例、難治性副腎疾患診療に直結するエビデンス創出(JRAS)の疾患レジストリデータベース)から入手可能である。
【0013】
〇生体測定データ
生体測定データは、A疾患患者及び/又はB疾患患者から得られるあらゆるデータである生体測定データを対象とする。例えば、以下の表1のデータを例示することができる。
【0014】
【0015】
上記表1の略語は、以下の通りである。降圧薬のATC/DDD指標は、Anatomical Therapeutic Chemical/Daily Defined Dose Index 2020に従って算出した。ARR:aldosterone-to-renin ratio(アルドステロン濃度/レニン活性比)、BMI:ボディマスインデックス、BUN:血中尿素窒素、CCT:カプトプリル負荷試験、CKD:慢性腎臓病、DBP:拡張期血圧、eGFR:推算糸球体濾過値、FBS:空腹時血糖、FUT:フロセミド立位負荷試験、IHD:虚血性心疾患、NGSP:National Glycohemoglobin Standardization Program、PA:原発性アルドステロン症、PAC:血漿アルドステロンレベル、PRA:血漿レニン活性、SAS:睡眠時無呼吸症候群、SBP:収縮期血圧、s-Cl:血清塩化物値、s-K:血清カリウム値、s-Na:血清ナトリウム値、s-UA:血清尿酸値。
【0016】
〇モデル構築部3
モデル構築部3は、必要に応じて、学習用データ保存部2で受理した学習用のA疾患患者の複数の生体測定データ及びB疾患患者の複数の生体測定データから複数の学習用説明変数を生成する。すなわち、複数の生体測定データを合成又は変換し、新しい説明変数を生成する。新しい説明変数を作る方法は、例えば、標準化、因子分析、単回帰、重回帰による残差計算、主成分分析、四則計算、平均、分散、標準偏差などの特徴量エンジニアリングで生成されるものの一部又は全部である。
モデル構築部3は、学習用データ保存部2で受理した学習用のA疾患患者の複数の生体測定データ及びB疾患患者の複数の生体測定データ、必要に応じて、該生成した説明変数を用いて(以下、学習用説明変数も含めて学習用データという場合がある)、生体測定データからA疾患又はB疾患の診断補助を導くための学習モデルを構築する。
さらに、構築した学習モデルを学習済モデル4に記憶させる。
【0017】
モデル構築部3は、上記の学習用データを用いて公知の機械学習を適用することにより、学習モデルを構築する。例えば、ランダムフォレスト、K-Nearest Neighbor、Multi Layer Perceptron、Support Vector Machine、Logistic Regression、Naive Bayes、LightGBM等を使用することができる。
【0018】
〇学習済モデル4
学習済モデル4は、モデル構築部3で構築した学習モデルを保存、更新等を行う。学習済モデル4は、モデル構築部3で学習を繰り返すことによって、学習モデルを更新する機能も有する。
【0019】
〇予測用データ受理部5
予測用データ受理部5は、対象者(A疾患又はB疾患の疑いのある被験者)の生体測定データを予測用データとして入力する。なお、対象者は、好ましくは、生体測定データを得られているが、A疾患又はB疾患のどちらであるかは診断(確定診断)されていない場合を主に対象とする。
【0020】
〇予測部6
予測部6は、必要に応じて、予測用データ受理部5で受理した予測用データから複数の予測用説明変数を生成する。該説明変数は、モデル構築部3で使用した方法を採用することができる。
予測部6は、予測用データ受理部5で受理した生体測定データ及び複数の予測用説明変数を、学習済モデル4に記憶された学習モデルに適用することにより、対象者がA疾患又はB疾患のどちらであるかの予測(診断補助)を行う。
さらに、予測部6は、予測結果をAUC(Area Under the Curve)、検出感度、特異度、PPV(陽性的中率)、NPV(陰性的中率)、F値及び正解率等を予測結果として出力する。
【0021】
第1の実施形態によれば、A疾患患者の複数の生体測定データ及びB疾患患者の複数の生体測定データに基づいて構築された学習モデルを利用して、対象者に関する生体測定データをもとに、該対象者がA疾患又はB疾患のどちらであるかの予測(診断補助)を行うことができる。
【0022】
(第2の実施形態)
本発明の第2の実施形態を
図2に基づいて説明する。
図2は、第2の実施形態によるA疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置1Bの機能構成例を示すブロック図である。なお、この
図2において、
図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0023】
〇学習用欠損値補完部7
第2の実施形態では、第1の実施態様に加えて、学習用欠損値補完部7を含む。
学習用欠損値補完部7は、学習用データ保存部2で受理した学習用生体測定データについて、少なくとも1つの生体測定値が欠損している場合に、存在する他の生体測定値から、欠損している生体測定値を推定して補完する。
すなわち、学習用欠損値補完部7は、学習用生体測定データに欠損値がある場合に、存在する他の生体測定値を用い、機械学習によって推定することで欠損値を補完する。適用する機械学習は、例えば、Random Forest(MissForest)を採用することができる。
【0024】
〇予測用欠損値補完部8
対象者(A疾患又はB疾患の疑いのある被験者)の生体測定データについて、少なくとも1つの生体測定値が欠損している場合に、存在する他の生体測定値から、欠損している生体測定値を推定して補完する予測用欠損値補完部7を有しても良い。
【0025】
第2の実施形態によれば、学習用データに欠損値がある場合はこれを補完した上で、説明変数の生成、学習モデルの構築及び対象者の疾患診断補助を行うことができる。
【0026】
(第3の実施形態)
本発明の第3の実施形態を
図3に基づいて説明する。
図3は、第3の実施形態によるA疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置1Cの機能構成例を示すブロック図である。なお、この
図3において、
図1及び
図2に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0027】
〇不均衡データ解消部9
第3の実施形態では、第1、第2の実施態様に加えて、不均衡データ解消部9を含む。
不均衡データ解消部9は、学習用データ保存部2で受理した学習用生体測定データについて、不均衡が生じている場合に、不均衡を解消する。
すなわち、不均衡データ解消部9は、学習用生体測定データに不均衡がある場合に、オーバーサンプリング(例、SMOTE)、アンダーサンプリング等を採用して、不均衡を解消する。
【0028】
第3の実施形態によれば、学習用データに不均衡がある場合はこれを解消した上で、説明変数の生成、学習モデルの構築及び対象者の疾患診断補助を行うことができる。
【0029】
(第4の実施形態)
本発明の第4の実施形態を
図4に基づいて説明する。
図4は、第4の実施形態によるA疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援装置1Dの機能構成例を示すブロック図である。なお、この
図4において、
図1、
図2及び
図3に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0030】
第4の実施形態では、モデル構築部3では、複数の学習モデル(アンサンブル学習モデル)から構築されている。複数の学習モデルとして、1)ランダムフォレスト、2)K-Nearest Neighbor、3)Multi Layer Perceptron、4)Support Vector Machine、5)Logistic Regression、6)Naive Bayes及び7)LightGBM等を例示することができる。
各モデルの結果を組み合わせた最終予測結果の算出方法としては、以下を例示することができる。
1)予測確率を平均し、0.5を閾値としてA疾患もしくはB疾患に分類する。各学習モデルの結果は同じ重みで足し合わして、平均化する。
2)主学習モデルと従学習モデルに分けて、各学習モデルの個別の重みを付加して、総合点で評価する。
なお、各学習モデルでは、同じマーカー(生体測定データ)を使用することが好ましいが、各学習モデルに最適なマーカーを設定しても良い。例えば、ランダムフォレストを使用した学習モデルで選択した複数のマーカーを他の学習モデルでも採用する。
【0031】
第4の実施形態によれば、複数の学習モデルの結果を総合して予測するので、精度の高い対象者の疾患診断補助を行うことができる。
【0032】
(マーカーの重要度の設定方法)
マーカーの重要度の設定方法は、公知の方法を採用することができるが、以下を例示することができる。
ランダムフォレストを採用する場合、ジニ係数による重要度によりマーカーの重要度を設定できる。ジニ係数は小さいほど、正しくデータを分割できていると判断できる。具体的には、決定木を構築する際にどのマーカーを用いてデータを分割したかによってどれだけジニ係数が下がったかを算出することで、大きく下がったマーカーほど重要度が高いと判断できる。
【0033】
(ハイパーパラメータの調整)
本実施形態で使用した学習モデルでは、グリッドサーチ、ランダムサーチ及びベイズ最適化等の公知の方法により、ハイパーパラメータの調整(チューニング)を実施することができる。例えば、以下のようにベイズ最適化によるチューニングを行うことができる。
1)ランダムフォレスト:決定木の数と深さ
2)K-Nearest Neighbor:ラベルを決定するために考慮する近傍サンプルの数
3)Multi Layer Perceptron:隠れ層の数とニューロンの数、正則化パラメータ
4)Support Vector Machine:正則化の強さ、RBFカーネルの係数
5)Logistic Regression:正則化の強さ
7)LightGBM:正則化の強さ、決定木の数と深さ
【0034】
(A疾患とB疾患の組み合わせ)
本明細書でのA疾患とB疾患の組み合わせは、対象者(被験者)がA疾患とB疾患のどちらであるかに疑いがある場合を主に対象としている。本実施例では、被験者は原発性アルドステロン症患者であると診断されて、両側性アルドステロン症(A疾患)と片側性原発性アルドステロン症(B疾患)を例示したが、特に限定されない。
【0035】
(両側性アルドステロン症又は片側性原発性アルドステロン症の特定診断補助)
以下の本実施例により、両側性アルドステロン症又は片側性原発性アルドステロン症の特定診断補助は、以下の生体測定データにより行うことができることを確認している。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
カリウム製剤(特に、原発性アルドステロン症治療に起因する低カリウム血症治療用カリウム製剤)補充前血清K値(未治療時血清K値)とは、例えば、原発性アルドステロン症治療前の血清K値を意味する。
K製剤投与量とは、例えば、原発性アルドステロン症治療時に使用したK製剤投与量を意味する。なお、K製剤を投与していない場合には、0となる。
血清K値とは、時期は限定されず、各疾患が疑われた時の測定値(例えば、アルドステロン症の診断時の測定値)、生検取得時(スクリーニング時)の測定値、カリウム製剤補充後の測定値であっても良い。
PAC(血漿アルドステロンレベル)とは、時期は限定されず、各疾患が疑われた時の測定値(例えば、アルドステロン症の診断時の測定値)、生検取得時(スクリーニング時)の測定値、カリウム製剤補充後の測定値であっても良く、好ましくは、日本高血圧学会の高血圧治療ガイドラインに準じて、レニンやアルドステロンに影響を与える内服薬を中止又は変更した時の測定値を採用する。
ARR(アルドステロン濃度/レニン活性比)とは、時期は限定されず、各疾患が疑われた時の測定値(例えば、アルドステロン症の診断時の測定値)、生検取得時(スクリーニング時)の測定値、カリウム製剤補充後の測定値であっても良く、好ましくは、日本高血圧学会の高血圧治療ガイドラインに準じて、レニンやアルドステロンに影響を与える内服薬を中止又は変更した時の測定値を採用する。
上記測定データは、従来確定診断に使用されている副腎静脈サンプリング及び副腎CTスキャンの測定データを含んでいない。
【0036】
(A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用学習済みモデル)
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用学習済みモデは、以下を含む。
1)学習用データとしてA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群
2)該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いた機械学習により、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測するための学習済モデル
学習済モデルの特定の実施態様として、A疾患とB疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ生体測定データは、以下のいずれか1の組み合わせである。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【0037】
(A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援方法)
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援方法は以下の工程を含む。
1)A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて機械学習を行ってA疾患又はB疾患の判定可能な学習済モデルを生成する学習済モデル生成工程
2)A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを、該学習済モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測する工程
診断支援方法の特定の実施態様として、A疾患とB疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ生体測定データは、以下のいずれか1の組み合わせである。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【0038】
(A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援プログラム)
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援プログラムは以下の工程を含む。
1)A疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いた機械学習を行ってA疾患又はB疾患の判定可能な学習済モデルを生成する学習済モデル生成工程
2)A疾患又はB疾患の疑いのある被験者の1又は複数の生体測定データを、該学習済モデルに適用することにより、該被験者がA疾患又はB疾患のいずれかであることを予測する工程。
診断支援プログラムの特定の実施態様として、A疾患とB疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ生体測定データは、以下のいずれか1の組み合わせである。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【0039】
(A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用データ構造)
A疾患又はB疾患の疑いのある被験者のA疾患又はB疾患の診断支援用データ構造は、以下を含む。
1)学習用データとしてA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群
2)該学習用のA疾患患者の複数の生体測定データ群及びB疾患患者の複数の生体測定データ群を用いて、該生体測定データ群を含む説明変数から該A疾患又はB疾患のいずれか1であるかを予測するための学習済モデルのデータ
診断支援用データ構造の特定の実施態様として、A疾患とB疾患の組み合わせは、両側性アルドステロン症と片側性原発性アルドステロン症であり、かつ生体測定データは、以下のいずれか1の組み合わせである。
1)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR、PAC、
2)カリウム製剤補充前血清K値、血清K値、K製剤投与量、ARR
3)カリウム製剤補充前血清K値、血清K値、K製剤投与量
4)カリウム製剤補充前血清K値、血清K値
5)カリウム製剤補充前血清K値
【0040】
以下、実施例を挙げて本発明を説明するが、本発明はこれら実施例により何ら限定されるものではない。以下の実施例は、国立病院機構京都医療センターの倫理委員会(主導施設)及びJRAS参加施設の倫理委員会で承認されている。
【実施例0041】
本実施例では、両側性アルドステロン症であると確定診断された患者と片側性原発性アルドステロン症であると確定診断された患者の生体測定データを学習用データとして、2つの疾患のどちらであるかを診断補助するための高精度アンサンブル学習モデルを構築した。
【0042】
(使用した患者データ)
2006年1月~2018年12月にAVS(副腎静脈サンプリング)によりPA(原発性アルドステロン症)と診断されている20~90歳の男性又は女性患者をJRASに登録した。オンライン登録システムを用いて、臨床的特徴、生化学的所見、及び確認検査の結果を電子的に収集した。システム構築、データセキュリティ、レジストリデータの維持管理は、EPS Corporationに委託した。
本実施例は、2020年3月に検証されたデータセットを用いて行われた。臨床的特徴、生化学、AVSを含むデータのある患者を対象とした。日本内分泌協会及び日本高血圧学会ガイドラインに従ってPAを診断した。
【0043】
(使用した学習用データセット)
JRASデータベースには、PA診断基準:身体所見;既往歴;電解質、腎機能、糖代謝、脂質代謝パラメータ;スクリーニング時のアルドステロン対レニン比(ARR);及び確認検査結果が含まれている。
【0044】
(統計解析)
データは平均値±標準偏差(SD)又はパーセンテージで表された。APAとBAHの相違点を解析した。正規性検定にはShapiro-Wilk検定を用いた。正規性が拒否された場合は、Mann-Whitney U 検定を使用した。正規性が受け入れられた場合、Bartlett試験を用いて等分散性の検定に使用した。等分散が見つかった場合にはスチューデントのt検定を使用し、等分散が見つからなかった場合にはウェルチのt検定を使用した。P<0.05は統計的に有意とした。
【0045】
(学習モデルの構築)
アルゴリズム開発プロセスには、1)データ作成、2)モデル構築と評価の一般的なプロセスが含む。合計7つの機械学習プログラム(ランダムフォレスト、K-Nearest Neighbor、Multi Layer Perceptron、Support Vector Machine、Logistic Regression、Naive Bayes及びLightGBM)を使用した。LightGBM以外の6つのアルゴリズムは、MissForestを用いてデータベース中の欠測値を補完して開発した。これらの7つの機械学習プログラムを組み合わせて1つの高精度アンサンブル学習モデルとした。
【0046】
(結果)
1)患者特性
合計4057名のPA患者をJRASデータベースに登録した。選択基準と除外基準に基づき、APAとBAHのそれぞれ545人と1352人の患者のデータを本実施例で使用した。以下表2に、APA及びBAH患者のベースライン特性と欠測値の割合を示す。
【0047】
【0048】
上記表2のデータは、平均(SD)又はパーセンテージで表示されている。降圧薬のATC/DDD指標は、Anatomical Therapeutic Chemical/Daily Defined Dose Index 2020に従って算出した。*, BAHに対してp<0.05;**、BAHに対してp<0.01;***、BAHに対してp<0.001。APA:アルドステロン産生腺腫、ARR:aldosterone-to-renin ratio(アルドステロン濃度/レニン活性比)、BAH:両側副腎過形成、BMI:ボディマスインデックス、BUN:血中尿素窒素、CCT:カプトプリル負荷試験、CKD:慢性腎臓病、DBP:拡張期血圧、eGFR:推算糸球体濾過値、FBS:空腹時血糖、FUT:フロセミド立位負荷試験、IHD:虚血性心疾患、NGSP:National Glycohemoglobin Standardization Program、PA:原発性アルドステロン症、PAC:血漿アルドステロンレベル、PRA:血漿レニン活性、SAS:睡眠時無呼吸症候群、SBP:収縮期血圧、s-Cl:血清塩化物値、s-K:血清カリウム値、s-Na:血清ナトリウム値、s-UA:血清尿酸値。
【0049】
2)特徴量重要度解析
以下表3は、スクリーニング及び確認テストデータセットのRF(ランダムフォレスト)モデルにおける機能重要度ランキングと重要度スコアを示している。スクリーニング検査データセットの5つの最も重要な変数(説明変数)は、初回来院時の血清カリウム値、補給時の血清カリウム値、PAC、ARR、及びカリウム補給用量であり、確認検査データセットの5つの最も重要な変数(説明変数)は、初回来院時の血清カリウム値、カプトプリル負荷試験における60,90分でのPAC、フロセミド立位負荷試験における0分でのPAC、及び補給時の血清カリウム値であった。
図5は、2つのデータセットにおける7つのMLAの変数数と平均AUCの関係を示している。スクリーニングデータセットにおいて、RF、MLP、LightGBM、SVM、LR、KNN、及びNBは、それぞれ19、12、13、12、12、7、及び9変数を用いて最良の平均AUCを示した。確認試験データセットでは、RF、MLP、LightGBM、SVM、LR、KNN、及びNBは、それぞれ23、19、25、21、21、7、及び10変数を用いて、最良の平均AUCを示した。
従って、本発明者らは、最良性能予測モデルを開発するために確認テストデータセットで得られた変数の数を選択した。
【0050】
【0051】
3)アンサンブル学習の結果
7つのMLAと3つのデータセット(スクリーニング用データ、5つの重要な変数のデータ及び検証用データ)を組み合わせて、3つのアンサンブル学習モデルを開発した。
図6は、スクリーニング検査データセット、5つの最も重要な変数でのスクリーニングデータセットの及び確認テストデータセットを使用したAPA予測モデルの中央値受信者操作特性曲線を示している。スクリーニング検査データセットのAUCは0.898±0.040であり、最も重要な5つの変数モデルのAUC値は0.886±0.044であった(参照:表4)。
確認試験データセットで構築したモデルに関し、他の2つのデータセットのと比較して、AUC値が0.914±0.041と良好であった。7つのMLAのみの予測性能は、表5に示されている。最高平均AUCは、RFで0.914±0.042であった。
以上により、2つの疾患の特定診断補助するための高精度かつ高特異度のアンサンブル学習モデルを構築した。
特に、両側性アルドステロン症又は片側性原発性アルドステロン症の特定診断補助では、副腎静脈サンプリング(AVS)及び副腎CTスキャンの測定データを使用することなく、
高い検出感度及び/又は高い特異度を有することを確認した。
【0052】
【0053】