特許第6548243号(P6548243)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社キャンサースキャンの特許一覧

特許6548243健康診断受診確率計算方法及び健診勧奨通知支援システム
<>
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000002
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000003
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000004
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000005
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000006
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000007
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000008
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000009
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000010
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000011
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000012
  • 特許6548243-健康診断受診確率計算方法及び健診勧奨通知支援システム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6548243
(24)【登録日】2019年7月5日
(45)【発行日】2019年7月24日
(54)【発明の名称】健康診断受診確率計算方法及び健診勧奨通知支援システム
(51)【国際特許分類】
   G06Q 50/26 20120101AFI20190711BHJP
   G16H 40/20 20180101ALI20190711BHJP
【FI】
   G06Q50/26
   G16H40/20
【請求項の数】14
【全頁数】16
(21)【出願番号】特願2018-203585(P2018-203585)
(22)【出願日】2018年10月30日
【審査請求日】2018年10月30日
【早期審査対象出願】
(73)【特許権者】
【識別番号】515157769
【氏名又は名称】株式会社キャンサースキャン
(74)【代理人】
【識別番号】100139033
【弁理士】
【氏名又は名称】日高 賢治
(72)【発明者】
【氏名】米倉章夫
(72)【発明者】
【氏名】三澤大太郎
(72)【発明者】
【氏名】松谷拓弥
【審査官】 上田 威
(56)【参考文献】
【文献】 特開2013−206337(JP,A)
【文献】 特表2016−519807(JP,A)
【文献】 国際公開第2017/183587(WO,A1)
【文献】 米国特許出願公開第2013/0159023(US,A1)
【文献】 国際公開第2013/161191(WO,A1)
【文献】 国際公開第2016/207862(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 − 99/00
G16H 10/00 − 80/00
(57)【特許請求の範囲】
【請求項1】
被保険者の健康診断受診確率の計算方法であって、
確率計算の基礎データとなる母集団を、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、
前記健診データを基に、コンピューターが被保険者の受診行動を予測する処理プログラムを含み、
前記コンピューターは、前記処理プログラムに従い、
第一ステップとして、
全ての前記健診データから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、
直近の1年分を除いたm−1年分のデータを、x個の説明変数を持つデータに加工し、
第二ステップとして、
当該m−1年分の前記健診データ及び直近1年分の健診受診の有無を教師データとして用いて学習を行い、
第三ステップとして、
前記学習により構築したモデルによって、特定の単独自治体又は特定の単独健保組合に加入する個々の被保険者の受診確率を算出する、
ことを特徴とする被保険者の健康診断受診確率計算方法。
【請求項2】
前記処理プログラムのアルゴリズムはランダムフォレストであり、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する前記健診データの中から、a個のサンプルをランダムに抽出し、x個の説明変数からb個の説明変数をランダムに抽出してy個の決定木を作成し、y個全ての前記決定木のアンサンブルにより、前記個々の被保険者の受診確率を算出する、
ことを特徴とする請求項1に記載の被保険者の健康診断受診確率計算方法。
【請求項3】
前記処理プログラムのアルゴリズムはディープラーニングであり、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する前記健診データを基にし、誤差関数に交差エントロピーを用い、最適化学習にAdamを用いて、前記個々の被保険者の受診確率を算出する、
ことを特徴とする請求項1に記載の被保険者の健康診断受診確率計算方法。
【請求項4】
x個の前記説明変数は、生年月日、性別、身長、体重、各種問診結果、各種検査値等を加工して作成した、43個以上の項目である、
ことを特徴とする請求項1ないし3のいずれか1項に記載の被保険者の健康診断受診確率計算方法。
【請求項5】
被保険者の健康診断受診確率の計算方法であって、
確率計算の基礎データとなる母集団を、複数の自治体又は複数の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、
前記健診データを基に、コンピューターが被保険者の受診行動を予測する処理プログラムを含み、
前記コンピューターは、前記処理プログラムに従い、
第一ステップとして、
複数の保険者の前記健診データから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、
直近の1年分を除いたm−1年分のデータをx個の説明変数を持つデータに加工し、
アルゴリズムはディープラーニングであり、
当該m−1年分のデータ及び直近1年での健診受診の有無を教師データとして用いることで、複数のレイヤーに対応する複数の重みWiを学習して第一特徴量を作成し、
第二ステップとして、
特定の単独自治体又は特定の単独健保組合等の前記健診データのみを抽出し、アルゴリズムにトランスファーラーニングを用いて前記第一ステップで作成した前記重みWiの一部を調整した第二特徴量を作成し、
第三ステップとして、
前記第二特徴量に基づいたモデルによって、前記特定の単独自治体又は前記特定の単独健保組合等に加入する個々の被保険者の受診確率を算出する、
ことを特徴とすることを特徴とする被保険者の健康診断受診確率計算方法。
【請求項6】
前記ディープラーニングは、誤差関数に交差エントロピーを用い、最適化学習にAdamを用い、
前記トランスファーラーニングは、誤差関数に交差エントロピーを用い、最適化学習にAdagradを用いている、
ことを特徴とする請求項5に記載の被保険者の健康診断受診確率計算方法。
【請求項7】
x個の前記説明変数は、生年月日、性別、身長、体重、各種問診結果、各種検査値等を加工して作成した、43個以上の項目である、
ことを特徴とする請求項5又は6に記載の被保険者の健康診断受診確率計算方法。
【請求項8】
自治体又は健保組合等が実施する健康診断の受診を促す被保険者への勧奨通知を、受診確率計算に基づいて効率的に行う健診勧奨通知支援システムであって、
複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する被保険者が受診した過去n年(nは3以上の整数)の健康診断の結果が蓄積された健診データベースと、
前記健診データベースに蓄積されているデータを基に被保険者の受診行動を予測する処理プログラムが記録されているサーバーと、を備え、
前記サーバーは、前記処理プログラムに従い、
第一ステップとして、
前記健診データベースから複数又は単独の自治体、或いは複数又は単独の健保組合等の過去m年(mは3以上の整数、m≦n)分のデータを抽出し、
直近の1年分を除いたm−1年分のデータを、x個の説明変数を持つデータに加工し、
第二ステップとして、
当該m−1年分のデータ及び直近1年での健診受診の有無を教師データとして用いて学習を行い、
第三ステップとして、
前記学習により構築したモデルによって、特定の自治体又は特定の健保組合等に加入する個々の被保険者の受診確率を算出し、
第四ステップとして、
前記特定の自治体又は前記特定の健保組合等が定めた所定の高確率値以上及び所定の低確率値以下を除く中間確率値の被保険者に対してのみ、又は予め定めた所定数の中間確率値の被保険者に対してのみ、勧奨通知対象リストを作成する、
ことを特徴とする健診勧奨通知支援システム。
【請求項9】
前記処理プログラムのアルゴリズムはランダムフォレストであり、複数又は単独の自治体、或いは複数又は単独の健保組合等の前記健診データベースに蓄積されているデータの中から、a個のサンプルをランダムに抽出し、x個の説明変数からb個の説明変数をランダムに抽出してy個の決定木を作成し、y個全ての前記決定木のアンサンブルにより、前記個々の被保険者の受診確率を算出する、
ことを特徴とする請求項8に記載の健診勧奨通知支援システム。
【請求項10】
前記処理プログラムのアルゴリズムはディープラーニングであり、前記健診データベースに蓄積されている複数又は単独の自治体、或いは複数又は単独の健保組合等の前記健診データベースに蓄積されているデータを基にして、誤差関数に交差エントロピーを用い、最適化学習にAdamを用いて、前記個々の被保険者の受診確率を算出する、
ことを特徴とする請求項8に記載の健診勧奨通知支援システム。
【請求項11】
x個の前記説明変数は、生年月日、性別、身長、体重、各種問診結果、各種検査値等を加工して作成した、43個以上の項目である、
ことを特徴とする請求項8ないし10のいずれか1項に記載の健診勧奨通知支援システム。
【請求項12】
自治体又は健保組合等が実施する健康診断の受診を促す被保険者への勧奨通知を、受診確率計算に基づいて効率的に行う健診勧奨通知支援システムであって、
複数の自治体又は複数の健保組合等が保有する被保険者が受診した過去n年(nは3以上の整数)の健康診断の結果が蓄積された健診データベースと、
前記健診データベースに蓄積されているデータを基に被保険者の受診行動を予測する処理プログラムが記録されているサーバーと、を備え、
前記サーバーは、前記処理プログラムに従い、
第一ステップとして、
前記健診データベースから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、
直近の1年分を除いたm−1年分のデータの中からx個の説明変数を持つデータに加工し、
アルゴリズムはディープラーニングであり、
当該m−1年分のデータ及び直近1年での健診受診の有無を教師データとして用いることで、複数のレイヤーに対応する複数の重みWiを学習して第一特徴量を作成し、
第二ステップとして、
特定の自治体又は特定の健保組合等のデータのみを抽出し、アルゴリズムにトランスファーラーニングを用いて前記第一ステップで作成した前記重みWiの一部を調整した第二特徴量を作成し、
第三ステップとして、
前記第二特徴量に基づいたモデルによって、前記特定の自治体又は前記特定の健保組合等に加入する個々の被保険者の受診確率を算出し、
第四ステップとして、
前記特定の自治体又は前記特定の健保組合等が定めた所定の高確率値以上及び所定の低確率値以下を除く中間確率値の被保険者に対してのみ、又は予め定めた所定数の中間確率値の被保険者に対してのみ、勧奨通知対象リストを作成する、
ことを特徴とする健診勧奨通知支援システム。
【請求項13】
前記ディープラーニングは、誤差関数に交差エントロピーを用い、最適化学習にAdamを用い、
前記トランスファーラーニングは、誤差関数に交差エントロピーを用い、最適化学習にAdagradを用いている、
ことを特徴とする請求項12に記載の健診勧奨通知支援システム。
【請求項14】
x個の前記説明変数は、生年月日、性別、身長、体重、各種問診結果、各種検査値等を加工して作成した、43個以上の項目である、
ことを特徴とする請求項12又は13に記載の健診勧奨通知支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療保険機関が実施する健康診断の受診を促す被保険者への勧奨通知の効率化を支援するための健康診断受診確率計算方法及び健診勧奨通知支援システムに関する。
【背景技術】
【0002】
我が国における医療費は毎年増加し続け、既に40兆円を突破し、高齢化の進展に伴って今後も増え続けることが予想されている。中でも、国民の多数が加入する国民健康保険は、主として地方自治体(都道府県及び市区町村)が運営する公的保険であり、医療費の増加は、自治体の財政及び国家財政に対して大きな負担となっている。
【0003】
増え続ける医療費の削減に向けて、各自治体は被保険者である住民の健康維持、病気の早期発見・早期治療を目的とした特定健診、特定保健指導を毎年実施しているものの、告知や通知によっても受診しない住民が多数存在する。
【0004】
こうした状況を踏まえ、各自治体は、受診を促す勧奨通知を郵送しているが、予算や人員の制約があるため、全ての被保険者に通知する余裕が無く、限られた予算及び人員の中で、最も効果的な勧奨通知を行うことが求められている。
【0005】
従来、被保険者の健康状態に基づいて実施した保健事業の評価を支援するシステム(特許文献1)、複数の対象者の所定期間における健康診断の測定値又は受診履歴に基づいて対象者の新たな健診情報に基づく値とモデルとを用いてリスクの評価値を算出するシステム(特許文献2)、ある健康診断を受診可能な複数の団体に含まれるそれぞれの団体の検診の過去の受診率情報に応じて団体の組み合わせを決定し、該決定した組合せに含まれる団体を前記ある健康診断を受診する対象の団体として抽出するシステム(特許文献3)等が知られているが、効果的な健診勧奨通知を支援するシステムは存在しなかった。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2016−177644号公報
【特許文献2】特開2017−117469号公報
【特許文献3】特開2014−102797号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上記した課題を解決するため、過去の健診データを基にして、特定の国民健康保険又は特定の健保組合等に加入する被保険者の受診確率を計算し、勧奨通知をしなくても健康診断を受診する可能性の高い者、又は勧奨通知をしても健康診断を受診する可能性の低い者を特定して排除し、残った被保険者、即ち、勧奨通知をすることによって受診する可能性がある者を確度高く選定し、勧奨通知業務を効率化することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本願の第一の発明は、被保険者の健康診断受診確率の計算方法であって、確率計算の基礎データとなる母集団を、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、前記健診データを基に、コンピューターが被保険者の受診行動を予測する処理プログラムを含み、前記コンピューターは、前記処理プログラムに従い、第一ステップとして、全ての前記健診データから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、直近の1年分を除いたm−1年分のデータを、x個の説明変数を持つデータに加工し、第二ステップとして、当該m−1年分の前記健診データ及び直近1年分の健診受診の有無を教師データとして用いて学習を行い、第三ステップとして、前記学習により構築したモデルによって、特定の単独自治体又は特定の単独健保組合に加入する個々の被保険者の受診確率を算出する、ことを特徴とする。
【0009】
また本願の第二の発明は、被保険者の健康診断受診確率の計算方法であって、確率計算の基礎データとなる母集団を、複数の自治体又は複数の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、前記健診データを基に、コンピューターが被保険者の受診行動を予測する処理プログラムを含み、前記コンピューターは、前記処理プログラムに従い、第一ステップとして、複数の保険者の前記健診データから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、直近の1年分を除いたm−1年分のデータをx個の説明変数を持つデータに加工し、アルゴリズムはディープラーニングであり、当該m−1年分のデータ及び直近1年での健診受診の有無を教師データとして用いることで、複数のレイヤーに対応する複数の重みWiを学習して第一特徴量を作成し、第二ステップとして、特定の単独自治体又は特定の単独健保組合等の前記健診データのみを抽出し、アルゴリズムにトランスファーラーニングを用いて前記第一ステップで作成した前記重みWiの一部を調整した第二特徴量を作成し、第三ステップとして、前記第二特徴量に基づいたモデルによって、前記特定の単独自治体又は前記特定の単独健保組合等に加入する個々の被保険者の受診確率を算出する、ことを特徴とする。
【0010】
また本願の第三の発明は、自治体又は健保組合等が実施する健康診断の受診を促す被保険者への勧奨通知を、受診確率計算に基づいて効率的に行う健診勧奨通知支援システムであって、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する被保険者が受診した過去n年(nは3以上の整数)の健康診断の結果が蓄積された健診データベースと、前記健診データベースに蓄積されているデータを基に被保険者の受診行動を予測する処理プログラムが記録されているサーバーと、を備え、前記サーバーは、前記処理プログラムに従い、第一ステップとして、前記健診データベースから複数又は単独の自治体、或いは複数又は単独の健保組合等の過去m年(mは3以上の整数、m≦n)分のデータを抽出し、直近の1年分を除いたm−1年分のデータを、x個の説明変数を持つデータに加工し、第二ステップとして、当該m−1年分のデータ及び直近1年での健診受診の有無を教師データとして用いて学習を行い、第三ステップとして、前記学習により構築したモデルによって、特定の自治体又は特定の健保組合等に加入する個々の被保険者の受診確率を算出し、第四ステップとして、前記特定の自治体又は前記特定の健保組合等が定めた所定の高確率値以上及び所定の低確率値以下を除く中間確率値の被保険者に対してのみ、又は予め定めた所定数の中間確率値の被保険者に対してのみ、勧奨通知対象リストを作成する、ことを特徴とする。
【0011】
また本願の第四の発明は、自治体又は健保組合等が実施する健康診断の受診を促す被保険者への勧奨通知を、受診確率計算に基づいて効率的に行う健診勧奨通知支援システムであって、複数の自治体又は複数の健保組合等が保有する被保険者が受診した過去n年(nは3以上の整数)の健康診断の結果が蓄積された健診データベースと、前記健診データベースに蓄積されているデータを基に被保険者の受診行動を予測する処理プログラムが記録されているサーバーと、を備え、前記サーバーは、前記処理プログラムに従い、第一ステップとして、前記健診データベースから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、直近の1年分を除いたm−1年分のデータの中からx個の説明変数を持つデータに加工し、アルゴリズムはディープラーニングであり、当該m−1年分のデータ及び直近1年での健診受診の有無を教師データとして用いることで、複数のレイヤーに対応する複数の重みWiを学習して第一特徴量を作成し、第二ステップとして、特定の自治体又は特定の健保組合等のデータのみを抽出し、アルゴリズムにトランスファーラーニングを用いて前記第一ステップで作成した前記重みWiの一部を調整した第二特徴量を作成し、第三ステップとして、前記第二特徴量に基づいたモデルによって、前記特定の自治体又は前記特定の健保組合等に加入する個々の被保険者の受診確率を算出し、第四ステップとして、前記特定の自治体又は前記特定の健保組合等が定めた所定の高確率値以上及び所定の低確率値以下を除く中間確率値の被保険者に対してのみ、又は予め定めた所定数の中間確率値の被保険者に対してのみ、勧奨通知対象リストを作成する、ことを特徴とする。
【発明の効果】
【0012】
本願の第一発明、及び第三発明によれば、被保険者が健康診断を受診する確率計算の基礎データとなる母集団を、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、高い性能の受診確率計算モデルを作成するのに十分な健診データ数を有する大都市(又は大きな健保組合等)は、地方小都市(又は小さな健保組合等)のデータがノイズとならないように当該大都市(又は大きな健保組合等)のみのデータを用いて確率モデルを作成し、高い性能の受診確率計算モデルを作成するのに十分な健診データ数が無い地方小都市(又は小さな健保組合等)は、全国各地の複数の自治体(又は健保組合)のデータを用いて確率計算モデルを作成することにより、特定の単独自治体又は特定の単独健保組合等に加入する個々の被保険者の受診確率を精度よく計算(推測)することができる。その結果、勧奨通知を発送しても健康診断を受診しない可能性の高い者の被保険者グループと、勧奨通知を発送しなくても健康診断を受診する可能性の高い者の被保険者グループを高い確度で特定することができ、これらの2つのグループ以外に属する被保険者グループ、即ち、勧奨通知を発送することによって受診可能性が高くなる被保険者グループを特定することで、勧奨通知に係る事務作業を効率化し、予算及び人員の適正化を図ることができる。また、結果として健康診断を受診する被保険者が増えることで、医療費の削減にも繋げることができる。
【0013】
また本願の第二発明、及び第四発明によれば、被保険者が健康診断を受診する確率計算の基礎データとなる母集団を、複数の自治体又は複数の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、第一ステップとして、複数の自治体又は複数の健保組合等が有する全てのデータを用いて第一特徴量を作成し、第二ステップとして、特定の単独自治体又は特定の単独健保組合等の前記健診データのみを用いて第一ステップで作成した特徴量の一部を調整した第二特徴量を作成し、第三ステップとして、当該第二特徴量に基づいた確率計算モデルによって、特定の単独自治体又は特定の単独健保組合等に加入する個々の被保険者の受診確率を計算することにより、複数の自治体又は複数の健保組合等の大量なデータに基づいて基本形となる第一特徴量を作成する一方、計算対象となる特定の単独自治体又は特定の単独健保組合等の被保険者に特有な行動パターンを加味することができる。その結果、勧奨通知を発送しても健康診断を受診しない可能性の高い者の被保険者グループと、勧奨通知を発送しなくても健康診断を受診する可能性の高い者の被保険者グループを高い確度で特定することができ、これらの2つのグループ以外に属する被保険者グループ、即ち、勧奨通知を発送することによって受診可能性が高くなる被保険者グループを特定することで、勧奨通知に係る事務作業を効率化し、予算及び人員の適正化を図ることができる。
【0014】
上記のとおり本願の各発明は、勧奨通知をしなくても健康診断を受診する可能性の高い被保険者、又は勧奨通知をしても健康診断を受診する可能性の低い被保険者を特定して排除し、残った被保険者、即ち、勧奨通知をすることによって受診する可能性がある者を、確度高く抽出するものであるが、実際のデータを用いて分析すると、各自治体の特徴又は各健保組合等の特徴によって実測値との乖離が異なるため、それぞれの自治体や健保組合等の特徴を生かす形で、どの手法を用いるかを適宜に選択することができる。
【0015】
なお、本発明で言う「健保組合等」とは、自治体が運営する国民健康保険以外の各種健康保険組合(各企業の健康保険組合、全国健康保険協会管掌健康保険(いわゆる協会けんぽ)、共済組合など)を意味するものである。
【図面の簡単な説明】
【0016】
図1】本願発明の基本システム構成図
図2】第一実施形態に係る処理プログラムのアルゴリズム
図3】クリーニングされたデータ形式を示す図
図4】説明変数リスト
図5】教師データセットを示す図
図6】ランダムフォレストの構造を示す図
図7】第二実施形態に係る処理プログラムのアルゴリズム
図8】ディープラーニングの構造を示す図
図9】転移学習の構造を示す図
図10】小規模自治体での実験結果を示す図
図11】大規模自治体での実験結果を示す図
図12】受診予測値と受診勧奨効果の関係を示す図
【発明を実施するための最良の形態】
【0017】
図1〜12を用いて、本発明の実施形態について詳細に説明する。なお各実施形態は本願発明の範囲を限定的に解釈するためのものではなく、特許請求の範囲に記載された内容と発明の趣旨に基づいて、適宜に実施して良いことは言うまでもない。以下説明する本実施形態は、一例として特定の自治体向けにサービスを行うことを想定したシステムとして説明する。
【0018】
図1は、本願発明の基本となるシステム構成図である。本発明に係るシステムは、第一実施形態、第二実施形態ともに共通であり、複数の自治体が有する過去の健康診断受診結果を蓄積した健診データベース1と、当該健診データベース1に蓄積されているデータを基に被保険者の受診行動を予測する処理プログラム2が記録されているサーバー3とからなる。健診データベース1は、サーバー3内に構築しても良い。以下説明する各実施形態は、処理プログラム2の処理方法が相違することで、被保険者の受診確率の計算方法が異なっている。
【0019】
まず、本発明の第一実施形態に係る処理プログラム2について説明する。
処理プログラム2は、データ数の多い大都市の自治体(都道府県単位であっても良い)とデータ数の少ない小都市の自治体(都道府県単位であっても良い)とで、確率計算の基礎となるデータの抽出方法が異なる。まず小都市の被保険者の受診確率を求める方法について説明する。
【0020】
小都市の場合、データ数が少なく、高い性能の受診確率計算モデルを構築することが難しいため、健診データベース1に蓄積されている大都市を含む他の自治体のデータを合わせて活用する。
【0021】
図2は、処理プログラムによる処理フローの概要を示す説明図である。
処理プログラム2は、第一ステップとして、健診データベース1に蓄積されている複数自治体のデータを対象として、この中から過去6年分のデータを、教師データセットを作成する目的で抽出し、直近の1年分のデータを、健診受診の有無(正解ラベルデータ)に加工し、正解ラベルデータ以外の5年分のデータを、図4に示すような44個の説明変数を持つデータに加工する。
【0022】
図4は、説明変数のリストであり、過去に健診を受診した被保険者個人の年齢、性別、身長、体重、BMI、腹囲、収縮期血圧、拡張期血圧、中性脂肪等の44項目から構成される。図5は、教師データの構成を示す図である。
【0023】
処理プログラム2は、第二ステップとして、当該44個の項目を説明変数とし、受診確率を目的変数とするモデルを作成する。本実施形態では、図6に示すとおりランダムフォレストを用いてモデルを構築する。複数の自治体の健診データの中から、1500個のサンプルをランダムに抽出し、44個の説明変数から6個の説明変数をランダムに抽出して100個の決定木を作成する。当該5年分の健診データ及び直近1年での健診受診の有無を教師データに用いて学習し、モデルとなる決定木を確定する。
【0024】
処理プログラム2は、第三ステップとして、確定した決定木を用いて、特定小都市の住人である全ての被保険者の受診確率を計算する。全ての被保険者とは、実態上の住人全員ではなく、過去に健康診断を受診した記録が健診データベース1に存在する者の全員を意味する。
【0025】
処理プログラム2は、第四ステップとして、算定された個々の被保険者の受診確率をアウトプットとしてリスト化する。算定した個々の被保険者の受診確率が、例えば80%を超えていた場合には、当該者は高い確度で健康診断を受診する可能性があり、逆に20%より低い者は、高い確度で健康診断を受診しない可能性がある。即ち、20%以上80%以下の者は、勧奨通知を行うことで、健康診断を受診する可能性が高くなることが分かる。
【0026】
上記結果を基に、特定小都市は、例えば全被保険者の中から確率20%以上80%以下の者のみを特定し、特定した者に対して勧奨通知を行うことで、限られた予算、限られた人員の中で、効率よく勧奨通知業務を実施することができる。
【0027】
また勧奨通知の発送数が予め予算化されている場合、発送数に合うように発送対象とする確率閾値を、適宜に調整変更すれば良い。或いは、発送数を予め1000通としている場合、高確率値・低確率値の人数を均等に排除した中間の人数が1000人となるように選択すれば良い。
【0028】
第四ステップは、最終的に特定の自治体が定めた所定の高確率値以上及び所定の低確率値以下を除く中間確率値の被保険者に対してのみ、又は予め定めた所定数の中間確率値の被保険者に対してのみ、勧奨通知対象リストを作成することとなる。
【0029】
次に、大都市自治体の被保険者の受診確率を求める方法について説明する。大都市の場合、小都市とは逆にデータ数が多く、性能の高いモデルを構築するのに十分なサンプルを有しており、かつ特に地方の小都市住民の行動パターンがノイズとなる可能性がある。そのため、大都市自治体の被保険者の受診確率を求める際の基礎データは、当該自治体のみのデータとする。
【0030】
処理プログラム2は、第一ステップとして、健診データベース1に蓄積されている当該大都市自治体のデータのみを対象として、上記小都市の場合と同様に、この中から過去6年分のデータを、教師データセットを作成する目的で抽出し、直近の1年分のデータを、健診受診の有無(正解ラベルデータ)に加工し、正解ラベルデータ以外の5年分のデータを、図4に示すような44個の説明変数を持つデータに加工する。その後の処理は、上記小都市の場合と同じであるため、説明は省略する。
【0031】
なお、上記した第一実施形態では、過去6年分の健診データを用いて計算したが、3年以上のデータがあれば十分予測可能である。また、ランダムフォレストのデータ抽出数、決定木数等の各種パラメータは、確度を高める目的の範囲内で適宜に決定しても良い。
【0032】
さらに、上記した第一実施形態では、モデルを作成するアルゴリズムとしてランダムフォレストを利用した例を示したが、これに限らずディープラーニングであっても良い。その場合、誤差関数に交差エントロピーを用い、最適化学習にAdamを用いて個々の被保険者の受診確率を算出するのが好ましいが、交差エントロピー以外の損失関数(例えば、二乗誤差やヒンジ損失関数等)、Adam以外の他の勾配降下法等の最適化アルゴリズム(例えば、Nesterov accelerated gradient、AdagradやAdadelta等)を用いても良く、特に限定されない。
【0033】
次に、本発明の第二実施形態に係る処理プログラム2について説明する。
処理プログラム2は、データ数の多い大都市の自治体もデータ数の少ない小都市の自治体も、同じ方法で被保険者の受診確率を求めるものである。
【0034】
図7は、その処理フローの概要を示す説明図である。全体の概略構成は、まず複数自治体のデータを用いたモデルを作成し、確率計算を必要とする特定の自治体のデータを用いて当該モデルの一部を修正して、特定自治体の被保険者全ての計算に用いる最終モデルを確定するものである。
【0035】
処理プログラム2は、第一ステップとして、健診データベース1に蓄積されている複数自治体のデータを対象として、この中から過去6年分のデータを、教師データセットを作成する目的で抽出し、直近の1年分のデータを、健診受診の有無(正解ラベルデータ)に加工し、正解ラベルデータ以外の5年分のデータを、図4に示すような44個の説明変数を持つデータに加工する。
【0036】
図8に示すとおり、第一ステップでのアルゴリズムはディープラーニングであり、誤差関数に交差エントロピーを、最適化学習にAdamを用い、教師データセットに基づいて、複数のレイヤーに対応する複数の重みW1、W2、W3を学習させて第一特徴量を作成する。
【0037】
図9に示すとおり、処理プログラム2は、第二ステップとして、確率計算する特定の自治体のデータのみを抽出し、アルゴリズムにトランスファーラーニング(転移学習)を用いて第一ステップで作成した重みW1、W2はそのままとし、W3のみを調整した第二特徴量を作成する。トランスファーラーニングは、誤差関数に交差エントロピーを用い、最適化学習にAdagradを用いている。なお、ディープラーニングやトランスファーラーニングにおいて、交差エントロピー以外の損失関数(例えば、二乗誤差やヒンジ損失関数等)、Adam、Adagrad以外の他の勾配降下法等の最適化アルゴリズム(例えば、Nesterov accelerated gradientやAdadelta等)を用いても良く、特に限定されない。
【0038】
処理プログラム2は、第三ステップとして、上記の第二特徴量に基づいたモデルに基づいて、確率計算する特定の自治体の被保険者全員の受診確率を計算する。
【0039】
処理プログラム2は、第四ステップとして、第一実施形態と同様の方法により、特定の自治体が定めた所定の高確率値以上及び所定の低確率値以下を除く中間確率値の被保険者に対してのみ、又は予め定めた所定数の中間確率値の被保険者に対してのみ、勧奨通知対象リストを作成する。
【0040】
なお、上記した第二実施形態では、過去6年分の健診データを用いて計算したが、3年以上のデータがあれば十分予測可能である。また、ディープラーニングにおけるレイヤー数等の各種パラメータは、確度を高める目的の範囲内で適宜に決定しても良い。
【0041】
以上、本願発明の各実施形態について説明したが、出願人による多くの自治体及び健保組合等を対象にした実証実験によれば、予測値と実測値との乖離は、データ数の多い大都市又は規模の大きい健保組合等では、第二実施形態のシステム≒第一実施形態のシステム(単独自治体、単独健保組合等のデータを使用)≧第一実施形態のシステム(全ての自治体、又は全ての健保組合等のデータを使用)の傾向が強く、データ数の少ない小都市又は規模の小さい健保組合等では、第二実施形態のシステム≧第一実施形態のシステム(全ての自治体、又は全ての健保組合等のデータを使用)>第一実施形態のシステム(単独自治体、単独健保組合等のデータを使用)となる傾向が強かった。
【0042】
上記した実証結果は、あくまで全体としての傾向であって、それぞれの自治体やそれぞれの健保組合が有する特異性に基づき、実証実験の積重ねにより、いずれのシステムを利用するかを適宜に選択決定すれば良い。
【0043】
図10は、都道府県ベースで実施した実証実験の結果を示す図であり、データ数が数百レベルの保険者(自治体A、自治体B、自治体C、自治体D、自治体E)について実施した結果である。
【0044】
各県それぞれ3つの棒グラフで示されている受診率は、左の棒グラフが勧奨通知を行った者の実際の受診率であり、中央の棒グラフが当該県のデータのみを用いたモデルで確率計算した予測値であり、右の棒グラフが複数保険者のデータを用いたモデルに更に当該保険者のデータを用いて転移学習させたモデルで確率計算した予測値である。
【0045】
図10から明らかなとおり、データ数の少ない5つの保険者全てにおいて、転移学習したモデルで確率計算した予測値の方が実測値に近い値となっていることから、当該方法によって選定した被保険者に対してのみ勧奨通知を行えばよく、自治体の予算削減、人員削減に貢献することができる。
【0046】
図11は、データ数が数万レベルの3つの保険者(自治体X、自治体Y、自治体Z)について実施した結果である。各保険者それぞれ3つの棒グラフで示されている受診率は、図10と同じである。
【0047】
図11から明らかなとおり、データ数の多い3つの保険者においても転移学習したモデルで確率計算した予測値の方が実測値に近い値となっているが、X保険者及びY保険者では、単独データを用いた場合と大きな差はないことが理解できる。
【0048】
図12は、ある保険者における予測対象者の受診率予測値と、受診勧奨後の実際の受診率の差を示す図である。当該図より明らかなとおり、受診率予測値が30〜70%の対象者に対する勧奨効果は明らかに高くなり、予測対象者の平均勧奨効果は12.6%であった。
【0049】
上記した各実施形態は、国民健康保険の運営主体である自治体に対するサービスとして実施するものを説明したが、健康保険組合等に対するサービスとしても同様に実施可能である。その場合、複数の健保組合のデータを健診データベース1に蓄積し、データ数の多い大規模健保組合とデータ数の少ない小規模健保組合にそれぞれ応じた処理を行えば良い。
【0050】
以上のとおり、本願発明によれば、勧奨通知を発送しても健康診断を受診しない可能性の高い者の被保険者グループと、勧奨通知を発送しなくても健康診断を受診する可能性の高い者の被保険者グループを高い確度で特定することができ、これらの2つのグループ以外に属する者、即ち、勧奨通知を発送することによって受診可能性が高くなる被保険者グループを特定することで、勧奨通知に係る事務作業を効率化し、予算及び人員の適正化を図ることができる。また、結果として健康診断を受診する被保険者が増えることで、医療費の削減にも繋げることができる。
【符号の説明】
【0051】
1 健診データベース
2 処理プログラム
3 サーバー

【要約】      (修正有)
【課題】被保険者が健康診断を受診する確率を計算し、勧奨通知業務の効率化を図る。
【解決手段】確率計算の基礎データとなる母集団を、複数又は単独の自治体、或いは複数又は単独の健保組合等が保有する過去n年(nは3以上の整数)間において被保険者が受診した健康診断の健診データとし、処理プログラムは、第一ステップとして、全ての前記健診データから過去m年(mは3以上の整数、m≦n)分のデータを抽出し、直近の1年分を除いたm−1年分のデータを、x個の説明変数を持つデータに加工し、第二ステップとして、当該m−1年分の前記健診データ及び直近1年分の健診受診の有無を教師データとして用いて学習し、第三ステップとして、前記学習済みモデルによって、特定の単独自治体又は特定の単独健保組合に加入する個々の被保険者の受診確率を算出する。
【選択図】図2
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12