(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022189502
(43)【公開日】2022-12-22
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06Q 50/22 20180101AFI20221215BHJP
G06Q 10/04 20120101ALI20221215BHJP
G06N 20/00 20190101ALI20221215BHJP
G06N 5/02 20060101ALI20221215BHJP
【FI】
G06Q50/22
G06Q10/04
G06N20/00
G06N5/02 150
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021098113
(22)【出願日】2021-06-11
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100104190
【弁理士】
【氏名又は名称】酒井 昭徳
(72)【発明者】
【氏名】堀田 真路
(72)【発明者】
【氏名】大塚 浩
(72)【発明者】
【氏名】烏谷 彰
【テーマコード(参考)】
5L049
5L099
【Fターム(参考)】
5L049AA04
5L099AA11
(57)【要約】
【課題】該当数が少なく正解率が高いルールの学習の精度を向上できること。
【解決手段】情報処理装置100は、入力データに含まれる複数のパラメータから所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、列挙した候補ルールのうち、入力データが正例となる数が最大である正解率が最大の第1候補ルール101を特定する。そして、第1候補ルール101に合致するパラメータの組合せを有するデータを入力データから除き、残りのデータのなかから、入力データが正例となる数が最大である正解率が最大の第2候補ルール101を特定する。そして、特定した第1候補ルール101と、第2候補ルール101を用い入力データの傾向を示す適用ルール102を得る。情報処理装置100は、テストデータに適用ルール102を適用することで、テストデータの一部のパラメータに該当するデータの予測結果103を予測結果の判定根拠付きで提示する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、
列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、
前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、
残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、
特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
処理を行う制御部を備えたことを特徴とする情報処理装置。
【請求項2】
前記制御部は、
所定のテストデータに前記適用ルールを適用し、前記適用ルールに適合したデータを前記テストデータのなかから予測し、予測結果を出力することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記制御部は、
前記予測結果のデータごとに、適用した前記適用ルールを併せて出力することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記制御部は、
前記入力データから除かれたデータの総数が、所定の数を超えるまで前記第2候補ルールの特定の処理を繰り返し行い、
前記第1候補ルールと、複数の前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
ことを特徴とする請求項1~3のいずれか一つに記載の情報処理装置。
【請求項5】
前記制御部は、
前記第2候補ルールの特定では、前記第1候補ルールを特定した際の正解率が特定された全てのルールNのうち上位から所定の限定割合Kのルールについてのみ計算の対象とすることを特徴とする請求項1~4のいずれか一つに記載の情報処理装置。
【請求項6】
前記制御部は、
前記第1候補ルールに基づき前記入力データから除いた前記正例の数が所定数より少ない場合、前記第2候補ルールに基づき前記入力データから除く前記限定割合Kを小さく設定することを特徴とする請求項5に記載の情報処理装置。
【請求項7】
学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、
列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、
前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、
残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、
特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項8】
学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、
列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、
前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、
残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、
特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
様々な分野において、蓄積されたデータを用い、人工知能(AI:Artificial Intelligence)に基づくリスク予測を行い、予測結果を業務で利用するようになっている。例えば、自治体の介護予防の取組みでは、介護システムの様々な住民情報から、個人の介護リスクを機械学習で予測し、介護リスクが高いと予測した住民に自治体職員が訪問介入し、住民に合わせた介護予防対策を行っている。
【0003】
ここで、自治体の職員等のリソースは限られているため、全住民を対象として予測を行うのではなく、将来介護対象となり得る限られた少数の住民に対して高い精度でリスク予測することが望ましい。また、職員は該当する住民の訪問等の際に住民への説明責任を果たす必要があるため、予測結果の判定根拠を介護対象の住民等に具体的に提示する必要がある。
【0004】
リスク予測の判定根拠を理解できる機械学習の代表手法として、決定木がある。決定木は、モデルを理解するのが容易である一方、一つの木で予測結果が決まるため、論理和で表される複数ルールなど表現できず、予測の精度は一般的に良くない。これに対し、列挙した複数のルールを用いて予測を行う手法が提案されている(例えば、下記特許文献1参照。)。この手法では、異なる説明変数を論理積で組み合わせたIf-Thenルールを列挙し、列挙した複数ルールにそれぞれ重みをつけて予測を行う。
【0005】
また、教師データに基づき予め学習した予測モデルを用い、予測モデルに入力される入力データの特徴量に重みを加え、予測結果に寄与する特徴量を残し、他を除去することで、寄与度の高い特徴量を抽出する技術が提案されている(例えば、下記特許文献2参照。)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2020-46888号公報
【特許文献2】国際公開第2019/130974号
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術では、各事例に対し、複数の説明変数から目的変数を予測する問題においてごく一部の事例のみを予測する場合、全てのルールを組み合わせることで、予測精度が悪くなる場合があった。例えば、住民情報から要介護リスクを予測するにあたり、ごく一部の事例、すなわち、介護リスクが高く介護対象となり得る限られた少数住民のみを正確に予測することができない場合があった。
【0008】
一つの側面では、本発明は、該当数が少なく正解率が高いルールの学習の精度を向上できることを目的とする。
【課題を解決するための手段】
【0009】
本発明の一側面によれば、学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、ことを要件とする。
【発明の効果】
【0010】
本発明の一態様によれば、該当数が少なく正解率が高いルールの学習の精度を向上できるという効果を奏する。
【図面の簡単な説明】
【0011】
【
図1】
図1は、実施の形態にかかる情報処理の概要を示す説明図である。
【
図2】
図2は、情報処理装置が行うルール学習の説明図である。
【
図3】
図3は、1回目のルール特定を説明する図表である。
【
図4】
図4は、2回目のルール特定を説明する図表である。
【
図5】
図5は、対象ルールの限定割合を説明する図表である。
【
図6】
図6は、情報処理装置の機能的構成例を示すブロック図である。
【
図7】
図7は、情報処理装置のハードウェア構成例を示す図である。
【
図8】
図8は、情報処理装置が行う処理例のフローチャートである。
【
図9】
図9は、介護リスク予測にかかる情報処理装置の機能的構成例を示すブロック図である。
【
図10】
図10は、介護リスク予測にかかる情報処理装置の処理例のフローチャートである。
【
図11】
図11は、実施の形態によるルール群抽出の結果の具体例を示す図表である。
【
図12】
図12は、実施の形態による候補ルールの正解率と該当数の具体例を示す図表である。
【
図13】
図13は、従来技術による正解率の具体例を示す図表である。
【発明を実施するための形態】
【0012】
以下に図面を参照して、開示の情報処理装置、情報処理方法および情報処理プログラムの実施の形態を詳細に説明する。
【0013】
図1は、実施の形態にかかる情報処理の概要を示す説明図である。情報処理装置100は、学習用の入力データに含まれる複数のパラメータを組み合わせて、入力データの傾向を示すルールを作成するコンピュータである。また、情報処理装置100は、作成したルールを所定のデータ(テストデータ)に適用することで、テストデータのうちルールに適合するデータを予測結果として絞り込み提示する。
【0014】
例えば、情報処理装置100は、自治体の住民データを学習用の入力データとして、介護リスクの有無を予測するための適用ルールを作成する。この際、情報処理装置100は、入力データに含まれるパラメータとして介護リスクに関する説明変数(「所定年齢以上」、「高齢者のみ世帯」等)の組み合わせを候補ルールとして列挙する。そして、複数の候補ルールのなかから出力として最適な適用ルールを見つける学習処理を行う。適用ルールは、入力データの傾向を示すルールである。
【0015】
この後、情報処理装置100は、学習処理で見つけた適用ルールをテストデータに適用することで、膨大な住民データのなかから介護リスクが高い住民を高精度に予測する。この予測では、住民ごとの介護リスクの有無(+:リスクあり/-:リスクなしの2値)で予測する。
【0016】
情報処理装置100は、以下の1.~4.の学習処理を実施し、介護リスクがある住民(住民データ)を予測するためのルール(適用ルール群102)を得る。
1.住民データから介護リスクに関連する考えられる限りの多数の候補ルールを列挙する。
2.住民データから正解率が最も高い候補ルール(群)101を抽出する。
3.上記2.の候補ルール群101に該当するデータを住民データから間引き(データ削除)する。
4.上記3.の処理を、所定数以上の事例が見つかるまで繰り返して適用ルール102を見つける。この繰り返しは、間引きしたデータの総数が予測対象数を超える条件を満たすまで実施する。
【0017】
5.この後、情報処理装置100は、上記1.~4.の学習処理で見つけた複数の適用ルール(適用ルール群)102を該当する住民データに適用し、介護リスクが高い(要介護)の住民(住民データ)を予測する。情報処理装置100は、この予測時、同時に要介護の判定根拠(適用ルール群102に相当)を提示する。
【0018】
情報処理装置100は、
図1の(a)~(c)の流れに示す処理を行う。はじめに、
図1(a)に示すように、1.要介護の候補ルールを列挙する。列挙する候補ルール101は、異なる説明変数(パラメータ「95歳以上」、「高齢者のみ世帯」、「95歳以上&高齢者のみ世帯」)等を論理積で組み合わせたルール(候補ルール101)である。
【0019】
次に、情報処理装置100は、2.候補ルール101のなかから正解率が最も高い候補ルール101を抽出し、3.抽出した候補ルール101に該当するデータを間引きする。4.の処理では2.3.の処理を繰り返し実施して適用ルール群102を得る。
【0020】
図1(b)は適用ルール群102を示し、要介護の適用ルールを見つける。見つけた適用ルール群102は、例えば、「95歳以上&高齢者のみ世帯」、「90歳以上&居住地区コード4」、「介護予防サービス 過去に受給」、「居住地区コード9&生活保護あり」、等である。
【0021】
図1(b)の例では、適用ルール群102は、5個であり、
図1(a)に列挙した候補ルール101の10000から大幅に削減されている。詳細は後述するが、4.の処理において、1回目のルール特定では、候補ルールそれぞれに対し学習データでの正解率が高いルールを選択する。2回目以降のルール特定では、ルール正解率の再起傾向を利用し、正解率が高い一部の候補ルールのみを処理対象として計算量を減らしている。
【0022】
図1(c)は要介護の予測結果103を示し、予測した要介護者を示す。情報処理装置100は、5.の処理を実施し、適用ルール群を住民情報に適用して介護リスクがある住民を予測した予測結果103を提示する。予測結果103には、要介護の判定根拠を提示する。例えば、各住民のデータに対し、適用ルール群102に該当するごく一部の(要介護と予測した)住民に対し識別情報(介護リスク)を付与する。
【0023】
情報処理装置100は、
図1(c)に示す予測結果103に住民の情報(候補ルール101相当)の「年齢」、…、「高齢者のみ世帯」に加えて、要介護を示す介護リスクの有無の識別情報(+/-)と、判定根拠(上記の適用ルールに相当)を列挙する。
図1(c)の例では、事例No「2」と「100」の住民が介護リスクありと予測し、介護リスクの項目を「+」で示している。
【0024】
また、情報処理装置100は、介護リスク「+」の判定根拠(この住民に該当する適用ルールの内容)を抽出する。
図1(c)に示す多数(74000)の事例のうち、介護リスクありと判定したごく一部の事例(住民)を精度良く抽出できる。
【0025】
自治体の職員は、情報処理装置100が提示する
図1(c)の予測結果103に基づき「事例No2,100」に該当する住民に対し個別訪問等を行い、介護予防を実施できる。また、住民からの訪問の意義の問い合わせ等に対し、判定根拠を具体的に住民に提示できるようになる。
【0026】
このように、実施の形態によれば、入力データに対し低頻度かつ高確率のルールを高精度に予測できるようになる。また、予測結果を用いて、入力データのうち最優先する対象を適切に絞り込み提示することができる。
【0027】
例えば、介護リスクの予測において、多数の住民に対する自治体の職員(リソース)が限られる場合に、従来、単純なスクリーニングや全てのルールを組み合わせた処理では、ごく一部の事例(個別訪問する介護リスクが高い住民)を精度良く絞り込めなかった。これに対し、実施の形態は、介護リスクが高い住民がごく一部と少ない場合でも、介護リスクの正解率が高い予測結果を得ることができ、ルール学習の精度を向上できる。
【0028】
次に、
図2~
図5を用いて、
図1に示した処理のうち、主に2.~4.の候補ルール特定およびデータの間引きにかかる処理の詳細を説明する。
【0029】
図2は、情報処理装置が行うルール学習の説明図である。
図2(a)~(c)に示すように、情報処理装置100は、例えば、介護システムが保持する住民情報を学習データとして取得し、学習データから候補ルール(群)101を列挙し、複数回nのルール特定を行い、適用ルール群102を見つける。
【0030】
1回目のルール特定では、
図2(a)に示すように、情報処理装置100は、候補ルール(群)101の列挙後の学習データ200に対し、1.正解率が最も高いルール(第1候補ルール)を特定する(ステップS201)。候補ルール(群)101は、既存の技術(例えば、上記特許文献1)を用いて列挙することができる。
【0031】
ルールの「正解率」は、ルールに合致するデータの数Xに対し、その中に含まれる正例の数Yの割合(=Y/X)である。正例は、例えば、リスク予測の場合、”リスクあり”である事例を示す。
【0032】
図3は、1回目のルール特定を説明する図表である。1回目のルール特定では、予め列挙された候補ルール101に対し、学習データでの正解率を計算し、最も正解率が高かったルールを選択する。
【0033】
情報処理装置100は、N個(例えば、
図1(a)に示す10000個)のルール候補(群)101の各ルール(ルールA,B,C,…)について、学習データでの該当数と、該当データでの正解率を計算する。そして、
図3の例では、情報処理装置100は、最も正解率が高かったルールAを選択する。ステップS201で特定された正解率が最も高いルールAは、学習データ200全体のうち正例および負例を含むデータに相当する。このルールAは、適用ルール群102の一部となり、
図3および
図2(a)の領域x1に相当し、例えば一つの適用ルール「95歳以上&高齢者のみ世帯」を含む。
【0034】
そして、情報処理装置100は、
図2に示すように、特定した適用ルール群102に該当する学習データ200を間引きする(ステップS202)。
【0035】
次に、
図2(b)に示すように、情報処理装置100は、ステップS202で間引かれた学習データ200に対し、2回目のルール(第2候補ルール)の抽出を行う。情報処理装置100は、2回目以降のルール特定では、計算量を減らすため、ルール正解率の再帰傾向を利用し、正解率が高い一部ルールのみに計算対象のルールを限定する。再起傾向は、間引き前のデータで正解率が高かったルールは、間引き後のデータでも正解率が高い傾向を意味する。ここで、候補ルールの数をN、限定割合をK(0<K<1)とすると、計算対象ルールの数は、N×K個に限定される。
【0036】
図4は、2回目のルール特定を説明する図表である。
図4(a)に示す1回目のルール特定では、情報処理装置100は、全てのルールNを計算対象としている。これに対し、
図4(b)に示す2回目のルール特定では、正解率が高い一部ルール(N×K個)を計算対象としている。
【0037】
例えば、
図4(a)の1回目のルール特定に示したルールAは正解率が最も高いため、情報処理装置100は、
図4(b)の2回目のルール特定では、正解率が最も高いルールA、および正解率が低い一部のルールE,Dを計算対象としない。この場合、情報処理装置100は、正解率が高い一部ルール(N×K個)としてルールC,B,Fを計算対象としている。
【0038】
これにより、2回目のルール特定では、学習データ200全体のうち正例および負例を含むデータの領域x2を間引きする(ステップS203)。ここで、適用ルール群102は、
図4(b)および
図2(b)の領域x1,x2を定めるルール群に相当し、例えば2つの適用ルール「95歳以上&高齢者のみ世帯」と「90歳以上&居住地区コード4」を含む。
【0039】
また、
図5は、対象ルールの限定割合を説明する図表である。情報処理装置100は、上記の対象ルールを限定する割合(限定割合K)を以下のように決定することができる。例えば、情報処理装置100は、
図2(a)に示す1回目のルール特定で特定されたルールにより間引かれる正例数(=該当数×正解率)が多いほど、2回目以降でのルール正解率の順位変動が起こる可能性が高いため、限定割合Kを大きくする。
【0040】
具体的には、例えば、
図5(a)に示すように、1回目のルール特定で間引かれるルールAの正例数が20個(学習データでの該当数30個×該当データでの正解率66%)であり、正例数が少ない状態になったとする。この場合、ステップS202での間引き後もルール順位変動が起こる可能性が低いため、情報処理装置100は、対象ルールを限定し、限定割合Kを小さく設定する。
【0041】
一方、
図5(b)に示すように、1回目のルール特定で間引かれるルールAの正例数が270個(学習データでの該当数300個×該当データでの正解率90%)であり、正例数が多い状態になったとする。
【0042】
この場合、ステップS202での間引き後にルール順位変動が起きる可能性が高いため、情報処理装置100は、対象ルールを限定せず、限定割合Kを大きく設定する。これら
図5(a),(b)の例において、情報処理装置100は、限定割合Kの大小を判断する閾値を正例数20と270との間、例えば100に設定し、正例数が100以上であればK=1、正例数が20であれば例えばK=0.2、となるようにKを設定する。
【0043】
図2に戻り説明すると、情報処理装置100は、データの間引きの繰り返しは、「間引き数(間引かれたデータの総数)が予測対象数を超える」という条件を満たすまで実施する。
【0044】
図2(c)に示す例では、情報処理装置100は、3回目のルール特定では、ステップS203による間引かれた後の学習データ200全体のうち正例および負例を含むデータの領域x3を間引きする(ステップS205)。
【0045】
ここで、適用ルール群102は、
図2(c)の領域x1,x2,x3を定めるルール群に相当し、例えば3つの適用ルール「95歳以上&高齢者のみ世帯」と「90歳以上&居住地区コード4」と「介護予防サービス 過去に受給」を含む。
【0046】
そして、情報処理装置100は、特定した適用ルール群102に該当する学習データ200を間引きする。
【0047】
このステップS205の間引きの処理の実行前において、情報処理装置100は、「間引き数が予測対象数を超える」と判断した場合には、間引きの処理を打ち切る(ステップS204)。
【0048】
図2の例では、情報処理装置100は、適用ルール群102を適用して、要介護の住民を予測する。この際、情報処理装置100は、要介護の判定根拠(適用ルールに相当)を提示する。
【0049】
図6は、情報処理装置の機能的構成例を示すブロック図である。
図6では、主にリスク予測のルール特定にかかる機能を記載してある。情報処理装置100は、データ取得部601、ルール列挙部602、学習制御部603、学習設定部604、ルール特定部605、ルール登録部606、データ加工部607、ルール限定部608、の各機能を含む。
【0050】
データ取得部601は、学習データデータベース(DB)610から学習データ(上記住民データに相当)を取得する。ルール列挙部602は、リスク予測にあたり、学習データからリスク予測に関連する考えられる限りの多数の候補ルールを列挙する(上記処理1.に相当)。
【0051】
学習制御部603は、学習設定部604に設定された設定に基づき、列挙された候補ルールを用いた学習を制御する。学習設定部604には、学習に関する各種設定、例えば、上記ルールの該当率(X/Z)、ルールの正解率(Y/X)、間引きのための予測対象数、限定割合K、等が設定される。ルール特定部605は、候補ルール101に対する上記処理2.正解率が最も高い候補ルール101の抽出の処理を実施する。
【0052】
データ加工部607は、上記処理3.4.の学習データに対し候補ルールに該当するデータを間引き、予測対象数を超える条件となるまで繰り返す処理を学習制御部603に実施させる。ルール限定部608は、この繰り返し処理の際、限定割合Kを用いて計算対象のルールを限定する。ルール登録部606は、上記処理4.の繰り返し実施毎に得られる適用ルール群102を適用ルールDB611に登録する。
【0053】
図7は、情報処理装置のハードウェア構成例を示す図である。情報処理装置100は、
図7に示す汎用のハードウェアからなるサーバー等のコンピュータで構成することができる。
【0054】
情報処理装置100は、CPU(Central Processing Unit)701、メモリ702、ネットワークインタフェース(IF)703、記録媒体IF704、記録媒体705を含む。700は各部を接続するバスである。
【0055】
CPU701は、情報処理装置100の全体の制御を司る制御部として機能する演算処理装置である。メモリ702は、不揮発性メモリおよび揮発性メモリを含む。不揮発性メモリは、例えば、CPU701のプログラムを格納するROM(Read Only Memory)である。揮発性メモリは、例えば、CPU701のワークエリアとして使用されるDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等である。
【0056】
ネットワークIF703は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク710に対する通信インタフェースである。情報処理装置100は、ネットワークIF703を介してネットワーク710に通信接続する。
【0057】
記録媒体IF704は、CPU701が処理した情報を記録媒体705との間で読み書きするためのインタフェースである。記録媒体705は、メモリ702を補助する記録装置であり、HDD(Hard Disk Drive)や、SSD(Solid State Drive)、USB(Universal Serial Bus)フラッシュドライブ等を用いることができる。
【0058】
メモリ702または記録媒体705に記録されたプログラムをCPU701が実行することにより、情報処理装置100の制御部としての各機能、例えば、
図6のデータ取得部601~ルール限定部608の機能を実現する。また、メモリ702や記録媒体705は、情報処理装置100のデータベース、例えば、
図6に示した学習データDB610、適用ルールDB611の情報を保持する。
【0059】
図8は、情報処理装置が行う処理例のフローチャートである。
図8には、主に上記処理1.~4.にかかる学習処理を示し、この処理は、情報処理装置100の制御部(CPU701)が実施する。
【0060】
はじめに、制御部は、ユーザ操作等により、予測対象数Mを設定する(ステップS801)。次に、制御部は、学習データDB610から学習データを取得する(ステップS802)。そして、制御部は、候補ルール群101を列挙する(ステップS803、処理1.に相当)。
【0061】
この後、制御部は、学習データから正解率が最大となるルールを抽出する(ステップS804、処理2.に相当)。そして、制御部は、抽出されたルールを適用ルール群102として適用ルールDB611に追加登録する(ステップS805)。
【0062】
この後、制御部は、学習データから該当データを間引き処理する(ステップS806、処理3.に相当)。そして、制御部は、間引いたデータの総数が予測対象数Mより多いか否かを判断する(ステップS807、処理4.に相当)。
【0063】
ステップS807の判断結果、間引いたデータの総数が予測対象数Mを超えていなければ(ステップS807:No)、制御部は、ルール限定割合Kの算出を行う(ステップS808)。そして、情報処理装置100は、ルール限定割合Kに基づくルール限定の処理を実施し(ステップS809)、ステップS804の処理に戻る。
【0064】
一方、ステップS807での判断結果、間引いたデータの総数が予測対象数Mを超えた場合には(ステップS807:Yes)、情報処理装置100は、以上の処理を終了する。
【0065】
図9は、介護リスク予測にかかる情報処理装置の機能的構成例を示すブロック図である。
図6に示した基本的なリスク予測のルール特定にかかる機能には同じ符号を付してある。
図9には、
図6の機能により見つけた適用ルール群102に基づき、介護リスクの住民を予測し、提示する機能を示す。
【0066】
情報処理装置100には、介護システム901が接続される。介護システム901は、入出力部911のユーザ操作等により、住民データが入力される。介護システム901は、入力される住民データに対して、介護保険が適用されたか否か等を示す情報を付与した住民データを介護保険DB912に保持する。
【0067】
介護保険が適用される住民データは、自治体の全住民データ(上記説明の学習データ)のうち、一部の住民のデータである。情報処理装置100は、介護システム901が出力するデータの中で未だ介護保険が適用されていない住民(下記のテストデータ)を入力データとして用い、将来要介護の可能性を予測する。例えば、介護保険が適用される住民は、所定年齢以上、高齢者のみ世帯、等の条件の識別情報が1の(満たす)データを含み、将来要介護の可能性(介護リスク)が高いと想定される事例を有する。
【0068】
情報処理装置100は、データ変換部921が介護保険DB912にアクセスし、学習データDB610の保存形式でデータ変換する。情報処理装置100は、
図6で説明したように、データ取得部601が学習データDB610にアクセスし、ルール列挙部602~ルール限定部608の各処理により、最終的にルール登録部606が適用ルール群102を適用ルールDB611に格納する。
【0069】
図9の構成において、適用ルール群102には、介護リスクが高い住民(住民データ)を見つけるためのルールが格納保持されている。情報処理装置100は、適用ルール群102が適用ルールDB611に格納された後において、テストデータのなかから介護リスクが高い住民(住民データ)を予測する。情報処理装置100は、この介護予測の機能として、
図9に示すデータ変換部921、データ取得部922、ルール適用部923、可視化部924の機能を含む。
【0070】
データ取得部922は、介護保険DB912からデータ変換後のテストデータを取得する。テストデータは、介護保険DB912が保持する、介護保険が未だ適用されていない住民データ(事例)である。
【0071】
ルール適用部923は、テストデータに対し、適用ルール群102のルールを適用し、介護リスクが高い(要介護)の住民を予測する(上記5.の処理に相当)。可視化部924は、介護リスクの予測結果103(
図1(c)参照)をユーザに対し画面表示や、印刷出力により可視化して提示する。また、可視化部924は、予測結果103に要介護の判定根拠(適用ルールに相当)を併せて提示する。
【0072】
図10は、介護リスク予測にかかる情報処理装置の処理例のフローチャートである。情報処理装置100の制御部(CPU701)は、
図8の処理実施により得た適用ルール群102を用いて、将来介護リスクを生じる住民(住民データ)を予測する。以下の処理は、主に
図9のデータ取得部922~可視化部924が実施する。
【0073】
はじめに、制御部は、介護システム901からテストデータを取得する(ステップS1001)。そして、制御部は、適用ルールDB611から適用ルール群102を読み出し、テストデータに適用ルール群102をルール適用することで、介護リスクがある住民(住民データ)を予測する(ステップS1002)。
【0074】
この後、制御部は、介護リスクの予測結果を可視化し(ステップS1003)、以上の処理を終了する。制御部は、介護リスクの予測結果103(
図1(c)参照)をユーザに対し画面表示や、印刷出力により可視化して提示する。介護リスクの項目には、介護リスクリスクあり(+)/なし(-)の識別結果を含む。また、可視化部924は、予測結果103に要介護の判定根拠(適用ルールに相当)を併せて提示する。
【0075】
(実施の形態による予測結果が向上する具体例)
次に、
図11~
図13を用いて実施の形態による予測結果が向上する具体例を説明する。
図11は、実施の形態によるルール群抽出の結果の具体例を示す図表である。
図11の図表1100には、予測対象数を1000、2000、…、20000に変えながら実施の形態の上記処理1.~4.を実施し、適用ルール群102を抽出した結果を示す。また、それらの適用ルール群102を学習データとは異なるテストデータに適用したときの正解率も併せて図表1100に示す。
【0076】
また、
図12は、実施の形態による候補ルールの正解率と該当数の具体例を示す図表である。
図12の図表1200には、予測対象数を20000として実施の形態の処理を実施したときの各候補ルール101の正解率、該当数、および該当数合計を、ルール登録順に図の上から下へ示している。
【0077】
この図表1200には、例えば、予測対象数が1000だった場合には、該当数合計が1000を超えるまでの複数の候補ルール101、すなわちルールNo1~No5が、
図11の図表1100の適用ルール群102として登録されていることが示されている。
【0078】
図13は、従来技術による正解率の具体例を示す図表である。この
図13に示す図表1300には、上記従来技術1により予測モデルを学習した上で、その予測モデルをテストデータに適用した場合の正解率を表示している。この従来の処理では、予測モデルの適用結果は、実施の形態の如く介護リスクあり+/なし-、といった2値ではなく、介護リスクありの確度の高さを表す予測スコアという形の連続値で表現されている。
【0079】
従来技術では、予測対象数が小さいほど予測スコアの閾値を高く設定することで、予測対象数に合わせた予測を行う。
図13の最右列は、このように予測スコアを閾値判定した結果を最終予測結果として、正解率を算出している。
【0080】
ここで、予測対象数を20000と大きめに設定した場合、実施の形態(
図11の図表1100)の正解率22.6%と、従来技術(
図13の図表1300)の正解率22.8%とでは、正解率がほとんど変わらない。この理由は、実施の形態では、予測対象数が大きいために列挙したルールの大半を利用していることになり、従来技術が採用するルール群と大差がなくなるためである。
【0081】
しかしながら、予測対象数を小さくしていくにつれて、実施の形態および従来技術ともに正解率は上昇していくが、実施の形態(
図11の図表1100)を適用した場合の方が従来技術(
図13の図表1300)よりもいずれも正解率が高くなることが示されている。この理由として、実施の形態では、予測対象数に合わせて、正解率が高くなるように適用ルール群102を選択しているためであり、正解率が高くなっていることが示されている。
【0082】
以上説明した実施の形態の情報処理装置100は、学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、列挙した候補ルールのうち、入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、第1候補ルールに合致するパラメータの組合せを有するデータを入力データから除き、残りのデータのなかから、入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、特定した1候補ルールと、第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する。これにより、入力データの傾向を示す適切な適用ルールを得ることができる。実施の形態では、列挙可能な全てのルールの組み合わせのみで適用ルールを作成するのではなく、入力データから特定した第1候補ルールの該当データを間引き、間引かれた入力データに対し再度第2候補ルールに該当データを間引いている。これにより、膨大な入力データの傾向を示す適切な適用ルールを得ることができるようになる。特に、予測対象数が限られる(ルールの該当数が少ない)入力データに対し、正解率が高いルール群を抽出できるようになる。
【0083】
また、情報処理装置100は、所定のテストデータに適用ルールを適用し、適用ルールに適合したデータをテストデータのなかから予測し、予測結果を出力する。これにより、膨大なテストデータで予測対象数が限られる場合でも、求めた適用ルールを用いて高精度な予測が可能となる。
【0084】
また、情報処理装置100は、予測結果のデータごとに、適用した適用ルールを併せて出力してもよい。これにより、予測結果の根拠となる適用ルール、すなわち、候補ルールの組み合わせを具体的に提示できるようになる。
【0085】
また、情報処理装置100は、入力データから除かれたデータの総数が、所定の数を超えるまで第2候補ルールの特定の処理を繰り返し行い、第1候補ルールと、複数の第2候補ルールとを、入力データの傾向を示す適用ルールとして決定してもよい。これにより、入力データのうちルールに該当するデータの削除ごとに適用ルールを求めることで正解率が高いルールを得ることができるようになる。
【0086】
また、情報処理装置100は、第2候補ルールの特定では、第1候補ルールを特定した際の正解率が特定された全てのルールNのうち上位から所定の限定割合Kのルールについてのみ計算の対象としてもよい。これにより、適用ルール算出にかかる計算量を低減できるようになる。
【0087】
また、情報処理装置100は、第1候補ルールに基づき入力データから除いた正例の数が所定数より少ない場合、第2候補ルールに基づき入力データから除く限定割合Kを小さく設定してもよい。これにより、間引き後のデータに対するルール特定の処理の際、適用ルール算出にかかる計算量を低減しつつ、ルール毎の正解率の順位変動を抑えることができるようになる。
【0088】
これらのことから、実施の形態によれば、予測対象数が限られる場合に、高精度な予測が可能なルール群を抽出できるようになる。また、ルール群の抽出に、再帰傾向を用いた対象ルール限定処理を導入することで、計算の処理速度を向上できるようになる。そして、例えば、自治体が管理する住民の介護リスクを予測する場合、上記の適用ルールを住民データに適用することで、膨大な住民のうち、ごく一部の介護リスクの住民を高精度に予測できるようになる。また、情報処理装置100が予測結果のデータごとに、適用した適用ルールを併せて出力することで、自治体の職員が予測結果の根拠を具体的に説明でき、対象となる住民等への説明責任を容易に遂行できるようになる。
【0089】
なお、本発明の実施の形態で説明した情報処理方法は、予め用意されたプログラムをサーバー等のプロセッサに実行させることにより実現することができる。本方法は、ハードディスク、フレキシブルディスク、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disk)、フラッシュメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本方法は、インターネット等のネットワークを介して配布してもよい。
【0090】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0091】
(付記1)学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、
列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、
前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、
残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、
特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
処理を行う制御部を備えたことを特徴とする情報処理装置。
【0092】
(付記2)前記制御部は、
所定のテストデータに前記適用ルールを適用し、前記適用ルールに適合したデータを前記テストデータのなかから予測し、予測結果を出力することを特徴とする付記1に記載の情報処理装置。
【0093】
(付記3)前記制御部は、
前記予測結果のデータごとに、適用した前記適用ルールを併せて出力することを特徴とする付記2に記載の情報処理装置。
【0094】
(付記4)前記制御部は、
前記入力データから除かれたデータの総数が、所定の数を超えるまで前記第2候補ルールの特定の処理を繰り返し行い、
前記第1候補ルールと、複数の前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
ことを特徴とする付記1~3のいずれか一つに記載の情報処理装置。
【0095】
(付記5)前記制御部は、
前記第2候補ルールの特定では、前記第1候補ルールを特定した際の正解率が特定された全てのルールNのうち上位から所定の限定割合Kのルールについてのみ計算の対象とすることを特徴とする付記1~4のいずれか一つに記載の情報処理装置。
【0096】
(付記6)前記制御部は、
前記第1候補ルールに基づき前記入力データから除いた前記正例の数が所定数より少ない場合、前記第2候補ルールに基づき前記入力データから除く前記限定割合Kを小さく設定することを特徴とする付記5に記載の情報処理装置。
【0097】
(付記7)前記制御部は、
前記候補ルールの列挙を、前記入力データに含まれる複数のパラメータの論理積で組み合わせた複数のルールに重みづけを行って求めることを特徴とする付記1~6のいずれか一つに記載の情報処理装置。
【0098】
(付記8)学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、
列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、
前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、
残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、
特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【0099】
(付記9)学習用の入力データに含まれる複数のパラメータのなかから、所定のルールに関連するパラメータの組み合わせを候補ルールとして列挙し、
列挙した前記候補ルールのうち、前記入力データが正例となる数が最大である正解率が最大の第1候補ルールを特定し、
前記第1候補ルールに合致する前記パラメータの組合せを有するデータを前記入力データから除き、
残りのデータのなかから、前記入力データが正例となる数が最大である正解率が最大の第2候補ルールを特定し、
特定した前記1候補ルールと、前記第2候補ルールとを、入力データの傾向を示す適用ルールとして決定する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【符号の説明】
【0100】
100 情報処理装置
101 候補ルール(群)
102 適用ルール(群)
103 予測結果
200 学習データ
601 データ取得部
602 ルール列挙部
603 学習制御部
604 学習設定部
605 ルール特定部
606 ルール登録部
607 データ加工部
608 ルール限定部
610 学習データDB
611 適用ルールDB
701 CPU
702 メモリ
703 ネットワークIF
705 記録媒体
710 ネットワーク
901 介護システム
911 入出力部
912 介護保険DB
921 データ変換部
922 データ取得部
923 ルール適用部
924 可視化部