(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-28
(45)【発行日】2024-09-05
(54)【発明の名称】意思決定支援装置
(51)【国際特許分類】
G06Q 10/04 20230101AFI20240829BHJP
G06Q 50/20 20120101ALI20240829BHJP
G06N 20/00 20190101ALI20240829BHJP
【FI】
G06Q10/04
G06Q50/20 300
G06N20/00
(21)【出願番号】P 2020177503
(22)【出願日】2020-10-22
【審査請求日】2023-04-17
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】工藤 文也
(72)【発明者】
【氏名】助田 浩子
(72)【発明者】
【氏名】千葉 和章
(72)【発明者】
【氏名】武田 英樹
(72)【発明者】
【氏名】上島 隆一
(72)【発明者】
【氏名】長谷川 徹治
【審査官】池田 聡史
(56)【参考文献】
【文献】特開2014-229252(JP,A)
【文献】特開2020-135066(JP,A)
【文献】特開2016-114694(JP,A)
【文献】特開2020-135080(JP,A)
【文献】国際公開第2016/063341(WO,A1)
【文献】中国特許出願公開第109461334(CN,A)
【文献】“約80%の精度で大学生の退学を予測 機械学習エンジンに10年間のデータ投入”,日経ビッグデータ,2017年01月10日,第35号,p.32
【文献】近藤伸彦ほか1名,“学修ライフログからの確率モデル構築による修学支援”,第77回(平成27年)全国大会講演論文集(4),一般社団法人 情報処理学会,2015年03月17日,pp.4-541~4-542
【文献】大友愛子ほか2名,“学内データの活用 ~大学におけるIR(Institutional Research)への取組み~”,FUJITSU,富士通株式会社,2014年05月01日,第65巻, 第3号,pp.41~47
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
分類判定に関わるパラメータの判定基準を決定するための意思決定支援装置であって、
分析対象データと、予測したい対象である目的変数を指定する分析案件情報を入力とし、機械学習により予測モデルを生成する予測モデル生成部と、
前記予測モデルのパラメータを連続的に変化させた際の予測モデルの評価値を計算する予測モデル評価部と、
パラメータを連続的に変化させた際の前記予測モデルの
複数の評価値
の変化を可視化して表示する可視化表示部と、
ユーザの指定したパラメータの判定基準を受け取り、前記予測モデル評価部に供給するユーザ入力部と、
を備える意思決定支援装置。
【請求項2】
請求項
1に記載の意思決定支援装置において、更に、
予測モデルの評価値から効果の予測値を見積もる効果見積もり部を備える意思決定支援装置。
【請求項3】
請求項
1に記載の意思決定支援装置において、更に、
予測モデルとユーザが入力した判定基準による予測値を出力する結果出力部を備える意思決定支援装置。
【請求項4】
請求項1に記載の意思決定支援装置において、
前記可視化表示部は、パラメータを連続的に変化させた際の予測モデルの評価値の変化点を提示する意思決定支援装置。
【請求項5】
請求項
1に記載の意思決定支援装置において、更に、
前記ユーザ入力部から供給されたパラメータの判定基準を基に生成された予測モデルについて、各変数の予測への寄与度を計算する変数寄与度計算部を備える意思決定支援装置。
【請求項6】
請求項1に記載の意思決定支援装置において、更に、
機械学習により生成した前記予測モデルを予測対象のデータに適用して予測を実行する予測実行部を備える意思決定支援装置。
【請求項7】
請求項
6に記載の意思決定支援装置において、更に、
予測結果を算出した際の説明変数の寄与度を計算する変数寄与度計算部を備える意思決定支援装置。
【請求項8】
請求項
6に記載の意思決定支援装置において、更に、
前記予測モデルから、説明変数を変化させた際の評価値の変化を推定するシミュレーション部を備える意思決定支援装置。
【請求項9】
請求項
8に記載の意思決定支援装置において、更に、
シミュレーション結果を自然言語に変換して表示する表示部を備える意思決定支援装置。
【請求項10】
学生の退学予測に関わる退学危険率の閾値を決定するための意思決定支援装置であって、
分析対象の学生データと、予測対象である退学有無の目的変数を指定する分析案件情報を入力とし、機械学習により学生の退学
の予測モデルを生成する予測モデル生成部と、
前記予測モデルのパラメータである退学危険率を連続的に変化させた際の予測モデルの評価値を計算する予測モデル評価部と、
退学危険率を連続的に変化させた際の前記予測モデルの
複数の評価値
の変化を可視化して表示する可視化表示部と、
ユーザの指定した退学危険率の閾値を受け取り、前記予測モデル評価部に供給するユーザ入力部と、
を備える意思決定支援装置。
【請求項11】
請求項
10に記載の意思決定支援装置において、更に、
予測モデルの評価値から、フォローコスト、フォロー漏れ危険率、誤ってフォローする危険率の少なくとも何れか1つの予測値を見積もる効果見積もり部を備え、
前記可視化表示部は、この予測値を表示する
意思決定支援装置。
【請求項12】
請求項
10に記載の意思決定支援装置において、
前記予測モデル評価部は、予測モデルの評価値として、退学・在学者の予測正解率および/または予測精度評価指標、または、在学と判定され在学だった者、在学と判定されたが退学した者、退学と判定されたが在学だった者、退学と判定され退学した者の、全学生に対する人数の割合を計算し、
前記可視化表示部は、この計算結果を可視化して表示する
意思決定支援装置。
【請求項13】
請求項
10に記載の意思決定支援装置において、更に、
機械学習により生成した前記予測モデルを予測対象の学生データに適用して退学危険率の予測を実行する予測実行部を備える意思決定支援装置。
【請求項14】
請求項
13に記載の意思決定支援装置であって、更に、
ユーザの指示を受け取り、前記予測モデルに基づいて、成績、出席日数などの学生データの値を変化させた際の退学危険率の変化を推定するシミュレーション部を備える意思決定支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習における分類モデルの産業応用において、ユーザの目的をもとに分類判定に関わるパラメータの判定基準を決定するための意思決定支援装置に関する。
【背景技術】
【0002】
大学において学生の退学者を減らすことは、志半ばで退学してしまう学生の救済と、大学の健全な経営の両面において重要な課題である。学務データを分析し、機械学習を用いて退学予兆のある学生をフォローすることで未然に退学を防ぐ取り組みが進められている。また、こうしたシステムのニーズは、大学の退学抑止分析に限らず、会費を支払っている会員の離脱防止の分野では、スポーツクラブ会員の脱退抑止、通信教育の離脱防止、動画・音楽会員サービスの脱退防止などにあり、予兆検知から対策を行う分野では、健康診断からの病気の予兆検知、機器の故障予測などにもあり、様々な分野に活用可能である。
【0003】
特許文献1には、データと変数生成条件情報とを格納した記憶部を用いたデータ統合分析システムであって、変数生成条件情報を用いてデータに関する説明変数を生成する説明変数生成部と、目的変数の入力を受け付ける目的変数入力部と、目的変数と説明変数との相関関係を計算する相関計算部と、相関関係を画面に表示する表示部と、を有することを特徴とするデータ統合分析システム、が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来でも、予測モデルに対し予測精度などの評価指標が最も高くなるよう閾値を自動で決定することはしばしば行われてきた。また、従来発明には意思決定を支援するためのデータ分析システムがあるが、パラメータを変化させた際の複数の評価値の変化を可視化しておらず、変化点をレコメンドする機能もない。現場でモデルを使用する目的によっては必ずしも単一の指標のみで評価しきれず、現場の意思決定が困難であった。このように従来では、評価指標の閾値を非専門家が決定することは困難であった。
【0006】
本発明は、データ分析に関する専門知識を持たないユーザであっても、機械学習モデルのパラメータに関する閾値を容易に決定することができる意思決定支援装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明では、パラメータの閾値を連続的に変化させた際に、複数の評価指標の変化や変化点を可視化して俯瞰的に提示することで、パラメータの閾値を決定するための意思決定支援装置を提案する。様々な観点の評価指標について、閾値を連続的に変化させた際の評価値の変化の様子や変化点を可視化することで、特に分布に偏りのあるデータに対して、評価値の変化を俯瞰的に把握可能となる。
【0008】
本発明の「意思決定支援装置」の一例を挙げるならば、
分類判定に関わるパラメータの判定基準を決定するための意思決定支援装置であって、分析対象データと、予測したい対象である目的変数を指定する分析案件情報を入力とし、機械学習により予測モデルを生成する予測モデル生成部と、前記予測モデルのパラメータを連続的に変化させた際の予測モデルの評価値を計算する予測モデル評価部と、パラメータを連続的に変化させた際の前記予測モデルの複数の評価値の変化を可視化して表示する可視化表示部と、ユーザの指定したパラメータの判定基準を受け取り、前記予測モデル評価部に供給するユーザ入力部と、を備えるものである。
【発明の効果】
【0009】
本発明によれば、データ分析に関する専門知識を持たないユーザであっても、機械学習モデルのパラメータに関する閾値を容易に決定することができる。
【0010】
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0011】
【
図6】予測モデル学習部中の予測モデル生成部を示す図である。
【
図7】予測モデル適用部中の施策シミュレーション部を示す図である。
【
図9】予測モデル評価結果・効果見積もり表示例(1)である。
【
図10】予測モデル評価結果・効果見積もり表示例(2)である。
【
図11】予測モデル評価結果・効果見積もり表示例(3)である。
【発明を実施するための形態】
【0012】
以下、本発明の実施例を、図面を参照して説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし主旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
【実施例】
【0013】
実施例は、本発明を学生の退学抑止分析に適用した例を示している。
【0014】
図1は、本発明の実施例のハードウェア構成を示すブロック図である。
本実施例は、「中央処理装置」001、「二次記憶装置」002、「主記憶装置」003、「入力装置」004及び「出力装置」005を有し、「中央処理装置」001、「二次記憶装置」002、「主記憶装置」003、「入力装置」004及び「出力装置」005がバス006で接続された計算機で構成されている。
【0015】
「中央処理装置」001は、「二次記憶装置」002や「主記憶装置」003に格納されたプログラムを実行するプロセッサである。
【0016】
「二次記憶装置」002は、例えば磁気記憶装置,フラッシュメモリ等の大容量かつ不揮発性の記憶装置であり、プログラム実行時に「中央処理装置」001によって計算される「予測モデル学習部」009のプログラム、「予測モデル適用部」010のプログラム、「モデルf(x)」011を格納する。
【0017】
「主記憶装置」003は、例えばDRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶装置であり、オペレーティングシステム(OS)及びアプリケーションプログラムを格納する。「中央処理装置」001が、オペレーティングシステムを実行することによって計算機の基本機能が実現され、アプリケーションプログラムを実行することにより計算機が提供する機能が実現される。具体的には「主記憶装置」003は、「入力データ」007,「ユーザ入力」008を格納する。
【0018】
「入力装置」004は、キーボード,マウスなどのユーザインターフェースである。「出力装置」005は、ディスプレイ装置,プリンタなどのユーザインターフェースである。
【0019】
なお、本システムがネットワークに接続し、他の装置との通信を制御する通信インターフェースを有してもよい。この場合、本システムが通信インターフェースを介して端末と接続されており、該端末が「入力装置」004及び「出力装置」005を有し、端末からの要求に従ってテーブルを処理し、処理結果を端末に出力する。
本システムは、物理的に一つの計算機上に構築されても、物理的には一つ又は複数の計算機上に構成された論理区画上に構築されてもよい。
【0020】
次に、「予測モデル学習部」009と「予測モデル適用部」010について詳細を説明する。「予測モデル学習部」009は、「入力データ」007、「ユーザ入力」008を入力とし、「予測モデルf(x)」011と「変数寄与度・効果見積もり結果」308を出力する。「予測モデル適用部」010は、「入力データx」007と「予測モデルf(x)」011を入力とし、「変数寄与度・施策効果見積もり」407と「予測結果」406を出力する。「予測モデル学習部」009と「予測モデル適用部」010を用いることで、分析者は、未知のデータに関して予測可能な予測モデルと、未知のデータの予測結果、変数寄与度、施策を行った際の効果見積もりを得る。
【0021】
図2は、
図1の「装置全体の構成図」における「入力データ」007の具体例を示している。
【0022】
「入力データ」007は、一例として
図2のようなテーブル形式のデータであり、列方向に各変数を格納し、行方向に各変数の値を格納している。各列は、「学籍番号」101、「年月日」102、「学部」103、「年次」104、「成績」105、「出席状況」106、「退学有無」107といったカラムであり、文字列・フラグ・連続数など様々な型の値を取る。
図2の具体例では、「学籍番号」101がIDカラム、「退学有無」107が目的変数カラムであり、その他は説明変数カラムである。分析の目的の一つは、目的変数カラムをより正確に予測する予測式であるモデルを生成することである。
図2では「退学有無」107が目的変数カラムであり、二値分類の問題であるため、説明変数を用いて目的変数の値が”在学”か”退学”どちらになるか予測する問題となっている。一般的にIDカラムはデータサンプルの通し番号であることが多く、分析には直接用いないことが多い。
図2の具体例では、「学籍番号」101と「年月日」102で一つのデータ(1行)がユニークとなるテーブルであり、データは、学籍番号ごと、年月日ごとに格納されている。例えば「学籍番号」101が”113201”である学生では、「年月日」102が”2015”、”2016”、”2017”である3行のデータが存在し、「年次」104が”3”の時点で「退学有無」107が”退学”となり、3年目に退学したことがわかる。一例としてテーブル形式のデータを示したが、本発明の構成として、データの入力形態は問わない。
【0023】
図3は、
図1の「装置全体の構成図」における「ユーザ入力」008の具体例を示している。
【0024】
「ユーザ入力」008は、
図2の「入力データ」007に関する追加の情報を提供する。
図3の具体例では、「目的変数」201、「時系列変数」202、「ID変数」203からなるテーブル形式を示しているが、ユーザが画面上で直接値を入力する形式や、テキスト形式で受け取るなど、入力形式はテーブルに限定されない。「目的変数」201は「入力データ」007の目的変数カラム名を示し、「時系列変数」202は「入力データ」007における「学籍番号」101の順序関係を示すカラム名である。「ID変数」203は「入力データ」007におけるキーカラム名である。具体例では時系列データが入力されることを想定して「時系列変数」202を入力しているが、「入力データ」007は時系列である必要はなく、その場合は「時系列変数」202の項目も必須ではない。また、「ユーザ入力」008に関する情報は、予め分析対象が判明していれば自動化が可能であり、本発明において必須の入力情報ではない。
【0025】
図4は、
図1の「装置全体の構成図」における「予測モデル学習部」009の具体例を示している。
【0026】
「予測モデル学習部」009は、分析対象である「入力データx」007と「ユーザ入力」008を受け取り、「変数寄与度・効果見積もり結果」308と「予測モデルf(x)」011を出力する。「予測モデル生成部」301では、「入力データx」007と「ユーザ入力」008を用いて機械学習による予測モデルの生成が行われる。
【0027】
「予測モデル評価部」302では、「予測モデル生成部」301で学習された予測モデルを基に、予測精度やAUC値と言ったモデルの評価値が計算される。例えば、
図9に示すような、モデルのパラメータの値を連続的に変えた際の退学・在学者の予測正解率、予測精度評価指標などの予測モデルの評価値が計算される。「効果見積もり部」303では、「予測モデル評価部」302で出力されたモデルの評価値をもとに、退学危険率が高くフォロー対象と判定された学生数や、その学生をフォローするために必要なコスト、取りこぼしている可能性のある学生数と言った、実際に生じるコストや効果が見積もられる。「可視化表示部」304では、「予測モデル評価部」302と「効果見積もり部」303で評価された様々な指標と効果の見積もり結果を可視化して表示する。「ユーザ入力部」305では、ユーザが可視化表示部304の表示を見て俯瞰的に把握し、モデルのパラメータの閾値(評価基準)を変化させる入力を行う。図における点線の矢印は、ユーザの関与を示している。「予測モデル評価部」302および「効果見積もり部」303では、「ユーザ入力部」305から入力された閾値に基づいて、さらに必要な計算を行う。「予測モデル評価部」302、「効果見積もり部」303と「ユーザ入力部」305に関わる「可視化表示部」304の表示画面の具体例は、後述する
図9の「予測モデル評価結果・効果見積もり表示例(1)」、
図10の「予測モデル評価結果・効果見積もり表示例(2)」および
図11の「予測モデル評価結果・効果見積もり表示例(3)」に示されている。
【0028】
「変数寄与度計算部」306では、「ユーザ入力部」305によって決定されたモデルパラメータの閾値を基に生成された予測モデルについて、各変数の予測への寄与情報を計算する。「変数寄与度計算部」306は、ユーザの予測モデルの理解を助ける機能であるが、必須の機能ではない。「結果出力部」307から、「予測モデル学習部」009の最終的な出力結果として、「変数寄与度・効果見積もり結果」308と「予測モデルf(x)」011を出力する。
【0029】
図5は、
図1の「装置全体の構成図」における「予測モデル適用部」010の具体例を示している。
【0030】
「予測モデル適用部」010は、「予測モデル学習部」009で学習した予測モデルである「予測モデルf(x)」011と、予測対象である「入力データx」007を受け取り、「変数寄与度・施策効果見積もり」407と「予測結果」406を出力する。「予測モデル適用部」010で入力される「入力データx」007は、「予測モデル学習部」009の学習のために入力された「入力データx」007とは異なり、
図2の「入力データ」007において目的変数である「退学有無」107が未知であるデータであり、「予測モデル適用部」010の目的は、「退学有無」107の予測を行うことである。
【0031】
「予測実行部」401では、「予測モデルf(x)」011を用いて予測対象である「入力データx」007に関して予測を実行する。「変数寄与度計算部」402では、「入力データx」007それぞれについて、予測結果である退学危険率を算出した際の各説明変数の寄与度を出力する。変数寄与度の表示の具体例を、
図12の「予測モデル結果表示画面」1101に示す。図の例では、出席率の寄与度が34%、履修単位数の寄与度が25%、学部の寄与度が8%…である。
【0032】
「施策シミュレーション部」403では、「入力データx」007の中の注目するデータに対して、「ユーザ操作部」404からユーザ指示を受け取り、いくつかの説明変数の値を変化させて「予測モデルf(x)」011を用いて退学危険率を算出することで、退学危険率の変化をシミュレーションする。「施策シミュレーション部」403の具体例を
図7の「施策シミュレーション部」403に、画面具体例を
図13の施策効果シミュレーション1203に示す。「結果出力部」405から、「予測モデル適用部」010の最終的な出力結果として、「変数寄与度・施策効果見積もり」407と「予測結果」406が最終的に出力される。
【0033】
図6は、
図4の「予測モデル学習部」009における「予測モデル生成部」301の具体例を示している。
【0034】
「予測モデル生成部」301では、分析対象である「入力データx」007と「ユーザ入力」008を用いて機械学習による予測モデルの生成が行われ、予測モデルの候補である「予測モデルf(x)」011が出力される。
【0035】
「データ前処理部」501では、「入力データx」007を機械学習可能なテーブル形式データに変換する。テーブル形式データとは、例えば
図2の「入力データ」007の具体例で示されているようなリレーショナルデータベース形式のテーブルデータ形式である。その他に、機械学習可能な前処理として、空白データなどの異常値処理、カラムの型判定・変換処理など基本的なデータクレンジング処理を含む。
【0036】
「特徴量生成部」502では、「入力データx」007のカラムを加工し、新たなカラムを生成する。例えば
図2の「入力データ」007における「成績」105カラムに対し、時系列順序を表す「年月日」102カラムを基に前後の変化量を計算し、「成績変化」カラムを新たに生成して「入力データ」007に加える処理を行う。特徴量生成処理は、一つのカラムを加工することもあれば、前述のように複数のカラムの情報を用いて生成することもある。
【0037】
「予測モデル学習部」503では、前処理・特徴量生成済みの「入力データx」007を用いて機械学習による予測モデルの生成を行う。「予測モデル学習部」503で用いる機械学習モデルについて、退学予測のような分類問題を対象とする場合には、線形判別モデルであるLogistic回帰モデルや非線形判別モデルであるSVM、決定木、ニューラルネットワークを用い、購買予測など連続数値の予測を対象とする場合には、線形回帰モデルや非線形回帰モデルであるSVR、決定木、ニューラルネットワークを用いることが考えられる。また、「予測モデル学習部」503では、モデルの学習を行うとともに、GridSearchなどを用いたモデルパラメータの探索も同時に行う。学習済みのモデルである「予測モデルf(x)」011が最終的に出力される。
【0038】
図7は、
図5の「予測モデル適用部」010における「施策シミュレーション部」403の具体例を示している。
【0039】
「施策シミュレーション部」403は、「入力データx」007、「モデルf(x)」011、「ユーザ指定」601を入力とし、「変数寄与度・施策効果見積もり」407と「予測結果」406を出力する。
【0040】
「最適化実行部」602では、
図2の「入力データ」007に示されるような各学生の説明変数値に対し、
図2の「成績」105や「出席状況」106などいくつかの説明変数値を変化させ、「モデルf(x)」011を用いて「退学有無」107の予測を行う。予測を行った結果は「予測結果」406として出力される。「予測結果」406の具体例を
図8の「予測結果」406に示す。
図8の「退学危険率」706にあるように、予測モデルによる退学危険率を算出する。例えば
図8における「学籍番号」701=”114501”の学生の、「年月日」=”2017”における「退学危険率」706は65%と予測される。「最適化実行部」602でいくつかの説明変数を変化させて「退学危険率」706を算出することで、「退学危険率」706が上昇または下降する。
【0041】
「最適化結果可視化部」603では、「最適化実行部」602で実行した最適化の過程と、最適化実行前後で、「退学危険率」706が変化する様子を可視化してユーザに提示する。
「施策シミュレーション部」403では「変数寄与度・施策効果見積もり」407と「予測結果」406が最終的に出力される。「施策シミュレーション部」403の画面の具体例を
図13の施策効果シミュレーション1203に示す。
【0042】
図8は、
図5の「予測モデル適用部」010における出力結果である「予測結果」406の具体例を示している。
【0043】
図5の「予測モデル適用部」010では、「予測モデルf(x)」011を用いて、「入力データx」007における未知の「退学有無」107を予測する。予測結果である「予測結果」406では、「退学有無」107を、「退学危険率」706として予測したカラムが追加される。「入力データx」007が「年月日」702カラムを持つような時系列テーブルである場合、「予測結果」406では、「学籍番号」701と「年月日」702でユニークとなる全てのデータに対して「退学危険率」706が計算され追加される。
図8の「予測結果」406において、「学籍番号」701=”114501”の学生の場合、「年月日」=”2015”、”2016”、”2017”の3年分のデータがあり、それぞれの「年月日」ごとに「退学危険率」706が計算される。「年月日」=”2015”では「退学危険率」=4%であり、「年月日」=”2017”では「退学危険率」=”65%”と予測されている。「退学危険率」が50%を超える場合に対象学生をフォローする場合、「学籍番号」701=”114501”は「年月日」=”2017”の際にフォロー対象と判断されることになる。
【0044】
図9、10、11は、
図4の「予測モデル学習部」009における予測モデル評価結果・効果見積もり表示の具体例を示している。
【0045】
図6における「予測モデル生成部」301から出力された「予測モデルf(x)」011により、
図8の「予測結果」406と同様の「退学危険率」706が計算される。「退学危険率」706については、「退学危険率」706の値がいくつ以上の学生をフォロー対象とするかという判定基準(閾値)を決める意思決定が必要になるが、閾値の決め方によってフォローに要するコストや、フォローすべき学生のフォロー漏れのリスクが生じるため、大学教務のように、実際にシステムを運用するユーザによる試行錯誤が必要となる。
図4の「予測モデル学習部」009では、「予測モデル評価部」302、「効果見積もり部」303、「可視化表示部」304、「ユーザ入力部」305において、ユーザからの入力を受け取り、閾値を変化させるループを設けることで、フォローする学生の基準を決める退学危険率の閾値決めにおいて、ユーザが意思決定可能となる。退学危険率の閾値の変化は連続的であるが、ここで言う連続的とは、0.1刻みの変化など細かい離散変化を含む。
図9、10、11はその一連の過程と可視化画面の具体例を示している。
【0046】
ユーザが「ユーザ入力部」305において、ある退学危険率の閾値を入力すると、「予測モデルf(x)」011を用いて退学有無の予測が計算され、実際の退学有無結果である「退学有無」107の情報を持つ「入力データx」007と比較することで、正しく“在学者”あるいは“退学者”を予測できた割合や、Precision、Recall、f-measureと言った様々なモデルの評価指標を計算できる。ユーザからの入力を受け取る、あるいはあらゆる退学危険率の閾値の場合を計算してグラフにプロットすることで、ユーザは、退学危険率の閾値を変化させた際に、実際に検出される”退学”者の割合や、実際には”退学”する学生を誤って“在学”と予測する、反対に実際には“在学”である学生を誤って“退学”と予測するリスクを視覚的に把握できる。
【0047】
また、モデルの予測精度などの評価結果を基にして、実運用の際の効果やコストに関する評価結果も計算する。一例としては、
図9のフォローコスト810やフォロー漏れ危険性811、誤ってフォローする危険性812が挙げられる。また、その他の情報として
図9の「退学者・在学者の予測正解率(高いほど良い)」801や「予測精度評価指標」802に示されるような、判定基準の変化に対する評価値の変化の様子を示すグラフが挙げられる。「退学者・在学者の予測正解率」801では、判定基準を変化させた際のモデルによる“在学者”の的中率803と“退学者”804の的中率の変化を示している。一方、「予測精度評価指標」802では、“再現率”806、“適合率”807、“正解率”805の変化を示している。
【0048】
判定基準は、例えば808のようなバーで示され、ユーザは好きな値を設定してモデルの予測精度や運用コストを見積もることができる。例えば
図9のように退学危険率の閾値を0.9(90%)以上と定めた場合、実際の退学者200人に対し、予測モデルによって退学と判定できたのは190人、実際には退学であるが誤って“在学”と判断したのは110人、実際には“在学”にも関わらず誤って“退学”と判断したのは10人であった。これらの予測結果評価から、実際に学生をフォローする際に要する人員数(フォローコスト)や、フォロー漏れ、誤ってフォローする危険性を表示する。
【0049】
また、
図9の“再現率”806に示す例のように、評価値の推移を示すグラフにおいて、連続的に退学危険率を変化させた際の評価値の変化点809を、閾値候補として表示する。変化点の基準として、評価値の微分値の傾向が変化する点や変曲点などが考えられる。退学危険率の閾値を変化させた際、それに対する評価値の変化の特徴的な地点を有力な閾値候補として画面に表示し、ユーザにレコメンドすることで、データ分析や機械学習の非専門家である大学教務などのユーザに対して、運用の観点となる様々な指標の変化を確認しながら、退学危険率の閾値を決定することができる。
【0050】
図10、11は、ユーザに対してより直接的な効果を可視化した際の画面の具体例を示している。
【0051】
図10のグラフ901では、
図9のようにモデルの予測精度などの専門的な評価指標を提示するのではなく、モデルの予測精度から試算される“退学者”902や“在学者”903の割合や、“退学”と予測したが“在学”であった学生904、“在学”と予測したが“退学”905であった学生の割合を可視化して表示している。これにより、再現率や適合率と言った専門用語に不慣れなユーザであっても、判定基準を意思決定することができる。
【0052】
また、グラフ901に示す値はモデルを学習した際の結果であるが、実際に運用する際に用いられるのは当然、まだ“退学”するのかどうか不明の学生である。
図10の906に示す画面では、実際にモデルを適用して“退学”危険性が高いかどうかをモデルによって予測し、フォローなどの対策を講じる全体の学生数907や、学生ひとりあたりの対策・フォローに要する人件費などのコスト908を入力すると、現在のモデルによって対策が必要と判断される学生数として「対策が必要な学生」909と対策にかかるコスト910が計算される。
図10の具体例では、これから予測を行う在学者人数が5,000人であり、学生ひとりあたりの対策コストが0.1人日であるとき、対策が必要な学生数は750人であり、対策にかかるコストは、学生ひとりあたりの対策コストを0.1人日とすると75人日であることが分かる。この情報を基にユーザは、モデルによる退学者の判定基準を決定することができる。
【0053】
図11は、判定基準を連続的に変化させることができる場合の画面具体例である。
図10,11のような可視化画面を表示することで、モデルの予測精度や、未知のデータに適用した際の運用コストを常に知ることができ、データの傾向の変化に対応することが可能となる。
【0054】
また、このシステムは毎年運用を続ける想定であり、年数が経過して未知の学生データに関して実際の退学有無が判明した際には、それらのデータを新たな学習データとして入力する、あるいは的中率を比較することで、モデルを補正する運用が考えられる。
【0055】
図11の具体例では、グラフ1002に昨年度と今年度の学生データを用いて退学危険率を予測した際に、退学危険率を変化させた際の退学判定割合を可視化している。昨年度の学生は、退学/在学の結果が判明しているデータであり、今年度の学生はまだ退学/在学の結果が未知のデータである。具体例に挙げている退学予測・抑止システムでは、毎年新しいデータが追加され、傾向が変化することもあり得るデータである。繰り返し運用を続ける中で、このようなデータの傾向の変化を可視化してユーザに表示することで、モデル学習や退学危険率決定の意思決定に反映することができる。グラフ1002では、去年の学生と比べ今年の学生は、退学危険率が60%以上を閾値とした場合により多くの学生を退学危険性があると判定することがわかり、データの傾向の変化を加味した上で退学危険率の閾値を決定することができる。
【0056】
図9、10、11のような可視化画面により、データ分析や機械学習の非専門家である大学教務などのユーザに対して、意思決定支援を行う仕組みを提供できる。
【0057】
図12は、
図5の「予測モデル適用部」010における予測モデル結果表示画面の具体例を示している。
【0058】
図5において、「予測モデル適用部」010によって、
図8の「予測結果」406に示されるような退学予測に関する予測結果が出力される。「予測結果」406によって、退学危険率の高い学生を把握することができるが、退学危険率の高い学生一人一人に対し、詳細な予測結果を表示する画面が
図12の「予測モデル結果表示画面」1101である。「予測モデル結果表示画面」1101により、選択した学生の属性情報や、関連するその他のデータを閲覧することができる。また、「予測モデルf(x)」011によって推定された退学危険率が、モデル中のどの説明変数・特徴量によって重みづけられたか、内訳を表示することで、退学危険率を向上させた因子の候補を提示する。退学危険率を向上させたいくつかの因子候補のうち、学生をフォローすることで変化させることができるような制御可能な説明変数・特徴量に関しては、説明変数・特徴量の値を変化させた際の退学危険率の変化の推移をシミュレーションすることで、学生をフォローすることで得られる効果を見積もることができる。施策の効果をシミュレーションし、可視化表示した際の具体例を
図13に示す。
【0059】
図13は、
図5の「予測モデル適用部」010における「施策シミュレーション部」403の可視化具体例を示している。
【0060】
「予測モデルf(x)」011の具体例を1201に示す。予測モデル1201は、一般的に複雑な形をした関数である。予測モデル1201を部分的に可視化した結果を1202に示す。予測モデルに使用される説明変数は数十~数百になることもあり、
図13に示すように、変数x1とx2のみをプロットして部分的にのみ可視化可能である。
【0061】
施策効果シミュレーションでは、変化させる対象の説明変数と特徴量x1,x2をユーザが選択し、選択されたx1やx2の値を変化させ、「予測モデルf(x)」011に入力することで退学危険率f(x)を計算する。結果を1203のように可視化して表示することで、ユーザが、施策を行った際の効果を把握することが可能となる。施策実施前1204と施策実施後1205を、変化した説明変数・特徴量x1,x2の変化量1206と、退学危険率f(x)の変化量Δf(x)1207とともに可視化表示する。
図13では、説明変数・特徴量の具体例として、成績と出席日数を上げている。また、これらの結果を、1208に示されるように型をあらかじめ定義した自然言語文章で表現することで、分析非専門家に対しても施策の効果・解釈が容易となる。図の例では、学科x2が工学部の学生に対し(条件)、出席日数x1を5日分増加できれば(行動)、退学率f(x)は25%減少する(効果)と表示している。
【0062】
本実施例では、意思決定支援装置が1つの計算機上に構築されているように説明したが、学生データを処理し記憶する他の計算機と通信回線を介して接続し、他の計算機から学生データを入力し、また、他の計算機に予測結果などを出力する、システムとして構築してもよい。
【0063】
学生の退学抑止分析に適用した本実施例によれば、予測モデルのパラメータである退学危険率を連続的に変化させた際の予測モデルの評価値を計算し、可視化して表示することで、更には、予測モデルの評価値から効果の予測値を見積もり表示することで、データ分析の非専門家である大学教務などのユーザであっても、フォローすべき学生の基準である退学危険率の判定基準(閾値)を容易に決定することができる。
また、パラメータを連続的に変化させた際の予測モデルの評価値の変化点を閾値候補として提示することで、退学危険率の閾値より容易に決定することができる。
また、機械学習により生成した予測モデルを予測対象の学生データに適用して、学生の退学危険率を予測し、必要なフォローを行うことができる。
さらに、シミュレーション部で、予測モデルに基づいて、成績、出席日数などのデータの値を変化させた際の退学危険率の変化を推定することにより、学生をフォローすることで得られる効果を見積もることができる。
【0064】
本実施例では、大学の退学抑止分析を例に本発明を説明したが、本発明はこれに限らず、その他のデータ分析に用いることができる。
本発明によれば、データ分析に関する専門知識を持たないユーザであっても、機械学習モデルのパラメータに関する判定基準である閾値を容易に決定することができる。
【符号の説明】
【0065】
001…中央処理装置
002…二次記憶装置
003…主記憶装置
004…入力装置
005…出力装置
006…バス
007…入力データ
008…ユーザ入力
009…予測モデル学習部
010…予測モデル適用部
011…モデルf(x)
301…予測モデル生成部
302…予測モデル評価部
303…効果見積もり部
304…可視化表示部
305…ユーザ入力部
306…変数寄与度計算部
307…結果出力部
401…予測実行部
402…変数寄与度計算部
403…施策シミュレーション部
404…ユーザ操作部
405…結果出力部
501…データ前処理部
502…特徴量生成部
503…予測モデル学習部
602…最適化実行部
603…最適化結果可視化部