IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-予測装置、予測方法、及び、プログラム 図1
  • 特許-予測装置、予測方法、及び、プログラム 図2
  • 特許-予測装置、予測方法、及び、プログラム 図3
  • 特許-予測装置、予測方法、及び、プログラム 図4
  • 特許-予測装置、予測方法、及び、プログラム 図5
  • 特許-予測装置、予測方法、及び、プログラム 図6
  • 特許-予測装置、予測方法、及び、プログラム 図7
  • 特許-予測装置、予測方法、及び、プログラム 図8
  • 特許-予測装置、予測方法、及び、プログラム 図9
  • 特許-予測装置、予測方法、及び、プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-19
(45)【発行日】2024-02-28
(54)【発明の名称】予測装置、予測方法、及び、プログラム
(51)【国際特許分類】
   G09B 19/00 20060101AFI20240220BHJP
   G06Q 10/04 20230101ALI20240220BHJP
【FI】
G09B19/00 H
G06Q10/04
【請求項の数】 8
(21)【出願番号】P 2022516574
(86)(22)【出願日】2020-04-23
(86)【国際出願番号】 JP2020017466
(87)【国際公開番号】W WO2021214936
(87)【国際公開日】2021-10-28
【審査請求日】2022-10-07
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】原 健
【審査官】西村 民男
(56)【参考文献】
【文献】特開2019-164738(JP,A)
【文献】国際公開第2016/151639(WO,A1)
【文献】安部 恵介,成績不良の早期予測による留年・退学予防方式,電子情報通信学会2019年総合大会講演論文集 情報・システム2,日本,一般社団法人 電子情報通信学会,2019年03月05日,p. 132
【文献】ソリューション動向 Solutions, 約80%の精度で大学生の退学を予測機械学習エンジンに10年間のデータ,日経ビッグデータ,日本,日経BP社,2017年01月10日,第35号,p. 32
【文献】大友 愛子,学内データの活用 ~大学におけるIR(Institutional Research) への取組み~,FUJITSU,日本,富士通株式会社,2014年05月01日,Vol.65 No.3,pp. 41-47
(58)【調査した分野】(Int.Cl.,DB名)
G09B 1/00- 9/56,
17/00-19/26,
G06F 18/00-18/40,
G06N 3/00-99/00,
G06Q 10/00-10/10,
30/00-30/08,
50/00-50/20,
50/26-99/00
(57)【特許請求の範囲】
【請求項1】
学生に関する学生データを取得する取得手段と、
前記学生データに基づいて、訓練データを生成する前処理手段と、
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類手段と、
前記訓練データに基づいて、前記グループ毎に、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習手段と、
対象学生の学生データから、当該対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測する予測手段と、
を備え、
前記学生データは複数のデータ項目を含み、
前記分類手段は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類し、
前記学習手段は、前記木構造の階層数を所定数以下に維持しつつ前記階層数を変化させるとともに、前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ前記割合を変化させて異なる複数の分類を行い、前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する予測装置。
【請求項2】
前記前処理手段は、前記学生データの少なくとも一部のデータ項目について、前記学生データの値を変更して前記訓練データを生成する請求項1に記載の予測装置。
【請求項3】
前記学生データは、前記学生の人間関係、生活習慣、学習習慣、学習に対する動機付け、及び、前記学生の進級状況に影響を与える要素のうち少なくとも1つに関するデータ項目を含む請求項1又は2に記載の予測装置。
【請求項4】
前記学生データは、科目区分毎の前記学生の単位修得率及びGPAの少なくとも1つを含む請求項1乃至3のいずれか一項に記載の予測装置。
【請求項5】
前記学生データは、前記学生の進級状況に影響を与える科目区分の単位修得率を含む請求項1乃至4のいずれか一項に記載の予測装置。
【請求項6】
前記進級状況は、前記学生の留年及び退学の少なくとも一方を含む請求項1乃至5のいずれか一項に記載の予測装置。
【請求項7】
コンピュータにより実行される予測方法であって、
学生に関する学生データを取得し、
前記学生データに基づいて、訓練データを生成し、
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類処理を行い、
前記訓練データに基づいて、前記グループ毎に、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習処理を行い、
対象学生の学生データから、当該対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測し、
前記学生データは複数のデータ項目を含み、
前記分類処理は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類し、
前記学習処理は、前記木構造の階層数を所定数以下に維持しつつ前記階層数を変化させるとともに、前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ前記割合を変化させて異なる複数の分類を行い、前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する予測方法。
【請求項8】
学生に関する学生データを取得し、
前記学生データに基づいて、訓練データを生成し、
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類処理を行い、
前記訓練データに基づいて、前記グループ毎に、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習処理を行い、
対象学生の学生データから、当該対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測する処理をコンピュータに実行させ、
前記学生データは複数のデータ項目を含み、
前記分類処理は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類し、
前記学習処理は、前記木構造の階層数を所定数以下に維持しつつ前記階層数を変化させるとともに、前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ前記割合を変化させて異なる複数の分類を行い、前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択するプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学生の進級状況を予測する技術に関する。
【背景技術】
【0002】
学生の成績や履修科目の修了状況などに基づいて、学生の退学や除籍などのドロップアウトを予測する手法が提案されている。例えば、特許文献1は、学生の退学の有無と、退学と相関関係を示す属性の属性値とを用いて退学リスクを計算するモデルを作成し、このモデルを用いて学生の退学の可能性を予測する手法を記載している。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2016-114694号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の手法では、訓練データの偏りや学習済みモデルの複雑性が考慮されておらず、予測精度が低下する場合がある。
【0005】
本発明の1つの目的は、学生の留年や退学などの進級状況を高精度で予測することが可能な予測装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、予測装置は、
学生に関する学生データを取得する取得手段と、
前記学生データに基づいて、訓練データを生成する前処理手段と、
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類手段と、
前記訓練データに基づいて、前記グループ毎に、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習手段と、
対象学生の学生データから、当該対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測する予測手段と、
を備え、
前記学生データは複数のデータ項目を含み、
前記分類手段は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類し、
前記学習手段は、前記木構造の階層数を所定数以下に維持しつつ前記階層数を変化させるとともに、前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ前記割合を変化させて異なる複数の分類を行い、前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する。
【0007】
本発明の他の観点では、コンピュータにより実行される予測方法は、
学生に関する学生データを取得し、
前記学生データに基づいて、訓練データを生成し、
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類処理を行い、
前記訓練データに基づいて、前記グループ毎に、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習処理を行い、
対象学生の学生データから、当該対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測し、
前記学生データは複数のデータ項目を含み、
前記分類処理は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類し、
前記学習処理は、前記木構造の階層数を所定数以下に維持しつつ前記階層数を変化させるとともに、前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ前記割合を変化させて異なる複数の分類を行い、前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する予測方法。
【0008】
本発明のさらに他の観点では、プログラムは、
学生に関する学生データを取得し、
前記学生データに基づいて、訓練データを生成し、
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類処理を行い、
前記訓練データに基づいて、前記グループ毎に、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習処理を行い、
対象学生の学生データから、当該対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測する処理をコンピュータに実行させ、
前記学生データは複数のデータ項目を含み、
前記分類処理は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類し、
前記学習処理は、前記木構造の階層数を所定数以下に維持しつつ前記階層数を変化させるとともに、前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ前記割合を変化させて異なる複数の分類を行い、前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する。
【発明の効果】
【0009】
本発明によれば、学生の留年や退学などの進級状況を高精度で予測することが可能な予測装置を提供することが可能となる。
【図面の簡単な説明】
【0010】
図1】本発明の第1実施形態に係る予測装置の概略を示す。
図2】予測装置のハードウェア構成を示すブロック図である。
図3】予測装置の予測時の機能構成を示すブロック図である。
図4】予測装置が使用するモデルの例を示す。
図5】分類部による学生データの分類の例を示す。
図6】予測装置による予測処理のフローチャートである。
図7】予測装置の学習時の機能構成を示すブロック図である。
図8】予測装置の学習時に使用する分類条件の例を示す。
図9】予測装置によるモデル生成処理のフローチャートである。
図10】第2実施形態に係る予測装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<第1実施形態>
[基本概念]
図1は、本発明の第1実施形態に係る予測装置の概略を示す。予測装置100は、学生データベース(DB)5に接続されている。学生DB5は、大学や専門学校などの学校に通う学生に関する各種のデータ(以下、「学生データ」とも呼ぶ。)を記憶している。予測装置100は、学生データに基づいて、学生の留年、退学などを含む進級の状態や進級の可否(以下、「進級状況」と呼ぶ。)を予測する。具体的に、ある学生について進級状況を予測する場合、予測装置100は、予測の対象となる学生(以下、「対象学生」とも呼ぶ。)についての学生データを学生DB5から取得する。そして、詳細は後述するが、予測装置100は、学生データに基づいて進級状況を推定するモデルを用いて、対象学生の留年、退学などの進級状況を予測する。また、予測装置100は、必要に応じて、予測結果を外部装置へ出力する。
【0012】
[ハードウェア構成]
図2は、予測装置100のハードウェア構成を示すブロック図である。図示のように、予測装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、入力部16と、表示部17とを備える。
【0013】
IF11は、外部装置との間でデータの入出力を行う。具体的に、予測装置100は、IF11を通じて学生DB5から学生データを取得する。また、予測装置100により生成された予測結果は、必要に応じてIF11を通じて外部装置へ出力される。
【0014】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、予測装置100の全体を制御する。具体的に、プロセッサ12は、後述する予測処理及びモデル生成処理を実行する。
【0015】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。また、メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0016】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、予測装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。予測装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0017】
DB15は、IF11を通じて入力された学生データや、予測装置100による予測結果などを記憶する。また、DB15は、進級状況の予測に用いるモデルや、そのモデルを学習するために使用される訓練データを記憶する。予測に用いるモデルは、機械学習により学習されるモデルであり、ニューラルネットワークを用いたものでもよく、その他の機械学習モデルを用いたものでもよい。
【0018】
入力部16は、例えばキーボード、マウスなどであり、後述の予測処理やモデル生成処理を実行する際に、使用者が指示や入力を行うために使用される。表示部17は、例えば液晶ディスプレイなどであり、使用者による操作画面や、予測装置100が生成した予測結果を表示する。
【0019】
[予測時の機能構成]
予測装置100は、異種混合学習を利用して予測を行う。異種混合学習では、条件分岐を表すノードで構成されるツリー(木構造)と、複数の線形モデルとのセットで定義される予測モデルが生成され、各ツリーの葉には1つの予測モデルが割り当てられる。この予測モデルを利用する際には、まず、予測対象のデータ(各データ項目の値の組み合わせ)を利用してツリーを根から葉まで辿る。そして、辿り着いた葉に対応する線形モデルに予測対象のデータを入力することで、目的変数の値を得る。異種混合学習については、米国特許出願公開第2014/0222741A1号明細書に記載されており、この文献の内容をここに取り込む。なお、異種混合学習の学習方法については、後述する[モデル生成処理]において説明する。予測装置100は、異種混合学習を利用することで、より高精度に予測することが可能となる。
【0020】
図3は、予測装置100の予測時の機能構成を示すブロック図である。予測装置100は、機能的には、分類部21と、第1予測部22a~第n予測部22nと、出力部23とを備える。なお、以下の記述において、第1予測部22a~第n予測部22nの各々を区別しない場合には、単に「予測部22」と記す。
【0021】
分類部21は、学生DB5から学生データを取得し、学生データをそのデータの値に基づいて分類する。学生データは、各学生に関する各種のデータを含む。例えば、図4に示すように、学生データは、学生の性別、都道府県、通学時間、各学年における単位修得率、科目区分毎の評価など、複数のデータ項目を含む。分類部21は、データ項目に関する条件分岐を有する木構造を用いて学生データを複数のグループに分類し、分類後の各学生データを第1予測部22a~第n予測部22nへ出力する。
【0022】
第1予測部22a~第n予測部22nは、それぞれが1つのモデルを用いて進学状況の予測を行う。ここで「n」は、分類部21により分類されたグループ数に相当する。いま、分類部21が、学生データを第1グループから第nグループのn個のグループに分類したとすると、第1予測部22aは第1モデルを用いて第1グループに属する学生の予測を行い、第2予測部22bは第2モデルを用いて第2グループに属する学生の予測を行い、第n予測部22nは第nモデルを用いて第nグループに属する学生の予測を行う。第1~第nモデルは、それぞれ機械学習により学習済みのモデルである。各予測部22a~22nは、予測結果を出力部23に出力する。
【0023】
図4は、予測部22が使用するモデルの例を示す。この例では、各モデルは、学生データの各データ項目の値と係数との積の総和を予測値として算出するものとする。予測値は、対象学生の進級確率又は留年確率、退学確率などを示す。各予測部22は、予測値を予測結果として出力する。各係数は、各データ項目に関する重みを示し、学生の留年や退学に大きな影響を与えるデータ項目ほど大きな値となる。なお、図4の例は、正の係数は留年する方に影響を与え、負の係数は留年しない方に影響を与えることを意味している。図4から理解されるように、モデル毎に異なるデータ項目の組み合わせを用いることができる。図4の例では、第1モデルは科目区分毎の評価(「語学科目の評価」、「法律科目の評価」)を用いないモデルであり、第2モデルは「都道府県」、「通学時間」を用いないモデルとなっている。即ち、各モデルは、そのモデルに対応するグループに属する学生の留年や退学に与える影響が大きいデータ項目の値を大きい重みで使用するとともに、影響が小さいデータ項目の値を小さい重みで使用するか、又は、影響が小さいデータ項目を使用しないように生成される。
【0024】
出力部23は、複数の予測部22のうち、対象学生について実際に予測を行った予測部22から予測結果を受け取り、出力する。例えば、対象学生が第1グループに属する場合、第1予測部22aがその対象学生の進級状況の予測結果を生成して出力部23へ出力する。このとき、第2~第n予測部22b~22nは、その対象学生の属するグループに対応しないので、予測は行わない。よって、出力部23は、第1予測部22aが出力した予測結果を出力する。
【0025】
図5(A)は、分類部21による学生データの分類の一例を示す。この例では、分類部21は、木構造のノードを構成するデータ項目として「性別」を使用し、全ての学生データを、女子学生のグループG1と、男子学生のグループG2に分類する。予測部22は、グループ毎に別のモデルを使用して予測を行う。具体的に、予測部22は、女子学生のグループG1に属する学生については第1モデルを用いて進級状況を予測し、男子学生のグループG2に属する学生については第2モデルを用いて進級状況を予測する。
【0026】
図5(B)は、分類部21による学生データの分類の他の例を示す。この例では、分類部21は、ノードを構成するデータ項目として「性別」と「3年の単位修得率」を用い、深さが2階層である木構造を利用して分類を行う。分類部21は、全ての学生データを、女子学生のグループG1と、男子学生で3年の単位修得率が0.9未満であるグループG3と、男子学生で3年の単位修得率が0.9以上であるグループG4とに分類する。予測部22は、グループ毎に別のモデルを使用して予測を行う。具体的に、予測部22は、グループG1に属する学生については第1モデルを用いて進級状況を予測し、グループG3に属する学生については第3モデルを用いて進級状況を予測し、グループG4に属する学生については第4モデルを用いて進級状況を予測する。
【0027】
このように、本実施形態では、予測装置100は、異種混合学習により、学生データに含まれる1又は複数のデータ項目に関する条件分岐を有する木構造を用いて学生データを複数のグループに分類し、対象学生が属するグループに対応するモデルを用いてその対象学生の進級状況を予測する。現実の世界では、学生が留年したり退学したりする要因は、単純な学業の成績のみではなく、様々な要因が組み合わさっていることが多い。この点、本実施形態では、複数のデータ項目が示す要因が組み合わさって留年や退学につながる様々なケースを、各ケースに適したモデルを用いて精度よく予測することが可能となる。
【0028】
なお、図4に示す学生データのデータ項目は一例に過ぎず、これら以外の各種のデータも学生データとして使用することができる。具体的に、学業成績に関するデータとしては、単位修得率の他に、GPA(Grade Point Average)などを使用してもよい。また、科目区分ごとの単位修得率のうち、特に学生が躓きやすい科目、即ち、単位を落としやすい科目区分に注目して学生データを使用してもよい。一般的には、一般教養科目の単位修得率やGPAが低い場合でも留年に至る可能性が低いが、必須科目の単位修得率やGPAが低い場合は、留年に至る可能性が高い。また、特定の科目区分における単位修得率と、留年との間に相関関係が認められるような場合もある。例えば、特定の法律系科目の単位を落とすと留年の確率が高いなどの傾向が認められる場合もある。よって、学業成績に関するデータは、一般教養と必須科目、法律系と語学系など、異なる観点による科目区分を用いて分類して使用するのが効果的である。
【0029】
また、学業成績に関するデータ以外に、学生の属性に関するデータとしては、学生の出身地又は出身地域、出身高校、奨学金利用の有無、学費納入の遅延の有無、などを使用してもよい。また、学生の人間関係に関するデータとして、同居人の有無(一人住まい、家族と同居)、保証人の続柄、居住都道府県、地域などの保証人に関するデータ、部活動やサークル活動に関するデータなどを使用してもよい。また、学生の生活習慣に関するデータとして、通学時間以外に、通学手段(電車、自転車、バイクなど)などを使用してもよい。また、学生の学習習慣や学習に対する動機付けに関するデータとして、受講科目の時間帯や時間割、図書館の利用履歴、eラーニングの受講状況、レポート提出の遅延の有無、資格試験や語学検定試験の受験履歴などを使用してもよい。
【0030】
[予測処理]
次に、予測装置100による予測処理について説明する。図6は、予測処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行し、図3に示す要素として動作することにより実現される。
【0031】
まず、予測装置100は、学生DB5から、対象学生の学生データを取得する(ステップS11)。次に、分類部21は、取得した学生データに基づいて、対象学生が属するグループを決定する(ステップS12)。次に、予測部22は、対象学生の学生データを用いて、対象学生の進級状況を予測する(ステップS13)。具体的には、複数の予測部22a~22nのうち、ステップS12で決定されたグループに対応する予測部22が、学習済みモデルを用いて対象学生の進級状況を予測する。出力部23は、予測を行った予測部22から予測結果を受け取り、出力する(ステップS14)。なお、出力部23は、予測結果を外部装置へ出力してもよいし、内部に保存してもよいし、表示部17に表示してもよい。
【0032】
[学習時の機能構成]
図7は、予測装置の学習時の機能構成を示すブロック図である。学習時の予測装置100xは、前処理部31と、分類条件設定部32と、第1~第n予測部22a~22nと、モデル更新部33とを備える。第1~第n予測部22a~22nは、図3に示す予測時の予測装置100と同様である。学習時の予測装置100xは、第1~第n予測部22a~22nに用いられる第1~第nモデルをそれぞれ学習する。
【0033】
前処理部31は、学生データに対して前処理を行い、モデルの学習に用いるのに適した訓練データD1を生成する。訓練データD1は、各モデルを学習するための教師データであり、入力データD2と、入力データD2に対する正解を示す正解ラベル(教師ラベル)D3とを含む。具体的には、入力データD2は、学生データに含まれる各データ項目、即ち、図4に例示する各データ項目の値である。また、入力データD2に対する正解ラベルD3は、その学生データに対応する学生が留年又は退学したか否かを示すデータである。
【0034】
また、前処理部31は、訓練データを生成する際、必要に応じて学生データを増量する。具体的には、前処理部31は、実際に存在する学生について収集した学生データ(以下、「生データ」と呼ぶ。)に基づいて追加データを生成し、訓練データD1として使用する。即ち、訓練データD1は、生データに加えて、増量された追加データを含む。学生データを増量するのは、データ量が不足している条件の学生データを増やして全体的なデータの偏りをなくすためである。特に、現実に留年や退学する学生の数は全学生数に対して少ないため、学生の留年や退学などの進学状況を予測するモデルを生成する際にデータを増量して学習を行うことは、モデルの汎用性を高めるために有効である。
【0035】
例えば、前処理部31は、データ項目「都道府県」に関し、A県の学生の生データが少ない場合、その県と同じ地域に属するB県の生データを用いてA県の学生データを作成する。同様に、前処理部31は、データ項目「通学時間」について、通学時間「80~90分」の学生の生データが少ない場合、通学時間「60~70分」と通学時間「90分以上」の生データを用いて通学時間「80~90分」の学生データを作成する。また、女子学生の学生データが男子学生の学生データより少ない場合、女子学生の学生データを増量して男子学生の学生データとのバランスをとってもよい。こうして、前処理部31は、必要に応じて学生データを増量して、様々な条件についてバランスのとれた訓練データD1を生成し、分類条件設定部32に出力する。
【0036】
分類条件設定部32は、各予測部22のモデルの学習に使用する訓練データD1の分類条件を設定する。ここで「分類条件」とは、図8(A)、8(B)などに例示する木構造により規定され、使用するモデル数、木構造の階層の深さ、各モデルに入力されるデータ項目、及び、各データ項目の値に基づくノードの分岐条件などを含む。言い換えると、分類条件は、予測部22が使用する各モデルが適用されるグループを規定する条件である。なお、分類条件設定部32は、最初は予め使用者などが設定した初期値を分類条件として設定し、その後は分類条件の一部をランダムに変更して設定する。
【0037】
そして、分類条件設定部32は、設定した分類条件に基づいて、訓練データD1を各モデルに対応するグループに分類する。即ち、分類条件設定部32は、第1~第n予測部22a~22nが使用するモデル毎に入力データD2を抽出する。例えば、図8(A)に示すように、木構造のノードを構成するデータ項目として「性別」を使用する場合、分類条件設定部32は、前処理部31が生成した訓練データD1から、データ項目「性別」の訓練データD1を抽出する。そして、分類条件設定部32は、データ項目「性別」の値を入力データD2として第1モデルを使用する第1予測部22a及び第2モデルを使用する第2予測部22bに出力するとともに、それらの学生が留年又は退学したか否かを示す正解ラベルD3をモデル更新部33に出力する。
【0038】
また、図8(B)に示すように、木構造のノードを構成するデータ項目として「性別」と「3年の単位修得率」を使用する場合、分類条件設定部32は、前処理部31が生成した訓練データD1から、データ項目「性別」及び「3年の単位修得率」の訓練データD1を抽出する。そして、分類条件設定部32は、データ項目「性別」の値を入力データD2として第1モデルを使用する第1予測部22aに出力するとともに、それらの学生が留年又は退学したか否かを示す正解ラベルD3をモデル更新部33に出力する。さらに、分類条件設定部32は、データ項目「性別」と「3年の単位修得率」の値を入力データD2として第2モデルを使用する第2予測部22b及び第3モデルを使用する第3予測部22cに出力するとともに、それらの学生が留年又は退学したか否かを示す正解ラベルD3をモデル更新部33に出力する。
【0039】
ここで、分類条件設定部32は、以下の制約に従って分類条件を設定する。
(制約A)分類に使用する木構造の階層数を所定階層数以下とする。
(制約B)各モデル(各グループ)の訓練データのサンプル数の、全サンプル数に対する割合(以下、「サンプル数割合」と呼ぶ。)を所定割合以上とする。
【0040】
分類条件設定部32は、分類条件として図8(A)、8(B)に例示する木構造に基づいて各モデルが使用するデータ項目を設定するが、学生データに含まれるデータ項目は多数あり、それらを全て考慮すると、モデルが複雑になりすぎたり、少数の例外的なデータに対して過学習となり非実用的なモデルとなってしまう恐れがある。そこで、分類条件設定部32は、制約Aに基づいて木構造の深さを所定数以下として、モデルの階層構造が複雑になりすぎないようにする。
【0041】
また、分類条件設定部32は、制約Bに基づいて、各モデルの学習に使用する訓練データのサンプル数を、全サンプル数の所定割合以上とし、少数の例外的なデータを用いた学習を行わないようにする。具体的に、図8(B)の例では、第1~第3モデルを適用するグループG1~G3のサンプル数割合R1~R3は、以下のようになる。
R1=2500/8000=約31%
R2=3000/8000=約38%
R3=2500/8000=約31%
となる。例えば、制約Bにおける所定割合が10%に設定されていると仮定すると、各モデルに対応するグループG1~G3についてのサンプル数割合R1~R3は、いずれも制約Bを満足していることになる。
【0042】
このように、分類条件設定部32は、上記の制約A、Bを用いて、モデルが複雑になりすぎたり、少数の例外的なデータについて過学習とならないようにする。なお、分類条件設定部32は、後述するように、木構造の階層数や1つのモデルの学習に使用する訓練データのサンプル数割合などを変更しつつ、複数のモデルを生成する。
【0043】
各予測部22は、自身に対応するモデルを用いて、分類条件設定部32から入力された入力データD2から、留年確率などの学生の進級状況の予測値を算出し、予測結果D4としてモデル更新部33へ出力する。
【0044】
モデル更新部33は、予測部22毎に、予測部22から入力された予測結果D4と、分類条件設定部32から入力された正解ラベルD3とを比較し、それらの誤差に基づいて更新データD5を各予測部22に送って各予測部22のモデルを更新する。こうして、各モデルの学習が行われる。モデル更新部33は、所定の条件が具備された場合に、モデルの更新を終了し、得られたモデルを学習済みモデルとする。なお、分類条件設定部32及びモデル更新部33は、学習手段の一例である。
【0045】
[モデル生成処理]
次に、モデル生成処理について説明する。図9は、予測装置によるモデル生成処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行し、図7に示す各要素として動作することにより実現される。
【0046】
まず、前処理部31は学生DB15から学生データを取得し、前処理を行う(ステップS21)。具体的には、前処理部31は、取得した学生データを用いて、各モデルの学習に使用する訓練データD1、即ち、入力データD2と正解ラベルD3のペアを生成する。なお、前処理部31は、必要に応じて、データ数が不足している条件の学生データを増量して訓練データD1を生成する。
【0047】
次に、分類条件設定部32は、複数のモデルについての分類条件を設定する(ステップS22)。具体的には、分類条件設定部32は、図8(A)、8(B)などに例示する木構造に基づいて、各予測部22が使用するモデルの分類条件を決定する。なお、ステップS22の最初の実行時には、分類条件設定部32は、使用者などが予め設定された分類条件を使用する。
【0048】
次に、モデル更新部33は、各モデルの更新を行う(ステップS23)。具体的には、まず、各予測部22は、分類条件設定部32から入力された入力データD2に基づき、その予測部22が使用するモデルを用いて進級状況の予測を行い、予測結果D4をモデル更新部33に出力する。モデル更新部33は、予測部22から入力された予測結果D4と、分類条件設定部32から入力された正解ラベルD3とを比較し、その誤差に基づいて各予測部22に更新データD5を出力し、モデルを更新する。こうして、モデル更新部33は、各予測部22が使用するモデルの更新を行う。
【0049】
次に、分類条件設定部32は、予定した分類条件の変更が終了したか否かを判定する(ステップS24)。予定した分類条件の変更が終了していない場合(ステップS24:No)、分類条件設定部32は、ステップS22へ戻って分類条件を変更し、変更後の分類条件についてモデルの学習を行う。具体的に、分類条件設定部32は、前述の制約下で、木構造の階層数や、各モデルの学習に使用する訓練データのサンプル数割合をランダムに変更する。こうして、モデル更新部33は、異なる複数の分類条件について、第1~第nモデルを含む学習済みモデル群を生成する。
【0050】
一方、予定した分類条件の変更が終了した場合(ステップS24:Yes)、分類条件設定部32は、得られた複数の分類条件に対応する学習済みモデル群を評価し、最適なモデル群を、予測処理に使用するモデル群として選択する(ステップS25)。そして、モデル生成処理は終了する。
【0051】
なお、上記のモデル生成処理では、予め予定した全ての分類条件について学習済みのモデル群を生成してそれらの性能を比較し、ステップS25でそれらのうち最適な学習済みモデル群を選択している。その代わりに、予め決められた評価基準を用いて最適なモデル群を決定してもよい。即ち、分類条件を変更しつつモデルを更新し、得られた学習済みモデル群の性能を予め決められた評価基準と比較し、その評価基準を超える性能を有する学習済みモデル群が得られた時点で処理を終了するようにしてもよい。
【0052】
<第2実施形態>
次に、本発明の第2実施形態について説明する。図10は、第2実施形態に係る予測装置の機能構成を示すブロック図である。予測装置50は、取得手段51と、前処理手段52と、学習手段53と、予測手段54とを備える。取得手段51は、学生に関する学生データを取得する。前処理手段52は、学生データに基づいて、訓練データを生成する。学習手段53は、訓練データに基づいて、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する。予測手段54は、生成されたモデルを用いて、対象学生の学生データから、当該対象学生の進級状況を予測する。
【0053】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0054】
(付記1)
学生に関する学生データを取得する取得手段と、
前記学生データに基づいて、訓練データを生成する前処理手段と、
前記訓練データに基づいて、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成する学習手段と、
前記モデルを用いて、対象学生の学生データから、当該対象学生の進級状況を予測する予測手段と、
を備える予測装置。
【0055】
(付記2)
前記学生データの値に基づいて、前記学生データを複数のグループに分類する分類手段を備え、
前記学習手段は、前記グループ毎に前記モデルを学習し、
前記予測手段は、前記対象学生の学生データが属するグループに対応するモデルを用いて、当該対象学生の進級状況を予測する付記1に記載の予測装置。
【0056】
(付記3)
前記学生データは複数のデータ項目を含み、
前記分類手段は、木構造により規定される前記データ項目毎の分岐条件に基づいて、前記学生データを複数のグループに分類する付記2に記載の予測装置。
【0057】
(付記4)
前記学習手段は、
前記木構造の階層数を所定数以下に維持しつつ、前記階層数を変化させて異なる複数の分類を行い、
前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する付記3に記載の予測装置。
【0058】
(付記5)
前記学習手段は、
前記複数のグループの各々に属する訓練データのサンプル数の全サンプル数に対する割合を所定割合以上に維持しつつ、前記割合を変化させて異なる複数の分類を行い、
前記複数の分類により得られた分類結果毎に、複数のグループに対応するモデル群の学習を行い、前記複数の分類結果のうちの1つの分類結果に対応するモデル群を選択する付記3又は4に記載の予測装置。
【0059】
(付記6)
前記前処理手段は、前記学生データの少なくとも一部のデータ項目について、前記学生データの値を変更して前記訓練データを生成する付記1乃至5のいずれか一項に記載の予測装置。
【0060】
(付記7)
前記学生データは、前記学生の人間関係、生活習慣、学習習慣、学習に対する動機付け、及び、前記学生の進級状況に影響を与える要素のうち少なくとも1つに関するデータ項目を含む付記1乃至6のいずれか一項に記載の予測装置。
【0061】
(付記8)
前記学生データは、科目区分毎の前記学生の単位修得率及びGPAの少なくとも1つを含む付記1乃至7のいずれか一項に記載の予測装置。
【0062】
(付記9)
前記学生データは、前記学生の進級状況に影響を与える科目区分の単位修得率を含む付記1乃至8のいずれか一項に記載の予測装置。
【0063】
(付記10)
前記進級状況は、前記学生の留年及び退学の少なくとも一方を含む付記1乃至9のいずれか一項に記載の予測装置。
【0064】
(付記11)
学生に関する学生データを取得し、
前記学生データに基づいて、訓練データを生成し、
前記訓練データに基づいて、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成し、
前記モデルを用いて、対象学生の学生データから、当該対象学生の進級状況を予測する予測方法。
【0065】
(付記12)
学生に関する学生データを取得し、
前記学生データに基づいて、訓練データを生成し、
前記訓練データに基づいて、学生の進級状況を予測する少なくとも1つのモデルを機械学習により生成し、
前記モデルを用いて、対象学生の学生データから、当該対象学生の進級状況を予測する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0066】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0067】
5 学生データベース(DB)
12 プロセッサ
13 メモリ
15 データベース(DB)
21 分類部
22a~22n 予測部
23 出力部
31 前処理部
32 分類条件設定部
33 モデル更新部
50、100、100x 予測装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10