(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-11
(45)【発行日】2024-03-19
(54)【発明の名称】予測プログラム、予測方法及び予測装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20240312BHJP
G06Q 10/04 20230101ALI20240312BHJP
【FI】
G06N20/00
G06Q10/04
(21)【出願番号】P 2019192757
(22)【出願日】2019-10-23
【審査請求日】2022-07-08
【前置審査】
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】古田 昌之
(72)【発明者】
【氏名】渡邉 俊一
(72)【発明者】
【氏名】新田 泉
【審査官】▲はま▼中 信行
(56)【参考文献】
【文献】特開2019-135662(JP,A)
【文献】特開2016-151979(JP,A)
【文献】特許第6562121(JP,B1)
【文献】特開2002-163434(JP,A)
【文献】韓国登録特許第1789078(KR,B1)
【文献】マルウェア侵入の検知を高精度化するAI技術を開発 日常業務で使われているネットワーク通信と区別が難しい侵入後のマルウェア活動の検知精度を向上 [online],株式会社富士通研究所,2017年09月19日,[検索日 2024.01.29]、インターネット <URL: https://pr.fujitsu.com/jp/news/2017/09/19-3.html>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06Q 10/04
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出し、
前記複数のデータ項目のうち、算出した前記変化の度合が所定の基準を満たす第1のデータ項目から、時系列の情報を含む第1のテンソルデータを生成し、
前記複数のデータ項目のうち、算出した前記変化の度合が前記所定の基準を満たさない第2のデータ項目から、時系列の情報を含まない第2のテンソルデータを生成し、
前記第1のテンソルデータと前記第2のテンソルデータを学習モデルに入力することで、前記学習モデルの学習を行
い、
判定対象の時系列のレコードデータのうち前記第1のデータ項目を第3のテンソルデータに変換し、
前記判定対象の時系列のレコードデータのうち前記第2のデータ項目を第4のテンソルデータに変換し、
前記学習を行うことにより生成された学習モデルに前記第3のテンソルデータと前記第4のテンソルデータを入力して予測結果を出力する、
処理を実行させることを特徴とする予測プログラム。
【請求項2】
前記第1のテンソルデータに変換する処理は、所定の参照期間の時系列のデータを前記第1のテンソルデータに変換し、
前記第2のテンソルデータに変換する処理は、前記所定の参照期間の開始時より前のデータに基づくデータ、現在のデータに基づくデータ、又は、前記所定の参照期間にデータ値が一度だけ変化するデータ項目に関して前記所定の参照期間の長さに対する変化後の期間の長さの割合に基づくデータを生成し、前記第2のテンソルデータに含める
ことを特徴とする請求項
1に記載の予測プログラム。
【請求項3】
前記時系列のレコードデータは、個人の勤怠情報のデータと、個人の属性に関するデータを含むことを特徴とする請求項
1又は2に記載の予測プログラム。
【請求項4】
コンピュータが、
時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出し、
前記複数のデータ項目のうち、算出した前記変化の度合が所定の基準を満たす第1のデータ項目から、時系列の情報を含む第1のテンソルデータを生成し、
前記複数のデータ項目のうち、算出した前記変化の度合が前記所定の基準を満たさない第2のデータ項目から、時系列の情報を含まない第2のテンソルデータを生成し、
前記第1のテンソルデータと前記第2のテンソルデータを学習モデルに入力することで、前記学習モデルの学習を行
い、
判定対象の時系列のレコードデータのうち前記第1のデータ項目を第3のテンソルデータに変換し、
前記判定対象の時系列のレコードデータのうち前記第2のデータ項目を第4のテンソルデータに変換し、
前記学習を行うことにより生成された学習モデルに前記第3のテンソルデータと前記第4のテンソルデータを入力して予測結果を出力する、
処理を実行することを特徴とする予測方法。
【請求項5】
時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出する算出部と、
前記複数のデータ項目のうち、前記算出部により算出された前記変化の度合が所定の基準を満たす第1のデータ項目から、時系列の情報を含む第1のテンソルデータを生成する第1生成部と、
前記複数のデータ項目のうち、前記算出部により算出された前記変化の度合が前記所定の基準を満たさない第2のデータ項目から、時系列の情報を含まない第2のテンソルデータを生成する第2生成部と、
前記第1生成部により前記第1のデータ項目から生成された第1のテンソルデータと前記第2生成部により前記第2のデータ項目から生成された第2のテンソルデータを学習モデルに入力することで、前記学習モデルの学習を行う学習部と
、
判定対象の時系列のレコードデータのうち前記第1のデータ項目を第3のテンソルデータに変換し、前記判定対象の時系列のレコードデータのうち前記第2のデータ項目を第4のテンソルデータに変換し、前記学習を行うことにより生成された学習モデルに前記第3のテンソルデータと前記第4のテンソルデータを入力して予測結果を出力する予測部と
を有することを特徴とする予測装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、予測プログラム、予測方法及び予測装置に関する。
【背景技術】
【0002】
従来、時系列のレコードデータをテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて予測を行う技術がある。例えば、個人の勤怠情報をカレンダー構造のテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて個人の休職を事前に予測する技術がある。
【0003】
なお、従来技術として、ニューラルネットワークの入力値の適切な順番を決定することで、正確な学習を行うことができる機械学習装置がある。この機械学習装置は、データ分類用のニューラルネットワークへ入力する数値の順序付けの基準が複数の基準値の配列で示された照合パタンに基づいて、入力データに含まれる複数の数値それぞれの入力順序を決定する。次に機械学習装置は、複数の数値の、入力順序に従ったニューラルネットワークの入力層の複数のユニットへ入力したときの、ニューラルネットワークの出力値を計算する。さらに機械学習装置は、出力値と教師データとの誤差に基づいて、ニューラルネットワークで正解を得るための、入力層の複数のユニットへの入力値の誤差を算出する。そして機械学習装置は、複数のユニットへの入力値の誤差に基づいて、照合パタンの複数の基準値を更新する。
【0004】
また、プロセッサと、命令を一括的に含む1つ又は複数のコンピュータ可読媒体とを含む装置を用いて、ターゲット特性データを予測する従来技術がある。この従来技術は、プロセッサに、複数の物理構造データ及び複数の特性データを取得することと、複数の物理構造データの中の物理構造データに対応する少なくとも2つの物理構造の間の少なくとも1つの構造類似性を推定することとを行わせる。そして、この従来技術は、プロセッサに、ターゲット特性データをターゲット物理構造データから推定するための推定モデルを、作成することを行わせる。プロセッサは、推定モデルの作成を、少なくとも1つの特性データ及び対応する少なくとも1つの、ターゲット物理構造データと複数の物理構造データの各々との間の構造類似性を用いることによって行う。
【0005】
また、従来技術として、金融や流通分野の取引記録、ネットワーク監視システムの通信記録等のデータストリームを精度よく識別する学習装置がある。この学習装置は、属するクラスが既知である履歴数個のデータがまとめられた教師ストリーム構造データに基づいて教師ストリームカーネルを作成する。そして、この学習装置は、教師ストリームカーネルの出力値を機械学習することにより、任意のストリーム構造データの属するクラスを識別するための識別器を生成する。
【0006】
また、従来技術として、既に定義されたリレーションを第3正規形リレーションに正規化し、リレーショナルデータベースを再構成する再構成システムがある。この再構成システムは、リレ―ショナルデ―タベ―ス管理システムの提供するSQLのようなデ―タ操作言語を用いて、デ―タベ―スにアクセスし、デ―タベ―ス管理者により指定されたリレーションを関数従属性にしたがって第3正規形に変換する。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2018-55580号公報
【文献】特表2019-507411号公報
【文献】特開2010-282440号公報
【文献】特開平6-110749号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
時系列のレコードデータをテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて予測を行う従来技術には、所望のタイミングにおいて十分な精度の予測結果が得られないことがある。例えば、個人の勤怠情報をカレンダー構造のテンソルデータに変換し、テンソルデータを学習することで学習モデルを生成し、生成した学習モデルを用いて個人の休職を事前に予測する態様を想定する。この態様では、休職につながる欠勤が発生した後であれば、十分な精度で休職を予測することは可能であるが、予測するタイミングが早くなるほど予測精度を高めることは難しくなる。しかし、休職を未然に防ぎたい場合、より早いタイミングであっても十分な精度の予測ができるというニーズは高いと考える。
【0009】
本発明は、1つの側面では、予測性能の向上を図ることを目的とする。
【課題を解決するための手段】
【0010】
1つの態様では、予測プログラムは、コンピュータに、時系列のレコードデータに含まれる複数のデータ項目それぞれについて、データ項目に対応するデータ値の前記時系列における変化の度合を算出する処理を実行させる。そして、前記予測プログラムは、前記コンピュータに、前記複数のデータ項目のうち、算出した前記変化の度合が所定の基準を満たす第1のデータ項目から、時系列の情報を含む第1のテンソルデータを生成する処理を実行させる。そして、前記予測プログラムは、前記コンピュータに、前記複数のデータ項目のうち、算出した前記変化の度合が前記所定の基準を満たさない第2のデータ項目から、時系列の情報を含まない第2のテンソルデータを生成する処理を実行させる。そして、前記予測プログラムは、前記コンピュータに、前記第1のテンソルデータと前記第2のテンソルデータを入力とした学習を行う処理を実行させる。
【発明の効果】
【0011】
1つの側面では、本発明は、予測性能の向上を図ることができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施例に係る予測装置を説明する図である。
【
図2】
図2は、グラフ構造とテンソルとの関係の一例を示す図である。
【
図3】
図3は、部分グラフ構造の抽出の一例を示す図である。
【
図4】
図4は、ディープテンソルの学習例を説明する図である。
【
図5】
図5は、テンソル化の具体例を説明する図である。
【
図6】
図6は、ディープテンソルに入力されるデータフォーマットの例を示す図である。
【
図7】
図7は、マルチテンソルを説明する図である。
【
図8】
図8は、予測装置の機能構成を示す機能ブロック図である。
【
図9】
図9は、元データDBに記憶される元データの例を示す図である。
【
図11】
図11は、一般的な機械学習に実施例に係る学習データ生成手法を適用した場合の問題点を説明する図である。
【
図12】
図12は、ディープテンソルに実施例に係る学習データ生成手法を適用した場合を説明する図である。
【
図14】
図14は、テンソル生成部により生成されるカレンダーテンソルと非カレンダーテンソルの例を示す図である。
【
図15】
図15は、学習処理の流れを示すフローチャートである。
【
図16】
図16は、テンソル化の処理の流れを示すフローチャートである。
【
図17】
図17は、項目特定処理の流れを示すフローチャートである。
【
図18】
図18は、テンソル生成処理の流れを示すフローチャートである。
【
図20】
図20は、実施例に係る予測プログラムを実行するコンピュータのハードウェア構成を示す図である。
【発明を実施するための形態】
【0013】
以下に、本願の開示する予測プログラム、予測方法及び予測装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
【実施例】
【0014】
まず、実施例に係る予測装置について説明する。
図1は、実施例に係る予測装置を説明する図である。
図1に示すように、実施例に係る予測装置100は、個人の日々の出勤時刻、退勤時刻、出欠区分、出張有無等を含む勤怠情報と、性別、入社年度、職種、勤務地、昇格、休職履歴等を含む個人属性情報を機械学習し、学習モデルを生成する。そして、実施例に係る予測装置100は、生成した学習モデルを用いて、予測対象の個人の勤怠情報と個人属性情報から、予測対象の個人が休職するか否かを予測する。なお、ここでは、予測装置100が学習と予測とを実行する例で説明するが、学習と予測とを別々の装置で実行することもできる。
【0015】
具体的には、予測装置100は、休職したことがある体調不良者の勤怠情報と個人属性情報(ラベル=休職あり)と、休職したことがない通常者の勤怠情報と個人属性情報(ラベル=休職なし)とを学習データとして生成する。そして、予測装置100は、個人属性情報に含まれる各個人属性項目の値の変化の度合いに基づいて、学習データをテンソル化し、カレンダーテンソルと非カレンダーテンソルの2つのテンソルのテンソルデータを生成する。ここで、カレンダーテンソルとは、月度と日付を項目として含むテンソルであり、非カレンダーテンソルとは、月度と日付を項目として含まないテンソルである。
【0016】
そして、予測装置100は、2つのテンソルデータを深層学習(ディープラーニング・Deep Learning;DL)するマルチテンソルによって学習モデルを生成する。その後、予測装置100は、生成した学習モデルと、予測対象の個人の勤怠情報と個人属性情報から生成された2つのテンソルデータを用いて、予測対象の個人が休職するか否かを予測する。
【0017】
ここで、マルチテンソルについて説明する。マルチテンソルとは、複数のテンソルデータを用いるディープテンソルである。ディープテンソルは、テンソルデータ(グラフ情報)を入力とするディープラーニングであり、ニューラルネットワーク(NN:Neural Network)の学習とともに、判別に寄与する部分グラフ構造を自動的に抽出する。この抽出処理は、ニューラルネットワークの学習とともに、入力テンソルデータのテンソル分解のパラメータを学習することによって実現される。
【0018】
図2は、グラフ構造とテンソルとの関係の一例を示す図である。
図2に示すグラフ20は、4つのノードがノード間の関係性(例えば「相関係数が所定値以上」)を示すエッジで結ばれている。なお、エッジで結ばれていないノード間は、当該関係性がないことを示す。グラフ20を2階のテンソル、つまり行列で表す場合、例えば、ノードの左側の番号に基づく行列表現は「行列A」で表され、ノードの右側の番号(囲み線で囲んだ数字)に基づく行列表現は「行列B」で表される。これらの行列の各成分は、ノード間が結ばれている(接続している)場合「1」で表され、ノード間が結ばれていない(接続していない)場合「0」で表される。以下の説明では、この様な行列を隣接行列ともいう。ここで、「行列B」は、「行列A」の2,3行目及び2,3列目を同時に置換することで生成できる。ディープテンソルでは、この様な置換処理を用いることで順序の違いを無視して処理を行う。すなわち、「行列A」及び「行列B」は、ディープテンソルでは順序性が無視され、同じグラフとして扱われる。なお、3階以上のテンソルについても同様の処理となる。
【0019】
図3は、部分グラフ構造の抽出の一例を示す図である。
図3に示すグラフ21は、6つのノードがエッジで結ばれたものである。グラフ21は、行列(テンソル)で表すと行列22に示すように表現できる。行列22に対して、特定の行及び列を入れ替える演算、特定の行及び列を抽出する演算、並びに、隣接行列における非ゼロ要素をゼロに置換する演算を組み合わせることで、部分グラフ構造を抽出できる。例えば、行列22の「ノード1,4,5」に対応する行列を抽出すると、行列23となる。次に、行列23の「ノード4,5」間の値をゼロに置換すると、行列24となる。行列24に対応する部分グラフ構造は、グラフ25となる。
【0020】
このような部分グラフ構造の抽出処理は、テンソル分解と呼ばれる数学的演算によって実現される。テンソル分解とは、入力されたn階テンソルをn階以下のテンソルの積で近似する演算である。例えば、入力されたn階テンソルを1つのn階テンソル(コアテンソルと呼ばれる。)、及び、より低階のn個のテンソル(n>2の場合、通常は2階のテンソル、つまり行列が用いられる。)の積で近似する。この分解は一意ではなく、入力データが表すグラフ構造中の任意の部分グラフ構造をコアテンソルに含めることができる。
【0021】
図4は、ディープテンソルの学習例を説明する図である。
図4に示すように、学習装置は、「休職あり」などの教師ラベル(ラベルA)が付された元データからテンソルデータを生成する。そして、学習装置は、生成したテンソルデータを入力テンソルとしてテンソル分解を行って、初回にランダムに生成されたターゲットコアテンソルに類似するようにコアテンソルを生成する。そして、学習装置は、コアテンソルをNNに入力して分類結果(ラベルA:70%、ラベルB:30%)を得る。その後、学習装置は、分類結果(ラベルA:70%、ラベルB:30%)と教師ラベル(ラベルA:100%、ラベルB:0%)との分類誤差を算出する。
【0022】
ここで、学習装置は、誤差逆伝搬法を拡張した拡張誤差伝搬法を用いて予測モデルの学習を実行する。すなわち、学習装置は、NNが有する入力層、中間層、出力層に対して、分類誤差を下層に伝搬させる形で、分類誤差を小さくするようにNNの各種パラメータを修正する。さらに、学習装置は、分類誤差をターゲットコアテンソルまで伝搬させ、予測に寄与するグラフの部分構造、すなわち休職者の特徴を示す特徴パターンもしくは通常者の特徴を示す特徴パターンに近づくように、ターゲットコアテンソルを修正する。このようにすることで、最適化されたターゲットコアテンソルには予測に寄与する部分パターンが抽出されるようになる。
【0023】
なお、予測時には、テンソル分解により、入力テンソルをコアテンソル(入力テンソルの部分パターン)に変換し、コアテンソルをNNに入力することで、予測結果を得ることができる。テンソル分解では、コアテンソルがターゲットコアテンソルに類似するように変換される。つまり、予測に寄与する部分パターンを持つコアテンソルが抽出される。
【0024】
図5は、テンソル化の具体例を説明する図である。
図5に示すテンソルは、横方向に月度、縦方向に日付、奥行き方向に出欠区分、左側が出張ありのデータで右側が出張なしのデータとなる。月度は、左から月度#1、月度#2、・・・を示し、日付は、上から順に1日目~4日目を示し、出欠区分は、手前から出社、休暇、休日を示す。例えば、
図5の(a)は、月度#1の1日目に出社して出張した要素を示し、
図5の(b)は、月度#1の2日目に休暇を取得して出張しなかった要素を示す。
【0025】
なお、上述したテンソルは、簡略化して
図5の(c)のように記載される。すなわち、上述したテンソルは、月度と日付、出欠区分、出張有無の各要素を重ねたキューブ状で表現され、各月度かつ日付の出張有無が区別して表現され、各月度かつ日付の出欠区分が区別して表現される。
【0026】
図6は、ディープテンソルに入力されるデータフォーマットの例を示す図である。
図5に示したテンソルは、
図6に示す表形式のデータでディープテンソルに入力される。グラフIDは、グラフ(個人)の識別番号であり、任意の番号である。月度は、データが4か月分の場合、1~4のいずれかである。日付は、1~31のいずれかである。出欠は、0=出社、1=休暇、2=休日のいずれかである。出張は、0=なし、1=ありのいずれかである。
【0027】
図7は、マルチテンソルを説明する図である。
図7に示すように、テンソル#1は、コアテンソル#1と行列の積に近似され、コアテンソル#1がNNに入力される。同様に、テンソル#2は、コアテンソル#2と行列の積に近似され、コアテンソル#2がNNに入力される。コアテンソル#1の要素数を8、コアテンソル#2の要素数を8とすると、8×2=16個の要素が縦1列でNNに入力される。
【0028】
次に、予測装置100の機能構成について説明する。
図8は、予測装置100の機能構成を示す機能ブロック図である。
図8に示すように、予測装置100は、通信部101、記憶部102、制御部110を有する。
【0029】
通信部101は、他の装置との通信を制御する処理部であり、例えば通信インタフェースである。例えば、通信部101は、管理者の端末から、処理開始指示などを受信する。あるいは、通信部101は、勤怠情報、個人属性情報などをデータベース管理システムから受信する。また、通信部101は、管理者の端末に対して、学習結果や予測結果などを送信する。
【0030】
記憶部102は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部102は、元データDB103、学習データDB104、項目DB105、テンソルDB106、学習結果DB107、予測対象DB108を記憶する。
【0031】
元データDB103は、勤怠情報と個人属性情報を元データとして個人ごとに記憶するデータベースである。元データは、複数の項目を有し、カレンダーに対応した複数のレコードを有する。元データは、時系列データである。
図9は、元データDB103に記憶される元データの例を示す図である。
図9に示すように、元データは、カレンダーに対応した年月日単位のレコードより構成され、各レコードは各年月日に勤怠情報と個人属性情報を対応付ける。勤怠情報には、出欠、出張などが含まれ、個人属性情報には、職種、役職、勤務地、家族構成、性別、入社年度、評価などが含まれる。個人属性情報には、変化の少ない項目、変化のない項目が含まれる。職種、役職、勤務地、家族構成、評価は、変化の少ない項目であり、性別、入社年度は、変化のない項目である。
【0032】
出欠は、例えば、「0(出社)」、「1(休暇)」、「2(休日)」などである。出張は、例えば、「0(なし)」、「1(あり)」などである。職種は、例えば、「営業」、「開発」、「SE」などである。役職は、例えば、「一般」、「課長」、「部長」などである。勤務地は、例えば、「東京支店」、「川崎工場」、「横浜研究所」などである。家族構成は、例えば、「既婚」、「未婚」などである。性別は、「男」又は「女」である。入社年度は、例えば、「20000401(2000年)」である。評価は、例えば、「A」、「B」などである。
図9では、ある社員は、2019年2月1日に、出勤し、出張した。また、その社員については、2019年2月1日において、職種は営業であり、役職は一般であり、勤務地は東京支店であり、家族構成は既婚であり、性別は男であり、入社年度は2000年4月1日であり、評価はAであり、・・・。
【0033】
学習データDB104は、テンソル化対象となる学習データを記憶するデータベースである。具体的には、学習データDB104は、元データにおいて始期の異なる一定期間のデータと、始期に対応したラベルの組となる各学習データを記憶する。例えば、学習データDB104は、「データ、ラベル」として「学習データa、ラベル(休職なし)」や「学習データb、ラベル(休職あり)」などを記憶する。なお、学習データの詳細については後述する。
【0034】
項目DB105は、個人属性情報に含まれる個人属性項目ごとに、カレンダー項目、不変項目、前処理項目のいずれであるかを記憶する。カレンダー項目は、値の変化の度合いが大きい項目であり、カレンダーテンソルに含まれる項目である。ここで、変化の度合いとは、例えば、データが変化しない期間で表され、変化の度合いが大きいとは、データが変化するまでの期間が1つの学習データの期間以下の場合である。
【0035】
不変項目は、値が変化しない項目であり、非カレンダーテンソルに含まれる項目である。前処理項目は、値の変化の度合いが大きくなく、不変でもない項目である。前処理項目は、テンソル化されるときに前処理が行われて非カレンダーテンソルに新たな項目又は新たな値として追加される項目である。なお、前処理の詳細については後述する。
【0036】
テンソルDB106は、各学習データから生成されたカレンダーテンソルと非カレンダーテンソル2つのテンソルのテンソルデータを記憶するデータベースである。このテンソルDB106は、2つのテンソルデータとラベルとを対応付けた訓練データを記憶する。例えば、テンソルDB106は、「テンソルデータ#1、テンソルデータ#2、ラベル」として「テンソルデータ#11、テンソルデータ#12、ラベル(休職あり)」や「テンソルデータ#21、テンソルデータ#22、ラベル(休職なし)」などを記憶する。なお、テンソルDB106が記憶するラベルは、2つのテンソルデータの生成元の学習データに対応付けられるラベルである。
【0037】
なお、上述の学習データにおけるラベルは一例であり、「休職あり」と「休職なし」に限らず、「休職者」と「通常者」、「療養あり」と「療養なし」などのように、体調不良者の有無を区別できる様々なラベルを用いることもできる。
【0038】
学習結果DB107は、学習結果を記憶するデータベースである。例えば、学習結果DB107は、制御部110による学習データの判別結果(分類結果)、機械学習やディープラーニングによって学習された、NNの各種パラメータやディープテンソルの各種パラメータなどを記憶する。
【0039】
予測対象DB108は、学習された予測モデルを用いて、休職の有無を予測する対象のデータを記憶するデータベースである。予測対象DB108は、予測対象の勤怠情報及び個人属性情報、又は、予測対象の勤怠情報及び個人属性情報から生成された2つのテンソルデータなどを記憶する。
【0040】
制御部110は、予測装置100全体の処理を司る処理部である。制御部110は、学習データ生成部111、テンソル生成部112、学習部113、予測部114を有する。
【0041】
学習データ生成部111は、元データDB103に記憶される各元データから、複数の単位期間から成る一定期間を当該単位期間ずつ始期を異ならせた各期間のデータと、始期に対応したラベルとが組となる学習データを生成する処理部である。具体的には、学習データ生成部111は、一人の元データから重複を許して、指定された期間のデータをサンプリングする。例えば、学習データ生成部111は、各元データから、期間のはじまり(始期)が異なる複数のデータを抽出し、各データについて、データの終期から3か月以内に休職期間があれば、ラベル「休職あり」を設定する。一方、データの終期から3か月以内に休職期間がなければ、学習データ生成部111は、ラベル「休職なし」を設定する。
【0042】
図10は、学習データの生成例を説明する図である。
図10では、一人の元データから始期を30日ずつずらし、半年間の元データを1サンプルとしてサンプリングを行い、4個の学習データを生成する例を説明する。
図10に示すように、学習データ生成部111は、4月から3月までの1年の元データから、4月から9月までの6か月分のデータ1aを抽出する。そして、学習データ生成部111は、9月から3か月以内である10月、11月、12月に「休職」が発生していないので、ラベルを「休職なし」と判定する。この結果、学習データ生成部111は、「データ1a、ラベル(休職なし)」を学習データDB104に格納する。
【0043】
続いて、学習データ生成部111は、4月から始期を30日(1か月)ずらして、5月から10月までの6か月分のデータ1bを抽出する。そして、学習データ生成部111は、10月から3か月以内である11月、12月、1月のうち1月に「休職」が発生しているので、ラベルを「休職あり」と判定する。この結果、学習データ生成部111は、「データ1b、ラベル(休職あり)」を学習データDB104に格納する。
【0044】
続いて、学習データ生成部111は、5月から始期を30日(1か月)ずらして、6月から11月までの6か月分のデータ1cを抽出する。そして、学習データ生成部111は、11月から3か月以内である12月、1月、2月のうち1月に「休職」が発生しているので、ラベルを「休職あり」と判定する。この結果、学習データ生成部111は、「データ1c、ラベル(休職あり)」を学習データDB104に格納する。
【0045】
最後に、学習データ生成部111は、6月から始期を30日(1か月)ずらして、7月から12月までの6か月分のデータ1dを抽出する。そして、学習データ生成部111は、12月から3か月以内である1月、2月、3月のうち1月および3月に「休職」が発生しているので、ラベルを「休職あり」と判定する。この結果、学習データ生成部111は、「データ1d、ラベル(休職あり)」を学習データDB104に格納する。
【0046】
このようにして、学習データ生成部111は、一人の1年間の元データから最大4サンプルの学習データを生成することができる。なお、学習データ生成部111は、一人の元データから始期を10日ずつずらし、半年間の元データを1サンプルとしてサンプリングする場合、最大12個の学習データを生成できる。なお、学習データ生成部111は、元データに含まれる項目のうち、不要な項目を除いて学習データを生成してもよい。
【0047】
ここで、一般的な機械学習に実施例に係る学習データ生成手法を適用した場合の問題点を説明する。
図11は、一般的な機械学習に実施例に係る学習データ生成手法を適用した場合の問題点を説明する図である。
図11では、元データの10月に、どの部分かはわからないが、体調不良の要因となる部分パターンが隠れているとする。このような状態で、
図11に示すように、30日ずつ始期をずらすことで、データ2b、データ2c、データ2dを抽出する。これらのデータは、10月が含まれることから、体調不良者のデータ(ラベル:休職あり)となる。
【0048】
ここで、一般的な機械学習は、特徴ベクトルの同じ位置の要素を同じ属性として学習する(
図11の(1))。しかし、データ2b、データ2c、データ2dは、10月のデータ位置が異なることから、体調不良の要因となる部分パターンが特徴ベクトルの異なる位置の要素で表現されていることとなる。つまり、実施例のサンプリング方法で生成されたデータでは、元の部分パターンがデータ2b、データ2c、データ2dそれぞれでは異なる位置となる。一般的な機械学習は、異なる位置の要素を別の属性として学習するので、データの重複を許して学習データを増やしても精度向上効果は期待できない。
【0049】
一方、ディープテンソルに実施例に係る学習データ生成手法を適用した場合を説明する。
図12は、ディープテンソルに実施例に係る学習データ生成手法を適用した場合を説明する図である。
図12に示すように、30日ずつ始期をずらすことで、データ3b、データ3c、データ3dを抽出する。これらのデータは、10月が含まれることから、体調不良者のデータ(ラベル:休職あり)となる。ディープテンソルの学習において体調不良の要因となる共通の部分パターンは、データが異なると、テンソル上の異なる部分構造として表現される。しかし、学習および予測モデルによって抽出されるコアテンソルは、共通の部分パターンを表現するものとなる。したがって、これらのデータは体調不良となるデータとして認識される。
【0050】
このように、実施例に係る予測装置100は、ディープテンソル(コアテンソル)の性質を利用して、元データの切り出し範囲を変化させることにより、複数の学習データを生成することができる。この結果、学習に必要なデータ数を集めることが容易で、学習精度を向上させることができる。
【0051】
テンソル生成部112は、各学習データをテンソル化したテンソルデータを生成する処理部である。テンソル生成部112は、各学習データからカレンダーテンソルと非カレンダーテンソルの2つのテンソルのテンソルデータを生成する。そして、テンソル生成部112は、2つのテンソルデータと、学習データ生成部111により学習データに付加されたラベルとを対応付けてテンソルDB106に格納する。
【0052】
テンソル生成部112は、判定部121と、第1生成部122と、第2生成部123とを有する。
【0053】
判定部121は、元データの項目ごとに変化の度合いが大きいか否かを判定し、変化の度合いが大きいと判定した項目をカレンダー項目として項目DB105に格納する。判定部121は、変化の度合いが大きくないと判定した項目については、値が不変であるか否かを判定し、値が不変の場合には、不変項目として項目DB105に格納し、値が不変でない場合には、前処理項目として項目DB105に格納する。
【0054】
第1生成部122は、グラフIDと、月度と、日付と、カレンダー項目とを項目とするカレダーテンソルを生成する。第2生成部123は、グラフIDと、不変項目と、前処理項目に基づく項目とを項目とする非カレダーテンソルを生成する。なお、第2生成部123は、非カレダーテンソルに不変項目を含めなくてもよい。
【0055】
図13A及び
図13Bは、第2生成部123による前処理を説明する図である。
図13A及び
図13Bにおいて、参照期間は、元データから1つの学習データが抽出される期間であり、予測期間は、参照期間の学習データに基づいて体調不良予測が行われる期間である。
図13Aは、第2生成部123が前処理により離散値の個人属性値を生成する場合を示し、
図13Bは、第2生成部123が前処理により連続値の個人属性値を生成する場合を示す。
【0056】
図13Aに示すように、離散値の個人属性値が生成される個人属性項目には、参照期間より前に変化点があり、過去履歴に基づく個人属性項目と、予測期間に含まれる現在の情報に基づく個人属性項目がある。
【0057】
過去履歴に基づく個人属性項目の例としては、過去の休職履歴がある。第2生成部123は、休職か否かを示す個人属性項目について、新たな個人属性項目として休職履歴を生成し、参照期間より前に休職がある場合には、値を「1」とし、参照期間より前に休職がない場合には、値を「0」とする。別の例として、第2生成部123は、役職を示す個人属性項目について、新たな個人属性項目として昇格有無を生成し、参照期間より前に昇格がある場合には、値を「1」とし、参照期間より前に昇格がない場合には、値を「1」とする。
【0058】
現在の情報に基づく個人属性項目の例としては、所属、勤務地、職種がある。第2生成部123は、所属、勤務地、職種については、現在の情報に基づいて、現在の値と異なる場合には、値を現在の値に変更する。
【0059】
図13Bに示すように、参照期間中に個人属性項目に変化が発生した場合、変化が発生した時点が学習に影響する。例えば、参照期間の最終日に異動があったとしても異動後の勤怠情報がないため、学習に対する影響は小さい。一方、参照期間の初日に異動があった場合には、学習に対する影響は大きい。そこで、第2生成部123は、変化後の期間の長さに基づいて、異動有無に重みづけを行う。すなわち、第2生成部123は、個人属性項目の重み=(変化後の期間の長さ)/(参照期間の長さ)に基づいて、個人属性項目の値を計算して変更する。
【0060】
図14は、テンソル生成部112により生成されるカレンダーテンソルと非カレンダーテンソルの例を示す図である。
図14に示すように、学習データに含まれる項目のうち、時間変動が大きい出欠と出張は、カレンダーテンソルに入れられる。
【0061】
一方、時間変動が小さい職種は、前処理により現在の情報に変更されて、非カレンダーテンソルに入れられ、時間変動が小さい勤務地は、前処理により新たな項目として異動有無が生成されて、非カレンダーテンソルに入れられる。また、時間変動が小さい役職は、前処理により新たな項目として昇格有無が生成されて、非カレンダーテンソルに入れられ、時間変動が小さい休職は、前処理により新たな項目として休職履歴が生成されて、非カレンダーテンソルに入れられる。
【0062】
そして、カレンダーテンソルから得られるコアテンソルと非カレンダーテンソルから得られるコアテンソルのデータがNNに入力される。
【0063】
学習部113は、マルチテンソルを用いてテンソル分解及び深層学習を行う処理部である。すなわち、学習部113は、各学習データから生成された2つのテンソルデータ及びラベルを入力として、マルチテンソルによる学習モデルの生成を行う。
【0064】
具体的には、学習部113は、
図7で説明したように、テンソル#1(カレンダーテンソル)及びテンソル#2(非カレンダーテンソル)からコアテンソル#1及びコアテンソル#2をそれぞれ抽出する。そして、学習部113は、コアテンソル#1の要素とコアテンソル#2の要素をNNに入力する。そして、学習部113は、テンソル#1及びテンソル#2に対応するラベルとの誤差(分類誤差)を算出し、分類誤差を用いて、NNのパラメータの学習及びターゲットコアテンソルの最適化を実行する。その後、学習部113は、学習が終了すると、各種パラメータを学習結果として学習結果DB107に格納する。
【0065】
予測部114は、学習結果を用いて、判別対象のデータのラベルを予測する処理部である。具体的には、予測部114は、学習結果DB107から各種パラメータを読み出し、各種パラメータを設定したNN等を含むマルチテンソルを構築する。そして、予測部114は、予測対象DB108から予測対象の勤怠情報及び個人属性情報を読み出してカレンダーテンソルと非カレンダーテンソルを生成し、生成した2つのテンソルをテンソル分解によりそれぞれコアテンソルに変換してマルチテンソルに入力する。そして、予測部114は、休職あり又は休職なしを示す予測結果を出力する。そして、予測部114は、予測結果をディスプレイに表示したり、管理者端末に送信したりする。なお、予測部114は、予測対象の勤怠情報及び個人属性情報をそのまま入力してもよく、6か月ごとのデータに区切って入力してもよい。
【0066】
次に、学習処理の流れについて説明する。
図15は、学習処理の流れを示すフローチャートである。
図15に示すように、処理開始が指示されると(ステップS101:Yes)、学習データ生成部111は、元データDB103から元データを読み込み(ステップS102)、最初の始期に対応するデータをサンプリングする(ステップS103)。
【0067】
そして、学習データ生成部111は、参照期間の終了時から3か月以内に休職があるデータか否かを判定し(ステップS104)、休職があるデータの場合には、当該サンプリングされたデータに、ラベル「休職あり」を付与する(ステップS105)。一方、学習データ生成部111は、参照期間の終了時から3か月以内に休職がないデータの場合には、当該サンプリングされたデータに、ラベル「休職なし」を付与する(ステップS106)。
【0068】
その後、学習データ生成部111は、サンプリングを継続するか否かを判定し(ステップS107)、継続する場合には、次の始期に対応するデータをサンプリングして(ステップS108)、ステップS104以降を実行する。一方、サンプリングを終了する場合には、学習データ生成部111は、未処理の元データがあるか否かを判定する(ステップS109)。
【0069】
そして、学習データ生成部111は、未処理の元データがある場合には、次の元データについてステップS102以降を繰り返す。一方、未処理の元データがない場合には、テンソル生成部112が、学習データDB104に記憶される各学習データのテンソル化を実行してテンソルを生成する(ステップS110)。そして、学習部113が、テンソルDB106に記憶される各テンソル及びラベルを用いて、学習処理を実行する(ステップS111)。
【0070】
次に、テンソル化の処理の流れについて
図16~
図18を用いて説明する。
図16は、テンソル化の処理の流れを示すフローチャートである。
図16に示すように、テンソル生成部112は、項目がカレンダー項目、不変項目、前処理項目のいずれであるかを特定する項目特定処理を行う(ステップS121)。そして、テンソル生成部112は、カレンダーテンソルのテンソルデータ及び非カレンダーテンソルのテンソルデータを生成するテンソル生成処理を行う(ステップS122)。
【0071】
図17は、項目特定処理の流れを示すフローチャートである。
図17に示すように、テンソル生成部112は、元データDB103から1つの項目の値を全て抽出し(ステップS131)、値の変化の度合いが大きいか否かを判定する(ステップS132)。
【0072】
そして、値の変化の度合いが大きい場合には、テンソル生成部112は、当該項目をカレンダー項目と特定する(ステップS133)。一方、値の変化の度合いが大きくない場合には、テンソル生成部112は、値が不変か否かを判定し(ステップS134)、不変の場合には、当該項目を不変項目と特定する(ステップS135)。一方、不変でない場合には、テンソル生成部112は、当該項目を前処理項目と特定する(ステップS136)。
【0073】
そして、テンソル生成部112は、全ての項目を処理したか否かを判定し(ステップS137)、未処理の項目がある場合には、ステップS131に戻り、全ての項目を処理した場合には、項目特定処理を終了する。
【0074】
図18は、テンソル生成処理の流れを示すフローチャートである。
図18に示すように、テンソル生成部112は、1つの学習データを取得し(ステップS141)、学習データから1つの項目を取得する(ステップS142)。
【0075】
そして、テンソル生成部112は、項目DB105を参照して、取得した項目がカレンダー項目であるか否かを判定し(ステップS143)、カレンダー項目である場合には、取得した項目のデータをカレンダーテンソルに追加する(ステップS144)。
【0076】
一方、取得した項目がカレンダー項目でない場合には、テンソル生成部112は、取得した項目が不変項目であるか否かを判定し(ステップS145)、不変項目である場合には、取得した項目のデータを非カレンダーテンソルに追加する(ステップS147)。ここで、非カレンダーテンソルに追加するデータの数は1つである。一方、取得した項目が不変項目でない場合には、テンソル生成部112は、前処理を行い(ステップS146)、前処理を行って生成した項目のデータ又は前処理を行って変更した値を非カレンダーテンソルに追加する(ステップS147)。
【0077】
そして、テンソル生成部112は、全ての項目を処理したか否かを判定し(ステップS148)、処理していない項目がある場合には、ステップS142に戻って次の項目を処理する。一方、全ての項目を処理した場合には、テンソル生成部112は、全ての学習データを処理したか否かを判定し(ステップS149)、処理していない学習データがある場合には、ステップS141に戻って次の学習データを処理する。一方、全ての学習データを処理した場合には、テンソル生成部112は、テンソル生成処理を終了する。
【0078】
このように、テンソル生成部112が、カレンダーテンソルと非カレンダーテンソルを生成することで、予測装置100は、マルチテンソルを用いて精度の高い体調不良予測を行うことができる。
【0079】
次に、予測装置100の効果について
図19A及び
図19Bを用いて説明する。
図19A及び
図19Bは、予測装置100の効果を示す図である。
図19Aは、予測精度を示す。
図19Aは、6か月間の勤怠情報と個人属性情報から3か月以内の休職を予測した場合を示す。訓練データは、618件の休職ありデータと618件の休職なしデータである。また、個人属性情報としては、休職履歴、欠勤履歴、療養休暇履歴、職種、昇格、勤務地が用いられた。従来手法では、勤怠情報と個人属性情報から1つのカレンダーテンソルが生成され、実施例では、勤怠情報と個人属性情報からカレンダーテンソルと非カレンダーテンソルが生成される。
【0080】
図19Aは、混同行列を用いた予測精度を示す。混同行列において、休職が予測され実際に休職した数はTP(True Positive)と表され、休職が予測されなかったが実際には休職した数はFN(False Negative)と表される。また、休職が予測されたが実際には休職しなかった数はFP(False Positive)と表され、休職が予測されず実際にも休職しなかった数は、TN(True Negative)と表される。
【0081】
そして、正解率(Accuracy)=(TP+TN)/(TP+FP+TN+FN)、適合率(Precision)=TP/(FP+TP)、再現率(Recall)=TP/(FN+TP)、F1値=2(適合率*再現率)/(適合率+再現率)の計算結果が示されている。
【0082】
図19Aに示すように、正解率、適合率、再現率、F1値のいずれにおいても、従来手法と比較して、予測装置100の予測精度は高い。
【0083】
図19Bは、予兆検知の時期を示す。
図19Bに示すように、ケース#1及びケース#2の場合、従来手法では、療養休暇の段階では将来の休職を予測できないが、予測装置100は、療養休暇の段階で将来の休職を予測できる。また、ケース#3の場合、従来手法では、欠勤の段階で将来の休職を予測できるが、予測装置100は、療養休暇の段階で将来の休職を予測できる。このように、予測装置100は、従来手法と比較して、早期に休職の予測を行うことができる。
【0084】
上述してきたように、実施例では、判定部121が、データの変化の度合いに基づいて、学習データに含まれる項目がカレンダー項目、不変項目、前処理項目のいずれであるか否かを判定する。そして、学習データに含まれる項目がカレンダー項目である場合には、第1生成部122が、当該項目のデータをカレンダーテンソルに追加する。また、学習データに含まれる項目が前処理項目である場合には、第2生成部123が、当該項目のデータに基づいてデータを生成して非カレンダーテンソルに追加する。そして、予測装置100は、カレンダーテンソルと非カレンダーテンソルをマルチテンソルに入力して学習モデルを生成する。したがって、予測装置100は、休職を高い精度で早期に予測する学習モデルを生成することができる。
【0085】
また、実施例では、予測部114が、予測対象データからカレンダーテンソルと非カレンダーテンソルを生成し、学習モデルに入力して休職の有無を予測するので、休職を高い精度で早期に予測することができる。
【0086】
また、実施例では、第2生成部123は、参照期間より前に変化点があって過去履歴に基づく個人属性項目と値を前処理により生成する。また、第2生成部123は、予測期間に含まれる現在の情報に基づいて、個人属性項目の値を前処理により変更する。また、第2生成部123は、参照期間中に変化が発生した場合に変化後の期間に基づいて重みづけを行うことで個人属性項目の値を変更する。したがって、予測装置100は、個人属性情報を予測に適切に用いることができる。
【0087】
なお、実施例では、予測装置100について説明したが、予測装置100が有する構成をソフトウェアによって実現することで、同様の機能を有する予測プログラムを得ることができる。そこで、予測プログラムを実行するコンピュータについて説明する。
【0088】
図20は、実施例に係る予測プログラムを実行するコンピュータのハードウェア構成を示す図である。
図20に示すように、コンピュータ50は、メインメモリ51と、CPU(Central Processing Unit)52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
【0089】
メインメモリ51は、プログラムやプログラムの実行途中結果等を記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
【0090】
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボード等の入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
【0091】
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
【0092】
そして、コンピュータ50において実行される予測プログラムは、コンピュータ50により読み出し可能な記録媒体の一例であるDVDに記憶され、ODD57によってDVDから読み出されてコンピュータ50にインストールされる。あるいは、予測プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされた予測プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
【0093】
また、実施例では、勤怠情報と個人属性情報から休職を予測する場合について説明したが、予測装置は、他の情報から時系列データを含むテンソルと、時系列データを含まないテンソルを生成し、生成した2つのテンソルを用いて分類を行ってもよい。
【符号の説明】
【0094】
20,21,25 グラフ
22,23,24 行列
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD
100 予測装置
101 通信部
102 記憶部
103 元データDB
104 学習データDB
105 項目DB
106 テンソルDB
107 学習結果DB
108 予測対象DB
110 制御部
111 学習データ生成部
112 テンソル生成部
113 学習部
114 予測部