IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-73683データ分析支援装置およびデータ分析支援方法
<>
  • 特開-データ分析支援装置およびデータ分析支援方法 図1
  • 特開-データ分析支援装置およびデータ分析支援方法 図2
  • 特開-データ分析支援装置およびデータ分析支援方法 図3
  • 特開-データ分析支援装置およびデータ分析支援方法 図4
  • 特開-データ分析支援装置およびデータ分析支援方法 図5
  • 特開-データ分析支援装置およびデータ分析支援方法 図6
  • 特開-データ分析支援装置およびデータ分析支援方法 図7
  • 特開-データ分析支援装置およびデータ分析支援方法 図8
  • 特開-データ分析支援装置およびデータ分析支援方法 図9
  • 特開-データ分析支援装置およびデータ分析支援方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023073683
(43)【公開日】2023-05-26
(54)【発明の名称】データ分析支援装置およびデータ分析支援方法
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20230519BHJP
   G06N 20/00 20190101ALI20230519BHJP
【FI】
G06Q10/04
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021186291
(22)【出願日】2021-11-16
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】保前 太希
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA04
(57)【要約】
【課題】2値分類の学習モデルにおける最適な閾値の選択を可能とする。
【解決手段】データ分析支援装置100は、当該予測対象に係る事象が起きる確率を示す予測値と、当該予測対象に係る事象の当否を示す正解とが関連付けられた予測値データ(予測値データベース130)にアクセスする精度最適化部112を備える。精度最適化部112は、予測対象の予測値が閾値以上であれば事象が発生すると予測する場合の適合率および再現率のうち下限値が設定される予測精度である下限値設定精度と、下限値とを受け付け、下限値設定精度が下限値以上であって、適合率および再現率のうち下限値設定精度とは異なる予測精度である最適化対象精度が最大となる閾値である精度最適閾値を算出する。
【選択図】図3
【特許請求の範囲】
【請求項1】
予測対象に係る事象が起きる確率を示す予測値と、当該予測対象に係る事象の当否を示す正解とが関連付けられた予測値データにアクセスし、
前記予測対象の予測値が閾値以上であれば前記事象が発生すると予測する場合の適合率および再現率のうち下限値が設定される予測精度である下限値設定精度と、前記下限値とを受け付け、
前記下限値設定精度が前記下限値以上であって、適合率および再現率のうち前記下限値設定精度とは異なる予測精度である最適化対象精度が最大となる前記閾値である精度最適閾値を算出する精度最適化部を備える
データ分析支援装置。
【請求項2】
前記精度最適化部は、
前記精度最適閾値の許容誤差の設定値を受け付け、
前記閾値を前記許容誤差ずつ変えながら適合率と再現率とを算出し、
前記下限値設定精度が前記下限値以上であって、前記最適化対象精度が最大となる前記閾値を特定して前記精度最適閾値を算出する
請求項1に記載のデータ分析支援装置。
【請求項3】
効果最適部をさらに備え、
前記効果最適部は、
前記精度最適閾値の許容誤差、前記事象が発生すると予測された予測対象1つについて前記事象に対する対応の損失単位と、当該対応による利益単位とを受け付け、
前記閾値を前記精度最適閾値から前記許容誤差ずつ加えながら、前記予測値が前記精度最適閾値と加えた後の前記閾値との間にある予測対象の数と前記損失単位との積であるプラス効果を算出し、前記予測値が前記精度最適閾値と加えた後の前記閾値の間にあり、前記正解が当である予測対象の数と前記利益単位との積であるマイナス効果を算出し、当該プラス効果から当該マイナス効果を減じて閾値増大時の総効果を算出し、
前記閾値を前記精度最適閾値から前記許容誤差ずつ減じながら、前記予測値が前記精度最適閾値と減じた後の前記閾値との間にあり、前記正解が当である予測対象の数と前記利益単位との積であるプラス効果を算出し、前記予測値が前記精度最適閾値と減じた後の前記閾値の間にある予測対象の数と前記損失単位との積であるマイナス効果を算出し、当該プラス効果から当該マイナス効果を減じて閾値減少時の総効果を算出し、
前記閾値増大時の総効果と前記閾値減少時の総効果とのなかで最大となる総効果になるときの前記閾値である効果最適閾値を算出する
請求項1に記載のデータ分析支援装置。
【請求項4】
予測対象に係る事象が起きる確率を示す予測値と、当該予測対象に係る事象の当否を示す正解とが関連付けられた予測値データにアクセスする効果最適化部を備え、
前記効果最適化部は、
前記予測値が閾値以上であれば前記事象が発生すると予測された予測対象1つについて前記事象に対する対応の損失単位と、当該対応による利益単位とを受け付け、
前記予測値が前記閾値未満である予測対象の数と前記損失単位との積であるプラス効果を算出し、前記予測値が前記閾値未満で前記正解が当である予測対象の数と前記利益単位との積であるマイナス効果を算出し、当該プラス効果から当該マイナス効果を減じた効果が最大となる前記閾値である効果最適閾値を算出する
データ分析支援装置。
【請求項5】
前記効果最適化部は、
前記効果最適閾値の許容誤差の設定値を受け付け、
前記閾値を前記許容誤差ずつ変えながら前記効果最適閾値を算出する
請求項4に記載のデータ分析支援装置。
【請求項6】
前記予測対象は、サービスの契約者であり、
前記事象は、前記契約者のサービスの解約であり、
前記対応の損失単位は、前記サービスの解約と予測された契約者に対してサービスの継続を働きかける対応に掛かるコストであり、
前記対応による利益単位は、前記サービスの継続による利益の期待値である
請求項3または4に記載のデータ分析支援装置。
【請求項7】
前記予測対象は、機器であり、
前記事象は、前記機器の故障であり、
前記対応の損失単位は、前記故障と予測された機器を保守する対応に掛かるコストであり、
前記対応による利益単位は、前記故障を防いだことによる利益の期待値である
請求項3または4に記載のデータ分析支援装置。
【請求項8】
データ分析支援装置が、
予測対象に係る事象が起きる確率を示す予測値と、当該予測対象に係る事象の当否を示す正解とが関連付けられた予測値データにアクセスするステップと、
前記予測対象の予測値が閾値以上であれば前記事象が発生すると予測する場合の適合率および再現率のうち下限値が設定される予測精度である下限値設定精度と、前記下限値とを受け付けるステップと、
前記下限値設定精度が前記下限値以上であって、適合率および再現率のうち前記下限値設定精度とは異なる予測精度である最適化対象精度が最大となる前記閾値である精度最適閾値を算出するステップとを実行する
データ分析支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データに基づいて事象を予測する機械学習に係るパラメータを最適化するデータ分析支援装置およびデータ分析支援方法に関する。
【背景技術】
【0002】
コンピュータによる大量データの処理や機械学習技術の進展に伴い、データに基づいて事象を予測することが行われている。機械学習技術を用いた予測の例として、設備や機械などの計測データからの故障予測、サービスの利用状況からのサービス契約の解約予測、検査データからの病気の予測(診断)などがある。
【0003】
機械学習技術を利用するためには、機械学習モデル(学習モデル、予測モデル)が必要である。特許文献1に記載の検査装置では、特に3層以上の層を持つニューラルネットワークの学習のイテレーションやエポックと呼ばれる学習サイクルにおいて、ある程度のサイクル数の計算を行うごとに学習モデルを作成し、作成された複数の学習モデルの精度評価方法としてROC(Receiver Operating Characteristic)曲線を用いることで、最適な学習モデルの選択を可能とした。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-042669号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
故障/正常、解約/継続などの2値分類の学習モデルを用いて高精度な予測ができれば、故障や解約などの不都合な事象が発生する前に対策(対応)を行うことができる。例えば解約の可能性が高い契約者に対してメリットを説明して継続を促すことができたり、故障が予測される部品を次回の定期点検時/停止時に交換したりできる。こうすることで、サービスが継続されて利益を確保したり、故障による機械の停止を未然に防いだりできる。
【0006】
高精度な予測を行うためには、学習モデルに係るパラメータの調整が重要である。特に、故障や解約などの予測値について、故障や解約と判断する閾値の設定が重要となる。特許文献1に記載の技術では、複数作成された学習モデルに対して最適な学習モデルが選択可能であるが、1つの学習モデルに対する最適な予測値の閾値は不明のままである。
本発明はこのような背景を鑑みてなされたものであり、2値分類の学習モデルにおける最適な閾値の選択を可能とするデータ分析支援装置およびデータ分析支援方法を提供することを課題とする。
【課題を解決するための手段】
【0007】
上記した課題を解決するため、本発明に係るデータ分析支援装置は、予測対象に係る事象が起きる確率を示す予測値と、当該予測対象に係る事象の当否を示す正解とが関連付けられた予測値データにアクセスし、前記予測対象の予測値が閾値以上であれば前記事象が発生すると予測する場合の適合率および再現率のうち下限値が設定される予測精度である下限値設定精度と、前記下限値とを受け付け、前記下限値設定精度が前記下限値以上であって、適合率および再現率のうち前記下限値設定精度とは異なる予測精度である最適化対象精度が最大となる前記閾値である精度最適閾値を算出する精度最適化部を備える。
【発明の効果】
【0008】
本発明によれば、2値分類の学習モデルにおける最適な閾値の選択を可能とするデータ分析支援装置およびデータ分析支援方法を提供することができる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0009】
図1】本実施形態に係る解約予測装置を説明するための図である。
図2】本実施形態に係るデータ分析支援装置の概要を説明するための図である。
図3】本実施形態に係るデータ分析支援装置の機能ブロック図である。
図4】本実施形態に係る予測値データベースのデータ構成図である。
図5】本実施形態に係る予測値別契約者数データベースのデータ構成図である。
図6】本実施形態に係る精度最適閾値算出処理のフローチャートである。
図7】本実施形態に係る精度最適閾値画面の画面構成図である。
図8】本実施形態に係る効果最適閾値算出処理のフローチャートである。
図9】本実施形態に係る効果算出パラメータ画面の画面構成図である。
図10】本実施形態に係る改善効果画面の画面構成図である。
【発明を実施するための形態】
【0010】
≪データ分析支援装置の概要≫
以下に本発明を実施するための形態(実施形態)におけるデータ分析支援装置を説明する。図1は、本実施形態に係る解約予測装置500を説明するための図である。解約予測装置500は、予測に用いる機械学習モデルである予測モデル521を用いて、サービス利用開始時期や利用頻度など契約者によるサービスの利用状況から契約者が解約する(解約という事象が発生する/起きる)確率(予測確率、予測値)を算出する。解約予測装置500は、予測値が所定の閾値522以上であれば解約(事象発生)と予測し、当該閾値未満なら継続と予測する。
【0011】
図2は、本実施形態に係るデータ分析支援装置100の概要を説明するための図である。解約予測装置500の予測モデル521(図1参照)は、学習データ560を用いて生成される。学習データ560には、契約者の識別情報、サービスの利用状況、契約者がサービスを継続したか解約したかを示す正解(正解ラベル)が含まれる。利用状況が予測モデル521の説明変数(入力)であり、正解が目的変数(出力)となる。
データ分析支援装置100の入力データは予測値データ570であり、解約の予測値および正解を含む。データ分析支援装置100は、予測の精度に関して適合率および再現率のうちの何れか一方の下限値を受け付け、他方が最大となる予測値の閾値(精度最適閾値)を算出する。
【0012】
このようなデータ分析支援装置100によれば、利用者の業績目標達成に必要な予測モデル521の適合率および再現率のうちの何れか一方の下限値を満たすなかで、他方が最大となる予測値の閾値が得られる。機械学習・データサイエンスの知見がない利用者であっても、利用目的に応じた予測モデル521の最適な閾値の設定が可能となる。
【0013】
データ分析支援装置100の利用者は、解約と予測された契約者に対して、継続を働きかける営業活動を行う。営業活動を行うことで、契約者によってはサービスが継続され利益を得ることができるが、営業活動自体にコストが掛かる。営業活動による利益と、そのコスト(損失)とは、トレードオフの関係にある。
データ分析支援装置100は、営業活動の利益(利益の期待値)とコストとを受け付けて、利益からコストを減じた効果が最大となる閾値を算出する。利用者は、単に精度の観点からだけではなく、業務の効果/効率が最大となる予測確率の閾値(効果最適閾値)を得ることができる。
【0014】
≪データ分析支援装置:全体構成≫
図3は、本実施形態に係るデータ分析支援装置100の機能ブロック図である。データ分析支援装置100はコンピュータであり、制御部110、記憶部120、および入出力部180を備える。入出力部180には、ディスプレイやキーボード、マウスなどのユーザインターフェイス機器が接続される。入出力部180が通信デバイスを備え、解約予測装置500などの装置とのデータ送受信が可能であってもよい。また入出力部180にメディアドライブが接続され、記録媒体を用いたデータのやり取りが可能であってもよい。
【0015】
記憶部120は、ROM(Read Only Memory)やRAM(Random Access Memory)、SSD(Solid State Drive)などの記憶機器を含んで構成される。記憶部120には、予測値データベース130、予測値別契約者数データベース140、およびプログラム128が記憶される。プログラム128は、後記する精度最適閾値算出処理(図6参照)や効果最適閾値算出処理(図8参照)の記述を含む。
【0016】
≪データ分析支援装置:予測値データベース≫
図4は、本実施形態に係る予測値データベース130のデータ構成図である。予測値データベース130に記憶されるデータは、後記する精度最適閾値算出処理(図6参照)の入力データである。予測値データベース130は表形式のデータであって、1つの行(レコード)は識別情報131、予測値132、および正解133の列を含む。つまりは、予測値データベース130では、予測値132と正解133とが関連付けられている。
【0017】
識別情報131は、契約者の識別情報である。予測値132は、識別情報131で識別される契約者がサービスを解約する予測値(予測確率)であって、予測モデル521(図2参照)を用いて解約予測装置500が算出した値である。正解133は、契約者が解約したか継続したかを示し、予測値データ570に含まれる正解である。
【0018】
≪データ分析支援装置:予測値別契約者数データベース≫
図5は、本実施形態に係る予測値別契約者数データベース140のデータ構成図である。予測値別契約者数データベース140は、予測値データベース130を基に後記するデータ取得部111により生成される。予測値別契約者数データベース140は、表形式のデータであって、1つの行(レコード)は予測値141、解約者数142、および継続者数143の列(属性)を含む。解約者数142は予測値データベース130のなかで予測値132が予測値141の範囲内にあって正解133が「解約」であるレコードの件数(契約者)である。継続者数143は予測値データベース130のなかで予測値132が予測値141の範囲内にあって正解133が「継続」であるレコードの件数である。
【0019】
≪精度≫
制御部110の説明を始める前に、予測精度(精度)を説明する。真陽性とは、契約者(予測値データベース130のレコード)の予測値132が閾値以上であって解約と予測され、正解133が解約であることであって、解約の予測(陽性)が正しい場合である。偽陰性とは、契約者の予測値132が閾値未満であって継続と予測され、正解133が解約であることであって、継続の予測(陰性)が誤りの場合である。
【0020】
偽陽性とは、契約者の予測値132が閾値以上であって解約と予測され、正解133が継続であることであって、解約の予測が誤りの場合である。真陰性とは、契約者の予測値132が閾値未満であって継続と予測され、正解133が継続であることであって、継続の予測が正しい場合である。
【0021】
予測精度には、適合率、再現率、および正解率がある。適合率は解約と予測した場合の予測が正しい確率であって、適合率=真陽性/(真陽性+偽陽性)として算出される。この式における真陽性とは真陽性の契約者数(予測値データベース130のレコード数)であり、偽陽性とは偽陽性の契約者数である。以下の適合率や正解率の式における偽陽性、真陰性、偽陰性でも同様である。
【0022】
再現率は解約した契約者のなかで解約と予測した比率であって、適合率=真陽性/(真陽性+偽陰性)として算出される。正解率は予測が正しい比率であって正解率=(真陽性+真陰性)/契約数として算出される。
一般に、適合率と再現率とはトレードオフの関係にある。閾値を上げれば適合率は上昇するが、再現率は下落する。逆に閾値を下げれば再現率は上昇するが、適合率は下落する。
【0023】
≪データ分析支援装置:制御部≫
図3に戻って制御部110の説明を続ける。制御部110は、CPU(Central Processing Unit)を含んで構成され、データ取得部111、精度最適化部112、および効果最適化部113が備わる。
データ取得部111は、予測値データ570(図2参照)を取得して予測値データベース130(図4参照)に格納する。続いてデータ取得部111は、予測値データベース130を基に予測値別契約者数データベース140(図5参照)を生成する。
【0024】
精度最適化部112は、利用者が指定する適合率および再現率のうちの何れか一方の下限値を取得する。次に精度最適化部112は、予測値データベース130を参照し、閾値を変えながら当該下限値の条件を満たしつつ、他方が最大となる閾値(精度最適閾値とも記す)を求める。詳細は、後記する図6を参照して説明する。
【0025】
効果最適化部113は、利用者が解約と予測され契約者に対して継続を働きかける営業活動のコスト(損失)、および営業活動による得られる利益(利益の期待値)を取得する。次に効果最適化部113は、予測値データベース130を参照し、閾値を変えながら利益から損失を減じた効果が最大となる閾値(効果最適閾値とも記す)を求める。詳細は、後記する図8を参照して説明する。
【0026】
≪精度最適閾値算出処理≫
図6は、本実施形態に係る精度最適閾値算出処理のフローチャートである。図6を参照しながら精度最適化部112が、設定された条件下で精度(適合率または再現率)が最大となる閾値を求める処理を説明する。
ステップS11において精度最適化部112は、後記する精度最適閾値画面310(図7参照)を介して閾値算出の条件を取得する。
【0027】
図7は、本実施形態に係る精度最適閾値画面310の画面構成図である。領域311において利用者は、閾値算出の条件として適合率および再現率のうち何れか一方の下限値を設定する。図7では、適合率の下限値が0.40と設定されている。
領域312において利用者は、閾値を求める範囲と精度(許容誤差)とを設定する。図7では、0.00から1.00の範囲において精度0.10で閾値の最適値を算出するように設定している。
【0028】
利用者は設定を終えると「最適閾値算出」ボタン313をクリックする。このようにして精度最適化部112は、適合率および再現率のうち下限値が設定される予測精度である下限値設定精度と、その下限値とを受け付ける。以下、図6に戻って精度最適閾値算出処理の説明を続ける。
【0029】
ステップS12において精度最適化部112は、領域312に設定された最小の閾値0.0から最大の閾値1.0まで、精度に設定された値0.1ずつ増やしながら、ステップS13の処理を繰り返す。換言すれば精度最適化部112は、閾値を0.0、0.1、0.2、・・・、1.0と変えながらステップS13の処理を繰り返す。
ステップS13において精度最適化部112は、閾値における適合率、再現率、正解率を算出する。
【0030】
ステップS14において精度最適化部112は、ステップS13で算出した精度のなかでステップS11において取得した条件を満たし、適合率または再現率が最大となる閾値(精度最適閾値)を特定する。換言すれば精度最適化部112は、適合率が0.4以上で再現率が最大となる閾値を特定する。
ステップS15において精度最適化部112は、ステップS14で特定した閾値を精度最適閾値画面310(図7参照)の領域314に、当該閾値における精度を領域315に表示する。
【0031】
≪効果最適閾値算出処理≫
図8は、本実施形態に係る効果最適閾値算出処理のフローチャートである。図8を参照しながら効果最適化部113が、設定された条件下で営業活動の効果が最大となる閾値を求める処理を説明する。
ステップS31において効果最適化部113は、後記する効果算出パラメータ画面330(図9参照)を介して閾値算出のパラメータを取得する。
【0032】
図9は、本実施形態に係る効果算出パラメータ画面330の画面構成図である。利用者は営業員単価の欄に、解約と予測された契約者に対して継続を働きかける営業活動を行う営業員の時間コストを設定する。また利用者は営業工数の欄に、1契約者当たりの営業活動を行う時間(平均時間)を設定する。図9では、営業員単価が7千円/時間、営業工数が4時間/契約者と設定されており、1契約者当たりの(予測対象1つについて)営業活動のコスト(損失単位)は2.8万円である。
【0033】
利用者は解約阻止成功率の欄に、営業活動が成功して継続を獲得する確率を設定する。また利用者は解約阻止時の利益の欄に、継続したときに得られる利益を設定する。図9では、解約阻止成功率は11%、1契約者当たりの解約阻止時の利益は80万円と設定されている。解約阻止時の利益は、例えば契約期間や契約内容などによって決まり、契約者ごとに異なる。このような場合には、利益の期待値(平均値)を1契約者当たりの利益として設定する。成功率まで含めた1契約者当たりの営業活動の利益(利益単位)は、8.8万円である。以下、図8に戻って効果最適閾値算出処理の説明を続ける。
【0034】
ステップS32において効果最適化部113は、精度最適閾値(図6のステップS15、図7の領域314参照)から始めて精度(領域312参照)に設定された値ずつ増やしながらステップS33~S34を繰り返す。図7によれば効果最適化部113は、精度最適閾値0.7から始めて0.1ずつ増やしながらステップS33~S34を繰り返す。
ステップS33において効果最適化部113は、閾値を精度最適閾値から変更したことによる効果を算出する。以下、精度最適閾値が0.7、閾値が0.8として説明する。
【0035】
予測値が0.7から0.8である契約者数は300+800=1100である(図5参照)。この1100の契約者については、閾値を0.7から0.8に変更することにより、予測モデル510を用いた予測結果は解約から継続に変わり営業活動を行わない。ついては、2.8万円×1100=3080万円のコスト削減(利益)となる。
【0036】
予測値が0.7から0.8である解約者数は300である。この300の契約者は、閾値を0.7から0.8に変更することにより、予測結果は解約から継続に変わるため営業活動の対象とならない。このため、営業活動を行っていれば11%の確率で継続となって得られたはずの、80万円×300×0.11=2640万円の利益を失うこと(損失)になる。
効果は、削減コスト(利益)の3080万円から損失利益(損失)の2640万円を減じた440万円となる。
【0037】
換言すれば効果最適化部113は、閾値を精度最適閾値(0.7)から許容誤差(精度、0.1)ずつ加えながら、予測値が精度最適閾値(0.7)と加えた後の閾値(0.8)との間にある予測対象の数(契約者数、1100)と損失単位との積であるプラス効果(利益、3080万円)を算出し、予測値が精度最適閾値(0.7)と加えた後の閾値(0.8)の間にあり、正解133が当(解約)である予測対象の数(解約者数、300)と利益単位との積であるマイナス効果(損失、2640万円)を算出し、当該プラス効果から当該マイナス効果を減じて閾値増大時の総効果(効果、440万円)を算出する。
【0038】
ステップS34において効果最適化部113は、ステップS33において算出した効果が0より大ならば(ステップS34→YES)閾値を精度の値分増やしてステップS33に戻り、効果が0以下ならば(ステップS34→NO)ステップS35に進む。
ステップS35において効果最適化部113は、精度最適閾値から始めて精度に設定された値ずつ減らしながらステップS36~S37を繰り返す。
ステップS36において効果最適化部113は、閾値を精度最適閾値から変更したことによる効果を算出する。以下、精度最適閾値が0.7、閾値が0.6として説明する。
【0039】
予測値が0.6から0.7である解約者数は450である。閾値を0.7から0.6に変更することにより、予測モデル510を用いた予測結果は継続から解約に変わり、この450の契約者に対して営業活動を行うことになる。11%の確率で営業活動が成功して継続を獲得することにより、80万円×450×0.11=3960万円の利益となる。
【0040】
予測値が0.6から0.7である契約者数は450+1000=1450である。閾値を0.7から0.6に変更することにより、予測モデル510を用いた予測結果は継続から解約に変わり、この1450の契約者に対して営業活動を行うことになる。このため2.8万円×1450=4060万円の損失となる。
効果は、利益の3960万円から損失の4060万円を減じた-100万円となる。
【0041】
換言すれば効果最適化部113は、閾値を精度最適閾値(0.7)から許容誤差(精度、0.1)ずつ減じながら、予測値が精度最適閾値(0.7)と減じた後の閾値(0.6)との間にあり、正解133が当(解約)である予測対象の数(解約者数、450)と利益単位との積であるプラス効果(利益、3960万円)を算出し、予測値が精度最適閾値(0.7)と減じた後の閾値(0.6)の間にある予測対象の数(契約者数、1450)と損失単位との積であるマイナス効果(損失、4060万円)を算出し、当該プラス効果から当該マイナス効果を減じて閾値減少時の総効果(効果、-100万円)を算出する。
【0042】
ステップS37において効果最適化部113は、ステップS36において算出した効果が0より大ならば(ステップS37→YES)閾値を精度の値分減らしてステップS36に戻り、効果が0以下ならば(ステップS37→NO)ステップS38に進む。
ステップS38において効果最適化部113は、後記する改善効果画面350(図10参照)を出力する。
図10は、本実施形態に係る改善効果画面350の画面構成図である。改善効果画面350には、閾値を変えた場合の、精度および効果が表示される。効果(図10の改善効果の欄参照)は、閾値0.8が最大であり、0.8が効果最適閾値である。
【0043】
≪データ分析支援装置の特徴≫
データ分析支援装置100の利用者は、予測モデル521の適合率および再現率のうち何れか一方の下限値を満たすなかで、他方が最大となる予測値の閾値が得られる。利用者は、業績目標達成に必要な適合率または再現率を設定することで、他方が最大となる閾値を求めることができる。機械学習・データサイエンスの知見がない利用者であっても、利用目的に応じた予測モデルの最適な閾値の設定が可能となる。
【0044】
また利用者は、予測結果に対する対応としての、解約と予測された契約者に対する営業活動の利益と損失を設定し、利益から損失を減じた効果が最大となる閾値が得られる。利用者は、単に予測精度の観点からだけではなく、業務の効果/効率が最大となる予測値の閾値を設定することができる。
【0045】
≪適用例:故障予測≫
上記した実施形態では、サービス契約の解約/継続という事象の予測を題材としてデータ分析支援装置100を説明した。他の事象の予測であっても構わない。例えば、設備/機械の故障という事象の予測についての予測値データを入力データとしてもよい。正常なのに故障と予測する誤報が多いと、無駄な点検が増えるので、適合率が重要視される。データ分析支援装置100を利用することで、適合率の下限値(例えば0.8)を満たしたうえで、再現率が最大となる閾値が設定できるようになる。
【0046】
また、効果を算出して閾値を設定することもできる。故障予測の場合、故障と予測された設備/機械に対する対応は、当該設備/機械の点検・修理である。対応のコストは点検・修理に掛かる保守員のコストや交換部品のコストである。対応の利益は、設備/機械の停止による損失の回避であり、設備/機械が稼働し続けることによる利益である。対策である点検・修理の利益とコスト(損失)とから、効果重視の閾値が設定できるようになる。
【0047】
≪適用例:病気診断≫
検査データから病気という事象を診断(予測)する装置の閾値設定にも適用可能である。病気診断においては、病気の見逃しを避けることが重要であり、再現率が重要視される。データ分析支援装置100を利用することで、再現率の下限値(例えば0.9)を満たしたうえで、適合率が最大となる閾値が設定できるようになる。
【0048】
≪変形例:精度最適閾値算出処理≫
上記した実施形態では、閾値を最小値から最大値まで精度分ずつ閾値を増やしながら適合率・再現率を算出して、例えば適合率の下限値を満たしながら再現率が最大となる閾値である精度最適閾値を求めている。閾値を最大値から最小値まで精度分ずつ閾値を減らしながら算出してもよい。
【0049】
適合率と再現率はトレードオフの関係にあるので、適合率が下限値となる閾値で、再現率が最大となると考えられる。また閾値が増加するにつれて適合率も増加するため、適合率が下限値未満となる閾値の最小値を下端とし、適合率が下限値超となる閾値の最大値を上端とする閾値の区間から始めて、二分法を用いて適合率が下限値となる閾値を算出して精度最適閾値としてもよい。再現率の下限値が条件となる場合も同様である。
【0050】
≪変形例:効果最適閾値算出処理≫
上記した実施形態では、閾値を精度最適閾値から精度分ずつ閾値を変えながら効果(利益-損失)を算出して、効果が最大となる閾値である効果最適閾値を求めている。閾値を変数として、効果を最大化する最適化問題として効果最適閾値を算出してもよい。例えば、予測値と正解とを定数とし、閾値と当該閾値における各契約者の解約/継続とを示す変数を用い、効果を最大化する線形計画法を用いてもよい。利益(削減コスト)は、閾値未満の契約者数と1契約者当たりの営業活動コストである2.8万円との積である。損失は、閾値未満の解約者数と1契約者当たりの解約阻止による利益の期待値である8.8万円である。
他の手法を用いてもよい。一般に、閾値が増えるときに、効果は単調に増加して最大値をとり、その後に単調に減少となる。このため、三分探索を用いて、効果が最大となる閾値を求めてもよい。
【0051】
≪その他変形例≫
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。例えば精度最適閾値を算出する際に、効果最適化部113は、精度最適閾値算出処理と同じ精度を用いている(図8記載のステップS32,S35参照)が、新に効果最適閾値算出処理用の精度を、効果算出パラメータ画面330(図9参照)を介して取得してもよい。
【0052】
本発明はその他の様々な実施形態をとることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0053】
100 データ分析支援装置(分析支援装置)
112 精度最適化部
113 効果最適化部
130 予測値データベース(予測値データ)
131 識別情報
132 予測値
133 正解
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10