(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024072536
(43)【公開日】2024-05-28
(54)【発明の名称】予測モデル構築支援装置、予測モデル構築支援方法及び予測モデル構築支援プログラム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20240521BHJP
G06F 8/35 20180101ALI20240521BHJP
【FI】
G06Q10/04
G06F8/35
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022183402
(22)【出願日】2022-11-16
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002907
【氏名又は名称】弁理士法人イトーシン国際特許事務所
(72)【発明者】
【氏名】福居 誠二
(72)【発明者】
【氏名】北川 貴之
(72)【発明者】
【氏名】長岡 武志
【テーマコード(参考)】
5B376
5L010
5L049
【Fターム(参考)】
5B376BC23
5B376BC38
5B376BC80
5L010AA04
5L049AA04
(57)【要約】
【課題】予測モデルの構築を効果的に支援する。
【解決手段】 実施形態の予測モデル構築支援装置は、回帰分析の第1の予測モデルの構築に使用する第1のデータセットが与えられて前記第1のデータセットの第1の特徴量を算出する特徴量算出部と、過去に構築された回帰分析の複数の第2の予測モデルの構築時にそれぞれ使用された複数の第2のデータセットと前記第2の予測モデルの構築時にそれぞれ使用された複数の処理の情報とを学習履歴として保持する保持部に保持された前記複数の第2のデータセットのそれぞれの第2の特徴量と前記第1の特徴量とを比較することで前記第1の特徴量と前記第2の特徴量との類似度を求め、求めた類似度に基づいて1つ以上の前記第2のデータセットを選択し、選択した前記第2のデータセットに関連する前記処理の情報を提示する処理提案部とを具備する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
回帰分析の第1の予測モデルの構築に使用する第1のデータセットが与えられて前記第1のデータセットの第1の特徴量を算出する特徴量算出部と、
過去に構築された回帰分析の複数の第2の予測モデルの構築時にそれぞれ使用された複数の第2のデータセットと前記第2の予測モデルの構築時にそれぞれ使用された複数の処理の情報とを学習履歴として保持する保持部に保持された前記複数の第2のデータセットのそれぞれの第2の特徴量と前記第1の特徴量とを比較することで前記第1の特徴量と前記第2の特徴量との類似度を求め、求めた類似度に基づいて1つ以上の前記第2のデータセットを選択し、選択した前記第2のデータセットに関連する前記処理の情報を提示する処理提案部と
を具備する予測モデル構築支援装置。
【請求項2】
前記保持部を更に具備する
請求項1に記載の予測モデル構築支援装置。
【請求項3】
前記特徴量算出部は、前記保持部に記録された特徴量定義情報に基づいて、前記第1の特徴量を算出する
請求項1に記載の予測モデル構築支援装置。
【請求項4】
前記処理提案部は、前記保持部に記録された前記第2のデータセット毎の第2の特徴量の情報を読み出して、前記類似度を求める
請求項1に記載の予測モデル構築支援装置。
【請求項5】
前記処理提案部は、ユークリッド距離を用いて前記類似度を算出する
請求項1に記載の予測モデル構築支援装置。
【請求項6】
前記保持部は、前記複数の第2の予測モデルのそれぞれの予測精度の情報を保持し、
前記処理提案部は、前記第2のデータセットに関連する前記処理の情報の提示に際して、予測精度の情報も提示する
請求項1に記載の予測モデル構築支援装置。
【請求項7】
コンピュータで行なわれる予測モデル構築支援方法であって、
過去に構築された回帰分析の複数の第2の予測モデルの構築時にそれぞれ使用された複数の第2のデータセットと前記第2の予測モデルの構築時にそれぞれ使用された複数の処理の情報とを学習履歴として保持し、
回帰分析の第1の予測モデルの構築に使用する第1のデータセットが与えられて前記第1のデータセットの第1の特徴量を算出し、
保持された前記複数の第2のデータセットのそれぞれの第2の特徴量と前記第1の特徴量とを比較することで前記第1の特徴量と前記第2の特徴量との類似度を求め、求めた類似度に基づいて1つ以上の前記第2のデータセットを選択し、選択した前記第2のデータセットに関連する前記処理の情報を提示する
予測モデル構築支援方法。
【請求項8】
コンピュータに、
過去に構築された回帰分析の複数の第2の予測モデルの構築時にそれぞれ使用された複数の第2のデータセットと前記第2の予測モデルの構築時にそれぞれ使用された複数の処理の情報とを学習履歴として保持し、
回帰分析の第1の予測モデルの構築に使用する第1のデータセットが与えられて前記第1のデータセットの第1の特徴量を算出し、
保持された前記複数の第2のデータセットのそれぞれの第2の特徴量と前記第1の特徴量とを比較することで前記第1の特徴量と前記第2の特徴量との類似度を求め、求めた類似度に基づいて1つ以上の前記第2のデータセットを選択し、選択した前記第2のデータセットに関連する前記処理の情報を提示する
手順を実行させるための予測モデル構築支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、予測モデル構築支援装置、予測モデル構築支援方法及び予測モデル構築支援プログラムに関する。
【背景技術】
【0002】
従来、住宅の価格や物販の売上数、ソフトウェア開発にかかる工数の予測等の様々な分野における予測に際して回帰分析が用いられることがある。回帰分析においては、目的変数と、要因となる説明変数との関係を求めるための予測モデルを、過去のデータセットに基づいて構築する。
【0003】
しかしながら、回帰分析に関する十分な知見のない初心者にとっては、予測モデルの構築は極めて困難である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020ー38527号公報
【特許文献2】特開2020ー86075号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
実施形態は、予測モデルの構築を効果的に支援することができる予測モデル構築支援装置、予測モデル構築支援方法及び予測モデル構築支援プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
実施形態の予測モデル構築支援装置は、回帰分析の第1の予測モデルの構築に使用する第1のデータセットが与えられて前記第1のデータセットの第1の特徴量を算出する特徴量算出部と、過去に構築された回帰分析の複数の第2の予測モデルの構築時にそれぞれ使用された複数の第2のデータセットと前記第2の予測モデルの構築時にそれぞれ使用された複数の処理の情報とを学習履歴として保持する保持部に保持された前記複数の第2のデータセットのそれぞれの第2の特徴量と前記第1の特徴量とを比較することで前記第1の特徴量と前記第2の特徴量との類似度を求め、求めた類似度に基づいて1つ以上の前記第2のデータセットを選択し、選択した前記第2のデータセットに関連する前記処理の情報を提示する処理提案部とを具備する。
【図面の簡単な説明】
【0007】
【
図2】回帰分析の予測モデルを作るためのデータセットの一例を示す図表。
【
図3】データセットの特徴量の定義の一例を示す図表。
【
図4】処理保存部31に記録された情報の一例を示す説明図。
【
図5】特徴量定義データ保存部32に記録された情報の一例を示す説明図。
【
図6】学習履歴保存部33に記録される学習履歴の一例を示す説明図。
【
図7】実施形態の動作を説明するためのフローチャート。
【
図8】実施形態の動作を説明するためのフローチャート。
【発明を実施するための形態】
【0008】
以下、図面を参照して本発明の実施形態について詳細に説明する。
【0009】
(第1の実施の形態)
図1は本発明の一実施形態を示すブロック図である。
【0010】
本実施形態は、過去の予測モデル作成時におけるデータセットを含む学習履歴を保存し、予測モデル作成に用いるデータセットの特徴量と学習履歴に含まれる特徴量とを比較することで、保存されている過去の学習履歴から予測モデルの作成に有効な手法を提示可能にすることにより、予測モデルの構築を効果的に支援するものである。
【0011】
図2は回帰分析の予測モデルを作るためのデータセットの一例を示す図表である。
図2は回帰分析の対象としてソフトウェア開発プロジェクトの工数予測を採用した場合のデータセットの例である。
図2においては、ID番号1~NのN個のソフトウェア開発プロジェクトについてのデータセットを示している。
【0012】
工数予測では、ソフトウェア開発プロジェクトの特徴を表す様々なデータを説明変数とし、ソフトウェア開発にかかる工数を目的変数として回帰分析を行う。この場合に使用するデータセットは、
図2に示すように、工数を目的変数とし、説明変数として、期間、人数、開発工数、コスト、開発言語、…を含む。 なお、
図2の各変数は、一般的に工数予測の分野でよく用いられるものである。
【0013】
回帰分析の予測モデルを構築するために使用するデータセットには、記入されておらず空欄になっているデータ(以下、欠損値という)や他のデータと比べて異常に大きい又は小さい値(以下、異常値という)が含まれていることがよくある。このような欠損値や異常値等を含むデータセットを用いて予測モデルを構築する場合、モデルの精度が悪化したり、そもそもモデルを構築できなくなったりすることがある。
【0014】
そこで、欠損値の有無、異常値の割合、平均、値の最大/最小値等のデータセットの特徴量を判断し、モデルの精度を向上させるためにデータに前処理を行うことがある。
【0015】
図3はデータセットの特徴量の定義の一例を示す図表である。
図3では、データセットの特徴量としてID1~5に示す5つを例示しているるが、これに限定されるものではない。データセットの特徴量としてのデータ数は、全データ数のことであり、
図2の例ではデータセットの行数Nにより求めることができる。変数の個数は、全変数の個数のことであり、
図2ではデータセットの列数により求めることができる。各変数の平均は、各変数の値の和/全データ数により求められる。欠損値を含むかどうかは、カラム中に欠損値(N/A)のデータがあるか否かを判定(if)し、その結果がTrue(真)であるかFalse(偽)であるかにより求められる。各変数の欠損率は、各変数においてカラム中に(N/A)のデータがある数/全データ数により求められる。
【0016】
図3において定義したデータセットの特徴量を求め、求めた特徴量に応じた前処理を行うことで、予測モデルの精度を向上させることができる。例えば、前処理としては、欠損値を含むプロジェクトをデータセットから削除する処理(欠損値処理)、他のプロジェクトのデータを用いて欠損値を補完する処理(欠損値補完処理)、欠損値を含むプロジェクトをデータセットから削除する処理(異常値処理)、他のプロジェクトのデータを用いて異常値を別の値に補完する処理(異常値補完処理)等がある。これらの処理の組み合わせの仕方が、予測モデルの精度に大きな影響を与える。
【0017】
しかしながら、回帰分析の熟練者でなければ、このようなデータセットの特徴量を考慮してどのような前処理を選択すればよいかを判断することは困難である。また、回帰分析の予測モデルを構築するためには、目的変数、説明変数の選定、プログラミング言語の選定、予測モデルを構築するための機械学習のアルゴリズムの選定等を行う必要がある。なお、機械学習のアルゴリズムとしては、重回帰分析、ランダムフォレスト、サポートベクターマシン等の種々のアルゴリズムが考えられる。しかしながら、回帰分析の熟練者でなければ、いずれのプログラミング言語を用いた処理、機械学習のどのようなアルゴリズムを用いた処理を行うかを決定することも困難である。
【0018】
そこで、本実施形態においては、例えば熟練者が予測モデルの構築時に使用したデータセットと、そのデータセットを用いて熟練者が行った予測モデル構築手法、即ち予測モデルの構築時に用いた前処理を含む各種処理を学習履歴として保存し、保存した学習履歴を利用して予測モデルの構築を支援するようになっている。
【0019】
上述したように、熟練者は、データセットの特徴量に応じて各種処理を選択して実施する。従って、データセットの特徴量が類似したデータセットについては、熟練者等が行った予測モデル構築手法と同様の手法を採用することで予測精度を向上させることができるものと考えられる。そこで、本実施形態においては、効果的な支援を得るために、回帰分析の初心者等の利用者は、予測モデルの構築に使用したデータセットを予測モデル構築支援装置に入力する。予測モデル構築支援装置は、入力されたデータセットの特徴量に類似した特徴量を有するデータセットを学習履歴から検索し、検索されたデータセットに対する予測モデル構築手法を学習履歴から取得して、利用者に提示する。
【0020】
なお、データセット中の説明変数は、プロジェクト毎に相違することが一般的であり、説明変数及び目的変数が完全に一致したプロジェクトは少ない場合もある。また、種類が異なるプロジェクト、例えば、物販の売上数の予測とソフトウェア開発にかかる工数の予測とでは、説明変数及び目的変数のいずれも、相互に全く異なることが考えられる。このような場合でも、本実施形態においては、データセットの特徴量によって類似を判断しており、種類が異なるプロジェクトについても、過去の学習履歴を利用して、予測モデル構築手法の効果的な支援が可能である。
【0021】
なお、熟練者であっても高い予測精度の予測モデルを構築できるとは限らず、また、初心者であっても高い予測精度の予測モデルを構築できることもある。そこで、本実施形態においては、構築された予測モデルの予測精度の情報を学習履歴に含めて保存する。これにより、学習履歴から、より高い予測精度が得られる予測モデル構築手法を利用者に提示可能となる。
【0022】
図1において、予測モデル構築支援装置は、支援プロセッサ10、インターフェイス20及び保存部30により構成される。インターフェイス20は、支援プロセッサ10に対するユーザの入力を受け付けて入力データを支援プロセッサ10の各部に与えると共に、支援プロセッサ10からの出力データをユーザに提供するためのインターフェイスである。
図1では、ユーザとして、回帰分析に関する熟練者M1と初心者M2とを例示している。
【0023】
支援プロセッサ10は、制御部11、処理定義部12、特徴量定義部13、学習履歴登録部14、データセット取得部15、特徴量計算部16及び処理提案部17を含む。支援プロセッサ10又は支援プロセッサ10を構成する制御部11、処理定義部12、特徴量定義部13、学習履歴登録部14、データセット取得部15、特徴量計算部16及び処理提案部17は、CPU(Central Processing Unit)やFPGA(Field Programmable Gate Array)等を用いたプロセッサによって構成されていてもよい。これらは、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
【0024】
熟練者M1は、予測モデルの構築の際に使用可能なデータセットの特徴量の定義の情報(以下、特徴量定義情報という)をインターフェイス20により支援プロセッサ10に入力する。例えば、熟練者M1は、
図3に示す特徴量名とその特徴量を求めるための計算式や条件式の情報を特徴量定義情報として入力する。また、熟練者M1は、予測モデルの構築の際に使用可能な処理の情報(以下、使用可能処理情報という)をインターフェイス20により支援プロセッサ10に入力する。使用可能処理情報は、上述した前処理の種類や、プログラム言語の種類や機械学習のアルゴリズムの種類等の情報を含むものであって、熟練者M1がモデル構築に使用した処理の名前(処理名)と、その処理を実行するためのプログラムとが関連付けられた情報である。
【0025】
保存部30は、処理保存部31、特徴量定義データ保存部32、学習履歴保存部33及びデータセット保存部34を含む。保存部30の各保存部31~34としては、例えば、HDD(ハードディスク)やメモリ媒体等を用いた各種ストレージを採用することができる。また、保存部30は、クラウド上に構成されたストレージであってもよい。支援プロセッサ10は、保存部30の各保存部31~34にアクセスすることができ、データを各保存部31~34に記録すると共に、各保存部31~34に記録されたデータを読み出すことができるようになっている。
【0026】
支援プロセッサ10の処理定義部12は、インターフェイス20により入力された処理情報、即ち、モデル構築に使用した処理名とその処理を実行するためのプログラムとが関連付けられた情報を処理保存部31に与えて記録させる。また、特徴量定義部13は、インターフェイス20により入力された特徴量定義情報を特徴量定義データ保存部32に与えて記録させる。
【0027】
図4は処理保存部31に記録された情報の一例を示す説明図であり、
図5は特徴量定義データ保存部32に記録された情報の一例を示す説明図である。処理保存部31には、複数の処理についての処理名と各処理名にそれぞれ対応するプログラムとが関連付けられた情報が記録される。記録される処理としては、例えば、欠損処理、外れ地処理、対数変換等の前処理や機械学習(ML)アルゴリズム等がある。なお、
図4では、処理保存部31が「異常値除去」という処理名とこの異常値除去のための実装プログラムの情報を含むことを示している。
図5に示すように、特徴量定義データ保存部32には複数の特徴量の定義についての特徴量定義情報が記録される。
図5の例では、ID1~5に示す特徴量名がA~Eの特徴量定義情報(計算式/条件式については図示省略)が記録されている。
【0028】
熟練者M1は、過去のプロジェクトについて予測モデルを構築したときに使用したデータセットをインターフェイス20により支援プロセッサ10に入力する。例えば、データセットは、表形式のデータである。また、この場合には、予測モデルを構築するために求めた当該データセットの特徴量の情報(以下、特徴量情報という)、構築に使用した前処理を含む処理の情報(以下、使用処理情報という)及び構築した予測モデルの予測精度の情報(以下、予測精度情報という)についても支援プロセッサ10に出力する。以下、予測モデルを構築するために使用するデータセットの情報を含み、当該データセットの特徴量情報、構築に使用した使用処理情報及び構築した予測モデルの予測精度情報を、データセットに関連する学習情報というものとする。
【0029】
学習履歴登録部14は、インターフェイス20により入力されたデータセット、特徴量情報、使用処理情報(処理名の情報)及び予測精度情報(学習情報)を学習履歴保存部33に与えて記録させる。学習履歴保存部33には、データセット毎にデータセットに関連する学習情報が学習履歴として記録される。
【0030】
図6は学習履歴保存部33に記録される学習履歴の一例を示す説明図である。
【0031】
図6の例では、複数のデータセットに関連する学習情報が記録されている。例えば、データセットXを用いてプロジェクトの予測モデルの構築した例では、データセットXに関連する学習情報として、当該データセットXと特徴量A~Eと、予測モデルの構築に使用した各種処理の組み合わせを示す1つ以上の処理名と、生成された予測モデルの予測精度の情報とが記録される。なお、特徴量A~Eが、それぞれ
図3のID1~5の特徴量に対応するものとすると、データセットXに対応する特徴量Aはデータ数が2000件であることを示し、特徴量Bは変数の個数が15個であることを示し、特徴量Cは各変数の平均が10%であることを示し、特徴量Dは欠損値を含む(True)であることを示し、特徴量Eは各変数の欠損率が5%であることを示す。
【0032】
なお、
図6では、データセットYを用いてプロジェクトの予測モデルの構築した例における特徴量A~E、データセットZを用いてプロジェクトの予測モデルの構築した例における特徴量A~Eについても例示してある。
【0033】
また、処理の組み合わせとしては、各予測モデルの構築に使用した処理がそれぞれ登録されている。
図6では、データセットXに関連する学習情報中には、使用処理情報として、異常値除去、欠損値除去、対数変換、MLアルゴリズムとしてランダムフォレストが採用されたことを例示している。他のデータセットに関連する学習情報中の使用処理情報については図示を省略している。
【0034】
なお、学習履歴に保存する予測精度としては、一般的に工数予測の分野で使用されている指標を使用してもよい。例えば、予測誤差としては、実測値と予測値の誤差の平均である絶対誤差平均、絶対誤差を実測値で割った値の平均である相対誤差平均等、実測値から見てどれくらいの誤差かを測る指標等を採用してもよい。例えば、実測値35で、予測値32の場合には、絶対誤差は35-32=3であり、相対誤差は(35-32)/35=0.085(=約9%)の誤差と表すことができる。
【0035】
なお、熟練者M1が学習履歴を支援プロセッサ10に与えるものと説明したが、初心者M2が学習履歴を支援プロセッサ10に与えるようになっていてもよい。
【0036】
初心者M2(熟練者M1であってもよい)は、予測モデルの構築のための支援を受けたい場合には、予測モデルを構築するために使用するデータセットをインターフェイス20により支援プロセッサ10に入力する。データセット取得部15は、インターフェイス20により入力されたデータセットをデータセット保存部34に与えて記憶させる。
【0037】
特徴量計算部16は、制御部11に制御されて、データセット保存部34からデータセットを読み出すと共に、特徴量定義データ保存部32から特徴量定義情報を読み出す。特徴量計算部16は、特徴量定義情報の定義に従って、読み出したデータセットの特徴量を算出し、算出した特徴量とデータセットの組を処理提案部17に出力する。なお、学習履歴登録部14は、データセットの特徴量についても学習履歴保存部33に記録するものと説明したが、特徴量計算部16において、学習履歴保存部33に記録するデータセットの特徴量を算出し、これを学習履歴保存部33に記録するようになっていてもよい。
【0038】
処理提案部17は、制御部11に制御されて、特徴量計算部16から与えられたデータセットの特徴量と、学習履歴保存部33に記憶されている学習履歴に含まれる特徴量情報から得られる特徴量との類似度をデータセット毎に計算する。特徴量の類似度は、例えば、2つのデータ間の距離を表す値であるユークリッド距離に基づいて算出してもよい。なお、ユークリッド距離の算出に際して、下記(1)式に示すように各変数の値を正規化し、最大値1、最小値0の値に変換した後、計算を行ってもよい。
【0039】
なお、xは変数Xの各値、max(x)は変数Xの最大値、min(x)は変数Xの最小値、x'はxを正規化した値を表す。
x'={x-min(x)}/{max(x)-min(x)} (1)
処理提案部17は、学習履歴に含まれる各プロジェクトの学習情報のうち、類似度の一致度に応じたデータセットを選択する。例えば、処理提案部17は、類似度が最大のデータセットを選択してもよく、類似度が所定の値以上のデータセットを選択してもよく、或いは、類似度が高い方から所定数のデータセットを選択してもよい。処理提案部17は、選択したデータセットに関連する学習情報(以下、提示情報という)を提示用として出力する。例えば、処理提案部17は、提示情報として、選択したデータセットに関連する学習情報中の前処理を含む処理の組み合わせ及び予測精度を出力してもよい。即ち、処理提案部17は、提案する処理の組み合わせを示す複数の処理名を学習履歴保存部33から読み出し、読み出した処理名に対応するプログラムを処理保存部31から呼び出して、これらを関連付けた状態で提案を行う。なお、処理提案部17は、提示情報として、ディスプレイに表示するための表示情報を出力するようになっていてもよい。
【0040】
この提示情報を参照した例えば初心者M2は、提示された情報を利用して予測モデルを構築する。なお、提示情報として、複数のデータセットに関連する学習情報が出力された場合には、最も高い予測精度が得られたデータセットの学習情報を選択して、予測モデルの構築に利用してもよい。
【0041】
なお、処理提案部17は、類似度に基づいて選択した複数のデータセットの学習情報のうち、予測精度が最も高いもの、所定の値以上のもの、或いは、予測精度が高い方から所定数の学習情報を選択して、提示情報として出力するようになっていてもよい。
【0042】
次に、このように構成された実施形態の動作について
図7及び
図8を参照して説明する。
図7及び
図8は実施形態の動作を説明するためのフローチャートである。
【0043】
先ず、事前準備として、保存部30に予測モデルの構築の支援に必要な情報を記録する。例えば熟練者M1等は、
図7のS1~S3において、使用可能処理情報、特徴量定義情報及び学習履歴を登録する。処理保存部31には、使用可能処理情報が登録され、特徴量定義データ保存部32には、特徴量定義情報が登録され、学習履歴保存部33には学習履歴が登録される。
【0044】
所定のプロジェクトについて予測モデル構築の支援を受けようとする場合には、当該予測モデルの構築に使用するデータセットを用意する。例えば初心者M2等は、用意したデータセットをインターフェイス20により支援プロセッサ10に入力する(S4)。データセット取得部15は、インターフェイス20により入力されたデータセットをデータセット保存部34に与えて記録する。
【0045】
特徴量計算部16は、S5において、データセット保存部34に記録されたデータセットの特徴量を計算する。また、処理提案部17は、S6において、学習履歴保存部33に記録されている学習履歴の各データセットの特徴量と特徴量計算部16が算出した特徴量との類似度を計算する。特徴量及び類似度の計算について、
図6の例を用いて説明する。
【0046】
いま、例えば、学習履歴保存部33に、
図6のデータセットZに関連する学習情報は記録されておらず、
図6に示すデータセットXに関連する学習情報とデータセットYに関連する学習情報とが記録されているものとする。この状態で、初心者M2が
図6に示すデータセットZに関連する学習情報をインターフェイス20により支援プロセッサ10に入力し、データセット取得部15がデータセット保存部34に記録するものとする。
【0047】
特徴量計算部16は、特徴量定義データ保存部32から特徴量定義情報を読み出し、読み出した特徴量定義情報に基づいてデータセットZについての特徴量A~Eを算出する。データセットZについての特徴量Aは1500件、特徴量Bは15個、特徴量Cは20%、特徴量DはTrue、特徴量Eは8%である。データセットZについての特徴量は、処理提案部17に供給される。
【0048】
処理提案部17は、データセットZの特徴量と、学習履歴保存部33に記憶されている各データセットの特徴量との類似度を算出する。例えば、処理提案部17は、ユークリッド距離によって、類似度を算出する。なお、特徴量のTrueは0、Falseは1という値に変換して計算を行う。データセットXの特徴量とデータセットZの特徴量とのユークリッド距離XZ間は下記(2)式で表され、データセットYの特徴量とデータセットZの特徴量とのユークリッド距離YZ間は下記(3)式で表される。
XZ間={(1-0.706)2+(0-0.5)2+(0-0)2+(1-1)2+(0-0.429)2+}1/2=0.576 (2)
YZ間={(0-0.706)2+(1-0.5)2+(1-0)2+(0-1)2+(1-0.429)2+}1/2=1.840 (3)
上記(2),(3)の結果により、XZ間<YZ間であり、処理提案部17は、データセットXの方がデータセットYよりもデータセットZに類似していると判断する。
【0049】
従って、この場合には、処理提案部17は、データセットXに関連する学習情報を抽出する(S7)。処理提案部17は、抽出した学習情報から、処理の組み合わせ、即ち、異常値除去、欠損値除去、対数変換及びランダムフォレストの情報と、抽出した学習情報中の予測精度の情報とを提示情報として出力する(S8)。
【0050】
なお、処理提案部17は、学習履歴として3件以上のデータセットに関連する学習情報が記録されている場合には、学習履歴の中からユークリッド距離の小さい下位n件のデータセットを絞り込み、絞り込んだデータセットに関連する学習情報から、過去のモデルを作成する際に使用した処理の組み合わせと、そのモデルの予測精度とを抽出してもよい。この場合には、絞り込む件数nは、初心者M2等のユーザが選択できるようになっていてもよい。
【0051】
初心者M2等は、処理提案部17により提示されたn件の処理の組み合わせ候補から、使用する組み合わせを選択する。なお、この場合には、予測精度の情報を参考にしてもよい。
【0052】
このように本実施形態においては、過去の予測モデル作成時におけるデータセットを含む学習履歴を保存し、予測モデル作成に用いるデータセットの特徴量と学習履歴に含まれる特徴量とを比較することで、保存されている過去の学習履歴から予測モデルの作成に有効な手法を提示可能にしている。これにより、予測モデルの構築を効果的に支援することが可能である。
【0053】
本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【符号の説明】
【0054】
10…支援プロセッサ、11…制御部、12…処理定義部、13…特徴量定義部、14…学習履歴登録部、15…データセット取得部、16…特徴量計算部、17…処理提案部、20…インターフェイス、30…保存部、31…処理保存部、32…特徴量定義データ保存部、33…学習履歴保存部、34…データセット保存部。
【手続補正書】
【提出日】2022-11-17
【手続補正1】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】