IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 富士通株式会社

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-128760特定プログラム、特定方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023128760

(43)【公開日】2023-09-14

(54)【発明の名称】特定プログラム、特定方法および情報処理装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20230907BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022033339

(22)【出願日】2022-03-04

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】浦晃

(57)【要約】

【課題】与えられた前処理と類似する前処理を精度よく特定することを課題とする。
【解決手段】情報処理装置は、データセットに対する特定の前処理を実行した際のデータセットの特徴量の変化を取得する。情報処理装置は、データセットに対する前処理を特定する前処理情報と前処理を実行した際のデータセットの特徴量の変化とを対応付けた訓練データを用いた機械学習により訓練された、特徴量の変化を入力として対応する前処理情報を出力する訓練済み機械学習モデルに対して、取得された特徴量の変化を入力する。情報処理装置は、入力に応じた出力結果に基づき、特定の前処理に対応した推奨前処理を特定する。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータに、
データセットに対する特定の前処理を実行した際の前記データセットの特徴量の変化を取得し、
前記データセットに対する前処理を特定する前処理情報と前記前処理を実行した際の前記データセットの特徴量の変化とを対応付けた訓練データを用いた機械学習により訓練された、前記特徴量の変化を入力として対応する前記前処理情報を出力する訓練済み機械学習モデルに対して、取得された前記特徴量の変化を入力し、
前記入力に応じた出力結果に基づき、前記特定の前処理に対応した推奨前処理を特定する、
処理を実行させることを特徴とする特定プログラム。

【請求項2】

前記機械学習モデルは、
機械学習用のデータセットに前処理を実行する前の前記機械学習用のデータセットの特徴量と、前記前処理を実行した後の前記機械学習用のデータセットの特徴量との差分である特徴量差分を説明変数、前記前処理を特定する前処理情報を目的変数として機械学習された機械学習モデルであり、
前記取得する処理は、
推論対象である前記データセットに対して前記特定の前処理を実行する前の前記データセットの特徴量と、前記データセットに対して前記特定の前処理を実行した後の前記データセットの特徴量との差分である特徴量差分を取得し、
前記入力する処理は、
前記特徴量差分を前記機械学習モデルに入力し、
前記特定する処理は、
前記入力に応じて出力された複数の前記推奨前処理のうち、予測確率が高い上位所定個の推奨前処理を特定して出力する、
ことを特徴とする請求項１に記載の特定プログラム。

【請求項3】

前記機械学習モデルは、
機械学習用のデータセットに前処理を実行する前の前記機械学習用のデータセットの特徴量である前処理前の特徴量と、前記前処理を実行した後の前記機械学習用のデータセットの特徴量である前処理後の特徴量と、前記前処理前の特徴量と前記前処理後の特徴量との差分である特徴量差分とを用いた特徴量情報を説明変数、前記前処理を特定する前処理情報を目的変数として機械学習された機械学習モデルであり、
前記取得する処理は、
推論対象である前記データセットに対して前記特定の前処理を実行する前の前記前処理前の特徴量と、前記データセットに対して前記特定の前処理を実行した後の前記前処理後の特徴量と、前記特徴量差分とを取得し、
前記入力する処理は、
前記前処理前の特徴量と前記前処理後の特徴量と前記特徴量差分とを用いた前記特徴量情報を前記機械学習モデルに入力し、
前記特定する処理は、
前記入力に応じて出力された複数の前記推奨前処理のうち、予測確率が高い上位所定個の推奨前処理を特定して出力する、
ことを特徴とする請求項１に記載の特定プログラム。

【請求項4】

前記機械学習モデルは、
機械学習用のデータセットに前処理を実行する前の前記機械学習用のデータセットの特徴量である前処理前の特徴量と、前記前処理を実行した後の前記機械学習用のデータセットの特徴量である前処理後の特徴量とを用いた特徴量情報を説明変数、前記前処理を特定する前処理情報を目的変数として機械学習された機械学習モデルであり、
前記取得する処理は、
推論対象である前記データセットに対して前記特定の前処理を実行する前の前記前処理前の特徴量と、前記データセットに対して前記特定の前処理を実行した後の前記前処理後の特徴量とを取得し、
前記入力する処理は、
前記前処理前の特徴量と前記前処理後の特徴量とを用いた前記特徴量情報を前記機械学習モデルに入力し、
前記特定する処理は、
前記入力に応じて出力された複数の前記推奨前処理のうち、予測確率が高い上位所定個の推奨前処理を特定して出力する、
ことを特徴とする請求項１に記載の特定プログラム。

【請求項5】

前記特徴量は、前記データセットの行数と目的変数を除く列数とを含むデータ、前記データセットに含まれる数値データの列数、前記データセットに含まれる文字列の列数、前記データセットに含まれるデータの欠損値の割合、前記データセットに含まれる各列の統計量、および、前記データセットに含まれる目的変数のクラス数のうち、少なくとも一つを用いて生成される、ことを特徴とする請求項１に記載の特定プログラム。

【請求項6】

コンピュータが、
データセットに対する特定の前処理を実行した際の前記データセットの特徴量の変化を取得し、
前記データセットに対する前処理を特定する前処理情報と前記前処理を実行した際の前記データセットの特徴量の変化とを対応付けた訓練データを用いた機械学習により訓練された、前記特徴量の変化を入力として対応する前記前処理情報を出力する訓練済み機械学習モデルに対して、取得された前記特徴量の変化を入力し、
前記入力に応じた出力結果に基づき、前記特定の前処理に対応した推奨前処理を特定する、
処理を実行することを特徴とする特定方法。

【請求項7】

データセットに対する特定の前処理を実行した際の前記データセットの特徴量の変化を取得し、
前記データセットに対する前処理を特定する前処理情報と前記前処理を実行した際の前記データセットの特徴量の変化とを対応付けた訓練データを用いた機械学習により訓練された、前記特徴量の変化を入力として対応する前記前処理情報を出力する訓練済み機械学習モデルに対して、取得された前記特徴量の変化を入力し、
前記入力に応じた出力結果に基づき、前記特定の前処理に対応した推奨前処理を特定する、
制御部を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、特定プログラム、特定方法および情報処理装置に関する。

【背景技術】

【0002】

例えば、ＡｕｔｏＭＬ（Automated Machine Learning）などのように、機械学習を用いたデータ分析を自動化する自動化技術が利用されている。このような自動化技術では、機械学習の前処理として、どのような前処理を実行することが好ましいかを探索的手法により探索する。この際、探索空間を狭めるために前処理を機能ごとに分類して、各分類の中からそれぞれ一つまたは複数の前処理候補を選択するなどの探索手法も利用される。例えば、「データの欠損を埋める」という前処理の分類に対して、「０で埋める」、「平均で埋める」、「データの他の場所から推測する」などの中から一番効果的な前処理の選択が行われる。

【0003】

近年では、前処理が与えられたときに、その前処理以外でより効率的な前処理などを探索するために、探索対象とする別の前処理を自動的に判定する技術として、前処理の部品を説明するドキュメントを用いた技術が知られている。例えば、ある前処理ｃとドキュメントＤ（ｃ）が与えられており、他に前処理とドキュメントの組合せとしてｎ個の「（前処理ｃ１、ドキュメントＤ（ｃ１））から（前処理ｃｎ、ドキュメントＤ（ｃｎ））」が与えられた場合に、ドキュメントＤ（ｃ）と他のｎ個のドキュメントとの類似度を算出し、ドキュメント間の類似度により、探索対象とする類似前処理の範囲を決定する。なお、ドキュメントには、例えば入力、出力、パラメータの説明などが記述される。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】米国特許出願公開第２０２０／０１８４３８２号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記技術は、前処理のドキュメントを用いる技術であり、前処理に対応するドキュメントが存在しないと適用することができず、前処理の内容を直接反映させた技術でないことから、類似前処理の特定精度が高いとは言い難い。

【0006】

一つの側面では、与えられた前処理と類似する前処理を精度よく特定することができる特定プログラム、特定方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

第１の案では、特定プログラムは、コンピュータに、データセットに対する特定の前処理を実行した際の前記データセットの特徴量の変化を取得し、前記データセットに対する前処理を特定する前処理情報と前記前処理を実行した際の前記データセットの特徴量の変化とを対応付けた訓練データを用いた機械学習により訓練された、前記特徴量の変化を入力として対応する前記前処理情報を出力する訓練済み機械学習モデルに対して、取得された前記特徴量の変化を入力し、前記入力に応じた出力結果に基づき、前記特定の前処理に対応した推奨前処理を特定する、処理を実行させることを特徴とする。

【発明の効果】

【0008】

一実施形態によれば、与えられた前処理と類似する前処理を精度よく特定することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施例１にかかる情報処理装置を説明する図である。

【図2】図２は、メタ特徴量を説明する図である。

【図3】図３は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。

【図4】図４は、メタ特徴量および訓練データの生成を説明する図である。

【図5】図５は、機械学習を説明する図である。

【図6】図６は、類似前処理の特定を説明する図である。

【図7】図７は、実施例１にかかる機械学習処理の流れを示すフローチャートである。

【図8】図８は、実施例１にかかる特定処理の流れを示すフローチャートである。

【図9】図９は、実施例２にかかる類似前処理の特定を説明する図である。

【図10】図１０は、実施例３にかかる類似前処理の特定を説明する図である。

【図11】図１１は、ハードウェア構成例を説明する図である。

【発明を実施するための形態】

【0010】

以下に、本願の開示する特定プログラム、特定方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【実施例0011】

＜情報処理装置の説明＞
図１は、実施例１にかかる情報処理装置１０を説明する図である。図１に示す情報処理装置１０は、データセットと前処理が与えられたときに、前処理によるデータセットの変化に着目することで、類似前処理を選択できるコンピュータ装置の一例である。具体的には、情報処理装置１０は、データセットと前処理が与えられたときに、ＡｕｔｏＭＬなどを用いて、与えられた前処理以外でより効率的な前処理などを探索するために、探索対象とする別の前処理を自動的に選択する。

【0012】

なお、前処理とは、カテゴリーデータの処理、欠損値処理、特徴量の変換や追加、次元削除などを実行する機械学習を実行する前に行われる処理であり、処理の組合せや詳細内容により多くの前処理が存在する。また、類似前処理とは、推奨前処理の一例であり、与えられた前処理に類似する前処理、与えられた前処理の代替の前処理、選択対象として追加する追加の前処理などを含む。

【0013】

このような情報処理装置１０は、データセットに対する特定の前処理を実行した際のデータセットの特徴量の変化を取得する。そして、情報処理装置１０は、データセットに対する前処理を特定する前処理情報と前処理を実行した際のデータセットの特徴量の変化とを対応付けた訓練データを用いた機械学習により訓練された、特徴量の変化を入力として対応する前処理情報を出力する訓練済み機械学習モデルに対して、取得された特徴量の変化を入力する。その後、情報処理装置１０は、入力に応じた出力結果に基づき、特定の前処理に対応した類似前処理を特定する。

【0014】

具体的には、図１に示すように、情報処理装置１０は、データセットＡと前処理ＡＡとが与えられている場合、データセットＡに対して前処理ＡＡを実行する。そして、情報処理装置１０は、前処理ＡＡが実行される前のデータセットＡのメタ特徴量と、前処理ＡＡが実行された後のデータセットＡのメタ特徴量とを取得し、これらの差分であるメタ特徴量の変化量ＡＡ２を算出する。

【0015】

ここで、メタ特徴量について説明する。図２は、メタ特徴量を説明する図である。図２に示すように、データセットＡは、「病気？」、「性別」、「身長」、「体重」の各カラム（項目）を有するデータセットであり、「病気？」が目的変数、「性別、身長、体重」が説明変数に対応する。なお、ここでは、一例として、「ＹＥＳ」と「ＮＯ」の２クラスの目的変数を例示している。

【0016】

メタ特徴量は、データセットＡの行数と目的変数を除く列数とを含むデータ、データセットＡに含まれる数値データの列数、データセットＡに含まれる文字列の列数、データセットＡに含まれるデータの欠損値の割合、データセットＡに含まれる各列の統計量（平均や分散）、および、データセットＡに含まれる目的変数のクラス数のうち、少なくとも一つを用いて生成される。例えば、図２に示すデータセットＡの場合、行数が４、説明変数の列数が「性別」、「身長」、「体重」の３列、説明変数の数値の列数が「身長」と「体重」の２列、説明変数の文字列の列数が「性別」の１列である。また、欠損値は、合計１２個の値のうち２個が欠損していることから、「２／１２≒０．１６７」である。また、平均の最大は、身長の平均値「１７１．７」と体重の平均値「７８．３」のうちの「１７１．７」であり、クラス数は、説明変数「病気」に該当する（ＹＥＳ）か該当しない（ＮＯ）の２値であることから「２」となる。

【0017】

この結果、図２の例では、メタ特徴量としては、「行数、列数、数値列数、文字列列数、欠損、平均の最大、クラス数」として「４、３、２、１、０．１６７、１７１．７、２」を採用することができる。

【0018】

図１に戻り、情報処理装置１０は、前処理ＡＡの内容等を特定する前処理情報ＡＡ１とメタ特徴量の変化量ＡＡ２とを含む訓練データを生成する。そして、情報処理装置１０は、訓練データを機械学習モデルに入力し、メタ特徴量の変化量ＡＡ２を説明変数（特徴量）、前処理情報ＡＡ１を目的変数とする機械学習を実行して、訓練済みの機械学習モデルを生成する。このようにして、情報処理装置１０は、メタ特徴量の入力に応じて、各前処理情報と各前処理情報の確率とを対応付けた分類結果（予測結果）を出力する機械学習モデルを生成することができる。

【0019】

その後、情報処理装置１０は、新しいデータセットＢと前処理ＢＢとが指定されると、新しいデータセットＢに対して前処理ＢＢを実行し、データセットＡと同様の項目であるメタ特徴量の変化量ＢＢ２を算出する。そして、情報処理装置１０は、算出されたメタ特徴量の変化量ＢＢ２を機械学習モデルに入力し、推論結果を取得する。なお、推論結果に含まれる類似前処理の一覧結果には、例えば、類似前処理を特定する情報と、その類似前処理が入力されたメタ特徴量に対応する前処理に該当する割合や指標などを示す確率（予測確率）とが含まれる。

【0020】

このように、情報処理装置１０は、前処理のドキュメントを用いずに適切な類似前処理を選択することができ、前処理の機能を直接考慮して適切な類似前処理を選択することができる。この結果、情報処理装置１０は、与えられた前処理と類似する前処理を精度よく特定することができる。

【0021】

＜情報処理装置の機能構成＞
図３は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図３に示すように、情報処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。

【0022】

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、管理者が使用する管理者端末から各種情報を受信し、管理者端末に、制御部２０による処理結果などを送信する。

【0023】

記憶部１２は、各種データや制御部２０が実行するプログラム等を記憶する処理部の一例であり、例えばメモリやハードディスクなどにより実現される。この記憶部１２は、機械学習用データセット１３、機械学習モデル１４、推論対象データセット１５を記憶する。

【0024】

機械学習用データセット１３は、機械学習モデル１４の機械学習に利用されるデータを記憶するデータベースの一例である。例えば、機械学習用データセット１３が記憶する各データは、目的変数と説明変数を含むデータであり、機械学習モデル１４の機械学習に用いる訓練データを生成するための元データである。なお、機械学習用データセット１３の一例としては、図２のデータセットＡが該当する。

【0025】

機械学習モデル１４は、制御部２０により生成される、多値分類を実行する分類器の一例である。この機械学習モデル１４は、目的変数を「前処理を特定する前処理情報」、説明変数を「メタ特徴量の変化量」とする訓練データを用いて生成される。生成後の機械学習モデル１４は、入力データに応じて、該当する前処理情報に関する情報を含む推論結果を出力する。なお、機械学習モデル１４には、ニューラルネットワークなどの各種モデルを採用することができる。

【0026】

推論対象データセット１５は、該当する前処理の探索の対象となるデータを記憶するデータベースの一例である。例えば、推論対象データセット１５と前処理とが与えられた場合に、機械学習モデル１４を用いて、与えられた前処理以外でＡｕｔｏＭＬなどによる探索対象とする前処理を特定する。なお、推論対象データセット１５の一例としては、図２の新たなデータセットＢが該当する。

【0027】

制御部２０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部２０は、機械学習部３０と推論部４０とを有する。なお、機械学習部３０と推論部４０は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

【0028】

機械学習部３０は、機械学習モデル１４を生成する処理部であり、事前処理部３１と訓練部３２を有する。

【0029】

事前処理部３１は、機械学習モデル１４の機械学習に用いる訓練データを生成する処理部である。具体的には、事前処理部３１は、目的変数「前処理情報」、説明変数「メタ特徴量の変化量」を含む各訓練データを生成する。

【0030】

図４は、メタ特徴量および訓練データの生成を説明する図である。ここでは、データセット１と、データセット２と、前処理ａから前処理ｚとが与えられている例で説明する。なお、ここでは、前処理ａを特定する前処理情報を前処理ａ情報と記載する。

【0031】

図４に示すように、事前処理部３１は、データセット１からメタ特徴量１を生成する。続いて、事前処理部３１は、データセット１に前処理ａを実行し、前処理後のデータセット１のメタ特徴量１－１ａを生成する。そして、事前処理部３１は、メタ特徴量差分１ａとして「（メタ特徴量１）－（メタ特徴量１－１ａ）」を算出する。この結果、事前処理部３１は、「目的変数、説明変数」として「前処理ａ情報、メタ特徴量差分１ａ」を有する訓練データを生成する。

【0032】

また、事前処理部３１は、データセット１に前処理ｂを実行し、前処理後のデータセット１のメタ特徴量１－１ｂを生成する。そして、事前処理部３１は、メタ特徴量差分１ｂとして「（メタ特徴量１）－（メタ特徴量１－１ｂ）」を算出する。この結果、事前処理部３１は、「目的変数、説明変数」として「前処理ｂ情報、メタ特徴量差分１ｂ」を有する訓練データを生成する。

【0033】

同様に、事前処理部３１は、データセット２からメタ特徴量２を生成する。続いて、事前処理部３１は、データセット２に前処理ａを実行し、前処理後のデータセット２のメタ特徴量２－２ａを生成する。そして、事前処理部３１は、メタ特徴量差分２ａとして「（メタ特徴量２）－（メタ特徴量２－２ａ）」を算出する。この結果、事前処理部３１は、「目的変数、説明変数」として「前処理ａ情報、メタ特徴量差分２ａ」を有する訓練データを生成する。

【0034】

また、事前処理部３１は、データセット２に前処理ｂを実行し、前処理後のデータセット２のメタ特徴量２－２ｂを生成する。そして、事前処理部３１は、メタ特徴量差分２ｂとして「（メタ特徴量２）－（メタ特徴量２－２ｂ）」を算出する。この結果、事前処理部３１は、「目的変数、説明変数」として「前処理ｂ情報、メタ特徴量差分２ｂ」を有する訓練データを生成する。

【0035】

このようにして、事前処理部３１は、与えられたデータセットそれぞれについて、与えられた各前処理を実行したときのメタ特徴量の差分を算出する。そして、事前処理部３１は、各前処理と各メタ特徴量差分とを対応付けることで、訓練データを生成する。そして、事前処理部３１は、生成された各訓練データを訓練部３２に出力する。

【0036】

訓練部３２は、事前処理部３１により生成された各訓練データを含む訓練データセットを用いた機械学習により、機械学習モデル１４を生成する処理部である。図５は、機械学習を説明する図である。図５に示すように、訓練部３２は、「目的変数（前処理情報）、説明変数（メタ特徴量差分）」を有する各訓練データを機械学習モデル１４に入力し、機械学習モデル１４の出力結果と目的変数との差分が小さくなるように（最適化されるように）、誤差逆伝播法などを用いて機械学習モデル１４の機械学習を実行する。

【0037】

推論部４０は、データセットと前処理とが与えられた場合に、生成された機械学習モデル１４を用いて、与えられた前処理と類似する類似前処理の推論を実行する処理部であり、生成部４１と特定部４２を有する。

【0038】

生成部４１は、機械学習モデル１４への入力データを生成する処理部である。また、特定部４２は、入力データを機械学習モデル１４に入力し、機械学習モデル１４の出力結果（推論結果）に基づき類似前処理を特定する処理部である。

【0039】

ここで、図６を用いて類似前処理の特定にかかる一連の処理を説明する。図６は、類似前処理の特定を説明する図である。図６の例では、既知の情報として、「推論対象データセット１５と前処理Ｔ」とが与えられた例で説明する。

【0040】

図６に示すように、生成部４１は、与えられた推論対象データセット１５のメタ特徴量ｎを生成する。続いて、生成部４１は、推論対象データセット１５に前処理Ｔを実行し、前処理Ｔを実行した後の推論対象データセット１５のメタ特徴量ｎ－Ｔを生成する。そして、生成部４１は、メタ特徴量差分Ｔｎとして「（メタ特徴量ｎ）－（メタ特徴量ｎ－Ｔ）」を算出する。その後、生成部４１は、メタ特徴量差分Ｔｎを特定部４２に出力する。

【0041】

その後、特定部４２は、生成部４１により生成された「メタ特徴量差分Ｔｎ」を機械学習モデル１４に入力し、出力結果（推論結果）を取得する。ここで、出力結果には、類似前処理とその類似前処理が適切である（該当する）予測確率とが対応付けられている。そこで、特定部４２は、出力結果のうち予測確率が高い上記Ｎ個（Ｎは任意の数）の類似前処理として、類似前処理１、類似前処理２、類似前処理３を特定する。なお、これに限定されず、特定部４２は、予測確率が閾値以上である類似前処理や、予測確率が閾値以上かつ上記Ｎ個の類似前処理を特定することもできる。

【0042】

また、特定部４２は、特定した類似前処理の一覧を、ディスプレイ等の表示部に出力したり、管理者端末に送信したりすることもできる。なお、特定部４２は、予測結果そのものをディスプレイ等の表示部に出力したり、管理者端末に送信したりすることもできる。

【0043】

＜処理の流れ＞
次に、上述した機械学習処理と特定処理のそれぞれについて説明する。なお、各処理内の処理順序は、矛盾のない範囲内で適宜順番を入れ替えることができる。

【0044】

（機械学習処理）
図７は、実施例１にかかる機械学習処理の流れを示すフローチャートである。図７に示すように、機械学習部３０は、処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、複数の機械学習用データセットと複数の前処理を取得する（Ｓ１０２）。例えば、機械学習部３０は、複数のデータセットＤ_１からＤ_Ｎと複数の前処理Ｔ_１からＴ_Ｍの入力を受け付ける。

【0045】

続いて、機械学習部３０は、複数のデータセットに各前処理を実行し、各メタ特徴量差分を算出する（Ｓ１０３）。例えば、機械学習部３０は、複数のデータセットＤ_１からＤ_Ｎのそれぞれに対して前処理Ｔ_１からＴ_Ｍのそれぞれを実行する。そして、機械学習部３０は、例えばデータセットＤ_ｉについて前処理Ｔ_ｊを実行したときのメタ特徴量差分Ｍ_ｉ，ｊを算出する。

【0046】

その後、機械学習部３０は、与えられたデータセットに与えられた前処理を実行した結果を用いて、訓練データを生成する（Ｓ１０４）。例えば、機械学習部３０は、すべての「ｉ．ｊ」についてメタ特徴量差分Ｍ_ｉ，ｊを算出し、メタ特徴量差分Ｍ_ｉ，ｊを特徴量（説明変数）、前処理Ｔ_ｊを目的変数とする訓練データを生成する。

【0047】

そして、機械学習部３０は、訓練データを用いて機械学習モデル１４を生成する（Ｓ１０５）。その後、機械学習部３０は、訓練された機械学習モデル１４を記憶部１２などに出力する（Ｓ１０６）。例えば、機械学習部３０は、メタ特徴量差分Ｍ_ｉ，ｊを特徴量（説明変数）、前処理Ｔ_ｊを目的変数とする訓練データを用いて、多値分類器である機械学習モデル１４の訓練を実行し、訓練後の多値分類器（機械学習モデル１４）を出力する。

【0048】

（特定処理）
図８は、実施例１にかかる特定処理の流れを示すフローチャートである。図８に示すように、推論部４０は、機械学習モデル１４の生成が完了すると（Ｓ２０１：Ｙｅｓ）、与えられた推論対象データセットと前処理を取得する（Ｓ２０２）。例えば、機械学習部３０は、データセットＤと前処理Ｔの入力を受け付ける。

【0049】

続いて、推論部４０は、推論対象データセットに前処理を実行し、メタ特徴量差分を算出する（Ｓ２０３）。例えば、推論部４０は、データセットＤについて前処理Ｔを実行したときのメタ特徴量差分Ｍを算出する。

【0050】

そして、推論部４０は、入力データを生成し（Ｓ２０４）、入力データを機械学習モデル１４に入力して出力結果を取得し（Ｓ２０５）、上位Ｋ個の前処理情報を出力する（Ｓ２０６）。例えば、推論部４０は、メタ特徴量差分Ｍを入力データとして、機械学習モデル１４に入力し、出力される確率が高い前処理（前処理情報）の上記Ｋ個である前処理ｔ_１から前処理ｔ_Ｋを出力する。

【0051】

＜効果＞
上述したように、情報処理装置１０は、複数のデータセットに対し複数の前処理を実行し、「データセットのメタ特徴量差分、前処理情報」の組を収集する。情報処理装置１０は、データセットのメタ特徴量差分から前処理を予測するように多値分類器の機械学習を実行する。情報処理装置１０は、新しいデータセットと前処理が与えられたとき、そのメタ特徴量差分を多値分類器に入力し、予測確率が高いものから順にＫ個の前処理情報を出力する。

【0052】

このように、情報処理装置１０は、前処理によるデータセットの変化に着目することで、前処理のドキュメントがない場合でも、与えられた前処理と類似する前処理を精度よく特定することができ、与えられた前処理以外に探索対象とする別の類似する前処理を自動的に判断することができる。

【0053】

また、情報処理装置１０は、推論対象であるデータセットに対して特定の前処理を実行する前のデータセットの特徴量と、データセットに対して特定の前処理を実行した後のデータセットの特徴量との差分である特徴量差分をメタ特徴量差分とする訓練データに用いる。この結果、情報処理装置１０は、前処理の内容を直接考慮して類似前処理が選択でき、高精度に類似前処理の特定することができる。

【実施例0054】

ところで、実施例１では、前処理前後のメタ特徴量の差分を説明変数に用いる例を説明したが、これに限定されるものではない。前処理前後のメタ特徴量の変化量であれば、様々な特徴量を説明変数に用いることができる。そこで、実施例２では、メタ特徴量の変化量として、前処理前後の各メタ特徴量をさらに用いる例を説明する。すなわち、実施例２では、説明変数（特徴量）として、「前処理前のメタ特徴量、前処理後のメタ特徴量、前処理前後のメタ特徴量差分」を用いる例を説明する。

【0055】

図９は、実施例２にかかる類似前処理の特定を説明する図である。図９に示すように、情報処理装置１０の機械学習部３０は、データセット１からメタ特徴量１を生成する。続いて、機械学習部３０は、データセット１に前処理ａを実行し、前処理後のデータセット１のメタ特徴量１－１ａを生成する。また、機械学習部３０は、メタ特徴量差分１ａとして「（メタ特徴量１）－（メタ特徴量１－１ａ）」を算出する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ａ情報、（メタ特徴量１、メタ特徴量１－１ａ、メタ特徴量差分１ａ）」を生成する。

【0056】

また、機械学習部３０は、データセット１に前処理ｂを実行し、前処理後のデータセット１のメタ特徴量１－１ｂを生成する。また、機械学習部３０は、メタ特徴量差分１ｂとして「（メタ特徴量１）－（メタ特徴量１－１ｂ）」を算出する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ｂ情報、（メタ特徴量１、メタ特徴量１－１ｂ、メタ特徴量差分１ｂ）」を生成する。

【0057】

同様に、機械学習部３０は、データセット２からメタ特徴量２を生成する。続いて、機械学習部３０は、データセット２に前処理ａを実行し、前処理後のデータセット２のメタ特徴量２－２ａを生成する。また、機械学習部３０は、メタ特徴量差分２ａとして「（メタ特徴量２）－（メタ特徴量２－２ａ）」を算出する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ａ情報、（メタ特徴量２、メタ特徴量２－２ａ、メタ特徴量差分２ａ）」を生成する。

【0058】

また、機械学習部３０は、データセット２に前処理ｂを実行し、前処理後のデータセット１のメタ特徴量２－２ｂを生成する。また、機械学習部３０は、メタ特徴量差分２ｂとして「（メタ特徴量２）－（メタ特徴量２－２ｂ）」を算出する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ｂ情報、（メタ特徴量２、メタ特徴量２－２ｂ、メタ特徴量差分２ｂ）」を生成する。

【0059】

このようにして、機械学習部３０は、与えられたデータセットそれぞれについて、与えられた各前処理を実行したときのメタ特徴量の差分を算出する。そして、機械学習部３０は、「前処理」と「前処理前のメタ特徴量、前処理後のメタ特徴量、メタ特徴量差分」とを対応付けることで、訓練データを生成する。

【0060】

そして、機械学習部３０は、「前処理」と「前処理前のメタ特徴量、前処理後のメタ特徴量、メタ特徴量差分」とを対応付けた訓練データを用いて、機械学習モデル１４の機械学習を実行する。

【0061】

機械学習の完了後、推論部４０は、与えられた推論対象データセット１５の「前処理前のメタ特徴量」を生成する。続いて、推論部４０は、推論対象データセット１５に前処理Ｔを実行し、前処理Ｔを実行した後の推論対象データセット１５の「前処理後のメタ特徴量」を生成する。そして、推論部４０は、「（前処理前のメタ特徴量）－（前処理後のメタ特徴量）」により「メタ特徴量差分」を算出する。

【0062】

そして、推論部４０は、生成された「前処理前のメタ特徴量、前処理後のメタ特徴量、メタ特徴量差分」を機械学習モデル１４に入力し、出力結果を取得する。そして、推論部４０は、出力結果のうち予測確率が高い上記Ｋ個（Ｋは任意の数）の類似前処理として、類似前処理１、類似前処理２、類似前処理３を特定する。

【0063】

このように、実施例２にかかる情報処理装置１０は、メタ特徴量差分に加えて「前処理前のメタ特徴量、前処理後のメタ特徴量」を説明変数として用いた機械学習により機械学習モデル１４を生成することができる。この結果、情報処理装置１０は、前処理の内容を反映した情報を加えることができるので、探索対象とする別の類似する前処理の選択制度を向上させることができる。

【実施例0064】

ところで、実施例２では、説明変数（特徴量）として、「前処理前のメタ特徴量、前処理後のメタ特徴量、前処理前後のメタ特徴量差分」を用いる例を説明したが、これに限定されるものではない。前処理前後のメタ特徴量は、任意に組み合わせることができる。そこで、実施例３では、メタ特徴量差分に代えて、前処理前後の各メタ特徴量を用いる例を説明する。すなわち、実施例３では、説明変数（特徴量）として、「前処理前のメタ特徴量、前処理後のメタ特徴量」を用いる例を説明する。

【0065】

図１０は、実施例３にかかる類似前処理の特定を説明する図である。図１０に示すように、情報処理装置１０の機械学習部３０は、データセット１からメタ特徴量１を生成する。続いて、機械学習部３０は、データセット１に前処理ａを実行し、前処理後のデータセット１のメタ特徴量１－１ａを生成する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ａ情報、（メタ特徴量１、メタ特徴量１－１ａ）」を生成する。

【0066】

また、機械学習部３０は、データセット１に前処理ｂを実行し、前処理後のデータセット１のメタ特徴量１－１ｂを生成する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ｂ情報、（メタ特徴量１、メタ特徴量１－１ｂ）」を生成する。

【0067】

同様に、機械学習部３０は、データセット２からメタ特徴量２を生成する。続いて、機械学習部３０は、データセット２に前処理ａを実行し、前処理後のデータセット２のメタ特徴量２－２ａを生成する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ａ情報、（メタ特徴量２、メタ特徴量２－２ａ）」を生成する。

【0068】

また、機械学習部３０は、データセット２に前処理ｂを実行し、前処理後のデータセット１のメタ特徴量２－２ｂを生成する。そして、事前処理部３１は、「目的変数、説明変数」として「前処理ｂ情報、（メタ特徴量２、メタ特徴量２－２ｂ）」を生成する。

【0069】

このようにして、機械学習部３０は、与えられたデータセットそれぞれについて、与えられた各前処理を実行したときのメタ特徴量の差分を算出する。そして、機械学習部３０は、「前処理」と「前処理前のメタ特徴量、前処理後のメタ特徴量」とを対応付けることで、訓練データを生成する。

【0070】

そして、機械学習部３０は、「前処理」と「前処理前のメタ特徴量、前処理後のメタ特徴量」とを対応付けた訓練データを用いて、機械学習モデル１４の機械学習を実行する。

【0071】

機械学習の完了後、推論部４０は、与えられた推論対象データセット１５の「前処理前のメタ特徴量」を生成する。続いて、推論部４０は、推論対象データセット１５に前処理Ｔを実行し、前処理Ｔを実行した後の推論対象データセット１５の「前処理後のメタ特徴量」を生成する。

【0072】

そして、推論部４０は、生成された「前処理前のメタ特徴量、前処理後のメタ特徴量」を機械学習モデル１４に入力し、出力結果を取得する。そして、推論部４０は、出力結果のうち予測確率が高い上記Ｋ個（Ｋは任意の数）の類似前処理として、類似前処理１、類似前処理２、類似前処理３を特定する。

【0073】

このように、実施例２にかかる情報処理装置１０は、メタ特徴量差分に代えて「前処理前のメタ特徴量、前処理後のメタ特徴量」を説明変数として用いた機械学習により機械学習モデル１４を生成することができる。この結果、情報処理装置１０は、前処理の内容を反映した情報を加えることができるので、探索対象とする別の類似する前処理の選択制度を向上させることができる。