特開2024-62241 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-62241出力プログラム、出力方法、および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024062241

(43)【公開日】2024-05-09

(54)【発明の名称】出力プログラム、出力方法、および情報処理装置

(51)【国際特許分類】

G06F 8/74 20180101AFI20240430BHJP

G06N 20/00 20190101ALI20240430BHJP

【ＦＩ】

G06F8/74

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022170107

(22)【出願日】2022-10-24

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】加瀬茉莉子

【テーマコード（参考）】

5B376

【Ｆターム（参考）】

5B376BC69

(57)【要約】

【課題】動的スライシングに利用するデータ量を削減する。
【解決手段】情報処理装置は、機械学習プログラムから、機械学習プログラムへの入力データに対するデータ操作に関する操作記述を抽出する。次に情報処理装置は、抽出した操作記述に基づいて、データ操作において操作対象となる対象データの抽出条件を決定する。さらに情報処理装置は、入力データから、決定した抽出条件を満たす対象データを抽出する。そして情報処理装置は、抽出した対象データを含むサンプリングデータを出力する。
【選択図】図１３

【特許請求の範囲】

【請求項1】

機械学習プログラムから、前記機械学習プログラムへの入力データに対するデータ操作に関する操作記述を抽出し、
抽出した前記操作記述に基づいて、前記データ操作において操作対象となる対象データの抽出条件を決定し、
前記入力データから、決定した前記抽出条件を満たす前記対象データを抽出し、
抽出した前記対象データを含むサンプリングデータを出力する、
処理をコンピュータに実行させる出力プログラム。

【請求項2】

前記抽出条件を特定する処理では、テーブル形式の前記入力データ内の前記対象データが格納された列のカラム名を、抽出した前記操作記述から特定し、特定した前記カラム名のカラムに格納されているという条件を前記抽出条件に含める、
請求項１記載の出力プログラム。

【請求項3】

前記抽出条件を特定する処理では、抽出した前記操作記述において指定されているインデックスに対応する行の特定した前記カラム名のカラムに格納されているという条件を、前記抽出条件に含める、
請求項２記載の出力プログラム。

【請求項4】

前記対象データを抽出する処理では、前記入力データから、前記抽出条件を満たさない非対象データを削除する、
請求項１記載の出力プログラム。

【請求項5】

前記対象データを抽出する処理では、前記入力データから、決定した前記抽出条件を満たす前記対象データと、前記機械学習プログラムを用いた機械学習における予測対象のラベルデータとを抽出し、
サンプリングデータを出力する処理では、抽出した前記対象データと前記ラベルデータとを含むサンプリングデータを出力する、
請求項１記載の出力プログラム。

【請求項6】

前記操作記述を特定する処理では、複数の前記機械学習プログラムそれぞれから、複数の前記機械学習プログラムに共通の前記入力データに対する前記操作記述を抽出し、
前記抽出条件を決定する処理では、複数の前記機械学習プログラムそれぞれについての前記抽出条件を決定し、
前記対象データを抽出する処理では、複数の前記機械学習プログラムに対応する複数の前記抽出条件のいずれかを満たす前記対象データを、前記入力データから抽出する、
請求項１から５までのいずれかに記載の出力プログラム。

【請求項7】

【請求項8】

機械学習プログラムから、前記機械学習プログラムへの入力データに対するデータ操作に関する操作記述を抽出し、抽出した前記操作記述に基づいて、前記データ操作において操作対象となる対象データの抽出条件を決定し、前記入力データから、決定した前記抽出条件を満たす前記対象データを抽出し、抽出した前記対象データを含むサンプリングデータを出力する処理部、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、出力プログラム、出力方法、および情報処理装置に関する。

【背景技術】

【0002】

データ・タスクを入力として適切な機械学習プログラムを自動的に生成する、ＡｕｔｏＭＬ（Automated Machine Learning）の開発が現在盛んに行われている。ＡｕｔｏＭＬを実現するためには、大量の既存の機械学習プログラム内の有用な部品（コードスニペット）を蓄積することが重要となる。そこで、既存の複数の機械学習プログラムの中からコードスニペットを抽出する処理が行われる。

【0003】

機械学習プログラムからコードスニペットを抽出する際には、コードを動的に実行させて命令間の依存関係を抽出する動的スライシングが行われる。動的スライシングでは、例えば複数の命令を含む機械学習プログラムから、所定の変数に関係する命令群が抽出される。抽出された命令群が、コードスニペットとして出力される。

【0004】

機械学習プログラムなどのプログラムの解析に有用な技術としては、例えばプログラム間の呼び出し関係を正確に抽出する抽出方法が提案されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２１－１６５９０２号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

動的スライシングでは実際に機械学習プログラムを実行させるため、機械学習に利用するデータ量が多いほど処理に時間がかかってしまう。例えば機械学習プログラムを用いたモデル生成に利用する訓練データが大量にある場合、その訓練データを用いて機械学習プログラムの動的スライシングを行うと、処理に長い時間を要する。

【0007】

そこで動的スライシングを実行する前に、入力する訓練データのデータ量を削減することが考えられる。すなわち、機械学習に利用する訓練データのデータ量を削減することで機械学習の処理に要する時間を削減し、結果として、動的スライシングの実行時間も短縮できると考えられる。

【0008】

しかし、確実に既存の機械学習プログラムを実行させる必要がある動的スライシングにおいては、例えば、訓練データをランダムに削除するような手法では、訓練データの削減によって動的スライシングの実行が妨げられるおそれがある。

【0009】

１つの側面では、本件は、動的スライシングに利用するデータ量を削減することを目的とする。

【課題を解決するための手段】

【0010】

１つの案では、以下の処理をコンピュータに実行させる出力プログラムが提供される。
コンピュータは、機械学習プログラムから、機械学習プログラムへの入力データに対するデータ操作に関する操作記述を抽出する。コンピュータは、抽出した操作記述に基づいて、データ操作において操作対象となる対象データの抽出条件を決定する。コンピュータは、入力データから、決定した抽出条件を満たす対象データを抽出する。そしてコンピュータは、抽出した対象データを含むサンプリングデータを出力する。

【発明の効果】

【0011】

１態様によれば、動的スライシングに利用するデータ量を削減することができる。

【図面の簡単な説明】

【0012】

【図1】第１の実施の形態に係るサンプリングデータの出力方法の一例を示す図である。

【図2】第２の実施の形態のシステム構成の一例を示す図である。

【図3】本実施の形態に用いる機械学習支援装置のハードウェアの一例を示す図である。

【図4】機械学習支援装置の機能を示すブロック図である。

【図5】テーブルデータの一例を示す図である。

【図6】機械学習プログラムの一例を示す図である。

【図7】データ抽出処理の手順の一例を示す図である。

【図8】パス抽出処理の一例を示す図である。

【図9】パス抽出処理の手順の一例を示すフローチャートである。

【図10】データサンプリング条件探索の一例を示す図である。

【図11】データサンプリング条件の一例を示す図である。

【図12】データサンプリング条件探索処理の手順の一例を示すフローチャートである。

【図13】データサンプリングの一例を示す図である。

【図14】データサンプリング処理の手順の一例を示すフローチャートである。

【図15】第３の実施の形態における機械学習支援装置の機能の一例を示すブロック図である。

【図16】第３の実施の形態におけるデータ抽出処理の手順の一例を示すフローチャートである。

【図17】第３の実施の形態におけるデータサンプリング処理の手順の一例を示すフローチャートである。

【図18】機械学習プログラムの一例を示す図である。

【図19】複数の機械学習プログラムそれぞれのデータフレーム名の一例を示す図である。

【図20】複数の機械学習プログラムそれぞれのデータサンプリング条件探索の一例を示す図である。

【図21】複数の機械学習プログラムそれぞれのデータサンプリング条件とそれらのＯＲ条件との一例を示す図である。

【図22】データサンプリングの一例を示す図である。

【図23】複数のテーブルデータを入力データとする機械学習プログラムの一例を示す図である。

【発明を実施するための形態】

【0013】

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
第１の実施の形態は、動的スライシングに使用するサンプリングデータのデータ量を削減することができる、サンプリングデータの出力方法である。

【0014】

図１は、第１の実施の形態に係るサンプリングデータの出力方法の一例を示す図である。図１には、サンプリングデータの出力方法を実施するための情報処理装置１０が示されている。情報処理装置１０は、例えば所定の出力プログラムを実行することにより、サンプリングデータの出力方法を実施することができる。

【0015】

情報処理装置１０は、記憶部１１と処理部１２とを有する。記憶部１１は、例えば情報処理装置１０が有するメモリまたはストレージ装置である。処理部１２は、例えば情報処理装置１０が有するプロセッサまたは演算回路である。

【0016】

記憶部１１は、動的スライシングの対象となる機械学習プログラム１、その機械学習プログラム１への入力データ２、および機械学習プログラム１を用いた機械学習における教師データにおけるラベルデータを指定するラベルデータ情報３を記憶する。

【0017】

処理部１２は、機械学習プログラム１から、入力データ２に対するデータ操作に関する操作記述を抽出する。例えば処理部１２は、機械学習プログラム１を解析して、ＤａｔａＦｒａｍｅ名「ｄｆ＿ａｌｌ」を特定する。そして処理部１２は、機械学習プログラム１から、ＤａｔａＦｒａｍｅのデータ操作に関する関数を抽出する。図１の例では、「ｄｆ＿ａｌｌ［’ｎａｍｅ’］．ｆｉｌｌｎａ（’ｎｏｎｅ’）．．．」、「ｄｆ＿ａｌｌ［’ｂｒａｎｄ＿ｎａｍｅ’］［：２５００］．．．」などが抽出される。

【0018】

次に処理部１２は、抽出した操作記述に基づいて、データ操作において操作対象となる対象データの抽出条件４を決定する。例えば処理部１２は、テーブル形式の入力データ２内の対象データが格納された列のカラム名を、抽出した操作記述から特定し、特定したカラム名のカラムに格納されているという条件を抽出条件４に含める。また処理部１２は、抽出した操作記述において指定されているインデックスに対応する行の特定したカラム名のカラムに格納されているという条件を、抽出条件４に含める。図１の例では、抽出条件４には、インデックスが２５００未満の行の、カラム名「ｎａｍｅ」、「ｂｒａｎｄ＿ｎａｍｅ」のカラムのデータであることが、抽出条件４として示されている。

【0019】

処理部１２は、入力データ２から、決定した抽出条件４を満たす対象データを抽出する。この際、処理部１２は、例えば入力データ２から、決定した抽出条件４を満たす対象データと、機械学習プログラム１を用いた機械学習における予測対象のデータであるラベルデータとを抽出してもよい。入力データ２のうちのどのデータがラベルデータとなるのかは、ラベルデータ情報３に示されている。図１の例では、カラム名「ｐｒｉｃｅ」のデータがラベルデータである。

【0020】

処理部１２は、抽出した対象データを含むサンプリングデータ５を出力する。例えば処理部１２は、入力データ２から、抽出条件４を満たさない非対象データを削除する。なおラベルデータも抽出する場合、処理部１２は、入力データから、抽出条件４を満たさず、ラベルデータでもないデータを削除する。

【0021】

そして処理部１２は、抽出した対象データを含むサンプリングデータ５を出力する。図１の例では、インデックスが０～２４９９の２５００行における、「ｎａｍｅ」、「ｂｒａｎｄ＿ｎａｍｅ」、「ｐｒｉｃｅ」のカラムのデータを有するサンプリングデータ５が抽出されている。

【0022】

動的スライシングにおいては、機械学習プログラムのコードが実行され、実行結果に基づいて、命令間の依存関係を抽出する処理が行われる。このとき、機械学習プログラムで操作対象となるデータが入力データ中に存在しないと、機械学習プログラムは実行不能となる。機械学習プログラムが正しく実行できないことにより、命令間の依存関係の抽出も正しく行うことができなくなってしまう。つまり、データの削減によって機械学習プログラムで操作対象となるデータが削除されてしまうと、動的スライシングを正しく実行することができなくなってしまう。

【0023】

ここで、上述の説明において処理部１２が出力するサンプリングデータ５は、機械学習プログラム１における操作対象のデータを含んでいる。そのため、サンプリングデータ５を入力データとして機械学習プログラム１を実行して動的スライシングを行えば、機械学習プログラム１により実行される処理がコードにしたがって正しく実行され、適切な動的スライシングが可能となる。しかもサンプリングデータ５は、入力データ２よりもデータ量が少ないため、動的スライシングを、データ削減を行わない入力データを用いる場合よりもより効率的に（より短い実行時間で）実施することができる。

【0024】

例えば、サンプリングデータ５には機械学習プログラム１において操作対象となるカラムのデータが含まれているため、機械学習プログラム１を実行した際に、特定のカラムのデータの操作が、データ不足でスキップされることなく、正しく実行される。その結果、正確な動的スライシングを行うことができる。

【0025】

また操作記述において操作対象のデータのインデックスが指定されている場合、処理部１２は、そのインデックスのデータのみを、入力データから抽出する。これにより、余分なデータの抽出が行われず、最小限のデータのみが抽出される。その結果、サンプリングデータ５のデータ量が削減される。例えば処理部１２は、入力データ２から、抽出条件４を満たさない非対象データを削除することで、余分なデータを削除したサンプリングデータ５を生成することができる。

【0026】

なお、いずれの操作記述においても操作対象のインデックスが指定されていない場合、例えば処理部１２は、Ｎ行（Ｎは自然数）のデータを入力データ２から抽出する。Ｎは、機械学習プログラムが正しく実行できる範囲で、できるだけ少ない値が設定される。

【0027】

また、複数の操作記述において操作対象のインデックスが指定されている場合、例えば処理部１２は、指定されたインデックスの論理和に該当するインデックスの行から、データを抽出する。これによりサンプリングデータ５を用いて、インデックスを指定したすべての操作記述に応じた処理を正しく実行することができる。

【0028】

また機械学習プログラム１が教師あり学習のためのプログラムである場合、操作対象のデータ以外に、ラベルデータも利用される。入力データ２からラベルデータも抽出し、サンプリングデータ５に含めることで、サンプリングデータ５に基づいて教師あり学習を正しく実行することができる。

【0029】

なお、共通の入力データ２を使用する機械学習プログラム１が複数あり、それらの機械学習プログラム１それぞれの動的スライシングが行われる場合がある。その場合、例えば処理部１２は、複数の機械学習プログラム１それぞれについて、サンプリングデータ５を出力することができる。また処理部１２は、複数の機械学習プログラム１に対して１つのサンプリングデータ５を生成することも可能である。

【0030】

例えば処理部１２は、複数の機械学習プログラム１それぞれから、複数の機械学習プログラム１に共通の入力データ２に対する操作記述を抽出する。さらに処理部１２は、複数の機械学習プログラム１それぞれについての抽出条件４を決定する。そして処理部１２は、複数の機械学習プログラム１に対応する複数の抽出条件４のいずれかを満たす対象データ（複数の抽出条件４の論理和の条件を満たすデータ）を、入力データ２から抽出する。これにより、複数の機械学習プログラム１に共通で使用するサンプリングデータ５を生成することができる。

【0031】

その結果、複数の機械学習プログラム１に対して動的スライシングを実行するためのサンプリングデータ５のデータ量を削減することができる。
〔第２の実施の形態〕
第２の実施の形態は、ＡｕｔｏＭＬによる機械学習プログラムの自動生成を効率的に実行出来るようにする機械学習支援装置である。

【0032】

図２は、第２の実施の形態のシステム構成の一例を示す図である。機械学習支援装置１００は、ネットワーク２０を介してサーバ２００に接続されている。サーバ２００は、訓練データとして利用可能なデータを保持するコンピュータである。機械学習支援装置１００は、サーバ２００に記憶されているデータを訓練データとして用いて機械学習を行うための機械学習プログラムを生成するコンピュータである。

【0033】

図３は、本実施の形態に用いる機械学習支援装置のハードウェアの一例を示す図である。機械学習支援装置１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

【0034】

メモリ１０２は、機械学習支援装置１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

【0035】

バス１０９に接続されている周辺機器としては、ストレージ装置１０３、ＧＰＵ（Graphics Processing Unit）１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

【0036】

ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、機械学習支援装置１００の補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

【0037】

ＧＰＵ１０４は画像処理を行う演算装置であり、グラフィックコントローラとも呼ばれる。ＧＰＵ１０４には、モニタ２１が接続されている。ＧＰＵ１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、有機ＥＬ（Electro Luminescence）を用いた表示装置や液晶表示装置などがある。

【0038】

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

【0039】

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取り、または光ディスク２４へのデータの書き込みを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

【0040】

機器接続インタフェース１０７は、機械学習支援装置１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

【0041】

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース１０８は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース１０８は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。

【0042】

機械学習支援装置１００は、以上のようなハードウェアによって、第２の実施の形態の処理機能を実現することができる。なお、第１の実施の形態に示した情報処理装置１０も、図３に示した機械学習支援装置１００と同様のハードウェアにより実現することができる。

【0043】

機械学習支援装置１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。機械学習支援装置１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、機械学習支援装置１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。また機械学習支援装置１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

【0044】

機械学習支援装置１００は、動的スライシングによって生成されたコードスニペットを用いてＡｕｔｏＭＬによる機械学習プログラムの自動生成を行う。機械学習支援装置１００は、動的スライシングを効率的に実行するために、動的スライシングの前に、動的スライシングの対象となる機械学習プログラムの実行時に入力するデータ量の削減処理を行う。入力するデータ量を削減することで、動的スライシングを効率的に実行することができる。

【0045】

図４は、機械学習支援装置の機能を示すブロック図である。機械学習支援装置１００は、データ取得部１１０、記憶部１２０、データ抽出部１３０、動的スライシング部１４０、およびＡｕｔｏＭＬ部１５０を有する。

【0046】

データ取得部１１０は、サーバ２００から、機械学習の教師データとして利用可能なデータを取得する。例えばデータ取得部１１０は、テーブルデータ１２１をサーバ２００から取得し、取得したテーブルデータ１２１を記憶部１２０に格納する。

【0047】

記憶部１２０は、機械学習プログラムの自動生成に用いるデータを記憶する。例えば記憶部１２０は、テーブルデータ１２１、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・、ターゲットカラム名１２３、および複数のサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を記憶する。テーブルデータ１２１は、機械学習の訓練データとして利用されるテーブル形式のデータである。機械学習プログラム１２２ａ，１２２ｂ，・・・は、動的スライシングの対象とする機械学習用のプログラムである。ターゲットカラム名は、テーブルデータ１２１のカラムのうちの、生成する機械学習プログラムにおいてラベルデータとして使用するデータが登録されたカラムの名称である。サンプリングテーブルデータ１２４ａ，１２４ｂ，・・・は、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれに応じて、動的スライシング実行のための最小限のデータをテーブルデータ１２１から抽出することで生成されたテーブルデータである。

【0048】

データ抽出部１３０は、機械学習プログラム１２２ａ，１２２ｂ，・・・ごとに、動的スライシング実行のための最小限のデータをテーブルデータ１２１から抽出し、サンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を生成する。データ抽出部１３０は、パス抽出部１３１、データサンプリング条件探索部１３２、データサンプリング条件蓄積部１３３、およびデータサンプリング部１３４を有する。

【0049】

パス抽出部１３１は、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれから、「ｐａｎｄａｓ．ＤａｔａＦｒａｍｅ（）」に関連するデータ処理の依存関係を示すパスを抽出する。例えばパス抽出部１３１は、テーブルデータを読み込む際に使われる「ｐａｎｄａｓ．ＤａｔａＦｒａｍｅ」関数を起点としたパス抽出を行う。パス抽出法として、例えばルールベース、抽象構文木（ＡＳＴ：Abstract Syntax Tree）などによるプログラム抽出方法を用いることができる。

【0050】

データサンプリング条件探索部１３２は、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれについて、パス抽出部１３１が抽出したパスに基づいて、動的スライシングの実行に必要最小限のデータの条件を探索する。データサンプリング条件探索部１３２は、機械学習プログラム１２２ａ，１２２ｂ，・・・ごとのデータサンプリング条件１３３ａ，１３３ｂ，・・・をデータサンプリング条件蓄積部１３３に格納する。

【0051】

データサンプリング条件蓄積部１３３は、データサンプリング条件１３３ａ，１３３ｂ，・・・を記憶する。データサンプリング条件蓄積部１３３は、例えばデータ抽出部１３０が管理するメモリ１０２内の記憶領域に設けられる。

【0052】

データサンプリング部１３４は、データサンプリング条件１３３ａ，１３３ｂ，・・・に基づいて、テーブルデータ１２１からデータを抽出する。この際、データサンプリング部１３４は、ターゲットカラム名１２３に示されるカラムのデータを、抽出するデータに加える。データサンプリング部１３４は、抽出したデータによりサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を生成し、記憶部１２０に格納する。

【0053】

動的スライシング部１４０は、機械学習プログラム１２２ａ，１２２ｂ，・・・ごとに、対応するサンプリングテーブルデータを用いて動的スライシングを実行する。例えば動的スライシング部１４０は、特定の機械学習プログラムに対応するサンプリングテーブルデータを入力として、その機械学習プログラムを実行する。そして動的スライシング部１４０は、所定の変数に関係する命令群を、コードスニペットとして抽出する。動的スライシング部１４０は、抽出したコードスニペットをＡｕｔｏＭＬ部１５０に送信する。

【0054】

ＡｕｔｏＭＬ部１５０は、動的スライシング部１４０から取得したコードスニペットを用いて指定されたタスクに応じた機械学習プログラムを自動生成する。
なお、図４に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図４に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。

【0055】

図５は、テーブルデータの一例を示す図である。図５に示すテーブルデータ１２１は、例えばファイル名「ｄａｔａ．ｔｓｖ」のＴＳＶ（Tab Separated Values）形式のファイルに格納されている。テーブルデータ１２１にはプロジェクトＩＤ「００１」が設定されている。テーブルデータ１２１の行数は「１，４８２，５３６」である。

【0056】

またテーブルデータ１２１のカラム数は「８」である。各カラムのカラム名は、それぞれ「ｔｒａｉｎ＿ｉｄ，ｎａｍｅ，ｉｔｅｍ＿ｃｏｎｄｉｔｉｏｎ＿ｉｄ，ｃａｔｅｇｏｒｙ＿ｎａｍｅ，ｂｒａｎｄ＿ｎａｍｅ，ｐｒｉｃｅ，ｓｈｉｐｐｉｎｇ，ｉｔｅｍ＿ｄｅｓｃｒｉｐｔｉｏｎ」である。

【0057】

各行のカラム名「ｔｒａｉｎ＿ｉｄ」のデータは、その行の行名（インデックス）である。各行には、０から昇順の番号が、インデックスとして付与されている。
図６は、機械学習プログラムの一例を示す図である。機械学習プログラム１２２ａには、ファイル名「ｄａｔａ．ｔｓｖ」のテーブルデータ１２１を入力として、機械学習を実行するプログラムが記述されている。

【0058】

機械学習支援装置１００では、データ取得部１１０がサーバ２００からテーブルデータ１２１を取得すると、データ抽出部１３０により、テーブルデータ１２１から機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれに応じたデータ抽出処理が行われる。

【0059】

図７は、データ抽出処理の手順の一例を示す図である。以下、図７に示す処理をステップ番号に沿って説明する。
［ステップＳ１０１］データ抽出部１３０は、機械学習プログラムごとに、ステップＳ１０２～Ｓ１０６の処理を実行する。例えばデータ抽出部１３０は、機械学習プログラム数がｋ（ｋは自然数）の場合、１番目の機械学習プログラムから処理を開始し、ｋ番目の機械学習プログラムに対する処理が終了するまで処理を繰り返す。

【0060】

［ステップＳ１０２］データ抽出部１３０は、記憶部１２０から、データ抽出処理を未実行の機械学習プログラムの１つを、記憶部１２０から読み込む。
［ステップＳ１０３］データ抽出部１３０のパス抽出部１３１は、読み込んだ機械学習プログラムにおけるデータ処理の依存関係のパス抽出処理を行う。パス抽出処理の詳細は後述する（図９参照）。

【0061】

［ステップＳ１０４］データサンプリング条件探索部１３２は、データサンプリング条件探索処理を行う。データサンプリング条件探索処理によって、処理対象の機械学習プログラムに対応するデータサンプリングのためのデータサンプリング条件が生成される。例えばデータサンプリング条件探索部１３２は、パス抽出部１３１が抽出したパスに基づいて操作対象のｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスを特定する。そしてデータサンプリング条件探索部１３２は、ＤａｔａＦｒａｍｅのインスタンスに基づいてデータサンプリング条件を決定する。データサンプリング条件探索処理の詳細は後述する（図１２参照）。

【0062】

［ステップＳ１０５］データサンプリング部１３４は、生成されたデータサンプリング条件に基づいて、テーブルデータ１２１からのデータサンプリング処理を行う。データサンプリング処理の詳細は後述する（図１４参照）。

【0063】

［ステップＳ１０６］データサンプリング部１３４は、データサンプリング処理によって生成されたサンプリングテーブルデータを出力する。例えばデータサンプリング部１３４は、サンプリングテーブルデータを記憶部１２０に格納する。

【0064】

［ステップＳ１０７］データ抽出部１３０は、すべての機械学習プログラム１２２ａ，１２２ｂ，・・・に対してステップＳ１０２～Ｓ１０６の処理が完了した場合、データ抽出処理を終了する。

【0065】

次に、パス抽出処理について詳細に説明する。
図８は、パス抽出処理の一例を示す図である。図８には、機械学習プログラム１２２ａからのｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスを探索する例が示されている。パス抽出部１３１は、パス抽出を行うために、例えば機械学習プログラム１２２ａの処理間の依存関係を示す依存ツリー３１を生成する。依存ツリー３１には、各処理に対応するノード３１ａ～３１ｊが含まれており、処理間の依存関係がノード３１ａ～３１ｊ間を接続する矢印で示されている。矢印は、矢印の先のノードの処理が、矢印の元のノードの処理に依存することを示す。以下、矢印の元のノードを、矢印の先のノードの上位側とする。

【0066】

パス抽出部１３１は、ｍｏｄｅｌ．ｆｉｔ（）関数に対応するノード３１ｊを起点（シード）として、依存ツリー３１におけるデータの依存関係を上位に向かって辿る。図８の例では、機械学習プログラム１２２ａにはｍｏｄｅｌ．ｆｉｔ（）関数「ｍｏｄｅｌ．ｆｉｔ（ｘ＿ｔｒａｉｎ，ｙ＿ｔｒａｉｎ）」が含まれる。このｍｏｄｅｌ．ｆｉｔ（）関数から、機械学習に使用するデータが「ｘ＿ｔｒａｉｎ，ｙ＿ｔｒａｉｎ」であることが分かる。そこでパス抽出部１３１は、依存ツリー３１において、「ｘ＿ｔｒａｉｎ，ｙ＿ｔｒａｉｎ」の依存関係を上位に向かって辿る。

【0067】

図８の依存ツリー３１では、データ「ｘ＿ｔｒａｉｎ，ｙ＿ｔｒａｉｎ」を起点とする依存関係が太線の矢印で示されている。データ「ｘ＿ｔｒａｉｎ，ｙ＿ｔｒａｉｎ」から依存関係を辿ることができるノード間の接続関係が、ｐａｎｄａｓ．ＤａｔａＦｒａｍｅ（）に関連したパスである。

【0068】

パスに示されるデータの依存関係を上位に辿ることで到達することで、ｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスを特定することができる。図８の例では、依存関係を辿ることで「ｄｆ＿ａｌｌ＝ｐｄ．ｒｅａｄ＿ｔａｂｌｅ（“ｄａｔａ．ｔｓｖ”）」に到達している。この場合、ｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスとして、「ＤａｔａＦｒａｍｅ名：ｄｆ＿ａｌｌ」が特定される。

【0069】

以下、パス抽出処理の手順を詳細に説明する。
図９は、パス抽出処理の手順の一例を示すフローチャートである。以下、図９に示す処理をステップ番号に沿って説明する。

【0070】

［ステップＳ１１１］パス抽出部１３１は、依存ツリー３１を作成する。
［ステップＳ１１２］パス抽出部１３１は、依存ツリー３１の下位の階層から順に、各階層のノードを処理対象として、ステップＳ１１３～Ｓ１１７の処理を実行する。例えばパス抽出部１３１は、依存ツリー３１の階層数がｌの場合、上位からｌ番目の階層（最下位の階層）のノードから処理を開始し、階層を１段ずつ上位に移動させる。パス抽出部１３１は、１番目の階層のノードに対する処理が終了するまで処理を繰り返す。

【0071】

［ステップＳ１１３］パス抽出部１３１は、依存ツリー３１の処理対象の階層のノード（対象のノード）に示される処理が、ｍｏｄｅｌ．ｆｉｔ（）関数の呼び出しを行っているか否かを判断する。パス抽出部１３１は、ｍｏｄｅｌ．ｆｉｔ（）関数を呼び出している場合、処理をステップＳ１１４に進める。またパス抽出部１３１は、ｍｏｄｅｌ．ｆｉｔ（）関数を呼び出していなければ、処理をステップＳ１１５に進める。

【0072】

［ステップＳ１１４］パス抽出部１３１は、対象のノードをシードに指定する。シードは、抽出するパスの起点となるノードである。シードを指定した時点では、シードのノードが、パスの最新のノードとなる。その後、パス抽出部１３１は、処理をステップＳ１１８に進める。

【0073】

［ステップＳ１１５］パス抽出部１３１は、シードが指定済みか否かを判断する。パス抽出部１３１は、シードが指定済みであれば処理をステップＳ１１６に進める。またパス抽出部１３１は、シードが指定済みでなければ、処理をステップＳ１１８に進める。

【0074】

［ステップＳ１１６］パス抽出部１３１は、対象のノードが、依存ツリー３１においてパスの最新のノードに繋がっているか否かを判断する。パス抽出部１３１は、パスの最新のノードに繋がっていれば、処理をステップＳ１１７に進める。またパス抽出部１３１は、パスの最新のノードに繋がっていなければ処理をステップＳ１１８に進める。

【0075】

［ステップＳ１１７］パス抽出部１３１は、対象のノードを、パスの最新のノードとして追加する。
［ステップＳ１１８］パス抽出部１３１は、すべての階層のノードについて、階層ごとの処理が終了した場合、パス抽出処理を終了する。

【0076】

パス抽出処理によってｐａｎｄａｓ．ＤａｔａＦｒａｍｅ（）に関連したパスが抽出されると、データサンプリング条件探索部１３２により、データサンプリング条件の探索処理が行われる。

【0077】

図１０は、データサンプリング条件探索の一例を示す図である。データサンプリング条件探索部１３２は、パス抽出部１３１が抽出したパスから特定されるｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスのデータに対する操作を、機械学習プログラム１２２ａから抽出する。例えばデータサンプリング条件探索部１３２は、ｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスのＤａｔａＦｒａｍｅ名を取得する。機械学習プログラム１２２ａの場合、ｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンス「ｄｆ＿ａｌｌ＝ｐｄ．ｒｅａｄ＿ｔａｂｌｅ（“ｄａｔａ．ｔｓｖ”）」に示される「ｄｆ＿ａｌｌ」がＤａｔａＦｒａｍｅ名である。

【0078】

データサンプリング条件探索部１３２は、機械学習プログラム１２２ａからＤａｔａＦｒａｍｅ名［‘カラム名’］が含まれる行を探索する。図１０の例では、カラム名「ｎａｍｅ」を操作する行と、カラム名「ｂｒａｎｄ＿ｎａｍｅ」を操作する行とが抽出される。図１０では、機械学習プログラム１２２ａから抽出される操作に下線が引かれている。

【0079】

データサンプリング条件探索部１３２は、抽出した操作それぞれについて、操作対象の行のインデックスに制限があるかどうかを判断する。操作対象の行のインデックスに制限がある場合、その操作による操作対象は、操作記述で指定されたインデックスの行のデータに制限される。また操作対象の行のインデックスに制限がある場合、動的スライシングを行うためには、指定されたすべてのインデックスの行のデータをサンプリングテーブルデータに含めることが求められる。

【0080】

例えばデータサンプリング条件探索部１３２は、操作内容が以下の正規表現のいずれかに一致する場合に「制限あり」と判断する。
・￥［￥ｄ＊？￥：＊？￥ｄ＊？￥：＊？￥ｄ＊？￥］
・￥．ｌｏｃ￥［￥ｄ＊？￥：＊？￥ｄ＊？￥：＊？￥ｄ＊？￥］
・￥．ｉｌｏｃ￥［￥ｄ＊？￥：＊？￥ｄ＊？￥：＊？￥ｄ＊？￥］
￥はバックスラッシュを表している。「ｄ」は任意の数字を示す。「＊」は直前の文字の０回以上の繰り返しを示す。「？」は直前の文字が０個または１個あることを示す。例えば正規表現「［￥ｄ＊？￥：＊？￥ｄ＊？￥：＊？￥ｄ＊？￥］」は、「：」で区切られた最大で３つの数値が括弧記号（［］）で囲まれている場合に一致する。「Ｌｏｃ」は、行名（インデックス）もしくは列名（カラム名）を指定して特定の値を抽出することを示す。「Ｉｌｏｃ」は、行番号または列番号を指定して特定の値を抽出することを示す。

【0081】

正規表現に一致する３つの数値は、操作対象の行のインデックスを示している。「制限あり」の場合、正規表現に一致する３つの数値に基づいて、操作対象の行が判定される。
最初の数値は、操作対象の先頭の行のインデックス（ｔｒａｉｎ＿ｉｄの値）を示す。操作対象の先頭の行のインデックスが「０」の場合、最初の数値を省略することができる。２つ目の数値は、操作対象の最後の行の次の行のインデックスを示す。３つ目の数値は、操作対象の先頭の行から最後の行との間の一定間隔の行を操作する場合における行の間隔を示す。例えば「ｄｆ［０：１０：５］」の場合、０行目から１０行目の前の行までの範囲の行（インデックス「０～９」）のうち、５行に１つの行（インデックス「０，５」の行）が操作対象となる。

【0082】

例えば「ｄｆ＿ａｌｌ［’ｂｒａｎｄ＿ｎａｍｅ’］［：２５００］」であれば、インデックスが「０」以上であり、「２５００」未満の行が操作対象となる。また「ｄｆ＿ａｌｌ［’ｂｒａｎｄ＿ｎａｍｅ’］［１００：２５００］」であれば、インデックスが「１００」以上であり、「２５００」未満の行が操作対象となる。「ｄｆ＿ａｌｌ［’ｂｒａｎｄ＿ｎａｍｅ’］［０：２５００：１０］」であれば、インデックスが「０」以上であり、「２５００」未満の行のうち、インデックス「０」の行から１０行間隔の行（０，１０，２０，・・・）の行が操作対象となる。

【0083】

機械学習プログラム１２２ａのうち、例えば「ｄｆ＿ａｌｌ［’ｎａｍｅ’］．ｆｉｌｌｎａ（）」の操作は、操作内容が上記の正規表現のいずれにも一致しないため、制限なしと判定される。また「ｄｆ＿ａｌｌ［’ｂｒａｎｄ＿ｎａｍｅ’］［：２５００］」の操作は、操作内容が上記の正規表現の１つ目に一致するため、制限ありと判定される。この場合の操作対象の行は、行番号が「０」以上「２５００」未満の行である。

【0084】

データサンプリング条件探索部１３２は、操作対象の行に制限がある場合、制限内容を示すデータサンプリング条件を生成する。データサンプリング条件探索部１３２は、生成したデータサンプリング条件をデータサンプリング条件蓄積部１３３に格納する。

【0085】

図１１は、データサンプリング条件の一例を示す図である。データサンプリング条件探索部１３２は、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれに対応するデータサンプリング条件１３３ａ，１３３ｂ，・・・を生成し、データサンプリング条件蓄積部１３３に格納する。

【0086】

例えば機械学習プログラム１２２ａに対応するデータサンプリング条件１３３ａには、操作対象のデータが格納されたカラムのカラム名が「ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」であることが示されている。またデータサンプリング条件１３３ａには、カラム名「ｎａｍｅ」については操作対象の行のインデックスの制限はないことが示されている。さらにデータサンプリング条件１３３ａには、カラム名「ｂｒａｎｄ＿ｎａｍｅ」については、操作対象の行が、２５００未満のインデックスの行であるという制限があることが示されている。すなわち機械学習プログラム１２２ａを実行する場合に、インデックスが「０～２４９９」の２５００行を、操作対象として入力することが求められる。

【0087】

図１２は、データサンプリング条件探索処理の手順の一例を示すフローチャートである。以下、図１２に示す処理をステップ番号に沿って説明する。
［ステップＳ１２１］データサンプリング条件探索部１３２は、パス抽出部１３１が抽出したパスの上位から順に、パスのノードに対応する操作ごとに、ステップＳ１２２～Ｓ１２７の処理を行う。例えばパスの行数がＬ行（Ｌは自然数）であれば、１行目から順にＬ行までステップＳ１２２～Ｓ１２７の処理が行われる。

【0088】

［ステップＳ１２２］データサンプリング条件探索部１３２は、変数ｄｆに値が保存されているか否かを判断する。データサンプリング条件探索部１３２は、値が保存されていれば処理をステップＳ１２４に進める。またデータサンプリング条件探索部１３２は、値が保存されていなければ処理をステップＳ１２３に進める。

【0089】

［ステップＳ１２３］データサンプリング条件探索部１３２は、「ＤａｔａＦｒａｍｅ」の変数名を変数ｄｆに格納する。例えば図８に示す依存ツリー３１から抽出したパスであれば、変数ｄｆに「ｄｆ＿ａｌｌ」が格納される。

【0090】

［ステップＳ１２４］データサンプリング条件探索部１３２は、処理対象の操作が、変数ｄｆに示されるＤａｔａＦｒａｍｅのカラムに関する操作か否かを判断する。データサンプリング条件探索部１３２は、該当ＤａｔａＦｒａｍｅのカラムに関する操作であれば、処理をステップＳ１２５に進める。またデータサンプリング条件探索部１３２は、該当ＤａｔａＦｒａｍｅのカラムに関する操作でなければ、処理をステップＳ１２８に進める。

【0091】

［ステップＳ１２５］データサンプリング条件探索部１３２は、処理対象の操作からカラム名を取得する。例えばデータサンプリング条件探索部１３２は、処理対象の操作が「ｄｆ＿ａｌｌ［’ｎａｍｅ’］＝ｄｆ＿ａｌｌ［’ｎａｍｅ’］．ｆｉｌｌｎａ（’ｎｏｎｅ’）．ａｓｔｙｐｅ（’ｃａｔｅｇｏｒｙ’）」であれば、カラム名「ｎａｍｅ」を取得する。データサンプリング条件探索部１３２は、取得したカラム名を、データサンプリング条件のカラム名として設定する。

【0092】

［ステップＳ１２６］データサンプリング条件探索部１３２は、変数ｄｆに示されるＤａｔａＦｒａｍｅの処理対象の行のインデックスに制限があるか否かを判断する。例えばデータサンプリング条件探索部１３２は、操作内容を示す記述が、所定の正規表現に一致する場合、「制限あり」と判断する。データサンプリング条件探索部１３２は、制限がある場合、処理をステップＳ１２７に進める。またデータサンプリング条件探索部１３２は、制限がない場合、処理をステップＳ１２８に進める。

【0093】

［ステップＳ１２７］データサンプリング条件探索部１３２は、処理対象の操作に示される処理対象の行のインデックスの制限を取得する。例えばデータサンプリング条件探索部１３２は、操作「ｐｏｐ＿ｂｒａｎｄｓ＝ｄｆ＿ａｌｌ［’ｂｒａｎｄ＿ｎａｍｅ’］［：２５００］．ｖａｌｕｅ＿ｃｏｕｎｔｓ（）」であれば、処理対象の行のインデックスが「＜２５００」の行のデータをサンプリングテーブルデータに含むという制限を取得する。データサンプリング条件探索部１３２は、取得した制限を、操作対象のカラム名に対応付けて、データサンプリング条件に設定する。

【0094】

［ステップＳ１２８］データサンプリング条件探索部１３２は、抽出したパスのすべてのノードに対応する操作に対する処理が終了した場合、データサンプリング条件探索処理を終了する。

【0095】

このようにしてデータサンプリング条件が生成される。データサンプリング条件が生成されると、データサンプリング部１３４は、機械学習プログラム１２２ａ，１２２ｂ，・・・ごとのデータサンプリング条件１３３ａ，１３３ｂ，・・・に基づいて、テーブルデータ１２１からデータサンプリングを行う。

【0096】

図１３は、データサンプリングの一例を示す図である。例えばデータサンプリング部１３４は、データサンプリング条件１３３ａに基づいて、テーブルデータ１２１内の一部のデータを抽出し、サンプリングテーブルデータ１２４ａを生成する。図１３に示すデータサンプリング条件１３３ａには、操作対象のカラム名として「ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」が設定されている。またデータサンプリング条件１３３ａには、操作対象の行のインデックスの制限として、カラム名「ｂｒａｎｄ＿ｎａｍｅ」について、インデックスが「＜２５００」のデータをサンプリングテーブルデータ１２４ａに含めるという制限がある。

【0097】

データサンプリング部１３４は、テーブルデータ１２１の「ｔｒａｉｎ＿ｉｄ」、「ｎａｍｅ」、「ｂｒａｎｄ＿ｎａｍｅ」、および「ｐｒｉｃｅ」のカラムのデータを抽出対象とする。「ｔｒａｉｎ＿ｉｄ」は、インデックスが示されたカラムである。「ｐｒｉｃｅ」は、ターゲットカラム名で指定されているカラムである。「ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」は、データサンプリング条件１３３ａにおいて操作対象として指定されているカラムである。

【0098】

またデータサンプリング部１３４は、抽出対象のカラムのデータのうち、操作対象の行のインデックスの制限において指定されているインデックスの行のデータを抽出対象とする。そしてデータサンプリング部１３４は、抽出対象のデータをテーブルデータ１２１から抽出し、抽出したデータを含むサンプリングテーブルデータ１２４ａを生成する。

【0099】

サンプリングテーブルデータ１２４ａには、「ｔｒａｉｎ＿ｉｄ」、「ｎａｍｅ」、「ｂｒａｎｄ＿ｎａｍｅ」、「ｐｒｉｃｅ」のカラムが設けられている。そしてサンプリングテーブルデータ１２４ａには、各カラムに、インデックス「０～２４９９」の２５００行のデータが登録されている。

【0100】

図１４は、データサンプリング処理の手順の一例を示すフローチャートである。以下、図１４に示す処理をステップ番号に沿って説明する。
［ステップＳ１３１］データサンプリング部１３４は、処理対象の機械学習プログラムに対応するデータサンプリング条件を読み込む。

【0101】

［ステップＳ１３２］データサンプリング部１３４は、テーブルデータ１２１を読み込む。
［ステップＳ１３３］データサンプリング部１３４は、テーブルデータ１２１から、サンプリング条件を満たさないデータを削除する。データサンプリング部１３４は、削除後のテーブルデータを、処理対象の機械学習プログラムに対応するサンプリングテーブルデータとして出力する。

【0102】

このようにして、テーブルデータ１２１からデータ量を削減した、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれに対応するサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を生成することができる。サンプリングテーブルデータ１２４ａ，１２４ｂ，・・・は、対応する機械学習プログラム１２２ａ，１２２ｂ，・・・に対する動的スライシングを実行するための最小限のデータを含んでいる。そのため動的スライシング部１４０は、サンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を用いることで、機械学習プログラム１２２ａ，１２２ｂ，・・・の動的スライシングを効率的に実行することができる。その結果、動的スライシングの処理時間が短縮される。

【0103】

図１３に示す例の場合、元のテーブルデータ１２１の容量の５％程度までデータ量が削減されている。その結果、動的スライシングの実行時間を３０％程度削減することが可能である。

【0104】

しかも第２の実施の形態では、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれについて最適化したサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を生成している。そのため、機械学習プログラム１２２ａ，１２２ｂ，・・・に対する動的スライシングを、最小限のデータにみを含むサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・を用いて行うことができる。

【0105】

〔第３の実施の形態〕
第３の実施の形態は、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・に対して１つのサンプリングテーブルデータを生成するものである。サンプリングテーブルデータを１つに纏めることで、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・に対して一括して動的スライシングを実行する際に、サンプリングテーブルデータのデータ総量を削減することができる。以下、第３の実施の形態における第２の実施の形態との相違点について説明する。

【0106】

図１５は、第３の実施の形態における機械学習支援装置の機能の一例を示すブロック図である。図１５の機械学習支援装置１００ａの機能を示す要素のうち、第２の実施の形態と同様の要素には第２の実施の形態と同じ符号を付して説明を省略する。

【0107】

第３の実施の形態における機械学習支援装置１００ａの記憶部１２０ａには、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・に対して１つだけ生成されたサンプリングテーブルデータ１２５を記憶する。データ抽出部１３０ａにおけるデータサンプリング部１３４ａは、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれに対応するデータサンプリング条件１３３ａ，１３３ｂ，・・・の論理和を採ったデータサンプリング条件を生成する。そしてデータサンプリング部１３４ａは、生成したデータサンプリング条件に基づいてテーブルデータ１２１からデータを抽出し、サンプリングテーブルデータ１２５を生成する。

【0108】

図１６は、第３の実施の形態におけるデータ抽出処理の手順の一例を示すフローチャートである。以下、図１６に示す処理をステップ番号に沿って説明する。
［ステップＳ２０１］データ抽出部１３０ａは、機械学習プログラムごとに、ステップＳ２０２～Ｓ２０４の処理を実行する。

【0109】

［ステップＳ２０２］データ抽出部１３０ａは、記憶部１２０ａから、データ抽出処理を未実行の機械学習プログラムの１つを、記憶部１２０ａから読み込む。
［ステップＳ２０３］データ抽出部１３０ａのパス抽出部１３１は、読み込んだ機械学習プログラムにおけるデータ処理の依存関係を示すパスを抽出するパス抽出処理を行う。パス抽出処理の詳細は図９に示した通りである。

【0110】

［ステップＳ２０４］データサンプリング条件探索部１３２は、パス抽出部１３１が抽出したパスに基づいて、データサンプリング条件探索処理を行う。データサンプリング条件探索処理の詳細は図１２に示した通りである。データサンプリング条件探索処理によって、処理対象の機械学習プログラムに対応するデータサンプリングのためのデータサンプリング条件が生成される。

【0111】

［ステップＳ２０５］データ抽出部１３０ａは、すべての機械学習プログラム１２２ａ，１２２ｂ，・・・に対してステップＳ２０２～Ｓ２０４の処理が完了した場合、処理をステップＳ２０６に進める。

【0112】

［ステップＳ２０６］データサンプリング部１３４ａは、機械学習プログラム１２２ａ，１２２ｂ，・・・それぞれに対して生成されたデータサンプリング条件１３３ａ，１３３ｂ，・・・に基づいて、テーブルデータ１２１からのデータサンプリング処理を行う。データサンプリング処理の詳細は後述する（図１７参照）。

【0113】

［ステップＳ２０７］データサンプリング部１３４ａは、データサンプリング処理によって生成されたサンプリングテーブルデータ１２５を出力する。例えばデータサンプリング部１３４ａは、サンプリングテーブルデータ１２５を記憶部１２０ａに格納する。

【0114】

図１７は、第３の実施の形態におけるデータサンプリング処理の手順の一例を示すフローチャートである。以下、図１７に示す処理をステップ番号に沿って説明する。
［ステップＳ２１１］データサンプリング部１３４ａは、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・に対応するデータサンプリング条件１３３ａ，１３３ｂ，・・・を読み込む。

【0115】

［ステップＳ２１２］データサンプリング部１３４ａは、データサンプリング条件１３３ａ，１３３ｂ，・・・のＯＲ条件を計算する。そしてデータサンプリング部１３４ａは、データサンプリング条件１３３ａ，１３３ｂ，・・・のＯＲ条件を示すデータサンプリング条件を生成する。例えばデータサンプリング部１３４ａは、データサンプリング条件１３３ａ，１３３ｂ，・・・の少なくとも１つにおいて抽出対象とされるデータを抽出対象とするデータサンプリング条件を生成する。

【0116】

［ステップＳ２１３］データサンプリング部１３４ａは、テーブルデータ１２１を読み込む。
［ステップＳ２１４］データサンプリング部１３４ａは、データサンプリング条件１３３ａ，１３３ｂ，・・・のＯＲ条件を示すデータサンプリング条件を満たさないデータを、テーブルデータ１２１から削除する。データサンプリング部１３４ａは、削除後のテーブルデータを、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・に共通のサンプリングテーブルデータ１２５として出力する。

【0117】

このようにして、複数の機械学習プログラム１２２ａ，１２２ｂ，・・・の動的スライシングに利用可能な１つのサンプリングテーブルデータ１２５が生成される。以下、２つの機械学習プログラム１２２ａ，１２２ｂに対応するサンプリングテーブルデータ１２５を生成する場合を想定し、図１８～図２２を参照して、サンプリングテーブルデータ１２５の生成例について説明する。

【0118】

図１８は、機械学習プログラムの一例を示す図である。例えば図１８に示すような２つの機械学習プログラム１２２ａ，１２２ｂがあるものとする。これらの機械学習プログラム１２２ａ，１２２ｂは、いずれもテーブルデータ１２１を入力として機械学習を行うプログラムである。データ抽出部１３０ａは、記憶部１２０ａからこれらの機械学習プログラム１２２ａ，１２２ｂを読み込む。そしてパス抽出部１３１が、機械学習プログラム１２２ａ，１２２ｂそれぞれに対してパス抽出処理を行う。これにより、データ処理の依存関係を示すパスが抽出される。抽出されたパスに基づいてｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスが探索され、機械学習プログラム１２２ａ，１２２ｂそれぞれに対応するデータフレーム名が特定される。

【0119】

図１９は、複数の機械学習プログラムそれぞれのデータフレーム名の一例を示す図である。例えば機械学習プログラム１２２ａでは、「ｄｆ＿ａｌｌ＝ｐｄ．ｒｅａｄ＿ｔａｂｌｅ（“ｄａｔａ．ｔｓｖ”）」に基づいて、操作対象のデータフレーム名が「ｄｆ＿ａｌｌ」であることが分かる。また機械学習プログラム１２２ｂでは、「ｄｆ＝ｐｄ．ｒｅａｄ＿ｃｓｖ（‘ｄａｔａ．ｔｓｖ’，ｄｅｌｉｍｉｔｅｒ＝’￥ｔ’，ｌｏｗ＿ｍｅｍｏｒｙ＝Ｔｒｕｅ，ｈｅａｄｅｒ＝０）」に基づいて、操作対象のデータフレーム名が「ｄｆ」であることが分かる。

【0120】

次にデータサンプリング条件探索部１３２が、機械学習プログラム１２２ａ，１２２ｂそれぞれについて、データサンプリング条件の探索を行う。
図２０は、複数の機械学習プログラムそれぞれのデータサンプリング条件探索の一例を示す図である。機械学習プログラム１２２ａについては、第２の実施の形態と同様に、操作対処のカラムが「ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」であり、操作対象の行のインデックスが２５００未満（＜２５００）であるというデータサンプリング条件１３３ａが生成される。

【0121】

機械学習プログラム１２２ｂについては、データフレームのカラムに関する操作（図２０において下線で示す）に基づいて、データサンプリング条件１３３ｂが生成される。例えばＤａｔａＦｒａｍｅ名［‘カラム名’］が含まれる行の探索により、操作対象のカラムが「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」であると特定される。

【0122】

カラムのデータに対する操作内容が所定の正規表現と一致するか否かが判断され、一致する場合には、操作対象とする行のインデックスの制限があると判定される。図２０の例では、「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」のいずれのカラムについても、操作内容が所定の正規表現と一致せず、制限なしと判断される。

【0123】

データサンプリング条件探索部１３２は、データサンプリング条件探索の結果に基づいて、複数の機械学習プログラム１２２ａ，１２２ｂそれぞれのデータサンプリング条件を生成する。データサンプリング条件探索部１３２は、生成したデータサンプリング条件をデータサンプリング条件蓄積部１３３に格納する。そしてデータサンプリング部１３４ａによって、機械学習プログラム１２２ａ，１２２ｂごとに生成されたデータサンプリング条件１３３ａ，１３３ｂのＯＲ条件を満たすデータサンプリング条件が生成される。

【0124】

図２１は、複数の機械学習プログラムそれぞれのデータサンプリング条件とそれらのＯＲ条件との一例を示す図である。データサンプリング条件蓄積部１３３には、機械学習プログラム１２２ａに対応するデータサンプリング条件１３３ａと機械学習プログラム１２２ｂに対応するデータサンプリング条件１３３ｂとが格納されている。データサンプリング部１３４ａは、２つのデータサンプリング条件１３３ａ，１３３ｂのＯＲ条件を求め、統合したデータサンプリング条件１３３－１を生成する。

【0125】

データサンプリング条件１３３－１には、プロジェクトｉｄと操作対象のカラムのカラム名とが設定されている。各カラム名には、対応するカラムに対する操作対象の行のインデックスの制限内容が設定されている。図２１の例では、「ｎａｍｅ」と「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」のカラムに関する操作対象の行のインデックスの制限はない。「ｂｒａｎｄ＿ｎａｍｅ」のカラムについては、インデックスが２５００未満（＜２５００）の行のデータを含むという制限がある。

【0126】

データサンプリング部１３４ａは、データサンプリング条件１３３－１に基づいて、テーブルデータ１２１からデータを抽出し、サンプリングテーブルデータ１２５を生成する。

【0127】

図２２は、データサンプリングの一例を示す図である。例えばデータサンプリング部１３４ａは、データサンプリング条件１３３－１に基づいて、テーブルデータ１２１内の一部のデータを抽出し、サンプリングテーブルデータ１２５を生成する。図２２に示すデータサンプリング条件１３３－１には、操作対象のカラム名として「ｎａｍｅ」と「ｂｒａｎｄ＿ｎａｍｅ」と「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」が設定されている。またデータサンプリング条件１３３－１には、操作対象の行のインデックスの制限として、カラム名「ｂｒａｎｄ＿ｎａｍｅ」について、インデックスが「＜２５００」のデータを含むという制限がある。

【0128】

データサンプリング部１３４ａは、テーブルデータ１２１の「ｔｒａｉｎ＿ｉｄ」、「ｎａｍｅ」、「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」、「ｂｒａｎｄ＿ｎａｍｅ」、および「ｐｒｉｃｅ」のカラムのデータを抽出対象とする。「ｔｒａｉｎ＿ｉｄ」は、インデックスが示されたカラムである。「ｐｒｉｃｅ」は、ターゲットカラム名で指定されているカラムである。「ｎａｍｅ」、「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」、および「ｂｒａｎｄ＿ｎａｍｅ」は、データサンプリング条件１３３－１において操作対象として指定されているカラムである。

【0129】

またデータサンプリング部１３４ａは、抽出対象のカラムのデータのうち、操作対象の行のインデックスの制限において指定されているインデックスの行のデータを抽出対象とする。そしてデータサンプリング部１３４ａは、抽出対象のデータをテーブルデータ１２１から抽出し、抽出したデータを含むサンプリングテーブルデータ１２５を生成する。

【0130】

サンプリングテーブルデータ１２５には、「ｔｒａｉｎ＿ｉｄ」、「ｎａｍｅ」、「ｃａｔｅｇｏｒｙ＿ｎａｍｅ」、「ｂｒａｎｄ＿ｎａｍｅ」、「ｐｒｉｃｅ」のカラムが設けられている。そしてサンプリングテーブルデータ１２５には、各カラムに、インデックス「０～２４９９」の２５００行のデータが登録されている。

【0131】

このようなサンプリングテーブルデータ１２５を用いて２つの機械学習プログラム１２２ａ，１２２ｂそれぞれの動的スライシングを実行することができる。サンプリングテーブルデータ１２５は、テーブルデータ１２１からデータ量が削減されており、動的スライシングに要する時間が短縮される。しかも複数の機械学習プログラム１２２ａ，１２２ｂに対して１つのサンプリングテーブルデータ１２５が生成されており、機械学習プログラム１２２ａ，１２２ｂごとにサンプリングデータを生成する場合に比べ、全体のデータ量が削減される。

【0132】

またサンプリングテーブルデータ１２５が１つで済むことで、機械学習プログラム１２２ａ，１２２ｂの動的スライシングを連続で実施する場合に、サンプリングテーブルデータ１２５のメモリ１０２への読み込みが１回で済む。その結果、機械学習プログラム１２２ａ，１２２ｂの動的スライシングが効率的となる。

【0133】

また第３の実施の形態では、テーブルデータ１２１からのデータ抽出処理時間が短縮される。すなわち第２の実施の形態では、機械学習プログラムの数だけサンプリングテーブルデータを用意する。そのため、機械学習プログラムの数に比例してデータサンプリング処理の工数が増加する。それに対して、第３の実施の形態では、機械学習プログラムの数に関係なく、データサンプリング処理は１回だけで済む。そのためデータ抽出処理時間が短くてすむ。

【0134】

なお第３の実施の形態のサンプリングテーブルデータ１２５は、第２の実施の形態のように機械学習プログラムごとに最適化した個々のサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・と比較するとデータ量は大きくなる可能性がある。ただし、一般的に同じテーブルデータを入力とするタスクにおけるデータ操作の多様性は大きくない。そのため、個別最適化したサンプリングテーブルデータ１２４ａ，１２４ｂ，・・・と比較し、サンプリングテーブルデータ１２５のデータ量が大幅に大きくなる可能性は低い。

【0135】

〔その他の実施の形態〕
機械学習プログラムでは、学習用のデータとテスト用のデータとを入力データとする場合がある。その場合、例えば機械学習プログラムにおいて、複数のテーブルデータを纏めたＤａｔａＦｒａｍｅが定義される。

【0136】

図２３は、複数のテーブルデータを入力データとする機械学習プログラムの一例を示す図である。機械学習プログラム１２２ｃは、学習用のテーブルデータ「ｔｒａｉｎ．ｔｓｖ」とテスト用のテーブルデータ「ｔｅｓｔ．ｔｓｖ」とを入力データとしている。２つのテーブルデータは、ｃｏｎｃａｔ関数によって結合され、１つのＤａｔａＦｒａｍｅ「ｄｆ＿ａｌｌ」に纏められている。機械学習プログラム１２２ｃにおけるＤａｔａＦｒａｍｅ「ｄｆ＿ａｌｌ」内のデータに対する処理は、第２の実施の形態に示した機械学習プログラム１２２ａと同様である。

【0137】

この場合、機械学習プログラム１２２ｃに基づいて生成される依存ツリー３２は、機械学習プログラム１２２ａの依存ツリー３１のノード３１ｂ～３１ｊそれぞれに対応するノード３２ｄ～３２ｌに加え、３つのノード３２ａ～３２ｃを有している。ノード３２ａ，３２ｂは、２つの入力データそれぞれのＤａｔａＦｒａｍｅの定義である。ノード３２ｃは、２つの入力データを結合したデータのＤａｔａＦｒａｍｅの定義である。

【0138】

依存ツリー３２に基づいてｐａｎｄａｓ．ＤａｔａＦｒａｍｅのインスタンスを探索する場合、データサンプリング条件探索部１３２は、学習に使っているデータ（ｘ＿ｔｒａｉｎ，ｙ＿ｔｒａｉｎ）を示すノード３２ｌから、依存関係を上位に向かって辿る（太線の矢印）。

【0139】

入力がｔｒａｉｎとｔｅｓｔに分かれていて、それを結合（ｃｏｎｃａｔ）している場合は、結合するノード３２ｃに到達した時点で探索が終了となる。例えば、データサンプリング条件探索部１３２は、以下の２つの条件が共に満たされた場合に、探索を終了する。
・結合しているノードの上位に２つ以上のノードが接続されている。
・結合しているノードの上位のノードがそれ以上辿れない。

【0140】

図２３の例では、結合しているノード３２ｃの上位に２つのノード３２ａ，３２ｂがあり、ノード３２ａ，３２ｂは、いずれもそれ以上に上位に辿れない。このような場合、ノード３２ｃでｐａｎｄａｓ．ＤａｔａＦｒａｍｅの探索が終了し、ノード３２ｃに示されるｐａｎｄａｓ．ＤａｔａＦｒａｍｅ名「ｄｆ＿ａｌｌ」が操作対象として特定される。

【0141】

入力データが学習用のテーブルデータと評価用のテーブルデータの場合、データサンプリング部１３４は、学習用のテーブルデータからサンプリングデータの抽出を行う。その場合、データサンプリング部１３４は、例えば２つの入力データのデータサイズに基づいて、学習用のテーブルデータを判断することができる。すなわちデータサンプリング部１３４は、入力データのうちサイズの大きいほうが学習用のテーブルデータであると判断する。

【0142】

またデータサンプリング部１３４は、ファイル名から学習用のテーブルデータを判断することもできる。例えばデータサンプリング部１３４は、名称に「ｔｒａｉｎ」が含まれるテーブルデータを、学習用のテーブルデータであると判断する。

【0143】

もしくは、データサンプリング部１３４は、名称に「ｔｅｓｔ」もしくは「ｖａｌｉｄａｔｉｏｎ」が含まれるテーブルデータの場合、評価用のテーブルデータであると判断する。学習用もしくは評価用のテーブルデータであることが名称から明確に判断できなくても、いずれかのテーブルデータが明確となれば、データサンプリング部１３４は、もう一方のテーブルデータが学習用か評価用かを判断することができる。

【0144】

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

【符号の説明】

【0145】

１機械学習プログラム
２入力データ
３ラベルデータ情報
４抽出条件
５サンプリングデータ
１０情報処理装置
１１記憶部
１２処理部

【図1】