(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022179952
(43)【公開日】2022-12-06
(54)【発明の名称】管理装置、管理方法、及びプログラム
(51)【国際特許分類】
G06F 21/62 20130101AFI20221129BHJP
G06N 20/00 20190101ALI20221129BHJP
【FI】
G06F21/62
G06N20/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021086786
(22)【出願日】2021-05-24
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】前田 章吾
(57)【要約】
【課題】使用が許可されていないデータを機械学習に用いることによって学習モデルが生成されてしまう可能性を低減させることができる管理装置を提供すること。
【解決手段】本開示のにかかる管理装置10は、データセットに関連する少なくとも一つの付属情報を取得する取得部11と、データセットに取扱注意データが含まれているか否かを判定する判定モデルに付属情報を適用することによって、データセットに取扱注意データが含まれるか否かを判定する管理部12と、学習モデルを生成する際に、取扱注意データが含まれるデータセットが指定された場合に、学習モデルを生成するユーザの管理者権限に基づいて、学習モデルの生成においてデータセットの利用を許可するか否かを判定する監視部13と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
データセットに関連する少なくとも一つの付属情報を取得する取得部と、
前記データセットに取扱注意データが含まれているか否かを判定する判定モデルに前記付属情報を適用することによって、前記データセットに前記取扱注意データが含まれるか否かを判定する管理部と、
学習モデルを生成する際に、前記取扱注意データが含まれる前記データセットが指定された場合に、前記学習モデルを生成するユーザの管理者権限に基づいて、前記学習モデルの生成において前記データセットの利用を許可するか否かを判定する監視部と、を備える管理装置。
【請求項2】
前記管理部は、
前記付属情報を用いた決定木分析を行うことによって前記データセットに前記取扱注意データが含まれるか否かを判定する、請求項1に記載の管理装置。
【請求項3】
前記管理部は、
前記データセットの識別情報と、前記データセットに前記取扱注意データが含まれるか否かを示すフラグ情報とを関連付けて管理する、請求項1又は2に記載の管理装置。
【請求項4】
前記監視部は、
前記学習モデルを生成するユーザの管理レベルに関する情報を受け取り、前記ユーザの管理レベルが、指定された前記データセットに関連付けられた管理レベルよりも高い場合に、前記ユーザに対する前記データセットの利用を許可する、請求項1乃至3のいずれか1項に記載の管理装置。
【請求項5】
前記データセットに対して行われた前処理もしくは加工処理に関するデータ処理情報を取得するデータ加工処理管理部をさらに備え、
前記データ加工処理管理部は、
前記前処理もしくは前記加工処理が実行される前の処理前データセット及び前記前処理もしくは前記加工処理が実行された後の処理後データセットの少なくとも一方を、前記付属情報と関連付けて管理する、請求項1乃至4のいずれか1項に記載の管理装置。
【請求項6】
出力する結果の精度が閾値よりも高い学習モデルにのみ用いられた、前記データセットに関連付けられた前記前処理もしくは前記加工処理が存在するか否かを判定する学習モデル管理部をさらに備える、請求項5に記載の管理装置。
【請求項7】
出力する結果の精度が閾値よりも高い学習モデルにのみ用いられた、前記データセットに関連付けられた前記付属情報が存在するか否かを判定する学習モデル管理部をさらに備える、請求項1乃至5のいずれか1項に記載の管理装置。
【請求項8】
データセットに関連する少なくとも一つの付属情報を取得し、
前記データセットに取扱注意データが含まれているか否かを判定する判定モデルに前記付属情報を適用することによって、前記データセットに前記取扱注意データが含まれるか否かを判定し、
学習モデルを生成する際に、前記取扱注意データが含まれる前記データセットが指定された場合に、前記学習モデルを生成するユーザの管理者権限に基づいて、前記学習モデルの生成において前記データセットの利用を許可するか否かを判定する、管理方法。
【請求項9】
データセットに関連する少なくとも一つの付属情報を取得し、
前記データセットに取扱注意データが含まれているか否かを判定する判定モデルに前記付属情報を適用することによって、前記データセットに前記取扱注意データが含まれるか否かを判定し、
学習モデルを生成する際に、前記取扱注意データが含まれる前記データセットが指定された場合に、前記学習モデルを生成するユーザの管理者権限に基づいて、前記学習モデルの生成において前記データセットの利用を許可するか否かを判定することをコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は管理装置、管理方法、及びプログラムに関する。
【背景技術】
【0002】
近年、データの分析に機械学習を用いることが広く普及している。例えば、特許文献1には、データセットに基づいて学習モデルを生成し、生成した学習モデルを実装する機械学習システムの構成が開示されている。ユーザは、グラフィカルユーザインターフェイスを介して機械学習システムへアクセスし、機械学習システムを利用する。特許文献1に開示された機械学習システムにおいては、複数のカテゴリを含むデータセットをインポートして機械学習を実行することによって学習モデルを生成する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示された機械学習システムは、データセットをインポートして学習モデルを生成する際に、ユーザから指定されたカテゴリのデータセットを削除する。しかし、ユーザは、生成される学習モデルに対して不要とみなされるカテゴリを指定して削除するが、学習モデルを生成するために使用することが許可されているか否かの観点からカテゴリを削除することはない。また、ユーザが、学習モデルの生成に使用することができないカテゴリを削除する場合であっても、ユーザの判断は主観的であり、削除すべきカテゴリのデータを、誤って学習モデルの作成に使用してしまう可能性があるという問題がある。
【0005】
本開示の目的の一つは、使用が許可されていないデータを機械学習に用いることによって学習モデルが生成されてしまう可能性を低減させることができる管理装置、管理方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示の第1の態様にかかる管理装置は、データセットに関連する少なくとも一つの付属情報を取得する取得部と、前記データセットに取扱注意データが含まれているか否かを判定する判定モデルに前記付属情報を適用することによって、前記データセットに前記取扱注意データが含まれるか否かを判定する管理部と、学習モデルを生成する際に、前記取扱注意データが含まれる前記データセットが指定された場合に、前記学習モデルを生成するユーザの管理者権限に基づいて、前記学習モデルの生成において前記データセットの利用を許可するか否かを判定する監視部と、を備える。
【0007】
本開示の第2の態様にかかる管理方法は、データセットに関連する少なくとも一つの付属情報を取得し、前記データセットに取扱注意データが含まれているか否かを判定する判定モデルに前記付属情報を適用することによって、前記データセットに前記取扱注意データが含まれるか否かを判定し、学習モデルを生成する際に、前記取扱注意データが含まれる前記データセットが指定された場合に、前記学習モデルを生成するユーザの管理者権限に基づいて、前記学習モデルの生成において前記データセットの利用を許可するか否かを判定する。
【0008】
本開示の第3の態様にかかるプログラムは、データセットに関連する少なくとも一つの付属情報を取得し、前記データセットに取扱注意データが含まれているか否かを判定する判定モデルに前記付属情報を適用することによって、前記データセットに前記取扱注意データが含まれるか否かを判定し、学習モデルを生成する際に、前記取扱注意データが含まれる前記データセットが指定された場合に、前記学習モデルを生成するユーザの管理者権限に基づいて、前記学習モデルの生成において前記データセットの利用を許可するか否かを判定することをコンピュータに実行させる。
【発明の効果】
【0009】
本開示により、使用が許可されていないデータを機械学習に用いることによって学習モデルが生成されてしまう可能性を低減させることができる管理装置、管理方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【0010】
【
図1】実施の形態1にかかる管理装置の構成図である。
【
図2】実施の形態2にかかる管理装置の構成図である。
【
図3】実施の形態2にかかるメタデータ管理情報を示す図である。
【
図4】実施の形態2にかかるメタデータ管理情報を示す図である。
【
図5】実施の形態2にかかるデータ処理情報を示す図である。
【
図6】実施の形態2にかかる学習モデル管理情報を示す図である。
【
図7】実施の形態2にかかる取扱注意データが含まれているか否かに関する判定処理の流れを示す図である。
【
図8】実施の形態2にかかるデータセットに対する処理に関する情報を格納する処理の流れを示す図である。
【
図9】実施の形態2にかかる機械学習モデルの生成処理の流れを示す図である。
【
図10】実施の形態2にかかる機械学習モデルの分析処理の流れを示す図である。
【
図11】実施の形態2にかかる監視処理の流れを示す図である。
【
図12】それぞれの実施の形態にかかる管理装置の構成図である。
【発明を実施するための形態】
【0011】
(実施の形態1)
以下、図面を参照して本開示の実施の形態について説明する。
図1を用いて実施の形態1にかかる管理装置10の構成例について説明する。管理装置10は、プロセッサがメモリに格納されたプログラムを実行することによって動作するコンピュータ装置であってもよい。例えば、管理装置10は、サーバ装置等であってもよい。
【0012】
管理装置10は、取得部11、管理部12、及び監視部13を有している。取得部11、管理部12、及び監視部13は、プロセッサがメモリに格納されたプログラムを実行することによって処理が実行されるソフトウェアもしくはモジュールであってもよい。または、取得部11、管理部12、及び監視部13は、回路もしくはチップ等のハードウェアであってもよい。
【0013】
取得部11は、データセットに関連する少なくとも一つの付属情報を取得する。データセットは、例えば、画像データ、映像データ、もしくはテキストデータ等であってもよい。また、データセットには、画像データ、映像データ、及びテキストデータ等のうちの2以上のデータが含まれてもよい。付属情報は、例えば画像データ、映像データ、もしくはテキストデータ等を示す、データセットの属性を示す情報であってもよく、具体的には、データセットの種類もしくはサイズ等を示す情報であってもよい。付属情報は、例えば、メタデータと称されてもよい。付属情報は、例えば、管理装置10を管理するユーザによって生成された情報であってもよく、データセットを管理する管理装置10において自律的に生成された情報であってもよい。
【0014】
管理部12は、データセットに取扱注意データが含まれているか否かを判定する判定モデルに付属情報を適用することによって、データセットに取扱注意データが含まれるか否かを判定する。取扱注意データは、例えば、電話番号、住所、名前、生年月日等の、個人を特定することが可能な個人情報であってもよい。もしくは、取扱注意データは、企業内において特定の者のみが閲覧することができるデータ等であってもよい。
【0015】
判定モデルは、例えば、決定木(decision tree)を用いた分析を実行する分析モデルもしくは予測モデルであってもよい。分析手法は、決定木を用いた分析に限定されず、他のアルゴリズム等が用いられてもよい。判定モデルは、例えば、取扱注意データに該当するか否かを目的変数に設定し、データセットに関する付属情報を説明変数に設定することによって、付属情報に関連するデータセットに取扱注意データが含まれているか否かを判定する。
【0016】
監視部13は、学習モデルを生成する際に、取扱注意データが含まれるデータセットが指定された場合に、学習モデルを生成するユーザの管理者権限に基づいて、学習モデルの生成においてデータセットの利用を許可するか否かを判定する。
【0017】
学習モデルは、例えば、機械学習を実行することによって生成された学習モデルであってもよく、深層学習もしくは強化学習等を行うことによって生成された学習モデルであってもよい。学習モデルは、指定されたデータセットを学習することによって生成される。学習モデルが出力する結果の精度は、学習に用いられるデータもしくはデータセットの選択、データセットもしくはデータに対する処理、学習の回数、学習方法の組み合わせ等により変化する。
【0018】
管理者権限とは、ユーザが学習モデルを生成する際に指定したデータセットに含まれる取扱注意データを利用する権限を有するか否かを示す情報であってもよい。例えば、ユーザが学習モデルを生成する際に、ユーザの識別情報を管理装置10に入力してもよい。この場合、監視部13は、ユーザが指定したデータセットに取扱注意データが含まれている場合であって、ユーザが取扱注意データを利用する権限を有さない場合、ユーザが指定したデータセットの使用を拒否する。つまり、監視部13は、ユーザが学習モデルを生成する際に、ユーザが利用する権限を有するデータのみを使用しているか否かを監視する。
【0019】
以上説明したように、実施の形態1にかかる管理装置10は、学習モデルに生成されるデータセットごとに取扱注意データが含まれているか否かを判定する。これによって、管理装置10は、様々なデータセットを用いて学習モデルが生成される際に、取扱注意データが含まれるデータセットが使用されることを検出することができる。
【0020】
(実施の形態2)
続いて、
図2を用いて実施の形態2にかかる管理装置20の構成例について説明する。管理装置20は、
図1の管理装置10に相当する。管理装置20は、取得部21、メタデータ管理部22、データ利用監視部23、データ加工処理管理部24、学習モデル管理部25、記憶部26、及び表示部27を有している。取得部21は、
図1の取得部11に相当する。メタデータ管理部22は、
図1の管理部12に相当する。データ利用監視部23は、
図1の監視部13に相当する。管理装置20の構成要素は、プロセッサがメモリに格納されたプログラムを実行することによって処理が実行されるソフトウェアもしくはモジュールであってもよい。または、管理装置20の構成要素は、回路もしくはチップ等のハードウェアであってもよい。
【0021】
取得部21は、機械学習モデルを生成するために用いられるデータセットの識別情報及びデータセットのメタデータをメタデータ管理部22へ出力する。データセットの識別情報は、データセットを一意に識別することが可能な情報である。例えば、データセットがファイル形式で示される場合、ファイル名称であってもよい。メタデータは、例えば、データセットの登録者名、データ型、データ長、カラム名、及びデータ所在、等であってもよい。機械学習モデルを生成するために用いられるデータセットは、例えば、管理装置20と異なる装置に格納されていてもよく、管理装置20内に格納されていてもよい。そのため、データ所在とは、データセットが格納されている装置名もしくは装置のアドレス情報等であってもよい。また、データセットが管理装置20内に格納されている場合、データセットが格納されているフォルダ名、メモリ位置等を示す情報であってもよい。
【0022】
登録者名は、データセットを管理装置20内もしくは管理装置20とは異なる装置に登録したユーザを識別する情報であってもよい。登録者名は、データセットを生成したユーザであってもよい。データ型は、例えばプログラミング言語がデータセットを扱う際のデータ型であってもよい。もしくは、データ型は、データセットに含まれるデータの種類等を示す情報であってもよい。データの種類は、例えば、画像データ、映像データ、もしくはテキストデータ等を示す情報であってもよい。データの種類は、データの属性と言い換えられてもよい。データ長は、データサイズ等と言い換えられてもよい。カラム名は、例えば、表形式において管理されているデータのそれぞれの列において管理されている項目名であってもよい。
【0023】
さらに、取得部21は、データセットに対して行われた処理に関する情報をデータ加工処理管理部24へ出力する。データセットに対して行われた処理に関する情報とは、例えば、前処理もしくは加工処理の内容を示す情報もしくはパラメータであってもよく、前処理もしくは加工処理を実行するためのプログラムを識別する情報もしくはパラメータであってもよい。以下において、情報との用語は、パラメータと言い換えられてもよい。
【0024】
前処理もしくは加工処理の内容を示す情報は、例えば、データセットに対して行われた演算処理の内容であってもよい。前処理もしくは加工処理は、データセットに含まれるデータの補正もしくは削除であってもよく、データセットに対するさらなるデータの追加等であってもよい。さらに、データセットに対して行われた処理に関する情報は、処理前データ及び処理後データの識別情報を含み、さらに、処理前データ及び処理後データのそれぞれの所在を示す情報が含まれてもよい。処理前データは、前処理もしくは加工処理が実行される前のデータであり、処理後データは、前処理もしくは加工処理が実行された後のデータである。
【0025】
メタデータ管理部22は、取得部21から受け取ったメタデータを用いて、データセットに取扱注意データが含まれているか否かを判定する。例えば、メタデータ管理部22は、データセットに取扱注意データが含まれているか否かを判定するための判定モデルとして決定木を用いる。決定木を用いた判定処理は、決定木分析と言い換えられてもよい。例えば、メタデータ管理部22は、予めサンプルデータを用いて決定木を作成していてもよい。サンプルデータには、取扱注意データに該当するか否かに関する情報、及びメタデータが関連付けられていてもよい。メタデータ管理部22は、取扱注意データに該当するか否かを目的変数とし、メタデータを用いてサンプルデータを分類する決定木を生成する。
【0026】
例えば、メタデータ管理部22は、データ型がAであるサンプルデータのうち、取扱注意データに該当するサンプルデータの数と、取扱注意データに該当しないサンプルデータの数を特定する。さらに、データ型がBであるサンプルデータのうち、取扱注意データに該当するサンプルデータの数と、取扱注意データに該当しないサンプルデータの数を特定する。さらに、メタデータ管理部22は、データ型がAであり、データ長がNバイト以上のサンプルデータのうち、取扱注意データに該当するサンプルデータの数と、取扱注意データに該当しないサンプルデータの数を特定する。さらに、メタデータ管理部22は、データ型がAであり、データ長がNバイト未満のサンプルデータのうち、取扱注意データに該当するサンプルデータの数と、取扱注意データに該当しないサンプルデータの数を特定する。このようにして、メタデータ管理部22は、複数のメタデータを用いてサンプルデータを分類することによって、複数の階層を有する決定木を生成することができる。
【0027】
メタデータ管理部22は、データセットに取扱注意データが含まれていると判定した場合、データセットに関連付けられたメタデータ及び識別情報と、取扱注意データが含まれていることを示すフラグ情報とを関連付ける。また、メタデータ管理部22は、データセットに取扱注意データが含まれていないと判定した場合、データセットのメタデータ及び識別情報と、取扱注意データが含まれていないことを示すフラグ情報とを関連付ける。メタデータ管理部22は、データセットのメタデータ、識別情報、及びフラグ情報を関連付けて記憶部26へ格納する。格納するとは、記録する、記憶する、保存する等と言い換えられてもよい。
【0028】
例えば、メタデータ管理部22は、
図3に示すようにデータセットの識別情報、データ型、データ長、カラム名、データ所在、及びフラグ情報を関連付けて、メタデータ管理情報として記憶部26へ格納してもよい。フラグ情報に設定される1は、取扱データが含まれていることを示し、0は、取扱データが含まれていないことを示す。データ長に設定されるN1~N3は、それぞれ、バイト数を示してもよい。データ型及びカラム名に設定される情報は、それぞれ、データ型及びカラム名を識別する情報である。データ所在に設定される情報は、例えば、装置名であってもよい。
【0029】
データ加工処理管理部24は、取得部21から受け取ったデータセットに対して行われた処理に関する情報に含まれる処理前データ及び処理後データの識別情報と、記憶部26に格納されているメタデータ管理情報とを比較する。データ加工処理管理部24は、例えば、加工処理を実行するプログラムがP1であり、処理前データがD1であり、処理後データがD2とする情報を受け取ったとする。処理前データD1及び処理後データD2は、
図3に示されるように、メタデータ管理情報として記憶部26に格納されている。この場合、データ加工処理管理部24は、
図4に示すように、
図3に示されるメタデータ管理情報に、さらに関連データに関する項目を追加し、データセットD1及びデータセットD2を関連付けてもよい。具体的には、データセットD1の関連データの項目にD2を設定し、データセットD2の関連データの項目にD1を設定してもよい。さらに、データ加工処理管理部24は、
図5に示す、加工処理を実行するプログラム、処理前データ、及び処理後データを関連付けたデータ処理情報を、記憶部26に格納する。プログラムの項目は、例えば、前処理もしくは加工処理の内容を示す値が設定されてもよい。
【0030】
図2に戻り、学習モデル管理部25は、データ利用監視部23を介して、記憶部26に格納されているメタデータ管理情報の中から機械学習モデルを生成するために用いられるデータセットを選択する。さらに、学習モデル管理部25は、選択したデータセットのデータ所在である他の装置から、データセットをダウンロードする。例えば、学習モデル管理部25は、管理装置20の通信インタフェース及びネットワークを介して、他の装置からデータセットをダウンロードする。
【0031】
学習モデル管理部25は、ダウンロードしたデータセットを用いて機械学習モデルを生成する。機械学習モデルは、ダウンロードしたデータセットを学習データとして機械学習を行うことによって生成される学習モデルである。学習モデル管理部25は、例えば、画像認識、イベントの来場者予測等、様々な分野において用いられる機械学習モデルを生成してもよい。機械学習モデルは、特定の目的変数を求めるために用いられる学習モデルである。
【0032】
学習モデル管理部25は、例えば
図6に示されるように、生成した機械学習モデルの識別情報と、機械学習モデルの目的変数と、機械学習モデルを生成するために用いたデータセットとを関連付けて、学習モデル管理情報として記憶部26へ格納する。
【0033】
データ利用監視部23は、学習モデル管理部25において機械学習モデルが生成される際に、学習モデル管理部25が選択したデータセットに、取扱注意データが含まれていることを示すフラグが設定されているか否かを判定する。さらに、データ利用監視部23は、学習モデル管理部25が、取扱注意データが含まれていることを示すフラグが設定されているデータセットを選択した場合に、機械学習モデルを生成する利用者が、データセットの管理者権限を有するか否かを判定する。
【0034】
データ利用監視部23は、データセットの識別情報と、当該データセットを利用可能な管理レベルとを関連付けて管理していてもよい。さらに、データ利用監視部23は、学習モデル管理部25から、機械学習モデルを生成する利用者に許可されている管理レベルに関する情報を取得してもよい。データ利用監視部23は、学習モデル管理部25から受け取った管理レベルが、当該データセットを利用可能な管理レベルよりも高い場合、取扱注意データが含まれているデータセットの利用を許可する。データ利用監視部23は、学習モデル管理部25から受け取った管理レベルが、当該データセットを利用可能な管理レベルよりも低い場合、学習モデル管理部25に対して取扱注意データが含まれているデータセットの利用を許可しない。
【0035】
学習モデル管理部25は、データ利用監視部23を介して、記憶部26に格納されているデータセットの識別情報を選択する。そのため、データ利用監視部23は、取扱注意データが含まれているデータセットの利用を許可しない場合、学習モデル管理部25に対して、データセットの所在を通知しないようにしてもよい。もしくは、データ利用監視部23は、取扱注意データが含まれているデータセットの利用を許可しない場合、学習モデル管理部25に対して、選択したデータセットの利用を許可しないことを示すメッセージを出力してもよい。また、データ利用監視部23は、取扱注意データが含まれているデータセットの利用を許可しないことを表示部27へ表示させてもよい。さらに、データ利用監視部23は、取扱注意データが含まれているデータセットの利用を許可する場合にも、取扱注意データが含まれていること表示部27へ表示させてもよい。
【0036】
次に、
図7を用いて、メタデータ管理部22において実行される取扱注意データが含まれているか否かに関する判定処理の流れについて説明する。はじめに、メタデータ管理部22は、機械学習モデルの生成に用いられるデータセットのメタデータとして、登録者名、データ型、データ長、カラム名、及びデータ所在に関する情報を取得部21から受け取る(S11)。
【0037】
次に、メタデータ管理部22は、メタデータを用いた決定木分析を行う(S12)。メタデータ管理部22は、メタデータのうち少なくとも一つを用いて決定木分析を行う。
【0038】
メタデータ管理部22は、決定木分析を行った結果、データセットに取扱注意データが含まれると判定した場合、取扱注意データを含むデータセットの識別情報に、取扱注意データを含むことを示すフラグを設定する(S13)。
【0039】
次に、メタデータ管理部22は、データセットの識別情報、メタデータ、及びフラグを関連付けたメタデータ管理情報を記憶部26へ格納する(S14)。
【0040】
次に、メタデータ管理部22は、ステップS12において実行された判定結果を判定モデルである決定木に反映する(S15)。例えば、ユーザによって、ステップS12における判定結果が誤っていると認識された場合、メタデータ管理部22は、ユーザから入力される、判定結果が誤りであることを示す情報を受け付ける。例えば、メタデータ管理部22は、ステップS12において使用したメタデータを用いた場合に、取扱注意データが含まれるデータの数もしくは取扱注意データが含まれないデータの数を修正する。
【0041】
ステップS12において、メタデータ管理部22は、決定木分析を行った結果、データセットに取扱注意データが含まれないと判定した場合、ステップS14以降の処理を実行する。この場合、フラグには例えば0が設定されてもよい。
【0042】
続いて、
図8を用いて実施の形態2にかかるデータ加工処理管理部24におけるデータセットに対する処理に関する情報を記憶部26へ格納する処理の流れについて説明する。
【0043】
はじめに、データ加工処理管理部24は、取得部21から、データセットの登録者名、及びデータセットに対する処理に関する情報を受け取る(S21)。
【0044】
次に、データ加工処理管理部24は、データセットに対して行われた処理に関する情報に含まれる、処理前データもしくは処理後データの識別情報が、記憶部26において管理されているか否かを判定する(S22)。具体的には、データ加工処理管理部24は、処理前データもしくは処理後データの識別情報が、
図3において説明した、メタデータ管理部22によって記憶部26に格納されたメタデータ管理情報に含まれるデータセットの識別情報と一致するか否かを判定する。
【0045】
データ加工処理管理部24は、処理前もしくは処理後データの識別情報が、メタデータ管理情報に含まれると判定した場合、処理前データもしくは処理後データを用いてメタデータ管理情報を更新する(S23)。具体的には、
図4に示されるように、データ加工処理管理部24は、処理前データの識別情報と同一の識別情報が、メタデータ管理情報に含まれている場合、その識別情報に、処理後データの識別情報を関連付ける。また、データ加工処理管理部24は、処理後データの識別情報が、メタデータ管理情報に含まれている場合、その識別情報に、処理前データの識別情報を関連付ける。
【0046】
次に、データ加工処理管理部24は、処理前データもしくは処理後データの識別情報を関連付けた
図4に示すメタデータ管理情報を記憶部26に格納する(S24)。
【0047】
次に、データ加工処理管理部24は、データセットに対する処理に関する情報を記憶部26に格納する。具体的には、データ加工処理管理部24は、
図5に示すように、処理前データと、前処理もしくは加工処理を実行するためのプログラムと、処理後データとを関連付けた情報を記憶部26に格納する。前処理もしくは加工処理を実行するためのプログラムの他に、処理内容等が関連付けられてもよい。
【0048】
続いて、
図9を用いて実施の形態2にかかる学習モデル管理部25において実行される機械学習モデルの生成処理の流れについて説明する。
【0049】
はじめに、学習モデル管理部25は、データ利用監視部23を介して記憶部26に格納されているデータセットの識別情報を選択する(S31)。例えば、学習モデル管理部25は、データ利用監視部23を介して、記憶部26に格納されているデータセットの識別情報のリストを取得し、データセットの識別情報を選択してもよい。
【0050】
次に、学習モデル管理部25は、選択したデータセットの識別情報に関連付けられているデータの所在に示されている装置へアクセスし、データセットをダウンロードする(S32)。次に、学習モデル管理部25は、ダウンロードしたデータセットを用いて機械学習モデルを生成する(S33)。
【0051】
次に、学習モデル管理部25は、生成した機械学習モデルの識別情報と、機械学習モデルを生成するために用いたデータセットの識別情報とを関連付けた学習モデル管理情報を記憶部26へ格納する(34)。具体的には、学習モデル管理部25は、
図6に示される、学習モデルの識別情報と、その学習モデルの目的変数と、データセットの識別情報とを関連付けた学習モデル管理情報を記憶部26に格納する。
【0052】
続いて、
図10を用いて、学習モデル管理部25において実行される機械学習モデルの分析処理の流れについて説明する。
【0053】
はじめに、学習モデル管理部25は、記憶部26に、同じ目的変数を有する機械学習モデルが存在するか否かを判定する(S41)。同じ目的変数を有する機械学習モデルは、同じ目的に用いられる機械学習モデルであり、それぞれの機械学習モデルを生成するために用いられたデータセットが異なっていてもよい。
【0054】
学習モデル管理部25は、同じ目的変数を有する機械学習モデルが存在すると判定した場合、出力する値の精度が高い機械学習モデルのみに用いられたデータセットに関連付けられたデータ処理が存在するか否かを判定する(S42)。例えば、ユーザ等が、機械学習モデルから出力される値の精度を評価し、それぞれの機械学習モデルのスコアを決定していてもよい。スコアは、例えば、機械学習モデルを用いた物体の認識結果、もしくは予測結果等が正しく出力される割合等に基づいて決定されてもよい。学習モデル管理部25は、例えば、スコアが閾値以上の機械学習モデルのみに用いられたデータセットを抽出し、さらに、
図5に示されるデータ処理情報を用いて、抽出したデータセットに関連付けられた前処理もしくは加工処理の内容等を特定してもよい。
【0055】
学習モデル管理部25は、例えば、出力する値の精度が高い機械学習モデルのみに用いられたデータセットに関連付けられたデータ処理が存在すると判定した場合、
図5に示されるデータ処理情報に、要因フラグを設定する(S43)。例えば、学習モデル管理部25は、ステップS42において抽出したデータ処理情報のレコードに、機械学習モデルの出力精度を向上させる要因であることを示すフラグを設定してもよい。
【0056】
次に、学習モデル管理部25は、出力する値の精度が高い機械学習モデルのみに用いられたデータセットに関連付けられたメタデータが存在するか否かを判定する(S44)。学習モデル管理部25は、例えば、スコアが閾値以上の機械学習モデルのみに用いられたデータセットを抽出し、さらに、
図4に示されるメタデータ管理情報を用いて、抽出したデータセットに関連付けられたメタデータを特定してもよい。
【0057】
学習モデル管理部25は、例えば、出力する値の精度が高い機械学習モデルのみに用いられたデータセットに関連付けられたメタデータが存在すると判定した場合、
図4に示されるメタデータ管理情報に、要因フラグを設定する(S45)。例えば、学習モデル管理部25は、ステップS44において抽出したメタデータ管理情報のレコードに、機械学習モデルの出力精度を向上させる要因を示すフラグを設定してもよい。
【0058】
ステップS42において、学習モデル管理部25は、例えば、出力する値の精度が高い機械学習モデルのみに用いられたデータセットに関連付けられたデータ処理が存在しないと判定した場合、ステップS44の処理を実行する。ステップS41において、学習モデル管理部25は、同じ目的変数を有する機械学習モデルが存在しないと判定した場合、処理を終了する。ステップS44において、学習モデル管理部25は、出力する値の精度が高い機械学習モデルのみに用いられたデータセットに関連付けられたメタデータが存在しないと判定した場合、処理を終了する。
【0059】
続いて、
図11を用いて実施の形態2にかかるデータ利用監視部23において実行される監視処理の流れについて説明する。
【0060】
初めに、データ利用監視部23は、学習モデル管理部25が機械学習モデルを生成するために指定したデータセットに取扱注意データが含まれるか否かを判定する(S51)。例えば、データ利用監視部23は、メタデータ管理情報のフラグ情報を確認して、学習モデル管理部25によって指定されたデータセットに取扱注意データが含まれているか否かを判定してもよい。
【0061】
データ利用監視部23は、指定されたデータセットに取扱注意データが含まれていると判定した場合、ユーザがデータセットを利用するための管理者権限を有するか否かを判定する(S52)。データ利用監視部23は、例えば、学習モデル管理部25から受け取った利用者の管理レベルが、指定されたデータセットを利用可能な管理レベルよりも高いか否かを判定することによって、管理者権限を有するか否かを判定してもよい。
【0062】
データ利用監視部23は、ユーザがデータセットを利用するための管理者権限を有すると判定した場合、ユーザが指定したデータセットに取扱注意データが含まれていることを表示部27に表示する(S53)。データ利用監視部23は、ユーザがデータセットを利用するための管理者権限を有していないと判定した場合、学習モデル管理部25によるデータセットの利用を拒否する(S54)。
【0063】
ステップS51において、データ利用監視部23は、指定されたデータセットに取扱注意データが含まれていないと判定した場合、処理を終了する。
【0064】
以上説明したように、実施の形態2にかかる管理装置20は、機械学習モデルを生成するために指定されたデータセットに取扱注意データが含まれている場合、指定されたデータセットを機械学習モデルの生成に使用することを拒否することができる。データセットに取扱注意データが含まれているか否かは、メタデータを用いた決定木分析によって判定される。これにより、ユーザの主観的判断に依存することなく、データセットに取扱注意データが含まれているか否かが判定されるため、機械学習モデルの生成に取扱注意データを使用することを回避することができる。
【0065】
さらに、管理装置20は、機械学習モデルが出力する値の精度を向上させる要因となるデータ処理もしくはメタデータを特定することができる。これにより、機械学習モデルのノウハウを効率的に蓄積することができる。
【0066】
図12は、管理装置10及び管理装置20(以下、管理装置10等とする)の構成例を示すブロック図である。
図12を参照すると、管理装置10等は、ネットワークインタフェース1201、プロセッサ1202、及びメモリ1203を含む。ネットワークインタフェース1201は、ネットワークノード(e.g., eNB、MME、P-GW、)と通信するために使用されてもよい。ネットワークインタフェース1201は、例えば、IEEE 802.3 seriesに準拠したネットワークインタフェースカード(NIC)を含んでもよい。ここで、eNBはevolved Node B、MMEはMobility Management Entity、P-GWはPacket Data Network Gatewayを表す。IEEEは、Institute of Electrical and Electronics Engineersを表す。
【0067】
プロセッサ1202は、メモリ1203からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された管理装置10等の処理を行う。プロセッサ1202は、例えば、マイクロプロセッサ、MPU、又はCPUであってもよい。プロセッサ1202は、複数のプロセッサを含んでもよい。
【0068】
メモリ1203は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1203は、プロセッサ1202から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1202は、図示されていないI/O(Input/Output)インタフェースを介してメモリ1203にアクセスしてもよい。
【0069】
図12の例では、メモリ1203は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1202は、これらのソフトウェアモジュール群をメモリ1203から読み出して実行することで、上述の実施形態において説明された管理装置10等の処理を行うことができる。
【0070】
図12を用いて説明したように、上述の実施形態における管理装置10等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1又は複数のプログラムを実行する。
【0071】
上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
【0072】
なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0073】
10 管理装置
11 取得部
12 管理部
13 監視部
20 管理装置
21 取得部
22 メタデータ管理部
23 データ利用監視部
24 データ加工処理管理部
25 学習モデル管理部
26 記憶部
27 表示部