(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025050108
(43)【公開日】2025-04-04
(54)【発明の名称】評価プログラム、方法、及び装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20250327BHJP
G06N 3/09 20230101ALI20250327BHJP
【FI】
G06N20/00 130
G06N3/09
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023158719
(22)【出願日】2023-09-22
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】村上 勝彦
(57)【要約】
【課題】統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行う。
【解決手段】訓練部12が、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、生成部14が、複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、予測部16が、複数の評価用データに対する、第1機械学習モデル及び第2機械学習モデルの各々による予測結果を取得し、評価部18が、第1機械学習モデル及び第2機械学習モデルの各々の能力を示すパラメータと、複数の評価用データの正解ラベルを示すパラメータとを含み、第1機械学習モデル及び第2機械学習モデルの各々が予測結果を得る確率を表す確率モデルに予測結果を入力して最適化した際の能力を示すパラメータを、第2機械学習モデルの各々の能力を示す評価指標として出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータに実行させるための評価プログラム。
【請求項2】
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである請求項1に記載の評価プログラム。
【請求項3】
前記特徴を示すパラメータは、前記評価用データが、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む請求項2に記載の評価プログラム。
【請求項4】
前記第1機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも1つである
請求項1~請求項3のいずれか1項に記載の評価プログラム。
【請求項5】
前記複数の評価用データを生成することは、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも1つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択することを含む請求項1~請求項3のいずれか1項に記載の評価プログラム。
【請求項6】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータが実行する評価方法。
【請求項7】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練する訓練部と、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する生成部と、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する予測部と、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する評価部と、
を含む評価装置。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、評価プログラム、評価方法、及び評価装置に関する。
【背景技術】
【0002】
機械学習による入力値に対する推定値の信頼性を評価する方法が提案されている。この方法は、未学習の機械学習プログラムPに対し、複数の入力値と当該複数の入力値から経験的に得られた既知の出力値とを訓練データTDとして機械学習法による学習処理を実行する。また、この方法は、入力値から出力値を得る学習済みの推定モデルM1~Mnを複数生成し、生成した複数の学習済みの推定モデルM1~Mnのそれぞれに同じ入力値aを入力し、それぞれの推定モデルから出力値X1~Xnを得る。そして、この方法は、得られた複数の出力値の平均値Xmと標準偏差δXmとを求め、標準偏差δXmが小さい出力値ほど、入力値に対する出力値の信頼性が高いと評価する。
【0003】
また、自然言語処理等に関する機械学習モデルの評価に項目応答理論(IRT:Item Response Theory)が導入されている。IRTは、教育テストにおいて、受験者の能力とテスト問題の品質とを同時に評価する手法として広く使われている。機械学習モデルの評価にIRTを適用する場合、機械学習モデルの能力と、評価用データの特徴との両方を評価することができる。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Pedro Rodriguez, Phu Mon Htut, John Lalor, Joao Sedoc, "Clustering Examples in Multi-Dataset Benchmarks with Item Response Theory," In Proceedings of the Third Workshop on Insights from Negative Results in NLP, pages 100-112, Dublin, Ireland, Association for Computational Linguistics, May 2022.
【非特許文献2】Joao Sedoc and Lyle Ungar, "Item Response Theory for Efficient Human Evaluation of Chatbots," In Proceedings of the First Workshop on Evaluation and Comparison of NLP Systems, pages 21-33, Online, Association for Computational Linguistics, November 2020.
【発明の概要】
【発明が解決しようとする課題】
【0006】
機械学習モデルの評価には、正解ラベル付きのデータが必要であるが、この正解ラベル付きのデータは入手困難な場合も多い。例えば、バイオ分野等では、正解ラベル付きのデータを得るためには実験が必要であるが、これには限界があり、正解ラベル付きのデータを多数用意することは困難である。機械学習モデルの評価の際に入手可能な正解ラベル付きのデータの数が少ない場合、統計的に不十分で評価の信頼性が低くなる場合がある。
【0007】
また、機械学習モデルの評価を適切に行うためには、評価対象の機械学習モデルの訓練に用いられた訓練データセットとは異なるデータで評価することが望ましい。しかし、外部で開発され公開された機械学習モデルの場合、公開されている入手可能な正解ラベル付きデータが、その機械学習モデルの訓練に使われた可能性もある。また、外部で開発された機械学習モデルと、自分で開発した機械学習モデルとの比較等、複数の機械学習モデルの能力を比較評価する場合、複数の機械学習モデルに対して同じベンチマークデータセットを用いて評価することが望ましい。しかし、複数の機械学習モデルそれぞれが異なる訓練データセットで訓練されている場合や、訓練データセットが未公表で不明な場合もある。このような状況では、適切なベンチマークデータセットを用意して、複数の機械学習モデル間の公正な比較評価を行うことは困難である。
【0008】
一つの側面として、開示の技術は、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する。また、開示の技術は、前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する。そして、開示の技術は、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化する。確率モデルは、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含む。開示の技術は、確率モデルを最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する。
【発明の効果】
【0010】
一つの側面として、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことができる、という効果を有する。
【図面の簡単な説明】
【0011】
【
図2】機械学習モデル、問題、予測結果、及び正解ラベルの推定値を示す潜在変数の関係を説明するための図である。
【
図3】評価装置として機能するコンピュータの概略構成を示すブロック図である。
【
図4】評価処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
【0013】
図1に示すように、評価装置10には、正解ラベルが既知の複数の訓練データ(以下、「正解ラベル付きデータ」ともいう)を含む訓練データセットと、評価対象となる1以上の機械学習モデル(以下、「評価対象モデル」という)が入力される。正解ラベル付きデータは、開示の技術の「正解ラベル付きの訓練データ」の一例である。本実施形態では、機械学習モデルが対象とするタスクは分類問題であるとする。すなわち、機械学習モデルの出力は、2値分類の場合、例えば、0又は1であり、多値分類の場合、例えば、1、2、・・・、L(Lは正解ラベルの種類数)等の多値である。
【0014】
また、
図1に示すように、評価装置10は、機能的には、訓練部12と、生成部14と、予測部16と、評価部18とを含む。
【0015】
訓練部12は、訓練データセットを用いて、能力の異なる複数の機械学習モデルを訓練する。訓練部12により訓練される複数の機械学習モデルを、以下では「自作モデル」という。また、評価対象モデルと自作モデルとを区別なく説明する場合には、単に「機械学習モデル」ともいう。
【0016】
具体的には、訓練部12は、訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデルを自作モデルとしてよい。訓練の過程において、訓練が進むほど機械学習モデルの能力が上がる。そこで、訓練部12は、例えば、訓練の過程において、所定エポック数毎にスナップショット的に機械学習モデルを保存することにより、能力が異なる複数の自作モデルを生成する。
【0017】
なお、能力の異なる複数の自作モデルを生成する手法は、上記の例に限定されない。訓練部12は、初期値及びハイパーパラメータの少なくとも一方を異ならせて、すなわち学習ルートを変えて訓練された機械学習モデルを自作モデルとしてもよい。また、訓練部12は、機械学習モデル毎に、訓練データセットから選択した一部の正解ラベル付きデータを用いて訓練された機械学習モデルを自作モデルとしてもよい。また、これらの手法を組み合わせて訓練を行うことにより、能力の異なる複数の自作モデルを生成してもよい。
【0018】
後述するように、本実施形態では、複数の機械学習モデルを相対的に評価した評価指標が得られるため、生成される自作モデルに能力のばらつきがあることがポイントである。また、上記のような様々な手法を適用して、生成される複数の自作モデルに多様性を持たせることで、後述する各機械学習モデルの能力の推定を頑強に行うことができる。
【0019】
生成部14は、正解ラベル付きデータとの類似度が所定値以下で、かつ正解ラベルが未知の複数の問題を生成する。生成部14が生成する問題は、開示の技術の「評価用データ」の一例である。具体的には、生成部14は、ランダム生成、正解ラベル付きデータの少なくとも一部の変更、正解ラベル付きデータの少なくとも一部の削除、正解ラベル付きデータへの情報の付加等により問題候補を生成する。正解ラベル付きデータの少なくとも一部とは、例えば、生成部14は、問題が自然言語のテキストデータやアミノ酸配列等の場合、文字列の一部であり、問題が複数の属性についての属性値で構成される場合、一部の属性の属性値である。
【0020】
生成部14は、問題候補のうち、訓練データセットに含まれるいずれの正解ラベル付きデータとも類似度が所定値以下となる問題候補を選択することにより問題を生成する。例えば、生成部14は、問題が自然言語のテキストデータやアミノ酸配列等の場合、正解ラベル付きデータと問題とで一致する文字数の割合を類似度としてよい。また、生成部14は、正解ラベル付きデータ及び問題をそれぞれベクトルで表し、ベクトル間距離の逆数を類似度としてもよい。このような類似度が所定値以下となる問題を生成することで、正解ラベル付きデータとは独立とみなせる問題を生成することができる。
【0021】
予測部16は、生成部14により生成された複数の問題の各々に対する、自作モデル及び評価対象モデルの各々による予測結果を取得する。これは、IRTにおいて、受験者が問題に回答することに相当する。具体的には、予測部16は、問題の各々を自作モデル及び評価対象モデルの各々に入力し、自作モデル及び評価対象モデルの各々の出力を予測結果として取得する。
【0022】
評価部18は、機械学習モデルの能力を示すパラメータと、問題の正解ラベルを示すパラメータとを含み、機械学習モデルの各々が予測部16で取得された予測結果を得る確率を表す確率モデルを最適化する。そして、評価部18は、確率モデルを最適化した際の能力を示すパラメータを、評価対象モデルの能力を示す評価指標として推定する。
【0023】
ここで、本実施形態では、確率モデルに項目応答理論(IRT:Item Response Theory)を適用する。項目応答理論は項目反応理論ともいう。IRTは、評価項目群への応答に基づいて、認識能力、物理的能力、技術、知識、態度、人格特徴等の被験者の特性と、各評価項目の難易度及び識別力を測定するための試験理論である。この理論の主な特徴は、個人の能力値、項目の難易度等のパラメータを、評価項目への正誤のような離散的な結果から確率論的に求めようとする点である。例えば、受験者iが項目(小問)jで正答する確率pi,jを、下記(1)式に示すシグモイド関数でモデル化する。
【0024】
【0025】
θiは能力値パラメータであり、各受験者iの全体的に正答する能力の大きさを表す実数値である。能力値パラメータθiは、正答率、総得点等とは異なり、各問題の個性を踏まえて推定した間隔尺度である。ajは識別パラメータであり、問題jが受験者の能力を識別する分解能力を表す実数値である。bjは難易度(困難度)パラメータであり、問題jに対して受験者が正答することの難しさを表す実数値である。例えば、各問題に対して50%の正答率を持つ受験者の能力値としてよい。cjは偶然正答率パラメータであり、多肢選択形式の場合において、適当に選択肢を選択しても偶然正答する確率である。
【0026】
上記のような一般的なIRTにおいて、受験者を機械学習モデルとみなすことで、機械学習モデルの能力を評価可能である。しかし、一般的なIRTを適用した確率モデルでは、パラメータの最適化のために、問題に対する正解が必要である。上述したように、正解ラベル付きデータを多数用意することは容易ではない。そこで、本実施形態では、上記各パラメータθi、aj、bj、及びcjを同時に推定すると共に、問題の正解ラベルを示すパラメータ及び各機械学習モデルの予測結果が正解か否かを示すパラメータとを同時に推定する。
【0027】
具体的には、能力が低い機械学習モデルによる予測(回答)はランダム回答に近くなるとの仮説が立つ。一方、能力が高い機械学習モデルの多くが一致した回答を出力する場合、その問題の正解は、その一致した回答である可能性が高いとの仮説が立つ。この仮説をIRTに取り入れて定式化した確率モデルを設定すればよい。
【0028】
例えば、機械学習モデルの総数をn、問題の総数をmとする。また、問題(項目)jについて、機械学習モデルiの予測結果をxi,j(xi,j=1,2,・・・,L)、正解ラベルの推定値を示す潜在変数をzj(zj=1,2,・・・,L)とする。また、問題jに対する機械学習モデルiの予測結果が正当か誤答かを示す関数を、下記(2)式に示すようにΔi,jとする。この場合、n×m個のxi,jを得る確率Pは下記(3)式となる。
【0029】
【0030】
pj(θi)は、(1)式に示すIRT理論を用いた確率モデルである。評価部18は、(3)式に示す確率Pが最大となるようなパラメータzj、aj、bj、cj、及びθiを推定する。例えば、評価部18は、最尤法、ベイズ推定、マルコフ連鎖モンテカルロ法等の統計モデリングなどで確率Pを最大化し、パラメータzj、aj、bj、cj、及びθiを推定する。
【0031】
図2に、機械学習モデルi、問題j、予測結果x
i,j、正解ラベルの推定値を示す潜在変数z
jの関係を示す。x
i,jは、確率Pへの入力となる固定値である。z
jは、パラメータ最適化の過程において、動的に「1,2,・・・,L」の値を取り、学習収束時の最終的な値が正解ラベルの推定値となる。
【0032】
評価部18は、推定したパラメータのうち、評価対象モデルについての能力パラメータθiを評価結果として出力する。上記のように、確率モデルにIRT理論を応用することで、能力パラメータθiの推定値は、正解率のようなデータを固定したうえでの上限及び下限のある評価指標ではなく、機械学習モデル間を比較した場合の能力の差を相対的に表す指標となる。
【0033】
評価装置10は、例えば
図3に示すコンピュータ40で実現されてよい。コンピュータ40は、CPU(Central Processing Unit)41と、GPU(Graphics Processing Unit)42と、一時記憶領域としてのメモリ43と、不揮発性の記憶装置44とを備える。また、コンピュータ40は、入力装置、表示装置等の入出力装置45と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)装置46とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)47を備える。CPU41、GPU42、メモリ43、記憶装置44、入出力装置45、R/W装置46、及び通信I/F47は、バス48を介して互いに接続される。
【0034】
記憶装置44は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等である。記憶媒体としての記憶装置44には、コンピュータ40を、評価装置10として機能させるための評価プログラム50が記憶される。評価プログラム50は、訓練プロセス制御命令52と、生成プロセス制御命令54と、予測プロセス制御命令56と、評価プロセス制御命令58とを有する。
【0035】
CPU41は、評価プログラム50を記憶装置44から読み出してメモリ43に展開し、評価プログラム50が有する制御命令を順次実行する。CPU41は、訓練プロセス制御命令52を実行することで、
図1に示す訓練部12として動作する。また、CPU41は、生成プロセス制御命令54を実行することで、
図1に示す生成部14として動作する。また、CPU41は、予測プロセス制御命令56を実行することで、
図1に示す予測部16として動作する。また、CPU41は、評価プロセス制御命令58を実行することで、
図1に示す評価部18として動作する。これにより、評価プログラム50を実行したコンピュータ40が、評価装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。また、プログラムの一部は、GPU42により実行されてもよい。
【0036】
なお、評価プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等で実現されてもよい。
【0037】
次に、本実施形態に係る評価装置10の動作について説明する。評価装置10に訓練データセット及び評価対象モデルが入力され、評価対象モデルの評価が指示されると、評価装置10において、
図4に示す評価処理が実行される。なお、評価処理は、開示の技術の評価方法の一例である。ここでは、予測対象のタンパク質がヒトの免疫に認識されアレルギー反応を引き起こすか否かを予測するアレルゲン予測のタスクを実行する機械学習モデルの例で説明する。どのタンパク質がアレルゲンとなるか否かが不明である場合が多いため、予測需要の高い分野である。
【0038】
ステップS10で、訓練部12が、評価装置10に入力された訓練データセット及び評価対象モデルを取得する。ここでは、訓練データセットに含まれる各正解ラベル付きデータは、
図5に示すようなアミノ酸配列のテキストデータに正解ラベルが付与されたものである。正解ラベルは、アミノ酸配列に対応するタンパク質がアレルゲン性タンパク質であるか非アレルゲン性タンパク質であるかを示すラベル(例えば、0、1の値で表現)である。また、評価対象モデルは、例えば、AllerCatPro (https://allercatpro.bii.a-star.edu.sg/)、AllerTOPv2(https://www.ddg-pharmfac.net/AllerTOP/)等の既存のアレルゲン予測モデルである。
【0039】
次に、ステップS12で、訓練部12が、予め利用者が用意しておいた初期の機械学習モデルと、取得した訓練データセットとを用いて、能力が異なる複数(例えば、5~100個)の自作モデルを生成する。
【0040】
次に、ステップS14で、生成部14が、訓練データセットから、正解ラベルが未知の問題を複数生成する。例えば、生成部14が、アレルゲンとなり得る生物種(例えば、麦)のゲノム配列、転写物RNA配列等から翻訳したアミノ酸配列を問題候補として生成する。また、生成部14が、タンパク質データベースから取得したアミノ酸配列を問題候補として生成する。さらに、生成部14が、これらの配列内の一部の文字列を他のアミノ酸に入れ替えるなどして、問題候補を生成してもよい。そして、生成部14が、問題候補のうち、訓練データセットに含まれるいずれの正解ラベル付きデータとも類似度が所定値以下となる問題候補を選択することにより問題を生成する。
【0041】
なお、ステップS12の処理とステップS14の処理とは、いずれを先に実行してもよいし、並列に実行してもよい。
【0042】
次に、ステップS16で、予測部16は、生成された複数の問題の各々に対する自作モデル及び評価対象モデルの各々による予測結果(0又は1の値)を取得する。次に、ステップS18で、評価部18が、予測部16による予測結果が得られる確率を示し、各機械学習モデルの能力パラメータ及び正解ラベルの推定値を示すパラメータを含む確率モデル(例えば(3)式に示す確率P)に予測結果を入力する。そして、評価部18が、確率を最大化するように確率モデルのパラメータを推定する。次に、ステップS20で、評価部18が、推定したパラメータのうち、評価対象モデルについての能力パラメータを評価結果として出力し、評価処理は終了する。
【0043】
以上説明したように、本実施形態に係る評価装置は、複数の正解ラベル付きデータを含む訓練データセットを用いて、能力の異なる複数の自作モデルを訓練する。また、評価装置は、正解ラベル付きデータとの類似度が所定値以下で、正解ラベルが未知の複数の問題を生成する。また、評価装置は、自作モデル及び評価対象モデルの各々による、複数の問題の各々に対する予測結果を取得する。そして、評価装置は、各機械学習モデルの能力を示すパラメータと、問題の正解ラベルを示すパラメータとを含み、各機械学習モデルにより予測結果が得られる確率を表す確率モデルに予測結果を入力する。評価装置は、確率モデルを最適化した際の能力パラメータを、評価対象モデルの能力を示す評価指標として出力する。
【0044】
このように、自作モデルの訓練に用いた正解ラベル付きデータとは独立とみなせる新規な問題を生成することで、訓練データが不明な機械学習モデルに対し、その機械学習モデルの訓練に使用されていないデータを評価に用いることができる。これにより、評価の公平性を確保することができる。また、機械学習モデルの能力と共に、問題の正解ラベルを推定することで、生成する問題の正解は未知でもよいため、多数の問題を生成することができる。これにより、評価の統計的信頼性を確保することができる。
【0045】
また、知識グラフの埋め込み表現学習では、ランダムなパターンを生成して負例とみなして訓練に使う場合がある。この場合、生成されるデータで正例を生成しようとしても、それはほぼ出来ない。単語との関係からランダムに生成したデータ、例えば、<アメリカ>の<首都>は<北京>である等の負例が生成される可能性が極めて高いことと、正負を推定又は確認する手順がないため、ランダム生成のデータは負例とみなすしかない。これに対して、本実施形態では、正負を推定又は確認する手順があるため、正例と負例とのどちらも生成できる。
【0046】
また、機械学習モデルの評価に用いるデータの正解ラベルとして、その機械学習モデルの予測結果を使用することは、評価の信頼性の低下を招くとも考えられる。本実施形態では、能力の異なる複数の機械学習モデルを同時に使用することで、正解ラベルの推定のエラー率を、1つの機械学習モデルを使用する場合よりも低くすることができる。
【0047】
また、半教師あり学習では、ラベル無しデータに対して、機械学習モデルの予測結果を正解ラベルとして付して機械学習モデルの訓練に使用する。しかし、半教師あり学習では、予め用意されたラベル無しデータから訓練用のデータを生成するものであり、生成するデータ数に制限がある。本実施形態では、生成するデータ数に制限は無く、ほぼ無限にデータを増加することができる。また、本実施形態で生成した問題の正解は、機械学習モデルの評価と同時に推定する点でも、本実施形態は半教師あり学習とは異なる。
【0048】
例えば、バイオ分野においては、実在するDNA配列やアミノ酸配列のデータはデータベースに大量に登録されている。一方で、これらのデータに対して、関心のある情報(正解)を実験で得ることはコストがかかったり、珍しい現象のケースでは正解が付与されていなかったりする場合が多い。このように、実在するデータから入力データ(問題)を多数生成可能な分野では、特に本開示の技術を適用する効果が高い。
【0049】
なお、上記実施形態では、評価プログラムが記憶装置に予め記憶(インストール)されているが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供されてもよい。
【0050】
以上の実施形態に関し、さらに以下の付記を開示する。
【0051】
(付記1)
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータに実行させるための評価プログラム。
【0052】
(付記2)
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである付記1に記載の評価プログラム。
【0053】
(付記3)
前記特徴を示すパラメータは、前記評価用データが、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む付記2に記載の評価プログラム。
【0054】
(付記4)
前記第1機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも1つである
付記1~付記3のいずれか1項に記載の評価プログラム。
【0055】
(付記5)
前記複数の評価用データを生成することは、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも1つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択することを含む付記1~付記4のいずれか1項に記載の評価プログラム。
【0056】
(付記6)
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータが実行する評価方法。
【0057】
(付記7)
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである付記6に記載の評価方法。
【0058】
(付記8)
前記特徴を示すパラメータは、前記評価用データが、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む付記7に記載の評価方法。
【0059】
(付記9)
前記第1機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも1つである
付記6~付記8のいずれか1項に記載の評価方法。
【0060】
(付記10)
前記複数の評価用データを生成することは、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも1つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択することを含む付記6~付記9のいずれか1項に記載の評価方法。
【0061】
(付記11)
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練する訓練部と、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する生成部と、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する予測部と、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する評価部と、
を含む評価装置。
【0062】
(付記12)
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである付記11に記載の評価装置。
【0063】
(付記13)
前記特徴を示すパラメータは、前記評価用データが、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む付記12に記載の評価装置。
【0064】
(付記14)
前記第1機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも1つである
付記11~付記13のいずれか1項に記載の評価装置。
【0065】
(付記15)
前記生成部は、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも1つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択する付記11~付記14のいずれか1項に記載の評価装置。
【0066】
(付記16)
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータに実行させるための評価プログラムを記憶した非一時的記憶媒体。
【符号の説明】
【0067】
10 評価装置
12 訓練部
14 生成部
16 予測部
18 評価部
40 コンピュータ
41 CPU
42 GPU
43 メモリ
44 記憶装置
45 入出力装置
46 R/W装置
47 通信I/F
48 バス
49 記憶媒体
50 評価プログラム
52 訓練プロセス制御命令
54 生成プロセス制御命令
56 予測プロセス制御命令
58 評価プロセス制御命令