IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズの特許一覧

特開2024-82358学習データ評価システム、方法およびプログラム
<>
  • 特開-学習データ評価システム、方法およびプログラム 図1
  • 特開-学習データ評価システム、方法およびプログラム 図2
  • 特開-学習データ評価システム、方法およびプログラム 図3
  • 特開-学習データ評価システム、方法およびプログラム 図4
  • 特開-学習データ評価システム、方法およびプログラム 図5
  • 特開-学習データ評価システム、方法およびプログラム 図6
  • 特開-学習データ評価システム、方法およびプログラム 図7
  • 特開-学習データ評価システム、方法およびプログラム 図8
  • 特開-学習データ評価システム、方法およびプログラム 図9
  • 特開-学習データ評価システム、方法およびプログラム 図10
  • 特開-学習データ評価システム、方法およびプログラム 図11
  • 特開-学習データ評価システム、方法およびプログラム 図12
  • 特開-学習データ評価システム、方法およびプログラム 図13
  • 特開-学習データ評価システム、方法およびプログラム 図14
  • 特開-学習データ評価システム、方法およびプログラム 図15
  • 特開-学習データ評価システム、方法およびプログラム 図16
  • 特開-学習データ評価システム、方法およびプログラム 図17
  • 特開-学習データ評価システム、方法およびプログラム 図18
  • 特開-学習データ評価システム、方法およびプログラム 図19
  • 特開-学習データ評価システム、方法およびプログラム 図20
  • 特開-学習データ評価システム、方法およびプログラム 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024082358
(43)【公開日】2024-06-20
(54)【発明の名称】学習データ評価システム、方法およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240613BHJP
   G06T 7/70 20170101ALI20240613BHJP
   G06V 10/72 20220101ALI20240613BHJP
   G06N 20/10 20190101ALI20240613BHJP
【FI】
G06T7/00 350B
G06T7/70
G06V10/72
G06N20/10
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022196152
(22)【出願日】2022-12-08
(71)【出願人】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】梁 宇シン
(72)【発明者】
【氏名】恵木 正史
(72)【発明者】
【氏名】中山 晃治
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA03
5L096CA01
5L096FA01
5L096FA31
5L096GA51
5L096HA11
5L096JA03
5L096JA11
5L096KA04
5L096MA07
(57)【要約】
【課題】学習データの追加を効果的かつ効率よく行うことを可能にする。
【解決手段】学習データ評価システムが、学習データの不足を評価するための評価データを入力として機械学習モデルから得られる予測値と、前記評価データに対する正解と、に基づいて、前記評価データごとの学習データの不足の程度を表すデータ不足度を算出する不確実性算出部と、予め定められた選定ルールと、前記データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する対象選定部と、予め定められた分析ルールに基づいて、前記対象データの傾向を特定し、前記対象データの傾向に基づいて、追加すべき学習データの性質を特定する傾向分析立案部と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
学習データの不足を評価するための評価データを入力として機械学習モデルから得られる予測値と、前記評価データに対する正解と、に基づいて、前記評価データごとの学習データの不足の程度を表すデータ不足度を算出する不確実性算出部と、
予め定められた選定ルールと、前記データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する対象選定部と、
予め定められた分析ルールに基づいて、前記対象データの傾向を特定し、前記対象データの傾向に基づいて、追加すべき学習データの性質を特定する傾向分析立案部と、を有する学習データ評価システム。
【請求項2】
前記データ不足度には、前記機械学習モデルに含まれる重みを改変させたときの前記予測値のばらつきの程度を表すゆらぎ値が含まれ、
前記選定ルールは、前記ゆらぎ値に基づいて対象データを分類するというルールを含んで予め定められており、
前記対象選定部は、前記選定ルールおよび前記ゆらぎ値に基づいて、前記対象データを抽出する、
請求項1に記載の学習データ評価システム。
【請求項3】
前記選定ルールは、前記ゆらぎ値が上位から所定の割合に含まれるデータを対象データとするというルールを含んで予め定められている、
請求項2に記載の学習データ評価システム。
【請求項4】
前記機械学習モデルは、画像の中から所定の物体を検出するためのモデルであり、
前記選定ルールは、正解に対する予測値のIoUが所定の閾値よりも小さく、かつ、前記ゆらぎ値が上位から前記割合に含まれるデータを前記対象データとするというルールを含む、
請求項3に記載の学習データ評価システム。
【請求項5】
前記機械学習モデルは、画像に写り込んでいるものを識別するためのモデルであり、
前記選定ルールは、前記ゆらぎ値が所定の閾値より大きい評価データを前記対象データとするというルールを含む、
請求項2に記載の学習データ評価システム。
【請求項6】
前記分析ルールは、前記対象データを共通する性質によって複数の分類グループに分類するというルールを含んで予め定められており、
前記傾向分析立案部は、前記分析ルールに基づいて、前記対象データを前記分類グループに分類し、分類グループ毎に追加すべき学習データの性質を特定する、
請求項1に記載の学習データ評価システム。
【請求項7】
前記機械学習モデルは、画像の中から所定の物体を検出するためのモデルであり、
前記分析ルールは、正解に含まれる物体の色彩分散が所定の閾値よりも大きい前記対象データを1つの分類グループに分類するというルールを含んで予め定められており、
前記傾向分析立案部は、当該分類グループに分類された前記対象データに基づき、前記色彩分散が前記閾値より大きい画像を生成して学習データに追加すべきであると提案する、
請求項6に記載の学習データ評価システム。
【請求項8】
前記機械学習モデルは、画像に写り込んでいるものを識別するためのモデルであり、
前記分析ルールは、画素のゆらぎ値に対する貢献度が所定の閾値より大きい画素の画像内における分布により対象データを対象分類グループに分類するというルールを含んでおり、
前記傾向分析立案部は、前記分析ルールに基づいて前記対象分類グループに分類された対象データから、前記対象分類グループの前記分布を有する画像を生成して学習データに追加すべきであると提案する、
請求項6に記載の学習データ評価システム。
【請求項9】
前記対象分類グループに共通する性質と、該対象分類グループの前記分布に基づく画像を有する学習データを追加すべきとする改善計画とを対応付けた改善案を表示する表示部を更に有する、
請求項8に記載の学習データ評価システム。
【請求項10】
前記貢献度は、
【数1】
という式により算出される値である、
請求項8に記載の学習データ評価システム。
【請求項11】
前記貢献度は、
【数2】
という式により算出される値である、
請求項8に記載の学習データ評価システム。
【請求項12】
前記機械学習モデルは、画像の中から所定の物体が存在する領域と推定される領域を示す矩形を予測値候補として1つ以上出力するモデルであり、
前記不確実性算出部は、前記評価データに対する正解を表す矩形との類似度が最も高い矩形の予測値候補を前記評価データに対する予測値とする、
請求項1に記載の学習データ評価システム。
【請求項13】
処理装置を有する装置による学習データ評価方法であって、
学習データの不足を評価するための評価データを入力として機械学習モデルから得られる予測値と、前記評価データに対する正解と、に基づいて、前記評価データごとの学習データの不足の程度を表すデータ不足度を算出する不確実性算出ステップと、
予め定められた選定ルールと、前記データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する対象選定ステップと、
予め定められた分析ルールに基づいて、前記対象データの傾向を特定し、前記対象データの傾向に基づいて、追加すべき学習データの性質を特定する傾向分析立案ステップと、を有する、
学習データ評価方法。
【請求項14】
学習データ評価プログラムであって、
処理装置を有する装置に、
学習データの不足を評価するための評価データを入力として機械学習モデルから得られる予測値と、前記評価データに対する正解と、に基づいて、前記評価データごとの学習データの不足の程度を表すデータ不足度を算出する不確実性算出機能と、
予め定められた選定ルールと、前記データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する対象選定機能と、
予め定められた分析ルールに基づいて、前記対象データの傾向を特定し、前記対象データの傾向に基づいて、追加すべき学習データの性質を特定する傾向分析立案機能と、
を実現させる、学習データ評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習の学習データ評価システム、学習データ評価方法および学習データ評価プログラムに関する。
【背景技術】
【0002】
学習データを学習することにより構築された予測モデルは、学習データが不足している領域では予測の精度が低下する。そのため、予測モデルの予測の精度を確保するために、学習データを評価し、不足があれば学習データを追加することが重要である。
【0003】
画像識別問題や領域識別問題における予測モデルに画像を入力し、予測モデルから得られる出力の揺らぎから、その画像についての学習データの不足の度合いを計算する手法がある(特許文献1、非特許文献1)。これらの手法では学習データの不足の度合いは画像毎に計算される。学習データに不足する画像的特徴を含む画像に対し、学習データの不足の度合いは高い値となる。
【0004】
特許文献2に記載のように、画像的特徴の情報と位置情報を人的に与えることで、学習データに追加すべき画像を自動で作成する手法がある。また、特許文献3に記載のように、学習データをクラスタリングすることにより比較的件数が少ない画像データを抽出し、その情報を可視化する手法がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2022-521957号公報
【特許文献2】国際公開WO2021/193347A1号明細書
【特許文献3】特表2020-522055号公報
【非特許文献】
【0006】
【非特許文献1】A, Kendall, et al “What uncertainties do we need in Bayesian deep learning for computer vision ?” arXiv:1703.04977.
【発明の概要】
【発明が解決しようとする課題】
【0007】
学習データの不足の度合いが画像毎に分かっても、どのような要因で不足の度合いが高くなっているのか、あるいは、不足の度合いが高い画像から学習データに追加すべき画像としてどのような画像を作成すればよいのかは分からない。結局は、学習データの不足の度合いの高い画像から、どのような画像を追加すればよいかについては専門家が画像等を基に人的判断を行っており、非効率である。
【0008】
本開示に含まれるひとつの目的は、学習データの追加を効果的かつ効率よく行うことを可能にする技術を提供することである。
【課題を解決するための手段】
【0009】
本発明の一つの実施態様に従う学習データ評価システムは、学習データの不足を評価するための評価データを入力として機械学習モデルから得られる予測値と、前記評価データに対する正解と、に基づいて、前記評価データごとの学習データの不足の程度を表すデータ不足度を算出する不確実性算出部と、予め定められた選定ルールと、前記データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する対象選定部と、予め定められた分析ルールに基づいて、前記対象データの傾向を特定し、前記対象データの傾向に基づいて、追加すべき学習データの性質を特定する傾向分析立案部と、を有する。
【発明の効果】
【0010】
本発明によれば、学習データの追加を効果的かつ効率よく行うことを可能にする学習データ評価システム、学習データ評価方法および学習データ評価プログラムを提供できる。
【図面の簡単な説明】
【0011】
図1】学習データ評価システムの構成例を示す機能ブロック図である。
図2】学習データのフォーマットを例示する概念図である。
図3】評価データのフォーマットを例示する概念図である。
図4】機械学習モデルの構造を例示する概念図である。
図5】判定データのフォーマットを例示する概念図である。
図6】不確実性データのフォーマットを例示する概念図である。
図7】選定ルールのフォーマットを例示する概念図である。
図8】分析ルールのフォーマットを例示する概念図である。
図9】穴埋め後の改善案データのフォーマットを例示する概念図である。
図10】不確実性算出処理を例示するフローチャートである。
図11】対象選定処理を例示するフローチャートである。
図12】傾向分析立案処理を例示するフローチャートである。
図13】不確実性データのフォーマットを例示する概念図である。
図14】対象選定部による選定結果を例示する概念図である。
図15】表示部における表示例を示す図である。
図16】表示部における表示例を示す図である。
図17】判定データのフォーマットを例示する概念図である。
図18】不確実性データのフォーマットを例示する概念図である。
図19】正解予測同定処理を例示するフローチャートである。
図20】表示部における表示例を示す図である。
図21】表示部における表示例を示す図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について図面を参照して説明する。
【実施例0013】
図1は、学習データ評価システムの構成例を示す機能ブロック図である。
【0014】
学習データ評価システム1は、図示を省略する処理装置と記憶装置とを少なくとも備える。学習データ評価システム1は、通信装置、入力装置、出力装置等をさらに備えていてもよい。
【0015】
処理装置は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)等で構成される。処理装置が、記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、学習データ評価システム1の様々な機能が実現される。
【0016】
より具体的には、処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、機械学習部11と、判定部12と、不確実性算出部13と、対象選定部14と、傾向分析立案部15とを実現する。
【0017】
記憶装置はプログラムやデータを記憶する装置であり、例えば、Random Access Memory(RAM)、Read Only Memory(ROM)、不揮発性半導体メモリ(Non-Volatile RAM(NVRAM))である。
【0018】
記憶装置は、例えば、Hard Disc Drive(HDD)、Solid State Drive(SSD)、ストレージシステム、Integrated Circuit(IC)カード、Secure Digital(SD)メモリカードや光学式記録媒体(Compact Disc(CD)、Digital Versatile Disc(DVD)など)などの記録媒体の読み取りおよび書き込み装置、クラウドサーバの記憶領域であってもよい。
【0019】
記憶装置は、上述の各種の記憶装置を複数組み合わせたものであってもよい。
【0020】
記憶装置に各種のプログラムやデータが記憶される。具体的には、学習データ21と、評価データ22と、機械学習モデル23と、判定データ24と、不確実性データ25と、選定ルール26と、分析ルール27と、改善案データ28とが、記憶装置に記憶される。
【0021】
通信装置はLocal Area Network(LAN)やInternetなどの通信手段を介した他の装置との間の通信を実現する有線または無線方式の通信インターフェースであり、例えば、Network Interface Card(NIC)、無線通信モジュール、Universal Serial Interface(USB)モジュール、シリアル通信モジュールである。
【0022】
入力装置はユーザからの入力を受け付ける装置である。入力装置は、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置である。
【0023】
出力装置はユーザに処理経過や処理結果などの各種情報を提供する装置である。出力装置は、例えば、画面表示装置(Liquid Crystal Display(LCD)、Head Mounted Display(HMD)など)、音声出力装置、印字装置等である。なお、学習データ評価システム1が通信装置を介して、他の装置との間で情報の入力や出力を行う構成としてもよい。
【0024】
引き続き図1を参照して、学習データ評価システム1が行うデータ処理の概略を説明する。
【0025】
機械学習部11は、入力データである学習データ21を用いて機械学習を行う。機械学習の種類については特に限定しない。機械学習の結果、学習済みの機械学習モデル23が構築される。なお、実施例1においては、機械学習モデル23は、機械学習によって得られるモデルである。機械学習モデル23の一例として、物体検知モデル、すなわち画像の中から所定の物体を検知するためのモデルがある。ただし、学習データ評価システム1が適応可能な問題は物体検知問題には限られないので、機械学習モデル23は物体検知以外のモデル、例えば領域分割問題、分類問題、回帰問題などの他のタイプの問題に適応するモデルであってもよい。
【0026】
判定部12は、構築された機械学習モデル23に評価データ22を入力することにより、判定データ24を出力する。判定データ24には、機械学習モデル23から得られる予測値が含まれる。
【0027】
不確実性算出部13は、機械学習モデル23と判定データ24とに基づいて、不確実性データを生成する。生成された不確実性データ25が記憶装置に記憶される。
【0028】
対象選定部14は、予め定めて記憶しておいた選定ルール26と、不確実性データ25とに基づいて、対象データを抽出する。ここでいう抽出とは、データを複数のクラスタに分類することを含む。実際、抽出は、抽出対象とするクラスタと、抽出対象とはしないクラスタの2つのクラスタに分類すると解釈することもできる。
【0029】
すなわち対象選定部14は、予め定められた選定ルールと、不確実性データ25に含まれるデータ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する。
【0030】
より特定手的には、対象選定部14は、選定ルールおよびゆらぎ値に基づいて、対象データを抽出する。
【0031】
傾向分析立案部15は、予め定めて記憶しておいた分析ルール27に基づいて、各々の対象データを分析し、改善案データ28を生成する。より詳しくは、傾向分析立案部15は、予め定められた分析ルール27に基づいて、対象データの傾向を特定し、対象データの傾向に基づいて、追加すべき学習データの性質を特定する。ここでいう傾向とは、データが不足している、等の傾向を意味する。学習データの性質は、例えば、物体の色彩分散が0.3以上である等の、分析ルール27に含まれる傾向判断条件に対応した性質であってよい。
【0032】
表示部31は、傾向分析立案部15による傾向分析結果を表示する。表示部31は、傾向分析結果と改善案データ28に基づくデータとを合わせて表示してもよい。
【0033】
図2は、学習データ21のフォーマットを例示する概念図である。
【0034】
なお、図2には、物体検知問題を解く場合の学習データのフォーマット例を示している。ただし、学習データ評価システム1が適応可能な問題は物体検知問題には限られず、領域分割問題、分類問題、回帰問題などの他のタイプの問題にも適応可能である。
【0035】
学習データID100は、そのデータに一意に付与されたIDである。
【0036】
特徴量101は、学習データの特徴を示す情報である。物体検知問題の場合は、入力画像を示す多次元配列となる。
【0037】
正解102および103は、例えば物体検知問題では各物体の位置情報、物体が存在する尤度、物体のクラス情報を含む。正解_1、正解_2…の数は、検出された物体の数に応じたものとなる。例えば検出された物体が2つの場合は正解は正解_1、正解_2までとなる。各正解には物体の位置情報、尤度、クラス情報などの値が含まれる。例えば、識別問題では、識別対象とするクラスごとの情報である。正解_1、正解_2…の数は、識別対象とするクラス数に応じたものとなる。例えばクラス数が3であれば、正解は正解_1、正解_2、正解_3までとなる。回帰問題であれば識別対象とするクラス数は1つのみとなる。
【0038】
正解の形式は、対象とする問題の種類により異なる。例えば図2に示した、物体検知問題の場合は各矩形[x,y,w,h,cls,obj]で表現される。xは矩形枠のX座標、yは矩形枠のY座標、wは矩形枠の幅、hは矩形枠の高さ、clsはクラス、objは当該矩形枠内に対象となる物体が存在するか否かの尤度を示す値である。識別問題の場合は各正解に紐づいたクラスに分類する尤度を1次元情報で表現される。他の種類の問題においても、当業者が一般的に用いる正解データのフォーマットが用いられてよい。
【0039】
図3は、評価データ22のフォーマットを例示する概念図である。評価データ22は、学習データの不足を評価するために用いられる。
【0040】
評価データ22における、評価データID200、特徴量201、正解202および203のフォーマットは、学習データ21における学習データID100,特徴量101、正解102および103と同様であるため、詳しい説明は省略する。
【0041】
図4は、機械学習モデル23の構造を例示する概念図である。
【0042】
レイヤ300は、機械学習モデル23に含まれるレイヤの番号を意味している。レイヤ種別301は、例えば全結合層や畳み込み層などの、層の種類を意味している。レイヤパラメータ302は、その層についてのパラメータ、すなわち各層のウェイトの値を意味している。レイヤパラメータは、ニューラルネットワークに含まれるレイヤ数だけ存在し、各レイヤパラメータには、当該レイヤのノード数の分だけの次元数がある。
【0043】
重み改変パターン303および304は、ニューラルネットワークに含まれる層において、各ノードの重みを改変させる場合の、改変のパターンを意味している。なお、ノードの重みの改変方法としては、重みの値を変更する方法や、そのノード自体を欠損(Dropout)させる方法などがある。なお、Dropoutについては、そのノードの重みやバイアスの値を0にすることにより表現可能である。1つのレイヤについて、改変パターンの数は、1つであったり2つ以上であったりする。重み改変パターンには、レイヤパラメータと同じ次元数がある。重み改変パターンは、例えば、Dropoutで欠損させるノード=0、欠損させない維持ノード=1として表現されている。
【0044】
なお、本開示の実施形態においては、機械学習モデル23に含まれる各層をDropoutによって改変し、改変による出力値のゆらぎを計測する。このゆらぎを示す値、すなわちゆらぎ値を、不確実性算出部13が不確実性データ中のデータ不足度として算出する。
【0045】
すなわち、不確実性算出部13は、機械学習モデル23から得られる予測値と、評価データに対する正解と、に基づいて、評価データごとの学習データの不足の程度を表すデータ不足度を算出する。データ不足度には、機械学習モデル23に含まれる重みを改変させたときの予測値のばらつきの程度を表すゆらぎ値が含まれる。
【0046】
図5は、判定データ24のフォーマットを例示する概念図である。
【0047】
判定結果ID401は、判定の結果を一意に示す識別情報である。評価データID402は、評価データを一意に示す識別情報である。重み改変パターン403は、図4を参照して説明した重み改変パターンを意味している。
【0048】
正解に対応する予測結果404および405は、判定部12が機械学習モデル23に評価データ22を入力して得られる予測値である。なお、物体検知問題では、検出した物体が1つである場合は、検出された物体に対する予測結果が判定データ24に含まれる。検出した物体が2つである場合は、各検出された物体に対応する予測結果が判定データ24に含まれる。また、識別問題では、識別対象となるクラスが2つである場合は、正解1に対応する予測結果と、正解2に対応する予測結果とが判定データ24に含まれる。識別対象となるクラスが3つである場合は、正解1に対応する予測結果と、正解2に対応する予測結果と、正解3に対応する予測結果とが判定データ24に含まれる。つまり、クラスの数だけ、正解に対応する予測結果がある。そして上述のように、機械学習モデル23の各クラスに対する予測値は、各重み改変パターン(dropoutの欠損パターン)に応じて、ゆらぎを有する。
【0049】
図6は、不確実性データ25のフォーマットを例示する概念図である。
【0050】
不確実性ID501は、各々の不確実性データを一意に示す識別情報である。判定結果ID502および評価データID503は、図5における判定結果ID401および評価データID402と同様であるため、詳しい説明は省略する。
【0051】
正解に対応するデータ不足度504および505は、不確実性算出部13が算出したスコアであって、正解の数だけ存在する。例えば物体検知の場合は、不確実性算出部13は各矩形に対応する[x,y,w,h,cls,obj]の6つについて、それぞれスコアを算出する。分類問題の場合、不確実性算出部13はクラスごと(グー、チョキ、パーの3クラスに分類するなら3つ)のスコアを算出する。回帰問題の場合、クラスの数は1つのみであるので、不確実性算出部13は正解_1に対応するデータ不足度504のスコアのみを算出する。この場合、正解_2以降はそもそも無い。
【0052】
データ不足度とは、各評価データに対し、異なる重み改変パターンで得た予測値のバラつきを示すスコアである。このスコアは、より具体的には標準偏差や分散などであってよい。
【0053】
図7は、選定ルール26のフォーマットを例示する概念図である。選定ルール26は、ゆらぎ値に基づいて対象データを分類するというルールを含んで予め定められている。
【0054】
ルールID600は、そのルールを一意に示す識別情報である。条件601は、後述の分類602として対象データを分類するための条件である。分類602は、データをどのように分類するかを示す情報である。
【0055】
図中のモデル出力とは、機械学習モデル23が出力する予測値を意味している。例えば、正解に対応する予測値のIoUが所定の閾値、例えば0.3より大きい場合、対象選定部14はそのデータを正常データであると分類する。
【0056】
正解に対応する予測値のIoUが所定の閾値、例えば0.3より小さく、かつ、データ不足度が上位5%以内に入る場合、対象選定部14はそのデータをデータ不足候補であると分類して、対象データとする。これはつまり、予測値が正解から乖離しており、かつデータ不足でもあると考えられる場合である。
【0057】
なお、データ不足度を基準にした対象データの抽出は、上位5%以内という基準以外のものであってもよい。すなわち選定ルール26は、ゆらぎ値(データ不足度)が上位から所定の割合に含まれるデータを対象データとするというルールを含んで予め定められていてよい。
【0058】
正解に対応する予測値のIoUが所定の閾値、例えば0.3より小さく、かつ、データ不足度が下位95%に入り、かつ、モデルの出力値(obj)が所定の値、例えば0.42以下である場合、対象選定部14はそのデータを要懐疑データクラスタ1であると分類する。これはつまり、その矩形にオブジェクトが含まれるという蓋然性も低い(objの値が小さい)ので、当該データは物体検知が困難なデータであると分類することを意味している。
【0059】
正解に対応する予測値のIoUが所定の閾値、例えば0.3より小さく、かつ、データ不足度が下位95%に入り、かつ、モデルの出力値(obj)が所定の値、例えば0.42より大きい場合、対象選定部14はそのデータを要懐疑データクラスタ2であると分類する。これはつまり、その矩形にオブジェクトが含まれるという蓋然性は高い(objの値が小さい)ものの、予測と正解とが乖離しており、明らかにデータ不足とも言えないので、当該データはデータノイズ候補であると分類することを意味している。
【0060】
なお、図7に示した条件601の内容は、物体検知問題の場合に予め設定する条件の一例である。問題の種類や、機械学習を用いて行いたい処理内容に応じて、異なる条件を条件601に予め登録してよい。例えば識別問題の場合には、ゆらぎ値(データ不足度)に対する閾値や値が上位5%である、などと定めてもよい。
【0061】
図8は、分析ルール27のフォーマットを例示する概念図である。
【0062】
文責項目ID700は、分析対象とするデータ項目を一意に示す識別情報である。
【0063】
分類701は、後述の傾向判断条件に基づく分類を意味する。傾向判断条件に合致するか否かを判断するということは、傾向判断条件によって特定される共通の性質を有する対象データを、その傾向判断条件によって分類することであると解釈できる。すなわち分析ルール27は、対象データを共通する性質によって複数の分類グループに分類するというルールを含んで予め定められている。図8においては、分析項目ID=102のグループや、分析項目ID=103のグループに、対象データを分類している。この場合、傾向分析立案部15は、分析ルール27に基づいて、対象データを分類グループに分類し、分類グループ毎に追加すべき学習データの性質を特定することになる。
【0064】
傾向判断条件702は、例えば対象データをデータ不足候補であると分類する場合の、判断条件(共通の性質)を示す情報である。一例としては、正解に含まれる物体の色彩分散が0.3より大きい場合や、後述する貢献度に基づいて形成されるクラスタの形状がどの程度類似しているかを意味する類似度(Similarity)の値などが、傾向判断条件となる。
【0065】
なお、分析ルール27は、正解に含まれる物体の色彩分散が所定の閾値(例えば0.3)よりも大きい対象データを1つの分類グループ(分析項目ID=102のグループ)に分類するというルールを含んで予め定められている。この場合、傾向分析立案部15は、当該分類グループに分類された対象データに基づき、色彩分散が閾値より大きい画像を生成して学習データに追加すべきであると提案してよい。
【0066】
根拠テンプレート703および改善計画テンプレート704は、ユーザに対して表示部31を介して表示する情報のテンプレートである。これらのテンプレートにおける「X」は変数である。表示部31からは、データの内容に応じた値を「X」の所に穴埋めした状態で情報を表示する。この穴埋めの処理は、例えば傾向分析立案部15が行う。穴埋め後のデータが改善案データ28として記憶されてよい。
【0067】
図9は、穴埋め後の改善案データ28のフォーマットを例示する概念図である。案ID800は、案を一意に示す識別情報である。グループ801は、図8に示した分類701に相当するグループである。共通性(根拠)802および改善計画803は、図8の根拠テンプレート703および改善計画テンプレート704にそれぞれ穴埋めを行った後の情報である。なお、図9に示したように、傾向分析立案部15は、テンプレートの「X」の所に値を穴埋めするだけでなく、(ex. データ#1_正解A, データ#5_正解A, データ#5_正解B)といったように、改善計画の内容に応じた情報をさらに付加してもよい。
【0068】
図10は、不確実性算出処理を例示するフローチャートである。
【0069】
不確実性算出部13が、不確実性算定処理を行う。不確実性算出部13は、評価データごと、重み改変パターンごと、および正解値ごとに、ステップS901とS902とを行う。
【0070】
ステップS901において不確実性算出部13は、正解と予測値とを対応づける。
【0071】
ステップS902において不確実性算出部13は、正解に対応付けされた予測値のゆらぎに基づき、当該正解に対応するデータ不足度を計算する。
【0072】
図11は、対象選定処理を例示するフローチャートである。
【0073】
対象選定部14が、対象選定処理を行う。対象選定部14は、評価データごと、および、正解(正解_1や正解_2など)ごとに、ステップS1001を行う。
【0074】
ステップS1001において対象選定部14は、選定ルールに基づき、各評価データの各正解を分類する(図8参照)。
【0075】
図12は、傾向分析立案処理を例示するフローチャートである。
【0076】
傾向分析立案部15は、評価データごとに、ループ開始LS2以降の処理を行う(ループ開始LS1)。傾向分析立案部15は、正解ごとに、ループ開始LS3以降の処理を行う(ループ開始LS2)。傾向分析立案部15は、分析ルールごとに、ステップS1101からS1104の処理を行う(ループ開始LS3)。
【0077】
分析ルールごとのループ(LS3~LE3)を抜けた後、傾向分析立案部15はステップS1105の処理を行う。正解ごとのループ(LS2~LE2)と評価データごとのループ(LS1~LE1)とを抜けると、傾向分析立案処理が終了する。
【0078】
ステップS1101において傾向分析立案部15は、正解の分類が分析ルールと一致するか否かを判定する。一致する場合(S1101:Yes)はステップS1102に処理が遷移する。一致しない場合は、分析ルールごとのループ終了LE3に到達し、次の分析ルールについてのステップS1101の処理を行う。
【0079】
ステップS1102において傾向分析立案部15は、分析ルールに定めた判定を行う。例えば、当該ループにおける分析ルールが図8における分析項目ID=102の分析ルールである場合、正解に含まれる物体の色彩分散が0.3より大きいか否かの判定を行う。なおこの場合、正解に含まれる物体の色彩分散が0.3より大きいならば、判定指標が判定条件(傾向判断条件)に合致したことになる。
【0080】
ステップS1103において傾向分析立案部15は、判定指標が判定条件(傾向判断条件)に合致したか否かを判定する。合致した場合(S1103:Yes)、ステップS1104に処理が遷移する。合致しなかった場合は、分析ルールごとのループ終了LE3に到達し、次の分析ルールについてのステップS1101の処理を行う。
【0081】
ステップS1104において傾向分析立案部15は、合致した当該分析項目の根拠文に付与する合計件数をカウントアップする。根拠文とは、図9に示した共通性(根拠)802を指している。すなわちステップS1104では、図8の根拠テンプレートに穴埋めするための値である、「X/X」の部分の値をカウントアップする。
【0082】
ステップS1105において傾向分析立案部15は、合致件数のカウントに基づき改善案の情報を生成する。すなわち、図8の根拠テンプレートに基づき合計件数の値を穴埋めして、表示部31を介して表示するための改善案の情報を完成させる。
【実施例0083】
上述の実施例1においては、不確実性データとしてデータ不足度を算出し、データ不足度に基づく選定等を行った。下記に説明する実施例2においては、データ不足度に加えて、データ不足貢献度を算出する。また、実施例2は、学習データ評価システム1を識別問題について適用する例である。この場合の機械学習モデル23は、画像に写り込んでいるものを識別するためのモデルである。
【0084】
学習データ評価システム1を識別問題について適用する場合、選定ルール26は、ゆらぎ値が所定の閾値より大きい評価データを対象データとするというルールを含んでよい。また、この場合の分析ルール27は、画素のゆらぎ値(データ不足度)に対する貢献度であるデータ不足貢献度が所定の閾値より大きい画素の画像内における分布により対象評価データを対象分類グループに分類するというルールを含んでいてよい。傾向分析立案部15は、分析ルール27に基づいて対象分類グループに分類された対象データから、対象分類グループの分布を有する画像を生成して学習データに追加すべきであると提案してもよい。なお、傾向分析立案部15が提案するとは、提案内容に応じた情報を生成して改善案データ28として記憶することなどを意味している。
【0085】
図13は、不確実性データ25のフォーマットを例示する概念図である。
【0086】
図13における不確実性ID501、判定結果ID502、評価データID503、ならびに、正解に対応するデータ不足度504および505は、図6と同様であるため、詳しい説明は省略する。
【0087】
実施例2においては、不確実性データ25はデータ不足貢献度1201を含む。なお、不確実性算出部13がデータ不足貢献度1201を算出してよい。データ不足貢献度1201は正解ごとに算出される。図13においては、データ不足貢献度は、正解_1向けのデータ不足貢献度1202と、正解_2向けのデータ不足貢献度1203とが別々に算出されている。
【0088】
データ不足貢献度とは、データに含まれる各要素が、データの不足に対してどの程度影響しているか(どの程度貢献しているか)を示す値である。本明細書においては、このデータ不足貢献度をContributeと表記することがある。
【0089】
識別問題においてのデータ不足貢献度Contributeは、例えば下記の式に基づいて算出される値である。
【0090】
【数1】
【0091】
また、識別問題においてのデータ不足貢献度Contributeは、例えば下記の式に基づいて算出される値であってもよい。
【0092】
【数2】
【0093】
学習データ評価システム1は、選定ルール26における条件601に、データ不足貢献度に基づいた条件を設定してよい。学習データ評価システム1は、分析ルール27における傾向判断条件702に、データ不足貢献度に基づいた条件を設定してもよい。
【0094】
図14は、実施例2における、対象選定部14による選定結果を例示する概念図である。
【0095】
評価データIDごとの、正解ごとに、対象選定部14は分類の結果を出力する。例えば評価データID=#301については、正解_1、正解_2、および正解_3の分類がいずれも「正常データ」であったため、総合評価も「正常データ」と分類される。評価データID=#302については、正解_2および正解_3の分類がいずれも「正常データ」であったが、正解_1の分類が「データ不足候補」であったため、総合評価は「データ不足候補」となる。
【0096】
図15は、表示部31における表示例を示す図である。図16は、表示部31における表示例を示す図である。
【0097】
表示部31は、傾向分析立案部15による分析結果と、改善案データ28とに基づいて、改善案の一覧・該当件数・事例・判定区域などの情報を可視化して表示し、ユーザに伝える。以下、表示部31の表示画面1300に表示される内容について説明する。
【0098】
図15の表示例において、データセット1302には、データセットの所在(ファイルパス)が表示される。表示項目1303には、例えば改善案を表示する旨の表示がなされる。ソート条件1304には、正解=正解_1についての表示を行う旨の表示がなされる。なお、ソート条件1304は、表示対象が何であるかを示す表示条件を意味していてもよく、表示対象をどのデータに基づいて昇順あるいは降順にソートするかを示すソート条件を意味していてもよい。
【0099】
改善案1305には、改善案データ28に記憶された改善案の情報が表示される。表示部31は、ソート条件として設定された対象分類グループに共通する性質、すなわち共通性(根拠)と、該対象分類グループの分布に基づく画像を有する学習データを追加すべきとする改善計画とを対応付けた改善案1305を表示する。ここでいう分布とは、画素のゆらぎ値(データ不足度)に対する貢献度であるデータ不足貢献度が所定の閾値より大きい画素の画像内における分布を意味する。
【0100】
事例1301には、対象選定部14が選定したデータのうち、ソート条件に合致するものが表示される。図15の例では、手を撮影した入力画像がグー、チョキ、パーのいずれであるかを識別する識別問題(クラス数は3)を解く際に、正解がグー(正解_1)であるようなデータを事例として表示している。なお、事例においては、そのデータについての判定区域を合わせて表示してよい。
【0101】
図16の表示例において、図15と重複する部分については詳しい説明を省略する。表示項目1303には、不確実性データと貢献度とを表示する旨の表示がなされる。ソート条件1304には、評価データID=301であって、かつ、正解=正解_1についての表示を行う旨の表示がなされる。
【0102】
図15において改善案1305が表示されていた領域には、図16においては表示対象である不確実性データと貢献度(データ不足貢献度)の情報1307が表示される。事例1306には、対象選定部14が選定したデータのうち、ソート条件に合致するものが表示される。図16の例では、手を撮影した入力画像がグー、チョキ、パーのいずれであるかを識別する識別問題(クラス数は3)を解く際に、正解がグー(正解_1)であるようなデータを事例として表示している。なお、事例においては、そのデータについての判定区域を合わせて表示してよい。
【0103】
表示部31はさらに、正解_1向けデータ不足貢献度の情報(座標情報)に基づいて、事例として表示した画像におけるデータ不足貢献度の高い部分を、ハイライト表示、強調表示、色付き表示などの手段により、他の部分と区別した態様で表示してもよい。また、データ不足貢献度の高い部分を、判定区域を示す矩形枠とは別の矩形枠や楕円枠などで囲うように表示してもよい。
【実施例0104】
次に、物体検知問題についての実施例を説明する。なお、実施例3における機械学習モデル23は、画像の中から所定の物体が存在する領域と推定される領域を示す矩形を予測値候補として1つ以上出力するモデルである。
【0105】
図17は、判定データ24のフォーマットを例示する概念図である。
【0106】
判定結果ID401、評価データID402、重み改変パターン403、正解に対応する予測結果404および405については、図5を参照して上述したものと同様であるため、詳しい説明を省略する。実施例3における判定データには、予測値候補IDが含まれる。
【0107】
物体検知問題の場合、予測値候補(アンカー)の様に予測値の候補を複数出力することがある。このような場合には予測値候補ごとに判定結果を保存する。
【0108】
そのアンカーは通常、特定の画像区画に対し、特定のテンプレート矩形を当てはめて生成する。予測値候補はNon-Maximum-Suppression(NMS)により事前に一部の判定結果を除外し、残った判定結果だけを予測値として採用してもよい
【0109】
図18は、不確実性データ25のフォーマットを例示する概念図である。
【0110】
不確実性ID501は、判定結果ID502、評価データID503、正解に対応するデータ不足度504および505については、図6を参照して上述したものと同様であるため、詳しい説明を省略する。実施例3における不確実性には、予測値候補IDが含まれる。予測値候補IDについては、図17を参照して上述したものと同様であるため、詳しい説明を省略する。
【0111】
実施例3においては、予測値候補(アンカー)ごとにデータ不足度を計算する。最終的な各正解に対するデータ不足度は、以下のバリエーションのいずれかであってよい。
・バリエーション1:予測計算の結果に対してNMSを適用し、最終的に残ったアンカーを予測値として採用し、そのアンカーのデータ不足度をその正解のデータ不足度とする。
・バリエーション2:一部もしくは全部のアンカーのデータ不足度の平均値を、当該正解のデータ不足度とする。
【0112】
図19は、正解予測同定処理を例示するフローチャートである。
【0113】
正解予測同定処理は、図10におけるステップS901の詳細例である。不確実性算出部13は、予測値候補ごとに、ステップS1501の処理を行う。
【0114】
ステップS1501において不確実性算出部13は、正解値(x,y,w,h)と出力値(x,y,w,h)の類似度を計算する。出力値は、予測値である。類似度は、例えばIoUであってよい。
【0115】
ステップS1502において不確実性算出部13は、類似度が最大となる予測値候補を正解値に対応する予測値として紐づける。すなわち不確実性算出部13は、評価データに対する正解を表す矩形との類似度が最も高い矩形の予測値候補を、評価データに対する予測値とする。
【0116】
ステップS1503において不確実性算出部13は、紐づけられた予測値についての類似度が所定の閾値以下であるか否かを判定する。閾値以下である場合(S1503:Yes)、ステップS1505に処理が遷移する。閾値以下ではない場合(S1503:No)、ステップS1504に処理が遷移する。
【0117】
ステップS1504において不確実性算出部13は、判定データに予測値候補を記録する。
【0118】
ステップS1505において不確実性算出部13は、判定データに該当予測なし(None)を記録
【0119】
図20は、表示部31における表示例を示す図である。図21は、表示部31における表示例を示す図である。
【0120】
表示部31は、傾向分析立案部15による分析結果と、改善案データ28とに基づいて、改善案の一覧・該当件数・事例・判定区域などの情報を可視化して表示し、ユーザに伝える。以下、表示部31の表示画面1300に表示される内容について説明する。
【0121】
図20の表示例における、データセット1302、表示項目1303、ソート条件1304については図15と同様であるため、詳しい説明は省略する。
【0122】
改善案1315には、改善案データ28に記憶された改善案の情報が表示される。事例1314には、対象選定部14が選定したデータのうち、ソート条件に合致するものが表示される。図20の例では、物体検知問題を解く際の、物体が映り込んだ画像とパターンX0に対応する判定区域を示す矩形枠が表示される。
【0123】
図21の表示例において、図20と重複する部分については詳しい説明を省略する。表示項目1303には、判定データを表示する旨の表示がなされる。ソート条件1304には、予測値候補=1であって、かつ評価データID=301についての表示を行う旨の表示がなされる。
【0124】
また、判定データ1311の内容が表示される。さらに、表示対象となるデータについての、正解データ1313と、予測データ1312とが並んで表示される。正解データ1313については、検出されるべき物体を囲む矩形枠が併せて表示される。予測データ1312については、予測結果を示す矩形枠が併せて表示される。
【0125】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【0126】
以上のように、学習データ評価システムが、不確実性算出部13と、対象選定部14と、傾向分析立案部15とを有する。不確実性算出部13は、学習データの不足を評価するための評価データを入力として機械学習モデル23から得られる予測値と、評価データに対する正解と、に基づいて、評価データごとの学習データの不足の程度を表すデータ不足度を算出する。対象選定部14は、予め定められた選定ルールと、データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する。傾向分析立案部15は、予め定められた分析ルールに基づいて、対象データの傾向を特定し、対象データの傾向に基づいて、追加すべき学習データの性質を特定する。
【0127】
処理装置を有する装置による学習データ評価方法が、不確実性算出ステップと、対象選定ステップと、傾向分析立案ステップとを有する。不確実性算出ステップでは、学習データの不足を評価するための評価データを入力として機械学習モデル23から得られる予測値と、評価データに対する正解とに基づいて、評価データごとの学習データの不足の程度を表すデータ不足度を算出する。対象選定ステップでは、予め定められた選定ルールと、データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する。傾向分析立案ステップでは、予め定められた分析ルールに基づいて、対象データの傾向を特定し、対象データの傾向に基づいて、追加すべき学習データの性質を特定する。
【0128】
学習データ評価プログラムが、処理装置を有する装置に、不確実性算出機能と、対象選定機能と、傾向分析立案機能とを実現させる。不確実性算出機能は、学習データの不足を評価するための評価データを入力として機械学習モデル23から得られる予測値と、評価データに対する正解とに基づいて、評価データごとの学習データの不足の程度を表すデータ不足度を算出する機能である。対象選定機能は、予め定められた選定ルールと、データ不足度と基づいて、学習データの追加の対象とするべきデータである対象データを抽出する機能である。傾向分析立案機能は、予め定められた分析ルールに基づいて、前記対象データの傾向を特定し、前記対象データの傾向に基づいて、追加すべき学習データの性質を特定する機能である。
【0129】
上記によれば、評価データ毎の学習データのデータ不足度を算出し、所定の選定ルールとデータ不足度とに基づいて対象データを抽出し、所定の分析ルールに基づいて、対象データの傾向を特定し、特定された傾向に基づいて追加すべき学習データの性質を特定するので、学習データの追加を効果的かつ効率よく行うことが可能になる。
【0130】
データ不足度には、機械学習モデル23に含まれる重みを改変させたときの予測値のばらつきの程度を表すゆらぎ値が含まれる。選定ルールは、ゆらぎ値に基づいて対象データを分類するというルールを含んで予め定められている。対象選定部14は、選定ルールおよびゆらぎ値に基づいて、対象データを抽出する。これにより、機械学習モデルの重みを改変させたときの予測値のゆらぎを基に、学習データを追加する対象のデータを特定するので、予測値がばらつきやすい領域の学習データを容易に追加することが可能となる。
【0131】
選定ルールは、ゆらぎ値が上位から所定の割合に含まれるデータを対象データとするというルールを含んで予め定められている。これにより、データ不足度の高いデータをピックアップして、対応する学習データの追加をユーザに促すことができる。
【0132】
機械学習モデル23は、画像の中から所定の物体を検出するためのモデルである。その場合に、選定ルールは、正解に対する予測値のIoUが所定の閾値よりも小さく、かつ、ゆらぎ値が上位から所定の割合に含まれるデータを対象データとするというルールを含む。これにより、物体検知問題において、予測があまり正確ではなく、データ不足度の高いデータをピックアップして、対応する学習データの追加をユーザに促すことができる。
【0133】
機械学習モデル23は、画像に写り込んでいるものを識別するためのモデルである。その場合に、選定ルールは、ゆらぎ値が所定の閾値より大きい評価データを対象データとするというルールを含む。これにより、識別問題において、データ不足度の高いデータをピックアップして、対応する学習データの追加をユーザに促すことができる。
【0134】
分析ルールは、対象データを共通する性質によって複数の分類グループに分類するというルールを含んで予め定められている。傾向分析立案部15は、分析ルールに基づいて、対象データを分類グループに分類し、分類グループ毎に追加すべき学習データの性質を特定する。これにより、予め定めた条件に基づいて対象データを分類し、分類に応じた改善案を提示することができる。
【0135】
機械学習モデル23は、画像の中から所定の物体を検出するためのモデルである。その場合に、分析ルールは、正解に含まれる物体の色彩分散が所定の閾値よりも大きい対象データを1つの分類グループに分類するというルールを含んで予め定められている。傾向分析立案部15は、当該分類グループに分類された対象データに基づき、色彩分散が閾値より大きい画像を生成して学習データに追加すべきであると提案する。これにより、色彩にばらつきがみられる対象データをピックアップして、対応する学習データの追加をユーザに促すことができる。
【0136】
機械学習モデル23は、画像に写り込んでいるものを識別するためのモデルである。その場合に、分析ルールは、画素のゆらぎ値に対する貢献度が所定の閾値より大きい画素の画像内における分布により対象データを対象分類グループに分類するというルールを含んでいる。傾向分析立案部15は、分析ルールに基づいて対象分類グループに分類された対象データから、対象分類グループの分布を有する画像を生成して学習データに追加すべきであると提案する。これにより、識別問題において、データ不足度に対して影響の大きい画素の分布に基づいて、対応する学習データの追加をユーザに促すことができる。
【0137】
対象分類グループに共通する性質と、該対象分類グループの分布に基づく画像を有する学習データを追加すべきとする改善計画とを対応付けた改善案を表示する表示部31を更に有する。これにより、どのような性質のデータが不足しており、どのような学習データを追加すべきであるのかをユーザが認識することができる。
【0138】
貢献度は、
【数3】
もしくは
【数4】
という式により算出される値である。これにより、データ不足度に対する貢献度を適切に算出して、貢献度も加味した改善案をユーザに提示することができる。
【0139】
機械学習モデル23は、画像の中から所定の物体が存在する領域と推定される領域を示す矩形を予測値候補として1つ以上出力するモデルである。その場合に、不確実性算出部13は、評価データに対する正解を表す矩形との類似度が最も高い矩形の予測値候補を評価データに対する予測値とする。これにより、予測値候補が複数ある場合に、正解データと予測値候補との紐づけを適切に行うことができる。
【符号の説明】
【0140】
1…学習データ評価システム、11…機械学習部、12…判定部、13…不確実性算出部
14…対象選定部、15…傾向分析立案部、21…学習データ、22…評価データ、23…機械学習モデル、24…判定データ、25…不確実性データ、26…選定ルール、27…分析ルール、28…改善案データ、31…表示部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21