2023-45892 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-45892データ選別支援装置、データ選別支援方法及びデータ選別支援プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023045892

(43)【公開日】2023-04-03

(54)【発明の名称】データ選別支援装置、データ選別支援方法及びデータ選別支援プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230327BHJP

G06T 7/00 20170101ALI20230327BHJP

【ＦＩ】

G06N20/00 130

G06T7/00 350B

【審査請求】有

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021154504

(22)【出願日】2021-09-22

(71)【出願人】

【識別番号】394013002

【氏名又は名称】三菱電機インフォメーションシステムズ株式会社

(74)【代理人】

【識別番号】110002491

【氏名又は名称】弁理士法人クロスボーダー特許事務所

(72)【発明者】

【氏名】伊佐野勝人

(72)【発明者】

【氏名】中尾尭理

(72)【発明者】

【氏名】山足光義

(72)【発明者】

【氏名】阿部紘和

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096FA32

5L096FA33

5L096FA66

5L096GA30

5L096GA51

5L096HA11

5L096KA04

5L096MA07

(57)【要約】

【課題】モデルの精度向上を妨げる訓練データを適切に抽出可能な構成を実現できるようにする。
【解決手段】確信度平均計算部２２１は、エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する。乖離度計算部２２３は、複数の訓練データそれぞれについて、エポックｅにおけるモデルの確信度と、確信度平均計算部２２１によって計算された平均値μ_ｅとの間の乖離度を計算する。
【選択図】図１

【特許請求の範囲】

【請求項1】

エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する確信度平均計算部と、
前記複数の訓練データそれぞれについて、前記エポックｅにおける前記モデルの確信度と、前記確信度平均計算部によって計算された前記平均値μ_ｅとの間の乖離度を計算する乖離度計算部と
を備えるデータ選別支援装置。

【請求項2】

前記確信度平均計算部は、前記エポック数Ｅ以下の各エポックｅについて、前記複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算し、
前記乖離度計算部は、前記複数の訓練データそれぞれについて、前記各エポックｅにおける前記モデルの確信度と、前記確信度平均計算部によって計算された前記平均値μ_ｅとの間の乖離度を計算する
請求項１に記載のデータ選別支援装置。

【請求項3】

前記乖離度計算部は、前記各エポックｅにおける前記乖離度の平均値μ_ｉを計算する
請求項２に記載のデータ選別支援装置。

【請求項4】

前記データ選別支援装置は、さらに、
前記各エポックｅについて、前記複数の訓練データそれぞれに対するモデルの確信度のばらつきを計算する確信度ばらつき計算部
を備え、
前記乖離度計算部は、前記確信度ばらつき計算部によって計算された前記確信度のばらつきを用いて、前記乖離度の平均値μ_ｉを計算する
請求項３に記載のデータ選別支援装置。

【請求項5】

前記確信度平均計算部は、前記各エポックｅについて、数１に示すように、ｉ＝１，．．．，Ｎの各整数ｉについての訓練データの画像ｘｉの正解ラベルｙ_ｉ ^＊に対する確信度ｐ_{ｉ，θ（ｅ）}の平均値μ_ｅを計算し、
前記確信度ばらつき計算部は、前記各エポックｅについて、数２に示すように、前記確信度のばらつきσ_ｅを計算し、
前記乖離度計算部は、ｉ＝１，．．．，Ｎの各整数ｉについての訓練データについて、数３に示すように、前記乖離度の平均値μ_ｉを計算する
請求項４に記載のデータ選別支援装置。

【数1】

【数2】

【数3】

【請求項6】

前記データ選別支援装置は、さらに、
前記乖離度計算部によって計算された前記乖離度のばらつきを計算する乖離度ばらつき計算部
を備える請求項１から５までのいずれか１項に記載のデータ選別支援装置。

【請求項7】

前記データ選別支援装置は、さらに、
数４に示すように、前記乖離度計算部によって計算された前記乖離度のばらつきσ_ｉを計算する乖離度ばらつき計算部
を備える請求項５に記載のデータ選別支援装置。

【数4】

【請求項8】

前記データ選別支援装置は、さらに、
前記乖離度と、前記乖離度のばらつきとの少なくともいずれかに基づき、前記複数の訓練データから削除する訓練データを選別するデータ選別部
を備える請求項６又は７に記載のデータ選別支援装置。

【請求項9】

前記データ選別部は、各訓練データについて他の訓練データとの間の特徴の距離に基づき、削除する訓練データを選別する
請求項８に記載のデータ選別支援装置。

【請求項10】

前記データ選別支援装置は、さらに、
前記乖離度と、前記乖離度のばらつきとの一方を縦軸とし、他方を横軸として、前記複数の訓練データをプロットした特徴マップを表示する特徴表示部
を備える請求項６から９までのいずれか１項に記載のデータ選別支援装置。

【請求項11】

前記特徴表示部は、各訓練データについて他の訓練データとの間の特徴の距離を表示する
請求項１０に記載のデータ選別支援装置。

【請求項12】

コンピュータが、エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算し、
コンピュータが、前記複数の訓練データそれぞれについて、前記エポックｅにおける前記モデルの確信度と、前記平均値μ_ｅとの間の乖離度を計算するデータ選別支援方法。

【請求項13】

エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する確信度平均計算処理と、
前記複数の訓練データそれぞれについて、前記エポックｅにおける前記モデルの確信度と、前記確信度平均計算処理によって計算された前記平均値μ_ｅとの間の乖離度を計算する乖離度計算処理と
を行うデータ選別支援装置としてコンピュータを機能させるデータ選別支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、モデルの学習で用いる訓練データの選別を支援する技術に関する。

【背景技術】

【0002】

モデルの学習を行う場合には、多数の訓練データが入力として用いられる。用意された訓練データには、学習によるモデルの精度向上を妨げる訓練データが含まれる場合がある。精度向上を妨げる訓練データは、例えば、誤ったラベル付けがされた訓練データである。誤ったラベル付けがされた訓練データとは、例えば、犬の画像データに対して、猫というラベルが付された訓練データである。精度向上を妨げる訓練データを取り除いた上で、学習を行うことが望ましい。

【0003】

最適化アルゴリズムを適用して、モデルの訓練及び検証を繰り返して、訓練データを選別する方法がある。この方法では、モデルの訓練及び検証を数千回から数万回繰り返す必要がある。

【0004】

ディープラーニングにより学習を行う場合には、１回の訓練にかかる時間が長い。そのため、特別な環境でなければ、ディープラーニングにより学習を行う場合に、最適化アルゴリズムを適用することは非現実的である。特別な環境とは、ＧＰＵクラスタが利用できる環境である。ＧＰＵは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。

【0005】

非特許文献１には、ＤａｔａＣａｒｔｏｇｒａｐｈｙ（以下、ＤＣ）について記載されている。ＤＣは、ディープラーニングの訓練中に、訓練データである画像の確信度の時間的推移を観測して、画像を分類する手法である。
ＤＣでは、画像について、各エポックにおける確信度の平均値及び標準偏差が計算される。そして、平均値及び標準偏差に基づき、画像が、学習容易なものと、汎用化性能を向上させるものと、学習困難なものとのいずれかに分類される。学習困難なものに分類された画像は、モデルの精度向上を妨げる可能性が高い。
ＤＣでは、モデルの訓練及び検証を１度実施するたけで画像の分類ができる。そのため、ディープラーニングにより学習を行う場合にも適用することができる。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Ｓｗａｙａｍｄｉｐｔａ，Ｓｗａｂｈａ，ｅｔａｌ． “ＤａｔａｓｅｔＣａｒｔｏｇｒａｐｈｙ：ＭａｐｐｉｎｇａｎｄＤｉａｇｎｏｓｉｎｇＤａｔａｓｅｔｓｗｉｔｈＴｒａｉｎｉｎｇＤｙｎａｍｉｃｓ．” Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２０ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）．２０２０．

【非特許文献2】ＲａｆａｅｌＭｕｌｌｅｒ，ＳｉｍｏｎＫｏｒｎｂｌｉｔｈ，ａｎｄＧｅｏｆｆｒｅｙＥＨｉｎｔｏｎ．Ｗｈｅｎｄｏｅｓｌａｂｅｌｓｍｏｏｔｈｉｎｇｈｅｌｐ？ＩｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，ｐｐ．４６９４－４７０３，２０１９．

【発明の概要】

【発明が解決しようとする課題】

【0007】

ＤＣでは、モデルの学習が十分に行われた場合には、データ数が少ないラベルの画像は、学習困難なものに分類されるべきであっても、汎用化性能を向上させるものに分類される可能性が高い（非特許文献１参照）。

【0008】

また、ディープラーニングでは、確信度が高くなる傾向がある（非特許文献２参照）。そのため、訓練データが学習容易なものに分類され易い傾向がある。

【0009】

以上のことから、ＤＣでは、学習困難なものに分類されるべき画像が適切に分類されない可能性がある。そのため、モデルの精度向上を妨げる画像が適切に抽出されない可能性がある。

【0010】

本開示は、モデルの精度向上を妨げる訓練データを適切に抽出可能な構成を実現できるようにすることを目的とする。

【課題を解決するための手段】

【0011】

本開示に係るデータ選別支援装置は、
エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する確信度平均計算部と、
前記複数の訓練データそれぞれについて、前記エポックｅにおける前記モデルの確信度と、前記確信度平均計算部によって計算された前記平均値μ_ｅとの間の乖離度を計算する乖離度計算部と
を備える。

【0012】

【0013】

前記乖離度計算部は、前記各エポックｅにおける前記乖離度の平均値μ_ｉを計算する。

【0014】

前記データ選別支援装置は、さらに、
前記各エポックｅについて、前記複数の訓練データそれぞれに対するモデルの確信度のばらつきを計算する確信度ばらつき計算部
を備え、
前記乖離度計算部は、前記確信度ばらつき計算部によって計算された前記確信度のばらつきを用いて、前記乖離度の平均値μ_ｉを計算する。

【0015】

【数1】

【数2】

【数3】

【0016】

前記データ選別支援装置は、さらに、
前記乖離度計算部によって計算された前記乖離度のばらつきを計算する乖離度ばらつき計算部
を備える。

【0017】

前記データ選別支援装置は、さらに、
数４に示すように、前記乖離度計算部によって計算された前記乖離度のばらつきσ_ｉを計算する乖離度ばらつき計算部
を備える。

【数4】

【0018】

前記データ選別支援装置は、さらに、
前記乖離度と、前記乖離度のばらつきとの少なくともいずれかに基づき、前記複数の訓練データから削除する訓練データを選別するデータ選別部
を備える。

【0019】

前記データ選別部は、各訓練データについて他の訓練データとの間の特徴の距離に基づき、削除する訓練データを選別する。

【0020】

前記データ選別支援装置は、さらに、
前記乖離度と、前記乖離度のばらつきとの一方を縦軸とし、他方を横軸として、前記複数の訓練データをプロットした特徴マップを表示する特徴表示部
を備える。

【0021】

前記特徴表示部は、各訓練データについて他の訓練データとの間の特徴の距離を表示する。

【0022】

本開示に係るデータ選別支援方法は、
コンピュータが、エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算し、
コンピュータが、前記複数の訓練データそれぞれについて、前記エポックｅにおける前記モデルの確信度と、前記平均値μ_ｅとの間の乖離度を計算する。

【0023】

本開示に係るデータ選別支援プログラムは、
エポック数Ｅ以下のいずれかのエポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する確信度平均計算処理と、
前記複数の訓練データそれぞれについて、前記エポックｅにおける前記モデルの確信度と、前記確信度平均計算処理によって計算された前記平均値μ_ｅとの間の乖離度を計算する乖離度計算処理と
を行うデータ選別支援装置としてコンピュータを機能させる。

【発明の効果】

【0024】

本開示では、エポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算し、複数の訓練データそれぞれについて、モデルの確信度と平均値μ_ｅとの間の乖離度を計算する。この乖離度を用いることにより、モデルの精度向上を妨げる画像を適切に抽出可能な構成を実現することができる。

【図面の簡単な説明】

【0025】

【図1】実施の形態１に係るデータ選別支援装置１０の構成図。

【図2】実施の形態１に係るデータ選別支援装置１０の動作の全体的な流れを示すフローチャート。

【図3】実施の形態１に係るデータ選別支援装置１０の動作の詳細を示すフローチャート。

【図4】実施の形態１に係る乖離度ｄ_ｉ，ｅの説明図。

【図5】実施の形態１に係る乖離度ｄ_ｉ，ｅの説明図。

【図6】実施の形態１の効果の説明図。

【図7】変形例１に係るデータ選別支援装置１０の構成図。

【図8】実施の形態２に係るデータ選別支援装置１０の構成図。

【図9】実施の形態２に係るデータ選別支援装置１０の動作の詳細を示すフローチャート。

【図10】実施の形態２の効果の説明図。

【図11】データ数が多いラベルの画像とデータ数が少ないラベルの画像との確信度の変化を示す図。

【図12】データ数が少ないラベルの画像との確信度の変化を示す図。

【図13】データ数が少ないラベルの画像における精度向上の妨げとなる画像の乖離度ｄ_ｉ，ｅを示す図。

【図14】データ数が多いラベルの画像との確信度の変化を示す図。

【図15】データ数が多いラベルの画像における精度向上の妨げとなる画像の乖離度ｄ_ｉ，ｅを示す図。

【図16】実施の形態３に係るデータ選別支援装置１０の構成図。

【図17】実施の形態３に係るデータ選別支援装置１０の動作の詳細を示すフローチャート。

【図18】どのラベルが正しいかの見分けがつき難い画像の説明図。

【図19】実施の形態４に係るデータ選別支援装置１０の構成図。

【図20】実施の形態４に係るデータ選別支援装置１０の動作の詳細を示すフローチャート。

【発明を実施するための形態】

【0026】

実施の形態１．
＊＊＊構成の説明＊＊＊
図１を参照して、実施の形態１に係るデータ選別支援装置１０の構成を説明する。
データ選別支援装置１０は、コンピュータである。
データ選別支援装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信インタフェース１４とのハードウェアを備える。プロセッサ１１は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。

【0027】

プロセッサ１１は、プロセッシングを行うＩＣである。ＩＣはＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。プロセッサ１１は、具体例としては、ＣＰＵ、ＤＳＰ、ＧＰＵである。ＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。ＤＳＰは、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒの略である。ＧＰＵは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。

【0028】

メモリ１２は、データを一時的に記憶する記憶装置である。メモリ１２は、具体例としては、ＳＲＡＭ、ＤＲＡＭである。ＳＲＡＭは、ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。ＤＲＡＭは、ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。

【0029】

ストレージ１３は、データを保管する記憶装置である。ストレージ１３は、具体例としては、ＨＤＤである。ＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。また、ストレージ１３は、ＳＤ（登録商標）メモリカード、ＣｏｍｐａｃｔＦｌａｓｈ（登録商標）、ＮＡＮＤフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤといった可搬記録媒体であってもよい。ＳＤは、ＳｅｃｕｒｅＤｉｇｉｔａｌの略である。ＤＶＤは、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋの略である。

【0030】

通信インタフェース１４は、外部の装置と通信するためのインタフェースである。通信インタフェース１４は、具体例としては、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ、ＨＤＭＩ（登録商標）のポートである。ＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。ＨＤＭＩは、Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅの略である。

【0031】

データ選別支援装置１０は、機能構成要素として、入力受付部２１と、精度計算部２２とを備える。精度計算部２２は、確信度平均計算部２２１と、確信度ばらつき計算部２２２と、乖離度計算部２２３とを備える。データ選別支援装置１０の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ１３には、データ選別支援装置１０の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ１１によりメモリ１２に読み込まれ、プロセッサ１１によって実行される。これにより、データ選別支援装置１０の各機能構成要素の機能が実現される。

【0032】

図１では、プロセッサ１１は、１つだけ示されていた。しかし、プロセッサ１１は、複数であってもよく、複数のプロセッサ１１が、各機能を実現するプログラムを連携して実行してもよい。

【0033】

＊＊＊動作の説明＊＊＊
図２から図５を参照して、実施の形態１に係るデータ選別支援装置１０の動作を説明する。
実施の形態１に係るデータ選別支援装置１０の動作手順は、実施の形態１に係るデータ選別支援方法に相当する。また、実施の形態１に係るデータ選別支援装置１０の動作を実現するプログラムは、実施の形態１に係るデータ選別支援プログラムに相当する。

【0034】

図２を参照して、実施の形態１に係るデータ選別支援装置１０の動作の全体的な流れを説明する。
（ステップＳ１：学習処理）
学習装置３１は、複数の訓練データ４１と、複数の検証データ４２とを入力として、ディープラーニングにより学習を行い、モデル３２を更新する。訓練データ４１は、モデル３２の学習を行うためのデータである。検証データ４２は、学習されたモデル３２の精度を検証するためのデータである。
ディープラーニングにより学習を行う際、各訓練データ４１についての認識結果が得られる。また、認識結果についての確信度が計算される。本実施の形態では確信度は、０から１の範囲で算出されるものとする。認識結果とは、例えば、画像に認識対象が含まれるか否かである。確信度は、認識結果がどの程度の確からしさ（ｉ番目の訓練データｘ_ｉの正解ラベルｙ_ｉ ^＊であるか）で認識されたかである。
ディープラーニングでは、複数の訓練データ４１それぞれを用いて、複数回繰り返し学習が行われる。同じ訓練データ４１を用いて学習を繰り返す回数をエポック数Ｅと呼ぶ。エポック数Ｅは、２以上である。ｅ度目の学習であることをエポックｅと呼ぶ。つまり、同じ訓練データ４１を用いて、エポック１からエポックＥまでの学習が行われる。

【0035】

（ステップＳ２：選別処理）
データ選別支援装置１０は、ステップＳ１で得られた確信度を取得する。データ選別支援装置１０は、確信度に基づき乖離度を計算する。そして、乖離度を利用して訓練データ４１の選別が行われる。

【0036】

必要に応じて、ステップＳ１からステップＳ２の処理が繰り返し実行される。２度目以降に実行される際には、選別された訓練データ４１を入力として学習が行われる。これにより、精度の高いモデル３２が生成される。
またステップＳ１の処理は、ディープラーニングによらずエポックごとに確信度が取得できる機械学習で学習してもよい。

【0037】

図３を参照して、実施の形態１に係るデータ選別支援装置１０の動作の詳細を説明する。
（ステップＳ１１：入力受付処理）
入力受付部２１は、図２のステップＳ１で得られた各訓練データ４１についての確信度を取得する。具体的には、入力受付部２１は、各訓練データ４１について、エポック数Ｅ以下の各エポックｅにおける確信度を取得する。

【0038】

（ステップＳ１２：確信度平均計算処理）
確信度平均計算部２２１は、エポック数Ｅ以下のいずれかのエポックｅについて、数１１に示すように、複数の訓練データ４１それぞれに対するモデル３２の確信度の平均値μ_ｅを計算する。

【数11】

Ｎは訓練データ４１の数である。ｐ_{ｉ，θ（ｅ）}（ｙ_ｉ ^＊｜ｘ_ｉ）は、エポックｅにおいてパラメータθのモデルが算出した、ｉ番目の訓練データ４１の画像ｘ_ｉの正解ラベルｙ_ｉ ^＊に対する確信度である。

【0039】

具体例としては、確信度平均計算部２２１は、最終エポックであるエポックＥについてのモデル３２の確信度の平均値μ_Ｅを計算する。なお、確信度平均計算部２２１は、最終エポックに限らず、途中段階のエポックｅ（ｅ＜Ｅ）についてのモデル３２の確信度の平均値μ_ｅを計算してもよい。また、確信度平均計算部２２１は、複数のエポックｅについてのモデル３２の確信度の平均値μ_ｅを計算してもよい。

【0040】

実施の形態１では、確信度平均計算部２２１は、エポック数Ｅ以下の各エポックｅについて、モデル３２の確信度の平均値μ_ｅを計算する。つまり、確信度平均計算部２２１は、ｅ＝１，．．．，Ｅの各エポックｅについて、モデル３２の確信度の平均値μ_ｅを計算する。

【0041】

（ステップＳ１３：確信度ばらつき計算処理）
確信度ばらつき計算部２２２は、エポックｅについて、数１２に示すように、複数の訓練データ４１それぞれに対するモデル３２の確信度のばらつきσ_ｅを計算する。エポックｅは、ステップＳ１２でモデル３２の確信度の平均値μ_ｅが計算されたエポックである。

【数12】

ここでは、ばらつきとして標準偏差が計算される。しかし、ばらつきとして分散が計算されてもよい。

【0042】

実施の形態１では、エポック数Ｅ以下の各エポックｅについて、モデル３２の確信度の平均値μ_ｅが計算される。そのため、確信度ばらつき計算部２２２は、エポック数Ｅ以下の各エポックｅについて、モデル３２の確信度のばらつきσ_ｅを計算する。

【0043】

（ステップＳ１４：乖離度計算処理）
乖離度計算部２２３は、複数の訓練データ４１それぞれについて、数１３に示すように、エポックｅにおけるモデル３２の確信度と、平均値μ_ｅとの間の乖離度ｄ_ｉ，ｅを計算する。平均値μ_ｅは、ステップＳ１２で計算された値である。エポックｅは、ステップＳ１２でモデル３２の確信度の平均値μ_ｅが計算されたエポックである。

【数13】

【0044】

図４に示すように、乖離度ｄ_ｉ，ｅは、処理対象の訓練データ４１についての確信度と、全ての訓練データ４１の確信度の平均値μ_ｅとの距離である。つまり、乖離度ｄ_ｉ，ｅは、処理対象の訓練データ４１についての確信度が、平均値μ_ｅと比べて、どの程度高いか又は低いかを示す。

【0045】

数１３で計算される乖離度ｄ_ｉ，ｅを用いてもよい。しかし、実施の形態１では、乖離度計算部２２３は、数１４に示すように、処理対象の訓練データ４１についての確信度と、全ての訓練データ４１の確信度の平均値μ_ｅとの距離を、確信度のばらつきσ_ｅで除して乖離度ｄ_ｉ，ｅを計算する。

【数14】

これにより、乖離度ｄ_ｉ，ｅは、確信度のばらつきが小さい場合には、絶対値が大きくなり、確信度のばらつきが大きい場合には、絶対値が小さくなる。つまり、処理対象の訓練データ４１についての確信度と、全ての訓練データ４１の確信度の平均値μ_ｅとの距離が近い場合でも、確信度のばらつきが小さい場合には、乖離度ｄ_ｉ，ｅは大きくなる。一方、処理対象の訓練データ４１についての確信度と、全ての訓練データ４１の確信度の平均値μ_ｅとの距離が遠い場合でも、確信度のばらつきが大きい場合には、乖離度ｄ_ｉ，ｅは小さくなる。

【0046】

実施の形態１では、エポック数Ｅ以下の各エポックｅについて、モデル３２の確信度の平均値μ_ｅが計算される。そのため、乖離度計算部２２３は、エポック数Ｅ以下の各エポックｅおける、複数の訓練データ４１それぞれについての乖離度ｄ_ｉ，ｅを計算する。そして、実施の形態１では、乖離度計算部２２３は、数１５に示すように、複数の訓練データ４１それぞれについて、エポック数Ｅ以下の全てのエポックｅにおける乖離度ｄ_ｉ，ｅの平均値μ_ｉを計算する。なお、乖離度計算部２２３は、平均値μ_ｉではく、乖離度ｄ_ｉ，ｅの中央値といった他の統計値を計算してもよい。

【数15】

【0047】

つまり、図５に示すように、各エポックｅにおける乖離度ｄ_ｉ，ｅが計算される。そして、複数の訓練データ４１それぞれについて、全てのエポックｅにおける乖離度ｄ_ｉ，ｅの平均値μ_ｉが計算される。

【0048】

＊＊＊実施の形態１の効果＊＊＊
以上のように、実施の形態１に係るデータ選別支援装置１０は、複数の訓練データそれぞれについて、モデルの確信度と平均値μ_ｅとの間の乖離度ｄ_ｉ，ｅを計算する。この乖離度ｄ_ｉ，ｅを用いることにより、モデル３２の精度向上を妨げる画像を適切に抽出可能な構成を実現することができる。

【0049】

エポックｅにおいて、多くの訓練データ４１の確信度が低いとする。単純に確信度を用いて訓練データ４１を評価してしまうと、多くの訓練データ４１が適切でないと判断されてしまう可能性がある。例えば、図６に示すように、確信度の平均値μ_ｅが０．３５であったとする。確信度の閾値として０．４０が用いられ、閾値以下の確信度であった訓練データ４１が適切でないと判断されるとする。この場合には、多くの訓練データ４１が適切でないと判断されてしまう。
しかし、乖離度ｄ_ｉ，ｅを用いた場合には、全体的に確信度が低い場合であっても、特に確信度が低い訓練データ４１だけを抽出することができる。全体的に確信度が低い理由は、モデル３２が十分学習できていないエポック数又は対象ラベルの数が他のラベルよりも少ないなどであるが、モデル３２の精度向上を妨げる画像を適切に抽出できる可能性がある。

【0050】

特に、実施の形態１では、距離を確信度のばらつきσ_ｅで除して乖離度ｄ_ｉ，ｅが計算される。これにより、確信度のばらつきσ_ｅを考慮して、モデル３２の精度向上を妨げる画像を適切に抽出可能となる。

【0051】

また、実施の形態１では、エポック数Ｅ以下の全てのエポックｅにおける乖離度ｄ_ｉ，ｅの平均値μ_ｉが計算される。これにより、乖離度ｄ_ｉ，ｅの時間的な推移を考慮して、モデル３２の精度向上を妨げる画像を適切に抽出可能となる。

【0052】

＊＊＊他の構成＊＊＊
＜変形例１＞
実施の形態１では、各機能構成要素がソフトウェアで実現された。しかし、変形例１として、各機能構成要素はハードウェアで実現されてもよい。この変形例１について、実施の形態１と異なる点を説明する。

【0053】

図７を参照して、変形例１に係るデータ選別支援装置１０の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、データ選別支援装置１０は、プロセッサ１１とメモリ１２とストレージ１３とに代えて、電子回路１５を備える。電子回路１５は、各機能構成要素と、メモリ１２と、ストレージ１３との機能とを実現する専用の回路である。

【0054】

電子回路１５としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ、ＡＳＩＣ、ＦＰＧＡが想定される。ＧＡは、ＧａｔｅＡｒｒａｙの略である。ＡＳＩＣは、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。ＦＰＧＡは、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。
各機能構成要素を１つの電子回路１５で実現してもよいし、各機能構成要素を複数の電子回路１５に分散させて実現してもよい。

【0055】

＜変形例２＞
変形例２として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。

【0056】

プロセッサ１１とメモリ１２とストレージ１３と電子回路１５とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。

【0057】

実施の形態２．
実施の形態２では、乖離度ｄ_ｉ，ｅのばらつきσ_ｉを計算する点が実施の形態１と異なる。実施の形態２では、この異なる点を説明し、同一の点については説明を省略する。

【0058】

＊＊＊構成の説明＊＊＊
図８を参照して、実施の形態２に係るデータ選別支援装置１０の構成を説明する。
データ選別支援装置１０は、機能構成要素として、乖離度ばらつき計算部２２４を備える点が図１に示すデータ選別支援装置１０と異なる。乖離度ばらつき計算部２２４の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

【0059】

＊＊＊動作の説明＊＊＊
図９を参照して、実施の形態２に係るデータ選別支援装置１０の動作を説明する。
ステップＳ２１からステップＳ２４の処理は、図３のステップＳ１１からステップＳ１４の処理と同じである。

【0060】

（ステップＳ２５：乖離度ばらつき計算処理）
乖離度ばらつき計算部２２４は、複数の訓練データ４１それぞれについて、数１６に示すように、ステップＳ２４で計算された乖離度ｄ_ｉ，ｅのばらつきσ_ｉを計算する。

【数16】

ここでは、ばらつきとして標準偏差が計算される。しかし、ばらつきとして分散が計算されてもよい。

【0061】

＊＊＊実施の形態２の効果＊＊＊
以上のように、実施の形態２に係るデータ選別支援装置１０は、乖離度ｄ_ｉ，ｅのばらつきσ_ｉを計算する。このばらつきσ_ｉを用いることにより、モデル３２の精度向上に寄与する画像を適切に抽出可能な構成を実現することができる。

【0062】

図１０では、乖離度ｄ_ｉ，ｅの平均値μ_ｉを縦軸とし、乖離度ｄ_ｉ，ｅのばらつきσ_ｉを横軸として、複数の訓練データ４１をプロットした特徴マップを示す。図１０では、訓練データ４１が正常か異常かをモデル３２が識別する場合を想定している。最終エポックでの認識結果が正常である場合には正常の点がプロットされ、異常の場合には異常の点がプロットされている。
乖離度ｄ_ｉ，ｅの平均値μ_ｉが第１閾値（図１０では－２．０）以上の場合には、画像が学習容易なものに分類される。乖離度ｄ_ｉ，ｅのばらつきσ_ｉが第２閾値（図１０では３）以上の場合には、画像が汎用化性能を向上させるものに分類される。乖離度ｄ_ｉ，ｅの平均値μ_ｉが第１閾値未満の場合には、画像が学習困難なものに分類される。
このように、乖離度ｄ_ｉ，ｅの平均値μ_ｉと、乖離度ｄ_ｉ，ｅのばらつきσ_ｉとに基づき、訓練データ４１である画像を分類することができる。そして、例えば、学習困難なものに分類された画像については訓練データ４１から削除するといったことが考えられる。また、汎用化性能を向上させるものに分類された画像については、類似する画像を訓練データ４１に追加するといったことが考えられる。また、学習容易なものに分類された画像については、数を減らすために間引くといったことが考えられる。

【0063】

非特許文献１に記載されたＤＣとの比較から、実施の形態２に係るデータ選別支援装置１０の効果を説明する。
非特許文献１では、数１７に示すように、複数の訓練データ４１それぞれについて、各エポックにおける確信度の平均値μ＾_ｉが計算される。また、非特許文献１では、数１８に示すように、複数の訓練データ４１それぞれについて、確信度のばらつきσ＾_ｉが計算される。

【数17】

【数18】

そして、非特許文献１では、確信度の平均値μ＾_ｉを縦軸とし、確信度のばらつきσ＾_ｉを横軸として、複数の訓練データ４１をプロットした特徴マップが示されている。非特許文献１では、確信度の平均値μ＾_ｉが高い画像が学習容易なものに分類される。確信度のばらつきσ＾_ｉが高い画像が汎用化性能を向上させるものに分類される。確信度の平均値μ＾_ｉが低い画像が学習困難なものに分類される。

【0064】

ディープラーニングでは、確信度が高くなる傾向がある。そのため、訓練データが学習容易なものに分類され易い傾向がある（非特許文献２参照）。また、モデルの学習が十分に行われた場合には、データ数が少ないラベルの画像は、確信度が高くなることがある。このとき、データ数が少ないラベルの画像は、ばらつきが大きくなることもある。そのため、学習困難なものに分類されるべきデータ数が少ないラベルの画像が、学習容易なもの又は汎用化性能を向上させるものに分類されてしまう可能性がある。そのため、非特許文献１に記載されたＤＣでは、モデルの精度向上を妨げる画像を適切に抽出することが困難である。

【0065】

図１１において、点線は、データ数が多いラベルの画像のエポックごとの確信度の平均の推移を示している。実線は、データ数が少ないラベルの画像のエポックごとの確信度の平均の推移を示している。図１１に示すように、データ数が多いラベルの画像とデータ数が少ないラベルの画像とは、エポックに対する確信度の変化が異なる。データ数が多いラベルの画像は、訓練データが多く、モデルが大量に特徴を学習できるため、初期のエポックで確信度が高い状態に達する。一方、データ数が少ないラベルの画像は、図１１に示すようにある程度のエポックになってから確信度が上がっていくか、もしくはずっと確信度が上がらないか、またはその間となる。しかし、データ数が少ないラベルの画像の確信度が上がっていく際は、ラベル以外の特徴を学習している場合がある。ラベル以外の特徴を学習している場合とは、例えば、画像に戦車があるか否かを学習しているはずが、木があるか否かを学習しているといった場合である。異常を検知するモデルでは、異常個所を学習しているはずが、異常個所以外を学習してしまうことがよくある。
これは、モデルにとって、ラベルよりもラベル以外の特徴が強調されて見えてしまったことが原因である。ラベル以外を学習してしまっている画像は訓練データとして有用ではない。そのため、ラベル以外を学習してしまっている可能性がある、データ数が少ないラベルの画像は、学習困難なものに分類される必要がある。
しかし、図１１において、エポック数Ｅが５０であるとすると、非特許文献１に記載されたＤＣでは、確信度の平均値μ＾_ｉは０．５ほどになる。また、確信度として高い値から低い値まで存在するため、確信度のばらつきσ＾_ｉは、高い値になる。そのため、データ数が少ないラベルの画像は、確信度が低いわけではないので、学習困難なものには分類されない。また、確信度が低い状態から高い状態に遷移しているため、汎用化性能を向上させるものに分類される。また、図１１において、エポック数Ｅが１００であるとすると、非特許文献１に記載されたＤＣでは、確信度の平均値μ＾_ｉは０．８ほどになる。また、確信度として高い値が多くなるため、確信度のばらつきσ＾_ｉは低い値になる。そのため、学習容易なものに分類されてしまう。
図１１のように、データ数が少ないラベルの画像の確信度が、最終的に１．０付近まで上がらなくとも、例えば０．５程度でも、エポック数Ｅが大きくモデルの学習が十分に行われた場合には、平均値μ＾_ｉは上昇するため学習困難なものには分類されない。したがって、ＤＣでは、誤った判断を導いてしまう。

【0066】

図１２では、データ数が少ないラベルの画像の確信度の推移が図１１とは別の形式で表されている。データ数が少ないラベルの画像の確信度は、ある程度のエポックになってから上がっている。そして、エポック数が５０になると、確信度は１．０に近い値になっている。そのため、上述した通り、データ数が少ないラベルの画像が学習困難なものには分類されない。
図１３では、図１２に対して、ある訓練データ４１の確信度と乖離度ｄ_ｉ，ｅとが追記されている。ここでのある訓練データ４１は、データ数が少ないラベルの画像のうち、精度向上の妨げとなる画像の訓練データ４１である。図１３に示すように、精度向上の妨げとなる訓練データ４１についても、エポックが進むに連れ、確信度は高くなる。そのため、ＤＣでは、データ数が少ないラベルの他の画像と同様に、ある訓練データ４１も、学習困難なものには分類されない。
しかし、他の画像についての確信度の平均値μ_ｅに比べ、精度向上の妨げとなる訓練データ４１の確信度は低くなる。そのため、乖離度ｄ_ｉ，ｅが低い値（負の大きな値）になり、乖離度ｄ_ｉ，ｅの平均値μ_ｉが低い値になる。したがって、実施の形態２に係るデータ選別支援装置１０では、精度向上の妨げとなる訓練データ４１を学習困難なものに分類することが可能である。
なお、エポックが進むにつれ確信度が変化したとしても、乖離度ｄ_ｉ，ｅが変化しなければ、乖離度ｄ_ｉ，ｅのばらつきσ_ｉは大きくならない。そのため、汎用化性能を向上させるものに分類されることもない。

【0067】

図１４では、データ数が多いラベルの画像の確信度の推移が図１１とは別の形式で表されている。データ数が多いラベルの画像の確信度は、初期段階のエポックから高くなっている。そのため、上述した通り、データ数が多いラベルの画像が学習困難なものには分類されず、学習が容易なものに分類される。
図１５では、図１４に対して、ある訓練データ４１の確信度と乖離度ｄ_ｉ，ｅとが追記されている。ここでのある訓練データ４１は、データ数が多いラベルの画像のうち、精度向上の妨げとなる画像の訓練データ４１である。データ数が多いラベルの画像にも、精度向上の妨げとなる画像の訓練データ４１が含まれる可能性がある。図１５に示すように、精度向上の妨げとなる訓練データ４１についても、エポックが進むに連れ、確信度は高くなることがある。これは、ディープラーニングでは、確信度が高くなる傾向があるためである。そのため、ＤＣでは、データ数が多いラベルの他の画像と同様に、ある訓練データ４１も、学習困難なものには分類されず、学習容易なものに分類される。
しかし、他の画像についての確信度の平均値μ_ｅに比べ、精度向上の妨げとなる訓練データ４１の確信度は低くなる。そのため、乖離度ｄ_ｉ，ｅが低い値になり、乖離度ｄ_ｉ，ｅの平均値μ_ｉが低い値になる。したがって、実施の形態２に係るデータ選別支援装置１０では、精度向上の妨げとなる訓練データ４１を学習困難なものに分類することが可能である。

【0068】

乖離度ｄ_ｉ，ｅの平均値μ_ｉは、学習の難易度を示している。また、乖離度ｄ_ｉ，ｅのばらつきσ_ｉは、学習の難易度の変化を示している。実施の形態２に係るデータ選別支援装置１０では、乖離度ｄ_ｉ，ｅの平均値μ_ｉと乖離度ｄ_ｉ，ｅのばらつきσ_ｉとを用いることにより、適切に学習容易であるか、学習困難であるかを判別可能である。

【0069】

実施の形態３．
実施の形態３は、精度計算部２２によって計算された結果に基づき、訓練データ４１を選別する点が実施の形態１，２と異なる。実施の形態３では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態３では、実施の形態２に機能を加えた場合について説明する。しかし、実施の形態１に機能を加えることも可能である。

【0070】

＊＊＊構成の説明＊＊＊
図１６を参照して、実施の形態３に係るデータ選別支援装置１０の構成を説明する。
データ選別支援装置１０は、機能構成要素として、データ選別部２３を備える点が図８に示すデータ選別支援装置１０と異なる。データ選別部２３の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

【0071】

＊＊＊動作の説明＊＊＊
図１７を参照して、実施の形態３に係るデータ選別支援装置１０の動作を説明する。
ステップＳ３１からステップＳ３５の処理は、図９のステップＳ２１からステップＳ２５の処理と同じである。

【0072】

（ステップＳ３６：データ選別処理）
データ選別部２３は、ステップＳ３４で計算された乖離度ｄ_ｉ，ｅの平均値μ_ｉと、ステップＳ３５で計算された乖離度ｄ_ｉ，ｅのばらつきσ_ｉとに基づき、訓練データ４１を選別する。
具体例としては、データ選別部２３は、図１０に基づき説明したように画像を分類する。つまり、データ選別部２３は、画像を、学習容易なものと、汎用化性能を向上させるものと、学習困難なものとに分類する。そして、データ選別部２３は、学習困難なものに分類された画像については訓練データ４１から削除してもよい。また、データ選別部２３は、学習容易なものに分類された画像については、数を減らすために間引いてもよい。データ選別部２３は、学習容易なものに分類された画像については、乖離度ｄ_ｉ，ｅの平均値μ_ｉが高いほど、多くの画像を間引くようにしてもよい。
なお、汎用化性能を向上させるものに分類された画像については、類似する画像を訓練データ４１に追加するように通知してもよい。

【0073】

＊＊＊実施の形態３の効果＊＊＊
以上のように、実施の形態３に係るデータ選別支援装置１０は、乖離度ｄ_ｉ，ｅの平均値μ_ｉと乖離度ｄ_ｉ，ｅのばらつきσ_ｉとに基づき、訓練データ４１を選別する。これにより、人手によらず、自動的に不要な訓練データ４１を削除することが可能になる。
不要な訓練データ４１とは、モデル３２の精度向上を妨げる可能性が高い訓練データ４１と、モデル３２の精度向上に不要な訓練データ４１とである。

【0074】

＊＊＊他の構成＊＊＊
＜変形例４＞
ラベル付けが間違っている訓練データ４１は、乖離度ｄ_ｉ，ｅの平均値μ_ｉが低くなる。しかし、ラベル付けが正しくても、乖離度ｄ_ｉ，ｅの平均値μ_ｉが低くなる場合がある。例えば、異なるラベル間で特徴が類似している場合には、乖離度ｄ_ｉ，ｅの平均値μ_ｉが低くなる可能性がある。また、特徴がユニークであり、数が少ないタイプの画像は、乖離度ｄ_ｉ，ｅの平均値μ_ｉが低くなる可能性がある。
図１８の（Ａ）に示す訓練データ４１は、犬の画像であり、ラベルが犬と付されており、適切な訓練データ４１である。しかし、一部の犬Ｘの画像は、（Ｂ）に示すモップの画像との区別がつき難い。そのため、訓練データ４１に、（Ａ）の犬Ｘの画像が少なく、（Ｂ）のようなモップの画像が多い場合には、犬Ｘの画像はラベルがモップの訓練データ４１の影響を受け、確信度が高くなりにくい。
犬Ｘのような画像については、訓練データ４１から削除してしまうのではなく、同じ見た目の犬の画像を訓練データ４１に追加することが望ましい。つまり、犬Ｘは、他の犬と比較して特徴がユニークである。そこで、同様の特徴を持つ犬の画像を訓練データ４１に追加して学習することが望ましい。しかし、実施の形態３で説明したように、単純に乖離度ｄ_ｉ，ｅの平均値μ_ｉの閾値で削除するか否かを決定してしまうと、犬Ｘのような画像は削除されてしまう可能性がある。

【0075】

ラベル付けが間違っている画像だけを削除することが望ましい。一例として以下の（１）から（３）の条件を全て満たせば、ラベル付けが間違っている画像と考えられる。（１）学習を行っても確信度が上がらない。（２）異なるラベルの画像と特徴が類似している。（３）同一のラベルの画像と特徴が類似していない。
（１）については、エポックが進んだ場合における乖離度ｄ_ｉ，ｅの推移から判断できる。（２）（３）は特徴の間の距離により判断できる。距離は、具体例としてはｃｏｓ距離である。特徴が類似していれば距離が近い。特徴が類似していなければ距離が遠い。

【0076】

そこで、データ選別部２３は、以下の処理を行い、ラベル付けが間違っている画像であるか否かを判定してもよい。
手順１．データ選別部２３は、学習済のモデル３２を用意する。
手順２．データ選別部２３は、学習済のモデル３２を用いて、画像の５１２次元程度の特徴を抽出する。
手順３．データ選別部２３は、各画像間の距離（ｃｏｓ距離等）を計算する。
手順４．データ選別部２３は、各画像について、その画像とは異なるラベルの画像を対象として、対象のラベルが付された画像との間の最小距離を特定する。
手順５．データ選別部２３は、各画像について、その画像と同じラベルの画像を対象として、対象のラベルが付された画像との間の最小距離を特定する。
手順６．データ選別部２３は、以下の条件Ｃ１からＣ３を全て満たす画像を、学習が困難な画像（ラベル付けに誤りがある画像）として抽出する。（Ｃ１）乖離度ｄ_ｉ，ｅの平均値μ_ｉが基準乖離度（例えば－２）以下である。（Ｃ２）手順４の最小距離が第１距離（例えば０．１）以下である。（Ｃ３）手順５の最小距離が第２距離（例えば０．３）以上である。
手順７．データ選別部２３は、抽出された画像を削除すると判定する。
なお、ここでは、対象のラベルが付された画像との間の距離の最小距離が用いられた。しかし、最小距離ではなく、平均距離が用いられてもよい。

【0077】

実施の形態４．
実施の形態４は、特徴マップ等を表示して、訓練データ４１を選別させる点が実施の形態１，２と異なる。実施の形態４では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態４では、実施の形態２に機能を加えた場合について説明する。しかし、実施の形態１に機能を加えることも可能である。

【0078】

＊＊＊構成の説明＊＊＊
図１９を参照して、実施の形態４に係るデータ選別支援装置１０の構成を説明する。
データ選別支援装置１０は、機能構成要素として、特徴表示部２４を備える点が図８に示すデータ選別支援装置１０と異なる。特徴表示部２４の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

【0079】

＊＊＊動作の説明＊＊＊
図２０を参照して、実施の形態４に係るデータ選別支援装置１０の動作を説明する。
ステップＳ４１からステップＳ４５の処理は、図９のステップＳ２１からステップＳ２５の処理と同じである。

【0080】

（ステップＳ４６：特徴表示処理）
特徴表示部２４は、図１０に示す特徴マップを表示して、ユーザに訓練データ４１を選別させる。なお、特徴表示部２４は、図１０に示す特徴マップの形態に限らず、各訓練データ４１について、乖離度ｄ_ｉ，ｅの平均値μ_ｉと乖離度ｄ_ｉ，ｅのばらつきσ_ｉとを表示すればよい。
選別は、分類された画像をユーザが確認して行われる。つまり、閾値により一律に処理するのではなく、画像を見て判断される。

【0081】

＊＊＊実施の形態４の効果＊＊＊
以上のように、実施の形態４では、特徴マップ等を表示して、ユーザに訓練データ４１を選別させる。これにより、本来削除すべきでない訓練データ４１を削除してしまうといったことを防止することが可能である。

【0082】

図１８の（Ａ）における犬Ｘのような画像については、訓練データ４１から削除してしまうのではなく、同じ見た目の犬の画像を訓練データ４１に追加することが望ましい。しかし、実施の形態３で説明したように、単純に乖離度ｄ_ｉ，ｅの平均値μ_ｉの閾値で削除するか否かを決定してしまうと、犬Ｘのような画像は削除されてしまう可能性がある。これに対して、実施の形態４のように、特徴マップ等を表示して、ユーザに訓練データ４１を選別させることで、犬Ｘのような画像が削除されることを防止できる。また、犬Ｘのような画像を追加するという判断を促すこともできる。

【0083】

＊＊＊他の構成＊＊＊
＜変形例５＞
単純に乖離度ｄ_ｉ，ｅの平均値μ_ｉだけでは、削除するべきか否かを決定することが難しい。そこで、特徴表示部２４は、乖離度ｄ_ｉ，ｅの平均値μ_ｉとともに、変形例４で説明した距離を表示してもよい。つまり、特徴表示部２４は、乖離度ｄ_ｉ，ｅの平均値μ_ｉとともに、手順４の最小距離と手順５の最小距離との少なくともいずれかを表示してもよい。
具体例としては、特徴表示部２４は、乖離度ｄ_ｉ，ｅの平均値μ_ｉを縦軸とし、手順４の最小距離を横軸とした２次元空間に各画像の情報をプロットして表示する。また、特徴表示部２４は、乖離度ｄ_ｉ，ｅの平均値μ_ｉを縦軸とし、手順５の最小距離を横軸として２次元空間に各画像の情報をプロットして表示してもよい。また、特徴表示部２４は、手順４の最小距離をＸ軸とし、手順５の最小距離をＹ軸とし、乖離度ｄ_ｉ，ｅの平均値μ_ｉをＺ軸とした３次元空間に各画像の情報をプロットして表示してもよい。
これにより、乖離度ｄ_ｉ，ｅの平均値μ_ｉとともに、変形例４で説明した距離を考慮して、削除すべきか否かを判定することができる。

【0084】

＜変形例６＞
以上の説明では、訓練データ４１を選別することを説明した。しかし、同じ手法により、訓練データ４１ではなく、検証データ４２を選別することも可能である。

【0085】

なお、以上の説明における「部」を、「回路」、「工程」、「手順」、「処理」又は「処理回路」に読み替えてもよい。

【0086】

以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか１つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。

【符号の説明】

【0087】

１０データ選別支援装置、１１プロセッサ、１２メモリ、１３ストレージ、１４通信インタフェース、１５電子回路、２１入力受付部、２２精度計算部、２２１確信度平均計算部、２２２確信度ばらつき計算部、２２３乖離度計算部、２２４乖離度ばらつき計算部、２３データ選別部、２４特徴表示部、３１学習装置、３２モデル、４１訓練データ、４２検証データ。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【図18】

【図19】

【図20】

【手続補正書】

【提出日】2023-01-13

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

エポック数Ｅ以下の各エポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する確信度平均計算部と、
前記複数の訓練データそれぞれについて、前記各エポックｅにおける前記モデルの確信度と、前記確信度平均計算部によって計算された前記平均値μ_ｅとの間の乖離度を計算する乖離度計算部と
を備えるデータ選別支援装置。

【請求項2】

前記乖離度計算部は、前記各エポックｅにおける前記乖離度の平均値μ_ｉを計算する
請求項１に記載のデータ選別支援装置。

【請求項3】

前記データ選別支援装置は、さらに、
前記各エポックｅについて、前記複数の訓練データそれぞれに対するモデルの確信度のばらつきを計算する確信度ばらつき計算部
を備え、
前記乖離度計算部は、前記確信度ばらつき計算部によって計算された前記確信度のばらつきを用いて、前記乖離度の平均値μ_ｉを計算する
請求項２に記載のデータ選別支援装置。

【請求項4】

【数1】

【数2】

【数3】

【請求項5】

前記データ選別支援装置は、さらに、
前記乖離度計算部によって計算された前記乖離度のばらつきを計算する乖離度ばらつき計算部
を備える請求項１から４までのいずれか１項に記載のデータ選別支援装置。

【請求項6】

前記データ選別支援装置は、さらに、
数４に示すように、前記乖離度計算部によって計算された前記乖離度のばらつきσ_ｉを計算する乖離度ばらつき計算部
を備える請求項４に記載のデータ選別支援装置。

【数4】

【請求項7】

前記データ選別支援装置は、さらに、
前記乖離度と、前記乖離度のばらつきとの少なくともいずれかに基づき、前記複数の訓練データから削除する訓練データを選別するデータ選別部
を備える請求項５又は６に記載のデータ選別支援装置。

【請求項8】

前記データ選別部は、各訓練データについて他の訓練データとの間の特徴の距離に基づき、削除する訓練データを選別する
請求項７に記載のデータ選別支援装置。

【請求項9】

前記データ選別支援装置は、さらに、
前記乖離度と、前記乖離度のばらつきとの一方を縦軸とし、他方を横軸として、前記複数の訓練データをプロットした特徴マップを表示する特徴表示部
を備える請求項５から８までのいずれか１項に記載のデータ選別支援装置。

【請求項10】

前記特徴表示部は、各訓練データについて他の訓練データとの間の特徴の距離を表示する
請求項９に記載のデータ選別支援装置。

【請求項11】

コンピュータが、エポック数Ｅ以下の各エポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算し、
コンピュータが、前記複数の訓練データそれぞれについて、前記各エポックｅにおける前記モデルの確信度と、前記平均値μ_ｅとの間の乖離度を計算するデータ選別支援方法。

【請求項12】

エポック数Ｅ以下の各エポックｅについて、複数の訓練データそれぞれに対するモデルの確信度の平均値μ_ｅを計算する確信度平均計算処理と、
前記複数の訓練データそれぞれについて、前記各エポックｅにおける前記モデルの確信度と、前記確信度平均計算処理によって計算された前記平均値μ_ｅとの間の乖離度を計算する乖離度計算処理と
を行うデータ選別支援装置としてコンピュータを機能させるデータ選別支援プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版