(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024078272
(43)【公開日】2024-06-10
(54)【発明の名称】訓練データ生成システム
(51)【国際特許分類】
G06N 3/0475 20230101AFI20240603BHJP
G06T 7/00 20170101ALI20240603BHJP
G06N 20/00 20190101ALI20240603BHJP
G06N 3/09 20230101ALI20240603BHJP
G06N 3/047 20230101ALI20240603BHJP
G06N 3/126 20230101ALI20240603BHJP
【FI】
G06N3/0475
G06T7/00 610B
G06T7/00 350C
G06N20/00 130
G06N3/09
G06N3/047
G06N3/126
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022190710
(22)【出願日】2022-11-29
(71)【出願人】
【識別番号】504258527
【氏名又は名称】国立大学法人 鹿児島大学
(71)【出願人】
【識別番号】301069030
【氏名又は名称】株式会社トヨタ車体研究所
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100162259
【弁理士】
【氏名又は名称】末富 孝典
(74)【代理人】
【識別番号】100168114
【弁理士】
【氏名又は名称】山中 生太
(74)【代理人】
【識別番号】100146916
【弁理士】
【氏名又は名称】廣石 雅紀
(72)【発明者】
【氏名】小野 智司
(72)【発明者】
【氏名】東園 雄太
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA03
5L096EA06
5L096EA39
5L096FA32
5L096FA33
5L096FA52
5L096FA69
5L096GA30
5L096GA55
5L096HA11
5L096JA11
5L096KA04
(57)【要約】 (修正有)
【課題】利用者がコンピュータを扱う技術を必要とせず、短時間、かつ、軽負担で膨大な数の教師信号付き訓練データを生成する技術を提供する。
【解決手段】特徴の有無により分類対象を分類する深層学習器の学習に用いられる訓練データ生成システム1であって、訓練データ生成モデル、判定部及び最適化部を備える。訓練データ生成モデルは、特徴を規定するパラメータを座標軸とするパラメータ空間に規定される確率分布に従って個体群を生成し、それらの各個体に対応するパラメータの設定値によって規定される画像データを生成する。判定部は、画像データ夫々について特徴をどの程度適切に表しているかを利用者に判定させる。最適化部は、これら画像データの生成と、判定とを繰り返させつつ、特徴を適切に表していると判定される画像データの数が多くなるか又は訓練データにおける特徴を適切に表す度合が増すように確率分布を推定する対話型の最適化処理を行う。
【選択図】
図2
【特許請求の範囲】
【請求項1】
特徴の有無により分類対象を分類する深層学習器の学習に用いられる教師信号付き訓練データを生成する訓練データ生成システムであって、
前記特徴を規定するパラメータを座標軸とするパラメータ空間におけるベクトルを1個体とし、前記パラメータ空間に規定される確率分布に従って個体群を生成し、前記個体群の各個体に対応するパラメータの設定値によって規定される訓練データを生成する訓練データ生成モデルと、
前記訓練データ生成モデルで生成された訓練データそれぞれについて特徴をどの程度適切に表しているかを利用者に判定させる判定部と、
前記訓練データ生成モデルによる訓練データの生成と、前記判定部における判定とを繰り返させつつ、特徴を適切に表していると判定される前記訓練データが多くなるか、前記訓練データにおける特徴を適切に表す度合が増すように前記確率分布を推定する対話型の最適化処理を行う最適化部と、
を備える訓練データ生成システム。
【請求項2】
前記最適化部は、
前記最適化処理として、共分散行列適応進化戦略を用いた対話型進化計算を行う、
請求項1に記載の訓練データ生成システム。
【請求項3】
前記訓練データ生成モデルは、
前記各個体に対応するパラメータの設定値によって規定される特徴を示す特徴画像データを生成し、
前記特徴を有しない分類対象の基準画像データに、前記特徴画像データを重ね合わせることにより、前記訓練データを生成する、
請求項1又は2に記載の訓練データ生成システム。
【請求項4】
前記分類対象は、検査対象の外面であり、
前記特徴は、外面に表れる傷又は亀裂であり、
前記基準画像データは、前記特徴を有しない検査対象の外面の画像データであり、
前記特徴画像データは、前記個体に対応するパラメータの設定値によって規定される前記特徴の画像データである、
請求項3に記載の訓練データ生成システム。
【請求項5】
前記訓練データ生成モデルは、
前記各個体に対応するパラメータの設定値によって規定される特徴を表す分類対象の画像データを生成する、
請求項1又は2に記載の訓練データ生成システム。
【請求項6】
前記特徴は、前記分類対象の形状、構造、部品の組合せ、模様、色彩又はこれらの結合に関する特徴である、
請求項5に記載の訓練データ生成システム。
【請求項7】
前記訓練データは、分類対象となる系列データであり、
前記訓練データ生成モデルは、
前記各個体に対応するパラメータの設定値によって規定される特徴を表す前記系列データを生成する、
請求項1又は2に記載の訓練データ生成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、訓練データ生成システムに関する。
【背景技術】
【0002】
深層学習器である深層ニューラルネットワーク(DNN)を訓練する教師信号付き訓練データを生成する教師データ生成装置が開示されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2020/217425号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
深層学習器を学習するためには、膨大な数の教師信号付き訓練データが必要になる。膨大な数の教師信号付き訓練データを生成するためには、分類対象に精通する専門家が、コンピュータ技術を駆使して訓練データを生成し、長い時間をかけて訓練データに教師信号を付与する作業を行う必要がある。その作業は非常に負担が大きいものとなる。このため、上述の専門家である利用者が、短時間かつ軽負担で膨大な数の教師信号付き訓練データを生成することができるシステムの登場が望まれている。
【0005】
本発明は、上記実情の下になされたものであり、利用者がコンピュータを扱う技術を持つことなく、短時間かつ軽負担で膨大な数の教師信号付き訓練データを生成することができる訓練データ生成システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る訓練データ生成システムは、
特徴の有無により分類対象を分類する深層学習器の学習に用いられる教師信号付き訓練データを生成する訓練データ生成システムであって、
前記特徴を規定するパラメータを座標軸とするパラメータ空間におけるベクトルを1個体とし、前記パラメータ空間に規定される確率分布に従って個体群を生成し、前記個体群の各個体に対応するパラメータの設定値によって規定される訓練データを生成する訓練データ生成モデルと、
前記訓練データ生成モデルで生成された訓練データそれぞれについて特徴をどの程度適切に表しているかを利用者に判定させる判定部と、
前記訓練データ生成モデルによる訓練データの生成と、前記判定部における判定とを繰り返させつつ、特徴を適切に表していると判定される前記訓練データが多くなるか、前記訓練データにおける特徴を適切に表す度合が増すように前記確率分布を推定する対話型の最適化処理を行う最適化部と、
を備える。
【0007】
この場合、前記最適化部は、
前記最適化処理として、共分散行列適応進化戦略を用いた対話型進化計算を行う、
こととしてもよい。
【0008】
前記訓練データ生成モデルは、
前記各個体に対応するパラメータの設定値によって規定される特徴を示す特徴画像データを生成し、
前記特徴を有しない分類対象の基準画像データに、前記特徴画像データを重ね合わせることにより、前記訓練データを生成する、
こととしてもよい。
【0009】
前記分類対象は、検査対象の外面であり、
前記特徴は、外面に表れる傷又は亀裂であり、
前記基準画像データは、前記特徴を有しない検査対象の外面の画像データであり、
前記特徴画像データは、前記個体に対応するパラメータの設定値によって規定される前記特徴の画像データである、
こととしてもよい。
【0010】
前記訓練データ生成モデルは、
前記各個体に対応するパラメータの設定値によって規定される特徴を表す分類対象の画像データを生成する、
こととしてもよい。
【0011】
前記特徴は、前記分類対象の形状、構造、部品の組合せ、模様、色彩又はこれらの結合に関する特徴である、
こととしてもよい。
【0012】
前記訓練データは、分類対象となる系列データであり、
前記訓練データ生成モデルは、
前記各個体に対応するパラメータの設定値によって規定される特徴を表す前記系列データを生成する、
こととしてもよい。
【発明の効果】
【0013】
本発明によれば、訓練データの生成と、利用者による訓練データの特徴を表すデータらしさの判定とを繰り返させつつ、特徴を表すデータらしいと判定される訓練データの数が多くなるか、訓練データにおける特徴を表すデータらしさが増すように特徴を規定するパラメータの確率分布を推定する対話型の最適化処理を行って、教師信号付き訓練データを生成することができるので、利用者がコンピュータを扱う技術を持つことなく、短時間かつ軽負担で膨大な数の教師信号付き訓練データを生成することができる。
【図面の簡単な説明】
【0014】
【
図1】(A)は、車体の塗装面の画像データを示す図である。(B)は、同じ塗装面を光の当たり方を変えて撮像して得られる複数の画像データである。
【
図2】本発明の実施の形態1に係る訓練データ生成システムの機能構成を示すブロック図である。
【
図5】(A)~(D)は、傷の明度に関する態様を示す図であり、(E)は、明線と暗線との間隔を示す模式図である。
【
図6】(A)は、混合ガウス分布による傷の輝度変化の一例を示す模式図である。(B)は、傷の画像データにおける輝度の変化の一例を示す図である。
【
図7】画像データと利用者の判定結果とを結びつける様子を示す模式図である。
【
図8】分散行列適応進化戦略において世代毎に確率分布が変化する様子を示す図である。
【
図9】
図2の訓練データ生成システムのハードウエア構成を示すブロック図である。
【
図10】
図2の訓練データ生成システムの訓練データ生成処理のフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について図面を参照して詳細に説明する。各図面においては、同一又は同等の部分に同一の符号を付す。
【0016】
本実施の形態に係る訓練データ生成システムは、特徴の有無により分類対象を分類する深層学習器の学習に用いられる教師信号付き訓練データを生成する。本実施の形態では、分類対象は検査対象の外面であり、特徴は検査対象の外面に表れる傷である。また、訓練データは、検査対象の外面の画像データであり、教師信号は特徴の有無、すなわち傷の有無を示す情報である。すなわち、本実施の形態に係る訓練データ生成システムは、検査対象の外面の画像データに表れる傷の有無によりその外面を分類する深層学習器の学習に用いられる傷の有無の情報付き画像データを生成する。
【0017】
特に、本実施の形態に係る訓練データ生成システムは、検査対象の外面を自動車生産工場において塗装された自動車の車体の塗装面とし、分類の基準となる特徴を塗装傷(以下、単に「傷」とする)とする。
図1(A)に示すように、例えば2cm四方の塗装面の画像データが撮像され、この画像データを深層学習器に入力し、深層学習器が傷の有る塗装面であるか否かを分類することにより、塗装面の検査が行われる。なお、数千枚の傷有りの塗装面の画像に対して専門家が人手で教師信号を付与した教師信号付き画像データで学習した深層学習器で学習した場合、その深層学習器で95%以上の傷を検知できることが確認されている。
【0018】
傷のない塗装面の画像データを用意するのに比べ、傷を含む塗装面の画像データを多数用意するのは極めて困難である。また、車体の塗装面は、
図1(B)に示すように、同じ塗装面であっても光の当たり方によって全く印象が異なる画像となるうえ、場合によっては実際には存在する傷が写らない場合も多い。このことが、深層学習器による傷の検査を難しくしている。本実施の形態に係る訓練データ生成システムは、塗装面の傷を自動的に検査する深層学習器の学習に必要な膨大な数の教師信号付き画像データを、短時間かつ軽負担で生成する。
【0019】
[機能構成]
図2に示すように、訓練データ生成システム1は、その機能構成として、訓練データ生成モデル10と、判定部11と、最適化部12と、を備える。
【0020】
[訓練データ生成モデル]
訓練データ生成モデル10が、上述の教師信号付き画像データを生成する。訓練データ生成モデル10は、
図3に示すように、塗装面の基準画像データに、傷の画像データを重ね合わせることにより、合成画像データを生成する。すなわち、本実施の形態では、塗装面の基準画像データが傷を有しない塗装面の画像データに対応し、傷の画像データが特徴画像データに対応する。
【0021】
傷の画像データは、コンピュータグラフィックで生成される画像である。訓練データ生成モデル10は、予め設定されたパラメータの設定値に基づいて、傷の画像データを生成する。このようなパラメータには、例えば以下の様なものがある。
(1)近似曲線のパラメータ
(2)線の明度、組み合わせ、位置関係のパラメータ
(3)画像の平滑化フィルタに関するパラメータ
(4)画像合成に関するパラメータ
(5)混合ガウス分布による傷の輝度変化関連のパラメータ
【0022】
(1)近似曲線のパラメータ
傷は、そのほとんどが線状であり、2次曲線で近似できるものである。そのため2次曲線を規定するパラメータの設定値に基づいて、傷の画像データを生成することができる。本実施の形態では、この2次曲線のパラメータ:σc,aを傷の画像データを生成するためのパラメータとする。
【0023】
図4に示すように、2次曲線の軌跡を示すベクトルをrとする。そして、2次曲線の端点ベクトルをr
1、r
3とし、接点が端点を結ぶ線分と平行になる点(中間点)のベクトルをr
2とする。この場合、ベクトルrは、係数k
0,k
1,k
2,k
3を用いたベクトルr
1,r
2,r
3の線形結合で表される。
r=(1/k
0)×(k
1r
1+k
2r
2+k
3r
3)・・・(1)
この2次曲線の中間点r
2は、以下のように表される。
r
2=(r
1+r
3)/2+σ
cμ|r
1-r
3|
ここで、σ
cは、二次曲線の中間点のベクトルr
2の分散であり、μは、[0,1]の一様乱数から成るベクトルである。
【0024】
各係数k0,k1,k2,k3は、以下の計算式で表わされる。
k1=(1-t)(1-2t)
k2=(4+a)t(1-t)
k3=t(2t-1)
k0=k1+k2+k3=1+at(1-t)
ここで、t=0~1である。t=0のときr=r1となり、t=0.5のときr=r2となり、t=1のときr=r3となる。
【0025】
パラメータaの変化により、2次曲線は、以下のように規定される。
a>0:双曲線
a=0:放物線
a<0:楕円
このように、傷を近似する2次曲線は、中間点r2の分散σc及び曲線のパラメータaで決まる。本実施の形態では、σc,aが、最適化の対象となるパラメータとして含められる。
【0026】
(2)線の明度、組み合わせ、位置関係のパラメータ
図5(A)~
図5(D)に示すように、光の当たり方によって傷の明度は様々に変化する。例えば、
図5(A)に示す画像では、傷は白い明線で構成されており、
図5(B)に示す画像では、傷は黒い暗線で構成されている。また、
図5(C)に示す画像では、傷は、下のエッジが明るい明線となり、他の部分は暗線で構成されている。
図5(D)では、上のエッジが明線となり、他の部分が暗線で構成されている。
【0027】
本実施の形態では、傷を構成する線が、明線のみであるか、明線と暗線とを組み合わせたものであるか、暗線のみであるかを設定可能な傷の線種T
lineが、最適化の対象となるパラメータとして含められる。また、
図5(E)に示すように、明線と、暗線との画像上の間隔Ox、Oyも最適化の対象となるパラメータとして含めることができる。1本の傷における明線、暗線の本数もパラメータとして含めることができる。
【0028】
(3)画像の平滑化フィルタに関するパラメータ
焦点の調整具合,光の当たり方等により傷の鋭さが変化するため,画像を平滑化するフィルタのパラメータを最適化の対象となるパラメータとして含めることができる。例えば、平滑化の強度Tbulrがパラメータとなる。このようなフィルタには、例えばガウシアンフィルタがあるが、これに限定されない。
【0029】
(4)画像合成に関するパラメータ
図3に示すように、合成画像データは、傷なしの基準画像データと傷の画像データとを重ね合わせて、すなわち基準画像データに傷の画像データを埋め込んで形成される。この場合、合成画像データは、各画素は、基準画像データの画素と傷の画像データの画素との重み付け線形和となる。このそれぞれの重みを、最適化の対象となるパラメータとして含めることができる。
【0030】
(5)混合ガウス分布による輝度変化関連のパラメータ
図5(D)に示すように、実際の傷の画像では、傷の深さの不均一性や、光の当たり方などにより、傷の明度が変化する。傷の明度の変化は、
図6に示すように、混合ガウス分布を用いて表現することができる。したがって、本実施の形態では、
図3に示す傷の画像データにおける傷の輝度値を、混合ガウス分布を用いて補正する。混合ガウス分布は、以下の式で表される。
【数1】
混合ガウス分布は、各分布の平均μ
k、標準偏差の最大値、最小値σ
max、σ
min、安定度s、各分布の重みπ
kによって決まる。したがって、これらが最適化の対象となるパラメータとして含められる。なお、重みπ
kについては、以下の制約がある。
Σ
kΠ
k=1
【0031】
図3に示す傷の画像データは、上述のパラメータに基づいて生成される。これらパラメータをxk(k=1~Kの自然数)としてまとめる。パラメータxkは、
図1に示すパラメータ空間PSの座標軸となる。すなわちパラメータ空間PSは、K次元の空間となる。このパラメータ空間PSの1点1点を示すベクトルVn(n=1~Nの自然数)は、パラメータxkの設定値の組み合わせを示している。本実施の形態では、このベクトルVnを1個体とする。以下、ベクトルVnを個体Vnとも呼ぶ。
【0032】
パラメータ空間PSでは、パラメータxkの組み合わせであるベクトルVnの確率分布PDが規定されている。確率分布PDは、多変量正規分布である。確率分布PDが決まっている場合、訓練データ生成モデル10は、この確率分布PDに従って、ベクトルVnの個体群V1~VNを生成する。個体群V1~VNの抽出は、確率分布PDに従ってランダムに行われる。この場合、抽出される個体Vnは、楕円の中心に向かって密となる。
【0033】
すなわち、訓練データ生成モデル10は、特徴を規定するパラメータxkを座標軸とするパラメータ空間PSにおけるベクトルVn(n=1~N)を1個体とし、パラメータ空間PSに規定される確率分布PDに従って個体群V1~VNを生成する。さらに、訓練データ生成モデル10は、個体群V1~VNの各個体Vnに対応するパラメータxkの設定値によって規定される画像データTDnを生成する。
【0034】
上述したように、本実施の形態では、訓練データ生成モデル10は、各個体Vnに対応するパラメータxkの設定値によって規定される傷を示す傷の画像データTDnを生成し、
図3に示すように、傷を有しない分類対象の基準画像データに、特徴画像データ(傷の画像データ)を重ね合わせることにより、訓練データとしての画像データTDnを生成する。
【0035】
[判定部]
判定部11は、訓練データ生成モデル10で生成された画像データTDnを入力する。判定部11は、画像データTDnそれぞれについて特徴(傷)を表すデータらしさ、すなわち特徴(傷)をどの程度適切に表しているかを利用者Sに判定させる。特徴を表すデータらしさとは、特徴を有しない分類対象の画像データに特徴(傷)を表す画像データを合成した合成画像データであっても、分類対象が実際に特徴を有しているように利用者Sに見える度合いを示す。
【0036】
本実施の形態では、判定部11は、特徴(傷)の有無を利用者Sに判定させる。具体的には、訓練データ生成システム1は、後述するように、マンマシンインターフェイスとして操作部34及び表示部35を有している。判定部11は、表示部35に、訓練データ生成モデル10によって生成された画像データ(
図3の合成画像データ)TDnに基づく画像を表示させる。利用者Sは、表示部35に表示された画像データTDnに基づく画像を見てその画像に特徴(傷)が有るかないかを判定し、その判定結果を操作部34に入力させる。判定部11は、
図7に示すように、画像データと、利用者Sの判定結果を教師信号として結びつけて、最適化部12に送る。
【0037】
[最適化部]
最適化部12は、訓練データ生成モデル10による画像データTDnの生成と、判定部11による画像データTDnの判定とを繰り返させつつ、特徴(傷)を適切に表していると判定される画像データTDnが多くなるか、画像データTDnにおける特徴(傷)を適切に表す度合が増すように、確率分布PDを推定する対話型の最適化処理を行う。対話型の最適化処理とは、利用者との対話を重ね、多点探索型で、メタヒューリスティックに最適値を探索する最適化手法を用いた処理である。
【0038】
本実施の形態では、最適化部12は、最適化処理として、共分散行列適応進化戦略(CMA-ES)を用いた対話型進化計算を行う。CMA-ESは、一般の進化戦略とは異なり、解候補となる個体群V1~VNを直接保持せず、多変量正規分布PD(m、σ2、C)により解候補の集団を生成し,目的関数を用いた評価で高評価を得た候補に基づいて、平均m、標準偏差σ及び共分散行列Cを更新することで解の探索を行う最適化処理である。
【0039】
CMA-ESにおいて、例えば、
図8に示すように世代gから世代g+1に確率分布PDを更新する場合について説明する。世代を進めるにあたって、その確率分布PDにおいて、生成された個体群V1~VNのうち、傷有りと判定された個体Vn(これらを「エリート」とする)の平均mを次世代の平均mに更新する。また、共分散行列Cは、現世代の共分散行列に、今回のエリートと現世代のmとの差分に基づく共分散行列を加算して得られるRank-μ-updateと、これまでの共分散行列Cの軌跡に基づいて求められるRank-One-Updateとを組み合わせた共分散行列Cに更新される。さらに、標準偏差σは、確率分布PDの世代間の移動の長さが短くなれば小さくし、移動の長さが長くなれば大きくすることにより、更新される。
【0040】
最適化部12は、このようにして、多変量正規分布PD(m、σ2、C)の平均m、共分散行列C、標準偏差σ、を更新しながら、傷が写っている画像データらしいと判定される画像データTDnが多くなるか、画像データTDnにおける傷を表すデータらしさが増すように多変量正規分布PD(m、σ2、C)を探索する。基本的には、初期においては、広い領域で探索を行うため、大きな標準偏差σで探索が行われる。多変量正規分布PD(m、σ2、C)が、最適解の存在する領域に近づいていくと、標準偏差σが小さくなっていき、平均mの移動も小さくなる。これにより、最適な多変量正規分布PD(m、σ2、C)が得られるようになる。解候補の世代が更新され、例えば、所定回数世代を更新したところで、最適化部12は、最適化処理を終了する。
【0041】
最適化部12において、最終的に規定された最終世代の多変量正規分布PD(m、σ2、C)が、最適化された確率分布PDとなる。訓練データ生成モデル10は、最適化された確率分布PDに従って、個体群の各個体に対応するパラメータxkの設定値によって規定される教師信号付き画像データを生成する。深層学習器は、このようにして生成された教師信号付き画像データを用いて学習を行う。なお、個体群の個体の数は探索時のNと同じとする必要はなく、より多数の個体の画像データを生成することができる。
【0042】
[ハードウエア構成]
図1に示す訓練データ生成システム1は、例えば、
図9に示すハードウエア構成を有するコンピュータがソフトウエアプログラムを実現することにより実現される。具体的には、訓練データ生成システム1は、装置全体の制御を司るCPU(Central Processing Unit)21と、CPU21の作業領域等として動作する主記憶部22と、CPU21の動作プログラム等を記憶する外部記憶部23と、操作部24と、表示部25と、入出力部26と、これらを接続する内部バス28から構成される。
【0043】
主記憶部22は、RAM(Random Access Memory)等から構成されている。主記憶部22には、CPU21によって実行されるプログラム29が外部記憶部23からロードされる。また、主記憶部22は、CPU21の作業領域(データの一時記憶領域)としても用いられる。
【0044】
外部記憶部23は、フラッシュメモリ、ハードディスク等の不揮発性メモリから構成される。外部記憶部23には、CPU21に実行させるためのプログラム29が予め記憶されている。
【0045】
操作部24は、キーボード及びマウス等のデバイスと、これらのデバイスを内部バス28に接続するインターフェイス装置から構成されている。
【0046】
表示部25は、CRT(Cathode Ray Tube)、液晶モニタ等の表示用デバイスから構成される。
【0047】
入出力部26は、外部機器とのデータ送受信を行うインターフェイスである。この入出力部26を介して、訓練データの生成に用いられる画像データ30(例えば
図3に示す基準画像データ、合成画像データ)が入出力される。
【0048】
訓練データ生成システム1の機能は、1以上のプロセッサ及び一時的でない記憶媒体を含む1以上の記憶装置を含む1以上のコンピュータからなる計算機システムに実装することができる。複数のコンピュータは、相互に接続された通信ネットワークを介して通信を行いつつ、訓練データ生成システム1の機能を実現する。例えば、訓練データ生成システム1の複数の機能の一部が1つのコンピュータに実装され、他の一部が他のコンピュータに実装されてもよい。
【0049】
[動作]
次に、本実施の形態に係る訓練データ生成システム1の動作について説明する。
図10に示すように、まず、訓練データ生成モデル10は、傷を規定するパラメータを座標軸とするパラメータ空間に規定される確率分布に従って個体群V1~VNを生成する(ステップS1)。続いて、訓練データ生成モデル10は、個体群V1~VNの各個体Vnに対応するパラメータxkの設定値によって規定される訓練データを生成する(ステップS2)。
【0050】
続いて、判定部11は、訓練データ生成モデルで生成された訓練データそれぞれについて傷の有無を利用者に判定させる(ステップS3)。
【0051】
続いて、最適化部12は、確率分布PDを更新する(ステップS4)。その後、最適化部12は、終了条件を満たすか否かを判定する(ステップS5)。終了条件を満たさない場合(ステップS5;No)、処理は、ステップS1に戻る。その後、終了条件を満たさない間(ステップS5;No)、ステップS1~S5が繰り返される。
【0052】
終了条件を満たすと(ステップS5;No)、最適化部12は、最終的な確率分布PDを記憶し(ステップS6)、処理を終了する。
【0053】
本実施の形態に係る訓練データ生成システム1は、車体の塗装面の傷を検査する深層学習器の学習に用いられる教師信号付き画像データを生成するものである。しかしながら、これには限られない。画像により他の検査対象を検査する深層学習器に適用することも可能である。例えば、コンクリート等の亀裂、フィルム、ゴムシートの表面の傷の検査にも適用することができる。また、交通インフラ、建造物保守点検への応用が可能となる。
【0054】
[物品の形状検査]
また、本実施の形態に係る訓練データ生成システム1は、特徴の有無により分類対象を分類する深層学習器に適用することができる。例えば、立体物の形状検査等にも適用することができる。立体物に特に制限はなく、商品、文房具あらゆる立体物の検査に用いることが可能である。この場合、訓練データ生成モデル10は、各個体Vnに対応するパラメータxkの設定値によって規定される特徴を表す分類対象の画像データを生成する。
【0055】
この場合に生成される画像データは、分類対象の形状がわかる画像データとなる。このような画像データは、撮像データを加工したものであってもよいし、全体がコンピュータグラフィックで作成された画像であってもよい。なお、特徴は、分類対象の形状となる。形状の他、構造、部品の組合せ、模様、色彩又はこれらの結合も分類の基準となる特徴とすることができる。
【0056】
また、本実施の形態に係る訓練データ生成システム1は、気象観測データ、海洋観測データ又は医療データなどの系列データ、例えば時系列データにも適用することができる。この場合、訓練データ生成モデル10は、前記各個体Vnに対応するパラメータの設定値によって規定される特徴を表す系列データを生成するものであってもよい。
【0057】
なお、本実施の形態では、判定部11では、利用者Sに特徴(傷)の有無を判定させたが、これには限らない。例えば、利用者Sに特徴(傷)が写っている画像らしいものを選択させたり、特徴(傷)が写っている画像らしさのスコア付け又はランク付けを利用者に行わせ、特徴(傷)をどの程度適切に表しているかを示す度合いを利用者Sに決定させたりするようにしてもよい。また、利用者Sに2枚の画像データを提示して、どちらが本物の特徴(傷)が写っている画像らしいかを選択させるようにしてもよい。特徴(傷)が写っている画像らしさのスコア付け又はランク付けを利用者Sに行わせたりする場合、最適化部12は、特徴(傷)が写っている画像らしさのスコア又はランクが高くなるように、最適化を行う。
【0058】
以上詳細に説明したように、上記実施の形態に係る訓練データ生成システム1によれば、訓練データの生成と、利用者Sによる画像データTDnの特徴を表すデータらしさの判定とを繰り返させつつ、特徴を表すデータらしいと判定される画像データTDnの数が多くなるように特徴を規定するパラメータの確率分布を推定する対話型の最適化処理を行って、教師信号付き訓練データを生成する生成モデルを設計することができる。このため、利用者がコンピュータを扱う技術を持つことなく、短時間かつ軽負担で膨大な数の教師信号付き訓練データを生成することができる。
【0059】
なお、上記実施の形態に係る訓練データ生成システム1では、共分散行列適応進化戦略を用いて対話型進化計算により、パラメータの最適な設定値の確率分布を探索している。しかしながら、これには限られない。最適化アルゴリズムとして、分布推定アルゴリズム(EDA:Estimation of Distribution Algorithm)、ベイズ最適化アルゴリズム、PBIL(Population-Based Incremental Learning)、CGA(Compact Genetic Algorithm)などを最適化アルゴリズムとして用いることができる。
【0060】
訓練データ生成システム1のハードウエア構成やソフトウエア構成は一例であり、任意に変更および修正が可能である。
【0061】
CPU21、主記憶部22、外部記憶部23、操作部24、表示部25、入出力部26及び内部バス28などから構成される訓練データ生成システム1の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD-ROM、DVD-ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する訓練データ生成システム1を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで訓練データ生成システム1を構成してもよい。
【0062】
訓練データ生成システム1の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
【0063】
搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)にコンピュータプログラムを掲示し、ネットワークを介してコンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
【0064】
この発明は、この発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、この発明の範囲を限定するものではない。すなわち、この発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
【産業上の利用可能性】
【0065】
本発明は、深層学習器の学習に用いられる訓練データの生成に適用することができる。
【符号の説明】
【0066】
1 訓練データ生成システム、10 訓練データ生成モデル、11 判定部、12 最適化部、21 CPU、22 主記憶部、23 外部記憶部、24 操作部、25 表示部、28 内部バス、29 プログラム、30 画像データ、S 利用者、xk パラメータ、Vn 個体、PD 確率分布、PS パラメータ空間