特開2024-173032 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ブラザー工業株式会社の特許一覧

特開2024-173032方法、および、コンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024173032

(43)【公開日】2024-12-12

(54)【発明の名称】方法、および、コンピュータプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241205BHJP

【ＦＩ】

G06T7/00 610B

G06T7/00 350B

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023091147

(22)【出願日】2023-06-01

(71)【出願人】

【識別番号】000005267

【氏名又は名称】ブラザー工業株式会社

(74)【代理人】

【識別番号】110001058

【氏名又は名称】鳳国際弁理士法人

(72)【発明者】

【氏名】櫻井孝一

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA03

5L096EA03

5L096EA06

5L096EA33

5L096FA32

5L096FA33

5L096FA54

5L096FA64

5L096FA66

5L096FA69

5L096GA40

5L096GA51

5L096HA11

5L096KA04

5L096MA07

(57)【要約】

【課題】物体検出モデルによる物体の検出精度を向上する。
【解決手段】複数個の訓練画像のそれぞれは、正解オブジェクトと不正解オブジェクトとを含む１枚の画像であり、正解オブジェクトは物体検出モデルで検出すべき物品を示すオブジェクトであり、不正解オブジェクトは検出すべき物品と同種かつ物体検出モデルで検出すべでない物品を示すオブジェクトである。複数個の訓練画像を用いて、訓練画像が物体検出モデルに入力される場合に訓練画像内の正解オブジェクトを検出するように、物体検出モデルを訓練する。正解オブジェクトと不正解オブジェクトとの差異は、差異（１）～差異（４）のうちの少なくとも１つを含む。差異（１）は大きさ、差異（２）は定の文字、差異（３）はキズおよび汚れ、差異（４）は特定色、に関することである。
【選択図】図３

【特許請求の範囲】

【請求項1】

複数個の訓練画像を取得する取得工程であって、前記複数個の訓練画像のそれぞれは、正解オブジェクトと不正解オブジェクトとを含む１枚の画像であり、前記正解オブジェクトは物体検出モデルで検出すべき物品を示すオブジェクトであり、前記不正解オブジェクトは前記検出すべき物品と同種かつ前記物体検出モデルで検出すべきでない物品を示すオブジェクトである、前記取得工程と、
前記複数個の訓練画像を用いて、前記訓練画像が前記物体検出モデルに入力される場合に前記訓練画像内の前記正解オブジェクトを検出するように、前記物体検出モデルを訓練する訓練工程と、
を備え、
前記正解オブジェクトと前記不正解オブジェクトとの差異は、差異（１）～差異（４）のうちの少なくとも１つを含み、
差異（１）は、前記正解オブジェクトの大きさは特定範囲内であり、前記不正解オブジェクトの大きさは前記特定範囲外であることであり、
差異（２）は、前記正解オブジェクトは特定の文字を含み、前記不正解オブジェクトは前記特定の文字とは異なる文字を含むことであり、
差異（３）は、前記正解オブジェクトはキズおよび汚れを含まず、前記不正解オブジェクトはキズまたは汚れを含むことであり、
差異（４）は、前記正解オブジェクトは特定色を有し、前記不正解オブジェクトは前記特定色とは異なる色を有することである、方法。

【請求項2】

請求項１に記載の方法であって、
前記検出すべき物品および前記検出すべきでないの物品は、文字と記号との少なくとも一方を含むラベルまたは銘板である、方法。

【請求項3】

請求項１に記載の方法であって
前記差異（１）は、前記正解オブジェクトの大きさは特定範囲内であり、前記不正解オブジェクトの大きさは前記特定範囲の上限よりも所定割合以上大きいこと、または、前記正解オブジェクトの大きさは特定範囲内であり、前記不正解オブジェクトの大きさは前記特定範囲の下限よりも所定割合以上小さいことである、方法。

【請求項4】

請求項１に記載の方法であって、
１つの前記不正解オブジェクトと前記正解オブジェクトとの間の差異は、前記差異（１）～（４）のうちの１つの差異を含み、前記差異（１）～（４）のうちの１つとは異なる差異を含まない、方法。

【請求項5】

請求項１に記載の方法であって、
前記複数個の訓練画像は、第１の物品を示す第１オブジェクトと、前記第１の物品と同種の第２の物品を示す第２オブジェクトと、を含み、
前記第１オブジェクトと前記第２オブジェクトとの差異は、前記差異（１）～前記差異（４）のうちの少なくとも１つを含み、
前記訓練工程は、
前記第１オブジェクトを前記正解オブジェクトとし、前記第２オブジェクトを前記不正解オブジェクトとして用いて、前記訓練画像が前記物体検出モデルに入力される場合に前記訓練画像内の前記第１オブジェクトを検出するように、前記物体検出モデルを訓練し、
前記第２オブジェクトを前記正解オブジェクトとし、前記第１オブジェクトを前記不正解オブジェクトとして用いて、前記訓練画像が前記物体検出モデルに入力される場合に前記訓練画像内の前記第２オブジェクトを検出するように、前記物体検出モデルを訓練する、方法。

【請求項6】

請求項１に記載の方法であって、
前記複数個の訓練画像のそれぞれは、前記検出すべき物品の全体を示す前記正解オブジェクトと、前記検出すべきでない物品の全体を示す前記不正解オブジェクトと、を含む、方法。

【請求項7】

請求項１に記載の方法であって、
前記取得工程は、
背景画像と、前記正解オブジェクトを示す正解画像と、を取得する画像取得工程と、
前記背景画像を背景とし前記正解画像を前景として、前記背景画像内の特定領域に前記正解画像を合成する合成工程と、
前記合成工程において前記正解画像が合成される前記特定領域を示す領域情報を保存する工程と、
を含み、
前記訓練工程は、前記領域情報を教師データとして用いて、前記物体検出モデルを訓練する工程である、方法。

【請求項8】

請求項１に記載の方法であって、
前記取得工程は、
背景画像と、前記正解オブジェクトを示す正解画像と、を取得する画像取得工程と、
前記正解画像に対して特定の画像処理を実行して、前記不正解オブジェクトを示す不正解画像を生成する画像生成工程と、
前記背景画像を背景とし前記正解画像と前記不正解画像を前景として、前記背景画像内の第１領域に前記正解画像を合成し、前記背景画像内の第２領域に前記不正解画像を合成することによって前記訓練画像を生成する合成工程と、
を含む、方法。

【請求項9】

物品の検査を行う方法であって、
文字を含む検査対象の物品の撮影画像を取得する工程と、
請求項１に記載の方法を用いて前記検査対象の物品を検出するように訓練された前記物体検出モデルを用いて、前記撮影画像内の前記検査対象の物品を検出する検出工程と、
検出された前記検査対象の物品に含まれる文字が、特定の文字であるか否かを判断する判断工程と、
を含む、方法。

【請求項10】

複数個の訓練画像を取得する取得機能であって、前記複数個の訓練画像のそれぞれは、正解オブジェクトと不正解オブジェクトとを含む１枚の画像であり、前記正解オブジェクトは物体検出モデルで検出すべき物品を示すオブジェクトであり、前記不正解オブジェクトは前記検出すべき物品と同種かつ前記物体検出モデルで検出すべきでない物品を示すオブジェクトである、前記取得機能と、
前記複数個の訓練画像を用いて、前記訓練画像が前記物体検出モデルに入力される場合に前記訓練画像内の前記正解オブジェクトを検出するように、前記物体検出モデルを訓練する訓練機能と、
をコンピュータに実現させ、
前記正解オブジェクトと前記不正解オブジェクトとの差異は、差異（１）～差異（４）のうちの少なくとも１つを含み、
差異（１）は、前記正解オブジェクトの大きさは特定範囲内であり、前記不正解オブジェクトの大きさは前記特定範囲外であることであり、
差異（２）は、前記正解オブジェクトは特定の文字を含み、前記不正解オブジェクトは前記特定の文字とは異なる文字を含むことであり、
差異（３）は、前記正解オブジェクトはキズおよび汚れを含まず、前記不正解オブジェクトはキズまたは汚れを含むことであり、
差異（４）は、前記正解オブジェクトは特定色を有し、前記不正解オブジェクトは前記特定色とは異なる色を有することである、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書は、物体検出モデルを訓練する技術に関する。

【背景技術】

【0002】

非特許文献１には、画像内のオブジェクトが配置されたオブジェクト領域と、オブジェクトの種類と、を検出する機械学習モデルである物体検出モデルが開示されている。一般的に物体検出モデルは、大量の訓練用の画像（以下、訓練画像とも呼ぶ）を用いて訓練される。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788

【発明の概要】

【発明が解決しようとする課題】

【0004】

物体検出モデルによる物体の検出精度を向上する技術が求められている。

【0005】

本明細書は、物体検出モデルによる物体の検出精度を向上し得る物体検出モデルの訓練技術を開示する。

【課題を解決するための手段】

【0006】

本明細書に開示された技術は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の適用例として実現することが可能である。

【0007】

［適用例１］複数個の訓練画像を取得する取得工程であって、前記複数個の訓練画像のそれぞれは、正解オブジェクトと不正解オブジェクトとを含む１枚の画像であり、前記正解オブジェクトは物体検出モデルで検出すべき物品を示すオブジェクトであり、前記不正解オブジェクトは前記検出すべき物品と同種かつ前記物体検出モデルで検出すべでない物品を示すオブジェクトである、前記取得工程と、前記複数個の訓練画像を用いて、前記訓練画像が前記物体検出モデルに入力される場合に前記訓練画像内の前記正解オブジェクトを検出するように、前記物体検出モデルを訓練する訓練工程と、を備え、前記正解オブジェクトと前記不正解オブジェクトとの差異は、差異（１）～差異（４）のうちの少なくとも１つを含み、差異（１）は、前記正解オブジェクトの大きさは特定範囲内であり、前記不正解オブジェクトの大きさは前記特定範囲外であることであり、差異（２）は、前記正解オブジェクトは特定の文字を含み、前記不正解オブジェクトは前記特定の文字とは異なる文字を含むことであり、差異（３）は、前記正解オブジェクトはキズおよび汚れを含まず、前記不正解オブジェクトはキズまたは汚れを含むことであり、差異（４）は、前記正解オブジェクトは特定色を有し、前記不正解オブジェクトは前記特定色とは異なる色を有することである、方法。

【0008】

上記構成によれば、オブジェクトの大きさ、特定の文字の有無、キズや汚れの有無、特定色を有するか否か等の差異を考慮して、物体を検出するように、物体検出モデルを訓練できる。この結果、物体検出モデルによる物体の検出精度を向上し得る。

【0009】

なお、本明細書に開示される技術は、他の種々の形態で実現することが可能であり、例えば、物体検出モデルの訓練装置、物体検出モデルを用いた検査装置、物体検出モデル、これらの装置および方法を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体、等の形態で実現することができる。

【図面の簡単な説明】

【0010】

【図1】本実施例の検査システム１０００の構成を示すブロック図。

【図2】製品３００の説明図。

【図3】訓練処理のフローチャート。

【図4】訓練処理で用いられる画像の一例を示す図。

【図5】背景画像ＯＩと訓練画像ＭＩとの一例を示す図。

【図6】正解画像生成処理のフローチャート。

【図7】不正解画像生成処理のフローチャート。

【図8】物体検出モデルＡＮの説明図。

【図9】検査処理のフローチャート。

【図10】撮影画像ＦＩの一例を示す図。

【図11】第２実施例の訓練処理のフローチャート。

【図12】第２実施例の説明図。

【0011】

Ａ．実施例
Ａ－１．検査装置の構成
次に、実施の形態を実施例に基づき説明する。図１は、本実施例の検査システム１０００の構成を示すブロック図である。検査システム１０００は、処理装置１００と、撮影装置４００と、を含んでいる。処理装置１００と撮影装置４００とは、通信可能に接続されている。

【0012】

処理装置１００は、例えば、パーソナルコンピュータなどの計算機である。処理装置１００は、処理装置１００のコントローラとしてのＣＰＵ１１０と、ＧＰＵ１１５と、ＲＡＭなどの揮発性記憶装置１２０と、ハードディスクドライブなどの不揮発性記憶装置１３０と、マウスやキーボードなどの操作部１５０と、液晶ディスプレイなどの表示部１４０と、通信部１７０と、を備えている。通信部１７０は、外部機器、例えば、撮影装置４００と通信可能に接続するための有線または無線のインタフェースを含む。

【0013】

ＧＰＵ（Graphics Processing Unit）１１５は、ＣＰＵ１１０の制御に従って、３次元グラフィックスなどの画像処理のための計算処理を行うプロセッサである。本実施例では、後述する物体検出モデルＡＮの演算処理を実行するために利用される。

【0014】

揮発性記憶装置１２０は、ＣＰＵ１１０が処理を行う際に生成される種々の中間データを一時的に格納するバッファ領域を提供する。不揮発性記憶装置１３０には、コンピュータプログラムＰＧと背景画像群ＯＧと版下画像ＲＩとのデータが格納されている。背景画像群ＯＧは、複数個の背景画像ＯＩを含んでいる。背景画像群ＯＧは、後述する訓練画像ＭＩを生成するために用いられる。

【0015】

コンピュータプログラムＰＧは、後述する物体検出モデルＡＮの機能をＣＰＵ１１０とＧＰＵ１１５とが協働して実現させるコンピュータプログラムをモジュールとして含んでいる。コンピュータプログラムＰＧは、例えば、処理装置１００の製造者によって提供される。コンピュータプログラムＰＧは、例えば、サーバからダウンロードされる形態で提供されても良く、ＤＶＤ－ＲＯＭなどに格納される形態で提供されてもよい。ＣＰＵ１１０は、コンピュータプログラムＰＧを実行することにより、後述する検査処理や訓練処理を実行する。

【0016】

撮影装置４００は、二次元イメージセンサを用いて被写体を撮影することによって被写体を表す画像データ（撮影画像データとも呼ぶ）を生成するデジタルカメラである。撮影画像データは、複数個の画素を含む画像を示すビットマップデータであり、具体的には、ＲＧＢ値によって画素ごとの色を表すＲＧＢ画像データである。ＲＧＢ値は、３個の色成分の階調値（以下、成分値とも呼ぶ）、すなわち、Ｒ値、Ｇ値、Ｂ値を含むＲＧＢ表色系の色値である。Ｒ値、Ｇ値、Ｂ値は、例えば、所定の階調数（例えば、２５６）の階調値である。撮影画像データは、画素ごとの輝度を表す輝度画像データであっても良い。

【0017】

撮影装置４００は、処理装置１００の制御に従って、撮影画像データを生成し、処理装置１００に送信する。本実施例では、撮影装置４００は、検査処理の検査対象であるラベルＬが貼付された製品３００を撮影して、検査用の撮影画像ＦＩのデータを生成するために用いられる。撮影装置４００は、背景画像ＯＩのデータを生成するために用いられても良い。

【0018】

図２は、製品３００の説明図である。図２（Ａ）には、製品３００の斜視図が示されている。製品３００は、本実施例では、略直方体の筐体３０を有するプリンタである。製造工程において、筐体３０の前面３１（＋Ｙ側の面）には、矩形のラベルＬが所定の貼付位置に貼付される。

【0019】

図２（Ｂ）には、ラベルＬが示されている。ラベルＬは、例えば、背景Ｂと、製造者や製品のブランドロゴ、型番、ロット番号等の各種の情報を示す文字ＴＸやマークＭＫと、を含んでいる。

【0020】

Ａ－２．訓練処理
訓練処理は、ラベルＬを検査する検査処理（後述）に先立って実行される。訓練処理は、訓練画像ＭＩを生成し、該訓練画像ＭＩを用いて、検査処理にて用いられる物体検出モデルＡＮを訓練する処理である。図３は、訓練処理のフローチャートである。

【0021】

Ｓ１０では、ＣＰＵ１１０は、不揮発性記憶装置１３０から版下画像ＲＩ（図１）のデータを取得する。図４は、訓練処理で用いられる画像の一例を示す図である。図４（Ａ）の版下画像ＲＩは、ラベルＬを示す画像である。版下画像ＲＩに示されるラベルＬは、実物のラベルＬを表現したＣＧ（コンピュータグラフィックス）画像である。版下画像ＲＩのデータは、撮影画像データと同様のビットマップデータ、本実施例では、ＲＧＢ画像データである。版下画像ＲＩのデータは、ラベルＬの作成に用いられる。例えば、ラベルＬは、ラベル用のシートに版下画像ＲＩを印刷することによって作成される。

【0022】

Ｓ１２では、ＣＰＵ１１０は、不揮発性記憶装置１３０から一つの背景画像ＯＩのデータを取得する。具体的には、図１の背景画像群ＯＧから一つずつ順次に処理対象の背景画像ＯＩが取得される。図５は、背景画像ＯＩと訓練画像ＭＩとの一例を示す図である。本実施例では、バッチサイズが６４、イテレーションの数が３０００で訓練が行われるので、背景画像群ＯＧは、（６４×３０００）個の背景画像ＯＩを含んでいる。複数個の背景画像ＯＩは、デジタルカメラ（例えば、撮影装置４００）を用いて、所定の被写体を撮影することによって生成される撮影画像である。背景画像ＯＩのデータは、複数個の画素を含む画像を示すビットマップデータであり、具体的には、ＲＧＢ値によって画素ごとの色を表すＲＧＢ画像データである。背景画像ＯＩは、様々な被写体（例えば、人物、人工物、風景、動植物、あるいは、これらの組み合わせ）を示す画像である。

【0023】

図５（Ａ）の背景画像ＯＩは、人物を示す画像である。背景画像ＯＩのサイズ（縦方向および横方向の画素数）は、生成すべき訓練画像ＭＩのサイズ、すなわち、物体検出モデルＡＮに入力される入力画像の予め定められたサイズである。背景画像ＯＩが生成すべき訓練画像ＭＩのサイズとは異なる場合には、ＣＰＵ１１０は、背景画像ＯＩにサイズ調整処理（公知の拡大処理また縮小処理）を実行して、背景画像ＯＩのサイズを訓練画像ＭＩのサイズに調整する。

【0024】

Ｓ１５では、ＣＰＵ１１０は、正解画像生成処理を実行する。正解画像生成処理は、版下画像ＲＩを用いて、物体検出モデルＡＮが検出すべきラベルＬを示す正解画像ＧＩを生成する処理である。図６は、正解画像生成処理のフローチャートである。

【0025】

Ｓ１０５では、ＣＰＵ１１０は、開始された正解画像生成処理が初回の処理であるか否かを判断する。図３のフローチャートから解るように、図３のＳ１５の正解画像生成処理は、複数回に亘って繰り返し実行される。開始された正解画像生成処理が初回の処理である場合には（Ｓ１０５：ＹＥＳ）、ＣＰＵ１１０は、Ｓ１４０にて、生成すべき正解画像ＧＩの横幅Ｗ１（横方向の画素数）を所定の横幅範囲の下限値に決定する。

【0026】

所定の横幅範囲は、生成すべき訓練画像ＭＩの横幅（横方向の画素数）を基準に予め定められている。所定の横幅範囲は、後述する検査処理にて、正常なラベルＬを撮影して得られる撮影画像に含まれるラベルＬの横幅として想定される範囲である。所定の横幅範囲の下限値は、例えば、生成すべき訓練画像ＭＩの横幅の２０％～４０％の値であり、所定の横幅範囲の上限値は、例えば、生成すべき訓練画像ＭＩの横幅の６０％～８０％の値である。本実施例では、生成すべき訓練画像ＭＩの横幅は、６００画素であり、正解画像ＧＩの所定の横幅範囲は、２００画素（下限値）～４００画素（上限値）の範囲である。このために、Ｓ１４０では、ＣＰＵ１１０は、生成すべき正解画像ＧＩの横幅Ｗ１を所定の横幅範囲の下限値である２００画素に決定する。

【0027】

Ｓ１１０では、ＣＰＵ１１０は、訓練の進捗度αを取得する。進捗度αは、訓練の進捗の度合いを示す指標値であり、０～１の値を取る。進捗度αは、訓練の開始時には０であり、訓練の完了時には１である。本実施例では、上述した３０００イテレーションの訓練を１００回実行するので、訓練のエポック数は、１００である。このために、本実施例では、進捗度αは、実行済みのエポック数Ａを１００で除した値で表される（α＝Ａ／１００）。

【0028】

Ｓ１２０では、ＣＰＵ１１０は、前回の横幅Ｗ（ｎ－１）に、進捗度αに応じた値を加算して、今回、生成すべき正解画像ＧＩの横幅Ｗｎを算出する。ここで横幅Ｗｎは、ｎ回目（ｎは１以上の整数）の正解画像生成処理にて、生成すべき正解画像ＧＩの横幅Ｗｎを意味する。横幅Ｗｎは、例えば、所定画素数ＰＶ（本実施例では５０）に（１－α）を乗じた値ＰＶ×（１－α）を前回の横幅Ｗ（ｎ－１）に加算した値である（Ｗｎ＝Ｗ（ｎ－１）＋ＰＶ×（１－α））。

【0029】

Ｓ１３０では、ＣＰＵ１１０は、Ｓ１２０にて算出された横幅Ｗｎが、上述した予定の横幅範囲の上限値（本実施例では４００画素）よりも大きいか否かを判断する。横幅Ｗｎが横幅範囲の上限値より大きい場合には（Ｓ１３０：ＹＥＳ）、ＣＰＵ１１０は、Ｓ１４０にて、生成すべき正解画像ＧＩの横幅Ｗｎを所定の横幅範囲の下限値（本実施例では２００画素）に変更する。

【0030】

このように、Ｓ１３０またはＳ１４０にて、生成すべき正解画像ＧＩの横幅Ｗｎは、所定の横幅範囲内の値に決定される。Ｓ１５０では、ＣＰＵ１１０は、版下画像ＲＩに対してサイズ調整処理（拡大処理また縮小処理）を実行して、背景画像ＯＩの横幅を決定された横幅Ｗｎに調整する。これによって、正解画像ＧＩが生成される。サイズ調整処理は、版下画像ＲＩの縦横比が変化しないように、公知の補間方法、例えば、バイリニア法やバイキュービック法を用いて実行される。図４（Ｂ）には、図４（Ａ）の版下画像ＲＩを用いて生成される正解画像ＧＩが示されている。正解画像ＧＩと版下画像ＲＩとが異なる点は、サイズだけである。

【0031】

Ｓ１６０では、ＣＰＵ１１０は、Ｓ１２にて取得された背景画像ＯＩに対して正解画像ＧＩを合成されるべき合成位置を決定し、該合成位置に基づいて正解画像ＧＩが合成される領域を示す合成領域情報を生成、保存する。図５（Ａ）には、背景画像ＯＩに対して正解画像ＧＩが合成されるべき合成領域ＭＡが示されている。ＣＰＵ１１０は、正解画像ＧＩの全体が背景画像ＯＩに含まれるように、合成位置ＣＰをランダムに決定する。ＣＰＵ１１０は、例えば、背景画像ＯＩにおける合成位置ＣＰの座標と、合成すべき正解画像ＧＩの横幅Ｗｎと高さＨｎ（縦方向の画素数）と、を示す情報を、合成領域ＭＡを示す合成領域情報として生成する。合成領域情報は、不揮発性記憶装置１３０に保存される。合成領域情報が生成されると、正解画像生成処理は終了される。

【0032】

図３のＳ２０では、ＣＰＵ１１０は、不正解画像生成処理を実行する。不正解画像生成処理は、Ｓ１５の正解画像生成処理にて生成された正解画像ＧＩを用いて、物体検出モデルＡＮが検出すべきでないラベルを示す不正解画像ＢＩを生成する処理である。図７は、不正解画像生成処理のフローチャートである。

【0033】

本実施例では、不正解画像ＢＩは、正解画像ＧＩに一つの差異を付与することによって生成される。Ｓ２１０では、ＣＰＵ１１０は、正解画像ＧＩに付与すべき差異を選択する。本実施例では、付与すべき差異は、（１）大きさの差異、（２）文字の差異、（３）キズや汚れの差異、（４）色の差異のいずれかである。本実施例では、（１）－（４）の差異の中から一つの差異が付与される差異としてランダムに選択される。

【0034】

Ｓ２２０では、ＣＰＵ１１０は、正解画像ＧＩに、Ｓ２１０にて選択された差異を付与して、不正解画像ＢＩを生成する。図４（Ｃ）には、大きさの差異が付与されて得られる不正解画像ＢＩｓが示されている。不正解画像ＢＩｓのサイズは、後述する検査処理にて、正常なラベルを撮影して得られる撮影画像に含まれるラベルのサイズとしては想定されないサイズに決定される。具体的には、不正解画像ＢＩｓの横幅は、上述した正解画像ＧＩの横幅範囲の上限値（４００画素）よりも所定割合以上大きな横幅と、正解画像ＧＩの横幅範囲の下限値（２００画素）よりも所定割合以上小さな横幅と、のいずれかに決定される。

【0035】

本実施例では、ＣＰＵ１１０は、予め定められた過大横幅範囲と、過小横幅範囲と、のいずれかの範囲内で、ランダムに不正解画像ＢＩｓの横幅を決定する。過大横幅範囲の下限値は、例えば、正解画像ＧＩの上限値（４００画素）よりも２０％大きな値（４８０画素）であり、過大横幅範囲の上限値は、例えば、訓練画像ＭＩの横幅よりも僅かに（例えば、５０画素）小さな値である。過小横幅範囲の上限値は、例えば、正解画像ＧＩの下限値（２００画素）よりも２０％小さな値（１６０画素）であり、過小横幅範囲の下限値は、過小横幅範囲の上限値よりも十分に小さな所定値（例えば、８０画素）である。ＣＰＵ１１０は、正解画像ＧＩに対してサイズ調整処理（拡大処理または縮小処理）を実行して、決定された横幅を有する不正解画像ＢＩｓを生成する。図４（Ｃ）に示すように、不正解画像ＢＩｓのアスペクト比は、正解画像ＧＩのアスペクト比と同じである。不正解画像ＢＩｓのサイズ以外の要素は、正解画像ＧＩと同じである。このように、大きさの差異は、正解画像ＧＩの大きさは特定範囲（上記の横幅範囲）内であり、不正解画像ＢＩｓの大きさは特定範囲外であることである、と言うことができる。

【0036】

図４（Ｄ）には、文字の差異が付与されて得られる不正解画像ＢＩｔが示されている。不正解画像ＢＩｔに含まれる文字の少なくとも一部は、正解画像ＧＩに含まれる文字とは異なる。本実施例では、ＣＰＵ１１０は、正解画像ＧＩに対して、文字認識処理を実行して、正解画像ＧＩ内の特定の文字列、具体的には、モデル名ＴＸａ（図４（Ｂ））を検出する。文字認識処理には、公知のＯＣＲ（Optical Character Recognition）技術や、ＡＩ（人工知能）技術を活用したいわゆるＡＩ－ＯＣＲ技術を利用した処理が用いられる。ＣＰＵ１１０は、正解画像ＧＩ内のモデル名ＴＸａを示す領域内の画像を、別の文字列ＴＸｂを示す画像に置換することによって、不正解画像ＢＩｔを生成する。別の文字列ＴＸｂは、ランダムに選択された文字列であっても良いし、予め用意された複数個の文字列から選択されても良い。不正解画像ＢＩｔのモデル名以外の要素（サイズ含む）は、正解画像ＧＩと同じである。このように、文字の差異は、正解画像ＧＩは、特定の文字（モデル名ＴＸａ）を含み、不正解画像ＢＩｔは、特定も文字とは異なる文字（文字列ＴＸｂ）を含むことである、と言うことができる。

【0037】

図４（Ｅ）には、キズや汚れの差異が付与されて得られる不正解画像ＢＩが示されている。不正解画像ＢＩｄには、正解画像ＧＩには含まれない疑似的な汚れＤＴが含まれる。本実施例では、ＣＰＵ１１０は、正解画像ＧＩに対して、疑似的な複数個の汚れＤＴを合成することによって、不正解画像ＢＩｄを生成する。汚れＤＴは、本実施例では、単色に塗りつぶされた矩形の画像である。汚れＤＴの個数は、例えば、所定の範囲（本実施例では１－６個）からランダムに選択される。汚れＤＴのサイズは、例えば、所定の横幅および縦幅の範囲（本実施例では、正解画像ＧＩの縦幅および横幅の３％－１５％）からランダムに選択される。汚れＤＴの色は、例えば、所定の選択肢（本実施例では、１０色の選択肢）からランダムに選択される。汚れＤＴが配置される位置は、配置すべき汚れＤＴが過度に近づきすぎないように、正解画像ＧＩ内にランダムに決定される。なお、矩形の汚れＤＴに代えて、あるいは、矩形の汚れＤＴとともに、線状のキズや円形や楕円形の汚れが正解画像ＧＩに合成されても良い。不正解画像ＢＩｄの汚れＤＴ以外の要素（サイズ含む）は、正解画像ＧＩと同じである。このように、キズや汚れの差異は、正解画像ＧＩはキズおよび汚れを含まず、不正解画像ＢＩｄは、キズまたは汚れ（例えば、汚れＤＴ）を含むことである、と言うことができる。

【0038】

図４（Ｆ）には、色の差異が付与されて得られる不正解画像ＢＩｃが示されている。不正解画像ＢＩｃの背景Ｂｃの色は、正解画像ＧＩの背景Ｂの色とは異なっている。例えば、版下画像ＲＩの背景の色（すなわち、正解画像ＧＩの背景の色）は、予め版下画像ＲＩに対応付けて不揮発性記憶装置１３０に記録されている。ＣＰＵ１１０は、正解画像ＧＩのうち、当該背景の色を有する画素の色値を、別の色を示す色値に置換することによって、不正解画像ＢＩｃを生成する。別の色は、例えば、所定の選択肢（本実施例では、１０－２０色の選択肢）からランダムに選択される。なお、ＣＰＵ１１０は、背景の色とともに、あるいは、背景の色に代えて、正解画像ＧＩの文字やマークの全部または一部の色を変更しても良い。また、ＣＰＵ１１０は、多数回に亘って行われる不正解画像生成処理のうちの一部では、正解画像ＧＩの文字やマークの色と背景の色との輝度を反転させることによって不正解画像ＢＩｃを生成して良い。あるいは、ＣＰＵ１１０は、文字やマークの色と背景の色との輝度を反転させて得られる画像の色をさらに調整して不正解画像ＢＩｃを生成して良い。不正解画像ＢＩｃの色以外の要素（サイズ含む）は、正解画像ＧＩと同じである。このように、色の差異は、正解画像ＧＩは特定色を有し、不正解画像ＢＩｃは特定色とは異なる色を有することである、と言うことができる。

【0039】

Ｓ２３０では、ＣＰＵ１１０は、１個の訓練画像ＭＩを生成するために必要な個数の不正解画像ＢＩを生成したか否かを判断する。不正解画像ＢＩの必要数は、例えば、訓練画像ＭＩを生成する度に所定の範囲（本実施例では、１個－３個）でランダムに決定される。

【0040】

必要数の不正解画像ＢＩが生成済みである場合には（Ｓ２３０：ＹＥＳ）、ＣＰＵ１１０は、不正解画像生成処理を終了する。必要数の不正解画像ＢＩが未生成である場合には（Ｓ２３０：ＮＯ）、ＣＰＵ１１０は、Ｓ２１０に戻る。

【0041】

不正解画像生成処理後の図３のＳ２５では、ＣＰＵ１１０は、背景画像ＯＩ（図５（Ａ））に、正解画像ＧＩと不正解画像ＢＩとを合成する合成処理を実行して、訓練画像ＭＩを生成する。図５（Ｂ）には、図５（Ａ）の背景画像ＯＩに、図４（Ｂ）の正解画像ＧＩと、図５（Ｃ）、（Ｅ）の不正解画像ＢＩｓ、ＢＩｄを合成して得られる訓練画像ＭＩが示されている。

【0042】

ＣＰＵ１１０は、背景画像ＯＩに対して、図４のＳ１６０にて決定済みの合成領域に正解画像ＧＩを合成する。具体的には、背景画像ＯＩのうち、Ｓ１６０にて保存された合成領域情報によって示される合成領域ＭＡ内の画像を、正解画像ＧＩに置換する。これによって、背景画像ＯＩを背景とし、正解画像ＧＩを前景として、背景画像ＯＩと正解画像ＧＩとが合成される。

【0043】

さらに、ＣＰＵ１１０は、正解画像ＧＩの合成領域ＭＡとは重ならないように、不正解画像ＢＩの合成領域を背景画像ＯＩ内に決定する。また、不正解画像ＢＩの合成領域は、不正解画像ＢＩの全体が背景画像ＯＩに含まれるように決定される。さらに、複数個の不正解画像ＢＩ（例えば、不正解画像ＢＩｓ、ＢＩｄを合成）を合成する場合には、複数個の不正解画像ＢＩが互いに重ならないように、複数個の不正解画像ＢＩの合成領域が決定される。

【0044】

ＣＰＵ１１０は、正解画像ＧＩが合成済みの背景画像ＯＩに対して、決定済みの合成領域に不正解画像ＢＩを合成する。不正解画像ＢＩは、正解画像ＧＩと同様に、背景画像ＯＩを背景とし、不正解画像ＢＩを前景として合成される。これによって、訓練画像ＭＩ（図５（Ｂ））が生成される。図５（Ｂ）の訓練画像ＭＩは、正解画像ＧＩと、不正解画像ＢＩ（ＢＩｓ、ＢＩｄ）と、をオブジェクトとして含んでいる。

【0045】

Ｓ３０では、ＣＰＵ１１０は、生成された訓練画像ＭＩに対して、調整処理を実行する。調整処理は、ＣＧ画像である版下画像ＲＩを用いて生成された訓練画像ＭＩに、撮影された画像のようなバラツキを付与する処理である。調整処理は、例えば、コントラスト補正処理、明度補正処理、ノイズ付与処理を含む。コントラスト補正処理と明度補正処理とは、コントラストや明度を補正するための公知のトーンカーブを用いて、訓練画像ＭＩの複数個の画素値を補正することによって行われる。コントラストや明度の補正レベルは、所定の調整範囲内でランダムに決定される。ノイズ付加処理は、画像に対して、例えば、正規分布に従うノイズを付加する処理、例えば、全ての画素に対して平均０、分散１０のパラメータによって生成される正規分布乱数によるノイズを付加する処理である。なお、調整処理は、コントラスト補正処理、明度補正処理、ノイズ付与処理のうちの一部の処理であっても良いし、他の処理（例えば、平滑化処理）を含んでも良い。

【0046】

Ｓ３５では、ＣＰＵ１１０は、バッチサイズ分（本実施例では６４個）の訓練画像ＭＩを生成したか否かを判断する。バッチサイズ分の訓練画像ＭＩが未生成である場合には（Ｓ３５：ＮＯ）、ＣＰＵ１１０は、Ｓ１２に戻る。バッチサイズ分の訓練画像ＭＩが生成済みである場合には（Ｓ３５：ＹＥＳ）、ＣＰＵ１１０は、Ｓ４０に処理を進める。

【0047】

Ｓ４０では、ＣＰＵ１１０は、バッチサイズ分の訓練画像ＭＩを用いて、訓練画像ＭＩ内の正解画像ＧＩを検出するように、物体検出モデルＡＮの訓練を実行する。以下では、物体検出モデルＡＮの概要と訓理とを説明する。

【0048】

図８は、物体検出モデルＡＮの説明図である。図８（Ａ）は、物体検出モデルＡＮの構成の例を示す概略図である。物体検出モデルＡＮとしては、種々のオブジェクト検出モデルを採用可能である。本実施例では、物体検出モデルＡＮは、ＹＯＬＯ（You only look once）と呼ばれるオブジェクト検出モデルである。ＹＯＬＯは、例えば、論文「Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788」に開示されている。ＹＯＬＯモデルは、畳込ニューラルネットワークを用いて、画像内のオブジェクトが位置する領域と、該領域に位置するオブジェクトの種別と、を予測する。

【0049】

図８（Ａ）に示すように、物体検出モデルＡＮは、ｍ個（ｍは１以上の整数）の畳込層ＣＶ１１－ＣＶ１ｍと、畳込層ＣＶ１１－ＣＶ１ｍに続くｎ個（ｎは１以上の整数）の全結合層ＣＮ１１－ＣＮ１ｎと、を有している（ｍは、例えば、２４。ｎは、例えば、２）。ｍ個の畳込層ＣＶ１１－ＣＶ１ｍのうちの１以上の畳込層の直後には、プーリング層が設けられる。

【0050】

畳込層ＣＶ１１－ＣＶ１ｍは、それぞれ、入力されるデータ（入力画像ＩＩまたは上流側の層から出力される特徴マップのデータ）に対して、畳込処理とバイアスの加算処理とを含む処理を実行する。畳込処理は、入力されたデータに対して、ｔ個のフィルタを順次に適用し、入力されたデータとフィルタとの相関を示す相関値を算出する処理である（ｔは、１以上の整数）。フィルタを適用する処理では、フィルタをスライドさせながら複数個の相関値が順次に算出される。バイアスの加算処理は、算出された相関値に、バイアスを加算する処理である。バイアスは、１個のフィルタに対して１個ずつ準備されている。フィルタの次元とフィルタの数ｔとは、通常は、ｍ個の畳込層ＣＶ１１－ＣＶ１ｍの間で異なっている。畳込層ＣＶ１１－ＣＶ１ｍは、複数のフィルタの複数の重みと複数のバイアスとを含む演算パラメータを、それぞれ有している。

【0051】

プーリング層は、直前の畳込層から入力されたデータに対して、データの次元数を削減する処理を実行する。プーリングの処理としては、平均プーリング、最大プーリングなど、種々の処理を利用可能である。本実施例では、プーリング層は、最大プーリングを行う。最大プーリングは、所定サイズ（例えば、２×２）のウィンドウを所定のストライド（例えば、２）でスライドさせつつ、ウィンドウ内の最大値を選択することによって次元数を削減する。

【0052】

全結合層ＣＮ１１－ＣＮ１ｎは、直前の層から入力されたｆ次元のデータ（すなわち、ｆ個の値。ｆは２以上の整数）を用いて、ｇ次元のデータ（すなわち、ｇ個の値。ｇは２以上の整数）を出力する。出力されるｇ個の値のそれぞれは、入力されるｆ個の値で構成されるベクトルとｆ個の重みで構成されるベクトルとの内積に、バイアスを加えた値である。入力データの次元数ｆと出力データの次元数ｇとは、通常は、ｎ個の全結合層ＣＮ１１－ＣＮ１ｎの間で異なっている。全結合層ＣＮ１１－ＣＮ１ｎは、複数の重みと複数のバイアスとを含む演算パラメータを、それぞれ有している。

【0053】

なお、畳込層ＣＶ１１－ＣＶ１ｍと全結合層ＣＮ１１－ＣＮ１ｎとのそれぞれによって生成されるデータは、活性化関数に入力されて変換される。活性化関数としては、種々の関数を利用可能である。本実施例では、最後の層（ここでは、全結合層ＣＮ１ｎ）には、線形活性化関数（linear activation function）が用いられ、他の層には、漏洩正規化線形ユニット（Leaky Rectified Linear Unit：LReLU）が用いられる。

【0054】

物体検出モデルＡＮの動作の概要を説明する。物体検出モデルＡＮには、入力画像ＩＩが入力される。本実施例では、訓練処理において、入力画像ＩＩとして訓練画像ＭＩ（図５（Ｂ））が用いられる。

【0055】

物体検出モデルＡＮは、入力画像ＩＩが入力されると、入力画像ＩＩのデータに対して上述した演算パラメータを用いた演算処理を実行して、出力データＯＤを生成する。出力データＯＤは、Ｓ×Ｓ×（Ｂｎ×５＋Ｃ）個の予測値を含むデータである。各予測値は、オブジェクト（本実施例ではラベルＬ）が位置すると予測される予測領域（バウンディングボックスとも呼ばれる）を示す予測領域情報と、該予測領域に存在するオブジェクトの種別（クラスとも呼ばれる）を示すクラス情報と、を含む。

【0056】

予測領域情報は、入力画像ＩＩ（例えば、訓練画像ＭＩ）をＳ×Ｓ（Ｓは２以上の整数。Ｓは、例えば、７）に分割して得られる（Ｓ×Ｓ）個のセルに対して、Ｂｎ（Ｂｎは１以上の整数、例えば、２）個ずつ設定される。そして、各予測領域情報は、セルに対する予測領域の中心座標（Ｘｐ、Ｙｐ）と幅Ｗｐと高さＨｐと、確信度Ｖｃと、の５個の値を含む。確信度Ｖｃは、予測領域にオブジェクトが存在する確率を示す情報である。クラス情報は、セルに存在するオブジェクトの種別を種別ごとの確率で示す情報である。クラス情報は、オブジェクトの種別をＣ種（Ｃは１以上の整数）に分類する場合に、Ｃ個の確率を示す値を含む。本実施例では、Ｃ＝１であり、オブジェクトがラベルＬであるか否かを識別する。このために、出力データＯＤは、上述のように、Ｓ×Ｓ×（Ｂｎ×５＋Ｃ）個の予測値を含む。

【0057】

上述した図５のＳ１６０にて生成される合成領域情報は、物体検出モデルＡＮを訓練する際の教師データの一部として利用される。教師データは、出力データＯＤと対応している。具体的には、教師データは、対応する訓練画像ＭＩが物体検出モデルＡＮに入力される場合に、出力されるべき理想的な出力データＯＤを示す。すなわち、教師データは、Ｓ×Ｓ×（Ｂｎ×５＋Ｃ）個の予測値のうち、訓練画像ＭＩ（図５（Ｂ））におけるラベルＬ（正解画像ＧＩ）の中心ＣＰが位置するセルに対応する理想的な予測値として、上述した合成領域情報と、最大の確信度Ｖｃ（例えば、１）と、ラベルＬであることを示す上述したクラス情報と、を含む。また、教師データは、ラベルＬの中心ＣＰが位置しないセルに対応する予測値として、最小の確信度Ｖｃ（例えば、０）を含む。

【0058】

次に、物体検出モデルＡＮの訓練（図３のＳ４０）について説明する。図８（Ｂ）は、物体検出モデルＡＮの訓練のフローチャートである。図８（Ｂ）の訓練は、バッチサイズ分の訓練画像ＭＩを用いて実行される１回の訓練（１イテレーション）を示す。物体検出モデルＡＮは、出力データＯＤが訓練画像ＭＩ内の正解画像ＧＩの領域を示すように、訓練される。訓練によって、物体検出モデルＡＮの演算に用いられる複数の演算パラメータ（複数の層ＣＶ１１－ＣＶ１ｍ、ＣＮ１１－ＣＮ１ｎのそれぞれの演算に用いられる複数の演算パラメータを含む）が、調整される。初回の図３のＳ４０が実行される時点では、複数の演算パラメータは、乱数値などの初期値に設定されている。

【0059】

Ｓ４２０では、ＣＰＵ１１０は、バッチサイズ分の訓練画像ＭＩ（本実施例では６４個の訓練画像ＭＩ）を物体検出モデルＡＮに入力し、バッチサイズ分の複数個の訓練画像ＭＩに対応する複数個の出力データＯＤを生成する。

【0060】

Ｓ４３０では、複数個の出力データＯＤと、複数個の出力データＯＤに対応する複数個の教師データと、を用いて、損失値を算出する。ここで、出力データＯＤに対応する教師データは、図６のＳ１６０にて正解画像ＧＩごと（すなわち、訓練画像ＭＩごと）に生成された合成領域情報を用いて生成される。損失値は、訓練画像ＭＩごとに算出される。

【0061】

損失値の算出には、損失関数が用いられる。損失関数は、出力データＯＤと教師データとの間の差分に応じた損失値を算出する種々の関数であってよい。本実施例では、ＹＯＬＯの上記の論文に開示されている損失関数が用いられる。この損失関数は、例えば、領域損失項と、オブジェクト損失項と、クラス損失項と、を含む。領域損失項は、教師データに含まれるラベル領域と、出力データＯＤに含まれる対応する予測領域と、の差分が小さいほど小さな損失値を算出する項である。ラベル領域に対応する予測領域は、出力データＯＤにて示される複数個の予測領域のうち、ラベル領域が対応付けられたセルに対応付けられた予測領域である。オブジェクト損失項は、各予測領域の確信度Ｖｃについて、教師データの値（０または１）と出力データＯＤの値との差分が小さいほど小さな値を算出する項である。クラス損失項は、教師データに含まれるクラス情報と、出力データＯＤに含まれる対応するクラス情報と、の差分が小さいほど小さな損失値を算出する項である。出力データＯＤに含まれる対応するクラス情報は、出力データＯＤに含まれる複数個のクラス情報のうち、教師データのクラス情報が対応付けられたセルに対応付けられたクラス情報である。各項の具体的な損失関数には、差分に応じた損失値を算出するための公知の損失関数、例えば、二乗誤差、クロスエントロピー誤差、絶対誤差が用いられる。

【0062】

Ｓ４４０では、ＣＰＵ１１０は、算出された損失値を用いて、物体検出モデルＡＮの複数の演算パラメータを調整する。具体的には、ＣＰＵ１１０は、訓練画像データごとに算出される損失値の合計が小さくなるように、所定のアルゴリズムに従って演算パラメータを調整する。所定のアルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズムが用いられる。

【0063】

物体検出モデルＡＮの訓練（図３のＳ４０）が終了すると、Ｓ４２では、ＣＰＵ１１０は、物体検出モデルＡＮの訓練の上述した進捗度αを更新する。上述のように、本実施例では、１エポック分の訓練が完了するごとに１％（０．０１）だけ進捗度αに加算される。

【0064】

Ｓ４５では、ＣＰＵ１１０は、訓練終了条件が満たされたか否かを判断する。本実施例では、訓練終了条件は、１００エポック分の訓練が完了することである。例えば、ＣＰＵ１１０は、進捗度αが１になった場合に、訓練終了条件が満たされたと判断し、進捗度αが１未満である場合に、訓練終了条件は満たされないと判断する。

【0065】

訓練終了条件が満たされない場合には（Ｓ４５：ＮＯ）、ＣＰＵ１１０は、Ｓ１２に戻って、訓練を継続する。訓練終了条件が満たされた場合には（Ｓ４５：ＹＥＳ）、ＣＰＵ１１０は、Ｓ５０にて、調整済の演算パラメータを含む訓練済みの物体検出モデルＡＮのデータを、不揮発性記憶装置１３０に格納して、訓練処理を終了する。

【0066】

訓練画像ＭＩが入力される場合に訓練済みの物体検出モデルＡＮによって生成される出力データＯＤは、以下の特徴を有している。出力データＯＤにおいて、訓練画像ＭＩ内の正解画像ＧＩ（ラベルＬ）の中心ＣＰを含むセルに対応付けられた予測領域情報の１つは、訓練画像ＭＩ内の正解画像ＧＩの領域を適切に示す情報と、高い確信度Ｖｃ（１に近い確信度Ｖｃ）と、を含む。また、出力データＯＤにおいて、訓練画像ＭＩ内の正解画像ＧＩの中心ＣＰを含むセルに対応付けられたクラス情報は、ラベルＬであることを示す。出力データＯＤに含まれる他の予測領域情報は、ラベルＬとは異なる領域を示す情報と、低い確信度Ｖｃ（０に近い確信度Ｖｃ）と、を含む。従って、高い確信度Ｖｃを含む予測領域情報を用いて、訓練画像ＭＩ内の正解画像ＧＩの領域を特定できる。換言すれば、訓練済みの物体検出モデルＡＮは、正解画像ＧＩに示されるラベルＬを含む入力画像（例えば、後述する撮影画像ＦＩ）が入力される場合に、該入力画像内のラベルＬの領域を特定できる。

【0067】

以上の説明から解るように、物体検出モデルＡＮは、正解画像ＧＩと不正解画像ＢＩとをオブジェクトとして含む訓練画像ＭＩを用いて訓練される。そして、物体検出モデルＡＮは、訓練画像ＭＩ内の正解画像ＧＩを検出し、かつ、訓練画像ＭＩ内の不正解画像ＢＩを検出しないように訓練される。このために、訓練画像ＭＩにおいて、正解画像ＧＩは、物体検出モデルＡＮにて検出すべきラベルＬを示すオブジェクトである、と言うことができる。また、訓練画像ＭＩにおいて、不正解画像ＢＩは、物体検出モデルＡＮにて検出すべきでないラベルを示すオブジェクトである、と言うことができる。正解画像ＧＩと不正解画像ＢＩとは、ともにラベルを示すので、互いに同種の物品を示している、と言うことができる。

【0068】

Ａ－３.検査処理
図９は、検査処理のフローチャートである。図１０は、撮影画像ＦＩの一例を示す図である。検査処理は、製品３００に貼付された検査対象のラベルＬを検査する処理である。検査は、貼付されたラベルＬが正しいラベルであるか否か（貼り間違えはないか）の検査と、貼付されたラベルＬが欠陥等を含むか否かの検査と、を含む。検査処理は、ユーザ（例えば、検査の作業者）が処理の開始指示を、操作部１５０を介して処理装置１００に入力した場合に、開始される。例えば、ユーザは、検査すべきラベルＬが貼り付けられた製品３００を、撮影装置４００を用いて撮影するための所定の位置に配置した状態で、検査処理の開始指示を入力する。

【0069】

Ｓ５１０では、ＣＰＵ１１０は、検査すべきラベルＬを含む撮影画像ＦＩを取得する。例えば、ＣＰＵ１１０は、撮影装置４００に撮影指示を送信して、撮影装置４００に撮影画像ＦＩのデータを生成させ、撮影装置４００から撮影画像ＦＩのデータを取得する。この結果、例えば、図１０の撮影画像ＦＩが取得される。撮影画像ＦＩは、製品の前面３１と、前面３１上に貼付されたラベルＬとを示す画像である。ラベルＬは、キズなどの欠陥を含む場合もある。

【0070】

Ｓ５１５では、ＣＰＵ１１０は、撮影画像ＦＩを物体検出モデルＡＮに入力して、物体検出モデルＡＮに対応する出力データＯＤを物体検出モデルＡＮに生成させる。出力データＯＤは、上述のように、複数個の予測領域情報を含む。

【0071】

Ｓ５２０では、ＣＰＵ１１０は、複数個の予測領域情報のうち、所定の閾値Ｖｔｈ以上の確信度Ｖｃを含む予測領域情報を特定する。

【0072】

Ｓ５２５では、ＣＰＵ１１０は、撮影画像ＦＩにおいて、検査すべきラベルＬの領域が全て特定されたか否かを判断する。本実施例では、検査すべきラベルＬは、１種類の１個のラベルＬであるので、所定の閾値Ｖｔｈ以上の確信度Ｖｃを含む１個の予測領域情報が特定された場合に、検査すべきラベルＬの領域が全て特定されたと判断される。検査すべきラベルＬがＫ個（Ｋは１以上の整数）存在する場合には、所定の閾値Ｖｔｈ以上の確信度Ｖｃを含むＫ個の予測領域情報が特定された場合に、検査すべきラベルＬの領域が全て特定されたと判断される。

【0073】

検査すべきラベルＬの領域が全て特定されない場合には（Ｓ５２５：ＮＯ）、ＣＰＵ１１０は、Ｓ５４０にて、検査結果を異常有りとする。この場合には、ラベルの貼り忘れや貼り間違い、あるいは、ラベルに大きなキズや汚れなどの明らかな異常があると考えられるので、後述する詳細検査処理（Ｓ５４５）を実行することなく、検査結果を異常有りとすることができる。

【0074】

検査すべきラベルＬの領域が全て特定された場合には（Ｓ５２５：ＹＥＳ）、ＣＰＵ１１０は、Ｓ５３０にて、撮影画像ＦＩにて特定されたラベルＬの領域（図１０のラベル領域ＬＡ）内の画像に対して文字列確認処理を実行する。具体的には、ＣＰＵ１１０は、ラベル領域ＬＡ内の画像に対して、文字認識処理を実行して、ラベル領域ＬＡ内に含まれる文字列を検出する。ＣＰＵ１１０は、文字認識処理によって検出された文字列が、版下画像ＲＩに示されるラベルＬの特定の文字列（例えば、メーカ名やモデル名）を含むか否かを確認する。

【0075】

Ｓ５３０では、ＣＰＵ１１０は、Ｓ５３０の文字列確認処理の結果に基づいて、ラベル領域ＬＡが特定の文字列を含むか否かを判断する。ラベル領域ＬＡが特定の文字列を含まない場合には（Ｓ５３５：ＮＯ）、ＣＰＵ１１０は、Ｓ５４０にて、検査結果を異常有りとする。この場合には、ラベルの貼り間違いが生じていると考えられるので、後述する詳細検査処理（Ｓ５４５）を実行することなく、検査結果を異常有りとすることができる。

【0076】

ラベル領域ＬＡが特定の文字列を含む場合には（Ｓ５３５：ＹＥＳ）、ＣＰＵ１１０は、Ｓ５４５にて、ラベル領域ＬＡ内の画像（ラベルＬの画像）を用いて、詳細検査処理を実行する。詳細検査処理は、ラベル領域ＬＡ内のラベルＬにキズや汚れなどの異常があるか否かを検査する処理である。詳細検査処理には、例えば、機械学習モデルを利用した公知の方法が用いられる。

【0077】

本実施例では、ＰａＤｉＭと呼ばれる手法を用いて、詳細検査処理が実行される。ＰａＤｉＭの手法では、例えば、ＣＰＵ１１０は、図示しないエンコーダにラベル領域ＬＡ内のラベルＬの画像を入力して、ラベルＬの画像の特徴データを生成する。そして、ＣＰＵ１１０は、ラベルの画像の特徴データと、複数個の正常なラベルＬの画像データの特徴データと、の間のマハラノビス距離を算出することで、ラベルの検査を実行する。複数個の正常なラベルの画像データの特徴データは、例えば、エンコーダに複数個の正常なラベルの画像データを入力することで、予め生成される。ＰａＤｉＭの手法は、例えば、論文「T. Defard, A. Setkov, A. Loesch, and R. Audigier, “Padim: a patch distribution modeling framework for anomaly detection and localization”,arXiv:2011.08785(2020),https://arxiv.org/abs/2011.08785,投稿日17 Nov 2020」に開示されている。

【0078】

Ｓ５５０では、ＣＰＵ１１０は、検査結果を表示部１４０に表示して検査処理を終了する。検査結果は、Ｓ５９０にて異常有りと判定されたことやＳ５４５の詳細検査処理の結果を含み得る。

【0079】

以上説明した本実施例によれば、訓練処理（図３）にて生成される複数個の訓練画像ＭＩ（図５（Ｂ））のそれぞれは、正解画像ＧＩと不正解画像ＢＩとをオブジェクトとして含む１枚の画像である。正解画像ＧＩは、物体検出モデルＡＮにて検出すべきラベルＬを示し、不正解画像ＢＩは、物体検出モデルＡＮにて検出すべきでないラベルを示す。正解画像ＧＩと不正解画像ＢＩとは互いに同種の物品（本実施例ではラベル）を示す。ＣＰＵ１１０は、複数個の訓練画像ＭＩを取得し（図３のＳ１０～Ｓ３０）、該複数個の訓練画像ＭＩを用いて、訓練画像ＭＩが物体検出モデルＡＮに入力される場合に訓練画像ＭＩ内の正解画像ＧＩを検出するように、物体検出モデルＡＮを訓練する（図３のＳ４０）。正解画像ＧＩと不正解画像ＢＩとの差異は、差異（１）～差異（４）のうちの１つを含む（図７のＳ２１０、Ｓ２２０、図４）。上述のように差異（１）は大きさの差異であり、差異（２）は文字の差異であり、差異（３）はキズや汚れの差異であり、差異（４）は色の差異である。この結果、検出対象のラベルＬの大きさ、特定の文字の有無、キズや汚れの有無、特定色を有するか否か等の差異を考慮して、物体を検出するように、物体検出モデルＡＮを訓練できる。この結果、物体検出モデルによるラベルＬの検出精度を向上し得る。

【0080】

例えば、検出すべきラベルＬと、ラベルとは全く異なるオブジェクト（人、他種の物品等）と、を含む訓練画像のみを用いて物体検出モデルＡＮを訓練すると、大きさ、文字、キズや汚れ、色などの細かい差異を考慮したラベルＬの検出が可能なように物体検出モデルＡＮを訓練することは困難である。本実施例によれば、例えば、想定外の大きさを有するラベルは、該ラベルの他の要素が検出すべきラベルＬと同じであっても検出されないように、物体検出モデルＡＮを訓練し得る。また、例えば、特定の文字を含んでいないラベルは、該ラベルの他の要素が検出すべきラベルＬと同じであっても検出されないように、物体検出モデルＡＮを訓練し得る。また、例えば、キズや汚れを含んでいるラベルは、該ラベルの他の要素が検出すべきラベルＬと同じであっても検出されないように、物体検出モデルＡＮを訓練し得る。また、例えば、背景や文字の色が異なるラベルは、該ラベルの他の要素が検出すべきラベルＬと同じであっても検出されないように、物体検出モデルＡＮを訓練し得る。したがって、例えば、図９に示すように、詳細検査処理を行うことなく、検査結果を得ることができるので、検査処理の効率を向上することができる。

【0081】

さらに、本実施例では、正解画像ＧＩが示す物品は、文字ＴＸを含むラベルＬである（図４、図５）。この結果、物体検出モデルＡＮによってラベルＬを検出する精度を向上し得る。ラベルＬの検査では、撮影画像ＦＩに含まれるラベルＬの大きさは、ある程度想定範囲内に収まるので、想定外の大きさのラベルを検出する必要がない。むしろ、想定外の大きさのラベルを検出しないことで、その時点で、ラベルに異常があることを判断できるので、検査処理を効率化できる（図９のＳ５２５、Ｓ５４０）。文字、キズや汚れ、色が想定されるラベルと異なる場合についても同様である。本実施例によれば、物体検出モデルＡＮによるラベルの検出精度を向上することで、検査処理を効率化できる。

【0082】

さらに本実施例によれば、大きさの差異は、（Ａ）正解画像ＧＩの大きさが特定範囲内（例えば、横幅が２００画素以上４００画素未満の範囲内）であり、不正解画像ＢＩの大きさが特定範囲の上限よりも所定割合以上大きいこと（例えば、横幅が上限４００画素よりも２０％以上大きいこと）、または、（Ｂ）正解画像ＧＩの大きさが特定範囲内（例えば、横幅が２００画素以上４００画素未満の範囲内）であり、不正解画像ＢＩの大きさは特定範囲の下限よりも所定割合以上小さいこと（例えば、横幅が下限２００画素よりも２０％以上小さいこと）である。この結果、正解画像ＧＩと、大きさの差異が付与された不正解画像ＢＩｓと、を含む訓練画像ＭＩ（図５（Ｂ））において、正解画像ＧＩと不正解画像ＢＩｓとの大きさの差異を、明確に有意の差異とすることができる。したがって、物体検出モデルＡＮが特定範囲内の大きさのラベルＬを検出し、特定範囲外の過度に大きなラベルや過度に小さなラベルを検出しないように、物体検出モデルＡＮを訓練できる。

【0083】

さらに、本実施例によれば、１つの不正解画像ＢＩと正解画像ＧＩとの間の差異は、差異（１）～（４）のうちの１つの差異を含み、差異（１）～（４）のうちの１つとは異なる差異を含まない。すなわち、１つの不正解画像ＢＩに付与される差異は、大きさの差異と、文字の差異と、キズや汚れの差異と、色の差異と、のうちの１つだけである（図７のＳ２１０、図４）。検査処理において異常であると判断されるラベルは、検出すべきラベルとの差異として差異（１）～（４）のうちの１つだけを含む場合が多い。このために、検査処理において用いられる物体検出モデルＡＮは、検出すべきラベルとの差異が１つだけであるラベルを検出しないように訓練することが好ましい。本実施例によれば、１つの不正解画像ＢＩと正解画像ＧＩとの間の差異は、差異（１）～（４）のうちの１つだけであるので、検出すべきラベルとの差異が１つだけであるラベルを検出しないように物体検出モデルＡＮを訓練することができる。

【0084】

さらに、本実施例によれば、訓練画像ＭＩは、正解画像ＧＩの全体と、不正解画像ＢＩの全体と、を含む（図５（Ｂ））。すなわち、訓練画像ＭＩは、検出すべきラベルＬの全体を示すオブジェクトと、検出すべきでないラベルの全体を示すオブジェクトと、を含む。この結果、訓練画像ＭＩを用いて物体検出モデルＡＮを訓練することで、検出すべきラベルＬの全体を含む撮影画像ＦＩから、当該ラベルＬの領域を検出するように物体検出モデルＡＮを訓練できる。検査処理では、検査対象のラベルの全体を含むように撮影画像ＦＩの撮影が行われるのが通常である。このために、撮影画像ＦＩに含まれているラベルが欠けている場合には、何らかの異常が発生していると考えられるので、欠けたラベルを検出する必要はない。むしろ、欠けたラベルを検出しないことで、その時点で、ラベルの撮影位置や撮影条件などに異常があることを判断できるので、検査処理を効率化できる（図９のＳ５２５、Ｓ５４０）。

【0085】

さらに、本実施例によれば、ＣＰＵ１１０は、背景画像ＯＩを背景とし正解画像ＧＩを前景として、背景画像ＯＩ内の合成領域ＭＡに正解画像ＧＩを合成する（図３のＳ２５）。ＣＰＵ１１０は、合成領域ＭＡを示す合成領域情報を保存する（図６のＳ１６０）。ＣＰＵ１１０は、合成領域情報を教師データとして用いて、物体検出モデルを訓練する（図３のＳ４０、図８（Ｂ）のＳ４３０）。この結果、教師データを生成する負担を軽減できるので、物体検出モデルＡＮの訓練の負担を軽減できる。例えば、仮に、正解画像ＧＩを背景画像ＯＩに合成することに代えて、正常なラベルＬを撮影することによって、訓練画像ＭＩを生成する場合には、例えば、オペレータが訓練画像内のラベルＬを確認して、ラベルの領域を指定することによって、教師データが生成される。この場合には、オペレータによる作業が必要になるので、物体検出モデルＡＮを訓練するための負担が増大し得る。また、本実施例では、オペレータがラベルの領域を指定する場合よりも、精度良くラベル領域情報を生成し得るので、物体検出モデルＡＮが精度良くラベルの領域を特定できるように、物体検出モデルＡＮを訓練し得る。

【0086】

さらに、本実施例によれば、ＣＰＵ１１０は、背景画像ＯＩと、正解画像ＧＩと、を取得し（図３のＳ１２、Ｓ１５）、正解画像ＧＩに対して特定の画像処理を実行して、不正解画像ＢＩを生成する（図３のＳ２０、図７）。ＣＰＵ１１０は、背景画像ＯＩを背景とし正解画像ＧＩと不正解画像ＢＩを前景として、背景画像ＯＩの合成領域ＭＡに正解画像ＧＩを合成し、背景画像ＯＩの別の領域に不正解画像ＢＩを合成することによって訓練画像ＭＩを生成する（図３のＳ２５、図５（Ｂ））。この結果、背景画像ＯＩと正解画像ＧＩとを用いて、不正解画像ＢＩを含む訓練画像ＭＩが生成されるので、訓練画像ＭＩを準備する負担を軽減できる。仮に、大きさ、文字、キズや汚れ、色などの差異が生じているラベルを実際に撮影することによって、不正解画像を取得するとすると、不正解画像を準備するための負担が過度に大きくなり得るが、本実施例では、このような負担を軽減できる。

【0087】

さらに、本実施例によれば、正解画像ＧＩは、版下画像ＲＩを用いて生成される。この結果、例えば、実物のラベルＬを撮影することで、正解画像ＧＩを準備する場合よりも正解画像ＧＩを準備する負担を軽減できる。

【0088】

さらに、本実施例によれば、本実施例の検査処理は、検査対象のラベルＬの撮影画像ＦＩを取得し（図９のＳ５１０）、物体検出モデルＡＮを用いて、撮影画像ＦＩ内のラベルＬの領域を検出し、検出されたラベルＬに含まれる文字が、特定の文字であるか否かを判断する処理（図９のＳ５３０、Ｓ５３５）を含む。文字の差異が付与されて不正解画像ＢＩｔを含む訓練画像ＭＩを用いて物体検出モデルＡＮを訓練したとしても、細かな文字が異なるラベルを検出することを完全に抑制することは困難である。このために、本実施例では、検出されたラベルＬに含まれる文字を確認し、ラベルに特定の文字列がある場合に、詳細検査処理を行っている。この結果、無駄な詳細検査処理が行われることを抑制して、検査処理の効率を向上できる。

【0089】

以上の説明から解るように、本実施例の正解画像ＧＩは、正解オブジェクトの例であり、不正解画像ＢＩは、不正解オブジェクトの例である。

【0090】

Ｂ．第２実施例
第２実施例では、訓練処理の内容が第１実施例とは異なる。図１１は、第２実施例の訓練処理のフローチャートである。図１２は、第２実施例の説明図である。第２実施例では、２種類のラベル、すなわち、図１２（Ａ）の第１ラベルＬ１と、図１２（Ｂ）の第２ラベルＬ２と、が検査対象とされる。第１ラベルＬ１は、第１実施例のラベルＬと同一のラベルであり、背景Ｂと、文字ＴＸと、マークＭＫと、を含む。第２ラベルＬ２は、第１ラベルＬ１と異なるラベルであり、背景Ｂ２と、文字ＴＸ２と、マークＭＫ２と、を含む。、第２ラベルＬ２の背景Ｂ２の色は、第１ラベルＬ１の背景Ｂの色とは異なっている。第２ラベルＬ２の文字ＴＸ２の一部は、第１ラベルＬ１の文字ＴＸの一部と異なっている。第２ラベルＬ２のマークＭＫ２の形状は、第１ラベルＬ１のマークＭＫの形状と異なっている。

【0091】

第２実施例の訓練処理では、物体検出モデルＡＮが第１ラベルＬ１と第２ラベルＬ２との両方を検出できるように訓練する。図１１のＳ１０Ｂでは、ＣＰＵ１１０は、第１ラベルＬ１の版下画像ＲＩ１と、第２ラベルＬ２の版下画像ＲＩ２と、を不揮発性記憶装置１３０から取得する。図１２（Ａ）、（Ｂ）は、版下画像ＲＩ１と版下画像ＲＩ２とを示す画像とも言うことができる。

【0092】

Ｓ１２Ｂでは、ＣＰＵ１１０は、図３のＳ１２と同様に、不揮発性記憶装置１３０から一つの背景画像ＯＩのデータを取得する。

【0093】

Ｓ１５Ｂでは、ＣＰＵ１１０は、第１ラベル画像生成処理を実行する。第１ラベル画像生成処理は、版下画像ＲＩ１を用いて、第１実施例の正解画像生成処理（図６）と同一の処理を実行することによって、第１ラベル画像ＧＩ１（図１２（Ｃ））を生成する処理である。

【0094】

Ｓ２０Ｂでは、ＣＰＵ１１０は、第２ラベル画像生成処理を実行する。第２ラベル画像生成処理は、版下画像ＲＩ２を用いて、第１実施例の正解画像生成処理（図６）と同一の処理を実行することによって、第２ラベル画像ＧＩ２（図１２（Ｃ））を生成する処理である。

【0095】

Ｓ２５Ｂでは、ＣＰＵ１１０は、背景画像ＯＩ（図５（Ａ））に、第１ラベル画像ＧＩ１と第２ラベル画像ＧＩ２とを前景として合成する合成処理を実行して、訓練画像ＭＩ２を生成する。図１２（Ｃ）には、訓練画像ＭＩ２の一例が示されている。

【0096】

Ｓ３０Ｂでは、ＣＰＵ１１０は、図３のＳ３０と同様に、訓練画像ＭＩ２に対して、調整処理を実行する。調整処理は、上述したように、例えば、コントラスト補正処理、明度補正処理、ノイズ付与処理を含む。

【0097】

Ｓ３５Ｂでは、ＣＰＵ１１０は、図３のＳ３５と同様に、バッチサイズ分の訓練画像ＭＩ２を生成したか否かを判断する。バッチサイズ分の訓練画像ＭＩ２が未生成である場合には（Ｓ３５Ｂ：ＮＯ）、ＣＰＵ１１０は、Ｓ１２Ｂに戻る。バッチサイズ分の訓練画像ＭＩ２が生成済みである場合には（Ｓ３５Ｂ：ＹＥＳ）、ＣＰＵ１１０は、Ｓ４０Ｂに処理を進める。

【0098】

Ｓ４０Ｂでは、ＣＰＵ１１０は、バッチサイズ分の訓練画像ＭＩを用いて、訓練画像ＭＩ２内の第１ラベル画像ＧＩ１を検出するように、物体検出モデルＡＮの訓練を実行する。すなわち、ＣＰＵ１１０は、第１ラベル画像ＧＩ１の合成領域ＭＡ１を検出すべきラベルの領域として示す教師データを用いて、図８（Ｂ）の訓練を実行する。換言すれば、訓練画像ＭＩ２内の第１ラベル画像ＧＩ１（第１ラベルＬ１）を検出すべきラベルとし、第２ラベル画像ＧＩ２（第２ラベルＬ２）を検出すべきでないラベルとして訓練を行う。

【0099】

Ｓ４１Ｂでは、ＣＰＵ１１０は、バッチサイズ分の訓練画像ＭＩを用いて、訓練画像ＭＩ２内の第２ラベル画像ＧＩ２を検出するように、物体検出モデルＡＮの訓練を実行する。すなわち、ＣＰＵ１１０は、第２ラベル画像ＧＩ２の合成領域ＭＡ２を検出すべきラベルの領域として示す教師データを用いて、図８（Ｂ）の訓練を実行する。換言すれば、訓練画像ＭＩ２内の第１ラベル画像ＧＩ１（第１ラベルＬ１）を検出すべきでないラベルとし、第２ラベル画像ＧＩ２（第２ラベルＬ２）を検出すべきラベルとして訓練を行う。

【0100】

Ｓ４２Ｂでは、ＣＰＵ１１０は、図３のＳ４２と同様に、物体検出モデルＡＮの訓練の上述した進捗度αを更新する。上述のように、本実施例では、１エポック分の訓練が完了するごとに１％（０．０１）だけ進捗度αに加算される。

【0101】

Ｓ４５Ｂでは、ＣＰＵ１１０は、図３のＳ４５と同様に、訓練終了条件が満たされたか否かを判断する。本実施例では、訓練終了条件は、１００エポック分の訓練が完了することである。例えば、ＣＰＵ１１０は、進捗度αが１になった場合に、訓練終了条件が満たされたと判断し、進捗度αが１未満である場合に、訓練終了条件は満たされないと判断する。

【0102】

訓練終了条件が満たされない場合には（Ｓ４５Ｂ：ＮＯ）、ＣＰＵ１１０は、Ｓ１２Ｂに戻って、訓練を継続する。訓練終了条件が満たされた場合には（Ｓ４５Ｂ：ＹＥＳ）、ＣＰＵ１１０は、Ｓ５０Ｂにて、調整済の演算パラメータを含む訓練済みの物体検出モデルＡＮのデータを、不揮発性記憶装置１３０に格納して、訓練処理を終了する。

【0103】

これによって、物体検出モデルＡＮは、第１ラベルＬ１と第２ラベルＬ２とをそれぞれ検出可能に訓練される。

【0104】

以上説明した第２実施例によれば、複数個の訓練画像ＭＩ２は、第１ラベルＬ１を示す第１ラベル画像ＧＩ１と、第２ラベルＬ２を示す第２ラベル画像ＧＩ２と、をオブジェクトとして含む（図１２（Ｂ））。訓練処理では、ＣＰＵ１１０は、第１ラベル画像ＧＩ１を検出すべきラベルを示すオブジェクトとし、第２ラベル画像ＧＩ２を検出すべきでないラベルを示すオブジェクトとして用いて、訓練画像ＭＩ内の第１ラベル画像ＧＩ１を検出するように、物体検出モデルＡＮを訓練する（図１１のＳ４０Ｂ）。ＣＰＵ１１０は、さらに、第１ラベル画像ＧＩ１を検出すべきでないラベルを示すオブジェクトとし、第２ラベル画像ＧＩ２を検出すべきラベルを示すオブジェクトとして用いて、訓練画像ＭＩ内の第２ラベル画像ＧＩ２を検出するように、物体検出モデルＡＮを訓練する（図１１のＳ４１Ｂ）。この結果、第１ラベルＬ１と第２ラベルＬ２とを区別して検出できるように、物体検出モデルＡＮを訓練することできる。また、複数個の訓練画像ＭＩ２を用いて、第１ラベルＬ１を第２ラベルＬ２と区別して検出できるようにする訓練と、第２ラベルＬ２を第１ラベルＬ１と区別して検出できるようにする訓練と、の両方を行うことができるので、物体検出モデルＡＮを訓練するための負担を軽減することができる。

【0105】

以上の説明から解るように、本実施例の第１ラベルＬ１は、第１の物品の例であり、第２ラベルＬ２は、第２の物品の例であり、第１ラベル画像ＧＩ１は、第１オブジェクトの例であり、第２ラベル画像ＧＩ２は、第２オブジェクトの例である。

【0106】

Ｃ.変形例
（１）検査の対象となる物品は、ラベルＬ（図２（Ｂ））に限らず、他の任意の物品であってよい。対象となる物品は、製品（例えば、複合機）に設けられる銘板、例えば、ロゴや品番やモデル名やメーカ名を示す文字や記号を含む立体的な銘板であっても良い。また、ラベルや銘板が設けられる製品は、複合機に限らず、ミシン、カッティングマシン、携帯端末などの他の製品であっても良い。

【0107】

（２）上記実施例の１つの不正解画像ＢＩは、正解画像ＧＩとの差異として、大きさ、特定の文字、キズや汚れ、色のうちの１つだけを含んでいる。これに代えて、不正解画像ＢＩは、正解画像ＧＩとの差異として、大きさ、特定の文字、キズや汚れ、色のうちの複数個の差異を含んでも良い。例えば、不正解画像ＢＩは、正解画像ＧＩよりも大きく、かつ、正解画像ＧＩとは異なる色を有しても良い。

【0108】

（３）上記第２実施例の訓練処理では、図１１のＳ４０ＢとＳ４１Ｂとの両方で、１つの物体検出モデルＡＮの訓練を行っている。これに代えて、図１１のＳ４０ＢとＳ４１Ｂとで、互いに異なる物体検出モデルＡＮを訓練しても良い。すなわち、Ｓ４０Ｂでは、訓練画像ＭＩ２が入力される場合に、訓練画像ＭＩ２内の第１ラベル画像ＧＩ１を検出し、第２ラベル画像ＧＩ２を検出しないように、第１の物体検出モデルを訓練し、Ｓ４０Ｂでは、訓練画像ＭＩ２が入力される場合に、訓練画像ＭＩ２内の第２ラベル画像ＧＩ２を検出し、第１ラベル画像ＧＩ１を検出しないように、第１の物体検出モデルとは異なる第２の物体検出モデルを訓練しても良い。この場合には、第１ラベル画像ＧＩ１を検出するための第１の物体検出モデルと、第２ラベル画像ＧＩ２を検出するための第２の物体検出モデルと、を同じ訓練画像ＭＩ２を用いて、効率良く訓練することができる。

【0109】

（４）なお、上記実施例の訓練画像の生成方法は、一例であり、これに限られない。例えば、第１実施例の訓練画像ＭＩは、実際に、正常なラベルＬと、キズや汚れを付したラベルＬと、を準備し、正常なラベルＬと、キズや汚れを付したラベルＬと、が１つの画像に収まるように、該２つのラベルＬを撮影することによって生成されても良い。第２実施例の訓練画像ＭＩ２は、実際に、２種類のラベル、すなわち、第１ラベルＬ１と第２ラベルＬ２とを準備し、該２種類のラベルが１つの画像に収まるように、該２つのラベルＬを撮影することによって生成されても良い。

【0110】

（５）上記実施例の検査処理（図９）は、一例であり、これに限られない。例えば、Ｓ５３０、Ｓ５３５のラベル内の文字列が特定の文字列を含むか否かを確認する処理は省略されても良い。

【0111】

また、Ｓ５４５の詳細検査処理は、省略されても良いし、詳細検査処理には上述したＰａＤｉＭと呼ばれる手法とは異なる手法が採用されても良い。例えば、ＶＡＥ(Variational AutoEncoder)や通常のＡＥ（AutoEncoder）などのオートエンコーダを用いて、工業製品の異常検知を行う技術が知られている。この技術では、検査対象の工業製品を撮影して得られる入力画像をオートエンコーダに入力し、出力画像が生成される。そして、入力画像と出力画像とを比較することで異常検知が行われる。詳細検査処理として、このようなオートエンコーダを用いる手法が採用されても良い。この手法は、例えば、文献「立花亮介, 松原崇, 上原邦昭, “深層生成モデルによる非正則化異常度を用いた工業製品の異常検知”, 人工知能学会全国大会論文集, 第32回 (2018), p.2A103, 公開日 2018/07/30, https://doi.org/10.11517/pjsai.JSAI2018.0_2A103」に開示されている。

【0112】

（６）上記実施例では、訓練処理と検査処理とは、図１の処理装置１００によって実行されている。これに代えて、訓練処理と検査処理とは、それぞれ、別の装置によって実行されても良い。この場合には、例えば、訓練処理によって訓練された物体検出モデルＡＮは、検査処理を実行する装置の記憶装置に格納される。また、訓練処理と検査処理との全部または一部は、ネットワークを介して互いに通信可能な複数個の計算機（例えば、いわゆるクラウドサーバ）によって実行されても良い。また、検査処理を行うコンピュータプログラムと、訓練処理を行うコンピュータプログラムとは、異なるコンピュータプログラムであっても良い。

【0113】

（７）上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、訓練処理と検査処理との全部または一部、例えば、物体検出モデルＡＮの演算処理は、ASIC（Application Specific Integrated Circuit）等のハードウェア回路によって実行されてよい。

【0114】

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

【符号の説明】

【0115】

１０００…検査システム,１００…処理装置,１１０…ＣＰＵ,１２０…揮発性記憶装置,１３０…不揮発性記憶装置,１４０…表示部,１５０…操作部,１７０…通信部,３０…筐体,３００…製品,４００…撮影装置,ＡＮ…物体検出モデル,ＢＩ…不正解画像,ＦＩ…撮影画像,ＧＩ…正解画像,Ｌ…ラベル,ＭＩ,ＭＩ２…訓練画像,ＯＤ…出力データ,ＯＩ…背景画像,ＰＧ…コンピュータプログラム,ＲＩ…版下画像

【図1】