(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-27
(45)【発行日】2025-04-04
(54)【発明の名称】製品の分類システムおよび製品の分類方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20250328BHJP
G06N 3/0895 20230101ALI20250328BHJP
G06N 3/096 20230101ALI20250328BHJP
G06N 20/20 20190101ALI20250328BHJP
【FI】
G06N20/00 130
G06N3/0895
G06N3/096
G06N20/20
(21)【出願番号】P 2020161399
(22)【出願日】2020-09-25
【審査請求日】2023-09-22
(32)【優先日】2019-10-01
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-11-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】512187343
【氏名又は名称】三星ディスプレイ株式會社
【氏名又は名称原語表記】Samsung Display Co.,Ltd.
【住所又は居所原語表記】1, Samsung-ro, Giheung-gu, Yongin-si, Gyeonggi-do, Republic of Korea
(74)【代理人】
【識別番号】110002619
【氏名又は名称】弁理士法人PORT
(72)【発明者】
【氏名】リ, ジャンファン
【審査官】多賀 実
(56)【参考文献】
【文献】RADOSAVOVIC, Ilija et al.,Data Distillation: Towards Omni-Supervised Learning,2018 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION [online],2018年,pp. 4119-4128,インターネット:<URL: https://openaccess.thecvf.com/content_cvpr_2018/html/Radosavovic_Data_Distillation_Towards_CVPR_2018_paper.html>
【文献】JORGE, Javier et al.,Empirical Evaluation of Variational Autoencoders for Data Augmentation,International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP) [online],2018年,pp. 96-104,インターネット:<URL: https://www.semanticscholar.org/paper/Empirical-Evaluation-of-Variational-Autoencoders-Jorge-Vieco/c2fcd0f63216c16eb29d8df90d477f44855181ba >
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00-20/20
G06N 3/02-3/10
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
産業製品の製造過程を通じて製造された製品を優良または不良に分類する分類方法であって、
処理装置(processor)によって、
前記製造過程で時間に応じた温度または圧力の測定値を探知する少なくとも1つの感知器から入力データ集合を受信する段階、
前記処理装置によって、第1分類器の少なくとも第1インスタンスおよび第2インスタンスを生成する段階、
前記処理装置によって、前記入力データ集合に基づいて前記第1分類器の前記第1インスタンスおよび第2インスタンスを訓練させる段階、
前記処理装置によって、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間(latent space)の表現を学習する第2分類器を訓練させる段階、
前記処理装置によって、前記潜在空間で未分類データ集合である第1追加データ集合を生成する段階、
前記処理装置によって、前記第1分類器の前記第1インスタンスに基づいて前記第1追加データ集合を分類するための第1予測を生成する段階、
前記処理装置によって、前記第1分類器の前記第2インスタンスに基づいて前記第1追加データ集合を分類するための第2予測を生成する段階、
前記処理装置によって、前記第1予測および前記第2予測に基づいて前記第1追加データ集合用の分類注釈を生成する段階、および
前記処理装置によって、少なくとも前記入力データ集合および前記分類注釈が付けられた第1追加データ集合に基づいて第3分類器を訓練させる段階
を含み、
既に訓練された前記第3分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力す
る
分類方法。
【請求項2】
前記第1分類器、第2分類器および第3分類器のそれぞれは、ニューラルネットワークである、請求項1に記載の分類方法。
【請求項3】
前記第2分類器は、VAE(variational autoencoder)である、請求項2に記載の分類方法。
【請求項4】
前記潜在空間は、前記入力データ集合の圧縮表現を提供する、請求項1に記載の分類方法。
【請求項5】
前記第1追加データ集合の生成段階は、前記潜在空間で任意データ要素を生成する段階を含む、請求項1に記載の分類方法。
【請求項6】
前記分類注釈の生成段階は、
前記第1予測および前記第2予測に基づいて多数クラスを決定する段階、および
前記多数クラスに基づいて前記第1追加データ集合を分類する段階
を含む
請求項1に記載の分類方法。
【請求項7】
前記分類注釈の生成段階は、
前記第1予測の第1確率と前記第2予測の第2確率を決定する段階、
前記第1確率と前記第2確率の平均を計算する段階、および
前記計算された平均に基づいて前記第1追加データ集合用クラスを定義する段階
を含む
請求項1に記載の分類方法。
【請求項8】
前記分類注釈の生成段階は、
前記第1予測に基づいて、多数クラスの第1確率および少数クラスの第2確率を決定する段階、
前記第2予測に基づいて、前記多数クラスの第3確率および前記少数クラスの第4確率を決定する段階、
前記第1確率と前記第3確率の第1平均を計算する段階、
前記第2確率と前記第4確率の第2平均を計算する段階、および
前記計算した第1および第2平均に基づいて前記第1追加データ集合を分類する段階
を含む
請求項1に記載の分類方法。
【請求項9】
前記潜在空間
におけるオーバーサンプリングに基づいて第2追加データ集合を生成する段階、および
前記入力データ集合、前記分類注釈が付けられた前記第1追加データ集合および前記第2追加データ集合に基づいて前記第3分類器を訓練させる段階
をさらに含む、請求項1に記載の分類方法。
【請求項10】
産業製品の製造過程を通じて製造された製品を優良または不良に分類する分類システムであって、
処理装置、および
メモリ
を含み、
前記メモリは、内部にインストラクションを保存しており、
前記処理装置は、前記インストラクションを実行して、
前記製造過程で時間に応じた温度または圧力の測定値を探知する少なくとも1つの感知器から入力データ集合を受信し、
第1分類器の少なくとも第1および第2インスタンスを生成し、
前記入力データ集合に基づいて前記第1分類器の前記第1および第2インスタンスを訓練させ、
前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間(latent space)の表現を学習する第2分類器を訓練させ、
前記潜在空間で未分類データ集合である第1追加データ集合を生成し、
前記第1分類器の前記第1インスタンスに基づいて前記第1追加データ集合を分類するための第1予測を生成し、
前記第1分類器の前記第2インスタンスに基づいて前記第1追加データ集合を分類するための第2予測を生成し、
前記第1予測および前記第2予測に基づいて前記第1追加データ集合用の分類注釈を生成し、
少なくとも前記入力データ集合および前記分類注釈が付けられた第1追加データ集合に基づいて第3分類器を訓練させ、
既に訓練された前記第3分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する
分類システム。
【請求項11】
前記第1分類器、第2分類器および第3分類器のそれぞれは、ニューラルネットワークである、請求項10に記載の分類システム。
【請求項12】
前記第2分類器は、VAE(variational autoencoder)である、請求項11に記載の分類システム。
【請求項13】
前記潜在空間は、前記入力データ集合の圧縮表現を提供する、請求項10に記載の分類システム。
【請求項14】
前記処理装置は、前記インストラクションを実行して前記第1追加データ集合を生成する時、前記潜在空間で任意データ要素を生成する、請求項10に記載の分類システム。
【請求項15】
前記処理装置は、前記インストラクションを実行して前記分類注釈を生成する時、
前記第1予測および前記第2予測に基づいて多数クラスを決定し、
前記多数クラスに基づいて前記第1追加データ集合を分類する
請求項10に記載の分類システム。
【請求項16】
前記処理装置は、前記インストラクションを実行して前記分類注釈を生成する時、
前記第1予測の第1確率と前記第2予測の第2確率を決定し、
前記第1確率と前記第2確率の平均を計算し、
前記計算した平均に基づいて前記第1追加データ集合用クラスを定義する
請求項10に記載の分類システム。
【請求項17】
前記処理装置は、前記インストラクションを実行して前記分類注釈を生成する時、
前記第1予測に基づいて、多数クラスの第1確率および少数クラスの第2確率を決定し、
前記第2予測に基づいて、前記多数クラスの第3確率および前記少数クラスの第4確率を決定し、
前記第1確率と前記第3確率の第1平均を計算し、
前記第2確率と前記第4確率の第2平均を計算し、
前記計算した第1および第2平均に基づいて前記第1追加データ集合を分類する
請求項10に記載の分類システム。
【請求項18】
前記処理装置は、前記インストラクションを実行して、
前記潜在空間
におけるオーバーサンプリングに基づいて第2追加データ集合を生成し、
前記入力データ集合、前記分類注釈が付けられた第1追加データ集合および第2追加データ集合に基づいて前記第3分類器を訓練させる
請求項10に記載の分類システム。
【請求項19】
産業製品の製造過程を通じて製造された製品を優良または不良に分類する分類システムであって、
前記製造過程で時間に応じた温度または圧力の測定値を探知する少なくとも1つの感知器から入力データ集合を収集するデータ収集回路、および
前記データ収集回路と連結され、ロジックを含む処理回路
を含み、
前記処理回路のロジックは、
前記収集された入力データ集合を受信し、
第1分類器の少なくとも第1および第2インスタンスを生成し、
前記入力データ集合に基づいて前記第1分類器の前記第1および第2インスタンスを訓練させ、
前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間(latent space)の表現を学習する第2分類器を訓練させ、
前記潜在空間で未分類データ集合である第1追加データ集合を生成し、
前記第1分類器の前記第1インスタンスに基づいて前記第1追加データ集合を分類するための第1予測を生成し、
前記第1分類器の前記第2インスタンスに基づいて前記第1追加データ集合を分類するための第2予測を生成し、
前記第1予測および前記第2予測に基づいて前記第1追加データ集合用の分類注釈を生成し、
少なくとも前記入力データ集合および前記分類注釈が付けられた第1追加データ集合に基づいて第3分類器を訓練させ、
既に訓練された前記第3分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する
製造部品を優良または不良に分類する分類システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、製品分類システムおよび方法に関し、特に分類器を訓練させるシステムおよび方法に関する。
【0002】
本出願は、2019年10月1日に米国特許庁に出願した米国特許出願番号第62/909,053号を優先権主張し、ここに引用することによって当該出願の全体内容を本願に含む。
【背景技術】
【0003】
最近の数年間、モバイル表示装置産業が急激に成長した。新しい類型の表示板モジュールと生産方法を使用することによって既存の方法だけでは表面欠陥を見つけ出すことが難しくなっている。製作した表示板モジュールが不良か否か[例えば「不良(no good)」に分類されるか、あるいは「優良(good)」に分類されるか]を人工知能(AI:artificial intelligence)を使用して自動的に予測することが好ましい。実際に、表示板モジュールだけでなく、他のハードウェア製品に対しても人工知能を使用して欠陥を予測することが好ましいだろう。
【発明の概要】
【発明が解決しようとする課題】
【0004】
新しい、既存になかったデータに良好に適用され得るAI/ML(machine learning)モデル(「一般化MLモデル」という)は、このような課題に適している。しかし、学習データ集合(training dataset)が不十分で、非常に不均衡な場合には、一般化MLモデルを作り出すことが難しい。データ集合の特性によって、不十分とクラス不均衡は避けられない課題であり、一般化された機械学習モデル(generalized machine learning)を生成することは困難である。
【0005】
したがって、2つのクラスに対して不均衡な学習データの限定された量からAI/MLモデルを持続的かつ安定的に構築するための向上したシステムおよび方法が必要である。
【課題を解決するための手段】
【0006】
本発明の一実施形態による製品分類方法は、製造過程を通じて製造された製品の分類方法であって、処理装置(processor)によって、入力データ集合を受信する段階、前記処理装置によって、第1分類器の少なくとも第1および第2インスタンスを生成する段階、前記処理装置によって、前記入力データ集合に基づいて前記第1分類器の前記第1および第2インスタンスを訓練させる段階、前記処理装置によって、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間(latent space)の表現を学習する第2分類器を訓練させる段階、前記処理装置によって、前記潜在空間で未分類データ集合である第1追加データ集合を生成する段階、前記処理装置によって、前記第1分類器の前記第1インスタンスに基づいて前記第1追加データ集合を分類するための第1予測を生成する段階、前記処理装置によって、前記第1分類器の前記第2インスタンスに基づいて前記第1追加データ集合を分類するための第2予測を生成する段階、前記処理装置によって、前記第1予測および前記第2予測に基づいて前記第1追加データ集合用分類注釈を生成する段階、そして前記処理装置によって、少なくとも前記入力データ集合および前記注釈が付けられた第1追加データ集合に基づいて第3分類器を訓練させる段階を含み、前記既訓練第3分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する。
【0007】
本発明の一実施形態によれば、前記第1、第2および第3分類器のそれぞれは、ニューラルネットワークであり得る。
【0008】
本発明の一実施形態によれば、前記第2分類器は、VAE(variational autoencoder)であり得る。
【0009】
本発明の一実施形態によれば、前記潜在空間は、前記入力データ集合の圧縮表現を提供することができる。
【0010】
本発明の一実施形態によれば、前記第1追加データ集合の生成段階は、前記潜在空間で任意データ要素を生成する段階を含むことができる。
【0011】
本発明の一実施形態によれば、前記分類注釈の生成段階は、前記第1予測および前記第2予測に基づいて多数クラスを決定する段階、そして前記多数クラスに基づいて前記第1追加データ集合を分類する段階を含むことができる。
【0012】
本発明の一実施形態によれば、前記分類注釈の生成段階は、前記第1予測の第1確率と前記第2予測の第2確率を決定する段階、前記第1確率と前記第2確率の平均を計算する段階、そして前記計算した平均に基づいて前記第1追加データ集合用クラスを定義する段階を含むことができる。
【0013】
本発明の一実施形態によれば、前記分類注釈の生成段階は、前記第1予測に基づいて、多数クラスの第1確率および少数クラスの第2確率を決定する段階、前記第2予測に基づいて、前記多数クラスの第3確率および前記少数クラスの第4確率を決定する段階、前記第1確率と前記第3確率の第1平均を計算する段階、前記第2確率と前記第4確率の第2平均を計算する段階、そして前記計算した第1および第2平均に基づいて前記第1追加データ集合を分類する段階を含むことができる。
【0014】
本発明の一実施形態によれば、前記潜在空間のオーバーサンプリングに基づいて第2追加データ集合を生成する段階、そして前記入力データ集合、前記注釈が付けられた第1追加データ集合および第2追加データ集合に基づいて前記第3分類器を訓練させる段階をさらに含むことができる。
【0015】
本発明の一実施形態による分類システムは、製造過程を通じて製造された製品の分類システムであって、処理装置、そしてメモリを含み、前記メモリは、内部にインストラクションを保存しており、前記処理装置は、前記インストラクションを実行して、入力データ集合を受信し、第1分類器の少なくとも第1および第2インスタンスを生成し、前記入力データ集合に基づいて前記第1分類器の前記第1および第2インスタンスを訓練させ、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間(latent space)の表現を学習する第2分類器を訓練させ、前記潜在空間で未分類データ集合である第1追加データ集合を生成し、前記第1分類器の前記第1インスタンスに基づいて前記第1追加データ集合を分類するための第1予測を生成し、前記第1分類器の前記第2インスタンスに基づいて前記第1追加データ集合を分類するための第2予測を生成し、前記第1予測および前記第2予測に基づいて前記第1追加データ集合用分類注釈を生成し、少なくとも前記入力データ集合および前記注釈が付けられた第1追加データ集合に基づいて第3分類器を訓練させ、前記既訓練第3分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する。
【0016】
本発明の一実施形態による分類システムは、製造部品を優良または不良に分類するシステムであって、入力データ集合を収集するデータ収集回路、そして前記データ収集回路と連結され、ロジックを含む処理回路を含み、前記処理回路のロジックは、前記収集された入力データ集合を受信し、第1分類器の少なくとも第1および第2インスタンスを生成し、前記入力データ集合に基づいて前記第1分類器の前記第1および第2インスタンスを訓練させ、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間(latent space)の表現を学習する第2分類器を訓練させ、前記潜在空間で未分類データ集合である第1追加データ集合を生成し、前記第1分類器の前記第1インスタンスに基づいて前記第1追加データ集合を分類するための第1予測を生成し、前記第1分類器の前記第2インスタンスに基づいて前記第1追加データ集合を分類するための第2予測を生成し、前記第1予測および前記第2予測に基づいて前記第1追加データ集合用分類注釈を生成し、少なくとも前記入力データ集合および前記注釈が付けられた第1追加データ集合に基づいて第3分類器を訓練させ、前記既訓練第3分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する。
【発明の効果】
【0017】
これによって、2つのクラスに対して不十分で不均衡な訓練データを拡張して分類器を持続的かつ安定的に構築することができる。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施形態により部品を不良または優良に分類するシステムである。
【
図2】本発明の一実施形態による、
図1の分類器エンジン概念のブロック図である。
【
図3】本発明の一実施形態により生徒モデルを生成して訓練させるために
図2の分類器エンジンが実行する過程のフローチャートである。
【
図4】本発明の一実施形態による
図2のVAE(variational autoencoder)の詳細なブロック図である。
【
図5】本発明の一実施形態による潜在空間オーバーサンプリング過程を詳細に示すフローチャートである。
【
図6】(a)は深層学習モデルを訓練させることに使用され得る入力データ集合の一例を示す分布グラフであり、(b)-(e)は(a)の入力データ集合に基づいて互いに異なる判断範囲を生成する複数の分類器インスタンスの例を示すグラフである。
【
図7】(a)は追加データに拡張された入力データ集合の一例を示す分布グラフであり、(b)は(a)の拡張訓練データ集合に基づいて互いに異なる判断範囲を生成する複数の分類器インスタンスのグラフを示す。
【発明を実施するための形態】
【0019】
以下、添付した図面を参照して後述する詳細な説明は、データ拡張システムおよび方法の実施形態に関するものであり、本発明により具現または利用される形態を全て表現したものではない。次に、添付した図面を参照して本発明の実施形態について詳細に説明する。しかし、互いに異なる実施形態で具現されるものと同一または均等な機能と構造も本発明の範囲内に含まれる。明細書全体にわたって同一または類似の構成要素については同一の図面符号を付した。
【0020】
モバイル表示装置の製造過程でモバイル表示装置を生産する間にデジタル痕跡データ(digital trace data)を得ることができる。モバイル表示装置を例に挙げたが、本発明の実施形態は他のガラス製品およびガラスでない製品、例えばウエハーおよび半導体ガラスなどを生産する工程にも適用され得ることを当業者が知らなければならない。
【0021】
痕跡データは、例えば生産過程で製品を運搬するコンベヤーの上に位置した一つ以上の感知器を通じて収集することができる。感知器は、感知した動き(activity)を何でも記録する。感知器は、例えば生産過程で時間に応じた温度と圧力の測定値を探知する複数の温度および圧力感知器であり得る。各感知器は、多数回[チャンバーで製造する一つのガラス基板(glass)またはウエハーに対して数秒毎に]サンプリングされ得る。
【0022】
「優良」製品から不良製品を予測する分類器(classifier)を使用して痕跡データを自動的に分析することができる。したがって、データ標本を二つのクラス、つまり、「優良」および「不良」のうちの一つに割り当てるように分類器を学習させる必要がある。しかし、このような分類器に使用する学習データは深刻な不均衡状態にある。例えば、電子部品を製造する製造工程で、部品の大部分は容認(acceptable)または「優良」であり、一部だけが如何なる点で欠陥がある、又は「不良」である場合である。「優良」部品は不良品の100倍乃至200倍に至る。このような理由によって、データを製造および検査過程で得ると、大部分のデータは良品から出たものであるため、学習データに不均衡が生じる。また、製品モデルが急速に変わるため、深層学習モデルを訓練する十分な量のデータ集合を期待し難いことが一般的である。製品モデルの短い寿命により十分なデータ標本を集めることが難しい。新しい製品モデルの不良条件を感知するための新しいAI/MLモデルを生成する必要があることも一般的である。したがって、限定されたデータ集合で一般化モデルを生成することが通常の挑戦課題である。
【0023】
訓練データ集合の大きさを人為的に拡大することに使用されるデータ拡張(data augmentation)技術が存在する。例えば、全ての可能なデータ標本の場合を生成して訓練データとして使用することができる。しかし、全ての可能な場合は一つのデータ集合として作るには過度に大きい。また、標本を拡張しても全ての標本がモデル訓練に意味があるとは限らない。
【0024】
他の例としては、データ蒸留(data distillation)技術があり、視覚認識(visual recognition)/映像分類(image classification)によく使用される。データ蒸留は、分類されていないデータまたは未分類データ(unlabeled data)の注釈を生成することによって分類されていないデータから得た知識を蒸留する一般的なオムニスーパーバイズド学習(omni-supervised learning)方法である。注釈は、多量の分類データで訓練を受けたモデルを使用して生成する。次に、追加生成注釈(extra generated annotations)を使用してモデルを再訓練させる。追加未分類データは、分類データの幾何/空間変換[例:フリップ(flip)、シフト(shift)および/または回転(rotation)]を通じて生成することができる。データ蒸留に対する追加情報は、Ilija Radosavovicなどの論文、“Data Distillation:Towards Omni-Supervised Learning,”Computer Vision and Pattern Recognition(2018)(https://arxiv.org/abs/1712.04440で入手可能)に掲載されており、これをここに引用することによって本明細書の内容に含む。
【0025】
しかし、映像分類のためにデータを拡張することに主に使用される幾何変換は、痕跡データに適用できないが、これは変換を適用した後に入力データの特性が残るか否かを分からないためである。また、欠陥標本に対して一般に製造課題と欠陥パターン生成の間の相関関係があるため、知られたデータ拡大技術を適用することによって分類器の品質を改善するという保障がない。したがって、既存のデータ拡張技術は、訓練目的で欠陥や痕跡データを拡張することには不適切である。データ蒸留は、インターネット水準のデータ集合から未分類データ集合を使用することを提示するが、特定会社の製造データ集合に対して類似のデータ標本をインターネットで探すことはできない。
【0026】
従来技術の欠陥に対して、期待することは分類データ集合でのデータ不十分とクラス不均衡という問題を扱う一般化MLモデルを生成するためのオムニスーパーバイズド学習システムおよび方法である。本発明の実施形態によれば、深層生成モデル(deep generative model)を通じたデータ拡張を通じて入力データ集合の不十分およびクラス不均衡を扱う。特に、入力データ空間の代わりに多様体(manifold)[潜在(latent)]空間でデータ拡張を行う。
【0027】
また、一般化M/Lモデルを生成する時、主な問題のうちの一つが不十分なデータ集合であるため、深層生成モデルデータ生成を使用してデータ集合により多くの変異(variance)を融合させることによってこの問題を解決する。本発明の一実施形態によれば、拡張/追加(augmented/supplemental)データは、任意入力(random input)を使用して潜在空間で生成された未分類データ集合である。本発明の一実施形態によれば、拡張データは、潜在空間オーバーサンプリング(oversampling)から得た合成データ標本(synthetic data sample)からなる。
【0028】
本発明の一実施形態によれば、基準機械学習モデル(baseline machine learning model)の複数インスタンス(instance)から知識を蒸留して未分類データ集合に注釈を付け、新しい注釈データ集合(annotated dataset)を生成する。未分類データ集合を既訓練MLモデル(trained ML model)の複数インスタンスのそれぞれに供給することによって複数インスタンスからの知識を蒸留することができる。次に、アンサンブルメカニズム(ensemble mechanism)を使用してMLモデルインスタンスのそれぞれの出力に基づいて未分類データを分類することができる。このように低いデータ密度モデル(less data intense models)(例:個別MLモデルインスタンス)から知識蒸留を達成することができ、従来のモデルより改善された分類正確度を有するようにMLモデルを一般化することができる。一応訓練を受けた一般化MLモデルは、製造過程で生じる不良部品を予測することに使用することができる。
【0029】
図1は、本発明の一実施形態により部品を不良または優良に分類するシステムである。本発明の一実施形態によれば、システムは一つ以上のデータ収集回路(data collection circuit)105、データ前処理回路(data preprocessing circuit)110および分類器エンジン(classifier engine)115を含む。データ収集回路105は、例えば温度および圧力感知器、増幅器および/またはアナログ-デジタル変換器を含むことができ、データ前処理回路110は、詳細に後述するが、データのフォーマットを変えることができ、分類器エンジン115は、深層学習(DL)ニューラルネットワークを生成することができる。
【0030】
データ前処理回路110は、データ収集回路105から原始痕跡データ(例:前述した時間痕跡の数)を受信し、受信したデータを例えば2次元配列(例:224x224配列)に変えることができる。本発明の一実施形態によれば、データ前処理回路110は、原始痕跡データを保存する一つ以上のデータ記憶装置を含む。二次元配列の大きさは、ニューラルネットワークが一般に分類する映像の大きさ程度になるように選択することができる。フォーマット変換(reformatting)は、映像のニューラルネットワーク分類器を動作させるコードの特定部分を再使用できるようにするが、これを本発明の一部の実施形態に使用することができる。
【0031】
フォーマット変換された入力データは、分類器エンジン115に供給されてDLニューラルネットワークを通じた予測訓練または予測に使用され得る。このような点から、分類器エンジン115は、一つ以上の実在する、機械で読み込むことができる媒体に保存されてニューラルネットワークを通じて予測生成、予測訓練および予測遂行する一つ以上の処理装置により実行される論理またはインストラクションからなることができる。
【0032】
図2は、本発明の一実施形態による分類器エンジン115概念のブロック図である。訓練する間、分類入力データ集合200を前処理回路110から受信する。分類入力データ集合200は、「優良」(または「G」)に分類された第1個数のデータ標本[例:数千データ要素(data element)]および「不良」(または「NG」)に分類された第2個数のデータ標本(例:10から100の間のデータ要素)を含む。
【0033】
分類入力データ集合200は、例えばVAE(variational autoencoder)202などの深層学習ニューラルネットワーク(deep learning neural network)であり得る分類器を訓練させることに使用される。VAEを例に挙げたが、当業者であればVAEの代わりに他の深層生成モデル、例えば敵対的生成ニューラルネットワーク(GAN:generative adversarial network)、自己回帰モデル(autoregression models)なども使用できることを知っている。VAEを使用する実施形態では、VAE202が入力データ集合200に対する潜在(latent)/秘密(hidden)/多様体(manifold)空間の表現を学習する。一般に潜在空間は、入力データ集合200の簡略(simpler)/圧縮(compressed)表現(例:低い次元)である潜在ベクトルからなる。
【0034】
本発明の一実施形態によれば、訓練を受けたVAE202は、追加訓練データ(合成データ標本ともいう)を統計的に生成する時に実行される。これと関連してVAE202は、オーバーサンプリングモジュール204および任意生成モジュール206と連結され得る。オーバーサンプリングモジュール204は、VAE202が学習する潜在空間をオーバーサンプリングする時に実行されて、追加の「不良」標本を生成する。任意生成モジュール206は、任意入力を使用して潜在空間内追加標本を生成する時に実行される。本発明の一実施形態によれば、任意生成されたデータ標本は未分類データ標本である。
【0035】
本発明の一実施形態によれば、分類器エンジン115はまた、二項基準分類器の複数(例:2以上)インスタンス208a-208c(これらを集合的にインスタンス208と表示する)を生成する。各分類器/モデルインスタンス208は、例えばニューラルネットワークであり得る。
【0036】
任意生成モジュール206から任意生成されたデータ標本を知識蒸留のために多様な分類器インスタンス208に供給する。これと関連して、任意生成データ標本に対する分類器インスタンス208からの予測アンサンブルは、生徒分類器/モデル210を訓練させることに使用される。つまり、多様な分類器インスタンス208による予測の集合は新しい知識を生成し、生成された新しい知識を蒸留して生徒分類器210を訓練させることに使用され得る。
【0037】
本発明の一実施形態によれば、分類器インスタンス208からの蒸留知識以外に、原本分類データ集合200および/またはオーバーサンプリングモジュール204からの追加標本を生徒分類器210の訓練に使用することができる。一応訓練を受けた生徒分類器210は、新しく製造された製品から得た新しい痕跡データと共に提供されてその製品が「優良」か「不良」かを予測する。本発明の一実施形態によれば、訓練を受けた生徒分類器210は、新しく製造された製品に対するこのような予測類型を作る予測システム(図示せず)により使用され得る。本発明の一実施形態によれば、予測システムは製品が「不良」であると予測される場合、取るべき措置(action)に対する勧告またはメッセージを出力することができる。措置の例としては、不良品を除去してさらに検査、修理または廃棄することが挙げられる。実験の結果として、既訓練モデル210が新しい痕跡データに対して分類正確度のしきい値(例:90%以上の正確度)内で、持続的に動作することが分かった。
【0038】
図3は、本発明の一実施形態により生徒モデル210を生成して訓練させるために分類器エンジン115が実行する過程のフローチャートである。ブロック300で、分類器エンジン115は分類された入力データ集合200を受信する。
【0039】
ブロック302で、入力データ集合200は、基準分類器の2以上のインスタンス208を(例えばスーパーバイズド学習を使用して)訓練させることに使用される。各分類器インスタンス208は、基準分類器を任意の初期状態に初期化することによって生成され得る。例えば、基準分類器の初期重量は、初期化時に任意に設定され得る。時々大きくて複雑な個別独立モデルに対立するものとして、単一モデルのインスタンスを訓練させることによって、(コンピュータ資源の観点で)より便利で費用効率の高い学習がなされる。
【0040】
ブロック300で受信した入力データ集合200はまた、ブロック308でVAE202を訓練させることにも使用されてもよい。本発明の一実施形態によれば、VAE202を訓練させて潜在空間での入力データ集合200の表現を習得するようにする。一応訓練を終えたVAE202は、ブロック310、314で拡張データを生成することに使用することができる。これと関連して、ブロック310で、分類器エンジン115は既訓練VAEモデルを実行して潜在空間内の追加未分類データ標本312を生成する。追加データ標本は、例えば任意入力を使用して生成することができる。
【0041】
ブロック304a-304cで、分類器インスタンス208のそれぞれは、追加未分類データ標本312を受信し、受信した標本に対する予測を生成する。
【0042】
ブロック306で、多くの分類器インスタンス208で生成した予測結果アンサンブルは、追加未分類データ標本312に対する注釈を生成することに使用されて、注釈が付けられたデータ集合(annotated dataset)316を生成する。このようにして、それぞれの分類器インスタンス208を実行して得た知識を生徒分類器210で蒸留することができる。多くの分類器インスタンス208の予測集合を考慮することによって、それぞれのモデルインスタンス208を独立的に考慮する時はエラーが生じることがあるとしても、既訓練生徒モデル210のエラーを減らすことができる。アンサンブルメカニズムの使用は、既訓練生徒モデル210の安定性を持続的に確保することに好ましい。
【0043】
多様なアンサンブル方法のうちの一つは、追加未分類データ集合312の注釈を生成することに使用され得る。このようなアンサンブル方法としては、ハードボーティング(hard voting)、ソフトボーティング(soft voting)、知識蒸留などがあるが、これに限定されない。ハードボーティングアンサンブル基盤方法は、多数の分類器インスタンス208の予測を行い、多数決に基づいて追加データ集合を分類する。例えば、分類器インスタンスA208aおよび分類器インスタンスB208bが特定のデータ標本に対して「優良」クラスを予測し、分類器インスタンスC208cが「不良」クラスを予測すれば、そのデータ標本を「優良」クラスに分類する。
【0044】
ソフトボーティングアンサンブル基盤方法は、次のように多くの分類器インスタンス208の予測確率の平均を取る。
【数1】
ここでKは分類器インスタンスの個数である。
【0045】
例えば、分類器インスタンスA208aが99%の確率で「優良」を予測し、分類器インスタンスB208bが49%の確率で「優良」を予測し、分類器インスタンスC208cが49%の確率で「優良」を予測すれば、そのデータ標本が「優良」である確率は(99+49+49)/3=65.67%である。したがって、そのデータ標本に対するアンサンブル予測は「優良」になる。
【0046】
知識蒸留基盤アンサンブル方法は、多数クラス(例:「優良」)だけでなく、少数クラス(例:「不良」)まで考慮してモデルの複数インスタンスの平均確率を取る。このように、多数クラスと少数クラスの両方の平均確率をデータに対するアンサンブル判断として出力する。本発明の一実施形態によれば、知識蒸留は複数クラスモデルに拡張され得る。このような実施形態では、複数クラスに対するモデルの複数インスタンスに対して平均確率を求めることができる。
【0047】
本発明の一実施形態によれば、分類器エンジン115はまた、ブロック314で生徒モデル210訓練用追加データ標本を生成する。これと関連して、オーバーサンプリングアルゴリズムを適用してオーバーサンプリングデータ集合318を作るために少数クラス(例:「不良」クラス)に追加データ標本を生成する。本発明の一実施形態によれば、原本または他の潜在空間の代わりにVAE潜在空間からオーバーサンプリングする。
【0048】
ブロック320で、分類器エンジン115は、i)原本入力データ集合200、ii)注釈が付けられたデータ集合316および/またはiii)オーバーサンプリングデータ集合318を使用して生徒分類器210を訓練させる。次に、既学習生徒分類器210を二項分類器として使用し、新しく製造された製品に対して得た新しい痕跡データに基づいてその製品を「優良」または「不良」などに分類することができる。
【0049】
図4は、本発明の一実施形態によるVAE202の詳細なブロック図である。一般にVAE202は、符号化器網(encoder network)(略して「符号化器」という)400および復号器網(decoder network)(略して「復号器」という)402を含むニューラルネットワークである。符号化器400は、入力データ200など受信したそれぞれのデータ要素(element)を潜在ベクトル404に写像(map)または符号化することができるが、これは潜在ベクトル404が単位ガウス分布に近似する(つまり、ベクトルの要素が、例えば平均と偏差をそれぞれ有する独立的なガウス分布である)分布を有するという制限下で行われる。このように、VAE202は、平均ベクトル406と標準偏差ベクトル408を適用して受信したデータ要素のそれぞれを潜在ベクトル404で符号化する。当業者であれば潜在ベクトル404が入力データ200の圧縮された低次源表現であることを知らなければならない。全ての潜在ベクトル404の空間を潜在空間といえる。
【0050】
復号器402は、符号化器400の概略的な逆動作を行うことができるが、符号化器400が生成したそれぞれの潜在ベクトル404を符号化器400が潜在ベクトル404で写像したデータ要素に近似する(合成)データ要素で写像することができる。符号化器400および復号器402は共に入力データ200で訓練を受けることができる。
【0051】
符号化器400および復号器402の訓練を終えると、ブロック310(
図3)を実行して潜在空間で追加データを生成することができる。例えば、潜在空間を任意サンプリングして(単位ガウス分布を有する)任意ベクトルを生成することができ、生成した任意ベクトルを、合成データ要素を生成する[例えば追加データ集合312を生成する]復号器402に提供することができる。VAE202を二つのクラスからのデータ要素(つまり、「優良」データ要素と「不良」データ要素)で訓練させるため、追加データ集合312は未分類状態である。
【0052】
図5は、本発明の一実施形態によるブロック314(
図3)の潜在空間オーバーサンプリング過程を詳細に示すフローチャートである。ブロック500で、ブロック308でVAEモデルを訓練させて得た潜在空間データ集合をオーバーサンプリングモジュール502に入力する。本発明の一実施形態によれば、オーバーサンプリングモジュール502は、少数クラス(「不良」クラス)内にあるインスタンスから属性(attribute)をサンプリングして合成標本[例:オーバーサンプリングされたデータ集合318]を生成する。原本入力データ集合を使用して原本入力データ集合内で少数クラスを拡張する従来のオーバーサンプリングとは異なり、本発明の実施形態では習得した潜在空間で少数クラスデータを拡張することができる。
【0053】
オーバーサンプリングは、SMOTE(Synthetic Minority Over-sampling Technique)、ADASYN(Adaptive Synthetic)オーバーサンプリングなどのアルゴリズムを使用して行うことができる。一般にSMOTEは、複写本を生成する代わりに少数クラスから合成標本を生成するオーバーサンプリング方法である。本発明の一実施形態によれば、アルゴリズムは 潜在空間で[距離尺度(distance measure)を使用して]2以上の類似するインスタンスを選択し、隣接したインスタンスとの差内で任意の量の分、一度に一属性ずつインスタンスを変化させる。
【0054】
ADASYNは、それぞれのデータ要素に小さい任意ベクトル[または「オフセット(offset)」]を加えることによって、これらを変化させて(offset)、少数クラスからの合成標本が他のクラス(例:「優良」クラスなど多数クラス)と干渉する可能性を減らす。
【0055】
ブロック504で潜在空間のオーバーサンプリングデータ集合を出力する。
【0056】
図6の(a)は、深層学習モデルを訓練させることに使用され得る入力データ集合[入力データ集合200と類似する]の一例の分布グラフである。
図6(a)の例で、入力データ集合200は小さく、「優良」に分類されたデータ600と「不良」に分類されたデータ602を含む。
【0057】
図6の(b)-(e)は、
図6(a)の入力データ集合200に基づいて互いに異なる判断範囲604a-604dを生成する複数の分類器インスタンス[例:分類器インスタンス208]の例を示すグラフである。本発明の一実施形態によれば、判断範囲604a-604dの差は入力訓練データが少ないためである。判断範囲604a-604dの差によって、各モデルは後のデータに対して互いに異なる分類判断をすると予想される。
【0058】
図7の(a)は、本発明の一実施形態によるデータ拡張メカニズムにより追加訓練データ700に拡張された入力データ集合の一例[
図6(a)のデータ集合と類似する]の分布グラフである。追加標本は、入力データ集合200が少ないことによる入力データでの間隙を満たす。追加標本は、深層生成モデルを使用して前述したようなデータ拡張を通じて生成される。
【0059】
図7の(b)は、
図7(a)の拡張訓練データ集合に基づいて互いに異なる判断範囲704a-704cを生成する複数の分類器インスタンス[例:分類器インスタンス208]のグラフを示す。
図7(b)に図示したように、入力データの間隙を追加標本700で満たすが、複数の分類器インスタンスのそれぞれは依然として互いに異なる判断範囲704a-704cを生成する傾向がある。しかし、矢印706a-706cで示したように複数の分類器インスタンスから知識蒸留を適用すれば、個別モデルインスタンスのそれぞれより安定的かつ正確な新しい生徒分類器用判断範囲704dを定義することができる。
【0060】
実験結果、モデルインスタンスから知識蒸留を適用することによって、全体テストデータ集合に対して知らなくても一般化MLモデルが持続的かつ安定的に生成されることが分かった。例えば、「不良」データに対する個別モデルインスタンス一部の有効正確度は80%に低い。しかし、本発明の実施形態によるデータ拡張および知識蒸留メカニズムで生成された一般化MLモデルは「不良」データに対して90%以上の有効正確度を示す。
【0061】
本発明の一実施形態によれば、一つ以上のデータ前処理回路110、分類器エンジン115、前述した多様なモジュールおよびモデル/分類器は、一つ以上の処理回路により行われ得る。「処理回路」は、ハードウェア、ファームウェア、ソフトウェアまたはこれらの組み合わせを使用して具現することができる。処理回路は、例えば、応用注文型集積回路(ASIC)、汎用または専用中央処理装置(CPU)、デジタル信号処理装置(DSP)、グラフィックス処理装置(GPU)、FPGAなどのプログラム可能論理装置を含むことができる。処理回路でそれぞれの関数は、その機能を遂行する有線ハードウェアまたは非一時的(non-transitory)保存媒体に保存された命令を遂行するCPUなどの汎用ハードウェアで行われ得る。処理回路は、一つの印刷回路基板(PCB)に製作される、又は互いに連結されたPCBに分散配置され得る。処理回路は、他の処理回路を含むことができるが、例えばPCB上で互いに連結されたFPGAとCPUを含むことができる。
【0062】
「第1」、「第2」、「第3」などの用語を多様な要素、成分、領域、層、部分などに使用するが、これらはこのような修飾語により限定されない。このような用語は、ある要素、成分、領域、層、部分を他の要素、成分、領域、層、部分と区別するために使用するものであり、本発明の趣旨と範囲を外れない。
【0063】
ここで使用された用語は、特定の実施形態を説明する目的で使用するに過ぎず、本発明を制限しようとするものではない。ここで「実質的に」、「約」、「概して」およびこれと類似する表現は近似を示す表現に過ぎず、「程度」を示すものではなく、当業者が知ることができる測定値または計算値の固有誤差を示すのに使用する。
【0064】
ここで数を特に言及しなければ、単数または複数の場合を全て含む。ある特徴、段階、動作、部分、成分などを「含む」という表現は、当該部分以外に他の特徴、段階、動作、部分、成分なども含むことができることを意味する。「および/または」という表現は、羅列されたもののうちの一つまたは二つ以上の全ての組み合わせを含む。羅列目録の前に記載した「少なくとも一つ」などの表現は、目録全体を修飾するものであり、目録内のそれぞれのものを修飾するものではない。また、本発明の実施形態を説明する時に使用する「であり得る」という表現は、「本発明の一つ以上の実施形態」に適用可能であることを意味する。「例示的な」という用語は、例または図面を示す。「使用」、「利用」などはこれと類似する他の表現と共に類似する意味で使用され得る。
【0065】
部分、層、領域、成分などが他の部分、層、領域、成分の「上に」あるか、「連結されて」いると記載する場合、「直」上にあるか、または「直接」連結されている場合だけでなく、中間に他の部分、層、領域、成分などがさらに挟んでいる場合も含む。しかし、「直上に」あるか、「直接連結」されていると記載すれば中間に他の部分がないことを意味する。
【0066】
ここに記載した数値範囲は、当該範囲内に含まれる同一の正確度の全ての部分範囲(sub-range)を含む。例えば、「1.0乃至10.0」の範囲は、最小値1.0と最大値10.0およびその間にある全ての部分範囲、つまり、1.0以上の最小値と10.0以下の最大値を有する部分範囲、例えば2.4乃至7.6を含む。ここで言及した最大値は、その中に含まれ、それより小さい全ての数値限界を含み、本明細書に記載した最小値は、その中に含まれ、それより大きい全ての数値限界を含む。
【0067】
以上でモデルインスタンス(model instance)に対する知識蒸留(knowledge distillation)システムおよび方法の実施形態について説明および図示したが、当業者であればこのような実施形態を変更および修正することもできる。したがって、ここで提示した原理により構成された他の知識蒸留システムおよび方法も本発明に含まれる。本発明は、特許請求の範囲およびその等価物により定義される。
【符号の説明】
【0068】
105:データ収集回路
110:前処理回路
115:分類器エンジン
200:入力データ(集合)
202:VAE(variational autoencoder)
204:オーバーサンプリングモジュール
208:インスタンス
210:分類器/モデル
312:追加データ集合/未分類データ標本
316:注釈が付けられたデータ集合
318:オーバーサンプリングデータ集合
400:符号化器
402:復号器
404:潜在ベクトル
406:平均ベクトル
408:標準偏差ベクトル
502:オーバーサンプリングモジュール
600:優良データ
602:不良データ
700:追加標本/追加訓練データ
604a-604d、704a-704d:判断範囲