(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-16
(45)【発行日】2024-05-24
(54)【発明の名称】トレースデータセットのデータ拡張のためのシステムおよび分類方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240517BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2020029704
(22)【出願日】2020-02-25
【審査請求日】2023-01-11
(32)【優先日】2019-04-05
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-06-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】512187343
【氏名又は名称】三星ディスプレイ株式會社
【氏名又は名称原語表記】Samsung Display Co.,Ltd.
【住所又は居所原語表記】1, Samsung-ro, Giheung-gu, Yongin-si, Gyeonggi-do, Republic of Korea
(74)【代理人】
【識別番号】110002619
【氏名又は名称】弁理士法人PORT
(72)【発明者】
【氏名】リ ジャンファン
【審査官】新井 則和
(56)【参考文献】
【文献】米国特許出願公開第2019/0087728(US,A1)
【文献】特開2018-160093(JP,A)
【文献】国際公開第2019/017962(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
処理回路が実行する、製造された部品を良好または不良に分類するための分類方法であって、
ラベリングされた入力データセットから第1訓練データセットおよび第2訓練データセットを形成すること、
前記第1訓練データセットで第1分類器(classifier)を訓練させること、
前記第2訓練データセットで変形(variational)オートエンコーダを訓練させること、
シュードランダム(pseudorandom)ベクトルをデコーダに供給することによって第3データセットを生成すること、
第3訓練データセットを形成するように、前記第1分類器を用いて前記第3データセットをラベリングすること、
前記第3訓練データセットに基づいて第4訓練データセットを形成すること、および
前記第4訓練データセットで第2分類器を訓練させること
、を含み、
前記変形オートエンコーダはエンコーダおよび前記デコーダを含む、
分類方法。
【請求項2】
前記第1訓練データセットは、前記ラベリングされた入力データセットである、請求項1に記載の分類方法。
【請求項3】
前記第2訓練データセットは、前記ラベリングされた入力データセットである、請求項1に記載の分類方法。
【請求項4】
前記第1訓練データセットを形成することは、
前記ラベリングされた入力データセットをオーバーサンプリングし、第1補充データセットを生成すること、および
前記ラベリングされた入力データセットと前記第1補充データセットを結合して前記第1訓練データセットを形成することを含む、請求項1に記載の分類方法。
【請求項5】
前記ラベリングされた入力データセットのオーバーサンプリングは、合成少数(synthetic minority)オーバーサンプリング技術を用いることを含む、請求項4に記載の分類方法。
【請求項6】
前記ラベリングされた入力データセットのオーバーサンプリングは、適応型合成(adaptive synthetic)オーバーサンプリング技術を用いることを含む、請求項4に記載の分類方法。
【請求項7】
前記第4訓練データセットは、前記第3訓練データセットと同一である、請求項4に記載の分類方法。
【請求項8】
前記第4訓練データセットを形成することは、
前記ラベリングされた入力データセットの第1部分、および
第3訓練データセットを結合し、
前記第4訓練データセットを形成することを含む、請求項4に記載の分類方法。
【請求項9】
前記第4訓練データセットを形成することは、
前記ラベリングされた入力データセットの第1部分、
前記第1補充データセット、および
前記第3訓練データセットを結合し、
前記第4訓練データセットを形成することを含む、請求項4に記載の分類方法。
【請求項10】
前記ラベリングされた入力データセットの第1部分とは相異する前記ラベリングされた入力データセットの第2部分で前記第2分類器を検証することをさらに含む、請求項9に記載の分類方法。
【請求項11】
前記第2訓練データセットを形成することは、
前記ラベリングされた入力データセットをオーバーサンプリングし、第1補充データセットを生成すること、および
前記ラベリングされた入力データセットと前記第1補充データセットを結合して第2訓練データセットを形成することを含む、請求項1に記載の分類方法。
【請求項12】
前記ラベリングされた入力データセットは、
第1の個数のデータ要素を含む多数(majority)クラスデータおよび
第2の個数のデータ要素を含む少数(minority)クラスデータを含み、
前記第1の個数は、前記の第2
の個数の少なくとも5倍以上である、請求項1に記載の分類方法。
【請求項13】
前記第1の個数は、前記第2の個数の少なくとも15倍以上である、請求項12に記載の分類方法。
【請求項14】
製造された部品を良好または不良に分類するためのシステムであって、
前記システムは処理回路を含み、
前記処理回路は、
ラベリングされた入力データセットから第1訓練データセットおよび第2訓練データセットを形成し、
前記第1訓練データセットで第1分類器(classifier)を訓練させ、
前記第2訓練データセットで変形(variational)オートエンコーダを訓練させて、
シュードランダム(pseudorandom)ベクトルをデコーダに供給することによって、第3データセットを生成し、
第3訓練データセットを形成するように、前記第1分類器を用いて前記第3データセットをラベリングし、
前記第3訓練データセットに基づいて第4訓練データセットを形成し、
前記第4訓練データセットで第2分類器を訓練させるように構成され
、
前記変形オートエンコーダはエンコーダおよび前記デコーダを含む、
システム。
【請求項15】
前記第1訓練データセットは、前記ラベリングされた入力データセットである、請求項14に記載のシステム。
【請求項16】
前記第2訓練データセットは、前記ラベリングされた入力データセットである、請求項14に記載のシステム。
【請求項17】
前記第1訓練データセットを形成することは、
前記ラベリングされた入力データセットをオーバーサンプリングし、第1補充データセットを生成すること、および
前記ラベリングされた入力データセットと前記第1補充データセットを結合して前記第1訓練データセットを形成することを含む、請求項14に記載のシステム。
【請求項18】
前記ラベリングされた入力データセットのオーバーサンプリングは、合成少数(synthetic minority)オーバーサンプリング技術を用いることを含む、請求項17に記載のシステム。
【請求項19】
前記ラベリングされた入力データセットのオーバーサンプリングは、適応型合成(adaptive synthetic)オーバーサンプリング技術を用いることを含む、請求項17に記載のシステム。
【請求項20】
前記システムは、
データ収集回路
をさらに含む、
請求項14乃至請求項19の何れか一項に記載のシステム。
【請求項21】
データ収集回路を用いて、トレースデータを取得することをさらに含み、
前記ラベリングされた入力データセットは前記トレースデータに基づく、請求項1に記載の分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、分類器、特に分類器を訓練させる際に使うためのデータ拡張(data augmentation)のためのシステムおよび分類方法に関する。
【0002】
本出願は、2019年4月5日付で出願された「SYSTEM AND METHOD FOR DATA AUGMENTATION FOR TRACE DATASET」という名称の米国特許仮出願第62/830,131号の優先権および利益を主張し、米国特許仮出願第62/830,131号の全体内容は本出願に参照として引用される。
【背景技術】
【0003】
2進クラスに対してデータ不均衡があるデータで訓練されるとき、または、入力データ次元で訓練データの数量が比較的に少ないときに、自動分類器は相対的に低下した性能を現わし得る。
【0004】
したがって、データ拡張のために改善されたシステムおよび分類方法が必要である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
データ拡張のために改善されたシステムおよび分類方法を提供すること、例えば、データ拡張のための分類システムおよび分類方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態によれば、分類方法が提供され、前記方法は、ラベリングされた入力データセットから第1訓練データセットおよび第2訓練データセットを形成すること、前記第1訓練データセットで第1分類器(classifier)を訓練させること、前記第2訓練データセットで変形(variational)オートエンコーダを訓練させること、シュードランダム(pseudorandom)ベクトルをデコーダに供給することによって、第3データセットを生成すること、第3訓練データセットを形成するように、前記第1分類器を用いて前記第3データセットをラベリングすること、前記第3訓練データセットに基づいて第4訓練データセットを形成すること、および前記第4訓練データセットで第2分類器を訓練させることを含み、前記変形オートエンコーダはエンコーダおよび前記デコーダを含む。
【0007】
本発明の一実施形態において、前記第1訓練データセットは、前記ラベリングされた入力データセットであってもよい。
【0008】
本発明の一実施形態において、前記第2訓練データセットは、前記ラベリングされた入力データセットであってもよい。
【0009】
本発明の一実施形態において、前記第1訓練データセットを形成することは、前記ラベリングされた入力データセットをオーバーサンプリングし、第1補充データセットを生成すること、および前記ラベリングされた入力データセットと前記第1補充データセットを結合して前記第1訓練データセットを形成することを含んでもよい。
【0010】
本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは合成少数(synthetic minority)オーバーサンプリング技術を用いる段階を含んでもよい。
【0011】
本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは適応型合成(adaptive synthetic)オーバーサンプリング技術を用いることを含んでもよい。
【0012】
本発明の一実施形態において、前記第4訓練データセットは前記第3訓練データセットと同一であってもよい。
【0013】
本発明の一実施形態において、前記第4訓練データセットを形成することは、前記ラベリングされた入力データセットの第1部分、および第3訓練データセットを結合し、前記第4訓練データセットを形成することを含んでもよい。
【0014】
本発明の一実施形態において、前記第4訓練データセットを形成することは、前記ラベリングされた入力データセットの第1部分、前記第1補充データセット、および前記第3訓練データセットを結合し、前記第4訓練データセットを形成することを含んでもよい。
【0015】
本発明の一実施形態において、前記ラベリングされた入力データセットの第1部分とは相異する、前記ラベリングされた入力データセットの第2部分で前記第2分類器を検証することをさらに含んでもよい。
【0016】
本発明の一実施形態において、前記第2訓練データセットを形成する段階は、前記ラベリングされた入力データセットをオーバーサンプリングし、第1補充データセットを生成すること、および前記ラベリングされた入力データセットと前記第1補充データセットを結合して第2訓練データセットを形成することを含んでもよい。
【0017】
本発明の一実施形態において、前記ラベリングされた入力データセットは、第1の個数のデータ要素を含む多数(majority)クラスデータおよび第2の個数のデータ要素を含む少数(minority)クラスデータを含み、前記第1の個数は前記第2の個数の少なくとも5倍以上であってもよい。
【0018】
本発明の一実施形態において、前記第1の個数は前記第2の個数の少なくとも15倍以上であってもよい。
【0019】
本発明の一実施形態によれば、システムが提供され、前記システムは、ラベリングされた入力データセットから第1訓練データセットおよび第2訓練データセットを形成し、前記第1訓練データセットで第1分類器(classifier)を訓練させ、前記第2訓練データセットで変形(variational)オートエンコーダを訓練させて、シュードランダム(pseudorandom)ベクトルをデコーダに供給することによって、第3データセットを生成し、第3訓練データセットを形成するように、前記第1分類器を用いて前記第3データセットをラベリングし、前記第3訓練データセットに基づいて第4訓練データセットを形成し、および前記第4訓練データセットで第2分類器を訓練させるように構成された処理回路を含み、前記変形オートエンコーダはエンコーダおよび前記デコーダを含む。
【0020】
本発明の一実施形態において、前記第1訓練データセットは前記ラベリングされた入力データセットであってもよい。
【0021】
本発明の一実施形態において、前記第2訓練データセットは前記ラベリングされた入力データセットであってもよい。
【0022】
本発明の一実施形態において、前記第1訓練データセットを形成することは、前記ラベリングされた入力データセットをオーバーサンプリングし、第1補充データセットを生成すること、および前記ラベリングされた入力データセットと前記第1補充データセットを結合して前記第1訓練データセットを形成することを含んでもよい。
【0023】
本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは合成少数(synthetic minority)オーバーサンプリング技術を用いることを含んでもよい。
【0024】
本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは適応型合成(adaptive synthetic)オーバーサンプリング技術を用いることを含んでもよい。
【0025】
本発明の一実施形態によれば、製造された部品を良好または不良に分類するためのシステムが提供され、前記システムは、データ収集回路、および処理回路を含み、前記処理回路は、ラベリングされた入力データセットから第1訓練データセットおよび第2訓練データセットを形成し、前記第1訓練データセットで第1分類器(classifier)を訓練させ、前記第2訓練データセットで変形(variational)オートエンコーダを訓練させて、シュードランダム(pseudorandom)ベクトルをデコーダに供給することによって、第3データセットを生成し、第3訓練データセットを形成するように、前記第1分類器を用いて前記第3データセットをラベリングし、前記第3訓練データセットに基づいて第4訓練データセットを形成して、および前記第4訓練データセットで第2分類器を訓練させるように構成され、前記変形オートエンコーダはエンコーダおよび前記デコーダを含む。
【図面の簡単な説明】
【0026】
本発明のこれらおよび他の特徴および長所は、本明細書、特許請求の範囲、および添付する図面を参照して理解され、認識される。
【
図1】本発明の一実施形態による分類システムのブロック図である。
【
図2】本発明の一実施形態による分類器を訓練させて検証するための方法のフローチャートである。
【
図3A】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。
【
図3B】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。
【
図3C】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。
【
図3D】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。
【
図3E】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。
【
図3F】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。
【
図4】本発明の一実施形態によるテスト結果テーブルである。
【
図5】本発明の一実施形態によるテスト結果テーブルである。
【発明を実施するための形態】
【0027】
添付した図面を参照し、以下に説明される詳細な説明は、本発明により提供されるデータ拡張のためのシステムおよび方法の一実施形態を説明することを意図するものであり、本発明が構成され得る、または、本発明が利用され得る唯一の形態を説明することを意図するものではない。また、以下で説明される詳細な説明においては、例示された一実施形態と関連付けて本発明の特徴を説明する。しかし、本発明と同一または同等の機能および構造は、本発明の範囲に含まれる本発明以外の実施形態によって達成され得ることを理解しなければならない。本明細書等において、同一、同等、または類似する要素は、同一の番号(符号)を付され、同一、同等、または類似する要素または特徴を有するものとする。
【0028】
2進クラスに対する分類器は、二種類のクラス中の一つにデータサンプルを割り当てる作業を有することができ、このような分類器を訓練するために使用される訓練データに重大な不均衡があり得る。例えば、電子部品を製造するための製造工程において、多数の部品が許容可能であるか、または「良好」であり、少数の部品が何等かの形で欠陥があるか、または「不良」である場合が存在し得る。このような理由により、製造およびテストプロセス中にデータが取得されるとき、多くのデータは良好なデバイスからきたものでありえ、すなわちデータに不均衡が存在し得る。このような不均衡は自動化された分類器を訓練して部品を「良好」または「不良」に分類する際に障害になる可能性がある。
【0029】
また、各部品に対して取得された測定値の数が多くてもよい。すなわち、各データサンプル(製造された部品のような分類される品目に対する測定値のセットであるデータ要素)のディメンション(dimensions)の個数が多くてもよい。自動化された分類器を訓練するとき、特に各クラスの訓練データ要素の個数が各データ要素のディメンションを考慮して少ないとき、このような不均衡はさらに障害になる可能性がある。
【0030】
例えば、モバイルディスプレイを製造する際、ディスプレイパネルに対する製造プロセス中に、トレースデータが取得され得る。トレースデータは、例えば時間の関数として製造工程での温度および圧力の測定値を含み得る。多数の温度および圧力センサが用いられ、各センサは複数回(例えば、一日に3回または4回、数日の期間にわたって)サンプリングされ得る。これらの測定値から生成されたトレースデータは、例えば、それぞれ約304個の測定を有する約64個の時間トレース、例えば合計19,000個以上の測定値を含み得るため、各データ要素は19,000ディメンション以上を有する。
【0031】
以下において、さらに詳細に説明されるように、多様な方法が上述された障害のうち少なくとも一部を解決するために用いられる。
図1を参照すると、本発明の一実施形態において、欠陥部品を検出するためのシステムは、一つ以上のデータ収集回路105(例えば、温度および圧力センサ、増幅器、およびアナログ-デジタル変換器を含み得る)、データ前処理回路110(これは以下でさらに詳細に述べるように、データをリフォーマットできる)、およびディープラーニング(DL:deep learning)神経網であり得る分類器115を含む。
【0032】
データ前処理回路110は、データ収集回路105から原始トレースデータ(例えば、前述したような多数の時間トレース)を受信し、例えば2次元アレイ(例えば、224×224アレイ)にデータをリフォーマットし得る。2次元アレイの大きさは神経網によって一般的に分類されるイメージの大きさと比較可能なように選ばれ得る。その後、リフォーマットは本発明の一実施形態で使うために、イメージの神経網分類器を具現するコードの特定部分を再使用することを可能にすることができる。
【0033】
図2は本発明の一実施形態による分類器の開発およびテストのためのフローチャートを示す。ラベリングされた入力データセット205は、前処理回路110から受信され、ラベリングされた入力データセット205はそれぞれ「良好」(または「G」)でラベリングされた第1の個数のデータサンプル(例えば、数千個のデータ要素)、およびそれぞれ「不良」(または「NG」)でラベリングされた第2の個数のデータサンプル(例えば、10個以上100個以下のデータ要素)を含む。オーバーサンプリングは、オーバーサンプリング210で(以下でさらに詳細に述べるように)一つまたは二つのクラスで追加データサンプルを含む第1補充データセットを生成するために使われ得る。ラベリングされた入力データセット205および第1補充データセットは、ベースライン2進分類器訓練215において、第1訓練データセット(すなわち、ラベリングされた入力データセット205および第1補充データセットをいずれも含み得る、組み合わせ(または「ユニオン(union)」)であり得る)で指導学習を用いて第1分類器(または「ベースライン分類器」)を訓練するために使用される。本発明の一実施形態において、オーバーサンプリング210で、オーバーサンプリング段階またはその結果は省略することができ、第1分類器はラベリングされた入力データセット205のみを使って訓練され得る。
【0034】
次いで、第1分類器の訓練によるモデル(例えば、訓練された第1分類器、または第1分類器の訓練による加重値でプログラムされた神経網の写本)は、データラベリング220において、第3データセットをラベリングして第3訓練データセットを形成するために使われ得る。機械訓練モデル(machine learning model)は、分類器、リグレッサー(regressor)、オートエンコーダ(autoencoder)等を含む様々な形態のうち一つであり得る。VAEデータ拡張225において、第3データセットは、以下により詳細に説明されるように変形オートエンコーダを使うデータ拡張方法によって生成され得る。VAEデータ拡張225において、データ拡張方法は、例えばラベリングされた入力データセット205、またはラベリングされた入力データセット205と第1補充データセットの組み合わせであり得る第2訓練データセットを入力として使い得る。
【0035】
その次に、第2分類器は、(i)ラベリングされた入力データセット205の第1部分235(入力データ(G:50%)、データスプリッタ240によりラベリングされた入力データセット205から生成される)、(ii)第1補充データセット、および(iii)第3訓練データセットのうちの一つ以上の部分の組み合わせを使って訓練され得る。その次に、第2分類器の訓練によるモデル(例えば、訓練された第2分類器または第2分類器の訓練による加重値でプログラムされた神経網の写本)はラベリングされた入力データセット205の第2部分250(入力データ(G:50%、NG:100%)、また、データスプリッタ240によりラベリングされた入力データセット205から生成される)を使って検証され得る。第2部分250(検証に使用)は第1部分235(訓練に使用)と相異し得る、例えば、ラベリングされた入力データセット205の残りであり得る。
【0036】
分類器検証245において、検証段階での訓練後の第2分類器の性能(すなわち、第2分類器の訓練によるモデルの性能)は、第2分類器が製造された各部品に対する生産への使用に適するのか、例えば、それが使用されるのかまたは廃棄(または再作業)されるのかの決定をするための評価に用いられる。
【0037】
図3Aはオーバーサンプリング段階(
図2の210)のフローチャートである。ラベリングされた入力データセット205は、オーバーサンプリング210でオーバーサンプリングされ、第1補充データセット(または「オーバーサンプリングされたデータセット」)305を形成する。オーバーサンプリングは、SMOTE(Synthetic Minority Over-sampling Technique)またはADASYN(Adaptive Synthetic)オーバーサンプリングを使って行われ得る、これらそれぞれは少数クラス(例えば、「No good」クラス)でデータ要素のデータセットを生成するために使用される。ADASYNは、第1補充データセットのデータ要素が他のクラス(例えば、「good」クラスであり得る多数クラス)を邪魔する可能性を減少させるために、スモールランダムベクトル(または「オフセット」)を追加して生成されたそれぞれのデータ要素をオフセットし得る。
【0038】
図3Bは第1分類器のベースライン2進分類器訓練215(
図2)における訓練のフローチャートである。(i)ラベリングされた入力データセット205および(ii)第1補充データセット305のうちの一つまたは全部はベースライン2進分類器訓練215で第1分類器を訓練するために使われ、第1分類器モデル(または「ベースライン2進分類器モデル」)310を生成する。
【0039】
図3Cはデータ拡張(VAEデータ拡張225、
図2)のフローチャートである。変形オートエンコーダはエンコーダおよびデコーダを含み得る。
【0040】
潜在ベクトルが単位ガウシアン分布に近接する分布を有する(すなわち、ベクトルの要素が独立的ガウシアン分布であるベクトル分布に近接する、例えば、それぞれ平均および分散を有する)という制約により、エンコーダは受信されたそれぞれのデータ要素をベクトルまたは「潜在ベクトル(latent vector)」にマッピングまたは「エンコーディング」し得る。デコーダはエンコーダの動作の概略的な逆動作(approximate inverse of the operation)を行い得、これはエンコーダによって生成されたそれぞれの潜在ベクトルをエンコーダが潜在ベクトルにマッピングするデータ要素に近似する(合成)データ要素にマッピングし得る。
【0041】
エンコーダおよびデコーダは、代表的なデータ要素の訓練セット(例えば、上で言及した第2訓練セット)、およびガウス分布のために正規化されるエンコーダの入力とデコーダの出力との間の差の尺度である費用関数で共に訓練され得る。エンコーダおよびデコーダが訓練されると、シュードランダム潜在ベクトル(単位ガウシアン分布を有するように生成される)が合成データ要素を生成するために(例えば、第3データセット315を生成するために)、デコーダに供給され得る。変形オートエンコーダが二つのクラスからのデータ要素で(例えば、「良好」データ要素および「不良」データ要素のすべてで)訓練されると、合成データ要素にラベルが指定されなくてもよい。
【0042】
図3Dは第3訓練データセットを形成するための第3データセットのラベリング(データラベリング220、
図2)のフローチャートである。第3データセット315は第1分類器モデル310により分類され、第3データセット315のそれぞれのデータ要素は第3訓練データセット(または「ラベリングされたVAEデータセット」)320を形成するようにラベリングされる。
図3Eは第2分類器の訓練(分類器訓練230、
図2)のフローチャートである。第2分類器を訓練させて第2分類器モデル325(または「2進分類器モデル」)を生成するように、分類器訓練230において、(i)ラベリングされた入力データセット205の第1部分235(データスプリッタ240によりラベリングされた入力データセット205から生成される)、(ii)第1補充データセット305および(iii)第3訓練データセット320のうちの一つ以上(または一つ以上のそれぞれの部分)が使用される。
図3Fは分類器検証(分類器検証245、
図2)のフローチャートである。ラベリングされた入力データセット205の第2部分250のそれぞれのデータ要素は訓練された第2分類器(または「第2分類器モデル」)325に供給され、生成された各分類は本来レーベルで比較した結果330でデータ要素のラベルと比較される。第2分類器の性能は分類がラベルと一致する程度に基づいて評価される。
【0043】
図4のテーブルはオーバーサンプリングおよび本来のGデータセットの80%を使ってベースライン2進分類器モデル310の一実施形態で行われたテスト結果を示す。「良好」クラスの3936個のデータ要素および「不良」クラスの22個のデータ要素を含むラベリングされた入力データセット205は
図2に示す方法により処理された。オーバーサンプリング(オーバーサンプリング210、
図2)は(i)「不良」データ要素対(ii)「良好」データ要素の比率を0.1:1または1:1に増加させるために使われた。
図4の表は使われた訓練データセットに対する「良好」および「不良」データ要素に対する分類正確度(第1列)と検証データセットに対する「良好」および「不良」データ要素に対する分類正確度(第2列)を示す。
【0044】
図5の表は本発明の一実施形態による第2分類器モデル325の性能試験の結果を示す。第2分類器は、(i)3238個のGサンプルおよび6762個のNGサンプルを含むVAE(第3訓練データセット)の合成サンプル、(ii)オーバーサンプリングによって生成された2000個のNGサンプル、および(iii)入力データセットのGサンプルの中から無作為で選ばれた2000個の実際のGサンプルで訓練された。
【0045】
図5に示す性能は
図4に示す性能より顕著に優れることが分かり、すなわち
図4および
図5に対応するテストにおいて、第2分類器は第1(基準)分類器により大幅に優れていた。また、
図5の結果は入力データセット205のGサンプルの小さい一部分を使って達成され、入力データセット205のGサンプルの80%が
図4の結果を導き出したテストで分類器を訓練するために使われたことに対し、入力データセット205のGサンプル(2000個のGサンプル)のうち50.8%のみが
図5の結果を導き出したテストで分類器を訓練するために使われた。
【0046】
本発明の一実施形態において、k-フォールド(k-fold)検証はここに説明された方法により構成された分類器115の正確度のより信頼に値する評価を得るために使用される。
【0047】
本発明の一実施形態において、第1分類器(または「第1分類器モデル」)310および第2分類器(または「第2分類器モデル」)325それぞれはここに記述されたように適切に訓練されたSqueezeNet、ResNet、またはVggNet神経網であり得る。変形オートエンコーダは、全体内容が本明細書に参照として含まれたarxiv.org/abs/1312.6114で利用可能なD.KingmaおよびM.Wellingの「Auto-Encoding Variational Bayes」に記述されたように構成されることができる。
【0048】
本発明の一実施形態において、データ前処理回路110、分類器115、および
図2に示された方法を実行するシステムのうちの一つ以上が一つ以上の処理回路で具現される。「処理回路」という用語は本明細書において、データまたはデジタル信号を処理するために使用されるハードウェア、ファームウェア、およびソフトウェアの任意の組み合わせを意味するものとして使用される。処理回路ハードウェアは、例えば、ASIC(application specific integrated circuit)、汎用または特殊目的CPU(central processing unit)、デジタル信号プロセッサ(DSP:digital signal processor)、グラフィック処理装置(GPU:graphics processing unit)、およびFPGA(field programmable gate arrays)のようなプログラマブルロジックデバイスを含み得る。本明細書において使われた処理回路において、各機能はその機能を遂行するために構成された、すなわち、ハードワイヤードされた(hard-wired)ハードウェア、または非一時的な記憶媒体に保存されている命令を実行するように構成されたCPUのような汎用ハードウェアによって行われる。処理回路は単一プリント回路基板(PCB:printed circuit board)上に製造される、または、いくつかの相互接続されたPCB上に分散され得る。処理回路は他の処理回路を含み得る。例えば、処理回路はPCB上に相互接続された二つの処理回路、FPGAおよびCPUを含み得る。
【0049】
本明細書に使われたように、事物の「一部」は事物の全部またはその以下を意味する。このように、データセットの一部はデータセットの適切なサブセットまたは全体データセットを意味する。
【0050】
「第1」、「第2」、「第3」等の用語は、本明細書において、様々な要素、構成要素、領域、層、および/またはセクションを説明するために使われ得るが、これらの要素、構成要素、領域、層、および/またはセクションはこれらの用語によって制限されてはならないことが理解されるであろう。これらの用語は一つの要素、構成要素、領域、層、またはセクションを他の要素、構成要素、領域、層、またはセクションとの区別するために使用される。したがって、本明細書において述べた第1要素、構成要素、領域、層、またはセクションは本発明の概念、主旨および範囲を逸脱せず、第2要素、構成要素、領域、層、または、セクションと称され得る。
【0051】
本明細書において使用される用語は、特定の実施形態を説明するためのものであり、本発明の概念を制限しようとするものではない。本明細書において使用される用語、「実質的に」、「約」、および類似の用語は、程度の用語としてではなく近似の用語として使用され、当業者が認識できる測定された値または計算された値の固有な偏差を説明するためのものである。本明細書において、用語「多数成分」が使用される場合、用語「多数成分」は、組成物、重合体、または生成物に存在する成分を組成物または生成物のうち任意の他の単一成分よりさらに多くの量を説明するために使用される。一方、本明細書において、用語「1次成分」が使用される場合、用語「1次成分」は、組成物、重合体、または生成物の少なくとも50重量%以上を構成する成分を説明するために使用される。本明細書において、用語「多数成分」が使用される場合、用語「多数部分」は、例えば、複数の項目に適用される際に項目の少なくとも半分を説明するために使用されてもよい。
【0052】
本明細書において使用された単数形態の「一つ」および「ある」は、文脈上相異することを示さない限り複数形態を含むものと解釈される。本明細書において使用される「含む」、および/または「含む」という用語は、明示された特徴、整数、ステージ、動作、構成要素および/または構成要素の存在を示すが、存在を排除しないことがさらに理解されるであろう。または、一つ以上の他の特徴、整数、ステージ、動作、要素、構成要素および/またはグループの追加を含み得る。本明細書において使用された、「および/または」という用語は、関連して列挙された一つ以上の項目の任意の組み合わせ、およびすべての組み合わせを含む。「少なくとも一つ」のような表現が、要素等の前に記載される場合、要素等の全体を修正し、個別の要素は修正しない。また、本発明において、「し得る」の使用は「本発明の一つ以上の実施形態」を意味する。また、「例示的な」という用語は、例示することまたは説明することを意図して使用される。本明細書に使用されたように「使用する」、「使う」および「使用された」という用語はそれぞれ「利用する」、「用いる」、および「利用された」という用語と同義語として見なすことができる。
【0053】
本明細書において使用された要素または層が、他の要素または層「上に」、「に接続されている」、「に結合されている」、または「に隣接する」と言及される際、これは他の要素または層に直接的に上に設けられること、接続されること、結合されること、または隣接させることが可能であるかまたは一つ以上の介在する要素または層が設けられてもよいと理解されるであろう。対照的に、要素または層が他の要素または層に「直接上に」、「直接接続されている」、「直接結合されている」、または「すぐに隣接する」と言及される際、介在する要素または層は存在しない。
【0054】
本明細書において、任意の数値範囲は列挙された範囲内に含まれる同じ数値精密度のすべての下位範囲を含むように意図される。例えば、「1.0~10.0」までの範囲は列挙された1.0という最初値と列挙された10.0という最大値との間の(およびこれを含む)、すなわち1.0以上の最小値と10.0以下の最大値を有する、例えば、2.4~7.6のようなすべての下位範囲を含む。本明細書において列挙された最大数の値の制限は、ここで含まれるさらに低いすべての数値制限を含むことを意図して使用され、本明細書において引用された任意の最小数値制限はここで含まれるすべてのさらに高い数値制限を含むことを意図して使用される。
【0055】
データ拡張のためのシステムおよび方法の一実施形態が本明細書、図面を用いて具体的に説明され、例示されたが、多くの変形および変更が可能であることは当業者に明白であろう。したがって、本発明の原理により構成されたデータ拡張のためのシステムおよび方法は、本明細書、図面を用いて具体的に説明されたもの以外に具現され得ることを理解しなければならない。本発明の概念は特許請求の範囲およびその等価物で定義される。