特許7489784 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星ディスプレイ株式會社の特許一覧

特許7489784トレースデータセットのデータ拡張のためのシステムおよび分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
3D
3E
3F
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-16

(45)【発行日】2024-05-24

(54)【発明の名称】トレースデータセットのデータ拡張のためのシステムおよび分類方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240517BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】 21

(21)【出願番号】P 2020029704

(22)【出願日】2020-02-25

(65)【公開番号】P2020173786

(43)【公開日】2020-10-22

【審査請求日】2023-01-11

(31)【優先権主張番号】62/830,131

(32)【優先日】2019-04-05

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/442,298

(32)【優先日】2019-06-14

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】512187343

【氏名又は名称】三星ディスプレイ株式會社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＤｉｓｐｌａｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１，Ｓａｍｓｕｎｇ－ｒｏ，Ｇｉｈｅｕｎｇ－ｇｕ，Ｙｏｎｇｉｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】110002619

【氏名又は名称】弁理士法人ＰＯＲＴ

(72)【発明者】

【氏名】リジャンファン

【審査官】新井則和

(56)【参考文献】

【文献】米国特許出願公開第２０１９／００８７７２８（ＵＳ，Ａ１）

【文献】特開２０１８－１６００９３（ＪＰ，Ａ）

【文献】国際公開第２０１９／０１７９６２（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

処理回路が実行する、製造された部品を良好または不良に分類するための分類方法であって、
ラベリングされた入力データセットから第１訓練データセットおよび第２訓練データセットを形成すること、
前記第１訓練データセットで第１分類器（ｃｌａｓｓｉｆｉｅｒ）を訓練させること、
前記第２訓練データセットで変形（ｖａｒｉａｔｉｏｎａｌ）オートエンコーダを訓練させること、
シュードランダム（ｐｓｅｕｄｏｒａｎｄｏｍ）ベクトルをデコーダに供給することによって第３データセットを生成すること、
第３訓練データセットを形成するように、前記第１分類器を用いて前記第３データセットをラベリングすること、
前記第３訓練データセットに基づいて第４訓練データセットを形成すること、および
前記第４訓練データセットで第２分類器を訓練させること
、を含み、
前記変形オートエンコーダはエンコーダおよび前記デコーダを含む、
分類方法。

【請求項2】

前記第１訓練データセットは、前記ラベリングされた入力データセットである、請求項１に記載の分類方法。

【請求項3】

前記第２訓練データセットは、前記ラベリングされた入力データセットである、請求項１に記載の分類方法。

【請求項4】

前記第１訓練データセットを形成することは、
前記ラベリングされた入力データセットをオーバーサンプリングし、第１補充データセットを生成すること、および
前記ラベリングされた入力データセットと前記第１補充データセットを結合して前記第１訓練データセットを形成することを含む、請求項１に記載の分類方法。

【請求項5】

前記ラベリングされた入力データセットのオーバーサンプリングは、合成少数（ｓｙｎｔｈｅｔｉｃｍｉｎｏｒｉｔｙ）オーバーサンプリング技術を用いることを含む、請求項４に記載の分類方法。

【請求項6】

前記ラベリングされた入力データセットのオーバーサンプリングは、適応型合成（ａｄａｐｔｉｖｅｓｙｎｔｈｅｔｉｃ）オーバーサンプリング技術を用いることを含む、請求項４に記載の分類方法。

【請求項7】

前記第４訓練データセットは、前記第３訓練データセットと同一である、請求項４に記載の分類方法。

【請求項8】

前記第４訓練データセットを形成することは、
前記ラベリングされた入力データセットの第１部分、および
第３訓練データセットを結合し、
前記第４訓練データセットを形成することを含む、請求項４に記載の分類方法。

【請求項9】

前記第４訓練データセットを形成することは、
前記ラベリングされた入力データセットの第１部分、
前記第１補充データセット、および
前記第３訓練データセットを結合し、
前記第４訓練データセットを形成することを含む、請求項４に記載の分類方法。

【請求項10】

前記ラベリングされた入力データセットの第１部分とは相異する前記ラベリングされた入力データセットの第２部分で前記第２分類器を検証することをさらに含む、請求項９に記載の分類方法。

【請求項11】

前記第２訓練データセットを形成することは、
前記ラベリングされた入力データセットをオーバーサンプリングし、第１補充データセットを生成すること、および
前記ラベリングされた入力データセットと前記第１補充データセットを結合して第２訓練データセットを形成することを含む、請求項１に記載の分類方法。

【請求項12】

前記ラベリングされた入力データセットは、
第１の個数のデータ要素を含む多数（ｍａｊｏｒｉｔｙ）クラスデータおよび
第２の個数のデータ要素を含む少数（ｍｉｎｏｒｉｔｙ）クラスデータを含み、
前記第１の個数は、前記の第２の個数の少なくとも５倍以上である、請求項１に記載の分類方法。

【請求項13】

前記第１の個数は、前記第２の個数の少なくとも１５倍以上である、請求項１２に記載の分類方法。

【請求項14】

製造された部品を良好または不良に分類するためのシステムであって、
前記システムは処理回路を含み、
前記処理回路は、
ラベリングされた入力データセットから第１訓練データセットおよび第２訓練データセットを形成し、
前記第１訓練データセットで第１分類器（ｃｌａｓｓｉｆｉｅｒ）を訓練させ、
前記第２訓練データセットで変形（ｖａｒｉａｔｉｏｎａｌ）オートエンコーダを訓練させて、
シュードランダム（ｐｓｅｕｄｏｒａｎｄｏｍ）ベクトルをデコーダに供給することによって、第３データセットを生成し、
第３訓練データセットを形成するように、前記第１分類器を用いて前記第３データセットをラベリングし、
前記第３訓練データセットに基づいて第４訓練データセットを形成し、
前記第４訓練データセットで第２分類器を訓練させるように構成され、
前記変形オートエンコーダはエンコーダおよび前記デコーダを含む、
システム。

【請求項15】

前記第１訓練データセットは、前記ラベリングされた入力データセットである、請求項１４に記載のシステム。

【請求項16】

前記第２訓練データセットは、前記ラベリングされた入力データセットである、請求項１４に記載のシステム。

【請求項17】

前記第１訓練データセットを形成することは、
前記ラベリングされた入力データセットをオーバーサンプリングし、第１補充データセットを生成すること、および
前記ラベリングされた入力データセットと前記第１補充データセットを結合して前記第１訓練データセットを形成することを含む、請求項１４に記載のシステム。

【請求項18】

前記ラベリングされた入力データセットのオーバーサンプリングは、合成少数（ｓｙｎｔｈｅｔｉｃｍｉｎｏｒｉｔｙ）オーバーサンプリング技術を用いることを含む、請求項１７に記載のシステム。

【請求項19】

前記ラベリングされた入力データセットのオーバーサンプリングは、適応型合成（ａｄａｐｔｉｖｅｓｙｎｔｈｅｔｉｃ）オーバーサンプリング技術を用いることを含む、請求項１７に記載のシステム。

【請求項20】

前記システムは、
データ収集回路をさらに含む、
請求項１４乃至請求項１９の何れか一項に記載のシステム。

【請求項21】

データ収集回路を用いて、トレースデータを取得することをさらに含み、
前記ラベリングされた入力データセットは前記トレースデータに基づく、請求項１に記載の分類方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一実施形態は、分類器、特に分類器を訓練させる際に使うためのデータ拡張（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）のためのシステムおよび分類方法に関する。

【0002】

本出願は、２０１９年４月５日付で出願された「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＤＡＴＡＡＵＧＭＥＮＴＡＴＩＯＮＦＯＲＴＲＡＣＥＤＡＴＡＳＥＴ」という名称の米国特許仮出願第６２／８３０，１３１号の優先権および利益を主張し、米国特許仮出願第６２／８３０，１３１号の全体内容は本出願に参照として引用される。

【背景技術】

【0003】

２進クラスに対してデータ不均衡があるデータで訓練されるとき、または、入力データ次元で訓練データの数量が比較的に少ないときに、自動分類器は相対的に低下した性能を現わし得る。

【0004】

したがって、データ拡張のために改善されたシステムおよび分類方法が必要である。

【発明の概要】

【発明が解決しようとする課題】

【0005】

データ拡張のために改善されたシステムおよび分類方法を提供すること、例えば、データ拡張のための分類システムおよび分類方法を提供することを課題とする。

【課題を解決するための手段】

【0006】

本発明の一実施形態によれば、分類方法が提供され、前記方法は、ラベリングされた入力データセットから第１訓練データセットおよび第２訓練データセットを形成すること、前記第１訓練データセットで第１分類器（ｃｌａｓｓｉｆｉｅｒ）を訓練させること、前記第２訓練データセットで変形（ｖａｒｉａｔｉｏｎａｌ）オートエンコーダを訓練させること、シュードランダム（ｐｓｅｕｄｏｒａｎｄｏｍ）ベクトルをデコーダに供給することによって、第３データセットを生成すること、第３訓練データセットを形成するように、前記第１分類器を用いて前記第３データセットをラベリングすること、前記第３訓練データセットに基づいて第４訓練データセットを形成すること、および前記第４訓練データセットで第２分類器を訓練させることを含み、前記変形オートエンコーダはエンコーダおよび前記デコーダを含む。

【0007】

本発明の一実施形態において、前記第１訓練データセットは、前記ラベリングされた入力データセットであってもよい。

【0008】

本発明の一実施形態において、前記第２訓練データセットは、前記ラベリングされた入力データセットであってもよい。

【0009】

本発明の一実施形態において、前記第１訓練データセットを形成することは、前記ラベリングされた入力データセットをオーバーサンプリングし、第１補充データセットを生成すること、および前記ラベリングされた入力データセットと前記第１補充データセットを結合して前記第１訓練データセットを形成することを含んでもよい。

【0010】

本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは合成少数（ｓｙｎｔｈｅｔｉｃｍｉｎｏｒｉｔｙ）オーバーサンプリング技術を用いる段階を含んでもよい。

【0011】

本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは適応型合成（ａｄａｐｔｉｖｅｓｙｎｔｈｅｔｉｃ）オーバーサンプリング技術を用いることを含んでもよい。

【0012】

本発明の一実施形態において、前記第４訓練データセットは前記第３訓練データセットと同一であってもよい。

【0013】

本発明の一実施形態において、前記第４訓練データセットを形成することは、前記ラベリングされた入力データセットの第１部分、および第３訓練データセットを結合し、前記第４訓練データセットを形成することを含んでもよい。

【0014】

本発明の一実施形態において、前記第４訓練データセットを形成することは、前記ラベリングされた入力データセットの第１部分、前記第１補充データセット、および前記第３訓練データセットを結合し、前記第４訓練データセットを形成することを含んでもよい。

【0015】

本発明の一実施形態において、前記ラベリングされた入力データセットの第１部分とは相異する、前記ラベリングされた入力データセットの第２部分で前記第２分類器を検証することをさらに含んでもよい。

【0016】

本発明の一実施形態において、前記第２訓練データセットを形成する段階は、前記ラベリングされた入力データセットをオーバーサンプリングし、第１補充データセットを生成すること、および前記ラベリングされた入力データセットと前記第１補充データセットを結合して第２訓練データセットを形成することを含んでもよい。

【0017】

本発明の一実施形態において、前記ラベリングされた入力データセットは、第１の個数のデータ要素を含む多数（ｍａｊｏｒｉｔｙ）クラスデータおよび第２の個数のデータ要素を含む少数（ｍｉｎｏｒｉｔｙ）クラスデータを含み、前記第１の個数は前記第２の個数の少なくとも５倍以上であってもよい。

【0018】

本発明の一実施形態において、前記第１の個数は前記第２の個数の少なくとも１５倍以上であってもよい。

【0019】

本発明の一実施形態によれば、システムが提供され、前記システムは、ラベリングされた入力データセットから第１訓練データセットおよび第２訓練データセットを形成し、前記第１訓練データセットで第１分類器（ｃｌａｓｓｉｆｉｅｒ）を訓練させ、前記第２訓練データセットで変形（ｖａｒｉａｔｉｏｎａｌ）オートエンコーダを訓練させて、シュードランダム（ｐｓｅｕｄｏｒａｎｄｏｍ）ベクトルをデコーダに供給することによって、第３データセットを生成し、第３訓練データセットを形成するように、前記第１分類器を用いて前記第３データセットをラベリングし、前記第３訓練データセットに基づいて第４訓練データセットを形成し、および前記第４訓練データセットで第２分類器を訓練させるように構成された処理回路を含み、前記変形オートエンコーダはエンコーダおよび前記デコーダを含む。

【0020】

本発明の一実施形態において、前記第１訓練データセットは前記ラベリングされた入力データセットであってもよい。

【0021】

本発明の一実施形態において、前記第２訓練データセットは前記ラベリングされた入力データセットであってもよい。

【0022】

【0023】

本発明の一実施形態において、前記ラベリングされた入力データセットのオーバーサンプリングは合成少数（ｓｙｎｔｈｅｔｉｃｍｉｎｏｒｉｔｙ）オーバーサンプリング技術を用いることを含んでもよい。

【0024】

【0025】

本発明の一実施形態によれば、製造された部品を良好または不良に分類するためのシステムが提供され、前記システムは、データ収集回路、および処理回路を含み、前記処理回路は、ラベリングされた入力データセットから第１訓練データセットおよび第２訓練データセットを形成し、前記第１訓練データセットで第１分類器（ｃｌａｓｓｉｆｉｅｒ）を訓練させ、前記第２訓練データセットで変形（ｖａｒｉａｔｉｏｎａｌ）オートエンコーダを訓練させて、シュードランダム（ｐｓｅｕｄｏｒａｎｄｏｍ）ベクトルをデコーダに供給することによって、第３データセットを生成し、第３訓練データセットを形成するように、前記第１分類器を用いて前記第３データセットをラベリングし、前記第３訓練データセットに基づいて第４訓練データセットを形成して、および前記第４訓練データセットで第２分類器を訓練させるように構成され、前記変形オートエンコーダはエンコーダおよび前記デコーダを含む。

【図面の簡単な説明】

【0026】

本発明のこれらおよび他の特徴および長所は、本明細書、特許請求の範囲、および添付する図面を参照して理解され、認識される。

【図1】本発明の一実施形態による分類システムのブロック図である。

【図2】本発明の一実施形態による分類器を訓練させて検証するための方法のフローチャートである。

【図3A】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。

【図3B】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。

【図3C】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。

【図3D】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。

【図3E】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。

【図3F】本発明の一実施形態による分類器を訓練させて検証するための方法の一部のフローチャートである。

【図4】本発明の一実施形態によるテスト結果テーブルである。

【図5】本発明の一実施形態によるテスト結果テーブルである。

【発明を実施するための形態】

【0027】

添付した図面を参照し、以下に説明される詳細な説明は、本発明により提供されるデータ拡張のためのシステムおよび方法の一実施形態を説明することを意図するものであり、本発明が構成され得る、または、本発明が利用され得る唯一の形態を説明することを意図するものではない。また、以下で説明される詳細な説明においては、例示された一実施形態と関連付けて本発明の特徴を説明する。しかし、本発明と同一または同等の機能および構造は、本発明の範囲に含まれる本発明以外の実施形態によって達成され得ることを理解しなければならない。本明細書等において、同一、同等、または類似する要素は、同一の番号（符号）を付され、同一、同等、または類似する要素または特徴を有するものとする。

【0028】

２進クラスに対する分類器は、二種類のクラス中の一つにデータサンプルを割り当てる作業を有することができ、このような分類器を訓練するために使用される訓練データに重大な不均衡があり得る。例えば、電子部品を製造するための製造工程において、多数の部品が許容可能であるか、または「良好」であり、少数の部品が何等かの形で欠陥があるか、または「不良」である場合が存在し得る。このような理由により、製造およびテストプロセス中にデータが取得されるとき、多くのデータは良好なデバイスからきたものでありえ、すなわちデータに不均衡が存在し得る。このような不均衡は自動化された分類器を訓練して部品を「良好」または「不良」に分類する際に障害になる可能性がある。

【0029】

また、各部品に対して取得された測定値の数が多くてもよい。すなわち、各データサンプル（製造された部品のような分類される品目に対する測定値のセットであるデータ要素）のディメンション（ｄｉｍｅｎｓｉｏｎｓ）の個数が多くてもよい。自動化された分類器を訓練するとき、特に各クラスの訓練データ要素の個数が各データ要素のディメンションを考慮して少ないとき、このような不均衡はさらに障害になる可能性がある。

【0030】

例えば、モバイルディスプレイを製造する際、ディスプレイパネルに対する製造プロセス中に、トレースデータが取得され得る。トレースデータは、例えば時間の関数として製造工程での温度および圧力の測定値を含み得る。多数の温度および圧力センサが用いられ、各センサは複数回（例えば、一日に３回または４回、数日の期間にわたって）サンプリングされ得る。これらの測定値から生成されたトレースデータは、例えば、それぞれ約３０４個の測定を有する約６４個の時間トレース、例えば合計１９，０００個以上の測定値を含み得るため、各データ要素は１９，０００ディメンション以上を有する。

【0031】

以下において、さらに詳細に説明されるように、多様な方法が上述された障害のうち少なくとも一部を解決するために用いられる。図１を参照すると、本発明の一実施形態において、欠陥部品を検出するためのシステムは、一つ以上のデータ収集回路１０５（例えば、温度および圧力センサ、増幅器、およびアナログ－デジタル変換器を含み得る）、データ前処理回路１１０（これは以下でさらに詳細に述べるように、データをリフォーマットできる）、およびディープラーニング（ＤＬ：ｄｅｅｐｌｅａｒｎｉｎｇ）神経網であり得る分類器１１５を含む。

【0032】

データ前処理回路１１０は、データ収集回路１０５から原始トレースデータ（例えば、前述したような多数の時間トレース）を受信し、例えば２次元アレイ（例えば、２２４×２２４アレイ）にデータをリフォーマットし得る。２次元アレイの大きさは神経網によって一般的に分類されるイメージの大きさと比較可能なように選ばれ得る。その後、リフォーマットは本発明の一実施形態で使うために、イメージの神経網分類器を具現するコードの特定部分を再使用することを可能にすることができる。

【0033】

図２は本発明の一実施形態による分類器の開発およびテストのためのフローチャートを示す。ラベリングされた入力データセット２０５は、前処理回路１１０から受信され、ラベリングされた入力データセット２０５はそれぞれ「良好」（または「Ｇ」）でラベリングされた第１の個数のデータサンプル（例えば、数千個のデータ要素）、およびそれぞれ「不良」（または「ＮＧ」）でラベリングされた第２の個数のデータサンプル（例えば、１０個以上１００個以下のデータ要素）を含む。オーバーサンプリングは、オーバーサンプリング２１０で（以下でさらに詳細に述べるように）一つまたは二つのクラスで追加データサンプルを含む第１補充データセットを生成するために使われ得る。ラベリングされた入力データセット２０５および第１補充データセットは、ベースライン２進分類器訓練２１５において、第１訓練データセット（すなわち、ラベリングされた入力データセット２０５および第１補充データセットをいずれも含み得る、組み合わせ（または「ユニオン（ｕｎｉｏｎ）」）であり得る）で指導学習を用いて第１分類器（または「ベースライン分類器」）を訓練するために使用される。本発明の一実施形態において、オーバーサンプリング２１０で、オーバーサンプリング段階またはその結果は省略することができ、第１分類器はラベリングされた入力データセット２０５のみを使って訓練され得る。

【0034】

次いで、第１分類器の訓練によるモデル（例えば、訓練された第１分類器、または第１分類器の訓練による加重値でプログラムされた神経網の写本）は、データラベリング２２０において、第３データセットをラベリングして第３訓練データセットを形成するために使われ得る。機械訓練モデル（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｅｌ）は、分類器、リグレッサー（ｒｅｇｒｅｓｓｏｒ）、オートエンコーダ（ａｕｔｏｅｎｃｏｄｅｒ）等を含む様々な形態のうち一つであり得る。ＶＡＥデータ拡張２２５において、第３データセットは、以下により詳細に説明されるように変形オートエンコーダを使うデータ拡張方法によって生成され得る。ＶＡＥデータ拡張２２５において、データ拡張方法は、例えばラベリングされた入力データセット２０５、またはラベリングされた入力データセット２０５と第１補充データセットの組み合わせであり得る第２訓練データセットを入力として使い得る。

【0035】

その次に、第２分類器は、（ｉ）ラベリングされた入力データセット２０５の第１部分２３５（入力データ（Ｇ：５０％）、データスプリッタ２４０によりラベリングされた入力データセット２０５から生成される）、（ｉｉ）第１補充データセット、および（ｉｉｉ）第３訓練データセットのうちの一つ以上の部分の組み合わせを使って訓練され得る。その次に、第２分類器の訓練によるモデル（例えば、訓練された第２分類器または第２分類器の訓練による加重値でプログラムされた神経網の写本）はラベリングされた入力データセット２０５の第２部分２５０（入力データ（Ｇ：５０％、ＮＧ：１００％）、また、データスプリッタ２４０によりラベリングされた入力データセット２０５から生成される）を使って検証され得る。第２部分２５０（検証に使用）は第１部分２３５（訓練に使用）と相異し得る、例えば、ラベリングされた入力データセット２０５の残りであり得る。

【0036】

分類器検証２４５において、検証段階での訓練後の第２分類器の性能（すなわち、第２分類器の訓練によるモデルの性能）は、第２分類器が製造された各部品に対する生産への使用に適するのか、例えば、それが使用されるのかまたは廃棄（または再作業）されるのかの決定をするための評価に用いられる。

【0037】

図３Ａはオーバーサンプリング段階（図２の２１０）のフローチャートである。ラベリングされた入力データセット２０５は、オーバーサンプリング２１０でオーバーサンプリングされ、第１補充データセット（または「オーバーサンプリングされたデータセット」）３０５を形成する。オーバーサンプリングは、ＳＭＯＴＥ（ＳｙｎｔｈｅｔｉｃＭｉｎｏｒｉｔｙＯｖｅｒ－ｓａｍｐｌｉｎｇＴｅｃｈｎｉｑｕｅ）またはＡＤＡＳＹＮ（ＡｄａｐｔｉｖｅＳｙｎｔｈｅｔｉｃ）オーバーサンプリングを使って行われ得る、これらそれぞれは少数クラス（例えば、「Ｎｏｇｏｏｄ」クラス）でデータ要素のデータセットを生成するために使用される。ＡＤＡＳＹＮは、第１補充データセットのデータ要素が他のクラス（例えば、「ｇｏｏｄ」クラスであり得る多数クラス）を邪魔する可能性を減少させるために、スモールランダムベクトル（または「オフセット」）を追加して生成されたそれぞれのデータ要素をオフセットし得る。

【0038】

図３Ｂは第１分類器のベースライン２進分類器訓練２１５（図２）における訓練のフローチャートである。（ｉ）ラベリングされた入力データセット２０５および（ｉｉ）第１補充データセット３０５のうちの一つまたは全部はベースライン２進分類器訓練２１５で第１分類器を訓練するために使われ、第１分類器モデル（または「ベースライン２進分類器モデル」）３１０を生成する。

【0039】

図３Ｃはデータ拡張（ＶＡＥデータ拡張２２５、図２）のフローチャートである。変形オートエンコーダはエンコーダおよびデコーダを含み得る。

【0040】

潜在ベクトルが単位ガウシアン分布に近接する分布を有する（すなわち、ベクトルの要素が独立的ガウシアン分布であるベクトル分布に近接する、例えば、それぞれ平均および分散を有する）という制約により、エンコーダは受信されたそれぞれのデータ要素をベクトルまたは「潜在ベクトル（ｌａｔｅｎｔｖｅｃｔｏｒ）」にマッピングまたは「エンコーディング」し得る。デコーダはエンコーダの動作の概略的な逆動作（ａｐｐｒｏｘｉｍａｔｅｉｎｖｅｒｓｅｏｆｔｈｅｏｐｅｒａｔｉｏｎ）を行い得、これはエンコーダによって生成されたそれぞれの潜在ベクトルをエンコーダが潜在ベクトルにマッピングするデータ要素に近似する（合成）データ要素にマッピングし得る。

【0041】

エンコーダおよびデコーダは、代表的なデータ要素の訓練セット（例えば、上で言及した第２訓練セット）、およびガウス分布のために正規化されるエンコーダの入力とデコーダの出力との間の差の尺度である費用関数で共に訓練され得る。エンコーダおよびデコーダが訓練されると、シュードランダム潜在ベクトル（単位ガウシアン分布を有するように生成される）が合成データ要素を生成するために（例えば、第３データセット３１５を生成するために）、デコーダに供給され得る。変形オートエンコーダが二つのクラスからのデータ要素で（例えば、「良好」データ要素および「不良」データ要素のすべてで）訓練されると、合成データ要素にラベルが指定されなくてもよい。

【0042】

図３Ｄは第３訓練データセットを形成するための第３データセットのラベリング（データラベリング２２０、図２）のフローチャートである。第３データセット３１５は第１分類器モデル３１０により分類され、第３データセット３１５のそれぞれのデータ要素は第３訓練データセット（または「ラベリングされたＶＡＥデータセット」）３２０を形成するようにラベリングされる。図３Ｅは第２分類器の訓練（分類器訓練２３０、図２）のフローチャートである。第２分類器を訓練させて第２分類器モデル３２５（または「２進分類器モデル」）を生成するように、分類器訓練２３０において、（ｉ）ラベリングされた入力データセット２０５の第１部分２３５（データスプリッタ２４０によりラベリングされた入力データセット２０５から生成される）、（ｉｉ）第１補充データセット３０５および（ｉｉｉ）第３訓練データセット３２０のうちの一つ以上（または一つ以上のそれぞれの部分）が使用される。図３Ｆは分類器検証（分類器検証２４５、図２）のフローチャートである。ラベリングされた入力データセット２０５の第２部分２５０のそれぞれのデータ要素は訓練された第２分類器（または「第２分類器モデル」）３２５に供給され、生成された各分類は本来レーベルで比較した結果３３０でデータ要素のラベルと比較される。第２分類器の性能は分類がラベルと一致する程度に基づいて評価される。

【0043】

図４のテーブルはオーバーサンプリングおよび本来のＧデータセットの８０％を使ってベースライン２進分類器モデル３１０の一実施形態で行われたテスト結果を示す。「良好」クラスの３９３６個のデータ要素および「不良」クラスの２２個のデータ要素を含むラベリングされた入力データセット２０５は図２に示す方法により処理された。オーバーサンプリング（オーバーサンプリング２１０、図２）は（ｉ）「不良」データ要素対（ｉｉ）「良好」データ要素の比率を０．１：１または１：１に増加させるために使われた。図４の表は使われた訓練データセットに対する「良好」および「不良」データ要素に対する分類正確度（第１列）と検証データセットに対する「良好」および「不良」データ要素に対する分類正確度（第２列）を示す。

【0044】

図５の表は本発明の一実施形態による第２分類器モデル３２５の性能試験の結果を示す。第２分類器は、（ｉ）３２３８個のＧサンプルおよび６７６２個のＮＧサンプルを含むＶＡＥ（第３訓練データセット）の合成サンプル、（ｉｉ）オーバーサンプリングによって生成された２０００個のＮＧサンプル、および（ｉｉｉ）入力データセットのＧサンプルの中から無作為で選ばれた２０００個の実際のＧサンプルで訓練された。

【0045】

図５に示す性能は図４に示す性能より顕著に優れることが分かり、すなわち図４および図５に対応するテストにおいて、第２分類器は第１（基準）分類器により大幅に優れていた。また、図５の結果は入力データセット２０５のＧサンプルの小さい一部分を使って達成され、入力データセット２０５のＧサンプルの８０％が図４の結果を導き出したテストで分類器を訓練するために使われたことに対し、入力データセット２０５のＧサンプル（２０００個のＧサンプル）のうち５０．８％のみが図５の結果を導き出したテストで分類器を訓練するために使われた。

【0046】

本発明の一実施形態において、ｋ－フォールド（ｋ－ｆｏｌｄ）検証はここに説明された方法により構成された分類器１１５の正確度のより信頼に値する評価を得るために使用される。

【0047】

本発明の一実施形態において、第１分類器（または「第１分類器モデル」）３１０および第２分類器（または「第２分類器モデル」）３２５それぞれはここに記述されたように適切に訓練されたＳｑｕｅｅｚｅＮｅｔ、ＲｅｓＮｅｔ、またはＶｇｇＮｅｔ神経網であり得る。変形オートエンコーダは、全体内容が本明細書に参照として含まれたａｒｘｉｖ．ｏｒｇ／ａｂｓ／１３１２．６１１４で利用可能なＤ．ＫｉｎｇｍａおよびＭ．Ｗｅｌｌｉｎｇの「Ａｕｔｏ－ＥｎｃｏｄｉｎｇＶａｒｉａｔｉｏｎａｌＢａｙｅｓ」に記述されたように構成されることができる。

【0048】

本発明の一実施形態において、データ前処理回路１１０、分類器１１５、および図２に示された方法を実行するシステムのうちの一つ以上が一つ以上の処理回路で具現される。「処理回路」という用語は本明細書において、データまたはデジタル信号を処理するために使用されるハードウェア、ファームウェア、およびソフトウェアの任意の組み合わせを意味するものとして使用される。処理回路ハードウェアは、例えば、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、汎用または特殊目的ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、グラフィック処理装置（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、およびＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）のようなプログラマブルロジックデバイスを含み得る。本明細書において使われた処理回路において、各機能はその機能を遂行するために構成された、すなわち、ハードワイヤードされた（ｈａｒｄ－ｗｉｒｅｄ）ハードウェア、または非一時的な記憶媒体に保存されている命令を実行するように構成されたＣＰＵのような汎用ハードウェアによって行われる。処理回路は単一プリント回路基板（ＰＣＢ：ｐｒｉｎｔｅｄｃｉｒｃｕｉｔｂｏａｒｄ）上に製造される、または、いくつかの相互接続されたＰＣＢ上に分散され得る。処理回路は他の処理回路を含み得る。例えば、処理回路はＰＣＢ上に相互接続された二つの処理回路、ＦＰＧＡおよびＣＰＵを含み得る。

【0049】

本明細書に使われたように、事物の「一部」は事物の全部またはその以下を意味する。このように、データセットの一部はデータセットの適切なサブセットまたは全体データセットを意味する。

【0050】

「第１」、「第２」、「第３」等の用語は、本明細書において、様々な要素、構成要素、領域、層、および／またはセクションを説明するために使われ得るが、これらの要素、構成要素、領域、層、および／またはセクションはこれらの用語によって制限されてはならないことが理解されるであろう。これらの用語は一つの要素、構成要素、領域、層、またはセクションを他の要素、構成要素、領域、層、またはセクションとの区別するために使用される。したがって、本明細書において述べた第１要素、構成要素、領域、層、またはセクションは本発明の概念、主旨および範囲を逸脱せず、第２要素、構成要素、領域、層、または、セクションと称され得る。

【0051】

本明細書において使用される用語は、特定の実施形態を説明するためのものであり、本発明の概念を制限しようとするものではない。本明細書において使用される用語、「実質的に」、「約」、および類似の用語は、程度の用語としてではなく近似の用語として使用され、当業者が認識できる測定された値または計算された値の固有な偏差を説明するためのものである。本明細書において、用語「多数成分」が使用される場合、用語「多数成分」は、組成物、重合体、または生成物に存在する成分を組成物または生成物のうち任意の他の単一成分よりさらに多くの量を説明するために使用される。一方、本明細書において、用語「１次成分」が使用される場合、用語「１次成分」は、組成物、重合体、または生成物の少なくとも５０重量％以上を構成する成分を説明するために使用される。本明細書において、用語「多数成分」が使用される場合、用語「多数部分」は、例えば、複数の項目に適用される際に項目の少なくとも半分を説明するために使用されてもよい。

【0052】

本明細書において使用された単数形態の「一つ」および「ある」は、文脈上相異することを示さない限り複数形態を含むものと解釈される。本明細書において使用される「含む」、および／または「含む」という用語は、明示された特徴、整数、ステージ、動作、構成要素および／または構成要素の存在を示すが、存在を排除しないことがさらに理解されるであろう。または、一つ以上の他の特徴、整数、ステージ、動作、要素、構成要素および／またはグループの追加を含み得る。本明細書において使用された、「および／または」という用語は、関連して列挙された一つ以上の項目の任意の組み合わせ、およびすべての組み合わせを含む。「少なくとも一つ」のような表現が、要素等の前に記載される場合、要素等の全体を修正し、個別の要素は修正しない。また、本発明において、「し得る」の使用は「本発明の一つ以上の実施形態」を意味する。また、「例示的な」という用語は、例示することまたは説明することを意図して使用される。本明細書に使用されたように「使用する」、「使う」および「使用された」という用語はそれぞれ「利用する」、「用いる」、および「利用された」という用語と同義語として見なすことができる。

【0053】

本明細書において使用された要素または層が、他の要素または層「上に」、「に接続されている」、「に結合されている」、または「に隣接する」と言及される際、これは他の要素または層に直接的に上に設けられること、接続されること、結合されること、または隣接させることが可能であるかまたは一つ以上の介在する要素または層が設けられてもよいと理解されるであろう。対照的に、要素または層が他の要素または層に「直接上に」、「直接接続されている」、「直接結合されている」、または「すぐに隣接する」と言及される際、介在する要素または層は存在しない。

【0054】

本明細書において、任意の数値範囲は列挙された範囲内に含まれる同じ数値精密度のすべての下位範囲を含むように意図される。例えば、「１．０～１０．０」までの範囲は列挙された１．０という最初値と列挙された１０．０という最大値との間の（およびこれを含む）、すなわち１．０以上の最小値と１０．０以下の最大値を有する、例えば、２．４～７．６のようなすべての下位範囲を含む。本明細書において列挙された最大数の値の制限は、ここで含まれるさらに低いすべての数値制限を含むことを意図して使用され、本明細書において引用された任意の最小数値制限はここで含まれるすべてのさらに高い数値制限を含むことを意図して使用される。

【0055】

データ拡張のためのシステムおよび方法の一実施形態が本明細書、図面を用いて具体的に説明され、例示されたが、多くの変形および変更が可能であることは当業者に明白であろう。したがって、本発明の原理により構成されたデータ拡張のためのシステムおよび方法は、本明細書、図面を用いて具体的に説明されたもの以外に具現され得ることを理解しなければならない。本発明の概念は特許請求の範囲およびその等価物で定義される。

【図1】