IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2023-512665プロセスサイクル画像の機械学習ベースの根本原因分析
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-28
(54)【発明の名称】プロセスサイクル画像の機械学習ベースの根本原因分析
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230320BHJP
【FI】
G06T7/00 350C
G06T7/00 612
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022545420
(86)(22)【出願日】2021-01-29
(85)【翻訳文提出日】2022-07-26
(86)【国際出願番号】 US2021015906
(87)【国際公開番号】W WO2021155291
(87)【国際公開日】2021-08-05
(31)【優先権主張番号】62/968,950
(32)【優先日】2020-01-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/161,595
(32)【優先日】2021-01-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
2.JAVA
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ナグメフ・レザエイ
(72)【発明者】
【氏名】ペドロ・ミギュエル・フェリペ・クルズ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA03
5L096BA06
5L096DA02
5L096FA74
5L096GA34
5L096GA51
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
開示される技術は、プロセスサイクルの成功又は失敗を予測するためのプロセスサイクル画像の分類に関する。開示される技術は、遺伝子型決定プロセスにおいて画像生成チップ上に配置された区分の画像を取り込んで処理することを含む。生産サイクル画像の画像記述特徴が作成され、分類器への入力として与えられる。訓練された分類器は、成功生産画像を不成功又は失敗生産画像から分離する。失敗生産画像は、訓練された根本原因分類器によって、失敗の様々なカテゴリに更に分類される。
【特許請求の範囲】
【請求項1】
遺伝子型決定プロセスサイクル画像のためのランダムフォレスト分類器を訓練する方法であって、
成功クラス及び複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
前記ラベル付き訓練例の前記画像記述特徴を使用して、前記ランダムフォレスト分類器を訓練することと、
前記訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法。
【請求項2】
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、前記固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する前記固有画像の最上位に順序付けられた基準を選択することと、
前記固有画像の選択された基準を使用して、前記プロセスサイクル画像を分析することと、を更に含む、請求項1に記載の方法。
【請求項3】
前記画像記述特徴を使用して前記ランダムフォレスト分類器を、前記成功クラス対前記複数の失敗クラスの一対他決定のために訓練することを更に含む、請求項1に記載の方法。
【請求項4】
前記ランダムフォレスト分類器が、100~400個の決定木を含む、請求項1に記載の方法。
【請求項5】
前記ランダムフォレスト分類器が、10~40の深さを有する、請求項1に記載の方法。
【請求項6】
前記画像記述特徴が前記成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、前記第2のランダムフォレスト分類器が、前記複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
前記第2のランダムフォレスト分類器を前記画像記述特徴に適用することであって、前記複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として前記複数の失敗クラスの中から選択することを含む、適用することと、を更に含む、請求項2に記載の方法。
【請求項7】
遺伝子型決定プロセスサイクル画像のためのランダムフォレスト分類器を訓練するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されたときに、方法であって、
成功クラス及び複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
前記ラベル付き訓練例の前記画像記述特徴を使用して、前記ランダムフォレスト分類器を訓練することと、
前記訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法を実行する、非一時的コンピュータ可読記憶媒体。
【請求項8】
前記方法を実行することが、
前記画像記述特徴を使用して前記ランダムフォレスト分類器を、前記成功クラス対前記複数の失敗クラスの一対他決定のために訓練することを更に含む、請求項7に記載の非一時的コンピュータ可読記憶媒体。
【請求項9】
前記方法を実行することが、
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、前記固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する前記固有画像の最上位に順序付けられた基準を選択することと、
前記固有画像の選択された基準を使用して、前記プロセスサイクル画像を分析することと、を更に含む、請求項7に記載の非一時的コンピュータ可読記憶媒体。
【請求項10】
前記ランダムフォレスト分類器が、100~400個の決定木を含む、請求項7に記載の非一時的コンピュータ可読記憶媒体。
【請求項11】
前記ランダムフォレスト分類器が、10~40の深さを有する、請求項7に記載の非一時的コンピュータ可読記憶媒体。
【請求項12】
前記方法を実行することは、
前記画像記述特徴が前記成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、前記第2のランダムフォレスト分類器が、前記複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
前記第2のランダムフォレスト分類器を前記画像記述特徴に適用することであって、前記複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として前記複数の失敗クラスの中から選択することを含む、適用することと、を更に含む、請求項9に記載の非一時的コンピュータ可読記憶媒体。
【請求項13】
遺伝子型決定プロセスサイクル画像を分類するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されたときに、方法であって、
グレースケール生産サイクル画像内のピクセルの強度から閾値を決定及び適用することであって、前記閾値を用いて、画像ピクセルを明及び暗のクラスに分類する、適用することと、前記グレースケール生産サイクル画像をバイナリ画像に変換することと、
前記グレースケール画像及び前記変換されたバイナリ画像を、前記画像内の体系的に予想されるノイズを信号から分離する8つ以上のエリアにセグメント化することと、
前記グレースケール画像及び前記変換されたバイナリ画像内の前記エリアについての平均強度値を計算することと、
前記グレースケール及びバイナリ画像内の前記エリアについての前記平均強度値に基づいて、プロセスサイクルからの前記画像を、成功クラス又は失敗クラスに属するとして分類するように訓練されたランダムフォレスト分類器にアクセスし、前記訓練されたランダムフォレスト分類器によって生成された信頼スコアを閾値と比較し、前記画像を成功又は失敗として分類することと、を含む、方法を実行する、非一時的コンピュータ可読記憶媒体。
【請求項14】
前記方法を実行することが、
前記生産サイクル画像を変換する前に、前記生産サイクル画像内の縁を保存するために、バイラテラルフィルタを適用することを更に含む、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項15】
メモリに連結された1つ以上のプロセッサを含むシステムであって、前記メモリには、前記プロセッサ上で実行されたときに請求項7に記載の命令を実行する、プロセスサイクル画像のためのランダムフォレスト分類器を訓練するためのコンピュータ命令が読み込まれている、システム。
【請求項16】
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、前記固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する前記固有画像の最上位に順序付けられた基準を選択することと、
前記固有画像の選択された基準を使用して、前記プロセスサイクル画像を分析することと、を含む措置を更に実行する、請求項15に記載のシステム。
【請求項17】
前記ランダムフォレスト分類器が、100~400個の決定木を含む、請求項15に記載のシステム。
【請求項18】
前記ランダムフォレスト分類器が、10~40の深さを有する、請求項15に記載のシステム。
【請求項19】
前記画像記述特徴が前記成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、前記第2のランダムフォレスト分類器が、前記複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
前記第2のランダムフォレスト分類器を前記画像記述特徴に適用することであって、前記複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、前記失敗プロセスサイクルの可能性のある根本原因として前記複数の失敗クラスの中から選択することを含む、適用することと、を含む措置を更に実行する、請求項15に記載のシステム。
【請求項20】
メモリに連結された1つ以上のプロセッサを含むシステムであって、前記メモリには、前記プロセッサ上で実行されたときに請求項13に記載の命令を実行する、プロセスサイクル画像を分類するためのコンピュータ命令が読み込まれている、システム。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権出願)
本出願は、2020年1月31日に出願された「MACHINE LEARNING-BASED ROOT CAUSE ANALYSIS OF PROCESS CYCLE IMAGES」と題された米国特許仮出願第62/968,950号(代理人整理番号ILLM1026-1/IP-1911-PRV)の利益を主張する、2021年1月28日に出願された「MACHINE LEARNING-BASED ROOT CAUSE ANALYSIS OF PROCESS CYCLE IMAGES」と題された米国特許仮出願第17/161,595号(代理人整理番号:ILLM1026-2/IP-1911-US)の利益を主張する。その優先権出願は、全ての目的のために参照により組み込まれる。
【0002】
(発明の分野)
開示される技術は、生産プロセスの評価及び根本原因失敗分析のための画像の分類に関する。
【背景技術】
【0003】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0004】
遺伝子型決定は、完了するために複数日かかり得るプロセスである。プロセスは、機械的及び化学的処理エラーの両方に対して脆弱である。遺伝子型決定のための収集されたサンプルは、抽出され、画像生成チップの区分及びエリアに分配される。次いで、サンプルは、複数のステップを通して化学的に処理されて、蛍光画像を生成する。プロセスは、分析された各区分の品質スコアを生成する。この品質は、低品質プロセスの失敗の根本原因に洞察を提供することができない。いくつかの場合、失敗区分画像は、依然として、許容可能な品質スコアを生み出す。
【0005】
したがって、区分画像を評価し、生産遺伝子型決定中の失敗の根本原因分析を決定するために、新しい方法及びシステムを導入する機会が生じている。
【0006】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。
【図面の簡単な説明】
【0007】
図1】遺伝子型決定機器からのプロセスサイクル画像が分類され、悪い画像の根本原因が決定されるシステムのアーキテクチャレベル概略図を示す。
図2図1の特徴生成器のサブシステム構成要素を例示する。
図3】例示的な遺伝子型決定プロセスについてのプロセスステップを提示する。
図4】成功プロセス完了後に生成する画像内に配置された区分の画像を提示する。
図5A】遺伝子型決定プロセス中のハイブリダイゼーション失敗に起因する失敗区分画像の例を提示する。
図5B】遺伝子型決定プロセス中のハイブリダイゼーション失敗に起因する失敗区分画像の例を提示する。
図5C】スペーサシフト失敗に起因する失敗区分画像の例を提示する。
図5D】スペーサシフト失敗に起因する失敗区分画像の例を提示する。
図5E】オフセット失敗に起因する失敗区分画像の例を提示する。
図5F】表面摩耗失敗に起因する失敗区分画像の例を提示する。
図5G】試薬流れ失敗に起因する失敗区分画像の例を提示する。
図5H】試薬流れ失敗に起因する失敗区分画像の例を提示する。
図5I】失敗源が不明である失敗又は不健全区分画像の例を提示する。
図6A】主成分分析(Principal Component Analysis、PCA)を使用して生成された主成分を順位付けすることによって選択された96個の固有画像成分の基準の例である。
図6B】主成分分析(Principal Component Analysis、PCA)を使用して生成された主成分を順位付けすることによって選択された96個の固有画像成分の基準の例である。
図6C図6A及び図6Bの96の画像から選択された上位40個の固有画像成分の拡大である。
図6D図6A及び図6Bの96の画像から選択された上位40個の固有画像成分の拡大である。
図7A】主成分分析への入力のための区分画像の画像再スケーリング及び平坦化を例示する。
図7B】主成分分析を使用する固有画像の作成を例示する。
図8A】区分のエリアの強度を使用する特徴生成の例を例示する。
図8B】区分のエリアの強度を使用する特徴生成の別の例を例示する。
図9】一対他(one-vs-the-rest、OvR)分類器の図解例示である。
図10A】プロセスサイクル画像を含むラベル付き訓練データを使用する、バイナリ(良好対不良)分類器及びマルチクラス(根本原因)分類器の訓練を例示する。
図10B】生産プロセスサイクル画像が良好対不良として分類され、更に不良画像の失敗カテゴリが決定される、2ステッププロセスを例示する。
図11】開示される技術を実装するために使用され得るコンピュータシステムの簡略ブロック図である。
【発明を実施するための形態】
【0008】
以下の考察は、開示された技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
序論
【0009】
開示される技術は、生産遺伝子型決定の評価及び根本原因失敗分析のためのビジョンシステム及び画像分類を適用する。2つの別個のアプローチが説明されており、1つは、固有画像及びエリアによる閾値化に基づく他のものを伴う。主成分分析(PCA)及び非負値行列因子分解(non-negative matrix factorization、NMF)は、開示される技術の中にある。画像に適用され得る他の次元削減技術は、独立成分分析、辞書学習、スパース主成分分析、因子分析、ミニバッチK平均を含む。画像分解及び次元削減技術の変形例が使用され得る。例えば、PCAは、特異値分解(singular value decomposition、SVD)を使用して、又はカーネルPCAとして実装され得る。これらの技術からの出力は、分類器への入力として与えられる。適用される分類器は、ランダムフォレスト、K近傍法(K-nearest neighbor、KNN)、多項ロジスティック回帰、サポートベクターマシン(support vector machine、SVM)、勾配ブースティングツリー、単純ベイズなどを含み得る。ラベル付き画像のより大きい本体が利用可能になるため、ImageNetなどの畳み込みニューラルネットワークもまた、使用され得る。
【0010】
この生産プロセスは、機械的及び化学的処理エラーの両方に対して脆弱である。収集されたサンプルは、抽出され、BeadChipの区分及びエリアに分配され、次いで、複数のステップを通して化学処理されて、蛍光画像を生成する。最終的な蛍光画像、又は更に中間蛍光画像が分析されて、生産を監視し、失敗分析を行い得る。
【0011】
生産分析の大部分が成功である。現在の失敗分析は、5つのカテゴリ及び残りの失敗カテゴリに適合すると理解される。5つの失敗カテゴリは、ハイブリダイゼーション又はhyb失敗、スペーサシフト失敗、オフセット失敗、表面摩耗失敗、及び試薬流れ失敗である。残りのカテゴリは、混合効果、未識別の原因、及び弱い信号に起因する不健全パターンである。そのとき、特に根本原因分析が改善された生産につながるため、より多くの異なる原因が識別され得る。
【0012】
品質管理及び失敗分析に適用される第1の画像処理技術は、固有顔分析による顔認識から進化している。数万のラベル付き画像から、40~100個の画像成分の線形基準を識別した。固有基準を形成するための1つのアプローチは、主成分分析(PCA)の後、説明されたばらつきの尺度に従って成分の順位付けを行うことであった。40個の成分が、ばらつきの大部分を説明したことが観察された。100個の成分を超えると、追加の成分は、サンプル処理におけるノイズ又は自然なばらつきのパターンを反映するように見えた。関連成分の数は、画像解像度によって影響を受けると予想される。ここで、画像生成チップの区分が180×80ピクセルの解像度で分析されるように、解像度低減を適用した。これは、成功を不成功生産から区別し、次いで、6つの失敗カテゴリの間の失敗の根本原因を分類するのに十分な解像度であった。形式感度分析は、適用されなかったが、わずかに低い解像度の画像もまた、機能し、この解像度の4~22倍の画像は、同じ方式で処理され得るが、計算費用の増加を伴う。固有画像分析によって分析される各画像は、基準画像の重み付き線形結合として表される。順序付きの基準成分の集合に対する各重みは、分類器を訓練するための特徴として使用される。例えば、一実施態様では、ラベル付き画像の成分の96個の重みを、ランダムフォレスト分類器を訓練するために使用した。200個のツリー及び20の深さを有するランダムフォレスト分類器が良好に機能した。2つのタスクが、ランダムフォレスト分類器:成功及び不成功生産画像の分離、次いで、不成功生産画像の根本原因分析によって実施された。この2段階分類は、成功生産実行の優勢に起因して選択されたが、1段階分類もまた、使用され得る。
【0013】
適用される第2の画像処理技術は、画像エリアの閾値化を伴った。画像生成チップの区分の生産画像は、いくつかの物理的に分離されたエリアを取り込む。区分に接し、かつ区分の別個の物理的エリアを分離する構造が、生産画像で可視である。閾値化戦略は、境界線構造からアクティブエリアを分離し、次いで、分離されたエリアを区別することを伴う。任意選択的に、物理的エリアを分離する構造もまた、画像からフィルタ除去され得る。少なくともアクティブエリアは、発光の閾値化を受ける。閾値化は、どの程度の量のアクティブエリアが所望の信号強度を生成するかを決定する。各アクティブエリアは、成功又は失敗の閾値化後に評価される。画像生成チップのエリア及び区分間の失敗のパターンは、根本原因分類について更に評価され得る。
【0014】
失敗生産実行を検出し、根本原因を決定するための生産画像の処理は、生産中に直ちに実施され得、結果よりも迅速に画像生成チップから読み取り、品質が判定される。この画像処理は、画像を側部で20回収縮させることが計算要件を大幅に低減し、かつ低減された解像度画像の直接処理が、個々のプローブに対するエリア内の個々の鮮やかなピクセルの相関を必要としないため、より迅速に行われ得る。短時間ターンアラウンドの根本原因分析は、化学物質及び処理時間が無駄になる前に上流プロセスを補正するために使用され得る。
【0015】
環境
本発明者らは、遺伝子型決定システムにおける失敗の早期予測のためのシステムを説明する。遺伝子型決定は、生物学的アッセイを使用して個体のDNA配列を検査し、それを参照配列と比較することによって、個体の遺伝子構造(遺伝子型)の差を決定するプロセスである。遺伝子型決定は、研究者が、一塩基多型(single nucleotide polymorphism、SNP)及びDNAの構造的変化などの、遺伝的変異体を探索することを可能にする。システムは、実施態様によるシステムのアーキテクチャレベル概略図を示す、図1を参照して説明される。図1は、アーキテクチャ図であるため、特定の詳細は、説明の明確さを改善するために意図的に省略されている。図1の考察は、以下のように編成される。まず、図の要素が説明され、続いて、それらの相互接続が説明される。次いで、システム内の要素の使用がより詳細に説明される。
【0016】
図1は、システム100を含む。この段落は、システム100のラベル付き部分を名称付けする。図は、遺伝子型決定機器111、プロセスサイクル画像データベース115、失敗カテゴリラベルデータベース117、ラベル付きプロセスサイクル画像データベース138、訓練された良好対不良分類器151、固有画像の基準データベース168、訓練された根本原因分類器171、特徴生成器185、及びネットワーク155を例示する。
【0017】
開示される技術は、遺伝子型決定スキャナ及び遺伝子型決定プラットフォームとも称される、様々な遺伝子型決定機器111に適用される。ネットワーク155は、遺伝子型決定機器111、プロセスサイクル画像データベース115、失敗カテゴリラベルデータベース117、ラベル付きプロセスサイクル画像データベース138、訓練された良好対不良分類器151、固有画像の基準データベース168、訓練された根本原因分類器171、及び特徴生成器185を、互いに通信するように連結する。
【0018】
遺伝子型決定機器は、ISCAN(商標)システムなどのIlluminaのBeadChip撮像システムを含み得る。機器は、画像生成チップ上のマッピングされた場所の区分に配置された数百から数百万のビーズの蛍光強度を検出し得る。遺伝子型決定機器は、機器の様々な態様、例えば、レーザ制御、精密機械制御、励起信号の検出、画像レジストレーション、画像抽出、及びデータ出力を制御する、機器制御コンピュータを含み得る。遺伝子型決定機器は、多種多様な物理的環境で使用され、様々なスキルレベルの技術者によって動作され得る。サンプル調製は、2~3日間かかり得、サンプルの手動及び自動の取り扱いを含み得る。
【0019】
本発明者らは、図3の例示的な遺伝子型決定プロセス300のプロセスステップを例示する。この例示的な遺伝子型決定プロセスは、IlluminaのINFINIUM(商標)アッセイワークフローと称される。プロセスは、広範囲の遺伝子座多重化で多くのSNPを調査するように設計されている。単一のビーズタイプ及び二色(赤色及び緑色)チャネルアプローチを使用して、プロセスは、サンプル当たり数百から数百万のSNPの遺伝子型決定をスケールする。プロセスは、DNAサンプルの受託及び抽出から始まる。プロセスは、数百万個のSNP遺伝子座をアッセイし得る200ngなどの比較的低い入力サンプルで動作し得る。サンプルは、増幅される。増幅プロセスは、完了するまで数時間から一晩かかり得る。増幅されたサンプルは、制御された酵素的断片化を受ける。これは、続いて、アルコール沈殿及び再懸濁を受ける。画像生成チップは、毛細管流動チャンバ内におけるハイブリダイゼーションのために調製される。次いで、サンプルは、調製された画像生成チップに適用され、一晩培養される。この一晩のハイブリダイゼーション中、サンプルは、最大数百万個のビーズタイプに共有結合された遺伝子座特異的50merにアニールされる。1つのビーズタイプは、SNP遺伝子座当たりの各対立遺伝子に対応する。対立遺伝子特異性は、酵素的塩基伸長、続いて、蛍光染色によって付与される。遺伝子型決定機器又はスキャナ(ISCAN(商標)システムなど)は、ビーズの蛍光強度を検出し、遺伝子型判定を実施する。
【0020】
一例では、遺伝子型決定の結果は、「コールレート」と呼ばれる測定基準を使用して提示される。この測定基準は、画像生成チップ上で正しくスキャンされた遺伝子型のパーセンテージを表す。画像生成チップの区分毎に別個のコールレートが報告される。閾値が、結果を受け入れるか、又は拒否するために使用され得る。例えば、98%以上のコールレートが、区分に対する遺伝子型決定結果を受け入れるために使用され得る。98%未満又は98%超などの異なる閾値が使用され得る。区分のコールレートが閾値を下回る場合、遺伝子型決定プロセスは、失敗とみなされる。遺伝子型決定プロセスは、多くの日数に及び得、それゆえに、反復するのに高価である。遺伝子型決定プロセスにおける失敗は、操作エラー(機械的若しくは取り扱いエラーなど)又は化学処理エラーに起因して起こり得る。
【0021】
遺伝子型決定システムは、遺伝子型決定プロセスの完了時に、それらのコールレートと共に画像生成チップ区分のプロセスサイクル画像を提供し得る。開示された技術は、これらの区分画像を処理して、遺伝子型決定プロセスが成功であるか(区分の良好な画像)、又は成功ではないか(区分の不良又は失敗画像)どうかを分類し得る。開示される技術は、不良又は失敗画像を更に処理して、失敗のカテゴリを決定し得る。現在、システムは、6つの失敗カテゴリ:ハイブリダイゼーション又はhyb失敗、スペーサシフト失敗、オフセット失敗、表面摩耗失敗、試薬流れ失敗、及び混合効果、未知の原因、弱い信号などに起因する全体的に不健全な画像のうちの1つに失敗画像を分類し得る。そのとき、特に根本原因分析が改善された生産につながるため、より多くの異なる原因が識別され得る。
【0022】
ここで、本発明者らは、システム100の残りの構成要素の説明を提供するために、図1を参照する。6つの失敗タイプについての失敗カテゴリラベルは、失敗カテゴリラベルデータベース117に記憶され得る。ラベル付きプロセス画像サイクルの訓練データセットは、データベース138に記憶される。ラベル付き訓練例は、成功(良好)及び不成功(不良)プロセスサイクル画像からなり得る。不成功プロセスサイクル画像は、上記に列挙された6つの失敗カテゴリのうちの1つに属するものとしてラベル付けされる。一実施態様では、訓練データベース138は、少なくとも20,000個の訓練例からなる。訓練データベースのサイズは、より多くのラベル付き画像データが遺伝子型決定機器を使用して研究室から収集されるにつれて、増加し得る。
【0023】
開示される技術は、プロセスサイクル画像から特徴を抽出するための2つの独立画像処理技術を含む。特徴生成器185は、機械学習モデルへの入力のためのプロセスサイクル画像から特徴を抽出するために2つの技術のうちの1つを適用するために使用され得る。第1の画像処理技術は、固有顔分析による顔認識から進化している。40~100個以上の画像成分などの比較的少数の線形基準が、数万のラベル付き画像から識別される。固有基準を形成するための1つのアプローチは、主成分分析(PCA)である。生産サイクル画像は、分類器への入力のための基準画像の重み付き線形結合として表される。例えば、一実施態様では、ラベル付き画像の成分の96個の重みが、分類器を訓練するために使用される。固有画像の基準は、データベース168に記憶され得る。
【0024】
特徴を抽出するための第2の画像処理技術は、区分画像の閾値化を伴う。画像生成チップの区分の生産画像は、いくつかの物理的に分離されたエリアを取り込む。区分に接し、かつ区分の別個の物理的エリアを分離する構造が、生産画像で可視である。閾値化技術は、どの程度の量のアクティブエリアが所望の信号強度を生成するかを決定する。閾値化技術からの出力は、不良画像から良好画像を区別するための分類器への入力として与えられ得る。画像生成チップのエリア及び区分間の失敗のパターンは、根本原因分析について更に評価され得る。
【0025】
特徴生成器185によって生成された生産画像の画像特徴は、訓練された分類器151及び171への入力として与えられる。2つのタイプの分類器が訓練される。良好対不良分類器は、成功及び不成功生産画像を予測し得る。根本原因分析分類器は、不成功画像の失敗カテゴリを予測し得る。開示される技術によって使用される分類器の一例は、ランダムフォレスト分類器を含む。適用され得る分類器の他の例としては、K近傍法(KNN)、多項ロジスティック回帰、及びサポートベクターマシンが挙げられる。ラベル付き画像のより大きい本体が利用可能になると、畳み込みニューラルネットワーク(convolutional neural network、CNN)もまた、使用され得る。
【0026】
図1の説明を完了すると、上記に説明されたシステム100の構成要素は、全て、ネットワーク155と通信するように連結されている。実際の通信経路は、パブリック及び/又はプライベートネットワークを介してポイントツーポイントであり得る。通信は、様々なネットワーク、例えば、プライベートネットワーク、VPN、MPLS回路、又はインターネットにわたって起こり得、適切なアプリケーションプログラミングインターフェース(application programming interface、API)及びデータ交換フォーマット、例えば、Representational State Transfer(REST)、JavaScript Object Notation(JSON)、Extensible Markup Language(XML)、Simple Object Access Protocol(SOAP)、Java Message Service(JMS)、及び/又はJava Platform Module Systemを使用し得る。通信の全ては、暗号化され得る。通信は、一般に、LAN(local area network、ローカルエリアネットワーク)、WAN(wide area network、ワイドエリアネットワーク)、電話ネットワーク(Public Switched Telephone Network(PSTN)、Session Initiation Protocol(SIP)、無線ネットワーク、ポイントツーポイントネットワーク、スターネットワーク、トークンリングネットワーク、ハブネットワーク、EDGE、3G、4G LTE、Wi-Fi、及びWiMAXなどのプロトコルを介したモバイルインターネットを含むインターネットなどの、ネットワークを介する。図1のエンジン又はシステム構成要素は、様々なタイプのコンピューティングデバイス上で動作するソフトウェアによって実装される。例示的なデバイスは、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、及びサーバファームである。加えて、ユーザ名/パスワード、Open Authorization(OAuth)、Kerberos、Secured、デジタル証明書などの、様々な承認及び認証技術が、通信を安全にするために使用され得る。
【0027】
特徴生成器-システム構成要素
図2は、特徴生成器185の構成要素の高位ブロック図200である。これらの構成要素は、図11の説明において以下に提示されるように、様々な異なるコンピュータシステムを使用して実装されたコンピュータである。例示された構成要素は、実装されるとき、併合又は更に分離され得る。特徴生成器185は、2つの画像処理技術:主成分分析、又はPCAベースの特徴生成器235及び画像セグメント化ベースの特徴生成器255を実装する2つの高位構成要素からなる。PCAベースの特徴生成器は、画像スケーラ237、及び固有画像の基準作成器239からなる。画像セグメント化ベースの特徴生成器255は、画像変換器257、及び強度抽出器259からなる。以下のセクションでは、本発明者らは、これらの構成要素の実装の更なる詳細を提示する。
【0028】
PCAベースの特徴生成器
第1の画像処理技術は、固有顔分析による顔認識から進化している。固有基準を形成するための1つのアプローチは、主成分分析(PCA)である。PCAベースの特徴生成器235は、PCAをサイズ変更されたプロセス画像に適用する。画像スケーラ構成要素237は、プロセスサイクル画像をサイズ変更(又は再スケーリング)する。スケーリングは、プロセス画像が、固有画像の基準作成器構成要素239によって、計算効率的な様式で処理され得るように、プロセス画像のサイズを低減する。本発明者らは、以下のセクションでは、これらの構成要素の詳細を提示する。
【0029】
画像スケーラ
遺伝子型決定機器又はスキャナから得られたより高い解像度の画像は、処理するために、より多くの計算リソースを必要とし得る。遺伝子型決定スキャナから取得された画像は、画像生成チップの区分の画像が180×80ピクセルの低減された解像度で分析されるように、画像スケーラ237によってサイズ変更される。一事例では、スキャナから取得された区分の画像は、3600×1600ピクセルの解像度であり、解像度の20倍の低減が、画像をサイズ変更するために適用される。これは、成功生産画像を不成功生産画像から区別し、次いで、6つの失敗カテゴリの間の失敗の根本原因を分類するのに十分な解像度である。元の解像度の4~25倍に再スケーリングされた画像は、同じ方式で処理され得る。
【0030】
開示される技術は、生産画像のサイズを低減するために、様々な補間技術を適用し得る。一実施態様では、バイリニア補間が、区分画像のサイズを低減するために使用される。線形補間は、既知のデータポイントの個別の集合の範囲で新しいデータポイントを構築するために線形多項式を使用して曲線フィッティングする方法である。バイリニア補間は、二次元グリッド上の2つの変数(例えば、x及びy)の関数を補間するための線形補間の拡張である。バイリニア補間は、線形補間を使用して、最初に一方向に、次いで、再び第2の方向に実施される。各ステップは、サンプリングされた値及び位置に線形であるが、全体としての補間は、線形ではなく、むしろサンプル場所で二次である。他の補間技術もまた、近傍補間及びピクセル面積関係を使用する再サンプリングなどの、区分画像のサイズを低減する(再スケーリング)ために使用され得る。
【0031】
固有画像の基準作成器
分類器に対する入力特徴を生成するために区分画像に適用される第1の画像処理技術は、固有顔分析による顔認識から進化している。数万のラベル付き画像から、40~100個以上の画像成分の線形基準が識別される。固有画像の基準を形成するための1つのアプローチは、主成分分析(PCA)である。ベクトル空間Vにおける要素(ベクトル)の集合Bは、Vの全ての要素がBの要素の線形結合として独自の方式で書き込まれ得る場合、基準と呼ばれる。同等に、Bは、その要素が線形独立である場合に基準であり、Vの全ての要素は、Bの要素の線形結合である。ベクトル空間は、数個の基準を有し得る。しかしながら、全ての基準は、ベクトル空間の寸法と呼ばれる同じ数の要素を有する。本発明者らの技術では、ベクトル空間の基準は、固有画像である。
【0032】
PCAは、多くの場合、d次元データセットの次元を、それをk次元部分空間に投影することによって、削減するために使用され、k<dである。例えば、本発明者らの訓練データベース内のサイズ変更されたラベル付き画像は、次元d=14,400次元空間(180×80ピクセル)のベクトルを説明する。言い換えれば、画像は、14,400次元空間内の点である。固有空間ベースのアプローチは、画像ベクトルを、より低い次元の特徴ベクトルと近似する。この技術の背後の主な仮定は、画像空間(特徴ベクトルによって与えられる)が画像空間(画像内のピクセル数によって与えられる)よりも低い次元を有し、画像の認識がこの低減された空間で実施され得ることである。全体的な構成で同様である、画像生成チップの区分の画像は、この大きい空間でランダムに分布しないことになり、したがって、比較的低次元部分空間によって説明され得る。PCA技術は、画像空間全体内の区分画像の分布を最良に説明するベクトルを見つける。これらのベクトルは、「画像空間」とも称される画像の部分空間を画定する。本発明者らの実施態様では、各ベクトルは、180×80ピクセル画像を説明し、訓練データにおける画像の線形結合である。以下のテキストでは、本発明者らは、主成分分析(PCA)が、固有画像の基準を作成するためにどのように使用され得るかの詳細を提示する。
【0033】
ラベル付き訓練画像のPCAベースの分析は、以下の5つのステップからなり得る。
【0034】
ステップ1:多次元相関データにアクセスすること
PCAの適用における第1のステップは、高次元データにアクセスすることである。一事例では、本発明者らは、訓練データとして20,000個のラベル付き画像を使用した。各画像は、180×80ピクセル解像度にサイズ変更され、1ピクセル当たり1つの次元である14,400次元空間のポイントとして表される。この技術は、上記で指定されたよりも高い解像度又は低い解像度の画像を取り扱うことができる。訓練データセットのサイズは、本発明者らが、研究室から、より多くのラベル付き画像を収集するにつれて、増加すると予想される。
【0035】
ステップ2:データの標準化
標準化(又はZスコア正規化)は、特徴が、ゼロに等しい平均又はμ=0、及び1に等しい平均からの標準偏差又はσ=1を有するガウス分布の特性を有するように、特徴を再スケーリングするプロセスである。標準化は、互いに同様の範囲を有する特徴を構築するために実施される。画像の標準スコアは、画像から平均(画像)を減算し、結果を標準偏差によって除算することによって計算され得る。PCAが、軸に沿った分散を最大化する特徴部分空間を得ると、それは、データが軸を中心とするようにデータを標準化するのを助ける。
【0036】
ステップ3:共分散行列を計算すること
共分散行列は、d次元空間のd×d行列であり、各要素が、2つの特徴間の共分散を表す。2つの特徴の共分散は、それらの一緒に変動する傾向を測定する。変動は、その平均からの特徴の二乗偏差の平均である。共分散は、それらの平均からの特徴量の偏差の積の平均である。特徴k及び特徴jを検討する。{x(1,j),x(2,j),...,x(i,j)}を特徴jのi個の例の集合とし、{x(1,k),x(2,k),...,x(i,k)}を特徴kのi個の例の集合とする。同様に、
【数1】
を特徴jの平均とし、
【数2】
を特徴kの平均とする。特徴j及び特徴kの共分散は、次のように計算される:
【数3】
本発明者らは、次の行列方程式を介して共分散行列の計算を表現し得る:
【数4】
平均ベクトルは、次のように表され得る:
【数5】
【0037】
平均ベクトルは、d次元ベクトルであり、このベクトル内の各値は、訓練データセット内の特徴列のサンプル平均を表す。共分散値σjkは、-(σij)(σik)、すなわち、+(σij)(σik)線形相関に対する逆線形相関の間で変動し得る。2つの特徴間に依存関係が存在しないとき、σjkの値は、ゼロである。
【0038】
ステップ4:固有ベクトル及び固有値を計算すること
共分散行列の固有ベクトル及び固有値は、PCAのコアを表す。固有ベクトル(又は主成分)は、新しい特徴空間の方向を決定し、固有値は、それらの大きさを決定する。言い換えれば、固有値は、新しい特徴空間の軸に沿ったデータの分散を説明する。固有値分解は、その固有ベクトル及び固有値を使用して行列を表すことによる行列分解の方法である。固有ベクトルは、線形変換がベクトルに適用されるときにスカラのみによって変化するベクトルとして定義される。Aが線形変換を表す行列である場合、vは、固有ベクトルであり、λは、対応する固有値であり、それは、Av=λvとして表現され得る。正方行列は、それが次元を有するため、多くの固有ベクトルとして有し得る。本発明者らが行列Vの列として全ての固有ベクトル及び対角行列Lのエントリとして対応する固有値を表す場合、上記の方程式は、AV=VLとして表され得る。共分散行列の場合、全ての固有ベクトルが互いに直交し、新しい特徴空間の主成分である。
【0039】
ステップ5:固有画像のための基準を選択するために説明された分散を使用すること
上記のステップは、特徴空間の次元に等しい、本発明者らの実施態様のための14,400個の主成分を結果的にもたらし得る。固有対は、固有ベクトル及びスカラ固有値からなる。本発明者らは、固有値に基づいて固有対を選別し、「説明された分散」と称される測定基準を使用して、固有画像の基準を作成し得る。説明された分散は、どの程度の量の情報(又は分散)が、主成分の各々に起因し得るかを示す。本発明者らは、二次元グラフで説明された測定値の結果をプロットし得る。選別された主成分は、x軸に沿って表される。累積的に説明された分散を示すグラフがプロットされ得る。分散の主要部分を表す第1のm成分が選択され得る。
【0040】
本発明者らの実施態様では、第1の40個の成分が、説明された分散の高いパーセンテージを表し、それゆえに、本発明者らは、第1の40個の主成分を選択して、本発明者らの新しい特徴空間の基準を形成した。他の実施態様では、25~100個の主成分又は100個超の主成分、最大256又は512個の主成分が選択されて、固有画像の基準を作成し得る。固有画像分析によって分析される各生産画像は、基準画像の重み付き線形結合として表される。順序付きの基準成分の集合の各重み、分類器を訓練するための特徴として使用される。例えば、一実施態様では、ラベル付き画像の成分に対する96個の重みを、分類器を訓練するために使用した。
【0041】
開示される技術は、他の画像分解及び次元削減技術を使用してもよい。例えば、画像の完全な表現を学習するPCAと比較して、画像の部分ベースの表現を学習する非負値行列因子分解(non-negative matrix factorization、NMF)。PCAとは異なり、NMFは、画像の一部に似ている基準画像の集合を有する画像を表すように学習する。NMFは、全ての3つの行列が負の要素を有しない特性を有する、行列Xを2つの行列W及びHに因数分解する。本発明者らは行列Xが設定されていると仮定しているため、各々がp次元(例えば、14,400)を有するn個のデータポイント(画像生成チップ上の区分の画像など)が存在する。したがって、行列Xは、p行及びn列を有する。本発明者らは、p次元をr次元に削減することを望み、言い換えれば、ランクr近似を作成することを望む。NMFは、2つの行列:W(p行及びr列)とH(r行及びn列)との積として行列Xを近似する。
【0042】
行列Wの解釈は、各列が基準要素であることである。基準要素によって、本発明者らは、n個の元のデータポイント(又は画像)に存在するいくつかの成分を平均する。これらは、本発明者らが元のデータポイント又は画像の全てに対する近似を再構築し得る構成要素である。行列Hの解釈は、各列が基準行列Wのデータポイントの座標を与えることである。言い換えれば、それは、行列Wの構成要素の線形結合から元のデータポイントへの近似をどのように再構築するかを本発明者らに示す。顔画像の場合、行列Wの基準要素(又は基準画像)は、目、鼻、唇などの特徴を含み得る。行列Hの列は、どの特徴がどの画像に存在するかを示す。
【0043】
画像セグメント化ベースの特徴生成器
プロセスサイクル画像から特徴を抽出するための第2の画像処理技術は、画像エリアの閾値化に基づく。画像セグメント化ベースの特徴生成器255は、画像セグメンタ257を使用して画像生成チップの区分の画像を最初にセグメント化し、次いで、区分画像のアクティブエリア又は関心領域の強度を抽出することによって閾値化を適用する。閾値化は、どの程度の量のアクティブエリアが所望の信号強度を生成するかを決定する。
【0044】
画像生成チップは、24、48、96個以上などの複数の区分からなり、行及び列に編成され得る。この設計は、多くのサンプル(区分当たり1つ)が並列に処理され得るため、1つのプロセスサイクルにおける複数のサンプルの処理を可能にする。区分は、サンプルが互いに混合されないように、他の区分から物理的に分離されている。加えて、区分は、「スロット」と称される複数の並列領域に編成され得る。それゆえに、区分及びスロットの境界線の構造は、遺伝子型決定スキャナからのプロセスサイクル画像において可視である。本発明者らは、以下に、画像特徴の抽出のために区分画像を変換する技術を実装し得る画像セグメント化ベースの特徴生成器255の2つの構成要素の詳細を提示する。
【0045】
画像変換器
画像変換器257は、一連の画像変換技術を適用して、関心領域から強度を抽出するための区分画像を準備する。一実施態様では、画像変換及び強度抽出のこのプロセスは、以下の5つのステップの一部又は全部によって実施される。画像変換は、区分のグレースケール画像を黒及び明るいピクセルからなるバイナリ画像に変換する。グレースケール画像及びバイナリ画像のアクティブ領域の平均強度値は、画像を健全(良好)又は不健全(不良)画像として分類するための分類器に入力特徴として与えられる。以下のテキストでは、本発明者らは、グレースケール画像をバイナリ画像に変換するために閾値化を適用することを含む画像変換ステップの詳細を提示する。プロセスステップは、ノイズを除去するためにフィルタを適用することを含む。
【0046】
画像変換プロセスの第1のステップは、区分のサイクル画像を処理するためにバイラテラルフィルタを適用することである。バイラテラルフィルタは、縁を保存しながら画像を平滑化する技術である。それは、各ピクセルの強度を、その隣接ピクセルからの強度値の加重平均で置き換える。各隣接部は、遠いピクセルをペナルティ化する空間成分、異なる強度でピクセルをペナルティ化する範囲成分によって重み付けされる。両方の成分の組み合わせは、近くの同様のピクセルのみが最終結果に寄与することを確保する。したがって、バイラテラルフィルタは、その不連続部又は縁を保存しながら画像を平滑化する効率的な方式である。メディアンフィルタ及び異方性拡散などの、他のフィルタが使用されてもよい。
【0047】
画像変換の第2のステップは、ステップ1からの画像を出力するために閾値化を適用することであり得る。一実施態様では、本発明者らは、強度のヒストグラムを使用し、閾値を検索して、暗及び明の強度クラスに割り当てられたピクセル間のグレースケール分散の加重和を最大化する、Otsuの方法(Otsu,N.,1979,「A threshold selection method from gray-level histograms」,IEEE Transactions on Systems,Man,and Cybernetics,Volume 9,Issue 1)を適用する。Otsuの方法は、クラス間の分散を最大化することを試みる。基本的なアイデアは、良好に閾値化されたクラスが、それらのピクセルの強度値に関して異なるべきであり、逆に、それらの強度値に関してクラス間の最良の分離を与える閾値が最良の閾値であることである。加えて、Otsuの方法は、容易に取得可能な一次元配列である、画像のヒストグラムで実施される計算に完全に基づく特性を有する。更なる詳細について、Section 10.3.3 of Gonzalez and Woods,「Digital Image Processing」,3rd Editionを参照されたい。
【0048】
画像変換の第3のステップは、スペックル様ノイズを除去するためにノイズ低減ガウスぼかしフィルタの適用である。ノイズは、小さいスペックルを有するプロセスサイクル画像を汚染し得る。ガウスフィルタリングは、中心位置までの空間距離と共に減少する重みを有する隣接位置の強度の加重平均である。
【0049】
画像変換の第4のステップは、画像モルフォロジ演算を含む。第3のステップからのバイナリ出力画像は、モルフォロジ変換によって処理されて、画像内の孔を充填する。孔は、前景ピクセル(1sで表される)の接続された境界線によって取り囲まれた背景領域(0sで表される)として定義され得る。2つの基本的な画像モルフォロジ演算は、「収縮」及び「膨張」である。収縮演算では、カーネルは、バイナリ画像上を摺動する(又は移動する)。カーネルの下の全てのピクセルが1sである場合、バイナリ画像内のピクセル(1又は0)は、1とみなされる。そうでなければ、それは、収縮される(0に変更される)。収縮演算は、バイナリ画像において単離された1sを除去するのに有用である。しかしながら、収縮はまた、縁を収縮することによって、1sのクラスタを収縮させる。膨張演算は、収縮の反対である。この演算では、カーネルがバイナリ画像上を摺動するとき、カーネルの下の少なくとも1つのピクセルの値が1である場合、カーネルによって重複するバイナリ画像エリア内の全てのピクセルの値は、1に変更される。膨張演算がバイナリ画像に適用され、続いて、収縮演算が適用される場合、その効果は、1sのクラスタ内の小さい孔(画像内の0sで表される)を閉じることである。このステップからの出力は、この画像変換技術の第5のステップを実施する強度抽出器構成要素259への入力として提供される。
【0050】
強度抽出器
強度抽出器259は、区分及びスロットの境界で構造をフィルタ除去することによって、区分画像をアクティブ領域又はセグメントに分割する。強度抽出器は、異なるセグメント化を適用して、区分画像を8~17までのアクティブエリアから分割し得る。区分画像内のエリアの例としては、4つのスロット、4つの角、角の間の4つの縁、並びに区分及びスロットの境界線における様々な垂直及び水平線が挙げられる。次いで、アクティブエリアを分離する既知の構造に対応するエリアが画像から除去される。残りのアクティブエリアの画像部分は、強度抽出器259によって処理される。強度値は、変換された画像の各アクティブエリア及び対応する変換されていない画像について、抽出及び平均化される。例えば、強度値が変換された画像の17個のアクティブエリアから抽出される場合、強度抽出器はまた、変換されていない画像の同じ17個のアクティブエリアから強度値を抽出する。したがって、区分画像毎に合計34個の特徴が抽出される。
【0051】
バイナリ画像の場合、アクティブエリアの平均強度は、1~0であり得る。例えば、黒ピクセルの強度が0であり、明るい(又はブランク)ピクセルの強度が1であるとみなす。アクティブエリア内の全てのピクセルが黒である場合、アクティブエリアの平均強度は、0になる。同様に、アクティブエリア内の全てのピクセルが明るい場合、その面積の強度は、1になる。健全画像のアクティブエリアは、バイナリ画像でブランクとして又は明るく見えるが、黒ピクセルは、不健全画像を表す。グレースケール画像における対応するアクティブエリアの平均強度もまた、抽出される。グレースケール画像及び変換されたバイナリ画像の両方からのアクティブエリアの平均強度は、良好対不良分類器への入力として与えられる。一実施態様では、分類器からの分類信頼スコアは、閾値と比較されて、画像を健全(良好)画像又は不健全(不良)画像として分類する。閾値の例は、80%である。閾値の値が高いほど、結果的に、不健全として分類された画像をより多くもたらし得る。
【0052】
プロセスサイクル画像
ここで、本発明者らは、画像生成チップ上の区分の成功及び不成功生産画像の例を提示する。図4は、画像生成チップ上の24個の区分の生産画像の例示400である。区分は、12行及び2列に配置される。各区分は、4つのスロットを有する。例示400は、成功生産サイクルの区分画像を示す。48、96、又はそれ以上の区分を含むなど、区分の他の構成を有する画像生成チップもまた、使用され得る。以下の図では、本発明者らは、不成功生産サイクルの区分画像の例を提示する。生産プロセスは、操作及び化学処理エラーの両方に対して脆弱である。操作欠陥は、機械的な、又はサンプルの取り扱いの問題に起因して引き起こされ得る。化学処理エラーは、サンプル、又はサンプルの化学処理における問題によって引き起こされ得る。開示される技術は、操作及び化学処理エラーの両方に起因して起こる不良プロセス画像サイクルを分類することを試みる。
【0053】
図5Aは、不成功生産サイクルからの区分画像の例510を示す。図5Aの画像生成チップの第2の列かつ第7の行の区分512の画像は、底半分部分で暗色であり、上部分でわずかに明色である。この失敗の原因は、ハイブリダイゼーションプロセスに関連している。それゆえに、区分の失敗画像は、「Hyb」失敗としてラベル付けされる。ハイブリダイゼーション失敗はまた、画像生成チップ上のサンプル調製プロセス中にサンプルを取り扱うロボットの失敗に起因して起こり得る。この区分に対するコールレートは、図に示されるように、98パーセントの閾値を下回る。いくつかの場合、遺伝子型決定機器からの区分に対するコールレートは、通過閾値を上回ることができ、次いで、更には、区分画像は、ハイブリダイゼーションエラーに起因して失敗し得る。
【0054】
例示510では、行11かつ列2の区分514の画像は、右壁上に暗色領域を有することが留意され得る。これはまた、処理の問題を示し得るが、この画像の全体的なコールレートは、通過閾値を上回り、失敗画像としてラベル付けされない。見かけの失敗を有する区分のどの小さいエリアが無視され得、かつ結果にエラーを引き起こさない可能性があるかに起因して、区分上のサンプルの十分な冗長性が存在する。例えば、一事例では、スキャナは、10の冗長性を有する区分上で約700K個のプローブから蛍光を読み取る。それゆえに、コールレートは、約700万プローブの読み出しに基づく。本発明者らは、図5Bの例示515のハイブリダイゼーション失敗の更なる例を提示する。破線境界の画像生成チップ上の4つの区分は、ハイブリダイゼーション失敗に起因する区分の不良生産画像を示す。これらの4つの区分に対するコールレート値は、通過閾値を上回るが、これらの区分の画像は、ハイブリダイゼーションエラーに起因して失敗としてラベル付けされることに留意されたい。
【0055】
図5Cは、スペーサシフト失敗に起因する不成功処理を示す9つの区分画像の例示520を提示する。サンプルが画像生成チップ上の区分上で調製されたとき、暗色マーカが区分の周囲に配置される。スペーサは、隣接区分内の他のサンプルから各区分でサンプルを分離する。マーカが正しく配置されていない場合、画像信号の一部を遮断し得る。オフセットエラーは、図5Cに示されるように、複数の隣接区分にわたって発生し得る。この図の9つの区分の上部分は、暗色に見える。区分の上部の暗い部分は、左から右に移動するにつれて増加する。スペースシフトの問題は、画像生成チップ上のサンプルの調製中に、研究室技術者によるマーカの不正確な配置によって引き起こされるため、操作エラーである。図5Dは、スペーサシフトエラーに起因する区分の失敗画像の3つ以上の例を提示する。ボックス525は、区分画像の上部分が右上から左上に幅が増加する暗色である際のスペーサシフト失敗を有する5つの区分画像を示す。ボックス527は、区分の底部分におけるスペーサシフトの問題に起因する失敗プロセスを示す2つの区分画像を示す。同様に、ボックス529は、スペースシフトの問題に起因して失敗した2つの区分の画像を示す。
【0056】
図5Eは、オフセット失敗によって引き起こされた不成功処理に起因する、区分の失敗画像の例を示す。オフセット不良では、画像生成チップ上の区分の画像は、片側にシフトされる。例えば、例示530では、画像生成チップ上の全ての区分画像が左側に向かってシフトされ、したがって、左縁上の画像生成チップの暗色の外側境界線は、画像からカットオフされる。オフセット失敗は、チップキャリア上の画像生成チップのスキャナの位置ずれ又は誤配置などの、スキャンエラーによって引き起こされ得る。
【0057】
図5Fは、表面摩耗失敗に起因する失敗区分画像の例を示す。表面摩耗は、製造プロセス中、又は区分上のサンプルの調製中に、画像生成チップの区分の表面上のスクラッチによって引き起こされる。スクラッチは、例示535に示されるように、区分の画像上の線として可視である。コールレート値が左側の破線ボックス内の3つの区分の通過閾値を上回るにもかかわらず、表面摩耗失敗に起因して失敗としてラベル付けされることに留意されたい。
【0058】
図5Gは、試薬流れ失敗に起因する失敗区分画像の例示540である。ボックス542内の10個の区分画像は、試薬の流れ失敗に起因して、失敗画像としてラベル付けされる。区分画像は、不適切な試薬流れによって引き起こされる不成功プロセスに起因して失敗した。遺伝子型決定プロセス中、試薬は、片側から画像生成チップに導入される。試薬は、画像生成チップの一端から反対の端に向かって流れ、全ての区分を完全に覆う。時には、試薬の流れに問題が存在し、全ての区分に均一に伝搬しないことがある。この場合、十分な量の試薬が区分を覆わないとき、試薬は、乾燥し得る。不適切な試薬流れは、蛍光色素が全ての区分にわたって均一に分布しない可能性があり、したがって、画像品質に影響を与えるため、いくつかの区分からの放出信号の強度を低減し得る。試薬の流れ失敗に起因する失敗画像は、成功プロセスサイクルを表す区分画像と比較して色がより暗いように見える可能性がある。図5Hは、例示545における試薬流れ失敗に起因する失敗区分画像の更なる例を示す。試薬流れ失敗は、図5G及び図5Hに示されるように、画像生成チップの領域内の複数の隣接区分に影響を与え得る。
【0059】
図5Iは、未知の理由に起因する失敗画像の例を提示する。失敗区分画像は、「不健全」としてラベル付けされる。失敗の不健全クラスにおける失敗画像は、混合、又は未識別の原因及び弱い信号に起因し得る。区分の画像の例示550はまた、画像生成チップの左上の区分に対するスペーサ失敗の例を示す。左上の位置上の画像区分(行1及び列2)は、スペーサ失敗としてラベル付けされる。失敗区分画像の上部分は、暗色であることが分かる。上部の暗色領域の部分は、区分画像の右角から左角に増加する。
【0060】
主成分分析ベースの特徴生成
ここで、本発明者らは、顔認識の分野において、固有顔と称される、固有画像の例を提示する。数万のラベル付き画像から、40~100個の画像成分の線形基準が識別される。図6A及び図6Bは、主成分分析(PCA)を適用することによって取得される96個の固有画像(610及び611)の例を提示する。96個の固有画像は、上記に提示されたように、説明されたばらつきの尺度に従う、成分の順位付けに基づいて選択される。図6C及び図6Dは、図6A及び図6Bの96個の固有画像から上位40個の順位付けされた固有画像(620及び621)を示す。一実施態様では、40個の成分が、ばらつきの大部分を説明したことが観察された。選択された追加の成分は、サンプル処理におけるノイズ又は自然なばらつきのパターンを反映するように見えた。
【0061】
ここで、本発明者らは、PCAを使用する、次元削減及び固有画像の基準の作成を説明する。第1のステップは、区分の画像の解像度を低減し、PCAへの入力のための低減された画像を準備することである。図7A(710とラベル付け)は、180×80ピクセルの低減された区分画像を結果としてもたらす、20倍に再スケーリングされる3600×1600ピクセルの区分画像を示す。再スケーリングされた区分画像は、平坦化される。結果的に得られた平坦化された再スケーリングされた区分画像は、各々、一次元配列、すなわち、14,400×1ピクセルである。平坦化された再スケーリングされた区分画像は、上記に説明されたように標準化され、したがって、PCAへの入力として与えられる、FIG7B(740とラベル付け)に示される標準化された平坦化された再スケーリングされた区分画像を結果的にもたらす。したがって、PCAは、14,400個の主成分又は固有画像を生成する。各入力画像は、14,400次元空間内のベクトルである。本発明者らは、次いで、説明された分散を使用して、主成分又は固有画像を順位付けし、基準、例えば、40~100個の成分の基準を作成する。成分は、線形空間の基準を形成する。
【0062】
画像セグメント化ベースの特徴生成
区分の画像から特徴を生成するための第2の画像処理技術は、画像エリア又はセグメントの閾値化を伴う。図8Aは、区分画像に適用されたセグメント化ベースの特徴の例810を示す。例示812は、画像生成チップの区分の生産画像である。本発明者らは、画像変換を適用して、このグレースケール生成画像812を変換して、対となるバイナリ画像814を生成する。一実施態様では、画像変換器257を参照して上記に提示された5つのステップのうちの一部又は全部が、グレースケール画像をバイナリ画像に変換するために実施され得る。バイナリ画像814の黒ピクセルは、不健全又は不良画像ピクセルを示すが、明るいピクセルは、健全又は良好画像ピクセルを示す。
【0063】
右側の例示816は、区分の様々なエリア、及びこれらのエリアの周囲の境界線又は線を示す、区分の例示的な概略図である。蛍光信号の強度が記録されるエリアは、アクティブエリア又は関心領域とも称される。例えば、区分の概略図816は、上部から底部まで互いに平行に延びる4つのスロットのアクティブエリアを示す。アクティブエリアではない区分画像のエリアは、画像をフィルタ除去される。例えば、スロットの境界又は境界線を示す垂直線によって互いに分離されるスロットの境界エリア。同様に、区分画像の4つの側部上の境界線は、フィルタ除去され得る。セグメント化技術は、区分画像を4~20個以上のセグメント又はアクティブエリアに分割し得る。閾値化は、どの程度の量のアクティブエリアが所望の信号強度を生産するかを決定する。
【0064】
アクティブエリアの数は、画像毎に生成された特徴の数を決定する。例えば、区分画像が8つのアクティブエリアにセグメント化されている場合、変換された画像の8つのアクティブエリアからの画像強度と、変換前の元の区分画像の同じ8つのアクティブエリアからの画像強度値とが、分類器への入力として与えられる。したがって、この例では、区分画像毎に合計16個の特徴が分類器に与えられることになる。アクティブエリアからの信号強度の平均強度は、分類器への入力として使用され得る。例えば、区分画像が8つのアクティブエリアにセグメント化されている場合、これらの8つのアクティブエリアの平均強度は、グレースケール画像及びバイナリ画像の両方について計算される。これらの16個の強度値は、区分画像を良好対不良として分類するために、分類器への入力として与えられる。画像毎に4、12、17以上のセグメントなどの、より少ない又はより多くのセグメントに分割する他のセグメント化スキームが使用されてもよい。ランダムフォレスト分類器への入力として与えられる場合、特徴の部分集合は、各決定木に対してランダムに選択される。決定木は、健全又は不健全として画像を投票する。ランダムフォレストにおける大部分の投票は、画像を分類するために使用される。一実施態様では、ランダムフォレスト分類器内のツリーの数の値は、200~500の範囲内であり、モデルの深さの値は、5~40の範囲内である。画像生成チップのエリア及び区分間の失敗のパターンは、根本原因分類について更に評価され得る。
【0065】
図8Bは、区分画像822、824、及び826の3つの対の例示820を提示する。各対の左側の画像は、事前変換されたグレースケール区分画像であり、各対の右側の画像は、図2を参照して説明されたように、画像変換を適用した後の処理されたバイナリ画像である。第1の画像対822は、成功遺伝子型決定プロセスの生産画像である。第2の画像対824は、ハイブリダイゼーション(又はhyb)失敗に起因する失敗生産画像の生成画像である。第3の画像対826は、表面摩耗問題に起因する失敗画像である。
【0066】
一対他(OvR)分類
図9は、一対他分類器を実行することの図解例示900を提示する。グラフは、左側のグラフ931に示されるように、3つのクラス(四角、円、及び三角形)に属するサンプルからなるデータセットの一対他(OvR)分類器を実行する例を示す。右上のグラフ915に示されるように、第1の超平面916は、グラウンドトゥルースとして正方形クラスの超平面決定を示す。超平面916は、正方形クラスのデータポイントをデータポイントの残り(円及び三角形)から仕切る。同様に、グラフ936及び955は、それぞれ、円及び三角形クラスのデータポイントを、それぞれ、超平面937及び956を介してデータの他のクラスに仕切る。超平面の位置は、重みベクトルによって決定される。訓練アルゴリズムは、一般化のためにグラウンドトゥルースクラスからの超平面のマージンを最大化することを試みるが、それは、1つ以上のデータポイントの誤った分類を結果的にもたらし得る。本発明者らは、OvR分類を適用して、良好クラスに属するプロセスサイクルからの区分画像を、複数の不良クラスに属する画像から区別する。
【0067】
ランダムフォレスト分類器
開示される技術は、様々な分類器を適用して、良好又は健全画像からの画像を、複数の失敗クラスに属する不良又は不健全画像から区別し得る。適用される分類器としては、ランダムフォレスト、K近傍法、多項ロジスティック回帰、及びサポートベクターマシンが挙げられる。本発明者らは、例としてランダムフォレスト分類器を使用して、開示される技術の実施態様を提示する。
【0068】
ランダムフォレスト分類器(ランダム決定フォレストとも称される)は、アンサンブル機械学習技術である。アンサンブル技術又はアルゴリズムは、オブジェクトを分類するために、同じ又は異なる種類の1つよりも多い技術を組み合わせる。ランダムフォレスト分類器は、アンサンブルとして演算する複数の決定木からなる。ランダムフォレストの各個々の決定木は、ベース分類器として作用し、クラス予測を出力する。最も多くの投票を有するクラスが、ランダムフォレストモデルの予測になる。ランダムフォレストの背後の基本的な概念は、コミッティとして演算する多数の比較的相関しないモデル(決定木)が個々の構成モデルのいずれかを優先することになることである。
【0069】
開示される技術は、2段階分類プロセスでランダムフォレスト分類器を適用する。第1の訓練されたランダムフォレスト分類器は、成功生産画像から不成功生産画像を分離するタスクを実施する。第2の訓練されたランダムフォレスト分類器は、不成功画像の失敗クラスを予測することによって、不成功生産画像の根本原因分析のタスクを実施する。この2段階分類は、成功生産実行の優勢に起因して選択されたが、1段階分類もまた、使用され得る。2段階アプローチを選択する別の理由は、健全又は成功生産画像対不健全又は失敗生産画像として画像を分類するために本発明者らが感度閾値を制御することを可能にすることである。本発明者らは、第1の段階の分類で閾値を増加させ得、したがって、分類器に、より多くの生産画像を失敗画像として分類させる。次いで、これらの失敗画像は、失敗クラスを識別することによって、根本原因分析のための第2の段階の分類器によって処理される。
【0070】
ランダムフォレスト分類器の訓練
図10Aは、例示1000に示されるように2つのランダムフォレスト分類器の訓練を説明する。訓練データは、図1に示されるように、訓練データベース138に記憶されたラベル付きプロセスサイクル画像に対する入力特徴からなる。分類器の1つの例示的な訓練では、本発明者らは、20,000個のラベル付き生産画像を使用した。ラベル付き画像は、成功生産サイクルからの良好画像、及び失敗生産サイクルからの失敗画像の両方を含む。訓練データベース138のサイズは、ラベル付き生産画像が、遺伝子型決定プロセスを実施する研究室から受信されるにつれて成長することになる。
【0071】
一実施態様では、本発明者らは、ランダムフォレスト分類器を訓練するために、ラベル付き生産画像の成分の96個の重みを使用した。200個の決定木及び20の深さを有するランダムフォレスト分類器が良好に機能した。200~500個の決定木の範囲及び10~40の深さの範囲を有するランダムフォレスト分類器が、この実施態様のための良好な結果を提供することが予想されることが理解される。本発明者らは、ランダム化された探索交差検証を使用して、ハイパーパラメータを調整した。深さの探索範囲は、5~150であり、ツリーの数の探索範囲は、100~500個であった。ツリーの数を増加させることは、モデルの性能を高め得るが、訓練に必要な時間も増加させ得る。20,000個の生産サイクル画像に対する特徴を含む訓練データベース1001は、良好対不良分類器151としてラベル付けされたバイナリ分類器を訓練するために使用される。同じ訓練データベースが、失敗クラスを予測するために、根本原因分類器171を訓練するために使用され得る。根本原因分類器171は、図10Aに示されるように、不良又は失敗生産画像のみからなる訓練データベース1021に対して訓練される。
【0072】
決定木は、過剰適合し易い。この問題を克服するために、バギング技術が、ランダムフォレストで決定木を訓練するために使用される。バギングは、ブートストラップ及び集約技術の組み合わせである。ブートストラップでは、訓練中、本発明者らは、本発明者らの訓練データベースから行のサンプルを取得し、ランダムフォレストで各決定木を訓練するためにそれを使用する。例えば、選択された行の特徴の部分集合は、決定木1の訓練に使用され得る。それゆえに、決定木1に対する訓練データは、列サンプル1を有する行サンプル1、又はRS1+CS1と称され得る。列又は特徴は、ランダムに選択され得る。ランダムフォレスト内の決定木2及びその後の決定木は、訓練データの部分集合を使用することによって同様の様式で訓練される。決定木に対する訓練データは、置換によって生成される、すなわち、複数の決定木の訓練において同じ行データが使用され得ることに留意されたい。
【0073】
バギング技術の第2の部分は、生産中に適用される集約部である。各決定木は、各クラスに対する分類を出力する。バイナリ分類の場合、それは、1又は0であり得る。ランダムフォレストの出力は、ランダムフォレストの出力として選択された大部分の投票を伴うランダムフォレストにおける決定木の出力の集約である。複数の決定木からの投票を使用することによって、ランダムフォレストは、決定木の結果において高い分散を低減し、したがって、良好な予測結果を結果的にもたらす。個々の決定木を訓練するために行及び列サンプリングを使用することによって、各決定木は、選択された特徴を有する訓練記録に関してエキスパートになる。
【0074】
訓練中、ランダムフォレストの出力は、グラウンドトゥルースラベルと比較され、予測エラーが計算される。後方伝搬中、96個の成分(又は固有画像)の重みは、予測エラーが低減されるように、調節される。成分又は固有画像の数は、説明された分散の尺度を使用して主成分分析(PCA)の出力から選択された成分の数に依存する。バイナリ分類中、良好対不良分類器は、訓練データから画像記述特徴を使用し、良好クラス(又は健全ラベル付き画像)対複数の不良クラス(6つの失敗クラスのうちの1つでラベル付けされた画像)の一対他(OvR)分類を適用する。訓練されたランダムフォレスト分類器のパラメータ(成分の重みなど)は、推論中の生産サイクル画像の良好対不良分類で使用するために記憶される。
【0075】
根本原因分類器171の訓練は、同様の様式で実施される。訓練データベース1021は、複数の失敗クラスに属する不良プロセスサイクルからのラベル付きプロセスサイクル画像からの特徴からなる。ランダムフォレスト分類器171は、各失敗クラス対ラベル付き訓練例の残りの一対他(OvR)分類のための画像記述特徴を使用して訓練される。
【0076】
ランダムフォレスト分類器を使用する分類
ここで、本発明者らは、訓練された分類器151及び171を使用して生産画像の分類を説明する。図10Bは、第1の段階で良好対不良分類器151、及び第2の段階で根本原因分類器171を使用する、生産画像の2段階分類1080を示す。プロセスは、1~9にラベル付けされた一連のプロセスフローステップを使用して提示される。プロセスは、ステップ1において、良好対不良分類器151としてラベル付けされた、訓練されたランダムフォレスト分類器にアクセスすることによって開始する。データベース1030に記憶された生産画像の入力特徴は、分類器151への入力として提供される。分類器は、成功プロセスサイクルに属する良好画像を、失敗プロセスサイクルに属する不良画像から区別する。不良画像は、例えば、複数の失敗クラスに属し、各画像は、上記に説明された6つの失敗クラスのうちの1つに属し得る。訓練された分類器は、生産画像を分析するために用いられる固有画像の基準にアクセスする。訓練された分類器は、固有画像の線形結合に基づいて、生産画像に対する画像記述特徴を作成する。固有画像の重みは、上記に説明されるように分類器の訓練中に学習される。
【0077】
本発明者らが一対他分類を適用すると、ランダムフォレスト分類器内の全ての決定木は、各クラスに対する出力、すなわち、画像が7つのクラス(1つの良好クラス及び6つの失敗クラス)のうちの1つに属するかどうかを予測する。それゆえに、ランダムフォレスト内の各決定木は、7つの確率値、すなわち、クラス毎に1つの値を出力することになる。決定木からの結果は、集約され、大部分の投票が、画像を良好又は不良として予測するために使用される。例えば、ランダムフォレスト内の決定木の50%超が、画像を良好として分類する場合、画像は、成功生産サイクルに属する良好画像として分類される。分類器の感度は、調節され得、例えば、閾値をより高く設定することによって、不良として分類されるより多くの画像を結果的にもたらすことになる。プロセスステップ2では、分類器からの出力151が、チェックされる。画像が良好画像として分類された場合(ステップ3)、プロセスは、終了する(ステップ4)。そうではなく、画像が失敗プロセスサイクルを示す不良画像として分類された場合(ステップ5)、システムは、根本原因分類器171を呼び出す(ステップ6)。
【0078】
根本原因分類器は、2段階プロセスの第2の段階で適用されて、不良画像の失敗のクラスを決定する。プロセスは、不良画像に対する生産画像入力特徴にアクセスすることと(ステップ7)、訓練された根本原因分類器171に入力特徴を提供することと(ステップ8)、によって第2の段階で継続する。根本原因分類器171における各決定木は、1対他分類を適用することによって、入力画像特徴に対して投票する。この場合、分類は、画像が6つの失敗クラスのうちの1つ対5つの失敗クラスの残りに属するかどうかを決定する。各決定木は、各クラスに対する分類を提供する。決定木からの大部分の投票は、画像の失敗クラスを決定する(ステップ9)。
【0079】
本発明者らは、他の分類器を使用して、良好区分画像対不良区分画像を分類し、根本原因分析を実施することができる。例えば、開示された技術は、K近傍法(k-NN又はKNN)アルゴリズムを適用して、区分画像を分類し得る。k-NNアルゴリズムは、同様の例(又は本発明者らの実施態様における区分画像)が近接して存在すると仮定する。k-NNアルゴリズムは、データポイント又は画像間の距離を計算することによって、類似性(近接度、又は密接度とも称される)のアイデアを取り込む。この目的のために、直線距離(又はユークリッド距離)が一般的に使用される。k-NN分類では、出力は、クラスメンバーシップ、例えば、良好画像クラス又は不良画像クラスである。画像は、その隣接部の複数の投票によって分類され、オブジェクトは、そのk最近傍の間で最も一般的なクラスに割り当てられる。kの値は、正の整数である。
【0080】
本発明者らのデータについてkの右の値を選択するために、本発明者らは、kの異なる値でkNNアルゴリズムを数回実行し、アルゴリズムが以前に見られていないデータを与えられるときに、予測を正確に行うためのアルゴリズムの能力を維持しながら、本発明者らが遭遇するエラーの数を低減するkの値を選択する。本発明者らは、kの値を1に設定すると仮定する。これは、不正確な予測を結果的にもたらし得る。本発明者らは、データ点の2つのクラスタ:良好画像及び不良画像を有すると考える。本発明者らが多くの良好画像データポイントによって取り囲まれたクエリ例を有するが、それが、良好画像データポイントのクラスタ内にもある1つの不良画像データポイントに近いとする。k=1によると、k-NNは、クエリ例が不良画像であると不正確に予測する。本発明者らがkの値を増加させると、k-NNアルゴリズムの予測は、多数決(分類において)及び平均化(回帰において)に起因してより安定する。したがって、アルゴリズムは、kの特定の値まで、より正確な予測を行う可能性がより高い。kの値が増加するにつれて、本発明者らは、エラーの数の増加を観察し始める。6~50の範囲のkの値が、機能すると予想される。
【0081】
開示される技術によって訓練及び適用され得る他の分類器の例としては、多項ロジスティック回帰、サポートベクターマシン(SVM)、勾配ブースティングツリー、単純ベイズなどが挙げられる。本発明者らは、3つの基準:訓練時間、正確性、及び結果の解釈可能性を使用して分類器の性能を評価した。ランダムフォレスト分類器は、他の分類器よりも良好に実施した。本発明者らは、以下のテキストで他の分類器を簡単に提示する。
【0082】
サポートベクターマシン分類器もまた、ランダムフォレスト分類器と同等に良好に実施した。SVM分類器は、良好クラスのための特徴ベクトル対複数の不良クラスのための特徴ベクトル間の超平面を位置付ける。開示される技術は、多項ロジスティック回帰を訓練することを含み得る。多項回帰モデルは、異なる可能な結果(マルチクラス分類)の確率を予測するように訓練され得る。モデルは、出力が分類的であるときに使用される。それゆえに、モデルは、画像が良好クラス又は複数の不良クラスのうちの1つに属するかどうかを予測するように訓練され得る。ロジスティック回帰分類器の性能は、ランダムフォレスト及びSVM分類器よりも低かった。開示される技術は、決定木などの予測モデルのアンサンブルである勾配ブースティングモデルを訓練することを含み得る。モデルは、負の勾配方向を指す関数を反復的に選択することによって、関数空間にわたるコスト関数を最適化しようと試みる。例えば、モデルは、訓練データセットにわたる平均二乗誤差を最小化するように訓練され得る。勾配ブースティングモデルは、他の分類器と比較して、より多くの訓練時間を必要とした。開示される技術は、特定の特徴の値が任意の他の特徴の値とは無関係であると仮定する、単純ベイズ分類器を訓練することを含み得る。単純ベイズ分類器は、クラスに属する例の確率に独立して寄与する特徴の各々を考慮する。単純ベイズ分類器は、良好クラス対複数の不良クラスで画像を分類するように訓練され得る。
【0083】
特定の実施態様
開示される技術は、遺伝子型決定プロセスの評価及び根本原因分析のための画像分類を適用する。2つのタスクが、分類器:成功及び不成功(又は失敗)画像の分離、次いで、不成功生産画像の根本原因分析によって実施される。開示される技術は、遺伝子型決定プロセス機器からのプロセスサイクル画像に適用され得る。開示される技術は、遺伝子型決定プロセスから画像を分類するために説明されているが、分類は、プロセス中又はプロセスの終了時に画像生成チップ上に位置付けられたサンプルの画像を生産する他のタイプのプロセスからの画像に適用され得る。
【0084】
本発明者らは、成功及び失敗生産画像の分類を最初に提示する。開示される技術の一実施態様では、遺伝子型決定プロセスサイクル画像を分類するためのランダムフォレスト分類器を訓練するための方法が説明されている。分類器を訓練する方法は、成功(又は良好若しくは健全)クラス及び複数の失敗(又は不良若しくは不健全)クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることを含む。方法は、画像を分析するために用いられる固有画像の基準にアクセスすることを含み得る。方法は、固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することを含む。方法は、画像記述特徴を使用してランダムフォレスト分類器を、ラベル付き訓練例の成功クラス対複数の失敗クラスの一対他決定のために訓練することを含む。方法は、他の分類器を、ラベル付き訓練例の成功クラス対複数の失敗クラスの一対他決定のために訓練することを含み得る。例えば、方法は、サポートベクターマシン(SVM)分類器を訓練することを含み得る。SVM分類器は、成功クラスのための特徴ベクトル対クラスの残り(又は本発明者らの場合では、複数の失敗クラス)のための特徴ベクトル間の超平面を位置付ける。方法は、多項ロジスティック回帰を訓練することを含み得る。多項回帰モデルは、異なる可能な結果(マルチクラス分類)の確率を予測するように訓練され得る。モデルは、出力が分類的であるときに使用される。それゆえに、モデルは、画像が成功クラス又は複数の失敗クラスのうちの1つに属するかどうかを予測するように訓練され得る。方法は、決定木などの予測モデルのアンサンブルである勾配ブースティングモデルを訓練することを含み得る。モデルは、負の勾配方向を指す関数を反復的に選択することによって、関数空間にわたるコスト関数を最適化しようと試みる。例えば、モデルは、訓練データセットにわたる平均二乗誤差を最小化するように訓練され得る。方法は、特定の特徴の値が任意の他の特徴の値とは無関係であると仮定する、単純ベイズ分類器を訓練することを含み得る。単純ベイズ分類器は、クラスに属する例の確率に独立して寄与する特徴の各々を考慮する。単純ベイズ分類器は、成功クラス対複数の失敗クラスで画像を分類するように訓練され得る。訓練された分類器のパラメータは、プロセスサイクル画像の成功対失敗分類の生産に使用するために記憶される。上記に説明された分類器のいずれかを使用して生産画像を分類することは、失敗生産実行を検出し得る。分類器は、遺伝子型決定プロセスの品質についてオペレータにクイックフィードバックを提供し得る。分類器からのフィードバックは、処理時間及び価値のあるサンプルの浪費を低減し得る上流プロセスを補正するために使用され得る。
【0085】
遺伝子型決定プロセスサイクル画像の分類器を訓練する方法は、画像を分析するために用いられる、固有画像の基準を作成することを更に含み得る。方法は、固有画像に基づいてアクセスすることを含み得る。固有画像の基準は、説明されたばらつきの尺度に従って順序付けされる。閾値を上回るばらつきを累積的に説明する最上位に順序付けられた固有画像の基準が、プロセスサイクル画像を分析するために選択される。方法は、固有画像の選択された基準を使用して、プロセスサイクル画像を分析することを含み得る。ランダムフォレスト分類器は、100~400個の決定木を含み得る。ランダムフォレスト分類器の深さは、10~40であり得る。
【0086】
生産実施態様では、方法は、生産プロセスサイクル画像を成功又は失敗として分類する。方法は、複数の失敗クラスに属する画像から成功クラスに属するプロセスサイクルから画像を区別するように訓練されたランダムフォレスト分類器にアクセスすることを含む。方法は、生産画像を分析するために用いる固有画像の基準にアクセスすることと、固有画像の線形結合に基づいて生産画像に対する画像記述特徴を作成することと、を含み得る。方法は、訓練されたランダムフォレスト分類器を、成功クラス対複数の失敗クラスの一対他決定のために画像記述特徴に適用する。方法は、失敗プロセスサイクル決定に基づいてプロセスサイクルを繰り返すために、ユーザインターフェース上で通知を提供することを含む。
【0087】
ここで、本発明者らは、不成功(又は失敗)画像の根本原因分析を提示する。開示される技術の一実施態様では、方法は、プロセスサイクル画像又は遺伝子型決定プロセスサイクル画像のための根本原因ランダムフォレスト分類器を訓練するために説明される。分類器を訓練する方法は、複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることを含む。方法はまた、画像を分析するために用いる固有画像の基準にアクセスすることと、固有画像の線形結合に基づいて各ラベル付き訓練例に対する画像記述特徴を作成することと、を含み得る。方法は、画像記述特徴を使用してランダムフォレスト分類器を、ラベル付き訓練例の各失敗クラス対他の一対他決定のために訓練することを含む。訓練されたランダムフォレスト分類器のパラメータは、失敗プロセスサイクルからのプロセスサイクル画像の根本原因分類の生産に使用するために記憶される。
【0088】
根本原因分類器を訓練する方法は、画像を分析するために用いられる、固有画像の基準を作成することを更に含み得る。固有画像の基準は、説明されたばらつきの尺度に従って順序付けされる。閾値を上回るばらつきを累積的に説明する最上位に順序付けられた固有画像の基準が、プロセスサイクル画像を分析するために選択される。ランダムフォレスト分類器は、100~400個の決定木を含み得る。ランダムフォレスト分類器の深さは、10~40であり得る。
【0089】
生産実施態様では、失敗プロセスサイクル画像からの根本原因分析の方法は、失敗生産画像を分析するために用いる固有画像の基準にアクセスすることと、固有画像の線形結合に基づいて失敗生産画像に対する画像記述特徴を作成することと、を含む。方法は、複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練されたランダムフォレスト分類器にアクセスすることを含む。方法は、ランダムフォレスト分類器を、複数の失敗クラス間の一対他決定のための画像記述特徴に適用することを含み、これは、複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、不良プロセスサイクルの可能性のある根本原因として複数の失敗クラスの中から選択することを含む。
【0090】
開示される技術は、他の特徴生成及び次元削減技術を使用して、分類器に対する入力を生成し得る。そのような技術の例としては、非負値行列因子分解(NMF)、独立成分分析、辞書学習、スパース主成分分析、因子分析、ミニバッチK平均を含む。画像分解及び次元削減技術の変形例が使用され得る。開示される技術はまた、ランダムフォレスト分類器以外の分類器を適用して、プロセスサイクル画像を分類し得る。適用される分類器は、ランダムフォレスト、K近傍法(KNN)、多項ロジスティック回帰、サポートベクターマシン(SVM)、勾配ブースティングツリー、単純ベイズなどを含み得る。ラベル付き画像のより大きい本体が利用可能になるため、ImageNetなどの畳み込みニューラルネットワークもまた、使用され得る。
【0091】
一実施態様では、単一の方法は、エンドツーエンド様式で成功対失敗分類器及び根本原因分類器を実装し得る。入力画像は、失敗画像から成功画像を分離する第1の分類器への入力として与えられる。方法は、画像記述特徴が成功クラスに属していないという決定時に、第2のランダムフォレスト分類器にアクセスすることを含む。第2のランダムフォレスト分類器は、複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される。方法は、第2のランダムフォレスト分類器を、複数の失敗クラス間で一対他決定のために画像記述特徴に適用する。方法はまた、複数の失敗クラスの各々対他をスコアリングすることと、結果として得られたスコアを使用して、不良プロセスサイクルの可能性のある根本原因として複数の失敗クラスの中から選択することと、を含む。
【0092】
開示される技術の別の実施態様は、プロセスサイクル画像を分類するための区分の画像のエリアの閾値化を使用する。方法は、グレースケール生産サイクル画像内のピクセルの強度から閾値を決定及び適用することであって、閾値を用いて、画像ピクセルを明及び暗のクラスに分類する、適用することと、グレースケール画像をバイナリ画像に変換することと、を含む。方法は、明及び暗の画像ピクセル分類を生産することを含み得る。方法は、グレースケール画像及び変換されたバイナリ画像を、画像内の体系的に予想されるノイズを信号から分離する8つ以上のエリアにセグメント化することを含む。方法は、グレースケール画像及び変換されたバイナリ画像内のエリアについての平均強度値を計算することを含む。方法は、グレースケール及びバイナリ画像内のエリアに対する平均強度値に基づいて、プロセスサイクルから画像を分類するように訓練されたランダムフォレスト分類器にアクセスすることを含む。画像は、成功クラス又は失敗クラスに属するとして分類され、分類に対する信頼スコアが生成される。方法は、訓練されたランダムフォレスト分類器によって生成された信頼スコアを閾値と比較することと、画像を成功又は失敗として分類することと、を含み得る。
【0093】
一実施態様では、上記に提示された方法は、生産サイクル画像を変換する前に、生産サイクル画像内の縁を保存するために、バイラテラルフィルタを適用することを更に含む。
【0094】
一実施態様では、方法は、生産サイクル画像を変換した後に、バイナリ画像からスペックル様ノイズを除去するためにガウスぼかしフィルタを適用することを更に含む。
【0095】
一実施態様では、方法は、生産サイクル画像を変換した後に、バイナリ画像内の孔を充填するためにモルフォロジ演算を適用することを更に含み、モルフォロジ演算が、収縮及び膨張を含む。
【0096】
上記のコンピュータ実装方法は、コンピュータハードウェアを含むシステムで実行され得る。コンピュータ実装システムは、上記の方法のうちの1つ以上を実行し得る。コンピュータ実装システムは、システムによって実施される方法に適用される、直前で又は本出願全体を通して記載される方法の特徴のうちのいずれかを組み込むことができる。簡潔さのために、システム特徴の代替の組み合わせは、個別に列挙されてはいない。システム、方法、及び製造物品に適用可能な特徴は、基本特徴の各法定分類セットに対して繰り返されない。読者は、このセクションで特定された特徴が他の法定分類における基本特徴とどのように容易に組み合わせることができるかを理解するであろう。
【0097】
方法ではなく製造物品として、プロセッサによって実行可能なプログラム命令を非一時的コンピュータ可読媒体(computer readable medium、CRM)に格納し得る。プログラム命令が実行されると、上述のコンピュータ実装された方法のうちの1つ以上を実施する。代替的に、プログラム命令は、非一時的なCRMに格納されてもよく、適切なハードウェアと組み合わされたときに、開示の方法を実施するコンピュータ実装されたシステムのうちの1つ以上の構成要素となってもよい。
【0098】
方法実施態様のためのこの特定の実施態様セクションで考察される特徴の各々は、CRM及びシステム実施態様に等しく適用される。上記のように、全ての方法特徴は、ここでは繰り返されず、参照により繰り返して考慮されるべきである。
項目
1.遺伝子型決定プロセスサイクル画像のためのランダムフォレスト分類器を訓練する方法であって、
成功クラス及び複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
ラベル付き訓練例の画像記述特徴を使用して、ランダムフォレスト分類器を訓練することと、
訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法。
2.
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する固有画像の最上位に順序付けられた基準を選択することと、
固有画像の選択された基準を使用して、プロセスサイクル画像を分析することと、を更に含む、項目1に記載の方法。
3.画像記述特徴を使用してランダムフォレスト分類器を、成功クラス対複数の失敗クラスの一対他決定のために訓練することを更に含む、項目1に記載の方法。
4.ランダムフォレスト分類器が、100~400個の決定木を含む、項目1に記載の方法。
5.ランダムフォレスト分類器が、10~40の深さを有する、項目1に記載の方法。
6.遺伝子型決定プロセスサイクル画像を分類する方法であって、
複数の失敗クラスに属する画像から成功クラスに属するプロセスサイクルから画像を区別するように訓練されたランダムフォレスト分類器にアクセスすることと、
固有画像の線形結合に基づいて、生産画像に対する画像記述特徴を作成することと、
ランダムフォレスト分類器を画像記述特徴に適用することと、
ユーザインターフェース上で通知を提供して、失敗プロセスサイクル決定に基づいてプロセスサイクルを繰り返すことと、を含む、方法。
7.画像記述特徴を使用してランダムフォレスト分類器を、成功クラス対複数の失敗クラスの一対他決定のために訓練することを更に含む、項目6に記載の方法。
8.遺伝子型決定プロセスサイクル画像のための根本原因ランダムフォレスト分類器を訓練する方法であって、
複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
ラベル付き訓練例の画像記述特徴を使用して、ランダムフォレスト分類器を訓練することと、
訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法。
9.画像記述特徴を使用してランダムフォレスト分類器を、成功クラス対複数の失敗クラスの一対他決定のために訓練することを更に含む、項目8に記載の方法。
10.失敗プロセスサイクル画像からの根本原因分析の方法であって、
失敗生産画像を分析するために用いられる固有画像の基準にアクセスすることと、
固有画像の線形結合に基づいて、失敗生産画像のための画像記述特徴を作成することと、
複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練されたランダムフォレスト分類器にアクセスすることと、
ランダムフォレスト分類器を、複数の失敗クラス間の一対他決定のための画像記述特徴に適用することであって、複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として複数の失敗クラスの中から選択することを含む、適用することと、を含む、方法。
11.
画像記述特徴が成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、第2のランダムフォレスト分類器が、複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
第2のランダムフォレスト分類器を画像記述特徴に適用することであって、複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として複数の失敗クラスの中から選択することを含む、適用することと、を更に含む、項目2に記載の方法。
12.遺伝子型決定プロセスサイクル画像を分類する方法であって、
グレースケール生産サイクル画像内のピクセルの強度から閾値を決定及び適用することであって、閾値を用いて、画像ピクセルを明及び暗のクラスに分類する、適用することと、グレースケール画像をバイナリ画像に変換することと、
グレースケール画像及び変換されたバイナリ画像を、画像内の体系的に予想されるノイズを信号から分離する8つ以上のエリアにセグメント化することと、
グレースケール画像及び変換されたバイナリ画像内のエリアについての平均強度値を計算することと、
グレースケール及びバイナリ画像内のエリアについての平均強度値に基づいて、プロセスサイクルからの画像を、成功クラス又は失敗クラスに属するとして分類するように訓練されたランダムフォレスト分類器にアクセスし、訓練されたランダムフォレスト分類器によって生成された信頼スコアを閾値と比較し、画像を成功又は失敗として分類することと、を含む、方法。
13.
生産サイクル画像を変換する前に、生産サイクル画像内の縁を保存するために、バイラテラルフィルタを適用することを更に含む、項目12に記載の方法。
14.
生産サイクル画像を変換した後に、バイナリ画像からスペックル様ノイズを除去するためにガウスぼかしフィルタを適用することを更に含む、項目12に記載の方法。
15.
生産サイクル画像を変換した後に、バイナリ画像内の孔を充填するためにモルフォロジ演算を適用することを更に含み、モルフォロジ演算が、収縮及び膨張を含む、項目12に記載の方法。
16.遺伝子型決定プロセスサイクル画像のためのランダムフォレスト分類器を訓練するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されたときに、方法であって、
成功クラス及び複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
ラベル付き訓練例の画像記述特徴を使用して、ランダムフォレスト分類器を訓練することと、
訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法を実行する、非一時的コンピュータ可読記憶媒体。
17.方法を更に実行することが、
画像記述特徴を使用してランダムフォレスト分類器を、成功クラス対複数の失敗クラスの一対他決定のために訓練することを更に含む、項目16に記載の非一時的コンピュータ可読記憶媒体。
18.方法を実行することが、
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する固有画像の最上位に順序付けられた基準を選択することと、
固有画像の選択された基準を使用して、プロセスサイクル画像を分析することと、を更に含む、項目16に記載の非一時的コンピュータ可読記憶媒体。
19.ランダムフォレスト分類器が、100~400個の決定木を含む、項目16に記載の非一時的コンピュータ可読記憶媒体。
20.ランダムフォレスト分類器が、10~40の深さを有する、項目16に記載の非一時的コンピュータ可読記憶媒体。
21.方法を実行することは、
画像記述特徴が成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、第2のランダムフォレスト分類器が、複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
第2のランダムフォレスト分類器を画像記述特徴に適用することであって、複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として複数の失敗クラスの中から選択することを含む、適用することと、を更に含む、項目18に記載の非一時的コンピュータ可読記憶媒体。
22.遺伝子型決定プロセスサイクル画像を分類するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されたときに、方法であって、
グレースケール生産サイクル画像内のピクセルの強度から閾値を決定及び適用することであって、閾値を用いて、画像ピクセルを明及び暗のクラスに分類する、適用することと、グレースケール画像をバイナリ画像に変換することと、
グレースケール画像及び変換されたバイナリ画像を、画像内の体系的に予想されるノイズを信号から分離する8つ以上のエリアにセグメント化することと、
グレースケール画像及び変換されたバイナリ画像内のエリアについての平均強度値を計算することと、
グレースケール及びバイナリ画像内のエリアについての平均強度値に基づいて、プロセスサイクルからの画像を、成功クラス又は失敗クラスに属するとして分類するように訓練されたランダムフォレスト分類器にアクセスし、訓練されたランダムフォレスト分類器によって生成された信頼スコアを閾値と比較し、画像を成功又は失敗として分類することと、を含む、方法を実行する、非一時的コンピュータ可読記憶媒体。
23.方法を実行することが、
生産サイクル画像を変換する前に、生産サイクル画像内の縁を保存するために、バイラテラルフィルタを適用することを更に含む、項目22に記載の非一時的コンピュータ可読記憶媒体。
24.メモリに連結された1つ以上のプロセッサを含むシステムであって、メモリには、プロセッサ上で実行されたときに項目16に記載の命令を実行する、プロセスサイクル画像のためのランダムフォレスト分類器を訓練するためのコンピュータ命令が読み込まれている、システム。
25.
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する固有画像の最上位に順序付けられた基準を選択することと、
固有画像の選択された基準を使用して、プロセスサイクル画像を分析することと、を含む措置を更に実行する、項目24に記載のシステム。
26.ランダムフォレスト分類器が、100~400個の決定木を含む、項目24に記載のシステム。
27.ランダムフォレスト分類器が、10~40の深さを有する、項目24に記載のシステム。
28.
画像記述特徴が成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、第2のランダムフォレスト分類器が、複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
第2のランダムフォレスト分類器を画像記述特徴に適用することであって、複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として複数の失敗クラスの中から選択することを含む、適用することと、含む措置を更に実行する、項目25に記載のシステム。
29.メモリに連結された1つ以上のプロセッサを含むシステムであって、メモリには、プロセッサ上で実行されたときに項目22に記載の命令を実行する、プロセスサイクル画像を分類するためのコンピュータ命令が読み込まれている、システム。
【0099】
コンピュータシステム
図11は、開示される技術を実装するために使用され得るコンピュータシステム1100の簡略ブロック図である。コンピュータシステムは、典型的には、バスサブシステム1155を介して多数の周囲デバイスと通信する、少なくとも1つのプロセッサ1172を含む。これらの周囲デバイスは、例えば、メモリサブシステム1122及びファイル記憶サブシステム1136、ユーザインターフェース入力デバイス1138、ユーザインターフェース出力デバイス1176及びネットワークインターフェースサブシステム1174を含む記憶サブシステム1110を含むことができる。入力及び出力デバイスは、コンピュータシステムとのユーザ対話を可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0100】
一実施態様では、失敗(又は不良)画像を分類するための根本原因分類器171は、記憶サブシステム及びユーザインターフェース入力デバイスに通信可能にリンクされる。
【0101】
ユーザインターフェース入力デバイス1138は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステムに情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0102】
ユーザインターフェース出力デバイス1176は、ディスプレイサブシステム、プリンタ、ファックスマシーン、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を生成するための何らかの他の機構を含んでもよい。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステムからユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方法を含むことを意図している。
【0103】
記憶サブシステム1110は、本明細書に説明されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般に、プロセッサ単独で、又は他のプロセッサとの組み合わせで実行される。
【0104】
記憶サブシステムで使用されるメモリは、プログラム実行中に命令及びデータを記憶するための、メインのランダムアクセスメモリ(random access memory、RAM)1132、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1134などの、いくつかのメモリを含んでもよい。ファイル記憶サブシステム1136は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、記憶サブシステム内のファイル記憶サブシステムによって、又はプロセッサによってアクセス可能な他のマシン内に記憶されてもよい。
【0105】
バスサブシステム1155は、コンピュータシステムの様々な構成要素及びサブシステムを、意図されるように互いに通信するための機構を提供する。バスサブシステムは、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
【0106】
コンピュータシステム自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図11に図示されるコンピュータシステムの説明は、開示される技術を例示する目的のための具体例としてのみ意図されている。コンピュータシステムの多くの他の構成は、図11に示されるコンピュータシステムよりも多く又は少ない構成要素を有することができる。
【0107】
コンピュータシステム1100は、GPU又はFPGA1178を含む。また、Google Cloud Platform、Xilinx、及びCirrascaleなどの機械学習クラウドプラットフォームによってホストされた機械学習プロセッサも含み得る。深層学習プロセッサの例は、GoogleのTensor Processing Unit(TPU)、GX4 Rackmount Series、GX8 Rackmount Seriesのようなラックマウントソリューション、NVIDIA DGX-1、Microsoft’Stratix V FPGA、GraphcoreのIntelligent Processor Unit(IPU)、Snapdragon processorsを有するQualcommのZeroth Platform、NVIDIAのVolta、NVIDIAのDRIVE PX、NVIDIAのJETSON TX1/TX2 MODULE、IntelのNirvana、Movidius VPU、Fujitsu DPI、ARMのDynamicIQ、IBM TrueNorth、及び他のものを含む。
【符号の説明】
【0108】
100 システム
111 遺伝子型決定機器
115 プロセスサイクル画像データベース
117 失敗カテゴリラベルデータベース
138 ラベル付きプロセスサイクル画像データベース
151 訓練された良好対不良分類器
155 ネットワーク
168 固有画像の基準データベース
171 訓練された根本原因分類器
185 特徴生成器
図1
図2
図3
図4
図5A
図5B
図5C
図5D
図5E
図5F
図5G
図5H
図5I
図6A
図6B
図6C
図6D
図7A
図7B
図8A
図8B
図9
図10A
図10B
図11
【手続補正書】
【提出日】2022-08-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
遺伝子型決定プロセスサイクル画像のためのランダムフォレスト分類器を訓練する方法であって、
成功クラス及び複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
前記ラベル付き訓練例の前記画像記述特徴を使用して、前記ランダムフォレスト分類器を訓練することと、
前記訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法。
【請求項2】
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、前記固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する前記固有画像の最上位に順序付けられた基準を選択することと、
前記固有画像の選択された基準を使用して、前記プロセスサイクル画像を分析することと、を更に含む、請求項1に記載の方法。
【請求項3】
前記画像記述特徴を使用して前記ランダムフォレスト分類器を、前記成功クラス対前記複数の失敗クラスの一対他決定のために訓練することを更に含む、請求項1に記載の方法。
【請求項4】
前記画像記述特徴が前記成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、前記第2のランダムフォレスト分類器が、前記複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
前記第2のランダムフォレスト分類器を前記画像記述特徴に適用することであって、前記複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として前記複数の失敗クラスの中から選択することを含む、適用することと、を更に含む、請求項2に記載の方法。
【請求項5】
遺伝子型決定プロセスサイクル画像のためのランダムフォレスト分類器を訓練するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されたときに、方法であって、
成功クラス及び複数の失敗クラスに属するプロセスサイクルからの画像について、ラベル付き訓練例にアクセスすることと、
固有画像の線形結合に基づいて、各ラベル付き訓練例のための画像記述特徴を作成することと、
前記ラベル付き訓練例の前記画像記述特徴を使用して、前記ランダムフォレスト分類器を訓練することと、
前記訓練されたランダムフォレスト分類器のパラメータを記憶することと、を含む、方法を実行する、非一時的コンピュータ可読記憶媒体。
【請求項6】
前記方法を実行することが、
前記画像記述特徴を使用して前記ランダムフォレスト分類器を、前記成功クラス対前記複数の失敗クラスの一対他決定のために訓練することを更に含む、請求項に記載の非一時的コンピュータ可読記憶媒体。
【請求項7】
前記方法を実行することが、
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、前記固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する前記固有画像の最上位に順序付けられた基準を選択することと、
前記固有画像の選択された基準を使用して、前記プロセスサイクル画像を分析することと、を更に含む、請求項に記載の非一時的コンピュータ可読記憶媒体。
【請求項8】
前記方法を実行することは、
前記画像記述特徴が前記成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、前記第2のランダムフォレスト分類器が、前記複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
前記第2のランダムフォレスト分類器を前記画像記述特徴に適用することであって、前記複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、失敗プロセスサイクルの可能性のある根本原因として前記複数の失敗クラスの中から選択することを含む、適用することと、を更に含む、請求項に記載の非一時的コンピュータ可読記憶媒体。
【請求項9】
遺伝子型決定プロセスサイクル画像を分類するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されたときに、方法であって、
グレースケール生産サイクル画像内のピクセルの強度から閾値を決定及び適用することであって、前記閾値を用いて、画像ピクセルを明及び暗のクラスに分類する、適用することと、前記グレースケール生産サイクル画像をバイナリ画像に変換することと、
前記グレースケール画像及び前記変換されたバイナリ画像を、前記画像内の体系的に予想されるノイズを信号から分離する8つ以上のエリアにセグメント化することと、
前記グレースケール画像及び前記変換されたバイナリ画像内の前記エリアについての平均強度値を計算することと、
前記グレースケール及びバイナリ画像内の前記エリアについての前記平均強度値に基づいて、プロセスサイクルからの前記画像を、成功クラス又は失敗クラスに属するとして分類するように訓練されたランダムフォレスト分類器にアクセスし、前記訓練されたランダムフォレスト分類器によって生成された信頼スコアを閾値と比較し、前記画像を成功又は失敗として分類することと、を含む、方法を実行する、非一時的コンピュータ可読記憶媒体。
【請求項10】
前記方法を実行することが、
前記生産サイクル画像を変換する前に、前記生産サイクル画像内の縁を保存するために、バイラテラルフィルタを適用することを更に含む、請求項に記載の非一時的コンピュータ可読記憶媒体。
【請求項11】
メモリに連結された1つ以上のプロセッサを含むシステムであって、前記メモリには、前記プロセッサ上で実行されたときに請求項に記載の命令を実行する、プロセスサイクル画像のためのランダムフォレスト分類器を訓練するためのコンピュータ命令が読み込まれている、システム。
【請求項12】
固有画像の基準にアクセスすることと、
説明されたばらつきの尺度に従って、前記固有画像の基準を順序付けすることと、
閾値を上回るばらつきを累積的に説明する前記固有画像の最上位に順序付けられた基準を選択することと、
前記固有画像の選択された基準を使用して、前記プロセスサイクル画像を分析することと、を含む措置を更に実行する、請求項1に記載のシステム。
【請求項13】
前記画像記述特徴が前記成功クラスに属していないという決定時に第2のランダムフォレスト分類器にアクセスすることであって、前記第2のランダムフォレスト分類器が、前記複数の失敗クラスのうちの1つに属するプロセスサイクルから画像を区別するように訓練される、アクセスすることと、
前記第2のランダムフォレスト分類器を前記画像記述特徴に適用することであって、前記複数の失敗クラスの各々対他をスコアリングすること、及び結果として得られたスコアを使用して、前記失敗プロセスサイクルの可能性のある根本原因として前記複数の失敗クラスの中から選択することを含む、適用することと、を含む措置を更に実行する、請求項1に記載のシステム。
【請求項14】
メモリに連結された1つ以上のプロセッサを含むシステムであって、前記メモリには、前記プロセッサ上で実行されたときに請求項に記載の命令を実行する、プロセスサイクル画像を分類するためのコンピュータ命令が読み込まれている、システム。
【国際調査報告】