【文献】
奥村 学、外2名,決定木学習を用いたテキスト自動要約手法に関するいくつかの考察,第59回(平成11年後期)全国大会講演論文集(2) 人工知能と認知科学,日本,情報処理学会,1999年 9月28日,pp.393-394
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、このような特別欠陥は、例えば出現率がデータ全体の1%にも満たないような場合も多く、教師データとして事例を蓄積することが容易ではないことも多い。また、特別欠陥(ただし、単一種)の事例数がある程度の数量(例えば数十個)蓄積できたときに、それまでに得られたその他の一般欠陥の事例は、数千〜数万個に達することもある。この全データをそのまま教師画像データとして、統計的手法に基づく機械学習により「特別欠陥」と「一般欠陥」とに2分する分類器を構築した場合、特別欠陥の再現率(Recall:特定のカテゴリであると教示された全教師データのうち、分類器によって正しくその特定のカテゴリに分類された教師データの割合)が、一般欠陥の再現率に比べて低くなる状況が起こり得る。
【0009】
【表1】
【0010】
表1は、稀に発生する特別欠陥を含む教師データを使い、多項式カーネルSVM(Support Vector Machine)で構築された分類器の分類性能を再代入法で評価した結果の一例である。表1は、分類器による分類結果を示す混同行列(分類表や混同対照表とも呼ばれる。)である。この表1では、事前に教示したカテゴリ(「特別欠陥」「一般欠陥」)を行見出しに記し、分類器により分類されたカテゴリを列見出しに記している。表1では、例えば、特別欠陥として教示された教師データのうち、特別欠陥に分類された教師データが73個、一般欠陥に分類された教師データが203個であることを示している。
【0011】
また表1において、見出しに「Sum」と記す行は、分類器により各カテゴリに分類された教師データの総数を示す。見出しに「Sum」と記す列においても、これと同様である。見出しに「Precision」と記す行は、分類器によってある特定のカテゴリに分類された教師データのうち、正しく分類された教師データの割合(適合率)を示す。見出しに「Recall」と記す列は、特定のカテゴリであると予め教示された全教師データのうち、分類器によって正しくその特定のカテゴリに分類された教師データの割合(再現率)を示す。「Precision」の行と「Recall」の列とが交差するセルは、分類器により分類された教師データの総数のうち、分類器により分類されたカテゴリと教示されたカテゴリとが一致した教師データの総数の比率(正答率:Accuracy)である。
【0012】
表1の分類器を、総正答率に基づいて評価した場合、一般欠陥の正答数(43890個)が総正答数(73個+43890個)において支配的となる。このため、見かけ上の正答率は99.51%と極めて高い。しかしながら、特別欠陥についてのRecall(再現率)は26.45%と低くなっている。
【0013】
このような現象は、2つの欠陥カテゴリ各々の教師データ数の極端な不均衡が原因で発生する。すなわち、特徴空間内において、教師データが少数の特別欠陥については比較的集中した分布となり、教師データが多数の一般欠陥については比較的拡散した分布となる。しかも、これら2つの分布は、もともと欠陥という点で共通することから、比較的近接していたり、あるいは、特別欠陥の分布が一般欠陥の分布に内包されたりすることも想定され得る。このため、前記教示支援技術を用いて教示の信頼性を高めたとしても、そのまま単純に統計的手法に基づく学習をしただけでは、一般欠陥の分類性能を犠牲にするように調整したところで、特別欠陥についての分類性能を最低限許容できるレベル(例えば99%)にまで高めることは困難である。
【0014】
一般論としては、分類器の構築に損失行列を導入することにより特別欠陥と一般欠陥に重み付けをして、分類器がより「特別欠陥」と分類する傾向を強める方法や、しきい値を導入して分類器の出した推定確信度がそれを下回ると欠陥種別の決定を避ける(棄却オプションと呼ばれる)方法、あるいは、教師データの間引きにより極端な不均衡を解消する方法などで対応することも考えられる。しかしながら、どの方法でも、「特別欠陥」に分類されたデータの中に大量の一般欠陥のデータが混入する虞がある。すると、最終的には人間が大量のデータを目視確認する必要があり、自動欠陥分類を利用する価値が大きく損なわれる。
【0015】
また、大量の正常な多次元データから異常(データを次元毎で見ると正常範囲内であるが全次元で見ると正常ではない状態)を示すデータを検出する技術として「外れ値検出」が知られている。これを利用した分類器は、データの生成される確率モデルを少ない頻度で更新するだけで済むようになるまでは、人間が分類結果を常時監視する必要があり、やはり自動欠陥分類を利用する価値が大きく損なわれる。
【0016】
そこで、本発明は、複数のカテゴリのうち特定カテゴリについて十分な数の教師データがない場合においても、その特定カテゴリについての再現率が高い分類器を提供することを目的とする。
【課題を解決するための手段】
【0017】
第1態様は、データをその特徴量に基づいて複数のカテゴリに分類する分類器を構築する分類器構築方法であって、(a)特別カテゴリであると教示されたM個(Mは2以上の自然数)の特別教師データと、前記特別カテゴリとは異なる一般カテゴリに属するN個(NはMよりも大きい自然数)の一般教師データとを準備する工程と、(b)前記N個の
前記一般教師データの中からn個(nはMと同じかそれよりも小さい任意の自然数)を選択する工程と、(c)前記M個の特別教師データと前記(b)工程にて選択された前記n個の
前記一般教師データとを用いた教師つき学習を行うことにより、前記特別教師データと前記一般教師データとを分類するコア分類器の候補を生成する工程と、(d)前記(c)工程にて生成された前
記候補について、前記M個の特別教師データのうち少なくとも一部を用いた再代入法により評価を行う工程と、(e)前記(d)工程において、前記特別教師データを所定の再現率で前記特別カテゴリに正しく分類する前
記候補を、前記コア分類器として採用する工程と、(f)前記(b)工程から前記(e)工程を繰り返すことによって、分類特性が異なる複数の前記コア分類器を備える分類器を構築する工程とを含む。
【0018】
第2態様は、第1態様の分類器構築方法であって、前記(e)工程において、前記所定の再現率が100%である。
【0019】
第3態様は、第1態様または第2に記載態様の分類器構築方法であって、前記(f)工程は、(f−1)前記複数のコア分類器を備える前記分類器に、前記特別教師データおよび前記一般教師データを分類させたときに、前記特別カテゴリに分類された教師データの適合率が所定値以上となるか否かを判定する工程、を含み、前記(f−1)工程における、前記適合率が所定の基準値を超えるまで、前記(b)工程から前記(e)工程を繰り返して前記コア分類器を生成する。
【0020】
第4態様は、第1態様から第3態様のいずれか1つの分類器構築方法であって、前記(f)工程において生成される前記分類器は、分類対象のデータについて、前記複数のコア分類器の全てが前記特別カテゴリに属すると判定した場合に、当該データを前記特別カテゴリに分類する分類器である。
【0021】
第5態様は、第1態様から第4態様のいずれか1つの分類器構築方法であって、前記データが画像データである。
【0022】
第6態様は、第5態様の分類器構築方法であって、前記画像データが、パターンの欠陥を示す欠陥画像を示すデータである。
【0023】
第7態様は、データを複数のカテゴリに分類する分類器であって、特性が異なっており、各々が前記データを特別カテゴリと一般カテゴリとに分類する複数のコア分類器と、前記複数のコア分類器による前記データの分類結果を集計して、前記データの分類先のカテゴリを決定するカテゴリ決定部と、
を備え、前記特別カテゴリであると教示されたM個(Mは2以上の自然数)の特別教師データと、前記特別カテゴリとは異なる一般カテゴリに属するN個(NはMよりも大きい自然数)の一般教師データとを記憶する記憶
部からn個(nはMと同じかそれよりも小さい任意の自然数)
の前記一般教師データを選択する教師データ選択部と、前記M個の特別教師データと前記教師データ選択部により選択された前記n個の
前記一般教師データとを用いた教師つき学習に基づき、前記コア分類器の候補を生成するコア分類器生成部と、前記コア分類器生成部により生成された前
記候補について、前記M個の特別教師データのうち少なくとも一部を用いた再代入法により評価を行うコア分類器評価部と、前記コア分類器評価部により、前記特別教師データを所定の再現率で前記特別カテゴリに正しく分類できたと評価された前
記候補を、前記コア分類器として採用するコア分類器採用部とを
有する
、分類器構築部によって構築される。
【0024】
第8態様は、データを複数のカテゴリに分類する分類器を生成する分類器構築装置であって、特別カテゴリであると教示されたM個(Mは2以上の自然数)の特
別教師データと、前記特別カテゴリとは異なる一般カテゴリに属するN個(NはMよりも大きい自然数)の一般教師データとを記憶する記憶
部からn個(nはMと同じかそれよりも小さい任意の自然数)
の前記一般教師データを選択する教師データ選択部と、前記M個の特別教師データと前記教師データ選択部により選択された前記n個の
前記一般教師データとを用いた教師つき学習に基づき、前記
特別教師データと前記一般教師データとを分類するコア分類器の候補を生成するコア分類器生成部と、前記コア分類器生成部により生成された前
記候補について、前記M個の特別教師データのうち少なくとも一部を用いた再代入法により評価を行うコア分類器評価部と、前記コア分類器評価部により、前記特別教師データを所定の再現率で前記特別カテゴリに正しく分類できたと評価された前
記候補を、前記コア分類器として採用するコア分類器採用部とを備える。
【発明の効果】
【0025】
第1実施形態の分類器構築方法によると、教師つき学習に使用される一般教師データの数を特別教師データの数と同じかそれよりも少なくすることによって、特別カテゴリについての再現率(Recall)が高いコア分類器を容易に生成し得る。また、母集団から選択される一般教師データを変更することによって、特別カテゴリについての再現率が高く、かつ、分類特性が異なる複数のコア分類器を獲得できる。このようなコア分類器を複数備えた分類器を構築することにより、特別カテゴリに分類されるべきデータを、一般カテゴリに誤分類する割合が極めて小さい分類器を構築し得る。また、複数のコア分類器を備えることによって、分類器の特別カテゴリについての適合率(Precision)を高めることができる。すなわち、一般カテゴリに分類されるべきデータのうち、特別カテゴリに誤分類されるデータの割合を軽減し得る。
【0026】
第2態様の分類器構築方法によると、コア分類器各々の特別欠陥の再現率を100%とすることによって、特別カテゴリに分類すべきデータを、極めて高精度に正しく分類可能な分類器を得ることができる。
【0027】
第3態様の分類器構築方法によると、分類器において、特別カテゴリに分類される教師データの適合率を所定値以上に上げることによって、一般カテゴリに分類されるべきデータが特別カテゴリに誤分類される可能性が小さい分類器を構築し得る。
【0028】
第4態様の分類器構築方法によると、特別カテゴリについての分類精度が高い分類器を構築し得る。
【0029】
第5態様の分類器構築方法によると、画像データを分類する分類器を構築できる。
【0030】
第6態様の分類器構築方法によると、欠陥画像を分類する分類器を構築できる。
【0031】
第7実施形態の分類器によると、教師つき学習に使用される一般教師データの数を特別教師データの数と同じかそれよりも少なくすることによって、特別カテゴリについての再現率(Recall)が高いコア分類器を容易に生成し得る。また、母集団から選択される一般教師データを変更することによって、特別カテゴリについての再現率が高く、かつ、分類特性が異なる複数のコア分類器を獲得できる。このようなコア分類器を複数備えた分類器を構築することにより、特別カテゴリに分類されるべきデータを、一般カテゴリに誤分類する割合が極めて小さい分類器を構築し得る。また、複数のコア分類器を備えることによって、分類器の特別カテゴリについての適合率(Precision)を高めることができる。すなわち、一般カテゴリに分類されるべきデータのうち、特別カテゴリに誤分類されるデータの割合を軽減し得る。
【0032】
第8実施形態の分類器構築装置によると、教師つき学習に使用される一般教師データの数を特別教師データの数と同じかそれよりも少なくすることによって、特別カテゴリについての再現率(Recall)が高いコア分類器を容易に生成し得る。また、母集団から選択される一般教師データを変更することによって、特別カテゴリについての再現率が高く、かつ、分類特性が異なる複数のコア分類器を獲得できる。このようなコア分類器を複数備えた分類器を構築することにより、特別カテゴリに分類されるべきデータを、一般カテゴリに誤分類する割合が極めて小さい分類器を構築し得る。また、複数のコア分類器を備えることによって、分類器の特別カテゴリについての適合率(Precision)を高めることができる。すなわち、一般カテゴリに分類されるべきデータのうち、特別カテゴリに誤分類されるデータの割合を軽減し得る。
【発明を実施するための形態】
【0034】
以下、添付の図面を参照しながら、本発明の実施形態について説明する。なお、この実施形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。図面においては、理解容易のため、必要に応じて各部の寸法や数が誇張または簡略化して図示されている場合がある。
【0035】
<1.実施形態>
図1は、実施形態の画像分類装置1の概略構成を示す図である。画像分類装置1では、半導体基板9上のパターン欠陥を示す欠陥画像が取得され、その欠陥画像の分類が行われる。画像分類装置1は、撮像装置2、検査・分類装置4およびホストコンピュータ5を備えている。
【0036】
撮像装置2は、半導体基板9上の検査対象領域を撮像する。検査・分類装置4は、撮像装置2によって取得された画像データに基づく欠陥検査を行う。検査・分類装置4は、欠陥が検出された場合に、その欠陥を欠陥の種別(カテゴリ)毎に分類する。半導体基板9上に存在するパターンの欠陥のカテゴリは、欠損、突起、断線、ショート、異物などを含み得る。ホストコンピュータ5は、画像分類装置1の全体動作を制御するとともに、検査・分類装置4における欠陥の分類に利用される分類器422を生成する。
【0037】
撮像装置2は、半導体基板9の製造ラインに組み込まれ、画像分類装置1はいわゆるインライン型のシステムとされ得る。画像分類装置1は、欠陥検査装置に自動欠陥分類の機能を付加した装置である。
【0038】
撮像装置2は、撮像部21、ステージ22、ステージ駆動部23を備えている。撮像部21は、半導体基板9の検査領域を撮像する。ステージ22は、半導体基板9を保持する。ステージ駆動部23は、撮像部21に対してステージ22を半導体基板9の表面に平行な方向に相対移動させる。
【0039】
撮像部21は、照明部211、光学系212および撮像デバイス213を備えている。光学系212は、半導体基板9に照明光を導く。半導体基板9にて反射した光は、再び光学系212に入射する。撮像デバイス213は、光学系212により結像された半導体基板9の像を電気信号に変換する。
【0040】
ステージ駆動部23は、ボールネジ、ガイドレール、モータ等により構成されている。ホストコンピュータ5がステージ駆動部23および撮像部21を制御することにより、半導体基板9上の検査対象領域が撮像される。
【0041】
検査・分類装置4は、欠陥検出部41および分類制御部42を有する。欠陥検出部41は、検査対象領域の画像データを処理しつつ欠陥を検出する。詳細には、欠陥検出部41は、検査対象領域の画像データを高速に処理する専用の電気的回路を有し、撮像により得られた画像と参照画像(欠陥が存在しない画像)との比較や画像処理により検査対象領域の欠陥検査を行う。分類制御部42は、欠陥検出部41が検出した欠陥画像を分類する。詳細には、各種演算処理を行うCPUや各種情報を記憶するメモリ等により構成され、特徴量算出部421および分類器422を有する。分類器422は、ニューラルネットワーク、決定木、判別分析等を利用して欠陥の分類、すなわち、欠陥画像の分類を実行する。
【0042】
図2は、実施形態の画像分類装置1による欠陥画像の分類の流れを示す図である。まず、
図1に示す撮像装置2が半導体基板9を撮像することにより、検査・分類装置4の欠陥検出部41が画像データを取得する(ステップS11)。
【0043】
続いて、欠陥検出部41が、検査対象領域の欠陥検査を行うことにより、欠陥の検出を行う(ステップS12)。ステップS12において欠陥が検出された場合(ステップS12においてYES)、欠陥部分の画像(すなわち、欠陥画像)のデータが分類制御部42へと送信される。欠陥が検出されない場合は(ステップS12においてNO)、ステップS11の画像データの取得が行われる。
【0044】
分類制御部42は、欠陥画像を受け取ると、その欠陥画像の複数種類の特徴量の配列である特徴量ベクトルを算出する(ステップS13)。その算出された特徴量ベクトルは分類器422に入力され、分類器422により分類が行われる(ステップS14)。すなわち、分類器422により欠陥画像が複数のカテゴリのいずれかに分類される。画像分類装置1では、欠陥検出部41にて欠陥が検出される毎に、特徴量ベクトルの算出がリアルタイムに行われ、多数の欠陥画像の自動分類が高速に行われる。
【0045】
次に、ホストコンピュータ5による分類器422の学習について説明する。
図3は、ホストコンピュータ5の構成を示すブロック図である。
【0046】
ホストコンピュータ5は、CPU51、ROM52およびRAM53を有する。CPU51は各種演算処理を行う演算回路を含む。ROM52は基本プログラムを記憶している。RAM53は各種情報を記憶する揮発性の主記憶装置である。ホストコンピュータ5は、CPU51,ROM52およびRAM53をバスライン501で接続した一般的なコンピュータシステムの構成を備えている。
【0047】
ホストコンピュータ5は、固定ディスク54、ディスプレイ55、入力部56、読取装置57および通信部58を備えている。これらの要素は、適宜インターフェース(I/F)を介してバスライン501に接続されている。
【0048】
固定ディスク54は、情報記憶を行う補助記憶装置である。ディスプレイ55は、画像などの各種情報を表示する表示部である。入力部56は、キーボード56aおよびマウス56b等を含む入力用デバイスである。読取装置57は、光ディスク、磁気ディスク、光磁気ディスク等のコンピュータ読取可能な記録媒体8から情報の読み取りを行う。通信部58は、画像分類装置1の他の要素との間で信号を送受信する。
【0049】
ホストコンピュータ5は、読取装置57を介して記録媒体8からプログラム80を読み取り、固定ディスク54に記録される。当該プログラム80は、RAM53にコピーされる。CPU51は、RAM53内に格納されたプログラム80に従って、演算処理を実行する。
【0050】
図4は、検査・分類装置4の分類器422を構築するためのホストコンピュータ5の機能構成を示すブロック図である。ホストコンピュータ5は、分類器構築部61、記憶部63を備える。分類器構築部61は、ホストコンピュータ5のCPU51がプログラム80に従って動作することにより、分類器構築部61は、学習部610、分類器611および分類器評価部613の機能を構成する。学習部610は、分類器611を学習させることにより分類器422を構築する。分類器611は、正確にはRAM53などの記憶部において予め定められた記憶領域に分類を行うために必要な情報を格納することによって実現される機能構成である。検査・分類装置4の分類器422も同様である。
【0051】
ホストコンピュータ5の記憶部63は、固定ディスク54またはRAM53により構成される。記憶部63は、各欠陥画像のデータである欠陥画像データ801および特徴量ベクトル802を記憶する。各欠陥画像に対応する欠陥画像データ801と特徴量ベクトル802とは関連付けされている。特徴量ベクトル802は、既述のように、各欠陥画像から得られる複数種類の特徴量の配列である。特徴量ベクトル802に含まれる特徴量の項目としては、例えば、欠陥部分の面積、明度平均、周囲長、平坦度または欠陥部分を楕円形に近似した場合のその長軸の傾き等が採用され得る。
【0052】
記憶部63は、各欠陥画像データ801に関連付けられた教示欠陥カテゴリ811を記憶する。教示欠陥カテゴリ811は、ユーザにより各欠陥画像に付与された欠陥カテゴリである。すなわち、教示欠陥カテゴリ811は、異物の種類、傷の種類、パターン不良の種類等を欠陥画像各々に関連付ける教示作業の結果を示す情報である。
【0053】
ホストコンピュータ5にて学習により分類器611が構築されると、学習後の分類器611(正確には、分類器611の構造や変数の値を示す情報)が検査・分類装置4へと転送され、分類器422として利用される。もちろん、ホストコンピュータ5の機能は、検査・分類装置4に含めることも可能である。
【0054】
図5は、実施形態の分類器611の構成を示すブロック図である。分類器611は、特別欠陥分類器71および一般欠陥分類器73を含む。
【0055】
特別欠陥分類器71は、欠陥検出部41により欠陥が検出された欠陥画像を、特別な欠陥カテゴリ(以下、「特別欠陥」という。)と、特別欠陥ではない一般の欠陥カテゴリ(以下、「一般欠陥」という。)に分類する。特別欠陥は、例えば、半導体基板9において発生し得る欠陥のうち、高い精度(ここでは、ほぼ100%の精度)で分類すべき欠陥カテゴリである。具体的に、半導体基板9を製造するための装置(スパッタリング装置等)自体に由来する金属(クロム、ニッケルなど)の異物が付着した場合、ロット単位で半導体基板9を廃棄する事態が招来するおそれがある。このため、このような欠陥を有する半導体基板9については、確実に分離することが望ましい。特別欠陥分類器71は、このような特別欠陥を持つ欠陥画像を「特別欠陥」に分類する。
【0056】
一般欠陥分類器73は、特別欠陥カテゴリに分類されなかった画像(すなわち、「一般欠陥」に分類された欠陥画像)を、さらに複数のサブ欠陥カテゴリに分類する。
【0057】
特別欠陥分類器71は、複数のコア分類器711とカテゴリ決定部713とを含む。複数のコア分類器711は、互いに異なる特性を有しており、各々が、欠陥画像を特徴量ベクトルに基づいて「特別欠陥カテゴリ」および「一般欠陥カテゴリ」のいずれかに分類する。コア分類器711の生成方法については、後述する。
【0058】
カテゴリ決定部713は、全てのコア分類器711の分類結果を集計し、分類対象である欠陥画像の分類先カテゴリを決定する。本実施形態では、全てのコア分類器711が「特別欠陥」に分類した場合に、カテゴリ決定部713は分類対象の欠陥画像の分類先を「特別欠陥」とする。つまり、少なくとも1つ以上のコア分類器711が欠陥画像を「一般欠陥」に分類した場合には、カテゴリ決定部713はその欠陥画像の分類先を「一般欠陥」とする。
【0059】
一般欠陥分類器73は、特別欠陥分類器71によって一般欠陥カテゴリに分類された欠陥画像を、その特徴量ベクトルに応じて、一般欠陥カテゴリよりも下位のサブである、サブ欠陥カテゴリ(例えば、「欠損」「突起」「断線」「ショート」および「異物」等)に分類する。一般欠陥分類器73は、サブ欠陥毎に教示された教師データを用いた教師つき学習により構築され得る。
【0060】
次に、分類器構築部61による特別欠陥分類器71の構築方法について説明する。
図6は、実施形態に係る分類器構築部61の学習部610の構成を示すブロック図である。また、
図7は、実施形態に係る学習部610による分類器611(特に、特別欠陥分類器71)の構築の流れを示す図である。
【0061】
図6に示すように、分類器構築部61は、教師データ選択部101、コア分類器生成部103、コア分類器評価部105およびコア分類器採用部107を備える。特別欠陥教師データ631および一般欠陥教師データ633が準備される(
図7:ステップS20)。これらのデータは、記憶部63に予め用意されるデータであって、欠陥画像を示すデータ(欠陥画像データ801)に、その欠陥画像が持つ特徴量の値を示すデータ(特徴量ベクトル802)、および、その欠陥画像が持つ欠陥のカテゴリ(欠陥の種類、ここでは、「特別欠陥」と「一般欠陥」)を示すデータ(教示欠陥カテゴリ811)が関連付けされて構成されるデータである。
【0062】
特別欠陥教師データ631および一般欠陥教師データ633は、コア分類器711の作成に供される教師データである。特別欠陥教師データ631は、予め用意された複数の欠陥画像データ801のうち、オペレータによって「特別欠陥」であると教示されたデータである。一般欠陥教師データ633は、「特別欠陥」とは異なるカテゴリである「一般欠陥」に分類されるべき欠陥画像を示す教師データであって、オペレータによって「特別欠陥」とは教示されなかったデータである。なお、「特別欠陥」であると教示されていないことは、すなわち間接的に「一般欠陥」であると教示されているとも捉えることができる。一般欠陥教師データ633は、「一般欠陥」よりさらに下位の細かなサブカテゴリが教示されていてもよい。ただし、コア分類器711を作成する上ではこれは必須ではない。特別欠陥教師データ631の数量(M個、Mは2以上の自然数)は、一般欠陥教師データ633の数量(N個、Nは2以上の自然数)に比べて小さいものとする(すなわち、N>M)。
【0063】
教師データ選択部101は、複数(N個)の一般欠陥教師データ633の中から、一部(n個)を選択する(
図7:ステップS21)(すなわち、n<N)。ここでは、教師データ選択部101は、全ての一般欠陥教師データ633からランダムに選択する。ただし、教師データ選択部101は、ランダムではなく所定の条件に従って一般欠陥教師データ633を選択してもよい。選択される一般欠陥教師データ633の数量(n個)は、予め用意された特別欠陥教師データ631の数量(M個)と同じか、それよりも小さい数量とされる(すなわち、n≦M)。
【0064】
特別欠陥教師データ631の数(M個)と選択される一般欠陥教師データ633の数(n個)との比(=n:M)は、例えば、元の母集団における、一般欠陥教師データ633の数(N個)と特別欠陥教師データ631の数(M個)との比(=N:M)の逆比(=M:N)に近くなるようにするとよい(すなわち、n:M≒M:N)。
【0065】
続いて、コア分類器生成部103は、コア分類器711の候補を生成する(
図7:ステップS22)。より詳細には、コア分類器生成部103は、予め用意された全て(M個)の特別欠陥教師データ631と、教師データ選択部101によって選択された複数(n個)の一般欠陥教師データ633とを用いた教師つき学習を行うことによって、コア分類器711の候補を生成する。コア分類器生成部103が実施する教師つき学習は、一般的な統計学的手法(例えば、ニューラルネットワーク、RBF(radial basis function)カーネルまたは多項式カーネルのSVM)である。
【0066】
コア分類器評価部105は、コア分類器生成部103によって生成されたコア分類器711の候補を再代入法により評価する(ステップS23)。詳細には、コア分類器評価部105は、コア分類器711の候補の生成に使用された複数の特別欠陥教師データ631をコア分類器711の候補に再代入することにより、その分類精度が求められる。コア分類器711の候補の評価には、そのコア分類器711の生成に使用された特別欠陥教師データ631のうち全てが使用されてもよいし、そのうちの一部が使用されてもよい。
【0067】
コア分類器採用部107は、コア分類器評価部105により、特別欠陥についての再現率(Recall)が100%であるコア分類器711の候補(すなわち、特別欠陥教師データ631の全てを正しく特別欠陥に分類できたコア分類器の候補)を、コア分類器711に採用する(
図7:ステップS24)。コア分類器711の候補が採用されるとは、具体的には、当該コア分類器711が特別欠陥分類器71に組み込まれることをいう。一方、コア分類器採用部107は、再現率が100%でないコア分類器711の候補については、廃棄する。
【0068】
続いて、分類器構築部61は、コア分類器711の生成を終了するか否かを判定する(
図7:ステップS25)。分類器構築部61は、コア分類器711の生成を継続する場合(ステップS25においてNo)、ステップS21に戻って、新たなコア分類器711の生成を再び行う。
【0069】
ここで、ステップS25の判定は、例えば、複数のコア分類器711が組み込まれた特別欠陥分類器71の分類精度が、所定の基準を満たすかどうかに基づいて行われるとよい。このような特別欠陥分類器71の分類精度は、分類器評価部613(
図4参照)によって評価され得る。
【0070】
より具体的には、分類器評価部613は、記憶部63に保存されているM個の特別欠陥教師データ631およびN個の一般欠陥教師データ633について、特別欠陥分類器71に分類させる再代入法が行われる。そして、特別欠陥についての適合率(Precision)、すなわち、コア分類器711により特別欠陥に分類された教師データの中で、正しく分類された教師データ(特別欠陥教師データ631)の割合が求められる。この適合率が所定基準値を超える場合には、コア分類器711の生成が終了され、適合率が所定基準値を超えない場合には、再びコア分類器711の生成が行われるとよい。このようにして、特別欠陥についての適合率が所定基準を超えるまで、コア分類器711が追加されることとなる。
【0071】
なお、ステップS25の判定基準として、単に、特別欠陥分類器71に採用されたコア分類器711の数が、既定数に到達したか否かに基づいて行われてもよい。この場合、分類器構築部61が、予め設定された数のコア分類器711が生成された否かを判断するとよい。分類器構築部61は、コア分類器711が既定数に達している場合(ステップS25においてYES)、分類器構築部61は特別欠陥分類器71の構築処理を終了する。そして、コア分類器711が設定数に達していない場合(ステップS25においてNo)、分類器構築部61はステップS21に戻って、新たなコア分類器711を再度生成する。このように、特別欠陥分類器71として採用されるコア分類器711が既定数に到達するまで、ステップS21〜ステップS24が繰り返し実行されるとよい。
【0072】
図8〜
図11は、特徴量空間における欠陥画像の分布の一例を示す図である。欠陥画像の分類に用いられる特徴量ベクトルとして、一般には多種類の特徴量が用いられる。このため、自動欠陥分類において、一般的な特徴量空間は、使用される複数種の特徴量のそれぞれを一の座標軸とするために多次元空間となり得る。しかしながら、ここでは、理解容易のため、2種類の特徴量X1,X2からなる2次元の特徴量空間を想定する。
図8における各点は、欠陥画像を特徴量で表したときそれらの値を特徴量空間における座標値として持つ点を表しており、それぞれの点が1つの欠陥画像に対応する。収集された欠陥画像(特別欠陥教師データ631および一般欠陥教師データ633)をその特徴量ベクトルに応じて特徴量空間にプロットすると、
図8に示すように、類似した特徴を有する欠陥画像がある程度まとまって2つのクラスターC1,C2を形成する。クラスターC1は特別欠陥教師データ631に対応する欠陥画像の群であり、クラスターC2は一般欠陥教師データ633に対応する欠陥画像の群を表すものとする。一般欠陥は多様な欠陥を含むため、そのカテゴリに含まれる欠陥画像は、特別欠陥の欠陥画像に比べて、数量が大きく、かつ、分布が比較的広範囲にわたる。
【0073】
図7において説明したコア分類器711の生成は、このようなクラスターC1,C2を分類するための境界線(特徴量空間が多次元の場合は分離超平面とも呼ばれる。)を生成することと等価である。ここで、
図7において説明したコア分類器711の生成過程を、この特徴量空間に着目して説明する。
【0074】
図9は、特徴量空間に分布する教師データを分類する境界線L1を示す図である。境界線L1は、分類器構築部61にコア分類器711の1つに対応する。
図6,7において説明したように、コア分類器711を生成するため、まず、教師データ選択部101がクラスターC2に含まれる多数の一般欠陥教師データの中から一部の教師データを選択する(
図7:ステップS21)。このとき、選択されるデータ数は、クラスターC1に含まれる比較的少数の特別欠陥教師データの数量と同じか、それよりも小さい数とされる。
図9では、全ての一般欠陥教師データのうち、選択されたデータを黒塗りの丸点で示しており、選択されなかったデータを白抜きの丸点で示している。
【0075】
続いて、コア分類器生成部103が、予め準備された全ての特別欠陥教師データ631と選択された一般欠陥教師データ633とを使った教師つき学習により、コア分類器711(候補)が生成される。すなわち、この教師つき学習により境界線L1が求められる。
図9に示す境界線L1の下側(特徴量X2軸の負側)は特別欠陥に対応し、上側(特徴量X2軸の正側)は一般欠陥に対応する。
【0076】
ステップS23,S24では、コア分類器711(候補)の分類精度に基づき、その採否が決定される。具体的には、特別欠陥についての再現率(Recall)が100%であるか評価される。
図9に示す境界線L1の場合、予め準備された全ての特別欠陥教師データ631が境界線L1の下側にある。すなわち、特別欠陥についての再現率が100%となっている。このため、この境界線L1に対応するコア分類器711(候補)は、採用されて、特別欠陥分類器71に組み込まれることとなる。
【0077】
図10は、特徴量空間に分布する教師データを分類する境界線L2を示す図である。境界線L2の場合、左側(特徴量X1軸の正側)が特別欠陥に対応し、右側(特徴量X1軸の負側)が一般欠陥に対応する。境界線L2の場合、予め用意された特別欠陥教師データ631が、全て境界線L2の左側にある。すなわち、特別欠陥についての再現率が100%となっている。このため、この境界線L2に対応するコア分類器711(候補)も採用されて、特別欠陥分類器71に組み込まれることとなる。
【0078】
境界線L1,L2各々に対応するコア分類器711,711を生成する際、
図9および
図10に示すように、選択される一般欠陥教師データ633の組合せが異なっている。このため、コア分類器711,711の分類特性(すなわち、境界線L1,L2の傾きおよび切片の数値)が異なったものとなる。
【0079】
図11は、特徴量空間に分布する教師データを分類する複数の境界線L1〜L7を示す図である。コア分類器711の生成、評価および採否決定(
図7に示すステップS20〜ステップS24)が繰り返し行われると、
図11に示すように、各コア分類器711に対応する境界線L1〜L7が生成されることとなる。境界線L1〜L7は、いずれも、特別欠陥ついての再現率(Recall)が100%となっている。すなわち、特別欠陥教師データ631の全てを正しく特別欠陥に分類可能となっている。したがって、境界線L1〜L7によって囲まれる領域内に、予め用意された特別欠陥教師データ631のクラスターC1が納まることとなる。
【0080】
図12は、少数の特別欠陥教師データ631と多数の一般欠陥教師データ633を用いて求められた境界線L11を示す図である。
図12は、一般欠陥教師データ633を選択せずに分類器の一例に対応する。この場合、一般欠陥教師データ633の数・分布が支配的となるため(つまり、影響が強くなるため)、
図12に示すように、特別欠陥教師データ631のクラスターC1を分割する境界線L11が得られる傾向がある。このため、分類器における特別欠陥の再現率が低下、すなわち、一般欠陥に誤分類される特別欠陥の画像が増大するため、特別欠陥を正しく分類する分類器を得ることができない。これに対して、
図9、
図10において説明したように、一般欠陥教師データ633を選択して教師つき学習を行うことによって、特別欠陥の再現率が100%の分類器(コア分類器711)を容易に獲得し得る。
【0082】
表2は、
図7に示すステップS23に関して、生成された1つのコア分類器711の分類性能についての評価結果の一例である。このコア分類器711は、276個の特別欠陥教師データ631と、23個の一般欠陥教師データ633とを使用した教師つき学習を行って生成されたものである。そして、このコア分類器711の生成に使用した教師データを使って、当該コア分類器711を評価したものである。このコア分類器711では、特別欠陥についての再現率(Recall)が100%である。また、特別欠陥についての適合率(Precision)も100%となっている。
【0084】
表3は、表2に示す分類性能を持つコア分類器711による、教師データの分類結果を示している。具体的に、表3は、276個の特別欠陥教師データ631と、43905個の一般欠陥教師データを、コア分類器711によって分類した結果を示している。このコア分類器711の分類結果によると、特別欠陥についての再現率(Recall)は100%となっている。すなわち、このコア分類器711は、特別欠陥の教師データについては、100%の精度で特別欠陥に分類可能となっている。一方、このコア分類器711の特別欠陥についての適合率(Precision)は1.51%と極めて低い値となっている。これはつまり、特別欠陥に100個の教師データが分類されたとすると、そのうちの1.51個しか正しく分類されていないことを意味する。
【0086】
表4は、32個のコア分類器711とカテゴリ決定部713とを含む特別欠陥分類器71による分類結果を示している。表4では、表3と同様に、276個の特別欠陥教師データ631と、43905個の一般欠陥教師データが使われている。上述したように、特別欠陥分類器71においては、分類対象のデータについて、全てのコア分類器711が特別欠陥に分類した場合に、カテゴリ決定部713がそのデータを特別欠陥に分類する。
【0087】
表4に示す例では、特別欠陥についての再現率(Recall)は100%となっている。すなわち、32個のコア分類器711を備える特別欠陥分類器71よっても、特別欠陥教師データ631については、100%の精度で特別欠陥に分類可能となっている。また、特別欠陥についての適合率(Precision)は、14.11%と低いものの、表3に示す単一のコア分類器711の適合率(1.51%)に比べて大きく改善されている。
【0088】
図13は、コア分類器711と適合率(Precision)の関係を示すグラフG1を示す図である。
図13において、横軸はコア分類器711の個数を示しており、縦軸は適合率(Precision)を示している。
図13に示すように、並列動作するコア分類器711の数に応じて、特別欠陥についての適合率の数値は向上し得る。原理的には、コア分類器711の数を増やすほど、一般欠陥である欠陥画像を特別欠陥に分類してしまう誤分類を減少させることができる。しかしながら、コア分類器711の数を増大させた場合、特別欠陥分類器71の構築に長時間を要する他、構築された特別欠陥分類器71による分類にかかる時間が大きく延びる虞がある。一方で、適合率をあげることによって、特別欠陥に分類される欠陥画像の数量を、オペレータが全数チェックすることも許容されるレベルにまで軽減し得る。そこで、実運用上は、特別欠陥の適合率が許容範囲に達する程度の数量のコア分類器711を備えた特別欠陥分類器71を構築するとよい。
【0089】
<効果>
本実施形態の検査・分類装置4によると、
図6,
図7において説明したように、教師つき学習において、比較的少ない特別欠陥教師データ631の数と同一もしくは少なくなるように、比較的多い一般欠陥教師データ633の中から一部を選択して、教師付学習を行うことにより、特別欠陥の再現率(Recall)が100%のコア分類器711を容易に生成できる。
【0090】
また、選択される一般欠陥教師データ633を変更することによって、分類特性の異なるコア分類器711を備えた特別欠陥分類器71を構築できる。これにより、特別カテゴリに分類されるべきデータを一般カテゴリに誤分類する可能性が低い特別欠陥分類器71を構築できる。さらに、特別欠陥分類器71の特別欠陥についての適合率(Precision)を高めることができる。このように、カテゴリ間での教師データの数量が不均衡な場合であっても、本発明の手法を取り入れることにより、分類成績の優れた分類器を獲得できる。
【0091】
<2.変形例>
以上、実施形態について説明してきたが、本発明は上記のようなものに限定されるものではなく、様々な変形が可能である。
【0092】
上記実施形態では、コア分類器711の候補を特別欠陥分類器71に採用する条件として、そのコア分類器の特別欠陥についての再現率の基準値を100%としている。しかしながら、再現率の基準値を100%とすることは必須ではなく、例えば、100%未満の値としてもよい。ただし、再現率を100%とすることによって、特別欠陥を含む画像を、高精度に特別欠陥に分類する特別欠陥分類器71を構築し得る。
【0093】
本発明は、半導体基板の画像分類だけでなく、例えば、表示装置(液晶表示装置、プラズマディスプレイまたは有機EL等)用、フォトマスク用等のガラス基板、磁気・光ディスク用のガラスまたはセラミック基板、太陽電池用のガラスまたはシリコン基板、その他フレキシブル基板の画像分類にも適用可能である。また、本発明は、生体組織、生体組織から単離した細胞または培養細胞などを撮像して得られる画像の分類にも適用可能である。さらに、本発明は、可視光により撮像される画像以外に、電子線やX線等により撮像される画像の分類にも適用可能である。また、本発明は、画像データ以外の特徴量ベクトルが定義可能な各種データ(測定データ等)の分類にも適用し得る。
【0094】
この発明は詳細に説明されたが、上記の説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。上記各実施形態および各変形例で説明した各構成は、相互に矛盾しない限り適宜組み合わせたり、省略したりすることができる。