(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
半導体基板、ガラス基板、プリント配線基板等の製造では、異物や傷、エッチング不良等の欠陥を検査するために光学顕微鏡や走査電子顕微鏡等を用いて外観検査が行われる。また、このような検査工程において検出された欠陥に対して、詳細な解析を行うことによりその欠陥の発生原因を特定し、欠陥に対する対策が施される。
【0003】
近年では、基板上のパターンの複雑化および微細化に伴い、検出される欠陥の種類および数量が増加する傾向にあり、検査工程で検出された欠陥を自動的に分類する自動欠陥分類(Automatic Defect Classification:ADC)も用いられる場合がある。自動欠陥分類によると、欠陥の解析を迅速かつ効率的に行うことが可能となっている。
【0004】
自動欠陥分類においては、ニューラルネットワークや決定木、判別分析等を利用した分類器が用いられる。分類器に自動分類を行わせるには、欠陥画像およびそのカテゴリ(すなわち、欠陥画像の種類)を示す信号を含む教師データを用意して分類器を学習させる必要がある。典型的には、各欠陥画像の欠陥の種別に対応したカテゴリを操作者が決定することにより、教師データが作成される。この教師データを用いた教師あり学習をコンピュータにおいて実行することにより、分類器が生成される。
【0005】
たとえば、特許文献1(特許4155497号)には教師あり学習を用いた欠陥分類装置が記載されている。具体的には、まず、検査対象物から実際の欠陥画像を採取し、それぞれの欠陥画像に対して特徴量抽出を行うとともに、オペレータが分類名を与えて教師データを作成する。続いて、新たに採取される欠陥画像を分類するための「分類器」は、これらの教師データを用いて構築される。
【0006】
一つの欠陥画像から抽出される特徴量は、たとえば数十〜数百個に上る場合があるため、人間が多次元の特徴量空間内における各欠陥画像の分布を直感的に想起し、各カテゴリに分類するための規則性を見つけ出すことは事実上不可能である。このため、「機械学習」の手法が用いられる。
【0007】
機械学習には、たとえば、線形判別分析、ロジスティック回帰分析、ニューラルネットワーク、遺伝的プログラミング、サポートベクタマシンなどの「識別関数」型が含まれる。機械学習によって、人間の手に余る大量の特徴量データ(超多次元データ)から有用な規則性を見出し、新たなデータに基づいて欠陥種別を予測する分類器が生成される。
【0008】
分類器の汎化能力(学習に用いた教師データだけでなく、未知の新たなデータに対する分類や関数値も正しく予測する能力)は、なるべく高いことが望ましい。そのためには、ある時点で得られた分類器による分類結果を、単に正答率だけでなく分類の妥当性や誤分類された理由などを検討することが望ましく、その手段の一つとして教師データの分析が有効と考えられる。
【0009】
これは一見、人間には高次元データの分析が困難であるという前提と矛盾するが、はじめに述べた分析はクラス間を最も良く分離する境界を求める目的で行うのに対して、ここで言う分析は主に特徴量空間内における欠陥種別ごとの分布の概略配置(大まかなクラスタ形成)といった情報を得る目的で行う。分布の状況が判れば、たとえば便宜的に欠陥種別を細かく分けるといった対応が可能になる。
【発明の概要】
【発明が解決しようとする課題】
【0011】
教師データを主成分分析して上位3つの主成分をたとえば3次元空間にプロットした場合、全体の情報の70〜80%を説明できていることが多く、これを2次元画面に擬似的に3次元表示することによって、前述のような概略情報が得られる。しかし、クラスタ形成に関してより多くの情報を得ようとするとさらに多くの主成分軸まで(たとえば、累積寄与率が90%程度となる主成分軸まで)必要なことが多く、これらを人間が自然に理解できる次元数で表現することは困難であった。
【0012】
そこで、本発明は、教師データの分布状況の把握を好適に支援する技術を提供することを目的とする。
【課題を解決するための手段】
【0013】
上記課題を解決するため、第1態様は、データを分類する分類器の学習に使用される教師データの作成を支援する教師データ作成支援装置であって、複数のカテゴリのいずれか1つが教示された教師データを主成分分析することにより、n個(ただし、nは4以上)の主成分を求める主成分分析部と、前記n個の主成分のうち、3つの主成分を3D表示用主成分軸に設定するとともに、前記3つの主成分とは異なる1つ以上の主成分を離散化用主成分軸に設定する主成分軸設定部と、前記3D表示用主成分軸で定義される空間における前記教師データの分布を、前記離散化用主成分軸のうち1つの主成分に関して複数の区間に離散化して、その区間毎の分布を示す離散化分布画像を生成する離散化分布画像生成部と、を備え、前記離散化分布画像における前記教師データの各々が、前記複数のカテゴリ毎に異なる形状、色または模様で示される。
【0014】
第2態様は、第1態様の教師データ作成支援装置であって、前記
離散化分布画像生成部は、前記離散化用主成分軸で定義される領域において閉領域を設定する領域設定部、をさらに備え、前記
離散化分布画像生成部は、前記教師データのうち、前記閉領域に含まれる教師データについてのみ、前記離散化用主成分軸のうち1つの主成分に関して離散化することにより、前記離散化分布画像を生成する。
【0015】
第3態様は、第1態様または第2態様の教師データ作成支援装置であって、前記離散化用主成分軸に設定される前記少なくとも1つの主成分が、前記3D表示用主成分軸に設定される3つの主成分よりも寄与率が大きい主成分である。
【0016】
第4態様は、第1態様から第3態様のうちのいずれか1つの教師データ作成支援装置であって、前記区間毎の離散化分布画像を表示装置に表示させる表示制御部をさらに備える。
【0017】
第5態様は、第4態様の教師データ作成支援装置であって、前記表示制御部は、前記区間毎の離散化分布画像各々を、連続的に切り替えて前記表示装置に表示させる。
【0018】
第6態様は、第
4または第5の態様の教師データ作成支援装置であって、前記表示制御部は、前記複数の区間のうちから1つを選択する入力に基づき、その選択された区間に対応する前記離散化分布画像を前記表示装置に表示させる。
【0019】
第7態様は、多次元の特徴量を有するデータを複数のカテゴリのいずれかに分類する分類装置であって、第1態様から第6態様のうちのいずれか1つの教師データ作成支援装置と、前記教師データ作成支援装置を用いて生成された前記教師データを用いた機械学習により構築された分類器とを備える。
【0020】
第8態様は、データを分類する分類器の学習に使用される教師データの作成を支援する教師データ作成支援方法であって、(a)複数のカテゴリのいずれか1つが教示された教師データを主成分分析することにより、n個(ただし、nは4以上)の主成分を求める工程と、(b)前記n個の主成分のうち、3つの主成分を3D表示用主成分軸に設定するとともに、前記3つの主成分とは異なる1つ以上の主成分を離散化用主成分軸に設定する工程と、(c)前記3D表示用主成分軸で定義される空間における前記教師データの分布を、前記離散化用主成分軸のうち1つの主成分に関して複数の区間に離散化して、その区間毎の分布を示す離散化分布画像を生成する工程とを含み、前記離散化分布画像における前記教師データの各々が、前記複数のカテゴリ毎に異なる形状、色または模様で示される。
【発明の効果】
【0021】
第1態様の教師データ作成支援装置によると、3つの主成分を軸とする空間座標上における教師データの分布を、これらとは別の主成分に関して複数の区間に離散化した画像を生成できる。このため、4つの主成分に関する教師データの分布状況を示す離散化分布画像を生成できる。これにより、オペレータが教師データの分布状況を把握することを支援できる。
【0022】
第2態様の教師データ作成支援装置によると、閉領域に含まれる教師データの分布状況を示す離散化分布画像が生成されるため、オペレータがその一部の教師データの分布状況を詳細に把握することを支援できる。
【0023】
第3態様の教師データ作成支援装置によると、教師データを寄与率が相対的に大きい主成分に関して離散化することにより、教師データを各区間に広く分散させることができる。これにより、各カテゴリの分布の特徴の把握が容易となり、カテゴリの妥当性などをオペレータが評価できる離散化分布画像を生成できる。
【0024】
第4態様の教師データ作成支援装置によると、離散化分布画像を表示装置に表示させることができる。表示装置に離散化分布画像が表示されることにより、オペレータが教師データの分布を視覚的に把握できる。
【0025】
第5態様の教師データ作成支援装置によると、時間差で各区間の離散化分布画像を表示できるため、オペレータが、各区間の教師データの分布を容易に把握することができる。
【0026】
第6態様の教師データ作成支援装置によると、オペレータが所望の区間を選択する入力を行うことにより、その区間に対応した離散化分布画像が表示される。このため、オペレータによる教師データの分布状況の把握を好適に支援できる。
【0027】
第7態様の分類装置によると、教師データ作成支援装置により、高精度な分類器を生成する上で有効な教師データを作成することができる。
【発明を実施するための形態】
【0029】
以下、添付の図面を参照しながら、本発明の実施形態について説明する。なお、この実施形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。図面においては、理解容易のため、必要に応じて各部の寸法や数が誇張又は簡略化して図示されている場合がある。
【0030】
図1は、実施形態の画像分類装置1の概略構成を示す図である。画像分類装置1では、半導体基板9上のパターン欠陥を示す欠陥画像が取得され、その欠陥画像の分類が行われる。画像分類装置1は、撮像装置2、検査・分類装置4およびホストコンピュータ5を備えている。
【0031】
撮像装置2は、半導体基板9上の検査対象領域を撮像する。検査・分類装置4は、撮像装置2によって取得された画像データに基づく欠陥検査を行う。検査・分類装置4は、欠陥が検出された場合に、その欠陥を欠陥の種別(カテゴリ)毎に分類する。半導体基板9上に存在するパターンの欠陥のカテゴリは、欠損、突起、断線、ショート、異物などを含み得る。ホストコンピュータ5は、画像分類装置1の全体動作を制御するとともに、検査・分類装置4における欠陥の分類に利用される分類器422を生成する。
【0032】
撮像装置2は、半導体基板9の製造ラインに組み込まれ、画像分類装置1はいわゆるインライン型のシステムとされ得る。画像分類装置1は、欠陥検査装置に自動欠陥分類の機能を付加した装置である。
【0033】
撮像装置2は、撮像部21、ステージ22、ステージ駆動部23を備えている。撮像部21は、半導体基板9の検査領域を撮像する。ステージ22は、半導体基板9を保持する。ステージ駆動部23は、撮像部21に対してステージ22を半導体基板9の表面に平行な方向に相対移動させる。
【0034】
撮像部21は、照明部211、光学系212および撮像デバイス213を備えている。光学系212は、半導体基板9に照明光を導く。半導体基板9にて反射した光は、再び光学系212に入射する。撮像デバイス213は、光学系212により結像された半導体基板9の像を電気信号に変換する。
【0035】
ステージ駆動部23は、ボールネジ、ガイドレール、モータ等により構成されている。ホストコンピュータ5がステージ駆動部23および撮像部21を制御することにより、半導体基板9上の検査対象領域が撮像される。
【0036】
検査・分類装置4は、欠陥検出部41および分類制御部42を有する。欠陥検出部41は、検査対象領域の画像データを処理しつつ欠陥を検出する。詳細には、欠陥検出部41は、検査対象領域の画像データを高速に処理する専用の電気的回路を有し、撮像により得られた画像と参照画像(欠陥が存在しない画像)との比較や画像処理により検査対象領域の欠陥検査を行う。分類制御部42は、欠陥検出部41が検出した欠陥画像を分類する。詳細には、各種演算処理を行うCPUや各種情報を記憶するメモリ等により構成され、特徴量算出部421および分類器422を有する。分類器422は、ニューラルネットワーク、決定木、判別分析等を利用して欠陥の分類、すなわち、欠陥画像の分類を実行する。
【0037】
図2は、実施形態の画像分類装置1による欠陥画像の分類の流れを示す図である。まず、
図1に示す撮像装置2が半導体基板9を撮像することにより、検査・分類装置4の欠陥検出部41が画像データを取得する(ステップS11)。
【0038】
続いて、欠陥検出部41が、検査対象領域の欠陥検査を行うことにより、欠陥の検出を行う(ステップS12)。ステップS12において欠陥が検出された場合(ステップS12においてYES)、欠陥部分の画像(すなわち、欠陥画像)のデータが分類制御部42へと送信される。欠陥が検出されない場合は(ステップS12においてNO)、ステップS11の画像データの取得が行われる。
【0039】
分類制御部42は、欠陥画像を受け取ると、その欠陥画像の複数種類の特徴量の配列である特徴量ベクトルを算出する(ステップS13)。その算出された特徴量ベクトルは分類器422に入力され、分類器422により分類が行われる(ステップS14)。すなわち、分類器422により欠陥画像が複数のカテゴリのいずれかに分類される。画像分類装置1では、欠陥検出部41にて欠陥が検出される毎に、特徴量ベクトルの算出がリアルタイムに行われ、多数の欠陥画像の自動分類が高速に行われる。
【0040】
図3は、ホストコンピュータ5の構成を示すブロック図である。ホストコンピュータ5は、CPU51、ROM52およびRAM53を有する。CPU51は各種演算処理を行う演算回路を含む。ROM52は基本プログラムを記憶している。RAM53は各種情報を記憶する揮発性の主記憶装置である。ホストコンピュータ5は、CPU51,ROM52およびRAM53をバスライン501で接続した一般的なコンピュータシステムの構成を備えている。
【0041】
ホストコンピュータ5は、固定ディスク54、表示装置55、入力部56、読取装置57および通信部58を備えている。これらの要素は、適宜インターフェース(I/F)を介してバスライン501に接続されている。
【0042】
固定ディスク54は、情報記憶を行う補助記憶装置である。表示装置55は、画像などの各種情報を表示する表示部である。入力部56は、キーボード56aおよびマウス56b等を含む入力用デバイスである。読取装置57は、光ディスク、磁気ディスク、光磁気ディスク等のコンピュータ読取可能な記録媒体8から情報の読み取りを行う。通信部58は、画像分類装置1の他の要素との間で信号を送受信する。
【0043】
ホストコンピュータ5は、読取装置57を介して記録媒体8からプログラム80を読み取り、固定ディスク54に記録される。当該プログラム80は、RAM53にコピーされる。CPU51は、RAM53内に格納されたプログラム80に従って、演算処理を実行する。
【0044】
図4は、ホストコンピュータ5の機能構成を示すブロック図である。ホストコンピュータ5は、多数の教師データの3次元空間における分布を示す離散化分布画像を生成する教師データ作成支援装置として機能する。以下では、教師データ作成支援装置として機能させる構成について主に説明する。
【0045】
図4に示すように、ホストコンピュータ5のCPU51は、プログラム80に従って動作することにより、主成分分析部60、主成分軸設定部62、領域設定部64、離散化分布画像生成部66および表示制御部68として機能する。
【0046】
<主成分分析部60>
主成分分析部60は、複数の教師データを主成分分析することにより、主成分を求める。教師データは、N次元の特徴量ベクトルが既知であり、かつ、欠陥のカテゴリがオペレータ等によって予め決定されているデータである。
【0047】
主成分分析(principal component analysis)は、高次元(N次元)のデータ(ここでは教師データ)を、分散が最大となるように、低次元(n次元)の主成分を求める手法である。なお、nは、Nよりも小さくかつ4以上の自然数である。すなわち、教師データ各々の特徴量ベクトルは5次元以上とされ、主成分分析により少なくとも4つの主成分が求められる。
【0048】
<主成分軸設定部62>
主成分軸設定部62は、主成分分析によって求められたn個の主成分のうちから選択される3つの主成分を3D表示用主成分軸に設定する。また主成分軸設定部62は、3D表示用主成分軸に設定された上記3つの主成分を除くn個の主成分のうちから選択される1つ以上の主成分を離散化用主成分軸に設定する。
【0049】
これらの主成分の選択は、オペレータが入力部56を介して行う選択入力に基づいて行われてもよいし、主成分軸設定部62が所定の選択条件に従って自動的に選択するようにしてもよい。後者の場合、たとえば、各主成分の寄与率(Proportion of Variance)の大きさに基づいて、主成分軸設定部62が主成分を選択することが考えられる。
【0050】
3D表示用主成分軸は、教師データ各々がプロットされる3次元空間(表示用空間)を定義する3つの軸である。離散化用主成分軸は、後述する閉領域を設定するための軸であり、最大3つまでの主成分が設定されうる。また、離散化用主成分軸のうち1つの軸(離散化用主成分軸が1つの場合はその軸)は、教師データを離散化する第4の次元の軸とする。
【0051】
<領域設定部64>
領域設定部64は、離散化用主成分軸で定義される領域において、閉領域を設定する。この閉領域は、全ての教師データ群のうち、離散化分布画像を生成する対象となる教師データ群を定義するものである。すなわち、閉領域の内側に含まれる教師データ群のみについて、後述する離散化分布画像生成部66が離散化分布画像を生成する。閉領域の設定は、オペレータが入力部56を介して行う領域設定入力に基づいて行われるとよい。
【0052】
閉領域が設定されることによって、オペレータが関心のある教師データ群に限って離散化分布画像が生成される。このため、オペレータが関心のある教師データ群だけを、別の主成分で離散化することにより、その分布状況がより見やすくなる。ただし、閉領域が設定されることは必須ではなく、たとえば、全ての教師データ群を対象として離散化分布画像が生成されてもよい。
【0053】
<離散化分布画像生成部66>
離散化分布画像生成部66は、3D表示用主成分軸で定義される3次元空間における教師データの分布を、離散化用主成分軸に関して複数の区間に離散化して、その区間毎の分布を示す離散化分布画像を生成する。なお、領域設定部64により、閉領域が設定された場合には、その閉領域に含まれる教師データ群のみについて、離散化分布画像が生成される。
【0054】
離散化分布画像においては、3次元空間における各教師データの位置が点状に示される。ただし、各教師データの位置は、各教師データが予め分類されているカテゴリ毎に異なる形状、色または模様で示される。すなわち、2つの教師データが同一のカテゴリに属する場合、これらの位置が同一の形状、色または模様で表される。また、2つの教師データが異なるカテゴリに属する場合、これらの位置が異なる形状、色または模様で表される。このため、離散化分布画像においては、各教師データの位置(分布位置)がカテゴリ毎に識別可能とされている。
【0055】
<表示制御部68>
表示制御部68は、表示装置55における表示を制御する。ここでは、表示制御部68は、表示装置55における、離散化分布画像生成部66によって生成された離散化画像の表示を制御する。
【0056】
表示制御部68は、区間毎の離散化分布画像各々を、連続的に切り替えて表示装置55に表示させる。以下、この表示を「動画表示」と称する。また、表示制御部68は、複数の区間の中から1つを選択する入力に基づき、その選択された区間に対応する離散化分布画像を表示装置55に表示させる。
【0057】
なお、表示制御部68が表示装置55に動画表示を行わせることは必須ではない。たとえば、表示制御部68が、全ての区間の離散化分布画像を一列にまたは複数列に並べて表示させてもよい。以下、このような表示を「並列表示」と称する。
【0058】
<動作例>
図5は、ホストコンピュータ5において、離散化分布画像を表示装置55に表示する表示動作の流れを示すフローチャートである。
図5に示す各工程は、ホストコンピュータ5のCPU51がプログラム80に従って動作することにより実現される。
【0059】
ここでは、まず、複数の教師データが準備される(ステップS1)。教師データは、欠陥画像を示すデータであり、N次元(Nは5以上)の特徴量ベクトルが特定されており、かつ、その欠陥画像が属するカテゴリ(欠陥カテゴリ)が特定されている。すなわち、各教師データは、欠陥画像、特徴量ベクトル及びカテゴリの各情報で構成される。
【0060】
なお、ここで使用される各教師データのカテゴリは、オペレータがその欠陥画像から判断して与えたものであることが望ましいが、これは必須ではなく、たとえば、分類器422が機械学習に基づいて与えたものであってもよい。
【0061】
続いて、主成分分析部60が、複数の教師データを読み込み、主成分分析を行う(ステップS2)。上述したように、主成分分析部60は、n個の主成分を算出する。また、各教師データの特徴量ベクトルは、N個の特徴量で表される情報からn次元の各主成分で表される情報に適宜変換される。この変換は、主成分分析部60が行うとよい。
【0062】
図6は、主成分分析によって得られた主成分毎の標準偏差、寄与率および累積寄与率を示す図である。
図6に示す例は、5280個の教師データを主成分分析した結果である。各教師データは、174個(174次元)の特徴量ベクトルと、4つのカテゴリ(具体的には、「異物」、「不良黒」、「気泡」および「分類対象外」)が教示されている。
図7は、各カテゴリの代表的な欠陥画像DFi1〜DFi4を示す図である。
【0063】
図6においては、第1主成分から第14主成分までの標準偏差(Standard deviation)、寄与率(Proportion of Variance)および累積寄与率(Cumulative Proportion)が列記されている。なお、
図6および以降の各図では、各主成分を表記する際、主成分の番号に従い「PC1」〜「PC14」のように表記する場合がある(PC:Principal Component)。
図6に示す例において、累積寄与率を参照すると、全データのおよそ98%を説明するためには第13主成分(PC13)まで必要であり、全データのおよそ90%を説明するためには第7主成分まで必要であることが判る。
【0064】
図5に戻って、ステップS2の主成分分析が完了すると、主成分軸設定部62が、3D表示用主成分軸および離散化用主成分軸の設定を行う(ステップS3)。詳細には、上述したように、n個の主成分のうちから、3D表示用主成分軸として3つの主成分が、離散化用主成分軸として1つ以上の主成分が、オペレータの選択入力に基づいてそれぞれ選択される。一例として、表示制御部68が主成分を選択するための画像を表示装置55の画面上に表示させるとよい。そして、オペレータが、その画面上において、入力部56を介して選択入力(たとえば、カーソルを移動させる操作入力、または、数値などの入力)を行うとよい。なお、離散化用主成分軸として2つ以上の主成分が選択された場合、選択された離散化用主成分軸を合成し1つの離散化用主成分軸として用いてもよい。
【0065】
図8は、教師データの分布を擬似3Dで表した分布画像Di1を示す図である。分布画像Di1は、奥行き方向に延びる第1主成分(PC1)の軸、横方向に延びる第2主成分(PC2)の軸、縦方向に延びる第3主成分(PC3)の軸で定義された3次元空間における教師データの分布を示している。また、3次元空間における各教師データの位置は、欠陥カテゴリ毎に異なる形状で示されている。具体的には、「異物」が円形状(○)、「不良黒」が四角形状(□)、「気泡」が三角形状(黒塗りの△)、「分類対象外」がクロス形状(×)で示されている。このような分布画像Di1が生成されることにより、オペレータが、3つの主成分に関する3次元空間における教師データの分布状況を、視覚的に把握可能となる。
【0066】
図5に戻って、ステップS3にて各主成分軸が設定されると、領域設定部64が閉領域の設定を行う(ステップS4)。具体的には、上述したように、離散化用主成分軸で定義される領域において、閉領域が設定される。
【0067】
この閉領域の設定に当たっては、たとえば、表示制御部68が、離散化用主成分軸で定義される領域中の教師データの分布を示す分布画像を表示装置55に表示させるとよい。たとえば、離散化用主成分軸として3つの主成分が設定された場合、
図8に示す3次元空間(ただし、3つの主成分は異なる)における教師データ群の分布画像が表示される。そして、オペレータは、その分布画像から教師データの全体の分布状況を確認し、その教師データ群のうち第4の主成分(離散化用主成分軸の1つ)に関して離散化させたい教師データ群が含まれるように閉領域を指定する入力を行う。この入力に基づいて、領域設定部64が閉領域を設定するとよい。
【0068】
なお、オペレータが所定操作を行うことにより、表示制御部68が、教師データ群の分布画像の拡大率を変更して表示装置55に表示させてもよい。このことにより、教師データの分布の一部分が拡大して表示されるため、オペレータが分布状況をより詳細に把握し得る。
【0069】
また、オペレータが、1つの軸における特定の数値範囲のみを選択する操作を行うことにより、表示制御部68がその数値範囲にある教師データのみを分布画像として表示させてもよい。この場合、数値範囲を適切に設定することにより、たとえば、全体の分布の内側にある隠れた教師データのみの分布を、オペレータが確認し得る。
【0070】
また、オペレータが所定操作を行うことにより、表示制御部68が離散化用主成分軸で構成される座標系を回転させて表示装置55に表示させてもよい。たとえば、座標系を回転させることにより、教師データの分布も回転するため、オペレータがその分布を様々な方向から見ることが可能となる。特に、離散化用主成分軸が3軸ある場合(すなわち、教師データが3次元空間に分布する場合)、座標系を回転させることは有効である。
【0071】
なお、上述したように、ステップS4において、閉領域を設定することは必須ではない。閉領域を設定しない場合、全ての教師データ群が、後述する離散化処理の対象とされ得る。
【0072】
続いて、離散化分布画像生成部66が、離散化分布画像を生成する処理を行う(ステップS5)。また、表示制御部68が、生成された離散化画像を、表示装置55に表示させる(ステップS6)。詳細には、離散化分布画像生成部66は、ステップS4において設定された閉領域に含まれる教師データ群を、ステップS2で設定された第4の主成分(離散化用主成分軸の1つ)に関して複数の区間に離散化させる。離散化の手法としては、等間隔区間による離散化(Equal Width Discretization; EWD)や等頻度区間による離散化(Equal Frequency; EFD)など、種々の方法を採用し得る。
【0073】
図9は、離散化分布画像DDa1〜DDa20を示す図である。
図9では、離散化用主成分軸を1つの第4主成分(PC4)として、教師データ群を等頻度区間で区間1aから区間20aまでの20個の区間に離散化させたときの、各区間の離散化分布画像DDa1〜DDa20を示している。
図9に示すように、区間1a〜20a各々の離散化分布画像DDa1〜DDa20は、第1〜第3主成分に対応する3D表示用主成分軸で定義された3次元空間における教師データの分布を示している。ただし、離散化分布画像DDa1〜DDa20各々は、第4主成分について各区間に含まれる教師データのみの分布が示されている。すなわち、たとえば区間k(kは1から20の自然数)の離散化分布画像DDakについては、特徴量の第4主成分がその区間kに属する教師データ群のみが擬似的な3次元空間上に出現することとなる。
【0074】
離散化分布画像DDa1〜DDa20が生成されることにより、3次元空間における教師データの分布状況だけでなく、その3次元空間に対応する3つの主成分とは別の第4の主成分の方向に関する各教師データの分布状況を、オペレータが直感的に把握できる。つまり、オペレータは、教師データの分布状況を、4次元で視覚的に把握できる。
【0075】
なお、区間毎の離散化分布画像DDa1〜DDa20を表示装置55に表示する場合、
図9に示すように複数列に並べて表示する並列表示が行われてもよいが、これらの画像を連続的に切り替えて表示する動画表示が行われてもよい。
【0076】
図10は、離散化分布画像DDa1〜DDa20を動画表示する場合の表示例を示す図である。
図10に示す例では、表示装置55の画面W1に、離散化分布画を表示する領域R1と、区間を表示する領域R2とが定義されている。また、画面W1には、領域R1における離散化分布画像の表示を制御するための各種操作部を表示する領域R3が定義されている。具体的に、領域R3には、再生ボタンBT1、一時停止ボタンBT2、停止ボタンBT3およびシークバーSB1が用意されている。
【0077】
再生ボタンBT1が押下操作されることにより、領域R1において区間1aから区間20aの各離散化分布画像DDa1〜DDa20が、順に切り替わるように表示される。また、離散化分布画像DDa20が表示された後、再び離散化分布画像DDa1が表示されるように、ループ再生が行われてもよい。
【0078】
一時停止ボタンBT2または停止ボタンBT3が押下操作されることにより、領域R1における離散化分布画像の切り替わり表示(再生)が停止される。なお、一時停止ボタンBT2が押下操作された場合は、その押下操作がなされたときに表示されていた離散化分布画像が領域R1に表示されたままの状態で再生が停止される。
【0079】
シークバーSB1上のスライダーの位置は、領域R1に切り替え表示される離散化分布画像の再生位置(区間)を表している。スライダーを横方向に移動させる操作が行われることにより、その位置に対応した区間の離散化分布画像が領域R1に表示される。
【0080】
このように、生成された離散化分布画像DDa1〜DDa20が連続的に切り替わって表示させることにより、オペレータが、各区間の教師データの分布を容易に把握することができる。また、シークバーSB1のように、区間を選択する入力が受け付けられることにより、その区間の離散化分布画像を表示できる。このため、オペレータが教師データの分布状況を把握することを好適に支援できる。
【0081】
また、
図10では説明の便宜上、離散化用主成分軸に対応するシークバーSB1等が設けられた領域R3を1つのみ図示して説明を行った。しかし、例えば、離散化用主成分軸が2つまたは3つ選択されるような場合は、シークバー等を設けた領域R3が2つまたは3つ設けられることとなる。つまり、選択される離散化用主成分軸の数に応じて表示を制御するための各種操作部が設けられ、各離散化用主成分軸で規定される領域の離散化分布画像が表示される。
【0082】
なお、
図9に示す離散化分布画像DDa1〜DDa20からは、たとえば「気泡」(黒塗りの△)が第4主成分の特定範囲(たとえば、区間5a〜区間20a)に分布することは判るが、それ以外の分布の特性は不明である。これは、
図6に示すように、第4主成分の寄与率が5.4%と低い(すなわち、分散が小さい)ため、人間にとっては、その第4主成分に関する区間の変化による分布の違いを読み取ることが困難であるからと考えられる。
【0083】
図11は、教師データの分布を擬似3Dで表した分布画像Di2を示す図である。また、
図12は、離散化分布画像DDb1〜DDb20を示す図である。ここでは、
図11に示すように、第2〜第4主成分が3D表示用主成分軸に設定されている。そして、第1主成分(PC1)が離散化用主成分軸に設定されている。さらに、教師データ群を等頻度区間で20個の区間1b〜20bに離散化することにより、
図12の離散化分布画像DDb1〜DDb20が生成されている。
【0084】
図12に示す例では、「気泡」のクラスタがより明瞭になるほか、「異物」は大まかに区間1b〜3bと区間16b〜20bの2つのクラスタを形成する可能性を読み取ることが可能となっている。このように、比較的寄与率の大きい(すなわち、分散が大きい)主成分を、第4の次元(離散化用主成分軸)に対応付けることにより、人間にとって、区間毎の分布の違いの把握が容易となる。具体的には、離散化用主成分軸に設定する主成分を、3D表示用主成分軸に設定した主成分(ここでは第2〜第4主成分)よりも寄与率の大きい主成分(ここでは第1主成分)とするとよい。
【0085】
図13は、教師データの分布を擬似3Dで表した分布画像Di3を示す図である。また、
図14は、離散化分布画像DDc1〜DDc20を示す図である。ここでは、
図13に示すように、第4〜第6主成分(PC4〜PC6)が3D表示用主成分軸に設定されている。そして、第1主成分(PC1)が離散化用主成分軸に設定されている。そして、教師データ群を20個の区間1c〜20cに離散化することにより、
図14の離散化分布画像DDc1〜DDc20が生成されている。
【0086】
このように主成分を選択した場合、
図14に示すように、「気泡」と教示された教師データ(黒塗りの△)は、区間16c〜20cで、小さな3つのクラスタを形成している。このことから、寄与率が比較的低い第4〜第6主成分(PC4〜PC6)も、クラスタの微細構造に関わり得る情報であるから、可視化する上では重要な要素であると考えられる。
【0087】
また、
図14を参照すると、「異物」と教示された教師データの分布(丸形状で示される座標は、区間1cの辺りと、区間20cの辺りとで大きく二つのクラスタを形成していると考えられる。このことから、「異物」と教示された教師データについては、さらに2つに分類可能であることが推測される。
【0088】
図14に示す各区間の分布は、第1〜第3主成分を離散化用主成分軸に設定し、この3次元空間に分布する教師データ(
図8の分布画像Di1)のうち、第1主成分の軸に関して、α<第1主成分<α+δであるような「厚み」を持つ平面状の領域内にあるデータだけを、第4〜第6主成分の張る3次元空間にプロットしたものといえる。ここで、データを選び出す領域は、このような厚みを持つ平面状の領域に限定されない。たとえば、立方体、直方体、どれかの軸に平行な直線(または角柱)、あるいは、離散化用主成分軸で定義される領域(たとえば、第1〜第3主成分に対応する3次元空間)全体に置き換えてもよい。
【0089】
教師データを主成分分析し、最大で上位3つまでの主成分軸(離散化用主成分軸)を設定し、それらを座標軸とした空間を考えると共に、各軸を適切な小区間に分割する。そして、空間内で選択した小領域に含まれる教師データだけを、別途適切に選んだ主成分を座標軸(3D表示用主成分軸)とする空間にプロットする。この画像が、離散化用分布画像となる。
【0090】
以上のように、主成分分析による次元削減を行ってもなお4以上の次元数となる教師データについて、上記離散化画像を生成することによって、3つの次元にさらにもう1つの次元の情報が加味された教師データの分布状況をオペレータに提示できる。この分布状況から、オペレータは、たとえば、カテゴリ毎の分布の概略位置(大まかなクラスタ形成)といった情報を得ることができる。オペレータは、この情報に基づき、カテゴリの設定の適否を評価して、たとえば便宜的にカテゴリをさらに細かく分ける、あるいは、新たなカテゴリを追加するといった対応を採ることができる。このように、分類対象のデータについて、分類先となるカテゴリを適切に設定することが可能となる。したがって、上記離散化画像を生成することにより、分類精度の高い分類器を構築する上で有効な教師データを作成することが可能となる。
【0091】
なお、本発明は、半導体基板の画像分類だけでなく、たとえば、表示装置(液晶表示装置、プラズマディスプレイまたは有機EL等)用、フォトマスク用等のガラス基板、磁気・光ディスク用のガラスまたはセラミック基板、太陽電池用のガラスまたはシリコン基板、その他フレキシブル基板の画像分類にも適用可能である。また、本発明は、生体組織、生体組織から単離した細胞または培養細胞などを撮像して得られる画像の分類にも適用可能である。さらに、本発明は、可視光により撮像される画像以外に、電子線やX線等により撮像される画像の分類にも適用可能である。また、本発明は、画像データ以外の特徴量ベクトルを定義可能な各種データ(測定データ等)の分類にも適用し得る。
【0092】
また、本発明は、離散化分布画像生成部66は、3D表示用主成分軸で定義される3次元空間における教師データの分布を、離散化用主成分軸に関して、互いに重複しない複数の区間に離散化して、その区間毎の分布を示す離散化分布画像を生成し、表示制御部68によって、区間毎の離散化分布画像各々を連続的に切り替えて表示している。しかしながら、教師データの分布を、離散化用主成分軸に関して、互いに重複を有する複数の区間に離散化してもよい。すなわち、3D表示用主成分軸で定義される3次元空間における教師データの分布を、離散化用主成分軸に関して所定の区間幅を設定し、当該区間幅よりも小さい間隔でシフトさせることによって区間を連続的に規定し、この区間毎の分布を示す離散化分布画像を生成してもよい。これにより、教師データの分布の変化をより詳細に観察することが可能となるため、クラス設定の妥当性などの判断を適切に支援することができる。
【0093】
この発明は詳細に説明されたが、上記の説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。上記各実施形態及び各変形例で説明した各構成は、相互に矛盾しない限り適宜組み合わせたり、省略したりすることができる。