(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-18
(54)【発明の名称】表面を識別する原子間力顕微鏡法
(51)【国際特許分類】
G01Q 30/04 20100101AFI20220111BHJP
G01Q 60/24 20100101ALI20220111BHJP
G01Q 80/00 20100101ALI20220111BHJP
G01N 33/543 20060101ALI20220111BHJP
G01N 33/50 20060101ALI20220111BHJP
【FI】
G01Q30/04
G01Q60/24
G01Q80/00 121
G01N33/543 595
G01N33/50 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021525318
(86)(22)【出願日】2019-11-07
(85)【翻訳文提出日】2021-07-05
(86)【国際出願番号】 US2019060225
(87)【国際公開番号】W WO2020097302
(87)【国際公開日】2020-05-14
(32)【優先日】2018-11-28
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-11-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】319009901
【氏名又は名称】トラスティーズ オブ タフツ カレッジ
(74)【代理人】
【識別番号】100117606
【氏名又は名称】安部 誠
(74)【代理人】
【識別番号】100136423
【氏名又は名称】大井 道子
(74)【代理人】
【識別番号】100154449
【氏名又は名称】谷 征史
(72)【発明者】
【氏名】ソコロフ, イゴール
(72)【発明者】
【氏名】ミリュコビッチ, ミロス
【テーマコード(参考)】
2G045
【Fターム(参考)】
2G045AA24
2G045AA25
2G045AA26
2G045CB01
2G045CB03
2G045FA01
2G045JA01
2G045JA07
(57)【要約】
方法は、原子間力顕微鏡を使用することと、表面に関連付けられた1組の画像を取得することと、画像に適用される機械学習アルゴリズムを使用することと、表面を分類することとを含む。特定の例として、分類は、画像を直接使用するのではなく、画像から導出された表面パラメータに依拠する方法で行うことができる。
【特許請求の範囲】
【請求項1】
原子間力顕微鏡を使用して、表面に関連付けられた1組の画像を取得することと、前記画像を結合することと、前記結合された画像に適用される機械学習法を使用することと、前記表面を分類することとを含む方法。
【請求項2】
前記画像を処理して、表面パラメータを取得することと、機械学習を使用して、少なくとも部分的に前記表面パラメータに基づいて前記表面を分類することとを更に含む、請求項1に記載の方法。
【請求項3】
前記1組の画像を取得することは、リンギングモードでマルチチャネル原子間力顕微鏡を使用することを含み、前記原子間力顕微鏡の各チャネルは、前記表面の対応する表面属性を示す情報を提供する、請求項1に記載の方法。
【請求項4】
前記表面を被験者の尿から収集された細胞の表面であるものとして選択することと、癌を示すか、又は癌を示さないものとして前記細胞を分類することとを更に含む、請求項1に記載の方法。
【請求項5】
前記原子間力顕微鏡を使用することは、マルチチャネル原子間力顕微鏡を使用することを含み、各チャネルは、前記表面の表面属性に対応する、請求項1に記載の方法。
【請求項6】
前記原子間力顕微鏡を使用することは、前記原子間力顕微鏡を準共振タッピングモードで使用することを含む、請求項1に記載の方法。
【請求項7】
原子間力顕微鏡を使用することは、それぞれが前記表面の異なる表面属性に対応する複数のチャネルの情報を取得することを含み、前記方法は、前記チャネルにより提供された情報を凝縮することと、前記凝縮された情報から凝縮データベースを構築することとを更に含む、請求項1に記載の方法。
【請求項8】
前記チャネルにより提供される前記情報に基づいて第1のデータベースを形成することを更に含み、前記凝縮データベースを構築することは、前記第1のデータベースを前記第1のデータベースよりも低い次元のサブ空間に投影することを含み、前記投影は前記凝縮データベースを定義し、前記凝縮データベースは、前記第1のデータベースよりも低い次元を有する、請求項7に記載の方法。
【請求項9】
前記チャネルにより提供される前記情報に基づいて第1のデータベースを形成することを更に含み、前記第1のデータベースはインデックスを有し、前記方法は、前記第1のデータベースから凝縮データベースを導出することを更に含み、前記凝縮データベースは、前記第1のデータベースよりも少数のインデックスを有する、請求項7に記載の方法。
【請求項10】
前記凝縮データベースを導出することは、テンソル加算を実行して、前記第1のデータベースからの情報を前記第1のデータベースの1つ又は複数のインデックスに対応する1つ又は複数のスライスと共に結合するテンソル和を生成することと、前記テンソル和を使用して前記凝縮データベースを形成することとを含む、請求項9に記載の方法。
【請求項11】
前記第1のデータベースから凝縮データベースを導出することは、前記第1のデータベースからの値のサブセットを定義することであって、前記値のそれぞれは前記第1のデータベース内の対応する要素を表すことと、前記値のサブセット内の前記値から凝縮値を導出することと、前記凝縮値を用いて前記第1のデータベースからの前記対応する要素を表すこととを含み、前記凝縮値を導出することは、前記値のサブセット内の前記値を総和することを含む、請求項9に記載の方法。
【請求項12】
前記値を総和することは、テンソル加算を実行して、前記第1のデータベースからの値を前記第1のデータベースの対応するインデックスに対応する1つ又は複数のスライスと共に結合するテンソル和を生成することと、前記テンソル和を使用して凝縮データベースを形成することとを含む、請求項11に記載の方法。
【請求項13】
前記第1のデータベースから凝縮データベースを導出することは、前記第1のデータベースからの値のサブセットを定義することと、前記値のそれぞれは前記第1のデータベース内の対応する要素を表すことと、前記値のサブセット内の前記値から凝縮値を導出することと、前記凝縮値を用いて前記第1のデータベースからの前記対応する要素を表すこととを含み、前記凝縮値を導出することは、前記値のサブセット内の前記値の平均を計算することを含む、請求項9に記載の方法。
【請求項14】
前記値の平均を計算することは、算術平均を取得することを含む、請求項13に記載の方法。
【請求項15】
前記値の平均を計算することは、幾何平均を取得することを含む、請求項13に記載の方法。
【請求項16】
前記第1のデータベースから凝縮データベースを導出することは、前記第1のデータベースからの値のサブセットを定義することと、前記値のそれぞれは前記第1のデータベース内の対応する要素を表すことと、前記値のサブセット内の前記値から凝縮値を導出することと、前記凝縮値を用いて前記第1のデータベースからの前記対応する要素を表すこととを含み、前記凝縮値は、前記値のサブセット内の前記値の最大又は最小の一方である、請求項9に記載の方法。
【請求項17】
前記第1のデータベースから凝縮データベースを導出することは、前記第1のデータベースからの値のサブセットを定義することと、前記値のそれぞれは前記第1のデータベース内の対応する要素を表すことと、前記値のサブセット内の前記値から凝縮値を導出することと、前記凝縮値を用いて前記第1のデータベースからの前記対応する要素を表すこととを含み、前記凝縮値を導出することは、情報を前記第1のデータベースから表面パラメータ抽出機に通して、表面パラメータセットを取得することを含む、請求項9に記載の方法。
【請求項18】
導出元の画像の表面エリアから独立するものとして前記表面パラメータセットを表す前記表面パラメータを正規化することを更に含む、請求項17に記載の方法。
【請求項19】
前記表面パラメータを同じ次元の別のパラメータで除することを更に含む、請求項17に記載の方法。
【請求項20】
前記方法は、試料の画像がアーチファクトを有することを自動的に検出することと、前記画像を前記表面の分類に使用されるものから自動的に除外することとを更に含む、請求項1に記載の方法。
【請求項21】
試料の画像を区画に分割することと、各区画の表面パラメータを取得することと、各区画の前記表面パラメータのメジアンとして細胞の表面パラメータを定義することとを更に含む、請求項1に記載の方法。
【請求項22】
前記画像を処理して、表面パラメータを取得することと、機械学習を使用して、少なくとも部分的に前記表面パラメータに基づいて外部導出パラメータから前記表面を分類することとを更に含む、請求項1に記載の方法。
【請求項23】
前記表面は、収集された試料から導出されるボディの表面であり、前記試料の少なくとも1つは、ボディを有さないボディフリー試料であり、前記方法は、前記ボディフリー試料からのボディの不在を示すデータを含むものとして前記外部導出パラメータを選択することを更に含む、請求項22に記載の方法。
【請求項24】
人工表面パラメータを前記ボディフリー試料に割り当てることを更に含む、請求項23に記載の方法。
【請求項25】
前記表面は、患者から取得される試料から導出される細胞の表面であり、前記方法は、前記患者が特定の疾患を有する確率を示すデータを含むものとして前記外部導出パラメータを選択することを更に含む、請求項22に記載の方法。
【請求項26】
前記確率を示す前記データは、前記患者の年齢を含む、請求項25に記載の方法。
【請求項27】
前記確率を示す前記データは、前記患者の喫煙習慣を含む、請求項25に記載の方法。
【請求項28】
前記確率を示す前記データは、前記患者の家族歴を含む、請求項25に記載の方法。
【請求項29】
前記方法は、前記表面パラメータのサブセットを定義することと、前記サブセットに基づいてデータベースを生成することとを更に含み、表面パラメータの前記サブセットを定義することは、前記表面パラメータ間の相関を特定することと、前記相関を閾値と比較して、1組の相関パラメータを識別することと、前記1組の相関パラメータのサブセットを表面パラメータの前記サブセットに含めることとを含む、請求項2に記載の方法。
【請求項30】
前記方法は、前記表面パラメータのサブセットを定義することと、前記サブセットに基づいてデータベースを生成することとを更に含み、表面パラメータの前記サブセットを定義することは、前記表面パラメータ間の相関行列を特定することを含み、前記相関行列を特定することは、シミュレートされた表面を生成することを含む、請求項2に記載の方法。
【請求項31】
前記方法は、前記表面パラメータのサブセットを定義することと、前記サブセットに基づいてデータベースを生成することとを更に含み、表面パラメータの前記サブセットを定義することは、同じ試料から同種類の異なる表面パラメータを結合することを含む、請求項2に記載の方法。
【請求項32】
機械学習法を使用することは、ランダムフォレスト法を使用することを含む、請求項1に記載の方法。
【請求項33】
機械学習法を使用することは、エクストリームランダム化フォレスト法を使用することを含む、請求項1に記載の方法。
【請求項34】
機械学習法を使用することは、勾配ブースティングツリー法を使用することを含む、請求項1に記載の方法。
【請求項35】
機械学習法を使用することは、ニューラルネットワークを使用することを含む、請求項1に記載の方法。
【請求項36】
機械学習法を使用することは、勾配ブースティングツリー、エクストリームランダム化フォレスト法、及びランダムフォレスト法からなる群から選択される少なくとも2つの方法を使用することを含む、請求項1に記載の方法。
【請求項37】
機械学習法を使用することは、決定木法を使用することを含む、請求項1に記載の方法。
【請求項38】
前記表面は、患者からの第1の複数の細胞の表面であり、第2の複数の前記細胞は癌罹患患者からのものとして分類されており、第3の複数の前記細胞は非癌患者からのものとして分類されており、前記方法は、前記第1の複数に対する前記第2の複数の比率が所定の閾値を超える場合、前記患者を癌として診断することを更に含む、請求項1に記載の方法。
【請求項39】
前記原子間力顕微鏡は、カンチレバーと、前記カンチレバーの先端部に配置された探針とを備え、前記カンチレバーは共振周波数を有し、前記原子間力顕微鏡を使用することは、前記探針と前記表面との間の距離を前記共振周波数未満の周波数で振動させることを含む、請求項1に記載の方法。
【請求項40】
前記原子間力顕微鏡を使用することは、試料表面の異なる物理的属性に対応する複数のチャネルの情報を出力するように構成された顕微鏡を使用することを含む、請求項1に記載の方法。
【請求項41】
前記画像を処理して、表面パラメータを取得することと、機械学習を使用して、少なくとも部分的に前記表面パラメータに基づいて外部導出パラメータから前記表面を分類することとを更に含み、前記表面は、患者から取得された試料から導出される細胞の表面であり、前記試料の少なくとも1つは、前記患者からの細胞を有さない細胞なし試料であり、前記方法は、前記細胞なし試料からの細胞の不在を示すデータを含むものとして前記外部導出パラメータを選択することを更に含む、請求項1に記載の方法。
【請求項42】
人工表面パラメータを前記細胞なし試料に割り当てることを更に含む、請求項41に記載の方法。
【請求項43】
前記画像は細胞の画像であり、前記方法は、細胞の画像がアーチファクトを有することを自動的に検出することと、前記画像を前記表面の分類に使用されるものから自動的に除外することとを更に含む、請求項1に記載の方法。
【請求項44】
前記画像は細胞の画像であり、前記方法は、シンプルの画像を区画に分割することと、各区画の表面パラメータを取得することと、各区画の前記表面パラメータのメジアンとして前記細胞の表面パラメータを定義することとを更に含む、請求項1に記載の方法。
【請求項45】
表面に関連付けられた画像を取得する原子間力顕微鏡と、前記原子間力顕微鏡から、前記画像を表す信号を受信し、前記画像を結合する処理システムとを備える装置であって、前記処理システムは、機械学習モジュールと、前記機械学習モジュールから分類の基礎を学習した後、未知の試料を分類する分類器とを備える、装置。
【請求項46】
前記処理システムは、前記画像を処理して、表面パラメータを取得し、前記機械学習モジュールを使用して、少なくとも部分的に前記表面パラメータに基づいて前記表面を分類するように構成される、請求項45に記載の装置。
【請求項47】
前記原子間力顕微鏡は、各チャネルが前記表面の表面属性に対応するマルチチャネル原子間力顕微鏡を含む、請求項46に記載の装置。
【請求項48】
前記処理システムは、前記チャネルにより提供された情報を凝縮し、前記凝縮された情報から凝縮データベースを構築する凝縮器を備える、請求項47に記載の装置。
【請求項49】
前記凝縮データベースに基づいて未知の試料を分類する分類器を更に備える、請求項48に記載の装置。
【請求項50】
前記凝縮器は、第1のデータベースを前記第1のデータベースよりも低い次元のサブ空間に投影することにより前記凝縮データベースを構築するように構成され、前記投影は前記凝縮データベースを定義し、前記凝縮データベースは、前記第1のデータベースよりも低い次元を有する、請求項48に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、米国仮特許出願第62/756,958号明細書の優先日2018年11月7日及び米国仮特許出願第62/772,327号明細書の優先日2018年11月28日の利益を主張するものであり、これらの内容は参照により本明細書に援用される。
【0002】
本発明は、原子間力顕微鏡法及び機械学習を表面の特徴を使用して、その表面を分類又は識別することに関する。特に、特徴を使用して生体細胞を識別又は分類することに関する。
【背景技術】
【0003】
原子間力顕微鏡法では、カンチレバーの先端部に取り付けられた探針が試料の表面を走査する。一動作モードでは、探針は、走査する際に表面を軽く叩く。探針が試料を走査する際、探針が試料に対して及ぼす荷重力に関連付けられた力ベクトルの大きさ及び方向を制御することが可能である。
【0004】
平衡位置からのカンチレバーの偏向は、大量の情報を抽出することができる信号を提供する。一例として、荷重力又はカンチレバーの偏向を一定に保つことにより、試料の種々の点における試料のトポロジを取得することが可能である。次に、各点で収集された値はアレイに編成され、アレイでは、行及び列が、二次元座標系における点の場所を識別し、行及び列における値が、そのポイントで測定された属性を表す。したがって、その結果生成される数のアレイはマップとして見ることができる。これは、マップの各点がその点における試料表面の何らかの属性を示す試料のマップを作成できるようにする。幾つかの例では、属性は、何らかの基準面よりも上又は下の表面の高さである。
【0005】
しかしながら、表面高さの画像は、走査時に記録することができる唯一の画像ではない。カンチレバーの偏向は、試料表面の複数の画像を収集するのに使用することができ、各画像は表面の異なる属性のマップである。これらの属性のほんの少数の例には、探針と表面との付着力、表面の剛性、及び粘弾性エネルギー損失がある。
【発明の概要】
【課題を解決するための手段】
【0006】
本発明は、原子間力顕微鏡により取得された多次元画像を使用して表面を識別し、これらの画像からの情報を使用して、表面を幾つかのクラスの1つに分類する方法を提供する。本発明によれば、空間次元に対応する、空間次元に対応する2つの次元と、2つの空間次元により識別される座標に存在する異なる物理的及び空間的属性に対応する追加の次元とを有する表面の多次元画像を取得することが可能である。幾つかの実施形態では、次元は横寸法である。
【0007】
生じる問題は、表面の識別及び分類のために、これらの異なる物理的及び空間的属性をいかに選び、いかに使用するかである。本発明によれば、表面の識別及び分類に使用される属性は、予め決められない。表面の識別及び分類に使用される属性は、画像のデータベース及び対応するクラスに適用される機械学習の結果に基づいて計算される。表面の識別及び分類に使用される属性は学習される。特に、表面の識別及び分類に使用される属性は、機械学習により学習される。
【0008】
本発明の実施形態の中には、原子間力顕微鏡を使用して、表面の異なる属性に対応する異なるマップを取得し、これらのマップ又はこれらのマップから導出されるパラメータの組合せを使用して、試料表面を識別又は分類することを含む実施形態がある。そのような方法は、明確に定義されたクラスに属する表面の例の原子間力顕微鏡画像を記録することと、そのような原子間力顕微鏡マップに、属するクラスが関連付けられるデータベースを形成することと、そうして取得された原子間力顕微鏡マップ及びその組合せを使用して、データベースをトレーニングデータ及びテストデータに分割することにより、表面をいかに分類するかを学習することであって、トレーニングデータは、例えば、決定木、又はニューラルネットワーク、又はそれらの組合せを構築することによりいかに分類するかを学習するのに使用されることと、テストデータを使用して、そうして学習された分類が、所与の有効性閾値に合格するのに十分効率的であることを確認することとを含む。
【0009】
別の実施形態は、原子間力顕微鏡により提供されたマップを1組の表面パラメータに縮小することを含み、1組の表面パラメータの値は、それらの属性を入力として使用する数学的関数又はアルゴリズムにより定義される。好ましい実施では、各マップ又は画像は、他の表面パラメータと一緒に、表面の分類又は識別に使用することができる表面パラメータをもたらす。そのような実施形態では、これらの表面パラメータに基づいて分類する分類器が存在する。しかしながら、分類器自体は予め決められない。分類器は、上述したように機械学習手順を通して学習される。
【0010】
本方法は、表面の性質に依存しない。例えば、本方法は、偽造を見分けるために、絵画、又は通貨、又は出生証明書又はパスポート等のセキュア文書の表面を分類するのに本方法を使用し得る。しかし、種々の疾患を識別するために、生体の細胞又は他の部分の表面を分類するのにも同じ方法を使用し得る。例えば、種々の癌は、特定の表面シグネチャを有する細胞を有する。したがって、本方法は、種々の種類の癌の検出に使用することができる。
【0011】
調べる細胞を正確に取得することは困難である。幾つかの場合、侵襲的手順が求められる。しかしながら、体から自然に剥がれ落ち、又は最小の侵襲性でもってのみ体から抽出することができる特定の種類の細胞がある。一例は、子宮頸部細胞診での頸部表面を優しく擦るものである。自然に剥がれ落ちる細胞の中には、膀胱を含む尿路からの細胞がある。したがって、本方法は、膀胱鏡検査等の侵襲性で高価な手順の必要性なしでこれらの細胞を検査し、膀胱癌を検出するのに使用することができる。
【0012】
本発明は、例えば、準共振タッピングモードを使用する場合、物理的属性の多次元アレイを生成することができる原子間力顕微鏡を使用することを特徴とする。幾つかの実施では、1組の画像を取得することは、体液から収集された細胞の表面のナノスケール分解能走査を実行するモードにおいて、原子間力顕微鏡を使用することと、原子間力顕微鏡走査手順から取得されたデータを、試料が、以下「癌罹患患者」と呼ばれる癌を有する患者からのものである確率の指示を提供する機械学習システムに提供することとを含む。本方法は一般に、表面属性に基づいて細胞を分類するのに適用可能である。
【0013】
膀胱癌の状況で説明されるが、本明細書に開示される方法及びシステムは、細胞又は体液が侵襲的生検を必要とせずに分析に利用可能な他の癌の検出にも適用可能である。例には、上部尿路癌、尿道癌、結腸直腸癌及び他の消化器癌、子宮頸癌、軌道消化管癌、及び同様の属性を有する他の癌がある。
【0014】
さらに、本明細書に記載される方法は、癌以外の細胞異常の検出及び種々の薬剤への細胞反応のモニタリングにも適用可能である。加えて、本明細書に記載される方法は、導出元が生体であれ、非生体であれ関係なく、あらゆるタイプの表面の分類及び識別に有用である。必要なのは、表面が、原子間力顕微鏡による走査の影響を受けやすいものであるだけである。
【0015】
例えば、本明細書に記載される方法は、通貨、株券、身分証明書、又は絵画等の芸術品の偽造を含め、偽造の検出に使用することができる。
【0016】
一態様では、本発明は、原子間力顕微鏡を使用して、患者から取得された複数の細胞のそれぞれの1組の画像を取得することと、画像を処理して、表面パラメータマップを取得することと、画像に適用される機械学習アルゴリズムを使用することと、癌罹患患者又は非癌患者の何れか一方に由来するものとして細胞を分類することとを特徴とする。
【0017】
これらの実施形態の中には、顕微鏡が準共振タッピングモードで使用される実施形態がある。更に他の実施形態では、顕微鏡はリンギングモードで使用される。
【0018】
別の態様では、本発明は、原子間力顕微鏡を使用することと、表面に関連付けられた1組の画像を取得することと、画像を処理して表面パラメータマップを取得することと、画像に適用される機械学習アルゴリズムを使用することと、表面を分類することとを特徴とする。
【0019】
これらの実施の中には、膀胱細胞の表面である表面を選択することと、癌罹患患者又は非癌患者に由来する細胞の表面として表面を分類することとを含む実施がある。
【0020】
別の態様では、本発明は、原子間力顕微鏡を使用して、表面に関連付けられた1組の画像を取得することと、画像を結合することと、結合された画像に適用される機械学習法を使用することと、表面を分類することとを含む方法を特徴とする。
【0021】
この方法は、原子間力顕微鏡を実行する必要があり、人の心は機械ではなく、人の心は機械学習法を実行することができないため、紙と鉛筆の有無に関係なく人の心には実行することができない。本方法はまた、技術的効果、すなわち、表面の技術的属性に基づいた表面の分類を達成するために、非抽象的に実行される。抽象的且つ/又は非技術的に本方法をいかに実行するかの説明は、非抽象的実施態様及び技術的実施態様以外のあらゆるものを包含するものとして特許請求の範囲を誤って解釈するのを避けるために、意図的に省かれている。
【0022】
幾つかの実施では、画像は細胞の画像である。これらの中には、細胞の画像がアーチファクトを有していることを自動的に検出することと、表面の分類に使用されることからその画像を除外することと、及び、シンプルの画像を区画に分割することと、各区画の表面パラメータを取得することと、各区画の表面パラメータのメジアンとして細胞の表面パラメータを定義することとを含む実施とを含む。
【0023】
幾つかの実施は、画像を処理して、表面パラメータを取得することと、機械学習を使用して、少なくとも部分的に表面パラメータに基づいて表面を分類することとも含む。これらの中には、表面パラメータのサブセットを定義することと、サブセットに基づいてデータベースを生成することとを更に含む実施がある。そのような実施では、表面パラメータのサブセットを定義することは、表面パラメータ間の相関を特定することと、相関を閾値と比較して、1組の相関パラメータを識別することと、1組の相関パラメータのサブセットを表面パラメータのサブセットに含めることとを含む。また、これらの中には、表面パラメータのサブセットを定義することと、サブセットに基づいてデータベースを生成することとを更に含む実施がある。これらの実施では、表面パラメータのサブセットを定義することは、表面パラメータ間の相関行列を特定することを含み、相関行列を特定することは、シミュレートされた表面を生成することを含む。また、これらの実施の中には、表面パラメータのサブセットを定義することと、サブセットに基づいてデータベースを生成することとを含むものがある。これらの実施では、表面パラメータのサブセットを定義することは、同じ試料からの同じ種類の異なる表面パラメータを結合することを含む。
【0024】
実施は、1組の画像を取得することが、リンギングモードでマルチチャネル原子間力顕微鏡を使用することを含み、原子間力顕微鏡の各チャネルは、表面の対応する表面属性を示す情報を提供するものも含む。
【0025】
また、本発明の実施の中には、被験者の尿から収集された細胞の表面を選択することと、癌を示すか、又は癌を示さないものとして細胞を分類することとを含む。
【0026】
顕微鏡を使用する多種多様な方法が、本発明の範囲から逸脱せずに利用可能な範囲内にある。これらは、各チャネルが表面の表面属性に対応するマルチチャネル原子間力顕微鏡の使用、準共振タッピングモードでの原子間力顕微鏡の使用、及び、それぞれが表面の異なる表面属性に対応する複数のチャネルの情報を取得し、チャネルにより提供された情報を凝縮し、その凝縮された情報から凝縮データベースを構築することと併せた原子間力顕微鏡の使用を含む。
【0027】
マルチチャネル原子間力顕微鏡に頼る本発明の実施の中には、チャネルにより提供される情報に基づいて第1のデータベースを形成し、多種多様な方法の何れかで凝縮データベースの構築を実行することを更に含む実施がある。これらの中には、第1のデータベースを第1のデータベースよりも低い次元のサブ空間に投影することを含むものがあり、投影は凝縮データベースを定義し、凝縮データベースは、第1のデータベースよりも低い次元を有する。また、これらの中には、第1のデータベースからの凝縮データベースを含むものがあり、凝縮データベースは、第1のデータベースよりも少数のインデックスを有する。これは、例えば、テンソル加算を実行して、第1のデータベースからの情報を第1のデータベースの1つ又は複数のインデックスに対応する1つ又は複数のスライスと共に結合するテンソル和を生成し、テンソル和を使用して凝縮データベースを形成することにより実行することができる。
【0028】
本発明の幾つかの実施では、第1のデータベースから凝縮データベースを導出することは、第1のデータベースからの値のサブセットを定義することと、値のそれぞれは第1のデータベース内の対応する要素を表すことと、値のサブセット内の値から凝縮値を導出することと、凝縮値を用いて第1のデータベースからの対応する要素を表すこととを含み、凝縮値を導出することは、値のサブセット内の値を総和することを含む。総和することは、テンソル加算を実行して、第1のデータベースからの値を第1のデータベースのインデックスに対応する1つ又は複数のスライスと共に結合するテンソル和を生成することと、テンソル和を使用して凝縮データベースを形成することとによるものを含め、多種多様な方法で実行することができる。
【0029】
本発明の実施はまた、第1のデータベースからの値のサブセットを定義することと、値のそれぞれは第1のデータベース内の対応する要素を表すことと、値のサブセット内の値から凝縮値を導出することと、凝縮値を用いて第1のデータベースからの対応する要素を表すこととにより、凝縮データベースが第1のデータベースから導出される実施も含み、凝縮値を導出することは、例えば、算出平均又は幾何平均を取得することにより、値のサブセット内の値の平均を計算することを含む。
【0030】
また、本発明の実施の中には、第1のデータベースから凝縮データベースを導出することは、第1のデータベースからの値のサブセットを定義すること、値のそれぞれは第1のデータベース内の対応する要素を表すことと、値のサブセット内の値から凝縮値を導出することと、凝縮値を用いて第1のデータベースからの対応する要素を表すこととを含むものがあり、凝縮値は、値のサブセット内の値の最大又は最小の一方である。
【0031】
更に他の実施形態では、第1のデータベースから凝縮データベースを導出することは、第1のデータベースからの値のサブセットを定義することと、値のそれぞれは第1のデータベース内の対応する要素を表すことと、値のサブセット内の値から凝縮値を導出することと、凝縮値を用いて第1のデータベースからの対応する要素を表すこととを含み、凝縮値を導出することは、情報を第1のデータベースから表面パラメータ抽出機に通して、表面パラメータセットを取得することを含む。これらの中には、導出元の画像の表面エリアから独立するものとして表面パラメータセットを表す表面パラメータを正規化することを含む実施及び表面パラメータを同じ次元の別のパラメータで除することを含む実施がある。
【0032】
他の実施は、試料の画像がアーチファクトを有することを自動的に検出することと、上記画像を表面の分類に使用されるものから自動的に除外することとを含む。
【0033】
更に他の実施は、試料の画像を区画に分割することと、各区画の表面パラメータを取得することと、各区画の表面パラメータのメジアンとして細胞の表面パラメータを定義することとを含む。
【0034】
本発明の幾つかの実施は、画像を処理して、表面パラメータを取得することと、機械学習を使用して、少なくとも部分的に表面パラメータに基づいて外部導出パラメータから表面を分類することとを含む。これらの中には、表面は、収集された試料から導出されるボディの表面であり、試料の少なくとも1つは、ボディを有さないことを意味するボディフリー試料である実施がある。これらの実施では、本方法は、ボディフリー試料からのボディの不在を示すデータを含むものとして外部導出パラメータを選択することを更に含む。ボディフリー試料を含む実施の中には、人工表面パラメータをボディフリー試料に割り当てることを含むものがある。幾つかの実施では、表面は、患者から取得される試料から導出される細胞の表面である。これらの中には、患者が特定の疾患を有する確率を示すデータを含むものとして外部導出パラメータを選択することを含む実施がある。確率を示すそのようなデータの例には、患者の年齢、患者の喫煙習慣、及び患者の家族歴がある。
【0035】
多種多様な機械学習法が使用可能である。これらには、ランダムフォレスト法、エクストリームランダム化フォレスト法、勾配ブースティングツリー法、ニューラルネットワークの使用、決定木法、及びそれらの組合せがある。
【0036】
幾つかの実施形態では、表面は、患者からの第1の複数の細胞の表面であり、第2の複数の細胞は癌罹患患者からのものとして分類されており、第3の複数の細胞は非癌患者からのものとして分類されている。これらの方法は、第1の複数に対する第2の複数の比率が所定の閾値を超える場合、患者を癌として診断することを含む。
【0037】
幾つかの実施では、原子間力顕微鏡は、カンチレバーと、カンチレバーの先端部に配置された探針とを含む。カンチレバーは共振周波数を有する。これらの実施では、原子間力顕微鏡の使用を使用することは、探針と表面との間の距離を共振周波数未満の周波数で振動させることを含む。
【0038】
幾つかの実施では、原子間力顕微鏡を使用することは、試料表面の異なる物理的属性に対応する複数のチャネルの情報を出力するように構成された顕微鏡を使用することを含む。
【0039】
他の実施は、画像を処理して、表面パラメータを取得することと、機械学習を使用して、少なくとも部分的に表面パラメータに基づいて外部導出パラメータから表面を分類することとを含む。これらの実施形態では、表面は、患者から取得された試料から導出される細胞の表面であり、試料の少なくとも1つは、患者からの細胞を有さない細胞なし試料である。そのような実施では、本方法は、細胞なし試料からの細胞の不在を示すデータを含むものとして外部導出パラメータを選択することを更に含む。これらの実施の中には、人工表面パラメータを細胞なし試料に割り当てることを更に含むものがある。
【0040】
別の態様では、本発明は、装置が原子間力顕微鏡及び処理システムを備えることを特徴とする。原子間力顕微鏡は、表面に関連付けられた画像を取得する。処理システムは、原子間力顕微鏡から、画像を表す信号を受信し、画像を結合する。処理システムは、機械学習モジュールと、機械学習モジュールから分類の基礎を学習した後、未知の試料を分類する分類器とを含む。
【0041】
幾つかの実施形態では、処理システムは、画像を処理して、表面パラメータを取得し、機械学習モジュールを使用して、少なくとも部分的に表面パラメータに基づいて表面を分類するように構成される。これらの中には、原子間力顕微鏡は、各チャネルが表面の表面属性に対応するマルチチャネル原子間力顕微鏡を含む実施形態がある。これらの中には、チャネルにより提供された情報を凝縮し、凝縮された情報から凝縮データベースを構築する凝縮器も含む実施形態がある。
【0042】
凝縮データベースを含む実施形態は、分類器が凝縮データベースに基づいて未知の試料を分類する実施形態も含む。
【0043】
多種多様な凝縮器が、凝縮データベースの構築に利用可能である。これらの中には、第1のデータベースを第1のデータベースよりも低い次元のサブ空間に投影することにより凝縮データベースを構築する凝縮器がある。この投影は、第1のデータベースよりも低い次元を有する凝縮データベースを定義する。
【0044】
本明細書で使用される場合、「原子間力顕微鏡」、「AFM」、「走査探針顕微鏡」、及び「SPM」は同義として見なされる。
【0045】
本明細書に記載される方法は、非抽象的方法のみである。したがって、特許請求の範囲は非抽象的実施態様のみに関することができる。本明細書で使用される場合、「非抽象的」は、本願の出願日時点での米国特許法第101条の要件に準拠することを意味すると見なされる。
【0046】
本発明のこれら及び他の特徴は、以下の詳細な説明及び添付図から明らかになろう。
【図面の簡単な説明】
【0047】
【
図2】
図1の処理システムからの更なる詳細を示す。
【
図3】
図1及び
図2に示される原子間力顕微鏡及び処理システムにより実行され得診断方法を示す。
【
図4】
図1に示される原子間力顕微鏡に内蔵された光学顕微鏡を通る図を示す。
【
図5】
図1の原子間力顕微鏡により取得される膀胱細胞のマップを示す。
【
図6】データベースと
図2の処理システム内の機械学習モジュールとの間の対話の詳細を示す。
【
図7】初期の大きなデータベースを次元のより小さな凝縮データベースに凝縮することの詳細を示し、凝縮データベースと
図2の処理システム内の機械学習モジュールとの間の対話の詳細を示す。
【
図8】異なる表面パラメータ間の相関の評価と併用されるシミュレートされる表面の例を示す。
【
図9A】表面パラメータの重要係数のヒストグラムプロットを示す。
【
図9B】表面パラメータの重要係数のヒストグラムプロットを示す。
【
図9C】表面パラメータの重要係数のヒストグラムプロットを示す。
【
図9D】表面パラメータの重要係数のヒストグラムプロットを示す。
【
図9E】表面パラメータの重要係数のヒストグラムプロットを示す。
【
図9F】表面パラメータの重要係数のヒストグラムプロットを示す。
【
図11】分類に必要なデータ構造に適合された機械学習方法を示す。
【
図12】セル表面の汚染により生じ得るアーチファクトの代表的な例を示す。
【
図13】相関閾値への表面パラメータの数の依存性を示す。
【
図14】ランダムフォレスト法内で計算される高さ及び付着属性の表面パラメータの重要性の階層を示す。
【
図15】異なる数の表面パラメータと、高さ及び付着力の結合チャネルについてランダムフォレスト法を使用して計算されたトレーニングデータベース及びテストデータベース間のデータの異なる割り振りでの精度を示す。
【
図16】高さ及び付着力の結合チャネルについてランダムフォレスト法を使用した受信者動作特性を示す。
【
図17】
図16に示されるものと同様であるが、
図16におけるデータの生成に使用される手順の信頼性の確認に使用される人工データを有するプロットを示す。
【
図19】患者毎に5つの細胞を使用し、癌罹患患者からのものとして識別されるには2つの細胞が必要である(N=5、M=2)場合、異なる数の表面パラメータ及び高さ及び付着力の結合チャネルについてのランダムフォレスト法を使用したトレーニングデータとテストデータとの間のデータ割り振りの異なる方法での精度を示す。
【
図20】患者毎に5つの細胞を使用し、癌罹患患者からのものとして識別されるには2つの細胞が必要である(N=5、M=2)場合、高さ及び付着力の結合チャネルでのランダムフォレスト法を使用して計算された受信者動作特性を示す。
【
図21】一方は高さであり、他方は付着力である2つの別個のチャネルでの癌診断に関連付けられた混同行列の統計を示す表である。
【発明を実施するための形態】
【0048】
図1は、探針14が取り付けられるカンチレバー12を支持するスキャナ10を有する原子間力顕微鏡8を示す。したがって、探針14はスキャナ10から片持ち梁のように支持される。スキャナ10は、試料の表面16の基準面に平行する走査方向に沿って探針14を移動させる。そうするに当たり、スキャナ10は試料の表面16の領域を走査する。スキャナは、走査方向に探針14を移動させている間、試料表面16の基準面に垂直な垂直方向においても探針14を移動させる。これは、探針14から表面16までの距離を変化させる。
【0049】
探針14は一般に、カンチレバー12の反射部に結合される。この反射部は、レーザ22により提供された照明ビーム20を反射する。カンチレバー12のこの反射部は、本明細書ではミラー18と呼ばれる。反射ビーム24はミラー18から光検出器26に移動し、光検出器26の出力はプロセッサ28に接続する。幾つかの実施形態では、プロセッサ28は、表面の物理的特性又は幾何学的特性に基づいて表面パラメータをリアルタイムで計算できるようにするFPGA電子回路を含む。
【0050】
探針14の移動はミラー18の移動に転換され、これにより次に、光検出器26の異なる部分が反射ビーム24により照明されることになる。これは、探針の移動を示す探針信号30を生成する。プロセッサ28は、後述する方法を使用して探針信号30に基づいて特定の表面パラメータを計算し、結果33を記憶媒体32に出力する。これらの結果33は、本明細書に記載される任意の表面パラメータを表すデータを含む。
【0051】
スキャナ10はプロセッサ28に接続し、スキャナ位置を示すスキャナ信号34をプロセッサ28に提供する。このスキャナ信号34は、表面パラメータの計算への使用にも利用可能である。
【0052】
図2は、処理システム28を詳細に示す。処理システム28は、インバータ62に接続されたAC源60を有する電源58を特徴とする。電源58は、後述される種々の構成要素を動作させる電力を提供する。処理システムは放熱器64を更に含む。
【0053】
好ましい実施形態では、処理システム28は、人が動作を制御できるようにするユーザインターフェース66を更に含む。
【0054】
処理システム28は、探針信号及びスキャナ信号を受信し、バス72に配置する第1及び第2のA/D変換器68、70を更に含む。プログラム記憶セクション74、ワーキングメモリ76、及びCPUレジスタ78もバス72に接続される。プログラム記憶装置74からの命令75を実行するCPU80は、レジスタ78及びALU82の両方に接続する。非一時的コンピュータ可読媒体は、これらの命令75を記憶する。実行されると、命令75は、処理システム28に、第1及び第2のA/D変換器68、70を通して受信された入力に基づいて上記パラメータの何れかを計算させる。
【0055】
処理システム28は、
図6に最もよく見られるように、機械学習モジュール84と、トレーニングデータ87及びテストデータ89を含むデータベース86とを更に含む。機械学習モジュール84は、トレーニングデータ87及びテストデータ89を本明細書に記載される方法の実施に使用する。
【0056】
処理システム28の特定の例は、撮像サービスの属性の値及び/又は本明細書に記載される表面パラメータを特定するように構成された回路を含むFPGA電子回路を含み得る。
【0057】
図3は、原子間力顕微鏡8を使用して、画像を取得し、画像を使用して試料を特徴付ける機械学習モジュール84に画像を提供するプロセスを示す。
図3に示されるプロセスは、患者から尿88を取得し、尿88から剥がれ落ちた細胞90を準備することを含む。走細胞を走査した後、原子間力顕微鏡8は、膀胱細胞90の画像をデータベース86への記憶に提供する。
【0058】
各画像は、各要素が表面16の属性を表すアレイである。アレイ内の場所は、試料の表面16上の空間場所に対応する。したがって、画像は、その属性に対応するマップを定義する。そのようなマップは、土壌図が地表上の異なる場所における異なる土質を示すのとの略同じように、試料の表面16上の異なる場所におけるその属性の値を示す。そのような属性を「マップ属性(mapped property)」と呼ぶことにする。
【0059】
幾つかの場合、マップ属性は物理的属性である。他の場合、属性は幾何学的属性である。幾何学的属性の一例は、表面16の高さである。物理的属性の例には、表面の付着力、その剛性、及び表面16への接触に関連付けられたエネルギー損失がある。
【0060】
マルチチャネル原子間力顕微鏡8は、異なる属性を同時にマップ形成する能力を有する。各マップ属性は、顕微鏡8の異なる「チャネル」に対応する。したがって、画像は多次元画像アレイM(k)と見なすことができ、ここで、チャネルインデックスkは間隔[1,K]内の整数であり、ここで、Kはチャネルの数である。
【0061】
準共振タッピングモードで使用される場合、マルチチャネル原子間力顕微鏡8は、以下の属性をマップ形成することができる:高さ、付着力、変形、剛性、粘弾性損失、フィードバックエラー。これは6つのチャネルを生成し、各チャネルは6つのマップ属性の1つに対応する。リンギングモードで使用される場合、原子間力顕微鏡8は、一例として、先の6つの属性に加えて以下の追加の属性の1つ又は複数をマップ形成することができる:回復した付着力、付着力高さ、切断高さ、プルオフネック(pull-off neck)高さ、分離距離、分離エネルギー損失、動的クリープ位相シフト、及びゼロ力高さ。この例では、これは合計で14のチャネルを生成し、各チャネルは14のマップ属性の1つに対応する。
【0062】
スキャナ10は、基準面上の離散ピクセルを定義する。各ピクセルにおいて、顕微鏡の探針14は測定を行う。便宜上、平面上のピクセルはデカルト座標(x
i,y
j)により定義することができる。そのピクセルで測定される第kのチャネルの値はz
i,
j
(k)である。これを念頭に置き、第kのチャネルのマップ又は画像を表す画像アレイは、
【数1】
として正式に表すことができ、式中、「i」及び「j」はそれぞれ間隔[1,Ni]及び[1,Nj]内の整数であり、ここで、Ni及びNjは、x及びy方向のそれぞれにおいて画像の記録に利用可能なピクセル数である。Ni及びNjの値は異なっていてもよい。しかしながら、本明細書に記載される方法は、そのような違いに有意に依存しない。したがって、考察のために、Ni=Nj=Nである。
【0063】
試料の画像アレイ内の要素数は、チャネル数とピクセル数との積である。比較的同質の表面16の場合、表面16の1つの領域を走査するだけでよい。しかしながら、より異質な表面16の場合、表面16上の2つ以上の領域を走査することが好ましい。比喩的に言えば、港の水面を検査したい場合、十中八九、1つの領域を走査するだけでよく、その理由は、他の領域もどのみち同様である可能性が高いためである。他方、その港の町の表面を検査したい場合、複数の領域を走査することが賢明である。
【0064】
これを念頭に置き、アレイは、走査中の特定の領域を識別する別のインデックスを取得する。これは、アレイの次元を増大させる。したがって、画像アレイの正式な表現は、
【数2】
であり、式中、走査領域インデックスsは、試料内の特定の走査領域を識別する間隔[1,S]内の整数である。なお、これは、特定の試料の画像アレイ内の要素数を走査領域数に等しい倍数で増大させる。
【0065】
好ましくは、そのような走査領域の数は、試料全体を表すのに十分に大きい。適切な走査領域数に収束する一方法は、2つのそのような走査領域間の偏差の分布を比較することである。走査領域数をインクリメントしても、これが統計学的に有意に変わらない場合、走査領域の数は、表面全体を表すのに適切である可能性が高い。別の方法は、妥当なテスト時間と見なされるものを、各走査領域の走査に必要とされる時間量で除し、その商をエリア数として使用することである。
【0066】
幾つかの場合、各走査領域を区画に分割することが有用である。各走査領域にP個のそのような区画がある場合、アレイは、
【数3】
として定義することができ、式中、区画インデックスpは、間隔[1,P]内の整数である。正方形の走査エリアの場合、正方形を4つの正方形区画に分割し、したがって、Pを4に等しく設定することが好都合である。
【0067】
走査領域を区画に分割する能力は、画像アーチファクトを除外する有用な方法を提供する。これは、生体細胞90の検査に特に重要である。これは、検査に向けて細胞90を準備するプロセスが、アーチファクトを容易に導入し得るためである。これらのアーチファクトは、いかなる分析からも除外されるべきである。これは、ある区画をその他の区画と比較して、もしあれば、除外するのに十分に有意に逸脱するものがどれかを識別できるようにする。
【0068】
他方、新しいインデックスの追加は、アレイの次元を更に増大させる。
【0069】
原子間力顕微鏡8により取得された画像アレイM
(k,s)に基づいて試料が属するクラスを識別するために、機械学習モジュール84は、特定のクラスC
(i)に属することが事前に既知である表面の画像を含む適したデータベース86を構築することに部分的に頼る。そのようなデータベース86は、
【数4】
により正式に表すことができ、式中、kは、属性又はチャネルを表すチャネルインデックスであり、sは、特定の走査領域を識別する走査領域インデックスであり、pは、第sの走査領域の特定の区画を表す区画インデックスであり、nは、特定の試料を識別する試料インデックスであり、lは、Lクラスの集合からの特定のクラスを識別するクラスインデックスである。したがって、アレイの全体サイズは、クラス数、試料数、走査領域数、走査領域当たりの区画数、及びチャネル数の積である。
【0070】
図3は、準共振タッピングを使用して動作する原子間力顕微鏡8と、機械学習モジュール84とを使用して、2つのクラス:癌罹患及び癌なしの一方に患者を分類するために、尿88から回収された生体細胞90の表面を検査することを特徴とする診断方法10を示す。2つのクラスがあるため、L=2である。
【0071】
好ましい実施は、遠心力、重力沈殿、又は濾過を使用し、細胞90を固定し、次に凍結乾燥又は亜臨界乾燥して細胞90を収集することを含む。
【0072】
示される例では、原子間力顕微鏡8は、Bruker,Inc.により実施されるPeakForceQMN等の準共振タッピングモード及び例えば、NanoScience Solutions,LLCにより実施されるリンギングモードの領域を使用して動作した。両モードとも、高さ及び付着力チャネルを記録することができる。しかしながら、リンギングモードは、はるかに高速の画像収集モードである。先に述べたように、これらのモードでは、多くのチャネルが同時に記録することができる。しかしながら、本明細書に記載される実験では2つのみのチャネルが使用される。
【0073】
図4は、原子間力顕微鏡のカンチレバー12を患者から取得され、上述したように準備された細胞90と一緒に示す。図は、原子間力顕微鏡8に結合された光学顕微鏡を通してとられた。
【0074】
図5は、第1及び第2のマップ対92、94を示す。第1のマップ対92は、非癌患者からの細胞90のマップを示す。第2のマップ対94は癌罹患患者からの細胞90のマップを示す。示されるマップは、両次元で分解能512ピクセルを有する一辺が10μmの正方形走査エリアのものである。走査速度は、PeakForceQMNモード等の準共振タッピングモードで走査している場合、0.1Hzであり、リンギングモードで走査している場合、0.4Hzであった。走査中のピーク力は5nNである。
【0075】
これより
図6を参照すると、機械学習モジュール84は、データベース86に基づいて候補分類器100をトレーニングする。特定の機械学習法は、機械学習法の群、例えば、決定木、ニューラルネットワーク、又はそれらの組合せから選ぶことができる。
【0076】
図6及び
図7に示される方法は、データベース86をトレーニングデータ87及びテストデータ89に分割することにより開始される。これは、データベース86内のどの程度の量のデータがトレーニングデータ87に行くべきであり、どの程度の量がテストデータ89に行くべきかという問題を生じさせる。
【0077】
幾つかの実施形態では、データベース86の50%はトレーニングデータ87に行き、残りの50%はテストデータ89に行く。他の実施形態では、データベース86の60%はトレーニングデータ87に行き、残りの40%はテストデータ89に行く。更に他の実施形態では、データベース86の70%はトレーニングデータ87に行き、残りの30%はテストデータ89に行く。更に他の実施形態では、データベース86の80%はトレーニングデータ87に行き、残りの20%はテストデータ89に行く。候補分類器100は最終的に、分割に使用される比率から独立すべきである。
【0078】
図3に示される例では、各患者で10個の膀胱細胞90を集めた。癌の存在は、侵襲的生検及び病理組織診断を含む標準の臨床方法を使用して識別した。これらの方法は、2つのクラスを明確に定義されていると見なすのに十分な信頼性を有する。その結果、
図6に示されるデータベース86は、
【数5】
として表すことができ、式中、N
data1は、第1のクラス内の患者数であり、N
data2はクラス2内の患者数であり、sは、1と10との間の整数(1及び10を含む)であり、1人の患者から収集された10個の細胞のうちの特定の1つを識別する。N
data1及びN
data2が等しい数である必要はない。
【0079】
データベース86をトレーニングデータ87とテストデータ89とに分割する際、同じ試料からの異なる走査エリアの画像アレイ
【数6】
をトレーニングデータ87とテストデータ89とに分けるのを回避することが重要である。このルールに違反すると、同じ試料でトレーニング及びテストが行われることになる。これは、分類器100を独立した新しい試料に適用する場合、再現可能ではないことがあるように、分類器の有効性を人工的に膨らませる。
【0080】
機械学習モジュール84は、トレーニングデータ87を使用して候補分類器100を構築する。分類器100のタイプに応じて、トレーニングデータ87は、学習木、決定木、木のブートストラップ、ニューラルネットワーク、又はそれらの組合せであることができる。分類器100は、以下「AI」として表され、特定の試料nが特定のクラスIに属する確率を出力し、
【数7】
式中、
【数8】
は、
【数9】
により定義された画像又はチャネルがクラスC
(I)に属する確率である。
【0081】
構築された後、検証モジュール102はテストデータ89を使用して、候補分類器100が実際に十分に有効であるかを検証する。本明細書に記載される実施形態では、検証モジュール102は、少なくとも部分的に受信者動作特性及び混同行列に基づいて有効性を評価する。候補分類器100の堅牢性は、データベース86のランダム分割を繰り返し、それにより、異なるテストデータ89及びトレーニングデータ87を生成し、次に、分類手順を実行して、これが任意の差を生じさせるか否かを調べることにより検証された。
【0082】
候補分類器100の有効性が不十分であると分かった場合、機械学習モジュール84は、トレーニングプロセスのパラメータを変更し、新しい候補分類器100を生成する。このサイクルは、機械学習モジュール84が最終的に、所望の有効性閾値を達成する候補分類器100を提供するまで続けられる。
【0083】
適した分類器100を構築するプロセスは、試料nに関連付けられた2つ以上の確率値がある場合に生じる計算負荷によりある程度妨げられる。実際には、画像アレイの多次元性により、任意の1つの試料について、プロセスするK・S・P個の確率Probn
(k;s;p)(i)がある。必要とされる計算負荷は、そのような大きなデータベースでは非実際的に高くなる。
【0084】
そのような大きなデータアレイに対処することの別のボトルネックは、分類器の妥当なトレーニングを提供するのに使用される多数の試料である。決定木を構築する場合、大体の目安では、データベースの次元の少なくとも6倍の試料数が必要とされる。原子間力顕微鏡は比較的低速の技法であるため、任意の妥当な分類器を構築するのに十分な試料を取得することは非実際的である。
【0085】
図7に示されるように、凝縮器107は上記問題に対処する。凝縮器104は、特定のチャネルにより提供された情報を、そのチャネルについての情報を具現する表面パラメータの空間に凝縮する。凝縮器104は、データベース86を受信し、凝縮データベース106を生成する。実際には、これは、かなり高次元の空間である多次元行列のはるかに少ない次元の行列への投影に相当する。
【0086】
凝縮器104は、多種多様なデータベース縮小手順の何れかを実行する。これらの中には、本明細書に記載されるデータベース縮小手順の1つ又は複数を組み合わせた手順がある。これらは共通して、1組のデータから、その組で具現される情報の少なくとも幾つかを具現する表面パラメータを導出することを有する。
【0087】
幾つかの実施では、凝縮器104は第1のデータベース縮小手順を実行する。この第1のデータベース縮小手順は、各画像が最終的に、参加するアレイからの情報の、試料の分類で有用であるのに十分な側面を保存するという目的を達成するように、そのような他のアレイと結合することができるアレイであるという観測に依拠する。例えば、テンソル加算「
【数10】
」を使用して、1組の画像M
n
(k;s;p)をそのインデックスの1つに対応するスライスと共に結合することができる。
【0088】
特定の一実施態様では、スライスはインデックスkに対応する。その場合、画像のテンソル和は
【数11】
により与えられる。
【0089】
したがって、機械学習に使用される凝縮データベース106の各要素は以下になる。
【数12】
この特定の例は、データベース86の次元を1/Kに低減する。したがって、分類器100は以下のように確率を定義する。
【数13】
残りのインデックスに対して同様の手順を実行することも可能である。最終的には、
【数14】
であり、式中、「
【数15】
」は、インデックスk、s、pにわたるテンソル総和を表す。
【0090】
他の実施では、凝縮器104は代わりに、第2のデータベース縮小手順を実行する。この第2のデータベース縮小手順は、各インデックスk、s、pに対する別個又は組合せでの幾何平均又は代数平均を計算することに依拠する。第2の手順を実行する具体的な方法の例には、全てのインデックスk、s、pにわたる以下の平均計算手順がある。
【数16】
【0091】
更に他の実施では、凝縮器104は代わりに第3のデータベース縮小手順を実行する。この第3のデータベース縮小手順は、シリーズ全体の最高又は最低確率を特定のインデックスに割り当てることに依拠する。例えば、走査領域インデックスsを考えると、以下の関係式の1つを使用することができる。
【数17】
【0092】
最終的に、全てのインデックスがこのようにして縮小される場合、
【数18】
である。
【0093】
幾つかの実施では、凝縮器104は、各画像を表面パラメータ抽出機A
mに通して表面パラメータセットP
nm
(k;s)を取得することにより、データベースD
n
(k;s)の次元を低減する。これは
【数19】
により正式に表すことができ、式中、表面パラメータインデックスmは、[1,M]内の整数であり、チャネルインデックスkは、マップが表すのが高さであるか、付着力であるか、剛性であるか、それとも何らかの他の物理的又は幾何学的パラメータであるかを識別し、試料インデックスnは試料を識別し、走査領域インデックスsは、試料内の特定の走査領域を識別し、区画インデックスpは、走査領域内の特定の区画を識別する。この手順は、表面パラメータベクトルP
nm
(k;s;p)として多次元テンソルM
n
(k;s;p)を表すコンパクトな方法を提供する。
【0094】
表面パラメータベクトルは、分類の基礎として使用可能な、導出元のチャネルに関する十分な残存情報を含む。しかしながら、チャネルにより提供される画像よりもはるかに小さい。したがって、表面パラメータベクトルに頼る分類手順は、はるかに低い計算負荷を維持するが、対応する精度損失はない。
【0095】
多種多様な表面パラメータをチャネルから抽出することができる。これらは、平均粗さ、二乗平均平方根、表面歪度、表面尖度、ピークツーピーク、十点平均高さ、最大谷深さ、最大ピーク高さ、平均値、平均サミット曲率、テクスチャインデックス、二乗平均平方根勾配、面積二乗平均平方根傾き、表面面積比、投影面積、表面面積、表面ベアリングインデックス、コア溶液保持インデックス、バレー溶液保持インデックス、縮小サミット高さ、コア粗さ深さ、縮小バレー深さ、ベアリング曲線のI-h%高さ間隔、サミット密度、テクスチャ方向、テクスチャ方向インデックス、優勢放射状波長、放射状波インデックス、平均半波長、フラクタル次元、20%時の相関長、37%時の相関長、20%時のテクスチャアスペクト比、37%時のテクスチャアスペクト比を含む。
【0096】
表面パラメータのリストは、アルゴリズム又は数式を導入することにより更に拡張し得る。例えば、例えば各パラメータを表面面積の関数で除することにより、表面パラメータを、細胞ごとに異なりうる画像の表面面積に正規化することができる。
【0097】
本明細書に記載される例は、3つの表面パラメータに依拠する:バレー流体保持インデックス(「Svi」)、表面面積比(「Sdr」)、及び表面面積(「S3A」)。
【0098】
バレー溶液保持インデックスは、バレーゾーンにおける大きなボイドの存在を示す表面パラメータである。これは、
【数20】
により定義され、式中、Nは、x方向におけるピクセル数であり、Mは、y方向におけるピクセル数であり、V(h
x)は、水平線h
x下のベアリング面積に対するボイド面積の比率の曲線であり、Sqは平均二乗平方根(RMS)であり、以下の式
【数21】
により定義される。
【0099】
表面面積比(「Sdr」)は、投影されたx、y平面の面積に対する界面表面面積のインクリメントを表す表面パラメータである。この表面パラメータは、
【数22】
により定義され、式中、Nは、x方向におけるピクセル数であり、Mは、y方向におけるピクセル数である。
【0100】
表面面積(「S3A」)は
【数23】
により定義される。
【0101】
原子間力顕微鏡8により提供される画像からの上述した3つの表面パラメータのそれぞれを計算するために、細胞の各画像はまず、4つの区画に分割される。区画は、この場合、5μm辺を有する正方形の象限であった。したがって、各細胞は、各象限に1組ずつ、4組の表面パラメータを生成した。
【0102】
細胞におけるアーチファクトの存在は、3つの異なる方法の何れか1つで対処することができる。
【0103】
第1の方法は、オペレータにアーチファクトについて細胞を検査させ、1つ又は複数のそのようなアーチファクトを有したあらゆる細胞をそれ以上の処理から除外することである。これは、アーチファクトの識別に人間の介入を必要とする。
【0104】
第2の方法は、アーチファクトを認識し、そのアーチファクトを含む細胞を自動的に除外することが可能なアーチファクト認識モジュールを提供することである。これは、手順をオペレータからより独立したものにする。
【0105】
第3の方法は、平均値の代わりに各細胞のパラメータのメジアン値を使用することである。本明細書に記載される結果は、平均値の代わりにメジアン値を使用した場合でも略変わらなかった。
【0106】
2つのみのクラスの同じ例を使用すると、凝縮データベース106は以下のように見える。
【数24】
【0107】
他の実施形態では、原子間力顕微鏡の画像に直接関連しないが、異なるクラスの区別を助けるために追加のパラメータを割り当てることができる。
【0108】
例えば、膀胱癌を検出しようとする場合、尿88の1つ又は複数の試料がいかなる細胞90も有さないことが十分に生じ得る。そのような結果を考慮した好都合な方法は、真又は偽の何れか一方である新しい「細胞なし」パラメータを追加することである。そのようなパラメータに適合するためのデータ構造を変更する必要性を回避するために、「細胞なし」が「真」に設定された試料は、統計結果の歪ませるのを回避するように選択された表面パラメータの人工値を受け取る。
【0109】
別の例として、表面パラメータに関連しないが、それにも関わらず、分類に関連する他のファクタがある。これらには、年齢、喫煙、及び家族歴のような患者の特徴があり、これらは全て、その患者が膀胱癌を有する確率に関連し得る。これらのパラメータは、データ構造を変更する必要性を回避するために、「細胞なし」パラメータと同様にして含むことができる。
【0110】
表面パラメータを使用してデータベース86のサイズを低減する更に他の方法が存在する。
【0111】
そのような一手順は、互いに十分に相関する表面パラメータを除外するというものである。幾つかの表面パラメータは、種々の他の表面パラメータに強く依存する。したがって、互いに相関する表面パラメータを包含することにより提供される追加情報はごく僅かである。これらの冗長表面パラメータは、ペナルティが殆どなく削除することができる。
【0112】
表面パラメータ間の相関行列を見つける一方法は、シミュレートされた表面を生成することであり、その例を
図8に示す。原子間力顕微鏡8を用いて撮像された種々の試料表面は、異なる表面パラメータ間の相関を識別するのにも使用することができる。
【0113】
機械学習モジュール84は、入力の性質に依存しない。したがって、画像アレイで動作して示されているが、代わりに表面パラメータベクトルで動作することが完全に可能である。したがって、同じ機械学習モジュール84は、特定の表面パラメータベクトルが特定のクラスに属する確率を特定するのに、すなわち、
【数25】
を評価するのに使用可能である。
【0114】
したがって、多次元画像アレイMn
(k;s;p)を表面パラメータベクトルPnm
(k;s;p)に縮小した後、多次元画像アレイMn
(k;s;p)の代わりに表面パラメータベクトルPnm
(k;s;p)を使用し、次に、機械学習モジュール84に、分類に重要な表面パラメータがどれか及び細胞の分類に表面パラメータをいかに使用するかを学習させることが可能になる。
【0115】
特定の表面パラメータは互いと相関するため、次元を更に低減することが可能である。これは、テンソル総和なしで実行することができる。代わりに、そのような低減は、異なる画像からの同じパラメータの直接操作により実行される。
【0116】
(3-1)~(3-9)として先に識別したデータベース縮小手順に頼る方法に加えて、同じ試料からの同じ種類の異なる表面パラメータを結合する分類器100を使用することも可能である。正式には、このタイプの分類器100は
【数26】
として正式に表すことができ、式中、P
n=F(P
nm
(k;s;p))であり、F(P
nm
(k;s;p))は、試料インデックスnにより識別された試料に属する、表面パラメータインデックスmにより識別された異なる表面パラメータの結合である。
【0117】
関連する分類器100は、同じ属性の画像からの同じ試料nの同じ種類mの異なる表面パラメータを結合するものである。そのような分類器100は、
【数27】
として正式に表すことができ、式中、P
nm
(k)=F(P
nm
(k;s;p))であり、F(P
nm
(k;s;p))は、チャネルインデックスkにより識別されたチャネルからの、同じインデックスnにより識別される試料の同じ表面パラメータインデックスmにより識別される異なる表面パラメータの結合である。
【0118】
更に別の分類器100は、パラメータを全ては結合せず、代わりに1つのみのインデックスによる表面パラメータを結合するものである。そのような一分類器100は、1つの表面パラメータを同じ画像内の区画pの全体シリーズに割り当てる。そのような分類器100は、
【数28】
として正式に表され、式中、P
nm
(k;s)=F(P
nm
(k;s;p))であり、F(P
nm
(k;s;p))は、表面パラメータの結合であり、その例には、区画インデックスにわたるP
nm
(k;s;p)の統計分布に関連付けられたパラメータがある。例には、平均:
【数29】
及びメジアン
【数30】
がある。
【0119】
各患者からの複数の細胞の膀胱癌検出撮像と併せて使用される場合、分類器100は平均又はメジアンの何れか一方に頼る。しかしながら、メディアはアーチファクトの影響を受けにくいため、分類器100が平均よりもメジアンに頼ることが好ましい。
【0120】
本明細書に記載される特定の実施形態では、機械学習モジュール84は、多種多様な機械学習法の何れかを実施する。しかしながら、複数のパラメータに直面する場合、機械学習モジュール84は容易に過剰トレーニングになり得る。したがって、過剰トレーニングを起こしにくい3つの方法、すなわち、ランダムフォレスト法、エクストリームランダム化フォレスト(Extremely Randomized Forest)法、及び勾配ブースティングツリー法を使用することが有用である。
【0121】
ランダムフォレスト法及びエクストリームランダム化フォレスト法は、ブートストラップ教師なし法である。勾配ブースティングツリー法は、ツリーを構築する教師あり法である。変数ランキング、分類器トレーニング、及び検証は、SCIKIT-LEARN Python機械学習パッケージ(バージョン0.17.1)からの適切な分類器関数を使用して実行した。
【0122】
ランダムフォレスト及びエクストリームランダム化フォレスト法は、多くの分類木の成長に基づく。各分類木は何らかの分類を予測する。しかしながら、全ての木の投票が最終分類を定義する。木はトレーニングデータ87で成長する。典型的なデータベース86では、全データの70%がトレーニングデータ87であり、残りはテストデータ89である。本明細書に記載される実験では、トレーニングデータ87とテストデータ89との分割はランダムであり、複数回繰り返されて、分類器100が、データベース86が分割された様式の影響を受けないことを確認した。
【0123】
各分岐ノードは、元の表面パラメータのランダムに選ばれたサブセットに頼る。本明細書に記載される方法では、元の表面パラメータの選ばれたサブセット内の要素数は、元々提供された表面パラメータ数の平方根である。
【0124】
次に、学習プロセスは、表面パラメータのランダムに選ばれたサブセットが与えられた木分岐の最良分割を識別することによって進む。機械学習モジュール84は、分割閾値が分類誤差の推定に基づくことを基礎とする。各パラメータは、トレーニングデータ87の最も一般的に生じるクラスに関してパラメータ領域に割り当てられる。これらの実施では、機械学習モジュール84は、その領域内の、最も一般的なクラスに属さないトレーニングデータ87の割合として分類誤差を定義し、
【数31】
式中、p
mkは、第mの領域内にあり、且つ第kのクラスにも属するトレーニングデータ87の割合を表す。しかしながら、実際用途では、式(1)は、木の過成長を回避するのに十分には反応しない。その結果、機械学習モジュール84は2つの他の尺度に頼る:ジニインデックス及び交差エントロピー。
【0125】
ジニインデックスは、K個全てのクラスにわたる分散の尺度であり、以下のように定義される。
【数32】
【0126】
ジニインデックスは、pmkの全ての値がゼロ又は1に近いままである場合、小さいままである。その結果、ジニインデックスは、特定のノードが主に1つのクラスからの試料を含む程度を測定する。これは「ノード純度」の程度と呼ばれる。したがって、過成長を回避するために、各木は、ジニインデックスがクラスを完全に分離させるまでのみ成長する。これは、2つの子孫ノードが、親ノードよりも小さいジニインデックスを生成する場合、生じる。これらのランダムフォレスト法では成長する分岐のプルーニングはない。
【0127】
交差エントロピーは、これもまたノード純度の尺度を提供し、
【数33】
として定義される。
【0128】
ジニインデックスのように、交差エントロピーは、pmkの全ての値がゼロに近い場合、小さい。これは純粋なノードを示す。
【0129】
ジニインデックスはまた、各表面パラメータの重要度を示す「重要度係数」を取得する方法も提供する。そのような一尺度は、各変数の木ノードにおけるジニインデックスの低下の全ての値を加算し、全ての木にわたる平均を計算することから生じる。
【0130】
図9に示されるヒストグラムは、平均から1標準偏差だけずれる程度を示すエラーバーを有する重要度係数の平均値を表す。これらの重要度係数は、特定のチャネルから導出することができる種々の表面パラメータに対応する。したがって、最初の行のヒストグラムは、特徴「高さ」を測定するチャネルから導出することができる表面パラメータを表し、一方、2番目の行の表面パラメータは、特徴「付着力」を測定するチャネルから導出することができる表面パラメータを表す。なお、ニーモニックデバイスを使用して特徴の名称を決定し、「高さ」チャネルから導出可能な全ての表面パラメータは、「h」で始まり、「付着力」チャネルから導出可能な全ての表面パラメータは「a」で始まる。
【0131】
したがって、最初の行では、最初の列のパネルは、機械学習モジュール84がランダムフォレスト法を使用する場合の「高さ」チャネルから導出された表面パラメータの重要度係数を示し、2番目の列のパネルは、機械学習モジュール84がエクストリームランダム化フォレスト法を使用する場合の「高さ」チャネルから導出された表面パラメータの重要度係数を示し、3番目の列のパネルは、機械学習モジュール84が勾配ブースティングツリー法を使用する場合の「高さ」チャネルから導出された表面パラメータの重要度係数を示す。
【0132】
同様に、2番目の行では、最初の列のパネルは、機械学習モジュール84がランダムフォレスト法を使用する場合の「付着力」チャネルから導出された表面パラメータの重要度係数を示し、2番目の列のパネルは、機械学習モジュール84がエクストリームランダム化フォレスト法を使用する場合の「付着力」チャネルから導出された表面パラメータの重要度係数を示し、3番目の列のパネルは、機械学習モジュール84が勾配ブースティングツリー法を使用する場合の「付着力」チャネルから導出された表面パラメータの重要度係数を示す。
【0133】
図9のヒストグラムは、試料を正確に分類するのに最も役立つ表面パラメータを選ぶ知的な方法を提供する。例えば、仮に機械学習モジュール84が、高さを測定する2つのみの表面パラメータを選ぶように強いられた場合、恐らく、「h_Sy」及び「h_Std」を選ぶのを避けるが、代わりに「h_Ssc」及び「h_Sfd」を選ぶことを好み得る。
【0134】
図9の重要度係数は、100~300本の木を使用して得られた。元の表面パラメータの選ばれたサブセット内の要素の最大数は、元々提供された表面パラメータ数の平方根であり、ジニインデックスは、分類誤差を評価する基礎を提供した。機械学習手順の選択が、特定の表面パラメータの重要度に大きな差を生じさせないことが、同じ行中のヒストグラムの比較から明らかである。
【0135】
図10は、ブートストラップ法で使用される100本~300本の木のアンサンブルからの二分木の一例を示す。最初の分割では、第4の変数「X[4]」は、分割値15.0001で選ばれた。これはジニインデックス0.4992をもたらし、73個の試料をそれぞれ30個及び43個の試料を有する2つのビンに分割した。
【0136】
第2のレベルの分割では、左側ノードを見ると、第6の変数「X[6]」は分割値14.8059で選ばれ、ジニインデックス0.2778をもたらし、30個の試料(クラス1に5個及びクラス2に25個)を27個及び3個の試料を有する2つのビンに分割した。分割は、木ノードがジニインデックス0を有し、したがって、2つのクラスの一方のみの存在を示すまで続けられる。
【0137】
エクストリームランダム化ツリー法は、分割の選択においてランダムフォレスト法と異なる。ランダムフォレスト法の場合のように最適なパラメータ及びジニインデックスを使用した分割結合を計算する代わりに、エクストリームランダム化フォレスト法を使用した機械学習モジュール84は、パラメータ経験範囲から各パラメータ値をランダムに選択する。これらのランダム選択が最終的に、ゼロジニインデックスを有する純粋ノードに収束することを保証するために、機械学習モジュール84は、現在の木が選ばれる1組の選択された変数内のランダムの一様な分割の中から最良の分割のみを選ぶ。
【0138】
幾つかの実施では、機械学習モジュール84は勾配ブースティングツリー法を実施する。この場合、機械学習モジュール84は、それぞれが何らかの費用関数に関して収束する一連の木を構築する。機械学習モジュール84は、例えば、平均二乗誤差を最小にすることにより厳密な予測からのずれを最小にするように各後続木を構築する。幾つかの場合、機械学習モジュール84は、このタイプの回帰にフリードマンプロセスに頼る。この回帰プロセスに適した実装は、「SCIKIT-LEARN PYTHON」パッケージで実装されるルーチン「TREEBOOST」を使用して実行することができる。
【0139】
勾配ブースティングツリー法は純粋ノードについての基準がないため、機械学習モジュール84は木のサイズを予め定義する。代替的には、機械学習モジュール84は、個々の回帰の数を制限し、したがって、木の最大深さを制限する。
【0140】
生じる困難さは、予め定義されたサイズを用いて構築された木が容易に過剰適合し得ることである。この問題の影響を最小にするために、機械学習モジュール84がブースティング反復回数のような数量に制約を課し、又は例えば、無次元学習率パラメータを使用することにより反復率を弱めることが好ましい。代替の実施では、機械学習モジュール84は、木の末端ノード又はリーフの最小数を制限する。
【0141】
SCIKIT-LEARN PYTHONパッケージに頼る本明細書に記載される実施態様では、機械学習モジュール84は、リーフの最小数を1に設定し、最大深さを3に設定する。人間の被験者から収集された膀胱細胞を分類する本明細書に記載される用途では、機械学習モジュール84は、非常に低い学習率0.01の選択を検討することにより学習能力を抑制する。その結果生成される低速学習手順は、被験者が少数の人間であり、したがって、試料が少数であることから、生じる分散を低減する。
【0142】
トレーニングデータ87及びテストデータ89を作成するに当たり、トレーニングデータ87とテストデータ89との間で集合{M
(k;1;p),M
(k;2;p),・・・,M
(k;S;p)}を分割するのを回避することが重要である。
図11に開示される手順はこれを回避する。
【0143】
膀胱細胞90を分類する特定の実施態様では、各患者は幾つかの細胞を提供し、各細胞90の画像は4つの区画に分割される。人間である観測者は、アーチファクトを見つけるために区画を視覚的に検査し、アーチファクトのうちの2つを
図12で見て取ることができる。アーチファクトが区画に存在することが分かった場合、画像を検査した人が誰であれ、その区画を無視すべきものとしてフラグを付ける。
【0144】
このプロセスは、多くの細胞90が関わる場合、退屈になり得る。式(10)に示される分類器100を使用し、4つの区画のメジアンをとることにより、このプロセスを自動化することができる。これは、アーチファクトの寄与を大幅に下げる。
【0145】
機械学習モジュール84は、データのS%がトレーニングデータ87になり、100-S%がテストデータ98になるように、データベース86をランダムに分割する。Sを50%、60%、及び70%に設定して実験を実行した。機械学習モジュール84は、同じ個人からのデータを全体的にトレーニングデータ87又はテストデータ98の何れか一方に維持して、同じ個人の異なる細胞90間の相関から生じ得る人工過剰トレーニングを回避するようにデータベース86を分割する。
【0146】
次に、機械学習モジュール84は、凝縮器104に分類に頼る表面パラメータ数を更に低減させる。幾つかの実施では、凝縮器104は、各ジニインデックスに基づいて特定のチャネル内の表面パラメータをランク付けし、そのチャネルの何らかの数Mp個の最良パラメータを保持することによりそうする。幾つかの実施では、最良パラメータは、分離力の能力及び他の表面パラメータとの低い相関に基づいて選択される。例えば、パラメータ間相関閾値を変更することにより、分類に頼る表面パラメータ数を変更することが可能になる。
【0147】
図13は、相関係数の閾値の変更が、ランダムフォレスト法を使用して選択される表面パラメータの数にいかに影響するかを示し、左端のパネルは、高さチャネルから利用可能な表面パラメータに対応し、中央のパネルは、付着力チャネルから利用可能は表面パラメータに対応する。縦の目盛りの変更から明らかなように、右端のパネルは、高さチャネル及び付着力チャネルの組合せを表す。
図13はランダムフォレスト法に固有であるが、その他の方法も同様の曲線を有する。
【0148】
木がトレーニングされると、テストデータ98で正確に分類する能力をテストし、又は代替的には、未知の試料の分類に使用することが適切である。分類プロセスは、木投票の結果を取得することと、試料が属するクラスを示す確率の基礎としてその結果を使用することとを含む。次に、この結果は、どの誤差が耐えられるかに基づいて設定された分類器閾値と比較される。この分類器閾値は通常、受信者動作特性の構築の一環として変更される。
【0149】
一実験では、25人の癌罹患患者及び43人の非癌患者から尿88の試料が収集された。癌罹患患者のうち、TURBTにより定義されるように、14人は低悪性度であり、11人は高悪性度であった。非癌患者は健康であったか、又は過去に癌に罹患したことがあった。原子間力顕微鏡8に結合された光学顕微鏡を使用して、人間である観測者は、細胞であるように見えた丸い物体をランダムに選択した。
【0150】
データベースは、式(14)で参照されるデータ縮小プロセスを使用することにより更に縮小された。したがって、その結果生成された恐らく生成器100は、P
nm
(k;s)=median{P
nm
(k;s;p)}であり、式中、pは、各画像の4つの区画に対応する1と4との間の整数(1及び4を含む)である。その結果生成された凝縮データベースは、2つのクラスを有し、
【数34】
として正式に表すことができる。
【0151】
患者当たり少なくとも5個の細胞が撮像された。簡潔にするために、2つのみの属性を考慮した:高さ及び付着力。
【0152】
図14は、ランダムフォレスト法内で計算された高さ及び付着力属性の表面パラメータの重要度の階層を示す。図は、平均前後の1標準偏差を示すエラーバーと共に重要度係数の平均を示す。データベース86は、1000回、トレーニングデータ87及びテストデータ89にランダムに分割された。
【0153】
高さ及び付着力のマップ属性は、テンソル加算を通して結合され、テンソル加算は基本的に、表面パラメータのベクトルに適合されたデータ縮小法(3-1)である。関連するテンソル加算演算は、
【数35】
により表される。
【0154】
図9の場合と同様に、
図14の各表面パラメータは、その名称として、表面パラメータの標準名を有するが、導出元のマップ属性を示す文字が先頭に追加されている。例えば、「a_Sds」は、付着力(adhesion)属性の画像から導出された「Sds」パラメータを意味する。
【0155】
ランダムフォレスト法に適した統計性能尺度は、受信者動作特性及び混同行列を調べることからもたらされる。受信者動作特性は、感度及び特異性の範囲を定義できるようにする。感度の範囲は、細胞を癌罹患患者からのものであると分類する場合の「精度」に対応し、一方、特異性は、細胞が非癌患者からのものであると分類される場合の「精度」に対応する。受信者動作特性は、受信者動作特性を使用して、以下のように特異性の範囲及び感度の範囲を定義できるようにし、
【数36】
式中、TN、TP、FP、FNは、真陰性、真陽性、偽陽性、及び偽陰性をそれぞれ表す。
【0156】
図15は、それぞれが、異なる数の表面パラメータを考慮することにより達成される精度を示す3つの異なる曲線を示し、表面パラメータは、上述したように、異なる自己相関閾値及び重要度係数を選ぶことに基づいて選ばれた。
【0157】
図15における3つの異なる曲線のそれぞれは、トレーニングデータ87とテストデータ89との間の1000回のランダム分割を通して達せられた。曲線は、各セットへのデータの割り振りが異なる。最初の曲線は、データの70%がトレーニングデータ87に割り振られ、30%がテストデータ89に割り振られたことに対応する。2番目の曲線は、データの60%のみがトレーニングデータ87に割り振られ、40%がテストデータ89に割り振られたことに対応する。そして3番目の曲線は、トレーニングデータ87とテストデータ89とに均等に分割されたことに対応する。
【0158】
図15を調べることから、特定の閾値分割に依存性が略ないことが明らかである。これは、機械学習モジュール84により実行される手順の堅牢性を示す。
【0159】
図16は、受信者動作特性の群を示す。
図16に示される特性群内の個々の受信者動作特性は、トレーニングデータ87及びテストデータ89へのデータベース86の200回の異なるランダム分割から生じた。
【0160】
各受信者動作特性は、2つのクラス間で分類しようとする場合、異なる閾値での感度及び特異性を示す。
図16のプロットを二分する斜線は、コインを投げることにより分類する分類器に相当する。したがって、受信者動作特性が
図16に示される斜線に近づくほど、分類器は分類が不良である。曲線がこの斜線から遠くにまとまり、個々の曲線間にばらつきが少ないことは、分類器の有効性並びにトレーニングデータ87及びテストデータ89の特定の選択の影響の受けにくさの両方を示唆する。
【0161】
受信者動作特性を構築するに当たり、特定の確率値が一方のクラスに対応するか、それとも他方のクラスに対応するかを定義する閾値は、自由パラメータである。このパラメータの選択は、特異性及び感度の両方を支配する。各受信者動作特性で、第1のクラスであるべきであった試料を第2のクラスに分類し、またこの逆に分類する最小誤差に対応する点が存在する。これは、1つのチャネルを使用する場合に使用される3つの機械学習法のそれぞれについて
図21に示される。
【0162】
図21に示される表中の各行は、収集された細胞の特定の数(N)及び診断の閾値として使用されたより小さな数(M)を特徴とする。各行に、2つのチャネルが考慮された:高さ及び付着力。使用される3つの機械学習法のそれぞれで、表は、データベースの70%がトレーニングデータに割り振られたトレーニングデータ及びテストデータへのデータベースの1000回のランダム分割の平均AUC並びに精度を示す。精度は、分類の最小誤差に関連付けられたものである。
図21における各行は、感度及び特異性も示す。
【0163】
原理上、感度及び特異性は、感度及び特異性が等しい平衡点の前後に定義することもできる。人間の被験者数は限られているため、この平衡点が精密にどこであるかを定義することは難しい。したがって、
図21では、均等要件は緩和され、感度と特異性との間の差の大きさが、選択された値、
図21では5%未満である必要がある平衡範囲が定義された。
【0164】
10のみの表面パラメータが、受信者動作特性の計算に使用された。
図15から明らかなように、表面パラメータをそれ以上追加しても、精度が有意に改善しない収穫逓減点がある。
図15によれば、8~10のみの賢明に選ばれた表面パラメータの使用が、比較的高い精度である80%を達成するのに明らかに十分である。上位10個の表面パラメータは、分類器100の特異性、感度、及び精度を含め、受信者動作特性の統計学的挙動及び混同行列を特徴付けるのに考慮された。
【0165】
非癌患者又は癌罹患患者からのものとして細胞を分類するプロセスは、その確率の取得に使用される手順の全ての反復にわたるその細胞で得られた確率の平均を計算することに頼る。これは、
【数37】
として正式に表され、式中、分類器AIは、トレーニングデータベース87で展開された機械学習法を使用して作成された。この手順によれば、クラス1が癌細胞を表すと仮定すると、Prob
n
(1)が特定の閾値を超える場合、細胞は癌罹患患者からのものであると識別され、特定の閾値は、受信者動作特性から取得することができる。
【0166】
図18及び
図19に示されるデータの正確さを確認するために、
図19及び
図20で使用されたものと同じ手順を用いるが、癌細胞及び正常細胞に均等に分かれて分類される試料を用いてコントロール実験を実行した。
図17及び
図18は、分類の1000回のランダム選択の結果を示す。精度が53%±10%に低下したことが明らかであり、これは予想と一貫する。これは、
図19及び
図20に示されるデータの信頼性並びに機械学習法が多すぎるパラメータに対処するようになされた場合に生じる一般的な問題である過剰トレーニングに対する分類器の耐性を示唆する。
【0167】
代替の分類方法は、患者の診断の確立に2つ以上の細胞に頼る。これは、高いサンプリングエラーに基づいて堅牢性を欠くことを回避する。さらに、これは、尿88中で見つけられた細胞が実際に膀胱自体からのものであることを確信することができないため、生じるエラーを回避する。尿路の他の部分も細胞を脱落させることが完全に可能である。加えて、尿88は、尿路の他の部分から剥脱した上皮細胞等の様々な他の細胞を含むことがある。そのような一分類方法は、分類される細胞の総数Nからの癌罹患患者からのものとして分類された細胞数Mが予め定義される値以上である場合、患者を癌と診断することを含む。これは、N=M=1である上述した場合の一般化である。
【0168】
N個の細胞での確率に基づく癌を有する確率は、アルゴリズム(3-2)~(3-9)又は(10)~(14)を使用して割り当てることができる。癌患者からのもの(クラス1)としてN個のテストされる細胞を分類する確率を定義する好ましい手順として、以下であり、
【数38】
式中、分類器AIはトレーニングデータベース87から作成される。
【0169】
図19及び
図20は、
図15及び
図16におけるものと同様の堅牢性であるが、N=5及びM=2である場合での精度及び受信者動作特性を示す。そのような方法の精度が94%に達することができることを見て取ることができる。上述した無作為化検定は、受信者動作特性曲線下面積で50±22%を示す(診断セットの1000回のランダム選択の結果)。これらは、過剰トレーニングがないことを暗に示す。
【0170】
複数のN及びMの混同行列の計算の結果は、2つの単一チャネル(高さ及び付着力)について例示された
図20の表に示される。結合されたチャネルの堅牢性は、単一チャネルに基づく診断よりも良好である。
【0171】
上述した手順は、非癌患者の分類に適用することもできる。そのような場合、上述した確率は、細胞が非癌患者に属する確率である。
【国際調査報告】