(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
概して、本発明は(1)暗色データ、この場合、有機又は無機の物質における電子顕微鏡画像からの様々なタイプの画像を有意な断片に分割するステップと、(2)断片を有意に比較できるよう断片を並べ合わせるステップと、及び(3)電子顕微鏡を用いることによって可視化されるサンプルの存在論的調査に使用できるクラスにクラスター化するステップと、を備える方法である。本発明の1つの重要な態様は、画像における構造的情報を、データ自体に基づき、かつ多くの従来方法で見られた任意な固定構体若しくは所定フィルタには基づかない、それ自身の整列(アライメント)場を有する関連した部分集合(サブセット)に分割する。
【0012】
実際には、デジタルカメラ300(
図8に明示する)を使用して、電子顕微鏡304における画像302の像又は写真(又は多くの画像)を撮る。カメラ300は勿論多くの画像302としての写真又は画像を撮ることができる。写真は、次にCPU(中央処理ユニット)又はコンピュータ306内にデジタル画像として保存される。デジタル画像100(
図1〜2Bに示す)は、コンピュータ306に保存されたデジタル画像の事例的な例である。コンピュータ又はCPU306は、次にデジタル画像100の各ピクセルを通して、とくに、各ピクセルの明度を決定することによって、デジタル画像100を解析するのに使用される。コンピュータは、好適には、以下に詳細に説明するように、画像のそれ以上の解析に使用されるデジタル画像100におけるオブジェクトの数学的変換を行う。
【0013】
暗色データを切り分け/断片(セグメント)化及び整列(アライメント)化をする方法は、以下に説明する核心部(カーネル)におけるスペクトル調査によって実施するものであり、以下の積分方程式、すなわち、
【数1】
に対するカーネルの次式のスペクトル調査、すなわち、
【数2】
(1)
であり、ここで
(I)は画像信号であり、
(x)は断片化及び整列化の固有ベクトルであり、
(s)はスケーリングの固有ベクトルであり、
(y)及び(z)は、境界ボックスB=[0,幅]×[0,高さ]×[0,Smax]におけるサンプル画像の空間的指標であり、
(N
XX)はx固有ベクトルの正規化係数であり、
(N
S)はs固有ベクトルの正規化係数であり、
(d)は標準2次元ユークリッドノルムであり、
(φ)は指数関数(e’)のような単調増加関数であり、
(c1)、(c2)は重み付け係数である。
【0014】
本発明の要点は、分離を生成するためのカーネル自体におけるスケール(s)及び断片化(x)におけるループバックである。演算子(g)における2つの最大固有関数を使用して、固定点、すなわち、同一値(x)を有するすべての(y)を見出すことであり、すべての(y)は次式で表される。すなわち、
【数3】
各非空集合は(c)又は単に(S
c)によって指標付けされる断片(S)と称する。すべての断片の集合は(Σ)と称する。集合Σは、以下に説明する存在論的調査を受ける。
【0015】
本発明方法の1つの初期ステップは、背景を含む画像におけるすべてのオブジェクトを同時に識別し、また画像を異なるスケールの断片に分割することである。オブジェクトのサイズは、不明であり、またサンプル準備、機器及びサンプリング効果に起因して僅かに変動し得るため、どのスケールが最も適切であるかが決定されるまで、顕微鏡のすべての倍率スケールを先ず使用する。大きなウイルス粒子及び小さいウイルス粒子の凝集体のような個別の大オブジェクトは所定倍率で最もよく見ることができる。ウイルス粒子は、通常、20nmから300〜400nmまで至るサイズ範囲である。断片化ステップ中、本発明方法を用いて、発見したオブジェクトのサイズに基づいてどのスケールが最も適切又は好適であるかを自動的に決定することができる。本発明方法は、プリセット倍率スケール、すなわち例えば、ユーザーがセットしたスケールに左右されない。その代わり、本発明方法は、ピクセル毎の明度変化を解析することによってオブジェクトのサイズを解析及び決定し、またこの解析に基づいて、どこにオブジェクト端縁があるか及びどの倍率が最適又は最も好適かを決定し、これにより使用するスケールを画像における所定場所で見つかった各オブジェクトのサイズに適合させる。端縁の内側における類似の明度を有するピクセルは、同一オブジェクト、すなわち、同一ウイルス粒子に属すると推測される。明度に基づいて類似性を決定する代わりに、色の類似性のような他の基準を用いることもできる。
【0016】
オブジェクト外部の背景における類似明度(すなわち、強い関連性)を有するピクセルは背景に属するとも推測される。各ピクセルが画像内で解析されるとき、オブジェクトの近傍又は端縁のような部分でピクセル間に比較的弱い関連性又は類似性しかない自然な限界ポイントが最終的に見つかる。図示の実施例として、ピクセル番号n1は明度値5を有し、ピクセル番号n2は明度値5.1を有し、ピクセル番号n3は明度値10を有し、ピクセル番号n4は明度値43を有し、ピクセル番号n5は明度値50を有し、ピクセル番号n6は明度値51を有する。ピクセルn3に関しては、明度値がピクセルn4よりもピクセルn2に近いため、数学的アルゴリズム解析は、ピクセルn4よりもピクセルn2と強い関連性を有すると決定する。ピクセルn4に関しては、ピクセルn4の明度値がピクセルn3よりもピクセルn5の明度値に近いため、ピクセルn3よりもピクセルn5と強い関連性が存在する。これは断片化(ピクセルn3とn4との間における)を生ずる場所であり、すなわち、断片化ライン内側のピクセル相互は断片化外側のピクセルよりも互いにより強い関連性又は類似性を有するため、また断片化外側のピクセル相互は断片化内側のピクセルよりも互いにより強い関連性又は類似性を有するからであり、断片化外側のピクセルの明度と比較すると断片化内側の各ピクセル間には明度差が少なく、その逆も明度差が少ないからである。例えば、ピクセルn6が明度値113を有し、またピクセルn7が明度値115を有していたとする場合には、ピクセルn5(明度値50)はピクセルn6(明度値113)よりもピクセルn4(明度値43)とより強い関連性があり、またピクセルn5とピクセルn6との間に断片化を生ずる、すなわち、ピクセルn5はピクセルn4に「追随」し、またオブジェクトに属することになるであろう。
【0017】
画像がピクセルp1、p2、p3、等々のシーケンスを有する場合、本発明方法は、ピクセルp1、p2間、ピクセルp2、p1間、ピクセルp2、p3間、ピクセルp3、p4間、における明度を比較する。ピクセルp2がピクセルp1により類似性が強く、ピクセルp3がピクセルp2のピクセルp3に対するよりもピクセルp4に対してより強い類似性があるとき、ピクセルp2とピクセルp3との間に断片化ラインを生成すると決定する。
【0018】
したがって、どこで端縁又は分割断片化すべきかを決定するために、予め決定した閾値を使用しないことに留意されたい。本発明方法においては、眼目は、ピクセル値間の最強関連性にあり、どこに最大明度差があるかには当たらない。換言すれば、本発明の重要な特徴は、断片化が固定又は予め決定されたものでははく、正確な断片化は、画像内ピクセル間の関連性によって決定されるような、画像内オブジェクトのサイズに依存することである。このことは、最適であると決定される倍率スケールは画像における場所毎に変化し得るものであり、これにより本発明方法は、画像を解析するときに多くのスケールを同時に使用する。或る倍率スケールはオブジェクト全体又はオブジェクトのクラスターを断片化するのに最適であるとともに、オブジェクト内側のピクセル間における関連性を決定し、これにより画像をより小さい断片に分割して、ウイルス粒子及びウイルス粒子に付着するタンパク質の構造又は形状のような末節細部を描出するのに他の倍率スケールを使用することができる。さらに、以下に詳細に説明するように、画像におけるオブジェクトの変換後に、オブジェクトを正規化し、また同一トポロジーを有するオブジェクトは、変換前にサイズ及び形状の変動があるにも係わらず、オブジェクト間の関連性をより強くするよう互いにより多い類似性があるように見える。次に、異なるスケールでの変換済みオブジェクト及び部分構造における各ピクセルの同一解析を実施して関連性を決定する。このことは、本発明方法を解析すべきオブジェクトにおけるサイズ及び形状の変動性に対して全く鋭敏でないものにする。
【0019】
図1は、電子顕微鏡写真におけるウイルス粒子102並びに他の粒子及びデブリのデジタル画像100を示す。デジタル画像100は、複数個のピクセル、すなわち、画像100が構成される小照明領域を有する。
図2Aは、より高い第1倍率スケールで断片104に分割された画像100を示し、
図2Bは、それとは異なるより低い第2倍率スケールで断片106に分割された画像を示す。換言すれば、画像は、局所的差異に基づいて異なる倍率スケールで同時に断片に分割される。各断片104、106間における分離ラインは、グレーの背景110に対して黒く連続したオブジェクト(例えば、ウイルス粒子102)周りにおける端縁のような画像の不連続性又は変化がある場所で描かれる。上述のように、本発明の重要な特徴は、断片を生成するのに何ら閾値を使用する必要がないことである。本発明の他の重要な原理は、関連性/類似性に眼目があり、断片におけるオブジェクト間の非類似性又は相違にはない。
【0020】
すべてのあり得る倍率スケールを使用するため、粒子凝集(クラスター)、単独オブジェクト、及びオブジェクトの下位部分を断片化する。例えば、優勢スケールを有するウイルスは有意に断片化することができる。断片化は複数スケールで実施されるため、或るスケールのウイルスがある領域は、より精細な倍率スケールで下位断片に有意に分割することができるとともに、ウイルス粒子の前後関係又は背景区域は、より粗い倍率スケールで断片化する。したがって、各画像が倍率スケールを有することを除いて、画像のどこが関心対象であるかの推測的定義を行う必要性がなく、これによりすべてのオブジェクトが特別なスケールで画像を見る人に対して提供される。さらに、画像は、ウイルス粒子を含まない多くの断片を包含していると理解すべきである。何らウイルス粒子を含まない断片の包含は、存在論的研究の網羅性にとって価値があり、また非自明であるが再発性の構造的外観を明らかにすることができる。
【0021】
図3は、3つのウイルス粒子122、124、126を示す、より詳細な倍率スケールでの画像120の概略図である。ウイルス粒子の使用は、本発明の原理を適用する単なる例示的な実施例である。本発明は、ウイルス粒子に限定されるものではなく、画像内のいかなるオブジェクトにも適用することができる。断片128におけるウイルス粒子122は、該ウイルス粒子に付着した表面タンパク質130、132、134、136、138及び140を有する。これらタンパク質は、それぞれ断片620、622、624、626、628及び630の内側に位置する。好適には、表面タンパク質の断片化は、ウイルス粒子に関して行ったのと同一のやり方ではあるが異なるスケールで行う。断片142におけるウイルス粒子124は、該ウイルス粒子に付着した表面タンパク質144、146及び148を有する。これらタンパク質は、それぞれ断片638、634及び636の内側に位置する。断片150における第3番目のウイルス粒子126は、該ウイルス粒子に付着したタンパク質は有していない。画像120は、さらに、断片154におけるいかなるウイルス粒子にも付着していないフリーな表面タンパク質152を含む。このタンパク質152は倍率スケールが精細でなければ見えない場合があり得る。より精細なスケールを使用することによって、本発明方法は、ウイルス粒子に付着し得る表面タンパク質のような、ウイルス粒子の内側又は外側における部分構造の特徴をうまく利用して、追加的な関連性を見出すことができる。本発明方法は、さらに、画像における各ピクセルの明度を解析及び決定することによって、ウイルス粒子122、124、126間に位置するオブジェクトを解析する。
【0022】
次の、おおまかなステップは、本発明の数学的アルゴリズムのために、断片内側に位置する識別したオブジェクトを変換し、再編成し、また比較をより精密にするグループ(群)に移動する。オブジェクトのサイズ及び形状の変動は、断片化と同一方法で決定された局所配列固有関数を調査及び使用することによって正規化する。
【0023】
図4に明示するように、識別されたデータ断片128、142及び150(それぞれウイルス粒子122、124、126を含む)は、変換し、かつ使用する信号取得方法のあり得る恣意性を正規化する空間に整列配置する。より具体的には、各識別した断片に関する、追加的な局所化固有関数を計算し、また画像構造に整列するベクトル場効果を付与するN次のレベルまで至る多項式因数の下に正規直交化する。データ断片128、142、150は、新しい座標系を有するように見える断片128′、142′、150′に変換し、変換済みオブジェクトは、断片128′、142′、150′において整列する。このようなすべての変換済み断片は更なる解析のために保存される。
【0024】
このとき、断片はサンプリングされた画像における新たな関数、すなわち、新たな自由変数の下で直接比較可能であるI(s,x(y))を形成する。本発明における他の要点は、各断片における局所化固有関数の選択及び計算であり、このことは、互いに直交する条件を満足させたまま行う。
【0025】
図4に概略的に示すように、各断片は個別に解析して、各断片の向き、及び断片が正規化される他の非線形整列を決定する。本発明の特徴は、
図2A、2Bに示す断片化を決定するのに使用される方程式/アルゴリズムを画像変換後に断片を解析するのにも使用できることである。より具体的には、断片128、142、150のような各断片を、変換矢印155で示すように、簡素化した形状に変換し、かつ変換済み断片128′、142′、150′で示すように、共通の固定向きで整列させる。変換済み断片128′における各個及びすべてのピクセル600、602、604等々、並びに他のすべての断片を第1スケールで解析して、ピクセルの明度を決定する。次に、各ピクセルの明度値それぞれは、変換済み断片142′及び他のすべての変換済み断片の対応するピクセル606、608、610等々と比較する。換言すれば、ピクセル600の明度値はピクセル606の明度値と比較する、ピクセル602の明度値はピクセル608の明度値と比較する、等々の比較を行うようにする。この比較は極めて効果的であり、これはすなわち、変換済み断片128′及び142′は同一サイズ、同一個数のピクセルを有し、また変換済みオブジェクト122′、124′は、各変換済み断片の内側で同じように整列しているからである。この原理は、すべての異なる倍率スケールにおいて識別したオブジェクト、部分構造及び背景を含むすべての断片に適用される。基本プロトタイプ構造から元表現への逆変換ができることに留意されたい。
【0026】
オブジェクトの視覚的印象の変換及び再編成は、それらをより精密に比較できるようにする。同一トポロジー又は等構造を有するオブジェクトは、変換後には同一又は類似の形状又は形式を有し、またオブジェクトは同一の向きに指向する。例えば、変換済みオブジェクトは、同一長さを獲得し、また頂部及び底部が互いに整列する。このことは
図4に示され、これはすなわち、変換済みオブジェクト122′、124′及び126′がすべてほぼ同一の楕円形であり、またそれらは断片128′、142′、150′の内側で同じように整列又は指向しているからである。オブジェクトが、例えば、同一ウイルス粒子タイプを表している場合、変換済みオブジェクト122′、124′及び126′も同一トポロジーを有するであろう。この場合、明区域に暗区域が続き、この暗区域に明区域が続く。変換前には、第1オブジェクトは、より明るい第1のハーフ(1/2)断片及びより暗い第2のハーフ(1/2)断片を有することができ、また第2オブジェクトは、より明るい第1の1/3断片及びより暗い第2の2/3断片を有することができる。このように、トポロジーは、第1明断片を含み、これに第2暗断片が続くことができる。変換後には、アルゴリズムは、1次元を使用する場合、双方のオブジェクトが明るい第1ハーフ及び暗い第2ハーフを有するように描出するが、変換前には第2オブジェクトは1/3の第3明区域及び2/3暗区域を有していた。オブジェクトが第1暗断片、第2明断片及び第3暗断片を有する場合、これは異なるトポロジーを構成することになる。
【0027】
実際上、トポロジー決定は、ウイルス粒子及びこのウイルス粒子に付着した表面タンパク質のような、オブジェクト及び部分構造を識別するのに使用することができる。このアルゴリズムは、1次元に限定されることなく、多次元も変換に好適に使用されることに留意されたい。画像においてウイルス粒子が互いにオーバーラップし、したがって、1つのウイルス粒子が他のウイルス粒子の僅かに上方に位置しているような場合であっても、このことは適用される。
【0028】
変換は、変換前には見ることができない又は見るのが困難であった、変換済みオブジェクトをより正確に比較し、また追加的類似性又は関連性を識別することを可能にする。概して、オブジェクトが同一トポロジーを有するとき、変換後にはより類似して見えるようになる。さらに、オブジェクトの「近隣」を解析ことも可能である。例えば、クラスターからより離れて位置する遊離ウイルス粒子のような単独オブジェクトは、クラスターにおけるウイルス粒子とは異なる近隣オブジェクトを有する。遊離ウイルス粒子はクラスターにおけるウイルス粒子に極めて類似しているが、クラスターにおけるウイルス粒子よりも他の近傍遊離粒子に一層高い関連性を有することがよくある。さらに、ウイルス粒子の部分構造を解析する、すなわち、より精細な倍率スケールで解析を行うことが可能になる。
【0029】
上述したように、ウイルス粒子は表面タンパク質を有することがあり、この表面タンパク質を解析して、ウイルス粒子間及び表面タンパク質間の関連性のレベルを決定することができる。ウイルス粒子のどこに表面タンパク質が付着しているかは問題ではなく、これはすなわち、調査の眼目はウイルス粒子に付着されているタンパク質のタイプ及び数にあるからである。さらに、ウイルス粒子を取り巻く前後関係又は背景を解析して、各断片におけるウイルス粒子間の関連性を強める又は弱めることもできる。
【0030】
変換済み画像の解析は、さらに、自動プロセスであり、コンピュータにおけるアルゴリズムは、変換済み断片内の各及びすべてのピクセルに対して行って、すべてのピクセルの明度レベルを決定する。ウイルス粒子の形式をどのように変化させるか、又はどの粒子を互いに比較すべきかについて、人的決定はほとんど又は全く関与しない。
図4に例示したように、断片128におけるウイルス粒子122の画像変換は、変換済みの断片128′におけるウイルス粒子122′で示すように、所定長さに直線化及び伸張/短縮することができる。同様に、ウイルス粒子124は断片142′におけるウイルス粒子124′に直線化し、好適には、ウイルス粒子122′とほぼ同一長さにし、かつ双方の頂部及び底部が並ぶよう整列させる。同一の変換をウイルス粒子126に対して行い、粒子122′及び124′に整列する断片150′におけるウイルス粒子126′にする。粒子122′、124′、及び126′は、このときより正確に比較することができる。粒子122、124及び126は同一トポロジーを有し、これにより変換後に、粒子122′、124′及び126′は、極めて類似した形式又は形状を有する。ウイルス粒子の「近隣」、すなわち、表面タンパク質も解析される。同様に、表面タンパク質の画像を、それぞれ表面タンパク質130′、132′、134′、136′、138′、144′、146′、148′、及び152′に変換する。
【0031】
ウイルス粒子に付着する、又はウイルス粒子に極めて近接する表面タンパク質の位置は異なることに留意されたい。もし、表面タンパク質が各ウイルス粒子の全く同一場所に位置していた場合、例えば、変換済み断片128′及び142′間で各ピクセルの第1スケールによる比較においてウイルス粒子の一部として、含まれていたものとすることができる。しかし、表面タンパク質が異なる場所に位置するため、本発明方法は、第2のより精細なスケールでの解析を実施して、先ず前の断片化段階中にタンパク質の存在を(表面タンパク質の正確な場所に関係なく)識別する。第2スケールのようなより精細なスケールでは、コンピュータは、表面タンパク質に関する変換済み断片及び他のすべての変換済み断片における各ピクセルの比較を行い、例えば、ウイルス粒子に付着している又はウイルス粒子近傍の表面タンパク質のトポロジーを識別する。変換済み表面タンパク質を130′、132′、134′、136′、138′、140′及び152′として示す。変換済み表面タンパク質は、表面タンパク質解析に適正なスケールで互いに比較するだけで、依然として仕分けされない。変換済み断片128′、142′、及び150′における各ピクセルの解析と同様に、各ピクセルは変換済み断片620′、622′、624′、626′、628′、630′、154′、634′、636′及び638′に関して解析するが、例えば、より高い倍率又はより精細なスケールで解析する。このようにして、例えば、変換済み断片620′における各ピクセルの明度値を、変換済み断片622′及び他のすべての変換済み断片における対応するピクセルの明度値と比較する。換言すれば、変換済み断片620′の左上コーナーにおける第1ピクセルを、変換済み断片622′の左上コーナーにおける対応する第1ピクセルと比較する等々を、すべてのピクセルの明度値を他のすべての変換済み断片における対応するピクセルと比較するまで行う。これら値は更なる解析のためにコンピュータが保存して、トポロジーを識別する。
【0032】
本発明の重要な特徴は、再配列命令をオブジェクト自体(すなわち、オブジェクト間の関連性)に埋め込み、最も強い関連性を有するオブジェクトが変換及び比較後に同一グループ内に移動させられるようにする。人間が特定する必要はなく、又は配列を画像の各対間で最適化する必要はない。
【0033】
異なるスケールでオブジェクト間の自動化した関連性及び空間近接性付けを使用する原理を以下に説明する。第1倍率スケールはウイルス粒子のクラスターを解析するのに適し、第2倍率スケールは個別ウイルス粒子の解析に最も適しているとともに、第3倍率スケールは、ウイルス粒子内部及びウイルス粒子の外側の部分構造を解析するのに適している。異なるスケールで再発するオブジェクトは、所定解析にとってどの倍率スケールが関心対象となるかの理解をユーザーに与えるグループとして識別される。
【0034】
異なるスケールでのデータ断片の自動化した関連性及び空間近接性付けのための本発明方法は、以式に示すように数学的に記述することができる。抽出される断片は結合性カーネルを有する有限グラフに配置される。
【数4】
ここで、2つの変換済み断片間の距離d
Sは関数の差における標準L
2ノルムであり、近隣断片は(n
C1)及び(n
C2)で示される。このカーネルに対する固有ベクトルは、クラスター化のための3次かつ対象の多項式まで正規直交化される。断片(S)のための追加の固有ベクトルポイントは(p)と称される。
【0035】
図5に示すように、ウイルス粒子、他の部分構造及び背景断片のような互いに高い関連性を有する変換済みオブジェクトは、互いにグループ集合される。上述したように、変換済み断片における各ピクセルの明度値は、すべての他の変換済み断片における対応するピクセルと比較される。概して、変換済み断片内側における他の変換済みオブジェクトと同様な変換済みオブジェクトは、互いに接近するよう移動させられ、ともにグループ集合させられる。
【0036】
換言すれば、第1スケールで、
図5における断片122′、150′及び142′のような各変換済み断片に関するピクセル値を互いに及び他のすべての断片と比較し、これにより類似又は同一のトポロジーを識別するよう、1つの変換済み断片におけるピクセル値は他の変換済み断片におけるピクセル値と比較される。最も高い関連性又は類似性を有する断片はグループ集合される。コンピュータは各変換済み断片を空間座標に割り当て、これにより類似の変換済み断片には類似の空間座標が与えられ、したがって、変換済み断片は互いにより接近するよう移動させられることになる。第1スケールよりも精細な第2スケールで、変換済み断片のすべての断片におけるピクセル値が互いに比較され、これにより同一トポロジーを有する変換済みタンパク質画像は、
図5に示すようにグループ集合させられる。換言すれば、最も高い関連性を有する変換済みオブジェクトは、グループ内で互いに最も近接するよう移動させられる。好適には、このグループ分けは異なるスケールで行われる。解析される断片は、必ずしも同一画像からである必要はないことがあり得る。変換済み粒子122′、124′及び126′は互いにグループ集合させられ、これは、それらが互いにより高い関連性を有する、すなわち、画像における他のオブジェクトよりも同一又は類似のトポロジーからである。同様に、表面タンパク質130′、136′、146′、148′及び152′(「T」タンパク質として図示)は、それらが同一又は類似のトポロジーを有するためにグループ集合され、表面タンパク質134′、140′及び144′(「Y」タンパク質として図示)はグループ集合され、また表面タンパク質132′及び138′(「I」タンパク質として図示)はグループ集合される。すべての変換済み断片を互いに比較する。このことは例えば、変換済み断片128′におけるピクセルを変換済み断片620′におけるピクセル(変換済み表面タンパク質130′を含む)と比較することを意味し、またこれはトポロジーが全く異なるため、コンピュータによってこれら2つの断片に割り当てられる空間座標が全く異なるからである。したがって、断片620′は
図5において断片128′から遠く離れている。
【0037】
以下に説明するように、グループ集合における類似オブジェクトの各断片は、この後、
図6に示すような、存在論的な3つの構造を生成する付加的及びより詳細/特異な関連性を識別するよう、より高い関連性スケールで解析することができる。
図5において断片は、断片が類似又は同一トポロジーを有するオブジェクト又は構造を含んでいるか否かに基づいてグループに編成及び仕分けする。例えば、ウイルス粒子は、各断片がウイルス粒子を含んでいるため、関連付け又はグループ集合される。さらに、類似表面タンパク質は直接比較に基づいてグループ集合される。しかし、近隣断片は、断片の新たな再発性組合せをもたらす付加的情報を含むことができる。
図6において、断片を互いに比較して、断片が予変換図(
図3参照)における任意な共通ピクセルを含むか否かを決定し、付加的関連性を見出すことができるようにする。「近隣」は、ウイルス粒子を含む断片と同一エリアを同時に共有する部分構造を含む断片と定義することができ、すなわち、部分構造の断片は、そのウイルス粒子に関する断片内側に位置し、これによりウイルス粒子断片は
図3に示す表面タンパク質の断片を包含する。同一エリアは、
図3における2つの断片がxy平面のような2次元図で共通して少なくとも1つのピクセルを同時に有することを意味する。このようにして、本発明方法は、2つの断片が共通して少なくとも1つのピクセルを有するか否かを決定することによって、2つの断片が近隣であるか否かを決定する。それは、ウイルス粒子の断片内での表面タンパク質又はウイルス粒子の正確な位置を決定しない。それは、単に、2つの断片に関して共通ピクセルエリアが存在するか否かに眼目があるに過ぎない。上述したように、
図3に示すような断片化に使用されるピクセル情報を検索用のデータベースに保存し、2つの断片が近隣であるか否かを解析できるようにする。ウイルス粒子は第1スケールで解析することができるとともに、部分構造(すなわち、表面タンパク質)は第2スケールで解析されることに留意されたい。倍率スケールが3次元として取り扱われ、また2つのウイルス粒子が同一倍率スケールにある場合、この2つのウイルス粒子は、xy平面における近隣ではないが、スケール平面で見て近隣であると取り扱われることができる。したがって、2つの断片は、断片が同一倍率スケールで解析されるため、空間的に近隣である又は近隣でないとすることができる。
【0038】
図6は、精細スケールの表面タンパク質の存在及びそれらの個別関連性が複雑なウイルス粒子122′、124′及び126′の関連性に対して付加的情報を付与する着想を示す。このとき、コンピュータは、断片化段階中に各ウイルス粒子断片の内側にあり、したがって、部分構造の断片はウイルス粒子の断片と少なくとも1つのピクセルを共有すると識別されたウイルス粒子の近隣、すなわち部分構造を解析する。
図3で説明したように、表面タンパク質を含む数個の断片は、ウイルス粒子を含む断片の幾つかと同一エリアを共有する、すなわち、表面タンパク質を含む断片はウイルス粒子の断片の内側に位置する。変換済み断片の各ピクセルを単に互いに比較する代わりに、
図5に示すように、ウイルス粒子を含む断片と同一エリアを共有する断片(部分構造、すなわち表面タンパク質を含む)を、他のウイルス粒子の断片と同一エリアを共有する断片(部分構造を含む)と比較する。このようにして、ウイルス粒子を含む断片のような他の断片とエリア/ピクセルを共有する表面タンパク質の断片を解析する。より大きな断片の内側における部分構造断片の正確な位置は解析又は決定されない。例えば、変換済み断片150′の内側には何ら表面タンパク質がない、すなわち、
図3でウイルス粒子126を包囲する断片150の内側に位置していた表面タンパク質を含む断片がない場合の変換済みウイルス粒子126′との関連性に比較すると、変換済み断片128′、142′の内側の近隣のような表面タンパク質をそれぞれ有する変換済みウイルス粒子122′及び124′間にはより強い関連性がある。変換済み断片128′及び142′は、したがって、コンピュータによって新たなより精密な空間座標が割り当てられ、変換済み断片150′に割り当てられた空間座標よりも、変換済み断片128′、142′に割り当てられた空間座標で互いにより近接するよう移動させられる。
【0039】
同様に、表面タンパク質に対する近隣としてウイルス粒子が存在することは、表面タンパク質間の関連性に対する付加的実施を提供し、したがって、このことは、ウイルス粒子に付着しない「遊離」表面タンパク質よりも、ウイルス粒子に付着した表面タンパク質の強い関連性を提供する。より具体的には、変換済み断片154′(変換済み表面タンパク質152′を含む)は、ウイルス粒子を含む断片とエリアを共有しない。表面タンパク質152′は、ウイルス粒子に付着しない「遊離」表面タンパク質であるとともに、表面タンパク質130′、136′、144′及び146′を含む断片はすべて、それぞれがウイルス粒子を含む断片とエリアを共有し、したがって、これら表面タンパク質の断片間には、遊離タンパク質152′のみを含む断片154′よりも高い関連性がある。換言すれば、異なる知覚スケールで、断片は、「知覚」空間における集合として仕分け及び分割することができる。断片の各集合は、幾つかの断片が他の断片よりも互いに強い関連性を有する場合、部分集合としてさらに分割することができる。本発明の重要な態様は、関連性が差別化特性を選択することなく、単なる包括的特性を有した包括的なものである。単なる分離特性は、データポイントを強制的に単位球体にわたり拡散させる大局的正規化である。
【0040】
関連性クラスターを検査する自動仮説方法を以下に説明する。この方法は(c1)及び(c2)によって取り扱われる(上述の方程式参照)低スケールで開始し、この場合、カーネルのみが1つの固定ポイントを有する。すべての断片が一意的であり、断片(S)の周りの個別クラスターであるようより高い倍率スケールに向けて漸増移動させることは、断片周りの球体を使用することによって評価する。或る(r)に関して、次式である場合、クラスターが識別される。すなわち、
【数5】
【0041】
さらに、半径(r)を有する次式の潜在的クラスター、すなわち、
【数6】
における次式のクラスター、すなわち、
【数7】
における各内部ポイントを、識別されたクラスターは保持し、この提案されたクラスターの局所的一意性を識別する。このクラスターは空ではなく、また外部ポイント(>2r距離に位置する)の非空集合が存在すべきである。
【0042】
したがって、これは、データを分離可能なクラスに仕分けするために、データに対するいかなる仮定も必要としない自動方法である。このように、本発明は、オブジェクト関連性及び多くのオブジェクトの互いに対する適時かつエネルギー効率のよい存在論的調査の自動計算が可能であり、事前定義フィルタを使用するときには必要となる精緻な仮定を立てる必要がなく、また2つのオブジェクトを比較するときパラメータセットを最適化する必要がない。
【0043】
図7は、グループ集合が関連性測定によって決定するときに重要である場合に基づいて、どのようにしてウイルス粒子及び表面タンパク質をグループ(一点鎖線円でアウトラインを示す)にクラスター化するかを概略的に示す。集合を部分集合に分離するのは、構造の部分集合がこの部分集合における他のすべてのポイントに対して有意な距離に位置するとき、集合の部分集合への分離を生ずる。例えば、表面タンパク質を含んでいないウイルス粒子126′は、「知覚」空間において、双方ともに表面タンパク質を含んでいる2つのウイルス粒子122′及び124′から、2つのウイルス粒子122′及び124′(表面タンパク質を含んでいる)相互間の距離に比べてより一層離して配置する。しかし、ウイルス粒子122′、124′及び126′はウイルス粒子グループ200としてクラスター化するとともに、ウイルス粒子122′及び124′だけは表面タンパク質が付着しているウイルス粒子グループ202としてクラスター化する。同様に、表面タンパク質130′、136′、144′、146′及び152′は「T」タンパク質グループ204としてクラスター化する。表面タンパク質130′、136′、144′及び146′のみは、ウイルス粒子に付着している「T」タンパク質グループ206としてクラスター化する。表面タンパク質134′、140′及び148′は「Y」タンパク質グループ208としてクラスター化するとともに、表面タンパク質132′及び138′は「I」タンパク質グループ210としてクラスター化する。
【0044】
図7に記載したクラスター化は、
図3で示した断片化ステップに類似し、この断片化ステップでは、最も関連性を有する(例えば、トポロジー及び近隣基準に基づいて)オブジェクト及び部分構造を共通クラスター又は有意/明確区分グループにクラスター化し、これにより、断片間の関連性が高ければ高いほど、断片を仕分け空間で(座標及び固有ベクトルに基づいて)より近くに配置する。明確区分グループは、座標系において互いに遠くに離れており、またグループ間にはオブジェクト/構造が全く又は極めて少数しか存在しないグループとすることができる。
【0045】
関連性カーネルg
2は、断片間及び断片グループ間における付加的関連項と考えられる。
図9〜11につき説明すると、断片と2つの選択した近隣断片との間における関係性は、他の断片と2つの選択した近隣断片との間における関係性と比較することができる。このような関係性比較は、グループ(すなわち、断片及び2つの近隣)内における3つのオブジェクト間の距離の三角不等式測定を選択する。近隣に対して類似の三角不等式関係性を有する2つの断片は、高い関連性を有する。このような認知比較における現実世界の例は、太陽系という背景における地球と太陽との間の関係性と比べられる、原子という背景における電子と原子核との間の関係性である。双方の系において、例えば、中心オブジェクトが存在し、その周りにより小さいオブジェクトが楕円形又は円形の経路において移動しており、双方の系における成分間の関係性は類似する。
【0046】
2つの識別されるクラスターは、上述したように、同一の局所的配列を受けることができる。各局所クラスターにおける分布は、断片グループにおける局所形態学的ジオメトリを類型化する。この形態学的ジオメトリは、2つの断片クラスター間を比較し、それらグループの挙動に基づいてクラスターをグループ分けできるようにする。形態学的ジオメトリは、例えば、異なる位置から見たオブジェクトの変動又はオブジェクトのトポロジーにおける小さいが連続的な変動である。2つの分布を比較する1つの方法は、好適には、各クラスターにおけるポイント間の最小距離の合計に基づくものである。
【0047】
より具体的には、
図9は、
図3〜4に示すウイルス粒子122にほぼ類似する断片228におけるウイルス粒子222のようなオブジェクトを示す。粒子222は粒子122に似ているが、粒子に付着する末節細部又は部分構造が粒子122におけるのとはすべてが異なる又は極めて異なるものの、末節細部間の関係性は同一又は極めて類似したままである。簡単のため、項、末節細部、部分構造及び表面タンパク質は本明細書で互換的に使用される。
【0048】
表面タンパク質230、232、234、236、238及び240は粒子122における表面タンパク質130、132、134、136、138及び140とは異なるが、表面タンパク質間の関係性は、表面タンパク質の他の表面タンパク質に対する相対位置と類似又は同一である。末節細部230〜240は、表面タンパク質である必要はなく、末節細部130〜140とは異なる任意なオブジェクトとすることができると理解されたい。さらに、最も関心があるのは末節細部間の関係性であるため、粒子222における末節細部230〜240の場所は、粒子122において表面タンパク質130〜140が配置されている場所と同一である必要はないと理解されたい。上述の実施例において、末節細部230〜240及び末節細部130〜140がそれぞれ各粒子における同一位置に配置されていることが判明する場合、このことは、どのくらい末節細部が互いに関係性を有しているかの類似性を一層強めることになる。対応する各粒子122、222における末節細部130〜140及び230〜240の正確な空間的位置は主要眼目ではない。その代わり、粒子のどこに表面タンパク質が付着しているかを正確に知得することなく、主要眼目は、1つの表面タンパク質がどの程度他の表面タンパク質に対する相対位置に位置しているかにあるべきである。例えば、Y−末節細部234′は、左側にI−末節細部232′を有し、また右側にT−末節細部236′を有するものであり、このことは、
図10〜11に示すように、左側にI−末節細部132′を有し、また右側にT−末節細部136′を有するY−末節細部134′に類似する。
【0049】
さらに、末節細部230〜240は末節細部130〜140と同一の表面タンパク質であるが、末節細部230〜240は表面タンパク質130〜140と類似の表面タンパク質に付着した付加的二次表面タンパク質である可能性もあり得る。このことは、表面タンパク質230〜240を表面タンパク質130〜140とは異なるものとするが、ウイルス粒子及びこれらウイルス粒子に付着した表面タンパク質の集まりが互いに類似又は同一のように相関するのと同一様態で、互いにまた主粒子/ウイルスに対して相関する。
【0050】
本発明三角不等式比較の新規な概念はこの相似を測定し、また粒子122が粒子124に対するよりも(
図3〜4に示した)、粒子122及び粒子124が何らかの末節細部、すなわち、同一表面タンパク質を共有するとしても、粒子222及び粒子122相互がより強い関連性を示していることを決定する。換言すれば、粒子122及び124は、同一表面タンパク質であるT-表面タンパク質及びY-表面タンパク質を含んでいるため、粒子122及び124相互間に「直接類似性」が存在する。しかし、オブジェクト間の直接類似性の識別は極めて面倒になり、これはすなわち、オブジェクトの特性に関して極めて多くの検査をしなければならないからである。三角不等式比較において、眼目は、粒子の末節細部(すなわち、表面タンパク質)相互間の直接類似性にあるのではなく、互いに直接比較するとき末節細部が類似しない場合であっても、末節細部が共通して有している関係性を見出す又は識別するため、どのように末節細部が互いに相関するか、又はどのように末節細部が互いに相互作用するかにある。例えば、所定状況でウイルス粒子に付着した表面タンパク質間の関係性を、異なる状況でやはりウイルス粒子に付着している他の表面タンパク質に移し替えて、双方の状況で共通関係性を識別することができる。
【0051】
より具体的には、粒子122のタンパク質130、136は粒子124のタンパク質146、148と同一であり、粒子122のタンパク質134、140は粒子124のタンパク質144と同一タイプである。しかし、表面タンパク質間の関係性は、粒子124に関しては粒子122と比較すると異なる。さらに、粒子124は、粒子122の表面タンパク質132、136と同一の表面タンパク質が完全に欠如している。例えば、粒子124は「I」末節細部を持たない。このことを
図10〜11で図示する(
図4〜5における図解遷移に類似する)。
【0052】
図10は
図7にほぼ類似するが、変換済みの粒子222′及び末節細部230′〜240′は、粒子122′及び124′に対して三角不等式比較を実施することが付加されている。
図10における近さ又は近接性はオブジェクト間の類似性を表している。
図11に明示するように、ライン400aは、変換済み末節細部236′が変換済み粒子222′の変換済み末節細部234′に対してどのように関係するかを表している。例えば、ライン400aの長さ、位置及び方向は、この関係性の指示であり、そのジオメトリを使用して末節細部がどのように互いに関係しているかを図示することができる。このラインの他の特徴も使用することができる。同様に、ライン402aは、変換済み末節細部234′が変換済み末節細部232′に対してどのように関係するかを表している。ライン400bは、変換済み末節細部136′が変換済み粒子122′の変換済み末節細部134′に対してどのように関係するかを表し、ライン402bは、変換済み末節細部134′が変換済み粒子122′の変換済み末節細部132′に対してどのように関係するかを表している。末節細部236′と末節細部238′との間における関係性は、末節細部236′から直接末節細部238′に向けて他のラインを伸ばし、これによりライン400a、400b及びこの新たなラインがともに三角形を形成することによって、図示できたことになる。この場合、ライン400a及び402aはともに、末節細部236′と末節細部234′との間の距離に末節細部234′と末節細部232′との間の距離をプラスした距離が末節細部236′と末節細部232′との間の距離と同一であり、また3つの直線は高さを持たない三角形を形成することを意味する直線のラインを形成するため、末節細部236′と末節細部232′との間のラインはライン400aにライン402aをプラスしたものと同一である。末節細部236′と末節細部232′との間の距離はより短く、またライン400a及び402aは三角形を形成しないが、両者間に角度を形成し、このとき3つのラインは高さを有する見える三角形を形成したことになる。ライン404は変換済み粒子124′(粒子122′とは異なる)の変換済み末節細部146′がこの同一粒子124′の変換済み末節細部144′とどのように関係するかを表している。図面から分かるように、ライン400aは、ライン400bにほぼ類似し、またほぼ同一の長さ及び方向を有しているため、末節細部236′と末節細部234′との間の関係性は、末節細部136′が末節細部134′に対してどのように関係するか(ライン400bによって表される)に関してほぼ類似する。他方、ライン404は、粒子124′がI-末節細部を有していたとしても、ライン400aのライン400bに対するものとは異なる長さ及び方向を有し、形成される三角形は、末節細部236′-234′-232′間で形成される三角形(高さがない)及び136′-134′-132′間で形成される三角形(やはり高さがなく、上述の236′-234′-232′三角形と合同)とは異なるものになる。ラインの長さ及び方向は、この状況下にあるすべての末節細部によって影響を受け、したがって、例えば、末節細部232′及び238′が存在しない場合に、粒子222′は、粒子122′に類似する代わりに、粒子124′により一層類似することになり得る。
【0053】
粒子122′及びこの粒子に付着する末節細部又は表面タンパク質130′〜140′は、粒子122′の粒子124′(末節細部130′〜140′を含む)に対するよりも、一層粒子222′及び末節細部又は表面タンパク質230′〜240′に類似するため、粒子122′は、矢印250によって図示するように、グループクラスター252を形成するよう粒子222′により近く移動し、これにより粒子222′集合体(コンステレイション)は、粒子集合体124′が粒子集合体222′に対するよりも、粒子122′集合体により近くに位置する。粒子222′、122′及び124′集合体相互間の三角不等式測定は、
図11の底部に示すように、粒子222′と粒子122との間の距離D1が最も短いとともに、粒子122′から粒子124′への距離D2、粒子222′から粒子124′への距離D3がより長く測定される。
【0054】
本発明は好適な組成及び実施形態に関して説明したが、特許請求の範囲における精神及び範囲から逸脱することなく、それらに対する若干の置換及び改変を行うことができると理解されたい。