(58)【調査した分野】(Int.Cl.,DB名)
細胞培養データを処理する方法であって、前記データは多数の試料の結果を含み、前記結果は前記各試料について細胞培養の複数の段階を順次実行することによって得られ、前記各段階は一組の特定条件をもつ細胞培養処理を表し、そのため前記各試料は前記細胞培養に適用された前記処理の固有性および順序によって定義される手順をたどり、
望ましい細胞培養成果を生み出した前記試料のサブセットを特定する工程と、
前記サブセット内の前記試料の前記結果をコンピュータで解析して前記結果を順序付けまたは分類する工程とを含み、前記結果を順序付けまたは分類する工程は前記望ましい細胞培養成果を得るために効果的な一つ以上の手順の特定に役立ち、前記順序付けまたは分類するための前記解析は異なる手順の間の類似性に関する情報を利用する、方法。
前記順序の一覧は二進列で表され、前記二進列の各桁は異なる段階の異なる処理に対応し、前記桁の値は前記処理がその特定の段階で前記試料に適用されたか否かを示す、請求項8に記載の方法。
前記方法は、望ましい細胞培養成果を生み出した試料の少なくとも前記サブセットの測定値を解析して、前記サブセット内の前記各試料用の前記手順を決定する工程をさらに含む、請求項1乃至15のいずれかに記載の方法。
前記測定値は流れ細胞測定または走査細胞測定によって得られて前記試料に関連する蛍光標識を識別し、異なる処理は前記試料に異なる蛍光標識を与える、請求項16または17に記載の方法。
前記望ましい細胞培養成果は一つ以上の試験に合格することによって決定され、結果の前記分類を解析する工程をさらに含んで前記一つ以上の試験に合格する試料の異なる分類を特定し、前記異なる分類は異なる細胞培養特性をもつ、請求項1乃至18のいずれかに記載の方法。
細胞培養データを処理する装置であって、前記データは多数の試料の結果を含み、前記結果は前記各試料について細胞培養の複数の段階を順次実行することによって得られ、前記各段階は一組の特定条件をもつ細胞培養処理を表し、そのため前記各試料は前記細胞培養に適用された前記処理の固有性および順序によって定義される手順をたどり、
望ましい細胞培養成果を生み出した前記試料のサブセットを特定するデータを含む記憶装置と、
前記サブセット内の前記試料の前記結果をコンピュータで解析して前記結果を順序付けまたは分類するよう構成された演算素子とを備え、前記結果の順序付けまたは分類する工程は前記望ましい細胞培養の成果を得るために効果的な一つ以上の手順の特定に役立ち、前記順序付けまたは分類するための前記解析は異なる手順の間の類似性に関する情報を利用する、装置。
【発明を実施するための形態】
【0028】
図1は、本発明の一実施形態によるデータ処理を含む細胞培養実験の上位の流れ図である。本流れ図は、例えば数千個の試料などの多数の試料を含む体外細胞培養実験(操作100)を実行する工程に始まる。そのような細胞培養実験が、例えば特許文献1に説明されており、各試料は細胞培養の基質として作用するビーズを含む。そのビーズを一連の培地に浸漬することによって、各試料が一連の処理に供される。任意の所与の試料に行われるその一連の処理をその試料用の手順(経路)と考えることができる。
【0029】
一般に処理は複数の段階すなわちラウンドで行われ、全ての試料の処理のラウンドが同数になるように行われる。一部の試料が異なる数の処理を受ける場合でも、必要に応じてある試料のラウンドに無効な処理を「あてる」ことによって、処理のラウンドの数を設定された試料全体で均一化することができる。これによって、各試料は同じ決まった数の(所定数の)処理を受けるものと考えることができる。
【0030】
N(i)がi番目の段階すなわちラウンドにおける異なる処理候補の数であり、全体でI個の段階があるとすると、実験の手順(N)の総数はN=N(1)×N(2)・・・N(I)によって与えられる。一般に、複数の試料が(平均すると)それぞれの手順に供されるように、試料の数はNよりも大きくなるように選ばれる。
【0031】
特許文献1に説明されているように、各ラウンドの試料を分割する方法の候補が多数ある。一つの方法は、試料(例えばビーズ)の数を、ラウンド内の各処理に対して(ほぼ)均等に分けることである。その後各ラウンドの最後に、試料を次のラウンド用に再度分割するまで一緒に貯留する。試料の数が実験で試験される手順の総数より非常に多いと仮定すれば、統計的基礎に従って、この方法によって複数試料が確実に各手順に供される。
【0032】
貯留しその後各ラウンドの最後に分割するのではなく、もう一つの方法は分割した後に貯留することである。つまり、第1のラウンドの各処理後の試料を第2のラウンドの処理の数に分割する。その後、第2のラウンドの異なる処理のそれぞれに予定されている割り当てすなわち分割量を一緒にして処理を開始する。この方法は(統計的分配に頼るのではなく)手順全体にわたってさらに正確に試料を分配するが、分割および貯留の総量が非常に多いため、より実験全体を見通す能力に影響される。
【0033】
各処理は、細胞培養の物理的、化学的および/または生物学的な異なる条件を表す。例えば異なる処理は、異なる温度または照明条件、異なる成長培地の使用、特定のホルモンの有無等を含んでもよい。当業者は、多肢にわたる利用可能な種々の処理を思い付くだろう。さらなる考察には、特許文献1を参照されたい。
【0034】
各試料の手順は後の検出および解析のために記録される。この記録は、例えば所与の処理に供される全ての試料に、特定の蛍光標識を関連付けることによって物理的あるいは化学的に行ってもよい。その後、試料がたどったその手順を、その試料と関連した一組の標識から決定する。他の一方法は、例えば試料にRFID標識を含めることによって、各試料を識別できるように作ることである。それによって、特定の処理を受ける各試料の固有性を記録することができ、その結果、任意の所与の試料が受ける一連の処理の記録が得られる。試料の手順を監視し記録する種々の方法についてのさらなる情報は、特許文献1に見いだされる。
【0035】
細胞培養実験の結果を精査して、陽性結果を生み出した試料を決定する(操作110)。結果の精査には流動細胞測定または何らかの他の適切な技術を使用してもよい。本名明細書で述べる「陽性」の結果とは望ましい成果の意味を含み、具体的な産物または効果があること(または無いこと)でもよい。また、この望ましい成果はさらに複雑な結果を表してもよい。例えばある成分が存在しかつ別成分が存在しないことでもよい。陽性試料を、細胞培養実験に供された試料の元の組のサブセットと考えることもできる。
【0036】
ここで陽性試料の実験手順が決定される(操作120)。この決定は種々の技術によって行ってもよく、例えば特許文献1を参照されたい。操作110および120の順序には自由度がある。例えば、一部の実験配列では、全ての試料の手順を決定してもよい。結果が陽性である試料のサブセットを一旦識別すれば、これが、対応する手順のサブセットに直接結び付く。他の実験では、結果が陽性である試料を最初に決定してもよい(
図1に示す)。その後、陽性試料のこのサブセットについてのみ処理手順を特定する(これによって、判定が必要な手順の数を減らす)。他の実験では、陽性試料のサブセットの識別を処理手順と同時に実施してもよい。例えば、実験的成果と手順標識の両方を同時に検出することができる流動細胞測定または走査細胞測定の任意の適切な形態で識別してもよい。
【0037】
出願人等は、第1のラウンドの処理に1A、1B、1C、・・・1N、第2のラウンドの処理に2A、2B、2C、・・・2Nなどの表示をすることができる。このとき、
(a)異なる処理の選択肢の数は、あるラウンドと他のラウンドでは異なる場合があり(すなわち「N」はラウンド間で異なる場合がある)、
(b)異なるラウンドの一組の処理の間になんらかの重複の程度(重複無し、部分的、完全)がある。例えば、第1のラウンドのある処理は、一つ以上後のラウンドの処理と同じである場合がある(例えば1B=2C=3C)。とりわけこれは、所与の処理に供する時間が重要か否かの検討(すなわち処理の順序付けの検討にも)に役立つ。
(c)各ラウンドは、一つ以上の試料がそのラウンド内の何らかの特定の処理に供されなかったことを示すために、「無効」処理を含む場合がある。
(d)手順候補(すなわち種々のラウンドの処理の有望な組合せ)が必ずしも全て実施されるわけではない。例えば、T1およびT2が2つの処理であり、順序付けが重要であるか検討するのが望ましいとすれば、1A=2A=T1および1B=2B=T2としてもよい。この場合、順序1A−2Bおよび1B−2Aは関心のある順序であるが、処理T1またはT2のどちらかの単純な繰返し(順序としては、1A−2Aおよび1B−2B)は実施されない場合がある。他の方法(例えば、貯留の後に分割する方法)の場合、陽性結果をもたらさない試料については追加解析(操作120)を行わないことを考えれば全ての手順を実施するほうが簡単であるものの、実験手順によっては、後者の順序を全く実施しなくてもよい(特に、各ラウンドの最後において分割−貯留する方法では)。
【0038】
したがって、実験段階の出力(すなわち操作130のデータ処理段階への入力)は一つ以上の成功した手順の組であり、各手順の成功は(例えば)標準分析によって測定され、各手順は手順を形成する一連の処理によって表される。例えば、4ラウンドの処理がある場合、手順を上記の呼び方1C−2A−3C−4Dを用いて表してもよい。複数の成功した試料が同じ手順をたどるとすれば、その手順はその一組のデータの中で複数回繰り返されることになる。
【0039】
一般に大規模な細胞培養実験の目的、したがってデータ処理段階130の目的は、具体的な関心がある手順を特定することである。次に、これらの手順について追加の実験的検討(操作140)を行う。その実施には比較的費用と時間が掛かる。したがって、特に実施する価値が最もあると思われるそれらの手順を順位付けする観点で、および偽陽性(すなわち偽陽性結果を生み出した試料/手順)を廃棄することができるという観点でも、できるだけ効果的であることが手順の特定には重要である。
【0040】
図1に示した処理の中で、操作100および140は一般に実験室内で行われ、一般に操作110および120は実験測定値とコンピュータ解析とを一緒に含み、一般に操作130はコンピュータ解析を表す。実験測定値(および潜在的にコンピュータ解析)を細胞培養実験100自身に組み込んでもよく、または別の検討として後で実施してもよい。コンピュータ解析の実行には、専用ハードウェアを用いても良く、または記憶装置、演算素子などを備える従来のコンピュータを用いてもよい。演算素子が、コンピュータを制御するソフトウェアを実行して関連動作を実行する
【0041】
一実施形態では、
図1の操作120における経路の特定は、処理の各ラウンド(分割)の各貯留に蛍光標識を追加することによって実施される。標識付けは、(あるラウンドのみではなく)ラウンド全体の各処理に固有の標識を提供する。しかし処理の最終ラウンドには標識を使用しない。というのは、最終ラウンドの所与のビーズが供される特定の処理が、実験の最後のビーズを含む貯留(容器)から直接始まるためである。一般に蛍光標識は、試料例えば実験に使用されるビーズ(微小担体)よりも非常に小さく、処理のラウンドの貯留内のビーズに付着する。任意の所与の処理の間に任意の所与のビーズに付着する標識の数は、実験条件、ビーズの具体的な特性、不規則な変動等によって変動する。場合によっては、所与のビーズがわずかの標識しか(場合によっては標識を全く)拾わない場合がある一方、他の場合には、一回の処理で、所与のビーズが100以上の標識を拾う場合もある。
【0042】
標識は、(蛍光の)色、標識の大きさおよび標識の蛍光強度など一つ以上の特性の組合せによって識別されてもよい。具体的な一実施形態では、(3、4、5)で表された3つの大きさ、(R(赤)、B(青))で表された2つの色および(01、02、03、04、05、06、07、08、09、10、11、12)で表された12の蛍光強度が利用できる。したがって、所与の標識の表示は例えば4R11のように表され、大きさが4、赤色および強度が11を示し、あるいは3B03のように表され、大きさが3、青色および強度03を示す。これによって総数3×2×12=72個の固有の識別子が得られる。
【表1】
【表2】
【0043】
表1および2は、2つの異なる実験に採用された標識付け配列を説明している。第1の表には4つのラウンドまたは分割があり、それぞれ10個の異なる処理を含み(表1)、第2の表には3つのラウンドまたは分割があり、それぞれ15個の異なる処理を含む(表2)。各実験に対し、最終ラウンドでは標識を付けていない(上記理由による)。各ラウンドのT1、T2・・・T15のような処理の表示は、全てのラウンドで同じ一組の処理が使用されることを示すものではない。実際、これは一般には当てはまらない。言い換えれば、分割1の処理T5は分割2の処理T5と同じ表記であるものの、極一般的には異なる処理を意味する。同様に、分割3の処理T5は、分割1および分割2のT5とは異なる別の処理を表すことがある。
【0044】
一実施形態では、流動(または走査)細胞測定による測定値の代わりに、所与の試料に関連する標識がその試料から分離される。流動細胞測定により各標識について4つの測定値が得られる。一つが蛍光波長を、一つが蛍光強度を、2つがそれぞれ横方向および前方向の散乱強度を表す。これらの4つの測定値により、上記規定の3つの変数(大きさ、色および強度)を、したがって所与のビーズまたは試料の標識の固有性を決定することができる。
【0045】
図1Aは、上記表1の実験の標識のコンピュータで行う較正を説明する画面図である。この解析システムでは、特定の実験の結果を選択するのに実験列を用いる。流動細胞測定の所与のセッションを選択するのにセッション列を用いる。そのような測定値の異なるセッションは別々に較正される。その理由は、あるセッションから他のセッションへの出力時に、装置が若干変更される場合があるからである。
【0046】
各個々の試料から得られた標識の結果は一組のファイルに含まれ(各試料に一ファイル)、表題「データの組」の下に別々に羅列される。また、対照ファイルがあり(
図1Aで選択されている)、セッションの開始時に測定される標識から得られたデータを含む。一実施形態では、対照ファイル用のこれらの標識は細胞培養実験で使用される標識と同じであるが、試料に付けられて実際に実験に供された標識ではない。他の実施形態では、実験に供された試料から取り外された標識を直接用いて較正することもできる。後者の場合、試料が陽性結果を生み出したか否かに関係なく、試料の標識を較正に使用できる(この方法がより多くのデータ点を較正に与えるためである)。
【0047】
図1Aの画面の右側部分には区画が3箇所ある。左下の区画には横方向散乱を表すX軸および前方散乱を示すY軸がある。3つの異なる大きさの標識がY軸に沿って分けられた集団ごとにはっきり見え、3つの独立した四角によって描かれている。Y軸の最小値の集団が大きさ3に、Y軸の中央値の集団が大きさ4に、Y軸の最大値の集団が大きさ5に対応する。
【0048】
図1Aの画面の右側部分の右下の区画には、データが3つの四角のそれぞれの中に左側部分からZ軸に沿って延び、赤色蛍光波長の強度値を表す。表1の実験は全て同じ色の標識を使用したため、4番目の軸(青色蛍光波長の強度値)に沿った区画は表示されていない。左下の区画内の3つの集団(四角)のそれぞれは右下の区画の複数の集団を含み、各集団は異なる強度に対応することがわかる。これらの異なる強度も独立した四角によって描かれている。各四角に付属する数値はその四角に該当する標識の数を示す。
【0049】
右上の区画には3列の四角があり、これらは右下の3列の四角に対応している(各列は左下の区画の四角の一つに対応する)。右上の区画の四角は、右下の区画の各四角内のZ値に対応する標識の数の分布を示すヒストグラムである。
【0050】
一実施形態では、流動細胞測定セッションの一組のデータの解析には、対照ファイルのデータの分散図(左下に示す)を描画する第一の工程を含む。その後、データの集団(すなわち
図1Aの左下に示した3つの集団)は四角によって区分される(使用者の手作業またはコンピュータ解析のどちらかによって)。左下に示した各四角内で対応する集団用の対応するはしご型が決定され、これが右下に示されている(同じく使用者の手作業またはコンピュータ解析のどちらかによって)。はしご型の各区分は異なる標識強度(すなわちその標識の大きさ)に対応する。
【0051】
図1Bは
図1Aに類似した構成の標識を示すが、全てのデータが単一の試料に由来している点が異なる。この場合、四角/はしご形の位置は
図2Aに設定された全データの(再計算ではなく)解析によって管理される。平均すると試料は各処理あたり(非常に大まかに)100個の標識を拾い、明らかに各四角内の標識測定値を集団化する工程があることがわかる。このようにして、大きさ3に関しては、標識の大部分は、表1の標識3R06に対応するはしご型の5番目の区分に集団化される。大きさ4に関しては、同様に標識の大部分は、表1の標識4R07に対応するはしご型の5番目の区分に集団化される。大きさ5に関しては、標識の大部分は、表1の標識5R11に対応するはしご型の9番目の区分に集団化される。
【0052】
図1Cおよび1Dは概ね
図1Aおよび1Bにそれぞれ類似しているが、表1ではなく表2の実験に対応する。すなわち
図1Cは対照ファイル内の一揃いの試料の結果を表す一方、
図1Dは単一の試料の結果を表す。
図1Dの試料が、使用された一番小さい強度の標識(4R02)および二番目に大きな強度5の標識(5R11)に対応する処理をたどったことがはっきりわかる。
【0053】
図1Bおよび1Dの区画は関心がある試料の関連性がある経路をはっきり特定するものの、場合によっては、必ずしも標識の測定値が明確な特定を裏付けるわけではない。これは、試料が所与の処理の標識を十分に拾っていない、または次の(またはもっと後の)処理の中で標識を失った可能性があるなど、いろいろな原因によって生じる。また、第1の試料および第2の試料が処理の後ラウンドの同じ分割に入った場合、第1の試料は第2の試料から伝達された標識によって汚染された可能性がある(このとき、伝達標識は第1の試料ではなく第2の試料が供されたもっと前のラウンドの処理に対応する)。さらなる可能性としては、標識を光学測定する際の問題の存在である。
【0054】
さらに、特定の試料の標識を一つ以上の処理に正確に割り付けることができるとしても、この割り付けは利用可能な経路に対応しなければならない。具体的には、標識識別は必ず各分割の一つの処理につながらなければならない。試料の特定の分割の中で処理が特定されなければ、結果的に試料の経路特定は不完全となる。一方、試料の単一の分割内で複数の処理が特定されたら、それは何らかの誤りを示しており(例えば、2つのビーズが 特定の処理の間にくっついてしまっている)、試料の完全な経路を決定できない。この場合、最終または最終の1つ前の分割における処理の情報によって部分的な経路を決定してもよい。
【0055】
従って、
図1の操作120(経路を決定する)は、経路を正しく決定できなかった試料を廃棄または棄却する工程を含んでもよい(そのような試料が陽性結果を生み出しているとしても)。所与の経路の確実性の決定に、種々の統計的試験を用いることができることがわかる。それ故、所与の実験によって作られた(確実な経路の)陽性試料の総数は、個々の統計的試験および経路の決定の許容/棄却(および上記の部分的な経路を用いるか否か)に採用される関連閾値によって若干変動することがある。
【0056】
上記の様に、大規模細胞培養実験のデータを解析するひとつの方法は、特定の手順をたどった成功した試料(細胞単位)の数を数えることである。実際に、その特定の手順をたどった試料の数に従って手順の順位が付けられる。この方法では、各手順を他の手順とは独立に扱って統計値(その手順に関連する試料の数)を決定し、次にこれを用いて追加検討の手順を順位付け/選択する。その一方、本明細書に記載の細胞培養実験データを処理する方法(操作130)は、種々の手順の間の隔たりの程度に基づいて手順を分類および順序付けするなど、手順間の依存性または関連性を探す。この方法は、関心のある手順の潜在的価値を見分ける能力が高いことが確認されている。
【0057】
図2は、本発明の一実施形態による
図1のデータ解析操作130の処理を説明する上位の流れ図である。この処理は、特定された手順(経路)の表示を二値表現に変換することから始まる(操作300)。具体的には、(例えば)第1のラウンドに6つの処理候補があるとすると、このラウンドは、ある桁は1、残りの桁はゼロである6桁の二進列で表される。二進列内の「1」の位置は対応する処理を示す。例えば、1A=100000、1B=010000、1C=001000、1D=000100、1E=000010および1F=000001とすることができる。後続のラウンドの処理も同様に二進列で表すことができる。その結果、異なるラウンドのこれら二進列を連結することによって、またはベクトルを形成して、ベクトルの要素の数がラウンドの数に対応し各要素が関連ラウンドの二進列を含むようにすることによって処理全体を示すことができる。
【0058】
この処理では、ここで手順の間の類似性(隔たり)が決定される(操作310)。この決定は種々の方法で行うことができる。(例えば)任意の2つの手順に対する一つの方法は、(a)処理の各ラウンドに対し、そのラウンドに対応する2つの二値符号にAND操作を行い、(b)処理の全てのラウンドについて(a)のゼロではない結果の数を合計することである。この処理の結果は2つの手順の間で処理が共通の(重複する)ラウンドの数を表す。この重複は、ゼロ(共通ラウンドは無い)、部分的(一部のラウンドが共通だが全てではない)、または完全(全てが共通のラウンド)となる可能性があり、2つの手順の間の隔たりの程度の一形態と考えることができる。
【0059】
この別の見方は、所与のラウンドの二値符号を、N次元空間への種々の手順の配置と考えることである(Nはラウンド内の処理選択肢の数)。その結果、この空間における所与のラウンドの処理の間の隔たりの値がゼロ(一致の場合)および1(不一致の場合)に数値化される。
【0060】
この処理ではここで、決定された隔たりすなわち類似性の程度に基づいて分類および順序付けが行われる(操作320)。各手順の単一桁の数(その手順をたどった試料の数)を他の全ての手順と独立に決定し、その数に基づいて順序付け/順位付けを行う既存の方法とは異なり、
図2の方法は手順の間の依存関係を含む。具体的には、隔たりの程度は手順の別対ごとに計算され、この隔たりの程度を用いて分類および順序付けを決定する。
【0061】
隔たりの程度を用いて手順を分類および順序付けするには、公知の種々のアルゴリズムがある。これには、階層的集団化、自己組織化マッピングおよび指紋解析法がある。これらのアルゴリズムは、手順の間にある関連性、例えば何らかの形態の隔たりまたは類似性に着目して、試料/手順の分類、順序付け、またはその他の組織化を行う。手順の間のこの関連性を使用すると、別次元の情報が細胞培養実験の結果から抽出され、結果をさらに強力に解析することになる。そしてこれによって、追加検討すべきこれらの手順を、感度良くかつ効果的に区別(操作330)できるようになる(
図1の操作140のように)。
【0062】
当業者には、
図2に示した種々の操作は、具体的な実装形態によって変更可能であることは自明である。例えば、操作300における手順の表示の二値符号への変換によって、多次元空間内マッピングが提供され、操作310でこれを用いて手順の間の隔たりが決定される。しかし、分類/順序付けに用いられる類似性または隔たりを、他の何らかのしくみによって得てもよい(多次元空間内の位置を参照せずに)。一つの可能性は、1Bと1Dなど、一対の処理表示を用いて参照表の隔たり数値を閲覧し、この隔たりを分類/順序付けに投入することである。この環境下では操作300の二値への変換は不要となる。別の可能性は、各経路を、その経路に関連する処理の情報を含む表に関連付けられた固有の表示で表わすことである。この経路表示を用いてその表から対応する経路情報を抽出し、必要に応じて類似性/隔たりを計算する。
【0063】
いくつかの実施形態では、手順の種々の処理の二値符号は分類/順序付けアルゴリズムに直接投入され、何ら隔たりを明確に計算しない(すなわち操作310を無関連の工程として除外する)。この方法では、隔たりまたは何らかの対応する関連性の程度は、分類/順序付けアルゴリズムの一部として明確に決定される。当業者なら
図2に示した処理をさらに変更できることは分かっている。
【0064】
ここで、
図1および2のデータ解析操作130の実施例を、
図3に説明した実験のデータと関連付けて説明する。この実験は300,000個の試料(生体高分子ビーズ)を含み、多能性幹細胞から開始した。各試料を、それぞれ10個の異なる処理候補を含む4つのラウンドの処理に供した。試料を処理の第1、第2および第3の各ラウンドの後に貯留した後(無作為かつ均等に)再分割した。したがって、実験には10,000(10
4)個の手順候補があり、そのため各手順を30個(平均)のビーズがたどったはずである。
【0065】
処理の4番目(最終)のラウンドの後、ビーズを走査して2つの異なる陽性の成果を探した。すなわち(a)(標的大腸菌細胞を摂取する)食細胞の存在および(b)緑色蛍光神経系細胞の存在である。実験は(a)について陽性の結果がある101個のビーズ(試料)を算出し、(b)について陽性結果がある84個のビーズを算出した(これらに対し、各ビーズ(試料)の全手順を正確に決定した)。次に食細胞の結果のデータ処理をさらに詳しく説明する。
【0066】
細胞培養実験の一組のデータを、ビーズごと別々の記録にしてASCIIファイル書式にした。各記録は、ビーズ識別子を標識で分けた一覧および関連する40個の二値記述子を含む(上記二値符号化に対応する)。次にこの一組のデータを集団解析にかけて、類似性に基づいてビーズを分類した。上記のように、試料はN次元空間内の位置またはベクトルと考えられ、ここでNは試料ごとの記述子の数に等しい(4つのラウンドのそれぞれに10個の異なる処理があるため、ここでは40)。次に類似性が、ユークリッド距離または何らかの他の適切な量に基づいて計算される(個々の応用例によって対称または非対称の場合がある)。
【0067】
図4は上記の実験の結果を説明する区画である(
図4の左上部をさらに詳細に説明した
図4Aが付属されている)。xおよびy軸は、食細胞の存在について陽性の結果を出した各試料/ビーズの順序の一覧を表す(各軸上に同じ順序付けがある)。区画の各四角は関心のあるビーズの対に対し共通な段階の数を表す。具体的には、黒い四角は4つの段階が共通、暗色の四角は3つの段階が共通、中間の濃さの四角は2つの段階が共通、明るい四角は1つの段階が共通、白い四角は共通の段階が無いことを表す。ビーズの固有性が
図4Aにx軸およびy軸に沿って表示されている。これらの表示によって各ビーズを一意に特定することができる。(
図4Aで用いられている正確な表示方法の論理的根拠は本発明の理解とは無関係)。左上から右下への対角線は黒いが、これは各ビーズの自分自身との交点であるからである(したがって必然的に共通の4つの段階がある)。また、共通の段階の数の決定は可換演算であるため、区画はこの対角線に対して対称である。
【0068】
ビーズは次のように軸上に並べられる。各ビーズはベクトルをもつと考えられ(N4、N3、N2、N1、N0)、ここにN4はビーズが4つの段階全てを共有する他のビーズの数、N3はビーズが3つの段階を共有する他のビーズの数、N2はビーズが2つの段階を共有する他のビーズの数、以下同じである。合計T個の(成功した)ビーズがあると仮定すると、N4+N3+N2+N1+N0=Tである(各ビーズの自分自身との一致をN4の値に含む)。次に任意の2つのビーズを、そのN4の値に従って互いに順序付ける。その2つのビーズが同じN4の値をもつ場合は、そのN3の値に従って互いに順序付ける。同じN3およびN4の値をもつ場合は、N2の値に従って互いに順序付ける、というように続ける。
【0069】
この方法では、他のビーズと共通性(関連性または類似性)が高いビーズが一般に区画の左上に集められる。上記の通り、ビーズの間の共通の段階の数はビーズの間の(より正確には対応する実験手順の間の)類似性(隔たり)の程度と考えることができる。これは、共通の段階の数値が大きい(類似性が高い)ことがビーズの間の隔たりが小さいことを表す一方、共通の段階の数が小さい(類似性が低い)ことがビーズの間の隔たりが大きいことを表すという反比例の関係であることが分かる。
図4Aは成功したビーズのサブセットだけを表示している(他のビーズとの共通性が低い一部のビーズは省略されている)。
【0070】
上記の様に、関心のある手順を特定する一般的な従来の方法は、複数の成功したビーズが同じ手順をたどった状態を探すことである。
図4のデータによれば、成功した手順が4つあり、これを2つ以上のビーズがたどっている。これらが
図4Aに具体的に示されており、群A(ビーズ26、25および13)、群B(ビーズ28および24)、群C(ビーズ20および12)および群D(ビーズ98および101)である。
【0071】
従来の計数方法では、群Aはほとんどのビーズ(3個)を含むことから最も有望な群と考えられる。しかし、残り3つの群はそれぞれ2個のビーズを含み、これらを区別するのは難しい。しかし
図4Aの区画から、一方の群A、群B、群Cと、他方の群Dと間の大きな違いがわかる。
図4Aの左上隅のやや暗色の影の部分は、群A、群B、群Cが全てまとめて集団化され、互に大きく重なっていることを説明している。これによって、望ましい最終結果を生み出す良い手順をこれらの群に含まれる手順の中でまたはその近くで見付ける可能性を非常に高くする。
【0072】
その一方、群Dの黒い四角は比較的離れており、他の成功したビーズ具体的には群A、群B、群Cとの重なり(関連性)が非常にわずかである。このことが
図4Aから(実質的に)白い行列よってはっきりわかり、そこには群Dの小さな黒い四角が配置されている。これは、群Dの手順が特定条件の影響を非常に受けやすく、本質的にあまり魅力がない手順となり得ることを示している(信頼性のある基盤で実施するのが難しい場合があるため)。別の可能性は、群Dが単なる偶発事象あって実際に有効な手順を表さないということである。そのような偶発事象の確率を、100個の成功したビーズが10000個の手順候補全体に無作為に配置されることを仮定して、所与の手順がそのような環境下で2つ以上のビーズによって共有される可能性を計算することによって推定できる。これは、1−(9999!/9900!
*10000
99)=0.39で得られ、そのため実際には、陽性の結果を誤って分類する可能性は決して低くない。
【0073】
(理論的な、またはシミュレーションによる)確率計算を用いて任意の所与の結果の統計的有意性を評価できることは自明である。例えば、純粋に無作為に少なくとも3重項(3つの試料がそれぞれ同じ手順を共有する)を得る確率は次式で与えられる。
【数2】
ここに、Nは経路候補の総数、Iは陽性結果の数、項数dは二重項(2つの試料が共に同じ手順を共有する)の数を示す(そのため、Iが奇数の場合は、項数は(I−1)/2で終わる)。したがってこの情報を用いて(i)潜在的偽陽性の識別を助け、(ii)統計的信頼性を高めるためにビーズの数などの最初の実験変数を設定することができる。
【0074】
例えばN=10,000かつI=101(
図4の一組のデータの場合)に対し、三重項を偶発事象として得る可能性は上記の式から約0.0016となることがわかる。したがって、二重項(2つの陽性試料が同じ手順を共有する)は偶発する可能性もあるが(上記決定された0.39の確率によってわかるように)三重項との関連では可能性は低い。
【0075】
図4および4Aの試料の順序付けは、群Dと群A〜Cの区画が互いに無関係であることを強く示唆するとしても、群Dと群A〜Cを明確に分離しない。この分離を、軸上の試料を順序付けする他の方法でもっと明確にしてもよい。例えばその方法の一候補は、各ビーズに、他のビーズとの共通の段階の総数を加算することによって得られる点数を与えることである。例えば、101個のビーズがあり、特定のビーズが2つのビーズ(自身を含む)と4つの段階を共有し、6つのビーズと3つの段階を共有し、11個のビーズと2つの段階を共有し、23個のビーズと1つの段階を共有し、残りのビーズとは共有する段階は無いとすると、(2×4)+(6×3)+(11×2)+(23×1)=71の点数が与えられる。したがってこの点数は、所与のビーズの他の全てのビーズからの全隔たり(平均または総計)の何らかの形態を表す。次にこの点数に従ってビーズを軸に沿って順序付けることができる。この方法では、群A、B、Cの点数が、群Dの点数よりも大きくなり、したがって群A、B、Cは同じ集団に留まる一方、群Dは分離されることになる。これは、隔たりに基づいて順序付けする技術の単なる一説明であって、当業者はそのような順序付けを実行する他の何らかの可能な方法を思い付くことができる。
【0076】
図5は、(
図4の区画ではなく)
図3の細胞培養実験の結果を処理する別の仕組み、すなわち階層的集団化を説明している。
図5の各列は、先頭にビーズIDが付けられた行に示された成功したビーズに対応する。
図5のビーズに適用された表示は、
図4に示された表示と同じである(これによって、これら2つの異なる分類の仕組みによる結果を、互いに直接比較することができる)。
【0077】
また
図5には行ブロックが4つ描かれており、各行ブロックは、行ブロック見出しによって示す様に処理の一つのラウンドを表す。各行ブロックはさらに10行に分割され、各行はその特定のラウンドの一つの処理を表す。各列(ビーズ)には、各行ブロックに一つの暗色の四角があり、その特定のラウンドのそのビーズが受けた処理を示す。
【0078】
図5の左端は系統樹を示し、そのビーズの階層的集団を説明している(これは、ビーズが掲載される順序を決定する)。系統樹は一種の家系図と考えることができ、どのビーズがそれらの各手順の間の隔たり(関連性)の観点で他のビーズに近いかを示す。2つのビーズをつなぐ系統樹内をさらに左へ進むほど、すなわち上位階層へ進すむほど、それらのビーズはさらに離れると考えられる。
【0079】
図5の階層的集団化は集団化3.0(Cluster 3.0)プログラムを用いて実行され、系統樹は、ジャバツリービュー(Java Treeview)プログラムを用いて描写された。集団化プログラムは非特許文献3(Eisen等、1998年)に記載されており、非特許文献4または非特許文献5からダウンロードできる(ジャバツリービュープログラムも後者のサイトから利用できる)。
【0080】
階層的集団化は凝集型(上昇型)でもまたは対立型(下降型)でもよい。前者の方法によれば、全ての対象すなわち試料は最初にそれらの個々の集団で表され、次にそれらが一つに統合される。ある凝集型アルゴリズムでは、最短の点間距離によって隔てられた対が第1の集団を形成する。次の集団を、点間距離が最短の2つの対象の間で再び形成し、対象を個々の試料または先に生成された集団のどちらかによって表すことができる。この手順を続けて、系統樹を全データに拡げる。
【0081】
階層的集団化アルゴリズムには、一つ以上の対象が集団である場合(個々の試料ではなく集団)の点間距離を決定する仕組みが含まれる。これを行う仕組みは一般に連鎖と呼ばれ、集団の要素の間の平均差、集団要素の間の最大(または最小)距離などの種々の基準を基にすることができる。連鎖方法の選択、ならびに隔たりまたは類似性測定法の選択、および入力データの最初の順序付けが、集団化解析の出力に影響する可能性がある。
【0082】
図5は、1個以上のビーズが所与の手順を共用する4つの分類を示している。これらの分類は
図4に示したものと同じである(同じ表記で表示されている)。群Dが群A、B、Cと離れていることは系統樹から容易にわかり、
図4と同じ結論である。上記のように、群Dは偽陽性を示すことがこの構成から強く示唆される(2つのビーズが同じ手順を共有してはいるが)。
【0083】
図5の集団化の程度を説明する一つの方法は、「aCb」命名法の使用である。ここに「a」はビーズの数、「b」は共通の段階の手順の数である。この命名法を用いると、群Aを3C4と表記することができ(3つビーズが4つの段階全てを共有する)、一方群B、C、Dを2C4と表記することができる(2つのビーズが4つの段階全てを共有する)。
【0084】
図5Aは
図5の部分拡大図であり、群A、BおよびCを含む。4つの行ブロック内の処理を見ると、この部分のビーズの間の処理に関して、変動の多くが、3番目および4番目のラウンドで発生していることが容易にわかる。その一方、この集団の大部分のビーズが第1のラウンドの処理1〜10および第2のラウンドの処理2〜1を使用しており、これらの処理が陽性結果を得ることに重要な貢献をしていることを強く示唆している。
【0085】
図6Aは
図5Aのデータの3つの集団を示し、集団の間に存在するいくつかのビーズは省略されている。
図5の群A、BおよびCの位置は
図6Aにも示されている。
図6Aの集団は5C3、4C3および6C3と表記され、それらが5個、4個および6個のビーズをそれぞれ含み、3つの処理を共有していることを示している。3つの場合全てにおいて、処理の最終ラウンドで、処理の唯一の変動が発生する。
【0086】
図6Bは
図5Aのデータの別の集団を示す。この集団は群A、BおよびCの7個のビーズを含み、
図5および5Aに示した順序付けからいくつかの中間ビーズを省略することによって形成されている。
図6Bの集団は7C3と記載することができる。すなわち7個のビーズが3つの処理を共有している。これらの7個のビーズでは、変動は処理の3番目のラウンドで発生する(
図6Aの処理の4番目のラウンドではない)。
【0087】
図6Aおよび6Bは、例えば
図3の一組の実験データの集団化を、集団階層の異なる深さで見るための種々の潜在的な方法があることを説明している。この中で、
図6Aおよび
図6Bの構成は、同一の基礎となる一組のデータの補助的な、ビーズ/手順の間の関係の別の特徴を強調する表現と考えることができる。この見方を組み合わせることによって、どの手順をさらに検討するかを選択するために、一組のデータ全体の理解を深めることができる。
【0088】
同様に、
図4の順序付けされた区画および
図5および5Aの系統樹も、同一データの補助的な表現と考えることができる。というのは、両者は共に特性の異なる特徴をわずかに測定するものの、同じ基礎となる特性(関連性)を示すからである。このことは、
図4の最上位の試料が
図5Aの系統樹の最下位の試料(すなわち最も狭く集団化されている)にも対応するという事実から、さらに実証される。これによって、試料のこの小さなサブセットの重要性を再確認することになる。
【0089】
図4〜6の結果は、その処理がそのラウンドで実施されたか否かを示すために、ラウンド内の各処理を二値の桁で表すことによって生成された。例えば、A、B、C、Dの4つの処理候補があるとすると、それぞれ(1000)、(0100)、(0010)および(0001)で表わすことができる。しかし、別の実施形態では、種々の処理の表記に別のさらに詳細な表記を使用してもよい。例えば、各処理が条件X1、X2、X3、Y1、Y2、Z1およびZ2の組全体から選択したある条件を含んでもよい。Aが(X1、X2、Y2)を含み、Bが(X1、X2、Y1、Z1)を含む場合、処理の各条件候補に二値の桁を割り当てることによって、これら2つの処理をそれぞれ(1100100)および(1101010)と表示することができる。これらの表示は処理の条件を規定し、これを集団化アルゴリズムへの入力として(または試料の順序付けまたは分類の他の形態として)用いることができる。
【0090】
図7は、集団化3.0ソフトウェアを
図4〜6と同じ一組のデータに用いて実行した階層的集団化の結果を説明している。
図7の構成は
図5に類似しており、各列は特定のラウンド/処理(右端に示した)に対応する一方、系統樹(集団)内の各終点は陽性ビーズに対応する。(ビーズ識別子が
図7の下部全体に記載されているが、用いられた識別子は
図5で用いられたものとはやや異なる)。
図7の集団化の結果は
図5に示した集団化と類似している(が同じではない)。この変動は、集団化が行われた方法の違い、例えば入力データの順序付けの違い、集団に対する隔たりを決定する規定の違いなどにあると考えられる。
【0091】
図7は2つの特徴ある集団を表している。
図7で集団Aと表記された第1の集団は、経路AX−BX−C8/C9−D7に対応する。
図7で集団Bと表記された第2の集団は、経路A10−B1−CX−D1/D5/D6に対応する。この命名方では、集団Bは分割Aの処理10、分割Bの処理1、分割Cの任意の処理および分割Dの処理1、5または6に対応する。また、集団Bは一般に
図6Bに示した集団に対応するが、分割Dの他の処理用に一部追加の試料を含む。
【0092】
本実験で陽性結果がある試料を特定するために用いられる生物学的ふるい(
図1の操作110に対応する)は、食作用を目的とする大腸菌吸収法(internalization assay)であった。多くの細胞表現型が食作用特性を示すことから、このふるいは単一の表現型に特化したものではない。上記集団AおよびBに対応する経路をさらに調査したときに得られた分化細胞の表現型検査から、2つの集団が細胞を異なる表現型に分化させることが実証された。
【0093】
集団Aでは、この集団の経路は造血前駆細胞を9日で作ることがわかった。これらの前駆細胞は、
図8、9および10に説明したように、半個体培地内のコロニー形成法で単球、顆粒球および赤血球コロニーを生じさせた。具体的には、
図8は経路10−8−8−7をたどったビーズに対応し、顆粒球型細胞コロニー(
図8A)および単球型細胞コロニー(
図8B)を示す。
図9は経路3−8−9−7をたどったビーズに対応し、顆粒球型細胞コロニー(
図9A)、および顆粒球、赤血球、単球および巨核球(GEMM)混合型細胞コロニー(
図9B)を示す。
図10は経路2−2−7−7をたどったビーズに対応し、顆粒球型細胞コロニー(
図10A)および単球型細胞コロニー(
図10B)を示す。
【0094】
集団Aに含まれる経路で生成された細胞が半個体培地から分離され、
図11〜15に示すように、汎白血球マーカーcd45および骨髄細胞系列cd11bで有意に染色された。具体的には、これらの図は次のことを示す。
【0095】
図11はcd11b染色細胞の流動細胞測定解析であり、
図11Aがアイソタイプ試験を表し(母集団の0.3%が陽性)、
図11Bが経路2−2−7−7に対応する(母集団の9.7%が陽性)。
【0096】
図12はCD45染色細胞の流動細胞測定解析であり、
図12Aがイソタイプ試験を表し(母集団の0.9%が陽性)、
図12Bが経路2−2−7−7に対応する(母集団の15.6%が陽性)。
【0097】
図13はcd11b染色細胞の流動細胞測定解析であり、
図13Aがアイソタイプ試験を表し(母集団の1.8%が陽性)、
図13Bが経路10−8−8−7に対応する(母集団の5.5%が陽性)。
【0098】
図14はCD45染色細胞の流動細胞測定解析であり、
図14Aがアイソタイプ試験を表し(母集団の1.7%が陽性)、
図12Bが経路10−8−8−7に対応する(母集団の8.7%が陽性)。
【0099】
図15はCD45染色細胞の流動細胞測定解析であり、
図15Aがアイソタイプ試験を表し(母集団の2.6%が陽性)、
図15Bが経路3−8−9−7に対応する(母集団の28.8%が陽性)。
【0100】
集団Bでは、この集団の経路は単球、顆粒球および赤血球コロニー半個体培地は成長しなかったが、その代わりに、II−7サイトカインを含み特別に調合された半個体培地の中で、Bリンパ球型コロニーが成長した。これを
図16で経路10−1−8−5について説明しており、Bリンパ球型コロニーの2つの実施例を示している。
【0101】
この経路(10−1−8−5)で作られた細胞は、
図17〜20に示したように、骨髄マーカーCD11bに陰性、リンパマーカーCD45R/B220、CD3eおよびCD49bに陽性であった。具体的には、これらの図は次のことを示す。
【0102】
図17はCD11b染色細胞の流動細胞測定解析であり、
図17Aがアイソタイプ試験を表わし(母集団の0.6%が陽性)、
図17Bが経路10−1−8−5に対応する(母集団の1.6%が陽性)。
【0103】
図18はCD45r/B220染色細胞の流動細胞測定解析であり、
図18Aがアイソタイプ試験を表わし(母集団の0.3%が陽性)、
図18Bが経路10−1−8−5に対応する(母集団の21.7%が陽性)。
【0104】
図19はCD3e染色細胞の流動細胞測定解析であり、
図19Aがアイソタイプ試験を表わし(母集団の0.2%が 陽性)、
図19Bが経路10−1−8−5に対応する(母集団の41.6%が陽性)。
【0105】
図20はCD49b染色細胞の流動細胞測定解析であり、
図20Aがアイソタイプ試験を表わし(母集団の1.0%が陽性)、
図20Bが経路10−1−8−5に対応する(母集団の9.9%が陽性)。
【0106】
したがって、集団Aは造血幹細胞すなわち骨髄前駆細胞からの一つの生物学的経路に対応し、一方集団Bは別の生物学的経路すなわちリンパ前駆細胞に対応することがわかる。したがって、本明細書に記載したように結果を分類することは、実験から陽性結果を識別するのを改良する助けとなるだけでなく、細胞培養実験において陽性結果の種々の型を識別し区別する助けにもなる。具体的には、結果をこのように分類または集団化することは、任意の所与の経路について陽性の成果の数を単に数えるよりも一層意味のあるかつ役に立つ方法で、生物学的に重要な種々の陽性成果を示す可能性がある。
【0107】
図21は、
図3の実験データの階層的集団化を用いた別の表現である(
図5および7と同じ)。
図21の集団化は、結果を集団に組み込むためにウォード法(ウォード連鎖とも呼ばれる)を用いて行われた。この技術は、対象を集団化して変動を最小化することに基づいており、変動を、集団化のための隔たりの程度と考えることができる。詳細については、(例えば)非特許文献6を参照されたい。
【0108】
図21の系統樹の下の帯には4つの細片があり、1つの細片が処理の各ラウンドに対応し、一番上(系統樹の傍)に第1の処理が、一番下(系統樹から一番遠い部分)に4番目の処理がある。各細片は色分けされて、そのラウンドでそのビーズすなわち試料に用いられた個々の処理を示す。すなわち、系統樹の所与の分岐に対応する試料の処理が、分岐の直下に各細片に1つの4つの色によって表わされている。図の最下部の横棒には、対応する処理数に各色を関連付けるキーが設けられている。
【0109】
また
図21上に示されているのは集団Aおよび集団Bであり、
図7に示した集団上に同様に表記されたものと同じ2つの集団である。具体的には、集団Aは経路AX−BX−C8/C9−D7に対応し、一方集団BはA10−B1−CX−D1/D5/D6に対応する(または、少し一般的にはA10−B1−CX−DX)。上記のように、これらの2つの集団は細胞を異なる表現型に分化させる。階層的集団化へのウォード法の使用が、細胞培養データの検討および解析に効果的な道具を提供することがわかる。
【0110】
要約すれば、上記実施形態を実施例だけで説明してきたが、当業者は、添付された特許請求の範囲によって定義される本発明の範囲にある多くの潜在的な修正あるいは変更を想起することができる。