特許第6904953号(P6904953)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アレス トレーディング ソシエテ アノニムの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6904953
(24)【登録日】2021年6月28日
(45)【発行日】2021年7月21日
(54)【発明の名称】細胞クローン性を決定する方法
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20210708BHJP
   G01N 33/50 20060101ALI20210708BHJP
   G01N 33/53 20060101ALI20210708BHJP
   C12N 15/09 20060101ALI20210708BHJP
【FI】
   C12Q1/68
   G01N33/50 P
   G01N33/53 M
   C12N15/09 100
【請求項の数】19
【全頁数】42
(21)【出願番号】特願2018-528767(P2018-528767)
(86)(22)【出願日】2016年12月1日
(65)【公表番号】特表2018-537097(P2018-537097A)
(43)【公表日】2018年12月20日
(86)【国際出願番号】EP2016079427
(87)【国際公開番号】WO2017093400
(87)【国際公開日】20170608
【審査請求日】2019年9月18日
(31)【優先権主張番号】15197894.7
(32)【優先日】2015年12月3日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】504104899
【氏名又は名称】アレス トレーディング ソシエテ アノニム
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【弁理士】
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(72)【発明者】
【氏名】ファビオ ラ ネーベ
(72)【発明者】
【氏名】ジョルジュ フェジェ
(72)【発明者】
【氏名】エミリアーノ トーゾ
【審査官】 西垣 歩美
(56)【参考文献】
【文献】 特開昭60−233556(JP,A)
【文献】 特表2015−531240(JP,A)
【文献】 Kari E. Sufficool,AMERICAN ACADEMY OF DERMATOLOGY,2015年 8月,VOL.73 ,p.228-236.e2
【文献】 George Hutchinson,Program & Abstracts. Annual and International Meeting of the Japanese Assodiation for Animal Cell Technology,2016年11月,29th,p.56
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00−3/00
C12N 15/09
G01N 33/50
G01N 33/53
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
既知の配列の導入遺伝子の、既知の配列の宿主前駆細胞(HPC)ゲノムへの、予測可能または予測不能な挿入から生じる万能細胞バンク(MCB)のクローン性を決定する方法であって、
A) クローン性が決定されることになるMCBから単離された参照サブクローン細胞(RSC)のゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は
i) 前記RSCゲノムのペアエンド配列決定により1つ以上のRSCゲノム配列を得ること、および
ii) 前記1つ以上のRSCゲノム配列を、前記既知のHPCゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって1つ以上の導入遺伝子挿入領域(TIR)を産生する、工程、
B) 最も高い配列包括度を有する、工程(A)で特定された1つ以上のTIRを決定する工程であって、
前記配列包括度は、所与のTIRを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、
最も高い配列包括度を有する前記1つ以上のTIRは参照TIR(RTIR)として指定される、工程、
C) クローン性が決定されることになるMCBから単離されているが前記RSCからは独立している1つ以上のサブクローン(SC)のそれぞれのゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は、
i) それぞれのSCゲノムのペアエンド配列決定により1つ以上のSCゲノム配列を得ること、および
ii) それぞれの1つ以上のSCゲノム配列を、前記既知のHPCゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって1つ以上の比較導入遺伝子挿入領域(CTIR)を産生する、工程、
D) 工程(B)で決定された前記1つ以上のRTIRを工程(C)で決定されたそれぞれのCTIRと比較する工程、
E) それぞれのSCに存在する前記1つ以上のCTIRの各々と、前記RSCに存在する対応するRTIRとの対応関係を評価する工程、ならびに、
F) 工程(E)で評価された前記対応関係に基づいて前記MCBのクローン性を決定する工程、を含み、
前記MCBは、前記RSCおよび前記1つ以上のSCが同じ集団に分類される場合、モノクローナルと見なされる、方法。
【請求項2】
ペアエンド配列決定が、所与の核酸分子をその両末端から配列決定することによって、配列決定されることになるゲノムの断片を示す所与の核酸分子の読み取りデータ対を生成することに関わる、請求項1に記載の方法。
【請求項3】
前記RSCが、前記1つ以上のSCと比較してより高い配列包括度で配列決定される、請求項1または2に記載の方法。
【請求項4】
前記MCBが、前記導入遺伝子を複数の位置で前記HPCゲノムへ挿入することから生じ、複数の位置における前記導入遺伝子の挿入は、レトロウイルスベクターを用いて行われる、請求項1から3のいずれか一項に記載の方法。
【請求項5】
TIRの決定が、ペアエンドライブラリに由来するペアエンド読み取り1配列およびペアエンド読み取り2配列を4つのクラスに分類することを含み、
クラス1は、前記導入遺伝子にマッピングする読み取り1配列を含み、
クラス2は、前記HPCゲノムにマッピングする読み取り1配列を含み、
クラス3は、前記導入遺伝子にマッピングする読み取り2配列を含み、
クラス4は、前記HPCゲノムにマッピングする読み取り2配列を含み、
前記読み取り1および前記読み取り2は、前記RSCまたは前記1つ以上のSCの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の5’末端および3’末端に対応する、それぞれの順方向および逆方向読み取りを示す、請求項1から4のいずれか一項に記載の方法。
【請求項6】
読み取り1配列が、フローセル配列識別子を用いて、対応する読み取り2配列と組み合わせられ、前記配列識別子は、フローセルのレーン、フローセル内のタイル番号、タイル内の核酸集団の「x」座標、およびタイル内の核酸集団の「y」座標に関する情報を含み、これによって読み取り1および読み取り2配列に対応する各配列対をフローセル内の固有の位置に割り当てる、請求項5に記載の方法。
【請求項7】
それぞれの読み取りデータ対のそれぞれの読み取り1および読み取り2配列が、導入遺伝子およびHPCゲノムの既知の配列に対して別々に整列される、請求項5または6に記載の方法。
【請求項8】
クラス1および4配列を含む読み取りデータ対ならびにクラス2およびクラス3配列を含む読み取りデータ対のみが、さらなる分析のために選択される、請求項5から7のいずれか一項に記載の方法。
【請求項9】
前記TIRが、クラス2およびクラス4に対応するペアエンド読み取り配列をHPCゲノムに対して整列させ、これによって前記TIRの各々につき2kbの領域をHPCゲノム中に規定することによって特定される、請求項5から8のいずれか一項に記載の方法。
【請求項10】
ペアエンドNGSライブラリ中の最も高い配列包括度を有するn個のRTIRを決定する工程を含み、nは5〜50の整数である、請求項1から9のいずれか一項に記載の方法。
【請求項11】
最も高い配列包括度を有するn個の第1RTIRが、
(A) HPCゲノムにマッピングするクラス2およびクラス4に対応するそれぞれのペアエンド読み取り配列の読み取り数で、より多いとRTIRとして含まれることを示す、読み取り数、ならびに
(B) クラス2およびクラス4に対応するそれぞれのペアエンド読み取り配列の読み取り数の部分的な重複で、より少ないとRTIRとして含まれることを示す、読み取り数の部分的な重複
に基づいて決定される、請求項10に記載の方法。
【請求項12】
前記RSCゲノム中のn個の第1RTIRの各々が、前記1つ以上のSCゲノムの各々における前記CTIRの対応するゲノム位置と比較される、請求項10または11に記載の方法。
【請求項13】
前記RSC中の前記RTIRと前記1つ以上のSC中の前記CTIRとの比較が、挿入領域の存在/不在マトリックスを生成することによって達成され、マトリックスの1つの次元は、前記RSCゲノム中の前記導入遺伝子の前記n個のRTIRを示し、マトリックスのもう一つの次元は、前記RSCおよび前記1つ以上のSCの各々を示す、請求項12に記載の方法。
【請求項14】
前記1つ以上のSC中のそれぞれのCTIRの、前記RSC中のそれぞれのRTIRに対する存在または不在は、マトリックス中に二色コードとして示され、第1の色は、前記RSC中のそれぞれのRTIRのそれぞれの存在または不在、前記1つ以上のSC中のそれぞれのCTIRのそれぞれの存在または不在を示し、第2の色は、前記RSC中のそれぞれのRTIRのそれぞれの不在または存在、前記1つ以上のSC中のそれぞれのCTIRのそれぞれの不在または存在を示す、請求項13に記載の方法。
【請求項15】
前記RSCと前記1つ以上のSCの各々との関係が、距離行列を計算することによって評価される、請求項1から14のいずれか一項に記載の方法。
【請求項16】
距離行列が次式(I)
(RSC,SC)=1-(2*N(total)/[N(CTIR)+N(RTIR)])
[式中、D(RSC,SC)は、前記RSCゲノムとそれぞれのSCゲノムとの間の距離関数を示し、N(total)は、前記RSCゲノムおよび前記SCゲノムの両方に存在する挿入領域の数であり、N(CTIR)は、前記SCゲノムに存在する挿入領域の総数であり、N(RTIR)は、前記RSCゲノムに存在する挿入領域の総数であり、D(RSC,SC)は、距離を0〜1の尺度で示し、0の距離は、前記RSCとそれぞれのSCとの間でのクローン同一性を示し、1は、クローン相違性を示す]に基づいて計算される、請求項15に記載の方法。
【請求項17】
パラメータN(total)、N(CTIR)および/またはN(RTIR)が、請求項14または15のいずれかに従って生成された挿入領域の存在/不在マトリックスに基づいて計算される、請求項16に記載の方法。
【請求項18】
共通の距離行列で前記1つ以上のSCをRSCに対して示す工程を含む、請求項16または17に記載の方法。
【請求項19】
2つのそれぞれのゲノムが、式(I)に従って計算された互いの距離が0の場合、共通の集団に属していると見なされる、請求項18に記載の方法。
【発明の詳細な説明】
【背景技術】
【0001】
組換え哺乳動物細胞株は、タンパク質を、適切にフォールド・会合し、翻訳後修飾により、ヒトにおいて見られるものに類似の複雑なタンパク質にすることができるため、治療用タンパク質の産生に強力な手段である。ほとんどの場合、これまでバイオ医薬品タンパク質産生に用いられてきた細胞株は、哺乳動物を起源とする、様々な方法で不死化されたものであった。今日、全ての組換えタンパク質医薬品の約60〜70%が哺乳動物細胞中で産生されている。さらに、数百種類の臨床候補治療用タンパク質が、現在、企業により供給されている。これらのタンパク質の多くは不死化されたチャイニーズハムスター卵巣(CHO)細胞中で発現されるが、他の細胞株、例えば、マウス骨髄腫(NS0、SP2/0)、ベビーハムスター腎細胞(BHK)、ヒト胎児腎細胞(HEK−293)、およびヒト網膜細胞に由来する細胞株が、医薬品産業におけるタンパク質産生の一般的手段として規制当局の承認を得ている。
【0002】
哺乳動物細胞系におけるバイオ医薬品タンパク質の製造の最初の工程は、そのゲノムに目的のタンパク質をコードする導入遺伝子を安定的に組み込んだ、安定なモノクローナルな細胞株の生成である。リン酸カルシウム沈殿、電気穿孔、リポフェクタミン、およびウイルス形質移入(transfection)などのいくつかの形質移入方法が、染色体の組み込みを目的として導入遺伝子を宿主細胞核に送達するために一般に用いられている。臨床研究で最も一般的に用いられている形質移入方法の一つは、形質導入(transduction)としても知られているウイルス媒介性形質移入である。この技術は、治療用タンパク質の製造に向けて組換え細胞株を生成するのにも用いられている。ウイルス媒介性形質移入は非常に効率的であり、持続可能な導入遺伝子発現の達成が容易である。DNAが核に入ると、導入遺伝子は宿主細胞ゲノムに組み込まれ、導入遺伝子が含む目的遺伝子(GOI)の発現が、周囲の染色体の構造および関連する特徴によって、部分的に命令される。しかしながら、ウイルス形質移入の大きな欠点の一つは、宿主細胞ゲノムへの導入遺伝子の挿入が予測できないということである。そのような挿入は、タンパク質の品質および量の両方がタンパク質をコードする導入遺伝子のゲノム位置に大きく依存するようになるという効果を持っている。
【0003】
タンパク質産生細胞株の生成に関し、選択マーカーがGOIとともに、宿主細胞ゲノムに同時形質移入される。次いで、確実に形質移入された細胞が、適切な選択培地での培養により選択される。選択される最も一般的な遺伝子は、ヌクレオチドの代謝に関わる酵素であるジヒドロ葉酸レダクターゼ(DHFR)およびグルタミン合成酵素(GS)である。どちらの場合も、適切な代謝物がない場合に選択が起こり、形質移入していない細胞の成長を防止する。通常、形質移入された細胞は、最初に、増殖およびタンパク質発現に関して選別されて、最良の産生能力および成長特性を有する候補を特定する。次工程で、細胞のプールが、特異的産生能の高いクローンに関して単離・富化される。しかしながら、このプールは不均質であり、異なる導入遺伝子挿入部位および異なるゲノムのコピー数を有する細胞を含んでいるため、結果としてタンパク質発現レベルにばらつきが生じる。
【0004】
哺乳動物細胞株由来の生物学的製剤の産生を制御する決定的要素は、細胞基質の特性決定および試験を行い、これらの細胞の同一性、純度および適合性を製造プロセスの間に確保することである。従って、非常に高いタンパク質発現レベル、増殖速度、および最良の生成物品質を示す単一細胞(ICH Q5D)由来のクローンを単離する必要がある。このために、単一細胞を、同時撮像および精巧な選別を伴うFACSを用いて、一連の限界希釈工程または単一細胞の沈殿により不均質な細胞のプールから回収し、少数の候補クローンを単離する。次いで、最も有望な候補を前万能細胞バンク(pre-master cell bank = pre-MCB)として凍結保存し、考えられ得る限り最も長い製造期間を超えるべき継代安定性について評価する。表現型の安定性に加えて、選択圧がない場合には、遺伝的安定性について細胞株を評価する必要があるが、これは一般に産生段階で適用されることはない。最適な細胞株が特定されると、万能細胞バンク(MCB)が作製される。MCBは、規定の条件で単一の選択された細胞クローンから調製され、複数のバイアルに分注され、規定の条件(通常、−100℃以下)で保管される、細胞の単一プールの分割量(aliquot)と定義される。市販品のプロセス開発は、増殖して製造プロセスに用いられる機能する細胞バンク(working cell bank =WCB)を生成する、そのようなMCBに基づいて開始される。MCBおよびWCBが医薬品産業における産生細胞株として承認されるかどうかは、国内外の保健医療当局によって課される厳しい要件を満たせるかどうかにかかっている。組換え細胞株が産生細胞株として承認されるための重要な要件には、クローン性の検証および細胞株の微生物汚染(例えば、レトロウイルスまたはマイコプラズマ)に関する試験の検証が含まれる。
【0005】
2ラウンドではなく1ラウンドの限定的な希釈クローニング、FACSクローニングの場合における1日目の画像の不足、または不完全な記録のためにクローン性の文献証拠が不足している場合は、MCBのクローン性の保証を高める追加の証拠が保健医療当局によって求められる。最も受け入れられている方法は、FISH法およびMCBとWCBのサザンブロット分析である。しかしながら、これらの方法は、特にGOIのコピー数が少ない細胞株では感度が不足することが多いため、しばしば解釈が難しい。加えて、数十または数百もの挿入部位を含む、ウイルス形質導入によって生成された細胞株のような、多数の挿入部位を有する細胞株の全てをFISH法によって分析できるわけではない。サザンブロット分析もまた、用いることはできるが、汚染の割合が非常に低い場合、および十分な数の制限酵素が用いられない限り、感度が不足する。サザンブロット分析は、GOI挿入部位に隣接する既知のゲノム領域を必要とする。タンパク質産生力価、ならびに細胞形態、細胞生存率、細胞成長および生成物品質などの細胞培養パラメータを含む様々な具体的特性をモニタリングすることで裏付けになる追加の証拠を得ることができる。しかしながら、そのような方法は非常に多くの人手と時間を要する。従って、所与の細胞株が医薬品タンパク質の産生における使用のために承認され得る前に、産生細胞株(MCB)のクローン性を決定する新規の方法を提供し、現在必要とされている、多くの労力を要し、高価で、遅い選別を回避するということへの強い必要性がある。所与のMCBのクローン性を、多くの時間と労力を要する評価工程を大幅に減らす手段によって決定する方法を提供することは、産生細胞株のクローン性に関する迅速で信頼性の高い品質評価を促進する大きな一助となる。本発明の目的は、そのような必要性に対処することである。
【発明の概要】
【0006】
上述の目的に従って、本発明は、既知の配列の導入遺伝子の、既知の配列の宿主前駆細胞(HPC)ゲノムへの、予測可能または予測不能な挿入から生じる万能細胞バンク(MCB)のクローン性を決定する方法に関する。
本発明の一側面において、この方法は、
A) クローン性が決定されることになるMCBから増殖された参照サブクローン細胞(RSC)のゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は
i) 前記RSCゲノムのペアエンド(両端読み込み)配列決定により1つ以上のRSCゲノム配列を得ること、および
ii) 前記1つ以上のRSCゲノム配列を、前記既知のHPCゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって1つ以上の導入遺伝子挿入領域(TIR)を産生する、工程、
B) 最も高い配列包括度を有する、工程(A)で特定された1つ以上のTIRを決定する工程であって、
前記配列包括度は、所与のTIRを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、
最も高い配列包括度を有する前記1つ以上のTIRは参照TIR(RTIR)として指定される、工程、
C) クローン性が決定されることになるMCBから増殖されているが前記RSCからは独立している1つ以上のサブクローン細胞(SC)のそれぞれのゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は、
i) それぞれのSCゲノムのペアエンド配列決定により1つ以上のSCゲノム配列を得ること、および
ii) それぞれの1つ以上のSCゲノム配列を、前記既知のHPCゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって1つ以上の比較導入遺伝子挿入領域(CTIR)を産生する、工程、
D) 工程(B)で決定された前記1つ以上のRTIRを工程(C)で決定されたそれぞれのCTIRと比較する工程、
E) それぞれのSCに存在する前記1つ以上のCTIRの各々と、前記RSCに存在する対応するRTIRとの対応関係を評価する工程、ならびに、
F) 工程(E)で評価された前記対応関係に基づいて前記MCBのクローン性を決定する工程、を含む。
本発明の別の側面において、この方法は、
G) クローン性が決定されることになるMCBから増殖された参照サブクローン細胞(RSC)のゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は
iii) 前記RSCゲノムのペアエンド配列決定により1つ以上のRSCゲノム配列を得ること、および
iv) 前記1つ以上のRSCゲノム配列を、前記既知のHPCゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって1つ以上の導入遺伝子挿入領域(TIR)を産生する、工程、
H) 最も高い配列包括度を有する、工程(A)で特定された1つ以上のTIRを決定する工程であって、
前記配列包括度は、所与のTIRを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、
最も高い配列包括度を有する前記1つ以上のTIRは参照TIR(RTIR)として指定される、工程、
I) クローン性が決定されることになるMCBから増殖されているが前記RSCからは独立している1つ以上のサブクローン細胞(SC)のそれぞれのゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は、
iii) それぞれのSCゲノムのペアエンド配列決定により1つ以上のSCゲノム配列を得ること、および
iv) それぞれの1つ以上のSCゲノム配列を、前記既知のHPCゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって1つ以上の比較導入遺伝子挿入領域(CTIR)を産生する、工程、
J) 工程(B)で決定された前記1つ以上のRTIRを工程(C)で決定されたそれぞれのCTIRと比較する工程、
K) それぞれのSCに存在する前記1つ以上のCTIRの各々と、前記RSCに存在する対応するRTIRとの対応関係を評価する工程、ならびに、
l) 工程(E)で評価された前記対応関係に基づいて前記MCBのクローン性を決定する工程、
を含み、前記MCBは、前記RSCおよび前記1つ以上のSCが同じ集団に分類される場合、モノクローナルと見なされる。
【0007】
上で説明したように、MCBの単クローン性は、従来、導入遺伝子が挿入された細胞のプールを限界希釈して、マルチウェルプレートのウェル当たり1個の単一細胞を得ることにより達成される。個々の標的細胞への導入遺伝子挿入は異なるので(ランダムまたはほぼランダム)、1つのウェル中の1個のMCB細胞は、各MCB細胞が細胞のゲノム内の異なる位置で独立した導入遺伝子挿入の結果を示すために、別のウェル中の別のMCB細胞と異なると考えられる。このことは、以前に均質だった宿主前駆細胞の集合への導入遺伝子挿入後、異なる細胞の形質転換的に不均質な混合物を得て、これを希釈後、マルチウェルプレートの単一のウェルに単離して形質転換的に別個な細胞から分離する、ということを意味している。
【0008】
しかしながら、希釈によるそのような単離は、計算された統計的確率に基づいている。従って、マルチウェルプレートのほとんどのウェルが1個だけのMCB細胞を含んでいる可能性がある一方で、一部のウェルが2個以上のMCB細胞を含むが、他のウェルはMCB細胞を含んでいないという可能性を排除できない。特に、単一のウェルが不均質なMCBを生じ得る複数の形質転換的に不均質な細胞を含むという前者のシナリオは、規制当局によって承認される、挿入された導入遺伝子の発現から生じる医薬品タンパク質のためのプロセスを複雑にするばかりか、危うくさえしてしまう。これは、そのようなシナリオでは、実際はそれぞれが別個な導入遺伝子挿入プロファイルを有する複数種の細胞から発現されているにもかかわらず、当該タンパク質は一様な導入遺伝子挿入プロファイルを有するわずか1種の細胞から発現されていると(希釈因子の統計的計算に基づいて)不正確に想定するからである。そのようなばらつきは、産生されたタンパク質の性質の相違をもたらす場合があり、これは規制当局が承認する過程では排除されていなければならない。従って、通常は2ラウンドの限界希釈クローニングを適用して、ウェル当たり2個以上のMCB細胞を有する可能性を最小にする。あるいは、1ラウンドの限界希釈または単一細胞の沈殿を画像でモニタリングして単一のMCB細胞が単一のウェルに入ったことを確認することが可能である。しかしながら、これらの方法のいずれも、単一細胞がウェルに沈殿したという事実を保証することができない。限界希釈の場合、2ラウンドの限界希釈クローニングにおいて、たとえわずかであっても、常に統計的不確実性がある。細胞画像の場合、第2の細胞が、ウェルの隅にある、ウェルの壁にくっついている、またはカメラの焦点面の外にあるために検出されないことがある。
【0009】
(モノクローナルと推定される)MCBから増殖され、ランダムに選択された参照細胞中の選択された導入遺伝子挿入部位を、(モノクローナルと推定される)MCBからそれとは別に増殖された他の細胞中の対応する挿入部位と比較することで、上述の方法は信頼性の高い単クローン性の決定を可能にするので有利である。所与のモノクローナルと推定されるMCBから増殖された全細胞が同一の導入遺伝子挿入部位を示す場合、MCBは実際にモノクローナルであると信頼性高く結論付けることができる。しかしながら、所与のモノクローナルと推定されるMCBから増殖された細胞が違った導入遺伝子挿入プロファイルを示す場合、モノクローナルと推定されるMCBは実際にはモノクローナルではなく、一致していないゲノム位置での導入遺伝子挿入から生じていると信頼性高く結論付けることができる。そのような信頼性の高い情報は、規制当局によって承認される、医薬品としての応用が意図された組換え産生タンパク質に関するプロセスにおいては非常に重要である。
【0010】
本発明の一実施形態において、ペアエンド配列決定は、所与の核酸分子をその両末端から配列決定することによって、配列決定されることになるゲノムの断片を示す所与の核酸分子の読み取りデータ対を生成することに関わる。
【0011】
本発明のさらなる実施形態において、RSCは、前記1つ以上のSCと比較してより高い配列包括度で配列決定される。
【0012】
本発明のさらなる実施形態において、前記MCBは、前記導入遺伝子を複数の位置で前記HPCゲノムへ挿入することから生じ、前記挿入は、好ましくは、レトロウイルスベクターを用いて行われる。
【0013】
本発明のさらなる実施形態において、TIRの決定は、ペアエンドライブラリに由来するペアエンド「読み取り1」配列およびペアエンド「読み取り2」配列を4つのクラスに分類することを含み、
クラス1は、前記導入遺伝子にマッピングする「読み取り1」配列を含み、クラス2は、前記HPCゲノムにマッピングする「読み取り1」配列を含み、クラス3は、前記導入遺伝子にマッピングする「読み取り2」配列を含み、クラス4は、前記HPCゲノムにマッピングする「読み取り2」配列を含み、
前記「読み取り1」および前記「読み取り2」は、前記RSCまたは前記1つ以上のSCの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の5’末端および3’末端に対応する、それぞれの順方向(forward)および逆方向(reverse)読み取りを示す。
【0014】
本発明のさらなる実施形態において、TIRの決定は、ペアエンドライブラリに由来するペアエンド「読み取り1」配列およびペアエンド「読み取り2」配列を4つのクラスに分類することを含み、
クラス1は、前記導入遺伝子に排他的にマッピングする「読み取り1」配列を含み、クラス2は、前記HPCゲノムに排他的にマッピングする「読み取り1」配列を含み、クラス3は、前記導入遺伝子に排他的にマッピングする「読み取り2」配列を含み、クラス4は、前記HPCゲノムに排他的にマッピングする「読み取り2」配列を含み、
前記「読み取り1」および前記「読み取り2」は、前記RSCまたは前記1つ以上のSCの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の5’末端および3’末端に対応する、それぞれの順方向および逆方向読み取りを示す。
【0015】
本発明のさらなる実施形態において、「読み取り1」配列は、フローセル配列識別子を用いて、対応する「読み取り2」配列と組み合わせられ、
前記配列識別子は、フローセルのレーン、フローセル内のタイル番号、タイル内の核酸集団の「x」座標、およびタイル内の核酸集団の「y」座標に関する情報を含み、これによって「読み取り1」および「読み取り2」配列に対応する各配列対をフローセル内の固有の位置に割り当てる。
【0016】
本発明のさらなる実施形態において、それぞれの読み取りデータ対のそれぞれの「読み取り1」および「読み取り2」配列は、導入遺伝子およびHPCゲノムの既知の配列に対して別々に整列される。
【0017】
本発明のさらなる実施形態において、クラス1および4配列を含む読み取りデータ対ならびにクラス2およびクラス3配列を含む読み取りデータ対のみが、さらなる分析のために選択される。
【0018】
本発明のさらなる実施形態において、前記TIRは、クラス2およびクラス4に対応するペアエンド読み取り配列をHPCゲノムに対して整列させ、これによって前記TIRの各々につき2kbの領域をHPCゲノム中に規定することによって特定される。
【0019】
本発明のさらなる実施形態において、MCBのクローン性を決定する方法は、ペアエンドNGSライブラリ中の最も高い配列包括度を有するn個(nは5〜50の整数)のRTIRを決定する工程を含む。例えば、この整数は、5、10、15、20、25、30、35、40、45または50であってもよい。
【0020】
本発明のさらなる実施形態において、最も高い配列包括度を有するn個の第1RTIRは、(A)HPCゲノムにマッピングするクラス2およびクラス4に対応するそれぞれのペアエンド配列の読み取り数で、より多いとRTIRとして含まれることを示す、読み取り数、ならびに(B)クラス2およびクラス4に対応するそれぞれのペアエンド読み取り配列の読み取り数の部分的な重複で、より少ないとRTIRとして含まれることを示す、読み取り数の部分的な重複、に基づいて決定される。
【0021】
本発明のさらなる実施形態において、前記RSCゲノム中のn個の第1RTIRの各々は、前記1つ以上のSCゲノムの各々における前記CTIRの対応するゲノム位置と比較される。
【0022】
本発明のさらなる実施形態において、前記RSC中の前記RTIRと前記1つ以上のSC中の前記CTIRとの比較は、挿入領域の存在/不在マトリックスを生成することによって達成され、マトリックスの1つの次元は、前記RSCゲノム中の前記導入遺伝子の前記n個のRTIRを示し、マトリックスのもう一つの、好ましくは直交する次元は、前記RSCおよび前記1つ以上のSCの各々を示す。
【0023】
本発明のさらなる実施形態において、前記1つ以上のSC中のそれぞれのCTIRの、前記RSC中のそれぞれのRTIRに対する存在または不在は、マトリックス中に二色コードとして示され、第1の色は、前記RSC中のそれぞれのRTIRのそれぞれの存在または不在、前記1つ以上のSC中のそれぞれのCTIRのそれぞれの存在または不在を示し、第2の色は、前記RSC中のそれぞれのRTIRのそれぞれの不在または存在、前記1つ以上のSC中のそれぞれのCTIRのそれぞれの不在または存在を示す。
【0024】
本発明のさらなる実施形態において、前記RSCと前記1つ以上のSCの各々との関係は、距離行列を計算することによって評価される。
【0025】
本発明のさらなる実施形態において、距離行列は次式(I)に基づいて計算される。
(RSC,SC)=1-(2*N(total)/[N(CTIR)+N(RTIR)])
式中、D(RSC,SC)は、前記RSCゲノムとそれぞれのSCゲノムとの間の距離関数を示し、N(total)は、前記RSCゲノムおよび前記SCゲノムの両方に存在する挿入領域の数であり、N(CTIR)は、前記SCゲノムに存在する挿入領域の総数であり、N(RTIR)は、前記RSCゲノムに存在する挿入領域の総数であり、D(RSC,SC)は、距離を0〜1の尺度で示し、0の距離は、前記RSCとそれぞれのSCとの間でのクローン同一性を示し、1は、クローン相違性を示す。
【0026】
本発明のさらなる実施形態において、パラメータN(total)、N(CTIR)および/またはN(RTIR)は、挿入領域の存在/不在マトリックスに基づいて計算される。
【0027】
本発明のさらなる実施形態において、方法は、共通の距離行列で前記1つ以上のSCをRSCに対して示す工程を含む。
【0028】
本発明のさらなる実施形態において、2つのそれぞれのゲノムは、式(I)に従って計算された互いの距離が0の場合、共通の集団に属していると見なされる。
【0029】
本発明のさらなる実施形態において、前記MCBは、前記RSCおよび前記1つ以上のSCが同じ集団に分類される場合、モノクローナルと見なされる。
【0030】
当然だが、上記の一般的説明および下記の詳細な説明は、例示と説明だけを目的としており、特許請求されている本発明を限定するものではない。用語「含んでいる(comprising)」ならびに他の文法形式、例えば「含む(comprises)」および「含まれる(comprised)」の使用は、非限定的である。同様に、用語「含んでいる(involving)」または「有している(having)」ならびに他のそれぞれの文法形式、例えば「含む(involves)」および「含まれる(involved)」または「有する(has)」もしくは「有される(had)」は非限定的である。同じことが、用語「含んでいる(including)」ならびに他の文法形式、例えば「含む(includes)」および「含まれる(included)」に当てはまる。本明細書を通じて、節の見出しは構成だけを目的としている。特に、それらはそこに記載されている様々な実施形態を限定することが意図されておらず、1つの小見出しの下に記載されている実施形態(およびそこにおける特徴)は別の小見出しの下に記載されている実施形態(およびそこにおける特徴)と自由に組み合わせることができる。
【0031】
上述および続く説明において、任意の一実施形態は、任意の他の実施形態と組み合わせることができることが意図されている。さらに、上述および続く説明において、任意の一実施形態の特徴事項は、任意の他の実施形態の特徴事項と組み合わせることができることが意図されている。そのような1つ以上の実施形態の組合せ、および/または任意の一実施形態における1つ以上の特徴事項と任意の他の実施形態における1つ以上の特徴事項との組合せは、出願時の本出願の開示に属する。
【図面の簡単な説明】
【0032】
図1(a)】図1は、万能細胞バンク(MCB)のクローン性を決定する本発明の方法の一実施形態を例示する、3つの部分からなる連続した流れ図である。導入遺伝子を有する宿主前駆細胞(HPC)(100)の形質移入、例えば、レトロウイルス媒介性形質移入および限界希釈(101)(すなわち、意図された分割量容積あたり2個以上の細胞を生じない希釈)後、それぞれのゲノム中の複数の位置に導入遺伝子を含む、MCB(102)の候補となりうるものを単離し、個々の細胞をさらに増殖し(103)、1つ以上のサブクローン(SC)(104)を得る。単一細胞分析の場合、個々の細胞に対して、直接、DNA抽出を実施する。次に、1つ以上のサブクローンの全DNAを抽出し(105、106)、配列決定(例えば、「次世代配列決定」(NGS))のための調製において、それぞれのDNAライブラリに変換する(107、108)。この調製の一部として、それぞれのライブラリを、ゲノムDNA断片に相補的な固定されたアダプター配列で予め調製されたフローセルでハイブリダイズしてもよい(109)。次いで、固定された鋳型の増幅および集団生成(110)が続く。これによりフローセルのそれぞれのタイルに固定された配列集団が生じ(111)、その固定された位置は、上述の相補的なアダプター配列の元々の固定された位置を反映している。
【0033】
図1(b)】ライブラリのペアエンド配列決定を実施し(112)、次いで得られた配列を、どちらも既知の、HPCゲノムに対応する配列または導入遺伝子に対応する配列のいずれかと整列、例えば、コンピュータ整列させる(113)。次いで、概念上、配列を以下の4つのクラスに分ける:導入遺伝子に対して整列させる読み取り1配列に対応するクラス1(114);HPCゲノムに対して整列させる読み取り1配列に対応するクラス2(115);導入遺伝子に対して整列させる読み取り2配列に対応するクラス3(116);およびHPCゲノムに対して整列させる読み取り2配列に対応するクラス4(117)。読み取り1および読み取り2配列は、所与の核酸ライブラリ(108)の配列決定で生成した所与の核酸集団(111)内の所与の核酸分子のそれぞれの5’末端および3’末端に対応する、それぞれの順方向および逆方向読み取りを示す。上述の配列分類の後、読み取りデータ対を割り当てる(118)。クラス1または2の読み取り1配列は、クラス3または4の対応する読み取り2配列と組み合わされる。同類の読み取りデータ対の正確な割り当ては、例えば、各核酸分子の配列決定工程中に生成されたFastQファイルにコードされている配列識別子によって達成することができる。次いで、それぞれの読み取りデータ対のそれぞれの読み取り1および読み取り2配列を、導入遺伝子配列またはHPCゲノムに対して別々に整列させる。読み取り1が導入遺伝子にマッピングし(114)、読み取り2がHPCゲノムにマッピングする(117)配列対(すなわち、クラス1/4対(120))、および読み取り1がHPCゲノムにマッピングし(115)、読み取り2が導入遺伝子にマッピングする(116)配列対(すなわち、クラス2/3対(122))をさらなる分析のために保持する。読み取り1および読み取り2配列の両方が導入遺伝子(114、116、119)またはHPCゲノム(115、117、121)のいずれかにマッピングする配列対は、導入遺伝子挿入領域(TIR)の特定に適していないため、配列対のプールから廃棄される(119、121)。HPCゲノムにマッピングする、クラス1/4(114、117、120)またはクラス2/3(115、116、122)読み取りデータ対に対応する配列対は、HPCゲノムと導入遺伝子との間の境界を包含するHPCゲノム内の領域を示すゲノム配列を含む。
【0034】
図1(c)】クラス2およびクラス4に対応するペアエンド配列をHPCゲノムに対して整列させることによってTIRを特定する(123)。説明を明瞭にするため、図1(c)はクラス2配列をHPCゲノムに対して整列させるという前者の場合のみを示すが、挿入された導入遺伝子の反対側でクラス4配列をHPCゲノムと整列させるとすれば、鏡像関係を想像することができる。読み取りデータをHPCゲノムに対して整列させることで、HPCゲノム内の導入遺伝子挿入領域に約1000ヌクレオチド(1kb)の窓が生じる。約1000ヌクレオチドの窓は、DNAライブラリの平均挿入サイズによって決定されるので、具体的な必要性に合わせて調整することができる。つまり、上述の、および図1(c)に記載した整列(123)により、約1kb以内の精度で導入遺伝子挿入の領域を突き止めることが可能となる。TIRの位置に関するこの予測の統計的堅牢性を強化するため、決定されたTIRを2kbの窓(1kb領域の中央から出発し、この1kb領域の両側を各500bp伸長)に伸長する(124)。次に、ランダムに選択されたサブクローン(RSC)(残りのサブクローン(SC)と比較してより高い配列包括度で配列決定された)中の特定されたTIRを、その配列包括度および読み取り数に関して分析し、1つ以上の参照導入遺伝子挿入領域(RTIR)を得る(125)。特に、RTIRは、HPCゲノムの所与の位置にマッピングする配列読み取りの総数に基づいて選択される。他と比べてより高い配列包括度で示されるTIRをRTIRとして指定する。RTIRの指定に関するさらなる要件は、所与のTIRを示すそれぞれの配列読み取り間の低重複度である。配列読み取りが低重複度を有するTIR(例えば、図1(c)のTIR、TIR、TIR、およびTIR(126))は、読み取り数の重複が大きいことを特徴とする配列(例えば、図1(c)のTIR、TIR、およびTIR10(126))よりも、HPCゲノム内の信用できる挿入領域を示す可能性が高い。これは、厳密な重複度合が高いことを特徴とする推定TIRが増幅プロセス時にPCRによるアーチファクト(人工的な結果)を示す可能性があるからである。次いで、ランダムに選択されたサブクローン(RSC)中で得られたRTIRを用いて、上に示したプロセスと同様に決定された、1つ以上のサブクローン(SC)中の対応する比較導入遺伝子挿入領域(CTIR)と比較する(127)。所与のSCゲノム中のCTIRは、例えば、二色コードの存在/不在マトリックスにおけるRSC中の対応するRTIRと比較することができる(128)。
【0035】
そのようなマトリックスにおいて、1つの色(例えば、(128)では黒)は、それぞれのSC中のCTIRがRSC中の対応するRTIRと一致していることを示す。反対に、もう一つの色(例えば、(128)では白)は、それぞれのSC中のCTIRがRSC中の対応するRTIRと一致していないことを示す。例示的な存在/不在マトリックス(128)において、SC、SC、およびSC中の全CTIRがRSC中のRTIRの各々と一致していることは、SC、SC、およびSCがそれぞれ、遺伝子構造の点で互いに同一であること、および導入遺伝子挿入の位置に関してRTIRと同一であることを示唆する。対照的に、SCおよびSCに対応する列中に白い四角が存在していることは、RSC中の特定のRTIRがこれらのSC中に存在しないことを示す。SCおよびSCは互いに同一でない、または導入遺伝子挿入の位置に関してRSCと同一でない。
【0036】
SCの各々およびRSCは同じ(モノクローナルと推定される)MCBの独立した増殖から生じたため、基本的に、所与のSC中の任意の1つのCTIRの、RSC中の対応するRTIRからの逸脱(すなわち、存在/不在マトリックス(128)における任意の場所の白い四角)は、統計的な限界希釈に基づいてモノクローナルであると元々想定したMCBが実際はモノクローナルではなく、同じウェル中に複数の遺伝的に別個な細胞を含んでいた可能性があるということを示している。または、配列包括度があまりにも小さく、挿入部位がSC中に存在したが、得られた場所での配列読み取りがなされなかったため技術的に見落とされた。あるいは、元々のクローン細胞株が、一部の細胞は特定の挿入部位を喪失したが、他の細胞は元々の導入遺伝子挿入部位を維持していたという仕方で、遺伝的に変化した(これは、MCBが不安定で、ポリクローナルになったことを示している)。反対に、各評価されたSC中の各および全てのCTIRとRSC中の対応するRTIRとの一致(すなわち、存在/不在マトリックス(128)における全ての黒い四角)は、MCBがモノクローナルであるとする元々の想定が正しく、実際、統計的な限界希釈後の最初のウェル中に細胞が1つしかなかったことを示している。従って、存在/不在マトリックス(128)をクローン性の定性的指標と見なすことができる。さらに、RSCと1つ以上のSCとの間のクローン性は、例えば、評価されたSCの各々に関するDice係数を計算することで、定量的に評価することができる。Dice係数は、RSCとそれぞれのSCとの間の類似度を、RSC中のRTIRと所与のSC中の対応するCTIRとの間の一致度に基づいて表したものである。このように存在/不在マトリックス(128)から得られた結果を、さらに距離行列(130)に示すことができる。それぞれのSCのRSCに対する距離は、二次元距離行列(130)中に0〜1の尺度に沿った点として示すことができ、0は評価された全TIRに関する完全なクローン同一性を示し、1は評価された全TIRに関する完全なクローン非類似性を示す。互いに重なる点はいわゆる「集団」を形成し、これはRSCゲノムからの距離が等しい、従って、RSCゲノムと遺伝的に一致していることを示すそれぞれのSCゲノムの群である。これは、例えば、(130)におけるSC、SC、およびSCの場合である。1つ以上のそれぞれのSCゲノムは、Dice係数に基づいて計算された互いの距離が0である場合(すなわち、データ点が重なっている限り)、RSCゲノムと比較して同じ集団に属していると見なされる。2つのそれぞれのクローン間のDice係数が「0」であることは、当該の2つのクローンがゲノム同一性を共有する、すなわち、それらの導入遺伝子挿入領域が一致することを意味する。RSCと1つ以上のSCの各々が同じ集団に分類される場合、クローン性が決定されなければならないMCBはモノクローナルと見なされる。
【0037】
上に述べたことは、存在/不在マトリックス中の全遺伝子座が、RSCおよび全SCのものを含め、同色である場合、単クローン性と結論付けることができるということを意味する。存在/不在マトリックスの結果がDice係数によって数値で表される場合、上に述べたことは、SCに対応する全データ点が単一の点で重なっている場合に単クローン性と結論付けることができ、単一の点が、Dice係数が0に等しいことに対応していることを意味する。
【0038】
確度は、比較され、一致していることが見出されるTIRの数とともに増す。最終的に、RSCとSCの全ゲノムが完全に配列決定される場合、これにより、所与のSCがRSCと同一であるという100%の確実性が得られる。分析されるSCの数が多いほど、MCBがモノクローナルであるかどうかを決定する可能性が高くなる。理想的な場合、数百または数千ものクローンをそのような方法で分析する。
【0039】
図2図2は、所与のDNAライブラリのDNA分子を不死化し、「架橋」増幅して集団を生成し、配列決定してそれぞれのDNA分子の数百万のコピーを得る例示的なフローセル(200)の概略図を例示する。フローセルは8つのレーンに分かれており(201)、各レーン(202)は、DNA分子がアダプターハイブリダイズを介して結合される50のタイル(203)を備える。次いで、DNA分子を増幅して単一のDNA分子の数千のコピーを生成する(「集団」(204))。これらの集団の各々に対し、配列決定中に「x」および「y」座標を割り当て、フローセル(200)のタイル(203)内の所与の集団(204)またはDNA分子の厳密な位置を正確に特定する。次世代配列決定(NGS)中に生データを生成する。次いで、この生データをFastQファイルに変換する。FastQファイルは、DNA分子の生物学的配列およびそれに対応する品質スコアをテキストベースの形式で保管する。FastQファイルは、さらに、配列決定に使用する固有の機器名、フローセルのレーン、フローセル内のタイル番号、ならびにタイル(203)内の所与のDNA分子に対応するDNA集団(204)の「x」座標(205)および「y」座標(206)に関する情報を含む配列識別子を含む。配列識別子は、さらに、所与のペアエンド配列決定読み取りの要素に関する情報を含む(すなわち、所与の配列を「読み取り1」または「読み取り2」のいずれかとして特定する)。従って、この配列識別子に基づいて、フローセル(200)内のDNA集団またはDNA分子の位置または固定された位置を厳密に特定することができる。より重要なことに、配列決定されたDNA分子に関して生成されたFastQファイルに保管された配列識別子の情報に基づいて、ペアエンド配列決定工程で生成された対応する読み取りデータ対(すなわち、読み取り1および読み取り2)を特定することができる。
【0040】
図3図3は、クラス2読み取りデータ(302)をHPCゲノム(300)に対して、またクラス3読み取りデータ(303)を導入遺伝子(301)に対して整列させることによる、導入遺伝子挿入領域(TIR)の特定を例示する。図3の導入遺伝子(301)の反対側にクラス1およびクラス4読み取りデータを描くことも同様に可能だが、図1に関する説明と同様、これらは、説明を簡潔にするために省略した。整列された読み取りデータは、HPCゲノム(300)内の約1000ヌクレオチド(1kb)(304)の領域に及び、これは導入遺伝子挿入の推定領域を規定する。統計的堅牢性を増し、TIRの位置に関する予測をより信用できるものとするため、導入遺伝子挿入の推定領域を2kbの窓(306)(1kb領域(304)の中央から出発し、両側の領域を各500bp(灰色の四角(305))伸長)に伸長する。1kb挿入領域の中央は、最も高い配列包括度を有するHPCゲノム中のヌクレオチドとして規定される(ガウス分布(307)を参照のこと)。導入遺伝子の2kb挿入領域を考慮することで、1つ以上のサブクローンの配列整列におけるばらつきがわずかにあったとしても、異なるサブクローン間のTIRの比較の信頼性をより高くすることができるので、HPCゲノム中のTIRの予測がはるかに信用できるものとなる。さらに、ペアエンド配列決定対の読み取り1または読み取り2に対応する配列が通常200〜500bpにしか及ばないので、クラス2(302)およびクラス3(303)配列のHPCゲノム(300)に対する整列は、HPCゲノム中の導入遺伝子挿入領域の厳密な位置を示さない。しかしながら、配列決定されることになる鋳型は、800bp以上の長さになる可能性がある(DNAライブラリの平均挿入サイズによって決定される)。この差は300〜600bpの差に至り、この差の中に実際の導入遺伝子挿入部位が位置する可能性がある。従って、予測された導入遺伝子挿入領域を、1kb領域の両側の500bpの追加の領域だけ拡張することで、実際の導入遺伝子挿入部位が位置し得る、配列中の考え得る差が考慮されることになるので、予測されたTIRの信用性が増す。
【0041】
図4図4は、RSCゲノム(400)中の参照導入遺伝子挿入領域(RTIR)の決定に関する概念図を例示する。RSC中の特定されたTIRをその配列包括度および読み取り数に関して分析し、1つ以上のSC中のTIRを比較するための参照として使用され得る信用できるTIRを得る。RSCをより高い配列包括度で配列決定し、RSCゲノム(400)中の導入遺伝子挿入領域に関するより信頼性の高い予測を可能にする。特に、より高い配列包括度により、PCRによるアーチファクトに起因するRSCゲノム中の誤ったTIRの特定が回避される。RTIRは、配列読み取りの総数および配列読み取りの少ない重複に基づいて選択される。この理由は、PCRによるアーチファクトが厳密に同じ配列である複数のコピーを生成する傾向がある一方で、単一の位置に集中する多くの部分的に重複する配列は、ライブラリ調製中の宿主ゲノムのランダムな断片化のみを原因とし得るためである。前者は(R)TIRの位置を正確に予測するものではないとして排除すべきだが、後者は含めるべきである。
【0042】
このことを例示するため、図4は、RSCゲノム中に位置する10の異なる導入遺伝子挿入領域(TIR〜TIR10)を示す。TIRは、10のTIR全てのうちで最も高い配列包括度を有する(すなわち、重複する読み取りの数が最も多い)が、TIRにおける読み取りは同一なので、信用できるTIRを示す可能性はあまりない。同じことが、TIR、TIR10、およびTIR(この3つのTIRの各々における重複する読み取りの数はTIRにおける数より少ないにもかかわらず)に当てはまる。上で説明したように、そのような「積み重ね」配列は、ライブラリ調製またはPCR増幅中に導入され得る、配列決定の「アーチファクト」に起因する、例えば、配列の偏りに起因する可能性が高いが、1つ以上のSCをRSCと比較するための参照として適する信頼性の高い導入遺伝子挿入領域を示さない。従って、上述の要件に基づいて、5つの最良の挿入領域は、信頼性の高い順に、TIR(例えば、RTIR)続いてRTIR、RTIR、RTIR、およびRTIRとなる。これらの5つのTIRの各々は、部分的な配列重複を示し、1つの位置での部分的に重複する読み取りの数が多いほど信頼性が高いことを示す。
【0043】
図5図5は、例示的な25のサブクローン、MCB、および分岐(divergent)MCBΔ(MCBΔは、MCBと異なる遺伝子挿入から生じる)間の導入遺伝子挿入領域(TIR)を比較することによって得られ、上述の存在/不在マトリックスにおいて示された(例えば、実施例5の)結果を例示する。存在/不在マトリックスの「y」軸はサブクローン番号25(SC25)のゲノム中の20のRTIR(例えば、上述のように、最も高い配列包括度を有する20のRTIR)の位置を示す。例示的な図において、SC25は、フローセルの3つのレーンで配列決定されて、他の関連するライブラリ(すなわち、それぞれフローセルの1つのレーンで配列決定される、MCB、MCBΔ、およびSC〜SC24のライブラリ)と比較してより高い配列包括度を得る(表1;第2列を参照のこと)。従って、SC25に関して得られた結果における、このより高い配列包括度および対応するより高い堅牢性によって、SC25をRSCとして指定することが正当化される。従って、20のRTIRの位置は、SC25ライブラリにおける、他の配列決定されたライブラリの配列包括度と比較してより高い配列包括度に基づいて決定される。
【0044】
「x」軸は、試験された25のサブクローンの各々、MCB、およびMCBΔを示す。二色コードによって示されるように、SC25中の特定された20のRTIRはいずれもMCBΔ中に存在していないが、MCBおよび試験されたサブクローンの大部分(すなわち、SC〜SCおよびSC〜SC23)はSC25、つまりRSCと20のRTIRを共有する(MCBΔを示す右端のレーン中の「白い」帯を参照のこと)。この結果により、MCBΔが、HPCゲノム中の異なる位置で導入遺伝子の挿入を生じる、MCBをもたらすものと異なるランダムな形質移入の結果であることが確認される。さらに、例示的なデータは、MCBおよび25のサブクローンの大部分が特定された全RTIRを共有する(SCとSC24は除く)ことを示し、これは、これらのSCが単一のモノクローナルな細胞(MCB)を起源としたことを示す。しかしながら、SCおよびSC24は、そのそれぞれのゲノム中、RTIRを1つ欠いているように見える。SCは、見かけ上、RTIR18を欠いており、SC24は、見かけ上、RTIRを欠いている。
【0045】
このように、ほとんど全てのRTIRが所与のSC中に存在するような場合、当該SCは実際にはTIRがRSCと同一であり、SC中の単一のTIRの、それに対応するRSC中のRTIRからの逸脱は配列決定のアーチファクトに起因している可能性が高い。従って、この可能性を排除し、所与のSCが対応するRSCと同一であるかどうかを明確に決定するために、当該の異常なTIRをさらに分析することは有用であり得る。これは、例えば、サンガー法によって行うことができる。そのようなさらなる配列決定分析により、SC中のTIRの、対応するRSC中のRTIRからの観察された逸脱が異常なものであり、SCは実際にはこの位置でRSCと同一であるということが示される場合、SC中のTIRの見かけ上の不在は低い配列包括度から生じるもので、それぞれのSC中のそれぞれのTIRが本当に存在していないわけではないと合理的に結論付けることができる。そのような場合、例えば、SC中のRTIR18およびSC24中のRTIRの存在を確認することができ、これは、試験された全サブクローンが、クローン性が決定されることになるMCBと同じ(R)TIRを共有することを示す。そのような場合、限界希釈に基づいた、MCBはモノクローナルであるという最初の想定が正しく、MCBは実際にモノクローナルであると結論付けることができる。MCBに由来する全SC中のTIRプロファイルがRSC中のRTIRプロファイルと同一である場合、所与のMCBの単クローン性は、存在/不在マトリックスに基づいて結論付けることができる。
【0046】
図6図6は、MCB、SC〜SC25の各々、および分岐MCBΔ中のRTIR/TIR間の一致を空間的に示す距離行列を示す。描かれる距離は、本明細書および図6において示される式(I)に従ったそれぞれのDice係数の計算に基づく。計算された距離行列から理解されるように、全サブクローンは、SCおよびSC24を除いて、クローン性が決定されることになるMCBに関して同じ集団に分類される。SCおよびSC24は、SC24中のRTIRおよびSC中のRTIR18を見かけ上欠いているため、この集団とわずかに違っている。しかしながら、上で図5に関して説明したように、違ったTIRのさらなる分析を他の方法(例えば、サンガー法)によって実施して、見かけ上不在のTIRが実際には存在しているかどうかを決定することができる。この場合、それに応じて、存在/不在マトリックス(図5)および対応する距離行列(図6)を訂正してもよい。試験されたサブクローンに関して式(I)に従って計算された距離が「0」の場合、所与のMCBの単クローン性を距離行列に基づいて結論付けることができる。予想されるように、遺伝的に別個なMCBΔの計算された距離は「1」であり、これは、このクローンが独立に形質移入された細胞に由来したことを示している。定義クローン性
【0047】
本明細書で使用する場合、用語「クローン性」は、当該細胞の、特に、参照遺伝子構成との類似性または非類似性に関する、遺伝子構成を意味する。例えば、「クローン」は、共通の前駆体を共有する、すなわち、単一細胞に由来しているために同一のゲノムを有する、遺伝的に同一な細胞の群を指す。用語「モノクローナル(単クローン性)」は、本明細書で使用する場合、単一の遺伝的に同一な前駆細胞に由来する遺伝的に同一な細胞の群を意味する。モノクローナルな細胞は、単一の前駆細胞から反復される細胞複製によって産生される細胞の群と定義されるため、類似した遺伝子発現プロファイルおよび増殖特性を有する単一の「クローン」を形成することができる。特に、用語「モノクローナル」は、本明細書で使用する場合、導入遺伝子挿入の同一なゲノム位置を共有する細胞またはクローンの群を指す。用語「ポリクローナル(多クローン性)」は、本明細書で使用する場合、2個以上の前駆細胞に由来する、互いに遺伝的に別個な細胞の群を指す。ポリクローナルな細胞は、異なる遺伝子発現プロファイルおよび/または増殖特性を有する、遺伝的起源が異なる2個以上の細胞の混合物を含む。特に、用語「ポリクローナル」は、本明細書で使用する場合、導入遺伝子挿入のゲノム位置が異なる多数の細胞またはクローンを指す。
万能細胞バンク(MCB)
【0048】
用語「万能細胞バンク」(MCB)は、本明細書で使用する場合、規定の条件で選択された細胞クローンから調製され、複数の容器に分注され、規定の条件で保管される、細胞のプールの分割量を指す。MCBは、目的遺伝子を通常含む組換え核酸配列(または導入遺伝子)をゲノム中に組み入れた、形質移入された宿主前駆細胞に由来する(すなわち、次いで、組換え核酸配列がMCB中に含まれる)。次いで、確実に形質移入された細胞を選択条件下で培養し、細胞間で異なるゲノム位置ではあるが、目的の導入遺伝子をゲノム中に組み入れたポリクローナルな細胞のプールを得る。次いで、この細胞のプールを、導入遺伝子発現の最良の候補を求めて、一連の限界希釈(すなわち、意図された分割量容積あたり1個未満の細胞を生じる希釈)による試験を、タンパク質発現と増殖プロファイルとの分析を組み合わせて実施する。次いで、最良の候補をさらに希釈して、後にMCBの起源となる1個の単一細胞を統計的に産生する。次いで、これらのMCB候補(前MCB)を、タンパク質発現、ならびに、細胞形態、タンパク質発現レベル、発現の安定性、増殖速度、および生成物品質を含む様々な具体的特性に関してさらに試験する。さらに、MCBを、内因性の物質、例えば、レトロウイルス、真菌またはマイコプラズマによる汚染に関して試験すべきである。従って、保存された特性を有する確立されたMCBは、既定の条件で保管され、例えば、組換えタンパク質発現のための産生細胞株として使用することができる、「細胞予備」を示す。
宿主前駆細胞
【0049】
用語「宿主前駆細胞」(HPC)は、本明細書で使用する場合、導入遺伝子とも称される組換え核酸配列の組み入れ、例えば、ゲノム組み入れのための宿主として機能する細胞を指す。組換え核酸配列は、通常、例えば、治療に関連するタンパク質をコードする目的遺伝子(GOI)を含む。一部の例において、組換え核酸配列は、治療用DNAまたはRNA、例えば、DNAアプタマーまたはsiRNAも含んでよい。組換え核酸配列は、既知の形質移入方法によってHPCゲノムに導入し、安定的に組み込むことができる。HPCは一般に哺乳動物起源であり、例えば、チャイニーズハムスター卵巣(CHO)細胞、マウス骨髄腫(NS0、SP2/0)、ベビーハムスター腎細胞(BHK)、ヒト胎児腎細胞(HEK−293)、およびヒト網膜細胞を含むが、これらに限定されない。
安定な遺伝子組み込み
【0050】
用語「安定な遺伝子組み込み」または文法的に関連する用語、例えば、「安定的に組み込まれた」などは、GOIを含む所与の導入遺伝子をHPCゲノムへ組み入れ、その結果、GOIを含む導入遺伝子が、細胞増殖サイクル中、宿主細胞ゲノム中に維持され、宿主ゲノムとともに複製されて、子孫細胞に現れることを指す。従って、安定な遺伝子組み込みを受けた細胞株は、GOIを含む導入遺伝子をそのゲノム中に組み入れており、その娘細胞も、GOIを含む導入遺伝子を各複製された娘細胞中に含むことになる。
【0051】
安定な形質移入を行う際は、例えば、導入遺伝子にも含まれる選択可能なマーカーを用いて一過性形質移入と安定形質移入とを区別することが有利である。マーカーと所与のGOIとの同時発現は、所与の組換え核酸配列がゲノムに組み込まれた細胞を特定・選択することに役立つ一方で、一過性形質移入された細胞、すなわち、マーカーおよびGOIを有する所与の組換え核酸配列をゲノムに組み入れていない細胞を選択しないことにも役立つ。例えば、一般的な選択方法は、GOIと抗生物質耐性を付与する遺伝子(例えば、ネオマイシン耐性遺伝子、neo)とをコードする導入遺伝子の形質移入である。次いで、一過性形質移入された細胞を、選択に適した抗生物質(例えば、新しく形質移入された細胞に適したゲネチシンまたはG418)で処理する。GOIと抗生物質耐性を付与する遺伝子とを含む組換え核酸配列を安定的に組み込んだ細胞のみが長期培養で生存し、導入遺伝子を安定的に組み込んだ所望の細胞の選択および増殖を可能にする。
レトロウイルス形質移入
【0052】
レトロウイルスは、二本鎖DNA中間体を介して宿主細胞のゲノムに安定的に組み込む一本鎖RNAウイルスである。従って、マウス白血病ウイルス由来ベクターなどのレトロウイルスベクター系を、組換え核酸配列を宿主前駆細胞(HPC)ゲノムに安定的に組み込む効率的な手段として用いることができ、これは、本明細書で使用する場合、「レトロウイルス形質移入」の意味である。レトロウイルスベクターは、組換え核酸配列を収容し、これのHPCゲノムへの組み入れを可能にするプロウイルス配列を含むことができる。このベクターは、強いCMVプロモーターなどのウイルスおよび細胞遺伝子プロモーターも含み、GOIを含む導入遺伝子の宿主前駆細胞中での発現を高めることができる。ウイルス媒介性形質移入により、ランダムまたはほぼランダムな挿入、例えば、組換え核酸配列のHPCゲノム中の転写活性のある部位での好ましい挿入が、HPCゲノム中の複数の部位で生じる。
組換え核酸配列
【0053】
用語「組換え核酸配列」は、本明細書で使用する場合、遺伝的に操作された核酸分子、例えば、実験室的方法(例えば、分子クローニング)によって生成される、遺伝的に操作されたDNA分子を指す。これは、導入遺伝子とも称される。組換え核酸配列は、通常、MCB中での最終的な発現が意図された目的遺伝子(GOI)を含む。これは、安定的に形質移入された細胞を特定するのに有用もしくは必要とされる追加の核酸配列(例えば、抗生物質耐性マーカーなど)および/またはMCB中でのGOIの発現を容易にするのに有用もしくは必要とされる追加の核酸配列をさらに含むことができる。組換え核酸配列は、異なる生物学的供給源(例えば、細胞または生物)由来の遺伝子材料(例えば、DNA断片)を含み、これによって、そうでなければ天然に存在しない、宿主前駆細胞のゲノムに導入され得る組換え配列を創製することができる。あるいは、組換え核酸配列は、単一の生物学的供給源(例えば、単一細胞または生物)由来の遺伝子材料(例えば、DNA断片)を、その生物学的供給源中に存在するのと同じまたは類似の形態だが、当業者に公知の組換え実験技術によって操作および/または単離された形態で、含むことができる。組換え核酸配列は、MCB中での最終的な発現が意図されたGOIを含む。GOI以外のさらなる配列が組換え核酸配列に含まれていない場合、用語「組換え核酸配列」および「GOI」は同一となる。この場合、組換え核酸配列または導入遺伝子は、GOIからなる。本発明は、用語「組換え核酸配列」の上記変形の全てを想定する。
目的遺伝子
【0054】
用語「目的遺伝子」または「GOI」は、本明細書で使用する場合、組換えタンパク質の少なくとも一部をコードする核酸配列、例えば、DNA配列を指す。GOIは、組換え核酸配列に含まれる。組換えタンパク質をコードするGOIは、生物または細胞のゲノムから直接取得してもよい。あるいは、GOIは、ゲノムの複数のエクソンを、目的のタンパク質をコードする単一の連続した核酸配列にスプライシングすることから生じる翻訳領域(オープンリーディングフレーム)に由来してもよい、またはそれと同一であってもよい、すなわち、GOIは、組換えタンパク質をコードするmRNAに相補的なDNA(すなわち、cDNA)と同等であってもよい。GOIは、適切な生物学的供給源から完全な形態で単離してもよい、または化学的に合成してもよい。GOIは、転写後修飾、例えば、修飾ヌクレオシドおよび/または修飾ヌクレオチドをさらに含んでもよい。次いで、導入遺伝子の一部としてのGOIは、宿主前駆細胞のゲノムに導入され得る。GOIは、導入遺伝子中に単独で存在してもよく、その場合、導入遺伝子およびGOIは同一の範囲に及んでいる。
組換えタンパク質および組換えタンパク質発現
【0055】
用語「組換えタンパク質発現」は、本明細書で使用する場合、所与の組換え核酸配列によってコードされる宿主細胞中でのタンパク質の発現を指す。ほとんどの場合、タンパク質は導入遺伝子に含まれるGOIから発現される、すなわち、組換えタンパク質はGOIによって発現される。しかしながら、組換えタンパク質が導入遺伝子内のGOIと他の配列との組合せから発現される場合のあることは排除されない。
【0056】
本明細書で使用する場合、用語「組換えタンパク質」は、組換え核酸配列から発現されるタンパク質を指す。多くの場合、組換えタンパク質は治療的価値を有するタンパク質であり、組換え核酸配列は宿主前駆細胞のゲノムに安定的に組み込まれて、このタンパク質の産生に使用されることになるMCBを生じる。上で説明したように、タンパク質は、例えば、遺伝子配列の制御された操作および/または単離をin vitroで行うための既知の実験室的方法を用いて、そうでなければ天然には存在しない形態の、異なる生物学的供給源または生物に由来する複数の核酸配列を組み合わせることから生じる核酸配列によってコードされるおよび/またはそこから発現されるため、「組換え」と見なしてもよい。あるいは、タンパク質は、すでに天然に存在しているが、遺伝子配列の制御された操作および/または単離をin vitroで行うための既知の実験室的方法を用いて操作および/または単離された、組換え核酸配列によってコードされるおよび/またはそこから発現されるため、「組換え」と見なしてもよい。組換えタンパク質は、組換え核酸配列に含まれるGOIを、組換え核酸配列に含まれる他の配列とともに含む組換え核酸配列によってコードおよび/またはそこから発現されてもよい。あるいは、組換えタンパク質は、組換え核酸配列にGOI以外の配列が存在しているにもかかわらず、組換え核酸配列に含まれるGOIのみによってコードおよび/またはそこから発現されてもよい。あるいは、組換えタンパク質は、組換え核酸配列がGOI以外の配列を含んでいない場合、組換え核酸配列に含まれるGOIのみによってコードおよび/またはそこから発現されてもよい。この後者の場合、組換えタンパク質は、「導入遺伝子」または「GOI」のいずれかによってコードされるおよび/またはそこから発現される組換えタンパク質を指すことができ、これら2つのものは、組換え核酸配列中に他の非GOIが存在しない場合、同一である。
プロモーター
【0057】
本明細書で使用する場合、用語「プロモーター」は、転写因子およびRNAポリメラーゼによって認識されてmRNAの転写を開始する、DNA中の配列特異的な部位を指す。
ビリオン
【0058】
用語「ビリオン」は、本明細書で使用する場合、タンパク質エンベロープによって囲まれてウイルスの感染形態を構成する、RNAまたはDNAからなる完全なウイルス粒子を指す。
配列整列(マッピング)
【0059】
本明細書で使用する場合、用語「配列整列」または「配列マッピング」は、DNAまたはRNAの配列を互いに対して揃え、類似性を有する領域を特定する方法を指す。そのような配列は、配列間の機能的、構造的、または進化的な関係の結果の可能性がある。本発明の文脈では、特に、整列を用いて、細胞の起源および細胞内に含まれている核酸を、例えば、そのような細胞は共通の細胞前駆体から生じるのかまたは異なる細胞前駆体から生じるのか、ということを解明するかもしれない。整列されたヌクレオチドの配列は、典型的には、マトリックス中に行として示される。用語「整列」および「マッピング」は、本明細書で使用する場合、同じ意味を有するので、言い換え可能である。配列整列のためのよく知られているアルゴリズムは、例えば、Needleman−Wunschアルゴリズム、Smith-Watermanアルゴリズム、もしくはWaterman−Eggertアルゴリズム、またはBurrows−Wheeler変換である。配列整列のためのよく知られている手段は、例えば、BLAST、BLAT、WMBOSS、Clustal、BWA、Bowtieである。
サブクローン
【0060】
用語「サブクローン」は、本明細書で使用する場合、万能細胞バンク(MCB)から単一細胞として、例えば、限界希釈(すなわち、意図された分割量容積あたり2個以上の細胞を生じない希釈)の結果として単離され、続いて細胞のプールに増殖された、細胞のプールを指す。サブクローンの全細胞は、同一のゲノム構成を共有する。本発明において、サブクローンは、モノクローナルと想定される細胞のプールからなる所与のMCB培養液から増殖される。従って、MCBは、各細胞分割量が特定のサブクローンを示す、異なる細胞分割量に分けられる。次いで、増殖後、サブクローンは、例えば、タンパク質発現、クローン性分析などのために使用することができる。モノクローナルなMCBを起源とするサブクローン(1個の単一細胞を起源とする細胞のプール)は、同一のゲノム特性を共有するので、各サブクローンは、同じ、すなわち、共通のMCBを起源とする任意の他のサブクローンに関してモノクローナルと見なされる。ポリクローナルなMCBを起源とするサブクローン(少なくとも2個の異なる細胞を起源とする細胞のプール)は、異なるゲノム特性およびタンパク質発現プロファイルを有しているので、互いに関してポリクローナルであると見なされる。
参照サブクローン(RSC)
【0061】
用語「参照サブクローン」(RSC)は、本明細書で使用する場合、クローン性が決定されることになるMCBから増殖されたサブクローンの群からランダムに選択されたサブクローンを指す。RSCは、残りのサブクローンと比較してより高い配列包括度で配列決定され、参照配列中の所与のヌクレオチドを示す、より多い平均読み取り数を得る。RSCの配列決定データを用いて1つ以上の参照導入遺伝子挿入領域(RTIR)を特定する。
参照導入遺伝子挿入領域(RTIR)
【0062】
用語「参照導入遺伝子挿入領域」(RTIR)は、本明細書で使用する場合、参照サブクローン(RSC)のゲノム中で特定された導入遺伝子挿入領域を指す。導入遺伝子挿入領域は、本明細書において詳細に説明されるように、他の導入遺伝子挿入領域と比較して、配列包括度が高く、読み取られた読み取り数の重複が少ない場合、RTIRとして指定される。RSC中のRTIRを、RSCと同じMCBを起源とする1つ以上の、最も好ましくは複数の、サブクローン中の対応する導入遺伝子挿入領域と比較して、MCBのクローン性を決定する。
比較導入遺伝子挿入領域(CTIR)
【0063】
用語「比較導入遺伝子挿入領域」(CTIR)は、本明細書で使用する場合、RSCと同じMCBを起源とする1つ以上のサブクローン中の導入遺伝子挿入領域を指し、前記導入遺伝子挿入領域は、RSC中のRTIRと、対応するゲノム位置で比較される。
DNA配列決定ライブラリ
【0064】
用語「DNA配列決定ライブラリ」は、本明細書で使用する場合、特定の生物学的供給源(例えば、MCB、RSC、SC、またはMCBΔ)の全ゲノムを示す前記生物学的供給源から精製されたゲノムDNA断片の試料を指す。DNA配列決定ライブラリにおいて、ゲノムDNA断片は、ゲノムDNA断片のさらなる分析(例えば、配列決定分析)のために、プライマーおよびアダプター配列に3’および5’連結してもよい。
【0065】
例えば、配列決定のためのDNAライブラリの調製は、特定の生物学的供給源から精製されたDNA試料を断片化することから始めてもよい。断片化により、配列決定読み取りのための分子の入り口点が規定される。次の工程で、DNA末端を酵素により修復して、アデニン(A)をDNA断片の3’末端に付加してもよい。次いで、末端が(A)のDNA断片を鋳型として増幅し、二本鎖の、部分的に相補的なアダプターをDNA断片に連結してもよい。次いで、DNAライブラリをサイズ選択し増幅して、配列読み取りの品質を改善してもよい。増幅反応により、特異的なPCRプライマーが、フローセルでの配列決定に必要とされるアダプター配列に導入される。
単一細胞配列決定
【0066】
単一細胞DNAゲノム配列決定は、単一細胞の単離、続く全ゲノム増幅、およびその後の次世代シーケンサーを用いたDNA配列決定に関わる。単一細胞配列決定は、個々の細胞の配列情報を調べる。
次世代配列決定
【0067】
当業者であれば理解するように、核酸配列決定は、所与の核酸分子中のヌクレオチドの厳密な順番を決定する方法である。用語「次世代配列決定」(NGS)は、本明細書で使用する場合、多くの核酸を並列して同時に配列決定することを可能にする、任意の配列決定プラットフォームまたは配列決定技術を指す。これにより、単一の試料に由来する多くの、例えば数百万の、DNAの断片を並列して配列決定することが可能になる。従って、NGS技術により、最大1ヌクレオチドの分解物を配列決定することが可能になり、全ゲノムを高速に、例えば、数時間で配列決定することが可能になる。「NGS方法」および「NGS技術」は、本明細書で使用する場合、鋳型調製、配列決定および撮像、ならびにデータ分析を含む。
【0068】
例えば、Illumina/Solexa(登録商標)法では、一本鎖DNA断片を、単分子アレイとして知られている固体表面、またはフローセルに結合し、単分子鋳型の固相「架橋」増幅を行うことによって、DNA増幅が達成される。このプロセスでは、単一DNA分子の一末端を、アダプターを用いて固体表面に結合する。続いて、分子が上に曲がり、相補的なアダプターにハイブリダイズし、これによって相補的な鎖の合成のための鋳型を形成する「橋」を創製する。増幅後、フローセルは4000万を超える集団を含んでいる可能性があり、各集団は、単一鋳型分子の1000ものクローンな(同一な)コピーを含んでいるかもしれない。鋳型を、除去可能な蛍光部分を有する可逆的終結剤と、成長するオリゴヌクレオチド鎖にこれらの終結剤を組み入れることができる特別なDNAポリメラーゼとを使用するDNA合成時解読法(以下の定義を参照のこと)を用いて、並列して配列決定する。終結剤を異なる4つの色で標識し、所与の配列位置で異なる塩基を区別し、次いで、各集団の鋳型配列を、各連続したヌクレオチド付加時に各蛍光体の読み取られた色によって決定する。この読み取りは、断片を既知のヌクレオチドで順番に洗浄しそれに浸すサイクル中に行われる。
【0069】
配列決定が完了したら、配列の生データはいくつかの分析工程を受けなければならない。NGSデータの生成データ分析過程には、データを前処理してアダプター配列と低品質の読み取りデータを除去すること、データを参照ゲノムにマッピングするまたは配列読み取りデータを新たに整列させること、および編集された配列を分析することが含まれる。配列の分析には、小ヌクレオチド多型(SNP)の検出、新規遺伝子、導入遺伝子挿入部位の検出を必要とする遺伝的変異体の評価、および/または転写発現レベルの評価などの、多様な生物情報学的評価が含まれ得る。
フローセル
【0070】
用語「フローセル」は、本明細書で使用する場合、核酸集団を「架橋」増幅によって生成し、配列決定工程を実施する、複数レーンの、典型的にはガラス製の基盤を指す。レーンの各々は個々に固定可能であるので、フローセルあたり複数の別個な試料を配列決定することができる。
【0071】
フローセルの各レーン内で、数百万のプライマーが、断片化されたDNAライブラリの捕捉プローブとして作用する。フローセルの各レーンは、各々が特定のDNA断片を含む数百万の別個な核酸集団を産生して、大規模な配列決定データを生成することができる、すなわち、別個なDNA断片を「架橋増幅」して配列決定を百万回実施し、信頼性の高い配列決定結果を生じる。
合成時解読
【0072】
本明細書で使用する場合、用語「合成時解読」は、蛍光標識されたヌクレオチドの組み入れ後、次のヌクレオチドの組み入れ前に蛍光シグナルを直接検出する、実時間法を示す。具体的には、この方法は、各々が異なる色の蛍光体で蛍光標識された4つのヌクレオチドを用いて、フローセルの核酸集団を並列して配列決定する。各配列決定サイクル中、単一標識の可逆的終結剤であるデオキシヌクレオチド三リン酸(dNTP)を核酸鎖に付加する。ヌクレオチド標識は重合の終結剤として機能するので、各dNTP組み入れ後、蛍光色素を撮像して塩基を特定し、次いで、3’終結剤ブロックを酵素により切断して次のヌクレオチドの組み入れを可能にする。4つの可逆的終結剤結合dNTP(A、C、T、およびG)の全てが別々の単分子として存在するので、自然な競合により組み入れの偏りが最小化される。塩基決定を、各サイクル中、シグナル強度測定によって直接行う。最終結果は、信頼性の高い塩基決定および配列文脈に特異的なエラーの除去を可能にする、塩基ごとの配列決定である。
塩基決定は、ヌクレオチドを、読み取られた特異的蛍光体に割り当てるプロセスである。
【0073】
塩基決定ファイル(.bcl)は、各サイクル中の各タイルに関する塩基決定および品質を含むバイナリファイルである。
ペアエンド配列決定
【0074】
本明細書で使用する場合、用語「ペアエンド配列決定」は、単一断片を5’末端および3’末端の両末端から配列決定し、順方向読み取り(読み取り1)および逆方向読み取り(読み取り2)を生じるプロセスを指す。配列決定された断片は、ある特定の塩基のギャップにより分離され、または重なり、統合後、連続した、より長いシングルエンド(片末端)断片を生じ得る。ペアエンド読み取りを使用することで、参照ゲノムまたは導入遺伝子にマッピングする読み取りの精度が改善する。
FastQファイルおよび配列識別子
【0075】
FastQ形式は、1文字コードとそれに対応する品質スコアを用いて生物学的配列(例えば、ヌクレオチド配列またはペプチド配列)を保管するテキストベースの形式である(FastQはWellcome Trust Sanger Instituteにより開発された)。配列文字および品質スコアの両方は、それぞれ、1文字のASCII(American Standard Code for Informion Interchange)文字でコードされる。FastQファイルは、配列あたり4つの行からなる。1行目は文字「@」で始まり、その後に配列識別子と任意選択の説明が続く。2行目は未処理配列文字を示す。3行目は文字「+」で始まり、任意選択で同じ配列識別子(および任意の説明)が再び続く。4行目は、配列の品質値をコードし、配列中の文字と同じ数の記号を含んでいなければならない、すなわち、核酸配列中の特定のヌクレオチドを示す各文字につき、その特定のヌクレオチドの品質スコアを示す対応する文字が存在する。各配列決定読み取りの「配列識別子」は、配列決定に使用する固有の機器名、フローセルのレーン、フローセルのレーン内のタイル番号、タイル内の集団の「x」座標、タイル内の集団の「y」座標、多重試料の索引番号、および対の要素(/1または/2、ペアエンド読み取りの場合のみ)に関する情報を含む。この配列識別子に基づいて、読み取り1配列を、ペアエンド配列決定中に生成された対応する配列対の対応する読み取り2配列と組み合わせることができる。
読み取り数
【0076】
用語「読み取り数」は、本明細書で使用する場合、それぞれの核酸分子がNGSプロセス中に増幅される回数を指す。「読み取り数」は、所与の核酸ライブラリ中のそれぞれの核酸分子の豊富さに関する直接的な尺度である。
配列包括度
【0077】
用語「配列包括度」は、本明細書で使用する場合、各ゲノム塩基対を包含する読み取り数を指す。
「高い」または「より高い」配列包括度
【0078】
用語「高い」または「より高い」配列包括度は、本明細書で使用する場合、所与のヌクレオチドを示す平均読み取り数が、別の核酸ライブラリ中の対応するヌクレオチドを示す平均読み取り数よりも大きい核酸ライブラリを意味する。これは、本質的には、任意の所与のゲノム位置が配列決定される際の読み取りの繰り返しを表すものであり、より高いレベルの読み取りの繰り返しはより高い配列包括度と相関する(「大規模配列決定」と称されることもある)。例えば、所与の核酸ライブラリの「より高い」配列包括度は、フローセルの複数の、すなわち、多数のレーンで所与の核酸ライブラリを配列決定することによって達成することができる。配列包括度がより高いと、堅牢性もより高くなるので、より低い配列包括度を使用する場合に比べて統計的に信頼性の高い、配列決定データの分析が可能となる。
PHRED品質スコア
【0079】
本明細書で使用する場合、用語「PHRED品質スコア」(Q)は、塩基決定誤差率に対数的に関連する特性を指す(Ewing B and Green P (1998). Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res. 8: 186-194.)。PHRED品質スコアは、式Q=−10log10Pに基づいて計算され、式中、Pは塩基決定誤差率と定義される。例えば、PHREDが30のQスコア(Q30)を塩基に割り当てる場合、これは、不正確な塩基決定が1000回中1回であるという確率と同等である。これは塩基精度(すなわち、正確な塩基決定の確率)が99.9%であることを意味する。より低い塩基決定精度である99%(Q20)は、100回中1回という不正確な塩基決定率を有し、これは所与の配列決定読み取り中100bpごとに1つの誤差が含まれている可能性が高いことを意味する。配列決定品質がQ30のPHREDに達すると、実質的に全ての読み取りが完璧で誤差または曖昧さがないことになる。
位相化および前位相化
【0080】
用語「位相化」は、本明細書で使用する場合、ヌクレオチドを、所与の集団中の小部分のDNA鎖に、所与の配列決定サイクル中のゲノム鋳型の正しいヌクレオチドの1つ後ろの位置(−1nt)で組み入れることを指す。用語「前位相化」は、本明細書で使用する場合、ヌクレオチドを、所与の集団内の小部分のDNA鎖に、所与の配列決定サイクル中のゲノム鋳型の正しいヌクレオチドの1つ前の位置(+1)で組み入れることを指す。例えば、小部分の鎖は、現在のサイクルの相から外れ、鋳型の特定の位置の正しいヌクレオチドに対して、塩基が後方に後退(位相化)または塩基が前方に飛び越える(前位相化)ことがある。位相化および前位相化は3’終結剤および蛍光体の不完全な除去、組み入れサイクルを欠く集団中の配列、ならびに効果的な3’終結剤を有していないヌクレオチドの組み入れによって引き起こされる。
コンティグ
【0081】
用語「コンティグ」は、本明細書で使用する場合、例えば、染色体を起源とする核酸配列の、配列決定された重複する断片を構築することによって創製される、DNAの連続した配列を指す。
足場
【0082】
用語「足場」は、本明細書で使用する場合、正しい順番であるが、必ずしも1つの連続した配列に接続されている必要はない、一連のコンティグを指す。
集団
【0083】
用語「集団」は使用される文脈に応じて異なる意味を有し得る。用語「集団」が2つ以上の配列の互いに対する遺伝的関連性または遺伝的非関連性を説明する文脈で使用される場合、本明細書で使用されるこの用語は、同一の導入遺伝子挿入部位を有する独立したサブクローンの群を指す。同じ集団に分類されるサブクローンはモノクローナルと見なされる。用語「集団」が核酸配列の物理的位置の文脈で使用される場合、本明細書で使用されるこの用語は、本明細書に記載したように、配列決定プロセス、例えばNGSプロセス中にフローセルで「架橋増幅された」それぞれの核酸分子の同一のコピーの群を指す。
対応関係
【0084】
用語「対応関係」は、本明細書で使用する場合、2つ以上のサブクローンの各々におけるそれぞれの導入遺伝子挿入領域の存在または不在によって決定される、前記2つ以上のサブクローン間の関係を指す。導入遺伝子挿入領域が2つ以上のサブクローン間で、または所与のサブクローンもしくはサブクローンの群とクローン性が評価されることになるMCBとの間で一致している、すなわち同一である場合、これら2つ以上のサブクローンは互いに「対応する」。従って、用語「対応関係」は、「合致」、「一致」、および「同一性」と同じ意味を持つ可能性があるので、言い換え可能と理解されるべきである。
境界
【0085】
境界は、導入遺伝子が挿入される宿主細胞ゲノム位置である。境界は導入遺伝子の「側面」または他の用語では挿入部位に対応する。
【発明の詳細な説明】
【0086】
上述のように、本発明の一側面は、既知の配列の導入遺伝子を既知の配列の宿主前駆細胞(HPC)ゲノムにランダムに挿入することによって生成される万能細胞バンク(MCB)のクローン性を決定する方法に関する。
【0087】
MCBおよびWCBは、大規模な治療用タンパク質産生のための発現系として機能する。治療用タンパク質の産生のためのMCBと見なされることになる発現系の必須要件は、産業規模産生に適した量での、宿主前駆細胞中での高品質なタンパク質の発現である。培養された哺乳動物細胞株は、治療用タンパク質生成物の産生においてますます重要になってきている。例えば細菌系または酵母系と比較した、哺乳動物発現系の1つの大きな利点は、適切なタンパク質フォールディング、翻訳後修飾、生成物会合をもたらす可能性であり、これらは全て、タンパク質生成物の完全な生物学的活性の重要な要件である。
【0088】
過去10年、哺乳動物細胞系に基づくバイオプロセスが、ワクチン、診断および治療用タンパク質の製造に適用されてきた。最も広く使用される宿主哺乳動物細胞系は、チャイニーズハムスター卵巣(CHO)細胞およびHEK293(ヒト胎児腎)細胞である。これらの細胞は、ポリエチレンイミン(PEI)、リン酸カルシウム、またはレトロウイルスベクターなどの多くの形質移入方法によって形質移入することができ、現在、一過性形質移入および安定な細胞株の形成の両方による組換えタンパク質の産生に広く使用されている。
【0089】
大規模なタンパク質産生に適したさらなる哺乳動物細胞系としては、HeLa、HEK293T、U2OS、A549、HT1080、CAD、P19、NIH 3T3 I、L929、N2a、ヒト胎児腎293細胞、SP2/0、NS0が挙げられるが、これらに限定されない(例えば、Manual of industrial microbiology and biotechnology, 3rd edition, chapter 12 “Mammalian cel culture for biopharamcutical production”, Jinyou Zhangを参照のこと)。
【0090】
形質移入後、細胞株を無血清培養条件における選択の下で増殖する。形質移入された細胞は、ゲノム中の異なる位置で導入遺伝子を組み入れたポリクローナルな細胞のプールである。この不均質性は、一般に、導入遺伝子の宿主ゲノムへの、ランダムまたは部分的にランダムな挿入が原因である。次に、細胞の不均質なプールを、最も効率的にタンパク質を産生する候補を求めて、限界希釈と呼ばれるプロセスによって選別する。一般に、用語「限界希釈」は、単一工程または複数の連続工程で実施され、所与の意図された分割量容積あたり1個の細胞を生じることができる希釈を指す。例えば、溶液をマルチウェルプレート、例えば96ウェルプレートの個々のウェルに等分化することが意図される場合、ポリクローナルな細胞株の限界希釈は、培養液を単一のウェルに対応する容積に等分化したときに、そのようなウェルの各々が(統計的に)1個だけまたはそれ以下の細胞を含むような細胞濃度を生じる。次いで、別々のウェルのそれぞれの細胞を適切な条件でさらに増殖し、候補クローンを得る。次いで、理論上1個の単一前駆細胞に由来するこれらのクローンを、増殖およびタンパク質発現プロファイルに関して試験する。次いで、最良のクローンを用いて万能細胞バンク(MCB)を生成する。
【0091】
この手法の大きな欠点の一つは、各候補クローンが実際にウェル当たり1個の単一細胞のみに由来していると想定することである。上述したように、この想定は、等分化に先立って希釈因子を決定する統計的計算に基づいている。しかしながら、この計算は統計的であるため、有望なMCBが単一のウェル中の複数の細胞のうちの1個のみであり、この単一のウェルの内容物を増殖した場合、細胞の不必要に不均質な(すなわち、ポリクローナルな)混合物をもたらしたという可能性を排除することが困難である。これにより、より低い再現性、および所与のMCB内のタンパク質品質の差異が生じる可能性がある。さらに、規制当局は、通常、治療用タンパク質の産生に使用するMCBは均質、すなわち、モノクローナルであることを求めているため、そのような不均質な混合物では、治療が意図されたタンパク質の産生に関する規制当局のふさわしい要件を満たすことは困難である。
【0092】
従来、タンパク質生成物の高品質産生に関するMCBの試験は、例えば、細胞形態、産生安定性およびタンパク質品質、ならびに遺伝子型特性などのMCB特性を、時間、労力および費用を集約して評価することによって達成される。単クローン性の決定に必要とされるそのような評価は、典型的には、6〜12か月を必要とする。しかしながら、これらのパラメータは、当該MCBがモノクローナルである可能性が高いということを示しているに過ぎず、これらの試験は、今なお、所与のMCBがモノクローナルであるということを決定的に証明することはできない。現在、保健医療当局によって受け入れられている主な方法は、二重限界希釈クローニングである。
【0093】
本発明は、既知の配列の所与のHPCゲノム中の固有な導入遺伝子挿入領域(TIR)の選択を、サブクローニング、配列決定、例えば、次世代配列決定(NGS)、および生物情報学的分析を組み合わせた新規の手法によって分析することでMCBのクローン性を確認する新規の方法に関する。この新規の手法により、従来のMCBの同一性試験に伴う時間および労力集約的な試みが回避されるだけでなく、当該MCBのクローン性、従って、完全な産生過程中の再現可能なタンパク質発現品質に関するMCBの信頼性を結論付けることが可能になる。
【0094】
一般に、本発明の方法は、推定MCBから増殖された、ランダムな、すなわち、ランダムに選択されたサブクローン(RSC)のゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定することに関わる。従って、本発明の方法に先立って、MCBを1つ以上のサブクローン(SC)に増殖して、1つ以上のサブクローンを適切な条件で別々に培養する。DNA抽出およびライブラリ調製後、1つ以上のサブクローンに由来するDNAライブラリをペアエンド配列決定により分析する。(ランダムに選択された)参照サブクローン(RSC)のDNAライブラリをより高い配列包括度で配列決定する。本明細書で別途説明したように、RSCのDNAライブラリにおける「より高い」配列包括度は、フローセルの複数のレーンでRSCのDNAライブラリを配列決定し、これによって、フローセルの1つだけのレーンで配列決定される残りのSCのDNAライブラリにおける配列決定読み取り数と比較して多い、RSCのDNAライブラリにおける配列決定読み取り数を生成することで、達成することができる。次いで、RSCに関して得られた配列決定データを用いてRSCゲノム中の導入遺伝子挿入領域(TIR)を特定する。TIRの特定は、得られた配列をHPCゲノムと導入遺伝子の既知の配列とに対して別々に整列させることによって達成することができる。次いで、RSCゲノム中の特定されたTIRを、その配列包括度および読み取り数のばらつきに関して分析して、最も高い配列包括度および部分的に重複する読み取り数を有する1つ以上のTIRを参照TIR(RTIR)として指定する。次いで、これらのRTIRを、MCBからそれとは別に生成され配列決定された1つ以上のSCのゲノム中に特定された、RTIRに関して上述したのと同様の方法で生成された比較TIR(CTIR)と比較する。次いで、RSCゲノム中に存在するRTIRと1つ以上のSCゲノム中に存在するCTIRとの対応関係に基づいて、MCBのクローン性を決定する。
【0095】
一般に、複数のサブクローンを起源とするCTIRとランダムに選択された参照サブクローンを起源とするRTIRとの対応関係は、十分な数のSCおよびRTIRが試験されている限り、MCBが実際にモノクローナルであるということを示していると見なすことができる。これは、MCBがポリクローナルである場合、参照および比較サブクローンは実際に異なる、すなわち、ポリクローナルなMCB細胞を起源としたという事実から生じる、RTIRと1つ以上のCTIRとの間の違いが観察されると考えられるからである。他方、比較サブクローンの各々のCTIRがランダムな(参照)サブクローン中のRTIRに対応する(従って、別々の比較サブクローンに由来するCTIRも互いに同一である)場合、このことは、ランダムに選択された参照サブクローンおよび比較サブクローンが全て同じMCB細胞を起源とし、従って、上述の限界希釈が、予想されたように、96ウェルプレートの単一のウェル中で単一のMCBを産生することに実際に成功したということを示していると見なすことができる。この場合、RTIRと複数の比較サブクローン中のCTIRとの対応関係は、MCBがモノクローナルであり、従って、導入遺伝子によってコードされたタンパク質の産生におけるさらなる使用に適している証拠と見なすことができる。
【0096】
TIRの特定は、ペアエンド配列決定によって達成される。これは、所与の核酸分子を鋳型の両末端から配列決定し、これによって所与の核酸分子の読み取り配列データ対を生成することに関わる。ペアエンド配列決定は、鋳型の配列包括度、従って、マッピング精度を増すという利点を有し、初回は5’(読み取り1)末端から開始し、次いで3’末端(読み取り2)から開始する。以下により詳細に述べるように、ペアエンド配列決定は、RSCゲノム中および1つ以上のSCゲノム中のTIRを特定するのに有用である。
【0097】
本発明の一実施形態において、ランダムサブクローン(RSC)を、1つ以上のSCと比較してより高い配列包括度で配列決定する(「より高い」の意味については、上記を参照のこと)。より高い配列包括度は、例えば、RSCライブラリを、複数回またはフローセルの2つ以上のレーンで、配列決定することによって達成される。RSCライブラリにおける配列包括度がより高いほど、RSC中の導入遺伝子挿入領域(TIR)の分析に対する信頼性が高くなり、挿入領域(RTIR)の特定に対する信頼性も増す。以下でより詳細に明らかとなるように、RSCゲノム中の信用できるRTIRの特定は、これらのRTIRが1つ以上のサブクローンとRSCを比較するための参照として機能するため、本発明にとって重要である。RSC中のRTIRの指定が不正確であると、RSCゲノム中の不正確に指定されたRTIRと1つ以上のSCゲノム中のCTIRとの対応関係の評価により、RTIRが比較されることになる(CTIRとしての)サブクローンのクローン性に関して誤った結論がもたらされる可能性があるので、MCBクローン性に対しても不正確な評価がもたらされる可能性がある。特に、RSC中の所与のTIRが、RSCの配列決定ライブラリにおける低い配列包括度のために、RTIRとして不正確に割り当てられた場合、そのような推定RTIRは、それぞれのSCゲノム中の1つ以上のCTIRのいずれにも対応しない可能性がある。その結果、RSCおよびそれぞれのSCは、そしてそれゆえにMCBも、ポリクローナルであると不正確に結論付ける可能性がある。従って、RSC中の1つ以上のTIRを正確にかつ信頼性高くRTIRとして指定することは本発明にとって重要であり、RTIRの信頼性の高い特定は、RSCライブラリにおけるより高い配列包括度および少ない配列重複によって達成される。
【0098】
本発明のさらなる実施形態において、万能細胞バンク(MCB)は、導入遺伝子がゲノム中の複数の位置でランダムに挿入される宿主前駆細胞(HPC)を形質移入することによって生成される。HPCとして用いられる哺乳動物細胞系は、例えば、チャイニーズハムスター卵巣(CHO)細胞株であってもよい。CHO細胞は、いくつかの理由のために、組換えタンパク質ベースの治療剤の産生に選択される哺乳動物細胞株であることが多い。CHO細胞は懸濁培養に適応して成長することができ、これは医薬品産業における大規模培養にとって理想的である。CHO細胞は、その中ではわずかなヒトウイルスしか繁殖できないため、他の細胞よりも及ぼすリスクが少ない。これにより、産生過程中の感染性汚染およびウイルスの伝播のリスクが低減する(Boeger et al. (2005). Structural basis of eukaryotic gene expression. FEBS Lett; 579:899-903)。さらに、CHO細胞は、無血清の化学的に規定された培地中で成長することができ、これにより、別々のバッチの細胞培養間での再現性が確保されるとともに、保健医療当局によって求められるMCBの培養条件の厳密な記録も可能になる。CHO細胞は、ヒトにおいて適合性および生活性のある組換えタンパク質の翻訳後修飾も可能にする(Kim et al. (2012). CHO cells in biotechnology for production of recombinant proteins: Current state and further potential. Appl Microbiol Biotechnol; 93:917-30)。具体的には、CHO細胞によって産生された糖タンパク質のグリコシル化が、免疫原性のα−ガラクトースエピトープが存在しない場合、よりヒト様となる(Ghaderi et al. (2012). Production platforms for biotherapeutic glycoproteins. Occurrence, impact, and challenges of non-human sialylation. Biotechnol Genet Eng Rev; 28:147-75)。最後に、CHO細胞のゲノム不安定性を利用してより高収率の組換えタンパク質を最終的に生じる遺伝子増幅を可能にする十分に確立された遺伝子増幅系がいくつか存在する。CHO細胞をMCBとして使用することに関する上述の利点にもかかわらず、本明細書で上述したような他の種類の哺乳動物細胞も、本発明の方法における使用に適している。
【0099】
さらなる実施形態において、導入遺伝子のランダムまたはほぼランダムな挿入は、レトロウイルスベクター形質移入系を用いて行われる。レトロウイルスは、二本鎖(ds)DNA中間体を介して複製するRNAウイルスである。レトロウイルスベクターを適用して安定的に形質転換された細胞株を作製することができる。さらに、レトロウイルス遺伝子発現を、破壊されて導入遺伝子の発現を制御することができる強力なプロモーターによって推進し、これによって目的のタンパク質のより高い発現レベルを得る。最後に、レトロウイルス系は広い宿主範囲を有し、多くの異なる細胞種の形質移入を可能にする。本発明においてHPCの形質移入に有利に使用することができる1つのレトロウイルス系は、GPEx(登録商標)系である。この方法では、水胞性口炎ウイルス糖タンパク質(VSV−G)で偽型化されたモロニーマウス白血病ウイルス(MLV)に由来する複製欠損性レトロウイルスベクターを利用して、ゲノムの単一コピーを複数のゲノム位置で、分裂しているHPCに安定的に挿入する。
【0100】
本発明の別の実施形態において、導入遺伝子挿入領域(TIR)は、ペアエンド配列決定読み取りを4つのクラスに分類することによって特定される。クラス1は、導入遺伝子配列に、例えば排他的に、マッピングする読み取り1(すなわち、順方向)配列を示す。クラス2は、HPCゲノムに、例えば排他的に、マッピングする読み取り1(すなわち、順方向)配列を示す。クラス3は、導入遺伝子配列に、例えば排他的に、マッピングする読み取り2(すなわち、逆方向)配列を示し、クラス4は、HPCゲノムに、例えば排他的に、マッピングする読み取り2(すなわち、逆方向)配列を示す。前記読み取り1および読み取り2配列は、核酸ライブラリのペアエンド配列決定で生成した核酸集団内の所与の核酸分子の5’末端と3’末端に対応する、それぞれの順方向および逆方向読み取りを示す。両方の参照、すなわち、導入遺伝子配列およびHPCゲノムの両方にマッピングする配列読み取りは、別々の参照ゲノムに対して適切に整列させることができないので、分析過程から除去される。この理由は、2つの参照配列、例えば、導入遺伝子またはHPCゲノムの一方に対してそのような配列読み取りを整列させると、その配列読み取りが整列されなかった他方の参照配列、例えば、HPCゲノムまたは導入遺伝子のヌクレオチド配列を示す配列読み取りとのかなり長い不整合が、それぞれ、生じ得るためである。例えば、導入遺伝子およびHPCゲノムの両方にマッピングする配列読み取りは、HPCゲノムに対して整列された場合、導入遺伝子の配列に対応するかなり多くのマッピングされていない領域をなお含んでいることになる。その結果、導入遺伝子とHPCゲノムとの間の境界に及ぶそのような配列読み取りは、2つの参照配列の一方(すなわち、HPCゲノムまたは導入遺伝子配列)に対して不正確な塩基対を多く含んでいるため、整列プログラムによって低品質な配列として廃棄される。
【0101】
さらなる実施形態において、クラス1または2の読み取り1配列は、それぞれのクラス4または3の対応する読み取り2配列と組み合わされる。同類の読み取りデータ対の正確な割り当ては、配列読み取りに関して生成されたFastQファイルにコードされている配列識別子によって達成される。配列識別子は、フローセルのレーン番号、それぞれの配列がフローセルに結合されたレーン内のタイル番号、ならびにタイル内の核酸集団の「x」座標および「y」座標に関する情報を含む。さらに、配列識別子は、ペアエンド配列決定対(すなわち、読み取り1または読み取り2)の要素を示す索引番号を含む(図2)。
【0102】
さらなる実施形態において、読み取りデータ対のそれぞれの読み取り1および読み取り2配列を、導入遺伝子配列またはHPCゲノムに対して別々に整列させる。読み取り1が導入遺伝子にマッピングし、読み取り2が宿主前駆細胞(HPC)ゲノムにマッピングする配列対(すなわち、クラス1/4対)および読み取り1がHPCゲノムにマッピングし、読み取り2が導入遺伝子にマッピングする配列対(すなわち、クラス2/3対)を、さらなる分析のために保持する。読み取り1および読み取り2配列がともに導入遺伝子にマッピングする読み取りデータ対(例えば、クラス1/3対)またはHPCゲノムにマッピングする読み取りデータ対(例えば、クラス2/4対)は、導入遺伝子挿入領域(TIR)の特定に適していないので、配列読み取りデータ対のプールから廃棄される。この手法により、HPCゲノム中の導入遺伝子挿入部位の厳密な位置を知らないとしても、HPCゲノム中のTIRの特定が有利に可能になる。上で説明したように、NGSデータ分析に関する従来の方法では、結果として生じる不整合の部分が多いために、1つ以上の別々の参照ゲノムの重複する領域に対応する配列読み取りを整列させることができない。このため、従来のシングルエンド配列決定データ処理または従来のペアエンド配列決定データ処理は、既知の配列の所与のHPCゲノム内のTIRを新たに特定することに適していない。
【0103】
この目的を達成するため、本発明は、上述したペアエンド配列決定データ処理手法によって得られたクラス1/4およびクラス2/3読み取りデータ対に含まれる情報を利用する。クラス1およびクラス3配列に対応する配列読み取り、すなわち、導入遺伝子の既知の配列にマッピングする配列読み取りを用いて、HPCゲノムにマッピングする対応する相補読み取り、すなわち、クラス4およびクラス3の配列に対応する配列読み取りを、それぞれ、特定する。従って、HPCゲノムにマッピングする、クラス1/4またはクラス2/3読み取りデータ対に対応する配列は、その相補読み取りデータ対(クラス1またはクラス3のいずれか)が導入遺伝子配列にマッピングするため、所与のTIRの境界に隣接するHPCゲノム内の領域を示す。ペアエンド配列決定データを分析するこの手法により、当技術分野で一般に知られている方法を使用する場合に不可能なHPCゲノム内のTIRの特定が可能になる。本発明の方法の一部として、所与のHPCゲノム中の導入遺伝子挿入領域を特定すること、および所与のMCBに由来する異なる試料内のTIRを比較することによって、MCBのクローン性を決定することができる。
【0104】
従って、本発明のさらなる実施形態において、TIRは、クラス2およびクラス4に対応するペアエンド配列をHPCゲノムに対して整列させることによって特定される。読み取りデータの整列により、ペアエンド配列決定読み取りのクラス2およびクラス4配列によって示されるHPCゲノム内の1000ヌクレオチド(1kb)長の導入遺伝子挿入領域が特定される。TIRの予測をより信頼性の高いものにするため、導入遺伝子挿入の領域を2kb(1kb領域の中央から出発し、この1kb領域の両側を各500塩基対伸長)に拡張する。1kb挿入領域の中央は、最も高い配列包括度を有するHPCゲノム内のヌクレオチドとして規定される。導入遺伝子の2kb挿入領域を考慮することで、1つ以上のサブクローンの配列整列でわずかなばらつきがあったとしても、異なるサブクローン間のTIRの堅牢な比較が可能になるので、HPCゲノム中のTIRの予測がはるかに信頼性の高いものとなる。
【0105】
なお、ペアエンド配列決定対の読み取り1または読み取り2に対応する配列が通常200〜500bpにしか及ばないので、クラス2およびクラス4配列のHPCゲノムに対する整列は、HPCゲノム中の導入遺伝子挿入領域の厳密な位置を示さない。しかしながら、配列決定されることになる鋳型は、800bp以上の長さになる可能性がある。この差は、例えば300〜600bpの差に至り、この差の中に実際の導入遺伝子挿入部位が位置する可能性がある。従って、予測された導入遺伝子挿入領域を、1kb領域の両側の500bpの追加の領域だけ拡張することで、予測されたTIRの信用性が増す(図3)。
【0106】
本発明の一実施形態において、残りのサブクローンの配列包括度と比較してより高い配列包括度で配列決定されたランダムサブクローン(RSC)中の特定されたTIRを、その配列包括度および読み取り数のばらつきに関して分析し、1つ以上の参照導入遺伝子挿入領域(RTIR)を得る。RTIRは、HPCゲノムの所与の位置にマッピングする配列読み取りの総数に基づいて選択される。TIRの任意の所与のプール内で、最も高い配列包括度によって示されるTIRを潜在的RTIRとして指定する。高い配列包括度に加えて、RTIRの指定に関するさらなる要件は、所与のTIRを示す異なる読み取り配列間の重複度が低いことである、すなわち、所与のTIRを示す配列読み取り間の重複は同一ではなく部分的であるべきで、重複が部分的であるほどTIRの特定が予測可能ではなく堅牢なものとなる。低重複度を有する同じ領域中の配列のコピーは、読み取り数の重複が大きいことを特徴とする配列よりも、HPCゲノム内の信用できる挿入領域を示す可能性が高い。同一の、すなわち同一の範囲に及んでいる配列のそのような「積み重ね」は、例えばライブラリ調製およびPCR増幅中に導入された配列決定のアーチファクトに起因する可能性が高いが、信頼性の高い導入遺伝子挿入領域を示さない(図4)。
【0107】
上述のように、RSCゲノム中の信用できるRTIRの特定は、これらのRTIRが1つ以上のサブクローンとRSCを比較するための参照として機能するため、重要である。不正確に指定されたRTIRは、実際にはRSCと比較される1つ以上のサブクローン(SC)のゲノム中に存在していない可能性があるため、RSC中のRTIRの指定が不正確だと、MCBに対する不正確なクローン性評価に至る可能性がある。従って、不正確に指定されたRSCゲノム中のRTIRが1つ以上のSCゲノム中の対応するCTIRを持たない場合、RSCと1つ以上のSCとの対応関係に対する評価によって、1つ以上のSCは所与のRTIRに対応するCTIRを欠いているため、たとえRTIRが実際には真の導入遺伝子挿入領域ではなかったとしてもポリクローナルである、という誤った結論がもたらされる可能性がある。例えば、RSC中の所与のTIRが、RSCの配列決定ライブラリにおける低い配列包括度のために不正確にRTIRとして指定された場合、そのような推定RTIRはそれぞれのSCゲノム中の1つ以上のCTIRのいずれにも対応しない可能性がある。その結果、RSCとそれぞれのSCは違っていると(不正確に)決定され、従って、MCBはポリクローナルであると(これもまた不正確に)決定される可能性がある。
【0108】
さらなる実施形態において、最も高い配列包括度と最も少ない読み取り数重複とを有するn個(nは、好ましくは5〜50の整数で、例えば、5、10、15、20、25、30、35、40、45および50、またはこれらの間の任意の他の単一の整数値である)の第1RTIRを決定する。決定されることになるRTIRの数は、形質移入方法、TIRの総数、HPCゲノムサイズ、および配列決定データの品質などの様々なパラメータに依存する。従って、所与の万能細胞バンク(MCB)のクローン性を決定するのに必要とされるRTIRの数は、当業者によってその都度評価されなければならない。必要とされるRTIRの数は、一般に、1)挿入される導入遺伝子の数(例えば、挿入の数が少ないほど分析に必要なRSCの数は少なくなる、および2)各RSCの読み取り数の影響を受ける。実際、困難なDNAが存在する場合(これは、導入遺伝子がテロメア領域のような配列決定が困難なDNAの領域に挿入されていることを意味する)、各RSCを特徴付ける読み取り数は非常に少なくなり、これは最も堅牢なRSCが予想されたよりも少ない(例えば、20と予想されたが10だった)ことを意味する。一般に、より大きいnの値は、最終的なクローン性決定に対するより高い統計的優位性と相関する。例えば、SC中の20のCTIRがRSC中の対応するRTIRと同一である場合の方が、例えば、SC中の5のCTIRがRSC中の対応するRTIRと同一である場合よりも、MCBが2個の異なる細胞から生じた可能性は低い。
【0109】
本発明のさらなる実施形態において、ランダムサブクローン(RSC)中の得られた参照導入遺伝子挿入領域(RTIR)は、MCBからそれとは別に増殖され配列決定された1つ以上のサブクローン(SC)中の対応する比較導入遺伝子挿入領域(CTIR)との比較の基準として使用される。従って、1つ以上のSCゲノムの各々におけるCTIRのゲノム位置は、RSCゲノム中のRTIRの対応するゲノム位置と比較される。
【0110】
本発明のさらなる実施形態において、RSCゲノム中のRTIRと1つ以上のSCゲノム中の対応するCTIRとの比較は、存在/不在マトリックスを生成することによって実施することができる。このマトリックスにおいて、各挿入領域は、RSCゲノム中の対応するRTIRに対する、所与のSCゲノム中の対応するCTIRの存在または不在を示す二色コードによって示すことができる。RTIRはマトリックスの第1の次元によって示され、RSCおよび1つ以上のSCはマトリックスの第2の、例えば直交する次元によって示される。上で説明したように、RSCゲノム中のそれぞれのRTIRに対する所与のSCゲノム中のそれぞれのCTIRの存在または不在は、マトリックス中に好ましくは二色コードとして示され、第1の色、例えば黒はRSCゲノム中のそれぞれのRTIRのそれぞれの存在または不在およびSCゲノムの各々におけるそれぞれのCTIRのそれぞれの存在または不在を示し、第2の色、例えば白はRSCゲノム中のそれぞれのRTIRのそれぞれの不在または存在およびSCゲノムの各々におけるそれぞれのCTIRのそれぞれの不在または存在を示す。この手法により、RSCゲノム中のRTIRとSCゲノムの各々におけるそれぞれのCTIRとの容易な光学的比較が促進される(図1(c))。例えば、さらなる実施形態において、黒をCTIRと対応するRTIRの対応関係を示すのに選択し、白を非対応関係を示すのに選択すると、全マトリックス位置が黒の存在/不在マトリックスはSCの各々における全CTIRとRSC中の全RTIRとの完璧な対応関係を示し、これはMCBの適度なクローン性を示す。
【0111】
本発明のさらなる実施形態によれば、ランダムサブクローン(RSC)と1つ以上のサブクローン(SC)の各々との関係は、距離行列のさらなる計算によって評価することができる。クローン性を確認するため、予想された距離は0に等しい。さらなる計算、言い換えれば、距離の定量化は結果の解釈に役立つ可能性がある。「非クローン」試料は「クローン」試料と比較して非常に低い類似性(または非常に大きい距離)を示すと予想される。距離行列は、例えば、式(I)に基づいて計算することができる。
【数1】
【0112】
式(I)は、2つの試料の類似性を比較する一般に知られている統計的手法であるDice係数を示す。距離関数Dd(RSC,SC)は、RSCゲノムとm個のSCゲノムの1つとの間のDice係数に基づいて計算される。式(I)の変数N(total)は、RSCゲノムおよびn個のSCゲノムの1つの両方に存在する導入遺伝子挿入領域の総数を示す。変数N(CTIR)は、m個のSCゲノムの1つに存在する導入遺伝子挿入領域の総数を示し、N(RTIR)は、上述の実施形態の1つにおいて決定されたRSCゲノム中の参照導入遺伝子挿入領域の総数を示す。距離関数Dd(RSC,SC)の計算結果により、2つの個々の試料間の遺伝的距離、すなわち、遺伝的類似性または非類似性に関する情報が0〜1の尺度で得られ、ここで、2つの試料間の遺伝的同一性、従ってクローン同一性は0の距離で示され、遺伝的非類似性、従ってクローン非類似性は0から増えていき、計算されたDice係数が1で完全な非類似性、すなわち、遺伝的関係が全くない状態に達する。
【0113】
本発明のさらなる実施形態において、式(I)の変数N(total)、N(CTIR)、およびN(RTIR)は、導入遺伝子挿入領域の存在/不在マトリックスによって得られたデータに基づいて計算される。視認が容易な分析、すなわち、導入遺伝子挿入領域を存在/不在マトリックス中に示すことと、Dice係数に基づく類似性分析との組合せにより、異なるサブクローン間の対応関係の評価に関する、信頼性が高く簡単な、数値によるさらなる手法が得られる。上述の存在/不在マトリックスに加えて、ランダムサブクローン(RSC)と1つ以上のサブクローン(SC)の各々との間の類似性を、距離行列によってさらに分析することができる。距離行列は、RSCと1つ以上のSCの各々との間の類似性に基づいて距離関数Ddを計算することによって得られたデータを、「y」軸がRSCおよび1つ以上のサブクローンの各々を示し「x」軸が特定の試料のRSCに対する距離を示す二次元座標系に移行することで生成される。この二次元グラフは、RSC自体と1つ以上のSCの各々との距離を例示する。2つ以上の試料が遺伝的に同一である場合、すなわち、それらの試料が同じ導入遺伝子挿入領域を共有する場合、これら2つ以上の試料間の距離は「0」である。また、試料が遺伝的に同一でない場合、すなわち、試料が異なる導入遺伝子挿入領域を有している場合、これらの試料間の距離は「0」より大きい、好ましくは「1」である。1つ以上のSCのRSCに対する距離は、距離行列中に点として示される。互いに重なる点はいわゆる集団を形成する。集団は、RSCゲノムに対して同じ距離を有するそれぞれのSCゲノムの群である。最後に、1つ以上のそれぞれのSCゲノムは、式(I)に従って計算された互いの距離が「0」である場合、RSCゲノムと同じ集団に属していると見なされる(図1(c)、(129))。
【0114】
本発明のさらなる実施形態によれば、クローン性が決定されることになる万能細胞バンク(MCB)は、ランダムサブクローン(RSC)および1つ以上のSC、好ましくは全SCが同じ集団に分類される(すなわち、Dice係数=0)場合、距離行列に基づいてモノクローナルと見なされる。この場合、RSCゲノムおよび評価された1つ以上のSCゲノム、好ましくは全SCゲノムは同じ導入遺伝子挿入領域を共有し、これは、RSCおよび1つ以上のSCが単一のMCB細胞を起源とする遺伝的に同一の細胞のプール(MCB)から増殖された可能性が非常に高いことを示している。この場合、MCBはモノクローナルと見なすことができる。これは、MCBが規制当局のふさわしい基準に従った、挿入された導入遺伝子によってコードされた治療用タンパク質のさらなる産生に適していることを意味する。
【0115】
対照的に、評価された1つ以上のSCがその1つ以上のCTIRでRSC中の対応するRTIRから逸脱しており、この逸脱が信用できる(すなわち、配列決定またはPCRによるアーチファクトと関係がない)と見なされる場合、RSCおよびSCが由来する細胞のプール(MCB)は単一のMCB細胞ではなく複数のMCB細胞を起源としていたと問題なく想定することができる。次いで、このことを、例えば96ウェルプレート中のウェルあたり1個のMCB細胞を統計的に生じる限界希釈にもかかわらず、当該ウェルは実際に、(異なるランダム導入遺伝子挿入から生じる)複数の、遺伝的に不均質な細胞を含んでいたという証拠、または元々の単一細胞がDNA複製を経験したため細胞重複により特定の挿入部位が喪失し、MCBの不均質性が生じたという証拠と見なすことができる。この場合、当該MCBは、モノクローナルではなくポリクローナルであった、またはゲノム不安定性のためにポリクローナルになったと結論付けることができる。これは、MCBが規制当局のふさわしい基準に従った、挿入された導入遺伝子によってコードされた治療用タンパク質のさらなる産生に適しておらず、従って、新規のモノクローナルなMCBを、挿入された導入遺伝子から目的のタンパク質を産生するために特定しなければならないことを意味する。
【0116】
上述の全ての方法および実施形態は単一細胞にも適用される。そのような場合、単一細胞配列決定プロトコルを実施する。単一細胞配列決定とMCBまたはサブクローンの配列決定との違いは、DNAを抽出する方法のみに関する(実施例9を参照のこと)。説明を簡潔にするため、方法および実施形態を全て繰り返すことはしない。単に、一部の表現を調整すればよいだけである。単一細胞の導入遺伝子挿入部位を特定する方法に適用される場合、用語RSCおよびHCPはRSgC(参照単一細胞)に変更され、用語SCおよびMCBはSgC(単一細胞)に変更される。
【0117】
要するに、本発明は、既知の配列の導入遺伝子の、既知の配列の参照単一細胞(RSgC)ゲノムへの、予測可能または予測不能な挿入から生じる単一細胞の導入遺伝子挿入部位を特定する方法であって、
A) 単離された単一細胞(SgC)のゲノム中の1つ以上の導入遺伝子挿入領域(TIR)を特定する工程であって、この特定は、前記SgCゲノムのペアエンド配列決定により1つ以上のSgCゲノム配列を得ること、および前記1つ以上のSgCゲノム配列を、前記既知のRSgcゲノム配列および前記既知の導入遺伝子配列に対して整列させることにより達成され、これによって1つ以上の導入遺伝子挿入領域(TIR)を産生する、工程、
B) 最も高い配列包括度を有する、工程(A)で特定された1つ以上のTIRを決定する工程であって、前記配列包括度は、所与のTIRを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、最も高い配列包括度を有する前記1つ以上のTIRは参照TIR(RTIR)として指定される、工程、
を含む方法も開示する。
【0118】
好ましくは、ペアエンド配列決定は、所与の核酸分子をその両末端から配列決定することによって、配列決定されることになるゲノムの断片を示す所与の核酸分子の読み取りデータ対を生成することに関わる。また、好ましくは、SgCは、前記導入遺伝子を複数の位置で前記RSgcゲノムへ挿入することから生じ、前記ランダムな挿入は、好ましくは、レトロウイルスベクターを用いて行われる。
【0119】
前記方法において、TIRの決定は、ペアエンドライブラリに由来するペアエンド読み取り1配列およびペアエンド読み取り2配列を4つのクラスに分類することを含み、
クラス1は、前記導入遺伝子にマッピングする読み取り1配列を含み、
クラス2は、前記RSgcゲノムにマッピングする読み取り1配列を含み、
クラス3は、前記導入遺伝子にマッピングする読み取り2配列を含み、
クラス4は、前記RSgcゲノムにマッピングする読み取り2配列を含み、
前記読み取り1および前記読み取り2は、前記RSgCまたは前記1つ以上のSgCの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の5’末端および3’末端に対応する、それぞれの順方向および逆方向読み取りを示す。好ましくは、読み取り1配列は、フローセル配列識別子を用いて、対応する読み取り2配列と組み合わせられ、前記配列識別子は、フローセルのレーン、フローセル内のタイル番号、タイル内の核酸集団の「x」座標、およびタイル内の核酸集団の「y」座標に関する情報を含み、これによって読み取り1および読み取り2配列に対応する各配列対をフローセル内の固有の位置に割り当てる。また、好ましくは、それぞれの読み取りデータ対のそれぞれの読み取り1および読み取り2配列は、導入遺伝子およびRSgCゲノムの既知の配列に対して別々に整列される。一層好ましくは、クラス1および4配列を含む読み取りデータ対ならびにクラス2およびクラス3配列を含む読み取りデータ対のみが、さらなる分析のために選択される。より一層好ましくは、TIRは、クラス2およびクラス4に対応するペアエンド読み取り配列をRSgCゲノムに対して整列させ、これによって前記TIRの各々につき2kbの領域をRSgCゲノム中に規定することによって特定される。要約すると、本発明者らは、MCBのクローン性を確認する新規の方法を提供し、これにより、MCBを医薬品としての応用が意図されたタンパク質の製造における産生細胞株として承認するために保健医療当局が求める、従来の時間および労力集約的なMCBの試験が回避される。本発明の方法は、MCBの堅牢なクローン性評価を可能にする厳密な再現性から利益を受ける。本発明者らは、この有益な効果を、ペアエンド配列決定とそれに続く、得られた配列決定データの生物情報学的データ処理とを組み合わせた新規の手法によって達成する。特に、ペアエンド配列決定データを処理する新規の手法により、従来のシングル読み取り配列決定または従来のペアエンド配列決定データの処理では不可能な、HPCゲノムの既知の配列中の導入遺伝子挿入部位の特定が新たに可能になる。従って、本発明は、医薬品としての応用が意図されたタンパク質生成物の産生において使用するMCBの品質を堅牢に評価するための強力な手段を提供する。
【0120】
本発明は、MCBのクローン性を評価するためのものと同じ手法に基づいて、単一細胞の導入遺伝子挿入部位を特定する新規の方法も提供する。
【0121】
以下の実施例は、行われた実験および達成された結果を含め、例示だけの目的で提供されており、本発明を限定するものと解釈されない。
【実施例】
【0122】
〔実施例1〕
クローン選択および配列決定
【0123】
軽鎖と重鎖を保有する2つの導入遺伝子を、宿主前駆細胞(HPC)として機能するチャイニーズハムスター卵巣(CHO)細胞株のゲノムに形質移入することによって、クローン性を評価されることになるMCBを生成した。形質移入をGPEx(登録商標)技術を用いてGala(登録商標)(catalent)によって実施し、単回限界希釈を実施してモノクローナルな細胞株を得た(“GPEx(登録商標): a flexible method for the rapid generation of stable, high expressing, antibody producing mammalian cell lines”, Gregory T. Beck, Book: Current Trends in Monoclonal Antibody Development and Manufacturing, Publisher: Springer New York, 2010を参照のこと)。この細胞株のクローン性を調べるため、25のサブクローン(SC)をMCBの希釈によって生成した。限界希釈を以下のようにして実施した。MCBを室温で解凍し、次いで、T75フラスコ中、10%FBSを含む20mLのDMEMで24時間、37℃、5%COでインキュベートした。翌日、培地を除去し、トリプシンを用いて細胞を分離し、細胞計数のために新鮮な培地に再懸濁した。次いで、限界希釈を実施して、5細胞/mlの濃度を得た。次いで、希釈物を、96ウェルプレートの各ウェルに100μL播種して、理論上ウェル当たり0.5個の細胞を得た。ここで、一部のウェルは細胞を含んでいない可能性があるが、細胞/ウェル比が低いことを考慮すれば、仮に1つのウェルが1個の細胞を含んでいたとしても2個以上の細胞を含んではいない可能性が高いことが推測された。次いで、プレートを37℃、5%COで24時間インキュベートした。翌日、96ウェルプレートを顕微鏡下で分析し、1個の細胞を含んでいるウェルに印をつけた。プレートをさらにインキュベートし、以前に印をつけた集密状態の細胞を得た。集密状態に達した細胞をさらなる分析のためにサブクローンとして選択した。
【0124】
それとは別に、分岐(divergent)MCB(MCBΔ)を使用した。分岐MCBΔは、宿主前駆細胞に導入遺伝子を独立に形質移入することから生じた、陰性対照としての使用が意図されたものであり、MCBと遺伝的に異なることが初めから知られている細胞を提供する。従って、MCBΔは、サブクローンまたはクローン性が決定されることになるMCBと共通の導入遺伝子挿入領域を持たないと考えられる。MCBおよび分岐MCBΔは、特許請求される方法を評価するための、それぞれの陽性対照および陰性対照として機能する。実際、MCBクローン性の決定は、対照試料がない場合でも、MCBに由来するサブクローンのクローン性評価に基づいて評価することができる。
〔実施例2〕
DNA抽出
【0125】
25のサブクローン、MCBおよび分岐MCBΔからのDNA抽出を、QIAamp Blood DNA Mini kit(QIAGEN)を製造者の内部作業指示書に従って使用して、親和性カラムで実施した。簡潔に述べると、細胞ペレットを試料濃度に従ったリン酸緩衝生理食塩水(PBS)中に再懸濁し、異なる分割量に分けた。200μLの溶解緩衝液と20μLのプロテイナーゼKを各試料に添加した。試料をボルテックスすることによりよく混合し、56℃で10分間インキュベートした。次いで、200μLのエタノール(96〜100%)を添加し、混合物を2mL採取管中に置かれたDNeasy Mini spin column(QIAGEN)中に移した。試料を洗浄し、1分間、13,000rpmで遠心分離して、全ての残留エタノールを除去した。150μLの水をDNeasy membrane(QIAGEN)に直接添加して溶出を実施した。同じクローンの溶出液を組み合わせた。
【0126】
各試料を、RNase酵素(Roche)とともに37℃で30分間インキュベートし、全ての残留RNAを除去した。インキュベート後、試料をNanoDrop(登録商標)ND-1000分光光度計および評価された吸光度比260/280により定量化し、DNAの品質を評価した。
〔実施例3〕
Illuminaライブラリ調製および配列決定
【0127】
25のサブクローン、MCBおよびMCBΔのライブラリ調製を、TruSeq DNA kit(Illumina)を製造者の指示書に従って使用して、実施した。簡潔に述べると、2.6μgの各サブクローンDNAをCovaris S220機器により断片化し、3’または5’が突出した300bpのdsDNA断片を得た。突出を酵素により平滑末端に変換した。単一のアデニン(A)ヌクレオチドを平滑断片の3’末端に付加し、アダプター連結のための断片を調製した。複数の索引アダプターをDNA断片の末端に連結することで、フローセルでのハイブリダイズが可能になる。アダプター分子を両端に有するそれらのDNA断片の選択的な富化を実施し、ライブラリ収率を増した。
【0128】
DNAライブラリの品質をAgilent 2100バイオアナライザによって分析してDNAライブラリ中の断片の平均サイズを検証した。ライブラリを、Fluorometer Qubit(登録商標)2.0によりさらに定量化した。
【0129】
DNAライブラリ集団をIllumina cBot機器(Illumina, TruSeq PE Cluster Kit v3 cBot HS kit)を用いて製造者の指示に従って生成した。配列決定を、ペアエンド方式(2x100サイクル)で、Illumina HiSeq 1000機器を用いて実施した。配列決定を、TruSeq SBS Kit v3-HS-200‐cycles kit(Illumina(登録商標))を用いて実施した。試料をフローセルv3に装填した。25のサブクローン、MCBおよび分岐MCBΔをそれぞれ別々のレーンに装填した。サブクローン番号25(SC25)を3つのレーンに装填し、より高い配列包括度を得た。SC25を、最も高い部分的に重複する配列包括度で特定されたTIRを参照TIR(RTIR)として特定するランダムサブクローン(RSC)として使用する狙いであった。このため、SC25の配列包括度を最大化して、RTIRの信頼性の高い特定を確保することが望まれた。繰り返しの装填とそれに続くSC25に由来するDNA断片の配列決定は、この目的に資するものであった。
【0130】
全試料をIllumina HiSeq1000により配列決定した。各試料につき、少なくとも1億7000万の2×100bp読み取りデータを得た。分析された各試料のPHRED品質スコアは70%を超えていた。結果を表1に要約する。配列決定された各試料の平均包括度は、少なくとも16×(CHOゲノムの総サイズを2.4Gbと見なした)であった。SC25のライブラリは3つのレーンで配列決定されたため、SC25の包括度は約50Xであったが、残りのライブラリは1つのレーンで配列決定された(表1を参照のこと)。
【0131】
次いで、生データをCASAVA V. 1.8.2(Illumina)でさらに処理し、塩基決定ファイル(.bcl)をFastQファイルに変換した。FastQファイルは、読み取りデータのヌクレオチド配列と各塩基対の相対的品質スコアとを含むテキストファイルである。次いで、得られたFastQファイルを、CHO参照ゲノムにマッピングする全読み取りデータを含む各サンプルのバイナリ(.bam)ファイル(参照ゲノムに対する座標を含む)を生成する生物情報学的過程によって処理した。
〔実施例4〕
生物情報学的分析
【0132】
MCB、25のサブクローン、および分岐MCBΔの分析のため、異なる生物情報学的手法を適用して、CHOゲノムにランダムに挿入された導入遺伝子の境界を検出した。境界検出に関し、図1Bに記載した概念を使用した。選択後、境界を統計的手段(式Iに記載した統計的手法を参照のこと)によって分析した。
【0133】
実施したペアエンド配列決定を用いて、別々の読み取り1および読み取り2配列を検討した。生物情報学的分析を以下のように実施した。読み取り1および読み取り2を、Burrows-Wheeler Aligner(BWA)V. 0.6.1-r104を使用して、(宿主前駆細胞(HPC)ゲノムに対応する)既知の配列のCHOゲノムの導入遺伝子配列に別々にマッピングした(Li et al. (2009). Fast and accurate short read alignment with Burrows Wheeler transform. Bioinformatics; 25(14): 1754-60)。マッピング後、4種類のファイルを得た:導入遺伝子にマッピングされた読み取り1(クラス1配列)、CHOゲノムにマッピングされた読み取り1(クラス2配列)、導入遺伝子にマッピングされた読み取り2(クラス3配列)、およびCHOゲノムにマッピングされた読み取り2(クラス4配列)(図1(b))。
【0134】
導入遺伝子にマッピングする読み取り1および読み取り2(それぞれ、クラス1および3)に関し、読み取りデータのリストを作成した。次いで、対応する「対になった」読み取りデータを、Illumina配列識別子によって、CHOゲノムにマッピングする読み取り1および読み取り2配列(それぞれ、クラス2および4)中に探した(図2)。これらの読み取りデータを、Burrows-Wheeler Aligner(BWA)V. 0.6.1-r104によってCHO参照ゲノムにマッピングした。
【0135】
CHOに対して整列された読み取りデータは、導入遺伝子にマッピングする相補読み取りデータ対を有するので、CHOゲノムに挿入された導入遺伝子の境界に隣接する領域を示す。最後に、挿入領域を、CHO参照ゲノムの異なる足場の位置に基づいて、Geneious(登録商標)software V. 6.0(このソフトウェアにより、最も高い包括度のTIRの視認が容易な特定が可能になるので、結果が容易に視覚化される)によって特定した。
【0136】
全試料中の導入遺伝子挿入領域の特定後、統計的分析手法を実施して1つ以上の参照導入遺伝子挿入領域(RTIR)を決定した。この選択を2つの特性値に基づいて実施した:(1)各挿入領域に関して示された読み取り数、および(2)挿入領域の範囲におけるこれらの読み取りの重複度(図4)。これら2つのパラメータの組合せは、最も高い包括度を有する挿入部位を特定すると同時にPCRおよび/またはライブラリ調製から生じる偏りに起因する異常な読み取りの積み重ねを避けるのに重要であった。
【0137】
上述のように、RTIRの選択をSC25に関して実施し、これはSC25をより高い配列包括度で配列決定するためであった(フローセルの3つのレーン、上で説明したものの繰り返し)。この試料の整列ファイルをGeneious(登録商標)softwareで開いて、上に述べた要件を満たす20の第1TIRを決定し、これらの要件を満たしていたため、RTIRとして定めた。従って、これらの20のRTIRは、最も信頼性の高い導入遺伝子挿入領域(TIR)を示すので、続く統計的分析における比較の基準として使用した(RTIRの位置は示していない)。
〔実施例5〕
挿入領域の比較
【0138】
存在/不在マトリックスを作成して全試料中の選択されたRTIRの比較を提供した。存在/不在マトリックスを電気泳動ゲルに従って作り、「帯」により(RSCに対応する)SC25中のRTIRと所与のSC中の対応するCTIRとの共通部分を示した。所与のRTIRの、所与のSC中のCTIRとしての存在/不在を、所与のCTIRの存在(1、黒)または不在(0、白)を示す二値コード様式によって示した。次いで、全試料を、特定された全挿入領域に関して互いに比較した(図1(c)および5)。
【0139】
理論的には、この分析の根拠は、導入遺伝子を複数の位置でHPCゲノムにランダムに挿入するGPEx(登録商標)系の機構に関する。実際、クローン性が決定されることになるMCBがモノクローナルである場合、HPCゲノムにランダムに挿入された導入遺伝子挿入領域(TIR)は、25のサブクローンおよびMCB間で同一であるが、分岐MCBΔは、サブクローンおよびMCBと共通のいかなる挿入部位も持たないはずである。
【0140】
このため、存在/不在マトリックスを設計して、サブクローンの各々における各参照導入遺伝子挿入領域(RTIR)の存在/不在に関する情報を供する(図5)。結果は、ほとんど全てのサブクローンおよびMCBがランダムサブクローン(RSC)ゲノム、すなわち、SC25中のRTIRに対して同じ導入遺伝子挿入領域を共有することを示す。対照的に、分岐MCBΔのTIRは、20のRTIRがいずれも存在しないという異なる結果を示した。
【0141】
さらに、存在/不在マトリックスは、2つの試料に関して、1つの導入遺伝子挿入領域が、見かけ上、ないことを示した。特に、SC中のRTIR18およびSC24中のRTIRが観察されなかった(図5)。これら2つの試料に対して、PCRおよび従来のサンガー法によりさらなる調査を実行した。このために、2組の特異的プライマーを設計して、それぞれのSCおよびSC24中のRTIRおよびRTIR18を増幅した。SCおよびSC24に対して、RTIRおよびRTIR18に対する特異的な組のプライマーを使用してPCR反応を実施した。さらに、SCおよび(いずれのTIRも含まない)CHO宿主細胞DNAをそれぞれの陽性対照および陰性対照として使用した。
【0142】
RTIRおよびRTIR18に関するPCR生成物を、SCとSC24の両試料中およびSCの陽性対照中で観察した。陰性対照試料中ではPCR生成物は観察されなかった。それぞれのRTIRのPCR生成物を精製して、精製した鋳型をABI Prism 3130配列決定プラットフォームで配列決定した。サンガー法の結果は、RTIRおよびRTIR18の両方に関してSCおよびSC24は陽性であったことを示し、これは、これら2つの試料中にRTIRおよびRTIR18が存在したことも示す(データは示していない)。
〔実施例6〕
類似性分析
【0143】
試料間の類似性を、集団分析手法を使用することで数値により表した。具体的には、MCB、25のサブクローンの各々、および分岐MCBΔの間の距離を、Dice係数を使用して次式に基づいて計算した。
【数2】
【0144】
式中、Dd(A,B)は2つの試料AとBの間の距離関数を示し、N(total)は試料AとBの両方に存在する挿入領域の数であり、N(A)は試料Aに存在する挿入領域の総数であり、N(B)は試料Bに存在する挿入領域の総数であり、Dd(A,B)は距離を0〜1の尺度で示し、0の距離は前記RSCとそれぞれのSCの間のクローン同一性を示し、1はクローン相違性を示す。
【0145】
全試料間の距離をグラフにより示すため、多次元尺度(MDS)法を使用した(図6)(Kruskal and Wish (1978), Multidimensional Scaling, Sage University Paper series on Quantitative Application in the Social Sciences, 07-011, Beverly Hills and London, Sage Publications; Michael R. Anderberg (1973) Cluster analysis for applications, Academic Press, New York)。
【0146】
類似性分析の結果は、2つの別個な下位群が得られたことを示す。第1の下位群は、25のサブクローンおよびMCBに対応し、第2の下位群は分岐MCBΔに対応する。これら2つの下位群間の距離は、1または100%であり、これは25の全サブクローンおよびMCBが同じ下位群(集団)に対応し、分岐MCBが異なる集団(サブクローン)に対応することを示している(図6)。
〔実施例7〕
確率分析
【0147】
異なる集合に由来する、すなわち、異なる導入遺伝子挿入領域を有する2つの試料が同じ20のRTIRを共有する可能性を評価するため、次式に基づいて実験的計算を実施した。
【数3】
式中、Mはあり得る導入遺伝子挿入領域の数であり、Sは形質移入された導入遺伝子の読み取り数である。
【0148】
CHOゲノムは2.4Gb長である。NGS分析と生物情報学的データ処理との組合せを適用した技術に基づいて、CHOゲノム内の2kbの分解物に対して導入遺伝子挿入領域を決定することができる。この技術はCHOゲノム(2.4Gb/2kb)内の120万のあり得る導入遺伝子挿入領域を特定することができる可能性があるという想定、および700の導入遺伝子のコピーのCHO前駆細胞への想定形質移入率に基づくと、p(1)0〜10−30という確率が得られる。
【0149】
この結果は、異なるMCB集合に由来する2つのサブクローンが共通の導入遺伝子挿入領域を共有する尤度が0である傾向があるということを示している。実際、MCBのクローン性を決定するという課題は二値決定であることが多く、これは、サブクローンが、互いに100%同一である、すなわち、全挿入領域を共通に有しているか、0%またはごくわずかな(おそらくは偶然の)導入遺伝子挿入領域しか共通に有していないかのいずれかであることを意味する。一般に、MCB単クローン性の決定は、典型的には、RSC中のRTIRと評価されるサブクローンの各々における全CTIRとが100%遺伝的に一致していることを必要とする。所与のRTIRとそれに対応する所与のサブクローン中のCTIRとの間の任意の個々の違いは、代替的な配列決定法、例えば、サンガー法を用いてより精密に評価され得る。
【0150】
確率は、異なる生物学的側面を考慮して計算された:1)理論上、レトロベクターは導入遺伝子をDNAにランダムに挿入する(しかしながら、いくつかの文献は、レトロウイルス(およびレトロベクター)が挿入を好む標的ゲノムの特定の範囲が一部存在することを実証している)、および2)GOIの挿入は、形質移入に使用されるレトロベクターの種類にも関係する(Bushman et al. Genome‐wide analysis of retroviral DNA integration. Nat Rev Microbiol 2005;3(11):848‐858; Felice et al. Transcription factor binding sites are genetic determinants of retroviral integration in the human genome. PLoS ONE 2009;4(2):e4571.)。例えば、最近、研究により、MLV由来ベクターは、転写開始部位、エンハンサー、またはプロモーターなどの細胞制御に関わる遺伝子内またはその周辺に優先的に組み込むことが示された。さらに、標的DNAの利用可能性は、導入遺伝子の組み込みに重要な役割を果たしているようである(例えば、セントロメアヘテロクロマチン領域は組み込みにあまり好ましくないようである)(LaFavey et al., MLV integration site selection is driven by strong enhancers and active promoters Nucleic Acids Research, 2014, Vol. 42, No. 7 4257-4269.。これらの理由により、レトロウイルスベクターによる挿入は完全にはランダムではないと規定し、適切な確率手法を適用した。
〔実施例8〕
方法の実現性の確認
【0151】
実施例1から7に記載した方法を、異なるモノクローナル抗体(mAb2)を発現する第2の種類のMCBに適用した。この第2のMCBは、mAb2の軽鎖と重鎖を発現する導入遺伝子をHPCとして機能するCHO細胞株のゲノムへ形質移入することで生成した。本発明の方法に従ってmAb2を発現するこのMCBのクローン性を評価し(データ示さず)、いかなる導入遺伝子であっても、場合によってはいかなる細胞株であっても、本発明による方法が再現可能であるということを確認することができた。
〔実施例9〕
単一細胞分析
【0152】
導入遺伝子挿入部位の特定に関して記載された方法は、単一細胞配列決定プロトコルを実施する場合、単一細胞に適用することができる。単一細胞配列決定とMCBまたはサブクローンの配列決定との相違は、DNAを抽出する方法のみに関する。実際、単一細胞配列決定の場合、細胞に対して全ゲノム増幅を実施し、十分な量のDNAを得る。一方、MCBおよびサブクローンのDNA抽出は、実施例2に記載した従来のDNA抽出法で実施され得る。
【表1】
図1(a)】
図1(b)】
図1(c)】
図2
図3
図4
図5
図6