【文献】
Tobias Sjoblom et al.,The Consensus Coding Sequences of Human Breast and Colorectal Cancers,SCIENCE,2006年10月13日,Vol.314,p.268-274
【文献】
Heng Li et al,Mapping short DNA sequencing reads and calling variants using mapping quality scores,Genome Research,2008年 8月19日,Vol.18 No.11,pp.1851-1858
(58)【調査した分野】(Int.Cl.,DB名)
前記第一のデジタル配列のデータセット及び前記第二のデジタル配列のデータセットの少なくとも1つは少なくとも10億個の読取物を含む、請求項1に記載のシステム。
前記読み取り情報は、前記読取物がマッピングされる鎖、前記読取物内のアレルの位置、及びアレルの平均的な品質のうち少なくとも1つを含む、請求項1に記載のシステム。
【発明の概要】
【0008】
(006) 本発明は、個体のリスク、特に、例えば、限定されないが、個体の疾患、障害、又は病気に対する素因のリスク;個体の職場、住居での、学校での、又は同様の場所でのリスク;個体の毒素、発癌物質、突然変異誘発物質、及び同様の物質への曝露のリスク、並びに個体の食習慣のリスクを決定するために用いることができるデータベースを作成するための方法を提供する。更に、本発明は、特定の個体、動物、植物、又は微生物を特定するために用いることができる方法を提供する。
【0009】
(007) 一実施形態では、本発明は、示差遺伝子配列オブジェクトを得る方法であって:(a)第一の組織を表す第一の遺伝子配列文字列と(b)第二の組織を表す第二の遺伝子配列文字列であって、複数の対応するサブ文字列を有する、第一の配列文字列と第二の配列文字列を保存する遺伝子データベースに対するアクセスを提供すること;該遺伝子データベースと連結された配列解析エンジンに対するアクセスを提供すること;該配列解析エンジンを用いて、複数の対応するサブ文字列のうちの少なくとも1つの既知の位置を用いて、該第一の配列文字列と該第二の配列文字列を徐々に同期することにより、局所アラインメントを生成させること;該配列解析エンジンによって、該局所アラインメントを用いて、該局所アラインメント内で該第一の配列文字列と該第二の配列文字列の間の局所的示差文字列を生成させること;及び該配列解析エンジンによって、該局所的示差文字列を用いて、示差配列データベース内の示差遺伝子配列オブジェクトをアップデートすることを含む、方法を提供する。好ましい実施形態では、該第一の遺伝子配列文字列と該第二の遺伝子配列文字列は、それぞれ、該第一の組織と該第二の組織のゲノム、トランスクリプトーム、又はプロテオームの少なくとも10%を表す。代わりの好ましい実施形態では、該第一の遺伝子配列文字列と該第二の遺伝子配列文字列は、それぞれ、該第一の組織と該第二の組織のゲノム、トランスクリプトーム、又はプロテオームの少なくとも50%を表す。別の代わりの好ましい実施形態では、該第一の遺伝子配列文字列と該第二の遺伝子配列文字列は、それぞれ、該第一の組織と該第二の組織のゲノム、トランスクリプトーム、又はプロテオームの実質的に全体を表す。別の好ましい実施形態では、該対応するサブ文字列はホモ接合アレルを含む。代わりの好ましい実施形態では、該対応するサブ文字列はヘテロ接合アレルを含む。別のより好ましい実施形態では、該遺伝子配列オブジェクトはファイルを含む。更により好ましい実施形態では、該ファイルは標準フォーマットに適合する。最も好ましい実施形態では、該ファイルはSAM/BAMフォーマットに適合する。
【0010】
(008) 好ましい実施形態では、該同期する工程は、該複数のサブ文字列のうちの少なくとも1つを、該第一の文字列内の事前既知の位置に基づいて整列させることを含む。代わりの好ましい実施形態では、該同期する工程は、該複数のサブ文字列のうちの少なくとも1つを、該複数のサブ文字列のうちの少なくとも1つの既知の位置を含む既知の参照文字列に基づいて整列させることを含む。より好ましい実施形態では、該既知の参照文字列はコンセンサス配列である。
【0011】
(009) 別の好ましい実施形態では、該同期する工程は、該複数のサブ文字列のうちの少なくとも1つの長さに満たない長さを有するウィンドウ内で該複数のサブ文字列のうちの少なくとも1つを整列させることを含む。
【0012】
(0010) 別の好ましい実施形態では、該示差遺伝子配列オブジェクトは、少なくとも1つの染色体の複数の局所的示差文字列を表す。
【0013】
(0011) 別の好ましい実施形態では、該示差遺伝子配列オブジェクトは、該第一の組織の実質的にゲノム全体の複数の局所的示差文字列を表す。
【0014】
(0012) 更に他の好ましい実施形態では、該示差遺伝子配列オブジェクトは、該示差遺伝子配列オブジェクトを説明するメタデータを含む属性を含む。より好ましい実施形態では、該属性は、該第一の組織と該第二の組織のうちの少なくとも1つの状態を含む。更により好ましい実施形態では、該状態は、該第一の組織と該第二の組織のうちの少なくとも1つの生理的状態を含む。最も好ましい実施形態では、該生理的状態は、腫瘍性成長、アポトーシス、分化の状態、組織年齢、及び治療に対する応答性からなる群から選択される状態を含む。
【0015】
(0013) 代わりのより好ましい実施形態では、該状態は遺伝子の状態を含む。最も好ましい実施形態では、該遺伝子の状態は、少なくとも1つの倍数性、遺伝子コピー数、反復のコピー数、逆位、欠失、ウイルス遺伝子の挿入、体細胞突然変異、生殖系列突然変異、構造的再配列、転位、及びヘテロ接合性の消失からなる群から選択される状態を含む。
【0016】
(0014) 代わりのより好ましい実施形態では、該状態は、組織内のシグナル伝達経路と関連する経路モデル情報を含む。最も好ましい実施形態では、該シグナル伝達経路は、成長因子シグナル伝達経路、転写因子シグナル伝達経路、アポトーシス経路、細胞周期経路、及びホルモン応答経路からなる群から選択される。
【0017】
(0015) 代わりの実施形態では、該第一の組織と該第二の組織は同じ生物学的実体に由来し、該生物学的実体は、患者、健常者、細胞株、幹細胞、実験動物モデル、組換え細菌細胞、及びウイルスからなる群から選択される。代わりの実施形態では、該第一の組織は健康組織であり、該第二の組織は罹患組織である。より好ましい実施形態では、該罹患組織は腫瘍組織を含む。
【0018】
(0016) 本発明はまた、該第一の配列文字列と該第二の配列文字列を該第一の配列文字列の全長にわたって繰り返し徐々に同期する工程を更に含む、本明細書に開示されている方法を提供する。
【0019】
(0017) 本発明はまた、ヘルスケアサービスを提供する方法であって:患者の示差遺伝子配列オブジェクトを保存する医療記録保存装置に情報が連結されている解析エンジンに対するアクセスを提供すること;該解析エンジンによって、該患者の示差遺伝子配列オブジェクトにおける局所的示差文字列又は一群の複数の局所的示差文字列の存在を用いて、患者特異的なデータセットを生成させること;及び該解析エンジンによって、該患者特異的なデータセットに基づく患者特異的な指示を生成させることを含む、方法を提供する。好ましい実施形態では、該医療記録保存装置はスマートカードとして構成され、該患者によって持ち運びされる。別の好ましい実施形態では、該医療記録保存装置は、ヘルスケア提供者によりリモートでアクセス可能である。更に他の好ましい実施形態では、該患者の示差遺伝子配列オブジェクトは、少なくとも2つの染色体の複数の局所的示差文字列を含む。なおさらなる好ましい実施形態では、該患者の示差遺伝子配列オブジェクトは、該患者の実質的にゲノム全体の複数の局所的示差文字列を含む。別の好ましい実施形態では、該患者の示差遺伝子配列オブジェクトは、少なくとも2つの組織型、又は同じ組織の少なくとも2つの時間的に離れた結果を表す複数の局所的示差文字列を含む。より好ましい実施形態では、該同じ組織の少なくとも2つの時間的に離れた結果は、治療の開始前と治療の開始後から得られる。最も好ましい実施形態では、該同じ組織の少なくとも2つの時間的に離れた結果は、治療の開始前と治療の開始後から得られる。
【0020】
(0018) 別の代わりの好ましい実施形態では、本明細書に開示されている該患者特異的な指示は、診断、予後判定、治療転帰の予測、治療戦略の推奨、及び処方からなる群から選択される。
【0021】
(0019) 本発明はまた、集団を解析する方法であって:複数の示差遺伝子配列オブジェクトを取得し、解析エンジンに情報が連結されている集団の医療記録データベースに保存すること;該解析エンジンによって、該複数の示差遺伝子配列オブジェクト内の一群の複数の局所的示差文字列を同定し、記録群を生成させること;及び該解析エンジンによって、該記録群を用いて、集団解析記録を生成させることを含む、方法を提供する。好ましい実施形態では、該集団は複数の血縁者を含む。代わりの好ましい実施形態では、該集団は、病原体への曝露、有害物質への曝露、既往歴、治療歴、治療成功、性別、種、及び年齢からなる群から選択される少なくとも1つの共通の特徴を共有することを特徴とする複数のメンバーを含む。別の代わりの好ましい実施形態では、該集団は、地理的な位置、民族、及び職業からなる群から選択される少なくとも1つの共通の特徴を共有することを特徴とする複数のメンバーを含む。またさらなる代わりの好ましい実施形態では、該集団解析記録は、父親であることの確認又は母親であることの確認を含む。
【0022】
(0020) 代わりの実施形態では、本明細書に開示されている方法は、個々の患者の記録群を該集団解析記録と比較する工程を更に含む。好ましい実施形態では、該個々の患者の記録群を集団解析記録と比較する工程によって、患者特異的な記録が生成される。より好ましい実施形態では、該患者特異的な記録は、リスク評価又は該患者が特定の集団に属することの確認を含む。代わりのより好ましい実施形態では、該患者特異的な記録は、診断、予後判定、治療転帰の予測、治療戦略の推奨、及び処方を含む。
【0023】
(0021) 本発明は更に、個人の示差遺伝子配列オブジェクトを解析する方法であって:解析エンジンに情報が連結されている医療記録データベースに参照示差遺伝子配列オブジェクトを保存すること;該解析エンジンによって、該個人の示差遺伝子配列オブジェクト内の複数の局所的示差文字列と該参照示差遺伝子配列オブジェクト内の複数の局所的示差文字列の間の偏差を計算して、偏差記録を生成させること;該解析エンジンによって、該偏差記録を用いて、個人に特異的な偏差記録を生成させることを含む、方法を提供する。好ましい実施形態では、該参照示差遺伝子配列オブジェクトは、該個人の複数の局所的示差文字列から計算される。別の好ましい実施形態では、該参照示差遺伝子配列オブジェクトは、該個人の複数の局所的示差文字列から計算される。
【0024】
(0022) 本明細書に開示されている様々な方法に関して、好ましい実施形態では、該患者又は個人は、疾患及び障害からなる群から選択される状態であると診断された患者又は個人からなる群から選択される。より好ましい実施形態では、該状態は、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、良性前立腺肥大症、気管支炎、チェディアック・東症候群、胆嚢炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、慢性肉芽腫症、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多嚢胞性卵巣症候群、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、重症複合免疫不全症(SCID)、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染;並びに腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌、静座不能、アルツハイマー病、健忘症、筋萎縮性側索硬化症(ALS)、運動失調、双極性障害、緊張病、脳性麻痺、脳血管疾患、クロイツフェルト・ヤコブ病、認知症、鬱病、ダウン症候群、遅発性ジスキネジー、ジストニア、てんかん、ハンチントン病、多発性硬化症、筋ジストロフィー、神経痛、神経線維腫症、ニューロパチー、パーキンソン病、ピック病、網膜色素変性症、統合失調症、季節性情動障害、老年性認知症、卒中、トゥレット症候群、並びに腺癌、黒色腫、及び特に脳の奇形種を含む癌からなる群から選択される。
【0025】
(0023) 別の好ましい実施形態では、該状態は、癌、例えば、腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌;免疫障害、例えば、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、気管支炎、胆嚢炎、接触性皮膚炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、リンパ球傷害因子性偶発性リンパ球減少症、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染、外傷、ブルトン型X連鎖無γグロブリン血症、分類不能型免疫不全症(CVI)、ディジョージ症候群(胸腺形成不全症)、胸腺形成異常、IgA単独欠損症、重症複合免疫不全症(SCID)、血小板減少症及び湿疹を伴う免疫不全(ウィスコット・アルドリッチ症候群)、チェディアック・東症候群、慢性肉芽腫症、遺伝性血管神経症性浮腫、並びにクッシング病を伴う免疫不全;並びに発達障害、例えば、尿細管性アシドーシス、貧血、クッシング症候群、軟骨形成不全性小人症、デュシェンヌ型及びベッカー型筋ジストロフィー、てんかん、性腺発育障害、WAGR症候群(ウィルムス腫瘍、無虹彩、泌尿生殖器異常、及び精神遅滞)、スミス・マゲニス症候群、骨髄異形成症候群、遺伝性粘膜上皮異形成、遺伝性角皮症、シャルコー・マリー・トゥース病及び神経線維腫症などの遺伝性ニューロパチー、甲状腺機能低下症、水頭症、シデナム舞踏病(Syndenham’s chorea)及び脳性麻痺などの発作性障害、二分脊椎、無脳症、頭蓋脊椎披裂、先天性緑内障、白内障、感音性難聴、並びに対象の任意の組織、器官、又はシステム、例えば、脳、副腎、腎臓、骨格系、又は生殖器系が関係する細胞成長及び分化、胚発生、並びに形態形成と関連する任意の障害からなる群から選択される。
【0026】
(0024) なおさらなる代わりの好ましい実施形態では、該状態は、内分泌障害、例えば、性腺機能低下症、シーハン症候群、尿崩症、カルマン病、ハンド・シュラー・クリスチャン病、レッテラー・シーベ病、サルコイドーシス、エンプティセラ症候群、及び小人症を含む下垂体機能低下症と関連する障害;末端肥大症、巨人症、及び抗利尿ホルモン(ADH)不適合分泌症候群(SIADH)を含む下垂体機能亢進症;並びに甲状腺腫、粘液水腫、細菌感染と関連する急性甲状腺炎、ウイルス感染と関連する亜急性甲状腺炎、自己免疫性甲状腺炎(橋本病)、及びクレチン病を含む甲状腺機能低下症と関連する障害;甲状腺中毒症及びその様々な形態、グレーブス病、前頸骨粘液水腫、中毒性多結節性甲状腺腫、甲状腺癌、並びにプランマー病を含む甲状腺機能亢進症と関連する障害;並びにコーン症候群(慢性高カルシウム血症(chronic hypercalemia))を含む副甲状腺機能亢進症と関連する障害;呼吸器障害、例えば、アレルギー、喘息、急性及び慢性の炎症性肺疾患、ARDS、肺気腫、肺鬱血及び肺浮腫、COPD、間質性肺疾患、及び肺癌;癌、例えば、腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌;並びに免疫学的障害、例えば、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、気管支炎、胆嚢炎、接触性皮膚炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、リンパ球傷害因子性偶発性リンパ球減少症、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染、並びに外傷からなる群から選択される。
【0027】
(0025) 本発明は更に、示差遺伝子配列オブジェクトを得る方法であって:(a)第一の組織を表す第一の遺伝子配列文字列と(b)第二の組織を表す第二の遺伝子配列文字列であって、複数の対応するサブ文字列を有する、該第一の配列文字列と該第二の配列文字列を保存する遺伝子データベースに対するアクセスを提供すること;該遺伝子データベースと連結された配列解析エンジンに対するアクセスを提供すること;該配列解析エンジンを用いて、複数の対応するサブ文字列のうちの少なくとも1つの既知の位置を用いて、該第一の配列文字列と該第二の配列文字列を徐々に同期することにより、局所アラインメントを生成させること;該配列解析エンジンによって、該局所アラインメントを用いて、該局所アラインメント内で該第一の配列文字列と該第二の配列文字列の間の局所的示差文字列を生成させること;並びに該配列解析エンジンによって、該局所的示差文字列を用いて、示差配列データベース内の示差遺伝子配列オブジェクトを生成させ、それにより、示差配列オブジェクトを得ることを含む、方法を提供する。
【0028】
(0026) 本発明は更に、第一の遺伝子配列と第二の配列の間の臨床的に重要な相違を表す示差遺伝子配列オブジェクトを生成させるための変換方法であって:(i)(a)第一の組織を表す第一の遺伝子配列文字列と(b)第二の組織を表す第二の遺伝子配列文字列であって、複数の対応するサブ文字列を有する、該第一の配列文字列と該第二の配列文字列を保存する遺伝子データベースに対するアクセスを提供すること;(ii)該遺伝子データベースと連結された配列解析エンジンに対するアクセスを提供すること;(iii)該配列解析エンジンを用いて、複数の対応するサブ文字列のうちの少なくとも1つの既知の位置を用いて、該第一の配列文字列と該第二の配列文字列を徐々に同期することにより、局所アラインメントを生成させること;(iv)該配列解析エンジンによって、該局所アラインメントを用いて、該局所アラインメント内で該第一の配列文字列と該第二の配列文字列の間の局所的示差文字列を生成させること;並びに(v)該配列解析エンジンによって、該局所的示差文字列を用いて、示差配列データベース内の示差遺伝子配列オブジェクトを生成させ、それにより、客観的な情報をユーザに提供する示差配列オブジェクトを得ることを含む、方法を提供する。
【0029】
(0027) 好ましい実施形態では、客観的な情報は、遺伝子に関連する情報、代謝に関連する情報、毒物学的に関連する情報、臨床的に関連する情報、時間的に関連する情報、地理的に関連する情報、職業上のリスクに関連する情報、生活史に関連する情報、及び同様の情報からなる群から選択される。
【発明を実施するための形態】
【0035】
(0033) 本文書に開示されている実施形態は、例証的かつ例示的なものであって、本発明を限定することを意図するものではない。他の実施形態を利用することができ、本発明のクレームの範囲を逸脱することなく、構造的な変化を行なうことができる。
【0036】
(0034) 本明細書で、及び添付の特許請求の範囲で使用するように、単数形の「1つの(a)」、「1つの(an)」、及び「その(the)」は、文脈上、そうでないことが明確に示されない限り、複数の指示物を含む。従って、例えば、「1つのアレル(an allele)」に対する言及は、複数のそのようなアレルを含み、また、「1つのクラスター(a cluster)」に対する言及は、1以上のクラスター及びその等価物に対する言及であり、などのようである。
【0037】
(0035) 本明細書で使用するように、「キュレーティングされた(curated)」という用語は、当技術分野で周知の方法、例えば、分子生物学、生化学、生理学、解剖学、ゲノム、トランスクリプトーム、プロテオーム、代謝、ADME、及びバイオインフォマティックの技術などを用いて科学的及び/又は臨床的原理に従って試験、解析、及び同定された生体分子及び/又は非生体分子の組の関係性を意味する。この関係性は、生化学的なもの、例えば、生化学的経路、遺伝経路、代謝経路、遺伝子調節経路、遺伝子転写経路、遺伝子翻訳経路、miRNA調節経路、偽遺伝子調節経路、及び同様の経路であることができる。
【0038】
(0036) ハイスループットデータは、癌組織における分子変化の包括的な見方を提供しつつある。新しい技術は、腫瘍試料及び癌細胞株のゲノムコピー数変動、遺伝子発現、DNAメチル化、及びエピジェネティックスの状態の同時的なゲノム規模のアッセイを可能にする。
【0039】
(0037) 癌ゲノムアトラス(TCGA)のスタンド・アップ・トゥ・キャンサー(Stand Up To Cancer)(SU2C)などの研究、及び更に多くの研究が、近い将来、多種多様な腫瘍について計画される。現在のデータセットの解析から、患者間の遺伝子変化は異なり得るが、多くの場合、共通の経路を含むことが分かっている。それゆえ、癌進行に関与する関連経路を同定し、それらが異なる患者でどのように変化しているかを検出することが重要である。
【0040】
(0038) 癌ゲノムアトラス(TCGA)のようなプロジェクトからの多数の完全にシークエンシングされた腫瘍ゲノム及びマッチした正常ゲノムの公開に伴い、これらの膨大なデータセットを効率的に解析することができるツールが非常に必要とされている。
【0041】
(0039) この目的のために、本発明者らは、SAM/BAM形式のファイルに含まれる整列された短い読取物データを用いて、患者の腫瘍及び生殖系列のゲノムから各々のゲノム位置を同時解析するツールである、BamBamを開発した(SAMtools library;Li H,Handsaker B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G,Abecasis G,Durbin R;1000 Genome Project Data Processing Subgroup.The Sequence Alignment/Map format and SAMtools.Bioinformatics.2009 Aug 15;25(16):2078−9.Epub 2009 Jun 8)。BamBamは、SAMtoolsライブラリーと連動し、SAM/BAM形式のファイルからの短い読取物アラインメントを用いて、患者の腫瘍及び生殖系列のゲノムを同時解析する。本開示において、BamBamツールは、情報の文字列を含む配列を比較するために用いられる配列解析エンジンであることができる。一実施形態では、情報の文字列は、生物学的情報、例えば、ポリヌクレオチド配列又はポリペプチド配列を含む。別の実施形態では、生物学的情報は、発現データ、例えば、mRNA転写物又はrRNA又はtRNA又はペプチド又はポリペプチド又はタンパク質の相対的な濃度レベルを含むことができる。別の実施形態では、生物学的情報は、例えば、限定されないが、リン酸化、硫酸化、アセチル化(actylation)、メチル化、グリコシル化、シアリル化(sialation)、グリコシルホスファチジルイノシトールによる修飾、又はプロテオグリカンによる修飾などのタンパク質修飾の相対的な量であることができる。
【0042】
(0040) この処理方法により、BamBamは、全体的コピー数を効率的に計算して、腫瘍ゲノムと生殖系列ゲノムの両方における構造変動(例えば、染色体転座)の領域を推測すること;全体的及びアレル特異的コピー数を効率的に計算すること;ヘテロ接合性の消失(LOH)を示す領域を推測すること;並びに体細胞変異体及び生殖系列配列変異体(例えば、点突然変異)と構造的再配列(例えば、染色体融合)の両方を発見することが可能になる。更に、2つのゲノム配列を同時に比較することによって、BamBamは、体細胞配列変異体と生殖系列配列変異体とを即座に区別し、腫瘍ゲノムのアレル特異的コピー数の変化を計算し、かつアレル比率が腫瘍ゲノム中で変化している染色体領域にわたって生殖系列ハプロタイプを同期することもできる。これらの解析の全てを1つのツールにまとめることにより、研究者は、BamBamを用いて、患者の腫瘍ゲノム内で、しばしば、特定の遺伝子アレルに対して起こった、腫瘍発生の潜在的駆動因子を同定するのに役立つ、多くの種類のゲノム変化を発見することができる。
【0043】
(0041) 発見された変異体が、体細胞変異体(すなわち、腫瘍にのみ見られる変異体配列)であるか、又は生殖系列変異体(すなわち、遺伝性(inherited)もしくは遺伝性(heritable)である変異体配列)であるかを決定することは、本発明者らが、腫瘍ゲノムとマッチした正常ゲノムを何らかの方法で比較することを必要とする。これは、腫瘍と生殖系列の両方について全てのゲノム位置でデータをまとめ、その後、解析のために結果を組み合わせることによって、連続的に行なうことができる。残念ながら、全ゲノムBAMファイルは、その圧縮形態で数百ギガバイト(非圧縮では1〜2テラバイト)であるので、後の解析のために保存される必要がある中間結果は非常に大量であり、統合し、解析するのに時間がかかる。
【0044】
(0042) この問題を回避するために、BamBamは、2つのファイルから同時に読み取り、各々のBAMファイルを他方と絶えず同期し、この2つのファイル間の全ての共通のゲノム位置に重なるゲノム読取物を累積させる。各々の累積物の対について、BamBamは、上記の一連の解析を実行し、その後、この累積物を破棄して、次の共通のゲノム位置に移動する。これらの大量のBAMファイルをこの方法で処理することにより、コンピュータのRAM使用は最小限となり、処理速度は主に、ファイルシステムが2つのファイルを読み取ることができる速度によって制限される。これにより、BamBamは、大量のデータを迅速に処理することができる一方で、単一のコンピュータ又はコンピュータクラスターで実行するだけの柔軟性がある。これらのファイルをBamBamで処理することに対する別の重要な利点は、その出力が極めて最小限であり、各ファイルで見出される重要な相違のみからなるということである。これは、本質的に、患者の腫瘍ゲノムと生殖系列ゲノムの間の全ゲノム的な相違となるものを生じさせ、全ゲノム情報を各ファイルについて別々に保存する場合に必要になるよりもはるかに少ないディスク容量しか必要としない。
【0045】
(0043) BamBamは、大量のシークエンシングデータセットを調べて、その生殖系列と比べて各々の腫瘍内で起こる質の高いゲノム事象の組を生じさせるための計算効率の良い方法である。これらの結果から、腫瘍の染色体動態が垣間見られ、腫瘍の最終状態及びそれをもたらす事象に関する理解が深められる。BamBamデータフローの例示的なスキームを
図1に示す。
【0046】
(0044) 本発明の1つの特定の例示的な実施形態は、示差遺伝子配列オブジェクトの生成及び使用である。本明細書で使用するように、オブジェクトは、BamBam技術によってインスタンスが作成されるデジタル式のオブジェクトを表し、参照配列(例えば、第一の配列(serquence))と解析配列(例えば、第二の配列)の相違を反映する。オブジェクトは、多くの異なるマーケット上のチョークポイントと考えることができる。そのようなオブジェクトの使用及び管理に関する以下の因子をマーケットの観点から考察することができる:
○オブジェクトは動的であり、かつパラメータ(例えば、時間、地理的領域、遺伝子樹、種など)のベクトルに関して変化することができる。
○オブジェクトは、互いのオブジェクト又は参照配列に対して「距離」を有すると考えることができる。距離は、関連の大きさに従って測定することができる。例えば、距離は、仮想上の正常からの偏差、又は時間に関する変動であることができる。
○オブジェクトは、リスク:疾患を発症するリスク、曝露に対する感受性、ある場所で働くリスクなどを示すものであることができる。
○オブジェクトは、利害関係者:ヘルスケア提供者、保険会社、患者などに対するプレゼンテーションのために操ることができる。
・地理的オブジェクトとして提示することができる
・統計的形式:1人の人間、集団、標準的なヒトなどの形で提示することができる
○参照配列をオブジェクトから生成させて、正規化配列を形成させることができる。正規化配列は、測定されたオブジェクトから得られるコンセンサスに基づいて構築することができる。
○オブジェクトは、単一遺伝子アラインメントというよりはむしろ大量のサブゲノム又はゲノム情報を表すものであり、注釈が付けられ/標準ソフトウェアで読取り可能なメタデータを含む。
○オブジェクトは、検出可能な内部パターン又は構造を有することができ:1つのスポット中の1組の突然変異は、ある状態と相関する別のスポット中の第二の組の突然変異と相関する可能性があり;一群の相違パターンはホットスポットであり;多変量解析又は他のAI技術を用いて、相関を同定し;ホットスポット(例えば、存在、不在など)の有意性を検出することができる。
○1人の人に関するオブジェクトは、セキュリティキーとして用いることができる
【0047】
(0045) 示差配列オブジェクトのアップデート:アップデートは、作成、修飾、変更、削除などを含み;
・テンプレートに基づくことができ
・デノボオブジェクトであることができ
・既存のオブジェクトであることができる
【0048】
(0046) 代わりの例示的な実施形態では、本方法を用いて、治療に対する患者の応答:予期された応答、想定された応答、予測された応答、実際の応答などを確認及び予測することができる。
【0049】
(0047) 代わりの例示的な実施形態では、本方法を用いて、患者特異的な指示:処方、推奨、予後判定などを提供することができる。
【0050】
(0048) 一実施形態では、本方法を用いて、種々の診断及び治療用途、例えば、癌組織の検出、癌組織の病期判定、転移性組織の検出など;神経学的障害、例えば、限定されないが、アルツハイマー病、筋萎縮性側索硬化症(ALS)、パーキンソン病、統合失調症、てんかん、及びそれらの合併症;発達障害、例えば、ディジョージ症候群、自閉症、自己免疫障害、例えば、多発性硬化症、糖尿病などの検出;感染症、例えば、限定されないが、ウイルス感染、細菌感染、真菌感染、リューシマニア、住血吸虫症、マラリア、条虫、象皮病、線虫の感染、紐虫(nematine)の感染などの治療で用いることができる臨床情報を提供することができる。
【0051】
(0049) 一実施形態では、本方法を用いて、遺伝子又はタンパク質の発現の変化と関連した状態についての、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出及び定量するための臨床情報を提供することができる。発現の変化と関連する状態、疾患、又は障害としては、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、良性前立腺肥大症、気管支炎、チェディアック・東症候群、胆嚢炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、慢性肉芽腫症、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多嚢胞性卵巣症候群、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、重症複合免疫不全症(SCID)、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染;並びに腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌が挙げられる。診断アッセイは、ハイブリダイゼーション又は増幅技術を用いて、遺伝子発現の変化を検出するために、患者由来の生物学的試料中の遺伝子発現を標準試料と比較することができる。この比較のための定性的又は定量的方法は当技術分野で周知である。
【0052】
(0050) 別の実施形態では、本方法を用いて、遺伝子又はタンパク質の発現の変化と関連する障害についての、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出及び定量するための臨床情報を提供することができる。発現の変化と関連する障害としては、静座不能、アルツハイマー病、健忘症、筋萎縮性側索硬化症(ALS)、運動失調、双極性障害、緊張病、脳性麻痺、脳血管疾患、クロイツフェルト・ヤコブ病、認知症、鬱病、ダウン症候群、遅発性ジスキネジー、ジストニア、てんかん、ハンチントン病、多発性硬化症、筋ジストロフィー、神経痛、神経線維腫症、ニューロパチー、パーキンソン病、ピック病、網膜色素変性症、統合失調症、季節性情動障害、老年性認知症、卒中、トゥレット症候群、並びに腺癌、黒色腫、及び特に脳の奇形種を含む癌が挙げられる。
【0053】
(0051) 一実施形態では、本方法を用いて、哺乳動物タンパク質の発現又は活性の変化と関連する状態についての臨床情報を提供することができる。そのような状態の例としては、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、良性前立腺肥大症、気管支炎、チェディアック・東症候群、胆嚢炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、慢性肉芽腫症、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多嚢胞性卵巣症候群、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、重症複合免疫不全症(SCID)、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染;並びに腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌、静座不能、アルツハイマー病、健忘症、筋萎縮性側索硬化症、運動失調、双極性障害、緊張病、脳性麻痺、脳血管疾患、クロイツフェルト・ヤコブ病、認知症、鬱病、ダウン症候群、遅発性ジスキネジー、ジストニア、てんかん、ハンチントン病、多発性硬化症、筋ジストロフィー、神経痛、神経線維腫症、ニューロパチー、パーキンソン病、ピック病、網膜色素変性症、統合失調症、季節性情動障害、老年性認知症、卒中、トゥレット症候群、並びに腺癌、黒色腫、及び特に脳の奇形種を含む癌が挙げられるが、これらに限定されない。
【0054】
(0052) また別の実施形態では、本方法を用いて、遺伝子又はタンパク質の発現の変化と関連する障害についての、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出及び定量するための臨床情報を提供することができる。そのような障害の例としては、癌、例えば、腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌;免疫障害、例えば、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、気管支炎、胆嚢炎、接触性皮膚炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、リンパ球傷害因子性偶発性リンパ球減少症、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染、外傷、ブルトン型X連鎖無γグロブリン血症、分類不能型免疫不全症(CVI)、ディジョージ症候群(胸腺形成不全症)、胸腺形成異常、IgA単独欠損症、重症複合免疫不全症(SCID)、血小板減少症及び湿疹を伴う免疫不全(ウィスコット・アルドリッチ症候群)、チェディアック・東症候群、慢性肉芽腫症、遺伝性血管神経症性浮腫、並びにクッシング病を伴う免疫不全;並びに発達障害、例えば、尿細管性アシドーシス、貧血、クッシング症候群、軟骨形成不全性小人症、デュシェンヌ型及びベッカー型筋ジストロフィー、てんかん、性腺発育障害、WAGR症候群(ウィルムス腫瘍、無虹彩、泌尿生殖器異常、及び精神遅滞)、スミス・マゲニス症候群、骨髄異形成症候群、遺伝性粘膜上皮異形成、遺伝性角皮症、シャルコー・マリー・トゥース病及び神経線維腫症などの遺伝性ニューロパチー、甲状腺機能低下症、水頭症、シデナム舞踏病及び脳性麻痺などの発作性障害、二分脊椎、無脳症、頭蓋脊椎披裂、先天性緑内障、白内障、感音性難聴、並びに対象の任意の組織、器官、又はシステム、例えば、脳、副腎、腎臓、骨格系、又は生殖器系が関係する細胞成長及び分化、胚発生、並びに形態形成と関連する任意の障害が挙げられるが、これらに限定されない。
【0055】
(0053) 別の実施形態では、本方法を用いて、遺伝子又はタンパク質の発現の変化と関連する障害についての、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出及び定量するための臨床情報を提供することができる。そのような障害の例としては、内分泌障害、例えば、性腺機能低下症、シーハン症候群、尿崩症、カルマン病、ハンド・シュラー・クリスチャン病、レッテラー・シーベ病、サルコイドーシス、エンプティセラ症候群、及び小人症を含む、下垂体機能低下症と関連する障害;末端肥大症、巨人症、及び抗利尿ホルモン(ADH)不適合分泌症候群(SIADH)を含む、下垂体機能亢進症;並びに甲状腺腫、粘液水腫、細菌感染と関連する急性甲状腺炎、ウイルス感染と関連する亜急性甲状腺炎、自己免疫性甲状腺炎(橋本病)、及びクレチン病を含む、甲状腺機能低下症と関連する障害;甲状腺中毒症及びその様々な形態、グレーブス病、前頸骨粘液水腫、中毒性多結節性甲状腺腫、甲状腺癌、並びにプランマー病を含む甲状腺機能亢進症と関連する障害;並びにコーン症候群(慢性高カルシウム血症)を含む副甲状腺機能亢進症と関連する障害;呼吸器障害、例えば、アレルギー、喘息、急性及び慢性の炎症性肺疾患、ARDS、肺気腫、肺鬱血及び肺浮腫、COPD、間質性肺疾患、及び肺癌;癌、例えば、腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌;並びに免疫学的障害、例えば、後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、気管支炎、胆嚢炎、接触性皮膚炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、リンパ球傷害因子性偶発性リンパ球減少症、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、癌の合併症、血液透析、及び体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染、並びに外傷が挙げられるが、これらに限定されない。ポリヌクレオチド配列を、サザンもしくはノーザン解析、ドットブロット、又は他のメンブレンベースの技術で;PCR技術で;ディップスティック、ピン、及びELISAアッセイで;並びに患者由来の流体又は組織を利用するマイクロアレイで用いて、核酸配列発現の変化を検出することができる。そのような定性的又は定量的方法は当技術分野で周知である。
【0056】
特徴付け及び本発明の最良の形態
(0054) 「BamBam」は、大量のシークエンシングデータセットを調べて、その生殖系列と比べて各々の腫瘍内で起こる質の高いゲノム事象の組を生じさせるための計算効率の良い方法である。これらの結果から、腫瘍の染色体動態が垣間見られ、腫瘍の最終状態及びそれをもたらす事象に関する理解が深められる。
【0057】
診断
(0055) 本明細書に記載の方法を用いて、遺伝子又はタンパク質の発現の変化と関連する状態、疾患、又は障害についての、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出及び定量することができる。本明細書に記載の方法を用いて、遺伝子発現の変化、不在/存在と過剰、mRNAの発現を検出及び定量するか、又は治療的介入時のmRNAレベルをモニタリングすることもできる。発現の変化と関連する状態、疾患、又は障害としては、特発性肺動脈高血圧症、二次性肺高血圧症、細胞増殖障害、特に、退形成乏突起膠腫、星状細胞腫、乏突起星細胞腫、膠芽細胞腫、髄膜腫、神経節細胞腫、神経細胞新生物、多発性硬化症、ハンチントン病、乳腺腺癌、前立腺腺癌、胃腺癌、転移性神経内分泌癌、非増殖性乳腺線維嚢胞症及び増殖性乳腺線維嚢胞症、胆嚢の胆嚢炎及び胆石症、変形性関節症、並びに関節リウマチ;後天性免疫不全症候群(AIDS)、アジソン病、成人呼吸窮迫症候群、アレルギー、強直性脊椎炎、アミロイドーシス、貧血、喘息、アテローム性動脈硬化症、自己免疫溶血性貧血、自己免疫性甲状腺炎、良性前立腺肥大症、気管支炎、チェディアック・東症候群、胆嚢炎、クローン病、アトピー性皮膚炎、皮膚筋炎、糖尿病、肺気腫、胎児赤芽球症、結節性紅斑、萎縮性胃炎、糸球体腎炎、グッドパスチャー症候群、痛風、慢性肉芽腫症、グレーブス病、橋本甲状腺炎、過好酸球増加症、過敏性腸症候群、多発性硬化症、重症筋無力症、心筋炎又は心膜炎、変形性関節症、骨粗鬆症、膵炎、多嚢胞性卵巣症候群、多発性筋炎、乾癬、ライター症候群、関節リウマチ、強皮症、重症複合免疫不全症(SCID)、シェーグレン症候群、全身性アナフィラキシー、全身性エリテマトーデス、全身性硬化症、血小板減少性紫斑病、潰瘍性大腸炎、ブドウ膜炎、ウェルナー症候群、血液透析、体外循環、ウイルス感染、細菌感染、真菌感染、寄生虫感染、原虫感染、及び蠕虫感染;プロラクチン産生の障害、卵管疾患、排卵異常、及び子宮内膜症を含む不妊症、発情周期の障害、月経周期の障害、多嚢胞性卵巣症候群、卵巣過剰刺激症候群、子宮内膜腫瘍又は卵巣腫瘍、子宮筋腫、自己免疫障害、子宮外妊娠、及び奇形発生;乳癌、乳腺線維嚢胞症、及び乳汁漏出症;精子形成の障害、精子生理機能の異常、良性前立腺肥大症、前立腺炎、ペイロニー病、インポテンス、女性化乳房;光線性角化症、動脈硬化症、滑液包炎、肝硬変、肝炎、混合性結合組織病(MCTD)、骨髄線維症、発作性夜間ヘモグロビン尿症、真性赤血球増加症、原発性血小板血症、癌の合併症、腺癌、白血病、リンパ腫、黒色腫、骨髄腫、肉腫、奇形腫、及び特に、副腎、膀胱、骨、骨髄、脳、乳房、頸部、胆嚢、神経節、胃腸管、心臓、腎臓、肝臓、肺、筋肉、卵巣、膵臓、副甲状腺、陰茎、前立腺、唾液腺、皮膚、脾臓、精巣、胸腺、甲状腺、及び子宮の癌を含む癌が挙げられる。別の態様では、本発明の核酸。
【0058】
(0056) 本明細書に記載の方法を用いて、遺伝子又はタンパク質の発現の変化と関連する障害についての、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出及び定量することができる。本明細書に記載の方法を用いて、遺伝子発現の変化;mRNAの不在、存在、もしくは過剰発現を検出及び定量すること;又は治療介入時にmRNAレベルをモニタリングすることもできる。発現の変化と関連する障害としては、静座不能、アルツハイマー病、健忘症、筋萎縮性側索硬化症、運動失調、双極性障害、緊張病、脳性麻痺、脳血管疾患、クロイツフェルト・ヤコブ病、認知症、鬱病、ダウン症候群、遅発性ジスキネジー、ジストニア、てんかん、ハンチントン病、多発性硬化症、筋ジストロフィー、神経痛、神経線維腫症、ニューロパチー、パーキンソン病、ピック病、網膜色素変性症、統合失調症、季節性情動障害、老年性認知症、卒中、トゥレット症候群、並びに腺癌、黒色腫、及び特に脳の奇形種を含む癌が挙げられる。
【0059】
(0057) 遺伝子発現と関連する状態、疾患、又は障害の診断の基礎を提供するために、正常な又は標準的な発現プロファイルを確立する。これは、動物又はヒトのどちらかの、正常な対象から採取された生物学的試料を、ハイブリダイゼーション又は増幅のための条件下でプローブと組み合わせることによって達成することができる。標準的なハイブリダイゼーションは、正常な対象を用いて得られた値を、既知の量の実質的に精製された標的配列を用いる実験からの値と比較することによって定量することができる。このように得られた標準値を、特定の状態、疾患、又は障害の症状を示す患者由来の試料から得られた値と比較することができる。標準値から特定の状態と関連する値への偏差を用いて、その状態を診断する。
【0060】
(0058) そのようなアッセイを用いて、動物研究及び臨床試験における特定の治療的治療レジメンの有効性を評価するか、又は個々の患者の治療をモニタリングすることもできる。状態の存在が確定され、治療プロトコルが開始されると、診断アッセイを定期的に繰り返して、患者における発現のレベルが、正常な対象で観察されるレベルに接近し始めるかどうかを決定する。これらのアッセイを用いて、腫瘍の存在、腫瘍の不在、又は臨床的治療もしくは療法を受けている個体の寛解状態を示し、かつ/又は特定する、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾を検出するか、定量する(quamtify)か、又は測定することもできる。連続的なアッセイから得られた結果を用いて、数日から数カ月に及ぶ期間にわたって治療の有効性を示すことができる。
【0061】
(0059) 本明細書に開示されている方法を用いて、これまでに同定されていないか、又は特定の臨床的疾患、障害、もしくは状態と関連付けられていない、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA(miRNA)、アンチセンスRNA(asRNA)などに対する変化及び/又は修飾を含む、遺伝子構造、遺伝子突然変異、遺伝子生化学的修飾の変化を検出するか、定量するか、又は相関させることもできる。代替例では、本明細書に開示されている方法を用いて、新規の臨床的疾患、障害、又は状態を同定することができる。その後、遺伝子構造、遺伝子突然変異、及び遺伝子生化学的修飾の新規の変化を、核酸配列又はタンパク質配列の既知の化学的及び生化学的特性と比較することができ、臨床的疾患、障害、又は状態と相関する新規の変化を用いて、臨床用途のための細胞代謝に関する新しいデータベース及び知識を生じさせることができる。
【0062】
モデル系
(0060) 動物モデルを、それらが、ヒトの毒性応答と同様の毒性応答を示し、かつ曝露条件がヒトへの曝露に関連する、バイオアッセイとして用いることができる。哺乳動物は最も一般的なモデルであり、多くの毒性研究は、低いコスト、入手可能性、及び豊富な参照毒性のために、ラット又はマウスなどの齧歯類に対して行なわれる。近交系齧歯類系統は、対象となる遺伝子の低発現又は過剰発現の生理学的結果の研究のための、並びに疾患の診断及び治療方法の開発のための好都合なモデルを提供する。特定の遺伝子(例えば、ミルク中に分泌される)を発現するように同系交配された哺乳動物は、その遺伝子によって発現されるタンパク質の好都合な供給源として働くこともできる。
【0063】
毒物学
(0061) 毒物学は、生物系に対する薬剤の効果の研究である。毒性研究の大半は、ラット又はマウスに対して行なわれ、ヒトの健康に対するこれらの薬剤の効果を予測するのに役立つ。生理、行動、ホメオスタシス作用、及び致死性の定性的及び定量的変化の観察を用いて、毒性プロファイルを作成し、薬剤への曝露後のヒトの健康に対する結果を評価する。
【0064】
(0062) 遺伝毒物学は、遺伝子突然変異を生成させる薬剤の能力を同定及び解析する。遺伝毒性剤は、通常、核酸との相互作用を促進する共通の化学的又は物理的特性を有しており、染色体異常が子孫に伝達される場合に最も有害である。毒物学的研究は、妊娠前の親か、妊娠中の母親か、又は発生中の生物かのいずれかに投与されたときに、子孫における構造的又は機能的異常の頻度を増大させる薬剤を同定することができる。統計的要件を満たすのに必要とされる数の生物を生むその短い生殖周期のために、マウス及びラットが、これらの試験で用いられることが最も多い。
【0065】
(0063) 急性毒性試験は、対象への薬剤の単一投与に基づいて、薬剤の症状又は致死性を決定する。3つの実験が実施される:(a)初期用量範囲決定実験、(b)有効用量を絞り込む実験、及び(c)用量応答曲線を作成するための最終実験。
【0066】
(0064) 長期毒性試験は薬剤の反復投与に基づく。異なる科の種からのデータを提供するために、ラット及びイヌがこれらの研究で一般に用いられる。発癌を例外として、3〜4カ月間の高用量濃度での薬剤の連日投与により、成体動物でほとんどの形態の毒性が示されるというかなりの証拠がある。
【0067】
(0065) 毒性の欠如又は薬剤の発癌可能性のどちらかを証明するために、1年以上の継続期間の慢性毒性試験が用いられる。研究がラットに対して実施される場合、最低3つの試験群と1つの対照群が用いられ、動物は、最初に、及び実験を通じて周期的に、検査及びモニタリングされる。
【0068】
トランスジェニック動物モデル
(0066) 対象となる遺伝子を過剰発現又は低発現するトランスジェニック齧歯類を同系交配し、これを用いて、ヒト疾患のモデルを作るか又は治療剤もしくは毒物を試験することができる。(参照により本明細書に組み込まれる、米国特許第4,736,866号明細書;第5,175,383号明細書;及び第5,767,337号明細書を参照されたい)。場合によっては、導入した遺伝子を、胎仔発生期又は出生後に、特定の組織型で、特定の時間に活性化させることができる。導入遺伝子の発現は、実験的薬物療法の投与前、投与中、及び投与後のトランスジェニック動物における表現型又は組織特異的mRNA発現の解析によってモニタリングされる。
【0069】
胚性幹細胞
(0067) 齧歯類胚から単離された胚性幹細胞(ES)は、胚を形成する能力を保持している。ES細胞をキャリア胚の内部に置くと、それらは正常な発生を再開し、生産動物の全ての組織に寄与する。ES細胞は、実験的ノックアウト及びノックイン齧歯類系統の作出に用いられる好ましい細胞である。マウスES細胞、例えば、マウス129/SvJ細胞株を初期マウス胚から得て、当技術分野で周知の培養条件下で増殖させる。ノックアウト系統用のベクターは、インビボでの転写及び/又は翻訳を中断するマーカー遺伝子を含むように修飾された疾患遺伝子候補を含む。ベクターを、当技術分野でよく知られている形質転換法、例えば、エレクトロポレーション、リポソーム送達、マイクロインジェクションなどによってES細胞に導入する。内在性齧歯類遺伝子は、細胞分裂時の相同組換え及び組込みによって、破壊された疾患遺伝子に置き換えられる。形質転換されたES細胞を同定し、好ましくは、マウス細胞胚盤胞、例えば、C57BL/6マウス系統由来の胚盤胞に微量注入する。胚盤胞を偽妊娠母獣に外科的に移し、得られるキメラ子孫をジェノタイピングし、同系交配させ、ヘテロ接合又はホモ接合系統を生じさせる。
【0070】
(0068) ES細胞を用いて、インビトロでの、神経細胞、造血系、及び心筋細胞などの、様々な細胞型及び組織の分化を研究することもできる(Bain et al.(1995)Dev.Biol.168:342−357;Wiles and Keller(1991)Development 111:259−267;及びKlug et al.(1996)J.Clin.Invest.98:216−224)。最近の発展により、ヒト胚盤胞由来のES細胞をインビトロで操作して、内胚葉、中胚葉、及び外胚葉細胞型を含む、8つの別々の細胞系譜に分化させることもできることが証明されている(Thomson(1998)Science 282:1145−1147)。
【0071】
ノックアウト解析
(0069) 遺伝子ノックアウト解析では、ヒト疾患遺伝子候補の領域を、非哺乳動物遺伝子、例えば、ネオマイシンホスホトランスフェラーゼ遺伝子(neo;例えば、Capecchi(1989)Science 244:1288−1292を参照されたい)を含むように酵素的に修飾する。挿入されたコード配列は、標的とされた遺伝子の転写及び翻訳を中断し、疾患候補タンパク質の生化学的合成を妨げる。修飾した遺伝子を培養胚性幹細胞(上記)に形質転換し、形質転換細胞を齧歯類胞胚に注入し、この胞胚を偽妊娠母獣に移植する。トランスジェニック子孫を交配させて、ホモ接合近交系を得る。
【0072】
ノックイン解析
(0070) 胚発生の初期段階に存在する全能性ES細胞を用いて、ノックインヒト化動物(ブタ)又はヒト疾患のトランスジェニック動物モデル(マウスもしくはラット)を作出することができる。ノックイン技術を用いて、ヒト遺伝子の領域を動物ES細胞に注入し、ヒト配列が、組換えによって動物細胞ゲノムに組み込まれる。組み込まれたヒト遺伝子を含む全能性ES細胞を上記のように操作する。近交系動物を研究及び処置して、類似したヒト状態に関する情報を得る。これらの方法を用いて、いくつかのヒト疾患のモデルが作られている(例えば、Lee et al.(1998)Proc.Natl.Acad.Sci.95:11371−11376;Baudoin et al.(1998)Genes Dev.12:1202−1216;及びZhuang et al.(1998)Mol.Cell Biol.18:3340−3349を参照されたい)。
【0073】
非ヒト霊長類モデル
(0071) 動物試験の分野は、生理学、遺伝学、化学、薬理学、及び統計学などの基礎科学のデータ及び方法論を取り扱う。これらのデータは、非ヒト霊長類に対する治療剤の効果を評価する上で最も重要であるが、それは、それらがヒトの健康に関連し得るからである。サルは、ワクチン及び毒物の評価においてヒトの代わりとして用いられ、その応答は、同様の条件下でのヒトへの曝露に関係がある。カニクイザル(マカカ・ファシキュラリス(Macaca fascicularis)、マカカ・ムラタ(Macaca mulata))及びコモンマーモセット(カリトリクス・ヤーカス(Callithrix jacchus))は、これらの研究で用いられる最も一般的な非ヒト霊長類(NHP)である。NHPのコロニーを開発及び維持することに多大な費用が伴うので、初期の研究及び毒物学的研究は、通常、齧歯類モデルで実施される。薬物中毒などの行動測定を用いる研究では、NHPが第一選択の試験動物である。更に、NHP及び個々のヒトは、多くの薬物及び毒素に対する示差的な感受性を示し、これらの薬剤の「正常な代謝能を有する者(extensive metabolizer)」及び「代謝能が低い者(poor metabolizer)」と分類することができる。
【0074】
本発明の例示的使用
(0072) 個別化医療は、利益を受ける可能性が最も高い患者に対して個別の治療(複数可)を行なうことを約束する。本発明者らは、治療化合物の約半分が、臨床的に重要な転写又はゲノムに関する乳癌サブタイプのうちの1つ又は複数において優先的に効果的であることを示した。これらの知見は、乳癌治療において応答関連型分子サブタイプを定義する重要性を支持するものである。本発明者らはまた、細胞株に関する転写及びゲノムデータの経路統合によって、観察されたサブタイプ特異的応答の機械的説明を提供するサブネットワークが明らかになることを示している。細胞株と腫瘍の間のサブネット活性の比較解析は、サブタイプ特異的サブネットワークの大部分が細胞株と腫瘍の間で保存されていることを示す。これらの解析は、十分に特徴付けられた細胞株パネルにおける実験化合物の前臨床スクリーニングによって、初期段階の臨床試験における感受性エンリッチメントに用いることができる応答関連分子シグナチャー候補を同定することができるという考えを支持するものである。本発明者らは、このインビトロ評価アプローチによって、化合物の臨床開発が始まる前に応答性腫瘍サブタイプが特定される可能性が高まり、それにより、コストが下がり、最終的なFDAの承認の可能性が高まり、場合によっては、応答する可能性が低い患者を治療することに伴う毒性が避けられることを示唆するものである。この研究では、本発明者らは、転写サブタイプ及び選択された再発性のゲノムコピー数異常(CNA)を定義する分子シグナチャーのみを評価した。本発明者らは、遺伝子突然変異、メチル化、及び選択的スプライシングなどのさらなる分子特性が解析に含まれるにつれて、このアプローチの力及び精度が増大すると予想している。同様に、細胞株パネルのサイズを増大させることによって、パネル内であまり一般的でない分子パターンを評価する力が増大し、ヒト乳癌に存在する多様性のより完全な範囲を表す可能性が高まる。
【0075】
(0073) ここで、本発明者らは、腫瘍(体細胞)にマッチしたシークエンシングデータセットと生殖系列にマッチしたシークエンシングデータセットの迅速な比較を可能にする、本発明者らがBamBamと呼んでいる新しいソフトウェアツールを開示している。BamBamによって出力される結果は多様であり、各々の患者試料によって含まれる体細胞変異体と生殖系列変異体の網羅的なカタログを作成する。このカタログは、腫瘍成長の間に起こった重要な変化を素速く発見する能力を研究者に提供するだけでなく、疾患に対する素因を示し得る、患者の生殖系列に存在する質の高い変異体も提供する。BamBamのさらなる改良は、腫瘍発生の駆動因子を指し示す可能性がある、同じゲノム領域で生じる複数のタイプの変異体(例えば、遺伝子が欠失した一方のアレル、切断点による切断突然変異を含むもう一方のアレル)を特異的に検索する方法からなる。また、本発明者らは、ゲノムの対よりも多くのものを処理するまでBamBamの能力を伸ばすだけでなく、研究者に自分自身の解析方法をBamBamのパイプラインに組み込む能力を提供するつもりでもある。
【0076】
(0074) さらなる実施形態では、新しい技術が、三文字遺伝暗号及び特異的な塩基対相互作用のような特性を含むが、これらに限定されない、現在知られている核酸分子の特性に依存するという条件で、ポリヌクレオチド核酸を、まだ開発されていない任意の分子生物学技術で用いることができる。
【0077】
(0075) 本発明は、以下の実施例を参照することによって、より容易に理解されるであろう。これらの実施例は、単に本発明の特定の態様及び実施形態を説明するために含まれるのであり、限定として含まれるのではない。
【実施例】
【0078】
実施例I:参照ゲノムによるデータセット同期
(0076) 全ての短い読取物を同じ参照ゲノムに対して整列させて、この参照ゲノムを、多数の関連試料から配列データを体系化する普通の方法にする。BamBamは、1つは腫瘍由来、もう1つは同じ患者由来のマッチした正常(「生殖系列」)由来の2つの短い読取物のシークエンシングデータセットと、参照ゲノムとを取り込んで、これらのデータセットを読み取り、同じゲノム位置に重なる両方のデータセット中の全ての配列が同時に処理可能となる。これは、そのようなデータを処理するための最も効率的な方法である一方で、シリアライズされた形で遂行することが困難又は不可能である複合解析も可能にし、その場合、各データセットを単独で処理し、結果を後で統合するだけである。
【0079】
(0077) そのような方法は、3つ以上の関連するシークエンシングデータセットへと容易に拡張可能である。例えば、マッチした正常、腫瘍、及び再発という3つの試料をシークエンシングした場合、この方法を用いて、腫瘍及び再発試料に特異的な変化と、再発にのみ特異的な変化とを検索し、再発腫瘍が、それが由来したと思われるもとの腫瘍から何かしら変化していることを示唆することができる。また、この同じ方法を用いて、子供、父親、及び母親由来のシークエンシングされた試料を所与として、子供のゲノムの遺伝された部分を決定することができる。
【0080】
実施例II:体細胞変異体及び生殖系列変異体の呼び出し
(0078) BamBamは、ファイル対の中の配列データをゲノム全体にわたって同期するので、腫瘍と生殖系列の両方のBAMファイル及びヒト参照からのシークエンシングデータを必要とする複合突然変異モデルを容易に実行することができる。このモデルは、生殖系列遺伝子型(生殖系列読取物及び参照ヌクレオチドを所与とする)と腫瘍の遺伝子型(生殖系列遺伝子型、単一突然変異モデル、腫瘍試料中の混入する正常組織の割合の推定値、及び腫瘍配列データを所与とする)の両方の同時確率を最大化することを目的としている。
【0081】
(0079) 最適な腫瘍遺伝子型及び生殖系列遺伝子型を見出すために、本発明者らは、次式
【数1】
(式中、rは、観察された参照アレルであり、αは、正常混入物の比率であり、腫瘍遺伝子型及び生殖系列遺伝子型は、G
t=(t
1,t
2)及びG
g=(g
1,g
2)によって定義され、ここで、t
1,t
2,g
1,g
2∈{A,T,C,G}である)によって定義される確率を最大化することを目的としている。腫瘍配列データ及び生殖系列配列データは、それぞれ、D
t={d
t1,d
t2,…,d
tm}及びD
g={d
g1,d
g2,…,d
gn}という読取物の組として定義され、観察される塩基は、d
ti,d
gi∈{A,T,C,G}である。このモデルで用いられるデータは全て、ユーザが定義した塩基及びマッピング品質閾値を超えなければならない。
【0082】
(0080) 生殖系列遺伝子型を所与とした生殖系列アレルの確率は、4つのヌクレオチドに関する多項式:
【数2】
(式中、nは、この位置での生殖系列読取物の総数であり、n
A、n
G、n
C、n
Tは、各々の観察されたアレルを裏付ける読取物である)としてモデリングされる。塩基確率P(d
gi|G
g)は、独立であると仮定され、遺伝子型G
gにより表される2つの親アレルのどちらかに由来するが、シークエンサーのおおよその塩基エラー率も組み込んでいる。生殖系列遺伝子型の事前確率(prior)は、
【数3】
(式中、μ
aaは、その位置がホモ接合参照である確率であり、μ
abは、ヘテロ接合参照であり、μ
bbは、ホモ接合非参照である)のような参照塩基を条件とする。このとき、生殖系列の事前確率(prior)は、既知の遺伝性SNPに関する情報を全く組み込んでいない。
【0083】
(0081) 腫瘍読取物の組の確率も、同様に、多項式
【数4】
(式中、mはこの位置での生殖系列読取物の総数であり、m
A、m
G、m
C、m
Tは、腫瘍データセット中の各々の観察されたアレルを裏付ける読取物である)のように定義され、各々の腫瘍読取物の確率は、
【数5】
のように、正常混入物の比率αに支配される腫瘍遺伝子型と生殖系列遺伝子型の両方から得られる塩基確率を混合したものであり、腫瘍遺伝子型の確率は、生殖系列遺伝子型に関する単純な突然変異モデル
【数6】
によって定義され、この場合、突然変異なし(例えば、t
1=g
1)の確率が最大となり、転移(すなわち、A→G、T→C)は、トランスバージョン(すなわち、A→T、T→G)よりも4倍可能性が高い。多項分布に関する、全てのモデルパラメータ、α、μ
aa、μ
ab、μ
bb、及び塩基確率P(d
i|G)は、ユーザによる定義が可能である。
【0084】
(0082) 選択される腫瘍遺伝子型及び生殖系列遺伝子型、G
tmax、G
gmaxは、(1)を最大化するものであり、
【数7】
によって定義される事後確率を用いて、推測される遺伝子型の対の信頼度を得点化することができる。腫瘍遺伝子型と生殖系列遺伝子型が異なる場合、推定上の体細胞突然変異(複数可)がそのそれぞれの信頼度とともに報告される。
【0085】
(0083) 腫瘍遺伝子型と生殖系列遺伝子型の両方の同時確率を最大化することは、特に、一方又は両方の配列データセットが被覆率の低い特定のゲノム位置を有する状況において、両方の推測される遺伝子型の精度を向上させるのに役立つ。単一のシークエンシングデータセットを解析する、MAQ及びSNVMixなどの、他の突然変異呼び出しアルゴリズムは、非参照アレル又は突然変異体アレルが低い裏付けを有するときに、ミスを犯す可能性がより高い(Li,H.,et al.(2008)Mapping short DNA sequencing reads and calling variants using mapping quality scores,Genome Research,11,1851−1858;Goya,R.et al.(2010)SNVMix:predicting single nucleotide variants from next−generation sequencing of tumors,Bioinformatics,26,730−736)。
【0086】
(0084) 所与のゲノム位置での全読取物からアレルの裏付けを収集する他に、これらの読取物に関する情報(例えば、フォワード又はリバースのどちらの鎖に、読取物が位置するかということ、読取物内でのアレルの位置、アレルの平均的な品質など)を収集し、偽陽性細胞を選択的に除外するのに用いる。本発明者らは、変異体を裏付けるアレルの全てに対して、鎖及びアレル位置のランダム分布を予期しており、もし、分布が、このランダム分布から有意に傾斜する(すなわち、全ての変異体アレルが、読取物の最後尾付近に見られる)ならば、これは、変異体呼び出しが疑わしいことを示唆する。
【0087】
実施例III:全体的及びアレル特異的コピー数
(0085) 全体的な体細胞コピー数は、腫瘍データ又は生殖系列データのどちらかの被覆率に従ってウィンドウのゲノム幅を拡大及び縮小する動的ウィンドウアプローチを用いて計算される。このプロセスは、ゼロ幅のウィンドウで初期化される。腫瘍配列データ又は生殖系列配列データのどちらかに由来する各々の固有の読取物を、腫瘍カウントNt、又は生殖系列カウントNgへと集計する。各読取物の開始位置と終止位置は、ウィンドウの領域を定義し、新しい読取物が現在のウィンドウの境界を越えるときに拡大する。腫瘍カウント又は生殖系列カウントのどちらかがユーザ定義閾値を超えると、ウィンドウのサイズ及び位置、並びにNt、Ng、及び相対被覆率Ntが記録される。局所的な読取り被覆率に従ってNgウィンドウのサイズを調整することによって、被覆率の低い領域(例えば、反復領域)内の大きいウィンドウ、又は体細胞増幅を示す領域内の小さいウィンドウが作成され、それにより、アンプリコンのゲノム上での分解能が増大し、増幅の境界を定義する能力が増大する。
【0088】
(0086) アレル特異的コピー数は、示したように、生殖系列中でヘテロ接合とみなされる位置だけが含まれることを除いて、同様に計算される(
図2参照)。ヘテロ接合性は、一方のアレルが各々の親に起因する2つの異なるアレルを有すると考えられる生殖系列中の位置と定義される。同じゲノム区域中のデータを集約するために、全体的なコピー数について上で記載したのと同じ動的ウィンドウ技術を用いて、多数コピー数及び少数コピー数を計算する。ヘテロ接合部位の多数アレルは、そのゲノム位置に重なる腫瘍データセット中で最も多い裏付け読取物を有するアレルと本明細書で定義され、一方、少数アレルは、最も少ない裏付けを有するアレルである。腫瘍データと生殖系列データの両方において多数アレルによるものとされるカウントは全て、多数コピー数の計算に用いられ、少数アレルについても同様のことが行なわれる。その後、多数アレルカウント及び少数アレルカウントを生殖系列データ中の両方のアレルのカウントNgによって正規化し、多数コピー数及び少数コピー数を計算する。
【0089】
(0087) アレル特異的コピー数を用いて、ヘテロ接合性の消失(コピー−中立とコピー−損失の両方)、及び単一アレルに特異的な増幅又は欠失を示すゲノム領域を特定する。この最後の点は、疾患を引き起こす可能性があるアレルを、腫瘍配列データ中の増幅しているか又は欠失していないかのどちらかのアレルとして区別するのを助けるのに特に重要である。更に、ヘテロ接合性消失を経ている領域(例えば、1本の親染色体腕)を用いて、シークエンシングされた腫瘍試料中の正常混入物の量を直接推定することができ、これを用いて、上記の生殖系列遺伝子型及び腫瘍遺伝子型のモデリングを改善することができる。
【0090】
(0088)
図2は、アレル特異的コピー数計算の概略を示す。ヘテロ接合遺伝子型を有する位置は、生殖系列変異体呼び出しアルゴリズムで決定される場合、生殖系列シークエンシングデータと腫瘍シークエンシングデータの両方を用いて決定される。これらの位置に重なる全ての読取物を収集し、ヘテロ接合遺伝子型における2つのアレルの各々についての読取り裏付けを、腫瘍と生殖系列の両方に見出す。多数アレルを、最も大きい裏付けを有するアレルであると決定し、多数コピー数を、このカウントを生殖系列中のその位置での読取物の全体数で正規化することによって計算する。
【0091】
実施例IV:遺伝子型の同期
(0089) BamBamは、腫瘍内の大規模なゲノム増幅又は欠失によって生じたアレル不均衡を利用することにより、生殖系列中に見られる全てのヘテロ接合位置を同期しようとする。多数決塩基呼び出しを腫瘍配列データの全ての位置で選択し、腫瘍に存在する同期ハプロタイプを構築する。多数決によって、短い読取物のプール中で観察される最も多いアレルが選ばれ、これにより、欠失事象後に腫瘍内に残存するアレル又は増幅事象の重複アレルが選択されるはずである。各々の位置で、生殖系列のアレル状態も特定され、その場合、所要の読取り裏付けを有するアレルが1つしか存在しないならば、位置はホモ接合とみなされ、少なくとも2つのアレルが、所要の読取り裏付けを有するならば、ヘテロ接合とみなされる。腫瘍のハプロタイプは、2つの親ハプロタイプのうちの1つを表すと考えられ、その場合、2つ目の親ハプロタイプは、腫瘍ハプロタイプに属さない生殖系列アレルの配列として得られる。この手順は、腫瘍内のアレル比率を問わず、ゲノム規模で用いられるので、本発明者らは、遺伝子型のハプロタイプ帰属が、多数アレルと少数アレルの間で等しく均衡している領域内で本質的にランダムになると予想している。生殖系列配列の正確な同期は、腫瘍内の単一のゲノム事象(例えば、局所的な増幅又は欠失)に起因する一貫したアレル不均衡を示す領域でしか起こらない。腫瘍由来ハプロタイプの検証は、腫瘍由来ハプロタイプを、HapMapプロジェクト(International HapMap Consortium(2007),Nature,7164:851−861)から入手可能な同期遺伝子型と比較することによって達成することができる。
【0092】
実施例V:ペアエンドクラスタリングを用いた構造変動の推測
(0090) 推定上の染色体内及び染色体間再配列を同定するために、BamBamによって、ペアの各読取物が参照配列の異なる領域に位置する不一致のペア読取物を検索する。染色体内不一致ペアは、異常に大きい挿入サイズを有するもの(すなわち、ペア読取物を隔てる参照上のゲノム距離がユーザ定義閾値を超えるもの)、又は不正確な向きで位置するもの(すなわち、逆位)である。染色体間不一致ペアは、異なる染色体に位置するペア読取物により定義される。他のペアと同一の位置に整列する不一致のペアエンド読取物を全て除去し、短い読取物ライブラリーの調製におけるPCR増幅工程の結果であるにすぎない多数の読取物によって裏付けられる呼び出し再配列を避ける。このプロセスの概略を
図3に示す。
【0093】
(0091) 不一致のペアエンド読取物を全て、そのゲノム位置に従ってクラスタリングし、切断点であると考えられるおおよそのゲノム領域を定義する。集約プロセスは、推定上の切断点の両側の他の読取物に重なる独特の読取物をまとめることからなる。重複する読取物全ての鎖の向きも一致しなければならないか、又は該鎖の向きはペアのクラスターに含まれない。クラスター内の重複する不一致ペアの数がユーザ定義閾値を超える場合、再配列を記述する切断点を定義する。同じ位置で生殖系列データセットと腫瘍データセットの両方に存在する再配列がある場合、それらを以下のように比較する。生殖系列中に観察される構造変動が何らかの方法で腫瘍内で逆転し、参照と正確に一致する可能性は極めて低いので、生殖系列再配列には、腫瘍データセットと生殖系列データセットが同じ再配列を裏付けることが必要である。他方、体細胞再配列は、腫瘍シークエンシングデータ中で観察される必要しかなく、生殖系列データセットに実質的に存在する必要はない。これらの要件を満たす再配列は、後処理解析及び視覚化のために保存されるが、これらの要件を満たさない再配列は、シークエンシング装置か、試料調製(例えば、全ゲノム増幅)か、又は利用される短い読取物マッピングアルゴリズムの系統的バイアスかのどちらかによって生じる人為的な再配列として廃棄される。
【0094】
(0092)
図3は、構造変動呼び出しの概略を示す。推定上の構造変異体の最初の同定は、一致しない形でマッピングされた読取物ペアを用いてBamBamで確認されるが、その場合、両方の読取物は、参照ゲノムに完全に位置するものの、異常な、関連しない形で位置する。その後、BamBamによって見出される推定上の切断点を、任意の利用可能な分離読取物を用いて、bridgetと呼ばれるプログラムで精密化する。
【0095】
実施例VI:分離読取物を用いた構造変動の精密化
(0093) BamBamによって最初に見出される切断点は、それらが、その性質上、切断点の実際の接合部に重なり得ない完全にマッピングされた読取物を用いるという点において、近似的なものである。なぜなら、切断点の実際の接合部は、参照(又は体細胞再配列の場合、生殖系列データセット)に存在しない配列を表すからである。切断点の位置に関する知識を精密化するために、Bridgetと呼ばれるプログラムを開発した。これを
図4にまとめる。
【0096】
(0094) Bridgetは、BamBamによって見出されるおおよその切断点を与えられ、完全にマッピングされたメイトによって推定上の切断点付近に固定される全ての整列されていない読取物を検索する。これらのマッピングされていない読取物の各々は、再配列の切断点接合部に重なる「分離読取物」である可能性がある。切断点の両側を囲む局所的ゲノム配列を、1組の独特のタイル(現在、タイルサイズ=16bpである)に分割し、タイル配列及び参照ゲノム中のその位置のタイルデータベースを構築する。同様のタイルデータベースを、各々の整列されていない読取物について、読取物を同じサイズのタイルに分割し、読取物内のその位置を確認することによって構築する。参照タイルデータベースと整列されていないタイルデータベースを比較して、参照中の各々の整列されていないタイルのゲノム位置を決定する。これらの位置の「デュアルスパニングセット」は、切断点の各々の側ごとに、参照と整列されていない読取物の両方で連続しているタイルの最大の組を決定することによって計算される。
【0097】
(0095) 参照座標中の「デュアルスパニングセット」の最小ゲノム位置と最大ゲノム位置から、切断点の位置、及び配列の向き(又は鎖性)が正確に決定される。切断点の左右の境界を記述する情報を用いて、再配列された配列を完全に定義する、すなわち、左側を(染色体=chr1、位置=1000bp、鎖=フォワード)により定義し、右側を(染色体=chr5、位置=500,000bp、鎖=リバース)により定義する。切断点(すなわち、切断点の両方の境界で同一であることが認められるが、2つの配列の接合部の整列された読取物中に1回しか認められない、「CA」などの短い配列)の配列相同性もこれらのデュアルスパニングセットから決定される。
【0098】
(0096) 各々の整列されていない読取物について、デュアルスパニングセットは、切断点の潜在的な位置を決定する。各々の整列されていない読取物は、(切断点、反復参照などの近くの配列エラーによる)切断点のわずかに異なる位置を決定することができるので、デュアルスパニングセットから決定される全ての切断点位置を用いて、可能性のある接合部配列を生成させる。マッピングされていない読取物を全て、これらの可能性のある接合部配列の各々と新たに整列させ、これらの読取物がもとの配列に対してどの程度良く整列されたかということに照らして、そのアラインメントの全体的な改善を測定する。アラインメントスコアの最大の改善をもたらす接合部配列を真の再配列の最も優れた候補と判断する。この最も優れた接合部配列がアラインメントスコアの改善をほとんど又は全くもたらさない場合、真の再配列を表す可能性が低いので、この接合部配列を廃棄する。この場合、分離読取物確認の欠如が、BamBamによって見出されたもとの構造的再配列が人為的なものであり得るという証拠となることも明らかになり得る。
【0099】
(0097)
図4は、構造的再配列が起こったゲノム中の位置を正確に特定する例示的な方法を示す。タイル(又はkmer)を潜在的な分離読取物と参照ゲノムの両方について決定する。デュアルスパニングセット(この図の一番下にある太い赤と紫のボックスに相当する)を決定し、これにより、再配列された配列を構築する方法が完全に定義される。デュアルスパニングセットは、分離読取物中の配列エラー又はSNPに対して頑健である。
【0100】
実施例VII:腫瘍特異的ゲノムブラウザ
(0098) BamBamによって出力される結果の全てを視覚化するために、
図5に示すような、単一の腫瘍試料中に見られるゲノム変異体の全てを、そのマッチした正常と対比して同時にディスプレイする腫瘍ゲノムブラウザを開発した。全体的及びアレル特異的コピー数、染色体内及び染色体間再配列、並びに突然変異及び小さい挿入欠失をディスプレイすることができる。それは、線形プロットと円形プロットの両方でデータをディスプレイし、このうちの後者は、染色体間再配列をディスプレイするのにはるかにより優れている。
【0101】
(0099) データを1つの画像にまとめてディスプレイすることにより、ユーザは、単一の試料のデータを素速く操作し、コピー数の変化と構造変動の関係を理解することができる。例えば、巨大な染色体内欠失型再配列は、切断点と切断点の間の領域で一致したコピー数の低下を有するはずである。また、突然変異データをコピー数データとともにディスプレイすることにより、ユーザは、体細胞突然変異が後に増幅されたかどうか、又は野生型アレルが腫瘍内で欠失したかどうかを理解することができ、これらは両方とも、この試料の腫瘍発生におけるゲノム遺伝子座の重要性を示唆する不可欠なデータ点である。
【0102】
(00100)
図5は、例示的な腫瘍特異的ゲノムブラウザを示す。このブラウザは、1つの画像中でBamBamにより発見される高レベルの体細胞差異の全てを示し、これにより、多数の個別データセットの合成が可能になり、腫瘍のゲノムの全体像が与えられる。ブラウザは、上に示したようなゲノムの全体像から数クリックで1塩基の分解能へと移動し、ゲノム領域を迅速にズームイン及びズームアウトすることができる。
【0103】
実施例VIII:コンピュータ要件
(00101) BamBamとBridgetはともにC言語で書かれ、標準Cライブラリと最新のSAMtoolsソースコード(http://samtools.sourceforge.netで入手可能)しか必要としなかった。それは、単一のプロセスとして実行されるか、又はクラスター全体で一連の作業に分割される(例えば、染色体1本当たり1作業)ことができる。各々、数十億個の100bpの読取物を含む250GB BAMファイルの対を処理して、BamBamは、その全ゲノム解析を、単一プロセスとして約5時間、又は中程度のクラスター(24個のノード)を用いて約30分で終了する。BamBamのコンピュータ要件は無視できる程度であり、単一のゲノム位置に重なる読取物データを保存するのに十分なRAM、及び腫瘍ゲノム又は生殖系列ゲノムのどちらかに見られる十分に裏付けられた変異体を保存するのに十分なディスク空き容量しか必要としなかった。
【0104】
(00102) Bridgetも、非常に控え目なコンピュータ要件を有していた。単一機での実行時間は、通常、1秒未満であったが、これには、参照配列と任意の潜在的な分離読取物を切断点の近くに集め、参照と分離読取物の両方についてタイルデータベースを構築し、全てのデュアルスパニングセットを決定し、潜在的な接合部配列を構築し、参照配列と各々の接合部配列の両方に対して全ての分離読取物を再整列させ、最も優れた接合部配列を決定するのに必要な時間が含まれる。高度に増幅されているか又はマッピングされていない多数の読取物を有する領域は、Bridgetの実行時間を増大させるが、これは、Bridgetの容易な並列可能性によって軽減することができる。
【0105】
実施例IX:ゲノムDNAの単離
(00103) 血液又は他の組織試料(2〜3ml)を患者から回収し、使用するまで−80℃でEDTA含有チューブに保存する。製造業者の指示(PUREGENE,Gentra Systems,Minneapolis MN)に従ってDNA単離キットを用いて、ゲノムDNAを血液試料から抽出する。DNAの純度を、Beckman分光光度計で測定される260nm及び280nmでの吸光度の比として測定する(1cmの光路;A
260/A
280)。
【0106】
実施例X:SNPの同定
(00104) 患者のDNA試料由来の遺伝子の領域を、その領域のために特異的に設計されたプライマーを用いて、PCRで増幅する。PCR産物を、上で開示されているように、当業者に周知の方法を用いてシークエンシングする。配列トレース中で同定されるSNPを、Phred/Phrap/Consedソフトウェアを用いて検証し、NCBI SNPデータバンクに寄託されている既知のSNPと比較する。
【0107】
実施例XI:統計解析
(00105) 値は、平均±SDで表されている。χ
2解析(Web Chi Square Calculator,Georgetown Linguistics,Georgetown University,Washington DC)を用いて、正常な対象における遺伝子型頻度と障害を有する患者における遺伝子型頻度の違いを評価する。事後解析を伴う一元ANOVAを示されているように実施して、異なる患者集団間の血行動態を比較する。
【0108】
(00106) 当業者であれば、本発明の範囲及び精神を逸脱することなく、今述べた実施形態の様々な適応及び修飾を構成することができることを理解するであろう。当技術分野で公知の他の好適な技術及び方法は、当業者によって、かつ本明細書に記載された本発明の説明に照らして、数多くの具体的なモダリティに適用されることができる。それゆえ、本発明を、本明細書で具体的に記載されたもの以外の形で実施することができることが理解されるべきである。上の記載は、例示を意図するものであって、限定を意図するものではない。上の記載を概観することにより、他の多くの実施形態が当業者に明らかになるであろう。それゆえ、本発明の範囲は、添付の特許請求の範囲を参照して、そのような特許請求の範囲が認められる等価物の完全な範囲とともに、決定されるべきである。