【実施例】
【0138】
実施例I:データソース
(00177)Chin(2007 上記)の乳癌コピー数データを、NCBI Gene Expression Omnibus(GEO)から受託番号GPL5737に基づき、GSE8757からの関連するアレイプラットフォームアノテーションと共に入手した。
【0139】
(00178)プローブアノテーションをBED15フォーマットに変換し、UCSC癌ゲノミクスブラウザ(UCSC Cancer Genomics Browser)(Zhu:2009、上記)に表示して、続いて分析した。アレイデータをプローブIDによってプローブアノテーションにマッピングした。Naderi(2007、上記)からの適合する発現データを、EBI社のMIAMIExpressから受託番号E−UCon−1を使用して入手した。Human 1A(V2)についてのプラットフォームアノテーション情報を、Agilent社のウェブサイトから入手した。発現データをプローブレベル中央値で正規化し、プローブIDによってHUGO遺伝子名にマッピングした。
【0140】
(00179)全てのデータを、全ての試料−プローブ値を含む順位付け手順を用いてノンパラメトリックに正規化し、順位に基づき各遺伝子−試料ペアに符号付きp値を与えた。0.05の最大p値を使用して、有意に変化した遺伝子−試料ペアを決定した。
【0141】
(00180)TCGAからの膠芽腫データを、Affymetrix U133Aプラットフォームにおいて230個の患者試料及び10個の隣接する正常組織についての遺伝子発現を提供するTCGA Data Portalから入手した。患者試料のプローブを、各プローブの正常中央値を減じて正常組織に対して正規化した。加えて、同じ患者集合についてのCBSでセグメント化(Olshen:2004 上記 1618頁)されたコピー数データを入手した。両方のデータセットを、乳癌データと同じ手順を用いてノンパラメトリックに正規化した。
【0142】
実施例II:パスウェイ概論
(00181)本発明者らは、米国国立癌研究所パスウェイ相互作用データベース(NCI PID)から利用可能なキュレーションされたパスウェイの集合を集めた(Schaefer:2009 上記)。各パスウェイは、内因性及び外因性の細胞以下レベル、細胞レベル、組織レベル、又は生物体レベルのイベント及び表現型を表す高次の生体分子過程の周辺で論理的にグループ化された相互作用の集合を表す。BioPAXレベル2フォーマットのパスウェイをダウンロードした。全てのエンティティ及び相互作用を、Rasqal RDFエンジンを使用してSPARQLクエリで抽出した。
【0143】
(00182)本発明者らは、3つの物理的実態(タンパク質コード遺伝子、小分子、及び複合体)、遺伝子ファミリー、及び抽象的プロセスを含む5つの異なる種類の生物学的実体(エンティティ)を抽出した。BioPAXタンパク質についての相互参照が異なる遺伝子からのタンパク質を挙げるときは常に、遺伝子ファミリーを作成した。遺伝子ファミリーは、いずれの単一の遺伝子も特定の機能を果たすのに十分である遺伝子の集まりを表す。例えば、冗長な役割を有する相同体、及び互いを機能的に補うことが認められる遺伝子は、ファミリーに組み入れられる。
【0144】
(00183)抽出により、種々のタイプを説明するアノテーション付きのパスウェイで使用されるあらゆるエンティティ及び相互作用のリストが作られた。本発明者らはまた、「アポトーシス」などの、NCIコレクションに存在し得る一般的なプロセスを指す抽象的プロセスも抽出した。例えば、p53腫瘍抑制遺伝子が関与する相互作用を詳述するパスウェイはアポトーシス及び老化へのリンクを含み、それは機械学習による分類のための特徴として利用することができる。
【0145】
(00184)予想どおり、C2E相関は中程度であったが、活性化相互作用間で、偶然で予想されるものと比べて正の相関に対して顕著な濃縮を有した(
図3)。E2E相関は更に強く、同様に濃縮した。従って、特徴付けしにくい癌のこの例であっても、パスウェイ相互作用の有意なサブセットはゲノム変化を遺伝子発現における調節と連結し、パスウェイレベルの手法が追及するに値するという着想が裏付けられる。
【0146】
実施例III:生物学的パスウェイのモデル化及び予測
(00185)本発明者らは、初めに各NCIパスウェイを個別の確率モデルに変換した。p53アポトーシスパスウェイのごく一部の小例を
図2に示す。NCIのパスウェイ図を、隠れ状態及び観測状態の両方を含む因子グラフに変換した。因子グラフは、エンティティ間の既知の相互作用を表す構造により、遺伝子関連及び生物学的プロセス関連の状態情報に関する観測を統合する。
【0147】
(00186)生物学的パスウェイを因子グラフで表現するために、本発明者らは、特定のmRNA又は複合体などの細胞中のエンティティの状態を変数を用いて記述し、かつこれらのエンティティ間の相互作用及び情報フローを因子を用いて表現する。これらの変数は各エンティティの示差的状態(\textit{differential})を、分子エンティティの直接的な濃度ではなく、「対照」又は正常レベルとの比較で表現する。この表現により、本発明者らは、多くの場合に遺伝子の示差的状態を直接計測するか、又は直接的な計測値を対応する対照との相対的な計測値に変換するかのいずれかであるDNAマイクロアレイによって検出される遺伝子発現などの、多くのハイスループットデータセットをモデル化することが可能になる。また、遺伝子間の多種の調節関係についても可能になる。例えば、p53のMDM2媒介性ユビキチン依存性分解を表す相互作用は、p53タンパク質レベルを阻害する活性化MDM2としてモデル化することができる。
【0148】
(00187)因子グラフは、各エンティティのランダム変数X={x
i,x
i,....,x
n}と、エンティティを制約して互いの関数として生物学的に意味のある値をとらせるm個の非負関数、すなわち因子の集合とを使用して細胞の状態を符号化する。j番目の因子φ
jは、エンティティに関する部分集合X
j⊂Xの確率分布を定義する。
【0149】
(00188)エンティティ及び因子のグラフ全体は、以下のとおりに全エンティティに関する同時確率分布を符号化する:
【数1】
式中、Z=Π
jΣ
s xjφ
j(S)は正規化定数であり、S Xは、SがXにおける変数の「セッティング」であることを表す。
【0150】
(00189)各エンティティは、対照レベル(例えば、正常組織で計測されるとおりの)と比べて活性化、基準どおり、又は不活性化に対応する3つの状態のうちの1つをとることができ、それぞれ1、0、又は−1として符号化され得る。状態は、エンティティの種類(例えば、遺伝子、タンパク質等)に応じて様々に解釈され得る。例えば、活性化されたmRNAエンティティは過剰発現を表す一方、活性化されたゲノムコピーエンティティはゲノムに3コピー以上が存在することを表す。
【0151】
(00190)
図2は、単一のタンパク質コード遺伝子についての因子グラフの概念モデルを示している。パスウェイ中の各タンパク質コード遺伝子Gについて、エンティティを導入することによりゲノムのコピー数(G
DNA)、mRNA発現(G
mRNA)、タンパク質レベル(G
protein)、及びタンパク質活性(G
protein)(
図2で「DNA」、「mRNA」、「タンパク質」、及び「活性」と表示された楕円)を表現する。パスウェイの全ての化合物、タンパク質複合体、遺伝子ファミリー、及び抽象的プロセスに、本発明者らは分子タイプが「活性」の単一変数を含める。
【0152】
(00191)
図2の例は1つのプロセス(「アポトーシス」)のみを示すが、実際には多くのパスウェイは、遺伝子活性の出力(例えば、「アポトーシス」及び「老化」)から入力(例えば、「DNA損傷」)に至る全てを表現するこのような複数のプロセスを有する。
【0153】
(00192)因子の構成を単純にするため、本発明者らは初めにパスウェイを有向グラフに変換し、そのグラフの各エッジに正又は負のいずれかの影響のラベルを付与する。第一に、本発明者らは全てのタンパク質コード遺伝子Gについて、G
DNAからG
mRNAに、G
mRNAからG
proteinに、及びG
proteinからG
proteinにラベル「正」を有するエッジを加え、そのコピー数からその活性化形態のタンパク質産物の存在に至る遺伝子の発現を反映する。パスウェイ中の全ての相互作用は、有向グラフの単一のエッジに変換される。
【0154】
(00193)この有向グラフを使用して、次に本発明者らは、因子グラフを特定する因子のリストを作成する。全ての変数x
iについて、本発明者らは単一の因子φ(X
i)を加え、式中、X
i={x
i}∪{Parents}(x
i)}、及びParents(x
i)は有向グラフにおけるx
iの全ての親を指す。全ての値のセッティングに対する因子の値は、x
iがParents(x
i)のセッティングによるその期待値に一致するかどうかに依存する。
【0155】
(00194)この研究について、期待値は親変数の過半数の票に設定される。親が正のエッジにより連結される場合、それは、因子の値に対してそれ自体の状態の+1倍の票に寄与する。逆に、親が負のエッジにより連結される場合、その変数はそれ自体の状態の−1倍を投票する。「最小」のラベルが付されたエッジによってx
iに連結される変数は、単一の票を獲得し、その票の値はこれらの変数の最小値であり、AND状の連結をもたらす。同様に、「最大」のラベルが付されたエッジによってx
iに連結される変数は、単一の票を獲得し、その票の値はこれらの変数の最大値であり、OR状の連結をもたらす。ゼロの票は棄権票として取り扱う。投票がない場合、期待される状態はゼロである。そうでない場合、過半数の票が期待される状態であり、かつ1と−1とが同点であると、抑制因子及び欠失により重点が置かれて−1の期待される状態となる。期待される状態のこの定義を考慮して、φ
i(x
i,Parents(x
i))は以下のとおり特定される:
【数2】
【0156】
(00195)ここに示す結果について、εは0.001に設定したが、イプシロンの選択における桁の差異は結果に有意な影響を及ぼさなかった。最後に、本発明者らは因子グラフに観測変数及び因子を加えて、パスウェイ及び多次元機能的ゲノミクスデータの統合を完了する(
図2)。離散化した機能的ゲノミクスデータセットの各々は、タンパク質コード遺伝子の分子タイプの1つに関連付けられる。
【0157】
(00196)コピー数変化のアレイCGH/SNP推定は「ゲノム」型に関連付けられる。遺伝子発現データは「mRNA」型に関連付けられる。ここでの結果に提示しないが、将来の拡張には、「mRNA」型のDNAメチル化データ、並びに「タンパク質」型及び「活性」型のプロテオミクス及び遺伝子リシーケンシングのデータが含まれる。各観測変数はまた3つ組の値である。次に記載するとおり、各観測データ型に関連付けられる因子は全エンティティ間で共有され、データから学習される。
【0158】
実施例IV:推論及びパラメータ推定
(00197)割り当ての集合D={x
1=s
1,x
2=s
2,x
2,....,x
k=s
k}は、添え字1〜kが付与された観測変数に関する患者のデータの完全集合を表すとする。{S
DX}は、Dにおける割り当てと一致する変数Xの集合のあらゆる可能な割り当ての集合を表すとする;すなわち隠れ変数は変化し得るが、任意の観測変数x
1はDにおけるその割り当てに固定される。
【0159】
(00198)患者データを考慮して、本発明者らは、特定の隠れエンティティx
1が状態aであり得るかどうか、例えば、どの程度TP53のタンパク質活性が−1(不活性化)であり得るか、又は「アポトーシス」が+1(活性化)であり得るかを推定しようとする。これを行うには、本発明者らは患者のデータを観測する前にイベントの事前確率を計算しなければならない。A
i(a)が単集合の割り当て集合{x
1=a}を表し、かつφが完全に規定された因子グラフである場合、この事前確率は:
【数3】
であり、式中、Zは方程式(1)に導入された正規化定数である。同様に、患者の全ての観測と共にx
1が状態aである確率は:
【数4】
である。
【0160】
(00199)本発明者らは、パスウェイの大部分にHUGIN最新版によるジャンクションツリー推論アルゴリズムを使用した。患者当たりの推論が3秒間より長くかかるパスウェイについては、本発明者らは、逐次更新、収束許容値10
-9、及び最大反復10,000回で信念伝搬法を使用する。全ての推論は、対数領域に対するものとしての実領域で実施し、libDAI(Mooij:2009 上記)で実施した。
【0161】
(00200)観測因子のパラメータの学習に、本発明者らは期待値最大化(EM)アルゴリズム(Dempster(1977)上記)を用いる。簡潔に言えば、EMは、隠れ変数の確率を推論することと、隠れ変数の確率を所与とする尤度を最大化するようにパラメータを変更することとを反復して行うことにより、隠れ変数を含むモデルのパラメータを学習する。本発明者らはコードを書いてlibDAIに提供し、EMを実行した。各パスウェイについて、本発明者らは患者毎の因子グラフを作成し、患者データを適用し、かつ尤度の変化が0.1%未満になるまでEMを実行した。本発明者らは各パスウェイから学習したパラメータを平均化し、次にこれらのパラメータを使用して、各変数についての最終的な事後信念を計算した。
【0162】
(00201)推論後、本発明者らは「活性」分子タイプを有する各変数について統合パスウェイ活性を出力した。本発明者らは方程式2及び3からの数量を使用して、エンティティiの活性が上昇(uo)又は低下するという本発明者らの信念が患者データによって増加する程度を反映する対数尤度比を計算した:
【数5】
【0163】
(00202)次に、本発明者らは、
【数6】
として、対数尤度比に基づき遺伝子iについての単一の統合パスウェイ活性(IPA)を計算した。
【0164】
(00203)直感的には、IPAスコアは、対数尤度比Lの符号付きの類似形を反映する。
【0165】
(00204)遺伝子が活性化される可能性が高い場合、IPAはLに設定される。或いは、遺伝子が不活性化される可能性が高い場合、IPAは対数尤度比の負値に設定される。遺伝子が変わらない可能性が最も高い場合、IPAはゼロに設定される。各パスウェイは、他のパスウェイとは独立して分析される。従って遺伝子は、1つの遺伝子がそれが現れる各パスウェイへと、複数の推論に関連付けられることができる。同じ遺伝子についての推論が異なることは、遺伝子のパスウェイ文脈に応じた代替的なデータ解釈と見ることができる。
【0166】
実施例V:有意性評価
(00205)本発明者らは、データの2つの異なる順列によりIPAスコアの有意性を評価する。「within」順列について、初めにランダムな実サンプルを選択し、次に同じパスウェイ内からランダムな遺伝子を選択することによって、新しいデータタプル(すなわち対応した遺伝子発現及び遺伝子コピー数)の選択を、パスウェイの各遺伝子についてタプルが選択されるまで行うことにより、順列化したデータサンプルを作成する。「any」順列も手順は同じであるが、ランダムな遺伝子を選択するステップは、ゲノムのどこからでも遺伝子を選択し得る。両方の順列タイプについて、1,000個の順列サンプルが作成され、順列化サンプル毎に摂動スコアが計算される。順列化サンプルからの摂動スコアの分布をヌル分布として用いて、真の試料の有意性を推定する。
【0167】
実施例VI:シグナル伝達パスウェイ影響解析(SPIA)
(00206)Tarca(2009,上記)によるシグナル伝達パスウェイ影響解析(SPIA)をCで実行して実行時間を低減し、本発明者らの解析環境に適合するものとした。本発明者らはまた、より詳細な出力を提供する能力も追加して、SPIA出力とPARADIGM出力とを直接比較できるようにした。本発明者らのSPIAバージョンは、パスウェイのエンティティ毎に累積摂動及び摂動係数を出力することができる。このコードは要求に応じて利用可能である。
【0168】
実施例VII:デコイパスウェイ
(00207)各癌データセットについてデコイパスウェイ集合を作成した。各NCIパスウェイを使用してデコイパスウェイを作成し、これは同じ構造から成るが、パスウェイのあらゆる遺伝子はRefGene社のランダム遺伝子に置換した。全ての複合体及び抽象的プロセスは同じままとし、PARADIGM及びSPIAの両方についての有意性分析を実パスウェイ及びデコイパスウェイの両方を含むパスウェイの集合に対して実行した。パスウェイは各方法内で順位付けし、全パスウェイに対する実パスウェイの割合を計算して視覚化した。
【0169】
実施例VIII:クラスタリング及びカプラン・マイヤー分析
(00208)重心連結による非中心化相関階層的クラスタリングを、Eisen(1998 上記 1621頁)の方法を用いて膠芽腫データに対して実行した。75例の患者試料間で少なくとも0.25のシグナルを有するIPAのみをクラスタリングに使用した。目視検査により4つの明らかなクラスターが現れ、それをカプラン・マイヤー分析に使用した。Rを使用してカプラン・マイヤー曲線を計算し、ログランク統計によってp値を求めた。
【0170】
実施例IX:PARADIGMの検証
(00209)EM訓練手順の質を評価するため、本発明者らは遺伝子発現とコピー数とのタプル(E,C)が遺伝子及び患者にわたって順列化されているヌルデータセットと比べた実際の患者データを使用して、EMの収束を比較した。予想どおり、PARADIGMは、真のデータセットではヌルデータセットと比べてはるかに急速に収束した。例として、本発明者らは遺伝子AKT1についてのIPAをEM反復の関数としてプロットした(
図4)。活性が最初の数回の反復で急速に収束することが分かる。EMは実際の患者データで訓練したとき活性化レベルに急速に収束したが、一方、ランダムデータを入れたときは活性不変に収束した。この収束により、パスウェイ構造及び推論は、統合された患者データにおける活性パターンを成功裏に特定可能であることが示唆される。
【0171】
(00210)本発明者らは次に、乳癌及びGBMの両方のコホートに対してPARADIGMを実行した。本発明者らは統計的シミュレーション手順を開発し、負の分布から予想され得るものと比べてどのIPAが有意に異なるかを決定した。本発明者らは負の分布をパスウェイにおける全ての患者間及び遺伝子間で順列化することにより作成した。経験的に、本発明者らは、各遺伝子がネットワークにより決定される異なるトポロジー的文脈を有するという事実の補正を促進するには、パスウェイの遺伝子間のみでの順列化が必要であることが分かった。乳癌データセットでは、56,172個のIPA(全体の7%)が、対応する陰性対照と比べて有意に高い又は低いことが分かった。平均して、NCIパスウェイは患者当たり497個の有意なエンティティを有し、127個中103個のパスウェイは20%以上の患者で変化した少なくとも1つのエンティティを有した。GBMデータセットでは、141,682個のIPA(全体の9%)が、対応する陰性対照と比べて有意に高い又は低いことが分かった。平均して、NCIパスウェイは患者当たり616個の有意なエンティティを有し、127個中110個のパスウェイは20%以上の患者で変化した少なくとも1つのエンティティを有した。
【0172】
(00211)別のコントロールとして、本発明者らは、NCIパスウェイの遺伝子と同じように連結される任意の遺伝子から統合活性を得ることができるかという問いを立てた。これを行うため、本発明者らは偽発見率を推定し、それをSPIA(Tarca:2009 上記)と比較した。多くの遺伝的ネットワークが癌に関係していることが分かっているため、本発明者らは陰性対照集合として模擬「デコイ」パスウェイを使用することを選択した。各NCIパスウェイについて、本発明者らはNCIパスウェイと同じネットワーク構造を使用してゲノム中のランダム遺伝子を互いに連結することにより、デコイパスウェイを作成した。
【0173】
(00212)次に本発明者らはPARADIGM及びSPIAを実行して、NCIパスウェイ及びデコイパスウェイの両方のIPAを導き出した。PARADIGMについては、本発明者らはパスウェイサイズで正規化した後に患者間で有意であることが分かったIPAの数により、各パスウェイを順位付けした。SPIAについては、パスウェイは、それらの計算された影響係数に従い順位付けした。本発明者らは、PARADIGMはSPIAと比べて最上位の活性化パスウェイからより多くのデコイパスウェイを除外することを見出した(
図5)。例えば乳癌では、PARADIGMは、上位10に1個、上位30に2個、及び上位50に4個のデコイを順位付けする。それに対してSPIAは、上位10に3個、上位30に12個、及び上位50に22個のデコイを順位付けする。NCI IPAの順位の全体的な分布は、順位の累積分布をプロットすることで観察すると、SPIAよりもPARADIGMの方が高い(P<$0.009、K−S検定)。
【0174】
実施例X:乳癌及びGBMにおける上位PARADIGMパスウェイ
(00213)本発明者らは、NCIパスウェイを本発明者らの順列解析により検出されたエンティティ当たりのその有意なIPAの平均数に従い並べ替え、乳癌(表1)及びGBM(表2)における上位15を計算した。
【0175】
(00214)上位15のうちのいくつかのパスウェイは、既にそのそれぞれの癌に関連付けられている。乳癌では、SPIA及びPARADIGMの両方が、エストロゲン関連パスウェイ及びErbB2関連パスウェイを検出することができた。最近の主なメタ分析研究では(Wirapati P,Sotiriou C,Kunkel S,Farmer P,Pradervand S,Haibe−Kains B,Desmedt C,Ignatiadis M,Sengstag T,Schutz F,Goldstein DR,Piccart M,Delorenzi M.Meta−analysis of gene expression profiles in breast cancer:toward a unified understanding of breast cancer subtyping and prognosis signatures.Breast Cancer Res.2008;10(4):R65)、Wirapetiらは、エストロゲン受容体及びErbB2の状態が、乳癌における僅か3つの主要な予後診断サインのうちの2つであることを見出した。PARADIGMはまた、AKT1関連PI3Kシグナル伝達パスウェイを、いくつかの試料において有意なIPAを有する最上位のパスウェイとして特定することができた(
図6を参照のこと)。
【0176】
【表1】
【0177】
【表2】
【0178】
(00215)抗アポトーシスAKT1セリン−スレオニンキナーゼは乳癌に関与することが知られており、ERBB2パスウェイと相互作用する(Ju X,Katiyar S,Wang C,Liu M,Jiao X,Li S,Zhou J,Turner J,Lisanti MP,Russell RG,Mueller SC,Ojeifo J,Chen WS,Hay N,Pestell RG.Akt1 governs breast cancer progression in vivo.Proc.Natl.Acad.Sci.U.S.A.2007 May;104(18):7438−7443)。GBMでは、FOXM1及びHIF−1−αの両方の転写因子ネットワークが広範に研究されており、高悪性度の膠芽腫においては悪性度の低い神経膠腫と比べて過剰発現することが示されている(Liu M,Dai B,Kang S,Ban K,Huang F,Lang FF,Aldape KD,Xie T,Pelloski CE,Xie K,Sawaya R,Huang S.FoxM1B is overexpressed in human glioblastomas and critically regulates the tumorigenicity of glioma cells.Cancer Res.2006 Apr.;66(7):3593−3602;Semenza GL.HIF−1 and human disease:one highly involved factor.Genes Dev.2000 Aug.;14(16):1983−1991)。
【0179】
実施例XI:データセットの視覚化
(00216)PARADIGM推論の結果を視覚化するため、本発明者らは、パスウェイにおける各遺伝子周りを中心として複数のデータセットを表示するための「CircleMap」視覚化を開発した(
図7)。この表示では、遺伝子周りに同心円状の輪をプロットすることにより、各遺伝子がコホート間のその全てのデータと関連付けられ、各輪は、単一の種類の計測値又は計算推論に対応する。輪の中の各度数刻みは単一の患者試料に対応し、一方で色は活性化レベル(赤色)、不活性化レベル(青色)、又は不変化レベル(白色)の活性に対応する。本発明者らはErbB2パスウェイのサブセットについてCircleMapをプロットし、乳癌コホートからのER状態、IPA、発現、及びコピー数データを含めた。
【0180】
(00217)遺伝子発現データは、様々な癌の分子サブタイプを定義することに成功している。癌サブタイプは、薬物感受性及び全生存などの種々の臨床転帰と相関することが分かっている。本発明者らは、GBMについて、生の発現データではなくPARADIGM IPAを使用して有益な情報を提供するサブタイプを同定できるかという問いを立てた。IPAを使用することの利点は、IPAが、コピー数、発現、及び遺伝子間の既知の相互作用における要約を提供し、従って意味のある患者サブグループを明らかにするためのよりロバストなサインを提供し得ることである。本発明者らは、初めに、GBM試料間で少なくとも中程度に繰り返し活性化した全てのIPAを決定し、1,755個のエンティティが229例中少なくとも75例の試料で0.25のIPAを有したことを見出した。本発明者らはこれらのエンティティの全てのIPAを活性行列に集めた。次に試料及びエンティティを、非中心化ピアソン相関及び重心連結による階層的クラスタリングを用いてクラスター化した(
図8)。
【0181】
(00218)目視検査から、IPAに基づき4つの明らかなサブタイプが明らかとなり、第4のサブタイプは最初の3つと明らかに異なった。第4のクラスターは、明らかなHIF−1−α転写因子ネットワークの下方制御並びにE2F転写因子ネットワークの過剰発現を示す。HIF−1−αは、低酸素状態への応答の調節に関与する主転写因子である。対照的に、最初の3つのクラスターのうちの2つは、EGFRサインが高く、かつGATAインターロイキン転写カスケードを含む不活性MAPキナーゼカスケードを有する。興味深いことに、EGFRの突然変異及び増幅は高悪性度の神経膠腫並びに膠芽腫と関連付けられている(Kuan CT,Wikstrand CJ,Bigner DD.EGF mutant receptor vIII as a molecular target in cancer therapy.Endocr.Relat.Cancer 2001 Jun.;8(2):83−96)。増幅及び特定の突然変異により、二量体の自己刺激又はリガンド非依存性の活性化のいずれかを介して構成的に活性なEGFRが生じ得る。EGFRが構成的に活性化すると、腫瘍形成及び固形腫瘍の進行が促進され得る。EGFRを標的化することが公知の分子であるゲフィチニブは、現在、他のEGFR駆動の癌におけるその効力について調査されている。従って、定性的にはクラスターは患者を層別化し得る生物学的に有意義な論題に焦点を合わせているように思われる。
【0182】
(00219)これらの観測を定量化するため、本発明者らは、PARADIGMにより同定される種々のGBMサブタイプが種々の生存プロファイルと一致するかという問いを立てた。本発明者らは、4つのクラスターの各々について、初回診断後の月数に対して生存患者の割合をプロットすることにより、カプラン・マイヤー曲線を計算した。本発明者らは4つのクラスターの各々についてカプラン・マイヤー生存曲線をプロットし、個別的なIPAサインと関連付けられる任意のクラスターが生存転帰を予測するかどうかを確かめた(
図9)。第4のクラスターは他のクラスターと大きく異なる(P<2.11×10
-5;コックス比例ハザード検定)。最初の3つのクラスターの患者の半数は18ヶ月を超えて生存する;クラスター4の患者について生存は有意に増加し、半数が30ヶ月超生存する。加えて、20〜40ヶ月の範囲にわたり、クラスター4の患者は他のクラスターの患者の2倍生存する可能性が高い。
【0183】
実施例XII:クラスターについてのカプラン・マイヤー生存プロット
(00220)生存分析から、クラスター4の患者は有意により良好な生存プロファイルを有することが明らかとなった。クラスター4は、網膜芽細胞腫抑制因子と共に作用するE2Fの上方制御を有することが分かった。従ってE2Fの上方制御は、クラスター4の患者からの腫瘍試料における細胞周期進行の能動的抑制と整合する。加えて、クラスター4はHIF−1−α転写因子の不活性と関連付けられた。第4のクラスターにおける不活性は、腫瘍がより酸素化されていて、それらがより小さい、又はより新しい腫瘍であり得ることを示唆するマーカーとなり得る。従って、PARADIGM IPAは、顕著に異なる生存転帰を有するサブタイプを描出するのに意味のあるプロファイル集合を提供する。
【0184】
(00221)比較のため、本発明者らはまた、発現データ又はCNAデータのみを用いた患者のクラスタリングにより、患者サブタイプを導き出すことを試みた。これらのデータソースのいずれを用いたクラスタリングからも明らかな群は見出されず、このデータセットの元のTCGA解析における知見と一致した(TCGA:2008)(
図14を参照のこと)。これは、遺伝子間の相互作用及び結果的に生じる個々の遺伝子発現の組み合わせ出力は、患者転帰としてのこのような複雑な表現型のより優れた予測因子を提供し得ることを示唆している。
【0185】
実施例XIII:卵巣癌の統合ゲノム解析:試料及び臨床データ。
(00222)この報告では、489個の臨床的にアノテートされたステージII−IVのHGS−OvCa及び対応する正常なDNAの解析を取り上げている。患者は、HGS−OvCaと診断された個体の診断時の年齢、病期、腫瘍悪性度、及び手術転帰を反映した。臨床データは2010年8月25日現在のものであった。HGS−OvCa標本は全身的治療の前に外科的に切除され、但し全ての患者は白金剤の投与を受け、及び94%がタキサンの投与を受けた。このコホートの無進行生存及び全生存の中央値は、既に公表されている治験11、12と同様である。患者の25%は無病のままであり、及び45%は最終経過観察時に生存していた一方、31%は白金ベース療法の完了後6ヶ月以内に進行した。中央値の追跡は30ヶ月であった(範囲0〜179)。TCGA解析用の試料は、70%超の腫瘍細胞核、かつ20%未満の壊死を有するよう選択した。
【0186】
(00223)独立した部位に複数の分子アッセイを用いる協調分子解析を、表4に記載のとおり(データはhttp://tcga.cancer.gov/dataportalで入手可能)二階層で実施した。階層1のデータセットは公開されているが、階層2のデータセットは個人を特定し得る臨床情報又はゲノム情報を含むため、http://tcga.cancer.gov/dataportal/data/access/closed/に記載されるとおり資格を必要とする。
【0187】
実施例XIV:突然変異解析。
(00224)316個のHGS−OvCa試料から単離したDNA及び各個体に対応する正常試料に対し、エキソームキャプチャー及びシーケンシングを実施した。キャプチャー試薬は、合計約33メガベースの非冗長配列の約18,500個の遺伝子から約180,000個のエクソンを標的化した。Illumina社のGAIIxプラットフォーム(236試料ペア)又はABI社のSOLiD 3プラットフォーム(80試料ペア)での超並列シーケンシングにより、試料当たり約14ギガベース(合計約9×10
9塩基)が得られた。平均して、コード塩基の76%が腫瘍及び対応する正常試料の両方において十分な深さで網羅され、確信的な突然変異検出が可能となった。19,356個の体細胞突然変異(腫瘍当たり約61個)をアノテートし、表4に分類した。HGSOvCa病態生理学において重要であり得る突然変異を、(a)バックグラウンドと比べて有意に増加した頻度で存在する非同義変異又はスプライス部位変異を探し出し、(b)この研究の突然変異をCOSMIC及びOMIMの突然変異と比較し、かつ(c)タンパク質機能に対する影響を予測することにより、同定した。
【0188】
(00225)2つの異なるアルゴリズムにより、非同義変異又はスプライス部位変異の数が突然変異分布モデルに基づき予想される数を有意に上回った9個の遺伝子が同定された(表5)。公表されている結果13と一致して、TP53は316個中303個の試料において突然変異し(283個は自動化された方法により、かつ20個は手動検査後)、BRCA1及びBRCA2は、それぞれ9%及び8%のケースで生殖細胞系列突然変異を有し、両方とも更に3%のケースで体細胞突然変異を示した。6つの他の統計的に繰り返し突然変異した遺伝子が同定された;RB1、NF1、FAT3、CSMD3、GABRA6、及びCDK12。CDK12はRNAスプライシング調節に関与するもので14、これまでに肺及び大腸の腫瘍に関係付けられた15、16。9個のCDK12突然変異のうちの5個はナンセンス又はインデルのいずれかであったことから、潜在的な機能喪失が示唆され、一方4個のミスセンス突然変異(R882L、Y901C、K975E、及びL996F)はそのプロテインキナーゼドメインにおいてクラスター化された。GABRA6及びFAT3は、両方とも有意に突然変異したと見られたが、HGS−OvCa又は卵管組織では発現しないようであったため、これらの遺伝子の突然変異がHGS−OvCaにおいて有意な役割を果たす可能性は低い。
【0189】
(00226)本研究による突然変異をCOSMIC17及びOMIM18のデータベースの突然変異と比較して、一般的にそれほど突然変異しない更なるHGS−OvCa遺伝子を同定した。これにより、BRAF(N581S)、PIK3CA(E545K及びH1047R)、KRAS(G12D)、及びNRAS(Q61R)における突然変異を含め、それぞれ477個及び211個のマッチが得られた。これらの突然変異は形質転換活性を呈することが示されているため、本発明者らは、これらの突然変異はまれであるものの、HGS−OvCaにおける重要なドライバーであると考える。
【0190】
(00227)本発明者らは、タンパク質ファミリー及び全脊椎動物ゲノムの配列アラインメントからの進化情報と、予測される局所的なタンパク質構造と、選択されるヒトSwissProtタンパク質特徴とを組み合わせることにより、既知の癌遺伝子及び腫瘍抑制因子における突然変異に関する訓練後に、CHASMを使用して推定ドライバー突然変異を同定した19、20。CHASMにより、腫瘍形成性を有すると予測される122個のミスセンス突然変異が同定された。タンパク質機能における突然変異により駆動される変化を、Mutation Assessorを使用してタンパク質ファミリー配列アラインメント及び既知の又は相同性に基づく三次元タンパク質構造における残基配置を比較することによって、全ての確認済みの体細胞ミスセンス突然変異についての進化情報から推測した。ミスセンス突然変異の27パーセントはタンパク質機能に影響を与えると予測された。
【0191】
実施例XV:コピー数解析。
(00228)489個のHGS−OvCaゲノムに存在する体細胞性コピー数変化(SCNA)を同定し、
図37Aにおいて多形膠芽腫(glioblastome multiforme)データと比較した。SCNAは、広範な染色体領域に影響を及ぼす領域性異常と、より小さい限局性異常とに分けた。領域性異常の統計的解析により8個の繰り返し起こる獲得及び22個の喪失が同定され、その全てが既に報告されている22(
図37B)。獲得のうち5個及び喪失のうち18個は、50%超の腫瘍で起こった。
【0192】
(00229)GISTICを使用して、繰り返し起こる限局性SCNAを同定した。これにより、8個以下の遺伝子をコードする26領域を含む63領域の限局性増幅(
図37C)が得られた。最も一般的な限局性増幅はCCNE1、MYC、及びMECOMをコードし(
図37C)、各々20%超の腫瘍で高度に増幅された。HGS−OvCaにおける新たな極めて限局化された増幅ピークは、活性化Cキナーゼ受容体のZMYND8;p53標的遺伝子のIRF2BP2;DNA結合タンパク質阻害薬のID4;胚発生遺伝子のPAX8;及びテロメラーゼ触媒サブユニットのTERTをコードした。3つのデータソース:http://www.ingenuity.com/、http://clinicaltrials.gov及びhttp://www.drugbank.caを使用して、増幅された過剰発現遺伝子の潜在的治療阻害因子を同定した。この調査により、少なくとも10%のケースで増幅されたMECOM、MAPK1、CCNE1及びKRASを含め、治療標的である22個の遺伝子が同定された。
【0193】
(00230)GISTICにより50個の限局的な欠失も同定された。腫瘍の少なくとも2%において、既知の腫瘍抑制遺伝子であるPTEN、RB1、及びNF1はホモ接合性欠失領域にあった。重要なことには、RB1及びNF1はまた有意に変異した遺伝子の中にもあった。1つの欠失は、5個の非同義変異及び2個のフレームシフト突然変異を有する必須細胞周期制御遺伝子のCREBBPを含め、3つの遺伝子のみを含んだ。
【0194】
実施例XVI:mRNA及びmiRNAの発現並びにDNAメチル化解析。
(00231)3つの異なるプラットフォーム(Agilent社、Affymetrix社のHuEx、Affymetrix社のU133A)からの11,864個の遺伝子についての発現計測値を、サブタイプを同定かつ転帰を予測するために組み合わせた。個々のプラットフォーム計測値は、限定的な、しかし統計的に有意なバッチ効果を受けたが、一方、組み合わせたデータセットはそれを受けなかった。組み合わせたデータセットの解析から約1,500個の本質的に変化し易い遺伝子が同定され、それらをNMFコンセンサスクラスタリングに使用した。この解析により4つのクラスターが得られた(
図38a)。同じ解析手法をTothillらの公的に利用可能なデータセットに適用し、同様に4つのクラスターを得た。TothillのクラスターとTCGAクラスターとの比較により、明らかな相関が示された。従って本発明者らは、HGS−OvCaには少なくとも4つのロバストな発現サブタイプが存在すると結論付ける。
【0195】
(00232)本発明者らは、その4つのHGS−OvCaサブタイプを、クラスターに含まれる遺伝子及び先行する観測25に基づき、免疫反応型、分化型、増殖型及び間葉型と名付けた。T細胞ケモカインリガンドのCXCL11及びCXCL10、並びに受容体のCXCR3は、免疫反応型サブタイプを特徴付けた。HMGA2及びSOX11などの転写因子の高発現、卵巣腫瘍マーカー(MUC1、MUC16)の低発現並びにMCM2及びPCNAなどの増殖マーカーの高発現は、増殖型サブタイプを定義した。分化型サブタイプはMUC16及びMUC1の高発現並びに分泌性卵管マーカーのSLPIの発現と関連付けられ、より成熟した発達段階が示唆された。HOX遺伝子の高発現並びに筋線維芽細胞(FAP)及び微小血管周皮細胞(ANGPTL2、ANGPTL1)などの間質成分の増加を示唆するマーカーが、間葉型サブタイプを特徴付けた。
【0196】
(00233)DNAメチル化の上昇及び腫瘍発現の低下により、168個の遺伝子は、卵管対照と比較してHGS−OvCaにおいて後成的にサイレンシングされたものとして関係付けられた26。DNAメチル化は全試料にわたり遺伝子発現の低下と相関した。AMT、CCL21及びSPARCL1は、大多数の腫瘍でプロモーター過剰メチル化を示したため、注目に値した。奇妙にも、卵巣癌で増幅及び過剰発現することが以前に報告されているRAB25もまた、腫瘍のサブセットにおいて後成的にサイレンシングされるようであった。BRCA1プロモーターは、既に報告されているとおり、489個中56個(11.5%)の腫瘍で過剰メチル化及びサイレンシングされた。腫瘍間での様々なDNAメチル化のコンセンサスクラスタリングにより、年齢、BRCA不活性化イベント、及び生存における差異と有意に関連付けられた4つのサブタイプが同定された。しかしながら、これらのクラスターは中程度の安定性しか示さなかった。
【0197】
(00234)TCGAデータセットにおける転写サブタイプについて、生存期間に有意な差異はなかった。増殖型群はMYC増幅及びRB1欠失の速度低下を示したのに対し、免疫反応型サブタイプは3q26.2(MECOM)増幅頻度の増加を示した。DNAメチル化クラスターと遺伝子発現サブタイプとの間の中程度の、しかし有意な重複が指摘された(p<2.2
*10
-16、カイ二乗検定、調整ランド指数=0.07)。
【0198】
(00235)215個の試料からの統合した発現データセットを用いて、全生存を予測し得る193個の遺伝子の転写サインを定義した。一変量コックス回帰分析の後、108個の遺伝子は不良な生存率と相関し、かつ85個は良好な生存率と相関した(0.01のp値カットオフ)。独立した255個のTCGA試料の集合並びに3個の独立した発現データセットにおいて予測力を検証した25、29、30。検証試料の各々に、その発現プロファイルと予後診断遺伝子サインとの間の類似性を反映して、予後診断遺伝子スコアを割り当てた31(
図38c)。このサインのカプラン・マイヤー生存分析から、全ての検証データセットにおいて生存率との統計的に有意な関連性が示された(
図38d)。
【0199】
(00236)miRNA発現データのNMFコンセンサスクラスタリングにより、3つのサブタイプが同定された。興味深いことに、miRNAサブタイプ1はmRNA増殖型サブタイプと重複し、かつmiRNAサブタイプ2はmRNA間葉性サブタイプと重複した(
図38d)。生存期間はiRNAサブタイプ間で有意に異なり、miRNAサブタイプ1腫瘍の患者の生存は有意に長かった(
図38e)。
【0200】
実施例XVII:疾患に影響するパスウェイ。
(00237)いくつかの分析により、316例の完全に解析されたケースからのデータが統合され、HGS−OvCaに寄与する生物学が特定された。既知の癌関連パスウェイが1つ以上の突然変異、コピー数変化、又は遺伝子発現変化を含む頻度の解析から、RB1パスウェイ及びPI3K/RASパスウェイがそれぞれ67%及び45%のケースで調節解除されたことが示された(
図39A)。HotNet33を使用して大規模タンパク質間相互作用ネットワーク32において変化したサブネットワークを調べることで、HGS−OvCa試料の23%で変化したNotchシグナル伝達パスウェイを含め、いくつかの既知のパスウェイが同定された(
図39B)。
【0201】
(00238)公表された研究では、突然変異した若しくはメチル化したBRCA1又は突然変異したBRCA2を含む細胞は相同組換え(HR)欠陥を有し、PARP阻害薬に高度な応答性を有することが示されている35〜37。
図39Cは、HGS−OvCaの20%がBRCA1/2に生殖細胞系列突然変異又は体細胞突然変異を有し、11%がDNA過剰メチル化によってBRCA1発現を失っており、かつBRCA1の後成的サイレンシングはBRCA1/2突然変異と相互排他的である(P=4.4×10
-4、フィッシャーの直接確率検定)ことを示している。BRCA状態の一変量生存分析から(
図39C)、BRCA突然変異ケースはBRCA野生型ケースと比べて全生存(OS)がより良好であることが示された。興味深いことに、後成的にサイレンシングしたBRCA1ケースは、BRCA1/2 WT HGS−OvCaと同様の生存を示した(OS中央値41.5ヶ月対41.9ヶ月、P=0.69、ログランク検定)。これは、BRCA1が相互排他的なゲノム機構及びエピゲノム機構により不活性化されること、及び患者生存が不活性化機構に依存することを示唆している。この研究で見出された、細胞をPARP阻害薬に対して感受性にし得る他のHR遺伝子におけるゲノム変化としては、EMSYの増幅又は突然変異(8%)、PTENの限局的な欠失又は突然変異(7%);RAD51Cの過剰メチル化(3%)、ATM/ATRの突然変異(2%)、及びファンコニ貧血遺伝子の突然変異(5%)が挙げられる。概して、HR欠陥はHGS−OvCaの約半数に存在し得るもので、腫瘍これらのHR関連異常を標的化するPARP阻害薬の臨床試験に対する理論的根拠を提供する。
【0202】
(00239)BRCA不活性化イベントの完全集合を全ての繰り返し変化したコピー数ピークと比較することにより、BRCA不活性化のケースにおいて予想外に低いCCNE1の増幅頻度が明らかとなった(BRCA野生型ケースの26%と比べて、BRCAが変化したケースの8%はCCNE1増幅を有した、FDR調整P=0.0048)。既に報告されているとおり39、全生存はCCNE1増幅を有する患者について、他の全てのケースと比較して短くなる傾向があった(P=0.072、ログランク検定)。しかしながら、BRCA野生型のケースのみを調べたとき、CCNE1が増幅したケースについての生存上の不利は見られなかったため(P=0.24、ログランク検定)、既に報告されているCCNE1の生存の差異は、BRCAが突然変異したケースのより良好な生存により説明され得ることが示唆される。
【0203】
(00240)最後に、確率的グラフィカルモデル(PARADIGM40)により、NCIパスウェイ相互作用データベースにおける変化したパスウェイを調べ、FOXM1転写因子ネットワーク(
図39D)を87%のケースで有意に変化したものとして同定した。FOXM1及びその増殖関連標的遺伝子;AURB、CCNB1、BIRC5、CDC25、及びPLK1は、一貫して過剰発現したが、転写調節の指標となるDNAコピー数変化によっては変化しなかった。TP53はDNA損傷後にFOXM1を抑制することから42、HGS−OvCaにおける高率のTP53突然変異はFOXM1の過剰発現に寄与することが示唆される。他のデータセットにおいて、FOXM1パスウェイは隣接上皮組織と比べて腫瘍で有意に活性化され、HGS−OvCaと関連付けられる。
【0204】
実施例XVIII:卵巣漿液性癌において高頻度で変化したパスウェイ
(00241)コピー数及び遺伝子発現の両方の統合解析によって有意に変化したパスウェイを同定するため、本発明者らはPARADIGMを適用した。この計算モデルはコピー数変化、遺伝子発現データ、及びパスウェイ構造を組み込み、パスウェイデータベースに存在する全ての遺伝子、複合体、及び遺伝的プロセスについて統合パスウェイ活性(IPA)を生成する。本発明者らは用語「エンティティ」を、それが遺伝子か、複合体か、又は小分子かを問わず、パスウェイにおける任意の分子を指して使用する。エンティティのIPAは、最終活性のみを指す。遺伝子について、IPAはタンパク質の活性状態の推論された活性のみを指し、これは、パスウェイにおける他の遺伝子のコピー数、遺伝子発現、及びシグナル伝達から推論される。本発明者らはPARADIGMを卵巣試料に適用し、米国国立癌研究所のパスウェイ相互作用データベース(NCI−PID)に含まれるパスウェイに存在する多くの異なる遺伝子及びプロセスの変化を見出した。本発明者らは1000回のランダムシミュレーションを用いて推論された変化の有意性を評価し、これらのシミュレーションでは、同じ構造を有するパスウェイが使用されるが、パスウェイの種々の点に任意の遺伝子が割り当てられた。換言すれば、所定のパスウェイのあるランダムシミュレーションでは、相互作用の集合は固定されたままであり、それ故任意の遺伝子集合はパスウェイ相互作用によって互いに連結された。全試料のIPAの有意性は同じヌル分布に対して評価し、各試料におけるエンティティ毎の有意水準を得た。IPA及びそれらが有意である試料の割合及び標準偏差が少なくとも0.1のIPAを、
図28にヒートマップとして表示する。
【0205】
(00242)表3は、PARADIGMにより見出された順列化試料に関して少なくとも3標準偏差だけ変化するパスウェイを示す。FOXM1転写因子ネットワークは、検証した全てのパスウェイの中で最多数の試料において変化した−試料間で平均化したとき67%のエンティティが活性の変化を有した。それに対して、卵巣コホートにおいて次に最も高いレベルの活性の変化を有したパスウェイには、PLK1シグナル伝達イベント(27%)、オーロラBシグナル伝達(24%)、及びトロンボキサンA2受容体シグナル伝達(20%)が含まれた。従って、NCI−PIDのパスウェイの中では、卵巣試料に関して、FOXM1ネットワークは他のパスウェイと比べて有意により大きく変化する活性を含む。
【0206】
(00243)FOXM1転写因子ネットワークは、最も高い割合の患者試料において、正常対照と比較して腫瘍試料において示差的に変化することが分かった(
図29)。FOXM1は、3つの既知の支配的なスプライシング型を有する多機能性転写因子であり、スプライシング型の各々は、細胞増殖及びDNA修復において様々な役割を有する個別的な遺伝子サブセットを調節する。FOXM1cアイソフォームは、AUKB、PLK1、CDC25、及びBIRC5を含めた、細胞増殖において既知の役割を有するいくつかの標的を直接調節する。他方で、FOXM1bアイソフォームは、DNA修復遺伝子BRCA2及びXRCC1を含む完全に異なる遺伝子サブセットを調節する。ATMの間接的制御下にあるCHEK2は、FOXM1発現レベルを直接調節する。
【0207】
(00244)本発明者らは、FOXM1転写因子自体のIPAは、他の転写因子のIPAよりも高度に変化するかという問いを立てた。本発明者らはFOXM1の活性レベルをNCI−PIDにおける他の203個の転写因子の全てと比較した。NCI集合の他の転写因子と比較しても、FOXM1転写因子は有意に高いレベルの活性を有した(p<0.0001;KS検定)ことから、それは重要なサインであり得ることが更に示唆される(
図30)。
【0208】
(00245)FOXM1はまた、上皮起源の多くの異なる正常組織においても発現するため、本発明者らは、PARADIGMにより同定されるサインが、他の組織では正常と見なされ得る上皮サインに起因するかという問いを立てた。これに答えるため、本発明者らは卵管上皮及び卵巣腫瘍組織が顕微解剖されたGEOからの独立したデータセットをダウンロードし(GSE10971)、遺伝子発現をアッセイした。本発明者らはFOXM1のレベルは正常試料と比較して腫瘍試料において有意に高いことを見出し、それ故実際に癌性組織においては、FOXM1調節は正常上皮組織に見られるものを超えて亢進することが示唆される(
図31)。
【0209】
(00247)乳癌及び肺癌を含め、多くの異なる癌におけるFOXM1の役割は十分に実証されているが、卵巣癌におけるその役割はいまだ調査されていない。FOXM1は、3つの既知のスプライシング変異型を有する多機能性転写因子であり、スプライシング変異型の各々は、細胞増殖及びDNA修復において様々な役割を有する個別的な遺伝子サブセットを調節する。この分析に関連するFOXM1の相互作用ネットワークの抜粋を
図27に示す。FOXM1aアイソフォームは、AUKB、PLK1、CDC25、及びBIRC5を含めた、細胞増殖において既知の役割を有するいくつかの標的を直接調節する。対照的にFOXM1bアイソフォームは、DNA修復遺伝子のBRCA2及びXRCC1を含む完全に異なる遺伝子サブセットを調節する。ATMの間接的な制御下にあるCHEK2は、FOXM1の発現レベルを直接調節する。卵巣患者のほとんどにおけるFOXM1の発現増加に加え、小さいサブセットはまた、CBSにより検出されるコピー数増幅の増加も有する(19%が、計測したゲノムにおける全遺伝子の上位5%分位内のコピー数増加を伴う)。従って、FOXM1の選択的スプライシング調節はDNA修復と細胞増殖との間の制御スイッチに関与し得る。しかしながら、個別のアイソフォーム活性を区別することは、アイソフォームを区別するエクソン構造及びエクソンアレイプローブの位置によって困難なため、現時点ではこの主張を裏付けるデータは不十分である。これらの試料のmRNAの将来のハイスループットシーケンシングは、FOXM1アイソフォームの示差的レベルの決定を促進し得る。PARADIGMがこの転写因子に集中した最高レベルの活性変化を検出したという観測から、FOXM1は細胞において重要な調節ポイントにあることが示唆される。
【0210】
実施例XIX:データセット及びパスウェイ相互作用
(00248)コピー数及び発現データの両方をPARADIGM推論に組み込んだ。8個の正常組織対照の集合が発現データにおける解析に利用可能であったため、患者の遺伝子値の各々を、正常な卵管対照で観察される遺伝子の中央値レベルを減じることにより正規化した。コピー数データは、腫瘍で検出された遺伝子レベルと、それに対する血液正常レベルとの間のコピー数の差異を反映するように正規化した。PARADIGMへの入力のために、発現データは、サブタイプ解析に使用したものと同じ統合データセットから取り、コピー数は、MSKCC Agilent社の1Mコピー数データのセグメント化コールから取った。
【0211】
(00249)131個のパスウェイ、11,563個の相互作用、及び7,204個のエンティティを含むNCI−PIDからパスウェイの集合体を入手した。エンティティは、PARADIGMのグラフィカルモデルにおいて「ノード」として表現される分子、複合体、小分子、又は抽象概念である。抽象概念は、一般的な細胞プロセス(「アポトーシス」又は「光の吸収」など)、及びシグナルトランスデューサーのRASファミリーなどの機能的活性を共有する遺伝子ファミリーに対応する。本発明者らは、タンパク質間相互作用、転写調節相互作用、リン酸化及びユビキチン化などのタンパク質修飾相互作用を含む相互作用を収集した。
【0212】
実施例XX:パスウェイ文脈における統合分子活性の推論。
(00250)本発明者らは、コピー数、遺伝子発現、及び各エンティティのパスウェイ文脈を反映する統合パスウェイ活性(IPA)を割り当てるPARADIGMを使用した。
【0213】
(00251)データの遺伝子特異的及び患者特異的な断面の順列を使用して、IPAの有意性を評価した。ゲノム中の各遺伝子についての遺伝子発現とコピー数とのペアの値を無作為に選択することにより、1000個の「ヌル」患者のデータを作成した。PARADIGM IPAの有意性を評価するため、本発明者らはパスウェイ構造を維持しながらパスウェイにランダム遺伝子を割り当てることにより、ヌル分布を作成した。
【0214】
実施例XXI:FOXM1パスウェイの同定
(00252)FOXM1ネットワーク内の全ての遺伝子を使用してランダムシミュレーションの間に統計的有意性を評価したが、FOXM1パスウェイの視覚化を可能とするため、
図29により有意に変化したIPAを有するFOXM1に直接連結されたエンティティを、
図27に含めるために選択した。これらのうち、DNA修復及び細胞周期制御において役割を有する遺伝子であって、FOXM1との相互作用について文献の裏付けがあると認められたものを表示した。元のNCI−PIDパスウェイに見出されなかったBRCC複合体メンバーを、NCI−PIDによればFOXM1の標的であるBRCA2と共にプロットに含めた。上流DNA修復標的を、他のNCIパスウェイにおけるCHEK2の上流調節因子を見つけることにより同定した(例えば、PLK3シグナル伝達パスウェイにおいてATMからの間接的リンクが見出された)。
【0215】
実施例XXII:クラスタリング
(00253)活性及び非活性の確率の変化を直接的に表す推論活性の使用により、様々な種類のエンティティをまとめて1つのヒートマップにクラスター化することが可能となる。PARADIGM推論の結果を包括的に視覚化するため、Eisen Cluster 3.0を使用して特徴フィルタリング及びクラスタリングを実施した。0.1の標準偏差フィルタリングにより7204個中1598個のパスウェイエンティティが残り、エンティティ及び試料の両方に対して平均連結法、非中心化相関階層的クラスターを実施した。
【0216】
実施例XXIII:細胞株は多くの重要な腫瘍のサブタイプ及び特徴をモデル化する。
(00254)臨床的に関連する分子的応答予測因子の同定に対する細胞株の有用性は、腫瘍における応答を決定する多様な分子機構が細胞株内でどの程度機能するかに依存する。本発明者らは、転写物及びゲノムコピー数の両方のレベルでの細胞株モデルと原発腫瘍との間の類似性に関して以前に報告しており
9、本発明者らはここでこの比較を、より高分解能のプラットフォーム及び解析技法を用いて改良する。具体的には、本発明者らは遺伝子発現プロファイルの階層的コンセンサスクラスタリング(HCC)を使用して、50個の乳癌細胞株及び5個の非悪性乳房細胞株を3つの転写サブタイプ:ルミナル、基底細胞及び新しく記載するクローディン低に分類した(
図14A)。これらのサブタイプは先述したものの改良版であり、基底細胞及びクローディン低(caludin−low)は、それぞれ先に指定した基底細胞A及び基底細胞Bのサブタイプに対応する、表7。改良版高分解能SNPコピー数解析(
図14B)により、細胞株パネルは、8q24(MYC)、11q13(CCND1)、17q12(ERBB2)、20q13(STK15/AURKA)の繰り返し生じる増幅領域、及び原発腫瘍に見られる9p21(CDKN2A)のホモ接合性欠失をモデル化することが確認される。トラスツズマブ及びラパチニブ療法により決定されるとおりのERBB2腫瘍サブタイプの臨床的関連性を考慮すると、本発明者らは、ERBB2
AMPと指定される特別なサブタイプとして、ERBB2のDNA増幅を伴う細胞株を調べた。概して、ルミナル型、基底細胞型、クローディン低型及びERBB2
AMP型の細胞株における本発明者らの同定は、臨床生物学と一致している。
【0217】
実施例XIV:細胞株はほとんどの治療化合物に示差的感受性を示す。
(00255)本発明者らは、77種の治療化合物に対する本発明者らの細胞株パネルの感受性を調べた。本発明者らは細胞成長アッセイを用い、定量的終点は9つの濃度の各薬剤に3日間連続的に曝露した後に計測した。試験した抗癌化合物には、従来の細胞傷害剤(例えば、タキサン、プラチノール、アントラサイクリン(anthracyline))と標的化薬剤(例えば、SERM及びキナーゼ阻害薬)との混合物が含まれた。多くの場合、いくつかの薬剤は同じタンパク質又は分子的作用機構を標的化した。本発明者らは、各化合物についての応答の定量的尺度を、50%だけ成長を阻害するのに必要な濃度(GI
50と称する)として決定した。基礎となる成長データは高品質であるものの、50%阻害が達成されなかった場合、本発明者らはGI
50を試験した最高濃度に設定した。GI
50値は全ての化合物について表8に提供する。本発明者らは、3つの化合物(PS1145、セツキシマブ及びバイカレイン)は細胞株応答の変動が最小限であったため更なる解析から除外した。
【0218】
(00256)Sigma AKT1−2阻害薬に対する応答の変動を、関連する転写サブタイプと共に示す代表的なウォーターフォールプロットを
図10Aに示す。この化合物に対する感受性はルミナル型及びERBB2
AMP型の乳癌細胞株で最も高く、基底細胞型及びクローディン低型の乳癌細胞株ではより低かった。全ての化合物についての細胞株間のGI
50値の分布を示すウォーターフォールプロットを表示する。本発明者らは、3回又は4回の反復による229個の化合物/細胞株の組み合わせについてのGI
50値の絶対偏差中央値を計算することにより、データセット全体の再現性を確立した。これらの反復にわたる平均偏差中央値は0.15であった(
図15)。本発明者らは、GI
50値の集合間の対ピアソン相関を計算することにより、8種の化合物に対する応答の一致を評価した(
図15B.同様の作用機構を有する薬物のペアに対する感受性は高度に相関したことから、同様の作用機構が示唆される。
【0219】
実施例XV:多くの化合物は細胞株のサブセットにおいて選択的に有効である。
(00257)本研究の主な前提は、細胞株における予測性のある分子構造がヒト腫瘍に反映される場合に、前臨床細胞株分析で認められる応答と分子サブタイプとの間の関連性が診療室で繰り返し起こり得ることである。本発明者らは、ノンパラメトリックANOVAを用いて応答−サブタイプの関連性を確立し、転写サブタイプ及びゲノミクスサブタイプ間のGI
50値を比較した。
【0220】
(00258)概して、試験した74個中33個の化合物は、転写サブタイプ特異的な応答を示した(FDR p<0.2、表7及び表9)。
図10Cは、ルミナル、基底細胞、クローディン低及びERBB2
AMPのサブタイプの1つ以上と有意な関連性を有する34個の薬剤の階層的クラスタリングを示している。サブタイプと最も強い関連性を有する11個の薬剤は、受容体チロシンキナーゼシグナル伝達及びヒストンデアセチラーゼの阻害薬であり、ルミナル型及び/又はERBB2
AMP型の細胞株において最も高い効力を有した。次に最も高い3つのサブタイプ特異的薬剤−エトポシド、シスプラチン、及びドセタキセル−は、臨床的に観察されるとおり、基底細胞型及び/又はクローディン低型の細胞株において選択的活性を示す。イクサベピロン、GSK461364(ポロキナーゼ阻害薬)及びGSK1070916(オーロラキナーゼ阻害薬)を含む分裂装置を標的化する薬剤もまた、基底細胞型及びクローディン低型の細胞株に対して活性がより高かった。EGFR及び/又はERBB2を標的化するAG1478、BIBW2992及びゲフィチニブの全ては、ERBB2増幅と正の関連性を有した。HSP90の阻害薬であるゲルダナマイシンもまた、ERBB2増幅と正の関連性を有した。興味深いことに、VX−680(オーロラキナーゼ阻害薬)及びCGC−11144(ポリアミン類似体)は、両方ともERBB2増幅と負の関連性を有したことから、これらはERBB2
AMP型腫瘍には比較的不適当な治療法であることが示される。
【0221】
(00259)本発明者らは、応答と、繰り返し起こる限局的な高レベルのコピー数異常(CNA;標本のt検定、FDR p<0.2、表10)との間に、7つの関連性(6つの固有の化合物)を同定した。
図10Dは以下を示す:(a)9p21(CDKN2A及びCDKN2B)におけるホモ接合性欠失は、ビノレルビン、イクサベピロン及びファスカプリシン(fascalypsin)に対する応答と関連性を有した。ファスカプリシン(fascalypsin)はCDK4を阻害し、この特異性は、CDK4の阻害におけるCDKN2Aのp16
INK4A産物における役割と一致する
20。(b)20q13(AURKAをコードする)における増幅は、AURKB及びAURKCを標的化するGSK1070916及びVX−680に対する感受性よりむしろ、耐性と関連性を有した
23。これは、AURKAの増幅がAURKB及びAURKC阻害薬に対する迂回機構を提供することを示唆する。(c)11q13(CCND1)における増幅は、カルボプラチン及びAURKB/C阻害薬のGSK1070916に対する感受性と関連性を有した。
【0222】
実施例XVI:サブタイプ特異性は成長速度効果を支配する。
(00260)概して、本発明者らは、ルミナル型サブタイプの細胞株は基底細胞型又はクローディン低型の細胞より成長が遅く(クラスカル・ワリス検定 p=0.006、
図16A及び表7)、倍加時間の範囲が広かった(18〜300時間)ことを見出した。これにより、最も感受性が高い細胞株は最も速く成長する細胞株である可能性が提起された。そうであるならば、次に観測されたサブタイプとの関連性は共変量との関連性を表し得る。本発明者らは、この仮説を共分散分析(ANCOVA)を用いてサブタイプ及び倍加時間の効果を同時に評価することにより検証し、33個中22個のサブタイプ特異的化合物は、倍加時間よりサブタイプとより良好な関連性を有したことが分かった(p値の平均対数比=0.92、標準偏差1.11)。これは、サブタイプの構成員は成長速度よりも良好な応答予測因子であるという着想を支持するものである。更に、33個中15個のサブタイプ特異的化合物は、よりゆっくりと成長するルミナル型細胞株において有効性がより高かった(表7)。1つの薬剤、5−フルオロウラシル(5−florouracil)は、サブタイプの検証単独では有意ではなかったが、ANCOVAモデルではクラス及び倍加時間の両方に対して強い有意性を示した。5−フルオロウラシル(5−florouracil)に対する応答は、ルミナル型細胞株及び基底細胞型細胞株の両方で倍加時間が増加するにつれて低下した(
図16B)。本発明者らは、ほとんどの場合に、3日間の成長阻害アッセイは、成長速度によって強い影響を受けない分子サイン特異的応答を検出していると結論付ける。
【0223】
実施例XVII:コピー数及び転写計測値の統合により、サブタイプ特異的応答のパスウェイが同定される。
(00261)本発明者らは、ネットワーク解析ツールのPARADIGM
24を使用して、細胞株パネルのサブタイプ間におけるパスウェイ活性の差異を同定した。この解析は、キュレーションされたパスウェイが部分的に重複するという事実によって複雑化する。例えばEGFR、PI3キナーゼ及びMEKは、実際にはそれらが単一のより大きいパスウェイの構成要素であるときに、別個のパスウェイとしてキュレーションされることが多い。この問題に対処するため、PARADIGMは約1400個のキュレーションされたシグナル伝達パスウェイ、転写パスウェイ及び代謝パスウェイを単一の重畳パスウェイ(SuperPathway)にまとめ合わせ、このような冗長性を排除する。特定の細胞株についてのコピー数データ及び遺伝子発現データの両方を用いて、PARADIGMはパスウェイ相互作用を使用することにより、全ての遺伝子、複合体、及び細胞プロセスについての統合パスウェイレベル(IPL)を推論する。
【0224】
(00262)本発明者らは、PARADIGM IPLを用いて、細胞株を原発性乳房腫瘍とそれらのパスウェイ活性化によって比較した。細胞株−腫瘍比較データは、癌ゲノムアトラス(TCGA)プロジェクト(http://cancergenome.nih.gov)により生成されたデータを使用して行われた。
図11は、階層的クラスタリング後の腫瘍及び細胞株の各々についてのパスウェイ活性を示している。各サブタイプについて上位5つのパスウェイ特徴を表11に記載する。概して、腫瘍及び細胞株サブタイプは同様のパスウェイ活性を示し、かつ調節解除されたパスウェイは、元のサブタイプよりも転写サブタイプと良好な関連性を有した(
図13)。しかしながら、クローディン低型細胞株サブタイプと関連付けられるパスウェイは腫瘍では十分に表現されていない−おそらく、クローディン低サブタイプが細胞株コレクションにおいて大きな比率を占め、かつルミナルAサブタイプが欠けているためである(
図12)。
【0225】
実施例XVIII:サブタイプ特異的パスウェイマーカーの同定。
(00263)本発明者らは、サブタイプ間の差異の根底に固有のパスウェイ活性があるかという問いを立てた。そのため、本発明者らは、あるサブタイプの細胞株で他と比較して示差的に上方制御又は下方制御される遺伝子活性を含むSuperPathwayのサブネットワークを同定した。基底細胞型細胞株とコレクション内の他の全てとの間のパスウェイ活性の比較により、941本のエッジにより連結された965個のノードから構成されるネットワークを同定した。ここで、ノードはタンパク質、タンパク質複合体、又は細胞プロセスを表し、エッジはタンパク質リン酸化などの、これらの要素間の相互作用を表す(
図18〜
図22を参照のこと)。
図35Aは、増殖、血管新生、及び腫瘍形成に関連するMYC/MAXサブネットワークの上方制御;及び細胞周期、接着、浸潤、及びマクロファージ活性化を制御するERK1/2サブネットワークの上方制御を示している。FOXM1及びDNA損傷サブネットワークもまた、基底細胞型細胞株において顕著に上方制御された。クローディン低サブタイプを他の全てと比較することにより、基底細胞型細胞株におけるものと同じサブネットワークの多くの上方制御が示され、但し、基底細胞型と比較したときのクローディン低型細胞株におけるβ−カテニン(CTNNB1)ネットワークの上方制御を含めて例外はあった(
図35B)。β−カテニンは腫瘍発生に関与しているとされ、不良な予後と関連付けられる。ルミナル型細胞株を他の全てと比較することにより、黒色腫における腫瘍形成能を阻害するATF2ネットワークの下方制御、及びER調節遺伝子の転写を制御し、かつ良好な予後のルミナル型乳癌に関与するとされるFOXA1/FOXA2ネットワークの上方制御が示された(
図35C)。ERBB2
AMP型細胞株を他の全てと比較することにより、ルミナル型細胞と共通する多くのネットワーク特徴が示された−ほとんどのERBB2
AMP型細胞はまたルミナル型細胞として分類されるため、これは意外ではない。しかしながら
図35Dでは、ERBB2
AMP型細胞株におけるRPS6KBP1を中心とする下方制御が示されている。
【0226】
(00264)IPLを使用した細胞株間における示差的な薬物応答の比較分析から、応答機構に関する情報を提供するパスウェイ活性が明らかとなった。例えば、基底細胞型細胞株は、DNA損傷剤のシスプラチンに対して選択的な感受性を有し、また、シスプラチンに対する応答に関連する中心的存在であるATM、CHEK1及びBRCA1を含むDNA損傷応答サブネットワークの上方制御も示した
34(
図36A)。同様に、ERBB2
AMP型細胞株はHSP90の阻害薬であるゲルダナマイシンに対して感受性を有し、またERBB2−HSP90サブネットワークにおける上方制御を示した(
図36B)。この観測はゲルダナマイシンの作用機構と一致する:ゲルダナマイシンはERBB2に結合して、その分解(degredation)をもたらす。本発明者らは、ERBB2
AMP型細胞株はオーロラキナーゼ阻害薬のVX−680に耐性を示し(
図36C、上)、更に、この化合物に対する感受性は20q13(AURKA)における増幅と関連性を有しなかったことを見出した。これにより、この耐性が、FOXM1によりAURKBと同時制御されるCCNB1によって媒介され得る可能性が生じる。4つのサブタイプのうちERBB2
AMPは、CCNB1の実質的な下方制御を示す唯一のものである(
図36C及び
図22)。この提案される機構は、原発腫瘍においてCCNB1遺伝子発現がAURKB遺伝子発現と有意に相関するという観察により裏付けられる。
【0227】
実施例XVIX:細胞成長阻害アッセイ及び成長速度
(00265)本発明者らは、77種の化合物の効力を本発明者らの55個の乳癌細胞株パネルにおいて評価した。このアッセイは既に記載されているとおり実施した(Kuo,W.L.et al.A systems analysis of the chemosensitivity of breast cancer cells to the polyamine analogue PG−11047.BMC Med 7,77,doi:1741−7015−7−77[pii]10.1186/1741−7015−7−77(2009))。簡潔に言えば、細胞を1:5の段階希釈(serial dillution)で一組の9用量の各化合物を用いて72時間処理した。Cell Titer Gloアッセイを用いて細胞生存率を決定した。未処理のウェルについての0hに対する72hの比から、倍加時間(DT)を推定した。
【0228】
(00266)本発明者らは、非線形最小二乗法を使用して、以下のパラメータを用いゴンペルツ曲線にデータをフィットした:上側及び下側の漸近線、傾き及び変曲点。フィットした曲線を、NCI/NIH DTP Human Tumor Cell Line Screen Processにより記載され、かつ以前に記載された方法を用いて、GI曲線に変換した(Screening Services−NCI−60 DTP Human Tumor Cell Line Screen.http://dtp.nci.nih.gov/branches/btb/ivclsp.html.;Monks,A.et al.Feasibility of a high−flux anticancer drug screen using a diverse panel of cultured human tumor cell lines.J Natl Cancer Inst 83,757−766(1991))。
【0229】
(00267)本発明者らは、化合物の50%成長を阻害するのに必要な濃度(GI
50)、成長を完全に阻害するのに必要な濃度(全成長阻害、TGI)及び50%集団を減少させるのに必要な濃度(50%致死濃度、LC
50)を含め、様々な応答尺度を評価した。基礎をなす成長データの質は高いが終点応答(GI
50、TGI、LC
50)に達しなかった場合、値を試験した最高濃度に設定した。GI
50は最初に達する閾値を表し、従って最も正確な計測値集合を含む。
【0230】
(00268)薬物応答データを、以下の基準を満たすようフィルタリングした:1)9つの三つ組のデータ点間における標準偏差中央値<0.20;2)特定の細胞株について、DT±2SDのDT中央値;3)フィットした曲線の傾き>0.25;4)明らかな応答がないデータセットについて、最高濃度での成長阻害<50%。薬物プレートの約80%が全てのフィルタリング要件を満たした。本発明者らは、ロバストな形の標準偏差である絶対偏差中央値(MAD)を使用して、本発明者らのGI50の反復計測の信頼性を評価した。曲線の当てはめ及びフィルタリングは、特別に書かれたRパッケージで実施した。
【0231】
実施例XX:薬物スクリーニング
(00269)統計的解析に含まれた各薬物は、データの質についての以下のスクリーニング基準を満たした:1)欠測値:細胞株の集合全体でGI
50値の40%以下が欠測していてもよい;2)ばらつき:少なくとも3つの細胞株について、GI
50>1.5.mGI
50又はGI
50<0.5.mGI
50のいずれか、式中mGI
50は所定の薬物についてのGI
50中央値である。これらの基準を満たさない化合物は解析から除外した。
【0232】
実施例XXI:SNP Array及びDNAコピー数解析
(00270)Affymetrix社のGenome−Wide Human SNP Array6.0を使用して、DNAコピー数データを計測した。アレイ品質及びデータ処理は、R統計フレームワーク(http://www.r−project.org)を使用してaroma.affymetrixに基づき実行した。乳癌細胞株SNPアレイを、記載のとおり20個の正常試料アレイを使用して正規化した(Bengtsson,H.,Irizarry,R.,Carvalho,B.& Speed,T.P.Estimation and assessment of raw copy numbers at the single locus level.Bioinformatics(Oxford,England)24,759−767(2008))。データを、bioconductor社のパッケージのDNAcopyからサーキュラーバイナリセグメンテーション(CBS)を用いてセグメント化した(Olshen,A.B.,Venkatraman,E.S.,Lucito,R.& Wigler,M.Circular binary segmentation for the analysis of array−based DNA copy number data.Biostatistics(Oxford,England)5,557−572(2004))。MATLABベースの癌における有意な標的のゲノム同定(Genomic Identification of Significant Targets in Cancer:GISTIC)を使用して、有意なDNAコピー数変化を分析した(Beroukhim,R.et al.Assessing the significance of chromosomal aberrations in cancer:methodology and application to glioma.Proc Natl Acad Sci USA 104,20007−20012(2007))。生データはEuropean Genotype Archive(EGA)社において受託番号EGAS00000000059により利用可能である。
【0233】
(00271)コピー数の有意な変化を検出する確率が確実に最大となるようにするため、本発明者らは非悪性細胞株をGISTIC解析から除いた。各同質遺伝子細胞株ペアの一方のメンバーについてのGISTICスコアを使用して、他方のゲノム変化を推論した:AU565はSKBR3から推論した;HCC1500はHCC1806から推論した;LY2はMCF7から推論した;ZR75BはZR751から推論した。
【0234】
実施例XXII:エクソンアレイ解析
(00272)細胞株の遺伝子発現データは、Affymetrix社のGeneChip Human Gene 1.0 STエクソンアレイから得た。発現の遺伝子レベルの要約を、aroma.affymetrix Rパッケージを使用して、「HuEx−1_0−st−v2,core」チップタイプに基づく分位点正規化及び対数相加プローブレベルモデル(PLM)により計算した。転写物識別子を、BioMart Rパッケージを使用してEnsemblデータベースに問い合わせることによりHGNC遺伝子記号に変換した。続いて得られた発現プロファイルをフィルタリングし、全細胞株においてlog
2スケールで1.0より大きい標準偏差を表す遺伝子のみを捕捉した。生データはArrayExpress(E−MTAB−181)において利用可能である。
【0235】
実施例XXIII:コンセンサスクラスタリング
(00273)階層的コンセンサスクラスタリングを用いて細胞株サブタイプを同定した(Monti,S.,Tamayo,P.,Mesirov,J.P.& Golub,T.A.Consensus Clustering:A Resampling−Based Method for Class Discovery and Visualization of Gene Expression Microarray Data.Machine Learning 52,91−118(2003)。コンセンサスは、細胞株の500サンプリング、試料当たり細胞株の80%、凝集型階層的クラスタリング、ユークリッド距離計量及び平均連結法を用いて計算した。
【0236】
(00274)実施例XXIV:臨床的に関連するサブタイプと治療剤に対する応答との関連性
(00275)本発明者らは、3つのスキームを使用してGI50を比較した:1)ルミナル型対基底細胞型対クローディン低型;2)ルミナル型対基底細胞型+クローディン低型;及び3)ERBB2−AMP型対非ERBB2−AMP型。GI50群間の差異を、順位尺度で、必要に応じてノンパラメトリックANOVA又はt検定により比較した。本発明者らは、3組の検定のp値を組み合わせ、かつ偽発見率(FDR)を使用して複数の検定を補正した。3標本検定について、本発明者らは各群を他の全てと比較して、どの群が最も感度が高いかを決定することにより、有意なクラス効果を有する化合物に対して事後解析を実施した。事後検定のp値を合わせてFDR補正した。全ての場合において、FDR p<0.20を有意と見なした。スキーム2で基底細胞型+クローディン低型の群が有意であると分かったが、スキーム1ではそれらの群のうち1つのみが有意であったケースであった場合、本発明者らはクラス特異度を割り当てる際にその3標本ケースに優先度を与えた。解析はRで実施した。
【0237】
実施例XXV:ゲノム変化と治療剤に対する応答との関連性
(00276)本発明者らはt検定を用いて、繰り返し起こるコピー数変化(8q24(MYC)、11q13(CCND1)、20q13(STK15/AURKA)におけるもの)と薬物感受性との間の関連性を評価した。本発明者らは、増幅が低い、又はない細胞株を単一の群に組み合わせ、それを増幅が高い細胞株と比較した。欠失領域について同等の解析を行った。GI50が試験した最大濃度と等しかった細胞株は、解析から除外した。本発明者らは任意の群が5未満の試料数を有する場合、化合物を除外した。
【0238】
実施例XXVI:成長速度と治療剤に対する応答との関連性
(00277)細胞株クラス及び成長速度の薬物感受性に対する効果を評価するため、本発明者らは、上記に記載される3つの細胞株分類スキームの各々につき1つの、一組の二元配置共分散分析(ANCOVA)検定を実施した。これにより6組のp値が得られた(2つの主効果×3分類スキーム);本発明者らは1回のFDR補正により有意性を評価し、FDR p値<0.20が対象となることを宣言した。本発明者らはこれらの分析をRにおいて関数lm及びANOVAで実施した。これらの関数はcarパッケージの一部として利用可能である。
【0239】
実施例XXVII:統合パスウェイ解析
(00278)PARADIGMソフトウェアを使用して、コピー数、遺伝子発現、及びパスウェイ相互作用データの統合を実施した。簡潔に言えば、この手順は、単一の細胞株又は患者試料から、パスウェイ相互作用並びにゲノムデータ及び機能的ゲノムデータを使用して、遺伝子、複合体、及びプロセスについての統合パスウェイレベル(IPL)を推論する。詳細は実施例XXXVを参照のこと。
【0240】
実施例XXVIII:TCGA及び細胞株クラスタリング
(00279)本発明者らは、細胞株について推論された活性が、TCGA腫瘍試料におけるそのそれぞれのサブタイプでクラスター化されるかという問いを立てた。高度に連結されたハブ遺伝子及び高度に相関した活性によって生じるバイアスを回避するため、相関分析により決定された2351個の非冗長的活性の集合を使用して、細胞株及び腫瘍試料をクラスター化した。細胞株が同じサブタイプの腫瘍試料とクラスター化される程度を、コルモゴルフ・スミルノフ検定を用いて計算し、同じサブタイプの細胞株と腫瘍試料とのペア間の相関から計算されたt統計量の分布を、異なるサブタイプの細胞株ペアから計算された分布と比較した。詳細は実施例XXXVIを参照のこと。
【0241】
実施例XXIX:サブタイプパスウェイマーカーの同定
(00280)本発明者らは、まとめて特定のサブタイプに関する示差的活性を示す相互に連結された遺伝子を探索した。各サブタイプは、細胞株を2つの群に二分化するものとして扱った:一方の群は、そのサブタイプに属する細胞株を含み、第2の群は残りの細胞株を含んだ。本発明者らは、2クラスマイクロアレイ有意性解析(SAM)アルゴリズムのRインプリメンテーションを使用して(Tusher,V.G.,Tibshirani,R.& Chu,G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA 98,5116−5121,doi:10.1073/pnas.091062498[pii](2001))、SuperPathwayの概念毎に示差的活性(DA)スコアを計算した。サブタイプについては、正のDAは、そのサブタイプでの他の細胞株と比較したより高い活性に対応する。
【0242】
(00281)SuperPathwayにおける密接に関係する遺伝子の協調的な上方制御及び下方制御は、PARADIGMにより推論される活性を補強する。隣接遺伝子の活性もまた特定の表現型と相関する場合、本発明者らは高いDAスコアのサブネットワーク全体が見出されることを予想する。本発明者らは、2つの概念を連結するリンクであって、両方の概念が平均DA絶対値より高いDAスコアを有したリンクのみを保持することにより、高いDA絶対値の概念が相互連結されたSuperPathwayにおける領域を同定した。
【0243】
実施例XXX:統合パスウェイ解析
(00282)PARADIGMソフトウェアを使用して、コピー数、遺伝子発現、及びパスウェイ相互作用データの統合を実施した
24。簡潔に言えば、この手順は、単一の細胞株又は患者試料から、パスウェイ相互作用並びにゲノムデータ及び機能的ゲノムデータを使用して、遺伝子、複合体、及びプロセスについての統合パスウェイレベル(IPL)を推論する。TCGA BRCAデータは、2010年11月7日付けのTCGA DCCから入手した。TCGA及び細胞株遺伝子発現データは、個別に、各データセット内で中心となるプローブ中央値とした。データセット全体(細胞株又はTCGA腫瘍試料のいずれか)の値を全て順位変換し、−log10順位比に変換してからPARADIGMに投入した。パスウェイは、http://pid.nci.nih.gov/からBioPaxレベル2フォーマットで得られ、NCI−PID、Reactome、及びBioCartaデータベースを含んだ。相互作用を組み合わせて、結合重畳パスウェイ(SuperPathway)とした。遺伝子、複合体、及び抽象的プロセス(例えば「細胞周期」)をパスウェイ概念として保持した。遺伝子概念を結合する前に、全ての遺伝子識別子をHUGO命名法に変換した。全ての相互作用が含まれ、矛盾する影響を解決することは試みなかった。P53(最も多く連結された構成要素)を始端とする幅優先無向探査を実行し、1つの単一構成要素を構築した。得られた結合パスウェイ構造は、3491個のタンパク質、4757個の複合体、及び520個のプロセスを表す合計8768個の概念を含むものであった。PARADIGM用の期待値最大化パラメータを細胞株データで訓練し、次にTCGA試料に適用した。次に細胞株及び腫瘍試料からのデータを組み合わせて単一のデータ行列とした。細胞株又は腫瘍試料のいずれのデータにおいても、0.5IPLを上回る少なくとも1つの値を有さないエントリーは全て、続く解析から除外した。
【0244】
実施例XXXI:TCGA及び細胞株クラスタリング
(00283)PARADIGM IPLを使用して細胞株をTCGA腫瘍試料と共にクラスター化し、細胞株が同じサブタイプの腫瘍試料と類似しているかどうかを決定した。SuperPathwayの十分に調べられた範囲は、多数の相互作用を有する遺伝子(ハブ)と、直接的なデータは利用できない多数の中間的な複合体及び抽象的プロセスの大きなシグナル伝達鎖とを含む。ハブへのバイアスを回避するため、クラスタリング前に、細胞株及び腫瘍試料の両方に高度に相関するベクトル(ピアソン相関係数>0.9)を含むパスウェイ概念を、単一のベクトルに統一した。この統一により、元の8939個のパスウェイ概念から2351個の非冗長性ベクトルがもたらされた。
【0245】
(00284)得られた非冗長性概念の集合を使用して、試料をクラスター化した。47個の細胞株及び183個のTCGA腫瘍試料の両方についての推論されたパスウェイ活性の行列を、Eisen社のClusterソフトウェアパッケージ バージョン3.0に実装される完全連結階層的凝集型クラスタリングを用いてクラスター化した。非中心化ピアソン相関をパスウェイ概念の計量として使用し、試料計量にユークリッド距離を使用した。
【0246】
(00285)細胞株が同じサブタイプの腫瘍試料とクラスター化される程度を定量化するため、本発明者らは、ピアソン相関から導き出されるt統計量の2つの分布を比較した。C
sをサブタイプsの細胞株の集合とする。同様に、T
sをサブタイプsのTCGA腫瘍試料の集合とする。例えば、C
basal及びT
basalは、それぞれ、全ての基底細胞型細胞株及び基底細胞型腫瘍試料の集合である。第1の分布は、同じサブタイプの細胞株及び腫瘍試料を含むあらゆる可能なペア間のピアソン相関から導き出されたt統計量から構成された;すなわち全てのサブタイプsについて、a∈C
s及びb∈T
s’であるようなペア(a,b)間のあらゆる対相関t統計量を計算した。第2の分布は異なるサブタイプの細胞株間の相関t統計量から構成された;すなわち、a∈C
s及びb∈C
s'及びs≠s’であるようなペア(a,b)に関して計算した。本発明者らはコルモゴルフ・スミルノフ検定を実施して分布を比較した。
【0247】
実施例XXXII:統合パスウェイ解析
(00286)PARADIGMソフトウェアを使用して、コピー数、遺伝子発現、及びパスウェイ相互作用データの統合を実施した
24。簡潔に言えば、この手順は、単一の細胞株又は患者試料から、パスウェイ相互作用並びにゲノムデータ及び機能的ゲノムデータを使用して、遺伝子、複合体、及びプロセスについての統合パスウェイレベル(IPL)を推論する。TCGA BRCAデータは、2010年11月7日付けのTCGA DCCから入手した。TCGA及び細胞株遺伝子発現データは、個別に、各データセット内で中心となるプローブ中央値とした。データセット全体(細胞株又はTCGA腫瘍試料のいずれか)の値を全て順位変換し、−log10順位比に変換してからPARADIGMに投入した。パスウェイは、http://pid.nci.nih.gov/から2010年10月13日付けのBioPaxレベル2フォーマットで得られ、NCI−PID、Reactome、及びBioCartaデータベースを含んだ。相互作用を組み合わせて、結合重畳パスウェイ(SuperPathway)とした。遺伝子、複合体、及び抽象的プロセス(例えば「細胞周期」)をパスウェイ概念として保持した。遺伝子概念を結合する前に、全ての遺伝子識別子をHUGO命名法に変換した。全ての相互作用が含まれ、矛盾する影響を解決することは試みなかった。P53(最も多く連結された構成要素)を始端とする幅優先無向探査を実行し、1つの単一構成要素を構築した。得られた結合パスウェイ構造は、3491個のタンパク質、4757個の複合体、及び520個のプロセスを表す合計8768個の概念を含むものであった。PARADIGM用の期待値最大化パラメータを細胞株データで訓練し、次にTCGA試料に適用した。次に細胞株及び腫瘍試料からのデータを組み合わせて単一のデータ行列とした。細胞株又は腫瘍試料のいずれのデータにおいても、0.5IPLを上回る少なくとも1つの値を有さないエントリーは全て、続く解析から除外した。
【0248】
実施例XXXIII:TCGA及び細胞株クラスタリング
(00287)PARADIGM IPLを使用して細胞株をTCGA腫瘍試料と共にクラスター化し、細胞株が同じサブタイプの腫瘍試料と類似しているかどうかを決定した。SuperPathwayの十分に調べられた範囲は、多数の相互作用を有する遺伝子(ハブ)と、直接的なデータは利用できない多数の中間的な複合体及び抽象的プロセスの大きなシグナル伝達鎖とを含む。ハブへのバイアスを回避するため、クラスタリング前に、細胞株及び腫瘍試料の両方に高度に相関するベクトル(ピアソン相関係数>0.9)を含むパスウェイ概念を、単一のベクトルに統一した。この統一により、元の8939個のパスウェイ概念から2351個の非冗長性のベクトルがもたらされた。得られた非冗長性概念の集合を使用して、試料をクラスター化した。47個の細胞株及び183個のTCGA腫瘍試料の両方についての推論されたパスウェイ活性の行列を、Eisen社のClusterソフトウェアパッケージ バージョン3.0に実装される完全連結階層的凝集型クラスタリングを用いてクラスター化した
45。非中心化ピアソン相関をパスウェイ概念の計量として使用し、試料計量にユークリッド距離を使用した。
【0249】
(00288)細胞株が同じサブタイプの腫瘍試料とクラスター化される程度を定量化するため、本発明者らは、ピアソン相関から導き出されるt統計量の2つの分布を比較した。C
sをサブタイプsの細胞株の集合とする。同様に、T
sをサブタイプsのTCGA腫瘍試料の集合とする。例えば、C
basal及びT
basalは、それぞれ、全ての基底細胞型細胞株及び基底細胞型腫瘍試料の集合である。第1の分布は、同じサブタイプの細胞株及び腫瘍試料を含むあらゆる可能なペア間のピアソン相関から導き出されたt統計量から構成された;すなわち全てのサブタイプsについて、a∈C
s及びb∈T
s’であるようなペア(a,b)間のあらゆる対相関t統計量を計算した。第2の分布は異なるサブタイプの細胞株間の相関t統計量から構成された;すなわち、a∈C
s及びb∈C
s’及びs≠s’であるようなペア(a,b)に関して計算した。本発明者らはコルモゴルフ・スミルノフ検定を実施して分布を比較した。
【0250】
実施例XXXIV:様々な遺伝子の分子レベルにおける腫瘍の分子サブタイプ
(00289)乳房腫瘍に関して行われる全ゲノム遺伝子発現解析の先駆的研究から、最も顕著にエストロゲン受容体(ER)陰性基底細胞様サブグループ及びER陽性ルミナルサブグループに属する種々のサブクラスが同定されており(Perou,C.M.et al.,(2000),Molecular portraits of human breast tumours,406:747−752)、その臨床転帰には違いがある(14 Sorlie,T.et al.,(2001),Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications,98:10869−10874)。いくつかの分子サブタイプの存在はまた、DNAコピー数解析(2Russnes et al.(2007)上記)、DNAメチル化(Ronneberg et al.(2011)上記)及びmiRNA発現解析(Enerly et al.(2011)上記)によっても観察されている。しかしながら、問題は、分子解析によって様々な新しい分子レベルで得られたこれらの新しいプロファイルが、mRNA発現により当初見出されたサブクラスをどの範囲まで再現するか、及び臨床上重要な新規患者サブグループを同定するこれらの新しい分類の潜在力はどのようなものか?である。これらの問いに取り組むため、本発明者らは初めにMicMaデータセットの乳癌患者を、偏りのない教師なし方法を用いて、調査される各分子レベルによりクラスター化した(
図23)。分子レベル毎の患者のクラスタリングのヒストグラムを個別に、及び患者サブグループ毎の生存KMプロットを、
図23に示す。興味深いことに、このクラスタリング手順により、Pam50分類から導き出されるクラスターと高度に相関した7つのmRNA発現クラスターの同定がもたらされる。これはPam50と一致するが、ルミナルAクラスターはexp1−4 mRNAクラスターの間に、基底細胞及びERBB2は最後の3つ(exp5−7)のクラスターの間に分かれた。miRNAレベルでは、(Enerly et al.(2011)上記)に既に記載されるとおり、3つの異なるクラスターが得られた;メチル化レベルでは、記載されるとおりの3つの主クラスターと、はるかに小さい1つが認められ、第4のクラスターはRonneberg et al.(2011,上記)でも観察されたが、それ以上は考察されていない。CNAレベルでは6つの異なるクラスターが出現した。明らかに、あらゆるレベルで個別的な患者クラスターが特定の生存パターンと関連付けられた(
図23)。次に、同じ患者が異なる分子レベルで対応するクラスターを形成したかどうかを評価した。実際、異なるレベルのクラスタリング間に、最も顕著にはDNAメチル化及びmRNA発現及びDNAコピー数の間に、良好な一致が大いにあった(表12)。しかしながら、試料によってはいかなるレベルでも常に共にクラスター化される一方で、他の試料は研究における特定の各分子終点に応じて異なる群にクラスター化される。
【0251】
【表3】
【0252】
(00290)1つの分子レベルに由来する1つのサブクラスを、もう1つによるクラスタリングにより一貫して分けることで、重要な生物学的意義が明らかとなり得る。例えば、(3)で考察されるとおり、メチル化とmRNA発現との間の良好な相関に基づく分類が認められたが(p=2.29・10
-6)、ルミナル−Aクラス(mRNA発現による)は更に2つの異なるメチル化クラスターの間に分けられた。同じことが基底細胞様腫瘍にも該当したことから、mRNA発現クラスターとの強い一致にもかかわらず、DNAメチル化によるクラスタリングによって更なる情報が提供されたことが示唆される。異なるDNAメチル化プロファイルを有するルミナルA試料は、生存が異なる(Ronneberg,J.A.et al.,(2011),Methylation profiling with a panel of cancer related genes:association with estrogen receptor,TP53 mutation status and expression subtypes in sporadic breast cancer,5:61−76)。本発明者ら及び他の研究者の両方からの新しいデータセットの数が増えることで、将来、これらのクラスターがいくつかの最も高頻度及び多数の低頻度の組み合わせに収束するかどうかが明らかとなるであろう。
【0253】
(00291)異なる分子レベルでの再分類は、異なるレベルに影響を受ける新たな興味深い生物学的パスウェイが指示され得るため、更なる研究の価値があるが、このクラス間でのサンプルを水平に入れ替える中での情報量は限定的であり得る。パスウェイ毎にこれらのクラスター内で示差的に発現/変化する遺伝子を調べることは、先験的知識及び既知の相互作用の選択に依存し、新規のパスウェイを同定することは不可能である。更に、これらの手法は異なるデータセットにおける遺伝子及び計測値を独立変数として扱い、パスウェイにおける遺伝子の位置、又はその相互作用するパートナーの数(すなわちパスウェイのトポロジー)は考慮せず、遺伝子集合中の1つ又は少数の遺伝子の発現における大きい変動に対して脆弱であり得る。一般に、癌における多くの腫瘍で特定のパスウェイが調節解除され得るが、特定の遺伝子及び調節解除の方法は種々の腫瘍で変化することが観察されている(Cancer Genome Atlas Research Network.Comprehensive genomic characterization defines human glioblastoma genes and core pathways.Nature 2008 Oct.;455(7216):1061−1068)。従って、次に本発明者らは、パスウェイ及び関連する臨床データの文脈における腫瘍内での各遺伝子の活性レベルを特徴付けるため、単一の遺伝子に関する異なるデータ型の計測値間の相互作用並びに既知の遺伝子間相互作用をモデル化するパスウェイベースのモデリング法を適用した。本発明者らは各遺伝子の統合パスウェイレベル(IPL)を用いて患者を直接同定し、これらの調節解除されたパスウェイに従い(分子データ型間で)分類して、次に様々な分子レベルにおける新しいクラスターと先述のクラスとの関係を調査した。
【0254】
実施例XXXV:予後的意義により浸潤癌を分類するためのPARADIGM
(00292)腫瘍表現型を説明し、かつ腫瘍を標的化治療され易いものにし得る個別の生物学的機能を、ゲノム変化がどのように妨害するかを理解するために、本発明者らはパスウェイレベルの摂動を理解する必要がある。PARADIGMは、遺伝子を単一のレベルで調べた場合には区別できない患者サブセットにおいて、一貫した活性パスウェイを同定する。この方法は、既知のパスウェイ構造に対して、確率的グラフィカルモデル(PGM)から統合機能ゲノミクスデータに至るまでの技術を用いる。これは既に、TCGA膠芽腫及び卵巣のデータセットからのコピー数及びmRNA発現のデータ解析に適用されている。PARADIGM解析はまた、DNAメチル化又はコピー数、mRNA及びmiRNA発現などの、複数のレベルでゲノム変化を関係付けるためにも用いることができ、従って個々の各試料における任意の数のオミクスデータ層を統合することができる。DNAメチル化及びmiRNA発現は、ここで観察された調節解除パスウェイに寄与し、かつMicMaコホートにおいて各々それ自体で乳癌の予後診断及び分子プロファイルに明確な寄与を有するように思われるが(
図23)、本発明者らは、これらの2つの分子プロファイルタイプを追加することによるPARADIGMクラスターの予後診断値の向上は見出さなかった。これについての1つの説明は、miRNA及びDNAメチル化解析の予後診断値が、それらの高い相関からmRNA発現によって再現されるというものである。しかしながら、このように結論付けるには、例えば、解析プラットフォームの選択(メチル化についての限られたIllumina社の1505 CpG癌パネル)及び真のmiRNA標的についての本発明者らの限られた知識が、総合的に計測し、かつmiRNA及びDNAメチル化情報を有効にモデル化する本発明者らの能力を制限する要因となり得るかどうかに関して、更なる分析を要する。
【0255】
(00293)MicMaコホートのmRNA発現及びコピー数変化に基づくPARADIGM解析により、5つの異なるクラスターの存在が同定され(
図24A)、かつmRNA発現とDNAコピー数とを組み合わせると、個別に研究される分子レベルのいずれと比べても、予後に関して患者のより優れた判別につながることが示された(
図24B及び
図23)。その摂動がこの分類に最も強く寄与したパスウェイは、アンジオポエチン(Angiopoientin)受容体Tie2媒介性シグナル伝達のもの、及び最も顕著には、免疫応答(TCR)及びインターロイキンシグナル伝達のものであり、ここではパスウェイにおけるほぼ全ての遺伝子又は複合体は正常値から外れた(
図25A)。最も著明に認められたのは、IL4、IL6、IL12及びIL23シグナル伝達であった。他の著明なパスウェイは、エンドセリン、同様に卵巣及び膠芽腫TCGAデータセットで調節解除されるFOXM1転写、並びに同様に乳癌及び卵巣癌で調節解除されることが既に分かっている及びERBB4であった。この解析に基づき、本発明者らは、有意に異なる予後診断を有する以下の患者群を同定した。これらの群は、おおまかに以下のとおり特徴付けることができる:
pdgm.1=高FOXM1、高免疫シグナル伝達、
pdgm.2=高FOXM1、低免疫シグナル伝達、マクロファージ優勢、
pdgm.3=低FOXM1、低免疫シグナル伝達、
pdgm.4=高ERBB4、低アンギオポエチンシグナル伝達、
pdgm.5=高FOXM1、低マクロファージサイン。
【0256】
(00294)2つの既に発表されているデータセットにおいてParadigmクラスターの同定を検証した。1つはChin et al 2007(Chin,S.F.et al.,(2007),Using array−comparative genomic hybridization to define molecular portraits of primary breast cancers,26:1959−1970)によるもので、これはMicMaデータセットと比較して、ER及び高悪性度腫瘍の頻度がより高かったとともに、更に一層興味深いことに、別の集合では非悪性DCIS(非浸潤性乳管癌)が濃縮された(12 Muggerud,A.A.et al.,(2010),Molecular diversity in ductal carcinoma in situ(DCIS)and early invasive breast cancer,4:357−368)(
図25B、
図25C)。純粋なDCIS腫瘍のヒートマップを
図25Dに示す27。
【0257】
(00295)MicMaにおいて最も不良な予後のクラスターpdgm.2では、IL4シグナル伝達はSTAT6と共に強く下方制御され、STAT6はヒト乳癌細胞において成長阻害を妨げることが示されている(16 Gooch,J.L.,Christy,B.,and Yee,D.,(2002),STAT6 mediates interleukin−4 growth inhibition in human breast cancer cells,4:324−331)。IL4シグナル伝達の下方制御はまた、より高い腫瘍成長を支持し得るマスト細胞の活性化も促進している(17 de Visser,K.E.,Eichten,A.,and Coussens,L.M.,(2006),Paradoxical roles of the immune system during cancer development,6:24−37)。逆にpdgm.5では、IL23シグナル伝達により、マクロファージ活性化が低下し、ナチュラルキラー細胞活性が増加する。一方の側面でTh−2細胞及びB細胞の動員に、他方でTh−1の増殖に対する免疫応答において癌依存的分極化が考察されている(1 Ursini−Siegel,J.et al.,(2010),Receptor tyrosine kinase signaling favors a protumorigenic state in breast cancer cells by inhibiting the adaptive immune response,70:7776−7787)。一定の条件下でTh1/CTL免疫応答は、マウスにおける過形成の腺腫への移行を妨げ得る一方、Th2応答は、癌腫への移行を促進する慢性炎症状態を付与することにより得るという仮説が立てられている。IL4はTh−2由来のサイトカインであり、B細胞分化及び癌細胞での慢性炎症を刺激する。更にTh−2細胞は、これらの癌における免疫抑制を媒介するIL10を分泌する。この免疫抑制は、主に基底細胞癌及びERBB2癌で起こることが示されている。この裏付けとして、最近、「腫瘍促進性微小環境で抗腫瘍性獲得免疫プログラムが奪われ、代わりに、上皮細胞挙動の調節に機能的に関与する先天性免疫系の細胞成分が関わることにより悪性腫瘍が促進され得る」ことが示されている(DeNardo,D.G.et al.,(2009),CD4(+)T cells regulate pulmonary metastasis of mammary carcinomas by enhancing protumor properties of macrophages,16:91−102)。
【0258】
(00296)ここに提案されるこの免疫分類と、十分に確立されたmRNA発現による分類(ルミナルA、B、基底細胞、ERBB2、正常様)との間には、相当の一致があった(
図24)。基底細胞及びERBB2のクラスターに属する試料は、主に、prgm1(より不良な予後)、ルミナルA−prgm 3(最も良好な予後)のものであった。しかしながら、Paradigmクラスタリングは、ルミナルA(prgm3)とルミナルB(prgm4)とのクラスター間についてのかなり有意な区別、並びに予後が極めて不良な基底細胞型腫瘍サブセット(prgm2)の同定を提供する。
【0259】
実施例XXXVI:パスウェイの摂動がPARADIGMクラスタリングに特異的に影響を与える同定された該パスウェイ
FOXM1転写
(00297)FOXM1は、細胞周期進行の主要調節因子であり、その内因性FOXM1発現は細胞周期の相に従い振動する。ヒト癌原遺伝子として確認されたFOXM1は、肝癌、乳癌、肺癌、前立腺癌、子宮頸癌、結腸癌、膵癌、脳癌並びに最も一般的なヒト癌の基底細胞癌を含め、ヒト固形癌の大多数で上方制御されることが分かっている。FOXM1は、細胞周期及び染色体/ゲノム維持におけるその複数の役割によって腫瘍形成を促進すると考えられている(Wonsey,D.R.and Follettie,M.T.,(2005),Loss of the forkhead transcription factor FoxM1 causes centrosome amplification and mitotic catastrophe,65:5181−5189)。初代ヒト皮膚角化細胞におけるFOXM1の異常な上方制御は、ヘテロ接合性の喪失(LOH)及びコピー数異常の形でのゲノム不安定性を直接誘導し得る。(Teh M,Gemenetzidis E,Chaplin T,Young BD,Philpott MP.Upregulation of FOXM1 induces genomic instability in human epidermal keratinocytes.Mol.Cancer 2010;9:45)。最近の報告では、成人ヒト上皮幹細胞におけるFOXM1の異常な上方制御は、3D器官型組織再生系において前癌表現型−ヒト過形成と同様の状態−を誘導することが示された(Gemenetzidis,E.et al.,(2010),Induction of human epithelial stem/progenitor expansion by FOXM1,70:9515−952)。この著者らは、FOXM1の過剰発現は、分化経路に干渉し、それにより前駆細胞コンパートメントを拡大することによって幹細胞の固有の自己再生増殖能を利用することを示した。従って、FOXM1は幹細胞/前駆細胞の増殖によって癌の発生を誘導するという仮説が立てられた。本発明者らは、主にインターロイキンシグナル伝達活性に従い分けられた、このパスウェイの高い活性及び低い活性を有する2つの乳癌患者群を明らかに認めている。
図26は、クラスターpdgm3(最良の予後)についての、このパスウェイの逆の活性化の仕方を示し(活性化されたとき赤色、対して不活性化されたとき青色)、これはより不良な生存及びそれに寄与する分子レベル(図の形に従いmRNA、CNA、miRNA又はDNAメチル化)を伴うその他のクラスターとは対照的である。pdgm3におけるMMP2の下方制御はDNAメチル化による一方、その他の腫瘍ではDNA欠失によることが分かる。miRNAの中で、has−let7−bはpgm3において上方制御され、その他では下方制御され、その標的のAURKBと相補的であった。DNA増幅及びmRNA発現の両方は発現の調節解除の原因と見られた。
【0260】
アンギオポエチン受容体tie2媒介性シグナル伝達
(00298)Angファミリーは、ヒト癌の発症及び成長の間の血管新生において重要な役割を果たす。Ang2の血管新生における役割は、概してAng1の拮抗体であって、血管成熟及び安定化に重要な、Ang1促進性のTie2シグナル伝達を阻害すると考えられる(23)。Ang2は、別の重要な血管新生因子である血管内皮増殖因子A(VEGFA)と共に、協働的に血管新生を調整する(Hashizume,H.et al.,(2010),Complementary actions of inhibitors of angiopoietin−2 and VEGF on tumor angiogenesis and growth,70:2213−2223)。新しいデータは、ヒト癌が進行する間の浸潤性表現型の癌細胞の血管新生におけるAng2のより複雑な役割を示唆する。特定のアンギオポエチン(Ang)ファミリーメンバーはTie1を活性化することができ、例えばAng1は内皮細胞においてTie1リン酸化を誘導する(2 Yuan,H.T.et al.,(2007),Activation of the orphan endothelial receptor Tie1 modifies Tie2−mediated intracellular signaling and cell survival,21:3171−3183)。しかしながら、Tie2が内皮細胞において下方制御されるとき、Ang1はTie1リン酸化を誘導できず、及びAng1が存在しない場合に、Tie1リン酸化は構成的に活性な形態のTie2又はTie2作動性抗体のいずれかにより誘導されるため、Tie1リン酸化はTie2依存性である(25 Yuan et al.(2007)上記)。Ang1媒介性AKT及び42/44MAPKリン酸化は主にTie2媒介性であり、Tie1はこのパスウェイを下方制御する。従ってTie1の主な役割は、Tie2駆動性のシグナル伝達を下方制御するその能力及び内皮生存により、血管形態形成を調整することである。両方のTie2媒介性シグナル伝達並びにVEGFR1及び2媒介性シグナル伝達及び特異的シグナルが、このデータセットにおいて観察された。
【0261】
ERBB4
(00299)ERBB4は、乳房形態形成における増殖及び細胞運動並びにErbb4を発現する乳房原始上皮の方向性のある細胞運動に寄与する一方で、乳房細胞運命を促進する。Nrg3/Erbb4シグナル伝達の候補エフェクターは同定されており、ここでは初期の乳腺発生及び癌に関連する他のシグナル伝達パスウェイと相互作用することが示されている。ErbB4の生体内での主要な機能の1つは、妊娠及び泌乳誘導中の乳腺の成熟にある。妊娠及び長期の泌乳期間は乳癌リスクの低下と関連付けられており、従って腫瘍抑制におけるErbB4の役割は、泌乳におけるその役割と結び付けられ得る。ほとんどの報告は、思春期に他のErbBファミリーメンバーにより引き起こされる成長刺激を反転させることにおけるErbB4の役割と一致するが、しかしながらERBB4発現との生存の有意な関連性は確認されていない(Sundvall,M.et al.,(2008),Role of ErbB4 in breast cancer,13:259−268)。
【0262】
実施例XXXVII:非浸潤性乳管癌(DCIS)における分類のためのPARADIGM
(00300)マウスモデルでの前癌性過形成腺における免疫応答の関与を考慮して(Ursini−Siegel,J.et al.,(2010),Receptor tyrosine kinase signaling favors a protumorigenic state in breast cancer cells by inhibiting the adaptive immune response,70:7776−7787)、本発明者らは、DCISケースから構成される既に発表されたデータセットを分析し、浸潤性腫瘍で観察される強い免疫応答及びインターロイキンシグナル伝達が前癌期においても同様に存在するかどうかを見出した。非浸潤性乳管癌(DCIS)は非浸潤型の乳癌であり、一部の病変は急激に浸潤性乳管癌(IDC)に移行する一方、他の病変は変化しないままであると考えられている。本発明者らは、以前に、31例の純粋なDCIS、36例の純粋な浸潤癌及び42症例の混合診断(浸潤癌で非浸潤性要素を伴うもの)の遺伝子発現パターンを研究し(Muggerud et al.(2010)上記)、組織学的悪性度が高いDCIS間でのトランスクリプトームの多様性を観測して、進行性腫瘍により類似した遺伝子発現特徴を有する個別的なDCISサブグループを同定している。このコホート全体(IDC及びILCを含む)についてのPARADIGM結果のヒートマップは
図25C、及び純粋なDCIS試料についてのヒートマップは
図25D。いずれの純粋なDCIS腫瘍も、高マクロファージ活性に典型的なシグナル伝達によって特徴付けられるprgm2型ではなかった(
図25)。それと一致して、実験的研究から、原発性乳腺腺癌におけるマクロファージは、その血管新生促進特性の結果として後期発癌を調節するとともに(Lin,E.Y.and Pollard,J.W.,(2007),Tumor−associated macrophages press the angiogenic switch in breast cancer,67:5064−5066;Lin,E.Y.et al.,(2007),Vascular endothelial growth factor restores delayed tumor progression in tumors depleted of macrophages,1:288−302)、悪性乳房上皮細胞に上皮成長因子(EGF)を提供することにより肺転移を助長することが実証されている。ここでも、DCISにおいてPARDIGM解析により同定された上位の調節解除パスウェイには、IL2、4、6、12、23、及び23シグナル伝達に関与するものがあった。
【0263】
(00301)両方のデータセット(DCIS、MicMa)において、ナイーブCD8+ T細胞におけるTCRシグナル伝達は、CD8+ T細胞を動員することが知られる多数のケモカインと共にリストの上位にあった。1つはIL−12であり、これは、NK細胞及びT細胞からのIFN−γ産生を刺激することが示された抗原提示細胞により産生される。IFN−γパスウェイは、調節解除されたパスウェイの1つで、DCISにおけるリストのより上位であった。IFNγはTh1細胞及びNK細胞から産生され、抗腫瘍免疫応答を惹起することが示された。第I相臨床試験において、トラスツズマブ(ハーセプチン)の臨床効果は、HER2過剰発現腫瘍を有する患者にIL−12を同時投与することで増強されることが示されており、この効果はNK細胞におけるIFNγ産生の刺激により媒介される(29)。DCISでは、他の最も強力な寄与体(表8)は84_NOX4であった。酸素検知性NAPHDオキシダーゼのNOX4、及び食細胞型Aオキシダーゼは、好中性顆粒球における多量の活性酸素種(ROS)の産生、一次免疫応答に関与するものと同様である。また、FN1(フィブロネクチン)、及び血小板由来成長因子受容体であるPDGFRBも、COL1A2、IL12/IL12R/TYK2/JAK2/SPHK2、ESR1及びKRT14と共に、DCISにおいて合わせて特異的に繰り返し現れた。
【0264】
(00302)これらの遺伝子/パスウェイは全て、細胞外マトリックスにおける機能、細胞間相互作用、並びに線維症及び角質化に寄与しているように見える。例えば、フィブロネクチン−1、FN1は、細胞表面上、細胞外液、結合組織、及び基底膜に存在する高分子量糖タンパク質ファミリーに属する。フィブロネクチンは他の細胞外マトリックスタンパク質及び細胞リガンド、例えば、コラーゲン、フィブリン、及びインテグリンと相互作用する。フィブロネクチンは細胞の接着及び遊走プロセスに関与する。血小板由来成長因子受容体のPDGFRは、上皮成長因子(EGF)と共に、重要な受容体チロシンキナーゼ(RTK)であるEGF及びPDGFの受容体を介してシグナルを伝達する。重要なことに、ここで特定のDCISにおいて過剰発現することが分かったPDGFRは、スニチニブの標的であり(Fratto,M.E.et al.,(2010),New perspectives:role of sunitinib in breast cancer,161:475−482)、及びメシル酸イマチニブ(グリベック)の二次標的である(Weigel,M.T.et al.,(2010),In vitro effects of imatinib mesylate on radiosensitivity and chemosensitivity of breast cancer cells,10:412)。INFγ産生を増加させることにより媒介される上記のトラスツズマブ(ハーセプチン)の免疫賦活の役割とは逆に、イマチニブはTCR活性化CD4(+)T細胞によるインターフェロン−γ産生を阻害することが示された。これらの観察は、DCIS及び悪性細胞の表面に提示される成長因子受容体間の相互作用並びに免疫構成を明らかにする点で、本発明者らの議論にとって興味深い。PDGFRに対する刺激性自己抗体は、I型コラーゲンの発現増加をもたらすRas、ERK1/ERK2、及び活性酸素種(ROS)を含む細胞内ループを引き起こすと見られることが示された。これは、本発明者らの研究で同様にDCISにおいて調節解除されるとして観察されたCOL1A2発現と一致する。
【0265】
実施例XXXVIII:材料及び方法
(00303)本解析は、約110例の乳癌から収集したデータに適用し、mRNA発現はAgilent社の全ヒトゲノム4×44K 1色法オリゴアレイにより解析した。コピー数変化(CNA)は、Illumina社のHuman−1 109K BeadChipを使用して解析した。このSNPアレイは遺伝子中心的であり、平均物理距離が30kbのゲノム全体を網羅するマーカーを含み、かつ15,969個の固有の遺伝子を表す(2004年5月構築、hg17、NCBI Build 35)。各試料を全ゲノム増幅に供した。BeadStudio(v.2.0、Illumina社)を使用して、dbSNP(build 125)の順方向の対立遺伝子の向きを参照して遺伝子型レポート及びlogR値を抽出し、CNAについてlogR値を調整した。
【0266】
(00304)Agilent Technologies社の「Human miRNA Microarray Kit(V2)」を使用して、製造者のプロトコルに従い全RNAからのmiRNAプロファイリングを実施した。Agilent社のScanner G2565Aでのスキャニング及びFeature Extraction(FE)v9.5を使用してシグナルを抽出した。重複ハイブリダイゼーションを用いて(99試料)、種々のアレイ及び時間点で実験を行った。2つの試料は1回のみプロファイル決定した。複製プローブのmiRNAシグナル強度をプラットフォームで平均化し、log2変換して、75パーセンタイルに正規化した。FE v9.5の初期設定により、miRNA発現状態を各試料中における各遺伝子の存在又は非存在としてスコア化した。
【0267】
(00305)DNAメチル化。EpiTect 96 重亜硫酸キット(Bisulfite Kit)(Qiagen GmbH社、独国)を使用して、1マイクログラムのDNAを重亜硫酸処理した。500ngの重亜硫酸処理したDNAを、807個の癌関連遺伝子における1505ヶ所のCpG部位を同時に解析するGoldenGateメチル化癌パネルI(Methylation Cancer Panel I)(Illumina社、CA、米国)を使用して解析した。遺伝子当たり少なくとも2つのCpG部位が解析され、ここで1つのCpG部位はプロモーター領域にあり、1つのCpG部位は最初のエクソンにあり、メチル化データの初期処理にはBead studioソフトウェアを、製造者のプロトコルに従い使用した。各CpG部位の検出p値を使用して試料パフォーマンスを検証し、検出p値に基づきデータセットをフィルタリングし、ここで検出p値>0.05のCpG部位を以降の解析から除外した。
【0268】
(00306)データ前処理及びParadigmパラメータ。コピー数をCBSを用いてセグメント化し、次に、hg18のRefSeq遺伝子座標にわたる全てのセグメントの中央値を取ることにより、遺伝子レベルの計測値にマッピングした。mRNA発現について、計測値は、各プローブについて発現値中央値を減じることにより、第1のプローブで正規化した。各プローブの製造者のゲノム位置を、UCSC社のliftOverツールを使用してhg17からhg18に変換した。次に、RefSeq遺伝子に重なる全てのプローブの中央値を取ることにより、遺伝子毎の計測値を得た。製造者の説明を用いてメチル化プローブを遺伝子と対応させた。各データセットを個別に分位点変換することにより、先のとおりParadigmを実行し(10)、しかしデータは、5%及び95%の分位点においてではなく、等しいサイズのビンに離散化した。パスウェイファイルは、先に解析したとおりPID(36)からであった。
図26は、各データ型における上のビン又は下のビンのいずれかの観測割合をカウントし、次に任意のデータ型において観測割合が最大のビンで各ノードをラベル化することによる、離散化した入力データの(及びIPL値ではない)要約を示す。
【0269】
HOPACH教師なしクラスタリング
(00307)
R バージョン2.12上で動くHOPACH Rインプリメンテーション バージョン2.10(37)を使用して、クラスターを導き出した。全てのデータ型で相関距離計量を使用し、但しParadigm IPLは例外で、非正規分布、かつゼロ値が見られたため、cosangleを使用した。5サンプル未満を含む任意のサンプルクラスターについては、各サンプルを、より大きいクラスター中の最も類似するサンプルと同じクラスターにマッピングした。MicMaデータセットのParadigmクラスターは、MicMaデータセットにおける各クラスターのメドイド(mediod)(中央値関数を使用)を決定し、次に別のデータセットの各サンプルを、cosangle距離により最も近かったいずれかのクラスターメドイド(mediod)に割り当てることにより、他のデータ型にマッピングした。
【0270】
(00308)カプラン・マイヤー(Kaplain−Meier)、クラスター濃縮。R バージョン2.12を使用して、カプラン・マイヤー統計、プロット、及びクラスター濃縮を決定した。coxph()比例ハザードモデルからワルド検定を使用してコックスp値を決定し、及びsurvdiff()関数からカイ二乗検定によりログランクp値を決定した。クラスタリングについての遺伝子の値又はパスウェイメンバーの値の全体的な濃縮をANOVAにより決定し、かつ特定のクラスターラベルについての遺伝子の濃縮を、特定のクラスターにおける遺伝子の値と、他の全てのクラスターにおける遺伝子の値とのT検定により決定した。p値調整のベンジャミニとホッホバーグ(Benjamini&Hochberg)の方法を用いてFDRを決定した。
【0271】
実施例XXXIX:データセット及びパスウェイ相互作用
(00309)コピー数及び発現データの両方をPARADIGM推論に組み込んだ。8個の正常組織対照の集合が発現データにおける解析に利用可能であったため、患者の遺伝子値の各々を、正常な卵管対照で観察される遺伝子の中央値レベルを減じることにより正規化した。コピー数データは、腫瘍で検出された遺伝子レベルと、それに対する血液正常レベルとの間のコピー数の差異を反映するように正規化した。PARADIGMへの入力のために、発現データは、サブタイプ解析に使用したものと同じ統合データセットから取り、コピー数は、MSKCC Agilent社の1Mコピー数データのセグメント化コールから取った。
【0272】
(00310)131個のパスウェイ、11,563個の相互作用、及び7,204個のエンティティを含むNCI−PIDからパスウェイの集合体を入手した。エンティティは、PARADIGMのグラフィカルモデルにおいて「ノード」として表現される分子、複合体、小分子、又は抽象概念である。抽象概念は、一般的な細胞プロセス(「アポトーシス」又は「光の吸収」など)、及びシグナルトランスデューサーのRASファミリーなどの機能的活性を共有する遺伝子のファミリーに対応する。本発明者らは、タンパク質間相互作用、転写調節相互作用、リン酸化及びユビキチン化などのタンパク質修飾相互作用を含む相互作用を収集した。
【0273】
実施例XL:パスウェイ文脈における統合分子活性の推論
(00311)本発明者らは、コピー数、遺伝子発現、及び各エンティティのパスウェイ文脈を反映する統合パスウェイ活性(IPA)を割り当てるPARADIGMを使用した。
【0274】
(00312)データの遺伝子特異的及び患者特異的な断面の順列を使用して、IPAの有意性を評価した。ゲノム中の各遺伝子についての遺伝子発現とコピー数とのペアの値を無作為に選択することにより、1000個の「ヌル」患者のデータを作成した。PARADIGM IPAの有意性を評価するため、本発明者らはパスウェイ構造を維持しながらパスウェイにランダム遺伝子を割り当てることにより、ヌル分布を作成した。
【0275】
実施例XLI:FOXM1パスウェイの同定
(00313)FOXM1ネットワーク内の全ての遺伝子を使用してランダムシミュレーションの間に統計的有意性を評価したが、FOXM1パスウェイの視覚化を可能とするため、
図29により有意に変化したIPAを有するFOXM1に直接連結されたエンティティを、
図27に含めるために選択した。これらのうち、DNA修復及び細胞周期制御において役割を有する遺伝子であって、FOXM1との相互作用について文献の裏付けがあると認められたものを表示した。元のNCI−PIDパスウェイに見出されなかったBRCC複合体メンバーを、NCI−PIDによればFOXM1の標的であるBRCA2と共にプロットに含めた。上流DNA修復標的を、他のNCIパスウェイにおけるCHEK2の上流直接因子を見つけることにより同定した(例えば、PLK3シグナル伝達パスウェイにおいてATMからの間接的リンクが見出された)。
【0276】
実施例XLII:クラスタリング
(00314)活性及び非活性の確率の変化を直接的に表す推論活性の使用により、様々な種類のエンティティをまとめて1つのヒートマップにクラスター化することが可能となる。PARADIGM推論の結果を包括的に視覚化するため、Eisen Cluster 3.0を使用して特徴フィルタリング及びクラスタリングを実施した。0.1の標準偏差フィルタリングにより7204個中1598個のパスウェイエンティティが残り、エンティティ及び試料の両方に対して平均連結法、非中心化相関階層的クラスターを実施した。
【0277】
実施例XLIII ゲノムDNAの単離
(00315)血液試料(2−3ml)を患者から採取し、使用時まで、EDTAを含有する試験管に−80℃で保存する。この血液試料から、DNA単離キット(PUREGENE,Gentra Systems社、ミネソタ州ミネアポリス)を使用して製造者の指示に従いゲノムDNAを抽出する。DNA純度は、ベックマン分光光度計で計測した260nm及び280nmにおける吸光度の比(1cm光路;A
260/A
280)として計測される。
【0278】
実施例XLIV:SNPの同定
(00316)患者のDNA試料からの遺伝子領域は、PCRにより、その領域用に特別に設計されたプライマーを使用して増幅する。PCR産物は、上記に開示されるとおりの当業者に周知の方法を用いて配列決定する。配列トレースで同定されるSNPを、Phred/Phrap/Consedソフトウェアを使用して検証し、NCBI SNPデータバンクに寄託されている既知のSNPと比較する。
【0279】
実施例XLV:統計的解析
(00317)値は平均値±SDとして表現される。χ
2分析(Web Chi Square Calculator,Georgetown Linguistics,Georgetown University,ワシントンD.C.)を使用して、正常な対象と障害を有する患者とにおける遺伝子型頻度間の差異を評価する。事後解析を伴う一元配置ANOVAを示されるとおり実施して、異なる患者群間の血行動態を比較する。
【0280】
(00318)当業者は、上述の実施形態の様々な適応例及び改良例を本発明の範囲及び精神から逸脱することなく構成し得ることを理解するであろう。当該技術分野において公知の他の好適な技術及び方法は、当業者によって数多くの具体的な様式で、かつ本明細書に記載される本発明の説明に照らして適用され得る。従って、本発明は本明細書に具体的に記載される以外でも実施され得ることが理解されるべきである。上記の説明は例示的であり、限定的であることを意図するものではない。上記の説明を検討することで、当業者には多数の他の実施形態が明らかであろう。従って本発明の範囲は、特許請求の範囲に認められる均等物の全範囲と共に、添付の係る特許請求の範囲を参照して決定されるべきである。
【0281】
【表4】
【0282】
【表5-1】
【表5-2】
【0283】
【表6-1】
【表6-2】
【0284】
【表7】
【0285】
【表8-1】
【表8-2】
【0286】
【表9】
【0287】
【表10-1】
【表10-2】
【0288】
【表11-1】
【表11-2】
【0289】
【表12】
【0290】
【表13】
【0291】
【表14】
【0292】
【表15】
検証済みの突然変異は、独立したアッセイで確認されたものである。その多くは、同じ腫瘍由来の第2の独立したWGA試料を使用して検証される。未検証の突然変異では、独立した確認はまだ行われていないが、真の突然変異である尤度が高い。手計算により、TP53において更なる25個の突然変異が認められた。
【0293】
【表16】
【0294】
【表17-1】
【表17-2】
【表17-3】
【0295】
【表18】
【0296】
【表19】
【0297】
【表20】
【0298】
【表21】
【0299】
【表22】
【0300】
【表23】
【0301】
【表24】
【0302】
【表25】
【0303】
【表26】
【0304】
【表27】
【0305】
【表28】
【0306】
【表29】
【0307】
【表30】
【0308】
【表31】
【0309】
【表32】
【0310】
【表33】
【0311】
【表34-1】
【表34-2】
【表34-3】
【0312】
【表35-1】
【表35-2】
【0313】
【表36-1】
【表36-2】
【0314】
【表37-1】
【表37-2】
【0315】
【表38-1】
【表38-2】
【0316】
【表39-1】
【表39-2】
【0317】
【表40】
【0318】
【表41】