【実施例1】
【0035】
実施例1:二つ以上の細胞内シグナル伝達経路の活性の推定
公開欧州特許出願EP2549399A1("Assessment of Wnt pathway activity using probabilistic modeling of target gene expressions")及び、特に公開国際特許出願WO2013/011479A2("Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression")に詳細に記載の通り、確率モデル(例えばベイジアンモデル)を構築し、複数の異なる標的遺伝子の発現レベルと細胞内シグナル伝達経路の活性との間の従来の確率的関係を組み込むことによって、かかるモデルは高精度で細胞内シグナル伝達経路の活性を決定するために使用されることができる。さらに、条件付き確率を調節すること及び/又は追加情報源をあらわす新たなノードをモデルに追加することによって、確率モデルは後の臨床研究によって得られる追加知識を組み込むように容易に更新されることができる。このように、確率モデルは最新の医学的知識を具体化するように必要に応じて更新されることができる。
【0036】
各経路の標的遺伝子は好適にはWO2013/011479A2のセクション"Example 3:Selection of target genes"及び"Example 4:Comparison of evidence curated list and broad literature list"に記載の方法に従って選択され、確率モデルは好適にはWO2013/011479A2の"Example 5:Training and using the Bayesian network"に記載の方法に従って訓練され得る。例示的なWnt経路、ER経路、AR経路及び/又はHH経路の活性を決定するために使用される標的遺伝子の適切な選択は添付の請求項に定義される。
【0037】
未公開米国仮特許出願US61/745839の優先権を主張する未公開国際特許出願PCT/IB2013/061066("Assessment of cellular signaling pathway activity using linear combination(s) of target gene expressions")に詳細に記載される別の理解及び解釈が容易なアプローチにおいて、特定の細胞内シグナル伝達経路の活性は、細胞内シグナル伝達経路の一つ以上の標的遺伝子の発現レベルと転写因子(TF)要素のレベルの関係を組み込む数学モデル(例えば線形若しくは(擬似)線形モデル)を構築することによって決定され、TF要素は細胞内シグナル伝達経路の一つ以上の標的遺伝子の転写を制御し、モデルは一つ以上の標的遺伝子の発現レベルの一つ以上の線形結合に少なくとも一部基づく。
【0038】
この後者のアプローチに関して、一つ以上の標的遺伝子の発現レベルは好適にはmRNAのレベルの測定であり得、これは例えば標的遺伝子mRNAシーケンスと関連するプローブを用いる(RT)‐PCR及びマイクロアレイ法の、並びにRNAシークエンシングの結果であり得る。別の実施形態において一つ以上の標的遺伝子の発現レベルはタンパク質レベル、例えば標的遺伝子によってコードされるタンパク質の濃度によって測定され得る。
【0039】
上述の発現レベルはオプションとして、アプリケーションにより適しているかどうかわからない多くの方法で変換され得る。例えば、発現レベル、例えばマイクロアレイベースのmRNAレベルの四つの異なる変換は以下の通りであり得る。
‐"連続データ"、すなわちMAS5.0及びfRMAなどの周知のアルゴリズムを用いてマイクロアレイの前処理後に得られる発現レベル、
‐"z‐スコア"、すなわち全サンプル平均が0であり標準偏差が1になるようにスケールされる連続発現レベル、
‐"離散"、すなわち所定閾値を超える全発現レベルは1に、それを下回る全発現レベルは0に設定される(例えば、プローブセットに対する閾値はある数の陽性臨床サンプルと同数の陰性臨床サンプルのセットにおけるその値の中央値として選ばれ得る)、
‐"ファジー"、すなわち連続発現レベルは以下のフォーマットのシグモイド関数を用いて0と1の間の値に変換される:1/(1+exp((thr−expr)/se))、exprは連続発現レベル、thrは前述の閾値、seは0と1の間の差に影響する軟化パラメータである。
【0040】
構築され得る最も単純なモデルの一つは、第一層において転写因子(TF)要素をあらわすノードと、第二層において例えばマイクロアレイ若しくは(q)PCR実験における例えば特定標的遺伝子と特に高度に相関する一つのプローブセットによる、標的遺伝子発現強度レベルの直接測定をあらわす重み付きノードを持つモデルである。重みは訓練データセットからの計算に基づくか若しくは専門知識に基づき得る。標的遺伝子あたり複数の発現レベルが測定される可能性がある場合(例えば一つの標的遺伝子が複数のプローブセットで測定され得るマイクロアレイ実験の場合)、標的遺伝子あたり一つの発現レベルのみを使用するこのアプローチは特に単純である。特定標的遺伝子について使用される一つの発現レベルを選択する具体的方法は、訓練データセットの活性サンプルと不活性サンプルを最もよく分離することができるプローブセットからの発現レベルを使用することである。このプローブセットを決定する一つの方法は統計的検定、例えばt検定を実行し、最低p値を持つプローブセットを選択することである。最低p値を持つプローブの訓練データセットの発現レベルは定義により(既知の)活性サンプルと不活性サンプルの発現レベルが重なる最も起こりにくい確率を持つプローブである。別の選択法はオッズ比に基づく。かかるモデルでは、一つ以上の発現レベルが一つ以上の標的遺伝子の各々について与えられ、一つ以上の線形結合は一つ以上の標的遺伝子の各々について重み付き項を含む線形結合を有し、各重み付き項は各標的遺伝子について与えられる一つ以上の発現レベルのただ一つの発現レベルに基づく。上記の通り標的遺伝子あたりただ一つの発現レベルが選ばれる場合、モデルは"最尤判別プローブセット"モデルとよばれ得る。
【0041】
"最尤判別プローブセット"モデルの代替案において、標的遺伝子あたり複数の発現レベルが測定される可能性がある場合、標的遺伝子あたり与えられる全発現レベルを利用することが可能である。かかるモデルでは、一つ以上の発現レベルが一つ以上の標的遺伝子の各々について与えられ、一つ以上の線形結合は一つ以上の標的遺伝子について与えられる一つ以上の発現レベルの全発現レベルの線形結合を有する。言い換えれば、一つ以上の標的遺伝子の各々について、各標的遺伝子について与えられる一つ以上の発現レベルの各々はその独自の(個々の)重みによって線形結合において重み付けされ得る。この変形例は"全プローブセット"モデルとよばれ得る。これは与えられる発現レベル全てを利用しながら比較的単純であるという利点を持つ。
【0042】
上記両モデルは、TF要素のレベルが発現レベルの線形結合に基づいて計算される"単層"モデルとみなされ得るものであるという共通点を持つ。
【0043】
各モデルを評価することによってTF要素のレベルが決定された後、決定されたTF要素レベルは細胞内シグナル伝達経路の活性を推定するために閾値化され得る。かかる適切な閾値を計算する方法は不活性経路を持つとわかっている訓練サンプルと活性経路を持つ訓練サンプルの決定されたTF要素レベルwlcを比較することによる。そのようにし、またこれらの群における分散も考慮する方法は次の閾値を用いることによって与えられる。
【数1】
σとμは訓練サンプルの標準偏差と算術平均(mean)である。活性及び/又は不活性訓練サンプルにおいて少数のサンプルのみが利用可能である場合、二つの群の分散の平均(average)に基づいて計算された分散に擬似カウントが加算され得る。
【数2】
νは群の分散でありχは正の擬似カウントである。標準偏差σは次に分散νの平方根をとることによって得られる。
【0044】
閾値は解釈を簡単にするためにTF要素の決定されたレベルwlcから減算され、負の値が不活性細胞内シグナル伝達経路に対応し、正の値が活性細胞内シグナル伝達経路に対応するように細胞内シグナル伝達経路の活性スコアをもたらす。
【0045】
上記"単層"モデルの代替案として、経路の活性シグナル伝達の実験的決定をあらわす"二層"モデルが使用され得る。全標的遺伝子についてその関連プローブセットの測定強度に基づく線形結合を用いてサマリレベルが計算される("第一(底)層")。計算されたサマリ値はその後追加線形結合を用いて経路の他の標的遺伝子のサマリ値と組み合わされる("第二(上)層")。重みは訓練データセットから学習されるか若しくは専門知識に基づくか若しくはその組み合わせであり得る。言い換えれば、"二層"モデルにおいて、一つ以上の発現レベルが一つ以上の標的遺伝子の各々について与えられ、一つ以上の線形結合は一つ以上の標的遺伝子の各々について、各標的遺伝子について与えられる一つ以上の発現レベルの全発現レベルの第一の線形結合を有する("第一(底)層")。モデルはさらに一つ以上の標的遺伝子の各々について重み付き項を含む追加線形結合に少なくとも一部基づき、各重み付き項は各標的遺伝子に対する第一の線形結合に基づく("第二(上)層")。
【0046】
サマリ値の計算は、"二層"モデルの好適なバージョンにおいて、訓練データを用いて各標的遺伝子について閾値を定義することと、計算された線形結合から閾値を減算し、遺伝子サマリをもたらすことを含み得る。ここで閾値は、負の遺伝子サマリレベルがダウンレギュレーションされた標的遺伝子に対応し、正の遺伝子サマリレベルがアップレギュレーションされた標的遺伝子に対応するように選ばれ得る。また、遺伝子サマリ値は"第二(上)層"に結合される前に例えば上述の変換(ファジー、離散など)の一つを用いて変換される。
【0047】
"二層"モデルを評価することによってTF要素のレベルが決定された後、決定されたTF要素レベルは上記の通り細胞内シグナル伝達経路の活性を推定するために閾値化され得る。
【0048】
以下、US61/745839の優先権を主張するPCT/IB2013/061066を参照する上記モデルは"(擬似)線形モデル"と総称される。
【0049】
各経路の標的遺伝子は好適にはUS61/745839の優先権を主張するPCT/IB2013/061066のセクション"Example 2:Selection of target genes"及び"Example 3:Comparison of evidence curated list and broad literature list"に記載の方法に従って選択され、数学モデルは好適にはUS61/745839の優先権を主張するPCT/IB2013/061066の"Example 4:Training and using the mathematical model"に記載の方法に従って訓練され得る。添付の請求項に定義される標的遺伝子の選択は例示的なWnt経路、ER経路、AR経路、及び/又はHH経路の活性をこの後のアプローチで決定するためにも有用である。
【0050】
以下、US61/745839の優先権を主張するPCT/IB2013/061066のセクション"Example 2:Selection of target genes"及び"Example 3:Comparison of evidence curated list and broad literature list"に記載の方法に従った各経路の標的遺伝子の選択、並びにUS61/745839の優先権を主張するPCT/IB2013/061066の"Example 4:Training and using the mathematical model"に記載の方法に従った数学モデルの訓練が簡潔に要約される。
【0051】
US61/745839の優先権を主張するPCT/IB2013/061066の実施例2に記載の標的遺伝子の選択
転写因子(TF)は特異的DNAシーケンスに結合することによって標的遺伝子からの転写を調節し、それによってDNAからmRNAへの遺伝子情報の転写を制御することができるタンパク質複合体(つまり、特異的構造に結合されるタンパク質の結合体)若しくはタンパク質である。この転写複合体の作用によって直接生成されるmRNAは本明細書において"直接標的遺伝子"とよばれる。経路活性化は"間接標的遺伝子"とよばれるそれ以上の二次遺伝子転写ももたらし得る。以下、経路活性とmRNAレベルの間の直接リンクとして、直接標的遺伝子を有する若しくは直接標的遺伝子から成る(擬似)線形モデルが好適であるが、直接標的遺伝子と間接標的遺伝子の区別は常に明白であるとは限らない。ここで利用可能な文献データに基づくスコアリング関数を用いて直接標的遺伝子を選択する方法が提示される。とはいえ、限られた情報と生物学的変異及び不確実性のために、間接標的遺伝子の偶発的選択を除外することはできない。
【0052】
特異的経路のmRNA標的遺伝子は、特異的標的遺伝子についての科学的証拠が、証拠が蓄積された科学実験のタイプに応じて格付けを与えられているランキングシステムを用いることによって、科学文献から選択された。一部の実験的証拠は、例えばHH経路が活性であるとわかっている胚のマイクロアレイ上で増加するmRNAのような標的遺伝子である遺伝子を示唆するに過ぎないが、他の証拠は、同定された経路転写因子結合部位の組み合わせ、及び細胞中の特異的経路の刺激後のクロマチン免疫沈降(ChIP)アッセイにおけるこの部位の回収、及び細胞株における経路の特異的刺激後のmRNAの増加のような、非常に強力なものであり得る。
【0053】
下記のような(ただし限定されない)特異的経路標的遺伝子を発見する複数のタイプの実験が科学文献において同定され得る。
1.ゲノム上のその結合部位への経路‐転写因子の直接結合が示されるChIP実験。実施例:クロマチン免疫沈降(ChIP)法を用いることによって、その後活性Wnt経路を伴う若しくは伴わない結腸細胞株のDNAにおける推定機能的TCF4転写因子結合部位が、純粋にヌクレオチドシーケンスに基づいて認識される結合部位のサブセットとして同定された。推定機能は転写因子がDNA結合部位に結合することがわかったChIP由来の証拠として同定された。
2.結合シーケンスを含むDNAのフラグメントへの転写因子のin vitro結合を示す電気泳動移動度シフトアッセイ(EMSA)。ChIPベースの証拠と比較してEMSAベースの証拠は、in vivo状況に変換されることができないのであまり強力でない。
3.経路の刺激及びマイクロアレイでのmRNAプロファイルの測定又はRNAシークエンシングの使用、経路誘導性細胞株の使用及びタンパク質への翻訳を抑制するシクロヘキシミドの存在下で誘導後の複数時点で測定されるmRNAプロファイルの測定、従って誘導mRNAは直接標的遺伝子であるとみなされる。
4.3と同様、ただしmRNAの量を測定するために定量的PCRを使用。
5.バイオインフォマティクスアプローチを用いるゲノム中の転写因子結合部位の同定。Wnt経路の実施例:既知のTCF4‐ベータカテニン転写因子DNA結合シーケンスを用いて、ヒトゲノムシーケンス上でソフトウェアプログラムが実行され、遺伝子プロモータ領域及び他の遺伝子領域の両方において可能性のある結合部位が同定された。
6.3と同様、ただしシクロヘキシミドなし。
7.4と同用、ただしシクロヘキシミドなし。
8.経路が活性であることがわかっている特異的組織若しくは細胞サンプルのmRNA発現プロファイリング、ただし適切な陰性対照条件なし。
【0054】
最も単純な形で、標的mRNAが同定されたこれらの実験的アプローチの各々について1ポイントを全ての潜在的標的mRNAに与えることができる。
【0055】
代替的に、ポイントは漸増的に与えられることができ、1技術1ポイント、第二の技術が第二のポイントを加算することなどを意味する。この相対的ランクキング手法を用いて、最も信頼できる標的遺伝子のリストを作ることができる。
【0056】
代替的に、別の方法でのランキングが、in vivo直接標的遺伝子について最も多くの証拠を与える技術により多数のポイントを与えることによって、直接標的遺伝子である可能性が最も高い標的遺伝子を同定するために使用されることができ、上記リストにおいてこれは実験的アプローチ1)について8ポイント、2)に7ポイント、そして実験的アプローチ8について1ポイントへと減少することを意味する。かかるリストは"一般標的遺伝子リスト"とよばれ得る。
【0057】
生物学的変異及び不確実性にもかかわらず、本発明者らは、直接標的遺伝子は組織独立的に帰納される可能性が最も高いと仮定した。これらの標的遺伝子のリストは"エビデンスキュレーション(evidence curated)標的遺伝子リスト"とよばれ得る。これらのキュレーション標的リストは、異なる組織及び/又は細胞源由来のサンプルに適用可能な計算モデルを構築するために使用されている。
【0058】
"一般標的遺伝子リスト"は、おそらくより組織特異的な遺伝子を含み、乳癌サンプルのような特異的組織からのサンプルでの適用のためにモデルの感度及び特異性を最適化し増加するために潜在的に使用されることができる。
【0059】
以下はエビデンスキュレーション標的遺伝子リストの選択が具体的にどのようにER経路について構築されたかを例示する。
【0060】
本明細書に記載の(擬似)線形モデルのための入力として使用されるER標的遺伝子を選択する目的で、以下の三つの基準が使用された。
1.遺伝子プロモータ/エンハンサ領域がエストロゲン応答配列(ERE)モチーフを含む:
a.EREモチーフは、例えば特異的EREモチーフがレポータ遺伝子にリンクされる一過性導入アッセイを用いて、エストロゲンに応答することを証明されなければならない。
b.EREモチーフの存在は、例えば遺伝子プロモータ/エンハンサ領域の豊富なモチーフの解析によって確認されなければならない。
2.ERは問題となっている遺伝子のプロモータ/エンハンサ領域にin vivoで(特異的に)結合し、例えばChIP/CHIP実験若しくはクロマチン免疫沈降アッセイによって実証される:
a.ER経路が活性であるとき、ERは遺伝子のプロモータ/エンハンサ領域に結合すると証明される。
b.ER経路が活性でない場合、(好適には)遺伝子の遺伝子プロモータ/エンハンサ領域に結合しない(若しくは弱く結合する)。
3.ER経路が活性であるとき、遺伝子は特異的に転写され、例えば、以下によって実証される:
a.リアルタイムPCR若しくはマイクロアレイ実験を通じた問題となっている遺伝子のmRNAのfold enrichment、又は
b.免疫沈降アッセイを通じたRNA Pol IIが遺伝子のプロモータ領域に結合するという実証。
【0061】
上述の三つの基準全てが満たされたことを証明する、十分に立証された実験的証拠が集められた遺伝子をER標的遺伝子として定義することによって、選択がなされた。ER特異的結合の証拠を収集するための適切な実験は、例えば、エストロゲンに暴露されるとき若しくは暴露されないときのエストロゲンに応答する癌細胞株(例えばMCF‐7細胞株)におけるChIP/CHIP実験の結果を比較することである。mRNA転写の証拠の収集についても同様である。
【0062】
以下は、一般的アプローチ、及び上述のアプローチを用いて発見された証拠に基づいて複数の標的遺伝子を選択するために利用された標的遺伝子選択手順のより具体的な実施例について論じる。例示的な経路、すなわちWnt、ER、HH及びAR経路について(擬似)線形モデルにおいて使用される標的遺伝子のリストが、表1、表2、表3及び表4にそれぞれ示される。
【0063】
本明細書に記載のER経路の(擬似)線形モデルに使用されるER経路の標的遺伝子(表2に図示)は、その文献証拠スコアに基づく標的遺伝子の選択を含み、最高証拠スコアを持つ標的遺伝子(本発明による好適な標的遺伝子)のみがこのショートリストに追加された。低証拠スコアを持つ遺伝子も含むER標的遺伝子の完全リストは表5に示される。
【0064】
表1、表2、表3及び表4に示すWnt、ER、HH及びAR経路の標的遺伝子のさらなるサブセレクション若しくはランキングが、プローブセットノードを対応する標的遺伝子ノードにリンクする訓練データセットを用いて計算されるオッズ比と文献証拠スコアの組み合せに基づいて実行された。オッズ比は、カットオフ値、例えば同数の活性及び不活性訓練サンプルが使用される場合は全訓練サンプルの中央値を用いて計算され、カットオフを超える全ての値は高いと、カットオフを下回る全ての値は低いと宣言される。これは経路が活性若しくは不活性であるとわかっている訓練サンプルについてなされる。その後特異的標的遺伝子若しくはプローブセットについてオッズ比が以下の通り計算され得る:
式(3)
f(活性,低)=n(活性,低)/(n(活性,低)+n(活性,高))
f(不活性,低)=n(不活性,低)/(n(不活性,低)+n(不活性,高))
オッズ比=f(不活性,低)/(1−f(不活性,低))
*(1−f(活性,低))/f(活性,低)
【0065】
n(活性,低)はカットオフ未満の発現レベルを持つことがわかった活性経路を持つと知られている訓練サンプルの数、n(不活性,低)はカットオフ未満の発現レベルを持つことがわかった不活性経路を持つと知られている訓練サンプルの数などであり、f(活性,低)とf(不活性,低)はそれぞれ活性若しくは不活性経路を持つと知られている、並びにカットオフ未満の発現レベルを持つことがわかったサンプルの割合である。
【0066】
代替的に、未定義のオッズ比(ゼロ除算)を回避するために、割合計算に例えば疑似カウントを追加することができる、例えば:
式(4)
f(活性,低)
擬似=(n(活性,低)+1)/(n(活性,低)+n(活性,高)+2)
f(不活性,低)
擬似=(n(不活性,低)+1)/(n(不活性,低)+n(不活性,高)+2)
【0067】
代替的に、測定設定における何らかの不確実性(ノイズ)を仮定することによって証拠となる活性を示すサンプルの絶対数を置換し、例えば正規分布を仮定して"低"若しくは"高"のいずれかである確率を各訓練サンプルについて計算することもできる("ソフトエビデンス"とよばれる)。その後、割合計算が上述の計算に従って計算され得る。
式(5)
f(活性,低)
ソフト=(Σp(活性,低)+1)/(Σp(活性,低)+Σp(活性,高)+2)
f(不活性,低)
ソフト=(Σp(不活性,低)+1)/(Σp(不活性,低)+Σp(不活性,高)+2)
【0068】
p(活性,低)及びp(不活性,低)は、各訓練サンプルの測定発現レベルに等しい算術平均を持つ標準偏差と、発現レベル測定に関連する不確実性の推定に等しい標準偏差、例えばlog2スケールで0.25を仮定して、各サンプルについて観察結果がカットオフを下回る確率である。これらの確率は全訓練サンプルにわたって合計され、次に疑似カウントが追加される。
【0069】
オッズ比は経路の活性を推定するにあたっての標的遺伝子の重要性の評価である。一般に、低オッズ比を持つ標的遺伝子と比較して、高オッズ比を持つ標的遺伝子の発現レベルの方が経路の総活性について情報を与える可能性が高いと期待される。しかしながら、細胞内シグナル伝達経路の複雑さのために、標的遺伝子と経路活性との間により複雑な相関関係が存在し得ることが理解され、例えば、高オッズ比を持つ標的遺伝子を分離して考慮するより、低オッズ比を持つ標的遺伝子の様々な組み合せの発現レベルを考慮する方が証拠となり得る。本明細書で報告されるWnt、ER、HH及びARモデリングにおいて、表6、表7、表8及び表9に示される標的遺伝子は、Wnt、ER、HH及びAR経路活性の予測にとって、低ランクの標的遺伝子と比較してより高い証明性があることがわかった(従って、本発明によれば表6乃至9に示される標的遺伝子が特に好適である)。とはいえ、マイクロアレイなどの収集法が大きな遺伝子セットについて発現レベルを収集し得る相対的容易性を考えると、記載の(擬似)線形モデルにおいて、表6、表7、表8及び表9の標的遺伝子の一部若しくは全部を利用し、オプションとして付加的に、表1、表2、表3及び表4に示されるランクの追加標的遺伝子の一つ、二つ、一部若しくは全部を利用することが考えられる。
【0070】
表1.標的遺伝子のmRNA発現レベルを測定するために使用される関連するプローブセット及び(擬似)線形モデルにおいて使用されるWnt経路の標的遺伝子のエビデンスキュレーションリスト。
【表1】
【0071】
表2.標的遺伝子のmRNA発現レベルを測定するために使用される関連するプローブセット及び(擬似)線形モデルにおいて使用されるER経路の標的遺伝子のエビデンスキュレーションリスト。"最弁別的プローブセット"は下線によってマークされる。
【表2】
【0072】
表3.標的遺伝子のmRNA発現レベルを測定するために使用される関連するプローブセット及び(擬似)線形モデルにおいて使用されるHH経路の標的遺伝子のエビデンスキュレーションリスト。
【表3】
【0073】
表4.標的遺伝子のmRNA発現レベルを測定するために使用される関連するプローブセット及び(擬似)線形モデルにおいて使用されるAR経路の標的遺伝子のエビデンスキュレーションリスト。
【表4】
【0074】
表5.有意な文献証拠を持つことがわかったER標的遺伝子の遺伝子シンボル(=ER標的遺伝子ロングリスト)。
【表5】
【0075】
表6.文献証拠スコアとオッズ比に基づくWnt標的遺伝子のショートリスト。
【表6】
【0076】
表7.文献証拠スコアとオッズ比に基づくER標的遺伝子のショートリスト。
【表7】
【0077】
表8.文献証拠スコアとオッズ比に基づくHH標的遺伝子のショートリスト。
【表8】
【0078】
表9.文献証拠スコアとオッズ比に基づくAR標的遺伝子のショートリスト。
【表9】
【0079】
US61/745829の優先権を主張するPCT/IB2013/061066の実施例3にかかる、エビデンスキュレーションリストと広域文献リストとの比較
本明細書に記載の手順に従って文献証拠に基づいて構築されるWnt標的遺伝子のリスト(表1)が、上述の手順に従わない別の標的遺伝子のリストと比較される。代替リストは、分子生物学及びWnt経路の領域におけるその専門知識で知られる、名高い研究室によって三つの公的ソースにおいて公開された、様々な実験的アプローチからの様々なデータによってWnt標的遺伝子であることが示された遺伝子を編集したものである。代替リストは、Hatzisら(Hatzis P,2008)からの表S3、de Sousa e Melo(de Sousa E Melo F,2011)からのテキスト及び表S1A、並びに、Wntシグナル伝達の分野における先駆者であるRoel Nusseによって収集され維持される標的遺伝子のリスト(Nusse,2012)に記載の遺伝子の組み合わせである。これら三つのソースの組み合わせは124の遺伝子のリストをもたらした(=広域文献リスト、表10を参照)。ここで、この代替リストから得られるアルゴリズムによって臨床サンプルにおけるWnt活性を予測する性能が、既存の遺伝子リスト(=エビデンスキュレーションリスト、表1)に基づいて構築されたモデルと比較して同様の若しくはより良い性能を示すかどうかという問題が論じられる。
【0080】
表10.Wnt標的遺伝子の代替リスト(=広域文献リスト)。
【表10】
【0081】
次のステップは、遺伝子と対応するAffymetrix(登録商標)GeneChip Human Genome U133 Plus2.0アレイのプローブセットを見つけることから構成された。このプロセスは、RのBioconductorプラグイン、及び本明細書に記載の(擬似)線形モデルと同様の、UCSCゲノムブラウザに基づくプローブセット関連性のマニュアルキュレーションを使用し、それによって、例えば逆ストランド上若しくは遺伝子エクソン領域外のプローブセットを除去して実行された。124の遺伝子のうち二つについて、このマイクロアレイチップ上で利用可能なプローブセットがなく、従って、(擬似)線形モデルに挿入することができなかった。これらはLOC283859及びWNT3Aである。全部で287のプローブセットが残る122の遺伝子に対応することがわかった(表11)。
【0082】
表11.広域文献遺伝子リストにおけるWnt標的遺伝子と関連するプローブセット。
【表11】
【0083】
その後、本明細書において説明される通り重みパラメータを計算するために"白黒"法を用いて上記"全プローブセット"モデルと同様に(擬似)線形モデルが構築された。エビデンスキュレーションリストに基づくWnt(擬似)線形モデルの記載と同様に、プローブセットとその各遺伝子間のエッジと関連する重み、エビデンスキュレーションリストと広域文献リストの両方が、Gene Expression Omnibus(http://www.ncbi.nlm.nih.gov/geo/にてアクセス可能。最終アクセス2011年7月13日)からのデータセットGSE8671由来の32の正常結腸サンプル及び32の腺腫サンプルの連続fRMA処理データを使用して訓練された。
【0084】
そして訓練した(擬似)線形モデルは、Wnt経路の活性スコアを推定するために様々なデータセットついてテストされた。
【0085】
テストから、広域文献モデルは一般に、Wntシグナル伝達がオン(活性レベル陽性)若しくはオフであるかのより極端な活性スコアを予測することが推論され得る。加えて、代替モデルは結腸癌データセット(GSE20916、GSE4183、GSE15960)について同様の結果を予測するが、予想を超えるサンプルが、乳癌(GSE12777)及び髄芽腫サンプル(GSE10327)データセットにおいて活性Wntシグナル伝達経路が予測された。
【0086】
結論として、広域文献標的遺伝子リストは、一方で結腸癌におけるWnt活性の予測をほぼ等しく良好にもたらすが、他方で他の癌タイプにおいては不良な予測(偽陽性が多い)をもたらす。これは標的遺伝子の代替リストが結腸細胞に特異的に偏り過ぎている、従って組織特異的過ぎる結果であり得る。de Sousa E Meloら及びHatzisら両方の主な関心は結腸直腸癌であったが、非結腸特異的Wnt標的遺伝子が含まれる可能性がある。加えて、これらのリストに含まれる可能性がある非Wnt特異的標的遺伝子は、他の癌タイプにおけるWnt活性の予測悪化の原因になり得る。代替リストはより間接的に調節される標的遺伝子を含む可能性が高いので、おそらくより組織特異的になる。元のリストは全組織においてWnt感受性である遺伝子をあらわす可能性が最も高い直接標的遺伝子を含む方向に調整されるので、組織特異性を減らす。
【0087】
US61/745839の優先権を主張するPCT/IB2013/061066の実施例4にかかる数学モデルの訓練及び使用
テストサンプルにおける経路活性を推定するために本明細書に例示する(擬似)線形モデルが使用され得る前に、ノードが"不在"若しくは"存在"するかどうかをコールする閾値とノードの相関性の符号と大きさを示す重みが決定される必要がある。重みと閾値を演繹的に入力するために専門知識を使用することができるが、典型的には、好適にはground truthがわかっている訓練サンプルの代表セットを用いてモデルが訓練される。例えば既知の存在する転写因子複合体(=活性経路)を持つ、又は転写因子複合体のない(=不活性経路)サンプル中のプローブセットの発現データ。しかしながら、多くの異なる種類の癌から、モデル化される経路の活性状態がどのようなものかわかっている訓練サンプルを得ることは実用的でない。結果として、利用可能な訓練セットは、典型的には1タイプの癌のみからの、限られた数のサンプルから成る。本明細書では、テストサンプルを活性若しくは不活性経路を持つと分類するために必要なパラメータを決定する方法が記載される。
【0088】
モデルトポロジーを考慮し、モデル出力、ここでは重み付き線形スコアが最適化されるようにモデルパラメータ、ここでは重みと閾値を変更する、多数の訓練アルゴリズム(例えば回帰)が当技術分野で周知である。本明細書では最適化アルゴリズムの必要なく発現レベルから直接重みを計算するために使用されることができる二つの方法例を示す。
【0089】
好適には、Wnt、ER、HH及びAR経路の(擬似)線形モデルの訓練はGene Expression Omnibus(http://www.ncbi.nlm.nih.gov/geo/にてアクセス可能、上記参照)で利用可能な公開データを用いてなされる。
【0090】
本明細書において"白黒"法と定義される第一の方法は、重み因子が{−1,0,1}の要素である三進法に要約する。これを生物学的文脈におく場合、−1と1はそれぞれ経路活性の場合ダウンレギュレーション及びアップレギュレーションされる遺伝子若しくはプローブに対応する。プローブ若しくは遺伝子がアップレギュレーション若しくはダウンレギュレーションされることを統計的に立証できない場合、これは0の重みを受け取る。ここでは、使用される訓練データを仮定してプローブ若しくは遺伝子がアップレギュレーション若しくはダウンレギュレーションされるかどうかを決定するために、活性経路サンプルの発現レベル対不活性経路サンプルの発現レベルの左片側及び右片側二標本t検定を使用した。不活性サンプルよりも活性サンプルの平均が統計的に大きい場合、すなわちp値が所定閾値、例えば0.3を下回る場合、プローブセット若しくは標的遺伝子はアップレギュレーションされると決定される。逆に、不活性サンプルよりも活性サンプルの平均が統計的に低い場合、このプローブセット若しくは標的遺伝子は経路の活性についてダウンレギュレーションされると決定される。最低p値(左若しくは右片側)が上述の閾値を超える場合、このプローブ若しくは遺伝子の重みは0であると定義する。
【0091】
別の好適な実施形態において、重みと閾値に至る代替法が使用される。この代替法はオッズ比の対数(例えばeを底とする)に基づき、従って"対数オッズ"重みとよばれる。各プローブ若しくは遺伝子についてのオッズ比は、プローブ/遺伝子レベルが対応する閾値、例えば全訓練サンプルの中央値を超える及び下回る、陽性及び陰性の訓練サンプルの数に基づいて計算される(式3)。ゼロ除算を回避するために疑似カウントが追加され得る(式4)。さらなる精緻化は、プローブ/遺伝子レベルが例えばある特定標準偏差(例えば2対数スケールで0.25)でその実測値を中心に正規分布すると仮定し、閾値を超える及び下回る確率質量をカウントすることによって、いくらかより確率論的に閾値を超える/下回るサンプルをカウントすることである(式5)。
【0092】
代替的に、本明細書に記載の(擬似)線形モデルの重みと閾値を決定するために回帰などの当技術分野で周知の最適化アルゴリズムを利用することができる。
【0093】
うまく一般化するために(擬似)線形モデルについてパラメータが決定される方法に特に注意しなければならない。代替的に、訓練手順中に特別措置をとることによって極めてうまく一般化することができるよう、当技術分野で周知のベイジアンネットワークなどの他の機械学習法を使用することができる。
【0094】
好適には、Wnt、ER、HH、AR経路の(擬似)線形モデルの訓練はGene Expression Omnibus(http://www.ncbi.nlm.nih.gov/geo/にてアクセス可能)で利用可能な公開データを用いてなされる。モデルはかかる公開データを用いて例示的に訓練された。
【0095】
WO2013/011479A2及びUS61/745839の優先権を主張するPCT/IB2013/061066に関して、添付の請求項に定義されるER標的遺伝子の順位は、新たな文献証拠が追加されたためわずかに変更されることに留意されたい。ER標的遺伝子はUS61/745839の優先権を主張するPCT/IB2013/061066の実施例3に記載の同様の方法で選択されランク付けされた。遺伝子はAffymetrixモデル内で活性経路と不活性経路を区別するために各遺伝子の個々の能力と文献証拠スコアとを組み合わせることによってランク付けされた。このランキングは、エストロゲンを欠乏させその後欠乏させたままであるか、又は1nMエストロゲンに24時間暴露したMCF7細胞株サンプルの訓練セット(GSE35428)でモデルを訓練するとき、並びにMCF7細胞からエストロゲンを欠乏させ、その後欠乏させたままであるか、又は10nM若しくは25nMエストロゲンに暴露した二つの他の訓練セット(それぞれGSE11352及びGSE8597)と訓練セットでモデルをテストするときに、各遺伝子について得られる重み付き偽陽性率と偽陰性率の線形結合に基づいた。
【0096】
(様々なセットにおいて使用される異なる実験条件を考慮するために(オッズ比の代わりに)重み付き偽陽性及び偽陰性の組み合わせが使用されたことが留意される。異なる重みは、偽陽性(陰性)が、サンプルがさらされている異なる実験条件ではなくモデルの結果であったという発明者の確信に従って設定された。例えば、全実験においてMCF7細胞株サンプルは、最初にエストロゲンに暴露される前にある期間エストロゲンを欠乏させるか、又はもう24時間さらに欠乏させた。短い欠乏時間はエストロゲン欠乏にもかかわらず経路を依然として活性にし、この場合偽陽性はテストサンプルと訓練サンプルの両方を同じ時間欠乏させたときよりも低い重みをもち得る。)
【実施例2】
【0097】
実施例2:リスクスコア決定
一般に、臨床イベントが所定期間内に発生するリスクを示し、被検体の組織及び/又は細胞及び/又は体液における二つ以上の細胞内シグナル伝達経路の推定活性の組み合わせに少なくとも一部基づくリスクスコアを決定するために、多くの異なる式が考案され得る。すなわち:
MPS=F(P
1,…,P
N)+X (式6)
MPSはリスクスコアであり(リスクスコアが二つ以上の細胞内シグナル伝達経路の推定活性によって影響を受けることをあらわすために"多経路スコア"の略語として"MPS"という語が本明細書で使用される)、P
iは細胞内シグナル伝達経路iの活性スコアであり、Nは検討中の細胞内シグナル伝達経路の総数であり、Xは式に入り得る可能な追加因子若しくはパラメータ用のプレースホルダーである。かかる式はより具体的には所与の変数若しくは変数の線形結合におけるある程度の多項式であり得る。かかる多項式における重み付け係数及びパワーは専門知識に基づいて設定され得るが、典型的には既知のground truth、例えば生存データを持つ訓練データセットが、式(6)の重み付け係数及びパワーの推定を得るために使用される。推定活性は式(6)を用いて結合され、その後MPSを生成する。次に、スコアリング関数の重み付け係数及びパワーは、高MPSが臨床イベントの発生までのより長い期間と相関し、逆もまた同様であるように最適化される。発生データとのスコアリング関数の相関を最適化することは、多数の解析法、例えばコックス比例ハザード検定(本明細書で例示的に使用される)、ログランク検定、Kaplan‐Meier推定量を勾配降下若しくは手動適応などの標準最適化法と併用してなされ得る。
【0098】
この実施例において、臨床イベントは癌、特に乳癌であり、公開国際特許出願WO2013/011479A2("Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression")若しくは未公開米国仮特許出願US61/745839の優先権を主張する未公開国際特許出願PCT/IB2013/061066("Assessment of cellular signaling pathway activity using linear combination(s) of target gene expressions")に詳述の通り、Wnt経路、ER(エストロゲン受容体)経路、HH(Hedgehog)経路、及びAR(アンドロゲン受容体)経路の推定活性が考慮される。
【0099】
本明細書で例示的に使用される式はWnt経路、ER経路、HH経路の活性を考慮する。これは癌生物学研究、並びに公開データセットにおいて発見される生存とWnt、ER、HH経路活性との相関関係から得られる発明者らの見解に基づく。Wnt及びHedgehogのような初期発生経路は、癌幹細胞とよばれるより幹細胞様の表現型に戻っている癌細胞によって生じる転移に関与すると考えられる。実際、発明者らはWnt経路などの初期発生経路が癌転移に関与し、転移性癌細胞が別の臓器若しくは組織中の播種位置において分裂を開始することを可能にするという十分な指標が利用可能であると考える。転移は予後不良と関連し、癌再発の一形態をあらわすので、癌細胞におけるWnt及びHH経路などの初期発生経路の活性は予後不良を予測すると発明者らによって期待され、一方ER経路の不活性は乳癌患者における不良転帰と相関すると思われる。癌進行及び転移におけるWnt及びHedgehog経路の推定される役割は前臨床研究に基づき、それらの活性を測定するための方法が利用可能でないので、主題に示されていない。
【0100】
生物学研究からのこうした発明者らの所見と、Wnt及びHH活性が癌再発に関与し、ER活性が良好な臨床転帰に関連するように思われるという臨床相関は、本明細書において例示的な次式に組み合わされる。
MPS=−α・P
ER+β・max(P
Wnt,P
HH) (7)
P
ER、P
Wnt、及びP
HHはそれぞれER経路、Wnt経路、及びHH経路の推定活性をあらわし(例えば0から1の範囲)、αとβは非負の、好適には正の、定数スケーリングファクタである。この実施例では、公開国際特許出願WO2013/011479A2("Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression")に詳細に記載される方法によって推論される通り、αとβは例示的に1に等しくなるように選ばれ、Wnt経路、ER経路、及びHH経路がその活性状態にある確率が使用されている。本明細書において使用されるER、Wnt、及びHH経路のベイジアンネットワークモデルは、A)関心転写因子レベルのトップレベルノード、B)関心標的遺伝子の存在をあらわすノードのレベル(それぞれWO2013/011479A2の表2、表1及び表3)、並びにC)関心標的遺伝子と関連するプローブセットをあらわすノードのレベル(それぞれWO2013/011479A2の表2、表1及び表3)を有する。TF要素の存在若しくは不在の事前確率は0.5に設定された。レベルAとBの間の条件付き確率は以下の通りWO2013/011479A2に記載の通り注記深く厳選された。(i)TF無/標的遺伝子ダウン:0.95、(ii)TF無/標的遺伝子アップ:0.05、(iii)TF有/標的遺伝子ダウン:0.30、(iv)TF有/標的遺伝子アップ:0.70。一方レベルBとCの間の条件付き確率はそれぞれGSE8597、GSE8671及びGSE7553からのデータ上で訓練された。
【0101】
訓練データとして、GSE8597がER経路に使用され、GSE8671がWnt経路に使用され、GSE7553がHH経路に使用されている。推定に組み込まれている標的遺伝子は、ER経路についてGREB1、PGR、XBP1、CA12、SOD1、CTSD、IGFBP4、TFF1、SGK3、NRIP1、CELSR2、WISP2、AP1B1、RARA、MYC、DSCAM、EBAG9、COX7A2L、ERBB2、PISD、KRT19、HSPB1、TRIM25、PTMA、COL18A1、CDH26、NDUFV3、PRDM15、ATP5J、ESR1、Wnt経路についてKIAA1199、AXIN2、RNF43、TBX3、TDGF1、SOX9、ASCL2、IL8、SP5、ZNRF3、KLF6、CCND1、DEFA6、FZD7、NKD1、OAT、FAT1、LEF1、GLUL、REG1B、TCF7L2、COL18A1、BMP7、SLC1A2、ADRA2C、PPARG、DKK1、HNF1A、LECT2、HH経路についてGLI1、PTCH1、PTCH2、IGFBP6、SPP1、CCND2、FST、FOXL1、CFLAR、TSC22D1、RAB34、S100A9、S100A7、MYCN、FOXM1、GLI3、TCEA2、FYN、CTSL1、BCL2、FOXA2、FOXF1、H19、HHIP、IL1R2、JAG2、JUP、MIF、MYLK、NKX2.2、NKX2.8、PITRM1、TOM1であった。
【0102】
得られるMPSは所定期間内の臨床イベント、ここでは局所若しくは遠隔の癌、特に乳癌の低再発リスクをあらわす−1から、高再発リスク患者の+1に及ぶ。
【0103】
以下、式(7)に従って計算されるMPSが使用されるが、Wnt、ER及びHH経路の推定活性に基づいてリスクスコア(MPS)を計算する別の適切な方法が例示的な次式によって提供されることに留意されたい:
MPS=−α・P
ER+β・P
Wnt+γ・P
HH (8)
P
ER、P
Wnt、及びP
HHはそれぞれER経路、Wnt経路、及びHH経路の推定活性をあらわし(例えば0から1の範囲)、α、β、γは非負定数スケーリングファクタである。
【0104】
本明細書において例示的に使用されるかかる予後値を量子化する二つの方法はログランク検定と併用されるコックス比例ハザード回帰モデルとKaplan‐Meierプロットである。
【0105】
第一の方法は一つ以上の共変量を持つ生存データにハザードモデルをフィッティングする。手短に言えば、かかるハザードモデルは共変量の(数)値に基づく母集団内の生存(臨床イベント)の変動を説明する。フィッティングの結果として、含まれる共変量の各々は共変量の値に基づく臨床イベントの関連リスクを定量化するハザード比(HR)を割り当てられ、例えば2のHRは共変量の値が1増加する患者について関心臨床イベントのリスクが2倍高いことに対応する。詳細に、1のHRの値はこの共変量が生存に影響を与えないことを意味するが、HR<1の場合、共変量数の増加は低リスクをあらわし、共変量数の減少は高リスクをあらわし、HR>1の場合、共変量値の増加は高リスクをあらわし、共変量数の減少は低リスクをあらわす。ハザード比とともに、95%信頼区間及びp値が報告される(すなわちハザード比が1より有意に小さい若しくは大きい片側確率)。ハザード比の直接比較を容易にするために全共変量は0と1の間でスケールされる。
【0106】
後者の方法は時間の関数として臨床イベントの生存確率をあらわすKaplan‐Meier曲線をプロットすることを含む。例えば、例示的な予後検査に基づいて母集団における異なるリスク群についてKaplan‐Meier曲線をプロットすることによって、例示的な臨床イベントのリスクの分離の質を視覚化することができる。この質は二つの生存関数が等しい確率(p値)を計算するログランク検定を用いてさらに量子化され得る。
【0107】
リスクに従って患者を層別化するために、以下のアルゴリズムが例示的に使用される:−0.1未満のMPSを持つ患者は高ER経路活性確率と相関するので、低再発リスクを持つと指定され、一方+0.1より大きいMPSは高リスクWnt及び/又はHH経路の高活性と関連するので、高再発リスクと相関する。−0.1と+0.1の間のMPSを持つ患者は、この群はER経路などの活性低リスク経路並びにWnt若しくはHHなどの高リスクシグナル伝達経路の活性を伴う患者、又は経路のいずれも腫瘍成長を促進すると推定されなかった患者を含むので、中度の再発リスクを持つと分類される。閾値−0.1及び+0.1は、
図1にみられる通り、Gene Expression Omnibus(GSE6532、GSE9195、GSE20685、GSE20685、及びGSE21653、http://www. ncbi.nlm.nih.gov/geo/にてアクセス可能、最終アクセス2013年2月13日)及びArrayExpress(E‐MTAB‐365、http://www.ebi.ac.uk/arrayexpress/experiments/、最終アクセス2013年2月13日)において報告される1294の多様な乳癌患者を含む複数のデータセットにおいて得られるMPSスコアの分布の解析に基づく。
【0108】
ベンチマークとして、再発のよい予測因子であり乳癌の他の遺伝子発現ベースの予測因子と調和することが示された、Genomic Healthからの別の経路活性及び乳癌OncotypeDX(登録商標)テストが使用された。OncotypeDX(登録商標)テストは遺伝子のパネルについて測定される発現レベルの組み合わせに基づいて計算される0から100のリスク若しくは再発スコア(RS)を返す。RSはER陽性、HER2陰性(タンパク質染色若しくはFISH)、ノード陰性乳癌患者における10年生存について最適化される(Paik,S.,et al.:"A multi‐gene assay to predict recurrence of Tamoxifen‐treated, node‐negative breast cancer,"The New England Journal of Medicine,351(27),(2004),pages 2817‐2826;Fan,C.,et al.:"Concordance among gene‐expression‐based predictors FOR breast cancer,"The New England Journal of Medicine, 355(6),(2006),pages 560‐569参照)。RSはFanらによって報告されている手順(Fan,C.,et al.(2006)参照)に従って上述のデータベースにおいて報告されているマイクロアレイ発現データを用いて計算され、患者はその後OncotypeDX(登録商標)リスク層別化アルゴリズムに従って低リスク、中度リスク、高リスク患者にわけられた。
【0109】
結果
(i)Erasmusデータ
Gene Expression Omnibus(http://www. ncbi.nlm.nih.gov/geo/にてアクセス可能、最終アクセス2013年2月13日)からのGSE12276において全204患者が再発した(再発までの期間の中央値:21か月、範囲:0‐115か月)。これは晩期症例から早期再発症例を分離することができるかどうか見るために、経路活性スコアの予後値及び再発リスクに関してその得られるMPSを調査するためによいデータセットとなる。
【0110】
一変量コックス比例ハザード再帰モデルがWnt経路、ER経路、HH経路、AR経路並びにRSとMPSに対する正規化値(すなわち0から1の値)を用いてフィッティングされた(下記表12参照)。一変量解析はRSとMPSが両方とも1より有意に大きいハザード比を持つが、P
ERは1より有意に小さいハザード比を持つことを示す。P
ER若しくはMPSのいずれかとRSの組み合わせを含む多変量解析は、二つの有意な予測因子(p<0.05)をもたらした。一方MPSとP
ERの組み合わせは予測因子の一つについて有意性の喪失をもたらし(MPS:p>0.05)、これはP
ERが多経路スコアの要素でもあるという事実によって説明される。結果としてRS、MPS、及びP
ERを用いる多変量解析も論理的に失敗した。
【0111】
表12.GSE12276における全患者のコックス比例ハザード比。
【表12】
【0112】
結論として、一変量解析はGenomic HealthからのOncotypeDX(登録商標)再発スコア(RS)が経路ベースの予測因子P
Wnt、P
HH及びP
ARよりも再発に関して強力な予測力を持つことを示したが、これはRSが再発を予測するために特異的に最適化されるが、一方P
Wnt、P
HH及びP
ARは経路活性を予測しようとするので、予想外のことではない。とはいえ、P
ERと、P
Wnt及びP
HHと組み合わせて得られるそのMPSも再発にとって強力で有意な予測因子である。加えて、P
ER若しくはMPSのいずれかとRSを組み合わせることは改良されたリスク層別化をもたらし、別の予測因子より優れている(有意ではない、p〜0.14)。加えて、これはOncotypeDX(登録商標)再発スコア(RS)と多経路スコア(MPS)が再発の相補的予測因子であり、両者は腫瘍成長の根底にある異なる機序を考慮することも示唆する。
【0113】
同じデータセットからOncotypeDX(登録商標)乳癌テストの対象となる71患者のみを考慮すると(すなわちHER2状態が未知でER陽性かつリンパ節陰性の患者)、RSとP
ERは依然再発の強力な予測因子である(p<0.05)ことが観察される(下記表13参照)。他方で、MPSはもはや有意な予測因子ではないことが観察され、これはおそらくより同質の患者群の結果である(わずかなWnt及びHH活性腫瘍のみ)。際立って、ER陽性(タンパク質染色)及びリンパ節陰性患者における再発予後の最も強力な予測因子はP
ERでありOncotypeDX(登録商標)再発スコア(RS)ではない。
【0114】
表13.GSE12276におけるER陽性及びリンパ節陰性患者のコックス比例ハザード比。
【表13】
【0115】
(ii)Guy's病院データ
Erasmus GSE12276データセットは、経過観察中に再発した患者のみを含むので、再発に偏っている。経路ベース予測の予後値を調査するために、これらはGSE6532及びGSE9195におけるGuy's病院によって報告されるより臨床的に関連する患者セットに適用された(全部で164患者)。これらのデータセットにおける患者はER陽性腫瘍と診断され、外科手術で治療され、5年間アジュバントホルモン療法で治療された。
【0116】
MPSとOncotypeDX(登録商標)再発スコア(RS)の直接比較(表14参照)は両テストがほぼ等しく良好に再発リスクを予測することができることを示す(HR:4.41(1.93−10.091)vs.6.43(1.66−24.90))。両テストの予測力は多変量解析に組み合わせると有意なままである。これはErasmus GSE12276データセットにおいて得られる結果を支持し、OncotypeDX(登録商標)乳癌テストから得られる再発スコア(RS)とMPSは再発の相補的予測因子であり、両者は腫瘍成長の根底にある異なる機序を考慮する。これら二つのテストを組み合わせることは、
図2(
図2Aは時間軸上でズームインした
図2Bのクリッピングを示すことに留意されたい)及び下記表14にみられる通り無再発生存予測をさらに改善する。
【0117】
表14.GSE6532及びGSE9195における全患者のコックス比例ハザード比。
【表14】
【0118】
(iii)Cartes d'Identite des Tumeursデータ
MPSが原発性乳癌患者、例えば基底HER2増幅乳癌の母集団全体にも適用可能であることを示すために、ArrayExpressにより公開されているE‐MTAB‐365データセットからの患者サンプルの多様なセット(n=537、ER+/−、HER+/−、PGR+/−、異なるグレードなど、平均経過観察期間65±(SD)40か月)に適用された。これは
図3(
図3Aは時間軸上でズームインした
図3Bのクリッピングを示すことに留意されたい)にみられる通り高リスク及び中度リスク対低リスク患者における生存の良好な分離(両方ともp<0.01)並びに2.72(1.25−5.92、p<0.01)のHRをもたらした。
【0119】
(iv)Koo Foundation Sun‐Yat‐Sen Cancer Centerデータ
MPSは乳癌患者の多様な群から成る別の患者コホート(n=327、GSE20685、ER+/−、HER+/−、PGR+/−、リンパ節陰性/陽性など)でテストされた。これは3.53(1.34−9.30、p<0.01)のHR、及び低、中度、高リスク患者群の良好な分離をもたらした(
図4参照。
図4Aは時間軸上でズームインした
図4Bのクリッピングを示すことに留意されたい)。
【0120】
(v)Institut Paoli‐Calmattesデータ
次にMPS再発推定量はInstitut Paoli‐Calmattesにおいて手術を受けた266早期乳癌患者のセットに適用された。患者はER+/−、HER+/−、PGR+/−、リンパ節陰性/陽性、グレード1/2/3、KI67+/−、及びP53+/−の多様な乳癌のセットをカバーする。これらのサンプルのマイクロアレイはGSE21653データセットにおいて公開されている。MPSのHRは2.8(1.20−6.51、p<0.01)で有意であり、低リスクと高リスクのリスク層別化に加えて、Kaplan‐Meier生存曲線も同様に有意であった(p=0.017)(
図5参照。
図5Aは時間軸上でズームインした
図5Bのクリッピングを示すことに留意されたい)。
【実施例4】
【0123】
実施例4:CDSアプリケーション
図6(本明細書において開示される、臨床イベントが所定期間内に発生するリスクを示すリスクスコアを決定するように構成される臨床決定支援(CDS)システムを概略的に示す)を参照すると、臨床決定支援(CDS)システム10は適切に構成されるコンピュータ12として実現される。コンピュータ12は、ハードドライブ若しくは他の磁気記憶媒体、光ディスク若しくは別の光学記憶媒体、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、若しくは別の電子記憶媒体、ネットワークサーバなど、非一時的記憶媒体(不図示)上に記憶される適切なソフトウェア、ファームウェア、若しくは他の命令を実行することによって、CDSシステム10として動作するように構成され得る。例示的なCDSシステム10は例示的なコンピュータ12によって具体化されるが、より一般的には、CDSシステムは、本明細書に記載の臨床決定支援法を実行するように構成されるデジタル処理装置又はデジタルプロセッサを有する機器によって具体化され得る。例えば、デジタル処理装置は、携帯端末(例えば、CDSアプリケーションを実行するパーソナルデータアシスタント若しくはスマートフォン)、ノートブックコンピュータ、デスクトップコンピュータ、タブレットコンピュータ若しくはデバイス、リモートネットワークサーバなどであり得る。コンピュータ12又は他のデジタル処理装置は典型的に、表示装置14を含むか若しくは表示装置14と動作可能に接続され、それを介して臨床決定支援勧告を含む情報が医療従事者に表示される。コンピュータ12又は他のデジタル処理装置は典型的に、例示的なキーボード16、又はマウス、トラックボール、トラックパッド、タッチスクリーン(おそらく表示装置14と一体化される)、若しくは別のポインタベースユーザ入力装置など、一つ以上のユーザ入力装置も含むか又はそれと動作可能に接続され、それを介して医療従事者はCDSシステム10を制御するための動作コマンド、CDSシステム10による使用のためのデータなどの情報を入力することができる。
【0124】
CDSシステム10は、被検体(例えば腫瘍専門医、医師、若しくは他の医療従事者によって治療されている病院患者若しくは外来患者、又は結腸癌、乳癌、若しくは肝癌など特定タイプの癌を罹患することがわかっている若しくは疑われる、癌スクリーニング若しくは何らかの他の医療診断を受けている人)に関する情報を入力として受け取る。CDSシステム10は、表示装置14を介して(又は音声合成装置若しくは人が知覚可能な出力を提供する他の装置を介して)医療従事者に提示される臨床決定支援勧告を生成するために様々なデータ解析アルゴリズムをこの入力情報に適用する。一部の実施形態において、これらのアルゴリズムは臨床ガイドラインを患者に適用することを含み得る。臨床ガイドラインは、典型的には医療専門家委員会の勧告に基づいて構築され、オプションとして臨床ガイドラインのナビゲーションを容易にする臨床"フローチャート"の形でフォーマットされた、標準若しくは"正準"治療勧告の記憶されたセットである。様々な実施形態においてCDS10のデータ処理アルゴリズムは付加的に若しくは代替的に、本明細書に開示される機械学習法など、臨床決定勧告を抽出するために入力情報に対して実行される様々な診断若しくは臨床試験アルゴリズムを含み得る。
【0125】
本明細書に開示される例示的なCDSシステム(例えばCDSシステム10)において、CDSデータ解析アルゴリズムは、一つ以上の医療研究所18によって収集される入力ゲノム及び/又はプロテオーム情報に対して実行される一つ以上の診断若しくは臨床試験アルゴリズムを含む。これらの研究所は"オンサイト"で、すなわち病院、又は被検体が診察及び/若しくは治療を受ける他の場所に、或いは"オフサイト"で、例えば被検体から抽出された被検体の組織及び/又は細胞及び/又は体液のサンプル(例えば癌病変から、若しくは癌が疑われる病変から、若しくは転移性腫瘍から、若しくは癌細胞で汚染されている流体が存在する体腔(例えば胸腔若しくは腹腔若しくは膀胱腔)から、若しくは癌細胞を含む他の体液などから、好適には生検法若しくは他の標本採取法を介して採取されるサンプル)を、(郵便若しくは別の送付サービスを介して)受け取る例えば専門及び中央研究所に、様々に位置し得る。サンプルが抽出される細胞は血液悪性腫瘍(白血病若しくはリンパ腫など)からの腫瘍細胞でもあり得る。場合によっては、細胞サンプルは循環腫瘍細胞、すなわち、血流に入った腫瘍細胞であってもよく、適切な単離技術、例えばアフェレーシス若しくは従来の静脈採血を使用して抽出され得る。血液は別として、サンプルが抽出される体液は尿、胃腸内容物、若しくは溢出物であり得る。
【0126】
抽出サンプルはゲノム若しくはプロテオーム情報を生成するために研究所によって処理される。例えば遺伝子から転写されるメッセンジャーリボ核酸(mRNA)のレベル、又は遺伝子から転写されるmRNAから翻訳されるタンパク質のレベルの形で、関心遺伝子の発現レベルなど、証拠となるゲノム若しくはプロテオーム情報を測定するために、例えば抽出サンプルはマイクロアレイ(当技術分野において遺伝子チップ、DNAチップ、バイオチップなどとも様々によばれる)を使用して、又は定量的ポリメラーゼ連鎖反応(qPCR)処理によって処理され得る。別の実施例として抽出サンプルは、デオキシリボ核酸(DNA)に対するシーケンスを生成するため、又はRNAシーケンス、コピー数多型、メチル化などを生成するために遺伝子シークエンシング研究所によって処理され得る。他の検討される測定アプローチは、病理学スライド上で実行される、免疫組織化学(IHC)、細胞学、蛍光in‐situハイブリダイゼーション(FISH)、proximity ligation assayなどを含む。マイクロアレイ処理、質量分析、遺伝子シークエンシング、若しくは他の検査技術によって生成され得る他の情報はメチル化情報を含む。かかるゲノム及び/又はプロテオーム測定の様々な組み合わせも実行され得る。
【0127】
一部の実施形態において、医療研究所18は、多量のゲノム及び/又はプロテオームデータを生成するように、被検体の組織及び/又は細胞及び/又は体液の抽出サンプルに対して複数の標準化データ収集を実行する。例えば、標準化データ収集法は、一つ以上の染色体若しくは染色体部分に対する、或いは組織及び/又は細胞及び/又は体液のゲノム全体に対する(オプションとして整列された)DNAシーケンスを生成し得る。標準マイクロアレイを適用することによって、多数の遺伝子に対する発現レベル、様々なメチル化データなど、何千若しくは何万ものデータアイテムを生成することができる。同様に、PCRベース測定が遺伝子の選択の発現レベルを測定するために使用され得る。この大量のゲノム及び/又はプロテオームデータ若しくはその選択部分は、臨床決定支援勧告を策定するために臨床的に有用な情報を引き出すように、CDSシステム10に入力されて処理される。
【0128】
開示のCDSシステム及び関連する方法は、様々な細胞内シグナル伝達経路の活性を評価し、そこから所定期間内に臨床イベント(例えば癌)が発生するリスクを示すリスクスコアを決定するためのゲノム及び/又はプロテオームデータの処理に関する。しかしながら、開示のCDSシステム(例えばCDSシステム10)はオプションとして、バイタルサインモニタリングデータ、患者の病歴データ、患者の人口統計学的データ(例えば性別、年齢など)、患者の医用画像データなど、様々な患者データに基づく記憶された臨床ガイドラインに従って臨床決定支援勧告を生成するなど、多様な追加機能をさらに含み得ることが理解されるものとする。代替的に、一部の実施形態においてCDSシステム10の機能は、本明細書に開示の通りゲノム及び/又はプロテオームデータ解析を実行して細胞内シグナル伝達経路の活性を評価し、そこから所定期間内に臨床イベント(例えば癌)が発生するリスクを示すリスクスコアを決定することのみに限定され得る。
【0129】
例示的な
図6を続けて参照すると、CDSシステム10は、被検体の組織及び/又は細胞及び/又は体液における二つ以上の細胞内シグナル伝達経路、ここではWnt経路、ER経路及びHH経路の活性22を、限定されないが、被検体の組織及び/又は細胞及び/又は体液の抽出サンプルにおいて測定される細胞内シグナル伝達経路の一つ以上の標的遺伝子の発現レベル20に少なくとも基づいて推定する。本明細書に開示される実施例は、例示的な細胞内シグナル伝達経路としてWnt、ER、AR及びHH経路に関する。これらの経路は、経路の調節の欠失が癌の増殖の原因であり得るため、オンコロジーの様々な領域において興味深い。約10から15の関連するシグナル伝達経路があり、各癌は少なくとも一つの主要経路が脱調節されることによって促進される。いかなる特定の動作理論にも限定されることなく、これらの経路は細胞増殖を調節し、結果として癌細胞におけるこれらの経路の調節の欠失は経路が"常にオン"であることにつながり、従って癌細胞の増殖を加速し、ひいては癌の増殖、浸潤、又は転移(広がり)として現れ得る。
【0130】
細胞内シグナル伝達経路を形成するタンパク質カスケードの一部である中間タンパク質など、細胞内シグナル伝達経路の調節タンパク質をコードする遺伝子のmRNA発現レベルの測定は、調節タンパク質発現レベルの間接測定であり、実際の調節タンパク質発現レベルと強く相関するかどうかわからない(まして細胞内シグナル伝達経路の全活性とはほとんど相関しない)。細胞内シグナル伝達経路は標的遺伝子の転写を直接調節し、従って、標的遺伝子から転写されるmRNAの発現レベルはこの調節活性の直接的な結果である。従って、CDSシステム10は、細胞内シグナル伝達経路の一つ以上の標的遺伝子の発現レベル(代替測定としてmRNA又はタンパク質レベル)に少なくとも基づき、二つ以上の細胞内シグナル伝達経路(ここではWnt経路、ER経路、及びHH経路)の活性を推定する。これは、CDSシステム10が、測定された標的遺伝子の発現レベルによって提供される直接的な情報に基づいて経路の活性を推定することを保証する。
【0131】
そして推定活性、この実施例においてP
Wnt、P
ER及びP
HH、すなわちWnt経路、ER経路、及びHH経路の推定活性は、本明細書に詳述の通り、臨床イベント、この実施例において癌、特に乳癌が所定期間内に発生するリスクを示すリスクスコアを決定するために使用される24。リスクスコアは推定活性の組み合わせに少なくとも一部基づく。例えば、リスクスコアは式(7)を参照して詳述した"多経路スコア"(MPS)であり得る。
【0132】
決定されたMPSに基づいて、CDSシステム10は、この実施例において、臨床イベントが所定期間内に発生する、異なる示されたリスクと関連する複数のリスクグループの少なくとも一つに被検体を割り当てる26、及び/又は、臨床イベントが所定期間内に発生する示されたリスクに少なくとも一部基づいて被検体に推奨される治療を決定する28.
【0133】
本明細書に記載の通りCDSシステム若しくはMPSとリスク分類のスタンドアロン実施例によって特定患者のためにMPS及び/又はリスク分類を決定することは、患者の診断若しくは治療若しくはモニタリング/経過観察に関与する腫瘍専門医、医師、若しくは他の医療従事者が、特に積極的化学療法及び/又は標的療法及び/又は免疫療法及び/又は放射線療法及び/又は外科手術の望ましくない副作用を最小限にしながら患者の長期生存の可能性が最も高くなるように治療を合わせることを可能にする。従って、例えば癌再発リスクの低い患者、すなわちMPSが低い及び/又は本明細書に記載のリスク層別化アルゴリズムに基づいて低リスクと分類される患者は、現在典型的にはホルモン療法のみで、或いはホルモン療法、例えば抗エストロゲン及び/又はアロマターゼ阻害剤と、低毒性化学療法剤との組み合わせで治療される。他方で、癌再発リスクが中度若しくは高い患者、すなわちMPSが中度から高い、及び/又は本明細書に記載のリスク層別化アルゴリズムに基づいて中度若しくは高リスクと分類される患者は、現在典型的にはアントラサイクリン及び/又はタキサンベース治療計画など、より積極的な化学療法で治療される。加えて、MPSは、場合によりP
ER、P
Wnt、P
HH、P
AR及び/又は他の予後若しくは予測(例えばコンパニオン診断)検査など、他の患者の検査結果と組み合わせて、患者の特定の癌にとって現在主流の治療プロトコルの一部でないタモキシフェン、トラスツズマブ、ベバシズマブ及び/又は他の治療薬(例えば免疫療法)などの標的薬、及び/又は放射線療法などの他の治療オプション、例えば小線源療法、及び/又は異なる治療タイミング、例えば一次治療の前及び/又は後で、患者を治療するとの決定をすることができる。
【0134】
臨床イベント(例えば癌)が所定期間内に発生するリスクの指標として決定されたリスクスコア(MPS)を直接用いる代わりに、CDSシステム10はリスクスコア及び/又は推定活性の少なくとも一つを、一つ以上の追加予後検査から得られる一つ以上の追加リスクスコアと組み合わせて、複合リスクスコアを得るように構成されることが可能であり、複合リスクスコアは臨床イベントが所定期間内に発生するリスクを示すことが留意される。一つ以上の追加予後検査は、特に、OncotypeDX(登録商標)乳癌検査、Mammostrat(登録商標)乳癌検査、MammaPrint(登録商標)乳癌検査、BluePrint(登録商標)乳癌検査、CompanDx(登録商標)乳癌検査、Breast Cancer Index(サービスマーク)(HOXB13/IL17BR)、OncotypeDX(登録商標)結腸癌検査、及び/又は遺伝子/タンパク質Ki67の発現を測定することによって実行される増殖検査を有し得る。
【実施例6】
【0136】
実施例6:リスクスコアの比較
図7は二つの異なって決定されたリスクスコアを比較する実験からの結果を例示するプロットを示す。特に、第一のリスクスコア(MPS)は式(8)に従って計算され、第二のリスクスコアは式(7)に従って計算された。第一のリスクスコアは乳癌サンプル(GSE6532及びGSE9195)について決定されるハザード比の対数を割り当てることによって乳癌サンプルについて最適化され、これはα=log(1/0.36)、β=log(3.67)及びγ=log(2.29)をもたらした。第二のリスクスコアのαとβについての値は1に等しくなるように例示的に選ばれた。実験はGSE21653、GSE20685、及びE‐TABM‐365データセットについて実行され、算入(標本採取)後10年で再発する患者の割合を各リスクスコアの関数として決定した(リスクスコアは容易に比較され得るようにスケーリングされる)。全部で1130患者が登録され、そのうち1005が完全生存データを有した。破線曲線は式(8)に従って計算された第一のリスクスコアについての結果をあらわし、実線曲線は式(7)に従って計算された第二のリスクスコアについての結果をあらわす。
【0137】
式(7)に従って計算された第二のリスクスコア(実線曲線)は単調増加するリスクをもたらすが、式(8)に従って計算された第一のリスクスコア(破線曲線)は高リスクスコアにおいて横ばいになる(少々減少するようにも見える)ことがプロットから認められる。これは式(8)に従って計算された第一のリスクスコアの上限において患者のリスクを区別することはもはや不可能であるが、一方式(7)に従って計算された第二のリスクスコアの場合、リスクはリスクスコアとともに連続的に増加することを意味する。
【0138】
加えて、式(7)に従って計算された第二のリスク(実線曲線)は式(8)に従って計算された第一のリスク(破線曲線)よりも高リスク患者をよく区別することができるが(0.84vs.0.78)、低リスク患者もわずかによりよく同定することができる(0.43vs.0.45)こともプロットから明らかである。
【0139】
一般に、Wnt経路、ER経路、AR経路、及び/又はHH経路に関する実施例が例示的な実施例として提供されるが、本明細書に開示の細胞内シグナル伝達経路解析のためのアプローチは、これら経路に加えて他の細胞内シグナル伝達経路、例えば細胞膜内受容体を伴う細胞間シグナル伝達経路及び細胞内部の受容体を伴う細胞内シグナル伝達経路に容易に適用されることが理解されるものとする。加えて、本願は複数の好適な実施形態を記載する。先の詳細な説明を読んで理解することで修正及び変更が想到され得る。本願はかかる修正及び変更をそれらが添付の請求項若しくはその均等物の範囲内にある限り全て含むものと解釈されることが意図される。
【0140】
開示の実施形態への他の変更は、図面、開示及び添付の請求項の考察から、請求される発明を実施する当業者によって理解されもたらされることができる。
【0141】
請求項において、"有する"という語は他の要素若しくはステップを除外せず、不定冠詞"a"若しくは"an"は複数を除外しない。
【0142】
単一ユニット若しくはデバイスは請求項に列挙される複数の項目の機能を満たし得る。特定の手段が相互に異なる従属請求項に列挙されるという単なる事実はこれら手段の組み合わせが有利に使用されることができないことを示さない。
【0143】
一つ若しくは複数のユニット若しくはデバイスによって実行されるリスクスコアの決定のような計算は任意の他の数のユニット若しくはデバイスによって実行されることができる。
【0144】
コンピュータプログラムは、他のハードウェアと一緒に若しくはその一部として供給される光学記憶媒体若しくは固体媒体などの適切な媒体上で記憶/分散され得るが、インターネット又は他の有線若しくは無線通信システムなどを介して他の形式で分散されてもよい。
【0145】
請求項における任意の参照符号は範囲を限定するものと解釈されてはならない。
【0146】
本願は主に臨床イベントが所定期間内に発生するリスクを示すリスクスコアを決定するための特異的方法に関し、リスクスコアは被検体の組織及び/又は細胞及び/又は体液における二つ以上の細胞内シグナル伝達経路の推定活性の組み合わせに少なくとも一部基づく。本願はかかる方法を実行するように構成されるデジタルプロセッサを有する装置に、かかる方法を実行するようにデジタル処理装置によって実行可能な命令を記憶する非一時的記憶媒体に、及びデジタル処理装置にかかる方法を実行させるためのプログラムコード手段を有するコンピュータプログラムにも関する。
【0147】
文献:
de Sousa E Melo F, C. S. (2011). Methylation of cancer-stem-cell-associated Wnt target genes predicts poor prognosis in colorectal cancer patients. Cell Stem Cell., 476-485
Hatzis P, v. d. (2008). Genome-wide pattern of TCF7L2/TCF4 chromatin occupancy in colorectal cancer cells. Mol Cell Biol., 2732-2744
Nusse, R. (2012, May 1). Wnt target genes. Retrieved from The Wnt homepage: http://www.stanford.edu/group/nusselab/cgi-bin/wnt/target_genes
Soderberg O, G. M. (2006). Direct observation of individual endogenous protein complexes in situ by proximity ligation. Nat Methods., 995-1000
van de Wetering M, S. E.-P.-F. (2002). The beta-catenin/TCF-4 complex imposes a crypt progenitor phenotype on colorectal cancer cells. Cell, 241-250.