(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-04
(45)【発行日】2023-08-15
(54)【発明の名称】測定分析物を使用する、疾患診断を改善するための方法
(51)【国際特許分類】
G16H 10/40 20180101AFI20230807BHJP
G01N 33/48 20060101ALI20230807BHJP
G01N 33/68 20060101ALI20230807BHJP
【FI】
G16H10/40
G01N33/48 Z
G01N33/68
(21)【出願番号】P 2021179652
(22)【出願日】2021-11-02
(62)【分割の表示】P 2019059010の分割
【原出願日】2014-03-13
【審査請求日】2021-11-02
(32)【優先日】2013-03-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】515252396
【氏名又は名称】オートレイシーズ・インコーポレイテッド
【氏名又は名称原語表記】OTraces Inc.
(74)【代理人】
【識別番号】100145403
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100122301
【氏名又は名称】冨田 憲史
(74)【代理人】
【識別番号】100157956
【氏名又は名称】稲井 史生
(74)【代理人】
【識別番号】100170520
【氏名又は名称】笹倉 真奈美
(72)【発明者】
【氏名】ガリーナ・クラシック
(72)【発明者】
【氏名】モーセン・マレファト
(72)【発明者】
【氏名】キース・リンゲンフェルター
【審査官】梅岡 信幸
(56)【参考文献】
【文献】特表2011-528442(JP,A)
【文献】国際公開第2012/037603(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G01N 33/48-33/98
(57)【特許請求の範囲】
【請求項1】
コンピューターが実行する
がんを診断するための方法であって、
a)
コンピュータープロセッサーが、対象からの盲検試料において
前記がんを示す少なくとも5種の所定のバイオマーカーの濃度を決定すること、
b)
前記コンピュータープロセッサーが、前記対象と関連する1つまたは複数のメタ変数を選択すること、
c)
前記コンピュータープロセッサーが、前記バイオマーカーの濃度を、1つまたは複数の集団分布特性および前記1つまたは複数のメタ変数の関数として変換して、各バイオマーカーを表す擬似濃度を計算すること、
ここに、前記1つまたは複数の集団分布特性は、前記バイオマーカーの上方制御もしくは下方制御の程度に基づいて異なる群として集団を分ける、
d)
前記コンピュータープロセッサーが、前記擬似濃度を、前記
がんを有するかまたは有さないことが知られている集団のメンバーに関して決定された擬似濃度の訓練セットモデルと比較すること、ここに、前記訓練セットモデルは、少なくとも5つの直交空間を含む多次元分析を利用する、および
e)
前記コンピュータープロセッサーが、前記比較が、対象が前記
がんを有することを示すかどうかを判定すること
を含む、方法。
【請求項2】
コンピューターが実行する
がんを診断できる訓練セットモデルを作成するための方法であって、
a)
コンピュータープロセッサーが、対象の群からの試料の訓練セットにおいて
前記がんを示す少なくとも5種の所定のバイオマーカーの濃度を決定すること、
b)
前記コンピュータープロセッサーが、前記対象と関連するメタ変数を選択すること、
c)
前記コンピュータープロセッサーが、前記バイオマーカーの濃度を、1つまたは複数の集団分布特性および前記メタ変数の関数として変換して、各バイオマーカーを表す擬似濃度を計算すること、
ここに、前記1つまたは複数の集団分布特性は、前記バイオマーカーの上方制御もしくは下方制御の程度に基づいて異なる群として集団を分ける、および
d)
前記コンピュータープロセッサーが、前記
がんを有するかまたは有さないことが知られている集団のメンバーに関して決定された前記擬似濃度から訓練セットモデルを作成すること、ここに、前記訓練セットモデルは、少なくとも5つの直交空間を含む多次元分析を利用する、
を含む、方法。
【請求項3】
前記
がんが、乳がん、前立腺がん、卵巣がん、および肺がんからなる群から選択される、請求項1または2に記載の方法。
【請求項4】
前記バイオマーカーが、IL-6、IL-8、VEGF、TNFα、CA19.9、およびPSAからなる群から選択され、診断される
がんが乳がんである、請求項1または2に記載の方法。
【請求項5】
前記バイオマーカーが、IL-6、IL-18、IL-8、VEGF、TNFα、PSA、およびIL-1からなる群から選択され、診断される
がんが前立腺がんである、請求項1または2に記載の方法。
【請求項6】
前記バイオマーカーが、IL-6、IL-18、IL-8、VEGF、IL-12、CA125、およびTNFαからなる群から選択され、診断される
がんが卵巣がんである、請求項1または2に記載の方法。
【請求項7】
前記バイオマーカーの濃度が従来の検出限界(LOD)未満である、請求項1~6のいずれか1項記載の方法。
【請求項8】
このようなバイオマーカーの濃度値が、前記バイオマーカーの従来のLODと最低読み取り値との間で直線または他の適当な標準曲線フィッティング法によって決定される、請求項7記載の方法。
【請求項9】
前記
擬似濃度からの全スコアを計算して前記訓練セットモデル中に組み込むことをさらに含む、請求項1~8のいずれか1項記載の方法。
【請求項10】
がんを診断するための指示をコンピューター
プロセッサーに実行させるプログラムが記録された非一過性のコンピューター読み取り可能媒体であって、前記指示が、
a)対象からの盲検試料において
前記がんを示す少なくとも5種の所定のバイオマーカーの濃度を決定すること、
b)前記対象と関連する1つまたは複数のメタ変数を選択すること、
c)前記バイオマーカーの濃度を、1つまたは複数の集団分布特性および前記1つまたは複数のメタ変数の関数として変換して、各バイオマーカーを表す擬似濃度を計算すること、
ここに、前記1つまたは複数の集団分布特性は、前記バイオマーカーの上方制御もしくは下方制御の程度に基づいて異なる群として集団を分ける、
d)前記
擬似濃度を、前記
がんを有するかまたは有さないことが知られている集団のメンバーに関して決定された擬似濃度の訓練セットモデルと比較すること、ここに、前記訓練セットモデルは、少なくとも5つの直交空間を含む多次元分析を利用する、および
e)前記比較が、対象が前記
がんを有することを示すかどうかを判定すること
を含む、媒体。
【請求項11】
前記
がんが、乳がん、前立腺がん、卵巣がん、および肺がんからなる群から選択される、請求項10記載の媒体。
【請求項12】
前記バイオマーカーが、IL-6、IL-8、VEGF、TNFα、CA19.9、およびPSAからなる群から選択され、診断される
がんが乳がんである、請求項11記載の媒体。
【請求項13】
前記バイオマーカーが、IL-6、IL-18、IL-8、VEGF、TNFα、PSA、およびIL-1からなる群から選択され、診断される
がんが前立腺がんである、請求項11記載の媒体。
【請求項14】
前記バイオマーカーが、IL-6、IL-18、IL-8、VEGF、IL-12、CA125、およびTNFαからなる群から選択され、診断される
がんが卵巣がんである、請求項11記載の媒体。
【請求項15】
前記バイオマーカーの濃度が従来のLOD未満である、請求項10~14のいずれか1項記載の媒体。
【請求項16】
このようなバイオマーカーの濃度値が、前記バイオマーカーの
従来のLODと最低読み取り値との間で直線または他の適当な標準曲線フィッティング法によって決定される、請求項15記載の媒体。
【請求項17】
前記
擬似濃度からの全スコアを計算して前記訓練セットモデル中に組み込むことをさらに含む、請求項10~16のいずれか1項記載の媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、疾患診断の精度を改善するための方法、および測定分析物と二値アウトカムとの相関を伴う関連診断検査に関する。
【背景技術】
【0002】
3つ以上の独立変数を使用して二値アウトカム(例えば、所与の疾患の存在または非存在)を相関させる相関法は、クラスターまたは近傍検索法、回帰法およびウェーブレット法と共によく使用される。疾患予測の場合、血液または血清の共通成分を測定し、種々の病態(disease state)予測のためにこれらの濃度を独立変数として使用して、相関が試みられている。アウトカムが「疾患である」または「疾患でない」所与の病態の場合、ロジスティック回帰法がよく使用される。他の技術は、例えば、遺伝的アルゴリズムを伴う。これらの方法の予測力は、方法のために選択される成分分析物に大きく依存する。当業者は、予測力を有すると思われる多くの分析物およびパラメーターは実際には診断および分析力を改善しないであろうと認識している。
【0003】
回帰法は、アウトカムと相関する独立変数の傾向を使用する。線形法は線形傾向に基づき、ロジスティック回帰は対数傾向に基づく。生物学的な疾患予測においては、ロジスティック回帰がよく使用される。
【0004】
群クラスタリング法は、類似したアウトカムのグループ化のために変数相関トポロジーを調べる。クラスタリング法は、傾向が連続的でないが傾向においてトポロジーの局所反転を有する相関を見出すことができるという利点を有する。この方法は、非線形性が大きく、局所的変動性が大きいアウトカムの影響を受けやすいが、測定誤差が小さく、生物学的使用においてより予測的であり得る。加えて、いずれの方法も、全回帰に対して小規模で適用されるクラスター法とほとんどの場合組み合わせることができる。
【0005】
しかし、論理的には実際に相関があると思われる一部の独立変数は予測傾向を示さない。したがって、病態の診断にこれまで有用な情報を提供してない、患者特異的および集団特異的な変数を利用することによって診断精度を改善するアプローチが、必要とされている。
【0006】
臨床的使用に十分な再現性および予測力で病態を単独でまたは組み合わせて予測できるバイオマーカーを見出すために、数多くの研究が行われてきた。この研究は、成功が限られているかまたは全く成功していない。この予測を行うことができる単一タンパク質を見出すために、高含量タンパク質(HAP)が大いに研究された。多数の例が見出されたが、患者を疾患についてマーカーによってスクリーニングできるほど十分に低い偽陰性レベルを有するものはなかった。結果的に、このような単一バイオマーカーは、前立腺がんのための、PSAを除いて唯一の治療法モニタリングに使用されている。この検査は、偽陰性を低下させるために、バイオプシーが適当であることを示す濃度をひどく歪めざるを得ず、結果として擬陽性レベルが非常に高くなる。バイオプシーが必要であることが示された男性の80%もが、前立腺がんに対して実際には陰性である。
【0007】
DNAマーカーもまた、場合によってはがんのサブタイプに非常にふさわしいことが判明しているが、この場合もやはり、上記のHAPと同一の理由でスクリーニングには好適でない。
【0008】
多種のタンパク質を使用して、プロテオミクスアプローチも検討されている。この仕事は、この場合もやはりHAPにまたは高レベルのフェクタータンパク質に的を絞っている。この仕事は、多重方式のタンパク質測定法、例えば、イムノアッセイ、チップおよび質量分光光度分析(mass spectrophotometry)が主役となっている。極めて初期の仕事は、卵巣がんで多少の成功を手にした。しかし、全てのこれらの方法に関する問題は、選択されたタンパク質の多くが、健常から疾患への進行と強い相関を示さない(かつ多くが、例えば、質量分析には典型的に見られることであるが、病態との生物学的な関連が知られていない)ことである。さらにまた、質量分析では、全血清試料を分光光度計によってタンパク質レベルについて調べるという事実のため、重大なオーバーサンプリングの問題が生じ、したがって、相関アルゴリズムの訓練は困難である。質量分析の場合、全血清試料は、200種超のタンパク質を含み、10,000個の質量分析ピークを有する可能性がある。
【0009】
HAPよりも診断目的で有用なより低含量のタンパク質を利用する技術および低含量バイオマーカーの分析を可能にする分析技術もまた、診断分野において必要とされている。
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明および種々の実施形態は、本特許出願の一部をなす特許請求の範囲で述べられている。前述のことを限定することなく、好ましい一態様の好ましい一実施形態において、本発明は、多変量(多変数)相関法を使用して病態を予測するための方法の診断力および診断精度を改善することに関する。これらの方法は、プロテオミクス技術、メタボロミクス技術ならびに体液および組織試料中に見られる種々のバイオマーカーのレベルを決定することを伴う他の技術を含む。
【0011】
本発明者らが企図しかつ本出願において論じる種々の実施形態は、メタ変数の使用、特に、相関スコアに対する、測定されるバイオマーカー分析物の影響を調整する方法の使用を含む。このようなメタ変数は、免疫系応答についての専門知識および生じる可能性がある測定誤差についての知識に基づいて特定し得る。これらの方法は、訓練セットモデルの構築または診断中の盲検試料に適用可能である。
【課題を解決するための手段】
【0012】
一実施形態において、本発明は、疾患を診断するための方法であって、a)対象からの盲検試料において少なくとも3種の所定の分析物の濃度を決定する工程と、b)前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して、対象と関連する集団において変動する、対象と関連する1つまたは複数のメタ変数を選択する工程と、c)前記分析物の濃度を、1つまたは複数の集団分布特性および前記の1つまたは複数のメタ変数の関数として変換して、各分析物を表す擬似濃度を計算する工程と、d)前記擬似濃度を、前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して決定された擬似濃度の訓練セットモデルと比較する工程と、e)前記比較が、対象が前記疾患を有することを示すかどうかを判定する工程とを含む、方法に関する。所定の分析物の濃度(またはレベル)を決定する工程(a)は、この方法の残りの工程とは異なる時間および場所において実施できると考えられる。同様に、この方法の他の工程(複数可)は、全体および一部を異なる時間および場所で実施することもできる。したがって、本発明者らは,より少ない工程、特に工程(b)~(e)のみを含む方法も本発明と考える。
【0013】
本発明の一態様において、前述の方法は、対象または患者から採取した生体試料中において測定される少なくとも3種、少なくとも4種、少なくとも5種もしくは少なくとも6種またはそれ以上の分析物あるいは前記試料において決定されるそれらのレベルを使用する。別の態様において、前述の方法は、所与の疾患、例えば、乳がん、前立腺がんおよび肺がんを含むがこれらに限定されない固形組織がんの評価または存在もしくは非存在の予測を伴う。
【0014】
一部の実施形態において、メタ変数は年齢である。特定の実施形態において、メタ変数は、閉経前、閉経前後および閉経後の状況、思春期、体重、試料供給源の地理的な位置、体脂肪率、年齢、人種もしくは人種間混血または民族性、種あるいは期間の時期(または範囲)からなる群から選択される。
【0015】
別の実施形態において、本明細書中で記載した「比較する」工程は、クラスタリング法、近傍探索法、回帰法またはウェーブレット解析法を含むがこれらに限定されない技術から選択される相関法の使用を伴う。また、不一致訓練セットモデルの使用を適宜含んでもよい。このような不一致訓練セットモジュールは、必要に応じて、本発明の方法のいずれかと共に、例えば、第2の訓練セットモデルを用いて繰り返すことができる、変換する工程、比較する工程および決定する工程に関連して使用できる。この第2の訓練セットモデルは、病態における血清分析物の変化と部分的に似ているが、疾患自体の状態または病理とは対照的に、病態によっては引き起こされない、対象の集団の非疾患状態を同定できるものである。したがって、関連する一実施形態は、第2の訓練セットモデル、ならびに非病態、病態と部分的に似ている非疾患状態、および病態の3つの状態の評価および予測を含む。
【0016】
本発明の別の態様において、本発明の方法は、マイクロプロセッサーを使用してコンピューターに実装され、医療関係者、例えば、疾患診断を行っている医師にとって有用な形態でスコアを出力する工程をさらに含んでいてもよい。
【0017】
本発明の特定の実施形態は、濃度を正規化し、濃度の不規則性および不連続分布を平滑化するための数学的方法を利用する。この数学的方法は、個々の試料が予測的である非病態および病態に関するタンパク質の測定濃度および濃度の年齢調整平均値の比ならびに非病態および病態に関するタンパク質の濃度の比の対数であり、その結果、相関において使用される、得られた新しい独立変数の分布が圧縮されて、相関計算を助けるものを含む。
【0018】
本発明の別の態様において、独立変数とメタ変数との関係は、病態および非病態、1つまたは複数の群(正規または非正規)、群算術平均値(group mean value)、群平均値、群中央値ならびに群ダイナミックレンジ値の間の関係の非線形度と関連する独立変数の集団分布特性を包含する。
【0019】
本発明の特定の実施形態は、個々のバイオマーカーの上方制御または下方制御特性、例えば、関連集団の典型的な対象における疾患進行の過程におけるサブグループ化または非線形度についての従来の(または専門)知識に基づいて個々のバイオマーカーの影響に重み付けするための、訓練セットモデルの調整を含む。
【0020】
特定の他の実施形態は、各バイマーカー平面のトポロジーにおける急勾配または深いピークもしくは谷によって引き起こされる、リスクスコアまたは病態予測を有意に変化させるのに十分なバイマーカー平面におけるバイマーカー平面トポロジー不安定性についての従来の(または専門)知識に基づいて個々のバイオマーカーの影響に重み付けするための、訓練セットモデルの調整を含む。
【0021】
他の実施形態において、訓練セットモデルは、バイオマーカーアッセイの不確実性、例えば、アッセイ結果曲線において非常に低いかまたは非常に高いレベルで起こり得る不確実性についての従来の(または専門)知識に基づいて個々のバイオマーカーの影響に重み付けするために調整する。
【0022】
本発明の別の態様において、バイマーカー平面のトポロジーにおける急勾配または深いピークもしくは谷によって引き起こされる、所与の盲検試料のリスクスコアを有意に変化させるのに十分なバイマーカー平面におけるトポロジー不安定性により、アウトカム予測における不安定性を示す個々の盲検試料を調整または補正するために、不一致訓練モデルを使用する。
【0023】
本発明の別の実施形態は、診断および治療法へのより個別化された医学アプローチであって、疾患の存在の予測またはその診断が望まれる疾患に関して、個々のタンパク質(または他の分析物、例えば、代謝産物)濃度のベースライン値を、集団値ではなく、対象が非病態である期間を含むある期間にわたって対象について決定するアプローチに関する。
【0024】
本発明のさらに別の態様は、免疫系炎症マーカー、腫瘍抗発生マーカー、細胞アポトーシスマーカー、血管形成タンパク質関連マーカーおよび組織マーカーを含むカテゴリーのうちの少なくとも3種のそれぞれにおける少なくとも1種のバイオマーカーを含む、シグナル伝達タンパク質を含む低含量バイオマーカーの測定に関する。本発明の一実施形態において、低含量バイオマーカーは、所与の対象の関連集団の少なくとも約20パーセントから採取された試料中の濃度レベルが約1pg/ml未満である極低含量のタンパク質である。
【0025】
本発明の別の実施形態は、免疫系炎症マーカー、腫瘍抗発生マーカー、細胞アポトーシスマーカー、血管形成タンパク質マーカーおよび組織マーカーを含むカテゴリーから選択される少なくとも3種のバイオマーカーの生体試料中の濃度の決定であって、組織マーカー以外の少なくとも3種のバイオマーカーのうちのいずれか1種または複数が、疾患の診断または疾患の可能性の予測が望まれる疾患を有する亜集団において、所与の対象の関連集団の少なくとも約20パーセントについて決定された濃度が約1pg/ml未満である低含量タンパク質である、決定を伴う。
【0026】
好ましい一実施形態において、疾患は、がん、より特定すると固形腫瘍である。
【0027】
他の実施形態において、少なくとも2種もしくはそれ以上、少なくとも3種もしくはそれ以上、少なくとも4種もしくはそれ以上、少なくとも5種もしくはそれ以上、少なくとも6種もしくはそれ以上、少なくとも7種もしくはそれ以上、少なくとも8種もしくはそれ以上、少なくとも9種もしくはそれ以上または少なくとも10種もしくはそれ以上のバイオマーカーを評価する(またはそれらのレベルを決定する)。
【0028】
本発明のさらに別の態様は、少なくとも1種の決定された(または測定された)分析物の濃度値がLOD未満であり、このような分析物(複数可)の濃度値が、分析物のLODと最低読み取り値との間で直線または他の適当な標準曲線フィッティング法によって決定される、評価または分析を含む。好ましくは、ゼロまたは負の値を示す分析物ななく、同様な試料中のその分析物のおよその最低許容値より低い値を示す分析物はない。
【0029】
その実施形態のその他において、本発明は、分析物のLOD未満である1種もしくは複数の分析物、2種以上の分析物、3種以上の分析物、4種以上の分析物、5種以上の分析物、6種以上の分析物、7種以上の分析物、8種以上の分析物、9種以上の分析物または10種以上の分析物を検出するための試薬を含む診断キットを伴う。
【0030】
本発明の別の実施形態は、本明細書中において論じるいずれか1つまたは複数の工程を含む、本明細書中に記載した方法、診断予測および分析のいずれかを実施するのに有用なコンピューターシステムならびにマイクロプロセッサー介在装置およびシステムを伴う。
【0031】
以下に説明する、本発明に組み込まれて本明細書の一部を構成する以下の図は、本開示による例示的実施形態を説明するものであり、本発明の範囲を限定するものと考えてはならず、したがって、本発明は、他の均等に効果的な実施形態を受け入れることができる。図は必ずしも原寸に比例せず、図の特定の特徴および特定の視図は、明確および簡潔にするために縮尺および概要が誇張されている場合がある。
【図面の簡単な説明】
【0032】
【
図1】訓練セットモデル(または診断モデル)を構築し、次いで病態または非病態を有するリスクを評価する盲検試料のための診断スコアを作成するプロセスを示すフローチャートである。
【0033】
【
図2】この場合にはサイトカインであるインターロイキン6に関する、典型的な集団分布を示す図である。
【0034】
【
図3】診断法において使用されるバイオマーカーのうち2種の擬似濃度を示す10個のこのような平面のうち1つに関するバイマーカー平面を示す図である。
【0035】
【
図4】訓練セットのデータ点を含むバイマーカー平面を示す図である。
【0036】
【
図5】訓練セットのデータ点を含まないバイマーカー平面を示す図である。
【0037】
【
図6】免疫系応答に関する影響が低下された網掛け部分を含むバイマーカー平面を示す図である。
【0038】
【
図7】トポロジー安定性の問題に関する影響が低下された網掛け部分を含むバイマーカー平面を示す図である。
【0039】
【
図8】既知のアッセイ測定の不確実性に関する影響が低下された網掛け部分を含むバイマーカー平面を示す図である。
【0040】
【
図9】トポロジー不安性試験に合格せずかつ不一致アルゴリズムを用いて補正された2つの試料を用いた盲検検査の結果を示す図である。
【0041】
【
図10】乳がんの臨床研究の結果を示す図である。この場合、10のバイマーカー平面を使用する訓練セットモデルIの訓練セットがんスコアが示されている。
【0042】
【
図11】乳がんの臨床研究の結果を示す図である。この場合、105のバイマーカー平面を使用する訓練セットモデルIIの訓練セットがんスコアが示されている。
【0043】
【
図12】臨床研究で検査された盲検試料の実際の診断を伴った結果を示す図である。
【0044】
【
図13】盲検試料データ点を伴ったタンパク質TNFαの較正曲線を示す図である。
【0045】
【
図14】5%のがんスコア誤差についてのTNFαタンパク質アッセイのエラーバーを示す図である。
【発明を実施するための形態】
【0046】
表1は、臨床研究からのアルゴリズムIの安定性計算およびメリットの数字を示す。
【0047】
表2は、乳がんについての868人の女性の臨床前研究の結果を示す。
【0048】
表3は、868人の女性の乳がん研究についての様々な相関法の相対的な予測力を示す。
【0049】
表4は、卵巣がんについての107人の女性の臨床前研究の結果を示す。
【0050】
表5は、前立腺がんについての259人の男性の臨床前研究の結果を示す。
【0051】
本発明を、詳細な例示的実施形態に関して以下に記載する。本発明を様々な形態で具体化でき、その一部は開示した実施形態の形態とは大きく異なり得ることは、明白である。よって、以下に開示する具体的な構造上および機能上の詳細は本発明を単に代表するものであり、本発明の範囲を限定するものではない。
【0052】
好ましい一実施形態において、本発明は、以下により詳細に記載する、疾患を診断するための方法に関する。以下の記載に対する導入として、本方法は全体として、疾患を有するかまたは有さないかに関する予測診断が望まれる患者からの盲検試料中の所定の分析物の測定濃度を利用する。本発明の方法によれば、各分析物濃度は、患者に関連する少なくとも1つの選択したメタ変数の使用に基づいて擬似濃度に転換する。このメタ変数もまた、患者と関連する選択した集団において変動する。その選択した集団において、疾患を有するかまたは有さないことが知られている集団のメンバーについて同一の所定の分析物の濃度を測定する。疾患診断のために、以下に記載する方法およびアルゴリズムによって、擬似濃度を処理する。処理した擬似濃度値を、疾患を有するかまたは有さないことが知られている集団のメンバーについての、決定および同様に処理された擬似濃度の診断モデル(または訓練セットモデル)と比較する。最終的に、患者から採取した試料の評価が、患者の状態が非病態または病態を有する集団群にあることを示すか否かを決定する。この決定は、例えば、ヘルスケア提供者による使用のためにコンピューター化システムから出力される結果として見ることができる。
【0053】
この段階的なプロセスを、
図1のフローチャートに示す。訓練セットモデルの構築を最初に行い、その最終的な結果により、盲検試料と称する(これらの盲検試料の分析時点で正確な診断は知られていないため)未知の患者試料についての診断結果をもたらすことが可能である。一般に、本発明は、ヘルスケア提供者にリスクスコアを提供する。ヘルスケア提供者は次に、他の患者因子と共にこのスコアを検討して、所与の病態の存在または非存在についての医学的判断を行う。
【0054】
定義
「分析感度」は、ゼロ較正物質を上回る3×標準偏差と定義する。診断提示は、このレベル未満の濃度については正確でないと考えられる。したがって、このレベル未満の臨床的に関連する濃度は、正確でないと考えられ、臨床検査室において診断目的で使用されることはない。
【0055】
「バイマーカー」は、例えば
図3に示すような、以下で「バイマーカー平面」と称する2軸グラフ(または格子)においてプロットされる場合に、非病態から病態への生物学的移行に関して正規化されかつメタ変数の変動に機能的に関連付けられる2つの擬似濃度のセットである。
【0056】
「生体試料」は、対象から採取されて、診断上の情報を提供する分析物(マーカーまたはバイオマーカーとも称する)の濃度またはレベルを決定できる、組織または体液、例えば、血液もしくは血漿を意味する。
【0057】
「バイオマーカー」または「マーカー」は、対象の生体試料の生物学的成分を意味し、典型的には、体液、例えば、血清タンパク質において測定されるタンパク質またはメタボロミクス分析物である。例としては、サイトカイン、腫瘍マーカーなどが挙げられる。
【0058】
「盲検試料」は、所与の疾患の診断が知られていない対象であって、その疾患の存在または非存在についての予測が望まれる対象から採取される生体試料である。
【0059】
「検出限界」(LOD)は、「ゼロ」濃度較正物質の値を2×標準偏差上回る濃度値と定義する。通常、ゼロ較正は、測定値の標準偏差の正確な提示を得るために、20回以上の反復で行う。このレベル以下の濃度決定は、例えば、ウイルスまたは細菌の検出に関してはゼロであるかまたは存在しないと考える。本発明の解釈上、20回の反復の使用が好ましいが試料を2連で実験する場合には、1.5×標準偏差を使用し得る。濃度の数値を必要とする診断提示は、このレベル未満にしない。
【0060】
「低含量タンパク質」は、非常に低レベルの血清中タンパク質である。このレベルの定義は、文献において明確に定義されていないが、本明細書中で使用する通り、このレベルは、血清または血漿中および試料を採取する他の体液中で約1ピコグラム/ミリリットル未満であろう。
【0061】
「メタ変数」は、所与の対象に特徴的な情報であって、分析物およびバイオマーカーの濃度またはレベル以外であって、必ずしもその対象に対して個別化されていないまたは対象に特有でない情報を意味する。このようなメタ変数の例としては、これらに限定するものではないが、対象の年齢、閉経の状況(閉経前、閉経前後および閉経後)ならびに他の状態および特性、例えば、思春期、体重、患者居住地の地理的な位置もしくは地域、生体試料の地理的源、体脂肪率、年齢、人種もしくは人種間混血、または時期が挙げられる。
【0062】
「集団分布」は、所与の対象集団の生体試料における特定の分析物の濃度の範囲を意味する。具体的な「集団」は、これらに限定するものではないが、地理的地域、特定の人種または特定の性から選択される個人を意味する。また、本出願において記載する使用のために選択される集団分布特性は、所与の病態を有する(疾患亜集団)およびその病態を有さない(非疾患亜集団)と診断されている集団のメンバーである、そのより大きい規定された集団内の2つのはっきり異なる亜集団の使用をさらに企図する。集団は、疾患予測が望まれるいかなる集団であってもよい。さらに、適当な集団は、所与の疾患に関して他の進行期と比較して特定の臨床病期まで進展した疾患を有する対象を含むと考えられる。
【0063】
「集団分布特性」は、バイオマーカーの集団分布内で決定可能であり、例えば、特定の分析物の濃度の算術平均値、もしくはその濃度中央値、もしくは濃度のダイナミックレンジ、または患者が非病態から病態への生物学的移行もしくは進行を経験する際の疾患の発症もしくは進行によって目的の種々のバイオマーカーもしくはメタ変数の上方制御もしくは下方制御の程度が影響されるときに、はっきり異なるピークとして認識できる群に集団分布がどのように分類されるかである。
【0064】
「予測力」は、診断アッセイまたは検査の感度および特異性の平均値を意味する。
【0065】
「擬似濃度」は、測定されるバイオマーカーの濃度の置換値または置き換え値を意味し、実際には、診断相関分析に使用し得る新しい独立変数である。擬似濃度は、測定されるバイオマーカー分析物の濃度に関連付け、それから計算する。この場合、このような分析物は、所与の病態に固有の予測力を有するものである。メタ変数によって調整された、目的の集団分布特性を使用して擬似濃度を計算して、診断が望まれる所与の患者に関する予測バイオマーカーの実測濃度を変換する。
【0066】
「トポロジー不安定性」は、ほとんどまたは全てのバイマーカー平面の格子上の領域であり、その領域の全ておよびほとんどの点は、トポロジーの急勾配区間に位置している。トポロジーは、測定された独立変数(すなわち、決定されたバイオマーカー濃度)およびメタ変数の全てを考慮する多次元相関計算の形状である。単一のメタ変数値に関するこのトポロジーは、5つのバイオマーカー測定に関して少なくとも5つの次元である(それ以上であり得る)。トポロジーはまた、メタ変数の値が変化するにつれて形状が変化する。この多次元トポロジーは、トポロジーを通る10個の二平面切片を取ることによって、分解された状態で目測で見えるようにできる。このため、測定ノイズのために、算出された疾患スコアが誤っている「リスク」が生じる。このスコアは、病態および非病態に対する予測力に関して個々のバイマーカープロットに重み付けすることによって、ならびに他の要因、例えば、トポロジー測定不安性および単純な測定誤差を考慮することによって、得ることができる。スコア範囲は、当業者に知られているように、任意であり、その値は、患者が病態または非病態にある確率パーセントを表す。
【0067】
「訓練セット」は、既知のバイオマーカー濃度、既知のメタ変数値および既知の診断を有する患者(統計的有意性を得るためには、典型的には200名以上)の群である。訓練セットを使用して、軸の値、「バイマーカー」平面の「擬似濃度」および個々の盲検試料をスコア化するのに使用する、クラスター分析からのスコア格子点を決定する。
【0068】
「訓練セットモデル」は、対象(または患者)が疾患を有するかまたは有さない確率に関して予測アウトカムについての盲検試料の評価を可能にする訓練セットから構築されたアルゴリズムの群である。そして次に、「訓練セットモデル」を使用して、臨床および診断目的で盲検試料のスコアを計算する。この目的で、疾患もしくは非疾患の可能性パーセントを示すスコア、または患者の診断を開発しているヘルスケア提供者が好む可能性がある他の何らかの読み出し情報を、任意の範囲にわたって提供する。
【0069】
「不一致訓練セットモデル」(または「二次アルゴリズム」)は、バイマーカー平面の格子上の個々の点が一次相関訓練セットモデルおよびこの二次アルゴリズムの両方において不安定である可能性が低いような、異なる現象論的なデータ削減法を使用する二次訓練セットモデルである。
【0070】
考察
定義用語を含む本発明の特定の態様を、本発明の実施における当業者に対する指針として、以下により詳細に論じる。
【0071】
メタ変数
特許請求の範囲に記載した発明は、一つには、メタ変数を使用する相関診断アッセイのための改善された診断方法に関する。このようなメタ変数は、所与の疾患を有するかまたは有さないことが知られている集団のメンバーにおける「正常」値の有意な変動範囲を示す場合に、診断のための予測力に寄与し得る。本明細書中で記載するように、メタ変数を使用して、測定された分析物レベルを「擬似濃度」に変換または転換する。種々の分析物のレベルまたは濃度は、診断分野における当業者に知られている技術によって測定または決定できると考えられる。
【0072】
メタ変数は、それ自体が特に予測的でないとしても、病態が発現する際の変化を経時的に反映する対象の生物学的な状況と生理学的または物理化学的に関連する場合には、そのメタ変数は比較的に多くの情報を提供する可能性がある。例えば、ボディマスインデックス(BMI)は、利用可能なメタ変数であり、体重自体は、心臓疾患において種々のシグナル伝達タンパク質レベルに影響を及ぼす。本発明の方法において、BMIは、別の独立変数、例えば、種々の循環血液タンパク質の測定レベルのような独立変数としてではなく、メタ変数として使用する場合に、予測アッセイにおいて著しくより有用であり得る。本発明は、一つには、ヒト対象と関連する集団全体にわたる体重の変動が、測定血清タンパク質レベルの決定可能な集団分布パターンとさらに関連するという発見に基づく。これらのタンパク質(またはバイオマーカー)レベルは、所与の対象が非病態から病態への生物学的移行(または進行)を経験する際の、診断目的で測定される独立変数である。
【0073】
同様に、本発明者らは、対象の年齢は、疾病、例えば、がんの診断において、従来の相関法において測定分析物レベルと共にそれ自体を独立変数として使用する場合には、臨床的に予測的でないことを示している。しかし、年齢を、本発明の方法に従ってメタ変数として使用する場合には、その使用は診断精度を改善する。
【0074】
一般に、本出願において定義および記載するメタ変数は、測定分析物の集団分布特性が、非疾患および疾患対象と比較して有意な機能分離(または分散)を示すならば、診断目的で予測的であろう。この機能分離は、病態および非病態に関するメタ変数(年齢)と目的の集団特性(集団の算術平均値)との関係が有意に異なることを意味する。
【0075】
図2のグラフは、がん進行に対する免疫応答を反映する、IからIVと名前を付けられた4つのはっきり異なる集団亜群を特に含むIL-6の集団分布を示している。より高濃度の群は、免疫刺激、例えば、感染、創傷、アレルギーおよび言うまでもなく、がんに対するより強い免疫応答の結果であると考えられ、最も高い群(IV)は、IL6これらの刺激に対するはっきりした非線形反応を示している。これらの集団分布特性および測定分析物のこのようなグループ化を使用して、訓練セット診断モデルの予測力を改善することができる。
【0076】
本発明のメタ変数診断法は、約868個の患者試料の評価を含んだ研究に基づく。それらの試料において、乳がんを有するかまたは有さないと臨床的に診断された対象で5種の、証明力がある(probative)低レベルシグナル伝達タンパク質(PSA、IL-6、IL-8、TNFαおよびVEGF)の濃度を測定した。タンパク質(または分析物)レベルは、疾患診断検査のための古典的な独立変数である。
【0077】
本発明者らはまた、これらの対象のそれぞれについて年齢情報を入手した。5種のバイオマーカーの古典的なロジスティック回帰分析は約82%の予測力を達成し、この分析方法における第6の独立変数としての年齢の使用がもたらす予測力の改善はごくわずかであることが判明した。決定されたバイオマーカーのみを使用するデータクラスタリング法は、約88%のわずかに高い予測力を達成した。この場合もやはり、独立変数としての年齢の使用がより予測的であることは実質的にはなかった。
【0078】
同様に、古典的なクラスター分析と、対数に転換した濃度値との併用は、約92%の予測力を達成したが、独立変数としての年齢の使用はその予測力を0.5%未満しか増加しなかった。この種の分析においては、知られているように、試料濃度の対数が使用された。これは、これらの分析物濃度が4つ以上の対数のダイナミックレンジにわたって広がり得るからである。がん患者における5種の分析物の血液レベルが極めて高濃度まで増大する傾向があることも知られているが、必ずしもそうではない。したがって、このアプローチは、多次元クラスタープロット上の訓練セットモデルの点をそばに接近させ、低濃度においてクラスター点をオーバーサンプリングする傾向を回避する。この対数圧縮法は、間隔バイアスを低減するので、よく使用される。
【0079】
本発明者らは、例えば、個々の対象の年齢を使用して、本明細書中でメタ変数と称するものを作成することができることを確証した。次に、このメタ変数を使用して、本明細書中で擬似濃度と称する新しい独立変数を作成する。擬似濃度は、測定独立変数(この場合、タンパク質濃度)の集団分布特性から計算する。そうすることにより、本明細書中でより詳細に論じるように、2つの分析モデルにおいて約97%から100%超までの予測力が得られた。本出願の解釈上、100%超の予測力とは、「病態」および「非病態」が相関スコアの有意なギャップによって分離されることを意味する。
【0080】
集団分布特性:
本発明者らが証明力があることを見出した集団分布特性の例は、年齢をメタ変数として選択する場合、疾患を有するかまたは有さない患者の各測定分析物の算術平均濃度値;ならびに
図2に示した疾患患者群および非疾患患者群に関する、分離された年齢群の(または全体としての集団の)濃度値のサブグループ化のための濃度中央値である。集団分布プロットにおいて示されるサブグループ化は、数学的に異なって調整する。すなわち、5pg/mlを上回る群における高レベルの上方制御濃度を高圧縮する。これらの関係により新しい年齢ベースの独立変数が作成され、次に、測定されるバイオマーカー分析物の実際の濃度レベルでなく、これをクラスター分析に直接使用した。
【0081】
濃度の算術平均値は、非病態および病態にあると診断された患者について、年齢に対して決定する。これを、各状態の年齢調整算術平均と称する。擬似濃度値は、患者についてのこれらの算術平均値および実際濃度から式1(擬似濃度に関するサブセクションに記載)を使用して計算する。
【0082】
多重独立変数相関分析では一般的であるが、その多重の独立変数は、古典的なクラスター近接分析の基礎となる多次元プロットにおいて対にされる。また、測定変数(すなわち、分析物)のダイナミックレンジの比較的大きい広がりに対処できるように、これらの変数は多くの場合、圧縮される。この場合、我々は本明細書中において、独立変数が年齢または他のメタ変数および実際濃度に基づく「擬似濃度」値である方法を記載する。当業者ならば、予測力を改善する集団分布特性を容易に特定および選択できると考えられる。
【0083】
擬似濃度:
他の診断アプローチではそれ自体が独立変数として扱われることもある患者の年齢の予測力を引き出すために、本発明者らは、年齢をメタ変数として使用して、決定された分析物の実測濃度の代わりとして次に使用する「擬似濃度」を計算した。全てのメタ変数値、例えば、乳がんの場合は年齢についてその予測力を引き出すためには、メタ変数が、所与の目的集団において非病態と病態との間で分離していなければならないことが重要である。「分離」とは、非疾患亜集団および疾患亜集団の対象の集団特性間で観察される関係が、特定にメタ変数に関して異なることを意味する。これは、測定および計算によって経験的に決定できる。また、目的集団は、望まれる予測アウトカム群の性質によって決定され、それは、これらに限定するものではないが、地理的地域、例えば、米本土など;特定の人種もしくは民族のグループ化;または特定の性、例えば、女性であることができる。
【0084】
乳がん疾患の予測のための、本発明による方法の実施においては、好ましくは、5種または6種の極めて低いシグナル伝達タンパク質の濃度が診断相関の独立変数である。5種のバイオマーカーのそれぞれを測定し、年齢による変動を検査集団において決定した。検査集団は、35~80才の女性であって、1/2が健康であり、1/2が乳がんと診断されていた。集団内の対象は一般に、疾患を有するかまたは有さないと考えられるが、単一の対象について決定されるバイオマーカーレベルは、対象の疾患が進行するにつれて変化し、全ての対象が、その疾患の発症および進行の前および間においてその種々の病期を通して同一レベルのバイオマーカーを有するとは限らない。したがって、集団分布特性は、非病態の亜集団におけるバイオマーカーの正常な変動性および病態の亜集団におけるバイオマーカーの正常な変動性を反映する。
【0085】
この場合の集団分布特性は:1)非病態および病態(この場合は、がん)に関する算術平均値対年齢;ならびに2)非疾患から疾患へと移行するバイオマーカーの上方制御の程度および非線形性であった。例えば、サイトカインであるIL-6のレベルはがんによって生じる免疫誘発に対する対象の反応を反映するので、
図2にインターロイキン6の上方制御を示す。IL-6は、免疫系に対するシグナルとして上方制御してその全身性の応答を上向きにする公知の炎症誘発性レスポンダーである。4つの別個のグループ化は、異なる上方制御レベルを示す。擬似濃度を算出する際には、これらのレベルを考慮する。例えば、実際濃度から擬似濃度への移行におけるデータ圧縮度は、グループ化の位置によって異なり、上位の群4では非常に著しい。
【0086】
前述のことを行うためには、非病態を有する対象と病態を有する対象が等しい数である集団を測定しなければならない。この訓練セットのサイズは最適には、バイオマーカーの使用数によって決定される。好ましいサイズは、訓練セットモデルの予測力が、同様なまたはより大きい盲検集団セットに関して正確な約95%以内であるものである。次に、これら2つの状態の年齢調整算術平均値を決定することができ、バイオマーカーの上方制御または下方制御の程度に対する疾患の効果を認識することができる。
【0087】
免疫系は、がんまたは他の炎症誘発性状態の存在によって誘発される場合にタンパク質を上方制御するので、
図2は、1つのバイオマーカーIL-6の集団分布特性を示す。測定濃度から擬似濃度への変換は、この場合もやはり非疾患集団および疾患集団の年齢調整算術平均への濃度の正規化、ならびに測定濃度値のダイナミックレンジの圧縮を伴う。例えば100pg/mlにまで及ぶ、5pg/mlを上回るグループ化内の高散乱した範囲外の濃度が高圧縮される。これによって予測力が改善される。その結果、無単位で、正規化されている、本出願において擬似濃度と称する新しい独立変数が得られ、好ましい一実施態様においては、これはバイオマーカーの集団分布の年齢変動を反映する。
【0088】
非疾患および疾患に関する年齢調整算術平均および患者試料の実際濃度を含む、以下の形態の関係を使用する:
式1:擬似濃度α自然対数((Ci/C(cまたはh))-(Ch/Cc))2
[式中、
Ci=実際患者分析物の測定濃度
C(cまたはh)=この患者分析物の患者年齢調整濃度(この値は、患者が非病態かまたは病態かについて調整されている)
Ch=非疾患患者分析物の患者年齢調整算術平均濃度
Cc=疾患患者分析物の患者年齢調整算術平均濃度]。
【0089】
この式1は、上方制御グループ化に応じて圧縮および拡大を調整するように設計されている。例えば、
図2におけるピークを参照のこと。擬似濃度に関する上記式はこの要求を達成するが、この式の多くの他の形態を実装できることは、当業者には明らかであろう。例えば、C
i、C
hおよびC
cは直接的に、上記で論じたような、濃度、または算術平均、中位からの濃度距離、または亜群中央値もしくはダイナミックレンジエッジからの距離であることができるであろう。
【0090】
次に、擬似濃度(無単位、したがって濃度またはレベルでない)を、分析のための相関クラスター多次元プロットに使用する。また、プロットは全て、集団分布の共通する特性;非疾患および疾患(年齢調整したまたはしていない)の年齢算術平均値、中央値またはサブグループ化のダイナミックレンジに対して正規化する。これらの方法は、5パーセントポイント以上の予測力の改善をもたらすことができる。
【0091】
個別化医療のケースは、人気および有効性が増している。上記の疾患予測方法は、非疾患状態に関する、これらの特許において開発および記載された集団分布特性を、個人の非疾患ベースライン測定値で置換することによって、個別化することができると考えられる。換言すれば、上記式のCh値は、個々の患者の実際ベースライン値であって、非病態の集団算術平均値ではないであろう。その場合、それに応じて、疾患評価は、これらの測定非疾患特性から、一般集団を示す疾患特性への個人の移行に基づくであろう。
【0092】
バイマーカー平面:
5種のバイオマーカー(および1つのメタ変数)を使用する分析の場合、10のこのようなバイマーカー平面がある。
図3のプロットは、赤色の疾患格子点および黄色の非疾患格子点を示している。訓練セット試料は、測定独立変数(濃度)およびメタ変数(年齢)を使用して、年齢集団特性を決定し、軸上の擬似濃度距離を算出し、これらの擬似濃度を10個のバイマーカー平面のそれぞれに適用する。このプロットを、合計40,000個の格子点について、各軸上の2,000個の格子に分ける。
【0093】
格子点が疾患であるかまたは非疾患であるかの決定は、訓練セット試料について個々の格子点から、最も近い測定データ点までの距離を決定することによって、コンピューターで計算する。
図3は、一例であり、この場合には、2種のバイオマーカーはIL-6およびVEGFであり、メタ変数は年齢である。縦座標と横座標はいずれも、上記のようにして決定した擬似濃度である。したがって、メタ変数および測定独立変数は、これらのプロット上の擬似濃度に組み込まれている。格子点をそれぞれ、非疾患および疾患として評価し、対応する数値スコア(実際の数値は任意であるが、例えば、+1および-1)をそれに与える。このスコアは、非疾患または疾患の2つの訓練セットデータ点への算出距離によって決定する。最短距離がこのスコアを決定する。訓練セット試料の数は、この距離の決定を行うために変更できる(例えば、4から6へ)。
図3を参照のこと。比較試料の数が比較的少ないと、予測力が比較的低くなる可能性があるであろう。同様に、比較試料の数を増加させても、格子点の「リーチ」が遠く離れたトポロジー上の非局所領域にまで及ぶので、予測力が低減する可能性がある。最良の数は、実験的な算出によって決定する。
【0094】
比較試料点の好ましい数は、訓練セットモデルが実際の診断と最もよく一致する場合である。
図3は、2種のバイオマーカー、IL-6およびVEFGに関するコンピューター計算プロセスを示している。未知の格子点(平面上y軸約12.00およびx軸約4.00の小さい四角)を、この場合には、各非疾患および疾患に関する3つの最も近い訓練セットデータ点へのその距離を決定することによって、非病態または病態に割り当てる。これらの距離を加算し、次いで格子点を、非病態または病態の適当な状態(それぞれ、+1または-1のコンピューター計算スコア)に割り当てる。将来のいつかの時点で診断される任意の盲検試料は、この格子上の位置に基づいて状態スコアに割り当てられるであろう。各盲検試料もまた、全てのバイマーカー平面に関してスコア化されるであろう。訓練セット試料の総数は、少なくとも200個以上であり得る。
【0095】
盲検試料に関する全がんスコアの決定は、全てのバイマーカー平面から、個々の試料に関する個々の格子点決定に個々のバイマーカー平面に関する全予測力を乗じたものを使用することによって決定する。個々の盲検試料格子点値(例えば、+1または-1)に、個々のバイマーカー平面の予測力(または感度)を乗じる。次に、10個の平面全てを、一緒に合計する。典型的な線形法および/または二乗和平方根法を使用して、全てのバイマーカー平面に関する最終的な全スコアを得る。スコアを正規化し、0~200のスコアを生じるようにシフトさせる。これが、ヘルスケア提供者が使用する出力である。この範囲は任意である。
【0096】
バイマーカー平面のより大きいセットは、同じ群のバイオマーカーから、それらを数学的に操作することによって構築できる。これらのより大きいバイマーカーセットはおそらくより大きい予測力を有し、または予測力をさらに改善するための不一致訓練セットモデル(または二次アルゴリズム)を構成し得る。例えば、各擬似濃度の構築に5種のバイオマーカーの濃度の比(濃度それ自体ではなく)を使用すると、10個の擬似濃度値および45個のバイマーカー平面が作成されるであろう。擬似濃度およびバイマーカー平面の構築はおそらく、より予測的であるが、一般集団と正確に相関するためにはより大きい訓練セットが必要とる可能性がある。例えば、各濃度値を(1-別の濃度値)で除した比を使用することもできるであろう。当業者ならば、データを多次元クラスター分析に対して調整するためのこれらの代替方法がより良好な予測力を有するかどうかを、盲検試料セットに関する予測力について方法(複数可)を試験することによって、容易に判定できる。
【0097】
予測力をさらに改善するために、これらの年齢調整濃度またはグループ化調整濃度を調整してそれらを正規化し、クラスター近接分析に関する多次元のグループ化されたマーカープロット全体にわたってクラスタリングの間隔バイアスを低減または排除する。IL-6およびVEGFに関するバイマーカー平面を示す
図3を参照のこと。5バイオマーカー乳がん検査パネルについて10個のこれらの平面がある。この場合、算出擬似濃度値は正規化されており、ゼロから20の間の任意の値を生じるようにシフトされており、外れ値である、高く上方制御された濃度が高圧縮されている。
【0098】
年齢/グループ化分析からの濃度全体にわたる同一正規化間隔への多次元マーカー平面のバイマーカー投影のそれぞれを、圧縮し、年齢調整算術平均および年齢(または全集団)調整サブグループ化に対して正規化する。
【0099】
調整可能なバイマーカー平面影響レベルを使用する訓練セットモデルの予測力の改善:
典型的には、バイマーカー平面を、非疾患および疾患に関する二値数(例えば、+1および-1)でスコア化する。本明細書中に記載する擬似濃度法は、これらの2つの二値数の影響レベルを選択的に調整することによって、予測力のさらなる改善に適する。以下の方法を、訓練セットモデルにおいて開発し、いったん設定したら、モデルにおいて固定する。
【0100】
以下の
図4および5は、病態の存在の予測に使用される5種のバイオマーカーの場合の1つのバイマーカー平面の投影(この場合は、5種のマーカー;IL-6、IL-8、TNFα、VEGFおよびPSAを使用する乳がん)を示す。
図4は、クラスター検索分析によるプロット上の格子点のスコア化に使用されるデータを含む訓練セットモデルを示す。
図5は、データを含まない訓練セットモデルを示す。これは訓練セットモデルを構成する。40,000個の格子点のそれぞれがスコア化されかつ盲検試料が格子上の位置によってスコア化されるので、モデルの作成に使用する訓練セットデータは必要ない。トポロジーはがんに対して赤色の陽性を示し、青色はがんに対して陰性である。この場合に全スコアをコンピューターで計算する際、非疾患格子点を+1に設定し、疾患(がん)格子点を-1に設定する。この5種のバイオマーカーの例における各バイマーカーを、5直交空間において分析する。5直交空間のうち、
図5は、二次元の1つの投影である。このプロット上には、免疫系応答の種々のサブグループ化のトポロジーが示されている。この場合、全格子スポット(この場合、2000×2000または40,000)を通常の方法でスコア化し、病態陽性(乳がん)については-1の値を割り当て、非疾患は+1である。このバイマーカー平面を、擬似濃度間隔によって上記のメタ変数年齢について正規化する。
【0101】
図6は、同一のバイマーカーモデル、およびさらに網掛け部分内側の免疫応答グループ化(
図2を参照のこと)を示す。網掛け部分の影響を、各網掛けブロック化部分が、患者が非疾患であるかまたは疾患である確率に対して若干異なる影響を有するという事実を反映するように調整する。この調整は、訓練セット検証を用いるヒトによる推定によって(調整は、補正された訓練セット結果を生じた)、または厳密なコンピューター多変量増分分析によって行うことができる。2つの別個のバイマーカー平面を、病態および非病態である2つのアウトカムについて作成する。この場合、免疫応答群IVにおける盲検データ点は、疾患である可能性がはるかに高く、影響(絶対値)はわずかに(例えば、-1から-1.1にスコアを変化させることによって)増加するであろう。この増分の実際量は好ましくは、コンピューター分析によってまたは場合によっては厳密な手動法によって決定されるであろう。この方法を相関分析のクラスター検索法に対して実行可能であるが、他の手段も同じ趣旨で使用できるであろう。疾患の関連に関する影響に重み付けするこれらの方法は、約1%の予測力の改善をもたらし得る。95%を上回る予測力では、これは非常に重要である。
【0102】
図7もまた、同一のバイマーカー平面を示し、複合領域内において円で囲まれた網掛け部分は、非線形の急変化疾病対非疾病のトポロジーである。このような領域の特定は、ノイズが導入された検査盲検試料値(例えば、+/-10%)をモデルに挿入し、次いでノイズの測定量を導入することによって行うことができる。これらの盲検点のほとんどは、疾患(ここでは、がん)スコアを実質的に変化させないであろう。しかし、この種のノイズ調整後に非疾患スコアから疾患スコアに劇的に変化する一部の格子点を認め得る。これらは、バイマーカー平面のほとんどまたは全てが多次元のバイマーカー平面全体とオーバーラップする、急変化するトポロジーを有する領域である。これらの領域における影響を慎重に低減させることによって、少数の関連バイマーカー平面において重み付けを増加させることができ、結果として、ノイズの多いデータが、変化するアウトカム境界に近づくことなく広い平面に位置するようになる。この方法は、誤予測を補正することが示されている。上記の場合、赤色のがん領域の影響は、下方シフトし(絶対値)、例えば、-1.0から-0.9にシフトするであろう。または、青色の非疾患領域が、+1.0から-0.9に下方シフトするであろう。最適シフトレベルは、厳密なコンピューター分析によって決定できるであろう。
【0103】
アッセイノイズは、相関分析の精度に影響を与える可能性がある。このノイズは、アッセイの検出限界またはそれ以下のレベルにおいて特に問題となり得る。このノイズはまた、これらの不安定ゾーン中にある個々のバイオマーカーに関する測定点の影響を低減することによって、軽減することができる。
図8もまた、乳がんパネルに関するPSAおよびIL-6のバイマーカー平面を示している。この図の左下の網掛け長方形部分内の領域は全て、アッセイの従来の検出限界(LOD)未満である。従来、LODは、20個のゼロ較正物質の2つの標準偏差+20個のゼロ較正物質の値の平均値と定義されている。このレベルの値の統計的確実性は2つの標準偏差の内側で95%であり、言うまでもなく、測定試料がLODより低くなると、測定確実性は低下する。データは依然として有用な情報を有するが、影響をより少なくして分析に適用すべきである。この場合、網掛け部分内の盲検試料データ点に対する影響は、網掛け部分内の訓練セットモデルの格子点に関して、例えば+1.0から-0.9に低減される。これは、それらの他のバイマーカー面上の、検出限界を上回るこの検査試料のデータ点の影響を増加させる。
【0104】
前述の方法は、相補的であり、影響のシフトを組み合わせることによって、並行して実装できる。
【0105】
不安定性に関して盲検試料を試験することによる、予測力を改善するための方法:
訓練セットモデルが完成して固定されたら、それを使用して、盲検患者試料のがんスコアを算出する。本発明者らは、がんスコアを作成するための2つの好ましい方法を使用する。線形法(CSl)と称する第1の方法は、トポロジー位置スコア(+1または-1)にそのバイマーカー平面に関する予測力を乗じたものを採用する。次に、これらを加算し、倍率変更し、シフトさせて、0~200のスコアをもたらす。qスコア(CSq)と称する第2のスコアは、これらの同じ値に対して二乗和平方根法を使用することによって算出する。この第2の方法は、個々のバイマーカースコアの差を強調し、全体的な医師の最終診断において有用である。
【0106】
相関のクラスタリング法の非線形性が高いため、トポロジー不安定性がバイマーカー平面に依然として残り、完全に排除することができない。これらの不安定性の位置は、各バイマーカー平面全体にわたって擬似濃度の値を段階的に増分させる各格子点のコンピューター計算がんスコアの広範で厳密な評価によって、見出すことができる。これは、多数のコンピューター計算値、40,000個の格子点×10個のバイマーカー平面×バイオマーカー数(5種のバイオマーカーについて2,000,000個の計算値)を伴う。不安定な領域は、隣接格子点におけるがんスコアの大きな変動によって明らかになるであろう。これはまた、約5個以上の平面上で健常から疾患(例えば、がん)への近接移行の領域を探す、10個全てのバイマーカー平面の視覚的オーバーレイによって、それほど厳密でなく行うことができる。これらにより、視覚的に見つかった領域を次に、より少ない数のコンピューター検証計算によって検証できることが判明した。
【0107】
本発明の別の態様によれば、安定性試験およびノイズの導入を伴う技術を盲検データセットに適用できる。また、不一致訓練セットモデルを使用して、がんスコアを調整または補正することができる。本発明のこの態様では、ノイズの固定レベルを、各盲検患者データセットについて導入する(例えば、プラスまたはマイナス10%)。盲検試料セットが約100名の患者である場合には、実際の訓練セットモデルのコンピューターでの実行は、300個の試料についてそれぞれ3連とする(生データ±ノイズ)。得られた3連データセットを、安定性について試験する(aは-10%、bは+10%、c点は生データである)。表1は、臨床研究からのデータに関する安定性試験の結果を示す。3つの試料はがんスコアにおいて非常に高い不安定性を示すことに注目されたい。試料138、207、34および29は全て、非常に高いメリットの数字を示している。メリットの数字(低いほど良好)は、スコアシフトの程度と、特に、健康を予測するスコアを、がんを予測するスコアにシフトするか否かまたはその逆であるか否かの両方を包含するはずである。盲検試料からのこれらのデータセットは、予測診断においては不正確であるリスクが高い。
【0108】
不一致訓練モデルを使用して、メリットノイズ試験で不合格になる「リスクのある」患者の試料データセットを調整することができる。これらの点は、全てでないとしてもほとんどのバイマーカー平面の非常に急な勾配上に盲検にした試料データ点が位置するという事実によって引き起こされる極端なトポロジー不安定性と相まって、ランダムまたは規則正しい測定ノイズを避けられないため、リスクがあり、その結果、小さい乱れがスコアの大きい振幅をもたらす。表1は、ノイズが導入された試料を示す。各試料は3つの値、1)プラスノイズ、2)マイナスノイズおよび3)ノイズなしの生データを有する。これらの試料は、±10%のノイズの導入によって疾患から非疾患まで変化しかつその逆の変化をするがんスコアを示す。これらの試料データは、この場合、不安定と判断できる。不安定性レベルは、正確には規定できないが、種々のノイズ導入レベルについて調整を行うことができる。この場合、これらは、±10%のノイズおよび200より大きい安定性スコアで補正される(安定性スコアとがんスコアとは、異なる意味を有する2つの明らかに異なる数値であることに留意されたい)。
【0109】
測定ノイズは、この不一致第2アルゴリズムによって調整できる。調整に使用される不一致アルゴリズムは、点が正確である見込みを改善するので、主要アルゴリズムに比べて予測力がわずかに低いとしても、これらの「リスクのある」患者の試料を補正するのに使用できる。この場合、2つを補正した(
図9を参照のこと);試料138は、85の非疾患のスコアを有し、不一致アルゴリズムで195に補正され(この点は、アルゴリズムIによって安定であり、試料34は、102のスコアを有し(線形法)、この場合もアルゴリズムIIを用いて198に補正した。試料29および207は、不一致アルゴリズムによって変化しなかった。
【0110】
不一致訓練セットモデル(アルゴリズムII)は105個のバイマーカー平面を使用した。これらの同じ試料はアルゴリズムII安定性試験では安定であることを示すので、不一致訓練セットモデル(アルゴリズムII)は一次訓練セットモデル(アルゴリズムI)に対して不一致である。不一致訓練セットモデルの試験は、一次訓練セットモデルと全く同じ方法で行う。これらのスコアの算出にもロジスィック回帰法を使用できたことに留意されたい。アルゴリズムIIは高い予測力を有するので、これを使用した。調整用の訓練セットモデルは、その予測力が主要アルゴリズムよりも低くても(好ましくは予測力は50%以上ではあるが)、それが不安定性を伴わずに正確である可能性がある結果をもたらしさえすれば、使用できる。ノイズ試験に不合格であった問題の盲検にした試料については、補正が劇的であることに注目されたい。実際には、これらの試料は全て、高スコアを有するがんであった。これらの使用に関する10個のバイマーカー平面のうち8個は、非常に高い不安定性格子点を有するトポロジー上にあった。したがって、スコアはリスクがあり、実際のところ不正確であった(1つは不正確であり、1つは不確実であり、スコアは100/120であった)。この場合、1つの試料が補正されて、予測力が97%から98%に改善され、誤差は非常に著しく低減された(50%)。1つのサンプルは、不確実であるが、がんに変更され、これも補正された。
【0111】
一次疾患分析のアウトカム状態の1つと部分的に似ている独立した状態を排除することによる、病態相関二値アウトカムの予測力を改善するための方法:
クラスター分析は一般に、3つ以上の独立変数、多くの場合、患者の血清タンパク質濃度を使用する。相関アルゴリズムは、非疾患または疾患の二値アウトカムのみに作用し得るが、2つの二値状態である実際のアウトカムの確率により密接に関係する連続スコア化をもたらす。場合によっては、使用するバイオマーカーの集団分布内の病態と部分的に似ている、名目上は非疾患と分類される他の状態がある。これらの場合のいくつかは、この非疾患「MIMIC」状態は、相関分析の擬陽性のアウトカムを引き起こす可能性がある。この種の擬陽性の結果を解決するための解決法は、非疾患または疾患分析とは完全に別個のさらなる新しい相関分析を作成することである。この新しい相関分析は好ましくは、非疾患もしくは疾患相関に関して全く同じバイオマーカー測定データを使用し、または一部のまたは全ての異なるバイオマーカーを使用してもよい。この新しい相関分析は、「非疾患MIMIC」もしくは「疾患」の結果をもたらし、または少なくとも、患者の真実の状態について判断を行えるようにするスコアを作成する。非疾患または疾患分析に関する不確実なまたは接近した移行スコアは、非疾患MIMICまたは疾患相関における非常に低いまたは高いスコアと連動して、医療関係者が病態判断を改善しかつ擬陽性スコアを低減する助けとなり得る。
【0112】
非疾患状態が病態に似ているこの状況の一例は、悪性状態でない良性前立腺肥大症(BPH)である。この状態は一般に、前立腺がんの診断に使用される少なくとも1つのバイオマーカーが高レベルを示す。例えば、バイオマーカーである前立腺特異抗原は、BHPを有する男性で、また前立腺がんを有する男性でも上昇するであろう。表5は、このさらなる相関分析法が、BHPを有する単性と前立腺がんを有する男性を区別できること、同様に、同一のバイオマーカーを使用するが異なる訓練セットモデルを使用して、非病態にあると推定される男性と、病態にある、前立腺がんと確認されている男性とを区別できることを示している。ほんのわずかの男性では、非疾患対がん訓練セットモデルによって擬陽性が生じたが、これは、BHP対がん訓練セットモデルによっては区別されるであろう。これらの場合、1つが推定上の非疾患対がんであり、1つがBHP対がんである2つのスコアが、医師または他の医療関係者が次の診断工程を決める助けとなるであろう。例えば、両モデルの0~200の総スコア化(CS1またはCSqに関する)に関して、非前立腺がんまたは前立腺がんに関する110のスコアは、がん陽性であることに対しては弱いスコアを示すが、30の第2のスコアをBPHまたはがんと考えれば、BPHであるががんでない高い可能性が医療関係者に示されるであろう。医療関係者は、この追加された情報を他の医療情報および患者病歴と共に使用して、診断の次の工程を決めることになる。
【0113】
疾患を診断するための従来のプロテオミクス相関法の予測力を改善するためのいくつかの方法を本明細書中に記載した。これらは、1)相関にメタ変数および擬似濃度を使用すること、ならびに2)訓練セットモデルにおけるバイマーカー平面の影響を調整するためにトポロジー安定性についての専門知識およびアッセイ測定特性を使用することを含む。また、不一致訓練セットモデルを使用して、特定の訓練セットモデルに特有の盲検試料の安定性の問題を発見および補正するための方法も記載されている。加えて、所与の病態に関する訓練セットモデルと部分的に似ている非疾患状態を発見および補正するための方法も記載されている。これらの方法は全て、相補的であり、同時に使用することができる。例えば、不安定性の可能性が高い領域に関して訓練セットモデルを調整しても、盲検試料予測計算からこの問題を完全に取り除くことはできず、したがって、両方法を予測力の改善に使用できる。本発明者らは、これらの方法を組み合わせることによって、95%を上回る予測力を得ることができること、および実施例1において論じる乳がん研究では、98%超の予測力(感度100%、特異性97.5%)が得られたことがわかった。
【実施例1】
【0114】
臨床研究-乳がん血液検査の評価
OTraces BC Sera Dx検査キットおよびOTraces CDx免疫化学装置システム(www.otraces.com)の性能を乳がんの存在のリスクを評価する実験で評価した。検査キットは、5種の非常に低レベルのサイトカインおよび組織マーカーの濃度を測定し、乳がんのリスクを評価するためのスコア、すなわちCSlおよびCSqを計算するために上述の通り開発された訓練セットモデルを使用する。測定されたタンパク質は、IL-6、IL-8、VEGF、TNFα、およびPSAであった。実験は、生検で診断された50%の乳がん患者と推定上非疾患(すなわち、この場合は乳がんがない)とされる50%の患者とに大ざっぱに分けられる約300人分の患者試料の測定からなった。この群のうち、200個の試料の生検結果が、非疾患の50%と乳がん疾患を有する50%とに正確に分割され、各群が、さらに特定の年齢群に細分された。
【0115】
試料分析結果は、病態を予測する訓練セットモデルを開発するのに使用した。次いで、残りの試料(約110)を盲検にした試料として訓練セットモデルを通して処理し、結果であるがんリスク数値スコアを得た。これらのスコアは、ホストの診療センターに開示した。これらの盲検試料スコアは、診療センターによって引き続き分析され、結果の臨床精度が評価された。
【0116】
2つの診断モデルがこの実験用に開発され、それらは、上記に論じた通り、本明細書中、アルゴリズムI(または、訓練セットモデルI)およびアルゴリズムII(または、訓練セットモデルII)と呼ばれる。近傍クラスター分析法を両方のアルゴリズムに使用した。対象の年齢は、独立変数としてではなく、測定濃度を、本明細書中で擬似濃度と呼ばれる新たな独立変数に変換するメタ変数として使用した。この擬似濃度が、相関分析に直接使用された。アルゴリズムIとアルゴリズムIIの相違は、相関に使用される新たな独立変数の数である。アルゴリズムIは、10次元のクラスター空間で5つの擬似濃度変数を使用する。この空間は、二次元のバイマーカー平面を見るための、この多次元空間の投影またはそれを横切る切片を介してひとの眼で見ることができる。アルゴリズムIには、そのような平面が10ある。
【0117】
アルゴリズムIIは、さらに10倍多い数の独立変数を生成して使用するので、約100のバイマーカー平面がある。200個の試料は、訓練セットモデルに十分であり、一般集団の適度に近似したモデルをもたらすことが予測される。二次または不一致訓練セットモデルを同じ200個の試料の訓練データセットから開発した。この訓練セットモデルは、本明細書において結果を記載するのに使用する一次スコアリング法である。不一致訓練セットモデルは、一次訓練セットモデルによって計算された不安定であると考えられるがんスコア、すなわち、トポロジカル不安定性の領域にあるスコアを調整するのに使用される。不一致訓練セットモデルは、盲検試料については正確性が幾分劣るが、それでもなお一次訓練セットモデルを調整することができ、それ故、予測力を向上させる。
【0118】
以上のクラスタリング法の分析には、ロジスティック回帰分析と比較して、計算アウトカムを生成するのに使用される独立変数の高度に非線形的な傾向を収容できるという大きな利点がある。アウトカムは、疾患か非疾患か(この場合はがんか、がんでないか)のいずれかであり、これは、訓練セットモデル計算に対する擬似濃度に基づいている。この方法の欠点は、高度に非線形的な領域が、非常に急なトポロジー勾配に関連付けられうることである。したがって、未知(または盲検)試料が、コンピューターで計算された擬似濃度における小さな誤りを増幅する作用がある急なピークまたは深い急な谷にある可能性がある。本発明者らは、所有権のある安定性試験で計算されたスコアの安定性を評価し、次いでアルゴリズムIIが試料について安定性を示した場合にアルゴリズムIIを使用してアルゴリズムIを調整した。
【0119】
図10、11、および12は、アルゴリズムI訓練セットの結果を示す。モデル自体は、それぞれが非疾患および疾患(ここでは、乳がん)についてクラスタリング法によってスコアリングされた40000のトポロジー点の10のバイマーカー平面からなる。モデルが非がんおよびがんの2セットを分離する能力をこれらの図に示す。モデルは、2つのアウトカム状態が50%対50%に非常に近くなる、好ましくは正確に50%対50%になるものから構築されなければならない。また、この方法は、変換メタ変数として年齢を使用する。訓練セット試料は、目的の年齢群全体にわたって分布する試料を有した。アルゴリズム1のモデル(
図10)は、100人の健常女性および98人の乳がん女性から構築された。
【0120】
図10の要約表は、数値結果を示す。ここで、試料数はN=198である。CIは、正しく予測された試料であり、FIは間違って予測された試料であり、4つの試料が不確実とされた。
【0121】
一次訓練セットモデルを使用した結果生じた4つの不確実な試料を識別するために二次訓練セットモデルを開発した。このモデルは、不一致訓練セットモデルである。この二次モデルは、一次モデルと同じ訓練セットデータを使用する。
【0122】
図11は、不一致訓練セットモデル計算の結果を示す。アルゴリズムIIは、60の点を超える分離で100%分離を示す。
【0123】
乳がん研究における盲検試料の検査結果:
図12は、臨床研究で評価された盲検試料の結果を示す。結果は、100%の感度および97.5%の特異度を示す。乳がん陽性試料がすべて正しく同定されるように、臨床研究センターの腫瘍専門医が診断移行値を設定した。したがって、2つの非疾患試料が、がん陽性と予測された。陽性と判定された試料はすべて次の診断ステップ、乳房画像検査を受けるので、これは医学的に妥当である。多くの女性は、そのための医療機器を有する施設の十分近くに住んでいないので、乳房画像検査を受けない。しかし、臨床検査室から離れたところでも、それらの女性から採血して、大都市の検査所に氷上で送ることができる。
【実施例2】
【0124】
診断精度を改善するメタ変数「年齢」の使用。
表2は、868人の対象試料からなる乳がん臨床研究の結果の表を示す。表3は、相関計算のための様々な方法の比較を示す。標準の方法(ロジスティック回帰分析)は、82%の予測力しか示さなかった。標準的な近傍クラスター分析は、これを改善し、88%の予測力をもたらした。メタ変数および重み付けのアプローチ、トポロジー安定性の条件付け、免疫系応答によるグループ化、ならびにアッセイ性能のための重み付けの条件付けを使用する-盲検試料の不安定性試験および不一致アルゴリズム補正と組み合わせた-本明細書に記載の方法は、97%超の予測力をもたらした。
【実施例3】
【0125】
卵巣がん研究における診断精度を改善するためのメタ変数「年齢」の使用
表4は、卵巣がんを有する、または卵巣がんを有しない107人の女性の、本明細書に記載のメタ変数法を使用した研究の結果を示す。この研究は、本明細書に記載の予測力改善のすべてを使用したわけではないが、それでもなお95%という比較的優れた予測力を実現した。
【実施例4】
【0126】
前立腺がんにおける診断精度を改善するためのメタ変数「年齢」の使用。
表5は、前立腺がんまたは良性前立腺肥大(BPH)を有する259人の男性の、本明細書に記載のメタ変数法を使用する研究の結果を示す。この研究も、本明細書に記載の予測力改善のすべてを使用したわけではないが、それでもなお94%という比較的優れた予測力を実現した。BPHは、前立腺がんについての現在のPSA検査における偽陽性結果を引き起こす抜群に最もよくある状態であることに留意されたい。前立腺がんの従来の診断において、BPHを有する男性は、5人の陽性のうち約4人であり、そのため、前立腺がん生検のほとんどは陰性となっている。メタ変数法は、上記に論じたこれらの不正確な診断を補正することができる。
【0127】
実施例3および4(それぞれ卵巣がんおよび前立腺がんに関する)における以上の結果は、メタ変数も、影響調整法(LOD、亜集団グループ化および不安定性)も、盲検試料安定性法も使用しなかった。それらは、このデータが測定されたときにはまだ発明者らによって発見されていなかったからである。
【0128】
II.好ましい分析物カテゴリーおよび従来の検出限界下で測定される分析物を使用する診断方法
本発明は、ある特定の免疫系タンパク質が、商業診断検査で現在利用されている測定濃度よりかなり低い測定濃度で、所与の疾患のリスクの診断を可能にするという発見にも基づいている。これらには、サイトカインが含まれ、サイトカインは、完全にではないが、主にシグナル伝達タンパク質としてのその機能が、免疫系炎症マーカー、腫瘍抗発生、細胞アポトーシス、および腫瘍血管形成マーカー、ならびに既知の腫瘍組織マーカーといういくつかの特定の群に属する。
【0129】
本発明者らは、いくつかの超低含量タンパク質LAPを選択し、相関分析を行うため、およびイムノアッセイ分析法から濃度を決定するための非伝統的な方法を使用することで、予測力が大きく改善されることを示した。シグナル伝達タンパク質(すなわち、シグナル伝達ネットワークにおけるいくつかのタイプの機能のうちの1つまたは複数の働きをするタンパク質)と呼ばれるこれらの低レベルタンパク質は、腫瘍の存在に対する直接的な免疫系応答から作用しているか、または腫瘍が進行するのに必要とする必要とされる生理反応を提供するように生物に指示する腫瘍による作用である。さらに、いくつかのLAP(好ましくは6種以下)を選択することによって、試料抽出および訓練セットのサイズ決定に関する難題が解決される。これらのタンパク質が、伝統的に規定されている検出限界以下であるという事実は、これまで、それらの有用性の研究を妨げていた。
【0130】
本発明は、従来決定されている検出レベルより低い濃度値が、疾患の相関リスク評価における重要な情報を提供するという驚くべき発見に基づいている。そのような情報は、それらが不正確であるため、伝統的には臨床診断に使用されていなかった。しかし、本発明者らは、試験実行におけるLOD較正点からシグナルの最低値まで直線をカーブフィッティングさせ、それらの値を利用することが有効であることを見出した。そうすることによって、集団分布分析のための平滑なガウス分布が得られ、驚いたことに、正確ながんスコア予測も得られる。この診断方法では、このマーカーの大規模な集団評価で通常に見られるものより低い場合には、いかなるLOD未満の読み取り値も報告するべきでない。例えば、シグナルレベル(または測定濃度)がLOD未満である場合、本明細書に記載の技法の使用は、正常血清で見出される最低レベルまで適切である。したがって、IL-6のLODが約250fg/mlであるが、10fg/mlという低いレベルの血清中の値も報告されている場合、このレベルが、本発明によるアッセイで使用される最低値となるべきである。また、値は、ゼロであることも、負であることもない。このアプローチは、様々な従来の標準曲線作成ストラテジーで機能している。
【0131】
本発明者らは、驚いたことに、その機能が、免疫系炎症、腫瘍抗発生、細胞アポトーシス、および腫瘍血管形成マーカー、ならびに既知の腫瘍組織マーカーといういくつかの特定の群に属する免疫系タンパク質である、サイトカインを使用して、相関モデルの偽陰性成績が95%より良く、偽陽性成績も95%より良いような予測力を実現することができることを見出した。これらのタンパク質は、一部のマーカーについては1pg/mlよりはるかに低いレベルで、有用な濃度情報を引き出す方法を必要とする。例えば、組織マーカーについてPSA、炎症応答についてIL-6、炎症および血管形成についてIL-8、血管形成についてVEGF、抗腫瘍発生についてTNFαを使用する、乳がんのための特定のプロテオミクス検査パネルに関しては、98%を超える予測力がもたらされている。これらのマーカーのいくつかは、1pg/ml未満(50fg/ml未満までの)の有意な集団分布を有する。このため、研究者は、臨床診断方法にこれらのタンパク質を使用することについて探究していなかった。
【0132】
本発明は、例えば、免疫系炎症(IL-6,IL-8)、血管形成(IL-8,VEGF)、抗腫瘍発生(TNFα)タンパク質、および組織マーカー(PSA)を使用して乳がんを予測する診断検査を含むことが企図されている。PSAの代わりの組織マーカーCA19.9;またはIL-6の代わりの、もしくはこれに加えるIL-1など、これらのカテゴリーに属する他のマーカーも使用できる。前立腺がんには、免疫系炎症マーカー(IL-6,IL-18)、血管形成マーカー(IL-8,VEGF)、抗腫瘍発生(TNFα)タンパク質、および組織マーカー(PSA)を含む予測アッセイが利用されることが企図されている。これらのカテゴリーに属する他のマーカー(例えばIL-6の代わりの、もしくはこれに加えるIL-1)も使用できる。企図されている卵巣がん状態予測は、免疫系炎症マーカー(IL-6、IL-18)、血管形成(IL-8、VEGF)、抗腫瘍発生(IL-12)タンパク質、および組織マーカー(CA125)を使用して行われる。これらのカテゴリーに属する他のマーカー(例えば、TNFαの代わりのIL-12)も使用できる。
【0133】
本発明者らは、相関分析は、集団の100%が実用的に正確な測定を有することが必要であり、そうでなければ予測力が損なわれることも見出した。実用的に正確であるとは、これらの測定値の精度が、現在臨床検査室で使用されている臨床診断法に期待される測定値と同等でなければならないことを意味するものではない。臨床検査室では、多数の濃度が診断に必要である場合、アッセイ較正曲線の点が分析感度より高くなければならない。これは、結果における99.7%の確実性が実際の値の3×標準偏差以内であることを意味する。
【0134】
いかなる試料も、あるマーカーについての値が不確定または0であると、この試料を完全に不正確であるとする相関計算がアンカーされなくなる。いくつかのLAPシグナル伝達タンパク質と非常に低レベルの濃度測定抽出法の組合せによって、結果が大きく改善される。従来のアッセイ検出限界未満の非常に低いレベルでも、単に、LODからシグナルが最低の試料までの直線を使用し、血清中に見出される最低生理レベルを、多くの試料の試験実行におけるこの点の濃度として使用することによって、許容できる精度が得られる。LODと最低読み取り値との間の試料点は、この直線上にあると推定される。他の標準曲線フィッティング法を使用することもできる。これらの改善は、十分に大きく、これによって、測定パネルががんのスクリーニングに有用となる(98%以上の予測力をもたらす)。
【0135】
本発明者らは、その機能が、免疫系炎症、腫瘍抗発生、細胞アポトーシス、および腫瘍血管形成マーカー、ならびに既知の腫瘍組織マーカーといういくつかの特定の群に属する免疫系タンパク質であるサイトカインを使用して、相関モデルの偽陰性成績が95%より良く、偽陽性成績も95%より良いような予測力を実現することができることを見出した。これらのタンパク質は、一部のマーカーについては1pg/mlよりはるかに低いレベルで、有用な濃度情報を引き出す方法を必要とする。
【0136】
例えば、組織マーカーについてPSA、炎症応答についてIL-6,炎症および血管形成についてIL-8,血管形成についてVEGF、抗腫瘍発生についてTNFαを使用する、乳がんのための特定のプロテオミクス検査パネルに関しては、95%を超える予測力がもたらされている。これらのマーカーのすべては、1pg/ml未満(100fg/ml未満までの)の有意な集団分布を有する。相関分析は、集団の非常に高い割合(100%)が実用的に正確な測定を有することが必要であり、そうでなければ相関が失われる。いかなる試料も、あるマーカーについての値が不確定または0であると、この試料を完全に不正確としうる相関計算がアンカーされなくなる。いくつかのLAPシグナル伝達タンパク質と非常に低レベルの濃度測定抽出法の組合せによって、結果が大きく改善される。これは、測定パネルががんのスクリーニングに有用でありうるのに十分に大きい。
【0137】
図13は、TNFαの典型的なELISA較正曲線を示す。この場合、検出限界(LOD)は約1.0pg/mlである。これは、現在の急速スクリーニング測定技術で実現可能な、ほぼ最良のものである。集団のかなり割合がLOD未満であることに留意されたい。驚いたことに、これらのデータ点は非常に有用であり、実際、高い予測力の相関を実現するのに必要である。
【0138】
臨床検査室では、検出限界を、ゼロ較正物質より2×標準偏差高い値と定義し、標準偏差は、通常、20個のゼロ標準物質を使用して計算するのが慣例である。このレベル未満の測定結果は、通常、報告されないか、報告されるとしても、LOD未満として分類される。臨床診断目的に単一分析物アッセイを使用する場合、そのアッセイは、適切に診断情報を医療関係者に提供するために、LODより上の正確な自立型の数値を有しなければならず、また、従来の方法が必要である。
【0139】
本明細書に記載の通り、低レベルのシグナル伝達タンパク質を使用する診断アッセイの場合、非疾患状態対疾患状態の確率を高い信頼性でスコアリングする目的の測定では、これらのLOD未満の測定値を使用する。
図14は、
図13からデータを示すが、計算上のがんスコア誤差を5%未満に保つ上で許容可能な誤差の量を示すエラーバーを伴っている。LOD以下の極端に低レベルの検出では、比較的に誤差の量が許容される。非常に高い濃度でも同じことが当てはまる。
【0140】
診断アッセイの較正曲線にとって非常に重要な領域は、診断予測スコアが、明らかに非疾患の状態を示すスコアから明らかに疾患の状態を示すスコアまでの範囲内にあるところである。また、LOD未満のデータが排除されるか、0として報告される場合、その患者のスコアリングは、単純に極端な誤差をもたらす可能性があり、低スコアの健常が高スコアのがんとされる可能性があることに留意されたい。これは、アルゴリズムが、5種のマーカーすべてを、極端の値では、何らかの一般的なレベルで「アンカーする」ことができ、移行部では正確でなければならないからである。1つのマーカーがアンカーされない場合、計算結果は、残りの4種のみに基づく。この4種が高い結果ではがんを示さず、5種すべてが必要であり、がんの指示およびスコアの正確な生成には5種すべてが高くなければならない状態が十分に存在しうる。個々のマーカーはそれぞれ、個々のがんスコアに限定された影響を有し、この影響は、マーカーの真の影響および較正曲線におけるその位置に基づいて生じるレベルのノイズによって重み付けされる。
【0141】
例えば、パネルにPSAを含む、本明細書で論じる乳がん検査パネルは、大きな訓練セット(200個の試料)の総合分析について、総合的な訓練セットモデル予測力において3~4%の改善しか示さない。しかし、それを1つの盲検試料から排除すると、訓練セットモデルから、この試料が健常またはがんから他にシフトするのに十分なほど(例えば、0~200のスケールで50スコアから180に)、スコアリングを逸脱させてしまう。これらの盲検試料はまれである可能性がある。100のうち1つのみが1%の予測力で低下を生み出す。これらの方法で、本発明者らは、98%の予測力を実現した。したがって、1%の低下は非常に重要である。PSAの盲検試料データ点は、例えば、10fg/ml程度の非常に低いレベルで推定された場合、20倍離れていても、がんスコアの有意な誤差を生じないことがある。一方、PSAが省かれるか、またはゼロとされた場合、がんスコアは、低PSAレベルによって「アンカーされていない」状態になり、含まれていない場合、がんスコアが完全に不正確になるほどシフトしうる。
【0142】
これらの低測定値レベルには不確実性が関与していることを理解することが重要である。2連で行った測定試料では、名目測定点から1.5×標準偏差における信頼水準が95%である。名目測定点から0.75×標準偏差では、信用水準が67%である。このレベルの精度は、これらの方法における非常に低いレベルでは十二分に適切であり、数値を全く有さないと、この方法を有用にすることができない。
【0143】
本発明による、相関評価のための測定点の値を評価するための方法は、以下のことを必要としている。
1)伝統的な較正曲線は、開発中に評価されるアッセイのLODから、集団のダイナミックレンジを通して、典型的なイムノアッセイ法、例えばELISAを使用して可能な限り高くまで延長するべきである。
2)LOD未満では、すべての点が大きなノイズを有するものとみなし、したがって、実際の測定点は、最低較正物質未満でありうる。これらの場合、報告される結果は、以下の通りでなければならない。
a.ゼロより上。負の濃度は不可能であり、相関アルゴリズムによるゼロ値は、数値無しと同じ程度に結果の精度に悪影響を与える。
b.決定されていないすべての患者試料点濃度に割り当てられた値を単純に有するのではなく、サブグループ訓練セットモデルの構築に必要である集団分布をどれが歪めるであろうかが決定される。
c.このマーカーの大規模集団評価で通常に見られるものより低い値は報告されない。
【0144】
本発明者らは、驚いたことに、試験実行におけるLOD較正点から最低シグナル値まで、単純に直線のカーブフィッティングを使用することが適切であることを見出した。これにより、集団分布分析のための平滑なガウス分布および正確ながんスコア計算がもたらされる。上記規則が守られていれば、このアプローチを使用して、任意の数の異なった標準曲線生成ストラテジーが機能するだろう。
【0145】
慣例のLOD未満の分析物濃度も利用するために開示された技法は、例えば患者試料におけるマーカーの測定濃度を利用するいかなるアッセイにも使用できることが企図されている。好ましい実施形態には、前立腺がん、肺がん、乳がん、および卵巣がんを含めた固形腫瘍などの様々な疾患の診断アッセイが含まれる。これらの技法は、任意選択で、しかし好ましくは、本明細書中の他の箇所に記載されている他のデータ分析および診断技法を組み合わせることができる。
【0146】
また、当業者は、バイマーカー平面トポロジーの不安定性など、利用する相関法または本明細書中の他の箇所に記載されている訓練セットサイズが不十分であることによって、引き起こされる分析誤差は、完全に異なった現象によって引き起こされ、軽減には、完全に異なった方法を必要とすることを理解するであろう。例えば、開示されているある特定の誤差および補正方法は、検査試料点が相関バイマーカートポロジー上にある極端に非線形的な(または非常に急な)勾配に適切である。そして、そのような誤差は、不一致訓練セットモデルで人工ノイズおよび調整を注入することで見出されうる。ここでいうノイズは、実験誤差から生じる、アッセイ測定に固有のものであるが、結果として生じるがんスコアへのこのノイズの影響を理解することが非常に重要である。
【0147】
III.コンピューターシステムを介したインプリメンテーション
本明細書に記載の様々な技法のインプリメンテーションは、デジタル電子回路またはコンピューターハードウェア、ファームウェア、ソフトウェア、もしくはこれらの組合せで実装することができる。インプリメンテーションは、コンピュータープログラム製品、例えば、データ処理装置によって実行するため、またはデータ処理装置、例えば、プログラム可能なプロセッサー、コンピューター、または複数のコンピューターの動作を制御するための情報担体、例えば、機械読み取り可能な記憶装置または伝播シグナルに明確に組み入れられたコンピュータープログラムとして実装できる。上述のコンピュータープログラムなど、コンピュータープログラムは、コンパイルまたは解釈された言語を含めた、いかなる形態のプログラミング言語で書かれたものでもよく、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境で使用するのに適した他のユニットを含めた、いかなる形態で配置してもよい。コンピュータープログラムは、1台のコンピューターもしくは1サイトにおける複数台のコンピューターで実行されるように、または複数サイトにわたって分配され、通信ネットワークによって相互接続されるように配置することができる。
【0148】
方法ステップは、入力データを操作して、出力を作成することによって機能を果たすコンピュータープログラムを実行する1つまたは複数のプログラム可能なプロセッサーによって行われてもよい。方法ステップは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって行われてもよく、装置は、FPGAまたはASICとして実装してもよい。
【0149】
コンピュータープログラムの実行に適したプロセッサーには、例えば、一般目的および特定目的両方のマイクロプロセッサーならびに任意の種類のデジタルコンピューターの任意の1つまたは複数プロセッサーが含まれる。一般に、プロセッサーは、リードオンリーメモリ、ランダムアクセスメモリー、または両方から指示およびデータを受け取ることになる。コンピューターの要素は指示を実行するための少なくとも1つのプロセッサーならびに指示およびデータを保存するための1つまたは複数の記憶装置を含むことができる。一般に、コンピューターは、データを保存するための1つもしくは複数の大容量記憶装置、例えば、磁気、光磁気ディスク、もしくは光ディスクを含むか、またはこれと、データを受け取る、データを移送する、もしくは両方のために動作可能に結合することができる。コンピュータープログラムの指示およびデータを組み入れるのに適した情報担体には、例えば、半導体記憶装置、例えば、EPROM、EEPROM、およびフラッシュ記憶装置;磁気ディスク、例えば、内部ハードディスクまたは取外し可能ディスク;光磁気ディスク;ならびにCD-ROMおよびDVD ROMディスクを含めたすべての形態の非揮発性メモリーが含まれる。プロセッサーおよびメモリーは、専用論理回路によって補完するか、または専用論理回路に組み込むことができる。
【0150】
ユーザーとの相互作用を提供するために、インプリメンテーションは、ユーザーに情報を提示するためのディスプレイ装置、例えば、ブラウン管(CRT)または液晶ディスプレイ(LCD)モニターと、それによってユーザーがコンピューターに入力することができるキーボードおよび位置指示装置、例えば、マウスまたはトラックボールとを有するコンピューターに実装することができる。他の種類のデバイスも、ユーザーとの相互作用を提供するのに使用することができる。例えば、ユーザーに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックでよく、ユーザーからの入力は、音響、音声、または触覚入力を含めた、いかなる形態でも受け取ることができる。
【0151】
インプリメンテーションは、例えばデータサーバーとして、バックエンドコンポーネントを含むコンピューティングシステム、またはミドルウェアコンポーネント、例えばアプリケーションサーバーを含むもの、またはそれを介してユーザーがインプリメンテーションと相互作用することができるフロントエンドコンポーネント、例えば、グラフィカルユーザーインターフェースもしくはウェブブラウザを有するクライアントコンピューターを含むもの、またはそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せに実装することができる。コンポーネントは、デジタルデータコミュニケーションの任意の形態または媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)および広域ネットワーク(WAN)、例えばインターネットが含まれる。
【0152】
本明細書に記載の本発明は、一般に、疾患状態を予測するためのプロテオミクスおよびメタボロミック相関法の診断精度または予測力を改善する方法に関する。ある特定の例示的実施形態について上記に上述し、添付図面に示したが、そのような実施形態は、例示でしかなく、広範な発明を制限するものではないと理解されたい。特に、本発明の教示は、様々な疾患に適用されると認識するべきである。また、本発明の好ましい実施形態は、疾患診断が望まれている対象(または患者)におけるヒト疾患の診断に関するが、本明細書に開示された方法およびシステムは、非ヒト種、とりわけ霊長類および他の哺乳動物の診断目的に有用であり、そのようなものも本発明の一部であることが企図されている。
【0153】
記載のインプリメンテーションのある特定の特徴を、本明細書に記載の通りに例示したが、当業者には多くの変形形態、置換形態、改変形態、および等価形態が想起されるであろう。したがって、本発明は、開示された特定の実施形態または構成に限定されず、添付の特許請求の範囲によって定義されている本発明の趣旨および範囲に包含されるいかなる改変形態、適合形態、または変形形態も包含されるものであることが理解されよう。
【0154】
参考文献:
以下のものを含めた、本明細書で言及された雑誌論文および他のすべての刊行物、特許、および教科書のすべてを参照により全体として本明細書に組み込む。
(1) Drukier, et al., “High-Sensitivity Blood-Based Detection of Breast Cancer by Multi Photon Detection Diagnostic Proteomics,” Journal of Proteome Research 2006, 5:1908,1915.
(2) Lokshin et al., “Multimarker assay for early diagnosis of ovarian cancer,” American Association for Cancer Research, Amer Assoc Cancer Res 2006, 47:653. CME: Disclosure.
(3) Drukier, et al., Ultra-Sensitive Immunoassays Using Multi Photon Detection in Diagnostic Proteomics of Blood,” Journal of Proteome Research 2005, 4:2375-2378.
(4) Drukier, “Supersensitive Immunoassays,” U.S. Patent No. 7,604,956 (2009).