(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-09-24
(45)【発行日】2025-10-02
(54)【発明の名称】検体レベルの適応正規化のための方法、装置、及びコンピュータ読み取り可能な媒体
(51)【国際特許分類】
G01N 33/68 20060101AFI20250925BHJP
G06F 17/18 20060101ALI20250925BHJP
【FI】
G01N33/68
G06F17/18 Z
(21)【出願番号】P 2022506418
(86)(22)【出願日】2020-07-24
(86)【国際出願番号】 US2020043614
(87)【国際公開番号】W WO2021021678
(87)【国際公開日】2021-02-04
【審査請求日】2023-07-21
(32)【優先日】2019-07-31
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】510016254
【氏名又は名称】ソマロジック・オペレイティング・カンパニー・インコーポレイテッド
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】タバックマン,エデュアルド,ダニエル
(72)【発明者】
【氏名】ズィッチ,ドミニク,アンソニー
(72)【発明者】
【氏名】ウェスタコット,マシュー,ジョエル
(72)【発明者】
【氏名】ペリー,ダリル,ジョン
【審査官】小澤 理
(56)【参考文献】
【文献】国際公開第2017/083310(WO,A1)
【文献】国際公開第2019/113024(WO,A1)
【文献】特表2018-512071(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 33/48 - 33/98
G06F 17/18
(57)【特許請求の範囲】
【請求項1】
1つ以上のサンプル中の検体レベルの適応正規化のために1つ以上のコンピューティングデバイスによって実行される方法であって、
1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、1つ以上のサンプル中で検出された1つ以上の検体に対応する1つ以上の検体レベルを受信し、各検体レベルは、前記1つ以上のサンプル中の前記検体の検出された量に対応するステップと、
複数回の反復に亘って1つ以上の検体レベルを正規化し、正規化は、各反復について、前記1つ以上の検体レベル中の任意の外れ値検体レベルを識別し、前記1つ以上の検体レベル中の少なくとも1つの非外れ値検体レベルの少なくとも一部に基づ
くとともに外れ値検体レベルに基づかずに前記反復におけるスケールファクタを計算し、前記1つ以上の検体レベル
すべてに
前記反復におけるスケールファクタを適用することによって行われるステップと
を備え、
前記1つ以上の検体レベルにおける外れ値検体レベルは、各検体レベルと、参照データセットにおけるその検体の対応する参照分布との間の外れ値分析に少なくとも部分的に基づいて識別される方法。
【請求項2】
前記外れ値分析は、距離ベースの外れ値分析を含む、請求項1に記載の方法。
【請求項3】
前記外れ値分析は、密度ベースの外れ値分析を含む、請求項1に記載の方法。
【請求項4】
前記複数回の反復に亘って1つ以上の検体レベルを正規化することは、連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は1つ以上の反復の量が最大反復値を超えるまで、追加の反復を実行することを含む、請求項1~3のいずれか1項に記載の方法。
【請求項5】
1つ以上のサンプル中の検体レベルの適応正規化のためのコンピュータ実行方法であって、その方法は、
1つ以上のサンプル中で検出された1つ以上の検体に対応する1つ以上の検体レベルを受け取り、各検体レベルは、前記1つ以上のサンプル中の前記検体の検出された量に対応するステップと、
連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は1つ以上の反復の量が最大反復値を超えるまで、複数回の反復に亘ってスケールファクタを前記1つ以上の検体レベルに反復的に適用することを反復するステップと
を含み、
前記複数回の反復における各反復は、
前記1つ以上の検体レベルにおける各検体レベルと、参照データセットにおける前記検体の対応する参照分布との間の距離を決定するステップと、
対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づ
くとともに、対応する参照分布の前記所定の距離外にある検体レベルに基づかずに、現在の反復におけるスケールファクタを決定するステップと、
前記現在の反復における前記スケールファクタを
前記1つ以上の検体レベルのすべてに対して適用することによって1つ以上の検体レベルを正規化するステップと
を含む、コンピュータ実行方法。
【請求項6】
前記1つ以上の検体レベルにおける各検体レベルと、前記参照データセットにおける前記検体の対応する参照分布との間の前記距離を決定することは、各検体レベルと、前記参照データセット内の前記検体の対応する参照分布との間のマハラノビス距離の絶対値を決定するステップを含む、請求項5に記載の方法。
【請求項7】
前記1つ以上の検体レベルにおける各検体レベルと、前記参照データセットにおける前記検体の対応する参照分布との間の前記距離を決定することは、各検体レベルと、前記参照データセット内の前記検体の対応する参照分布の平均又は中央値との間の標準偏差の量を決定することを含む、請求項5に記載の方法。
【請求項8】
前記所定の距離は、0.5~6の範囲の値を含む、請求項5~7のいずれか1項に記載の方法。
【請求項9】
前記所定の距離は、1~4の範囲の値を含む、請求項5~8のいずれか1項に記載の方法。
【請求項10】
前記所定の距離は、1.5~3.5の範囲の値を含む、請求項5~9のいずれか1項に記載の方法。
【請求項11】
前記所定の距離は、1.5~2.5の範囲の値を含む、請求項5~10のいずれか1項に記載の方法。
【請求項12】
前記所定の距離は、2.0~2.5の範囲の値を含む、請求項5~11のいずれか1項に記載の方法。
【請求項13】
前記現在の反復における前記スケールファクタを決定するステップは、
対応する参照分布から所定の距離内にある各検体レベルの検体スケールファクタを決定するステップであって、前記検体スケールファクタは、前記検体レベルと、対応する参照分布の平均値又は中央値とに少なくとも部分的に基づいて決定されるステップと、
それら対応する参照分布から所定の距離内にある検体レベルに対応する検体スケールファクタの平均又は中央値のいずれかを計算することによって
前記現在の反復における前記スケールファクタを決定するステップと
を含む、請求項5~12のいずれか1項に記載の方法。
【請求項14】
前記現在の反復における前記スケールファクタを決定するステップは
、対応する参照分布から所定の距離内にある検体レベルが、対応する参照分布の一部である確率を最大にするスケールファクタの値を決定することを含む、請求項5~12のいずれか1項に記載の方法。
【請求項15】
各検体レベルが対応する参照分布の一部である確率が、前記スケールファクタ、前記検体レベル、前記対応する参照分布の標準偏差、及び前記対応する参照分布の中央値に少なくとも部分的に基づいて決定される、請求項14に記載の方法。
【請求項16】
前記連続する反復の間の前記スケールファクタの変化は、パーセンテージ変化として測定され、前記所定の変化閾値は、0パーセントと40パーセントとの間の値を含む、請求項4~15のいずれか1項に記載の方法。
【請求項17】
前記所定の変化閾値は、0%と20%との間の値を含む、請求項16記載の方法。
【請求項18】
前記所定の変化閾値は、0%と10%との間の値を含む、請求項16~17のいずれか1項に記載の方法。
【請求項19】
前記所定の変化閾値は、0%と5%との間の値を含む、請求項16~18のいずれか1項に記載の方法。
【請求項20】
前記所定の変化閾値は、0%と2%との間の値を含む、請求項16~19のいずれか1項に記載の方法。
【請求項21】
前記所定の変化閾値は、0パーセントと1パーセントとの間の値を含む、請求項16~20のいずれか1項に記載の方法。
【請求項22】
前記所定の変化閾値は、0パーセントを含む、請求項16~21のいずれか1項に記載の方法。
【請求項23】
前記最大反復値は、10回の反復、20回の反復、30回の反復、40回の反復、50回の反復、100回の反復、又は200回の反復のうちの1つを含む、請求項4~22のいずれか1項に記載の方法。
【請求項24】
前記スケールファクタは、各検体レベルにそれぞれ対応する1つ以上の検体スケールファクタに基づいて決定され、各検体スケールファクタは、対応する検体レベルと、その検体に対応する参照分布の平均値または中央値とに少なくとも部分的に基づいて決定される、請求項1~4のいずれか1項に記載の方法。
【請求項25】
非外れ値検体レベルがそれらの対応する参照分布の一部である確率を最大化することによって前記スケールファクタが計算される、請求項1~4のいずれか1項に記載の方法。
【請求項26】
前記1つ以上のサンプルが生物学的サンプルを含む、請求項1~25のいずれか1項に記載の方法。
【請求項27】
前記生物学的サンプルが、血液サンプル、血漿サンプル、血清サンプル、脳脊髄液サンプル、細胞溶解物サンプル、又は尿サンプルのうちの1つ以上を含む、請求項26に記載の方法。
【請求項28】
前記1つ以上のサンプル中で検出された前記1つ以上の検体に対応する前記1つ以上の検体レベルが、前記1つ以上のサンプル中で検出された複数の検体に対応する複数の検体レベルを含む、請求項1~27のいずれか1項に記載の方法。
【請求項29】
1つ以上の検体が、蛋白質検体、ペプチド検体、糖検体、又は脂質検体のうちの1つ以上を含む、請求項1~28のいずれか1項に記載の方法。
【請求項30】
各検体レベルが、前記検体の結合パートナーを1つ以上のサンプルに適用することに基づいて決定され、
前記結合パートナーの検体への結合は、測定可能な信号を生じさせ、
前記測定可能な信号は、前記検体レベルを生じさせる、請求項1~29のいずれか1項に記載の方法。
【請求項31】
前記結合パートナーが抗体又はアプタマーである、請求項30に記載の方法。
【請求項32】
各検体レベルが、1つ以上のサンプルの質量分析に基づいて決定される、請求項1~31のいずれか1項に記載の方法。
【請求項33】
前記1つ以上のサンプルが複数のサンプルを含み、前記1つ以上の検体に対応する1つ以上の検体レベルが、各検体に対応する複数の検体レベルを含み、
前記1つ以上の検体レベル内の各検体レベルと、前記参照データセット内の前記検体の対応する参照分布との間の前記距離を決定するステップが、
Student's T検定、コルモゴロフ‐スミノフ検定、又は各検体に対応する複数の検体レベルと、参照データセット中の各検体の対応する参照分布との間のCohenのD統計量を決定することを含む、請求項
5記載の方法。
【請求項34】
1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、請求項1~33のいずれか1つによる方法を実行させるコンピュータプログラム。
【請求項35】
請求項1~33のいずれか1項に記載の方法を実行するように構成された装置。
【発明の詳細な説明】
【背景技術】
【0001】
本出願は、2019年7月31日に出願された米国仮出願番号62/880,791に対する優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
分析前にデータセットから特定のアッセイアーチファクトを除去するための中央値正規化が開発された。このような正規化は、(例えば、水和状態に起因する)全体的な蛋白質濃度におけるサンプル間の差異、ピペッティングエラー、試薬濃度の変化、アッセイタイミング、及び単一のアッセイラン内の系統的な変動性の他の原因に起因し得るサンプル又はアッセイバイアスを除去し得る。さらに、プロテオミクスアッセイ(例えば、アプタマーベースのプロテオミクスアッセイ)は、相関ノイズを生成し得、そして正規化プロセスは、これらの人為的相関を大幅に軽減することが観察されている。
【0003】
中央値正規化は、真の生物学的マーカー(基礎となる生理学に関係する)は比較的まれであるため、高度に多重化されたプロテオミクスアッセイにおけるほとんどの蛋白質測定は、対象となる集団において変化しないという概念に依存している。したがって、サンプル内及び目的の集団にわたる蛋白質測定の大部分は、明確な中心及びスケールを有するその検体(analyte)についての共通の集団分布からサンプリングされると考えることができる。これらの仮定が当てはまらない場合、中央値正規化は、データにアーチファクトを導入し、真の生物学的信号を弱め、そしてサンプルセット内で差次的に発現されない検体における系統的差異を導入し得る。
【0004】
多数の検体が、回転するサンプル、又はバルク流体から分離する前に細胞を溶解させることによって影響を受ける可能性があるため、サンプル収集及び処理に関連するある種の分析前変数が、中央値正規化の仮定に違反することが観察されている。さらに、慢性腎臓病患者の蛋白測定では、何百もの蛋白質レベルがこの状態に影響を受け、腎臓が適切に機能している人と比較して、これらの人の循環蛋白濃度が上昇することが示されている。したがって、アッセイバイアスを適切に除去し、アッセイノイズを無相関化しながら、サンプル収集アーチファクト又は過剰な数の疾患関連プロテオミクス変化に起因するデータ中のアーチファクトの導入を防ぐためのシステムにおける改善が必要とされている。
【図面の簡単な説明】
【0005】
【
図1】例示的な実施形態による、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定するためのフローチャートを示す。
【
図2】参照分布1及び参照分布2をそれぞれ含む例示的な実施形態による、201A及び202Aを含む複数の検出された検体を有するサンプル200の例を示す。
【
図3】例示的な実施形態による、スケールファクタ適用プロセスの各反復のためのプロセスを示す。
【
図4A】例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【
図4B】例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【
図4C】例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【
図4D】例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【
図4E】例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【
図4F】例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【
図5A】例示的な実施形態による、2回以上の反復を必要とする適応正規化プロセスの別の例を示す。
【
図5B】例示的な実施形態による、2回以上の反復を必要とする適応正規化プロセスの別の例を示す。
【
図5C】例示的な実施形態による、2回以上の反復を必要とする適応正規化プロセスの別の例を示す。
【
図5D】例示的な実施形態による、2回以上の反復を必要とする適応正規化プロセスの別の例を示す。
【
図5E】例示的な実施形態による、2回以上の反復を必要とする適応正規化プロセスの別の例を示す。
【
図6A】本明細書に記載される適応正規化プロセスの1回の反復後の全てのサンプルについての検体レベルを示す。
【
図6B】本明細書に記載される適応正規化プロセスの1回の反復後の全てのサンプルについての検体レベルを示す。
【
図7】例示的な実施形態による、それらの対応する参照分布から所定の距離内にある検体レベルが、それらの対応する参照分布の一部である確率を最大にするスケールファクタの値を決定するための構成要素を示す。
【
図8A】図に示すサンプル4のサンプルデータへの最大尤度による適応正規化の適用を示す。
【
図8B】図に示すサンプル4のサンプルデータへの最大尤度による適応正規化の適用を示す。
【
図8C】図に示すサンプル4のサンプルデータへの最大尤度による適応正規化の適用を示す。
【
図9A】例示的な実施形態による
図10A~10Bに示されるデータへの集団適応正規化の適用を示す。
図9は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。
【
図9B】例示的な実施形態による
図10A~10Bに示されるデータへの集団適応正規化の適用を示す。
図9は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。
【
図9C】例示的な実施形態による
図10A~10Bに示されるデータへの集団適応正規化の適用を示す。
図9は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。
【
図9D】例示的な実施形態による
図10A~10Bに示されるデータへの集団適応正規化の適用を示す。
図9は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。
【
図9E】例示的な実施形態による
図10A~10Bに示されるデータへの集団適応正規化の適用を示す。
図9は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。
【
図9F】例示的な実施形態による
図10A~10Bに示されるデータへの集団適応正規化の適用を示す。
図9は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。
【
図10】例示的な実施形態による、検体レベルの適応正規化のための専用コンピューティング環境を示す。
【
図11】38の技術的反復検定についての全てのアプタマーベースのプロテオミクスアッセイ測定にわたる変動係数の中央値を示す。
【
図12】最大許容反復に関する、サンプルについての性別特異的バイオマーカーに対するコルモゴロフースミノフ統計量を示す。
【
図13】分析に使用した血漿及び血清についてのサンプルIDによるQCサンプルの数を示す。
【
図14】中央値正規化及びANMLを用いたQCサンプルスケールファクタの一致を示す。
【
図15】中央値正規化及びANMLを用いた対照サンプルのCV分解を示す。線は、プレート間(インター)及び合計のプレート内(イントラ)における各対照サンプルのCVの経験的累積分布関数を示す。
【
図16】中央値正規化及びANMLを用いた中央値QC比を示す。
【
図17】中央値正規化及びANMLを用いた尾部におけるQC比を示す。
【
図18】SSAN及びANMLを用いたスピン間時間サンプルにおけるスケールファクターコンコーダンスを示す。
【
図19】様々な正規化スキーム下での、タイムトゥスピンにおける、18人のドナーにわたる検体CVの中央値を示す。
【
図20】SSAN及びANMLを用いたコーヴァンス(血漿)からのスケールファクタ間の一致プロットを示す。
【
図21】ANMLの前後のコーヴァンスサンプルについての全てのペアワイズ検体相関の分布を示す。
【
図22】いくつかの方法によって正規化されたデータから得られた分布の比較を示す。
【
図23】SSAN及びANMLで正規化されたデータを使用するホールドアウト検定セットの喫煙論理回帰分類子モデルのメトリックを示す。
【
図24】収集サイトによって着色された血漿及び血清サンプルにおけるc-Raf測定のための経験的CDFを示す。
【
図25】血漿(上)及び血清(下)における標準中央値正規化対適応中央値正規化を用いたスケールファクタの一致プロットを示す。
【
図26】標準正規化スキーム及び適応正規化についてのサイト差によって影響されない検体についてのサイトによるCDFを示す。
【
図27】希釈及びコーヴァンス収集サイトによる血漿サンプル中央値正規化スケールファクタを示す。
【
図28】適応正規化における厳密性を高めるために、中央値正規化スケールファクタの分布が示されている。
【
図29】タイムトゥスピンの関数としてのRFUにおける有意な差を示す検体についての典型的な挙動を示す。
【
図30】タイムトゥスピンに関する希釈による正規化スケールファクタの中央値を示す。
【
図31】正規化スケールファクタの中央値対タイムトゥスピンに対する適応正規化の効果を要約している。
【
図32】GFR値によって分割された希釈及び疾患状態による標準正規化スケールファクタの中央値を示す。
【
図33】標準中央値正規化(上)及びカットオフによる適応正規化による希釈及び疾患状態による中央値正規化スケールファクタを示す。
【
図34】これを、種々の正規化手順について、全ての検体とGFR (log/log)とのピアソン相関のCDFと共に示す。
【
図35】非正規化データ、標準中央値正規化及び適応正規化についてのCKDデータセットについての蛋白質間ピアソン相関の分布を示す。
【発明を実施するための形態】
【0006】
方法、装置、及びコンピュータ可読媒体が、例及び実施形態として本明細書に記載されているが、当業者は、検体レベルの適応正規化のための方法、装置、及びコンピュータ可読媒体が、記載された実施形態又は図面に限定されないことを認識する。図面及び説明は、開示された特定の形態に限定されることを意図していないことを理解されたい。むしろ、本発明は、添付の特許請求の範囲の精神及び範囲内にあるすべての修正、均等物、及び代替物を包含するものである。本明細書で使用される任意の見出しは、組織的な目的のためだけのものであり、説明又は特許請求の範囲の範囲を限定することを意味するものではない。
本明細書で使用されるように、単語「できる(can)」は、強制的な意味(すなわち、意味しなければならない)ではなく、許容的な意味(すなわち、可能性を有する意味)で使用される。同様に、「include)」、「including」、「includes」、「comprise」、「comprises」、「comprising」等は、要素を含むという意味であり、それに限られる意味ではない。
【0007】
本出願人は、サンプル中で検出された検体レベルの適応正規化のための新規な方法、装置、及びコンピュータ可読媒体を開発した。本明細書に開示され、特許請求の範囲に記載された技術は、アッセイバイアスを適切に除去し、アッセイノイズを非相関化しながら、サンプル収集アーチファクト、又は過剰な数の疾患関連プロテオミクス変化に起因するデータ中のアーチファクトの導入を防ぐ。
【0008】
この開示された適応正規化技術及びシステムは、対象集団内に収集バイアスが存在するか、又は過剰な数の検体が研究されている集団において生物学的に影響を受け、それによってデータへのバイアスの導入を妨げる場合に、影響を受けた検体を正規化手順から除去する。
【0009】
適応正規化の指示された側面は、バイアスが疑われ得るサンプルセット内の比較の定義を利用する。これらには、研究内の、特定の蛋白質分布及び重要な臨床変量において大きな変異を示すことが示されている多サイトサンプル収集物中の別個のサイトが含まれる。検定可能な臨床変量は、分析において関心のある臨床変量であるが、他の交絡因子が存在する可能性がある。
【0010】
適応的正規化の適応的側面は、正規化手順の最初に定義された指示された比較において有意に異なることが見られる、正規化手順からのこれらの検体の除去を指す。臨床サンプルの各収集物はいくらか独特であるので、この方法は、正規化からの除去に必要な検体を学習するように適合し、除去された検体のセットは、異なる研究について異なる。
【0011】
さらに、中央値正規化から影響を受けた検体を除去することによって、本システム及び方法は、影響を受けた検体を補正することなく、正規化アーチファクトの導入を最小限に抑える。反対に、サンプル処理アーチファクトは、研究における基礎となる生物学と同様に、このような分析によって増幅される。これらの効果については、実施例の項でより詳細に説明する。
【0012】
適応正規化のための開示された技術は、再帰的方法論に従い、検体ごとのレベルでのユーザにより指示された間の有意差をチェックする。最初に検出されたアッセイノイズ及びバイアスを除去するために、データセットをハイブリダイゼーション正規化し、最初に較正する。次に、このデータセットは、以下のパラメータを用いて適応正規化プロセス(以下により詳細に説明する)に渡される。
(1) 関心のある指示されたグループ、
(2) 指示されたグループ間の差を決定するために使用される検定統計量
(3) 多重検定補正方法
(4) 検定の重要性レベルのカットオフ
【0013】
ユーザにより指示されるグループのセットは、サンプル自体によって、収集サイト、サンプル品質メトリックなどによって、又は糸球体濾過率(GFR)、症例/対照、事象/無事象などの臨床共変量によって定義され得る。Student's T検定、ANOVA、Kruskal-Wallis、又は連続相関など、収集におけるアーチファクトを検出するために多くの検定統計量を用いることができる。複数の検定補正は、いくつか例を挙げると、ボンフェローニ(Bonferroni)、ホーム(Holm)及びベンジャミニ-ホックバーグ(Benjamini-Hochberg)(BH)などである。
【0014】
適応正規化プロセスは、既にハイブリダイゼーション正規化及び較正されているデータで開始される。単変量検定統計量を、指示された群間の各検体レベルについて計算する。次いで、データを参照(コーヴァンス(Covance)データセット)に対して中央値正規化し、正規化スケールファクタを生成するために使用される測定値のセットから、定義されたグループ間で有意な変動を有するこれらの検体レベルを除去する。この適応ステップによって、本システムは、定義されたグループ間に系統的なバイアスを導入する可能性を有する検体レベルを除去する。結果として得られる適応正規化データは、その後、検定統計を再計算するために使用され、その後、データを正規化するために使用される新しい適応測定セットが続き、以下同様である。
【0015】
このプロセスは、1つ以上の条件が満たされるまで、複数回の反復に亘って繰り返すことができる。これらの条件は、収束、すなわち、連続する反復から選択される検体レベルが同一である場合、連続する反復間の検体レベルの変化の程度が特定の閾値未満である場合、連続する反復間のスケールファクタの変化の程度が特定の閾値未満である場合、又は特定の反復回数を過ぎることを含むことができる。適応正規化プロセスの出力は、除外された検体/検体レベル、検定統計値、及び対応する統計値(すなわち、調整されたp値)のリストで注釈付けされた正規化ファイルとすることができる。
【0016】
実施例のセクションでさらに説明するように、極端な数のアーチファクト(生物学的又は収集関連のいずれか)を含むデータセットについて、本システムは、以前の中央値正規化スキームによって検出されなかったアーチファクト及びノイズをフィルタリングすることができる。
【0017】
図1は、例示的な実施形態による、1つ以上のサンプル中の検体レベルの適応正規化のための方法を示す。1つ以上のサンプル中で検出された1つ以上の検体に対応する1つ以上の検体レベルが受信される。各検体レベルは、1つ以上のサンプル中のその検体の検出された量に対応する。
【0018】
図2は、例示的な実施形態による、複数の検出された検体を有するサンプル200の一例を示す。
図2に示すように、より大きな円200はサンプルを表し、より小さな円の各々は、サンプル中で検出された異なる検体についての検体レベルを表す。例えば、円201A及び202Aは、2つの異なる検体についての2つの異なる検体レベルに対応する。もちろん、
図2に示される検体の量は、例示目的のみのためであり、そして特定のサンプルにおいて検出される検体レベル及び検体の数は、変化し得る。
【0019】
図2に示されるように、サンプル200は、検体201A及び検体202Aなどの様々な検体を含む。参照分布1は、検体201Aに対応する参照分布であり、参照分布2は、検体202Aに対応する参照分布である。参照分布は、任意の適切なフォーマットをとることができる。例えば、
図2に示されるように、各参照分布は、参照集団又は参照サンプルにおいて検出される検体の検体レベルをプロットし得る。もちろん、参照分布は、様々な異なる方法でプロット及び/又は記憶することができる。例えば、参照分布は、検体レベル又は検体レベルの範囲のそれぞれの計数に基づいてプロットすることができる。さらに、参照分布は、平均値、中央値、及び標準偏差値を抽出するために処理することができ、これらの格納された値は、以下で説明するように、距離決定プロセスで使用することができる。多くの変形が可能であり、これらの例は、限定を意図するものではない。
【0020】
図2に示されるように、サンプル中の各検体(検体201A及び202Aなど)の検体レベルは、直接的に、又は参照分布(平均、中央値、及び/又は標準偏差など)から抽出された統計的尺度を介して、対応する参照分布(分布1及び2など)と比較され、サンプル中の各検体レベルと、対応する参照分布との間の統計的及び/又は数学的距離が決定される。
【0021】
検体レベルが検出される1つ以上のサンプルは、血液サンプル、血漿サンプル、血清サンプル、脳脊髄液サンプル、細胞溶解物サンプル、及び/又は尿サンプルなどの生物学的サンプルを含むことができる。さらに、1つ以上の検体は、例えば、蛋白質検体、ペプチド検体、糖検体、及び/又は脂質検体を含み得る。
【0022】
各検体の検体レベルは、様々な方法で決定することができる。例えば、各検体レベルは、検体の結合パートナーを1つ以上のサンプルに適用することに基づいて決定され得る。結合パートナーの検体への結合は、測定可能な信号を生じる。次いで、測定可能な信号を測定して、検体レベルを得ることができる。この場合、結合パートナーは、抗体又はアプタマーであり得る。各検体レベルは、追加的に又は代替的に、1つ以上のサンプルの質量分析に基づいて決定することができる。
【0023】
図1に戻ると、ステップ102Cにおいて、連続する反復間のスケールファクタの変化が所定の変化閾値102D以下になるまで、又は1つ以上の反復の量が最大反復値(102F)を超えるまで、複数回の反復に亘って1つ以上の検体レベルにスケールファクタが反復的に適用される。
【0024】
スケールファクタは、各反復に対して再計算される動的変数である。後続の反復の間のスケールファクタの変化を決定し、測定することによって、本システムは、さらなる反復が結果を改善しないときを検出し、それによってプロセスを終了することができる。
【0025】
さらに、スケールファクタ適用プロセスが無限に(無限ループで)繰り返されないことを保証するために、最大反復値をフェールセーフとして利用することができる。最大反復値は、たとえば、10回の反復、20回の反復、30回の反復、40回の反復、50回の反復、100回の反復、200回の反復のいずれかである。
【0026】
必要に応じて、最大反復値は省略され得、スケールファクタは、必要とされる反復の数を考慮することなく、連続反復間のスケールファクタの変化が所定の変化閾値以下になるまで、複数回の反復に亘って1つ以上の検体レベルに反復的に適用され得る。
【0027】
所定の変化閾値は、ユーザが設定することも、何らかのデフォルト値に設定することもできる。例えば、所定の変化閾値は、プロセスが終了するために反復間のスケールファクタの測定可能な変化が非常に少ない「収束」に達するためにスケールファクタが必要とされるように、非常に低い10進数値(例えば、0.001)に設定することができる。
【0028】
後続の反復間のスケールファクタの変化は、パーセンテージ変化として測定することができる。この場合、所定の変化閾値は、例えば、0~40パーセント(両端を含む)の値、0~20パーセント(両端を含む)の値、0~10パーセント(両端を含む)の値、0~5パーセント(両端を含む)の値、0~2パーセント(両端を含む)の値、0~1パーセント(両端を含む)の値、及び/又は0パーセントとすることができる。
【0029】
ステップ102Aにおいて、1つ以上の検体レベルにおける各検体レベルと、参照データセットにおけるその検体の対応する参照分布との間の距離が決定される。この距離は、統計的又は数学的距離であり、特定の検体レベルがその同じ検体の対応する参照分布と異なる程度の尺度となり得る。様々な検体レベルの参照分布は、事前にコンパイルされ、データベースに格納され、距離決定プロセス中に必要に応じてアクセスされ得る。参照分布は、参照サンプル又は集団に基づくことができ、手動レビュープロセス又は他の適切な技法によって、汚染又はアーチファクトがないことを検証することができる。
【0030】
1つ以上の検体レベル中の各検体レベルと、参照データセット中のその検体の対応する参照分布との間の距離の決定は、各検体レベルと参照データセット中のその検体の対応する参照分布との間のマハラノビス距離の絶対値を決定することを含むことができる。マハラノビス距離は、点Pと分布Dとの間の距離の尺度であり、この尺度を計算するための原点は、分布の重心(質量中心)にあり得る。マハラノビス距離(「M-距離」)の計算のための原点はまた、以下でさらに議論されるように、分布の平均又は中央値であり得、そして分布の標準偏差を利用し得る。もちろん、サンプル中の検体レベルと、利用することができる対応する参照分布との間の統計的又は数学的距離を測定する他の方法がある。例えば、1つ以上の検体レベル中の各検体レベルと参照データセット中のその検体の対応する参照分布との間の距離を決定することは、各検体レベルと、参照データセット中のその検体の対応する参照分布の平均又は中央値との間の標準偏差の量を決定することを含み得る。
【0031】
図1に戻ると、ステップ102Bにおいて、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいて、スケールファクタが決定される。このステップは、対応する参照分布から所定の距離閾値内にあるサンプル中の全ての検体レベルを識別する第1のサブステップを含む。スケールファクタ決定プロセスにおいて使用されるべき検体レベルを同定するためのカットオフとして使用される所定の距離は、ユーザによって設定され得るか、又はいくつかのデフォルト値に設定され得て、及び/又は関与するサンプル及び検体の型にカスタマイズされ得る。
【0032】
加えて、所定の距離閾値は、検体レベルと対応する参照分布との間の統計的距離がどのように決定されるかに依存するであろう。M-距離を使用する場合、所定の距離は、0.5以上6以下の範囲の値、1以上4以下の範囲の値、1.5以上3.5以下の範囲の値、1.5以上2.5以下の範囲の値、及び/又は2.0以上2.5以下の範囲の値とすることができる。スケールファクタ決定プロセスにおける使用から検体レベルをフィルタリングするために使用される特定の所定の距離は、基礎となるデータセット及び関連する生物学的パラメータに依存し得る。特定のタイプのサンプルは、他のものよりも大きな固有の変動を有し、より高い所定の距離閾を保証し、他のものは、より低い所定の距離閾を保証し得る。
【0033】
図1に戻る。ステップ102Aにおいて、各検体レベルと、その検体の対応する参照分布との間の距離が計算される。対応する参照分布は、検体に関連する識別子に基づいて確認されてメモリに記憶されるか、又は各タイプの検体を検出する検体識別プロセスに基づいて確認されることができる。距離は、前述のように、例えば、M-距離として計算することができる。M-距離は、対応する参照分布の平均、中央値、及び/又は標準偏差に基づいて計算されるので、参照分布全体をメモリに記憶する必要はない。例えば、サンプル中の各検体レベルと対応する参照分布との間のM-距離は、次式で与えられる。
【0034】
【0035】
ここで、Mはマハラノビス距離(「M-距離」)であり、サンプル中の検体レベルの値であり、xpは、サンプルの検体レベルの値であり、μrefは、その検体に対応する参照分布の平均であり、σref,pはその検体に対応する参照分布の標準偏差である。
【0036】
図3は、例示的な実施形態による、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定するためのフローチャートを示す。ステップ301では、対応する参照分布から所定の距離内にある各検体レベルについて検体スケールファクタが決定される。この検体スケールファクタは、少なくとも部分的に、検体レベルと、対応する参照分布の平均値又は中央値とに基づいて決定される。例えば、各検体の検体スケールファクタは、対応する参照分布の平均に基づくことができる。
【0037】
【0038】
ここで、SFanalyteは、対応する参照分布から所定の距離内にある各検体のスケールファクタであり、μref、pは、その検体に対応する参照分布の平均であり、xpは、サンプル中の検体レベルの値である。検体スケールファクタはまた、対応する参照分布の中央値に基づき得る。
【0039】
【0040】
ここで、SFanalyteは、対応する参照分布から所定の距離内にある各検体のスケールファクタであり、~xは、その検体に対応する参照分布の中央値であり、xpは、サンプル中の検体レベルの値である。
【0041】
ステップ302では、対応する参照分布から所定の距離内にある検体レベルに対応する検体スケールファクタの平均又は中央値のいずれかを計算することによって、サンプルの全体的なスケールファクタが決定される。したがって、全体的なスケールファクタは、以下の1つによって与えられる。
【0042】
【0043】
ここで、SFanalyteは、サンプル中の検体レベルに適用されるべき全体的なスケールファクタ(本明細書では「スケールファクタ」と呼ぶ)であり、~xSFanalyteは、検体スケールファクタの平均であり、σSFanalyteは、検体スケールファクタの中央値である。
【0044】
ステップ302では、検体レベルと参照分布との間の距離が所定の距離閾値よりも大きいかどうかの判定が行われる。もしそうであれば、ステップ303において検体レベルは外れ値としてフラグされ、ステップ304において検体レベルはスケールファクタ決定プロセスから除外される。そうではなく、検体レベルと参照分布との間の距離が所定の距離閾値以下である場合、ステップ305において検体レベルは許容可能な距離内にあるとしてフラグが立てられ、ステップ306において検体レベルがスケールファクタ決定プロセスにおいて使用される。
【0045】
各検体レベルのフラグ付けは、スケールファクタ適用プロセスの各反復のためのデータ構造によって符号化され、追跡され得る。例えば、各検体レベルについて1又は0を記憶するビットベクトル又は他のブール値によって符号化、追跡され得る。ここでの1又は0は、検体レベルがスケールファクタ決定プロセスで使用されるべきかどうかを示す。対応するデータ構造は、スケールファクタ適用プロセスの新たな反復中に、リフレッシュ/再符号化することができる。
【0046】
スケールファクタ決定プロセスがステップ306で行われる場合、ステップ301~302における距離閾値評価プロセスの結果を符号化するデータ構造を利用して、サンプル中の検体レベルをフィルタリングして、スケールファクタ決定プロセスで使用される検体レベルのみを抽出及び/又は同定することができる。
【0047】
各参照分布について所定の距離を計算するための原点は、明確化のために分布の重心として示されているが、分布の平均又は中央値、あるいは分布の標準偏差に基づいて調整された平均又は中央値など、他の原点を利用することができることを理解されたい。
【0048】
図1に戻ると、ステップ102Dにおいて、決定されたスケールファクタと、以前に決定されたスケールファクタ(以前の反復のための)との間のスケールファクタの変化が所定の閾値以下であるかどうかに関する決定が行われる。スケーリングプロセスの第1の反復が実行されている場合、このステップは省略することができる。このステップは、現在のスケールファクタを以前の反復からの以前のスケールファクタと比較し、以前のスケールファクタと現在のスケールファクタとの間の変化が所定の閾値を超えるかどうかを判定する。
【0049】
先に論じたように、この所定の閾値は、1%の変化など、何らかのユーザ定義の閾値とすることができ、かつ/又はスケールファクタが特定の値に収束するようにほぼ同一のスケールファクタ(~0%の変化)を必要とすることができる。
【0050】
i番目と(i-1)番目の反復回数の間のスケールファクタの変化が所定の閾値以下の場合、ステップ102Fで適応正化処理が終了する。そうではなく、i番目と(i-1)番目の反復との間のスケールファクタの変化が所定の閾値よりも大きい場合、処理は工程102Cに進み、そこで、サンプル中の1つ以上の検体レベルが、スケールファクタを適用することによって正規化される。サンプル中の全ての検体レベルは、このスケールファクタを使用して正規化され、スケールファクタを計算するために使用された検体レベルだけではないことに留意されたい。したがって、適応正規化プロセスは、収集サイトのバイアス、又は疾患による蛋白質レベルの差を「補正」せず、むしろ、正規化中にこのような大きな差効果が除去されないことを保証する、なぜなら(このような)除去を行うと、データにアーチファクトを導入し、所望の蛋白質シグネチャーを破壊するからである。
【0051】
ステップ102Cでの正規化ステップの後、任意選択のステップ102Eで、スケーリングプロセスのもう1回の反復を繰り返すことが最大反復値を超えるかどうか(すなわち、i+1>最大反復値であるかどうか)に関する判定が行われる。もしそうであれば、プロセスはステップ102Fで終了する。そうでなければ、次の反復が初期化され(i++)、手順は、ステップ102Bの距離決定、スケールファクタ決定、及びステップ102Cでの正規化(102Dにおいてスケールファクタの変化が所定の閾値を超える場合)のために、ステップ102Aに戻る。ステップ102A~102Dは、プロセスがステップ102Fで終了するまで(スケールファクタの変化が所定の閾値内に入るか、又は最大反復値を超えるかのいずれかに基づいて)、各反復について繰り返される。
【0052】
図4A~4Fは、例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。
【0053】
図4Aは、スケールファクタの計算及び参照分布に対する検体レベルの距離決定の両方のために使用されるべき参照データ要約統計のセットを図示する。参照データ要約統計は、25の異なる検体に対応する参照分布についての適切な統計的尺度を要約する。
【0054】
図4Bは、10個のサンプルに亘って測定された25個の異なる検体の検体レベルに対応するサンプルデータのセットを示す。検体レベルの各々は、相対蛍光単位として表されるが、他の測定単位を利用することができることが理解される。
【0055】
適応正規化プロセスは、まず、各検体レベルと対応する参照分布との間のマハラノビス距離(M-距離)を計算し、各M-距離が所定の距離内にあるかどうかを判定し、(検体レベル及び全体の両方で)スケールファクタを計算し、検体レベルを正規化し、次いで、スケールファクタの変化が所定の閾値を下回るまでプロセスを繰り返すことによって、各サンプルを通して反復することができる。一例として、
図4C-4Fは、
図4Bのサンプル3の測定値を利用する。
図4Cに示すように、サンプル3中の各検体レベルと、対応する参照分布との間のM-距離を計算する。このM-距離は(先に議論した)式で与えられる。
【0056】
【0057】
また、
図4Cの表に示されているのは、ブール変数Within-Cutoffであり、これは、各検体についてのM-距離の絶対値が、スケールファクタ決定プロセスで使用するために必要とされる所定の距離内にあるかどうかを示す。この場合、所定距離は2に設定される。
図4Cに示すように、検体3、6、7、11、17、18、20、及び23は|2|のカットオフ距離よりも大きい。したがって、これらは、以下のスケールファクタ決定ステップでは使用されない。
【0058】
全体的なスケールファクタを決定するために、残りの検体(TRUEのWithin-Cutoff値を有する検体)の各々についてのスケールファクタが、前述のように決定される。
図4Dは、各検体の検体スケールファクタを示す。次に、これらの検体スケールファクタの中央値を、全体的なスケールファクタに設定する。もちろん、これらの検体スケールファクタの平均も、全体的なスケールファクタとして使用することができる。この場合、スケールファクタは次式で与えられる。
【0059】
【0060】
ここで、SFanalyte 1, ...pは、スケールファクタ決定プロセスで使用される検体の各々についての検体スケールファクタである。
【0061】
次いで、サンプル3についての25の検体測定値にこのスケールファクタを掛け、このプロセスを繰り返す。
図4Eに示すように、この正規化されたデータについて新しいM-距離が計算され、所定の距離閾値内にある検体が決定される。
図4Fは、この次の反復のための検体スケール因子をさらに示す。全体的なスケールファクタについての上記の公式を使用して、この反復についての全体的なスケールファクタは、1(検体スケールファクターの中央値)に等しくなるように決定される。
【0062】
全体的なスケールファクタが1であると決定されるので、このスケールファクタの適用はデータにいかなる変化も生じさせず、次のスケールファクタも1であるので、プロセスを終了することができる。
【0063】
図5A~5Eは、例示的な実施形態による、2回以上の反復を必要とする適応正規化プロセスの別の例を示す。これらの図は、
図4A-4B中のサンプル4に対応するデータを使用する。
【0064】
図5Aは、サンプル4中の検体の各々のM-距離の値、及び対応するブールWithin-Cutoffの値を示す。
図5Aに示されるように、検体1、4、6、8、12、17、19、及び21~25は、スケールファクタ決定プロセスから除外される。
【0065】
図5Bは、残りの検体の各々についての検体スケールファクタを示す。この反復の全体的なスケールファクタは、前述のように、これらの値の中央値とみなされ、0.9663に等しい。
【0066】
このスケールファクタは、
図5Cに示される検体レベルを生成するために検体レベルに適用される。
図5Cはまた、正規化プロセスの第2の反復についてのM-距離決定及びカットオフ決定結果を示す。この場合、検体1、4、6、10、12、17、19、及び21~25は、スケールファクタ決定プロセスから除外される。
【0067】
図5Dは、残りの検体の各々についての検体スケールファクタを示す。この反復の全体的なスケールファクタは、前述のように、これらの値の中央値とみなされ、0.8903に等しい。このスケールファクタはまだ1の値に収束していない(スケールファクタのさらなる変化がないことを示す)ので、収束に達するまで(又はスケールファクタの変化が何らかの他の所定の閾値内に入るまで)プロセスが繰り返される。
【0068】
図5Eはスケールファクタ決定及び適応正規化プロセスの8回の反復に亘る、
図4A~4Bに示されている各サンプルについて決定されたスケールファクタを示す図である。
図5Eに示すように、サンプル4のスケールファクタは、プロセスの5回目の反復まで収束しない。
【0069】
各サンプルの検体レベルデータは、各反復後に変化する(決定されたスケールファクタが1ではないと仮定する)。例えば、
図6Aは、本明細書に記載される適応正規化プロセスの1回の反復後の全てのサンプルについての検体レベルを示す。
図6A~6Bは、適応正規化プロセスが完了した後(この例では、すべてのスケールファクタが1に収束した後)のすべてのサンプルの検体レベルを示す。
【0070】
図1に戻って参照すると、スケールファクタ決定ステップ102Bは、他の方法で実行することができる。特に、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定することは、対応する参照分布から所定の距離内にある検体レベルが対応する参照分布の一部である確率を最大にするスケールファクタの値を決定することを含むことができる。
【0071】
図7は、所与のサンプル内の検体測定値が参照分布から導出される確率を最大にするスケールファクタの値を決定するための要件を示す。この場合、各検体レベルが対応する参照分布の一部である確率は、スケールファクタ、検体レベル、対応する参照分布の標準偏差、及び対応する参照分布の中央値に少なくとも部分的に基づいて決定することができる。
【0072】
ステップ704において、対応する参照分布から所定の距離内にある全ての検体レベルが対応する参照分布の一部である確率を最大にするスケールファクタの値が決定される。
図7に示されるように、この確率関数は、この確率を最大にするスケールファクタ7015の値を決定するために、対応する参照分布702及び検体レベル703の標準偏差を利用する。
【0073】
スケールファクタ決定のためにこの技法を使用する適応正規化は、本明細書では、最大尤度による適応正規化(ANML)と呼ばれる。ANMLと上述の適応正規化のための以前の技法(単一サンプルに対して動作し、本明細書では単一サンプル適応正規化(SSAN)と呼ぶ)との間の主な相違は、スケールファクタ決定ステップである。
【0074】
中央値はSSANのスケールファクタを計算するために使用されたが、ANMLは、サンプルが参照分布から導出される確率を最大化するために参照分布の情報を利用する。
【0075】
【0076】
この式は、参照分布が対数正規確率に従うという仮定に依存する。このような仮定は、スケールファクタのための単純な閉形式を可能にするが、必ずしも必要ではない。上述したように、ANMLの全体的なスケールファクタは、加重分散平均である。大きな集団分散を示す検体測定値のスケールファクタへの寄与SFoverallは、より小さな集団分散に由来するものよりも少なく重み付けされる。
【0077】
図8A~8Cは、例示的な実施形態に従う、
図4A~4Bに示すサンプル4のサンプルデータへの最大尤度による適応正規化の適用を示す。
図4Aは、第1の反復における各検体のM-距離値及びWith-Cutoff値を示す。
図8Aに示されるように、サンプル4についての最初の反復からの使用不可能な検体は、検体1、4、6、8、12、17、19、21、22、23、24、及び25である。スケールファクタの計算のために、log10変換された参照データ、標準偏差、及びサンプルデータを取得し、スケールファクタ決定のために上記の式を適用する。
【0078】
【0079】
この指数を10の基底に適用すると、このサンプル/反復のスケールファクタは次のように決定される。
【0080】
【0081】
SSANの手順と同様に、この中間スケールファクタは、サンプル4からの測定値に適用され、このプロセスは、連続する反復について繰り返される。
【0082】
図8Bは、複数回の反復に亘り、
図4A~4BのデータにANMLを適用することによって決定されるスケールファクタを示す。最初の反復と収束後との間の正規化サンプル測定値の差は、1回を超える反復を必要とするサンプルについて極めて明確である。これらのさらなる反復は、アプタマーベースのプロテオミクスアッセイを用いて生成されたデータにおける利点を示し、これは、実施例のセクションにおいてさらに記載される。
図8Bに示すように、これらのスケールファクタは、SSANによって決定されたスケールファクタとは異なる(
図5E)。これらの差は、各検体についての重み付けされた集団分散に起因し、これは、参照集団分散が大きい検体についてのスケールファクタ計算のバランスをとるのに役立つ。
【0083】
図8Cは、複数回の反復に亘り、
図4A~4B中のデータへのANMLの適用から生じる正規化された検体レベルを示す。
図8Cに示されるように、正規化された検体レベルは、SSANによって決定されたものとは異なる(
図5B)。
【0084】
開示された技術を使用して実行されることができる別のタイプの適応正規化は、集団適応正規化(PAN)である。PANは、1つ以上のサンプルが複数のサンプルを含み、1つ以上の検体に対応する1つ以上の検体レベルが各検体に対応する複数の検体レベルを含む場合に利用することができる。
【0085】
PANを用いて適応正規化を行う場合、1つ以上の検体レベル中の各検体レベルと、参照データセット中のその検体の対応する参照分布との間の距離は、各検体に対応する複数の検体レベルと参照データセット中の各検体の対応する参照分布との間のStudent's T検定、コルモゴロフ-スミルノフ検定、又はCohen’s D統計を決定することによって決定される。
【0086】
PANについて、臨床データは、集団参照データと有意に異なる検体を検定するために、グループとして扱われる。PANは、サンプルのグループが、特定の収集条件下で同じ検定サイトから収集されるような類似の属性のサブセットを有することから同定される場合、又はサンプルのグループが、参照分布とは異なる臨床的区別(疾患状態)を有し得る場合に、使用され得る。
【0087】
集団正規化スキームの能力は、参照分布に対して同じ検体の多くの測定値を比較する能力である。正規化の一般的な手順は、上述の適応正規化方法と同様であり、再び、各検体測定値と参照分布との初期比較を開始する。
【0088】
上述したように、複数の統計的検定を使用して、検定データからの検体測定値と、Student's T検定、コルモゴロフ-スミルノフ検定などを含む参照分布との間の統計的差異を決定することができる。
【0089】
以下の例では、2つの分布間の効果サイズの測定値であり、先に議論したM距離計算に非常に似ている、距離測定に対するCohen's D統計値を利用している。
【0090】
【0091】
ここで、Dpは、Cohen's D統計量であり、μpは特定の検体についての参照分布中央値であり、~xpは全てのサンプルにわたる臨床データ(サンプル)中央値であり、√(σref,p
2+σx,p
2))はプールされた標準偏差(又は中央値絶対偏差)である。上記に示すように、Cohen's Dは、プールされた標準偏差(又は絶対偏差の中央値)に亘る参照分布中央値と臨床データ中央値との差として定義される。
【0092】
図9A~9Fは、例示的な実施形態による、
図4A~4Bに示すデータへの集団適応正規化の適用を示す。
図4Aに示される参照データ及び
図4Bに示される臨床データについて、25のCohen's D統計が計算され、1つ1つが各検体に対応する。
図9Aは、全てのサンプルにわたる各検体についてのCohen's D統計量を示す。この計算は、検体測定の正規性を高めるためにlog
10変換空間で行うことができる。
【0093】
例示的な実施形態では、検体がスケールファクタ決定プロセスに含まれるべきかどうかを決定するために使用される所定の距離閾値は、|0.5|のCohen’s Dである。このウィンドウの外の検体は、スケールファクタの計算から除外される。
図9Aに示すように、これにより、検体1、4、5、8、17、21、及び22がスケールファクタ計算から除外される。
【0094】
図9Bは、サンプルにわたる各検体について計算されたスケールファクタを示す。集団適応正規化(PAN)と前述の正規化方法との間の差異は、PANにおいて、各サンプルが、スケールファクタ計算の間に同じ検体を含め/除外することである。PANでは、全てのサンプルのスケールファクタは、残りの検体に基づいて決定される。この例では、スケールファクタは、残りの検体の検体スケールファクタの中央値又は平均によって与えられることができる。上述の適応正規化方法と同様に、スケールファクタは、個々の検体スケールファクタの平均又は中央値として決定することができる。中央値が使用される場合、
図9Bに示されるデータのスケールファクタは0.8876である。
【0095】
このスケールファクタは、
図9Cに示されるように、正規化されたデータ値を生成するために、
図4Bに示されるデータ値と乗算される。
図9Dは、各検体についてのCohen’s D値及び各検体についてのwithin-Cutoff値を含む、スケールファクタ決定プロセスの第2の反復の結果を示す。
【0096】
この反復のために、検体1、4、5、8、16、17、20、及び22は、スケールファクタ決定プロセスから除外されるべきである。第1の反復において除外された検体に加えて、第2の反復は、さらに、スケールファクタの計算から検体16を除外する。次いで、上記の工程を繰り返して、各サンプルについてのスケールファクタ計算から検体を更に除去する。
【0097】
i番目の反復から削除された検体が、(i-1)番目の反復と同じであり、すべてのサンプルのスケールファクタが収束したときに適応正規化(予め定義された閾値未満のスケールファクタの変化)の収束は発生する。この例では、収束は5回の反復を必要とする。
図9Eは、5回の反復の各々におけるサンプルの各々に対するスケールファクタを示す。さらに、
図9Fは、収束が起こり、すべてのスケールファクタが適用された後の正規化された検体レベルデータを示す。
【0098】
本明細書に記載のシステム及び方法は、正規化のスケーリング態様に外れ値を含めながら、任意の外れ値検体レベルを識別し、スケールファクタ決定から前記外れ値を除外するために外れ値検出を実行する適応正規化プロセスを実施する。スケールファクタを計算し、スケールファクタを適用する特徴も、前の図に関してより詳細に説明される。さらに、外れ値分析を実行することによる1つ以上の検体レベルにおける外れ値検体レベルの除去は、
図1~3に関して記載されるように実施され得る。それらの図及び本明細書の対応するセクションに記載されている外れ値分析方法は、対応する参照分布からの所定の距離閾値に基づいて検体レベルをフィルタリングする、距離に基づく外れ値分析である。
【0099】
しかしながら、他の形態の外れ値分析もまた、外れ値検体レベルを同定するために利用され得る。例えば、局所外れ値因子(「LOF」)などの密度ベースの外れ値分析を利用することができる。LOFは、分布内のデータ点の局所密度に基づく。各点の局所性はk個の最近傍で与えられ、その距離は密度の推定に用いられる。物体の局所密度をその近傍の局所密度と比較することによって、同様の密度の領域、ならびにそれらの近傍よりも低い密度を有する点を識別することができる。これらは、外れ値であると考えられる。
【0100】
密度ベースの外れ値検出は、所与のノードからそのK個の最近傍(「K-NN」)までの距離を評価することによって実行される。K-NN法は、クラスタシステム内のすべてのクラスタについてユークリッド距離行列を計算し、次に、各クラスタの中心からそのK個の最近傍までの局所到達可能距離を評価する。前記距離行列の局所到達可能距離に基づいて、各クラスタについて密度が計算され、各データ点についての局所外れ値因子(「LOF」)が決定される。LOF値が大きいデータ点を外れ値候補とみなす。この場合、LOFは、その参照分布に関してサンプル中の各検体レベルについて計算することができる。
【0101】
複数回の反復に亘って1つ以上の検体レベルを正規化するステップは、
図1に関して前述したように、連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は1つ以上の反復の量が最大反復値を超えるまで、追加の反復を実行することを含むことができる。
【0102】
図10は、例示的な実施形態による、検体レベルの適応正規化のための専用コンピューティング環境を示す。計算環境1000は、一時的でないコンピュータ読み取り可能媒体であるメモリ1001を含み、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリなど)、又はこれら2つの何らかの組み合わせとすることができる。
【0103】
図10に示されるように、メモリ1001は、検体レベルとそれらの対応する参照分布との間の統計的/数学的距離を決定するための距離決定ソフトウェア1001A、所定の距離閾値外である検体レベルを同定するための外れ値検出ソフトウェア1001B、検体スケールファクタ及び全体スケールファクタを決定するためのスケールファクタ決定ソフトウェア1001C、本明細書に記載される適応正規化技術をデータセットに適用するための正規化ソフトウェア1001Dを記憶する。
【0104】
メモリ1001は、さらに、参照データ分布、参照データに関する統計的尺度、スケールファクタ及びブールデータ構造などの変数、適応正規化プロセスの各反復から得られる中間データ値又は変数を記憶するために使用することができる記憶装置1001を含む。
メモリ1001内に記憶されたすべてのソフトウェアは、コンピュータ読み取り可能命令として記憶することができ、それは、1つ以上のプロセッサ1002によって実行されると、プロセッサが本明細書に記載する機能を実行するようにする。
【0105】
プロセッサ1002は、コンピュータ実行可能命令を実行し、実プロセッサ又は仮想プロセッサとすることができる。マルチプロセッシングシステムでは、複数のプロセッサ又はマルチコアプロセッサを使用して、コンピュータ実行可能命令を実行し、処理能力を向上させ、及び/又は特定のソフトウェアを並列実行することができる。
【0106】
コンピューティング環境は、さらに、ネットワーク通信を監視し、コンピュータネットワーク又はコンピューティングシステム上の装置、アプリケーション、又はプロセスと通信し、ネットワーク上の装置からデータを収集し、コンピュータネットワーク内のネットワーク通信又はコンピュータネットワークのデータベースに格納されたデータ上のアクションを実行するために使用される、ネットワークインターフェースなどの通信インターフェース503を含む。通信インターフェースは、コンピュータ実行可能命令、オーディオ又はビデオ情報、又は変調データ信号中の他のデータなどの情報を伝達する。変調されたデータ信号は、信号内の情報を符号化するようにその特性の1つ又は複数が設定又は変更された信号である。限定ではなく例として、通信媒体には、電気、光学、RF、赤外線、音響、又は他の搬送波で実施される有線又は無線技術が含まれる。
【0107】
コンピューティング環境1000は、さらに、ユーザ(システム管理者など)がシステムに入力を提供し、ユーザに表示するための情報を表示又はその他の方法で送信することを可能にする入出力インターフェース1004を含む。例えば、入出力インターフェース1004は、設定及び閾値の構成、データセットのロード、及び結果の表示に使用することができる。
【0108】
バス、コントローラ、又はネットワークなどの相互接続機構(
図10に実線で示す)が、コンピューティング環境1000の構成要素を相互接続する。入出力インターフェース1004は、入出力デバイスに結合することができる。入力デバイスは、キーボード、マウス、ペン、トラックボール、タッチスクリーン、又はゲームコントローラなどのタッチ入力デバイス、音声入力デバイス、スキャンデバイス、デジタルカメラ、リモコン、又はコンピューティング環境に入力を提供する別のデバイスとすることができる。出力デバイスは、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、又はコンピューティング環境1000からの出力を提供する別のデバイスとすることができる。ディスプレイには、適応正規化プロセスを設定するためのオプションをシステム管理者などのユーザに提示するグラフィカルユーザーインタフェース(GUI)を含めることができる。
【0109】
計算環境1000は、磁気ディスク、磁気テープ又はカセット、CD-ROM、CD-RW、DVD、USBドライブ、又は情報を記憶するために使用することができ、計算環境1000内でアクセスすることができる他の任意の媒体のような、取り外し可能又は取り外し不可能な記憶装置を追加的に利用することができる。コンピューティング環境1000は、セットトップボックス、パーソナルコンピュータ、クライアント装置、データベース又はデータベース、又は1つ以上のサーバ、例えば、ネットワーク化されたサーバのファーム、クラスタ化されたサーバ環境、又はコンピューティング装置及び/又は分散データベースのクラウドネットワークであることができる。
【0110】
本明細書中で使用される場合、「核酸リガンド」、「アプタマー」、「SOMAmer」及び「クローン」は、標的分子に対して所望の作用を有する天然に存在しない核酸をいうために互換的に使用される。望ましい作用には、標的の結合、標的を触媒的に変化させること、標的を改変又は又は標的の機能的活性を改変する方法で標的と反応させること、(自殺阻害剤におけるように)標的に共有結合すること、及び標的と別の分子との間の反応を促進することが含まれるが、これらに限定されない。一実施形態では、作用は、標的分子に対する特異的結合親和性である。このような標的分子は、ワトソン/クリック塩基対形成又は三重らせん形成とは独立した機構を介してアプタマーに結合するポリヌクレオチド以外の三次元化学構造である。また、アプタマーは、標的分子によって結合される既知の生理学的機能を有する核酸ではない。所与の標的に対するアプタマーは、核酸の候補混合物から同定される核酸を含む。
【0111】
アプタマーは、(a)候補混合物を標的と接触させ(候補混合物中の他の核酸と比較して標的に対して増加した親和性を有する核酸は、候補混合物の残りから分配され得る)、(b)増加した親和性核酸を候補混合物の残りから分配し、及び(c)増加した親和性核酸を増幅して、核酸のリガンド富化混合物を生じさせ、それによって標的分子のアプタマーが同定される方法による、標的のリガンド混合物である。親和性相互作用は、程度の問題であることが認識されるが、この文脈において、アプタマーのその標的に対する「特異的結合親和性」は、アプタマーが、一般に、混合物又はサンプル中の他の非標的成分に結合するよりもはるかに高い親和性でその標的に結合することを意味する。「アプタマー」、「SOMAmer」、又は「核酸リガンド」は、特定のヌクレオチド配列を有する核酸分子の1つの型又は種のコピーのセットである。アプタマーは、任意の適切な数のヌクレオチドを含み得る。「アプタマー」は、2つ以上のこのような分子セットを指す。異なるアプタマーは、同じ又は異なる数のヌクレオチドを有し得る。アプタマーは、DNA又はRNAであってよく、一本鎖、二本鎖、又は二本鎖もしくは三本鎖領域を含み得る。いくつかの実施形態において、アプタマーは、本明細書中に記載されるか、又は当該分野で公知のSELEXプロセスを使用して調製される。本明細書中で使用される場合、SOMAmer又は遅いオフレート修飾アプタマーは、改善されたオフレート特性を有するアプタマーをいう。SOMAmerは、"Method for Generating Aptamers with Improved Off-Rates"と題する米国特許第7,947,447号に記載されている改良されたSELEX法を用いて生成することができる(その開示は、その全体が参照により本明細書に組み込まれる)。アプタマー-塩基プロテオミクスアッセイに関するさらなる詳細は、米国特許第7,855,054、7,964,356、7及び8,945,830、米国特許出願第14/569,241号及びPCT出願PCT/US2013/044792に記載されている(これらの開示は、その全体が参照により本明細書に組み込まれる)。
【0112】
[精度向上]
図11は、38の技術的反復検定についての全てのアプタマーベースのプロテオミクスアッセイ測定にわたる変動係数の中央値を示す。出願人は、13回のアプタマーベースのプロテオミクスアッセイラン(品質管理(QC)サンプル)から38回の技術的反復を行い、測定値の平均/中央値にわたり、測定値の標準偏差として定義される変動係数(CV)を、アプタマーベースのプロテオミックアッセイメニューに亘る各検体について計算した。ANMLを使用して、出願人は、各サンプルを正規化し、その一方で、各サンプルが正規化プロセスの下で許容される反復の最大数を制御した。反復の中央値CVは、許容可能な反復の最大数が増加するにつれて減少したCVを示し、反復が収束することを許容されるにつれて増加する精度を示す。
【0113】
[バイオマーカー識別の改善]
図12は、最大許容反復に関する、サンプルについての性別特異的バイオマーカーに対するコルモゴロフ-スミルノフ統計量を示す。
【0114】
出願人は、アプタマーに基づくプロテオミクスアッセイメニューにおいて知られている性特異的バイオマーカーの識別力を調べた。本出願人は、この検体間の分離の程度を定量化するために、569の雌及び460の雄サンプルの経験的分布関数間の距離を定量化するためのコルモゴロフ-スミノフ(K.S.)検定を計算した。K.S.距離=1は、分布の完全な分離(良好な識別特性)を意味し、0は分布の完全な重複(不良な識別特性)を意味する。上記の例のように、出願人は、グループのK.S.距離を計算する前に、各サンプルが実行できる反復の数を制限した。このデータは、男性/女性の性別決定のためのバイオマーカーの識別特性が、サンプルが反復正規化プロセスにおいて収束することを可能にされるにつれて増加することを示す。
【0115】
[ANMLのQCサンプルへの適用]
662回(BI、Boulderにて)、2066 QCサンプルを用いて実施する。これらの反復は、4つの異なるQCロットを含む。
図13は、分析に使用した血漿及び血清についてのサンプルIDによるQCサンプルの数を示す。
【0116】
正規化集団参照の新しいバージョンを生成した(ANMLと一致させ、参照SDに対する推定値を生成するため)。上記のデータは、V4正規化のための標準的な手順に従って、ハイブリダイゼーション正規化され、そして較正された。その時点で、それは、元の集団参照及び新しい集団参照の両方に対し、ANMLを使用して(集団参照に対する正規化における適応及び最大尤度変化の両方による差を示す)正規化された中央値(参照の中央値の変化による差を示す)であった。
【0117】
[正規化スケールファクタ]
第1の比較は、異なる正規化基準/方法間のスケールファクタの一致を調べることである。僅かな差しかない場合には、他のすべてのメトリックの良好な一致が期待される。
図1は、血漿及び血清中のQCサンプルについてのスケールファクタを示し、これは、QC_1710255(これについて、本出願人は、はるかに最大の反復数を有する)について、大部分について、大きな差異は存在しない(破線は、スケールファクタにおける0.1の差異を表す。したがって、差異は、ほとんど0.05未満である)。
【0118】
図14は、中央値正規化及びANMLを用いたQCサンプルスケールファクタの一致を示す。実線は同一性を示し、破線は同一性を上回る/下回る0.1の差を示す。
【0119】
[CV(変動係数)]
次いで、我々は、正規化中央値及びANMLにおいて、血漿及び血清サンプル中の対照サンプルについてCV分解を計算した。
図15は、中央値正規化及びANMLを用いた対照サンプルのCV分解を示す。線は、プレート内(intra)、プレート間(inter)、及び全体での各対照サンプルについてのCVの経験的累積分布関数を示す。ANMLが対照サンプルの再現性を変化させないことを示す2つの正規化ストラテジーの間には、(もしあるとしても)識別可能な差はほとんどない。
[QC比率(参照に対する)]
ANML後、QCロットの各々について参照を計算し、これらの参照値を使用して、各ランにおける中央値QC値と比較する。血漿及び血清中のQCサンプルの経験的累積分布関数。
図16は、中央値正規化及びANMLを用いた中央値QC比を示す。各ラインは、個々のプレートを示す。これらの比率分布は、我々が「良好である」分布を有する場合、ANMLを使用した場合に分布があまり変化しなかったことを示す。一方、一対の異常な分布(明るい青色のプラズマ)は、ANML下では幾分良好になる。テールはあまり影響を受けていないように思われるが、どちらの方法についても、それらの差及び比率と同様に、テールの%を下回るようにプロットすることを確実にする。
図17は、中央値正規化及びANMLを用いたテール部におけるQC比を示す。各ドットは個々のプレートを示し、黄色の線はプレート破損基準を示し、デルタプロットの点線は+-0.5%であり、一方、比プロットの点線は0.9、1.1である。本出願人は、失敗に変化がないことを確認する(テール部において15%を超えた唯一のプロットされたランはそこに残存し、プロットされなかった異常なものは異常なままである)。さらに、テール部における差異は、ほとんど全てのランについて0.5%をはるかに下回る。
【0120】
[データセットへのANMLの適用]
出願人は、正規化中の検体排除について2.0の一貫したマハラノビス距離カットオフを用いて、臨床(Covance)及び実験(タイムトゥスピン)データセットにおけるSSANに対するANMLの効果を比較した。
【0121】
[タイムトゥスピン(time-to-spin)]
タイムトゥスピンの実験は、18の固体を用いて行われた。6本のK2EDTA-血漿採血管の各々は、処理の前に、0、0.5、1.5、3、9、24時間放置された。
、数千の検体は、信号の変化が処理時間の関数となることを示す。同一の検体は、制御されないプロトコル、又はSomaLogic収集プロトコルと一致しない処理プロトコルを用いて、臨床サンプルと類似した動きを示す。SSANからのスケールファクタをALMNと比較した。
図18は、SSAN及びANMLを用いたタイムトゥスピンのサンプルにおけるスケールファクタの一致を示す。各ドットは、個々のサンプルを示す。2つの方法の間には非常に良好な一致がある。
【0122】
このデータセットは、次第に悪化するサンプル品質の下でも、同じ個体の複数の測定値の点で独特である。多くの検体信号は、タイムトゥスピンによって影響を受けるが、同様に影響を受けない信号も数千ある。増加するタイムトゥスピンに亘るこれらの測定の再現性は、複数の正規化スキーム(標準中央値正規化、単一サンプル適応中央値正規化、及び最大尤度による適応正規化)に亘って定量化することができる。本出願人は、タイムトゥスピンに亘って18のドナーの各々についてCVを計算し、タイムトゥスピンに対するそれらの感度によって検体を分離した。
図19は、様々な正規化スキーム下での、タイムトゥスピンにおける、18人のドナーに亘る検体CVの中央値を示す。各ドットは、変化する正規化を横切る破線によって結合された1個の個体を示す。タイムトゥスピンに対する感度を示さない検体に対する期待は、6つの条件に亘って各ドナーについて高い再現性であるべきであり、したがって、適応正規化戦略は、CVを低下させるべきである。
【0123】
ANMLは、標準中央値正規化及びSSANの両方に対して改善されたCVを示し、この正規化手順は、有害なサンプル処理アーチファクトに対して再現性を増加させていることを示す。逆に、検体は、6回のタイムトゥスピンの条件に亘って増幅されるタイムトゥスピンによって影響を受けた(
図19)。これは、適応正規化スキームが真の生物学的効果を増強するという以前の観察と一致する。この場合、サンプル処理アーチファクトは拡大されるが、多くの検体が影響を受ける慢性腎臓病のような他の場合において、我々は、影響を受けた検体についての効果サイズの同様の拡大を期待する。
【0124】
[Covance(コーヴァンス)]
次に、本出願人は、集団参照を導出するために使用されたコーヴァンス血漿サンプルにおいてANMLを検定した。単一サンプル適応スキームを用いて得られたスケールファクタの比較が、希釈群によって
図20に示されている。
図20は、SSAN及びANMLを用いたコーヴァンス(血漿)からのスケールファクタ間の一致プロットを示す。各ドットは個体を示し、実線は同一性を示す。2つの方法の間で非常に良好な一致が再び得られる。
【0125】
正規化のゴールは、アプタマーベースのプロテオミクスアッセイの間に生じる相関ノイズを除去することである。
図21は、ANMLの前後のコーヴァンスサンプルについての全ての一対の検体相関の分布を示す。赤色曲線は、検体間の負の相関がほとんどないか全くない、明確な正の相関バイアスを示す較正データの相関構造を示す。正規化後、この分布は、正及び負の相関を有する検体の異なる集団に再度中心合わせ(re-centered)される。
【0126】
次に、コーヴァンス喫煙状況を用いた洞察の生成及び検定について、ANMLがSSANとどのように比較されたかを調べた。
図22は、いくつかの方法によって正規化されたデータから得られた分布の比較を示す。これらの2つの検体についてのタバコ使用者(点線)及び非使用者(実線)についての分布は、ANMLとSSANとの間で実質的に同一である。
図22に示すアルカリホスファターゼの分布は、喫煙状況の最高の予測因子であり、ANML下で良好な識別を示す。
【0127】
本出願人は、SAMN正規化データ及びANML正規化データ下の10検体の複雑さを用いて喫煙状態を予測するためのロジスティック回帰分類子を、80/20/検定分割を用いて訓練した。各正規化の性能計測の要約を
図23に示す。
図23は、SSAN及びANMLで正規化されたデータを使用するホールドアウト検定セットの喫煙論理回帰分類子モデルの計測を示している。ANMLの下では、喫煙予測の性能に損失はなく、潜在的にわずかな利益が見られる。
【0128】
最大尤度による適応正規化は、基礎となる検体分布の情報を使用して、単一サンプルを正規化する。適応スキームは、影響を受けていない検体からのバイアス信号からの大きな事前分析変動を伴う検体の影響を防ぐ。ANMLと単一サンプル正規化との間のスケールファクタの高い一致は、小さな調整が行われている間に、それらが再現性及びモデル性能に影響を及ぼし得ることを示す。さらに、対照サンプルからのデータは、プレートの破損又はQC及び校正ーサンプルの再現性に変化を示さない。
【0129】
[PANのデータセットにおける適用]
分析は、ハイブリダイゼーション正規化され、内部的に校正されたデータから開始する。以下の全ての研究において、特に断らない限り、適応正規化法は、BH多重検定補正と共に、定義された群における差を検出するためにStudent's T検定を使用する。典型的には、正規化は、挙動を調べるために異なるカットオフ値で繰り返される。すべての場合において、適応正規化は、標準中央値正規化スキームと比較される。
【0130】
[Covance(コーヴァンス)]
コーヴァンスは、5つの異なる収集サイト(サンディエゴ、ホノルル、ポートランド、ボイシ、及びオースチン/ダラスに亘って健康な個体から血漿及び血清サンプルを収集した。テキサスサイトからの1つのサンプルのみがアッセイされ、従って、この分析から取り除かれた。各行列についての167コーヴァンスのサンプルをアプタマーベースのプロテオミクスアッセイ(V3アッセイ;5kメニュー)で泳動した。ここで、指示されたグループは、最初の4つの収集サイトによって定義される。
【0131】
適応正規化を用いてコーヴァンス血漿サンプル中で除去された検体の数は、2500以下、すなわち検体メニューの半分であるが、コーヴァンス血清サンプルについての測定は、有意な量のサイトバイアスを示さず、200未満の検体が除去された。検体測定c-RAFのための収集サイトによる経験的累積分布関数(cdfs)は、血漿測定について観察されたサイトバイアス、及び血清におけるそのようなバイアスの欠如を示す。
図24は、収集サイトによって着色された血漿及び血清サンプルにおけるc-Raf測定のための経験的CDFを示す。血漿サンプル分布(左)における顕著な差は、血清サンプル(右)において崩壊している。適応正規化は、統計学的検定によって問題があると思われる検定内の検体を除去するだけであり、したがって、コーヴァンスの血漿及び血清正規化は、観察された差に感度よく合わせられる。
【0132】
中央値正規化を伴う中心的な仮定は、臨床転帰(すなわち、この場合収集サイト)が、比較的少数の検体(例えば、<5%)に影響を及ぼし、検体信号にバイアスを導入することを回避することである。この仮定は、コーヴァンス血清測定について十分に当てはまり、コーヴァンス血漿測定については明らかに有効ではない。本出願人らの標準手順からの中央値正規化スケールファクタと適応正規化のそれとの比較は、血清について、適応正規化が標準スキームについてのスケールファクタを忠実に再現することを明らかにする。しかし、血漿については、多くの検体測定値は、標準的な正規化手順を使用することによって導入されるサイト依存性のバイアスを有する。
図25は、血漿(上)及び血清(下)における標準中央値正規化及び適応中央値正規化を用いたスケールファクタの一致プロットを示す。血漿中では、数千の検体が、適応スキームを用いて説明され、補正される有意なサイトバイアスを示す。血清において、200未満の検体は、2つの正規化スキームの間でスケールファクタの変化をほとんど又は全くもたらさない有意なサイトバイアスを示す。個々の点は、収集サイトによって着色された各サンプルについてのスケールファクタを表す。黒い線は同一性を示す。
【0133】
例えば、血漿中の4つのサイトの間で異なる信号を伝達しない検体を考える。ホノルル、ポートランド、及びサンディエゴのサンプルにおいてより高い信号伝達をする多数の他の検体に起因して、標準中央値正規化後のこれらの検体についての測定は、ボイシのサイトについて膨張され、一方、同時に、残りの3つのサイトについて収縮され、データに明確なアーチファクトを導入する。これは、
図25において、対角線の下に現れるボイズサンプルについての血漿スケールファクタ、対角線の上に残りのものが現れることにより観察される。
図26において、標準中央値正規化の誤適用が誘発し得るバイアスを説明するために、サイト差によって影響されない検体についてのサイトによるCDFが、標準正規化スキーム及び適応正規化について示される。適応正規化は、収集サイトバイアスに起因して正規化中にデータにアーチファクトが導入されることを阻止するために良好に動作する。強いサイトバイアスを示す検体については、適応正規化は差を保存するが、標準的な中央値正規化はこれらの差を減衰させる傾向がある(
図26のc-RAF参照)。ボイシを除くすべてのサイトの中央値RFUは、標準と比較して適応正規化セットの方が高い。
【0134】
コーヴァンスの結果は、適応正規化アルゴリズムの2つの重要な特徴を示す。
(1)収集サイトバイアス又は生物学的バイアスのないデータセットについて、適応正規化は、血清測定について示されるように、標準正規化中央値の結果を忠実に再現する。複数のサイト又は分析前変動又は他の臨床共変量が多くの検体測定値に影響を及ぼす状況では、適応正規化は、スケールファクタ決定中に変更された測定値を除去することによって、データを正しく正規化する。スケールファクタが計算されると、サンプル全体がスケーリングされる。
【0135】
実際には、中央値正規化におけるアーチファクトは、正規化中に生成されたスケールファクタのセットにおけるバイアスを探すことによって検出され得る。標準正規化中央値では、4つの収集サイト間でスケールファクタ分布に有意差があり、ポートランドとサンディエゴはボイズとホノルよりも類似している。
図27は、希釈及びコーヴァンス収集サイトによる血漿サンプル中央値正規化スケールファクタを示す。サイトによるスケールファクタのバイアスは、1%及び40%混合物における測定で最も明白である。サイト別のスケールファクタの分布に関する簡単なANOVA検定は、2.4×10
-7及び4.3×10
-6のp値での1%及び40%希釈測定について統計的に有意な差を示し、一方、0.005%希釈における測定は、0.45のp値でバイアスがないことを示す。適応正規化のために定義されたグループ間のスケールファクタバイアスのためのANOVA検定は、バイアスを導入することなく正規化を評価するための重要なメトリックを提供する。
【0136】
これは、
図28に示されており、ここでは、適応正規化における厳密さを増大させるために、q値カットオフを0.0(標準正規化中央値)から、0.05、0.25、及び0.5とした、正規化スケールファクタの中央値の分布が示されている。0.05カットオフでは、2557(~50%)の検体が、収集サイトとの可変性を示すものとして同定された。カットオフを0.25及び0.5に増加させると、3479及び4133の検体が同定される。しかしながら、カットオフを増加させることが中央値スケールファクタにおけるサイト特異的差異を除去する程度は無視できる。1%希釈における測定は、スケールファクタにおけるサイト特異的差異をもはや示さず、40%希釈におけるサイトバイアスは、q値において4logだけ有意に減少し、そして0.005%分布は、変化せず、そして最初にバイアスされなかった。
【0137】
[サンプル処理/タイムトゥスピン]
個体当たり複数のチューブを有する18個体から採取したサンプルを、室温で0、0.5、1.5、3、9、及び24時間回転させる前に載置させた。サンプルは、標準的なアプタマーベースのプロテオミクスアッセイを使用して測定された。
【0138】
特定の検体の信号は、サンプル処理アーチファクトによって劇的に影響される。具体的には、血漿サンプルについては、スピン前にサンプルを置いたままにしておく持続時間は、迅速に処理されるサンプルの10倍を超えて信号を増加させることができる。
図29は、タイムトゥスピンの関数としてのRFUにおける有意な差を示す検体についての典型的な挙動を示す。
【0139】
タイムトゥスピンが増加するにつれて信号が増加することが見られる検体の多くは、血小板活性化に依存する検体として同定されている(データは示さず)。正規化の中央値内でこのような検体についての測定値を使用することは、プロセスに劇的なアーチファクトを導入し、タイムトゥスピンによって影響されないサンプル全体を負に変化させることができる。逆に、
図29は、タイムトゥスピンに影響される正規化手順に検体を含めることによって測定値が歪められる可能性がある、タイムトゥスピンに感受性のないサンプル検体も示す。残りの測定値の完全性を保証するために、正規化手順から、何らかの理由で異常な測定値を除去することが重要である。
【0140】
このタイムトゥスピンデータセットに亘る標準正規化中央値は、タイムトゥスピングループにわたる中央値正規化スケールファクタにおける有意且つ系統的な差をもたらす。
図30は、タイムトゥスピンに関し、希釈による正規化スケールファクタの中央値を示す。スピン前に長期間載置されたサンプルは、より高いRFU値をもたらし、より低い中央値スケールファクタをもたらす。
【0141】
0.005%希釈のスケールファクタは、1%及び40%希釈よりもタイムトゥスピンの影響がはるかに少ない。これは、おそらく2つの明らかに異なる理由によるものであろう。1つめの理由は、血小板中にも存在する高度に豊富な循環検体の数が比較的少なく、したがって、0.005%希釈液中の血漿検体が血小板活性化によって影響を受けることが少ないことである。さらに、極端な処理時間は、サンプル中の細胞死及び溶解をもたらし、極めて基礎的な核蛋白質(例えば、ヒストン)を放出し、ネガティブコントロール上の信号によって証明されるように、非特異的結合(NSB)を増加させ得る。
【0142】
大きな希釈のために、NSBの効果は、0.005%希釈では観察されない。1%及び40%希釈についての正規化スケールファクタの中央値は、スピン時間に対して非常に強いバイアスを示す。スピン時間の増加に伴う信号の顕著な増加のために、短いタイム時間サンプルは、1よりも高いスケールファクタを有し、信号は中央値正規化によって増加される。そして、より長いタイムトゥスピンを有するサンプルは、1よりも低いスケールファクタを有し、信号は減少する。正規化スケールファクタにおけるこのような観察されたバイアスは、コーヴァンスサンプルにおいて上記で例示されたものと同様に、タイムトゥスピンによって影響されないこれらの検体についての測定におけるバイアスを生じる。
【0143】
多くの検体は、血漿サンプル中の血小板活性化によって影響を受ける。このため、これらのデータは、適応正規化法の極端な検定を表す。影響を受けた検体の数及び効果サイズの大きさの両方が非常に大きいからである。我々は、我々の適応正規化手順が、中央値正規化スケールファクタとタイムトゥスピンとの間のこの固有の相関を除去することができるかどうかを検定した。
【0144】
Kruskal-Wallisを用いて血漿のタイムトゥスピンサンプルに対して適応正規化を実行し、有意差を検定し、BHを用い多重比較のための制御を行った。Bonferroni多重比較補正も使用し、同様の結果を得た(図示せず)。カットオフp=0.05、1020、又は23%において、検体は、タイムトゥスピンと共に有意な変化を示すと特定された。カットオフを0.25、及び0.5に増加させると、有意な検体の数がそれぞれ1344及び1598に増加する。中央値正規化スケールファクタ対タイムトゥスピンにおける適応正規化の効果を
図31に纏めた。
【0145】
0.005%希釈内の検体は、標準中央値正規化でバイアスがなく、それらの値は、適応正規化によって影響を受けなかった。全てのカットオフレベルにおいて、1%希釈のためのスピン時間によるスケールファクタの変動性は除去されるが、40%希釈においては、それが劇的に減少されているにもかかわらず、いくらかの残留バイアスが依然として存在する。残存バイアスが血小板活性化及び/又は細胞溶解によって誘発されたNSBのせいである可能性を示唆する証拠がある。
【0146】
要約すると、適応正規化のために0.25というかなり厳しいカットオフを使用することは、標準正規化スキームにおいて観察されるバイアスを減少させるサンプルセットにわたる正規化をもたらすが、全てのアーチファクトを完全には軽減しない。これは、ここでは交絡因子であるNSBに起因し得、適応正規化は、平均してこの信号を除去し、これにより、スケールファクタにおける残りのバイアスを生じるが、検体信号におけるバイアスを潜在的に除去する。
【0147】
[CKD/GFR (CL-13-069)]
PBANの有用性の最終例には、おそらく一貫した収集であるが、対象となる基礎的な生理学的状態である慢性腎臓病(CKD)のために、極めて大きな生物学的作用を有する単一サイトからのデータセットが含まれる。
【0148】
357の血漿サンプルを含むCKD研究を、アプタマーベースのプロテオミクスアッセイ(V3アッセイ;1129-plexメニュー)で行った。サンプルを、健康な個体についてGFRが>90mls/min/1.73m2の範囲で、腎機能の尺度としての糸球体濾過速度(GFR)と共にサンプルが収集された。GFRは、採血前又は採血後のいずれかにイオヘキソールを用いて各サンプルについて測定した。本出願人は、イオヘキソール処理前/後の分析において区別を行わなかったが、対になったサンプルを分析から除いた。
【0149】
GFRの減少は、ほとんどの検体にわたる信号の増加をもたらし、したがって、標準的中央値正規化は問題となる。適応変数は現在では連続的であるため、データをGFR率(90超えの健常例、60~90の軽症例、40~60の症例、0~40の重症例)で細分化し、これらの群を適応正規化手順に含めて解析した。
標準的な正規化中央値を用いて、全希釈を通じた疾患(GFR)状態別の正規化尺度の中央値因子の有意差を観察し、GFRと血漿中の蛋白質濃度との間に強い逆相関があることを示している。
図32は、GFR値によって分割された希釈及び疾患状態による標準正規化スケールファクタの中央値を示す。この効果は、3つの希釈液全てに存在するが、0.005%混合液で最も弱く、観察されたバイアスのいくつかは、上記の例のようにNSBによるものであることを示唆している。
【0150】
疾患関連の指示された群及びp=0.05カットオフでの適応正規化を使用して、738(1211のうち)、又は61%の検体測定値を正規化中央値から除外した。正規化から除去された検体の数は、p=0.25及びp=0.5でそれぞれ1081(89%)及び1147(95%)に増加する。2つの他の研究におけるように、適応正規化は、p=0.05の保存的カットオフ値を使用して、0.005%及び1%希釈における疾患重症度とのスケールファクタの相関を除去したが、残存するが有意に減少した相関は40%希釈内に残った。p=0.5において、我々は、全てのGFRバイアスを除去したが、中央値の正規化から全ての検体のほぼ95%を除外したという犠牲を払った。
図33は、標準中央値正規化(上)及びカットオフによる適応正規化による希釈及び疾患状態による中央値正規化スケールファクタを示す。
【0151】
標準中央値正規化の仮定が無効である場合、標準中央値正規化を使用してデータにアーチファクトが導入される。検体測定値の大部分がGFRと相関するこの極端な場合には、標準中央値正規化は、すべての測定値が同じ基礎となる分布から引き出されるように見えるようにすることを試み、したがって、GFRとの検体相関を除去し、分析の感度を低下させる。CKD中のより高い信号伝達検体を「補正する」結果として、生物学によって影響されない検体信号を移動させることによって、さらなる歪みが導入される。これらの歪みは、真の生物学的信号とは反対に、蛋白質レベルとGFRとの間に正の相関を有する検体として観察される。
【0152】
図34は、これを、種々の正規化手順について、全ての検体とGFR (log/log)とのPearson相関のCDFと共に示す。標準中央値正規化(HybCalMed)は、分布を0にシフトさせ、検体信号とGFRとの間に偽陽性相関を導入する。適応正規化を使用すると、選択したカットオフ値の関数としてこの効果が減少する。
【0153】
GFRと検体レベルとの間の真の生物学的相関を保存することに加えて、適応正規化はまた、
図31に示されるように、アプタマーベースのプロテオミクスアッセイにおける相関ノイズから生じるアッセイ誘導蛋白質-蛋白質相関を除去する。非正規化データ、標準中央値正規化及び適応正規化についてのCKDデータセットについての蛋白質間ピアソン相関の分布を
図35に示す。
【0154】
正規化されていないデータは、~0.2を中心とし、~-0.3~+0.75の範囲の蛋白質間相関を示す。正規化されたデータでは、これらの相関は、0.0及び-0.5から+0.5の範囲にかなり集中している。多くの疑似相関は適応正規化によって除去されるが、適応正規化が蛋白質レベル及びGFRとの生理学的相関を保存することをすでに実証しているので、意味のある生物学的相関は保存されている。
【0155】
[PBAN法分析]
集団ベースの適応正規化の使用は、データセットに関連するメタデータに依存する。実際には、臨床変数、アウトカム、又は収集プロトコルが多数の検体測定に影響を及ぼす場合、標準的なデータワークアッププロセスから分析ツールに正規化を移動させる。本出願人は、分析前の変動ならびに極端な生理学的変動を有する検定を検討し、この手順は、性能の尺度としてスケールファクタにおけるバイアスを使用して良好に機能する。
【0156】
アプタマーベースのプロテオミクスアッセイデータ標準化は、ハイブリダイゼーション標準化、プレートスケーリング、キャリブレーション、及び標準中央値標準化からなり、おそらく、ソマロジックサンプル収集及び処理プロトコルに十分に準拠したものを使用して、収集され、社内で実行されるサンプルに十分である。コーヴァンス検定で使用された4つのサイトのように、遠隔で収集されたサンプルについては、サンプルが有意なサイトの差異(おそらくサイト間の匹敵するサンプル集団からのもの)を示すことができるので、この標準化プロトコルは当てはまらない。各臨床サンプルセットは、品質管理ステップとして、正規化スケールファクタの中央値におけるバイアスについて検査される必要がある。このようなバイアスを探索する指標には、標準的な正規化のための基本的な仮定に違反する可能性のある他の臨床的変量と同様に、既知であれば明確なサイトを含めるべきである。
【0157】
コーヴァンスの例は、適応正規化方法の能力を示す。血清検体の場合、標準正規化尺度の中央値の因子にサイト依存性のバイアスはほとんど観察されず、適応正規化手順は標準正規化の中央値の結果を本質的に再現する。しかし、コーヴァンス血漿サンプルの場合、標準正規化スケールファクタの中央値に極端なバイアスが観察された。適応正規化手順は、収集差によって影響されない検体測定値にアーチファクトを導入することなく、データを正規化する結果となる。適応正規化手順の力は、バイオマーカーがほとんどない十分に収集されたサンプルからのデータ、ならびに重篤な収集又は生物学的効果を有する研究からのデータを正規化する能力にある。この方法は、影響を受ける検体のみを除外しながら、関心のある測定基準によって影響を受けないすべての検体を含むように容易に適応する。これにより、適応正規化技術は、ほとんどの臨床研究への適用に非常に適したものとなる。
【0158】
正規化アーチファクトをアプタマーベースのプロテオミクスアッセイデータに導入するのを防ぐことに加えて、適応正規化方法は、生のアプタマーベースのプロテオミクスアッセイデータにおいて観察される相関ノイズによる偽相関を除去する。このことは、非正規化相関が0.0を中心とする一方で、蛋白質レベル及びGFRとの重要な生物学的相関が十分に保存されているCKDデータセットにおいて十分に示されている。
最後に、適応正規化は、収集サイトに亘って一致しないか、又は疾患状態と強く相関する検体を正規化計算から除去することによって機能するが、そのような差は、正規化後に保存され、さらには増強される。この手順は、収集サイトのバイアス、又はGFRに起因する蛋白質レベルを「補正」しない。むしろ、このような大きな差異効果が、データ中にアーチファクトを導入し、そして蛋白質シグネチャーを破壊するので、正規化の間に除去されないことを確実にする。逆も真であり、殆どの差は適応正規化後に強調され、一方、未分化測定はより一貫して行われる。
【0159】
[結論]
出願人は、少数の検体(例えば、測定値の5%未満)を含む生物学的応答を有する一貫して収集されたサンプルを用いて、データセットの標準正規化を再現するロバストな正規化手順(集団ベースの適応正規化、aka PBAN)を開発した。サイト依存性のバイアス(分析前の変動)を有する収集物について、又は多くの検体が影響を受ける臨床集団の研究について、適応正規化手順は、意図しないサンプルバイアスに起因するアーチファクトの導入を防ぎ、そして生物学的応答を弱めない。ここに提示された分析は、正規化の間、主要な臨床変数もしくは収集サイト、又はその両方を使用して正規化を導くための適応正規化の使用を支持する。
【0160】
本明細書に記載される3つの正規化技術は、それぞれの利点を有する。適切な手技は、利用可能な臨床データ及び参考データの程度に依存する。例えば、ANMLは、参照集団に対する検体測定値の分布が既知である場合に使用することができる。さもなければ、SSANは、サンプルを個別に正規化するための近似として使用されることができる。さらに、集団適応正規化技術は、サンプルの特定のコホートを正規化するために有用である。
【0161】
適応プロセスと反復プロセスとの組み合わせは、サンプル測定が、バイアススケールファクタからの参照分布外の検体測定の潜在的な影響なしに、参照分布の周りに再センタリングされることを確実にする。
【0162】
記載された実施形態を参照して本発明の原理を記載し、図示したが、記載された実施形態は、そのような原理から逸脱することなく、配置及び詳細において修正され得ることが認識されるであろう。ソフトウェアで示される実施形態の要素は、ハードウェアで実現することができ、その逆も可能である。
【0163】
本発明の原理を適用することができる多くの可能な実施形態を考慮して、本発明は、以下の特許請求の範囲及びその均等物の範囲及び精神内に入ることができるようなすべての実施形態を本発明として請求する。