(58)【調査した分野】(Int.Cl.,DB名)
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体のコンテンツはプログラムを含み、該プログラムは、相関する変数を識別するための方法を実現するように、プロセッサ上で実行される命令を有し、
該命令は、
複数のサンプルから入手された複数の変数の主成分分析を実行するステップと、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップであって、該部分集合主成分空間において、該複数の変数の各々は、M次元を有するベクトルとして代表され、Mは、主成分の数である、ステップと、
該部分集合主成分空間の原点から最も遠くにある該部分集合主成分空間における変数を選択するステップと、
該原点から該選択された変数に延びるベクトルの周囲に空間角度を規定するステップと、
該ベクトルの該空間角度内にあり、該部分集合主成分空間にあり、かつ所定の閾値の値よりも大きい原点からの距離を有する1つ以上の変数の集合を選択するステップと、
該集合が最小数の変数を含む場合、該集合を群に割り当てるステップであって、
該群は、相関する変数を識別し、該変数の最小数は、群が含むと期待される相関する変数の数であり、
該相関する変数は、互いに相関する変数である、ステップと、
該原点の反対側において該ベクトルを含む線を延ばすステップであって、該線は、原点から、該原点の反対側におけるベクトルまで延びている、ステップと、
該原点の該反対側における該線の周囲の空間角度内における1つ以上の変数の第2の集合を選択するステップと、
該集合および該第2の集合が該最小数の変数を含む場合、該第2の集合を該群に付加するステップと
を含む、コンピュータ可読記憶媒体。
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体のコンテンツは、プログラムを含み、該プログラムは、畳み込みピークを識別するための方法を実現するように、プロセッサ上で実行される命令を有し、
該命令は、
複数のスペクトルを入手するステップと、
多変量分析技法を使用して、該複数のスペクトルから複数の群にデータ点を割り当てるステップであって、該多変量分析技法は、教師なしクラスタリングアルゴリズムを含み、該教師なしクラスタリングアルゴリズムは、該データ点に主成分分析を実行するステップと、該データ点を該複数の群に割り当てるために、該主成分分析の後に、相関するデータ点を識別するための方法を使用するステップとを含み、該データ点を該複数の群に割り当てるために、該主成分分析の後に、相関するデータ点を識別するための方法は、
該主成分分析により生成される主成分の数を選択するステップと、
該数の主成分を有する部分集合主成分空間を形成するステップと、
該部分集合主成分空間の原点から最も遠くにある該部分集合主成分空間におけるデータ点を選択するステップと、
該原点から該選択されたデータ点にベクトルを延ばすステップと、
該部分集合主成分空間にあり、該ベクトルの周囲の空間角度内にあり、かつ所定の閾値の値よりも大きい原点からの距離を有する1つ以上のデータ点を、相関するデータ点の群として識別するステップと、
該原点の反対側において該ベクトルを含む線を延ばすステップであって、該線は、原点から、該原点の反対側におけるベクトルまで延びている、ステップと、
該原点の該反対側における該線の周囲の空間角度内における1つ以上の変数の第2の集合を選択するステップと、
該集合および該第2の集合が該最小数の変数を含む場合、該第2の集合を該群に付加するステップと、
該相関するデータ点の群を該複数の群に割り当てるステップと
を含む、ステップと、
該複数のスペクトルからピークを選択するステップと、
該ピークが、該複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、該ピークを畳み込みピークとして識別するステップと
を含み、
該相関するデータ点は、互いに相関するデータ点である、コンピュータ可読記憶媒体。
【発明を実施するための形態】
【0006】
本教示の1つ以上の実施形態について詳述する前に、当業者は、本教示が、その用途において、以下の詳細な説明に記載され、かつ図面に図示される構築の詳細、構成要素の構成、およびステップの構成に限定されないことを理解するであろう。また、本明細書において使用する表現および専門用語が説明目的のものであり、限定的なものとして見なすべきではないことも理解されたい。
【0007】
(コンピュータにより実装されるシステム)
図1は、本教示の実施形態が実装され得るコンピュータシステム100を例証するブロック図である。コンピュータシステム100は、バス102または情報を通信するための他の通信機構と、情報を処理するためのバス102に連結されるプロセッサ104とを含む。また、コンピュータシステム100は、ランダムアクセスメモリ(RAM)または他の動的記憶装置であり得るメモリ106であって、ベースコールを判断するためのバス102に連結されるメモリ106と、プロセッサ104が実行する命令とを含む。また、メモリ106は、プロセッサ104が実行する命令の実行中に一時変数または他の中間情報を格納するため使用され得る。さらに、コンピュータシステム100は、静的情報およびプロセッサ104のための命令を格納するための、バス102に連結される読み取り専用メモリ(ROM)108または他の静的記憶装置を含む。磁気ディスクまたは光ディスク等の記憶装置110は、情報および命令を格納するためにバス102に提供および連結される。
【0008】
コンピュータシステム100は、コンピュータユーザに情報を表示するための陰極線管(CRT)または液晶ディスプレイ(LCD)等のディスプレイ112に、バス102を介して連結され得る。アルファベットキーおよび他のキーを含む入力機器114は、情報選択およびコマンド選択をプロセッサ104に通信するためにバス102に連結される。別の型のユーザ入力機器として、情報選択およびコマンド選択をプロセッサ104に通信するため、およびディスプレイ112上のカーソル移動を制御するためのマウス、トラックボール、またはカーソル方向キーが挙げられる。この入力機器は、典型的には、平面における位置を機器が特定することを可能にする第1の軸(すなわち、x)および第2の軸(すなわち、y)の2つの軸において2つの自由度を有する。
【0009】
コンピュータシステム100は、本教示を実行することが可能である。本教示の特定の実装に一致して、メモリ106に含まれる1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ104に応答して、コンピュータシステム100により結果が提供される。このような命令は、記憶装置110等の別のコンピュータ可読媒体からメモリ106に読み込まれ得る。メモリ106に含まれる命令のシーケンスの実行により、プロセッサ104は、本明細書に説明するプロセスを実行する。代替として、本教示を実装するために、ソフトウェア命令の代わりに、またはそれと組み合わせて配線接続回路を使用し得る。したがって、本教示の実装は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
【0010】
本明細書において使用する際、用語の「コンピュータ可読媒体」は、実行するために命令をプロセッサ104に提供することに関与する任意の媒体をいう。このような媒体は、不揮発性媒体、揮発性媒体、伝送媒体を含むがこれらに限定されない多数の形式をとり得る。不揮発性媒体は、例えば、記憶装置110等の光ディスクまたは磁気ディスクを含む。揮発性媒体は、メモリ106等の動的メモリを含む。伝送媒体は、同軸ケーブル、銅線、および光ファイバーを含み、バス102を備えるワイヤを含む。また、伝送媒体は、電波および赤外線データ通信中に生成される波等の音波または光波の形式をとることも可能である。
【0011】
コンピュータ可読媒体の一般的な形式には、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープもしくは任意の他の磁気媒体、CD−ROM、任意の他の光媒体、パンチカード、穿孔テープ、孔のパターンを含む任意の他の物理媒体、RAM、PRO、およびEPROM、FLASH−EPROM、任意の他のメモリチップもしくはカートリッジ、以下に説明する搬送波、またはコンピュータがそこから読み取り可能な任意の他の媒体が含まれる。
【0012】
種々の形式のコンピュータ可読媒体は、実行するために、1つ以上の命令の1つ以上のシーケンスをプロセッサ104に搬送することに関与し得る。例えば、命令は、初めに、遠隔コンピュータの磁気ディスク上において搬送され得る。遠隔コンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線上で命令を送信する。コンピュータシステム100にローカルなモデムは、電話線上でデータを受信し、データを赤外線信号に変換するために赤外線送信機を使用することが可能である。バス102に連結される赤外線検出器は、赤外線信号において搬送されるデータを受信し、データをバス102上に置くことが可能である。バス102は、データをメモリ106に搬送し、プロセッサ104は、メモリ106から命令を読み出して実行する。メモリ106から受信した命令は、プロセッサ104による実行前または実行後のいずれかに、記憶装置110に格納され得る。
【0013】
種々の実施形態によると、方法を実行するためにプロセッサにより実行されるように構成される命令は、コンピュータ可読媒体上に格納される。コンピュータ可読媒体は、デジタル情報を格納する機器であり得る。例えば、コンピュータ可読媒体は、ソフトウェアの格納のための当技術分野において既知であるように、コンパクトディスク読み取り専用メモリ(CD−ROM)を含む。コンピュータ可読媒体は、実行されるように構成される命令の実行に適切なプロセッサによってアクセスされる。
【0014】
本教示の種々の実装に関する以下の説明は、例証および説明の目的のために提示されている。これは、包括的ではなく、開示する正確な形式に本教示を限定しない。修正および変形は、上記教示を考慮して可能であるか、または本教示の実施により入手され得る。さらに、説明する実装は、ソフトウェアを含むが、本教示は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実装され得る。本教示はオブジェクト指向および非オブジェクト指向のプログラミングシステムとともに実装され得る。
【0015】
(PCA)
主成分分析(PCA)は、データの視覚化および分類に役立てるために広く使用される多変量分析(MVA)ツールである。PCAは、多次元データ集合の次元性を低下させるとともに、その分散に最も寄与するデータ集合の特徴を保持するために使用され得る統計的技法である。このため、しばしばPCAを使用して、線形判別分析(LDA)等の高次元性データに十分対処しない技法のデータを事前処理する。
【0016】
PCAによって、元の集合における情報の大部分を代表する主成分(PC)変数の実質的により小さい集合への変数の元の集合の固有ベクトル変換を使用して、多数の相互関連する変数の次元性を低下させることが可能である。変数の新しい集合は、最初のいくつかが、元の変数の全てに存在する変動の大部分を保持するように順序付けられる。より具体的には、各PCは、全ての元の測定変数の線形結合である。第1のPCは、観測変数の最大分散の方向におけるベクトルである。後続のPCは、測定データの最大変動を代表するように、かつ前に計算されたPCに直交するように選択される。ゆえに、PCは、重要度の降順に配置される。PCAにより抽出されたPCの数(n)は、サンプル数または変数の数の小さい方を上回ることが不可能である。しかしながら、変数の多くは、データ集合における雑音に対応し、有用な情報を含まない。
【0017】
PCAは、データを行列(以下、「入力行列」と呼ぶ)の形式で提示することを必要とし、この場合、例えば、行はサンプルを表し、列は変数を表し、入力行列の要素またはセルは、特定のサンプルにおけるその変数の量を標示する。代替として、入力行列は、変数を表す行、サンプルを表す列、および特定のサンプルにおいてその変数の量を表す要素を含み得る。後者の場合、負荷量プロットに適用するように説明される処理は、代わりに得点プロットに適用される。入力行列は、一連の得点ベクトルおよび負荷量ベクトルに分解可能である。負荷量ベクトルは、各変数の特定のPCへの寄与を標示する。得点ベクトルは、特定のサンプルにおける各成分の量の尺度である。
【0018】
得点プロットおよび負荷量プロットは、2つ以上のPCを軸が表現する場合に表示可能であり、サンプルは、その得点に従って配置され、変数は、負荷量に従って配置される。得点は、サンプルに存在する各PCの量を反映し、負荷量は、各変数のPCに対する重要性を標示する。
【0019】
PCAは、任意のサンプル群に関する知識を必要としない教師なし技法であるが、この情報は、頻繁に入手可能であり、得点プロットの解釈に役立つ。サンプル群に関する知識は、例えば、期待された方式でサンプルが分離するか否かを判断するのに役立てることが可能である。得点プロットとは対照的に、負荷量プロットは、特に多数の変数が存在し、かつ支配的なものが無い場合、または強度の影響の除去のためにデータが自動スケーリングされた場合に、解釈するのが極めて困難であり得る。
【0020】
PCAの前に相関する変数を除去することが一般的であるが、その識別を、さらなる解釈に役立てることが可能である。例えば、質量スペクトルデータでは、相関するピークは、予測不可能な断片であるか、または同位体、付加体、および異なる荷電状態を含むがこれらに限定されない既知の原因を有し得る。予測不可能な断片を認識することによって、スペクトルを生成した化合物の識別に役立てることが可能である。したがって、これによって、相関する特徴を発見するために負荷量プロットを解釈することが可能になるため、PCAの実行前に相関する変数を除去するのではなく、生データから抽出された全変数を保持することが有益であり得る。本質的に、PCAは、サンプルを分離およびグループ化するために変数を使用するが、変数を分離およびクラスタ化するためにもサンプルを使用する。相関する変数が識別されると、例えば、相関する変数の集合をいくつかの群代表に置換することを含む多数の方式で相関する変数を簡略化することが可能であり、群代表には、相関する変数のうちの最も強力な変数、相関する変数の平均強度を有する変数、または相関する変数の和が含まれるがこれらに限定されない。
【0021】
(データ処理の方法)
図2は、本教示に一致する、複数のサンプルからの複数の変数のPCAの後に相関する変数を識別するためのコンピュータにより実装される方法200を示す例示的フローチャートである。
【0022】
方法200のステップ210では、PCAにより生成されるPCの数が選択される。選択されるPCの数は、例えば、PCAにより生成されるPCの全数よりも少ない。種々の実施形態では、選択されるPCの数は、全分散の指定割合を代表する最小数である。
【0023】
ステップ220において、選択されたPCの数を有する部分集合PC空間が形成される。
【0024】
ステップ230において、変数が、部分集合PC空間において選択される。選択される変数は、例えば、原点から最も遠い変数である。
【0025】
ステップ240において、部分集合PC空間の原点から、選択された変数まで延びるベクトルの周囲の空間角度が規定される。
【0026】
ステップ250において、部分集合PC空間における1つ以上の変数の集合が、ベクトルの空間角度内において選択される。種々の実施形態では、集合内の1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は第1の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【0027】
ステップ260において、集合が最小数の変数を含む場合、集合は群に割り当てられる。群は、例えば、相関する変数を識別する。変数の最小数は、例えば、群が含むと期待される相関する変数の数である。変数の最小数は、例えば、1または1を上回る数であり得る。
【0028】
種々の実施形態では、方法200は、また、群から第2のベクトルを計算するステップと、第2のベクトルの空間角度内において1つ以上の変数の第2の集合を選択するステップと、第2の集合が最小数の変数を含む場合、群の変数を第2の集合の変数と置換するステップとを含み得る。第2のベクトルの空間角度は、ステップ240において規定される空間角度と同一であり得るか、または第2のベクトルの空間角度は、ステップ240において規定される空間角度とは異なる空間であり得る。第2のベクトルは、群における変数の任意の線形または線形結合であり得る。例えば、第2のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態では、第2の集合内における1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は第2の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【0029】
種々の実施形態では、方法200は、識別される各群に異なる記号を割り当てるステップも含み得る。次いで、これらの記号を使用して、負荷量データを可視化および解釈することが可能である。
【0030】
種々の実施形態では、方法200は、群に反相関する変数の集合を割り当てるステップも含み得る。これは、部分集合PC空間の原点の反対側においてベクトルを含む線を延ばすステップと、原点の反対側における線の空間角度内における1つ以上の変数の第2の集合を選択するステップと、集合および第2の集合が最小数の変数を含む場合、第2の集合を群に付加するステップとを含む。種々の実施形態では、第2の集合内における1つ以上の変数が閾値未満の有意値を有する場合、1つ以上の変数は第2の集合に選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。
【0031】
種々の実施形態では、方法200は、また、さらなる分析から集合を除去するステップと、PC空間において第2の変数を選択するステップと、部分集合PC空間の原点から第2の変数に延びる第2のベクトルの空間角度内における1つ以上の変数の第2の集合を選択するステップと、第2の集合が最小数の変数を含む場合、第2の集合を第2の群の変数に割り当てるステップとを含み得る。第2の群は、相関する変数も識別する。変数の最小数は、例えば、1または1を上回る数であり得る。第2の変数は、例えば、部分集合PC空間の原点から最も遠くにある割り当てられていない変数であり得る。
【0032】
種々の実施形態では、方法200は、また、第2の群から第3のベクトルを計算するステップと、第3のベクトルの空間角度内における1つ以上の変数の第3の集合を選択するステップと、第3の集合が最小数の変数を含む場合、第2の群の変数を第3の集合の変数と置換するステップとを含み得る。第2の群の変数は、例えば、第2の集合から割り当てられる。第3のベクトルは、第2の群における変数の任意の線形または線形結合であり得る。例えば、第3のベクトルは、算術平均、加重平均、中央値、または幾何平均であり得るが、これらに限定されない。種々の実施形態では、閾値未満の有意値を有する第3の集合内における1つ以上の変数は、選択されない。有意値は、例えば、最小距離パラメータである。最小距離パラメータは、例えば、原点から最小距離にある。視覚化目的および解釈目的のために、第2の異なる記号を第2の群に割り当て得る。
【0033】
種々の実施形態では、方法200は、第2の群に反相関する変数の集合を割り当てるステップも含み得る。これは、原点の反対側に第2のベクトルを含む線を延ばすステップと、原点の反対側における線の空間角度内における1つ以上の変数の第3の集合を選択するステップと、集合および第3の集合が最小数の変数を含む場合、第3の集合を第2の群に付加するステップとを含む。変数の最小数は、例えば、1または1を上回る数であり得る。種々の実施形態では、第3の集合内における1つ以上の変数が閾値未満の原点からの距離を有する場合、1つ以上の変数は選択されない。閾値は、例えば、最小距離パラメータである。
【0034】
種々の実施形態では、方法200は、割り当てられた群をソートするステップも含み得る。ソートするステップは、例えば、各群における原点からの最大距離によって実行可能である。
【0035】
種々の実施形態では、方法200は、また、ステップ260において群に割り当てられた変数をさらなる分析から除去するステップと、さらなる分析から最後に割り当てられた群の変数を除去するステップを繰り返すステップと、部分集合PC空間において新しい変数を選択するステップと、原点から新しい変数に延びる新しいベクトルの空間角度内における1つ以上の変数の新しい集合を選択するステップと、新しい集合が最小数の変数を含む場合、新しい集合を新しい群に割り当てるステップと、群に割り当てられない残りの変数が閾値を上回らなくなるまでさらなる分析から新しい群の変数を除去するステップとを含み得る。閾値は、例えば、原点からの距離であり得る。これらのステップを繰り返すことによって、例えば、相関する変数の複数の群が生成される。
【0036】
上述のように、多数の変数および比較的少ないサンプルを有するデータにPCAを適用することが可能である(本データは、高次元性を有すると言われる)。他の分析技法は、サンプルの数が変数の数を上回るデータを必要とする。これらの他の分析技法の例として、線形判別分析(LDA)および独立成分分析(ICA)が挙げられるがこれらに限定されない。ゆえに、PCAを使用して、LDAおよびICA等の他の分析技法において使用するために、データの次元性を低下させることが可能である。低下した次元は、群のPCまたは群代表であり得る。群が元の変数の解釈可能な組み合わせであるため、群代表を使用することが好ましい。
【0037】
種々の実施形態では、方法200は、また、群代表を群に割り当てるステップと、群代表および複数のサンプルを、後続の分析技法への入力として使用するステップとを含み得る。群代表には、群の最も強力な変数、群の平均強度を有する変数、または群の変数の和を含め得るが、これらに限定されない。後続の分析技法には、クラスタリング技法またはパターン認識技法を含め得るが、これらに限定されない。後続の分析技法には、LDAまたはICAを含め得るが、これらに限定されない。
【0038】
種々の実施形態では、方法200は、また、後続の分析技法への入力のための新しい変数を生成するために群代表を処理するステップも含み得る。後続の分析技法には、LDA、ICA、またはPCAを含め得るが、これらに限定されない。群代表を処理するステップには、例えば、群代表および少なくとも1つの他の群代表の非線形結合を生成するステップを含め得るが、これに限定されない。例えば、新しい変数は、群代表および別の群代表の比率であり得る。
【0039】
本教示の種々の実施形態では、例えば、高強度変数が分析を支配しないように、PCA処理の前にデータスケーリングが実行される。スケーリング技法の1つとして、まず変数の全ての値の平均を減算し(すなわち、平均中心化)、次いで変数の分散で割ることによって変数毎の値を処理する自動スケーリングが挙げられる。自動スケーリングは、全ての変数を同等に重み付けし、変数に関連性が無く、かつ大幅に異なるスケールを有し得る場合に適切である。しかしながら、変数が全て同一の種類であり(すなわち、質量スペクトルピークまたはクロマトグラフピーク)、変数が強力なほど有意であり、雑音である可能性が低い場合、パレートスケーリングが、より有利であり得る。パレートスケーリングでは、平均中心化値は、分散の平方根で割られる。パレートスケーリングは、元の強度寄与を低減するが排除せず、負荷量プロットの解釈に役立つ。
【0040】
図3は、本教示に従う、1つ以上の変数340の集合を、選択された変数360の空間角度350内においていかに探索可能であるかを示す例示的な
図300である。
図3に示す3次元PC空間は、PC、PC1 310、PC2 320、およびPC3 330を含む。変数360は、この3次元PC空間において選択される。空間角度350は、原点から選択された変数360へ延びるベクトルの周囲に規定される。空間角度350内に探索される1つ以上の変数は、1つ以上の変数340の集合として選択される。
【0041】
図4は、本教示に一致する測定技法により生成される複数のサンプルからの複数の変数のPCAの後に変数をグループ化するためのコンピューティングシステム400を示す例示的な略図である。コンピューティングシステム400は、グループ化モジュール410を含む。グループ化モジュール410は、PCAにより生成されるPCの数を選択し、その数のPCを有する部分集合PC空間を形成し、変数を選択し、原点から変数に延びるベクトルの周囲に空間角度を規定し、ベクトルの空間角度内における1つ以上の変数の集合を選択し、集合が最小数の変数を含む場合、集合を群に割り当てる。群モジュール410は、例えば、プロセッサである。
【0042】
コンピューティングシステム400の種々の実施形態では、複数の変数は、サンプルの成分当たりに複数の変数を生成する測定技法を使用して生成可能され得る。複数の変数は、例えば、
図15に示す測定機器を使用して生成される。測定機器には、分光計または質量分析計を含め得るが、これらに限定されない。測定技法には、核磁気共鳴、赤外分光法、近赤外分光法、紫外分光法、ラマン分光法、または質量分析を含め得るが、これらに限定されない。種々の実施形態では、複数の変数は、別々の技法と組み合わせたサンプルの成分当たりに複数の変数を生成する測定技法を使用して生成可能され得る。別々の技法には、液体クロマトグラフィ、ガスクロマトグラフィ、またはキャピラリー電気泳動を含め得るが、これらに限定されない。
【0043】
種々の実施形態では、グループ化モジュール410は、PC空間において第2の変数を選択し、原点から第2の変数に延びる第2のベクトルの空間角度内において1つ以上の変数の第2の集合を選択し、第2の集合が最小数の変数を含む場合、第2の集合を第2の群の変数に割り当てることも可能である。
【0044】
本教示に一致する別のコンピュータにより実装される方法について以下に概説する。
1.パレートスケーリングを使用して全変数においてPCAを実行する。
2.使用するPCの数(m)を判断する。抽出された全n個のPCを使用することによって、元のデータが厳密に再現される。しかしながら、これらのPCの多くは、データにおける雑音変動を代表し、情報を損失せずに無視することが可能である。m個のPCを効果的に選択することによって、データを平滑化することが可能である。各変数は、このm次元空間においてベクトルによって代表される。
3.原点から最も遠い変数に対応する標的ベクトル(t)を判断する。これを効果的にするために、自動スケーリングは使用しない。自動スケーリングは、小雑音ピークを含む全変数を同等に重み付けするため望ましくない。
4.このベクトルの周囲に空間角度(α)を規定し、その角度内にある他のデータ点(ベクトル)を探索し、任意により、低強度変数を無視する。第2のベクトルがxである場合、xと対象ベクトルとの間の角度(θ)は、以下から探索可能である。
x.t=|x||t|cos(θ)
5.選択された全ベクトルの平均を計算し、新しい平均ベクトルを使用してステップ3を繰り返し、選択された全変数を群に割り当てる。このような「再中心化」は、空間角度の配向を微調整し、ある方式において最も強力な変数が異型である場合に効果的であり得る。例えば、プロファイルは、ピークが最も集中されたサンプルにおいて飽和する場合に歪み得る。パレートスケーリングを使用しているため、平均ベクトルを計算することによっても、イオンの強度が小さいほど、結果に及ぼす影響が小さくなる。
6.ステップ3からプロセスを繰り返し、強度が十分である残りの変数が無くなるまで、先行してグループ化された変数を無視する。
【0045】
図5は、n次元空間におけるデータの処理に使用可能であり、かつ本教示に一致するコンピュータにより実装される方法500を示す例示的フローチャートである。
【0046】
方法500のステップ510において、PCAが全変数に実行され、PCの指定の部分集合が使用される。
【0047】
ステップ520において、低有意性の変数が除去される。選択されたスケーリングおよびPCA有意性特性に関して低有意性を有する変数をフィルタにかけて除去するステップは、任意である。同一の効果は、変数のグループ化の後にステップを付加することによって、および異なる有意性基準を使用することによって達成可能である。使用可能である別の有意性基準は、例えば、光学的コントラストである。
【0048】
ステップ530において、原点から最も遠い割り当てられていない変数のベクトルが探索される。
【0049】
ステップ540において、ベクトルの空間角度内における全ベクトルが探索される。
【0050】
ステップ550において、ベクトルの空間角度内におけるベクトルの平均が探索される。
【0051】
ステップ560において、平均の空間角度内における全ての割り当てられていない変数が探索され、群に割り当てられる。次いで、群に割り当てられた変数は、処理から除去される。
【0052】
ステップ570において、処理する任意の変数が残っている場合、方法500は、ステップ530に戻る。処理する変数が残っていない場合、方法500は終了する。
【0053】
本処理の結果は、さらに解釈可能である相関する変数の多数の群であるか、または後続の分析技法への入力として使用可能である群代表である。視覚化目的のために、記号を群に割り当てることによって、負荷量プロットにおいてグループ化された変数を識別することが有用である。解釈は、群の全メンバーの強度またはプロファイルを生成することによって支援され得る。
【0054】
以下の例を考慮して本教示の側面についてさらに理解することができるが、以下の例は、本教示の内容を限定するものとして決して解釈されるべきではない。
【0055】
(ソフトウェアの例)
図6は、本教示に従う、ソフトウェアツールが変数グループ化を実行するための、ユーザインターフェース600の例示的な画像である。ユーザインターフェース600およびソフトウェアツールは、既存の視認プログラムとともに使用することが可能である。既存の視認プログラムの1つに、例えば、Applied Biosystems/MDS SciexからのMARKERVIEW
TMが挙げられる。
【0056】
ソフトウェアツールは、既存の視認プログラムの実行中や、いくつかのデータを処理して得点プロットおよび負荷量プロットを生成した後に実行可能である。開始すると、ソフトウェアツールは、視認プログラムに問い合わせを行ない、負荷量データを入手することが可能である。処理の後、ソフトウェアツールは、データ点に記号が割り当て可能になるように、視認プログラムの負荷量テーブルにおける「群」列を設定することが可能である。
【0057】
PCの数は、3つの方式で選択可能である。1つ目の方式では、PCの数は、選択610を選ぶことによって、負荷量プロットにおいて表示中のPCに基づくことが可能である。2つ目の方式では、特定の数のPCは、選択620を使用して入力可能である。3つ目の方式では、ソフトウェアツールが、選択630を使用して、所与の量の分散を説明するPCの数を選択することが可能である。所与の量の分散を説明するPCの数を選択することによって、無視する雑音量の何らかの制御が可能になる。
【0058】
ユーザインターフェース600のフィールド640では、ユーザは、空間角度パラメータを入力することが可能である。フィールド650では、ユーザは、最小強度または原点からの最小距離のパラメータを入力することが可能である。必要に応じて、ユーザインターフェース600上の「小値の排除」ボタン660を使用して、原点からの最小距離のパラメータ未満の変数を、任意の後続分析に使用しないように除去するようにマークを付けることが可能である。
【0059】
ユーザインターフェース600からの選択665を使用して、自動グループ化または手動グループ化を選択することが可能である。手動の場合、ユーザは、負荷量プロットの対象の変数を選択することが可能であり、ソフトウェアツールは、開始点としてその変数を使用して、単一の群を抽出する。ユーザインターフェース600上の選択665を使用して自動処理を選択することによって、ユーザは、群を開始するためのフィールド670において追加の閾値を入力することが可能になり、これは、より大きい変数を含む群に割り当てられる場合に、小さい変数を考慮することが可能であるが、小さい変数を新しい群の開始に使用不可能であることを意味する。また、ユーザインターフェース600は、群が最小数の変数を含むことを必要とするフィールド675も含み得る。フィールド675は、データが多数の相関する変数を含むと考えられる場合に使用可能である。
【0060】
前述のように、相関する変数は、実質的に同一の直線上にあり、負荷量プロットの原点の同一側にある。ソフトウェアツールは、任意により、同一の群に、原点の反対側における線の延長に近接する変数を含め得る。これらの変数は、反相関する。相関群および反相関群を含めることは、ユーザインターフェース600からの選択680を使用して選択可能である。
【0061】
最後に、ユーザインターフェース600の選択685を使用して、ユーザは、割り当てられた群を、例えば、開始変数の強度に基づいて、または第1の変数に対するm次元空間における近接性に基づいてソートさせるように選択することが可能である。
【0062】
ユーザインターフェース600は、PCの数の選択に関する3つの方式(すなわち、選択610、620、および630)を示すが、ソフトウェアツールは、有意の数を判断するために、任意の既知のアルゴリズムを使用することが可能である。実際は、本教示に説明する手法は、使用するPCおよび群の数を繰り返して判断するために使用可能である。典型的には、PCの数の増加は、PCが、群の数を急増させ得る雑音に大部分が起因するまでほとんど影響を及ぼさない。結果として、使用するPCの数は、群の数を急増させる値未満の値に限定され得る。
【0063】
(データの例)
本教示の種々の実施形態では、PC負荷量を分析して関連する変数、例えば、一連のサンプルから類似の代表パターンを示す変数を判断するための方法について説明する。これらの方法は、質量分析(MS)データを使用して例証される。しかしながら、これらの方法は、他の用途に適用可能である。
【0064】
データは、核磁気共鳴(NMR)、赤外分光法(IR)、近赤外分光法(NIR)、紫外分光法(UV)、ラマン分光法、または質量分析(MS)等の多種多様の分光技法を使用して各サンプルを分析することによって生成され得る。また、分析は、上記分光技法のうちの1つを、液体クロマトグラフィ(LC)、ガスクロマトグラフィ(GC)、またはキャピラリー電気泳動(CE)等のクロマトグラフ分離と結合する複合技法を使用して実行され得る。例示的複合技法として、液体クロマトグラフィ質量分析(LC−MS)が挙げられる。パターンは、病気または治療による処置に起因する変化等の、対象の実際の生物学的変動に起因し得るか、または無視され得る分析の人為的な結果であり得る。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【0065】
これらの方法の別の例示的用途は、複合技法からのデータにおけるピークの探索であり得る。データは、上記に列挙する例示的複合技法を使用して、分離プロセスの排水から一連のスペクトルを収集することによって生成される。パターンは、分離から溶出するピークとして観測される強度プロファイルに起因する。関連する変数は、同一の変動パターンを有し、重なり(非分解)ピークを判断することが可能である。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【0066】
これらの方法の別の例示的用途は、組織画像データの解釈であり得る。データは、生物組織のサンプルにおける種々の点において、スペクトル等の複数の測定を提供可能である任意の技術によって生成される。パターンは、組織の異なる部分における化合物の量の変動に起因し、器官および細胞小器官等の異なる特徴または構造に対応し得る。関連することが発見された変数を解釈して、パターンを引き起こす化合物を判断することが可能である。
【0067】
MSデータでは、入力行列の列における変数は、概して、質量瓶または重心値であり、液体クロマトグラフィと結合した質量分析(LC−MS)では、変数は、質量対電荷比(m/z)および保持時間によって特徴付けられる。どちらの場合においても、データは、全サンプルにおける同一信号を変数が指すことを確実にするように整列される。
【0068】
図7は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータの2つのPCの例示的得点プロット700である。
図7〜
図9に示すMSスペクトルデータは、マトリックス支援レーザ脱離イオン化(MALDI)を使用して入手された。MALDI MSスペクトルデータは、例えば、APPLIED BIOSYSTEMS/MDS SCIEX TOF/TOF
TM飛行時間/飛行時間質量分析計等の質量分析計を使用して入手可能である。例えば、Applied Biosystems/MDS SciexからのMARKERVIEW
TMソフトウェアを使用して、MALDI MSスペクトルデータのPCA分析および視覚化を実行することが可能である。
【0069】
図7は、検定混合物のスパイクを含むおよび含まないタンパク質消化物からのサンプルの得点を示す。検定混合物のスパイクを含む得点は、
図7において記号710で示される。検定混合物のスパイクを含まない得点は、
図7において記号720で示される。
図7において記号710および720とともに示す表示は、サンプルおよびサンプル群の名称の組み合わせである。
【0070】
図7に示すように、スパイクを含む710サンプルおよびスパイクを含まない720サンプルは、第1のPC、PC1によって明確に分離され、これは、最大の分散量を説明する。スパイクを含む710サンプルは、PCl得点が大きく、これは、スパイクを含まない720サンプルよりも、
図8に示すように、大きい正の負荷量を有する変数を比較的多く有することを示す。
【0071】
図8は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータの2つのPCの例示的負荷量プロット800である。プロット800における表示は、変数の重量m/z値に対応する。
【0072】
図8に示す例では、最大PCl負荷量を有する変数は、プロットの原点を通過する直線810上に存在する傾向にある。この特徴は、これらの変数が相関し、サンプル集合において同一の挙動を示すために発生する。
【0073】
また、
図8は、負荷量プロットを解釈する際にパレートスケーリングに関する一便益も示す。任意の特定の同位体クラスタでは、原点からの距離は、ピークの相対強度を反映する。したがって、同位体クラスタのメンバーが、期待された挙動と同一の挙動を有するかが判断可能であり、これによって、観測された分離/相関における信頼が増加する。
【0074】
図9は、本教示に従う、パレートスケーリングおよびPCAの後に入手したMSスペクトルデータからのいくつかの代表変数910の例示的プロファイルプロット900である。プロファイルプロットは、複数のサンプルの関数とする1つ以上の変数の応答のプロットである。
図9における変数910の相関が、雑音により完全ではないことに留意されたい。プロファイルにおけるわずかな変動によって、
図8に示す相関線810の周囲に散乱が引き起こされる。
【0075】
種々の実施形態では、ピークの成分は、スペクトルの収集からのデータに多変量分析技法を使用して判断可能である。ピークが、スペクトルの収集において異なる挙動を有するデータ点を含む場合、ピークは、畳み込みピークであると判断される。
【0076】
図10は、本教示に従う、畳み込みピークを識別するための方法1000を示すフローチャートである。
【0077】
方法1000のステップ1010では、複数のスペクトルが入手される。複数のスペクトルは、例えば、複数のサンプルから入手される。種々の実施形態では、複数のスペクトルは、単一のサンプルから入手される。種々の実施形態では、複数のスペクトルを入手するステップは、分光法、質量分析、または核磁気分光法を実行するステップを含み得るが、これらに限定されない。
【0078】
ステップ1020では、多変量分析技法を使用して、複数のスペクトルから複数の群にデータ点を割り当てる。
【0079】
ステップ1030では、ピークが、複数のスペクトルから選択される。
【0080】
ステップ1040では、ピークが、複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、ピークは、畳み込みピークとして識別される。
【0081】
方法1000の種々の実施形態では、多変量分析技法は、教師なしクラスタリングアルゴリズムを含み得る。教師なしクラスタリングアルゴリズムには、自己組織化マップ、K平均クラスタリングアルゴリズム、または階層クラスタリングアルゴリズムを含め得るが、これらに限定されない。
【0082】
教師なしクラスタリングアルゴリズムは、また、データ点に主成分分析を実行するステップと、データ点を複数の群に割り当てるために、主成分分析の後に、相関するデータ点を識別するための方法を使用するステップとを含み得る。主成分分析により生成される主成分が選択され得る。その数の主成分を有する部分集合主成分空間が形成され得る。部分集合主成分空間におけるデータ点が選択され得る。ベクトルは、部分集合主成分空間の原点からデータ点に延長され得る。部分集合主成分空間にあり、かつベクトルの周囲の空間角度内における1つ以上のデータ点は、相関するデータ点の群として識別され得る。次いで、相関するデータ点の群は、複数の群に割り当てられ得る。
【0083】
種々の実施形態では、方法1000は、ピークの成分に関する情報を入手するために、複数の群のうちの2つ以上の群のうちの1つ以上の群を処理するステップも含み得る。本情報には、強度データ、質量データ、化学シフトデータ、または波長データを含め得るが、これらに限定されない。
【0084】
種々の実施形態では、方法1000は、任意の分光技法およびサンプル収集方法とともに使用可能である。
【0085】
種々の実施形態では、方法1000は、液体クロマトグラフィ質量分析、ガスクロマトグラフィ質量分析、キャピラリー電気泳動質量分析、超臨界流体クロマトグラフィ質量分析、イオン移動度質量分析、非対称場イオン移動度質量分析、液体クロマトグラフィ核磁気共鳴分析、液体クロマトグラフィ紫外分光分析、ガスクロマトグラフィ赤外分光分析、または空間分析を含むがこれらに限定されない分析技法から複数のスペクトルを入手するステップも含み得る。
【0086】
種々の実施形態では、関連するデータ点は、多数のサンプルを分析することによって判断可能である。関連するデータ点は、多数のサンプルにおいて相関する場合に判断可能である。例えば、データ点がプロファイルスペクトルの一部である場合、一重項であると見えるスペクトルピークが発見されるが、実際は異なって挙動する成分を有し得る。
【0087】
サンプルは、実際の物理的サンプルの収集からの一連の単一スペクトルであり得る。スペクトルは、直接測定され得るか、または個々のサンプルのLCMS分析からの全スペクトルを組み合わせることによって入手され得る。サンプルは、同一サンプルからの一連のスペクトル、例えば、LCMSピークにおいて入手されるスペクトルであり得る。スペクトルにおける畳み込みピークの成分の比率の何らかの変動が存在することが重要であるが、厳密な形式を把握する必要はない。
【0088】
図11は、本教示に従う、スペクトルからの畳み込みピーク1110の例示的プロット1100である。異なる記号1120、1130、および1140は、主成分分析の後に変数をグループ化するための方法を使用して割り当てられた異なる群のデータ点に対応する。スペクトルは、単一のサンプルから入手されたが、群は、相関する挙動を有する各ピークの異なる部分を明らかにするために、多数のサンプルからのスペクトルを使用することによって判断された。
【0089】
図12は、本教示に従う、第1の群1220の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット1200である。第1の群1220は、
図11に示す記号1120に対応する。
【0090】
図13は、本教示に従う、第2の群1220の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット1300である。第2の群1330は、
図11に示す記号1130に対応する。
【0091】
図14は、本教示に従う、第3の群1440の質量毎の強度がサンプルにおいて変動する程度に関する例示的プロット1400である。第3の群1440は、
図11に示す記号1140に対応する。
【0092】
プロファイルプロットは、サンプルにおけるデータ点の応答を示す。
図12のプロット1200、
図13のプロット1300、および
図14のプロット1400は、それぞれ
図11の記号1120、1130、および1140に対応するデータ点のプロファイルプロットである。
図11の記号1120に対応する
図12のプロット1200は、
図11の記号1130に対応する
図13のプロット1300とは異なるプロファイルを示す。
図11の記号1120および1130により表されるデータ点は、
図12のプロット1200および
図13のプロット1300の全サンプルにそれぞれ存在するが、特定のサンプルにおいてより強力な値を示す。これは、それらが実際は別々の成分に属することを示す。
【0093】
図11の記号1140により表され、かつ
図14のプロット1400におけるサンプルにおいてグラフ化されるデータ点は、
図14のプロット1400が、
図12のプロット1200と
図13のプロット1300との和を表すため、本データ点が
図11の記号1120により表されるデータ点に対応する化合物および
図11の記号1300により表されるデータ点に対応する化合物に存在する可能性があることを示す。したがって、
図14の第3の群1430は、別々の群であるが、追加の化合物の存在を示さない。したがって、存在する化合物の実際の数を判断するために、同一のピークに関連する群を処理しなければならない。
【0094】
図15は、本教示に従う、畳み込みピークを識別するためのシステム1500の略図である。システム1500は、測定機器1510およびプロセッサ1520を含む。測定機器1510は、分光計または質量分析計であり得るが、これらに限定されない。プロセッサ1520は、コンピュータ、マイクロプロセッサ、または測定機器1510からの制御信号およびデータを送受信可能であり、かつデータを処理可能である任意の機器であり得るが、これらに限定されない。測定機器1510は、複数のスペクトルを入手する。プロセッサ1520は、多変量分析を使用して、複数のスペクトルから複数の群にデータ点を割り当て、多変量分析技法を使用し、複数のスペクトルからピークを選択し、ピークが複数の群のうちの2つ以上の群に割り当てられるデータ点を含む場合、ピークを畳み込みピークとして識別する。
【0095】
種々の実施形態に関連して本教示について説明しているが、本教示をこのような実施形態に限定することを意図しない。反対に、本教示は、当業者が理解するように、種々の代替、修正、および同等物を包含する。