(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-05
(45)【発行日】2023-04-13
(54)【発明の名称】がん検出を目的としたリアルタイムラマン分光法のためのシステムおよび方法
(51)【国際特許分類】
A61B 10/00 20060101AFI20230406BHJP
G01N 21/65 20060101ALI20230406BHJP
G06N 20/10 20190101ALI20230406BHJP
【FI】
A61B10/00 E
G01N21/65
A61B10/00 T
G06N20/10
(21)【出願番号】P 2020538132
(86)(22)【出願日】2019-01-17
(86)【国際出願番号】 IB2019050409
(87)【国際公開番号】W WO2019142136
(87)【国際公開日】2019-07-25
【審査請求日】2022-01-06
(32)【優先日】2018-01-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520247590
【氏名又は名称】オーディーエス メディカル インコーポレイテッド
【氏名又は名称原語表記】ODS Medical Inc.
【住所又は居所原語表記】6985 Rue St. Dominique, Montreal, Quebec H2S3B5, CANADA
(74)【代理人】
【識別番号】100076428
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100115071
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100112508
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100116894
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【氏名又は名称】永川 行光
(72)【発明者】
【氏名】ヤダヴ, ラジーヴ
(72)【発明者】
【氏名】トレムブレイ, ジーン-フィリップ
(72)【発明者】
【氏名】アガーウォル, ラジーヴ
【審査官】磯野 光司
(56)【参考文献】
【文献】特表2017-524924(JP,A)
【文献】特表2015-526135(JP,A)
【文献】国際公開第2015/154187(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/00
A61B 10/00
G01N 21/65
(57)【特許請求の範囲】
【請求項1】
レーザー光源と、
励起ファイバと、
収集ファイバと、
分光計と、
CCD検出器と、
前記レーザー光源および前記CCD検出器とを制御し、前記CCD検出器によって取得されたラマンデータを処理するためのデータ処理モジュールと、を有するリアルタイムラマン分光システムであって、
前記データ処理モジュールが、ラマン分光法を用いてがん組織を検出する方法であって、
関心のある組織から手術中にその場でラマンデータを取得することと、
前記ラマンデータの品質を評価し、予め定められた品質基準を満たさないラマンデータを除外することと、
前記予め定められた品質基準を満たしたラマンデータについて、信号対雑音比を算出し、前記信号対雑音比が不十分と判断されたラマンデータを除外することと、
前記信号対雑音比が十分と判断されたラマンデータについて、前記関心のある組織においてがん組織と正常組織とを区別する上で有意性が高いと判断されたラマンデータ特徴量を抽出することと、
前記抽出された特徴量の相対値に従って前記ラマンデータを分類することと、
前記関心のある組織ががん組織であるか否かの答えを提供することと、を有し、
上記のステップはすべて手術中にリアルタイムで実行され
、
前記信号対雑音比が、
【数12】
によって算出され、ここで、
・Cは、動作モードに応じて分光器の検出部(CCD)に対して特徴付けるべき実験的な定数、
・nは、最終的なスペクトルを形成するために平均化される個々のスペクトルの数、
・τは、個々のスペクトルの取得時間(単位はミリ秒)、
・Iはサンプルに照射されるレーザパワー(単位はミリワット)、
・R
(j)
は正規化されたシステム応答、
・l
(j)
は、正規化された環境光信号の測定結果への寄与のj番目のスペクトルバンド、
・a
(j)
は、正規化された、自家蛍光信号の測定への寄与度のj番目のスペクトルバンド、
・r
(j)
は、正規化されたラマン信号の測定への寄与度のj番目のスペクトルバンドである、方法を実行するように構成されたシステム。
【請求項2】
前記リアルタイムが1秒以下である、請求項
1に記載のシステム。
【請求項3】
前記信号対雑音比が単一のラマンスペクトルから計算される、請求項
1に記載のシステム。
【請求項4】
前記品質を評価することが、宇宙線、環境光汚染、飽和レベル、低信号レベル、および高バックグラウンドレベルを検出することを含む、請求項
1に記載のシステム。
【請求項5】
前記品質を評価することが、宇宙線干渉の補正の実施のために行われる、請求項
4に記載のシステム。
【請求項6】
前記関心のある組織が脳組織である、請求項
1に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、がん検出を目的としたラマン分光システムおよび方法の利用に関する。具体的には、本発明は、外科的処置の間にリアルタイムで腫瘍縁部のがん組織を検出するためのラマンシステムおよび方法の使用に関する。発明に係るシステムは、レーザー励起源、プローブ、分光計、およびカメラを有する構成を含み、プローブの光学系は外科的状況でのラマン収集のために特別に設計され、カメラはラマンアプリケーションの既知の制限に適合している。ラマンデータの既知の汚染源を除去し、ラマンデータを既知のラマンバイオマーカに対して評価し、その後のラマンデータの分類を達成することができるように、発明に係るデータ品質評価、特徴量抽出、および分類の方法をラマンシステムに適用することができる。最も具体的には、本発明は、ラマンデータから既知の汚染物質をフィルタリングし、得られたラマンデータを既知のバイオマーカと比較し、対象組織をがん性または非がん性に分類するとともに、さらに場合により対象組織をがん性組織のサブタイプに従って分類するために、がん手術中のリアルタイムアプリケーションでラマン分光法をリアルタイムアプリケーションで活用することを可能にするシステムおよび方法に関する。
【背景技術】
【0002】
脳腫瘍(およびその他の腫瘍タイプ)の手術管理の進歩にもかかわらず、最適な手術結果と腫瘍の同定との達成は依然として課題である。ラマン分光法は、光の非弾性散乱に基づいて分子を非破壊的に識別するために利用可能な、レーザを利用する技術であり、脳腫瘍手術の精度向上のために適用されている。最近、脳腫瘍と正常組織との識別におけるラマン分光法の精度を調べたり、異なる脳組織タイプのスペクトルをマッピングしたりする研究が多く発表されている。しかし、これらの研究は、データサンプルが不十分であり、また、何が良いラマンスペクトルを構成するかについての標準的な分類アルゴリズムやガイドラインが存在しないことにより、限定的であるか、決定的なものではない。同一被験者および異なる被検者の両方について、測定結果間ならびに測定条件間でスペクトルの品質評価を可能にする尺度は存在しない。
【0003】
ラマンスペクトルは、古典的には分析試料の分子成分のスペクトルの線形混合としてモデル化される。しかし、装置やサンプルの生物学的性質による物理的な歪みは、ラマンスペクトルモデルに線形および非線形の汚染物質を付加する。これらの歪みは、暗電流、検出器ならびに光学応答、蛍光バックグラウンド、ピークのずれ、ピーク幅の不均一性である。これらの歪みの存在下における教師付き分類アルゴリズムの設計は、分類精度の低下を招く。加えて、多様な生物学的起源から高度に可変な同一被験者および異被験者に関する混在データセットの高次元性は、機械学習技術に対する重要な課題を提起し得る。
【0004】
これらに加えて、ラマンスペクトルを汚染する複数の付加的な歪みが存在する。これらの付加的な歪みには、スペクトル飽和、宇宙線干渉、環境光干渉、高バックグラウンドノイズ、低ラマン信号レベルが含まれる。現在のラマンアプローチには、手術環境でのリアルタイム利用を想定してこれらの歪みをフィルタリングする方法が含まれていない。
【0005】
現在のラマン分光法の多くは、分類アルゴリズムのトレーニングのためにフルラマンスペクトルを用いている。このため、前述の汚染物質に加え、ラマンスペクトルの非有意な部分のノイズのレベルによる分類精度の低下を招いている。任意の1つの特定の組織タイプの分類に関して最も関連性の高いラマンスペクトル特徴量のサブセットが存在し、分類アルゴリズムをトレーニングするためにその特徴量を用いることで分類精度を大幅に向上させることができる。その後、ラマンデータを分類するために、サポートベクタマシンのような教師付き学習モデルを用いることができる。
【0006】
したがって、がんと正常組織の正確な分類に到達するために、データ品質評価、特徴量抽出、および既知のラマンバイオマーカーに対して評価される適切な抽出ラマン特徴量をもたらす教師付き学習モデルの方法を用いるラマンシステムが必要である。本明細書では、リアルタイムアプリケーションのために、各段階での新規な方法からなる独創的なシステムを提示し、がん検出のニーズを満足させる。
【図面の簡単な説明】
【0007】
【
図1】
図1は、本発明に係る方法とともに用いるために適合された本発明に係るラマン分光システムを示す図である。
【
図2】
図2は、本発明に係る方法に従ったデータ処理ステップおよび品質評価ステップを示すブロック図である。
【
図3】
図3は、レーザ励起パワーを最適化するためのデータ取得アルゴリズムの利用を示すブロック図である。
【
図4】
図4は、宇宙線アーティファクトを特定するためのフレームワークを示すブロック図である。
【
図5】
図5は、環境光汚染を特定するためのアルゴリズムの利用を示すブロック図である。
【
図6】
図6は、ラマンデータ品質評価のためのステップを示すブロック図である。
【
図7】
図7は、ラマン信号対バックグラウンド比の計算を示すブロック図である。
【
図8】
図8は、本発明のラマンバイオマーカー評価方法に従ったラマンスペクトルとその周波数加重エネルギー出力のグラフを示す図である。
【
図9】
図9は、本発明のラマンバイオマーカー評価方法に従った、様々なバイオマーカーピークを有するラマンスペクトルシグネチャのグラフを示す図である。
【
図10】
図10は、本発明のラマン特徴量抽出方法に従った、正常組織とがん組織のラマンスペクトルのグラフを示す図である。
【
図11】
図11は、本発明の方法に従った特徴量抽出ステップのブロック図である。
【
図12】
図12は、本発明の特徴量抽出方法に従ったラマン特徴量ラベルのグラフを示す図である。
【
図13】
図13は、本発明の方法に従った、ラマンバイオマーカー特徴量の教師なし検出のグラフを示す図である。
【
図14】
図14は、本発明のラマン特徴量抽出方法のパフォーマンス分析のグラフを示す図である。
【
図15】
図15は、本発明の方法に従ったサポートベクタ機構に基づく多段分類器アプローチを表すブロック図である。
【発明を実施するための形態】
【0008】
以下、添付図面を参照して、本発明をその様々な実施形態に関して詳細に説明する。
【0009】
本発明に係るシステムは、手持ち用のプローブと、近赤外(NIR)の785nmで発光する分光安定化レーザ光源(米国ニュージャージー州、Innovative Photonic Solutions社製)と、高速、高分解能の電荷結合素子(CCD)(英国ベルファスト、ANDOR Technology社製)からなるカスタム分光器および検出システムと、ラップトップまたはPCからなるデータ処理モジュールとから構成されている。データ処理モジュールは、光源、CCDを制御し、取得したラマンデータを処理し、サンプリングした組織を分類し、臨床医にインターフェースを提供する役割を担う。代表的な実施形態を
図1に示す。
図1の代表的な発明実施形態は、手術中にリアルタイムでラマンデータを取得して処理し、サンプリングされた組織を分類し、臨床医に分類回答(例えば、がん/非がん)を提示することができる。この文脈において、リアルタイムとは、外科医のワークフローを妨げない、実質的に瞬間的な分類を意味し、最も理想的には100msのオーダーから1秒を少し超える程度である。
【0010】
一実施形態においてプローブは、7本の300μmコア集光ファイバを有する。ドーナツ形状のロングパスフィルタは、励起レーザー光を遮断するが、サンプルのラマンシフト波長を集光ファイバに渡すことができる。これら7つのファイバは、レーザ供給ファイバアセンブリを含んだステンレススチールチューブを取り囲んでいる。励起レーザ光供給ファイバは200μmのコアファイバであり、その前面には励起ファイバに誘起されたラマン信号を除去するための小型バンドパスフィルタが設けられている。2ピースの収束フロントレンズは、バック部分に平凸で直径2mmの湾曲したサファイアの後部(高屈折率が光を鋭く屈曲させる)と、厚さ1mmの平らなマグネシウムフッ化物の前部とからなる。
【0011】
ラマン分光法は、単色光源で励起された物質の応答で非弾性的に散乱された光子のエネルギーを利用する技術である。励起光源が物質分子の異なる振動モードと相互作用するため、散乱された光子のエネルギー準位は波長がシフトする。このようにして生成されたラマンスペクトルにより材料の分子組成を理解することができる。はるかに一般的に使用されているレイリー(弾性)散乱とは異なり、ラマン分光強度は、典型的には100万倍低いため、組織分類のためのラマン分光法の使用は、慎重なデータ取得と処理上の考慮が必要になる。
図2は、ラマンに基づく本発明のがん検出/組織分類システムの考えられる1つのワークフローを記述している。
図2に表される分類システムは、
図1の代表的な実施形態のようなハードウェア実施形態を用いて展開され、システムが較正されると、手術中にリアルタイム分類決定(例えば、がん/非がん)を行うことが可能になるだろう。
【0012】
図2を参照して、各ケースの開始時においてシステムは、分類段階による患者間比較を可能にするために、較正ならびに特性評価がなされなければならない。データまたは組織のタイプごとに異なる処理および分類手法が必要となりうるので、検討するデータ/組織タイプを選択しなければならない。データ収集ブロックは、システムが単色光を組織に与え、散乱光をラマンデータとして収集することを可能にする。データ品質評価は、収集したラマンデータに対するフィルタリングと、ラマンスペクトル抽出における使い勝手についての評価とを可能にする。取得したラマンデータの品質が十分良好でないでない場合、データは拒否され、測定結果が再取得される。ここで、本発明の重要な側面は、リアルタイムで実行可能なデータ品質評価アルゴリズムセットである。ラマンスペクトル抽出または前処理ブロックでは、取得したラマンデータからラマンスペクトルを抽出するために信号処理アルゴリズムが適用される。抽出されたラマンスペクトルは、信号対雑音比(SNR)および他の測定基準(metric)を評価するためにさらに処理される。これは、組織タイプの分類に対するラマンスペクトルの適用性を決定するためである。SNRの評価は、ラマンスペクトルの単一実現(single realization)に適用可能な新しいSNR定義の適用によって実行される。本発明に係るシステムの重要な構成要素の1つは、組織分類のためのデータの次元削減および分類を可能にするため、ラマンスペクトルから適切な特徴量を抽出することである。
【0013】
データ取得
前述したように、ラマンデータ取得動作は、単色光で組織を励起することと、分光器で多波長散乱光をラマンデータとして収集することからなる。光はCCDイメージセンサによって取り込まれる。CCD画像は、スペクトル取得を達成するため、ビニングとして知られる技術を用いて操作される。これは、SNRを高めるとともに、CCDからの読み出しの高速化を実現するために、空間的に隣接する画素を結合する処理です。しかし、アナログデジタル変換前に空間画素間の積分を行うと、CCDのダイナミックレンジを超えてしまうリスクがある。さらに、励起レーザーパワーまたは露光時間に対するラマンデータの応答は、測定部位および組織の種類によって大きく変化する。したがって、励起レーザーパワーまたは露光時間を固定することは、最適なラマンスペクトル取得に適していない。これに対処するため、我々は、飽和状況を発生させずにCCDのダイナミックレンジを最大化するために、励起レーザーパワーまたは露光時間を適応的に調整することを目的とした新規な手法を開発した。
【0014】
図3(a)およびA(b)を参照すると、各ラマン測定結果について、データ取得アルゴリズムは、まず、考慮された測定部位に対して最適な励起レーザパワー(および/または励起露光時間)を決定しようとする。結果として最適化された収集パラメータは、Nのラマン測定結果を収集するために用いられる。
図3(c)は、励起レーザパワーを最適化するための、1つのに考えられる手法を示している。ここでの主なコンセプトは、2つの比較的低い励起レーザーパワーP
1およびP
2でラマン測定を行うことである。各測定について、最大測定強度をmaxRS
1とmaxRS
2として決定する。これら2つの測定対を用いることにより、最大測定強度が、許容分光計/CCDダイナミックレンジの90%となるような最適な励起レーザーパワーP
optを外挿ならびに決定することができる。点(P
1, maxRS
1)および(P
2, maxRS
2)を通るベストフィットラインは次のように記述することができる。
maxRS = m・P + b
ここでmとbは線形適合の傾きとy切片である。同様の方法で、励起レーザーの露光時間を最適化することができる。
【0015】
データ品質
ラマンデータは、非常に多くの汚染物質を伴った組織のラマン応答(ラマンスペクトル)から構成されている。したがって、このデータ品質評価ステップでは、ラマンスペクトル抽出のために考慮できるようになる以前に、収集されたデータが厳密な品質仕様を満たしていることが必須になる。
図6は、データ品質評価に合格するためにデータが満たさなければならないシーケンスフィルタおよびテストを示している。飽和検出は、飽和テストが失敗した場合に、測定結果の1つ以上の信号が特定され、破棄されることを許容する。残りの信号は、宇宙船干渉の影響を取り除くために処理される。得られた信号は、強い環境光汚染が存在するか否かを調べるためにテストされる。このような干渉のいずれかが検出されると、ラマンデータ品質は不良と設定され、データに対するそれ以上の処理は行われずに測定がやり直される。データ品質評価の最後の2つのステップでは、バックグラウンドレベルが高いかどうかと、信号レベルが低いかどうかに関して測定結果がテストされる。いずれかに該当する場合、データは低品質と判断され、ラマン測定がやり直される。データ品質評価アルゴリズムにおいて鍵となる独創的見地は、リアルタイムシナリオに適用できるように計算が簡単であることである。我々のアプリケーションでは、ラマンスペクトルを抽出する前に、データが十分良好な品質を有していなければならない。
【0016】
ラマンスペクトルの抽出
飽和/ブルーミング
飽和またはブルーミングは、すべての電荷結合素子(CCD)イメージセンサにおいて、個々のフォトダイオードの有限電荷容量またはCCDの最大電荷転送容量のいずれかに達した状態で発生する現象である。ある電荷収集サイトで飽和が発生すると、さらなる光生成電荷の蓄積により、隣接するデバイス構造への過剰電子のオーバーフローもしくはブルーミングが発生する。ブルーミングの潜在的に望ましくない影響の多くは、白色の線状画像および誤った画素信号値から、出力増幅段での完全なブレークダウンに至るまで、センサ出力に反映され、暗い画像を生成する。
【0017】
アナログデジタル変換(ADC)ビット分解能に基づいて、飽和またはブルーミングは、ADC分解能の上限に達するビニングされたスペクトルとして定義される。調査対象の組織測定部位に対する最適なレーザー励起パワーおよび組織/CCD露光時間を適応的に決定することによってスペクトル飽和を防止する新しいアルゴリズム技術を開発した。データ取得段階で飽和レベルを制御したにもかかわらず、極端な場合には依然として飽和が存在する可能性がある。これは主に、様々な組織タイプのラマン応答が大きくばらつくことに起因するものである。そのため、CCDの飽和検出が必要である。最もシンプルな形態では、CCDのダイナミックレンジを超えうるラマン測定結果を検出するために閾値を用いる。そのような測定結果はすべて使用できないものとみなされ、取得が繰り返される。
【0018】
宇宙線干渉
CCD検出器を用いたラマン装置では、一般的に宇宙線が観測される。宇宙線は、通常のラマンスペクトルで表わされる有意な化学情報を妨害もしくは破壊しうる。宇宙線は、ラマンだけでなく、暗いバックグラウンド測定においてもランダムに発生しうる。宇宙線はラマンピークに似た性質を持ちうるが、変動する振幅において非常にシャープな活動を示す傾向があり、連続した測定では発生しないことが分かっている。このような宇宙線の特性を用い、これらのアーチファクトを特定し、除去する。
【0019】
以下、
図4を参照して、宇宙線アーチファクトを特定するための一般的な枠組みについて説明する。各測定は、N個のラマン測定結果と、M個のスペクトル値(波数)でのRSとで構成されている。宇宙線(CR)検出の最初のステップは、Teager演算子を用いたRSの非線形変換である。
【数1】
その多くの特性の一つは、CRのようなシャープなスパイク状の活動を増強する傾向があることである。これは、Teager演算子と呼ばれる非線形エネルギー演算子を用いた重み付けである。ピーク検出は、変換されたRSそれぞれに対して、すなわち、Φ(i,j)のi=1:Nのそれぞれに対して実行される。各iおよび得られたPk(i,k)について、95パーセンタイルよりも大きいすべてのピークが候補CR(CCR)として識別される。CRはランダムに発生することが予想されるので、所与の(i)についての各CCR(i,k)の強度を、後続のRS(Φ(i,k))における同じスペクトル位置のピークと比較する。現在のピーク強度がある閾値以上であれば、CCR(i,k)はCR検出であると考えられる。このアルゴリズムの一実施形態では、ピーク強度の95%を閾値として使用している。識別されたCRは、スペクトル位置のRSを3次スプライン補間値に置き換えることで除去することができる。
【0020】
環境光干渉
手術室での測定のように、完全な暗闇の環境で測定されたものでないラマン測定結果は、環境からの光によって汚染されることが多い。環境光は、様々な光源のうち、とりわけ、部屋の照明、上方から照らす照明、モニターからの光から構成されうる。手術中のスペクトル取得の間、ラマン測定のための完全な暗闇環境を要求するのは非現実的であり、臨床の専門家に受け入れらるものではない。最低限の要求として、ラマン取得中は上方からの照明を視野から離れた方向に向けるものとする。しかし、これは必ずしも他の環境光汚染を解決するものではなく、そのような測定はほとんど価値がないと見なされることが多いため、分析において考慮すべきでない。環境光の汚染を識別するために、
図5に示す、以下のアルゴリズムを開発した。(N回の生(raw)測定結果からの)平均生ラマン測定結果を、長さLのM個のスペクトルビンに分割する。各ビンの振幅データについて、変動係数(COV)を求める。得られたCOVのセットを通して最適なフィット直線がフィッティングされる。多くの実験的評価の結果、環境光の干渉がない場合には負の傾きを示し、干渉がある場合には正の傾きを示すことを突き止めた。したがって、傾きgを経験的に決定されたしきい値と比較することで、環境光の干渉を検出することができる。
【0021】
高バックグラウンド検出
暗バックグラウンドスペクトルとは、試料にレーザー励起光を照射しない状態で得られる測定結果である。これらのデータは、ラマン測定結果に存在しうるベースラインオフセット、システムノイズ、固定パターンノイズを補正するために用いられる。これらに加え、環境に由来するもう一つのノイズ源を見出した。手術室(OR)照明である。これらの照明は手術中に消されないが、ラマンスペクトルへの影響を軽減するために視野から離れた方向に向けられる。暗バックグラウンド測定結果の強度の高さを調べる。高さを経験的に決定された閾値と比較し、高いバックグラウンド干渉を検出する。そのような測定結果はすべて、以降の処理から除外される。
【0022】
低信号強度
取得パラメータによって規定される本システムでは、ラマン測定のショットノイズは制限される。したがって、更なる処理のために十分良好な取得であるという基準を満たすためには、CCDに最小強度カウントが存在しなければならない。生ラマン測定について、対応するダーク測定(励起レーザー光を使用しない測定)を取得する。最初のステップとして、生ラマン信号からダーク測定結果が除去される。その後、信号レベルの妥当性を評価するため、得られた信号の最大値を、事前に決定された(所与のシステムおよび取得パラメータについて実験的に決定された)閾値と比較する。
【0023】
ラマンスペクトル抽出(前処理)
ラマンスペクトルは、いくつかの前処理モジュールの助けを借りて、測定された信号から抽出される。これらには、自家蛍光除去、装置応答補正、スペクトル正規化、および平滑化が含まれる。得られたスペクトルが、調査対象の組織/サンプルのラマンスペクトルである。前処理ステップの重要な側面は、抽出されたラマンスペクトルの品質を決定することである。リアルタイムアプリケーションのためには、達成する方法がシンプルでなければならない。以下では、ラマンスペクトルの品質を定量化するための2つの新しい手法、信号対ノイズ比(SNR)と信号対バックグラウンド比(SBR)を提供する。
【0024】
信号対雑音比(SNR)
ラマンバイオマーカー評価により、特に生体組織からのラマン測定結果の品質を評価することができる。一般に、ラマン信号対雑音比(SNR)は、ラマンピーク高さの、ピーク高さの標準偏差に対する比として定義される。
【数2】
ここで、jはスペクトルインデックスに対応し、μ(j)=j番目のスペクトル位置におけるラマンスペクトルの平均、σ(j)=j番目のスペクトル位置におけるラマンスペクトルの標準偏差である。定義上、N個の測定結果がないとオンラインアプリケーション中のラマンSNRを評価することはできない。本発明は、ラマン信号のSNR
【数3】
を評価するための新しい手法を提供する。
【0025】
ここで、
・Cは、動作モードに応じて分光器の検出部(CCD)に対して特徴付けるべき実験的な定数、
・nは、最終的なスペクトルを形成するために平均化される個々のスペクトルの数である。
・τは、個々のスペクトルの取得時間であり、単位はミリ秒である。
・Iはサンプルに照射されるレーザパワーで、単位はミリワットである。
・R(j)は正規化されたシステム応答であり、これはNIST 2241材料のようなシステム校正規格から得ることができる。
・l(j)は、正規化された環境光信号の測定結果への寄与のj番目のスペクトルバンドである。これは、試料表面で収集される光が環境光信号のみとなるように、励起を行わずに組織試料の測定(暗測定)を行うことで得られる。測定結果は、露光時間、レーザパワー、正規化されたシステム応答、および検出器ゲインによって正規化される。
・a(j)は、正規化された、自家蛍光信号の測定への寄与度のj番目のスペクトルバンドである。これは、露光時間、レーザーパワー、正規化されたシステム応答、検出器ゲインによる正規化後の自己多項式回帰アルゴリズムを用いて、自家蛍光信号の線形状を推定することで得られる。
・r(j)は、正規化されたラマン信号の測定への寄与度のj番目のスペクトルバンドである。これは、露光時間、レーザーパワー、システム応答、およびカメラゲインによって正規化されている測定結果からa(j)を減じることによって得られる。
【0026】
上述した新規なSNRの定義は、特定のスペクトル位置における信号品質の目安を提供する。この定義を、以下のように、全体の平均SNR(SNRバー)を決定するために用いる。
【数4】
ここで、Jは、特徴付けられる組織サンプルのタスクおよびタイプに対応する、最も関連性の高いキーラマンスペクトルバンド(ピーク)に対応するスペクトルバンドのサブセットに対応する。一例としては、ヒト脳組織を正常なものとがん性のものとに分類するために用いられるスペクトル特徴量、または単にラマンスペクトルの全ピークのトップ10%を挙げることができる。さらに重要なことに、この定義はリアルタイム信号取得中に適用できるため、ラマン測定結果の品質を確認することが可能になる。
【0027】
信号対バックグラウンド比(SBR)
ラマン信号対バックグラウンド比は、非線形Teager演算子を用いることで高速に計算できる。
図7は、ラマンスペクトルと対応するTeager演算子の出力とを示している。この演算子の重要な側面は、ベースラインのずれ(wander)を抑制しながらラマンピークを増大させる能力である。
図7は、信号対バックグラウンド比を記述するメトリックを得るために実行する必要のある一連の動作を示している。分析対象の所与の組織タイプについて、まず、キーとなるバイオマーカーのラマンピークのセットを選択する。
図4は、脳組織に存在する傾向のあるいくつかの重要なピークと、これらのピークの主な原因となっている構成分子を示している。
図7に関し、関連するラマンピークの位置を知ることで、各ピークの左右のローカルバックグラウンドを定義することができる。ヒトの脳、肺組織、動物組織(ニワトリの骨および筋肉、血液、牛の筋肉、腎臓、肝臓、子牛の脳)を含む複数のシナリオで得られたデータをもとに、バックグラウンドスペクトル位置の適切な定義を実験的に決定した。典型的には、これらは各ピークの左右の20~30スペクトル位置(画素)程度であった。Teagerの非線形変換は、ラマンスペクトルに対して適用される。グローバルバックグラウンド(GB)は、最大RS値の5%未満のすべてのスペクトル値の平均として計算される。各ピークのSBR
iは、i番目ピークのGB補正されたRSエネルギーと、LBkgd
iおよびRBkgd
iによって定義されるローカルバックグラウンドエネルギーの平均値として計算される。全体的なSBRは、個々のSBRiの平均値である。
【0028】
図2に従って、SNRおよびSBRメトリックが閾値と比較される。広範なデータ分析と、何が良いスペクトルと悪いスペクトルを構成するかの基本的な真実とに基づいて、実験的にこれらの2つのメトリックの閾値を規定した。設定されたカットオフ閾値を満たすスペクトルのみが高品質のラマンスペクトルとみなされ、その後の特徴量抽出と分類手法に用いられる。
【0029】
特徴量抽出
通常、どのような機械学習においても、最初のステップは、データが応答変数にどのように関連しているかを定性的かつ定量的に判断するために、データの統計的特性を調査することである。この最初の調査ステップでは、しばしば、データを反映している特徴量の多くが、分類器のオーバーフィッティングや計算負荷の増加を招きうる無関係で冗長なものでありうることが判明する。したがって、関連づけられた応答ラベルにしたがってデータを最もよく記述する特徴量のサブセットを見つけ、次元性を減らし、全体的な分類性能を向上させることが急務である。特徴量選択は、選択基準と探索戦略からなる組合せ最適化問題であり、予測性能を向上させ、データの次元性の問題を軽減する。
【0030】
ラマン分光学の文献では、ほとんどの場合、機械学習による組織分類にフルスペクトルが用いられている。フルスペクトルの使用は、オーバーフィッティングや予測のための統計モデルの貧弱さを招きうる。本発明の全体の一部として、正常またはがんとしての組織を分類するために最も関連するであろうスペクトルピークおよびスペクトルバンドをマイニングする教師なし方法を開発した。自動的に識別されるスペクトルバンドは、手動で識別されたスペクトルピークおよびスペクトルバンドと比較される場合、手動で識別された期待されるスペクトルピーク/スペクトルバンドに1対1で対応づけられる。
【0031】
これらのラマンバイオマーカーを同定するため、統計的ブートストラップ法を採用する。ブートストラップは、置換によるランダムサンプリングを利用した手法である。各サンプルプールにおいて、組織分類に適しているであろうスペクトルバンドを特定するために、一連の情報理論的特徴量選択技術を利用する。
【0032】
分類に関連するであろうラマンスペクトルバンドを識別するための技術の1つの考えられる実施形態のブロック図を
図6に示す。トレーニングデータは、正常またはがんのラベルが付されたN個のラマンスペクトルからなる。j番目のパーティションを生成するための学習データのサンプリングに、置換を伴うブートストラップ技術を用いる。J個のパーティションついて、分割されたデータサイズをM(<N)に設定する。スペクトルバンドの数はKとなるように選択する。ブートストラップパーティションごとに、スペクトル (強度) およびラベルが与えられるデータクラスの条件付き尤度を最大化するK個の最も優勢なスペクトルバンドを同定するため、複数(L)の 情報理論に基づく基準(後述)を用いる。ブートストラップステップを反復するごとに、長さKx1のデータ点の縮小セットが得られる。この処理をL個の基準について繰り返すことで、L個のスペクトルバンドベクトル→FV
mRMR、→FV
MIM、→FV
CMIM、→FV
FCBFが得られ、これらを連結して→FV
j(K・Lx1)を得ることができる。
【数5】
【0033】
この処理は、J個のブートストラップパーティションについて繰り返される。繰り返しごとに、特定されたスペクトルバンドを前回の繰り返しで得られたものと連結して、サイズ J x (K-L) の行列 F を生成する。最後の繰り返しに続いて、特徴量計算のためのK個の最も出現するスペクトルバンドを、投票を用いて選択する。最も単純な実施形態では、特定されたスペクトル位置のそれぞれにおけるラマン強度が、分類のためのK要素の特徴ベクトルとして用いられる。一実施形態では、J=50のブートストラップ反復でK=300のスペクトルバンドを選択した。
図7は、学習データセットの1つからこの特徴量抽出を行った結果を示している。
【0034】
MRMR (最大関連性最小冗長性:Max-Relevance Min-Redundancy):MRMR法の考え方は,データDについて、協同して対象クラスCについて最も大きな依存度を有するm個の特徴量{x
i}を有する特徴量セットSを見つけることである。最大関連性(Max-Relevance)は、以下を満たす特徴量の探索である。
【数6】
これは,個々の特徴量x
iとクラスcの間のすべての相互情報値の平均値を用いてD(S,c)を近似したものである.最大関連性に基づいて選択された特徴量は、冗長性が高い、すなわち特徴量間の依存性が大きい可能性があると考えられる。2つの特徴量が互いに高い依存性を有する場合、片方を削除したとしても、個々のクラス識別力はあまり変化しないであろう。したがって、相互に排他的な特徴量を選択するために、以下の最小冗長性(Min-Redundancy)条件を追加することができる。
【数7】
これら2つの制約を組み合わせた基準を「最小冗長性-最大関連性」(mRMR)と呼ぶ。
【0035】
相互情報最大化(MIM):特徴量選択の最も簡単な形式は、繰り返しのない均一なランダムサブサンプリングからなる。このようなアプローチでは、元のものと同じように独立した特徴量が得られるものの、情報量の多い特徴量は選択されない。したがって、ごく一部の特徴量だけが予測すべきクラスに関する情報を提供している場合には結果が悪くなる。ランダムサンプリングの主要な弱点を回避するため,MIM手法は、予測すべきクラスとの相互情報を個々に最大化するK個の特徴量n(1),...,n(K)を選択する。このようなランキングに基づいた選択は、特徴量間の依存性が低いことを保証するものではなく、冗長で情報量の少ない特徴量ファミリをもたらすこともある。
【0036】
相互情報I(x;y)は次のように定義される。
【数8】
これは、xからyに伝達される情報が、xが既知のときのyの不確実性の減少に等しいことを示している。
【0037】
条件付き相互情報最大化:条件付き相互情報とは、Wが既知のときのランダム変数Uのエントロピーと、VとWがいずれも既知のときのUのエントロピーとの差である。この式は、Wが伝えないUについての情報をVがどれだけ伝えるかを示している。
【数9】
条件付き相互情報最大化(CMIM)法[24]は、上述した条件付き相互情報に基づいて、できるだけ多くの情報を運ぶ特徴量の小さなサブセットを選択するアルゴリズムである。具体的には、CMIMの最終的な目標は、
【数10】
を最小化するV(1),...,V(k)を選択することであろう。
H(Y|X)は、2つのランダム変数X、Yの、所与のXに対する条件付きエントロピーYである。また、V(1),...,V(k)は、変数の集合全体から選択する変数の数である。
【0038】
高速相関ベースフィルタ:高速相関ベースフィルタ(FCBF)は、特徴量間の相関を明示的に扱う手法である。まず、相互情報が閾値dよりも小さい特徴量を予測して除去するために、クラスとの相互情報にしたがって特徴量をランク付けする。
第2ステップでは、式4.6および式4.7を満たすように、特徴量X
jが存在する場合には任意の特徴量X
iを反復的に除去する。
【数11】
すなわち、X
jはYの予測因子として優れており、X
iはYよりもX
jに似ている。閾値dは最大の情報を保持するスペクトルバンドの良好なセットを得るために適応させることができる。
【0039】
実験データを観察することで、異なる組織タイプのスペクトルには固有な形態学的特徴があることが示唆される。これらの形態学的特徴は、分類の改善に役立つ可能性がある。特徴量評価ステップでは、スペクトル強度に加え、所与のバンド内のスパイク状ピークの数、スパイク状ピークの下の面積、スパイク状ピークの左右の傾きなど、いくつかの形態的特徴も考慮した。これは、特徴バンドが上記で特定された隣接するスペクトル位置のグループとして規定されている場合に、特徴バンドに適用可能である。ラマンスペクトルのある種の異常は、システム自体や生物学に起因しうる。このような異常は、機械学習アルゴリズムの特徴の一部として含まれてはならない。特徴量抽出の最後のステップは最適化である。このステップは、調査中の組織をパラメータ化しないことが明らかなバンド/ピークを手動で除外することを目的としている。例えば、血液に対応する可能性のあるラマンスペクトルの特徴量を除外することを想定している。
【0040】
ラマンピーク、ラマンバンド、ラマン形態学的特徴をまとめてラマンバイオマーカーと定義する。分光計の一実施形態では、有意なバンドの幅を狭くすることが可能である。ラマンバイオマーカーの冗長性と量を減らすことは、利用可能なトレーニングの量が制限されている場合における分類器のオーバーフィット問題に対処するために役立つ。
【0041】
まず、最適化された特徴ベクトル→FV
optを取得したのち、
図8に示すように有意なバンドの幅を適応的に制御するピボットパラメータpを導入する。1つ抜き公差検証法(leave-one-out-cross-validation)を用いて、幅が変化するごとに性能指標を確認することにより、ピボットポイント周辺の幅を適応的に増減させる。
図8はピボットパラメータpの使用例を示し、
図9は選択されたバンドの幅ごとの性能結果を示している。波数22のバンド幅に対して明らにピーク性能が得られている。
【0042】
がん細胞に複数のサブタイプが存在する可能性があることを考慮して、多層カスケード形式のマルチクラス機械学習技術を構築するために実際には最も現実的な手法を用いている。例えば、AdaBoost、ロジスティック回帰、サポートベクターマシン(SVM)、ブーストツリーなどの分類技術、カスケード構造のブートストラップ付きトレーニングデータセットを用いる人工ニューラルネットワークなどが適切な候補である。がん浸潤脳組織のさまざまなクラスに関するマルチクラス問題を解決する新規かつ効果的なアプローチに到達するために、
図15に示すように、1対他(one-versus-rest)の分類器を構築し、単純な決定木様ネットワークでカスケード構造を使用するという案である。
【0043】
本ケースにおいて、1段目の分類器は、(大まかに)正常クラスと腫瘍クラスとを検出するように調整されている。腫瘍クラスはさらに、一例として浸潤性腫瘍、腫瘍、壊死組織に分けられる。後段への入力は、教師なしクラスタリング法によって得られた固有のクラスである。
【0044】
本発明のシステムおよび方法を以下のようにラマンデータに適用した。正常(N)、腫瘍(T)、浸潤(I)、または壊死クラスに属する病理学的ラベルを持つ40のスペクトルを調査した。壊死クラスは識別が容易であるため、このデータセットでは考慮しなかった。そのため、壊死組織がトレーニング/テストセットの一部にならないよう、壊死組織を識別して破棄するためのテンプレートマッチング手法を開発した。一実施形態において、トレーニングされたSVMベースの分類器は、モデルを構築するためにどのような側面からも考慮されていないブラインド脳腫瘍データセットでテストされる。
【0045】
生体内(in vivo)ヒト脳組織についての結果を表1(トレーニングデータセット)に示す。分類器Aは、2クラス(正常か腫瘍か)の分類が可能な初段のSVM分類器である。分類器Bは、2クラス(正常か、腫瘍かつ浸潤か)の分類が可能な変形SVM分類器である。分類器Bは、浸潤クラスを腫瘍として扱うため、曲線下面積、精度、感度、特異性など、すべての性能パラメータで低下が見られる。一方、分類器Cは多段分類器である。主に不十分な入力データに起因して誤分類が生じることもあるが、病理学的ラベルとの高度な一致性を有する性能であることが確認された。
【0046】
【0047】
表2は、樹状多段SVMカスケード分類器のテストデータセットの結果を示す。全体的な性能低下が見られる。ここでは、様々なサブタイプをいくつかの全浸潤にまとめたため(確定腫瘍なし+まれな浸潤サンプル<20%を正常として)、性能の低下は性能の低さを真に反映していない。
【0048】
【表2】
表2:ブラインドテストデータセットの性能結果