特許7257009 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ オーディーエス　メディカル　インコーポレイテッドの特許一覧

特許7257009がん検出を目的としたリアルタイムラマン分光法のためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-04-05

(45)【発行日】2023-04-13

(54)【発明の名称】がん検出を目的としたリアルタイムラマン分光法のためのシステムおよび方法

(51)【国際特許分類】

A61B 10/00 20060101AFI20230406BHJP

G01N 21/65 20060101ALI20230406BHJP

G06N 20/10 20190101ALI20230406BHJP

【ＦＩ】

A61B10/00 E

G01N21/65

A61B10/00 T

G06N20/10

【請求項の数】 6

(21)【出願番号】P 2020538132

(86)(22)【出願日】2019-01-17

(65)【公表番号】

(43)【公表日】2021-05-06

(86)【国際出願番号】 IB2019050409

(87)【国際公開番号】W WO2019142136

(87)【国際公開日】2019-07-25

【審査請求日】2022-01-06

(31)【優先権主張番号】62/618,607

(32)【優先日】2018-01-17

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520247590

【氏名又は名称】オーディーエスメディカルインコーポレイテッド

【氏名又は名称原語表記】ＯＤＳＭｅｄｉｃａｌＩｎｃ．

【住所又は居所原語表記】６９８５ＲｕｅＳｔ．Ｄｏｍｉｎｉｑｕｅ，Ｍｏｎｔｒｅａｌ，ＱｕｅｂｅｃＨ２Ｓ３Ｂ５，ＣＡＮＡＤＡ

(74)【代理人】

【識別番号】100076428

【弁理士】

【氏名又は名称】大塚康徳

(74)【代理人】

【識別番号】100115071

【弁理士】

【氏名又は名称】大塚康弘

(74)【代理人】

【識別番号】100112508

【弁理士】

【氏名又は名称】高柳司郎

(74)【代理人】

【識別番号】100116894

【弁理士】

【氏名又は名称】木村秀二

(74)【代理人】

【識別番号】100130409

【弁理士】

【氏名又は名称】下山治

(74)【代理人】

【識別番号】100134175

【弁理士】

【氏名又は名称】永川行光

(72)【発明者】

【氏名】ヤダヴ，ラジーヴ

(72)【発明者】

【氏名】トレムブレイ，ジーン－フィリップ

(72)【発明者】

【氏名】アガーウォル，ラジーヴ

【審査官】磯野光司

(56)【参考文献】

【文献】特表２０１７－５２４９２４（ＪＰ，Ａ）

【文献】特表２０１５－５２６１３５（ＪＰ，Ａ）

【文献】国際公開第２０１５／１５４１８７（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ５／００

Ａ６１Ｂ１０／００

Ｇ０１Ｎ２１／６５

(57)【特許請求の範囲】

【請求項1】

レーザー光源と、
励起ファイバと、
収集ファイバと、
分光計と、
CCD検出器と、
前記レーザー光源および前記CCD検出器とを制御し、前記CCD検出器によって取得されたラマンデータを処理するためのデータ処理モジュールと、を有するリアルタイムラマン分光システムであって、
前記データ処理モジュールが、ラマン分光法を用いてがん組織を検出する方法であって、
関心のある組織から手術中にその場でラマンデータを取得することと、
前記ラマンデータの品質を評価し、予め定められた品質基準を満たさないラマンデータを除外することと、
前記予め定められた品質基準を満たしたラマンデータについて、信号対雑音比を算出し、前記信号対雑音比が不十分と判断されたラマンデータを除外することと、
前記信号対雑音比が十分と判断されたラマンデータについて、前記関心のある組織においてがん組織と正常組織とを区別する上で有意性が高いと判断されたラマンデータ特徴量を抽出することと、
前記抽出された特徴量の相対値に従って前記ラマンデータを分類することと、
前記関心のある組織ががん組織であるか否かの答えを提供することと、を有し、
上記のステップはすべて手術中にリアルタイムで実行され、
前記信号対雑音比が、

【数12】

によって算出され、ここで、
・Ｃは、動作モードに応じて分光器の検出部（ＣＣＤ）に対して特徴付けるべき実験的な定数、
・ｎは、最終的なスペクトルを形成するために平均化される個々のスペクトルの数、
・τは、個々のスペクトルの取得時間（単位はミリ秒）、
・Ｉはサンプルに照射されるレーザパワー（単位はミリワット）、
・Ｒ ^(ｊ) は正規化されたシステム応答、
・ｌ ^(ｊ) は、正規化された環境光信号の測定結果への寄与のj番目のスペクトルバンド、
・ａ ^(ｊ) は、正規化された、自家蛍光信号の測定への寄与度のj番目のスペクトルバンド、
・ｒ ^(ｊ) は、正規化されたラマン信号の測定への寄与度のj番目のスペクトルバンドである、方法を実行するように構成されたシステム。

【請求項2】

前記リアルタイムが１秒以下である、請求項１に記載のシステム。

【請求項3】

前記信号対雑音比が単一のラマンスペクトルから計算される、請求項１に記載のシステム。

【請求項4】

前記品質を評価することが、宇宙線、環境光汚染、飽和レベル、低信号レベル、および高バックグラウンドレベルを検出することを含む、請求項１に記載のシステム。

【請求項5】

前記品質を評価することが、宇宙線干渉の補正の実施のために行われる、請求項４に記載のシステム。

【請求項6】

前記関心のある組織が脳組織である、請求項１に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、がん検出を目的としたラマン分光システムおよび方法の利用に関する。具体的には、本発明は、外科的処置の間にリアルタイムで腫瘍縁部のがん組織を検出するためのラマンシステムおよび方法の使用に関する。発明に係るシステムは、レーザー励起源、プローブ、分光計、およびカメラを有する構成を含み、プローブの光学系は外科的状況でのラマン収集のために特別に設計され、カメラはラマンアプリケーションの既知の制限に適合している。ラマンデータの既知の汚染源を除去し、ラマンデータを既知のラマンバイオマーカに対して評価し、その後のラマンデータの分類を達成することができるように、発明に係るデータ品質評価、特徴量抽出、および分類の方法をラマンシステムに適用することができる。最も具体的には、本発明は、ラマンデータから既知の汚染物質をフィルタリングし、得られたラマンデータを既知のバイオマーカと比較し、対象組織をがん性または非がん性に分類するとともに、さらに場合により対象組織をがん性組織のサブタイプに従って分類するために、がん手術中のリアルタイムアプリケーションでラマン分光法をリアルタイムアプリケーションで活用することを可能にするシステムおよび方法に関する。

【背景技術】

【0002】

脳腫瘍（およびその他の腫瘍タイプ）の手術管理の進歩にもかかわらず、最適な手術結果と腫瘍の同定との達成は依然として課題である。ラマン分光法は、光の非弾性散乱に基づいて分子を非破壊的に識別するために利用可能な、レーザを利用する技術であり、脳腫瘍手術の精度向上のために適用されている。最近、脳腫瘍と正常組織との識別におけるラマン分光法の精度を調べたり、異なる脳組織タイプのスペクトルをマッピングしたりする研究が多く発表されている。しかし、これらの研究は、データサンプルが不十分であり、また、何が良いラマンスペクトルを構成するかについての標準的な分類アルゴリズムやガイドラインが存在しないことにより、限定的であるか、決定的なものではない。同一被験者および異なる被検者の両方について、測定結果間ならびに測定条件間でスペクトルの品質評価を可能にする尺度は存在しない。

【0003】

ラマンスペクトルは、古典的には分析試料の分子成分のスペクトルの線形混合としてモデル化される。しかし、装置やサンプルの生物学的性質による物理的な歪みは、ラマンスペクトルモデルに線形および非線形の汚染物質を付加する。これらの歪みは、暗電流、検出器ならびに光学応答、蛍光バックグラウンド、ピークのずれ、ピーク幅の不均一性である。これらの歪みの存在下における教師付き分類アルゴリズムの設計は、分類精度の低下を招く。加えて、多様な生物学的起源から高度に可変な同一被験者および異被験者に関する混在データセットの高次元性は、機械学習技術に対する重要な課題を提起し得る。

【0004】

これらに加えて、ラマンスペクトルを汚染する複数の付加的な歪みが存在する。これらの付加的な歪みには、スペクトル飽和、宇宙線干渉、環境光干渉、高バックグラウンドノイズ、低ラマン信号レベルが含まれる。現在のラマンアプローチには、手術環境でのリアルタイム利用を想定してこれらの歪みをフィルタリングする方法が含まれていない。

【0005】

現在のラマン分光法の多くは、分類アルゴリズムのトレーニングのためにフルラマンスペクトルを用いている。このため、前述の汚染物質に加え、ラマンスペクトルの非有意な部分のノイズのレベルによる分類精度の低下を招いている。任意の１つの特定の組織タイプの分類に関して最も関連性の高いラマンスペクトル特徴量のサブセットが存在し、分類アルゴリズムをトレーニングするためにその特徴量を用いることで分類精度を大幅に向上させることができる。その後、ラマンデータを分類するために、サポートベクタマシンのような教師付き学習モデルを用いることができる。

【0006】

したがって、がんと正常組織の正確な分類に到達するために、データ品質評価、特徴量抽出、および既知のラマンバイオマーカーに対して評価される適切な抽出ラマン特徴量をもたらす教師付き学習モデルの方法を用いるラマンシステムが必要である。本明細書では、リアルタイムアプリケーションのために、各段階での新規な方法からなる独創的なシステムを提示し、がん検出のニーズを満足させる。

【図面の簡単な説明】

【0007】

【図1】図１は、本発明に係る方法とともに用いるために適合された本発明に係るラマン分光システムを示す図である。

【図2】図２は、本発明に係る方法に従ったデータ処理ステップおよび品質評価ステップを示すブロック図である。

【図3】図３は、レーザ励起パワーを最適化するためのデータ取得アルゴリズムの利用を示すブロック図である。

【図4】図４は、宇宙線アーティファクトを特定するためのフレームワークを示すブロック図である。

【図5】図５は、環境光汚染を特定するためのアルゴリズムの利用を示すブロック図である。

【図6】図６は、ラマンデータ品質評価のためのステップを示すブロック図である。

【図7】図７は、ラマン信号対バックグラウンド比の計算を示すブロック図である。

【図8】図８は、本発明のラマンバイオマーカー評価方法に従ったラマンスペクトルとその周波数加重エネルギー出力のグラフを示す図である。

【図9】図９は、本発明のラマンバイオマーカー評価方法に従った、様々なバイオマーカーピークを有するラマンスペクトルシグネチャのグラフを示す図である。

【図10】図１０は、本発明のラマン特徴量抽出方法に従った、正常組織とがん組織のラマンスペクトルのグラフを示す図である。

【図11】図１１は、本発明の方法に従った特徴量抽出ステップのブロック図である。

【図12】図１２は、本発明の特徴量抽出方法に従ったラマン特徴量ラベルのグラフを示す図である。

【図13】図１３は、本発明の方法に従った、ラマンバイオマーカー特徴量の教師なし検出のグラフを示す図である。

【図14】図１４は、本発明のラマン特徴量抽出方法のパフォーマンス分析のグラフを示す図である。

【図15】図１５は、本発明の方法に従ったサポートベクタ機構に基づく多段分類器アプローチを表すブロック図である。

【発明を実施するための形態】

【0008】

以下、添付図面を参照して、本発明をその様々な実施形態に関して詳細に説明する。

【0009】

本発明に係るシステムは、手持ち用のプローブと、近赤外（ＮＩＲ）の７８５ｎｍで発光する分光安定化レーザ光源（米国ニュージャージー州、Innovative Photonic Solutions社製）と、高速、高分解能の電荷結合素子（ＣＣＤ）（英国ベルファスト、ANDOR Technology社製）からなるカスタム分光器および検出システムと、ラップトップまたはＰＣからなるデータ処理モジュールとから構成されている。データ処理モジュールは、光源、ＣＣＤを制御し、取得したラマンデータを処理し、サンプリングした組織を分類し、臨床医にインターフェースを提供する役割を担う。代表的な実施形態を図１に示す。図１の代表的な発明実施形態は、手術中にリアルタイムでラマンデータを取得して処理し、サンプリングされた組織を分類し、臨床医に分類回答（例えば、がん／非がん）を提示することができる。この文脈において、リアルタイムとは、外科医のワークフローを妨げない、実質的に瞬間的な分類を意味し、最も理想的には１００ｍｓのオーダーから１秒を少し超える程度である。

【0010】

一実施形態においてプローブは、７本の３００μｍコア集光ファイバを有する。ドーナツ形状のロングパスフィルタは、励起レーザー光を遮断するが、サンプルのラマンシフト波長を集光ファイバに渡すことができる。これら７つのファイバは、レーザ供給ファイバアセンブリを含んだステンレススチールチューブを取り囲んでいる。励起レーザ光供給ファイバは２００μｍのコアファイバであり、その前面には励起ファイバに誘起されたラマン信号を除去するための小型バンドパスフィルタが設けられている。２ピースの収束フロントレンズは、バック部分に平凸で直径２ｍｍの湾曲したサファイアの後部（高屈折率が光を鋭く屈曲させる）と、厚さ１ｍｍの平らなマグネシウムフッ化物の前部とからなる。

【0011】

ラマン分光法は、単色光源で励起された物質の応答で非弾性的に散乱された光子のエネルギーを利用する技術である。励起光源が物質分子の異なる振動モードと相互作用するため、散乱された光子のエネルギー準位は波長がシフトする。このようにして生成されたラマンスペクトルにより材料の分子組成を理解することができる。はるかに一般的に使用されているレイリー（弾性）散乱とは異なり、ラマン分光強度は、典型的には１００万倍低いため、組織分類のためのラマン分光法の使用は、慎重なデータ取得と処理上の考慮が必要になる。図２は、ラマンに基づく本発明のがん検出／組織分類システムの考えられる１つのワークフローを記述している。図２に表される分類システムは、図１の代表的な実施形態のようなハードウェア実施形態を用いて展開され、システムが較正されると、手術中にリアルタイム分類決定（例えば、がん／非がん）を行うことが可能になるだろう。

【0012】

図２を参照して、各ケースの開始時においてシステムは、分類段階による患者間比較を可能にするために、較正ならびに特性評価がなされなければならない。データまたは組織のタイプごとに異なる処理および分類手法が必要となりうるので、検討するデータ／組織タイプを選択しなければならない。データ収集ブロックは、システムが単色光を組織に与え、散乱光をラマンデータとして収集することを可能にする。データ品質評価は、収集したラマンデータに対するフィルタリングと、ラマンスペクトル抽出における使い勝手についての評価とを可能にする。取得したラマンデータの品質が十分良好でないでない場合、データは拒否され、測定結果が再取得される。ここで、本発明の重要な側面は、リアルタイムで実行可能なデータ品質評価アルゴリズムセットである。ラマンスペクトル抽出または前処理ブロックでは、取得したラマンデータからラマンスペクトルを抽出するために信号処理アルゴリズムが適用される。抽出されたラマンスペクトルは、信号対雑音比(SNR)および他の測定基準(metric)を評価するためにさらに処理される。これは、組織タイプの分類に対するラマンスペクトルの適用性を決定するためである。SNRの評価は、ラマンスペクトルの単一実現(single realization)に適用可能な新しいSNR定義の適用によって実行される。本発明に係るシステムの重要な構成要素の１つは、組織分類のためのデータの次元削減および分類を可能にするため、ラマンスペクトルから適切な特徴量を抽出することである。

【0013】

データ取得
前述したように、ラマンデータ取得動作は、単色光で組織を励起することと、分光器で多波長散乱光をラマンデータとして収集することからなる。光はＣＣＤイメージセンサによって取り込まれる。ＣＣＤ画像は、スペクトル取得を達成するため、ビニングとして知られる技術を用いて操作される。これは、ＳＮＲを高めるとともに、ＣＣＤからの読み出しの高速化を実現するために、空間的に隣接する画素を結合する処理です。しかし、アナログデジタル変換前に空間画素間の積分を行うと、ＣＣＤのダイナミックレンジを超えてしまうリスクがある。さらに、励起レーザーパワーまたは露光時間に対するラマンデータの応答は、測定部位および組織の種類によって大きく変化する。したがって、励起レーザーパワーまたは露光時間を固定することは、最適なラマンスペクトル取得に適していない。これに対処するため、我々は、飽和状況を発生させずにＣＣＤのダイナミックレンジを最大化するために、励起レーザーパワーまたは露光時間を適応的に調整することを目的とした新規な手法を開発した。

【0014】

図３（ａ）およびＡ（ｂ）を参照すると、各ラマン測定結果について、データ取得アルゴリズムは、まず、考慮された測定部位に対して最適な励起レーザパワー（および／または励起露光時間）を決定しようとする。結果として最適化された収集パラメータは、Ｎのラマン測定結果を収集するために用いられる。図３（ｃ）は、励起レーザパワーを最適化するための、１つのに考えられる手法を示している。ここでの主なコンセプトは、２つの比較的低い励起レーザーパワーＰ_１およびＰ_２でラマン測定を行うことである。各測定について、最大測定強度をmaxRS₁とmaxRS₂として決定する。これら２つの測定対を用いることにより、最大測定強度が、許容分光計／CCDダイナミックレンジの９０％となるような最適な励起レーザーパワーP_optを外挿ならびに決定することができる。点(P₁, maxRS₁)および(P₂, maxRS₂)を通るベストフィットラインは次のように記述することができる。
maxRS = m・P + b
ここでmとbは線形適合の傾きとy切片である。同様の方法で、励起レーザーの露光時間を最適化することができる。

【0015】

データ品質
ラマンデータは、非常に多くの汚染物質を伴った組織のラマン応答（ラマンスペクトル）から構成されている。したがって、このデータ品質評価ステップでは、ラマンスペクトル抽出のために考慮できるようになる以前に、収集されたデータが厳密な品質仕様を満たしていることが必須になる。図６は、データ品質評価に合格するためにデータが満たさなければならないシーケンスフィルタおよびテストを示している。飽和検出は、飽和テストが失敗した場合に、測定結果の１つ以上の信号が特定され、破棄されることを許容する。残りの信号は、宇宙船干渉の影響を取り除くために処理される。得られた信号は、強い環境光汚染が存在するか否かを調べるためにテストされる。このような干渉のいずれかが検出されると、ラマンデータ品質は不良と設定され、データに対するそれ以上の処理は行われずに測定がやり直される。データ品質評価の最後の２つのステップでは、バックグラウンドレベルが高いかどうかと、信号レベルが低いかどうかに関して測定結果がテストされる。いずれかに該当する場合、データは低品質と判断され、ラマン測定がやり直される。データ品質評価アルゴリズムにおいて鍵となる独創的見地は、リアルタイムシナリオに適用できるように計算が簡単であることである。我々のアプリケーションでは、ラマンスペクトルを抽出する前に、データが十分良好な品質を有していなければならない。

【0016】

ラマンスペクトルの抽出
飽和/ブルーミング
飽和またはブルーミングは、すべての電荷結合素子（CCD）イメージセンサにおいて、個々のフォトダイオードの有限電荷容量またはCCDの最大電荷転送容量のいずれかに達した状態で発生する現象である。ある電荷収集サイトで飽和が発生すると、さらなる光生成電荷の蓄積により、隣接するデバイス構造への過剰電子のオーバーフローもしくはブルーミングが発生する。ブルーミングの潜在的に望ましくない影響の多くは、白色の線状画像および誤った画素信号値から、出力増幅段での完全なブレークダウンに至るまで、センサ出力に反映され、暗い画像を生成する。

【0017】

アナログデジタル変換(ADC)ビット分解能に基づいて、飽和またはブルーミングは、ADC分解能の上限に達するビニングされたスペクトルとして定義される。調査対象の組織測定部位に対する最適なレーザー励起パワーおよび組織／CCD露光時間を適応的に決定することによってスペクトル飽和を防止する新しいアルゴリズム技術を開発した。データ取得段階で飽和レベルを制御したにもかかわらず、極端な場合には依然として飽和が存在する可能性がある。これは主に、様々な組織タイプのラマン応答が大きくばらつくことに起因するものである。そのため、CCDの飽和検出が必要である。最もシンプルな形態では、CCDのダイナミックレンジを超えうるラマン測定結果を検出するために閾値を用いる。そのような測定結果はすべて使用できないものとみなされ、取得が繰り返される。

【0018】

宇宙線干渉
ＣＣＤ検出器を用いたラマン装置では、一般的に宇宙線が観測される。宇宙線は、通常のラマンスペクトルで表わされる有意な化学情報を妨害もしくは破壊しうる。宇宙線は、ラマンだけでなく、暗いバックグラウンド測定においてもランダムに発生しうる。宇宙線はラマンピークに似た性質を持ちうるが、変動する振幅において非常にシャープな活動を示す傾向があり、連続した測定では発生しないことが分かっている。このような宇宙線の特性を用い、これらのアーチファクトを特定し、除去する。

【0019】

以下、図４を参照して、宇宙線アーチファクトを特定するための一般的な枠組みについて説明する。各測定は、Ｎ個のラマン測定結果と、Ｍ個のスペクトル値（波数）でのＲＳとで構成されている。宇宙線(CR)検出の最初のステップは、Teager演算子を用いたRSの非線形変換である。

【数1】

その多くの特性の一つは、CRのようなシャープなスパイク状の活動を増強する傾向があることである。これは、Teager演算子と呼ばれる非線形エネルギー演算子を用いた重み付けである。ピーク検出は、変換されたRSそれぞれに対して、すなわち、Φ（ｉ，ｊ）のｉ＝１：Ｎのそれぞれに対して実行される。各ｉおよび得られたＰｋ（ｉ，ｋ）について、９５パーセンタイルよりも大きいすべてのピークが候補ＣＲ（ＣＣＲ）として識別される。ＣＲはランダムに発生することが予想されるので、所与の（ｉ）についての各ＣＣＲ（ｉ，ｋ）の強度を、後続のＲＳ（Φ（ｉ，ｋ））における同じスペクトル位置のピークと比較する。現在のピーク強度がある閾値以上であれば、ＣＣＲ（ｉ，ｋ）はＣＲ検出であると考えられる。このアルゴリズムの一実施形態では、ピーク強度の９５％を閾値として使用している。識別されたＣＲは、スペクトル位置のＲＳを３次スプライン補間値に置き換えることで除去することができる。

【0020】

環境光干渉
手術室での測定のように、完全な暗闇の環境で測定されたものでないラマン測定結果は、環境からの光によって汚染されることが多い。環境光は、様々な光源のうち、とりわけ、部屋の照明、上方から照らす照明、モニターからの光から構成されうる。手術中のスペクトル取得の間、ラマン測定のための完全な暗闇環境を要求するのは非現実的であり、臨床の専門家に受け入れらるものではない。最低限の要求として、ラマン取得中は上方からの照明を視野から離れた方向に向けるものとする。しかし、これは必ずしも他の環境光汚染を解決するものではなく、そのような測定はほとんど価値がないと見なされることが多いため、分析において考慮すべきでない。環境光の汚染を識別するために、図５に示す、以下のアルゴリズムを開発した。（Ｎ回の生(raw)測定結果からの）平均生ラマン測定結果を、長さＬのＭ個のスペクトルビンに分割する。各ビンの振幅データについて、変動係数(COV)を求める。得られたＣＯＶのセットを通して最適なフィット直線がフィッティングされる。多くの実験的評価の結果、環境光の干渉がない場合には負の傾きを示し、干渉がある場合には正の傾きを示すことを突き止めた。したがって、傾きｇを経験的に決定されたしきい値と比較することで、環境光の干渉を検出することができる。

【0021】

高バックグラウンド検出
暗バックグラウンドスペクトルとは、試料にレーザー励起光を照射しない状態で得られる測定結果である。これらのデータは、ラマン測定結果に存在しうるベースラインオフセット、システムノイズ、固定パターンノイズを補正するために用いられる。これらに加え、環境に由来するもう一つのノイズ源を見出した。手術室(OR)照明である。これらの照明は手術中に消されないが、ラマンスペクトルへの影響を軽減するために視野から離れた方向に向けられる。暗バックグラウンド測定結果の強度の高さを調べる。高さを経験的に決定された閾値と比較し、高いバックグラウンド干渉を検出する。そのような測定結果はすべて、以降の処理から除外される。

【0022】

低信号強度
取得パラメータによって規定される本システムでは、ラマン測定のショットノイズは制限される。したがって、更なる処理のために十分良好な取得であるという基準を満たすためには、ＣＣＤに最小強度カウントが存在しなければならない。生ラマン測定について、対応するダーク測定（励起レーザー光を使用しない測定）を取得する。最初のステップとして、生ラマン信号からダーク測定結果が除去される。その後、信号レベルの妥当性を評価するため、得られた信号の最大値を、事前に決定された（所与のシステムおよび取得パラメータについて実験的に決定された）閾値と比較する。

【0023】

ラマンスペクトル抽出（前処理）
ラマンスペクトルは、いくつかの前処理モジュールの助けを借りて、測定された信号から抽出される。これらには、自家蛍光除去、装置応答補正、スペクトル正規化、および平滑化が含まれる。得られたスペクトルが、調査対象の組織／サンプルのラマンスペクトルである。前処理ステップの重要な側面は、抽出されたラマンスペクトルの品質を決定することである。リアルタイムアプリケーションのためには、達成する方法がシンプルでなければならない。以下では、ラマンスペクトルの品質を定量化するための２つの新しい手法、信号対ノイズ比（ＳＮＲ）と信号対バックグラウンド比（ＳＢＲ）を提供する。

【0024】

信号対雑音比（ＳＮＲ）
ラマンバイオマーカー評価により、特に生体組織からのラマン測定結果の品質を評価することができる。一般に、ラマン信号対雑音比（ＳＮＲ）は、ラマンピーク高さの、ピーク高さの標準偏差に対する比として定義される。

【数2】

ここで、ｊはスペクトルインデックスに対応し、μ（ｊ）＝ｊ番目のスペクトル位置におけるラマンスペクトルの平均、σ（ｊ）＝ｊ番目のスペクトル位置におけるラマンスペクトルの標準偏差である。定義上、Ｎ個の測定結果がないとオンラインアプリケーション中のラマンSNRを評価することはできない。本発明は、ラマン信号のSNR

【数3】

を評価するための新しい手法を提供する。

【0025】

ここで、
・Ｃは、動作モードに応じて分光器の検出部（ＣＣＤ）に対して特徴付けるべき実験的な定数、
・ｎは、最終的なスペクトルを形成するために平均化される個々のスペクトルの数である。
・τは、個々のスペクトルの取得時間であり、単位はミリ秒である。
・Ｉはサンプルに照射されるレーザパワーで、単位はミリワットである。
・Ｒ^(ｊ)は正規化されたシステム応答であり、これはNIST 2241材料のようなシステム校正規格から得ることができる。
・ｌ^(ｊ)は、正規化された環境光信号の測定結果への寄与のj番目のスペクトルバンドである。これは、試料表面で収集される光が環境光信号のみとなるように、励起を行わずに組織試料の測定（暗測定）を行うことで得られる。測定結果は、露光時間、レーザパワー、正規化されたシステム応答、および検出器ゲインによって正規化される。
・ａ^(ｊ)は、正規化された、自家蛍光信号の測定への寄与度のj番目のスペクトルバンドである。これは、露光時間、レーザーパワー、正規化されたシステム応答、検出器ゲインによる正規化後の自己多項式回帰アルゴリズムを用いて、自家蛍光信号の線形状を推定することで得られる。
・ｒ^(ｊ)は、正規化されたラマン信号の測定への寄与度のj番目のスペクトルバンドである。これは、露光時間、レーザーパワー、システム応答、およびカメラゲインによって正規化されている測定結果からａ^(ｊ)を減じることによって得られる。

【0026】

上述した新規なＳＮＲの定義は、特定のスペクトル位置における信号品質の目安を提供する。この定義を、以下のように、全体の平均SNR（SNRバー）を決定するために用いる。

【数4】

ここで、Ｊは、特徴付けられる組織サンプルのタスクおよびタイプに対応する、最も関連性の高いキーラマンスペクトルバンド（ピーク）に対応するスペクトルバンドのサブセットに対応する。一例としては、ヒト脳組織を正常なものとがん性のものとに分類するために用いられるスペクトル特徴量、または単にラマンスペクトルの全ピークのトップ10％を挙げることができる。さらに重要なことに、この定義はリアルタイム信号取得中に適用できるため、ラマン測定結果の品質を確認することが可能になる。

【0027】

信号対バックグラウンド比(SBR)
ラマン信号対バックグラウンド比は、非線形Teager演算子を用いることで高速に計算できる。図７は、ラマンスペクトルと対応するTeager演算子の出力とを示している。この演算子の重要な側面は、ベースラインのずれ(wander)を抑制しながらラマンピークを増大させる能力である。図７は、信号対バックグラウンド比を記述するメトリックを得るために実行する必要のある一連の動作を示している。分析対象の所与の組織タイプについて、まず、キーとなるバイオマーカーのラマンピークのセットを選択する。図４は、脳組織に存在する傾向のあるいくつかの重要なピークと、これらのピークの主な原因となっている構成分子を示している。図７に関し、関連するラマンピークの位置を知ることで、各ピークの左右のローカルバックグラウンドを定義することができる。ヒトの脳、肺組織、動物組織（ニワトリの骨および筋肉、血液、牛の筋肉、腎臓、肝臓、子牛の脳）を含む複数のシナリオで得られたデータをもとに、バックグラウンドスペクトル位置の適切な定義を実験的に決定した。典型的には、これらは各ピークの左右の２０～３０スペクトル位置（画素）程度であった。Teagerの非線形変換は、ラマンスペクトルに対して適用される。グローバルバックグラウンド(GB)は、最大ＲＳ値の５%未満のすべてのスペクトル値の平均として計算される。各ピークのＳＢＲ_ｉは、ｉ番目ピークのＧＢ補正されたＲＳエネルギーと、ＬＢｋｇｄ_ｉおよびＲＢｋｇｄ_ｉによって定義されるローカルバックグラウンドエネルギーの平均値として計算される。全体的なＳＢＲは、個々のＳＢＲｉの平均値である。

【0028】

図２に従って、ＳＮＲおよびＳＢＲメトリックが閾値と比較される。広範なデータ分析と、何が良いスペクトルと悪いスペクトルを構成するかの基本的な真実とに基づいて、実験的にこれらの２つのメトリックの閾値を規定した。設定されたカットオフ閾値を満たすスペクトルのみが高品質のラマンスペクトルとみなされ、その後の特徴量抽出と分類手法に用いられる。

【0029】

特徴量抽出
通常、どのような機械学習においても、最初のステップは、データが応答変数にどのように関連しているかを定性的かつ定量的に判断するために、データの統計的特性を調査することである。この最初の調査ステップでは、しばしば、データを反映している特徴量の多くが、分類器のオーバーフィッティングや計算負荷の増加を招きうる無関係で冗長なものでありうることが判明する。したがって、関連づけられた応答ラベルにしたがってデータを最もよく記述する特徴量のサブセットを見つけ、次元性を減らし、全体的な分類性能を向上させることが急務である。特徴量選択は、選択基準と探索戦略からなる組合せ最適化問題であり、予測性能を向上させ、データの次元性の問題を軽減する。

【0030】

ラマン分光学の文献では、ほとんどの場合、機械学習による組織分類にフルスペクトルが用いられている。フルスペクトルの使用は、オーバーフィッティングや予測のための統計モデルの貧弱さを招きうる。本発明の全体の一部として、正常またはがんとしての組織を分類するために最も関連するであろうスペクトルピークおよびスペクトルバンドをマイニングする教師なし方法を開発した。自動的に識別されるスペクトルバンドは、手動で識別されたスペクトルピークおよびスペクトルバンドと比較される場合、手動で識別された期待されるスペクトルピーク／スペクトルバンドに１対１で対応づけられる。

【0031】

これらのラマンバイオマーカーを同定するため、統計的ブートストラップ法を採用する。ブートストラップは、置換によるランダムサンプリングを利用した手法である。各サンプルプールにおいて、組織分類に適しているであろうスペクトルバンドを特定するために、一連の情報理論的特徴量選択技術を利用する。

【0032】

分類に関連するであろうラマンスペクトルバンドを識別するための技術の１つの考えられる実施形態のブロック図を図６に示す。トレーニングデータは、正常またはがんのラベルが付されたＮ個のラマンスペクトルからなる。ｊ番目のパーティションを生成するための学習データのサンプリングに、置換を伴うブートストラップ技術を用いる。Ｊ個のパーティションついて、分割されたデータサイズをＭ（＜Ｎ）に設定する。スペクトルバンドの数はＫとなるように選択する。ブートストラップパーティションごとに、スペクトル (強度) およびラベルが与えられるデータクラスの条件付き尤度を最大化するＫ個の最も優勢なスペクトルバンドを同定するため、複数（Ｌ）の情報理論に基づく基準（後述）を用いる。ブートストラップステップを反復するごとに、長さKx1のデータ点の縮小セットが得られる。この処理をＬ個の基準について繰り返すことで、Ｌ個のスペクトルバンドベクトル→ＦＶ_mRMR、→ＦＶ_MIM、→ＦＶ_CMIM、→ＦＶ_FCBFが得られ、これらを連結して→ＦＶ_j（Ｋ・Ｌｘ１）を得ることができる。

【数5】

【0033】

この処理は、Ｊ個のブートストラップパーティションについて繰り返される。繰り返しごとに、特定されたスペクトルバンドを前回の繰り返しで得られたものと連結して、サイズ J x (K-L) の行列 F を生成する。最後の繰り返しに続いて、特徴量計算のためのＫ個の最も出現するスペクトルバンドを、投票を用いて選択する。最も単純な実施形態では、特定されたスペクトル位置のそれぞれにおけるラマン強度が、分類のためのＫ要素の特徴ベクトルとして用いられる。一実施形態では、Ｊ＝５０のブートストラップ反復でＫ＝３００のスペクトルバンドを選択した。図７は、学習データセットの１つからこの特徴量抽出を行った結果を示している。

【0034】

MRMR (最大関連性最小冗長性:Max-Relevance Min-Redundancy)：MRMR法の考え方は，データＤについて、協同して対象クラスＣについて最も大きな依存度を有するｍ個の特徴量｛ｘ_ｉ｝を有する特徴量セットＳを見つけることである。最大関連性(Max-Relevance)は、以下を満たす特徴量の探索である。

【数6】

これは，個々の特徴量ｘ_ｉとクラスｃの間のすべての相互情報値の平均値を用いてＤ（Ｓ，ｃ）を近似したものである．最大関連性に基づいて選択された特徴量は、冗長性が高い、すなわち特徴量間の依存性が大きい可能性があると考えられる。２つの特徴量が互いに高い依存性を有する場合、片方を削除したとしても、個々のクラス識別力はあまり変化しないであろう。したがって、相互に排他的な特徴量を選択するために、以下の最小冗長性(Min-Redundancy)条件を追加することができる。

【数7】

これら２つの制約を組み合わせた基準を「最小冗長性-最大関連性」(mRMR)と呼ぶ。

【0035】

相互情報最大化(MIM)：特徴量選択の最も簡単な形式は、繰り返しのない均一なランダムサブサンプリングからなる。このようなアプローチでは、元のものと同じように独立した特徴量が得られるものの、情報量の多い特徴量は選択されない。したがって、ごく一部の特徴量だけが予測すべきクラスに関する情報を提供している場合には結果が悪くなる。ランダムサンプリングの主要な弱点を回避するため，ＭＩＭ手法は、予測すべきクラスとの相互情報を個々に最大化するＫ個の特徴量ｎ（１），...，ｎ（Ｋ）を選択する。このようなランキングに基づいた選択は、特徴量間の依存性が低いことを保証するものではなく、冗長で情報量の少ない特徴量ファミリをもたらすこともある。

【0036】

相互情報Ｉ（ｘ；ｙ）は次のように定義される。

【数8】

これは、ｘからｙに伝達される情報が、ｘが既知のときのｙの不確実性の減少に等しいことを示している。

【0037】

条件付き相互情報最大化：条件付き相互情報とは、Ｗが既知のときのランダム変数Ｕのエントロピーと、ＶとＷがいずれも既知のときのＵのエントロピーとの差である。この式は、Ｗが伝えないＵについての情報をＶがどれだけ伝えるかを示している。

【数9】

条件付き相互情報最大化(CMIM)法[24]は、上述した条件付き相互情報に基づいて、できるだけ多くの情報を運ぶ特徴量の小さなサブセットを選択するアルゴリズムである。具体的には、ＣＭＩＭの最終的な目標は、

【数10】

を最小化するＶ（１），...，Ｖ（ｋ）を選択することであろう。
Ｈ（Ｙ｜Ｘ）は、２つのランダム変数Ｘ、Ｙの、所与のＸに対する条件付きエントロピーＹである。また、Ｖ（１），...，Ｖ（ｋ）は、変数の集合全体から選択する変数の数である。

【0038】

高速相関ベースフィルタ：高速相関ベースフィルタ(FCBF)は、特徴量間の相関を明示的に扱う手法である。まず、相互情報が閾値ｄよりも小さい特徴量を予測して除去するために、クラスとの相互情報にしたがって特徴量をランク付けする。
第２ステップでは、式４．６および式４．７を満たすように、特徴量Ｘ_ｊが存在する場合には任意の特徴量Ｘ_ｉを反復的に除去する。

【数11】

すなわち、Ｘ_ｊはＹの予測因子として優れており、Ｘ_ｉはＹよりもＸ_ｊに似ている。閾値ｄは最大の情報を保持するスペクトルバンドの良好なセットを得るために適応させることができる。

【0039】

実験データを観察することで、異なる組織タイプのスペクトルには固有な形態学的特徴があることが示唆される。これらの形態学的特徴は、分類の改善に役立つ可能性がある。特徴量評価ステップでは、スペクトル強度に加え、所与のバンド内のスパイク状ピークの数、スパイク状ピークの下の面積、スパイク状ピークの左右の傾きなど、いくつかの形態的特徴も考慮した。これは、特徴バンドが上記で特定された隣接するスペクトル位置のグループとして規定されている場合に、特徴バンドに適用可能である。ラマンスペクトルのある種の異常は、システム自体や生物学に起因しうる。このような異常は、機械学習アルゴリズムの特徴の一部として含まれてはならない。特徴量抽出の最後のステップは最適化である。このステップは、調査中の組織をパラメータ化しないことが明らかなバンド／ピークを手動で除外することを目的としている。例えば、血液に対応する可能性のあるラマンスペクトルの特徴量を除外することを想定している。

【0040】

ラマンピーク、ラマンバンド、ラマン形態学的特徴をまとめてラマンバイオマーカーと定義する。分光計の一実施形態では、有意なバンドの幅を狭くすることが可能である。ラマンバイオマーカーの冗長性と量を減らすことは、利用可能なトレーニングの量が制限されている場合における分類器のオーバーフィット問題に対処するために役立つ。

【0041】

まず、最適化された特徴ベクトル→ＦＶ_optを取得したのち、図８に示すように有意なバンドの幅を適応的に制御するピボットパラメータｐを導入する。１つ抜き公差検証法(leave-one-out-cross-validation)を用いて、幅が変化するごとに性能指標を確認することにより、ピボットポイント周辺の幅を適応的に増減させる。図８はピボットパラメータｐの使用例を示し、図９は選択されたバンドの幅ごとの性能結果を示している。波数２２のバンド幅に対して明らにピーク性能が得られている。

【0042】

がん細胞に複数のサブタイプが存在する可能性があることを考慮して、多層カスケード形式のマルチクラス機械学習技術を構築するために実際には最も現実的な手法を用いている。例えば、AdaBoost、ロジスティック回帰、サポートベクターマシン(SVM)、ブーストツリーなどの分類技術、カスケード構造のブートストラップ付きトレーニングデータセットを用いる人工ニューラルネットワークなどが適切な候補である。がん浸潤脳組織のさまざまなクラスに関するマルチクラス問題を解決する新規かつ効果的なアプローチに到達するために、図１５に示すように、１対他(one-versus-rest)の分類器を構築し、単純な決定木様ネットワークでカスケード構造を使用するという案である。

【0043】

本ケースにおいて、１段目の分類器は、（大まかに）正常クラスと腫瘍クラスとを検出するように調整されている。腫瘍クラスはさらに、一例として浸潤性腫瘍、腫瘍、壊死組織に分けられる。後段への入力は、教師なしクラスタリング法によって得られた固有のクラスである。

【0044】

本発明のシステムおよび方法を以下のようにラマンデータに適用した。正常（Ｎ）、腫瘍（Ｔ）、浸潤（Ｉ）、または壊死クラスに属する病理学的ラベルを持つ４０のスペクトルを調査した。壊死クラスは識別が容易であるため、このデータセットでは考慮しなかった。そのため、壊死組織がトレーニング／テストセットの一部にならないよう、壊死組織を識別して破棄するためのテンプレートマッチング手法を開発した。一実施形態において、トレーニングされたＳＶＭベースの分類器は、モデルを構築するためにどのような側面からも考慮されていないブラインド脳腫瘍データセットでテストされる。

【0045】

生体内(in vivo)ヒト脳組織についての結果を表１（トレーニングデータセット）に示す。分類器Ａは、２クラス（正常か腫瘍か）の分類が可能な初段のＳＶＭ分類器である。分類器Ｂは、２クラス（正常か、腫瘍かつ浸潤か）の分類が可能な変形ＳＶＭ分類器である。分類器Ｂは、浸潤クラスを腫瘍として扱うため、曲線下面積、精度、感度、特異性など、すべての性能パラメータで低下が見られる。一方、分類器Ｃは多段分類器である。主に不十分な入力データに起因して誤分類が生じることもあるが、病理学的ラベルとの高度な一致性を有する性能であることが確認された。

【0046】

【表1】

表１：学習データセットの性能分析