特許第5825641号(P5825641)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立研究開発法人産業技術総合研究所の特許一覧
特許5825641病理組織画像の特徴抽出システム及び病理組織画像の特徴抽出方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5825641
(24)【登録日】2015年10月23日
(45)【発行日】2015年12月2日
(54)【発明の名称】病理組織画像の特徴抽出システム及び病理組織画像の特徴抽出方法
(51)【国際特許分類】
   G01N 21/27 20060101AFI20151112BHJP
   G01N 33/48 20060101ALI20151112BHJP
   G01N 33/483 20060101ALI20151112BHJP
   G06T 1/00 20060101ALI20151112BHJP
【FI】
   G01N21/27 A
   G01N33/48 M
   G01N33/483 C
   G06T1/00 295
【請求項の数】18
【全頁数】35
(21)【出願番号】特願2012-525453(P2012-525453)
(86)(22)【出願日】2011年7月22日
(86)【国際出願番号】JP2011066744
(87)【国際公開番号】WO2012011579
(87)【国際公開日】20120126
【審査請求日】2013年2月1日
(31)【優先権主張番号】特願2010-166496(P2010-166496)
(32)【優先日】2010年7月23日
(33)【優先権主張国】JP
【前置審査】
(73)【特許権者】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(74)【代理人】
【識別番号】100091443
【弁理士】
【氏名又は名称】西浦 ▲嗣▼晴
(72)【発明者】
【氏名】野里 博和
(72)【発明者】
【氏名】坂無 英徳
(72)【発明者】
【氏名】村川 正宏
(72)【発明者】
【氏名】小林 匠
(72)【発明者】
【氏名】樋口 哲也
(72)【発明者】
【氏名】大津 展之
【審査官】 横尾 雅一
(56)【参考文献】
【文献】 特開2008−216066(JP,A)
【文献】 特開2008−309662(JP,A)
【文献】 特開2009−175334(JP,A)
【文献】 米国特許出願公開第2010/0130870(US,A1)
【文献】 岩田健司、外11名,高次局所自己相関特徴法によるがん病理画像診断支援システム,ViEW2009 ビジョン技術の実利用ワークショップ講演論文集,日本,2009年12月 3日,第32頁−第37頁
【文献】 栗原司、外9名,高次局所自己相関特徴を用いた病理画像からの異常検出,映像情報メディア学会2009年冬季大会講演予稿集,日本,2009年11月27日,第5−2頁
【文献】 野里博和、外7名,高次局所自己相関特徴を用いた病理組織診断支援技術の研究,情報処理学会研究報告,日本,2009年 2月26日,Vol.2009, No.19,第161頁−第164頁
(58)【調査した分野】(Int.Cl.,DB名)
G01N 21/00−21/61
G01N 33/48−33/98
G06T 1/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
背景、細胞質及び細胞核を含む病理組織画像データから、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成するために必要な領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムと、
前記病理組織画像の領域分割画像データ作成システムにより作成した病理組織画像を予め定めた複数の局所パターンマスクを個々に用いて走査し、前記局所パターンマスク毎に高次局所自己相関特徴を計算する高次局所自己相関計算部と、
前記複数の局所パターンマスクをそれぞれ45°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分け、1つの前記不変特徴グループに属する複数の前記局所パターンマスクを一つの特徴量とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた前記高次局所自己相関特徴の線形和を計算する要素特徴ベクトル計算部と、
前記高次局所自己相関特徴の線形和値に基づいて、前記病理組織画像の特徴を抽出する特徴抽出部とを具備し、
前記病理組織画像の領域分割画像データ作成システムが、
前記病理組織画像データから前記細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成する第1の2値化画像データ作成部と、
前記病理組織画像データから前記背景領域とその他の領域とが区別できる第2の2値化画像データを作成する第2の2値化画像データ作成部と、
前記第1の2値化画像データと前記第2の2値化画像データの否定論理和をとって細胞質領域を明確にし、前記領域分割画像データとなる3値化画像データを作成する3値化画像データ作成部とを備えていることを特徴とする病理組織画像の特徴抽出システム。
【請求項2】
背景、細胞質及び細胞核を含む病理組織画像データから、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成するために必要な領域分割画像データを作成するために前記病理組織画像データから前記細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成する第1の2値化画像データ作成部と、前記病理組織画像データから前記背景領域とその他の領域とが区別できる第2の2値化画像データを作成する第2の2値化画像データ作成部と、前記第1の2値化画像データと前記第2の2値化画像データの否定論理和をとって細胞質領域を明確にし、前記領域分割画像データとなる3値化画像データを作成する3値化画像データ作成部とを備えており、前記第1の2値化画像データ作成部は、前記病理組織画像のRGB画像データからR成分を分離し、分離したR成分を判別2値化法により2値化処理して、前記細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成するように構成されている病理組織画像の領域分割画像データ作成システムにより作成した病理組織画像を、予め定めた複数の局所パターンマスクを個々に用いて走査し、前記局所パターンマスク毎に高次局所自己相関特徴を計算する高次局所自己相関計算部と、
前記複数の局所パターンマスクをそれぞれ45°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分け、1つの前記不変特徴グループに属する複数の前記局所パターンマスクを一つの特徴量とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた前記高次局所自己相関特徴の線形和を計算する要素特徴ベクトル計算部と、
前記高次局所自己相関特徴の線形和値に基づいて、前記病理組織画像の特徴を抽出する特徴抽出部とからなる病理組織画像の特徴抽出システム。
【請求項3】
前記複数の局所パターンマスクは、m及びnを整数としたときに、(2m+1)×(2n+1)のセルからなるマスク範囲に格子状に配列した複数のマスク候補のうち、マスク範囲の中心に位置するマスク候補を選択し、さらにマスク範囲から0以上の任意個数のマスク候補を選択する事で構成されている請求項に記載の病理組織画像の特徴抽出システム。
【請求項4】
前記中心マスク候補以外のマスク候補が、中心マスクまでの距離が等しくなるように選択された請求項に記載の病理組織画像の特徴抽出システム。
【請求項5】
前記中心マスクの座標を(0,0)としてxy座標を仮想したときに、前記中心マスク候補以外の複数のマスク候補が、
(x2/n2)+(y2/m2)=1
y=(m/n)x または y=−(m/n)x または y=0 または x=0
上記2式の交点の座標を有する請求項に記載の病理組織画像の特徴抽出システム。
【請求項6】
前記mと前記nが等しく、
前記局所パターンマスクとして使用できる前記複数のマスク候補が前記中心マスク候補以外に8個ある請求項に記載の病理組織画像の特徴抽出システム。
【請求項7】
前記局所パターンマスクとして、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用する請求項2乃至6のいずれか1項に記載の病理組織画像の特徴抽出システム。
【請求項8】
前記第1の2値化画像データ作成部は、前記RGB画像データの全画素データをRGB色空間におけるR軸に射影して前記R成分を分離することを特徴とする請求項に記載の病理組織画像の特徴抽出システム。
【請求項9】
前記RGB画像データが、前記病理組織画像のすべての画素においてRGB色空間上のR成分からB成分を減算し、減算結果が0より小さい場合の画素値を0とする冗長成分除去を行った冗長成分除去情報削減RGB画像データである請求項2または8に記載の病理組織画像の特徴抽出システム。
【請求項10】
前記RGB画像データが、前記冗長成分除去情報削減RGBデータに含まれるすべての画素においてRGB色空間上のB成分からR成分を減算した値が、所定の値より大きい場合には、B成分からR成分を減算した値が前記所定の値となるようにB成分を予め定めた領域内のものとするクリッピングをしたクリッピングRGB画像データである請求項9に記載の病理組織画像の特徴抽出システム。
【請求項11】
前記第2の2値化画像データ作成部は、前記病理組織画像のYUV画像データからV成分を分離し、分離したV成分を判別2値化法により2値化処理して、前記背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されている請求項2に記載の病理組織画像の特徴抽出システム。
【請求項12】
前記第2の2値化画像データ作成部は、前記YUV画像データの全画素データをYUV色空間におけるV軸に射影して前記V成分を分離することを特徴とする請求項11に記載の病理組織画像の特徴抽出システム。
【請求項13】
前記第2の2値化画像データ作成部は、前記第2の2値化画像データを、前記病理組織画像データを主成分分析して得ることを特徴とする請求項2に記載の病理組織画像の特徴抽出システム。
【請求項14】
前記第2の2値化画像データ作成部は、前記病理組織画像のCIELuv画像データの全画素データを主成分分析し、全画素データの第2主成分スコアを判別2値化法により2値化処理して、前記背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されている請求項13に記載の病理組織画像の特徴抽出システム。
【請求項15】
前記CIELuv画像データは、前記病理組織画像のRGB画像データをXYZ画像データに変換し、Yの値に基づいてLの値を算出し、XYZの値及び前記Lの値に基づいてuとvを算出することにより、RGB画像データから変換されたものである請求項14に記載の病理組織画像の特徴抽出システム。
【請求項16】
前記第2の2値化画像データ作成部は、前記病理組織画像データの全画素データを主成分分析して、全画素データの第1主成分スコアを判別2値化法により2値化処理して、前記背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されている請求項2に記載の病理組織画像の特徴抽出システム。
【請求項17】
病理組織画像を、予め定めた複数の局所パターンマスクを個々に用いて走査し、前記局所パターンマスク毎に高次局所自己相関特徴を計算するステップと、
前記複数のマスクパターンをそれぞれ45°ずつ回転させたとき及び反転させたときに等価とみなせる複数のマスクパターンをそれぞれ複数の不変特徴グループに分け、1つの前記不変特徴グループに属する複数の前記マスクパターンを一つの特徴量とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた前記高次局所自己相関特徴の線形和を計算するステップと、
前記高次局所自己相関特徴の線形和値に基づいて、前記病理組織画像の特徴を抽出するステップとからなる病理組織画像の特徴抽出方法。
【請求項18】
前記局所パターンマスクとして、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用する請求項17に記載の病理組織画像の特徴抽出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、病理組織画像の領域分割画像データ作成システム並びに病理組織画像の特徴抽出システム及び方法に関するものである。
【背景技術】
【0002】
現在、がん( 本明細書では、悪性腫瘍全体を示す際には「がん」と表記し、胃生検組織など上皮組織由来の悪性腫瘍を示す際には「癌」と表記する)の確定診断として行われている病理診断では、専門の知識と経験を有する病理専門医(以下、病理医とする)により、患者の体から手術や検査によって採取された組織の病理標本を顕微鏡観察することにより実施されている。
【0003】
しかし、近年のがん患者の増加や医師不足などにより、病理医への負担増加が深刻な社会問題となりつつある。国立がんセンターがん対策情報センターの発表によれば、日本では、1998年以降、毎年50万人以上が新たにがん患者と診断され、2004年には1975年の約3倍である約65万人が新たにがん患者と診断されている。今後もがん患者はさらに増加する見込みで、このままでは病理医への負担がさらに増加するものと懸念されている。しかし、病理医不足が解消するめどは立っておらず、病理医の負担を軽減するための技術開発が求められている。
【0004】
この問題を解決する技術として、病理組織画像から細胞核や細胞の特徴を抽出し、自動診断を行う手法が提案されている[非特許文献1及び非特許文献2参照]。しかし、非特許文献1及び2に示される手法で得られる情報は、細胞核の切り出し処理の正確性に大きく影響されるという問題がある。
【0005】
そこで発明者等は、この問題を克服する別のアプローチとして、高次局所自己相関(Higher-order Local Auto-Correlation:HLAC)特徴[非特許文献3]を用いた病理診断支援技術[非特許文献4及び非特許文献5]を提案した。この手法では、細胞核や細胞の輪郭を切り出すことなく病理組織画像の特徴抽出を行うことが可能である。この提案では、胃生検病理組織画像に対し、まず、非癌の正常病理組織画像から抽出したHLAC特徴の主成分分析により、正常部分空間[非特許文献6参照]の形成を行い、癌を含む病理組織画像から抽出したHLAC特徴に対し、この正常部分空間からの逸脱度を算出して異常検出を行った。実験の結果、学習した非癌の正常病理組織画像と比較して、癌を含む病理組織画像を異常として認識し、自動診断への適用可能性があることは確認できた。
【0006】
また特開2006−153742号公報(特許文献1)には、事前に多数の病理組織画像を使って細胞核の典型的な色情報を記憶しておき、検査対象である病理組織画像におけるその色の分布状態を調べ、高く分布している箇所を細胞核の中心と見なして所定サイズを切り出し、それらにおける色情報などを、対象とする病理組織画像の特徴量として採用している。
【0007】
また特開2009−9290号公報(特許文献2)には、病理組織画像をHSV色空間変換して得られる彩度(S)成分と明度(V)成分を判別分析で2値化し、論理積を取って、ゼロの領域を背景と判定している。さらに背景以外の領域について、V成分を判別分析で2値化して細胞核を抽出している。そしてこの従来技術では、細胞毎の細胞質と細胞核の面積比のヒストグラムを特徴量として採用している。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2006−153742号公報
【特許文献2】特開2009−9290号公報
【非特許文献】
【0009】
【非特許文献1】C.Demir and B. Yener,“Automated cancer diagnosis based on histpathological images: a stystematic survey,”Technical Report, TR-05-09, Rensselaer Polytechnic Institute, Mar.2005.
【非特許文献2】E. Cosatto, M. Miller, H.P. Graf and J. S. Meyer, “Grading Nuclear Pleomorphism on Histological Micrographs,” Proc. of the 19th International Conference on Pattern Recognition (ICPR2008), pp.1-4, Tampa, USA, Dec.2008.
【非特許文献3】N.Otsu and T.Kurita,”A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Compiter Vision, pp.431-435, Tokyo, Japan, Oct.1988.
【非特許文献4】野里博和,坂無英徳,村川正宏,樋口哲也,大津展之,寺井謙介,蛭田啓之,亀田典章,“高次局所自己相関特徴を用いた病理組織診断支援技術の研究,”情報処理学会研究報告 MPS-73,vol.2009,no.19,pp.161-164,Mar.2009.
【非特許文献5】栗原司,野里博和,坂無英徳,村川正宏,古谷立美,樋口哲也,大津展之,寺井謙介,蛭田啓之,亀田典章,“高次局所自己相関特徴を用いた病理組織画像からの異常検出,”2009年映像情報メディア学会冬季大会講演予稿集,p.5-2,Dec.2009
【非特許文献6】Takuya Nanri and Nobuyuki Otsu,“Unsupervised Abnormality Detection in Video Surveillance,” Proc. IAPR Conf. on Machine Vision Application (MVA2005),pp.574-577, Tsukuba, Japan, May.2005.
【発明の概要】
【発明が解決しようとする課題】
【0010】
非特許文献5及び6に記載の手法では、正常として認識されるべき非癌画像においても少なくない数のサンプルが、癌の疑いを示す異常と認識され誤検出となっていた。この手法により医師の負担を効果的に軽減するためには、この誤検出をなるべく抑えることが必要である。
【0011】
また特許文献1に記載の技術では、組織標本の染色状態は一定ではないため、検査対象における細胞核の色と事前に求めた典型的な細胞核の色とが一致しない恐れがあり、細胞核検出精度が低下する。また特許文献1の技術で得られる情報は、細胞核の切り出し処理の正確性に大きく影響されるという問題がある。
【0012】
特許文献2に記載の技術では、組織標本の染色状態が薄い場合、画像全体のSおよびV成分の分散が小さくなるため、正確な2値化が難しくなる恐れがある。また一定面積における細胞質と細胞核の面積比のヒストグラムを特徴量として採用しているが、面積比には細胞や細胞核の形に関する情報が含まれないため、病理組織標本の性質を適切に表現しているとは言えない問題がある。
【0013】
本発明の目的は、背景領域、細胞質領域及び細胞核領域が従来よりも明確になった領域分割画像を生成するために必要な領域分割画像データを作成することができる病理組織画像の領域分割画像データ作成システムを提供することにある。
【0014】
本発明の他の目的は、高次局所自己相関特徴を用いて、従来よりも画像認識精度を高めることができる病理組織画像の特徴抽出システム及び方法を提供することにある。
【課題を解決するための手段】
【0015】
本出願は、病理組織画像からの異常検出における誤検出を抑えるための領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムを提案し、且つ本出願は、病理医が診断時の手掛かりとする組織の重要度と病理組織画像特有の性質を特徴抽出に活かした、病理組織画像の特徴抽出システム及び方法を提案する。まず病理組織画像を細胞核領域・細胞質領域・背景領域の3つの領域に分割し、各領域をそれぞれの組織の重要度を数値化したレベル値によって3値化する。また、病理組織画像は方向的特徴がないので、病理組織画像から回転や反転を考慮したHLAC特徴抽出を行って病理組織画像の特徴を抽出する。
【0016】
本出願の第1の発明は、背景、細胞質及び細胞核を含む病理組織画像データから、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成するために必要な領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムを対象とする。ここで病理組織画像データは、背景、細胞質及び細胞核を表示する複数の画素についての画素データによって構成されている。病理組織画像の領域分割画像データ作成システムは、第1の2値化画像データ作成部と、第2の2値化画像データ作成部と、3値化画像データ作成部とから構成される。第1の2値化画像データ作成部は、例えば、病理組織画像データから細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成する。第2の2値化画像データ作成部は、病理組織画像データから背景領域とその他の領域とが区別できる第2の2値化画像データを作成する。そして3値化画像データ作成部は、第1の2値化画像データと第2の2値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる3値化画像データを作成する
本発明のように、細胞核領域とその他の領域とが区別できる第1の2値化画像データと背景領域とその他の領域とが区別できる第2の2値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる3値化画像データを作成すると、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成することができる。これは、3種類の領域を区別して領域分割する場合、特徴的な2種類の領域を1種類ずつその特徴に合わせた区別方法により作成した領域の種類が異なる2種類の2値化画像データの否定論理和を取ることにより、区別するための特徴が不明瞭な領域部分が明瞭になり、既に分割した明瞭な領域部分と組み合わせることで3種類の領域を明瞭な状態で出力できるようになるためである。
【0017】
なお第1の2値化画像データ作成部は、例えば病理組織画像のRGB画像データからR成分を分離し、分離したR成分を判別2値化法により2値化処理して、細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成するように構成することができる。ここでRGB画像データとは、赤色成分の信号(R)と、緑色成分の信号(G)と青色成分の信号(B)の3要素によって色を表現する方式で表現された画像データである。
【0018】
第1の2値化画像データ作成部で使用する画像データとして、病理組織画像のすべての画素においてRGB色空間上のR成分からB成分を減算し、減算結果が0より小さい場合の画素値を0とする冗長成分除去を行った冗長成分除去RGB画像データを用いることができる。このような冗長成分除去を行うと、細胞核領域の抽出に障害となるB成分を多く含んだ画素情報を除去できる。さらに冗長成分除去RGBデータに含まれるすべての画素においてRGB色空間上のB成分からR成分を減算した値が、所定の値より大きい場合には、B成分からR成分を減算した値が所定の値となるようにB成分を予め定めた領域内のものとするクリッピング処理をした後のB成分を、第1の2値化画像データを求めるための画像データとして用いてもよい。このようなクリッピングをすると、病理標本画像に写るノイズや病理標本画像内の染色むらによる影響を大幅に低減できる。
【0019】
そして第2の2値化画像データ作成部は、具体的には、例えば、病理組織画像のYUV画像データからV成分を分離し、分離したV成分を判別2値化法により2値化処理して、背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されている。ここでYUV画像データとは、輝度信号(Y)と、青色成分の差分信号(U)、赤色成分の差分信号(V)の3要素によって色を表現する方式のことで表現された画像データである。この場合、第2の2値化画像データ作成部は、より具体的にはYUV画像データの全画素データをYUV色空間におけるV軸に射影してV成分を分離するように構成すればよい。データの種類が異なるRGB画像データとYUV画像データの2種類の画像データから得た第1及び第2の2値化画像データには、それぞれ細胞核領域、背景領域を個々に明確にする成分が含まれることになるため、上記3値化データ作成部により細胞質領域を明確化することが可能となる。
【0020】
また第2の2値化画像データ作成部として、病理組織画像データを主成分分析して背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成してもよい。この場合、第2の2値化画像データ作成部は、より具体的には主成分分析により得た複数の主成分軸のいずれか一つに、病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成するように構成すればよい。たとえば主成分分析により得た第1主成分軸に、病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成する。上記の処理を異なる軸に対しても同様に行って得られる複数の2値化画像データに対して論理和や論理積演算をおこなって、新たに1つの2値化画像データを作成してもよい。第2の2値化画像データを、病理組織画像データを主成分分析して得ると、YUV画像データから第2の2値化画像データを得る場合よりも、背景領域、細胞質領域をより明確化できることが試験により判っている。これは、色空間において画素データの分散を極大化する軸に沿って量子化を行うことによって、背景領域とその他領域とをよく分離できるためである。
【0021】
また第2の2値化画像データ作成部は、病理組織画像のCIELuv画像データを主成分分析して得た第2主成分軸の分析結果から背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成することができる。ここでCIELuv画像データとは、国際照明委員会 (Commission Internationale de l'Eclairage)が定めたCIELuv表色系で表現される画像データである。CIELuv表色系は、色空間上の距離が、人間による知覚的な色の差に近くなるように設計された均等色空間である。そのため人間(病理医)と同様の色識別感覚で処理を行い、領域を区別することが可能となる。
【0022】
なおRGB表色系からCIELuv表色系への変換については、たとえば「太田登,“色彩工学,”電機大出版局,1993.」に記載の方法を用いる事ができる。この公知の変換技術では、RGB表色系のデータをXYZ表色系のデータに変換し、Yの値に基づいてLの値を算出し、XYZの値及び前記Lの値に基づいてuとvを算出する。
【0023】
本出願の第2の発明の病理組織画像の特徴抽出システムは、高次局所自己相関計算部と、要素特徴ベクトル計算部と、特徴抽出部とから構成する。
【0024】
高次局所自己相関計算部は、病理組織画像の領域分割画像データ作成システムにより作成した病理組織画像に、予め定めた局所パターンマスクを当てはめて、局所パターンマスクのマスク範囲にある複数のマスク候補にある画素値を乗算する。そして、画像全体にわたって局所パターンマスクを走査しながら、画素値の乗算値を積算して、病理組織画像全体の積和値とする。あるいは、病理組織画像を複数のブロックに分け、ブロックごとに局所パターンマスクを走査しながら画素値の乗算値の積算値を求め、複数のブロックの積算値の和を積和値として計算してもよい。このとき得られる積和値のことを、本出願では特徴量と呼ぶ。
【0025】
局所パターンマスクは、m及びnを整数としたときに、(2m+1)×(2n+1)のセルからなる格子の範囲をマスク範囲とし、(2m+1)×(2n+1)個のセルを複数のマスク候補とする。そして複数のマスク候補のうち、マスク範囲の中心に位置するマスク候補を中心マスクとして選択し、さらにマスク範囲から0以上の任意個数のマスク候補を選択することで局所パターンマスクは構成される。「大津展之, パターン認識における特徴抽出に関する数理的研究, 電子技術総合研究所研究報告, 第818号」には、中心マスクであるマスク候補以外に、マスク範囲内の{(m,0),(m,n),(0,n),(−m,n),(−m,0),(−m,−n),(0,−n),(m,−n)}に位置する8個から、0個または1個または2個のいずれかを選択する事で構成される複数の局所パターンマスクを用いるのがよいとされている。このように、マスク範囲で限定された局所的なマスク候補中の画素について、複数個のマスク候補の相関を計算することがHLACの特徴である。このような複数の局所パターンマスクで画像全体もしくは一部領域を走査することで品質の良い特徴を抽出することができる。
【0026】
なお、マスク範囲からのマスク候補の選択方法について上記文献「パターン認識における特徴抽出に関する数理的研究」に一応の指針は掲載されている。しかし目的に応じて任意にマスク候補を選択することが可能である。特に複数の局所パターンマスクをそれぞれ複数の回転不変特徴グループに分ける場合には、各マスク候補に関して、中心マスクまでの距離がそれぞれできるだけ等しくなるように選択することが、回転不変性を高めるために望ましく、より品質の高い特徴を抽出することができる。
【0027】
このときの中心マスク以外選択可能なマスク候補の位置(座標)は、下記の2式の交点に最も近い整数の座標を有するものとして定義できる。
【0028】
(x2/n2)+(y2/m2)=1
y=±(m/n)xあるいはy=0あるいはx=0
要素特徴ベクトル生成部は、高次局所自己相関計算部により複数の局所パターンマスク毎に得られる積和値である特徴量を連結(concatenate)して要素特徴ベクトルを得る。
【0029】
さらに、要素特徴ベクトル生成部は、複数の局所パターンマスクをそれぞれ回転あるいは反転、もしくはその両方を行ったときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分け、1つの不変特徴グループに属する全ての局所パターンマスクから得られる特徴量の線形和を計算し、不変特徴グループ毎に得られる線形和を連結して要素特徴ベクトルを得る。ここで、回転角度としては、45°、90°、180°などが考えられる。また反転には、上下方向(X軸対称)、左右方向(Y軸対称)及び斜め方向(原点対称)の反転、あるいはこれらの組合せを含めてもよい。
【0030】
特徴抽出部は、前述のmとnの値を変えて得られる、異なる大きさのマスク範囲を有する複数の局所パターンマスク集合から得られる複数の要素特徴ベクトルを結合して、最終的な特徴ベクトルを生成する。局所パターンマスク集合のマスク範囲は、上記(m,n)の二項組により規定される。すなわち、(m1,n1)、(m2,n2)、(mp,np)のように、(m,n)の二項組を複数(この場合はp個)用意しておくことで、複数(この場合はp個)の要素特徴ベクトルが生成され、最終的に得られる特徴ベクトルの長さは、個々の要素特徴ベクトルのp倍となる。
【0031】
本発明によれば、病理組織画像に基づく病理診断において、医師は方向性を意識せず且つ表裏を意識しないという特徴から、複数の局所パターンマスクをそれぞれ45°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分けることにより、判断の基礎とする特徴量を少なくしても、従来よりも画像認識精度を高めることができる。これは、病理組織の特徴が回転・反転を区別した場合に派生する複数の特徴量に分散することなく、少ない特徴量に集約されるためである。
【0032】
最もシンプルなHLAC特徴の計算方法として、画素値をそのまま乗算に用いる計算方法を用いると、値の大きな画素と小さな画素が特徴量に与える影響の差が大きくなるため、画像特徴としての品質を劣化させる場合がある。そこで、マスク位置にある画素値をそのまま乗算に用いるのではなく、マスク位置にある画素値の組合せの発生頻度(回数)を画像全体(もしくは部分領域)に亘って積算する、CILAC特徴と呼ばれるものを用いることもできる。CILAC特徴では、値の小さな画素であっても、大きな値の画素値と同程度の影響を持つため、画像の明るさ等によらず対象の本質をよりよく示す特徴を抽出することができる。その結果、CILAC特徴を用いると、HLAC特徴を用いる場合よりも判定精度を高めることができる。
【0033】
またCILAC特徴を計算するとき、局所パターンマスクとして、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用する(すなわち局所パターンマスクに背景が含まれる場合を無視する。具体的には、後述する図29において背景を示す○印がある局所パターンを使用しない。)と、病理組織画像中の背景の面積による影響を排除できるため、病理組織の特徴をよりよく抽出できるようになる。
【0034】
本発明の病理組織画像の特徴抽出方法は、以下のステップを実施する。病理組織画像を、予め定めた複数の局所パターンマスク集合に属する複数種類の局所パターンマスクを個々に用いて走査して、局所パターンマスク毎に積和値(特徴量)を計算するステップ。複数の局所マスクパターンをそれぞれ45°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所マスクパターンをそれぞれ複数の不変特徴グループに分け、1つの不変特徴グループに属する複数の局所マスクパターンを一つの特徴とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた積和値(特徴量)の線形和を計算するステップ。個々の線形和を連結してベクトル化して得られる要素特徴ベクトルを生成するステップ。複数の局所パターンマスク集合から得られる要素特徴ベクトルを連結して最終的な特徴ベクトルを生成し、病理組織画像の特徴を抽出するステップ。
【0035】
なお複数の局所マスクパターンとしては、高次相関の次数を0,1または2のいずれかとし、変位方向を参照点の周囲の9方向(方向なし・上・下・左・右・右上・左上・右下・左下)に限定した35個の局所パターンマスクを用いることができる。そしてこの場合には、不変特徴グループが8個となる。なお、参照点間の縦および横方向の距離すなわち画像相関幅は利用者が目的に応じて任意に決めることができる。たとえば、縦・横ともに1の場合は、3×3画素の狭い領域における画素の相関関係が求められる。局所パターンマスク集合を規定するのは、この縦・横の画像相関幅である。すなわち、(縦,横)が(1,1)の局所パターンマスク集合と、(2,2)の局所パターンマスク集合など、複数の局所パターンマスク集合を用いて、複数の要素特徴ベクトルを生成し、これを結合して最終的な特徴ベクトルとすることができる。
【図面の簡単な説明】
【0036】
図1】病理組織画像の領域分割画像データ作成システムと、病理組織画像の特徴抽出システムと診断部とを備えた病理診断装置の構成を示すブロック図である。
図2図1の病理診断装置をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。
図3】病理組織画像の領域分割画像データ作成システムを実現するためのプログラムのアルゴリズムを示すフローチャートである。
図4】病理組織画像の3値化を画像で示す図である。
図5】最適な細胞核のレベル値の検証結果を示す図である。
図6】局所パターンマスクの例を示す図である。
図7】2次までの変位パターン及びそれら変位パターンからの回転反転不変パターンの再構成を示す図である。
図8】病理組織画像には上下・左右・反転といった方向的な特徴がないことを示す図である。
図9】HLAC特徴量からの回転・反転不変HLAC特徴量の再構成を示す図である。
図10】(A)は図2のステップST3〜ST5及びST10〜ST12の詳細を示すフローチャートであり、(B)は画像相関幅を決定することの説明に用いる図であり、(C)は決定結果を座標で示す表である。
図11図2のステップST6及びST7の詳細フローチャートである。
図12図2のステップST13の詳細フローチャートである。
図13図2のステップST14の詳細フローチャートである。
図14】検証実験で用いたデータセットを示す図である。
図15】(A)及び(B)は、非癌画像と癌画像を示す図である。
図16】3値化手法の有効性を検証するために、比較実験で使用した手法を示す図である。
図17】(A)〜(D)は、原画像、グレースケール画像、2値化画像及び本実施の形態で得た領域分割画像である。
図18】検証実験結果を示す図である。
図19】(A)及び(B)は、検証実験結果を示す図である。
図20】他の病理診断装置の構成を示すブロック図である。
図21図20の構成で使用する3値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。
図22】主成分分析結果を概念的に示す図である。
図23図20の実施の形態の画像処理を画像によって示す図である。
図24図1に示した病理組織画像の領域分割画像データ作成システムとは構成の異なる他の実施の形態の病理組織画像の領域分割画像データ作成システムの構成を示すブロック図である。
図25図24の構成で使用する3値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。
図26】冗長成分除去とクリッピングの効果を確認するために用いた画像である。
図27】(A)はオリジナルグレースケールの画像であり、(B)は図1の実施の形態で得られる抽出画像であり、(C)は図20の実施の形態で得られる抽出画像であり、(D)は図24の実施の形態で得られた抽出画像である。
図28】(A)は局所パターンマスクを作成するための異なるマスク候補(黒塗りのブロックと斜線を付したブロック)を示しており、(B)はマスク候補の決定結果を座標で示す表である。
図29】1次までのCILACの3×3の局所パターンマスクの例を示す図である。
【発明を実施するための形態】
【0037】
以下図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態は、病理組織画像からの異常検出における誤検出を抑えることを目的として、病理医が診断時に着目する組織の重要度と病理組織画像特有の性質を特徴抽出に活かした、高次局所自己相関特徴(以下HLAC特徴と略す)の抽出技術を提案するものである。具体的には、病理組織画像を細胞核・細胞質・背景の3つの領域に分割し、各領域をそれぞれの組織の重要度を数値化したレベル値によって3値化する。また、病理組織画像は方向的特徴がないので、病理組織画像から回転や反転を考慮したHLAC特徴抽出を行う。
【0038】
図1は、本願発明の病理組織画像の領域分割画像データ作成システム1と、病理組織画像の特徴抽出システム3と診断部5とを備えた病理診断装置の構成を示すブロック図である。図2図1の病理診断装置をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。図3は、病理組織画像の領域分割画像データ作成システム1を実現するためのプログラムのアルゴリズムを示すフローチャートである。病理組織画像の領域分割画像データ作成システム1は、RGB画像データ生成部11と、第1の2値化画像データ作成部12と、YUV画像データ生成部13と、第2の2値化画像データ作成部14と、3値化画像データ作成部15とから構成される。また病理組織画像の特徴抽出システム3は、高次局所自己相関計算部31と、要素特徴ベクトル計算部32と、特徴抽出部33とから構成される。図1において、診断部5は、病理組織画像の特徴抽出システム3の出力に基づいて、病理診断を行うものである。
【0039】
図2のフローチャートに示すように、本実施の形態では、ステップST1〜ST7によって構成される学習過程と、ステップST8〜ST14によって構成されるテスト過程を実行して病理診断を行う。学習過程では、非がん病理組織画像を教師データとした学習により、正常部分空間の形成を行う。そこでステップST1でまず、非がん病理組織画像を教師データ(病理組織画像教師データ)として読み込む(ステップST1)。次に病理組織画像(病理組織画像教師データ)の3値化を行い(ステップST2)、その3値画像からHLAC特徴を抽出する(ステップST3)。次に、回転・反転不変HLAC特徴への再構成を行い(ステップST4)、その後再構成された特徴から特徴ベクトルを生成する(ステップST5)。そして特徴ベクトルの主成分分析により(ステップST6)、非がん病理組織画像を表す正常部分空間を形成する(ステップST7)。一方、テスト過程では、がん病理組織画像を含むテストデータ(病理組織画像テストデータ)を読み込む(ステップST8)。そして次に病理組織画像(病理組織画像テストデータ)の3値化を行い(ステップST9)、その3値画像からHLAC特徴を抽出する(ステップST10)。次に、回転・反転不変HLAC特徴への再構成を行い(ステップST11)。の後再構成された特徴から特徴ベクトルを生成する(ステップST12)。そして次に、特徴ベクトルに対し、学習過程で形成された正常部分空間からの逸脱度を算出し異常検出を行う(ステップST13及びST14)。
【0040】
図1の病理組織画像の領域分割画像データ作成システム1と病理組織画像の特徴抽出システム3は、前述の学習過程とテスト過程のステップST1〜ST12を実行し、診断部5は、図2のステップST13及びST14を実行する。病理組織画像の領域分割画像データ作成システム1は、特にステップST2及びST9の3値化を実行する。そこで第1の2値化画像データ作成部12は、例えば、非がん病理組織画像教師データ及び病理組織画像テストデータ(以下病理組織画像データと言う)から細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成する。具体的には、第1の2値化画像データ作成部12は、RGB画像データ生成部11から病理組織画像のRGB画像データを取り込む。ここでRGB画像データとは、赤(Red)、緑(Green)、青(Blue) の三つの原色を混ぜて幅広い色で画像を再現する画像データである。病理組織画像のRGB画像データからR成分を分離し、分離したR成分を判別2値化法により2値化処理して、細胞核領域とその他の領域とが区別できる第1の2値化画像データを作成する。R成分の分離は、例えば、RGB画像データの全画素データをRGB色空間におけるR軸に射影して行うことができる。そして判別2値化法としては、例えば、「大津展之,“判別および最小2乗基準に基づく自動しきい値選定法,”電子通信学会論文誌,vol.J63-D,no.4,pp.349-356,Apr.1980.」に記載された2値化方法(大津の2値化手法)を用いることができる。図4のPIは、病理組織画像の一例を示しており、PI1は第1の2値化画像データ作成部12により作成された細胞核領域とその他の領域とが区別できる第1の2値化画像データに基づく第1の2値化画像である。なお病理組織画像PIには、細胞核領域を青紫色に染めるヘマトキシリンと、細胞核以外の細胞質、繊維、赤血球などをそれぞれの性質に応じた濃淡各種の赤色に染めるエオジンとによって染色(HE染色)された病理標本が写っている。
【0041】
第2の2値化画像データ作成部14は、病理組織画像PIのYUV画像データをYUV画像データ生成部13から読み込む。ここでYUV画像データとは、色空間の一種で、輝度信号(Y)と、青色成分の差分信号(U)、赤色成分の差分信号(V)の3要素によって色を表現するもための画像データである。
【0042】
そして第2の2値化画像データ作成部14は、病理組織画像データから背景領域とその他の領域とが区別できる第2の2値化画像データを作成する。具体的には、第2の2値化画像データ作成部14は、YUV画像データからV成分を分離し、分離したV成分を判別2値化法により2値化処理して、背景領域とその他の領域とが区別できる第2の2値化画像データを作成する。より具体的には、第2の2値化画像データ作成部14は、YUV画像データの全画素データをYUV色空間におけるV軸に射影してV成分を分離する。図4のPI2は、第2の2値化画像データに基づく2値化画像を示している。
【0043】
3値化画像データ作成部15は、第1の2値化画像データと第2の2値化画像データの否定論理和をとって領域分割画像データとなる3値化画像データを作成する。第1の2値化画像データの細胞核が「真1」となり、その他が「偽」となり、第2の2値化画像データの背景が「真2」となり、その他が「偽」とする。このようにすると、第1の2値化画像データと第2の2値化画像データの「真偽」は細胞核となり、第1の2値化画像データと第2の2値化画像データの「偽真」は背景となり、第1の2値化画像データと第2の2値化画像データの「偽偽」は細胞質となる。
【0044】
図4のPI3は、3値化画像データに基づく3値化画像である。特徴量の種類が異なるRGB画像データとYUV画像データの2種類の画像データから得た第1及び第2の2値化画像データには、それぞれ細胞核領域、背景領域を個々に明確にする成分が含まれるため、得られる3値化画像データは、背景領域、細胞質領域及び細胞核領域をより明確化されたものとなる。
【0045】
図3に示すフローチャートに従って組織の重要度に対応した病理組織画像の3値化について説明する。本実施の形態における3値化では、病理医が診断時の手掛かりとする組織の重要度と病理組織画像特有の性質を特徴抽出に活かすために、まず、病理組織画像を細胞核・細胞質・背景の3つの領域に分割し、次に、各領域にそれぞれの組織の重要度を数値化したレベル値を設定する。まず、HE染色により青紫色に染色されている細胞核の領域は、細胞核以外の領域とRGB色空間において比較すると、R成分の値に大きな差があることが予備実験にて判明した。そこで、細胞核の領域を抽出するために、病理組織画像(図4のPI)のR成分を分離し(ステップST22)、このR成分だけを大津の2値化手法を用いて2値化処理を行った(ステップST23)。この処理により、図4のPI1に示すように、青紫色に染まっていた細胞核の領域(白)と細胞核以外の領域(黒)とに分割する。
【0046】
次に、背景の領域はHE染色によって染色されない領域で、最も輝度値が高い白色を示しており、色情報は少ない。一方、背景以外の領域の色情報は赤色成分が主体となっている。以上のことから背景の領域を、輝度と赤色成分の差であるYUV色空間のV成分を用いて抽出する(ステップST24及びST25)。そして大津の2値化手法により、病理組織画像のV成分に対し同様の2値化処理を行う(ステップST26)。この処理により、図4のPI2に示すように、HE染色で染まっていなかった背景領域(黒)を分割する。最後に、細胞核とその他、背景とその他に分割された2つの画像PI1及びPI2を統合し、図4のPI3に示すように、細胞核(白)・細胞質(灰)・背景(黒)の3つの領域に分割された病理組織画像を合成する。すなわちステップST27において、抽出された細胞核と背景画像以外の領域を細胞質として定義する。
【0047】
そしてステップST28で分割された細胞核領域、細胞質領域、背景領域に含まれる画素に所定のレベル値を設定した画像を生成する。すなわち領域分割された病理組織画像の各領域に含まれる画素にそれぞれの組織の重要度を数値化したレベル値を設定する。病理医の診断では、主に細胞核や細胞質の情報を総合的に診断しているが、もっとも重要な情報は、細胞核の大きさや並びといった核の情報である。この病理医の視点を反映させるために、領域分割された細胞核・細胞質・背景に相当する画素に適切なレベル値を設定し、各領域にそれぞれの特徴の重要度を反映する。本実施の形態では、背景のレベル値を0(すなわち背景領域に含まれる画素の値を0)、細胞質のレベル値を2(すなわち細胞質領域に含まれる画素の値を2)と固定し、核領域に含まれる画素値を様々なレベル値に設定して予備実験を行った結果(図5)から、非癌と癌を最も区別できたレベル値として、細胞核のレベル値を14(すなわち細胞核領域に含まれる画素の値を14)、細胞質のレベル値を2(すなわち細胞質領域に含まれる画素の値を2)、背景のレベル値を0(すなわち背景領域に含まれる画素の値を0)とする組み合わせを採用することとした。
【0048】
図1に戻って、病理組織画像の特徴抽出システム3は、高次局所自己相関計算部31と、要素特徴ベクトル計算部32と、特徴抽出部33から構成される。高次局所自己相関計算部31は、図2のステップST3及びST10を実行するものである。そこで高次局所自己相関計算部31は、前述の病理組織画像の領域分割画像データ作成システム1により作成した3値化した病理組織画像PI3を図6に示した予め定めた35種類の局所パターンマスクを個々に用いて走査し、局所パターンマスク毎に積和値(HLAC特徴量)を計算する。要素特徴ベクトル計算部32は、図2のステップST4及びST11を実行するもので、それらHLAC特徴量を連結してベクトル化することで要素特徴ベクトルを求める。特徴抽出部33は、図2のステップST5及びST12を実行するもので、複数の局所パターンマスク集合から得られる要素特徴ベクトルを結合して、最終的な特徴ベクトルを生成する。
【0049】
各局所パターンマスクから得られる特徴量は、3値化された対象病理組織画像をf(r)とすると、変位方向(a1・・・、aN)に対して、N次自己相関関数
【数1】
【0050】
で定義される。
【0051】
本実施の形態では、1つの対象画像に対し、高次自己相関関数係数の次数Nを0,1または2のいずれかとし、次変位方向aを{方向無し、右、右上、上、左上、左、左下、下、右下}の9方向に限定することで、図6に示すような35個の局所パターンマスクから算出した35次元のベクトルxi(i=1,...,35)をHLAC特徴として計算する。なお3×3のセルからなるマスク範囲において、1つのマスク候補を中心とした9方向のマスク候補の配置が、局所パターンマスクを構成する基礎となるものである。中心マスクが参照点となり、その周囲の9方向でマスク範囲の内縁に位置する全てのマスク候補が、すべての変位方向に位置する相関相手の点となり得る。したがってこの例では、すべてのマスク候補が局所パターンマスクを構成するためのマスク候補となり得る。例えば、図6のNo.6の局所パターンマスクでは、中心マスクが参照点であり、その左右の2つのマスク候補が相関相手の点となる。No.26の局所パターンマスクでは、中マスクが参照点であり、且つ中心マスクが1つの相関相手となるものである。例えば対象画像内のある参照点の画素値として5が設定されているとすると、5×5がその参照点における特徴量となる。さらにNo.27の局所パターンマスクでは、中心マスクが参照点であり、且つ中心マスクが2つの相関相手の点となるものである。No.27の局所パターンマスクでは、例えば対象画像内のある参照点の画素値として5が設定されているとすると、5×5×5がその参照点における特徴量となる。図6において、マスクの中の数字は相関相手の数に応じたべき乗数を示している。
【0052】
要素特徴ベクトル計算部32は、図2のステップST4及びST11を実現するものである。要素特徴ベクトル計算部32では、複数の局所マスクパターンで画像を走査して得られる複数のHLAC特徴量を連結して要素特徴ベクトルを生成する。
【0053】
さらに、要素特徴ベクトル計算部32では、複数の局所マスクパターンのうち、それぞれ特定の角度だけ回転させたときまたは/及び反転させたときに等価とみなせる局所マスクパターン同士を同一グループと見なして、同一グループ毎にそれに属する局所パターンマスクから得られる特徴量の線形和を結合して要素特徴ベクトルを生成しても良い。この場合、要素特徴ベクトル計算部32では、複数の局所マスクパターンのうち、それぞれ特定の角度だけ回転させたときまたは/及び反転させたときに等価とみなせる複数のマスクパターンが、それぞれ複数の不変特徴グループに分けられる。回転角としては例えば45°が用いられるが、90°や180°でもよい。反転には、上下方向(X軸対称)、左右方向(Y軸対称)及び斜め方向(原点対称)の反転が含まれている。
【0054】
すなわち図7に示す表に従って図6の局所パターンマスクを8個の不変特徴グループに分ける。図7において、3×3のセルからなるマスク範囲の中心マスクが参照画素位置であり、0次の局所マスクパターンを用いる場合には、ステップST28によりレベル値を割り当てられた画素の持つ画素値の線形和を特徴量として計算する。1次および2次の局所マスクパターンを用いる場合には、参照画素(中心マスクに位置する画素)点と中心マスク以外のマスク候補により位置が指定される画素の持つ画素値の乗算値を積算し、この処理を画像全体(もしくは部分領域)にわたって積算することにより、その局所マスクパターンの特徴量とする。図7において、◎印は、そのマスク候補により指定される画素における画素値を二乗することを意味し、3重丸印は、そのマスク候補により指定される画素における画素値を三乗することを意味する。
【0055】
1つの不変特徴グループ(図7の表では、0次に1つの不変特徴グループ、1次に2つの不変特徴グループ、2次に5つの不変特徴グループがある)に属する複数の局所マスクパターンを、図7に示す最右列のパターンのように一つの特徴量とみなして、8つの不変特徴グループにそれぞれ属する局所パターンマスクによる走査で得られた積和値(特徴量)の線形和を計算する。すなわち例えば4つの局所パターンマスクが属する1つの不変特徴グループでは、4つの局所パターンマスクで画像をそれぞれ走査して得た特徴量をすべて合計したものを、その1つの不変特徴グループの特徴量とする。これによって、病理組織画像中の細胞や細胞核がどのような向きであっても、形が同じであれば同一の性質を有するものとして捉えることが可能となり、画像認識精度が飛躍的に向上する。
【0056】
具体的に説明すると、図8に示すように、病理組織画像には上下・左右・反転といった方向的な特徴がないことから、抽出したHLAC特徴を回転・反転不変HLAC特徴として再構成を行う。図6の局所パターンマスクを用いる本実施の形態では、抽出された35次元のHLAC特徴xi(i = 1 ... 35)から、回転や反転を考慮すると同じ相関関係と見なすことができる特徴の線形和によって、8次元の回転・反転不変特徴yj(j = 1 ... 8)を再構成する。対象とする病理組織画像の生体組織が主に円や曲線状に構成されていることから、3×3画素の局所パターンマスクで表現可能なπ/4ラジアン(=45°)での回転不変を考慮する。また、病理組織画像では反転の区別もないことから反転不変についても考慮する。例えば図6の局所パターンマスクNo.6は、局所パターンマスクNo.7、No.8、No.9と回転対称なので、これら4つの特徴量の線形和によって1つの回転・反転不変特徴量を算出する。
【0057】
「梅山伸二,栗田多喜夫,“高次自己相関特徴を用いた図形の回転不変特徴量の構成,”情報処理学会第45回(平成4年後期)全国大会講演論文集,2,pp.323-324,Mar.1993.」に示される報告では、π/2ラジアン(=90°)の回転不変を考慮した従来手法として、2値画像での25次元のHLAC特徴から9次元の不変特徴量の再構成について報告されている。また特開2004−58737号公報には、π/4ラジアン(=45°)での回転不変を考慮した従来手法として、2値画像での25次元のHLAC特徴から9次元の不変特徴量の再構成について示されている。しかしながらこれらの公知文献には、病理組織画像には上下・左右・反転といった方向的な特徴がないことから、抽出したHLAC特徴を回転・反転不変HLAC特徴として再構成を行うという思想は開示されていない。本実施の形態では、病理組織画像の構造に最適なπ/4ラジアン(=45°)での回転・反転不変特徴として、35次元のHLAC特徴 xi(i=1,...,35)から、図9に示す8次元の回転・反転不変特徴 yj (j =1,...,8)を再構成する。
【0058】
要素特徴ベクトル計算部32では、各不変特徴グループの特徴量が得られた後には、これらを結合して要素特徴ベクトルを生成する。特徴抽出部33では、異なる大きさのマスク範囲を有する複数の局所パターンマスク集合から得られる複数の要素特徴ベクトルを結合して、最終的な特徴ベクトル生成する。局所パターンマスク集合のマスク範囲は、上記(m,n)の二項組により規定される。すなわち、(m1,n1)、(m2,n2)、…、(mp,np)のように、(m,n)の二項組を複数(この場合はp個)用意しておくことで、複数(この場合はp個)の要素特徴ベクトルが生成され、最終的に得られる特徴ベクトルの長さは、個々の要素特徴ベクトルのp倍となる。
【0059】
図10(A)は図2のステップST3〜ST5及びST10〜ST12の詳細を示すフローチャートであり、図10(B)は画像相関幅を決定することの説明に用いる図であり、図10(C)は決定結果を座標で示す表である。複数の局所パターンマスクは、m及びnを整数としたときに、(2m+1)×(2n+1)のセルが格子状に配列されているマスク範囲中のマスク候補のうち、中心マスク(黒色のブロック)を中心として予め定めたマスク範囲内に位置する複数のマスク候補から選択した1以上のマスク候補を、マスク(斜線が付された8個のブロック)として設定する。図10(B)では、m=4で、n=4である。そして「予め定めたマスク範囲」は、縦横格子9×9個分である。予め定めたマスク範囲の角に位置するマスク候補と中心マスクとの間のユークリッド距離は、予め定めたマスク範囲の内縁の辺の中央のマスク候補と中心マスクとの間のユークリッド距離よりも長くなるので、「予め定めたマスク範囲の画像相関幅」は両距離の差を包含するものとして定められている。中心マスクの座標を(0,0)とすると、8個のマスクの座標は、図10(C)に示すようになる。
【0060】
図10(A)のステップST31では、変数iに1をセットする。ST32においては、あらかじめ用意した複数の画像相関幅のうち、i番目の画像相関幅を所定値に設定して走査をする。ここで1番目の画像相関幅を所定値に設定するとは、病理組織画像を走査する際の、マスク範囲を決定するために、あらかじめ用意されている複数の(m,n)について、1番目のmとnとを選択することを意味する。そしてステップST33では、図6の局所パターンマスクを使って前述の式(1)に基づいて要素特徴ベクトルを算出する。すなわち各局所パターンマスクによる画像の走査で得られる特徴量を結合してベクトル化して要素特徴ベクトルが算出される。ステップST34ではiの値が、所定の値pと等しいかどうかを調べる。もし等しくなければ、ステップT35においてiに1を加算し、ステップT32及びST33の処理を再実行する。もしiの値が所定の値pと等しければ、ステップT36において、これまでに生成された要素特徴ベクトルを結合し、最終的な特徴ベクトルを生成して、終了する。なおステップST33が、図2のステップST3及びST4並びにステップST10及びST12に相当する。
【0061】
図2の主成分分析(ステップST6)を用いた正常部分空間形成(ステップST7)について説明する。本実施の形態では、がん画像を異常として検出するために、主成分分析を用いて正常部分空間を形成する。正常部分空間を形成することについては、非特許文献6に詳しく説明されている。正常部分空間とは、学習用非がん画像から抽出した特徴ベクトルの主成分で形成される部分空間である。そしてステップST13では、この正常部分空間とテスト病理組織画像の特徴との距離を逸脱度として算出する。ステップST14では、逸脱度が大きく算出された場合は、非癌画像の特徴とは異なることを意味するので、がんの疑いを示す異常として認識できる。
【0062】
図11には、正常部分空間の形成ステップST6およびST7の詳細フローチャートを示しており、図12図2の逸脱度算出のステップST13の詳細フローチャートを示しており、図13図2の異常検知のステップST14の詳細フローチャートを示している。まず、ステップST61で特徴ベクトル(回転・反転不変特徴ベクトル)の集合を読み込む。そしてステップST62で、回転・反転不変特徴ベクトルyjに主成分分析を適用し、正常部分空間を形成する主成分ベクトルを求める。この主成分ベクトルは、特徴ベクトル集合{yj}の自己相関行列Ryの固有値問題を解くことにより求めることができる。特徴ベクトルの代わりに、各特徴ベクトルを正規化して得られる正規化特徴ベクトルを用いてもよい。
【数2】
【0063】
ここで、Uは固有ベクトルを列とする行列であり、Λは固有値を対角要素とする対角行列である。ここで、固有ベクトルは主成分ベクトル、固有値は各主成分がデータ全体のどの程度を説明する能力を持っているのかを示す寄与率に対応するので、寄与率の大きい順に固有ベクトルを並べ替える(ステップST71)。
【0064】
次に、主成分ベクトル(すなわち上記固有ベクトル)の中から正常部分空間を形成する個数に対応する次元数Kを決定する。次元数Kは、主成分がどれだけ分析したデータの情報を表現することに寄与しているかを数値化した下記の累積寄与率
【数3】
【0065】
によって決定される。このとき、正常部分空間は、累積寄与率ηK≦Cを満たす次元Kまでの固有ベクトルUK={u1,...,uK}を基底ベクトルとして定義される空間とする(ステップST72)。ここでCは累積寄与率条件であり、λiは主成分ベクトルuiの寄与率であり、Mは固有値の総数である。
【0066】
図2のステップST13及びST14における逸脱度算出と異常検出について説明する。本実施の形態では、学習過程において得られた正常部分空間を用いて、テスト病理組織画像から抽出した特徴ベクトルと正常部分空間との距離を逸脱度として異常検出の指標とする。この逸脱度は、正常部分空間の直交補空間への射影成分として次のように算出することができる(図12のステップST13A及び13B)。正常部分空間への射影子Pは、下記の式
【数4】
【0067】
として表される。上記式で、UKTはUKの転置行列であり、Kは次元数である。
【0068】
それに対する直交補空間への射影子Pは、単位行列をIとすると、
【数5】
【0069】
と表せる。このとき、直交補空間への射影成分の距離dは、
【数6】
【0070】
と表すことができる。上記式でyはテスト病理組織画像の特徴ベクトル、yTはyの転置行列である。ただし、正常部分空間を計算する時、特徴ベクトルの代わりに正規化特徴ベクトルを用いた場合は、ここでのyも必ず正規化する必要がある。この距離dを逸脱度として、予め設定する閾値Hと比較することで、癌の疑いを異常検出することが可能となる(図13のステップST14A及びST14B)。
【0071】
以下本実施の形態の有効性を確認した検証実験について説明する。実験では、実際の胃生検病理組織画像を用いて、以下の2種類の検証実験を行った。
【0072】
実験1 提案する3値化の有効性検証
実験2 提案する回転・反転不変の有効性検証
[実験データ]
検証実験により、非癌病理組織画像の学習により、癌病理組織画像がきちんと異常検出できるかどうかの確認を行うために、予め病理医により診断されている明らかな非癌データと明らかな癌データを用いた実験を行った。
【0073】
検証実験で用いたデータセットを図14に示す。学習用教師データとして、病理医によって非癌と診断された250サンプルを用い、テスト用データには、学習用データとは別の非癌データ50サンプルと癌データ24サンプルを用いた。実験に用いた病理組織画像は、図15(A)に示す非癌画像と図15(B)に示す癌画像のような顕微鏡倍率20倍で撮影され、1280ピクセル×960ピクセルの大きさのjpeg形式で保存された画像である。
【0074】
[検証実験の評価方法]
検証実験では、学習データを用いて正常部分空間を生成した後に、各学習データの正常部分空間に対する逸脱度を計測し、その平均+標準偏差(σ)を閾値とした評価方法を用いた。テストデータに対し、この閾値を越えた逸脱度の場合を、癌の疑いを示す異常として検出する。
【0075】
本実験の評価では、非癌テストデータがこの閾値を越えた場合を誤検出(False Positive:FP)としてカウントし、誤検出数の比較により提案手法の評価を行った。また、病理診断における「癌の見落としはあってはならない」という前提条件を満たすために、癌テストデータがこの閾値を下回った場合を未検出(False Negative:FN)としてカウントし、癌の検出精度の評価も行った。
【0076】
[検証実験1:3値化手法の有効性検証]
本実施の形態で用いる3値化手法の有効性を検証するために、図16に示す3手法で比較実験を行った。本検証実験では、回転・反転不変特徴の再構成は行わず、累積寄与率条件のCは、0.999、0.9999、0.99999の3条件のうち各手法において最も良い条件の結果を比較した。
【0077】
図17に原画像(図17(A))と、目視による比較を行うためグレースケールに変換した各手法の領域分割画像を示す。なお、提案手法の画像では、細胞核、細胞質、背景の画素値をそれぞれ255、127、0として表示している。グレースケール(図17(B))は、原画像に最も近く、見た目でも組織の構造などがはっきりしている。2値化(図17(C))は、細胞質部分の多くが背景領域に含まれてしまっている。一方、本実施の形態で用いる手法(図17(D))では、細胞核・細胞質・背景を適切に領域分割できている。
【0078】
図18に各手法を用いた検証実験結果を示す。誤検出数(FP(1σ))は、本実施の形態の手法が最も少なく、本実施の形態の手法の有効性を確認できた。2値化では、グレースケールに対して画素の階調数が少なく、病理組織の特徴を現す情報量が落ちたため誤検出数が増えたと考えられる。その一方で、本実施の形態の手法も同様に、グレースケールの256値に対して画素の階調数が3値に減少しているにも拘わらず、誤検出数は減少した。これは、提案手法による細胞核・細胞質・背景の領域分割および各領域へのレベル値の設定が有効に機能したことと考えられる。また、未検出数(FN(1σ))を比較すると、グレースケールでは、癌データの未検出があったが、提案手法ではすべて検出することができ、癌の検出精度も向上したことがわかった。
【0079】
[検証実験2:回転・反転不変の有効性検証]
回転・反転不変を考慮した提案手法による有効性を検証するために、再構成前の35次元HLAC特徴での異常検出結果と、再構成後の8次元回転・反転不変HLAC特徴での異常検出結果を比較した。なお、本検証実験での累積寄与率条件のCは、0.999、0.9999、0.99999の3条件のうち各手法において最も良い条件の結果を比較した。
【0080】
図19に検証実験結果を示す。この結果では、閾値として設定した平均+標準偏差(σ)を1σとして、また、平均+2×標準偏差(σ)を2σとして、グラフ中に示している。
【0081】
実験結果のグラフから、再構成前HLAC(図19(A))では、1σを閾値とした場合、癌テストデータにおける最小の逸脱度と閾値の間の余裕が非常に小さく、閾値を2σにした場合、見落としとなる未検出数が4となってしまうことがわかる。一方、回転・反転不変を考慮した再構成後HLAC(図19(B))では、1σの閾値と癌テストデータにおける最小の逸脱度の間には十分な余裕があり、2σに閾値を設定した場合でも、未検出は0となった。この結果から、回転・反転不変を考慮したことによって、非癌テストデータと癌テストデータの逸脱度に大きな差が生じ、癌の異常検出精度を、余裕を持って確保できることを確認した。
【0082】
図20は、図1に示した病理組織画像の領域分割画像データ作成システム1とは構成の異なる病理組織画像の領域分割画像データ作成システム101と、病理組織画像の特徴抽出システム103と診断部105とを備えた他の病理診断装置の別の構成を示すブロック図である。図21は、図20の構成で使用する3値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。
【0083】
図20の実施の形態では、標本の染色状態に依存せず、病理組織画像を背景・細胞質・細胞核などの領域に分割するため、主成分分析を利用する。そこで本実施の形態では、第2の2値化画像データ作成部114が、病理組織画像データの全画素値を主成分分析して背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されたものを用いる点で、図1の実施の形態と相違する。その他の点は、図1の実施の形態と同様である。したがってその他の点については、図20に示す構成要素に、図1に示した構成要素に付した符号の数に100の数を加えた数の符号を付して説明を省略する。
【0084】
本実施の形態で用いる第2の2値化画像データ作成部114は、より具体的には全画素値を主成分分析して得た第一主成分軸に、病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成するように構成してある。なお第一主成分軸ではなく、その他の主成分軸に対して病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成するようにしてもよいのは勿論である。さらに、複数の主成分軸に対して病理組織画像データの全画素データを射影して正規化して判別2値化法により2値化して得られる複数の2値化画像データの論理積演算を行うことで第2の2値化画像データを作成するようにしてもよい。第2の2値化画像データを作成する際には、論理積演算以外に、論理和など他の演算を用いてもよい。
【0085】
図22に示すように、3次元のRGB色空間における画素分布に対して、全画素を対象として主成分分析(ステップST24′)して得られる第一主成分方向が、その方向軸に全画素データを射影したときの分散が最大となる方向であり、最も色の薄い画素分布(背景)と濃い画素分布(細胞質及び細胞核)とを、最もよく分離できる。そこで、全画素をその軸に射影して正規化することで得られるグレースケール画像を判別2値化法(大津の二値化法)により2値化することで(ステップST25′及びST26′)、背景を正確に切り出すことが可能となる。
【0086】
本実施の形態でも、3値化画像データ作成部115は、R成分を2値化した第1の2値化画像データと主成分分析を利用した結果を2値化した第2の2値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる3値化画像データを作成する。
【0087】
本実施の形態のように、第2の2値化画像データを、病理組織画像データを主成分分析して得ると、図1のようにYUV画像データから第2の2値化画像データを得る場合よりも、背景領域、細胞質領域をより明確化できることが試験により判っている。これは、背景とその他との区別が主に相対的な色の濃度に大きく関係しているため、染色が弱い病理組織画像においてYUV画像のV成分だけでは背景に属する画素と細胞質の分布の重なりが大きくなってしまうが、主成分分析では分散を最大化する方向、すなわち分布の重なりを最小にする方向が求められ、背景とその他をよく分離できるためである。図23は、本実施の形態の処理を画像によって示したものである。図23図4とを対比すると判るように、本実施の形態によれば、図1の実施の形態で得られる図4に示した領域分割画像よりも、背景領域、細胞質領域及び細胞核領域がより明確に分割されている。
【0088】
なお背景を切り出した後、それ以外の細胞質+細胞核の領域に対して、細胞質と細胞核を分離して抽出することも可能である。細胞質+細胞核の領域のR成分を判別2値化法(大津の2値化法)で2値化することにより、より簡便に核領域を切り出すことも可能である。
【0089】
さらに、最初の実施の形態と同様に、背景領域・細胞質領域・細胞核領域に領域分割された画像に対して、病理診断における医師の注目度に応じて重み付けすることにより、HLAC特徴に基づいた画像認識精度を高めることができる。たとえば、背景領域と細胞質領域に属する画素に与える値(レベル値)をそれぞれ0と2に固定したとき、細胞核領域に属する画素に与える値(レベル値)を14に設定することで最良の認識結果が得られる。
【0090】
図24は、図1に示した病理組織画像の領域分割画像データ作成システム1とは構成の異なる病理組織画像の領域分割画像データ作成システム201と、病理組織画像の特徴抽出システム203と診断部205とを備えた他の病理診断装置の別の構成を示すブロック図である。図25は、図24の構成で使用する3値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。
【0091】
図24の実施の形態では、標本の染色状態に依存せず、病理組織画像を背景・細胞質・細胞核などの領域に分割するため、主成分分析を利用する。病理標本はヘマトキシリンとエオジンとによって染色されている。細胞核領域は、ヘマトキシリンによって青紫色の色素によって染色されるため、染色濃度が違っていてもRGB色空間の各成分で比べると、他の領域に比べてB成分が他の成分よりも高くなる。この減少は、ヘマトキシリンとエオジンで染色された病理標本画像ならば、染色具合が異なっていても変わらない事実である。そこで、病理標本画像から細胞核領域を抽出するために、RGB色空間のB成分とR成分の差分値を強調したグレースケール画像を作成し、2値化を行うことで、細胞核領域を抽出できる。そこで本実施の形態では、第1の2値化画像データ作成部212が、細胞核領域の抽出のために、冗長成分除去(ステップST222A)とクリッピング(ステップST222B)と2値化とを実施する。また第2の2値化画像データ作成部214が、CIELuv画像データ生成部213から出力されるCIELuv画像データを主成分分析して背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されたものを用いる点で、図1の実施の形態と相違する。さらに本実施の形態では、病理組織画像の特徴抽出システム203の高次局所自己相関計算部231が、複数の局所パターンマスクにより走査した結果の参照点のカラーインデックス(例えば色の番号)と変位方向に位置する相関相手の点のカラーインデックス(例えば色の番号)の共起性を計算する、いわゆるCILACと呼ばれるものを用いる点で、図1の実施の形態と相違する。その他の点は、図1の実施の形態と同様である。したがってその他の点については、図24に示す構成要素及び図25に示すステップに、図1および図3に示した構成要素に付した符号の数に200の数を加えた数の符号を付して説明を省略する。CILACの具体的手続きについては、たとえば「Takumi Kobayashi, et al., Color Image Feature Extraction Using Color Index Local Auto-Correlations, 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, pp.1057-1060, 2009」において、詳しく説明されている。
【0092】
第1の2値化画像データ作成部212は、図25の色情報の削減のステップST222Aにおいて、冗長成分除去を行う。病理標本において、細胞核領域はヘマトキシリンによって青紫色の色素によって染色されるため、RGB色空間の各成分で比べると、染色濃度が違っていても他の領域に比べてB成分が他の成分よりも高い。そこで、細胞核領域と関係のない冗長成分を削減するため、病理組織画像のすべての画素においてRGB色空間上のR成分からB成分を減算した結果が0より大きい場合の画素値を0とする。このような冗長成分除去を行うと、細胞核領域の抽出に障害となるB成分を多く含んだ画素情報を除去できる。
【0093】
次にクリッピングのステップST222Bでは、細胞核領域を強調した画像を作成するために、冗長成分が除去された病理組織画像のすべての画素においてRGB色空間上でB成分からR成分を減算した値B’を算出する。病理標本画像に写るノイズや病理標本画像内の染色ムラなどを考慮して、B’値が所定値以上になった場合は、B’に所定値を代入し、B’が所定値以下となるようにクリッピング処理を行う。この所定値として、たとえば予備実験により定められた値である30を用いる。染色の状況等に応じて適宜変更しても良い。ステップST223では、このようにしてクリッピングして各画素毎に得られるB’を、第1の2値化画像データを求めるための画像データと見なして、2値化を行う。このようなクリッピングをすると、病理標本画像に写るノイズや病理標本画像内の染色むらによる影響を大幅に低減できる。
【0094】
図26は、冗長性分除去とクリッピングの効果を確認するために用いた画像を示している。図26からは、冗長性分除去もクリッピングも行わない場合、及びクリッピングだけを行った場合には、背景である腺腔Aが誤って細胞核として抽出されていることが分かる。また冗長性分除去だけでも背景である腺腔は抽出されなくなるが、細胞核領域の大きさが小さくなってしまう。これに対し、冗長性分除去とクリッピングを併用すると、腺腔Aを抽出せず、同時に細胞核領域Bをより正確に抽出することができることが分かる。
【0095】
なお、第1の2値画像データとして、第1の実施例にて行われていたように、RGB色空間におけるR成分を判別2値化手法により処理して得られる2値化画像データを用いてもよい。本実施の形態で用いる第2の2値化画像データ作成部214は、病理組織画像のCIELuv画像データを主成分分析して得た第2主成分軸の分析結果から背景領域とその他の領域とが区別できる第2の2値化画像データを作成するように構成されている。ここでCIELuv画像データとは、国際照明委員会 (Commission Internationale de l'Eclairage)が定めたCIE表色系で表現される画像データである。CIELuv表色系は、色空間上の距離が、人間による知覚的な色の差に近くなるように設計された均等色空間である。そのため人間(病理医)と同様の色識別感覚で処理を行い、領域を区別することが可能となる。なおRGB表色系からCIELuv表色系への変換については、たとえば「太田登,“色彩工学,”電機大出版局,1993.」に記載の方法を用いる事ができる。
【0096】
より具体的には、病理組織画像の全画素データをCIELuv表色系に変換し、主成分分析により得た第2主成分軸に全画素データを射影し、その結果を判別2値化法により2値化して第2の2値化画像データを作成する。なお第2主成分軸のみを用いるのは、他の主成分軸を用いた場合と比較して、背景が最も忠実に抽出されていることが実験により目視で確認されたためである。なお、病理画像の染色状態に応じて、第2主成分軸ではなく、その他の主成分軸に対して病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成するようにしてもよいのは勿論である。さらに、複数の主成分軸に対して病理組織画像データの全画素データを射影して正規化して判別2値化法により2値化して得られる複数の2値化画像データの論理積演算を行うことで第2の2値化画像データを作成するようにしてもよい。なお第2の2値化画像データを作成する際に、論理積演算以外に、論理和などの他の演算を用いてもよいのは勿論である。
【0097】
なお、第2の2値画像データとして、第1の実施例にて行われていたように、YUV色空間におけるV成分を判別2値化手法により処理して得られる2値化画像データを用いてもよい。
【0098】
同様に、第2の実施例にて行われていたように、RGB色空間において全画素データを主成分分析して得た第一主成分軸に、病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成してもよい。第一主成分軸ではなく、その他の主成分軸に対して病理組織画像データの全画素データを射影して正規化したものを、判別2値化法により2値化して第2の2値化画像データを作成するようにしてもよいのは勿論である。さらに、複数の主成分軸に対して病理組織画像データの全画素データを射影して正規化して判別2値化法により2値化して得られる複数の2値化画像データの論理積演算を行うことで第2の2値化画像データを作成するようにしてもよい。なお第2の2値化画像データを作成する際に、論理積演算以外に、論理和などの他の演算を用いてもよいのは勿論である。
【0099】
図27(A)はオリジナルのグレースケール画像である。そして(B)は図1の実施の形態で得られる抽出画像であり、細胞質領域も一部白く抽出されている。(C)は図20の実施の形態で得られる抽出画像であり、細胞質領域のほとんどが背景と同様に白く抽出されている。(D)は本実施の形態で得られた抽出画像であり、細胞質領域が含まれないように背景が白く抽出されている。
【0100】
図24の3値化画像データ作成部215について説明する。3値化画像データ作成部215は、第1の2値化画像データと、第2の2値化画像データの否定論理和演算を行って、新たな第3の2値化画像データを生成する。第3の2値画像データに細胞質領域と細胞核の一部分とが、その他の領域と区別されている。次に、第1の2値画像データの細胞核領域に属する画素に任意の画素値A、その他の画素値に0をセットする。同様に、第2の2値画像データの背景領域に属する画素に任意の画素値B、その他の画素値に0をセットする。第3の画像データの、細胞質領域と細胞核の一部分に該当する画素に任意の値C、その他の画素値に0をセットする。そして、3つの2値画像を下記の手順で重ね合わせる。すなわち、第2の2値画像データにおいて画素値Bがセットされている位置の画素について、第3の画像データ上でも画素値Bを上書きする形でセットする。これによって、第3の画像データは、背景領域に属する画素に値B、細胞質領域と細胞核の一部に該当する画素に値C、細胞核の残る部分に該当する画素に0がセットされた状態となる。続いて、第1の2値画像データにおいて画素値Aがセットされている位置の画素について、第3の画像データ上でも画素値Aを上書きする形でセットする。これによって、第3の画像データは、背景領域に属する画素に値B、細胞質領域に属する画素に値C、細胞核領域に属する画素に値Aがセットされた状態となる。その後、各領域の画素に対して、適切なレベル値(たとえば背景領域を0、細胞質領域を2、細胞核領域を14)を設定することで、3値化画像が生成される。
【0101】
図28(A)は、本実施の形態で使用する局所パターンマスクを作成するマスク候補(黒塗りのブロックと斜線を付したブロック)を示しており、図28(B)はマスク候補の位置の決定結果を座標で示す表である。
【0102】
このマスク候補は、中心マスク(黒色ブロック)の座標を(0,0)としてxy座標を仮想したときに、マスク範囲中の8個のマスク候補が、下記の2式の交点の座標を有するものとして定義される。
【0103】
(x2/n2)+(y2/m2)=1
y=±(m/n)xあるいはy=0あるいはx=0
特にmとnとを等しくすると(実施例ではm=n=4)、8個のマスク候補は、図28(A)に示すように中心マスクを中心とする八角形の頂点に位置することになる。図28(B)は、マスク候補の座標を示している。このような8個のマスク候補と中心マスクにより構成される局所パターンマスクの効果について、図10(B)と図28(A)を比較しながら説明する。図10(B)の局所パターンマスクにおいて、マスク範囲の角に位置するマスクと中心マスクとの間のユークリッド距離と、マスク範囲の内縁の辺の中央のマスクと中心マスクとの間のユークリッド距離との差の絶対値をΔD1とする。一方、図28(A)の局所パターンマスクにおいて、中心マスクの右上(左上、右下、左下でもよい)方向に位置するマスクと中心マスクとの間のユークリッド距離と、マスク範囲の内縁の辺の中央のマスクと中心マスクとの間のユークリッド距離との差の絶対値をΔD2とする。図より、ΔD2≦ΔD1であることは明らかである。ここで、複数の局所マスクパターンのうち、それぞれ45°回転させたときに等価とみなせるもの同士を同一グループと見なして、回転不変要素特徴ベクトルを生成する手続きについて考慮すると、図28(A)に基づく局所パターンマスクの方が、不変性が高いことは明らかであり、より品質の高い病理組織画像の特徴ベクトルを抽出できると考えられる。
【0104】
なお、局所パターンマスクについて、第1の実施例にて行われていたように、図10(B)に示されるマスク配置を使用してもよいのは勿論である。
【0105】
前の実施の形態で採用されているHLACでもそれなりの判定精度は得られている。しかしHLAC特徴量を画素値の積和によって求めるのでは、画素値に与えられるレベル値の設定の適否の影響が判定精度に大きく現れる傾向がある。そこで本実施の形態では、マスク画素値乗算部231において、複数の局所パターンマスクにより走査した結果の参照点のカラーインデックス(例えば色の番号)と変位方向に位置する相関相手の点のカラーインデックス(例えば色の番号)の共起性を計算する、いわゆるCILAC(Color Index Local Auto-Correlation)と呼ばれる特徴抽出法を用いる。なおCILACの詳細については、2009年4月19日〜24日に台湾の台北で開催された「Acoustics, Speech and Signal Processing, 2009.ICASSP 2009, IEEE International Conference 」のための論文集の1057頁〜1060頁に、Kobayashi,T及びOtsu,Nの両名が「Color image feature extraction using color index local auto-correlations」と題して発表している。
【0106】
共起性とは、異なる事象が同時に出現する傾向を示す性質のことである。すなわち、病理組織画像において、局所マスクパターンにより指定される近接画素の関係性を、3クラス(細胞核・細胞質・背景)の組み合わせにより表現し、全ての組み合わせの発生頻度(あるいは発生確率)を特徴として抽出することが可能となる。
【0107】
CILAC特徴は、高次相関の次数を0,1または2のいずれかとするとき、0次、1次、2次の自己相関を連結して得られるベクトルとして表現される。0次、1次、2次の自己相関R0(i), R1(i,j,a)、R2(i,j,k,a,b)は下式で表される:
R0(i)=Σrfi(r)
R1(i,j,a)= Σrfi(r)fj(r+a)
R2(i,j,k,a,b)= Σrfi(r)fj(r+a)fk(r+b)
ここで、rは参照画素、aとbはrからの変位ベクトル、f(x)は画素xが色ラベルiをとるときに1、それ以外のときに0とする関数、i∈{1, ..., D}、j∈{1, ..., D}、k∈{1, ..., D}は色ラベルである。本実施例においてD=3とし、色ラベル1、2、3は、細胞核領域に属する画素に与えられるラベル値、細胞質領域に属する画素に与えられるラベル値、背景領域に属する画素に与えられるラベル値であるものとする。また、変位ベクトルaとbは局所パターンマスクに含まれる9個のマスク候補の位置により規定される。0次相関R0(i)は、iが3種類の値(色ラベル)を取り得るため、長さ3のベクトルとなる。1次相関R1(i,j,a)は、iとjがそれぞれ3種類の値(色ラベル)、変位ベクトルが8種類の方向をとり得るため、長さ3×3×8のベクトルとなる。2次相関R2(i,j,k,a,b)は、iとjとkがそれぞれ3種類の値(色ラベル)、変位ベクトルが8種類の方向から2方向をとり得るため、長さ3×3×3×8×7のベクトルとなる。したがって、2次相関まで全てを連結すると1587次元となる。さらに,本実施の形態ではCILAC特徴についても、前述の実施の形態と同様に回転・反転不変特徴への再構築を行うので、CILAC特徴xiは63次元の回転・反転不変特徴yj(j = 1, …, 63)へ再構成される。
【0108】
CILACを用いた特徴抽出を実施すると、診断対象とする病理組織画像の性質に合わせた各領域(細胞核、細胞質、背景)に属する画素にレベル値を付与する必要がなくなり、不適切なレベル値を付与することによる異常検出精度低下のリスクがなくなるため、より安定的な病理組織診断支援が可能となる。
【0109】
さらに発展して、特徴抽出において、細胞核の情報と、細胞核と細胞質の関係性を重要視するため、CILACにおける、細胞核・細胞質・背景の3値により構成される局所パターンマスクのうち、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用することができる。
【0110】
図29は、1次までのCILACの3×3の局所パターンマスクの例を示している。基本的な走査方法であれば、図29の局所パターンマスクをすべて使用する。しかし局所パターンマスクを、細胞核のみと、細胞核と細胞質の関係を示すものに限定すると、図29においてセルに色を付した局所パターンマスクのみを使用することになる。2次までのマスク数で考えると、全ての局所パターンマスクの種類の数は1587であり、回転反転不変による再構成をした場合でも不変特徴グループの数は63である。これに対して細胞核のみと、細胞核と細胞質の関係を示す局所パターンマスクに限定すると、局所パターンマスクの数は153であり、回転反転不変による再構成をした場合の不変特徴グループの数は15である。
【0111】
なお、CILAC特徴量ではなく、実施例1と同様に、領域分割されレベル値を設定された病理組織画像からHLAC特徴を抽出してもよい。また、回転・反転不変特徴グループに基づく特徴量の再構成を行わなくてよいことは勿論である。
【0112】
局所パターンマスクの数を限定した場合において、使用する局所パターンマスクとして、図28(A)に示したように8個のマスク候補が中心マスクを中心とする八角形の頂点に位置する局所パターンマスクを用いて、癌組織のサンプル実験における交差検定を行ったときの過検出率(過検出数/正常サンプル数)は8.3%であった。ちなみHLACを特徴抽出法として用いた前述の実施の形態で、図28(A)に示したようにマスク候補が中心マスクを中心とする八角形の頂点に位置する局所パターンマスクを用いた場合の癌組織のサンプル実験における交差検定を行ったときの過検出率(過検出数/正常サンプル数)は、15.7%であった。この結果から、病理組織画像の特徴抽出においては、HLACよりCILACの抽出法が優れており、しかも局所パターンマスクを細胞核のみと、細胞核と細胞質の関係を示すものに限定すると、過検出を抑制できることが確認された。
【0113】
本発明は、予めがんの特徴を細かく定義する必要がなく、これまでに集められた正常組織画像の特徴を学習することで、まだ発見されていない未知の病変を異常検出することも可能である。
【産業上の利用可能性】
【0114】
本発明によれば、細胞核領域とその他の領域とが区別できる第1の2値化画像データと背景領域とその他の領域とが区別できる第2の2値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる3値化画像データを作成するので、従来よりも、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成することができる。
【符号の説明】
【0115】
1,101 病理組織画像の領域分割画像データ作成システム
3,103 病理組織画像の特徴抽出システム
5,105 診断部
11,111 RGB画像データ生成部
12,112 第1の2値化画像データ作成部
13 YUV 画像データ生成部
14,114 第2の2値化画像データ作成部
15,115 3値化画像データ作成部
31,131 高次局所自己相関計算部
231 マスク画素値計算部
32,132 要素特徴ベクトル計算部
33,133 特徴抽出部
図1
図2
図3
図5
図7
図9
図10
図11
図12
図13
図14
図16
図18
図20
図21
図24
図25
図28
図4
図6
図8
図15
図17
図19
図22
図23
図26
図27
図29