【国等の委託研究の成果に係る記載事項】(出願人による申告)平成22年度、独立行政法人新エネルギー・産業技術総合開発機構がん超早期診断・治療機器の総合研究開発/超早期高精度診断システムの研究開発:病理画像等認識技術の研究開発/病理画像等認識基礎技術の研究開発(定量的病理診断を可能とする病理画像認識技術)委託研究、産業技術力強化法第19条の適用を受ける特許出願
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0016】
初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。
【0017】
一実施形態に係るデータ処理装置100は、入力部101と、決定木生成部102と、を備える。入力部101は、細胞画像に与えられたラベルと、細胞画像から抽出された複数の特徴量と、を1組とする学習データを入力する。決定木生成部102は、サンプルのラベルに相当する情報を識別するための決定木を、学習データに基づいて生成する。
【0018】
データ処理装置100は、細胞画像を特徴量付ける複数の特徴量(特徴量ベクトル)を受け付ける。データ処理装置100は、当該特徴量を用いて、細胞画像に与えられたラベル(例えば、癌細胞のグレード)を識別するための決定木を生成する。決定木は、葉が分類(クラスラベル)を表し、枝がその分類に至るまでの根拠を示す木構造を有する。従って、細胞画像のグレーディング等に利用する識別規則を決定木により生成することで、医師等は当該識別規則による判定結果、予測結果の根拠を容易に理解することができる。
【0019】
以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。
【0020】
[第1の実施形態]
第1の実施形態について、図面を用いてより詳細に説明する。
【0021】
図2は、第1の実施形態に係る病理画像処理システムの構成の一例を示す図である。
図2を参照すると、病理画像処理システムには、学習データ生成装置10と、データ処理装置20と、識別装置30と、が含まれる。
【0022】
なお、第1の実施形態では、患者の肝臓から採取した細胞から取得される細胞画像をシステムの対象として説明する。但し、細胞及び臓器を限定する趣旨でではなく、他の臓器から採取した細胞でも良いことは勿論である。
【0023】
学習データ生成装置10は、細胞画像から抽出された注視領域(ROI;Region Of Interest)に係る画像データ(以下、注視領域画像データと表記する)と、上記注視領域に対応するグレードを含むラベル情報と、を入力する。
【0024】
医師等により取得された細胞画像の一部を顕微鏡に搭載されたCCD(Charge Coupled Device)カメラにて撮像して得られる画像が注視領域画像データである。
【0025】
ラベル情報に含まれる注視領域画像データのグレード(注視領域画像データに与えられるラベル)は、各注視領域画像データを医師が確認し、当該医師の知見に基づきグレード0(G0)からグレード4(G4)の間で定められるものとする。なお、第1の実施形態では、グレードが整数値の場合を例に説明するが、グレードは必ずしも整数でなくてもよく、例えばグレード2.5などとしてもよい。この場合は、回帰決定木を用いることによって、整数の場合と同様な手順で分類を実行可能である。あるいは、医師によるグレードが整数ではない場合には、学習データ生成装置10は、小数点以下を切り上げる、切り下げる、四捨五入する等の処理によりグレードを整数に変更してもよい。
【0026】
学習データ生成装置10は、複数の注視領域画像データと、当該複数の注視領域画像データそれぞれに対応するラベル情報と、を入力する。
【0027】
学習データ生成装置10は、注視領域画像データとラベル情報に基づいて学習データを生成し、データ処理装置20に出力する。
【0028】
データ処理装置20は、入力した学習データに基づき、肝細胞のグレーディング(格付け)を行うための識別規則(識別モデル、識別ルール又は識別関数)を生成する。より具体的には、データ処理装置20は、入力した学習データに基づき、決定木を生成する。データ処理装置20が生成した決定木(識別規則)は識別装置30に提供される。
【0029】
識別装置30は、グレーディングが行われていないサンプルの特徴量(特徴量ベクトル)を入力する。識別装置30は、データ処理装置20から提供された決定木を予測モデルとして用いて、上記入力した特徴量に対する応答(決定木の葉に付されたクラスラベル)を出力する(識別結果を出力する)。即ち、データ処理装置20は、サンプルのグレード(ラベルに相当する情報)を識別するための決定木を学習データに基づき生成する。また、識別装置30は、データ処理装置20が生成した決定木を用いて、サンプルデータのグレーディングを行う。
【0030】
図3は、学習データ生成装置10の内部構成の一例を示す図である。
図3を参照すると、学習データ生成装置10は、入力部11と、特徴量ベクトル生成部12と、学習データ出力部13と、HDD(Hard Disk Drive)等からなる記憶部14と、を備える。なお、学習データ生成装置10を操作するための操作デバイス(キーボード、マウス等)や表示デバイスの図示は省略している。また、入力部11を初めとする各部は、記憶部14にアクセスし、データの書き込み、読み出しが可能に構成されている。
【0031】
入力部11は、上述の注視領域画像データとラベル情報を入力する手段である。各注視領域画像データには識別子(ID;Identifier)が与えられており、入力部11は注視領域画像データと当該画像データを識別する識別子(以下、注視領域IDと表記する)を入力する。例えば、入力部11は、
図4(a)に示すような複数の注視領域画像データを入力する。なお、入力部11が入力する注視領域画像データは、グレースケール画像であってもカラー画像であってもよく、画像の形式(画像の階調、色彩のフォーマット等)に限定はない。
【0032】
ラベル情報は、注視領域IDと医師等により判定されたグレードが1組となるテーブル情報として入力される。例えば、入力部11は、
図4(b)に示すような複数の注視領域画像データそれぞれに対応する注視領域IDにより関連付けられたグレードを含むラベル情報を入力する。
【0033】
入力部11は、入力した複数の注視領域画像データと対応するラベル情報を、特徴量ベクトル生成部12に引き渡す。
【0034】
特徴量ベクトル生成部12は、注視領域画像データを特徴付ける特徴量ベクトルを算出する。なお、特徴量ベクトル生成部12は、1枚の注視領域画像データから複数種類の特徴量を生成し、且つ、各種類の特徴量に対する統計処理により複数の特徴量からなる特徴量ベクトルを生成する。第1の実施形態では、特徴量ベクトル生成部12は、
図5に示すような12種類の特徴量を生成するものとする。
【0035】
初めに、特徴量ベクトル生成部12は、入力した注視領域画像データに含まれる細胞核の領域(以下、細胞核領域と表記する)を抽出する。例えば、
図4を参照すると、特徴量ベクトル生成部12は、細胞核領域201、202のような領域を順次抽出する。その際、特徴量ベクトル生成部12は、細胞核領域とそれ以外の領域との間の輝度差(コントラスト)等を利用して細胞核領域を抽出する。
【0036】
次に、特徴量ベクトル生成部12は、抽出した細胞核領域に対して特徴量算出処理を施すことで各種の特徴量を算出する。ここでは、例えば、
図6に示すような細胞核領域が抽出されたものとする。この場合、細胞核の大きさ(細胞核の面積;特徴量F1、
図5参照)を算出する際には、特徴量ベクトル生成部12は、
図6に示す灰色の領域(細胞核領域)を構成する画素の数を計数する。その後、特徴量ベクトル生成部12は、画素の計数値に所定の定数(1画素の面積に相当する細胞の大きさ)を乗算し、その結果を特徴量F1とする。あるいは、特徴量ベクトル生成部12は、細胞核領域を構成する画素数(ピクセル数)を特徴量F1としてもよい。
【0037】
また、特徴量ベクトル生成部12は、細胞核領域の境界をなす画素(
図6に示す境界線211上の画素)の数を計数し、その結果に基づき細胞核の周長(特徴量F2)を算出する。
【0038】
細胞核の大きさ(面積)とその周長が得られると、下記の式(1)により、特徴量ベクトル生成部12は、細胞核の円形度(特徴量F3)を算出することができる。
但し、Sが細胞核の面積であり、Lは細胞核の周長である。
【0039】
特徴量ベクトル生成部12は、細胞核領域を楕円形状と扱い、その長軸(例えば、
図6に示す長軸212)をなす画素数を計数し、その結果から細胞核の楕円長軸長(特徴量F4)を算出できる。また、特徴量ベクトル生成部12は、楕円形状の短軸(
図6に示す短軸213)をなす画素数を計数し、その結果から細胞核の楕円短軸長(特徴量F5)を算出できる。さらに、特徴量ベクトル生成部12は、細胞核の楕円長軸長に対する楕円短軸長の比を算出することで、特徴量F6を算出する。
【0040】
特徴量ベクトル生成部12は、細胞核領域やその周辺の画素値(濃度、輝度値)を用いて、特徴量F7〜F11を算出する。例えば、特徴量ベクトル生成部12は、細胞核が染色されている場合には、細胞核領域の蛍光領域と非蛍光領域を最も効率よく分離できる閾値を算出し、当該閾値を特徴量F7として算出する。
【0041】
また、特徴量ベクトル生成部12は、細胞核領域の画素値からグレーレベルの同時生起行例(GLCM;Gray Level Co-occurrence Matrix)を算出し、当該GLCM値から細胞核領域の角度別2次モーメント(ASM;Angular Second Moment、特徴量F8)、コントラスト(特徴量F9)、一様性(特徴量F10)、エントロピー(ENT;Entropy、特徴量F11)等の特徴量を算出できる。さらに、特徴量ベクトル生成部12は、細胞核領域の核密度(NDens;Nuclear Density)を計算することで特徴量(F12)を算出できる。
【0042】
特徴量ベクトル生成部12は、注視領域画像データを特徴付ける特徴量として、少なくとも、細胞核の大きさ(特徴量F1)、細胞核の円形度(特徴量F3)、細胞核のコントラスト(特徴量F9)、細胞核の一様性(特徴量F10)を生成する。
【0043】
特徴量ベクトル生成部12は、注視領域画像データに含まれる全ての細胞核(細胞核領域)について、注視領域画像データを特徴付ける特徴量F1〜F12を算出する。その結果、例えば、1枚の注視領域画像データに100個の細胞核領域が含まれていれば、特徴量F1〜F12のそれぞれについて100個の特徴量が算出される。
【0044】
特徴量ベクトル生成部12は、1枚の注視領域画像データから算出した複数の特徴量それぞれについて統計処理を施すことで、当該特徴量を代表する複数の指標を算出する。なお、以降の説明において、特定の特徴量Fを代表する統計値(指標)をハイフンと数字を用いて表記する。例えば、
図5を参照すると、細胞核の大きさに係る特徴量F1を例に取ると、細胞核の大きさは、F1−1〜F1−5により代表される。なお、各特徴量から算出される複数の統計値もまた、細胞核の特徴を特徴付ける値に相違はないので、特徴量と表記する。例えば、5つの特徴量F1−1〜F1−5は、特徴量F1を代表する統計値である。
【0045】
特徴量ベクトル生成部12は、例えば、上述のようにして算出した特徴量F1に関する度数分布(ヒストグラム)を生成する。ここでは、例えば、
図7(a)に示すよう度数分布が得られたものとする。次に、特徴量ベクトル生成部12は、生成した度数分布から累積分布(
図7(b)参照)を生成し、当該累積分布から得られるパーセンタイル値を計算することで、細胞核の大きさに関する特徴量F1−1〜F1−5を算出する。
【0046】
他の特徴量F2〜F12に関しても、個別の特徴量を算出した後、当該特徴量の度数分布、累積分布を生成することで、各特徴量を代表する複数の特徴量が生成される。特徴量ベクトル生成部12は、上記のような処理を繰り返すことで、1枚の注視領域画像データから60(12×5)個の特徴量を算出する。即ち、特徴量ベクトル生成部12は、各注視領域画像データを特徴付ける特徴量ベクトルを算出する。
【0047】
特徴量ベクトル生成部12は、入力部11から取得したラベル情報と、注視領域画像データごとに算出した複数の特徴量と、を学習データ出力部13に引き渡す。
【0048】
学習データ出力部13は、特徴量ベクトル生成部12から取得した情報に基づき、学習データを生成する。具体的には、学習データ出力部13は、注視領域IDと、ラベル情報(注視領域画像データのグレード)と、特徴量ベクトル(60個の特徴量)と、を結合して得られる情報を学習データとして生成する(
図8参照)。即ち、学習データ出力部13は、注視領域画像データを識別する識別子(注視領域ID)と、各注視領域画像データに与えられたラベル(細胞画像のグレード)と、注視領域画像データから抽出された複数の特徴量(特徴量ベクトル)と、を1組とする学習データを生成し、出力する。
【0049】
学習データ出力部13は、生成した学習データをデータ処理装置20に出力する。なお、学習データ生成装置10からデータ処理装置20への学習データの入出力は、USB(Universal Serial Bus)メモリ等の外部記憶装置を用いても良いし、ネットワーク、データベースサーバ等を用いても良い。
【0050】
図9は、データ処理装置20の内部構成の一例を示す図である。
図9を参照すると、データ処理装置20は、入力部21と、特徴量選択部22と、決定木生成部23と、出力部24と、HDD等からなる記憶部25と、を備える。なお、データ処理装置20を操作するための操作デバイス(キーボード、マウス等)や表示デバイスの図示は省略している。また、入力部21を初めとする各部は、記憶部25にアクセスし、データの書き込み、読み出しが可能に構成されている。
【0051】
入力部21は、学習データ生成装置10が出力する学習データを入力する手段である。入力部21は、取得した学習データを特徴量選択部22に引き渡す。
【0052】
特徴量選択部22は、取得した学習データに含まれる特徴量ベクトル(複数の特徴量;上記の例では60個の特徴量)から、決定木生成部23による決定木の生成に用いられる特徴量を選択する手段である。具体的には、特徴量選択部22は、第1の選択処理と、第2の選択処理と、を実行し、最終的に決定木生成部23が利用する特徴量を絞り込む。
【0053】
特徴量選択部22は、記憶部25に格納された第1の選択ポリシを参照しつつ、第1の選択処理を実行する。例えば、第1の選択ポリシとして
図10に示すような情報が、記憶部25に格納されている。
【0054】
図10を参照すると、第1の選択ポリシには利用する特徴量の種別は特徴量F1〜F11であることが示されているので、特徴量選択部22は、学習データの特徴量ベクトルに含まれる特徴量F1〜F12のうち、特徴量F12を除外した特徴量F1〜F11を選択する。
【0055】
さらに、第1の選択ポリシには、特徴量を代表する複数の統計値のうち、いずれを採用するかに関する情報が含まれ、当該情報は「中央値(メディアン)」と記載されているので、特徴量選択部22は、中央値に該当する特徴量を選択する。具体的には、
図8を参照すると、細胞核の大きさに関する特徴量F1を代表する特徴量F1−1〜F1−5のうち、特徴量F1−3が中央値に該当(
図7(b)参照)するので、特徴量選択部22は、細胞核の大きさに関する特徴量F1を代表する特徴量として特徴量F1−3を選択する。このように、特徴量選択部22は、第1の選択ポリシに従い、各特徴量を代表する複数の特徴量(統計値)から1つの特徴量を選択する。
【0056】
特徴量選択部22が、
図8に示す学習データに対して、第1の選択処理を実行したが結果が
図11に示されている。
図11に示すように、特徴量選択部22は、第1の選択処理を実行することで、60個の特徴量から11個の特徴量に絞り込みを行っている。
【0057】
特徴量選択部22は、第1の選択処理が終了した学習データに対し、記憶部25に格納された第2の選択ポリシに従い、第2の選択処理を実行する。
【0058】
例えば、第2の選択ポリシとして
図12に示すような情報が、記憶部25に格納されている。第2の選択ポリシの「分析モデル=決定木」は、学習データ(例えば、
図11に示す学習データ)に対し、ラベル(グレード)を目的変数(被説明変数)とし、特徴量を説明変数として決定木による分析モデルを生成することを意味する。そして、当該決定木による分析モデルを用いて、特徴量(説明変数)の重要度を評価し、重要度が低い2つの特徴量を削除し、最終的に特徴量を4つに絞り込むことを、第2の選択ポリシは示す。
【0059】
ここでは、
図13を参照しつつ、特徴量選択部22による上記第2の選択処理について説明する。
【0060】
初めに、特徴量選択部22は記憶部25に格納された第2の選択ポリシを参照する(ステップS101)。
【0061】
次に、特徴量選択部22は、第2の選択ポリシに記載された「分析モデル=決定木」に従い、第1の選択処理が終了した学習データに基づき決定木の生成を行う(ステップS102)。なお、特徴量選択部22や後述する決定木生成部23による決定木の生成には、CART(Classification And Regression Trees)アルゴリズムやID(Iterative Dichotomiser)3等のアルゴリズムを使用することができる。また、ジニ係数やエントロピーを計算することで決定木の分岐条件を生成することができる。
【0062】
ここでは、例えば、
図14に示すような決定木が得られたものとする。なお、
図14に示す決定木の分岐条件301〜307において、変数X、Y、Zは特徴量F1−3〜F11−3のいずれかである。
【0063】
次に、特徴量選択部22は、生成された決定木の分岐条件(
図14の例では、分岐条件301〜307)に含まれる各説明変数(特徴量)それぞれの品質(Quality)を算出する(ステップS103)。具体的には、特徴量選択部22は、下記の式(2)を用いて、各説明変数のジニ係数Gを算出する。
但し、式(2)のPiはクラスiの確率を示す。
【0064】
ジニ係数Gを計算した特徴量選択部22は、ジニ係数Gが最小となる変数Xの値を最適な分割点(Best Split Point)Xsと定める。あるいは、特徴量選択部22は、例えば、
図14に示すような決定木生成の際にジニ係数を利用していれば、算出したジニ係数を利用して分割点Xsを特定してもよい。
【0065】
特徴量選択部22は、下記の式(3)を用いて、分割点Xsにおける変数Xの品質Q(X、Xs)を算出する。
・・・(3)
【0066】
式(3)のNは変数の総数、N
Lは左側の子ノードに分類される変数の数、N
Rは右側の子ノードに分類される変数の数を示す。式(3)のI
{A}は指示関数(Indicator Function)を表し、条件Aが成立する場合に「1」、それ以外(条件Aが不成立)の場合に「0」を出力する関数である。
【0067】
式(3)に示されたI
{Ci=Neg}は、クラス(カテゴリ)CiがNegativeの場合に「1」、それ以外の場合に「0」を出力する指示関数である。また、I
{Xi>Xs}は、XiがXsよりも大きい場合に「1」、それ以外の場合に「0」を出力する指示関数である。式(3)の記載、I
{A}I
{B}は条件Aと条件Bが同時に成立する場合に「1」を出力し、それ以外の場合には「0」を出力することを意味する。従って、式(3)のI
{Ci=Neg}I
{Xi≦Xs}の総和は、Negativeクラスに属し、且つ、その特徴量がXs以下のデータに関する和となる。式(3)に示される他の指示関数の積も同様の意味を有する。例えば、式(3)のI
{Ci=Pos}I
{Xi≦Xs}の総和は、Positiveクラスに属し、且つ、その特徴量がXs以下のデータに関する和となる。
【0068】
例えば、
図15に示すように、変数Xが分割点Xsにより最適に分割されているものとする。この場合、N=10、NL=5、NR=5であるので、式(3)を適用すると、分割点Xsにおける変数Xの品質Q(X、Xs)は、Q(X、Xs)=(4
2+1
2)/5+(0
2+5
2)/5=8.4と計算される。
【0069】
図14に示す例では、分岐条件301〜307それぞれに用いられている変数(X、Y、Z)の品質が算出される。なお、
図14では、各分岐条件での品質Qを、当該分岐条件にて用いられている変数とその符号により、分岐条件内に併記している。例えば、分岐条件301では、変数Xが用いられているので、分岐条件301における品質QをQ(X、301)と表記している。
【0070】
次に、特徴量選択部22は、品質が算出された特徴量それぞれの重要度(Importance)を算出する(ステップS104)。具体的には、決定木の分岐条件それぞれの品質の総和に対する各変数(特徴量)の品質の割合から特徴量の重要度が算出される。例えば、
図14に示す例では、変数Xの重要度は式(4)、変数Yの重要度は式(5)、変数Zの重要度は式(6)によりそれぞれ算出できる。
【0071】
次に、特徴量選択部22は、第2の選択ポリシに含まれる「絞り込み方法」に従い、特徴量の絞り込みを行う(ステップS105)。例えば、特徴量選択部22が
図11に示す学習データに対して決定木を作成し、各変数の重要度を降順(重要度が高い順)に並べた結果が
図16(a)のとおりであるとすると、下位2つの特徴量F2−3、F11−3が削除される。なお、
図16において、灰色にて色づけされた行は、特徴量選択部22による絞り込みにより削除される行である。このように、特徴量選択部22は、先のステップにて算出された重要度に基づき、学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成する。
【0072】
次に、特徴量選択部22は、第2の選択ポリシに含まれる「終了条件」に、上記の新たな学習データが合致するか否かを判定する(ステップS106)。ここでは、「終了条件=特徴量の数が4」であるので、特徴量選択部22は、特徴量の数が4つにまで絞り込めているか否かを判定する。
【0073】
新たな学習データが終了条件を満たしていなければ(ステップS106、No分岐)、特徴量選択部22は、ステップS102に戻り処理を継続する。即ち、特徴量選択部22は、特徴量が絞り込まれた新たな学習データを使って、再び決定木を作成し、当該決定木の分岐条件をなす変数の品質、重要度を算出し、重要度の低い特徴量を削除する。
【0074】
新たな学習データが終了条件を満たしていれば(ステップS106、Yes分岐)、特徴量選択部22は処理を終了する。
【0075】
上記のような絞り込みの結果、
図16(a)に示す特徴量は、
図16(b)、
図16(c)のように絞り込まれていき、最終的に
図16(d)に示す特徴量(上から4つの特徴量)となる。
【0076】
特徴量選択部22により2段階の特徴量の絞り込みが行われた結果の学習データは、
図17のとおりとなる。特徴量選択部22は、第1の選択処理及び第2の選択処理の実施により特徴量が絞り込まれた学習データ(例えば、
図17に示す学習データ)を、決定木生成部23に引き渡す。
【0077】
決定木生成部23は、取得した学習データに基づき、識別規則を生成する。具体的には、決定木生成部23は、
図17に示す学習データに基づき、決定木を生成する。決定木生成部23は、決定木を生成する際、不純度が「0」となるまで、あるいは、予め定めた深さに決定木の分岐が到達するまで、分割する変数の選択と、データの部分集合の分割と、を繰り返す。決定木生成部23は、生成した決定木を出力部24に引き渡す。
【0078】
出力部24は、例えば、取得した決定木を「If−Then」の形式にて外部装置(例えば、識別装置30)に出力する。あるいは、出力部24は、「If−Then」の形式を、例えば
図14のように可視化し、画像データとして出力してもよい。
【0079】
なお、第1の選択ポリシや第2の選択ポリシは、ユーザが任意にその内容を変更可能に構成されていることが望ましい。決定木生成部23による決定木の生成の際に利用する特徴量が異なると、分岐条件(グレーディングの根拠、理由)や分類結果(識別結果、グレーディング)もまた異なるものとなる。そのため、同じ細胞画像から抽出された特徴量を含む学習データ(例えば、60個の特徴量を含む学習データ)をデータ処理装置20に入力したとしても、決定木の生成に利用する特徴量を変更することで、学習データの基礎となったサンプル(注視領域画像データを抽出したサンプル)に対する多角的、多面的な研究、解析が実現可能となる。
【0080】
上述のデータ処理装置20の動作をまとめると
図18に示すとおりとなる。
【0081】
ステップS01において、データ処理装置20は、学習データを学習データ生成装置10から入力する。
【0082】
ステップS02において、データ処理装置20は、第1及び第2の選択処理の実行することにより、入力した学習データに含まれる特徴量の絞り込みを行う。
【0083】
ステップS03において、データ処理装置20は、絞り込まれた特徴量を含む学習データを用いて、決定木を生成する。
【0084】
ステップS04において、データ処理装置20は、決定木を外部に出力する。
【0085】
[適用例]
次に、第1の実施形態にて説明した決定木の生成方法を適用した場合の例について説明する。ここでは、1105人の患者の肝細胞から生成した注視領域画像データ(細胞画像の一部)から特徴量ベクトルを生成し、最終的に4つの特徴量に絞り込んだ学習データ(
図19参照)から決定木を生成した場合を説明する。なお、
図19において、細胞核の大きさに関する特徴量F1−3は、細胞核領域をなす画素数を用いている。
【0086】
図20は、
図19に示す学習データから得られる決定木の一例を示す図である。なお、決定木の算出にあたり、決定木の深さを「4」としている。また、
図20以降に示す決定木において、分岐条件を満たす場合には左側に分岐し、満たさない場合には右側に分岐するものとする。さらに、同じグレードであっても異なる分類結果に振り分けられることがあるので、分類結果のクラスラベル(グレードG0〜G4)を区別する目的でアルファベットを付与している。例えば、同じグレードG2であっても、分類結果401〜405に分類され得るので、これらを区別するためにG2a〜G2eを分類結果に表記している。
【0087】
図20を参照すると、グレードがG3未満か否かは、ルートノードからの最初の分岐条件にて用いられる細胞核の円形度(特徴量F3−3)に大きく依存することが分かる。また、上述のように同じグレードG2であっても、5種類の分類結果に振り分けられることが分かる。換言するならば、同じグレードであっても、異なる分類結果に属する注視領域画像データは異なる特徴を有すると言える。
【0088】
このように、決定木により示される識別規則は「If−Then」の形式により表現されるので、
図20に示すような可視化が容易である。そのため、医師等が可視化された決定木を参照することで、グレーディングの理由や根拠を容易に理解できる。例えば、
図20に接した医師等は、円形度が高いのでグレードが低く与えられている、細胞核が大きいので高いグレードが与えられている、と言ったグレーディングの根拠、理由を得ることができる。あるいは、葉(クラスラベル)のノードからルートノードに向けて分岐条件を確認(決定木の流れを遡るように確認)することで、医師等は、各クラスラベルの特徴を把握することができる。
【0089】
決定木生成部23が生成する決定木の深さは、深いほど分類の精度は高くなる。
図21は、
図19に示す学習データから、決定木の深さを20まで許容した場合のグレーディング結果(
図21(a))と、決定木の深さを4まで許容した場合のグレーディング結果(
図21(b))と、を示す図である。
図21に示すグレードG0t〜G4tは医師による判断(ラベル;真値、True)を示し、グレードG0p〜G4pは生成された決定木を適用することで得られるグレードの予測値(Prediction)を示す。
【0090】
図21の縦と横のグレーディングが交差する箇所(図の灰色の箇所)は、医師による判定と決定木による予測が一致していることを示し、当該交差箇所に含まれる数が多いほど当該決定木によるグレーディングの精度が高いことを示す。具体的には、決定木の深さを「20」に設定した場合には、その精度は96.2%となる。一方、決定木の深さを「4」に設定した場合には、その精度は56.7%となる。
【0091】
このように、決定木の深さを深くするほどグレーディングの精度は向上するが、生成された決定木の深さが深ければ深いほど、決定木によるグレーディングの根拠は医師等にとって理解しがたいものとなる。つまり、決定木によるグレーディングの精度と、決定木によるグレーディングの根拠、理由の理解容易性には、トレードオフの関係が存在する。従って、精度と理解容易性の関係が最適となるような深さにより決定木を生成することが望ましい。
【0092】
以上のように、第1の実施形態に係るデータ処理装置20は、識別規則の生成に利用する特徴量の影響度(重要度)を把握する目的で決定木を利用している。また、データ処理装置20は、複数の特徴量のうち、グレーディング結果に大きな影響を与える特徴量を残しつつ、影響の小さい特徴量を削除することで、最終的に利用する特徴量を絞り込んでいる。特徴量を絞り込むことで、決定木生成部23が生成する決定木のサイズを小さくし、グレーディングの根拠や理由に対する理解容易性を高めている。
【0093】
また、データ処理装置20は、決定木の生成、特徴量の評価、特徴量の絞り込みという手順を1度に限り行うのではなく、同じ手順を複数回行うことで特徴量の絞り込みを行っている。このような複数回の絞り込みを行う理由は、特徴量の間に存在する複雑な関係の影響を可能な限り排除し、グレーディングの精度を高めるためである。例えば、特徴量Aと特徴量Bが、細胞核の同じ特徴を表現する場合には、これらの特徴量を同時に決定木の生成に利用する必要性は低い。例えば、特徴量Aを優先的に利用するとすれば、特徴量Bの結果に対する影響は低くなり、特徴量Bは削除しても影響は少ない。対して、特徴量Aと特徴量Bが同時に利用されることで、分類の精度が高くなることもある。この場合、特徴量Aが利用される場合には特徴量Bの影響度も高くなるが、特徴量Aが利用されなければ特徴量Bの利用価値(結果に対する影響度)も低くなる。このように、特徴量の重要性は他の特徴量の存在に左右されるため、特徴量の組み合わせごとに各特徴量の重要度は変化する。例えば、
図16(a)を参照すると、特徴量F3−3の重要度は5番目となっている。一方、特徴量を順次絞り込んでいった結果の
図16(d)では、特徴量F3-3の重要度は1番目となっている。つまり、使用する特徴量の数が少ない場合には特徴量F3−3の影響は大きいと言える。
図16(a)の段階で重要度の高い4つの特徴量を選択すると、特徴量F3−3は除外され、少数の特徴量にて影響度の高い特徴量F3−3が用いられないという不都合が生じる。このような不都合を回避するため、データ処理装置20では、決定木の生成、特徴量の評価、特徴量の絞り込みという手順を繰り返しているのである。
【0094】
決定木には、目的変数を非線形に分離可能であり、決定木の深さを十分にとれば高い精度が得られる利点がある。また、決定木による識別規則は容易に可視化が可能であり、分類結果に対する根拠、理由の理解が容易という利点もある。これらの利点は、他の分析モデル、学習モデル(例えば、サポートベクターマシン(SVM;Support Vector Machine))には存在しない、又は希薄なものである。第1の実施形態に係るデータ処理装置20は、提供される学習データに基づき、決定木を識別規則として生成することで、分類の精度と理解容易性の両立をなしている。
【0095】
[第2の実施形態]
続いて、第2の実施形態について図面を参照して詳細に説明する。
【0096】
第1の実施形態では、学習データから決定木を生成することを説明したが、第2の実施形態では、上記決定木のさらなる活用について説明する。
【0097】
図22は、第2の実施形態に係る病理画像処理システムの構成の一例を示す図である。
図22を参照すると、学習データ生成装置10aは、注視領域IDにより関連付けられた注視領域画像データの付随情報を、注視領域画像データ及びラベル情報に加えて、入力する。学習データ生成装置10aは、第1の実施形態にて説明した方法により学習データを生成し、データ処理装置20aに出力する。学習データ生成装置10aが取得した付随情報は、学習データと共にデータ処理装置20aに提供される。
【0098】
データ処理装置20aは、第1の実施形態にて説明した方法により、決定木を生成する。データ処理装置20aは、生成された決定木による分類結果それぞれが有する特徴を、付随情報に基づき解析する機能を有する。具体的には、データ処理装置20aは、決定木、その分類結果及び付随情報を利用して、種々の解析データや解析画像を解析結果として生成し、出力する。
【0099】
図23は、付随情報の一例を示す図である。なお、
図23には理解の容易のため、ラベルも併記している。
図23に示す付随情報は、注視領域IDにて関連付けられる注視領域画像データの元になった肝病理画像を採取した患者に投与した抗癌剤と当該抗癌剤の効果(+は効果あり、−は効果なし)に関する情報を含むものである。学習データ生成装置10aの学習データ出力部13は、学習データに上記付随情報を添えてデータ処理装置20aに出力する。なお、
図23以降に示す抗癌剤A〜Dやその効果は、データ処理装置20aの動作を説明するための仮想的な事例(データ)である。
【0100】
図24は、第2の実施形態に係るデータ処理装置20aの内部構成の一例を示す図である。第1の実施形態に係るデータ処理装置20とデータ処理装置20aの相違点は、データ処理装置20aの各部が付随情報を扱えるように構成されている点と、解析部26を備える点と、生成された決定木による分類結果が解析部26に引き渡される点である。
【0101】
図25は、データ処理装置20aの決定木生成部23が生成する決定木による分類結果の一例を示す図である。
図25に示すように、決定木生成部23は、生成された決定木による各分類結果(各クラスラベル)それぞれに属する注視領域IDの一覧を、分類結果として解析部26に引き渡す。
図23と
図25を参照すると、注視領域IDにより各分類結果に属する注視領域画像データと、当該注視領域画像データを提供した患者に投与した抗癌剤の効果と、が関係づけられる。例えば、注視領域ID=1に対応する患者から取得した注視領域画像データは「G2a」のグレードに分類されると共に、当該患者に投与した抗癌剤のうち、少なくとも抗癌剤A、B、Dは有効であることが、
図23及び
図25から理解される。
【0102】
解析部26は、上記の情報(決定木、分類結果、付随情報)に基づき、決定木による分類結果それぞれが有する特徴を解析する手段である。例えば、解析部26は、分類結果それぞれに振り分けられた注視領域IDに対応する患者への各種抗癌剤の有効性を解析する。具体的には、解析部26は、以下の手順により抗癌剤の有効性を解析する。
【0103】
初めに、解析部26は、分類結果それぞれに含まれる注視領域IDを取得する。次に、解析部26は、付随情報を参照し、上記取得した注視領域IDごとの各抗癌剤の効果を取得する。その後、解析部26は、分類結果(グレード;クラスラベル)及び抗癌剤ごとに、抗癌剤が有効であることを示すデータの割合を計算し、その割合が閾値(例えば、50%以上;多数決)であれば、その抗癌剤は有効であると判定する。
【0104】
例えば、
図25の分類結果に示されたグレードG2aを例にとると、当該グレードには注視領域ID=1、2、3により特定される注視領域画像データが少なくとも含まれる。次に、
図23に示す付随情報を参照すると、注視領域ID=1、2、3に関する抗癌剤投与の結果が得られる。例えば、抗癌剤Aを例に取ると、3人の患者(注視領域ID=1〜3に対応する患者)のうち2人の患者に有効(+が2個存在)であるので、抗癌剤Aが有効であることを示すデータの割合は66.6%と計算される。従って、グレードG2aに属する注視領域IDから特定される患者に対し、抗癌剤Aは有効であると判定される。
【0105】
なお、解析部26が、抗癌剤の有効性を判断する際の閾値(上記の例では50%)は、全ての抗癌剤に共通するものであっても良いし、個別に閾値を設定してもよい。例えば、抗癌剤Aに対する有効性の判断を慎重にしたい場合には、閾値を高めに(例えば、80%等)に設定してもよい。あるいは、解析部26は、グレードごとの抗癌剤の有効性を算出した結果、当該抗癌剤が有効であることを示すデータが所定の範囲内(例えば、40%〜60%等の範囲)にある場合には、当該抗癌剤の効果は「不明」としてもよい。
【0106】
解析部26は、上記のような判定を、分類結果の各グレード及び抗癌剤ごとに実施し、
図26に示すような解析結果を得る。解析部26は、当該解析結果と決定木を出力部24に引き渡す。
【0107】
出力部24は、決定木と解析結果を用いて、決定木による各分類結果(グレード)に振り分けられた患者(注視領域IDにより関連付けられた患者の集合)に対する抗癌剤の有効性を示すデータを生成し、外部装置や表示デバイスに出力する。
【0108】
例えば、出力部24は、
図27に示すような画像データを生成し、外部に出力する。なお、
図27では、理解の容易のためグレードG2aとグレードG2bに関する抗癌剤の有効性に限り図示している。
図27を参照すると、同じグレードG2に振り分けられる患者であっても、G2aとG2bとでは、抗癌剤の有効性に顕著な相違が存在することが確認できる。
図27に示すような情報に接した医師等は、G2aのグレードに振り分けられる患者には抗癌剤Bが有効ではないこと、G2bに振り分けられる患者には抗癌剤Dが有効であること、等の所見を得ることができる。
【0109】
このように、データ処理装置20aに提供される付随情報が、注視領域IDに対応する患者に対する抗癌剤の有効性に関する結果である場合には、データ処理装置20aは、分類結果それぞれに含まれる注視領域IDに対応する患者への抗癌剤の有効性を示す解析結果を出力することができる。
【0110】
なお、データ処理装置20aによるデータの解析は、抗癌剤の有効性に限定されない。付随情報の内容を変更することで、他の解析を行うことも可能である。例えば、付随情報として、
図28に示される情報がデータ処理装置20aに入力されたものとする。
図28に示す付随情報は、注視領域IDにより関連付けられた患者に癌が再発した日数を含むものである。
【0111】
解析部26は、分類結果のグレードごとに、時間経過に伴う癌再発の確率を計算し、解析結果として算出する。具体的には、解析部26は、
図29に示すようなグラフに係るデータを解析結果として算出し、出力部24に引き渡す。
【0112】
図29を参照すると、「G1a」のグレードに振り分けられた患者は、採取されたサンプルの範囲内では癌再発の可能性がないことが分かる。また、「G2a」と「G2b」のグレードに振り分けられた患者の癌再発の傾向は、それぞれ異なることが分かる。具体的には、日数が1000日未満であれば、グレードG2aとG2bそれぞれに割り振られた患者の癌再発率に顕著な差はないが、日数が1000日を越えると両者の間の癌再発率に顕著な相違が認められる。
【0113】
このように、データ処理装置20aに提供される付随情報が、注視領域IDに対応する患者が癌を再発するまでの期間に関する情報である場合には、分類結果それぞれに含まれる注視領域IDに対応する患者の癌再発に関する傾向を解析結果として出力することができる。
【0114】
以上のように、第2の実施形態に係る病理画像処理システムでは、付随情報を解析することで、決定木による分類結果(グレード)それぞれに顕著な特徴を示す情報を、医師等に提供できる。
【0115】
なお、上記実施形態にて説明した病理画像処理システムの構成は例示であって、システムの構成を限定する趣旨ではない。例えば、データ処理装置20の機能の一部が学習データ生成装置10に組み込まれていてもよい。例えば、第1の実施形態にて説明したデータ処理装置20での特徴量の絞り込みの全部又は一部を学習データ生成装置10にて実行してもよい。あるいは、学習データ生成装置10に替えて、注視領域画像データから特徴量ベクトルを抽出する装置を用意すると共に、データ処理装置20にラベル情報を直接入力し、データ処理装置20の内部にて学習データを生成してもよい。あるいは、識別装置30の機能がデータ処理装置20に含まれていてもよい。この場合、
図30に示すように、データ処理装置20bは、決定木生成部23が生成する決定木を用いて、サンプルデータの予測を行う識別部27を備えることになる。また、入力部21は、サンプルデータを入力し、出力部24は識別結果を出力する。
【0116】
上記実施形態では、注視領域画像データのグレードをラベル情報として用いているが、ラベルは注視領域画像データ(細胞画像)のグレードに限定されるものではない。例えば、ラベルとして患者の癌再発に関する情報を用いてもよい。例えば、
図31に示すように、注視領域IDに対応する患者の癌再発情報(長期再発なし、早期再発)をラベルとして用いてもよい。この場合、第1の実施形態にて説明した特徴量の抽出、特徴量の絞り込み、決定木の作成により、注視領域画像データの細胞核が有する特徴(例えば、細胞核の大きさ、円形度等)を分岐条件とする癌再発に関する決定木(予測モデル)を得ることができる(
図20に相当する決定木を得ることができる)。また、第2の実施形態にて説明した方法と同じ手順により、当該ラベルと患者が癌を再発するまでの日数を付随情報とすることで、決定木の各分類結果に含まれる患者の癌再発までの傾向に関する情報を得ることができる(
図29に相当するグラフを得ることができる)。
【0117】
上記実施形態では、注視領域画像データから特徴量ベクトルを算出し、学習データを生成する学習データ生成装置を含むシステム構成(
図2、
図22)を説明したが、特徴量ベクトルの算出は学習データ生成装置(情報処理装置、コンピュータ)によるものに限定されない。例えば、医師等により算出された特徴量(特徴量ベクトル)を利用しても良いし、装置が算出した特徴量と医師等が算出した特徴量を組み合わせてもよい。即ち、データ処理装置20に提供される学習データには複数のサンプルそれぞれを特徴付ける特徴量ベクトルが含まれていれば、当該特徴量ベクトルの生成手法等はどのようなものであってもよい。
【0118】
また、識別装置30にて利用する決定木(識別規則)もデータ処理装置20が生成する決定木に限定されるものではない。即ち、上記実施形態にて説明した手法、手順により生成された決定木であれば、その生成主体は情報処理装置(コンピュータ)に限定されずどのようなものであってもよい。即ち、学習データ(細胞画像の識別子、ラベル、特徴量を含むデータ)を用意し、当該学習データから生成された決定木を用いることで、サンプルのグレーディングを行うことができる。
【0119】
上記実施形態では、12種類の特徴量を算出する場合について説明したが、算出する特徴量の種類を限定する趣旨ではない。例えば、細胞核領域のテクスチャを示す特徴量として、コントラスト(特徴量F9)や一様性(特徴量F10)を示したが、フーリエ変換やウェーブレット変換等によるテクスチャ解析により得られる特徴量を用いてもよい。
【0120】
上記実施形態では、特徴量ベクトル生成部12は、複数の特徴量の累積分布から得られるパーセンタイル値を、当該特徴量を代表する統計値として算出する場合について説明した。しかし、他の統計値を用いることができるのは当然である。例えば、複数の特徴量から得られる分散値、最頻値等の統計値を用いてもよい。また、データ処理装置20の特徴量選択部22は、同じ種類の特徴量から1つの特徴量(統計値)を選択する場合について説明したが、同じ種類の特徴量から複数の特徴量を選択してもよい。例えば、細胞核の大きさに関する特徴量の中間値(特徴量F1−3)と細胞核の大きさの分散値が選択されてもよい。
【0121】
また、学習データ生成装置10の特徴量ベクトル生成部12や、データ処理装置20の特徴量選択部22、決定木生成部23等の各部が行う処理は、これらの装置(学習データ生成装置10、データ処理装置20)に搭載されたコンピュータに、そのハードウェアを用いて、上述した各処理を実行させるコンピュータプログラムにより実現できる。つまり、上記各部が行う機能を何らかのハードウェア、及び/又は、ソフトウェアで実行する手段があればよい。
【0122】
さらに、コンピュータの記憶部に、コンピュータプログラムをインストールすることにより、コンピュータを学習データ生成装置10、データ処理装置20、識別装置30として機能させることができる。さらにまた、上述したコンピュータプログラムをコンピュータに実行させることにより、コンピュータにより学習データ生成方法、決定木生成方法、決定木による予測方法等を実行することができる。また、そのプログラムは、ネットワークを介してダウンロードするか、或いは、プログラムを記憶した記憶媒体を用いて、更新することができる。
【0123】
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
【0124】
[付記1]
上述の第1の視点に係るデータ処理装置のとおりである。
[付記2]
前記複数の特徴量のなかから、前記決定木生成部による決定木の生成に用いられる特徴量を選択する、特徴量選択部をさらに備える、付記1のデータ処理装置。
[付記3]
前記特徴量選択部は、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を繰り返すことで、前記決定木生成部による決定木の生成に用いられる特徴量の選択を行う、付記2のデータ処理装置。
[付記4]
前記入力部は、前記学習データと共に、前記細胞画像を識別する識別子により前記細胞画像に関連付けられた付随情報を入力し、
前記決定木生成部による決定木による分類結果それぞれが有する特徴を、前記付随情報に基づき解析する、解析部をさらに備える、付記1乃至3のいずれか一に記載のデータ処理装置。
[付記5]
前記解析部は、
前記付随情報が、前記細胞画像の識別子に対応する患者に対する抗癌剤の有効性に関する結果である場合には、前記分類結果それぞれに含まれる前記細胞画像の識別子に対応する患者への抗癌剤の有効性を解析結果として出力する、付記4のデータ処理装置。
[付記6]
前記解析部は、
前記付随情報が、前記細胞画像の識別子に対応する患者が癌を再発するまでの期間に関する情報である場合には、前記分類結果それぞれに含まれる前記細胞画像の識別子に対応する患者の癌再発に関する傾向を解析結果として出力する、付記4のデータ処理装置。
[付記7]
前記決定木生成部が生成する決定木には、前記細胞画像に含まれる細胞核の大きさ、円形度、一様性及びコントラストのうち少なくとも1つが分岐条件に含まれる、付記1乃至6のいずれか一に記載のデータ処理装置。
[付記8]
前記決定木生成部が生成する決定木は、ルートノードからの最初の分岐条件に、前記細胞画像に含まれる細胞核の円形度を含む、付記1乃至7のいずれか一に記載のデータ処理装置。
[付記9]
前記細胞画像は、肝細胞から得られる画像であり、前記細胞画像に与えられたラベルは前記肝細胞の癌に関するグレード又は患者の癌再発に関する情報である、付記1乃至8のいずれか一に記載のデータ処理装置。
[付記10]
上述の第2の視点に係る決定木生成方法のとおりである。
[付記11]
上述の第3の視点に係る識別装置のとおりである。
[付記12]
上述の第4の視点に係るプログラムのとおりである。
なお、付記10〜12の形態は、付記1の形態と同様に、付記2の形態〜付記9の形態に展開することが可能である。
【0125】
なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。