(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-20
(45)【発行日】2023-12-28
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231221BHJP
【FI】
G06T7/00 614
G06T7/00 350B
(21)【出願番号】P 2019142515
(22)【出願日】2019-08-01
【審査請求日】2022-07-26
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100223941
【氏名又は名称】高橋 佳子
(74)【代理人】
【識別番号】100159695
【氏名又は名称】中辻 七朗
(74)【代理人】
【識別番号】100172476
【氏名又は名称】冨田 一史
(74)【代理人】
【識別番号】100126974
【氏名又は名称】大朋 靖尚
(72)【発明者】
【氏名】植田 竜太
【審査官】大塚 俊範
(56)【参考文献】
【文献】特開2001-083986(JP,A)
【文献】特開2019-045929(JP,A)
【文献】米国特許出願公開第2017/0053211(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
医用データをクラス分類する第一の分類器を用いて、正解ラベルが付与された医用データに対するクラス尤度を取得する尤度取得部と、
前記尤度取得部により取得した前記クラス尤度と、前記正解ラベルに対応するクラスとに基づいて乖離の程度を評価する分類結果の評価部と、
前記分類結果の評価部による前記乖離の程度が所定の基準を満たすか否かを判定する判定部と、
前記判定部により所定の基準を満たすと判定された
前記乖離の程度が所定の基準以上の医用データを教師データとした第二の分類器の学習をする分類器の学習部と、
を有し、
前記判定部により所定の基準を満たさないと判定された前記乖離の程度が所定の基準よりも小さい医用データを、前記所定の基準を満たさないと判定された医用データを分類した分類器に対応する分類データとして記憶することを特徴とする情報処理装置。
【請求項2】
前記教師データにより学習された第二の分類器を、前記医用データをクラス分類する
前記第一の分類器とし、前記所定の基準を満たすと判定された
前記乖離の程度が所定の基準以上の医用データを前記医用データとして、前記尤度取得部、
前記分類結果の評価部、
前記判定部、
前記学習部の処理を繰り返し実行できる制御部を有することを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記繰り返しにより、複数の分類器と、前記複数の分類器のそれぞれに対応する複数の分類データと、を有することを特徴とする請求項
2に記載の情報処理装置。
【請求項4】
前記複数の分類器のそれぞれをラベルとして付与した分類データを教師データとして学習した分類器を用いて、分類対象の医用データを評価する分類対象の医用データ評価部を有することを特徴とする請求項
3に記載の情報処理装置。
【請求項5】
前記分類対象の医用データ評価部による評価結果を通知する通知部を有することを特徴とする請求項
4に記載の情報処理装置。
【請求項6】
前記分類対象の医用データ評価部における分類器は、前記複数の分類器に対応するクラスへの分類結果を尤度で算出することを特徴とする請求項
4に記載の情報処理装置。
【請求項7】
前記分類対象の医用データ評価部による評価結果に基づいて前記複数の分類器のうち、前記分類対象の医用データを分類する分類器を設定する分類器の設定部を有することを特徴とする請求項
6に記載の情報処理装置。
【請求項8】
前記分類器の設定部は、前記尤度が最も高い分類器を、前記分類対象の医用データを分類する分類器として設定することを特徴とする請求項
7に記載の情報処理装置。
【請求項9】
前記分類器の設定部は、前記尤度が閾値を超える分類器を、前記分類対象の医用データを分類する分類器として設定をすることを特徴とする請求項
7または
8に記載の情報処理装置。
【請求項10】
前記分類器の設定部により設定された分類器を示す情報と、前記分類器による分類結果を通知する通知部を有することを特徴とする請求項
7乃至
9のいずれか一項に記載の情報処理装置。
【請求項11】
前記繰り返しは、分類器を学習する教師データの数が所定以下と判定、分類器の分類精度が所定以下と判定、過学習の判定、未学習の判定、ユーザの指定回数を超えると判定、のうちいずれかの判定処理が行われた際に繰り返しを終了することを特徴とする請求項
2または
3に記載の情報処理装置。
【請求項12】
医用データをクラス分類する第1の分類器を用いて、正解ラベルが付与された医用データに対するクラス尤度を取得する尤度取得ステップと、
前記クラス尤度と、前記正解ラベルに対応するクラスとに基づいて乖離の程度を評価する分類結果の評価ステップと、
前記乖離
の程度が所定の基準を満たすか否かを判定する判定ステップと、
前記所定の基準を満たすと判定された場合に、所定の基準を満たすと判定された
前記乖離の程度が所定の基準以上の医用データを教師データとした第2の分類器の学習をする分類器の学習ステップと、
前記所定の基準を満たさないと判定された場合に、所定の基準を満たさないと判定された前記乖離の程度が所定の基準より小さい医用データを、前記所定の基準を満たさないと判定された医用データを分類した分類器に対応する分類データとして記憶するステップと、を有することを特徴とする情報処理方法。
【請求項13】
前記教師データにより学習された第2の分類器を、前記医用データをクラス分類する分類器とし、前記所定の基準を満たすと判定された医用データを前記医用データとして、前記尤度取得ステップ、
前記分類結果の評価ステップ、
前記判定ステップ、
前記学習ステップの処理を繰り返し実行できる制御ステップを有することを特徴とする請求項1
2に記載の情報処理方法。
【請求項14】
請求項
12または請求項13に記載の情報処理方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、正解ラベルが付与された医用データに対する分類器の分類結果に基づいて当該分類器と異なる分類器を学習する情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
医用画像を解析し、医師に読影の助けとなる情報を提示するコンピュータ支援診断(Computer Aided Diagnosis:CAD)システムが知られている。医用画像から鑑別診断の候補となる診断名を分類し提示するCADシステムには、医用データと正解の診断名(正解ラベル)を対とした教師データを用いて分類器に機械学習をさせることにより実現されるものがある。
【0003】
特許文献1で開示されたCADシステムは、機械学習に基づく異常陰影等の異常検出処理システムによる病変検出等の支援結果と、当該支援結果を医師が訂正した後の訂正結果と、を対応付けて保存し、支援処理の性能の定量評価を行う。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1における技術では、単一の分類器の分類結果に対する訂正情報を基に分類器の性能を評価することはできる。一方で、正解ラベルが付与された医用データに対する分類器の分類結果に基づいて当該分類器と異なる分類器を学習することは開示されていない。
【課題を解決するための手段】
【0006】
本発明に係る情報処理装置は、以下の構成を備える。すなわち、
医用データをクラス分類する第一の分類器を用いて、正解ラベルが付与された医用データに対するクラス尤度を取得する尤度取得部と、尤度取得部により取得したクラス尤度と、正解ラベルに対応するクラスとに基づいて乖離の程度を評価する分類結果の評価部と、分類結果の評価部による乖離の程度が所定の基準を満たすか否かを判定する判定部と、
判定部により所定の基準を満たすと判定された医用データを教師データとした第二の分類器の学習をする分類器の学習部と、を備える。
【発明の効果】
【0007】
本発明によれば、正解ラベルが付与された医用データに対する分類器の分類結果に基づいて当該分類器と異なる分類器を学習することが可能となる。
【図面の簡単な説明】
【0008】
【
図1】実施形態1乃至4の情報処理装置を含む情報処理システムのシステム構成図
【
図2】実施形態1乃至4の情報処理装置のハードウェア構成図
【
図3】実施形態1乃至4の医用画像DBの構成を示す概念図
【
図5】情報処理装置の分類対象の医用データ評価フロー図
【
図10】実施形態2の情報処理装置の機能ブロック図
【
図12】実施形態2の情報処理装置の処理のフロー図
【
図16】実施形態4の情報処置装置の機能ブロック図
【
図17】実施形態4の情報処理装置の処理のフロー図
【発明を実施するための形態】
【0009】
以下、添付の図面を参照して、本発明の実施形態に基づいて発明の詳細を説明する。尚、特に断らない限り、他の実施形態等で説明した項目については、同一の番号を付し、その説明を省略するものとする。また、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
【実施例】
【0010】
<実施形態1>
実施形態1では、胸部X線CT(Computed Tomography)画像上の肺結節影に対する診断名の分類を行うCADシステムである情報処理装置について説明する。本実施形態の情報処理装置は、分類器による分類の尤度と正解との乖離の程度を評価し、当該乖離の程度に基づいて判定したデータと、処理対象となるデータとの類似性を評価し、結果をユーザに通知する。ユーザは、当該通知に基づき、処理を続けるか否かを選択できる。
【0011】
(システム構成)
図1は、本実施形態の情報処理装置を含む情報処理システムのシステム構成図である。
【0012】
図1において、情報処理システムは、医用画像データベース(以降、医用画像DBと呼ぶ)102、情報処理装置101、LAN(Local Area Network)103から構成される。
【0013】
医用画像DB 102は、CT装置など医用画像の撮像装置で撮影された医用画像と、その医用画像の診断名とを含む医用データを記憶する。また、医用データを、LAN 103を介して検索、取得するための既知のデータベース機能を提供する。医用画像DB 102に記憶される医用データの構成については
図3を用いて説明する。
【0014】
(ハードウェア構成)
図2は、本実施形態の情報処理装置101のハードウェア構成図である。
【0015】
図2において、記憶媒体201は、OS(Operating System)や本実施形態に係る各種処理を行うための処理プログラム、各種情報を記憶するHDD(Hard Disk Drive)等の記憶媒体である。ROM(Read Only Memory)202はBIOS(Basic Input Output System)等、ハードウェアを初期化しOSを起動するためのプログラムを記憶する。CPU(Central Processing Unit)203はBIOSやOS、処理プログラムを実行する際の演算処理を行う。RAM(Random Access Memory)204は、CPU 203がプログラムを実行する際の情報を一時記憶する。LANインタフェース205は、IEEE(Institute of Electrical and Electronics Engineers)802.3ab等の規格に対応し、LAN 103を介して通信を行うためのインタフェースである。207は表示画面を表示するディプレイであり、206はディスプレイ207に表示する画面情報を信号に変換し出力するディスプレイインタフェースである。209はキー入力を行うキーボード、210は画面上の座標位置を指定及びボタン操作の入力を行うマウス、208はキーボード209及びマウス210からの信号を受信するための入力インタフェースである。211は、各ブロックが通信を行うための内部バスである。
【0016】
(医用データの構成)
図3は、医用画像DB 102に記憶される医用データの構成を示す概念図である。
【0017】
図3において、医用画像DB 102に記憶される医用データは、第1の医用データセット310と分類対象の医用データセット320から構成される。第1の医用データセット310は分類器の検証に用いる医用データセットである。第1の医用データセット310は複数の第1の医用データ311-j(j=1,...,N1)を含み構成され、第1の医用データ311-j(j=1,...,N1)はそれぞれ患者情報301、診断名302、画像303等の情報から構成される。ここで、患者情報301は、患者ID、患者の氏名、年齢、性別など、患者に関する情報である。診断名302は、画像303に関する診断名であり、例えば本実施形態のおいては「原発」、「転移」、「良性」の3種類である。ここで、「原発」とは原発性肺癌、「転移」とは転移性肺癌、「良性」とは良性結節を指す。画像303は、CT画像から抽出した、肺結節を含む三次元の部分領域画像である。分類対象の医用データセット320は情報処理装置101によって分類を行う医用データセットである。分類対象の医用データセット320は複数の分類対象の医用データ321-j(j=1,...,N3)を含み構成され、分類対象の医用データ321-j(j=1,...,N3)は、患者情報301、シリーズ画像304から構成される。ここで、シリーズ画像304は、CT装置によって1回の撮影で得られる画像であり、複数の断面の画像(以降、スライス画像と呼ぶ)から構成される。
【0018】
尚、診断名302は、「悪性」、「良性」であっても、原発、転移、良性を更に細分化した診断名でもよい。また、画像303は、CT画像と肺結節を含む三次元の部分領域を示す座標情報との組み合わせでもよい。尚、第1の医用データ311-i、第3の医用データ321-iには上述した以外の情報を含んでいてもよい。
【0019】
図4および
図5は情報処理装置101が分類対象のデータ(入力データ)を評価し、通知をするまでの構成を簡便に示した図である。ここでは、まず
図4を用いて、第1の医用データセット310に基づいて分類対象の医用データを評価するための分類データセットを作成する構成について説明する。次に
図5で作成された分類データセットに基づいて分類対象の医用データセットを評価する構成(
図5)の説明をする。
【0020】
図4は、分類対象の医用データを評価するための分類データセット及び分類器を作成するフローについて示している。分類データセットを生成するにあたって、ここでは開始条件としてiに1が設定されているものとして説明する。ここで、少なくとも一つの分類器が学習済みで存在するものとする。もしくは、学習済みの分類器が存在しなかった場合には第1の医用データセットを学習した分類器を設ける。このような前提条件のもとにフローを説明する。
【0021】
まず、第iの医用データ取得部401が医用DB 102より第iの医用データを取得する。第iのデータはi=1の場合には、第1の医用データセットである。つまり第iの医用データ取得部401により、第1の医用データセット310が取得される。第iの医用データ取得部401により取得された医用データは第iの分類器402に送信され、第i(第1)の分類器によって診断名の分類を尤度で算出する。分類器に関する説明は、後述する。
【0022】
次に、第iの分類器402による分類結果を受けて、分類結果の評価部403により分類結果と、正解との乖離の程度を評価する。評価方法についても後述する。正解との乖離が所定の基準以上かどうかを判定し、第iの医用データから第i+1の医用データの生成を行う。尚、第i分類器に対し、乖離が所定の基準を満たさないデータを第iの分類データとして記憶する。分類データは即ち第iの分類器において、分類と正解との乖離の程度が所定の基準よりも小さい(所定の基準を満たさない)、分類器にとって精度よく分類できるデータ群となる。
【0023】
一方で、乖離の程度が所定の基準よりも大きい(所定の基準を満たす)医用データである第i+1の医用データを第i+1の分類器の学習部404に送信する。第i+1の医用データを基に第i+1の学習部は第i+1のデータに対応する診断名302をクラス(ラベル)として、学習を行う。そしてiにi+1を代入して401からのフローを再度実行する。本構成により、乖離の程度が所定の基準以上のデータを再帰的に評価、分類データセットを作成し、作成された分類データセットと入力データとを比較することにより、
図5で説明をする分類対象のデータ(入力データ)に対して評価が可能となる。
【0024】
なお、本フローにおいては終了条件を明記してないが、例えば学習データ数が一定以下になった場合に処理を終了してもよいし、精度が一定以下になった場合や、モデル構造に対して学習データが不足すると判定された際に本フローを終了する終了条件としてもよい。また過学習や未学習の判定がなされた場合を終了条件としてもよいし、ユーザが決めた所定回数のみ実施しても、医用データセットのデータ数や、データの分散によって終了条件が設定されてもよい。
【0025】
次に
図5を用いて、分類対象の医用データセット320を入力した際に情報処理装置101が行うフローについて説明をする。まず、分類対象の医用データ取得部501によって医用DB102より分類対象の医用データセット320を取得する。そして取得した分類対象の医用データ320を分類対象の医用データ評価部502に送信する。分類対象の医用データ評価部502は、入力された分類対象の医用データセット320と、分類データセットとの類似性を評価する。すなわち分類器のそれぞれに対応する精度よく分類できるデータの集合である分類データセットに対して、分類対象の医用データセット320の類似性が一定以上かどうかを評価する。そして評価結果を通知部503に送信し、受診した評価結果に基づいて通知部503が通知をする。分類器の分類データとの類似性の評価方法についても後述する。
【0026】
以下
図4および
図5のフローを実施するための機能を示した機能ブロック図(
図6)を用いて述べる。
【0027】
(機能ブロック)
図6は、本実施形態の情報処理装置101の機能ブロック図である。
【0028】
図6において、情報処理装置101は、
図4および
図5に記載の機能ブロックに加えて、分類器による分類結果として尤度を取得する尤度取得部601、乖離の程度が所定の基準を超える医用データを判定する判定部602、判定部602により所定の基準を超えると判定されたデータである第i+1の医用データセット603、判定部602により所定の基準を超えないと判定された医用データを第iの分類器における分類データとして記憶をする医用画像DB102における分類データセット620から構成される。以下より各部の機能について述べる。
【0029】
ここでは、
図4と、
図5のフローに則って分類対象の医用データセット320を評価するための分類データセット620を作成するフローと、作成された分類データセット620に基づいて分類対象の医用データセット320を評価するフローとに分けて説明をする。
【0030】
(分類データセット620を作成するフロー)
第iの医用データ取得部401は、医用画像DB102より医用データを取得する。i=1の場合には、例えば第1の医用データセット310を取得する。そして取得した医用データセットを尤度取得部601に送信する。
【0031】
第iの分類器402(第1の分類器)は、i=1の場合には、例えば第1の医用データを構成する画像303における肺結節の部分領域画像が入力されると診断名(クラス)に分類する。第iの分類器402(第1の分類器)は診断名の分類結果として、入力された画像がどのクラスに分類されるかを尤度で出力する。すなわち、分類器404による分類結果として、「原発」である尤度、「転移」である尤度、「良性」である尤度を出力する。具体的には、分類器401は、第iの医用データセット310を用いて機械学習したCNN(Convolutional Neural Network)である。
【0032】
尤度取得部601は、第iの医用データ取得部より取得した第1の医用データセット310を構成する画像303を、第iの分類器402(第1の分類器)へ入力し、第iの分類器402による分類結果である分類の尤度を取得する。具体的には、第iの分類器402による分類結果はCNNの最終層からの出力であり、「原発」、「転移」、「良性」に対応する3つのノードの出力値にSoftmaxと呼ばれる演算を施した値を取得する。
【0033】
分類結果の評価部403は、i=1の場合には、尤度取得部601で取得した第1の医用データセット310のおける第1の医用データ311-j(j=1,...,N1)に対するクラスへの分類の尤度と正解との乖離の程度を評価する。例えば、正解ラベルに対応するクラスである正解クラスへの尤度と、所定の値との差を比較する。具体的には、分類結果の評価部403は正解に該当するクラスについては、分類器401の分類結果のうち正解クラスへの尤度と1.0の差の絶対値を算出する。そして正解クラス以外のクラス分類について、第1の評価部403は、正解クラスへの尤度を除いたクラスの内、最も高い尤度を持つクラスの尤度と0.0の差の絶対値を算出し、正解クラスへの尤度差と、正解クラス以外への尤度差の和をとって評価値とする。例えば、診断名が「原発」の場合のクラスの正解を(1.0,0.0,0.0)と表記し、また、分類結果において「原発」である尤度が0.8、「転移」である尤度が0.2、「良性」である尤度が0.0を(0.8,0.2,0.0)と表記するとする。判定部602が分類結果に基づいて尤度(0.8,0.2,0.0)と正解(1.0,0.0,0.0)との乖離を評価すると、|0.8-1.0|+|0.2-0.0|=0.4となる。同様に、尤度が(0.8,0.1,0.1)の場合の乖離は0.3となる。また、尤度(0.6,0.4,0.0)の場合は0.8、尤度(0.6,0.2,0.2)の場合は0.6となる。従って、分類結果が正解と一致する「原発」であっても、「原発」に対する尤度が低く、「原発」以外で最も高い尤度が高い場合には乖離が大きくなる。同様に、尤度(0.3,0.7,0.0)の場合は1.4、尤度(0.3,0.35,0.35)の場合は1.05、尤度(0.1,0.9,0.0)の場合は1.8、尤度(0.1,0.45,0.45)の場合は1.35となる。従って、分類結果が正解の「原発」と異なる場合であっても、「原発」に対する尤度が高く、「原発」以外で最も高い尤度が低い場合には乖離が小さくなる。すなわち、本実施形態で評価する乖離は、単なる正解率や正解と分類する尤度とは異なり、正解の程度と不正解の程度を総合している。尚、分類結果の評価部403による評価値は、本形態のみに限定されず、例えば、第iの分類器402による正解クラスと、1.0との差の絶対値に、正解クラス以外のクラスの尤度と0.0の差を加算した値を評価値として算出してもよい。つまり、分類結果の評価部403によって算出される評価値はあくまで、正解と、第iの分類器402による分類結果との乖離の程度を評価できれば形態は問わない。
【0034】
判定部602は、分類結果の評価部403の評価結果に基づいて、第1の医用データセット310(i=1の場合)の第1の医用データ311-j(i=1,...,N1)から、所定の基準を満たすかを判定し、所定の基準を満たす医用データである第i+1の医用データセット603を取得する。i=1の場合においては、所定の基準を満たすと判定された医用データセットは第二の医用データセットとなる。ここで、所定の基準とは予め定義された固定値であり、例えば、前記乖離の値が1.2以上である。この場合、正解が「原発」で分類結果が異なるデータであっても、尤度が(0.3,0.35,0.35)や(0.25,0.375,0.375)となるデータは乖離が各々1.05、1.125となるため所定の基準を満たすデータセットである第2の医用データセット603とは判定されない。他方で、尤度が(0.3,0.5,0.2)のデータの場合は乖離が1.2、尤度が(0.25,0.45,0.3)のデータの場合も乖離が1.2となるため所定の基準を満たす医用データセットである第2の医用データセット603のデータとなる。なお所定の基準を設定する設定部(不図示)が別途設けられてもよいし、ユーザによってGUI等を介して所定の基準値の入力を受け付けてもよい。また判定部602が、分類結果の評価部403による評価結果に基づいて所定の基準を満たさないと判定をしたデータを第iの分類器における分類データ620として記憶部(医用画像DB 102)に対応付けて記憶をする。所定の基準を満たさないと判定された医用データとは例えば、乖離の値が1.2未満のデータである。判定部403により、分類器による分類結果と、正解との乖離が所定の基準未満であるデータを所定の基準を満たさないと判定された医用データを指す。判定部403は、所定の基準か満たすか否かを判定する。所定の基準とは例えば閾値であり、所定の基準を満たすとは、ここでは乖離の程度が閾値を超える医用データ、所定の基準を満たさないとは、ここでは乖離の程度が閾値を超えない医用データを指す。
【0035】
即ち、判定部403により所定の基準を満たさないと判定された医用データを、所定の基準を満たさないと判定された医用データを分類した分類器に対応する分類データとすることを特徴とする。ここで、分類データと分類データを構成する医用データを分類した分類器が対応付けられて医用画像DBに記憶される。
【0036】
第i+1の分類器の学習部404(i=1の場合は第2の分類器)は、判定部602により判定された第i+1の医用データセット603と診断名を対にした教師データを用いて第i+1の分類器の学習を行う。第i+1の分類器も同様に分類対象の画像を入力されると診断名を尤度で算出する構成となる。即ち、情報処理装置101は、医用データをクラス分類する第iの分類器402を用いて、正解ラベルが付与された医用データに対応するクラス尤度を取得する尤度取得部601と、尤度取得部601により取得したクラス尤度と、正解ラベルに対応するクラスとに基づいて乖離の程度を評価する分類結果の評価部403を有する。また、分類結果の評価部403による乖離が所定の基準を満たすか否かを判定する判定部602と、判定部602により所定の基準を満たすと判定された医用データを教師データとした第i+1の分類器の学習する第i+1の分類器の学習部を有することを特徴とする。
【0037】
ここまでのフローが終了すると、前述した終了条件等により終了判定がされない場合は、iにi+1を代入することで、上記のフローを繰り返す。すなわち、情報処理装置101は、教師データにより学習された第i+1の分類器を、医用データをクラス分類する分類器(第iの分類器402)とし、所定の基準を満たすと判定された医用データを対象にして、尤度取得部601、分類結果の評価部403、判定部602、学習部404の処理を繰り返し実行できる制御部(CPU 203)を有することを特徴とする。繰り返し処理により、情報処理装置101は、複数の分類器と、複数の分類器のそれぞれに対応する分類データを記憶部(医用DB 102)に記憶する。
【0038】
尚、分類器の作成および分類データの作成フローの繰り返しは、上述した終了条件のいずれかにより規定されてもよい。例えば、フローの繰り返しにより分類器を学習する学習データが減少することがある。教師データの減少は分類器の精度低下の原因となるため教師データの数が分類器のモデル構造等に対して所定の数以下になった場合には、繰り返しフローの終了条件とする。もしくは分類器の分類精度が所定未満になった場合において終了してもよい。もしくは、分類器への教師データの偏在や、数、学習回数により引き起こされる、過学習や、未学習が判定された場合に繰り返しの終了条件としてもよい。もちろんユーザが規定した回数のみ繰り返しフローを実行する構成でもよい。すなわち、情報処理装置101は、分類器を学習する教師データの数が所定以下と判定、分類器の分類精度が所定以下と判定、過学習の判定、未学習の判定、ユーザによる指定回数を超えると判定のうちのいずれかの判定処理が行われた際に繰り返しを終了することを特徴とする。
【0039】
以下より作成された情報処理装置101を構成する複数の分類器と、複数の分類器のそれぞれに対応する分類データセット620とに基づいて、分類対象の医用データセット320が入力される場合の処理について説明する。
【0040】
(分類対象の医用データセット320を評価するフロー)
分類対象の医用データ取得部501は、分類対象の医用データセット320を医用画像DB102より取得する。分類対象の医用データ取得部501は、取得した分類対象の医用データセット320を分類対象の医用データ評価部502に送信する。
【0041】
分類対象の医用データ評価部502は、分類データセット620と分類対象の医用データセット320のシリーズ画像304から抽出された肺結節の部分領域画像との類似性を評価する。即ち、分類対象の医用データ評価部502は、分類データ620と分類対象の医用データセット320との類似性を評価することを特徴とする。
【0042】
肺結節の部分領域画像は、
図7で説明する表示画面上での操作に基づき抽出される。類似性は、上記分類データ作成フローで作成された分類データに、分類データに対応付けられた分類器をクラス(ラベル)として付与し、機械学習した分類器(分類対象医用データを分類する分類器)により評価をする。分類対象医用データを分類する分類器は例えばCNNである。CNNから出力される尤度を類似性とする(以降、類似度と呼ぶ)。即ち情報処理装置101は、複数の分類器のそれぞれをラベルとして付与した分類データを教師データとして学習をした分類器を用いて、分類対象の医用データを評価する分類対象の医用データ評価部502を有する。また分類対象の医用データ評価部502は、分類結果を尤度で算出する。
【0043】
通知部503は、分類対象の医用データ評価部502による評価結果に基づく情報を通知する。具体的には、各分類器に対応する分類データとの類似度を表示画面に表示する。表示画面については
図7を用いて説明する。
【0044】
(表示画面)
図7は、本実施形態の情報処理装置101の表示画面の一例を示す図である。
【0045】
図7において、表示画面700は、ディスプレイ207に表示されるユーザインタフェース画面である。表示画面700は、患者情報表示領域701、画像表示領域702、診断支援ボタン704から構成される。また、
図7において、703は肺結節部分領域、通知領域705は通知部503により表示される通知領域である。
【0046】
患者情報表示領域701には、分類対象の医用データ321-j(j=1,...,N3)の患者情報301の情報を表示する。
図7では、患者氏名が「下丸子 太郎」、患者IDが「pat0123456」、年齢が「75歳」、性別が「男」の場合の表示例を示している。
【0047】
画像表示領域702には、分類対象の医用データ321-j(j=1,...,N3)のシリーズ画像304を表示する。画像表示領域702では、表示するシリーズ画像のスライス送りやWL(Window Level)/WW(Window Width)と呼ばれる階調表示条件の変更など表示の変更ができる。
【0048】
肺結節部分領域703の指定は例えばユーザが画像表示領域702でマウスをドラッグする操作により行われ、マウスのクリックで解除される。ドラッグに合わせて結節部分領域703がスライス画像上に表示され、表示中のスライス画像を中心として、同じ奥行きを持つ3次元領域(立方体)が指定される。尚、部分領域の指定は、ユーザの操作によってのみ指定されるものに限定されず、例えば他の画像処理手段では部分領域の指定が行われてもよいし、画像領域中から部分領域を抽出するように設計された機械学習に基づくモデルにより指定されても構わない。
【0049】
診断支援ボタン704は、肺結節部分領域703の画像から診断名の分類を行うためのボタンであり、診断支援ボタン704をマウスでクリックすると、情報処理装置101は肺結節部分領域703の画像を抽出し、抽出した画像から診断名の分類を行う。
【0050】
通知領域705は、肺結節部分領域703の画像と、分類器に対応付けられた分類データセット620との類似性に基づく情報が表示される。具体的には、ポップアップ表示されるウインドウであり、類似度を表示すると共に、処理を実施するか中止するかを指定するボタンを備える。
【0051】
(処理フロー)
図8は、本実施形態の情報処理装置101の処理のフロー図である。
【0052】
本処理は、情報処理装置101の起動後に、ユーザからの指示に基づき実行される。ユーザは処理の実行を指示する際に、処理の対象とする分類対象の医用データ321-j(j=1,...,N3)を指定する。
【0053】
ステップS801で、第iの医用データ取得部401は医用画像DB 102より第iの医用データセット310を読みだす。
【0054】
尤度取得部601は、ステップS601で読み出した第iの医用データセット310を構成する画像303を第iの分類器402に入力し、第iの分類器402からの分類結果としてクラス(診断名)への分類の尤度を取得する。
【0055】
ステップS803で、分類結果の評価部403は、尤度取得部601で取得したクラスへの分類の尤度と第iの医用データセット310の診断名302に基づき、クラスへの分類の尤度と正解の乖離の程度を評価する。
【0056】
ステップS804で、判定部404は、第1の評価部403で評価した乖離の程度が所定の基準を満たすかを判定し、第iの医用データセット310の第1の医用データ311-j(j=1,...,N1)が第i+1の医用データセット603のデータであるか否を判定する。乖離の程度が所定の基準を超える場合には、第i+1の医用データセット603であるとし、所定の基準を超えない場合には、第iの分類器402における分類データセット620として医用画像DBに記憶をする。正解ラベルと分類結果との乖離の程度が所定の基準を超えるとは、ここでは両者の乖離の程度が所定の閾値を上回る場合を指す。また所定の基準を超えないとは、ここでは正解ラベルと分類結果との乖離の程度が所定の閾値を超えない場合を指す。
【0057】
ステップS805で、第i+1の分類器の学習部404は、診断名302を正解ラベル(クラス)として第i+1の分類器の機械学習を行う。即ち、第i+1の医用データを学習データとし、診断名をクラスとして分類をする第i+1の分類器が生成される。
【0058】
ステップS806で、i+1をiに代入して、iの値を更新する。
【0059】
ステップS807は、分類器生成の終了判定を行う。終了判定は上述の他にも例えば学習データ数が一定以下になった場合に処理を終了してもよいし、精度が一定以下になった場合や、モデル構造に対して学習データが不足すると判定された際に本フローを終了する条件としてもよい。また過学習や未学習の判定がなされた場合を終了条件としてもよいし、ユーザが決めた所定回数のみ実施しても、医用データセットのデータ数や、データの分散によって終了条件が設定されてもよい。終了条件を満たさない場合に、ステップS801から再度分類器の学習フローを繰り返す。終了条件が満たされた場合に、次のステップS807に移る。ここでまでが上述の
図4の処理である分類データの作成フローに該当する。ここから作成された分類対象の医用データセット320を評価するフロー(
図5)に対応するステップについて説明をする。なおステップS801~ステップS807までのフローは分類器を学習・作成するフローであって、異なる情報処理装置もしくは、同一の情報処理装置において既に学習済みの分類器が存在する場合においては、本フローは省略されても構わない。
【0060】
ステップS808において、分類対象の医用データ取得部501は、医用画像DB102より分類対象の医用データセット320を取得し、分類対象データの読み出しを行う。ユーザインタフェース制御部(CPU 203)は、ステップS808で、本処理の実行時に指定された分類対象の医用データ321-j(j=1,...,N3)を読み出し、ステップS809で、
図7に一例を示した表示画面700を表示する。また、ステップS810では、ユーザによる操作に基づき指定された肺結節部分領域703の画像を抽出する。
【0061】
ステップS811で、分類対象の医用データ評価部502は、ステップS810で抽出した画像と分類データセット620の画像との類似性を評価する。分類対象の医用データ評価部502は、分類データに対応付けられた分類器をクラス(ラベル)として付与し、機械学習した分類器(分類対象医用データを分類する分類器)による分類結果に基づいて評価をする。
【0062】
ステップS812で、通知部503は、ステップS811での評価結果に基づき、表示画面700上に通知領域705を表示する。尚、通知領域705は、ステップS811での評価結果が所定の値を超える場合のみ通知部503によって表示されてもよい。
【0063】
以上説明したように、本実施形態によれば、情報処理装置101は分類結果の評価部403において第iの分類器による分類の尤度と正解との乖離の程度を評価し、当該乖離に基づいて判定部602が判定した分類データと、分類対象となるデータとの類似性を分類対象の医用データ評価部502が評価し、通知部503を介して評価結果をユーザに通知する。本発明は、分類対象に対して複数の分類器を設け、複数の分類器に対応する分類データセット620と比較をする構成をとる。この構成により、例えば入力データの分散により一つの分類器では、学習データから該医用データの分類を行うための特徴が十分に学習できない場合においても複数の分類器を設けることで適切な入力データの評価が可能となる。また、例えば教師データに誤ってラベリングがなされたデータを教師データから分離して、異なる分類器への教師データ(分類データ)もしくは、医用データとしてプールすることができる。複数の分類器に対応する分類データのいずれとも所定の基準を満たす類似性が確認できない場合に、分類器を学習する際の学習データに分類対象の医用データを分類するための特徴を含むデータが含まれていないと評価することができる。故に、本発明の課題である分類器の分類結果に基づいて入力データを適切に評価することが可能となる。
【0064】
また本実施形態は分類対象の医用データ評価部502による評価結果を、通知部503を介してユーザに認識させることができる。通知部503による当該通知により、ユーザは分類処理を実行するか否かを判断することができる。また分類対象となるデータが、情報処理装置101に設けられた分類器において、分類データとの類似性が低い場合において、ユーザは、分類器による分類結果が信頼性に欠けるものであるということを予め認知することができる。さらにユーザは分類結果が信頼性に欠けると予想される分類処理の中止をあらかじめ選択することが可能となる。尚、複数の分類器は単一の情報処理装置101に備わっていても、複数の情報処理装置に備わっていても、複数の情報処理装置間で構築された仮想環境において分類処理が行われてもよい。
【0065】
(変形例1-1)
本実施形態における分類器の作成フローは、フローの回数を重ねるたびに分類データや第i+1の医用データセットにおけるデータの数や、クラスの数が減少することが予想される。そのため、複数回フローによって作成された分類器に対応する分類データセットへの尤度が、その分類器よりもフロー数の少ない分類器に対応する分類データセットよりも大きい場合においても同様の基準において乖離が判定されることが好ましくない場合がある。当該場合においては、例えば、フローの回数が増えるに伴って、判定部602による基準を大きく設定したり、分類処理を実行するための閾値を高く設定したりしてもよい。尚、本変形例1-1の骨子は、ユーザに入力データへの評価を認知させることであって、例えば、判定の基準を変えなくとも、尤度の高い分類器を作成するために実施されたフロー回数を通知しても、分類器を学習したデータの数を通知してもよい。もしくは両者を組み合わせてもよい。
【0066】
(変形例1-2)
実施形態1の分類結果の評価部403は、第iの分類器402による分類結果と正解との乖離の程度を、正解のクラスに該当するクラスについては、正解クラスへの分類の尤度と1.0の差の絶対値を算出する。さらに正解以外のクラスへの分類について、正解以外のクラスの内、最も高い尤度を持つクラスの尤度と0.0の差の絶対値を算出し、正解クラスへの尤度差と、正解クラス以外への尤度差の和を算出することにより評価した。一方、実施形態1の変形例1に対応する分類結果の評価部403は、正解のクラスに対応するクラスへの分類の尤度から正解以外のクラスで最も高い尤度を有するクラスの尤度を減ずることにより乖離の評価(評価値の算出)をおこなう。本評価値の算出方法を適用した場合に、分類結果の評価部403によって算出される評価値のうち、最も小さい乖離の値は1.0であり、最も大きい乖離の値は-1.0となる。また、判定部602は、所定の基準として例えば、-0.2以下を第i+1の医用データセットのデータと判定する。
【0067】
尚、分類結果の評価部403は、正解の分類の尤度と1.0の差の絶対値だけでもよく、この場合、判定部602の所定の基準は、分類数に基づき決定する。具体的には、乖離の値が分類数の逆数からどの程度下回るかで第i+1の医用データセットのデータか否かを判定する。例えば3分類の場合、1/3=0.33・・より約5%下回る0.3135以下の場合に第i+1の医用データセットのデータであると判定する。尚、本変形例の場合は、正解の分類以外の他の分類の間違え方の程度を考慮した評価はできない。例えば、正解が「原発」であるデータに対して(0.32,0.68,0.0)と分類しても(0.32,0.34,0.34)と分類しても乖離の値は同じとなり、第i+1の医用データセットのデータでないと判定する。
【0068】
(変形例1-3)
実施形態1の通知部503は、分類処理の開始前に通知領域705を表示し、ユーザに処理の実行と中止を選択させたが、
図9Aに示すように、分類処理後に分類結果と共に類似度を表示してもよい。また、
図9Bに示すように、分類対象の医用データ評価部502が、類似度が所定の値を超える場合には、第iの分類器402による分類処理を実行しないよう制御し、通知部503が、処理を実行しなかった旨を、類似度と共に表示しても良い。即ち、情報処理装置101は、分類対象の医用データ評価部502による類似性に基づいて、分類対象の医用データを第iの分類器への入力データとするか否かを決定する。
【0069】
図9Aの通知部503における通知領域901は、本変形例の通知領域の一例である。通知領域901では、「原発」である尤度が83%、「転移」である尤度が12%、「良性」である尤度が5%という分類結果と共に、第3の分類データとの類似度が95%である旨を表示する。
【0070】
図9Bの通知領域902も、本変形例の通知領域の一例である。通知領域902は、第3の分類データとの類似度が95%であり、処理を実行しなかった旨を表示する。また、ユーザによる確認のボタンも表示する。尚、確認ボタンを表示せずに、一定時間表示後自動的に当該通知領域のウインドウを閉じても良い。
【0071】
本変形例によれば、複数回の分類器作成フローにより作成された分類器に対応する分類データセットとの類似度が所定の値を超える場合に、ユーザが処理の実行の実施と中止を指示する操作が不要となる。
【0072】
(変形例1-4)
本変形例では学習済みの分類器が存在し、学習済みの分類器を用いて分類処理を実行する場合について記載する。ここでは、学習済みの分類器が単数でかつ教師データが取得できる状態にある場合についての処理について述べる。まずは、学習済みの分類器を作成する際に用いた教師データと第1の医用データセットの比較を行い、重複データを削除して両者のデータを統合し、第1のデータセット310としてステップS801の処理を実行してもよい。本構成により、分類器が作成された後に新たな教師データが取得された場合や、他の学習済みの分類器を用いて、当該分類処理を可能とする。尚、学習済みモデルの分類対象が異なる場合や、学習済みの分類器を作成する際に用いた教師データと第1の医用データセットの分散が大きい場合には、第1の医用データセットとして追加をしなくとも、第1の医用データセットに追加をせずに、第1の医用データセットを用いて、学習済みの分類器に対するファインチューニングや転移学習によって第1の分類器が作成されてもよい。本構成により教師データの数や質に対して分類の精度やロバスト性の向上が期待される。
【0073】
<実施形態2>
実施形態2では、実施形態1と同様に、胸部X線CT画像上の肺結節影に関する診断推論を行うCADシステムである情報処理装置について説明する。
【0074】
実施形態1では、判定部602が分類器の尤度と正解との乖離の程度を評価し、分類対象の医用データ評価部502により、当該乖離の程度に基づいて判定したデータ(分類データセット620)と、分類対象の医用データセットとの類似性を評価し、結果をユーザに通知した。本実施形態2では、分類対象の医用データ評価部の評価結果に基づいて、分類器の設定を行う分類器の設定部1001をさらに有する。即ち、情報処理装置101は、分類対象の医用データ評価部502による評価結果に基づいて複数の分類器のうち、分類対象の医用データを分類する分類器を設定する分類器の設定部1001を有する。
【0075】
尚、本実施形態に係る情報処理装置のシステム構成、ハードウェア構成、医用画像DB 102の構成は実施形態1と同様であるため説明を省略する。
【0076】
図10は、本実施形態の情報処理装置の機能ブロック図である。
図10において、1001は分類器の設定部である。
【0077】
分類器設定部1001は、分類対象の医用データ評価部502による評価結果に基づいて、分類対象の医用データセット320に対して、診断名を分類する第iの分類器を設定する。分類対象の医用データ評価部502は、複数の分類器をクラスとして分類する尤度を算出する。そのため、例えば分類器の作成フローが3度実施された場合には、分類器は第1から第3の分類器が存在する構成になる。ここで、分類対象の医用データ評価部502は、それぞれの分類器をクラス(ラベル)として、それぞれの分類器に対応する分類データを対にした教師データを用いて分類器の学習をする。分類対象の医用データセットを入力した際の分類結果は、Softmax演算をし、各クラスに振られる値(尤度)を合計すると1となるように算出される。例えば(第1の分類器、第2の分類器、第3の分類器、その他)のクラス分類をした際に、分類結果が(0.6、0.2、0.1、0.1)となり、それぞれのクラスの分類データである尤度が示される。この場合において分類対象の医用データは、第1の分類器に対応する分類データである尤度が最も高いことを示す。言い換えると、第1の医用データセットのうち、第1の分類器が分類した分類結果との乖離の程度が所定の基準よりも小さいデータである尤度が高いことを示す。つまり当該分類対象の医用データを分類器1で分類をした際の分類結果に対して0.6の尤度で信頼性が保たれることを示している。分類対象の医用データ評価部502からの分類結果を受けて、入力する分類器を選択する。
【0078】
分類器設定部1001が分類対象の医用データ評価部502による分類結果に基づいて、分類対象の医用データの分類器への入力の可否を決定し、分類器の入力を決定した際には、当該分類対象の医用データセット320を入力する分類器を設定し、設定された分類器に対して診断名の分類を実施させる。分類器設定部1001は、単純には分類対象の医用データ評価部502からの分類結果のうち、最も高い尤度を示す分類器を分類処理を行う分類器として設定をする。もしくは、分類器の設定部1001は閾値を設定し、閾値を超えて且つ、最も高い尤度をもつ分類器を分類器として設定してもよい。または、分類器の設定部1001により、尤度が閾値を超える分類器を分類対象の医用データを分類させる分類器として設定を行ってもよい。尚、分類器の設定部1001は、尤度が閾値を超えてかつ、最も高い尤度を有する分類器を分類器として設定してもよい。
【0079】
分類器の設定部1001が分類対象の医用データセット320に対して分類器への入力を許可しない場合には、例えば、分類対象の医用データ評価部502の分類結果のうち尤度が閾値よりも小さい場合や、クラスへの尤度間の差が小さい場合が考えられる。もしくは、変形例1-1に記載をしたように、複数回の分類器作成フローにより作成された分類器は、当該分類器よりも少数回のフローで作成された分類器よりも、学習データやクラス数において信頼性が低い場合がある。そのため、第iの分類器のうち、i以下の分類器にのみ診断名の分類を許可するように閾値を設定しても、分類器に対する学習データ数の下限や、学習データを構成する診断名を有する学習データの数の下限によって入力を許可しなくともよい。
【0080】
図11は、本実施形態の情報処理装置の表示画面の例である。
【0081】
図11において、通知領域1101は通知部503による通知領域の一例である。本実施形態の通知領域1101には、分類対象の医用データ評価部502の分類器による分類結果と共に、第3の分類器(表示画面例では「分類器3」と記載)を使用した旨の通知が表示される。即ち、通知部503は分類対象の医用データを分類した分類器を示す情報と、分類器による分類結果を通知することを特徴とする。
【0082】
図12は、本実施形態の情報処理装置の処理のフロー図である。
【0083】
本実施形態の処理では、ステップS811に続き、ステップS1212を実行する。ステップS1212は、分類対象の医用データ評価部502により分類処理を実行し算出された分類結果を基に、分類器の設定部1001が分類器への入力の可否を判定する。終了条件は上述したようにデータ数、尤度、クラス数、分類器の番号(何回のフローにより作成された分類器かを示す番号i)等により設定される。分類器の設定部1001はステップS1212により、終了条件を満たす場合には、ステップS1213を実行し、終了条件を満たすと判定された場合には、ステップS1214を実行する。
【0084】
ステップS1213で、終了条件を満たした旨を通知部503により通知したうえで、再度分類処理を実行するかをユーザにより選択させる。ユーザが分類を選択した場合には、ステップS1214を実行する。
【0085】
ステップS1214において、分類器の設定部1214は、分類対象の医用データセットS320を入力する分類器をすくなくともひとつ設定する。分類器の設定方法は、上述の尤度や、分類器の番号、データ数、クラス数等により決定される。
【0086】
ステップS1215において、ステップS1214において、分類器設定部1001により設定された第iの分類器(単一または複数)で診断名の分類処理をする。
【0087】
ステップS1216において通知部503は第iの分類器(単一または複数)の分類結果と、分類に使用した分類器を表示する。
【0088】
以上説明したように、本実施形態によれば、複数の分類器と、分類器に対応付けた分類データとの類似性を判定し、類似性に基づいて、分類器の設定部1001が分類器への入力の可否を判定する。複数の分類器との分類データとの比較によって、分類対象の医用データセットS320が学習データに含まれていながら、特徴を充分に学習できなかったデータと、学習データに含まれていなかったデータの区別をより明確に行うことが可能となる。さらに、分類データに基づいた分類器による類似性判定を行い、所定の基準を満たす第iの分類器に基づいて、診断名を分類することで、当該分類器が示す分類結果の信頼性が向上し、さらに分類器からの出力結果を分類データとの類似性という形で予め認知することが可能となる。
【0089】
(変形例2-1)
実施形態2では、分類データを学習させた分類器による分類結果に基づいて、類似度や、データ数、クラス数が所定の基準以上である場合において、分類器の設定部1001が分類器の設定を行った。なお、通知部503は、類似度やデータ数、クラス数等、分類器を選択する情報を通知した上で、ユーザが分類器を設定できる入力手段を有する構成でもよい。例えば、分類器をプルダウンやチェックボックス等への入力受付部を介して、分類器を設定することが考えられる。本構成により、作成された複数の分類器を用いて結果を参照したい場合や、診断名を確認したいクラスを含む分類器を選択することが可能となる。
【0090】
(変形例2-2)
実施形態2では、分類器への分類対象の医用データセット320の入力をしない条件として、分類器ごとの尤度の差が小さいことを条件として述べた。しかしながら、尤度の差が小さい分類器がいずれも分類対象の医用データセット320に対して分類能を発揮していた場合には、両者の分類器間での尤度差は小さくなることが考えられる。この場合においては、尤度差が小さくても、いずれかの分類器で分類をすることで信頼度の高い診断名が分類されることになる。
【0091】
つまり分類器間に割り振られる尤度差が小さいことは、分類器における分類結果と正解との乖離が小さい分類データ(所定基準を満たさない医用データ)との類似性が低いと判断することは適切ではないことがある所以である。故に、分類器の分類結果におけるクラス(分類器)間の尤度差が小さい場合には、分類器に対応する分類データに分類されなかったその他のラベルとの尤度の差を比較する。つまり、分類器間の尤度差が小さく、かつその他のクラスとの尤度差が大きい場合には、分類器設定部1001は尤度差の小さい複数の分類器を分類するための分類器として設定をし、設定された分類器を用いて診断名を分類する。そして複数の分類器による診断名の分類結果を比較して、分類結果とする。本構成により、分類器が分類能を有しているにも関わらず、尤度差が小さいために分類器への入力データから除外される可能性が低減する。
【0092】
(変形例2-3)
変形例2-2では、分類器による分類結果である分類器(クラス)間の尤度の差が小さい場合に、例えばその他のクラスへの尤度と、尤度の差が小さい分類器のクラスに対応する尤度との差を比較し、その差が所定の基準よりも大きい場合には、分類対象医用データを分類する分類器として分類器設定部1001が設定を行う構成を説明した。
【0093】
変形例2-3では、分類器設定部1001は複数の分類器を分類器として設定をし、複数の分類器の結果を正規化した後に、総和を比較することで診断名の分類結果としてもよい。
【0094】
ここでは、例として分類器が第3の分類器まで存在し、診断名がA、B、C、D(その他)であるとする。分類対象の医用データ取得部501により取得された医用データを基に、分類対象の医用データ評価部502により、各分類器に対応する分類データを学習データとし、ラベルに分類器名を付与したクラス分類を行う。その場合の尤度が次のように分類されたとする。(第1の分類器、第2の分類器、第3の分類器)=(0.6、0.2、0.2)。本変形例では、分類器の設定部1001は、それぞれの分類器を分類対象の医用データセットを分類するための分類器として設定をし、分類処理を実行させる。そして結果が次のようであると仮定をする。分類器Aに関して、(診断名A、診断名B、診断名C、診断名D)=(0.6、0.4、0.0、0.0)。分類器Bは、(診断名A、診断名B、診断名C、診断名D)=(0.9、0.1、0.0、0.0)。分類器Cは診断名A、診断名B、診断名C、診断名D)=(0.5、0.5、0.0、0.0)。ここでは、分類器間の学習データ数や、クラス数が互いに同一であると仮定をしているが、仮に学習データ数や、クラス数が異なる場合には、互いの分類器間の分類の尤度のばらつきをなくすための正規化処理や、学習データの数が所定の基準より少ない場合など信頼性が小さい場合には、分類器ごとの尤度に係数として乗算を行ってもよい。
【0095】
そして分類器名をラベルとしたクラス分類の結果を、それぞれの分類器によって診断名を分類した結果に乗算する。即ち、分類器A=(0.6×0.6、0.6×0.4、0.6×0.0、0.6×0.0)となり、他の分類器でも同様の処理を行う。そして分類器ごとの診断名の総和を取得する。診断名の総和=(0.64、0.36、0.0、0.0)となる。診断名の総和を受けて診断名を分類する分類処理による分類結果としてもよい。
【0096】
<実施形態3>
本発明の一側面として、分類器の分類結果と正解との乖離の程度が所定の基準を満たさないデータを当該分類器における分類データとして記憶し、所定の基準を満たす苦手データは、他の分類器の教師データもしくは、医用データとしてプールをした。結果として複数の分類器が作成され、複数の分類器のそれぞれに対応する分類データと、分類対象の医用データとの類似性を評価することによって、分類対象の医用データに対する分類の信頼性をユーザに認知させることができ、かつ異なる特徴を学習した分類器を複数設けることにより、当該分類対象の医用データを入力するのにふさわしい分類器を認知、選択することが可能となった。
【0097】
本実施形態では、分類データおよび分類器の作成フローと、フローの繰り返しによって教師データに対して情報処理装置101が行う処理について述べる。
【0098】
第iの医用データから分類データおよび分類器の作成フローの回数を繰り返すほどデータ数や、クラス数は減少する。他方で、複数の分類器間に同一のラベルが付与された分類データが存在することが考えられる。ここでは、簡便のために、ラベルを診断名とし、第1の医用データセットに対してA~E(診断名)のラベルが付与されているものとし、
図13を用いて説明をする。
図13は第1から第Nの分類器に対応する分類データと、分類データを構成する診断名のラベルごとの分類データのサンプル数を示している。上述までに説明したように、第1の分類器に対応する第1の分類データから第Nの分類器に対応する第Nの分類データまで下段の分類データになるにつれて、データの数と、クラスの数が減少していることを示している。一方で、例えば第1の分類データと第2の分類データについて考えてみると、第1の分類データは第1の分類器で、所定の基準を満たさないデータ(正解との分類結果との乖離の程度が例えば所定の閾値未満)、つまり第1の分類器で精度よく分類できたデータになる。比較して、第2の分類データは、第1の分類器では精度よく分類できなかったものの、第2の分類器では精度よく分類されたデータであり、第1の分類データにおける各ラベルに対応するデータと、第2の各ラベルに対応するデータ間には、両者を隔てるための特徴が存在することが考えられる。ここでは、第1の分類データにおける診断名Aと第2の分類データにおける診断名Aをそれぞれ別のラベルとして、分類器を学習させる。同一の診断名Aを互いに有する分類器に対応する分類データをそれぞれの分類器のラベルを付与して学習をさせることにより、診断名Aに対するロバスト性を複数の分類器によって実現することが可能になる。尚、診断名Aを有する複数の分類器をそれぞれラベルとして設けてもよいし、複数の診断名と複数の分類データをラベルとして分類器を学習してもよい。
【0099】
本構成により、作成された分類器を、分類対象の医用データ評価部502で用いる分類器とすることによって、複数の分類器のそれぞれに対応する分類データをクラスとして分類する分類器での分類よりも、より詳細な評価結果を取得することができる。
【0100】
たとえば、分類対象の医用データセット320を構成する分類対象の医用データが、第2の分類器の診断名Aが付与されたデータと類似度が95%であった場合に、
図14(a)の通知領域1405は分類器の番号と、診断名、類似度を通知する。また、本構成の場合には、分類対象の医用データの評価部502における分類器が、複数分類器のそれぞれのクラスを包含したクラスを有する分類器となる。そのため、分類対象の医用データ評価部502における評価結果が、分類器設定部1001による分類器の設定の工程を経ずに評価をすることが可能となる。つまり第2の分類器の診断名Aへの尤度は高いが、第1の分類器の診断名Aへの尤度が小さかった場合には、第1の分類器とは異なる特徴で学習ができ、かつ信頼度が高い診断名の分類が可能になったことを指す。尚、通知内容はこれらのうちいずれかを含んでいれば、他の情報と共に通知されてもよい。例えば、
図14(b)における通知領域1406に示したように複数の診断名が分類され、それぞれの診断名に対して類似性が高い分類データが異なることがある。このような場合には、診断名のそれぞれに対して類似度と、診断名を通知部503により通知をしてもよい。また一例として
図15の円グラフ1500のように、それぞれの分類器に対応する分類データの割合と、分類器による分類結果を対応付けて通知を行ってもよい。
【0101】
(変形例3-1)ユーザが分類したい診断名 カスタム
変形例3-1では、ユーザが選択した特定の診断名に対して評価を行う構成について述べる。ユーザが例えば診断名Aおよび診断名Bに関して、分類処理を実行したいとする。診断名Aと診断名Bにおいて、実施形態3の構成のように複数の分類器における分類データを構成する診断名をラベルとして学習を行った場合について述べる。複数の分類器が分類を行うクラスは例えば(第1の分類器の診断名A、第2の分類器の診断名A・・・第N-1の分類器の診断名A、第Nの分類器の診断名A、第1の分類器の診断名B、第2の分類器の診断名B・・・第N-1の分類器の診断名B、第Nの分類器の診断名B、その他)となる。尚、ユーザは、入力インターフェース208を介して、診断したい診断名を入力してもよいし、クラスの構成を指定してもよい。ここで、作成されたクラスに対応する分類データを用いて診断名を分類する分類器の学習を行う。本構成により、ユーザ所望の診断名に対してのみ、クラス尤度が出力される。尚作成されたクラスに対応する分類データを用いて分類器の学習ができると上述までの分類器の作成フローによってさらに複数の分類を作成してもよい。
【0102】
<実施形態4>
分類器の性能の向上のためには、教師データの数と質が一つの課題となっている。教師データの質に関して、質は例えばアノテーション(ラベルを指す)が適切に付与されているかどうかにより判断される。教師データの中には、誤ってアノテーションがなされていたり、学習した特徴では適切に分類できないようなデータに同一のアノテーションが付与されていたりすることがある。
【0103】
本実施形態では、上述までで述べた複数の分類器および分類データの作成フローに基づいて、教師データに対して再度アノテーションもしくは新規の医用データに対してアノテーションを行う(以下再ラベリング)形態について説明をする。ここでは、上述した医用データに対して適切なアノテーションが付与されていない、もしくは分類のモデル構造に対して異なるラベルを付与することが適切である場合に、再ラベリングをユーザに促すことができる。
図13のように、複数の分類器に対応する分類データ間に重複する診断名を有する医用データが存在すると仮定をし、診断名に対応する分類器の作成を行う。例えば
図13の診断名Aのように複数の分類データに対して複数のサンプルが存在する場合に有効である。ここで作成する分類器は、診断名Aの第1の分類データと、診断名Aの第2の分類データの2クラス分類をする。もちろんクラス数は多値でも数は問わない。分類器は、例えば、Gradient-weighted Class Activation Mapping(以降Grad-CAM)と呼ばれる分類器を用いる。Grad-CAMはクラスごとの影響が大きい画像箇所をヒートマップと尤度を表示することができる技術である。即ち、診断名Aに対して第1の分類器のクラスと、第2の分類器のクラスのそれぞれに対応する分類データを2クラスに分類する際の特徴を尤度と共にユーザに認識させることができる。さらにユーザは、Grad-CAMによるヒートマップに基づいて、当該分類データに対して再ラベリングすることができ、再ラベリングデータを教師データに加えて分類器を学習させることにより、分類器による分類結果の信頼性とロバスト性が確保できる。以下、
図16を用いて情報処理装置101の機能ブロックについて説明をする。尚、情報処理装置101は他の実施形態で述べた他の構成を有していてもよいし、以下説明をする機能ブロックのみを別途有していてもよいし、複数の情報処理装置によって構成されてもよい。
【0104】
図16において、情報処理装置101は、正解ラベルを有する医用データに対して、複数の分類器のそれぞれによる分類結果のうち、正解ラベルと分類結果との乖離の程度が所定の基準を満たさない(乖離の程度が所定の閾値未満)医用データである分類データを取得する分類データ取得部1601を有する。そして、分類データ取得部1601は、取得された分類データのうち、異なる分類器に対応する分類データで且つ、同一の正解ラベルが付されている分類データを教師データとして分類器の学習部1602に送信する。分類器の学習部1602は送信された分類データに基づいて、分類器の学習を行う。そして、医用データ取得部1603は、医用画像DB 102より、医用データを取得し、医用データのラベル評価部1604に送信する。医用データのラベル評価部1604は、取得した医用データを分類器の学習部1602に送信し、分類器の学習部1602で学習された分類器に分類処理を実行させる。そして分類処理が実行された医用データと分類結果を正解ラベル設定部1605に送信する。医用データと分類結果を取得した正解ラベル設定部1605は、医用データにラベルが付されているかを判定し、医用データにラベルが付されていない場合には、新規にラベルを設定する。一方で医用データにラベルが伏されていた場合は、ラベルの置換を行う。医用データのラベル評価部1604は、分類器による分類結果を通知部1606に送信をする。通知部1606は分類結果の通知を行う。即ち、本実施形態において情報処理装置101は、医用データをクラス分類する複数の分類器を有する情報処理装置であって、正解ラベルが付与された医用データに対する前記複数の分類器のそれぞれによる分類結果のうち、正解ラベルと分類結果との乖離の程度が所定の基準を満たさない分類データを取得する分類データ取得部1601を有する。さらに取得した分類データのうち、異なる分類器に対応する分類データで且つ同一の正解ラベルを有する分類データを教師データとして分類器の学習を行う分類器の学習部1602と、を有する。
【0105】
また、学習された分類器の分類結果に基づいて、医用データの正解ラベルを設定する正解ラベル設定部1605を有していてもよい。さらには、分類結果を通知する通知部1606を有する。
【0106】
図17は、本実施形態の処理フローである。ステップS1701は、分類データ取得部1601により、医用画像DB 102における分類データセット620の内、異なる分類器に対応する分類データで且つ同一のラベルを有する分類データセットを取得する。ステップS1702において、分類器の学習部1602は、例えばGrad-CAMに基づいた学習器で、取得された分類データの学習を行う。ステップS1703は、分類データ取得部1601によってさらに分類器の学習(生成)を必要とする分類データの有無を判定し、分類器の生成が必要であると判定された場合には、ステップS1701に戻ってさらに処理を実行する。分類データ取得部1601により、分類器の学習(生成)が終了したと判定された場合には、後段のステップに移行する。ステップS1704は、医用データの取得部1603によって医用データを取得するステップである。医用データ取得部1603によって取得される医用データは、正解ラベルが付与されたデータでも、付与されていないデータでもよい。例えば、上述の実施形態で記載した分類器をクラスとした分類器によるクラス尤度の差が小さいデータや、新たに教師データとして正解ラベルの付与が必要なデータ等が対象として考えられる。ステップS1705において医用データのラベルの評価を行う。医用データのラベル評価部1604は、分類器の学習部1602によって作成された学習器に対して分類処理を実行させる。そして分類結果として各クラスへの尤度と、Grad-CAMによるヒートマップを取得し、通知部1606を介して分類結果の通知を行う。即ち学習された分類器による分類結果が尤度であることを特徴とする。また分類器がGrad-CAMに基づく分類器であることを特徴とする。通知部1606は、Grad-CAMによるヒートマップを通知することを特徴とする。また通知部1606は、
図15で上述したように、各分類器に対応する学習データの数および割合の少なくとも一方を通知してもよい。ステップS1706において、正解ラベル設定部1605は、現在のラベルの有無を判定し、ラベルが付されている場合には、ラベルとの整合性を判定する。正解ラベル設定部1605は、当該分類器による分類器のうち最も高いクラスを正解ラベルとしてもよいし、閾値を超えるクラスを正解クラスとしてもよい。尚、両者を組み合わせて正解ラベルを設定してもよい。ステップS1707においてラベルの置換を行う。またラベルが付与されていない場合には分類結果に基づいてラベルの付与を行う(ステップS1707)。ステップS1706において、ラベルが付されていて且つ、ラベルの信頼性が高い場合には、処理の終了をする。即ち、情報処理装置101における正解ラベルの設定部1605は、正解ラベルを付与された医用データの正解ラベルを置換することを特徴とする。
【0107】
(変形例4-1)
上述の実施形態4は、誤ってアノテーションされたもしくは、分類器が学習した特徴では分類できない分類データを再ラベリングする手法について述べた。変形例4-1は、正解ラベル設定部1605が新規に画像データに対してアノテーションをする際に、実施形態4で説明をしたGrad-CAMを用いて、ラベリングを促す。即ち、新たにラベリングが必要なデータをGrad-CAMを基にした分類器に対して入力を行うと、例えば第1の分類器の診断名Aの場合に着目すべき画像領域と、第2の分類器の診断名Aの場合に注目すべき画像領域をそれぞれ取得することができる。ユーザは、第1の分類器の診断名Aにおける注目部位と、第2の分類器の診断名Aにおける注目部位とに基づいて、いずれのラベルを新規の画像データに対して付すかを決定することができる。なお、Grad-CAMによるヒートマップに基づいてユーザにラベリングをさせる形態に捉われず、複数の分類器の診断名をラベルとして分類器が分類した尤度に基づいて情報処理装置101がラベリングを行ってもよい。また、情報処理装置101がラベリングを行ったデータを医用画像DB 102における医用データとして分類器を作成するフローに用いてもよい。即ち、正解ラベル設定部による正解ラベルの設定は、正解ラベルが付与されていない医用データに正解ラベルを付与することを特徴とする。
【符号の説明】
【0108】
101 情報処理装置
102 医用画像DB
103 LAN
310 第iの医用データセット
320 分類対象の医用データセット
401 第iの医用データ取得部
402 第iの分類器
403 分類結果の評価部
404 第i+1の分類器の学習部
501 分類対象の医用データ取得部
502 分類対象の医用データ評価部
503 通知部
601 尤度取得部
602 判定部
603 第i+1の医用データセット