(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-01
(45)【発行日】2022-08-09
(54)【発明の名称】X線画像物体認識システム
(51)【国際特許分類】
A61B 6/00 20060101AFI20220802BHJP
G06T 7/00 20170101ALI20220802BHJP
A61B 6/03 20060101ALI20220802BHJP
G06N 3/08 20060101ALI20220802BHJP
【FI】
A61B6/00 350D
G06T7/00 350C
A61B6/00 360Z
A61B6/03 360Z
G06N3/08 140
(21)【出願番号】P 2018141669
(22)【出願日】2018-07-27
【審査請求日】2021-03-22
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001933
【氏名又は名称】特許業務法人 佐野特許事務所
(72)【発明者】
【氏名】大和 宏
【審査官】遠藤 直恵
(56)【参考文献】
【文献】国際公開第2011/033890(WO,A1)
【文献】特開2008-011901(JP,A)
【文献】特表2018-517209(JP,A)
【文献】国際公開第2017/106645(WO,A1)
【文献】特表2004-536367(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 6/00-6/14
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
物体のX線画像と、前記物体に対応する正解ラベルとを含む学習セットを用いて機械学習を行う学習ネットワークと、
前記学習セットから、前記物体のX線撮影時の撮影条件を導くための撮影情報を算出する撮影情報算出部と、
前記撮影情報に基づいて、前記X線画像から新たなX線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定するデータ拡張パラメータ決定部と、
前記データ拡張パラメータに基づいて前記データ拡張を行い、取得した前記新たなX線画像と前記正解ラベルとを用いて前記学習ネットワークを機械学習させる学習処理部とを備え、
前記学習ネットワークは、前記新たなX線画像を用いて機械学習を行った後に入力されるX線画像から、X線撮影された物体を認識してその認識結果を
出力し、
前記撮影情報算出部は、前記学習セットに含まれる前記X線画像と、前記X線画像に含まれる前記物体の領域と対応する形状の前記正解ラベルとに基づいて、前記撮影情報を算出し、
前記撮影情報は、前記X線画像において前記正解ラベルと対応する前記物体の領域の画素数であることを特徴とするX線画像物体認識システム。
【請求項2】
物体のX線画像と、前記物体に対応する正解ラベルとを含む学習セットを用いて機械学習を行う学習ネットワークと、
前記学習セットから、前記物体のX線撮影時の撮影条件を導くための撮影情報を算出する撮影情報算出部と、
前記撮影情報に基づいて、前記X線画像から新たなX線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定するデータ拡張パラメータ決定部と、
前記データ拡張パラメータに基づいて前記データ拡張を行い、取得した前記新たなX線画像と前記正解ラベルとを用いて前記学習ネットワークを機械学習させる学習処理部とを備え、
前記学習ネットワークは、前記新たなX線画像を用いて機械学習を行った後に入力されるX線画像から、X線撮影された物体を認識してその認識結果を出力し、
前記撮影情報算出部は、前記学習セットに含まれる前記X線画像内で前記物体を囲む矩形領域に基づいて、前記撮影情報を算出し、
前記撮影情報は、前記矩形領域の面積であることを特徴とするX線画像物体認識システム。
【請求項3】
前記撮影情報算出部は、前記学習セットから、前記学習セットに含まれる前記X線画像内で前記物体以外の領域を示す物体外領域情報をさらに算出することを特徴とする請求項1または2に記載のX線画像物体認識システム。
【請求項4】
前記物体外領域情報は、X線の照射野外の情報であり、
前記撮影情報算出部は、前記学習セットに含まれる、前記X線の照射野外の領域に対応する形状の正解ラベルに基づいて、前記照射野外の情報を算出することを特徴とする請求項3に記載のX線画像物体認識システム。
【請求項5】
前記物体外領域情報は、X線の照射野外の情報であり、
前記撮影情報算出部は、前記学習セットに含まれる前記X線画像のヒストグラム情報に基づいて、前記照射野外の情報を算出することを特徴とする請求項3に記載のX線画像物体認識システム。
【請求項6】
前記物体外領域情報は、X線の照射野外の情報であり、
前記撮影情報算出部は、前記学習セットに含まれる前記X線画像の各画素値を二値化した二値化画像に基づいて、前記照射野外の情報を算出することを特徴とする請求項3に記載のX線画像物体認識システム。
【請求項7】
前記データ拡張パラメータ決定部は、前記撮影情報と、前記物体外領域情報と、予め設定された閾値とに基づいて、前記データ拡張パラメータを決定することを特徴とする請求項3から6のいずれかに記載のX線画像物体認識システム。
【請求項8】
前記データ拡張パラメータは、前記X線画像の縮小・拡大率、シフト量、回転角のうちの少なくとも1つであることを特徴とする請求項7に記載のX線画像物体認識システム。
【請求項9】
前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記X線画像内の前記物体の領域の総画素数が第1の閾値以上である場合に、前記データ拡張パラメータとしての前記縮小・拡大率を、前記X線画像を等倍または縮小する値に設定することを特徴とする請求項8に記載のX線画像物体認識システム。
【請求項10】
前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記X線画像内の前記物体の領域の総画素数が前記第1の閾値よりも小さい第2の閾値以下である場合に、前記縮小・拡大率を、前記X線画像を等倍または拡大する値に設定することを特徴とする請求項9に記載のX線画像物体認識システム。
【請求項11】
前記データ拡張パラメータ決定部は、前記縮小・拡大率とともに、前記シフト量および前記回転角の少なくとも一方を決定することを特徴とする請求項9または10に記載のX線画像物体認識システム。
【請求項12】
前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記X線画像内の前記物体外領域の総画素数が第3の閾値未満である場合に、前記データ拡張パラメータの設定可能範囲を制限することを特徴とする請求項8から11のいずれかに記載のX線画像物体認識システム。
【請求項13】
前記物体は、人物においてX線の透過量が相対的に少ないX線低透過領域、およびX線の透過量が相対的に多いX線高透過領域の少なくとも一方を含むことを特徴とする請求項1から12のいずれかに記載のX線画像物体認識システム。
【請求項14】
前記X線低透過領域は、前記人物の骨の領域を含み、前記X線高透過領域は、前記人物の肺野の領域を含むことを特徴とする請求項13に記載のX線画像物体認識システム。
【請求項15】
前記学習ネットワークは、ニューラルネットワークで構成されていることを特徴とする請求項1から14のいずれかに記載のX線画像物体認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、X線画像から撮影対象の物体を認識するX線画像物体認識システムに関する。
【背景技術】
【0002】
X線画像を扱う医療の分野では、X線撮影後に最終的に出力するX線画像を得るための前処理として、撮影時に取得される元画像(Rawデータ)に対して部位認識を行い、対象部位ごとに最適な画像処理パラメータを用いてデータを補正することで、出力するX線画像の画質改善が行われている。例えば、上腕骨、股関節、肩関節、肋骨、異物(金属・ペースメーカー)などの部位に対して、異なるガンマの値の適応などによる濃淡値の修正、ノイズ抑制などにより、出力するX線画像の画質改善が行われる。したがって、このようなX線画像の画質改善を行うにあたっては、データを補正する部位をできるだけ正確に認識することが必要であり、そのためには、元画像から上記部位を正確に抽出(認識)することが必要となる。
【0003】
ここで、画像から特定の部位を抽出する方法の一例が、特許文献1に開示されている。特許文献1では、複数の構造物(例えば骨)が含まれる医用画像(X線画像)を処理する際に、事前情報として解剖学的な位置に基づく特定の構造物(例えば肋骨)の輪郭線の集合からなる事前形状モデルを記憶部に保存し、事前形状モデルを医用画像内に配置した後、その医用画像に対して、配置された事前形状モデルの複数の輪郭線と重合する位置において、画素値に対して1次微分を行って画像特徴量を計算する。そして、事前形状モデルの輪郭線と上記画像特徴量とに基づいて、特定の構造物の候補点を検出する。これにより、複数の構造物が重なっているX線画像から、特定の構造物(肋骨(の輪郭線))を精度よく抽出することが可能となっている。
【0004】
一方、近年では、大量のデータの演算処理が可能であるGPU(Graphics Processing Unit)の発展により、Deep Learningと呼ばれる深層学習が注目を浴びている。Deep Learningとは、ディープニューラルネットワーク(DNN;Deep Neural Network)を用いた学習のことである。DNNは、人間や動物の脳神経回路をモデルとしたアルゴリズムを多層構造化し、パターン認識するように設計されたニューラルネットワーク(学習ネットワーク)である。大量のデータを用いて予め学習されたDNNを用いることにより、人間の力なしに入力データから自動的に特徴を抽出し、物体認識を行うことができる。
【0005】
このようなDeep Learningは、以下に示すような様々な技術または分野に適応されている。
(A)音声認識
人間の声を認識してテキストデータで出力したり、音声の特徴を捉えて、音声を出している人を識別する技術。
(B)自然言語処理
文書要約、機械翻訳など、人間が日常的に使う自然言語(書き言葉・話し言葉)をコンピューターに処理・理解させる技術。
(C)異常検知
工場内の監視(故障や異常動作の検知)などのように、産業機器に取り付けられたセンサの時系列検知データから異常の兆候を感知する技術。
(D)画像認識
顔認証、自動運転、感情分析などの分野で、画像や動画を入力とし、文字、顔、一般物体などの特徴を認識し検出する技術。
【0006】
そして、近年では、上記記載の技術または分野のみならず、医療分野においてもDeep Learningの適応が進められている。Deep Learningの適応により、例えば入力されるX線画像に対して骨などの対象部位の領域を抽出することが可能となる。これにより、抽出した領域に対してデータ補正などの前処理を行って、最終的に出力するX線画像の画質改善を行うことが可能となる。
【0007】
ここで、従来、画質改善のための部位認識は、開発者がそのノウハウにより、対象部位の検出(抽出)アルゴリズムを開発し、そのアルゴリズムを機械(コンピュータ)が実行することで行われていた。しかし、X線の撮影条件(放射線量・撮影位置など)の違いや、個人差(体内の骨等の構造物の形状差)などにより、抽出精度にばらつきがあるため、複雑な抽出アルゴリズムの開発が求められていた。DNNは、上述したように人間の力なしに自動的に入力データから特徴を抽出するため、対象部位の検出にDeep Learningを適応することは、人間による複雑な抽出アルゴリズムの開発が不要となる点で非常に有効である。
【0008】
しかし、対象部位の検出にDeep Learningを適応するためには、十分な量の学習データが必要である。十分な量の学習データの入手が困難な場合、少量の学習データでもDeep LearningによるDNNの学習および物体認識(物体の推論、予測)は可能であるが、過学習が生じて認識性能が低下する可能性が高くなる。つまり、学習時のデータ量が十分であれば、推論時に学習データ以外のデータがDNNに入力された場合でも、
図18の実線のグラフで示すように、DNNは本来の正解に近い値を予測することができる。これに対して、学習時のデータ量が少ないと、推論時において、DNNは、学習したデータが入力された場合しか、正解を予測することができなくなり(過学習の状態)、学習データ以外のデータが入力されたときには、
図19の実線のグラフで示すように、本来の正解に近い値(破線のグラフ参照)から離れた値を予測する。その結果、物体の認識性能が低下する。
【0009】
したがって、学習データが少ない場合、上記の過学習を抑えるためには、学習データを増やす処理が必要となる。このような処理として、元画像に対して移動、回転、拡大・縮小、反転などの人為的な操作を加えることによって画像数を擬似的に増やすデータ拡張(Data augmentation)を行うことが知られている。
図20に示すように、元の画像データ(黒丸参照)に対して、適切なデータ拡張によって新たな画像データ(白丸参照)を作成し、学習データを擬似的に増やして学習を行うことにより、DNNが学習データを過剰に学習することが抑制される。これにより、推論時には、
図20の実線のグラフで示すように、DNNは入力データに対して本来の正解に近い値を予測することが可能となり、過学習による認識性能の低下を抑制することが可能となる。
【先行技術文献】
【特許文献】
【0010】
【文献】特開2018-15022号公報(請求項1、段落〔0008〕、〔0018〕、〔0030〕~〔0056〕、
図1等参照)
【発明の概要】
【発明が解決しようとする課題】
【0011】
ところで、上述したX線画像は、撮影装置の特殊性、被爆の問題、個人情報の問題などから、大量に入手が困難なデータである。このため、入力されるX線画像に対してDNNの認識性能を向上させるためには、X線画像の数を擬似的に増やす上述したデータ拡張が必要不可欠である。
【0012】
しかし、X線画像は、撮影対象部位や撮影方向などの違いにより、取得される画像のバリエーションが多いため、単純に、元画像に対して移動、回転、拡大・縮小、反転などの人為的な操作を加えてデータ拡張を行うと、実際にはあり得ないシーンの画像が作成され、その画像に基づいて実際にはあり得ない撮影シーンをDNNが学習してしまう可能性がある。例えば、元画像が胸部正面X線画像であり、この画像を面内で回転させて新たな画像を作成するデータ拡張を行う場合において、元画像を回転させすぎると、普段の撮影ではあり得ない胸部正面X線画像(例えば横向きのX線画像(正立状態から90°回転させた場合)や天地が逆転したX線画像(正立状態から180°回転させた画像)が取得される。また、元画像が子供の胸部正面X線画像である場合、その画像を縮小させて新たな画像を作成するデータ拡張を行うと、普段の撮影ではあり得ない微小な胸部正面X線画像が取得される。
【0013】
このような意図しないデータ拡張によって作成された画像(
図21の白丸参照)に基づいて、意図しない学習が行われると、推論時には、
図21の実線のグラフで示すように、DNNは入力されるX線画像に対して本来の正解に近い値(破線のグラフ参照)から離れた値を予測することになり、結果的に物体の認識性能が低下する。したがって、X線画像のデータ拡張を行うにあたっては、意図しないデータ拡張が行われないように、データ拡張のパラメータを適切に設定することが必要となるが、このようなパラメータの設定については、従来一切検討されていない。
【0014】
また、X線画像は、撮影対象部位や撮影方向などの撮影条件の違いによってバリエーションが多いため、例えば、各撮影条件に応じたDNNを複数用意しておけば、撮影条件ごとに、対応するDNNを用いて推論(部位認識)を行うことができるとも考えられる。しかし、この場合は、複数のDNNの中から撮影条件に応じたDNNを選択するために、X線撮影を行う撮影者(放射線技師)が撮影条件を入力する必要が生じ、撮影者の手を煩わせる。また、X線画像の分野では、入力画像に基づく推論は、上述したように出力するX線画像の画質改善のための前処理を目的として行われるため、その処理は効率よく行われることが望ましく、また、処理負荷も少ないことが望ましい。以上のことを考慮すると、撮影条件ごとにDNNを複数用意するのではなく、単一のDNNを用意し、どのような撮影条件で撮影されたX線画像が入力されても、単一のDNNで撮影対象部位を認識できるようにすることが望ましい。
【0015】
本発明は、上記の問題点を解決するためになされたもので、その目的は、学習時のX線画像に対してデータ拡張を行う際のパラメータを適切に設定することにより、意図しないデータ拡張が行われるのを回避することができ、これによって、データ拡張後の画像を用いて学習ネットワークを適切に機械学習させて、学習ネットワークが物体を精度よく認識(推論)できるようにするとともに、どのような撮影条件で撮影されたX線画像が入力されても、単一の学習ネットワークで物体を認識できるようにするX線画像物体認識システムを提供することにある。
【課題を解決するための手段】
【0016】
本発明の一側面に係るX線画像物体認識システムは、物体のX線画像と、前記物体に対応する正解ラベルとを含む学習セットを用いて機械学習を行う学習ネットワークと、前記学習セットから、前記物体のX線撮影時の撮影条件を導くための撮影情報を算出する撮影情報算出部と、前記撮影情報に基づいて、前記X線画像から新たなX線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定するデータ拡張パラメータ決定部と、前記データ拡張パラメータに基づいて前記データ拡張を行い、取得した前記新たなX線画像と前記正解ラベルとを用いて前記学習ネットワークを機械学習させる学習処理部とを備え、前記学習ネットワークは、前記新たなX線画像を用いて機械学習を行った後に入力されるX線画像から、X線撮影された物体を認識してその認識結果を出力する。
【0017】
上記のX線画像物体認識システムにおいて、前記撮影情報算出部は、前記学習セットに含まれる前記X線画像と、前記X線画像に含まれる前記物体の領域と対応する形状の前記正解ラベルとに基づいて、前記撮影情報を算出してもよい。
【0018】
上記のX線画像物体認識システムにおいて、前記撮影情報は、前記X線画像において前記正解ラベルと対応する前記物体の領域の画素数であってもよい。
【0019】
上記のX線画像物体認識システムにおいて、前記撮影情報算出部は、前記学習セットに含まれる前記X線画像内で前記物体を囲む矩形領域に基づいて、前記撮影情報を算出してもよい。
【0020】
上記のX線画像物体認識システムにおいて、前記撮影情報は、前記矩形領域の面積であってもよい。
【0021】
上記のX線画像物体認識システムにおいて、前記撮影情報算出部は、前記学習セットから、前記学習セットに含まれる前記X線画像内で前記物体以外の領域を示す物体外領域情報をさらに算出してもよい。
【0022】
上記のX線画像物体認識システムにおいて、前記物体外領域情報は、X線の照射野外の情報であり、前記撮影情報算出部は、前記学習セットに含まれる、前記X線の照射野外の領域に対応する形状の正解ラベルに基づいて、前記照射野外の情報を算出してもよい。
【0023】
上記のX線画像物体認識システムにおいて、前記物体外領域情報は、X線の照射野外の情報であり、前記撮影情報算出部は、前記学習セットに含まれる前記X線画像のヒストグラム情報に基づいて、前記照射野外の情報を算出してもよい。
【0024】
上記のX線画像物体認識システムにおいて、前記物体外領域情報は、X線の照射野外の情報であり、前記撮影情報算出部は、前記学習セットに含まれる前記X線画像の各画素値を二値化した二値化画像に基づいて、前記照射野外の情報を算出してもよい。
【0025】
上記のX線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記撮影情報と、前記物体外領域情報と、予め設定された閾値とに基づいて、前記データ拡張パラメータを決定してもよい。
【0026】
上記のX線画像物体認識システムにおいて、前記データ拡張パラメータは、前記X線画像の縮小・拡大率、シフト量、回転角のうちの少なくとも1つであってもよい。
【0027】
上記のX線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記X線画像内の前記物体の領域の総画素数が第1の閾値以上である場合に、前記データ拡張パラメータとしての前記縮小・拡大率を、前記X線画像を等倍または縮小する値に設定してもよい。
【0028】
上記のX線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記X線画像内の前記物体の領域の総画素数が前記第1の閾値よりも小さい第2の閾値以下である場合に、前記縮小・拡大率を、前記X線画像を等倍または拡大する値に設定してもよい。
【0029】
上記のX線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記縮小・拡大率とともに、前記シフト量および前記回転角の少なくとも一方を決定してもよい。
【0030】
上記のX線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記X線画像内の前記物体外領域の総画素数が第3の閾値未満である場合に、前記データ拡張パラメータの設定可能範囲を制限してもよい。
【0031】
上記のX線画像物体認識システムにおいて、前記物体は、人物においてX線の透過量が相対的に少ないX線低透過領域、およびX線の透過量が相対的に多いX線高透過領域の少なくとも一方を含んでいてもよい。
【0032】
上記のX線画像物体認識システムにおいて、前記X線低透過領域は、前記人物の骨の領域を含み、前記X線高透過領域は、前記人物の肺野の領域を含んでいてもよい。
【0033】
上記のX線画像物体認識システムにおいて、前記学習ネットワークは、ニューラルネットワークで構成されていてもよい。
【発明の効果】
【0034】
上記の構成によれば、撮影情報に基づいてデータ拡張パラメータが適切に決定されるため、上記データ拡張パラメータに基づいてデータ拡張を適切に行うことができ、学習時のX線画像に対して意図しないデータ拡張が行われる事態を回避することができる。これにより、データ拡張後の画像を用いて学習ネットワークを適切に機械学習させることができるため、推論時に、学習ネットワークは、入力されるX線画像に対して物体(撮影対象部位)を精度よく認識(推論)することが可能となる。また、撮影情報に基づいて決定されたデータ拡張パラメータを用いてデータ拡張が行われて、学習ネットワークが機械学習されるため、推論時に、学習ネットワークは、どのような撮影条件で撮影されたX線画像が入力されても、物体を認識することが可能となる。つまり、推論時には、入力されるX線画像の撮影条件に関係なく、単一の学習ネットワークで物体を認識することが可能となる。
【図面の簡単な説明】
【0035】
【
図1A】X線による人物の正面撮影時の状態を模式的に示す説明図である。
【
図1B】正面撮影によって得られた胸部のX線画像の一例を示す説明図である。
【
図2A】X線による人物の斜位撮影時の状態を模式的に示す説明図である。
【
図2B】斜位撮影によって得られた胸部のX線画像の一例を示す説明図である。
【
図3】人物の上腕骨のX線画像の一例を示す説明図である。
【
図4】人物の股関節のX線画像の一例を示す説明図である。
【
図5】胸部正面画像用学習モデルを生成する処理の流れを示す説明図である。
【
図6】胸部斜位画像用学習モデルを生成する処理の流れを示す説明図である。
【
図7】上腕骨画像用学習モデルを生成する処理の流れを示す説明図である。
【
図8】複数の学習モデルの中から、撮影条件に応じた学習モデルを読み込んで推論を行う場合の処理の流れを示す説明図である。
【
図9】本発明の一実施形態に係るX線画像物体認識システムの概略の構成を示すブロック図である。
【
図10】上記X線画像物体認識システムが備える学習ネットワークの学習方法における処理の流れを示すフローチャートである。
【
図11A】学習セットに含まれるX線画像の一例を示す説明図である。
【
図11B】
図11AのX線画像に基づいて作成された正解ラベルの一例を示す説明図である。
【
図12】
図11Bの正解ラベルと、照射野外に対応する正解ラベルとを併せて示す説明図である。
【
図13A】他の学習セットに含まれるX線画像の一例を示す説明図である。
【
図13B】
図13AのX線画像に基づいて作成された正解ラベルの一例を示す説明図である。
【
図14】X線画像内の物体認識用の矩形領域を正解ラベルとして用いる例を示す説明図である。
【
図15】X線画像のヒストグラムの一例を模式的に示す説明図である。
【
図17】上記X線画像物体認識システムにおいて、物体認識時の処理の流れを示すフローチャートである。
【
図18】学習データが十分にある場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。
【
図19】学習データが少ない場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。
【
図20】データ拡張を適切に行った場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。
【
図21】意図しないデータ拡張を行った場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。
【発明を実施するための形態】
【0036】
本発明の実施の一形態について、図面に基づいて説明すれば、以下の通りである。まず、本実施形態のX線画像物体認識システムについて説明する前に、上述した課題について説明を補足しておく。
【0037】
(課題についての補足)
Deep Learningによる物体認識が可能なアルゴリズムについては、様々な論文で紹介されており、中でも、R-CNN(Regions with Convolutional Neural Networks)、Fast R-CNN、Faster R-CNN、YOLO(You Only Look Once)などのアルゴリズムが有名である。これらのアルゴリズムは、物体認識の精度を競う国際コンテスト“ImageNet Large Scale Visual Recognition Challenge(ILSVRC)”などで使われる画像を対象に考えられている。例えば、ILSVRC2012のデータセットを用いると、指定された1000のオブジェクトカテゴリーで、ランダムに5万枚のデータを学習させることが可能であり、合計5000万枚の画像データをニューラルネットワークに学習させることができる。このため、上記の各アルゴリズムを採用するニューラルネットワークでは、複雑なデータ拡張処理を必要としない。つまり、元画像に対して単純に移動、回転、拡大・縮小、反転などの処理をランダムで実施することにより、データ拡張を行うことが可能である。
【0038】
また、画像を画素レベルで把握するSemantic Segmentationにおいて有名な手法であるSegNetの論文に記載されている入力画像は、車載シーンに限定された画像を想定した手法であるため、データ拡張によって大量のデータを取得することは不要である。さらに、車載画像は、車から前方に見えるシーンであるため、路面、空、ビル、前方の車・人などの位置は限定される。また、細胞検出を想定したU-Netにおいても同様であり、細胞の撮影画像は、位置や大きさなどが異なるものの、大幅に形状が異なったりすることはないため、複雑なデータ拡張を行うことは不要である。
【0039】
これに対して、医療分野におけるX線画像は、上述したように、大量に入手が困難なデータであり、DNNの認識性能を向上させるためにはデータ拡張が必要不可欠であるが、撮影対象部位や撮影方向などの違いにより、取得される画像のバリエーションが多い。
【0040】
例えば、肺野内や肋骨を診断することを目的としてX線撮影を行う場合、
図1Aに示す正面撮影や、
図2Aに示す斜位撮影が実施される。ここで、
図1Bは、正面撮影によって得られた胸部のX線画像の一例を示し、
図2Bは、斜位撮影によって得られた胸部のX線画像の一例を示している。
【0041】
また、例えば、上腕骨、大腿骨、股関節などの診断を実施する場合、特定幹部を中心とするX線撮影が行われる。このとき、被爆を低減するために、撮影対象部位である特定幹部以外を放射線防護シートなどで覆った状態でX線撮影が行われる(放射線照射抑制)。例えば、
図3は、上腕骨のX線画像の一例を示し、
図4は、股関節のX線画像の一例を示している。なお、腕を回すことによって上腕骨の位置は様々に変化するため、特に上腕骨については、X線撮影の自由度がかなり高い。
【0042】
このように、X線画像には、多くのバリエーションが存在する。したがって、入力されるX線画像に対して単純に精度よく部位認識を行うためには、例えば、クラス(撮影対象部位)ごとに学習を行ってDNN(学習モデル)をクラスごとに生成し、撮影者(例えば放射線技師)がX線撮影時に入力する情報(例えば撮影対象部位、撮影方向)をもとに、クラスに対応する学習モデルを読み込んで(選択して)、部位認識(推論)を行う手法が考えられる。
【0043】
例えば、胸部正面のX線画像から撮影対象部位を認識する学習モデル(胸部正面画像用学習モデル)を生成する場合、
図5に示すように、学習用に予め用意された胸部正面のX線画像と正解ラベルとを含む学習セットを用い、上記X線画像に対してデータ拡張を行い、新たに生成されたX線画像とその正解データとを用いてDNNを学習させることで、胸部正面画像用の学習モデルを生成する。同様に、胸部斜位のX線画像から撮影対象部位を認識する学習モデル(胸部斜位画像用学習モデル)を生成する場合、
図6に示すように、学習用に予め用意された胸部斜位のX線画像と正解ラベルとを含む学習セットを用い、上記X線画像に対してデータ拡張を行い、新たに生成されたX線画像とその正解データとを用いてDNNを学習させることで、胸部斜位画像用学習モデルを生成する。また、上腕骨のX線画像から撮影対象部位を認識する学習モデル(上腕骨画像用学習モデル)を生成する場合、
図7に示すように、学習用に予め用意された上腕骨のX線画像と正解ラベルとを含む学習セットを用い、上記X線画像に対してデータ拡張を行い、新たに生成されたX線画像とその正解データとを用いてDNNを学習させることで、上腕骨画像用学習モデルを生成する。そして、推論時には、
図8に示すように、複数の学習モデルの中から、撮影者がX線撮影時に入力する撮影条件(クラス)に応じた学習モデルを読み込み、読み込んだ学習モデルにX線画像のデータを入力して対象部位の推論を行い、その結果を出力する。
【0044】
しかし、上記のように撮影条件ごとに学習モデルを用意する場合、複数の学習モデルの中から所定の学習モデルを選択するために、上記のように撮影者の撮影条件の入力が必要となり、撮影者の手を煩わせるとともに、処理が煩雑化する。上述のように、X線画像の分野では、上記の推論(部位認識)は、出力X線画像の画質改善のための前処理を目的として行われるため、その処理は効率よく行われることが望ましく、また、処理負荷も少ないことが望ましい。そのためには、撮影条件ごとに学習ネットワーク(学習モデル)を生成するのではなく、一括して(単一の)学習ネットワークを生成し、様々な撮影条件で撮影されたどのX線画像についても、単一の学習ネットワークに入力することによって撮影対象部位を認識できるようにすることが望ましい。
【0045】
また、異なる撮影条件で撮影されるX線画像は、多種にわたる画像であり、多くのバリエーションが存在するため、以下の事態が生じ得る。
(a)各X線画像の間でデータが不整形である(各X線画像の縦横比率がバラバラである)。
(b)各X線画像において撮影対象物体が映っているアングルが揃っていない(正面撮影、斜位撮影などによる)。
(c)撮影対象物体以外の異物(例えば体内に埋め込まれたペースメーカーやボルト、ネックレスなど)がX線画像に映る。
(d)正解データのあるX線画像の量が複数のクラス間で不均一である(例えば元画像として胸部の正面X線画像は多く集まるが、股関節のX線画像は集まりにくい)。
【0046】
したがって、これらの事態を担保するデータ拡張を実施することが必要となり、多くのバリエーションを想定した人為的な操作を加える必要がある。しかし、単純に、元画像に対して移動、回転、拡大・縮小、反転などの人為的な操作を加えてデータ拡張を行うと、X線画像は元々少数であるため、上述したように、回転しすぎた胸部正面X線画像や、子供の胸部正面X線画像よりもさらに小さいX線画像が作成されるなど、普段の撮影では得られない画像が作成される場合がある。このような意図しないデータ拡張が行われて、意図しない学習が行われると、
図21で示したように、DNNは入力されるX線画像に対して本来の正解に近い値(破線参照)を予測することができず、物体の認識性能が低下する。
【0047】
そこで、本実施形態では、学習時に入力された画像に対し、入力画像・正解ラベルをもとに撮影条件を推定し、推定結果をもとにデータ拡張のパラメータを決定し、決定したパラメータに基づいてデータ拡張を行うことで、意図しないデータ拡張が行われる事態を回避して精度の良い物体認識を可能としつつ、単一の学習ネットワークを機械学習させることにより、様々な撮影条件で撮影されたどのX線画像に対しても物体認識を可能としている。以下、本実施形態のX線画像物体認識システムについて説明する。
【0048】
(X線画像物体認識システムの構成)
図9は、本実施形態のX線画像物体認識システム1の概略の構成を示すブロック図である。X線画像物体認識システム1は、記憶部2と、通信部3と、全体制御部4と、学習ネットワーク5と、撮影情報算出部6と、データ拡張パラメータ決定部7と、学習処理部8とを備えている。このうち、学習ネットワーク5、撮影情報算出部6、データ拡張パラメータ決定部7および学習処理部8は、大量のデータの演算処理が可能であるGPUで構成されている。このようなX線画像物体認識システム1は、例えばPC(パーソナルコンピュータ)で構成することができる。なお、
図9では、本実施形態で直接関係する構成のみを図示しており、入力部(例えばマウスやキーボード)や表示部(例えば液晶表示装置)などの他の構成についての図示を省略している。
【0049】
ここで、本実施形態において、「物体」とは、X線画像に基づいて認識(推論、予測)する対象となる対象物を指し、人物においてX線の透過量が相対的に少ないX線低透過領域、およびX線の透過量が相対的に多いX線高透過領域の少なくとも一方を含む。X線低透過領域は、例えば人物の骨(頭骨、頸椎、椎体、肩甲骨、肋骨、骨盤、四肢など)の領域を含み、X線高透過領域は、例えば人物の肺野の領域を含む。
【0050】
記憶部2は、各種の情報を記憶するメモリであり、例えばハードディスクで構成されるが、RAM(Random Access Memory)、ROM(Read Only Memory)、光ディスク、光磁気ディスク、不揮発性メモリなどの記録媒体から適宜選択して構成されてもよい。上記各種の情報には、物体のX線画像および上記物体に対応する正解ラベル(詳細は後述する)の学習セット、データ拡張を行った後のX線画像および正解ラベルの学習セットの情報などが含まれる。通信部3は、外部と通信するためのインターフェースであり、入出力ポートのほか、アンテナ、送受信回路、変調回路、復調回路などを含んで構成される。したがって、例えば、データ拡張の元となるX線画像や物体の正解ラベルの情報を、通信部3を介して外部から取得して記憶部2に記憶させることが可能である。全体制御部4は、例えばCPU(Central Processing Unit;中央演算処理装置)で構成されており、X線画像物体認識システム1の各部の動作を制御する。
【0051】
学習ネットワーク5は、記憶部2に記憶された学習セット(例えば物体のX線画像と、物体に対応する正解ラベルとを含む学習セット)を用いて機械学習(教師あり学習)を行う学習モデルである。本実施形態では、学習ネットワーク5は、ニューラルネットワークで構成されている。ニューラルネットワークとしては、R-CNN、Fast R-CNN、Faster R-CNN、FCN(Fully Convolutional Networks;完全畳み込みネットワーク)、SegNet、U-Netなどの公知のネットワークを利用することができるが、利用可能なニューラルネットワークはこれらに限定されない。
【0052】
撮影情報算出部6は、上記学習セットから、物体のX線撮影時の撮影条件を導くための撮影情報を算出する。データ拡張パラメータ決定部7は、撮影情報算出部6によって算出された撮影情報に基づいて、学習用のX線画像から新たなX線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定する。学習処理部8は、上記データ拡張パラメータに基づいてデータ拡張を行い、取得した新たなX線画像と正解ラベルとを用いて学習ネットワーク5を機械学習させる。なお、撮影情報算出部6、データ拡張パラメータ決定部7、および学習処理部8の詳細については、以下の動作説明の中で併せて行う。
【0053】
(X線画像物体認識システムの動作(学習時))
次に、本実施形態のX線画像物体認識システム1の動作について説明する。本実施形態では、入力画像に対する物体認識(推論)の前に、学習用のX線画像と正解ラベルとを含む学習セットを利用して、学習ネットワーク5の学習が行われる。
図10は、学習ネットワーク5の学習方法における処理の流れを示すフローチャートである。この学習方法は、学習セット準備工程(S1)と、撮影情報算出工程(S2)と、データ拡張パラメータ決定工程(S3)と、データ拡張工程(S4)と、機械学習工程(S5)とを含む。以下、各工程の詳細について説明する。
【0054】
〈S1;学習セット準備工程〉
S1では、学習用のX線画像と正解ラベルとを含む学習セットを準備する。ここでは、上記学習セットを外部の図示しないPCまたはデータベース(サーバー)にて用意し、上記学習セットのデータを上記PC等からX線画像物体認識システム1に送信することで、上記学習セットを準備する。なお、上記の学習セットは、X線画像物体認識システム1の内部で作成されて準備されてもよい。
【0055】
図11Aは、学習セットに含まれるX線画像の一例を示し、
図11Bは、上記X線画像に基づいて作成された正解ラベルの一例を示している。例えば第三者は、
図11AのX線画像から、上腕骨、肺野と重なる肋骨、肺野と重ならない肋骨、の各領域をそれぞれ把握することができる。そこで、第三者は、外部のPCにおいて所定の図形作成用ソフトウェアを用いて人為的な操作を行うことにより、上記各領域の形状と対応する形状(形状が同一である場合、同一ではないが非常に近い場合の両方を含む)の正解ラベルL1~L3を作成する。上記X線画像と上記正解ラベルL1~L3とを含む学習セットの情報は、上記PCからX線画像物体認識システム1に送信されて記憶部2に記憶される。このとき、第三者は、
図12に示すように、X線画像内でX線が照射されていない領域を示す照射野外に対応する形状の正解ラベルL4をさらに作成して、上記学習セットに含めるようにしてもよい。なお、
図11Bおよび
図12において、符号Bは、背景の領域を指す(他の図面でも同様とする)。
【0056】
図13Aは、他の学習セットに含まれるX線画像の一例を示し、
図13Bは、上記X線画像に基づいて作成された正解ラベルの一例を示している。この例は、
図13AのX線画像から、上記X線画像に含まれる肺野と重なる肋骨、肺野と重ならない肋骨、の各領域の形状と対応する形状の正解ラベルL11・L12を第三者がPCで作成した場合を示している。上記X線画像と上記正解ラベルL11・L12とを含む学習セットの情報は、上記と同様に、上記PCからX線画像物体認識システム1に送信されて記憶部2に記憶される。
【0057】
上記した正解ラベルは、人体の骨(例えば頭骨、頸椎、椎体、肩甲骨、肋骨、骨盤、四肢など)の領域とそれぞれ対応する形状で予め作成(付与)されるため、骨ごとに異なる形状のラベルとなっている。上記の骨以外の領域であっても、特徴的な構造物(例えば心臓などの臓器、肺野)に対して対応する形状の正解ラベルが予め作成されてもよい。
【0058】
なお、以上で示した正解ラベルは、X線画像において物体の領域と形状が対応していることから、物体の領域抽出(Segmentation)を目的として作成(付与)されたラベルであると言える。しかし、
図14に示すように、X線画像内の物体認識用の矩形領域を正解ラベルとして用いてもよい。同図では、X線画像において、肺野を囲む矩形領域R1、心臓を囲む矩形領域R2、上腕骨頭を囲む矩形領域R3、肋骨を囲む矩形領域R4を、それぞれ正解ラベルとして用いる例を示している。
【0059】
〈S2;撮影情報算出工程〉
撮影情報算出部6は、S1で準備した学習セットに含まれるX線画像と、そのX線画像に含まれる物体の領域と対応する形状の正解ラベルとに基づいて、X線撮影時の撮影条件を導くための撮影情報を算出する。例えば、
図11Aで示したX線画像について撮影情報を算出する場合、撮影情報算出部6は、上記X線画像において正解ラベルL1~L3と対応する物体の領域の画素数を算出する。上記画素数は、撮影対象部位およびX線撮影時の撮影方位に固有の値であり、上記画素数に基づいて、例えば「上腕骨および肋骨を正面から撮影した」ことを導くことができる。このため、上記画素数は、X線撮影時の撮影条件を導くための撮影情報を構成する。なお、このときの撮影情報(物体領域の画素数)の算出は、学習用のX線画像と正解ラベルとを含む学習セットのそれぞれについて行われる。
【0060】
また、撮影情報算出部6は、学習セットに含まれるX線画像内で物体を囲む矩形領域に基づいて、撮影情報を算出してもよい。例えば、
図14で示したX線画像について撮影情報を算出する場合、撮影情報算出部6は、X線画像の画像データ(画素値)に基づいて、肺野を囲む矩形領域R1、心臓を囲む矩形領域R2、上腕骨頭を囲む矩形領域R3、肋骨を囲む矩形領域R4をそれぞれ設定し、各矩形領域R1~R4の面積(または画素数)を算出してもよい。上記面積は、撮影対象部位およびX線撮影時の撮影方位に固有の値であり、上記面積に基づいて、例えば「胸部を正面から撮影した」ことを導くことができる。このため、上記面積も、X線撮影時の撮影条件を導くための撮影情報を構成する。なお、このときの撮影情報(矩形領域の面積)の算出は、学習用のX線画像のそれぞれについて行われる。
【0061】
また、撮影情報算出部6は、S1で準備した学習セットから、学習セットに含まれるX線画像内で物体以外の領域を示す物体外領域情報をさらに算出してもよい。上記の物体外領域情報としては、ここでは、X線画像内でX線が照射されていない領域の情報、つまり、X線の照射野外の情報を考えることができる。照射野外の情報の算出方法としては、以下の3つの方法のうちの少なくともいずれかを採用することができる。
【0062】
(1)
図12で示したように、X線画像内で照射野外に対応する形状の正解ラベルL4が予め作成され、その正解ラベルL4が学習セットに含まれている場合、撮影情報算出部6は、学習セットに含まれる正解ラベルL4に基づいて、照射野外の情報を算出する。例えば、撮影情報算出部6は、学習セットのX線画像内で正解ラベルL4と対応する領域を、照射野外の領域であると判断し、その領域の画素数を照射野外の情報として算出(出力)する。
【0063】
(2)撮影情報算出部6は、学習セットに含まれるX線画像のヒストグラム情報に基づいて、照射野外の情報を算出する。
図15は、X線画像のヒストグラムの一例を模式的に示している。一般的に、X線画像では、骨領域のように、X線が透過しにくい領域は、白
く映り、X線が透過しやすい領域は黒く映る。照射野外は、X線撮影時の被爆を防ぐべく
、X線が透過しないように対象部位以外を遮蔽することによって生じるため、X線画像で
は最も白く映る。したがって、撮影情報算出部6は、
図15に示すように、X線画像における画素値と度数との関係を示すヒストグラムを作成し、X線画像全体の画素数に対する、画素値が閾値Th以上である度数の合計の割合を算出することにより、X線画像全体に対する照射野外の領域の割合を照射野外の情報として算出することができる。
【0064】
(3)撮影情報算出部6は、学習セットに含まれるX線画像の各画素値を二値化した二値化画像に基づいて、照射野外の情報を算出する。上記(2)でも述べたように、照射野外は、X線画像では最も白く映る。例えば、X線画像の各画素値の取り得る範囲が0(黒)~4095(白)であれば、閾値として4000を考えることにより、画素値が0~4000までを「0」とし、画素値が4001~4095までを「1」とする二値化処理を行うことができる。例えば
図11AのX線画像に対して上記の二値化処理を行うと、
図16に示すような二値化画像が得られる。なお、
図16において、二値化した後の画素値が「1」の領域T1は、照射野外の領域に対応し、二値化した後の画素値が「0」の領域T2は、照射野の領域に対応する。このように、撮影情報算出部6は、X線画像の各画素値を二値化することにより、二値化画像から照射野外の領域T1を認識することができ、これによって、領域T1の画素数を照射野外の情報として算出(出力)することができる。
【0065】
〈S3;データ拡張パラメータ決定工程〉
データ拡張パラメータ決定部7は、S2で取得された撮影情報と、物体外領域情報(照射野外の情報)と、予め設定された閾値とに基づいて、データ拡張パラメータを決定する。より具体的には以下の通りである。なお、ここでは、例として、X線画像のサイズを480画素×360画素として説明するが、以下で示す閾値は、画像サイズに応じて適宜調整可能である。
【0066】
まず、データ拡張パラメータ決定部7は、学習セットに含まれるX線画像において、「背景のサイズ(正解ラベル無しの領域の画素の総和)/画像サイズ(画像全体の画素数)≧0.90」を満足するか否か、または、「照射野外の領域が30000画素(第3の閾値)以上」を満足するか否かを判断する。上記条件を満足する場合、X線画像内に照射野外の領域などがあり、X線画像全体に対して物体の占める領域が絞られた画像であると判断できる。
【0067】
次に、データ拡張パラメータ決定部7は、X線画像において、「上腕骨を示す正解ラベルL1(
図11B参照)と対応する領域の総画素数≧第1の閾値(例えば15000画素)」を満足するか否かを判断する。条件を満足する場合、X線画像において上腕骨の領域がかなり大きい割合を占めるため、X線画像は、大人の画像、つまり、画像全体に対して物体のスケールが大きい画像であると判断できる。この場合、データ拡張パラメータ決定部7は、X線画像をそれ以上大きくすると、あり得ない撮影シーンの画像となる可能性が高い(他の撮影シーンに適合しない)と判断し、データ拡張パラメータとしてのX線画像の縮小・拡大率を0.6~1倍の間でランダムに設定する。つまり、データ拡張パラメータ決定部7は、X線画像内の物体の領域の総画素数が第1の閾値以上である場合には、X線画像の縮小・拡大率を、X線画像を等倍または縮小する値に設定する。
【0068】
次に、データ拡張パラメータ決定部7は、X線画像において、「上腕骨を示す正解ラベルL1と対応する領域の総画素数≦第2の閾値(例えば3000画素)」を満足するか否かを判断する。上記条件を満足する場合、上腕骨がかなり小さいため、X線画像は、子供の画像、つまり、画像全体に対して物体のスケールが小さい画像であると判断できる。この場合、データ拡張パラメータ決定部7は、X線画像をそれ以上小さくすると、あり得ない撮影シーンの画像となる可能性が高いと判断し、データ拡張パラメータとしてのX線画像の縮小・拡大率を1~1.4倍の間でランダムに設定する。つまり、データ拡張パラメータ決定部7は、X線画像内の物体の領域の総画素数が第1の閾値よりも小さい第2の閾値以下である場合には、X線画像の縮小・拡大率を、X線画像を等倍または拡大する値に設定する。
【0069】
一方、上記いずれの条件も満足しない場合、つまり、X線画像において、「第2の閾値<上腕骨を示す正解ラベルL1と対応する領域の総画素数<第1の閾値」である場合、データ拡張パラメータ決定部7は、元のX線画像を拡大しても縮小しても、あり得ない撮影シーンの画像となる可能性が低い(他の撮影シーンに適合する)と判断し、データ拡張パラメータとしてのX線画像の縮小・拡大率を0.8~1.2倍の間でランダムに設定する。
【0070】
次に、データ拡張パラメータ決定部7は、上記スケール設定(縮小・拡大率の設定)に従って、その他のデータ拡張パラメータを決定する。例えば、データ拡張パラメータ決定部7は、X線画像の縮小・拡大率を0.6~1倍に設定した場合、X線画像のシフト量を、上下左右斜め方向に±40画素数の範囲でランダムに設定し、X線画像の回転角を、±6°の範囲でランダムに設定する。また、データ拡張パラメータ決定部7は、X線画像の縮小・拡大率を1~1.4倍に設定した場合、X線画像のシフト量を、上下左右斜め方向に±20画素数の範囲でランダムに設定し、X線画像の回転角を、±2°の範囲でランダムに設定する。さらに、データ拡張パラメータ決定部7は、X線画像の縮小・拡大率を0.8~1.2倍に設定した場合、X線画像のシフト量を、上下左右斜め方向に±30画素数の範囲でランダムに設定し、X線画像の回転角を、±4°の範囲でランダムに設定する。
【0071】
なお、上記したシフト量などの設定は、上記スケール設定に応じた固定範囲内で(そのままスケール情報に対応して連動して)行ってもよいが、実際のスケール設定の情報に応じて可変にしてもよい。例えば、データ拡張パラメータ決定部7は、X線画像の縮小・拡大率を1~1.4倍の間でA倍に設定した場合、X線画像のシフト量を、上下左右斜め方向に±40×Aの画素数の範囲でランダムに設定し、X線画像の回転角を、±6°×Aの範囲でランダムに設定するなどして、シフト量等にスケールの割合を反映してもよい。
【0072】
また、本実施形態では、データ拡張パラメータ決定部7は、X線画像内の物体外領域(照射野外の領域)の総画素数が30000画素(第3の閾値)未満である場合、上記X線画像が、胸部の正面画像であると判断する。胸部の正面画像は大人についても子供についても多く集まりやすいため、データ拡張の範囲を広げる必要性に乏しい。そこで、データ拡張パラメータ決定部7は、データ拡張パラメータの設定可能範囲を制限する。つまり、データ拡張パラメータ決定部7は、データ拡張が行われない値に縮小・拡大率、シフト量、回転角を設定するか、データ拡張が微小量だけ行われる値に設定する。例えば、データ拡張パラメータ決定部7は、縮小・拡大率を0.9~1.1倍の範囲でランダムに設定し、X線画像のシフト量を、上下左右斜め方向に±10画素数の範囲でランダムに設定し、X線画像の回転角を、±1°の範囲でランダムに設定する。
【0073】
〈S4;データ拡張工程〉
学習処理部8は、S3で決定されたデータ拡張パラメータに基づいて、学習セットに含まれるX線画像から新たなX線画像を作成するデータ拡張を行う。データ拡張の種類としては、Horizontal Flip(水平方向の反転)、Vertical Flip(垂直方向の反転)、Crop(1枚の画像からランダムに切り抜く)、Scale(スケールを変化させながらCrop)、Rotation(画像を回転)、Cutout(画像の一部をマスクすることによって、より汎化能力をあげる)、Sift(画像位置を変える)、などがある。ここでは、S3で決定されたデータ拡張パラメータに基づいて、Scale、Rotation、Siftのデータ拡張が行われる。つまり、決定された縮小・拡大率、回転角、シフト量でデータ拡張(Scale、Rotation、Sift)が行われる。Scale、Rotation、Sift以外のデータ拡張は、必要に応じて行われればよい。
【0074】
〈S5;機械学習工程〉
学習処理部8は、S4でのデータ拡張によって取得した新たなX線画像と正解ラベルとを用いて学習ネットワーク5を機械学習させる。学習ネットワーク5の学習アルゴリズムとしては、一般的な誤差逆伝播法(バックプロパゲーション)を用いることができる。誤差逆伝播法は、学習ネットワーク5への画像(画素値)の入力に対して学習ネットワーク5の最終層から出力される値(尤度(スコア))と、正解を示す値(尤度(スコア))との2乗誤差が最小となるように、最急降下法を用いて、学習ネットワーク5を構成する各ノード(ユニット)の重み(結合荷重)を最終層側から入力層側に向かって順次変化させていく手法である。このような機械学習により、学習済みの学習ネットワーク5(学習モデル)が得られる。
【0075】
なお、学習ネットワーク5として、SegNetのような重み付け学習ネットワークを使用する場合、入力画像(データ拡張された新たなX線画像)ごとに、各クラス(領域)の重み(寄与率)を変更するようにしてもよい。例えばX線画像に上腕骨の領域と背景の領域とが含まれる場合において、上腕骨の領域の面積が背景の領域の面積よりも非常に小さいと、背景の領域に引っ張られてネットワークが学習される結果、学習後のネットワークで上腕骨の領域を認識する際の精度が低下するおそれがある。上記のように学習時に入力画像ごとに各クラスの重みを設定することにより、学習後の各領域の認識精度の低下を抑えることができる。
【0076】
ちなみに、SegNet の論文(A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation、https://arxiv.org/pdf/1511.00561.pdf)では、学習時に用いる全画像から、各クラスの重み(class balancing)を計算することが開示されているが、本実施形態では、全画像ではなく、入力される画像ごとに各クラスの重みを計算する点で、上記の論文の手法とは異なる。
【0077】
(X線画像物体認識システムの動作(推論時))
上述のようにして学習ネットワーク5が機械学習されると、その学習ネットワーク5を用いて、入力画像に含まれる物体の認識(物体の推論、予測)を行うことが可能となる。
図17は、X線画像物体認識システム1において、物体認識時の処理の流れを示すフローチャートである。
【0078】
学習ネットワーク5の入力層に、認識対象となる物体を撮影したX線画像が入力されると(S11;X線画像入力工程)、学習ネットワーク5は、入力された上記X線画像から、X線撮影された物体を認識し(S12;推論工程)、その認識結果を出力する(S13;出力工程)。
【0079】
本実施形態のように撮影情報に基づいてデータ拡張パラメータを決定し、決定したデータ拡張パラメータに基づいてデータ拡張を行って学習ネットワーク5を機械学習させた場合、IoU(Intersection over Union)値は70%以上であった。なお、IoUとは、正解領域と予測領域との重なり具合いを表す指標であり、その値が大きいほど予測が正解に近く、識別性能が高いことを表す。これに対して、撮影情報に基づいてデータ拡張パラメータを決定せず、データ拡張をランダムに行って学習ネットワークを機械学習させた場合、IoU値は65%であった。したがって、本実施形態の手法によれば、X線画像に含まれる物体の認識精度が向上すると言える。
【0080】
なお、S11では、学習時に取得されたデータ拡張パラメータの情報を活用し、入力されたX線画像のサイズを、データ拡張パラメータに応じて変更してもよい。この場合、入力X線画像をデータ拡張時のサイズに近づけて、物体認識をより精度よく行うことが可能となる。
【0081】
(効果)
以上のように、本実施形態のX線画像物体認識システム1によれば、データ拡張パラメータ決定部7は、撮影情報算出部6によって算出された撮影情報に基づいてデータ拡張パラメータを決定する(S2、S3)。物体のX線撮影時の撮影条件を考慮してデータ拡張パラメータが適切に決定されるため、学習処理部8が上記データ拡張パラメータに基づいてデータ拡張を行うことで(S4)、学習用のX線画像(例えば正立状態で撮影された胸部正面のX線画像)に対して、普段のX線撮影ではあり得ない画像(天地が逆転した胸部正面のX線画像)が擬似的に作成されるような、意図しないデータ拡張が行われる事態を回避することができる。したがって、学習処理部8が、適切なデータ拡張によって取得した新たなX線画像と正解ラベルとを用いて学習ネットワーク5を機械学習させることにより(S5)、学習ネットワーク5は、推論時(物体の認識時)に学習データ以外のX線画像が入力された場合でも、入力された上記X線画像から、X線撮影された物体を適切に予測することが可能となり、物体を精度よく認識(推論)することが可能となる(S11~S13)。
【0082】
また、物体の撮影情報に基づいてデータ拡張パラメータが決定され、決定されたデータ拡張パラメータに基づいてデータ拡張が行われ、データ拡張後の画像を用いて学習ネットワークが機械学習されるため、推論時には、単一の学習ネットワーク5で、様々な撮影条件で撮影されたX線画像に対応することができる。つまり、どのような撮影条件で撮影されたX線画像が入力されても、同じ学習ネットワーク5で物体を認識することができる。したがって、個々の撮影条件ごとに学習ネットワークを用意して推論を行う場合のように、複数の学習ネットワークの中から撮影条件に応じた学習ネットワークを選択するための、撮影者による撮影条件の入力を不要とすることができる。このことは、出力するX線画像の画質を改善するための前処理として物体認識を行う際の処理の効率向上にもつながり、迅速な前処理が可能となる。
【0083】
また、撮影情報算出部6は、学習セットに含まれるX線画像と、そのX線画像に含まれる物体の領域と対応する形状の正解ラベルとに基づいて、撮影情報を算出する(S2)。このように、撮影情報算出部6がX線画像と正解ラベルとを用いて撮影情報を算出する構成において、上述した本実施形態の効果を得ることができる。
【0084】
特に、上記撮影情報は、X線画像において正解ラベルと対応する物体の領域の画素数である。上記画素数は、X線撮影時の撮影部位および撮影方位を反映しているため、X線撮影時の撮影条件を導くための撮影情報として有効に用いることができる。
【0085】
このとき、撮影情報算出部6は、学習セットに含まれるX線画像内で物体を囲む矩形領域に基づいて、撮影情報を算出してもよい(S2)。このように、撮影情報算出部6が上記矩形領域に基づいて撮影情報を算出する構成であっても、上述した本実施形態の効果を得ることができる。
【0086】
特に、上記撮影情報は、上記矩形領域の面積である。上記矩形領域の面積は、X線撮影時の撮影部位および撮影方位を反映しているため、X線撮影時の撮影条件を導くための撮影情報として有効に用いることができる。
【0087】
また、撮影情報算出部6は、学習セットから、学習セットに含まれるX線画像内で物体以外の領域を示す物体外領域情報をさらに算出してもよい(S2)。この場合、データ拡張パラメータ決定部7は、物体外領域情報をさらに考慮に入れてデータ拡張パラメータを決定することができるため、意図しないデータ拡張が行われないようなデータ拡張パラメータを精度よく決定することが可能となる。
【0088】
ここで、物体外領域情報は、X線の照射野外の情報であってもよい。そして、撮影情報算出部6は、学習セットに含まれる、X線の照射野外の領域に対応する形状の正解ラベル(例えば
図12の正解ラベルL4)に基づいて、照射野外の情報(例えば画素数)を算出してもよい。学習データに上記正解ラベルが含まれている場合には、上記正解ラベルに基づいて、照射野外の情報を確実に得ることができる。
【0089】
また、撮影情報算出部6は、学習セットに含まれるX線画像のヒストグラム情報に基づいて、照射野外の情報を算出してもよい(
図15参照)。照射野外は、X線画像では白く映るため、上記ヒストグラム情報に基づいて、照射野外の情報(例えば全画像領域に対する照射野外の領域の割合)を確実に得ることができる。
【0090】
また、撮影情報算出部6は、学習セットに含まれるX線画像の各画素値を二値化した二値化画像に基づいて、照射野外の情報を算出してもよい(
図16参照)。照射野外は、X線画像では白く映るため、上記二値化画像に基づいて、照射野外の情報(例えば画素数)を確実に得ることができる。
【0091】
また、データ拡張パラメータ決定部7は、撮影情報と、物体外領域情報と、予め設定された閾値とに基づいて、データ拡張パラメータを決定する(S3)。この場合、撮影情報、物体外領域情報および閾値の3種の情報から、データ拡張パラメータを適切に決定することができる。
【0092】
ここで、データ拡張パラメータは、X線画像の縮小・拡大率、シフト量、回転角のうちの少なくとも1つであってもよい。これらのパラメータについては、適切に設定しないと、意図しないデータ拡張が行われて意図しない画像が作成される可能性が高くなる。本実施形態では、データ拡張パラメータ決定部7が、撮影情報に基づいてデータ拡張パラメータを適切に設定できるため、設定するデータ拡張パラメータに縮小・拡大率、シフト量、回転角の少なくとも1つを含めることで、適切なデータ拡張を確実に行うことが可能となる。つまり、意図しない画像が作成されるような意図しないデータ拡張が行われる事態を確実に回避することができる。
【0093】
また、データ拡張パラメータ決定部7は、学習セットに含まれるX線画像内の物体の領域の総画素数が第1の閾値以上である場合に、データ拡張パラメータとしての縮小・拡大率を、X線画像を等倍または縮小する値に設定する(S3)。上記物体の総画素数が第1の閾値以上である場合、X線画像をさらに拡大すると、あり得ない撮影シーンの画像となる可能性が高くなる。したがって、X線画像の縮小・拡大率を、X線画像を等倍または縮小する値に設定することにより、データ拡張によってあり得ない撮影シーンの画像が作成される事態を確実に回避することができる。
【0094】
また、データ拡張パラメータ決定部7は、学習セットに含まれるX線画像内の物体の領域の総画素数が第1の閾値よりも小さい第2の閾値以下である場合に、縮小・拡大率を、X線画像を等倍または拡大する値に設定する(S3)。上記物体の総画素数が第2の閾値以下である場合、X線画像をさらに縮小すると、あり得ない撮影シーンの画像となる可能性が高くなる。したがって、X線画像の縮小・拡大率を、X線画像を等倍または拡大する値に設定することにより、データ拡張によってあり得ない撮影シーンの画像が作成される事態を確実に回避することができる。
【0095】
また、データ拡張パラメータ決定部7は、縮小・拡大率とともに、シフト量および回転角の少なくとも一方を決定する(S3)。縮小・拡大率と併せて、シフト量および/または回転角を決定することにより、学習用のX線画像に対して様々なデータ拡張を行って画像数を増やすことができる。
【0096】
また、データ拡張パラメータ決定部7は、学習セットに含まれるX線画像内の物体外領域の総画素数が第3の閾値未満である場合に、データ拡張パラメータの設定可能範囲を制限する(S3)。上記物体外領域の総画素数が第3の閾値未満である場合、上記X線画像は、多く集まりやすい胸部の正面画像であると考えられるため、データ拡張によって新たな画像を作成する必要性に乏しく、また、たとえデータ拡張を行うとしても、実際にあり得ない撮影シーンとなるようなデータ拡張を回避すべく、データ拡張を微小量だけ行うことが望ましい。上記のようにデータ拡張パラメータの設定可能範囲を制限することにより、データ拡張パラメータを、データ拡張が行われない値やデータ拡張が微小量だけ行われる値に設定することができる。その結果、不要なデータ拡張が行われるのを回避したり、実際にはあり得ない撮影シーンとなるようなデータ拡張が行われるのを回避することができる。
【0097】
また、上記した物体は、人物においてX線の透過量が相対的に少ないX線低透過領域、およびX線の透過量が相対的に多いX線高透過領域の少なくとも一方を含む。このような物体をX線撮影して得られるX線画像について、本実施形態のデータ拡張を行って学習ネットワーク5を機械学習させることにより、推論時に上記物体を精度よく認識することができる。
【0098】
また、上記X線低透過領域は、人物の骨の領域を含み、上記X線高透過領域は、人物の肺野の領域を含む。したがって、物体が人物の骨の領域および肺野の領域を含む場合でも、そのような物体をX線撮影して得られるX線画像について、本実施形態のデータ拡張を行って学習ネットワーク5を機械学習させることにより、推論時に上記物体を精度よく認識することができる。
【0099】
また、学習ネットワーク5は、ニューラルネットワークで構成されている。これにより、学習ネットワーク5を機械学習させて、物体の認識精度を向上させることが可能となる。
【0100】
以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。
【産業上の利用可能性】
【0101】
本発明は、X線画像から撮影対象の物体を認識するシステムに利用可能である。
【符号の説明】
【0102】
1 X線画像物体認識システム
5 学習ネットワーク
6 撮影情報算出部
7 データ拡張パラメータ決定部
8 学習処理部