特許7115114 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特許7115114Ｘ線画像物体認識システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3
4
5
6
7
8
9
10
11A
11B
12
13A
13B
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-08-01

(45)【発行日】2022-08-09

(54)【発明の名称】Ｘ線画像物体認識システム

(51)【国際特許分類】

A61B 6/00 20060101AFI20220802BHJP

G06T 7/00 20170101ALI20220802BHJP

A61B 6/03 20060101ALI20220802BHJP

G06N 3/08 20060101ALI20220802BHJP

【ＦＩ】

A61B6/00 350D

G06T7/00 350C

A61B6/00 360Z

A61B6/03 360Z

G06N3/08 140

【請求項の数】 15

(21)【出願番号】P 2018141669

(22)【出願日】2018-07-27

(65)【公開番号】P2020014799

(43)【公開日】2020-01-30

【審査請求日】2021-03-22

(73)【特許権者】

【識別番号】000001270

【氏名又は名称】コニカミノルタ株式会社

(74)【代理人】

【識別番号】110001933

【氏名又は名称】特許業務法人佐野特許事務所

(72)【発明者】

【氏名】大和宏

【審査官】遠藤直恵

(56)【参考文献】

【文献】国際公開第２０１１／０３３８９０（ＷＯ，Ａ１）

【文献】特開２００８－０１１９０１（ＪＰ，Ａ）

【文献】特表２０１８－５１７２０９（ＪＰ，Ａ）

【文献】国際公開第２０１７／１０６６４５（ＷＯ，Ａ１）

【文献】特表２００４－５３６３６７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ６／００－６／１４

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

物体のＸ線画像と、前記物体に対応する正解ラベルとを含む学習セットを用いて機械学習を行う学習ネットワークと、
前記学習セットから、前記物体のＸ線撮影時の撮影条件を導くための撮影情報を算出する撮影情報算出部と、
前記撮影情報に基づいて、前記Ｘ線画像から新たなＸ線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定するデータ拡張パラメータ決定部と、
前記データ拡張パラメータに基づいて前記データ拡張を行い、取得した前記新たなＸ線画像と前記正解ラベルとを用いて前記学習ネットワークを機械学習させる学習処理部とを備え、
前記学習ネットワークは、前記新たなＸ線画像を用いて機械学習を行った後に入力されるＸ線画像から、Ｘ線撮影された物体を認識してその認識結果を出力し、
前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像と、前記Ｘ線画像に含まれる前記物体の領域と対応する形状の前記正解ラベルとに基づいて、前記撮影情報を算出し、
前記撮影情報は、前記Ｘ線画像において前記正解ラベルと対応する前記物体の領域の画素数であることを特徴とするＸ線画像物体認識システム。

【請求項2】

物体のＸ線画像と、前記物体に対応する正解ラベルとを含む学習セットを用いて機械学習を行う学習ネットワークと、
前記学習セットから、前記物体のＸ線撮影時の撮影条件を導くための撮影情報を算出する撮影情報算出部と、
前記撮影情報に基づいて、前記Ｘ線画像から新たなＸ線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定するデータ拡張パラメータ決定部と、
前記データ拡張パラメータに基づいて前記データ拡張を行い、取得した前記新たなＸ線画像と前記正解ラベルとを用いて前記学習ネットワークを機械学習させる学習処理部とを備え、
前記学習ネットワークは、前記新たなＸ線画像を用いて機械学習を行った後に入力されるＸ線画像から、Ｘ線撮影された物体を認識してその認識結果を出力し、
前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像内で前記物体を囲む矩形領域に基づいて、前記撮影情報を算出し、
前記撮影情報は、前記矩形領域の面積であることを特徴とするＸ線画像物体認識システム。

【請求項3】

前記撮影情報算出部は、前記学習セットから、前記学習セットに含まれる前記Ｘ線画像内で前記物体以外の領域を示す物体外領域情報をさらに算出することを特徴とする請求項１または２に記載のＸ線画像物体認識システム。

【請求項4】

前記物体外領域情報は、Ｘ線の照射野外の情報であり、
前記撮影情報算出部は、前記学習セットに含まれる、前記Ｘ線の照射野外の領域に対応する形状の正解ラベルに基づいて、前記照射野外の情報を算出することを特徴とする請求項３に記載のＸ線画像物体認識システム。

【請求項5】

前記物体外領域情報は、Ｘ線の照射野外の情報であり、
前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像のヒストグラム情報に基づいて、前記照射野外の情報を算出することを特徴とする請求項３に記載のＸ線画像物体認識システム。

【請求項6】

前記物体外領域情報は、Ｘ線の照射野外の情報であり、
前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像の各画素値を二値化した二値化画像に基づいて、前記照射野外の情報を算出することを特徴とする請求項３に記載のＸ線画像物体認識システム。

【請求項7】

前記データ拡張パラメータ決定部は、前記撮影情報と、前記物体外領域情報と、予め設定された閾値とに基づいて、前記データ拡張パラメータを決定することを特徴とする請求項３から６のいずれかに記載のＸ線画像物体認識システム。

【請求項8】

前記データ拡張パラメータは、前記Ｘ線画像の縮小・拡大率、シフト量、回転角のうちの少なくとも１つであることを特徴とする請求項７に記載のＸ線画像物体認識システム。

【請求項9】

前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記Ｘ線画像内の前記物体の領域の総画素数が第１の閾値以上である場合に、前記データ拡張パラメータとしての前記縮小・拡大率を、前記Ｘ線画像を等倍または縮小する値に設定することを特徴とする請求項８に記載のＸ線画像物体認識システム。

【請求項10】

前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記Ｘ線画像内の前記物体の領域の総画素数が前記第１の閾値よりも小さい第２の閾値以下である場合に、前記縮小・拡大率を、前記Ｘ線画像を等倍または拡大する値に設定することを特徴とする請求項９に記載のＸ線画像物体認識システム。

【請求項11】

前記データ拡張パラメータ決定部は、前記縮小・拡大率とともに、前記シフト量および前記回転角の少なくとも一方を決定することを特徴とする請求項９または１０に記載のＸ線画像物体認識システム。

【請求項12】

前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記Ｘ線画像内の前記物体外領域の総画素数が第３の閾値未満である場合に、前記データ拡張パラメータの設定可能範囲を制限することを特徴とする請求項８から１１のいずれかに記載のＸ線画像物体認識システム。

【請求項13】

前記物体は、人物においてＸ線の透過量が相対的に少ないＸ線低透過領域、およびＸ線の透過量が相対的に多いＸ線高透過領域の少なくとも一方を含むことを特徴とする請求項１から１２のいずれかに記載のＸ線画像物体認識システム。

【請求項14】

前記Ｘ線低透過領域は、前記人物の骨の領域を含み、前記Ｘ線高透過領域は、前記人物の肺野の領域を含むことを特徴とする請求項１３に記載のＸ線画像物体認識システム。

【請求項15】

前記学習ネットワークは、ニューラルネットワークで構成されていることを特徴とする請求項１から１４のいずれかに記載のＸ線画像物体認識システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、Ｘ線画像から撮影対象の物体を認識するＸ線画像物体認識システムに関する。

【背景技術】

【0002】

Ｘ線画像を扱う医療の分野では、Ｘ線撮影後に最終的に出力するＸ線画像を得るための前処理として、撮影時に取得される元画像（Ｒａｗデータ）に対して部位認識を行い、対象部位ごとに最適な画像処理パラメータを用いてデータを補正することで、出力するＸ線画像の画質改善が行われている。例えば、上腕骨、股関節、肩関節、肋骨、異物（金属・ペースメーカー）などの部位に対して、異なるガンマの値の適応などによる濃淡値の修正、ノイズ抑制などにより、出力するＸ線画像の画質改善が行われる。したがって、このようなＸ線画像の画質改善を行うにあたっては、データを補正する部位をできるだけ正確に認識することが必要であり、そのためには、元画像から上記部位を正確に抽出（認識）することが必要となる。

【0003】

ここで、画像から特定の部位を抽出する方法の一例が、特許文献１に開示されている。特許文献１では、複数の構造物（例えば骨）が含まれる医用画像（Ｘ線画像）を処理する際に、事前情報として解剖学的な位置に基づく特定の構造物（例えば肋骨）の輪郭線の集合からなる事前形状モデルを記憶部に保存し、事前形状モデルを医用画像内に配置した後、その医用画像に対して、配置された事前形状モデルの複数の輪郭線と重合する位置において、画素値に対して１次微分を行って画像特徴量を計算する。そして、事前形状モデルの輪郭線と上記画像特徴量とに基づいて、特定の構造物の候補点を検出する。これにより、複数の構造物が重なっているＸ線画像から、特定の構造物（肋骨（の輪郭線））を精度よく抽出することが可能となっている。

【0004】

一方、近年では、大量のデータの演算処理が可能であるＧＰＵ（Graphics Processing Unit）の発展により、Deep Learningと呼ばれる深層学習が注目を浴びている。Deep Learningとは、ディープニューラルネットワーク（ＤＮＮ；Deep Neural Network）を用いた学習のことである。ＤＮＮは、人間や動物の脳神経回路をモデルとしたアルゴリズムを多層構造化し、パターン認識するように設計されたニューラルネットワーク（学習ネットワーク）である。大量のデータを用いて予め学習されたＤＮＮを用いることにより、人間の力なしに入力データから自動的に特徴を抽出し、物体認識を行うことができる。

【0005】

このようなDeep Learningは、以下に示すような様々な技術または分野に適応されている。
（Ａ）音声認識
人間の声を認識してテキストデータで出力したり、音声の特徴を捉えて、音声を出している人を識別する技術。
（Ｂ）自然言語処理
文書要約、機械翻訳など、人間が日常的に使う自然言語（書き言葉・話し言葉）をコンピューターに処理・理解させる技術。
（Ｃ）異常検知
工場内の監視（故障や異常動作の検知）などのように、産業機器に取り付けられたセンサの時系列検知データから異常の兆候を感知する技術。
（Ｄ）画像認識
顔認証、自動運転、感情分析などの分野で、画像や動画を入力とし、文字、顔、一般物体などの特徴を認識し検出する技術。

【0006】

そして、近年では、上記記載の技術または分野のみならず、医療分野においてもDeep Learningの適応が進められている。Deep Learningの適応により、例えば入力されるＸ線画像に対して骨などの対象部位の領域を抽出することが可能となる。これにより、抽出した領域に対してデータ補正などの前処理を行って、最終的に出力するＸ線画像の画質改善を行うことが可能となる。

【0007】

ここで、従来、画質改善のための部位認識は、開発者がそのノウハウにより、対象部位の検出（抽出）アルゴリズムを開発し、そのアルゴリズムを機械（コンピュータ）が実行することで行われていた。しかし、Ｘ線の撮影条件（放射線量・撮影位置など）の違いや、個人差（体内の骨等の構造物の形状差）などにより、抽出精度にばらつきがあるため、複雑な抽出アルゴリズムの開発が求められていた。ＤＮＮは、上述したように人間の力なしに自動的に入力データから特徴を抽出するため、対象部位の検出にDeep Learningを適応することは、人間による複雑な抽出アルゴリズムの開発が不要となる点で非常に有効である。

【0008】

しかし、対象部位の検出にDeep Learningを適応するためには、十分な量の学習データが必要である。十分な量の学習データの入手が困難な場合、少量の学習データでもDeep LearningによるＤＮＮの学習および物体認識（物体の推論、予測）は可能であるが、過学習が生じて認識性能が低下する可能性が高くなる。つまり、学習時のデータ量が十分であれば、推論時に学習データ以外のデータがＤＮＮに入力された場合でも、図１８の実線のグラフで示すように、ＤＮＮは本来の正解に近い値を予測することができる。これに対して、学習時のデータ量が少ないと、推論時において、ＤＮＮは、学習したデータが入力された場合しか、正解を予測することができなくなり（過学習の状態）、学習データ以外のデータが入力されたときには、図１９の実線のグラフで示すように、本来の正解に近い値（破線のグラフ参照）から離れた値を予測する。その結果、物体の認識性能が低下する。

【0009】

したがって、学習データが少ない場合、上記の過学習を抑えるためには、学習データを増やす処理が必要となる。このような処理として、元画像に対して移動、回転、拡大・縮小、反転などの人為的な操作を加えることによって画像数を擬似的に増やすデータ拡張（Data augmentation）を行うことが知られている。図２０に示すように、元の画像データ（黒丸参照）に対して、適切なデータ拡張によって新たな画像データ（白丸参照）を作成し、学習データを擬似的に増やして学習を行うことにより、ＤＮＮが学習データを過剰に学習することが抑制される。これにより、推論時には、図２０の実線のグラフで示すように、ＤＮＮは入力データに対して本来の正解に近い値を予測することが可能となり、過学習による認識性能の低下を抑制することが可能となる。

【先行技術文献】

【特許文献】

【0010】

【文献】特開２０１８－１５０２２号公報（請求項１、段落〔０００８〕、〔００１８〕、〔００３０〕～〔００５６〕、図１等参照）

【発明の概要】

【発明が解決しようとする課題】

【0011】

ところで、上述したＸ線画像は、撮影装置の特殊性、被爆の問題、個人情報の問題などから、大量に入手が困難なデータである。このため、入力されるＸ線画像に対してＤＮＮの認識性能を向上させるためには、Ｘ線画像の数を擬似的に増やす上述したデータ拡張が必要不可欠である。

【0012】

しかし、Ｘ線画像は、撮影対象部位や撮影方向などの違いにより、取得される画像のバリエーションが多いため、単純に、元画像に対して移動、回転、拡大・縮小、反転などの人為的な操作を加えてデータ拡張を行うと、実際にはあり得ないシーンの画像が作成され、その画像に基づいて実際にはあり得ない撮影シーンをＤＮＮが学習してしまう可能性がある。例えば、元画像が胸部正面Ｘ線画像であり、この画像を面内で回転させて新たな画像を作成するデータ拡張を行う場合において、元画像を回転させすぎると、普段の撮影ではあり得ない胸部正面Ｘ線画像（例えば横向きのＸ線画像（正立状態から９０°回転させた場合）や天地が逆転したＸ線画像（正立状態から１８０°回転させた画像）が取得される。また、元画像が子供の胸部正面Ｘ線画像である場合、その画像を縮小させて新たな画像を作成するデータ拡張を行うと、普段の撮影ではあり得ない微小な胸部正面Ｘ線画像が取得される。

【0013】

このような意図しないデータ拡張によって作成された画像（図２１の白丸参照）に基づいて、意図しない学習が行われると、推論時には、図２１の実線のグラフで示すように、ＤＮＮは入力されるＸ線画像に対して本来の正解に近い値（破線のグラフ参照）から離れた値を予測することになり、結果的に物体の認識性能が低下する。したがって、Ｘ線画像のデータ拡張を行うにあたっては、意図しないデータ拡張が行われないように、データ拡張のパラメータを適切に設定することが必要となるが、このようなパラメータの設定については、従来一切検討されていない。

【0014】

また、Ｘ線画像は、撮影対象部位や撮影方向などの撮影条件の違いによってバリエーションが多いため、例えば、各撮影条件に応じたＤＮＮを複数用意しておけば、撮影条件ごとに、対応するＤＮＮを用いて推論（部位認識）を行うことができるとも考えられる。しかし、この場合は、複数のＤＮＮの中から撮影条件に応じたＤＮＮを選択するために、Ｘ線撮影を行う撮影者（放射線技師）が撮影条件を入力する必要が生じ、撮影者の手を煩わせる。また、Ｘ線画像の分野では、入力画像に基づく推論は、上述したように出力するＸ線画像の画質改善のための前処理を目的として行われるため、その処理は効率よく行われることが望ましく、また、処理負荷も少ないことが望ましい。以上のことを考慮すると、撮影条件ごとにＤＮＮを複数用意するのではなく、単一のＤＮＮを用意し、どのような撮影条件で撮影されたＸ線画像が入力されても、単一のＤＮＮで撮影対象部位を認識できるようにすることが望ましい。

【0015】

本発明は、上記の問題点を解決するためになされたもので、その目的は、学習時のＸ線画像に対してデータ拡張を行う際のパラメータを適切に設定することにより、意図しないデータ拡張が行われるのを回避することができ、これによって、データ拡張後の画像を用いて学習ネットワークを適切に機械学習させて、学習ネットワークが物体を精度よく認識（推論）できるようにするとともに、どのような撮影条件で撮影されたＸ線画像が入力されても、単一の学習ネットワークで物体を認識できるようにするＸ線画像物体認識システムを提供することにある。

【課題を解決するための手段】

【0016】

本発明の一側面に係るＸ線画像物体認識システムは、物体のＸ線画像と、前記物体に対応する正解ラベルとを含む学習セットを用いて機械学習を行う学習ネットワークと、前記学習セットから、前記物体のＸ線撮影時の撮影条件を導くための撮影情報を算出する撮影情報算出部と、前記撮影情報に基づいて、前記Ｘ線画像から新たなＸ線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定するデータ拡張パラメータ決定部と、前記データ拡張パラメータに基づいて前記データ拡張を行い、取得した前記新たなＸ線画像と前記正解ラベルとを用いて前記学習ネットワークを機械学習させる学習処理部とを備え、前記学習ネットワークは、前記新たなＸ線画像を用いて機械学習を行った後に入力されるＸ線画像から、Ｘ線撮影された物体を認識してその認識結果を出力する。

【0017】

上記のＸ線画像物体認識システムにおいて、前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像と、前記Ｘ線画像に含まれる前記物体の領域と対応する形状の前記正解ラベルとに基づいて、前記撮影情報を算出してもよい。

【0018】

上記のＸ線画像物体認識システムにおいて、前記撮影情報は、前記Ｘ線画像において前記正解ラベルと対応する前記物体の領域の画素数であってもよい。

【0019】

上記のＸ線画像物体認識システムにおいて、前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像内で前記物体を囲む矩形領域に基づいて、前記撮影情報を算出してもよい。

【0020】

上記のＸ線画像物体認識システムにおいて、前記撮影情報は、前記矩形領域の面積であってもよい。

【0021】

上記のＸ線画像物体認識システムにおいて、前記撮影情報算出部は、前記学習セットから、前記学習セットに含まれる前記Ｘ線画像内で前記物体以外の領域を示す物体外領域情報をさらに算出してもよい。

【0022】

上記のＸ線画像物体認識システムにおいて、前記物体外領域情報は、Ｘ線の照射野外の情報であり、前記撮影情報算出部は、前記学習セットに含まれる、前記Ｘ線の照射野外の領域に対応する形状の正解ラベルに基づいて、前記照射野外の情報を算出してもよい。

【0023】

上記のＸ線画像物体認識システムにおいて、前記物体外領域情報は、Ｘ線の照射野外の情報であり、前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像のヒストグラム情報に基づいて、前記照射野外の情報を算出してもよい。

【0024】

上記のＸ線画像物体認識システムにおいて、前記物体外領域情報は、Ｘ線の照射野外の情報であり、前記撮影情報算出部は、前記学習セットに含まれる前記Ｘ線画像の各画素値を二値化した二値化画像に基づいて、前記照射野外の情報を算出してもよい。

【0025】

上記のＸ線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記撮影情報と、前記物体外領域情報と、予め設定された閾値とに基づいて、前記データ拡張パラメータを決定してもよい。

【0026】

上記のＸ線画像物体認識システムにおいて、前記データ拡張パラメータは、前記Ｘ線画像の縮小・拡大率、シフト量、回転角のうちの少なくとも１つであってもよい。

【0027】

上記のＸ線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記Ｘ線画像内の前記物体の領域の総画素数が第１の閾値以上である場合に、前記データ拡張パラメータとしての前記縮小・拡大率を、前記Ｘ線画像を等倍または縮小する値に設定してもよい。

【0028】

上記のＸ線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記Ｘ線画像内の前記物体の領域の総画素数が前記第１の閾値よりも小さい第２の閾値以下である場合に、前記縮小・拡大率を、前記Ｘ線画像を等倍または拡大する値に設定してもよい。

【0029】

上記のＸ線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記縮小・拡大率とともに、前記シフト量および前記回転角の少なくとも一方を決定してもよい。

【0030】

上記のＸ線画像物体認識システムにおいて、前記データ拡張パラメータ決定部は、前記学習セットに含まれる前記Ｘ線画像内の前記物体外領域の総画素数が第３の閾値未満である場合に、前記データ拡張パラメータの設定可能範囲を制限してもよい。

【0031】

上記のＸ線画像物体認識システムにおいて、前記物体は、人物においてＸ線の透過量が相対的に少ないＸ線低透過領域、およびＸ線の透過量が相対的に多いＸ線高透過領域の少なくとも一方を含んでいてもよい。

【0032】

上記のＸ線画像物体認識システムにおいて、前記Ｘ線低透過領域は、前記人物の骨の領域を含み、前記Ｘ線高透過領域は、前記人物の肺野の領域を含んでいてもよい。

【0033】

上記のＸ線画像物体認識システムにおいて、前記学習ネットワークは、ニューラルネットワークで構成されていてもよい。

【発明の効果】

【0034】

上記の構成によれば、撮影情報に基づいてデータ拡張パラメータが適切に決定されるため、上記データ拡張パラメータに基づいてデータ拡張を適切に行うことができ、学習時のＸ線画像に対して意図しないデータ拡張が行われる事態を回避することができる。これにより、データ拡張後の画像を用いて学習ネットワークを適切に機械学習させることができるため、推論時に、学習ネットワークは、入力されるＸ線画像に対して物体（撮影対象部位）を精度よく認識（推論）することが可能となる。また、撮影情報に基づいて決定されたデータ拡張パラメータを用いてデータ拡張が行われて、学習ネットワークが機械学習されるため、推論時に、学習ネットワークは、どのような撮影条件で撮影されたＸ線画像が入力されても、物体を認識することが可能となる。つまり、推論時には、入力されるＸ線画像の撮影条件に関係なく、単一の学習ネットワークで物体を認識することが可能となる。

【図面の簡単な説明】

【0035】

【図1A】Ｘ線による人物の正面撮影時の状態を模式的に示す説明図である。

【図1B】正面撮影によって得られた胸部のＸ線画像の一例を示す説明図である。

【図2A】Ｘ線による人物の斜位撮影時の状態を模式的に示す説明図である。

【図2B】斜位撮影によって得られた胸部のＸ線画像の一例を示す説明図である。

【図3】人物の上腕骨のＸ線画像の一例を示す説明図である。

【図4】人物の股関節のＸ線画像の一例を示す説明図である。

【図5】胸部正面画像用学習モデルを生成する処理の流れを示す説明図である。

【図6】胸部斜位画像用学習モデルを生成する処理の流れを示す説明図である。

【図7】上腕骨画像用学習モデルを生成する処理の流れを示す説明図である。

【図8】複数の学習モデルの中から、撮影条件に応じた学習モデルを読み込んで推論を行う場合の処理の流れを示す説明図である。

【図9】本発明の一実施形態に係るＸ線画像物体認識システムの概略の構成を示すブロック図である。

【図10】上記Ｘ線画像物体認識システムが備える学習ネットワークの学習方法における処理の流れを示すフローチャートである。

【図11A】学習セットに含まれるＸ線画像の一例を示す説明図である。

【図11B】図１１ＡのＸ線画像に基づいて作成された正解ラベルの一例を示す説明図である。

【図12】図１１Ｂの正解ラベルと、照射野外に対応する正解ラベルとを併せて示す説明図である。

【図13A】他の学習セットに含まれるＸ線画像の一例を示す説明図である。

【図13B】図１３ＡのＸ線画像に基づいて作成された正解ラベルの一例を示す説明図である。

【図14】Ｘ線画像内の物体認識用の矩形領域を正解ラベルとして用いる例を示す説明図である。

【図15】Ｘ線画像のヒストグラムの一例を模式的に示す説明図である。

【図16】二値化画像の一例を示す説明図である。

【図17】上記Ｘ線画像物体認識システムにおいて、物体認識時の処理の流れを示すフローチャートである。

【図18】学習データが十分にある場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。

【図19】学習データが少ない場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。

【図20】データ拡張を適切に行った場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。

【図21】意図しないデータ拡張を行った場合における、学習データと正解との関係、および推論対象の入力データと予測値との関係を示す説明図である。

【発明を実施するための形態】

【0036】

本発明の実施の一形態について、図面に基づいて説明すれば、以下の通りである。まず、本実施形態のＸ線画像物体認識システムについて説明する前に、上述した課題について説明を補足しておく。

【0037】

（課題についての補足）
Deep Learningによる物体認識が可能なアルゴリズムについては、様々な論文で紹介されており、中でも、Ｒ－ＣＮＮ（Regions with Convolutional Neural Networks）、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ（You Only Look Once）などのアルゴリズムが有名である。これらのアルゴリズムは、物体認識の精度を競う国際コンテスト“ImageNet Large Scale Visual Recognition Challenge（ILSVRC）”などで使われる画像を対象に考えられている。例えば、ILSVRC2012のデータセットを用いると、指定された１０００のオブジェクトカテゴリーで、ランダムに５万枚のデータを学習させることが可能であり、合計５０００万枚の画像データをニューラルネットワークに学習させることができる。このため、上記の各アルゴリズムを採用するニューラルネットワークでは、複雑なデータ拡張処理を必要としない。つまり、元画像に対して単純に移動、回転、拡大・縮小、反転などの処理をランダムで実施することにより、データ拡張を行うことが可能である。

【0038】

また、画像を画素レベルで把握するSemantic Segmentationにおいて有名な手法であるSegNetの論文に記載されている入力画像は、車載シーンに限定された画像を想定した手法であるため、データ拡張によって大量のデータを取得することは不要である。さらに、車載画像は、車から前方に見えるシーンであるため、路面、空、ビル、前方の車・人などの位置は限定される。また、細胞検出を想定したU-Netにおいても同様であり、細胞の撮影画像は、位置や大きさなどが異なるものの、大幅に形状が異なったりすることはないため、複雑なデータ拡張を行うことは不要である。

【0039】

これに対して、医療分野におけるＸ線画像は、上述したように、大量に入手が困難なデータであり、ＤＮＮの認識性能を向上させるためにはデータ拡張が必要不可欠であるが、撮影対象部位や撮影方向などの違いにより、取得される画像のバリエーションが多い。

【0040】

例えば、肺野内や肋骨を診断することを目的としてＸ線撮影を行う場合、図１Ａに示す正面撮影や、図２Ａに示す斜位撮影が実施される。ここで、図１Ｂは、正面撮影によって得られた胸部のＸ線画像の一例を示し、図２Ｂは、斜位撮影によって得られた胸部のＸ線画像の一例を示している。

【0041】

また、例えば、上腕骨、大腿骨、股関節などの診断を実施する場合、特定幹部を中心とするＸ線撮影が行われる。このとき、被爆を低減するために、撮影対象部位である特定幹部以外を放射線防護シートなどで覆った状態でＸ線撮影が行われる（放射線照射抑制）。例えば、図３は、上腕骨のＸ線画像の一例を示し、図４は、股関節のＸ線画像の一例を示している。なお、腕を回すことによって上腕骨の位置は様々に変化するため、特に上腕骨については、Ｘ線撮影の自由度がかなり高い。

【0042】

このように、Ｘ線画像には、多くのバリエーションが存在する。したがって、入力されるＸ線画像に対して単純に精度よく部位認識を行うためには、例えば、クラス（撮影対象部位）ごとに学習を行ってＤＮＮ（学習モデル）をクラスごとに生成し、撮影者（例えば放射線技師）がＸ線撮影時に入力する情報（例えば撮影対象部位、撮影方向）をもとに、クラスに対応する学習モデルを読み込んで（選択して）、部位認識（推論）を行う手法が考えられる。

【0043】

例えば、胸部正面のＸ線画像から撮影対象部位を認識する学習モデル（胸部正面画像用学習モデル）を生成する場合、図５に示すように、学習用に予め用意された胸部正面のＸ線画像と正解ラベルとを含む学習セットを用い、上記Ｘ線画像に対してデータ拡張を行い、新たに生成されたＸ線画像とその正解データとを用いてＤＮＮを学習させることで、胸部正面画像用の学習モデルを生成する。同様に、胸部斜位のＸ線画像から撮影対象部位を認識する学習モデル（胸部斜位画像用学習モデル）を生成する場合、図６に示すように、学習用に予め用意された胸部斜位のＸ線画像と正解ラベルとを含む学習セットを用い、上記Ｘ線画像に対してデータ拡張を行い、新たに生成されたＸ線画像とその正解データとを用いてＤＮＮを学習させることで、胸部斜位画像用学習モデルを生成する。また、上腕骨のＸ線画像から撮影対象部位を認識する学習モデル（上腕骨画像用学習モデル）を生成する場合、図７に示すように、学習用に予め用意された上腕骨のＸ線画像と正解ラベルとを含む学習セットを用い、上記Ｘ線画像に対してデータ拡張を行い、新たに生成されたＸ線画像とその正解データとを用いてＤＮＮを学習させることで、上腕骨画像用学習モデルを生成する。そして、推論時には、図８に示すように、複数の学習モデルの中から、撮影者がＸ線撮影時に入力する撮影条件（クラス）に応じた学習モデルを読み込み、読み込んだ学習モデルにＸ線画像のデータを入力して対象部位の推論を行い、その結果を出力する。

【0044】

しかし、上記のように撮影条件ごとに学習モデルを用意する場合、複数の学習モデルの中から所定の学習モデルを選択するために、上記のように撮影者の撮影条件の入力が必要となり、撮影者の手を煩わせるとともに、処理が煩雑化する。上述のように、Ｘ線画像の分野では、上記の推論（部位認識）は、出力Ｘ線画像の画質改善のための前処理を目的として行われるため、その処理は効率よく行われることが望ましく、また、処理負荷も少ないことが望ましい。そのためには、撮影条件ごとに学習ネットワーク（学習モデル）を生成するのではなく、一括して（単一の）学習ネットワークを生成し、様々な撮影条件で撮影されたどのＸ線画像についても、単一の学習ネットワークに入力することによって撮影対象部位を認識できるようにすることが望ましい。

【0045】

また、異なる撮影条件で撮影されるＸ線画像は、多種にわたる画像であり、多くのバリエーションが存在するため、以下の事態が生じ得る。
（ａ）各Ｘ線画像の間でデータが不整形である（各Ｘ線画像の縦横比率がバラバラである）。
（ｂ）各Ｘ線画像において撮影対象物体が映っているアングルが揃っていない（正面撮影、斜位撮影などによる）。
（ｃ）撮影対象物体以外の異物（例えば体内に埋め込まれたペースメーカーやボルト、ネックレスなど）がＸ線画像に映る。
（ｄ）正解データのあるＸ線画像の量が複数のクラス間で不均一である（例えば元画像として胸部の正面Ｘ線画像は多く集まるが、股関節のＸ線画像は集まりにくい）。

【0046】

したがって、これらの事態を担保するデータ拡張を実施することが必要となり、多くのバリエーションを想定した人為的な操作を加える必要がある。しかし、単純に、元画像に対して移動、回転、拡大・縮小、反転などの人為的な操作を加えてデータ拡張を行うと、Ｘ線画像は元々少数であるため、上述したように、回転しすぎた胸部正面Ｘ線画像や、子供の胸部正面Ｘ線画像よりもさらに小さいＸ線画像が作成されるなど、普段の撮影では得られない画像が作成される場合がある。このような意図しないデータ拡張が行われて、意図しない学習が行われると、図２１で示したように、ＤＮＮは入力されるＸ線画像に対して本来の正解に近い値（破線参照）を予測することができず、物体の認識性能が低下する。

【0047】

そこで、本実施形態では、学習時に入力された画像に対し、入力画像・正解ラベルをもとに撮影条件を推定し、推定結果をもとにデータ拡張のパラメータを決定し、決定したパラメータに基づいてデータ拡張を行うことで、意図しないデータ拡張が行われる事態を回避して精度の良い物体認識を可能としつつ、単一の学習ネットワークを機械学習させることにより、様々な撮影条件で撮影されたどのＸ線画像に対しても物体認識を可能としている。以下、本実施形態のＸ線画像物体認識システムについて説明する。

【0048】

（Ｘ線画像物体認識システムの構成）
図９は、本実施形態のＸ線画像物体認識システム１の概略の構成を示すブロック図である。Ｘ線画像物体認識システム１は、記憶部２と、通信部３と、全体制御部４と、学習ネットワーク５と、撮影情報算出部６と、データ拡張パラメータ決定部７と、学習処理部８とを備えている。このうち、学習ネットワーク５、撮影情報算出部６、データ拡張パラメータ決定部７および学習処理部８は、大量のデータの演算処理が可能であるＧＰＵで構成されている。このようなＸ線画像物体認識システム１は、例えばＰＣ（パーソナルコンピュータ）で構成することができる。なお、図９では、本実施形態で直接関係する構成のみを図示しており、入力部（例えばマウスやキーボード）や表示部（例えば液晶表示装置）などの他の構成についての図示を省略している。

【0049】

ここで、本実施形態において、「物体」とは、Ｘ線画像に基づいて認識（推論、予測）する対象となる対象物を指し、人物においてＸ線の透過量が相対的に少ないＸ線低透過領域、およびＸ線の透過量が相対的に多いＸ線高透過領域の少なくとも一方を含む。Ｘ線低透過領域は、例えば人物の骨（頭骨、頸椎、椎体、肩甲骨、肋骨、骨盤、四肢など）の領域を含み、Ｘ線高透過領域は、例えば人物の肺野の領域を含む。

【0050】

記憶部２は、各種の情報を記憶するメモリであり、例えばハードディスクで構成されるが、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、光ディスク、光磁気ディスク、不揮発性メモリなどの記録媒体から適宜選択して構成されてもよい。上記各種の情報には、物体のＸ線画像および上記物体に対応する正解ラベル（詳細は後述する）の学習セット、データ拡張を行った後のＸ線画像および正解ラベルの学習セットの情報などが含まれる。通信部３は、外部と通信するためのインターフェースであり、入出力ポートのほか、アンテナ、送受信回路、変調回路、復調回路などを含んで構成される。したがって、例えば、データ拡張の元となるＸ線画像や物体の正解ラベルの情報を、通信部３を介して外部から取得して記憶部２に記憶させることが可能である。全体制御部４は、例えばＣＰＵ（Central Processing Unit；中央演算処理装置）で構成されており、Ｘ線画像物体認識システム１の各部の動作を制御する。

【0051】

学習ネットワーク５は、記憶部２に記憶された学習セット（例えば物体のＸ線画像と、物体に対応する正解ラベルとを含む学習セット）を用いて機械学習（教師あり学習）を行う学習モデルである。本実施形態では、学習ネットワーク５は、ニューラルネットワークで構成されている。ニューラルネットワークとしては、Ｒ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、ＦＣＮ（Fully Convolutional Networks；完全畳み込みネットワーク）、SegNet、U-Netなどの公知のネットワークを利用することができるが、利用可能なニューラルネットワークはこれらに限定されない。

【0052】

撮影情報算出部６は、上記学習セットから、物体のＸ線撮影時の撮影条件を導くための撮影情報を算出する。データ拡張パラメータ決定部７は、撮影情報算出部６によって算出された撮影情報に基づいて、学習用のＸ線画像から新たなＸ線画像を作成するデータ拡張を行う際に用いるデータ拡張パラメータを決定する。学習処理部８は、上記データ拡張パラメータに基づいてデータ拡張を行い、取得した新たなＸ線画像と正解ラベルとを用いて学習ネットワーク５を機械学習させる。なお、撮影情報算出部６、データ拡張パラメータ決定部７、および学習処理部８の詳細については、以下の動作説明の中で併せて行う。

【0053】

（Ｘ線画像物体認識システムの動作（学習時））
次に、本実施形態のＸ線画像物体認識システム１の動作について説明する。本実施形態では、入力画像に対する物体認識（推論）の前に、学習用のＸ線画像と正解ラベルとを含む学習セットを利用して、学習ネットワーク５の学習が行われる。図１０は、学習ネットワーク５の学習方法における処理の流れを示すフローチャートである。この学習方法は、学習セット準備工程（Ｓ１）と、撮影情報算出工程（Ｓ２）と、データ拡張パラメータ決定工程（Ｓ３）と、データ拡張工程（Ｓ４）と、機械学習工程（Ｓ５）とを含む。以下、各工程の詳細について説明する。

【0054】

〈Ｓ１；学習セット準備工程〉
Ｓ１では、学習用のＸ線画像と正解ラベルとを含む学習セットを準備する。ここでは、上記学習セットを外部の図示しないＰＣまたはデータベース（サーバー）にて用意し、上記学習セットのデータを上記ＰＣ等からＸ線画像物体認識システム１に送信することで、上記学習セットを準備する。なお、上記の学習セットは、Ｘ線画像物体認識システム１の内部で作成されて準備されてもよい。

【0055】

図１１Ａは、学習セットに含まれるＸ線画像の一例を示し、図１１Ｂは、上記Ｘ線画像に基づいて作成された正解ラベルの一例を示している。例えば第三者は、図１１ＡのＸ線画像から、上腕骨、肺野と重なる肋骨、肺野と重ならない肋骨、の各領域をそれぞれ把握することができる。そこで、第三者は、外部のＰＣにおいて所定の図形作成用ソフトウェアを用いて人為的な操作を行うことにより、上記各領域の形状と対応する形状（形状が同一である場合、同一ではないが非常に近い場合の両方を含む）の正解ラベルＬ１～Ｌ３を作成する。上記Ｘ線画像と上記正解ラベルＬ１～Ｌ３とを含む学習セットの情報は、上記ＰＣからＸ線画像物体認識システム１に送信されて記憶部２に記憶される。このとき、第三者は、図１２に示すように、Ｘ線画像内でＸ線が照射されていない領域を示す照射野外に対応する形状の正解ラベルＬ４をさらに作成して、上記学習セットに含めるようにしてもよい。なお、図１１Ｂおよび図１２において、符号Ｂは、背景の領域を指す（他の図面でも同様とする）。

【0056】

図１３Ａは、他の学習セットに含まれるＸ線画像の一例を示し、図１３Ｂは、上記Ｘ線画像に基づいて作成された正解ラベルの一例を示している。この例は、図１３ＡのＸ線画像から、上記Ｘ線画像に含まれる肺野と重なる肋骨、肺野と重ならない肋骨、の各領域の形状と対応する形状の正解ラベルＬ１１・Ｌ１２を第三者がＰＣで作成した場合を示している。上記Ｘ線画像と上記正解ラベルＬ１１・Ｌ１２とを含む学習セットの情報は、上記と同様に、上記ＰＣからＸ線画像物体認識システム１に送信されて記憶部２に記憶される。

【0057】

上記した正解ラベルは、人体の骨（例えば頭骨、頸椎、椎体、肩甲骨、肋骨、骨盤、四肢など）の領域とそれぞれ対応する形状で予め作成（付与）されるため、骨ごとに異なる形状のラベルとなっている。上記の骨以外の領域であっても、特徴的な構造物（例えば心臓などの臓器、肺野）に対して対応する形状の正解ラベルが予め作成されてもよい。

【0058】

なお、以上で示した正解ラベルは、Ｘ線画像において物体の領域と形状が対応していることから、物体の領域抽出（Segmentation）を目的として作成（付与）されたラベルであると言える。しかし、図１４に示すように、Ｘ線画像内の物体認識用の矩形領域を正解ラベルとして用いてもよい。同図では、Ｘ線画像において、肺野を囲む矩形領域Ｒ１、心臓を囲む矩形領域Ｒ２、上腕骨頭を囲む矩形領域Ｒ３、肋骨を囲む矩形領域Ｒ４を、それぞれ正解ラベルとして用いる例を示している。

【0059】

〈Ｓ２；撮影情報算出工程〉
撮影情報算出部６は、Ｓ１で準備した学習セットに含まれるＸ線画像と、そのＸ線画像に含まれる物体の領域と対応する形状の正解ラベルとに基づいて、Ｘ線撮影時の撮影条件を導くための撮影情報を算出する。例えば、図１１Ａで示したＸ線画像について撮影情報を算出する場合、撮影情報算出部６は、上記Ｘ線画像において正解ラベルＬ１～Ｌ３と対応する物体の領域の画素数を算出する。上記画素数は、撮影対象部位およびＸ線撮影時の撮影方位に固有の値であり、上記画素数に基づいて、例えば「上腕骨および肋骨を正面から撮影した」ことを導くことができる。このため、上記画素数は、Ｘ線撮影時の撮影条件を導くための撮影情報を構成する。なお、このときの撮影情報（物体領域の画素数）の算出は、学習用のＸ線画像と正解ラベルとを含む学習セットのそれぞれについて行われる。

【0060】

また、撮影情報算出部６は、学習セットに含まれるＸ線画像内で物体を囲む矩形領域に基づいて、撮影情報を算出してもよい。例えば、図１４で示したＸ線画像について撮影情報を算出する場合、撮影情報算出部６は、Ｘ線画像の画像データ（画素値）に基づいて、肺野を囲む矩形領域Ｒ１、心臓を囲む矩形領域Ｒ２、上腕骨頭を囲む矩形領域Ｒ３、肋骨を囲む矩形領域Ｒ４をそれぞれ設定し、各矩形領域Ｒ１～Ｒ４の面積（または画素数）を算出してもよい。上記面積は、撮影対象部位およびＸ線撮影時の撮影方位に固有の値であり、上記面積に基づいて、例えば「胸部を正面から撮影した」ことを導くことができる。このため、上記面積も、Ｘ線撮影時の撮影条件を導くための撮影情報を構成する。なお、このときの撮影情報（矩形領域の面積）の算出は、学習用のＸ線画像のそれぞれについて行われる。

【0061】

また、撮影情報算出部６は、Ｓ１で準備した学習セットから、学習セットに含まれるＸ線画像内で物体以外の領域を示す物体外領域情報をさらに算出してもよい。上記の物体外領域情報としては、ここでは、Ｘ線画像内でＸ線が照射されていない領域の情報、つまり、Ｘ線の照射野外の情報を考えることができる。照射野外の情報の算出方法としては、以下の３つの方法のうちの少なくともいずれかを採用することができる。

【0062】

（１）図１２で示したように、Ｘ線画像内で照射野外に対応する形状の正解ラベルＬ４が予め作成され、その正解ラベルＬ４が学習セットに含まれている場合、撮影情報算出部６は、学習セットに含まれる正解ラベルＬ４に基づいて、照射野外の情報を算出する。例えば、撮影情報算出部６は、学習セットのＸ線画像内で正解ラベルＬ４と対応する領域を、照射野外の領域であると判断し、その領域の画素数を照射野外の情報として算出（出力）する。

【0063】

（２）撮影情報算出部６は、学習セットに含まれるＸ線画像のヒストグラム情報に基づいて、照射野外の情報を算出する。図１５は、Ｘ線画像のヒストグラムの一例を模式的に示している。一般的に、Ｘ線画像では、骨領域のように、Ｘ線が透過しにくい領域は、白
く映り、Ｘ線が透過しやすい領域は黒く映る。照射野外は、Ｘ線撮影時の被爆を防ぐべく
、Ｘ線が透過しないように対象部位以外を遮蔽することによって生じるため、Ｘ線画像で
は最も白く映る。したがって、撮影情報算出部６は、図１５に示すように、Ｘ線画像における画素値と度数との関係を示すヒストグラムを作成し、Ｘ線画像全体の画素数に対する、画素値が閾値Ｔｈ以上である度数の合計の割合を算出することにより、Ｘ線画像全体に対する照射野外の領域の割合を照射野外の情報として算出することができる。

【0064】

（３）撮影情報算出部６は、学習セットに含まれるＸ線画像の各画素値を二値化した二値化画像に基づいて、照射野外の情報を算出する。上記（２）でも述べたように、照射野外は、Ｘ線画像では最も白く映る。例えば、Ｘ線画像の各画素値の取り得る範囲が０（黒）～４０９５（白）であれば、閾値として４０００を考えることにより、画素値が０～４０００までを「０」とし、画素値が４００１～４０９５までを「１」とする二値化処理を行うことができる。例えば図１１ＡのＸ線画像に対して上記の二値化処理を行うと、図１６に示すような二値化画像が得られる。なお、図１６において、二値化した後の画素値が「１」の領域Ｔ１は、照射野外の領域に対応し、二値化した後の画素値が「０」の領域Ｔ２は、照射野の領域に対応する。このように、撮影情報算出部６は、Ｘ線画像の各画素値を二値化することにより、二値化画像から照射野外の領域Ｔ１を認識することができ、これによって、領域Ｔ１の画素数を照射野外の情報として算出（出力）することができる。

【0065】

〈Ｓ３；データ拡張パラメータ決定工程〉
データ拡張パラメータ決定部７は、Ｓ２で取得された撮影情報と、物体外領域情報（照射野外の情報）と、予め設定された閾値とに基づいて、データ拡張パラメータを決定する。より具体的には以下の通りである。なお、ここでは、例として、Ｘ線画像のサイズを４８０画素×３６０画素として説明するが、以下で示す閾値は、画像サイズに応じて適宜調整可能である。

【0066】

まず、データ拡張パラメータ決定部７は、学習セットに含まれるＸ線画像において、「背景のサイズ（正解ラベル無しの領域の画素の総和）／画像サイズ（画像全体の画素数）≧０．９０」を満足するか否か、または、「照射野外の領域が３００００画素（第３の閾値）以上」を満足するか否かを判断する。上記条件を満足する場合、Ｘ線画像内に照射野外の領域などがあり、Ｘ線画像全体に対して物体の占める領域が絞られた画像であると判断できる。

【0067】

次に、データ拡張パラメータ決定部７は、Ｘ線画像において、「上腕骨を示す正解ラベルＬ１（図１１Ｂ参照）と対応する領域の総画素数≧第１の閾値（例えば１５０００画素）」を満足するか否かを判断する。条件を満足する場合、Ｘ線画像において上腕骨の領域がかなり大きい割合を占めるため、Ｘ線画像は、大人の画像、つまり、画像全体に対して物体のスケールが大きい画像であると判断できる。この場合、データ拡張パラメータ決定部７は、Ｘ線画像をそれ以上大きくすると、あり得ない撮影シーンの画像となる可能性が高い（他の撮影シーンに適合しない）と判断し、データ拡張パラメータとしてのＸ線画像の縮小・拡大率を０．６～１倍の間でランダムに設定する。つまり、データ拡張パラメータ決定部７は、Ｘ線画像内の物体の領域の総画素数が第１の閾値以上である場合には、Ｘ線画像の縮小・拡大率を、Ｘ線画像を等倍または縮小する値に設定する。

【0068】

次に、データ拡張パラメータ決定部７は、Ｘ線画像において、「上腕骨を示す正解ラベルＬ１と対応する領域の総画素数≦第２の閾値（例えば３０００画素）」を満足するか否かを判断する。上記条件を満足する場合、上腕骨がかなり小さいため、Ｘ線画像は、子供の画像、つまり、画像全体に対して物体のスケールが小さい画像であると判断できる。この場合、データ拡張パラメータ決定部７は、Ｘ線画像をそれ以上小さくすると、あり得ない撮影シーンの画像となる可能性が高いと判断し、データ拡張パラメータとしてのＸ線画像の縮小・拡大率を１～１．４倍の間でランダムに設定する。つまり、データ拡張パラメータ決定部７は、Ｘ線画像内の物体の領域の総画素数が第１の閾値よりも小さい第２の閾値以下である場合には、Ｘ線画像の縮小・拡大率を、Ｘ線画像を等倍または拡大する値に設定する。

【0069】

一方、上記いずれの条件も満足しない場合、つまり、Ｘ線画像において、「第２の閾値＜上腕骨を示す正解ラベルＬ１と対応する領域の総画素数＜第１の閾値」である場合、データ拡張パラメータ決定部７は、元のＸ線画像を拡大しても縮小しても、あり得ない撮影シーンの画像となる可能性が低い（他の撮影シーンに適合する）と判断し、データ拡張パラメータとしてのＸ線画像の縮小・拡大率を０．８～１．２倍の間でランダムに設定する。

【0070】

次に、データ拡張パラメータ決定部７は、上記スケール設定（縮小・拡大率の設定）に従って、その他のデータ拡張パラメータを決定する。例えば、データ拡張パラメータ決定部７は、Ｘ線画像の縮小・拡大率を０．６～１倍に設定した場合、Ｘ線画像のシフト量を、上下左右斜め方向に±４０画素数の範囲でランダムに設定し、Ｘ線画像の回転角を、±６°の範囲でランダムに設定する。また、データ拡張パラメータ決定部７は、Ｘ線画像の縮小・拡大率を１～１．４倍に設定した場合、Ｘ線画像のシフト量を、上下左右斜め方向に±２０画素数の範囲でランダムに設定し、Ｘ線画像の回転角を、±２°の範囲でランダムに設定する。さらに、データ拡張パラメータ決定部７は、Ｘ線画像の縮小・拡大率を０．８～１．２倍に設定した場合、Ｘ線画像のシフト量を、上下左右斜め方向に±３０画素数の範囲でランダムに設定し、Ｘ線画像の回転角を、±４°の範囲でランダムに設定する。

【0071】

なお、上記したシフト量などの設定は、上記スケール設定に応じた固定範囲内で（そのままスケール情報に対応して連動して）行ってもよいが、実際のスケール設定の情報に応じて可変にしてもよい。例えば、データ拡張パラメータ決定部７は、Ｘ線画像の縮小・拡大率を１～１．４倍の間でＡ倍に設定した場合、Ｘ線画像のシフト量を、上下左右斜め方向に±４０×Ａの画素数の範囲でランダムに設定し、Ｘ線画像の回転角を、±６°×Ａの範囲でランダムに設定するなどして、シフト量等にスケールの割合を反映してもよい。

【0072】

また、本実施形態では、データ拡張パラメータ決定部７は、Ｘ線画像内の物体外領域（照射野外の領域）の総画素数が３００００画素（第３の閾値）未満である場合、上記Ｘ線画像が、胸部の正面画像であると判断する。胸部の正面画像は大人についても子供についても多く集まりやすいため、データ拡張の範囲を広げる必要性に乏しい。そこで、データ拡張パラメータ決定部７は、データ拡張パラメータの設定可能範囲を制限する。つまり、データ拡張パラメータ決定部７は、データ拡張が行われない値に縮小・拡大率、シフト量、回転角を設定するか、データ拡張が微小量だけ行われる値に設定する。例えば、データ拡張パラメータ決定部７は、縮小・拡大率を０．９～１．１倍の範囲でランダムに設定し、Ｘ線画像のシフト量を、上下左右斜め方向に±１０画素数の範囲でランダムに設定し、Ｘ線画像の回転角を、±１°の範囲でランダムに設定する。

【0073】

〈Ｓ４；データ拡張工程〉
学習処理部８は、Ｓ３で決定されたデータ拡張パラメータに基づいて、学習セットに含まれるＸ線画像から新たなＸ線画像を作成するデータ拡張を行う。データ拡張の種類としては、Horizontal Flip（水平方向の反転）、Vertical Flip（垂直方向の反転）、Crop（１枚の画像からランダムに切り抜く）、Scale（スケールを変化させながらCrop）、Rotation（画像を回転）、Cutout（画像の一部をマスクすることによって、より汎化能力をあげる）、Sift（画像位置を変える）、などがある。ここでは、Ｓ３で決定されたデータ拡張パラメータに基づいて、Scale、Rotation、Siftのデータ拡張が行われる。つまり、決定された縮小・拡大率、回転角、シフト量でデータ拡張（Scale、Rotation、Sift）が行われる。Scale、Rotation、Sift以外のデータ拡張は、必要に応じて行われればよい。

【0074】

〈Ｓ５；機械学習工程〉
学習処理部８は、Ｓ４でのデータ拡張によって取得した新たなＸ線画像と正解ラベルとを用いて学習ネットワーク５を機械学習させる。学習ネットワーク５の学習アルゴリズムとしては、一般的な誤差逆伝播法（バックプロパゲーション）を用いることができる。誤差逆伝播法は、学習ネットワーク５への画像（画素値）の入力に対して学習ネットワーク５の最終層から出力される値（尤度（スコア））と、正解を示す値（尤度（スコア））との２乗誤差が最小となるように、最急降下法を用いて、学習ネットワーク５を構成する各ノード（ユニット）の重み（結合荷重）を最終層側から入力層側に向かって順次変化させていく手法である。このような機械学習により、学習済みの学習ネットワーク５（学習モデル）が得られる。

【0075】

なお、学習ネットワーク５として、SegNetのような重み付け学習ネットワークを使用する場合、入力画像（データ拡張された新たなＸ線画像）ごとに、各クラス（領域）の重み（寄与率）を変更するようにしてもよい。例えばＸ線画像に上腕骨の領域と背景の領域とが含まれる場合において、上腕骨の領域の面積が背景の領域の面積よりも非常に小さいと、背景の領域に引っ張られてネットワークが学習される結果、学習後のネットワークで上腕骨の領域を認識する際の精度が低下するおそれがある。上記のように学習時に入力画像ごとに各クラスの重みを設定することにより、学習後の各領域の認識精度の低下を抑えることができる。

【0076】

ちなみに、SegNet の論文（A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation、https://arxiv.org/pdf/1511.00561.pdf）では、学習時に用いる全画像から、各クラスの重み（class balancing）を計算することが開示されているが、本実施形態では、全画像ではなく、入力される画像ごとに各クラスの重みを計算する点で、上記の論文の手法とは異なる。

【0077】

（Ｘ線画像物体認識システムの動作（推論時））
上述のようにして学習ネットワーク５が機械学習されると、その学習ネットワーク５を用いて、入力画像に含まれる物体の認識（物体の推論、予測）を行うことが可能となる。図１７は、Ｘ線画像物体認識システム１において、物体認識時の処理の流れを示すフローチャートである。

【0078】

学習ネットワーク５の入力層に、認識対象となる物体を撮影したＸ線画像が入力されると（Ｓ１１；Ｘ線画像入力工程）、学習ネットワーク５は、入力された上記Ｘ線画像から、Ｘ線撮影された物体を認識し（Ｓ１２；推論工程）、その認識結果を出力する（Ｓ１３；出力工程）。

【0079】

本実施形態のように撮影情報に基づいてデータ拡張パラメータを決定し、決定したデータ拡張パラメータに基づいてデータ拡張を行って学習ネットワーク５を機械学習させた場合、ＩｏＵ（Intersection over Union）値は７０％以上であった。なお、ＩｏＵとは、正解領域と予測領域との重なり具合いを表す指標であり、その値が大きいほど予測が正解に近く、識別性能が高いことを表す。これに対して、撮影情報に基づいてデータ拡張パラメータを決定せず、データ拡張をランダムに行って学習ネットワークを機械学習させた場合、ＩｏＵ値は６５％であった。したがって、本実施形態の手法によれば、Ｘ線画像に含まれる物体の認識精度が向上すると言える。

【0080】

なお、Ｓ１１では、学習時に取得されたデータ拡張パラメータの情報を活用し、入力されたＸ線画像のサイズを、データ拡張パラメータに応じて変更してもよい。この場合、入力Ｘ線画像をデータ拡張時のサイズに近づけて、物体認識をより精度よく行うことが可能となる。

【0081】

（効果）
以上のように、本実施形態のＸ線画像物体認識システム１によれば、データ拡張パラメータ決定部７は、撮影情報算出部６によって算出された撮影情報に基づいてデータ拡張パラメータを決定する（Ｓ２、Ｓ３）。物体のＸ線撮影時の撮影条件を考慮してデータ拡張パラメータが適切に決定されるため、学習処理部８が上記データ拡張パラメータに基づいてデータ拡張を行うことで（Ｓ４）、学習用のＸ線画像（例えば正立状態で撮影された胸部正面のＸ線画像）に対して、普段のＸ線撮影ではあり得ない画像（天地が逆転した胸部正面のＸ線画像）が擬似的に作成されるような、意図しないデータ拡張が行われる事態を回避することができる。したがって、学習処理部８が、適切なデータ拡張によって取得した新たなＸ線画像と正解ラベルとを用いて学習ネットワーク５を機械学習させることにより（Ｓ５）、学習ネットワーク５は、推論時（物体の認識時）に学習データ以外のＸ線画像が入力された場合でも、入力された上記Ｘ線画像から、Ｘ線撮影された物体を適切に予測することが可能となり、物体を精度よく認識（推論）することが可能となる（Ｓ１１～Ｓ１３）。

【0082】

また、物体の撮影情報に基づいてデータ拡張パラメータが決定され、決定されたデータ拡張パラメータに基づいてデータ拡張が行われ、データ拡張後の画像を用いて学習ネットワークが機械学習されるため、推論時には、単一の学習ネットワーク５で、様々な撮影条件で撮影されたＸ線画像に対応することができる。つまり、どのような撮影条件で撮影されたＸ線画像が入力されても、同じ学習ネットワーク５で物体を認識することができる。したがって、個々の撮影条件ごとに学習ネットワークを用意して推論を行う場合のように、複数の学習ネットワークの中から撮影条件に応じた学習ネットワークを選択するための、撮影者による撮影条件の入力を不要とすることができる。このことは、出力するＸ線画像の画質を改善するための前処理として物体認識を行う際の処理の効率向上にもつながり、迅速な前処理が可能となる。

【0083】

また、撮影情報算出部６は、学習セットに含まれるＸ線画像と、そのＸ線画像に含まれる物体の領域と対応する形状の正解ラベルとに基づいて、撮影情報を算出する（Ｓ２）。このように、撮影情報算出部６がＸ線画像と正解ラベルとを用いて撮影情報を算出する構成において、上述した本実施形態の効果を得ることができる。

【0084】

特に、上記撮影情報は、Ｘ線画像において正解ラベルと対応する物体の領域の画素数である。上記画素数は、Ｘ線撮影時の撮影部位および撮影方位を反映しているため、Ｘ線撮影時の撮影条件を導くための撮影情報として有効に用いることができる。

【0085】

このとき、撮影情報算出部６は、学習セットに含まれるＸ線画像内で物体を囲む矩形領域に基づいて、撮影情報を算出してもよい（Ｓ２）。このように、撮影情報算出部６が上記矩形領域に基づいて撮影情報を算出する構成であっても、上述した本実施形態の効果を得ることができる。

【0086】

特に、上記撮影情報は、上記矩形領域の面積である。上記矩形領域の面積は、Ｘ線撮影時の撮影部位および撮影方位を反映しているため、Ｘ線撮影時の撮影条件を導くための撮影情報として有効に用いることができる。

【0087】

また、撮影情報算出部６は、学習セットから、学習セットに含まれるＸ線画像内で物体以外の領域を示す物体外領域情報をさらに算出してもよい（Ｓ２）。この場合、データ拡張パラメータ決定部７は、物体外領域情報をさらに考慮に入れてデータ拡張パラメータを決定することができるため、意図しないデータ拡張が行われないようなデータ拡張パラメータを精度よく決定することが可能となる。

【0088】

ここで、物体外領域情報は、Ｘ線の照射野外の情報であってもよい。そして、撮影情報算出部６は、学習セットに含まれる、Ｘ線の照射野外の領域に対応する形状の正解ラベル（例えば図１２の正解ラベルＬ４）に基づいて、照射野外の情報（例えば画素数）を算出してもよい。学習データに上記正解ラベルが含まれている場合には、上記正解ラベルに基づいて、照射野外の情報を確実に得ることができる。

【0089】

また、撮影情報算出部６は、学習セットに含まれるＸ線画像のヒストグラム情報に基づいて、照射野外の情報を算出してもよい（図１５参照）。照射野外は、Ｘ線画像では白く映るため、上記ヒストグラム情報に基づいて、照射野外の情報（例えば全画像領域に対する照射野外の領域の割合）を確実に得ることができる。

【0090】

また、撮影情報算出部６は、学習セットに含まれるＸ線画像の各画素値を二値化した二値化画像に基づいて、照射野外の情報を算出してもよい（図１６参照）。照射野外は、Ｘ線画像では白く映るため、上記二値化画像に基づいて、照射野外の情報（例えば画素数）を確実に得ることができる。

【0091】

また、データ拡張パラメータ決定部７は、撮影情報と、物体外領域情報と、予め設定された閾値とに基づいて、データ拡張パラメータを決定する（Ｓ３）。この場合、撮影情報、物体外領域情報および閾値の３種の情報から、データ拡張パラメータを適切に決定することができる。

【0092】

ここで、データ拡張パラメータは、Ｘ線画像の縮小・拡大率、シフト量、回転角のうちの少なくとも１つであってもよい。これらのパラメータについては、適切に設定しないと、意図しないデータ拡張が行われて意図しない画像が作成される可能性が高くなる。本実施形態では、データ拡張パラメータ決定部７が、撮影情報に基づいてデータ拡張パラメータを適切に設定できるため、設定するデータ拡張パラメータに縮小・拡大率、シフト量、回転角の少なくとも１つを含めることで、適切なデータ拡張を確実に行うことが可能となる。つまり、意図しない画像が作成されるような意図しないデータ拡張が行われる事態を確実に回避することができる。

【0093】

また、データ拡張パラメータ決定部７は、学習セットに含まれるＸ線画像内の物体の領域の総画素数が第１の閾値以上である場合に、データ拡張パラメータとしての縮小・拡大率を、Ｘ線画像を等倍または縮小する値に設定する（Ｓ３）。上記物体の総画素数が第１の閾値以上である場合、Ｘ線画像をさらに拡大すると、あり得ない撮影シーンの画像となる可能性が高くなる。したがって、Ｘ線画像の縮小・拡大率を、Ｘ線画像を等倍または縮小する値に設定することにより、データ拡張によってあり得ない撮影シーンの画像が作成される事態を確実に回避することができる。

【0094】

また、データ拡張パラメータ決定部７は、学習セットに含まれるＸ線画像内の物体の領域の総画素数が第１の閾値よりも小さい第２の閾値以下である場合に、縮小・拡大率を、Ｘ線画像を等倍または拡大する値に設定する（Ｓ３）。上記物体の総画素数が第２の閾値以下である場合、Ｘ線画像をさらに縮小すると、あり得ない撮影シーンの画像となる可能性が高くなる。したがって、Ｘ線画像の縮小・拡大率を、Ｘ線画像を等倍または拡大する値に設定することにより、データ拡張によってあり得ない撮影シーンの画像が作成される事態を確実に回避することができる。

【0095】

また、データ拡張パラメータ決定部７は、縮小・拡大率とともに、シフト量および回転角の少なくとも一方を決定する（Ｓ３）。縮小・拡大率と併せて、シフト量および／または回転角を決定することにより、学習用のＸ線画像に対して様々なデータ拡張を行って画像数を増やすことができる。

【0096】

また、データ拡張パラメータ決定部７は、学習セットに含まれるＸ線画像内の物体外領域の総画素数が第３の閾値未満である場合に、データ拡張パラメータの設定可能範囲を制限する（Ｓ３）。上記物体外領域の総画素数が第３の閾値未満である場合、上記Ｘ線画像は、多く集まりやすい胸部の正面画像であると考えられるため、データ拡張によって新たな画像を作成する必要性に乏しく、また、たとえデータ拡張を行うとしても、実際にあり得ない撮影シーンとなるようなデータ拡張を回避すべく、データ拡張を微小量だけ行うことが望ましい。上記のようにデータ拡張パラメータの設定可能範囲を制限することにより、データ拡張パラメータを、データ拡張が行われない値やデータ拡張が微小量だけ行われる値に設定することができる。その結果、不要なデータ拡張が行われるのを回避したり、実際にはあり得ない撮影シーンとなるようなデータ拡張が行われるのを回避することができる。

【0097】

また、上記した物体は、人物においてＸ線の透過量が相対的に少ないＸ線低透過領域、およびＸ線の透過量が相対的に多いＸ線高透過領域の少なくとも一方を含む。このような物体をＸ線撮影して得られるＸ線画像について、本実施形態のデータ拡張を行って学習ネットワーク５を機械学習させることにより、推論時に上記物体を精度よく認識することができる。

【0098】

また、上記Ｘ線低透過領域は、人物の骨の領域を含み、上記Ｘ線高透過領域は、人物の肺野の領域を含む。したがって、物体が人物の骨の領域および肺野の領域を含む場合でも、そのような物体をＸ線撮影して得られるＸ線画像について、本実施形態のデータ拡張を行って学習ネットワーク５を機械学習させることにより、推論時に上記物体を精度よく認識することができる。

【0099】

また、学習ネットワーク５は、ニューラルネットワークで構成されている。これにより、学習ネットワーク５を機械学習させて、物体の認識精度を向上させることが可能となる。

【0100】

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

【産業上の利用可能性】

【0101】

本発明は、Ｘ線画像から撮影対象の物体を認識するシステムに利用可能である。

【符号の説明】

【0102】

１Ｘ線画像物体認識システム
５学習ネットワーク
６撮影情報算出部
７データ拡張パラメータ決定部
８学習処理部

【図1A】