(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-14
(45)【発行日】2022-07-25
(54)【発明の名称】領域特定装置、方法およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220715BHJP
【FI】
G06T7/00 350C
G06T7/00 612
(21)【出願番号】P 2020562381
(86)(22)【出願日】2019-10-11
(86)【国際出願番号】 JP2019040218
(87)【国際公開番号】W WO2020137092
(87)【国際公開日】2020-07-02
【審査請求日】2021-04-02
(31)【優先権主張番号】P 2018244309
(32)【優先日】2018-12-27
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】一ノ瀬 晶路
(72)【発明者】
【氏名】北村 嘉郎
【審査官】新井 則和
(56)【参考文献】
【文献】米国特許第9858496(US,B2)
【文献】特開2017-191501(JP,A)
【文献】REN, Shaoqing et al.,Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE VOL. 39 NO. 6,IEEE,2017年06月30日
【文献】YANG, Yurong et al.,Aerial Target Tracking Algorithm Based on Faster R-CNN Combined with Frame Differencing,aerospace,2017年06月20日,vol. 4, no. 2
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
H04N 5/225
(57)【特許請求の範囲】
【請求項1】
入力画像に含まれる物体の領域を特定する領域特定装置であって、
前記入力画像に含まれる物体候補を特定する第1の識別器を備え、
前記第1の識別器は、各種形状および各種大きさを有する複数のアンカーから、前記物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する領域特定装置。
【請求項2】
前記選択したアンカーを表示部に表示する表示制御部をさらに備えた請求項1に記載の領域特定装置。
【請求項3】
前記表示制御部は、前記物体候補領域が特定された前記入力画像を前記表示部に表示する請求項2に記載の領域特定装置。
【請求項4】
前記入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、
前記第1の識別器は、前記畳み込み特徴マップに基づいて前記物体候補領域を特定する請求項1から3のいずれか1項に記載の領域特定装置。
【請求項5】
前記物体候補領域に含まれる前記物体候補のカテゴリを特定する第2の識別器をさらに備えた請求項1から4のいずれか1項に記載の領域特定装置。
【請求項6】
前記畳み込み特徴マップおよび前記物体候補領域に基づいて、前記物体候補のカテゴリを特定する第2の識別器をさらに備えた請求項4に記載の領域特定装置。
【請求項7】
前記第2の識別器は、前記物体候補領域を修正する請求項5または6に記載の領域特定装置。
【請求項8】
前記第2の識別器は、前記物体候補領域内における前記物体候補の輪郭を識別する請求項5から7のいずれか1項に記載の領域特定装置。
【請求項9】
入力画像に含まれる物体の領域を特定する領域特定方法であって、
各種形状および各種大きさを有する複数のアンカーから、前記入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器が、前記入力画像に含まれる物体候補を特定する領域特定方法。
【請求項10】
入力画像に含まれる物体の領域を特定する領域特定方法をコンピュータに実行させる領域特定プログラムであって、
各種形状および各種大きさを有する複数のアンカーから、前記入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器が、前記入力画像に含まれる物体候補を特定する手順をコンピュータに実行させる領域特定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像に含まれる物体の領域を特定する領域特定装置、方法およびプログラムに関する。
【背景技術】
【0002】
近年、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の医療機器の進歩により、より質の高い高解像度の3次元画像を用いての画像診断が可能となってきている。このような3次元画像に含まれる臓器および病変等の領域を自動で抽出することも行われている。このように画像から領域を抽出する手法として、ディープラーニング等の機械学習により学習がなされた判別器を用いる手法が提案されている。とくに、ディープラーニングで用いられる畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))としてFaster-RCNN(Regions with CNN features)が知られている(非特許文献1および特許文献1参照)。
【0003】
Faster-RCNNは、入力画像から特徴量を抽出して特徴マップを生成する畳み込み層と、物体の候補領域を特定するRPN(Region Proposal Networks)と、特徴マップおよび物体候補領域を入力として、物体のカテゴリの分類および回帰の結果を出力する分類ネットワークから構成される。Faster-RCNNのRPNにおいては、複数種類のアスペクト比およびサイズを有するアンカーと呼ばれる矩形領域が予め定義される。RPNにおいては、複数種類のアンカーを入力画像から生成された特徴マップの各画素位置に適用し、入力画像に含まれる物体候補との重なり率が最も大きいアンカーが選択される。そして、RPNにおいては、選択されたアンカーを用いて、物体候補を囲む矩形(正解ボックス)と一致するようにアンカーを回帰させる(すなわち変形および移動させる)処理を、特徴マップの全画素において行い、正解ボックスと一致するように回帰されたアンカーの位置およびサイズが、入力画像における物体候補領域としてRPNから出力される。そして、分類ネットワークにおいて、物体候補領域および特徴マップに基づいて、入力画像における物体候補領域の分類が行われる。
【0004】
また、CNNを用いて画像から人物を効率よく特定するために、複数種類のアンカーから人物が立っている状態のアスペクト比に近い縦長の1:2のアスペクト比を有するアンカーを用いる手法が提案されている(特許文献2参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】米国特許第9858496号明細書
【文献】特開2017-191501号公報
【非特許文献】
【0006】
【文献】Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1および非特許文献1に記載された手法では、RPNにおいて、複数種類のアンカーから、正解ボックスとの重なり率が最も大きいアンカーを選択している。このため、特許文献1および非特許文献1に記載された手法では、正解ボックスを囲むようにアンカーを変形および移動させる処理を行う際に、物体候補の形状およびサイズによっては、処理の演算量が大きくなってしまう。また、特許文献2に記載された手法は、人物を特定するために縦長の1:2のアスペクト比を有するアンカーを使用する。このため、特許文献2に記載された手法は、画像から人物を効率よく特定できるかもしれないが、人物以外の物体については、必ずしも効率よく特定できない可能性がある。
【0008】
本発明は上記事情に鑑みなされ、入力画像に含まれる任意の物体を効率よく特定することを目的とする。
【課題を解決するための手段】
【0009】
本開示による領域特定装置は、入力画像に含まれる物体の領域を特定する領域特定装置であって、
入力画像に含まれる物体候補を特定する第1の識別器を備え、
第1の識別器は、各種形状および各種大きさを有する複数のアンカーから、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する。
【0010】
なお、本開示による領域特定装置においては、選択したアンカーを表示部に表示する表示制御部をさらに備えてもよい。
【0011】
また、本開示による領域特定装置においては、表示制御部は、物体候補領域が特定された入力画像を表示部に表示してもよい。
【0012】
また、本開示による領域特定装置においては、入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、
第1の識別器は、畳み込み特徴マップに基づいて物体候補領域を特定してもよい。
【0013】
また、本開示による領域特定装置においては、物体候補領域に含まれる物体候補のカテゴリを特定する第2の識別器をさらに備えてもよい。
【0014】
また、本開示による領域特定装置においては、畳み込み特徴マップおよび物体候補領域に基づいて、物体候補のカテゴリを特定する第2の識別器をさらに備えてもよい。
【0015】
また、本開示による領域特定装置においては、第2の識別器は、物体候補領域を修正してもよい。
【0016】
また、本開示による領域特定装置においては、第2の識別器は、物体候補領域内における物体候補の輪郭を識別してもよい。
【0017】
本開示による領域特定方法は、入力画像に含まれる物体の領域を特定する領域特定方法であって、
各種形状および各種大きさを有する複数のアンカーから、入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器が、入力画像に含まれる物体候補を特定する。
【0018】
なお、本開示による領域特定方法をコンピュータに実行させるためのプログラムとして提供してもよい。
【0019】
本開示による他の領域特定装置は、入力画像に含まれる物体の領域を特定する処理をコンピュータに実行させるための命令を記憶するメモリと、
記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、
各種形状および各種大きさを有する複数のアンカーから、入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器として機能して、入力画像に含まれる物体候補を特定する処理を実行する。
【発明の効果】
【0020】
本開示によれば、物体領域候補を特定するためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。また、人物以外の物体についても効率よく特定することができる。
【図面の簡単な説明】
【0021】
【
図1】本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図
【
図2】本開示の実施形態による領域特定装置の概略構成を示す図
【
図9】本実施形態において行われる処理を示すフローチャート
【発明を実施するための形態】
【0022】
以下、図面を参照して本開示の実施形態について説明する。
図1は、本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図である。
図1に示すように、診断支援システムでは、本実施形態による領域特定装置1、3次元画像撮影装置2、および画像保管サーバ3が、ネットワーク4を経由して通信可能な状態で接続されている。
【0023】
3次元画像撮影装置2は、被検体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT装置、MRI装置、およびPET(Positron Emission Tomography)装置等である。3次元画像撮影装置2により生成された3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、3次元画像撮影装置2は例えばCT装置であり、被検体の診断対象となる部位を含むCT画像を3次元画像として生成する。なお、3次元画像は複数の断層画像からなる。
【0024】
画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には3次元画像撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。
【0025】
領域特定装置1は、1台のコンピュータに、本実施形態の領域特定プログラムをインストールした装置である。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。領域特定プログラムは、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。
【0026】
図2は、コンピュータに領域特定プログラムをインストールして実行することにより実現される領域特定装置の概略構成を示す図である。
図2に示すように、領域特定装置1は、標準的なワークステーションの構成として、CPU(Central Processing Unit)11、メモリ12およびストレージ13を備えている。また、領域特定装置1には、液晶ディスプレイ等の表示部14、並びにキーボードおよびマウス等の入力部15が接続されている。
【0027】
ストレージ13はハードディスクドライブ等からなり、ネットワーク4を経由して画像保管サーバ3から取得した入力画像および処理に必要な情報を含む各種情報が記憶されている。
【0028】
また、メモリ12には、領域特定プログラムが記憶されている。メモリ12は、一時的な記録媒体である揮発性メモリでもよいし、非一時的な記録媒体である不揮発性メモリでもよい。メモリ12が揮発性メモリの場合は、領域特定プログラムがCPU11により他の場所から読み出され、メモリ12へ一時的に記憶され実行される。また、領域特定プログラムは、図示しない外部記録媒体に記録されて配布され、その記録媒体からCPU11によりインストールされてもよい。または、領域特定プログラムは、ネットワークに接続されたサーバ等に、外部からアクセス可能な状態で記憶され、要求に応じてCPU11によりメモリ12やストレージ13にダウンロードされ、インストールおよび実行されてもよい。領域特定プログラムは、CPU11に実行させる処理として、物体領域を特定する対象となる入力画像S0を取得する画像取得処理、入力画像S0に含まれる物体を特定する物体特定処理、および後述するアンカーおよび物体候補領域が特定された入力画像S0を表示する表示制御処理を規定する。なお、入力画像は3次元の画像であってもよく、2次元の画像であってもよい。本実施形態においては、説明のために例えばCT装置により取得された3次元画像の1つの断層面を表す断層画像が入力画像として用いられるとするが、これに限定されない。
【0029】
そして、CPU11がプログラムに従いこれらの処理を実行することにより、コンピュータは、画像取得部21、物体特定部22および表示制御部23として機能する。
【0030】
画像取得部21は、入力画像S0を画像保管サーバ3から取得するインターフェース等からなる。なお、入力画像S0が既にストレージ13に記憶されている場合には、画像取得部21は、ストレージ13から入力画像S0を取得するようにしてもよい。
【0031】
物体特定部22は、入力画像S0に含まれる物体を特定する。このために、物体特定部22はFaster-RCNNからなる。
図3は物体特定部22の構成を示す概略ブロック図である。
図3に示すように、物体特定部22、すなわちFaster-RCNNは、入力画像S0から畳み込み特徴マップM0を生成する畳み込みニューラルネットワーク30、畳み込み特徴マップM0に含まれる物体候補領域P0を特定する第1の識別器40、および物体候補領域P0に基づいて物体候補領域に含まれる物体候補のカテゴリを特定する第2の識別器50を有する。なお、畳み込みニューラルネットワーク30が本開示の畳み込み部に対応する。
【0032】
畳み込みニューラルネットワーク30は、畳み込み層(Convolutional Layer)、プーリング層(Pooling Layer)および逆畳み込み層(Deconvolutional Layer)等の複数の層を有する。畳み込みニューラルネットワーク30は、入力画像S0が入力されると、入力画像S0の特徴がマッピングされた畳み込み特徴マップM0を出力する。本実施形態における畳み込みニューラルネットワーク30は、畳み込み層およびプーリング層を有する。この場合、畳み込み特徴マップM0のサイズは、入力画像S0のサイズよりも小さくなる。例えば、畳み込みニューラルネットワーク30に含まれるプーリング層が1つおよび2つのそれぞれ場合において、畳み込み特徴マップM0のサイズは、入力画像S0に対してそれぞれ1/4,1/16となる。なお、畳み込みニューラルネットワーク30がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップM0のサイズは入力画像S0と同一となる。ここで、畳み込みニューラルネットワークとしては、非特許文献1に記載された、ZeilerとFergusのモデルまたはSimonyanとZissermanのモデル等、公知のモデルを用いることができる。
【0033】
第1の識別器40は、並進不変なRegion Proposal Network(物体領域提案ネットワーク、以下、RPN41とする)を有する。なお、RPN41が本開示の構成要素に対応する。RPN41は、畳み込みニューラルネットワーク30から入力された畳み込み特徴マップM0に含まれる物体候補領域を特定する。
図4はRPNの構成を示す図である。
図4に示すように、RPN41はスライディングウィンドウ42により畳み込み特徴マップM0をコンボリューションする。スライディングウィンドウ42は、畳み込み特徴マップM0上の各画素を中心とするn×n(例えば3×3)画素の領域内の信号値を抽出する。そして、RPN41は、畳み込み特徴マップM0上においてスライディングウィンドウ42を順次移動しつつ、畳み込み特徴マップM0におけるn×n画素の領域の信号値を抽出する。なお、本実施形態においては、畳み込み特徴マップM0におけるスライディングウィンドウ42の中心画素位置が、物体候補検出の対象画素位置となる。
【0034】
ここで、RPN41においては、畳み込み特徴マップM0上において設定されたスライディングウィンドウ42の中心位置、すなわち畳み込み特徴マップM0における対象画素位置に設定される複数のアンカー43が予め定義されている。アンカー43は各種サイズおよび各種アスペクト比を有する矩形の領域である。例えば、本実施形態においては、RPNは、縦横1:1、2:1および1:2の3種類のアスペクト比、並びに面積として128画素、256画素および512画素の3種類のサイズを有する、合計9種類のアンカー43が定義されているとするが、アスペクト比および面積はこれらの値に限定されない。また、9種類よりも少ないまたは9種類よりも多いアンカー43を定義しておいてもよい。なお、アンカーの画素数は、入力画像S0に対する画素数であり、畳み込み特徴マップM0のサイズに応じて、アンカーのサイズも変更される。なお、本実施形態においては、畳み込み特徴マップM0の入力画像S0に対するサイズおよびアンカー43のサイズは説明のための例であり、実際には上述した例以外の種々の値を取り得る。
【0035】
また、RPN41は、中間層44、分類層45および回帰層46を備える。中間層44は、スライディングウィンドウ42内のn×n画素の信号値を畳み込んで信号値の代表値を導出する。信号値の代表値は、例えば平均値、最大値および中間値等とすることができるが、これに限定されない。
【0036】
分類層45は、中間層44が導出したスライディングウィンドウ42の代表値に基づいて、畳み込み特徴マップM0の対象画素位置についての物体候補の有無の判定、および対象画素位置に対応する入力画像S0上の対応画素位置における物体候補の有無の判定を行う。
図5は分類層45が行う処理を模式的に示す図である。畳み込み特徴マップM0においては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層45は、対象画素位置において導出された上記代表値を予め定められたしきい値と比較し、対象画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、
図5においては、畳み込み特徴マップM0において斜線を付与した画素位置に物体候補が存在する。すなわち、畳み込み特徴マップM0において斜線を付与した画素位置は、物体候補領域にある。
【0037】
対象画素位置が物体候補領域にあると判定された場合、分類層45は畳み込み特徴マップM0における対象画素位置に対してアンカー43を設定する。このために、分類層45は、物体候補領域にあると判定された畳み込み特徴マップM0における対象画素位置に対応する入力画像S0の対応画素位置を参照する。例えば、
図5に示す対象画素位置Gtについて、入力画像S0における対象画素位置Gtに対応する複数の対応画素位置を参照する。ここで、本実施形態において、畳み込み特徴マップM0が入力画像S0の1/16のサイズであるとすると、入力画像S0における対象画素位置Gtに対応する対応画素位置は4×4=16画素からなる。なお、複数の対応画素位置からなる入力画像S0の領域を対応画素領域Rtと称する。
【0038】
分類層45は、入力画像S0の対応画素領域Rtにおける各対応画素位置について、物体候補の有無の判定を行う。対応画素領域Rtにおいては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層45は、対応画素領域Rt内の各対応画素位置の信号値を予め定められたしきい値と比較し、対応画素領域Rt内の各対応画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、
図5においては、対応画素領域Rtにおいて斜線を付与した対応画素位置に物体候補が存在する。すなわち、入力画像S0の対応画素領域Rtにおいて斜線を付与した画素位置は、物体候補領域にある。なお、対応画素領域Rtにおいて物体候補を含む画素からなる領域が正解ボックス71となる。
【0039】
続いて、分類層45はアンカーを選択する。具体的には、複数のアンカー43から、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択する。ここで、
図5に示すように対応画素領域Rt内において物体候補が存在する画素位置、すなわち正解ボックス71が横に並ぶ2つの画素からなるものとする。この場合、分類層45は、正解ボックス71とサイズおよびアスペクト比が最も類似するアンカーを複数のアンカー43(43A,43B...)から選択する。例えば、
図5に示すように、RPN41がそれぞれアスペクト比が縦横1:1、2:1および1:2である3種類のアンカー43A,43Bおよび43Cを有する場合、アスペクト比が1:2のアンカー43Cが選択される。なお、
図5においては、説明を容易にするために、アンカー43A,43Bおよび43Cのサイズは、それぞれ縦横1×1画素、2×0.5画素および0.5×2画素となっている。
【0040】
一方、
図6に示すように対応画素領域Rt内において物体候補が存在する画素位置、すなわち正解ボックス72が、縦に並ぶ2つの画素からなるものとする。この場合において、
図6に示すように、RPN41がそれぞれアスペクト比が縦横1:1、2:1および1:2である3種類のアンカー43A,43Bおよび43Cを有する場合、アスペクト比が2:1のアンカー43Bが選択される。なお、
図6においても、説明を容易なものとするために、アンカー43A,43Bおよび43Cのサイズは、それぞれ縦横1×1画素、2×0.5画素および0.5×2画素となっている。
【0041】
また、
図7に示すように対応画素領域Rt内において物体候補が存在する画素位置、すなわち正解ボックス73が1つの画素からなるものとする。この場合において、
図7に示すように、RPN41がそれぞれアスペクト比が1:1であり、サイズが異なる3種類のアンカー43D,43Aおよび43Eを有する場合、中間のサイズのアンカー43Aが選択される。なお、
図7においては、説明を容易なものとするために、アンカー43D,43Aおよび43Eのサイズは、それぞれ0.5×0.5画素、1×1画素および1.5×1.5画素となっている。
【0042】
回帰層46は、選択されたアンカーの移動および変形の少なくとも一方を予測して、入力画像S0において、物体候補を囲む物体候補領域を特定する。すなわち、畳み込み特徴マップM0における対象画素位置に物体候補が含まれる場合に、分類層45が選択したアンカー43と正解ボックスとの差分を算出し、入力画像S0における物体候補領域を特定する。ここで、差分とは、選択されたアンカー43を正解ボックスに一致させるための、選択されたアンカー43の移動量および変形量である。移動量は入力画像S0の座標上における移動量であり、入力画像S0が2次元の場合はXY方向のそれぞれの移動量、3次元の場合はXYZ方向のそれぞれの移動量である。変形量は、入力画像S0が2次元の場合はXY方向のそれぞれの拡大率であり、3次元の場合はXYZ方向のそれぞれの拡大率である。
【0043】
回帰層46は算出された差分に基づいて、入力画像S0における物体候補領域P0を特定する。すなわち、回帰層46は、入力画像S0に含まれる物体候補すなわち正解ボックスと一致する領域を物体候補領域P0として特定する。
【0044】
ここで、第1の識別器40は、並進不変であるとしたが、並進不変であるとは、入力される画像(ここでは畳み込み特徴マップM0)上の位置に拘わらず、物体候補領域を特定するための判断基準が変わらないことを意味する。例えば、アンカーの選択の仕方、移動および変形の仕方が、入力される画像に含まれる物体の大きさおよび位置に拘わらず同一であることを意味する。
【0045】
なお、本実施形態において、第1の識別器40、すなわちRPN41の学習は、以下のようにして行う。すなわち、各種入力画像についての畳み込み特徴マップM0を生成し、畳み込み特徴マップM0から識別すべき物体に外接する教師矩形領域を切り出す。そして、矩形領域の中心座標を含む画素位置に対応する入力画像の教師矩形領域(入力教師矩形領域とする)に含まれる物体のサイズおよびアスペクト比が最も類似するアンカーを複数のアンカー43から選択する。そして、入力教師矩形領域内の物体と選択されたアンカーとの差分を出力し、差分を最小にすべく、選択されたアンカーの移動および変形の少なくとも一方を行うように、RPN41を学習する。この際、確率的勾配降下法または誤差逆伝播法を用いて、RPN41を学習させればよい。ここで、差分とは、選択されたアンカーを入力教師矩形領域と一致させるためのアンカーの変形量および移動量である。例えば、入力画像が2次元である場合、アンカーの中心と入力教師矩形領域の中心とを一致させるためのX方向およびY方向のアンカーの移動量およびX方向およびY方向のアンカーの変形量である。変形量はアンカーを拡大または縮小することと同義であるため、変形量は拡大率と同義である。
【0046】
第2の識別器50は、第1の識別器40が特定した物体候補領域P0に基づいて物体候補のカテゴリを特定する。なお、第2の識別器50は、特許文献1および非特許文献1に記載されたものと同一である。例えば、第2の識別器50は、プーリング層および1以上の全結合層を有するニューラルネットワークからなり、以下のようにして物体候補のカテゴリを特定する。まず、第2の識別器50は、第1の識別器40が特定した物体候補領域P0を畳み込み特徴マップM0から切り出し、必要であれば切り出した物体候補領域P0を、予め定められた大きさにリサイズする。そして、第2の識別器50は、切り出した物体候補領域P0を複数種類の物体と比較し、物体候補領域P0のカテゴリを特定する。
【0047】
具体的には、第2の識別器50は、切り出した物体候補領域P0について、特定の物体であることの確率を表すスコアを出力し、物体候補領域P0をスコアが最も大きい物体に特定する。例えば、本実施形態において、入力画像S0を肺のCT画像であるとした場合、物体候補領域P0を、肺の疾患である浸潤影、腫瘤影、すりガラス影、小葉中心性結節影、非小葉中心性結節影、網状影、線状影、小葉間隔壁肥厚、蜂窩肺および嚢胞等のカテゴリのいずれかに特定する。一方、スコアがしきい値以上とならない場合、第2の識別器50は、物体候補領域P0のカテゴリを背景に特定する。
【0048】
なお、第2の識別器50の学習は、各種物体の画像を教師画像とし、教師画像が入力された場合に、入力された教師画像に含まれる物体のカテゴリのスコアが100%となるように行われる。この際、第1の識別器40と同様に、確率的勾配降下法または誤差逆伝播法を用いて、学習を行えばよい。
【0049】
また、第2の識別器50は、物体に外接する矩形の位置およびサイズを特定してもよい。この場合、切り出した物体候補領域P0が、より正確に物体に外接するように、畳み込み特徴マップM0における物体候補領域P0位置およびサイズを修正する処理を行うものとなる。
【0050】
また、第2の識別器50は、物体候補領域P0に含まれる物体の輪郭を特定してもよい。
【0051】
表示制御部23は、第1の識別器40が選択したアンカーを表示部14に表示する。また、第2の識別器50によるカテゴリの特定結果を表示部14に表示する。
図8は、表示部14における結果画面を示す図である。
図8に示すように、結果画面60は入力画像S0が表示される。また、結果画面60の右下隅に、使用したアンカーの種類およびサイズを表示するアンカー表示領域61を含む。
図8においては、アスペクト比が1:1で面積が128画素のアンカーが選択されたことを示している。さらに、入力画像S0において特定された物体を囲む矩形B1が表示されている。また、結果画面60の左下隅には、矩形B1の物体のカテゴリを表示するカテゴリ表示領域62が含まれる。ここでは、特定された物体のカテゴリとして、「腫瘤影」が表示されている。
【0052】
次いで、本実施形態において行われる処理について説明する。
図9は本実施形態において行われる処理を示すフローチャートである。まず、画像取得部21が、入力画像S0を取得する(ステップST1)。次いで、物体特定部22の畳み込みニューラルネットワーク30が、入力画像S0から畳み込み特徴マップM0を生成する(ステップST2)。そして、第1の識別器40がアンカー43を選択し(ステップST3)、選択したアンカー43に基づいて、入力画像S0における物体候補領域P0を特定する(ステップST4)。そして、第2の識別器50が、物体候補領域P0における物体のカテゴリを特定する(ステップST5)。さらに、表示制御部23が、選択されたアンカーおよび特定された物体のカテゴリを含む結果画面60を表示部14に表示し(ステップST6)、処理を終了する。
【0053】
ここで、特許文献1および非特許文献1に記載された手法においては、アンカーと正解ボックスとの重なりの大きさに基づいて、アンカーが選択される。例えば、
図5に示すような正解ボックス71の場合、
図7に示す最も大きい正方形のアンカー43Eが選択される。これに対して、本実施形態は、正解ボックスとの形状および大きさの類似度に基づいてアンカーが選択される。このため、上述したように、本実施形態においては、アンカー43Cが選択される。
【0054】
このように、本実施形態においては、アンカーに基づいて物体候補領域P0を特定しているため、
図6に示すような正解ボックス71の場合、アンカー43Eよりもアンカー43Cの方が、正解ボックス71に一致させるためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。したがって、本実施形態によれば、入力画像S0に含まれる物体を高速かつ効率よく特定することができる。
【0055】
また、本実施形態においては、物体候補の正解ボックスに類似するようにアンカーを選択しているため、任意の形状またはアスペクト比を有する物体を、入力画像S0において特定することができる。例えば、上述したように入力画像S0を医用画像とした場合において、癌等の病変を特定したり、画像に含まれる人物、動物および自動車等を特定したりする場合にも、本実施形態を適用することができる。
【0056】
なお、上記実施形態においては、第1の識別器40および第2の識別器50をニューラルネットワークからなるとしているが、これに限定されない。例えばサポートベクタマシン(SVM(Support Vector Machine))、および決定木であってもよい。
【0057】
また、上記実施形態においては、物体特定部22が畳み込みニューラルネットワーク30を備えるとし、畳み込みニューラルネットワーク30において畳み込み特徴マップM0を生成し、生成された畳み込み特徴マップM0において、物体候補領域P0を特定しているが、これに限定されない。物体特定部22は畳み込みニューラルネットワーク30を備えず、第1の識別器40において、入力画像S0において物体候補領域P0を特定してもよい。この場合、第2の識別器50は、畳み込み特徴マップM0に基づいて物体のカテゴリを特定してもよいが、入力画像S0から物体候補領域P0を切り出して、物体のカテゴリを特定してもよい。
【0058】
また、上記実施形態においては、畳み込みニューラルネットワーク30が畳み込み層およびプーリング層を有するとしているが、これに限定されない。畳み込みニューラルネットワーク30は、プーリング層を有さない、または逆畳み込み層をさらに有してもよい。畳み込みニューラルネットワーク30がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップM0のサイズは入力画像S0と同一となる。
【0059】
また、上記実施形態において、例えば、画像取得部21、物体特定部22および表示制御部23といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0060】
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
【0061】
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0062】
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
【符号の説明】
【0063】
1 領域特定装置
2 3次元画像撮影装置
3 画像保管サーバ
4 ネットワーク
11 CPU
12 メモリ
13 ストレージ
14 表示部
15 入力部
21 画像取得部
22 物体特定部
23 表示制御部
30 畳み込みニューラルネットワーク
40 第1の識別器
41 RPN
42 スライディングウィンドウ
42A 中心画素
43,43A~43F アンカー
44 中間層
45 分類層
46 回帰層
50 第2の識別器
60 結果画面
61 アンカー表示領域
62 カテゴリ表示領域
71,72,73 正解ボックス
B1 矩形
Gt 対象画素位置
Rt 対応画素領域
M0 畳み込み特徴マップ
S0 入力画像
P0 物体候補領域