特許7105918 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特許7105918領域特定装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-07-14

(45)【発行日】2022-07-25

(54)【発明の名称】領域特定装置、方法およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20220715BHJP

【ＦＩ】

G06T7/00 350C

G06T7/00 612

【請求項の数】 10

(21)【出願番号】P 2020562381

(86)(22)【出願日】2019-10-11

(86)【国際出願番号】 JP2019040218

(87)【国際公開番号】W WO2020137092

(87)【国際公開日】2020-07-02

【審査請求日】2021-04-02

(31)【優先権主張番号】P 2018244309

(32)【優先日】2018-12-27

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】306037311

【氏名又は名称】富士フイルム株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】特許業務法人太陽国際特許事務所

(72)【発明者】

【氏名】一ノ瀬晶路

(72)【発明者】

【氏名】北村嘉郎

【審査官】新井則和

(56)【参考文献】

【文献】米国特許第９８５８４９６（ＵＳ，Ｂ２）

【文献】特開２０１７－１９１５０１（ＪＰ，Ａ）

【文献】REN, Shaoqing et al.，Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE VOL. 39 NO. 6，IEEE，2017年06月30日

【文献】YANG, Yurong et al.，Aerial Target Tracking Algorithm Based on Faster R-CNN Combined with Frame Differencing，aerospace，2017年06月20日，vol. 4, no. 2

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｈ０４Ｎ５／２２５

(57)【特許請求の範囲】

【請求項1】

入力画像に含まれる物体の領域を特定する領域特定装置であって、

前記入力画像に含まれる物体候補を特定する第１の識別器を備え、

前記第１の識別器は、各種形状および各種大きさを有する複数のアンカーから、前記物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する領域特定装置。

【請求項2】

前記選択したアンカーを表示部に表示する表示制御部をさらに備えた請求項１に記載の領域特定装置。

【請求項3】

前記表示制御部は、前記物体候補領域が特定された前記入力画像を前記表示部に表示する請求項２に記載の領域特定装置。

【請求項4】

前記入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、

前記第１の識別器は、前記畳み込み特徴マップに基づいて前記物体候補領域を特定する請求項１から３のいずれか１項に記載の領域特定装置。

【請求項5】

前記物体候補領域に含まれる前記物体候補のカテゴリを特定する第２の識別器をさらに備えた請求項１から４のいずれか１項に記載の領域特定装置。

【請求項6】

前記畳み込み特徴マップおよび前記物体候補領域に基づいて、前記物体候補のカテゴリを特定する第２の識別器をさらに備えた請求項４に記載の領域特定装置。

【請求項7】

前記第２の識別器は、前記物体候補領域を修正する請求項５または６に記載の領域特定装置。

【請求項8】

前記第２の識別器は、前記物体候補領域内における前記物体候補の輪郭を識別する請求項５から７のいずれか１項に記載の領域特定装置。

【請求項9】

入力画像に含まれる物体の領域を特定する領域特定方法であって、

各種形状および各種大きさを有する複数のアンカーから、前記入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器が、前記入力画像に含まれる物体候補を特定する領域特定方法。

【請求項10】

入力画像に含まれる物体の領域を特定する領域特定方法をコンピュータに実行させる領域特定プログラムであって、

各種形状および各種大きさを有する複数のアンカーから、前記入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器が、前記入力画像に含まれる物体候補を特定する手順をコンピュータに実行させる領域特定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、画像に含まれる物体の領域を特定する領域特定装置、方法およびプログラムに関する。

【背景技術】

【0002】

近年、ＣＴ（Computed Tomography）装置およびＭＲＩ（Magnetic Resonance Imaging）装置等の医療機器の進歩により、より質の高い高解像度の３次元画像を用いての画像診断が可能となってきている。このような３次元画像に含まれる臓器および病変等の領域を自動で抽出することも行われている。このように画像から領域を抽出する手法として、ディープラーニング等の機械学習により学習がなされた判別器を用いる手法が提案されている。とくに、ディープラーニングで用いられる畳み込みニューラルネットワーク（ＣＮＮ（Convolutional Neural Network））としてＦａｓｔｅｒ－ＲＣＮＮ（Regions with CNN features）が知られている（非特許文献１および特許文献１参照）。

【0003】

Ｆａｓｔｅｒ－ＲＣＮＮは、入力画像から特徴量を抽出して特徴マップを生成する畳み込み層と、物体の候補領域を特定するＲＰＮ（Region Proposal Networks）と、特徴マップおよび物体候補領域を入力として、物体のカテゴリの分類および回帰の結果を出力する分類ネットワークから構成される。Ｆａｓｔｅｒ－ＲＣＮＮのＲＰＮにおいては、複数種類のアスペクト比およびサイズを有するアンカーと呼ばれる矩形領域が予め定義される。ＲＰＮにおいては、複数種類のアンカーを入力画像から生成された特徴マップの各画素位置に適用し、入力画像に含まれる物体候補との重なり率が最も大きいアンカーが選択される。そして、ＲＰＮにおいては、選択されたアンカーを用いて、物体候補を囲む矩形（正解ボックス）と一致するようにアンカーを回帰させる（すなわち変形および移動させる）処理を、特徴マップの全画素において行い、正解ボックスと一致するように回帰されたアンカーの位置およびサイズが、入力画像における物体候補領域としてＲＰＮから出力される。そして、分類ネットワークにおいて、物体候補領域および特徴マップに基づいて、入力画像における物体候補領域の分類が行われる。

【0004】

また、ＣＮＮを用いて画像から人物を効率よく特定するために、複数種類のアンカーから人物が立っている状態のアスペクト比に近い縦長の１：２のアスペクト比を有するアンカーを用いる手法が提案されている（特許文献２参照）。

【先行技術文献】

【特許文献】

【0005】

【文献】米国特許第９８５８４９６号明細書

【文献】特開２０１７－１９１５０１号公報

【非特許文献】

【0006】

【文献】Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１および非特許文献１に記載された手法では、ＲＰＮにおいて、複数種類のアンカーから、正解ボックスとの重なり率が最も大きいアンカーを選択している。このため、特許文献１および非特許文献１に記載された手法では、正解ボックスを囲むようにアンカーを変形および移動させる処理を行う際に、物体候補の形状およびサイズによっては、処理の演算量が大きくなってしまう。また、特許文献２に記載された手法は、人物を特定するために縦長の１：２のアスペクト比を有するアンカーを使用する。このため、特許文献２に記載された手法は、画像から人物を効率よく特定できるかもしれないが、人物以外の物体については、必ずしも効率よく特定できない可能性がある。

【0008】

本発明は上記事情に鑑みなされ、入力画像に含まれる任意の物体を効率よく特定することを目的とする。

【課題を解決するための手段】

【0009】

本開示による領域特定装置は、入力画像に含まれる物体の領域を特定する領域特定装置であって、

入力画像に含まれる物体候補を特定する第１の識別器を備え、

第１の識別器は、各種形状および各種大きさを有する複数のアンカーから、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する。

【0010】

なお、本開示による領域特定装置においては、選択したアンカーを表示部に表示する表示制御部をさらに備えてもよい。

【0011】

また、本開示による領域特定装置においては、表示制御部は、物体候補領域が特定された入力画像を表示部に表示してもよい。

【0012】

また、本開示による領域特定装置においては、入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、

第１の識別器は、畳み込み特徴マップに基づいて物体候補領域を特定してもよい。

【0013】

また、本開示による領域特定装置においては、物体候補領域に含まれる物体候補のカテゴリを特定する第２の識別器をさらに備えてもよい。

【0014】

また、本開示による領域特定装置においては、畳み込み特徴マップおよび物体候補領域に基づいて、物体候補のカテゴリを特定する第２の識別器をさらに備えてもよい。

【0015】

また、本開示による領域特定装置においては、第２の識別器は、物体候補領域を修正してもよい。

【0016】

また、本開示による領域特定装置においては、第２の識別器は、物体候補領域内における物体候補の輪郭を識別してもよい。

【0017】

本開示による領域特定方法は、入力画像に含まれる物体の領域を特定する領域特定方法であって、

各種形状および各種大きさを有する複数のアンカーから、入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器が、入力画像に含まれる物体候補を特定する。

【0018】

なお、本開示による領域特定方法をコンピュータに実行させるためのプログラムとして提供してもよい。

【0019】

本開示による他の領域特定装置は、入力画像に含まれる物体の領域を特定する処理をコンピュータに実行させるための命令を記憶するメモリと、

記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、

各種形状および各種大きさを有する複数のアンカーから、入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器として機能して、入力画像に含まれる物体候補を特定する処理を実行する。

【発明の効果】

【0020】

本開示によれば、物体領域候補を特定するためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。また、人物以外の物体についても効率よく特定することができる。

【図面の簡単な説明】

【0021】

【図1】本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図

【図2】本開示の実施形態による領域特定装置の概略構成を示す図

【図3】物体特定部の構成を示す概略ブロック図

【図4】ＲＰＮの構成を示す図

【図5】アンカーの選択を説明するための図

【図6】アンカーの選択を説明するための図

【図7】アンカーの選択を説明するための図

【図8】結果画面を示す図

【図9】本実施形態において行われる処理を示すフローチャート

【発明を実施するための形態】

【0022】

以下、図面を参照して本開示の実施形態について説明する。図１は、本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図である。図１に示すように、診断支援システムでは、本実施形態による領域特定装置１、３次元画像撮影装置２、および画像保管サーバ３が、ネットワーク４を経由して通信可能な状態で接続されている。

【0023】

３次元画像撮影装置２は、被検体の診断対象となる部位を撮影することにより、その部位を表す３次元画像を生成する装置であり、具体的には、ＣＴ装置、ＭＲＩ装置、およびＰＥＴ（Positron Emission Tomography）装置等である。３次元画像撮影装置２により生成された３次元画像は画像保管サーバ３に送信され、保存される。なお、本実施形態においては、３次元画像撮影装置２は例えばＣＴ装置であり、被検体の診断対象となる部位を含むＣＴ画像を３次元画像として生成する。なお、３次元画像は複数の断層画像からなる。

【0024】

画像保管サーバ３は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ３は、有線あるいは無線のネットワーク４を介して他の装置と通信を行い、画像データ等を送受信する。具体的には３次元画像撮影装置２で生成された３次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク４経由での各装置間の通信は、ＤＩＣＯＭ（Digital Imaging and Communication in Medicine）等のプロトコルに基づいている。

【0025】

領域特定装置１は、１台のコンピュータに、本実施形態の領域特定プログラムをインストールした装置である。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。領域特定プログラムは、ＤＶＤ（Digital Versatile Disc）あるいはＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。

【0026】

図２は、コンピュータに領域特定プログラムをインストールして実行することにより実現される領域特定装置の概略構成を示す図である。図２に示すように、領域特定装置１は、標準的なワークステーションの構成として、ＣＰＵ（Central Processing Unit）１１、メモリ１２およびストレージ１３を備えている。また、領域特定装置１には、液晶ディスプレイ等の表示部１４、並びにキーボードおよびマウス等の入力部１５が接続されている。

【0027】

ストレージ１３はハードディスクドライブ等からなり、ネットワーク４を経由して画像保管サーバ３から取得した入力画像および処理に必要な情報を含む各種情報が記憶されている。

【0028】

また、メモリ１２には、領域特定プログラムが記憶されている。メモリ１２は、一時的な記録媒体である揮発性メモリでもよいし、非一時的な記録媒体である不揮発性メモリでもよい。メモリ１２が揮発性メモリの場合は、領域特定プログラムがＣＰＵ１１により他の場所から読み出され、メモリ１２へ一時的に記憶され実行される。また、領域特定プログラムは、図示しない外部記録媒体に記録されて配布され、その記録媒体からＣＰＵ１１によりインストールされてもよい。または、領域特定プログラムは、ネットワークに接続されたサーバ等に、外部からアクセス可能な状態で記憶され、要求に応じてＣＰＵ１１によりメモリ１２やストレージ１３にダウンロードされ、インストールおよび実行されてもよい。領域特定プログラムは、ＣＰＵ１１に実行させる処理として、物体領域を特定する対象となる入力画像Ｓ０を取得する画像取得処理、入力画像Ｓ０に含まれる物体を特定する物体特定処理、および後述するアンカーおよび物体候補領域が特定された入力画像Ｓ０を表示する表示制御処理を規定する。なお、入力画像は３次元の画像であってもよく、２次元の画像であってもよい。本実施形態においては、説明のために例えばＣＴ装置により取得された３次元画像の１つの断層面を表す断層画像が入力画像として用いられるとするが、これに限定されない。

【0029】

そして、ＣＰＵ１１がプログラムに従いこれらの処理を実行することにより、コンピュータは、画像取得部２１、物体特定部２２および表示制御部２３として機能する。

【0030】

画像取得部２１は、入力画像Ｓ０を画像保管サーバ３から取得するインターフェース等からなる。なお、入力画像Ｓ０が既にストレージ１３に記憶されている場合には、画像取得部２１は、ストレージ１３から入力画像Ｓ０を取得するようにしてもよい。

【0031】

物体特定部２２は、入力画像Ｓ０に含まれる物体を特定する。このために、物体特定部２２はＦａｓｔｅｒ－ＲＣＮＮからなる。図３は物体特定部２２の構成を示す概略ブロック図である。図３に示すように、物体特定部２２、すなわちＦａｓｔｅｒ－ＲＣＮＮは、入力画像Ｓ０から畳み込み特徴マップＭ０を生成する畳み込みニューラルネットワーク３０、畳み込み特徴マップＭ０に含まれる物体候補領域Ｐ０を特定する第１の識別器４０、および物体候補領域Ｐ０に基づいて物体候補領域に含まれる物体候補のカテゴリを特定する第２の識別器５０を有する。なお、畳み込みニューラルネットワーク３０が本開示の畳み込み部に対応する。

【0032】

畳み込みニューラルネットワーク３０は、畳み込み層(Convolutional Layer)、プーリング層(Pooling Layer)および逆畳み込み層(Deconvolutional Layer)等の複数の層を有する。畳み込みニューラルネットワーク３０は、入力画像Ｓ０が入力されると、入力画像Ｓ０の特徴がマッピングされた畳み込み特徴マップＭ０を出力する。本実施形態における畳み込みニューラルネットワーク３０は、畳み込み層およびプーリング層を有する。この場合、畳み込み特徴マップＭ０のサイズは、入力画像Ｓ０のサイズよりも小さくなる。例えば、畳み込みニューラルネットワーク３０に含まれるプーリング層が１つおよび２つのそれぞれ場合において、畳み込み特徴マップＭ０のサイズは、入力画像Ｓ０に対してそれぞれ１／４，１／１６となる。なお、畳み込みニューラルネットワーク３０がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップＭ０のサイズは入力画像Ｓ０と同一となる。ここで、畳み込みニューラルネットワークとしては、非特許文献１に記載された、ZeilerとFergusのモデルまたはSimonyanとZissermanのモデル等、公知のモデルを用いることができる。

【0033】

第１の識別器４０は、並進不変なRegion Proposal Network（物体領域提案ネットワーク、以下、ＲＰＮ４１とする）を有する。なお、ＲＰＮ４１が本開示の構成要素に対応する。ＲＰＮ４１は、畳み込みニューラルネットワーク３０から入力された畳み込み特徴マップＭ０に含まれる物体候補領域を特定する。図４はＲＰＮの構成を示す図である。図４に示すように、ＲＰＮ４１はスライディングウィンドウ４２により畳み込み特徴マップＭ０をコンボリューションする。スライディングウィンドウ４２は、畳み込み特徴マップＭ０上の各画素を中心とするｎ×ｎ（例えば３×３）画素の領域内の信号値を抽出する。そして、ＲＰＮ４１は、畳み込み特徴マップＭ０上においてスライディングウィンドウ４２を順次移動しつつ、畳み込み特徴マップＭ０におけるｎ×ｎ画素の領域の信号値を抽出する。なお、本実施形態においては、畳み込み特徴マップＭ０におけるスライディングウィンドウ４２の中心画素位置が、物体候補検出の対象画素位置となる。

【0034】

ここで、ＲＰＮ４１においては、畳み込み特徴マップＭ０上において設定されたスライディングウィンドウ４２の中心位置、すなわち畳み込み特徴マップＭ０における対象画素位置に設定される複数のアンカー４３が予め定義されている。アンカー４３は各種サイズおよび各種アスペクト比を有する矩形の領域である。例えば、本実施形態においては、ＲＰＮは、縦横１：１、２：１および１：２の３種類のアスペクト比、並びに面積として１２８画素、２５６画素および５１２画素の３種類のサイズを有する、合計９種類のアンカー４３が定義されているとするが、アスペクト比および面積はこれらの値に限定されない。また、９種類よりも少ないまたは９種類よりも多いアンカー４３を定義しておいてもよい。なお、アンカーの画素数は、入力画像Ｓ０に対する画素数であり、畳み込み特徴マップＭ０のサイズに応じて、アンカーのサイズも変更される。なお、本実施形態においては、畳み込み特徴マップＭ０の入力画像Ｓ０に対するサイズおよびアンカー４３のサイズは説明のための例であり、実際には上述した例以外の種々の値を取り得る。

【0035】

また、ＲＰＮ４１は、中間層４４、分類層４５および回帰層４６を備える。中間層４４は、スライディングウィンドウ４２内のｎ×ｎ画素の信号値を畳み込んで信号値の代表値を導出する。信号値の代表値は、例えば平均値、最大値および中間値等とすることができるが、これに限定されない。

【0036】

分類層４５は、中間層４４が導出したスライディングウィンドウ４２の代表値に基づいて、畳み込み特徴マップＭ０の対象画素位置についての物体候補の有無の判定、および対象画素位置に対応する入力画像Ｓ０上の対応画素位置における物体候補の有無の判定を行う。図５は分類層４５が行う処理を模式的に示す図である。畳み込み特徴マップＭ０においては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層４５は、対象画素位置において導出された上記代表値を予め定められたしきい値と比較し、対象画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、図５においては、畳み込み特徴マップＭ０において斜線を付与した画素位置に物体候補が存在する。すなわち、畳み込み特徴マップＭ０において斜線を付与した画素位置は、物体候補領域にある。

【0037】

対象画素位置が物体候補領域にあると判定された場合、分類層４５は畳み込み特徴マップＭ０における対象画素位置に対してアンカー４３を設定する。このために、分類層４５は、物体候補領域にあると判定された畳み込み特徴マップＭ０における対象画素位置に対応する入力画像Ｓ０の対応画素位置を参照する。例えば、図５に示す対象画素位置Ｇｔについて、入力画像Ｓ０における対象画素位置Ｇｔに対応する複数の対応画素位置を参照する。ここで、本実施形態において、畳み込み特徴マップＭ０が入力画像Ｓ０の１／１６のサイズであるとすると、入力画像Ｓ０における対象画素位置Ｇｔに対応する対応画素位置は４×４＝１６画素からなる。なお、複数の対応画素位置からなる入力画像Ｓ０の領域を対応画素領域Ｒｔと称する。

【0038】

分類層４５は、入力画像Ｓ０の対応画素領域Ｒｔにおける各対応画素位置について、物体候補の有無の判定を行う。対応画素領域Ｒｔにおいては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層４５は、対応画素領域Ｒｔ内の各対応画素位置の信号値を予め定められたしきい値と比較し、対応画素領域Ｒｔ内の各対応画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、図５においては、対応画素領域Ｒｔにおいて斜線を付与した対応画素位置に物体候補が存在する。すなわち、入力画像Ｓ０の対応画素領域Ｒｔにおいて斜線を付与した画素位置は、物体候補領域にある。なお、対応画素領域Ｒｔにおいて物体候補を含む画素からなる領域が正解ボックス７１となる。

【0039】

続いて、分類層４５はアンカーを選択する。具体的には、複数のアンカー４３から、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択する。ここで、図５に示すように対応画素領域Ｒｔ内において物体候補が存在する画素位置、すなわち正解ボックス７１が横に並ぶ２つの画素からなるものとする。この場合、分類層４５は、正解ボックス７１とサイズおよびアスペクト比が最も類似するアンカーを複数のアンカー４３（４３Ａ，４３Ｂ．．．）から選択する。例えば、図５に示すように、ＲＰＮ４１がそれぞれアスペクト比が縦横１：１、２：１および１：２である３種類のアンカー４３Ａ，４３Ｂおよび４３Ｃを有する場合、アスペクト比が１：２のアンカー４３Ｃが選択される。なお、図５においては、説明を容易にするために、アンカー４３Ａ，４３Ｂおよび４３Ｃのサイズは、それぞれ縦横１×１画素、２×０．５画素および０．５×２画素となっている。

【0040】

一方、図６に示すように対応画素領域Ｒｔ内において物体候補が存在する画素位置、すなわち正解ボックス７２が、縦に並ぶ２つの画素からなるものとする。この場合において、図６に示すように、ＲＰＮ４１がそれぞれアスペクト比が縦横１：１、２：１および１：２である３種類のアンカー４３Ａ，４３Ｂおよび４３Ｃを有する場合、アスペクト比が２：１のアンカー４３Ｂが選択される。なお、図６においても、説明を容易なものとするために、アンカー４３Ａ，４３Ｂおよび４３Ｃのサイズは、それぞれ縦横１×１画素、２×０．５画素および０．５×２画素となっている。

【0041】

また、図７に示すように対応画素領域Ｒｔ内において物体候補が存在する画素位置、すなわち正解ボックス７３が１つの画素からなるものとする。この場合において、図７に示すように、ＲＰＮ４１がそれぞれアスペクト比が１：１であり、サイズが異なる３種類のアンカー４３Ｄ，４３Ａおよび４３Ｅを有する場合、中間のサイズのアンカー４３Ａが選択される。なお、図７においては、説明を容易なものとするために、アンカー４３Ｄ，４３Ａおよび４３Ｅのサイズは、それぞれ０．５×０．５画素、１×１画素および１．５×１．５画素となっている。

【0042】

回帰層４６は、選択されたアンカーの移動および変形の少なくとも一方を予測して、入力画像Ｓ０において、物体候補を囲む物体候補領域を特定する。すなわち、畳み込み特徴マップＭ０における対象画素位置に物体候補が含まれる場合に、分類層４５が選択したアンカー４３と正解ボックスとの差分を算出し、入力画像Ｓ０における物体候補領域を特定する。ここで、差分とは、選択されたアンカー４３を正解ボックスに一致させるための、選択されたアンカー４３の移動量および変形量である。移動量は入力画像Ｓ０の座標上における移動量であり、入力画像Ｓ０が２次元の場合はＸＹ方向のそれぞれの移動量、３次元の場合はＸＹＺ方向のそれぞれの移動量である。変形量は、入力画像Ｓ０が２次元の場合はＸＹ方向のそれぞれの拡大率であり、３次元の場合はＸＹＺ方向のそれぞれの拡大率である。

【0043】

回帰層４６は算出された差分に基づいて、入力画像Ｓ０における物体候補領域Ｐ０を特定する。すなわち、回帰層４６は、入力画像Ｓ０に含まれる物体候補すなわち正解ボックスと一致する領域を物体候補領域Ｐ０として特定する。

【0044】

ここで、第１の識別器４０は、並進不変であるとしたが、並進不変であるとは、入力される画像（ここでは畳み込み特徴マップＭ０）上の位置に拘わらず、物体候補領域を特定するための判断基準が変わらないことを意味する。例えば、アンカーの選択の仕方、移動および変形の仕方が、入力される画像に含まれる物体の大きさおよび位置に拘わらず同一であることを意味する。

【0045】

なお、本実施形態において、第１の識別器４０、すなわちＲＰＮ４１の学習は、以下のようにして行う。すなわち、各種入力画像についての畳み込み特徴マップＭ０を生成し、畳み込み特徴マップＭ０から識別すべき物体に外接する教師矩形領域を切り出す。そして、矩形領域の中心座標を含む画素位置に対応する入力画像の教師矩形領域（入力教師矩形領域とする）に含まれる物体のサイズおよびアスペクト比が最も類似するアンカーを複数のアンカー４３から選択する。そして、入力教師矩形領域内の物体と選択されたアンカーとの差分を出力し、差分を最小にすべく、選択されたアンカーの移動および変形の少なくとも一方を行うように、ＲＰＮ４１を学習する。この際、確率的勾配降下法または誤差逆伝播法を用いて、ＲＰＮ４１を学習させればよい。ここで、差分とは、選択されたアンカーを入力教師矩形領域と一致させるためのアンカーの変形量および移動量である。例えば、入力画像が２次元である場合、アンカーの中心と入力教師矩形領域の中心とを一致させるためのＸ方向およびＹ方向のアンカーの移動量およびＸ方向およびＹ方向のアンカーの変形量である。変形量はアンカーを拡大または縮小することと同義であるため、変形量は拡大率と同義である。

【0046】

第２の識別器５０は、第１の識別器４０が特定した物体候補領域Ｐ０に基づいて物体候補のカテゴリを特定する。なお、第２の識別器５０は、特許文献１および非特許文献１に記載されたものと同一である。例えば、第２の識別器５０は、プーリング層および１以上の全結合層を有するニューラルネットワークからなり、以下のようにして物体候補のカテゴリを特定する。まず、第２の識別器５０は、第１の識別器４０が特定した物体候補領域Ｐ０を畳み込み特徴マップＭ０から切り出し、必要であれば切り出した物体候補領域Ｐ０を、予め定められた大きさにリサイズする。そして、第２の識別器５０は、切り出した物体候補領域Ｐ０を複数種類の物体と比較し、物体候補領域Ｐ０のカテゴリを特定する。

【0047】

具体的には、第２の識別器５０は、切り出した物体候補領域Ｐ０について、特定の物体であることの確率を表すスコアを出力し、物体候補領域Ｐ０をスコアが最も大きい物体に特定する。例えば、本実施形態において、入力画像Ｓ０を肺のＣＴ画像であるとした場合、物体候補領域Ｐ０を、肺の疾患である浸潤影、腫瘤影、すりガラス影、小葉中心性結節影、非小葉中心性結節影、網状影、線状影、小葉間隔壁肥厚、蜂窩肺および嚢胞等のカテゴリのいずれかに特定する。一方、スコアがしきい値以上とならない場合、第２の識別器５０は、物体候補領域Ｐ０のカテゴリを背景に特定する。

【0048】

なお、第２の識別器５０の学習は、各種物体の画像を教師画像とし、教師画像が入力された場合に、入力された教師画像に含まれる物体のカテゴリのスコアが１００％となるように行われる。この際、第１の識別器４０と同様に、確率的勾配降下法または誤差逆伝播法を用いて、学習を行えばよい。

【0049】

また、第２の識別器５０は、物体に外接する矩形の位置およびサイズを特定してもよい。この場合、切り出した物体候補領域Ｐ０が、より正確に物体に外接するように、畳み込み特徴マップＭ０における物体候補領域Ｐ０位置およびサイズを修正する処理を行うものとなる。

【0050】

また、第２の識別器５０は、物体候補領域Ｐ０に含まれる物体の輪郭を特定してもよい。

【0051】

表示制御部２３は、第１の識別器４０が選択したアンカーを表示部１４に表示する。また、第２の識別器５０によるカテゴリの特定結果を表示部１４に表示する。図８は、表示部１４における結果画面を示す図である。図８に示すように、結果画面６０は入力画像Ｓ０が表示される。また、結果画面６０の右下隅に、使用したアンカーの種類およびサイズを表示するアンカー表示領域６１を含む。図８においては、アスペクト比が１：１で面積が１２８画素のアンカーが選択されたことを示している。さらに、入力画像Ｓ０において特定された物体を囲む矩形Ｂ１が表示されている。また、結果画面６０の左下隅には、矩形Ｂ１の物体のカテゴリを表示するカテゴリ表示領域６２が含まれる。ここでは、特定された物体のカテゴリとして、「腫瘤影」が表示されている。

【0052】

次いで、本実施形態において行われる処理について説明する。図９は本実施形態において行われる処理を示すフローチャートである。まず、画像取得部２１が、入力画像Ｓ０を取得する（ステップＳＴ１）。次いで、物体特定部２２の畳み込みニューラルネットワーク３０が、入力画像Ｓ０から畳み込み特徴マップＭ０を生成する（ステップＳＴ２）。そして、第１の識別器４０がアンカー４３を選択し（ステップＳＴ３）、選択したアンカー４３に基づいて、入力画像Ｓ０における物体候補領域Ｐ０を特定する（ステップＳＴ４）。そして、第２の識別器５０が、物体候補領域Ｐ０における物体のカテゴリを特定する（ステップＳＴ５）。さらに、表示制御部２３が、選択されたアンカーおよび特定された物体のカテゴリを含む結果画面６０を表示部１４に表示し（ステップＳＴ６）、処理を終了する。

【0053】

ここで、特許文献１および非特許文献１に記載された手法においては、アンカーと正解ボックスとの重なりの大きさに基づいて、アンカーが選択される。例えば、図５に示すような正解ボックス７１の場合、図７に示す最も大きい正方形のアンカー４３Ｅが選択される。これに対して、本実施形態は、正解ボックスとの形状および大きさの類似度に基づいてアンカーが選択される。このため、上述したように、本実施形態においては、アンカー４３Ｃが選択される。

【0054】

このように、本実施形態においては、アンカーに基づいて物体候補領域Ｐ０を特定しているため、図６に示すような正解ボックス７１の場合、アンカー４３Ｅよりもアンカー４３Ｃの方が、正解ボックス７１に一致させるためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。したがって、本実施形態によれば、入力画像Ｓ０に含まれる物体を高速かつ効率よく特定することができる。

【0055】

また、本実施形態においては、物体候補の正解ボックスに類似するようにアンカーを選択しているため、任意の形状またはアスペクト比を有する物体を、入力画像Ｓ０において特定することができる。例えば、上述したように入力画像Ｓ０を医用画像とした場合において、癌等の病変を特定したり、画像に含まれる人物、動物および自動車等を特定したりする場合にも、本実施形態を適用することができる。

【0056】

なお、上記実施形態においては、第１の識別器４０および第２の識別器５０をニューラルネットワークからなるとしているが、これに限定されない。例えばサポートベクタマシン（ＳＶＭ(Support Vector Machine)）、および決定木であってもよい。

【0057】

また、上記実施形態においては、物体特定部２２が畳み込みニューラルネットワーク３０を備えるとし、畳み込みニューラルネットワーク３０において畳み込み特徴マップＭ０を生成し、生成された畳み込み特徴マップＭ０において、物体候補領域Ｐ０を特定しているが、これに限定されない。物体特定部２２は畳み込みニューラルネットワーク３０を備えず、第１の識別器４０において、入力画像Ｓ０において物体候補領域Ｐ０を特定してもよい。この場合、第２の識別器５０は、畳み込み特徴マップＭ０に基づいて物体のカテゴリを特定してもよいが、入力画像Ｓ０から物体候補領域Ｐ０を切り出して、物体のカテゴリを特定してもよい。

【0058】

また、上記実施形態においては、畳み込みニューラルネットワーク３０が畳み込み層およびプーリング層を有するとしているが、これに限定されない。畳み込みニューラルネットワーク３０は、プーリング層を有さない、または逆畳み込み層をさらに有してもよい。畳み込みニューラルネットワーク３０がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップＭ０のサイズは入力画像Ｓ０と同一となる。

【0059】

また、上記実施形態において、例えば、画像取得部２１、物体特定部２２および表示制御部２３といった各種の処理を実行する処理部（Processing Unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（Processor）を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device :PLD）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

【0060】

１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせまたはＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

【0061】

複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントおよびサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアとの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip:SoC）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

【0062】

さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（Circuitry）を用いることができる。

【符号の説明】

【0063】

１領域特定装置

２３次元画像撮影装置

３画像保管サーバ

４ネットワーク

１１ＣＰＵ

１２メモリ

１３ストレージ

１４表示部

１５入力部

２１画像取得部

２２物体特定部

２３表示制御部

３０畳み込みニューラルネットワーク

４０第１の識別器

４１ＲＰＮ

４２スライディングウィンドウ

４２Ａ中心画素

４３，４３Ａ～４３Ｆアンカー

４４中間層

４５分類層

４６回帰層

５０第２の識別器

６０結果画面

６１アンカー表示領域

６２カテゴリ表示領域

７１，７２，７３正解ボックス

Ｂ１矩形

Ｇｔ対象画素位置

Ｒｔ対応画素領域

Ｍ０畳み込み特徴マップ

Ｓ０入力画像

Ｐ０物体候補領域

【図1】