(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-28
(45)【発行日】2022-10-06
(54)【発明の名称】画像オブジェクト抽出装置及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220929BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2018139764
(22)【出願日】2018-07-25
【審査請求日】2021-06-23
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100143568
【氏名又は名称】英 貢
(72)【発明者】
【氏名】河合 吉彦
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2011-113168(JP,A)
【文献】Chenyi Chen et al.,R-CNN for Small Object Detection,[online],2016年11月21日,https://oar.princeton.edu/rt4ds/file/29906/254
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置であって、
予め定めた最初のスケールを初期値として、所定の倍率で前記入力画像を段階的に縮小するようにスケール変換を施した入力画像を順に生成するスケール変換手段と、
前記スケール変換手段によりスケール変換された入力画像を走査しながら、注目領域の部分画像と、当該注目領域とその周りの情報を含むコンテキスト領域の部分画像とをそれぞれ
1種類の予め定めたサイズで順次切り出す演算領域切り出し手段と、
順次切り出される前記コンテキスト領域の部分画像を前記注目領域と同じサイズに縮小するようにサイズ変換を行うサイズ変換手段と、
前記注目領域の部分画像に対して
そのままのサイズでニューラルネットワークを用いて第1の特徴量を算出する注目領域特徴演算手段と、
当該サイズ変換した後の前記コンテキスト領域の部分画像に対してニューラルネットワークを用いて第2の特徴量を算出するコンテキスト領域特徴演算手段と、
前記第1の特徴量、及び前記第2の特徴量を結合し、結合特徴量を生成する結合手段と、
当該結合特徴量を基に前記注目領域が当該特定のオブジェクトを含んでいるか否かを判定することにより、前記スケール変換手段を経て得られる入力画像から当該特定のオブジェクトを抽出するオブジェクト抽出手段と、を備え、
少なくとも前記注目領域特徴演算手段、前記コンテキスト領域特徴演算手段、前記結合手段、及び前記オブジェクト抽出手段は、ニューラルネットワークにおける部分ネットワークとして構成され、
前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段が並列処理されるように構成され、
前記演算領域切り出し手段は、前記スケール変換手段を経て得られる入力画像から、それぞれ固定値で前記注目領域の部分画像、及び前記コンテキスト領域の部分画像を切り出すものとし、前記コンテキスト領域の部分画像を切り出す際に、前記コンテキスト領域が前記注目領域の重心と一致する重心を持ち、且つ前記注目領域に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズで切り出し、
前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段は、それぞれ同一形式の特徴量算出処理として畳み込みニューラルネットワークに基づく並列処理により、前記スケール変換手段を経て得られる入力画像を基準にして、前記第1の特徴量、及び前記第2の特徴量の各々の位置関係が相関する特徴マップを算出し、
前記オブジェクト抽出手段は、前記スケール変換手段を経て得られる入力画像のスケールが所定の閾値より小さくならない範囲内で当該スケール変換手段によるスケール変換を繰り返させて、異なるサイズのオブジェクトを抽出することを特徴とする画像オブジェクト抽出装置。
【請求項2】
前記演算領域切り出し手段は、前記コンテキスト領域の面積が、前記注目領域の面積に対し1倍より大きく4倍以下を満たすように切り出すことを特徴とする、請求項
1に記載の画像オブジェクト抽出装置。
【請求項3】
コンピュータを、請求項1
又は2に記載の画像オブジェクト抽出装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に映る特定のオブジェクトを抽出する技術に関し、特に、ニューラルネットワークを用いて例えば風景を撮像した画像中からオブジェクトとして空や建物、車両、人物の顔等を抽出する画像オブジェクト抽出装置及びプログラムに関する。
【背景技術】
【0002】
例えば風景を撮像した画像中からオブジェクトとして空や建物、車両、人物の顔等を抽出する技術として、機械学習やニューラルネットワークを用いる技術が知られている。
【0003】
特に、ニューラルネットワークを用いて特定のオブジェクトを抽出する技術が開示されている(例えば、非特許文献1,2参照)。
【0004】
ニューラルネットワークは、オブジェクト抽出やオブジェクト認識などのタスクで広く利用されている技術である。ニューラルネットワークを利用して入力画像の一部分に映るオブジェクトを抽出する場合は、入力画像の一部(或いは入力画像から算出された特徴マップの一部)の注目領域(「ROI」とも称される)をニューラルネットワークに入力して、その抽出結果を出力するものとなっている(例えば、非特許文献3参照)。
【0005】
図8に、従来技術における、ニューラルネットワークを用いた画像オブジェクト抽出装置100の概略構成を示す。また、
図9(a)は、ニューラルネットワークを利用したオブジェクト抽出処理の概要を示す図であり、
図9(b)は、
図9(a)について分かりやすさのため入力を1次元に省略した図である。
【0006】
図8に示す従来技術における画像オブジェクト抽出装置100は、注目領域切り出し部112、走査部113、及びニューラルネットワーク部115を備える。
【0007】
注目領域切り出し部112は、入力画像Iを入力して、走査部113によって指定される画像座標に基づいて、入力画像Iから注目領域(ROI)の部分画像を切り出しニューラルネットワーク部115に出力する。従って、注目領域切り出し部112は、
図9(a),(b)に示す画像オブジェクト抽出装置100の入力層として機能する。
【0008】
走査部113は、後段のニューラルネットワーク部115による特徴演算が実行される度に、入力画像Iから、注目領域(ROI)の基準となる座標値を順次走査(例えば1画素単位で走査)しながら生成し、或る画像座標を演算領域切り出し部112に出力する。
【0009】
ニューラルネットワーク部115は、ニューラルネットワークの構造上の一部分である部分ネットワークとして、注目領域特徴演算部1151、及びオブジェクト抽出部1154からなる。
【0010】
注目領域特徴演算部1151は、演算領域切り出し部112から入力される注目領域(ROI)の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、オブジェクト抽出部1154に出力する。従って、注目領域特徴演算部1151は、
図9(a),(b)に示す画像オブジェクト抽出装置100の特徴演算層として機能し、注目領域(ROI)の部分画像(図示NA1)から、ニューラルネットワークを用いて特徴量(図示NA2)を算出する。
【0011】
ここで、注目領域特徴演算部1151にて算出する特徴量は、ニューラルネットワークを用いたものであれば任意に定めた公知のものを利用することができ、特徴マップで表されるものとする。このような特徴マップの算出例として、注目領域(ROI)の部分画像に対し一般的なオブジェクト変換(階調変換、シャープネス/スムージング変換、エッジ抽出変換、モーフィング変換等)を施し、例えば二値、スカラー、ベクトル、マトリックス等により表現したものとすることができるが、より簡便に畳み込みニューラルネットワークで算出した二次元マトリックスで表現したものとすることができる。畳み込みニューラルネットワークは通常、畳み込み層やプーリング層、全結合層といったものの組み合わせで構成される。
【0012】
オブジェクト抽出部1154は、注目領域特徴演算部1151から得られる注目領域(ROI)の特徴量から、該当する注目領域(ROI)が当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)を含んでいるか否かを判定し、オブジェクトであると判定した場合には、その抽出結果を外部に出力する。従って、注目領域特徴演算部1154は、
図9(a),(b)に示す画像オブジェクト抽出装置100のオブジェクト抽出・出力層として機能し、該当する注目領域(ROI)に当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)が含まれるか否かを判定し、オブジェクトの抽出結果(図示ND)を出力する。
【0013】
このように、従来技術における画像オブジェクト抽出装置100は、画像の一部の注目領域(ROI)をニューラルネットワークに入力し、最後にオブジェクトの抽出結果を得るものとなっているが、ROI以外の情報は全く考慮せずにオブジェクトを抽出するものとなっている。
【先行技術文献】
【非特許文献】
【0014】
【文献】Q. V. Le, “Building High-level Features Using Large Scale Unsupervised Learning,” ICASSP, 2013
【文献】A. Krizhevsky, I. Sutskever and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” NIPS, 2012
【文献】山田,渡辺、“畳み込みニューラルネットワークの特徴マップ選択によるトラッキング”、情報処理学会第79回全国大会、講演論文集 第2分冊 人口知能と認知科学、pp.2-385 ~2-386、 講演番号1P-08、2017年3月16日~18日開催
【発明の概要】
【発明が解決しようとする課題】
【0015】
上述したように、従来技術におけるニューラルネットワークを用いた画像オブジェクト抽出装置では、画像の一部の注目領域(ROI)をニューラルネットワークに入力し、最後にオブジェクトの抽出結果を得るものとなっているが、ROI以外の情報は全く考慮しないものとなっている。
【0016】
このため、入力画像に映るオブジェクトのサイズが小さい場合などでは特に、そのオブジェクトの抽出が困難になり、オブジェクトの抽出精度に改善の余地がある。
【0017】
そこで、本発明の目的は、上述の問題に鑑みて、精度よく、且つ比較的短時間で入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0018】
即ち、本発明の画像オブジェクト抽出装置は、入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置であって、予め定めた最初のスケールを初期値として、所定の倍率で前記入力画像を段階的に縮小するようにスケール変換を施した入力画像を順に生成するスケール変換手段と、前記スケール変換手段によりスケール変換された入力画像を走査しながら、注目領域の部分画像と、当該注目領域とその周りの情報を含むコンテキスト領域の部分画像とをそれぞれ1種類の予め定めたサイズで順次切り出す演算領域切り出し手段と、順次切り出される前記コンテキスト領域の部分画像を前記注目領域と同じサイズに縮小するようにサイズ変換を行うサイズ変換手段と、前記注目領域の部分画像に対してそのままのサイズでニューラルネットワークを用いて第1の特徴量を算出する注目領域特徴演算手段と、当該サイズ変換した後の前記コンテキスト領域の部分画像に対してニューラルネットワークを用いて第2の特徴量を算出するコンテキスト領域特徴演算手段と、前記第1の特徴量、及び前記第2の特徴量を結合し、結合特徴量を生成する結合手段と、当該結合特徴量を基に前記注目領域が当該特定のオブジェクトを含んでいるか否かを判定することにより、前記スケール変換手段を経て得られる入力画像から当該特定のオブジェクトを抽出するオブジェクト抽出手段と、を備え、少なくとも前記注目領域特徴演算手段、前記コンテキスト領域特徴演算手段、前記結合手段、及び前記オブジェクト抽出手段は、ニューラルネットワークにおける部分ネットワークとして構成され、前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段が並列処理されるように構成され、前記演算領域切り出し手段は、前記スケール変換手段を経て得られる入力画像から、それぞれ固定値で前記注目領域の部分画像、及び前記コンテキスト領域の部分画像を切り出すものとし、前記コンテキスト領域の部分画像を切り出す際に、前記コンテキスト領域が前記注目領域の重心と一致する重心を持ち、且つ前記注目領域に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズで切り出し、前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段は、それぞれ同一形式の特徴量算出処理として畳み込みニューラルネットワークに基づく並列処理により、前記スケール変換手段を経て得られる入力画像を基準にして、前記第1の特徴量、及び前記第2の特徴量の各々の位置関係が相関する特徴マップを算出し、前記オブジェクト抽出手段は、前記スケール変換手段を経て得られる入力画像のスケールが所定の閾値より小さくならない範囲内で当該スケール変換手段によるスケール変換を繰り返させて、異なるサイズのオブジェクトを抽出することを特徴とする。
【0020】
また、本発明の画像オブジェクト抽出装置において、前記演算領域切り出し手段は、前記コンテキスト領域の面積が、前記注目領域の面積に対し1倍より大きく4倍以下を満たすように切り出すことを特徴とする。
【0023】
更に、本発明のプログラムは、コンピュータを、本発明の画像オブジェクト抽出装置として機能させるためのプログラムとして構成する。
【発明の効果】
【0024】
本発明によれば、入力画像における注目領域(ROI)と、そのROIを含む周辺情報(コンテキスト領域)の双方を考慮してオブジェクトを抽出するように構成されるため、不所望に演算時間を増大させることなく計算量の増加を抑え、オブジェクトの抽出精度を向上させることができる。特に、本発明によれば、入力画像に対するオブジェクトのサイズが従来技術では抽出困難であるほど相対的に小さい場合でも、そのオブジェクトを精度よく抽出できるようになる。
【図面の簡単な説明】
【0025】
【
図1】本発明による一実施形態の画像オブジェクト抽出装置の概略構成を示すブロック図である。
【
図2】(a)乃至(c)は本発明による一実施形態の画像オブジェクト抽出装置における入力画像に対する注目領域(ROI)とコンテキスト領域の説明図である。
【
図3】本発明による一実施形態の画像オブジェクト抽出装置の動作を示すフローチャートである。
【
図4】本発明による一実施形態の画像オブジェクト抽出装置に係る並列処理型ニューラルネットワークの説明図である。
【
図5】本発明による一実施形態の画像オブジェクト抽出装置における注目領域特徴演算部及びコンテキスト領域特徴演算部に対し畳み込みニューラルネットワークを用いた場合の入出力に関する説明図である。
【
図6】本発明による一実施形態の画像オブジェクト抽出装置にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。
【
図7】本発明による一実施形態の画像オブジェクト抽出装置にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。
【
図8】従来の画像オブジェクト抽出装置の概略構成を示すブロック図である。
【
図9】(a),(b)は従来の画像オブジェクト抽出装置におけるニューラルネットワークの説明図である。
【発明を実施するための形態】
【0026】
以下、図面を参照して、本発明による一実施形態の画像オブジェクト抽出装置1について説明する。
【0027】
(全体構成)
図1は、本発明による一実施形態の画像オブジェクト抽出装置1の概略構成を示すブロック図である。本発明による一実施形態の画像オブジェクト抽出装置1は、スケール変換部11、演算領域切り出し部12、走査部13、サイズ変換部14、及びニューラルネットワーク部15を備える。
【0028】
スケール変換部11は、入力画像I(横×縦サイズとしてW×H)を入力し、図示しないメモリに一時記憶し、予め定めた倍率(1/k;kは任意の実数)で入力画像Iを段階的に縮小するようにスケール変換を施す機能部である。スケール変換部11は、最初のスケール(W×H)を初期値として、その入力画像Iのスケールが所定の閾値より小さくならない範囲内で段階的に縮小したときの個々の入力画像Iを順に、演算領域切り出し部12に出力する。
【0029】
つまり、本実施形態の画像オブジェクト抽出装置1は、異なる様々なサイズのオブジェクトを抽出できるように、スケール変換部11で入力画像Iのサイズを少しずつ縮小しながら、演算領域切り出し部12以降の処理を適用する。
【0030】
演算領域切り出し部12は、後述する
図2に例示するように、スケール変換部11から入力画像Iを入力してメモリ(図示略)に一時記憶し、走査部13によって指定されるi番目の走査時点における画像座標(p(i),q(i))に基づいて、入力画像Iから注目領域(ROI)の部分画像(横×縦サイズとしてw×h)と、当該注目領域(ROI)とその周りの情報を含むコンテキスト領域の部分画像(横×縦サイズとしてw’×h’)とを切り出して、それぞれニューラルネットワーク部15及びサイズ変換部14に出力する。
【0031】
注目領域(ROI)の画像サイズ(w×h)は予め定められた固定値であり、コンテキスト領域の画像サイズ(w’×h’)も固定値である。ただし、コンテキスト領域は、注目領域(ROI)の重心と一致する重心を持ち、且つ注目領域(ROI)に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズとする。
【0032】
例えば、注目領域(ROI)の画像サイズ(w×h)の面積Aに対し、コンテキスト領域の画像サイズ(w’×h’)の面積A’は、A< A’≦4Aを満たすようにする。この範囲であれば演算時間及び検出精度の観点から好ましいことが、後述する実験結果で確認されている。
【0033】
例えば、
図2(a)乃至(c)は、本発明による一実施形態の画像オブジェクト抽出装置1における入力画像Iに対する注目領域(ROI)とコンテキスト領域の説明図である。
図2(a)に示す例は、演算領域切り出し部12が、例えば2つのオブジェクトObj1, Obj2が写る入力画像I内で、i番目の走査時点における画像座標(p(i),q(i))に基づいて、注目領域(ROI)とコンテキスト領域を切り出す様子を示している。例えば
図2(b)に示すように、オブジェクトObj1上に注目領域(ROI)が位置するとき、
図2(c)に示すように、演算領域切り出し部12は、その注目領域(ROI)の重心と一致する重心を持つコンテキスト領域を切り出す。
【0034】
尚、注目領域(ROI)が入力画像Iの端部に位置しているときに、注目領域(ROI)に対して縦横四方のうちいずれかの周りの情報が存在しない場合も、コンテキスト領域の画像サイズ(w’×h’)は、その存在しない部分に固定値(例えばダイナミックレンジの中間値)を補完して、注目領域(ROI)の重心と一致する重心を持ち、且つ注目領域(ROI)に対して所定量で拡大した固定値のサイズとする。
【0035】
このように注目領域(ROI)及びコンテキスト領域を固定値とすることで、以後のニューラルネットワーク部15の処理が安定化し、且つ処理も簡素化できる。尚、演算領域切り出し部12に入力される入力画像Iは、スケール変換部11により、スケール(W×H)を初期値とし段階的に縮小した個々のサイズであるため、注目領域(ROI)及びコンテキスト領域が相対的に段階的に拡大するものとなるため、異なる様々なサイズのオブジェクトを抽出できるようになる。
【0036】
走査部13は、演算領域切り出し部12に入力される入力画像Iから、注目領域(ROI)の基準となる座標値を順次走査(例えば1画素単位で走査)しながら生成し、或るi番目の走査時点における画像座標(p(i),q(i))を演算領域切り出し部12に出力する。
【0037】
サイズ変換部14は、演算領域切り出し部12から入力されるコンテキスト領域の部分画像(w’×h’)を注目領域(ROI)と同じサイズ(w×h)になるように縮小して、ニューラルネットワーク部15に出力する。尚、サイズ変換部14による縮小処理自体をニューラルネットワーク部15内で実行することもできる。
【0038】
ニューラルネットワーク部15は、ニューラルネットワークの構造上の一部分である部分ネットワークとして、注目領域特徴演算部151、コンテキスト領域特徴演算部152、特徴結合部153、及びオブジェクト抽出部154を有する。
【0039】
注目領域特徴演算部151は、演算領域切り出し部12から入力される注目領域(ROI)の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、特徴結合部153に出力する。
【0040】
コンテキスト領域特徴演算部152は、サイズ変換部14から入力されるコンテキスト領域の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、特徴結合部153に出力する。
【0041】
ここで、注目領域特徴演算部151及びコンテキスト領域特徴演算部152にてそれぞれ算出する特徴量は、それぞれニューラルネットワークを用いたものであれば任意に定めた公知のものを利用することができるが、それぞれ同一形式の特徴量算出処理とし、位置関係が相関する特徴マップで表されるものとする。このような特徴量算出処理の例として、注目領域(ROI)及びコンテキスト領域の各部分画像に対し、一般的なオブジェクト変換(階調変換、シャープネス/スムージング変換、エッジ抽出変換、モーフィング変換等)を施したものとすることができるが、より簡便に畳み込みニューラルネットワークで算出する構成とすることができる。実施例として後述するが、畳み込みニューラルネットワークに基づく特徴マップは、二次元マトリックスで表現したものとすることができる。畳み込みニューラルネットワークは通常、畳み込み層やプーリング層、全結合層といったものの組み合わせで構成される。
【0042】
特徴結合部153は、注目領域特徴演算部151及びコンテキスト領域特徴演算部152にてそれぞれ算出した注目領域(ROI)及びコンテキスト領域の特徴量を結合してオブジェクト抽出部154に出力し、その後、走査部13に対し、当該入力画像Iにおける次の注目領域(ROI)の基準となる座標値を生成するよう指示する。
【0043】
このとき、走査部13は、或る入力画像Iの全体からオブジェクト抽出の処理が終了したか否かを判定し、終了していなければその入力画像Iに対する次の注目領域(ROI)の基準となる座標値を生成し、終了していれば演算領域切り出し部12へ新たに入力される入力画像Iに対して、初期位置から画像座標(p(i),q(i))に対応するi番目の走査を開始する。
【0044】
オブジェクト抽出部154は、特徴結合部153から得られる注目領域(ROI)及びコンテキスト領域の結合した結合特徴量を基に、該当する注目領域(ROI)が当該ニューラルネットワークの目的とする特定のオブジェクトを含んでいるか否かを判定し、当該特定のオブジェクトを抽出する。
【0045】
つまり、オブジェクト抽出部154は、該当する注目領域(ROI)が当該特定のオブジェクトであると判定した場合には、その入力画像Iに対するi番目の走査時点における注目領域(ROI)の位置情報又は注目領域(ROI)の部分画像そのものを抽出結果として外部に出力する。この抽出結果は、車両認識や顔認識等の認識処理に利用できる。
【0046】
また、オブジェクト抽出部154は、走査部13により走査した結果、その都度、特徴結合部153から得られる注目領域(ROI)及びコンテキスト領域の結合した結合特徴量を基に、事前学習に基づいてオブジェクトが含まれるか否かを判定し、その入力画像Iの全体からオブジェクト抽出を行う。
【0047】
オブジェクト抽出部154は、オブジェクト抽出処理として、制約なしに自由に設計することができ、ニューラルネットワーク部15(特に、オブジェクト抽出部154)は、予め多数の画像サンプルを基に注目領域(ROI)及びコンテキスト領域の結合した結合特徴量を基にオブジェクト抽出に関するニューラルネットワークのパラメータを事前学習させておくようにする。
【0048】
そして、オブジェクト抽出部154は、或る入力画像Iの全体からオブジェクト抽出の処理が終了すると、スケール変換部11に対し、その入力画像Iに対して所定の倍率(1/k;kは任意の実数)で縮小した次の入力画像Iを生成するよう指示する。
【0049】
従って、本実施形態の画像オブジェクト抽出装置1は、入力される入力画像(W×H)に対し、異なる様々なサイズのオブジェクトを抽出することができる。
【0050】
尚、
図1では、本発明の理解を高めるために、スケール変換部11、演算領域切り出し部12、走査部13及びサイズ変換部14と、ニューラルネットワークを構成するニューラルネットワーク部15とを区別した例を示しているが、画像オブジェクト抽出装置1全体を単一のニューラルネットワークとして構成することもできる。
【0051】
(装置動作)
以下、より具体的に、
図3及び
図4を参照しながら、本実施形態の画像オブジェクト抽出装置1について説明する。
図3は、本発明による一実施形態の画像オブジェクト抽出装置1の動作を示すフローチャートである。また、
図4は、本発明による一実施形態の画像オブジェクト抽出装置1に係る並列処理型ニューラルネットワークの説明図である。
【0052】
まず、
図3に示すように、画像オブジェクト抽出装置1は、スケール変換部11により、入力された入力画像(W×H)のスケールが所定の閾値より小さいか否かを判定する(ステップS1)。
【0053】
スケール変換部11は、入力された入力画像(W×H)のスケールが所定の閾値より小さいとき(本例では、w×hより小さいとき)は処理を終了し(ステップS1:Y)、そうでなければ(ステップS1:N)、入力画像Iとして最初はステップS3に移行し、以降(ステップS1:N)を経るときは、その入力画像Iのスケールを所定の倍率(1/k;kは任意の実数)に縮小してからステップS3に移行する(ステップS2)。
【0054】
続いて、画像オブジェクト抽出装置1は、演算領域切り出し部12により、走査部13によって指定されるi番目の走査時点における画像座標(p(i),q(i))に基づいて、入力画像Iから注目領域(ROI)の部分画像(w×h)と、当該注目領域(ROI)とその周りの情報を含むコンテキスト領域の部分画像(w’×h’)とを切り出す(ステップS3)。
【0055】
図4は、本実施形態の画像オブジェクト抽出装置1に係る並列処理型ニューラルネットワークの説明図である。スケール変換部11及び演算領域切り出し部12は、画像オブジェクト抽出装置1の入力層として機能し、
図4にて1次元で簡易図示する入力画像Iに対して或る注目領域(ROI)及びコンテキスト領域を切り出す。
【0056】
続いて、画像オブジェクト抽出装置1は、サイズ変換部14により、コンテキスト領域の部分画像(w’×h’)を注目領域(ROI)と同じサイズ(w×h)になるように縮小してから、注目領域特徴演算部151及びコンテキスト領域特徴演算部152の各部分ネットワークを並列適用する(ステップS4)。つまり、注目領域特徴演算部151及びコンテキスト領域特徴演算部152は、それぞれ注目領域(ROI)及びコンテキスト領域におけるニューラルネットワークを用いて特徴量を並列処理でそれぞれ算出する。
【0057】
従って、
図4に示すように、サイズ変換部14は、画像オブジェクト抽出装置1のサイズ変換層として機能し、コンテキスト領域の部分画像(図示DS)を注目領域(ROI)のサイズ(図示NA1)と同じサイズ(図示NB1)になるように縮小する。そして、注目領域特徴演算部151及びコンテキスト領域特徴演算部152は、画像オブジェクト抽出装置1の特徴演算層(畳み込みニューラルネットワークであれば畳み込み層やプーリング層等)として機能し、注目領域(ROI)の部分画像(図示NA1)及びサイズ変換後のコンテキスト領域の部分画像(図示NB1)から、それぞれニューラルネットワークを用いて特徴量(図示NA2,NB2)を算出する。
【0058】
続いて、画像オブジェクト抽出装置1は、特徴結合部153により、注目領域特徴演算部151及びコンテキスト領域特徴演算部152の各部分ネットワークにてそれぞれ算出した注目領域(ROI)及びコンテキスト領域の特徴量を結合する(ステップS5)。
【0059】
従って、
図4に示すように、特徴結合部153は、画像オブジェクト抽出装置1の特徴結合層(畳み込みニューラルネットワークであれば全結合層(ソフトマックス層を含んでもよい)等)として機能し、注目領域(ROI)及びコンテキスト領域の特徴量を結合したものである結合特徴量(図示NC)を生成する。
【0060】
続いて、画像オブジェクト抽出装置1は、オブジェクト抽出部154により、注目領域(ROI)及びコンテキスト領域の結合したものであるこの結合特徴量を基に、該当する注目領域(ROI)が当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)を含んでいるか否かを判定し、オブジェクトであると判定した場合には、その入力画像Iに対するi番目の走査時点における注目領域(ROI)の位置情報又は注目領域(ROI)の部分画像そのものを抽出結果として外部に出力する(ステップS6)。
【0061】
従って、
図4に示すように、オブジェクト抽出部154は、画像オブジェクト抽出装置1のオブジェクト抽出・出力層として機能し、該当する注目領域(ROI)に当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)が含まれるか否かを判定し、オブジェクトの抽出結果(図示ND)を出力する。
【0062】
また、画像オブジェクト抽出装置1は、走査部13により、入力画像Iの全体からオブジェクト抽出の処理が終了したか否かを判定し(ステップS7)、終了していなければ(ステップS7:N)、入力画像Iに対する次の注目領域(ROI)の基準となる座標値を生成してステップS3に移行する。一方、入力画像Iの全体からオブジェクト抽出の処理が終了していれば(ステップS7:Y)、ステップS1に移行した後、ステップS2を経て演算領域切り出し部12へ新たに入力される入力画像Iに対して初期位置から走査を開始するようにステップS3に移行する。
【0063】
このように、本発明に係る画像オブジェクト抽出装置1は、注目領域(ROI)と共にそのROIを含むコンテキスト領域を切り出し、当該コンテキスト領域の画像サイズをROIの画像サイズまで縮小し、その上で、ROIとコンテキスト領域とを並列処理する並列処理型ニューラルネットワークを構成し、本来の演算対象のROIの画像サイズでオブジェクトを抽出するようにしている。
【0064】
(実施例)
以下、
図5乃至
図7を参照して、本発明に係る画像オブジェクト抽出装置1について、畳み込みニューラルネットワークを用いた場合の実施例について説明する。
【0065】
図5は、本発明による一実施形態の画像オブジェクト抽出装置1における注目領域特徴演算部151及びコンテキスト領域特徴演算部152に対し畳み込みニューラルネットワークを用いた場合の入出力に関する説明図である。
【0066】
まず、
図5に示すように、特徴演算層である注目領域特徴演算部151及びコンテキスト領域特徴演算部152の各部分ネットワークとして畳み込みニューラルネットワークを用いた場合、入力層における入力画像IのサイズW×H(画素数)に対する注目領域(ROI)とコンテキスト領域の各特徴量は、それぞれ特徴マップとして、例えばm×nの2次元行列(マトリックス)で出力される。尚、その特徴演算層を経て結合される特徴結合層の出力は、m×n×2で表される。
【0067】
つまり、特徴結合層である特徴結合部153は、例えば特徴マップとして2次元行列のm行n列の値で表す2種類の特徴量を結合してオブジェクト抽出部154に出力する。
【0068】
ここで、m,nの各値は有限の値であり、m=1,2,…,M、n=1,2,…,Nとなる。MとNの値は、ニューラルネットワークの構成によって決定される値である。
【0069】
そして、オブジェクト抽出・出力層であるオブジェクト抽出部154は、そのニューラルネットワークを構成するニューロンに対応する受容野(入力画像Iに対する注目領域(ROI)とコンテキスト領域)が、オブジェクトである確率を表すものとなり、例えばm,nの各値が大きいほど、オブジェクトである可能性が高いことを示すものとなる。
【0070】
より具体的に、
図6及び
図7を参照して、本実施形態の画像オブジェクト抽出装置1にて畳み込みニューラルネットワークを用いた一実施例について説明する。
図6及び
図7は、本実施形態の画像オブジェクト抽出装置1にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。尚、
図7は、
図6について簡単のため入力画像を1次元で表したものであり、
図6及び
図7に示す実施例は、注目領域(ROI)とコンテキスト領域について並列処理する、並列処理型の畳み込みニューラルネットワークを適用した一例である。
【0071】
図6及び
図7に示す例では、スケール変換部11の出力である入力画像Iから、演算領域切り出し部12によって、4×4画素の注目領域(ROI)と、8×8画素のコンテキスト領域の部分画像が切り出されるものとする(
図1参照)。
【0072】
ここで、8×8画素のコンテキスト領域の部分画像は、4×4画素の注目領域(ROI)の重心と一致する重心を持つように切り出されている。
【0073】
そして、8×8画素のコンテキスト領域の部分画像は、サイズ変換部14によって、縮小率1/2にダウンサンプリング(図示するDS)され、注目領域(ROI)と同じサイズに変換される。
【0074】
4×4画素の注目領域(ROI)と、サイズ変換後の4×4画素のコンテキスト領域の各部分画像は、畳み込みニューラルネットワークで構成するニューラルネットワーク部15に入力される。
【0075】
本実施例のニューラルネットワーク部15においても、注目領域特徴演算部151、コンテキスト領域特徴演算部152、特徴結合部153、及びオブジェクト抽出部154を有している(
図1参照)。
【0076】
注目領域特徴演算部151及びコンテキスト領域特徴演算部152は、それぞれ(カーネルサイズ,ストライド)をパラメータとする畳み込み層(図示するConv)と、(カーネルサイズ,ストライド)をパラメータとする最大プーリング層(図示するMP)を持つ部分ネットワークで構成されている。
【0077】
注目領域特徴演算部151及びコンテキスト領域特徴演算部152における各畳み込み層(図示するConv)では、それぞれの受容野(4×4画素の注目領域(ROI)と、サイズ変換後の4×4画素のコンテキスト領域の各部分画像)に対し、カーネルサイズを3×3画素とし、ストライドを1(1画素単位で移動させる移動幅)として、カーネルを移動させながら畳み込み演算を行い、2×2の2次元行列の特徴マップを形成する。
【0078】
また、注目領域特徴演算部151におけるプーリング層(図示するMP)では、カーネルサイズを2×2とし、ストライドを2として、注目領域(ROI)に関する畳み込み演算後の特徴マップから最大の値を持つ領域を抽出し、これにより1×1の2次元行列の特徴マップを形成する。
【0079】
一方、コンテキスト領域特徴演算部152におけるプーリング層(図示するMP)では、同じくカーネルサイズを2×2とするがストライドを1として、コンテキスト領域に関する畳み込み演算後の特徴マップから最大の値を持つ領域を抽出し、これにより1×1の2次元行列の特徴マップを形成する。
【0080】
ところで、注目領域特徴演算部151と、サイズ変換部14を介するコンテキスト領域特徴演算部152について、並列処理型の畳み込みニューラルネットワークとして構成する際に、それぞれの受容野(入力画像Iに対する注目領域(ROI)とコンテキスト領域)の中心(重心)点と、その受容野のストライド(移動幅)が一致するように構成する。これにより、注目領域(ROI)とコンテキスト領域の相関性を高くすることができ、以降のオブジェクト抽出における精度を向上させることができる。
【0081】
つまり、注目領域特徴演算部151における注目領域(ROI)に関する入力画像Iを基準にする全体のストライドは2画素であり(最大プーリング層のストライド2による)、m行n列に対応する注目領域(ROI)の受容野が、入力画像Iに対する4隅の画像座標として(x,y,x+4,y+4)の4×4の矩形領域とすると、(m+1)行n列に対応する画像座標は(x+2,y,(x+2)+4,y+4)となる。
【0082】
同様に、サイズ変換部14を介するコンテキスト領域特徴演算部152におけるコンテキスト領域に関する入力画像Iを基準にする全体のストライドも2画素である(最大プーリング層のストライド1であるが、サイズ変換部14による縮小率1/2のダウンサンプリングによる)。
【0083】
即ち、簡単のため、
図7では1次元で表現することにより、注目領域特徴演算部151の演算と、サイズ変換部14及びコンテキスト領域特徴演算部152の演算に関して、入力画像Iにおける画素(受容野)と当該演算の各出力との関係を表している。注目領域特徴演算部151の演算と、サイズ変換部14及びコンテキスト領域特徴演算部152の演算において、実線で示す演算時の出力に対し、その隣の破線で示すストライドさせた演算時の出力が、2画素ずれた位置に相当していることが分かり、注目領域(ROI)とコンテキスト領域との位置関係が相関性の高い(崩れていない)状態を保つことができることが確認できる。
【0084】
そして、
図6に示す例では、注目領域特徴演算部151及びコンテキスト領域特徴演算部152からそれぞれ出力される1×1の2次元行列の特徴マップは、特徴結合部153によってチャンネル方向に結合され、1×1×2の特徴マップとしてオブジェクト抽出部154に出力される。
【0085】
オブジェクト抽出部154は、1×1×2の特徴マップを基に、事前学習に基づいてオブジェクトが含まれるか否かを判定し、その入力画像Iの全体からオブジェクト抽出を行う。このようなオブジェクト抽出部154を構成する部分ネットワークは、制約なしに自由に設計することができる。一般的には、畳み込み層とプーリング層を繰り返した後、全結合層、ソフトマックス層と連結するような構造が利用される。
【0086】
(実施例に基づく実験結果)
ここで、本発明に係る画像オブジェクト抽出装置1の効果を実験により検証した。実験では、本発明に係る画像オブジェクト抽出装置1として、入力画像Iから8×8画素の注目領域(ROI)と、16×16画素のコンテキスト領域の部分画像を切り出すものとした。そして、注目領域特徴演算部151における注目領域(ROI)に関する全体のストライドは2、サイズ変換部14を介するコンテキスト領域特徴演算部152におけるコンテキスト領域に関する全体のストライドも2となるように、畳み込み層とプーリング層を組み合わせて設計した。また、オブジェクト抽出部154も含めたニューラルネットワーク部15全体の畳み込み層の総数は3とした。
【0087】
一方、比較例として、
図8に例示する従来技術に係る画像オブジェクト抽出装置100のように、8×8画素の注目領域(ROI)のみでオブジェクト抽出するものとし、畳み込み層の総数も合わせるため3とした。
【0088】
表1は、本発明と比較例に関するオブジェクト抽出の実験結果を示している。表1は、検出漏れの少なさを評価するための再現率による比較を示すものであり、本例ではサンプル数を3971枚の画像としている。本発明に係る再現率は、比較例と比べて約1%向上する結果となった。従って、注目領域(ROI)の周辺情報を利用する方がオブジェクト抽出の精度が向上し、本発明の有効性が確認できた。
【0089】
【0090】
また、表2は、本発明と比較例に関するオブジェクト抽出に係る演算時間(必要実行時間)の比較結果を示している。本発明に係る演算時間(必要実行時間)は、比較例に比べて、実行時間の増加は許容できる範囲である。特に、従来技術に基づいて単純に8×8画素の注目領域(ROI)のみに基づいてオブジェクト抽出し、更に16×16画素のコンテキスト領域のみに基づいてオブジェクト抽出し、その結果をまとめてオブジェクト抽出判断を行うように構成することも考えられる。この場合では、仮に本発明と同程度の精度が得られるとしても、表2に示す比較例の演算時間(必要実行時間)は2倍以上になることが想定されるため、本発明の構成による演算時間(必要実行時間)が如何に小さく抑えられているかが理解される。
【0091】
【0092】
上記表1及び表2の結果から、本発明に係る画像オブジェクト抽出装置1は、注目領域(ROI)及びコンテキスト領域について並列処理する点、及び、コンテキスト領域について注目領域(ROI)と同じサイズになるように縮小している点で、オブジェクト抽出の精度を向上させながら計算量の増加が抑えられたものと考えられる。
【0093】
従って、従来技術のように入力された注目領域(ROI)のみを利用してオブジェクトを抽出又は認識する技術より、本発明に係る画像オブジェクト抽出装置1のように、入力画像内のオブジェクトを抽出又は認識する場合には、注目領域(ROI)とその周りの情報(周辺情報)も利用することが有効であることが分かる。
【0094】
特に、従来技術では入力画像に対するオブジェクトのサイズが抽出困難であるほど相対的に小さい場合でも、本発明に係る構成ではそのオブジェクトを精度よく抽出できるようになり、特にオブジェクトのサイズが小さいほど、その傾向が顕著となる。
【0095】
総括するに、従来技術の変形例として、はじめから注目領域(ROI)の周辺情報を含むコンテキスト領域のみを演算対象とすることも考えられる。この場合、
図8に示す従来技術の構成を変えることなく、注目領域(ROI)の周辺情報を考慮できるようになるが、幾つかの問題が生じる。
【0096】
第1に、ROIを含むコンテキスト領域の画像サイズをそのままにニューラルネットワークによりオブジェクト抽出を行うことになり、オブジェクト抽出に係る計算時間が増大する。即ち、この場合、コンテキスト領域の画像サイズが本来の演算対象のROIの画像サイズより相対的に拡大したものとなり、その拡大した面積に比例して計算時間が増大してしまう。特に、入力画像内からオブジェクトを抽出するタスクにおいては、上述したスケール変換部11のようなスケール変換が有効である一方で、様々な位置や大きさの演算対象の画像に対して何度も実行すると、その計算時間は著しく増大する。
【0097】
第2に、ROIを含むコンテキスト領域でニューラルネットワークによりオブジェクト抽出を行うと、オブジェクト抽出された当該コンテキスト領域から本来の演算対象のROIで抽出すべきオブジェクトを何らかの方法で切り出す必要が生じ、抽出精度や演算時間に悪影響を与える。
【0098】
そこで、本発明に係る画像オブジェクト抽出装置1では、注目領域(ROI)と共にそのROIを含むコンテキスト領域を切り出し、当該コンテキスト領域の画像サイズをROIの画像サイズまで縮小し、その上で、ROIとコンテキスト領域とを並列処理する並列処理型ニューラルネットワークを構成し、本来の演算対象のROIの画像サイズでオブジェクトを抽出するようにしている。このため、上記表1及び表2に示したように、ROIのみよりも、ROIを含む周辺情報がある方が明らかにオブジェクト抽出の精度が向上し、不所望に演算時間を増大させることなく計算量の増加を抑えることができる。
【0099】
上述した実施形態の例に関して、画像オブジェクト抽出装置1として機能するコンピュータを構成し、これらの装置の各手段を機能させるためのプログラムを好適に用いることができる。具体的には、各手段を制御するための制御部をコンピュータ内の中央演算処理装置(CPU)で構成でき、且つ、各手段を動作させるのに必要となるプログラムを適宜記憶する記憶部を少なくとも1つのメモリで構成させることができる。即ち、そのようなコンピュータに、CPUによって該プログラムを実行させることにより、上述した各手段の有する機能を実現させることができる。更に、各手段の有する機能を実現させるためのプログラムを、前述の記憶部(メモリ)の所定の領域に格納させることができる。そのような記憶部は、装置内部のRAM又はROMなどで構成させることができ、或いは又、外部記憶装置(例えば、ハードディスク)で構成させることもできる。また、そのようなプログラムは、コンピュータで利用されるOS上のソフトウェア(ROM又は外部記憶装置に格納される)の一部で構成させることができる。更に、そのようなコンピュータに、各手段として機能させるためのプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。また、上述した各手段をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。
【0100】
上述の実施形態及び実施例については代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換することができることは当業者に明らかである。従って、本発明は、上述の実施形態及び実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。
【産業上の利用可能性】
【0101】
本発明によれば、精度よく、且つ比較的短時間で入力画像からオブジェクトを抽出できるようになるので、画像からオブジェクトを抽出又は認識する用途に有用である。
【符号の説明】
【0102】
1 画像オブジェクト抽出装置
11 スケール変換部
12 演算領域切り出し部
13 走査部
14 サイズ変換部
15 ニューラルネットワーク部
151 注目領域特徴演算部
152 コンテキスト領域特徴演算部
153 特徴結合部
154 オブジェクト抽出部
100 画像オブジェクト抽出装置
112 注目領域切り出し部
113 走査部
115 ニューラルネットワーク部
1151 注目領域特徴演算部
1154 オブジェクト抽出部