IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通テン株式会社の特許一覧

<>
  • 特許-画像処理装置および画像処理方法 図1
  • 特許-画像処理装置および画像処理方法 図2
  • 特許-画像処理装置および画像処理方法 図3
  • 特許-画像処理装置および画像処理方法 図4
  • 特許-画像処理装置および画像処理方法 図5
  • 特許-画像処理装置および画像処理方法 図6
  • 特許-画像処理装置および画像処理方法 図7
  • 特許-画像処理装置および画像処理方法 図8
  • 特許-画像処理装置および画像処理方法 図9
  • 特許-画像処理装置および画像処理方法 図10
  • 特許-画像処理装置および画像処理方法 図11
  • 特許-画像処理装置および画像処理方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-03
(45)【発行日】2023-10-12
(54)【発明の名称】画像処理装置および画像処理方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231004BHJP
   G06T 7/238 20170101ALI20231004BHJP
【FI】
G06T7/00 350C
G06T7/238
【請求項の数】 8
(21)【出願番号】P 2019203261
(22)【出願日】2019-11-08
(65)【公開番号】P2021077091
(43)【公開日】2021-05-20
【審査請求日】2022-09-29
(73)【特許権者】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110001933
【氏名又は名称】弁理士法人 佐野特許事務所
(72)【発明者】
【氏名】岡田 康貴
(72)【発明者】
【氏名】関 竜介
【審査官】小太刀 慶明
(56)【参考文献】
【文献】特開2013-229824(JP,A)
【文献】国際公開第2018/179829(WO,A1)
【文献】特開2009-223500(JP,A)
【文献】特開2016-162232(JP,A)
【文献】特開2019-053625(JP,A)
【文献】特開2015-088818(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
H04N 5/232
(57)【特許請求の範囲】
【請求項1】
それぞれが入力画像から物体の検知処理を実行し、カラー撮影画像の物体検知処理を可能とする第1、第2及び第3の輝度チャンネルを備え、
取得した前記カラー撮影画像に対して設定される第1、第2及び第3の検知対象領域のグレースケール画像である第1、第2及び第3のグレースケール画像を生成し、
前記第1、第2及び第3のグレースケール画像をそれぞれ前記第1、第2及び第3の輝度チャンネルに入力し、前記物体の検知処理を実行し、前記カラー撮影画像における物体の検知処理結果を出力する画像処理装置。
【請求項2】
前記第1、第2及び第3の検知対象領域を、前記撮影画像の一部の範囲を対象として設定する、請求項1に記載の画像処理装置。
【請求項3】
前記検知対象領域の座標系で求めた前記輝度チャンネル毎の処理結果を、前記カラー撮影画像全体の座標系に統合して前記物体の検知結果を出力する、請求項1又は2に記載の画像処理装置。
【請求項4】
各前記輝度チャンネルに入力される前記グレースケール画像の解像度は、前記検知対象領域が設定される位置に応じて変更される、請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
先に取得された前記カラー撮影画像に対する前記物体の検知結果に基づいて、現在取得されている前記カラー撮影画像に対して探索範囲を設定し、前記探索範囲内において前記物体の追跡を行う、請求項1からのいずれか1項に記載の画像処理装置。
【請求項6】
前記探索範囲、過去の前記物体の動きを示す軌跡情報に基づいて変更る、請求項に記載の画像処理装置。
【請求項7】
前記カラー撮影画像と、予め準備された背景画像との比較により変化量が大きい領域を前記検知対象領域に設定する、請求項1からのいずれか1項に記載の画像処理装置。
【請求項8】
取得したカラー撮影画像に対して設定される第1、第2及び第3の検知対象領域のグレースケール画像である第1、第2及び第3のグレースケール画像を生成し、
前記第1、第2及び第3のグレースケール画像をそれぞれ第1、第2及び第3の輝度チャンネルに入力し、前記第1、第2及び第3のグレースケール画像のそれぞれに対して物体の検知処理を実行し、前記カラー撮影画像における物体の検知処理結果を出力する、画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
従来、ニューラルネットワークを用いて画像中の顔等の物体を検知することが行われている(例えば特許文献1参照)。近年においては、多層のニューラルネットワーク(DNN:Deep Neural Network)を用いた物体検知手法の開発が盛んである。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2012-48476号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、DNNを用いた物体検知においては、DNNの入力層のサイズに合わせるために、カメラで撮影した撮影画像に対して画像サイズの縮小処理(解像度を下げる処理)が行われることがある。例えば車載向け等の計算リソースが限られた状況下では、縮小処理が行われた画像をDNNに入力して、物体検知処理が行われることが一般的である。
【0005】
例えば、撮影画像において検知したい物体の大きさが小さい場合、又は、検知したい物体が遠方に存在するために見かけ上小さくなっている場合等には、画像サイズの縮小処理によって特徴量が失われることがある。このために、カメラで撮影した画像に対して単純に縮小処理を行ってDNNを用いた物体検知処理を行うと、物体検知の精度が低下する虞がある。
【0006】
本発明は、上記の課題に鑑み、画像中の検知したい物体が小さい場合でも精度良く物体検知を行うことができる技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために本発明の画像処理装置は、取得した撮影画像に物体の検知を試みる複数の検知対象領域を設定する設定部と、前記撮影画像のうち少なくとも前記複数の検知対象領域の画像をカラー画像からグレースケール画像に変換する変換部と、前記複数の検知対象領域それぞれの前記グレースケール画像を別々に入力する複数のチャンネルを有し、前記チャンネル毎に行われる前記物体の検知処理に基づき前記物体の検知結果を出力する物体検知部と、を備える構成(第1の構成)になっている。
【0008】
また、上記第1の構成の画像処理装置において、前記設定部は、前記撮影画像の一部の範囲を対象として前記複数の検知対象領域を設定する構成(第2の構成)であることが好ましい。
【0009】
また、上記第1又は第2の構成の画像処理装置において、前記物体検知部は、各前記検知対象領域の座標系で求めた前記チャンネル毎の処理結果を、前記撮影画像全体の座標系に統合して前記物体の検知結果を出力する構成(第3の構成)であることが好ましい。
【0010】
また、上記第1から第3のいずれかの構成の画像処理装置において、各前記チャンネルに入力される前記グレースケール画像の解像度は、前記検知対象領域が設定される位置に応じて変更される構成(第4の構成)であってよい。
【0011】
また、上記第1から第4のいずれかの構成の画像処理装置において、前記複数の検知対象領域は3つであり、前記複数のチャンネルは3つである構成(第5の構成)であることが好ましい。
【0012】
また、上記第1から第5のいずれかの構成の画像処理装置は、先に取得された前記撮影画像に対する前記物体検知部の前記物体の検知結果に基づいて、現在取得されている前記撮影画像に対して探索範囲を設定し、前記探索範囲内において前記物体の追跡を行うトラッキング部を更に備える構成(第6の構成)であってよい。
【0013】
また、上記第6の構成の画像処理装置において、前記探索範囲は、過去の前記物体の動きを示す軌跡情報に基づいて変更される構成(第7の構成)であってよい。
【0014】
また、上記第1から第7のいずれかの構成の画像処理装置において、前記設定部は、前記撮影画像と、予め準備された背景画像との比較により変化量が大きい領域を前記検知対象領域に設定する構成(第8の構成)であってよい。
【0015】
また、上記目的を達成するために本発明の画像処理方法は、取得した撮影画像に物体の検知を試みる複数の検知対象領域を設定する設定工程と、前記撮影画像のうち少なくとも前記複数の検知対象領域の画像をカラー画像からグレースケール画像に変換する変換工程と、前記複数の検知対象領域それぞれの前記グレースケール画像を互いに異なるチャンネルに入力し、前記チャンネル毎に行われた前記物体の検知処理に基づき前記物体の検知結果を出力する物体検知工程と、を備える構成(第9の構成)になっている。
【発明の効果】
【0016】
本発明によれば、画像中の検知したい物体が小さい場合でも精度良く物体検知を行うことができる。
【図面の簡単な説明】
【0017】
図1】第1実施形態に係る画像処理装置の構成を示す図
図2】設定部による複数の検知対象領域の設定例を示す図
図3】設定部による複数の検知対象領域の別の設定例を示す図
図4】物体検知部の機能を説明するための模式図
図5】第1実施形態に係る画像処理装置の動作例を示すフローチャート
図6】取得部により取得される撮影画像の一例を示す図
図7】検知対象領域の設定例を示す図
図8】物体の検知結果を例示する図
図9】第2実施形態に係る画像処理装置の構成を示す図
図10】トラッキング部の機能を説明するための図
図11】軌跡情報に基づく探索範囲の変更を説明するための図
図12】第2実施形態に係る画像処理装置の動作例を説明するための図
【発明を実施するための形態】
【0018】
以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。
【0019】
<1.第1実施形態>
(1-1.画像処理装置の構成)
図1は、本発明の第1実施形態に係る画像処理装置1の構成を示す図である。なお、図1においては、第1実施形態の画像処理装置1の特徴を説明するために必要な構成要素のみが示されており、一般的な構成要素についての記載は省略されている。また、図1には、理解を容易とするために画像処理装置1とは別の構成要素であるカメラ2も示されている。
【0020】
画像処理装置1は、例えば車両等の移動体に搭載されてよい。車両には、例えば自動車、電車、無人搬送車等の車輪のついた乗り物が広く含まれる。画像処理装置1は、例えば車両に搭載されるナビゲーション装置やドライブレコーダ等の車載装置に含まれてよい。画像処理装置1は、移動体に搭載されなくてもよく、例えば、商業施設や駐車場等に設けられる監視施設や、高速道路の料金所等の建物内に配置されてもよい。また、画像処理装置1は、例えば、車載装置等の端末装置とネットワーク等を介して通信可能に設けられるクラウドサーバ等のサーバ装置に含まれてもよい。また、画像処理装置1は、例えば、スマートフォンやタブレット等の携帯端末に含まれてもよい。
【0021】
カメラ2は、車両等の移動体に搭載されてもよいし、商業施設等の建物内、駐車場等の屋外に固定配置されてもよい。カメラ2は、例えば、有線又は無線により、或いは、ネットワークを利用して、撮影した画像(撮影画像)を画像処理装置1に出力する。
【0022】
図1に示すように、画像処理装置1は、取得部11と、制御部12と、記憶部13と、を備える。
【0023】
取得部11は、撮影画像を取得する。取得部11は、例えば車両に搭載されるカメラ2からアナログ又はデジタルの撮影画像を所定の周期(例えば、1/30秒周期)で時間的に連続して取得する。取得部11によって取得される撮影画像(1フレームの画像)の集合体が、カメラ2で撮影された動画像である。本実施形態では、取得部11が取得する撮影画像はカラー画像である。取得した撮影画像がアナログの場合には、取得部11は、そのアナログの撮影画像をデジタルの撮影画像に変換(A/D変換)する。取得部11は、取得した撮影画像(A/D変換が行われた場合は変換後の画像)を制御部12に出力する。
【0024】
制御部12は、画像処理装置1の全体を統括的に制御するコントローラである。制御部12は、例えば、ハードウェアプロセッサであるCPU(Central Processing Unit)、RAM(Random Access Memory)、および、ROM(Read Only Memory)等を含むコンピュータとして構成される。
【0025】
記憶部13は、例えば、RAMやフラッシュメモリ等の半導体メモリ素子、ハードディスク、或いは、光ディスク等の可搬型の記録媒体を用いる記憶装置等で構成される。記憶部13は、ファームウェアとしてのプログラムや各種のデータを記憶する。本実施形態では、記憶部13には、後述の物体検知部123により用いられる学習済みモデルが記憶される。学習済みモデルは、例えばCNN(Convolutional Neural Network)等を用いた公知のディープラーニング(深層学習)により得ることができる。
【0026】
図1に示す、設定部121、変換部122、および、物体検知部123は、制御部12のCPUが記憶部13に記憶されるプログラムに従って演算処理を実行することにより実現される制御部12の機能である。換言すると、画像処理装置1は、設定部121と、変換部122と、物体検知部123と、を備える。
【0027】
なお、制御部12における、設定部121、変換部122、および、物体検知部123の少なくともいずれか1つは、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアで構成されてもよい。
【0028】
また、設定部121、変換部122、および、物体検知部123は、概念的な構成要素である。1つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を1つの構成要素に統合させたりしてよい。また、取得部11は、制御部12のCPUがプログラムに従って演算処理を行うことによって実現される構成としてもよい。また、画像処理装置1の具体的なハードウェア構成に関して、実施の形態に応じて、適宜、構成要素の省略、置換、又は、追加を行ってよい。例えば、制御部12は、複数のハードウェアプロセッサを含んでもよい。
【0029】
設定部121は、取得した撮影画像に物体の検知を試みる複数の検知対象領域を設定する。複数の検知対象領域が設定される撮影画像は、取得部11から得られた画像そのものでもよいし、取得部11から得られた後に加工が施された画像であってよい。施される加工として、例えばグレースケール化等が挙げられる。また、物体は、動体でも静止物でもよい。詳細には、物体は、例えば人や車両等である。物体は、例えば、人の顔や、車両のナンバープレート等、或る物の一部と解される部分であってもよい。
【0030】
図2は、設定部121による複数の検知対象領域31の設定例を示す図である。図2に示す例では、設定部121は、撮影画像3の一部の範囲30を対象として複数の検知対象領域31を設定する。これによれば、撮影画像3の一部を対象として物体の検知を行う構成となり、撮影画像3の全範囲を対象として物体の検知を行う場合に比べて物体の検知処理の負担を低減することができる。
【0031】
一部の範囲30は、例えば、物体の検知目的や、検知したい物体の種類等を考慮して決められる。例えば、自車両から何メートル遠方にある物体を検知するかが決まっている場合や、撮影画像中に現れる物体の範囲が限られた範囲であることがわかっている場合等に、一部の範囲30はカメラ2からの特定の距離範囲とされる。このような場合、カメラ2の設定位置に関する既知のパラメータと三角測量とを用いて一部の範囲30を求めることできる。
【0032】
図2に示す例では、複数の検知対象領域31は、一部の範囲30を分割することにより得られる。詳細には、複数の検知対象領域31は、矩形状の一部の範囲30を3つに均等に分割して得られる。すなわち、図2に示す例では、複数の検知対象領域31は3つである。3つの検知対象領域31は、それぞれ矩形状であり、撮影画像3の左右方向に並ぶ。3つの検知対象領域31は、左端に位置する第1検知対象領域31aと、真ん中に位置する第2検知対象領域31bと、第3検知対象領域31cとで構成される。3つの検知対象領域31a、31b、31cの大きさは、互いに同じであることが好ましいが、場合によっては互いに異なってもよい。
【0033】
なお、設定部121により設定される検知対象領域31の形状は、矩形状に限らず、適宜変更されてよい。設定部121は、複数の検知対象領域31を、撮影画像3の一部の範囲30でなく全範囲を対象として設定してもよい。すなわち、撮影画像3の全範囲を複数の領域に分け、分けられた各領域を検知対象領域31としてもよい。設定部121が設定する複数の検知対象領域31は固定された領域でもよいが、例えば、カメラ2が車載カメラである場合に車両の舵角等に応じて変動される領域であってもよい。
【0034】
図3は、設定部121による複数の検知対象領域31の別の設定例を示す図である。図3に示すように、複数の検知対象領域31(詳細には3つの検知対象領域31)は、撮影画像3の一部の範囲30の更に一部の領域だけを占める構成であってよい。複数の検知対象領域31は、互いに隣接する領域でなくてもよい。
【0035】
また、複数の検知対象領域31は、一部の範囲30を設定することなく得られてもよい。例えば、設定部121は、撮影画像3と、予め準備された背景画像との比較により変化量が大きい領域を検知対象領域31に設定してよい。これによれば、物体が存在する可能性が高い領域に絞って物体の検知処理を効率良く行うことができる。
【0036】
なお、この構成の場合には、変化量が大きい領域に対して機械学習を行った学習済みモデル(例えばCNN等)による物体検知(例えばクラス分類等)が行われる。背景画像は、記憶部13に記憶される。背景画像との比較を利用して物体の種別を適切に得るという目的においては、物体検知の処理は、以下に説明する物体検知部123の処理と同じでもよいが、物体検知部123の処理と異なる処理であってもよい。
【0037】
背景画像は、公知の手法(例えば差分方式)によって得られた画像であってよい。ただし、背景画像は、次のような公知の手法以外の方法で得られた画像であってもよい。
【0038】
背景画像を生成する背景画像生成装置(不図示)は、異なるタイミングで得られた複数の画像のそれぞれについて、学習済みモデルを用いた物体検知を行う。異なるタイミングで得られる複数の画像は、1つのカメラから得られる画像でもよいが、例えばカメラを搭載する複数のコネクテッドカーから得られた画像等であってもよい。複数の画像は、同じ場所が映る撮影画像である。
【0039】
背景画像生成装置が用いる学習済みモデルは、例えばCNN等の物体の検知を可能とするニューラルネットワークであってよい。学習済みモデルは、ピクセル(画素)毎に意味をラベル付けする画像セグメンテーションを行う構成であってもよいし、物体の種別を分類する構成であってもよい。
【0040】
背景画像生成装置は、異なるタイミングで得られた複数の画像のそれぞれについて、物体が検知された領域を取り除いた差し引き画像を生成する。背景画像生成装置は、得られた複数の差し引き画像を組み合わせることで、物体が存在しない背景画像を完成する。背景画像生成装置は、同じ場所の背景画像について、一定時間ごとの背景画像を生成することが好ましい。
【0041】
このような背景画像生成装置によれば、機械学習を行った学習済みモデルを用いて背景画像を生成するために正確な背景画像を生成することができる。背景画像生成装置により生成された背景画像を利用すれば、例えば、時間によって形状が変化する影を物体と区別し易くなり、物体を適切に検知することができる。
【0042】
変換部122は、取得部11から得られた撮影画像3のうち少なくとも複数の検知対象領域31の画像をカラー画像からグレースケール画像に変換する。変換部122は、撮影画像全体をグレースケール画像に変換してもよいが、複数の検知対象領域31のみをグレースケール画像に変換してよい。例えば図2に示す例では、3つの検知対象領域31a~31cの画像はグレースケール画像に変換される。グレースケール画像への変換手法は、例えばNTSC加重平均法や、RGBのうちの1つの要素値を抽出してグレースケール値として採用する方法等であってよい。変換部122によるグレースケール変換により、各検知対象領域31において、256階調(8ビット)のグレースケール画像が得られる。
【0043】
物体検知部123は、記憶部13に記憶される機械学習後の学習済みモデル(一例としてCNN)を用いて物体の検知処理を行う。物体の検知処理は、畳み込みやプーリングによって画像から特徴量を抽出するパートと、全結合層を繰り返すことで抽出した特徴量に基づいてクラス分類を行うパートとを有する。
【0044】
なお、物体検知部123において用いられる学習済みモデルは、好ましい形態として、教師データとしてグレースケール画像を用いて学習が行われた学習済みモデルである。このために、グレースケール画像により精度良く物体の検知を行うことができる。
【0045】
図4は、物体検知部123の機能を説明するための模式図である。物体検知部123は、複数の検知対象領域31それぞれのグレースケール画像を別々に入力する複数のチャンネルを有する。チャンネルは入力層と言い換えられる。本実施形態では、第1検知対象領域31aのグレースケール画像31aGは、1chに入力される。第2検知対象領域31bのグレースケール画像31bGは、2chに入力される。第3検知対象領域31cのグレースケール画像31cGは、3chに入力される。すなわち、本実施形態では、複数のチャンネルは3つである。
【0046】
なお、本実施形態において、各チャンネル(1ch、2ch、3ch)において入力することができる画像のサイズ(解像度)の上限値は、互いに同じであり、固定値である。各検知対象領域31a、31b、31cのグレースケール画像31aG、31bG、31cGは、各チャンネルの入力許容サイズに応じて、そのままの解像度、或いは、低解像度化されて各チャンネルに入力される。本実施形態では、各チャンネルに入力される画像のサイズは同一である。
【0047】
各チャンネル(1ch、2ch、3ch)に入力されるグレースケール画像31aG、31bG、31cGの解像度は、検知対象領域31が設定される位置に応じて変更されることが好ましい。検知対象領域31がカメラ2から遠い位置に設定される場合には、解像度を低下させない、或いは、解像度を低下させる必要がある際には低下度合いをなるべく小さくすることが好ましい。検知対象領域31がカメラ2から近い側に設定される場合には、物体の検知精度が低下しない範囲で解像度を低下させる度合いをなるべく大きくすることが好ましい。このように構成することで、遠方に存在する物体を検知する必要がある場合に、物体の検知精度が低下することを抑制することができる。一方で、近方に存在する物体を検知する必要がある場合に、物体の検知処理の処理負担を低減することができる。
【0048】
物体検知部123は、チャンネル毎に行われる物体の検知処理の結果に基づき物体の検知結果を出力する。図4に示すように、各チャンネル(1ch、2ch、3ch)に入力されたグレースケール画像31aG、31bG、31cGのそれぞれに対して、学習済みモデル(DNN)を用いた物体の検知処理が行われる。チャンネル毎の物体の検知処理は並行して進められる。物体検知部123においては、一旦、検知対象領域31a、31b、31c毎の、物体の検知処理結果が得られる。
【0049】
図4に示すように、物体検知部123においては、チャンネル毎の物体の検知処理の結果を統合する統合処理が行われる。詳細には、物体検知部123は、各検知対象領域31a、31b、31cの座標系で求めたチャンネル毎の処理結果を、撮影画像3全体の座標系に統合して物体の検知結果を出力する。各検知対象領域31a、31b、31cは、撮影画像3から切り出した画像であり、撮影画像3に占める座標領域が既知である。このために、各チャンネルで求めた物体の検知領域を撮影画像3全体の座標に変換することができる。なお、複数の検知対象領域31に跨って物体が存在する場合には、各検知対象領域31で重複して物体が検知されることがあり、重複して検知された物体について検知した領域を結合する必要がある。
【0050】
各チャンネルの処理結果を統合した物体の検知結果は、例えば、撮影画像(カラー画像)中に、検知した物体の領域を囲むバウンディングボックスを付与した画像である。例えば、当該画像が表示装置(不図示)に出力され、撮影画像3上に物体の検知を示すバウンディングボックスが施された画像が画面表示される。
【0051】
なお、物体検知部123は、場合によっては、チャンネル毎の物体の検知処理の結果を統合することなく、別々に出力してもよい。ただし、本実施形態のようにチャンネル毎の物体の検知処理の結果を統合した方が、撮影画像全体における物体の検知結果を認識し易くすることができる。
【0052】
物体検知を行う学習済みモデル(CNN)にカラー画像を入力する従来の構成では、例えば、カラーの撮影画像がRGBの各成分に分解され、分解された3つの成分が別々の輝度チャンネル(Rch、Gch、Bch)に入力されて物体の検知処理が行われる。この点、本実施形態では、学習済みモデルに入力する画像がグレースケール画像である。グレースケール画像では、使用するチャンネルは1つでよいために、上述の従来の構成と同様の構成の学習済みモデルを想定した場合に2つのチャンネルが余る。
【0053】
そこで、本実施形態では、撮影画像3から得られる3つの検知対象領域31a、31b、31cのグレースケール画像31aG、31bG、31cGを、それぞれ別々のチャンネルに入力する構成として、3つの入力チャンネルを有効活用している。すなわち、本願発明は、従来の学習済みモデルを応用して実現することができる。このような観点から説明すると、例えば、第1検知対象領域31aのグレースケール画像31aGは輝度チャンネルの1つであるR(Red)chに入力され、第2検知対象領域31bのグレースケール画像31bGは輝度チャンネルの1つであるG(Green)chに入力され、第3検知対象領域31cのグレースケール画像31cGは輝度チャンネルの1つであるB(Blue)chに入力される。換言すると、本実施形態において複数のチャンネルは、RGBの3チャンネルである。
【0054】
本実施形態によれば、1つの撮影画像3から物体を検知するに際して、画像をグレースケール化することによって複数のチャンネルに分けて入力することができる。そして、各チャンネルに入力する画像は、撮影画像の一部を分割した画像であり、各チャンネルへの画像の入力サイズ(ピクセル数)を小さくすることができる。この結果、各チャンネル(入力サイズの上限が決まっている)に入力する画像の解像度を低下させる度合いを小さくすることができ、画像に映る小さい物体の特徴量が失われることを抑制できる。すなわち、本実施形態によれば、例えば、撮影画像3中の検知したい物体が顔やナンバープレート等の小さい物体であっても精度良く物体の検知を行うことができる。
【0055】
また、本実施形態の学習済みモデルは、従来のカラー画像を入力して物体検知を行う学習済みモデルと同様の構成とできるために、従来の構成に比べて処理負荷が極端に大きくなったり、高性能の処理装置が要求されたりすることを避けることができる。
【0056】
(1-2.画像処理装置の動作例)
図5は、本発明の第1実施形態に係る画像処理装置1の動作例を示すフローチャートである。なお、画像処理装置1は、例えば、取得部11により撮影画像が取得される毎に図5に示すフローチャートの動作を行う。
【0057】
ステップS1では、取得部11がカメラ2より撮影画像3を取得する。取得部11は、例えば、図6に示すような撮影画像3を取得する。図6に示す撮影画像3には、道路Rの脇に配置される壁Wに沿って二人の人Hが歩いている様子が映っている。二人の人Hは、大人の男性と、女の子であり、以下、大人の男性を人H1、女の子を人H2と表現することがある。取得部11が撮影画像を取得すると、次のステップS2に処理が進められる。
【0058】
ステップS2では、設定部121が撮影画像3に3つの検知対象領域31a、31b、31cを設定する。例えば、検知したい物体が顔であり、図6に示す撮影画像3が取得された場合には、図7に破線で示す3つの検知対象領域31a、31b、31cが撮影画像3に設定される。検知対象領域31a、31b、31bは、例えば、撮影画像3において人Hの顔Fを検知したい範囲30を、左右方向に均等に3つに分割して得られる。設定部121による検知対象領域31a、31b、31cの設定が完了すると、次のステップS3に処理が進められる。
【0059】
ステップS3では、変換部122が3つの検知対象領域31a、31b、31cの画像(カラー画像)のそれぞれをグレースケール画像に変換する。なお、ステップS3の処理は、ステップS2の処理より先に行われてよい。この場合には、撮影画像3の全体がグレースケール画像に変換された後に、当該グレースケール化された撮影画像に3つの検知対象領域31a、31b、31cが設定されてよい。変換部122によるグレースケール化が完了すると、次のステップS4に処理が進められる。
【0060】
ステップS4では、各検知対象領域31a、31b、31cのグレースケール画像が、学習済みモデル(CNN)の別々のチャンネル(1ch、2ch、3ch)に入力される。なお、各チャンネルに入力されるグレースケール画像は、必要に応じて低解像度化される。図7に示す例では、壁Wのみが映るグレースケール画像が1chに入力される。人H1の顔Fと人H2の顔Fの一部とが映るグレースケール画像が2chに入力される。人H2の顔Fの一部が映るグレースケール画像が3chに入力される。各チャンネルへのグレースケール画像の入力が完了すると、次のステップS5に処理が進められる。
【0061】
ステップS5では、チャンネル(1ch、2ch、3ch)毎に、学習済みモデル(CNN)を用いた物体の検知処理が行われる。図7に示す例においては、1chでは物体(ここでは顔F)が検知されず、2chでは人H1と人H2との顔Fが検知され、3chでは人H2の顔Fが検知される。チャンネル毎の物体の検知処理が全て完了すると、次のステップS6に処理が進められる。
【0062】
ステップS6では、チャンネル(1ch、2ch、3ch)毎の検知処理の結果が統合され、撮影画像3における物体の検知結果が出力される。各検知対象領域31a、31b、31cの座標系で求めたチャンネル毎の検知結果が、それぞれ撮影画像3全体の座標系の結果に変換され、処理結果の統合が図られる。
【0063】
図7に示す例では、2chと3chとで、人H2の顔Fが重複して検知される。座標系を変換して各チャンネルの処理結果を統合する際に、重複して検知されたと判断される物体は結合される。重複して検知された物体であるか否かは、例えば、撮影画像3全体の座標系に変換した場合における、検知された物体間の距離に基づいて判断できる。例えば、検知された物体が重なっていると判断される場合や、検知された物体間の距離が極めて近いと判断される場合には、検知された物体が重複していると判断される。なお、当該重複判断には、物体検知の際に得ることができる付加情報(例えば年齢や性別等)も参照されてよい。
【0064】
図8は、物体の検知結果を例示する図である。図8は、図7に示す例の処理が進められた結果である。2chのみで検知された人H1の顔Fに物体検知を示すバウンディングボックスBが付与されている。2chと3chとの両方で検知された人H2の顔Fについては、両チャンネルの結果が結合されて、人H2の顔Fに1つのバウンディングボックスBが付与されている。物体の検知結果が出力されると、図5に示すフローチャートの処理が一旦終了される。次のフレーム画像の取得により、図5に示すフローチャートの処理が再開される。
【0065】
<2.第2実施形態>
次に、第2実施形態に係る画像処理装置について説明する。第2実施形態の画像処理装置の説明に際して、第1実施形態と重複する部分については、特に説明の必要がない場合には説明を省略する。
【0066】
(2-1.画像処理装置の構成)
図9は、本発明の第2実施形態に係る画像処理装置1Aの構成を示す図である。なお、図9においては、第2実施形態の画像処理装置1Aの特徴を説明するために必要な構成要素のみを示しており、一般的な構成要素についての記載は省略されている。また、図9には、理解を容易とするために画像処理装置1Aとは別の構成要素であるカメラ2も示されている。
【0067】
図9に示すように、画像処理装置1Aは、取得部11と、制御部12Aと、記憶部13と、を備える。取得部11および記憶部13は、第1実施形態と同様であるために、その説明を省略する。
【0068】
制御部12Aは、第1実施形態と同様に、画像処理装置1Aの全体を統括的に制御するコントローラである。制御部12Aは、例えば、CPU、RAM、および、ROM等を含むコンピュータとして構成される。ただし、制御部12Aは、第1実施形態と異なる機能を備える。図9に示す、設定部121、変換部122、物体検知部123、および、トラッキング部124は、制御部12AのCPUが記憶部13に記憶されるプログラムに従って演算処理を実行することにより実現される制御部12Aの機能である。換言すると、画像処理装置1Aは、設定部121と、変換部122と、物体検知部123と、トラッキング部124と、を備える。
【0069】
なお、制御部12Aの各部121~124の少なくともいずれか1つは、ASIC、FPGA、GPU等のハードウェアで構成されてもよい。また、各部121~124は、概念的な構成要素である。1つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を1つの構成要素に統合させたりしてよい。
【0070】
設定部121、変換部122、および、物体検知部123の構成は、第1実施形態と同様であるために、その説明を省略する。
【0071】
なお、物体検知のリアルタイム性を向上するという目的においては、第2実施形態の物体検知部123は、必ずしも、第1実施形態における物体の検知処理を行わなくてもよい。物体検知部123は、撮影画像3から大局的に物体を検知できるアルゴリズムを備えていればよい。物体検知部123は、ディープラーニングにより得られた学習済みモデル(CNN等)を用いて物体の検知を行う公知の構成であってもよい。この場合において、設定部121および変換部122は設けられなくてよい。
【0072】
トラッキング部124は、局所的に物体を検知し、物体検知部123よりも高速に物体を検知できるアルゴリズムを備える。トラッキング部124は、物体検知部123と交替して物体の検知を行う。詳細には、トラッキング部124は、先に取得された撮影画像3に対する物体検知部123の物体の検知結果に基づいて、現在取得されている撮影画像3に対して探索範囲を設定する。そして、トラッキング部124は、探索範囲内において物体の追跡を行う。トラッキング部124は、撮影画像3のうち、物体が検知されそうな範囲に絞って物体の追跡を行うために処理負荷を小さくして物体の追跡を行うことができる。
【0073】
図10は、トラッキング部124の機能を説明するための図である。図10において、太い破線で示す枠Bは、現在より1フレーム前のフレーム画像において物体検知部123が検知した物体の位置を示すバウンディングボックスを現在のフレーム画像3に便宜的に重ねて示したものである。
【0074】
トラッキング部124は、この1フレーム前のフレーム画像で得られたバウンディングボックスBの位置に基づいて、現在のフレーム画像3に対して探索範囲40を設定する。探索範囲40は、物体が移動する可能性があることを考慮に入れて、例えば、先のフレーム画像におけるバウンディングボックスBを囲むように設定される。すなわち、探索範囲40は、先のフレーム画像におけるバウンディングボックスBより大きく設定される。検知対象となる物体の種類によって、例えば1フレーム前の撮影タイミングから現在フレームの撮影タイミングまでに動くことができる範囲が異なる。このために、検知対象となる物体の種類によって、探索範囲40が変更されることが好ましい。例えば、検知対象が人の顔である場合に比べて、検知対象がナンバープレートである場合の方が探索範囲は広く設定されてよい。
【0075】
なお、トラッキング部124は、現在より1フレーム前のフレーム画像において複数の物体が検知されている場合には、複数の物体のそれぞれに対して探索範囲40を設定する。図10に示す例では、人H1の顔Fと、人H2の顔Fとの2つが物体検知部123により検知されているために、2つの顔Fのそれぞれに対して探索範囲40が設定されている。
【0076】
また、探索範囲40は、過去の物体の動きを示す軌跡情報に基づいて変更されてよい。軌跡情報は、例えば、過去の複数フレームにおける同一物体のバウンディングボックスBの中心位置を結んで得ることができる。図11は、軌跡情報に基づく探索範囲40の変更を説明するための図である。図11に示す例では、軌跡情報から物体(顔)の移動方向が太矢印Xの方向であることが予想されている。この軌跡情報に基づく予想を考慮して、探索範囲40は、バウンディングボックスBを基準として太矢印Xの方向に偏って広く設定されている。太矢印Xと逆方向には、物体が移動する可能性が低いと考えられるためである。矢印Xの方向が変わった場合に、探索範囲40は変更される。
【0077】
このように、探索範囲40を一律に設定するのではなく、軌跡情報に応じて変更する構成とすると、物体の追跡のために物体を探索する範囲を物体が存在する可能性が高い範囲に絞ることができ、追跡処理の処理速度を速くすることができる。なお、図11に示す例では、軌跡情報から移動方向の傾向のみを取り出して探索範囲40を変更する構成としたが、これは例示にすぎない。例えば、軌跡情報から移動方向に加えて移動速度の傾向も取り出し、移動方向に移動速度も加味して探索範囲40が設定されてもよい。
【0078】
トラッキング部124は、例えばテンプレートマッチングにより物体の追跡を行う。トラッキング部124は、例えば、1フレーム前の物体検知部123による物体検知の結果から、物体のテンプレート画像を得る。そして、トラッキング部124は、探索範囲40内において、テンプレート画像と同じパターンの画像を探索する。トラッキング部124は、類似度が閾値以上のパターンを見つけると、当該領域を追跡対象の物体として検知する。例えば、トラッキング部124は、物体の追跡に成功すると、物体検知部123と同様に、検知した物体の位置にバウンディングボックスBを施す。
【0079】
なお、トラッキング部124は、軌跡情報に応じてテンプレート画像の拡縮を行ってテンプレートマッチングを行ってもよい。例えば、軌跡情報から物体がカメラ2に接近していると判断される場合、テンプレート画像は拡大される。一方、軌跡情報から物体がカメラ2から離れていると判断される場合、テンプレート画像は縮小される。また、トラッキング部124は、上述のテンプレートマッチングを用いた方法ではなく、例えば、KCF(Kernelized Correlation Filter)等の他のトラッキング手法により探索範囲40内の物体の追跡を行ってよい。
【0080】
(2-2.画像処理装置の動作例)
図12は、第2実施形態に係る画像処理装置1Aの動作例を説明するための図である。図12において、破線矢印で示す「In」は、画像処理装置1Aがカメラ2から撮影画像3を取得するタイミングを示す。図12に示すように、撮影画像3を取得するタイミングは、所定の周期(例えば1/30秒)で発生する。
【0081】
図12において、太矢印は処理が実行されている状態を示す。図12に示す例では、最初の撮影画像3が取得されると、物体検知部123による物体の検知処理が行われる。詳細には、第1実施形態の場合と同様に(図5参照)、物体検知部123の処理が行われる前に、設定部121および変換部122による処理が実行される。このために、図12において、物体検知部123の処理が実行されている状態を示す太矢印は、設定部121および変換部122による処理も含む。
【0082】
物体検知部123による処理が実行されている間は、トラッキング部124による処理は実行されない。物体検知部123による物体検知が完了すると、トラッキング部124による処理が実行される。トラッキング部124による処理が実行されている間には、物体検知部123による処理が実行されない。すなわち、物体検知部123と、トラッキング部124とは、交替で動作する。
【0083】
なお、本実施形態では、1フレームごとに、物体検知部123とトラッキング部124とが交互に処理を行う。ただし、これは例示である。例えば、物体検知部123によるフレーム画像の処理が完了したのち、後続する2つ以上のフレーム画像に対してトラッキング部124による処理が行われてもよい。この場合には、トラッキング部124は、1フレーム前のフレーム画像3に対するトラッキング部124の追跡結果に基づいて現在のフレーム画像3に対して探索範囲を設定し、探索範囲内において物体の追跡を行うことがある。
【0084】
ディープラーニングによる学習を行った学習済みモデルを用いた物体の検知は、処理負担が大きく、処理に時間を要することがある。物体の検知精度を高めようとすると、処理時間が長くなる傾向がある。図12に示す例では、物体検知部123の処理時間が長く、次のフレーム画像3を取得するまでに、現在のフレーム画像3における物体検知部123による物体の検知処理は完了しない。
【0085】
ただし、物体検知部123による物体の検知処理が完了すると、次のフレーム画像3に対して、処理速度が速いトラッキング部124による物体の追跡処理が行われる。トラッキング部124による処理は、その次のフレーム画像3が取得されるまでに完了する。すなわち、2フレーム単位でみると、フレームごとの物体の検知が次のフレームが取得されるまでに完了する。トラッキング部124による処理が完了すると、再び、物体検知部123による処理が行われ、物体検知部123による処理と、トラッキング部124による処理とが交互に繰り返される。
【0086】
本実施形態によれば、検知精度の向上を狙った物体検知部123による処理が行われた後に、処理速度の向上を狙ったトラッキング部124による処理が行われ、当該交互処理が繰り返される。このために、本実施形態によれば、物体の検知精度を高めつつ、物体検知のリアルタイム性の低下を抑制することができる。
【0087】
<3.留意事項等>
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。
【符号の説明】
【0088】
1、1A・・・画像処理装置
31・・・検知対象領域
40・・・探索範囲
121・・・設定部
122・・・変換部
123・・・物体検知部
124・・・トラッキング部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12