特許7360303 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通テン株式会社の特許一覧

特許7360303画像処理装置および画像処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-03

(45)【発行日】2023-10-12

(54)【発明の名称】画像処理装置および画像処理方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20231004BHJP

G06T 7/238 20170101ALI20231004BHJP

【ＦＩ】

G06T7/00 350C

G06T7/238

【請求項の数】 8

(21)【出願番号】P 2019203261

(22)【出願日】2019-11-08

(65)【公開番号】P2021077091

(43)【公開日】2021-05-20

【審査請求日】2022-09-29

(73)【特許権者】

【識別番号】000237592

【氏名又は名称】株式会社デンソーテン

(74)【代理人】

【識別番号】110001933

【氏名又は名称】弁理士法人佐野特許事務所

(72)【発明者】

【氏名】岡田康貴

(72)【発明者】

【氏名】関竜介

【審査官】小太刀慶明

(56)【参考文献】

【文献】特開２０１３－２２９８２４（ＪＰ，Ａ）

【文献】国際公開第２０１８／１７９８２９（ＷＯ，Ａ１）

【文献】特開２００９－２２３５００（ＪＰ，Ａ）

【文献】特開２０１６－１６２２３２（ＪＰ，Ａ）

【文献】特開２０１９－０５３６２５（ＪＰ，Ａ）

【文献】特開２０１５－０８８８１８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｈ０４Ｎ５／２３２

(57)【特許請求の範囲】

【請求項1】

それぞれが入力画像から物体の検知処理を実行し、カラー撮影画像の物体検知処理を可能とする第１、第２及び第３の輝度チャンネルを備え、
取得した前記カラー撮影画像に対して設定される第１、第２及び第３の検知対象領域のグレースケール画像である第１、第２及び第３のグレースケール画像を生成し、
前記第１、第２及び第３のグレースケール画像をそれぞれ前記第１、第２及び第３の輝度チャンネルに入力し、前記物体の検知処理を実行し、前記カラー撮影画像における物体の検知処理結果を出力する、画像処理装置。

【請求項2】

前記第１、第２及び第３の検知対象領域を、前記撮影画像の一部の範囲を対象として設定する、請求項１に記載の画像処理装置。

【請求項3】

各前記検知対象領域の座標系で求めた前記輝度チャンネル毎の処理結果を、前記カラー撮影画像全体の座標系に統合して前記物体の検知結果を出力する、請求項１又は２に記載の画像処理装置。

【請求項4】

各前記輝度チャンネルに入力される前記グレースケール画像の解像度は、前記検知対象領域が設定される位置に応じて変更される、請求項１から３のいずれか１項に記載の画像処理装置。

【請求項5】

先に取得された前記カラー撮影画像に対する前記物体の検知結果に基づいて、現在取得されている前記カラー撮影画像に対して探索範囲を設定し、前記探索範囲内において前記物体の追跡を行う、請求項１から４のいずれか１項に記載の画像処理装置。

【請求項6】

前記探索範囲を、過去の前記物体の動きを示す軌跡情報に基づいて変更する、請求項５に記載の画像処理装置。

【請求項7】

前記カラー撮影画像と、予め準備された背景画像との比較により変化量が大きい領域を前記検知対象領域に設定する、請求項１から６のいずれか１項に記載の画像処理装置。

【請求項8】

取得したカラー撮影画像に対して設定される第１、第２及び第３の検知対象領域のグレースケール画像である第１、第２及び第３のグレースケール画像を生成し、
前記第１、第２及び第３のグレースケール画像をそれぞれ第１、第２及び第３の輝度チャンネルに入力し、前記第１、第２及び第３のグレースケール画像のそれぞれに対して物体の検知処理を実行し、前記カラー撮影画像における物体の検知処理結果を出力する、画像処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置および画像処理方法に関する。

【背景技術】

【0002】

従来、ニューラルネットワークを用いて画像中の顔等の物体を検知することが行われている（例えば特許文献１参照）。近年においては、多層のニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いた物体検知手法の開発が盛んである。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１２－４８４７６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、ＤＮＮを用いた物体検知においては、ＤＮＮの入力層のサイズに合わせるために、カメラで撮影した撮影画像に対して画像サイズの縮小処理（解像度を下げる処理）が行われることがある。例えば車載向け等の計算リソースが限られた状況下では、縮小処理が行われた画像をＤＮＮに入力して、物体検知処理が行われることが一般的である。

【0005】

例えば、撮影画像において検知したい物体の大きさが小さい場合、又は、検知したい物体が遠方に存在するために見かけ上小さくなっている場合等には、画像サイズの縮小処理によって特徴量が失われることがある。このために、カメラで撮影した画像に対して単純に縮小処理を行ってＤＮＮを用いた物体検知処理を行うと、物体検知の精度が低下する虞がある。

【0006】

本発明は、上記の課題に鑑み、画像中の検知したい物体が小さい場合でも精度良く物体検知を行うことができる技術を提供することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するために本発明の画像処理装置は、取得した撮影画像に物体の検知を試みる複数の検知対象領域を設定する設定部と、前記撮影画像のうち少なくとも前記複数の検知対象領域の画像をカラー画像からグレースケール画像に変換する変換部と、前記複数の検知対象領域それぞれの前記グレースケール画像を別々に入力する複数のチャンネルを有し、前記チャンネル毎に行われる前記物体の検知処理に基づき前記物体の検知結果を出力する物体検知部と、を備える構成（第１の構成）になっている。

【0008】

また、上記第１の構成の画像処理装置において、前記設定部は、前記撮影画像の一部の範囲を対象として前記複数の検知対象領域を設定する構成（第２の構成）であることが好ましい。

【0009】

また、上記第１又は第２の構成の画像処理装置において、前記物体検知部は、各前記検知対象領域の座標系で求めた前記チャンネル毎の処理結果を、前記撮影画像全体の座標系に統合して前記物体の検知結果を出力する構成（第３の構成）であることが好ましい。

【0010】

また、上記第１から第３のいずれかの構成の画像処理装置において、各前記チャンネルに入力される前記グレースケール画像の解像度は、前記検知対象領域が設定される位置に応じて変更される構成（第４の構成）であってよい。

【0011】

また、上記第１から第４のいずれかの構成の画像処理装置において、前記複数の検知対象領域は３つであり、前記複数のチャンネルは３つである構成（第５の構成）であることが好ましい。

【0012】

また、上記第１から第５のいずれかの構成の画像処理装置は、先に取得された前記撮影画像に対する前記物体検知部の前記物体の検知結果に基づいて、現在取得されている前記撮影画像に対して探索範囲を設定し、前記探索範囲内において前記物体の追跡を行うトラッキング部を更に備える構成（第６の構成）であってよい。

【0013】

また、上記第６の構成の画像処理装置において、前記探索範囲は、過去の前記物体の動きを示す軌跡情報に基づいて変更される構成（第７の構成）であってよい。

【0014】

また、上記第１から第７のいずれかの構成の画像処理装置において、前記設定部は、前記撮影画像と、予め準備された背景画像との比較により変化量が大きい領域を前記検知対象領域に設定する構成（第８の構成）であってよい。

【0015】

また、上記目的を達成するために本発明の画像処理方法は、取得した撮影画像に物体の検知を試みる複数の検知対象領域を設定する設定工程と、前記撮影画像のうち少なくとも前記複数の検知対象領域の画像をカラー画像からグレースケール画像に変換する変換工程と、前記複数の検知対象領域それぞれの前記グレースケール画像を互いに異なるチャンネルに入力し、前記チャンネル毎に行われた前記物体の検知処理に基づき前記物体の検知結果を出力する物体検知工程と、を備える構成（第９の構成）になっている。

【発明の効果】

【0016】

本発明によれば、画像中の検知したい物体が小さい場合でも精度良く物体検知を行うことができる。

【図面の簡単な説明】

【0017】

【図1】第１実施形態に係る画像処理装置の構成を示す図

【図2】設定部による複数の検知対象領域の設定例を示す図

【図3】設定部による複数の検知対象領域の別の設定例を示す図

【図4】物体検知部の機能を説明するための模式図

【図5】第１実施形態に係る画像処理装置の動作例を示すフローチャート

【図6】取得部により取得される撮影画像の一例を示す図

【図7】検知対象領域の設定例を示す図

【図8】物体の検知結果を例示する図

【図9】第２実施形態に係る画像処理装置の構成を示す図

【図10】トラッキング部の機能を説明するための図

【図11】軌跡情報に基づく探索範囲の変更を説明するための図

【図12】第２実施形態に係る画像処理装置の動作例を説明するための図

【発明を実施するための形態】

【0018】

以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。

【0019】

＜１．第１実施形態＞
（１－１．画像処理装置の構成）
図１は、本発明の第１実施形態に係る画像処理装置１の構成を示す図である。なお、図１においては、第１実施形態の画像処理装置１の特徴を説明するために必要な構成要素のみが示されており、一般的な構成要素についての記載は省略されている。また、図１には、理解を容易とするために画像処理装置１とは別の構成要素であるカメラ２も示されている。

【0020】

画像処理装置１は、例えば車両等の移動体に搭載されてよい。車両には、例えば自動車、電車、無人搬送車等の車輪のついた乗り物が広く含まれる。画像処理装置１は、例えば車両に搭載されるナビゲーション装置やドライブレコーダ等の車載装置に含まれてよい。画像処理装置１は、移動体に搭載されなくてもよく、例えば、商業施設や駐車場等に設けられる監視施設や、高速道路の料金所等の建物内に配置されてもよい。また、画像処理装置１は、例えば、車載装置等の端末装置とネットワーク等を介して通信可能に設けられるクラウドサーバ等のサーバ装置に含まれてもよい。また、画像処理装置１は、例えば、スマートフォンやタブレット等の携帯端末に含まれてもよい。

【0021】

カメラ２は、車両等の移動体に搭載されてもよいし、商業施設等の建物内、駐車場等の屋外に固定配置されてもよい。カメラ２は、例えば、有線又は無線により、或いは、ネットワークを利用して、撮影した画像（撮影画像）を画像処理装置１に出力する。

【0022】

図１に示すように、画像処理装置１は、取得部１１と、制御部１２と、記憶部１３と、を備える。

【0023】

取得部１１は、撮影画像を取得する。取得部１１は、例えば車両に搭載されるカメラ２からアナログ又はデジタルの撮影画像を所定の周期（例えば、１／３０秒周期）で時間的に連続して取得する。取得部１１によって取得される撮影画像（１フレームの画像）の集合体が、カメラ２で撮影された動画像である。本実施形態では、取得部１１が取得する撮影画像はカラー画像である。取得した撮影画像がアナログの場合には、取得部１１は、そのアナログの撮影画像をデジタルの撮影画像に変換（Ａ／Ｄ変換）する。取得部１１は、取得した撮影画像（Ａ／Ｄ変換が行われた場合は変換後の画像）を制御部１２に出力する。

【0024】

制御部１２は、画像処理装置１の全体を統括的に制御するコントローラである。制御部１２は、例えば、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、および、ＲＯＭ（Read Only Memory）等を含むコンピュータとして構成される。

【0025】

記憶部１３は、例えば、ＲＡＭやフラッシュメモリ等の半導体メモリ素子、ハードディスク、或いは、光ディスク等の可搬型の記録媒体を用いる記憶装置等で構成される。記憶部１３は、ファームウェアとしてのプログラムや各種のデータを記憶する。本実施形態では、記憶部１３には、後述の物体検知部１２３により用いられる学習済みモデルが記憶される。学習済みモデルは、例えばＣＮＮ（Convolutional Neural Network）等を用いた公知のディープラーニング（深層学習）により得ることができる。

【0026】

図１に示す、設定部１２１、変換部１２２、および、物体検知部１２３は、制御部１２のＣＰＵが記憶部１３に記憶されるプログラムに従って演算処理を実行することにより実現される制御部１２の機能である。換言すると、画像処理装置１は、設定部１２１と、変換部１２２と、物体検知部１２３と、を備える。

【0027】

なお、制御部１２における、設定部１２１、変換部１２２、および、物体検知部１２３の少なくともいずれか１つは、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェアで構成されてもよい。

【0028】

また、設定部１２１、変換部１２２、および、物体検知部１２３は、概念的な構成要素である。１つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を１つの構成要素に統合させたりしてよい。また、取得部１１は、制御部１２のＣＰＵがプログラムに従って演算処理を行うことによって実現される構成としてもよい。また、画像処理装置１の具体的なハードウェア構成に関して、実施の形態に応じて、適宜、構成要素の省略、置換、又は、追加を行ってよい。例えば、制御部１２は、複数のハードウェアプロセッサを含んでもよい。

【0029】

設定部１２１は、取得した撮影画像に物体の検知を試みる複数の検知対象領域を設定する。複数の検知対象領域が設定される撮影画像は、取得部１１から得られた画像そのものでもよいし、取得部１１から得られた後に加工が施された画像であってよい。施される加工として、例えばグレースケール化等が挙げられる。また、物体は、動体でも静止物でもよい。詳細には、物体は、例えば人や車両等である。物体は、例えば、人の顔や、車両のナンバープレート等、或る物の一部と解される部分であってもよい。

【0030】

図２は、設定部１２１による複数の検知対象領域３１の設定例を示す図である。図２に示す例では、設定部１２１は、撮影画像３の一部の範囲３０を対象として複数の検知対象領域３１を設定する。これによれば、撮影画像３の一部を対象として物体の検知を行う構成となり、撮影画像３の全範囲を対象として物体の検知を行う場合に比べて物体の検知処理の負担を低減することができる。

【0031】

一部の範囲３０は、例えば、物体の検知目的や、検知したい物体の種類等を考慮して決められる。例えば、自車両から何メートル遠方にある物体を検知するかが決まっている場合や、撮影画像中に現れる物体の範囲が限られた範囲であることがわかっている場合等に、一部の範囲３０はカメラ２からの特定の距離範囲とされる。このような場合、カメラ２の設定位置に関する既知のパラメータと三角測量とを用いて一部の範囲３０を求めることできる。

【0032】

図２に示す例では、複数の検知対象領域３１は、一部の範囲３０を分割することにより得られる。詳細には、複数の検知対象領域３１は、矩形状の一部の範囲３０を３つに均等に分割して得られる。すなわち、図２に示す例では、複数の検知対象領域３１は３つである。３つの検知対象領域３１は、それぞれ矩形状であり、撮影画像３の左右方向に並ぶ。３つの検知対象領域３１は、左端に位置する第１検知対象領域３１ａと、真ん中に位置する第２検知対象領域３１ｂと、第３検知対象領域３１ｃとで構成される。３つの検知対象領域３１ａ、３１ｂ、３１ｃの大きさは、互いに同じであることが好ましいが、場合によっては互いに異なってもよい。

【0033】

なお、設定部１２１により設定される検知対象領域３１の形状は、矩形状に限らず、適宜変更されてよい。設定部１２１は、複数の検知対象領域３１を、撮影画像３の一部の範囲３０でなく全範囲を対象として設定してもよい。すなわち、撮影画像３の全範囲を複数の領域に分け、分けられた各領域を検知対象領域３１としてもよい。設定部１２１が設定する複数の検知対象領域３１は固定された領域でもよいが、例えば、カメラ２が車載カメラである場合に車両の舵角等に応じて変動される領域であってもよい。

【0034】

図３は、設定部１２１による複数の検知対象領域３１の別の設定例を示す図である。図３に示すように、複数の検知対象領域３１（詳細には３つの検知対象領域３１）は、撮影画像３の一部の範囲３０の更に一部の領域だけを占める構成であってよい。複数の検知対象領域３１は、互いに隣接する領域でなくてもよい。

【0035】

また、複数の検知対象領域３１は、一部の範囲３０を設定することなく得られてもよい。例えば、設定部１２１は、撮影画像３と、予め準備された背景画像との比較により変化量が大きい領域を検知対象領域３１に設定してよい。これによれば、物体が存在する可能性が高い領域に絞って物体の検知処理を効率良く行うことができる。

【0036】

なお、この構成の場合には、変化量が大きい領域に対して機械学習を行った学習済みモデル（例えばＣＮＮ等）による物体検知（例えばクラス分類等）が行われる。背景画像は、記憶部１３に記憶される。背景画像との比較を利用して物体の種別を適切に得るという目的においては、物体検知の処理は、以下に説明する物体検知部１２３の処理と同じでもよいが、物体検知部１２３の処理と異なる処理であってもよい。

【0037】

背景画像は、公知の手法（例えば差分方式）によって得られた画像であってよい。ただし、背景画像は、次のような公知の手法以外の方法で得られた画像であってもよい。

【0038】

背景画像を生成する背景画像生成装置（不図示）は、異なるタイミングで得られた複数の画像のそれぞれについて、学習済みモデルを用いた物体検知を行う。異なるタイミングで得られる複数の画像は、１つのカメラから得られる画像でもよいが、例えばカメラを搭載する複数のコネクテッドカーから得られた画像等であってもよい。複数の画像は、同じ場所が映る撮影画像である。

【0039】

背景画像生成装置が用いる学習済みモデルは、例えばＣＮＮ等の物体の検知を可能とするニューラルネットワークであってよい。学習済みモデルは、ピクセル（画素）毎に意味をラベル付けする画像セグメンテーションを行う構成であってもよいし、物体の種別を分類する構成であってもよい。

【0040】

背景画像生成装置は、異なるタイミングで得られた複数の画像のそれぞれについて、物体が検知された領域を取り除いた差し引き画像を生成する。背景画像生成装置は、得られた複数の差し引き画像を組み合わせることで、物体が存在しない背景画像を完成する。背景画像生成装置は、同じ場所の背景画像について、一定時間ごとの背景画像を生成することが好ましい。

【0041】

このような背景画像生成装置によれば、機械学習を行った学習済みモデルを用いて背景画像を生成するために正確な背景画像を生成することができる。背景画像生成装置により生成された背景画像を利用すれば、例えば、時間によって形状が変化する影を物体と区別し易くなり、物体を適切に検知することができる。

【0042】

変換部１２２は、取得部１１から得られた撮影画像３のうち少なくとも複数の検知対象領域３１の画像をカラー画像からグレースケール画像に変換する。変換部１２２は、撮影画像全体をグレースケール画像に変換してもよいが、複数の検知対象領域３１のみをグレースケール画像に変換してよい。例えば図２に示す例では、３つの検知対象領域３１ａ～３１ｃの画像はグレースケール画像に変換される。グレースケール画像への変換手法は、例えばＮＴＳＣ加重平均法や、ＲＧＢのうちの１つの要素値を抽出してグレースケール値として採用する方法等であってよい。変換部１２２によるグレースケール変換により、各検知対象領域３１において、２５６階調（８ビット）のグレースケール画像が得られる。

【0043】

物体検知部１２３は、記憶部１３に記憶される機械学習後の学習済みモデル（一例としてＣＮＮ）を用いて物体の検知処理を行う。物体の検知処理は、畳み込みやプーリングによって画像から特徴量を抽出するパートと、全結合層を繰り返すことで抽出した特徴量に基づいてクラス分類を行うパートとを有する。

【0044】

なお、物体検知部１２３において用いられる学習済みモデルは、好ましい形態として、教師データとしてグレースケール画像を用いて学習が行われた学習済みモデルである。このために、グレースケール画像により精度良く物体の検知を行うことができる。

【0045】

図４は、物体検知部１２３の機能を説明するための模式図である。物体検知部１２３は、複数の検知対象領域３１それぞれのグレースケール画像を別々に入力する複数のチャンネルを有する。チャンネルは入力層と言い換えられる。本実施形態では、第１検知対象領域３１ａのグレースケール画像３１ａＧは、１ｃｈに入力される。第２検知対象領域３１ｂのグレースケール画像３１ｂＧは、２ｃｈに入力される。第３検知対象領域３１ｃのグレースケール画像３１ｃＧは、３ｃｈに入力される。すなわち、本実施形態では、複数のチャンネルは３つである。

【0046】

なお、本実施形態において、各チャンネル（１ｃｈ、２ｃｈ、３ｃｈ）において入力することができる画像のサイズ（解像度）の上限値は、互いに同じであり、固定値である。各検知対象領域３１ａ、３１ｂ、３１ｃのグレースケール画像３１ａＧ、３１ｂＧ、３１ｃＧは、各チャンネルの入力許容サイズに応じて、そのままの解像度、或いは、低解像度化されて各チャンネルに入力される。本実施形態では、各チャンネルに入力される画像のサイズは同一である。

【0047】

各チャンネル（１ｃｈ、２ｃｈ、３ｃｈ）に入力されるグレースケール画像３１ａＧ、３１ｂＧ、３１ｃＧの解像度は、検知対象領域３１が設定される位置に応じて変更されることが好ましい。検知対象領域３１がカメラ２から遠い位置に設定される場合には、解像度を低下させない、或いは、解像度を低下させる必要がある際には低下度合いをなるべく小さくすることが好ましい。検知対象領域３１がカメラ２から近い側に設定される場合には、物体の検知精度が低下しない範囲で解像度を低下させる度合いをなるべく大きくすることが好ましい。このように構成することで、遠方に存在する物体を検知する必要がある場合に、物体の検知精度が低下することを抑制することができる。一方で、近方に存在する物体を検知する必要がある場合に、物体の検知処理の処理負担を低減することができる。

【0048】

物体検知部１２３は、チャンネル毎に行われる物体の検知処理の結果に基づき物体の検知結果を出力する。図４に示すように、各チャンネル（１ｃｈ、２ｃｈ、３ｃｈ）に入力されたグレースケール画像３１ａＧ、３１ｂＧ、３１ｃＧのそれぞれに対して、学習済みモデル（ＤＮＮ）を用いた物体の検知処理が行われる。チャンネル毎の物体の検知処理は並行して進められる。物体検知部１２３においては、一旦、検知対象領域３１ａ、３１ｂ、３１ｃ毎の、物体の検知処理結果が得られる。

【0049】

図４に示すように、物体検知部１２３においては、チャンネル毎の物体の検知処理の結果を統合する統合処理が行われる。詳細には、物体検知部１２３は、各検知対象領域３１ａ、３１ｂ、３１ｃの座標系で求めたチャンネル毎の処理結果を、撮影画像３全体の座標系に統合して物体の検知結果を出力する。各検知対象領域３１ａ、３１ｂ、３１ｃは、撮影画像３から切り出した画像であり、撮影画像３に占める座標領域が既知である。このために、各チャンネルで求めた物体の検知領域を撮影画像３全体の座標に変換することができる。なお、複数の検知対象領域３１に跨って物体が存在する場合には、各検知対象領域３１で重複して物体が検知されることがあり、重複して検知された物体について検知した領域を結合する必要がある。

【0050】

各チャンネルの処理結果を統合した物体の検知結果は、例えば、撮影画像（カラー画像）中に、検知した物体の領域を囲むバウンディングボックスを付与した画像である。例えば、当該画像が表示装置（不図示）に出力され、撮影画像３上に物体の検知を示すバウンディングボックスが施された画像が画面表示される。

【0051】

なお、物体検知部１２３は、場合によっては、チャンネル毎の物体の検知処理の結果を統合することなく、別々に出力してもよい。ただし、本実施形態のようにチャンネル毎の物体の検知処理の結果を統合した方が、撮影画像全体における物体の検知結果を認識し易くすることができる。

【0052】

物体検知を行う学習済みモデル（ＣＮＮ）にカラー画像を入力する従来の構成では、例えば、カラーの撮影画像がＲＧＢの各成分に分解され、分解された３つの成分が別々の輝度チャンネル（Ｒｃｈ、Ｇｃｈ、Ｂｃｈ）に入力されて物体の検知処理が行われる。この点、本実施形態では、学習済みモデルに入力する画像がグレースケール画像である。グレースケール画像では、使用するチャンネルは１つでよいために、上述の従来の構成と同様の構成の学習済みモデルを想定した場合に２つのチャンネルが余る。

【0053】

そこで、本実施形態では、撮影画像３から得られる３つの検知対象領域３１ａ、３１ｂ、３１ｃのグレースケール画像３１ａＧ、３１ｂＧ、３１ｃＧを、それぞれ別々のチャンネルに入力する構成として、３つの入力チャンネルを有効活用している。すなわち、本願発明は、従来の学習済みモデルを応用して実現することができる。このような観点から説明すると、例えば、第１検知対象領域３１ａのグレースケール画像３１ａＧは輝度チャンネルの１つであるＲ（Red）ｃｈに入力され、第２検知対象領域３１ｂのグレースケール画像３１ｂＧは輝度チャンネルの１つであるＧ（Green）ｃｈに入力され、第３検知対象領域３１ｃのグレースケール画像３１ｃＧは輝度チャンネルの１つであるＢ（Blue）ｃｈに入力される。換言すると、本実施形態において複数のチャンネルは、ＲＧＢの３チャンネルである。

【0054】

本実施形態によれば、１つの撮影画像３から物体を検知するに際して、画像をグレースケール化することによって複数のチャンネルに分けて入力することができる。そして、各チャンネルに入力する画像は、撮影画像の一部を分割した画像であり、各チャンネルへの画像の入力サイズ（ピクセル数）を小さくすることができる。この結果、各チャンネル（入力サイズの上限が決まっている）に入力する画像の解像度を低下させる度合いを小さくすることができ、画像に映る小さい物体の特徴量が失われることを抑制できる。すなわち、本実施形態によれば、例えば、撮影画像３中の検知したい物体が顔やナンバープレート等の小さい物体であっても精度良く物体の検知を行うことができる。

【0055】

また、本実施形態の学習済みモデルは、従来のカラー画像を入力して物体検知を行う学習済みモデルと同様の構成とできるために、従来の構成に比べて処理負荷が極端に大きくなったり、高性能の処理装置が要求されたりすることを避けることができる。

【0056】

（１－２．画像処理装置の動作例）
図５は、本発明の第１実施形態に係る画像処理装置１の動作例を示すフローチャートである。なお、画像処理装置１は、例えば、取得部１１により撮影画像が取得される毎に図５に示すフローチャートの動作を行う。

【0057】

ステップＳ１では、取得部１１がカメラ２より撮影画像３を取得する。取得部１１は、例えば、図６に示すような撮影画像３を取得する。図６に示す撮影画像３には、道路Ｒの脇に配置される壁Ｗに沿って二人の人Ｈが歩いている様子が映っている。二人の人Ｈは、大人の男性と、女の子であり、以下、大人の男性を人Ｈ１、女の子を人Ｈ２と表現することがある。取得部１１が撮影画像を取得すると、次のステップＳ２に処理が進められる。

【0058】

ステップＳ２では、設定部１２１が撮影画像３に３つの検知対象領域３１ａ、３１ｂ、３１ｃを設定する。例えば、検知したい物体が顔であり、図６に示す撮影画像３が取得された場合には、図７に破線で示す３つの検知対象領域３１ａ、３１ｂ、３１ｃが撮影画像３に設定される。検知対象領域３１ａ、３１ｂ、３１ｂは、例えば、撮影画像３において人Ｈの顔Ｆを検知したい範囲３０を、左右方向に均等に３つに分割して得られる。設定部１２１による検知対象領域３１ａ、３１ｂ、３１ｃの設定が完了すると、次のステップＳ３に処理が進められる。

【0059】

ステップＳ３では、変換部１２２が３つの検知対象領域３１ａ、３１ｂ、３１ｃの画像（カラー画像）のそれぞれをグレースケール画像に変換する。なお、ステップＳ３の処理は、ステップＳ２の処理より先に行われてよい。この場合には、撮影画像３の全体がグレースケール画像に変換された後に、当該グレースケール化された撮影画像に３つの検知対象領域３１ａ、３１ｂ、３１ｃが設定されてよい。変換部１２２によるグレースケール化が完了すると、次のステップＳ４に処理が進められる。

【0060】

ステップＳ４では、各検知対象領域３１ａ、３１ｂ、３１ｃのグレースケール画像が、学習済みモデル（ＣＮＮ）の別々のチャンネル（１ｃｈ、２ｃｈ、３ｃｈ）に入力される。なお、各チャンネルに入力されるグレースケール画像は、必要に応じて低解像度化される。図７に示す例では、壁Ｗのみが映るグレースケール画像が１ｃｈに入力される。人Ｈ１の顔Ｆと人Ｈ２の顔Ｆの一部とが映るグレースケール画像が２ｃｈに入力される。人Ｈ２の顔Ｆの一部が映るグレースケール画像が３ｃｈに入力される。各チャンネルへのグレースケール画像の入力が完了すると、次のステップＳ５に処理が進められる。

【0061】

ステップＳ５では、チャンネル（１ｃｈ、２ｃｈ、３ｃｈ）毎に、学習済みモデル（ＣＮＮ）を用いた物体の検知処理が行われる。図７に示す例においては、１ｃｈでは物体（ここでは顔Ｆ）が検知されず、２ｃｈでは人Ｈ１と人Ｈ２との顔Ｆが検知され、３ｃｈでは人Ｈ２の顔Ｆが検知される。チャンネル毎の物体の検知処理が全て完了すると、次のステップＳ６に処理が進められる。

【0062】

ステップＳ６では、チャンネル（１ｃｈ、２ｃｈ、３ｃｈ）毎の検知処理の結果が統合され、撮影画像３における物体の検知結果が出力される。各検知対象領域３１ａ、３１ｂ、３１ｃの座標系で求めたチャンネル毎の検知結果が、それぞれ撮影画像３全体の座標系の結果に変換され、処理結果の統合が図られる。

【0063】

図７に示す例では、２ｃｈと３ｃｈとで、人Ｈ２の顔Ｆが重複して検知される。座標系を変換して各チャンネルの処理結果を統合する際に、重複して検知されたと判断される物体は結合される。重複して検知された物体であるか否かは、例えば、撮影画像３全体の座標系に変換した場合における、検知された物体間の距離に基づいて判断できる。例えば、検知された物体が重なっていると判断される場合や、検知された物体間の距離が極めて近いと判断される場合には、検知された物体が重複していると判断される。なお、当該重複判断には、物体検知の際に得ることができる付加情報（例えば年齢や性別等）も参照されてよい。

【0064】

図８は、物体の検知結果を例示する図である。図８は、図７に示す例の処理が進められた結果である。２ｃｈのみで検知された人Ｈ１の顔Ｆに物体検知を示すバウンディングボックスＢが付与されている。２ｃｈと３ｃｈとの両方で検知された人Ｈ２の顔Ｆについては、両チャンネルの結果が結合されて、人Ｈ２の顔Ｆに１つのバウンディングボックスＢが付与されている。物体の検知結果が出力されると、図５に示すフローチャートの処理が一旦終了される。次のフレーム画像の取得により、図５に示すフローチャートの処理が再開される。

【0065】

＜２．第２実施形態＞
次に、第２実施形態に係る画像処理装置について説明する。第２実施形態の画像処理装置の説明に際して、第１実施形態と重複する部分については、特に説明の必要がない場合には説明を省略する。

【0066】

（２－１．画像処理装置の構成）
図９は、本発明の第２実施形態に係る画像処理装置１Ａの構成を示す図である。なお、図９においては、第２実施形態の画像処理装置１Ａの特徴を説明するために必要な構成要素のみを示しており、一般的な構成要素についての記載は省略されている。また、図９には、理解を容易とするために画像処理装置１Ａとは別の構成要素であるカメラ２も示されている。

【0067】

図９に示すように、画像処理装置１Ａは、取得部１１と、制御部１２Ａと、記憶部１３と、を備える。取得部１１および記憶部１３は、第１実施形態と同様であるために、その説明を省略する。

【0068】

制御部１２Ａは、第１実施形態と同様に、画像処理装置１Ａの全体を統括的に制御するコントローラである。制御部１２Ａは、例えば、ＣＰＵ、ＲＡＭ、および、ＲＯＭ等を含むコンピュータとして構成される。ただし、制御部１２Ａは、第１実施形態と異なる機能を備える。図９に示す、設定部１２１、変換部１２２、物体検知部１２３、および、トラッキング部１２４は、制御部１２ＡのＣＰＵが記憶部１３に記憶されるプログラムに従って演算処理を実行することにより実現される制御部１２Ａの機能である。換言すると、画像処理装置１Ａは、設定部１２１と、変換部１２２と、物体検知部１２３と、トラッキング部１２４と、を備える。

【0069】

なお、制御部１２Ａの各部１２１～１２４の少なくともいずれか１つは、ＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェアで構成されてもよい。また、各部１２１～１２４は、概念的な構成要素である。１つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を１つの構成要素に統合させたりしてよい。

【0070】

設定部１２１、変換部１２２、および、物体検知部１２３の構成は、第１実施形態と同様であるために、その説明を省略する。

【0071】

なお、物体検知のリアルタイム性を向上するという目的においては、第２実施形態の物体検知部１２３は、必ずしも、第１実施形態における物体の検知処理を行わなくてもよい。物体検知部１２３は、撮影画像３から大局的に物体を検知できるアルゴリズムを備えていればよい。物体検知部１２３は、ディープラーニングにより得られた学習済みモデル（ＣＮＮ等）を用いて物体の検知を行う公知の構成であってもよい。この場合において、設定部１２１および変換部１２２は設けられなくてよい。

【0072】

トラッキング部１２４は、局所的に物体を検知し、物体検知部１２３よりも高速に物体を検知できるアルゴリズムを備える。トラッキング部１２４は、物体検知部１２３と交替して物体の検知を行う。詳細には、トラッキング部１２４は、先に取得された撮影画像３に対する物体検知部１２３の物体の検知結果に基づいて、現在取得されている撮影画像３に対して探索範囲を設定する。そして、トラッキング部１２４は、探索範囲内において物体の追跡を行う。トラッキング部１２４は、撮影画像３のうち、物体が検知されそうな範囲に絞って物体の追跡を行うために処理負荷を小さくして物体の追跡を行うことができる。

【0073】

図１０は、トラッキング部１２４の機能を説明するための図である。図１０において、太い破線で示す枠Ｂは、現在より１フレーム前のフレーム画像において物体検知部１２３が検知した物体の位置を示すバウンディングボックスを現在のフレーム画像３に便宜的に重ねて示したものである。

【0074】

トラッキング部１２４は、この１フレーム前のフレーム画像で得られたバウンディングボックスＢの位置に基づいて、現在のフレーム画像３に対して探索範囲４０を設定する。探索範囲４０は、物体が移動する可能性があることを考慮に入れて、例えば、先のフレーム画像におけるバウンディングボックスＢを囲むように設定される。すなわち、探索範囲４０は、先のフレーム画像におけるバウンディングボックスＢより大きく設定される。検知対象となる物体の種類によって、例えば１フレーム前の撮影タイミングから現在フレームの撮影タイミングまでに動くことができる範囲が異なる。このために、検知対象となる物体の種類によって、探索範囲４０が変更されることが好ましい。例えば、検知対象が人の顔である場合に比べて、検知対象がナンバープレートである場合の方が探索範囲は広く設定されてよい。

【0075】

なお、トラッキング部１２４は、現在より１フレーム前のフレーム画像において複数の物体が検知されている場合には、複数の物体のそれぞれに対して探索範囲４０を設定する。図１０に示す例では、人Ｈ１の顔Ｆと、人Ｈ２の顔Ｆとの２つが物体検知部１２３により検知されているために、２つの顔Ｆのそれぞれに対して探索範囲４０が設定されている。

【0076】

また、探索範囲４０は、過去の物体の動きを示す軌跡情報に基づいて変更されてよい。軌跡情報は、例えば、過去の複数フレームにおける同一物体のバウンディングボックスＢの中心位置を結んで得ることができる。図１１は、軌跡情報に基づく探索範囲４０の変更を説明するための図である。図１１に示す例では、軌跡情報から物体（顔）の移動方向が太矢印Ｘの方向であることが予想されている。この軌跡情報に基づく予想を考慮して、探索範囲４０は、バウンディングボックスＢを基準として太矢印Ｘの方向に偏って広く設定されている。太矢印Ｘと逆方向には、物体が移動する可能性が低いと考えられるためである。矢印Ｘの方向が変わった場合に、探索範囲４０は変更される。

【0077】

このように、探索範囲４０を一律に設定するのではなく、軌跡情報に応じて変更する構成とすると、物体の追跡のために物体を探索する範囲を物体が存在する可能性が高い範囲に絞ることができ、追跡処理の処理速度を速くすることができる。なお、図１１に示す例では、軌跡情報から移動方向の傾向のみを取り出して探索範囲４０を変更する構成としたが、これは例示にすぎない。例えば、軌跡情報から移動方向に加えて移動速度の傾向も取り出し、移動方向に移動速度も加味して探索範囲４０が設定されてもよい。

【0078】

トラッキング部１２４は、例えばテンプレートマッチングにより物体の追跡を行う。トラッキング部１２４は、例えば、１フレーム前の物体検知部１２３による物体検知の結果から、物体のテンプレート画像を得る。そして、トラッキング部１２４は、探索範囲４０内において、テンプレート画像と同じパターンの画像を探索する。トラッキング部１２４は、類似度が閾値以上のパターンを見つけると、当該領域を追跡対象の物体として検知する。例えば、トラッキング部１２４は、物体の追跡に成功すると、物体検知部１２３と同様に、検知した物体の位置にバウンディングボックスＢを施す。

【0079】

なお、トラッキング部１２４は、軌跡情報に応じてテンプレート画像の拡縮を行ってテンプレートマッチングを行ってもよい。例えば、軌跡情報から物体がカメラ２に接近していると判断される場合、テンプレート画像は拡大される。一方、軌跡情報から物体がカメラ２から離れていると判断される場合、テンプレート画像は縮小される。また、トラッキング部１２４は、上述のテンプレートマッチングを用いた方法ではなく、例えば、ＫＣＦ（Kernelized Correlation Filter）等の他のトラッキング手法により探索範囲４０内の物体の追跡を行ってよい。

【0080】

（２－２．画像処理装置の動作例）
図１２は、第２実施形態に係る画像処理装置１Ａの動作例を説明するための図である。図１２において、破線矢印で示す「Ｉｎ」は、画像処理装置１Ａがカメラ２から撮影画像３を取得するタイミングを示す。図１２に示すように、撮影画像３を取得するタイミングは、所定の周期（例えば１／３０秒）で発生する。

【0081】

図１２において、太矢印は処理が実行されている状態を示す。図１２に示す例では、最初の撮影画像３が取得されると、物体検知部１２３による物体の検知処理が行われる。詳細には、第１実施形態の場合と同様に（図５参照）、物体検知部１２３の処理が行われる前に、設定部１２１および変換部１２２による処理が実行される。このために、図１２において、物体検知部１２３の処理が実行されている状態を示す太矢印は、設定部１２１および変換部１２２による処理も含む。

【0082】

物体検知部１２３による処理が実行されている間は、トラッキング部１２４による処理は実行されない。物体検知部１２３による物体検知が完了すると、トラッキング部１２４による処理が実行される。トラッキング部１２４による処理が実行されている間には、物体検知部１２３による処理が実行されない。すなわち、物体検知部１２３と、トラッキング部１２４とは、交替で動作する。

【0083】

なお、本実施形態では、１フレームごとに、物体検知部１２３とトラッキング部１２４とが交互に処理を行う。ただし、これは例示である。例えば、物体検知部１２３によるフレーム画像の処理が完了したのち、後続する２つ以上のフレーム画像に対してトラッキング部１２４による処理が行われてもよい。この場合には、トラッキング部１２４は、１フレーム前のフレーム画像３に対するトラッキング部１２４の追跡結果に基づいて現在のフレーム画像３に対して探索範囲を設定し、探索範囲内において物体の追跡を行うことがある。

【0084】

ディープラーニングによる学習を行った学習済みモデルを用いた物体の検知は、処理負担が大きく、処理に時間を要することがある。物体の検知精度を高めようとすると、処理時間が長くなる傾向がある。図１２に示す例では、物体検知部１２３の処理時間が長く、次のフレーム画像３を取得するまでに、現在のフレーム画像３における物体検知部１２３による物体の検知処理は完了しない。

【0085】

ただし、物体検知部１２３による物体の検知処理が完了すると、次のフレーム画像３に対して、処理速度が速いトラッキング部１２４による物体の追跡処理が行われる。トラッキング部１２４による処理は、その次のフレーム画像３が取得されるまでに完了する。すなわち、２フレーム単位でみると、フレームごとの物体の検知が次のフレームが取得されるまでに完了する。トラッキング部１２４による処理が完了すると、再び、物体検知部１２３による処理が行われ、物体検知部１２３による処理と、トラッキング部１２４による処理とが交互に繰り返される。

【0086】

本実施形態によれば、検知精度の向上を狙った物体検知部１２３による処理が行われた後に、処理速度の向上を狙ったトラッキング部１２４による処理が行われ、当該交互処理が繰り返される。このために、本実施形態によれば、物体の検知精度を高めつつ、物体検知のリアルタイム性の低下を抑制することができる。

【0087】

＜３．留意事項等＞
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。

【符号の説明】

【0088】

１、１Ａ・・・画像処理装置
３１・・・検知対象領域
４０・・・探索範囲
１２１・・・設定部
１２２・・・変換部
１２３・・・物体検知部
１２４・・・トラッキング部

【図1】