(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-26
(45)【発行日】2024-05-09
(54)【発明の名称】画像処理装置、画像処理方法、プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240430BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2021074870
(22)【出願日】2021-04-27
【審査請求日】2023-03-28
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】沈 陽太
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2019-204333(JP,A)
【文献】特開2020-119250(JP,A)
【文献】特開2021-056960(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
第1のニューラルネットワークに基づき、入力画像における第1前景領域を検出する第1前景領域検出手段と、
前記入力画像のうちニューラルネットワーク以外の手法により前景領域を検出する部分領域を、第2のニューラルネットワークに基づき、特定する部分領域特定手段と、
ニューラルネットワーク以外の手法の検出結果に基づき、前記部分領域における第2前景領域を検出する第2前景領域検出手段と、
前記第1前景領域、前記部分領域、および前記第2前景領域に基づき、前記入力画像における前景領域を示す第3前景領域を出力する出力手段と、
を有することを特徴とする画像処理装置。
【請求項2】
前記部分領域は、位置ごとに前記部分領域が存在する確率が付与された確率マップであり、
前記出力手段は、前記第1前景領域が示す領域と前記第2前景領域が示す領域とを前記確率マップに応じて重み付けして統合した領域に基づき前記第3前景領域を生成する、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記第1のニューラルネットワークと前記第2のニューラルネットワークとは、互いに独立したニューラルネットワークである、
ことを特徴とする請求項1又は2に記載の画像処理装置。
【請求項4】
前記第1のニューラルネットワークと前記第2のニューラルネットワークとは、少なくとも一部を共有する、
ことを特徴とする請求項1又は2に記載の画像処理装置。
【請求項5】
前記第2のニューラルネットワークの入力層、中間層または出力層の入力として、前記第1のニューラルネットワークの入力層、中間層または出力層の出力を用いる、
ことを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記第2のニューラルネットワークは、前記第1のニューラルネットワークの検出誤差に基づき学習されている、
ことを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
【請求項7】
前記第2前景領域検出手段は、前記ニューラルネットワーク以外の手法として、前記入力画像の前記部分領域に関する空間位置情報および時間情報の少なくとも一方に基づき、ニューラルネットワーク以外の手法を選択する、
ことを特徴とする、請求項1乃至6のいずれか1項に記載の画像処理装置。
【請求項8】
前記ニューラルネットワーク以外の手法は、背景を固定する背景差分法、背景を更新する背景差分法、フレーム差分法、およびGrabCut法のうちの1つである、
ことを特徴とする請求項7に記載の画像処理装置。
【請求項9】
前記第1前景領域検出手段および前記部分領域特定手段で用いるニューラルネットワークは、複数の中間層を有するディープニューラルネットワークである、
ことを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
【請求項10】
第1のニューラルネットワークに基づき、入力画像における第1前景領域を検出するステップと、
前記入力画像のうちニューラルネットワーク以外の手法により前景領域を検出する部分領域を、第2のニューラルネットワークに基づき、特定するステップと、
ニューラルネットワーク以外の手法の検出結果に基づき、前記部分領域における第2前景領域を検出するステップと、
前記第1前景領域、前記部分領域、および前記第2前景領域に基づき、前記入力画像における前景領域を示す第3前景領域を出力するステップと、
を有することを特徴とする画像処理方法。
【請求項11】
コンピュータを、請求項1乃至9のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像から前景領域を検出する画像処理技術に関する。
【背景技術】
【0002】
撮像装置などで得られる画像において前景領域(例えば、人や車など)を検出する技術は、コンピュータビジョン分野やコンピュータグラフィックス分野において基礎的な技術となっている。例えば、車載の撮像装置で撮像して得られた撮像画像において、自車周辺に存在する車両が存在する領域を検出することで、検出した車両までの距離を監視することができる。また、複数視点画像から人や物体などの前景領域を抽出して処理することで、人物や物体などの三次元形状を生成することができる。
【0003】
近年、ディープラーニング技術の進化とハードウェアの性能向上により、ディープニューラルネットワーク(DNN:deep neural network)を用いた前景領域検出技術が注目されている。DNNは、データが入力される入力層と、入力画像の特徴を抽出して分析する複数の中間層と、検出結果を出力する出力層とから構成されている。事前に膨大な学習用データをDNNに学習させることにより、DNNを用いた前景領域検出は、従来の手法よりも高い精度と汎用性を持つことができる。
【0004】
特許文献1では、DNNの学習効率向上のため、検出対象の前景領域が関連した同種のものである2種類のDNNの学習を、2種類のDNNのそれぞれの検出結果と一方の検出結果の検出誤差とに基づいて行う方法が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、DNNには、層の数、各層を構成するニューロンの数、ニューロン間の接続関係等のDNNのネットワーク構造に依存した検出精度の限界がある。そのため、ネットワーク構造が同じDNNに対して学習を重ねても、前景領域検出の精度を改善することが困難な場合がある。
【0007】
本開示は、ニューラルネットワークを用いても、前景領域を精度よく検出することを目的とする。
【課題を解決するための手段】
【0008】
本開示の一つ態様は、画像処理装置であって、第1のニューラルネットワークに基づき、入力画像における第1前景領域を検出する第1前景領域検出手段と、前記入力画像のうちニューラルネットワーク以外の手法により前景領域を検出する部分領域を、第2のニューラルネットワークに基づき、特定する部分領域特定手段と、ニューラルネットワーク以外の手法の検出結果に基づき、前記部分領域における第2前景領域を検出する第2前景領域検出手段と、前記第1前景領域、前記部分領域、および前記第2前景領域に基づき、前記入力画像における前景領域を示す第3前景領域を出力する出力手段と、を有することを特徴とする。
【発明の効果】
【0009】
本開示により、ニューラルネットワークを用いても、前景領域を精度よく検出することができる。
【図面の簡単な説明】
【0010】
【
図3】実施形態1のディープニューラルネットワークの学習処理と推論処理を示した図
【
図4】実施形態1の領域検出装置のハードウェア構成図
【
図5】実施形態1の領域検出装置の動作を示すフローチャート
【
図7】実施形態2のディープニューラルネットワーク構造を示した図
【
図8】実施形態2の補正処理設定部の動作を示したフローチャート
【
図9】実施形態2の領域検出装置の動作を示すフローチャート
【
図10】本実施形態に係る領域検出方法を説明する図
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本開示を実施するための形態について説明する。なお、以下の実施形態は本開示を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。また、参照符号において番号の後ろに付与したアルファベットのみが異なる用語については、同一機能を持つ装置の別インスタンスを示すものとする。
【0012】
<実施形態1>
本実施形態は、入力画像からDNNを用いて前景領域を抽出し、DNNにおいて未検出または誤検出が発生する可能性のある部分領域(以降、苦手領域という)についてはDNNを含むニューラルネットワーク以外の手法を用いて前景領域を抽出する。
【0013】
図10に、本実施形態に係る領域検出方法の概要を説明する図を示す。まず、画像1000に対する人体領域を検出対象とするDNNによる検出結果から、前景領域を白抜きして示すマスク画像1010を取得する。なお、マスク画像1010の破線で囲った領域では、前景領域の未検出および誤検出が発生している。
【0014】
本実施形態では、画像1010の取得と並行して、人体領域を検出対象とするDNNにおいて誤検出または未検出が発生する可能性のある苦手領域を検出対象とするDNNによる検出結果から、画像1020を取得する。画像1020は、苦手領域を矩形で示している。次に、入力画像1000の苦手領域部分1031、1032からDNNを用いない領域検出手法を用いて人体領域の検出を行って、マスク画像1041、1042を取得する。
【0015】
そしてマスク画像1010とマスク画像1041、1042とを組み合わせて統合することにより、マスク画像1050を生成する。マスク画像1050は、マスク画像1010の破線で囲った領域がマスク画像1041、1042で補正され、マスク画像1010よりも高精度に人体領域が検出されたマスク画像となっている。このようにして本実施形態では、DNNを用いた領域検出の検出精度を向上させることができる。
【0016】
[構成]
本実施形態について、図面を参考しながら説明する。
【0017】
図1は、本実施形態における入力装置1、領域検出装置2および出力装置3の構成図である。領域検出装置2は入力装置1と出力装置3に接続される。本実施形態の領域検出システムは、入力装置1から領域検出を行う画像を取得し、領域検出装置2が取得した画像から所定の前景領域を検出し、出力装置3に前景領域の検出結果を出力する構成をとる。
【0018】
入力装置1は、対象領域を撮像して得られた画像を出力する撮像装置としてもよいし、予め格納された画像を出力するサーバ等の情報処理装置や記憶装置としてもよい。
【0019】
領域検出装置2は、第1領域検出部100、苦手領域特定部110、第2領域検出部120、および統合部130を有し、入力装置1から取得した画像に対して領域検出を行い、検出結果を出力装置3に出力する。領域検出装置2の詳細については、
図1を参照しながら後述する。
【0020】
出力装置3は、領域検出装置2から出力された検出結果を表示するディスプレイ、または他の処理を行う任意の装置としてよい。
【0021】
第1領域検出部100は、DNNを用いて画像内の前景領域を検出し、検出結果として前景領域を示す第1前景領域情報を出力する。前景領域は、例えば、車両が走行している道路を撮像して得られた画像においては車両に対応する画像領域、スポーツ競技を撮像して得られた画像においてはボールや選手に対応する画像領域とすることができる。
【0022】
図2に、入力画像、検出された前景領域を示す画像、および苦手領域を示す画像の例を示す。
図2(a)は、入力装置1から出力され、領域検出装置2に入力される画像の例となる。
図2(b)は、第1領域検出部100による検出結果である前景領域を示す二値画像の例となる。なお、
図2(b)の第1領域検出部100の検出結果は、未検出と誤検出が発生していない例となる。
図2(c)は、苦手領域特定部110による検出結果である第1領域検出部100の苦手領域を矩形で示す二値画像の例となる。ここで苦手領域とは、第1領域検出部100が用いるDNNにおいて、検出対象である前景領域を誤検出または未検出する可能性のある部分領域である。
【0023】
次に
図3を参照しながら、DNNを用いた領域検出処理について説明する。DNNを用いた処理には、学習段階と推論段階がある。
図3(a)はDNNの学習段階の処理を示し、
図3(b)は学習済みDNNによる推論段階の処理を示す。
【0024】
DNNを構成する入力層302、中間層303A、303B、および出力層304の各層は、それぞれ重みおよびバイアスを保持し、前の層からの各入力に対し対応する重みを乗じたものの和とバイアスとに基づき出力を行う。各層の入力は、直前の層または複数前の層の出力にしてよく、他の層とは独立の入力にしてもよい。また、入力層302、中間層303A、303B、および出力層304は同じ構造であっても、異なる構造であってもよい。
【0025】
図3(a)に示す学習段階では、まず処理方向310で示すように、学習画像301をDNNの入力層302に入力し、中間層303を経て、出力層304から領域検出の推論結果を出力させる。本実施形態において、検出結果は確率マップの形式で出力されるものとする。確率マップは、学習画像301の各画素に対応する値からなり、それらの各値は、対応する画素が検出対象の領域に存在する確率を表す。確率マップ305の各値は、対応する画素に検出対象が存在する確率が高いほど1に近くなり、対応する画素に検出対象が存在する確率が低いほど0に近くなる。が、検出結果の形式は確率マップに限定されない。
【0026】
次に、損失算出部320のように、処理方向310の処理により得られた推論結果305を学習画像301に対応する領域検出における教師データとなる正解画像306と比較し、画素毎の推論結果の誤差を示す誤差マップから損失を算出する。損失算出部320が算出する損失としては、例えばクロスエントロピー誤差を用いることができるが、検出対象に応じて他の指標を用いてもよい。
【0027】
次に、損失算出部320が算出した損失に基づき、処理方向330の処理、すなわち逆伝搬法を用いた処理を行い、損失が最小になるように各層の重みおよびバイアスを更新する。上記学習段階の処理により学習されたDNNは、検出対象となる所定のオブジェクトが写った領域を検出できるようになる。
【0028】
そして、
図3(b)に示すように、推論段階では、入力画像に対して学習段階で得られた各層の重みおよびバイアスを有するDNNを用いて領域検出の推論結果、すなわち、検出対象となる所定のオブジェクトが写った領域を示す情報を出力する。
【0029】
苦手領域特定部110は、DNNを用いて、第1領域検出部100のDNNと検出対象が同じDNNにおいて誤検出または未検出が発生する可能性のある苦手領域を検出し、苦手領域情報(部分領域情報)を出力する。苦手領域特定部110で用いるDNNの構成は、第1領域検出部100と同じとするため、説明を省略する。本実施形態の苦手領域特定部110では、第1領域検出の領域検出のタスクにおいて、誤検出または未検出が発生する可能性のある部分領域特定、すなわち苦手領域特定を行う。苦手領域としては、例えば、スポーツ競技の場合では、選手が密集している領域や、館内競技やコンサートの場合では、対象を照射する照明が激しく変化する領域などが挙げられる。それ以外に、第1領域検出部100のDNNの学習画像301やネットワーク構造などの制限に起因した第1領域検出部100で誤検出または未検出が発生する可能性が高くなってしまう領域にしてもよい。なお、苦手領域特定部110のDNNは、第1領域検出部100のDNNと独立し、DNNのネットワーク構造も第1領域検出部100のDNNと苦手領域特定部110のDNNとは互いに異なっていてもよい。
【0030】
なお、第1領域検出部100のDNNと苦手領域特定部110のDNNとが、一部を共有するマルチタスクのDNNを構成するようにしてもよい。
【0031】
苦手領域特定部110のDNNを学習させるための正解画像は、第1領域検出部100のDNNの学習段階の処理で、損失算出部320で損失を算出するために生成した検出誤差を表す誤差マップにしてよい。なお、苦手領域特定部110のための正解画像として用いる誤差マップは、第1領域検出部100のDNNと検出対象は同じであるが、第1領域検出部100のDNNと独立した別のDNNに関する誤差マップを用いてもよい。このとき、第1領域検出部100のDNNと別のDNNとは、同程度の学習がなされていることが望ましい。
【0032】
本実施形態において、苦手領域特定部110の検出結果は、苦手領域を矩形で示し、各矩形に対して苦手領域が存在する確率を付与した画像として出力される。
図2(c)に、苦手領域特定部110の検出結果として苦手領域を示す二値画像の例を示す。この例では、ボールの領域と、背景が大きく変わる境界付近の領域とを苦手領域と推論している。なお、苦手領域特定部110の推論結果はこのような具体例に限定されない。
【0033】
第2領域検出部120は、入力画像の苦手領域特定部110で検出された苦手領域に対し、ニューラルネットワーク以外の手法で、第1領域検出部100で検出対象とした前景領域と同じ前景領域を検出対象として領域検出を行う。そして第2領域検出部は、検出結果として、苦手領域内の前景領域を示す第2前景領域情報を出力する。例えば、事前に取得した、入力装置1から入力される画像の背景画像を用いた背景差分法で前景領域を検出してもよい。
【0034】
統合部130は、第1領域検出部100で検出した前景領域と第2領域検出部120で検出した前景領域とを統合し、前景領域の統合結果を出力する。統合部130は、第1領域検出部100で検出した前景領域の苦手領域を第2領域検出部120で検出した前景領域で補正する。統合方法は、第1領域検出部100の検出結果と第2領域検出部120の検出結果の論理和にしてもよい。また、苦手領域特定部110の検出結果で各矩形に付与された確率を用いて重み付けて統合してもよい。
【0035】
次に、領域検出装置2のハードウェア構成について、
図4を用いて説明する。領域検出装置2は、GPU(Graphics Processing Unit)410、CPU(Central Processing Unit)411を含む画像処理を行うための演算部を有する。また、領域検出装置2は、ROM(Read Only Memory)412、RAM(Random access memory)413、補助記憶装置414を含む記憶部を有する。さらに領域検出装置2は、表示部415、操作部416、通信I/F417、及びバス418を有する。
【0036】
CPU411は、ROM412やRAM413に格納されているコンピュータプログラムやデータを用いて領域検出装置2の全体を制御することで、
図1に示す領域検出装置2の各機能を実現する。またCPU411は、表示部415を制御する表示制御部、及び操作部416を制御する操作制御部としても動作する。
【0037】
GPU410は、データをより多く並列処理することで効率的な演算を行うことができる。ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、GPU410で処理を行うことが有効である。そこで実施形態1では、第1領域検出部100と苦手領域特定部110とによる領域検出の処理には、CPU411に加えてGPU410を用いる。具体的には、第1領域検出部100と苦手領域特定部110とによる領域検出を行う推論プログラムを実行する場合、CPU411およびGPU410の一方みにより演算を行ってもよいし、CPU411とGPU410が協働して演算を行ってもよい。
【0038】
なお、領域検出装置2がCPU411とは異なる1又は複数の専用のハードウェアを有し、CPU411による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。
【0039】
ROM412は、変更を必要としないプログラムなどを格納する。RAM413は、補助記憶装置414から供給されるプログラムやデータ、及び通信I/F417を介して外部から供給されるデータなどを一時記憶する。補助記憶装置414は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。
【0040】
表示部415は、例えば液晶ディスプレイやLED等で構成され、ユーザが領域検出装置2を操作するためのGUI(Graphical User Interface)などを表示する。操作部416は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受け付けて各種の指示をCPU411に入力する。
【0041】
通信I/F417は、領域検出装置2の外部の装置との通信に用いられる。例えば、領域検出装置2が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F417に接続される。領域検出装置2が外部の装置と無線通信する機能を有する場合には、通信I/F417はアンテナを備える。バス418は、領域検出装置2の各部をつないで情報を伝達する。
【0042】
本実施形態では、表示部415と操作部416が領域検出装置2の内部に存在するものとするが、表示部415と操作部416との少なくとも一方が領域検出装置2の外部に別の装置として存在していてもよい。
【0043】
[動作フロー]
図5のフローチャートを用いて実施形態1の処理の流れを説明する。
【0044】
S510において、第1領域検出部100、苦手領域特定部110、および第2領域検出部120が、入力装置1から入力画像を読み込む。
【0045】
S520において、第1領域検出部100が、DNNを用いて入力画像における所定の前景領域を検出する。本実施形態では前述の通り、第1領域検出部100ではDNNを用いた手法で前景領域を抽出する。DNNの各層で用いる重みおよびバイアスは、事前に学習させたものでよく、さらに領域検索を行う度に検索結果に基づき更新するようにしてもよい。前景領域の検出結果は、前景を画素値1、背景を画素値0とする二値化マスクなどの二値データ、または確率マップなどの多値データとすることができる。
【0046】
S530において、苦手領域特定部110が、第1領域検出部100のDNNと検出対象が同じDNNを用いて入力画像に対して領域検出を行ったときに誤検出と未検出が発生する可能性のある苦手領域を、DNNを用いて検出する。苦手領域特定部110のDNNの各層で用いる重みおよびバイアスも、第1領域検出部100と同様に事前に学習させたものでよく、さらに領域検索を行う度に検索結果に基づき更新するようにしてもよい。入力画像における苦手領域を示す各矩形に対して所定の閾値以上の値を設定することで、第2領域検出部120の検出対象となる領域を設定することができる。この場合、第2領域検出部120は、所定の閾値以上の領域についてのみ領域検出を行う。
【0047】
S540において、第2領域検出部120が、入力装置1から読み込んだ入力画像のうち、苦手領域特定部110で検出された苦手領域において、ニューラルネットワーク以外の手法で第1領域検出部100と同じ検出対象である前景領域の検出を行う。この前景領域の検出結果は、例えば第1領域検出部100の検出結果と同様に、確率マップなどの多値データ、または前景を画素値1、背景を画素値0とする二値化マスクなどの二値データとすることができる。
【0048】
S550において、統合部130が、第1領域検出部100の検出結果と第2領域検出部120の検出結果を統合する。統合方法は、前述のように、両者の論理和を取ることにしてよい。また、例えば、式1のように、苦手領域特定部110の検出結果の確率を用いて重み付けて統合してもよい。
【0049】
【0050】
ここで、Ioutは出力する統合された前景領域を示すマスクを示す。p110は苦手領域特定部110によって検出された苦手領域に付与された確率、I120は第2領域検出部120によって検出された前景領域を示すマスク、I110は第1領域検出部100によって検出された前景領域を示すマスクを示す。I110とI120について、出力に応じて事前に二値化してもよい。統合後の検出結果は出力装置3により出力される。
【0051】
以上の説明の通り、本実施形態により、入力画像に対し、より高精度で安定的な領域検出を行うことができる。さらに、DNNにおいて未検出または誤検出が発生する可能性のある部分領域を推測でき、補正することを可能にする。
【0052】
なお、本実施形態の説明は、入力画像として静止画を想定した説明となっているが、本実施形態は入力画像が動画であっても適用可能である。入力画像が動画である場合、第1領域検出部100、苦手領域特定部110、第2領域検出部120、および統合部130は、動画をタイムコードなどの時間情報に従ってフレーム毎に処理してもよい。
【0053】
<実施形態2>
図6は、本実施形態における入力装置1、領域検出装置2および出力装置3の構成図である。実施形態2は、苦手領域特定部160および補正処理設定部140が実施形態1との主な変更点となる。また実施形態2は、
図4で示した実施形態1と同じ領域検出装置2のハードウェア構成を有する。
【0054】
[構成]
苦手領域特定部160は、入力装置1から入力画像が入力されるのに加えて、第1領域検出部100の入力層や中間層のネットワーク構造に関する情報を入力する。苦手領域特定部160のDNNは、第1領域検出部100とDNNの一部を共有する、例えば
図7(a)に示すようなマルチタスクのDNNにしてよい。
【0055】
図7(a)に示す苦手領域特定部160は、第1領域検出部100におけるDNNの中間層303Aから分岐した出力を、複数の中間層313A、313B、出力層314で処理し、第1領域検出部100におけるDNNの苦手領域の検出結果318を出力する。
【0056】
第1領域検出部100の学習は、第1領域検出部100の推論結果と正解画像との誤差マップから算出した損失を用いて、第1領域検出部100の入力層302、中間層303A、303B、および出力層304の重みおよびバイアスを更新する。
【0057】
苦手領域特定部160の学習は、苦手領域特定部160の推論結果と正解画像との誤差マップから算出した損失を用いて、苦手領域特定部160の中間層313A、313B、および出力層314の重みおよびバイアスを更新する。なお、苦手領域特定部160の学習は、苦手領域特定部160の推論結果と正解画像と誤差マップから算出した損失で第1領域検出部100の分岐前で共通する入力層302と中間層303Aの重みおよびバイアスを更新してもよい。
【0058】
苦手領域特定部160のもう一例として、
図7(b)に示すようなDNNとすることができる。
図7(b)に示す苦手領域特定部160DNNでは、第1領域検出部100の入力層302、中間層303A、303B、および出力層304の出力を対応する各層の入力の一部とし、第1領域検出部100の各層をネットワーク構造に組み込む。学習時は、同様に、苦手領域特定部160のDNNの損失は第1領域検出部100のDNNの重みおよびバイアスの更新に使用してもよい。
【0059】
なお、苦手領域特定部160のDNNを実施形態1と同様に第1領域検出部100のDNNと独立したものとしてもよい。
【0060】
補正処理設定部140は、入力装置1からの入力画像に基づき、第1領域検出部100と苦手領域特定部160の検出領域の特徴を分析し、特徴に応じて、第2領域検出部150の補正処理を決める。この検出領域の特徴は、入力画像の空間位置情報と時間情報とを用いて抽出する。補正処理設定部140は、例えばスポーツ球技の動画を処理する場合、
図8に示すようなフローに基づき、ニューラルネットワーク以外の領域検出手法の選択を行う。本実施形態はニューラルネットワーク以外の領域検出手法として、背景を固定する背景差分法(S840)、背景を順次更新する背景差分法(S850)、フレーム差分法(S860)、およびGrabCut法(S870)の4つの手法を用意している。これらの領域検出手法には、例えばそれぞれ下記のような長所と短所が存在する。
【0061】
背景を固定する背景差分法(S840)は、背景に動的なもの、例えば日照変化による影、について処理できないため、背景が変化する画像において前景領域を検出するには不向きな手法である。
【0062】
背景を更新する背景差分法(S850)は、一定範囲内の背景変化に対応できるが、電子看板や変化が大きい人工照明など、背景の変化が急な画像において前景領域を検出するには不向きな手法である。
【0063】
フレーム差分法(S860)は、背景領域に変動があっても前景領域の検出が可能であるが、静止または移動の遅い前景領域の検出には不向きな手法である。
【0064】
GrabCut法(S870)は、静止画で処理できるため、上記3つの手法に存在する短所はないが、背景領域と色が近い前景領域を検出するには不向きであり、更に手動で検出する前景領域を選定する必要がある点が短所となる。
【0065】
補正処理設定部140は、第1領域検出部100で検出された前景領域、入力画像の苦手領域特定部110で検出された苦手領域を分析し、苦手領域に応じて4つの領域検出手法から選択する。ただし、補正処理設定部140はこのような具体例に限定されない。
【0066】
S810で、補正処理設定部140が、入力画像の背景領域の時間変化を確認し、背景が変化するか否かを判定する。入力画像の背景に変化がないと判定した場合は、補正処理設定部140は第2領域検出部150に背景を固定する背景差分法(S840)を設定する。入力画像の背景に変化があると判定した場合は、S820に移行する。
【0067】
S820で、補正処理設定部140が、背景領域の変化量を算出し、算出した背景領域の変化量が予め設定した所定の閾値より低いか否かを判定する。背景領域の変化量が所定の閾値より低い場合は、補正処理設定部140は背景を更新する背景差分法(S850)を第2領域検出部150に設定する。背景領域の変化量が閾値以上である場合は、S830に移行する。
【0068】
S830で、補正処理設定部140が、入力画像の前景領域に対して画像認識を行う。前景領域の画像認識の結果、前景領域に球技で使用される動きの速いボールなどに対応する領域が含まれると判定した場合は、フレーム差分法(S860)を第2領域検出部150に設定する。前景領域に人に対応する領域が含まれると判定した場合は、GrabCut法(S870)を第2領域検出部150に設定する。
【0069】
[動作フロー]
図9のフローチャートを用いて実施形態2の処理の流れを説明する。実施形態2の動作フローと実施形態1の動作フローの違いとして、S530とS540との間にS910が存在する。
【0070】
S910は、補正処理設定部140が、入力装置1から取得した入力画像、第1領域検出部100の検出結果、苦手領域特定部160の検出結果を用いて、苦手領域について領域検出するための手法を上述した
図8に示した方法で選択する。
【0071】
本実施形態により、入力画像に対し、より高精度と安定の領域検出を行うことができる。なお、DNNにおいて未検出または誤検出の発生する可能性のある部分領域を予測し、補正することを可能にする。さらに、第1領域検出部100の各層の出力を苦手領域特定部160のDNNの各層に入力することで、苦手領域特定部160で検出された苦手領域における第1領域検出部100の未検出または誤検出の発生確率は、実施形態1より高い。また、苦手領域特定部160で苦手領域とされなかった領域における第1領域検出部100の未検出または誤検出の発生確率は、実施形態1より低い。
【0072】
なお、実施形態1、2では、第1領域検出部100、苦手領域特定部110、160においてDNNを用いて領域検索を行う構成としたが、DNNに限定されず他のニューラルネットワークを用いてもよい。
【0073】
(その他の実施形態)
実施形態1と実施形態2は、スポーツ競技を用いた場合を説明したが、本開示はその限りではない。例えば、監視カメラの撮像画像における所定のオブジェクトに対応する領域の自動追尾や、車載カメラの撮像画像における車両認識などにも適応できる。
【0074】
(その他の実施例)
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0075】
2 領域検出装置
100 第1領域検出部
110 苦手領域特定部
120 第2領域検出部
130 統合部