(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-20
(45)【発行日】2023-03-29
(54)【発明の名称】画像処理装置、画像処理方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230322BHJP
【FI】
G06T7/00 660Z
(21)【出願番号】P 2021505596
(86)(22)【出願日】2020-02-06
(86)【国際出願番号】 JP2020004495
(87)【国際公開番号】W WO2020184006
(87)【国際公開日】2020-09-17
【審査請求日】2021-07-28
(31)【優先権主張番号】P 2019044273
(32)【優先日】2019-03-11
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000232092
【氏名又は名称】NECソリューションイノベータ株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】石寺 永記
【審査官】小太刀 慶明
(56)【参考文献】
【文献】特開2017-027197(JP,A)
【文献】特開2000-293687(JP,A)
【文献】特開2015-082245(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
撮像装置により撮像された第1画像を入力する入力手段と、
学習済みの学習モデルに基づいて、前記第1画像のうち、複数の人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される画素の集まりである第1領域を複数抽出し、前記抽出された複数の第1領域が互いに区別可能な態様で含まれる第2画像を生成する生成手段と、を備え、
前記生成手段は、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第2領域、及び前記境界線よりも前記撮像装置からの距離が長い第3領域のうちの少なくとも1つの領域を抽出し、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を含む前記第2画像を生成し、
前記第1領域と、前記第2領域及び前記第3領域の少なくとも1つの領域とに基づいて、前記第1画像に含まれる人物の前後関係を決定する決定手段を備える、画像処理装置。
【請求項2】
前記決定手段は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々の下端線、上端線、及び前記特定された人物領域の各々に含まれる画素数のうちの少なくとも1つに基づいて、前記第1画像に含まれる人物の前後関係を決定する、請求項
1に記載の画像処理装置。
【請求項3】
前記決定手段は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々について、前記第2領域及び前記第3領域のうちの少なくとも1つの領域に基づいて、隣接する人物領域との前後関係を決定し、各人物領域についての前記隣接する人物領域との前後関係に基づいて、前記第1画像に含まれる人物の前後関係を決定する、請求項
1又は
2に記載の画像処理装置。
【請求項4】
前記決定手段は、前記特定された人物領域の各々と、前記隣接する人物領域との間に含まれる前記第2領域及び前記第3領域のうちの少なくとも1つの領域との距離に基づいて、前記特定された各人物領域の人物と、前記隣接する人物領域の人物との前後関係を決定する、請求項
3に記載の画像処理装置。
【請求項5】
前記学習モデルは、前記推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルであり、
前記生成手段は、前記出力された領域パターンに基づいて、前記推定領域から、前記第1領域と、前記第2領域及び前記第3領域のうちの少なくとも1つの領域と、を抽出する、請求項
1~
4のいずれか1項に記載の画像処理装置。
【請求項6】
前記複数の領域パターンは、前記第1領域を抽出するための第1パターンと、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を抽出するための複数の第2パターンとを含む、請求項
5に記載の画像処理装置。
【請求項7】
前記複数の第2パターンは、前記撮像装置との距離の勾配方向を示す奥行勾配方向がそれぞれ異なるパターンである、請求項
6に記載の画像処理装置。
【請求項8】
撮像装置により撮像された第1画像を入力することと、
学習済みの学習モデルに基づいて、前記第1画像のうち、複数の人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される画像の集まりである第1領域を抽出し、前記抽出された複数の第1領域が互いに区別可能な態様で含まれる第2画像を生成することと、を含
み、
前記第2画像の生成において、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第2領域、及び前記境界線よりも前記撮像装置からの距離が長い第3領域のうちの少なくとも1つの領域を抽出し、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を含む前記第2画像を生成し、
前記第1領域と、前記第2領域及び前記第3領域の少なくとも1つの領域とに基づいて、前記第1画像に含まれる人物の前後関係を決定することを含む、画像処理方法。
【請求項9】
撮像装置により撮像された第1画像を入力することと、
学習済みの学習モデルに基づいて、前記第1画像のうち、複数の人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される画像の集まりである第1領域を抽出し、前記抽出された複数の第1領域が互いに区別可能な態様で含まれる第2画像を生成することと、をコンピュータに実行させ
、
前記第2画像の生成において、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第2領域、及び前記境界線よりも前記撮像装置からの距離が長い第3領域のうちの少なくとも1つの領域を抽出し、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を含む前記第2画像を生成し、
前記第1領域と、前記第2領域及び前記第3領域の少なくとも1つの領域とに基づいて、前記第1画像に含まれる人物の前後関係を決定すること、を前記コンピュータに実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理装置、画像処理方法及びプログラムに関する。
【背景技術】
【0002】
所定の領域を監視する監視装置の一つとして、カメラで撮像した画像(動画像を含む)から人物等の移動物体を検出して追跡する画像処理を行う装置が知られている(例えば、特許文献1)。
【0003】
特許文献1には、過去の画像から検出された人物の位置に基づいて、現在の処理対象の画像において複数の人物の重なり領域を検出し、最前の人物を判断することが開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
画像において、複数の人物の重なり領域が存在する場合、重なっている人物の人物領域を正確に特定する必要がある。特許文献1では、人物の位置を推定する処理を行うことが開示されているが、重なっている人物の人物領域を特定することが開示されていない。
【0006】
本開示の目的は、このような課題を解決するためになされたものであり、画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供することである。
【課題を解決するための手段】
【0007】
本開示にかかる画像処理装置は、
撮像装置により撮像された第1画像を入力する入力部と、
学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成する生成部と、を備える画像処理装置である。
【0008】
本開示にかかる画像処理方法は、
撮像装置により撮像された第1画像を入力することと、
学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、を含む画像処理方法である。
【0009】
本開示にかかるプログラムは、
撮像装置により撮像された第1画像を入力することと、
学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、をコンピュータに実行させるプログラムである。
【発明の効果】
【0010】
本開示によれば、画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】実施の形態1にかかる画像処理装置の構成例を示す図である。
【
図2】実施の形態2にかかる画像処理装置の構成例を示す図である。
【
図4】等距離領域を含む画像の一例を示す図である。
【
図17】実施の形態2にかかる学習装置の構成例を示す図である。
【
図18】実施の形態2にかかる画像処理装置の動作例を説明する図である。
【
図19】実施の形態2にかかる学習装置の動作例を示す図である。
【
図20】本開示の各実施の形態にかかる画像処理装置等を実現可能な、コンピュータ(情報処理装置)のハードウェア構成を例示するブロック図である。
【発明を実施するための形態】
【0012】
(実施の形態1)
以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態1にかかる画像処理装置の構成例を示す図である。画像処理装置1は、例えば、サーバ装置、パーソナルコンピュータ装置等であってもよい。
【0013】
画像処理装置1は、入力部2と、生成部3とを備える。
入力部2は、撮像装置により撮像された第1画像を入力する。撮像装置は、例えば、監視カメラ、定点カメラ、デジタルカメラ等であってもよい。
【0014】
生成部3は、学習済みの学習モデルに基づいて、第1画像のうち、人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される第1領域を抽出し、第1領域を含む第2画像を生成する。
【0015】
第1画像において、複数の人物が重なる領域が含まれている場合、重なっている人物の人物領域は、撮像装置からの距離が異なると推定される。生成部3は、人物が含まれると推定される推定領域から、撮像装置からの距離が等しい第1領域を抽出することにより、抽出された第1領域を第1画像に含まれる各人物の人物領域と特定することが可能となる。したがって、画像処理装置1によれば、画像に含まれる人物の人物領域を精度良く特定することが可能となる。
【0016】
(実施の形態2)
続いて、実施の形態2について説明する。実施の形態2は、実施の形態1を詳細にした実施の形態である。
【0017】
<画像処理装置の構成例>
図2を用いて、実施の形態2にかかる画像処理装置10について説明する。
図2は、実施の形態2にかかる画像処理装置の構成例を示す図である。画像処理装置10は、入力部11と、データ記憶部12と、生成部13と、モデル記憶部14と、決定部15とを備える。
【0018】
入力部11は、撮像装置により撮像された画像を入力し、入力された画像をデータ記憶部12に記憶する。入力部11は、記録媒体に記憶された画像を入力してもよい。もしくは、入力部11は、画像処理装置10に接続された外部のパーソナルコンピュータ装置又はサーバ装置等から、撮像装置により撮像された画像を入力してもよい。
【0019】
入力部11に入力される画像は、例えば、監視カメラ、定点カメラ、デジタルカメラ等の撮像装置により撮像された画像であってもよい。なお、以降の説明では、入力部11は、監視カメラにより撮像された画像を、監視カメラに接続されたサーバ装置から入力することとして説明する。また、以降の説明では、入力部11に入力される画像を入力画像と称して記載する。
【0020】
ここで、
図3を用いて、入力画像の一例について説明する。
図3は、入力画像の一例を示す図である。入力部11に入力される画像(入力画像)は、監視カメラにより撮像された画像である。
図3に示すように、入力画像には複数の人物が含まれており、人物が重なって撮像された領域が含まれる。
【0021】
図2に戻り、データ記憶部12について説明する。
データ記憶部12は、入力画像を記憶する。また、データ記憶部12は、入力部11に入力された画像の背景画像を記憶する。なお、背景画像も、入力部11に入力され、入力部11が背景画像をデータ記憶部12に記憶するようにしてもよい。データ記憶部12は、生成部13が生成する画像も記憶する。
【0022】
生成部13は、後述するモデル記憶部14に記憶された学習済みの学習モデルに基づいて、入力画像のうち、人物が含まれると推定される推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部13は、等距離領域を含む画像を生成し、生成した画像をデータ記憶部12に記憶する。
【0023】
生成部13は、背景画像と、入力画像とをデータ記憶部12から取得する。生成部13は、背景画像と入力画像とを用いて、例えば、背景差分法(背景差分処理)により、入力画像のうち、人物が含まれると推定される領域を示す推定領域を推定する。
【0024】
生成部13は、モデル記憶部14に記憶された学習済みの学習モデルを取得する。生成部13は、取得した学習モデルに基づいて、推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部13は、入力画像を学習モデルに入力し、等距離領域を抽出する。生成部13は、抽出された等距離領域を含む画像を生成して、データ記憶部12に記憶する。
【0025】
ここで、
図4を用いて、生成部13が生成する等距離領域を含む画像の一例について説明する。
図4は、等距離領域を含む画像の一例を示す図である。
図4において、白色の領域は、生成部13が抽出した等距離領域である。領域U1は、等距離領域を含む画像の一部の領域であり、領域U1のうち右半分の領域は、入力画像において人物が重なっている領域である。
【0026】
領域U1には、11人の人物が含まれている。領域U1において、隣り合う等距離領域の間には黒線(黒の領域)が含まれており、当該黒線(黒の領域)により、等距離領域同士が区切られている。そのため、画像処理装置10は、白色の等距離領域から、予め定められた所定の閾値以上の面積を持つ連結領域(等距離領域)のみを取り出すことで、領域U1には、11人の人物が含まれていることを特定することができる。なお、領域U1以外の他の領域についても、同様であるため、画像処理装置10は、画像に含まれる人物の人物領域を精度良く特定することができる。
【0027】
図2に戻り、生成部13の説明を続ける。
生成部13は、取得した学習モデルに基づいて、人物が含まれると推定される推定領域から、監視カメラとの距離が異なる境界線よりも撮像装置からの距離が短い領域を示す手前領域、及び境界線よりも撮像装置からの距離が長い領域を示す奥領域を抽出する。生成部13は、入力画像を学習モデルに入力し、推定領域から、手前領域及び奥領域を抽出する。
【0028】
また、生成部13は、人物が含まれると推定される推定領域から、監視カメラとの距離が異なる境界線も抽出する。なお、生成部13は、監視カメラとの距離が異なる境界線を抽出しなくてもよい。
【0029】
具体的には、生成部13は、学習モデルに基づいて、入力画像のうち、等距離領域の周辺領域から、境界線と、手前領域と、奥領域とを抽出する。等距離領域の周辺領域は、
図4の領域U1のうち、等距離領域同士を区切っている黒線(黒の領域)である。周辺領域は、
図4の領域U1のうち、隣り合う等距離領域との間に含まれる黒線(黒の領域)であるとも言える。
【0030】
生成部13は、境界線、手前領域及び奥領域を抽出すると、データ記憶部12に記憶されている、等距離領域を含む画像と、境界線、手前領域及び奥領域とを合成して、合成された画像を生成する。生成部13は、生成した画像をデータ記憶部12に記憶する。なお、学習モデル、及び生成部13が各領域を抽出し、抽出された各領域を含む画像を生成する生成処理について後述する。また、以降の説明では、等距離領域を含む画像と、等距離領域、境界線、手前領域及び奥領域が合成された画像とを区別するために、等距離領域を含む画像を等距離画像とし、合成された画像を合成画像と称して記載する。
【0031】
ここで、
図5を用いて、生成部13が生成する合成画像の一例について説明する。
図5は、合成画像の一例を示す図である。
図5について、領域U2を用いて説明する。領域U2は、
図4の領域U1の一部の領域であり、2人の人物が重なる領域である。
【0032】
領域U2には、一点鎖線L1、点線L2及び実線L3が記載されている。一点鎖線L1は、生成部13が生成した等距離領域の境界を表す線である。一点鎖線L1の内側の領域(点線L2の方向と逆側の領域)は、等距離領域である。点線L2は、生成部13が抽出した境界線を表す線である。一点鎖線L1と点線L2との間の領域は、生成部13が抽出した手前領域である。実線L3は、奥領域の境界を表す線であり、点線L2と実線L3との間の領域は、奥領域である。
【0033】
別の観点で説明をすると、領域U2は、色の濃淡により、各領域が分かるように示されており、白い領域(点線L2と実線L3との間の領域)は奥領域であり、黒い領域(一点鎖線L1と点線L2との間の領域)は手前領域である。また、白と黒の間のグレーの領域(一点鎖線L1から点線L2の方向と逆側の領域)は等距離領域である。このように、生成部13は、等距離領域の周辺領域から境界線、手前領域及び奥領域を抽出して、抽出した境界線、手前領域及び奥領域と、等距離画像とを合成して合成画像を生成する。
【0034】
図2に戻り、モデル記憶部14について説明する。
モデル記憶部14は、生成部13が用いる学習済みの学習モデルを記憶する。モデル記憶部14に記憶される学習モデルは、後述する学習装置20により学習された学習モデルである。学習モデルは、推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルである。所定の画素ブロックは、例えば、15×15のパッチ画像として切り出された画素ブロック(画素群)である。なお、上記の画素ブロックは一例であり、3×3~150×150の画素ブロックの中から任意に選択することができる。
【0035】
学習モデルは、例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)であり、入力層と、多層の隠れ層と、出力層とを含む。入力層は、例えば、入力画像がRGB(Red Green Blue)画像である場合、R、G、Bのチャネル別にパッチ画像のサイズを乗じた値とすることができる。また、学習モデルは、3層の隠れ層で構成し、活性化関数としてReLU関数を用いて構成してもよい。学習モデルは、学習装置20において深層学習(Deep learning)により学習され、各層に適用される重み及び閾値を含むパラメータが学習される。なお、学習モデルは、他のアルゴリズムを用いた学習モデルであってもよい。また、上記した入力層、隠れ層、活性化関数は一例であるので、異なるように構成された学習モデルであってもよい。
【0036】
決定部15は、合成画像における等距離領域、手前領域及び奥領域の少なくとも1つの領域に基づいて、入力画像に含まれる人物の前後関係を決定する。
【0037】
決定部15は、合成画像における等距離領域に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。もしくは、決定部15は、合成画像における等距離領域を、入力画像に含まれる人物の人物領域と特定し、特定された人物領域の各々について、手前領域及び奥領域のうちの少なくとも1つの領域に基づいて、隣接する人物領域との前後関係を決定する。そして、決定部15は、決定された、各人物領域と、当該人物領域に隣接する人物領域との前後関係に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。もしくは、決定部15は、合成画像における等距離領域、手前領域及び奥領域のうちの2つ以上を組み合わせて入力領域に含まれる人物の前後関係を決定してもよい。
【0038】
本実施の形態では、決定部15は、合成画像に含まれる等距離領域、手前領域及び奥領域を用いて入力画像に含まれる人物の前後関係を決定する。なお、決定部15が行う人物の前後関係の決定処理については後述する。
【0039】
<学習モデル>
次に、モデル記憶部14に記憶された学習モデルについて説明する。上述したように、学習モデルは、推定領域に含まれる所定の画素ブロック毎に、予め定義された複数の領域パターンのうち一致する領域パターンを出力する学習モデルである。
【0040】
ここで、
図6を用いて、複数の領域パターンについて説明する。
図6は、領域パターンを説明するための図である。
図6に記載されている数字は、領域パターンの番号を示しており、数字の下に記載された図は、各領域パターンの概念図を示している。
【0041】
各領域パターンの概念図の中に含まれる実線は、撮像装置からの距離が異なる境界線を示している。F(斜線でハッチングされた領域)は手前領域を表しており、B(縦線でハッチングされた領域)は奥領域を表している。領域パターンの番号が1~8の領域パターンは、境界線と、手前領域と、奥領域との配置関係がそれぞれ異なる領域パターンであり、撮像装置からの距離(深度)の勾配を示す奥行勾配方向がそれぞれ異なる領域パターンである。換言すると、領域パターンの番号が1~8の領域パターンは、手前領域から奥領域に向けた勾配方向がそれぞれ異なる領域パターンである。また、領域パターンの番号が1~8の領域パターンは、手前領域と、奥領域と、境界線との配置パターンがそれぞれ異なる領域パターンであるとも言える。
【0042】
図6に示すように、領域パターンの番号が1~8の領域パターンは、奥行勾配方向がそれぞれ異なる8方向に対応する。なお、領域パターンの番号が1~8は、奥行勾配方向がそれぞれ異なる8方向に対応する領域パターンであるが、奥行勾配方向が8方向の間の方向を含めた16方向に対応する領域パターンを設けるようにしてもよい。
【0043】
領域パターンの番号が9の領域パターンは、撮像装置からの距離が等距離の領域を示す領域パターンであり、等距離領域を抽出する領域パターンである。
【0044】
以上のように、複数の領域パターン(パターン1~9)を定義する。そして、学習モデルは、人物が存在すると推定される推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する。
【0045】
<生成処理>
次に、
図4、
図5及び
図7~
図14を用いて、生成部13が行う各領域の抽出及び画像の生成処理について説明する。
図7~
図14は、生成処理を説明するための図である。
【0046】
生成部13は、モデル記憶部14に記憶された学習モデルを用いて入力画像のうち、人物が存在すると推定される推定領域に含まれる所定の画素ブロック毎に、処理対象画素を変更させながら複数の領域パターンのうち一致する領域パターンを出力する。生成部13は、推定領域に含まれる所定の画素ブロックに対して、出力された領域パターンを適用して等距離領域、又は境界線、手前領域及び奥領域を抽出する。
【0047】
生成部13は、学習モデルから領域パターンの番号が9の領域パターンが出力された画素ブロックに対して当該領域パターンを適用して等距離領域を抽出し、
図4に示す画像を生成する。
【0048】
生成部13は、学習モデルから領域パターンの番号が1の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、
図7に示す画像を生成する。
図7は、境界線が合成画像の左右方向であり、境界線に対して手前領域が合成画像の下側に存在し、境界線に対して奥領域が合成画像の上側に存在する領域である。つまり、生成部13は、領域パターンの番号が1に一致する領域を抽出した画像を生成する。
【0049】
生成部13は、学習モデルから領域パターンの番号が2の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、
図8に示す画像を生成する。
図8は、境界線が合成画像の左下から右上に向かう斜め方向であり、境界線に対して手前領域が合成画像の右下側に存在し、境界線に対して奥領域が合成画像の左上側に存在する領域である。つまり、生成部13は、領域パターンの番号が2に一致する領域を抽出した画像を生成する。
【0050】
生成部13は、同様に、学習モデルから領域パターンの番号が3~8の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、
図9~14に示す画像を生成する。なお、
図9~
図14は、それぞれ、領域パターンが3~8に対応する図である。
【0051】
生成部13は、各領域パターンから生成された画像を合成して、
図5に示す合成画像を生成する。このように、生成部13は、学習モデルにより出力された領域パターンの画素ブロックから等距離領域、境界線、手前領域及び奥領域を抽出して、抽出した各領域を合成して合成画像を生成する。
【0052】
<決定処理>
次に、
図15及び
図16を用いて、決定部15が行う人物の前後関係を決定する決定処理について説明する。
図15及び
図16は、決定処理を説明するための図である。
【0053】
まず、決定処理の概要について説明する。
決定部15は、合成画像に含まれる等距離領域に基づき人物領域を特定する。決定部15は、特定された人物領域の各々の下端線に基づいて入力画像に含まれる人物の前後関係を決定する。
【0054】
決定部15は、特定された各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域に基づいて、各人物領域と、隣接する人物領域との前後関係を決定する。決定部15は、特定された各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域の距離を用いて、手前領域が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する。決定部15は、奥領域が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する。
【0055】
決定部15は、各人物領域の下端線を用いて決定された人物領域の前後関係の決定処理の結果と、各人物領域について、隣接する人物領域との前後関係の決定処理の結果とを用いて、入力画像に含まれる人物の前後関係を決定する。
【0056】
次に、
図15を用いて、各人物領域の下端線及び各人物領域の画素数を用いた決定処理について説明する。
図15は、
図5の合成画像を模式化した図であり、
図4の領域U1に対応する領域を示している。実線で囲まれた領域は、等距離領域を示している。点線は、境界線を示しており、斜線でハッチングされた領域は、手前領域を示し、縦線でハッチングされた領域は、奥領域を示している。なお、
図15には、生成部13が抽出した境界線、手前領域及び奥領域のうち、等距離領域同士が隣り合う部分のみの境界線、手前領域及び奥領域を示している。
【0057】
決定部15は、合成画像に座標を設定する。決定部15は、例えば、合成画像の左下の端点を原点座標に設定し、合成画像の右方向をX軸正方向とし、合成画像の上方向をY軸正方向として設定する。決定部15は、等距離領域で囲まれた領域を人物領域として特定する。
図15に示すように、決定部15は、人物領域P1~P11と特定する。
【0058】
決定部15は、人物領域P1~P11のそれぞれに対して下端線を決定する。各人物領域の下端線のY座標が小さい場合、撮像装置に近い位置に存在する人物であると考えられる。そのため、決定部15は、下端線のY座標が小さい方から順に、撮像装置から近い位置に存在する人物の人物領域として決定する。決定部15は、決定した結果に基づいて、入力画像に含まれる人物の前後関係を決定する。
【0059】
例えば、人物領域P1の下端線のY座標がY1、人物領域P2の下端線のY座標がY2、人物領域P3の下端線のY座標がY3、人物領域P4の下端線のY座標がY4、人物領域P5の下端線のY座標がY5であるとする。また、Y1<Y2<Y3<Y4<Y5であるとする。この場合、決定部15は、人物領域P1、P2、P3、P4及びP5の順に撮像装置から近い位置に存在する人物の人物領域として決定する。決定部15は、人物領域P6~P11に対しても同様の決定処理を行う。
【0060】
人物領域P6~P11については、下端線が他の人物領域に隣接しており、他の人物領域と重なっている人物領域と判断することができる。そのため、人物領域P6~P11については、正確な前後関係を決定することができない可能性があるため、決定部15は、人物領域の下端線に基づいて、一時的に前後関係を決定する。そして、決定部15は、人物領域の下端線が、他の人物領域と重なっている人物領域について、後述する決定処理の結果を適用して、入力画像に含まれる人物の前後関係を決定する。
【0061】
なお、決定部15は、各人物領域に含まれる画素数に基づいて、撮像装置から近い位置に存在する人物の人物領域を決定し、決定した結果に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。
【0062】
各人物領域に含まれる画素数が多い場合、撮像装置に近い位置に存在する人物であると考えられる。そのため、決定部15は、各人物領域に含まれる画素数を算出して、算出された画素数が多い順に、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。
【0063】
また、決定部15は、各人物領域の下端線のY座標と、各人物領域に含まれる画素数とに対して重み付けを行ってもよい。そして、決定部15は、重み付けされた、各人物領域の下端線のY座標及び各人物領域に含まれる画素数に基づいて、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。
【0064】
また、決定部15は、人物領域の下端線が他の人物領域と隣接する人物領域に対して、人物領域の上端線に基づいて、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。
【0065】
各人物領域の下端線のY座標が大きい場合、撮像装置から遠い位置に存在する人物であると考えられる。そのため、決定部15は、人物領域の下端線が他の人物領域と隣接する人物領域に対して、上端線のY座標が大きい方から順に、撮像装置から遠い位置に存在する人物の人物領域として決定してもよい。
【0066】
次に、
図16について説明する。
図16は、
図15と同様の図であり、
図5の合成画像を模式化した図であり、
図4の領域U1に対応する領域を示している。実線で囲まれた領域は、等距離領域を示している。点線は、境界線を示しており、斜線でハッチングされた領域は、手前領域を示し、縦線でハッチングされた領域は、奥領域を示している。なお、
図15には、生成部13が抽出した境界線、手前領域及び奥領域のうち、等距離領域同士が隣り合う部分のみの境界線、手前領域及び奥領域を示している。
【0067】
決定部15は、例えば、合成画像において、ある人物領域と隣接する人物領域とについて、所定の距離未満の人物領域を隣接する人物領域として決定する。決定部15は、人物領域P3~P11を、他の人物領域と隣接している人物領域として特定する。決定部15は、他の人物領域と隣接している人物領域P3~P11の各々について、手前領域及び奥領域に基づいて、隣接する人物領域との前後関係を決定する。決定部15は、各人物領域についての隣接する人物領域との前後関係に基づいて、入力画像に含まれる人物の前後関係を決定する。
【0068】
例えば、人物領域P3と、人物領域P5とは隣接する人物領域である。人物領域P3を基準として、人物領域P5との前後関係を決定する場合、人物領域P3と人物領域P5との間の領域U3に注目する。
【0069】
領域U3には、手前領域と奥領域とが含まれている。領域U3に含まれる手前領域は、人物領域P3と隣接している。つまり、人物領域P3は、人物領域P5よりも領域U3に含まれる手前領域に距離が近い。
【0070】
一方、領域U3に含まれる奥領域は、人物領域P5と隣接している。つまり、人物領域P5は、人物領域P3よりも領域U3に含まれる奥領域に距離が近い。そのため、決定部15は、手前領域と隣接し、距離が近い人物領域P3の人物を人物領域P5の人物よりも前に位置すると決定する。また、決定部15は、奥領域と隣接し、距離が近い人物領域P5の人物を人物領域P3の人物よりも後ろに位置すると決定する。
【0071】
例えば、人物領域P3を基準として、人物領域P8との前後関係を決定する場合、人物領域P3と人物領域P8との間の手前領域は、人物領域P3と隣接し、距離が近い。人物領域P3と人物領域P8との間の奥領域は、人物領域P8と隣接し、距離が近い。そのため、決定部15は、人物領域P3の人物を人物領域P8の人物よりも前に位置し、物領域P5の人物を人物領域P3の人物よりも後ろに位置すると決定する。その他の人物領域についても同様に、決定部15は、各人物領域についての隣接する人物領域との前後関係を決定する。
【0072】
決定部15は、人物領域P1~P11の下端線から決定した前後関係の決定処理の結果と、各人物領域についての隣接する人物領域との前後関係の決定処理の結果とを用いて、人物領域P1~P11について前後関係を決定する。
【0073】
決定部15は、人物領域P1~P11について前後関係を決定すると、合成画像の下側に存在する人物領域(撮像装置から近い人物の人物領域)から順に、撮像装置からの距離の順序を示すラベル番号を設定する。決定部15は、設定したラベル番号に基づいて、入力画像に含まれる人物の前後関係を決定する。
【0074】
なお、決定部15は、人物領域P1~P11について、前後関係が正確に判定できない場合、判定出来なかった人物領域に対して前後関係が正しく判定出来なかったことを示すフラグを設定してもよい。もしくは、決定部15は、人物領域P1~P11について、前後関係が正確に判定できない場合、判定出来なかった人物領域に対して、同一のラベル番号を設定し、前後関係が正しく判定出来なかったことを示してもよい。
【0075】
<学習装置の構成例>
次に、
図17を用いて、学習装置20の構成例について説明する。
図17は、実施の形態2にかかる学習装置の構成例を示す図である。学習装置20は、未学習の学習モデルを学習して、学習済みの学習モデルを生成する。学習装置20は、入力部21と、データ記憶部22と、モデル記憶部23と、学習部24とを備える。
【0076】
入力部21は、学習用画像及び教師データのペアを学習データとして入力する。入力部21は、入力された画像をデータ記憶部22に記憶する。
【0077】
データ記憶部22は、入力部21に入力された学習データを記憶する。
モデル記憶部23は、未学習の学習モデル(学習中の学習モデルも含む)及び学習済みの学習モデルの少なくとも一方を記憶する。
【0078】
学習部24は、データ記憶部22に入力された学習データを用いて、未学習の学習モデルを学習する。学習部24は、深層学習により学習し、各層に適用される重み及び閾値を含むパラメータを学習し、更新する。学習部24は、学習が終了すると、学習済みの学習モデルを生成してモデル記憶部23に記憶する。なお、学習部24は、未学習の学習モデルを学習済みの学習モデルにより更新してもよい。なお、学習部24により生成された学習済みの学習モデルは、画像処理装置10の管理者、運用者等により、画像処理装置10のモデル記憶部14に格納される。
【0079】
<画像処理装置の動作例>
次に、
図18を用いて、画像処理装置10の動作例について説明する。
図18は、実施の形態2にかかる画像処理装置の動作例を説明する図である。
【0080】
まず、入力部11は、処理対象の画像(入力画像)を入力する(ステップS1)。入力部11は、監視カメラにより撮像された画像を、監視カメラに接続されたサーバ装置から入力し、データ記憶部12に記憶する。
【0081】
生成部13は、入力画像において、人物が含まれると推定される推定領域を推定する(ステップS2)。生成部13は、データ記憶部12から入力画像と、背景画像とを取得する。生成部13は、背景画像と入力画像とを用いて、例えば、背景差分法(背景差分処理)により、入力画像のうち、人物が含まれると推定される領域を示す推定領域を推定する。
【0082】
生成部13は、学習済みの学習モデルに基づいて、推定領域から等距離領域を抽出する(ステップS3)。生成部13は、モデル記憶部14に記憶された学習済みの学習モデルを取得する。生成部13は、取得した学習モデルに基づいて、推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部13は、抽出された等距離画像を生成する。
【0083】
生成部13は、学習済みの学習モデルに基づいて、推定領域から境界線、手前領域及び奥領域を抽出する(ステップS4)。生成部13は、学習モデルに基づいて、入力画像のうち、等距離領域の周辺領域から、境界線と、手前領域と、奥領域とを抽出する。生成部13は、境界線、手前領域及び奥領域を抽出すると、データ記憶部12に記憶されている、等距離画像と、境界線、手前領域及び奥領域とを合成して、合成画像を生成する。生成部13は、生成した合成画像をデータ記憶部12に記憶する。
【0084】
なお、ステップS3及びステップS4は、同時に実行されてもよい。モデル記憶部14に記憶された学習モデルは、推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致するパターンを出力する学習モデルである。そのため、生成部13は、学習モデルを用いることにより、等距離領域、境界線、手前領域及び奥領域を一度に抽出することができる。したがって、生成部13は、等距離領域、境界線、手前領域及び奥領域を一度に抽出して、等距離画像を生成せずに、合成画像を生成するようにしてもよい。
【0085】
決定部15は、合成画像における等距離領域を人物領域と特定し(ステップS5)、各人物領域の下端線から各人物領域の前後関係を決定する(ステップS6)。決定部15は、合成画像にXY座標系を設定する。決定部15は、各人物領域の下端線を算出し、下端線のY座標に基づいて、各人物領域の前後関係を決定する。
【0086】
決定部15は、各人物領域について、隣接する人物領域との前後関係を決定する(ステップS7)。決定部15は、合成画像において、各人物領域に対して、隣接する人物領域を決定する。決定部15は、各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域に基づいて、隣接する人物領域との前後関係を決定する。決定部15は、各人物領域について、比較対象の隣接する人物領域との間に含まれる手前領域と隣接する人物領域の人物が、他方の人物領域の人物よりも前に位置すると決定する。決定部15は、各人物領域について、比較対象の隣接する人物領域との間に含まれる奥領域と隣接する人物領域の人物が、他方の人物領域の人物よりも後ろに位置すると決定する。
【0087】
決定部15は、入力画像に含まれる人物の前後関係を決定する(ステップS8)。決定部15は、ステップS6及びS7において決定した結果に基づいて、各人物領域の前後関係を決定する。決定部15は、各人物領域の前後関係を決定すると、合成画像の下側に存在する人物領域(撮像装置から近い人物の人物領域)から順に、撮像装置からの距離の順序を示すラベル番号を設定する。決定部15は、設定したラベル番号に基づいて、入力画像に含まれる人物の前後関係を決定する。
【0088】
<学習装置の動作例>
次に、
図19を用いて、学習装置20の動作例について説明する。
図19は、実施の形態2にかかる学習装置の動作例を示す図である。
【0089】
入力部21は、学習データを入力する(ステップS11)。入力部21は、学習用画像及び教師データのペアを学習データとして入力する。入力部21は、入力された画像をデータ記憶部22に記憶する。
【0090】
学習部24は、学習済みの学習モデルを生成する(ステップS12)。学習部24は、データ記憶部22に入力された学習データを用いて、未学習の学習モデルを学習する。学習部24は、深層学習により学習し、各層に適用される重み及び閾値を含むパラメータを学習し、更新する。学習部24は、学習が終了すると、学習済みの学習モデルを生成してモデル記憶部23に記憶する。
【0091】
以上説明したように、生成部13は、入力画像において、人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される等距離領域を抽出する。入力画像において、複数の人物が重なる領域が含まれている場合、重なっている人物の人物領域は、撮像装置からの距離が異なると推定される。そのため、生成部13が等距離領域を抽出することにより、等距離領域を入力画像に含まれる各人物の人物領域と特定することが可能となる。したがって、画像処理装置10によれば、画像に含まれる人物の人物領域を精度良く特定することが可能となる。
【0092】
また、等距離領域を抽出することにより、入力画像に含まれる人物の人物領域を特定することができるので、画像処理装置10を用いることにより、入力画像に含まれる人物の人数、人物が存在する位置等を特定することが可能となる。
【0093】
生成部13は、等距離領域に加えて、推定領域から手前領域及び奥領域を抽出する。決定部15は、等距離領域に基づいて、合成画像に含まれる人物領域を特定する。決定部15は、等距離領域、手前領域及び奥領域に基づいて、合成画像に含まれる各人物領域の前後関係を決定する。そして、決定部15は、各人物領域の前後関係に基づいて、入力画像に含まれる人物の前後関係を決定する。したがって、画像処理装置10によれば、入力画像に含まれる各人物の前後関係を特定することが可能となる。
【0094】
画像処理装置10を用いることにより、入力画像に含まれる各人物の前後関係を特定することができるので、例えば、各時刻において撮像された画像を入力して、入力された画像に含まれる特定人物の位置を特定することができる。したがって、画像処理装置10を用いることにより、例えば、特定人物の追跡を行うことが可能となる。
【0095】
(変形例)
実施の形態2では、生成部13は、手前領域及び奥領域を抽出することで説明を行ったが、手前領域及び奥領域のうちのいずれか一方を抽出するようにしてもよい。この場合、決定部15は、各人物領域について、隣接する人物領域との前後関係を決定する決定処理において、抽出された手前領域又は奥領域を用いる。
【0096】
生成部13が抽出した領域が手前領域であれば、各人物領域と、比較対象の隣接する人物領域の間に含まれる手前領域と隣接する距離が近い人物領域の人物が、他方の人物領域の人物よりも前に位置すると決定する。
【0097】
生成部13が抽出した領域が奥領域であれば、各人物領域と、比較対象の隣接する人物領域の間に含まれる奥領域と隣接する距離が近い人物領域の人物が、他方の人物領域の人物よりも後ろに位置すると決定する。このようにしても、実施の形態2と同様の効果を得ることが可能となる。
【0098】
(他の実施の形態)
上述した実施の形態において説明した画像処理装置1、10及び学習装置20(以下、画像処理装置1等と称する)は、次のようなハードウェア構成を有していてもよい。
図20は、本開示の各実施の形態にかかる画像処理装置等を実現可能な、コンピュータ(情報処理装置)のハードウェア構成を例示するブロック図である。
【0099】
図20を参照すると、画像処理装置1等は、プロセッサ1201及びメモリ1202を含む。プロセッサ1201は、メモリ1202からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された画像処理装置1等の処理を行う。プロセッサ1201は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ1201は、複数のプロセッサを含んでもよい。
【0100】
メモリ1202は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1202は、プロセッサ1201から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1201は、図示されていないI/Oインターフェースを介してメモリ1202にアクセスしてもよい。
【0101】
図20の例では、メモリ1202は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1201は、これらのソフトウェアモジュール群をメモリ1202から読み出して実行することで、上述の実施形態において説明された画像処理装置1等の処理を行うことができる。
【0102】
図20を用いて説明したように、画像処理装置1等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1または複数のプログラムを実行する。
【0103】
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0104】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
【0105】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
撮像装置により撮像された第1画像を入力する入力部と、
学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成する生成部と、を備える画像処理装置。
(付記2)
前記生成部は、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第2領域、及び前記境界線よりも前記撮像装置からの距離が長い第3領域のうちの少なくとも1つの領域を抽出し、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を含む前記第2画像を生成し、
前記第1領域と、前記第2領域及び前記第3領域の少なくとも1つの領域とに基づいて、前記第1画像に含まれる人物の前後関係を決定する決定部を備える、付記1に記載の画像処理装置。
(付記3)
前記決定部は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々の下端線、上端線、及び前記特定された人物領域の各々に含まれる画素数のうちの少なくとも1つに基づいて、前記第1画像に含まれる人物の前後関係を決定する、付記2に記載の画像処理装置。
(付記4)
前記決定部は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々について、前記第2領域及び前記第3領域のうちの少なくとも1つの領域に基づいて、隣接する人物領域との前後関係を決定し、各人物領域についての前記隣接する人物領域との前後関係に基づいて、前記第1画像に含まれる人物の前後関係を決定する、付記2又は3に記載の画像処理装置。
(付記5)
前記決定部は、前記特定された人物領域の各々と、前記隣接する人物領域との間に含まれる前記第2領域及び前記第3領域のうちの少なくとも1つの領域との距離に基づいて、前記特定された各人物領域の人物と、前記隣接する人物領域の人物との前後関係を決定する、付記4に記載の画像処理装置。
(付記6)
前記決定部は、前記生成部が前記第2領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第2領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する、付記5に記載の画像処理装置。
(付記7)
前記決定部は、前記生成部が前記第3領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第3領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する、付記5又は6に記載の画像処理装置。
(付記8)
前記学習モデルは、前記推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルであり、
前記生成部は、前記出力された領域パターンに基づいて、前記推定領域から、前記第1領域と、前記第2領域及び前記第3領域のうちの少なくとも1つの領域と、を抽出する、付記2~7のいずれか1項に記載の画像処理装置。
(付記9)
前記複数の領域パターンは、前記第1領域を抽出するための第1パターンと、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を抽出するための複数の第2パターンとを含む、付記8に記載の画像処理装置。
(付記10)
前記複数の第2パターンは、前記撮像装置との距離の勾配方向を示す奥行勾配方向がそれぞれ異なるパターンである、付記9に記載の画像処理装置。
(付記11)
前記複数の第2パターンは、前記奥行勾配方向が8方向又は16方向のそれぞれに対応するパターンである、付記10に記載の画像処理装置。
(付記12)
撮像装置により撮像された第1画像を入力することと、
学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、を含む画像処理方法。
(付記13)
撮像装置により撮像された第1画像を入力することと、
学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、をコンピュータに実行させるプログラム。
【0106】
この出願は、2019年3月11日に出願された日本出願特願2019-044273を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【符号の説明】
【0107】
1、10 画像処理装置
2、11、21 入力部
3、13 生成部
12、22 データ記憶部
14、23 モデル記憶部
15 決定部
20 学習装置
24 学習部