IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 技研トラステム株式会社の特許一覧 ▶ 国立大学法人 和歌山大学の特許一覧

特開2024-81089物体検出方法及びコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024081089
(43)【公開日】2024-06-17
(54)【発明の名称】物体検出方法及びコンピュータプログラム
(51)【国際特許分類】
   G06V 10/72 20220101AFI20240610BHJP
   G06T 7/00 20170101ALI20240610BHJP
   H04N 7/18 20060101ALI20240610BHJP
   H04N 23/60 20230101ALI20240610BHJP
   H04N 23/55 20230101ALI20240610BHJP
【FI】
G06V10/72
G06T7/00 350B
H04N7/18 D
H04N23/60 500
H04N23/55
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022194547
(22)【出願日】2022-12-05
(71)【出願人】
【識別番号】390028288
【氏名又は名称】技研トラステム株式会社
(71)【出願人】
【識別番号】504145283
【氏名又は名称】国立大学法人 和歌山大学
(74)【代理人】
【識別番号】100111257
【弁理士】
【氏名又は名称】宮崎 栄二
(74)【代理人】
【識別番号】100110504
【弁理士】
【氏名又は名称】原田 智裕
(72)【発明者】
【氏名】和田 俊和
(72)【発明者】
【氏名】北尾 颯人
(72)【発明者】
【氏名】古川 裕三
【テーマコード(参考)】
5C054
5C122
5L096
【Fターム(参考)】
5C054CA04
5C054CC02
5C054EA01
5C054EA05
5C054EA07
5C054FC12
5C054FC14
5C054FD03
5C054FD07
5C054FF02
5C054GB01
5C054HA19
5C122DA11
5C122EA33
5C122FA02
5C122FB06
5C122FH06
5C122FH11
5C122HA88
5C122HB01
5C122HB06
5C122HB09
5C122HB10
5L096BA02
5L096EA07
5L096KA04
(57)【要約】
【課題】魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段の設置高さが異なる撮像画像からでも高い検出精度で対象物を検出することを可能とする物体検出方法及びコンピュータプログラムを提供する。
【解決手段】学習済み人工知能モデル5の学習用に取得した撮像画像と、学習済み人工知能モデル5で対象物を検出する検出用に取得した撮像画像とでは、撮像手段(広角カメラ)2の設置高さが異なっている。本物体検出方法は、前記学習用に又は前記検出用に取得した撮像画像に対して、撮像画像自体の大きさを変えずに、円形の画像周辺部での被写体の大きさの変化を小さくし、画像中央部に向かって被写体の大きさの変化を大きくする画像変換手段61により画像の非線形伸縮を行い、前記撮像手段2の設置高さの異なる撮像画像に変換する画像変換工程を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段により上方から下方の監視領域を撮像した円形の撮像画像を取得して学習済み人工知能モデルを用いて対象物を検出する物体検出方法であって、
前記学習済み人工知能モデルの学習用に取得した前記撮像画像と、前記学習済み人工知能モデルで対象物を検出する検出用に取得した前記撮像画像とでは、前記撮像手段の設置高さが異なっており、
前記学習用に又は前記検出用に取得した撮像画像に対して、撮像画像自体の大きさを変えずに、円形の画像周辺部での被写体の大きさの変化を小さくし、画像中央部に向かって被写体の大きさの変化を大きくする画像変換手段により画像の非線形伸縮を行い、前記撮像手段の設置高さの異なる撮像画像に変換する画像変換工程を有する、物体検出方法。
【請求項2】
請求項1に記載の物体検出方法において、
前記画像変換手段は、単調増加関数により算出する手段であり、
前記単調増加関数は、前記撮像画像の画素を、画像中心を原点とする極座標(r,θ)で表現したとき、半径rを別の半径r´に変換する下記式(1)で表され、
【数1】
(Rは撮像画像の半径を示す。f(0)=0であり、f(R)=Rである。)
前記画像変換工程は、前記撮像手段の設置高さが異なる複数枚の撮像画像から複数組の同一点を対応させて前記f(r)を算出し、画像の非線形伸縮を行う、物体検出方法。
【請求項3】
請求項1に記載の物体検出方法において、
前記画像変換手段は、画像変換式により算出する手段であり、
前記画像変換式は、x軸、y軸、z軸で表す球面を、z軸方向に変化させる曲面に変換するための下記式(2)(3)で表され、
【数2】
(x、y、zは単位球面上の点を示す。C(x,y)はz軸の変換成分を示す。βは曲面のz軸方向の大きさを決定するパラメータである。β>0の場合は画像の拡大を表現する曲面となり、β<0の場合は画像の縮小を表現する曲面となる。βは0を含まない。tは曲面のz軸方向の形状を決定するパラメータである。t>0とする。)
前記画像変換工程は、前記式(3)のβとtの各パラメータを所定の値に設定し、画像の非線形伸縮を行う、物体検出方法。
【請求項4】
請求項1~3のいずれか1項に記載の物体検出方法において、
前記学習済み人工知能モデルは、一定の設置高さの前記撮像手段から取得した撮像画像を学習用の撮像画像に使用して学習させたモデルとして構築されており、
前記対象物を検出する際、前記一定の設置高さとは異なる所定の設置高さの前記撮像手段から取得した撮像画像を、前記画像変換工程により前記一定の設置高さの前記撮像手段で撮像した撮像画像となるように画像変換して検出用の撮像画像に使用する、物体検出方法。
【請求項5】
請求項1~3のいずれか1項に記載の物体検出方法において、
前記人工知能モデルを学習させる際、所定の設置高さの前記撮像手段から取得した撮像画像を、前記画像変換工程により前記所定の設置高さとは異なる一定の設置高さの前記撮像手段で撮像した撮像画像となるように画像変換して学習用の撮像画像に使用する、物体検出方法。
【請求項6】
請求項1~3のいずれか1項に記載の物体検出方法において、
前記人工知能モデルを学習させる際、一定の設置高さの前記撮像手段から取得した撮像画像を、前記画像変換工程により前記一定の設置高さとは異なる複数の所定の設置高さの前記撮像手段で撮像した複数の撮像画像となるように画像変換して学習用の撮像画像に使用する、物体検出方法。
【請求項7】
請求項1~3のいずれか1項に記載の物体検出方法をコンピュータに実行させる、コンピュータプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体検出方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
従来、カメラ設置高さの高低の違いに対しても人認識が行える画像処理装置及び画像処理方法が知られている(特許文献1)。この従来技術は、標準設置高さのITVカメラによる標準高さ画像について、その画素密度を所定密度に調整して標準画像とし、標準モデルによる評価を行って人を認識し、また、高設置高さのITVカメラによる高設置画像について、その画素密度が同所定密度のデジタルズームによる拡大画像としトリミングしてズームトリミング画像とし、同標準モデルによる評価を行って人を認識するものである。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許6301808号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、監視領域の撮像手段として、1台で360度の全方位を撮像できる広角カメラを用いるケースが増えている。広角カメラの撮像画像は、魚眼レンズ又は広角レンズの特性によりカメラ設置高さに応じて被写体の写り方が大きく異なる。そのため、前記従来技術では、広角カメラの設置高さが異なる撮像画像については高い検出精度で対象物を検出することが困難であった。
【0005】
近年、ディープニューラルネットワーク(DNN:Deep Neural Network)等を用いた人物や自動車といった物体検出の手法が多く研究されている。例えば、天井取り付けの広角カメラで下方の監視領域の床面上に存在する人物を撮像した撮像画像から、学習済み人工知能モデルを用いて、人物を検出する物体検出システムの開発が行われている。このような物体検出システムでは、人工知能モデルの学習データを撮像した際の広角カメラの設置高さと異なる設置高さで撮像した撮像画像は、人物の抜けや誤検出が多く発生し、十分な検出精度が得られないという問題があった。
【0006】
本発明は、以上の事情に鑑みてなされたものであり、魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段の設置高さが異なる撮像画像からでも、高い検出精度で対象物を検出することを可能とする物体検出方法及びコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る物体検出方法は、
魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段により上方から下方の監視領域を撮像した円形の撮像画像を取得して学習済み人工知能モデルを用いて対象物を検出する物体検出方法であって、
前記学習済み人工知能モデルの学習用に取得した前記撮像画像と、前記学習済み人工知能モデルで対象物を検出する検出用に取得した前記撮像画像とでは、前記撮像手段の設置高さが異なっており、
前記学習用に又は前記検出用に取得した撮像画像に対して、撮像画像自体の大きさを変えずに、円形の画像周辺部での被写体の大きさの変化を小さくし、画像中央部に向かって被写体の大きさの変化を大きくする画像変換手段により画像の非線形伸縮を行い、前記撮像手段の設置高さの異なる撮像画像に変換する画像変換工程を有する。
【0008】
前記画像変換手段は、単調増加関数により算出する手段であり、
前記単調増加関数は、前記撮像画像の画素を、画像中心を原点とする極座標(r,θ)で表現したとき、半径rを別の半径r´に変換する下記式(1)で表され、
【0009】
【数1】
【0010】
(Rは円形の撮像画像の半径を示す。f(0)=0であり、f(R)=Rである。)
前記画像変換工程は、前記撮像手段の設置高さが異なる複数枚の撮像画像から複数組の同一点を対応させて前記f(r)を算出し、画像の非線形伸縮を行う、構成とすることができる。
【0011】
また、前記画像変換手段は、画像変換式により算出する手段であり、
前記画像変換式は、x軸、y軸、z軸で表す球面を、z軸方向に変化させる曲面に変換するための下記式(2)(3)で表され、
【0012】
【数2】
【0013】
(x、y、zは単位球面上の点を示す。C(x,y)はz軸の変換成分を示す。βは曲面のz軸方向の大きさを決定するパラメータである。β>0の場合は画像の拡大を表現する曲面となり、β<0の場合は画像の縮小を表現する曲面となる。βは0を含まない。tは曲面のz軸方向の形状を決定するパラメータである。t>0とする。)
前記画像変換工程は、前記式(3)のβとtの各パラメータを所定の値に設定し、画像の非線形伸縮を行う、構成とすることができる。
【0014】
前記物体検出方法において、
前記学習済み人工知能モデルは、一定の設置高さの前記撮像手段から取得した撮像画像を学習用の撮像画像に使用して学習させたモデルとして構築されており、
前記対象物を検出する際、前記一定の設置高さとは異なる所定の設置高さの前記撮像手段から取得した撮像画像を、前記画像変換工程により前記一定の設置高さの前記撮像手段で撮像した撮像画像となるように画像変換して検出用の撮像画像に使用する、構成とすることができる。
【0015】
また、前記物体検出方法において、
前記人工知能モデルを学習させる際、所定の設置高さの前記撮像手段から取得した撮像画像を、前記画像変換工程により前記所定の設置高さとは異なる一定の設置高さの前記撮像手段で撮像した撮像画像となるように画像変換して学習用の撮像画像に使用する、構成とすることができる。
【0016】
また、前記物体検出方法において、
前記人工知能モデルを学習させる際、一定の設置高さの前記撮像手段から取得した撮像画像を、前記画像変換工程により前記一定の設置高さとは異なる複数の所定の設置高さの前記撮像手段で撮像した複数の撮像画像となるように画像変換して学習用の撮像画像に使用する、構成とすることができる。
【0017】
また、前記物体検出方法は、コンピュータに実行させるコンピュータプログラムにより構成することができる。
【発明の効果】
【0018】
本発明によれば、魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段を用いて上方から下方の監視領域を撮像した撮像画像を取得して学習済み人工知能モデルを用いて人物などの対象物を検出する際に、前記学習済み人工知能モデルの学習用に取得した前記撮像画像と前記学習済み人工知能モデルで対象物を検出する検出用に取得した前記撮像画像とで前記撮像手段の設置高さが異なっていても、高い検出精度で対象物を検出することができる。
【図面の簡単な説明】
【0019】
図1】実施形態1の物体検出システムを示すブロック構成図である。
図2】実施形態1の物体検出方法の流れを示す模式図である。
図3】実施形態2、実施形態3の物体検出システムを示すブロック構成図である。
図4】実施形態2、実施形態3の物体検出方法の流れを示す模式図である。
図5】広角カメラの異なる設置高さで撮像した撮像画像を示す図である。
図6】広角カメラの設置高さの変化による撮像画像の変化を説明するための模式図である。
図7】広角カメラによる撮像画像の撮像モデルを示す模式図である。
図8】広角カメラの設置高さの変化を表す球面とは別の曲面への投影による撮像画像の近似表現を示す模式図である。
図9】第1の画像変換方法を説明するための模式図である。
図10】第1の画像変換方法による画像変換前後の撮像画像を示す図である。
図11】広角カメラの設置高さが低い場合と高い場合の実際の撮像画像を示す図である。
図12】第2の画像変換方法を説明するための模式図である。
図13】広角カメラの設置高さ4mの撮像画像において、第1の画像変換方法による画像変換前後の撮像画像(直立した人物が多い画像)についての人物の検出結果を示す図である。
図14】広角カメラの設置高さ4mの撮像画像において、第1の画像変換方法による画像変換前後の撮像画像(座った人物が多い画像)についての人物の検出結果を示す図である。
図15図13図14のIoUの結果(表1)を示す表である。
図16】広角カメラの設置高さ5mの撮像画像において、第1の画像変換方法による画像変換前後の撮像画像(直立した人物が多い画像)についての人物の検出結果を示す図である。
図17】広角カメラの設置高さ5mの撮像画像において、第1の画像変換方法による画像変換前後の撮像画像(座った人物が多い画像)についての人物の検出結果を示す図である。
図18図16図17のIoUの結果(表2)を示す表である。
図19】広角カメラの設置高さ4mの撮像画像において、第2の画像変換方法による画像変換前後の撮像画像(直立した人物が多い画像)についての人物の検出結果を示す図である。
図20】広角カメラの設置高さ4mの撮像画像において、第2の画像変換方法による画像変換前後の撮像画像(座った人物が多い画像)についての人物の検出結果を示す図である。
図21図19図20のIoUの結果(表3)を示す表である。
図22】広角カメラの設置高さ5mの撮像画像において、第2の画像変換方法による画像変換前後の撮像画像(直立した人物が多い画像)についての人物の検出結果を示す図である。
図23】広角カメラの設置高さ5mの撮像画像において、第2の画像変換方法による画像変換前後の撮像画像(座った人物が多い画像)についての人物の検出結果を示す図である。
図24図22図23のIoUの結果(表4)を示す表である。
【発明を実施するための形態】
【0020】
以下に、本発明の実施形態について添付図面を参照しながら説明する。
本実施形態は、広角カメラで上方から下方の監視領域を撮像した撮像画像を、設置高さが異なる広角カメラで撮像した撮像画像に変換する画像変換方法を用いて、学習済み人工知能モデルにより撮像画像中から人物(対象物)を検出するシステムを構築するものである。
【0021】
広角カメラは、魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段である。広角カメラは、監視領域を真上から撮像できるように、例えば、天井に設置されており、監視領域の床面(同一平面)上に存在する検出対象物の人物を撮像する。広角カメラは、1台で監視領域を360度全方位にわたり撮像し、撮像画像は円形の画像として得られる。なお、検出の対象物は、人物に限らず、車などの移動体を含む物体であってもよい。
【0022】
まず、実施形態における画像変換方法について説明する。
本発明者らは、図5図6に示すように、広角カメラで上方から下方の平面上に存在する対象物を撮像した場合、その撮像画像は、画像周辺部では、広角カメラとの距離が急激に大きくなるため、広角カメラの設置高さの変化による画像上の位置変化への影響を受けにくいという見解を見出し、本画像変換方法を完成させた。すなわち、本画像変換方法は、広角カメラの設置高さが変化することによって、円形の画像周辺部での被写体の大きさの変化は小さく、画像周辺部から画像中央部に向かって被写体の大きさの変化が顕著になるように画像変換を行う。なお、画像中心点付近での被写体の大きさの変化は小さくすることができる。
【0023】
(第1の画像変換方法)
第1の画像変換方法を説明する。
広角カメラの撮像画像として、対象物の位置となる3次元点から2次元画像へ投影する投影モデルを考える。この投影モデルは、図7に示すように、3次元点から球の中心に向かう線に沿って球面に投影して、それを正射影によって2次元平面に投影するモデルとする。これにより、球の中央部では解像度が高く、周辺部では解像度が低いという広角カメラの特性を表現できる。
【0024】
次に、球面に射影した画像を別の曲面へ投影することで、広角カメラの設置高さが異なる画像を生成する。具体的には、図8に示すように、
1)2次元画像を正射影によって球面上に逆投影し、
2)球面上の点を球の中心から3次元点(x,y,z)に向かって、球とは異なる曲面に中心投影し、
3)それを再び正射影によって2次元画像面に逆投影する、
という3段階の投影モデルで画像変換することを考える。これにより、設置高さの異なる広角カメラで撮像した撮像画像が近似的に表現できる。
【0025】
ここで、前記2)の曲面は、広角カメラの設置高さの変化を表現する曲面とする必要がある。すなわち、前記曲面は、画像の大きさを変えずに、画像周辺部での変化の度合いが小さく、画像周辺部から画像中央部に向かって変化の度合いが大きくなる性質を表現する必要がある。この曲面として、球面を半径が1の単位球面とし、中心投影先の曲面を円形の画像が球面と一致するように、画像中心からの距離に応じてz軸方向の大きさと形状を変化させるような曲面である。このような曲面を表す3次元モデルを、以下の式(2)(3)で表す。
【0026】
【数3】
【0027】
ただし、x、y、zは単位球面上の点であり、βが球面とは別の曲面のz軸方向の大きさを決定するパラメータを表し、tが曲面のz軸方向の形状を決定するパラメータを表す。β>0の場合は画像の拡大を表現する曲面になり、β<0の場合は画像の縮小を表現する曲面になる。tは0より大きい値であり、tの値を大きくすることによって、曲面は、画像周辺部で単位球面に密着させる部分を増やすことができる。これにより、図9に示すように、画像周辺部はβやtの影響を受けにくく画像中心からの距離が1に近くなるため単位球面に密着するような曲面を表現でき、画像周辺部から画像中央部に近づくにつれてβやtの影響を大きく受けるため単位球面から離れるような曲面を表現できる。
【0028】
図10は、前記式(2)(3)を用いた画像変換の一例である。
図10を参照して、画像変換した拡大画像は、画像周辺部の変化が小さく、画像中央部で拡大されていることがうまく再現されていることが確認でき、かつ、自然な画像変換が行えることがわかる。また、画像変換した拡大画像は、図11に示す、広角カメラにより撮像した実際の撮像画像と比べても、見た目はほとんど変わりない画像が得られていることがわかる。
【0029】
以上より、第1の画像変換方法によれば、画像周辺部の変化が小さく、画像周辺部から画像中央部に向かって変化の度合いが大きいという広角カメラの設置高さの変化を近似的に表現できる。
【0030】
(第2の画像変換方法)
次に、第2の画像変換方法を説明する。
前記第1の画像変換方法を一般的に表すと、図12に示すように、画像の画素(x,y)を、画像中心を原点とする極座標(r,θ) で表現したとき、下記式(1)のように、半径rを別の半径r′に変換する方法に単純化することができる。
【0031】
【数4】
【0032】
ここで、Rは画像の半径を表す。このとき、f(r)は以下の1)~4)の条件をすべて満足する必要がある。
1)変換によって画像の折り返しが起きないように、f(r)は単調増加関数である。
2)変換後の画像に抜けや大きさの変化が生じないように、f(0)=0、f(R)=Rである。
3)rに関する恒等写像をf*(r)とすると、画像を拡大する場合(広角カメラの設置高さが低くなる場合)は、f(r)≧f*(r)(0≦r≦R)であり、画像を縮小する場合(広角カメラの設置高さが高くなる場合)は、f(r)≦f*(r)(0≦r≦R)である。
4)r≒Rの部分はf(r)≒f*(r)である。
【0033】
前記4)の条件は、画像周辺部での変化が少ないという広角カメラの設置高さの変化を表現する上で必要となる条件である。以上の条件を満たすf(r)を、3次スプライン曲線の制御点を変化させることで、広角カメラの設置高さの変化を表すことができ、柔軟な画像の非線形伸縮を行うことができる。よって、f(r)の形状を変化させる適切なパラメータを決定することで、学習済み人工知能モデルによる検出精度が最も高くなるように画像の変換を行うことができる。
【0034】
なお、f(r)を求める際の参考にするテストデータ(広角カメラの撮像画像)を増すに従ってより最適なf(r)の形状を設定することができ、検出精度をさらに向上することができる。また、f(r)を求めるときに3次スプライン曲線を用いて形状を決定する重要な要素である制御点は全て手動で変更するようにしてもよいし、また、制御点の初期位置と個数を自動的に変更して最適なf(r)を自動的に求めるようにしてもよい。
【0035】
(評価)
本画像変換方法について、画像全体のIoU(Intersection over Union)の値を用いて評価を行った。評価方法は、学習済み人工知能モデルを用いて人物検出処理を行ってバウンディングボックスを表示した撮像画像に対し、バウンディングボックス内を白画素とし、それ以外を黒画素で埋めた2値画像に変換し、バウンディングボックス内の白画素の和集合と積集合を求めることで画像全体のIoUを求めた。
【0036】
人工知能モデルを学習させた学習用の撮像画像は、広角カメラの設置高さが3mのときに撮像した撮像画像を用いた。学習済み人工知能モデルに人物検出させる検出用の撮像画像は、広角カメラの設置高さが4mのときと、5mのときに撮像した撮像画像を用いた。検出用の撮像画像は、直立した人物が多い画像と、座った人物が多い画像とを用いた。また、検出用の撮像画像は、撮像時の元画像と、第1、第2の画像変換方法により広角カメラの設置高さが3m相当となるように画像変換した変換画像とを用い、この元画像と変換画像のそれぞれのIoUを求めた。なお、第1の画像変換方法(図13図14図16図17)では、画像変換時の前記式(3)のパラメータとして、4mの設置高さ(撮像高さ)の撮像画像では、β=0.6、t=0.8に設定し、5mの設置高さ(撮像高さ)の撮像画像では、β=0.9、t=0.2に設定した。
【0037】
第1の画像変換方法での結果において、広角カメラの設置高さが4mのときの撮像画像について、検出結果を比較した画像を図13(直立した人物が多い画像)、図14(座った人物が多い画像)に示し、各画像のIoUの結果を図15に示す。また、第1の画像変換方法での結果において、広角カメラの設置高さが5mのときの撮像画像について、検出結果を比較した画像を図16(直立した人物が多い画像)、図17(座った人物が多い画像)に示し、各画像のIoUの結果を図18に示す。
【0038】
第2の画像変換方法での結果において、広角カメラの設置高さが4mのときの撮像画像について、検出結果を比較した画像を図19(直立した人物が多い画像)、図20(座った人物が多い画像)に示し、各画像のIoUの結果を図21に示す。また、第2の画像変換方法での結果において、広角カメラの設置高さが5mのときの撮像画像について、検出結果を比較した画像を図22(直立した人物が多い画像)、図23(座った人物が多い画像)に示し、各画像のIoUの結果を図24に示す。
【0039】
以上の結果、第1の画像変換方法による場合、図13及び図14より、無変換の撮像画像と変換後の撮像画像とを比較すると、変換後の撮像画像は、本画像変換方法を適用することで、無変換の撮像画像に比べて、誤検出や検出漏れを抑えることができた。また、図15に示す表1より、IoUにおいて、無変換の撮像画像に対して変換後の撮像画像は、直立した人物が多い画像では0.180、座った人物が多い画像では0.058の改善がみられた。よって、第1の画像変換方法によれば、学習用の撮像画像と検出用の撮像画像との間で、広角カメラの設置高さが1m異なる場合でも、大幅な検出精度の向上が確認できた。
【0040】
第1の画像変換方法による場合、図16及び図17より、無変換の撮像画像と変換後の撮像画像とを比較すると、変換後の撮像画像は、本画像変換方法を適用することで、無変換の撮像画像に比べて、列をなしている人物の検出漏れや、複数あった誤検出がかなり抑えることができた。また、図18に示す表2より、IoUにおいて、無変換の撮像画像に対して変換後の撮像画像は、直立した人物が多い画像では0.339、座った人物が多い画像では0.144の改善がみられた。また、無変換の撮像画像に対して変換後の撮像画像は、設置高さが4mのときよりも人物の立位、座位の姿勢にかかわらず、IoUの上がり幅が大きいことが確認できた。よって、第1の画像変換方法によれば、学習用の撮像画像と検出用の撮像画像との間で、広角カメラの設置高さが2m異なる場合でも、大幅な検出精度の向上が確認できた。
【0041】
また、第2の画像変換方法による場合、図19及び図20より、無変換の撮像画像と変換後の撮像画像とを比較すると、変換後の撮像画像は、本画像変換方法を適用することで、無変換の撮像画像に比べて、誤検出や検出漏れを抑えることができた。また、図21に示す表3より、IoUにおいて、無変換の撮像画像に対して変換後の撮像画像は、直立した人物が多い画像では0.227、座った人物が多い画像では0.066の改善がみられた。よって、第2の画像変換方法によれば、学習用の撮像画像と検出用の撮像画像との間で、広角カメラの設置高さが1m異なる場合でも、大幅な検出精度の向上が確認できた。
【0042】
第2の画像変換方法による場合、図22及び図23より、無変換の撮像画像と変換後の撮像画像とを比較すると、変換後の撮像画像は、本画像変換方法を適用することで、無変換の撮像画像に比べて、列をなしている人物の検出漏れや、複数あった誤検出がかなり抑えることができた。また、図24に示す表4より、IoUにおいて、無変換の撮像画像に対して変換後の撮像画像は、直立した人物が多い画像では0.481、座った人物が多い画像では0.176の改善がみられた。また、無変換の撮像画像に対して変換後の撮像画像は、設置高さが4mのときよりも人物の立位、座位の姿勢にかかわらず、IoUの上がり幅が大きいことが確認できた。よって、第2の画像変換方法によれば、学習用の撮像画像と検出用の撮像画像との間で、広角カメラの設置高さが2m異なる場合でも、大幅な検出精度の向上が確認できた。
【0043】
以上より、本画像変換方法を適用することで、学習データに含まれていない設置高さの広角カメラから撮像した撮像画像でも、人物検出の検出精度を向上することができる効果が発揮される。また、本実施形態では、対象の3次元空間上での位置やカメラパラメータを用いずに、2次元画像の非線形伸縮によって、広角カメラの設置高さの変化を表す画像変換を行った場合、学習データに含まれていない設置高さの広角カメラから撮影した画像でも、学習済み人工知能モデルによる検出精度を落とすことなく人物検出を行うことができることが実証された。
【0044】
次に、実施形態の物体検出システムを説明する。
なお、以下で述べる撮像画像の撮像高さとは、その撮像画像を撮像した広角カメラの設置高さと同義である。
【0045】
(実施形態1)
図1に示すように、実施形態1の物体検出システム1は、広角カメラ2aと、検出装置3と、学習ユニット4とを備える。この物体検出システム1は、撮像画像から人物を検出するシステムであるが、検出の対象物は、人物に限らず、車などの物体であってもよい。
【0046】
広角カメラ2aは、前述した魚眼レンズ又は広角レンズを撮像光学系に有する撮像手段である。広角カメラ2aは、検出装置3と通信可能に接続され、上方から下方の監視領域を撮像した撮像画像を検出装置3に入力するように構成されている。検出装置3に接続する広角カメラ2aは、学習ユニット4に接続する広角カメラ2bと同じ性能を有する。ただし、広角カメラ2aと広角カメラ2bの設置高さは異なっている。すなわち、広角カメラ2aの設置高さは、検出装置3に備える物体認識部33の人工知能モデル5に学習させた撮像画像の撮像時の広角カメラ2bの設置高さとは異なる高さに設置されている。なお、広角カメラ2aは、検出装置3とは接続されず、広角カメラ2aで撮像した撮像画像を記憶装置に記憶させ、検出装置3は、この記憶装置から撮像画像を読み込むように構成されてあってもよい。
【0047】
検出装置3は、画像入力部31と、検出用画像取得部32と、物体認識部33と、出力部34と、画像変換処理部6と、を備える。
【0048】
画像入力部31は、広角カメラ2aで撮像された撮像画像の入力を受け付け、撮像画像を検出用画像取得部32で取得できるように処理を行う。
【0049】
検出用画像取得部32は、画像入力部31から取得した撮像画像を画像変換処理部6により画像変換を行って検出用の撮像画像とし、物体認識部33に入力する。
【0050】
物体認識部33は、人工知能モデル5を備えており、検出用画像取得部32から入力された検出用の撮像画像から人物を検出する処理を行う。人工知能モデル5は、例えば、DNN(Deep Neural Network)を用いて撮像画像から人物を検出できるように機械学習したモデルにより構築されている。学習済み人工知能モデル5により、検出用画像取得部32から入力された検出用の撮像画像を画像解析して撮像画像中から人物像を認識することで人物の検出を行う。学習済み人工知能モデル5は、物体を最小の矩形で囲むバウンディングボックスにより人物を検出するようにし、撮像画像中の認識した人物像毎にバウンディングボックスで囲むように処理する。
【0051】
出力部34は、物体認識部33の学習済み人工知能モデル5による人物検出結果の撮像画像の表示等を行う。人物検出結果の撮像画像は、例えば、検出用の撮像画像中の各人物像に対しバウンディングボックスを表示した画像である。
【0052】
画像変換処理部6は、画像変換手段61を備えており、検出用画像取得部32から入力された撮像画像を設置高さが異なる広角カメラで撮像した撮像画像に画像変換する処理を行う。画像変換手段61は、広角カメラ2で撮像した円形の撮像画像を非線形伸縮する処理を行う手段であり、前述した第1の画像変換方法又は第2の画像変換方法をコンピュータに実行させるコンピュータプログラムにより構成されている。画像変換処理部6には、画像変換手段61のパラメータを設定するパラメータ設定部62を有する。パラメータは、第1の画像変換方法であればβ、tの値であり、第2の画像変換方法であれば、f(r)における3次スプライン曲線の制御点の値である。パラメータ設定部62は、検出用画像取得部32から入力される撮像画像の撮像高さに対応して適切なパラメータが設定される。これにより、画像変換手段61は、検出用画像取得部32が取得した撮像画像、すなわち、所定設置高さの広角カメラ2で撮像した撮像画像を、人工知能モデル5の学習データに使用したときの学習用の撮像画像と同じ撮像高さの撮像画像となるように画像変換を行う。すなわち、画像変換処理部6は、検出用画像取得部32に返す検出用の撮像画像として物体認識部33の人工知能モデル5による人物の検出精度が最も高くなるように画像変換を行う。従って、検出用画像取得部32が取得した撮像画像が、人工知能モデル5における学習時の学習用の撮像画像と撮像高さが異なる場合でも、学習済み人工知能モデル5により高い検出精度で人物の検出を行うことができる。
【0053】
学習ユニット4は、検出装置3の物体認識部33における人工知能モデル5の学習時に使用されるユニットであり、画像入力部41と、学習用画像取得部42とを備える。
【0054】
学習ユニット4は、検出装置3に接続される広角カメラ2aで撮像する監視領域と同じ監視領域の撮像画像を取り込むが、学習ユニット4に撮像画像を入力するときの広角カメラ2bの設置高さは、検出装置3に撮像画像を入力するときの広角カメラ2aの設置高さとは異なる一定の高さに設置されている。従って、学習ユニット4で扱う撮像画像は、検出装置3に入力される撮像画像とは撮像高さが異なる撮像画像である。
【0055】
画像入力部41は、広角カメラ2bで撮像した撮像画像の入力を受け付け、撮像画像を学習用画像取得部42で取得できるように処理を行う。
【0056】
学習用画像取得部42は、画像入力部41から取得し対象物である人物が写った学習用の撮像画像を学習データとして物体認識部33の人工知能モデル5に入力し、撮像画像から人物を検出できるように人工知能モデル5に学習させる。学習用画像取得部42は、画像入力部41から取得した撮像画像中の人物像に対して撮像画像上の位置、その位置での形状や大きさ等を特徴付けて学習用の撮像画像とし、この学習用の撮像画像を人工知能モデル5に学習させる学習データとする。
【0057】
次に、実施形態1の物体検出システム1による物体検出方法を説明する。
図2に示すように、物体検出方法は、物体認識部33の人工知能モデル5を学習させる学習工程と、物体認識部33の学習済み人工知能モデル5により撮像画像から人物を検出させる検出工程と、撮像画像を非線形伸縮することにより広角カメラの設置高さが異なる撮像画像に画像変換する画像変換工程とを有する。この物体検出方法は、コンピュータに実行させるコンピュータプログラムで構成することができる。
【0058】
学習工程は、学習ユニット4を用いて実行する。学習工程により、一定の設置高さの広角カメラ2bにより上方から下方の監視領域を撮像して人物が写った学習用の撮像画像を学習データとして物体認識部33の人工知能モデル5に入力し、撮像画像から人物を検出できるように人工知能モデル5に機械学習させる。
【0059】
検出工程は、検出装置3により実行する。検出工程により、学習工程で機械学習させた物体認識部33の学習済み人工知能モデル5により、広角カメラ2aで上方から下方の監視領域を撮像した検出用の撮像画像から人物を認識させ検出させる。検出装置3に入力される広角カメラ2aの撮像画像は、学習工程で人工知能モデル5に学習させた際の広角カメラ2bの設置高さが異なる撮像画像である。従って、検出工程では、画像変換工程を実行し、画像変換した検出用の撮像画像により人物の検出を行う。
【0060】
画像変換工程は、広角カメラ2aから入力された円形の撮像画像に対して、撮像画像自体の大きさを変えずに、円形の画像周辺部での被写体の大きさの変化を小さくし、画像中央部に向かって被写体の大きさの変化を大きくするように画像の非線形伸縮を行う。これにより、検出装置3に入力される所定設置高さの広角カメラ2aの撮像画像を、人工知能モデル5の学習データに使用したときの学習用の撮像画像(広角カメラ2bの撮像画像)と同じ撮像高さの撮像画像に変換した検出用の撮像画像が得られる。例えば、学習ユニット4に入力される撮像画像の撮像高さが3mであり、検出装置3に入力される撮像画像の撮像高さが5mの場合、検出装置3の画像変換処理部6は、撮像高さが5mの撮像画像を、撮像高さが3mの撮像画像となるように画像変換を行う。従って、検出装置3は、広角カメラ2aから入力される撮像画像を画像変換した検出用の撮像画像として物体認識部33に入力して人物の検出を行うことで、物体認識部33の学習済み人工知能モデル5により高い検出精度で人物の検出を行うことができる。
【0061】
(実施形態2)
図3に示すように、実施形態2の物体検出システム1Aは、ブロック構成において前記実施形態1の人物検出システム1と異なる構成として、学習ユニット4は画像変換処理部6を備え、検出装置3は画像変換処理部6を備えない構成とする。その他の構成は実施形態1の人物検出システム1と同様である。
【0062】
図4に示すように、実施形態2での人物検出方法において、学習工程、検出工程は、以下のように実行する。
学習工程では、学習ユニット4の画像変換処理部6により、学習ユニット4に入力される撮像画像として一定の設置高さの広角カメラ2bで撮像した撮像画像を、検出装置3に入力される撮像画像(広角カメラ2aの撮像画像)と同じ撮像高さの撮像画像となるように画像変換を行う。例えば、学習ユニット4に入力される撮像画像の撮像高さが3mであり、検出装置3に入力される撮像画像の撮像高さが5mの場合、この学習ユニット4の画像変換処理部6は、撮像高さが3mの撮像画像を、撮像高さが5mの撮像画像となるように画像変換を行う。この画像変換した撮像画像を学習用の撮像画像として学習データに用いて人工知能モデル5を学習させる。これにより、学習済み人工知能モデル5は、学習時に用いた学習用の撮像画像の撮像高さが検出装置3に入力される撮像画像の撮像高さと一致する。
【0063】
検出工程では、検出装置3において検出用画像取得部32は、画像入力部31から取得した撮像画像を画像変換することなく検出用の撮像画像として物体認識部33に入力して人物の検出を行う。前述のとおり、学習済み人工知能モデル5は、学習時の撮像画像の撮像高さが検出装置3に入力される撮像画像の撮像高さと一致している。従って、検出装置3は、広角カメラ2から入力される撮像画像を検出用の撮像画像として物体認識部33に入力して人物の検出を行うことで、物体認識部33の学習済み人工知能モデル5により高い検出精度で人物の検出を行うことができる。
【0064】
(実施形態3)
実施形態3の物体検出システムは、ブロック構成として前記実施形態2の人物検出システム1と同様である(図3参照)。
【0065】
この実際形態3での人物検出方法において、学習工程、検出工程は、以下のように実行する(図4参照)。
学習工程では、学習ユニット4の画像変換処理部6により、学習ユニット4に入力される撮像画像として一定の設置高さの広角カメラ2bで撮像した撮像画像を、複数の異なる撮像高さの撮像画像となるように画像変換を行う。例えば、学習ユニット4に入力される撮像画像の撮像高さが3mである場合、撮像高さが4mの撮像画像と5mの撮像画像となるように画像変換を行う。この画像変換した撮像画像と画像変換前の撮像画像とを学習用の撮像画像として学習データに用いて人工知能モデル5を学習させる。これにより、学習済み人工知能モデル5は、一定の撮像高さの撮像画像だけでなく撮像高さが異なる複数の撮像画像にも対応して人物の検出を行うことができるモデルに構築される。
【0066】
検出工程では、検出装置3において検出用画像取得部32は、画像入力部31から取得した撮像画像を画像変換することなく検出用の撮像画像として物体認識部33に入力して人物の検出を行う。前述のとおり、学習済み人工知能モデル5は、撮像高さが異なる複数の撮像画像に対応して人物の検出を行うことができるモデルとして構築されている。従って、検出装置3は、広角カメラ2aの設置高さが異なる複数の撮像画像を検出用の撮像画像として物体認識部33に入力して人物の検出を行う場合であっても、広角カメラ2aの各々の設置高さに対応して、物体認識部33の学習済み人工知能モデル5により高い検出精度で人物の検出を行うことができる。
【0067】
なお、本発明は、前記実施形態に限定されるものではなく、特許請求の範囲内で様々な変更を行うことが可能である。
【符号の説明】
【0068】
1,1A 物体検出システム
2a,2b 広角カメラ(撮像手段)
3 検出装置
4 学習ユニット
5 人工知能モデル
6 画像変換処理部
31 画像入力部
32 検出用画像取得部
33 物体認識部
34 出力部
41 画像入力部
42 学習用画像取得部
61 画像変換手段
62 パラメータ設定部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24