IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

特許7488674物体認識装置、物体認識方法及び物体認識プログラム
<>
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図1
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図2
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図3
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図4
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図5
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図6
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図7
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図8
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図9
  • 特許-物体認識装置、物体認識方法及び物体認識プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-14
(45)【発行日】2024-05-22
(54)【発明の名称】物体認識装置、物体認識方法及び物体認識プログラム
(51)【国際特許分類】
   G06T 7/70 20170101AFI20240515BHJP
   G06T 7/00 20170101ALI20240515BHJP
【FI】
G06T7/70 A
G06T7/00 350B
【請求項の数】 5
(21)【出願番号】P 2020050235
(22)【出願日】2020-03-19
(65)【公開番号】P2021149687
(43)【公開日】2021-09-27
【審査請求日】2023-02-16
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】100086232
【弁理士】
【氏名又は名称】小林 博通
(74)【代理人】
【識別番号】100210240
【弁理士】
【氏名又は名称】太田 友幸
(72)【発明者】
【氏名】水戸 豪二
(72)【発明者】
【氏名】宗片 匠
【審査官】新井 則和
(56)【参考文献】
【文献】特開2010-273112(JP,A)
【文献】特開2006-229631(JP,A)
【文献】特開2018-042049(JP,A)
【文献】特開2018-185623(JP,A)
【文献】石井 大祐 外,スポーツ解析システム向けマルチカメラ人物トラッキング方式,信学技報 PRMU2017-155,CNR2017-33,2018年02月,59頁-63頁
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置であって、
前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定する混雑度推定手段と、
前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成する個別認識手段と、
前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重みを決定する重付決定手段と、
記撮影手段ごとの前記個別認識結果に含まれる前記物体の位置に係る情報に対して前記重みを付けて統合し、前記物体の位置を求める統合認識手段と、を備え、
前記重付決定手段は、前記統合において前記混雑度が高いほど前記撮影手段の前記個別認識結果が小さく評価されるように前記重みを決定することを特徴とする物体認識装置。
【請求項2】
前記混雑度推定手段は、前記撮影画像を入力されると当該撮影画像内の任意の位置の前記混雑度を出力するよう予め学習した推定器に前記撮影画像を入力して前記撮影画像内の任意の位置の前記混雑度を推定し、
前記重付決定手段は、前記撮影画像の領域毎に、前記混雑度に応じて前記撮影手段の前記重みを決定することを特徴とする請求項1記載の物体認識装置。
【請求項3】
前記個別認識手段は、前記撮影手段ごとに、前記撮影画像を解析して現時刻の前記撮影画像上における前記物体の位置情報を求め、
前記統合認識手段は、前記重みに基づいて前記撮影手段ごとの前記位置情報を統合して現時刻における前記物体の位置を決定することを特徴とする請求項1または2記載の物体認識装置。
【請求項4】
共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置による物体認識方法であって、
混雑度推定手段が、前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定し、
個別認識手段が、前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成し、
重付決定手段が、前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重みを決定し、
統合認識手段が、前記撮影手段ごとの前記個別認識結果に含まれる前記物体の位置に係る情報に対して前記重みを付けて統合し、前記物体の位置を求め、
前記重付決定手段は、前記統合において前記混雑度が高いほど前記撮影手段の前記個別認識結果が小さく評価されるように前記重みを決定する
ことを特徴とする物体認識方法。
【請求項5】
共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置において実行される物体認識プログラムであって、
混雑度推定手段が、前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定する処理と、
個別認識手段が、前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成する処理と、
重付決定手段が、前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重みを決定する処理と、
統合認識手段が、前記撮影手段ごとの前記個別認識結果に含まれる前記物体の位置に係る情報に対して前記重みを付けて統合し、前記物体の位置を求める処理と、
前記重付決定手段が、前記統合において前記混雑度が高いほど前記撮影手段の前記個別認識結果が小さく評価されるように前記重みを決定する処理と、
を実行させることを特徴とする物体認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
画像に基づいて物体を認識する技術に関し、特に、共通視野を有する複数の撮影手段で撮影した画像に基づいて物体を認識する技術に関する。
【背景技術】
【0002】
警備などの目的で、カメラによって撮影した画像から人等の物体を検出し、追跡し、または姿勢を認識する等、物体を認識することが行われている。その際、複数のカメラに共通視野を持たせて、複数方向から撮影することによって認識の精度を高めることができる。
【0003】
例えば、特許文献1には、共通視野を有する複数のカメラで人等の移動物体を追跡する移動物体追跡装置であって、テンプレートマッチングを各カメラの撮影画像上で行って、カメラごとに得られた移動物体の位置をその尤度で重みづけて共通の座標系で統合する移動物体追跡装置が記載されている。こうすることで、一部のカメラの画像上で移動物体同士の重なりが生じ、そのカメラでの尤度が低下しても他のカメラの情報で補えるため、高精度な追跡を続けられる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2010-049296号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、注目する物体の周囲の混雑によって生じる認識精度の低下を効果的に防止できない問題があった。すなわち、例えば特許文献1に記載の移動物体追跡装置では、同種の物体が重なる以上は誤マッチングによって偶発的に高い尤度が生じることがあり、且つ、事後的に得られる尤度からはどのカメラの撮影画像において誤マッチングが行われているかを区別できないため誤マッチングにより得た位置を統合から排除することが困難であった。そして、混雑度が高くなるほど誤マッチングは生じやすくなる。
【0006】
本発明は上記問題を鑑みてなされたものであって、混雑によって生じる物体認識の精度低下を効果的に防止することのできる物体認識装置、物体認識方法および物体認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)本発明に係る物体認識装置は、共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置であって、前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定する混雑度推定手段と、前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成する個別認識手段と、前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重み付けを決定する重付決定手段と、前記重み付けに基づいて、前記撮影手段ごとの前記個別認識結果を統合する統合認識手段と、を備える。
【0008】
(2)上記(1)に記載する本発明に係る物体認識装置において、前記混雑度推定手段は、前記撮影画像を入力されると当該撮影画像内の任意の位置の前記混雑度を出力するよう予め学習した推定器に前記撮影画像を入力して前記撮影画像内の任意の位置の前記混雑度を推定し、前記重付決定手段は、前記撮影画像の領域毎に、前記混雑度に応じて前記撮影手段の重み付けを決定する。
【0009】
(3)上記(1)または(2)に記載する本発明に係る物体認識装置において、前記個別認識手段は、前記撮影手段ごとに、前記撮影画像を解析して現時刻の前記撮影画像上における前記物体の位置情報を求め、前記統合認識手段は、前記重み付けに基づいて前記撮影手段ごとの前記位置情報を統合して現時刻における前記物体の位置を決定する。
【発明の効果】
【0010】
本発明によれば、混雑によって生じる物体認識の精度低下を効果的に防止できる物体認識装置、物体認識方法および物体認識プログラムを提供することが可能となる。
【図面の簡単な説明】
【0011】
図1】三次元位置推定装置の概略の構成を示すブロック図である。
図2】人物および群衆と各撮影手段の撮影画像の関係を示す図である。
図3図2の人物200の拡大図である。
図4】実施形態1における三次元位置推定装置の全体的な処理を示す概略フロー図である。
図5】三次元位置推定処理を示すサブフロー図である。
図6】三次元追跡装置の概略の構成を示すブロック図である。
図7】追跡人物および群衆と各撮影手段の撮影画像の関係を示す図である。
図8】追跡人物の仮説と尤度と重み付けの説明図である。
図9】三次元追跡装置の全体的な処理を示すフロー図である。
図10】物体認識装置の他例を説明する説明図である。
【発明を実施するための形態】
【0012】
[実施形態1]
以下、本発明の実施の形態(以下実施形態1という)に係る物体認識装置の一例である三次元位置推定装置について説明する。三次元位置推定装置は、共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて共通視野内の人物の三次元位置を推定する。
【0013】
図1は三次元位置推定装置1の概略の構成を示すブロック図である。三次元位置推定装置1は撮影手段10a、10b、10c、通信部11、記憶部12、画像処理部13および表示部14からなる。
【0014】
撮影手段10a、10b、10cは、対象データの集まりである画像を取得するカメラであり、本実施形態においては監視カメラである。撮影手段10a,10b,10cは共通視野を有し、同期している。撮影手段10a、10b、10cは通信部11を介して画像処理部13と接続され、監視空間を所定の時間間隔で撮影して画像を生成し、生成した画像を順次、画像処理部13に入力する。例えば、撮影手段10a、10b、10cは、監視空間である屋内の壁に当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間を時間間隔1/5秒で撮影してカラー画像またはモノクロ画像を生成する。なお、本実施形態1では3台の撮影手段の例を示しているが、少なくとも撮影手段は2台あればよい。混雑度の低い画像が撮影される可能性を上げるために、撮影手段の台数は多いほどよく、共通視野の重心から各撮影手段の設置位置への方位差が大きいほどよい。
【0015】
撮影手段10a,10b,10cは、予めキャリブレーションされ、共通する三次元の座標系(いわゆる世界座標系)が定義されている。以下、この座標系をXYZ座標系と称する。また、撮影手段10a,10b,10cそれぞれの撮影画像に固有の二次元の座標系(いわゆるカメラ座標系)をxy座標系と称する。
【0016】
通信部11は通信回路であり、その一端が画像処理部13に接続され、他端が撮影手段10a、10b、10cおよび表示部14と接続される。通信部11は撮影手段10a~10cから画像を取得して画像処理部13に入力する。また、通信部11は画像処理部13から物体の認識結果を表示部14へ出力する。
【0017】
なお、撮影手段10a~10c、通信部11、記憶部12、画像処理部13および表示部14の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影手段10a~10cと通信部11および画像処理部13とが遠隔に設置される場合、撮影手段10a~10cと通信部11との間をインターネット回線にて接続することができる。また、通信部11と画像処理部13との間はバスで接続する構成とすることができる。その他、接続手段として、LAN(Local Area Network)、各種ケーブルなどを用いることができる。
【0018】
記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。例えば、記憶部12は学習用のデータや、学習済みモデルである推定器の情報を記憶し、画像処理部13との間でこれらの情報を入出力する。すなわち、推定器の学習に用いる情報や当該処理の過程で生じた情報などが記憶部12と画像処理部13との間で入出力される。
【0019】
画像処理部13は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)、GPU(Graphics Processing Unit)等の演算装置で構成される。画像処理部13は記憶部12からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部12から読み出し、生成したデータを記憶部12に記憶させる。例えば、画像処理部13は推定器を学習し生成すると共に、生成した推定器を通信部11経由で記憶部12に記憶させる。
【0020】
表示部14は、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイ等であり、通信部11を経由して画像処理部13から入力される移動物体の認識結果を表示する。
【0021】
画像処理部13が、混雑度推定手段130、二次元位置推定手段(個別認識手段)131、重付決定手段132、三次元位置推定手段(統合認識手段)133、推定結果出力手段134として機能する。
【0022】
混雑度推定手段130は、撮影手段10a,10b,10cごとに、撮影画像に撮影された物体の混雑度を推定する。本実施形態においては、混雑度推定手段130は、撮影画像を入力されると当該撮影画像内の任意の位置の混雑度を出力するよう予め学習した推定器に撮影画像を入力して撮影画像内の任意の位置の混雑度を推定する。具体的には、混雑度推定手段130は、画像を入力されると各画素の混雑度を推定した混雑度マップを出力するよう予め学習した推定器に、撮影画像を入力して当該撮影画像の混雑度マップを出力させ、得られた混雑度マップを記憶部12に記憶させる。
【0023】
推定器は具体的にはディープラーニングの技術を用いて実現できる。すなわち推定器は画像を入力されると当該画像の混雑度マップを出力するCNN(畳み込みニューラルネット―ワーク;convolutional neural network)でモデル化することができる。学習のために、例えば、群衆が撮影された大量の学習用画像と、学習用画像それぞれにおける各人の頭部の重心位置を平均値とし当該頭部のサイズに応じた分散を有する確率密度関数を設定して頭部ごとの当該関数の値を画素ごとに加算した混雑度マップとが用意される。そして、モデルに学習用画像それぞれを入力したときの出力を当該画像に対応する混雑度マップに近づける学習が事前に行われる。こうして得られた学習済みモデルを混雑度推定手段130のプログラムの一部をなす推定器として記憶部12に記憶させておく。例えば、“Single image crowd counting via multi-column convolutional neural network”, Zhang, Y. ,Zhou他, CVPR 2016に記載されているMCNN(multi-column convolutional neural network)は推定器の一例であり、当該論文に記載されている群衆密度マップ(crowd density map)は混雑度マップの一例である。なお、本実施形態において混雑度推定手段130は、認識精度低下を許容できる混雑度の上限値T0を予め定めておき、推定器から出力された混雑度を上限値T0で除した上で除算結果が1.0以上となった場合に1.0とする規格化を行うものとする。つまり、本実施形態において混雑度の値域は[0,1]である。
【0024】
混雑度推定手段130は、各混雑度マップにおいて混雑度が予め定めた閾値T1以上の領域を高混雑度領域として抽出する。混雑度推定手段130は、撮影手段10a~10cのそれぞれを識別する撮影手段IDと、撮影手段10a~10cの撮影画像における高混雑度領域とを対応付けた混雑度情報を重付決定手段132に出力する。
【0025】
個別認識手段である二次元位置推定手段131は、撮影手段ごとの撮影画像を解析して撮影画像上における物体の全部または一部を認識して個別認識結果を生成する。具体的には、予め画像からの人の像の領域(人物領域)の検出を学習した検出器に撮影手段10a~10cのそれぞれが撮影した撮影画像を入力して当該検出器に各撮影画像上における人物領域を出力させ(検出させ)、撮影手段10a~10cの撮影手段IDと検出された人物領域と当該人物領域の重心位置とを対応付けた個別認識結果を生成し、生成した個別認識結果を重付決定手段132および三次元位置推定手段133に出力する。
【0026】
上記検出器は、例えば、CNNを、大量の学習用画像と当該学習用画像内における人の像を囲んだ人物領域を示す正解データとからなる学習用データを用いて深層学習(ディープラーニング)させた学習済みモデルである。このようなCNNの一例が“Faster R-CNN: Towards real-time object detection with region proposal networks”, Shaoqing Ren他, NIPS, 2015に記載されている。
【0027】
重付決定手段132は、各撮影手段10a,10b,10cが撮影した撮影画像上における個別認識手段が物体を認識した位置の混雑度に応じて各撮影手段の重み付けを決定する。
【0028】
具体的には、重付決定手段132は、二次元位置推定手段131から入力される個別認識結果を参照し、各撮影手段に関する個別認識結果に含まれる人物領域それぞれの上部1/3(以下、頭部領域とも称する)を「個別認識手段が物体を認識した位置」と設定する。そして、重付決定手段132は、混雑度推定手段130から入力される混雑度情報を参照し、撮影手段ごとに、頭部領域において当該撮影手段の高混雑度領域が占めない割合を重みとして算出して重みを含ませた個別認識結果を三次元位置推定手段133に出力する。
【0029】
例えば、重みは、頭部領域と高混雑度領域との非重複率による以下の式で定まる。
・重み=1.0-頭部領域と高混雑度領域との重複面積/頭部領域の面積
また、重みは頭部領域における閑散度による以下の式で定めてもよい。この場合、混雑度推定手段130は撮影手段IDと混雑度マップを対応付けた混雑度情報を出力する。
・重み=1.0-頭部領域内の混雑度の総和/頭部領域の面積
つまり、頭部領域内の混雑度が高い個別認識結果ほど重みは小さくなる。これは背後の群集の影響で個別認識結果の信頼度が低いことを意味する。他方、頭部領域内の混雑度が低い個別認識結果ほど重みは高くなる。これは群集の影響が少なく個別認識結果の信頼度が高いことを意味する。このような重みの違いは、認識対象の物体と背後の群集の撮影画像上での位置関係が撮影手段との位置関係によって異なることで生じる。そのため、個別認識手段が物体を認識した位置における混雑度に応じて各撮影手段の重み付けを決定することで、群集の影響により変わる当該位置についての個別認識結果の信頼度を評価できる。
【0030】
記憶部12は、xy座標系の撮影画像上で求めた人物領域の重心位置をXYZ座標系に逆投影するために撮影手段10a~10cのカメラパラメータ120を記憶している。カメラパラメータ120は、実際の監視空間における撮影手段10a~10cの設置位置および撮像方向といった外部パラメータ、撮影手段10a~10cの焦点距離、画角、レンズ歪みその他のレンズ特性や、撮像素子の画素数といった内部パラメータを含む情報である。
【0031】
統合認識手段である三次元位置推定手段133は、重み付けに基づいて、撮影手段ごとの個別認識結果を統合する。本実施形態1においては、重み付けに基づいて撮影手段ごとの位置情報を統合して物体の位置を決定し、決定した位置を推定結果出力手段134に出力する。撮影手段ごとの位置情報は撮影手段10a,10b,10cに関する個別認識結果に含まれる重心位置であり、決定される物体の位置は物体の三次元位置である。
【0032】
具体的には、三次元位置推定手段133は、まず、二次元位置推定手段131から入力された撮影手段10a,10b,10cの個別認識結果、および記憶部12に記憶されている撮影手段10a,10b,10cのカメラパラメータ120を参照し、撮影手段ごとに、当該撮影手段の個別認識結果に含まれる各物体の重心位置のそれぞれを当該撮影手段のカメラパラメータ120を用いてXYZ座標系に逆投影して、各物体の重心位置を通る視線ベクトルを導出する。
【0033】
次に、重付決定手段132から入力された撮影手段10a,10b,10cの重みを参照し、物体ごとに、各撮影手段からの視線ベクトルとの距離の重み付け和が最小となる三次元位置を当該物体の三次元位置として算出する。
【0034】
各物体の三次元位置Pは、当該物体に対する撮影手段C(撮影手段IDがCである撮影手段を撮影手段Cと表記)の重みをWCとし、当該物体の重心位置を通る撮影手段Cからの視線ベクトルVCと三次元位置Pとの距離をD(VC,P)とすると、ΣWC×D(VC,P)が最小となる三次元位置Pを最小二乗法により解くことで求まる。ただしΣはCについての総和とする。
【0035】
なお、同一物体による撮影手段10aからの視線ベクトルと撮影手段10bからの視線ベクトルと撮影手段10cからの視線ベクトルの組み合わせを事前に特定するのは困難である。そこで、例えば、三次元位置推定手段133は、総当たりの組み合わせについて三次元位置の算出を試行し、最小化された距離の重み付け和が予め定めた閾値TD以上であった組み合わせを削除して、最小化された距離の重み付け和が閾値TD未満であった組み合わせのみを同一物体によるものとする。
【0036】
つまり、重みが大きな撮影手段からの重心位置ほど重視し、重みが小さな撮影手段からの重心位置ほど軽視して統合することにより三次元位置を決定する。このようにすることで、群集の存在により撮影手段ごとの個別認識結果に生じる誤差の影響を低減した高精度な統合が可能となる。よって、物体を高精度に認識することができる。
【0037】
推定結果出力手段134は、推定結果を生成し、画像処理部5の外部に出力する。撮影画像と、XYZ座標系の仮想空間上に人物の三次元位置を表す×印を描画して二次元投影した投影図とを合成した画像を生成し、通信部11に出力する。通信部11により伝送されて表示部14に表示される。
【0038】
次に、本実施形態1における三次元位置推定装置1の処理例を説明する。図2に示すように、撮影手段10a,10b,10cそれぞれにおいて、共通視野に存在する人物200及び群衆210を撮影画像221,222,223として撮影する。
【0039】
二次元位置推定手段131は少なくとも人物200についての個別認識結果を生成する。すなわち、撮影手段10aについては撮影画像221上で人物200を囲う人物領域231とその重心位置241を生成する。撮影手段10bについては撮影画像222上で人物200を囲う人物領域232とその重心位置242を生成する。人物領域232は群衆の像の影響を受けて本来の人物領域よりも大きく検出され、重心位置242も本来の重心位置からずれている。撮影手段10cについては撮影画像223上で人物200を囲う人物領域233とその重心位置243を生成する。混雑度推定手段130は撮影画像221,222,223について高混雑度領域251,252,253を抽出する。
【0040】
重付決定手段132は人物領域の上部1/3(頭部領域)と高混雑度領域との非重複率に応じた重みを算出する。撮影手段10a,10cについては、人物領域231,233の上部1/3と高混雑度領域251,253との重複は無く、重みは1.0となる。撮影手段10bについては、人物領域232の上部1/3と高混雑度領域252との重複があり、重みは0.2となる。
【0041】
三次元位置推定手段133は撮影手段10a,10b,10cのカメラパラメータ120を用いて、重心位置241,242,243のそれぞれを通る視線ベクトルV1,V2,V3を導出する。撮影手段10bについては、人物領域232および重心位置242が本来のものからずれているため、視線ベクトルV2は視線ベクトルV1,V3に対してずれが生じている。
【0042】
図3図2の人物200周辺を拡大したものである。三次元位置360は、仮に、重み付けをせずに視線ベクトルV1,V2,V3との距離が最小となるように決定した場合の人物200の三次元位置である。三次元位置360は、実際の人物200の重心位置からずれた位置となる。
【0043】
三次元位置361は、視線ベクトルV1,V2,V3との距離の重み付け和が最小となるように決定した位置である。三次元位置361は、実際の人物200のほぼ重心位置を示している。視線ベクトルV1から三次元位置361までの距離D1と視線ベクトルV3から三次元位置361までの距離D3が、視線ベクトルV2から三次元位置361までの距離D2よりも短くなっている。これは、距離D1,D3が大きく重み付けて評価され、距離D2が小さく重み付けて評価されたことを示している。このように、撮影手段10a,10b,10cに対する重み付けによって、三次元位置361に対する視線ベクトルV2の寄与を小さくし、視線ベクトルV1,V3の寄与を大きくしたことで三次元位置361の算出が高精度化される。
【0044】
〔三次元位置推定装置1の動作〕
図4は本実施形態1における三次元位置推定装置1の全体的な処理を示すフローチャートである。図4のステップS100~S150は、撮影手段10a,10b,10cから撮影画像が入力される度に繰り返される。
【0045】
撮影手段10a,10b,10cからの撮影画像が画像処理部13に入力される(S100)。画像処理部13は混雑度推定手段130として動作し、撮影手段10a,10b,10cからの撮影画像それぞれを推定器に入力して撮影手段ごとの混雑度マップを生成し、各混雑度マップから閾値T1以上の高混雑度領域を抽出する(S110)。
【0046】
画像処理部13は二次元位置推定手段131として動作し、撮影手段10a,10b,10cからの撮影画像それぞれを検出器に入力して人物領域を検出し、撮影手段IDと人物領域と人物領域の重心位置を対応付けた個別認識結果を生成する(S120)。画像処理部13は重付決定手段132として動作し、高混雑度領域と個別認識結果を入力し、人物領域の上部1/3の頭部領域と高混雑度領域の非重複率に応じた重みを決定する(S130)。
【0047】
画像処理部13は三次元位置推定手段133として動作し、個別認識結果と重みを入力し、三次元位置を推定する(S140)。図5は、三次元位置推定手段133の処理を示すサブフローチャートである。
【0048】
三次元位置推定手段133は、記憶部12からカメラパラメータ120を読み出し、個別認識結果に含まれている撮影手段ごとの各人物の重心位置を逆投影して、当該重心位置を通る当該撮影手段からの視線ベクトルを算出する(S141)。三次元位置推定手段133は、撮影手段10a,10b,10cそれぞれにつき一つずつの視線ベクトルを選択する条件下で、総当たりで視線ベクトルの組み合わせを生成し、生成した組み合わせを順次処理対象の組み合わせに設定する(S142)。
【0049】
三次元位置推定手段133は、処理対象の組み合わせについて、当該組み合わせを構成する各視線ベクトルからの距離の重み付け和が最小となる三次元位置を導出する(S143)。三次元位置推定手段133は、最小となったときの距離の重み付け和が予め定めた閾値TD未満であるか否かを判定する(S144)。距離の重み付け和が閾値TD未満であればS145へ移行し、距離の重み付け和が閾値TD以上であればS145をスキップしてS146へ移行する。距離の重み付け和が閾値TD未満であれば同一物体についての視線ベクトルの組み合わせであったとして三次元位置を記憶部12に一時記憶させる(S145)。
【0050】
三次元位置推定手段133は、ステップS142で生成した全ての組み合わせを処理したか否かを確認する(S146)。全ての組み合わせを処理し終えた場合はS147へ移行し、未処理の組み合わせがあればS142に戻り、次の組み合わせに対する処理を行う。
【0051】
ステップS145で一時記憶させた三次元位置について、距離の近い三次元位置同士を、同一人物に関するものであるとして、一つにまとめる(S147)。つまり、一人の人物について複数の三次元位置が算出される場合があるためこれらの重複を排除する。これにより二次元位置推定手段131の処理において一人の人物について複数の人物領域が検出されて生じる誤検出を防ぐ。さらには、ステップS142で三次元位置推定手段133が生成した組み合わせの中の、異なる物体の視線ベクトルの組み合わせについての距離の重み付け和が偶々閾値TD以下となって残ることで生じる誤検出を防ぐ。例えば、三次元位置推定手段133は、群平均法、ウォード(Ward)法などの手法を用いて、三次元位置をクラスタリングして各クラスタの代表値を一人の人物の三次元位置とする。三次元位置推定手段133は、一時記憶した三次元位置を消去して図4のステップS150へ移行する。
【0052】
画像処理部13は推定結果出力手段134として動作し、ステップS147の統合を経た三次元位置を入力して当該位置を示す表示用画像を生成し、表示用画像を通信部11経由で表示部14に表示させる(S150)。
【0053】
[実施形態1の変形例]
(1-1)実施形態1では、個別認識手段である二次元位置推定手段131が、検出器が出力する人物領域をそのまま用いて個別認識結果を生成したが、重複度の高い人物領域同士を一つにまとめる処理を行ってから重心位置を算出して個別認識結果を生成してもよい。その場合のまとめ方には、検出時の尤度が最も高い人物領域を選択する、検出時の尤度で重み付けて平均するなどの方法がある。
【0054】
(1-2)実施形態1では、3台の撮影手段10a,10b,10cで撮影する例を述べたが撮影手段を4台以上とすることもできる。撮影手段を4台以上とする場合、統合認識手段である三次元位置推定手段133が生成する視線ベクトルの組み合わせを撮影手段の台数よりも少ない個数の視線ベクトルの組み合わせとすることもできる。例えば、4台の撮影手段それぞれについての視線ベクトルの中から3台の撮影手段の視線ベクトルを選ぶ組み合わせを総当たりで生成する。
【0055】
(1-3)実施形態1では個別認識手段である二次元位置推定手段131が、各時刻の撮影画像(いわば静止画)から人物領域を検出する例を示したが、前後する時刻の撮影画像(いわば動画)を利用し各人物の追跡処理を行って人物領域を検出してもよい。その場合、同一物体の視線ベクトルの組み合わせが一度特定された人物は、それ以降は総当たりの組み合わせの試行を省略できる。
【0056】
[実施形態2]
本実施形態2では、物体認識装置の一例である三次元追跡装置について説明する。本実施形態2における三次元追跡装置は、共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて共通視野内の人物を追跡する。
【0057】
また、本実施形態2では、パーティクルフィルタに準じた手法で追跡を行う。各時刻において、追跡中の物体ごとに、当該物体の位置の候補を複数設定して各候補に対応した仮説を設定し、仮説を統合することによって物体の位置を決定する。本明細書では、各時刻において追跡中の物体ごとに1つ決定する位置を物体位置と称し、各時刻において追跡中の物体のそれぞれに対して複数設定する候補を候補位置と称する。すなわち、物体位置の候補が候補位置となる。
【0058】
実施形態1においては重付決定手段132が重み付けの決定に際して参照する「個別認識手段が物体を認識した位置」を個別認識手段である二次元位置推定手段131が物体を検出した人物領域の上部1/3とし、重み付けの対象を重心位置とした。実施形態2においては重付決定手段532が重み付けの決定に際して参照する「個別認識手段が物体を認識した位置」を個別認識手段である候補位置設定・評価手段531が物体の尤度を算出した位置、すなわち候補位置によって定まる頭部投影領域とし、重み付けの対象を尤度とする。以下、候補位置設定・評価手段531が算出する尤度を個別尤度、個別尤度を統合して得られる尤度を統合尤度と称する。
【0059】
図6は、本実施形態2における三次元追跡装置5の構成を示すブロック図である。撮影手段50a,50b,50c、通信部51、表示部54は、実施形態1の撮影手段10a,10b,10c,通信部11,表示部14と同様である。画像処理部53は、混雑度推定手段530、候補位置設定・評価手段(個別認識手段)531、重付決定手段532、物体位置決定手段(統合認識手段)533、追跡結果出力手段534として機能する。また、記憶部52には、カメラパラメータ520の他に、物体情報521が記憶される。
【0060】
本実施形態2の混雑度推定手段530は実施形態1の混雑度推定手段130と同様であるが、出力先は重付決定手段532および追跡結果出力手段534となる。カメラパラメータ520は、実施形態1のカメラパラメータ120と同様であるが、実施形態2は、XYZ座標系の候補位置等をxy座標系に投影するために用いられる。
【0061】
物体情報521は、移動物体の三次元形状モデルと追跡中の移動物体の情報を記憶する。具体的には、移動物体の三次元形状モデルは立位の人の頭部・胴部・脚部の立体形状を模した3つの回転楕円体を連結してなるモデルである。或いは、立位の人の全身の立体形状を1つの回転楕円体で模したモデルでもよい。
【0062】
追跡中の移動物体の情報は、追跡中の人物それぞれを識別する物体IDと対応づけて、各撮影手段の撮影手段IDと対応付けられた当該人物のテンプレートと、当該人物のXYZ座標系での物体位置と、当該人物の仮説と、が記憶される。各仮説は、仮説IDと、XYZ座標系での候補位置と、が記憶される。また、各仮説は、各撮影手段の撮影手段IDと対応づけて、候補位置に配置した三次元形状モデルの当該撮影手段のxy座標系への全身投影領域および頭部投影領域と、当該撮影手段の撮影画像を用いて算出した候補位置の個別尤度と、当該撮影手段の候補位置の重みが記憶される。
【0063】
個別認識手段である候補位置設定・評価手段531は、撮影手段ごとの撮影画像を解析して撮影画像上における物体の全部または一部を認識して個別認識結果を生成する。本実施形態2では、追跡中の物体それぞれについて、過去の位置情報(物体位置または候補位置)から現時刻の候補位置を予測し、各撮影手段が撮影した撮影画像上で各候補位置と物体形状とによって定まる領域(全身投影領域および頭部投影領域)を算出し、候補位置、両投影領域および全身投影領域に当該物体の画像特徴が現れている度合いである個別尤度を含んだ仮説を個別認識結果として生成して記憶部52の物体情報521に記憶させる。
【0064】
具体的に、候補位置設定・評価手段531は、まず、記憶部52が記憶している物体情報521を参照し、追跡中の人物ごとに、過去の物体位置に現在の物体位置(物体位置の推定値)を外挿し、現在の物体位置の近傍にランダムに複数の候補位置を設定する。また、過去の候補位置に現在の候補位置を外挿してもよい。過去の物体位置や過去の候補位置が2時刻分以上無い人物については1時刻前の物体位置の近傍に候補位置を設定する。物体位置およびこの段階での候補位置はXYZ座標系の座標値となる。
【0065】
次に、候補位置設定・評価手段531は、記憶部52が記憶している物体情報521の三次元形状モデルとカメラパラメータ520を参照し、候補位置それぞれについて、当該候補位置に配置した三次元形状モデルを撮影手段10a,10b,10cのxy座標系に投影する。また、候補位置それぞれについて、当該候補位置に配置した頭部の三次元形状モデルを撮影手段10a,10b,10cのxy座標系に投影する。続いて、候補位置設定・評価手段531は、追跡中の各人物の候補位置それぞれについて、候補位置と各撮影手段への全身投影領域および頭部投影領域を含んだ仮説を生成して物体情報521に追加する。そして、候補位置設定・評価手段531は、追跡中の各人物の候補位置それぞれについて、撮影手段10a,10b,10cの撮影画像における全身投影領域の画像特徴を抽出して当該人物のテンプレートの画像特徴との類似度に基づいて個別尤度La,Lb,Lcを算出し、算出した個別尤度La,Lb,Lcを対応する仮説に追記して物体情報521を更新する。なお、全身投影領域の上部1/3を近似的に頭部投影領域としてもよい。また、全身の立体形状を1つの回転楕円体とする場合も全身投影領域の上部1/3を頭部投影領域とすればよい。
【0066】
重付決定手段532は、各撮影手段が撮影した撮影画像上における個別認識手段が物体を認識した位置の混雑度に応じて各撮影手段の重みWを決定する。本実施形態2では、候補位置ごとに、各撮影手段が撮影した撮影画像上で当該候補位置と物体形状とによって定まる頭部投影領域についての混雑度に応じて、撮影手段10a,10b,10cごとの個別尤度La,Lb,Lcに対する重みWa,Wb,Wcを決定する。
【0067】
具体的には、記憶部52が記憶している物体情報521および混雑度推定手段530から入力された混雑度情報を参照し、候補位置ごとに、撮影手段10a,10b,10cそれぞれについての頭部投影領域に対する高混雑度領域の非重複度を重みWa,Wb,Wcとして算出し、算出した重みWを対応する仮説に追記して物体情報521を更新する。ここで、非重複度の代わりに閑散度を重みWとしてもよい。
【0068】
つまり、頭部投影領域内の混雑度が高い個別認識結果ほど重みWは小さくなる。これは背後の群集の影響で個別認識結果の信頼度が低くなることを意味する。他方、頭部投影領域内の混雑度が低い個別認識結果ほど重みWは高くなる。これは群集の影響が少なく個別認識結果の信頼度が高くなることを意味する。このような重みWの違いは、認識対象の物体と背後の群集の撮影画像上での位置関係が撮影手段との位置関係によって異なることで生じる。そのため、認識対象の物体の領域における混雑度に応じて各撮影手段の重みWを決定することで、撮影手段と群集の位置関係により変わる個別認識結果の信頼度を評価できる。
【0069】
統合認識手段である物体位置決定手段533は、重み付けに基づいて撮影手段ごとの個別認識結果を統合する。換言すると物体位置決定手段533は、各移動物体における複数の候補位置に基づいて、現時刻における移動物体の物体位置を求める。
【0070】
本実施形態において、物体位置決定手段533は、XYZ座標系において、移動物体ごとに、当該移動物体の各候補位置の撮影手段ごとの個別尤度を重みWに基づいて統合し、さらに統合尤度を重みUとして候補位置を重み付け平均することによって当該移動物体の物体位置を算出する。算出したXYZ座標系の物体位置を移動物体と対応づけて記憶部52の物体情報521に記憶させる。
【0071】
物体位置決定手段533は、追跡中の物体について、物体位置、仮説やテンプレートの更新処理を行うと共に、新規物体の存在を判定し、当該新規物体について物体情報を登録する処理、及び消失物体についての処理を行う。以下、追跡中の物体についての処理、新規物体についての処理、及び消失物体についての処理を順次、説明する。
【0072】
〔追跡中の移動物体〕
物体位置決定手段533により物体位置が判定された物体について、当該判定された物体位置を追加記憶させるとともに、現時刻の物体位置それぞれに形状モデルを配置して各撮影画像に投影して全身投影領域の画像特徴を抽出し、当該物体の撮影手段ごとのテンプレートを現時刻の画像特徴により更新する。更新は、抽出された画像特徴を、記憶されている画像特徴と置き換えてもよいし、抽出された画像特徴と記憶されている画像特徴とを重み付け平均してもよい。
【0073】
〔新規物体〕
物体位置決定手段533は、監視空間に追跡対象の物体(人)が存在しないときに撮影された背景画像と各撮影画像との差分処理を行って背景差分領域を検出するとともに、現時刻の物体位置それぞれに形状モデルを配置して各撮影画像に投影しいずれの全身投影領域とも重ならない背景差分領域を抽出する。そして、物体位置決定手段533は、非重複の背景差分領域が追跡対象の物体として有効な面積TSを有していれば、非重複の背景差分領域に新規物体が存在すると判定する。新規物体が存在すると判定された場合、非重複の背景差分領域に対して実施形態1と同様の方法で三次元位置の推定を行ってXYZ座標系での物体位置を導出する。また、物体IDと対応付けて当該物体のテンプレート、当該物体の物体位置が記憶部52の物体情報521に記憶される。また、物体位置決定手段533は、追跡対象の物体が存在しないときの撮影画像を背景画像として記憶部4に記憶させ、背景差分領域が検出されなかった領域の撮影画像で背景画像を更新する。
【0074】
〔消失物体〕
物体位置決定手段533は、物体が遮蔽物により隠蔽された場合や撮影画像外に移動した場合等、全ての個別尤度Lが閾値TL以下となった物体を物体位置なしの消失物体と判定し、当該物体の物体情報を削除する。
【0075】
追跡結果出力手段534は、例えば、追跡中の物体ごとの時系列の物体位置をXYZ座標系でプロットした移動軌跡画像を生成し、撮影手段10a,10b,10cのxy座標系に投影する。また、予め混雑度に対応する色を定めておき、混雑度マップの各画素と対応する画素に当該画素の混雑度に対応する色の画素値を設定した混雑度画像を生成する。各撮影手段10a,10b,10cの移動軌跡画像と各撮影手段10a,10b,10cの混雑度画像とを透過合成した画像を表示部54に出力する。さらに現時刻の撮影画像を重畳してもよい。
【0076】
次に、図7図8に基づいて本実施形態2における三次元追跡装置5の処理例を説明する。図7は、追跡人物および群衆と各撮影手段の撮影画像の関係を示す図である。図7に示すように、撮影手段10a,10b,10cそれぞれにおいて、共通視野に存在する追跡中の人物600及び群衆610を撮影画像621,622,623として撮影する。
【0077】
追跡対象の人物600の三次元空間上の位置を決定するために、三次元空間上における人物600の頭部周辺に複数の候補位置630を設定する。混雑度推定手段530は、撮影画像621,622,623について高混雑度領域651,652,653を抽出する。撮影手段10a,10cの撮影画像621,623上では追跡対象の人物641,643は高混雑度領域651,653に重複していないが、撮影手段10bの撮影画像622上では、追跡対象の人物642は高混雑度領域652に重複している。そのため、撮影手段10a,10cに関する候補位置の重みWは大きくなるが、撮影手段10bに関する候補位置の重みWは小さくなる。
【0078】
図8(a)は追跡中の人物について設定された候補位置の一つに対して撮影手段10bの重みWを決定する様子を示す図である。図8(a)に示すように、三次元空間上の追跡中の人物600と群衆610を撮影手段10bで撮影する。人物600に対して候補位置700が設定されたとすると、撮影手段10bの撮影画像622において対応する位置710を頭部中心とする頭部投影領域720が得られる。また、群衆610の位置が高混雑度領域652として設定される。撮影手段毎、仮説毎に頭部投影領域720と高混雑度領域652との非重複率に応じて重みWが決定される。撮影手段10bに関する候補位置710についての頭部投影領域720は高混雑度領域652と重複している(非重複率が低い)ため、重みWが小さくなる。
【0079】
図8(b)は撮影手段10a,10b,10cに関する重み付け前の個別尤度を示す図である。人物600に複数の候補位置が設定されている。撮影手段10a,10b,10cの撮影画像ごとにこれら複数の候補位置全てが尤度評価される。四角形730、三角形731、五角形732は同じ候補位置を表している。記号の位置が候補位置を示す。四角形730の大きさは撮影手段10aの撮影画像を用いて求めた個別尤度の大きさ、三角形731の大きさは撮影手段10bの撮影画像を用いて求めた個別尤度の大きさ、五角形732の大きさは撮影手段10cの撮影画像を用いて求めた個別尤度の大きさを示している。撮影手段10a,10cに関する候補位置730,732は、高混雑度領域652の影響を受けていないため、正しく尤度評価ができている。撮影手段10bに関する候補位置731の右上側は高混雑度領域652の影響を受け正しく尤度評価できずに、個別尤度が高くなっている。
【0080】
図8(c)は図8(b)の個別尤度に、混雑度に基づいた重みWをかけた重み付け個別尤度を示している。撮影手段10a,10bに関する候補位置740,742は混雑度が低く重みWが大きいため、候補位置740,742の点が大きくなっている。撮影手段10bに関する候補位置741は混雑度が高く重みWが小さいため、候補位置741の点が小さくなっている。そのため、群衆610(高混雑度領域652)により正しく個別尤度が算出できなかった撮影手段10bに関する仮説の影響力が小さくなる。よって、候補位置と重みWと個別尤度に基づいて加重平均で物体位置を求めた際、撮影手段10bに関する仮説の影響を小さくすることができ、物体位置を高精度に設定できる。
【0081】
[三次元追跡装置5の動作例]
以下、三次元追跡装置5の動作を説明する。図9は三次元追跡装置5の動作の全体フロー図である。三次元追跡装置5の動作が開始されると、撮影手段10a,10b,10cは画像処理部53に順次撮影画像を出力する。画像処理部53は撮影画像が入力されるたびに(ステップS500)、ステップS501~S510の一連の処理を繰り返す。
【0082】
画像処理部53は撮影手段10a,10b,10cで取得した撮影画像に対し混雑度推定手段530により混雑度マップを出力する。また、混雑度が予め定めた閾値T1以上の領域を高混雑度領域として抽出する(ステップS501)。
【0083】
画像処理部53は記憶部52の物体情報521に記録された人物ごとに、入力された撮影画像上にて追跡処理を行い現在の物体位置の推定を行う(ステップS502~S508)。画像処理部53は記憶部52の物体情報521に記録された追跡対象の人物を順次、追跡処理の対象として選択し、全ての追跡対象の人物について追跡処理が完了した場合は、画像処理部53は処理をステップS509に進め、一方、未処理の追跡対象の人物が存在する場合は追跡処理を継続する(ステップS508)。
【0084】
以下、ステップS502~S508の追跡処理をさらに詳しく説明する。画像処理部53は候補位置設定・評価手段531として機能し、各追跡人物についてXYZ座標系で仮説の設定を行い、各仮説が示す候補位置に配置した三次元形状モデルを撮影手段10a,10b,10cのxy座標系に投影する(ステップS502)。すなわち、候補位置設定・評価手段531は過去の追跡情報から現在の候補位置を予測し、仮説に候補位置を設定する。
【0085】
画像処理部53は重付決定手段532として機能し、記憶部52が記憶している物体情報521および混雑度推定手段530から入力された混雑度情報を参照し、候補位置それぞれについて、撮影手段10a,10b,10cの頭部投影領域に対する高混雑度領域の非重複度を重みWa,Wb,Wcとして算出し、算出した重みWa,Wb,Wcを対応する仮説に追記して物体情報521を更新する(ステップS503)。
【0086】
画像処理部53は候補位置設定・評価手段531として機能し、ステップS502で設定された各仮説に対して撮影手段10a,10b,10cの撮影画像における全身投影領域の画像特徴と当該人物のテンプレートの画像特徴の類似度に基づいて個別尤度La,Lb,Lcの算出を行う(ステップS504)。ちなみにテンプレートも撮影手段ごとのものである。
【0087】
その後、画像処理部53は物体位置決定手段533として機能し、ステップS504にて算出された仮説の個別尤度に基づき、追跡の継続が可能かどうかを判定し(ステップS505)、不可と判定した場合は追跡終了処理を行う(ステップS506)。これにより、追跡不可と判定された人物についての追跡が終了され、物体位置決定手段533は記憶部52の物体情報521から当該人物に関する情報を削除する。ここで、全ての個別尤度が閾値TL未満であった人物を追跡継続不可と判定する。これにより撮影画像に写らなくなった人物の情報が削除される。
【0088】
ステップS505にて追跡の継続が可能と判断された場合は、物体位置決定手段533は、ステップS502で設定された仮説群の候補位置及びステップS503で算出された重みWおよびステップS504で算出された個別尤度に基づいて統合尤度を算出し、統合尤度と候補位置に基づいて追跡人物の物体位置を推定する(ステップS507)。
【0089】
上述の追跡処理S502~S507が記憶部25の物体情報521に登録された全ての人物に対して行われると、既に述べたように画像処理部53は処理をステップS509に進め、物体位置決定手段533により、撮影画像にてまだ追跡設定されていない人物の検出を行い、検出された場合は新規の追跡人物として追加する(ステップS509)。なお、新規の追跡人物として追加された場合は、実施形態1の方法により物体位置を求める。
【0090】
ステップS500で入力された撮影画像に対し上述した処理S501~S509により人物の追跡が完了すると、画像処理部53は追跡結果を表示部54へ出力する(ステップS510)。例えば、画像処理部53は追跡結果として全人物の物体位置を表示部54の表示装置等に表示させる。
【0091】
[実施形態2の変形例]
(2-1)上記実施形態2においては、重付決定手段532が三次元形状モデルを用いて重みWを算出したが三次元形状モデルを用いずに重みWを算出することもできる。例えば、混雑度が低いほど高い重みWを算出する関係式を予め定めておき、候補位置を投影した投影点の混雑度を混雑度マップから取得して、取得した混雑度に上記関係式を適用して重みWを算出する。
【0092】
或いは、候補位置を投影した投影点を中心とする近傍領域(例えば5×5画素)の混雑度を混雑度マップから取得して、取得した混雑度の代表値に上記関係式を適用して重みWを算出する。代表値は例えば最大値、平均値または最頻値とする。この変形例で「個別認識手段が物体を認識した位置」は「候補位置を投影した投影点」または「候補位置を投影した投影点を中心とする近傍領域」とする。
【0093】
(2-2)上記実施形態2においては、重付決定手段532が撮影手段10a,10b,10cと候補位置の組み合わせに対して重みWを決定する例を示したが、近似的に撮影手段10a,10b,10cと物体の組み合わせに対して重みWを決定してもよい。すなわち、複数の候補位置のまとまりに対して重みWを決定することになる。
【0094】
(2-2-1)例えば、物体ごとに、XYZ座標系にて当該物体の複数の候補位置それぞれに頭部の三次元形状モデルを配置し、配置した複数の三次元形状モデルをまとめて撮影手段10a,10b,10cのxy座標系に投影する。この複数の三次元形状モデルの投影領域を「個別認識手段が物体を認識した位置」とみなす。そして、撮影手段10a,10b,10cについての各物体に関する投影領域内の混雑度に基づいて撮影手段10a,10b,10cと物体の組み合わせに対する重みWを算出する。
【0095】
(2-2-2)また、例えば、物体ごとに、XYZ座標系にて当該物体の複数の候補位置を包含するできるだけ小さな球または楕円体を導出し、導出した球または楕円体を撮影手段10a,10b,10cのxy座標系に投影する。上記例と同様、この小さな球または楕円体についての投影領域を「個別認識手段が物体を認識した位置」とみなす。そして、撮影手段10a,10b,10cについての各物体に関する投影領域内の混雑度に基づいて撮影手段10a,10b,10cと物体の組み合わせに対する重みWを算出する。
【0096】
(2-2-3)また、例えば、物体ごとに、XYZ座標系にて当該物体の過去の物体位置に外挿して現在の物体位置を予測し、予測した位置に頭部の三次元形状モデルを配置して撮影手段10a,10b,10cのxy座標系に投影する。投影領域は上記2例の投影領域を代表する領域と位置付けることができ、この各撮影手段についての投影領域を「個別認識手段が物体を認識した位置」とみなす。そして、撮影手段10a,10b,10cについての各物体に関する投影領域内の混雑度に基づいて撮影手段10a,10b,10cと物体の組み合わせに対する重みWを算出する。
【0097】
なお、変形例(2-1)と同様、変形例(2-2-1)、(2-2-3)において、三次元形状モデルの投影領域の代わりに候補位置そのものを投影した投影点またはその近傍領域における混雑度に基づいて重みWを算出してもよい。なお、これらの場合、同一物体の仮説には同一の重みWが設定されることになる。
【0098】
(2-3)上記実施形態2およびその変形例においては、重付決定手段532は混雑度のみを使って重みWを決定していたが、これに加え、撮影手段から追跡対象までの距離、他の人物や障害物による隠蔽の度合など様々な要素から撮影手段が追跡に好適であるかを判断し重みWを決定することができる。
【0099】
(2-4)上記実施形態2およびその各変形例においては、候補位置設定・評価手段531は1つの仮説の個別尤度の算出(すなわち個別認識)を全ての撮影手段に対して行ったが、仮説ごとに撮影手段を1つ定めて個別尤度の算出を行ってもよい。この場合、尤度の統合はなく、物体位置決定手段533が重みWと個別尤度の積で候補位置を重み付け平均する構成とすることができる。つまり、その構成において重みWによる重み付けの対象は候補位置となる。或いは仮説の数によって重み付けを行う構成とすることができる。例えば、候補位置設定・評価手段531は、変形例(2-2-3)のように物体位置を予測し、予測した位置において、撮影手段と物体の組み合わせに対する重みWを算出し、撮影手段と物体の組み合わせに対する候補位置を当該組み合わせの重みWに応じた数だけ設定する。1物体当たりの候補位置をN個、注目する物体の撮影手段Cに関する重みをWCとすると、当該物体の撮影手段Cに関する候補位置はN×WC/ΣWCとなる。その構成においても重みWによる重み付けの対象は候補位置である。
【0100】
(2-5)上記実施形態2およびその各変形例においては、物体位置決定手段533が背景差分処理に基づき新規物体を検出する例を示したが、その代わりに、追跡対象とする物体の画像を不特定多数機械学習した(例えば不特定多数の人の画像を深層学習した)学習済みモデルを用いて新規物体を検出してもよい。その場合、物体位置決定手段533は、撮影画像を学習済みモデルに入力して物体の領域を検出し、いずれの形状モデルとも重複しない領域が閾値TS以上の大きさである物体の領域に新規物体が存在すると判定する。
【0101】
[実施形態1,2に共通の変形例]
(3-1)上記実施形態1,2およびその各変形例においては、重付決定手段による混雑度に基づく重みWの算出は、単純に物体の位置での混雑度に基づいて行っていたが、物体への視線方向に沿った領域での混雑度を加味して重みWを算出してもよい。
【0102】
図10(a)に示す例では、人物800について、撮影手段10aの撮影画像821上の領域831での混雑度と撮影手段10bの撮影画像822上の領域832での混雑度は同程度である。しかし、撮影手段10aから見ると人物800は群衆810の手前であり隠蔽されていないのに対し、撮影手段10bから見ると人物800は群衆810の奥であり一部が隠蔽されている。そのため撮影手段10aについての個別認識結果の方が撮影手段10bについての個別認識結果よりも信頼性が高い。
【0103】
そこで、実施形態2の重付決定手段532は、候補位置に頭部の三次元形状モデルを配置した頭部投影領域850に加えて、候補位置と撮影手段の位置とを結ぶ直線上で候補位置よりも撮影手段に近い位置に配置した頭部投影領域851と、同直線上で候補位置よりも撮影手段から遠い位置に配置した頭部投影領域852とをさらに算出して、各頭部投影領域での混雑度を加味する。図10(b)に示す例では、撮影手段10aに近い側の頭部投影領域851と遠い側の頭部投影領域852での指標(非重複度、閑散度または混雑度)を算出する。
【0104】
実施形態1の重付決定手段132の場合これを近似的に行う。例えば、撮影手段が俯瞰設置された広角カメラであれば、人物領域を画面下にずらして候補位置よりも撮影手段に近い位置での人物領域とし、人物領域を画面上にずらして候補位置よりも撮影手段から遠い位置での人物領域とする。また、例えば、撮影手段が俯瞰設置された魚眼カメラであれば、人物領域を画面中央からの放射線上で中央に近づく方向にずらして候補位置よりも撮影手段に近い位置での人物領域とし、人物領域を同放射線上で中央から離れる方向にずらして候補位置よりも撮影手段から遠い位置での人物領域とする。
【0105】
ずらし量は、撮影手段の取り付け位置や角度等に応じて調整し、例えば元の領域と半分程度重なる量とすればよい。そして、重付決定手段132,532は、候補位置での指標と、撮影手段に近い位置での指標と、撮影手段から遠い位置での指標の平均値を求め、平均値に応じた重みWを決定する。この際、撮影手段に近い位置での指標を撮影手段から遠い位置での指標よりも大きく重み付けた重み付け平均値とするのが好適である。
【0106】
(3-2)混雑度推定手段130,530が連続値を出力する推定器を用いた例を示したが、離散的な混雑度を出力する推定器を用いることもできる。
【0107】
例えば、推定器を多クラスSVM(Support Vector Machine)でモデル化し、混雑度の度合いに応じて「背景(無人)」、「低混雑度」、「中混雑度」、「高混雑度」の4クラスに分類してラベル付けされた学習用画像を用いて当該モデルを学習させておく。そして、混雑度推定手段130,530は、撮影画像の各画素を中心とする窓を設定して窓内の画像の特徴量を推定器に入力し、各画素のクラスを識別する。混雑度推定手段130,530は、上述した非重複度を用いる場合は「高混雑度」ラベルの画素の集まりを高混雑度領域とし、上述した閑散度を用いる場合は各ラベルをその混雑度合いに応じて予め定めた数値に置換して離散値の混雑度マップとする。
【0108】
また、多クラスSVM以外にも、決定木型のランダムフォレスト法、多クラスのアダブースト(AdaBoost)法または多クラスロジスティック回帰法などにて学習した種々の多クラス識別器によっても推定器を実現できる。或いは識別型のCNNによっても推定器を実現できる(CNNの場合、窓走査は不要)。また、クラス分類された学習用画像を用いる場合でも特徴量から混雑度を回帰する回帰型のモデルとすることによって連続値の混雑度を出力する推定器を実現することもできる。その場合、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰(Gaussian Process Regression)などによって、特徴量から混雑度を求めるための回帰関数のパラメータを学習させる。或いは回帰型のCNNを用いた推定器とすることもできる(CNN場合、窓走査は不要)。
【0109】
(3-3)本発明は、車両、動物等、混雑状態をなし得る人以外の物体にも適用できる。
【符号の説明】
【0110】
1…三次元位置推定装置(物体認識装置)、10a,10b,10c,50a,50b,50c…撮影手段、11,51…通信部、12,52…記憶部、13,53…画像処理部、14,54…表示部、120,520…カメラパラメータ、130、530…混雑度推定手段、131…二次元位置推定手段(個別認識手段)、132、532…重付決定手段、133…三次元位置推定手段(統合認識手段)、134…推定結果出力手段、5…三次元追跡装置、521…物体情報、531…候補位置設定・評価手段(個別認識手段)、533…物体位置決定手段(統合認識手段)、534…追跡結果出力手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10