特許7488674 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

特許7488674物体認識装置、物体認識方法及び物体認識プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-14

(45)【発行日】2024-05-22

(54)【発明の名称】物体認識装置、物体認識方法及び物体認識プログラム

(51)【国際特許分類】

G06T 7/70 20170101AFI20240515BHJP

G06T 7/00 20170101ALI20240515BHJP

【ＦＩ】

G06T7/70 A

G06T7/00 350B

【請求項の数】 5

(21)【出願番号】P 2020050235

(22)【出願日】2020-03-19

(65)【公開番号】P2021149687

(43)【公開日】2021-09-27

【審査請求日】2023-02-16

(73)【特許権者】

【識別番号】000108085

【氏名又は名称】セコム株式会社

(74)【代理人】

【識別番号】100086232

【弁理士】

【氏名又は名称】小林博通

(74)【代理人】

【識別番号】100210240

【弁理士】

【氏名又は名称】太田友幸

(72)【発明者】

【氏名】水戸豪二

(72)【発明者】

【氏名】宗片匠

【審査官】新井則和

(56)【参考文献】

【文献】特開２０１０－２７３１１２（ＪＰ，Ａ）

【文献】特開２００６－２２９６３１（ＪＰ，Ａ）

【文献】特開２０１８－０４２０４９（ＪＰ，Ａ）

【文献】特開２０１８－１８５６２３（ＪＰ，Ａ）

【文献】石井大祐外，スポーツ解析システム向けマルチカメラ人物トラッキング方式，信学技報ＰＲＭＵ２０１７－１５５，ＣＮＲ２０１７－３３，2018年02月，５９頁－６３頁

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／７０

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置であって、
前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定する混雑度推定手段と、
前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成する個別認識手段と、
前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重みを決定する重付決定手段と、
前記撮影手段ごとの前記個別認識結果に含まれる前記物体の位置に係る情報に対して前記重みを付けて統合し、前記物体の位置を求める統合認識手段と、を備え、
前記重付決定手段は、前記統合において前記混雑度が高いほど前記撮影手段の前記個別認識結果が小さく評価されるように前記重みを決定することを特徴とする物体認識装置。

【請求項2】

前記混雑度推定手段は、前記撮影画像を入力されると当該撮影画像内の任意の位置の前記混雑度を出力するよう予め学習した推定器に前記撮影画像を入力して前記撮影画像内の任意の位置の前記混雑度を推定し、
前記重付決定手段は、前記撮影画像の領域毎に、前記混雑度に応じて前記撮影手段の前記重みを決定することを特徴とする請求項１記載の物体認識装置。

【請求項3】

前記個別認識手段は、前記撮影手段ごとに、前記撮影画像を解析して現時刻の前記撮影画像上における前記物体の位置情報を求め、
前記統合認識手段は、前記重みに基づいて前記撮影手段ごとの前記位置情報を統合して現時刻における前記物体の位置を決定することを特徴とする請求項１または２記載の物体認識装置。

【請求項4】

共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置による物体認識方法であって、
混雑度推定手段が、前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定し、
個別認識手段が、前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成し、
重付決定手段が、前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重みを決定し、
統合認識手段が、前記撮影手段ごとの前記個別認識結果に含まれる前記物体の位置に係る情報に対して前記重みを付けて統合し、前記物体の位置を求め、
前記重付決定手段は、前記統合において前記混雑度が高いほど前記撮影手段の前記個別認識結果が小さく評価されるように前記重みを決定する
ことを特徴とする物体認識方法。

【請求項5】

共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置において実行される物体認識プログラムであって、
混雑度推定手段が、前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定する処理と、
個別認識手段が、前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成する処理と、
重付決定手段が、前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重みを決定する処理と、
統合認識手段が、前記撮影手段ごとの前記個別認識結果に含まれる前記物体の位置に係る情報に対して前記重みを付けて統合し、前記物体の位置を求める処理と、
前記重付決定手段が、前記統合において前記混雑度が高いほど前記撮影手段の前記個別認識結果が小さく評価されるように前記重みを決定する処理と、
を実行させることを特徴とする物体認識プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

画像に基づいて物体を認識する技術に関し、特に、共通視野を有する複数の撮影手段で撮影した画像に基づいて物体を認識する技術に関する。

【背景技術】

【0002】

警備などの目的で、カメラによって撮影した画像から人等の物体を検出し、追跡し、または姿勢を認識する等、物体を認識することが行われている。その際、複数のカメラに共通視野を持たせて、複数方向から撮影することによって認識の精度を高めることができる。

【0003】

例えば、特許文献１には、共通視野を有する複数のカメラで人等の移動物体を追跡する移動物体追跡装置であって、テンプレートマッチングを各カメラの撮影画像上で行って、カメラごとに得られた移動物体の位置をその尤度で重みづけて共通の座標系で統合する移動物体追跡装置が記載されている。こうすることで、一部のカメラの画像上で移動物体同士の重なりが生じ、そのカメラでの尤度が低下しても他のカメラの情報で補えるため、高精度な追跡を続けられる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１０－０４９２９６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、注目する物体の周囲の混雑によって生じる認識精度の低下を効果的に防止できない問題があった。すなわち、例えば特許文献１に記載の移動物体追跡装置では、同種の物体が重なる以上は誤マッチングによって偶発的に高い尤度が生じることがあり、且つ、事後的に得られる尤度からはどのカメラの撮影画像において誤マッチングが行われているかを区別できないため誤マッチングにより得た位置を統合から排除することが困難であった。そして、混雑度が高くなるほど誤マッチングは生じやすくなる。

【0006】

本発明は上記問題を鑑みてなされたものであって、混雑によって生じる物体認識の精度低下を効果的に防止することのできる物体認識装置、物体認識方法および物体認識プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

（１）本発明に係る物体認識装置は、共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて物体を認識する物体認識装置であって、前記撮影手段ごとに、前記撮影画像に撮影された前記物体の混雑度を推定する混雑度推定手段と、前記撮影手段ごとの前記撮影画像を解析して前記撮影画像上における前記物体の全部または一部を認識して個別認識結果を生成する個別認識手段と、前記各撮影手段が撮影した前記撮影画像上における前記個別認識手段が前記物体を認識した位置の前記混雑度に応じて前記各撮影手段の重み付けを決定する重付決定手段と、前記重み付けに基づいて、前記撮影手段ごとの前記個別認識結果を統合する統合認識手段と、を備える。

【0008】

（２）上記（１）に記載する本発明に係る物体認識装置において、前記混雑度推定手段は、前記撮影画像を入力されると当該撮影画像内の任意の位置の前記混雑度を出力するよう予め学習した推定器に前記撮影画像を入力して前記撮影画像内の任意の位置の前記混雑度を推定し、前記重付決定手段は、前記撮影画像の領域毎に、前記混雑度に応じて前記撮影手段の重み付けを決定する。

【0009】

（３）上記（１）または（２）に記載する本発明に係る物体認識装置において、前記個別認識手段は、前記撮影手段ごとに、前記撮影画像を解析して現時刻の前記撮影画像上における前記物体の位置情報を求め、前記統合認識手段は、前記重み付けに基づいて前記撮影手段ごとの前記位置情報を統合して現時刻における前記物体の位置を決定する。

【発明の効果】

【0010】

本発明によれば、混雑によって生じる物体認識の精度低下を効果的に防止できる物体認識装置、物体認識方法および物体認識プログラムを提供することが可能となる。

【図面の簡単な説明】

【0011】

【図1】三次元位置推定装置の概略の構成を示すブロック図である。

【図2】人物および群衆と各撮影手段の撮影画像の関係を示す図である。

【図3】図２の人物２００の拡大図である。

【図4】実施形態１における三次元位置推定装置の全体的な処理を示す概略フロー図である。

【図5】三次元位置推定処理を示すサブフロー図である。

【図6】三次元追跡装置の概略の構成を示すブロック図である。

【図7】追跡人物および群衆と各撮影手段の撮影画像の関係を示す図である。

【図8】追跡人物の仮説と尤度と重み付けの説明図である。

【図9】三次元追跡装置の全体的な処理を示すフロー図である。

【図10】物体認識装置の他例を説明する説明図である。

【発明を実施するための形態】

【0012】

［実施形態１］
以下、本発明の実施の形態（以下実施形態１という）に係る物体認識装置の一例である三次元位置推定装置について説明する。三次元位置推定装置は、共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて共通視野内の人物の三次元位置を推定する。

【0013】

図１は三次元位置推定装置１の概略の構成を示すブロック図である。三次元位置推定装置１は撮影手段１０ａ、１０ｂ、１０ｃ、通信部１１、記憶部１２、画像処理部１３および表示部１４からなる。

【0014】

撮影手段１０ａ、１０ｂ、１０ｃは、対象データの集まりである画像を取得するカメラであり、本実施形態においては監視カメラである。撮影手段１０ａ，１０ｂ，１０ｃは共通視野を有し、同期している。撮影手段１０ａ、１０ｂ、１０ｃは通信部１１を介して画像処理部１３と接続され、監視空間を所定の時間間隔で撮影して画像を生成し、生成した画像を順次、画像処理部１３に入力する。例えば、撮影手段１０ａ、１０ｂ、１０ｃは、監視空間である屋内の壁に当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間を時間間隔１／５秒で撮影してカラー画像またはモノクロ画像を生成する。なお、本実施形態１では３台の撮影手段の例を示しているが、少なくとも撮影手段は２台あればよい。混雑度の低い画像が撮影される可能性を上げるために、撮影手段の台数は多いほどよく、共通視野の重心から各撮影手段の設置位置への方位差が大きいほどよい。

【0015】

撮影手段１０ａ，１０ｂ，１０ｃは、予めキャリブレーションされ、共通する三次元の座標系（いわゆる世界座標系）が定義されている。以下、この座標系をＸＹＺ座標系と称する。また、撮影手段１０ａ，１０ｂ，１０ｃそれぞれの撮影画像に固有の二次元の座標系（いわゆるカメラ座標系）をｘｙ座標系と称する。

【0016】

通信部１１は通信回路であり、その一端が画像処理部１３に接続され、他端が撮影手段１０ａ、１０ｂ、１０ｃおよび表示部１４と接続される。通信部１１は撮影手段１０ａ～１０ｃから画像を取得して画像処理部１３に入力する。また、通信部１１は画像処理部１３から物体の認識結果を表示部１４へ出力する。

【0017】

なお、撮影手段１０ａ～１０ｃ、通信部１１、記憶部１２、画像処理部１３および表示部１４の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影手段１０ａ～１０ｃと通信部１１および画像処理部１３とが遠隔に設置される場合、撮影手段１０ａ～１０ｃと通信部１１との間をインターネット回線にて接続することができる。また、通信部１１と画像処理部１３との間はバスで接続する構成とすることができる。その他、接続手段として、ＬＡＮ（Local Area Network）、各種ケーブルなどを用いることができる。

【0018】

記憶部１２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。例えば、記憶部１２は学習用のデータや、学習済みモデルである推定器の情報を記憶し、画像処理部１３との間でこれらの情報を入出力する。すなわち、推定器の学習に用いる情報や当該処理の過程で生じた情報などが記憶部１２と画像処理部１３との間で入出力される。

【0019】

画像処理部１３は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）、ＧＰＵ（Graphics Processing Unit）等の演算装置で構成される。画像処理部１３は記憶部１２からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部１２から読み出し、生成したデータを記憶部１２に記憶させる。例えば、画像処理部１３は推定器を学習し生成すると共に、生成した推定器を通信部１１経由で記憶部１２に記憶させる。

【0020】

表示部１４は、液晶ディスプレイまたは有機ＥＬ（Electro-Luminescence）ディスプレイ等であり、通信部１１を経由して画像処理部１３から入力される移動物体の認識結果を表示する。

【0021】

画像処理部１３が、混雑度推定手段１３０、二次元位置推定手段（個別認識手段）１３１、重付決定手段１３２、三次元位置推定手段（統合認識手段）１３３、推定結果出力手段１３４として機能する。

【0022】

混雑度推定手段１３０は、撮影手段１０ａ，１０ｂ，１０ｃごとに、撮影画像に撮影された物体の混雑度を推定する。本実施形態においては、混雑度推定手段１３０は、撮影画像を入力されると当該撮影画像内の任意の位置の混雑度を出力するよう予め学習した推定器に撮影画像を入力して撮影画像内の任意の位置の混雑度を推定する。具体的には、混雑度推定手段１３０は、画像を入力されると各画素の混雑度を推定した混雑度マップを出力するよう予め学習した推定器に、撮影画像を入力して当該撮影画像の混雑度マップを出力させ、得られた混雑度マップを記憶部１２に記憶させる。

【0023】

推定器は具体的にはディープラーニングの技術を用いて実現できる。すなわち推定器は画像を入力されると当該画像の混雑度マップを出力するＣＮＮ（畳み込みニューラルネット―ワーク；convolutional neural network）でモデル化することができる。学習のために、例えば、群衆が撮影された大量の学習用画像と、学習用画像それぞれにおける各人の頭部の重心位置を平均値とし当該頭部のサイズに応じた分散を有する確率密度関数を設定して頭部ごとの当該関数の値を画素ごとに加算した混雑度マップとが用意される。そして、モデルに学習用画像それぞれを入力したときの出力を当該画像に対応する混雑度マップに近づける学習が事前に行われる。こうして得られた学習済みモデルを混雑度推定手段１３０のプログラムの一部をなす推定器として記憶部１２に記憶させておく。例えば、“Single image crowd counting via multi-column convolutional neural network”, Zhang, Y. ,Zhou他, CVPR 2016に記載されているＭＣＮＮ（multi-column convolutional neural network）は推定器の一例であり、当該論文に記載されている群衆密度マップ（crowd density map）は混雑度マップの一例である。なお、本実施形態において混雑度推定手段１３０は、認識精度低下を許容できる混雑度の上限値Ｔ０を予め定めておき、推定器から出力された混雑度を上限値Ｔ０で除した上で除算結果が１．０以上となった場合に１．０とする規格化を行うものとする。つまり、本実施形態において混雑度の値域は［０，１］である。

【0024】

混雑度推定手段１３０は、各混雑度マップにおいて混雑度が予め定めた閾値Ｔ１以上の領域を高混雑度領域として抽出する。混雑度推定手段１３０は、撮影手段１０ａ～１０ｃのそれぞれを識別する撮影手段ＩＤと、撮影手段１０ａ～１０ｃの撮影画像における高混雑度領域とを対応付けた混雑度情報を重付決定手段１３２に出力する。

【0025】

個別認識手段である二次元位置推定手段１３１は、撮影手段ごとの撮影画像を解析して撮影画像上における物体の全部または一部を認識して個別認識結果を生成する。具体的には、予め画像からの人の像の領域（人物領域）の検出を学習した検出器に撮影手段１０ａ～１０ｃのそれぞれが撮影した撮影画像を入力して当該検出器に各撮影画像上における人物領域を出力させ（検出させ）、撮影手段１０ａ～１０ｃの撮影手段ＩＤと検出された人物領域と当該人物領域の重心位置とを対応付けた個別認識結果を生成し、生成した個別認識結果を重付決定手段１３２および三次元位置推定手段１３３に出力する。

【0026】

上記検出器は、例えば、ＣＮＮを、大量の学習用画像と当該学習用画像内における人の像を囲んだ人物領域を示す正解データとからなる学習用データを用いて深層学習（ディープラーニング）させた学習済みモデルである。このようなＣＮＮの一例が“Faster R-CNN: Towards real-time object detection with region proposal networks”, Shaoqing Ren他, NIPS, 2015に記載されている。

【0027】

重付決定手段１３２は、各撮影手段１０ａ，１０ｂ，１０ｃが撮影した撮影画像上における個別認識手段が物体を認識した位置の混雑度に応じて各撮影手段の重み付けを決定する。

【0028】

具体的には、重付決定手段１３２は、二次元位置推定手段１３１から入力される個別認識結果を参照し、各撮影手段に関する個別認識結果に含まれる人物領域それぞれの上部１／３（以下、頭部領域とも称する）を「個別認識手段が物体を認識した位置」と設定する。そして、重付決定手段１３２は、混雑度推定手段１３０から入力される混雑度情報を参照し、撮影手段ごとに、頭部領域において当該撮影手段の高混雑度領域が占めない割合を重みとして算出して重みを含ませた個別認識結果を三次元位置推定手段１３３に出力する。

【0029】

例えば、重みは、頭部領域と高混雑度領域との非重複率による以下の式で定まる。
・重み＝１．０－頭部領域と高混雑度領域との重複面積／頭部領域の面積
また、重みは頭部領域における閑散度による以下の式で定めてもよい。この場合、混雑度推定手段１３０は撮影手段ＩＤと混雑度マップを対応付けた混雑度情報を出力する。
・重み＝１．０－頭部領域内の混雑度の総和／頭部領域の面積
つまり、頭部領域内の混雑度が高い個別認識結果ほど重みは小さくなる。これは背後の群集の影響で個別認識結果の信頼度が低いことを意味する。他方、頭部領域内の混雑度が低い個別認識結果ほど重みは高くなる。これは群集の影響が少なく個別認識結果の信頼度が高いことを意味する。このような重みの違いは、認識対象の物体と背後の群集の撮影画像上での位置関係が撮影手段との位置関係によって異なることで生じる。そのため、個別認識手段が物体を認識した位置における混雑度に応じて各撮影手段の重み付けを決定することで、群集の影響により変わる当該位置についての個別認識結果の信頼度を評価できる。

【0030】

記憶部１２は、ｘｙ座標系の撮影画像上で求めた人物領域の重心位置をＸＹＺ座標系に逆投影するために撮影手段１０ａ～１０ｃのカメラパラメータ１２０を記憶している。カメラパラメータ１２０は、実際の監視空間における撮影手段１０ａ～１０ｃの設置位置および撮像方向といった外部パラメータ、撮影手段１０ａ～１０ｃの焦点距離、画角、レンズ歪みその他のレンズ特性や、撮像素子の画素数といった内部パラメータを含む情報である。

【0031】

統合認識手段である三次元位置推定手段１３３は、重み付けに基づいて、撮影手段ごとの個別認識結果を統合する。本実施形態１においては、重み付けに基づいて撮影手段ごとの位置情報を統合して物体の位置を決定し、決定した位置を推定結果出力手段１３４に出力する。撮影手段ごとの位置情報は撮影手段１０ａ，１０ｂ，１０ｃに関する個別認識結果に含まれる重心位置であり、決定される物体の位置は物体の三次元位置である。

【0032】

具体的には、三次元位置推定手段１３３は、まず、二次元位置推定手段１３１から入力された撮影手段１０ａ，１０ｂ，１０ｃの個別認識結果、および記憶部１２に記憶されている撮影手段１０ａ，１０ｂ，１０ｃのカメラパラメータ１２０を参照し、撮影手段ごとに、当該撮影手段の個別認識結果に含まれる各物体の重心位置のそれぞれを当該撮影手段のカメラパラメータ１２０を用いてＸＹＺ座標系に逆投影して、各物体の重心位置を通る視線ベクトルを導出する。

【0033】

次に、重付決定手段１３２から入力された撮影手段１０ａ，１０ｂ，１０ｃの重みを参照し、物体ごとに、各撮影手段からの視線ベクトルとの距離の重み付け和が最小となる三次元位置を当該物体の三次元位置として算出する。

【0034】

各物体の三次元位置Ｐは、当該物体に対する撮影手段Ｃ（撮影手段ＩＤがＣである撮影手段を撮影手段Ｃと表記）の重みをＷ_Cとし、当該物体の重心位置を通る撮影手段Ｃからの視線ベクトルＶ_Cと三次元位置Ｐとの距離をＤ（Ｖ_C，Ｐ）とすると、ΣＷ_C×Ｄ（Ｖ_C，Ｐ）が最小となる三次元位置Ｐを最小二乗法により解くことで求まる。ただしΣはＣについての総和とする。

【0035】

なお、同一物体による撮影手段１０ａからの視線ベクトルと撮影手段１０ｂからの視線ベクトルと撮影手段１０ｃからの視線ベクトルの組み合わせを事前に特定するのは困難である。そこで、例えば、三次元位置推定手段１３３は、総当たりの組み合わせについて三次元位置の算出を試行し、最小化された距離の重み付け和が予め定めた閾値ＴＤ以上であった組み合わせを削除して、最小化された距離の重み付け和が閾値ＴＤ未満であった組み合わせのみを同一物体によるものとする。

【0036】

つまり、重みが大きな撮影手段からの重心位置ほど重視し、重みが小さな撮影手段からの重心位置ほど軽視して統合することにより三次元位置を決定する。このようにすることで、群集の存在により撮影手段ごとの個別認識結果に生じる誤差の影響を低減した高精度な統合が可能となる。よって、物体を高精度に認識することができる。

【0037】

推定結果出力手段１３４は、推定結果を生成し、画像処理部５の外部に出力する。撮影画像と、ＸＹＺ座標系の仮想空間上に人物の三次元位置を表す×印を描画して二次元投影した投影図とを合成した画像を生成し、通信部１１に出力する。通信部１１により伝送されて表示部１４に表示される。

【0038】

次に、本実施形態１における三次元位置推定装置１の処理例を説明する。図２に示すように、撮影手段１０ａ，１０ｂ，１０ｃそれぞれにおいて、共通視野に存在する人物２００及び群衆２１０を撮影画像２２１，２２２，２２３として撮影する。

【0039】

二次元位置推定手段１３１は少なくとも人物２００についての個別認識結果を生成する。すなわち、撮影手段１０ａについては撮影画像２２１上で人物２００を囲う人物領域２３１とその重心位置２４１を生成する。撮影手段１０ｂについては撮影画像２２２上で人物２００を囲う人物領域２３２とその重心位置２４２を生成する。人物領域２３２は群衆の像の影響を受けて本来の人物領域よりも大きく検出され、重心位置２４２も本来の重心位置からずれている。撮影手段１０ｃについては撮影画像２２３上で人物２００を囲う人物領域２３３とその重心位置２４３を生成する。混雑度推定手段１３０は撮影画像２２１，２２２，２２３について高混雑度領域２５１，２５２，２５３を抽出する。

【0040】

重付決定手段１３２は人物領域の上部１／３（頭部領域）と高混雑度領域との非重複率に応じた重みを算出する。撮影手段１０ａ，１０ｃについては、人物領域２３１，２３３の上部１／３と高混雑度領域２５１，２５３との重複は無く、重みは１．０となる。撮影手段１０ｂについては、人物領域２３２の上部１／３と高混雑度領域２５２との重複があり、重みは０．２となる。

【0041】

三次元位置推定手段１３３は撮影手段１０ａ，１０ｂ，１０ｃのカメラパラメータ１２０を用いて、重心位置２４１，２４２，２４３のそれぞれを通る視線ベクトルＶ１，Ｖ２，Ｖ３を導出する。撮影手段１０ｂについては、人物領域２３２および重心位置２４２が本来のものからずれているため、視線ベクトルＶ２は視線ベクトルＶ１，Ｖ３に対してずれが生じている。

【0042】

図３は図２の人物２００周辺を拡大したものである。三次元位置３６０は、仮に、重み付けをせずに視線ベクトルＶ１，Ｖ２，Ｖ３との距離が最小となるように決定した場合の人物２００の三次元位置である。三次元位置３６０は、実際の人物２００の重心位置からずれた位置となる。

【0043】

三次元位置３６１は、視線ベクトルＶ１，Ｖ２，Ｖ３との距離の重み付け和が最小となるように決定した位置である。三次元位置３６１は、実際の人物２００のほぼ重心位置を示している。視線ベクトルＶ１から三次元位置３６１までの距離Ｄ１と視線ベクトルＶ３から三次元位置３６１までの距離Ｄ３が、視線ベクトルＶ２から三次元位置３６１までの距離Ｄ２よりも短くなっている。これは、距離Ｄ１，Ｄ３が大きく重み付けて評価され、距離Ｄ２が小さく重み付けて評価されたことを示している。このように、撮影手段１０ａ，１０ｂ，１０ｃに対する重み付けによって、三次元位置３６１に対する視線ベクトルＶ２の寄与を小さくし、視線ベクトルＶ１，Ｖ３の寄与を大きくしたことで三次元位置３６１の算出が高精度化される。

【0044】

〔三次元位置推定装置１の動作〕
図４は本実施形態１における三次元位置推定装置１の全体的な処理を示すフローチャートである。図４のステップＳ１００～Ｓ１５０は、撮影手段１０ａ，１０ｂ，１０ｃから撮影画像が入力される度に繰り返される。

【0045】

撮影手段１０ａ，１０ｂ，１０ｃからの撮影画像が画像処理部１３に入力される（Ｓ１００）。画像処理部１３は混雑度推定手段１３０として動作し、撮影手段１０ａ，１０ｂ，１０ｃからの撮影画像それぞれを推定器に入力して撮影手段ごとの混雑度マップを生成し、各混雑度マップから閾値Ｔ１以上の高混雑度領域を抽出する（Ｓ１１０）。

【0046】

画像処理部１３は二次元位置推定手段１３１として動作し、撮影手段１０ａ，１０ｂ，１０ｃからの撮影画像それぞれを検出器に入力して人物領域を検出し、撮影手段ＩＤと人物領域と人物領域の重心位置を対応付けた個別認識結果を生成する（Ｓ１２０）。画像処理部１３は重付決定手段１３２として動作し、高混雑度領域と個別認識結果を入力し、人物領域の上部１／３の頭部領域と高混雑度領域の非重複率に応じた重みを決定する（Ｓ１３０）。

【0047】

画像処理部１３は三次元位置推定手段１３３として動作し、個別認識結果と重みを入力し、三次元位置を推定する（Ｓ１４０）。図５は、三次元位置推定手段１３３の処理を示すサブフローチャートである。

【0048】

三次元位置推定手段１３３は、記憶部１２からカメラパラメータ１２０を読み出し、個別認識結果に含まれている撮影手段ごとの各人物の重心位置を逆投影して、当該重心位置を通る当該撮影手段からの視線ベクトルを算出する（Ｓ１４１）。三次元位置推定手段１３３は、撮影手段１０ａ，１０ｂ，１０ｃそれぞれにつき一つずつの視線ベクトルを選択する条件下で、総当たりで視線ベクトルの組み合わせを生成し、生成した組み合わせを順次処理対象の組み合わせに設定する（Ｓ１４２）。

【0049】

三次元位置推定手段１３３は、処理対象の組み合わせについて、当該組み合わせを構成する各視線ベクトルからの距離の重み付け和が最小となる三次元位置を導出する（Ｓ１４３）。三次元位置推定手段１３３は、最小となったときの距離の重み付け和が予め定めた閾値ＴＤ未満であるか否かを判定する（Ｓ１４４）。距離の重み付け和が閾値ＴＤ未満であればＳ１４５へ移行し、距離の重み付け和が閾値ＴＤ以上であればＳ１４５をスキップしてＳ１４６へ移行する。距離の重み付け和が閾値ＴＤ未満であれば同一物体についての視線ベクトルの組み合わせであったとして三次元位置を記憶部１２に一時記憶させる（Ｓ１４５）。

【0050】

三次元位置推定手段１３３は、ステップＳ１４２で生成した全ての組み合わせを処理したか否かを確認する（Ｓ１４６）。全ての組み合わせを処理し終えた場合はＳ１４７へ移行し、未処理の組み合わせがあればＳ１４２に戻り、次の組み合わせに対する処理を行う。

【0051】

ステップＳ１４５で一時記憶させた三次元位置について、距離の近い三次元位置同士を、同一人物に関するものであるとして、一つにまとめる（Ｓ１４７）。つまり、一人の人物について複数の三次元位置が算出される場合があるためこれらの重複を排除する。これにより二次元位置推定手段１３１の処理において一人の人物について複数の人物領域が検出されて生じる誤検出を防ぐ。さらには、ステップＳ１４２で三次元位置推定手段１３３が生成した組み合わせの中の、異なる物体の視線ベクトルの組み合わせについての距離の重み付け和が偶々閾値ＴＤ以下となって残ることで生じる誤検出を防ぐ。例えば、三次元位置推定手段１３３は、群平均法、ウォード（Ward）法などの手法を用いて、三次元位置をクラスタリングして各クラスタの代表値を一人の人物の三次元位置とする。三次元位置推定手段１３３は、一時記憶した三次元位置を消去して図４のステップＳ１５０へ移行する。

【0052】

画像処理部１３は推定結果出力手段１３４として動作し、ステップＳ１４７の統合を経た三次元位置を入力して当該位置を示す表示用画像を生成し、表示用画像を通信部１１経由で表示部１４に表示させる（Ｓ１５０）。

【0053】

［実施形態１の変形例］
（１－１）実施形態１では、個別認識手段である二次元位置推定手段１３１が、検出器が出力する人物領域をそのまま用いて個別認識結果を生成したが、重複度の高い人物領域同士を一つにまとめる処理を行ってから重心位置を算出して個別認識結果を生成してもよい。その場合のまとめ方には、検出時の尤度が最も高い人物領域を選択する、検出時の尤度で重み付けて平均するなどの方法がある。

【0054】

（１－２）実施形態１では、３台の撮影手段１０ａ，１０ｂ，１０ｃで撮影する例を述べたが撮影手段を４台以上とすることもできる。撮影手段を４台以上とする場合、統合認識手段である三次元位置推定手段１３３が生成する視線ベクトルの組み合わせを撮影手段の台数よりも少ない個数の視線ベクトルの組み合わせとすることもできる。例えば、４台の撮影手段それぞれについての視線ベクトルの中から３台の撮影手段の視線ベクトルを選ぶ組み合わせを総当たりで生成する。

【0055】

（１－３）実施形態１では個別認識手段である二次元位置推定手段１３１が、各時刻の撮影画像（いわば静止画）から人物領域を検出する例を示したが、前後する時刻の撮影画像（いわば動画）を利用し各人物の追跡処理を行って人物領域を検出してもよい。その場合、同一物体の視線ベクトルの組み合わせが一度特定された人物は、それ以降は総当たりの組み合わせの試行を省略できる。

【0056】

［実施形態２］
本実施形態２では、物体認識装置の一例である三次元追跡装置について説明する。本実施形態２における三次元追跡装置は、共通視野を有する複数の撮影手段で撮影した撮影画像に基づいて共通視野内の人物を追跡する。

【0057】

また、本実施形態２では、パーティクルフィルタに準じた手法で追跡を行う。各時刻において、追跡中の物体ごとに、当該物体の位置の候補を複数設定して各候補に対応した仮説を設定し、仮説を統合することによって物体の位置を決定する。本明細書では、各時刻において追跡中の物体ごとに１つ決定する位置を物体位置と称し、各時刻において追跡中の物体のそれぞれに対して複数設定する候補を候補位置と称する。すなわち、物体位置の候補が候補位置となる。

【0058】

実施形態１においては重付決定手段１３２が重み付けの決定に際して参照する「個別認識手段が物体を認識した位置」を個別認識手段である二次元位置推定手段１３１が物体を検出した人物領域の上部１／３とし、重み付けの対象を重心位置とした。実施形態２においては重付決定手段５３２が重み付けの決定に際して参照する「個別認識手段が物体を認識した位置」を個別認識手段である候補位置設定・評価手段５３１が物体の尤度を算出した位置、すなわち候補位置によって定まる頭部投影領域とし、重み付けの対象を尤度とする。以下、候補位置設定・評価手段５３１が算出する尤度を個別尤度、個別尤度を統合して得られる尤度を統合尤度と称する。

【0059】

図６は、本実施形態２における三次元追跡装置５の構成を示すブロック図である。撮影手段５０ａ，５０ｂ，５０ｃ、通信部５１、表示部５４は、実施形態１の撮影手段１０ａ，１０ｂ，１０ｃ，通信部１１，表示部１４と同様である。画像処理部５３は、混雑度推定手段５３０、候補位置設定・評価手段（個別認識手段）５３１、重付決定手段５３２、物体位置決定手段（統合認識手段）５３３、追跡結果出力手段５３４として機能する。また、記憶部５２には、カメラパラメータ５２０の他に、物体情報５２１が記憶される。

【0060】

本実施形態２の混雑度推定手段５３０は実施形態１の混雑度推定手段１３０と同様であるが、出力先は重付決定手段５３２および追跡結果出力手段５３４となる。カメラパラメータ５２０は、実施形態１のカメラパラメータ１２０と同様であるが、実施形態２は、ＸＹＺ座標系の候補位置等をｘｙ座標系に投影するために用いられる。

【0061】

物体情報５２１は、移動物体の三次元形状モデルと追跡中の移動物体の情報を記憶する。具体的には、移動物体の三次元形状モデルは立位の人の頭部・胴部・脚部の立体形状を模した３つの回転楕円体を連結してなるモデルである。或いは、立位の人の全身の立体形状を１つの回転楕円体で模したモデルでもよい。

【0062】

追跡中の移動物体の情報は、追跡中の人物それぞれを識別する物体ＩＤと対応づけて、各撮影手段の撮影手段ＩＤと対応付けられた当該人物のテンプレートと、当該人物のＸＹＺ座標系での物体位置と、当該人物の仮説と、が記憶される。各仮説は、仮説ＩＤと、ＸＹＺ座標系での候補位置と、が記憶される。また、各仮説は、各撮影手段の撮影手段ＩＤと対応づけて、候補位置に配置した三次元形状モデルの当該撮影手段のｘｙ座標系への全身投影領域および頭部投影領域と、当該撮影手段の撮影画像を用いて算出した候補位置の個別尤度と、当該撮影手段の候補位置の重みが記憶される。

【0063】

個別認識手段である候補位置設定・評価手段５３１は、撮影手段ごとの撮影画像を解析して撮影画像上における物体の全部または一部を認識して個別認識結果を生成する。本実施形態２では、追跡中の物体それぞれについて、過去の位置情報（物体位置または候補位置）から現時刻の候補位置を予測し、各撮影手段が撮影した撮影画像上で各候補位置と物体形状とによって定まる領域（全身投影領域および頭部投影領域）を算出し、候補位置、両投影領域および全身投影領域に当該物体の画像特徴が現れている度合いである個別尤度を含んだ仮説を個別認識結果として生成して記憶部５２の物体情報５２１に記憶させる。

【0064】

具体的に、候補位置設定・評価手段５３１は、まず、記憶部５２が記憶している物体情報５２１を参照し、追跡中の人物ごとに、過去の物体位置に現在の物体位置（物体位置の推定値）を外挿し、現在の物体位置の近傍にランダムに複数の候補位置を設定する。また、過去の候補位置に現在の候補位置を外挿してもよい。過去の物体位置や過去の候補位置が２時刻分以上無い人物については１時刻前の物体位置の近傍に候補位置を設定する。物体位置およびこの段階での候補位置はＸＹＺ座標系の座標値となる。

【0065】

次に、候補位置設定・評価手段５３１は、記憶部５２が記憶している物体情報５２１の三次元形状モデルとカメラパラメータ５２０を参照し、候補位置それぞれについて、当該候補位置に配置した三次元形状モデルを撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する。また、候補位置それぞれについて、当該候補位置に配置した頭部の三次元形状モデルを撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する。続いて、候補位置設定・評価手段５３１は、追跡中の各人物の候補位置それぞれについて、候補位置と各撮影手段への全身投影領域および頭部投影領域を含んだ仮説を生成して物体情報５２１に追加する。そして、候補位置設定・評価手段５３１は、追跡中の各人物の候補位置それぞれについて、撮影手段１０ａ，１０ｂ，１０ｃの撮影画像における全身投影領域の画像特徴を抽出して当該人物のテンプレートの画像特徴との類似度に基づいて個別尤度Ｌａ，Ｌｂ，Ｌｃを算出し、算出した個別尤度Ｌａ，Ｌｂ，Ｌｃを対応する仮説に追記して物体情報５２１を更新する。なお、全身投影領域の上部１／３を近似的に頭部投影領域としてもよい。また、全身の立体形状を１つの回転楕円体とする場合も全身投影領域の上部１／３を頭部投影領域とすればよい。

【0066】

重付決定手段５３２は、各撮影手段が撮影した撮影画像上における個別認識手段が物体を認識した位置の混雑度に応じて各撮影手段の重みＷを決定する。本実施形態２では、候補位置ごとに、各撮影手段が撮影した撮影画像上で当該候補位置と物体形状とによって定まる頭部投影領域についての混雑度に応じて、撮影手段１０ａ，１０ｂ，１０ｃごとの個別尤度Ｌａ，Ｌｂ，Ｌｃに対する重みＷａ，Ｗｂ，Ｗｃを決定する。

【0067】

具体的には、記憶部５２が記憶している物体情報５２１および混雑度推定手段５３０から入力された混雑度情報を参照し、候補位置ごとに、撮影手段１０ａ，１０ｂ，１０ｃそれぞれについての頭部投影領域に対する高混雑度領域の非重複度を重みＷａ，Ｗｂ，Ｗｃとして算出し、算出した重みＷを対応する仮説に追記して物体情報５２１を更新する。ここで、非重複度の代わりに閑散度を重みＷとしてもよい。

【0068】

つまり、頭部投影領域内の混雑度が高い個別認識結果ほど重みＷは小さくなる。これは背後の群集の影響で個別認識結果の信頼度が低くなることを意味する。他方、頭部投影領域内の混雑度が低い個別認識結果ほど重みＷは高くなる。これは群集の影響が少なく個別認識結果の信頼度が高くなることを意味する。このような重みＷの違いは、認識対象の物体と背後の群集の撮影画像上での位置関係が撮影手段との位置関係によって異なることで生じる。そのため、認識対象の物体の領域における混雑度に応じて各撮影手段の重みＷを決定することで、撮影手段と群集の位置関係により変わる個別認識結果の信頼度を評価できる。

【0069】

統合認識手段である物体位置決定手段５３３は、重み付けに基づいて撮影手段ごとの個別認識結果を統合する。換言すると物体位置決定手段５３３は、各移動物体における複数の候補位置に基づいて、現時刻における移動物体の物体位置を求める。

【0070】

本実施形態において、物体位置決定手段５３３は、ＸＹＺ座標系において、移動物体ごとに、当該移動物体の各候補位置の撮影手段ごとの個別尤度を重みＷに基づいて統合し、さらに統合尤度を重みＵとして候補位置を重み付け平均することによって当該移動物体の物体位置を算出する。算出したＸＹＺ座標系の物体位置を移動物体と対応づけて記憶部５２の物体情報５２１に記憶させる。

【0071】

物体位置決定手段５３３は、追跡中の物体について、物体位置、仮説やテンプレートの更新処理を行うと共に、新規物体の存在を判定し、当該新規物体について物体情報を登録する処理、及び消失物体についての処理を行う。以下、追跡中の物体についての処理、新規物体についての処理、及び消失物体についての処理を順次、説明する。

【0072】

〔追跡中の移動物体〕
物体位置決定手段５３３により物体位置が判定された物体について、当該判定された物体位置を追加記憶させるとともに、現時刻の物体位置それぞれに形状モデルを配置して各撮影画像に投影して全身投影領域の画像特徴を抽出し、当該物体の撮影手段ごとのテンプレートを現時刻の画像特徴により更新する。更新は、抽出された画像特徴を、記憶されている画像特徴と置き換えてもよいし、抽出された画像特徴と記憶されている画像特徴とを重み付け平均してもよい。

【0073】

〔新規物体〕
物体位置決定手段５３３は、監視空間に追跡対象の物体（人）が存在しないときに撮影された背景画像と各撮影画像との差分処理を行って背景差分領域を検出するとともに、現時刻の物体位置それぞれに形状モデルを配置して各撮影画像に投影しいずれの全身投影領域とも重ならない背景差分領域を抽出する。そして、物体位置決定手段５３３は、非重複の背景差分領域が追跡対象の物体として有効な面積ＴＳを有していれば、非重複の背景差分領域に新規物体が存在すると判定する。新規物体が存在すると判定された場合、非重複の背景差分領域に対して実施形態１と同様の方法で三次元位置の推定を行ってＸＹＺ座標系での物体位置を導出する。また、物体ＩＤと対応付けて当該物体のテンプレート、当該物体の物体位置が記憶部５２の物体情報５２１に記憶される。また、物体位置決定手段５３３は、追跡対象の物体が存在しないときの撮影画像を背景画像として記憶部４に記憶させ、背景差分領域が検出されなかった領域の撮影画像で背景画像を更新する。

【0074】

〔消失物体〕
物体位置決定手段５３３は、物体が遮蔽物により隠蔽された場合や撮影画像外に移動した場合等、全ての個別尤度Ｌが閾値ＴＬ以下となった物体を物体位置なしの消失物体と判定し、当該物体の物体情報を削除する。

【0075】

追跡結果出力手段５３４は、例えば、追跡中の物体ごとの時系列の物体位置をＸＹＺ座標系でプロットした移動軌跡画像を生成し、撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する。また、予め混雑度に対応する色を定めておき、混雑度マップの各画素と対応する画素に当該画素の混雑度に対応する色の画素値を設定した混雑度画像を生成する。各撮影手段１０ａ，１０ｂ，１０ｃの移動軌跡画像と各撮影手段１０ａ，１０ｂ，１０ｃの混雑度画像とを透過合成した画像を表示部５４に出力する。さらに現時刻の撮影画像を重畳してもよい。

【0076】

次に、図７、図８に基づいて本実施形態２における三次元追跡装置５の処理例を説明する。図７は、追跡人物および群衆と各撮影手段の撮影画像の関係を示す図である。図７に示すように、撮影手段１０ａ，１０ｂ，１０ｃそれぞれにおいて、共通視野に存在する追跡中の人物６００及び群衆６１０を撮影画像６２１，６２２，６２３として撮影する。

【0077】

追跡対象の人物６００の三次元空間上の位置を決定するために、三次元空間上における人物６００の頭部周辺に複数の候補位置６３０を設定する。混雑度推定手段５３０は、撮影画像６２１，６２２，６２３について高混雑度領域６５１，６５２，６５３を抽出する。撮影手段１０ａ，１０ｃの撮影画像６２１，６２３上では追跡対象の人物６４１，６４３は高混雑度領域６５１，６５３に重複していないが、撮影手段１０ｂの撮影画像６２２上では、追跡対象の人物６４２は高混雑度領域６５２に重複している。そのため、撮影手段１０ａ，１０ｃに関する候補位置の重みＷは大きくなるが、撮影手段１０ｂに関する候補位置の重みＷは小さくなる。

【0078】

図８（ａ）は追跡中の人物について設定された候補位置の一つに対して撮影手段１０ｂの重みＷを決定する様子を示す図である。図８（ａ）に示すように、三次元空間上の追跡中の人物６００と群衆６１０を撮影手段１０ｂで撮影する。人物６００に対して候補位置７００が設定されたとすると、撮影手段１０ｂの撮影画像６２２において対応する位置７１０を頭部中心とする頭部投影領域７２０が得られる。また、群衆６１０の位置が高混雑度領域６５２として設定される。撮影手段毎、仮説毎に頭部投影領域７２０と高混雑度領域６５２との非重複率に応じて重みＷが決定される。撮影手段１０ｂに関する候補位置７１０についての頭部投影領域７２０は高混雑度領域６５２と重複している（非重複率が低い）ため、重みＷが小さくなる。

【0079】

図８（ｂ）は撮影手段１０ａ，１０ｂ，１０ｃに関する重み付け前の個別尤度を示す図である。人物６００に複数の候補位置が設定されている。撮影手段１０ａ，１０ｂ，１０ｃの撮影画像ごとにこれら複数の候補位置全てが尤度評価される。四角形７３０、三角形７３１、五角形７３２は同じ候補位置を表している。記号の位置が候補位置を示す。四角形７３０の大きさは撮影手段１０ａの撮影画像を用いて求めた個別尤度の大きさ、三角形７３１の大きさは撮影手段１０ｂの撮影画像を用いて求めた個別尤度の大きさ、五角形７３２の大きさは撮影手段１０ｃの撮影画像を用いて求めた個別尤度の大きさを示している。撮影手段１０ａ，１０ｃに関する候補位置７３０，７３２は、高混雑度領域６５２の影響を受けていないため、正しく尤度評価ができている。撮影手段１０ｂに関する候補位置７３１の右上側は高混雑度領域６５２の影響を受け正しく尤度評価できずに、個別尤度が高くなっている。

【0080】

図８（ｃ）は図８（ｂ）の個別尤度に、混雑度に基づいた重みＷをかけた重み付け個別尤度を示している。撮影手段１０ａ，１０ｂに関する候補位置７４０，７４２は混雑度が低く重みＷが大きいため、候補位置７４０，７４２の点が大きくなっている。撮影手段１０ｂに関する候補位置７４１は混雑度が高く重みＷが小さいため、候補位置７４１の点が小さくなっている。そのため、群衆６１０（高混雑度領域６５２）により正しく個別尤度が算出できなかった撮影手段１０ｂに関する仮説の影響力が小さくなる。よって、候補位置と重みＷと個別尤度に基づいて加重平均で物体位置を求めた際、撮影手段１０ｂに関する仮説の影響を小さくすることができ、物体位置を高精度に設定できる。

【0081】

［三次元追跡装置５の動作例］
以下、三次元追跡装置５の動作を説明する。図９は三次元追跡装置５の動作の全体フロー図である。三次元追跡装置５の動作が開始されると、撮影手段１０ａ，１０ｂ，１０ｃは画像処理部５３に順次撮影画像を出力する。画像処理部５３は撮影画像が入力されるたびに（ステップＳ５００）、ステップＳ５０１～Ｓ５１０の一連の処理を繰り返す。

【0082】

画像処理部５３は撮影手段１０ａ，１０ｂ，１０ｃで取得した撮影画像に対し混雑度推定手段５３０により混雑度マップを出力する。また、混雑度が予め定めた閾値Ｔ１以上の領域を高混雑度領域として抽出する（ステップＳ５０１）。

【0083】

画像処理部５３は記憶部５２の物体情報５２１に記録された人物ごとに、入力された撮影画像上にて追跡処理を行い現在の物体位置の推定を行う（ステップＳ５０２～Ｓ５０８）。画像処理部５３は記憶部５２の物体情報５２１に記録された追跡対象の人物を順次、追跡処理の対象として選択し、全ての追跡対象の人物について追跡処理が完了した場合は、画像処理部５３は処理をステップＳ５０９に進め、一方、未処理の追跡対象の人物が存在する場合は追跡処理を継続する（ステップＳ５０８）。

【0084】

以下、ステップＳ５０２～Ｓ５０８の追跡処理をさらに詳しく説明する。画像処理部５３は候補位置設定・評価手段５３１として機能し、各追跡人物についてＸＹＺ座標系で仮説の設定を行い、各仮説が示す候補位置に配置した三次元形状モデルを撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する（ステップＳ５０２）。すなわち、候補位置設定・評価手段５３１は過去の追跡情報から現在の候補位置を予測し、仮説に候補位置を設定する。

【0085】

画像処理部５３は重付決定手段５３２として機能し、記憶部５２が記憶している物体情報５２１および混雑度推定手段５３０から入力された混雑度情報を参照し、候補位置それぞれについて、撮影手段１０ａ，１０ｂ，１０ｃの頭部投影領域に対する高混雑度領域の非重複度を重みＷａ，Ｗｂ，Ｗｃとして算出し、算出した重みＷａ，Ｗｂ，Ｗｃを対応する仮説に追記して物体情報５２１を更新する（ステップＳ５０３）。

【0086】

画像処理部５３は候補位置設定・評価手段５３１として機能し、ステップＳ５０２で設定された各仮説に対して撮影手段１０ａ，１０ｂ，１０ｃの撮影画像における全身投影領域の画像特徴と当該人物のテンプレートの画像特徴の類似度に基づいて個別尤度Ｌａ，Ｌｂ，Ｌｃの算出を行う（ステップＳ５０４）。ちなみにテンプレートも撮影手段ごとのものである。

【0087】

その後、画像処理部５３は物体位置決定手段５３３として機能し、ステップＳ５０４にて算出された仮説の個別尤度に基づき、追跡の継続が可能かどうかを判定し（ステップＳ５０５）、不可と判定した場合は追跡終了処理を行う（ステップＳ５０６）。これにより、追跡不可と判定された人物についての追跡が終了され、物体位置決定手段５３３は記憶部５２の物体情報５２１から当該人物に関する情報を削除する。ここで、全ての個別尤度が閾値ＴＬ未満であった人物を追跡継続不可と判定する。これにより撮影画像に写らなくなった人物の情報が削除される。

【0088】

ステップＳ５０５にて追跡の継続が可能と判断された場合は、物体位置決定手段５３３は、ステップＳ５０２で設定された仮説群の候補位置及びステップＳ５０３で算出された重みＷおよびステップＳ５０４で算出された個別尤度に基づいて統合尤度を算出し、統合尤度と候補位置に基づいて追跡人物の物体位置を推定する（ステップＳ５０７）。

【0089】

上述の追跡処理Ｓ５０２～Ｓ５０７が記憶部２５の物体情報５２１に登録された全ての人物に対して行われると、既に述べたように画像処理部５３は処理をステップＳ５０９に進め、物体位置決定手段５３３により、撮影画像にてまだ追跡設定されていない人物の検出を行い、検出された場合は新規の追跡人物として追加する（ステップＳ５０９）。なお、新規の追跡人物として追加された場合は、実施形態１の方法により物体位置を求める。

【0090】

ステップＳ５００で入力された撮影画像に対し上述した処理Ｓ５０１～Ｓ５０９により人物の追跡が完了すると、画像処理部５３は追跡結果を表示部５４へ出力する（ステップＳ５１０）。例えば、画像処理部５３は追跡結果として全人物の物体位置を表示部５４の表示装置等に表示させる。

【0091】

［実施形態２の変形例］
（２－１）上記実施形態２においては、重付決定手段５３２が三次元形状モデルを用いて重みＷを算出したが三次元形状モデルを用いずに重みＷを算出することもできる。例えば、混雑度が低いほど高い重みＷを算出する関係式を予め定めておき、候補位置を投影した投影点の混雑度を混雑度マップから取得して、取得した混雑度に上記関係式を適用して重みＷを算出する。

【0092】

或いは、候補位置を投影した投影点を中心とする近傍領域（例えば５×５画素）の混雑度を混雑度マップから取得して、取得した混雑度の代表値に上記関係式を適用して重みＷを算出する。代表値は例えば最大値、平均値または最頻値とする。この変形例で「個別認識手段が物体を認識した位置」は「候補位置を投影した投影点」または「候補位置を投影した投影点を中心とする近傍領域」とする。

【0093】

（２－２）上記実施形態２においては、重付決定手段５３２が撮影手段１０ａ，１０ｂ，１０ｃと候補位置の組み合わせに対して重みＷを決定する例を示したが、近似的に撮影手段１０ａ，１０ｂ，１０ｃと物体の組み合わせに対して重みＷを決定してもよい。すなわち、複数の候補位置のまとまりに対して重みＷを決定することになる。

【0094】

（２－２－１）例えば、物体ごとに、ＸＹＺ座標系にて当該物体の複数の候補位置それぞれに頭部の三次元形状モデルを配置し、配置した複数の三次元形状モデルをまとめて撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する。この複数の三次元形状モデルの投影領域を「個別認識手段が物体を認識した位置」とみなす。そして、撮影手段１０ａ，１０ｂ，１０ｃについての各物体に関する投影領域内の混雑度に基づいて撮影手段１０ａ，１０ｂ，１０ｃと物体の組み合わせに対する重みＷを算出する。

【0095】

（２－２－２）また、例えば、物体ごとに、ＸＹＺ座標系にて当該物体の複数の候補位置を包含するできるだけ小さな球または楕円体を導出し、導出した球または楕円体を撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する。上記例と同様、この小さな球または楕円体についての投影領域を「個別認識手段が物体を認識した位置」とみなす。そして、撮影手段１０ａ，１０ｂ，１０ｃについての各物体に関する投影領域内の混雑度に基づいて撮影手段１０ａ，１０ｂ，１０ｃと物体の組み合わせに対する重みＷを算出する。

【0096】

（２－２－３）また、例えば、物体ごとに、ＸＹＺ座標系にて当該物体の過去の物体位置に外挿して現在の物体位置を予測し、予測した位置に頭部の三次元形状モデルを配置して撮影手段１０ａ，１０ｂ，１０ｃのｘｙ座標系に投影する。投影領域は上記２例の投影領域を代表する領域と位置付けることができ、この各撮影手段についての投影領域を「個別認識手段が物体を認識した位置」とみなす。そして、撮影手段１０ａ，１０ｂ，１０ｃについての各物体に関する投影領域内の混雑度に基づいて撮影手段１０ａ，１０ｂ，１０ｃと物体の組み合わせに対する重みＷを算出する。

【0097】

なお、変形例（２－１）と同様、変形例（２－２－１）、（２－２－３）において、三次元形状モデルの投影領域の代わりに候補位置そのものを投影した投影点またはその近傍領域における混雑度に基づいて重みＷを算出してもよい。なお、これらの場合、同一物体の仮説には同一の重みＷが設定されることになる。

【0098】

（２－３）上記実施形態２およびその変形例においては、重付決定手段５３２は混雑度のみを使って重みＷを決定していたが、これに加え、撮影手段から追跡対象までの距離、他の人物や障害物による隠蔽の度合など様々な要素から撮影手段が追跡に好適であるかを判断し重みＷを決定することができる。

【0099】

（２－４）上記実施形態２およびその各変形例においては、候補位置設定・評価手段５３１は１つの仮説の個別尤度の算出（すなわち個別認識）を全ての撮影手段に対して行ったが、仮説ごとに撮影手段を１つ定めて個別尤度の算出を行ってもよい。この場合、尤度の統合はなく、物体位置決定手段５３３が重みＷと個別尤度の積で候補位置を重み付け平均する構成とすることができる。つまり、その構成において重みＷによる重み付けの対象は候補位置となる。或いは仮説の数によって重み付けを行う構成とすることができる。例えば、候補位置設定・評価手段５３１は、変形例（２－２－３）のように物体位置を予測し、予測した位置において、撮影手段と物体の組み合わせに対する重みＷを算出し、撮影手段と物体の組み合わせに対する候補位置を当該組み合わせの重みＷに応じた数だけ設定する。１物体当たりの候補位置をＮ個、注目する物体の撮影手段Ｃに関する重みをＷ_Cとすると、当該物体の撮影手段Ｃに関する候補位置はＮ×Ｗ_C／ΣＷ_Cとなる。その構成においても重みＷによる重み付けの対象は候補位置である。

【0100】

（２－５）上記実施形態２およびその各変形例においては、物体位置決定手段５３３が背景差分処理に基づき新規物体を検出する例を示したが、その代わりに、追跡対象とする物体の画像を不特定多数機械学習した（例えば不特定多数の人の画像を深層学習した）学習済みモデルを用いて新規物体を検出してもよい。その場合、物体位置決定手段５３３は、撮影画像を学習済みモデルに入力して物体の領域を検出し、いずれの形状モデルとも重複しない領域が閾値ＴＳ以上の大きさである物体の領域に新規物体が存在すると判定する。

【0101】

［実施形態１，２に共通の変形例］
（３－１）上記実施形態１，２およびその各変形例においては、重付決定手段による混雑度に基づく重みＷの算出は、単純に物体の位置での混雑度に基づいて行っていたが、物体への視線方向に沿った領域での混雑度を加味して重みＷを算出してもよい。

【0102】

図１０（ａ）に示す例では、人物８００について、撮影手段１０ａの撮影画像８２１上の領域８３１での混雑度と撮影手段１０ｂの撮影画像８２２上の領域８３２での混雑度は同程度である。しかし、撮影手段１０ａから見ると人物８００は群衆８１０の手前であり隠蔽されていないのに対し、撮影手段１０ｂから見ると人物８００は群衆８１０の奥であり一部が隠蔽されている。そのため撮影手段１０ａについての個別認識結果の方が撮影手段１０ｂについての個別認識結果よりも信頼性が高い。

【0103】

そこで、実施形態２の重付決定手段５３２は、候補位置に頭部の三次元形状モデルを配置した頭部投影領域８５０に加えて、候補位置と撮影手段の位置とを結ぶ直線上で候補位置よりも撮影手段に近い位置に配置した頭部投影領域８５１と、同直線上で候補位置よりも撮影手段から遠い位置に配置した頭部投影領域８５２とをさらに算出して、各頭部投影領域での混雑度を加味する。図１０（ｂ）に示す例では、撮影手段１０ａに近い側の頭部投影領域８５１と遠い側の頭部投影領域８５２での指標（非重複度、閑散度または混雑度）を算出する。

【0104】

実施形態１の重付決定手段１３２の場合これを近似的に行う。例えば、撮影手段が俯瞰設置された広角カメラであれば、人物領域を画面下にずらして候補位置よりも撮影手段に近い位置での人物領域とし、人物領域を画面上にずらして候補位置よりも撮影手段から遠い位置での人物領域とする。また、例えば、撮影手段が俯瞰設置された魚眼カメラであれば、人物領域を画面中央からの放射線上で中央に近づく方向にずらして候補位置よりも撮影手段に近い位置での人物領域とし、人物領域を同放射線上で中央から離れる方向にずらして候補位置よりも撮影手段から遠い位置での人物領域とする。

【0105】

ずらし量は、撮影手段の取り付け位置や角度等に応じて調整し、例えば元の領域と半分程度重なる量とすればよい。そして、重付決定手段１３２，５３２は、候補位置での指標と、撮影手段に近い位置での指標と、撮影手段から遠い位置での指標の平均値を求め、平均値に応じた重みＷを決定する。この際、撮影手段に近い位置での指標を撮影手段から遠い位置での指標よりも大きく重み付けた重み付け平均値とするのが好適である。

【0106】

（３－２）混雑度推定手段１３０，５３０が連続値を出力する推定器を用いた例を示したが、離散的な混雑度を出力する推定器を用いることもできる。

【0107】

例えば、推定器を多クラスＳＶＭ（Support Vector Machine）でモデル化し、混雑度の度合いに応じて「背景（無人）」、「低混雑度」、「中混雑度」、「高混雑度」の４クラスに分類してラベル付けされた学習用画像を用いて当該モデルを学習させておく。そして、混雑度推定手段１３０，５３０は、撮影画像の各画素を中心とする窓を設定して窓内の画像の特徴量を推定器に入力し、各画素のクラスを識別する。混雑度推定手段１３０，５３０は、上述した非重複度を用いる場合は「高混雑度」ラベルの画素の集まりを高混雑度領域とし、上述した閑散度を用いる場合は各ラベルをその混雑度合いに応じて予め定めた数値に置換して離散値の混雑度マップとする。

【0108】

また、多クラスＳＶＭ以外にも、決定木型のランダムフォレスト法、多クラスのアダブースト（AdaBoost）法または多クラスロジスティック回帰法などにて学習した種々の多クラス識別器によっても推定器を実現できる。或いは識別型のＣＮＮによっても推定器を実現できる（ＣＮＮの場合、窓走査は不要）。また、クラス分類された学習用画像を用いる場合でも特徴量から混雑度を回帰する回帰型のモデルとすることによって連続値の混雑度を出力する推定器を実現することもできる。その場合、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰（Gaussian Process Regression）などによって、特徴量から混雑度を求めるための回帰関数のパラメータを学習させる。或いは回帰型のＣＮＮを用いた推定器とすることもできる（ＣＮＮ場合、窓走査は不要）。

【0109】

（３－３）本発明は、車両、動物等、混雑状態をなし得る人以外の物体にも適用できる。

【符号の説明】

【0110】

１…三次元位置推定装置（物体認識装置）、１０ａ，１０ｂ，１０ｃ，５０ａ，５０ｂ，５０ｃ…撮影手段、１１，５１…通信部、１２，５２…記憶部、１３，５３…画像処理部、１４，５４…表示部、１２０，５２０…カメラパラメータ、１３０、５３０…混雑度推定手段、１３１…二次元位置推定手段（個別認識手段）、１３２、５３２…重付決定手段、１３３…三次元位置推定手段（統合認識手段）、１３４…推定結果出力手段、５…三次元追跡装置、５２１…物体情報、５３１…候補位置設定・評価手段（個別認識手段）、５３３…物体位置決定手段（統合認識手段）、５３４…追跡結果出力手段

【図1】