特許第6185919号(P6185919)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ コンサルタンシー サービシズ リミテッドの特許一覧

特許6185919人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム
<>
  • 特許6185919-人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム 図000018
  • 特許6185919-人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム 図000019
  • 特許6185919-人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム 図000020
  • 特許6185919-人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム 図000021
  • 特許6185919-人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム 図000022
  • 特許6185919-人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6185919
(24)【登録日】2017年8月4日
(45)【発行日】2017年8月23日
(54)【発明の名称】人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム
(51)【国際特許分類】
   G06T 1/00 20060101AFI20170814BHJP
   G06T 7/00 20170101ALI20170814BHJP
【FI】
   G06T1/00 340B
   G06T7/00 350A
【請求項の数】15
【全頁数】16
(21)【出願番号】特願2014-540637(P2014-540637)
(86)(22)【出願日】2012年11月7日
(65)【公表番号】特表2014-532947(P2014-532947A)
(43)【公表日】2014年12月8日
(86)【国際出願番号】IN2012000733
(87)【国際公開番号】WO2013105108
(87)【国際公開日】20130718
【審査請求日】2015年5月21日
(31)【優先権主張番号】3167/MUM/2011
(32)【優先日】2011年11月9日
(33)【優先権主張国】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
(74)【代理人】
【識別番号】100130111
【弁理士】
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】グプタ、ロイット
(72)【発明者】
【氏名】シンハ、アニルダッハ
(72)【発明者】
【氏名】パル、アルパン
(72)【発明者】
【氏名】チャクラヴォルティ、アリトラ
【審査官】 佐藤 卓馬
(56)【参考文献】
【文献】 国際公開第01/027875(WO,A1)
【文献】 特開2009−211274(JP,A)
【文献】 特開2002−074371(JP,A)
【文献】 特開2011−215695(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
事前定義表示エリア内で取り込まれた画像の少なくとも1つのフレーム中のリアルタイム人物カウンティングの精度を高める方法であって、プロセッサにより、
数の人物検出モダリティのうちの少なくとも2つの人物検出モダリティを使用することにより、前記取り込まれた画像の1つまたは複数のフレーム中の少なくとも1人の人物を検出して、検出された前記少なくとも1人の人物を含む前記取り込まれた画像に対する人物カウント値を、前記人物検出モダリティの各々に対して計算するステップと
前記人物検出モダリティの各々に関する各フレーム中の前記人物カウント値の分散を決定するために使用される、前記取り込まれた画像の各フレーム中の人物画像の変動の値を提供すると共に、各フレーム中の活動の尺度を示す活動確率を計算するステップと、
前記人物の場所を検出するために、回帰モデルを適用することにより、各フレームに対する前記人物検出モダリティの各々の前記人物カウント値、及び前記活動確率を選択的に統合すると共に、修正された人物カウント値を導出するために、前記取り込まれた画像における前記少なくとも1人の人物の検出に関して信頼できない要因を低減するステップと、を有する
ことを特徴とする方法。
【請求項2】
前記人物カウント値に基づき、各人物検出モダリティの精度を示す精度確率が最大である最大精度確率を有する前記少なくとも2つの人物検出モダリティを選択することにより、各フレーム内部の前記人物カウントの精度を高めるステップを有する
請求項1に記載の方法。
【請求項3】
前記精度は、各人物検出モダリティの前記精度確率を計算するために、前記画像の各フレーム内部の前記活動確率及び前記人物カウント値前記回帰モデルを適用することにより高められる
請求項2に記載の方法。
【請求項4】
前記人物検出モダリティの各々に対して計算された活動確率は、前記画像の入力共変量を比較するための所定の値を含むグラウンド・トルース・データに近い値を提供する
請求項1に記載の方法。
【請求項5】
前記検出ステップは、少なくとも1つの画像取込デバイスの前記事前定義表示エリア内部で前記少なくとも1人の人物をリアルタイムに追跡することを有する
請求項1に記載の方法。
【請求項6】
前記少なくとも1人の人物を検出する前記ステップは、
Haarを使用して人物の顔を検出すること
勾配方向ヒストグラム(Histogram Oriented Gradient、HOG)を使用して体を検出すること、並びに、
背景差分(Background Subtraction、BGS)、またはHaar、HOG、及びBGSの組合せを使用して前記人体に関連する背景の変化を検出することのうち少なくとも1つを有する
請求項1に記載の方法。
【請求項7】
前記人物カウント値は、前記少なくとも1人の人物を含むグレースケール画像に関する
請求項1に記載の方法。
【請求項8】
前記人物カウント値及び前記活動確率を選択的に統合するために使用される融合技法は、選択技法である
請求項1に記載の方法。
【請求項9】
Haar、HOG、及びBGSの前記組合せは、ベイズの融合技法に基づく
請求項に記載の方法。
【請求項10】
事前定義表示エリア内で取り込まれた画像の少なくとも1つのフレーム中のリアルタイム人物カウンティングの精度を高めるシステムであって、
複数の人物検出モダリティのうちの少なくとも2つの人物検出モダリティと協調して、前記取り込まれた画像の複数の人物検出モダリティから少なくとも1人の人物を検出して、検出された少なくとも1人の人物を含む前記取り込まれた画像に対して、前記人物検出モダリティの各々に対して計算された人物カウント値を得るように構成される、複数のモダリティ埋め込まれた検出ユニットと、
前記取り込まれた画像の各フレーム中の人物画像の変動の値であって、前記人物検出モダリティの各々に関連する各フレーム中の前記人物カウント値の分散を決定するために使用される変動の値を提供すると共に、各フレーム中の活動の尺度を示す活動確率を計算するように適合され計算モジュールと、
前記人物の場所を正確に検出するために、回帰モデルを適用することにより、各フレームに対する前記人物検出モダリティの各々の前記人物カウント値、及び前記活動確率を選択的に統合すると共に、修正された人物カウント値を導出するために、前記取り込まれた画像における前記少なくとも1人の人物の検出に関して信頼できない要因を低減するように適合された融合プロセッサと、を備える
ことを特徴とするシステム。
【請求項11】
前記活動確率に基づき、前記人物検出モダリティの各々により、前記人物カウント値を得る際の精度を示す精度確率を計算すると共に、前記人物カウント値に基づき、前記少なくとも2つの人物検出モダリティを選択する精度エンハンサを備える
請求項10に記載のシステム。
【請求項12】
前記人物検出モダリティは、Haar、勾配方向ヒストグラム(HOG)、背景差分(BGS)、またはこれらの組合せを有する
請求項10に記載のシステム。
【請求項13】
前記少なくとも1人の人物を検出することは、
Haarを使用して人物の顔を検出すること、
勾配方向ヒストグラム(Histogram Oriented Gradient、HOG)を使用して人体を検出すること、並びに、
背景差分(Background Subtraction、BGS)、またはHaar、HOG、及びBGSの組合せを使用して前記人体に関連する背景の変化を検出することのうち少なくとも1つを有する
請求項10に記載のシステム。
【請求項14】
前記人物カウント値は、前記少なくとも1人の人物を含むグレースケール画像に関する
請求項10に記載のシステム。
【請求項15】
Haar、HOG、及びBGSの前記組合せは、ベイズの融合技法に基づく
請求項13に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に画像処理の分野に関し、詳細には、画像内の人物をリアルタイムにカウントする精度を高めるための方法及びシステムに関する。
【背景技術】
【0002】
画像またはビデオ内の人物の活動を検出することは非常に重要であり、自動人体検出が重要な成功要因である適用分野、たとえばセキュリティ及び監視、ロボット工学、監視及び高速道路交通システム、自律車両及び自動運転者支援システムなどのために人物の存在を検出することが重要である。同様に、コンピュータ・ビジョン・システムでは、各セグメント内の物体を検出する、及び他の物体から人物を区別するための画像のセグメント化は、依然として難題である。
【0003】
画像内に出現する多数の視覚的パターンが、複雑さを増大させる。人物検出は、画像内の人物の存在を検出するハードウェア及びソフトウェアの能力を要する。現在、画像内の人物の検出は、さまざまな人物検出技法及びアルゴリズムを使用することにより実現される。このような技法及びアルゴリズムは広く使用されているが、前記技法及びアルゴリズムによりもたらされる結果は、多くの場合、多数の間違った予測を含む。
【0004】
人物検出及び追跡技法に関連する間違った予測またはエラーを低減することに関連する問題に対処するために、多くの解決策が提案された。人物を検出するためにしばしば取られる技法の1つが、人物をリアルタイムに検出するために、複数の人物検出技法を組み合わせることである。しかしながら、組合せの成功は、各検出技法に関連するエラーにより影響を受ける。このような解決策の1つが、ベイズの融合分類器技法(Bayesian fusion Classifier technique)を使用して処理されたDFAベクトルから、解析される画像を表現するベクトルを教示する、Chengjun Liuの特許文献1で開示された。この方法は、比較的低いエラーの確率及び誤検出率の顔検出を開示するが、2つ以上の技法またはアルゴリズムが関与するとき、解決策の精度の決定に関して依然として言及していない。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許第7,162,076号明細書
【特許文献2】インド特許出願第1359/MUM/2011号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、画像内の人物を検出するために適用されるすべての技法の精度を決定することにより、人物検出のために利用可能な複数の技法の間違った予測を低減することができる解決策の技術が必要である。
【0007】
なお、人物検出モダリティで人物カウントの精度を高めるシステム及び方法を提案すること、本発明の目的となりうる。
【0008】
また、人物検出モダリティに関連する、信頼できない要因を低減するシステム及び方法を提案すること、本発明の目的となりうる。
【0009】
また、取り込まれた画像のフレーム中の人物をカウントするための、最も正確な人物検出モダリティを選択するシステム及び方法を提案すること、本発明の目的となりうる。
【課題を解決するための手段】
【0010】
一様態では、本発明は、事前定義表示エリア内でリアルタイムに取り込まれた画像の少なくとも1つのフレーム中の人物カウンティングの精度を高める方法であって、前記取り込まれた画像の特徴的結果を得るために少なくとも1つの人物検出モダリティを使用することにより、1つまたは複数のフレーム中の人物を検出する、プロセッサに実装されたステップと、人物検出モダリティの得られた特徴的結果間を切り替えることにより、及び事前に計算された活動確率を使用することにより、精度確率を計算する、プロセッサに実装されたステップとを備える方法を開示する。活動確率は、各フレーム中で検出された人物カウントの分散を決定するように適合される。前記方法は、事前定義表示エリア内の人物の場所を検出するための選択技法を使用することにより、人物検出モダリティと活動確率の組合せから、各フレームに対して得られた特徴的結果を選択的に統合する、プロセッサに実装されたステップをさらに備える。人物検出モダリティの組合せは、ベイズの融合技法(Bayesian fusion technique)に基づく。
【0011】
他の様態では、本発明はまた、事前定義表示エリア内でリアルタイムに取り込まれた画像の少なくとも1つのフレーム中の人物カウンティングの精度を高めるシステムであって、少なくとも1つのモダリティ構成要素が埋め込まれた検出ユニットを備えるシステムを開示する。検出ユニットは、少なくとも1つの人物検出モダリティと協調して人物を検出して、前記取り込まれた画像に関連する特徴的結果を得るように構成される。システムは、各人物検出モダリティに関連する活動確率を計算するように適合された計算モジュールをさらに備える。活動確率は、各フレーム中で検出された人物カウントの分散を決定する。システムは、各フレームに対する各人物検出モダリティから得られた複数の特徴的結果を選択的に統合するように適合された融合プロセッサをさらに備える。
【図面の簡単な説明】
【0012】
図1】本発明の一実施形態によるシステムのアーキテクチャ
図2】本発明の代替の一実施形態による人物カウント機構を示す説明図
図3】本発明の代替の一実施形態による精度計算のプロセスフロー
図4】本発明の代表的一実施形態を示す説明図
図5】本発明の代表的一実施形態による検出精度の結果を示す説明図
図6】本発明の代表的一実施形態による信頼できない要因に関する結果を示す説明図
【発明を実施するための形態】
【0013】
次に、本発明の特徴を例示する、本発明のいくつかの実施形態について説明する。
【0014】
「備える」、「有する」、「含有する」、及び「含む」という用語、ならびにこれらの他の形態は、意味が同等であることが意図され、これらの用語の任意の1つに続く1つまたは複数の項目が、このような1つまたは複数の項目の網羅的列挙であることを意味することも、列挙した1つまたは複数の項目だけに限定されることを意味することもないという点で非限定的である。
【0015】
また、本明細書及び添付の特許請求の範囲で使用するとき、単数形「a」、「an」、及び「the」は、文脈において特に明記しない限り、複数の指示対象も含む。本明細書で説明するシステム、方法、装置、及びデバイスに類似する、または等価な任意のシステム、方法、装置、及びデバイスを、本発明の実施形態の実現及び試験で使用することができるが、次に、好ましいシステム及び部分について説明する。
【0016】
開示する実施形態は、本発明の代表的実施形態でしかなく、本発明はさまざまな形態で具体化されてもよい。
【0017】
本発明は、人物カウンティングの精度を高めるための方法及びシステムに関する。人物カウンティングは、通常、複数の人物検出モダリティを使用することにより実現される。複数の人物検出モダリティ、たとえば、勾配方向ヒストグラム(Histogram Oriented Gradient、HOG)、Haar(ハール)、及び背景差分(Background Subtraction、BG)は、人物画像を検出及び追跡して、人物の数を決定する。複数の人物検出モダリティのうちの各人物検出モダリティは、特定の信頼できない要因関連づけられる。信頼できない要因の例は、ビデオフレームの変動、不適切な人物検出、誤検出などを含む。本発明は信頼できない要因を低減するために、各人物検出モダリティの精度を計算する。信頼できない要因を低減することにより、人物カウントの精度が高まり、さらに、最も高い精度の人物検出モダリティを選択することが可能になる。
【0018】
本発明のさまざまな様態及び実施形態によれば、本明細書で説明する方法は、コンピュータプロセッサ上で実行されるソフトウェアプログラム(1組のプログラムされた命令)として動作することが意図される。
【0019】
一様態によれば、図1を参照すると、システム(100)は、複数のフレーム中の画像を取り込むための画像取込デバイス(102)を備える。システム(100)は、人物を検出するように構成された検出ユニット(104)をさらに備える。検出ユニット(104)は、少なくとも1つのフレーム中の人物を検出するために、少なくとも1つの人物検出モダリティを適用するための少なくとも1つのモダリティ構成要素(106)をさらに埋め込まれる。人物検出モダリティは、このように取り込まれた画像(取り込まれた画像と呼ぶ場合がある)に関連する特徴的結果を得るために適用される。特徴的結果は、人物のグレースケール画像の人物カウント値を含む。人物検出モダリティは、Haar、勾配方向ヒストグラム(HOG)、背景差分(BGS)、またはこれらの組合せを含んでもよいが、これらに限定されない。
【0020】
本発明の一実施形態によれば、システム(100)は、1つまたは複数のフレーム中の人物を追跡するための追跡モジュール(図示せず)をさらに備える。追跡モジュールは、人物を追跡するために、画像内に存在する信頼できない要因で人物を差別化することにより、人物画像をさらに処理する。
【0021】
システム(100)は、各人物検出モダリティに関連する活動確率を計算するように適合された計算モジュール(108)をさらに備える。活動確率は、各フレーム中で検出された人物カウントの分散を決定するための、取り込まれた画像の各フレーム中の変動の値を提供する。計算モジュール(108)はまた、各人物検出モダリティの精度を決定するための精度確率を計算する。
【0022】
システム(100)は、検出ユニット(104)及び計算モジュール(108)と通信する融合プロセッサ(110)をさらに備え、画像取込デバイス(102)により取り込まれた画像に関連する特徴的結果、及び各人物検出モダリティに関連する活動確率を選択的に統合するように適合される。
【0023】
一実施形態によれば、システム(100)は、融合プロセッサ(110)に通信可能に連結された精度エンハンサ(112)をさらに備える。精度エンハンサ(112)は、画像内の人物カウントの精度を高めるために、融合プロセッサ(110)と共に機能する。精度エンハンサ(112)は、回帰モデルを使用することにより、各人物検出モダリティの各々に関連する特徴的結果、及び各人物検出モダリティに関連する活動確率を選択的に統合するモジュール(116)をさらに備える。選択的統合は、最も正確な人物検出モダリティ、または選択された人物検出モダリティを選択するように実現される。
【0024】
システム(100)は、精度エンハンサ(112)と通信する人物カウンタ(114)をさらに備える。人物カウンタ(114)は、選択された人物検出モダリティに従って人物をカウントするように適合される。好適な人物検出モダリティ(または選択された人物検出モダリティ)は、選択的統合が実現された後に、精度エンハンサ(112)により選択された最も正確な人物検出モダリティである。
【0025】
一実施形態によれば、図2を参照すると、画像取込デバイス(102)は、現在のフレーム及び先行するフレーム中の人物の画像を取り込む。複数のフレーム中の抽出された画像の1つまたは複数の特徴が、閾値と比較される。閾値は手作業で選択される。閾値は、画像が活動状態の画像であるかどうかを決定するのに役立つ。活動状態の画像は、固定していないフレームで取り込まれた画像である。活動状態は、活動確率に関して計算モジュール(108)により計算される。
【0026】
次いで、検出ユニット(104)により、少なくとも1つの人物検出モダリティを使用することにより、1つまたは複数のフレーム中で人物が検出される。図2をさらに参照すると、ステップ202に示すように、検出ユニット(104)は、人物を検出するために、前景抽出を適用する。検出ユニット(104)は、人体を検出するために、勾配方向ヒストグラム(HOG)をさらに適用する。高速物体を検出するために、線形SVMのカスケーディングが行われる。この場合、物体は人物を指す。検出ユニット(104)は、人物の顔を検出するために、Haar特徴抽出をさらに適用する。背景差分(BGS)を使用することにより、背景変化が検出される(特許文献2参照)。
【0027】
図1を再度参照すると、計算モジュール(108)は活動確率を計算する。計算モジュール(108)は、人物検出モダリティから得られた特徴的結果の間を切り替えることにより、及び事前計算された活動確率の値を使用することにより、各人物検出モダリティの精度確率をさらに計算する。活動確率は、各ビデオフレーム中で検出された人物カウントの分散を決定する。
【0028】
図2を参照すると、ステップ204に示すように、融合プロセッサ(110)は、選択技法を使用することにより人物検出モダリティの各々から得られた特徴的結果の組合せを生成する。人物の場所を検出するために、及び各人物検出モダリティに関連する信頼できない要因を低減するために、上記の組合せ(すなわち、HOG、HAAR、勾配方向ヒストグラム、及びBGS)の特徴的結果を選択的に統合することが実現される。
【0029】
一実施形態によれば、1つまたは複数の人物検出モダリティの組合せを実現するために使用される選択技法は、ベイズの融合技法である。ベイズの融合により、人物検出モダリティの分類成果が改善される。個々の人物検出モダリティ(Haar、勾配方向ヒストグラム(HOG)、背景差分(BGS))が、それ自体の特徴的結果を提供する。分類システムは、各人物検出モダリティに関連する活動確率を観察することにより、物体が人物クラス(H)に属するかどうかを決定する。ベイズの融合技法のベイズ分類器は、特徴的結果を任意の事前p(H)と融合して、大域コンセンサス事後確率p(H/Z)に至り、ここで、Z=∪{Z}∀iである。p(H)は、クラスタイプHの事前確率であり、Z={HOG、BGS、Haar}である。勾配方向ヒストグラム(HOG)分類器は、p(H/ZHOG)により人物クラスHに属する物体の事後確率について記述する。同様に、p(H/ZBGS)及びp(H/ZHaar)は、その他の2つの人物検出モダリティにより与えられる。同じ重要性の、すなわち同じ検出信頼水準の、これらの情報キューが、情報融合過程で与えられるべきであると仮定する。情報融合は、ベイズのモデル化手法を使用して対処される。
【0030】
一実施形態によれば、図3を参照すると、画像取込デバイス(102)は、複数のフレーム中の、たとえば、古いフレーム及び新しいフレーム中の画像を取り込む。ステップ208に示すように、両フレームの特徴値の差を取った後に、マトリックスを準備する。特徴値は、画像の画素値である。マトリックスを使用して、画素値の標準偏差及び平均を計算する。ステップ202に示すように、検出ユニット(104)は人物検出モダリティのうち少なくとも1つを1つまたは複数の組合せでさらに適用する。具体的な例では、組合せは、勾配方向ヒストグラム(HOG)、背景差分、及びHaarの組合せ、または勾配方向ヒストグラム(HOG)及び背景差分(BG)の組合せを含む
【0031】
同時分布から開始して、結合規則を再帰的に適用して、分解を得る。
【0032】
【数1】
【0033】
式(1)は、異なる人物検出モダリティから得られる観察結果が独立であると仮定する。多感覚応用システムでは、各情報源が共通に有する唯一のパラメータが状態であるので、各情報源の尤度p(Z/H)、i=1,…,nが独立であるという主張は合理的である。情報融合を定義する条件付き確率を(2)のように書くことができる。
【0034】
【数2】
【0035】
図3を再度参照すると、各人物検出モダリティから得られる特徴的結果は、グレースケール画像の人物カウント値を含む。特徴的結果を計算する間に、1組のマトリックスを形成してもよく、マトリックスでは、成分が、グレースケール画像の画素値を含んでもよい。ステップ210に示すように、マトリックスは、顕著な活動が発生したフレームを識別するために、融合プロセッサ(110)及び精度エンハンサ(112)により処理される。これにより、各フレームの活動の尺度が与えられる。先行するフレームから画素値が大きく変化する場合に、顕著な活動が出現する。このとき、マトリックスは、画素値の異なる成分を有し、処理される。
【0036】
図3を再度参照すると、ステップ212及び214に示すように、精度エンハンサ(112)は、1つまたは複数の人物検出モダリティにより得られた特徴的結果、及び各人物検出モダリティに関連する活動確率に回帰モデルを適用することにより、精度を高める。第1のステップは、情報源として画素値の平均及び標準偏差を選ぶことである。平均及び標準偏差値は、活動確率に回帰モデルを適用するための入力共変量(少なくとも2つの変数の組合せ)とみなされ、精度確率は、活動確率値を使用することにより計算される。
【0037】
共変量(共変量ベクトルCV=[平均,分散]に対して、V=[1,平均,分散]とし、ロジスティック回帰yの値が以下の分布を有する。
【0038】
【数3】
【0039】
【数4】
【0040】
であり、ここで、αは推定されるモデルのベクトルパラメータである。
【0041】
出力値が事前に決められている、サイズkのサンプルが存在するとする。この事前決定は、手作業による決定であってもよい。yは、i=1,2,3,…,kに対して既知である。αの関数である尤度関数L(α)は、次式で与えられる。
【0042】
【数5】
【0043】
αに対して尤度関数L(α)を最大にして、L(α)を最大にするαの値として、以下の推定値を得る。
【0044】
【数6】
【0045】
これらのパラメータの助けを借りて、活動確率の値を計算する。これらの値は、活動状態の尺度を提供する。具体的な例として、0.7より大きな確率値が、所望の、固定していないフレームを示す。この活動確率の助けを借りて、計算モジュール(108)は、各人物検出モダリティの精度を決定するための精度確率を計算する。
【0046】
図3を再度参照すると、ステップ212に示すように、回帰モデルの入力として、人物検出モダリティの出力が存在する。具体的な例として、フレームレベルで、3つの人物検出モダリティの出力が存在する。各フレームに対して、出力X=Haar、X=HOG+BG、及びX=HOG+BG+Haarがあるとする。これらのXのすべてが、整数の値を取るカテゴリ変数である。
【0047】
その他の入力が、各人物検出モダリティに対して計算された活動確率Pである。
【0048】
共変量として、1組の独立した対照が入力に基づき入念に選ばれ、活動確率は、共変量として変化しないとみなされる。
【0049】
換言すれば、共変量は以下である。
CV=X−X
CV=X−X
CV=P。
【0050】
次式を考えてみる。
【0051】
【数7】
【0052】
【数8】
【0053】
モデルが、関数
【0054】
【数9】
【0055】
である。これらの関数のクラスの中の最良の要素を選ぶ。しかし、このクラスの中の最良の要素が、確率値1を有するグラウンド・トルース・データに出力が最も近い回帰モデルであることは明らかである(手作業で決定されたグラウンドトルースが、小さなサンプルで利用可能である)。
【0056】
特殊なクラスの関数f(CV)=g(α’V)を考えてみる。ここで、Vは、CV上の初等変換である。利用可能な観察されたデータ、またはサンプルから、回帰モデルが最良の成果を与える、マトリックスαの最適値を決定する。gが平滑な凸関数(一定次数までゼロではない正の導関数を有する関数を意味する)、たとえば、α’Vの個々の行に対する論理関数のベクトルであることが一般に考えられる。
【0057】
CVがnの値
【0058】
【数10】
【0059】
を取るとして、i番目の共変量に対して、n−1の指標変数
【0060】
【数11】
【0061】
を、i=1,2;j=1,2,3,…,nに対してIi,j=Ind(CV=ki,j)として導入する。このとき、この変換されたベクトルは、以下のように定義される。
【0062】
【数12】
【0063】
グラウンド・トルース・データは、所望の出力ベクトルY=(y,y,y)のサンプルをもたらす。yのうち1つが1であり、残りがゼロである。回帰モデルを得るために、フレームレベルの値から、パラメータの関数が構築され、パラメータに対して最大化される。
【0064】
gが論理関数のベクトルであるとする。Vがmの要素を有するとする。α=[α,α]について考えてみる、ここで、α及びαは長さmのベクトルである。
【0065】
このとき、g(α’V)=g([α,α]’V)=[p(α’V),p(α’V),p(α’V)]’であり、ここで、pは、
(α’V)=exp(α’V)/[1+exp(α’V)+exp(α’V)]、
(α’V)=exp(α’V)/[1+exp(α’V)+exp(α’V)]、及び
(α’V)=(1−[p(α’V)+p(α’V)])
のように定義される。
【0066】
サイズkのサンプルがあるとする。このとき、尤度関数は次式となる。
【0067】
【数13】
【0068】
Fisherのスコアリング法を使用して、αの最尤推定値と呼ばれる推定値
【0069】
【数14】
【0070】
を得ることにより、αに関して尤度関数L(α)を最大化する。
【0071】
図3を参照すると、ステップ214に示すように、パラメータを導出した後、回帰モデルを使用して計算した、事前に計算された活動確率を使用することにより、計算モジュール(108)により精度確率を計算する。ステップ216に示すように、信頼できない要因を低減するために、最大確率を有する人物検出モダリティを選択する。最大確率を有する人物検出モダリティが2つ以上あるときには、ランダムに選択する。
【0072】
図2及び図3を参照すると、ステップ206に示すように、このとき、人物カウンタ(114)は、変動のないフレームを考慮すると共に、窓の中で最大確率を有する人物検出モダリティを使用することにより、人物をカウントする。
【0073】
本発明を機能させるための最良の形態/実施例:
図4を参照すると、人物を検出及びカウントするために、複数の人物検出モダリティがグループで、または個別に使用される。これらをアルゴリズムと呼ぶ。これらのアルゴリズムは、トレーニング及び試験のために使用される。グラウンド・トルース・データは、手作業で選択された参照用データを含む。人物検出モダリティの選択を以下に示す。
Algo1−Haar、
Algo2−勾配方向ヒストグラム(HOG)+背景差分(BG)
Algo3−Haar+勾配方向ヒストグラム(HOG)+背景差分(BG)、
であり、Algoはアルゴリズムを意味する。
【0074】
所定のグラウンド・トルース・データの助けを借りて、所望のパラメータを手作業で生成する。Algo1、Algo2、及びAlgo3について、計算モジュール(108)が活動確率を計算し、活動確率をそれぞれProb1、Prob2、及びProb3とする。融合プロセッサ(110)及び精度エンハンサ(112)を用いて、回帰モデルを適用することにより、これらのアルゴリズムの選択的統合を実現する。Algo1、Algo2、及びAlgo3について計算した検出率及び誤検出を以下の表に示す。
【0075】
表1及び表2:検出率及び誤検出
【0076】
【表1】
【0077】
【表2】
【0078】
図5及び図6は、それぞれ検出率及び誤検出を示すために、表1及び表2から得られた結果のグラフ表示を示す。
【0079】
上述の表で、最大精度確率を有するアルゴリズムが選択される。
【0080】
上記の手法を使って、検出精度を維持しながら、信頼できない要因または誤検出の低減が、40%から20%以下まで達成される。
【0081】
さまざまな様態及び実施形態に関連して説明した方法論及び技法は、1組の命令が、実行されたときに、上記で説明した方法論のうち任意の1つまたは複数を機械に実現させてもよい機械または他のコンピューティングデバイスを使用して実現されることができる。機械は、バスを介して互いに通信するプロセッサ(たとえば、中央処理装置(CPU)、グラフィック処理装置(GPU)、または両方)、メインメモリ、及びスタティックメモリを含んでもよい。ディスク・ドライブ・ユニットが、上記で例示したこれらの方法を含む、本明細書で説明する方法論または機能のうち任意の1つまたは複数を具体化する1つまたは複数の組のプログラムされた命令(たとえば、ソフトウェア)が記憶された機械可読媒体を含んでもよい。命令はまた、メインメモリ、スタティックメモリ内部に、及び/または機械により命令が実行される間にプロセッサ内部に、全部または少なくとも一部、存在してもよい。メインメモリ及びプロセッサはまた、機械可読媒体を構成してもよい。
【0082】
さまざまな様態、実施形態、及び図面を参照して、上記の説明を提示した。説明した動作の構造及び方法の代替形態及び変更形態が、原理及び範囲を有意に逸脱することなく実施することができる。
図1
図2
図3
図4
図5
図6