【文献】
坪下幸寛, 外2名,“混合ガウスモデルを用いた自動画像アノテーション手法に対するノンパラメトリックベイズモデルの適用”,情報処理学会研究報告,日本,一般社団法人情報処理学会,2012年10月15日
【文献】
Yuanlu Xu, 外3名,"Person Search in a Scene by Jointly Modelling People Commonness and Person Uniqueness",Proceedings of the 22nd ACM International Conference on Multimedeia,ACM,2014年11月 7日,p.937-940
【文献】
Florent Perronnin, 外1名,"Fisher Kernels on Visual Vocabularies for Image Categorization",2007 IEEE Conference on Computer Vision and Pattern Recognition,米国,IEEE,2007年 6月22日
(58)【調査した分野】(Int.Cl.,DB名)
第1の画像レベル記述子と第2の画像レベル記述子との間の類似性を計算するマッチングコンポーネントであって、前記第1の画像レベル記述子は、前記第1のカメラにより撮像された第1の画像から、前記第1のカメラ依存の生成モデルを使用して抽出され、前記第2の画像レベル記述子は、前記第2のカメラにより撮像された第2の画像から、前記第2のカメラ依存の生成モデルを使用して抽出される、マッチングコンポーネント、
をさらに備える、請求項6に記載のシステム。
第1の画像レベル記述子および第2の画像レベル記述子のうちの少なくとも1つを抽出する署名生成コンポーネントであって、前記第1の画像レベル記述子は、前記第1のカメラにより撮像された第1の画像から、前記第1のカメラ依存の生成モデルを使用して抽出され、前記第2の画像レベル記述子は、前記第2のカメラにより撮像された第2の画像から、前記第2のカメラ依存の生成モデルを使用して抽出される、署名生成コンポーネント、
をさらに備える、請求項6に記載のシステム。
【発明を実施するための形態】
【0015】
例示的な実施形態は物体マッチングに関し、物体の再同定を特に参照して記載される。例示的な実施形態の態様において、物体の再同定のためのシステムおよび方法が記載される。システムおよび方法は、例えば、2つの画像が、同じ車、同じ自転車、同じ飛行機などの画像であるか(例えば、同じ車両が施設の入口および出口で観察されるか)など、2つの画像が同じ物体インスタンスを包含するか判定するために、使用され得る。2つの画像をマッチングするために、表現が、画像の画素を代表する局所的な記述子に基づいて、抽出される。例として、各表現は、画像全体の代表または物体(例えば、ナンバープレート)を含むと予想される画像の対象領域(ROI)の代表である、1つ以上のフィッシャーベクトルを含んでよい。その後、2つのフィッシャーベクトル間の類似性測定基準が計算される。フィッシャーベクトルは、生成モデルに対する偏差を符号化する。その後、類似性測定基準の閾値が、2つの画像が同じ物体インスタンスのものであるか決定するために使用されてよい。
【0016】
例示的な実施形態の他の態様において、物体の再同定システムを生成するシステムおよび方法が、記載される。
【0017】
上述したように、撮像条件が物体の2つの画像の撮像で異なる場合、同じ物体インスタンスを包含するにも関わらず、抽出されたフィッシャーベクトルは類似しない可能性がある。例示的な実施形態において、普遍的な生成モデルは先天的に学習される。撮像条件のずれは、対応するモデルのずれの形式で反映される。このずれを無効にするために、生成モデルのパラメータが、(例えば、2つのカメラからの)2つの撮像条件の各々で撮像された画像を使用する、監視されない手法に適用される。結果として、各々が「適応型視覚語彙」を伴う、2つのカメラ特有の生成モデルが取得される。その後、フィッシャーベクトルの形式で符号化された、これらのモデルからの偏差は、撮像条件ではなく、画像コンテンツにおける偏差の方にずらされる。
【0018】
図1を参照すると、物体の再同定のためのシステム10が示されている。システム10は、テスト画像12,14をカメラ16,18から受信し、画像12,14を処理して、これらの画像が同じ物体を含むか判定する。
【0019】
本明細書に使用される「物体」という用語は、車両、ナンバープレート、他の製造品、建物などの無生物物体(または、無生物物体の群)、または、人物または人物の群、または、動物または動物の群などの生物物体(または、生物物体の群)を指す。特に、「物体」という用語は、システムにより使用されるカメラ16,18により撮像され得る物理的な物体を指す。
【0020】
例示的な実施形態において、物体は、モータ付き車両などの車両、または、車両の登録番号を含む、車両の識別子を含む車両のナンバープレートである。しかしながら、人物と指紋および/または眼球スキャン、配送荷物と追跡または宛先情報など、他の移動物体と識別子も考慮されることに、留意されたい。車両の同定は、例えば、駐車場の入口および出口、または、道路の異なる地点など、複数の位置および/または異なる時間で行われることが望ましい場合がある。簡易化するために、互いに距離Zだけ離れた2つの位置XおよびYが考慮されるが、XおよびYは、同じ位置か、または、近い位置であってよいことに、留意されたい。
【0021】
1つの例示的な実施形態において、目的は、XおよびYでの車両の同一性間の一致を見出し、2つの同一性間の一致が確立された場合、XおよびYで撮像された情報に依存する一定の条件が適合するか判定することである。条件が適合する場合、ナンバープレート認識など、特定の動作が引き起こされる。
【0022】
本明細書において使用される「カメラ」という用語は、対象物体の画像を取得することが可能な撮像デバイスを指す。一部の限定されない例として、ガメラは、以下であってよい:人間の視覚により観察されるものと類似のカラーまたはモノクロ画像を取得することが可能な、写真フィルムまたはデジタル撮像アレイ(例えば、選択的にカラーフィルタを伴うCCDアレイ)を含む、従来のカメラ;または、X線ソースと連動して動作し、X線投影画像を生成する、X線高感度撮像アレイを含む、X線スキャナ;または、コンピュータ断層撮影スキャナ;または、夜間または低光量画像を取得するために使用される種類の赤外線カメラ;または、文書ページ画像を生成するよう動作する、文書スキャナなど。カメラは、例えば、物体上または物体中に存在し得る蛍光染料により放射される波長(複数可)に敏感であるよう、波長選択フィルタを含む、特定の物体ラベリングタスクに特化されることが考慮される。一般的に、カメラは、静止カメラ(すなわち、単一の静止画像を取得する)、または、ビデオカメラ(すなわち、通常は「フレーム」と称される時系列の画像を取得し、本明細書において、画像前処理は、対象の物体を最適に撮像するビデオバーストのフレームを選択することを必要としてよい)であってよい。コンピュータ断層撮影スキャナなど、一部の種類のカメラにおいて、カメラにより物体から取得されたデータは、画像を生成するために画像復元処理が行われてよい。
【0023】
図1に図示されるシステム10は、
図2を参照して記載される方法を行うための命令22を保存するメモリ20、および、命令を実行するためのメモリと通信するプロセッサデバイス24を含む。1つ以上のネットワークインタフェース26,28が、画像12,14(または、画像から抽出された特徴)をカメラ16,18から受信し、それらに基づく情報30を出力するために、提供される。システムのハードウェアコンポーネント20,24,26,28は、データ/制御バス32を介して通信する。一般的な訓練画像のセット34は、例えば、システムメモリ20における、または、システムと通信可能に接続される関連メモリにおける、データベース38に保存されてよい。訓練画像34は、カメラ16,18のいずれか1つに特有のものではないが、カメラにより撮像される代表的な種類の画像であってよい。
【0024】
簡潔には、命令22は、特徴抽出コンポーネント40、訓練コンポーネント42、適応コンポーネント44、署名生成コンポーネント46、マッチングコンポーネント48、選択的に、プロセス実装コンポーネント50、および情報出力コンポーネント52を含む。
【0025】
特徴抽出コンポーネント40は、画像12,14および訓練画像34など、画像から局所的な特徴を抽出して、局所的な記述子54,56を生成する。留意されるように、訓練画像34、および、カメラにより取得された画像12,14は、クロッピングされてよく、あるいは、そうでない場合は、局所的な記述子を抽出する前に、前処理されてよい。
【0026】
訓練コンポーネント42は、局所的な記述子の普遍的な生成モデル60を、一般的な訓練画像のセット34から生成された局所的な記述子を訓練データとして使用して、訓練する。訓練画像34は、1つの実施形態において、カメラ16,18を含んでよい、カメラのセットから取得された可能性がある。したがって、訓練データ34は、視覚コンテンツにおいて、カメラ16,18により取得される画像と類似してよい。生成モデル60は、普遍的な背景モデル(UBM)と称される。UBM60は、ガウス関数のセットのパラメータを含む、ガウス混合モデル(GMM)であってよい。
【0027】
適応コンポーネント44は、生成モデル60を各カメラ16,18に適用して、例示的な実施形態がGMMである、各々のカメラ特有モデル62,64を取得する。UBM60を適用するために、カメラ16,18の各々(または、撮像位置に特有のカメラ)により撮像された、ラベル化されない訓練サンプル66,68の各々のセットから抽出される局所的な記述子が、生成モデル60を適用するために使用され、各々の位置での異なる撮像条件を適合させる。留意されるように、2つのカメラ16,18が図示される一方で、任意の数のカメラが、各々のカメラ依存モデル62,64で提供されてよい。
【0028】
第1のテスト画像12から抽出される局所的な記述子54および第1のカメラ16の生成モデル62を考慮すると、署名生成コンポーネント46は、SI
Xで示される、第1の画像レベル記述子(画像署名)70を抽出する。第2のテスト画像14から抽出される局所的な記述子56および第2のカメラ18の生成モデル64を考慮すると、(個別の署名生成コンポーネントであり得る)署名生成コンポーネント46は、SI
Yで示される、第2の画像レベル記述子72を抽出する。画像レベル記述子70,72は、各々が柔軟なバグオブビジュアルワードまたはフィッシャーベクトルであってよい。
【0029】
マッチングコンポーネント48は、例えば、SI
XとSI
Yとの間のコサイン距離など、類似性を計算することにより、異なる画像から計算される画像署名70,72間の整合性を計算する。整合性が閾値に少なくとも適合する場合、2つの画像(または、画像内に撮像された物体)は、一致すると推測されてよく、すなわち、同じ物体であると推測されてよい。
【0030】
プロセス実装コンポーネント50は、マッチングコンポーネントの出力に基づいて、プロセスを実施してよい。例えば、車両の画像の事例において、車両が一致すると、ナンバープレート情報が画像の一方または両方から抽出されてよい。これは、閾値を超える車両の速度が計算された場合など、さらなる条件が適合することを条件としてよい。これは、各々の画像12,14の撮像と関連付けられる、タイムスタンプなどの情報M
X,M
Y74,76に基づいて、計算されてよい。
【0031】
情報出力コンポーネント52は、情報30を、例えば、遠隔コンピュータ、プリンタ、表示デバイス(例えば、コンピュータスクリーン)、または、遠隔メモリ保存デバイス、または、それらの組み合わせなど、出力デバイス80へ、マッチングコンポーネントまたは他の情報による推論に基づいて、プロセス実装コンポーネント50により計算される情報に基づいて、出力する。
【0032】
システム10は、入力/出力インタフェース28を介して、LCDスクリーンまたはコンピュータモニタなど、情報をユーザへ表示するための表示デバイス、および、テキストを入力し、プロセッサ24へのユーザ入力情報および命令の選択を通信するための、キーボードまたはタッチまたは書き込み可能スクリーンなど、ユーザ入力デバイス、および/または、マウス、トラックボールなど、カーソル制御デバイス、のうちの1つ以上と通信してよい。表示デバイスおよびユーザ入力デバイスは、クライアント計算デバイス80の一部として図示されるが、他の実施形態において、システムを管理するコンピュータ82と直接的に結合されてよい。
【0033】
システム10は、デスクトップなどのPC、ラップトップ、パームトップコンピュータ、携帯情報端末(PDA)、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組み合わせ、または、例示的な方法を行うための命令を実行することが可能な他の計算デバイスなど、1つ以上の計算デバイス82に常駐してよい。留意されるように、システム10の部品は、2つ以上の計算デバイスに分散されてよい。例えば、画像12,14の局所的な記述子は、各々のカメラ16,18のコンポーネント84,86を処理することにより計算され、計算デバイス82にアクセス可能なデータベース38に保存されてよい。
【0034】
メモリ20は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、またはホログラムメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。1つの実施形態において、メモリ20は、ランダムアクセスメモリと読み出し専用メモリとの組み合わせを備える。一部の実施形態において、プロセッサ24およびメモリ20は、単一チップに統合されてよい。
【0035】
ネットワークインタフェース26,28は、コンピュータ82が、他のデバイスと、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)などのコンピュータ網、または、インターネットなど、有線または無線リンクを介して通信することを許容し、変調器/復調器(MODEM)、ルータ、ケーブル、および/またはイーサネット(登録商標)ポートを備えてよい。
【0036】
デジタルプロセッサ24は、例えば、シングルコアプロセッサ、デュアルコアプロセッサ(または、より一般的には、多重コアプロセッサ)、デジタルプロセッサおよび協調数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ24は、コンピュータ82の動作を制御することに加えて、
図2で概要を述べた方法を行うためのメモリ20に保存された命令を実行する。
【0037】
一部の実施形態において、システム10は、単に、例えば、適応コンポーネント44を包含する、再同定システムの部品を生成するためのシステムとして使用され得る一方で、他のコンポーネントは省略されてよい。他の実施形態において、システム10は、既に適用されたカメラ依存の生成モデル62,64を利用するために使用され得る一方で、訓練および適応コンポーネント42,44などの他のコンポーネントは省略されてよい。
【0038】
本明細書において使用される「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意の集合またはセットを網羅し、それにより、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成することを意図する。本明細書において使用される「ソフトウェア」という用語は、RAM、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を網羅することを意図しており、さらに、ROMなどに保存されるソフトウェアである、いわゆるファームウェアを網羅することを意図する。そのようなソフトウェアは、様々な手法で体系化されてよく、ライブラリ、遠隔サーバなどに保存されたインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化される、ソフトウェアコンポーネントを含んでよい。ソフトウェアはシステムレベルのコードを起動してよく、または、サーバまたは他の位置に常駐する他のソフトウェアを呼び出して特定の機能を行うことが、予期される。
【0039】
図2は、
図1のシステムで行われてよい、物体再同定のための方法を図示する。最初に
図2Aを参照すると、方法はS100で開始される。
【0040】
S102で、局所的な記述子の普遍的な生成モデルUBM60が提供される。これは、UBM60を訓練コンポーネント42で訓練することを含んでよい。UBM60は、K個のガウス関数のセット(ガウス分布または混合とも称される)のパラメータを含む。一部の実施形態において、普遍的な生成モデルUBM60は、事前に訓練されてよく、単にシステム10にアクセス可能なメモリ20に保存されてよい。
【0041】
S104で、普遍的な生成モデル60は第1のカメラ16に適用され、第1のカメラ依存の生成モデル62を取得する。これは、第1のカメラ16により撮像された訓練画像66の第1のセットから抽出される記述子を使用して(すなわち、第1のカメラにより撮像された、第2のカメラによる撮像ではない、画像からの記述子のみを使用して)行われる。第1のカメラ依存の生成モデル62は、UBM60のパラメータを適用することにより、訓練画像66の第1のセットから抽出された記述子を使用して生成される、K個のガウス分布のセットのためのパラメータを含む。
【0042】
S106で、普遍的な生成モデル60は第2のカメラ18に適用され、第2のカメラ依存の生成モデル64を取得する。これは、第2のカメラ18により撮像された訓練画像68の第2のセットから抽出される記述子を使用して(すなわち、第2のカメラにより撮像された、第1のカメラによる撮像ではない、画像からの記述子のみを使用して)行われる。第2のカメラ依存の生成モデル64は、UBM60のパラメータを適用することにより、訓練画像68の第2のセットから抽出された記述子を使用して生成される、K個のガウス分布のセットのためのパラメータを含む。したがって、GMM62および64は、同じ数のガウス関数のためのパラメータをUBM60として含む。別の実施形態において、普遍的な生成モデルは、第2のカメラ依存の生成モデルとして使用される(したがって、当該のカメラにより撮像された画像から、単独に、または、主に、取得される記述子で生成されてよい)。
【0043】
S108で、局所的な記述子54は、第1のカメラ16により撮像される第1のテスト画像12から抽出される。
【0044】
S110で、局所的な記述子56は、第2のカメラ18により撮像される第2のテスト画像14から抽出される。
【0045】
S112で、第1の画像レベル記述子70は、第1の画像の局所的な記述子54および第1のカメラ16の適応型生成モデルu
cΘx62に基づいて生成される。
【0046】
S114で、第2の画像レベル記述子72は、第2の画像の局所的な記述子56および第2のカメラ18の適応型生成モデルu
cΘy64に基づいて生成される。
【0047】
S116で、第1および第2の画像レベル記述子70,72が比較される。
図2Bへと続き、S118で、署名間の類似性が、閾値と合致する場合(および/または、比較されている画像のセットの最も高い類似性である場合)、S120で、一致が確認される。
【0048】
S122で、プロセスは、一致の判定に基づいて実施されてよい。
【0049】
S124で、一致があるか否か、または、一致が見られる場合、他の情報が計算されてよいか否か(または、別の実施形態において、一致が見られない場合、情報が計算されてよいか否か)など、情報30が出力される。
【0050】
本方法は、S126で終了し、または、カメラのうちの1つにより撮像される新しいテスト画像(単数または複数)を処理するために、S108および/またはS110へ戻ってよい。
【0051】
留意されるように、適応ステップが行われると、本方法はS108で開始され得る。代替的に、本方法は、S106から、本方法の後続のステップを行うためのコンポーネントの提供へ進み得る。
【0052】
本方法は、
図3においてグラフを使用して図示される。特に、各カメラ依存の混合モデルは、UBMの元のガウス分布(楕円により示される)の少なくとも一部を、わずかに移動することにより(平均適応により)、および/または、縮尺することにより(分散適応により)形成され、カメラ特有の記述子(星印により示される)を反映することが、確認され得る。カメラ依存の混合モデルの適応型ガウス分布は、同じ一般的な視覚クラスを、UBMにおけるものとして表し(元のガウス分布と重なって図示される)、したがって、画像レベル表現において比較可能である。
【0053】
図2および
図3において図示される方法は、コンピュータ上で実行されてよい、コンピュータプログラム製品に実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録(保存)される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の共通の形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または、任意の他の磁気保存媒体、CD−ROM、DVD、または、任意の他の光媒体、RAM、PROM、EPROM、FLASH−EPROM、または、他のメモリチップまたはカートリッジ、または、コンピュータが読み込みおよび使用し得る任意の他の持続性媒体、を含む。コンピュータプログラム製品は、コンピュータ82と統合されてよく(例えば、RAMの内部ハードドライブ)、または、別個であってよく(例えば、コンピュータ82と動作可能に接続される外部ハードドライブ)、または、別個であり、ローカルエリアネットワーク(LAN)またはインターネットなど、デジタルデータ網を介して(例えば、低価格独立ディスク冗長アレイ(RAID)、または、コンピュータ82によりデジタル網を介して間接的にアクセスされる、他のネットワークサーバストレージとして)、アクセスされてよい。
【0054】
代替的に、本方法は、制御プログラムが、電波および赤外線データ通信中に生成されるような、音波または光波などの伝送媒体を使用して、データ信号として具現化される、伝送可能な搬送波など、一時的な媒体において実装されてよい。
【0055】
例示的な方法は、1つ以上の汎用コンピュータ、特定用途コンピュータ(複数可)、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺用集積回路素子、ASICまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線接続された電子機器または論理回路、PLD、PDA、FPGA、グラフィカルカードCPU(GPU)、またはPALなどのプログラム可能論理デバイスなど、に実装されてよい。一般的に、有限状態機器を実装できる任意のデバイス、すなわち、
図2に示されるフローチャートを実装できる任意のデバイスは、物体再同定のための方法を実施するために使用され得る。留意されるように、本方法のステップが全てコンピュータ実装であってよい一方で、一部の実施形態において、1つ以上のステップが、少なくとも部分的に手動で行われてよい。
【0056】
システムおよび方法の追加的な詳細が、ここで説明される。
【0057】
画像の撮像
撮像された画像12,14(I
XおよびI
Y)および訓練画像34,66,68は、システム10により、JPEG、GIF、JBIG、BMP、TIFFなど、任意の好都合なファイル形式で、または、画像に使用される他の共通ファイル形式であって、処理の前に選択的に別の適切な形式へ変換されてよい形式で、受信されてよい。入力画像は、処理中、データメモリに保存されてよい。画像は、写真など個別の画像であってよく、または、ビデオ画像などの連続する画像から抽出される画像であってよい。一般的に、各入力デジタル画像は、画像を形成する画素配列のための画像データを含む。画像データは、グレースケール値などの着色剤値を、L*a*b*またはRGBなどの色分離のセットごとに含んでよく、または、異なる色が表され得る別の他の色空間において表現されてよい。一般的に、「グレースケール」は、任意の単一色チャネルであるが、表現される(L*a*b*、RGB、YCbCrなど)、光学的な濃度値を指す。本方法は、白黒(モノクロ)画像および多色画像に適している。「色」という単語は、色彩、彩度、および明度などの絶対的色値、および、色彩、彩度、および明度の違いなどの相対的色値を含むが、それらに限定されない、特定される場合がある色の任意の態様を指すために、使用される。一部の実施形態において、色は、近赤外線(NIR)領域など、約800nm〜2500nmである、電磁スペクトルの非可視領域を指し得る。
【0058】
所与の位置X,Yでの画像の撮像は、任意の適切な手法で始動されてよい。1つの実施形態において、ループセンサは、例えば、地中など、局所的に配置されてよく、車両の存在を検出し、撮影(フラッシュの可能性もある)を始動させる。1つの実施形態において、カメラ16,18は、画像の配列を備えるビデオを撮影し、移動検出アルゴリズムまたは物体検出アルゴリズム(または、両方の組み合わせ)が適用され、画像配列の車両の存在を検出し、それに応じて配列から1つの画像を選択する。車両検出技術は既知であり、例えば、米国特許第4,433,325号、第5,083,200号、第5,592,567号、第5,809,161号、第5,995,900号、第6,996,255号、および、米国公開番号第20140270381号および第20140063263号に開示されている。画像は、フルカラー、モノクロ、NIR(近赤外線)、または、それらの組み合わせにおいて、撮像され得る。
【0059】
一部の実施形態において、同じ画像撮像デバイスが、両方の画像I
XおよびI
Yを、例えば、駐車場において、例えば、カメラを回転/移動することにより撮像するために、使用され得る。
【0060】
関連メタデータ74,76は、所定の条件が適合されたか判定できるよう、十分な情報を含んでよい。1つ以上のタイムスタンプ、車両の現行速度、GPS位置、支払い情報、天候情報など、1つ以上の異なる種類の情報が取得されてよい。
【0061】
局所的な記述子の抽出(S108,S110)
局所的な記述子は、訓練およびテスト画像34,66,68,12,14から、同じ手法で抽出される。例えば、選択的にクロッピングされた画像のパッチのセットが、例えば、密に、1つまたは多重尺度で格子状に抽出される。パッチは、画像分割により、特定の対象点検出器を適用することにより、正規の格子を考慮することにより、または、単に画像パッチの無作為なサンプリングにより、取得され得る。例示的な実施形態において、パッチは、正規の格子上に、選択的に多重尺度で、クロッピングされた画像全体で、または、画像の少なくとも一部または大部分で、抽出される。例えば、少なくとも10個、または少なくとも20個、または少なくとも50個のパッチが、各クロッピングされた画像から抽出される。各パッチは、少なくとも40個、または少なくとも100個の画素を備えてよく、最大で1,000,000個以上の画素を備えてよい。
【0062】
各パッチに対して、形状、色、および/または勾配(SIFT)特徴など、低レベルの特徴が抽出される(D.Loweによる、「Distinctive image features from scale−invariant keypoints(尺度不変性キーポイントからの特有の画像特徴)」(IJCV,2004)を参照されたい)。パッチに対して抽出された低レベルの特徴の表現である、ベクトルまたはヒストグラムなど、パッチ記述子が生成される。全てのパッチの記述子に基づいて、画像の画像署名全体が生成される。特に、統計値がこれらのパッチ記述子で計算され、その後、統計値は統合される。
【0063】
例として、局所的な記述子は、SIFT記述子として、パッチごとに勾配特徴を含む。SIFT特徴を適用する1つの実例的な例において、局所的な記述子は、5つの尺度で正規の格子(16画素ごと)の32×32画素パッチから、抽出される。これらの記述子の次元は、例えば、主成分分析(PCA)を介して、128次元から32次元に削減され得る。抽出され得る他の適切な局所的な記述子は、パッチが4×4のサブ領域に、さらに分割される、単一の96次元色特徴を含み、各サブ領域において、平均および標準偏差が、3つのチャネル(R、G、およびB)に対して計算される。これらは単に実例的な例にすぎず、追加的および/または他の特徴が使用され得る。
【0064】
画像署名の抽出(S112,S114)
各画像レベルの記述子または「画像署名」70,72などは、D次元空間の(選択的にクロッピングされた)画像の固定長ベクトル表現である。1つの実施形態において、画像レベル記述子は、フィッシャーベクトル(FV)に基づく。例えば、以下を参照されたい:PerronninおよびDanceによる、「Fisher kernels on visual vocabularies for image categorization(画像カテゴリ化のための視覚語彙のフィッシャーカーネル)」(CVPR,2007);Perronninらによる、「Improving the Fisher kernel for large−scale image classification(大規模な画像分類のためのフィッシャーカーネルの向上)」(ECCV,143−156(2010));Sanchezらによる、「High−dimensional signature compression for large−scale image classification(大規模な画像分類のための高次元署名圧縮)」(CVPR 2011);2012年3月29日に発行された、Jorge Sanchezらによる、米国公開番号第20120076401号「IMAGE CLASSIFICATION EMPLOYING IMAGE VECTORS COMPRESSED USING VECTOR QUANTIZATION(ベクトル量子化を使用して圧縮される画像ベクトルを利用する画像分類)」;および、2012年2月23日に発行された、Florent Perronninらによる、米国公開番号第20120045134号「LARGE SCALE IMAGE CLASSIFICATION(大規模な画像分類)」。フィッシャーベクトルは、画像分類、画像検索、物体検出、および、人物再同定を含む、様々な用途において良好な結果を見せた。したがって、フィッシャーベクトルを向上させ得る任意の改善は、多くの用途に大きな影響を与えるであろう。以下にフィッシャーベクトル抽出が記載され、続いて適応技術が記載される。
【0065】
フィッシャーベクトルは、ナンバープレート処理において確認された、光度および幾何学変動性の範囲でロバスト性を示す。簡単に言えば、フィッシャーベクトルは、局所的なパッチ記述子を固定長表現に統合することにより機能する。上述したように、SIFTおよび/または他の局所的な記述子は、正規の格子の多重尺度で抽出されたパッチから抽出され、それらの次元は、選択的に、主成分分析(PCA)を使用して削減される。以下に記載されるように、全ての局所的な記述子が発行されると推測される、予測されるカメラ特有のガウス混合モデル(GMM)を考慮すると、パッチのセットは、重みのベクトルにより特徴づけられ、パラメータごとに、混合モデルを形成する(例えば、少なくとも5個または10個の)ガウス関数のセットの各々に対して1つの重みである。
【0066】
目下の事例において、X={x
1,x
2,…,x
N}は、画像パッチから抽出されたN個の多次元特徴ベクトル(局所的な記述子)のセットであると仮定する。u
Θを、そのような特徴ベクトルをもたらす生成モデルの確率濃度関数とし、ここで、Θは確率濃度関数のパラメータを表す。その後、フィッシャーベクトルが以下の式により与えられる:
【0068】
ここで、L
Θは、u
Θのフィッシャー情報行列の逆数の平方根である。
【0070】
は、u
Θに対するデータサンプル(パッチ記述子)x
iの対数尤度である。したがって、その勾配(▽
Θ)を計算することで、生成モデルu
Θのパラメータが、Xのデータサンプルに適合するために修正されるべき度合いの測定値が与えられる。Sanchez2013を参照されたい。勾配は、平均、分散、および/または重みなど、GMMの1つ以上のパラメータに対して計算され得る。
【0071】
普遍的な生成モデル(S102)
例示的な方法において、普遍的な生成モデルu
Θ60は、パラメータΘ={π
k,μ
k,Σ
k,k=1,…,K}を伴う、Kコンポーネントガウス混合モデル(GMM)である。ここで、π
k、μ
kおよびΣ
kは、それぞれ重み、平均ベクトルであり、k番目のガウス分布の共分散行列である。利便性のため、以下とする:
【0073】
したがって、任意の特徴ベクトルx
iに対して、以下が成り立つ:
【0077】
pは、特徴ベクトルx
iの次元である。GMM60は、訓練画像34から抽出された局所的な記述子を使用して先天的に学習され、普遍的な背景モデル(UBM(音声処理の慣例に従う:例えば、Douglas A.Reynoldsらによる、「Speaker verification using adapted Gaussian mixture models(適応型ガウス混合モデルを使用する発話者検証)」(Digital Signal Processing,10(13):19−41(2000))を参照されたい)と称される場合がある。
【0078】
Sanchez2013におけるような、一部の前提の下でL
Θを計算し、対角線の共分散行列Σ
kを考慮した後、GMMの異なるパラメータの各々に対して(方程式(1)から生じる)方程式が、推定され得る。しかしながら、平均のみを使用してフィッシャーベクトルを導くと、マッチングの用途において良好な性能を与えることが分かっている。したがって、平均Σ
kに対する勾配に対して、以下が成り立つ:
【0082】
ここで、σ
kは、k番目のガウス分布に対する、対角線の共分散行列の対角線エントリであり、除算は要素関連動作を暗示する。さらに、
【0084】
は、x
iでのk番目のガウス分布に対するpdfの値である。
【0086】
は、p×1ベクトルであることに、留意されたい。最終的なフィッシャーベクトルは、混合モデルにおけるK個のガウス関数の全てに対する勾配
【0088】
の連鎖である。したがって、これはKp−dimベクトルである。その後、これはサイン平方根およびl
2正規化されてよい。Sanchez2013を参照されたい。
【0089】
カメラ16,18は、異なる撮像条件を有していると仮定する。撮像条件のバランスを取るための1つの手法は、独立して最初から各カメラに対するGMMを学習することであり得る。しかしながら、これにより、異なるGMMからの異なるガウス分布が一致するわけではない。したがって、カメラ全体でフィッシャーベクトルを比較することは、フィッシャーベクトルが全てのガウス分布sに対する勾配統計値の連鎖として構築されるため、困難になり得る。目下の方法において、UBM60のモデルパラメータは、異なるカメラからの画像に適用され、カメラ特有のGMM62,64をもたらす。その後、これらのカメラ特有のGMM62,64がフィッシャーベクトルを計算するために使用される際、特定の画像に特有である偏差を主に符号化し、撮像条件の差異は符号化しない。
【0090】
留意されるように、さらに、バグオブワードの画像レベル記述子が、ガウス混合モデルにより生成され、したがって、さらに、本方法はこれらの画像レベル記述子に適用可能である。例えば、バグオブワードの画像レベル記述子のより完全な記述に関して、Csurkaらによる、「Visual Categorization with Bags of Key−points(キーポイントのバグを伴う視覚カテゴリ化)」(ECCV Workshop on Statistical Learning for Computer Vision(2004))、2008年3月20日に発行された、Florent Perronninによる、米国公開番号第20080069456号「BAGS OF VISUAL CONTEXT−DEPENDENT WORDS FOR GENERIC VISUAL CATEGORIZATION(生成視覚カテゴリ化のための視覚的な文脈依存語のバグ)」、および、2012年2月23日に発行された、Florent Perronninらによる、米国公開番号第20120045134号「LARGE SCALE IMAGE CLASSIFICATION(大規模な画像分類)」を参照されたい。
【0091】
生成モデルの適用化(S104,S106)
例示的な画像レベル記述子70,72は、テスト画像12,14から同様の手法で抽出される、フィッシャーベクトルである。しかしながら、フィッシャーベクトルを生成するために使用される生成モデル62および64は、異なる。
【0092】
さらに、適応の必要性を説明するために、方程式(5)を考慮すると、平均ベクトルに対するフィッシャーベクトルの勾配は、以下となる:
【0099】
は、それぞれ、Xからのデータサンプルが与えられる、k番目のガウスコンポーネントの平均ベクトルおよび混合重みの予測値である。したがって、方程式(7)は、フィッシャーベクトルを、予測された平均ベクトル
【0101】
と各々のUBMガウス平均ベクトル(μ
k)との間の差異の関数として、規定する。
【0102】
ガウス分布kのサポートΩ
kは、Ω
k={x:k=argmax
ip(i|x)}として規定される。したがって、撮像条件の変化が各ガウス分布kのサポート全体で区分的に一定のずれδ
kによりモデル化され得る場合、破損されたUBM平均μ
kおよび画像特有の平均
【0106】
となる(ハード割当てを前提として、p(i|x)が二値であると推定され、これは高次元入力ベクトルxに妥当であることを意味する)。しかしながら、方程式(7)におけるδkの取消の影響は、UBM適応戦略を正当化する。
【0107】
様々な適応方法が考慮される。これらの方法は、最大帰納的(MAP)適応、例えば最尤線形回帰(MLLR)など、線形変換体系に関する適応技術、例えば音声認識方法から適用される、例えば固有声など、発話者クラスタリング体系に関する技術を含む(Douglas A.Reynoldsらによる、「Speaker verification using adapted Gaussian mixture models(適応型ガウス混合モデルを使用する発話者検証)」(Digital Signal Processing,10(13):19−41(2000))(以降、Reynoldsら)を参照されたい)。選択は、利用可能な適応データの量および意図される用途に依存してよい。1つの例示的なMAP適応が、使用されてよい。
【0108】
MAP適応
例示的な適応プロセスは、完全に監視されない:カメラ16または18と関連付けられる画像のセットを考慮すると、これらの画像(例えば、ラベル)の内容に関する情報は、UBM60を適用してカメラ特有のモデル62,64を生成するのに必要でない。
【0109】
MAP適応において、カメラ特有のモデル
【0111】
は、UBMu
Θにおける好適に訓練されたパラメータを更新することにより、各々のカメラcで撮影された画像66または68から抽出される局所的な記述子を使用して、もたらされる。適応は、2つのステップの期待最大化(EM)反復プロセスにおいて行われ得る(例えば、EMの考察に関して、Jeff A.Bilmesらによる、「A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and Hidden Markov models(ガウス混合および隠れマルコフモデルのためのパラメータ予測に対するEMアルゴリズムおよびその応用の指導書)」(Intern’l Computer Science Institute,4(510),p.126(1998)を参照されたい)。第1のステップにおいて、カメラcからの特徴の十分な統計値の予測は、UBMにおける各ガウス分布に対して計算される(確率的カウント、第1および第2の瞬間)。その後、これらは、UBMガウス分布からの古い十分な統計値と組み合わされる。この組み合わせは、データ依存の混合係数を介して行われる。この係数は、より大きな重みを、適応データからの高度な確率的カウントを有するガウス分布に対する新しい十分な統計値に加える。
【0112】
以下において、「最適化」「最小化」という用語および類似の表現は、当業者がこれらの用語を理解するのと同様に、幅広く解釈される。例えば、これらの用語は、絶対的な大域的最適値、絶対的な大域的最小値などへ、限定されるものとして解釈されない。例えば、関数の最小化は、絶対的な最小値に到達する前に、停止基準で終了する反復最小化アルゴリズムを適用してよい。さらに、最適値または最小値は、局所的な最適値または局所的な最小値であることが予期される。
【0114】
は、カメラcからの訓練画像66または68の重複または非重複パッチから抽出される、N
c個の特徴ベクトル(局所的な記述子)のセットであると仮定する。各ガウス分布kおよび特徴ベクトルx
iに対して、確率p(k|x
i)は、最初の予測ステップにおいて方程式(6)から計算される。その後、p(k|x
i)およびx
iは、方程式8〜10にしたがって、各ガウス分布kおよび第1および第2の瞬間の確率的カウントを計算するために使用される(Reynoldsらを参照されたい):
【0116】
n
kは、どれくらい多くの点x
iがガウス分布に割り当てられるかを表す、ガウス分布kに関する予測による。m
kは、ガウス分布kに割り当てられる全ての点の平均を表す、1次オーダーの統計的な予測である。s
kは、ガウス分布kにおける全ての点の統計的な分散を表す、2次オーダーの統計的な予測である。2番目に、最大化ステップにおいて、その後、これらの統計値は、各ガウス分布kに対するUBMパラメータを以下の方程式を使用して更新するために、使用される:
混合重みに対して:
【0121】
その後、上記の2つのステップのプロセスが、更新されたUBMパラメータを伴って数回にわたり、例えば、I回の反復を伴って、または、収束するまで、または、一部の他の停止基準が満たされるまで、繰り返される。方程式11のαがガウス分布全体で再計算され、
【0123】
が確実に成り立つようにする。各パラメータρ∈{π,μ,σ}に対する適応パラメータ
【数25】
【0126】
ここで、rは、新しい統計値と古い統計値との間の適応のレベルを制御する、設計パラメータであり、相互検証により確立され得る。rが固定されると、新しい統計値は、適応データに対して高い確率的カウントn
Kを有する、これらのガウス分布において、より強調される。実際には、同じ適応パラメータは、全てのガウス分布の全てのパラメータに対して使用され得る。すなわち、
【0128】
である。留意されるように、1つまたは2つの例示的なパラメータπ,μ,σなど、3つに満たないパラメータが考慮されてよく、各フィッシャーベクトルに対する重み(次元値)を生成するために、更新および/または使用される。
【0129】
クロッピングされた画像に関する空間情報を含めるために、画像は、少なくとも3つの領域など、領域に、領域レベルで統合されるパッチごとの統計値に、および、その後、画像表現を形成するために連結される領域レベル表現に、区分化され得る。例えば、S.Lazebnikらによる、「Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories(多くの特徴を超えて:自然シーンカテゴリを認識するための空間ピラミッドマッチング)」(CVPR ’06 Proc.2006 IEEE Computer Society Conf. on Computer Vision and Pattern Recognition − Volume 2, Pages 2169−2178)を参照されたい。
【0130】
例示的な画像署名は、固定された次元Dのものである。すなわち、各画像表現は、考慮されるガウス分布の数およびパラメータの数の関数である、同じ数の要素を有する。例えば、32個のガウス分布の視覚語彙は、GMM60,62,64において使用され、パラメータのうちの2つが考慮される。結果的に、32×2=64次元のFV表現が生じる。
【0131】
FV表現の使用は、ナンバープレートのナンバーを目立たなくする際のナンバープレートマッチングにおいて、他の利点を有する。元の画像が再構築され得ないので、ナンバープレートのナンバーは認識されず、したがって、画像署名から元の画像(または、ナンバープレートのナンバー)を復元する実現可能な手法がないため、元の画像のハッシュキーと見なされ得る。これは、個々のパッチの正体が、統合プロセスにおいて失われるからである。結果として、ナンバープレートのナンバーのプライバシー(または、画像の他のプライベート情報)を、情報を使用する必要性が確立されるまで、(例えば、画像に撮像された車両の速度が閾値速度を超えていることを確立することにより)保持する。
【0132】
画像署名の比較(S116,S118)
一部の実施形態において、位置Xの画像署名はデータベース38に保存され、その後、これらの保存された署名の中での最も近い一致の検索が、位置Yで以降に取得される各画像署名に対して網羅的な手法で行われる。データベース38が多数の画像を含有する場合、網羅的な検索は時間がかかる場合がある。この事例において、近接した検索技術が適用されてよい。高次元ベクトルの近接した検索のための技術は、例えば、Jegouらによる、「Aggregating local image descriptors into compact codes(局所的な画像記述子のコンパクト符号への統合)」(IEEE TPAMI,34(9)1704−1716(2002))に開示される。最も近い一致の正体が割り当てられ、少なくとも所定の閾値に適合する類似性が提供される。
【0133】
フィッシャーベクトルはフィッシャーカーネルの明確な埋め込みであるので、2つのこのような画像記述子SI
XおよびSI
Y間の対応するコサイン類似測定値は、ドット積SI
XTSI
Yである。
【0134】
1つの実施形態において、画像署名(例えば、FV)は、取得される投影を適用することにより、例えば、画像署名を、類似性が(識別子を形成する文字の配列に関する)実際の類似性の良好な指標である、ベクトル空間内に埋め込むための測定基準を学習することにより、さらに特徴的になされ得る。例として、低いランクのマハラノビス測定基準が利用されてよい。例えば、Rodriguez−Serranoらによる、「Data−Driven Vehicle Identification by Image Matching(画像マッチングによるデータ駆動型の車両同定)」(12
th European Conf. on Computer Vision (ECCV) Workshops, October 7−13,2012, Lecture Notes in Computer Science, vol.7584,pp.536−545)を参照されたい。さらに、例示的な埋め込み技術の説明に関して、米国発行番号第20140056520号および第20140219563号、および、米国出願番号第13/903,218号を参照されたい。
【0135】
プロセス実施(S122)
S122で使用されてよい、ナンバープレート認識方法は、例えば、米国発行番号第20130129151号、第20130129152号、第20130182909号、第20130259314号、第20140056520号、第20140270381号、および第20140219563号、および、米国出願番号第13/903,218号、および、J−A Rodriguez−Serranoらによる、「Data−Driven Vehicle Identification by Image Matching(画像マッチングによるデータ駆動型の車両同定)」(12
th European Conf. on Computer Vision (ECCV) Workshops, October 7−13,2012, Lecture Notes in Computer Science, vol.7584,pp.536−545)に開示される。1つの実施形態において、Xerox License Plate Recognition(XLPR)ソフトウェアが利用される。留意されるように、ナンバープレートのナンバーおよびナンバープレートの画像は、単なる例にすぎず、例示的な実施形態を図示するために使用される。他の実施形態において、多数のASCII、UNICODE、および/またはUTF−8文字が、アルファベットとして使用されてよい。
【0136】
情報処理コンポーネント50により起動される動作は、アプリケーションの種類に依存してよい。ナンバープレートの事例において、引き起こされる動作は、同定される各々のナンバープレートのナンバーと関連付けられてよい(例えば、違反者の告訴、駐車場オペレータの警告、駐車場の罰金の送信など)。駐車場の事例において、第1および第2の画像が一致する場合(および、選択的に、2つの画像の撮像間に有料な継続時間が超過していない場合)、駐車場の柵が自動的に開く。
【0137】
本明細書に開示される実例的な実施形態は、カメラベースの車両ラベリングタスクに向けられる一方で、類似の難点が、複数の静止またはビデオカメラがラベル化される物体の画像を取得するために使用される(または、同じカメラが異なる時間間隔全体および/または異なる位置で画像を取得するために使用される)、他のカメラベースの物体ラベリングタスクに生じることに、留意されたい。例えば、小売りまたは広告の設定において、カメラベースの顧客ラベリングを、性別、年齢などで、対象となる広告を提供するために、適用するのに有用であってよい。この事例において、ラベル化される物体は、人物(または、顔などの一部分)である。イベント出席者監視システムにおいて、画像は、画像に示される人数でラベル化されてよい。さらに、物体は、動物または実例的な車両などの非生物物体であってよい。対象の非生物物体のカメラベースのラベリングに関する、さらなる例として、小売りの製造ラインにおいて、製造商品は、不具合を監視できる撮像技術に基づいて特定の不具合の有無でラベル化されてよい。セキュリティスキャナの事例において、カメラは、X線撮像機器または他の専用撮像デバイスであってよく、物体ラベリングは、銃器、ナイフ、液体など、懸念される非生物物体の同定を試みる。これらは、単に実例的な例である。さらに、適用型混合モデルは、分類での使用法を見つけ得る(異なるカメラからの画像が、訓練画像34から抽出された画像レベル記述子および各々のラベルで訓練されている場合がある、同じ分類器で分類され得る)。
【0138】
例示的な実施形態の範囲を限定する意図はなく、以下の例は、ナンバープレートマッチングへの方法の適用可能性を図示する。
【0139】
例
本方法が、車両ナンバープレートマッチング/再同定の問題に利用された。カメラは、駐車場の様々な入口−出口車線に配置される。目的は、駐車場にある車両のナンバープレートが、この車両が区画に入った時に撮像されたナンバープレートの画像と一致することである。しかしながら、両方の事例における撮像条件は、大幅に異なる場合がある。異なる撮像条件は、異なる配置、異なるカメラ品質、異なる照明条件などを含んでよい。このシナリオは、UBMの適応に関する良好な候補であり、マッチングに役立つよう、フィッシャーベクトル計算の前にカメラ特有(車線特有)のGMMを学習する。
【0140】
データセット
異なる街における2つの実際の駐車施設から生じる2つの施設内データセットは、AおよびBで示される。両方のデータセットは、ナンバープレート領域を抽出して、50個の画素の高さを正規化することにより、前処理される。データセットAは、11個の車線/カメラからの13,006個の画像(6503個の入口−出口の組)を有する。種々の入口−出口統計値の分散により、11個のうちの5個は入口車線であり、残りは出口車線である。データセットBでは、2つの車線からの9,629個の画像が使用された。
【0141】
実験的セットアップ
特徴および局所的な記述子は、画像からの重複するパッチから抽出された。各データセットは、3つの部分に分割される。第1の部分は、局所的な記述子およびUBM予測の次元的削減のためのPCAモデルを学習するために使用され、第2の部分は、UBM適応のために使用され、第3の部分はテストのために使用される。テスト中、既存のナンバープレートは、入ってくるナンバープレートとマッチングされ、結果は正しくマッチングされた組の割合として報告される。
【0142】
1つのテストにおいて、データセットAの第1の部分のUBMを全ての車線/カメラからの画像で学習した後、UBMは、データセットAの異なる車線/カメラの各々に適用されて、第2の部分における各々の車線からの画像を使用してカメラ特有のGMMを生成する。その後、第3の部分の画像および適応型GMMは、マッチングとして使用されるフィッシャーベクトルを計算するために使用される。
【0143】
別のテストにおいて、データセットBからの画像の第1の部分は、UBMを学習するために使用される。その後、このUBMは、続いてデータセットAの第3の部分をテストする、データセットAの第2の部分を使用して適応される。これは、UBMが、同じデータセット/駐車場からではない画像で学習される場合、シナリオを再現する。
【0144】
適応型GMMと一致する画像の結果は、2つの基準値と比較される。
【0145】
1.適応なしのシステム(「非適応」)。
【0146】
2.平均および標準偏差調整後のシステム(「平均−標準偏差調整」):各カメラで、訓練サンプル(第2の部分)の平均および標準偏差が計算され、それにしたがって、テストベクトルが標準化された。平均調整は、VLAD画像記述子のために提案された、ドメイン適応手法である。VLAD画像記述子の説明に関して、Relja Arandjelovicらによる、「All about VLAD(VLADの全て)」(Proc.2013 IEEE Conf. on Computer Vision and Pattern Recognition(CVPR’13),pp.1578−1585(2013))を参照されたい。VLAD画像記述子は、フィッシャーベクトルと近接に関連するが、フィッシャーベクトルの確率的解釈を有さない。平均および標準偏差調整は、平均調整手法の自然な流れである。これは、高次元ベクトルに対処する際に、より実用的である、Basura Fernandoらによる、「Unsupervised visual domain adaptation using subspace alignment(サブ空間配列を使用する監視されない視覚ドメイン適応)」(ICCV,pp.2960−2967(2013))のサブ空間配列手法の対角近似として理解され得ることに、留意されたい。
【0147】
UBM適応には様々な選択肢がある。例えば、全てのUBMパラメータが適用されるか、または、適用されるパラメータが選択される。これらの例において、平均および分散の両方が適用される。重み適応は、追加的な影響をほとんど有さないことが分かった。
【0148】
結果
表1〜表4は、GMMにおける異なる数のガウス分布(Nmix)を使用して、MAP適応あり(MAP Adapt.)、MAP適応なし(No Adapt.)、および、平均および標準偏差調整あり(Mean−Std. Adj.)の結果を示す。表1および表2は、平均ベクトルが適用される場合にのみ結果をもたらし、一方で表3および表4は、平均ベクトルおよび共分散行列の両方が適用される場合の結果をもたらす。「Inc.」は、適応なし全体でのMAP適応ありの性能向上を示す。
【0149】
表1:データセットAで学習後、平均ベクトル適応を行い、データセットAでテストしたUBMの結果
【0151】
表2:データセットBで学習後、平均ベクトル適応を行い、データセットAでテストしたUBMの結果
【0153】
表3:データセットAで学習後、平均ベクトルおよび共分散行列適応を行い、データセットAでテストしたUBMの結果
【0155】
表4:データセットBで学習後、平均ベクトルおよび共分散行列適応を行い、データセットAでテストしたUBMの結果
【0157】
MAP適応が全ての事例において性能向上をもたらしていることが、表1〜表4から確認でき、一方で平均および標準偏差調整は、適応なしの基準値全体で性能が低下することを示している。MAP適応による性能向上は、適応なし全体で、これらの実験において2.16%と同等であり得る。
【0158】
適応の評価
適応を評価するために、UBM/GMMにおける異なるガウス分布に対する特徴の割り当ての内部機構が、評価される。例として、データセットBで32個のガウス分布により学習されたUBMが使用された。その後、データセットAからの適応データが取得された。データセットAからのデータは、11個の車線からの画像を包含する。その後、各車線からの画像は、車線/カメラ依存のGMMを学習するために使用される。その後、p(k|x
i)が、UBMおよび各車線/カメラ依存のGMMのガウス分布kに対する特徴x
iから、方程式(6)を介して計算される。
【0159】
適応データセットにおける特定の車線からの特徴x
i全体で平均化された、p(k|x
i)とkとの対比のプロットが、UBM(
図4)および車線/カメラ依存のGMM(
図5)に対して取得された。
図4から、同じUBMが使用される場合、異なる車線からの画像全体へ相当に広まることが確認され得る。一部の車線で、一部のガウス分布は高いp(k|x
i)を有し、一方で一部の他の車線で、著しく低くなる場合がある。これは、UBMは特徴を表し得るが、表現は異なる車線/カメラに対して異なってよい。このずれを無効にするために、適応および
図5において使用される車線/カメラ特有のGMMは、大幅に削減される広がりをもたらす。これは、これらの車線/カメラ特有のGMMがフィッシャーベクトル計算に使用される際、フィッシャーベクトルが、問題になっている特定の物体に起因し、撮像条件に起因しない、偏差を符号化し得ることを示す。