(58)【調査した分野】(Int.Cl.,DB名)
カメラで撮影し記録した動画像から、所定の被写体が映った部分画像をキーとして指定し、指定された該部分画像の特徴量に近い特徴量を有する画像を検索する類似画像検索装置において、
前記動画像を表示する再生画像表示領域と、
前記再生画像表示領域に表示された動画像の中からユーザが指定した1コマ分の画像を表示する検索キー画像指定領域と、
検索する被写体を選択するための画像を表示する画像指定済キー表示領域と、
検索結果を表示する検索結果表示領域と、
を表示する表示部を有しており、
前記表示部は、
1つのボタンを押下する操作をユーザから受け付けると、前記検索キー画像指定領域に表示された画像に対して時間的に近傍であり、1つ以上の被写体が所定のアルゴリズムによって検出された画像全てを、前記画像指定済みキー表示領域に表示し、当該画像から検出した被写体夫々に、図形を重畳して表示し、
前記画像指定済みキー表示領域に表示した図形の内、いずれか1つの図形を指定する操作をユーザから受け付けると、前記検索結果表示領域に、当該図形に対応した被写体の特徴量に近い特徴量を検索した結果を表示する
ことを特徴とする類似画像検索装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したとおり、最善の 検索を期待するユーザは、検索したい人物の画像を既得の動画中からできるだけ多く特定し、それらを全てキー画像に指定し、未特定の画像を検索しようとする。このとき、既得動画中に検索対象人物が1回(1コマ或いは複数コマ連続する1シーン)しか映っていないことが保証されている場合(例えば、一人ずつしか通過できないレーン等で通過に同期して撮影するような運用など)は、容易に動画中の当該人物の全ての画像を自動的に選択できる。
一方、通常の防犯カメラ映像のように、検索対象人物が複数回映る可能性があり、更にそれらの画像において他の人物も一緒に映る可能性がある場合は、ユーザは動画の1コマずつをコマ送りする再生装置の操作をマウスクリックで行った後、画像指定ボタンを押して顔検出させ、顔検出結果の含まれた複数の顔から探したい人物の顔をマウスクリックして指定するという3つの手順を、画像の枚数だけ繰り返す必要があり非常に手間がかかる。
【0007】
この問題を
図8、
図9を参照して詳述する。
図8は、従来の端末装置103に表示される検索画面400を示す図である。
図8の検索画面400は、再生画像表示領域301、画像再生操作領域303、検索キー画像指定領域304、検索絞込パラメータ指定領域308、検索実行領域317、及び、検索結果表示領域320よりなる。
画像再生操作領域303は、録画装置に記録された画像を再生操作する領域である。画像再生操作領域303を構成する各ボタンには、それぞれ固有の再生種類が割当てられており、例えば左から、巻戻し、コマ戻し、逆再生、再生停止、順再生、コマ送り、早送りの再生種類が割当てられている。ユーザが各ボタンをマウス282で適宜押下することにより、ボタンに割当てられた再生種類で再生画像表示領域301に動画302が再生される。
【0008】
検索キー画像指定領域304は、検索キー画像の指定と表示を行う領域である。本領域は、キー原画像305と、画像指定ボタン306、ファイル読込ボタン307よりなる。
キー原画像表示部305は、類似検索のためのキー画像或いはその元となる画像(キー原画像と呼ぶ)を表示する領域である。初期状態においては検索キー原画像は未指定であるので、画像表示はされていない。
画像指定ボタン306は、画像再生操作領域303に現在表示されている動画302をキー原画像に指定するボタンである。例えば動画302を再生停止状態にし画像指定ボタン306を押すと、そのときの画像がキー原画像に指定され、キー原画像表示部305にも表示される。キー原画像が新たに表示される都度、必要に応じ顔検出処理が実行され、検出された顔を切出す際の枠が自動的に付加される。枠は、初期的には(複数あるときは全て)非選択状態となっている。枠の1つを選択すると、キー画像(キー顔)の指定が完了する。
ファイル読込ボタン307は、録画装置102に記録されている画像以外の画像、例えば、デジタルカメラで撮影した画像やスキャナで取込んだ画像や動画像を、画像再生操作領域303に表示させるボタンである。このファイル読込ボタン307を押下すると、ファイルを開くダイアログボックスが表示され、そこで指定したファイルが読み込まれ、画像再生操作領域303で再生可能な状態になるか、自動的に再生が始まる。ファイルが静止画であれば、そのままキー原画像に指定されたことになり、キー原画像表示部305に表示される。
【0009】
検索絞込パラメータ指定領域308は、検索の際の絞込パラメータの種類とその値(範囲)を指定する領域である。本領域は、撮像装置指定チェックボックス309,310,311,312と、時刻指定チェックボックス313、314、時刻指定欄315、316から構成する。
撮像装置指定チェックボックス309,310,311,312は、検索の際に検索対象とする撮像装置を指定するボタンである。本ボタンは、押下すると選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下で表示・非表示を繰り返す。初期状態においては、全撮像装置を検索対象とするため、撮像装置指定チェックボックスは全て選択状態となる。
時刻指定チェックボックス313,314は、検索の際に検索対象とする時刻範囲を指定するボタンである。表示の態様については本ボタンも他のチェックボックスと同様である。時刻指定チェックボックス313を選択状態にした場合には時刻範囲に先頭時刻を与える。非選択状態にした場合には、時刻範囲に先頭時刻を与えない、すなわち、録画装置に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。時刻指定チェックボックス314も同様であり、これを非選択状態にした場合には、録画装置に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。
時刻指定欄315、316は、上述の先頭時刻と末尾時刻の値を指定する入力欄である。
初期状態においては、全時間帯を検索対象とするため、時刻指定チェックボックスは全て非選択状態、時刻指定欄は空欄とする。
【0010】
検索実行領域317は、検索実行を指示する領域である。本領域は、類似人物検索ボタン318と登場イベント検索ボタン319よりなる。
類似人物検索ボタン318は、キー原画像表示部305による類似人物検索実行を指示するボタンである。検索絞込パラメータ指定領域308にてパラメータが指定されている場合には、指定されたパラメータに従って検索の実行をすることを指示する。
登場イベント検索ボタン319は、登場イベント検索実行を指示するボタンである。通常、監視カメラシステム等では、動き検出や人感センサ発報、入退出管理等の他システムからの通知等のイベントを映像と間接的に対応付けて記録したり、映像の記録自体もそれらの発報があったときだけ行ったりしており、これらをイベント記録などと呼んでいる。登場イベント検索は、記録された各種イベントの内、人物の顔が正面方向から撮影されることが期待できるイベントに対応付けられた映像のみを、検索対象とするものである。検索絞込パラメータ指定領域308にてパラメータが指定されている場合には、指定されたパラメータに従って検索の実行をすることを指示する。
【0011】
図9は、操作画面400で、動画の1コマずつを複数のキー画像として検索するための
各手順の操作を示す図である。動画の1コマずつを複数のキー画像として検索したい場合、ユーザはまず、画像再生操作領域303を使用して、キー画像に使いたい動画の先頭の画像を再生画像表示領域301に表示させる(手順1と呼ぶ)。次に、画像指定ボタン306を押す(手順2と呼ぶ)。次に、キー原画像表示部305に表示されている顔画像を示す矩形の中から、検索キーにしたい顔をマウスで指定する(手順3と呼ぶ)。すると端末装置103の内部で、このときの画像(のID)と指定した顔の領域の情報が保持される。保持した情報は、人物検索ボタン318が押されるまで蓄積され、次にユーザは画像再生操作領域303のコマ送り機能を用いて、動画302を1コマ送る(手順4)。次に先ほどと同様に手順2と手順3を行う。以降、動画の1コマずつを複数のキー画像として検索するための末尾の画像になるまで、手順2、手順3、手順4を繰り返す。
この、手順2、手順3、手順4の繰り返しがユーザにとって非常に面倒な作業であるという課題がある。
【0012】
本発明は、このような問題に鑑みてなされたものであり、単調な繰り返し作業を自動化により排除し、一般ユーザに使い易いユーザインターフェースを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明を概略的に述べると、本発明の一側面では、顔をクリックすると1コマ進めた画像に対して顔検出処理を行うことで、次々に当該人物を選択でき、当該人物が時間的に連続に登場する場面をビューア操作せず選択できるようにした。なお、当該人物が検出されない(例えば前の人と重なる)とき『次ボタン』を押す。
【0014】
本発明の他の側面では、顔を1つ指定すると、指定画像の近傍(例えば5秒前〜5秒後までの10秒間)の顔検出結果が全て表示され、その中から当該人物の顔をユーザが指定することでビューア操作せず一連の人物の複数画像を指定できるようにした。
【0015】
本発明の他の側面では、自動的に人物追跡された結果を操作端末に表示することで、自動的に人物追跡された結果に間違いが無いかユーザが判定でき、間違いがあれば修正できるようにした。例えば、自動判定された一連の人物の顔を太枠に、その他を破線枠で区別して表示する。
【0016】
本発明のより具体的な一側面では、カメラで撮影し記録した動画像から、所定の被写体が映った部分画像をキーとして指定し、指定された該部分画像の特徴量に近い特徴量を有する画像を検索する類似画像検索装置において、
動画像の中から所望の1コマを指定するためのプレビューを提供する手段と、
前記プレビューされた1コマをキー原画像に指定する操作を受付ける手段と、
前記受付ける手段で指定された1コマに時間的に近傍の複数コマを、自動的にキー原画像に追加指定する手段と、
前記受付ける手段或いは前記追加指定する手段でキー原画像に指定された1ないし複数コマを、該1ないし複数コマから所定のアルゴリズムで検出された被写体に対応する領域を示す図形を付加して表示する手段と、
付加された前記図形の初期状態を非選択状態とし、1つのコマに対しいずれか1つの図形を選択状態とする操作を受付ける選択手段と、
選択状態となった前記図形に対応する複数の被写体をキーとする検索を要求する手段と、を有する。
【0017】
上記の類似画像検索装置において、前記被写体は人の顔であり、前記特徴量は、前記動画像から自動的に検出された前記被写体ごとに予め抽出され、該自動的に検出された元の画像に対応付けて記録されており、更に、前記要求する手段からの要求を受けて、前記選択状態となった前記図形に対応する複数の被写体は同一人物であると看做して、該複数の被写体に対応する複数の特徴量を1つずつキーとして検索し、それら結果を結合して応答する検索実行手段を設けてもよい。
【0018】
上記の類似画像検索装置において、前記表示する手段は、受付ける手段で指定された1コマに対し、前記図形を付加して、キー原画像表示領域に表示するものであり、
前記選択手段がキー原画像表示領域に表示された前記図形に対する前記選択状態とする操作を受付けるか、或いは、所定のボタンの1回の押下のみに応じて、前記追加指定する手段が、そのとき前記キー原画像表示領域に表示されていた1コマに続く次のコマをキー原画像に追加指定することで、自動的に該次のコマが前記キー原画像表示領域に表示され、再び前記選択手段が操作を受付けるという動作を繰り返し、要求する手段は、該繰り返しの間に選択状態にされた複数の前記図形に対応する複数の被写体を前記キーとするように構成してもよい。
【0019】
上記の類似画像検索装置において、追加指定する手段は、前記受付ける手段により前記1コマをキー原画像に指定する操作が受付けられた後、自動的に或いは所定のボタンの1回の押下のみに応じて、前記受付ける手段で指定された1コマに時間的に前または後に連続する複数コマのうち、少なくとも被写体が検出された複数コマをキー原画像に追加指定し、前記表示する手段は、前記追加指定する手段で指定された複数のキー原画像を、夫々に前記図形を付加して指定済キー表示領域に表示するものであり、前記選択手段が、前記指定済キー表示領域に表示された複数のキー原画像に対する、前記図形を前記選択状態とする操作を複数受付け、前記要求する手段が、前記選択状態にされた複数の前記図形に対応する複数の被写体を前記キーとするように構成してもよい。
【0020】
上記の類似画像検索装置において、前記表示する手段は、受付ける手段で指定された1コマに対し、前記図形を付加して、キー原画像表示領域に表示するものであり、
前記自動追加手段は、前記選択手段が前記キー原画像表示領域に表示された前記図形に対する前記選択状態とする操作を受付けた後の所定のボタンの1回の押下のみに呼応して、該選択状態にされた前記図形に対応する被写体を起点として、記録された動画像の中から当該被写体に時空間的連続性を満たす被写体を追跡し、当該追跡が成功した範囲の複数のコマをキー原画像に追加指定するものであり、前記表示する手段は、前記追加指定する手段で指定された複数のキー原画像を、夫々に前記図形を付加して指定済キー表示領域に表示するように構成してもよい。
【発明の効果】
【0021】
本発明によれば、動画からの複数の検索キーの指定を自動もしくは半自動で行うようにしたので、簡単な操作で精度の高い検索を行うことができる。
【発明を実施するための形態】
【0023】
以下、本発明に係る一実施形態について図面を参照して説明する。なお、各図の説明において、実質的に同一な機能を有する構成要素には同一の参照番号を付し、説明を省略する。
【0024】
まず、
図1〜
図4を参照して、本発明の一実施形態に係る類似画像検索システムの構成について説明する。
図1には、本発明の一実施形態に係る類似画像検索システムのシステム構成を例示してある。
類似画像検索システムは、
図1に示すように、ネットワーク200に、撮像装置201、録画装置102、端末装置103が接続され、互いに通信可能な状態で構成される。
【0025】
ネットワーク200は、データ通信を行う専用ネットワークやイントラネット、インターネット、無線LAN(Local Area Network)等の各装置を相互に接続して通信を行う通信手段である。
撮像装置201は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等で撮像した画像にデジタル変換処理を施し、変換結果の画像データを、ネットワーク200を介して録画装置へ出力するネットワークカメラや監視カメラ等の装置である。
【0026】
録画装置102は、ネットワーク200を介して撮像装置201より入力された画像データをHDD等の記録媒体に記録するネットワークビデオレコーダ等の装置である。また人物検索のための殆どの機能も搭載される。
録画装置102は、機能構成として、画像送受信部210、画像記録部211、再生制御部212、人物領域検出部213、人物特徴量抽出部214、人物特徴量記録部215、属性情報記録部216、要求受信部217、類似人物検索部218、登場イベント検索部219、検索結果送信部220を有する。
【0027】
画像送受信部210は、装置外部からの画像の入出力を行う処理部であり、撮像装置201からの画像データの受信、端末装置103への画像データの送信等を行う。
画像記録部211は、画像データの記録媒体への書込みや読出しを行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ID(画像の識別情報)も併せて記録する。
再生制御部212は、端末装置103への映像(ストリーム)再生を制御する。
【0028】
人物領域検出部213は、撮像装置201から受信した画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物の存在判定をし、人物が存在する場合には、その顔を基準にして所定条件で顔の周囲まで含む、所定の縦横比を有する矩形の領域の座標算出を行う。
人物特徴量抽出部214は、人物領域検出部213で検出した領域に対して画像認識技術を用いて特徴量算出を行う。ここで算出する人物特徴量とは、静止画から抽出可能なものであり、例えば、検出した領域を一定サイズにスケーリングし、一律に分割した画素ブロック毎に色や輝度、あるいはそれらの勾配やテクスチャのヒストグラムを求め、その結果を集約した多次元ベクトルである。このようなappearance-baseの認識のほか、3次元形状を復元して認識するもの、例えば、顔の骨格に強く依存する輪郭や目や鼻、口に対応する特徴点の相対的配置関係を3次元上で判断するものが挙げられるが、本実施形態においては、使用する特徴量の種類や数はいずれであってもよい。特徴量の次元を減らすため、Linde-Buzo-Gray法などベクトル量子化の手法を用いることができる。ヒストグラムベースの特徴量であれば、画素ブロック1つ分を大津の2値化手法により最終的に2色で近似するBlock Truncation Codingを用いても良い。
【0029】
人物特徴量記録部215は、人物特徴量抽出部214で算出した特徴量の記録媒体への書込みと読出しを行う。大量の特徴量の中から高速に検索するために、特徴量はクラスタに分類され、それに応じ記録構造(ツリーや辞書の構成やHDD上のセクタ配置等)も最適化される。簡易的には、単純な規則のハッシュ関数で分類し、ハッシュ値と記録先を対応付ける辞書を作り、1分類に属する特徴量の数が増えすぎたときには、さらに階層を増やして細かく分類する方法がある。このほかEM法など各種の最適化アルゴリズムが知られる。
属性情報記録部216は、個々の画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻や撮像装置番号、各種イベントのフラグ、人物領域検出部213で検出した領域の座標等である。
【0030】
要求受信部217は、端末装置103からの検索要求の受信を行う。検索要求には、類似画像検索要求と、登場イベント検索要求がある。
類似人物検索部218は、要求受信部217にて受信した要求が類似人物検索要求であった場合に、類似画像検索を行う。基本的には、両者の特徴量ベクトルの差(ノルム)が小さいほど類似していると判断する。ヒストグラムベースの特徴量の場合、非特許文献1に記載のHistogram Intersectionにより1乃至複数ブロック分の類似度を求め、これらを重み付き加算したものを類似度とすることができ、この類似度が所定値以上のものを検索結果として出力する。
登場イベント検索部219は、要求受信部にて受信した要求が登場イベント検索要求であった場合に、登場イベント検索を行う。
検索結果送信部220は、類似人物検索部218や登場イベント検索部219から得た類似人物検索結果や登場イベント検索結果の端末装置103への送信を行う。
【0031】
端末装置103は、実際に検索を行う画像記録部211とユーザと間のインターフェースとなる装置であり、ネットワーク機能を有する一般のPC(パーソナルコンピュータ)で実現してもよい。
端末装置103は、機能構成として、検索要求送信部221、検索結果受信部222、検索結果表示部223、再生画像表示部224、画面操作検知部225の各処理部を有する。
【0032】
検索要求送信部221は、検索要求の録画装置102への送信を行う。類似人物検索の場合、キー画像(キー顔)が指定されるたびにそれを蓄積し、その後類似人物検索ボタン318等が押されたときに、蓄積した1乃至複数の検索キー画像と、絞込みパラメータとを含む検索要求(クエリ)を送信するとともに、蓄積したキー画像をクリアする。なお、キー画像の蓄積や送信は、キー画像の画像データそのものではなく、その特徴量、或いはそれが抽出された原画像のIDと原画像内での位置情報の組等を用いてすることもできる。また送信したキー画像は別途、検索履歴として保存してもよい。
検索結果受信部222は、検索結果の録画装置102からの受信を行う。検索結果として受信するデータには、録画装置102において、類似人物検索、或いは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、録画装置102に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」という。
検索結果表示部223は、検索結果受信部222にて受信した検索結果の画面表示を行う。表示される画面例については後述する。
再生画像表示部224は、DirectShow(商標)等を利用して、録画装置102から受信したされた画像データの復号や画面への再生(動画表示)を行う。
画面操作検知部225は、ユーザによる操作内容の検知及び取得を行う。
【0033】
図2には、本発明の一実施形態に係る類似画像検索システムに用いる撮像装置201のハードウェア構成を例示してある。
撮像装置201のハードウェア構成は、
図2に示すように、撮像部241、主記憶部242、符号化部243、ネットワークインタフェース(I/F)245が、バス240で結合された形態である。
【0034】
撮像部241は、レンズで撮像した光信号をデジタルデータに変換する。符号化部243は、撮像部241が出力するデジタルデータを符号化して、JPEG(Joint Photographic Experts Group)などの画像データに変換する。主記憶部242は、撮像したデジタルデータ、符号化された画像データを記憶する。ネットワークI/F245は、ネットワーク200を介して、主記憶部242上の画像データを録画装置102に送信するためのインタフェースである。
【0035】
図3には、本発明の一実施形態に係る類似画像検索システムに用いる録画装置102のハードウェア構成を例示してある。
録画装置102のハードウェア構成は、
図3に示すように、CPU(Central Processing Unit)251、主記憶部252、補助記憶部253、ネットワークI/F254が、バス250で結合された形態である。
【0036】
CPU251は、録画装置102の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部252は、DRAM(Dynamic Random Access Memory)などの半導体装置で実現され、検索のための画像データやCPU251で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部253は、HDDやフラッシュメモリなどで実現され、主記憶部252より大容量のメモリであり、画像データやプログラムを格納する。ネットワークI/F254は、ネットワーク200を介して、撮像装置201からの画像データを受信したり、端末装置103から検索キーワードを受信したり、端末装置103に画像データを送信するためのインタフェースである。
【0037】
図4には、本発明の一実施形態に係る類似画像検索システムに用いる端末装置103のハードウェア構成を例示してある。
端末装置103のハードウェア構成は、
図4に示すように、CPU261、主記憶部262、補助記憶部263、表示I/F264、入出力I/F265、ネットワークI/F266が、バス260で結合された形態である。また、表示I/F264は、表示装置270と接続され、入出力I/F265は、キーボード280やマウス282などの入出力装置と接続される。
【0038】
CPU261は、端末装置103の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部262は、DRAMなどの半導体装置で実現され、表示のための画像データやCPU261で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部263は、HDDやフラッシュメモリなどで実現され、主記憶部262より大容量のメモリであり、検索キーワード、画像データやプログラムを格納する。表示I/F264は、表示装置270と接続するためのインタフェースである。入出力I/F265は、キーボード280やマウス282などの入出力装置と接続するためのインタフェースである。ネットワークI/F266は、ネットワーク200を介して、録画装置102からの画像データを受信したり、録画装置102に検索キーワードを送信したりするためのインタフェースである。表示装置270は、例えば、LCD(Liquid Crystal Display)などの装置であり、画像や動画をその表示部に表示する装置である。ユーザは、表示装置270の表示部に表示された画像を、キーボード280やマウス282などの入出力装置を操作して、例えばGUI(Graphical User Interface)操作することによって、端末装置103、及び、類似画像検索システムを操作する。
【0039】
次に、本発明の実施形態に係る類似画像検索システムにおける複数キー画像検索を、実施例1乃至3により説明する。
【実施例1】
【0040】
本発明の実施形態である類似画像検索システムの実施例1を、
図5を参照して説明する。
図5は、実施例1の端末装置103に表示される検索画面300を示す図である。本例の検索画面300は、新たに、次ボタン321を設けた点などで従来と異なる。
【0041】
本例の検索画面300を用いて、ユーザが動画の1コマずつを複数のキー画像として検索するための手順は、おおよそ以下のようになる。
まず、従来と同様に手順1を行う。つまり、画像再生操作領域303を使用して、キー画像に使いたい動画の先頭の画像(或いは任意の動画中の画像)を再生画像表示領域301に表示させる。なお、記録装置201に記録された動画の中からカメラや時刻を指定して再生するには、監視カメラシステムの分野で一般的な技術を使用すればよい。
次に、従来と同様に手順2を行う。つまり、画像指定ボタン306を押すことで、そのとき表示されている動画302(先頭の画像である)が、キー原画像として取り込まれ、検索キー画像指定領域304にキー原画像305として表示される。
【0042】
次に、手順3として、表示されているキー原画像305中で、検索キーにしたい顔があれば、それを従来の手順3同様にマウス226で指定し、検索キーにしたい顔がなければ、次ボタン321を押す。
顔を指定した瞬間、このときの画像と指定した顔の領域の情報が端末装置103内に保持される。あるいは、顔画像の特徴量を(適宜端末装置103内で算出して)保持してもよい。保持したのち、端末装置103は、キー原画像305を1コマ進めたものに更新して検索キー画像指定領域304に表示する。次ボタン321を押した場合は、保持をせずにキー原画像305を1コマ進めたものに更新する。
【0043】
ユーザはこの後、所望の人物が画像に映っている間、手順3のみを繰り返せばよく、手順2と4が省略できる。なお、本例を最も簡易に実装する方法は、ユーザのする操作と同じキーコードやマウスイベントを発生させる方法(エミュレーション)である。
【0044】
以下、本例の処理の一例を詳細に説明する。本例の実現に当り、顔検出や顔画像の特徴量の計算を何時何処で行うか、コマ送り中の画像を伝送し復号するか、等により幾つかの最適実装が考えられ、最も簡易な実装は、ユーザのする操作と同じキーコードやマウスイベントを発生させる方法(エミュレーション)である。以下の説明では、顔検出や特徴量は画像(動画)に埋め込まれた状態で端末装置103にストリーム送信されるものとする。
【0045】
従来同様の手順1での処理は次のようになる。MPEGのような動画であれば、RTSPやMRCP(Media Resource Control Protocol)等プロトコルで、録画装置102と端末装置103間でセッションが開始され、端末装置103の再生画像表示部224から再生位置を指定したPLAYメッセージ等を送信して、所望のコマの画像が再生画像表示領域301に表示されているものとする。このとき再生画像表示部224の受信バッファには、所望のコマの後のコマも蓄えられた状態となる。静止画を一枚ずつ伝送する方法であっても、プリフェッチを行うことで同様に蓄えられた状態とする。
動画の場合、再生画像表示部224のDirectShowの入力フィルタ(スプリッタ)が、カメラ名、撮影時刻、画像ID、その画像内での顔領域の通し番号と座標(と特徴量)を取り出して、描画フィルタ及びアプリケーションソフトに渡す。静止画の場合、画像ファイルのヘッダ等に埋め込まれたものを同様に取り出す。入力フィルタはMPEGビデオのエレメンタリストリームを復号フィルタに渡す。
描画フィルタ(レンダラ)は、カメラ名、撮影時刻を文字化および画像化し、それらを復号フィルタで復号された動画(静止画)に重畳して、表示I/F264への描画処理を行う。これにより再生画像表示領域301に動画302が表示される。書出しフィルタ(グラバ)は復号された動画(静止画)を1コマ単位で所定のフォーマットでアプリケーションソフトに渡す。巻戻し等の再生制御はIMediaControlやIMediaSeeking インターフェイスにより行う。巻戻しはSet_Rateメソッドで負の値を与えれば良いが、サポートしていない場合は、SetPositionsメソッドで再生コマを1つずつ指定する。またIBasicVideo インターフェイスのGetCurrentImageメソッドやMultimedia Streaming API等を使うことで書出しフィルタと同様の機能を実現できる。
【0046】
従来同様の手順2での処理は次のようになる。つまり、アプリケーションソフトは、画像指定ボタン306が押されたことを画面操作検知部225から通知されると、書出しフィルタ等から受取った1コマ分の画像(動画302として表示されている画像である)に、受取った顔領域の座標に応じた枠の画像を重畳して、表示I/F264へ描画処理を行う。これによりキー原画像305として、動画302に表示されているものと同じ画像が表示される。
【0047】
本例の手順3での処理は次のようになる。つまり、アプリケーションソフトは、検索キー画像指定領域304内でマウス操作があったことを画面操作検知部225から通知されると、マウス操作の座標と、顔領域の枠を表示した座標とを比較し、該当する枠があるか判断する。該当する枠があれば、その枠が選択されたものとしてその枠に対応する顔領域の通し番号と座標(と特徴量)を画像IDとともに配列に保持する。これにより、選択された枠内の部分画像が、指定済キー画像となる。
次にIVideoFrameStepインターフェイスのStepメソッドによりコマを1つ進め、画像、その画像での各顔領域の通し番号と座標(と特徴量)を入力フィルタ等から受取り、上記手順2と同様にキー原画像305として表示する。
【0048】
なお、本例では操作を極力シンプルにするため、指定済キー画像の一覧や修正(原画像で枠を選択し直すこと)、削除等のインタフェースを明示的には提供しないが、エキスパート向けにこれらを提供することを妨げるものではない。
【実施例2】
【0049】
本発明の実施形態である類似画像検索システムの実施例2を、
図6を参照して説明する。なお、実施例1と同様の部分は説明を省略する。
図6は、実施例2における端末装置103で複数キー画像検索を行う際の検索画面330を示す図である。本例の検索画面330は、次ボタン321に代えて近傍全表示ボタン331を備え、また自動的に追加されたキー原画像に対し顔の選択を行う指定済キー表示領域332を更に備えた点などで、実施例1と異なる。
【0050】
本例の検索画面330を用いて、ユーザが動画の1コマずつを複数のキー画像として指定し検索するための手順は、おおよそ以下のようになる。
まず、実施例1同様に、従来の手順1と手順2を行う。つまり、目的の人物が映った所望の画像(ただし、連続する画像中の最先のものでなくても良い)を再生画像表示領域301に表示させた状態で、画像指定ボタン306を押す。
【0051】
次に、手順3として、近傍全表示ボタン331を押す。すると手順2で画像指定ボタン306を押した時の画像の近傍(例えば5秒前〜5秒後までの10秒間)の動画302のうち1つ以上の顔検出結果を有する画像が、指定済キー表示領域332に全て表示される。
図6には3つのキー原画像333、334、335が表示された例を示している。端末装置103は、キー原画像333〜335に、その画像内での顔領域の通し番号と座標に基づいて、顔領域の境界に相当する枠を重畳して表示する。
【0052】
次に、手順4として、指定済キー表示領域332に表示された画像1つずつについて、実施例1の手順3と同様に、目的の人物の顔を選択する。顔を選択すると、その顔に付された枠が、選択状態を示す枠(例えば太枠)に描画しなおされ、また画像IDと指定した顔の領域の情報が端末装置103内に保持される。
なお、目的の人物の顔がない画像は、そのままどの顔も選択せずにおけばよい。また一旦顔選択した画像において、別の顔をクリックすると、その新たにクリックした顔が選択状態、元の顔は非選択状態となり、また新たな顔の領域の情報が保持内容に上書きされる。これにより、類似人物検索ボタン318を押したときに指定済キー表示領域332内で選択状態となっていた顔が、キー画像(キー顔)となる。
【0053】
本例によれば、従来の手順2と手順4の繰り返しを省くことができる。
本例の手順3の処理の詳細を以下、補足する。
アプリケーションソフトは、近傍全表示ボタン331の押下があったことを画面操作検知部225から通知されると、SetPositionsメソッドにより再生位置を例えば5秒前に戻す。またフィルタグラフを操作し、出力ピンをNullレンダラに接続する。また再生レートを可能な限り最高にする。それにより順次、コマの画像(GDIビットマップオブジェクト)、その画像での顔領域の通し番号と座標を受取り、メモリに保持すると共に指定済キー表示領域332に並べて表示する。画像をメモリに保持するのは枠の再選択や指定済キー表示領域332のスクロールで再描画が必要になるからである。もしそうしたほうが処理が速くなるのなら、元のサイズではなく指定済キー表示領域332での表示サイズに縮小して保存してよい。画像ID、顔領域の通し番号と座標は配列などに格納する。
そして10秒分の画像が取り込まれると、再生を停止し、出力ピンを元のレンダラに戻す。
Nullレンダラに接続したことで、この間、再生画像表示領域301への動画301の表示は更新されない。また通常のDirectShowフィルタは上流フィルタのスレッド内で動くので、アプリケーションのスレッドとデッドロックを起こしやすいので、Multimedia Streaming APIを使用して、フィルタグラフから画像データを取り出すことが望ましい。
【0054】
なお本例では、指定済キー表示領域332にキー原画像(の候補)が多数表示され、ユーザはその中で適宜スクロールしながら、キーにしたい顔を1つずつ選択する。そのため、顔が確認し易いよう、検索キー画像指定領域304に表示する場合と同じサイズで表示するようにしてある。なおキー原画像は、デフォルトを縮小表示(アイコン)としマウス226をそれに合わせることで元のサイズに表示させてもよく、顔を選択し終えた画像から順次、非表示にしても良い。
【実施例3】
【0055】
本発明の実施形態である類似画像検索システムの実施例3を、
図7A、
図7Bを参照して説明する。なお、実施例1や2と同様の部分は説明を省略する。
図7Aは、実施例3の端末装置で複数キー画像検索を行う際の検索画面340を示す図である。本例は、指定済キー表示領域332内でのキー画像の指定を更に自動化した点などで、実施例2と異なる。
【0056】
本例の検索画面340を用いて、ユーザが動画の1コマずつを複数のキー画像として指定するための手順は、おおよそ以下のようになる。
まず、実施例2同様に、従来の手順1と手順2を行う。つまり、目的の人物が映った所望の画像を再生画像表示領域301に表示させた状態で、画像指定ボタン306を押す。
【0057】
次に、手順3として、実施例1同様に、キー原画像表示部305に表示されている原画像中で、顔を示す矩形の中から、検索キーにしたい顔をマウス226で指定する。
次に、手順4として、近傍全表示ボタン331を押す。すると、手順3で指定した顔の人物について、手順3で指定した画像の時間的近傍において人物追跡処理を行い、その結果同一人物とされた顔を含む画像が、時刻順に全て表示される。更に顔検出結果を示す枠のうち、同一人物とされた顔の枠が、自動的に選択状態となる。
【0058】
次に、手順5として、指定済キー表示領域332に表示されたキー原画像において、間違って別の人物の顔が選択されていないか確認し、もし間違いがあれば、正しい顔を選択しなおす。それにより、
図7Bに示すようにその顔に付された枠が、選択状態を示す枠(例えば太枠)に描画しなおされ、新たな顔の領域の情報が保持内容に上書きされる。これにより、類似人物検索ボタン318を押したときに指定済キー表示領域332内で選択状態となっていた顔が、キー画像(キー顔)となる。
【0059】
ここで、本例の手順4の詳細を補足する。アプリケーションソフトは、近傍全表示ボタン331の押下の通知を受けると、キー原画像305において選択されている枠があるか否か検査する。選択されている枠があれば、その情報(画像ID、通し番号、座標、特徴量)を配列の先頭などに保存する。そしてSetPositionsメソッド等を用い1つ前のコマを指定し、画像とその画像での顔領域の通し番号と座標(と特徴量)を入力フィルタから受取る。もし顔領域が1つもなければ、そのデータは破棄してさらに1つ前のコマを指定する。もし顔領域が1つ以上あれば、すでに配列(の最後)に保持された顔領域の座標(重心座標)に最も近い座標の顔領域を見つけ、領域の位置(重心座標)や大きさが、所定の連続性条件を満たすか(例えばカルマンフィルタの出力との差が所定値以内か)検査する。連続性条件を満たす場合、同一人物と推定されるので、それを配列に保存すると共に、更に前のコマを指定し、同様の処理を同一人物を見失う(ロスト)まで繰り返す。なお複数コマ連続して連続性条件を満たせなかったときにロストしたと判断する。また近傍全表示ボタン331の押下時に表示されていたキー原画像305より時間的に後の画像についても同様にコマを進めながら繰り返す。
なお、特徴量も取得しているので、配列の最初に保持された特徴量(ユーザにより手順3で指定された顔の特徴量)と今のコマの各顔領域の特徴量との類似度も用いて検査するほうが、精度が期待できる。
【0060】
このように、本例での人物追跡処理断は、端末装置103側で顔領域の時空間的連続性に基づき行うことができ、例えば特許文献5に記載の方法を利用できる。更に顔検出の結果以外のものによる追跡を併用することもできる。最も容易なのは、手順3で指定した顔の部分画像を用いたテンプレートマッチングである。初期テンプレートには、指定画像の時間的近傍で差分法による動体検知を行い、指定した顔に相当する人物全体の像(複数コマの中から大きさがそれらの中央値に近いものを選ぶと良い)を用いてもよい。また人物全体の像から顔以外の体の部分を切出し、その体画像から抽出した特徴量の類似度を顔の類似度と併用してもよい。なお画像処理による動体追跡手法は様々なものが知られており、本例に適用できる。複数の追跡手法を併用し、ある手法でロストしても他の手法での追跡結果をロストした手法に与え続けることで再度補足することが期待でき、全手法でロストするまで追跡できることとなり、堅牢性が向上する。或いはレーザセンサ等、距離或いは3次元形状を直接計測する手段をカメラに併設し、その計測結果から物体検出し追跡してもよい。時空間連続性における空間とは、2次元でもよく、ピクセル座標のような画像空間に限らず、経緯度のような地理的空間でもよい。複数のカメラ等の位置検出手段の計測結果を共通の座標系で扱うことで、個々のカメラを意識することなく追跡を行うことができる。
【0061】
以上説明したように、本発明の実施形態は、時系列画像(動画)に連続的に映り込んでいることが期待できる所望の人物を、一括して検索キー画像に指定する場合に、好適である。なお検索対象は記録画像に限らず、撮影中の画像からリアルタイムに検索(照合)するシステムにも適用可能である。また動画は再生画像表示領域から画像指定するものに限らず、ファイル読込ボタン307を押したときのダイアログボックスにおいて複数の静止画ファイル(時系列に撮影されたもの)を選択することで、それらをキー原画像に一括指定できるようにしても良い。
ここで、本発明に係るシステムや装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。また、本発明は、例えば、本発明に係る処理を実行する方法或いは方式や、このような方法や方式をコンピュータに実現させるためのプログラムや当該プログラムを記録する有体の媒体などとして提供することもできる。