(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-01
(45)【発行日】2024-03-11
(54)【発明の名称】情報処理装置、映像の要約方法、およびプログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240304BHJP
H04N 7/18 20060101ALI20240304BHJP
H04N 5/76 20060101ALI20240304BHJP
G06T 7/00 20170101ALI20240304BHJP
【FI】
H04N5/91
H04N7/18 U
H04N7/18 D
H04N5/76
G06T7/00 300F
(21)【出願番号】P 2019184778
(22)【出願日】2019-10-07
【審査請求日】2022-10-03
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100109380
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】浦島 寛基
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特開2010-166288(JP,A)
【文献】特開2016-009448(JP,A)
【文献】特開2015-230616(JP,A)
【文献】特開2011-192092(JP,A)
【文献】特開2010-044516(JP,A)
【文献】特表2009-516257(JP,A)
【文献】特表2010-518673(JP,A)
【文献】特開2010-134923(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91-5/956
H04N 5/76-5/775
H04N 5/80-5/907
H04N 7/18
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置において、
映像の中で検知された複数の対象物のデータに基づき、
複数の動作軌跡を抽出する抽出手段と、
前記抽出手段により抽出された前記複数の動作軌跡から、同一の対象物
の2以上の動作軌跡を特定する特定手段と、
前記特定手段により
特定された
、前記同一の対象物の前記2以上の
動作軌跡の配置を、
前記要約映像において、それぞれが時間方向で重ならないように決定する決定手段と、
前記決定手段により決定された配置に基づき、前記映像の要約映像を生成する生成手段と、
を有することを特徴とする情報処理装置。
【請求項2】
前記特定手段は、前記映像の中で検知された複数の対象物それぞれの画像特徴量に基づいて、前記同一の対象物を特定する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記特定手段は、前記映像の中で検知された複数の対象物それぞれの画像特徴量を比較した類似度が所定の閾値以上である対象物を、前記同一の対象物を特定する、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記決定手段は、前記特定手段により同一の対象物と特定された2以上の対象物の動作軌跡が順番に再生されるように、前記配置を決定する、
ことを特徴とする請求項1
乃至3のいずれか一項に記載の情報処理装置。
【請求項5】
前記決定手段は、前記特定手段により同一の対象物と特定された2以上の対象物の動作軌跡が順番に連続して再生されるように、前記配置を決定する、
ことを特徴とする請求項1
乃至3のいずれか一項に記載の情報処理装置。
【請求項6】
前記映像の中で検知された複数の対象物の中から1以上の対象物の選択を受け付ける選択手段をさらに有し、
前記特定
手段は、前記選択手段が前記1以上の対象物の選択を受け付けた場合には、選択された前記1以上の対象物に対してのみ、同一の対象物の特定を行う、
ことを特徴とする請求項1乃至
5のいずれか一項に記載の情報処理装置。
【請求項7】
前記決定手段は、同一の対象物の動作軌跡の間に隔たりがある場合は、当該間を補間することを特徴とする請求項1乃至
6のいずれか一項に記載の情報処理装置。
【請求項8】
前記要約映像の再生時に対象物の選択を受け付ける選択手段と、
前記選択手段により選択が受け付けられた前記対象物を含む映像の部分を再生する再生
手段と、をさらに有する、
ことを特徴とする請求項1乃至
7のいずれか一項に記載の情報処理装置。
【請求項9】
前記再生手段は、前記選択手段により選択が受け付けられた前記対象物を含む映像の部分と、前記対象物と同一の対象物を含む映像の他の部分とを連続して再生する、
ことを特徴とする請求項
8に記載の情報処理装置。
【請求項10】
映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する映像の要約方法において、
映像の中で検知された複数の対象物のデータに基づき、
複数の動作軌跡を抽出するステップと、
前記抽出するステップにより抽出された前記複数の動作軌跡から、同一の対象物
の2以上の動作軌跡を特定するステップと、
前記特定するステップに
より特定された
、前記同一の対象物の前記2以上の
動作軌跡の配置を、
前記要約映像において、それぞれが時間方向で重ならないように決定するステップと、
前記決定するステップにおいて決定された配置に基づき、前記映像の要約映像を生成するステップと、
を有することを特徴とする映像の要約方法。
【請求項11】
コンピュータを、請求項1から
9のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、映像の要約方法、およびプログラムに関する。
【背景技術】
【0002】
監視カメラによって映像を取得して保存する目的の1つは、不審者や容疑者を観察し、犯人の特定に繋げることである。監視カメラによって取得して保存された映像は、犯罪の証拠映像としても使用される。しかしながら、カメラに搭載される記録媒体に保存された映像や、サーバおよびクラウドなどに保存された監視カメラの映像の中で、不審者等の特定の手掛かりとなる箇所はごく一部であり、大部分は無関係で不要な映像である。そこで、保存された大量の映像の中から、手掛かりとなる箇所を手早く抽出する技術が必要となる。
【0003】
そのような技術の1つとして、特許文献1に記載の要約映像を生成する技術が知られている。具体的には、映像から人物あるいは車などの対象物を抽出し、当該対象物が空間方向(映像内)で重ならないようにしつつ、各対象物を時間方向に個別にシフトすることで、映像内のすべての対象物を短時間で閲覧可能にする。この技術によれば、異なるタイミングで出現していた対象物が同時に再生されることになるので、総再生時間が大幅に短縮され、監視映像を効率的に閲覧することが可能になる。
【0004】
また、特許文献2には、上記の技術においてさらに、類似する対象物をクラスタにまとめ、各対象物の時間方向の相対的な配置をクラスタごとに決めた上で、各クラスタの時間方向の配置を決める技術が提案されている。クラスタは、人のクラスタ、車のクラスタなどである。この技術によれば、外観特徴あるいは動作特徴が類似する対象物が要約映像の中でより近い時刻に表示されるので、類似した対象物ごとに整理された状態で映像を閲覧することが可能になる。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第5355422号
【文献】特許第5432677号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1および2に記載の技術では、抽出された対象物の時間方向の配置を制御した結果として、要約映像の同一フレーム内の複数箇所に同一人物が写り込んでしまう可能性がある。このことは、映像観察時に不審人物を見落としてしまう原因になる。
本発明はこのような課題に鑑みてなされたものであり、その目的は、要約映像の視認性を向上することにある。
【課題を解決するための手段】
【0007】
本発明の1つの態様による情報処理装置は、映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置であって、映像の中で検知された複数の対象物のデータに基づき、同一の対象物を特定する特定手段と、前記特定手段により同一の対象物と特定された2以上の対象物の動作軌跡の配置を、それぞれが時間方向で重ならないように決定する決定手段と、前記決定手段により決定された配置に基づき、前記映像の要約映像を生成する生成手段と、を有する。
【発明の効果】
【0008】
本発明によれば、要約映像の視認性を向上することができる。
【図面の簡単な説明】
【0009】
【
図1】(a)は、本発明の実施形態に係る情報処理装置の一例である映像生成デバイスの機能ブロック図であり、(b)は、情報処理装置のハードウェア構成を示す図である。
【
図2】(a)は、元映像の時空間における対象物の動作軌跡の配置を表す図であり、(b)は、要約映像の時空間における対象物の動作軌跡の配置を表す図である。
【
図3】(a)は、制御部が受け付ける元映像のフレームを表す図であり、(b)は、生成部が出力する要約映像のフレームを表す図である。
【
図4】(a)は、受信部が受信する1以上の対象物情報を含む対象物情報テーブルを示す図であり、(b)は、動作軌跡を構成する一連のレコードを含む動作軌跡テーブルを示す図である。
【
図5】特定部の判定結果に基づいて配置決定部が生成する対象物のセット情報を含むセット情報テーブルを示す図である。
【
図6】要約映像内における各対象物の開始時刻情報を含む開始時刻テーブルを示す図である。
【
図7】本発明の実施形態において制御部が実行する処理の一例を示すフローチャートである。
【
図8】(a)は、
図7で実行される同一対象物の特定処理の一例を示す図であり、(b)は、
図7で実行される対象物の配置決定処理の一例を示す図である。
【
図9】本発明の実施形態の変形例1において制御部が実行する処理の一例を示すフローチャートである。
【
図10】本発明の実施形態の変形例1による要約映像内における対象物の動作軌跡の配置を表す図である。
【
図11】(a)は、制御部が再生する要約映像のフレームを表す図であり、(b)は、フレームにおいて人物が選択された後に表示されるフレームを表す図である。
【
図12】本発明の実施形態の変形例2において制御部が実行する処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
【0011】
本発明の実施形態では、監視カメラによって撮影された映像(録画映像)から要約映像を生成するシステムの例を説明する。録画映像から要約映像を生成することで、長時間の録画映像を短時間で閲覧することが可能になる。そのため、法的執行機関や警備会社において、監視カメラに映る不審人物の追跡を短時間に効率的に行うことが可能になる。映像要約では録画映像に映る対象物の切り出しを行い、切り出した対象物の再生位置を時間方向にずらした要約映像を生成することで、再生時間の短縮を図る。しかしながら、同一の対象物が複数回カメラの前を往来する時、要約映像の同一フレーム内の複数箇所に同一人物が再生表示されることがあった。このことは、閲覧者がある不審人物の行動に注目しているときに、その不審人物の行動を見落とす原因となる。本実施形態では、このような課題を解決するため、録画映像中の同一の対象物を特定し、要約映像において同時刻に複数個所に同一の対象物を表示しないようにする。なお、映像は一連のフレーム画像により構成されている。以下の説明では、フレーム画像を単に「フレーム」と称する。なお、対象物としては、人物あるいは車両などが想定される。
【0012】
図1(a)は、本実施形態に係る情報処理装置100の一例である映像生成デバイスの機能ブロック図である。
図1(a)に示すように、情報処理装置100は機能的に、制御部101、受信部102、特定部103、配置決定部104および生成部105を有している。
図1(b)は、情報処理装置100のハードウェア構成を示す図である。
図1(b)に示すように、情報処理装置100は、ハードウェアとして、CPU201、RAM202、ROM203、入力装置204、出力装置205、記憶装置206およびネットワークインタフェース207を有している。CPUはCentral Processing Unitの略である。RAMはRandom Access Memoryの略である。ROMはRead Only Memoryの略である。
【0013】
制御部101は、CPU201等によって構成される機能部であり、ROM203に記憶されたプログラムやデータをRAM202に読み出して映像生成などの処理を実行する。
受信部102は、キーボードやマウスなどを備える入力装置204を用いて行われるユーザの操作により、映像に対して行われた解析処理の結果としての複数の対象物情報を受信する。なお、解析処理の対象となるオリジナルの映像(以下、「元映像」と称する)は、記憶装置206に保存されたものであってもよいし、ネットワークインタフェース207を介して読み込まれたネットワーク208上にある映像であってもよい。また、対象物情報は、後掲する
図4(a)に示すように、元映像内に含まれる対象物に関するデータ(開始時刻、動作軌跡など)を含む情報である。
特定部103は、元映像の中で検知された複数の対象物それぞれのデータに基づき、同一の対象物を特定する処理を行う。別の言い方をすれば、特定部103は、受信部102により受信された複数の対象物情報のそれぞれにより示される対象物の同一性を判定することにより、同一と判定された複数の対象物情報をグルーピングする処理を行う。
【0014】
配置決定部104は、特定部103により同一と判定された2以上の対象物の動作軌跡の配置を、それぞれが時間方向で重ならないように決定する処理を行う。具体的には、特定部103により決定されたグループごとに、動作軌跡が時間方向で重ならないように各対象物の動作軌跡の時間方向の配置を決定する。
生成部105は、配置決定部104により決定された配置に基づき、元映像の要約映像を生成する処理を行う。具体的には、元映像から抽出されたすべての対象物について、要約映像内における時間的な再生位置を決定し、その結果に基づいて要約映像を生成する。生成した要約映像は記憶装置206に保存され、ディスプレイなどの出力装置205において再生される。
【0015】
図2(a)は、元映像の時空間における対象物の動作軌跡の配置300を表す図である。横軸が空間を表し、縦軸が時間を表す。なお、空間は通常xとyの2軸で構成されるが、ここでは表現のわかりやすさを優先してy軸の値を省略し、空間はx軸のみの1次元であるとして説明する。時間tについては、図面の最下部が録画の開始時間、最上部が録画の終了時間となる。図中に太線で表される動作軌跡301~305は、映像に現れる対象物の中心の軌跡を表す。また、動作軌跡301~305のそれぞれを囲む点線(枠)は、対象物の範囲を表す。
ここで、情報処理装置100は、複数の連続するフレームのそれぞれに現れる画素の集合により、対象物を定義する。また、対象物の中心を中心とする円の半径により、対象物の範囲を定義する。ただし、対象物の中心は、対象物の画素集合の中心位置とする。また、対象物の範囲を示す半径は、対象物の画素集合の面積に基づいて算出する。この算出方法の詳細については、後述する。
また、以下の説明では、
図2(a)中に示す動作軌跡302と動作軌跡304が同一人物の動作軌跡であるとする。同様に、動作軌跡303と動作軌跡305とについても、同一人物の動作軌跡であるとする。
【0016】
図2(b)は、要約映像の時空間における対象物の動作軌跡の配置400を表す図である。すなわち、対象物の空間的な位置を維持したまま、対象物が出現する時間的な順序を元映像から変更することにより、生成された映像要約を示している。特に、
図2(b)は、本実施形態による情報処理装置100の処理により、同一人物に対応する複数の映像が同じタイミングで映像内に映り込まないように処理された状態を示している。
図2(b)に示した対象物の動作軌跡301~305のうち、動作軌跡303~305はそれぞれ、
図2(a)に示した動作軌跡303~305の開始時刻をずらしたものである。
図2(b)のように動作軌跡301~305を配置することで、同一人物に対応する複数の映像(動作軌跡302と動作軌跡304、動作軌跡303と動作軌跡305)が同じタイミングで映像内に映り込むことが防止されている。
【0017】
図3(a)は、制御部101が受け付ける元映像のフレーム500を表す図である。フレーム500は、
図2(a)に破線Aで示す時刻のフレームである。人物501は動作軌跡301に対応し、人物502は動作軌跡302に対応する。
図3(b)は、生成部105が出力する要約映像のフレーム600を表す図である。フレーム600は、
図2(b)に破線Bで示す時刻のフレームである。人物601は、動作軌跡305に対応する。
図3(a)および
図3(b)から、要約処理を行うことで、人物501、502以外に、異なる時間に録画された同一ではない人物601が映像内に入ってくることが理解される。
【0018】
図4(a)は、受信部102が受信する1以上の対象物情報704~708を含む対象物情報テーブル700を示す図である。対象物情報704~708は元映像における情報を示しており、それぞれ、
図2(a)に示した動作軌跡301~305に対応する。
図4(a)に示すように、対象物情報704~708はそれぞれ、識別子701、開始時刻702、動作軌跡703を含んで構成される。識別子701は、各対象物情報を一意に識別するための情報であり、開始時刻702は、対象物が元映像内に現れるタイミングを、元映像の撮影開始時刻からの経過時間により表す。動作軌跡703については、
図4(b)を用いて説明する。
【0019】
図4(b)は、ある対象物の動作軌跡703を構成する一連のレコード805~808を含む動作軌跡テーブル800を示す図である。対象物の動作軌跡703に示されるB1~B5はそれぞれ
図4(b)に示されるような動作軌跡テーブルに紐づけられる。
レコード805~808は、それぞれが元映像の1フレームに対応して生成された情報であり、時系列データを構成する。
図4(b)に示すように、レコード805~808はそれぞれ、時刻801、中心座標802、半径803、画素マスク804を含んで構成される。
時刻801は、元映像内において、そのレコードに対応するフレームの時刻を示しており、対応する対象物が元映像内に現れる時刻(
図4(a)に示した開始時刻702)からの経過時間により表す。中心座標802は、各フレームにおける対象物の画素集合の中心位置を表す。なお、中心位置としては、対象物を構成するすべての画素の座標の平均を取ったものを使用する。半径803は、対象物の範囲を表す。この半径は、対象物の画素の合計数をSとした時に、S/πの平方根を求めることにより算出する。なお、対象物の範囲をここでは円に近似して表現しているが、範囲を指定できるものであれば、どのような形式であってもよい。画素マスク804は、フレーム内の対象物の詳細な画素位置を表すマスク情報へのリンクを表す。ここでは、対象物とそれ以外を区別する情報を持つ画像として画素マスクを構成するが、これらが区別できるものであれば、画像以外の形式によって画素マスクを構成してもよい。
【0020】
次に、
図5は、特定部103の判定結果に基づいて配置決定部104が生成する対象物のセット情報904~907を含むセット情報テーブル900を示す図である。
図5に示すように、セット情報904~907はそれぞれ、セット番号901、対象物の識別子902、相対開始時刻903を含んで構成される。
セット番号901は、特定部103により同一の対象物として特定された対象物情報のグループを一意に識別するための情報であり、配置決定部104により各グループに割り当てられる。対象物の識別子902は、
図4(a)の識別子701に対応する。ここで、
図4(a)に含まれる5つの識別子701のうち識別子ID_001が
図5には含まれていないが、これは、識別子ID_001により識別される対象物がグループ化の対象とならなかったためである。このように、同一の対象物情報がなくグループ化されなかった対象物情報は、セット情報テーブル900には含まれない。相対開始時刻903は、同一グループに含まれる複数の対象物に対して、要約映像内における出現の相対的な開始時刻が割り当てられる。
【0021】
図6は、要約映像内における各対象物の開始時刻情報1003~1007を含む開始時刻テーブル1000を示す図である。同図に示す情報は、生成部105により、
図4に示した対象物情報と、
図5に示したセット情報とに基づいて生成される。
図6に示すように、開始時刻情報1003~1007はそれぞれ、対象物の識別子1001と、要約映像中の開始時刻1002とを含んで構成される。対象物の識別子1001は、
図4(a)の識別子701に対応する。要約映像中の開始時刻1002は、要約映像内における対象物の再生開始時刻を表す。
【0022】
次に、
図2(b)に示した要約映像内における各対象物の配置を生成する方法について、
図7のフローチャートを用いて説明する。以下では、
図2(a)に示した元映像が入力される場合を例に取って説明する。
【0023】
図7は、本実施形態において制御部101が実行する処理の一例を示すフローチャートである。本フローチャートの処理は、情報処理装置100が監視カメラの録画映像を読み込んだことに応じて開始される。
制御部101は、ステップS1101において、録画映像から抽出された対象物情報を受信部102から取得し、ステップS1102に移行する。録画映像から動く物体などの前景の対象物を抽出する方法はいくつかあるが、本実施形態では、J. Sun, W. Zhang, X. Tang, and H. Shum. Background cut. ECCV'06, pp. 628-641, 2006に開示されている方法を使用する。ただし、映像から前景の対象物を抽出できる方法であれば、他の方法を用いてもよい。
抽出された対象物の情報は、
図4(a)に示した対象物情報と、
図4(b)に示した動作軌跡とにより構成される。
図4(a)に示したように、抽出した対象物情報には識別子が割り振られる。また対象物情報には、録画映像中の対象物が現れた時刻を示す開始時刻と、対象物の相対時刻、中心座標、半径、画素マスクを含む動作軌跡とが含まれる。
図4(a)に示した識別子ID_001,ID_002,ID_003,ID_004,ID_005に含まれる動作軌跡は、それぞれ
図2(a)に示した動作軌跡301,302,303,304,305に対応する。
【0024】
ステップS1102において制御部101は、後述する同一対象物の特定処理を特定部103に行わせ、ステップS1103に移行する。ステップS1102では、制御部101により、特定部103が同一と判定した対象物をセットにまとめる処理も行われる。ここでは、
図5に示したように、動作軌跡302と動作軌跡304が同一対象物であると判定され、動作軌跡303と動作軌跡305が同一対象物であると判定される。
ステップS1103に移行した制御部101は、同一と判定された対象物のセットそれぞれについて、配置決定部104にステップS1104の処理を実行させ、すべてのセットについての処理が終了した後、ステップS1105に移行する。ステップS1104の処理は、後述する対象物の配置決定処理である。
【0025】
ステップS1105では、生成部105により、対象物情報テーブル700に含まれる対象物情報、動作軌跡テーブル800に含まれる動作軌跡、セット情報テーブル900に含まれる対象物のセット情報に基づいて、要約映像の生成処理が行われる。具体的に説明すると、生成部105はまず、同一のセット番号901を持つ対象物の動作軌跡を時間的に連結し、1つの動作軌跡とする。すなわち、相対開始時刻の分だけ対象物の出現開始時刻をずらすことで、複数の動作軌跡の間で重なりがないようにする。そして生成部105は、すべての動作軌跡の間で最も衝突が少なく、再生時間が短くなるように、要約映像における各動作軌跡の開始時刻を求める。
【0026】
ここで、対象物の動作軌跡間の衝突について説明する。生成部105は、以下の式(1)を用いて、対象物i,j間の衝突コストCol
ij(k)を算出する。ただし、kは対象物i,jの開始時刻の時間差であり、x
t
i,y
t
iはそれぞれ時刻tにおける対象物iの中心のx座標及びy座標であり、r
t
iは時刻tにおける対象物iの半径である。また、T
ij(k)は、開始時刻の時間差がkであるとしたときに、対象物i,jの両方の動作軌跡が映像中に現れる期間を表している。さらに、式(1)右辺の絶対値記号内側の数式は、対象物i,jの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。したがって、衝突コストCol
ij(k)は、値が大きいほど、対象物i,jが衝突するフレームの数が多いことを表す。
【数1】
【0027】
生成部105は、対象物の全ての組み合わせにおいて衝突コストCol
ij(k)が最小になる開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。したがって、生成部105は、シミュレーテッドアニーリング法を用いて各対象物の開始時刻を求めることにより、要約映像における最適な各対象物の開始時刻1002(
図6を参照)を求めることができる。生成部105は、このようにして元映像に対して対象物の空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって、要約映像が生成される。
【0028】
図8(a)は、
図7のステップS1102で実行される同一対象物の特定処理の一例を示す図である。特定部103は、ステップS1201において対象物の画像情報から画像特徴量を取得し、ステップS1202に移行する。対象物の画像としては、各フレームにおける対象物の画像の中で最も画素数が多いものを選択し、画像特徴量としては、そのSIFT(Scale Invariant Feature Transform)特徴量を使用する。より具体的に説明すると、特定部103は、対象物ごとに、
図4(b)に示した動作軌跡テーブル800の各行の中から半径803の値が最大となる行を選択し、選択した行に対応する元映像のフレームに対し、画素マスク804を適用する。これにより対象物の画像のみをクロップした上で、そのSIFT特徴量を求める。なお、ここでは、対象物同士を比較するために必要な情報を取得するために、最も画素数が大きくなる対象物画像のSIFT特徴量を求めるという方法を採用している。しかし、対象物同士を比較するために必要な情報が取得できる方法であれば、どのような方法を用いてもよい。
【0029】
特定部103は、ステップS1202において、各対象物の特徴量同士を比較することによって、対象物間の類似度を算出し、ステップS1203に移行する。具体的には、各対象物が持つSIFT特徴量を総当たりで比較することにより、対象物間の類似度を求める。
特定部103は、ステップS1203において、ステップS1202で求めた類似度が所定の閾値以上の値を持つ2つの対象物を、同一の対象物として判定する。一例を挙げると、類似度の値域が0~1000で、閾値を800とした場合に、対象物間の類似度が800以上の場合はその2つの対象物を同一と判定し、799以下の場合は異なると判定する。
図5は、このような同一性判定の結果、識別子ID_002に対応する対象物と識別子ID_004に対応する対象物が同一と判定され、識別子ID_003に対応する対象物と識別子ID_005に対応する対象物が同一と判定されたことを示している。特定部103の判定結果は制御部101に戻され、
図5に示したセット情報テーブル900に格納される。
【0030】
図8(b)は、
図7のステップS1104で実行される対象物の配置決定処理の一例を示す図である。配置決定部104は、同一と判定された複数の対象物に対し、ステップS1301において、それぞれの動作軌跡が時間方向で重ならないように、それらの時間的な配置を決定する。ここでは単純に、それぞれの動作軌跡が順番に再生されるように連結する。より好ましくは、それぞれの動作軌跡が順番に連続して再生されるように連結する。
一例として、識別子ID_002に対応する対象物と識別子ID_004に対応する対象物の動作軌跡の実行時間がそれぞれ50、60であり、前者の後に後者を再生する場合を考える。この場合、配置決定部104は、前者と後者の相対開始時刻にそれぞれ0と50を割り当てる。このように割り当てを行うことで、識別子ID_002に対応する対象物の動作軌跡が再生された後に、識別子ID_004に対応する対象物の動作軌跡が連続して再生されることが保証される。
【0031】
以上説明したように、本実施形態による情報処理装置100によれば、録画映像を短時間で確認できるという要約映像の利点は残しつつ、要約映像の同一フレーム内の複数箇所に同一人物が写り込むことを防止できるようになる。したがって、注目人物の行動を見落とす可能性を低減できる。
【0032】
[本実施形態の変形例1]
本実施形態では、すべての対象物に関して、同一の対象物を要約映像中で同時に表示しないケースについて説明したが、これは本実施形態を実現する態様の一例に過ぎない。ここでは変形例として、選択された対象物に対してのみ、同一対象物を要約映像中で同時に表示しない例を説明する。
図9は、本変形例において制御部101が実行する処理の一例を示すフローチャートである。本フローチャートの処理も、情報処理装置100が監視カメラの録画映像を読み込んだことに応じて開始される。
【0033】
図9に示す各ステップのうちステップS1101,S1102,S1103,S1104,S1105は
図7のフローチャートと同様の処理のため、説明を省略する。制御部101は、ステップS1101の後にステップS1401において、
図1(b)に示した入力装置204から対象物の選択を受け付けて、ステップS1102に移行する。ステップS1401において制御部101は、元映像から抽出した対象物のサムネイル画像を、出力装置205のディスプレイに、マウスなどの入力装置204によって選択可能な状態で表示する。ユーザは、入力装置204を用いて1以上のサムネイル画像を選択することで、1以上の対象物を選択する。なお、ここではサムネイル画像を選択することとしたが、元映像の中で対象物を選択できるようにしてもよく、対象物を選択できる方法であればどのような方法であってもよい。ステップS1102では、選択された対象物に対してのみ、同一対象物の特定処理が行われる。
【0034】
図10は、本変形例による要約映像内における対象物の動作軌跡の配置1500を表す図である。
図10に示す動作軌跡302~305はそれぞれ、
図2(a)の動作軌跡302~305に対して時間的な配置をずらしたものである。すなわち対象物の時間的な出現順序が元映像から変更されたものである。
図10には、識別子ID_003に対応する対象物(動作軌跡303)が選択された場合を示している。識別子ID_003に対応する対象物と同一の対象物は、識別子ID_005に対応する対象物(動作軌跡305)である。したがって、本変形例によれば、
図10に示すように、動作軌跡303と動作軌跡305のみ時間方向で重なりがなく、その他の動作軌跡は重なりを許容するように配置がなされる。動作軌跡302と動作軌跡304は同一の対象物の動作軌跡であるが、
図10では、時間方向で重なるように配置されており、ある期間では同一の対象物が同一フレーム内に複数表示されることになる。
以上説明したように、本変形例による情報処理装置100によれば、要約映像の同一フレーム内の複数箇所に写り込むことを防止する人物をユーザが指定できるので、注目人物の行動を見落とす可能性をさらに低減できる。
【0035】
[本実施形態の変形例2]
本変形例では、
図1(a)に示した生成部105が生成した要約映像の再生時に対象物の選択を受け付け、選択された対象物の元映像を再生するユースケースについて説明する。
図11(a)は、制御部101が再生する要約映像内のフレーム1600を表す図である。フレーム1600は
図3(b)のフレーム600と同一であり、人物501,502,601が映っている。制御部101は、要約映像再生中に、入力装置204のマウスからの入力を受けてマウスポインタ1603を移動し、対象物の選択を受け付けることができるように構成される。
図11(a)には、人物502が選択されている状態を示している。
図11(b)は、フレーム1600において人物502が選択された後に表示されるフレーム1700を表す図である。制御部101は、要約映像再生時に対象物の選択を受け付けると、選択された対象物の元の録画映像1701をポップアップ表示にて再生する。これによりユーザは、人物502が元々どのような状態で録画されたのかを確認することができる。録画映像1701は、例えば、
図3(a)のフレーム600と同一である(全体のサイズは僅かに縮小されている)。
【0036】
図12は、本変形例において制御部101が実行する処理の一例を示すフローチャートである。本フローチャートの処理は、情報処理装置100が要約映像を再生中に、ユーザが入力装置204を介して対象物を選択したことに応じて開始される。
制御部101は、ステップS1801において、入力装置204からの入力を受けて対象物の選択を受け付け、ステップS1802に移行する。制御部101は、ステップS1802において、
図5に示した対象物のセット情報テーブル900に基づいて、選択された対象物と同一の対象物が存在するかどうかを判定する。同一の対象物が存在すればステップS1803に移行し、存在しなければステップS1804に移行する。
【0037】
ステップS1803では、制御部101は、選択された対象物の元映像(選択された対象物を含む元映像の部分。以下、同じ)と、選択された対象物と同一の対象物を含む元映像の他の部分とを連続して再生する。一例として、識別子ID_002に対応する対象物が選択された場合であれば、同一の対象物として識別子ID_004に対応する対象物が存在する。したがって、制御部101は、識別子ID_002に対応する対象物の元映像と、識別子ID_004に対応する対象物の元映像とを連続して再生する。一方、ステップS1804では、制御部101は、選択された対象物の元映像のみを再生する。一例として、識別子ID_001に対応する対象物が選択された場合であれば、同一の対象物が他に存在しないため、識別子ID_001に対応する対象物の元映像のみが再生される。
以上説明したように、本変形例による情報処理装置100によれば、要約映像の中から対象物を選択してその元映像を再生する際に、同一対象物の元映像を連続して再生することができる。したがって、注目人物の元映像における足取りを容易に確認することが可能になる。
【0038】
[本実施形態の変形例3]
第1の実施形態では、映像中に現れる同一人物の動作軌跡を単純に連結して要約映像を生成したが、これは第1の実施形態を実現する態様の一例に過ぎない。ここでは変形例として、同一人物の動作軌跡を連結する際に、動作軌跡の間に断絶が存在する場合は、その間の軌跡を補間する例について説明する。
第1の実施形態で用いた
図7のフローチャートを用いて、本変形例における制御部101において実行される処理の一例を説明する。ステップS1101、S1102、S1103、S1104は第1の実施形態と同様の処理のため、説明を省略する。ステップS1105では、第1の実施形態同様、生成部105において、要約映像を生成する。要約映像の生成の中で、同一のセット情報を持つ対象物の動作軌跡を合成し、一つの動作軌跡を生成する際に、動作軌跡間に断絶がある場合に間を補間する処理を行う。同一対象物の各動作軌跡の間で対象物の位置が連続していない場合は、前の動作軌跡の最後の位置と後の動作軌跡の最初の位置をつなぐように動作軌跡を生成する。生成する動作軌跡は直線で等速に移動する軌跡を描いてもよいし、前後の動作軌跡の速度、向きに合わせて描いてもよい。生成した動作軌跡に沿って表示する対象物の画像に関しては、前の動作軌跡の最後の画像を使用してもよいし、前後の動作軌跡の画像をモーフィングしたものを使用してもよい。いずれにせよ、前後の動作軌跡が連続する状態に補間されていればよい。
【0039】
以上のように、録画映像を可能な限り最小限の長さの映像にする映像要約の利点は残しつつ、同一人物が同時に複数要約映像の中に現れないようにすることで、注目人物の行動を見落とすことが少なくなる。さらに、同一人物の動作軌跡を一つの動作軌跡に連結することで、人物の動作軌跡に断絶があったとしても、補間された軌跡により人物の位置をスムーズに目で追うことができるため、見落としをさらに少なくすることができる。
[その他の実施形態]
本実施形態によって同一判定を行う対象物は、人物に限られない。例えば、車、二輪車、飛行機、ボートといった物や、犬、猫、馬といった動物も同一判定を行う対象物とすることができる。
また、配置決定部104は、同一と特定された2以上の対象物の動作軌跡の間に隔たりがある場合には、その間を補間することとしてもよい。具体的には、隔たりを補間するような映像を生成し、要約映像に加えてもよい。
【0040】
なお、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、本発明は、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
【符号の説明】
【0041】
100…情報処理装置、101…制御部、103…特定部、104…配置決定部、105…生成部、300…配置、301~305…動作軌跡、400…配置、500…フレーム、501,502,601…人物、600…フレーム、601…人物