特許7446760 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7446760情報処理装置、映像の要約方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-01

(45)【発行日】2024-03-11

(54)【発明の名称】情報処理装置、映像の要約方法、およびプログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20240304BHJP

H04N 7/18 20060101ALI20240304BHJP

H04N 5/76 20060101ALI20240304BHJP

G06T 7/00 20170101ALI20240304BHJP

【ＦＩ】

H04N5/91

H04N7/18 U

H04N7/18 D

H04N5/76

G06T7/00 300F

【請求項の数】 11

(21)【出願番号】P 2019184778

(22)【出願日】2019-10-07

(65)【公開番号】P2021061535

(43)【公開日】2021-04-15

【審査請求日】2022-10-03

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100109380

【弁理士】

【氏名又は名称】小西恵

(74)【代理人】

【識別番号】100109036

【弁理士】

【氏名又は名称】永岡重幸

(72)【発明者】

【氏名】浦島寛基

【審査官】鈴木隆夫

(56)【参考文献】

【文献】特開２０１０－１６６２８８（ＪＰ，Ａ）

【文献】特開２０１６－００９４４８（ＪＰ，Ａ）

【文献】特開２０１５－２３０６１６（ＪＰ，Ａ）

【文献】特開２０１１－１９２０９２（ＪＰ，Ａ）

【文献】特開２０１０－０４４５１６（ＪＰ，Ａ）

【文献】特表２００９－５１６２５７（ＪＰ，Ａ）

【文献】特表２０１０－５１８６７３（ＪＰ，Ａ）

【文献】特開２０１０－１３４９２３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／９１－５／９５６

Ｈ０４Ｎ５／７６－５／７７５

Ｈ０４Ｎ５／８０－５／９０７

Ｈ０４Ｎ７／１８

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置において、
映像の中で検知された複数の対象物のデータに基づき、複数の動作軌跡を抽出する抽出手段と、
前記抽出手段により抽出された前記複数の動作軌跡から、同一の対象物の２以上の動作軌跡を特定する特定手段と、
前記特定手段により特定された、前記同一の対象物の前記２以上の動作軌跡の配置を、前記要約映像において、それぞれが時間方向で重ならないように決定する決定手段と、
前記決定手段により決定された配置に基づき、前記映像の要約映像を生成する生成手段と、
を有することを特徴とする情報処理装置。

【請求項2】

前記特定手段は、前記映像の中で検知された複数の対象物それぞれの画像特徴量に基づいて、前記同一の対象物を特定する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記特定手段は、前記映像の中で検知された複数の対象物それぞれの画像特徴量を比較した類似度が所定の閾値以上である対象物を、前記同一の対象物を特定する、
ことを特徴とする請求項２に記載の情報処理装置。

【請求項4】

前記決定手段は、前記特定手段により同一の対象物と特定された２以上の対象物の動作軌跡が順番に再生されるように、前記配置を決定する、
ことを特徴とする請求項１乃至３のいずれか一項に記載の情報処理装置。

【請求項5】

前記決定手段は、前記特定手段により同一の対象物と特定された２以上の対象物の動作軌跡が順番に連続して再生されるように、前記配置を決定する、
ことを特徴とする請求項１乃至３のいずれか一項に記載の情報処理装置。

【請求項6】

前記映像の中で検知された複数の対象物の中から１以上の対象物の選択を受け付ける選択手段をさらに有し、
前記特定手段は、前記選択手段が前記１以上の対象物の選択を受け付けた場合には、選択された前記１以上の対象物に対してのみ、同一の対象物の特定を行う、
ことを特徴とする請求項１乃至５のいずれか一項に記載の情報処理装置。

【請求項7】

前記決定手段は、同一の対象物の動作軌跡の間に隔たりがある場合は、当該間を補間することを特徴とする請求項１乃至６のいずれか一項に記載の情報処理装置。

【請求項8】

前記要約映像の再生時に対象物の選択を受け付ける選択手段と、
前記選択手段により選択が受け付けられた前記対象物を含む映像の部分を再生する再生
手段と、をさらに有する、
ことを特徴とする請求項１乃至７のいずれか一項に記載の情報処理装置。

【請求項9】

前記再生手段は、前記選択手段により選択が受け付けられた前記対象物を含む映像の部分と、前記対象物と同一の対象物を含む映像の他の部分とを連続して再生する、
ことを特徴とする請求項８に記載の情報処理装置。

【請求項10】

映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する映像の要約方法において、
映像の中で検知された複数の対象物のデータに基づき、複数の動作軌跡を抽出するステップと、
前記抽出するステップにより抽出された前記複数の動作軌跡から、同一の対象物の２以上の動作軌跡を特定するステップと、
前記特定するステップにより特定された、前記同一の対象物の前記２以上の動作軌跡の配置を、前記要約映像において、それぞれが時間方向で重ならないように決定するステップと、
前記決定するステップにおいて決定された配置に基づき、前記映像の要約映像を生成するステップと、
を有することを特徴とする映像の要約方法。

【請求項11】

コンピュータを、請求項１から９のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、映像の要約方法、およびプログラムに関する。

【背景技術】

【0002】

監視カメラによって映像を取得して保存する目的の１つは、不審者や容疑者を観察し、犯人の特定に繋げることである。監視カメラによって取得して保存された映像は、犯罪の証拠映像としても使用される。しかしながら、カメラに搭載される記録媒体に保存された映像や、サーバおよびクラウドなどに保存された監視カメラの映像の中で、不審者等の特定の手掛かりとなる箇所はごく一部であり、大部分は無関係で不要な映像である。そこで、保存された大量の映像の中から、手掛かりとなる箇所を手早く抽出する技術が必要となる。

【0003】

そのような技術の１つとして、特許文献１に記載の要約映像を生成する技術が知られている。具体的には、映像から人物あるいは車などの対象物を抽出し、当該対象物が空間方向（映像内）で重ならないようにしつつ、各対象物を時間方向に個別にシフトすることで、映像内のすべての対象物を短時間で閲覧可能にする。この技術によれば、異なるタイミングで出現していた対象物が同時に再生されることになるので、総再生時間が大幅に短縮され、監視映像を効率的に閲覧することが可能になる。

【0004】

また、特許文献２には、上記の技術においてさらに、類似する対象物をクラスタにまとめ、各対象物の時間方向の相対的な配置をクラスタごとに決めた上で、各クラスタの時間方向の配置を決める技術が提案されている。クラスタは、人のクラスタ、車のクラスタなどである。この技術によれば、外観特徴あるいは動作特徴が類似する対象物が要約映像の中でより近い時刻に表示されるので、類似した対象物ごとに整理された状態で映像を閲覧することが可能になる。

【先行技術文献】

【特許文献】

【0005】

【文献】特許第５３５５４２２号

【文献】特許第５４３２６７７号

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、特許文献１および２に記載の技術では、抽出された対象物の時間方向の配置を制御した結果として、要約映像の同一フレーム内の複数箇所に同一人物が写り込んでしまう可能性がある。このことは、映像観察時に不審人物を見落としてしまう原因になる。
本発明はこのような課題に鑑みてなされたものであり、その目的は、要約映像の視認性を向上することにある。

【課題を解決するための手段】

【0007】

本発明の１つの態様による情報処理装置は、映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置であって、映像の中で検知された複数の対象物のデータに基づき、同一の対象物を特定する特定手段と、前記特定手段により同一の対象物と特定された２以上の対象物の動作軌跡の配置を、それぞれが時間方向で重ならないように決定する決定手段と、前記決定手段により決定された配置に基づき、前記映像の要約映像を生成する生成手段と、を有する。

【発明の効果】

【0008】

本発明によれば、要約映像の視認性を向上することができる。

【図面の簡単な説明】

【0009】

【図1】（ａ）は、本発明の実施形態に係る情報処理装置の一例である映像生成デバイスの機能ブロック図であり、（ｂ）は、情報処理装置のハードウェア構成を示す図である。

【図2】（ａ）は、元映像の時空間における対象物の動作軌跡の配置を表す図であり、（ｂ）は、要約映像の時空間における対象物の動作軌跡の配置を表す図である。

【図3】（ａ）は、制御部が受け付ける元映像のフレームを表す図であり、（ｂ）は、生成部が出力する要約映像のフレームを表す図である。

【図4】（ａ）は、受信部が受信する１以上の対象物情報を含む対象物情報テーブルを示す図であり、（ｂ）は、動作軌跡を構成する一連のレコードを含む動作軌跡テーブルを示す図である。

【図5】特定部の判定結果に基づいて配置決定部が生成する対象物のセット情報を含むセット情報テーブルを示す図である。

【図6】要約映像内における各対象物の開始時刻情報を含む開始時刻テーブルを示す図である。

【図7】本発明の実施形態において制御部が実行する処理の一例を示すフローチャートである。

【図8】（ａ）は、図７で実行される同一対象物の特定処理の一例を示す図であり、（ｂ）は、図７で実行される対象物の配置決定処理の一例を示す図である。

【図9】本発明の実施形態の変形例１において制御部が実行する処理の一例を示すフローチャートである。

【図10】本発明の実施形態の変形例１による要約映像内における対象物の動作軌跡の配置を表す図である。

【図11】（ａ）は、制御部が再生する要約映像のフレームを表す図であり、（ｂ）は、フレームにおいて人物が選択された後に表示されるフレームを表す図である。

【図12】本発明の実施形態の変形例２において制御部が実行する処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

【0011】

本発明の実施形態では、監視カメラによって撮影された映像（録画映像）から要約映像を生成するシステムの例を説明する。録画映像から要約映像を生成することで、長時間の録画映像を短時間で閲覧することが可能になる。そのため、法的執行機関や警備会社において、監視カメラに映る不審人物の追跡を短時間に効率的に行うことが可能になる。映像要約では録画映像に映る対象物の切り出しを行い、切り出した対象物の再生位置を時間方向にずらした要約映像を生成することで、再生時間の短縮を図る。しかしながら、同一の対象物が複数回カメラの前を往来する時、要約映像の同一フレーム内の複数箇所に同一人物が再生表示されることがあった。このことは、閲覧者がある不審人物の行動に注目しているときに、その不審人物の行動を見落とす原因となる。本実施形態では、このような課題を解決するため、録画映像中の同一の対象物を特定し、要約映像において同時刻に複数個所に同一の対象物を表示しないようにする。なお、映像は一連のフレーム画像により構成されている。以下の説明では、フレーム画像を単に「フレーム」と称する。なお、対象物としては、人物あるいは車両などが想定される。

【0012】

図１（ａ）は、本実施形態に係る情報処理装置１００の一例である映像生成デバイスの機能ブロック図である。図１（ａ）に示すように、情報処理装置１００は機能的に、制御部１０１、受信部１０２、特定部１０３、配置決定部１０４および生成部１０５を有している。図１（ｂ）は、情報処理装置１００のハードウェア構成を示す図である。図１（ｂ）に示すように、情報処理装置１００は、ハードウェアとして、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、入力装置２０４、出力装置２０５、記憶装置２０６およびネットワークインタフェース２０７を有している。ＣＰＵはＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。ＲＡＭはＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。ＲＯＭはＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。

【0013】

制御部１０１は、ＣＰＵ２０１等によって構成される機能部であり、ＲＯＭ２０３に記憶されたプログラムやデータをＲＡＭ２０２に読み出して映像生成などの処理を実行する。
受信部１０２は、キーボードやマウスなどを備える入力装置２０４を用いて行われるユーザの操作により、映像に対して行われた解析処理の結果としての複数の対象物情報を受信する。なお、解析処理の対象となるオリジナルの映像（以下、「元映像」と称する）は、記憶装置２０６に保存されたものであってもよいし、ネットワークインタフェース２０７を介して読み込まれたネットワーク２０８上にある映像であってもよい。また、対象物情報は、後掲する図４（ａ）に示すように、元映像内に含まれる対象物に関するデータ（開始時刻、動作軌跡など）を含む情報である。
特定部１０３は、元映像の中で検知された複数の対象物それぞれのデータに基づき、同一の対象物を特定する処理を行う。別の言い方をすれば、特定部１０３は、受信部１０２により受信された複数の対象物情報のそれぞれにより示される対象物の同一性を判定することにより、同一と判定された複数の対象物情報をグルーピングする処理を行う。

【0014】

配置決定部１０４は、特定部１０３により同一と判定された２以上の対象物の動作軌跡の配置を、それぞれが時間方向で重ならないように決定する処理を行う。具体的には、特定部１０３により決定されたグループごとに、動作軌跡が時間方向で重ならないように各対象物の動作軌跡の時間方向の配置を決定する。
生成部１０５は、配置決定部１０４により決定された配置に基づき、元映像の要約映像を生成する処理を行う。具体的には、元映像から抽出されたすべての対象物について、要約映像内における時間的な再生位置を決定し、その結果に基づいて要約映像を生成する。生成した要約映像は記憶装置２０６に保存され、ディスプレイなどの出力装置２０５において再生される。

【0015】

図２（ａ）は、元映像の時空間における対象物の動作軌跡の配置３００を表す図である。横軸が空間を表し、縦軸が時間を表す。なお、空間は通常ｘとｙの２軸で構成されるが、ここでは表現のわかりやすさを優先してｙ軸の値を省略し、空間はｘ軸のみの１次元であるとして説明する。時間ｔについては、図面の最下部が録画の開始時間、最上部が録画の終了時間となる。図中に太線で表される動作軌跡３０１～３０５は、映像に現れる対象物の中心の軌跡を表す。また、動作軌跡３０１～３０５のそれぞれを囲む点線（枠）は、対象物の範囲を表す。
ここで、情報処理装置１００は、複数の連続するフレームのそれぞれに現れる画素の集合により、対象物を定義する。また、対象物の中心を中心とする円の半径により、対象物の範囲を定義する。ただし、対象物の中心は、対象物の画素集合の中心位置とする。また、対象物の範囲を示す半径は、対象物の画素集合の面積に基づいて算出する。この算出方法の詳細については、後述する。
また、以下の説明では、図２（ａ）中に示す動作軌跡３０２と動作軌跡３０４が同一人物の動作軌跡であるとする。同様に、動作軌跡３０３と動作軌跡３０５とについても、同一人物の動作軌跡であるとする。

【0016】

図２（ｂ）は、要約映像の時空間における対象物の動作軌跡の配置４００を表す図である。すなわち、対象物の空間的な位置を維持したまま、対象物が出現する時間的な順序を元映像から変更することにより、生成された映像要約を示している。特に、図２（ｂ）は、本実施形態による情報処理装置１００の処理により、同一人物に対応する複数の映像が同じタイミングで映像内に映り込まないように処理された状態を示している。
図２（ｂ）に示した対象物の動作軌跡３０１～３０５のうち、動作軌跡３０３～３０５はそれぞれ、図２（ａ）に示した動作軌跡３０３～３０５の開始時刻をずらしたものである。図２（ｂ）のように動作軌跡３０１～３０５を配置することで、同一人物に対応する複数の映像（動作軌跡３０２と動作軌跡３０４、動作軌跡３０３と動作軌跡３０５）が同じタイミングで映像内に映り込むことが防止されている。

【0017】

図３（ａ）は、制御部１０１が受け付ける元映像のフレーム５００を表す図である。フレーム５００は、図２（ａ）に破線Ａで示す時刻のフレームである。人物５０１は動作軌跡３０１に対応し、人物５０２は動作軌跡３０２に対応する。
図３（ｂ）は、生成部１０５が出力する要約映像のフレーム６００を表す図である。フレーム６００は、図２（ｂ）に破線Ｂで示す時刻のフレームである。人物６０１は、動作軌跡３０５に対応する。
図３（ａ）および図３（ｂ）から、要約処理を行うことで、人物５０１、５０２以外に、異なる時間に録画された同一ではない人物６０１が映像内に入ってくることが理解される。

【0018】

図４（ａ）は、受信部１０２が受信する１以上の対象物情報７０４～７０８を含む対象物情報テーブル７００を示す図である。対象物情報７０４～７０８は元映像における情報を示しており、それぞれ、図２（ａ）に示した動作軌跡３０１～３０５に対応する。
図４（ａ）に示すように、対象物情報７０４～７０８はそれぞれ、識別子７０１、開始時刻７０２、動作軌跡７０３を含んで構成される。識別子７０１は、各対象物情報を一意に識別するための情報であり、開始時刻７０２は、対象物が元映像内に現れるタイミングを、元映像の撮影開始時刻からの経過時間により表す。動作軌跡７０３については、図４（ｂ）を用いて説明する。

【0019】

図４（ｂ）は、ある対象物の動作軌跡７０３を構成する一連のレコード８０５～８０８を含む動作軌跡テーブル８００を示す図である。対象物の動作軌跡７０３に示されるＢ１～Ｂ５はそれぞれ図４（ｂ）に示されるような動作軌跡テーブルに紐づけられる。
レコード８０５～８０８は、それぞれが元映像の１フレームに対応して生成された情報であり、時系列データを構成する。図４（ｂ）に示すように、レコード８０５～８０８はそれぞれ、時刻８０１、中心座標８０２、半径８０３、画素マスク８０４を含んで構成される。
時刻８０１は、元映像内において、そのレコードに対応するフレームの時刻を示しており、対応する対象物が元映像内に現れる時刻（図４（ａ）に示した開始時刻７０２）からの経過時間により表す。中心座標８０２は、各フレームにおける対象物の画素集合の中心位置を表す。なお、中心位置としては、対象物を構成するすべての画素の座標の平均を取ったものを使用する。半径８０３は、対象物の範囲を表す。この半径は、対象物の画素の合計数をＳとした時に、Ｓ／πの平方根を求めることにより算出する。なお、対象物の範囲をここでは円に近似して表現しているが、範囲を指定できるものであれば、どのような形式であってもよい。画素マスク８０４は、フレーム内の対象物の詳細な画素位置を表すマスク情報へのリンクを表す。ここでは、対象物とそれ以外を区別する情報を持つ画像として画素マスクを構成するが、これらが区別できるものであれば、画像以外の形式によって画素マスクを構成してもよい。

【0020】

次に、図５は、特定部１０３の判定結果に基づいて配置決定部１０４が生成する対象物のセット情報９０４～９０７を含むセット情報テーブル９００を示す図である。図５に示すように、セット情報９０４～９０７はそれぞれ、セット番号９０１、対象物の識別子９０２、相対開始時刻９０３を含んで構成される。
セット番号９０１は、特定部１０３により同一の対象物として特定された対象物情報のグループを一意に識別するための情報であり、配置決定部１０４により各グループに割り当てられる。対象物の識別子９０２は、図４（ａ）の識別子７０１に対応する。ここで、図４（ａ）に含まれる５つの識別子７０１のうち識別子ＩＤ＿００１が図５には含まれていないが、これは、識別子ＩＤ＿００１により識別される対象物がグループ化の対象とならなかったためである。このように、同一の対象物情報がなくグループ化されなかった対象物情報は、セット情報テーブル９００には含まれない。相対開始時刻９０３は、同一グループに含まれる複数の対象物に対して、要約映像内における出現の相対的な開始時刻が割り当てられる。

【0021】

図６は、要約映像内における各対象物の開始時刻情報１００３～１００７を含む開始時刻テーブル１０００を示す図である。同図に示す情報は、生成部１０５により、図４に示した対象物情報と、図５に示したセット情報とに基づいて生成される。
図６に示すように、開始時刻情報１００３～１００７はそれぞれ、対象物の識別子１００１と、要約映像中の開始時刻１００２とを含んで構成される。対象物の識別子１００１は、図４（ａ）の識別子７０１に対応する。要約映像中の開始時刻１００２は、要約映像内における対象物の再生開始時刻を表す。

【0022】

次に、図２（ｂ）に示した要約映像内における各対象物の配置を生成する方法について、図７のフローチャートを用いて説明する。以下では、図２（ａ）に示した元映像が入力される場合を例に取って説明する。

【0023】

図７は、本実施形態において制御部１０１が実行する処理の一例を示すフローチャートである。本フローチャートの処理は、情報処理装置１００が監視カメラの録画映像を読み込んだことに応じて開始される。
制御部１０１は、ステップＳ１１０１において、録画映像から抽出された対象物情報を受信部１０２から取得し、ステップＳ１１０２に移行する。録画映像から動く物体などの前景の対象物を抽出する方法はいくつかあるが、本実施形態では、J. Sun, W. Zhang, X. Tang, and H. Shum. Background cut. ECCV'06, pp. 628-641, 2006に開示されている方法を使用する。ただし、映像から前景の対象物を抽出できる方法であれば、他の方法を用いてもよい。
抽出された対象物の情報は、図４（ａ）に示した対象物情報と、図４（ｂ）に示した動作軌跡とにより構成される。図４（ａ）に示したように、抽出した対象物情報には識別子が割り振られる。また対象物情報には、録画映像中の対象物が現れた時刻を示す開始時刻と、対象物の相対時刻、中心座標、半径、画素マスクを含む動作軌跡とが含まれる。図４（ａ）に示した識別子ＩＤ＿００１，ＩＤ＿００２，ＩＤ＿００３，ＩＤ＿００４，ＩＤ＿００５に含まれる動作軌跡は、それぞれ図２（ａ）に示した動作軌跡３０１，３０２，３０３，３０４，３０５に対応する。

【0024】

ステップＳ１１０２において制御部１０１は、後述する同一対象物の特定処理を特定部１０３に行わせ、ステップＳ１１０３に移行する。ステップＳ１１０２では、制御部１０１により、特定部１０３が同一と判定した対象物をセットにまとめる処理も行われる。ここでは、図５に示したように、動作軌跡３０２と動作軌跡３０４が同一対象物であると判定され、動作軌跡３０３と動作軌跡３０５が同一対象物であると判定される。
ステップＳ１１０３に移行した制御部１０１は、同一と判定された対象物のセットそれぞれについて、配置決定部１０４にステップＳ１１０４の処理を実行させ、すべてのセットについての処理が終了した後、ステップＳ１１０５に移行する。ステップＳ１１０４の処理は、後述する対象物の配置決定処理である。

【0025】

ステップＳ１１０５では、生成部１０５により、対象物情報テーブル７００に含まれる対象物情報、動作軌跡テーブル８００に含まれる動作軌跡、セット情報テーブル９００に含まれる対象物のセット情報に基づいて、要約映像の生成処理が行われる。具体的に説明すると、生成部１０５はまず、同一のセット番号９０１を持つ対象物の動作軌跡を時間的に連結し、１つの動作軌跡とする。すなわち、相対開始時刻の分だけ対象物の出現開始時刻をずらすことで、複数の動作軌跡の間で重なりがないようにする。そして生成部１０５は、すべての動作軌跡の間で最も衝突が少なく、再生時間が短くなるように、要約映像における各動作軌跡の開始時刻を求める。

【0026】

ここで、対象物の動作軌跡間の衝突について説明する。生成部１０５は、以下の式（１）を用いて、対象物ｉ，ｊ間の衝突コストＣｏｌ_ｉｊ（ｋ）を算出する。ただし、ｋは対象物ｉ，ｊの開始時刻の時間差であり、ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉはそれぞれ時刻ｔにおける対象物ｉの中心のｘ座標及びｙ座標であり、ｒ_ｔ ^ｉは時刻ｔにおける対象物ｉの半径である。また、Ｔ_ｉｊ（ｋ）は、開始時刻の時間差がｋであるとしたときに、対象物ｉ，ｊの両方の動作軌跡が映像中に現れる期間を表している。さらに、式（１）右辺の絶対値記号内側の数式は、対象物ｉ，ｊの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。したがって、衝突コストＣｏｌ_ｉｊ（ｋ）は、値が大きいほど、対象物ｉ，ｊが衝突するフレームの数が多いことを表す。

【数1】

【0027】

生成部１０５は、対象物の全ての組み合わせにおいて衝突コストＣｏｌ_ｉｊ（ｋ）が最小になる開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。したがって、生成部１０５は、シミュレーテッドアニーリング法を用いて各対象物の開始時刻を求めることにより、要約映像における最適な各対象物の開始時刻１００２（図６を参照）を求めることができる。生成部１０５は、このようにして元映像に対して対象物の空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって、要約映像が生成される。

【0028】

図８（ａ）は、図７のステップＳ１１０２で実行される同一対象物の特定処理の一例を示す図である。特定部１０３は、ステップＳ１２０１において対象物の画像情報から画像特徴量を取得し、ステップＳ１２０２に移行する。対象物の画像としては、各フレームにおける対象物の画像の中で最も画素数が多いものを選択し、画像特徴量としては、そのＳＩＦＴ(Scale Invariant Feature Transform)特徴量を使用する。より具体的に説明すると、特定部１０３は、対象物ごとに、図４（ｂ）に示した動作軌跡テーブル８００の各行の中から半径８０３の値が最大となる行を選択し、選択した行に対応する元映像のフレームに対し、画素マスク８０４を適用する。これにより対象物の画像のみをクロップした上で、そのＳＩＦＴ特徴量を求める。なお、ここでは、対象物同士を比較するために必要な情報を取得するために、最も画素数が大きくなる対象物画像のＳＩＦＴ特徴量を求めるという方法を採用している。しかし、対象物同士を比較するために必要な情報が取得できる方法であれば、どのような方法を用いてもよい。

【0029】

特定部１０３は、ステップＳ１２０２において、各対象物の特徴量同士を比較することによって、対象物間の類似度を算出し、ステップＳ１２０３に移行する。具体的には、各対象物が持つＳＩＦＴ特徴量を総当たりで比較することにより、対象物間の類似度を求める。
特定部１０３は、ステップＳ１２０３において、ステップＳ１２０２で求めた類似度が所定の閾値以上の値を持つ２つの対象物を、同一の対象物として判定する。一例を挙げると、類似度の値域が０～１０００で、閾値を８００とした場合に、対象物間の類似度が８００以上の場合はその２つの対象物を同一と判定し、７９９以下の場合は異なると判定する。図５は、このような同一性判定の結果、識別子ＩＤ＿００２に対応する対象物と識別子ＩＤ＿００４に対応する対象物が同一と判定され、識別子ＩＤ＿００３に対応する対象物と識別子ＩＤ＿００５に対応する対象物が同一と判定されたことを示している。特定部１０３の判定結果は制御部１０１に戻され、図５に示したセット情報テーブル９００に格納される。

【0030】

図８（ｂ）は、図７のステップＳ１１０４で実行される対象物の配置決定処理の一例を示す図である。配置決定部１０４は、同一と判定された複数の対象物に対し、ステップＳ１３０１において、それぞれの動作軌跡が時間方向で重ならないように、それらの時間的な配置を決定する。ここでは単純に、それぞれの動作軌跡が順番に再生されるように連結する。より好ましくは、それぞれの動作軌跡が順番に連続して再生されるように連結する。
一例として、識別子ＩＤ＿００２に対応する対象物と識別子ＩＤ＿００４に対応する対象物の動作軌跡の実行時間がそれぞれ５０、６０であり、前者の後に後者を再生する場合を考える。この場合、配置決定部１０４は、前者と後者の相対開始時刻にそれぞれ０と５０を割り当てる。このように割り当てを行うことで、識別子ＩＤ＿００２に対応する対象物の動作軌跡が再生された後に、識別子ＩＤ＿００４に対応する対象物の動作軌跡が連続して再生されることが保証される。

【0031】

以上説明したように、本実施形態による情報処理装置１００によれば、録画映像を短時間で確認できるという要約映像の利点は残しつつ、要約映像の同一フレーム内の複数箇所に同一人物が写り込むことを防止できるようになる。したがって、注目人物の行動を見落とす可能性を低減できる。

【0032】

［本実施形態の変形例１］
本実施形態では、すべての対象物に関して、同一の対象物を要約映像中で同時に表示しないケースについて説明したが、これは本実施形態を実現する態様の一例に過ぎない。ここでは変形例として、選択された対象物に対してのみ、同一対象物を要約映像中で同時に表示しない例を説明する。
図９は、本変形例において制御部１０１が実行する処理の一例を示すフローチャートである。本フローチャートの処理も、情報処理装置１００が監視カメラの録画映像を読み込んだことに応じて開始される。

【0033】

図９に示す各ステップのうちステップＳ１１０１，Ｓ１１０２，Ｓ１１０３，Ｓ１１０４，Ｓ１１０５は図７のフローチャートと同様の処理のため、説明を省略する。制御部１０１は、ステップＳ１１０１の後にステップＳ１４０１において、図１（ｂ）に示した入力装置２０４から対象物の選択を受け付けて、ステップＳ１１０２に移行する。ステップＳ１４０１において制御部１０１は、元映像から抽出した対象物のサムネイル画像を、出力装置２０５のディスプレイに、マウスなどの入力装置２０４によって選択可能な状態で表示する。ユーザは、入力装置２０４を用いて１以上のサムネイル画像を選択することで、１以上の対象物を選択する。なお、ここではサムネイル画像を選択することとしたが、元映像の中で対象物を選択できるようにしてもよく、対象物を選択できる方法であればどのような方法であってもよい。ステップＳ１１０２では、選択された対象物に対してのみ、同一対象物の特定処理が行われる。

【0034】

図１０は、本変形例による要約映像内における対象物の動作軌跡の配置１５００を表す図である。図１０に示す動作軌跡３０２～３０５はそれぞれ、図２（ａ）の動作軌跡３０２～３０５に対して時間的な配置をずらしたものである。すなわち対象物の時間的な出現順序が元映像から変更されたものである。図１０には、識別子ＩＤ＿００３に対応する対象物（動作軌跡３０３）が選択された場合を示している。識別子ＩＤ＿００３に対応する対象物と同一の対象物は、識別子ＩＤ＿００５に対応する対象物（動作軌跡３０５）である。したがって、本変形例によれば、図１０に示すように、動作軌跡３０３と動作軌跡３０５のみ時間方向で重なりがなく、その他の動作軌跡は重なりを許容するように配置がなされる。動作軌跡３０２と動作軌跡３０４は同一の対象物の動作軌跡であるが、図１０では、時間方向で重なるように配置されており、ある期間では同一の対象物が同一フレーム内に複数表示されることになる。
以上説明したように、本変形例による情報処理装置１００によれば、要約映像の同一フレーム内の複数箇所に写り込むことを防止する人物をユーザが指定できるので、注目人物の行動を見落とす可能性をさらに低減できる。

【0035】

［本実施形態の変形例２］
本変形例では、図１（ａ）に示した生成部１０５が生成した要約映像の再生時に対象物の選択を受け付け、選択された対象物の元映像を再生するユースケースについて説明する。
図１１（ａ）は、制御部１０１が再生する要約映像内のフレーム１６００を表す図である。フレーム１６００は図３（ｂ）のフレーム６００と同一であり、人物５０１，５０２，６０１が映っている。制御部１０１は、要約映像再生中に、入力装置２０４のマウスからの入力を受けてマウスポインタ１６０３を移動し、対象物の選択を受け付けることができるように構成される。図１１（ａ）には、人物５０２が選択されている状態を示している。
図１１（ｂ）は、フレーム１６００において人物５０２が選択された後に表示されるフレーム１７００を表す図である。制御部１０１は、要約映像再生時に対象物の選択を受け付けると、選択された対象物の元の録画映像１７０１をポップアップ表示にて再生する。これによりユーザは、人物５０２が元々どのような状態で録画されたのかを確認することができる。録画映像１７０１は、例えば、図３（ａ）のフレーム６００と同一である（全体のサイズは僅かに縮小されている）。

【0036】

図１２は、本変形例において制御部１０１が実行する処理の一例を示すフローチャートである。本フローチャートの処理は、情報処理装置１００が要約映像を再生中に、ユーザが入力装置２０４を介して対象物を選択したことに応じて開始される。
制御部１０１は、ステップＳ１８０１において、入力装置２０４からの入力を受けて対象物の選択を受け付け、ステップＳ１８０２に移行する。制御部１０１は、ステップＳ１８０２において、図５に示した対象物のセット情報テーブル９００に基づいて、選択された対象物と同一の対象物が存在するかどうかを判定する。同一の対象物が存在すればステップＳ１８０３に移行し、存在しなければステップＳ１８０４に移行する。

【0037】

ステップＳ１８０３では、制御部１０１は、選択された対象物の元映像（選択された対象物を含む元映像の部分。以下、同じ）と、選択された対象物と同一の対象物を含む元映像の他の部分とを連続して再生する。一例として、識別子ＩＤ＿００２に対応する対象物が選択された場合であれば、同一の対象物として識別子ＩＤ＿００４に対応する対象物が存在する。したがって、制御部１０１は、識別子ＩＤ＿００２に対応する対象物の元映像と、識別子ＩＤ＿００４に対応する対象物の元映像とを連続して再生する。一方、ステップＳ１８０４では、制御部１０１は、選択された対象物の元映像のみを再生する。一例として、識別子ＩＤ＿００１に対応する対象物が選択された場合であれば、同一の対象物が他に存在しないため、識別子ＩＤ＿００１に対応する対象物の元映像のみが再生される。
以上説明したように、本変形例による情報処理装置１００によれば、要約映像の中から対象物を選択してその元映像を再生する際に、同一対象物の元映像を連続して再生することができる。したがって、注目人物の元映像における足取りを容易に確認することが可能になる。

【0038】

［本実施形態の変形例３］
第１の実施形態では、映像中に現れる同一人物の動作軌跡を単純に連結して要約映像を生成したが、これは第１の実施形態を実現する態様の一例に過ぎない。ここでは変形例として、同一人物の動作軌跡を連結する際に、動作軌跡の間に断絶が存在する場合は、その間の軌跡を補間する例について説明する。
第１の実施形態で用いた図７のフローチャートを用いて、本変形例における制御部１０１において実行される処理の一例を説明する。ステップＳ１１０１、Ｓ１１０２、Ｓ１１０３、Ｓ１１０４は第１の実施形態と同様の処理のため、説明を省略する。ステップＳ１１０５では、第１の実施形態同様、生成部１０５において、要約映像を生成する。要約映像の生成の中で、同一のセット情報を持つ対象物の動作軌跡を合成し、一つの動作軌跡を生成する際に、動作軌跡間に断絶がある場合に間を補間する処理を行う。同一対象物の各動作軌跡の間で対象物の位置が連続していない場合は、前の動作軌跡の最後の位置と後の動作軌跡の最初の位置をつなぐように動作軌跡を生成する。生成する動作軌跡は直線で等速に移動する軌跡を描いてもよいし、前後の動作軌跡の速度、向きに合わせて描いてもよい。生成した動作軌跡に沿って表示する対象物の画像に関しては、前の動作軌跡の最後の画像を使用してもよいし、前後の動作軌跡の画像をモーフィングしたものを使用してもよい。いずれにせよ、前後の動作軌跡が連続する状態に補間されていればよい。

【0039】

以上のように、録画映像を可能な限り最小限の長さの映像にする映像要約の利点は残しつつ、同一人物が同時に複数要約映像の中に現れないようにすることで、注目人物の行動を見落とすことが少なくなる。さらに、同一人物の動作軌跡を一つの動作軌跡に連結することで、人物の動作軌跡に断絶があったとしても、補間された軌跡により人物の位置をスムーズに目で追うことができるため、見落としをさらに少なくすることができる。
［その他の実施形態］
本実施形態によって同一判定を行う対象物は、人物に限られない。例えば、車、二輪車、飛行機、ボートといった物や、犬、猫、馬といった動物も同一判定を行う対象物とすることができる。
また、配置決定部１０４は、同一と特定された２以上の対象物の動作軌跡の間に隔たりがある場合には、その間を補間することとしてもよい。具体的には、隔たりを補間するような映像を生成し、要約映像に加えてもよい。

【0040】

なお、本発明は、上述の実施形態の一部または１以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（またはＣＰＵやＭＰＵ等）における１つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、本発明は、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。

【符号の説明】

【0041】

１００…情報処理装置、１０１…制御部、１０３…特定部、１０４…配置決定部、１０５…生成部、３００…配置、３０１～３０５…動作軌跡、４００…配置、５００…フレーム、５０１，５０２，６０１…人物、６００…フレーム、６０１…人物

【図1】