IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

<>
  • 特開-情報処理装置および情報処理方法 図1
  • 特開-情報処理装置および情報処理方法 図2
  • 特開-情報処理装置および情報処理方法 図3
  • 特開-情報処理装置および情報処理方法 図4
  • 特開-情報処理装置および情報処理方法 図5
  • 特開-情報処理装置および情報処理方法 図6
  • 特開-情報処理装置および情報処理方法 図7
  • 特開-情報処理装置および情報処理方法 図8
  • 特開-情報処理装置および情報処理方法 図9
  • 特開-情報処理装置および情報処理方法 図10
  • 特開-情報処理装置および情報処理方法 図11
  • 特開-情報処理装置および情報処理方法 図12
  • 特開-情報処理装置および情報処理方法 図13
  • 特開-情報処理装置および情報処理方法 図14
  • 特開-情報処理装置および情報処理方法 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023176248
(43)【公開日】2023-12-13
(54)【発明の名称】情報処理装置および情報処理方法
(51)【国際特許分類】
   H04N 7/18 20060101AFI20231206BHJP
   G06T 7/70 20170101ALI20231206BHJP
【FI】
H04N7/18 U
G06T7/70 Z
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2022088427
(22)【出願日】2022-05-31
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100109380
【弁理士】
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【弁理士】
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】安達 啓史
【テーマコード(参考)】
5C054
5L096
【Fターム(参考)】
5C054FC07
5C054FC13
5C054FE12
5C054FE24
5C054FE25
5C054FF03
5C054GB01
5C054GB05
5L096AA02
5L096AA06
5L096AA09
5L096BA02
5L096CA05
5L096FA60
5L096FA66
5L096FA69
5L096HA05
(57)【要約】
【課題】適切な要約映像を生成できる情報処理装置を提供すること。
【解決手段】映像を要約して要約映像を生成する情報処理装置であって、前記映像から抽出された対象物の画像および動作軌跡を取得する取得手段と、前記取得した対象物の動作軌跡の時間的な相対配置を決定する決定手段と、前記対象物に対して表示優先度を設定する設定手段と、前記設定手段により設定された表示優先度に基づいて、前記要約映像において前記対象物の画像が他の対象物と重なる部分の表示を制御する制御手段と、前記決定手段により決定された相対配置と、前記制御手段により制御された前記重なる部分の表示とを用いて、前記要約映像を生成する生成手段と、を備える。
【選択図】 図3
【特許請求の範囲】
【請求項1】
映像を要約して要約映像を生成する情報処理装置であって、
前記映像から抽出された対象物の画像および動作軌跡を取得する取得手段と、
前記取得した対象物の動作軌跡の時間的な相対配置を決定する決定手段と、
前記対象物に対して表示優先度を設定する設定手段と、
前記設定手段により設定された表示優先度に基づいて、前記要約映像において前記対象物の画像が他の対象物と重なる部分の表示を制御する制御手段と、
前記決定手段により決定された相対配置と、前記制御手段により制御された前記重なる部分の表示とを用いて、前記要約映像を生成する生成手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記制御手段は、前記表示優先度に基づいて、前記他の対象物と重なる部分の透明度を制御することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記設定手段は、前記要約映像における前記対象物の奥行き位置に基づき前記表示優先度を設定することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記要約映像における前記対象物の奥行き位置が前記他の対象物より手前である場合、前記設定手段は、前記他の対象物より高い表示優先度を前記対象物に設定することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記要約映像における前記対象物の奥行き位置が前記他の対象物より手前である場合、前記制御手段は、前記対象物が前記他の対象物と重なる部分の透明度を0に設定することを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記対象物の表示優先度と前記他の対象物の表示優先度が同じである場合、前記制御手段は、前記対象物が前記他の対象物と重なる部分を半透明で表示することを特徴とする請求項2に記載の情報処理装置。
【請求項7】
前記設定手段は、前記要約映像における前記対象物の奥行き位置にかかわらず、外部から入力された情報に基づき前記表示優先度を設定することを特徴とする請求項1または2に記載の情報処理装置。
【請求項8】
前記制御手段は、前記要約映像における前記対象物の表示範囲と前記他の対象物の表示範囲との包含関係に基づき前記表示を制御することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
【請求項9】
前記制御手段は、前記要約映像における前記対象物の表示範囲と前記他の対象物の表示範囲との包含関係に基づき前記表示を制御することを特徴とする請求項7に記載の情報処理装置。
【請求項10】
前記制御手段は、前記対象物の表示範囲が前記他の対象物の表示範囲の包含する場合、前記他の対象物の存在を示す情報を前記他の対象物の表示範囲内に示すことを特徴とする請求項8に記載の情報処理装置。
【請求項11】
前記制御手段は、前記対象物の表示範囲が前記他の対象物の表示範囲の包含する場合、前記他の対象物の存在を示す情報を前記他の対象物の表示範囲内に示すことを特徴とする請求項9に記載の情報処理装置。
【請求項12】
映像を要約して要約映像を生成する情報処理方法であって、
前記映像から抽出された対象物の画像および動作軌跡を取得するステップと、
前記取得した対象物の動作軌跡の時間的な相対配置を決定するステップと、
前記対象物に対して表示優先度を設定するステップと、
前記設定するステップにより設定された表示優先度に基づいて、前記要約映像において前記対象物の画像が他の対象物と重なる部分の表示を制御するステップと、
前記決定するステップにより決定された相対配置と、前記制御するステップにより制御された前記重なる部分の表示とを用いて、前記要約映像を生成するステップと、
を有することを特徴とする情報処理方法。
【請求項13】
コンピュータを請求項1から6のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
【請求項14】
コンピュータを請求項7に記載の情報処理装置の各手段として機能させるためのプログラム。
【請求項15】
コンピュータを請求項8に記載の情報処理装置の各手段として機能させるためのプログラム。
【請求項16】
コンピュータを請求項9に記載の情報処理装置の各手段として機能させるためのプログラム。
【請求項17】
コンピュータを請求項10に記載の情報処理装置の各手段として機能させるためのプログラム。
【請求項18】
コンピュータを請求項11に記載の情報処理装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置および情報処理方法に関する。
【背景技術】
【0002】
長時間録画された映像を効率的に見る方法として特許文献1に開示された映像要約と呼ばれる技術がある。要約映像を作成する場合、使用するアルゴリズムによっては、要約映像において対象物間の重なりが発生する可能性がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第5355422号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
要約映像において対象物の重なりが発生した場合、対象物の重なり部分を半透明にして表示しても、要約映像によっては個々の対象物を識別し難い場合がある。また、対象物の奥行き位置を考慮せず対象物間の重なり部分を半透明にして表示すると、手前に位置する対象物が半透明になるなど不自然に見えることがある。
上記した課題に鑑み、本発明は、適切な要約映像を生成できる情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するために、本発明の一態様にかかる情報処理装置は、映像を要約して要約映像を生成する情報処理装置であって、前記映像から抽出された対象物の画像および動作軌跡を取得する取得手段と、前記取得した対象物の動作軌跡の時間的な相対配置を決定する決定手段と、前記対象物に対して表示優先度を設定する設定手段と、前記設定手段により設定された表示優先度に基づいて、前記要約映像において前記対象物の画像が他の対象物と重なる部分の表示を制御する制御手段と、前記決定手段により決定された相対配置と、前記制御手段により制御された前記重なる部分の表示とを用いて、前記要約映像を生成する生成手段と、を備える。
【発明の効果】
【0006】
本発明によれば、適切な要約映像を生成することができる。
【図面の簡単な説明】
【0007】
図1】実施形態の映像要約システムの構成を示す図。
図2】実施形態のネットワークカメラの構成を示すブロック図。
図3】実施形態の映像要約装置の構成を示すブロック図。
図4】実施形態の要約映像における対象物の動作軌跡の配置を示す図。
図5】実施形態で要約映像のフレームが生成される様子を示す図。
図6】実施形態の映像要約装置が使用する対象物情報を示すテーブル。
図7】実施形態の映像要約装置が使用する動作軌跡を示すテーブル。
図8】実施形態の映像要約装置が使用する開始時刻を示すテーブル。
図9】実施形態で表示優先度設定を行う際に使用するGUIを示す図。
図10】実施形態の制御部が実行する処理を示すフローチャート。
図11】実施形態の映像要約装置が実行する処理を示すフローチャート。
図12】実施形態の映像要約装置が実行する他の処理を示すフローチャート。
図13】背後の物体の存在を示す表示を含む要約映像のフレームの一例を示す図。
図14】変形例で表示優先度設定を行う際に使用するGUIの一例を示す図。
図15】変形例の映像要約装置が生成する要約映像のフレームの一例を示す図。
【発明を実施するための形態】
【0008】
以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に限定されない。
【0009】
図1は、本実施形態におけるネットワークカメラシステム10の構成の一例を示している。ネットワークカメラシステム10は、映像要約システムの一例である。
ネットワークカメラシステム10は、複数のネットワークカメラ(以下、単に「カメラ」ともいう)102、106と、複数の情報処理装置103、104、105を備える。本実施形態では、情報処理装置103は画像録画装置として機能し、情報処理装置104は映像要約装置として機能し、情報処理装置105は操作端末として機能する。情報処理装置103~105は図1では独立した装置として示されているが、一体的に構成してもよい。なお、画像録画装置103や映像要約装置104はサーバで構成してもよい。
【0010】
本実施形態では、例えば、カメラ102で撮影した映像から対象物を抽出し、物体(対象物)毎に決定された表示優先度に基づき対象物同士が重なる部分(重畳部分)の透明度を決定し、対象物同士を重ね合わせて表示する映像要約装置を説明する。
映像要約は長時間の録画映像中に映る動きのある物体(対象物)を全て抽出し、対象物同士が重ならないようにしつつ、時間方向にシフトすることで、短時間の映像に変換する方法である。録画映像の中で異なる時間に存在した対象物も要約映像では同時に表示することができるため、効率的な録画映像の閲覧を可能にする。
【0011】
カメラ102、106と情報処理装置103、104、105とは、ネットワーク回線101によって接続されている。ネットワーク回線101は、例えば、LAN(Local Area Network)である。なお、ネットワーク回線101はLANに限定されない。例えば、ネットワーク回線101は、インターネットやWAN(Wide Area Network)などでもよい。また、ネットワーク回線101への物理的な接続形態は、有線であってもよいし、無線であってもよい。図1において、2つのカメラ102、106と3つの情報処理装置103、104、105がネットワーク回線101に接続されているが、ネットワーク回線101へ接続されるカメラの台数および情報処理装置の台数は図1に示す数に限定されない。例えば、ネットワークカメラシステム10に含まれるカメラは1台(カメラ102のみ)でもよい。
【0012】
カメラ102、106は、所定の画角で監視対象空間内に存在する所定の被写体を撮像する撮像装置である。カメラ102、106は、例えば、監視カメラである。カメラ102、106は、撮像画像(以下、単に「画像」ともいう。)を、ネットワーク回線101を介して各情報処理装置103、104、105へ送信する。
【0013】
画像録画装置103は、カメラ102から送信された撮像画像をネットワーク回線101経由で受信して保存、蓄積する。また、画像録画装置103は、映像要約装置104及び操作端末105から受け付けた要求に応じて保存している撮像画像を映像要約装置104及び操作端末105に送信する。画像録画装置103は、表示部(ディスプレイ)103aと、マウス103bと、キーボード103cを備える。表示部103aは、液晶ディスプレイ(LCD)等のモニタで構成される。操作者は、マウス103bと、キーボード103cを使用して情報処理装置103に指示を与えることができる。LCDはLiquid Crystal Displayの略である。
【0014】
映像要約装置104は、画像録画装置103に記録されている撮像画像をネットワーク回線101経由で受信し、映像要約処理を行う。映像要約装置104は、映像要約処理により要約映像を生成するので、映像要約装置と称してもよい。
映像要約装置104は、表示部104aと、マウス104bと、キーボード104cを備える。表示部104aは、液晶ディスプレイ等のモニタで構成される。操作者は、マウス104bと、キーボード104cを使用して映像要約装置104に指示を与えることができる。
本実施形態では、映像要約装置104が解析結果や登録情報を保存するが、解析結果や登録情報はネットワーク回線101を介して他のデータベースや操作端末105に保存してもよい。
【0015】
操作端末105は、表示部105aを備え、カメラ102から受信した撮像画像や、画像録画装置103に記録された画像データの再生・表示や、映像要約装置104から受信した要約映像を表示する機能を有する。また操作端末105は、映像要約処理の設定等を指示するためのユーザインタフェースと入力部(マウス105b、キーボード105c)を備える。操作者は、操作端末105のユーザインタフェースと入力部を使用して、要約映像を生成する際の表示優先度設定や、映像要約に関する抽出条件などの設定等を行うことができる。ユーザインタフェースは、例えば、表示部105aを使用したGUI(Graphical User Interface)である。つまり、表示部105aは、タッチパネルとしても機能することができる。なお、GUIとマウス105b、キーボード105cをまとめて入力部と称してもよい。
【0016】
次に、ネットワークカメラシステム10の各装置の構成について説明する。
図2は、カメラ102のハードウェア構成の一例を示す図である。カメラ102は、CPU201、ROM202、RAM203、外部メモリ204、撮像部205、入力部206、通信I/F207、システムバス208を含んで構成することができる。なお、カメラ102は、これ以外の構成(例えば、スピーカ、発光部など)をさらに含んでいてもよい。カメラ106はカメラ102と同様な構造を有するので、カメラ106の説明は省略する。
【0017】
CPU201は、カメラ102における動作を統括的に制御する制御部であって、システムバス208を介して、各構成要素(202~207)の動作を制御する。CPU201に替えてGPU(Graphics Processing Unit)を用いてもよい。ROM202は、CPU201が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、外部メモリ204や着脱可能な記憶媒体(不図示)に記憶されていてもよい。RAM203は、CPU201の主メモリ、ワークエリア等として機能する。すなわち、CPU201は、処理の実行に際してROM202から必要なプログラム等をRAM203にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
【0018】
外部メモリ204は、例えば、CPU201がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、外部メモリ204は、例えば、CPU201がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等を記憶する。撮像部205は、被写体の撮像を行って撮像画像を生成する。撮像部205は、例えばCMOS(Complementary Metal Oxide Semiconductor)、CCD(Charge Coupled Device)等の撮像素子、A/D変換器、現像処理部等を含んで構成することができる。
【0019】
入力部206は電源ボタンや設定ボタンなどから構成され、カメラ102の操作者は、入力部206を介してカメラ102に指示を与えることができる。通信I/F207は、外部装置(情報処理装置103など)と通信するためのインターフェースである。通信I/F207は、例えばLANインターフェースである。システムバス208は、CPU201、ROM202、RAM203、外部メモリ204、撮像部205、入力部206および通信I/F207を通信可能に接続する。カメラ102の各部の機能は、CPU201がROM202もしくは外部メモリ204に記憶されたプログラムを実行することで実現される。I/FはInterfaceの略である。
【0020】
情報処理装置103~105のそれぞれのハードウェア構成は、図2に示すハードウェア構成に準ずることができる。その場合、撮像部205に代えて、表示部103a、104a、105a等のハードウェア構成を具備する。情報処理装置103~105は、入力部206として、マウス103b、104b、105bやキーボード103c、104c、105c等のポインティングデバイスを具備し、操作者が情報処理装置103~105に対して指示を与えることができる。情報処理装置103~105の外部メモリ204は、種々の情報を記憶しておくためのデータベースを含んでよい。
【0021】
図3は、映像要約装置104の機能構成の一例を示すブロック図である。
映像要約装置104は、制御部301、受信部302、取得部303、配置決定部304、対象物表示制御部305および生成部306を備える。
【0022】
図3に示す各機能構成要素は、映像要約装置104のCPU201が対応する処理プログラムを実行することによって実現され得る。なお、図3に示す各機能構成要素の少なくとも一部を専用のハードウェアで実装してもよい。ハードウェアで実装する場合、例えば、所定のコンパイラを用いることで、各処理を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。この場合、ハードウェアは、CPU201の制御に基づいて動作する。
【0023】
本実施形態では、図3の各機能を映像要約装置104内に搭載する場合を説明するが、機能の一部を他の機器に搭載してもよい。例えば、図3に示した機能の一部をカメラ102内に搭載してもよいし、画像録画装置103や操作端末105に搭載してもよい。また、本実施形態においては、映像要約装置104が被写体として人物または車両を検出する場合を説明するが、検出対象となる被写体(対象物)はこれらに限定されない。例えば、動物や不審物などの特定の被写体を検出対象とすることもできる。
【0024】
制御部301は、CPU201等から構成され、ROM202に記憶されたプログラムやデータをRAM203に読み出して映像生成などの処理を実行する。
受信部302は、解析対象となる映像を受信する。映像は外部メモリ204に保存されたものを取得してもよいし、通信I/F207を介してネットワーク回線101上にある映像を取得してもよい。
【0025】
以下の説明では、受信部302が動画像を取得した場合であっても静止画像を取得した場合であっても、受信部302は、対象物表示制御部305等の後段へ1枚の画像を送出する場合について説明する。前者の場合は、上記1枚の画像が動画像を構成する各フレームに相当し、後者の場合は、上記1枚の画像が静止画像に相当する。動画像の場合は、各フレームについて同様の処理を繰り返せばよい。
【0026】
取得部303は、受信部302が取得した映像から対象物を抽出し対象物の情報(動作軌跡を含む対象物情報、画像)を取得する。
配置決定部304は、取得した対象物の動作軌跡の要約映像における時間方向の相対的な配置(時間的な相対配置)を決定する。
対象物表示制御部305は、入力部206の操作等によって設定された設定情報(表示制御情報)に基づいて各対象物の透明度などの表示状態を制御する。
生成部306は、配置決定部304で決定した動作軌跡の配置情報と対象物に設定された表示制御情報に基づき要約映像を生成する。生成した要約映像は外部メモリ204に保存され、ディスプレイ104aで再生(表示)される。ディスプレイ104aは出力部と称してもよい。なお、要約映像の再生表示は操作端末105のディスプレイ105aで行ってもよい。その場合、ディスプレイ105aを出力部と称してもよい。
【0027】
図4(a)は録画映像の時空間における対象物の動作軌跡401、402、403、404の配置400を表す。配置400の横軸は空間xを表し、縦軸は時間tを表す。空間は通常xとyの2軸で構成されるが、本実施形態では表現のわかりやすさを優先してy軸の値は省略し、あるy軸の値の時のx軸のみを用いて表現する。時間tは最下部が録画の開始時間、最上部が録画の終了時間となる。本実施形態では、動作軌跡401は車の動作(移動)を示し、動作軌跡402は人物の動作を示し、動作軌跡403も人物の動作を示し、動作軌跡404も人物の動作を示している。動作軌跡402~404は、それぞれ異なる人物の動作を示している。
【0028】
各動作軌跡401、402、403、404は映像から抽出された対象物の動作軌跡である。各動作軌跡401、402、403、404の中心に示されている太線401a、402a、403a、404aは対象物の中心の軌跡を表す。各動作軌跡401、402、403、404の外縁を示す点線は対象物の範囲を表す。
対象物は複数の連続するフレームにそれぞれ現れる画素の集合として表現することができる。対象物の中心は対象物の画素集合の中心位置である。対象物の範囲は画素集合の面積を基に算出した半径を用いる。計算方法の詳細は後述する。
【0029】
図4(b)は録画映像の時空間における対象物の動作軌跡401’、402’、403’、404’の配置400’を表す。
図4(b)の対象物の動作軌跡401’、402’、403’、404’はそれぞれ、図4(a)の動作軌跡401、402、403、404の開始時刻をずらしたもの(縦軸下方向に移動したもの)である。
図4(b)の配置400’では、対象物の動作軌跡401’、402’、403’、404’を時間方向で重ならずできるだけ再生時間が短くなるように各動作軌跡の開始時刻を決定している。
【0030】
ただし対象物の配置処理(複数の動作軌跡をどのように配置するか)は、現実的には有限の計算リソースの制約による所要計算時間等の観点から、作成される要約映像に対象物間で重なりが発生する可能性がある。
配置400’においては、各対象物(動作軌跡)は概ね重なりがなく再生時間が短くなるように配置されているが、動作軌跡401’と402’の間では重なりが生じている。
【0031】
図5(a)は受信部302が受信した映像のフレーム500を表す。フレーム500は、図4(a)の一点鎖線の時刻405のフレームである。車501の動作軌跡が、図4(a)の動作軌跡401である。図5(a)において車501は左側から右方向に走っているとする。
【0032】
図5(b)は取得部303が取得した動作軌跡を用いて生成部306が出力した要約映像のフレーム510の一例を表す。フレーム510は、図4(b)の動作軌跡の配置400’に基づき構成された要約映像のフレームである。フレーム510は、図4(b)の一点鎖線で示される時刻405’のフレームを表す。
【0033】
車501は動作軌跡401’に対応し、人物502は動作軌跡402’に対応し、人物504は動作軌跡404’に対応する。図5(b)は、要約映像を生成する際に、動作軌跡の開始時刻をずらすことで、時刻405のフレームの状態のときに存在しなかった人物502と人物504が要約映像において車501と同時(同一フレーム)に表示されることを示している。なお、図4(b)の動作軌跡403’は時刻405’には無いので、図5(b)に示されていない。
【0034】
前述したように 映像によっては作成される要約映像において対象物間の重なりが発生する可能性があり、本実施形態では動作軌跡401’と動作軌跡402’の間で一部動作軌跡の重なりが生じている。よって、フレーム510では車501と人物502の間で重なりが生じ、重畳部分は半透明で表示されており、個々の対象物(車501、人物502)の重畳部分が認識し難くなっている。
【0035】
図5(c)は、取得部303が取得した動作軌跡を用い、対象物表示制御部305で設定されている表示制御設定情報(表示優先度)に基づき各対象物の表示を制御し、生成部306が出力した要約映像のフレーム520の一例を表す。なお、図5(c)では、対象物表示制御部305で、人物の表示を優先するように設定しているとする。
【0036】
フレーム520は、図5(b)と同じ時刻405’のフレームを表す。人物502’は、動作軌跡402(402’)に対応する。図5(c)の要約映像を生成する場合、対象物表示制御部305で、車501との重畳部分において人物502’を優先表示する表示制御処理が行われている。そのため、人物502’と車501が重畳部分では、人物502’が優先表示されて不透明で表示され、車501は人物502’に隠れたように表示されている。
【0037】
このように、図5(c)では、優先表示する物体を予め人物に設定しておくことにより、注目する対象物である人物502’が他の対象物(車501)によって隠されることがなくなり視認しやすくなる。
【0038】
次に、取得部303が取得する対象物情報の一例について、図6の対象物情報テーブルを用いて説明する。
図6の対象物情報テーブル600は取得部303により取得された対象物情報を表している。対象物情報は、識別子601、開始時刻602、動作軌跡603および種別604の情報で表される。
【0039】
本実施形態では対象物は4つ(1台の車と3人の人物)あり、それぞれにOBJ_001~OBJ_004という識別子605~608が付与されている。
開始時刻602は、映像の開始時刻を0としたときに、対象物が現れる時刻を表す。動作軌跡603(B1~B4)は図7を用いて説明する。
対象物の種別604は、フレームに映る対象物の画像からオブジェクト認識により推定され、付与されたものである。本実施形態の対象物の種別604は、車(Car)、人物(People)、人物(People)、人物(People)である。なお、本実施形態では対象物の種別の認識にオブジェクト認識を用いるが、対象物の画像や移動軌跡から種別を求めるものであればどのような方法を用いてもよい。
動作軌跡B1~B4は、それぞれ図4(a)の動作軌跡401~404に対応している。
【0040】
図7は対象物の動作軌跡テーブル700である。取得部303が取得する動作軌跡の一例について動作軌跡テーブル700を用いて説明する。動作軌跡テーブル700は、対象物情報テーブル600と共に取得部303で生成される。図7の動作軌跡テーブル700は、図6の対象物情報テーブル600の動作軌跡B1の情報を示している。
動作軌跡テーブル700は、相対時刻701、中心座標702、半径703および画素マスク704の情報で表され、各フレームの情報が時系列で格納される。
相対時刻701は対象物が映像に現れてからの時刻を表す。動作軌跡テーブル700には識別子OBJ_001の対象物の時刻0(705)から時刻100(706)までの動作軌跡が記録されている。中心座標702は対象物のフレームごとの画素集合の重心位置を表す。重心位置は画素全ての座標の平均を取ったものを使用する。半径703は対象物の範囲を表す。半径は対象物の画素の合計数をSとしたときに、S/πの平方を求めることにより算出する。本実施形態では対象物の範囲を円に近似して表現している(半径を用いて表現している)が、対象物の範囲を指定できるものであればどのような形式であってもよい。画素マスク704はフレーム内の対象物の詳細な画素位置を表すマスク情報へのリンクを表す。本実施形態では、画素マスク704を対象物とそれ以外を区別する情報を持つ画像として記憶するが、対象物とそれ以外を区別できるものであれば画像以外の形式であってもよい。
【0041】
図8は、要約処理後の対象物の開始時刻テーブルである。より詳しくは、図8は、取得部303が取得した対象物情報に基づいて、配置決定部304で動作軌跡の配置を決定(変更)した後の対象物の開始時刻テーブルである。
開始時刻テーブル800は、識別子801、要約映像中の開始時刻802、要約映像中の終了時刻803および動作軌跡804の情報で表される。
開始時刻テーブル800は、図4(b)の動作軌跡と対応し、OBJ_001’(805)~OBJ_004’(808)は、それぞれ動作軌跡401’~ 404’に対応する。
【0042】
要約映像中の開始時刻802と終了時刻803は、要約映像の開始時刻を0としたときに、対象物が現れる時刻と消える時刻を表す。OBJ_001’(805)の動作軌跡B1は、図7の動作軌跡テーブル700に示した動作軌跡と同じものである。
生成部306は開始時刻テーブル800に基づき最終的な要約映像を生成する。
【0043】
次に図9図12を用いて図4(b)の要約映像の配置400’および図5(c)の要約映像520を生成する方法について説明する。
図10は、本実施形態において映像要約装置104の制御部301において実行される処理の一例を示すフローチャートである。図中、SはStepの略である。図10のフローチャートは、映像要約装置104において、受信部302にカメラ102の録画映像が読み込まれたのに応じて実行される。
S1001では、受信部302は、解析対象となる録画映像を監視カメラ102から受信し、取得部303で映像から対象物の抽出処理を行う。映像から動きのある対象物を切り出す(抽出する)方法はいくつかあるが、本実施形態では背景差分とフレーム間差分を組み合わせた方法を使用する。なお、映像から動きのある対象物を抽出する方法であれば他の方法を用いてもよい。
【0044】
さらに、S1001では、取得部303は対象物の情報を取得する。対象物の情報は、図6に示す対象物情報(600)と、図7に示す動作軌跡(700)とを含む。取得した対象物情報には識別子601が割り振られ、開始時刻602には録画映像中の対象物が現れた時刻が記録される。また、動作軌跡603(700)には対象物の相対時刻701、中心座標702、半径703、画素マスク704が記録され、種別604には車/人物が記録される。図4の録画映像の動作軌跡401~404には、それぞれ識別子OBJ_001~OBJ_004が割り当てられる。
【0045】
S1002では、対象物表示制御部305は、操作端末105の入力部206の操作等によってGUI900(図9)から入力される各対象物の透明度などの表示優先度設定情報を取得する。本実施形態ではGUI900から「手前のオブジェクトを優先」を選択して要約映像を生成した場合について説明する。「手前のオブジェクトを優先」を選択した場合、手前の対象物に高い表示優先度が設定されることになる。図9の詳細は後述する。なお、GUI900は映像要約装置104が備えていてもよい。
S1003では、配置決定部304および生成部306は、要約映像生成処理(図11)を行い、要約映像を生成する。
【0046】
図11は、情報処理装置104で実行される要約映像生成処理の詳細の一例を示すフローチャートである。
S1101では、配置決定部304は、動作軌跡の時間方向の配置(図4(b)の400’)を決定する。決定した動作軌跡の配置の情報は、図8の開始時刻テーブル800に示されている情報である。つまり、S1101では対象物OBJ_001’、OBJ_002’、OBJ_003’、OBJ_004’を対象とした要約映像における各対象物の開始時刻802と終了時刻803を求める。
【0047】
S1101では、すべての対象物の動作軌跡の衝突が最も少なく、総再生時間が短くなるようにエネルギー関数を定義し、シミュレーテッドアニーリング法(例えば、特許文献1に記載のもの)を用いて開始時刻802を決定する。これにより対象物間の衝突が少なく、総再生時間の少ない対象物の開始時刻テーブル800が求められる。
【0048】
S1102では、対象物表示制御部305で設定されている表示制御設定情報に基づき各対象物の透明度などの表示状態を制御(調整)する。表示状態の制御(透明度決定処理)については図12を用いて後述する。
S1103では、生成部306は、対象物情報テーブル800に基づいて要約映像を生成する。要約映像は、背景画像の上に、元の録画映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって生成する。
【0049】
図12は、映像要約装置104で実行される透明度決定処理の詳細の一例を示すフローチャートである。
S1201では、対象物表示制御部305は、開始時刻テーブル800と動作軌跡テーブル700から、動作軌跡間で重なる部分(重畳部分、重畳領域)を抽出する。
S1202では、対象物表示制御部305は、重畳部分を有する各対象物に設定されている表示優先度情報を取得する。本実施形態では、対象物表示制御部305は、「手前のオブジェクトを優先」という設定情報(表示優先度情報)を取得する。
【0050】
S1203では、対象物表示制御部305は、表示優先度情報に基づき対象物の重畳部分の透明度を決定する。本実施形態では手前のオブジェクト(対象物)の表示を優先するという設定であるため、最も手前に位置する対象物の画像の重畳部分の透明度を0%に決定し、これの背後に位置する対象物の画像の重畳部分の透明度を100%と決定する。S1203で決定した各対象物の画像の透明度に基づきS1103で要約映像が生成される。また、重畳部分を有さない対象物の領域の透明度は対象物同士の重なりを考慮する必要がないため透明度を0%と決定する。
【0051】
S1203では、重畳部分を有する対象物において、どの対象物が最も手前に位置するかの判断(判別)処理を行う。例えば、各映像フレームにおいて、重畳している各対象物の動作軌跡テーブル700の情報を用いて、オブジェクト領域(中心座標と半径で規定する対象物の範囲)の最も下部の位置(対象物の下端)が画面上で下に位置する対象物の方を手前に位置すると判断する。図5(b)の場合、画面上で対象物502の下端が対象物501の下端より下に位置しているので、対象物502が対象物501より手前に位置すると判断する。対象物の範囲の下端は、動作軌跡テーブル700の中心座標702と半径703から決定する。どの対象物が最も手前に位置するかの判断処理は、各対象物の奥行き位置の判断処理と称してもよい。
【0052】
本実施形態では手前の対象物の判別方法に画面上における対象物の下端の位置の情報を用いたが、対象物の前後方向の位置(位置関係)を判別できる方法であれば、どのような方法を採用してもよい。例えば、複数のカメラで同一の対象物を撮像し、三角測量などの方式を用いて各対象物の位置を検出し、その後、重畳部分を有する対象物の前後方向の位置関係を判別してもよい。あるいは、距離センサを用いて対象物の位置情報を常に取得し、動作軌跡テーブル700(図7)に他の情報とともに記録してもよい。この場合、動作軌跡テーブル700に記録された各対象物の位置情報を用いて、重畳部分を有する対象物の位置関係を判別する。
【0053】
次に、操作端末105のディスプレイ105aに表示されるGUI900の一例について、図9を用いて説明する。
図9のGUI900は、映像要約装置104の生成部306が要約映像を生成する際に表示を優先する対象物を操作者が選択するためのGUIである。操作者は、要約生成処理が行われる前に、表示優先度設定でどの対象物を優先表示させるかの選択(設定)を行う。なお、GUI900は、映像要約装置104のディスプレイ104bに表示されてもよい。
【0054】
GUI900は、要約映像の生成を開始する前に、どの対象物を優先表示するか選択するためのラジオボタン901~903を備える。ラジオボタン901は標準設定用のボタンであり、ラジオボタン902は手前のオブジェクト(対象物)を優先表示するためのボタンであり、ラジオボタン903は優先表示する対象物を操作者が手動設定する場合に使用するボタンである。標準設定では、手前の対象物を優先表示せず、重なった対象物の重畳部分は半透明表示される。
デフォルト設定ではラジオボタン901が選択されており、この状態で操作者が開始ボタン904を押下すると、要約映像中で重畳している対象物の画像の重畳部分に対して一律に半透明処理を施して要約映像を生成する。生成後の要約映像は、図5(b)のように対象物の画像の重畳部分は前後位置関係にかかわらず半透明で表示される。
【0055】
本実施形態では、操作者はラジオボタン902の「手前のオブジェクトを優先」を選択し、開始ボタン904を選択(押下)する。操作者が開始ボタン904を押下すると、対象物表示制御部305は、要約映像中で重畳している対象物の重畳部分に対してS1203で説明したように、各対象物の奥行き位置を動作軌跡テーブル700から求める。そして対象物表示制御部305は、最も手前に位置する対象物の重畳部分の透明度を0%と決定し、これの背後に位置する対象物の重畳部分の透明度を100%と決定する。その際、要約映像中で優先表示設定がされていない対象物同士が重畳した領域については、対象物表示制御部305は、標準の要約映像処理と同等に一律に半透明処理を施す表示処理を行う。
なお、対象物情報テーブル600の種別604を付与する際のオブジェクト認識で判別可能な種別は、人物(男性、女性、子供)、二輪車(自転車、バイク)、二輪車以外(車、トラック、バス、電車)としてもよい。
【0056】
本実施形態では手前に位置する対象物をそのまま表示し背後に重なって位置する対象物を隠す表示をしたが、手前の対象物によって背後の対象物が完全に隠れてしまう場合には、例えば、手前の対象物の表示範囲内に背後の対象物の存在を示す情報を表示してもよい。このような表示について図13を参照して説明する。
図13は、手前の対象物の表示範囲内に背後の対象物の全体が隠れてしまう場合に、生成部306が生成した要約映像のフレームの一例を示している。この要約映像のフレームでは、手前の対象物(車1301)によって背後の対象物(男性)が完全に隠れている。そして、背後の対象物の存在を示す補助情報(点線矩形1302)を、手前の対象物の表示範囲内に表示している。
【0057】
図13の要約映像を生成する場合、種別「Car」のみが優先表示される設定であり、その他の種別(Man)は優先表示されない設定であるとする。この状態で車1301の背後に完全に隠れてしまう人物(男性)がいる場合、点線矩形1302のように男性の外接矩形を表示することで、車の背後に男性が存在していることが表示できる。さらに、点線矩形1302内に種別を文字1303(Man)で表示することで、対象物の詳細な情報を表示することも可能となる。つまり、図13のように、2つの重なる対象物の領域(表示範囲)の包含関係に基づき表示(背後の対象物の表示)を変えてもよい。なお、図13では車1301の後方の男性を点線矩形1302で表示したが、人物のシルエット(頭、胴体、2本足)で表示してもよい。
【0058】
以上述べたように、本実施形態によれば、要約映像を生成する際に対象物の奥行き位置を取得し対象物間で重畳部分の透明度を変更して手前の対象物を優先表示することで、要約映像中の対象物を自然な見え方にして視認しやすくすることができる。
【0059】
映像要約を行う場合、有限の計算リソースの制約による所要計算時間等の観点から、使用するアルゴリズムによっては、要約映像において、図5(b)のように1つの対象物502が他の対象物501と重なる可能性がある。図5(b)のように、対象物502の画像が対象物501の画像と重なる部分を半透明にして重ね合わせて表示すると、個々の対象物501、502を識別しづらい重畳部分が発生することがある。また、図5(b)のように、対象物501、502を時間方向にシフトして表示する際に、対象物501、502の奥行き位置を考慮せず対象物間の重畳部分を半透明にして重ね合わせて表示すると、手前に位置する対象物502が半透明になり不自然に見える。本実施形態では、表示優先度に基づいて、図5(c)のような表示をするので、手前に位置する対象物502が半透明にならず、不自然に見えることはない。
【0060】
変形例1
上記した実施形態では、対象物の位置関係に基づいて、手前の対象物を優先表示するとしたが、これは本発明の実施形態の一例に過ぎない。例えば、対象物の位置関係にかかわらず、優先表示する対象物をGUI900から設定してもよい。操作端末105または映像要約装置104の操作者が優先表示対象物をGUI900から設定する場合を、図9および図14を用いて変形例1として以下に説明する。
【0061】
変形例1では、図9のGUI900で、操作者がラジオボタン903を押下(選択)したとする。操作者がさらにGUI900の設定ボタン905を押下すると、図14に示すGUI1000がディスプレイ105a(104a)に表示される。操作者はGUI1000を使用することにより、優先表示する対象物を個別に選択(設定)できる。
GUI1000は、優先表示を行う対象となる対象物の種別を選択するためのチェックボックスを備える。GUI1000で選択可能な種別は、対象物情報テーブル600の種別604を付与する際のオブジェクト認識で判別可能な種別と同等である。変形例1では、オブジェクト認識で判別可能な種別としてPeople、Man、Woman、Child、2-Wheeled Vehicles、Other Vehicles、Car、Truck、Bus、Train等があるとする。
【0062】
変形例1のGUI1000では、初期状態では種別「People」、「Man」、「Woman」、「Child」(チェックボックス1001~1004)が選択されているとする。そして、操作者が、この初期状態からCar(車)を優先表示する設定へと変更したとする。具体的には、操作者が、GUI1000で、初期状態で選択されている種別のチェックボックスのチェックをすべて外し、新たにチェックボックス1005を選択することにより、種別「Car」のみを優先表示する設定としたとする。
【0063】
GUI1000で、操作者が表示優先度設定を行った後、適用ボタン1006をクリックすると、GUI1000は閉じられ、ディスプレイ105a(104a)はGUI900を表示する。GUI1000で選択した種別に対しては、表示優先度として透明度を0%に設定する。GUI1000で選択されなかった種別に対しては、表示優先度として透明度を100%に設定する。
そして、操作者がGUI900の開始ボタン904をクリックすると、種別「Car」を優先表示する要約映像の生成処理が開始される。
【0064】
変形例1では、種別「Car」が優先表示される対象物となるので、要約映像において対象物同士(例えば、車と人物)が重なる重畳部分が存在する場合には、対象物の位置関係にかかわらず、車(Car)が不透明で表示される。車の不透明表示は、車と人物の位置関係にかかわらず行われるので、車が人物の後方に存在しても、車の全体が表示され、車と人物の重畳部分において人物は表示されない。このように、変形例1では、優先表示設定されていない「他の対象物」の表示については、車との重畳部分においては、車が前面にきて、「他の対象物」は表示されない。
【0065】
なお、車同士が重なる場合は、両方の車の重畳部分を半透明で表示する。つまり、表示優先度の高い対象物とそうでない対象物が重なる場合は、表示優先度の高い対象物の表示は不透明で行うが、表示優先度の高い対象物同士が重なる場合は、対象物同士の重畳部分については半透明で表示する。あるいは、表示優先度の高い対象物同士の重畳部分は、より手前に位置する対象物の表示を優先(不透明で表示)するようにしてもよい。
【0066】
図15は、変形例1において、取得部303が取得した動作軌跡を用い、対象物表示制御部305で設定されている表示制御設定情報に基づき各対象物の表示を制御し、生成部306が出力した要約映像のフレーム1500の一例を表す。フレーム1500は、表示優先度設定として、図14のGUI1000で種別「Car」を選択して生成した要約映像のフレームである。
図15は、図5(b)や図5(c)と同様に、図4(b)の動作軌跡の配置400’に基づき構成された要約映像であり、図15のフレーム1500は、図4(b)の一点鎖線で示される時刻405’のフレームを表す。
【0067】
車1501(501)は動作軌跡401’に対応し、人物1502(502)は動作軌跡402’に対応し、人物504は動作軌跡404’に対応する。
変形例1では、対象物表示制御部305で、車1501と人物1502の重畳部分において車1501を優先表示する表示制御処理が行われている。そのため、人物1502と車1501が重なる重畳部分では、車1501が優先表示されて不透明で表示され、人物1502の重畳部分は車1501によって隠されたように表示される。
【0068】
変形例2
変形例1では、優先表示選択可能な種別を、GUI1000で示したように、フレームに映る対象物の画像からオブジェクト認識により推定できる種別としたが、本発明はこのような形態に限定されない。オブジェクト認識により推定できる種別以外の種別を利用する例を変形例2として説明する。
【0069】
例えば、変形例2では、映像要約装置104の取得部303は、対象物の色を抽出する認識処理を行い、当該認識処理の結果を対象物情報テーブル600に記録する。そしてGUI1000で色を選択できるチェックボックス(Black、White,Blueなど)を表示し、操作者に選択させることにより、特定の色の対象物のみを優先表示することが可能になる。例えば、操作者がGUI1000で「Car」と「Black」のチェックボックスを選択すると、黒い車を優先表示する設定になり、当該設定に基づいて映像要約装置104の生成部303が要約映像を生成する。すると、対象物同士が重なる場合、要約映像では黒い車(Car+Black)が優先表示されて、白い車や人などの優先表示設定されていない対象物の前面に黒い車が不透明表示される。よって、優先表示対象物(黒い車)は他の対象物に隠されることがなくなり視認しやすくなる。
【0070】
あるいは、映像要約装置104の取得部303は、フレームに映る対象物の画像に対して、表情推定や姿勢認識などの物体認識や、対象物の置かれている状況の判別を行うシーン認識、といった他の認識処理を行ってもよい。この場合、GUI1000に優先表示する対象物や対象物の状態(表情、姿勢、置かれている状況)を選択できるチェックボックスを設けることで任意の表示優先度の設定をすることが可能となる。
【0071】
以上述べたように、要約映像を生成する際に、注目する対象物を優先表示対象物として任意に設定できるようにすることで、要約映像中において注目する対象物が注目しない対象物によって隠されることがなくなり視認しやすくすることができる。
【0072】
(その他の実施形態)
以上、本発明の実施形態および変形例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施形態をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インターフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用してもよいし、一つの機器からなる装置に適用してもよい。
【0073】
また、本発明の目的は、以下のようにすることによっても達成される。即ち、本発明は、上述の実施形態または変形例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体(または記録媒体)を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0074】
なお、本実施形態の開示は、以下の構成、方法およびプログラムを含む。
構成1
映像を要約して要約映像を生成する情報処理装置であって、
前記映像から抽出された対象物の画像および動作軌跡を取得する取得手段と、
前記取得した対象物の動作軌跡の時間的な相対配置を決定する決定手段と、
前記対象物に対して表示優先度を設定する設定手段と、
前記設定手段により設定された表示優先度に基づいて、前記要約映像において前記対象物の画像が他の対象物と重なる部分の表示を制御する制御手段と、
前記決定手段により決定された相対配置と、前記制御手段により制御された前記重なる部分の表示とを用いて、前記要約映像を生成する生成手段と、
を備えることを特徴とする情報処理装置。
【0075】
構成2
前記制御手段は、前記表示優先度に基づいて、前記他の対象物と重なる部分の透明度を制御することを特徴とする構成1に記載の情報処理装置。
構成3
前記設定手段は、前記要約映像における前記対象物の奥行き位置に基づき前記表示優先度を設定することを特徴とする構成2に記載の情報処理装置。
構成4
前記要約映像における前記対象物の奥行き位置が前記他の対象物より手前である場合、前記設定手段は、前記他の対象物より高い表示優先度を前記対象物に設定することを特徴とする構成3に記載の情報処理装置。
構成5
前記要約映像における前記対象物の奥行き位置が前記他の対象物より手前である場合、前記制御手段は、前記対象物が前記他の対象物と重なる部分の透明度を0に設定することを特徴とする構成4に記載の情報処理装置。
構成6
前記対象物の表示優先度と前記他の対象物の表示優先度が同じである場合、前記制御手段は、前記対象物が前記他の対象物と重なる部分を半透明で表示することを特徴とする構成2に記載の情報処理装置。
【0076】
構成7
前記設定手段は、前記要約映像における前記対象物の奥行き位置にかかわらず、外部から入力された情報に基づき前記表示優先度を設定することを特徴とする構成1または2に記載の情報処理装置。
構成8
前記制御手段は、前記要約映像における前記対象物の表示範囲と前記他の対象物の表示範囲との包含関係に基づき前記表示を制御することを特徴とする構成1から7のいずれかに記載の情報処理装置。
構成9
前記制御手段は、前記対象物の表示範囲が前記他の対象物の表示範囲の包含する場合、前記他の対象物の存在を示す情報を前記他の対象物の表示範囲内に示すことを特徴とする構成8に記載の情報処理装置。
【0077】
方法1
映像を要約して要約映像を生成する情報処理方法であって、
前記映像から抽出された対象物の画像および動作軌跡を取得するステップと、
前記取得した対象物の動作軌跡の時間的な相対配置を決定するステップと、
前記対象物に対して表示優先度を設定するステップと、
前記設定するステップにより設定された表示優先度に基づいて、前記要約映像において前記対象物の画像が他の対象物と重なる部分の表示を制御するステップと、
前記決定するステップにより決定された相対配置と、前記制御するステップにより制御された前記重なる部分の表示とを用いて、前記要約映像を生成するステップと、
を有することを特徴とする情報処理方法。
プログラム1
コンピュータを構成1から9のいずれかに記載の情報処理装置の各手段として機能させるためのプログラム。
【符号の説明】
【0078】
104…映像要約装置(情報処理装置)、301…制御部、303…取得部、304…配置決定部、305…対象物表示制御部、306…生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15