(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-12
(45)【発行日】2022-10-20
(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム
(51)【国際特許分類】
G06T 7/246 20170101AFI20221013BHJP
【FI】
G06T7/246
(21)【出願番号】P 2020152219
(22)【出願日】2020-09-10
(62)【分割の表示】P 2019208593の分割
【原出願日】2019-11-19
【審査請求日】2020-10-29
【審判番号】
【審判請求日】2022-03-11
【早期審査対象出願】
(73)【特許権者】
【識別番号】517297980
【氏名又は名称】株式会社ARISE analytics
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(72)【発明者】
【氏名】田中 匠
(72)【発明者】
【氏名】持丸 裕矢
(72)【発明者】
【氏名】秋元 裕介
(72)【発明者】
【氏名】佐久間 竜也
(72)【発明者】
【氏名】堀越 真映
【合議体】
【審判長】五十嵐 努
【審判官】木方 庸輔
【審判官】川崎 優
(56)【参考文献】
【文献】特開2007-317062(JP,A)
【文献】特開2009-140009(JP,A)
【文献】特開2013-137604(JP,A)
【文献】国際公開第2019/038821(WO,A1)
【文献】国際公開第2017/002240(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
複数の画像のそれぞれから、検出対象を含む領域である対象領域を抽出する領域抽出部と、
前記対象領域を検索対象が映る第1領域とそれ以外の領域である第2領域とに分割する領域分割部と、
前記第2領域に相当する画素に対して
0より大きく1未満の係数を乗じた後に前記対象領域にフィルタ処理を実行して、前記検出対象同士の異同を判定するための特徴量を前記対象領域から抽出する特徴量抽出部と、
前記特徴量に基づいて、前記複数の画像を、同一の検出対象を含む1又は複数の画像群に分類するフレーム分類部と、
を備える画像処理装置。
【請求項2】
前記複数の画像は動画を構成する複数のフレーム画像であり、
前記1又は複数の画像群に含まれる前記特徴量に基づいて、前記1又は複数の画像群のうち、同一の検出対象を含む画像群を対応づけたデータであるトラックデータを生成するトラック生成部をさらに備える、
請求項1に記載の画像処理装置。
【請求項3】
前記トラック生成部が生成した前記動画に由来する前記トラックデータである第1トラックデータと、前記検出対象が含まれるか否かの判定の対象となる第2動画に由来する前記トラックデータである第2トラックデータとを取得するトラックデータ取得部と、
前記第1トラックデータを構成する各画像から抽出された前記特徴量である第1特徴量群と、前記第2トラックデータを構成する各画像から抽出された前記特徴量である第2特徴量群とに基づいて、同一の検出対象が含まれる前記第1トラックデータと前記第2トラックデータとの組を出力するトラックデータ出力部と、
をさらに備える請求項2に記載の画像処理装置。
【請求項4】
前記第1トラックデータと前記第2トラックデータとのそれぞれに含まれる前記検出対象の移動方向を示す第1移動方向と第2移動方向とを取得する移動方向取得部と、
前記第1移動方向と前記第2移動方向とがあらかじめ定めた所定の範囲に含まれることを条件として、前記第2トラックデータに含まれる検出対象が、前記第1トラックデータに含まれる検出対象と同一の検出対象か否かを判定する判定部と、をさらに備える、
請求項3に記載の画像処理装置。
【請求項5】
前記判定部は、
前記第1トラックデータに含まれる複数の画像のうちのいずれかの画像と、前記第2トラックデータに含まれる複数の画像のうちのいずれかの画像と、の組み合わせによって構成される複数の画像組を生成する組生成部と、
前記画像組を構成する画像から抽出された前記特徴量に基づいて、各画像組を構成する画像間の類似度を取得する類似度取得部と、
画像組毎の前記類似度に基づいて、前記第2トラックデータに含まれる検出対象が、前記第1トラックデータに含まれる検出対象と同一の検出対象か否かを決定する類比決定部と、
を備える請求項4に記載の画像処理装置。
【請求項6】
前記動画と前記第2動画とのそれぞれの撮像日時を取得する撮像日取得部をさらに備え、
前記特徴量抽出部は、前記動画の撮像日時と前記第2動画の撮像日時とが所定の時間範囲に含まれる場合と異なる場合とで、前記特徴量を抽出する領域を変更する、
請求項3から5のいずれか1項に記載の画像処理装置。
【請求項7】
プロセッサが、
複数の画像のそれぞれから、検出対象を含む領域である対象領域を抽出するステップと、
前記対象領域を検索対象が映る第1領域とそれ以外の領域である第2領域とに分割するステップと、
前記第2領域に相当する画素に対して
0より大きく1未満の係数を乗じた後に前記対象領域にフィルタ処理を実行して、前記検出対象同士の異同を判定するための特徴量を前記対象領域から抽出するステップと、
前記特徴量に基づいて、前記複数の画像を、同一の検出対象を含む1又は複数の画像群に分類するステップと、
を実行する画像処理方法。
【請求項8】
コンピュータに、
複数の画像のそれぞれから、検出対象を含む領域である対象領域を抽出する機能と、
前記対象領域を検索対象が映る第1領域とそれ以外の領域である第2領域とに分割する機能と、
前記第2領域に相当する画素に対し
0より大きく1未満の係数を乗じた後に前記対象領域にフィルタ処理を実行して、前記検出対象同士の異同を判定するための特徴量を前記対象領域から抽出する機能と、
前記特徴量に基づいて、前記複数の画像を、同一の検出対象を含む1又は複数の画像群に分類する機能と、
を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
【背景技術】
【0002】
従来、防犯や店舗における客の動線解析、介護施設における見守り用途で、施設内部に設置されたカメラが撮像した映像を解析し、人物の移動経路を特定する技術が提案されている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の技術は、単一のカメラが撮影した同一の動画像に基づいて人物を追跡することを前提とした技術である。同一動画内で人物を追跡する場合であっても、同一人物が離れた時間帯に撮像されている状況などには、異なる人物として追跡される場合があった。このため、動画における対象の追跡技術の精度を向上することが求められている。
【0005】
本発明はこれらの点に鑑みてなされたものであり、動画における対象の追跡技術の精度を向上させる技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様は、画像処理装置である。この装置は、動画を構成する複数のフレーム画像のそれぞれから、検出対象を含む領域である対象領域を抽出する領域抽出部と、抽出された対象領域それぞれについて、各対象領域に含まれる検出対象同士の異同を判定するための特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記動画を構成する複数のフレーム画像を、同一の検出対象を連続して含む1又は複数のフレーム群に分類するフレーム分類部と、前記1又は複数のフレーム群に含まれる前記特徴量に基づいて、前記1又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータを生成するトラック生成部と、を備える。
【0007】
前記画像処理装置は、前記トラック生成部が生成した前記動画に由来する前記トラックデータである第1トラックデータと、前記動画とは異なる動画であって、前記検出対象が含まれるか否かの判定の対象となる第2動画に由来する前記トラックデータである第2トラックデータとを取得するトラックデータ取得部と、前記第1トラックデータを構成する各フレーム画像から抽出された前記特徴量である第1特徴量群と、前記第2トラックデータを構成する各フレーム画像から抽出された前記特徴量である第2特徴量群とに基づいて、前記第2トラックデータに含まれる検出対象が、前記第1トラックデータに含まれる検出対象と同一の検出対象か否かを判定する判定部と、同一の検出対象が含まれると判定された前記第1トラックデータと前記第2トラックデータとの組を出力するトラックデータ出力部と、をさらに備えてもよい。
【0008】
前記判定部は、前記第1トラックデータに含まれる複数のフレーム画像のうちのいずれかのフレーム画像と、前記第2トラックデータに含まれる複数のフレーム画像のうちのいずれかのフレーム画像と、の組み合わせによって構成される複数の画像組を生成する組生成部と、前記画像組を構成するフレーム画像から抽出された前記特徴量に基づいて、各画像組を構成するフレーム画像間の類似度を取得する類似度取得部と、画像組毎の前記類似度に基づいて、前記第2トラックデータに含まれる検出対象が、前記第1トラックデータに含まれる検出対象と同一の検出対象か否かを決定する類比決定部と、を備えてもよい。
【0009】
前記画像処理装置は、前記検出対象の指定を指定対象として受け付ける受付部をさらに備えてもよく、前記判定部は、前記第2トラックデータのうち前記指定対象が含まれるトラックデータを判定してもよく、前記トラックデータ出力部は、前記指定対象を含む前記第1トラックデータと、前記指定対象を含む前記第2トラックデータとの組を出力してもよい。
【0010】
前記画像処理装置は、前記動画と前記第2動画とのそれぞれを撮像した撮像機器を示す情報である第1機器情報と第2機器情報とを取得する機器情報取得部をさらに備えてもよく、前記トラックデータ取得部は、前記第1機器情報と前記第2機器情報とが一致することを条件として、前記第2トラックデータを取得してもよい。
【0011】
前記画像処理装置は、前記第1トラックデータと前記第2トラックデータとのそれぞれに含まれる前記検出対象の移動方向を示す第1移動方向と第2移動方向とを取得する移動方向取得部をさらに備えてもよく、前記判定部は、第1移動方向と第2移動方向とがあらかじめ定めた所定の範囲に含まれることを条件として、前記第2トラックデータに含まれる検出対象が、前記第1トラックデータに含まれる検出対象と同一の検出対象か否かを判定してもよい。
【0012】
前記画像処理装置は、前記動画と前記第2動画とのそれぞれの撮像日を取得する撮像日取得部をさらに備えてもよく、前記特徴量抽出部は、前記動画の撮像日と前記第2動画の撮像日とが同一の場合と異なる場合とで、前記特徴量の抽出手法を変更してもよい。
【0013】
本発明の第2の態様は、画像処理方法である。この方法において、プロセッサが、動画を構成する複数のフレーム画像のそれぞれから、検出対象を含む領域である対象領域を抽出するステップと、抽出された対象領域それぞれについて、各対象領域に含まれる検出対象同士の異同を判定するための特徴量を抽出するステップと、前記特徴量に基づいて、前記動画を構成する複数のフレーム画像を、同一の検出対象を連続して含む1又は複数のフレーム群に分類するステップと、前記1又は複数のフレーム群に含まれる前記特徴量に基づいて、前記1又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータを生成するステップと、を実行する。
【0014】
本発明における第3の態様は、プログラムである。このプログラムは、コンピュータに、動画を構成する複数のフレーム画像のそれぞれから、検出対象を含む領域である対象領域を抽出する機能と、抽出された対象領域それぞれについて、各対象領域に含まれる検出対象同士の異同を判定するための特徴量を抽出する機能と、前記特徴量に基づいて、前記動画を構成する複数のフレーム画像を、同一の検出対象を連続して含む1又は複数のフレーム群に分類する機能と、前記1又は複数のフレーム群に含まれる前記特徴量に基づいて、前記1又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータを生成する機能と、を実現させる。
【0015】
このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。
【0016】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0017】
本発明によれば、動画における対象の追跡技術の精度を向上させることができる。
【図面の簡単な説明】
【0018】
【
図1】実施の形態に係る画像処理装置が実行する画像処理の概要を説明するための図である。
【
図2】実施の形態に係る画像処理装置の機能構成を模式的に示す図である。
【
図3】実施の形態に係るトラックデータ作成部及び判定部の内部構成を模式的に示す図である。
【
図4】実施の形態に係る検出対象領域、第1領域、及び第2領域の一例を示す模式図である。
【
図5】実施の形態に係る類似度取得部が各画像組から取得した類似度の一覧を表形式で示す模式図である。
【
図6】実施の形態に係る検索対象指定部の内部構成を模式的に示す図である。
【
図7】実施の形態に係る領域抽出部が抽出する特定領域の一例を模式的に示す図である。
【
図8】実施の形態に係る画像処理装置が実行する画像処理の流れを説明するためのフローチャートである。
【
図9】実施の形態に係るトラックデータ作成部が実行するトラックデータの生成処理を説明するためのフローチャートである。
【
図10】実施の形態に係る判定部が実行する類比判定処理を説明するためのフローチャートである。
【発明を実施するための形態】
【0019】
<実施の形態の概要>
図1(a)-(c)は、実施の形態に係る画像処理装置が実行する画像処理の概要を説明するための図である。実施の形態に係る画像処理装置は、2つの異なる動画それぞれに含まれる同一の被写体を検出対象として、その被写体が含まれるフレーム画像を紐づける。実施の形態に係る画像処理装置が扱う検出対象は、人物、車両、飛行体、商品等、種々の物を設定できる。以下では、
図1を参照して、検出対象が人物であることを前提として実施の形態の概要を述べる。
【0020】
図1(a)は、実施の形態に係る画像処理装置が処理対象とする動画Mと、その動画Mから抽出するフレーム画像Fの集合とを模式的に示す図である。一般に、動画Mは複数のフレーム画像Fから構成されている。
図1(a)に示す動画Mのフレーム画像Fには、男性の被写体S1と、女性の被写体S2とが含まれている。
【0021】
実施の形態に係る画像処理装置は、まず単一の動画Mを構成するフレーム画像Fから、男性の被写体S1を連続して含むトラックデータTを生成する。
図1(a)は、画像処理装置が、男性の被写体S1を連続して含む3つのフレーム画像Fの集合を第1トラックデータT1として生成した場合の例を示している。続いて、実施の形態に係る画像処理装置は、女性の被写体S2を連続して含むトラックデータTを生成する。
図1(a)は、画像処理装置が、女性の被写体S2を連続して含む2つのフレーム画像Fの集合を第2トラックデータT2として生成した場合の例を示している。
【0022】
なお、
図1(a)において、第1トラックデータT1は3つのフレーム画像群が含まれる。一つ一つのフレーム群は、男性の被写体S1を時間的に連続して含んでいる。
図1(a)は、同一の動画Mにおいて、異なる3つの時間帯において男性の被写体S1を連続して含む時間帯が存在したため、実施の形態に係る画像処理装置は3つのフレーム画像群を生成して第1トラックデータT1として生成したことを示している。女性の被写体S2についても同様である。
【0023】
詳細は後述するが、実施の形態に係る画像処理装置は、動画Mを構成する各フレーム画像Fから検出対象を含む矩形領域を抽出し、その後、矩形領域を、被写体Sを含む領域とそれ以外の背景領域とに分割する。その後、実施の形態に係る画像処理装置1は、各フレーム画像Fにおける被写体Sを含む領域から抽出した特徴量に基づいて、異なるフレーム画像F間に含まれる被写体Sの類似度を算出する。実施の形態に係る画像処理装置は、算出した類似度に基づいてフレームの集合を生成する。これにより、実施の形態に係る画像処理装置は、各フレーム画像Fに含まれる背景領域の影響を低減し、フレーム間に含まれる被写体同士の類比判定の精度を向上することができる。結果として、撮影画像同士の比較の精度を向上させることができる。
【0024】
図1(b)は、実施の形態に係る画像処理装置が生成するトラックデータTの組Pを模式的に示す図である。
図1(b)において、第3トラックデータT3は、実施の形態に係る画像処理装置が、
図1(a)に示す動画Mとは異なる他の動画M(不図示)から男性の被写体S1を含むトラックデータTを生成した結果を示している。同様に、第4トラックデータT4は、実施の形態に係る画像処理装置が、
図1(a)に示す動画Mとは異なる他の動画Mから女性の被写体S2を含むトラックデータTを生成した結果を示している。
【0025】
実施の形態に係る画像処理装置は、異なる動画Mからそれぞれ独立に生成された同一の被写体Sを含むトラックデータTを対応づけて、トラックデータTの組Pとして生成する。
図1(b)に示す例では、実施の形態に係る画像処理装置は、男性の被写体S1を含むトラックデータTの組Pを第1組P1として生成し、女性の被写体S2を含むトラックデータTの組Pを第2組P2として生成している。
【0026】
実施の形態に係る画像処理装置は、ユーザから検出対象の指定を受け付け、その検出対象を被写体に含むトラックデータTの組Pを出力する。
図1(c)は、実施の形態に係る画像処理装置が出力するトラックデータTの組Pを示す図である。
図1(c)に示す例では、実施の形態に係る画像処理装置が、検出対象として男性の被写体S1を指定された場合の出力例を示している。
【0027】
このように、実施の形態に係る画像処理装置は、まず単一の動画Mを構成する複数のフレーム画像Fの中から、同一の検出対象が時間的に連続して存在するフレーム群を抽出し、抽出したフレーム群をまとめてトラックデータTを生成する。続いて、実施の形態に係る画像処理装置は、異なる動画Mからそれぞれ独立に生成したトラックデータTのうち、同一の検出対象を含んでいるトラックデータTを対応づけてトラックデータTの組Pを生成する。これより、実施の形態に係る画像処理装置は、複数の動画Mをまたいでの検出対象とする被写体Sの追跡を実現することができる。
【0028】
<実施の形態に係る画像処理装置1の機能構成>
図2は、実施の形態に係る画像処理装置1の機能構成を模式的に示す図である。画像処理装置1は、記憶部2と制御部3とを備える。
図2において、矢印は主なデータの流れを示しており、
図2に示していないデータの流れがあってもよい。
図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、
図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
【0029】
記憶部2は、画像処理装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や画像処理装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
【0030】
制御部3は、画像処理装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部2に記憶されたプログラムを実行することによって、画像取得部30、トラックデータ作成部31、トラックデータ取得部32、判定部33、トラックデータ出力部34、及び検索対象指定部35として機能する。
【0031】
なお、
図2は、画像処理装置1が単一の装置で構成されている場合の例を示している。しかしながら、画像処理装置1は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部3を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
【0032】
画像取得部30は、処理対象となる動画Mを取得する。トラックデータ作成部31は、画像取得部30が取得した動画からトラックデータTを作成する。トラックデータ取得部32は、トラックデータ作成部31が異なる2つの動画Mからそれぞれ独立に生成した2つの異なるトラックデータTを取得する。判定部33は、トラックデータ取得部32が取得した2つの異なるトラックデータTに含まれる検出対象が同一か否かを判定する。トラックデータ出力部34は、トラックデータ出力部34によって2つの異なるトラックデータTに含まれる検出対象が同一であると判定された場合、2つのトラックデータTを組Pにして出力する。これにより、画像処理装置1は、動画Mに含まれる同一の検出対象をまとめたトラックデータを生成することができる。なお、検索対象指定部35が画像処理装置1のユーザから検索対象の指定を受け付けている場合には、トラックデータ出力部34は、指定を受けた検索対象を含むトラックデータTの組Pを出力する。
【0033】
トラックデータ作成部31と判定部33とは一部の機能を共有している。
図2においては、トラックデータ作成部31と判定部33との共有部分を、斜線を付した矩形によって示している。以下、実施の形態に係るトラックデータ作成部31と判定部33とについてより詳細に説明する。
【0034】
図3は、実施の形態に係るトラックデータ作成部31及び判定部33の内部構成を模式的に示す図である。トラックデータ作成部31は、領域抽出部40、領域分割部41、特徴量抽出部42、フレーム分類部310、及びトラック生成部311を備える。また、判定部33は、領域抽出部40、領域分割部41、特徴量抽出部42、組生成部330、類似度取得部331、及び類比決定部332を備える。
図3に示すように、トラックデータ取得部32と判定部33は、領域抽出部40、領域分割部41、及び特徴量抽出部42を共有している。
【0035】
領域抽出部40は、動画Mを構成する複数のフレーム画像Fのそれぞれから、検出対象を含む領域である対象領域を抽出する。領域抽出部40は、例えばDNN(Deep Neural Network)等の既知の機械学習手法を用いて作成された領域抽出エンジンを用いて対象領域の抽出を実現できる。限定はしないが、領域抽出部40は、検出対象を含む矩形領域を検出対象領域として抽出する。
【0036】
領域分割部41は、対象領域を検索対象の物体が映る第1領域とそれ以外の背景領域である第2領域とに分割する。
図4(a)-(b)は、実施の形態に係る検出対象領域、第1領域、及び第2領域の一例を示す模式図である。具体的に、
図4(a)は、画像取得部30が取得した動画Mを構成するフレーム画像Fの一例を示す図である。また、
図4(b)は、
図4(a)に示すフレーム画像Fから抽出された対象領域R、第1領域R1、及び第2領域R2を示す図である。
【0037】
図4(a)に示すフレーム画像Fには、男性の被写体Sが含まれている。また、被写体Sの背景には、縞模様の床等が撮像されている。
図4(b)に示すように、領域抽出部40は、フレーム画像Fから、男性の被写体Sに外接する矩形を対象領域Rとして抽出する。また、領域分割部41は、対象領域Rのうち、男性の被写体Sを含む第1領域R1とそれ以外の背景領域である第2領域R2に分割する。
図4(b)において、第2領域R2は、格子状のメッシュが付された領域である。
【0038】
図3の説明に戻る。特徴量抽出部42は、画像取得部30が複数のフレーム画像Fから抽出した対象領域Rそれぞれについて、各対象領域Rに含まれる検出対象同士の異同を判定するための特徴量を抽出する。より具体的には、特徴量抽出部42は、領域分割部41が分割した第1領域R1から特徴量を抽出する。ここで、特徴量抽出部42が対象領域Rから抽出する特徴量の一例としては、対象領域Rに対して複数のフィルタリング処理をして得られた複数の数値群である。
【0039】
一例として、特徴量抽出部42は、既知の機械学習手法であるCNN(Convolutional Neural Network)を用いて作成された学習モデルを利用して各領域に含まれる検出対象の特徴量を出力する。例えば、学習モデルは、対象画像を入力として生成される特徴量と、別の対象画像を入力として生成される特徴量について、入力画像が同一の対象の場合には特徴量同士の距離が近く、入力画像が別の対象の場合は特徴量同士の距離が遠くなるようあらかじめ学習し生成されている(距離学習)。この場合、特徴量抽出部42が特徴量を抽出するために用いるフィルタは、CNNの学習モデルに含まれるコンボリューションフィルタということができる。このような学習モデルは、記憶部2にあらかじめ記憶されている。
【0040】
フレーム分類部310は、特徴量抽出部42が抽出した特徴量に基づいて、動画Mを構成する複数のフレーム画像Fを、同一の検出対象を連続して含む1又は複数のフレーム群に分類する。一例として、フレーム分類部310は、特徴量抽出部42が抽出した特徴量に対してコサイン類似度などの指標が一定の閾値以上かどうかをもって分類を実現することができる。
【0041】
トラック生成部311は、1又は複数のフレーム群に含まれる特徴量に基づいて、1又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータTを生成する。トラック生成部311も、フレーム分類部310と同様に、コサイン類似度などの指標を用いて各フレーム群に含まれる検出対象の類比を判定することにより、フレーム群の対応づけを実現できる。
【0042】
ここで、トラックデータ取得部32は、第1動画に由来するトラックデータTである第1トラックデータT1と、第1動画とは異なる動画である第2動画に由来するトラックデータTである第2トラックデータT2とを取得したとする。ここで、第2動画は、第1トラックデータT1の検出対象が含まれるか否かの判定の対象となる動画Mである。この場合、判定部33は、第1トラックデータT1を構成する各フレーム画像Fから抽出された特徴量である第1特徴量群と、第2トラックデータT2を構成する各フレーム画像Fから抽出された特徴量である第2特徴量群とに基づいて、第2トラックデータT2に含まれる検出対象が、第1トラックデータに含まれる検出対象と同一の検出対象か否かを判定する。
【0043】
具体的には、まず、判定部33が備える組生成部330は、第1トラックデータに含まれる複数のフレーム画像Fのうちのいずれかのフレーム画像Fと、第2トラックデータに含まれる複数のフレーム画像Fのうちのいずれかのフレーム画像Fと、の組み合わせによって構成される複数の画像組を生成する。限定はしないが、一例として、組生成部330は、第1トラックデータT1に含まれる全てのフレーム画像Fと、第2トラックデータT2に含まれる全てのフレーム画像Fとの全ての組み合わせについて画像組を生成する。
【0044】
組生成部330が生成する各画像組について、第1トラックデータT1に由来するフレーム画像Fを第1画像とし、第2トラックデータT2に由来するフレーム画像Fを第2画像とする。領域抽出部40は、第1画像から検索対象を含む領域である検索元領域を抽出するとともに、第2画像から検索候補を含む領域である検索先領域を抽出する。検索元領域は第1画像における上述した対象領域Rに相当し、検索先領域は第2画像における対象領域Rに相当する。
【0045】
領域分割部41は、検索元領域を検索対象が映る第1領域とそれ以外の領域である第2領域とに分割するとともに、検索先領域を検索候補が映る第3領域とそれ以外の領域である第4領域とに分割する。特徴量抽出部42は、第1領域から第1特徴量を抽出するとともに、第3領域から第3特徴量を抽出する。
【0046】
より具体的には、特徴量抽出部42は、検索元領域から第1領域に相当する特徴量を抽出するために、第2領域に相当する画素に対して所定の係数を乗じたデータを用いて第3特徴量を算出する。
【0047】
上述したように、対象領域Rは、第1領域R1と第2領域R2とが混在する。そこで、特徴量抽出部42は、第2領域R2を構成するデータに0以上1未満の実数を所定の係数として乗じた後にフィルタ処理を実行する。これにより、特徴量抽出部42は、背景領域である第2領域R2の影響を低減することができる。第4領域R4についても同様である。
【0048】
図3の説明に戻る。類似度取得部331は、画像組を構成するフレーム画像Fから抽出された特徴量に基づいて、各画像組を構成するフレーム画像F間の類似度を取得する。具体的には、類似度取得部331は、記憶部2から読み出した学習モデルに第1特徴量と第3特徴量とを入力することによって、各画像組を構成するフレーム画像F間の類似度を取得する。
【0049】
図5は、実施の形態に係る類似度取得部331が各画像組から取得した類似度の一覧を表形式で示す模式図である。
図5は、第1トラックデータに含まれるフレーム画像Fの数がN(Nは自然数)であり、第2トラックデータに含まれるフレーム画像Fの数がM(Mは自然数)である場合の例を示している。
図5において、第1トラックデータに含まれるi番目のフレーム画像Fと、第2トラックデータに含まれるj番目のフレーム画像Fとの類似度でSijである。例えば、第1トラックデータに含まれる1番目のフレーム画像Fと、第2トラックデータに含まれる1番目のフレーム画像Fとの類似度でS11であり、第1トラックデータに含まれる2番目のフレーム画像Fと、第2トラックデータに含まれる3番目のフレーム画像Fとの類似度でS23である。以下同様である。
【0050】
類比決定部332は、類似度取得部331が取得した類似度に基づいて、検索対象と検索候補とが同一か否かを決定する。具体的には、類比決定部332は、
図6に示す各画像組における類似度から算出される統計量(例えば、各類似度の平均値、最頻値、中央値、最大値等)に基づいて、検索対象と検索候補とが同一か否かを決定する。類似度取得部331が取得する類似度が大きいほど類似していることを示す場合には、類比決定部332は、各画像組における類似度から算出される統計量が所定の閾値よりも大きい場合、検索対象と検索候補とが同一と判定する。
【0051】
図2の説明に戻り、トラックデータ出力部34は、同一の検出対象が含まれると類比決定部332によって判定された第1トラックデータと第2トラックデータとの組Pを出力する。このように、実施の形態に係る画像処理装置1は、複数の動画Mそれぞれについて、まず同一の動画M内で同一の被写体Sを含むフレーム群のセットであるトラックデータTを生成する。続いて、画像処理装置1は、異なる動画Mそれぞれについて生成されたトラックデータTの検出対象の類比を判定することにより、異なる動画Mをまたいで同一の検出対象の検出を実現することができる。結果として、画像処理装置1は、動画における対象の追跡技術の精度を向上させることができる。
【0052】
図6は、実施の形態に係る検索対象指定部35の内部構成を模式的に示す図である。実施の形態の形態に係る検索対象指定部35は、受付部350、機器情報取得部351、移動方向取得部352、及び撮像日取得部353を備える。以下、
図6を参照して、実施の形態に係る検索対象指定部35を説明する。
【0053】
受付部350は、画像処理装置1のユーザから検出対象の指定を指定対象として受け付ける。具体的には、受付部350は、キーボードやポインティング等の図示しない画像処理装置1のユーザインターフェースを介して、画像処理装置1のユーザから検出対象の指定を指定対象として受け付ける。この場合、判定部33は、第2トラックデータのうち指定対象が含まれるトラックデータを判定する。トラックデータ出力部34は、指定対象を含む第1トラックデータと、指定対象を含む第2トラックデータとの組Pを出力する。これにより、画像処理装置1は、複数の被写体Sをそれぞれ含むトラックデータの中から、指定対象が含まれるトラックデータの組Pを出力することができる。
【0054】
また、画像取得部30が複数の動画Mを取得する場合、いずれかの動画Mを撮像した撮像装置が他の動画Mを撮像した撮像装置と異なることも起こりうる。例えば、実施の形態に係る画像処理装置1を特定の施設に出入りする人の追跡に用いる場合には、その施設の出入り口に設置されている撮像装置で撮像された動画Mを処理対象とすべきである。すなわち、トラックデータ取得部32が取得するトラックデータTの由来となる動画Mの撮像装置を限定することが求められる場合がある。
【0055】
そこで、機器情報取得部351は、第1動画と第2動画とのそれぞれを撮像した撮像機器を示す情報である第1機器情報と第2機器情報とを取得してもよい。ここで「機器情報」は、各撮像装置に一意に割り当てられている情報であり、撮像装置を一意に特定することができる情報である。トラックデータ取得部32は、第1機器情報と第2機器情報とが一致することを条件として、第2トラックデータを取得する。これにより、画像処理装置1は、同一の撮像機器が撮像した動画MのトラックデータTに検索対象が含まれているか否かを判定することができる。
【0056】
また、例えば実施の形態に係る画像処理装置1を特定の施設に出入りする人の検出に用いる場合には、検出対象である人の動線方向が重要となる場合がある。具体的には、施設の入り口の外から施設内部に入る方向に移動する人の検出が求められる場合がある。
【0057】
そこで、移動方向取得部352は、第1トラックデータと第2トラックデータとのそれぞれに含まれる検出対象の移動方向を示す第1移動方向と第2移動方向とを取得してもよい。具体的には、移動方向取得部352は、トラックデータTに含まれる各フレーム画像Fにおける検出対象の位置の変化に基づいて、検出対象の移動方向を取得する。
【0058】
判定部33は、移動方向取得部352が取得した第1移動方向と第2移動方向とがあらかじめ定めた所定の範囲に含まれることを条件として、第2トラックデータに含まれる検出対象が、第1トラックデータに含まれる検出対象と同一の検出対象か否かを判定する。
【0059】
ここで「所定の範囲」とは、判定部33が検出対象の異同を判定するか否かを決定する際に参照する検出対象決定時参照範囲である。所定の範囲は、撮像装置の設置位置及び検出対象の動線方向等を勘案してあらかじめ定めておけばよい。これにより、画像処理装置1は、特定の方向に移動する被写体を検出対象とすることができる。
【0060】
一般に、同一の検出対象であっても、時間によってその外観が変化することがある。例えば、検出対象が人である場合には、時間又は日によって同一人物であっても着用している衣服が変化しうる。
【0061】
そこで、撮像日取得部353は、第1動画と第2動画とのそれぞれの撮像日を取得してもよい。特徴量抽出部42は、第1動画の撮像日と第2動画の撮像日とが同一の場合と異なる場合とで、特徴量の抽出手法を変更する。
【0062】
具体的には、まず、領域抽出部40は、第1動画の撮像日と第2動画の撮像日とが異なることを条件として、第1領域(第1動画に由来するトラックデータTのうち検出対象が映る領域)中の特定の領域である第1特定領域と、第2領域(第2動画に由来するトラックデータTのうち検出対象が映る領域)中の特定の領域である第2特定領域とを抽出する。特徴量抽出部は、第1特定領域と第2特定領域とから特徴量を抽出する。
【0063】
ここで、「特定領域」とは、検出対象のうち、時間による変動がない又は少ないと期待される領域である。例えば、検出対象が人物である場合、人物の顔を含む領域が特定領域の例として挙げられる。人物の顔は、衣服等による影響が少ないと考えられるからである。
【0064】
図7は、実施の形態に係る領域抽出部40が抽出する特定領域Qの一例を模式的に示す図であり、検出対象が人物である場合の例を示している。
図7に示すように、検出対象が人物である場合、領域抽出部40は人物の顔を含む矩形領域を特定領域Qとして抽出する。領域抽出部40は、ニューラルネットワークやブースティング等の既知の機械学習手法を用いて生成された認識エンジンを用いることで特定領域Qの抽出を実現できる。
【0065】
<画像処理装置1が実行する画像処理方法の処理フロー>
図8は、実施の形態に係る画像処理装置1が実行する画像処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば画像処理装置1が起動したときに開始する。
【0066】
画像取得部30は、処理対象となる2つの異なる動画Mを取得する(S2)。トラックデータ作成部31は、画像取得部30が取得した各動画MからトラックデータTを作成する(S4)。検索対象指定部35は、画像処理装置1のユーザから検索対象の指定を受け付ける(S6)。判定部33は、トラックデータ取得部32が取得した2つの異なるトラックデータTに含まれる検出対象が同一か否かを判定する(S8)。トラックデータ出力部34は、指定を受けた検索対象を含むトラックデータTの組Pを生成する(S10)。トラックデータ出力部34がトラックデータTの組Pを生成すると、本フローチャートにおける処理は終了する。
【0067】
図9は、実施の形態に係るトラックデータ作成部31が実行するトラックデータTの生成処理を説明するためのフローチャートであり、
図8におけるステップS4をより詳細に説明するための図である。
【0068】
トラックデータ作成部31は、画像取得部30が処理対象として取得した2つの異なる動画Mのうちの一つの動画Mを選択する(S41)。トラックデータ作成部31は、選択した動画Mを複数のフレーム画像Fに分解する(S42)。
【0069】
フレーム分類部310は、各フレーム画像から抽出された特徴量に基づいて、複数のフレーム画像Fを同一の検出対象が連続して含まれるフレーム群に分類する(S43)。トラック生成部311は、1又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータTを生成する(S44)。
【0070】
トラックデータ作成部31が全ての動画Mを選択し終わるまでの間(S45のNo)、ステップS41に戻って上述の処理を繰り返す。トラックデータ作成部31が全ての動画Mを選択し終わると(S45のYes)、本フローチャートにおける処理は終了する。
【0071】
図10は、実施の形態に係る判定部33が実行する類比判定処理を説明するためのフローチャートである。
【0072】
領域抽出部40は、第1画像から検索対象を含む領域である検索元領域を抽出するとともに、第2画像から検索候補を含む領域である検索先領域を抽出する(S330)。領域分割部41は、検索元領域を検索対象が映る第1領域とそれ以外の領域である第2領域とに分割するとともに、検索先領域を検索候補が映る第3領域とそれ以外の領域である第4領域とに分割する(S331)。
【0073】
特徴量抽出部42は、第1領域から第1特徴量を抽出するとともに、第3領域から第3特徴量を抽出する(S332)。類似度取得部331は、記憶部2から読み出した学習モデルに第1特徴量と第3特徴量とを入力することによって第1画像と第3画像との類似度を取得する(S333)。類比決定部332は、類似度取得部331が取得した類似度に基づいて検索対象と検索候補とが同一か否かを決定する(S334)。
【0074】
類似度取得部331が検索対象と検索候補との異同を決定すると、本フローチャートにおける処理は終了する。
【0075】
<実施の形態に係る画像処理装置1が奏する効果>
以上説明したように、実施の形態に係る画像処理装置1によれば、動画Mにおける対象の追跡技術の精度を向上させることができる。
【0076】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。
【0077】
<第1の変形例>
上記では、画像処理装置1が処理対象画像の領域抽出処理及び領域分割処理を実行することにより、被写体S以外の背景領域の影響を低減して検出対象の追跡の精度を向上する場合について説明した。これに代えて、領域抽出処理及び領域分割処理は、例えば、処理対象画像を撮像する撮像機器が実行してもよいし、処理対象画像を格納する画像ストレージ(不図示)を管理する画像サーバ(不図示)が実行してもよい。領域抽出処理及び領域分割処理をあらかじめ実行しておくことになるため、画像処理装置1による追跡処理を高速し、画像処理装置1が消費する計算リソースを削減することができる。
【0078】
<第2の変形例>
上記では、トラックデータ作成部31が同一の動画Mに由来する二つの異なるフレーム間の類比を判定し、判定部33が2つの異なる動画Mそれぞれのフレーム画像間の類比を判定する場合について主に説明した。これに代えて、あるいはこれに加えて、判定部33が、同一の動画Mに由来する二つの異なるフレーム間の類比を判定してもよい。あるいは、トラックデータ作成部31と判定部33とを統合して一つの画像比較部としてもよい。
【符号の説明】
【0079】
1・・・画像処理装置
2・・・記憶部
3・・・制御部
30・・・画像取得部
31・・・トラックデータ作成部
310・・・フレーム分類部
311・・・トラック生成部
32・・・トラックデータ取得部
33・・・判定部
330・・・組生成部
331・・・類似度取得部
332・・・類比決定部
34・・・トラックデータ出力部
35・・・検索対象指定部
350・・・受付部
351・・・機器情報取得部
352・・・移動方向取得部
353・・・撮像日取得部
40・・・領域抽出部
41・・・領域分割部
42・・・特徴量抽出部