7518609 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7518609画像処理装置、画像処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-09

(45)【発行日】2024-07-18

(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム

(51)【国際特許分類】

G06T 7/246 20170101AFI20240710BHJP

【ＦＩ】

G06T7/246

【請求項の数】 19

(21)【出願番号】P 2019202618

(22)【出願日】2019-11-07

(65)【公開番号】P2021077039

(43)【公開日】2021-05-20

【審査請求日】2022-11-07

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】清水智之

【審査官】村山絢子

(56)【参考文献】

【文献】特開２０１８－０２６１０８（ＪＰ，Ａ）

【文献】特開２０１９－０１２４９７（ＪＰ，Ａ）

【文献】特開２０１１－１４６８２７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

撮像画像から対象物を検出する検出手段と、
複数の撮像画像においてそれぞれ検出された対象物間の対応関係を示すマップを生成する生成手段と、
生成された前記マップに基づいて前記複数の撮像画像においてそれぞれ検出された対象物をマッチングさせる判定手段と、
を備え、
前記生成手段は、前記複数の撮像画像間において同一であると推定される対象物の検出位置に応じた第１座標と、前記第１座標とは異なる第２座標とに異なる値を設定することで、前記複数の撮像画像においてそれぞれ検出された対象物間の対応関係を示すマップを生成することを特徴とする、画像処理装置。

【請求項2】

前記マップは、前記対象物のそれぞれの検出位置に応じて定まる前記第１座標に、前記対象物間の対応を示す情報を有していることを特徴とする、請求項１に記載の画像処理装置。

【請求項3】

前記判定手段は、前記対象物のそれぞれの検出位置に応じて定まる、前記マップの前記第１座標の画素値を参照して、前記対象物をマッチングさせるかどうかを判定することを特徴とする、請求項２に記載の画像処理装置。

【請求項4】

前記マップ上の前記第１座標に設定される値は前記第２座標に設定される値よりも高いことを特徴とする、請求項１乃至３の何れか一項に記載の画像処理装置。

【請求項5】

前記判定手段は、前記対象物の検出位置の座標を前記マップ上の座標に変換して得られる座標に基づいて定められる前記第１座標の値を参照することで対象物のマッチングを行うことを特徴とする、請求項１乃至４の何れか一項に記載の画像処理装置。

【請求項6】

前記マップは、前記第１座標に、互いに対応すると推定される前記対象物の検出位置にそれぞれ対応する、前記マップ上の位置の間の距離を示す情報を有していることを特徴とする、請求項１乃至５の何れか一項に記載の画像処理装置。

【請求項7】

前記マップは、互いに対応すると推定される前記対象物のそれぞれの検出位置に、同じ対象物を示す識別情報を有していることを特徴とする、請求項１乃至６の何れか一項に記載の画像処理装置。

【請求項8】

前記検出手段は、前記対象物のそれぞれが有する複数の部位を検出し、
前記生成手段は、前記部位ごとに前記マップを生成することを特徴とする、請求項１乃至７の何れか一項に記載の画像処理装置。

【請求項9】

前記生成手段が、互いに異なる前記マップを複数生成し、
前記判定手段が、生成された複数の前記マップに基づいて、前記複数の撮像画像においてそれぞれ検出された対象物をマッチングさせることを特徴とする、請求項１乃至８の何れか一項に記載の画像処理装置。

【請求項10】

前記生成手段は、前記検出手段による前記対象物の検出処理において得られた中間特徴量に基づいて前記マップを生成することを特徴とする、請求項１乃至９の何れか一項に記載の画像処理装置。

【請求項11】

前記検出手段は、異なる前記対象物を区別できるように学習されていることを特徴とする、請求項１乃至１０の何れか一項に記載の画像処理装置。

【請求項12】

前記複数の撮像画像が、同一の撮像装置による、第１の時刻における撮像画像と、第２の時刻における撮像画像と、を含むことを特徴とする、請求項１乃至１１の何れか一項に記載の画像処理装置。

【請求項13】

前記生成手段は、時間的又は空間的に並んでいる第１の撮像画像、第２の撮像画像、及び第３の撮像画像に基づいて、前記第１の撮像画像及び前記第３の撮像画像においてそれぞれ検出された対象物間の対応関係を示す前記マップを生成することを特徴とする、請求項１乃至１２の何れか一項に記載の画像処理装置。

【請求項14】

前記複数の撮像画像は、時間的又は空間的に並んでいる第１の撮像画像、第２の撮像画像、及び第３の撮像画像を含み、
前記生成手段は、前記第１の撮像画像及び前記第２の撮像画像においてそれぞれ検出された対象物間の対応関係を示す前記マップと、前記第１の撮像画像及び前記第３の撮像画像においてそれぞれ検出された対象物間の対応関係を示す前記マップと、を生成することを特徴とする、請求項１乃至１３の何れか一項に記載の画像処理装置。

【請求項15】

前記検出手段は、前記対象物が有する部位を検出することを特徴とする、請求項１乃至１４の何れか一項に記載の画像処理装置。

【請求項16】

前記対象物は人物であり、前記検出手段は前記人物の関節を検出することを特徴とする、請求項１乃至１５の何れか一項に記載の画像処理装置。

【請求項17】

前記マップと、前記対象物と、を重畳表示する表示手段をさらに備えることを特徴とする、請求項１６に記載の画像処理装置。

【請求項18】

撮像画像から対象物を検出する検出工程と、
複数の撮像画像においてそれぞれ検出された対象物間の対応関係を示すマップを生成する生成工程と、
生成された前記マップに基づいて、前記複数の撮像画像においてそれぞれ検出された対象物をマッチングさせる判定工程と、
を備え、
前記生成工程は、前記複数の撮像画像間において同一であると推定される対象物の検出位置に応じた第１座標と、前記第１座標とは異なる第２座標とに異なる値を設定することで、前記複数の撮像画像においてそれぞれ検出された対象物間の対応関係を示すマップを生成することを特徴とする、画像処理方法。

【請求項19】

コンピュータを、請求項１乃至１７の何れか一項に記載の画像処理装置の各手段として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

【背景技術】

【0002】

従来、映像中の物体を追尾する技術として、映像に含まれる画像間における同一領域をマッチングする技術がよく知られている。例えば、非特許文献１には、ある領域内の色及びヒストグラムのような特徴量を抽出し、以降の映像に対してその領域の近傍に存在するもっとも類似する特徴量を有する領域を特定することにより、物体を逐次的に追尾する技術が開示されている。また、特許文献１には、映像中のオブジェクトの動きに基づいて処理対象のフレームにおけるオブジェクトの位置を予測し、特徴量を比較する領域を予測された位置の近傍に絞り込む技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】D.Comaniciu, V.Ramesh, P.Meer、“Real-time tracking of non-rigid objects using mean shift”、Proceedings IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2000

【文献】A. Newell, Z. Huang, and J. Deng、“Associative Embedding: End-to-End Learning for Joint Detection and Grouping”、Advances in Neural Information Processing Systems 30. (NIPS 2017)

【文献】特開２０１２－１８１７１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の技術においては、追尾対象の特徴量の比較を、当該物質の近傍又は移動先予測部分の領域に対してそれぞれ行うため、追尾対象が多い場合又は処理領域内の追尾対象の密度が高い場合に、検出装置による処理量が増大するという課題があった。

【0005】

本発明は、画像上で被写体を追尾する処理の処理コストを低減することを目的とする。

【課題を解決するための手段】

【0006】

本発明の目的を達成するために、例えば、一実施形態に係る画像処理装置は以下の構成を備える。すなわち、撮像画像から対象物を検出する検出手段と、複数の撮像画像においてそれぞれ検出された対象物間の対応関係を示すマップを生成する生成手段と、生成された前記マップに基づいて、前記複数の撮像画像においてそれぞれ検出された対象物をマッチングさせる判定手段と、を備え、前記生成手段は、前記複数の撮像画像間において同一であると推定される対象物の検出位置に応じた第１座標と、前記第１座標とは異なる第２座標とに異なる値を設定することで、前記複数の撮像画像においてそれぞれ検出された対象物間の対応関係を示すマップを生成することを特徴とする。

【発明の効果】

【0007】

画像上で被写体を追尾する処理の処理コストを低減することができる。

【図面の簡単な説明】

【0008】

【図1】各実施形態に係るコンピュータ装置における機能構成の一例を示す図。

【図2】実施形態１に係る画像処理装置における機能構成の一例を示す図。

【図3】実施形態１に係る画像処理方法における処理例のフローチャート。

【図4】実施形態１に係る線分マップの生成例のフローチャート。

【図5】実施形態１に係る中間点マップの生成例のフローチャート。

【図6】実施形態１に係る距離マップの生成例のフローチャート。

【図7】実施形態１に係るＩＤマップの生成例のフローチャート。

【図8】実施形態１に係る画像処理装置における複数の撮像画像の一例を示す図。

【図9】実施形態１に係る画像処理装置におけるマップの生成の一例を示す図。

【図10】実施形態２に係る画像処理装置における機能構成の一例を示す図。

【図11】実施形態１に係る画像処理装置における画像表示の一例を示す図。

【図12】実施形態３に係る画像処理装置における撮像例の俯瞰図を示す図。

【図13】実施形態３に係る画像処理装置における撮像画像の一例を示す図。

【図14】実施形態３に係る画像処理装置におけるマップの生成の一例を示す図。

【図15】実施形態５に係る画像処理装置における時刻別の人物の一例を示す図。

【発明を実施するための形態】

【0009】

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0010】

図１は、後述する各実施形態に係る画像処理装置を構成するコンピュータ装置の構成の一例を示すブロック図である。画像処理装置はそれぞれ単一のコンピュータ装置で実現してもよいし、必要に応じた複数のコンピュータ装置に各機能を分散して実現するようにしてもよい。複数のコンピュータ装置で構成される場合は、互いに通信可能なようにローカルエリアネットワーク（Local Area Network、ＬＡＮ）などで接続されている。図１の例では、コンピュータ装置１００、入力デバイス１０９、出力デバイス１１０、インターネット１１１、及びカメラ１１２と接続されている。これらの接続のされ方は特に限定されない。例えば、それぞれが別々に、有線で接続されていてもよいし、無線の通信を介して接続されていてもよい。また、コンピュータ装置１００と入力デバイス１０９又は出力デバイス１１０とは、別々に独立した機器であってもよく、１つの機器内に一体となって構成される機器であってもよい。

【0011】

コンピュータ装置１００は、詳細は後述するが、各実施形態における画像処理を行う。入力デバイス１０９は、コンピュータ装置１００に対するユーザ入力を行うためのデバイスである。入力デバイスは、例えば、ポインティングデバイス又はキーボードであってもよい。出力デバイス１１０は、コンピュータ装置１００の保持するデータ、ユーザ入力によって供給されたデータ、及びプログラムの実行結果を表示するために、画像及び文字を表示可能なモニタなどのデバイスである。カメラ１１２は、撮像画像を取得することが可能な撮像装置である。カメラ１１２は、例えば、後述の画像取得部２０１に入力するために、所定の間隔Δｔを有する連続した撮像画像を取得してもよい。

【0012】

ＣＰＵ１０１は、コンピュータ装置１００全体を制御する中央処理装置（Central Processing Unit）である。ＣＰＵ１０１は、例えば外部記憶装置１０４に格納された各種ソフトウェア（コンピュータプログラム）を動作させることにより、各実施形態に係る処理を実行し、及びコンピュータ装置１００の動作を制御することができる。ＲＯＭ１０２は、変更を必要としないプログラム及びパラメータを格納する読み出し専用メモリ（Read Only Memory）である。ＲＡＭ１０３は、外部装置などから供給されるプログラムやデータを一時記憶するランダムアクセスメモリ（Random Access Memory）である。外部記憶装置１０４は、コンピュータ装置１００が読み取り可能な外部記憶装置であり、プログラム及びデータなどを長期的に記憶する。外部記憶装置１０４は、例えば、コンピュータ装置１００に固定して設置されたハードディスク及びメモリカードであってもよい。また例えば、外部記憶装置１０４は、コンピュータ装置１００から着脱可能なフレキシブルディスク（ＦＤ）又はコンパクトディスク（ＣＤ）等の光ディスク、磁気又は光カード、ＩＣカード、並びにメモリカードなどであってもよい。入力デバイスインタフェース１０５は、ユーザの操作を受けてデータを入力するポインティングデバイス又はキーボードなどの入力デバイス１０９とのインタフェースである。出力デバイスインタフェース１０６は、コンピュータ装置１００の保持するデータや供給されたデータやプログラムの実行結果を出力するためのモニタなどの出力デバイス１１０とのインタフェースである。通信インタフェース１０７は、インターネット１１１やカメラ１１２などに接続するためのインタフェースである。カメラ１１２はインターネット１１１経由でコンピュータ装置１００と接続しても構わない。１０８は１０１～１０７の各ユニットを通信可能に接続するシステムバスである。

【0013】

各実施形態においては、外部記憶装置１０４が格納している、各部の機能を実現するプログラムが、ＲＡＭ１０３へと読みだされる。そしてＣＰＵ１０１が、ＲＡＭ１０３上のプログラムに従って動作することにより、各部の機能が実現される。そのような場合において、各種プログラム及び各種設定データセットなどを記憶するのは外部記憶装置１０４に限定はされない。例えば、コンピュータ装置１００は、各種プログラム及び各種設定データなどを、不図示のネットワークを通じてサーバなどから取得してもよい。

【0014】

［実施形態１］
図２は、実施形態１に係る画像処理装置の機能構成の一例を示すブロック図である。本実施形態に係る画像処理装置は、複数の時刻における撮像画像においてそれぞれ検出された対象物間で対象物の対応関係を示すマップを生成する。次いで、生成されたマップに基づいて、複数の撮像画像においてそれぞれ検出された対象物をマッチングさせる。そのような処理のために、本実施形態に係る画像処理装置は、画像取得部２０１、検出部２０２、統合部２０３、生成部２０４、判定部２０９を有する。以下において、マッチングとは、複数の時刻における撮像画像においてそれぞれ検出された、同一の対象物の像を対応付けることを指すものとする。対応関係とは、マッチングを行う対象物の関係を指すものとする。対応関係があることがわかっても、マッチングを行うまでは対象物が同一であることの対応付けはしていない。

【0015】

画像取得部２０１は、本実施形態における画像処理装置への入力となる画像を、カメラ１１２から取得する。画像取得部２０１は、例えば、カメラが撮像した動画について、所定のフレーム間隔を有する２枚のフレーム画像を取得してもよい。つまり、図２の例においては、画像取得部２０１は、時刻ｔにおける画像２１０と、時刻ｔ＋Δｔにおける画像２１１を取得する。

【0016】

検出部２０２は、画像取得部２０１が取得した各画像から対象物となる特定の物体を検出し、及び、それぞれの画像上での検出位置の座標を特定する。検出部２０２が検出する対象物は特に限定されない。検出部２０２は、例えば、対象物の有する特定の部位を検出してもよい。つまり、例えば、対象物が人物である場合に、検出部２０２は、人物の首や腰のような特定の関節又は持ち物のような、対象物の有する特定の部位の検出を行ってもよい。さらに、検出部２０２は、そのような特定の部位を複数検出し、そのそれぞれについて以下に続くマッチング処理を行ってもよい。例えば、人物の監視映像においては、混雑、カメラの画角、又は対象の検出の難しさなどに応じて、使える情報が限られてしまうことがある。すなわち、対象物である人物の首位置は隠れるが、頭頂部及び肩は見えているといった場合、又は人物が帽子を被っていて頭頂部の検出精度が十分でないといった場合が考えられる。複数の部位を検出してマッチングする処理によれば、例えば混雑又は隠れなどによって一部の特定の部位が検出できない場合でも、複数の部位の検出結果に基づくマッチングを行うことで、撮像状況に対してよりロバスト性が向上したマッチングを行うことができる。以下においては簡単のため、検出に用いられる対象物の有する特定の部位の座標を指して、検出位置と呼ぶものとする。複数の部位によるマッチングを行う場合においては、後述するマッチングのスコアを用いて、例えば、部位ごとのスコアを合計する。その他、予め設定された重みを用いたスコアの重み付き平均を算出してもよく、部位ごとのスコアの最大値を取得してもよい。そのような処理によれば、複数の部位のスコアに基づいた総合的な判定を行うことにより、判定部２０９は、ロバスト性を向上させたマッチング処理を行うことができる。

【0017】

本実施形態においては、検出部２０２は、画像中の対象物の特定の部位の存在位置を出力するように構成された畳み込みニューラルネットワーク（ＣＮＮ）（以下、検出部２０２の有するＣＮＮを検出ＣＮＮと呼ぶ）である。検出部２０２は、対象物の特定の部位を検出するタスクを予め学習済みであるとする。また、検出部２０２は、検出過程における検出ＣＮＮの中間層からの出力を、取得した画像の特徴量として、統合部２０３へと出力する。検出部２０２が出力する検出ＣＮＮの中間層の出力を特徴量として用いることにより、生成部２０４は、後述するマップの学習フェーズ及び推定フェーズを行うことができる。したがって、検出ＣＮＮによる検出位置に基づいてマップを参照する際に、そのような検出位置とマップ上に参照される座標の位置のずれが少ない、適切な位置を参照することができる。

【0018】

統合部２０３は、各画像から取得される特徴量を統合する。本実施形態において統合部２０３は、検出部２０２が出力した特徴量を結合（ｃｏｎｃａｔｅｎａｔｅ）することができる。しかし、統合部２０３による特徴量の統合の方法は特にこれに限定されるものではない。例えば、統合部２０３は、特徴量を統合するようなニューラルネットワークで構成されていてもよい。そのような場合、統合部２０３は、後述する生成部２０４の学習と同時に、中間特徴をそれぞれ重みづけして統合するように学習されていてもよい。また、統合部２０３は、多段のＣＮＮで構成されていてもよく、時系列の情報を保存するためにＲＮＮ（ＲｅｃｃｕｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）で構成されていてもよく、又は時間軸を加えた３次元のＣＮＮで構成されていてもよい。

【0019】

生成部２０４は、複数の画像が有する特徴量から、それらの画像間における対象物の対応関係を示すマップを生成する。図２の例においては、生成部２０４は、統合部２０３が結合した特徴量を入力としてマップを生成することができる。つまり、画像２１０及び画像２１１に基づいて、両画像間における対象物の対応関係を示すマップを生成することができる。マッチングのロバスト性を向上させるため、生成部２０４は、そのようなマップを複数種類生成してもよい。そのために、この例においては、生成部２０４は、線分推定部２０５、中間点推定部２０６、距離推定部２０７、及びＩＤ推定部２０８を有している（以下においては簡単のため、これらの内のいずれか一つを指して推定部と呼ぶ）。この場合、１組の画像２１０及び２１１に対して、例えば各推定部全てがマップを生成してもよく、一部の推定部がマップを生成してもよく、一つの推定部がマップを生成してもよい。また、生成部２０４が有する推定部（つまり、生成するマップ）は、撮像画像間のマッチングする対象物の関係を示すマップを生成できるのであれば、特にこれらには限定されない。上述の４つの推定部が生成するマップ以外の例については後述する。

【0020】

各推定部２０５～２０８は、対象物の検出位置の座標に基づいて定められる所定の領域に各マップ特有の情報を有するマップを生成することができるが、そのようなマップの生成処理の詳細についてはそれぞれ図４～７と共に後述する。マップとは、この例においては、マッチングを行う撮像画像を入力として、推定部によって生成されるデータであり、マップ上の所定の領域の画素値を判定部２０９が参照することによって各マップ特有の情報を取得し及び対象物のマッチング判定が行われる。例えば、判定部２０９は、画像２１０及び画像２１１における検出位置の座標をマップ上の座標に変換し、及び変換された各座標に基づく所定の領域の画素値を用いることにより対象物のマッチング判定を行うことができるが、工程の詳細は後述する。本実施形態において生成部２０４は、ＣＮＮで構成される。以下において、生成部２０４が有するＣＮＮを生成ＣＮＮと呼ぶ。つまり、この例においては各推定部２０５～２０８が有するＣＮＮのいずれか一つ以上を指して生成ＣＮＮと呼ぶ。

【0021】

生成ＣＮＮはｃｏｎｖｏｌｕｔｉｏｎ層を複数含む多段のネットワークであるが、その構成は特に限定されない。生成ＣＮＮの出力層は、例えば、所定の縦横サイズのマップを一枚出力してもよく、又は所定の縦横サイズ×Ｎ次元のＮ枚のマップを出力してもよい。生成部２０４の有する各推定部は、複数の画像の特徴量を入力された場合に、各検出位置の座標に基づいて定まる所定の領域の画素値が、それらの対象物が対応しているかどうかを示す値となるマップを出力するように、予め学習されている。この学習において、推定部は、１つのマップが有する画素値について学習していてもよく、複数のマップが有する画素値を要素として有するベクトルについて学習していてもよい。また、この学習において各推定部は、そのようなマップ全体を出力するように学習されていてもよく、又は、マップ中の、判定部２０９が参照する所定の領域に出力される画素値についてのみ学習されていてもよい。例えば検出位置若しくはその周辺の画素、並びに検出位置の中間点のみを参照するようなマップであれば、そのような参照される領域の画素の出力が正解データと同様になるように学習するようにしてもよい。

【0022】

判定部２０９は、生成部２０４が生成したマップを参照して、複数画像間における対象物のマッチングを行う。図２の例においては、判定部２０９は、画像２１０と２１１の間における対象物のマッチングを行うことができる。そのために、判定部２０９は、画像２１０及び画像２１１それぞれにおける検出位置の座標を、各座標に対応するマップ上の座標へと変換することができる。例えば、検出に用いた撮像画像のサイズとマップのサイズが等しい場合においては、判定部２０９は、各画像における検出位置の座標をそのままマップ上の座標としてもよい。また、検出に用いた撮像画像のサイズとマップのサイズとが異なる場合においては、判定部２０９は、撮像画像上の検出位置の座標をマップ上の座標へと変換してもよい。次いで判定部２０９は、変換された各検出位置の座標に基づいて、推定部ごとに予め定められている、マップ上の所定の領域の位置を取得してもよい。さらに判定部２０９は、その所定の領域の画素値からマッチングのスコアを算出し、算出されたスコアに基づいて対象物のマッチングを行うことができる。所定の領域、及び所定の領域に基づいた処理は用いられるマップに応じて異なるため、詳細な説明は図４～７と共に後述する。以下において、両画像とは、画像２１０及び画像２１１を指すものとする。

【0023】

図３は、本実施形態に係る画像処理装置による処理手順の一例を示すフローチャートである。図３の例における画像処理装置は、１台のカメラ１１２が撮像する、所定のフレーム間隔を有する２枚のフレーム画像が入力された場合に、その二つの画像間において、画像中に検出されるマッチングする対象物の同一部位を対応付ける。つまり、例えば人物の動きを監視する位置に設置された監視カメラであるカメラ１１２が、映像中の２フレーム画像間において、画像内の人物がどのように動いたかを追尾するために、各画像間で同じ人物を対応付けることができる。

【0024】

ステップＳ３０１において画像取得部２０１は、カメラ１１２が撮像する映像から、時刻ｔ及びｔ＋Δｔにおける計２枚のフレーム画像を取得する。所定の間隔Δｔの値は特に限定されない。画像取得部２０１は、例えば、０．５秒の間隔ごとに撮像されるフレーム画像を取得することができる。ステップＳ３０２において検出部２０２は、ステップＳ３０１で取得された各フレーム画像を検出ＣＮＮに入力することにより、それぞれの画像における対象物の特定の部位を検出し、及び対象物の特定の部位の座標を取得する。各フレーム画像は、それぞれ複数の検出部２０２へと入力されてもよく、また同一の検出部２０２へと入力されてもよい。ステップＳ３０３で統合部２０３は、検出部２０２から、ステップＳ３０４で用いられる、検出ＣＮＮによる検出処理過程の中間特徴を、各フレーム画像それぞれについて取得する。ステップＳ３０４において統合部２０３は、両画像から取得された中間特徴を統合する。以下においては説明のため、統合部２０３は、検出ＣＮＮから出力された特徴量を結合（ｃｏｎｃａｔｅｎａｔｅ）するものとするが、上述の通りこれには限られない。

【0025】

ステップＳ３０５で、生成部２０４が有する各推定部が、ステップＳ３０４で結合された特徴量を入力されることにより、両画像の対象物の対応関係を示すマップを出力する。検出部２０２が出力する中間特徴を用いてマップを作成することにより、検出された対象物の位置とマップ上の対象物の位置とのずれを抑制することができる。また、検出部２０２が出力する中間特徴を再利用することにより、マップ作成にかかる処理コストを低減することができる。このステップＳ３０５においては、すべての推定部がマップを作成してもよく、複数の推定部が選択的にマップを作成してもよく、又は１つの推定部がマップを作成してもよい。以下のステップＳ３０６～Ｓ３０８においては一つのマップについての工程が説明されているが、マップが複数生成されている場合は、それぞれについて同様の手順で処理を行う。

【0026】

ステップＳ３０６においては、判定部２０９が、両画像における検出位置の座標を、マップ上の座標に変換し及び取得する。判定部２０９は、例えば、生成ＣＮＮから出力されるマップのサイズが撮像画像と異なる場合において、上述のように、マップと同サイズになるように変換された撮像画像における検出位置のピクセル座標と同座標を、検出位置のマップ上の座標として取得してもよい。生成ＣＮＮは、入力される画像のサイズと出力される画像とのサイズ差に基づいて入力画像上の検出対象の座標をマップ上の座標に変換して得られる座標に基づいて定められる所定の領域に、各マップ特有の情報を有するマップを出力するよう学習されていてもよい。

【0027】

ステップＳ３０７において判定部２０９は、ステップＳ３０５で出力したマップと、ステップＳ３０６で取得された検出位置のマップ上の座標と、に基づいて、マップ上の所定の領域の位置を取得する。次いで判定部２０９は、その領域の画素値を取得する。ステップＳ３０８において判定部２０９は、ステップ３０７において取得された画素値から、時刻ｔにおける各対象物と、時刻ｔ＋Δｔにおける各対象物と、のマッチングに用いるスコアをそれぞれ算出する。ステップＳ３０８では、各時刻における対象物の全ての組み合わせについてスコアを算出してもよく、一部の組み合わせについてスコアを算出してもよい。判定部２０９が画素値を取得する領域の位置、及びスコアの算出方法は特に限定されず、また、この例においては用いられるマップに応じて変化し得るため、詳細な処理手順は後述の図４～図７と共に説明する。

【0028】

ステップＳ３０９において判定部２０９は、ステップＳ３０８で算出されたスコアに基づいて、両画像間の対象物のマッチングを行う。判定部２０９は、例えば、一つのマップにおけるスコアからマッチングを行ってもよく、複数のマップにおけるスコアを統合してマッチングを行ってもよい。複数のマップにおけるスコアを統合する場合、その統合方法は特に限定されない。判定部２０９は、各マップのスコアの符号及び範囲を、例えば大きい値であるほど両画像間の対象物がマッチングする可能性が高いスコアとして０～１の範囲に揃え、及びそれらのスコアの積を求めることでスコアの統合を行ってもよい。そのように統合されるスコアの算出方法について、図４～７と共に後述する。また例えば、判定部２０９は、マップごとに算出されたスコアを、予め与えられた所定の重みを付与し、及び線形結合を行うことによって統合してもよい。さらに例えば、判定部２０９は、各マップのスコアの値の範囲、又は推定精度などに基づいて、公知の発見的手法により各スコアを適宜組み合わせてもよい。さらに、判定部２０９は、最適な組み合わせとなるような線形結合の重みづけを、ｌｏｇｉｓｔｉｃ回帰などの公知の手法を用いて、サンプルデータから統計的に求めてもよい。このように複数のマップを考慮したマッチング判定を行うことにより、マッチングの精度を向上させることができる。

【0029】

また、判定部２０９は、ステップＳ３０８で算出されたスコアを全て統合してもよく、又は一部を選択的に統合してもよい。例えば、判定部２０９は、予め定められた所定の閾値を用いることで算出されたスコアの評価を行い、閾値以上の値を有するスコアを選択的に統合してもよい。このような処理によれば、対象の状態（対象物部位の隠れの状態、被写体の密集度、又は画像中における対象物の大きさなど）によって生じる値のばらつきを考慮したマッチングを行うことができる。つまり、例えば対象物の特定の部位が隠れることによって生じる誤マッチングなどを抑制することができる。

【0030】

次に、図４～図７のフローチャートを参照することにより、生成部２０４が有する各推定部の例、及びステップＳ３０６～ステップＳ３０９における処理について補足する。図４～図７のフローチャートは、各推定部により生成されるマップそれぞれについて、スコアの算出手順が示されている。

【0031】

推定部は、ステップＳ３０５において、検出部２０２が取得した特徴量から、撮像画像間の対象物の対応関係を示すマップを出力する。つまり、この例では正解データに基づいて、２画像の特徴量を結合したものを入力として、画像間の対象物の対応関係を示すマップを出力するように学習されている。推定部は、その推定部に対応するマップ上の、入力された両画像における検出位置の座標に基づいて定まる所定の領域に、各マップ特有の情報を備えたマップを生成する。つまり、所定の領域の画素値を参照することによりマッチング判定が可能なマップを生成する。

【0032】

線分推定部２０５は、マッチングする対象物の検出位置を結ぶ線分上の領域と、その領域以外の領域と、で異なる画素値を有するマップ（以下、線分マップと呼ぶ）を生成することができる。つまり、マッチングする対象物の検出位置を結ぶ線分上の領域の画素値を参照した場合は１に近い尤度値が得られ、そうでない領域を参照した場合は０に近い尤度値が得られやすくなる、参照した対象物が対応しているか否かの尤度を示すマップを生成してもよい。ここで設定される画素値の値は特にこれには限定されず、適宜所望の値に設定されてもよいものとするが、以下においては説明のためこれに従う。

【0033】

線分推定部２０５が有する生成ＣＮＮは、例えば、非特許文献２における方法のような既知の方法によって学習されていてもよい。つまり、線分推定部２０５は、正解データとして、マッチングする対象物を含む２画像の特徴量を生成ＣＮＮへ入力した場合の出力となる、上述のような画素値の分布を有するマップが与えられていてもよい。次いで、線分推定部２０５は、そのような２画像を入力した際に正解データが出力できるよう、そのような２画像を入力した際の出力と正解データとから、例えば交差エントロピー誤差を用いた誤差逆伝播を行うことにより学習を行うことができる。交差エントロピー誤差については公知であるため詳細な説明は省略する。

【0034】

線分マップについて、判定部２０９はステップＳ３０７で、両画像における対象物一組の検出位置の対応する座標を結ぶ線分上の画素の各画素値を取得することができる。次いで、判定部２０９は、ステップＳ３０８において、取得した画素値の集合を積分し、及び積分した値を取得した画素の画素数で割った値をスコアとして算出することができる。すなわち、参照した線分上の画素値の平均をスコアとして算出する事ができる。さらに判定部２０９は、ステップＳ３０９において、このように算出されたスコアを用いて、上述のようにマッチングを行う。

【0035】

図４は本実施形態に係る線分マップを用いたスコアの算出処理における処理手順の一例を示すフローチャートである。ステップＳ４０１及びＳ４０２、ステップＳ４０３～Ｓ４０５、ステップＳ４０６、並びにステップＳ４０７は、図３におけるステップＳ３０６、Ｓ３０７、ステップＳ３０８、及びステップＳ３０９にそれぞれ相当する。ステップＳ４０１において、判定部２０９は、検出部２０２が検出した時刻ｔの画像における対象物の検出位置（以下、第１の検出位置と呼ぶ）の集合を取得する。ステップＳ４０２において、判定部２０９は、検出部２０２が検出した時刻ｔ＋Δｔの画像における対象物の検出位置（以下、第２の検出位置と呼ぶ）の集合を取得する。ステップＳ４０１及びＳ４０２においては、判定部２０９は、上述のように、両画像における検出位置の座標を、線分マップ上の対応する座標に変換し及び取得する。

【0036】

ステップＳ４０３において、判定部２０９は、第１の検出位置及び第２の検出位置から、それぞれ一つずつ、スコアを算出する検出位置の組み合わせを選択する。本実施形態においては、判定部２０９は、第１の検出位置全体から、及び第２の検出位置全体からそれぞれ検出位置を選択しているが、特にそれに限定されるわけではない。判定部２０９は、第１の検出位置と第２の検出位置とについて、それぞれ所定の条件に基づいて選定された組み合わせから選択を行ってもよい。例えば、判定部２０９は、第１の検出位置に対して、その第１の検出位置を中心とする予め定められた所定の範囲内に存在する第２の検出位置の内から、第２の検出位置を選択してもよい。また例えば、判定部２０９は、時刻ｔ以前のマッチング結果に基づいて、対象物それぞれについて移動方向及び速度のような移動情報を取得することができる。次いで、判定部２０９は、そのような移動情報から時刻ｔ＋Δｔにおける対象物のおおよその移動位置を推定し、及び、各第１の検出位置について、推定された移動位置に基づいて定められる範囲の内から第２の検出位置の選択を行ってもよい。また、この例においてはステップＳ４０３～Ｓ４０６は繰り返し行われ得るが、判定部２０９は、前回までの繰り返しにおいて選択されたことのある第１の検出位置と第２の検出位置との組み合わせは除外して選択を行う。

【0037】

また、ステップＳ４０３において、判定部２０９は、第１の検出位置と第２の検出位置とのユークリッド距離が所定の閾値以上となる組み合わせを除外して選択を行ってもよい。ここで、閾値は被写体の大きさに応じて設定することができる。このように、大きく離れた対象物の組み合わせを除外し、このような組み合わせについての処理を省略することにより、処理コストを低減させることができる。

【0038】

ステップＳ４０４において、判定部２０９は、ステップＳ４０３で未処理の検出位置の組み合わせを選択することができたかどうかを判定する。つまり、検出位置の全ての組み合わせについてマッチング処理を行ったかどうかを判定する。選択できた場合は処理がステップＳ４０５へと移動し、未処理の組み合わせが残っていなかった場合はステップＳ４０７へと移動する。

【0039】

ステップＳ４０５において判定部２０９は、ステップＳ４０３で選択された検出位置の、線分マップ上での座標を結んだ線分上の画素を参照し、その画素値を取得する。そのような処理について、図８、及び図９（ａ）を用いて説明する。図８（ａ）及び図８（ｂ）はそれぞれ時刻ｔ及びｔ＋Δｔにおける撮像画像であり、時刻ｔにおける人物の首位置８０１、及び時刻ｔ＋Δｔにおける人物の首位置８０２が示されている。この場合においては、線分推定部２０５は、マッチングする対象物の首位置８０１及び８０２を結ぶ線分上の領域と、その領域以外の領域と、で異なる画素値を有する線分マップを生成している。図９（ａ）はそのように生成された線分マップを示す図である。

【0040】

線分推定部２０５は、理想的には、首位置８０１及び８０２に対応する線分マップ上の座標を結んだ線分が線分マップ上に出力されるように推定を行っている。図９（ａ）は、このように出力された線分９０１を示している。図９（ａ）においては一人の人物に関する線分マップが出力されている例が示されているが、特にそのように限定されるわけではない。複数の人物が存在する場合は、各人物の検出位置に応じた複数の線分が推定及び出力される。先に述べた通り、同一人物の首位置の間の線分上の画素の値は１に近く、それ以外は０に近い値となるように線分マップが生成される。

【0041】

なお、線分マップ上に出力される線分は、最小限の太さを有する線分であってもよいし、より太い線分であってもよい。例えば、図９（ａ）に示すように、線分９０１が、首位置８０１及び８０２に対応する線分マップ上の点を結ぶ線分を中心とした、ガウス分布に従う画素値の分布を有する画素群により表されてもよい。このように、所定の閾値以上の画素値を有する画素群により、２点を結ぶ線分を表現してもよい。

【0042】

ステップＳ４０５において判定部２０９は、時刻ｔ及び時刻ｔ＋Δｔにおける対象物をそれぞれ一つずつ選択し、選択した対象物の検出位置（例えば関節位置）について、線分マップでの座標を結んだ線分上の画素値を取得することができる。なお、ステップＳ４０５において判定部２０９は、２点を結ぶ、最小限の太さを有する線分上の画素値を取得する代わりに、そのような線分を中心とした所定の幅を有する領域中の画素値を参照して画素値を取得してもよい。一例として、判定部２０９は、２点を結ぶ線分上の各画素についての画素値として、各画素を中心とする所定範囲（例えば３×３画素範囲）内の最大画素値または平均画素値を取得してもよい。

【0043】

ステップＳ４０６において判定部２０９は、ステップＳ４０５で取得された画素値の積分値を算出し、及び算出された積分値を線分中の画素数で割ることにより、スコアを算出する。ここで、ステップＳ４０３で選択した２点が同一人物のものであれば、当該２点を結ぶ線分上の画素は、線分マップの線分上の画素と近い位置にあるため、取得した画素値を積分すると１×線分中の画素数の値に近くなる。このマッチングスコアが１に近いほど、当該２点の組み合わせは同一人物どうしの組み合わせである可能性が高い。逆に、他の人物との間には線分が出力されないため、上記のように求めたマッチングスコアは１よりも小さくなる。このようにして求めたマッチングスコアを利用することで、２点の組み合わせが同一人物か否かを判定することができる。なお、この例においては判定部２０９が参照した領域の画素値の平均をスコアとしたが、スコアとする値の算出方法は特にそのようには限定されない。例えば、判定部２０９は、取得した画素値の集合から、中央値を取ってもよく、上述の中心となる線分に近いほど重みが大きくなるような重みつきの平均を取ってもよく、又は最大値をとってもよい。本実施形態のように線分上の複数の画素に値を出力するマップを用いることで、推定ミスで部分的に欠損が生じたり、検出位置が若干ずれたりした場合であっても、ロバストにマッチングできる。

【0044】

次いで、判定部２０９は、ここで算出されたスコア、及び検出位置の組み合わせを記憶装置に格納し、ステップＳ４０３に移動する。この記憶装置は外部記憶装置１０４であってもよく、又は無線の通信を介して接続される記憶装置であってもよい。上述した通り、次回のステップＳ４０３で選択される検出位置の組み合わせは、その時点で記憶装置に格納されていない組み合わせから選択される。

【0045】

ステップＳ４０３で全ての検出位置の組み合わせを選択し終えたと判定された場合であるステップＳ４０７において、判定部２０９は、記憶装置に格納されたスコア及び組み合わせに基づいて、検出位置に応じた対象物のマッチングを行う。本実施形態においては、判定部２０９は、各マップにおけるスコアすべてを用いてマッチングを行うものとするが、上述の通りそのようには限定されない。例えば、判定部２０９は、線分マップにおけるスコアのみに基づいてマッチングを行う場合、それぞれの第１の検出位置について、最も高いスコアを有する組み合わせとなる第２の検出位置を選択してもよい。そのような場合において、一つの第２の検出位置に対して、最も高いスコアを有する組み合わせとなるようにその第２の検出位置を選択する第１の検出位置が複数存在する場合には、その中で最もスコアが高い組み合わせが優先される。次いで、そのような第２の検出位置を組み合わせとして選択できなかった第１の検出位置について、その第２の検出位置を除いた内から再び最も高いスコアを有する組み合わせとなる第２の検出位置を選択してもよい。また例えば、判定部２０９は、貪欲法又はハンガリー法などの公知の割り当て法を用いて、対象物のマッチングを行ってもよい。また、判定部２０９は、処理コストの低減のため、線分マップ、又は後述の中間点マップにおけるスコアから、予め定めることのできる所望の閾値よりも小さい値を有しているスコアを取り除いてからマッチングを行ってもよい。そのような閾値は、対象物の密集度及びサイズなどに応じて、適宜所望の値として判定部２０９が設定することができる。

【0046】

中間点推定部２０６は、マッチングする対象物の検出位置を結ぶ線分の中間点と、それ以外の領域と、で異なる画素値を有するマップ（以下、中間点マップと呼ぶ）を生成することができる。中間点推定部２０６は、例えば、マッチングする対象物の検出位置を結ぶ線分の中間点の画素値を１とし、それ以外の領域の画素値を０とするマップを生成してもよい。つまり、マッチングする対象物の検出位置を結ぶ線分の中間点の画素値を参照した場合は１に近い尤度値が得られ、そうでない領域を参照した場合は０に近い尤度値が得られやすくなる、参照した対象物が対応しているか否かの尤度を示すマップを生成してもよい。ここで設定される画素値の値は特にこれには限定されず、適宜所望の値に設定されてもよいものとするが、以下においては説明のためこれに従う。

【0047】

中間点推定部２０６が有する生成ＣＮＮは、例えば、非特許文献２における方法のような既知の方法によって学習されていてもよい。つまり、中間点推定部２０６は、正解データとして、マッチングする対象物を含む２画像の特徴量をＣＮＮへの入力とした場合の出力となる、上述のような画素値の分布を有するマップが与えられていてもよい。次いで、中間点推定部２０６は、そのような２画像を入力した際に正解データが出力できるよう、そのような２画像を入力した際の出力と正解データとから、例えば交差エントロピー誤差を用いた誤差逆伝播を行うことにより学習を行うことができる。

【0048】

判定部２０９はステップＳ３０７で、両画像における対象物一組の検出位置の座標にそれぞれ対応する中間点マップ上の座標を結ぶ線分の、中間点の画素値を取得することができる。次いで、判定部２０９は、ステップＳ３０８において、取得した画素値をスコアとして記録することができる。さらに判定部２０９は、ステップＳ３０９において、ステップＳ３０８で記録されたスコアを用いて、上述のようにマッチングを行う。

【0049】

図５は本実施形態に係る中間点マップを用いた画像処理における処理手順の一例を示すフローチャートである。ステップＳ４０１～Ｓ４０４、及びステップＳ４０７における処理は図４のものと同様であり、重複する説明は省略する。ステップＳ４０３、Ｓ４０４及びＳ５０１、並びにステップＳ５０２は、図３におけるＳ３０７、及びステップＳ３０８にそれぞれ相当する。ステップＳ５０１において判定部２０９は、ステップＳ４０３で選択された検出位置の、中間点マップ上での座標を結んだ線分の中間点の画素の画素値を取得する。そのような処理について、図８、及び図９（ｂ）を用いて説明する。図８（ａ）及び図８（ｂ）については上述した通りである。この場合においては、判定部２０９は、首位置８０１及び８０２にそれぞれマッチングする対象物の検出位置を結ぶ線分の中間点と、その領域以外の領域と、で異なる画素値を有するマップを生成している。

【0050】

中間点推定部２０６は、理想的には、首位置８０１と８０２に対応する座標を結んだ線分の中間位置の座標に、中間点を示す点が出力されるように、中間点マップを生成する。図９（ｂ）はそのように生成された中間点マップを示す図であり、出力された中間点９０２を示している。図９（ｂ）においては一人の人物に関する中間点マップが出力されている例が示されているが、特にそのように限定されるわけではない。例えば、複数の人物が撮像画像内に撮像されている場合、中間点マップ上に、各人物の検出位置に応じた複数の中間点が出力される。この例では、同一人物の首位置の間の中間点の画素の値は１に近く、それ以外は１に近い値となるように、推定及び中間点マップの生成が行われる。

【0051】

なお、中間点マップにおいて、中間点は、１画素によって表されてもよいし、局所領域によって表されてもよい。すなわち、中間点推定部２０６は、１画素のみに値が出るように推定する必要は無く、１画素の近傍の局所領域の値が１に近くなるように、推定及び中間点マップの生成を行ってもよい。また、中間点マップは、中間点を中心とするガウス分布に従う画素値分布を有していてもよい。このような構成によれば、例えば検出部２０２による検出位置にずれが生じてしまった場合においても、ステップＳ３０８で算出される値に、検出位置のずれ由来のずれが生じにくくなり、マッチングのロバスト性を向上させることができる。

【0052】

判定部２０９は、時刻ｔ及び時刻ｔ＋Δｔにおける対象物をそれぞれ一つずつ選択し、選択された対象物の検出位置に対応する中間点マップ上の座標の中間点の画素値を取得することができる。また、処理コストが許容される範囲で、判定部２０９は、この中間点の近傍の所定範囲（例えば３×３画素範囲）の画素値を参照して、中間点についての値を取得してもよい。例えば、判定部２０９は、中間点近傍の所定範囲についての、最大画素値、平均画素値、又は画素値の中央値を取得してもよい。また、判定部２０９は、中間点近傍の所定範囲について、中間点ほど高くなる重み分布を用いる重みつきの平均を取得してもよい。このように、判定部２０９は、マッチング対象どうしの中間点であるか否かに応じて値に差が生じる方法を用いて、値を取得することができる。このような方法は、中間点マップが中間点を中心とする画素値分布を有している場合に特に有効である。すなわち、一定範囲の領域を参照することで、例えば推定のミスでデータに部分的な欠損が生じた場合、又は検出位置にずれが生じたような場合においても、局所領域内の画素値を参照することにより、ロバスト性が向上したマッチングを行うことができる。

【0053】

ステップＳ５０２において判定部２０９は、ステップＳ５０１で取得された値を、一組の対象物についてのマッチングスコアとして、検出位置の組み合わせ情報とともに記憶装置に格納し、ステップＳ４０３に移動する。この記憶装置は外部記憶装置１０４であってもよく、又は無線の通信を介して接続される記憶装置であってもよい。上述した通り、次回のステップＳ４０３で選択される検出位置の組み合わせは、その時点で記憶装置に格納されていない組み合わせから選択される。

【0054】

距離推定部２０７は、マッチングする対象物の検出位置を結ぶ線分の中間点の画素値が、その線分の長さを示す値を持つマップ（以下、距離マップと呼ぶ）を生成することができる。距離マップにおいては、マッチングする対象物の検出位置を結ぶ線分の中間点と、その領域以外の領域と、で異なる画素値を有していてもよい。距離マップにおいては、同一個体の同一部位間の線分の中間点の画素値が、この線分の距離に比例する値となっていてもよい。つまり、そのような中間点の画素値を、予め与えられている所定の係数をかけることで線分の長さの値が得られるような値（以下、推定値と呼ぶ）としてもよい。また、距離推定部２０７は、マッチングする対象物の検出位置を結ぶ線分の中間点の画素値が、各検出位置の座標のｘ座標の値の差に比例する値となるマップと、各検出位置の座標のｙ座標の値の差に比例する値となるマップと、を別々に生成してもよい。距離推定部２０７が生成するマップはこれらには限定されず、一例において距離マップに設定される画素値は、マッチングする対象物の検出位置を結ぶ線分の長さを示す任意の値である。以下においては説明のため、上述の中間点の画素値が、マッチングする対象物の検出位置を結ぶ線分の長さの値と比例した値となるマップを生成するものとして説明を行う。

【0055】

距離推定部２０７が有する生成ＣＮＮがそのように学習を行うために、正解データとして、マッチングする対象物を含む２画像の特徴量をＣＮＮへの入力とした場合の出力となる、上述のような画素値の分布を有するマップが与えられる。次いで、距離推定部２０７は、そのような２画像を入力した際に正解データが出力できるよう、そのような２画像を入力した際の出力と正解データとから、例えば平均２乗誤差を用いた誤差逆伝播を行うことにより学習を行うことができる。平均２乗誤差については公知であるため詳細な説明は省略する。

【0056】

判定部２０９はステップＳ３０７で、両画像における対象物一組の検出位置の座標に対応する距離マップ上の座標を結ぶ、線分の中間点の画素値を取得することができる。次いで、判定部２０９は、ステップＳ３０８において、取得した画素値に所定の係数をかけ、及び、所定の係数をかけたその値と、対応する座標を結ぶ線分の長さの値と、の差を算出する。判定部２０９は、算出した差に基づいてマッチングに用いるスコアを取得することができるが、詳細はステップＳ６０３において後述する。さらに判定部２０９は、ステップＳ３０９において、ステップＳ３０８で記録されたスコアを用いて、上述のようにマッチングを行う。

【0057】

図６は本実施形態に係る距離マップを用いた画像処理における処理手順の一例を示すフローチャートである。ステップＳ４０１～Ｓ４０４、及びステップＳ４０７における処理は図４のものと同様であり、重複する説明は省略する。ステップＳ４０３、Ｓ４０４及びＳ６０１、並びに、ステップＳ６０２及びステップＳ６０３は、図３におけるＳ３０７、及びステップＳ３０８にそれぞれ相当する。ステップＳ６０１において判定部２０９は、ステップＳ４０３で選択された検出位置の、距離マップ上での座標を結んだ線分の中間点の画素を参照し、その画素値を取得する。そのような処理について、図８、及び図９（ｃ）を用いて説明する。図８（ａ）及び図８（ｂ）については上述した通りである。

【0058】

この場合、距離推定部２０７は、理想的には、首位置８０１と８０２とを結んだ線分の中間位置の座標に推定値が出力されるように、距離マップを生成している。図９（ｃ）はそのように生成された距離マップを示す図である。この距離マップにおいては、首位置８０１及び８０２に対応する距離マップ上の点を結ぶ線分の中間点９０３に、上記のような推定値が出力されている。図９（ｃ）においては一人の人物に関する距離マップが出力されている例が示されているが、特にそのように限定されるわけではない。例えば、複数の人物が撮像画像内に撮像されている場合、同一人物に対応する位置を結んだ線分の中間位置の画素それぞれに推定値が出力される。

【0059】

なお、推定値は必ずしも中間点に出力されなくてもよく、同一の対象物の検出位置との関連がわかるように別の方法で距離マップに出力されてもよい。例えば、距離マップにおいて、２つの検出位置を結ぶ線分との関連がわかるように推定値が出力されてもよい。具体例として、２つの対象物に対応する距離マップ上の検出位置を結ぶ線分全体の画素値が、推定値となるように、距離マップが生成されてもよい。また、推定値が、２つの検出位置を結ぶ線分の中間点を中心とする局所領域内の各画素が、推定値を有するように、距離マップが生成されてもよい。このような構成により、例えば検出部２０２による検出位置にずれが生じてしまった場合においても、判定部２０９が参照する値が所望の値となりやすくなり、マッチングのロバスト性を向上させることができる。

【0060】

判定部２０９は、時刻ｔ及び時刻ｔ＋Δｔにおける対象物をそれぞれ一つずつ選択し、選択した対象物の検出位置（例えば関節位置）について、距離マップでの座標を結んだ線分の中間点の画素値を取得することができる。このような構成によれば、後述のステップＳ６０３において、マッチングする対象物の検出位置を結ぶ線分の長さと、例えば中間点の画素値から算出される値と、の差の絶対値は０に近くなりやすくなる。また、マッチングしない対象物の検出位置について同様の計算を行った絶対値は０から離れやすくなる。

【0061】

ステップＳ６０２において判定部２０９は、ステップＳ６０１で取得された画素値に予め与えられている係数をかけることにより、線分の推定の長さを算出する。つまり、選択されている対象物の組み合わせがマッチングする対象物同士であれば、算出される値が距離マップにおける各座標間の距離と等しくなることが推測される値を算出する。

【0062】

ステップＳ６０３において判定部２０９は、ステップＳ６０２で算出された値と、一組の座標を結ぶ線分の長さと、の差を算出する。次いで、判定部２０９は、算出した差の絶対値に基づいて、マッチングに用いるスコアを取得することができる。スコアの取得方法は特に限定されない。ここで算出された絶対値が小さいほどそれらの対象物が対応している可能性が高くなるであろうことを鑑みて、判定部２０９は、そのような絶対値が小さくなるほどスコアが高くなるような変換を行うことにより、スコアを取得してもよい。例えば、判定部２０９は、そのような絶対値の逆数をスコアとして算出してもよく、そのような絶対値に負の記号を付けた値によるｅｘｐｏｎｅｎｔｉａｌのべき乗をスコアとして算出してもよい。また、他のマップにおけるスコアと併用するという観点から、判定部２０９は、距離マップを用いたスコアを０～１の範囲で、及びスコアが高いほどそれらの対象物が対応している可能性が高くなるように算出してもよい。つまり、上述の絶対値の逆数をスコアとする場合においては、絶対値が十分に小さい場合にスコアが無限大に発散することを考えて、判定部２０９は、例えば絶対値が予め設定されている下限値を下回る場合において、スコアを１として出力してもよい。また、上述の絶対値の絶対値に負の記号を付けた値によるｅｘｐｏｎｅｎｔｉａｌのべき乗をスコアとする場合においては、判定部２０９は、算出した値をそのままスコアとして用いることができる。本実施形態においては、判定部２０９は、距離マップを用いたスコアを０～１の範囲で算出するが、その範囲は、他のマップにおけるスコアの算出方法に応じて適宜調整されてもよい。次いで、判定部２０９は、ここで算出されたスコア、及び検出位置の組み合わせを記憶装置に格納し、ステップＳ４０３に移動する。

【0063】

ＩＤ推定部２０８は、互いに対応すると推定される対象物のそれぞれの検出位置に応じて定まる位置に、同じ対象物を示す識別情報（画素値）を有しているマップ（以下、ＩＤマップと呼ぶ）を生成することができる。例えば、ＩＤ推定部２０８は、マッチングする２つの対象物の検出位置に対応する領域が同じ画素値を有するマップを生成することができる。このＩＤマップはマッチングする２つの対象物の検出位置に対応する領域と、それ以外の領域と、で異なる画素値を有していてもよい。ＩＤ推定部２０８は、例えば、時刻ｔにおける検出位置に対応する領域と、時刻ｔ＋Δｔにおける検出位置に対応する領域と、のそれぞれに、等しい画素値を有するマップを生成することができる。一例として、ＩＤ推定部２０８は、各検出位置上の領域に、対象物固有の識別情報を示す画素値（以下、ＩＤ値と呼ぶ）を有するマップを生成してもよい。また、この例においては、マッチングする対象物の検出位置上の領域が等しい画素値を持つようなマップが一つのみ生成されるが、ＩＤ推定部２０８が生成するマップは特に１つには限定されない。例えば、ＩＤ推定部２０８は、時刻ｔについてのマップと、時刻ｔ＋Δｔについてのマップと、を生成してもよい。つまり、ＩＤ推定部２０８は、時刻ｔについてのマップ上の検出位置上の領域と、時刻ｔ＋Δｔについてのマップ上のマッチングする対象物の検出位置上の領域と、が等しい画素値を持つように、マップを生成することができる。このように二つのマップを生成する処理によれば、例えば時刻ｔ＋Δｔにおいて、時刻Δｔで対象物が存在していた位置に別の対象物が移動してくる場合においても、それぞれの対象物を区別して画素値を取得し、マッチングを行うことができる。

【0064】

ＩＤ推定部２０８は、マッチングする対象物の検出位置上の領域の画素値の分散が最小化し、及び対応しない検出位置上の画素値の平均と、対応しない検出位置上の画素値の平均と、の分散が最大化するようなマップを生成することができる。ＩＤ推定部２０８が用いるＣＮＮは、そのような画素値の分布を有するマップを出力することを正解として学習が行われていてもよい。すなわち、学習用の２枚の画像データをＣＮＮに入力することにより得られたＩＤマップから、上記の分散に基づく損失評価値を算出し、この損失評価値を用いた誤差逆伝播を行うことにより、学習を行うことができる。また、学習データにおいて各対象物ごとに予めＩＤ値が与えられている場合においては、マップを用いた学習を行ってもよい。つまり、ＩＤ推定部２０８が用いるＣＮＮは、正解データとして、画像データの各位置における対象物のＩＤ値を示すＩＤマップを用いた学習が行われていてもよい。この場合、２枚の画像データを入力した際に正解データが出力できるよう、例えば出力と正解データとに基づく交差エントロピー誤差を用いた誤差逆伝播を行うことにより、学習を行うことができる。

【0065】

ＩＤマップについて、判定部２０９はステップＳ３０７で、両画像における対象物一組について、各検出位置上の画素値を取得することができる。判定部２０９は、取得した領域上の画素値を取得してもよい。判定部２０９は、取得された各画素値の差を算出する。判定部２０９は、算出した差に基づいてマッチングに用いるスコアを取得することができるが、詳細はステップＳ７０２において後述する。さらに判定部２０９は、ステップＳ３０９において、ステップＳ３０８で記録されたスコアを用いて、上述のようにマッチングを行う。

【0066】

図７は本実施形態に係るＩＤマップを用いた画像処理における処理手順の一例を示すフローチャートである。ステップＳ４０１～Ｓ４０４、及びステップＳ４０７における処理は図４のものと同様であり、重複する説明は省略する。ステップＳ４０３、Ｓ４０４及びＳ７０１、並びにステップＳ７０２は、図３におけるＳ３０７、及びステップＳ３０８にそれぞれ相当する。ステップＳ７０１において判定部２０９は、ステップＳ４０３で選択された検出位置上の、ＩＤマップでの画素を参照し、その画素値を取得する。そのような処理について、図８、及び図９（ｄ）を用いて説明する。図８（ａ）及び図８（ｂ）については上述した通りである。

【0067】

この場合においては、ＩＤ推定部２０８は、首位置８０１及び８０２にそれぞれマッチングする対象物の検出位置上の領域と、その領域以外の領域と、で異なる画素値を有するマップを生成している。ＩＤ推定部２０８は、理想的には、首位置８０１と８０２に対応する領域に、同じ値のＩＤ値を出力するようにＩＤマップを生成する。図９（ｄ）はそのように生成されたＩＤマップを示す図であり、首位置８０１と８０２の位置にそれぞれ対応する領域９０４及び９０５の画素に、同じ値（この例では同じハッチングで表されている）が出力されている。図９（ｄ）においては一人の人物に関するＩＤマップが出力されている例が示されているが、特にそのように限定されるわけではない。例えば、複数の人物が撮像画像内に撮像されている場合、その人数に応じて、ＩＤマップ上には、同一人物についてなるべく同じ値が出力されるように、各人物に対応する位置にＩＤ値が出力される。

【0068】

また、ＩＤマップにおいて、ＩＤ値は上記のように検出位置に対応する領域内の画素に出力されてもよいし、検出位置に関連する他の画素に出力されてもよい。例えば、ＩＤ値は、検出位置に対応するマップ上の座標を中心とする局所領域内の画素に出力されてもよい。また、ＩＤ推定部２０８は、マッチングする対象物の検出位置に対応する位置を結ぶ線分上の画素値が等しくなるように、ＩＤマップを生成してもよい。この場合、マッチングする対象物の検出位置を結ぶ線分上の領域の画素値の分散が小さくなり、対応する対象物の検出位置を結ぶ線分の画素値の平均と対応しない検出位置を結ぶ線分の画素値の平均との分散が大きくなるように、ＩＤマップを生成することができる。このように、ＩＤマップにおいてＩＤ値が出力される範囲を広げることにより、例えば検出部２０２による検出位置にずれが生じてしまった場合においても、正しいＩＤ値を参照しやすくなる。

【0069】

判定部２０９は、時刻ｔ及び時刻ｔ＋Δｔにおける対象物をそれぞれ一つずつ選択し、選択した対象物の検出位置（例えば関節位置）について、ＩＤマップでの各検出位置の座標上の画素値を取得することができる。このような構成によれば、後述のステップＳ７０２において、マッチングする対象物の検出位置上の画素値の差の絶対値が０に近くなり、マッチングしない対象物について同様の計算を行った絶対値は０から離れやすくなる。

【0070】

ステップＳ７０２において判定部２０９は、ステップＳ７０１で取得された各値の差を算出する。次いで、判定部２０９は、算出した差の値に基づいてマッチングに用いるスコアを取得することができる。スコアの取得方法は特に限定されない。上述のように算出された差は、その値が小さいほどその対象物が同一である可能性が高くなるであろうことを鑑みて、判定部２０９は、そのような算出された値が小さくなるほどスコアが高くなるような変換によって、スコアを取得してもよい。そのような変換の方法については、ステップＳ６０３におけるものと同様に行うことができるため、重複する説明は省略する。本実施形態においては、ＩＤマップを用いたスコアを０～１の範囲で算出するが、その範囲は、他のマップにおけるスコアの算出方法に応じて適宜調整されてもよい。次いで、判定部２０９は、ここで算出されたスコア、及び検出位置の組み合わせを記憶装置に格納し、ステップＳ４０３に移動する。

【0071】

また、ＩＤ推定部２０８は、各画素が１次元のスカラー値を有するＩＤマップの代わりに、各画素がＫ次元のベクトル値を有するＩＤマップを生成してもよい。この場合、判定部２０９は、ステップＳ７０１において、一組の対象物の組み合わせについて、Ｋ枚のマップにおいて同位置で参照されるＫ個の画素値をそれぞれ要素として有するＫ次元のベクトル値を、各対象物の検出位置それぞれにおいて取得することができる。次いで判定部２０９は、Ｓ７０２において、そのようなＫ次元のベクトルを用いることにより、マッチングのスコアを算出してもよい。判定部２０９は、一組の対象物のスコアとして、例えば、そのようなＫ次元のベクトル値同士を用いたコサイン類似度を算出してもよい。スコアをコサイン類似度として算出することにより、スコアの範囲が０～１となり、及び１に近いほどその対象物が対応している可能性が高くなることから、各マップにおけるスコアとの統合を行いやすくすることができる。このように、生成部２０４が、複数枚で１つの関連マップを表す複数のマップを生成することにより、関連マップの表現力を向上させることができる。

【0072】

また、本実施形態に係る画像処理装置は、任意の時刻における検出ＣＮＮによる出力、すなわち、画像からの対象物の検出結果及び画像の中間特徴を、記憶装置内に格納することができる。例えば、時刻ｔにおける検出ＣＮＮによる出力を、記憶装置内に格納しておくことができる。この記憶装置は外部記憶装置１０４であってもよく、又は無線の通信を介して接続される記憶装置であってもよい。そのような場合において、検出部２０２は、時刻ｔ＋Δｔにおいて新たに取得された画像から、対象物の検出結果及び画像の中間特徴を生成することができる。次いで、統合部２０３、生成部２０４、及び判定部２０９は、時刻ｔ＋Δｔの画像についての検出結果及び中間特徴に加えて、格納されている時刻ｔの画像についての検出結果及び中間特徴を用いて、マッチングを行うことができる。このように、図３に示すように２枚の画像を取得してから処理を始める代わりに、画像を１枚ずつ逐次的に取得しながらリアルタイムに処理を行うことができる。また、このような構成によれば、１回のマッチング処理において検出部２０２は１枚の画像に対する処理を行えばよいため、効率的な処理が実現できる。なお、マッチング処理後には、時刻ｔ＋Δｔの画像についての検出結果及び中間特徴で、記憶装置内の時刻ｔの画像についての検出結果及び中間特徴を上書きしてもよい。このように、本実施形態に係る画像処理装置は、逐次的に画像を取得しながら処理を行ってもよい一方で、予め取得された２時刻の画像を用いて処理を行ってもよい。

【0073】

また、本実施形態に係る画像処理装置は、時間的に連続した２画像のマッチングを行うことにより空間的な連続性も捉えているという観点から、例えばステレオマッチングなどを行うことができる。

【0074】

さらに、各マップが正しく処理を行うことができているかどうかを確認しやすくするという観点から、出力デバイス１１０は、マップと、両時刻における画像と、を重畳表示してもよい。図１１は、そのような重畳表示を行うモニタの例を示している。図１１（ａ）は、図９（ａ）上に、図８（ａ）及び図８（ｂ）の対象物を重畳表示したものである。つまり、線分マップと、その対象物と、を重畳表示したものである。図１１（ｂ）、図１１（ｃ）、図１１（ｄ）は、それぞれ図９（ｂ）、図９（ｃ）、図９（ｄ）に対して、図１１（ａ）と同様に対応している。図１１（ａ）～（ｄ）はそれぞれ別に表示されてもよく、これらがさらに重畳して表示されてもよい。このような表示によれば、マップ上において、画像間のマッチングする対象物の検出位置を結ぶ線分上の領域が正しく出力されているか否かの確認が容易となる。つまり、適切なマップが生成されているかが容易に確認できる。したがって、生成ＣＮＮの学習用データが正しく作られているかを確認したい場合において、画像処理の実行時の動作確認に加えて視覚的に確認することができ、そのような確認の効率を向上させた画像処理装置を得ることができる。

【0075】

別の例として、異なる時刻における画像を重畳表示する代わりに、異なる時刻における画像を動画様に連続表示してもよい。この場合、例えば、時刻ｔにおける画像にこの画像からの対象物の検出結果（例えば図８（ａ））を重畳し、また、時刻ｔ＋Δｔにおける画像にこの画像からの対象物の検出結果（例えば図８（ｂ））を重畳してもよい。

【0076】

なお、上述のように複数のマップを考慮したマッチング判定を行うことにより、例えば一つのマップにおいてマッチングの精度が悪い場合においても、より正確にマッチング対象を行うことができる。例えば同時刻における対象物同士が近く、線分マップ上のマッチングする対象物の検出位置を結ぶ線分同士が繋がってしまうような場合であっても、検出位置の中間点を参照するマッチングと併用することにより、より正確にマッチング対象を特定することができる。また、距離マップを、特に中間点マップ又は線分マップと併用することで、距離マップで参照された中間点位置が、中間点マップが示す中間点位置と合致するか、又は線分マップで示す線分に含まれるかを確認することができる。このような条件を満たし、かつ距離マップで参照された中間点位置に出力された画素値から算出される線分距離が正しいかどうかを判定することにより、より正確にマッチング対象を特定することができる。例えば、距離マップにおいて、ある別の人物の検出位置の組み合わせの中間点位置に、この組み合わせの線分距離に近い値がたまたま出力されていたとしても、中間点マップの対応する位置の値が小さければ、この組み合わせは正しくないことがわかる。このように、マップを相互に組み合わせて利用することで、マッチング精度の向上が期待できる。

【0077】

このような構成によれば、複数の撮像画像間における対象物の対応関係を示すマップを生成し、そのようなマップに基づいて対象物のマッチングを行うことにより、処理コストが低減された画像間マッチングを行う画像処理装置を得ることができる。

【0078】

［実施形態２］
実施形態２に係る画像処理装置は、時刻ｔ及び時刻ｔ＋Δｔにおける２画像、並びにその２時刻間の時刻における画像（以下、中間画像）から、時刻ｔ及び時刻ｔ＋Δｔの撮像画像間で検出された対象物をマッチングさせる。そのような処理のために、実施形態２に係る画像処理装置は、画像取得部１００２、抽出部１００３を有することを除き実施形態１と同様の構成を有し、重複する説明は省略する。

【0079】

図１０は、実施形態２に係る画像処理装置の機能構成の一例を示すブロック図である。画像取得部１００２は、本実施形態における画像処理装置への入力となる、画像２１０と画像２１１との間の時刻における中間画像を、カメラ１１２から取得する。画像取得部１００２が取得する画像の数は特に限定されない。抽出部１００３は、中間画像から、対象物のマッチングの補助に用いる特徴量を抽出し、及び、統合部２０３へと出力することができる。そのために抽出部１００３が抽出する特徴量は、マッチングの補助になるのであれば特に限定されない。例えば、抽出部１００３は、ＣＮＮとして検出部２０２と同様の検出ＣＮＮを有し、検出部２０２による検出と同様の検出過程からの中間特徴を出力してもよい。また、抽出部１００３は、検出ＣＮＮより軽量の所定のＣＮＮを有していてもよい。

【0080】

統合部２０３は、各画像から取得される特徴量を統合する。この例においては、統合部２０３は、時刻ｔ及び時刻ｔ＋Δｔにおける各画像から検出ＣＮＮによって出力された特徴量と、中間画像から出力された特徴量と、を結合することができる。次いで生成部２０４は、統合部２０３が結合した特徴量から、時刻ｔ及び時刻ｔ＋Δｔにおける画像間の対象物の対応関係を示すマップを生成する。そのために、各推定部の有する生成ＣＮＮは、検出ＣＮＮからの中間特徴量と、抽出部１００３による出力とに基づく学習を行うことができる。そのような学習は、抽出部１００３による出力を入力に含むことを除き実施形態１の各推定部と同様に行うことができる。

【0081】

このような構成によれば、時刻ｔ及び時刻ｔ＋Δｔにおける特徴量だけではなく、それの時刻の中間の特徴量を入力することにより、両時刻間の対象物の検出位置などの情報を得られるようになる。したがって、各マップにおいて、検出位置間の線分及びそのような線分の中間点の位置を推定しやすくなる。

【0082】

［実施形態３］
実施形態３に係る画像処理装置は、複数のカメラから撮影された画像から生成されたマップに基づいて、各画像においてにおいてそれぞれ検出された対象物をマッチングさせる。そのような処理のために、実施形態３に係る画像処理装置は、カメラ１２０２及びカメラ１２０３を有することを除き実施形態１と同様の構成を有し、重複する説明は省略する。

【0083】

図１２は、２台のカメラ１２０２及び１２０３が、別の角度から車１２０１を撮影する例を示す俯瞰図である。図１２の例においては、画像取得部２０１は、２台のカメラ１２０２及び１２０３が撮影した画像をそれぞれ取得する。画像取得部２０１は、２台のカメラ１２０２及び１２０３が同時刻に撮影した画像をそれぞれ取得してもよく、またはカメラ間で所定のフレーム間隔を有する画像を取得してもよい。図１３（ａ）はカメラ１２０２が撮像した画像であり、図１３（ｂ）はカメラ１２０３が撮像した画像である。

【0084】

検出部２０２は、画像取得部２０１が取得した各画像から対象物となる特定の物体を検出する。この例においては説明のため、検出ＣＮＮは、車のおおよその中心位置を検出するように学習されているとするが、検出ＣＮＮの学習方法は特に限定されない。検出ＣＮＮは、例えば、車体の特定の部位を検出するように学習されていてもよい。１３０１及び１３０２は、各画像における、検出ＣＮＮによって検出された車１２０１のおおよその中心位置を示している。また、この例においては検出ＣＮＮは車を検出しているが、検出の対象は特にそれには限定されない。例えば、検出ＣＮＮは、実施形態１の例と同様に人物を検出してもよい。つまり、多方向から撮像された画像から、対応する人物の同一の部位を検出してもよい。

【0085】

統合部２０３は、実施形態１と同様に、各画像から取得される特徴量を結合する。生成部２０４は、実施形態１と同様に、結合された特徴量に基づいて、画像間における対象物の対応関係を示すマップを生成する。つまり、各推定部が有する生成ＣＮＮは、上述のような複数のカメラによって撮像された画像の特徴量を入力として、実施形態１と同様のマップを生成するように学習されている。図１４は、そのようにして生成された線分マップの一例を示している。

【0086】

このような構成によれば、複数のカメラから撮像された画像を入力された場合においても、それらの画像においてそれぞれ検出された対象物をマッチングさせる画像処理装置を得ることができる。

【0087】

［実施形態４］
実施形態４に係る画像処理装置の有する検出ＣＮＮは、画像から対象物を検出し、及び、検出した対象物をそれぞれ識別するようなタスクを行えるように学習されている。つまり、実施形態４に係る画像処理装置は、その点を除き実施形態１と同様の構成を有し、重複する説明は省略する。

【0088】

実施形態４に係る検出ＣＮＮは、例えば、人物を検出する場合において、検出した各関節（首、肩及び肘など）を人物ごとに区別できるように、各関節の検出位置に人物固有の識別情報をそれぞれ出力するように学習されていてもよい。そのような場合、ＩＤ推定部２０８は、そのような検出ＣＮＮから出力された中間特徴量に基づいてＩＤマップを作成し、及び、実施形態１と同様の処理を行うことができる。実施形態４に係る検出ＣＮＮの学習方法は特に限定されない。検出ＣＮＮは、例えば、非特許文献２に示される方法で学習が行われていてもよい。このように、検出した各関節が同一人物か他人かを区別するタスクを含むように検出ＣＮＮの学習を行うことで、検出ＣＮＮが出力する中間特徴に、エッジ情報及び色情報のような、対象物の区別のために重要な情報がより多く含まれるようになることが期待される。このため、このような中間特徴を用いて行われるマッチングの精度も向上することが期待できる。

【0089】

また、実施形態１におけるＩＤ推定部２０８は、対象物を識別するタスクを行うように学習されているといえる。したがって、ＩＤマップを生成する処理について、実施形態４に係る検出ＣＮＮからＩＤ推定部２０８の生成ＣＮＮまでを一つのネットワークとして構成してもよい。この場合、生成ＣＮＮの学習タスクのＬｏｓｓを検出ＣＮＮまで逆伝播させるようにすることにより、対象物のＩＤの推測に有効な情報を、検出ＣＮＮが出力する中間特徴量に反映させるように、ｅｎｄ－ｔｏ－ｅｎｄで学習が行われてもよい。

【0090】

実施形態４に係るＩＤ推定部２０８は、対象物のＩＤ値を、所定の期間保持しておくことができる。例えば、一度マッチングされた対象物が次の時刻の処理でマッチングできなかった場合において、ＩＤ推定部２０８は、その対象物のＩＤ値を記憶装置に格納しておくことができる。また、ＩＤ推定部２０８は、そのような対象物のＩＤ値を所定の期間記憶装置に格納しておくことができる。次いで、ＩＤ推定部２０８は、格納されているＩＤ値と等しいＩＤ値を有するマッチング可能な組み合わせが検出された場合において、格納されていたＩＤ値に基づいてマッチングを行うことができる。この記憶装置は外部記憶装置１０４であってもよく、又は無線の通信を介して接続される記憶装置であってもよい。このような処理によれば、隠れるなどして一時的にマッチングが途切れた対象物について、再度マッチングを再開することができる。

【0091】

［実施形態５］
本実施形態に係る画像処理装置は、３以上の時刻における各撮像画像において検出された対象物について、そのような撮像画像間それぞれの対象物の対応関係を示すマップを生成する。次いで、生成された複数のマップに基づいて、複数の撮像画像においてそれぞれ検出された対象物をマッチングさせる。そのような処理のために、本実施形態に係る画像処理装置は、実施形態１と同様の構成を有するため、重複する説明は省略する。つまり、画像取得部２０１が３以上の時刻における画像をそれぞれ取得し、それらの３以上の画像から選択された画像の組み合わせそれぞれについて実施形態１と同様の処理を行うことを除き、実施形態１と同様の処理を行うことができる。また、そのような処理のために、本実施形態に係る画像処理装置の有する記憶装置は、過去の時刻の画像から取得された特徴量を格納しておくことができる。ここで記憶装置が格納する特徴量の時刻の数は特に限定されない。記憶装置は、例えば、所定の数の時刻の特徴量を格納し、及び、新たな時刻の特徴量を格納するたびに、記憶装置がその時点で有する最も古い特徴量を削除してもよい。この記憶装置は外部記憶装置１０４であってもよく、又は無線の通信を介して接続される記憶装置であってもよい。

【0092】

本実施形態に係る統合部２０３は、３以上の時刻における画像について、その内の二つの組み合わせ全てに対して実施形態１と同様の処理を行うことができるが、統合部２０３の処理は特にそのように限定されるわけではない。例えば、統合部２０３は、３以上の時刻における画像に基づいた中間特徴量を統合してもよい。そのような場合、生成部２０４における各推定部が有する生成ＣＮＮは、統合された３以上の時刻における中間特徴量から、それらの画像間における対象物の対応関係を示すマップを生成することができる。つまり、そのように学習を行うことができる。各生成ＣＮＮの学習の方法は特に限定されないが、実施形態１と同様に行ってもよい。

【0093】

図１５は、実施形態５に係る画像処理装置によるマッチング処理を説明するための例である。１５０１、１５０２、及び１５０３は、それぞれ時刻ｔ、時刻ｔ＋Δｔ、時刻ｔ＋２×Δｔにおける対応する人物である。また、１５０４は遮蔽物であり、及び、この例における画像中では、１５０２を隠している。このような場合、本実施形態に係る画像処理装置は、１５０１及び１５０３のマッチングを行うことができる。つまり、例えば、隠れなどの阻害要因によって所定の間隔Δｔでの逐次的なマッチングが難しい場合においても、所定の間隔２×Δｔでの画像処理を行うことにより、マッチングする対象物の対応付けを行うことができる。そのようなマッチングは、上述のように時刻ｔ及び時刻ｔ＋２×Δｔにおいて取得された画像に基づいて行われてもよく、時刻ｔ、時刻ｔ＋Δｔ、及び時刻ｔ＋２×Δｔの特徴量を統合した特徴量に基づいて行われてもよい。

【0094】

このような構成によれば、例えば映像などで持続的に人物の追尾を行いたい場合に、追尾途中に人物のマッチングが途切れてしまう問題が抑制できるようになる。例えば、３ｆｒａｍｅ中の１つで隠れが生じる場合（図１５の１５０２）、残りの２ｆｒａｍｅ（時刻と時刻ｔ＋２×Δｔ）のマッチングをすることで、隠れているところを飛ばした追尾が可能となる。

【0095】

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0096】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0097】

２０１：画像取得部、２０２：検出部、２０３：統合部、２０４：生成部、２０５：成分推定部、２０６：中間点推定部、２０７：距離推定部、２０８：ＩＤ推定部、２０９：判定部

【図1】