IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特開2022-152355学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム
<>
  • 特開-学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム 図1
  • 特開-学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム 図2
  • 特開-学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム 図3
  • 特開-学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム 図4
  • 特開-学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム 図5
  • 特開-学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022152355
(43)【公開日】2022-10-12
(54)【発明の名称】学習装置、方法及びプログラム、並びに、物体追跡装置、方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221004BHJP
   G06T 7/246 20170101ALI20221004BHJP
【FI】
G06T7/00 350C
G06T7/246
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021055094
(22)【出願日】2021-03-29
(71)【出願人】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(74)【代理人】
【識別番号】230121430
【弁護士】
【氏名又は名称】安井 友章
(72)【発明者】
【氏名】鈴木 哲平
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096GA13
5L096HA05
5L096HA08
5L096HA11
5L096JA03
5L096JA11
5L096KA04
5L096KA15
(57)【要約】
【課題】 学習済みの畳み込みニューラルネットワークによって時不変性の高い表現を実現可能な学習装置を提供する。
【解決手段】 学習装置10では、遷移算出部18は、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出し、再構成誤差算出部20は、第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得部と、
所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す第1の時刻の逆割当演算子を算出する割当算出部と、
前記ピクセル特徴取得部によって取得された各時刻の各ピクセルの特徴量と前記割当算出部によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出部と、
前記スーパーピクセル特徴算出部によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出する遷移算出部と、
第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する再構成誤差算出部と、
前記再構成誤差算出部によって算出された再構成誤差が最小化されるように前記畳み込みニューラルネットワークのパラメータを更新するパラメータ更新部と、
を具備する学習装置。
【請求項2】
各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得ステップと、
所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す第1の時刻の逆割当演算子を算出する割当算出ステップと、
前記ピクセル特徴取得ステップによって取得された各時刻の各ピクセルの特徴量と前記割当算出ステップによって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出ステップと、
前記スーパーピクセル特徴算出ステップによって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出する遷移算出ステップと、
第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する再構成誤差算出ステップと、
前記再構成誤差算出ステップによって算出された再構成誤差が最小化されるように前記畳み込みニューラルネットワークのパラメータを更新するパラメータ更新ステップと、
を具備する学習方法。
【請求項3】
コンピュータに、
各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得機能と、
所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す第1の時刻の逆割当演算子を算出する割当算出機能と、
前記ピクセル特徴取得機能によって取得された各時刻の各ピクセルの特徴量と前記割当算出機能によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出機能と、
前記スーパーピクセル特徴算出機能によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出する遷移算出機能と、
第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する再構成誤差算出機能と、
前記再構成誤差算出機能によって算出された再構成誤差が最小化されるように前記畳み込みニューラルネットワークのパラメータを更新するパラメータ更新機能と、
を実現させる学習プログラム。
【請求項4】
各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得部と、
所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す目標時刻の逆割当演算子を算出する割当算出部と、
前記ピクセル特徴算出部によって算出された各時刻の各ピクセルの特徴量と前記割当算出部によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出部と、
前記スーパーピクセル特徴算出部によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを示す各時刻間の逆遷移演算子を算出する遷移算出部と、
追跡対象の物体を示す第1の時刻の指標画像に、第1の時刻の割当演算子、第1の時刻から目標時刻までの各時刻間の逆遷移演算子、目標時刻の逆割当演算子を順に作用させて、目標時刻の指標画像を算出する指標画像算出部と、
を具備する物体追跡装置。
【請求項5】
各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得ステップと、
所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す目標時刻の逆割当演算子を算出する割当算出ステップと、
前記ピクセル特徴算出ステップによって算出された各時刻の各ピクセルの特徴量と前記割当算出ステップによって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出ステップと、
前記スーパーピクセル特徴算出ステップによって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを示す各時刻間の逆遷移演算子を算出する遷移算出ステップと、
追跡対象の物体を示す第1の時刻の指標画像に、第1の時刻の割当演算子、第1の時刻から目標時刻までの各時刻間の逆遷移演算子、目標時刻の逆割当演算子を順に作用させて、目標時刻の指標画像を算出する指標画像算出ステップと、
を具備する物体追跡方法。
【請求項6】
コンピュータに、
各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得機能と、
所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す目標時刻の逆割当演算子を算出する割当算出機能と、
前記ピクセル特徴算出機能によって算出された各時刻の各ピクセルの特徴量と前記割当算出機能によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出機能と、
前記スーパーピクセル特徴算出機能によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを示す各時刻間の逆遷移演算子を算出する遷移算出機能と、
追跡対象の物体を示す第1の時刻の指標画像に、第1の時刻の割当演算子、第1の時刻から目標時刻までの各時刻間の逆遷移演算子、目標時刻の逆割当演算子を順に作用させて、目標時刻の指標画像を算出する指標画像算出機能と、
を実現させる物体追跡プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、畳み込みニューラルネットワークに時系列画像データの時不変な特徴量を学習させる学習装置、方法及びプログラムに関する。
【背景技術】
【0002】
畳み込みニューラルネットワークを用いて、時系列画像データから各時刻における各ピクセルの特徴量を示す特徴マップを取得する場合には、時不変性の高い表現が得られること、即ち、異なる時刻の画像データであっても、同一の物体の領域に属するピクセルについては、取得される特徴量が同一となることが望ましい。このような時不変性の高い表現を実現するために、畳み込みニューラルネットワークに時系列画像データの時不変な特徴量を学習させることが行われている。このような学習方法として、例えば、Cycle Consistency(非特許文献1参照)、Colorization(非特許文献2参照)等がある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Wang, Xiaolong, Allan Jabri, and Alexei A. Efros. "Learning correspondence from the cycle-consistency of time." Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2019.
【非特許文献2】Vondrick, Carl, et al. "Tracking emerges by colorizing videos." Proceedings of the Europeanconference on computer vision (ECCV). 2018.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の学習方法によって学習された畳み込みニューラルネットワークによっては、必ずしも充分に時不変性の高い表現が実現されているわけではない。
【0005】
本発明は上記課題に鑑みてなされたものであり、その目的は、学習済みの畳み込みニューラルネットワークによって時不変性の高い表現を実現可能な学習装置、方法及びプログラム、並びに、当該学習装置、方法及びプログラムと同様な手法を利用して、高い追跡精度を得ることが可能な物体追跡装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の第1実施態様は、各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得部と、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す第1の時刻の逆割当演算子を算出する割当算出部と、前記ピクセル特徴取得部によって取得された各時刻の各ピクセルの特徴量と前記割当算出部によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出部と、前記スーパーピクセル特徴算出部によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出する遷移算出部と、第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する再構成誤差算出部と、前記再構成誤差算出部によって算出された再構成誤差が最小化されるように前記畳み込みニューラルネットワークのパラメータを更新するパラメータ更新部と、を具備する学習装置である。
【0007】
本実施形態では、異なる時刻のスーパーピクセル間の遷移については、異なる時刻のスーパーピクセルの特徴ベクトル間の類似度に応じているため、畳み込みニューラルネットワークの表現の時不変性が高くなるほど、構成先のスーパーピクセルの画像データについて、構成先のスーパーピクセルと同一ないし類似する物体の領域に属する構成元のスーパーピクセルの画像データの構成割合が高くなり、構成されたスーパーピクセルの画像データの再現性が高くなるところ、スーパーピクセルの画像データを第1の時刻から第2の時刻、さらに第2の時刻から第1の時刻まで順次構成することを介して算出した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を最小化するように畳み込みニューラルネットワークに学習を行わせているため、畳み込みニューラルネットワークに時不変な特徴量についての学習を行わせることができ、学習済みの畳み込みニューラルネットワークによって時不変性の高い表現を実現することが可能となっている。
【0008】
本発明の第2実施態様は、各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得ステップと、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す第1の時刻の逆割当演算子を算出する割当算出ステップと、前記ピクセル特徴取得ステップによって取得された各時刻の各ピクセルの特徴量と前記割当算出ステップによって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出ステップと、前記スーパーピクセル特徴算出ステップによって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出する遷移算出ステップと、第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する再構成誤差算出ステップと、前記再構成誤差算出ステップによって算出された再構成誤差が最小化されるように前記畳み込みニューラルネットワークのパラメータを更新するパラメータ更新ステップと、を具備する学習方法である。
本実施態様では、第1実施態様と同様の作用効果を奏する。
【0009】
本発明の第3実施態様は、コンピュータに、各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得機能と、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す第1の時刻の逆割当演算子を算出する割当算出機能と、前記ピクセル特徴取得機能によって取得された各時刻の各ピクセルの特徴量と前記割当算出機能によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出機能と、前記スーパーピクセル特徴算出機能によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の次時刻及び前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻及び前時刻のいずれのスーパーピクセルに遷移するかを夫々示す各時刻間の遷移演算子及び逆遷移演算子を算出する遷移算出機能と、第1の時刻の画像データに、第1の時刻の割当演算子、第1の時刻から第2の時刻までの各時刻間の逆遷移演算子、第2の時刻から第1の時刻までの各時刻間の遷移演算子、第1の時刻の逆割当演算子を順に作用させて、画像データを再構成し、再構成した再構成画像データと元の第1の時刻の画像データとの間の再構成誤差を算出する再構成誤差算出機能と、前記再構成誤差算出機能によって算出された再構成誤差が最小化されるように前記畳み込みニューラルネットワークのパラメータを更新するパラメータ更新機能と、を実現させる学習プログラムである。
本実施態様では、第1実施態様と同様の作用効果を奏する。
【0010】
本発明の第4実施態様は、各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得部と、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す目標時刻の逆割当演算子を算出する割当算出部と、前記ピクセル特徴算出部によって算出された各時刻の各ピクセルの特徴量と前記割当算出部によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出部と、前記スーパーピクセル特徴算出部によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを示す各時刻間の逆遷移演算子を算出する遷移算出部と、追跡対象の物体を示す第1の時刻の指標画像に、第1の時刻の割当演算子、第1の時刻から目標時刻までの各時刻間の逆遷移演算子、目標時刻の逆割当演算子を順に作用させて、目標時刻の指標画像を算出する指標画像算出部と、を具備する物体追跡装置である。
【0011】
本実施態様では、第1実施態様の学習装置において用いられる異なる時刻のスーパーピクセル間の遷移を利用して物体追跡を行っており、高い追跡精度を得ることが可能となっている。
【0012】
本発明の第5実施態様は、各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得ステップと、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す目標時刻の逆割当演算子を算出する割当算出ステップと、前記ピクセル特徴算出ステップによって算出された各時刻の各ピクセルの特徴量と前記割当算出ステップによって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出ステップと、前記スーパーピクセル特徴算出ステップによって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを示す各時刻間の逆遷移演算子を算出する遷移算出ステップと、追跡対象の物体を示す第1の時刻の指標画像に、第1の時刻の割当演算子、第1の時刻から目標時刻までの各時刻間の逆遷移演算子、目標時刻の逆割当演算子を順に作用させて、目標時刻の指標画像を算出する指標画像算出ステップと、を具備する物体追跡方法である。
本実施態様では、第4実施態様と同様の作用効果を奏する。
【0013】
本発明の第6実施態様は、コンピュータに、各時刻の画像データから畳み込みニューラルネットワークを用いて各時刻の各ピクセルの特徴量を取得するピクセル特徴取得機能と、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを示す各時刻の割当演算子、並びに、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す目標時刻の逆割当演算子を算出する割当算出機能と、前記ピクセル特徴算出機能によって算出された各時刻の各ピクセルの特徴量と前記割当算出機能によって算出された各時刻の割当演算子とから、各時刻の各スーパーピクセルの特徴量を算出するスーパーピクセル特徴算出機能と、前記スーパーピクセル特徴算出機能によって算出された各時刻の各スーパーピクセルの特徴量に基づき、所定時刻の所定のスーパーピクセルの特徴量と所定時刻の前時刻のスーパーピクセルの特徴量との類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを示す各時刻間の逆遷移演算子を算出する遷移算出機能と、追跡対象の物体を示す第1の時刻の指標画像に、第1の時刻の割当演算子、第1の時刻から目標時刻までの各時刻間の逆遷移演算子、目標時刻の逆割当演算子を順に作用させて、目標時刻の指標画像を算出する指標画像算出機能と、を実現させる物体追跡プログラムである。
本実施態様では、第4実施態様と同様の作用効果を奏する。
【発明の効果】
【0014】
本発明の学習装置、方法及びプログラムでは、学習済みの畳み込みニューラルネットワークによって、時不変性の高い表現を実現可能となっている。
本発明の物体追跡装置、方法及びプログラムでは、本発明の学習装置、方法及びプログラムと同様な手法を利用し、高い追跡精度を得ることが可能となっている。
【図面の簡単な説明】
【0015】
図1】本発明の第1実施形態の学習装置を示すブロック図。
図2】本発明の第1実施形態の学習方法を示すフロー図。
図3】本発明の第1実施形態の学習方法を示す説明図。
図4】本発明の第2実施形態の物体追跡装置を示すブロック図。
図5】本発明の第2実施形態の物体追跡方法を示すフロー図。
図6】本発明の第2実施形態の物体追跡の結果を示す写真図。
【発明を実施するための形態】
【0016】
図1乃至図3を参照して、本発明の第1実施形態について説明する。
本実施形態では、畳み込みニューラルネットワークに時系列画像データの時不変な特徴量の学習を行わせ、学習済みの畳み込みニューラルネットワークによって時不変性の高い表現を実現するものである。ここで、時不変性の高い表現とは、異なる時刻の画像データであっても、同一の物体の領域に属するピクセルについては、取得される特徴量が同一ないし類似するものとなることをいう。
【0017】
図1を参照して、本実施形態の畳み込みニューラルネットワークの学習装置10について概説する。
【0018】
学習装置10では、ピクセル特徴取得部12は、動画の各時刻の画像データから、畳み込みニューラルネットワーク(CNN)24を用いて、各時刻の各ピクセルの特徴量としての特徴ベクトルを示す特徴マップを取得する。
【0019】
割当算出部14は、各時刻の画像データから、各時刻のスーパーピクセルを生成する。ここで、スーパーピクセルとは、特徴ベクトルの類似するピクセルを纏めて1つの大きなピクセルとしたものである。即ち、割当算出部14は、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを割合で示す各時刻の割当演算子としての割当行列を算出する。また、割当算出部14は、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを示す初期時刻の逆割当演算子としての逆割当行列を算出する。
【0020】
スーパーピクセル特徴算出部16は、ピクセル特徴取得部12によって取得された各時刻の各ピクセルの特徴ベクトルを示す特徴マップと、割当算出部14によって算出された各時刻の割当行列とから、各時刻の各スーパーピクセルの特徴ベクトルを算出する。
【0021】
遷移算出部18は、スーパーピクセル特徴算出部16によって算出された各時刻の各スーパーピクセルの特徴ベクトルに基づき、所定時刻の所定のスーパーピクセルの特徴ベクトルと所定時刻の次時刻のスーパーピクセルの特徴ベクトルとの類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻のいずれのスーパーピクセルに遷移するかを確率で示す各時刻間の遷移演算子としての遷移行列を算出する。また、遷移算出部18は、同様にして、所定時刻の所定のスーパーピクセルの特徴ベクトルと所定時刻の前時刻のスーパーピクセルの特徴ベクトルとの類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを確率で示す各時刻間の逆遷移演算子としての逆遷移行列を算出する。
【0022】
再構成誤差算出部20は、初期時刻の画像データに、初期時刻の割当行列、初期時刻から終期時刻までの各時刻間の逆遷移行列の転置行列、終期時刻から初期時刻までの各時刻間の遷移行列の転置行列、初期時刻の逆割当行列を順に作用させて、画像データを再構成する。そして、再構成誤差算出部20は、再構成した再構成画像データと、元の初期時刻の画像データとの再構成誤差を算出する。
【0023】
パラメータ更新部22は、再構成誤差算出部20によって算出された再構成誤差が最小化されるように、畳み込みニューラルネットワーク24のパラメータを更新する。
【0024】
図2及び図3を参照して、本実施形態の畳み込みニューラルネットワークの学習方法について詳説する。
図2及び図3に示されるように、畳み込みニューラルネットワークの学習方法については、以下の各ステップを有する。
【0025】
ピクセル特徴取得ステップS12
ピクセル特徴取得ステップS12では、動画の各時刻の画像データから、畳み込みニューラルネットワーク(CNN)を用いて、各時刻の各ピクセルの特徴ベクトルを示す特徴マップを取得する。
【0026】
動画をVとすると、動画Vは次式(1)により示される。
【数1】
Itは、時刻tの画像データを示し、1は初期時刻、Tは終期時刻を示す。画像データItは、次式(2)により示される。
【数2】
H及びWは、画像の高さ及び幅をピクセル数で示すものであり、3は、輝度値であるRGB値の3次元を示すものである。時刻tのピクセルをptとし、i番目のピクセルをpt(i)とする。畳み込みニューラルネットワークにより取得されるピクセルpt(i)の特徴ベクトルをFt(i)とし、特徴マップをFtとすると、特徴マップFtは、次式(3)により示される。
【数3】
φは、畳み込みニューラルネットワークを示し、θは、畳み込みニューラルネットワークのパラメータを示す。また、Cは特徴ベクトルの次元を示す。
【0027】
割当算出ステップS14
割当算出ステップS14では、各時刻の画像データから、各時刻のスーパーピクセルを生成する。なお、上述したとおり、スーパーピクセルとは、特徴ベクトルの類似するピクセルを纏めて1つの大きなピクセルとしたものである。即ち、割当算出ステップS14では、所定のピクセルがいずれのスーパーピクセルに割り当てられるかを割合で示す各時刻の割当行列を算出する。また、割当算出ステップS14では、所定のスーパーピクセルがいずれのピクセルに割り当てられるかを割合で示す初期時刻の逆割当行列を算出する。
【0028】
時刻tのスーパーピクセルをstとし、j番目のスーパーピクセルをst(j)とする。時刻tの割当行列をAtとし、時刻tにおけるi番目のピクセルpt(i)からj番目のスーパーピクセルst(j)への割り当てをAt(i,j)とすると、割当行列Atは、割当At(i,j)をi行j列要素とする行列となる。割当行列Atについては、離散値{0,1}又は連続値[0,1]をとるが、本実施形態の割当行列Atでは、割当行列Atの各成分At(i,j)は連続値[0,1]となり、割当行列Atは、次式(4)により示される。
【数4】
【数5】
Nは、スーパーピクセルの個数である。
【0029】
式(4-2)における拘束条件については、i番目のピクセルpt(i)からj番目のスーパーピクセルst(j)への割当At(i,j)を、iについて即ち全てのピクセルpt(i)について合計すると1となるというものである。換言すれば、割当行列Atは、所定のスーパーピクセルst(j)がいずれのピクセルpt(i)により構成されているかを割合で示すものであり、割当At(i,j)は、j番目のスーパーピクセルst(j)を構成するi番目のピクセルpt(i)の構成割合を示すものである。
【0030】
このような割当行列Atの算出方法は、適宜選択可能であり、例えば、以下の文献に示される算出方法が利用可能である。
Jampani, Varun, et al. "Superpixel sampling networks." Proceedings of the EuropeanConference on Computer Vision (ECCV). 2018.
【0031】
時刻tの逆割当行列をAt~とし、時刻tのj番目のスーパーピクセルst(j)からi番目のピクセルpt(i)への割り当てをAt~(i,j)とすると、逆割当行列At~は、割当At~(i,j)をi行j列要素とする行列となり、逆割当行列At~は、次式(5)により示される。
【数6】
【数7】
式(5-2)から、j番目のスーパーピクセルst(j)からi番目のピクセルpt(i)への割当At~(i,j)を、jについて即ち全てのスーパーピクセルst(j)について合計すると1となる。換言すれば、逆割当行列At~は、所定のピクセルpt(i)がいずれのスーパーピクセルst(j)により構成されているかを割合で示すものであり、割当At~(i,j)は、i番目のピクセルpt(i)を構成するj番目のスーパーピクセルst(j)の構成割合を示すものである。
式(5-2)に基づき、初期時刻t=1の逆割当行列A1~を算出する。
【0032】
スーパーピクセル特徴算出ステップS16
スーパーピクセル特徴算出ステップS16では、ピクセル特徴取得ステップS12によって取得された各時刻の各ピクセルの特徴ベクトルを示す特徴マップと、割当算出ステップS14によって算出された各時刻の割当行列とから、各時刻の各スーパーピクセルの特徴ベクトルを算出する。
【0033】
時刻tのスーパーピクセルstの特徴ベクトルをStとすると、特徴ベクトルStは、次式(6)により示される。
【数8】
上述したとおり、割当At(i,j)は、j番目のスーパーピクセルst(j)を構成するi番目のピクセルpt(i)の構成割合を示すものである。このため、次式(7-1)に示されるように、j番目のスーパーピクセルst(j)の特徴ベクトルSt(j)については、割当At(i,j)とi番目のピクセルpt(i)の特徴ベクトルFt(i)とのiについての積和をとることにより算出することができる。即ち、次式(7-2)に示されるように、スーパーピクセルstの特徴ベクトルStは、割当行列Atの転置行列At trをピクセルptの特徴マップFtにかけることにより算出することができる。
【数9】
【数10】
【0034】
遷移算出ステップS18
遷移算出ステップS18では、スーパーピクセル特徴算出ステップS16によって算出された各時刻の各スーパーピクセルの特徴ベクトルに基づき、所定時刻の所定のスーパーピクセルの特徴ベクトルと所定時刻の次時刻のスーパーピクセルの特徴ベクトルとの類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の次時刻のいずれのスーパーピクセルに遷移するかを確率で示す各時刻間の遷移行列を算出する。また、遷移算出ステップS18では、同様にして、所定時刻の所定のスーパーピクセルの特徴ベクトルと所定時刻の前時刻のスーパーピクセルの特徴ベクトルとの類似度に応じて、所定時刻の所定のスーパーピクセルが所定時刻の前時刻のいずれのスーパーピクセルに遷移するかを確率で示す各時刻間の逆遷移行列を算出する。
【0035】
時刻tのスーパーピクセルstから時刻t+1のスーパーピクセルst+1への遷移行列をTt t+1とし、時刻tのl番目のスーパーピクセルst(l)から時刻t+1のk番目のスーパーピクセルst+1(k)への遷移確率をTt t+1(k,l)とすると、遷移行列Tt t+1は、k行l列要素をTt t+1(k,l)とする行列となる。遷移確率Tt t+1(k,l)については、時刻tのl番目のスーパーピクセルst(l)の特徴ベクトルSt(l)と時刻t+1のk番目のスーパーピクセルst+1(k)の特徴ベクトルSt+1(k)との類似度を用いて、次式(8)に示されるように定義される。
【数11】
Sは、類似度関数であり、コサイン類似度、負のユークリッド距離等が用いられる。
【0036】
式(8)に示されるように、時刻tのl番目のスーパーピクセルst(l)の特徴ベクトルSt(l)と時刻t+1のk番目のスーパーピクセルst+1(k)の特徴ベクトルSt+1(k)との類似度が高いほど、時刻tのl番目のスーパーピクセルst(l)から時刻t+1のk番目のスーパーピクセルst+1(k)への遷移確率が大きくなる。
【0037】
ここで、式(8)から、時刻tのl番目のスーパーピクセルst(l)から時刻t+1のk番目のスーパーピクセルst+1(k)への遷移確率Tt t+1(k,l)は、kについて即ち時刻t+1の全てのスーパーピクセルst+1(k)について合計すると1になる。換言すれば、遷移行列Tt t+1は、時刻tの所定のスーパーピクセルst(l)が時刻t+1のいずれのスーパーピクセルst+1(k)の遷移により構成されているかを割合で示すものであり、遷移確率Tt t+1(k,l)は、時刻tのl番目のスーパーピクセルst(l)を遷移により構成する時刻t+1のk番目のスーパーピクセルst+1(k)の構成割合を示すものである。
【0038】
さらに、次式(9)に示されるように、時刻tから時刻t+vへの遷移行列Tt t+vは、各時刻間の遷移行列の積として定義される。
【数12】
【0039】
また同様に、時刻t+1のl番目のスーパーピクセルst+1(l)から時刻tのk番目のスーパーピクセルst(k)への逆遷移確率Tt+1 t(k,l)は、次式(10)のように定義され、時刻t+1のスーパーピクセルst+1から時刻tのスーパーピクセルstへの逆遷移行列Tt+1 tは、k行l列要素を逆遷移確率Tt+1 t(k,l)とする行列となる。
【数13】
【0040】
ここで、式(10)から、時刻t+1のl番目のスーパーピクセルst+1(l)から時刻tのk番目のスーパーピクセルst(k)への逆遷移確率Tt+1 t(k,l)は、kについて即ち時刻tの全てのスーパーピクセルst(k)について合計すると1になる。換言すれば、逆遷移行列Tt+1 tは、時刻t+1の所定のスーパーピクセルst+1(l)が時刻tのいずれのスーパーピクセルst(k)の遷移により構成されているかを割合で示すものであり、逆遷移確率Tt+1 t(k,l)は、時刻t+1のl番目のスーパーピクセルst+1(l)を遷移により構成する時刻tのk番目のスーパーピクセルst(k)の構成割合を示すものである。
【0041】
さらに、次式(11)に示されるように、時刻t+vから時刻tへの逆遷移行列Tt+v tは、各時刻間の逆遷移行列の積として定義される。
【数14】
【0042】
再構成誤差算出ステップS20
再構成誤差算出ステップS20では、初期時刻の画像データに、初期時刻の割当行列の転置行列、初期時刻から終期時刻までの各時刻間の逆遷移行列の転置行列、終期時刻から初期時刻までの各時刻間の遷移行列の転置行列、初期時刻の逆割当行列を順に作用させて、画像データを再構成し、再構成した再構成画像データと、元の初期時刻の画像データとの再構成誤差を算出する。
【0043】
初期時刻t=1の画像データI1から再構成された再構成画像データをI1^とすると、再構成画像データI1^は、式(12)に示されるように再構成される。
【数15】
【0044】
上述したとおり、割当行列Atのi行j列要素At(i,j)は、j番目のスーパーピクセルst(j)を構成するi番目のピクセルpt(i)の構成割合を示すものである。このため、初期時刻t=1の割当A1(i,j)と初期時刻t=1のi番目のピクセルpt(i)の画像データI1(i)とのiについての積和をとることにより、即ち、初期時刻t=1の割当行列A1の転置行列A1 trを初期時刻t=1の画像データI1にかけることにより、初期時刻t=1のスーパーピクセルs1の画像データR1が構成される。
【0045】
逆遷移確率Tt+1 t(k,l)は、時刻t+1のl番目のスーパーピクセルst+1(l)を遷移により構成する時刻tのk番目のスーパーピクセルst(k)の構成割合を示すものである。このため、時刻tの逆遷移確率Tt+1 t(k,l)と時刻tのk番目のスーパーピクセルst(k)の画像データRt(k)とのkについての積和をとることにより、即ち、時刻tの逆遷移行列Tt+1 tの転置行列Tt+1 t trを時刻tのスーパーピクセルstの画像データRtにかけることにより、次時刻t+1のスーパーピクセルst+1の画像データRt+1が構成される。このため、終期時刻t=Tから初期時刻t=1までの逆遷移行列TT 1の転置行列TT 1 trを初期時刻t=1のスーパーピクセルs1の画像データR1にかけることにより、終期時刻t=TのスーパーピクセルsTの画像データRTが構成される。
【0046】
同様に、遷移確率Tt t+1(k,l)は、時刻tのl番目のスーパーピクセルst(l)を遷移により構成する時刻t+1のk番目のスーパーピクセルst+1(k)の構成割合を示すものである。このため、時刻tの遷移確率Tt t+1(k,l)と時刻t+1のk番目のスーパーピクセルst+1(k)の画像データRt+1~(k)とのkについての積和をとることにより、即ち、遷移行列Tt t+1の転置行列Tt t+1 trを時刻t+1のスーパーピクセルst+1の画像データRt+1~にかけることにより、前時刻tのスーパーピクセルstの画像データRt~が構成される。このため、初期時刻t=1から終期時刻t=Tまでの遷移行列T1 Tの転置行列T1 T trを終期時刻t=TのスーパーピクセルsTの画像データRTにかけることにより、初期時刻t=1のスーパーピクセルs1の画像データR1~が構成される。
【0047】
割当At~(i,j)は、i番目のピクセルpt(i)を構成するj番目のスーパーピクセルst(j)の構成割合を示すものである。このため、初期時刻t=1の割当A1~ (i,j)と初期時刻t=1のj番目のスーパーピクセルs1(j)の画像データR1~(j)とのjについての積和をとることにより、即ち、初期時刻t=1の逆割当行列A~1の転置行列At~trを初期時刻t=1のスーパーピクセルs1の画像データR1~にかけることにより、初期時刻t=1のピクセルp1の画像データ、即ち、再構成画像データI1^が構成される。
【0048】
初期時刻t=1の画像データI1と再構成画像データI1^との間の再構成誤差Lについては、適宜選択可能であるが、本実施形態では、次式(13)に示されるように、初期時刻t=1の画像データI1と再構成画像データI1^とのL2ノルムとする。
【数16】
【0049】
パラメータ更新ステップS22
パラメータ更新ステップS22では、再構成誤差算出ステップS20によって算出された再構成誤差が最小化されるように、畳み込みニューラルネットワークのパラメータを更新する。パラメータの更新方法については、適宜選択可能であるが、本実施形態では、確率的勾配降下法を用いる。
【0050】
繰り返しステップS24
上記各ステップを繰り返し、畳み込みニューラルネットワークのパラメータを最適化させる。本実施形態では、確率的勾配降下法を用いて、次式(14)により示される最小化問題の解を得ることとなる。
【数17】
【0051】
ここで、畳み込みニューラルネットワークの表現の時不変性が高くなるほど、異なる時刻であっても、同一の物体の領域に属するピクセルの特徴ベクトルは同一ないし類似したものとなり、特徴ベクトルの類似したピクセルを纏めたスーパーピクセルの特徴ベクトルも同一ないし類似したものとなる。そして、異なる時刻のスーパーピクセル間の逆遷移確率及び遷移確率については、異なる時刻のスーパーピクセルの特徴ベクトル間の類似度が高くなるほど高くなる。このため、畳み込みニューラルネットワークの表現の時不変性が高くなるほど、構成先のスーパーピクセルの画像データの構成において、構成先のスーパーピクセルと同一ないし類似する物体の領域に属する構成元のスーパーピクセルの画像データの構成割合が高くなって、構成先の時刻の元の時系列画像データから割当行列を用いて算出したスーパーピクセルの画像データに対して、構成されたスーパーピクセルの画像データの再現性が高くなる。このため、スーパーピクセルの画像データを初期時刻から終期時刻、さらに終期時刻から初期時刻まで順次構成することを介して算出された再構成画像データについて、元の初期時刻の画像データに対する再現性が高くなる。従って、畳み込みニューラルネットワークに再構成画像データと元の初期時刻の画像データとの間の再構成誤差を最小化するように学習を行わせることにより、畳み込みニューラルネットワークに時不変な特徴量についての学習を行わせることができ、学習済みの畳み込みニューラルネットワークによって時不変性の高い表現が実現される。
【0052】
本実施形態の学習装置10及び方法については、以下の作用効果を奏する。
本実施形態では、異なる時刻のスーパーピクセル間の逆遷移確率及び遷移確率については、異なる時刻のスーパーピクセルの特徴ベクトル間の類似度が高くなるほど高くなっている。このため、畳み込みニューラルネットワークの表現の時不変性が高くなるほど、構成先のスーパーピクセルの画像データの構成について、構成先のスーパーピクセルと同一ないし類似する物体の領域に属する構成元のスーパーピクセルの画像データの構成割合が高くなり、構成されたスーパーピクセルの画像データの再現性が高くなる。そこで、スーパーピクセルの画像データを初期時刻から終期時刻、さらに終期時刻から初期時刻まで順次構成することを介して算出した再構成画像データと元の初期時刻の画像データとの間の再構成誤差を最小化するように畳み込みニューラルネットワークに学習を行わせることにより、畳み込みニューラルネットワークに時不変な特徴量についての学習を行わせることができる。従って、学習済みの畳み込みニューラルネットワークによって時不変性の高い表現を実現することが可能となっている。
【0053】
本実施形態では、スーパーピクセルの画像データを初期時刻から終期時刻、さらに終期時刻から初期時刻まで順次構成することを介して再構成画像データを算出している。ここで、スーパーピクセルの画像データについては、ピクセルの画像データよりデータ量が少なくなるため、ピクセルの画像データを初期時刻から終期時刻、さらに終期時刻から初期時刻まで順次構成することを介して再構成画像データを算出する場合と比較して、計算量を減少させることが可能となっている。このように計算量が減少されているため、畳み込みニューラルネットワークにおける学習については、時系列画像データを粗視化することなくそのまま用いて、時系列画像データと同解像度の特徴マップを得る学習を行うことができ、画像分割で利用されるような畳み込みニューラルネットワークを用いた事前学習が可能となっている。
【0054】
従来のCycle Consistencyを用いる学習では、学習における拘束条件がきつくなっており、必ずしも適切な学習を行えるわけではないが、本実施形態の学習では、このような拘束条件を課しておらず、適切な学習を行うことが可能となっている。
【0055】
従来のColorizationを用いる学習については、初期時刻の画像データの色から目標時刻の画像データの色を再現するものであるが、初期時刻の画像データに存在しない色が目標時刻の画像データに存在した場合に、遷移先が不安定となり、必ずしも正解が存在しないことがある。本実施形態の学習では、初期時刻から終期時刻、さらに終期時刻から初期時刻まで遷移をループさせているため、再現目標となる画像データは元の初期時刻の画像データとなり、遷移先が不安定となるのを回避することが可能となっている。
【0056】
図4乃至図6を参照して、本発明の第2実施形態について説明する。
本実施形態の物体追跡については、第1実施形態の学習において用いたスーパーピクセル間の遷移を利用するものである。
【0057】
図4を参照して、本実施形態の物体追跡装置30について概説する。第1実施形態と同様な構成については、詳細な説明を省略する。
【0058】
物体追跡装置30では、ピクセル特徴取得部12は、畳み込みニューラルネットワーク24を用いて、各時刻の各ピクセルの特徴ベクトルを示す特徴マップ取得する。割当算出部14は、各時刻の割当行列、並びに、目標時刻の逆割当行列を算出する。スーパーピクセル特徴算出部16は、各時刻の各スーパーピクセルの特徴ベクトルを算出する。遷移算出部18は、各時刻間の逆遷移行列を算出する。指標画像算出部32は、追跡対象の物体を示す初期時刻の指標画像に、初期時刻の割当行列、初期時刻から目標時刻までの各時刻間の逆遷移行列、目標時刻の逆割当行列を順に作用させて、目標時刻の指標画像を算出する。
【0059】
図5を参照して、本実施形態の物体追跡方法について詳説する。第1実施形態と同様なステップについては、詳細な説明を省略する。
【0060】
ピクセル特徴取得ステップS32
ピクセル特徴取得ステップS32では、各時刻の各ピクセルの特徴ベクトルを示す特徴マップを取得する。
【0061】
割当算出ステップS34
割当算出ステップS34では、各時刻の割当行列、並びに、目標時刻の逆割当行列を算出する。
【0062】
スーパーピクセル特徴算出ステップS36
スーパーピクセル特徴算出ステップS36では、各時刻の各スーパーピクセルの特徴ベクトルを算出する。
【0063】
遷移算出ステップS38
遷移算出ステップS38では、各時刻間の逆遷移行列を算出する。
【0064】
指標画像算出ステップS40
指標画像算出ステップS40では、追跡対象の物体を示す初期時刻の指標画像に、初期時刻の割当行列、初期時刻から目標時刻までの各時刻間の逆遷移行列、目標時刻の逆割当行列を順に作用させて、目標時刻の指標画像を算出する。
【0065】
初期時刻t=1の画像データI1から、追跡対象の物体を示す初期時刻の指標画像として、マスクデータM1を抽出する。マスクデータM1については、次式(15)により表される。
【数18】
マスクデータM1から、次式(16)に示されるように、目標時刻toにおける指標画像として、目標時刻toのマスクデータMtoを算出する。
【数19】
【0066】
第1実施形態と同様に、初期時刻t=1のマスクデータM1に初期時刻t=1の割当行列A1の転置行列A1 trをかけることにより、初期時刻t=1のスーパーピクセルs1のマスクデータU1が構成される。初期時刻t=1のスーパーピクセルs1のマスクデータU1に、初期時刻t=1から目標時刻t=toまでの逆遷移行列Tto 1の転置行列Tto 1 trをかけることにより、目標時刻t=toのスーパーピクセルstoのマスクデータUtoが構成される。目標時刻t=toのスーパーピクセルstoの画像データUtoに目標時刻t=toの逆割当行列Ato~をかけることにより、目標時刻t=toのピクセルptoのマスクデータMtoが構成される。このようにして構成された目標時刻t=toのマスクデータMtoから、目標時刻t=toにおける追跡対象の物体を検出する。追跡対象の物体の検出については、適宜の方法を選択可能であり、例えば、所定の閾値以上の値をもつピクセルについては物体に属すると判断することができる。
【0067】
図6を参照して、本実施形態の物体追跡の結果について説明する。
図6(a)は、初期時刻の画像データであり、バイク及びその乗員を含むものである。図6(b)は、初期時刻のマスクデータを示すものであり、バイク及び乗員が夫々マスクされている。図6(c)は、目標時刻の画像データに、本実施形態の物体追跡により得られた目標時刻のマスクデータを重畳して示すものである。図6(d)は、目標時刻の画像データに、従来のCycle Consistencyを用いた物体追跡により得られた目標時刻のマスクデータを重畳して示すものである。
【0068】
また、本実施形態の物体追跡では、58.5 mloUの追跡精度が得られたのに対して、従来のCycle Consistencyを用いた物体追跡では、40.1 mloUの追跡精度が得られた。なお、mloUとは、正解画像の追跡対象の物体と物体追跡で得られたマスクデータとの重複率を示すものである。このように、本実施形態の物体追跡の精度については、従来のCycle Consistencyを用いた物体追跡の精度よりも高くなっている。
【0069】
本実実施形態の畳み込みニューラルネットワークについては、第1実施形態の学習により学習済みのものであることが好ましく、第1実施形態の学習により学習済みの畳み込みニューラルネットワークを用いることにより、物体の追跡精度をさらに向上することが可能である。
【0070】
以上の各実施形態では、学習装置10及び方法、並びに、物体追跡装置30及び方法について述べたが、コンピュータに当該装置の各機能を実現させるプログラム、又は、コンピュータに当該方法の各ステップを実行させるプログラムについても、本発明の範囲に含まれる。
【符号の説明】
【0071】
10…学習装置 12…ピクセル特徴取得部 14…割当算出部
16…スーパーピクセル特徴算出部 18…遷移算出部 20…再構成誤差算出部
22…パラメータ更新部 24…畳み込みニューラルネットワーク 30…物体追跡装置
32…指標画像算出部
図1
図2
図3
図4
図5
図6