特許6989873 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズの特許一覧 ▶ 国立大学法人　和歌山大学の特許一覧

特許6989873システム、画像認識方法、及び計算機

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2021-12-07

(45)【発行日】2022-01-12

(54)【発明の名称】システム、画像認識方法、及び計算機

(51)【国際特許分類】

G06T 7/00 20170101AFI20220104BHJP

G06T 7/246 20170101ALI20220104BHJP

【ＦＩ】

G06T7/00 350C

G06T7/246

【請求項の数】 8

(21)【出願番号】P 2018003548

(22)【出願日】2018-01-12

(65)【公開番号】P2019125031

(43)【公開日】2019-07-25

【審査請求日】2020-08-13

(73)【特許権者】

【識別番号】000233055

【氏名又は名称】株式会社日立ソリューションズ

(73)【特許権者】

【識別番号】504145283

【氏名又は名称】国立大学法人和歌山大学

(74)【代理人】

【識別番号】110001678

【氏名又は名称】特許業務法人藤央特許事務所

(72)【発明者】

【氏名】戚意強

(72)【発明者】

【氏名】呉海元

(72)【発明者】

【氏名】陳謙

【審査官】千葉久博

(56)【参考文献】

【文献】特開２０１３－３７５４９（ＪＰ，Ａ）

【文献】特開２０１１－１４５７９１（ＪＰ，Ａ）

【文献】特開２０１１－１８２３８（ＪＰ，Ａ）

【文献】長森藤江，““あなただけの人工知能をつくる” ＤｅｅｐＬｅａｒｎｉｎｇ画像認識システム”，画像ラボ，日本，日本工業出版株式会社，2016年12月10日，第27巻, 第12号，p.31-35

【文献】田口弘貴, 外1名，“弱識別器の適応的学習によるオンライン物体追跡”，研究報告コンピュータビジョンとイメージメディア（ＣＶＩＭ），日本，情報処理学会，2013年05月23日，第2013-CVIM-187巻, 第27号，p.1-4

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／２４６

(57)【特許請求の範囲】

【請求項1】

画像データに含まれる追跡対象を追跡するための認識処理を実行する認識サーバ及び前記認識処理に使用される識別器の学習を行う学習サーバを備えるシステムであって、
前記認識サーバは、第１演算装置、前記第１演算装置に接続される第１記憶装置、前記第１演算装置に接続される第１インタフェースを有し、
前記学習サーバは、第２演算装置、前記第２演算装置に接続される第２記憶装置、前記第２演算装置に接続される第２インタフェースを有し、
前記認識サーバは、
前記追跡対象が指定された初期画像データを受け付け、前記追跡対象より小さいサイズの複数のブロックに前記初期画像データを分割し、
前記初期画像データに含まれる各ブロックの特徴量を算出し、
前記追跡対象の一部を含むブロックであるか否かを示す教師信号を、前記初期画像データに含まれる各ブロックの特徴量に付与することによって初期学習用データを生成し、
前記初期学習用データを前記学習サーバに送信し、
前記学習サーバは、
前記初期学習用データを用いた学習を行うことによって、受信した前記画像データに含まれる各ブロックを、前記追跡対象の一部を含むブロック及び前記追跡対象を含まないブロックのいずれかに分類する識別器を生成し、
前記識別器を前記認識サーバに送信し、
前記認識サーバは、
前記識別器を用いて、受信した前記画像データに対する前記認識処理を実行し、
前記認識処理の結果を出力することを特徴とするシステム。

【請求項2】

請求項１に記載のシステムであって、
前記第１記憶装置は、前記画像データの前記追跡対象を含む領域である追跡対象領域の設定情報を格納し、
前記認識サーバは、
前記学習サーバから前記識別器を受信した後に、新規画像データを受信した場合、前記新規画像データを前記複数のブロックに分割し、
前記新規画像データに含まれる各ブロックの特徴量を算出し、
前記追跡対象領域の設定情報に基づいて、前記認識処理の対象となる領域である検索領域を設定し、
前記新規画像データに含まれる複数のブロックの中からターゲットブロックを選択し、
前記ターゲットブロックが前記検索領域に含まれるブロックであるか否かを判定し、
前記ターゲットブロックが前記検索領域に含まれるブロックでないと判定された場合、前記ターゲットブロックを、前記追跡対象の一部を含まないブロックに分類し、
前記ターゲットブロックが前記検索領域に含まれるブロックであると判定された場合、前記識別器に前記ターゲットブロックの特徴量を入力し、
前記識別器の出力に基づいて、前記ターゲットブロックを、前記追跡対象の一部を含むブロック及び前記追跡対象の一部を含まないブロックのいずれかに分類し、
前記追跡対象の一部を含むブロックの分布に基づいて新たな追跡対象領域を推定し、
前記新たな追跡対象領域の推定の結果に基づいて、前記追跡対象領域の設定情報を更新することを特徴とするシステム。

【請求項3】

請求項２に記載のシステムであって、
前記学習サーバは、
前記認識サーバによって生成された追加学習用データを受信した場合、前記追加学習用データを用いた学習を行うことによって前記識別器を更新し、
更新された前記識別器を前記認識サーバに送信し、
前記認識サーバは、
前記新規画像データに含まれる複数のブロックの特徴量に、前記分類の結果に対応する前記教師信号を付与することによって前記追加学習用データを生成し、
前記追加学習用データを前記学習サーバに送信し、
更新された前記識別器を用いて、受信した前記画像データに対する前記認識処理を実行し、
前記認識処理の結果を出力することを特徴とするシステム。

【請求項4】

複数の計算機を有するシステムが実行する画像認識方法であって、
前記システムは、画像データに含まれる追跡対象を追跡するための認識処理を実行する認識サーバ及び前記認識処理に使用される識別器の学習を行う学習サーバを含み、
前記認識サーバは、第１演算装置、前記第１演算装置に接続される第１記憶装置、前記第１演算装置に接続される第１インタフェースを有し、
前記学習サーバは、第２演算装置、前記第２演算装置に接続される第２記憶装置、前記第２演算装置に接続される第２インタフェースを有し、
前記画像認識方法は、
前記認識サーバが、前記追跡対象が指定された初期画像データを受け付け、前記追跡対象より小さいサイズの複数のブロックに前記初期画像データを分割するステップと、
前記認識サーバが、前記初期画像データに含まれる各ブロックの特徴量を算出するステップと、
前記認識サーバが、前記追跡対象の一部を含むブロックであるか否かを示す教師信号を、前記初期画像データに含まれる各ブロックの特徴量に付与することによって初期学習用データを生成するステップと、
前記認識サーバが、前記初期学習用データを前記学習サーバに送信するステップと、
前記学習サーバが、前記初期学習用データを用いた学習を行うことによって、受信した前記画像データに含まれる各ブロックを、前記追跡対象の一部を含むブロック及び前記追跡対象を含まないブロックのいずれかに分類する識別器を生成するステップと、
前記学習サーバが、前記識別器を前記認識サーバに送信するステップと、
前記認識サーバが、前記識別器を用いて、受信した前記画像データに対する前記認識処理を実行するステップと、
前記認識サーバが、前記認識処理の結果を出力するステップと、を含むことを特徴とする画像認識方法。

【請求項5】

請求項４に記載の画像認識方法であって、
前記第１記憶装置は、前記画像データの前記追跡対象を含む領域を示す追跡対象領域の設定情報を格納し、
前記画像認識方法は、
前記認識サーバが、前記識別器を受信した後に、新規画像データを受信した場合、前記新規画像データを前記複数のブロックに分割するステップと、
前記認識サーバが、前記新規画像データに含まれる各ブロックの特徴量を算出するステップと、
前記認識サーバが、前記追跡対象領域の設定情報に基づいて、前記認識処理の対象となる領域である検索領域を設定するステップと、
前記認識サーバが、前記新規画像データに含まれる複数のブロックの中からターゲットブロックを選択するステップと、
前記認識サーバが、前記ターゲットブロックが前記検索領域に含まれるブロックであるか否かを判定するステップと、
前記認識サーバが、前記ターゲットブロックが前記検索領域に含まれるブロックでないと判定された場合、前記ターゲットブロックを、前記追跡対象を含まないブロックに分類するステップと、
前記認識サーバが、前記ターゲットブロックが前記検索領域に含まれるブロックであると判定された場合、前記識別器に前記ターゲットブロックの特徴量を入力し、前記識別器の出力に基づいて、前記ターゲットブロックを、前記追跡対象の一部を含むブロック及び前記追跡対象を含まないブロックのいずれかに分類するステップと、
前記認識サーバが、前記追跡対象の一部を含むブロックの分布に基づいて新たな追跡対象領域を推定するステップと、
前記認識サーバが、前記新たな追跡対象領域の推定の結果に基づいて、前記追跡対象領域の設定情報を更新するステップと、を含むことを特徴とする画像認識方法。

【請求項6】

請求項５に記載の画像認識方法であって、
前記認識サーバが、前記新規画像データに含まれる複数のブロックの特徴量に、前記分類の結果に対応する前記教師信号を付与することによって追加学習用データを生成するステップと、
前記認識サーバが、前記追加学習用データを前記学習サーバに送信するステップと、
前記学習サーバが、前記追加学習用データを受信した場合、前記追加学習用データを用いた学習を行うことによって前記識別器を更新するステップと、
前記学習サーバが、更新された前記識別器を前記認識サーバに送信するステップと、
前記認識サーバが、更新された前記識別器を用いて、受信した前記画像データに対する前記認識処理を実行するステップと、
前記認識サーバが、前記認識処理の結果を出力するステップと、を含むことを特徴とする画像認識方法。

【請求項7】

画像データに含まれる追跡対象を認識する認識処理を実行する計算機であって、
演算装置、前記演算装置に接続される記憶装置、前記演算装置に接続されるインタフェースを有し、
前記演算装置は、
前記追跡対象を指定する情報として、前記追跡対象を含む領域である追跡対象領域が設定された初期画像データを受け付け、前記追跡対象領域の設定情報を前記記憶装置に格納し、
前記追跡対象より小さいサイズの複数のブロックに前記初期画像データを分割し、
前記初期画像データに含まれる各ブロックの特徴量を算出し、
前記追跡対象の一部を含むブロックであるか否かを示す教師信号を、前記初期画像データに含まれる各ブロックの特徴量に付与することによって初期学習用データを生成し、
前記初期学習用データを、前記認識処理に使用する識別器の学習を行う学習部に出力し、
前記学習部によって生成された、前記画像データに含まれる各ブロックを前記追跡対象の一部を含むブロック及び前記追跡対象を含まないブロックのいずれかに分類する識別器を受信した後に、新規画像データを受信した場合、前記新規画像データを前記複数のブロックに分割し、
前記新規画像データに含まれる各ブロックの特徴量を算出し、
前記追跡対象領域の設定情報に基づいて、前記認識処理の対象となる領域である検索領域を設定し、
前記新規画像データに含まれる複数のブロックの中からターゲットブロックを選択し、
前記ターゲットブロックが前記検索領域に含まれるブロックであるか否かを判定し、
前記ターゲットブロックが前記検索領域に含まれるブロックでないと判定された場合、前記ターゲットブロックを、前記追跡対象を含まないブロックに分類し、
前記ターゲットブロックが前記検索領域に含まれるブロックであると判定された場合、前記識別器に前記ターゲットブロックの特徴量を入力し、
前記識別器の出力に基づいて、前記ターゲットブロックを、前記追跡対象の一部を含むブロック及び前記追跡対象を含まないブロックのいずれかに分類し、
前記追跡対象を含むブロックの分布に基づいて新たな追跡対象領域を推定し、
前記新たな追跡対象領域の推定の結果に基づいて、前記追跡対象領域の設定情報を更新し、
前記分類の結果を含む前記認識処理の結果を出力することを特徴とする計算機。

【請求項8】

請求項７に記載の計算機であって、
前記演算装置は、
前記新規画像データに含まれる前記複数のブロックの特徴量に、前記分類の結果に対応する前記教師信号を付与することによって追加学習用データを生成し、
前記追加学習用データを前記学習部に出力し、
前記学習部によって更新された前記識別器を用いて、受信した前記画像データに対する前記認識処理を実行することを特徴とする計算機。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像認識を行うシステム、方法、及び計算機に関する。

【背景技術】

【0002】

動画等の画像データから人物及び車両等の対象物を追跡する技術が知られている（例えば、特許文献１を参照）。

【0003】

特許文献１には、「画像を逐次取得する取得部と、画像から部分領域を抽出して当該部分領域から特徴量を抽出する抽出部と、抽出された特徴量と、対象物体を示す正事例の特徴量および対象物体の背景を示す負事例の特徴量を含む第１の認識モデルまたは正事例の特徴量を含む第２の認識モデルとに基づいて、部分領域が対象物体か否か認識する認識部と、認識の結果に基づいて、抽出された特徴量を第１の認識モデルへ追加して更新する更新部と、対象物体と認識された物体領域を出力する出力部と、を備え、認識部は、取得部により取得された前の画像について物体領域が出力されている場合、第１の認識モデルに基づいて認識し、前の画像について物体領域が出力されていない場合、第２の認識モデルに基づいて認識する。」ことが記載されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１２－２３８１１９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

従来の画像認識システムでは、追跡対象を追跡するためには、予め、追跡対象を認識するための認識モデル（識別器）を用意する必要がある。一般的に、認識モデルは、多数の学習用データを用いる事前学習を行って生成する必要があり、事前学習の完了までに時間を要する。

【0006】

本発明は、追跡対象の追跡の開始が指示された場合、事前学習を行うことなく、追跡対象の追跡を迅速に開始することができるシステム、方法、及び計算機を提供する。

【課題を解決するための手段】

【0007】

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、画像データに含まれる追跡対象を追跡するための認識処理を実行する認識サーバ及び前記認識処理に使用される識別器の学習を行う学習サーバを備えるシステムであって、前記認識サーバは、第１演算装置、前記第１演算装置に接続される第１記憶装置、前記第１演算装置に接続される第１インタフェースを有し、前記学習サーバは、第２演算装置、前記第２演算装置に接続される第２記憶装置、前記第２演算装置に接続される第２インタフェースを有し、前記認識サーバは、前記追跡対象が指定された初期画像データを受け付け、前記追跡対象より小さいサイズの複数のブロックに前記初期画像データを分割し、前記初期画像データに含まれる各ブロックの特徴量を算出し、前記追跡対象の一部を含むブロックであるか否かを示す教師信号を、前記初期画像データに含まれる各ブロックの特徴量に付与することによって初期学習用データを生成し、前記初期学習用データを前記学習サーバに送信し、前記学習サーバは、前記初期学習用データを用いた学習を行うことによって、受信した前記画像データに含まれる各ブロックを、前記追跡対象の一部を含むブロック及び前記追跡対象を含まないブロックのいずれかに分類する識別器を生成し、前記識別器を前記認識サーバに送信し、前記認識サーバは、前記識別器を用いて、受信した前記画像データに対する前記認識処理を実行し、前記認識処理の結果を出力することを特徴とする。

【発明の効果】

【0008】

本発明の一形態によれば、多数の学習用データを用いる事前学習を行うことなく、追跡対象の追跡を迅速に開始できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0009】

【図1】実施例１の計算機システムの構成例を示す図である。

【図2】実施例１の認識サーバのハードウェア構成及びソフトウェア構成の一例を示す図である。

【図3A】実施例１の認識モジュールが実行する初期学習の処理を説明するフローチャートである。

【図3B】実施例１の認識モジュールが実行する、初期学習完了後の追跡対象の追跡処理を説明するフローチャートである。

【図4】実施例１の認識サーバに入力される、追跡対象領域が設定された画像データの一例を示す図である。

【図5】実施例１の認識サーバが生成する学習用データの一例を示す図である。

【図6】実施例１の学習モジュールが実行する処理を説明するフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明に係る実施例を添付図面を用いて説明する。各図において共通の構成については同一の参照符号が付されている。

【実施例1】

【0011】

図１は、実施例１の計算機システムの構成例を示す図である。

【0012】

計算機システムは、認識サーバ１００、学習サーバ１０１、撮像装置１０５、及びデータベース１０６から構成される。なお、計算機システムは、撮像装置１０５及びデータベース１０６のいずれかを含む構成でもよい。

【0013】

認識サーバ１００、学習サーバ１０１、撮像装置１０５、及びデータベース１０６は、直接又はネットワークを介して互いに接続される。本発明はネットワークの種別に限定されない。ネットワークの種別としては、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）及びＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）がある。また、ネットワークの接続方式は有線及び無線のいずれでもよい。

【0014】

撮像装置１０５は、カメラ等の装置であり、撮影された画像を画像データ１５０として認識サーバ１００又はデータベース１０６に送信する。データベース１０６は、画像データ１５０を格納する。

【0015】

認識サーバ１００は、認識処理を実行する認識モジュール１１０を有する。認識モジュール１１０は、撮像装置１０５又はデータベース１０６から画像データ１５０を取得し、取得された画像データ１５０の認識処理を実行する。また、認識モジュール１１０は、画像データ１５０を用いて学習用データを生成し、学習サーバ１０１に送信する。

【0016】

なお、本実施例の認識処理は、画像データに含まれる追跡対象を追跡するための処理である。

【0017】

学習サーバ１０１は、深層学習による学習を行う学習モジュール１２０を有する。学習モジュール１２０は、学習用データを用いて認識処理に使用される識別器の学習を行う。また、学習モジュール１２０は、学習された識別器を認識サーバ１００に送信する。

【0018】

識別器は関数又は行列等のデータとして表される。本実施例では、追跡対象が指定された画像データ１５０が入力される時点では、当該追跡対象を認識するための識別器は学習されていない。後述するように、学習モジュール１２０は、追跡対象が指定された画像データ１５０に基づいて生成された初期学習用データを用いて識別器の学習を行う。

【0019】

以下の説明では、追跡対象が指定された画像データ１５０を初期画像データ１５０と記載する。

【0020】

なお、認識サーバ１００及び学習サーバ１０１は、物理的に異なる計算機として表しているが、一つの計算機上で稼働する仮想計算機を用いて実現してもよい。

【0021】

図２は、実施例１の認識サーバ１００のハードウェア構成及びソフトウェア構成の一例を示す図である。

【0022】

認識サーバ１００は、ハードウェアとして、演算装置２０１、記憶装置２０２、ネットワークインタフェース２０３、及びＩ／Ｏインタフェース２０４を有する。各ハードウェアは、内部バス等を介して互いに接続される。

【0023】

なお、学習サーバ１０１のハードウェア構成は、認識サーバ１００と同一であるものとする。

【0024】

演算装置２０１は、記憶装置２０２に格納されるプログラムを実行する。演算装置２０１がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、演算装置２０１が当該モジュールを実現するプログラムを実行していることを示す。

【0025】

記憶装置２０２は、演算装置２０１が実行するプログラム及びプログラムが使用する情報を格納する。また、記憶装置２０２は、プログラムが一時的に使用するワークエリアを含む。記憶装置２０２は、例えば、メモリ等が考えられる。

【0026】

実施例１の記憶装置２０２は、認識モジュール１１０を実現するプログラムを格納する。また、記憶装置２０２には、処理対象の画像データ１５０が一時的に格納される。

【0027】

ネットワークインタフェース２０３は、ネットワークを介して他の装置と接続するためのインタフェースである。

【0028】

Ｉ／Ｏインタフェース２０４は、図示しない入力装置及び出力装置と接続するためのインタフェースである。入力装置は、例えば、キーボード、マウス、及びタッチパネル等である。出力装置は、例えば、タッチパネル及びディスプレイ等である。

【0029】

なお、認識サーバ１００が有する認識モジュール１１０については、一つのモジュールを機能毎に複数のモジュールに分けてもよい。

【0030】

図３Ａ及び図３Ｂは、実施例１の認識モジュール１１０が実行する処理を説明するフローチャートである。図３Ａは、実施例１の認識モジュールが実行する初期学習の処理を説明するフローチャートである。図３Ｂは、実施例１の認識モジュールが実行する、初期学習完了後の追跡対象の追跡処理を説明するフローチャートである。図４は、実施例１の認識サーバ１００に入力される、追跡対象領域が設定された画像データ１５０の一例を示す図である。図５は、実施例１の学習用データの生成過程の一例を示す図である。

【0031】

まず、認識モジュール１１０は、初期画像データ１５０の入力を受け付ける（ステップＳ１０１）。本実施例では、初期画像データ１５０は一つであるものとする。

【0032】

ここで、図４を用いて追跡対象を指定する方法について説明する。ユーザは、出力装置に表示される画像データ１５０を参照し、追跡対象を囲む領域を設定することによって追跡対象を指定する。以下の説明では、追跡対象が存在する領域を追跡対象領域と記載する。

【0033】

認識モジュール１１０は、追跡対象領域によって追跡対象が指定された初期画像データ１５０の入力を受け付ける。このとき、認識モジュール１１０は、追跡対象領域の中心位置及びサイズ等を追跡対象領域の設定情報として保持する。

【0034】

以下の説明では、画像データ１５０の追跡対象でない部分を背景と記載し、また、追跡対象領域を除く領域を背景領域と記載する。

【0035】

なお、追跡対象の指定は、認識モジュール１１０が初期画像データ１５０を受け付けた後に行われてもよい。例えば、認識モジュール１１０は、初めて画像データ１５０を受け付けた場合、図４に示すような画面を出力装置に表示し、追跡対象領域の設定を促す表示を行う。

【0036】

本実施例では、初期画像データ１５０の数は一つであるが、複数でもよい。ただし、初期画像データ１５０の数は従来の機械学習で用いる学習用データの数より十分少ないものとする。

【0037】

次に、認識モジュール１１０は初期化処理を実行する（ステップＳ１０２）。

【0038】

具体的には、認識モジュール１１０は、追跡対象に分類されたブロックを格納する記憶領域及び背景に分類されたブロックを格納する記憶領域を初期化する。以下の説明では、追跡対象に分類されたブロックを格納する記憶領域を第１記憶領域と記載し、背景に分類されたブロックを格納する記憶領域を第２記憶領域と記載する。

【0039】

次に、認識モジュール１１０は、初期画像データ１５０を用いて初期学習用データを生成し、学習サーバ１０１に送信する（ステップＳ１０３）。具体的には、認識モジュール１１０は、以下のような処理を実行する。

【0040】

（処理１）認識モジュール１１０は、図５に示すように初期画像データ１５０を任意のサイズの領域に分割する。以下の説明では、一つの領域をブロックと記載する。ブロックのサイズは、画素以上かつ追跡対象より小さくなるように設定される。例えば、画像データのサイズが６４０×４８０の場合、認識モジュール１１０は、縦及び横をそれぞれ３２分割することによって、３００個のブロックを生成する。分割数は予め設定されているものとする。ただし、分割数は任意の値に変更できる。なお、ブロック内の矩形は画素を表す。

【0041】

（処理２）認識モジュール１１０は、各ブロックの特徴量を算出する。例えば、式（１）に示すような、ブロックに含まれる各画素のＲＧＢ値の組合せがブロックの特徴量ｆ_ｉとして算出される。この場合、画像データ１５０の特徴量Ｆは式（２）のように表される。

【0042】

【数1】

【0043】

【数2】

【0044】

ここで、ｉはブロックの識別番号であり、１からｎまでの値を取る。なお、ｎは１より大きい整数とする。ｘ及びｙはブロック内の相対的な画素の位置を示す座標である。

【0045】

（処理３）認識モジュール１１０は、追跡対象領域に含まれるブロックに、追跡対象であることを示す教師信号を付与する。また、認識モジュール１１０は、背景領域に含まれるブロックに、背景であることを示す教師信号を付与する。本実施例では、ブロックの一部が追跡対象領域に含まれる場合、当該ブロックは追跡対象領域に含まれるブロックとして扱われる。以下の説明では、追跡対象であることを示す教師信号を第１教師信号と記載し、背景であることを示す教師信号を第２教師信号と記載する。

【0046】

ここで、識別番号がｉのブロックに付与する教師信号ｔ_ｉを式（３）のように定義した場合、初期学習用データＳは式（４）のように与えられる。

【0047】

【数3】

【0048】

【数4】

【0049】

（処理４）認識モジュール１１０は、式（４）に示す初期学習用データＳを学習サーバ１０１に送信する。以上がステップＳ１０３の説明である。

【0050】

次に、認識モジュール１１０は、初期学習が終了したか否かを判定する（ステップＳ１０４）。

【0051】

具体的には、認識モジュール１１０は、学習サーバ１０１によって生成された識別器を受信したか否かを判定する。本実施例の識別器は、ブロックを追跡対象及び背景のいずれかに分類する。

【0052】

初期学習が終了していないと判定された場合、認識モジュール１１０は、初期学習が終了するまで待ち状態に移行する。

【0053】

初期学習が終了したと判定された場合、認識モジュール１１０は、新たな画像データ１５０を取得し（ステップＳ１０５）、ブロックのループ処理を開始する（ステップＳ１０６）。

【0054】

具体的には、認識モジュール１１０は、取得した画像データ１５０をブロックに分割し、各ブロックの特徴量を算出する。また、認識モジュール１１０は、ブロックの中からターゲットブロックを選択する。また、認識モジュール１１０は、追跡対象領域の設定情報に基づいて検索領域を設定する。本実施例では、検索領域の中心位置は追跡対象領域の中心位置と同一に設定され、検索領域のサイズは追跡対象領域のサイズより大きくなるように設定される。例えば、検索領域のサイズは、追跡対象領域のサイズの１．５倍に設定される。認識モジュール１１０は、一時的に検索領域の設定情報を保持する。

【0055】

認識モジュール１１０は、ターゲットブロックが検索領域に含まれるか否かを判定する（ステップＳ１０７）。

【0056】

具体的には、認識モジュール１１０は、画像データ１５０内のターゲットブロックの位置及び検索領域の設定情報に基づいて、ターゲットブロックが検索領域に含まれるか否かを判定する。

【0057】

ターゲットブロックが検索領域に含まれないと判定された場合、認識モジュール１１０は、ターゲットブロックを背景に分類し、ターゲットブロックを第２記憶領域に格納する（ステップＳ１１１）。その後、認識モジュール１１０はステップＳ１１２に進む。

【0058】

ターゲットブロックが検索領域に含まれると判定された場合、認識モジュール１１０は、認識処理を実行する（ステップＳ１０８）。

【0059】

具体的には、認識モジュール１１０は、識別器にターゲットブロックの特徴量を入力し、識別器から得られた値に基づいて、ターゲットブロックが追跡対象の一部を含むか否かを判定する。ターゲットブロックが追跡対象の一部を含む場合、ターゲットブロックは追跡対象に分類される。ターゲットブロックが追跡対象の一部を含まない場合、ターゲットブロックは背景に分類される。当該分類の結果によって画像データ中の追跡対象の追跡が可能となる。

【0060】

ターゲットブロックが背景に分類された場合、認識モジュール１１０は、ターゲットブロックを第２記憶領域に格納する（ステップＳ１１１）。その後、認識モジュール１１０はステップＳ１１２に進む。

【0061】

ターゲットブロックが追跡対象に分類された場合、認識モジュール１１０は、ターゲットブロックを第１記憶領域に格納する（ステップＳ１１０）。その後、認識モジュール１１０はステップＳ１１２に進む。

【0062】

ステップＳ１１２では、認識モジュール１１０は、全てのブロックに対して処理が完了したか否かを判定する（ステップＳ１１２）。

【0063】

全てのブロックに対して処理が完了していないと判定された場合、認識モジュール１１０は、ステップＳ１０６に戻り、新たなターゲットブロックを選択し、同様の処理を実行する。

【0064】

全てのブロックに対して処理が完了したと判定された場合、認識モジュール１１０は、追跡対象領域を更新する（ステップＳ１１３）。

【0065】

具体的には、認識モジュール１１０は、画像データ１５０内の追跡対象に分類されたブロックの分布に基づいて追跡対象領域を推定する。認識モジュール１１０は、推定結果に基づいて追跡対象領域の設定情報を更新する。

【0066】

例えば、追跡対象に分類された全てのブロックを囲む領域を追跡対象領域として推定する。また、認識モジュール１１０は、追跡対象に分類されたブロックの重心を算出し、重心を基準とする任意のサイズの矩形を追跡対象領域として推定する。なお、追跡対象領域の推定方法は一例であってこれに限定されない。

【0067】

次に、認識モジュール１１０は、追跡対象の認識結果を出力する（ステップＳ１１４）。

【0068】

例えば、認識モジュール１１０は、追跡対象の認識結果を表示するための表示情報を生成し、出力装置に出力する。当該表示情報には、例えば、追跡対象と判定されたブロック及び追跡対象領域等を表示するためのデータが含まれる。

【0069】

次に、認識モジュール１１０は、認識が行われた画像データ１５０を用いて追加学習用データを生成し、学習サーバ１０１に送信する（ステップＳ１１５）。

【0070】

具体的には、認識モジュール１１０は、追跡対象と判定されたブロックに第１教師信号を付与し、背景と判定されたブロックに第２教師信号を付与することによって追加学習用データを生成する。なお、追加学習用データの構造は、初期学習用データＳと同一である。

【0071】

次に、認識モジュール１１０は、追跡対象の追跡が終了したか否かを判定する（ステップＳ１１６）。例えば、追跡の終了指示を受け付けた場合、認識モジュール１１０は、追跡が終了したと判定する。

【0072】

追跡対象の追跡が終了したと判定された場合、認識モジュール１１０は処理を終了する。

【0073】

追跡対象の追跡が終了していないと判定された場合、認識モジュール１１０は、ステップＳ１０５に戻り、同様の処理を実行する。認識モジュール１１０は、学習サーバ１０１によって逐次更新される識別器を用いて同様の処理を実行する。なお、ステップＳ１０５に戻る場合に、認識モジュール１１０は、更新された識別器を受信するまで待ち状態に移行してもよい。

【0074】

図６は、実施例１の学習モジュール１２０が実行する処理を説明するフローチャートである。

【0075】

学習サーバ１０１は、認識サーバ１００から初期学習用データ又は追加学習用データを受信した場合、以下で説明する処理を開始する。以下の説明では、初期学習用データ及び追加学習用データを区別しない場合、学習用データと記載する。

【0076】

学習モジュール１２０は、学習用データを用いて深層学習による学習を行う（ステップＳ２０１）。当該学習によって、ブロック単位の追跡対象及び背景を学習できる。

【0077】

なお、本発明は、使用する深層学習の手法に限定されない。例えば、ＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を用いることが考えられる。

【0078】

次に、学習モジュール１２０は、学習結果に基づいて識別器を生成又は更新し、認識サーバ１００に識別器を送信する（ステップＳ２０２）。その後、学習モジュール１２０は処理を終了する。

【0079】

具体的には、初期学習用データを受信した場合、学習モジュール１２０は識別器を生成し、認識サーバ１００に生成された識別器を送信する。また、追加学習用データを受信した場合、学習モジュール１２０は識別器を更新し、認識サーバ１００に更新された識別器を送信する。

【0080】

従来の学習では、追跡対象全体を認識するための識別器（認識モデル）が生成されていた。このような識別器を生成するためには、多数の学習用データを用いた学習を行う必要がある。そのため、多数の学習用データを用意するためのコストがかかり、また、学習時間が非常に長いという問題があった。

【0081】

一方、本実施例の学習サーバ１０１は、一つの初期学習用データを分割したブロックの特徴量を用いて深層学習による学習を行う。すなわち、学習サーバ１０１は、追跡対象領域に含まれる複数のブロックを追跡対象として学習する。したがって、多数の学習用データを用意する必要がなく、また、学習時間が短い。追加学習用データを用いた学習も同様に高速に行うことができる。

【0082】

従来の認識処理では、追跡対象全体の認識が行われる。追跡対象全体が一つの特徴量として扱われるため、初めて入力された画像データのみを用いた学習で生成された識別器は認識精度が非常に低い。したがって、当該識別器を用いても迅速な追跡対象の追跡を開始できない。

【0083】

一方、本実施例の認識サーバ１００は、検索領域に含まれるブロックに対して追跡対象の認識を行う。ブロックの特徴量は、追跡対象の移動及び追跡対象の形状の変化に対する変化量が小さいものと考えられる。したがって、追跡対象が指定された直後に追跡対象の認識を行わせる場合でも、一定の認識精度を保つことができる。したがって、初期学習用データを用いて生成された識別器を用いて迅速な追跡対象の追跡を開始できる。また、認識処理の対象となるブロックは、検索領域に含まれるブロックのみであるため、リアルタイムな追跡対象の追跡が可能となる。

【0084】

なお、追跡の継続中にも学習サーバ１０１によって識別器が更新されるため、時間の経過とともに認識精度が高くなることは明らかである。

【0085】

以上で説明したように、本実施例によれば、多数の学習用データを用いた学習を行うことなく、追跡対象の追跡を迅速に開始するシステム、画像認識方法、及び計算機を実現できる。

【0086】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

【0087】

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

【0088】

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

【0089】

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

【0090】

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

【符号の説明】

【0091】

１００認識サーバ
１０１学習サーバ
１０５撮像装置
１０６データベース
１１０認識モジュール
１２０学習モジュール
１５０画像データ
２０１演算装置
２０２記憶装置
２０３ネットワークインタフェース
２０４Ｉ／Ｏインタフェース

【図1】