IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特表2022-532460モデル訓練方法、装置、端末及びプログラム
<>
  • 特表-モデル訓練方法、装置、端末及びプログラム 図1a
  • 特表-モデル訓練方法、装置、端末及びプログラム 図1b
  • 特表-モデル訓練方法、装置、端末及びプログラム 図2
  • 特表-モデル訓練方法、装置、端末及びプログラム 図3a
  • 特表-モデル訓練方法、装置、端末及びプログラム 図3b
  • 特表-モデル訓練方法、装置、端末及びプログラム 図4
  • 特表-モデル訓練方法、装置、端末及びプログラム 図5
  • 特表-モデル訓練方法、装置、端末及びプログラム 図6
  • 特表-モデル訓練方法、装置、端末及びプログラム 図7
  • 特表-モデル訓練方法、装置、端末及びプログラム 図8
  • 特表-モデル訓練方法、装置、端末及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-15
(54)【発明の名称】モデル訓練方法、装置、端末及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220708BHJP
【FI】
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021536356
(86)(22)【出願日】2020-04-07
(85)【翻訳文提出日】2021-07-08
(86)【国際出願番号】 CN2020083523
(87)【国際公開番号】W WO2020228446
(87)【国際公開日】2020-11-19
(31)【優先権主張番号】201910397253.X
(32)【優先日】2019-05-13
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ワン,ニン
(72)【発明者】
【氏名】ソン,イビン
(72)【発明者】
【氏名】リィウ,ウエイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096FA69
5L096GA34
5L096HA05
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
本開示の実施例は、モデル訓練方法、装置、端末及び記憶媒体を開示し、方法は、テンプレート画像及びテスト画像を取得するステップと、第1物体認識モデルを呼び出してテンプレート画像における追跡ターゲットの特徴を処理し第1参照応答を得て、第2物体認識モデルを呼び出してテンプレート画像における追跡ターゲットの特徴を処理し第2参照応答を得るステップと、第1物体認識モデルを呼び出してテスト画像における追跡ターゲットの特徴を処理し第1テスト応答を得て、第2物体認識モデルを呼び出してテスト画像における追跡ターゲットの特徴を処理し第2テスト応答を得るステップと、第1テスト応答に対して追跡処理を行い、追跡ターゲットの追跡応答を得るステップと、第1参照応答と第2参照応答との間の差分情報、第1テスト応答と第2テスト応答との間の差分情報、及び追跡ラベルと追跡応答との間の差分情報に基づき、第1物体認識モデルを更新するステップと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピューティングデバイスが実行するモデル訓練方法であって、
訓練用のテンプレート画像及びテスト画像を取得するステップであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像が前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルが前記テスト画像における前記追跡ターゲットのラベリング位置を表すために用いられるステップと、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るステップと、
前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るステップと、
前記第1テスト応答に対して追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられるステップと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップと、を含むモデル訓練方法。
【請求項2】
第2物体認識モデルを取得するステップと、
前記第2物体認識モデルを切り取り、第1物体認識モデルを得るステップと、
をさらに含む請求項1に記載の方法。
【請求項3】
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップは、
前記第1物体認識モデルに対応する損失最適化関数を取得するステップと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定するステップと、
前記損失最適化関数の値を減少する原則に従って、前記第1物体認識モデルを更新するステップと、を含む請求項1に記載の方法。
【請求項4】
前記損失最適化関数は、特徴認識損失関数と、追跡損失関数とを含み、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定するステップは、
前記特徴認識損失関数を取得し、前記第1参照応答と前記第2参照応答との間の差分情報、及び前記第1テスト応答と前記第2テスト応答との間の差分情報に基づき、前記特徴認識損失関数の値を決定するステップと、
前記追跡損失関数を取得し、前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定するステップと、
前記特徴認識損失関数の値及び前記追跡損失関数の値に基づき、損失最適化関数の値を決定するステップと、を含む請求項3に記載の方法。
【請求項5】
前記第1物体認識モデルは、第1畳み込み層と、第2畳み込み層と、第3畳み込み層とを含み、前記第1テスト応答は、前記第1畳み込み層に対応する第1テストサブ応答、前記第2畳み込み層に対応する第2テストサブ応答、及び前記第3畳み込み層に対応する第3テストサブ応答を融合して得られたものであり、前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定するステップは、
前記第1畳み込み層に対応する第1追跡ラベルと前記第1テストサブ応答に追跡処理を行って得られた第1追跡応答との間の差分情報に基づき、前記第1畳み込み層の追跡損失値を決定するステップと、
前記第2畳み込み層に対応する第2追跡ラベルと前記第2テストサブ応答に追跡処理を行って得られた第2追跡応答との間の差分情報に基づき、前記第2畳み込み層の追跡損失値を決定するステップと、
前記第3畳み込み層に対応する第3追跡ラベルと前記第3テストサブ応答に追跡処理を行って得られた第3追跡応答との間の差分情報に基づき、前記第3畳み込み層の追跡損失値を決定するステップと、
前記第1畳み込み層に対応する追跡損失値、前記第2畳み込み層に対応する追跡損失値、及び前記第3畳み込み層に対応する追跡損失値に融合処理を行い、追跡損失関数の値を得るステップと、を含み、
前記第1追跡応答、前記第2追跡応答及び前記第3追跡応答は異なる解像度を有する、請求項4に記載の方法。
【請求項6】
前記第1物体認識モデルは複数の畳み込み層を含み、前記複数の畳み込み層は接続順に従って接続され、前記第1畳み込み層は、前記接続順により指示された最初の畳み込み層であり、前記第3畳み込み層は、前記接続順により指示された最後の畳み込み層であり、前記第2畳み込み層は、前記最初の畳み込み層と前記最後の畳み込み層を除いた任意の1つの畳み込み層である、請求項5に記載の方法。
【請求項7】
追跡ターゲットを含む参照画像を取得し、前記参照画像に基づいて訓練用の正サンプル及び負サンプルを決定するステップであって、前記正サンプルとは、前記追跡ターゲットを含む画像を指し、前記負サンプルとは、前記追跡ターゲットを含まない画像を指し、前記正サンプルは前記追跡ターゲットの正サンプル追跡ラベルを含み、前記負サンプルは前記追跡ターゲットの負サンプル追跡ラベルを含み、前記参照画像には前記追跡ターゲットのラベリング情報が含まれるステップと、
前記更新された第1物体認識モデルを呼び出して前記正サンプルに対して認識処理を行い、正サンプル認識応答を得て、前記更新された第1物体認識モデルを呼び出して前記負サンプルに対して認識処理を行い、負サンプル認識応答を得るステップと、
前記正サンプル認識応答に対して追跡処理を行い、前記正サンプルにおける前記追跡ターゲットに対する正サンプル追跡応答を得て、前記負サンプル認識応答に対して追跡処理を行い、前記負サンプルにおける前記追跡ターゲットに対する負サンプル追跡応答を得るステップと、
前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するステップと、
をさらに含む請求項1に記載の方法。
【請求項8】
前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するステップは、
追跡損失最適化関数を取得するステップと、
前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記追跡損失最適化関数の値を決定するステップと、
前記追跡損失最適化関数の値を減少する原則に従って、前記更新された第1物体認識モデルを更新するステップと、を含む請求項7に記載の方法。
【請求項9】
処理対象画像を取得し、前記参照画像における前記追跡ターゲットのラベリング情報に基づき、前記処理対象画像に含まれる予測追跡ターゲットを決定するステップと、
更新された第1物体認識モデルを呼び出して前記参照画像における前記追跡ターゲットに対して認識処理を行い、第1認識特徴を得るステップと、
前記更新された第1物体認識モデルを呼び出して前記処理対象画像における前記予測追跡ターゲットに対して認識処理を行い、第2認識特徴を得るステップと、
前記第1認識特徴及び前記第2認識特徴に基づいて追跡処理用のターゲット特徴を決定し、追跡アルゴリズムを用いて前記ターゲット特徴に対して追跡処理を行い、前記処理対象画像における前記追跡ターゲットの位置情報を得るステップと、
をさらに含む請求項7又は8に記載の方法。
【請求項10】
訓練用のテンプレート画像及びテスト画像を取得するための取得ユニットであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像が前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルが前記テスト画像における前記追跡ターゲットのラベリング位置を表すために用いられる取得ユニットと、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得て、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得て、前記第1テスト応答に対して追跡処理を行い、前記追跡ターゲットの追跡応答を得るための処理ユニットであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられる処理ユニットと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するための更新ユニットと、
を含むモデル訓練装置。
【請求項11】
入力デバイスと、出力デバイスと、を含む端末であって、
1つ又は複数の命令を実現するためのプロセッサと、
1つ又は複数の命令が記憶されたコンピュータ記憶媒体と、をさらに含み、前記1つ又は複数の命令は、前記プロセッサによりロードされ、前記プロセッサに請求項1~9のいずれか一項に記載のモデル訓練方法を実行させるために用いられる端末。
【請求項12】
プロセッサにより実行されるとき、前記プロセッサに請求項1~9のいずれか一項に記載のモデル訓練方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本開示は、2019年5月13日に中国国家知識産権局に提出された、出願番号201910397253.X、出願の名称「モデル訓練方法、装置、端末及び記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。
【0002】
[技術分野]
本開示は、インターネット技術分野に関し、具体的には、視覚ターゲット追跡の分野に関し、特にモデル訓練方法、モデル訓練装置、端末及び記憶媒体に関する。
【背景技術】
【0003】
科学技術の発展に伴い、コンピュータ視覚技術は、ホットな研究分野になっており、視覚ターゲット追跡は、コンピュータ視覚分野における重要な研究方向である。視覚ターゲット追跡とは、ある画像における追跡ターゲットの大きさ及び位置が知られた場合に、他の画像における当該追跡ターゲットの大きさ及び位置を予測することを指す。視覚ターゲット追跡は、通常、ビデオ監視、マンマシンインタラクション及び無人運転などの、リアルタイム性に対する要求が高い応用シーンに応用され、例えば、あるビデオシーケンス内のあるフレームの画像における追跡ターゲットの大きさ及び位置が与えられた場合に、当該ビデオシーケンスの後続のフレームの画像における当該追跡ターゲットの大きさ及び位置を予測する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の実施例は、モデル訓練方法、装置、端末及び記憶媒体を提供し、第1物体認識モデルをより良く訓練することができ、更新訓練を経て得られた第1物体認識モデルが優れた視覚ターゲット追跡性能を有し、視覚ターゲット追跡シーンにより適用され、視覚ターゲット追跡の精度を高める。
【課題を解決するための手段】
【0005】
一態様では、本開示の実施例は、コンピューティングデバイスが実行するモデル訓練方法を提供し、前記モデル訓練方法は、
訓練用のテンプレート画像及びテスト画像を取得するステップであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルは前記テスト画像における前記追跡ターゲットのラベリング位置を表すために用いられるステップと、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るステップと、
前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るステップと、
前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられるステップと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップと、を含む。
【0006】
別の態様では、本開示の実施例は、モデル訓練装置を提供し、前記モデル訓練装置は、
訓練用のテンプレート画像及びテスト画像を取得するための取得ユニットであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルは前記テスト画像における前記追跡ターゲットのラベリング位置を表すために用いられる取得ユニットと、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るために用いられ、
さらに、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るために用いられ、
さらに、前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るための処理ユニットであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられる処理ユニットと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するための更新ユニットと、を含む。
【0007】
さらに別の態様では、本開示の実施例は、入力デバイスと、出力デバイスと、を含む端末を提供し、前記端末は、
1つ又は複数の命令を実現するためのプロセッサと、
1つ又は複数の命令が記憶されたコンピュータ記憶媒体と、をさらに含み、前記1つ又は複数の命令は、前記プロセッサによりロードされて実行されることで、
訓練用のテンプレート画像及びテスト画像を取得するステップであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルは前記テスト画像における前記追跡ターゲットのラベリング位置を表すために用いられるステップと、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るステップと、
前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るステップと、
前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられるステップと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップと、を実現するために用いられる。
【0008】
さらに別の態様では、本開示の実施例は、1つ又は複数の命令が記憶されたコンピュータ記憶媒体を提供し、前記1つ又は複数の命令は、プロセッサによりロードされて実行されることで、
訓練用のテンプレート画像及びテスト画像を取得するステップであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルは前記テスト画像における前記追跡ターゲットのラベリング位置を表すために用いられるステップと、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るステップと、
前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るステップと、
前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられるステップと、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップと、を実現するために用いられる。
【図面の簡単な説明】
【0009】
以下は、本開示の実施例の技術案をより明確に説明するために、実施例の説明で使用される図面を簡単に紹介し、明らかに、以下の説明における図面は本開示のいくつかの実施例であり、当業者にとっては、創造的な労働をしないで、これらの図面に基づいて他の図面を得ることもできる。
【0010】
図1a】本開示の実施例により提供される第1物体認識モデルに基づいて視覚ターゲット追跡を行うシーンを示す図である。
図1b】本開示の実施例により提供されるモデル訓練方法の実施環境の模式図である。
図2】本開示の実施例により提供されるモデル訓練方法の模式的なフローチャートである。
図3a】本開示の実施例により提供される畳み込みニューラルネットワークの構造図である。
図3b】本開示の実施例により提供される追跡応答及び追跡ラベルを決定する模式図である。
図4】本開示の実施例により提供される別のモデル訓練方法の模式的なフローチャートである。
図5】本開示の実施例により提供される第1物体認識モデルを取得する模式図である。
図6】本開示の実施例により提供される第1物体認識モデルの共同最適化の模式図である。
図7】本開示の別の実施例により提供される正サンプル及び負サンプルを取得する模式図である。
図8】本開示の実施例により提供されるモデル訓練装置の構造模式図である。
図9】本開示の実施例により提供される端末の構造模式図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施例における図面を参照しながら、本開示の実施例における技術案を明確で完全に説明する。
現在、視覚ターゲット追跡は、主に従来の画像処理モデルを用いて追跡処理を実現しているが、発明者は、実践中に、従来の画像処理モデルが画像分類タスクを実現するために設計され、画像分類データを用いて訓練して得られたものであるが、視覚ターゲット追跡が画像分類タスクを実現するためのものではないので、従来の画像処理モデルが視覚ターゲット追跡シーンに適しておらず、視覚ターゲット追跡の精度が低いことが発見された。
【0012】
本開示の実施例は、第1物体認識モデルを提供し、前記第1物体認識モデルとは、画像認識性能を有する画像認識モデルを指し、例えばビジュアルジオメトリグループ(Visual Geometry Group,VGG)モデル、グーグルネット(GoogleNet)モデル及び深層残差ネットワーク(Deep residual network,ResNet)モデルなどである。前記第1物体認識モデルは、画像に特徴抽出を正確に行うことができ、抽出された特徴が視覚ターゲット追跡シーンにより適するため、前記第1物体認識モデルを相関追跡アルゴリズムと組み合わせて視覚ターゲット追跡シーンに応用することで、視覚ターゲット追跡の精度及びリアルタイム性を高めることができる。
【0013】
具体的には、第1物体認識モデル及び追跡アルゴリズムを用いて視覚ターゲット追跡を実現するステップは、以下のステップを含むことができる。(1)処理対象画像及び追跡ターゲットを含む参照画像を取得し、前記追跡ターゲットは、前記参照画像における追跡される必要のある画像素子であり、例えば、参照画像におけるヒト、動物などであり、前記参照画像には、追跡ターゲットのラベリング情報を含むことができ、前記ラベリング情報は、追跡ターゲットの大きさ及び位置を表すために用いられる。本開示の一実施例において、前記ラベリング情報はラベリングボックスの形式で表すことができ、例えば、後述の図1の101に示す通りである。(2)参照画像におけるラベリング情報に基づき、処理対象画像に含まれる予測追跡ターゲットを決定し、ここに記載された予測追跡ターゲットとは、処理対象画像における追跡ターゲットとなり得る画像素子を指す。本開示の一実施例において、(2)では、参照画像におけるラベリングボックスの大きさに基づき、処理対象画像において複数の候補ボックスを生成することができ、候補ボックスごとに1つの予測追跡ターゲットを代表し、例えば、後述の図1のA、B、Cは、決定された3つの予測追跡ターゲットを示す。(3)第1物体認識モデルを呼び出して前記参照画像における追跡ターゲットに対して認識処理を行い、第1認識特徴を得て、前記第1認識特徴は、例えば追跡ターゲットの顔部輪郭特徴、眼の特徴又は追跡ターゲットの姿勢特徴などの追跡ターゲットの特徴を指す。(4)第1物体認識モデルを呼び出して前記処理対象画像に含まれる予測追跡ターゲットに対して認識処理を行い、第2認識特徴を得て、前記第2認識特徴とは、例えば各予測追跡ターゲットの顔部輪郭特徴、眼の特徴、鼻の特徴又は姿勢特徴などの各予測追跡ターゲットの特徴を指す。(5)前記第1認識特徴及び前記第2認識特徴に基づき、追跡処理用のターゲット特徴を決定し、追跡アルゴリズムを用いて前記ターゲット特徴に対して追跡処理を行い、前記処理対象画像における前記追跡ターゲットの位置を得る。一実施例において、前記追跡アルゴリズムは、相関フィルタ追跡アルゴリズム、デュアルネットワークに基づく追跡アルゴリズム、スパース表現アルゴリズムなどを含むことができ、本開示の実施例において相関フィルタ追跡アルゴリズムを例とする。前記相関フィルタ追跡アルゴリズムは、ターゲット特徴に対して追跡処理を行った後、ガウス形状の応答マップを得て、当該応答マップのピーク値の位置は、前記処理対象画像における追跡された追跡ターゲットの位置を表す。
【0014】
そのうち、第1認識特徴及び前記第2認識特徴に基づき、追跡処理用のターゲット特徴を決定するステップは、追跡ターゲットの特徴及び各予測追跡ターゲットの特徴を解析することで、各予測追跡ターゲットのうちのどの予測追跡ターゲットを処理対象画像に含まれる追跡ターゲットとするかを決定するステップであると理解してよく、後続で追跡アルゴリズムを用いて当該予測追跡ターゲットの特徴を処理しやすくなり、前記処理対象画像における追跡ターゲットの位置を得て、追跡ターゲットに対する追跡を達成する。一実施例において、ステップ(5)の実施形態は、第1認識特徴に対してそれぞれ各第2認識特徴とのマッチング度の採点評価を行い、マッチング度の採点評価が最も高い第2認識特徴をターゲット特徴として決定するステップを含むことができる。他の実施例において、ステップ(5)の実施形態は、各第2認識特徴に融合処理を行い、融合処理の結果をターゲット特徴として決定するステップをさらに含むことができる。
【0015】
例えば、図1を参照し、本開示の実施例により提供される視覚ターゲット追跡のシーンであり、101は参照画像を表し、102は処理対象画像であり、1011はラベリングボックスの形で表された追跡ターゲットのラベリング情報を表し、ラベリングボックス1101の大きさは参照画像における追跡ターゲットの大きさを表し、ラベリングボックス1101の位置は参照画像における追跡ターゲットの位置を表し、103は第1物体認識モデルを表す。ラベリングボックス1011に基づいて処理対象画像102においてA、B及びCの3つの予測追跡ターゲットを生成するとすれば、第1物体認識モデル103を呼び出して1011に対して認識処理を行い、第1認識特徴を得て、第1物体認識モデルを呼び出してそれぞれ予測追跡ターゲットA、B及びCに対して認識処理を行い、3つの第2認識特徴を得る。さらに、第1認識特徴及び3つの第2認識特徴に基づいてターゲット特徴を決定し、予測追跡ターゲットCに対応する第2認識特徴をターゲット特徴として決定するとする。また、例えば相関追跡フィルタアルゴリズムのような追跡アルゴリズムを用いてターゲット特徴に対して追跡処理を行い、ガウス形状の応答マップを得て、当該応答マップのピーク点は、104に示される処理対象画像における追跡ターゲットの位置を表す。
【0016】
上記第1物体認識モデルに基づき、本開示の実施例は、モデル訓練方法をさらに提供し、前記モデル訓練方法は、第1物体認識モデルが画像に対して特徴抽出を正確に行い、且つ抽出した特徴が追跡シーンにより適するようにできることを保証するように、第1物体認識モデルを訓練するために用いられる。具体的には、前記モデル訓練方法は、端末などのコンピューティングデバイスによって実行することができ、具体的には、端末のプロセッサによって実行することができ、前記端末は、スマート端末、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータなどを含むことができるが、これらに限定されない。
【0017】
図1bは、本開示の実施例により提供されるモデル訓練方法の実施環境の模式図である。そのうち、端末機器10とサーバ機器20との間は、ネットワーク30を介して通信可能に接続され、前記ネットワーク30は、有線ネットワークであってもよく、無線ネットワークであってもよい。端末機器10及びサーバ機器20には、本開示のいずれか1つの実施例により提供されるモデル訓練方法を実現するために、本開示のいずれか1つの実施例により提供されるモデル訓練装置が集積されている。
【0018】
図2を参照し、本開示の実施例により提供されるモデル訓練方法は、以下のステップS201~S205を含むことができる。
【0019】
ステップS201、訓練用のテンプレート画像及びテスト画像を取得する。
【0020】
そのうち、前記テンプレート画像及び前記テスト画像は、モデルに訓練と更新を行うための画像であり、前記テンプレート画像及び前記テスト画像のいずれにも、追跡ターゲットを含み、前記テンプレート画像には、追跡ターゲットのラベリング情報をさらに含むことができ、ここで、前記追跡ターゲットのラベリング情報は、テンプレート画像における追跡ターゲットの大きさ及び位置を表すために用いられ、前記ラベリング情報は、端末がテンプレート画像のためにラベリングしたものであってよく、前記テスト画像には、テスト画像に対応する追跡ラベルをさらに含み、前記追跡ラベルは、テスト画像における追跡ターゲットのラベリング位置を表すために用いられ、前記ラベリング位置は、端末がラベリングした、テスト画像における追跡ターゲットの実際の位置を指すことができ、前記テスト画像にも追跡ターゲットのラベリング情報を含むことができ、ここで、前記追跡ターゲットのラベリング情報は、テスト画像における追跡ターゲットの大きさ及び位置を表すために用いられる。
【0021】
一実施例において、前記テンプレート画像及びテスト画像は、同一のビデオシーケンスにおける2つのフレームの画像であってよく、例えば、撮影装置を利用して追跡ターゲットを含むビデオシーケンスを録画し、ビデオシーケンスにおける追跡ターゲットの画像を含むいずれか1つのフレームをテンプレート画像として選択し、ビデオシーケンスにおける当該テンプレート画像を除いた、追跡ターゲットを含むフレームの画像をテスト画像として選択する。
【0022】
他の実施例において、前記テンプレート画像とテスト画像は、同一のビデオシーケンスにおける画像でなくてもよく、例えば、テンプレート画像は、撮影装置で追跡ターゲットを含む第1撮影シーンを撮影した画像であってよく、テスト画像は、テンプレート画像を得る前又はその後に、撮影装置を利用して追跡ターゲットを含む第2撮影シーンを撮影した画像であってよく、即ち、テンプレート画像とテスト画像は、互いに独立した2枚の画像である。
【0023】
同一のビデオシーケンスの画像の間は、通常、前後の意味関係を有するため、互いに独立したテンプレート画像とテスト画像に比べて、第1物体認識モデルの訓練により寄与し、且つ、訓練と更新後の第1物体認識モデルがより優れた性能を得るようになる。そのため、本開示の実施例は、テンプレート画像とテスト画像が同一のビデオシーケンスにあることを例として説明する。
【0024】
ステップS202、第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得る。
【0025】
ステップS203、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得る。
【0026】
そのうち、前記第1物体認識モデルと第2物体認識モデルとの共通点は、両者がいずれも画像認識性能を有する画像認識モデルであることにある。本開示の一実施例において、畳み込みニューラルネットワークモデルは、その高い特徴抽出性能のため、現在よく使われる画像認識モデルになっており、本開示の実施例において、前記第1物体認識モデル及び第2物体認識モデルは、例えばVGGモデル、GoogleNetモデル及びResNetモデルなどの畳み込みニューラルネットワークモデルであってよい。前記第1物体認識モデルと前記第2物体認識モデルとの相違点は、前記第2物体認識モデルが更新された画像認識モデルであり、又は、第2物体認識モデルが予め訓練してテストされた画像認識用のモデルであり、前記第1物体認識モデルが更新される画像認識モデルであることにある。
【0027】
前記畳み込みニューラルネットワークモデルは、主に、画像認識、顔認識及び文字認識などの分野に用いられ、畳み込みニューラルネットワークのネットワーク構造は、図3aに示すように、主に畳み込み層301と、プーリング層302と、完全接続層303とを含む。各畳み込み層は1つのプーリング層に接続され、前記畳み込み層301は、主に特徴抽出を行うために用いられ、前記プーリング層302はサブサンプリング層とも呼ばれ、主に入力データの規模を縮小するために用いられ、前記完全接続層303は、畳み込み層により抽出した特徴に基づいて分類の分類値を算出し、最後に分類及びそれに対応する分類値を出力する。このことから、前記第1物体認識モデルと前記第2物体認識モデルのネットワーク構造も、畳み込み層と、プーリング層と、完全接続層とを含むことが分かる。
各畳み込みニューラルネットワークモデルは複数の畳み込み層を含み、各畳み込み層は画像の異なる特徴を抽出する役割を果たし、前の畳み込み層により抽出した特徴は後の畳み込み層の入力とされ、各畳み込み層により抽出した特徴は、特定の関数に基づいて設定されたものであってもよく、又は人為的に設定されたものであってもよい。例えば、グラフィックタイプの画像認識に対しては、第1畳み込み層がグラフィックの全体形状特徴を抽出する役割を果たし、第2畳み込み層がグラフィックの線特徴を抽出する役割を果たし、第3畳み込み層がグラフィックの不連続的な特徴を抽出する役割を果たすように設定することができる。他の例として、顔を含む画像認識に対しては、第1畳み込み層が顔の輪郭特徴を抽出する役割を果たし、第2畳み込み層が顔の五官特徴を抽出する役割を果たすように設定することができる。各畳み込み層に、同じサイズの畳み込み計算用のフィルタが複数含まれ、各フィルタは1つのフィルタ通路に対応し、各フィルタが畳み込み計算を行った後に1組の特徴を得るため、各畳み込み層は、入力された画像に対して認識処理を行った後に多次元特徴を抽出することになる。畳み込み層においては、畳み込み層の数が多いほど、畳み込みニューラルネットワークモデルのネットワーク構造が深くなり、抽出した特徴の数も多くなり、各畳み込み層に含まれるフィルタの数が多いほど、各畳み込み層により抽出した特徴の次元が高くなる。
【0028】
なお、1つのモデルに含まれる畳み込み層が多く、及び/又は各畳み込み層内のフィルタの数が多い場合、当該モデルを記憶すると大きな記憶空間を必要とし、大きな記憶空間が必要となるモデルを重量級のモデルと呼び、逆に、1つのモデルに含まれる畳み込み層が少なく、及び/又は各畳み込み層内のフィルタの数が少ない場合、当該モデルを記憶するときに大きな記憶空間は必要がなく、少ない記憶空間が必要となるモデルを軽量級のモデルと呼ぶ。
【0029】
本開示の一実施例において、第1物体認識モデル及び第2物体認識モデルはいずれも重量級のモデルであってもよく、又は、第2物体認識モデルは重量級のモデルであり、第1物体認識モデルは、第2物体認識モデルにモデル圧縮処理を行って得られた軽量級のモデルであってもよい。第1物体認識モデルが重量級のモデルに属する場合、更新後の第1物体認識モデルは、高次元の特徴を抽出することができ、より優れた認識性能を有し、それを視覚ターゲット追跡シーンに応用するとき、追跡の精度を高めることができる。第1物体認識モデルが第2物体認識モデルにモデル圧縮処理を行って得られた軽量級のモデルである場合、更新後の第1物体認識モデルは、第2物体認識モデルと類似する特徴抽出性能を有し、それがより少ない記憶空間を必要とするため、モバイルデバイス及び他の消費電力の低い製品に効果的に応用することができる。また、それを視覚ターゲット追跡シーンに応用するとき、特徴抽出を迅速に行い、視覚ターゲット追跡のリアルタイム性を実現することができる。実際の応用において、具体的なシーンのニーズに応じて、第1物体認識モデルが重量級のモデルであるか軽量級のモデルであるかを選択することができる。
図1の実施例の説明から分かるように、視覚ターゲット追跡の分野において、追跡の精度に影響を与える主たる要因の1つは、第1物体認識モデルにより抽出した特徴が正確であるか否かであり、第1物体認識モデルの特徴抽出は主に畳み込み層に依存するため、本開示の実施例において、第1物体認識モデルを更新するステップは、実質的に、第1物体認識モデルの特徴抽出性能を向上させるように、第1物体認識モデルの畳み込み層を訓練することである。これに基づき、ステップS202において、第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得るステップは、実質的に、第1物体認識モデルの畳み込み層を呼び出してテンプレート画像における追跡ターゲットの特徴に対して特徴抽出処理を行い、第1参照応答を得ることである。
【0030】
前記第1参照応答は、第1物体認識モデルにより認識されたテンプレート画像における前記追跡ターゲットの特徴、例えば大きさ、形状、輪郭などを表すために用いられ、前記第1参照応答は特徴マップで表すことができ、同様に、前記第2参照応答は、第2物体認識モデルにより認識されたテンプレート画像における前記追跡ターゲットの特徴を表すために用いられ、前記第1テスト応答は、第1物体認識モデルにより認識されたテスト画像における追跡ターゲットの特徴を表すために用いられ、前記第2テスト応答は、第2物体認識モデルにより認識されたテスト画像における追跡ターゲットの特徴を表すために用いられる。
【0031】
一実施例において、以上から分かるように、テンプレート画像には追跡ターゲットのラベリング情報を含むことができ、前記ラベリング情報の役割は、第1物体認識モデルがどれに対して認識処理を行う必要があるかを正確に決定できるように、テンプレート画像における第1物体認識モデルが認識する必要のある追跡ターゲットの大きさ及びその位置を決定することであってよく、テンプレート画像における追跡ターゲットのラベリング情報は、ラベリングボックスの形で表すことができる。本開示の一実施例において、第1物体認識モデルを呼び出してテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得るステップは、第1物体認識モデルを呼び出してテンプレート画像におけるラベリング情報と組み合わせてテンプレート画像に対して認識処理を行うことを指すことができる。例えば、テンプレート画像におけるラベリング情報がラベリングボックスの形で表されるとすれば、第1物体認識モデルを呼び出してテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得るステップは、テンプレート画像におけるラベリングボックスの特徴に対して認識処理を行うことを指すことができる。
【0032】
他の実施例において、テンプレート画像に追跡ターゲットのみが含まれ、又は、追跡ターゲットと、追跡ターゲットに対して認識処理に影響しない、例え、壁面、地面、空などの背景とを含む場合、端末は、テンプレート画像に対して追跡ターゲットのラベリング情報を設定するか否かにかかわらず、第1物体認識モデルにどれに対して認識処理を行う必要があるかを正確に決定させることができる。
【0033】
一実施例において、第1物体認識モデルを呼び出してテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得る実施形態は、以下のように、テンプレート画像を第1物体認識モデルの入力とし、第1物体認識モデルの第1畳み込み層が特定のサイズを有する複数のフィルタを利用してテンプレート画像に畳み込み計算を行い、テンプレート画像における追跡ターゲットの第1特徴を抽出し、第1特徴を第2畳み込み層の入力とし、第2畳み込み層が複数のフィルタを利用して第1特徴に畳み込み計算を行い、テンプレート画像における追跡ターゲットの第2特徴を抽出し、第2特徴を第3畳み込み層に入力し、第3畳み込み層が複数のフィルタを利用して第2特徴に畳み込み計算を行い、テンプレート画像における追跡ターゲットの第4特徴を得て、最後の畳み込み層が畳み込み計算を完了するまで類推し、出力された結果は第1参照応答である。第1物体認識モデルを呼び出してテスト画像に対して認識処理を行い、第1テスト応答を得る実施形態、前記第2物体認識モデルを呼び出して前記テスト画像に対して認識処理を行い、第2参照応答を得る実施形態、及び前記第2物体認識モデルを呼び出して前記テスト画像に対して認識処理を行い、第2テスト応答を得る実施形態について、以上に説明された実施形態と同様にすることができ、ここでその説明を省略する。
【0034】
ステップS204、前記第1テスト応答に対して追跡処理を行い、前記追跡ターゲットの追跡応答を得る。
【0035】
第1物体認識モデルが視覚ターゲット追跡シーンに適することを保証するために、第1物体認識モデルが高い特徴抽出性能を有することを保証する必要があるだけでなく、第1物体認識モデルにより抽出した特徴が追跡シーンにより良く適し、または、追跡アルゴリズムにより良く使用できることを保証する必要がある。これに基づき、本開示の実施例は、ステップS204によって第1物体認識モデルに対する追跡訓練を実現する。
【0036】
一実施例において、前記ステップS204は、追跡訓練アルゴリズムを用いて前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップを含むことができる。そのうち、前記追跡訓練アルゴリズムは、第1物体認識モデルに追跡訓練を行うためのアルゴリズムであり、相関フィルタ追跡アルゴリズム、デュアルネットワークに基づく追跡アルゴリズム、スパース表現アルゴリズムなどを含むことができる。前記追跡応答は、追跡訓練アルゴリズム及び第1テスト応答に基づいて決定された、テスト画像における追跡ターゲットの追跡位置を表すために用いられ、実際には、前記追跡位置は、追跡訓練アルゴリズム及び第1テスト応答に基づいて予測された、テスト画像における追跡ターゲットの位置として理解することができる。
【0037】
一実施例において、追跡訓練アルゴリズムが相関フィルタ追跡アルゴリズムである場合、追跡訓練アルゴリズムを用いて第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得る形態は、追跡訓練アルゴリズムを用いて第1テスト応答に対して追跡処理を行い、ガウス形状の応答マップを得て、前記応答マップに基づいて追跡応答を決定することであってよい。本開示の一実施例において、前記応答マップに基づいて追跡応答を決定する実施形態は、前記応答マップを追跡応答とすることであってよい。このようにすれば、前記応答マップは、テスト画像における追跡ターゲットの追跡位置を反映することができ、具体的には、前記応答マップの最大値点又はピーク点をテスト画像における追跡ターゲットの追跡位置とすることができる。
【0038】
ステップS201において、前記追跡ラベルはテスト画像における追跡ターゲットのラベリング位置を表すために用いられ、前記ラベリング位置は、端末が予めラベリングした、テスト画像における追跡ターゲットの実際の位置を指すことができる。一実施例において、前記追跡ラベルは、ガウス形状の応答マップとすることもでき、当該応答マップのピーク点は、テスト画像における追跡ターゲットの実際の位置を表す。
【0039】
例えば、図3bを参照し、本開示の実施例により提供される追跡ラベル及び追跡応答を決定する模式図を示し、304がテスト画像を表し、3041が追跡ターゲットを表し、端末よりテスト画像に対して予めラベリングした追跡ラベルが図3bの306に示され、306のピーク点3061がテストターゲットにおける追跡ターゲットのラベリング位置を表すとする。第1物体認識モデルを呼び出して304に対して認識処理を行い、第1テスト応答を得て、さらに相関フィルタ追跡アルゴリズムのような追跡訓練アルゴリズムを用いて第1テスト応答に対して追跡処理を行い、305に示される追跡応答を得て、305のピーク点3051は、テスト画像における追跡ターゲットの追跡位置を表す。
【0040】
他の実施例において、他の追跡訓練アルゴリズムを用いて第1テスト応答に対して追跡処理を行う場合、具体的な追跡訓練アルゴリズムの特徴に基づいて追跡応答を決定することができる。
【0041】
ステップS205、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新する。
【0042】
以上から分かるように、前記第1参照応答は、第1物体認識モデルにより認識されたテンプレート画像における前記追跡ターゲットの特徴、例えば大きさ、形状、輪郭などを表すために用いられ、前記第2参照応答は、第2物体認識モデルにより認識されたテンプレート画像における前記追跡ターゲットの特徴を表すために用いられ、このことから、前記第1参照応答と前記第2参照応答との間の差分情報は、第1物体認識モデル及び第2物体認識モデルがテンプレート画像に対して特徴抽出を行うときに抽出した特徴の間の差分の大きさを含むことができることが分かる。
【0043】
一実施例において、前記特徴の間の差分の大きさは、特徴の間の距離で表すことができ、例えば、第1参照応答が第1物体認識モデルにより認識されたテンプレート画像における追跡ターゲットの顔の輪郭を含み、顔の輪郭1として表し、第2参照応答が第2物体認識モデルにより認識されたテンプレート画像における追跡ターゲットの顔の輪郭を含み、顔の輪郭2として表す場合、前記第1参照応答と前記第2参照応答との間の差分情報は、顔の輪郭1と顔の輪郭2との間の距離を含むことができる。他の実施例において、前記特徴の間の差分の大きさは、さらに特徴の間の類似度値で表すことができ、類似度値が大きいほど、特徴の間の差分が小さいことを表し、類似度値が小さいほど、特徴の間の差分が大きいことを表す。
【0044】
同様に、前記第1テスト応答と前記第2テスト応答との間の差分情報は、第1物体認識モデル及び第2物体認識モデルがテスト画像に対して特徴抽出を行うときに抽出した特徴の間の差分の大きさを含むことができる。ステップS204の説明から、前記追跡ラベルと前記追跡応答との間の差分情報は、テスト画像における追跡ターゲットの追跡位置とラベリング位置との間の距離を反映していることが分かる。
【0045】
具体的な実施プロセスにおいて、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、第1物体認識モデルに対応する損失最適化関数の値を決定し、続いて、前記損失最適化関数の値を減少する原則に従って、前記第1物体認識モデルを更新することができる。この更新とは、第1物体認識モデルにおける各モデルパラメータを更新することを指す。そのうち、第1物体認識モデルのモデルパラメータは、勾配パラメータ、重みパラメータなどを含むことができるが、これらに限定されない。
本開示の実施例において、第2物体認識モデルを利用して第1物体認識モデルを訓練するプロセスには、まず、第1物体認識モデル及び第2物体認識モデルをそれぞれ呼び出してテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答及び第2参照応答を得て、第1物体認識モデル及び第2物体認識モデルを呼び出してテスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答及び第2テスト応答を得て、さらに、第1テスト応答に対して追跡処理を行い、追跡ターゲットの追跡応答を得て、さらに、第1参照応答と第2参照応答との間の差分情報、及び第1テスト応答と第2テスト応答との間の差分情報に基づき、第2物体認識モデルと比較する場合の第1物体認識モデルの特徴抽出性能上の損失を決定し、且つ、追跡ラベルと追跡応答との間の差分情報に基づき、第1物体認識モデルの追跡性能上の損失を決定することができる。第1物体認識モデルの特徴抽出性能上の損失及び追跡性能上の損失に基づき、第1物体認識モデルを更新することで、更新後の第1物体認識モデルが第2物体認識モデルと同じ又は類似する特徴抽出性能を有するようになり、且つ抽出した特徴が視覚ターゲット追跡シーンにより適し、視覚ターゲット追跡の精度を高めることができる。
【0046】
図4を参照し、本開示の実施例により提供される別のモデル訓練方法の模式的なフローチャートである。当該モデル訓練方法は、端末などのコンピューティングデバイスによって実行することができ、この端末は、スマート端末、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータなどを含むことができるが、これらに限定されない。図4を参照し、当該モデル訓練方法は、以下のステップS401~S408を含むことができる。
【0047】
ステップS401、第2物体認識モデルを取得し、前記第2物体認識モデルを切り取り、第1物体認識モデルを得る。
【0048】
本開示の一実施例において、前記第2物体認識モデルは、訓練済みの画像認識用の重量級のモデルであり、前記第1物体認識モデルは、訓練となる画像認識用の軽量級のモデルである。以上から分かるように、第2物体認識モデルに対してモデル圧縮処理を行って軽量級の第1物体認識モデルを得て、さらに軽量級の第1物体認識モデルを視覚ターゲット追跡の分野に応用することで、リアルタイムの視覚ターゲット追跡を実現することができる。前記モデル圧縮とは、訓練済みの重量級のモデルに対して、重量級のモデルに含まれる若干の重要でないフィルタやパラメータを除去し、特徴抽出速度を上げるように、時間及び空間上の圧縮を行うことを指す。本開示の実施例において、前記モデル圧縮は、モデル切り取り及びモデル訓練を含むことができ、前記モデル切り取りとは、第1物体認識モデルを得るように、モデルに含まれるフィルタの数及び特徴通路の数を切り取ることで第2物体認識モデルのネットワーク構造を軽減することを指し、前記モデル訓練とは、第1物体認識モデルが第2物体認識モデルと同じ又は類似する特徴認識性能を有するように、転移学習技術に基づき、第2物体認識モデル及び訓練用のテンプレート画像とテスト画像を用いて、切り取って得られた第1物体認識モデルに更新と訓練を行うことを指す。
【0049】
前記転移学習技術とは、1つのモデルの性能を別のモデルに転移することを指し、本開示の実施例において、転移学習とは、第2物体認識モデルを呼び出してテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得て、前記第2参照応答を監視ラベルとして、第1物体認識モデルがテンプレート画像における前記追跡ターゲットの特徴を認識するように訓練し、さらに第2物体認識モデルを呼び出してテスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得て、前記第2テスト応答を監視ラベルとして、第1物体認識モデルがテスト画像における前記追跡ターゲットの特徴を認識するように訓練することを指す。教師あり学習モデルは、転移学習技術に基づいてモデル圧縮を行う典型的な方法であり、本開示の実施例において、第2物体認識モデルは教師モデルに相当し、第1物体認識モデルは学生モデルに相当する。
【0050】
一実施例において、前記第2物体認識モデルを切り取って第1物体認識モデルを得るプロセスにおいて、切り取りとは、第2物体認識モデルにおける各畳み込み層に含まれるフィルタの数から特定の数を減算し、及び/又は各畳み込み層に対応する特徴通路の数からも対応する量を減算することを指すことができる。例えば、第2物体認識モデルの各畳み込み層内のフィルタの数及び特徴通路の数から3/5の量を減算するか、又はその7/8の量又は任意の量を減算し、実践により、第2物体認識モデルにおける各畳み込み層に含まれるフィルタの数及び各畳み込み層に対応する特徴通路の数から7/8の量を減算する場合、訓練によって優れた第1物体認識モデルを更新し得ることができることが証明された。例えば、図5を参照し、本開示の実施例により提供される第2物体認識モデルを切り取って第1物体認識モデルを得る模式図である。なお、上記方法で第2物体認識モデルに切り取り処理を行うことは畳み込み層のみに関わるため、説明の便宜上、図5には第1物体認識モデル及び第2物体認識モデルの畳み込み層のみが示されている。第2物体認識モデルがVGG-8モデルであるとすれば、以上から分かるように、第1物体認識モデルもVGG-8モデルである。VGG-8モデルには5つの畳み込み層が含まれ、501は第2物体認識モデルの畳み込み層を表し、502は第1物体認識モデルの畳み込み層を表し、503は第2物体認識モデルの各畳み込み層に含まれるフィルタの数、特徴通路の数、フィルタのサイズを表す。上記の説明に基づき、第2物体認識モデルにおける各畳み込み層に含まれるフィルタの数、特徴通路の数から7/8の量を減算し、504で示される第1物体認識モデルの各畳み込み層におけるフィルタの数、特徴通路の数及びフィルタのサイズを得る。
【0051】
ステップS402、訓練用のテンプレート画像及びテスト画像を取得し、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルはテスト画像における追跡ターゲットのラベリング位置を表すために用いられる。
【0052】
ステップS403、第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ前記第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得る。
【0053】
ステップS404、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得る。
【0054】
ステップS405、前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得る。
【0055】
一実施例において、ステップS405の実施形態は、追跡訓練アルゴリズムを用いて第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップを含むことができる。前記追跡訓練アルゴリズムには、追跡アルゴリズムパラメータを含むことができ、追跡訓練アルゴリズムを用いて前記第1テスト応答に追跡処理を行い、前記テスト画像における前記追跡ターゲットに対する追跡応答を得る実施形態は、第1テスト応答を追跡アルゴリズムパラメータが既知である追跡訓練アルゴリズムに代入して計算し、計算された結果に基づいて追跡応答を決定することであってよい。本開示の実施例において、前記追跡訓練アルゴリズムにおける追跡アルゴリズムパラメータは、第2物体認識モデル及びテンプレート画像に基づいて追跡訓練アルゴリズムを訓練して得られたものである。以下、追跡訓練アルゴリズムが相関フィルタ追跡アルゴリズムであることを例として、第2物体認識モデル及びテンプレート画像を利用して追跡訓練アルゴリズムを訓練し、相関フィルタ追跡アルゴリズムの追跡アルゴリズムパラメータを得るプロセスについて説明する。前記相関フィルタ追跡アルゴリズムの追跡アルゴリズムパラメータとは、相関フィルタパラメータのフィルタパラメータを指し、相関フィルタ追跡アルゴリズムを訓練するプロセスは、ステップS11~S13を含むことができる。
【0056】
ステップS11で、テンプレート画像に基づいて訓練サンプルを生成し、訓練サンプルに対応する追跡ラベルを取得する。
【0057】
一実施例において、テンプレート画像には、追跡ターゲット及び追跡ターゲットに対応する追跡ラベルを含み、テンプレート画像に基づいて生成された訓練サンプルにも追跡ターゲットを含む。そのうち、前記テンプレート画像に含まれる追跡ターゲットに対応する追跡ラベルとは、テンプレート画像における追跡ターゲットの実際の位置を指すことができ、前記テンプレート画像に含まれる追跡ターゲットの追跡ラベルは、端末が予めラベリングしたものであってよい。本開示の一実施例において、テンプレート画像に基づいて訓練サンプルを生成する形態は、テンプレート画像から追跡ターゲットを含む画像ブロックを切り取り、画像ブロックに循環シフト処理を行って訓練サンプルを得ることであってよく、訓練サンプルに対応する追跡ラベルは、テンプレート画像に含まれる追跡ラベル及び循環シフト操作の度合いに基づいて决定される。
【0058】
テンプレート画像に対して循環シフト処理を行う形態は、テンプレート画像の画像ブロックに画素化処理を行い、追跡ターゲットを表すための画素点を決定し、これらの画素点が追跡ターゲットの画素行列を構成し、画素行列における各行に循環シフト処理を行い、複数の新しい画素行列を得ることであってよい。上記循環シフトのプロセスにおいて、各画素点の値が変化せず、画素点の位置のみが変化し、画素点の値が変わらないため、循環シフト後の行列はさらに追跡ターゲットを表すために用いられ、画素点の位置が変化するため、新しい画素点行列によりレンダリングされた追跡ターゲットの位置は変化する。
【0059】
画素行列の各行に循環シフト処理を行うことは、以下を含むことができる。画素行列の各行は、1つのnx1のベクトルとして表すことができ、ベクトルにおける各ベクトル要素は1つの画素点に対応し、nx1ベクトルにおける各画素点を順に右又は左へ移動させ、1回移動する度に1組の新しいベクトルを得る。
【0060】
ステップS12、第2物体認識モデルを呼び出して訓練サンプルに対して特徴抽出処理を行い、訓練サンプルにおける追跡ターゲットの特徴を得る。
【0061】
第2物体認識モデルを呼び出して複数の訓練サンプルに対して特徴抽出処理を行うステップは、実際には、第2物体認識モデルの畳み込み層を呼び出して訓練サンプルに特徴抽出を行うプロセスである。第2物体認識モデルは、複数の畳み込み層を含み、畳み込み層ごとに複数の畳み込み計算用のフィルタを含むため、各畳み込み層により抽出した特徴は多次元であり、最後の畳み込み層の出力を得るまで、各畳み込み層により抽出した多次元特徴を順に次の畳み込み層の入力とする。例えば、第2物体認識モデルは5つの畳み込み層を含み、5つの畳み込み層によって訓練サンプルに特徴抽出処理を行った後、得られた訓練サンプルの特徴の次元はDであり、
が第2物体認識モデルにより抽出した第i次元の特徴を示すとすれば、最後に第2物体認識モデルにより抽出した訓練の特徴は


として表される。
【0062】
ステップS13、相関フィルタパラメータを決定するためのリッジ回帰式を取得し、前記リッジ回帰式を解き、相関フィルタパラメータを得る。
【0063】
相関フィルタ追跡アルゴリズムの動作原理は、追跡ターゲットを含む画像の特徴を抽出し、抽出した特徴と相関フィルタに畳み込み計算を行い、応答マップを得て、前記応答マップから画像における追跡ターゲットの位置を決定することである。畳み込み計算する際、同じ大きさの2つの量の間のみに畳み込み計算を行うことができるため、相関フィルタの次元と訓練サンプルの特徴の次元が同じであることを保証しなければならない。相関フィルタ追跡アルゴリズムに対応するリッジ回帰式は、式(1)に示される。
【数1】
【0064】
ただし、★は畳み込み計算を表し、Dは第2物体認識モデルにより抽出した訓練サンプルの特徴次元を表し、wは相関フィルタの第i次元のフィルタパラメータを表し、xは訓練サンプルを表し、yは訓練サンプルxの追跡ラベルを表し、


は訓練サンプルxの第i次元の特徴を表し、λは正規化係数を表す。
【0065】
式(1)のリッジ回帰式を最小化することで、相関フィルタの各次元のフィルタパラメータを得ることができる。具体的には、式(1)を最小化し、且つ周波数ドメインにおいて式(1)を解き、相関フィルタの各次元のフィルタパラメータを得る。第d次元のフィルタパラメータを求めることを例とし、周波数ドメインにおいてフィルタパラメータを求める式を説明する。周波数ドメインにおいて第d次元のフィルタパラメータを求める式は、(2)として表される。
【数2】
【0066】
式(2)において、wは第d目の畳み込み層に対応する相関フィルタパラメータを表し、

は点乗積演算を表し、


は離散フーリエ変換を表し、・は複素共役演算を表す。式(2)に基づいて各次元の相関フィルタのフィルタパラメータを算出することができ、各次元のフィルタパラメータは、相関フィルタ追跡アルゴリズムのフィルタパラメータを構成する。
【0067】
ステップS11~S13によって相関フィルタ追跡アルゴリズムを訓練して相関フィルタのフィルタパラメータを得たのち、相関フィルタ追跡アルゴリズムに基づいて第1テスト応答に追跡処理を行い、前記テスト画像における前記追跡ターゲットに対する追跡応答を得ることができる。具体的には、相関フィルタ追跡アルゴリズムを用いて第1テスト応答に追跡処理を行い、前記テスト画像における前記追跡ターゲットに対する追跡応答を得るステップは、式(3)で表すことができる。
【数3】
【0068】
式(3)において、wは相関フィルタのフィルタパラメータを表し、


は第1テスト応答を示し、


は逆離散フーリエ変換を表し、rは追跡応答を表す。
【0069】
ステップS406、前記第1物体認識モデルに対応する損失最適化関数を取得する。
【0070】
第1物体認識モデルと第2物体認識モデルが同じ又は類似する特徴抽出性能を有することを保証するとともに、第1物体認識モデルにより抽出した特徴が視覚追跡シーンにより適することを保証するために、本開示の実施例は、第1物体認識モデルに対して特徴認識損失と追跡損失を行う共同最適化を提供する。第1物体認識モデルに共同最適化を行うとき、第1物体認識モデルに対応する損失最適化関数は、式(4)として表すことができる。
【数4】

【0071】
式(4)において、


は特徴認識損失を表し、


は追跡損失を表し、λは第1物体認識モデルの最適化に対する特徴認識損失及び追跡損失の重要度のパラメータを表し、その値が0~1の範囲とすることができ、λが大きいほど、第1物体認識モデルの損失最適化に対する追跡損失の影響が大きいことを表し、Θは第1物体認識モデルのネットワークパラメータを示し、Υは正規化係数を表し、Υ||Θ||は第1物体認識モデルのオーバーフィッティングを防止する。
【0072】
ステップS407、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定する。
ステップS406から、第1物体認識モデルの損失最適化関数は、特徴認識損失関数及び追跡損失関数を含むことが分かり、ステップS407において、損失最適化関数の値を決定するとき、まず特徴認識損失関数の値及び追跡損失関数の値を決定し、さらに特徴認識損失関数の値及び追跡損失関数の値に基づいて最適化損失関数の値を決定することができる。
【0073】
具体的には、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定するステップは、前記特徴認識損失関数を取得し、前記第1参照応答と前記第2参照応答との間の差分情報、及び前記第1テスト応答と前記第2テスト応答との間の差分情報に基づき、前記特徴認識損失関数の値を決定するステップと、前記追跡損失関数を取得し、前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定するステップと、前記特徴認識損失関数の値及び前記追跡損失関数の値に基づき、損失最適化関数の値を決定するステップと、を含む。
【0074】
特徴認識損失関数の値について、以上から分かるように、前記第1参照応答は、第1物体認識モデルにより認識されたテンプレート画像における前記追跡ターゲットの特徴を表すために用いられ、前記第2参照応答は、第2物体認識モデルにより認識されたテンプレート画像における前記追跡ターゲットの特徴を表すために用いられ、前記第1参照応答と前記第2参照応答との間の差分情報は、第1物体認識モデル及び第2物体認識モデルがテンプレート画像における前記追跡ターゲットの特徴に特徴抽出を行うときに抽出した特徴の間の差分の大きさを反映し、前記差分の大きさは距離で表すことができ、即ち、第1参照応答と前記第2参照応答との間の差分情報は、第1参照応答と前記第2参照応答との間の距離を含む。
【0075】
同様に、前記第1テスト応答と前記第2テスト応答との間の差分情報は、第1テスト応答と前記第2テスト応答との間の距離を含む。特徴認識損失関数は、上記特徴の間の距離を制約することで、第1物体認識モデルと第2物体認識モデルが同じ又は類似する特徴抽出性能を有するようにする。このことから、特徴損失最適化関数は2つの部分の損失を含み、一部がテスト画像に関する特徴認識損失であり、もう一部がテンプレート画像に関する特徴認識損失であることが分かる。
【0076】
テスト画像に関する特徴認識損失の損失値は、第1参照応答と前記第2参照応答との間の距離によって決定され、テンプレート画像に関する特徴認識損失の損失値は、第1テスト応答と前記第2テスト応答との間の距離によって決定され、テスト画像に関する特徴認識損失の損失値及び参照画像に関する認識損失の損失値を特徴認識損失関数に代入することで、特徴認識損失関数の値を算出することができる。例えば、特徴認識損失関数は、式(5)として表すことができる。
【数5】
【0077】
そのうち、


は特徴認識損失関数を表し、


は参照画像に関する特徴認識損失を表し、


はテストターゲットに関する特徴認識損失を表し、


は第1参照応答を表し、


は第2参照応答を表し、


は第1テスト応答を表し、


は第2テスト応答を表す。
【0078】
追跡損失関数の値について、追跡ラベルと追跡応答との間の差分は、追跡応答と追跡ラベルとの間のユークリッド距離を反映し、両者のユークリッド距離を制約することで、第1物体認識モデルの追跡性能を最適化させる。追跡応答と追跡ラベルとの間のユークリッド距離を追跡損失関数に代入することで、追跡損失関数の値を求めることができる。例えば、追跡損失関数は、式(6)として表すことができる。
【数6】

【数7】
【0079】
そのうち、


は追跡損失関数を表し、rは追跡応答を表し、gは追跡ラベルを表し、rは式(7)によって得ることができ、式(7)のwは追跡訓練アルゴリズムのフィルタパラメータを表し、前述したステップS11~S13のステップによって得ることができる。
【0080】
なお、以上から分かるように、第1物体認識モデルは複数の畳み込み層を含み、第1テスト応答は、第1物体認識モデルの各畳み込み層がテスト画像に対して認識処理を行って得られた各サブテスト応答に融合処理を行った後に得られたものである。例えば、第1物体認識モデルが第1畳み込み層と、第2畳み込み層と、第3畳み込み層とを含むと仮定し、前記第1テスト応答は、第1畳み込み層に対応する第1テストサブ応答、前記第2畳み込み層に対応する第2テストサブ応答、及び前記第3畳み込み層に対応する第3テストサブ応答を融合して得られたものとすべきである。第1物体認識モデルにより抽出した特徴が視覚ターゲット追跡シーンにより適することを保証するために、第1物体認識モデルにマルチスケールの追跡損失最適化を行うことができる。
【0081】
本開示の一実施例において、マルチスケールの追跡損失最適化とは、第1物体認識モデルの複数の畳み込み層の追跡損失値を算出し、さらに複数の畳み込み層の追跡損失値に基づいて第1物体認識モデルの追跡損失関数の値を決定することを指す。具体的には、第1物体認識モデルが第1畳み込み層と、第2畳み込み層と、第3畳み込み層とを含むとすれば、前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定するステップは、前記第1畳み込み層に対応する第1追跡ラベルと前記第1テストサブ応答に追跡処理を行って得られた第1追跡応答との間の差分情報に基づき、前記第1畳み込み層の追跡損失値を決定するステップと、前記第2畳み込み層に対応する第2追跡ラベルと前記第2テストサブ応答に追跡処理を行って得られた第2追跡応答との間の差分情報に基づき、前記第2畳み込み層の追跡損失値を決定するステップと、前記第3畳み込み層に対応する第3追跡ラベルと前記第3テストサブ応答に追跡処理を行って得られた第3追跡応答との間の差分情報に基づき、前記第3畳み込み層の追跡損失値を決定するステップと、前記第1畳み込み層に対応する追跡損失値、前記第2畳み込み層に対応する追跡損失値、及び前記第3畳み込み層に対応する追跡損失値にマルチスケールの融合処理を行い、追跡損失関数の値を得るステップと、を含む。
【0082】
そのうち、第1追跡サブ応答、第2追跡サブ応答及び第3追跡サブ応答は、追跡訓練アルゴリズムを用いて第1畳み込み層、第2畳み込み層及び第3畳み込み層に対応する第1テストサブ応答、第2テストサブ応答及び第3テストサブ応答にそれぞれ追跡処理を行って得られたものである。異なる畳み込み層により抽出した特徴が異なるため、第1追跡サブ応答、第2追跡サブ応答及び第3追跡サブ応答は異なる解像度を有する。そのうち、追跡訓練アルゴリズムが異なる畳み込み層のテストサブ応答に追跡処理を行うときに使用される追跡アルゴリズムパラメータは異なり、ある畳み込み層での追跡アルゴリズムパラメータは、第2物体認識モデル及びそれに応じた畳み込み層に対応するテンプレート画像を利用して訓練して得られたものであり、具体的な訓練プロセスはステップS11~S13を参照することができ、ここでその説明を省略する。
【0083】
なお、第1物体認識モデルに含まれる複数の畳み込み層は接続順に従って接続され、前文に言及された第1畳み込み層、第2畳み込み層及び第3畳み込み層は、第1物体認識モデルの畳み込み層のうちの任意の3つの畳み込み層であってもよく、又は、前記第1畳み込み層は、前記接続順により指示された最初の畳み込み層であり、前記第3畳み込み層は、前記接続順により指示された最後の畳み込み層であり、前記第2畳み込み層は、前記最初の畳み込み層と前記最後の畳み込み層を除いた任意の1つの畳み込み層であり、この場合、第1畳み込み層は、第1物体認識モデルの上層畳み込み層と呼ぶことができ、第2物体認識モデルは、第1物体認識モデルの中層畳み込み層であり、前記第3畳み込み層は、第1物体認識モデルの下層畳み込み層である。実践により、5つの畳み込み層のみを有する第1物体認識モデルに対して、前記接続順により指示された最初の畳み込み層、前記接続順により指示された最後の畳み込み層及び第2畳み込み層を選択してマルチスケールの追跡損失最適化を行うことで、第1物体認識モデルにより抽出した特徴が追跡シーンにより適するようにできることが証明された。
【0084】
マルチスケールの追跡損失最適化の場合、上記式(6)は式(8)及び(9)に書き直されることができる。
【数8】

【数9】
【0085】
そのうち、lは第1物体認識モデルの第l畳み込み層を表し、rは追跡アルゴリズムを用いて第l畳み込み層の第lテストサブ応答に追跡処理を行って得られた第l追跡サブ応答を表し、gは第l畳み込み層に対応するテスト画像に含まれる追跡ターゲットの追跡ラベルを表す。そのうち、追跡アルゴリズムを用いて第l畳み込み層の第lテストサブ応答に追跡処理を行って第l追跡サブ応答を得るとき、使用される第l畳み込み層に対応する追跡アルゴリズムパラメータは、第2物体認識モデル及び第l畳み込み層に対応するテンプレート画像を利用して訓練して得られたものであり、具体的な訓練プロセスはステップS11~S13の説明を参照することができ、ここでその説明を省略する。
【0086】
図6を参照し、本開示の実施例により提供される第1物体認識モデルに共同最適化を行う模式図であり、図面に示された特徴認識損失最適化は式(5)に示され、マルチスケールの追跡損失最適化は式(8)に示され、図6の601は第1物体認識モデルを表し、602は第2物体認識モデルを表す。
【0087】
ステップS408、前記損失最適化関数の値を減少する原則に従って、前記第1物体認識モデルを更新する。
【0088】
ステップS406~S407によって第1物体認識モデルの特徴認識損失関数の値及び追跡損失関数の値を決定した後、両者を式(4)に代入し、損失最適化関数の値を算出し、損失最適化関数の値を減少する原則に従って、第1物体認識モデルを更新する。換言すれば、損失最適化関数の値を減少していて、損失最適化関数の値に基づいて特徴認識損失関数の値及び追跡損失関数の値を逆算することができ、さらに第1物体認識モデルのモデルパラメータを調整することにより、第1参照応答と第2参照応答との間の距離、及び第1テスト応答と第2テスト応答との間の距離が特徴認識損失関数の値を満たすようにするとともに、第1物体認識モデルのモデルパラメータを調整することにより、追跡応答と追跡ラベルとの間のユークリッド距離が追跡損失関数の値を満たすようにする。
【0089】
上記ステップS401~S408を繰り返し実行することで、第1物体認識モデルを更新して、優れた特徴認識性能を有するとともに抽出した特徴が視覚ターゲット追跡シーンにより適する第1物体認識モデルを得ることができる。実践により、本開示の実施例により提供されるモデル訓練方法を採用し、第2物体認識モデルにモデル圧縮及びナレッジトランスファー処理を行うことと組み合わせて得られた第1物体認識モデルの容量は、第2物体認識モデルの数十分の一に過ぎず、且つ、第1物体認識モデルは、第2物体認識モデルと類似する特徴抽出性能、より優れた追跡性能を持って、視覚追跡のリアルタイム性を実現することが証明された。
【0090】
前述したステップS401~S408において第1物体認識モデルを更新するときに使用されるテンプレート画像及びテスト画像がいずれも追跡ターゲットの画像を含むため、更新後の第1物体認識モデルが追跡ターゲットに特徴抽出を行うための優れた能力を有することを保証することができる。しかしながら、実際の応用において、第1物体認識モデルを呼び出して認識処理を行う処理対象画像には、追跡ターゲットの他、他の背景も含まれる可能性があるため、第1物体認識モデルの能力をさらに向上させるために、本開示の実施例は、ステップS401~S408によって第1物体認識モデルを更新した後、さらに正サンプル及び負サンプルを用いて第1物体認識モデルに更新処理を行うことで、第1物体認識モデルがより優れた特徴認識能力を有するようにし、即ち、画像に含まれる追跡ターゲットと背景をより良く区別することができる。
【0091】
具体的には、正サンプル及び負サンプルを用いて第1物体認識モデルに対して更新処理を行うステップは、追跡ターゲットを含む参照画像を取得し、前記参照画像に基づいて訓練用の正サンプル及び負サンプルを決定するステップであって、前記参照画像は、第1物体認識モデルにより追跡が実現されるビデオシーケンスにおける第1フレームの画像であってよく、前記正サンプルとは、前記追跡ターゲットを含む画像を指し、前記負サンプルとは、前記追跡ターゲットを含まない画像を指し、前記正サンプルは前記追跡ターゲットの正サンプル追跡ラベルを含み、前記負サンプルは前記追跡ターゲットの負サンプル追跡ラベルを含むステップと、前記更新された第1物体認識モデルを呼び出して前記正サンプルに認識処理を行い、正サンプル認識応答を得て、前記更新された第1物体認識モデルを呼び出して前記負サンプルに認識処理を行い、負サンプル認識応答を得るステップと、前記正サンプル認識応答に追跡処理を行い、前記正サンプルにおける前記追跡ターゲットに対する正サンプル追跡応答を得て、前記負サンプル認識応答に追跡処理を行い、前記負サンプルにおける前記追跡ターゲットに対する負サンプル追跡応答を得るステップと、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するステップと、を含むことができる。
【0092】
本開示の一実施例において、参照画像に基づいて正サンプル及び負サンプルを取得する形態は、参照画像をランダムに切り取ることで、複数の画像ブロックを取得し、追跡ターゲットを含む画像ブロックを正サンプルとし、追跡ターゲットを含まない画像ブロックを負サンプルとすることであってよい。そのうち、正サンプルに対応する正サンプル追跡ラベルは、正サンプルにおける追跡ターゲットの実際の位置であり、負サンプルが追跡ターゲットを含まないため、それに対応する負サンプル追跡ラベルは0である。例えば、図7には正サンプル及び負サンプルを取得する模式図が示され、図7における701は参照画像であり、参照画像をランダムに切り取ることで、複数の画像ブロックを得て、例えば、701に含まれる複数のラベリングボックスであり、各ラベリングボックスは1つの画像ブロックを代表し、追跡ターゲットが702であるとすれば、701の複数の画像ブロックから、702を含む画像ブロックを正サンプルとして選択し、例えば図面における703及び704であり、702を含まない画像ブロックを負サンプルとして選択し、例えば、図面における705及び706である。703及び704に対応する正サンプル追跡ラベルは、703及び704における追跡ターゲットの実際の位置であり、図面における703及び704の下方にあるドットに示す通りである。負サンプル705及び706に追跡ターゲットを含まないため、それに対応する追跡ラベルは0であり、ドットがない。
【0093】
一実施例において、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するステップは、追跡損失最適化関数を取得するステップと、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記追跡損失最適化関数の値を決定するステップと、前記追跡損失最適化関数の値を減少する原則に従って、前記更新された第1物体認識モデルを訓練するステップと、を含む。
【0094】
正サンプル追跡応答と正サンプル追跡ラベルとの間の差分情報は、第1物体認識モデルが正サンプルに追跡処理を行って得られた追跡ターゲットの位置と当該正サンプルにおける追跡ターゲットの実際の位置との間のユークリッド距離を含む。同様に、負サンプル追跡応答と負サンプル追跡ラベルとの間の差分情報は、第1物体認識モデルが負サンプルに追跡処理を行って得られた追跡ターゲットの位置と当該負サンプルにおける追跡ターゲットの実際の位置との間のユークリッド距離を含む。上記両者を追跡損失最適化関数に代入することで、追跡損失最適化関数の値を得て、そして、追跡損失最適化関数の値を減少する原則に従って、更新された第1物体認識モデルを再度更新する。追跡損失最適化のステップを繰り返し実行することで、更新された第1物体認識モデルに対する更新を完成する。
【0095】
一実施例において、ステップS407においてマルチスケールの追跡最適化についての説明に基づき、ここで、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを更新するときに、マルチスケールの最適化を使用してもよい。
【0096】
以上から分かるように、第1物体認識モデルは、第1畳み込み層と、第2畳み込み層と、第3畳み込み層とを含み、前記正サンプル追跡ラベルは、第1畳み込み層に対応する第1正サンプル追跡ラベルと、第2畳み込み層に対応する第2正サンプル追跡ラベルと、第3畳み込み層に対応する第3正サンプル追跡ラベルとを含み、正サンプル認識応答は、第1畳み込み層に対応する正サンプルの第1サブ認識応答、第2畳み込み層に対応する正サンプルの第2サブ認識応答、及び第3畳み込み層に対応する正サンプルの第3サブ認識応答を融合して得られたものであり、前記負サンプル認識応答は、第1畳み込み層に対応する負サンプルの第1サブ認識応答、第2畳み込み層に対応する負サンプルの第2サブ認識応答、及び第3畳み込み層に対応する負サンプルの第3サブ認識応答を融合して得られたものである。
【0097】
前記正サンプル追跡応答は、追跡訓練アルゴリズムを用いて、正サンプルの第1サブ認識応答に追跡処理を行って得られた第1正サンプル追跡応答と、正サンプルの第2サブ認識応答に追跡処理を行って得られた第2正サンプル追跡応答と、正サンプルの第3サブ認識応答に追跡処理を行って得られた第3正サンプル追跡応答とを含むことができる。前記負サンプル追跡応答は、追跡訓練アルゴリズムを用いて第1負サンプル認識応答に追跡処理を行うときに得られた第1負サンプルサブ追跡応答と、追跡訓練アルゴリズムを用いて第2負サンプル認識応答に追跡処理を行うときに得られた第2負サンプルサブ追跡応答と、追跡訓練アルゴリズムを用いて第3負サンプル認識応答に追跡処理を行うときに得られた第3負サンプルサブ追跡応答とを含むことができる。
【0098】
前記マルチスケールの追跡損失最適化の実施形態は、第1正サンプル追跡応答と第1正サンプル追跡ラベルとの間の差分情報、及び第1負サンプル追跡応答と負サンプル追跡応答との間の差分情報に基づき、第1畳み込み層の追跡損失最適化関数の値を決定し、第2正サンプル追跡応答と第2正サンプル追跡ラベルとの間の差分情報、及び第2負サンプル追跡応答と負サンプル追跡応答との間の差分情報に基づき、第2畳み込み層の追跡損失最適化関数の値を決定し、且つ、第3正サンプル追跡応答と第3正サンプル追跡ラベルとの間の差分情報、及び第3負サンプル追跡応答と負サンプル追跡応答との間の差分情報に基づき、第3畳み込み層の追跡損失最適化関数の値を決定し、最後に、第1畳み込み層の追跡損失最適化関数の値、第2畳み込み層の追跡損失最適化関数の値、及び第3畳み込み層の追跡損失最適化関数の値に基づき、追跡損失最適化関数の値を決定することであってよい。マルチスケールの追跡損失最適化の追跡損失最適化関数は、式(10)として表すことができるとする。
【数10】

ただし、
【数11】
【0099】
そのうち、


は、追跡訓練アルゴリズムを用いて第l畳み込み層に対応する正サンプルの第lサブ認識応答を処理して得られた第l正サンプル追跡応答を表し、gは、第l畳み込み層での正サンプルに対応する正サンプル追跡ラベルを表し、
は、追跡訓練アルゴリズムを用いて第l畳み込み層に対応する負サンプルの第lサブ認識応答に処理を行って得られた第l負サンプル追跡応答を表し、
は、第l畳み込み層に対応する追跡アルゴリズムパラメータを表す。
【0100】
以上から分かるように、異なる畳み込み層に対応する追跡アルゴリズムパラメータは、第2物体認識モデル及びそれに応じた畳み込み層での対応する正サンプルによって訓練して得られたものであり、異なる畳み込み層での対応する正サンプルは、サイズが同じであるが、解像度が異なる画像であり、具体的な訓練プロセスについて、上記ステップS11~S13を参照することができ、ここでその説明を省略する。
【0101】
参照画像を利用して第1物体認識モデルを再度更新した後、第1物体認識モデルをいくつかの追跡アルゴリズムと組み合わせて、シーン解析、監視デバイス及びマンマシンインタラクションなどの視覚ターゲット追跡を行う必要のあるシーンに応用することができる。具体的には、第1物体認識モデルをいくつの追跡アルゴリズムと組み合わせて視覚ターゲット追跡シーンに応用する実施形態は、処理対象画像を取得し、参照画像における追跡ターゲットのラベリング情報に基づいて前記処理対象画像に含まれる予測追跡ターゲットを決定するステップであって、前記処理対象画像は、第1物体認識モデルにより視覚ターゲット追跡が行われるビデオシーケンスにおける第1フレームを除いた画像であってよいステップと、更新された第1物体認識モデルを呼び出して前記参照画像における前記追跡ターゲットに認識処理を行い、第1認識特徴を得るステップと、前記更新された第1物体認識モデルを呼び出して前記処理対象画像における予測追跡ターゲットに認識処理を行い、第2認識特徴を得るステップと、前記第1認識特徴及び前記第2認識特徴に基づいて追跡処理用のターゲット特徴を決定し、且つ追跡アルゴリズムを用いて前記ターゲット特徴に追跡処理を行い、前記処理対象画像における前記追跡ターゲットの位置情報を得るステップと、を含むことができる。この部分の具体的な応用について、図1の部分の対応する説明を参照することができ、ここでその説明を省略する。
【0102】
本開示の実施例は、重量級の第2物体認識モデルを用いて軽量級の第1物体認識モデルを訓練する際に、それぞれ第1物体認識モデル及び第2物体認識モデルを呼び出して訓練用のテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答及び第2参照応答を得て、さらに第1物体認識モデル及び第2物体認識モデルを呼び出して訓練用のテスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答及び第2テスト応答を得て、そして、第1テスト応答に追跡処理を行い、追跡応答を得て、最後に、第1参照応答と第2参照応答との間の差分情報、及び第1テスト応答と第2テスト応答との間の差分情報に基づき、第2物体認識モデルと比較する場合、第1物体認識モデルの特徴抽出性能上の損失を決定するとともに、追跡ラベルと追跡応答との間の差分情報に基づき、第1物体認識モデルの追跡性能上の損失を決定し、さらに、特徴抽出性能上の損失と追跡性能上の損失との組み合わせに基づいて第1物体認識モデルに損失最適化を行い、更新後の軽量級の第1物体認識モデルが第2物体認識モデルと同じ又は類似する特徴抽出性能、より速い特徴抽出速度を有するようになり、第1物体認識モデルにより抽出した特徴が視覚ターゲット追跡シーンにより適することを保証し、視覚ターゲット追跡の精度及びリアルタイム性が高められる。
【0103】
上記モデル訓練方法の実施例の説明に基づき、本開示の実施例は、モデル訓練装置をさらに開示し、当該モデル訓練装置は、図2及び図4に示す方法を実行することができる。図8を参照し、前記モデル訓練装置は、以下のユニットに実行させることができる。
【0104】
訓練用のテンプレート画像及びテスト画像を取得するための取得ユニット801であって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルはテスト画像における前記追跡ターゲットのラベリング位置を表すために用いられる取得ユニット801と、
第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るために用いられ、
さらに、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るために用いられ、
さらに、前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るための処理ユニット802であって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられる処理ユニット802と、
前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するための更新ユニット803と、である。
一実施例において、前記取得ユニット801は、さらに第2物体認識モデルを取得するために用いられ、前記処理ユニット802は、さらに前記第2物体認識モデルを切り取り、第1物体認識モデルを得るために用いられる。
【0105】
一実施例において、前記更新ユニット803は、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するときに、前記第1物体認識モデルに対応する損失最適化関数を取得する操作と、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定する操作と、前記損失最適化関数の値を減少する原則に従って、前記第1物体認識モデルを更新する操作と、を実行する。
【0106】
一実施例において、前記損失最適化関数は、特徴認識損失関数及び追跡損失関数を含み、前記更新ユニット803は、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定するときに、前記特徴認識損失関数を取得し、前記第1参照応答と前記第2参照応答との間の差分情報、及び前記第1テスト応答と前記第2テスト応答との間の差分情報に基づき、前記特徴認識損失関数の値を決定する操作と、前記追跡損失関数を取得し、且つ前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定する操作と、前記特徴認識損失関数の値及び前記追跡損失関数の値に基づき、損失最適化関数の値を決定する操作と、を実行する。
【0107】
一実施例において、前記第1物体認識モデルは、第1畳み込み層と、第2畳み込み層と、第3畳み込み層とを含み、前記第1テスト応答は、前記第1畳み込み層に対応する第1テストサブ応答、前記第2畳み込み層に対応する第2テストサブ応答、及び前記第3畳み込み層に対応する第3テストサブ応答を融合して得られたものであり、前記更新ユニット803は、前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定するとき、
前記第1畳み込み層に対応する第1追跡ラベルと前記第1テストサブ応答に追跡処理を行って得られた第1追跡応答との間の差分情報に基づき、前記第1畳み込み層の追跡損失値を決定する操作と、前記第2畳み込み層に対応する第2追跡ラベルと前記第2テストサブ応答に追跡処理を行って得られた第2追跡応答との間の差分情報に基づき、前記第2畳み込み層の追跡損失値を決定する操作と、前記第3畳み込み層に対応する第3追跡ラベルと前記第3テストサブ応答に追跡処理を行って得られた第3追跡応答との間の差分情報に基づき、前記第3畳み込み層の追跡損失値を決定する操作と、前記第1畳み込み層に対応する追跡損失値、前記第2畳み込み層に対応する追跡損失値、及び前記第3畳み込み層に対応する追跡損失値に融合処理を行い、追跡損失関数の値を得る操作と、を実行し、前記第1追跡応答、前記第2追跡応答及び前記第3追跡応答は異なる解像度を有する。
【0108】
一実施例において、前記第1物体認識モデルは複数の畳み込み層を含み、前記複数の畳み込み層は接続順に従って接続され、前記第1畳み込み層は、前記接続順により指示された最初の畳み込み層であり、前記第3畳み込み層は、前記接続順により指示された最後の畳み込み層であり、前記第2畳み込み層は、前記最初の畳み込み層と前記最後の畳み込み層を除いた任意の1つの畳み込み層である。
【0109】
一実施例において、前記取得ユニット801は、さらに追跡ターゲットを含む参照画像を取得し、前記参照画像に基づいて訓練用の正サンプル及び負サンプルを決定するために用いられ、前記正サンプルとは、前記追跡ターゲットを含む画像を指し、前記負サンプルとは、前記追跡ターゲットを含まない画像を指し、前記正サンプルは前記追跡ターゲットの正サンプル追跡ラベルを含み、前記負サンプルは前記追跡ターゲットの負サンプル追跡ラベルを含み、前記参照画像に前記追跡ターゲットのラベリング情報が含まれる。
【0110】
前記処理ユニット802は、さらに前記更新された第1物体認識モデルを呼び出して前記正サンプルに対して認識処理を行い、正サンプル認識応答を得て、且つ前記更新された第1物体認識モデルを呼び出して前記負サンプルに対して認識処理を行い、負サンプル認識応答を得るために用いられる。
【0111】
前記処理ユニット802は、さらに前記正サンプル認識応答に追跡処理を行い、前記正サンプルにおける前記追跡ターゲットに対する正サンプル追跡応答を得て、前記負サンプル認識応答に追跡処理を行い、前記負サンプルにおける前記追跡ターゲットに対する負サンプル追跡応答を得るために用いられる。
【0112】
前記更新ユニット803は、さらに前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するために用いられる。
一実施例において、前記更新ユニット803は、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するとき、
追跡損失最適化関数を取得するステップと、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記追跡損失最適化関数の値を決定するステップと、前記追跡損失関数の値を減少する原則に従って、前記更新された第1物体認識モデルを更新するステップと、を実行する。
【0113】
一実施例において、前記取得ユニット801は、さらに処理対象画像を取得するために用いられ、前記処理ユニット802は、さらに前記参照画像における前記追跡ターゲットのラベリング情報に基づき、前記処理対象画像に含まれる予測追跡ターゲットを決定するために用いられ、前記処理ユニット802は、さらに更新された第1物体認識モデルを呼び出して前記参照画像における前記追跡ターゲットに対して認識処理を行い、第1認識特徴を得るために用いられ、前記処理ユニット802は、さらに前記更新された第1物体認識モデルを呼び出して前記処理対象画像における前記予測追跡ターゲットに対して認識処理を行い、第2認識特徴を得るために用いられ、前記処理ユニット802は、さらに前記第1認識特徴及び前記第2認識特徴に基づいて追跡処理用のターゲット特徴を決定し、且つ追跡アルゴリズムを用いて前記ターゲット特徴に追跡処理を行い、前記処理対象画像における前記追跡ターゲットの位置情報を得るために用いられる。
【0114】
本開示の一実施例によれば、図2又は図4に示す方法に係る各ステップは、いずれも図8に示すモデル訓練装置における各ユニットによって実行することができる。例えば、図2に示すステップS201は、図8に示す取得ユニット801によって実行することができ、ステップS202~S204は、図8に示す処理ユニット802によって実行することができ、ステップS205は、図8に示す更新ユニット803によって実行することができ、また、図4に示すステップS401、S402及びS406は、図8に示す取得ユニット801によって実行することができ、ステップS403~S405、及びS407は、図8の処理ユニット802によって実行することができ、ステップS408は、図8に示す更新ユニット803によって実行することができる。
【0115】
本開示の別の実施例によれば、図8に示すモデル訓練装置における各ユニットは、それぞれ又はすべて1つ又は複数の別のユニットに組み合わせられるように構成することができ、又はそのうちの1つ(複数)のユニットは、さらに機能的により小さい複数のユニットに分割されて構成することができ、このようにすれば、本開示の実施例の技術的効果の実現に影響を与えることなく、同様の操作を実現することができる。上記ユニットは論理機能に基づいて分割されており、実際の応用において、1つのユニットの機能は、複数のユニットによって実現されてもよく、又は、複数のユニットの機能は1つのユニットによって実現されてもよい。本開示の別の実施例において、モデル訓練装置は他のユニットを含むこともでき、実際の応用において、これらの機能は、他のユニットによって補助して実現されてもよく、且つ複数のユニットによって協働して実現されてもよい。
【0116】
本開示の別の実施例によれば、中央処理ユニット(CPU)、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)などの処理素子及び記憶素子を含む、例えばコンピュータの汎用コンピューティングデバイスで、図2又は図4に示す対応する方法に係る各ステップを実行できるコンピュータプログラム(プログラムコードを含む)を実行することで、図8に示すモデル訓練装置デバイスを構成し、且つ本開示の実施例のモデル訓練方法を実現することができる。前記コンピュータプログラムは、例えばコンピュータ読み取り可能な記録媒体に記載され、コンピュータ読み取り可能な記録媒体によって上記コンピューティングデバイスにインストールされてその中で実行されることができる。
【0117】
本開示の実施例において、第2物体認識モデルを利用して第1物体認識モデルを訓練するプロセスで、まず、第1物体認識モデル及び第2物体認識モデルをそれぞれ呼び出してテンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答及び第2参照応答を得て、また、第1物体認識モデル及び第2物体認識モデルを呼び出してテスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答及び第2テスト応答を得て、さらに、第1テスト応答に追跡処理を行い、追跡ターゲットの追跡応答を得て、さらに、第1参照応答と第2参照応答との間の差分情報、及び第1テスト応答と第2テスト応答との間の差分情報に基づき、第2物体認識モデルと比較する場合の第1物体認識モデルの特徴抽出性能上の損失を決定し、且つ、追跡ラベルと追跡応答との間の差分情報に基づき、第1物体認識モデルの追跡性能上の損失を決定することができる。第1物体認識モデルの特徴抽出性能上の損失及び追跡性能上の損失に基づき、第1物体認識モデルを更新することで、更新後の第1物体認識モデルが第2物体認識モデルと同じ又は類似する特徴抽出性能を有するようになり、且つ抽出した特徴が視覚ターゲット追跡シーンにより適し、視覚ターゲット追跡の精度を高めることができる。
【0118】
上記方法の実施例及び装置の実施例についての説明に基づき、本開示の実施例は、コンピューティングデバイスをさらに提供し、例えば図9に示す端末である。図9を参照し、当該端末は、プロセッサ901と、入力デバイス902と、出力デバイス903と、コンピュータ記憶媒体904とを少なくとも含む。前記入力デバイス902に撮影コンポーネントをさらに含むことができ、撮影コンポーネントは、テンプレート画像及び/又はテスト画像を取得するために用いられることができ、前記撮影コンポーネントは、さらに参照画像及び/又は処理対象画像を取得するために用いられることができ、前記撮影コンポーネントは、端末出荷時に端末に配置されたモジュールであってもよく、端末に接続される外部コンポーネントであってもよい。本開示の一実施例において、当該端末は、他のデバイスから送信されたテンプレート画像及び/又はテスト画像を受信するか、又は他のデバイスから送信された参照画像及び/又は処理対象画像を受信するように、他のデバイスに接続されることもできる。
【0119】
コンピュータ記憶媒体904は、端末の記憶装置に記憶されることができ、前記コンピュータ記憶媒体904は、コンピュータプログラムを記憶するために用いられ、前記コンピュータプログラムはプログラム命令を含み、前記プロセッサ901は、前記コンピュータ記憶媒体904に記憶されたプログラム命令を実行するために用いられる。プロセッサ901又はCPU(Central Processing Unit,中央処理ユニット))は、端末の計算コア及び制御コアであり、1つ又は複数の命令の実現に適し、具体的には、1つ又は複数の命令をロードして実行することにより、対応する方法のフロー又は対応する機能を実現することに適し、一実施例において、本開示の実施例に記載のプロセッサ901は、訓練用のテンプレート画像及びテスト画像を取得するステップであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルはテスト画像における前記追跡ターゲットのラベリング位置を表すために用いられるステップと、第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ前記第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るステップと、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るステップと、前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられるステップと、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップと、を実行するために用いられることができる。
【0120】
本開示の実施例は、コンピュータ記憶媒体(Memory)をさらに提供し、前記コンピュータ記憶媒体は、端末内の記憶デバイスであり、プログラム及びデータを格納するために用いられる。なお、ここのコンピュータ記憶媒体は、端末内の内蔵記憶媒体を含んでもよく、勿論、端末がサポートする拡張記憶媒体を含んでもよい。コンピュータ記憶媒体は記憶空間を提供し、当該記憶空間には端末のオペレーティングシステムが記憶されている。且つ、当該記憶空間には、プロセッサ901によってロードされて実行されることに適する1つ又は複数の命令がさらに格納されており、これらの命令は1つ又は複数のコンピュータプログラム(プログラムコードを含む)であってよい。なお、ここのコンピュータ記憶媒体は、高速RAM記憶装置であってもよく、少なくとも1つのディスク記憶装置のような不揮発性記憶装置(non-volatile memory)であってもよく、本開示の一実施例において、前記プロセッサから離れた少なくとも1つのコンピュータ記憶媒体であってもよい。
【0121】
一実施例において、上記のモデル訓練に関連する実施例における方法の対応するステップを実現するように、プロセッサ901によってコンピュータ記憶媒体に格納された1つ又は複数の命令をロードして実行することができ、具体的な実現において、コンピュータ記憶媒体における1つ又は複数の命令は、プロセッサ901によってロードされて実行されることで、
訓練用のテンプレート画像及びテスト画像を取得するステップであって、前記テンプレート画像及び前記テスト画像はいずれも追跡ターゲットを含み、前記テスト画像は前記追跡ターゲットの追跡ラベルを含み、前記追跡ラベルはテスト画像における前記追跡ターゲットのラベリング位置を表すために用いられるステップと、第1物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1参照応答を得て、且つ第2物体認識モデルを呼び出して前記テンプレート画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2参照応答を得るステップと、前記第1物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第1テスト応答を得て、且つ前記第2物体認識モデルを呼び出して前記テスト画像における前記追跡ターゲットの特徴に対して認識処理を行い、第2テスト応答を得るステップと、前記第1テスト応答に追跡処理を行い、前記追跡ターゲットの追跡応答を得るステップであって、前記追跡応答は前記テスト画像における前記追跡ターゲットの追跡位置を表すために用いられるステップと、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するステップと、を実現する。
【0122】
一実施例において、コンピュータ記憶媒体における1つ又は複数の命令は、さらにプロセッサ901によってロードされて実行されることで、第2物体認識モデルを取得するステップと、前記第2物体認識モデルを切り取り、第1物体認識モデルを得るステップと、を実現する。
一実施例において、前記プロセッサ901は、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記第1物体認識モデルを更新するとき、
前記第1物体認識モデルに対応する損失最適化関数を取得するステップと、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定するステップと、前記損失最適化関数の値を減少する原則に従って、前記第1物体認識モデルを更新するステップと、を実行する。
【0123】
一実施例において、前記損失最適化関数は、特徴認識損失関数及び追跡損失関数を含み、前記プロセッサ901は、前記第1参照応答と前記第2参照応答との間の差分情報、前記第1テスト応答と前記第2テスト応答との間の差分情報、及び前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記損失最適化関数の値を決定するとき、
前記特徴認識損失関数を取得し、且つ前記第1参照応答と前記第2参照応答との間の差分情報、及び前記第1テスト応答と前記第2テスト応答との間の差分情報に基づき、前記特徴認識損失関数の値を決定する操作と、前記追跡損失関数を取得し、且つ前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定する操作と、前記特徴認識損失関数の値及び前記追跡損失関数の値に基づき、損失最適化関数の値を決定する操作と、を実行する。
【0124】
一実施例において、前記第1物体認識モデルは、第1畳み込み層と、第2畳み込み層と、第3畳み込み層とを含み、前記第1テスト応答は、前記第1畳み込み層に対応する第1テストサブ応答、前記第2畳み込み層に対応する第2テストサブ応答、及び前記第3畳み込み層に対応する第3テストサブ応答を融合して得られたものであり、前記プロセッサ901は、前記追跡ラベルと前記追跡応答との間の差分情報に基づき、前記追跡損失関数の値を決定するとき、
前記第1畳み込み層に対応する第1追跡ラベルと前記第1テストサブ応答に追跡処理を行って得られた第1追跡応答との間の差分情報に基づき、前記第1畳み込み層の追跡損失値を決定する操作と、
前記第2畳み込み層に対応する第2追跡ラベルと前記第2テストサブ応答に追跡処理を行って得られた第2追跡応答との間の差分情報に基づき、前記第2畳み込み層の追跡損失値を決定する操作と、前記第3畳み込み層に対応する第3追跡ラベルと前記第3テストサブ応答に追跡処理を行って得られた第3追跡応答との間の差分情報に基づき、前記第3畳み込み層の追跡損失値を決定する操作と、前記第1畳み込み層に対応する追跡損失値、前記第2畳み込み層に対応する追跡損失値、及び前記第3畳み込み層に対応する追跡損失値に融合処理を行い、追跡損失関数の値を得る操作と、を実行し、前記第1追跡応答、前記第2追跡応答及び前記第3追跡応答は異なる解像度を有する。
【0125】
一実施例において、前記第1物体認識モデルは複数の畳み込み層を含み、前記複数の畳み込み層は接続順に従って接続され、前記第1畳み込み層は、前記接続順により指示された最初の畳み込み層であり、前記第3畳み込み層は、前記接続順により指示された最後の畳み込み層であり、前記第2畳み込み層は、前記最初の畳み込み層と前記最後の畳み込み層を除いた任意の1つの畳み込み層である。
【0126】
一実施例において、コンピュータ記憶媒体における1つ又は複数の命令は、さらにプロセッサ901によってロードされて実行されることで、
追跡ターゲットを含む参照画像を取得し、且つ前記参照画像に基づいて訓練用の正サンプル及び負サンプルを決定するステップであって、前記正サンプルとは、前記追跡ターゲットを含む画像を指し、前記負サンプルとは、前記追跡ターゲットを含まない画像を指し、前記正サンプルは前記追跡ターゲットの正サンプル追跡ラベルを含み、前記負サンプルは前記追跡ターゲットの負サンプル追跡ラベルを含み、前記参照画像に前記追跡ターゲットのラベリング情報が含まれるステップと、前記更新された第1物体認識モデルを呼び出して前記正サンプルに対して認識処理を行い、正サンプル認識応答を得て、且つ前記更新された第1物体認識モデルを呼び出して前記負サンプルに対して認識処理を行い、負サンプル認識応答を得るステップと、前記正サンプル認識応答に追跡処理を行い、前記正サンプルにおける前記追跡ターゲットに対する正サンプル追跡応答を得て、且つ前記負サンプル認識応答に追跡処理を行い、前記負サンプルにおける前記追跡ターゲットに対する負サンプル追跡応答を得るステップと、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するステップと、を実現する。
【0127】
一実施例において、前記プロセッサ901は、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記更新された第1物体認識モデルを訓練するとき、
追跡損失最適化関数を取得する操作と、前記正サンプル追跡応答と前記正サンプル追跡ラベルとの間の差分情報、及び前記負サンプル追跡応答と前記負サンプル追跡ラベルとの間の差分情報に基づき、前記追跡損失最適化関数の値を決定する操作と、前記追跡損失関数の値を減少する原則に従って、前記更新された第1物体認識モデルを更新する操作と、を実行する。
【0128】
一実施例において、コンピュータ記憶媒体における1つ又は複数の命令は、さらにプロセッサ901によってロードされて実行されることで、
【0129】
処理対象画像を取得し、且つ前記参照画像における前記追跡ターゲットのラベリング情報に基づき、前記処理対象画像に含まれる予測追跡ターゲットを決定するステップと、更新された第1物体認識モデルを呼び出して前記参照画像における前記追跡ターゲットに対して認識処理を行い、第1認識特徴を得るステップと、前記更新された第1物体認識モデルを呼び出して前記処理対象画像における前記予測追跡ターゲットに対して認識処理を行い、第2認識特徴を得るステップと、前記第1認識特徴及び前記第2認識特徴に基づいて追跡処理用のターゲット特徴を決定し、且つ追跡アルゴリズムを用いて前記ターゲット特徴に追跡処理を行い、前記処理対象画像における前記追跡ターゲットの位置情報を得るステップと、を実現する。
【0130】
以上に開示されたものは本開示の例示的な実施例に過ぎず、これによって本開示の請求の範囲を限定してはいけないことは当然である。本開示の特許請求の範囲に基づいてなされた等価の変化も本開示の範囲に含まれる。
図1a
図1b
図2
図3a
図3b
図4
図5
図6
図7
図8
図9
【国際調査報告】