IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 平安科技(深▲せん▼)有限公司の特許一覧

特許7060758追跡ターゲットの位置決め方法、装置、機器及び記憶媒体
<>
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図1
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図2
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図3
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図4
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図5
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図6
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図7
  • 特許-追跡ターゲットの位置決め方法、装置、機器及び記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-18
(45)【発行日】2022-04-26
(54)【発明の名称】追跡ターゲットの位置決め方法、装置、機器及び記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220419BHJP
【FI】
G06T7/00 350C
【請求項の数】 13
(21)【出願番号】P 2021504201
(86)(22)【出願日】2018-12-24
(65)【公表番号】
(43)【公表日】2021-11-18
(86)【国際出願番号】 CN2018123080
(87)【国際公開番号】W WO2020098076
(87)【国際公開日】2020-05-22
【審査請求日】2021-01-25
(31)【優先権主張番号】201811339121.3
(32)【優先日】2018-11-12
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】楊 国青
【審査官】堀井 啓明
(56)【参考文献】
【文献】特開2013-25490(JP,A)
【文献】特開2017-156886(JP,A)
【文献】FIROUZI,H,et al.,Real-time Monocular Vision-Based Object Tracking with Object Distance and Motion Estimation,2010 IEEE International Conference on Advanced Intelligent Mechatronics Montreal,Canada,July b6-9,2010,米国,IEEE,2010年07月09日,pp.987-992
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
追跡ターゲットの位置決め要求を受信した場合、前記位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得し、ただし、前記元の位置情報には、前記元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、前記元のターゲット点の前記現在フレーム画像における元の座標とが含まれるステップと、
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得し、ただし、前記ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、前記ターゲット予測の結果はN個のターゲット領域及び前記ターゲット領域のそれぞれに対応するターゲットの位置情報を含み、Nは正の整数であり、前記ターゲット領域のそれぞれには追跡対象のターゲットが1つ含まれているステップと、
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得するステップと、
前記N個の距離から最小値の距離を選択してターゲット距離とし、前記ターゲット距離に対応するターゲットの位置情報を取得するとともに、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを、前記元のターゲット点に対応する追跡ターゲットとして決定するステップと、を含むことを特徴とする追跡ターゲットの位置決め方法。
【請求項2】
前記ターゲット領域に対応するターゲットの位置情報は、ターゲット領域の左上隅座標、及び前記ターゲット領域の幅と高さを含み、各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得することは、
【請求項3】
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得する戦記ステップの前に、前記追跡ターゲットの位置決め方法は、さらに、
サンプルトレーニング画像データを取得するステップと、
深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築するステップと、
前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造内で、前記サンプルトレーニング画像データを使用して前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造をトレーニングして、前記ターゲット予測モデルを取得することを特徴とする請求項1に記載の追跡ターゲットの位置決め方法。
【請求項4】
深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築する前記ステップは、
前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の定義情報を取得するステップと、
前記深層学習フレームワーク内でプリセットのネットワーク定義の層構造にしたがって、前記定義情報を、対応する前記畳み込み層及び前記全結合層の層構造に埋め込んで、前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を生成するステップと、を含むことを特徴とする請求項3に記載の追跡ターゲットの位置決め方法。
【請求項5】
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得する前記ステップの後、前記追跡ターゲットの位置決め方法は、さらに、
前記N個の距離のうち、プリセット閾値より小さい前記距離のターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットをユーザにフィードバックして確認するステップと、
前記ユーザから返送された確認結果を受信し、前記確認結果に基づいて、前記ユーザが確認した追跡ターゲットを前記元のターゲット点に対応する追跡ターゲットとすることを特徴とする請求項1に記載の追跡ターゲットの位置決め方法。
【請求項6】
メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行できるコンピュータ可読命令とを含むコンピュータ機器であって、前記プロセッサが前記コンピュータ可読命令を実行すると、
追跡ターゲットの位置決め要求を受信した場合、前記位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得し、ただし、前記元の位置情報には、前記元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、前記元のターゲット点の前記現在フレーム画像における元の座標とが含まれるステップと、
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得し、ただし、前記ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、前記ターゲット予測の結果はN個のターゲット領域及び前記ターゲット領域のそれぞれに対応するターゲットの位置情報を含み、Nは正の整数であり、前記ターゲット領域のそれぞれには追跡対象のターゲットが1つ含まれているステップと、
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得するステップと、
前記N個の距離から最小値の距離を選択してターゲット距離とし、前記ターゲット距離に対応するターゲットの位置情報を取得するとともに、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを、前記元のターゲット点に対応する追跡ターゲットとして決定するステップと、が実施されることを特徴とするコンピュータ機器。
【請求項7】
前記ターゲット領域に対応するターゲットの位置情報は、ターゲット領域の左上隅座標、及び前記ターゲット領域の幅と高さを含み、各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得することは、
【請求項8】
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得する戦記ステップの前に、前記追跡ターゲットの位置決め方法は、さらに、
サンプルトレーニング画像データを取得するステップと、
深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築するステップと、
前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造内で、前記サンプルトレーニング画像データを使用して前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造をトレーニングして、前記ターゲット予測モデルを取得するステップと、を含むことを特徴とする請求項に記載のコンピュータ機器。
【請求項9】
深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築する前記ステップの前に、
前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の定義情報を取得するステップと、
前記深層学習フレームワーク内でプリセットのネットワーク定義の層構造にしたがって、前記定義情報を、対応する前記畳み込み層及び前記全結合層の層構造に埋め込んで、前記畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を生成するステップと、を含むことを特徴とする請求項に記載のコンピュータ機器。
【請求項10】
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得する前記ステップの後、前記追跡ターゲットの位置決め方法は、さらに、
前記N個の距離のうち、プリセット閾値より小さい前記距離のターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットをユーザにフィードバックして確認するステップと、
前記ユーザから返送された確認結果を受信し、前記確認結果に基づいて、前記ユーザが確認した追跡ターゲットを前記元のターゲット点に対応する追跡ターゲットとするステップと、を含むことを特徴とする請求項に記載のコンピュータ機器。
【請求項11】
コンピュータ可読命令が記憶されている1つ又は複数の不揮発性可読記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサは、
追跡ターゲットの位置決め要求を受信した場合、前記位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得し、ただし、前記元の位置情報には、前記元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、前記元のターゲット点の前記現在フレーム画像における元の座標とが含まれるステップと、
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得し、ただし、前記ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、前記ターゲット予測の結果はN個のターゲット領域及び前記ターゲット領域のそれぞれに対応するターゲットの位置情報を含み、Nは正の整数であり、前記ターゲット領域のそれぞれには追跡対象のターゲットが1つ含まれているステップと、
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得するステップと、
前記N個の距離から最小値の距離を選択してターゲット距離とし、前記ターゲット距離に対応するターゲットの位置情報を取得するとともに、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを、前記元のターゲット点に対応する追跡ターゲットとして決定するステップと、を実行することを特徴とする不揮発性可読記憶媒体。
【請求項12】
前記ターゲット領域に対応するターゲットの位置情報は、ターゲット領域の左上隅座標、及び前記ターゲット領域の幅と高さを含み、各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得することは、
【請求項13】
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得する前記ステップの後、前記追跡ターゲットの位置決め方法は、さらに、
前記N個の距離のうち、プリセット閾値より小さい前記距離のターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットをユーザにフィードバックして確認するステップと、
前記ユーザから返送された確認結果を受信し、前記確認結果に基づいて、前記ユーザが確認した追跡ターゲットを前記元のターゲット点に対応する追跡ターゲットとするステップと、を含むことを特徴とする請求項11に記載の不揮発性可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本願は、2018年11月12日に提出された、出願番号201810939070.1、名称「追跡ターゲットの位置決め方法、装置、機器及び記憶媒体」の中国特許出願を基礎とし、その優先権を主張する。
【0002】
本願は、画像処理技術の分野に関し、特に、追跡ターゲットの位置決め方法、装置、機器及び記憶媒体に関する。
【背景技術】
【0003】
長距離追跡ターゲットの位置決めは、常に、ビデオ監視において最も困難な課題の1つであり、従来の追跡ターゲットの位置決め方法には、画像中の追跡する必要のあるターゲットの座標情報をファイルに書き込むことにより、追跡開始時にファイルを読み出すことで初期化されたターゲット情報を取得する方法があるが、このような方法は、操作周期が長く、初期化されたターゲット情報の取得効率が高くなく、又は、ビデオ画面を一時停止して、手動描画の方法により画像に追跡する必要のあるターゲットの位置を描画し、追跡が開始した後、手動で描画した位置情報に基づいて、追跡ターゲットの初期化を行う方法があるが、手動で描画した位置情報の正確率が高くなく、且つ、背景情報を多く含みやすいため、追跡するターゲットが背景によって遮られたり、オクルージョンされたりすることにより、追跡ターゲットの難易度が増加し、初期化された追跡ターゲットの位置決め情報の取得効率が高くない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
これに基づいて、上記の技術的問題に対応して、追跡ターゲットの位置決めの効率と正確率が両方とも高くない問題を解決するために、追跡ターゲットの位置決め方法、装置、機器及び記憶媒体を提供する必要がある。
【課題を解決するための手段】
【0005】
追跡ターゲットの位置決め方法であって、
追跡ターゲットの位置決め要求を受信した場合、前記位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得し、ただし、前記元の位置情報には、前記元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、前記元のターゲット点の前記現在フレーム画像における元の座標とが含まれるステップと、
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得し、ただし、前記ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、前記ターゲット予測の結果はN個のターゲット領域及び前記ターゲット領域のそれぞれに対応するターゲットの位置情報を含み、Nは正の整数であり、前記ターゲット領域のそれぞれには追跡対象のターゲットが1つ含まれているステップと、
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得するステップと、
前記N個の距離から最小値の距離を選択してターゲット距離とし、前記ターゲット距離に対応するターゲットの位置情報を取得するとともに、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを、前記元のターゲット点に対応する追跡ターゲットとして決定するステップと、を含む。
【0006】
追跡ターゲットの位置決め装置であって、
追跡ターゲットの位置決め要求を受信した場合、前記位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得するために用いられ、ただし、前記元の位置情報には、前記元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、前記元のターゲット点の前記現在フレーム画像における元の座標とが含まれる要求受信モジュールと、
プリセットのターゲット予測モデルに基づいて、前記現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得するために用いられ、ただし、前記ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、前記ターゲット予測の結果はN個のターゲット領域及び前記ターゲット領域のそれぞれに対応するターゲットの位置情報を含み、Nは正の整数であり、前記ターゲット領域のそれぞれには追跡対象のターゲットが1つ含まれているターゲット予測モジュールと、
各前記ターゲット領域の前記ターゲットの位置情報及び前記元の座標に基づいて、追跡対象のターゲットのそれぞれと前記元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得するための距離算出モジュールと、
前記N個の距離から最小値の距離を選択してターゲット距離とし、前記ターゲット距離に対応するターゲットの位置情報を取得するとともに、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを、前記元のターゲット点に対応する追跡ターゲットとして決定するためのターゲット確認モジュールと、を含む。
【0007】
コンピュータ機器であって、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行できるコンピュータ可読命令とを含み、前記プロセッサが前記コンピュータ可読命令を実行すると、上記の追跡ターゲットの位置決め方法が実施される。
【0008】
コンピュータ可読命令が記憶されている1つ又は複数の不揮発性可読記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサが実行されると、上記の追跡ターゲットの位置決め方法が実施される。
【0009】
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明によって提供され、本願の他の特徴及び利点は明細書、図面及び特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0010】
本願の実施例の技術的解決手段をより明確に説明するために、以下では、本願の実施例の説明に必要な図面を簡単に紹介するが、以下の説明における図面は本願の一部の実施例にすぎず、当業者にとって、これらの図面に基づいて創造的な働きなしに他の図面を取得することもできることは明らかである。
図1】本願の一実施例における追跡ターゲットの位置決め方法の応用環境の模式図である。
図2】本願の一実施例における追跡ターゲットの位置決め方法のフローチャートである。
図3】本願の一実施例における追跡ターゲットの位置決め方法のうちステップS3の実施フローチャートである。
図4】本願の一実施例における追跡ターゲットの位置決め方法のうちターゲット予測モデルを構築するフローチャートである。
図5】本願の一実施例における追跡ターゲットの位置決め方法のうち畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築する実施フローチャートである。
図6】本願の一実施例における追跡ターゲットの位置決め方法のうち追跡ターゲットを確認する実施フローチャートである。
図7】本願の一実施例における追跡ターゲットの位置決め装置の模式図である
図8】本願の一実施例におけるコンピュータ機器の模式図である。
【発明を実施するための形態】
【0011】
以下、本願の実施例における添付図面を参照しながら、本願の実施例における技術的解決手段について明確且つ完全に説明し、記載された実施例は、本願の一部の実施例であるが、全ての実施例ではないことは明らかである。本願の実施例に基づいて、当業者の創造的な働きなしに得られたすべての他の実施例は、いずれも本願の保護範囲に属する。
【0012】
図1は、本願の実施例にて提供される応用環境を示し、当該応用環境は、サービス端末とクライアント端末を含み、ただし、サービス端末とクライアント端末との間はネットワークを介して接続され、クライアント端末はユーザのタッチ操作を検出するために用いられ、当該タッチ操作に応じて位置決め要求が生成されるとともに、位置決め要求がサービス端末に送信され、クライアント端末は、具体的に、様々なパーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレット、及びポータブルウェアラブルデバイスであり得るが、これらに限定されない。サービス端末は、ビデオデータの処理に用いられ、サービス端末は、具体的に、独立のサーバ又は複数のサーバから構成されるサーバクラスターで実現できる。本願の実施例にて提供される追跡ターゲットの位置決め方法は、サービス端末に適用される。
【0013】
図2を参照すると、図2は、本実施例にて提供される追跡ターゲットの位置決め方法の実施フローを示す。詳細は次のとおりである。
【0014】
S1:追跡ターゲットの位置決め要求を受信した場合、位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得し、ただし、元の位置情報には、元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、元のターゲット点の現在フレーム画像中の元の座標とが含まれる。
【0015】
本実施例において、元のターゲット点は、ユーザが現在再生中のビデオ画面で選択した、追跡しようとするターゲットが位置している位置領域内の1つの点である。クライアント端末は、ユーザのタッチ操作、クリック操作又はその他の操作を検出することにより、追跡ターゲットの位置決め要求を生成し、位置決め要求をサービス端末に送信して処理する。
【0016】
ここで、タッチ操作とは、表示装置上でスクーリンに人の手がタッチする方法で実施される操作を言い、表示装置は、人の手がタッチしたアイコン又はメニューの位置に基づいて、選択情報の入力を位置決めするか、又は、人の手がタッチした位置に基づいて、タッチ位置の座標を検出する。クリック操作とは、表示装置のカーソルをクリックする方法により実施される操作を言い、表示装置は、カーソルでクリックしたアイコン又はメニューの位置に基づいて選択情報の入力を位置決めするか、又はカーソルでクリックした位置に基づいて、カーソルでクリックした座標を検出する。
【0017】
なお、元のターゲット点のビデオデータにおける元の位置情報を取得するための表示装置は、具体的にはタッチスクリーンであっても、その他の機器であってもよく、ここでは具体的に限定しない。現在フレーム画像とは、元のターゲット点が存在する現在再生中の画面を言い、表示装置の部品でロックすることができる。
【0018】
好ましくは、本実施例では、元のターゲット点のビデオデータにおける元の位置情報を取得するためのタッチスクリーン型表示装置を採用し、ただし、タッチスクリーンは、タッチ検出部品及びタッチスクリーンコントローラで構成され、即ち、タッチ検出部品及びタッチスクリーンコントローラは表示装置に取り付けられ、タッチ検出部品は、ユーザがタッチした位置を検出し、現在再生中のビデオデータの現在フレーム画像をロックし、タッチ情報を生成し、その後、タッチ情報をタッチスクリーンコントローラに送信するために用いられ、タッチスクリーンコントローラの主な機能は、タッチ点の検出装置からタッチ情報を受信し、タッチ情報におけるユーザがタッチした位置をタッチ点の座標に転換し、当該タッチ点の座標が元のターゲット点の元の座標である。
【0019】
具体的には、リアルタイムに再生されているビデオにおいて、ユーザは、ビデオ画面中のあるターゲットを選択しようとする場合、ビデオを再生している表示装置に対してタッチ操作を行うことができるため、クライアント端末がユーザの表示装置上でのタッチ操作を検出すると、当該タッチ操作に応じて、現在再生中のビデオデータの現在フレーム画像と、ユーザが選択した元のターゲット点の現在フレーム画像における元の座標とを決定し、現在フレーム画像及び元の座標を含む位置決め要求を生成することができ、クライアント端末は、当該位置決め要求をサービス端末に送信する。
【0020】
サービス端末は、当該位置決め要求を受信すると、当該位置決め要求に携帯される元のターゲット点の元の位置情報を読み取る。
【0021】
S2:プリセットのターゲット予測モデルに基づいて、現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得し、ただし、ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、ターゲット予測の結果にはN個のターゲット領域及び各ターゲット領域に対応するターゲットの位置情報が含まれ、Nは正の整数であり、各ターゲット領域には追跡対象のターゲットが1つ含まれている。
【0022】
本実施例において、プリセットのターゲット予測モデルは、実際の業務上の必要性に応じてトレーニングして取得したものであり、元のターゲット点が存在する現在フレーム画像上の候補ターゲット領域を予測するために用いられ、ただし、候補ターゲット領域は、現在フレーム画像に可動オブジェクトが含まれている領域であり、可動オブジェクトのそれぞれは1つのターゲット領域に対応し、当該ターゲット領域を矩形枠状で表示したものであり、ターゲット領域内の可動オブジェクトは、追跡対象のターゲットであり、ターゲット領域のターゲットの位置情報には、領域の左上隅座標、及び領域の幅と高さが含まれる。ターゲット予測モデルの畳み込み層は、現在フレーム画像に対して画像特徴の抽出を行うために用いられ、全結合層は、抽出した画像特徴に基づいて、画像特徴に対応するターゲット領域、及びターゲット領域に対応するターゲットの位置情報を出力する。
【0023】
具体的には、現在フレーム画像をプリセットのターゲット予測モデルに入力し、モデルの畳み込み層で現在フレーム画像に対して画像特徴の抽出を行い、その後、画像特徴を、モデルの全結合層を通過させ、画像特徴に対応するターゲット領域、及びターゲット領域に対応するターゲットの位置情報を出力して、ターゲット予測の結果とする。
【0024】
例えば、1フレーム画像をプリセットのターゲット予測モデルに入力し、モデル中の畳み込み層でこのフレーム画像に対して画像特徴の抽出を行い、その後、抽出した画像特徴を、モデルの全結合層を通過させ、画像背景に属さない可動オブジェクトを矩形枠状で表示し、予測で6つの可動オブジェクトを取得すると仮定すると、ターゲット予測の結果は6つのターゲット領域、及び当該6つのターゲット領域に対応するターゲットの位置情報である。
【0025】
なお、トレーニング済みのターゲット予測モデルで現在フレーム画像に対してターゲット予測を行い、ターゲット予測モデルにおける畳み込み層で現在フレーム画像に対して画像特徴の抽出を行うことにより、現在フレーム画像中の可動オブジェクトと背景とを正確に区別することができ、手動で描画した予測ターゲットの位置情報が不正確となり、予測ターゲットが背景によってオクルージョンされやすい状況を避け、それにより、追跡ターゲットに対する予測の正確率を向上させる。
【0026】
S3:各ターゲット領域のターゲットの位置情報及び元の座標に基づいて、追跡対象のターゲットのそれぞれと元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得する。
【0027】
本実施例において、ユークリッド距離は、一般的な距離の定義であるため、m次元空間での複数の点間の実際の距離、又はベクトルの自然の長さを表すために用いられることができ、且つ、2次元空間での両点間のユークリッド距離は両点間の実際の距離であるため、追跡対象のターゲットのそれぞれと元のターゲット点との間のユークリッド距離を算出することにより、追跡対象のターゲットのそれぞれと元のターゲット点との間の位置関係を最も迅速且つ直観的に反映することができる。
【0028】
具体的には、ステップS2で取得した各ターゲット領域のターゲットの位置情報及びステップS1で取得した元のターゲット点の元の座標を、ユークリッド距離式に代入し、算出後、ターゲット領域内の追跡対象のターゲットのそれぞれと元のターゲット点との間のN個のユークリッド距離を取得することができる。
【0029】
例えば、続いてステップS2の例を使用すると、ターゲット予測モデルで予測して6つのターゲット領域及び当該6つのターゲット領域に対応するターゲットの位置情報を取得した場合、この6つのターゲット領域のターゲットの位置情報及び元の座標を、ユークリッド距離式に代入して、6つの追跡対象のターゲットと元のターゲット点との間のユークリッド距離を算出し、6つの距離を取得することができる。
【0030】
S4:N個の距離から最小値の距離を選択してターゲット距離とし、ターゲット距離に対応するターゲットの位置情報を取得し、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを元のターゲット点に対応する追跡ターゲットと決定する。
【0031】
本実施例において、ステップS3でN個のユークリッド距離を算出することは、追跡対象のターゲットのそれぞれと元のターゲット点との間の位置関係を直観的に反映することができるため、通常の場合、追跡対象のターゲットの位置が元のターゲット点に最も近く、当該追跡対象のターゲットが元のターゲット点に対応する追跡ターゲットであると理解することができる。ターゲット距離は、元のターゲット点の位置と、最も近い追跡対象のターゲットとの間の距離である。
【0032】
具体的には、ステップS3で取得したN個の距離のうちの任意の2つの距離を比較して、値が小さい方の距離を取り、当該値が小さい方の距離と、その他の距離とを比較し、以下同様に、N個の距離から最小値の距離を取得するまで比較して、当該最小値の距離をターゲット距離とし、当該最小値の距離に対応するターゲット領域内の追跡対象のターゲットを元のターゲット点に対応する追跡ターゲットとする。
【0033】
例えば、続いてステップS3の例を使用して、算出して取得した6つの距離は、それぞれ45.63、56.03、78.24、34.33、40.55及び63.06であると仮定すると、6つの距離のうちの任意の2つの距離を比較し、例えば、45.63と56.03とを比較して、45.63が56.03より小さいという結果を取得すると、45.63を選択し、続いて45.63とその他の距離とを比較し、例えば、45.63と40.55とを比較して、45.63が40.55より大きい結果を取得すると、40.55を選択し、以下同様に、最小値の距離が34.33であることを取得するまで比較し、距離34.33に対応するターゲット領域内の追跡対象のターゲットを元のターゲット点に対応する追跡ターゲットとする。
【0034】
本実施例において、受信した追跡ターゲットの位置決め要求からユーザが選択した元のターゲット点の元の位置情報を取得し、プリセットのターゲット予測モデルに基づいて、元の位置情報におけるビデオデータの現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得することにより、現在フレーム画像内のターゲットと背景とを正確に区別することができ、手動で描画した予測ターゲットの位置情報が不正確で、予測ターゲットが背景によってオクルージョンされやすい状況を避け、それにより、追跡ターゲットに対する予測の正確率を向上させる。同時に、各ターゲット領域のターゲットの位置情報及び元の座標に基づいて、追跡対象のターゲットのそれぞれと元のターゲット点との間のユークリッド距離を算出し、次に、最小値の距離を選択してターゲット距離とし、当該ターゲット距離に対応するターゲットの位置情報を取得し、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを元のターゲット点に対応する追跡ターゲットとして決定する。現在フレーム画像内で予測したターゲット領域が比較的正確であることを保証する上で、追跡対象のターゲットと元のターゲット点との間の最小距離を算出して、追跡ターゲットを決定するこのような方法は、追跡ターゲットに対する位置決めの正確率を保証でき、当該方法は、算出量が少なく、操作が簡単で、ユーザが現在再生中のビデオを一時停止する必要がないため、操作周期が短くなることにより、追跡ターゲットに対する位置決め効率を向上させる。
【0035】
一実施例において、図3に示すように、ステップS3では、ターゲット領域に対応するターゲットの位置情報にはターゲット領域の左上隅座標、及びターゲット領域の幅と高さが含まれ、即ち、各ターゲット領域のターゲットの位置情報及び元の座標に基づいて、追跡対象のターゲットのそれぞれと元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得することは、具体的には、ステップS301とS302を含む。
【0036】
【0037】
【0038】
具体的には、ターゲット領域は矩形枠状で表示され、ターゲット領域の位置情報には矩形枠の左上隅座標、及び矩形枠の幅と高さが含まれ、各ターゲット領域内の追跡対象のターゲットと、元のターゲット点との間の位置関係を正確に反映できるようにするため、ターゲット領域の位置情報を中心点の座標式に代入して、各ターゲット領域の中心点の座標を算出する必要があり、したがって、現在フレーム画像でN個のターゲット領域を予測し、中心点の座標式により、1番目からN番目のターゲット領域の中心点の座標をそれぞれ算出して、N個の中心点の座標を取得し、後で取得したN個のターゲット領域の中心点の座標に基づいて、追跡対象のターゲットのそれぞれと元のターゲット点との間のユークリッド距離を高速に算出することが容易になる。
【0039】
例えば、現在フレーム画像でターゲット領域を1つ予測したと仮定すると、当該ターゲット領域の左上隅座標は(50,50)で、ターゲット領域の幅は80で、高さは60であり、すると、ターゲット領域の位置情報を中心座標式に代入して算出して、取得した当該ターゲット領域の中心点の座標は(70,80)である。
【0040】
【0041】
具体的には、ステップS301で取得した各中心点の座標及び元の座標を、それぞれユークリッド距離式に代入して算出すると、各ターゲット領域内の追跡対象のターゲットと元のターゲット点との間のユークリッド距離を高速に算出することができる。
【0042】
【0043】
本実施例において、ステップS2で取得したターゲット領域のターゲットの位置情報に対して、中心点の座標式を用いてターゲット領域の中心点の座標を算出し、その後、取得した各中心点の座標及び原点の座標を、それぞれユークリッド距離式に代入して算出することにより、各ターゲット領域内の追跡対象のターゲットと元のターゲット点との間のユークリッド距離を高速に算出することができる。
【0044】
一実施例において、図4に示すように、ステップS2の前に、当該追跡ターゲットの位置決め方法は、さらに、ステップS5~S7を含む。
【0045】
S5:サンプルトレーニング画像データを取得する。
【0046】
本実施例において、サンプルトレーニング画像データには、MsCoCoデータセット及びCalTechデータセットが含まれる。ここで、MsCoCoデータセットは、ネットワークによって共有されるパブリックデータセットであり、当該データセットには328000個の映像、2500000個のタグ、及び91種類のターゲットの画像が含まれ、このデータセットは、シーンの理解(scene understanding)を目標とし、画像中のターゲットは、精密な分割によって位置の校正を行い、複雑な日常シーンから切り出される。Caltechデータセットは、ネットワークによって共有されるパブリックデータセットであり、主に、2つのタイプがある。1つは、101タイプの画像を含むCaltech-101であって、タイプごとに約40~800枚の画像があり、大部分は50枚/タイプであり、各画像の大きさは約300x200であり、1つは、Caltech-101に類似するCaltech-256であって、30607枚の画像がある。
【0047】
具体的には、サンプルトレーニング画像データを取得する方法は、具体的に、ユーザがアップロードしたサンプルトレーニング画像データを受信するか、又は、自動タイミングでサードパーティのビデオ画像データベースからサンプルトレーニング画像データを取得するなどを含むが、これらに限定されず、その他の取得方法であってもよく、ここでは限定しない。ここで、サードパーティのビデオ画像データベースは、具体的に、ネットワークビデオプラットフォームのデータベースであり得る。
【0048】
S6:深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築する。
【0049】
本実施例において、深層学習フレームワークにはcaffe又はcaffe2などが含まれ、ただし、caffe2はライトウェイト、モジュール化及び拡張が可能なフレームワークであり、記憶インターフェイス(blob)、層構造(layer)及び構造リンク(net)を含む。ただし、blobは、フレームワーク全体の標準的なアレイ構造及び統一の記憶インターフェイスである。Layerは、モデルの構築及び算出の層構造基礎として機能し、netはlayerの集合及びリンクとして機能する。Blobの詳細は、layersとnetsとの間で情報がどのように保存及び交換されるかを説明した。caffe2は、具体的には、自分のモデリング方法を使用してネットワークを1層ずつ定義し、即ち、ネットワークを入力データから損失層まで、モデル全体を下から上へ定義する。データ及び偏導関数などの情報は、ネットワーク内で前後に流れ、caffe2はblobを使用してこれらの情報を保存、交換及び操作する。
【0050】
好ましくは、本実施例は、caffe2フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズム(Faster-RCNN)を構築する構造を採用し、具体的には、caffe2フレームワーク内のlayerで、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の各層構造を定義し、その後、構造リンク(net)で定義済みの各層構造をリンクし、次に、caffe2フレームワーク内のblobでリンク済みの層構造を保存して、構築済みのFaster-RCNNの構造を取得する。caffe2フレームワークで構築したFaster-RCNNの構造は、ロジック構造は階層が明確で、パラメータの定義が明瞭であるため、パラメータ定義に基づいて構造中のパラメータの位置を高速にロックすることができ、Faster-RCNNの構造の変更及び改善が容易になる。
【0051】
本実施例において、構築した畳み込みニューラルネットワークターゲット検出アルゴリズムの構造は、2層の畳み込み層及び2層の全結合層から構成され、前から後ろへの順で、それぞれ、第1層は第1畳み込み層で、第2層は第2畳み込み層で、第3層は第1全結合層で、第4層は第2全結合層である。
【0052】
ただし、第1畳み込み層は、入力された画像データを畳み込み、画像データに対して予備的な特徴抽出を行うために用いられることができ、具体的には、当該畳み込み層の畳み込みカーネルウィンドウの大きさを11*11に設定し、隣接する局所採択域の中心距離を4に設定することにより、入力された画像データに対応する96個の特徴図を抽出することができ、その後、第1畳み込み層にダウンサンプリング層が接続されており、特徴図を圧縮するために、各特徴図を、ダウンサンプリング層を通過させて次元縮退させ、抽出した特徴の完全性を保証することができ、ダウンサンプリング層のカーネルウィンドウの大きさは通常3*3に設定され、隣接する局所受付領域の中心距離は2であり、最後に、ダウンサンプリング層を通過させて取得した次元縮退後の特徴図を第2層の畳み込み層に入力することができる。
【0053】
第2畳み込み層は、第1畳み込み層で取得した特徴図に対して畳み込みを行うために用いられることができ、第1畳み込み層で取得した特徴図に対してさらに特徴抽出を行って、特徴の抽出精度を向上させ、第2畳み込み層の畳み込みカーネルウィンドウの大きさを5*5に設定し、隣接する局所受付領域の中心距離を2に設定し、256個の特徴図を出力することができ、第2畳み込み層にダウンサンプリング層が接続され、特徴図を圧縮するために、各特徴図を、ダウンサンプリング層を通過させて次元を減らして、抽出された特徴の完全性と精度を保証することができ、ダウンサンプリング層のカーネルウィンドウの大きさは3*3に設定され、隣接する局所受付領域の中心距離は2であり、ダウンサンプリング層を通過させて取得した次元を減らした後の特徴図を第1全結合層に入力することができる。
【0054】
第3層は、第1全結合層であり、当該層には1000個のニューロンがあるため、第2畳み込み層で取得した特徴図をn次元の列ベクトルに転換することができ、n次元の列ベクトルを第1全結合層の重み行列及びバイアスと非線形変換して1000次元の列ベクトルを取得して、第2全結合層に入力することができる。
【0055】
第4層は、第2全結合層であり、当該層には、m個のニューロンがあるため、第1全結合層で取得した1000次元の列ベクトルを第2全結合層の重み行列及びバイアスと非線形変換してm次元の特徴ベクトルを取得し、ただし、mの値は画像上のターゲットの数に基づくものであり、具体的には、第2全結合層の重み行列及びバイアスを更新することにより決定することができ、即ち、m個のターゲットに対応してm個のニューロンを設置するべきである。
【0056】
S7:畳み込みニューラルネットワークターゲット検出アルゴリズムの構造において、サンプルトレーニング画像データを使用して畳み込みニューラルネットワークターゲット検出アルゴリズムの構造をトレーニングし、ターゲット予測モデルを取得する。
【0057】
本実施例において、サンプルトレーニング画像データを使用して畳み込みニューラルネットワークターゲット検出アルゴリズムの構造をトレーニングし、同じ数のターゲットを取得するまで、MsCoCoデータセット及びCalTechデータセット上で、共有特徴を使用して交互にトレーニングする方法、即ち、2つのデータセット中の同じピクチャに対して特徴抽出を行い、且つ、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造中の重み行列及びバイアスを更新することにより、ターゲット予測モデルで使用すべき重み及びバイアスを決定して、ターゲット予測モデルを取得することができる。ただし、ターゲット予測モデルは、2つのファイルを含み、1つのファイルは、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造であり、別のファイルは畳み込みニューラルネットワークターゲット検出アルゴリズムの構造内の各層の重み(weight)及びバイアス(bias)であり、重みは、重み行列の重み値であり、バイアスは、重み行列に対応するオフセットである。
【0058】
具体的には、トレーニングの過程は、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造でサンプルトレーニング画像データの特徴を抽出することであり、従来のランダム勾配降下アルゴリズムにより、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の各層に含まれているコスト関数を、層構造に従って前から後ろの方向へ、各層に対応するコスト関数値を算出し、当該コスト関数値は、後で各層の誤差感度を算出するために用いられ、その後、従来の逆伝播アルゴリズムにより、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の各層を算出し、層構造に従って後ろから前の方向へ、各層の誤差感度を算出し、最後に、算出した各層の誤差感度に含まれる重み値及びオフセットは、層構造内の元の重み値及びオフセットを更新して、ターゲット予測モデルを取得するために用いられる。
【0059】
本実施例において、ターゲット検出アルゴリズムの構造はサンプルトレーニング画像データに対する良好な適合度を有するため、caffe2フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築し、構築済みの畳み込みニューラルネットワークターゲット検出アルゴリズムの構造において、設置済みのスライド可能な畳み込みカーネルウィンドウが、入力されたサンプルトレーニング画像データを畳み込む操作を利用してサンプルトレーニング画像データに対する特徴抽出を実現することにより、当該サンプルトレーニング画像データに対する特徴抽出の完全性を保証することができ、且つ、画像特徴を抽出する過程で、画像のモーフィング及び平行シフトなどの幾何学的変換に対して不変性が高く、それにより、トレーニングして取得したターゲット予測モデルで予測した画像のターゲットの特徴の完全性を保証することができ、後で画像内のターゲット情報に対する認識の正確率を保証することができる。
【0060】
一実施例において、図5に示すように、ステップS6では、深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築するステップは、具体的には、ステップS601とS602を含む。
【0061】
S601:畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の定義情報を取得する。
【0062】
本実施例において、異なるネットワーク構造に必要な配置パラメータは異なる可能性があり、ネットワーク構造の構造定義も異なる可能性があるため、異なるネットワーク構造の構築要件について、各ネットワーク構造に対応する層構造に含まれるパラメータ名、及びパラメータ名に対応する具体的なパラメータデータを予め設定しておき、それにより、構築対象のネットワーク構造のパラメータ名に基づいて、定義情報から当該構築対象のネットワーク構造に必要な構成のパラメータデータを高速に取得することができるため、後でネットワーク構造を構築する過程で層構造に高速に埋め込むことができる。
【0063】
例えば、層構造において、パラメータ名は層名、層タイプ又は入力データのタイプ定義などであり、パラメータ名に対応する具体的なパラメータデータ、例えば「層名」に対応する具体的なパラメータは「conv2(第2畳み込み層)」であり、「層タイプ」に対応する具体的なパラメータは「convolution(畳み込み)」であり、又は「出力データのタイプ定義」に対応する具体的なパラメータは「data(データ)」などである。
【0064】
S602:深層学習フレームワーク内で、プリセットのネットワーク定義の層構造にしたがって、定義情報を対応する畳み込み層及び全結合層の層構造に埋め込んで、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を生成する。
【0065】
本実施例において、プリセットのネットワーク定義構造は、層名、層タイプ、層タイプに対応する層パラメータ、出力データのタイプの定義、フィルタパラメータにおけるフィルタの学習率、及びフィルタパラメータにおけるフィルタの減衰率などを含む。
【0066】
例えば、プリセットのネットワーク定義構造の1つの層構造は、層名、層タイプ、フィルタパラメータにおけるフィルタの学習率、及びフィルタパラメータにおけるフィルタの減衰率などを含む場合、モデル定義構造の層構造を次のように設定することができる。
layer{
name:’’ ’’
type:’’ ’’
param{
lr_mult:’’ ’’
decay_mult:’’ ’’

【0067】
層名は「conv1(第1畳み込み層)」で、層タイプは「convolution(畳み込み)」で、フィルタパラメータにおけるフィルタの学習率は「1」で、フィルタパラメータにおけるフィルタの減衰率は「1」であるとき、生成された構造は次のように記述される。
layer{
name:’’conv1’’
type:’’convolution’’
param{
lr_mult:’’1’’
decay_mult:’’1’’

【0068】
本実施例において、取得した畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の定義情報により、定義情報内で、同じパラメータ名を有するプリセットのネットワーク定義の層構造に対応する具体的なパラメータデータを、プリセットのネットワーク定義の層構造に添加し、深層学習フレームワーク内で、定義情報に対応する畳み込み層及び全結合層の層構造を迅速生成することができ、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を生成し、操作が簡単且つ迅速で、間違いにくく、パラメータ名により具体的なパラメータデータを迅速に変更することができ、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を改善することが容易になる。
【0069】
一実施例において、図6に示すように、ステップS3の後、当該追跡ターゲットの位置決め方法は、さらに、ステップS8とS9を含む。
【0070】
S8:N個の距離のうち、プリセット閾値より小さい距離のターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットをユーザにフィードバックして確認する。
【0071】
具体的には、追跡ターゲットに対する位置決めの正確率をさらに向上させるために、距離の閾値を設定することにより、当該距離の閾値より小さい距離に対応するターゲット領域内の追跡対象のターゲットをユーザに送って確認して、ターゲットを追跡して位置決めする正確率を高める。
【0072】
S9:ユーザから返送された確認結果を受信し、確認結果に基づいて、ユーザが確認した追跡ターゲットを元のターゲット点に対応する追跡ターゲットとする。
【0073】
具体的には、ユーザがステップS8で取得したプリセット閾値より小さい距離に対応するターゲット領域内の追跡対象のターゲットを受信すると、ユーザは、現在フレーム画像の元のターゲット点に基づいて、これらの追跡対象のターゲットから追跡ターゲットを1つ選択して、確認結果として返送することにより、追跡ターゲットの正確な位置決めを実現する。
【0074】
本実施例において、ユーザが現在フレーム画像の元のターゲット点に基づいて、これらの追跡対象のターゲットから追跡ターゲットを1つ選択して、確認結果として返送するように、当該閾値より小さい距離に対応するターゲット領域内の追跡対象のターゲットをユーザに送信して確認することにより、追跡ターゲットの位置決めを正確に決定することが実現でき、それにより、追跡ターゲットに対する位置決めの正確率を向上させた。
【0075】
上記の実施例において、各ステップの番号の大きさは、その実行の前後順序を意味するものではなく、各プロセスの実行順序はその機能及び内部ロジックによって決定されるべきで、本願の実施例の実施プロセスに対するいかなる限定も構成しないことを理解すべきである。
【0076】
一実施例において、追跡ターゲットの位置決め装置を提供し、当該追跡ターゲットの位置決め装置は、上記の実施例における追跡ターゲットの位置決め方法と1対1に対応する。図7に示すように、当該追跡ターゲットの位置決め装置は、要求受信モジュール701、ターゲット予測モジュール702、距離算出モジュール703及びターゲット確認モジュール704を含む。各機能モジュールの詳細は次に説明するとおりである。
【0077】
要求受信モジュール701は、追跡ターゲットの位置決め要求を受信した場合、位置決め要求に含まれているユーザが選択した元のターゲット点の元の位置情報を取得するために用いられ、ただし、元の位置情報には、元のターゲット点の現在再生中のビデオデータにおける現在フレーム画像と、元のターゲット点の現在フレーム画像中の元の座標とが含まれる。
【0078】
ターゲット予測モジュール702は、プリセットのターゲット予測モデルに基づいて、現在フレーム画像に対してターゲット予測を行って、ターゲット予測の結果を取得するために用いられ、ただし、ターゲット予測モデルは2層の畳み込み層及び2層の全結合層を含む畳み込みニューラルネットワークモデルであり、ターゲット予測の結果にはN個のターゲット領域及び各ターゲット領域に対応するターゲットの位置情報が含まれ、Nは正の整数であり、各ターゲット領域には追跡対象のターゲットが1つ含まれている。
【0079】
距離算出モジュール703は、各ターゲット領域のターゲットの位置情報及び元の座標に基づいて、追跡対象のターゲットのそれぞれと元のターゲット点との間のユークリッド距離を算出して、N個の距離を取得するために用いられる。
【0080】
ターゲット確認モジュール704は、N個の距離から最小値の距離を選択してターゲット距離とし、ターゲット距離に対応するターゲットの位置情報を取得し、取得したターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットを元のターゲット点に対応する追跡ターゲットと決定するために用いられる。
【0081】
さらに、距離算出モジュール703は、座標算出ユニット7031と距離算出ユニット7032とを含む。
【0082】
【0083】
【0084】
【0085】
さらに、当該追跡ターゲットの位置決め装置は、さらに、
サンプルトレーニング画像データを取得するためのデータ取得モジュール705と、
深層学習フレームワークを基に畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を構築するための構造構築モジュール706と、
畳み込みニューラルネットワークターゲット検出アルゴリズムの構造において、サンプルトレーニング画像データを使用して畳み込みニューラルネットワークターゲット検出アルゴリズムの構造をトレーニングし、ターゲット予測モデルを取得するためのモデルトレーニングモジュール707と、を含む。
【0086】
さらに、構造構築モジュール706は、
畳み込みニューラルネットワークターゲット検出アルゴリズムの構造の定義情報を取得するための定義取得ユニット7061と、
深層学習フレームワーク内で、プリセットのネットワーク定義の層構造にしたがって、定義情報を対応する畳み込み層及び全結合層の層構造に埋め込んで、畳み込みニューラルネットワークターゲット検出アルゴリズムの構造を生成するための構造生成ユニット7062と、を含む。
【0087】
さらに、当該追跡ターゲットの位置決め装置は、さらに、
N個の距離のうち、プリセット閾値より小さい距離のターゲットの位置情報に対応するターゲット領域内の追跡対象のターゲットをユーザにフィードバックして確認するためのターゲットフィードバックモジュール708と、
ユーザから返送された確認結果を受信し、確認結果に基づいて、ユーザが確認した追跡ターゲットを元のターゲット点に対応する追跡ターゲットとするための結果受信モジュール709と、を含む。
【0088】
追跡ターゲットの位置決め装置に対する具体的な限定は、上記の追跡ターゲットの位置決め方法に対する限定を参照することができるため、ここでは詳細な説明を省略する。上記の追跡ターゲットの位置決め装置内の各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びその組み合わせによって実現できる。上記の各モジュールは、プロセッサが以上の各モジュールに対応する操作を呼び出して実行することが容易になるように、ハードウェア形態でコンピュータ機器内のプロセッサに内蔵されても、それから独立してもよいし、ソフトウェア形態でコンピュータ機器内のメモリに記憶されてもよい。
【0089】
一実施例において、コンピュータ機器を提供し、当該コンピュータ機器は、サーバであってもよく、その内部構造図は図8に示すようであり得る。当該コンピュータ機器は、システムバスを介して接続されるプロセッサ、メモリ、ネットワークインターフェイス及びデータベースを含む。ただし、当該コンピュータ機器のプロセッサは、算出及び制御能力を提供するために用いられる。当該コンピュータ機器のメモリには、不揮発性記憶媒体、及び内部メモリが含まれている。当該不揮発性記憶媒体にはオペレーティング・システム、コンピュータ可読命令及びデータベースが記憶されている。当該内部メモリは、不揮発性記憶媒体内のオペレーティング・システム及びコンピュータ可読命令に実行環境を提供する。当該コンピュータ機器のデータベースは、ビデオデータを保存するために用いられる。当該コンピュータ機器のネットワークインターフェイスは、ネットワークを介する外部端末との接続、通信のために用いられる。当該コンピュータ可読命令がプロセッサによって実行されると、追跡ターゲットの位置決め方法が実施される。
【0090】
一実施例において、コンピュータ機器を提供し、当該機器は、メモリと、プロセッサと、メモリに記憶され、且つプロセッサ上で実行できるコンピュータ可読命令とを含み、プロセッサがコンピュータ可読命令を実行すると、上記の実施例における追跡ターゲットの位置決め方法のステップ、例えば、図2に示すステップS1からステップS4が実施される。又は、プロセッサがコンピュータ可読命令を実行すると、上記の実施例における追跡ターゲットの位置決め装置の各モジュール/ユニットの機能、例えば、図7に示すモジュール701からモジュール704までの機能が実施される。繰返し説明を回避するために、ここでは詳細な説明を省略する。
【0091】
一実施例において、コンピュータ可読命令が記憶されている不揮発性記憶媒体を提供し、コンピュータ可読命令がプロセッサによって実行されると、上記方法の実施例における追跡ターゲットの位置決め方法が実施され、又は、当該コンピュータ可読命令がプロセッサによって実行されると、上記装置の実施例における追跡ターゲットの位置決め装置内の各モジュール/ユニットの機能が実施される。繰返し説明を回避するために、ここでは詳細な説明を省略する。
【0092】
当業者は、上記の実施例における方法の全部又は一部のプロセスの実施は、コンピュータ可読命令により関連のハードウェアを命令して完了することができ、前記コンピュータ可読命令は不揮発性コンピュータ読み取り可能な記憶媒体に記憶でき、当該コンピュータ可読命令は、実行される際に、上記の各方法の実施例のプロセスを含み得ることは理解できる。ただし、本願にて提供される各実施例で使用されるメモリ、記憶、データベース又は他の媒体の如何なる引用は、いずれも不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。説明として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期式リンク(Synchlink)、DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRAM)、及びメモリバスダイナミックRAM(RDRAM)などのような様々な形態であり得るが、これらに限定されない。
【0093】
当業者であれば、説明の便宜上及び簡潔さのために、上記の各機能ユニット、モジュールの分割を例として説明しただけで、実際の応用において、ニーズに応じて、上記機能の割り当ては異なる機能ユニット、モジュールによって完了されてもよく、即ち、前記装置の内部構造は、上記に説明した全部又は一部の機能を完了するために、異なる機能ユニット又はモジュールに分割されることを明確に理解できる。
【0094】
以上、前記実施例は、本願の技術的解決手段を説明するためのものにすぎず、本願を限定するものではない。前述の実施例を参照して、本願について詳細に説明したが、当業者であれば、前述の各実施例に記載の技術的解決手段を変更するか、又は技術特徴の一部に対して等価置換を行ってもよく、対応する技術的解決手段の本質が本願の各実施例の技術的解決手段の趣旨及び範囲から逸脱しないこれらの変更又は置換は、いずれも本願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8