(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-20
(45)【発行日】2023-04-28
(54)【発明の名称】ビデオ物体の高速検出方法、装置、サーバ及び記憶媒体
(51)【国際特許分類】
G06T 7/246 20170101AFI20230421BHJP
G06T 7/00 20170101ALI20230421BHJP
G06V 10/82 20220101ALI20230421BHJP
【FI】
G06T7/246
G06T7/00 350C
G06V10/82
(21)【出願番号】P 2021506484
(86)(22)【出願日】2020-05-29
(86)【国際出願番号】 CN2020093360
(87)【国際公開番号】W WO2020253499
(87)【国際公開日】2020-12-24
【審査請求日】2021-02-05
(31)【優先権主張番号】201910523099.6
(32)【優先日】2019-06-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】イエ,ミン
【審査官】大塚 俊範
(56)【参考文献】
【文献】中国特許出願公開第108230357(CN,A)
【文献】特開2018-005520(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
ビデオ物体の高速検出方法であって、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、
前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、
前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレーム
画像に対応する原画像にマッピングするステップとを含むビデオ物体の高速検出方法。
【請求項2】
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力する前に、前記ビデオ物体の高速検出方法は、
前記複数の予備選択ボックス画像をスケーリング処理するステップをさらに含む請求項1に記載のビデオ物体の高速検出方法。
【請求項3】
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップは、
前記所定組のフレーム画像における現在の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像に対応する前のキーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記現在の非キーフレーム画像中の検出目標をマーキングするステップと、
前記現在の非キーフレーム画像に対応する後の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像中の予備選択ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記現在の非キーフレーム画像に対応する後の非キーフレーム画像中の検出目標をマーキングし、以下、同様に、前記所定組のフレーム画像における全ての非キーフレーム画像中の検出目標のマーキングを完了するまで行うステップとを含む請求項1に記載のビデオ物体の高速検出方法。
【請求項4】
前記非キーフレーム
検出ネットワークは、画像における検出目標の位置を取得するための深層学習型ニューラルネットワークである請求項3に記載のビデオ物体の高速検出方法。
【請求項5】
前記キーフレーム画像中の検出目標を認識することは、
ウィンドウサイズの異なるスライディングウィンドウにより所定順序で前記キーフレーム画像をスライディングさせるステップと、
スライディングするたびに、現在のウィンドウに対応する画像を予め訓練された分類器に入力するステップと、
前記分類器が前記現在のウィンドウに対応する画像を処理した後に出力する分類確率が所定値よりも大きい場合、前記キーフレーム画像中の検出目標が認識されることを確認し、前記検出目標のマークを出力するステップとを含む請求項1に記載のビデオ物体の高速検出方法。
【請求項6】
前記方法は、前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングするステップをさらに含む請求項5に記載のビデオ物体の高速検出方法。
【請求項7】
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングする前記ステップは、
全てのスライディングウィンドウが前記分類器に入力された後に得られた確率を降順でソートし、最大の分類確率に対応するスライディングウィンドウを選択するステップと、
他のスライディングウィンドウと前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積をそれぞれ計算し、前記重なり面積が所定面積よりも大きいか否かを判断するステップと、
前記重なり面積が前記所定面積以下である場合、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積以下であるスライディングウィンドウを保留し、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積以下であるスライディングウィンドウに対応する検出目標を出力するステップと、
前記重なり面積が前記所定面積よりも大きい場合、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積よりも大きいスライディングウィンドウを削除するステップと、
全ての他のスライディングウィンドウ
と前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積と前記所定面積との比較を完了するまで、上記のステップを繰り返すステップとを含む請求項6に記載のビデオ物体の高速検出方法。
【請求項8】
ビデオ物体の高速検出装置であって、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるための初期化モジュールであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含む初期化モジュールと、
認識モジュールであって、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングし、
さらに、前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするための認識モジュールと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るためのトリミングモジュールと、
処理モジュールであって、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得て、
さらに、前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレーム
画像に対応する原画像にマッピングするための処理モジュールとを含むビデオ物体の高速検出装置。
【請求項9】
サーバであって、プロセッサ及びメモリを含み、前記プロセッサは、前記メモリに記憶されたコンピュータ可読命令を実行する場合、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、
前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、
前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレーム
画像に対応する原画像にマッピングするステップとを実現するサーバ。
【請求項10】
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力する前に、前記サーバは、
前記複数の予備選択ボックス画像をスケーリング処理するステップをさらに含む請求項9に記載のサーバ。
【請求項11】
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップは、
前記所定組のフレーム画像における現在の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像に対応する前のキーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記現在の非キーフレーム画像に対応する後の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像中の予備選択ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記現在の非キーフレーム画像に対応する後の非キーフレーム画像中の検出目標をマーキングし、以下、同様に、前記所定組のフレーム画像における全ての非キーフレーム画像中の検出目標のマーキングを完了するまで行うステップとを含む請求項9に記載のサーバ。
【請求項12】
前記キーフレーム画像中の検出目標を認識することは、
ウィンドウサイズの異なるスライディングウィンドウにより所定順序で前記キーフレーム画像をスライディングさせるステップと、
スライディングするたびに、現在のウィンドウに対応する画像を予め訓練された分類器に入力するステップと、
前記分類器が前記現在のウィンドウに対応する画像を処理した後に出力する分類確率が所定値よりも大きい場合、前記キーフレーム画像中の検出目標が認識されることを確認し、前記検出目標のマークを出力するステップとを含む請求項9に記載のサーバ。
【請求項13】
前記
プロセッサは、前記メモリに記憶されたコンピュータ可読命令を実行する場合、
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングするステップをさらに
実現する請求項12に記載のサーバ。
【請求項14】
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングする前記ステップは、
全てのスライディングウィンドウが前記分類器に入力された後に得られた確率を降順でソートし、最大の分類確率に対応するスライディングウィンドウを選択するステップと、
他のスライディングウィンドウと前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積をそれぞれ計算し、前記重なり面積が所定面積よりも大きいか否かを判断するステップと、
前記重なり面積が前記所定面積以下である場合、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積以下であるスライディングウィンドウを保留し、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積以下であるスライディングウィンドウに対応する検出目標を出力するステップと、
前記重なり面積が前記所定面積よりも大きい場合、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積よりも大きいスライディングウィンドウを削除するステップと、
全ての他のスライディングウィンドウ
と前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積と前記所定面積との比較を完了するまで、上記のステップを繰り返すステップとを含む請求項13に記載のサーバ。
【請求項15】
コンピュータ可読命令が記憶されている1つ又は複数の可読記憶媒体であって、前
記可読記憶媒体は、コンピュータ可読命令を記憶し、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、
前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、
前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレーム
画像に対応する原画像にマッピングするステップとを実行させるコンピュータ可読命令が記憶されている1つ又は複数の可読記憶媒体。
【請求項16】
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力する前に、前記可読記憶媒体は、
前記複数の予備選択ボックス画像をスケーリング処理するステップをさらに含む請求項15に記載の可読記憶媒体。
【請求項17】
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップは、
前記所定組のフレーム画像における現在の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像に対応する前のキーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記現在の非キーフレーム画像中の検出目標をマーキングするステップと、
前記現在の非キーフレーム画像に対応する後の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像中の予備選択ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記現在の非キーフレーム画像に対応する後の非キーフレーム画像中の検出目標をマーキングし、以下、同様に、前記所定組のフレーム画像における全ての非キーフレーム画像中の検出目標のマーキングを完了するまで行うステップとを含む請求項15に記載の可読記憶媒体。
【請求項18】
前記キーフレーム画像中の検出目標を認識することは、
ウィンドウサイズの異なるスライディングウィンドウにより所定順序で前記キーフレーム画像をスライディングさせるステップと、
スライディングするたびに、現在のウィンドウに対応する画像を予め訓練された分類器に入力するステップと、
前記分類器が前記現在のウィンドウに対応する画像を処理した後に出力する分類確率が所定値よりも大きい場合、前記キーフレーム画像中の検出目標が認識されることを確認し、前記検出目標のマークを出力するステップとを含む請求項15に記載の可読記憶媒体。
【請求項19】
前記
コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに、
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングするステップをさらに
実行させる請求項18に記載の可読記憶媒体。
【請求項20】
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングする前記ステップは、
全てのスライディングウィンドウが前記分類器に入力された後に得られた確率を降順でソートし、最大の分類確率に対応するスライディングウィンドウを選択するステップと、
他のスライディングウィンドウと前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積をそれぞれ計算し、前記重なり面積が所定面積よりも大きいか否かを判断するステップと、
前記重なり面積が前記所定面積以下である場合、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積以下であるスライディングウィンドウを保留し、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積以下であるスライディングウィンドウに対応する検出目標を出力するステップと、
前記重なり面積が前記所定面積よりも大きい場合、
前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積が前記所定面積よりも大きいスライディングウィンドウを削除するステップと、
全ての他のスライディングウィンドウ
と前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積と前記所定面積との比較を完了するまで、上記のステップを繰り返すステップとを含む請求項19に記載の可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2019年06月17日に提出された、出願番号201910523099.6、名称「ビデオ物体の高速検出方法、装置、サーバ及び記憶媒体」の中国特許出願を基にし、その優先権を主張する。
【0002】
本願は、人工知能に基づく画像認識技術の分野に関し、具体的には、ビデオ物体の高速検出方法、装置、サーバ及び記憶媒体に関するものである。
【背景技術】
【0003】
科学技術の発展により、撮像機器が普及し、それに応じて大量の画像データ、ビデオデータが出現し、そのうち、ビデオデータも注目を集め、監視ビデオ、ドローン追跡など、多くの分野で目標の検出及び追跡が求められている。
【0004】
従来の目標検出方法は、ビデオにおけるフレームごとに、以下の1)~3)の処理を行う必要がある。1)画像の各フレームのバックボーン・ネットワークに基づいて特徴マップを生成し、2)前記特徴マップのピラミッドでアンカーポイントを分割し、前景背景分類とバウンディングボックス回帰を行い、3)前のステップで得られた高得点の前景特徴マップを分類ネットワークに供給し、二次分類と座標回帰を行って結果を出力する。
【0005】
発明者は、上記の方法で720p以上のピクチャを処理する場合、検出アンカーポイントが多すぎるため、検出速度が遅いという問題があり、リアルタイム検出の効果が得られにくくなるため、フレームスキップでしか解決できず、検出精度が低下することに気づいた。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の内容に鑑み、ビデオ画像内の目標の検出速度を向上させることができるビデオ物体の高速検出方法、装置、サーバ及び記憶媒体を提供する必要がある。
【課題を解決するための手段】
【0007】
ビデオ物体の高速検出方法であって、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、
前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、
前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするステップとを含む。
【0008】
ビデオ物体の高速検出装置であって、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるための初期化モジュールであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含む初期化モジュールと、
認識モジュールであって、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングし、
さらに、所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするための認識モジュールと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るためのトリミングモジュールと、
処理モジュールであって、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得て、
さらに、前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするための処理モジュールとを含む。
【0009】
サーバであって、プロセッサ及びメモリを含み、前記プロセッサは、前記メモリに記憶されたコンピュータ可読命令を実行する場合、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、
前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、
前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするステップとを実現する。
【0010】
コンピュータ可読命令が記憶されている1つ又は複数の可読記憶媒体であって、前記コンピュータ可読記憶媒体は、コンピュータ可読命令を記憶し、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに、
ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、
前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、
前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、
前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、
前記予備選択ボックスにおける前記検出目標の位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするステップとを実行させる。
【発明の効果】
【0011】
上記のビデオ物体の高速検出方法、装置、サーバ及び記憶媒体について、本発明は、ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けることであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むことで、キーフレーム画像中の目標検出ボックスを使用して、非キーフレーム画像に予備選択ボックスを生成し、また、予備選択ボックス中の目標の位置を検出することで、ビデオ中の目標物体の検出を実現する。ビデオの連続フレームの空間的相関性を十分に利用し、精度を損なうことなく、アンカーポイント分類がかかる時間を大幅に低減させ、検出性能を基本的に低下させることなく、検出速度を大幅に最適化する。さらに、キーフレームと非キーフレームとの比率を調整することで、アルゴリズムを変更することなく、異なるハードウェアシーンの要件を実現することができる。
【図面の簡単な説明】
【0012】
以下、本願の実施例又は従来技術における技術的解決手段をより明確に説明するために、実施例又は従来技術の説明に必要な図面を簡単に説明し、当然ながら、下記の説明における図面は、本願の実施例に過ぎず、当業者であれば、創造的な労力を与えることなく、提供された図面に基づいて他の図面をさらに取得することができる。
【
図1】本願の実施例1にて提供されるビデオ物体の高速検出方法のフローチャートである。
【
図2】本願の実施例2にて提供されるビデオ物体の高速検出装置の好ましい実施例における機能ブロック図である。
【
図3】本願の実施例3にて提供されるサーバの概略図である。 以下の具体的な実施形態は、上記の図面と組み合わせて本願をさらに説明する。
【発明を実施するための形態】
【0013】
以下、本願の上記の目的、特徴及び利点をより詳細に説明するために、図面及び具体的な実施例と組み合わせて本願について詳細に説明する。なお、矛盾することなく、本願の実施例及び実施例における特徴は、互いに組み合わせることができる。
【0014】
以下の説明において、本願の十分な理解を容易にするために、多くの具体的な詳細が記載されており、記載された実施例は、本願の一部の実施例に過ぎず、全ての実施例ではない。本願における実施例に基づいて、当業者であれば、創造的な労力を与えることなく得る全ての他の実施例は、いずれも本願の保護範囲に属する。
【0015】
特に定義されない限り、本明細書に使用される全ての技術的及び科学的用語は、本願の技術分野における当業者によって一般的に理解されるものと同じ意味を有する。本願の明細書において使用される用語は、具体的な実施例を説明する目的のためのものに過ぎず、本願を限定することを意図しない。
【0016】
本願の明細書、特許請求の範囲、及び上記の図面における「第1」、「第2」、及び「第3」などの用語は、特定の順序を説明するためのものではなく、異なる対象物を区別するために使用される。さらに、「含む」の用語及びそれらの任意変形は、排他的な包含を網羅することを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、記載されたステップ又はユニットに限定されず、記載されていないステップ又はユニットを任意選択的に含み、あるいはそのようなプロセス、方法、製品又は機器に固有の他のステップ又はユニットを任意選択的に含む。
【0017】
本願の実施例のビデオ物体の高速検出方法は、少なくとも1つのサーバと、前記サーバとネットワークを介して接続される移動端末から構成されるハードウェア環境に適用される。ネットワークは、広域ネットワーク、メトロポリタンエリアネットワーク、又はローカルエリアネットワークを含むが、これらに限定されない。本願の実施例に係るビデオ物体の高速検出方法は、サーバによって実行されてもよく、移動端末によって実行されてもよく、サーバと移動端末が連携して実行されてもよい。
【0018】
上記のビデオ物体の高速検出方法を行う必要があるサーバについては、本願の方法が提供するビデオ物体の高速検出機能を直接サーバに集積するか、又は本願の方法を実現するためのクライアントを実装することができる。また、本願にて提供される方法は、ソフトウェア開発キット(Software Development Kit、SDK)の形式でサーバなどの機器上に実行し、SDKの形式でビデオ物体の高速検出機能のインタフェースを提供することができ、サーバ又は他の機器は、提供されたインタフェースを介してビデオ物体の高速検出機能を実現することができる。
【実施例1】
【0019】
図1は、本願の実施例1にて提供されるビデオ物体の高速検出方法のフローチャートである。異なる要求に応じて、このフローチャートにおける実行の順序は、変更してもよく、いくつかのステップは省略してもよい。
【0020】
ステップS1において、ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分け、ただし、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含む。
【0021】
具体的には、前記ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分け、ただし、各組のフレーム画像は、連続する所定フレームの画像を含み、前記連続する所定フレームの画像における第1のフレーム画像はキーフレーム画像であり、その他のフレーム画像は非キーフレーム画像である。
【0022】
例えば、50フレーム画像を有するビデオ画像を10組のフレーム画像に分け、連続する5フレームの画像を1組に分け、前記5フレームの画像のうち、第1のフレーム画像をキーフレーム画像とし、第2乃至第5のフレーム画像を非キーフレーム画像とする。前記キーフレーム画像の各々は、前記ビデオ画像における原画像の1つに対応し、前記非キーフレーム画像の各々も、前記ビデオ画像における原画像の1つに対応し、前記原画像は、720p以上のピクチャである。
【0023】
前記各組のフレーム画像における画像のフレーム数が限定されず、前記各組のフレーム画像におけるキーフレーム画像及び非キーフレーム画像の数も限定されないことが理解されるであろう。
【0024】
ビデオ画像中の目標を正確に検出する必要がある場合、前記所定組のフレーム画像の数を適宜に増加させ、それに応じて各組のフレーム画像中の画像のフレーム数を適宜に減少させてもよい。例えば、60フレーム画像を有するビデオ画像を20組のフレーム画像に分け、前記ビデオ画像中の全てのフレーム画像のうち、連続する3フレームの画像を1組に分ける。
【0025】
ビデオ画像中の目標の検出精度が高く要求されない場合、前記所定組のフレーム画像の数を適宜に減少させ、それに応じて各組のフレーム画像中の画像のフレーム数を適宜に増加させてもよい。例えば、60フレーム画像を有するビデオ画像を10組のフレーム画像に分け、前記ビデオ画像中の全てのフレーム画像のうち、連続する6フレームの画像を1組に分ける。
【0026】
本実施形態では、ビデオ画像中の全てのフレーム画像を所定組のフレーム画像に分ける前に、前記ビデオ物体の高速検出方法は、
カメラによって収集されたビデオ画像を受信し、前記ビデオ画像をデコードするステップをさらに含む。
【0027】
本実施形態では、カメラによってビデオ画像を収集する。前記カメラと前記サーバとの間は、有線又は無線ネットワークを介して通信可能に接続される。前記カメラは、収集したビデオ画像を有線又は無線ネットワークを介して前記サーバに送信する。
【0028】
ステップS2において、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングする。
【0029】
本実施形態では、前記検出目標は、人、動物、又は乗り物などであってもよい。前記キーフレーム画像中の前記検出目標は、複数であってもよく、各前記検出目標が1つの検出ボックスに対応する。前記検出目標に応じて、対応する検出ボックスのサイズも異なることが理解されるであろう。
【0030】
本実施形態では、前記キーフレーム画像中の検出目標を認識することは、
ウィンドウサイズの異なるスライディングウィンドウにより所定順序で前記キーフレーム画像をスライディングさせるステップと、
スライディングするたびに、現在のウィンドウに対応する画像を予め訓練された分類器に入力するステップと、
前記分類器が前記現在のウィンドウに対応する画像を処理した後に出力する分類確率が所定値よりも大きい場合、前記キーフレーム画像中の検出目標が認識されることを確認し、検出目標のマークを出力するステップとを含む。
【0031】
例えば、まず、現在のフレーム画像に対してウィンドウサイズの異なるスライディングウィンドウを行って、左から右へ、上から下へスライディングさせる。スライディングするたびに、現在のウィンドウに対して分類器(分類器は事前に訓練された)を実行する。現在のウィンドウの分類確率が高い場合、目標が検出されたと考えられる。ウィンドウサイズの異なるスライディングウィンドウを全て検出した後、異なるウィンドウで検出された目標マークを得て、これらのウィンドウサイズには、重複率が高い部分を有し、最終的に、前記キーフレーム画像中の検出目標を取得するために非最大値抑制(Non-Maximum Suppression、NMS)の方法を使用してスクリーニングする。最終的に、NMSスクリーニングを経た後に検出目標を取得する。
【0032】
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングするステップは、
全てのスライディングウィンドウが分類器に入力された後に得られた確率を降順でソートし、最大の分類確率に対応するスライディングウィンドウを選択するステップと、
他のスライディングウィンドウと前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積をそれぞれ計算し、前記重なり面積が所定面積よりも大きいか否かを判断するステップと、
前記重なり面積が前記所定面積以下である場合、対応するスライディングウィンドウを保留し、前記スライディングウィンドウに対応する検出目標を出力するステップと、
前記重なり面積が前記所定面積よりも大きい場合、対応するスライディングウィンドウを削除するステップと、
全ての他のスライディングウィンドウの比較を完了するまで、上記のステップを繰り返すステップとを含む。
【0033】
ステップS3において、所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングする。
【0034】
現在の非キーフレーム画像中の検出目標を認識する前記方法は、前記キーフレーム画像中の検出目標を認識する前記方法と一致してもよく、ここでは説明を省略することが理解されるであろう。
【0035】
本実施形態では、各組のフレーム画像における各非キーフレーム画像中の検出目標を認識する。前記前フレーム画像は、キーフレーム画像であってもよいし、非キーフレーム画像であってもよい。
【0036】
所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングする前記ステップは、
前記所定組のフレーム画像における現在の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像の前のキーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記現在の非キーフレーム画像の後の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像中の予備選択ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記現在の非キーフレーム画像の後の非キーフレーム画像中の検出目標をマーキングし、以下、同様に、前記所定組のフレーム画像における全ての非キーフレーム画像中の検出目標のマーキングを完了するまで行うステップとを含む。
【0037】
例えば、連続する5フレームの画像を1組とする場合、前記5フレームの画像のうち、第1のフレーム画像をキーフレーム画像とし、第2乃至第5のフレーム画像を非キーフレーム画像とする。第1のフレームであるキーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングし、第2のフレームである非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記第2のフレーム画像中の検出目標をマーキングし、次に、第3のフレームである非キーフレーム画像中の検出目標を認識し、前記第2のフレーム画像(非キーフレーム画像)中の検出ボックス(すなわち、第1の予備選択ボックス)を所定比率で拡大して第2の予備選択ボックスを生成し、前記第2の予備選択ボックスにより前記第3のフレーム画像中の検出目標をマーキングし、以下、同様に、予備選択ボックスにより各組のフレーム画像における非キーフレーム画像中の検出目標をマーキングする。
【0038】
例えば、連続する5フレームの画像を1組とする場合、前記5フレームの画像のうち、第2のフレーム画像をキーフレーム画像とし、第1のフレームと第3乃至第5のフレーム画像を非キーフレーム画像とする。第2のフレームであるキーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングし、第3のフレームである非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記第3のフレーム画像中の検出目標をマーキングし、次に、第4のフレームである非キーフレーム画像中の検出目標を認識し、前記第3のフレーム画像(非キーフレーム画像)中の検出ボックス(すなわち、第1の予備選択ボックス)を所定比率で拡大して第2の予備選択ボックスを生成し、前記第2の予備選択ボックスにより前記第4のフレーム画像中の検出目標をマーキングし、以下、同様に、予備選択ボックスにより各組のフレーム画像における非キーフレーム画像中の検出目標をマーキングする。
【0039】
すなわち、各組のフレーム画像における第1のフレームをキーフレーム画像として限定することなく、他のフレーム画像をキーフレーム画像としてもよい。
【0040】
ステップS4において、前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得る。
【0041】
例えば、前記非キーフレーム画像中の検出目標は5つあり、5つの予備選択ボックスにより前記5つの検出目標をそれぞれマーキングし、前記5つの予備選択ボックスに基づいて前記非キーフレーム画像をトリミングすると、5つの予備選択ボックス画像を得ることができることができる。
【0042】
720p以上のピクチャを処理する時、ピクチャが大きすぎるため、処理に計算量が多く、時間がかかる。そこで、本実施形態では、前記非キーフレーム画像を前記予備選択ボックスに基づいてトリミングして予備選択ボックス画像を得て、前記予備選択ボックス画像を非キーフレームネットワークに入力して処理することができる。大きいピクチャを小さいピクチャに変換して処理するだけでなく、大きいピクチャ中の非検出目標領域を除去することができ、それにより処理速度を向上させることができる。
【0043】
ステップS5において、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得る。
【0044】
本実施形態では、前記非キーフレーム検出ネットワークは、予め訓練された目標検出モデルであってもよい。ただし、前記目標検出モデルは、予備選択ボックス画像と、前記予備選択ボックス画像に含まれる検出目標の位置情報との対応関係を特徴付けるために用いられる。
【0045】
前記予備選択ボックス画像が前記目標検出モデルに入力されると、前記予備選択ボックス中の検出目標の位置情報を決定することができる。すなわち、前記非キーフレームネットワークは、画像における検出目標の位置を取得するための深層学習型ニューラルネットワークである。深層ニューラルネットワークは、従来のニューラルネットワークよりも多くのニューロンを有し、大規模で、位置、形態の異なる領域目標画像サンプルを学習することができると同時に、データの準備段階において、強調変換方法により、同一の画像に対して、反転変換、色相変換、スケール変換、ノイズ妨害、色変換などの操作を行うことで、環境特性の異なる複数の訓練画像を生成することができ、これにより、ニューラルネットワーク検出器は、シーン、環境、形状の異なる領域目標に対しても性能が安定的な検出を行うことができ、十分なサンプルデータ量を確保し、オーバーフィッティングが生じることを回避する。さらに、ニューラルネットワークのDropoutメカニズムは、訓練過程のフィードフォワード演算時にニューロンの一部をランダムに除去することができ、これにより、ニューラルネットワーク間の相互依存関係を減少させ、ニューラルネットワークにより強い一般化能力を持たせ、オーバーフィッティングを回避する。前記深層学習型ニューラルネットワークは、畳み込みニューラルネットワーク、深層信念ネットワーク、及びスタックオートエンコーダであってもよい。
【0046】
例として、前記目標検出モデルは、大量の予備選択ボックス画像と、予備選択ボックス画像に含まれる検出目標に基づいて技術者が行った対応関係表であってよく、この対応関係表は、予備選択ボックス画像と、予備選択ボックス画像に含まれる検出目標との対応関係を反映することができる。前記目標検出モデルは、既存の人工ニューラルネットワークに基づいて技術者が教師あり訓練を行って得られた画像認識モデルであってもよい。
【0047】
好ましくは、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力する前に、前記ビデオ物体の高速検出方法は、前記複数の予備選択ボックス画像をスケーリング処理するステップをさらに含む。
【0048】
検出目標サイズが異なるため、その対応する予備選択ボックスのサイズも異なることが理解されるであろう。画像を迅速に処理するために、前記複数の予備選択ボックス画像を、サイズが類似する画像にスケーリング処理し、次に、同じサイズにした後の画像を非キーフレーム検出ネットワークに入力する。
【0049】
本実施形態では、前記非キーフレーム画像からトリミングされた予備選択ボックス画像を、非キーフレーム検出ネットワークに一度に入力する前に、前記予備選択ボックス画像を、サイズが類似する画像にスケーリング処理することができる。そのように、サイズが揃った画像を非キーフレーム検出ネットワークに入力することを実現し、前記非キーフレーム検出ネットワークによる前記予備選択ボックスにおける前記検出目標の位置への迅速な検出を容易にする。
【0050】
例えば、前記現在の非キーフレーム画像中の検出目標は5つあり、5つの予備選択ボックスにより前記5つの検出目標をそれぞれマーキングし、前記5つの予備選択ボックスに基づいて前記非キーフレーム画像をトリミングすると、5つの予備選択ボックス画像を得ることができる。前記5つの予備選択ボックス画像は、サイズが異なるので、サイズが類似する5つの予備選択ボックス画像にスケーリング処理する必要がある。
【0051】
ステップS6において、前記予備選択ボックスの位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングする。
【0052】
前記予備選択ボックスにおける前記検出目標の位置は、ビデオ中の原画像がスケーリング処理された後に検出された位置であり、したがって、ビデオ画像中の目標検出を完了するように、それを前記非キーフレームに対応する原画像にマッピングする必要があることが理解されるであろう。
【0053】
以上、本願にて提供されるビデオ物体の高速検出方法は、ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるステップであって、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含むステップと、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするステップと、現在の非キーフレーム画像中の検出目標を認識し、前記現在の非キーフレームの前のフレーム画像中の検出目標に対応する検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記現在の非キーフレーム画像中の検出目標をマーキングするステップと、前記予備選択ボックスに基づいて前記現在の非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るステップと、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るステップと、前記予備選択ボックス中の位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするステップとを含む。
【0054】
主に、検出ネットワークは、720p以上のシーンで、検出アンカーポイントが多すぎるため、検出速度が遅くなるという問題に対して、ビデオ画像をキーフレーム画像と非キーフレーム画像に分け、前記非キーフレーム画像に対して簡易演算を行うことで、ビデオ中の各フレーム画像に対して正確な目標検出処理を行う必要がないことを実現し、ビデオの連続フレームの空間的相関性を十分に利用し、精度を損なうことなく、アンカーポイント分類がかかる時間を大幅に低減させ、検出性能を基本的に低下させることなく、検出速度を大幅に最適化する。さらに、キーフレームと非キーフレームとの比率を調整することで、アルゴリズムを変更することなく、異なるハードウェアシーンの要件に対応することができる。
【実施例2】
【0055】
図2は、本願のビデオ物体の高速検出装置の好ましい実施例における機能ブロック図である。
【0056】
いくつかの実施例では、ビデオ物体の高速検出装置20(以下、「検出装置20」と略称する)は、サーバ内に動作する。検出装置20は、プログラムコードセグメントからなる複数の機能モジュールを含み得る。検出装置20における各プログラムセグメントのプログラムコードは、メモリに記憶され、少なくとも1つのプロセッサによって実行されることで、ビデオ物体の高速検出機能(詳細は
図1及び関連説明を参照する)を実行することができる。
【0057】
本実施例では、検出装置20は、それが実行する機能に応じて、複数の機能モジュールに分けられる。前記機能モジュールは、初期化モジュール201と、認識モジュール202と、トリミングモジュール203と、処理モジュール204とを含み得る。本願で言及されるモジュールとは、少なくとも1つのプロセッサによって実行され、固定機能を実行することができる一連のコンピュータ可読命令であって、メモリに記憶されるものである。いくつかの実施例では、各モジュールの機能については、後続の実施例で詳しく説明する。
【0058】
初期化モジュール201は、ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるために用いられ、ただし、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含む。
【0059】
具体的には、前記ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分け、各組のフレーム画像は、連続する所定フレームの画像を含み、前記連続する所定フレームの画像における第1のフレーム画像はキーフレーム画像であり、その他のフレーム画像は非キーフレーム画像である。
【0060】
例えば、50フレーム画像を有するビデオ画像を10組のフレーム画像に分け、連続する5フレームの画像を1組に分け、前記5フレームの画像のうち、第1のフレーム画像をキーフレーム画像とし、第2乃至第5のフレーム画像を非キーフレーム画像とする。前記キーフレーム画像の各々は、前記ビデオ画像における原画像の1つに対応し、前記非キーフレーム画像の各々も、前記ビデオ画像における原画像の1つに対応し、前記原画像は、720p以上のピクチャである。
【0061】
前記各組のフレーム画像における画像のフレーム数が限定されず、前記各組のフレーム画像におけるキーフレーム画像及び非キーフレーム画像の数も限定されないことが理解されるであろう。
【0062】
ビデオ画像中の目標を正確に検出する必要がある場合、前記所定組のフレーム画像の数を適宜に増加させ、それに応じて各組のフレーム画像中の画像のフレーム数を適宜に減少させてもよい。例えば、60フレーム画像を有するビデオ画像を20組のフレーム画像に分け、前記ビデオ画像中の全てのフレーム画像のうち、連続する3フレームの画像を1組に分ける。
【0063】
ビデオ画像中の目標の検出精度が高く要求されない場合、前記所定組のフレーム画像の数を適宜に減少させ、それに応じて各組のフレーム画像中の画像のフレーム数を適宜に増加させてもよい。例えば、60フレーム画像を有するビデオ画像を10組のフレーム画像に分け、前記ビデオ画像中の全てのフレーム画像のうち、連続する6フレームの画像を1組に分ける。
【0064】
本実施形態では、ビデオ画像中の全てのフレーム画像を所定組のフレーム画像に分ける前に、ビデオ物体の高速検出装置20は、さらに、カメラによって収集されたビデオ画像を受信し、前記ビデオ画像をデコードすることができる。
【0065】
本実施形態では、カメラによってビデオ画像を収集する。前記カメラと前記サーバとの間は、有線又は無線ネットワークを介して通信可能に接続される。前記カメラは、収集したビデオ画像を有線又は無線ネットワークを介して前記サーバに送信する。
【0066】
認識モジュール202は、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするために用いられる。
【0067】
本実施形態では、前記検出目標は、人、動物、又は乗り物などであってもよい。前記キーフレーム画像中の前記検出目標は、複数であってもよく、各前記検出目標が1つの検出ボックスに対応する。前記検出目標に応じて、対応する検出ボックスのサイズも異なることが理解されるであろう。
【0068】
本実施形態では、前記キーフレーム画像中の検出目標を認識することは、
ウィンドウサイズの異なるスライディングウィンドウにより所定順序で前記キーフレーム画像をスライディングさせるステップと、
スライディングするたびに、現在のウィンドウに対応する画像を予め訓練された分類器に入力するステップと、
前記分類器が前記現在のウィンドウに対応する画像を処理した後に出力する分類確率が所定値よりも大きい場合、前記キーフレーム画像中の検出目標が認識されることを確認し、検出目標のマークを出力するステップとを含む。
【0069】
例えば、まず、現在のフレーム画像に対してウィンドウサイズの異なるスライディングウィンドウを行って、左から右へ、上から下へスライディングさせる。スライディングするたびに、現在のウィンドウに対して分類器(分類器は事前に訓練された)を実行する。現在のウィンドウの分類確率が高い場合、目標が検出されたと考えられる。ウィンドウサイズの異なるスライディングウィンドウを全て検出した後、異なるウィンドウで検出された目標マークを得て、これらのウィンドウサイズには、重複率が高い部分を有し、最終的に、前記キーフレーム画像中の検出目標を取得するために非最大値抑制(Non-Maximum Suppression、NMS)の方法を使用してスクリーニングする。最終的に、NMSスクリーニングを経た後に検出目標を取得する。
【0070】
前記キーフレーム画像中の検出目標を取得するために、前記検出目標のマークをスクリーニングするステップは、
全てのスライディングウィンドウが分類器に入力された後に得られた確率を降順でソートし、最大の分類確率に対応するスライディングウィンドウを選択するステップと、
他のスライディングウィンドウと前記最大の分類確率に対応するスライディングウィンドウとの間の重なり面積をそれぞれ計算し、前記重なり面積が所定面積よりも大きいか否かを判断するステップと、
前記重なり面積が前記所定面積以下である場合、対応するスライディングウィンドウを保留し、前記スライディングウィンドウに対応する検出目標を出力するステップと、
前記重なり面積が前記所定面積よりも大きい場合、対応するスライディングウィンドウを削除するステップと、
全ての他のスライディングウィンドウの比較を完了するまで、上記のステップを繰り返すステップとを含む。
【0071】
認識モジュール202は、さらに、前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするために用いられる。
【0072】
現在の非キーフレーム画像中の検出目標を認識する前記方法は、前記キーフレーム画像中の検出目標を認識する前記方法と一致してもよく、ここでは説明を省略することが理解されるであろう。
【0073】
本実施形態では、各組のフレーム画像における各非キーフレーム画像中の検出目標を認識する。前記前フレーム画像は、キーフレーム画像であってもよいし、非キーフレーム画像であってもよい。
【0074】
所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングする前記ステップは、
前記所定組のフレーム画像における現在の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像の前のキーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするステップと、
前記現在の非キーフレーム画像の後の非キーフレーム画像中の検出目標を認識するステップと、
前記現在の非キーフレーム画像中の予備選択ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記現在の非キーフレーム画像の後の非キーフレーム画像中の検出目標をマーキングし、以下、同様に、前記所定組のフレーム画像における全ての非キーフレーム画像中の検出目標のマーキングを完了するまで行うステップとを含む。
【0075】
例えば、連続する5フレームの画像を1組とする場合、前記5フレームの画像のうち、第1のフレーム画像をキーフレーム画像とし、第2乃至第5のフレーム画像を非キーフレーム画像とする。第1のフレームであるキーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングし、第2のフレームである非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記第2のフレーム画像中の検出目標をマーキングし、次に、第3のフレームである非キーフレーム画像中の検出目標を認識し、前記第2のフレーム画像(非キーフレーム画像)中の検出ボックス(すなわち、第1の予備選択ボックス)を所定比率で拡大して第2の予備選択ボックスを生成し、前記第2の予備選択ボックスにより前記第3のフレーム画像中の検出目標をマーキングし、以下、同様に、予備選択ボックスにより各組のフレーム画像における非キーフレーム画像中の検出目標をマーキングする。
【0076】
例えば、連続する5フレームの画像を1組とする場合、前記5フレームの画像のうち、第2のフレーム画像をキーフレーム画像とし、第1のフレームと第3乃至第5のフレーム画像を非キーフレーム画像とする。第2のフレームであるキーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングし、第3のフレームである非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して第1の予備選択ボックスを生成し、前記第1の予備選択ボックスにより前記第3のフレーム画像中の検出目標をマーキングし、次に、第4のフレームである非キーフレーム画像中の検出目標を認識し、前記第3のフレーム画像(非キーフレーム画像)中の検出ボックス(すなわち、第1の予備選択ボックス)を所定比率で拡大して第2の予備選択ボックスを生成し、前記第2の予備選択ボックスにより前記第4のフレーム画像中の検出目標をマーキングし、以下、同様に、予備選択ボックスにより各組のフレーム画像における非キーフレーム画像中の検出目標をマーキングする。
【0077】
すなわち、各組のフレーム画像における第1のフレームをキーフレーム画像として限定することなく、他のフレーム画像をキーフレーム画像としてもよい。
【0078】
トリミングモジュール203は、前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るために用いられる。
【0079】
例えば、前記非キーフレーム画像中の検出目標は5つあり、5つの予備選択ボックスにより前記5つの検出目標をそれぞれマーキングし、前記5つの予備選択ボックスに基づいて前記非キーフレーム画像をトリミングすると、5つの予備選択ボックス画像を得ることができることができる。
【0080】
720p以上のピクチャを処理する時、ピクチャが大きすぎるため、処理に計算量が多く、時間がかかる。そこで、本実施形態では、前記非キーフレーム画像を前記予備選択ボックスに基づいてトリミングして予備選択ボックス画像を得て、前記予備選択ボックス画像を非キーフレームネットワークに入力して処理することができる。大きいピクチャを小さいピクチャに変換して処理するだけでなく、大きいピクチャ中の非検出目標領域を除去することができ、それにより処理速度を向上させることができる。
【0081】
処理モジュール204は、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るために用いられる。
【0082】
本実施形態では、前記非キーフレーム検出ネットワークは、予め訓練された目標検出モデルであってもよい。ただし、前記目標検出モデルは、予備選択ボックス画像と、前記予備選択ボックス画像に含まれる検出目標の位置情報との対応関係を特徴付けるために用いられる。
【0083】
前記予備選択ボックス画像が前記目標検出モデルに入力されると、前記予備選択ボックス中の検出目標の位置情報を決定することができる。すなわち、前記非キーフレームネットワークは、画像における検出目標の位置を取得するための深層学習型ニューラルネットワークである。
【0084】
深層ニューラルネットワークは、従来のニューラルネットワークよりも多くのニューロンを有し、大規模で、位置、形態の異なる領域目標画像サンプルを学習することができると同時に、データの準備段階において、変換方法を強化させて、同一の画像に対して、反転変換、色相変換、スケール変換、ノイズ妨害、色変換などの操作を行うことで、環境特性の異なる複数の訓練画像を生成することができ、これにより、ニューラルネットワーク検出器は、シーン、環境、形状の異なる領域目標に対しても性能が安定的な検出を行うことができ、十分なサンプルデータ量を確保し、オーバーフィッティングが生じることを回避する。さらに、ニューラルネットワークのDropoutメカニズムは、訓練過程のフィードフォワード演算時にニューロンの一部をランダムに除去することができ、これにより、ニューラルネットワーク間の相互依存関係を減少させ、ニューラルネットワークにより強い一般化能力を持たせ、オーバーフィッティングを回避する。前記深層学習型ニューラルネットワークは、畳み込みニューラルネットワーク、深層信念ネットワーク、及びスタックオートエンコーダであってもよい。
【0085】
例として、前記目標検出モデルは、大量の予備選択ボックス画像と、予備選択ボックス画像に含まれる検出目標に基づいて技術者が行った対応関係表であってよく、この対応関係表は、予備選択ボックス画像と、予備選択ボックス画像に含まれる検出目標との対応関係を反映することができる。前記目標検出モデルは、既存の人工ニューラルネットワークに基づいて技術者が教師あり訓練を行って得られた画像認識モデルであってもよい。
【0086】
好ましくは、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力する前に、ビデオ物体の高速検出装置20は、前記複数の予備選択ボックス画像をスケーリング処理することができる。
【0087】
検出目標サイズが異なるため、その対応する予備選択ボックスのサイズも異なることが理解されるであろう。画像を迅速に処理するために、前記複数の予備選択ボックス画像を、サイズが類似する画像にスケーリング処理し、次に、同じサイズにした後の画像を非キーフレーム検出ネットワークに入力する。
【0088】
本実施形態では、前記非キーフレーム画像からトリミングされた予備選択ボックス画像を、非キーフレーム検出ネットワークに一度に入力する前に、前記予備選択ボックス画像を、サイズが類似する画像にスケーリング処理することができる。そのように、サイズが揃った画像を非キーフレーム検出ネットワークに入力することを実現し、前記非キーフレーム検出ネットワークによる前記予備選択ボックスにおける前記検出目標の位置への迅速な検出を容易にする。
【0089】
例えば、前記現在の非キーフレーム画像中の検出目標は5つあり、5つの予備選択ボックスにより前記5つの検出目標をそれぞれマーキングし、前記5つの予備選択ボックスに基づいて前記現在の非キーフレーム画像をトリミングすると、5つの予備選択ボックス画像を得ることができる。前記5つの予備選択ボックス画像は、サイズが異なるので、サイズが類似する5つの予備選択ボックス画像にスケーリング処理する必要がある。
【0090】
処理モジュール204は、さらに、前記予備選択ボックスにおける位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするために用いられる。
【0091】
前記予備選択ボックスにおける前記検出目標の位置は、ビデオ中の原画像がスケーリング処理された後に検出された位置であり、したがって、ビデオ画像中の目標検出を完了するように、それを前記非キーフレームに対応する原画像にマッピングする必要があることが理解されるであろう。
【0092】
以上、本願にて提供されるビデオ物体の高速検出装置20は、初期化モジュール201と、認識モジュール202と、トリミングモジュール203と、処理モジュール204とを含む。初期化モジュール201は、ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるために用いられ、ただし、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含み、認識モジュール202は、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするために用いられ、認識モジュール202は、さらに、前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするために用いられ、トリミングモジュール203は、前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るために用いられ、処理モジュール204は、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るために用いられ、処理モジュール204は、さらに、前記予備選択ボックス中の位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするために用いられる。
【0093】
主に、検出ネットワークは、720p以上のシーンで、検出アンカーポイントが多すぎるため、検出速度が遅くなるという問題に対して、ビデオ画像をキーフレーム画像と非キーフレーム画像に分け、前記非キーフレーム画像に対して簡易演算を行うことで、ビデオ中の各フレーム画像に対して正確な目標検出処理を行う必要がないことを実現し、ビデオの連続フレームの空間的相関性を十分に利用し、精度を損なうことなく、アンカーポイント分類がかかる時間を大幅に低減させ、検出性能を基本的に低下させることなく、検出速度を大幅に最適化する。さらに、キーフレームと非キーフレームとの比率を調整することで、アルゴリズムを変更することなく、異なるハードウェアシーンの要件に対応することができる。
【0094】
上記のソフトウェア機能モジュールの形態で実現される集積化ユニットは、コンピュータ可読記憶媒体に記憶することができる。上記のソフトウェア機能モジュールは、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、2画面機器、ネットワーク機器などであってもよい)又はプロセッサ(processor)に、本願の各実施例に記載された方法の一部を実行させるための複数の命令を含む。
【実施例3】
【0095】
図3は、本願の実施例3にて提供されるサーバの概略図である。
【0096】
サーバ3は、データベース31と、メモリ32と、少なくとも1つのプロセッサ33と、メモリ32に記憶され、少なくとも1つのプロセッサ33で実行可能なコンピュータ可読命令34と、少なくとも1本の通信バス35とを含む。
【0097】
少なくとも1つのプロセッサ33は、コンピュータ可読命令34を実行すると、上記のビデオ物体の高速検出方法の実施例におけるステップを実現する。
【0098】
一例として、コンピュータ可読命令34は、メモリ32に記憶され、少なくとも1つのプロセッサ33によって実行されることで本願を完了するための1つ又は複数のモジュール/ユニットに分けることができる。前記1つ又は複数のモジュール/ユニットは、特定の機能を実現可能な一連のコンピュータ可読命令セグメントであってもよく、この命令セグメントは、サーバ3におけるコンピュータ可読命令34の実行プロセスを記述するために使用される。
【0099】
サーバ3は、予め設定され又は記憶された命令に従って、数値計算及び/又は情報処理を自動的に行うことができる機器であり、そのハードウェアとしては、マイクロプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、プログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)、デジタルプロセッサ(Digital Signal Processor、DSP)、組み込み機器などを含むが、これらに限定されない。当業者であれば、前記模式
図3はサーバ3の単なる例であり、サーバ3を限定するものではなく、図示よりも多くの、若しくは少ない構成要素、又はいくつかの構成要素の組み合わせ、又は異なる構成要素を含んでもよく、例えば、サーバ3は、入出力機器、ネットワークアクセス機器、バスなどをさらに含んでもよいことを理解することができる。
【0100】
データベース(Database)31は、データ構造に応じてデータを組織し、記憶し、管理する、サーバ3に構築されたリポジトリである。データベースは、一般的に、階層型データベース、ネットワーク型データベース、リレーショナルデータベースの3種類に分類される。本実施形態では、データベース31は、前記ビデオ画像を記憶するためのものである。
【0101】
少なくとも1つのプロセッサ33は、中央処理装置(Central Processing Unit、CPU)であってもよく、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)、又は、他のプログラマブルロジックデバイス、ディスクリートゲート若しくはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。このプロセッサ33は、マイクロプロセッサであってもよく、又はこのプロセッサ33は、任意の従来のプロセッサなどであってもよく、プロセッサ33は、サーバ3の制御センタであり、各種のインタフェース及び回線を利用してサーバ3全体の各部を接続する。
【0102】
メモリ32は、コンピュータ可読命令34及び/又はモジュール/ユニットを記憶するために用いることができ、プロセッサ33は、メモリ32内に記憶されたコンピュータ可読命令及び/又はモジュール/ユニットを動作させ、又は実行し、メモリ32内に記憶されたデータを呼び出すことで、サーバ3の様々な機能を実現する。メモリ32は、主にプログラム記憶領域とデータ記憶領域とを含み、ただし、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーション・プログラム(例えば、サウンド再生機能、画像再生機能など)などを記憶することができ、データ記憶領域は、サーバ3の利用に応じて作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。さらに、メモリ32は、高速ランダムアクセスメモリを含んでもよいし、ハードディスク、メモリ、プラグインハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュメモリカード(Flash Card)、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の揮発性固体記憶デバイスなどの不揮発性メモリを含んでもよい。
【0103】
メモリ32は、プログラムコードを記憶し、少なくとも1つのプロセッサ33は、メモリ32に記憶されたプログラムコードを呼び出して、関連機能を実行することができる。例えば、
図2に記載された各モジュール(初期化モジュール201、認識モジュール202、トリミングモジュール203、及び処理モジュール204)は、メモリ32に記憶されるプログラムコードであって、少なくとも1つのプロセッサ33によって実行されることにより、前記各モジュールの機能を実現することで、ビデオ物体の高速検出の目的を達成する。
【0104】
初期化モジュール201は、ビデオ画像中の全てのフレーム画像を、所定組のフレーム画像に分けるために用いられ、ただし、各組のフレーム画像は、キーフレーム画像及び非キーフレーム画像を含み、
認識モジュール202は、前記キーフレーム画像中の検出目標を認識し、前記検出目標に検出ボックスをマーキングするために用いられ、
認識モジュール202は、さらに、前記所定組のフレーム画像における非キーフレーム画像中の検出目標を認識し、前記キーフレーム画像中の検出ボックスを所定比率で拡大して予備選択ボックスを生成し、前記予備選択ボックスにより前記非キーフレーム画像中の検出目標をマーキングするために用いられ、
トリミングモジュール203は、前記予備選択ボックスに基づいて前記非キーフレーム画像をトリミングして複数の予備選択ボックス画像を得るために用いられ、処理モジュール204は、前記複数の予備選択ボックス画像を非キーフレーム検出ネットワークに入力して、前記予備選択ボックスにおける前記検出目標の位置を得るために用いられ、
処理モジュール204は、さらに、前記予備選択ボックスの位置に基づいて、前記検出目標を前記非キーフレームに対応する原画像にマッピングするために用いられる。
【0105】
サーバ3に集積されたモジュール/ユニットは、ソフトウェア機能ユニットの形態で実現され、スタンドアロン製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本願は、上記の実施例の方法における全部又は一部のフローを実現し、また、コンピュータ可読命令を用いて関連ハードウェアを命令して完了させることができ、前記コンピュータ可読命令はコンピュータ可読記憶媒体に記憶することができ、このコンピュータ可読命令はプロセッサにより実行されると、上記の各方法の実施例におけるステップを実現することができる。ただし、前記コンピュータ可読命令は、ソースコード形態、オブジェクトコード形態、実行可能なファイル、又は何らかの中間形態などであってもよい。前記コンピュータ可読媒体は、前記コンピュータ可読命令コードを搬送可能な任意のエンティティ又は装置、記録媒体、Uディスク、ポータブルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリメモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、電気搬送波信号、電気通信信号、及びソフトウェア配布媒体などを含み得る。なお、前記コンピュータ可読媒体に含まれる内容は、司法管轄区域の法令及び特許実践の要件に応じて、適切に増減してもよく、例えば、ある法令管轄区域において、法令及び特許実践に応じて、コンピュータ可読媒体は、電気搬送波信号及び電気通信信号を含まない。
【0106】
図示しないが、サーバ3は、各構成要素に電力を供給する電源(例えば、バッテリ)をさらに含み得て、好ましくは、電源は、電源管理システムを介して少なくとも1つのプロセッサ33に論理的に接続され、これにより、電源管理システムを介して充電と放電の管理、及び電力消費管理などの機能を実現する。電源は、1つ又はそれ以上の直流又は交流電源、再充電システム、電源故障検出回路、電力変換器又はインバータ、電源状態インジケータなどの任意のコンポーネントをさらに含み得る。サーバ3は、ブルートゥース(登録商標)モジュール、Wi-Fiモジュールなどをさらに含み得、ここではその説明を省略する。
【0107】
一実施例では、コンピュータ可読命令が記憶されている1つ又は複数の可読記憶媒体が提供され、前記コンピュータ可読記憶媒体は、コンピュータ可読命令を記憶し、前記コンピュータ可読命令は、1つ又は複数のプロセッサにより実行されると、前記1つ又は複数のプロセッサに実行時、上記の実施例におけるビデオ物体の高速検出方法を実現させ、重複を避けるため、ここではその説明を省略する。本実施例における可読記憶媒体は、不揮発性の可読記憶媒体と揮発性の可読記憶媒体とを含む。当業者であれば、上記の実施例の方法における全部又は一部のフローの実現は、コンピュータ可読命令により関連ハードウェアを命令して完了させ、このコンピュータ可読命令は不揮発性の可読記憶媒体に記憶されてもよく、揮発性の可読記憶媒体に記憶されてもよく、このコンピュータ可読命令が実行されると、上記の各方法の実施例の流れを含み得ることを理解することができる。
【0108】
前記実施例は単なる説明のためのものであり、特許請求の範囲では、この構成に限定されないことが理解されるであろう。
【0109】
本願にて提供されるいくつかの実施例では、開示される電子機器及び方法は、他の方式で実施されてもよいことが理解されるべきである。例えば、上記の電子機器の実施例は、単に例示的なものであり、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現する際に、別の分割方法を用いてもよい。
【0110】
また、本願の各実施例における各機能ユニットは、同一の処理ユニットに集積されてもよいし、各ユニットが物理的に別々に存在してもよいし、2つ又はそれ以上のユニットが同一の処理ユニットに集積されてもよい。上記の集積されたユニットは、ハードウェアの形態で実現されてもよいし、ハードウェアとソフトウェア機能モジュールの形態で実現されてもよい。
【0111】
本願が、上記の例示的な実施例の詳細に限定されず、本願の精神又は基本的な特徴から逸脱することなく、他の具体的な形態で実施され得ることは、当業者にとって明らかである。したがって、実施例は、いかなる点からも例示的なものであり、非限定的なものであり、本願の範囲は、上記の説明よりむしろ添付の特許請求の範囲によって限定され、したがって、特許請求の範囲の均等物の意味及び範囲内に入る全ての変更は、本願に含まれることが意図される。特許請求の範囲における任意の参照符号は、関連請求項を限定するものと解釈されるべきではない。さらに、単語「含む」は他のユニットを排除せず、又は単数であっても複数を排除しないことは明らかである。システムの請求項に記載された複数のユニット又は装置は、1つのユニット又は装置がソフトウェア又はハードウェアにより実現されてもよい。第1、第2などの用語は、名称を表すために使用され、いかなる特定の順序を表しない。
【0112】
最後に、上記の実施例は、本願の技術的解決手段を説明するためのものに過ぎず、限定するためのものではなく、好ましい実施例を参照して本願を詳細に説明したが、当業者であれば、本願の技術的解決手段の精神範囲から逸脱することなく、本願の技術的解決手段に対して変更又は同等置換を行うことができることを理解すべきである。