特許7096431 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッドの特許一覧

特許7096431ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-06-27

(45)【発行日】2022-07-05

(54)【発明の名称】ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20220628BHJP

G06V 10/82 20220101ALI20220628BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

【請求項の数】 17

(21)【出願番号】P 2021521512

(86)(22)【出願日】2020-03-10

(65)【公表番号】

(43)【公表日】2022-03-31

(86)【国際出願番号】 CN2020078656

(87)【国際公開番号】W WO2021142904

(87)【国際公開日】2021-07-22

【審査請求日】2021-04-20

(31)【優先権主張番号】202010053048.4

(32)【優先日】2020-01-17

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】321006888

【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド

(74)【代理人】

【識別番号】110001427

【氏名又は名称】特許業務法人前田特許事務所

(72)【発明者】

【氏名】シャオハオ

(72)【発明者】

【氏名】リューイー

【審査官】新井則和

(56)【参考文献】

【文献】中国特許出願公開第１０８２２９２８０（ＣＮ，Ａ）

【文献】中国特許出願公開第１０８２２９５２２（ＣＮ，Ａ）

【文献】中国特許出願公開第１０４１９９９０２（ＣＮ，Ａ）

【文献】米国特許出願公開第２０１７／０２４３０５８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／００１３７９８（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－１０／９８

(57)【特許請求の範囲】

【請求項1】

ビデオ分析方法であって、
分析対象ビデオを取得することと、
所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることであって、前記第１多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、ことと、
オフセット予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、オフセット情報を得ることと、
前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得ることと、
前記所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることと、を含む、ビデオ分析方法。

【請求項2】

前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得る前に、前記方法は、
重み予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、重み情報を得ることを更に含み、
前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得ることは、
前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことと、
前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことと、
前記重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得ることと、を含むことを特徴とする
請求項１に記載のビデオ分析方法。

【請求項3】

前記第１多次元特徴マップの次元は、時系列次元及び所定の次元を含み、
前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことは、
所定の次元に従って、第１多次元特徴マップから少なくとも１組の特徴情報を選択することであって、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む、ことと、
前記オフセット情報を用いて、前記少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うことと、を含むことを特徴とする
請求項１又は２に記載のビデオ分析方法。

【請求項4】

前記所定の次元は、チャネル次元であり、及び／又は、
前記オフセット情報は、第１数のオフセット値を含み、前記少なくとも１組の特徴情報は、第１数の組の第１特徴情報を含み、
前記オフセット情報を用いて、前記少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うことは、
前記オフセット情報におけるｉ番目の前記オフセット値を用いて、第ｉ組の前記第１特徴情報に対して、前記時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得ることであって、前記ｉは、前記第１数以下の正整数である、ことを含むことを特徴とする
請求項３に記載のビデオ分析方法。

【請求項5】

前記オフセット情報におけるｉ番目の前記オフセット値を用いて、第ｉ組の前記第１特徴情報に対して、前記時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得ることは、
ｉ番目の前記オフセット値が属する数値範囲を取得することであって、前記数値範囲の上限値と下限値との差が所定の数値である、ことと、
第ｉ組の前記第１特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第ｉ組の第３特徴情報を得て、第ｉ組の前記第１特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第ｉ組の第４特徴情報を得ることと、
ｉ番目の前記オフセット値と前記下限値との差を重みとして、第ｉ組の前記第３特徴情報に対して重み付け処理を行い、第ｉ組の第１重み付け結果を得て、前記上限値と前記ｉ番目のオフセット値との差を重みとして、第ｉ組の前記第４特徴情報に対して重み付け処理を行い、第ｉ組の第２重み付け結果を得ることと、
前記第ｉ組の第１重み付け結果と第ｉ組の第２重み付け結果との和を算出して第ｉ組の前記第２特徴情報とすることと、を含むことを特徴とする
請求項４に記載のビデオ分析方法。

【請求項6】

前記分析対象ビデオは、第２数のフレームの画像を含み、前記重み情報は、第２数の重み値を含み、
前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、
オフセット後の各組の特徴情報に対して、前記重み情報におけるｊ番目の重み値をそれぞれ用いて、現在組の特徴情報におけるｊ番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることを含み、
前記ｊは、前記第２数以下の正整数であることを特徴とする
請求項３に記載のビデオ分析方法。

【請求項7】

重み付け処理後の前記特徴情報に基づいて、第２多次元特徴マップを得ることは、
前記重み付け処理後の前記特徴情報及び前記第１多次元特徴におけるオフセットされていない特徴情報を用いて、前記第２多次元特徴マップを構成することを含むことを特徴とする
請求項２から６のうちいずれか一項に記載のビデオ分析方法。

【請求項8】

重み予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、重み情報を得ることは、
前記重み予測ネットワークの第１ダウンサンプリング層を用いて、前記第１多次元特徴マップに対してダウンサンプリングを行い、第１ダウンサンプリング結果を得ることと、
前記重み予測ネットワークの第１畳み込み層を用いて、前記第１ダウンサンプリング結果に対して畳み込み処理を行い、第１特徴抽出結果を得ることと、
前記重み予測ネットワークの第１活性化層を用いて前記第１特徴抽出結果に対して非線形処理を行い、前記重み情報を得ることと、を含むことを特徴とする
請求項２から６のうちいずれか一項に記載のビデオ分析方法。

【請求項9】

オフセット予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、オフセット情報を得ることは、
前記オフセット予測ネットワークの第２ダウンサンプリング層を用いて、前記第１多次元特徴マップに対してダウンサンプリングを行い、第２ダウンサンプリング結果を得ることと、
前記オフセット予測ネットワークの第２畳み込み層を用いて、前記第２ダウンサンプリング結果に対して畳み込み処理を行い、第２特徴抽出結果を得ることと、
前記オフセット予測ネットワークの第１全結合層を用いて、前記第２特徴抽出結果に対して特徴結合を行い、第１特徴結合結果を得ることと、
前記オフセット予測ネットワークの第２活性化層を用いて、前記第１特徴結合結果に対して非線形処理を行い、非線形処理結果を得ることと、
前記オフセット予測ネットワークの第２全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第２特徴結合結果を得ることと、
前記オフセット予測ネットワークの第３活性化層を用いて前記第２特徴結合結果に対して非線形処理を行い、前記オフセット情報を得ることと、を含むことを特徴とする
請求項１から６のうちいずれか一項に記載のビデオ分析方法。

【請求項10】

前記所定のネットワークモデルは、少なくとも１つの畳み込み層を含み、所定のネットワークモデルを用いて、前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることは、
所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることと、
前記所定のネットワークモデルの畳み込み層の数が１より大きい場合、第２多次元特徴マップを得た後、且つ前記所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、前記方法は、
前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第２多次元特徴マップに対して特徴抽出を行い、新たな第１多次元特徴マップを得ることと、
オフセット予測ネットワークを用いて前記新たな第１多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第２多次元特徴マップを得ることと、
を繰り返して実行し、前記所定のネットワークモデルの全ての畳み込み層で新たな第２多次元特徴マップの特徴抽出ステップを完了するまで継続することと、を含み、
前記所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることは、
前記所定のネットワークモデルの全結合層を用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることを含むことを特徴とする
請求項１から６のうちいずれか一項に記載のビデオ分析方法。

【請求項11】

前記分析対象ビデオは、複数フレームの画像を含み、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることは、
前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得ることと、
前記複数の特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第１多次元特徴マップを得ることと、を含むことを特徴とする
請求項１から６のうちいずれか一項に記載のビデオ分析方法。

【請求項12】

ビデオ分析のためのモデル訓練方法であって、
サンプルビデオを取得することであって、前記サンプルビデオは、所定のアノテーション情報を含む、ことと、
所定のネットワークモデルを用いて前記サンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得ることであって、前記第１サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、ことと、
オフセット予測ネットワークを用いて前記第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得ることと、
前記オフセット情報を用いて前記第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２サンプルの多次元特徴マップを得ることと、
前記所定のネットワークモデルを用いて前記第２サンプルの多次元特徴マップを分析し、前記サンプルビデオの分析結果情報を得ることと、
前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出することと、
前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整することと、を含む、ビデオ分析のためのモデル訓練方法。

【請求項13】

ビデオ分析装置であって、
分析対象ビデオを取得するように構成されるビデオ取得モジュールと、
所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得るように構成される特徴抽出モジュールであって、前記第１多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、特徴抽出モジュールと、
オフセット予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、オフセット情報を得るように構成されるオフセット予測モジュールと、
前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得るように構成されるオフセット処理モジュールと、
前記所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成されるネットワーク分析モジュールと、を備える、ビデオ分析装置。

【請求項14】

ビデオ分析のためのモデル訓練装置であって、
サンプルビデオを取得ように構成されるビデオ取得モジュールであって、前記サンプルビデオは、所定のアノテーション情報を含む、ビデオ取得モジュールと、
所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得るように構成される特徴抽出モジュールであって、前記第１サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、特徴抽出モジュールと、
オフセット予測ネットワークを用いて前記第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成されるオフセット予測モジュールと、
前記オフセット情報を用いて前記第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２サンプルの多次元特徴マップを得るように構成されるオフセット処理モジュールと、
前記所定のネットワークモデルを用いて前記第２サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成されるネットワーク分析モジュールと、
前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出するように構成される損失算出モジュールと、
前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整するように構成されるパラメータ調整モジュールと、を備える、ビデオ分析のためのモデル訓練装置。

【請求項15】

電子機器であって、前記電子機器は、互いに接続されるメモリ及びプロセッサを備え、前記プロセッサは、前記メモリに記憶されたプログラム命令を実行し、請求項１から１１のうちいずれか一項に記載のビデオ分析方法を実現し、又は、請求項１２に記載のビデオ分析のためのモデル訓練方法を実現するように構成される、電子機器。

【請求項16】

コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに、請求項１から１１のうちいずれか一項に記載のビデオ分析方法を実現させ、又は、請求項１２に記載のビデオ分析のためのモデル訓練方法を実現させる、コンピュータ可読記憶媒体。

【請求項17】

コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサに、請求項１から１１のうちいずれか一項に記載のビデオ分析方法を実行させ、又は、請求項１２に記載のビデオ分析のためのモデル訓練方法を実行させる、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０２０年１月１７日に提出された出願番号が２０２０１００５３０４８．４である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

【0002】

本願は、人工知能技術分野に関し、特にビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置に関する。

【背景技術】

【0003】

ニューラルネットワーク、深層学習などの人工知能技術の成長に伴い、ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを用いて分類、検出などのタスクを遂行するという方式は、ますます注目を集めている。

【0004】

現在、ニューラルネットワークモデルは一般的には、静止画像を処理対象として設計されたものである。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本願の実施例は、ビデオ分析方法及び関連するモデル訓練方法、機器、装置を提供する。

【課題を解決するための手段】

【0006】

第１態様によれば、本願の実施例は、ビデオ分析方法を提供する。前記方法は、分析対象ビデオを取得することと、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることであって、前記第１多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、ことと、オフセット予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、オフセット情報を得ることと、前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得ることと、前記所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることと、を含む。

【0007】

本願の実施例は、所定のネットワークモデルにより、分析対象ビデオを処理することで、ビデオ分析の処理速度の向上に寄与し、且つ時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。

【0008】

本願の幾つかの選択可能な実施例において、オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得る前に、前記方法は、重み予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、重み情報を得ることを更に含み、前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２多次元特徴マップを得ることは、前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことと、前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことと、前記重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得ることと、を含む。

【0009】

本願の実施例の技術的解決手段は、オフセット、重み付け処理ステップにより、空間と時系列を互いに交錯させた特徴情報を直接得ることができ、ビデオ分析の処理速度及び正確度の向上に寄与する。

【0010】

本願の幾つかの選択可能な実施例において、前記第１多次元特徴マップの次元は、時系列次元及び所定の次元を含み、オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことは、所定の次元に従って、第１多次元特徴マップから少なくとも１組の特徴情報を選択することであって、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む、ことと、前記オフセット情報を用いて、前記少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うことと、を含む。

【0011】

本願の実施例の技術的解決手段は、所定の次元に従って第１多次元特徴マップから少なくとも１組の特徴情報を選択し、且つ各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む。また、オフセット情報を用いて、少なくとも１組の特徴情報に対して、時系列次元でオフセットを行う。従って、オフセット処理の演算量を低減させ、ビデオ分析の処理速度の向上に更に寄与する。

【0012】

本願の幾つかの選択可能な実施例において、前記所定の次元は、チャネル次元であり、及び／又は、前記オフセット情報は、第１数のオフセット値を含み、前記少なくとも１組の特徴情報は、第１数の組の第１特徴情報を含み、オフセット情報を用いて、前記少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うことは、前記オフセット情報におけるｉ番目のオフセット値を用いて、第ｉ組の第１特徴情報に対して、前記時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得ることであって、ｉは、第１数以下の正整数である、ことを含む。

【0013】

本願の実施例の技術的解決手段は、オフセット情報に含まれるオフセット値の数と同じである数の組の第１特徴情報に対してオフセット処理を行うことで、空間と時系列を互いに交錯させた特徴情報を直接得ることができ、ビデオ分析の処理速度及び正確度の向上に寄与する。

【0014】

本願の幾つかの選択可能な実施例において、オフセット情報におけるｉ番目の前記オフセット値を用いて、第ｉ組の前記第１特徴情報に対して、前記時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得ることは、ｉ番目の前記オフセット値が属する数値範囲を取得することであって、前記数値範囲の上限値と下限値との差が所定の数値である、ことと、第ｉ組の前記第１特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第ｉ組の第３特徴情報を得て、第ｉ組の前記第１特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第ｉ組の第４特徴情報を得ることと、ｉ番目の前記オフセット値と前記下限値との差を重みとして、第ｉ組の前記第３特徴情報に対して重み付け処理を行い、第ｉ組の第１重み付け結果を得て、前記上限値とｉ番目のオフセット値との差を重みとして、第ｉ組の前記第４特徴情報に対して重み付け処理を行い、第ｉ組の第２重み付け結果を得ることと、第ｉ組の第１重み付け結果と第ｉ組の第２重み付け結果との和を算出して第ｉ組の第２特徴情報とすることと、を含む。

【0015】

本願の実施例の技術的解決手段は、第１特徴情報に対してオフセット処理を容易かつ迅速に行うことができ、ビデオ分析の処理速度の向上に寄与する。

【0016】

本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、第２数のフレームの画像を含み、前記重み情報は、第２数の重み値を含み、重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、オフセット後の各組の特徴情報に対して、前記重み情報におけるｊ番目の重み値をそれぞれ用いて、現在組の特徴情報におけるｊ番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることを含み、ｊは、第２数以下の正整数である。

【0017】

本願の実施例の技術的解決手段は、オフセット後の各組の特徴情報に対して、重み情報のうちのｊ番目の重み値をそれぞれ用いて、現在組の特徴情報におけるｊ番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得る。これにより、末端の幾つかの特徴情報が移り出された場合、特徴情報を再重み付けすることができ、ビデオ分析の正確性の向上に寄与する。

【0018】

本願の幾つかの選択可能な実施例において、重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得ることは、前記重み付け処理後の前記特徴情報及び前記第１多次元特徴におけるオフセットされていない特徴情報を用いて、前記第２多次元特徴マップを構成することを含む。

【0019】

本願の実施例の技術的解決手段は、重み付け処理後の特徴情報と第１多次元特徴マップにおけるオフセットされていない特徴情報を組み合わせて第２多次元特徴情報を構成することで、演算負荷を低減させることができ、ビデオ分析の処理速度の向上に寄与する。

【0020】

本願の幾つかの選択可能な実施例において、重み予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、重み情報を得ることは、前記重み予測ネットワークの第１ダウンサンプリング層を用いて、前記第１多次元特徴マップに対してダウンサンプリングを行い、第１ダウンサンプリング結果を得ることと、前記重み予測ネットワークの第１畳み込み層を用いて、前記第１ダウンサンプリング結果に対して畳み込み処理を行い、第１特徴抽出結果を得ることと、前記重み予測ネットワークの第１活性化層を用いて前記第１特徴抽出結果に対して非線形処理を行い、重み情報を得ることと、を含む。

【0021】

本願の実施例の技術的解決手段は、第１ダウンサンプリング層、第１畳み込み層及び第１活性化層により、第１多次元特徴マップに対して段階的に層毎の処理を行うことで、重み情報を得ることができ、重み予測ネットワークのネットワーク構造を効果的に簡略化し、ネットワークパラメータを減少させることができ、ビデオ分析用モデルを訓練する時の収束速度の向上に寄与し、オーバーフィッティングの回避に寄与する。従って、ビデオ分析の正確性の向上に寄与する。

【0022】

本願の幾つかの選択可能な実施例において、オフセット予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、オフセット情報を得ることは、前記オフセット予測ネットワークの第２ダウンサンプリング層を用いて、前記第１多次元特徴マップに対してダウンサンプリングを行い、第２ダウンサンプリング結果を得ることと、前記オフセット予測ネットワークの第２畳み込み層を用いて、前記第２ダウンサンプリング結果に対して畳み込み処理を行い、第２特徴抽出結果を得ることと、前記オフセット予測ネットワークの第１全結合層を用いて、前記第２特徴抽出結果に対して特徴結合を行い、第１特徴結合結果を得ることと、前記オフセット予測ネットワークの第２活性化層を用いて、前記第１特徴結合結果に対して非線形処理を行い、非線形処理結果を得ることと、前記オフセット予測ネットワークの第２全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第２特徴結合結果を得ることと、前記オフセット予測ネットワークの第３活性化層を用いて前記第２特徴結合結果に対して非線形処理を行い、オフセット情報を得ることと、を含む。

【0023】

本願の技術的解決手段は、オフセット予測ネットワークのネットワーク構造を効果的に簡略化し、ネットワークパラメータを減少させることができ、ビデオ分析用モデルを訓練する時の収束速度の向上に寄与し、オーバーフィッティングの回避に寄与する。従って、ビデオ分析の正確性の向上に寄与する。

【0024】

本願の幾つかの選択可能な実施例において、前記所定のネットワークモデルは、少なくとも１つの畳み込み層を含み、所定のネットワークモデルを用いて、分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることは、所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることと、前記所定のネットワークモデルの畳み込み層の数が１より大きい場合、第２多次元特徴マップを得た後、所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、前記方法は、前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第２多次元特徴マップに対して特徴抽出を行い、新たな第１多次元特徴マップを得ることと、オフセット予測ネットワークを用いて前記新たな第１多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第２多次元特徴マップを得ることと、を繰り返して実行し、前記所定のネットワークモデルの全ての畳み込み層で新たな第２多次元特徴マップの特徴抽出ステップを完了するまで継続することと、を含み、前記所定のネットワークモデルを用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることは、前記所定のネットワークモデルの全結合層を用いて前記第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることを含む。

【0025】

本願の実施例の技術的解決手段は、所定のネットワークモデルに含まれる畳み込み層の数が１より大きい場合、所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて第２多次元特徴マップに対して特徴抽出を行い、新たな第１多次元特徴マップを得て、オフセット予測などのステップを再実行し、所定のネットワークモデルにおける全ての畳み込み層で新たな第２多次元特徴マップの特徴抽出ステップを完了するまで継続する。これにより、所定のネットワークモデルの全結合層を用いて第２多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。更に、ビデオ分析の正確性を向上させることができる。

【0026】

本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、複数フレームの画像を含み、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることは、前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得ることと、前記複数の特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第１多次元特徴マップを得ることと、を含む。

【0027】

本願の実施例の技術的解決手段は、所定のネットワークモデルにより、分析対象ビデオの複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得る。これにより、複数の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って直接連結し、第１多次元特徴マップを得る。分析対象ビデオに対する特徴抽出の処理負荷を低減させることができ、ビデオ分析の処理速度の向上に寄与する。

【0028】

第２態様によれば、本願の実施例は、ビデオ分析のためのモデル訓練方法を提供する。該方法は、サンプルビデオを取得することであって、前記サンプルビデオは、所定のアノテーション情報を含む、ことと、所定のネットワークモデルを用いて前記サンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得ることであって、前記第１サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、ことと、オフセット予測ネットワークを用いて前記第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得ることと、前記オフセット情報を用いて前記第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第２サンプルの多次元特徴マップを得ることと、前記所定のネットワークモデルを用いて前記第２サンプルの多次元特徴マップを分析し、前記サンプルビデオの分析結果情報を得ることと、前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出することと、前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整することと、を含む。

【0029】

本願の実施例の技術的解決手段は、サンプルビデオの時系列情報に対してモデリングを直接行うことができ、モデル訓練時の速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、後続で、ビデオ分析の正確度の向上に寄与する。

【0030】

第３態様によれば、本願の実施例は、ビデオ分析装置を提供する。該装置は、ビデオ取得モジュールと、特徴抽出モジュールと、オフセット予測モジュールと、オフセット処理モジュールと、ネットワーク分析モジュールと、を備え、前記ビデオ取得モジュールは、分析対象ビデオを取得するように構成され、前記特徴抽出モジュールは、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得るように構成され、第１多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含み、前記オフセット予測モジュールは、オフセット予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、前記オフセット処理モジュールは、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２多次元特徴マップを得るように構成され、前記ネットワーク分析モジュールは、所定のネットワークモデルを用いて第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。

【0031】

本願の幾つかの選択可能な実施例において、前記装置は、重み予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、重み情報を得るように構成される重み予測モジュールを更に備え、前記オフセット処理モジュールは、前記オフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行い、前記重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得るように構成される。

【0032】

本願の幾つかの選択可能な実施例において、前記第１多次元特徴マップの次元は、時系列次元及び所定の次元を含み、
前記オフセット処理モジュールは、所定の次元に従って、第１多次元特徴マップから少なくとも１組の特徴情報を選択し、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含み、前記オフセット情報を用いて、前記少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うように構成される。

【0033】

本願の幾つかの選択可能な実施例において、前記所定の次元は、チャネル次元であり、及び／又は、
前記オフセット情報は、第１数のオフセット値を含み、前記少なくとも１組の特徴情報は、第１数の組の第１特徴情報を含み、
前記オフセット処理モジュールは、前記オフセット情報におけるｉ番目の前記オフセット値を用いて、第ｉ組の前記第１特徴情報に対して、前記時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得るように構成され、前記ｉは、第１数以下の正整数である。

【0034】

本願の幾つかの選択可能な実施例において、前記オフセット処理モジュールは、ｉ番目の前記オフセット値が属する数値範囲を取得し、前記数値範囲の上限値と下限値との差が所定の数値であり、第ｉ組の前記第１特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第ｉ組の第３特徴情報を得て、第ｉ組の前記第１特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第ｉ組の第４特徴情報を得て、ｉ番目の前記オフセット値と前記下限値との差を重みとして、第ｉ組の前記第３特徴情報に対して重み付け処理を行い、第ｉ組の第１重み付け結果を得て、前記上限値と前記ｉ番目のオフセット値との差を重みとして、第ｉ組の前記第４特徴情報に対して重み付け処理を行い、第ｉ組の第２重み付け結果を得て、前記第ｉ組の第１重み付け結果と第ｉ組の第２重み付け結果との和を算出して第ｉ組の前記第２特徴情報とするように構成される。

【0035】

本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、第２数のフレームの画像を含み、前記重み情報は、第２数の重み値を含み、前記オフセット処理モジュールは、オフセット後の各組の特徴情報に対して、前記重み情報におけるｊ番目の重み値をそれぞれ用いて、現在組の特徴情報におけるｊ番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得るように構成され、前記ｊは、前記第２数以下の正整数である。

【0036】

本願の幾つかの選択可能な実施例において、前記オフセット処理モジュールは、前記重み付け処理後の前記特徴情報及び前記第１多次元特徴におけるオフセットされていない特徴情報を用いて、前記第２多次元特徴マップを構成するように構成される。

【0037】

本願の幾つかの選択可能な実施例において、前記重み予測モジュールは、前記重み予測ネットワークの第１ダウンサンプリング層を用いて、前記第１多次元特徴マップに対してダウンサンプリングを行い、第１ダウンサンプリング結果を得て、前記重み予測ネットワークの第１畳み込み層を用いて、前記第１ダウンサンプリング結果に対して畳み込み処理を行い、第１特徴抽出結果を得て、前記重み予測ネットワークの第１活性化層を用いて前記第１特徴抽出結果に対して非線形処理を行い、前記重み情報を得るように構成される。

【0038】

本願の幾つかの選択可能な実施例において、前記オフセット予測モジュールは、前記オフセット予測ネットワークの第２ダウンサンプリング層を用いて、前記第１多次元特徴マップに対してダウンサンプリングを行い、第２ダウンサンプリング結果を得て、前記オフセット予測ネットワークの第２畳み込み層を用いて、前記第２ダウンサンプリング結果に対して畳み込み処理を行い、第２特徴抽出結果を得て、前記オフセット予測ネットワークの第１全結合層を用いて、前記第２特徴抽出結果に対して特徴結合を行い、第１特徴結合結果を得て、前記オフセット予測ネットワークの第２活性化層を用いて、前記第１特徴結合結果に対して非線形処理を行い、非線形処理結果を得て、前記オフセット予測ネットワークの第２全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第２特徴結合結果を得て、前記オフセット予測ネットワークの第３活性化層を用いて前記第２特徴結合結果に対して非線形処理を行い、前記オフセット情報を得るように構成される。

【0039】

本願の幾つかの選択可能な実施例において、前記所定のネットワークモデルは、少なくとも１つの畳み込み層を含み、前記特徴抽出モジュールは、所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得るように構成され、前記所定のネットワークモデルの畳み込み層の数が１より大きい場合、更に、前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第２多次元特徴マップに対して特徴抽出を行い、新たな第１多次元特徴マップを得るように構成され、前記オフセット予測モジュールは更に、オフセット予測ネットワークを用いて前記新たな第１多次元特徴マップに対して予測を行い、新たなオフセット情報を得るように構成され、前記オフセット処理モジュールは更に、前記新たなオフセット情報を用いて前記第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて、新たな第２多次元特徴マップを得るように構成され、前記ネットワーク分析モジュールは更に、前記所定のネットワークモデルの全結合層を用いて前記新たな第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。

【0040】

本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、複数フレームの画像を含み、前記特徴抽出モジュールは、前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、前記複数の前記特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第１多次元特徴マップを得るように構成される。

【0041】

第４態様によれば、本願の実施例は、ビデオ分析のためのモデル訓練装置を提供する。該モデル訓練装置は、ビデオ取得モジュールと、特徴抽出モジュールと、オフセット予測モジュールと、オフセット処理モジュールと、ネットワーク分析モジュールと、損失算出モジュールと、パラメータ調整モジュールと、を備え、前記ビデオ取得モジュールは、サンプルビデオを取得ように構成され、サンプルビデオは、所定のアノテーション情報を含み、前記特徴抽出モジュールは、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得るように構成され、第１サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、前記オフセット予測モジュールは、オフセット予測ネットワークを用いて第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、前記オフセット処理モジュールは、オフセット情報を用いて第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２サンプルの多次元特徴マップを得るように構成され、前記ネットワーク分析モジュールは、所定のネットワークモデルを用いて第２サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成され、前記損失算出モジュールは、所定のアノテーション情報及び分析結果情報を用いて損失値を算出するように構成され、パラメータ調整モジュールは、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整するように構成される。

【0042】

第５態様によれば、本願の実施例は、電子機器を提供する。前記電子機器は、互いに接続されるメモリ及びプロセッサを備え、プロセッサは、メモリに記憶されたプログラム命令を実行し、本願の実施例の上記第１態様におけるビデオ分析方法を実現させ、又は、本願の実施例の上記第２態様におけるビデオ分析のためのモデル訓練方法を実現させるように構成される。

【0043】

第６態様によれば、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行される時、本願の実施例の上記第１態様におけるビデオ分析方法を実現させ、又は、本願の実施例の上記第２態様におけるビデオ分析のためのモデル訓練方法を実現させる。

【0044】

第７態様によれば、本願の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、本願の実施例の上記第１態様におけるビデオ分析方法を実行し、又は、本願の実施例の上記第２態様におけるビデオ分析のためのモデル訓練方法を実行する。

【発明の効果】

【0045】

本願の実施例の技術的解決手段は、分析対象ビデオの時系列情報に対してモデリングを直接行うことができ、ビデオ分析の処理速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。

【図面の簡単な説明】

【0046】

【図1】本願のビデオ分析方法の一実施例を示すフローチャートである。

【図2】ビデオ分析処理プロセスの一実施例を示す概略図である。

【図3】ビデオ分析の各段階の一実施例を示す概略図である。

【図4】図１におけるステップＳ１４の一実施例を示すフローチャートである。

【図5】本願のビデオ分析方法のもう１つの実施例を示すフローチャートである。

【図6】ビデオ分析処理プロセスのもう１つの実施例を示す概略図である。

【図7】本願のビデオ分析のためのモデル訓練方法の一実施例を示すフローチャートである。

【図8】本願のビデオ分析装置の一実施例を示すブロック図である。

【図9】本願のビデオ分析のためのモデル訓練装置の一実施例を示すブロック図である。

【図10】本願の電子機器の一実施例を示すブロック図である。

【図11】本願のコンピュータ可読記憶媒体の一実施例を示すブロック図である。

【発明を実施するための形態】

【0047】

以下、明細書の図面を参照しながら、本願の実施例の技術的解決手段を詳しく説明する。

【0048】

以下の記述において、本願を完全に理解させるために、制限ではなく説明の目的で、特定のシステム構造や、インタフェース、技術のような具体的な細部を提供する。

【0049】

本明細書において、「システム」と「ネットワーク」は相互交換可能に用いられる。本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、文字「／」は一般的には、前後関連対象が「又は」という関係であることを示す。また、本明細書における「複数」は、２つ又は２つより多いことを表す。

【0050】

図１を参照すると、図１は、本願のビデオ分析方法の一実施例を示すフローチャートである。本願のビデオ分析方法は具体的には、マイクロコンピュータ、サーバ、タブレットなどの、処理機能を持つ電子機器により実行されてもよく、又は、プロセッサによりプログラムコードを実行することで実現してもよい。具体的には、下記ステップを含んでもよい。

【0051】

ステップＳ１１において、分析対象ビデオを取得する。

【0052】

本願の実施例において、分析対象ビデオは、複数フレームの画像を含んでもよい。例えば、分析対象ビデオは、８フレームの画像を含む。又は、分析対象ビデオは、１６フレームの画像を含む。又は、分析対象ビデオは、２４フレームの画像を含む。ここで、具体的に限定しない。１つの実施シーンにおいて、分析対象ビデオは、監視カメラにより撮られた監視ビデオであってもよく、それによって、監視ビデオにおけるターゲット対象に対して行為分析を行う。例えば、ターゲット対象の転倒、ターゲット対象の通常の歩行などを分析する。もう１つの実施シーンにおいて、分析対象ビデオは、ビデオライブラリにおけるビデオであってもよく、それによって、ビデオライブラリにおけるビデオを分類する。例えば、サッカー競技ビデオ、バスケットボール競技ビデオ、スキー競技ビデオなどに対して分類を行う。

【0053】

ステップＳ１２において、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得る。

【0054】

１つの具体的な実施シーンにおいて、ネットワークパラメータを更に減少させ、処理負荷を低減させ、処理速度を向上させ、訓練時の収束速度を向上させ、オーバーフィッティングを回避するために、上記所定のネットワークモデルは、例えば、ＲｅｓＮｅｔ－５０、ＲｅｓＮｅｔ－１０１等のような二次元ニューラルネットワークモデルであってもよく、ここで、具体的に限定しない。ＲｅｓＮｅｔネットワークは、残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋ）により構築され、複数のパラメータあり層を用いて入力と出力との残差を学習する。

【0055】

本願の実施例において、第１多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含む。図２を参照すると、図２は、ビデオ分析処理プロセスの一実施例を示す概略図である。図２に示すように、横座標は、時系列次元Ｔにおける異なる時系列を表し、異なる時系列に対応する格子は、異なる時系列における特徴情報を表す。

【0056】

１つの実施シーンにおいて、分析対象ビデオは、複数フレームの画像を含む。分析対象ビデオの特徴抽出の処理負荷を低減させ、ビデオ分析の処理速度を向上させるために、所定のネットワークモデルにより、分析対象ビデオの複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、複数の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って連結し、第１多次元特徴マップを得ることができる。例えば、分析対象ビデオは、８フレームの画像を含む場合、所定のネットワークモデルを用いて該８フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像の特徴マップを得て、８枚の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って連結し、第１多次元特徴マップを得ることができる。

【0057】

ステップＳ１３において、オフセット予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、オフセット情報を得る。

【0058】

ビデオは、普通の静止画像と異なり、通常、ターゲット対象の行為動作をより注目している。ビデオの内在的時系列におけるセマンティクスをよりよく取得するために、ビデオにおける時間情報と空間情報を整合することができる。従って、本願の実施例において、オフセット予測ネットワークを用いて予測を行い、オフセット情報を得て、後続で、該オフセット情報に基づいて時系列オフセットを行い、時間情報と空間の整合を遂行する。オフセット予測ネットワークは具体的には、所定のネットワークモデルであってもよい。これにより、該所定のネットワークモデルにより、第１多次元特徴マップに対して予測を行い、オフセット情報を直接得ることができる。

【0059】

１つの実施シーンにおいて、オフセット予測ネットワークは、順に接続されるダウンサンプリング層、畳み込み層、全結合層、活性化層、全結合層及び活性化層を含んでもよい。従って、オフセット予測ネットワークは、５層のみを含み、且つ、その畳み込み層及び全結合層のみはネットワークパラメータを含む場合、ネットワーク構造をある程度で簡略化し、ネットワークパラメータを減少させることができる。これにより、ネットワーク容量を低減させ、更に収束速度を向上させ、オーバーフィッティングを回避し、訓練により得られたモデルをできる限り正確にし、更にビデオ分析の正確性を向上させることができる。

【0060】

例示的に、オフセット予測ネットワークのダウンサンプリング層（第２ダウンサンプリング層と記す）を用いて、第１多次元特徴マップに対してダウンサンプリングを行い、ダウンサンプリング結果（第２ダウンサンプリング結果と記す）を得ることができる。１つの具体的な実施シーンにおいて、ダウンサンプリング層は具体的には、平均プーリング層であってもよく、第１多次元特徴マップの次元は、時系列次元及び所定の次元（例えば、チャネル次元）を含む。従って、第１多次元特徴マップに対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることは、以下で表されてもよい。

（１）

【0061】

上記式において、

はそれぞれ、多次元にける時系列次元及び多次元における所定の次元（所定の次元は例えば、チャネル次元であってもよい）を表し、

は、ダウンサンプリング結果における

番目の要素を表し、

はそれぞれ、特徴マップの高さ及び幅を表し、

は、第１多次元特徴マップにおける

番目の要素を表す。

【0062】

更に、オフセット予測ネットワークの畳み込み層（第２畳み込み層と記す）を用いて、ダウンサンプリング結果（即ち、第２ダウンサンプリング結果）に対して畳み込み処理を行い、特徴抽出結果（第２特徴抽出結果と記す）を得ることができる。オフセット予測ネットワークの畳み込み層は具体的には、数が分析対象ビデオのフレーム数と同じである畳み込みカーネルを含んでもよく、畳み込みカーネルのサイズは、例えば３＊３であってもよい。

【0063】

更に、オフセット予測ネットワークの１番目の全結合層（第１全結合層と記す）を用いて、特徴抽出結果（即ち、第２特徴抽出結果）に対して特徴結合を行い、特徴結合結果（第１特徴結合結果と記す）を得る。ここで、オフセット予測ネットワークの１番目の全結合層は、数が分析対象ビデオのフレーム数と同じであるニューロンを含んでもよい。

【0064】

更に、オフセット予測ネットワークの１番目の活性化層（第２活性化層と記す）を用いて、特徴結合結果（即ち、第１特徴結合結果）に対して非線形処理を行い、非線形処理結果を得る。ここで、オフセット予測ネットワークの１番目の活性化層は、正規化線形関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ：ＲｅＬＵ）活性化層であってもよい。

【0065】

更に、オフセット予測ネットワークの２番目の全結合層（第２全結合層と記す）を用いて、非線形処理結果に対して特徴結合を行い、特徴結合結果（第２特徴結合結果と記す）を得る。更に、オフセット予測ネットワークの２番目の活性化層（第３活性化層と記す）を用いて、特徴結合結果（即ち、第２特徴結合結果）に対して非線形処理を行い、オフセット情報を得る。ここで、オフセット予測ネットワークの２番目の活性化層は、Ｓｉｇｍｏｉｄ活性化層であってもよい。これにより、オフセット情報における各要素を０から１の間に制限することができる。

【0066】

上記処理プロセスは具体的には、以下で表されてもよい。

（２）

【0067】

上記式において、

は、ダウンサンプリング結果を表し、

は、オフセット予測ネットワークの畳み込み層を表し、

は、オフセット予測ネットワークの１番目の全結合層を表し、

は、オフセット予測ネットワークの１番目の活性化層を表し、

は、オフセット予測ネットワークの２番目の全結合層を表し、

は、オフセット予測ネットワークの２番目の活性化層を表し、

は、オフセット情報を表す。

【0068】

もう１つの実施シーンにおいて、モデルの安定性及び性能を向上させるために、上記２番目の活性化層を用いて処理を行うことで得られたオフセット情報を制限処理し、オフセット情報における各要素を

に制限することもできる。ここで、Ｔは、分析対象ビデオのフレーム数を表す。具体的には、オフセット予測ネットワークの２番目の活性化層を用いて特徴結合結果に対して非線形処理を行うことで得られたオフセット情報における各要素から０．５をそれぞれ減算し、０．５を減算した後に得られた差に分析対象ビデオのフレーム数を乗算し、制限処理されたオフセット情報を得ることができる。上記制限処理は具体的には、以下で表されてもよい。

（３）

【0069】

上記式において、

は、２番目の活性化層により処理を行うことで得られたオフセット情報を表し、

は、分析対象ビデオのフレーム数を表し、

は、

に制限されたオフセット情報を表す。

【0070】

ステップＳ１４において、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２多次元特徴マップを得る。

【0071】

１つの実施シーンにおいて、少なくとも一部の特徴情報における、異なる時系列に対応する情報をオフセットし、時間情報と空間情報を整合し、ビデオ分析の正確性を向上させるために、少なくとも一部の特徴情報は具体的には、所定の次元（例えば、チャネル次元）に沿って分割を行うことで得られたものであってもよい。図２に示すように、処理負荷を更に低減させるために、第１多次元特徴マップのチャネル次元におけるチャネル数は、

であり、チャネル次元における上記少なくとも一部の特徴情報のチャネル数は、

である。また、オフセット情報を用いて第１多次元特徴マップの全ての特徴情報に対して時系列オフセットを行うこともでき、ここで限定しない。

【0072】

１つの実施シーンにおいて、オフセット情報の演算量を低減させ、ビデオ分析の処理速度を向上させるために、所定の次元（例えば、チャネル次元）に従って、第１多次元特徴マップから少なくとも１組の特徴情報を選択する。ここで、各組の特徴情報は、同一の所定の次元（例えば、チャネル次元）における異なる時系列に対応する特徴情報を含む。前記オフセット情報を用いて前記少なくとも１組の特徴情報に対して時系列次元でオフセットを行う。この場合、オフセット予測ネットワークの２番目の全結合層は、数が選択された特徴情報の組数と同じであるニューロンを含んでもよい。従って、オフセット情報における要素の数は、選択された特徴情報の組数と同じである。更に、オフセット情報における各要素を用いて、少なくとも１組の特徴情報に対して時系列次元でそれぞれオフセットを行うことができる。例えば、時系列次元で１つの時系列単位でオフセットし、又は、時系列次元で２つの時系列単位でオフセットし、ここで、具体的に限定しない。

【0073】

オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行った後、時系列オフセット後の少なくとも一部の特徴情報と第１多次元特徴マップにおける時系列オフセットされていない一部の特徴情報とを連結し、第２多次元特徴マップを得ることができる。１つの具体的な実施シーンにおいて、図２を参照すると、チャネル数が

である少なくとも一部の特徴情報に対して時系列オフセットを行うことで得られた特徴情報と時系列オフセットされていない、チャネル数が

である一部の特徴情報とを連結し、第２多次元特徴マップを得ることができる。

【0074】

ステップＳ１５において、所定のネットワークモデルを用いて第２多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。

【0075】

１つの実施シーンにおいて、所定のネットワークモデルの全結合層を用いて第２多次元特徴マップに対して特徴結合を行い、所定のネットワークモデルのｓｏｆｔｍａｘ層を用いて回帰を行い、分析対象ビデオが属するカテゴリ（例えば、サッカー競技ビデオ、スキー競技ビデオなど）を得ることができ、又は、分析対象ビデオにおけるターゲット対象の行為カテゴリ（例えば、通常の歩行、転倒、走りなど）を得ることもできる。他の適用シーンは、このように類推してもよい。ここで、枚挙しない。

【0076】

１つの実施シーンにおいて、処理しやすくするために、上記オフセット予測ネットワークは、所定のネットワークモデルの畳み込み層の前に埋め込まれてもよい。例えば、所定のネットワークモデルは、ＲｅｓＮｅｔ－５０であり、オフセット予測ネットワークは、各残差ブロックにおける畳み込み層の前に埋め込まれてもよい。

【0077】

１つの実施シーンにおいて、所定のネットワークモデルは、少なくとも１つの畳み込み層を含んでもよい。これにより、特徴抽出プロセスにおいて、所定のネットワークモデルの１つの畳み込み層を用いて分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得ることができる。

【0078】

１つの実施シーンにおいて、ビデオ分析の正確性を向上させるために、所定のネットワークモデルの畳み込み層の数は、１より大きくてもよい。例えば、所定のネットワークモデルの畳み込み層の数は、２個、３個又は４個などであってもよい。従って、第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、所定のネットワークモデルにおける特徴抽出を実行していない畳み込み層を用いて、第２多次元特徴マップに対して特徴抽出を行い、新たな第１多次元特徴マップを得ることもでき、ここで、新たな第１多次元特徴マップは、時系列次元で次元を不変のまま保持してもよい。更に、オフセット予測ネットワークを用いて新たな第１多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第２多次元特徴マップを得、上記ステップを繰り返して実行し、所定のネットワークモデルの全ての畳み込み層で新たな第２多次元特徴マップの特徴抽出ステップを完了するまで継続する。更に、所定のネットワークモデルの全結合層を用いて、最後に得られた第２多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。

【0079】

図３を参照すると、図３は、ビデオ分析の各段階の一実施例を示す概略図である。所定のネットワークモデルが３つの畳み込み層を含むことを例として、所定のネットワークモデルの１番目の畳み込み層により、分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得た後、上記の関係するステップにより、時系列オフセットを行い、第２多次元特徴マップを得る。所定のネットワークモデルの全結合層を用いて分析処理を行う前に、更に、該第２多次元特徴マップを２番目の畳み込み層に入力して特徴抽出を行い、新たな第１多次元特徴マップ（図面において第１多次元特徴マップと記する）を得て、上記の関係するステップにより、新たな第１多次元特徴マップに対して時系列オフセットを行い、新たな第２多次元特徴マップ（図面において第２多次元特徴マップと記す）を得ることできる。同様に、３番目の畳み込み層を用いて該新たな第２多次元特徴マップに対して特徴抽出を行い、また１つの新たな第１多次元特徴マップ（図面において第１多次元特徴マップと記する）を得て、上記の関係するステップにより、新たな第１多次元特徴マップに対して時系列オフセットを行い、新たな第２多次元特徴マップ（図面において第２多次元特徴マップと記する）を得る。この時、所定のネットワークモデルの３つの畳み込み層はいずれも、特徴抽出ステップを完了しており、所定のネットワークモデルの全結合層を用いて、新たに得られた第２多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得ることができる。勿論、他の実施例において、演算量を減少させるために、一部の畳み込み層の後ろだけに、時系列オフセットというステップを追加してもよい。

【0080】

上記技術的解決手段において、分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得る。第１多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含む。また、オフセット予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、オフセット情報を得る。これにより、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて、第２多次元特徴マップを得る。更に、分析対象ビデオの時系列情報に対してモデリングを直接行うことができ、ビデオ分析の処理速度の向上に寄与し、且つ時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。

【0081】

図４を参照すると、図４は、図１におけるステップＳ１４の一実施例を示すフローチャートである。本願の実施例において、オフセット情報は、第１数のオフセット値を含む。第１多次元特徴マップの少なくとも一部を所定の次元（例えば、チャネル次元）に沿って第１数の組の第１特徴情報に分割することもできる。つまり、前記少なくとも１組の特徴情報は、第１数の組の第１特徴情報を含む。この場合、前記オフセット情報を用いて、前記少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うことは、オフセット情報におけるｉ番目のオフセット値を用いて、第ｉ組の第１特徴情報に対して、時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得ることであって、ｉは、第１数以下の正整数である、ことを含む。

【0082】

図２を参照すると、第１多次元特徴マップの少なくとも一部は、２組の第１特徴情報を含み、この場合、オフセット情報における１番目のオフセット値を用いて、第１組の第１特徴情報に対して、時系列次元でオフセットを行い、第１組の第２特徴情報を得て、オフセット情報における２番目のオフセット値を用いて、第２組の第１特徴情報に対して、時系列次元でオフセットを行い、第２組の第２特徴情報を得ることができる。上記第１数が他の数値である場合、このように類推することができ、ここで枚挙しない。

【0083】

具体的には、前記オフセット情報におけるｉ番目の前記オフセット値を用いて、第ｉ組の前記第１特徴情報に対して、前記時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得ることは、下記ステップを含んでもよい。

【0084】

ステップＳ１４１において、ｉ番目のオフセット値が属する数値範囲を取得し、数値範囲の上限値と下限値との差が所定の数値である。

【0085】

１つの実施シーンにおいて、所定の数値は、１であってもよい。数値範囲の下限値は、ｉ番目のオフセット値を切り捨てることで得られた数値であり、数値の上限値は、ｉ番目のオフセット値を切り上げることで得られた数値である。つまり、ｉ番目のオフセット値

は、その数値範囲が、

で表されてもよく、且つ

である。例えば、オフセット値が０．８である場合、その数値範囲は、０から１である。又は、オフセット値が１．４である場合、その数値範囲は、１から２である。オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。上記方式により、オフセット値が小数である場合、後続の時系列オフセットの処理プロセスを簡略化することができる。

【0086】

ステップＳ１４２において、第ｉ組の第１特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットし、第ｉ組の第３特徴情報を得て、第ｉ組の第１特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットし、第ｉ組の第４特徴情報を得る。

【0087】

本願の実施例において、第ｉ組の第１特徴情報は、

で表されてもよく、ｉ番目のオフセット値の数値範囲が

で表される場合、第ｉ組の第１特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットすることで得られた第ｉ組の第３特徴情報は、

で表されてもよい。第ｉ組の第１特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットすることで得られた第ｉ組の第４特徴情報は、

で表されてもよい。

【0088】

１つの具体的な実施シーンにおいて、各オフセット値は、小数である可能性がある。例えば、各オフセット値の数値範囲は０から１である。つまり、上記上限値は１であり、下限値は０であり、所定の数値は１であり、従って、第ｉ組の第１特徴情報

にとって、対応する第３特徴情報は、

で表されてもよく、対応する第４特徴情報は、

で表されてもよい。また、時系列次元での、第１特徴情報の範囲は、

である。ここで、Ｔの値は、分析対象ビデオのフレーム数に等しい。例えば、第１特徴情報

のＴは、８であり、第１特徴情報は、時系列オフセット過程において特徴情報が移り出されたことによりゼロベクトルに変わる可能性があり、それによって訓練過程において勾配消失の場合があり、該問題を軽減するために、時系列オフセット後に

時系列区間及び

時系列区間にある特徴情報のために、バッファ領域を設けることができる。これにより、特徴情報は時系列でＴ＋１時刻からオフセットされるか又は０時刻未満である場合、バッファ領域を０に固定することができる。例えば、第１特徴情報

が

であることを例として、ｉ番目のオフセット値が０．４である場合、それが属する数値範囲が０から１であるため、第１特徴情報を上限値個（即ち、１個）の時系列単位でオフセットし、対応する第３特徴情報

を得て、上記第１特徴情報を下限値個（即ち、０個）の時系列単位でオフセットし、対応する第４特徴情報

を得る。第１特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。

【0089】

ステップＳ１４３において、ｉ番目のオフセット値と下限値との差を重みとして、第ｉ組の第３特徴情報に対して重み付け処理を行い、第ｉ組の第１重み付け結果を得て、上限値とｉ番目のオフセット値との差を重みとして、第ｉ組の第４特徴情報に対して重み付け処理を行い、第ｉ組の第２重み付け結果を得る。

【0090】

ｉ番目のオフセット値が

で表されることを例として、ｉ番目のオフセット値の数値範囲が

で表される時、ｉ番目のオフセット値

と下限値（即ち、

）との差（即ち、

）を重みとして、第ｉ組の第３特徴情報（即ち、

）に対して重み付け処理を行い、対応する第１重み付け結果（即ち、

）を得て、上限値（即ち、

）とｉ番目のオフセット値

との差（即ち、

）を重みとして、第ｉ組の第４特徴情報（

）に対して重み付け処理を行い、対応する第２重み付け結果（即ち、

）を得る。

【0091】

１つの具体的な実施シーンにおいて、各オフセット値は、小数である可能性がある。例えば、各オフセット値の数値範囲は、０から１である。つまり、上記上限値は、１であり、下限値は、０であり、所定の数値は、１である。従って、第１特徴情報

にとって、対応する第３特徴情報は、

で表されてもよく、対応する第４特徴情報は、

で表されてもよい。これにより、第１重み付け結果は、

で表されてもよく、第２重み付け結果は、

で表されてもよい。同じく第１特徴情報

が一次元ベクトル

で表されることを例として、ｉ番目のオフセット値が０．４である場合、対応する第３特徴情報は、

で表されてもよく、対応する第４特徴情報は、

で表されてもよい。従って、第１重み付け結果は、

で表されてもよく、第２重み付け結果は、

で表されてもよい。第１特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。

【0092】

ステップＳ１４４において、第ｉ組の第１重み付け結果と第ｉ組の第２重み付け結果との和を算出して第ｉ組の第２特徴情報とする。

【0093】

ｉ番目のオフセット値が

で表されることを例として、第１重み付け結果は、

で表されてもよく、第２重み付け結果は、

で表されてもよい。従って、第ｉ組の第２特徴情報は、

で表されてもよい。

【0094】

にとって、第１重み付け結果は、

で表されてもよく、第２重み付け結果は、

で表されてもよい。従って、第ｉ組の第２特徴情報は、

で表されてもよい。依然として第１特徴情報

が一次元ベクトル

で表されることを例として、ｉ番目のオフセット値が０．４である場合、対応する第１重み付け結果は、

で表されてもよく、対応する第２重み付け結果は、

で表されてもよい。従って、第ｉ組の第２特徴情報は、

で表されてもよい。第１特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。

【0095】

また、１つの実施シーンにおいて、組を単位として各組の第１特徴情報に対して時系列オフセットを行う。従って、訓練時、対称性オフセットのポリシーを用いることができる。つまり、訓練時、半分のオフセット値のみを訓練し、変換演算（例えば、逆順にする）を行い、残りの半分のオフセット値を得る。これにより、訓練時の処理負荷を軽減することができる。

【0096】

上述した実施例と異なっており、ｉ番目の前記オフセット値が属する数値範囲を取得し、該数値範囲の上限値と下限値との差が所定の数値であり、第ｉ組の第１特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットし、第ｉ組の第３特徴情報を得て、第ｉ組の第１特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットし、第ｉ組の第４特徴情報を得て、ｉ番目のオフセット値と下限値との差を重みとして、第ｉ組の第１特徴情報に対して重み付け処理を行い、第ｉ組の第１重み付け結果を得て、上限値とｉ番目のオフセット値との差を重みとして、第ｉ組の第４特徴情報に対して重み付け処理を行い、第ｉ組の第２重み付け結果を得て、第ｉ組の第１重み付け結果と第ｉ組の第２重み付け結果との和を算出して第ｉ組の第２特徴情報とすることにより、第１特徴情報に対してオフセット処理を容易かつ迅速に行うことができ、ビデオ分析の処理速度の向上に寄与する。

【0097】

図５を参照すると、図５は、本願のビデオ分析方法のもう１つの実施例を示すブローチャートである。具体的には、下記ステップを含んでもよい。

【0098】

ステップＳ５１において、分析対象ビデオを取得する。

【0099】

具体的には、上述した実施例における関連ステップを参照することができる。

【0100】

ステップＳ５２において、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得る。

【0101】

本願の実施例において、第１多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含む。具体的には、上述した実施例における関連ステップを参照することができる。

【0102】

ステップＳ５３において、オフセット予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、オフセット情報を得る。

【0103】

図６を参照すると、図６は、ビデオ分析処理プロセスのもう１つの実施例を示す概略図である。図６に示すように、第１多次元特徴マップは、オフセット予測ネットワークにより予測されてもよい。具体的には、上述した実施例における関連ステップを参照することができる。

【0104】

ステップＳ５４において、重み予測ネットワークを用いて、第１多次元特徴マップに対して予測を行い、重み情報を得る。

【0105】

時系列オフセットプロセスにおいて、第１特徴情報の両端の特徴は移り出される可能性がある。従って、時系列オフセットされた第１特徴情報における各特徴の重要度を再評価して長範囲情報をより好適に取得するために、アテンションメカニズムを用いて、時系列オフセットされた第１特徴情報における各特徴を再重み付け処理することができる。従って、重み情報を取得する必要がある。引き続き図６を参照すると、重み予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、重み情報を得ることができる。

【0106】

１つの実施シーンにおいて、重み予測ネットワークは、順に接続されるダウンサンプリング層、畳み込み層及び活性化層を含んでもよい。従って、重み予測ネットワークは、３層のみを含み、且つ、その畳み込み層のみはネットワークパラメータを含む場合、ネットワーク構造をある程度で簡略化し、ネットワークパラメータを減少させることができる。これにより、ネットワーク容量を低減させ、収束速度を向上させ、オーバーフィッティングを回避し、訓練により得られたモデルをできる限り正確にし、更にビデオ分析の正確性を向上させることができる。

【0107】

幾つかの選択可能な実施例において、重み予測ネットワークを用いて前記第１多次元特徴マップに対して予測を行い、重み情報を得ることは、重み予測ネットワークのダウンサンプリング層（第１ダウンサンプリング層と記す）を用いて第１多次元特徴マップに対してダウンサンプリングを行い、ダウンサンプリング結果（第１ダウンサンプリング結果と記す）を得ることと、重み予測ネットワークの畳み込み層（第１畳み込み層と記す）を用いてダウンサンプリング結果（即ち、第１ダウンサンプリング結果）に対して畳み込み処理を行い、特徴抽出結果（第１特徴抽出結果と記す）を得ることと、重み予測ネットワークの活性化層を用いて特徴抽出結果（即ち、第１特徴抽出結果）に対して非線形処理を行い、重み情報を得ることと、を含んでもよい。１つの具体的な実施シーンにおいて、ダウンサンプリング層は、平均プーリング層であってもよい。具体的には、上述した実施例における関連ステップを参照することができる。重み予測ネットワークの畳み込み層に１つの畳み込みカーネルが含まれてもよい。重み予測ネットワークの活性化層は、Ｓｉｇｍｏｉｄ活性化層であってもよい。これにより、重み情報における各要素を０から１の間に制限することができる。

【0108】

また、処理しやすくするために、本願の実施例におけるオフセット予測ネットワーク及び重み予測ネットワークは、所定のネットワークモデルの畳み込み層の前に埋め込まれてもよい。例えば、所定のネットワークモデルは、ＲｅｓＮｅｔ－５０であり、オフセット予測ネットワーク及び重み予測ネットワークは、各残差ブロックの畳み込み層の前に埋め込まれてもよい。これにより、第１多次元特徴マップを用いて予測を行い、オフセット情報及び重み情報をそれぞれ得て、後続でオフセットと重み付け処理に用いる。これにより、ＲｅｓＮｅｔ－５０の既存のネットワークパラメータに、少量のネットワークパラメータを追加し、時系列情報のモデリングを実現させることができ、ビデオ分析の処理負荷の軽減に寄与し、ビデオ分析の処理速度を向上させ、また、モデル訓練時の収束速度を向上させ、オーバーフィッティングを回避し、ビデオ分析の正確度を向上させることができる。所定のネットワークモデルが他のモデルである場合、このように類推することができ、ここで枚挙しない。

【0109】

上記ステップＳ５３及びステップＳ５４は、順番に応じて実行されてもよい。例えば、まず、ステップＳ５３を実行し、続いてステップＳ５４を実行する。又は、まず、ステップＳ５４を実行し、続いてステップＳ５３を実行する。又は、ステップＳ５３とステップＳ５４を同時に実行してもよい。ここで限定しない。また、上記ステップＳ５４を後続のステップＳ５６に先行して実行すればよく、ここで限定しない。

【0110】

ステップＳ５５において、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行う。

【0111】

具体的には、上述した実施例における関連ステップを参照することができる。

【0112】

ステップＳ５６において、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行う。

【0113】

１つの実施シーンにおいて、分析対象ビデオは、第２数のフレームの画像を含んでもよく、重み情報は、第２数の重み値を含んでもよく、第２数は、具体的には、８、１６、２４等であってもよく、ここで具体的に限定しない。重み付け処理時、つまり、前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、オフセット後の各組の特徴情報に対して、前記重み情報におけるｊ番目の重み値をそれぞれ用いて、現在組の特徴情報におけるｊ番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることであって、ｊは、第２数以下の正整数である、ことを含む。

【0114】

上記実施例におけるオフセット処理された特徴情報

を例として、重み情報は、

であってもよい。従って、重み情報におけるｊ番目の重みをそれぞれ用いて、上記特徴情報におけるｊ番目の時系列に対応する特徴値に対して重み付け処理を行った後、対応する特徴情報

を得る。オフセット後の特徴情報、重み情報は他の数値である場合、このように類推することができ、ここで枚挙しない。

【0115】

ステップＳ５７において、重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得る。

【0116】

図６を参照すると、時系列オフセット及び重み付け処理を行った後、第１多次元特徴マップに対応する第２多次元特徴マップを得ることができる。１つの実施シーンにおいて、重み付け処理後の前記特徴情報に基づいて、第２多次元特徴マップを得ることは、重み付け処理後の特徴情報及び第１多次元特徴におけるオフセットされていない特徴情報を用いて、第２多次元特徴マップを構成することを含んでもよい。

【0117】

具体的には、図２を参照すると、重み付け処理後の特徴情報と第１多次元特徴マップにおけるオフセットされていない特徴情報を連結処理し、第２多次元特徴マップを得る。ことができる。得られた多次元特徴マップのサイズは、第１多次元特徴マップのサイズと同じである。また、第１多次元特徴マップにおける特徴情報が全て時系列オフセット処理された場合、重み付け処理後の特徴情報を直接組み合わせて第２多次元特徴マップとすることができる。

【0118】

ステップＳ５８において、所定のネットワークモデルを用いて第２多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。

【0119】

具体的には、上述した実施例における関連ステップを参照することができる。

【0120】

上述した実施例と異なっており、重み予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、重み情報を得て、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、且つ重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得る。従って、オフセット、重み付け処理ステップにより、空間と時系列を互いに交錯させた特徴情報を直接得ることができ、ビデオ分析の処理速度及び正確度の向上に寄与する。

【0121】

図７を参照すると、図７は、本願のビデオ分析のためのモデル訓練方法の一実施例を示すフローチャートである。本願の実施例のビデオ分析のためのモデル訓練方法は具体的には、マイクロコンピュータ、サーバ、タブレットなどの、処理機能を持つ電子機器により実行されてもよく、又は、プロセッサによりプログラムコードを実行することで実現してもよい。具体的には、下記ステップを含んでもよい。

【0122】

ステップＳ７１において、サンプルビデオを取得する。

【0123】

本願の実施例において、サンプルビデオは、所定のアノテーション情報を含む。ビデオに対して行為分析を行うことを例として、サンプルビデオの所定のアノテーション情報は、転倒、通常の歩行、走りなどのアノテーション情報を含んでもよいが、これらに限定されない。又は、ビデオを分類することを例として、サンプルビデオの所定のアノテーション情報は、サッカー競技ビデオ、バスケットボール競技ビデオ、スキー競技ビデオなどのアノテーション情報を含んでもよいが、これらに限定されない。他の適用シーンは、このように類推することができ、ここで枚挙しない。

【0124】

本願の実施例において、サンプルビデオは、複数フレームの画像を含んでもよい。例えば、８フレームの画像を含んでもよく、又は、１６フレームの画像を含んでもよく、又は、２４フレームの画像を含んでもよい。ここで具体的に限定しない。

【0125】

ステップＳ７２において、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得る。

【0126】

【0127】

本願の実施例において、第１多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含む。図２を参照すると、図２は、ビデオ分析処理プロセスの一実施例を示す概略図である。図２に示すように、横座標は、時系列次元Ｔでの異なる時系列を表し、異なる時系列に対応する格子は、異なる時系列における特徴情報を表す。１つの実施シーンにおいて、分析対象ビデオは、複数フレームの画像を含む。サンプルビデオの特徴抽出の処理負荷を低減させ、ビデオ分析の処理速度を向上させるために、所定のネットワークモデルにより、サンプルビデオの複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、複数の特徴マップを、サンプルビデオにおける、対応する画像の時系列に応じて連結し、第１サンプルの多次元特徴マップを得ることができる。例えば、サンプルビデオは、８フレームの画像を含むと、所定のネットワークモデルを用いて該８フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像の特徴マップを得て、８枚の特徴マップを、サンプルビデオにおける、対応する画像の時系列に応じて連結し、第１サンプルの多次元特徴マップを得ることができる。

【0128】

ステップＳ７３において、オフセット予測ネットワークを用いて第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得る。

【0129】

オフセット予測ネットワークのネットワーク構造は具体的には、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。１つの実施シーンにおいて、重み予測ネットワークを用いて第１サンプルの多次元特徴マップに対して予測を行い、重み情報を得ることもできる。重み予測ネットワークのネットワーク構造は、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。

【0130】

ステップＳ７４において、オフセット情報を用いて第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２サンプルの多次元特徴マップを得る。

【0131】

オフセット情報を用いて第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うための具体的な実行ステップは、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。１つの実施シーンにおいて、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第２サンプルの多次元特徴マップを得ることもできる。具体的には、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。

【0132】

１つの実施シーンにおいて、所定のネットワークモデルは、少なくとも１つの畳み込み層を含んでもよく、この場合、所定のネットワークモデルの１つの畳み込み層を用いて、サンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得ることができる。１つの具体的な実施シーンにおいて、所定のネットワークモデルの畳み込み層の数は、１より大きくてもよく、この場合、所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて第２サンプルの多次元特徴マップに対して特徴抽出を行い、新たな第１サンプルの多次元特徴マップを得て、また、オフセット予測ネットワークを用いて新たな第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第２サンプルの多次元特徴マップを得て、更に、上記ステップを繰り返して実行し、所定のネットワークモデルの全ての畳み込み層で新たな第２サンプルの多次元特徴マップの特徴抽出ステップを完了するまで継続する。

【0133】

ステップＳ７５において、所定のネットワークモデルを用いて第２サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得る。

【0134】

具体的には、所定のネットワークモデルの全結合層を用いて第２サンプルの多次元特徴マップに対して分析を行い、サンプルビデオの分析結果情報を得ることができる。１つの実施シーンにおいて、所定のネットワークの全結合層を用いて、第２サンプルの多次元特徴マップに対して特徴結合を行い、所定のネットワークモデルのｓｏｆｔｍａｘ層を用いて回帰を行い、サンプルビデオが各カテゴリ（例えば、サッカー競技ビデオ、スキー競技ビデオなど）に属する確率値を得て、又は、サンプルビデオが各行為（例えば、転倒、通常の歩行、走りなど）に属する確率値を得ることもできる。他の適用シーンは、このように類推してもよい。ここで、枚挙しない。

【0135】

ステップＳ７６において、所定のアノテーション情報及び分析結果情報を利用して損失値を算出する。

【0136】

具体的には、平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）損失関数又はクロスエントロピー損失関数を用いて所定のアノテーション情報及び分析結果情報に対して損失値算出を行うことができ、ここで限定しない。

【0137】

ステップＳ７７において、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整する。

【0138】

１つの実施シーンにおいて、上述したステップのように、重み予測ネットワークを用いて第１サンプルの多次元特徴マップに対して予測を行い、重み情報を得ることもできる。これにより、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第２サンプル多次元特徴情報を得る。損失値に基づいて、所定のネットワークモデル、オフセット予測ネットワーク及び重み予測ネットワークのパラメータを調整することもできる。具体的には、所定のネットワークモデルにおける畳み込み層、全結合層のパラメータを調整し、オフセット予測ネットワークにおける畳み込み層、全結合層のパラメータを調整し、重み予測ネットワークにおける畳み込み層のパラメータを調整することができる。具体的には、バッチ勾配降下法、確率的勾配降下法のような勾配降下法を用いてパラメータを調整することができる。

【0139】

１つの実施シーンにおいて、パラメータを調整した後、上記ステップＳ７２及び後続のステップを再実行し、算出された損失値が所定の訓練終了条件を満たすまで継続することができる。具体的には、所定の訓練終了条件は、損失値が所定の損失閾値未満であり、且つ損失値が減少しなくなることを含んでもよい。又は、所定の訓練終了条件は、パラメータ調整回数が所定の回数閾値に達したことを含んでもよい。又は、所定の訓練終了条件は、試験ビデオを用いて試験されたネットワーク性能が所定の要件に達した（例えば、正確率が所定の正確率閾値に達した）ことを含んでもよい。

【0140】

本願の実施例の技術的解決手段によれば、サンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得て、第１サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、オフセット予測ネットワークを用いて第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得て、オフセット情報を用いて第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２サンプルの多次元特徴マップを得て、更に、サンプルビデオの時系列情報に対してモデリングを直接行うことができ、モデル訓練時の速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、後続で、ビデオ分析の正確度の向上に寄与する。

【0141】

図８を参照すると、図８は、本願のビデオ分析装置８０の一実施例を示すブロック図である。ビデオ分析装置８０は、ビデオ取得モジュール８１と、特徴抽出モジュール８２と、オフセット予測モジュール８３と、オフセット処理モジュール８４と、ネットワーク分析モジュール８５と、を備え、
ビデオ取得モジュール８１は、分析対象ビデオを取得するように構成され、
特徴抽出モジュール８２は、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得るように構成され、第１多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含み、
オフセット予測モジュール８３は、オフセット予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、
オフセット処理モジュール８４は、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２多次元特徴マップを得るように構成され、
ネットワーク分析モジュール８５は、所定のネットワークモデルを用いて第２多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。

【0142】

本願の実施例の技術的解決手段は、所定のネットワークモデルにより、分析対象ビデオを処理することで、ビデオ分析の処理速度の向上に寄与し、且つ時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。

【0143】

幾つかの実施例において、ビデオ分析装置８０は、重み予測ネットワークを用いて第１多次元特徴マップに対して予測を行い、重み情報を得るように構成される重み予測モジュールを更に備え、
オフセット処理モジュール８４は、オフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第２多次元特徴マップを得るように構成される。

【0144】

幾つかの実施例において、第１多次元特徴マップの次元は、時系列次元及び所定の次元を含み、オフセット処理モジュール８４は、所定の次元に従って、第１多次元特徴マップから少なくとも１組の特徴情報を選択し、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含み、オフセット情報を用いて、少なくとも１組の特徴情報に対して、時系列次元でオフセットを行うように構成される。

【0145】

幾つかの実施例において、所定の次元は、チャネル次元であり、及び／又は、オフセット情報は、第１数のオフセット値を含み、少なくとも１組の特徴情報は、第１数の組の第１特徴情報を含み、オフセット処理モジュール８４は、オフセット情報におけるｉ番目のオフセット値を用いて、第ｉ組の第１特徴情報に対して、時系列次元でオフセットを行い、第ｉ組の第２特徴情報を得るように構成され、ｉは、第１数以下の正整数である。

【0146】

幾つかの実施例において、オフセット処理モジュール８４は、ｉ番目のオフセット値が属する数値範囲を取得するように構成され、数値範囲の上限値と下限値との差が所定の数値であり、時系列オフセット処理ユニットは、第ｉ組の第１特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットし、第ｉ組の第３特徴情報を得て、第ｉ組の第１特徴情報を前記時系列次元に沿って下限値個の時系列単位でオフセットし、第ｉ組の第４特徴情報を得て、ｉ番目の前記オフセット値と下限値との差を重みとして、第ｉ組の第３特徴情報に対して重み付け処理を行い、第ｉ組の第１重み付け結果を得て、上限値とｉ番目のオフセット値との差を重みとして、第ｉ組の第４特徴情報に対して重み付け処理を行い、第ｉ組の第２重み付け結果を得て、第ｉ組の第１重み付け結果と第ｉ組の第２重み付け結果との和を算出して第ｉ組の第２特徴情報とするように構成される時系列オフセット処理サブユニットを備える。

【0147】

幾つかの実施例において、分析対象ビデオは、第２数のフレームの画像を含み、重み情報は、第２数の重み値を含み、オフセット処理モジュール８４は、オフセット後の各組の特徴情報に対して、重み情報におけるｊ番目の重み値をそれぞれ用いて、現在組の特徴情報におけるｊ番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得るように構成され、ｊは、第２数以下の正整数である。

【0148】

幾つかの実施例において、オフセット処理モジュール８４は、重み付け処理後の特徴情報及び第１多次元特徴におけるオフセットされていない特徴情報を用いて、第２多次元特徴マップを構成するように構成される。

【0149】

幾つかの実施例において、重み予測モジュールは、重み予測ネットワークの第１ダウンサンプリング層を用いて第１多次元特徴マップに対してダウンサンプリングを行い、第１ダウンサンプリング結果を得て、重み予測ネットワークの第１畳み込み層を用いて第１ダウンサンプリング結果に対して畳み込み処理を行い、第１特徴抽出結果を得て、重み予測ネットワークの第１活性化層を用いて第１特徴抽出結果に対して非線形処理を行い、重み情報を得るように構成される。

【0150】

幾つかの実施例において、オフセット予測モジュール８３は、オフセット予測ネットワークの第２ダウンサンプリング層を用いて第１多次元特徴マップに対してダウンサンプリングを行い、第２ダウンサンプリング結果を得て、オフセット予測ネットワークの第２畳み込み層を用いて第２ダウンサンプリング結果に対して畳み込み処理を行い、第２特徴抽出結果を得て、オフセット予測ネットワークの第１全結合層を用いて、第２特徴抽出結果に対して特徴結合を行い、第１特徴結合結果を得て、オフセット予測ネットワークの第２活性化層を用いて第１特徴結合結果に対して非線形処理を行い、非線形処理結果を得て、オフセット予測ネットワークの第２全結合層を用いて非線形処理結果に対して特徴結合を行い、第２特徴結合結果を得て、オフセット予測ネットワークの第３活性化層を用いて第２特徴結合結果に対して非線形処理を行い、オフセット情報を得るように構成される。

【0151】

幾つかの実施例において、所定のネットワークモデルは、少なくとも１つの畳み込み層を含み、特徴抽出モジュール８２は、所定のネットワークモデルの畳み込み層を用いて、分析対象ビデオに対して特徴抽出を行い、第１多次元特徴マップを得るように構成され、更に、所定のネットワークモデルの畳み込み層の数が１より大きい場合、所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、第２多次元特徴マップに対して特徴抽出を行い、新たな第１多次元特徴マップを得るように構成され、
オフセット予測モジュール８３は更に、オフセット予測ネットワークを用いて新たな第１多次元特徴マップに対して予測を行い、新たなオフセット情報を得るように構成され、
オフセット処理モジュール８４は更に、新たなオフセット情報を用いて第１多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて、新たな第２多次元特徴マップを得るように構成され、
ネットワーク分析モジュール８５は更に、所定のネットワークモデルの全結合層を用いて新たな第２多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得るように構成される。

【0152】

幾つかの実施例において、分析対象ビデオは、複数フレームの画像を含み、特徴抽出モジュール８２は、所定のネットワークモデルを用いて、複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、複数の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って連結し、第１多次元特徴マップを得るように構成される。

【0153】

図９を参照すると、図９は、ビデオ分析のためのモデル訓練装置９０の一実施例を示すブロック図である。ビデオ分析のためのモデル訓練装置９０は、ビデオ取得モジュール９１と、特徴抽出モジュール９２と、オフセット予測モジュール９３と、オフセット処理モジュール９４と、ネットワーク分析モジュール９５と、損失算出モジュール９６と、パラメータ調整モジュール９７と、を備え、
ビデオ取得モジュール９１は、サンプルビデオを取得ように構成され、サンプルビデオは、所定のアノテーション情報を含み、
特徴抽出モジュール９２は、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第１サンプルの多次元特徴マップを得るように構成され、第１サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、
オフセット予測モジュール９３は、オフセット予測ネットワークを用いて第１サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、
オフセット処理モジュール９４は、オフセット情報を用いて第１サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第２サンプルの多次元特徴マップを得るように構成され、
ネットワーク分析モジュール９５は、所定のネットワークモデルを用いて第２サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成され、
損失算出モジュール９６は、所定のアノテーション情報及び分析結果情報を用いて損失値を算出するように構成され、
パラメータ調整モジュール９７は、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整するように構成される。

【0154】

上記技術的解決手段によれば、サンプルビデオの時系列情報に対してモデリングを直接行うことができ、モデル訓練時の速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、後続で、ビデオ分析の正確度の向上に寄与する。

【0155】

幾つかの実施例において、ビデオ分析のためのモデル訓練装置９０は、上記ビデオ分析のためのモデル訓練方法における関連ステップを実行するように構成される他のモジュールを更に備えてもよい。具体的には、上記ビデオ分析装置の実施例における関連モジュールを参照することができ、ここで、詳細な説明を省略する。

【0156】

図１０を参照すると、図１０は、本願の電子機器１００の一実施例を示すブロック図である。電子機器１００は、互いに結合されたメモリ１０１及びプロセッサ１０２を備え、プロセッサ１０２は、メモリ１０１に記憶されたプログラム命令を実行し、上記いずれか１つのビデオ分析方法の実施例のステップ又は上記いずれか１つのビデオ分析のためのモデル訓練方法の実施例のステップを実現させるように構成される。１つの具体的な実施シーンにおいて、電子機器１００は、マイクロコンピュータ、サーバを含んでもよいが、これらに限定されない。また、電子機器１００は、ノートパソコン、タブレットなどの携帯機器を含んでもよく、ここで限定しない。

【0157】

具体的には、プロセッサ１０２は、その自体及びメモリ１０１を制御して、上記いずれか１つのビデオ分析方法の実施例のステップ又は上記いずれか１つのビデオ分析のためのモデル訓練方法の実施例のステップを実現させるように構成される。プロセッサ１０２は、中央演算装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）と呼ばれてもよい。プロセッサ１０２は、信号処理能力を持つ集積回路チップであってもよい。プロセッサ１０２は、汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）又は他のプログラマブルゲートアレイ、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、又は、該プロセッサは、如何なる従来のプロセッサなどであってもよい。また、プロセッサ１０２は、集積回路チップにより共同で実現してもよい。

【0158】

図１１を参照すると、図１１は、本願のコンピュータ可読記憶媒体１１０の一実施例を示すブロック図である。コンピュータ可読記憶媒体１１０に、プロセッサにより実行可能なプログラム命令１１０１が記憶されており、プログラム命令１１０１は、上記いずれか１つのビデオ分析方法の実施例のステップ又は上記いずれか１つのビデオ分析のためのモデル訓練方法の実施例のステップを実現させるように構成される。該コンピュータ可読記憶媒体は、揮発性又は不揮発性記憶媒体であってもよい。

【0159】

本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記いずれか１つのビデオ分析方法の実施例のステップ又は上記いずれか１つのビデオ分析のためのモデル訓練方法の実施例のステップを実行する。

【0160】

本願で提供される幾つかの実施例において、開示される方法及び装置は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施形態はただ例示的なもので、例えば、前記モジュール又はユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、別のシステムに組み込んでもよい。又は幾つかの特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合、直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。

【0161】

分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットを選択することで、本実施形態の方策の目的を実現することができる。

【0162】

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ソフトウェア機能ユニットとして実現してもよい。

【0163】

集積したユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現化することができ、該コンピュータソフトウェア製品は、記憶媒体に記憶してもよく、また、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク装置など）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。上述した記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。

【図1】