(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023022845
(43)【公開日】2023-02-15
(54)【発明の名称】ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230208BHJP
G06V 10/82 20220101ALI20230208BHJP
G06N 20/00 20190101ALI20230208BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N20/00
【審査請求】有
【請求項の数】27
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022188641
(22)【出願日】2022-11-25
(31)【優先権主張番号】202210280734.4
(32)【優先日】2022-03-22
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100106518
【弁理士】
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100189555
【弁理士】
【氏名又は名称】徳山 英浩
(72)【発明者】
【氏名】何 棟梁
(72)【発明者】
【氏名】丁 二鋭
(72)【発明者】
【氏名】王 海峰
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA39
5L096HA02
5L096HA11
5L096JA03
5L096JA11
5L096KA04
(57)【要約】 (修正有)
【課題】スマート都市及びスマート交通などのシナリオに応用することができるビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置を提供する。
【解決手段】ビデオ処理方法は、処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出し、複数の受容野における目標受容野でのビデオ特徴に基づいて、処理すべきビデオのローカル特徴を抽出し、複数の受容野における最大受容野でのビデオ特徴に基づいて、処理すべきビデオに対するグローバル特徴を取得し、ローカル特徴とグローバル特徴を融合し、処理すべきビデオの目標特徴を取得する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出することと、
前記複数の受容野における目標受容野でのビデオ特徴に基づいて、前記処理すべきビデオのローカル特徴を抽出することと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記処理すべきビデオのグローバル特徴を取得することと、
前記ローカル特徴と前記グローバル特徴を融合し、前記処理すべきビデオの目標特徴を取得することと、を含む、
ビデオ処理方法。
【請求項2】
前記複数の受容野における目標受容野でのビデオ特徴に基づいて、前記処理すべきビデオのローカル特徴を抽出することは、
所定のサイズのスライドウィンドウに基づいて前記目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得することと、
前記複数のビデオサブ特徴における各サブ特徴に対して、アテンションアルゴリズムを採用して各サブ特徴を処理し、処理済みサブ特徴を取得することと、
前記複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、前記ローカル特徴を取得することと、を含む、
請求項1に記載の方法。
【請求項3】
前記複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、前記ローカル特徴を取得することは、
前記複数の処理済みサブ特徴を融合し、融合済み特徴を取得することと、
三次元畳み込みを採用して前記融合済み特徴の重み特徴を抽出することと、
前記重み特徴に基づいて前記融合済み特徴に重み付けを行い、前記ローカル特徴を取得することと、を含む、
請求項2に記載の方法。
【請求項4】
所定のサイズのスライドウィンドウに基づいて前記目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得することは、
空間次元の第1の所定ステップサイズと時間次元の第2の所定ステップサイズに基づいて前記スライドウィンドウを移動し、前記複数のビデオサブ特徴を切り出して取得することを含み、
前記第1の所定ステップサイズは、前記スライドウィンドウの前記空間次元における長さよりも小さく、前記第2の所定ステップサイズは、前記スライドウィンドウの前記時間次元における長さより小さい、
請求項2に記載の方法。
【請求項5】
前記ローカル特徴と前記グローバル特徴を融合し、前記処理すべきビデオの目標特徴を取得することは、
クロスアテンションアルゴリズムを採用して前記ローカル特徴と前記グローバル特徴を融合し、前記目標特徴を取得することを含む、
請求項1に記載の方法。
【請求項6】
クロスアテンションアルゴリズムを採用して前記ローカル特徴と前記グローバル特徴を融合し、前記目標特徴を取得することは、
前記グローバル特徴に基づいて、サーチ特徴を取得することと、
前記ローカル特徴に基づいて、キー特徴及び値特徴を取得することと、
前記サーチ特徴、前記キー特徴及び前記値特徴に基づいて、前記クロスアテンションアルゴリズムを採用して前記目標特徴を取得することと、を含む、
請求項5に記載の方法。
【請求項7】
サーチテキストのテキスト特徴を抽出することと、
複数の候補ビデオにおける各ビデオの目標特徴を取得することと、
前記テキスト特徴と前記目標特徴に基づいて、前記複数の候補ビデオのうちの前記サーチテキストにマッチングするビデオを決定することと、を含み、
前記目標特徴は、請求項1に記載のビデオ処理方法を採用して取得された、
ビデオサーチ方法。
【請求項8】
ビデオ特徴抽出ネットワークとローカル特徴抽出ネットワークと特徴融合ネットワークとを含むビデオ処理モデルのトレーニング方法であって、
サンプルデータに含まれるサンプルビデオを前記ビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得することと、
前記複数の受容野における目標受容野でのビデオ特徴を前記ローカル特徴抽出ネットワークに入力し、前記サンプルビデオのローカル特徴を取得することと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記サンプルビデオのグローバル特徴を取得することと、
前記ローカル特徴と前記グローバル特徴を前記特徴融合ネットワークに入力し、前記サンプルビデオの目標特徴を取得することと、
前記サンプルデータにおけるサンプルテキストのテキスト特徴を取得することと、
前記目標特徴と前記テキスト特徴に基づいて、前記ビデオ処理モデルをトレーニングすることと、を含む、
ビデオ処理モデルのトレーニング方法。
【請求項9】
前記テキスト特徴は、前記サンプルテキストの語句レベル特徴を含み、
前記目標特徴と前記テキスト特徴に基づいて、前記ビデオ処理モデルをトレーニングすることは、
前記目標特徴と前記語句レベル特徴との間の類似度に基づいて、前記ビデオ処理モデルをトレーニングすることを含む、
請求項8に記載の方法。
【請求項10】
前記テキスト特徴は、前記サンプルテキストの単語レベル特徴をさらに含み、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングすることを、更に含む、
請求項9に記載の方法。
【請求項11】
前記単語レベル特徴は、前記サンプルテキストに含まれる複数の実体単語にそれぞれ対応する複数の単語特徴を含み、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングすることは、
前記複数の単語特徴における各単語特徴と前記ローカル特徴との間の類似度を決定し、複数の第1の類似度を取得することと、
前記複数の第1の類似度に基づいて、前記ビデオ処理モデルをトレーニングすることと、を含む、
請求項10に記載の方法。
【請求項12】
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングすることは、
各単語特徴に対して、前記各単語特徴と目標サンプルデータにおけるサンプルビデオのローカル特徴との間の類似度を決定し、前記複数の単語特徴にそれぞれ対応する複数の第2の類似度を取得することと、
前記複数の第1の類似度と前記複数の第2の類似度に基づいて、前記ビデオ処理モデルの損失を決定することと、
前記損失に基づいて、前記ビデオ処理モデルをトレーニングすることと、を更に含み、
前記目標サンプルデータにおけるサンプルテキストは、前記複数の単語特徴に対応する単語を含まない、
請求項11に記載の方法。
【請求項13】
処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、
前記複数の受容野における目標受容野でのビデオ特徴に基づいて、前記処理すべきビデオのローカル特徴を抽出するためのローカル特徴抽出モジュールと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記処理すべきビデオのグローバル特徴を取得するためのグローバル特徴決定モジュールと、
前記ローカル特徴と前記グローバル特徴を融合し、前記処理すべきビデオの目標特徴を取得するための特徴融合モジュールと、を含む
ビデオ処理装置。
【請求項14】
前記ローカル特徴抽出モジュールは、
所定のサイズのスライドウィンドウに基づいて前記目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得するための特徴切り出しサブモジュールと、
前記複数のビデオサブ特徴における各サブ特徴に対して、アテンションアルゴリズムを採用して各サブ特徴を処理し、処理済みサブ特徴を取得するための特徴処理サブモジュールと、
複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、前記ローカル特徴を取得するためのローカル特徴取得サブモジュールと、を含む、
請求項13に記載の装置。
【請求項15】
前記ローカル特徴取得サブモジュールは、
前記複数の処理済みサブ特徴を融合し、融合済み特徴を取得するための融合ユニットと、
三次元畳み込みを採用して前記融合済み特徴の重み特徴を抽出するための重み抽出ユニットと、
前記重み特徴に基づいて前記融合済み特徴を重み付けして、前記ローカル特徴を取得するための重み付けユニットと、を含む、
請求項14に記載の装置。
【請求項16】
前記特徴切り出しサブモジュールは、空間次元の第1の所定ステップサイズと時間次元の第2の所定ステップサイズに基づいて前記スライドウィンドウを移動し、複数のビデオサブ特徴を切り出して取得し、
前記第1の所定ステップサイズは、前記スライドウィンドウの前記空間次元における長さよりも小さく、前記第2の所定ステップサイズは、前記スライドウィンドウの前記時間次元における長さより小さい、
請求項14に記載の装置。
【請求項17】
前記特徴融合モジュールは、クロスアテンションアルゴリズムを採用して前記ローカル特徴と前記グローバル特徴を融合し、前記目標特徴を取得する、
請求項13に記載の装置。
【請求項18】
前記特徴融合モジュールは、
前記グローバル特徴に基づいて、サーチ特徴を取得するための第1の取得サブモジュールと、
前記ローカル特徴に基づいて、キー特徴及び値特徴を取得するための第2の取得サブモジュールと、
前記サーチ特徴、前記キー特徴及び前記値特徴に基づいて、前記クロスアテンションアルゴリズムを採用して前記目標特徴を取得するためのアテンションサブモジュールと、を含む、
請求項17に記載の装置。
【請求項19】
サーチテキストのテキスト特徴を抽出するためのテキスト特徴抽出モジュールと、
複数の候補ビデオにおける各ビデオの目標特徴を取得するための目標特徴取得モジュールと、
前記テキスト特徴と前記目標特徴に基づいて、前記複数の候補ビデオのうち前記サーチテキストにマッチングするビデオを決定するためのビデオ決定モジュールと、を含み、
前記目標特徴は、請求項13~18のいずれか一項に記載のビデオ処理装置を採用して取得された、
ビデオサーチ装置。
【請求項20】
ビデオ特徴抽出ネットワーク、ローカル特徴抽出ネットワーク及び特徴融合ネットワークを含むビデオ処理モデルのトレーニング装置であって、
サンプルデータに含まれるサンプルビデオをビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得するためのビデオ特徴抽出モジュールと、
前記複数の受容野における目標受容野でのビデオ特徴を前記ローカル特徴抽出ネットワークに入力し、前記サンプルビデオのローカル特徴を取得するためのローカル特徴抽出モジュールと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記サンプルビデオのグローバル特徴を取得するためのグローバル特徴決定モジュールと、
前記ローカル特徴と前記グローバル特徴を前記特徴融合ネットワークに入力し、前記サンプルビデオの目標特徴を取得するための特徴融合モジュールと、
前記サンプルデータにおけるサンプルテキストのテキスト特徴を取得するためのテキスト特徴取得モジュールと、
前記目標特徴と前記テキスト特徴に基づいて、前記ビデオ処理モデルをトレーニングするための第1のトレーニングモジュールと、を含む、
ビデオ処理モデルのトレーニング装置。
【請求項21】
前記テキスト特徴は、前記サンプルテキストの語句レベル特徴を含み、
前記第1のトレーニングモジュールは、前記目標特徴と前記語句レベル特徴との間の類似度に基づいて、前記ビデオ処理モデルをトレーニングする、
請求項20に記載の装置。
【請求項22】
前記テキスト特徴は、前記サンプルテキストの単語レベル特徴をさらに含み、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングするための第2のトレーニングモジュールを、更に含む、
請求項21に記載の装置。
【請求項23】
前記単語レベル特徴は、前記サンプルテキストに含まれる複数の実体単語にそれぞれ対応する複数の単語特徴を含み、
前記第2のトレーニングモジュールは、
前記複数の単語特徴における各単語特徴と前記ローカル特徴との間の類似度を決定し、複数の第1の類似度を取得するための第1の決定サブモジュールと、
前記複数の第1の類似度に基づいて、前記ビデオ処理モデルをトレーニングするためのトレーニングサブモジュールと、を含む、
請求項22に記載の装置。
【請求項24】
前記第2のトレーニングモジュールは、各単語特徴に対して、前記各単語特徴と目標サンプルデータにおけるサンプルビデオのローカル特徴との間の類似度を決定し、前記複数の単語特徴にそれぞれ対応する複数の第2の類似度を取得するための第2の決定サブモジュールをさらに含み、
前記トレーニングサブモジュールは、
前記複数の第1の類似度と前記複数の第2の類似度に基づいて、前記ビデオ処理モデルの損失を決定するための損失決定ユニットと、
前記損失に基づいて、前記ビデオ処理モデルをトレーニングするためのトレーニングユニットと、含み、
前記目標サンプルデータにおけるサンプルテキストは、前記複数の単語特徴に対応する単語を含まない、
請求項23に記載の装置。
【請求項25】
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続するメモリとを含み、
メモリに、少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、コマンドが少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが請求項1~12のいずれか一項に記載の方法を実行することができる、
電子機器。
【請求項26】
コンピュータに請求項1~12のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ可読記憶媒体。
【請求項27】
プロセッサにより実行される時に請求項1~12のいずれか一項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能分野に関し、具体的にはコンピュータ視覚、ビデオ理解及びディープラーニングの技術分野に関し、スマート都市及びスマート交通などのシナリオに応用することができる。
【背景技術】
【0002】
コンピュータ技術及びネットワーク技術の発展に伴い、ディープラーニング技術は多くの分野で広く応用される。例えば、ディープラーニング技術を採用して、ビデオ特徴を抽出し、ビデオ検索又はビデオ分類などを行う。
【0003】
関連技術は、登録番号がCN109977793Bである中国発明特許を参照することができる。
【発明の概要】
【0004】
本開示は、ビデオ処理方法、ビデオサーチ方法及びビデオ処理モデルのトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供することにより、特徴表現能力を向上させることを目的とする。
【0005】
本開示の一局面によれば、処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出することと、複数の受容野における目標受容野でのビデオ特徴に基づいて、処理すべきビデオのローカル特徴を抽出することと、複数の受容野における最大受容野でのビデオ特徴に基づいて、処理すべきビデオのグローバル特徴を取得することと、ローカル特徴とグローバル特徴を融合し、処理すべきビデオの目標特徴を取得することと、を含むビデオ処理方法を提供した。
【0006】
本開示の別の局面によれば、サーチテキストのテキスト特徴を抽出することと、複数の候補ビデオにおける各ビデオの目標特徴を取得することと、テキスト特徴と目標特徴に基づいて、複数の候補ビデオのうちサーチテキストにマッチングするビデオを決定することと、を含み、目標特徴は、本開示が提供したビデオ処理方法を採用して取得された、ビデオサーチ方法を提供した。
【0007】
本開示の別の局面によれば、ビデオ特徴抽出ネットワーク、ローカル特徴抽出ネットワーク及び特徴融合ネットワークとを含むビデオ処理モデルのトレーニング方法であって、サンプルデータに含まれるサンプルビデオをビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得することと、複数の受容野における目標受容野でのビデオ特徴をローカル特徴抽出ネットワークに入力し、サンプルビデオのローカル特徴を取得することと、複数の受容野における最大受容野でのビデオ特徴に基づいて、サンプルビデオのグローバル特徴を取得することと、ローカル特徴とグローバル特徴を特徴融合ネットワークに入力し、サンプルビデオの目標特徴を取得することと、サンプルデータにおけるサンプルテキストのテキスト特徴を取得することと、目標特徴とテキスト特徴に基づいて、ビデオ処理モデルをトレーニングすることと、を含むビデオ処理モデルのトレーニング方法を提供した。
【0008】
本開示の別の局面によれば、処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、複数の受容野における目標受容野でのビデオ特徴に基づいて、処理すべきビデオのローカル特徴を抽出するためのローカル特徴抽出モジュールと、複数の受容野における最大受容野でのビデオ特徴に基づいて、処理すべきビデオに対するグローバル特徴を取得するためのグローバル特徴決定モジュールと、ローカル特徴とグローバル特徴を融合し、処理すべきビデオの目標特徴を取得するための特徴融合モジュールと、を含むビデオ処理装置を提供した。
【0009】
本開示の別の局面によれば、サーチテキストのテキスト特徴を抽出するためのテキスト特徴抽出モジュールと、複数の候補ビデオにおける各ビデオの目標特徴を取得するための目標特徴取得モジュールと、テキスト特徴と目標特徴に基づいて、複数の候補ビデオのうちサーチテキストにマッチングするビデオを決定するためのビデオ決定モジュールと、を含み、目標特徴は、本開示が提供したビデオ処理装置を採用して取得された、ビデオサーチ装置を提供した。
【0010】
本開示の別の局面によれば、ビデオ特徴抽出ネットワーク、ローカル特徴抽出ネットワーク及び特徴融合ネットワークを含むビデオ処理モデルのトレーニング装置であって、サンプルデータに含まれるサンプルビデオをビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得するためのビデオ特徴抽出モジュールと、複数の受容野における目標受容野でのビデオ特徴をローカル特徴抽出ネットワークに入力し、サンプルビデオのローカル特徴を取得するためのローカル特徴抽出モジュールと、複数の受容野における最大受容野でのビデオ特徴に基づいて、サンプルビデオのグローバル特徴を取得するためのグローバル特徴決定モジュールと、ローカル特徴とグローバル特徴を特徴融合ネットワークに入力し、サンプルビデオの目標特徴を取得するための特徴融合モジュールと、サンプルデータにおけるサンプルテキストのテキスト特徴を取得するためのテキスト特徴取得モジュールと、目標特徴とテキスト特徴に基づいて、ビデオ処理モデルをトレーニングするための第1のトレーニングモジュールと、を含む、ビデオ処理モデルのトレーニング装置を提供した。
【0011】
本開示の別の局面によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続するメモリとを含み、メモリに、少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、コマンドが少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが本開示の提供したビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも1つを実行することができる、電子機器を提供した。
【0012】
本開示の別の局面によれば、コンピュータに本開示の提供したビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも1つを実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ可読記憶媒体を提供した。
【0013】
本開示の別の局面によれば、プロセッサにより実行される時に本開示の提供したビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも1つを実現するコンピュータプログラムを提供した。
【0014】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0015】
図面は、本開示の技術案をよりよく理解するために用いられ、本開示を限定するものではない。
【0016】
【
図1】
図1は、本開示の実施例に係るビデオ処理方法、ビデオサーチ方法及びビデオ処理モデルのトレーニング方法、装置の応用シナリオ概略図である。
【
図2】
図2は、本開示の実施例に係るビデオ処理方法のフローチャートである。
【
図3】
図3は、本開示の実施例に係るビデオ処理方法の原理概略図である。
【
図4】
図4は、本開示の実施例に係る処理すべきビデオのローカル特徴を抽出する原理概略図である。
【
図5】
図5は、本開示の実施例に係るグローバル特徴とローカル特徴を融合する原理概略図である。
【
図6】
図6は、本開示の実施例に係るビデオサーチ方法のフローチャートである。
【
図7】
図7は、本開示の実施例に係るビデオ処理モデルのトレーニング方法のフローチャート概略図である。
【
図8】
図8は、本開示の実施例に係るビデオ処理モデルのトレーニング方法の原理概略図である。
【
図9】
図9は、本開示の実施例に係るビデオ処理装置の構成ブロック図である。
【
図10】
図10は、本開示の実施例に係るビデオサーチ装置の構成ブロック図である。
【
図11】
図11は、本開示の実施例に係るビデオ処理モデルのトレーニング装置の構成ブロック図である。
【
図12】
図12は、本開示の実施例のいずれかの方法を実施するための電子機器のブロック図である。
【発明を実施するための形態】
【0017】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細が含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば分かるように、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがない。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0018】
本開示は、ビデオ処理方法を提供し、該方法は、ビデオ特徴抽出工程と、ローカル特徴抽出工程と、グローバル特徴決定工程と、特徴融合工程とを含む。ビデオ特徴抽出工程において、処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出する。ローカル特徴抽出工程において、複数の受容野における目標受容野でのビデオ特徴に基づいて、処理すべきビデオのローカル特徴を抽出する。グローバル特徴決定工程において、複数の受容野における最大受容野でのビデオ特徴に基づいて、処理すべきビデオのグローバル特徴を取得する。特徴融合工程において、ローカル特徴とグローバル特徴を融合し、処理すべきビデオの目標特徴を取得する。
【0019】
以下に
図1を参照して本開示に提供される方法及び装置の応用シナリオを説明する。
【0020】
図1は、本開示の実施例に係るビデオ処理方法、ビデオサーチ方法及びビデオ処理モデルのトレーニング方法、装置の応用シナリオ概略図である。
【0021】
図1に示すように、該実施例の応用シナリオ100は、電子機器110を含み、該電子機器110は、処理機能を有する様々な電子機器であり、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、デスクトップコンピュータ及びサーバ等を含んでよいが、それらに限定されない。
【0022】
該電子機器110は、例えば入力されたビデオ120を処理することにより、該ビデオを表現する特徴130を抽出する。該抽出された特徴130は、スマート交通、スマート推薦、スマートスクリーニングなどの複数のシナリオにおけるビデオ分類、ビデオサーチ、ビデオ重複排除などの応用に対する根拠とすることができ、本開示は該シナリオを限定しない。
【0023】
一実施例において、該電子機器110は、ビデオ処理モデル140を採用して入力されるビデオ120を処理する。ここで、ビデオ処理モデル140は、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)モデル又はアテンションに基づくTransformerモデル等であってもよく、本開示はこれを限定しない。
【0024】
一実施例において、該ビデオ処理モデル140は、例えばサーバ150によりトレーニングされて取得される。電子機器110は、ネットワークを介してサーバ150と通信接続され、サーバ150にモデル取得要求を送信することができる。それに応じて、サーバ150は、該要求に応答してトレーニングされたビデオ処理モデル140を電子機器110に送信する。
【0025】
一実施例において、さらに、電子機器110は、入力されたビデオ120をサーバ150に送信し、サーバ150により該ビデオ120を処理することにより、ビデオ120を表現する特徴を取得する。
【0026】
理解できるように、ビデオサーチ応用において、サーチ情報の特徴とビデオの特徴との間の類似度に基づいて、ビデオがサーチ情報にマッチングするか否かを決定することができる。ビデオ重複排除応用において、二つのビデオの二つの特徴の間の類似度に基づいて、該二つのビデオが互いに重複するか否かを決定する。
【0027】
説明すべきものとして、本開示に提供されるビデオ処理方法及びビデオサーチ方法は、電子機器110により実行されてもよく、サーバ150により実行されてもよい。それに応じて、本開示に提供されるビデオ処理装置及びビデオサーチ装置は、電子機器110に設置されてもよく、サーバ150に設置されてもよい。本開示に提供されるビデオ処理モデルのトレーニング方法は、サーバ150により実行されてもよい。それに応じて、本開示に提供されるビデオ処理モデルのトレーニング装置は、サーバ150に設置されてもよい。
【0028】
理解すべきことは、
図1における電子機器110及びサーバ150の数及びタイプは模式的なものである。実際の必要に応じて、任意の数及びタイプの電子機器110及びサーバ150を有することができる。
【0029】
以下に
図2~
図5を参照して本開示に提供されるビデオ処理方法を詳細に説明する。
【0030】
図2は、本開示の実施例に係るビデオ処理方法のフローチャート概略図である。
【0031】
図2に示すように、該実施例のビデオ処理方法200は、操作S210~操作S230を含む。
【0032】
操作S210において、処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出する。
【0033】
本開示の実施例によれば、処理すべきビデオは、例えば複数のビデオフレームを含み、各ビデオフレームのサイズがH×W×3であり、複数のビデオフレームの数がTであるように設定すれば、該実施例は、処理すべきビデオを、サイズがT×H×W×3であるデータとして示す。ここで、Hは、ビデオフレームの高さであり、Wは、ビデオフレームの幅である。
【0034】
一実施例において、複数の三次元畳み込みを採用して処理すべきビデオを表すデータを段階的にダウンサンプリングし、それにより複数の受容野での複数のビデオ特徴を取得する。
【0035】
一実施例において、Video Swin-Transformerモデルを採用して複数のビデオ特徴を抽出する。具体的には、サイズがT×H×W×3であるデータを分割した後に、サイズがT/2×H/4×W/4×96であるデータを取得することができる。サイズがT/2×H/4×W/4×96であるデータは、順次にVideo Swin-Transformerモデルにおける順次に接続された複数階層ネットワーク(複数のステージ)を介して処理され、該順次に接続された複数のステージによりそれぞれ複数の受容野での複数のビデオ特徴を出力し、各ステージは、一つの受容野でのビデオ特徴を出力し、かつ複数のステージの接続順序に沿って、出力されたビデオ特徴の受容野が順次に増大する。
【0036】
操作S220において、複数の受容野における目標受容野でのビデオ特徴に基づいて、処理すべきビデオのローカル特徴を抽出する。
【0037】
本開示の実施例によれば、目標受容野は、例えば複数の受容野における、最大受容野と最小受容野との間のいずれかの受容野であってよい。このように、処理効率を向上させるとともに、目標受容野でのビデオ特徴は、処理すべきビデオのローカル情報をより多く保存することができる。例えば、複数の受容野の数が四つであり、かつ該複数の受容野でのビデオ特徴が順次に接続された四つのステージにより順次に出力される場合、目標受容野でのビデオ特徴は、順次に接続された四つのステージにおける2番目のステージ又は3番目のステージにより出力されてもよく、本開示はこれを限定しない。
【0038】
本開示の実施例によれば、目標受容野でのビデオ特徴を複数の特徴ブロックに分割し、次に複数の特徴ブロックにおける各特徴ブロックに対して畳み込み演算を行い、一つの処理済み特徴ブロックを取得する。該実施例は、複数の特徴ブロックを畳み込み演算して取得された複数の処理済み特徴ブロックをスティッチングして、処理すべきビデオのローカル特徴を取得することができる。
【0039】
操作S230において、複数の受容野における最大受容野でのビデオ特徴に基づいて、処理すべきビデオに対するグローバル特徴を取得する。
【0040】
操作S240において、ローカル特徴とグローバル特徴を融合し、処理すべきビデオの目標特徴を取得する。
【0041】
本開示の実施例によれば、順次に接続された複数のステージにより複数のビデオ特徴を出力する場合に、最大受容野でのビデオ特徴は、複数のステージにおける最後のステージにより出力されたビデオ特徴である。該実施例は、該最後のステージが出力するビデオ特徴を処理すべきビデオに対するグローバル特徴とする。
【0042】
本開示の実施例によれば、グローバル特徴とローカル特徴をスティッチングし、スティッチング済み特徴を目標特徴とする。又は、該実施例は、完全接続層を介してスティッチング済み特徴を処理し、完全接続層を介して処理して取得された特徴を目標特徴とする。
【0043】
本開示の実施例のビデオ処理方法は、複数の受容野における目標受容野でのビデオ特徴に基づいてローカル特徴を抽出し、ローカル特徴と受容野が最大であるグローバル特徴を融合することにより、ビデオを表現する目標特徴を取得し、これにより、該目標特徴は、ビデオのグローバル情報だけでなく、ローカル情報も表現することができる。CNNに基づいて特徴を抽出する方法及びTransformerに基づいてエンドツーエンド方式で特徴を抽出する方法と比較して、抽出されたビデオ特徴の表現能力を向上させることができ、下流アプリケーション(例えば前述のビデオ分類、ビデオサーチ及びビデオ重複排除など)の精度を向上させることに役立つ。
【0044】
図3は、本開示の実施例に係るビデオ処理方法の原理概略図である。
【0045】
図3に示すように、該実施例300において、Video Swin-Transformerモデルを採用してビデオ処理方法を実現する。
【0046】
該実施例300において、Video Swin-Transformerモデルは、4つのステージを含み、抽出されたビデオ特徴の受容野を段階的に拡大するために用いられる。具体的には、前述の処理すべきビデオを表すデータを分割して取得されたサイズがT/2×H/4×W/4×96であるデータに対して、まず第1のステージ311に入力し、該第1のステージ311を介して第1の受容野での第1のビデオ特徴を出力する。該第1のビデオ特徴は、第2のステージ312の入力として、該第2のステージ312を介して処理した後に第2の受容野での第2のビデオ特徴を出力する。このように、第3のステージ313により第3の受容野での第3のビデオ特徴を出力し、第4のステージ314により第4の受容野での第4のビデオ特徴を出力する。第1のビデオ特徴~第4のビデオ特徴の受容野は順次に増大し、例えば、該第1のビデオ特徴~第4のビデオ特徴のサイズはそれぞれT/2×H/4×W/4×C、T/2×H/8×W/8×2C、T/2×H/16×W/16×4C、T/2×H/32×W/32×8Cである。ここで、Cは第1のステージ311のチャネル数である。理解できるように、該Video Swin-Transformerモデルが4つのステージを含むという構造は本開示を理解するための例示であり、本開示はこれを限定しない。
【0047】
ここで、第1のステージ311は、線形埋め込み(Linear Embedding)層及びスウィントランスフォーマーブロック(Swin Transformer Block)を含む。ここで、サイズがT/2×H/4×W/4×96であるデータは、線形埋め込み層の処理により、入力データの特徴次元をCに変更し、すなわち、線形埋め込み層により出力されるデータサイズはT/2×H/4×W/4×Cである。ビデオトランスフォーマーブロックは、二つの部分に分けられ、一部はVideo W-MSAであり、他部はVideo SW-MSAである。ここで、MSAはマルチヘッドセルフアテンション(Multi-head Self Attention)であり、Video W-MSA部分は、まず入力データに対して層正規化処理を行う。その後に層正規化処理後のデータに対して、左上隅の画素から、従来のウィンドウ分割ポリシーに基づいて、T/2×H/4×W/4×Cデータを、サイズがT/2×H/8×W/8×Cである2×2個の特徴に均一に分割し、かつ各特徴に対してマルチヘッドセルフアテンション演算を行い、マルチヘッドセルフアテンション演算を行った2×2個の特徴を合併し、合併された特徴に対して層正規化処理及び完全接続処理を行って、Video SW-MSA部分に入力する特徴を取得する。Video SW-MSA部分の処理ロジックはVideo W-MSA部分と類似し、相違点は以下のとおりである:Video SW-MSA部分が異なるウィンドウ分割ポリシーを採用し、該Video SW-MSA部分がスライドウィンドウの操作を採用して入力されたデータを分割し、それによりシフトされたウィンドウ内の特徴が隣接ウィンドウ内の特徴を含み、Video W-MSA部分における隣接する重ならないウィンドウ内のデータの間に接続を導入し、データの受容野を増大させることができる。第2のステージ312~第4のステージ314は、いずれもパッチ融合(Patch Merging)層及びスウィントランスフォーマーブロックを含む。ここで、ブロック融合層は、入力されたデータを合併し、さらに合併されたデータに対して線形層を利用して次元を低減するために用いられる。該次元低減により、データの空間サイズを変更し、チャネル数も変更する。
【0048】
図3に示すように、該実施例は、第4のビデオ特徴をグローバル特徴とし、第2のステージ312から出力された第2のビデオ特徴を目標受容野でのビデオ特徴とする。第2のビデオ特徴に基づいてローカル特徴を抽出する場合、該実施例は、目標受容野でのビデオ特徴をローカル特徴抽出分岐(Local Branch)320に入力する。該ローカル特徴抽出分岐320は、まず所定のサイズのスライドウィンドウに基づいて目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得する。次にアテンションアルゴリズムを採用して複数のビデオサブ特徴における各サブ特徴を処理し、複数の処理済みサブ特徴を取得する。最後に該複数の処理済みサブ特徴に基づいて、処理すべきビデオのローカル特徴を取得する。
【0049】
本開示の実施例によれば、該ローカル特徴抽出分岐320は、スライドウィンドウ層及びアテンション層を含む。ここで、スライドウィンドウ層は、所定のサイズのスライドウィンドウに基づいて、サイズがT/2×H/8×W/8×2Cであるビデオ特徴を分割する。分割して取得された複数のビデオサブ特徴は、互いに重なっていなくてよい。又は、分割して取得された複数のビデオサブ特徴のうち隣接するサブ特徴は、部分的に重畳してもよく、それにより抽出されたローカル特徴は、隣接する画素特徴の間の関連性を十分に考慮し、ローカル特徴の表現能力を向上させることができる。アテンション層は、分割して取得された各ビデオサブ特徴に対してセルフアテンション演算を行い、これにより、各ビデオサブ特徴における複数の画素特徴の間の関連性を学習する。
【0050】
例えば、スライドウィンドウ層に採用されたスライドウィンドウのサイズは、空間次元のサイズW_s及び時間次元のサイズW_tであってよく、ここで、空間次元とは、幅方向及び高さ方向を指し、時間次元は、Tが位置する方向を指す。このように、サイズがT/2×H/8×W/8×2Cであるビデオ特徴に対して、切り取って得られた各ビデオサブ特徴のサイズは、W_t×W_s×W_s×2Cである。理解できるように、スライドウィンドウの空間次元における幅方向及び高さ方向の寸法は等しくなくてもよく、本開示はこれを限定しない。ビデオサブ特徴を切り取る場合、該実施例は、空間次元の第1の所定ステップサイズ及び時間次元の第2の所定ステップサイズに基づいてスライドウィンドウを移動する。ここで、第1の所定ステップサイズは、スライドウィンドウの空間次元における長さより小さく、第2の所定ステップサイズは、スライドウィンドウの時間次元における長さより小さい。該第1の所定ステップサイズ及び第2の所定ステップサイズの設定により、切り取られた複数のビデオサブ特徴のうち隣接するサブ特徴には重なる画素点が存在し、これにより、抽出されたローカル特徴は、隣接する画素特徴の間の関連性を十分に考慮し、ローカル特徴の表現能力を向上させることができる。
【0051】
例えば、第1の所定ステップサイズは、W_s/2であってもよく、第2の所定ステップサイズは、W_t/2であってもよい。このように、スライドウィンドウの空間次元における重なる比率は、1/2であり、スライドウィンドウの時間次元における重なる比率も1/2である。切り取られたビデオサブ特徴の個数は、N_h*N_w*N_tで表す。ここで、N_h=H/8/W_s*2、N_w=W/8/W_s*2、N_t=W/2/W_t*2。
【0052】
複数の処理済みサブ特徴を取得した後、該実施例は、該複数の処理済みサブ特徴をスプライシングした後にローカル特徴301とする。又は、以下に説明する方法を採用してローカル特徴301を取得してもよく、ここで詳述しない。
【0053】
ローカル特徴301を取得した後、該実施例は、クロスアテンション(cross attention)アルゴリズムを採用してローカル特徴301とグローバル特徴302を処理し、それにより目標特徴303を取得する。ここで、グローバル特徴302は、例えば複数のビデオ特徴のうち受容野が最大である特徴がプーリング処理Poolingを介して取得される。理解できるように、該グローバル特徴は、直接的にVideo Swin-Transformerが出力する受容野が最大である特徴であってよい。例えば、ローカル特徴301とグローバル特徴302をクロスアテンションネットワーク330に入力し、該クロスアテンションネットワークを介してクロスアテンション演算を行ってもよい。クロスアテンション演算の実現原理は以下の説明を参照することができ、ここでは詳述しない。ここで、受容野が最大である特徴に対するプーリング処理は、例えばグローバル平均プーリング処理であってもよい。
【0054】
図4は、本開示の実施例に係る処理すべきビデオのローカル特徴を抽出する原理概略図である。
【0055】
本開示の実施例によれば、ローカル特徴抽出ネットワークを採用して処理すべきビデオのローカル特徴を抽出する。
図4に示すように、該実施例400において、ローカル特徴抽出ネットワークに入力する特徴は、前述のサイズがT/2×H/8×W/8×2Cであるビデオ特徴f_2であってもよい。該ビデオ特徴f_2は、重畳ウィンドウ分割層410により処理された後、複数のビデオサブ特徴を取得する。該複数のビデオサブ特徴は、ビデオセットf_wを構成する、該ビデオセットf_wは、N_t*N_h*N_w個のビデオサブ特徴を含み、各ビデオサブ特徴のサイズは、W_s*W_s*W_tであり、かつ各ビデオサブ特徴の深さは、2Cである。
【0056】
図4に示すように、該実施例400は、セルフアテンションネットワーク420を用いて各ビデオサブ特徴を処理することができる。ここで、該セルフアテンションネットワーク420は、例えば4つの順次に接続されたセルフアテンションブロックで構成され、各セルフアテンションブロックは、一つのマルチヘッドアテンションメカニズム層(Win-MSA)421と一つのフィードフォワードネットワーク422(Feed-Forward Network、FFN)で構成される。各ビデオサブ特徴は、該セルフアテンションネットワーク420により処理された後、一つの処理済みサブ特徴を取得する。このようにして、合計でN_t*N_h*N_w個の処理済みサブ特徴を取得する。
【0057】
N_t*N_h*N_w個の処理済みサブ特徴を取得した後、ウィンドウ融合層430を採用してこれらの処理済みサブ特徴を融合し、融合済み特徴を取得する。その後、該実施例は、三次元畳み込みを採用して該融合済み特徴の重み特徴を抽出し、最後に該重み特徴に基づいて融合済み特徴に重み付けを行い、ローカル特徴を取得する。このように、ローカル特徴抽出ネットワークを採用することにより、融合済み特徴における各画素点特徴の重要性程度のスコアを適応的に学習することができ、それにより融合済み特徴における重要性が高い特徴が突出され、重要性が低い特徴が抑制され、抽出されたローカル特徴の精度を向上させる。ここで、ウィンドウ融合層430がこれらの処理済みサブ特徴を融合した後に取得された特徴サイズは、例えばT/2×H/8×W/8×2Cであってもよい。
【0058】
一実施例において、
図4に示すように、ウィンドウ融合層430を介して複数の処理済みサブ特徴を融合した後、変換&マッピング層440を介して融合された特徴に対して次元変換及びマッピングを行ってもよい。この実施例は、変換&マッピング層440を介して処理した特徴f_rを融合済み特徴とする。
【0059】
例えば、変換&マッピング層440は、まずウィンドウ融合層430が出力した特徴に空間から深さ(Space to Depth)への変換を行い、サイズがT/2×H/16×W/16×8Cである特徴を取得する。その後、該変換&マッピング層440は、畳み込みカーネルが1である3次元畳み込み(3D-Conv)を利用してサイズがT/2×H/16×W/16×8Cである特徴にマッピングを行い、それにより融合済み特徴f_rを取得してもよく、該融合済み特徴のサイズは、T/2×H/16×W/16×8Cである。
【0060】
一実施例において、重み特徴を抽出する時に
図4に示すような畳み込みネットワーク450を採用して重み特徴を抽出する。ここで、該畳み込みネットワーク450は、例えば順次に接続された3D-Conv層451、活性化層ReLU 452及び3D-Conv層453を含む。該実施例は、融合済み特徴f_rを該畳み込みネットワーク450に入力し、該畳み込みネットワーク450を介して処理した後、重み特徴S_aを出力してもよく、該重み特徴S_aのサイズは、T/2×H/16×W/16である。該重み特徴S_aと融合済み特徴f_rにおける各深さの特徴点を乗算して、処理すべきビデオのローカル特徴f_localを取得してもよく、該ローカル特徴f_localのサイズは、例えばT/2×H/16×W/16×8Cであってもよい。
【0061】
理解できるように、
図4に記載のローカル特徴抽出ネットワークの構造は、本開示を理解するための例示であり、実際の需要に応じて、任意の構造のローカル特徴抽出ネットワークを採用してもよく、本開示はこれを限定しない。
【0062】
図5は、本開示の実施例に係るグローバル特徴とローカル特徴を融合する原理概略図である。
【0063】
本開示の実施例によれば、クロスアテンションアルゴリズムを採用してローカル特徴f_localとグローバル特徴f_globalとを融合する。該方式により、ローカル特徴とグローバル特徴との間に互いに関連するモデリングを行うことができ、取得された目標特徴の表現能力を向上させることに役立つ。
【0064】
例えば、該実施例は、グローバル特徴とローカル特徴を融合する時に、まずグローバル特徴f_globalに基づいてサーチ特徴Qを取得し、同時にローカル特徴f_localに基づいてキー特徴K及び値特徴Vを取得する。最後に、該サーチ特徴Q、キー特徴K及び値特徴Vに基づいて、クロスアテンションアルゴリズムを採用して処理すべきビデオの目標特徴を取得する。
【0065】
例えば、まずサーチ特徴Qとキー特徴Kを点乗算し、点乗算して得られた結果に正規化処理を行い、正規化処理された特徴を重みとして、値特徴Vに重み付けを行い、該重み付けにより取得された特徴は目標特徴である。
【0066】
一実施例において、さらにマルチヘッドアテンションメカニズムを採用してクロスアテンションアルゴリズムを実現する。具体的には、
図5に示すような特徴融合ネットワークを採用してローカル特徴f_localとグローバル特徴f_globalを融合する。例えば、
図5に示すように、該実施例500において、特徴融合ネットワークに複数のアテンションモジュール510が設置されてよく、各アテンションモジュール510にマッピング層511~マッピング層513及び正規化層(Softmax)514が含まれる。マッピング層511は、グローバル特徴f_globalをマッピングし、サーチ特徴Qを取得し、マッピング層512及びマッピング層513は、いずれもローカル特徴をマッピングし、それぞれキー特徴K及び値特徴Vを取得する。各アテンションモジュールを介して一つのアテンション特徴を取得することができ、該アテンション特徴は、値特徴Vを重み付けした後に取得された特徴である。該実施例500は、複数のアテンションモジュール510により取得された複数のアテンション特徴をスプライシングし、かつマッピング層520を介して処理した後に取得された特徴を目標特徴とする。該方式により、グローバル特徴及びローカル特徴に対してより十分な学習を行うことができ、取得された目標特徴の精度を向上させることができる。
【0067】
一実施例において、さらに積み重ねられたM個の特徴融合ネットワークを採用してローカル特徴f_localとグローバル特徴f_globalとの融合を実現してもよく、それにより取得された目標特徴の精度をさらに向上させる。例えば、前述の受容野が最大であるビデオ特徴をプーリング処理した後、サイズが1×8Cであるグローバル特徴を取得し、前文に得られたサイズがT/2×H/16×W/16×8Cであるローカル特徴に対して、該実施例は該ローカル特徴を変換し、一つの特徴シーケンスに変換し、該特徴シーケンスは、T/2*H/16*W/16個の特徴を含み、各特徴のチャネル数は8Cである。該実施例は、グローバル特徴を積み重ねられたM個の特徴融合ネットワークにおける1番目のネットワークの入力とし、1番目のネットワークの出力でグローバル特徴を代替し、2番目のネットワークの入力とし、このように類推し、M番目のネットワークにより目標特徴を出力する。ここで、Mは、1より大きい整数である。ここで、M個の特徴融合ネットワークにおける各ネットワークは、前述の複数のアテンションモジュール510、マッピング層520に加えて、さらにFFN層530を含む。各ネットワークにおいて、マッピング層520から出力された特徴と該各ネットワークに入力されたグローバル特徴とをスプライシングし、その後にスプライシングされた特徴をFFN層530により処理した後に、該各ネットワークに入力されたグローバル特徴と加算し、該各ネットワークの次のネットワークのグローバル特徴を取得する。
【0068】
例えば、M個の特徴融合ネットワークにおけるm番目のネットワークに対して、出力されたグローバル特徴は、以下の式で計算して得ることができる。
【0069】
【0070】
ここで、f_globalmは、m番目のネットワークが出力するグローバル特徴であり、MCAm(f_gobal(m-1), f_local)は、f_local(m-1)とf_localを該m番目のネットワークの入力として、m番目のネットワークにおけるマッピング層520により出力された特徴を示す。FFNmは、該m番目のネットワークにおけるFFN層530の処理を示す。||は、スプライシング作業を示す。ここで、MCAm(f_global(m-1), f_local)は以下のように表すことができる。
【0071】
【0072】
ここで、W(m)は、マッピング層520が学習して得られたマッピング行列パラメータである。CAm
(i)は、該m番目のネットワークにおけるi番目のアテンションモジュールが出力する特徴を示す。nは、該m番目のネットワークに含まれるアテンションモジュールの総数である。例えばCAm
(i)は、以下の公式を採用して計算することができる。
【0073】
【0074】
【0075】
【0076】
【0077】
ここで、WQ
i(m)、WK
i(m)、WV
i(m)は、それぞれm番目のネットワークにおけるi番目のアテンションモジュールのマッピング層511、マッピング層512、マッピング層513により学習された行列パラメータを示す。
【0078】
本開示に提供されるビデオ処理方法に基づいて、本開示はさらにビデオサーチ方法を提供し、以下に
図6を参照して該方法を詳細に説明する。
【0079】
図6は、本開示の実施例に係るビデオサーチ方法のフローチャート概略図である。
【0080】
図6に示すように、該実施例のビデオサーチ方法600は、操作S610~操作S630を含む。
【0081】
操作S610において、サーチテキストのテキスト特徴を抽出する。
【0082】
本開示の実施例によれば、サーチテキストは、例えばユーザが電子機器により入力したサーチキーワードを含む。この実施例では、語彙情報を抽出できるテキスト特徴抽出モデルを採用してテキスト特徴を抽出する。ここで、テキスト特徴抽出モデルは、例えば循環ニューラルネットワークモデル又はTransformerモデルを含み、具体的には、長短期記憶(Long-Short Term Memory、LSTM)ネットワーク又はERNIEモデルなどを採用することができ、本開示はこれを限定しない。
【0083】
操作S620において、複数の候補ビデオにおける各ビデオの目標特徴を取得する。
【0084】
本開示の実施例によれば、ビデオライブラリにおけるビデオを候補ビデオとし、前述のビデオ処理方法を採用して各ビデオを処理し、該各ビデオの目標特徴を取得する。該実施例は、各ビデオの目標特徴を予め記憶し、かつ該各ビデオとマッピング関係を確立することができ、該操作S620において、記憶された目標特徴を直接に取得すればよい。
【0085】
操作S630において、テキスト特徴と目標特徴に基づいて、複数の候補ビデオのうちサーチテキストにマッチングするビデオを決定する。
【0086】
該実施例は、テキスト特徴と目標特徴とを同じ特徴空間にマッピングし、かつ同じ特徴空間にマッピングした後の二つの特徴の間の類似度を計算し、テキスト特徴と目標特徴との間の類似度とする。該実施例は、テキスト特徴との間の類似度が最大である目標特徴に対応する候補ビデオを、サーチテキストにマッチングするビデオとする。又は、テキスト特徴との間の類似度が閾値より大きい目標特徴に対応する候補ビデオを、サーチテキストにマッチングするビデオとする。ここで、閾値は、実際の需要に応じて設定してもよく、特徴の間の類似度はピアソン相関係数、コサイン類似度などを用いて表してもよく、本開示はこれを限定しない。
【0087】
一実施例において、操作S610で抽出されたテキスト特徴は、単語レベル特徴と語句レベル特徴を含む。該実施例は、語句レベル特徴と目標特徴に基づいて類似度の計算を行ってもよい。ここで、単語レベル特徴は、サーチテキストにおける複数の単語にそれぞれ対応する複数の単語特徴を含む。
【0088】
例えば、テキスト特徴を抽出する時に、まずサーチテキストに単語分割処理を行い、予め生成された辞書に基づいて、単語分割により取得された複数の単語にそれぞれ対応する複数の単語識別子を取得し、各単語識別子を一つの単語Tokenとし、かつTxで示されたTokenを設定し、サーチテキストの語句全体を識別する。該Txを1番目のTokenとして、サーチテキストでの単語の順序に基づいて、複数の単語識別子を1番目のTokenの後に配列し、Tokenシーケンスを取得する。該実施例は、該TokenシーケンスをERNIE 2.0モデルの入力とし、該ERNIE 2.0モデルを介して処理した後、Txに対応する語句レベル特徴及び複数の単語Tokenに対応する単語特徴を出力する。ここで、語句レベル特徴は、ERNIE 2.0モデルにおける複数層のマルチヘッドアテンションメカニズムを介して複数の単語Tokenの特徴に対してアテンション重み付けと融合を行って取得されたものである。理解できるように、サーチテキストに文字分割を行い、文字毎に一つのTokenを取得する。文字分割によりTokenを決定する方法に比べて、単語分割を採用してTokenを決定する方法は、取得された単語特徴が語彙情報をよりよく保持することができる。
【0089】
ビデオ処理方法の実行を容易にするために、本開示は、ビデオ処理モデルのトレーニング方法をさらに提供し、以下に
図7を参照して該方法を詳細に説明する。
【0090】
図7は、本開示の実施例に係るビデオ処理モデルのトレーニング方法のフローチャート概略図である。
【0091】
図7に示すように、該実施例のビデオ処理モデルのトレーニング方法700は、操作S710~操作S750を含む。
【0092】
操作S710において、サンプルデータに含まれるサンプルビデオをビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得する。
【0093】
本開示の実施例によれば、サンプルデータは、一つのバッチ(Batch)のデータであってもよい。一つのバッチのデータにおける各サンプルデータは、いずれもサンプルビデオとサンプルテキストを含む。該実施例は、該一つのバッチのデータにおける全てのサンプルデータを、サイズがB×T×H×W×3であるデータに整理してビデオ特徴抽出ネットワークに入力し、ビデオ特徴抽出ネットワークを介して各サンプルビデオに対応する複数のビデオ特徴を抽出する。該操作S710の実現方式は、前述の操作S210の実現方式と類似し、ビデオ特徴抽出ネットワークは、前述のVideo Swin-Transformerモデルであってもよく、本開示はこれを限定しない。
【0094】
操作S720において、複数の受容野における目標受容野でのビデオ特徴をローカル特徴抽出ネットワークに入力し、サンプルビデオのローカル特徴を取得する。
【0095】
本開示の実施例によれば、該操作S720の実現方式は、前述の操作S220の実現方式と類似する。一つのバッチのデータにおけるサンプルビデオに対して、目標受容野でのビデオ特徴は、B個のサイズがT/2×H/8×W/8×2Cであるデータを採用して表現する。該実施例は、該B個のサイズがT/2×H/8×W/8×2Cであるデータをローカル特徴抽出ネットワークに入力し、B個のサイズがT/2×H/16×W/16×4Cであるローカル特徴を取得する。
【0096】
ここで、ローカル特徴抽出ネットワークは、
図3又は
図4に示すような構成を採用してもよく、本開示はこれを限定しない。
【0097】
操作S730において、複数の受容野における最大受容野でのビデオ特徴に基づいて、サンプルビデオに対するグローバル特徴を取得する。該操作は、前述の操作S230と類似し、ここでは説明を省略する。
【0098】
操作S740において、ローカル特徴とグローバル特徴を特徴融合ネットワークに入力し、サンプルビデオの目標特徴を取得する。
【0099】
本開示の実施例によれば、該操作S740の実現方式は、前述の操作S240の実現方式と類似し、ここでは説明を省略する。一つのバッチのデータにおけるサンプルビデオに対して、B個の目標特徴を取得する。
【0100】
操作S750において、サンプルデータにおけるサンプルテキストのテキスト特徴を取得する。
【0101】
本開示の実施例によれば、該操作S750の実現方式は、前述の操作S610の実現方式と類似し、ここでは説明を省略する。ビデオ処理モデルをトレーニングする前に、該実施例は、サンプルテキストのテキスト特徴を予め抽出し取得してもよく、該操作S750は該記憶されたテキスト特徴を取得する。一つのバッチのデータにおけるサンプルテキストに対して、B個のテキスト特徴を取得する。一つのバッチのデータにおける各データに含まれるサンプルビデオ及びサンプルテキストに対応し、抽出された目標特徴とテキスト特徴は一つの特徴ペアを構成する。
【0102】
操作S760において、目標特徴とテキスト特徴に基づいて、ビデオ処理モデルをトレーニングする。
【0103】
本開示の実施例によれば、該実施例は、弱い教師の方式を採用してビデオ処理モデルをトレーニングする。例えば、各サンプルデータにおけるサンプルビデオとサンプルテキストとがマッチングするように設定する。各サンプルデータにおけるサンプルビデオとサンプルテキストは、例えばサーチ履歴に基づいて取得されたサーチテキストと再生されたビデオであってもよく、又は、該各サンプルデータにおけるサンプルテキストは、該各データにおけるサンプルビデオのタイトルであってもよい。このようにして、モデルのトレーニングコストを低減することができる。
【0104】
例えば、一つのサンプルデータにおけるサンプルビデオとサンプルテキストに対して、サンプルビデオの目標特徴とサンプルテキストのテキスト特徴との間の類似度が1に近づくべきであるため、該目標特徴とテキスト特徴との間の実際の類似度を1に設定することができる。該実施例は、目標特徴とテキスト特徴との間の類似度を予測類似度として、予測類似度と実際類似度との間の差異に基づいてビデオ処理モデルの損失を決定し、損失を最小化することによりビデオ処理モデルをトレーニングする。該実施例は、さらに目標特徴とテキスト特徴との間の距離に基づいてビデオ処理モデルをトレーニングしてもよく、距離に基づいてモデルをトレーニングすることは、一つのサンプルデータに対して、サンプルビデオの目標特徴とサンプルテキストのテキスト特徴との間の距離を0に近づけることを目標とする。
【0105】
一実施例において、ビデオ処理モデルをトレーニングする過程において、さらにネガティブサンプルを学習してもよく、これによりモデルの収束効率を向上させる。例えば、二つの異なるサンプルデータからのサンプルビデオとサンプルテキストに対して、サンプルビデオの目標特徴とサンプルテキストのテキスト特徴との間の類似度が0に近づくべきであるため、二つの異なるサンプルデータからのサンプルビデオとサンプルテキストをネガティブサンプルとして構成し、ネガティブサンプルにおけるサンプルビデオの目標特徴とサンプルテキストのテキスト特徴との間の実際の類似度を0に設定する。それに応じて、一つのサンプルデータにおけるサンプルビデオとテキストビデオは、ポジティブサンプルを構成する。
【0106】
例えば、該実施例は、クロスエントロピー損失関数を採用してビデオ処理モデルの損失を決定する。ポジティブサンプル中のビデオとテキストの特徴を引き寄せることにより、ネガティブサンプル中のビデオとテキストの特徴を引き離す。
【0107】
一実施例において、一つのサンプルデータにおけるサンプルビデオをvjに設定し、サンプルテキストをtjとし、サンプルビデオvjの目標特徴をfjとし、サンプルテキストtjのテキスト特徴をgjとし、該実施例はさらに以下の対比損失関数を採用してビデオ処理モデルの損失を決定する。
【0108】
【0109】
ここで、τはハイパーパラメータであり、fj・gjはfjとgjの内積を表す。
【0110】
一実施例において、操作S750で取得されたテキスト特徴は、サンプルテキストの語句レベル特徴を含む。該実施例の前に説明された目標特徴とテキスト特徴との間の類似度は、目標特徴とサンプルテキストの語句レベル特徴との間の類似度であってもよい。このようにして、ビデオのローカル特徴とグローバル特徴を融合させた目標特徴とテキストの語句レベル特徴を整列させることができ、サーチテキストに基づいてマッチングされたビデオをサーチしやすく、これは、テキストの語句レベル特徴がテキストの語彙をよりよく表現することができるためである。
【0111】
図8は、本開示の実施例に係るビデオ処理モデルのトレーニング方法の原理概略図である。
【0112】
本開示の実施例によれば、前文に取得されたテキスト特徴は、例えば語句レベル特徴以外に、さらにサンプルテキストの単語レベル特徴を含む。該単語レベル特徴は、サンプルテキスト単語分割により取得された複数の単語にそれぞれ対応する複数の単語特徴を含む。該実施例は、語句レベル特徴及び目標特徴に基づいてビデオ処理モデルをトレーニングする以外に、さらにサンプルビデオのローカル特徴とサンプルテキストの単語レベル特徴に基づいてビデオ処理モデルをトレーニングする。このようにして、ビデオのローカル特徴とテキストのローカル特徴をよりよく整列させることができ、トレーニングして取得されたビデオ処理モデルのロバスト性を向上させやすい。これは、ビデオのタイトルテキストなどのテキストコンテンツにいくつかの実体情報が含まれるため、これらの実体情報はビデオフレームのローカル画像に対応しやすいである。また、該実施例は、文字レベル特徴に比べて語彙情報をよりよく表現する単語レベル特徴を採用してビデオ処理モデルをトレーニングすることができるため、トレーニングして取得されたモデルの精度を向上させることに役立つ。
【0113】
図8に示すように、実施例800において、ビデオ処理モデルをトレーニングする時、ビデオ特徴抽出ネットワーク810を介してサンプルビデオを処理し、第2のステージが出力する特徴を目標受容野でのビデオ特徴とする。該目標受容野でのビデオ特徴は、ローカル特徴抽出ネットワーク820(前述のローカル特徴抽出分岐であってもよい)を介して処理した後にローカル特徴801を取得する。順次に接続された複数のステージにおける最後のステージから出力されたビデオ特徴は、グローバル平均プーリング操作を経た後にサンプルビデオのグローバル特徴802を取得する。グローバル特徴802とローカル特徴801は、特徴融合ネットワーク830を介して融合した後に目標特徴803を取得し、ここで、特徴融合ネットワーク830は、クロスアテンションアルゴリズムを採用して特徴を融合する。同時に、サンプルテキストが単語分割処理された後に、各単語の識別子をTokenとして、Token1~TokenNを得て、該N個のTokenと先頭に配列されたTxをERNIE 2.0モデル840に入力し、サンプルテキストの語句レベル特徴804と単語レベル特徴805を取得する。語句レベル特徴804は、Txに対応する。単語レベル特徴805は、N個の単語特徴を含み、それぞれToken1~TokenNに対応する。
【0114】
その後、該実施例は、目標特徴803と語句レベル特徴804との間の類似度に基づいて、ビデオ処理モデルのグローバル損失806を取得する。ローカル特徴801と単語レベル特徴805に基づいて、ビデオ処理モデルのローカル損失807を取得する。最後に、グローバル損失806とローカル損失807の加重和を全体損失として、ビデオ処理モデルをトレーニングする。又は、グローバル損失806に基づいてビデオ処理モデル全体をトレーニングし、ローカル損失807に基づいてローカル特徴抽出ネットワーク820をトレーニングする。
【0115】
一実施例において、一つのサンプルデータについては、単語レベル特徴における各単語特徴に対して、該各単語特徴とサンプルビデオのローカル特徴との間の第1の類似度を決定する。複数の単語特徴に対して、複数の第1の類似度を取得する。該実施例は、該複数の第1の類似度に基づいてビデオ処理モデルのローカル損失807を決定し、ビデオ処理モデルをトレーニングする。例えば、該実施例は、複数の第1の類似度の平均値又は複数の第1の類似度のうちの最高類似度を単語レベル特徴とローカル特徴との間の予測類似度とする。前述したクロスエントロピー損失関数などを採用して一つのサンプルデータに対するローカル損失を計算する。この実施例は、一つのバッチのデータにおける全てのデータに対するローカル損失の和を、ビデオ処理モデルのローカル損失807とする。
【0116】
一実施例において、ビデオ処理モデルをトレーニングする過程において、さらにネガティブサンプルを学習してもよく、これによりモデルの収束効率を向上させる。このように、該実施例は、さらにネガティブサンプルにおけるサンプルテキストの各単語特徴に対して、該各単語特徴とネガティブサンプルにおけるサンプルビデオのローカル特徴との間の類似度を計算し、該類似度に基づいてネガティブサンプルに対するローカル損失を決定する。
【0117】
一実施例において、いずれか一つのサンプルテキストに対して、一つのバッチのサンプルデータにおける、サンプルテキストが該いずれかのサンプルテキストに単語分割して取得されたいずれかの単語を含んでいないサンプルデータを、該いずれか一つのサンプルテキストに対する目標サンプルデータとして、該いずれか一つのサンプルテキストと目標サンプルデータにおけるサンプルビデオによって一つのネガティブサンプルを構成する。これは、あるサンプルデータのサンプルテキストが該いずれか一つのサンプルテキストと同じ単語を含む場合、該あるサンプルデータにおけるサンプルビデオのローカル特徴には該いずれか一つのサンプルテキストのある単語特徴にマッチングする部分的な特徴が存在する可能性があるためである。該方式によりネガティブサンプルを構築し、ネガティブサンプルの参照価値を向上させることができ、ビデオ処理モデルの収束速度を向上させやすい。
【0118】
具体的には、該実施例は、複数の単語特徴における各単語特徴に対して、該各単語特徴と目標サンプルデータにおけるサンプルビデオのローカル特徴との間の第2の類似度を決定し、複数の単語特徴にそれぞれ対応する複数の第2の類似度を取得する。その後に、前記に取得された複数の第1の類似度と該複数の第2の類似度に基づいて、ビデオ処理モデルのローカル損失を決定する。最後に、該ローカル損失に基づいてビデオ処理モデルをトレーニングする。
【0119】
一実施例において、複数の単語特徴を取得した後、さらに該複数の単語特徴から実体単語に対応する特徴を選択する。これは、実体単語以外の他の単語が、一般的にビデオのローカル画像に対応できないためである。
【0120】
一実施例において、テキストtjに対して、抽出して取得された単語特徴は例えば以下のシーケンスにより表してもよく、ここで、Njはテキストtjに含まれる実体単語の数である。
【0121】
【0122】
この実施例は、サンプルビデオのローカル特徴を、以下の特徴シーケンスにより表すように変換する。
【0123】
【0124】
該実施例において、ローカル損失は例えば以下の式で計算する。
【0125】
【0126】
【0127】
【0128】
ここで、Neg(n,j)は、前述のいずれか一つのサンプルテキストと該いずれか一つのサンプルテキストに対する目標サンプルデータにおけるサンプルビデオで構成されたネガティブサンプルを示す。
【0129】
本開示に提供されるビデオ処理方法によれば、本開示は、さらにビデオ処理装置を提供し、以下に
図9を参照して該装置を詳細に説明する。
【0130】
図9は、本開示の実施例に係るビデオ処理装置の構成ブロック図である。
【0131】
図9に示すように、該実施例のビデオ処理装置900は、ビデオ特徴抽出モジュール910と、ローカル特徴抽出モジュール920と、グローバル特徴決定モジュール930と、特徴融合モジュール940とを含む。
【0132】
ビデオ特徴抽出モジュール910は、処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出する。一実施例において、ビデオ特徴抽出モジュール910は、前述の操作S210を実行し、ここで説明を省略する。
【0133】
ローカル特徴抽出モジュール920は、複数の受容野における目標受容野でのビデオ特徴に基づいて、処理すべきビデオのローカル特徴を抽出する。一実施例において、ローカル特徴抽出モジュール920は、前述の操作S220を実行し、ここで説明を省略する。
【0134】
グローバル特徴決定モジュール930は、複数の受容野中の最大受容野でのビデオ特徴に基づいて、処理すべきビデオに対するグローバル特徴を取得する。一実施例において、グローバル特徴決定モジュール930は、前述の操作S230を実行し、ここで説明を省略する。
【0135】
特徴融合モジュール940は、ローカル特徴とグローバル特徴を融合し、処理すべきビデオの目標特徴を取得する。一実施例において、特徴融合モジュール940は、前述の操作S240を実行し、ここで説明を省略する。
【0136】
本開示の実施例によれば、ローカル特徴抽出モジュール920は、特徴切り出しサブモジュールと、特徴処理サブモジュールと、ローカル特徴取得サブモジュールとを含む。特徴切り出しサブモジュールは、所定のサイズのスライドウィンドウに基づいて目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得する。特徴処理サブモジュールは、複数のビデオサブ特徴における各サブ特徴に対して、アテンションアルゴリズムを採用して各サブ特徴を処理し、処理済みサブ特徴を取得する。ローカル特徴取得サブモジュールは、複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、処理すべきビデオのローカル特徴を取得する。
【0137】
本開示の実施例によれば、ローカル特徴取得サブモジュールは、融合ユニットと、重み抽出ユニットと、重み付けユニットとを含む。融合ユニットは、複数の処理済みサブ特徴を融合し、融合済み特徴を取得する。重み抽出ユニットは、三次元畳み込みを採用して融合済み特徴の重み特徴を抽出する。重み付けユニットは、重み特徴に基づいて融合済み特徴に重み付けを行い、ローカル特徴を取得する。
【0138】
本開示の実施例によれば、上記特徴切り出しサブモジュールは、空間次元の第1の所定ステップサイズと時間次元の第2の所定ステップサイズに基づいてスライドウィンドウを移動し、複数のビデオサブ特徴を切り取る。ここで、第1の所定ステップサイズは、スライドウィンドウの空間次元における長さより小さく、第2の所定ステップサイズは、スライドウィンドウの時間次元における長さより小さい。
【0139】
本開示の実施例によれば、上記特徴融合モジュール940は、クロスアテンションアルゴリズムを採用してグローバル特徴とローカル特徴を融合し、目標特徴を取得する。
【0140】
本開示の実施例によれば、上記特徴融合モジュール940は、第1の取得サブモジュールと、第2の取得サブモジュールと、アテンションサブモジュールとを含む。第1の取得サブモジュールは、グローバル特徴に基づいて、サーチ特徴を取得する。第2の取得サブモジュールは、ローカル特徴に基づいて、キー特徴と値特徴を取得する。アテンションサブモジュールは、サーチ特徴、キー特徴及び値特徴に基づいて、クロスアテンションアルゴリズムを採用して目標特徴を取得する。
【0141】
本開示に提供されるビデオをサーチする方法によれば、本開示はさらにビデオサーチ装置を提供し、以下に
図10を参照して該装置を詳細に説明する。
【0142】
図10は、本開示の実施例に係るビデオサーチ装置の構成ブロック図である。
【0143】
図10に示すように、該実施例のビデオサーチ装置1000は、テキスト特徴抽出モジュール1010と、目標特徴取得モジュール1020と、ビデオ決定モジュール1030とを含む。
【0144】
テキスト特徴抽出モジュール1010は、サーチテキストのテキスト特徴を抽出する。一実施例において、テキスト特徴抽出モジュール1010は、前述の操作S610を実行し、ここで説明を省略する。
【0145】
目標特徴取得モジュール1020は、複数の候補ビデオにおける各ビデオの目標特徴を取得する。ここで、目標特徴は、本開示に提供されるビデオ処理装置を採用して取得された。一実施例において、目標特徴取得モジュール1020は、前述の操作S620を実行し、ここで説明を省略する。
【0146】
ビデオ決定モジュール1030は、テキスト特徴と目標特徴に基づいて、複数の候補ビデオのうちサーチテキストにマッチングするビデオを決定する。一実施例において、ビデオ決定モジュール1030は、前述の操作S630を実行し、ここで説明を省略する。
【0147】
本開示に提供されるビデオ処理モデルのトレーニング方法によれば、本開示はさらにビデオ処理モデルのトレーニング装置を提供し、以下に
図11を参照して該装置を詳細に説明する。
【0148】
図11は、本開示の実施例に係るビデオ処理モデルのトレーニング装置の構成ブロック図である。
【0149】
図11に示すように、該実施例のビデオ処理モデルのトレーニング装置1100は、ビデオ特徴抽出モジュール1110と、ローカル特徴抽出モジュール1120と、グローバル特徴決定モジュール1130と、特徴融合モジュール1140と、テキスト特徴取得モジュール1150と、第1のトレーニングモジュール1160とを含む。ここで、ビデオ処理モデルは、ビデオ特徴抽出ネットワークと、ローカル特徴抽出ネットワークと、特徴融合ネットワークとを含む。
【0150】
ビデオ特徴抽出モジュール1110は、サンプルデータに含まれるサンプルビデオをビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得する。一実施例において、ビデオ特徴抽出モジュール1110は、前述の操作S710を実行し、ここで説明を省略する。
【0151】
ローカル特徴抽出モジュール1120は、複数の受容野における目標受容野でのビデオ特徴をローカル特徴抽出ネットワークに入力し、サンプルビデオのローカル特徴を取得する。一実施例において、ローカル特徴抽出モジュール1120は、前述の操作S720を実行し、ここで説明を省略する。
【0152】
グローバル特徴決定モジュール1130は、複数の受容野における最大受容野でのビデオ特徴に基づいて、サンプルビデオに対するグローバル特徴を取得する。一実施例において、グローバル特徴決定モジュール1130は、前述の操作S730を実行し、ここで説明を省略する。
【0153】
特徴融合モジュール1140は、ローカル特徴とグローバル特徴を特徴融合ネットワークに入力し、サンプルビデオの目標特徴を取得する。一実施例において、特徴融合モジュール1140は、前述の操作S740を実行し、ここで説明を省略する。
【0154】
テキスト特徴取得モジュール1150は、サンプルデータにおけるサンプルテキストのテキスト特徴を取得する。一実施例において、テキスト特徴取得モジュール1150は、前述の操作S750を実行し、ここで説明を省略する。
【0155】
第1のトレーニングモジュール1160は、目標特徴とテキスト特徴との間の類似度に基づいて、ビデオ処理モデルをトレーニングする。一実施例において、第1のトレーニングモジュール1160は、前述の操作S760を実行し、ここでは説明を省略する。
【0156】
本開示の実施例によれば、テキスト特徴は、サンプルテキストの語句レベル特徴を含む。上記第1のトレーニングモジュール1160は、目標特徴と語句レベル特徴との間の類似度を決定し、ビデオ処理モデルをトレーニングする。
【0157】
本開示の実施例によれば、テキスト特徴は、さらにサンプルテキストの単語レベル特徴を含む。上記ビデオ処理モデルのトレーニング装置1100は、さらにローカル特徴と単語レベル特徴に基づいて、ビデオ処理モデルをトレーニングするための第2のトレーニングモジュールを含む。
【0158】
本開示の実施例によれば、単語レベル特徴は、サンプルテキストに含まれる複数の実体単語にそれぞれ対応する複数の単語特徴を含む。上記第2のトレーニングモジュールは、第1の決定サブモジュールとトレーニングサブモジュールとを含む。第1の決定サブモジュールは、複数の単語特徴における各単語特徴とローカル特徴との間の類似度を決定し、複数の第1の類似度を取得する。トレーニングサブモジュールは、複数の第1の類似度に基づいて、ビデオ処理モデルをトレーニングする。
【0159】
本開示の実施例によれば、上記第2のトレーニングモジュールは、さらに、各単語特徴に対して、各単語特徴と目標サンプルデータにおけるサンプルビデオのローカル特徴との間の類似度を決定し、複数の単語特徴にそれぞれ対応する複数の第2の類似度を取得するための第2の決定サブモジュールを含む。上記トレーニングサブモジュールは、損失決定ユニットとトレーニングユニットとを含む。損失決定ユニットは、複数の第1の類似度と複数の第2の類似度に基づいて、ビデオ処理モデルの損失を決定する。トレーニングユニットは、損失に基づいて、ビデオ処理モデルをトレーニングする。ここで、目標サンプルデータにおけるサンプルテキストは複数の単語特徴に対応する単語を含まない。
【0160】
なお、説明すべきものとして、本開示の技術案において、関するユーザ個人情報の収集、記憶、使用、加工、転送、提供、開示及び応用等はいずれも相関法規則の規定に適合し、必要な機密保持対策を採用し、かつ公序良俗に反するものではない。本開示の技術案において、ユーザ個人情報が取得または収集される前に、ユーザの承認または同意が得られる。
【0161】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供した。
【0162】
図12は、本開示の実施例のいずれかの方法を実施可能な電子機器1200の概略的なブロック図を示す。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置を示す。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0163】
図12に示すように、機器1200は、リードオンリーメモリ(ROM)1202に記憶されたコンピュータプログラム又は記憶ユニット1208からランダムアクセスメモリ(RAM)1203にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する演算ユニット1201を含む。RAM1203には、さらに記憶機器1200の操作に必要な様々なプログラム及びデータを記憶する。演算ユニット1201、ROM1202、およびRAM1203は、バス1204により相互に接続されている。バス1204には、入出力(I/O)インタフェース1205も接続されている。
【0164】
機器1200における複数の部品は、I/Oインタフェース1205に接続され、例えばキーボード、マウスなどの入力ユニット1206と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット1207と、例えば磁気ディスク、光ディスクなどの記憶ユニット1208と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1209とを含む。通信ユニット1209は、機器1200がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
【0165】
演算ユニット1201は、各種の処理、演算能力を有する汎用及び/又は専用の処理モジュールであってもよい。演算ユニット1201としては、中央処理ユニット(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムを実行する演算ユニット、デジタル信号機(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。演算ユニット1201は、上記説明した各方法及び処理、例えばビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも一つを実行する。例えば、いくつかの実施例において、ビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも一つは、コンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット1208に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM1202及び/又は通信ユニット1209を介して装置1200にロード及び/又はインストールされる。コンピュータプログラムがRAM1203にロードされかつ演算ユニット1201により実行される場合、上記ビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも一つ又は複数の操作を実行することができる。代替的に、他の実施例において、演算ユニット1201は他の任意の適切な方式(例えば、ファームウェア)によりビデオ処理方法、ビデオをサーチする方法、ビデオ処理モデルのトレーニング方法の少なくとも一つを実行するように構成されてよい。
【0166】
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現する。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、データ及びコマンドを該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送する。
【0167】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてよく、部分的に機器で実行されてよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0168】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶する。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0169】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してよい。他の種類の装置は、さらにユーザとの対話を提供してよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してよい。
【0170】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0171】
コンピュータシステムは、クライアント及びサーバを含む。クライアントとサーバは、一般的に互いに離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスのアーキテクチャにおけるホスト製品の1つであり、従来の物理ホストとVPSサービス(「Virtual Private Server」又は単に「VPS」という)において管理が難しく、サービスの拡張性が弱いという欠点を解決することができる。サーバは、分散システムのサーバであってもよく、またブロックチェーンを結合したサーバであってもよい。
【0172】
理解されるべきこととして、以上に示された様々な形式のフローを使用してよく、ステップを改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
【0173】
以上説明したビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラムは、以下のように表現することができる。
【0174】
第1態様のビデオ処理方法は、
処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出することと、
前記複数の受容野における目標受容野でのビデオ特徴に基づいて、前記処理すべきビデオのローカル特徴を抽出することと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記処理すべきビデオのグローバル特徴を取得することと、
前記ローカル特徴と前記グローバル特徴を融合し、前記処理すべきビデオの目標特徴を取得することと、を含む。
【0175】
第2態様のビデオ処理方法は、
第1態様に記載の方法であって、
前記複数の受容野における目標受容野でのビデオ特徴に基づいて、前記処理すべきビデオのローカル特徴を抽出することは、
所定のサイズのスライドウィンドウに基づいて前記目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得することと、
前記複数のビデオサブ特徴における各サブ特徴に対して、アテンションアルゴリズムを採用して各サブ特徴を処理し、処理済みサブ特徴を取得することと、
前記複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、前記ローカル特徴を取得することと、を含む。
【0176】
第3態様のビデオ処理方法は、
第2態様に記載の方法であって、
前記複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、前記ローカル特徴を取得することは、
前記複数の処理済みサブ特徴を融合し、融合済み特徴を取得することと、
三次元畳み込みを採用して前記融合済み特徴の重み特徴を抽出することと、
前記重み特徴に基づいて前記融合済み特徴に重み付けを行い、前記ローカル特徴を取得することと、を含む。
【0177】
第4態様のビデオ処理方法は、
第2態様に記載の方法であって、
所定のサイズのスライドウィンドウに基づいて前記目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得することは、
空間次元の第1の所定ステップサイズと時間次元の第2の所定ステップサイズに基づいて前記スライドウィンドウを移動し、前記複数のビデオサブ特徴を切り出して取得することを含み、
前記第1の所定ステップサイズは、前記スライドウィンドウの前記空間次元における長さよりも小さく、前記第2の所定ステップサイズは、前記スライドウィンドウの前記時間次元における長さより小さい。
【0178】
第5態様のビデオ処理方法は、
第1態様に記載の方法であって、
前記ローカル特徴と前記グローバル特徴を融合し、前記処理すべきビデオの目標特徴を取得することは、
クロスアテンションアルゴリズムを採用して前記ローカル特徴と前記グローバル特徴を融合し、前記目標特徴を取得することを含む。
【0179】
第6態様のビデオ処理方法は、
第5態様に記載の方法であって、
クロスアテンションアルゴリズムを採用して前記ローカル特徴と前記グローバル特徴を融合し、前記目標特徴を取得することは、
前記グローバル特徴に基づいて、サーチ特徴を取得することと、
前記ローカル特徴に基づいて、キー特徴及び値特徴を取得することと、
前記サーチ特徴、前記キー特徴及び前記値特徴に基づいて、前記クロスアテンションアルゴリズムを採用して前記目標特徴を取得することと、を含む。
【0180】
第7態様のビデオ処理方法は、
サーチテキストのテキスト特徴を抽出することと、
複数の候補ビデオにおける各ビデオの目標特徴を取得することと、
前記テキスト特徴と前記目標特徴に基づいて、前記複数の候補ビデオのうちの前記サーチテキストにマッチングするビデオを決定することと、を含み、
前記目標特徴は、第1~6態様のいずれか一つに記載のビデオ処理方法を採用して取得される。
【0181】
第8態様のビデオ処理モデルのトレーニング方法は、
ビデオ特徴抽出ネットワークとローカル特徴抽出ネットワークと特徴融合ネットワークとを含むビデオ処理モデルのトレーニング方法であって、
サンプルデータに含まれるサンプルビデオを前記ビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得することと、
前記複数の受容野における目標受容野でのビデオ特徴を前記ローカル特徴抽出ネットワークに入力し、前記サンプルビデオのローカル特徴を取得することと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記サンプルビデオのグローバル特徴を取得することと、
前記ローカル特徴と前記グローバル特徴を前記特徴融合ネットワークに入力し、前記サンプルビデオの目標特徴を取得することと、
前記サンプルデータにおけるサンプルテキストのテキスト特徴を取得することと、
前記目標特徴と前記テキスト特徴に基づいて、前記ビデオ処理モデルをトレーニングすることと、を含む。
【0182】
第9態様のビデオ処理モデルのトレーニング方法は、
第8態様に記載の方法であって、
前記テキスト特徴は、前記サンプルテキストの語句レベル特徴を含み、
前記目標特徴と前記テキスト特徴に基づいて、前記ビデオ処理モデルをトレーニングすることは、
前記目標特徴と前記語句レベル特徴との間の類似度に基づいて、前記ビデオ処理モデルをトレーニングすることを含む。
【0183】
第10態様のビデオ処理モデルのトレーニング方法は、
第9態様に記載の方法であって、
前記テキスト特徴は、前記サンプルテキストの単語レベル特徴をさらに含み、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングすることを、更に含む。
【0184】
第11態様のビデオ処理モデルのトレーニング方法は、
第10態様に記載の方法であって、
前記単語レベル特徴は、前記サンプルテキストに含まれる複数の実体単語にそれぞれ対応する複数の単語特徴を含み、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングすることは、
前記複数の単語特徴における各単語特徴と前記ローカル特徴との間の類似度を決定し、複数の第1の類似度を取得することと、
前記複数の第1の類似度に基づいて、前記ビデオ処理モデルをトレーニングすることと、を含む。
【0185】
第12態様のビデオ処理モデルのトレーニング方法は、
第11態様に記載の方法であって、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングすることは、
各単語特徴に対して、前記各単語特徴と目標サンプルデータにおけるサンプルビデオのローカル特徴との間の類似度を決定し、前記複数の単語特徴にそれぞれ対応する複数の第2の類似度を取得することと、
前記複数の第1の類似度と前記複数の第2の類似度に基づいて、前記ビデオ処理モデルの損失を決定することと、
前記損失に基づいて、前記ビデオ処理モデルをトレーニングすることと、を更に含み、
前記目標サンプルデータにおけるサンプルテキストは、前記複数の単語特徴に対応する単語を含まない。
【0186】
第13態様のビデオ処理装置は、
処理すべきビデオに対して、複数の受容野での複数のビデオ特徴を抽出するためのビデオ特徴抽出モジュールと、
前記複数の受容野における目標受容野でのビデオ特徴に基づいて、前記処理すべきビデオのローカル特徴を抽出するためのローカル特徴抽出モジュールと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記処理すべきビデオのグローバル特徴を取得するためのグローバル特徴決定モジュールと、
前記ローカル特徴と前記グローバル特徴を融合し、前記処理すべきビデオの目標特徴を取得するための特徴融合モジュールと、を含む。
【0187】
第14態様のビデオ処理装置は、
第13態様に記載の装置であって、
前記ローカル特徴抽出モジュールは、
所定のサイズのスライドウィンドウに基づいて前記目標受容野でのビデオ特徴を切り出し、複数のビデオサブ特徴を取得するための特徴切り出しサブモジュールと、
前記複数のビデオサブ特徴における各サブ特徴に対して、アテンションアルゴリズムを採用して各サブ特徴を処理し、処理済みサブ特徴を取得するための特徴処理サブモジュールと、
複数のビデオサブ特徴に対して取得された複数の処理済みサブ特徴に基づいて、前記ローカル特徴を取得するためのローカル特徴取得サブモジュールと、を含む。
【0188】
第15態様のビデオ処理装置は、
第14態様に記載の装置であって、
前記ローカル特徴取得サブモジュールは、
前記複数の処理済みサブ特徴を融合し、融合済み特徴を取得するための融合ユニットと、
三次元畳み込みを採用して前記融合済み特徴の重み特徴を抽出するための重み抽出ユニットと、
前記重み特徴に基づいて前記融合済み特徴を重み付けして、前記ローカル特徴を取得するための重み付けユニットと、を含む。
【0189】
第16態様のビデオ処理装置は、
第14態様に記載の装置であって、
前記特徴切り出しサブモジュールは、空間次元の第1の所定ステップサイズと時間次元の第2の所定ステップサイズに基づいて前記スライドウィンドウを移動し、複数のビデオサブ特徴を切り出して取得し、
前記第1の所定ステップサイズは、前記スライドウィンドウの前記空間次元における長さよりも小さく、前記第2の所定ステップサイズは、前記スライドウィンドウの前記時間次元における長さより小さい。
【0190】
第17態様のビデオ処理装置は、
第13態様に記載の装置であって、
前記特徴融合モジュールは、クロスアテンションアルゴリズムを採用して前記ローカル特徴と前記グローバル特徴を融合し、前記目標特徴を取得する。
【0191】
第18態様のビデオ処理装置は、
第17態様に記載の装置であって、
前記特徴融合モジュールは、
前記グローバル特徴に基づいて、サーチ特徴を取得するための第1の取得サブモジュールと、
前記ローカル特徴に基づいて、キー特徴及び値特徴を取得するための第2の取得サブモジュールと、
前記サーチ特徴、前記キー特徴及び前記値特徴に基づいて、前記クロスアテンションアルゴリズムを採用して前記目標特徴を取得するためのアテンションサブモジュールと、を含む。
【0192】
第19態様のビデオサーチ装置は、
サーチテキストのテキスト特徴を抽出するためのテキスト特徴抽出モジュールと、
複数の候補ビデオにおける各ビデオの目標特徴を取得するための目標特徴取得モジュールと、
前記テキスト特徴と前記目標特徴に基づいて、前記複数の候補ビデオのうち前記サーチテキストにマッチングするビデオを決定するためのビデオ決定モジュールと、を含み、
前記目標特徴は、請求項13~18のいずれか一項に記載のビデオ処理装置を採用して取得される。
【0193】
第20態様のビデオ処理モデルのトレーニング装置は、
ビデオ特徴抽出ネットワーク、ローカル特徴抽出ネットワーク及び特徴融合ネットワークを含むビデオ処理モデルのトレーニング装置であって、
サンプルデータに含まれるサンプルビデオをビデオ特徴抽出ネットワークに入力し、複数の受容野での複数のビデオ特徴を取得するためのビデオ特徴抽出モジュールと、
前記複数の受容野における目標受容野でのビデオ特徴を前記ローカル特徴抽出ネットワークに入力し、前記サンプルビデオのローカル特徴を取得するためのローカル特徴抽出モジュールと、
前記複数の受容野における最大受容野でのビデオ特徴に基づいて、前記サンプルビデオのグローバル特徴を取得するためのグローバル特徴決定モジュールと、
前記ローカル特徴と前記グローバル特徴を前記特徴融合ネットワークに入力し、前記サンプルビデオの目標特徴を取得するための特徴融合モジュールと、
前記サンプルデータにおけるサンプルテキストのテキスト特徴を取得するためのテキスト特徴取得モジュールと、
前記目標特徴と前記テキスト特徴に基づいて、前記ビデオ処理モデルをトレーニングするための第1のトレーニングモジュールと、を含む。
【0194】
第21態様のビデオ処理モデルのトレーニング装置は、
第20態様に記載の装置であって、
前記テキスト特徴は、前記サンプルテキストの語句レベル特徴を含み、
前記第1のトレーニングモジュールは、前記目標特徴と前記語句レベル特徴との間の類似度に基づいて、前記ビデオ処理モデルをトレーニングする。
【0195】
第22態様のビデオ処理モデルのトレーニング装置は、
第21態様に記載の装置であって、
前記テキスト特徴は、前記サンプルテキストの単語レベル特徴をさらに含み、
前記ローカル特徴と前記単語レベル特徴に基づいて、前記ビデオ処理モデルをトレーニングするための第2のトレーニングモジュールを、更に含む。
【0196】
第23態様のビデオ処理モデルのトレーニング装置は、
第22態様に記載の装置であって、
前記単語レベル特徴は、前記サンプルテキストに含まれる複数の実体単語にそれぞれ対応する複数の単語特徴を含み、
前記第2のトレーニングモジュールは、
前記複数の単語特徴における各単語特徴と前記ローカル特徴との間の類似度を決定し、複数の第1の類似度を取得するための第1の決定サブモジュールと、
前記複数の第1の類似度に基づいて、前記ビデオ処理モデルをトレーニングするためのトレーニングサブモジュールと、を含む。
【0197】
第24態様のビデオ処理モデルのトレーニング装置は、
第23態様に記載の装置であって、
前記第2のトレーニングモジュールは、各単語特徴に対して、前記各単語特徴と目標サンプルデータにおけるサンプルビデオのローカル特徴との間の類似度を決定し、前記複数の単語特徴にそれぞれ対応する複数の第2の類似度を取得するための第2の決定サブモジュールをさらに含み、
前記トレーニングサブモジュールは、
前記複数の第1の類似度と前記複数の第2の類似度に基づいて、前記ビデオ処理モデルの損失を決定するための損失決定ユニットと、
前記損失に基づいて、前記ビデオ処理モデルをトレーニングするためのトレーニングユニットと、含み、
前記目標サンプルデータにおけるサンプルテキストは、前記複数の単語特徴に対応する単語を含まない。
【0198】
第25態様の電子機器は、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続するメモリとを含み、
メモリに、少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、コマンドが少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが第1~12態様のいずれか一つに記載の方法を実行することができる電子機器である。
【0199】
第26態様のコンピュータ可読記憶媒体は、
コンピュータに第1~12態様のいずれか一つに記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ可読記憶媒体である。
【0200】
第27態様のコンピュータプログラムは、
プロセッサにより実行される時に第1~12態様のいずれか一つに記載の方法を実現する、コンピュータプログラムである。
【0201】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。