IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7126549ビデオにおいてターゲットビデオクリップを特定する方法及び装置
<>
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図1
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図2
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図3
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図4
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図5
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図6
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図7
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図8
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図9
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図10
  • 特許-ビデオにおいてターゲットビデオクリップを特定する方法及び装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-18
(45)【発行日】2022-08-26
(54)【発明の名称】ビデオにおいてターゲットビデオクリップを特定する方法及び装置
(51)【国際特許分類】
   G06N 3/08 20060101AFI20220819BHJP
   G06N 20/00 20190101ALI20220819BHJP
   G06T 7/00 20170101ALI20220819BHJP
   G06F 16/70 20190101ALI20220819BHJP
【FI】
G06N3/08
G06N20/00 130
G06T7/00 350C
G06F16/70
【請求項の数】 25
(21)【出願番号】P 2020539043
(86)(22)【出願日】2018-12-05
(65)【公表番号】
(43)【公表日】2021-09-09
(86)【国際出願番号】 CN2018119363
(87)【国際公開番号】W WO2020113468
(87)【国際公開日】2020-06-11
【審査請求日】2020-11-24
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】ヘ ドンリャン
(72)【発明者】
【氏名】チャオ ジャン
(72)【発明者】
【氏名】ファン チーチョウ
(72)【発明者】
【氏名】リー フー
(72)【発明者】
【氏名】リウ シャオ
(72)【発明者】
【氏名】ウェン シェイ
【審査官】久保 光宏
(56)【参考文献】
【文献】中国特許出願公開第108304506(CN,A)
【文献】植木 一也,「映像検索におけるディープラーニング」,日本神経回路学会誌,日本,[online], 日本神経回路学会,2017年03月15日,Vol.24, No.1,第13~26頁,[令和4年1月8日検索], インターネット, <URL: https://doi.org/10.3902/jnns.24.13>,ISSN: 1340-766X.
【文献】波多野 賢治(外2名),「多段階自己組織化マップによるビデオ映像記述支援と類似シーン検索」,情報処理学会論文誌,日本,[online], 情報処理学会,1998年04月15日,Vol.39, No.4,第933~942頁,[令和4年1月8日検索], インターネット, <URL: http://id.nii.ac.jp/1001/00013130/>,ISSN: 1882-7764.
【文献】松本 泰幸(外3名),「Curriculum Learningを用いたネットワーク群による効率的な大規模動画像検索」,情報処理学会研究報告,日本,[online], 情報処理学会,2017年03月02日,Vol. 2017-CVIM-206, No.1,第1~8頁,[令和4年1月8日検索], インターネット, <URL: http://id.nii.ac.jp/1001/00178240/>,ISSN: 2188-8701.
【文献】Mayu Otani, et al.,"Finding Video Parts with Natural Language",IPSJ SIG Technical Report,日本,[online], Information Processing Society of Japan,2018年02月22日,Vol. 2018-CVIM-211, No.7,Pages 1-7,[令和4年1月8日検索], インターネット, <URL: http://id.nii.ac.jp/1001/00186001/>,ISSN: 2188-8701.
【文献】西村 拓一(外4名),「参照パターンの区間を自由とするヒストグラムに基づく時系列検索 - Reference Interval-free Active Search (RIFAS) -」,第43回人工知能基礎論研究会資料(SIG-FAI-A003),日本,社団法人 人工知能学会,2000年11月09日,第89~94頁.
(58)【調査した分野】(Int.Cl.,DB名)
G06N3/00-99/00
G06T7/00
G06F16/70-16/787
CSDB(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
ビデオにおいてターゲットビデオクリップを特定する方法であって、
ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定するステップと、
予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得して、ターゲットビデオクリップ特定ステップを実行するステップと、を含み、
前記ターゲットビデオクリップ特定ステップは、
現在のビデオクリップの現在の状態情報を決定するステップであって、前記現在の状態情報は、現在のビデオクリップの特徴を示す情報を含むステップと、
前記記述情報及び前記現在の状態情報に基づき、前記ビデオにおける現在のビデオクリップの位置変化を指示するための現在動作ポリシーを生成するステップと、を含み、
前記方法は、
予め設定された条件を満たすことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとするステップをさらに含む、方法。
【請求項2】
予め設定された条件を満たしていないことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップを更新済み現在のビデオクリップとして、前記ターゲットビデオクリップ特定ステップを再実行するステップをさらに含む、
請求項1に記載の方法。
【請求項3】
前記記述情報及び前記現在の状態情報に基づいて、現在動作ポリシーを生成するステップは、
前記記述情報及び前記現在の状態情報を予めトレーニングされたポリシー生成モデルに入力して、予め生成された動作ポリシー集合における、前記現在ビデオクリップに対し実行され各動作ポリシーの確率分布を得るステップと、
得られた確率分布に基づき、前記動作ポリシー集合から、現在動作ポリシーを決定するステップと、を含む、
請求項1又は2に記載の方法。
【請求項4】
前記ポリシー生成モデルは、記述ネットワーク及びポリシー生成ネットワークを含み、
前記記述ネットワークは、複数の全結合層を有する全結合ユニットを含み、前記全結合ユニットは、予め取得されたターゲットビデオクリップの記述特徴及び前記現在の状態情報に基づいて現在の状態を生成するように構成され、
前記ポリシー生成ネットワークは、ゲート付き再回帰ユニット及び第1の全結合層を含み、前記ゲート付き再回帰ユニットは、前記現在の状態に基づいて隠れ状態を生成するように構成され、前記第1の全結合層は、前記隠れ状態に基づいて前記確率分布を生成するように構成される、請求項3に記載の方法。
【請求項5】
ターゲットビデオクリップ特定ステップの前に、前記ビデオのビデオ特徴を示すビデオ特徴情報を取得するステップをさらに含み、
前記記述ネットワークは、ビデオ特徴情報に基づいて前記現在の状態を生成するように更に構成される、
請求項4に記載の方法。
【請求項6】
前記現在の状態情報は、前記ビデオにおける前記現在ビデオクリップの相対位置特徴を示す情報をさらに含み、前記相対位置特徴は、前記ビデオにおける前記現在ビデオクリップの開始時点および終了時点によって特徴付けられ、前記ビデオにおける前記現在ビデオクリップの相対的な位置を示すように構成される、請求項4に記載の方法。
【請求項7】
予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングして、トレーニング済みポリシー生成モデルを得るステップをさらに含み、
前記合計損失値は、合計損失値決定ステップにより決定され、
前記合計損失値決定ステップは
レーニングサンプルビデオと、前記トレーニングサンプルビデオのターゲットビデオクリップの現在位置の情報に基づいて決定された前記トレーニングサンプルビデオの現在ビデオクリップとを、現在ポリシー生成モデルに入力して、反復ステップを実行することを含み、
前記反復ステップは、
前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を決定することと、
決定されたトレーニングサンプルビデオの現在の状態を前記現在ポリシー生成モデルにおけるポリシー生成ネットワークに入力して、現在ポリシー生成モデルで且つトレーニングサンプルビデオの現在の状態での、現在の確率分布を得ることと、
決定された現在の確率分布に基づき、予め設定された損失関数を利用して、現在の反復ステップの損失値を決定することと、
現在の反復ステップの損失値と前の反復ステップの損失値との合計を、更新済み現在の反復ステップの損失値とすることと、を含み、
前記合計損失値決定ステップは、
反復ステップの終了条件を満たしていないことに応答して、現在の確率分布に基づき、現在位置を更新し、前記反復ステップを再実行することと、
反復ステップの終了条件を満たしたことに応答して、最後回の反復ステップにより得られた更新済み現在の反復ステップの損失値を合計損失値とすることと、をさらに含む、
請求項4~6のいずれか一項に記載の方法。
【請求項8】
前記損失関数は、予め設定された合計リワード関数により決定された第1の成分を含み、
前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは
前記第1の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整することを含む、
請求項7に記載の方法。
【請求項9】
前記ポリシー生成ネットワークは、さらに第2の全結合層を含み、
前記第2の全結合層は、前記隠れ状態に基づいて前記現在の状態情報に対応する予測のリワード値を生成するように構成され、
前記損失関数は、前記予測のリワード値と前記リワード関数により決定された実際のリワード値との差を表す第2成分をさらに含み、
前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、
前記第1の成分により決定された合計損失値の逆伝達に基づいて、前記第2の全結合層のパラメータを調整することと、
前記第2の成分によって決定された合計損失値の逆伝達により、前記ゲート付き再回帰ユニット、前記第2の全結合層及び前記全結合ユニットのパラメータを調整することと、をさらに含む、
請求項8に記載の方法。
【請求項10】
前記損失関数は、前記第1の全結合層から出力された確率分布のエントロピーを表す第3の成分をさらに含み、
前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、
前記第3の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整することをさらに含む、請求項8又は9に記載の方法。
【請求項11】
前記ポリシー生成モデルは、位置帰ネットワークをさらに含み、
前記位置復帰ネットワークは、前記記述ネットワークに接続された第3の全結合層及び第4の全結合層を含み、
前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を確定した後、前記反復ステップは、
前記トレーニングサンプルビデオの現在の状態を第3の全結合層に入力して、トレーニングサンプルビデオの予測のIoU(Intersection-over-Union)を得ることと、
前記トレーニングサンプルビデオの現在の状態を第4の全結合層に入力して、トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置を得ることと、をさらに含み、
前記損失関数は、第4の成分及び第5の成分をさらに含み、前記第4の成分は、前記第3の全結合層の、現在の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUと、前回の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUとの間の差を表すものであり、前記第5の成分は、前記第4の全結合層により出力されたトレーニングサンプルビデオにおいて、当該トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置と、当該トレーニングサンプルビデオにおいてラベリングされたターゲットビデオクリップの実際の位置との間の差を表すものであり、
前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、
前記損失関数の第4の成分及び第5の成分によって決定される合計損失値の逆伝達に基づいて、前記全結合ユニットと、前記第3の全結合層と、前記第4の全結合層とのパラメータを調整することをさらに含む、
請求項8に記載の方法。
【請求項12】
ビデオにおいてターゲットビデオクリップを特定する装置であって、
ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定するように構成された決定ユニットと、
予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得して、ターゲットビデオクリップ特定ステップを実行するように構成された実行ユニットと、を備え、
前記ターゲットビデオクリップ特定ステップは、
現在のビデオクリップの現在の状態情報を決定するステップであって、前記現在の状態情報は、現在のビデオクリップの特徴を示す情報を含むステップと、
前記記述情報及び前記現在の状態情報に基づき、前記ビデオにおける現在のビデオクリップの位置変化を指示するための現在動作ポリシーを生成するステップと、を含み、
前記装置は、
予め設定された条件を満たすことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとするように構成された生成ユニットをさらに備える、装置。
【請求項13】
前記生成ユニットは、
予め設定された条件を満たしていないことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップを更新済み現在のビデオクリップとして、前記ターゲットビデオクリップ特定ステップを再実行するように、さらに構成された、
請求項12に記載の装置。
【請求項14】
前記実行ユニットは、
前記記述情報及び前記現在の状態情報を予めトレーニングされたポリシー生成モデルに入力して、予め生成された動作ポリシー集合における、前記現在ビデオクリップに対し実行され各動作ポリシーの確率分布を得るステップと、
得られた確率分布に基づき、前記動作ポリシー集合から、現在動作ポリシーを決定するように、さらに構成された、
請求項12又は13に記載の装置。
【請求項15】
前記ポリシー生成モデルは、記述ネットワーク及びポリシー生成ネットワークを含み、
前記記述ネットワークは、複数の全結合層を有する全結合ユニットを含み、前記全結合ユニットは、予め取得されたターゲットビデオクリップの記述特徴及び前記現在の状態情報に基づいて現在の状態を生成するように構成され、
前記ポリシー生成ネットワークは、ゲート付き再回帰ユニット及び第1の全結合層を含み、前記ゲート付き再回帰ユニットは、前記現在の状態に基づいて隠れ状態を生成するように構成され、前記第1の全結合層は、前記隠れ状態に基づいて前記確率分布を生成するように構成された、
請求項14に記載の装置。
【請求項16】
前記装置は、取得ユニットをさらに含み、
前記取得ユニットは、ターゲットビデオクリップ特定ステップの前に、前記ビデオのビデオ特徴を示すビデオ特徴情報を取得するように構成され、
前記記述ネットワークは、ビデオ特徴情報に基づいて前記現在の状態を生成するように更に構成された、
請求項15に記載の装置。
【請求項17】
前記現在の状態情報は、前記ビデオにおける前記現在ビデオクリップの相対位置特徴を示す情報をさらに含み、前記相対位置特徴は、前記ビデオにおける前記現在ビデオクリップの開始時点および終了時点によって特徴付けられ、前記ビデオにおける前記現在ビデオクリップの相対的な位置を示すように構成される、請求項15に記載の装置。
【請求項18】
前記装置は、
予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングして、トレーニング済みポリシー生成モデルを得るように構成されたトレーニングユニットをさらに備え、
前記合計損失値は、合計損失値決定ステップにより決定され、
前記合計損失値決定ステップは
レーニングサンプルビデオと、前記トレーニングサンプルビデオのターゲットビデオクリップの現在位置の情報に基づいて決定された前記トレーニングサンプルビデオの現在ビデオクリップとを、現在ポリシー生成モデルに入力して、反復ステップを実行することを含み、
前記反復ステップは、
前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を決定することと、
決定されたトレーニングサンプルビデオの現在の状態を前記現在ポリシー生成モデルにおけるポリシー生成ネットワークに入力して、現在ポリシー生成モデルで且つトレーニングサンプルビデオの現在の状態での、現在の確率分布を得ることと、
決定された現在の確率分布に基づき、予め設定された損失関数を利用して、現在の反復ステップの損失値を決定することと、
現在の反復ステップの損失値と前の反復ステップの損失値との合計を、更新済み現在の反復ステップの損失値とすることと、を含み、
前記合計損失値決定ステップは、
反復ステップの終了条件を満たしていないことに応答して、現在の確率分布に基づき、現在位置を更新し、前記反復ステップを再実行することと、
反復ステップの終了条件を満たしたことに応答して、最後回の反復ステップにより得られた更新済み現在の反復ステップの損失値を合計損失値とすることと、をさらに含む、
請求項15~17のいずれか一項に記載の装置。
【請求項19】
前記損失関数は、予め設定された合計リワード関数により決定された第1の成分を含み、
前記トレーニングユニットは、さらに
前記第1の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整するように構成された、
請求項18に記載の装置。
【請求項20】
前記ポリシー生成ネットワークは、さらに第2の全結合層を含み、
前記第2の全結合層は、前記隠れ状態に基づいて前記現在の状態情報に対応する予測のリワード値を生成するように構成され、
前記損失関数は、前記予測のリワード値と前記リワード関数により決定された実際のリワード値との差を表す第2成分をさらに含み、
前記トレーニングユニットは、さらに
前記第1の成分により決定された合計損失値の逆伝達に基づいて、前記第2の全結合層のパラメータを調整し、
前記第2の成分によって決定された合計損失値の逆伝達により、前記ゲート付き再回帰ユニット、前記第2の全結合層及び前記全結合ユニットのパラメータを調整するように構成された、
請求項19に記載の装置。
【請求項21】
前記損失関数は、前記第1の全結合層から出力された確率分布のエントロピーを表す第3の成分をさらに含み、
前記トレーニングユニットは、さらに
前記第3の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整するように構成された、
請求項19又は20に記載の装置。
【請求項22】
前記ポリシー生成モデルは、位置帰ネットワークをさらに含み、
前記位置復帰ネットワークは、前記記述ネットワークに接続された第3の全結合層及び第4の全結合層を含み、
前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を確定した後、前記反復ステップは、
前記トレーニングサンプルビデオの現在の状態を第3の全結合層に入力して、トレーニングサンプルビデオの予測のIoU(Intersection-over-Union)を得ることと、
前記トレーニングサンプルビデオの現在の状態を第4の全結合層に入力して、トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置を得ることと、をさらに含み、
前記損失関数は、第4の成分及び第5の成分をさらに含み、前記第4の成分は、前記第3の全結合層の、現在の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUと、前回の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUとの間の差を表すものであり、前記第5の成分は、前記第4の全結合層により出力されたトレーニングサンプルビデオにおいて、当該トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置と、当該トレーニングサンプルビデオにおいてラベリングされたターゲットビデオクリップの実際の位置との間の差を表すものであり、
前記トレーニングユニットは、さらに
前記損失関数の第4の成分及び第5の成分によって決定される合計損失値の逆伝達に基づいて、前記全結合ユニットと、前記第3の全結合層と、前記第4の全結合層とのパラメータを調整するように構成された、
請求項19に記載の装置。
【請求項23】
電子機器であって、1または複数のプロセッサと、
1つまたは複数のコンピュータプログラムを記憶した記憶ユニットと、を備え、
前記1つまたは複数のコンピュータプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、請求項1~11のいずれか一項に記載の方法を実行させる電子機器。
【請求項24】
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~11のいずれか一項に記載の方法を実現させる、コンピュータ読み取り可能な記憶媒体。
【請求項25】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~11のいずれか一項に記載の方法を実現させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願の実施例は、ビデオ処理分野に関し、具体的に、ビデオ理解分野に関し、特に、ビデオにおいてターゲットビデオクリップを特定する方法及び装置に関する。
【背景技術】
【0002】
ビデオクリップ特定(Video Grounding)とは、予め与えられた自然言語記述に基づき、ビデオにおいて与えられた当該自然言語記述にマッチしたビデオクリップを特定することである。特定されたビデオクリップのビデオにおける相対的な位置は、例えば、ビデオにおけるビデオクリップの開始点および終了点によって特徴付けられる。
【0003】
ビデオ理解にビデオクリップの特定が非常に重要な役割を果たす。幾つかの従来技術の例では、ビデオにおいて、予め設定されたスライドウィンドウ(slide window)を予め設定されたポリシーに従ってスライドさせることにより、自然言語記述にマッチしたビデオクリップを得るビデオクリップ特定の方法が提供されている。
【0004】
又は、他の従来技術の例では、プリセグメント化された(pre-segmented)ビデオにおいて、有り得るデオクリップおよび自然言語記述のデータ対をすべて列挙し、これらのデータ対に対し、所与の評価指標に基づいて評価して、ソートし、それらのデータ対から、ターゲットビデオクリップを選出するビデオクリップ特定技術も提供される。
【発明の概要】
【0005】
本出願の実施例によれば、ビデオにおいてターゲットビデオクリップを特定する方法及び装置を提供する。
【0006】
第1の態様において、ビデオにおいてターゲットビデオクリップを特定する方法であって、ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定するステップと、予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得して、ターゲットビデオクリップ特定ステップを実行するステップと、を含み、前記ターゲットビデオクリップ特定ステップは、現在のビデオクリップの現在の状態情報を決定するステップであって、前記現在の状態情報は、現在のビデオクリップの特徴を示す情報を含むステップと、前記記述情報及び前記現在の状態情報に基づき、前記ビデオにおける現在のビデオクリップの位置変化を指示するための現在動作ポリシーを生成するステップと、を含み、前記方法は、予め設定された条件を満たすことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとするステップをさらに含む、方法を提供する。
【0007】
幾つかに実施例において、予め設定された条件を満たしていないことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップを更新済み現在のビデオクリップとして、前記ターゲットビデオクリップ特定ステップを再実行するステップをさらに含む。
【0008】
幾つかに実施例において、前記記述情報及び前記現在の状態情報に基づいて、現在動作ポリシーを生成するステップは、前記記述情報及び前記現在の状態情報を予めトレーニングされたポリシー生成モデルに入力して、予め生成された動作ポリシー集合における、前記現在ビデオクリップに対し実行され各動作ポリシーの確率分布を得るステップと、得られた確率分布に基づき、前記動作ポリシー集合から、現在動作ポリシーを決定するステップと、を含む。
【0009】
幾つかに実施例において、前記ポリシー生成モデルは、記述ネットワーク及びポリシー生成ネットワークを含み、前記記述ネットワークは、複数の全結合層を有する全結合ユニットを含み、前記全結合ユニットは、予め取得されたターゲットビデオクリップの記述特徴及び前記現在の状態情報に基づいて現在の状態を生成するように構成され、前記ポリシー生成ネットワークは、ゲート付き再回帰ユニット及び第1の全結合層を含み、前記ゲート付き再回帰ユニットは、前記現在の状態に基づいて隠れ状態を生成するように構成され、前記第1の全結合層は、前記隠れ状態に基づいて前記確率分布を生成するように構成される。
【0010】
幾つかに実施例において、ターゲットビデオクリップ特定ステップの前に、前記ビデオのビデオ特徴を示すビデオ特徴情報を取得するステップをさらに含み、前記記述ネットワークは、ビデオ特徴情報に基づいて前記現在の状態を生成するように更に構成される。
【0011】
幾つかに実施例において、前記現在の状態情報は、前記ビデオにおける前記現在ビデオクリップの相対位置の特徴を示す情報をさらに含む。
【0012】
幾つかに実施例において、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングして、トレーニング済みポリシー生成モデルを得るステップをさらに含み、前記合計損失値は、合計損失値決定ステップにより決定され、前記合計損失値決定ステップは、前記トレーニングサンプルビデオと、前記トレーニングサンプルビデオのターゲットビデオクリップの現在位置の情報に基づいて決定されたトレーニングサンプルビデオの現在ビデオクリップとを、現在ポリシー生成モデルに入力して、反復ステップを実行することを含み、前記反復ステップは、前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を決定することと、決定されたトレーニングサンプルビデオの現在の状態を前記現在ポリシー生成モデルにおけるポリシー生成ネットワークに入力して、現在ポリシー生成モデルで且つトレーニングサンプルビデオの現在の状態での、現在の確率分布を得ることと、決定された現在の確率分布に基づき、予め設定された損失関数を利用して、現在の反復ステップの損失値を決定することと、現在の反復ステップの損失値と前の反復ステップの損失値との合計を、更新済み現在の反復ステップの損失値とすることと、を含み、前記合計損失値決定ステップは、反復ステップの終了条件を満たしていないことに応答して、現在の確率分布に基づき、現在位置を更新し、前記反復ステップを再実行することと、反復ステップの終了条件を満たしたことに応答して、最後回の反復ステップにより得られた更新済み現在の反復ステップの損失値を合計損失値とすることと、をさらに含む。
【0013】
幾つかに実施例において、前記損失関数は、予め設定された合計リワード関数により決定された第1の成分を含み、前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、前記第1の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整することを含む。
【0014】
幾つかに実施例において、前記ポリシー生成ネットワークは、さらに第2の全結合層を含み、前記第2の全結合層は、前記隠れ状態に基づいて前記現在の状態情報に対応する予測のリワード値を生成するように構成され、前記損失関数は、前記予測のリワード値と前記リワード関数により決定された実際のリワード値との差を表す第2成分をさらに含み、前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、前記第1の成分により決定された合計損失値の逆伝達に基づいて、前記第2の全結合層のパラメータを調整することと、前記第2の成分によって決定された合計損失値の逆伝達により、前記ゲート付き再回帰ユニット、前記第2の全結合層及び前記全結合ユニットのパラメータを調整することと、をさらに含む。
【0015】
幾つかに実施例において、前記損失関数は、前記第1の全結合層から出力された確率分布のエントロピーを表す第3の成分をさらに含み、前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、前記第3の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整することをさらに含む。
【0016】
幾つかに実施例において、前記ポリシー生成モデルは、位置回帰ネットワークをさらに含み、前記位置復帰ネットワークは、前記記述ネットワークに接続された第3の全結合層及び第4の全結合層を含み、前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を確定した後、前記反復ステップは、前記トレーニングサンプルビデオの現在の状態を第3の全結合層に入力して、トレーニングサンプルビデオの予測のIoU(Intersection-over-Union)を得ることと、前記トレーニングサンプルビデオの現在の状態を第4の全結合層に入力して、トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置を得ることと、をさらに含み、前記損失関数は、第4の成分及び第5の成分をさらに含み、前記第4の成分は、前記第3の全結合層の、現在の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUと、前回の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUとの間の差を表すものであり、前記第5の成分は、前記第4の全結合層により出力されたトレーニングサンプルビデオにおいて、当該トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置と、当該トレーニングサンプルビデオにおいてラベリングされたターゲットビデオクリップの実際の位置との間の差を表すものであり、前記予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得るステップは、前記損失関数の第4の成分及び第5の成分によって決定される合計損失値の逆伝達に基づいて、前記全結合ユニットと、前記第3の全結合層と、前記第4の全結合層とのパラメータを調整することをさらに含む。
【0017】
第2の態様において、ビデオにおいてターゲットビデオクリップを特定する装置であって、ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定するように構成された決定ユニットと、予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得して、ターゲットビデオクリップ特定ステップを実行するように構成された実行ユニットと、を備え、前記ターゲットビデオクリップ特定ステップは、現在のビデオクリップの現在の状態情報を決定するステップであって、前記現在の状態情報は、現在のビデオクリップの特徴を示す情報を含むステップと、前記記述情報及び前記現在の状態情報に基づき、前記ビデオにおける現在のビデオクリップの位置変化を指示するための現在動作ポリシーを生成するステップと、を含み、前記装置は、予め設定された条件を満たすことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとするように構成された生成ユニットをさらに備える、装置を提供する。
【0018】
幾つかに実施例において、前記生成ユニットは、予め設定された条件を満たしていないことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップを更新済み現在のビデオクリップとして、前記ターゲットビデオクリップ特定ステップを再実行するように、さらに構成された。
【0019】
幾つかに実施例において、前記実行ユニットは、前記記述情報及び前記現在の状態情報を予めトレーニングされたポリシー生成モデルに入力して、予め生成された動作ポリシー集合における、前記現在ビデオクリップに対し実行され各動作ポリシーの確率分布を得るステップと、得られた確率分布に基づき、前記動作ポリシー集合から、現在動作ポリシーを決定するように、さらに構成された。
【0020】
幾つかに実施例において、前記ポリシー生成モデルは、記述ネットワーク及びポリシー生成ネットワークを含み、前記記述ネットワークは、複数の全結合層を有する全結合ユニットを含み、前記全結合ユニットは、予め取得されたターゲットビデオクリップの記述特徴及び前記現在の状態情報に基づいて現在の状態を生成するように構成され、前記ポリシー生成ネットワークは、ゲート付き再回帰ユニット及び第1の全結合層を含み、前記ゲート付き再回帰ユニットは、前記現在の状態に基づいて隠れ状態を生成するように構成され、前記第1の全結合層は、前記隠れ状態に基づいて前記確率分布を生成するように構成された。
【0021】
幾つかに実施例において、前記装置は、取得ユニットをさらに含み、前記取得ユニットは、ターゲットビデオクリップ特定ステップの前に、前記ビデオのビデオ特徴を示すビデオ特徴情報を取得するように構成され、前記記述ネットワークは、ビデオ特徴情報に基づいて前記現在の状態を生成するように更に構成された。
【0022】
幾つかに実施例において、前記現在の状態情報は、前記ビデオにおける前記現在ビデオクリップの相対位置の特徴を示す情報をさらに含む。
【0023】
幾つかに実施例において、前記装置は、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングして、トレーニング済みポリシー生成モデルを得るように構成されたトレーニングユニットをさらに備え、前記合計損失値は、合計損失値決定ステップにより決定され、前記合計損失値決定ステップは、前記トレーニングサンプルビデオと、前記トレーニングサンプルビデオのターゲットビデオクリップの現在位置の情報に基づいて決定されたトレーニングサンプルビデオの現在ビデオクリップとを、現在ポリシー生成モデルに入力して、反復ステップを実行することを含み、前記反復ステップは、前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を決定することと、決定されたトレーニングサンプルビデオの現在の状態を前記現在ポリシー生成モデルにおけるポリシー生成ネットワークに入力して、現在ポリシー生成モデルで且つトレーニングサンプルビデオの現在の状態での、現在の確率分布を得ることと、決定された現在の確率分布に基づき、予め設定された損失関数を利用して、現在の反復ステップの損失値を決定することと、現在の反復ステップの損失値と前の反復ステップの損失値との合計を、更新済み現在の反復ステップの損失値とすることと、を含み、前記合計損失値決定ステップは、反復ステップの終了条件を満たしていないことに応答して、現在の確率分布に基づき、現在位置を更新し、前記反復ステップを再実行することと、反復ステップの終了条件を満たしたことに応答して、最後回の反復ステップにより得られた更新済み現在の反復ステップの損失値を合計損失値とすることと、をさらに含む。
【0024】
幾つかに実施例において、前記損失関数は、予め設定された合計リワード関数により決定された第1の成分を含み、前記トレーニングユニットは、さらに前記第1の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整するように構成された。
【0025】
幾つかに実施例において、前記ポリシー生成ネットワークは、さらに第2の全結合層を含み、前記第2の全結合層は、前記隠れ状態に基づいて前記現在の状態情報に対応する予測のリワード値を生成するように構成され、前記損失関数は、前記予測のリワード値と前記リワード関数により決定された実際のリワード値との差を表す第2成分をさらに含み、前記トレーニングユニットは、さらに、前記第1の成分により決定された合計損失値の逆伝達に基づいて、前記第2の全結合層のパラメータを調整し、前記第2の成分によって決定された合計損失値の逆伝達により、前記ゲート付き再回帰ユニット、前記第2の全結合層及び前記全結合ユニットのパラメータを調整するように構成された。
【0026】
幾つかに実施例において、前記損失関数は、前記第1の全結合層から出力された確率分布のエントロピーを表す第3の成分をさらに含み、前記トレーニングユニットは、さらに、前記第3の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、前記全結合ユニットとのパラメータを調整するように構成された。
【0027】
幾つかに実施例において、前記ポリシー生成モデルは、位置回帰ネットワークをさらに含み、前記位置復帰ネットワークは、前記記述ネットワークに接続された第3の全結合層及び第4の全結合層を含み、前記現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を確定した後、前記反復ステップは、前記トレーニングサンプルビデオの現在の状態を第3の全結合層に入力して、トレーニングサンプルビデオの予測のIoU(Intersection-over-Union)を得ることと、前記トレーニングサンプルビデオの現在の状態を第4の全結合層に入力して、トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置を得ることと、をさらに含み、前記損失関数は、第4の成分及び第5の成分をさらに含み、前記第4の成分は、前記第3の全結合層の、現在の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUと、前回の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUとの間の差を表すものであり、前記第5の成分は、前記第4の全結合層により出力されたトレーニングサンプルビデオにおいて、当該トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置と、当該トレーニングサンプルビデオにおいてラベリングされたターゲットビデオクリップの実際の位置との間の差を表すものであり、前記トレーニングユニットは、さらに
前記損失関数の第4の成分及び第5の成分によって決定される合計損失値の逆伝達に基づいて、前記全結合ユニットと、前記第3の全結合層と、前記第4の全結合層とのパラメータを調整するように構成された。
【0028】
第3の態様において、電子機器であって、1または複数のプロセッサと、1つまたは複数のコンピュータプログラムを記憶した記憶ユニットとを含み、前記1つまたは複数のコンピュータプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、第1の態様に記載の方法を実行させる電子機器を提供する。
【0029】
第4の態様において、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行されると、第1の態様に記載の方法を実現させる、コンピュータ読み取り可能な記憶媒体を提供する。
【0030】
第5の態様において、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、第1の態様に記載の方法を実現させる、コンピュータプログラムを提供する。
【0031】
本願の実施例によるビデオにおいてターゲットビデオクリップを特定する技術的解決ユニットは、まず、現在位置によってビデオにおける現在ビデオクリップを決定し、続いて、現在の状態情報を決定し、その後、現在の状態情報に基づいて現在の動作ポリシーを生成し、現在の動作ポリシーを用いて現在位置を変更して、ビデオから得られたビデオクリップを変更する。また、予め設定された条件を設定し、予め設定された条件を満たした後に現在のビデオクリップに対して現在の動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとすることにより、ビデオから予め設定された記述情報とマッチしたターゲットビデオクリップを特定することができる。
【図面の簡単な説明】
【0032】
以下の図面を参照して非限定的な実施例を詳細に記述することによって、本発明の他の目的、特徴や利点はより明らかになる。
図1】本願の一実施例のビデオにおいてターゲットビデオクリップを特定する方法が適用可能なシステムアーキテクチャを示す概略図である。
図2】本願に係るビデオにおいてターゲットビデオクリップを特定する方法の一実施例のフローチャートである。
図3】本願に係るビデオにおいてターゲットビデオクリップを特定する方法の一つの適用シナリオを示す概略図である。
図4】本願に係るビデオにおいてターゲットビデオクリップを特定する方法の他の実施例のフローチャートである。
図5図4に示した実施例に適用可能なポリシー生成モデルの概略構成図である。
図6】合計損失値を決定するためのフローを示す概略図である。
図7図5に示すポリシー生成モデルのアーキテクチャを利用して合計損失値を得ることを示す概略図である。
図8図4に示した実施例に適用可能なポリシー生成モデルの他の概略構成図である。
図9図4に示した実施例に適用可能なポリシー生成モデルの別の他の概略構成図である。
図10】本願に係るビデオにおいてターゲットビデオクリップを特定する装置の一実施例の構成図である。
図11】本願実施例のビデオにおいてターゲットビデオクリップを特定する方法を実現するために用いられる電子機器を実施したコンピュータシステムの概略構成図である。
【発明を実施するための形態】
【0033】
以下は、図面及び実施例を参照して本願をさらに詳細に説明する。理解すべきように、ここで記述する実施例は、かかる発明を説明するためのものに過ぎず、該発明を限定するものではない。なお、図面では、説明の便宜上、発明に関連する部分のみを示している。
【0034】
なお、矛盾しない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0035】
図1は、本出願のビデオにおいてターゲットビデオクリップを特定する方法、又は、装置の実施例を適用可能な例示となるシステムアーキテクチャ100を示す。
【0036】
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103、ネットワーク104及びサーバ105を含むことができる。ネットワーク104は、端末機器101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、有線又は無線の通信リンク、または光ファイバケーブルなどのような様々な接続タイプを含むことができる。
【0037】
ユーザ110は、端末機器101、102、103を使用してネットワーク104を介してサーバ105とインタラクトして、メッセージを送受信すること等ができる。端末機器101、102、103には、ビデオ処理系アプリケーション、画像処理系アプリケーション、検索系アプリケーション、ライフサービス系アプリケーション、ショッピング系アプリケーション等の各種のクライアントアプリケーションをインストールすることができる。
【0038】
端末機器101、102、103は、スマートフォン、タブレットコンピュータ、スマート腕時計、ラップトップポータブルコンピュータ、デスクトップコンピュータなど、スクリーンを有する様々な電子機器とすることができる。
【0039】
サーバ105は、端末機器101、102、103から送信されたビデオ特定要求を処理するためのバックグラウンドサーバ等のような、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したビデオ特定要求に基づいてビデオに対して解析、ターゲットビデオクリップ特定処理を実行して、且つ処理の結果(例えば、特定されたターゲットビデオクリップのビデオにおける位置を示すための情報)を端末機器101、102、103にフィードバックすることができる。
【0040】
なお、本願の実施例が提供するビデオにおいてターゲットビデオクリップを特定する方法は、サーバ105によって実行されても良いし、端末機器101、102、103によって実行されても良いが、又は、一部がサーバ105によって実行されるが他の一部が端末機器101、102、103によって実行されることも可能である。同様に、ビデオにおいてターゲットビデオクリップを特定する装置は、サーバ105に設けられても良いし、端末機器101、102、103に設けられても良いが、又は、一部がサーバ105に設けられ、他の一部が端末機器101、102、103に設けられる可能である。
【0041】
理解すべきように、本願の実施例によって提供されるビデオにおいてターゲットビデオクリップを特定する方法は、サーバ105のみによって実行される場合、又は端末機器101、102、103のみによって実行される場合、図1に示すアーキテクチャは、サーバのみ又は端末機器のみを含んでもよい。また、図1の端末機器、ネットワーク、サーバの数は、一例である。実際の必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有することができる。例えば、サーバは、異なるプロセスが配置された複数のサーバを有するクラスタ式のサーバであってもよい。
【0042】
続けて、図2を参照すると、本出願によるビデオにおいてターゲットビデオクリップを特定する方法の一実施例のフロー200が示されている。
【0043】
本実施例の方法において、ターゲットビデオクリップは、所与のビデオにおいて、予め設定された要求又は条件を満たすビデオクリップであると理解される。同様に、本実施例のビデオにおいてターゲットビデオクリップを特定する方法は、該所与のビデオにおいて、該予め設定された要件又は条件を満たすビデオクリップの位置を特定することを目的とする。
【0044】
該ビデオにおいてターゲットビデオクリップを特定する方法は、以下のステップを含む。
【0045】
ステップ201において、ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定する。
【0046】
ここで、ビデオは、予め取得されたあらゆるビデオファイルであってもよく、該ビデオファイルは、複数のビデオフレームを所定の順に(例えば、ビデオを撮影する順に)配列して構成されたビデオフレームを含むことができる。
【0047】
実行主体は、あらゆる利用可能な方法でビデオファイルを入手することができる。
【0048】
例えば、いくつかの適用シナリオにおいて、ビデオファイルは、実行主体が、当該実行主体に備えられたビデオ収集ユニット、または当該実行主体と通信可能に接続されたビデオ収集装置を使用して撮影したものでもよい。例えば、実行主体は、図1に示す端末機器である場合、端末機器に備えられたカメラ又は端末機器と有線又は無線で通信可能に接続されたビデオカメラを使用して撮影してビデオファイルを得ることができる。
【0049】
また、他の適用シナリオでは、実行主体の記憶部にビデオファイルを記憶するようにしても良く、又は、実行主体と通信可能に接続された他の電子機器の記憶部に記憶しておき、所定のトリガ条件に応じて実行主体にビデオファイルを送信するようにしてもよい。
【0050】
ビデオクリップとは、ビデオ内の少なく一部の連続するビデオフレームからなるクリップであっても良い。例えば、ビデオは、1番目~1000番目のビデオフレームを含むと、ビデオクリップは、ビデオに含まれるビデオフレームのうち、1番目~10番目のビデオフレームからなるクリップであってもよい。
【0051】
いくつかの適用シナリオでは、ビデオ内のビデオクリップの位置は、例えば、ビデオ全体の含むビデオフレームからなるビデオフレームシーケンスにおける、ビデオクリップの含むビデオフレームの位置として表されてもよい。例えば、ビデオの含むビデオフレームからなるビデオフレームシーケンスは、F=[f,f,…f1000]とし、ビデオクリップは、F=[f10,f11,…f20]とする場合、ビデオクリップFはビデオフレームシーケンスFにおける10番目~20番目のビデオフレームで構成されるということである。
【0052】
また、他の適用シナリオでは、ビデオにおけるビデオクリップの位置は、ビデオ内のビデオクリップの開始点および終了点によって特徴付けることもできる。例えば、ビデオの総時間長はTであり、ビデオクリップを[t1,t2]として表すことができる。ただし、t1は、当該ビデオにおけるビデオクリップの開始点を表し、t2は、当該ビデオにおけるビデオクリップの終了点を表し、且つt1、t2及びTは、0≦t1<t2≦Tを満たす。
【0053】
なお、ビデオにおけるビデオクリップの位置は、他の任意の実現可能な方法で表すこともできる。例えば、当該ビデオにおけるビデオクリップの開始点とビデオクリップの時間長によって表す、ここで説明を省略する。
【0054】
本ステップにおいて、現在位置は、人為的に指定しても良く、特定の方法で計算してもよい。また、本ステップにおいて、まず、現在位置を決定し、そして、現在位置に基づいてビデオにおいて対応するビデオクリップを決定することができる。例えば、いくつかの適用シナリオでは、ビデオクリップは、ビデオにおけるビデオクリップの開始点および終了点によって表される。これらの適用シナリオでは、最初に、開始点t1および終了点t2を決定し、それから、ビデオにおいてt1からt2までのビデオクリップを特定するようにしても良い。
【0055】
ステップ202において、予め生成されたターゲットビデオクリップの記述特徴を示記述情報を取得し、ターゲットビデオクリップ特定ステップを実行する。
【0056】
ターゲットビデオクリップの記述特徴とは、特定されたいターゲットビデオクリップを記述するための特徴として理解される。例えば、ビデオにおいて、「走行中の赤い車」のビデオクリップを特定しようとする場合、記述特徴は、「走行中の赤い車」という語義を表現可能な特徴とされてもよい。
【0057】
いくつかの適用シナリオにおいて、ターゲットビデオクリップの記述特徴は例えば、予めトレーニングされた文―ベクトル(Sentence-vec)モデルを用いて取得することができる。実際に、まず、ターゲットビデオクリップの記述文に対して単語分割を行い、それから、予めトレーニングされた単語-ベクトル(Word-vec)モデルを利用して各分割単語に対応する単語ベクトルを得て、続いて、文-ベクトルモデルを用いて、各単語ベクトルの重みを決定し、最後に、各単語ベクトル及び対応する重みに基づいて、記述文に対応する特徴ベクトルを得て、該特徴ベクトルをターゲットビデオクリップの記述特徴とする。
【0058】
ターゲットビデオクリップ特定ステップは、さらに以下のサブステップ202a~202bを含むことができる。
【0059】
サブステップ202aにおいて、現在のビデオクリップの現在の状態情報を決定し、そのうち、現在の状態情報は、現在のビデオクリップの特徴を示す情報を含む。
【0060】
現在のビデオクリップの特徴は、例えば、現在のビデオクリップに含まれるオブジェクト(例えば、現在のビデオクリップに現れる人物、シーン等)及びオブジェクトの状態(例えば、現在のビデオクリップにおける人物の動作、シーンの形態)等を特徴付けることができる特徴であってもよい。実際には、予めトレーニングされた特徴抽出ネットワークを利用して、現在のビデオクリップの特徴を抽出することができる。例えば、予めトレーニングされた三次元畳み込みニューラルネットワークを利用して現在のビデオクリップの特徴を抽出することができる。抽出された特徴は、現在のビデオクリップの空間的特徴(すなわち、現在のビデオクリップの中の各ビデオフレームにおける特徴)だけでなく、現在のビデオクリップの時間的特徴も含む。
【0061】
サブステップ202bにおいて、記述情報及び現在の状態情報に基づき、現在の動作ポリシーを生成し、現在の動作ポリシーは、ビデオにおける現在のビデオクリップの位置変化を指示するために用いられる。
【0062】
上述から分かるように、ビデオにおける現在のビデオクリップの位置は、ビデオ全体に含まれるビデオフレームで構成されるビデオフレームシーケンスでの、ビデオクリップに含まれるビデオフレームの位置によって特徴付けられ、又は、当該ビデオクリップのビデオにおける開始点及び終了点によって特徴づけられる。したがって、ここでは、ビデオにおける現在のビデオクリップの位置変化は、ビデオフレームシーケンスにおける現在のビデオクリップの位置変化によっても特徴付けられても良く、あるいは、ビデオにおける現在のビデオクリップの開始点および/または終了点の変化によっても特徴付けられても良い。
【0063】
ここで、現在の動作ポリシーは、例えば、ビデオ内に設定された「タイムスライド」の変化ポリシーとして理解される。本ステップにおいて、ステップ202aにおいて得られた現在の状態情報に基づき、タイムスライドに対する変更は、タイムスライドの開始位置の変更と、タイムスライドの終了位置の変更と、タイムスライドの長さの変更等のうちの少なくとも一つを含むが、これらに限られない。
【0064】
なお、いくつかの適用シナリオでは、記述情報と現在の状態情報との間の差に基づいて現在の動作ポリシーを決定して、ビデオから特定されたビデオクリップを変更することができる。これらの適用シナリオにおいて、例えば、予め生成されたターゲットビデオクリップの記述特徴を示す情報、及び、現在のビデオクリップの特徴を示す情報は、いずれも特徴ベクトルとして表されるので、両者の特徴ベクトルのそれぞれの数値特徴と、当該二つの特徴ベクトルの間の距離などに基づいて、タイムスライドウィンドウの位置変化及び/又は長さ変化を決定して、ビデオから特定されたビデオクリップを変更することができる。
【0065】
なお、タイムスライドウィンドウの変化に応じてビデオから得られたビデオクリップが変化するに従って、得られたビデオクリップの特徴も変化することが理解すべきである。
【0066】
本実施例によるビデオにおいてターゲットビデオクリップを特定する方法は、さらに以下のステップを含む。
【0067】
ステップ203において、予め設定された条件を満たしたことに応答して、現在のビデオクリップに対して現在の動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとする。
【0068】
ここで、所定の条件とは、あらゆる実施可能な条件とされてもよい。
【0069】
例えば、いくつかの適用シナリオにおいては、ターゲットビデオクリップ特定ステップの実行された回数を予め設定された条件としてもよい。これらの適用シナリオにおいて、ターゲットビデオクリップ特定ステップの実行された回数が予め設定された回数閾値に達すると、最終回のターゲットビデオクリップ特定ステップを実行することにより決定された現在の動作ポリシーを採用してタイムスライドウィンドウを変更し、変更後のタイムスライドウィンドウにより決定されたビデオクリップをターゲットビデオクリップとすることができる。
【0070】
又は、他の適用シナリオにおいて、さらに予め設定されたターゲット動作ポリシーをプリセット条件とすることができる。これらの適用シナリオにおいて、ターゲットビデオクリップ特定ステップによって決定された現在の動作ポリシーが当該ターゲット動作ポリシーと同じであり、又は類似度が高い場合、最後回に現在の動作ポリシーを実行した後に得られたビデオクリップをターゲットビデオクリップとすることができる。これらの適用シナリオにおいて、例えば、ターゲット動作ポリシーは、「タイムスライドウィンドウを変更しない」であり、そうすると、ターゲットビデオクリップ特定ステップを実行した後に得られた現在の動作ポリシーも「タイムスライドウィンドウを変更しない」であり、又は、現在のタイムスライドウィンドウに対して何らかの些細の変更を行う場合、最後回にターゲットビデオクリップ特定ステップを実行して決定された現在の動作ポリシーを採用してタイムスライドウィンドウを変更し、変更後のタイムスライドウィンドウによって決定されたビデオクリップをターゲットビデオクリップとすることができる。
【0071】
本願の実施例が提供するビデオにおいてターゲットビデオクリップを特定する方法は、まず、現在位置に基づいて、ビデオにおける現在ビデオクリップを決定し、続いて、現在の状態情報を決定し、それから、現在の状態情報に基づいて現在の動作ポリシーを生成し、現在の動作ポリシーを用いて現在位置を変更して、対応してビデオから特定されたビデオクリップを変更する。また、予め設定された条件を設定し、そして、予め設定された条件を満たした後に現在のビデオクリップに対して現在の動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとすることにより、ビデオにおいて予め設定された記述情報にマッチしたターゲットビデオクリップを特定することができる。
【0072】
理解すべきなのは、本実施例のビデオにおいてターゲットビデオクリップを特定する方法において、ターゲットビデオクリップ特定ステップを実行した後、まだ予め設定された条件が満たされていない場合、現在のビデオクリップに対して現在の動作ポリシーを実行して得られたビデオクリップを更新済みの現在のビデオクリップとして、ターゲットビデオクリップ特定ステップを再実行する。このように、予め設定された条件が満たされる前に、ターゲットビデオクリップ特定ステップを繰り返し実行することにより、現在のビデオクリップを徐々にターゲットビデオクリップに近づけることができる。
【0073】
引き続き図3を参照する。図3は、本実施例によるビデオにおいてターゲットビデオクリップを特定する方法の適用シナリオの概略図300である。この適用シナリオでは、例えば、男の子がギターを弾くビデオクリップをビデオから特定することが望まれる。
【0074】
図3に示すように、まず、時刻tにおいて、ビデオフレームシーケンス[f,f,…,f15]で構成されるビデオにおいて、初期タイムスライドウィンドウを決定し、該初期タイムスライドウィンドウに基づいて現在のビデオクリップF=[f,f,…,f]を決定する。
【0075】
次に、「男の子がギターを弾いた」という記述文の特徴を特徴付けるための記述情報を決定する。例えば、予めトレーニングされたSentence―vecモデル(例えば、Skip-thoughtモデル)を用いて該記述文の記述特徴を抽出し、且つ該記述特徴に基づいて記述情報を得ることができる。
【0076】
次に、現在のビデオクリップFの現在の状態情報を決定することができる。例えば、Fを予めトレーニングされた三次元畳み込みニューラルネットワークモデルに入力して、現在のビデオクリップFの特徴ベクトルを抽出し、且つ該特徴ベクトルに基づいて現在の状態情報を得ることができる。
【0077】
続いて、記述情報及び現在の状態情報に対する演算(例えば、記述情報及び現在の状態情報の比較)により、現在の動作ポリシーを生成しても良い。当該該現在の動作ポリシーにより、現在のタイムスライドによって決定された現在のビデオクリップFを調整することができる。
【0078】
続いて、現在の状態が予め設定された条件を満していない(例えば、現在ターゲットビデオクリップ特定ステップの実行された回数が予め設定された回数閾値に達しておらず、且つ/或いは、現在の動作ポリシーが予め設定された動作ポリシーとマッチしない)場合、現在のビデオクリップFに対して該現在の動作ポリシーを実行して、新たな現在のビデオクリップF=[f,f,…,f]を取得する。
【0079】
このように繰り返し、最後に、ターゲットビデオクリップ特定ステップがn回実行されて、予め設定された条件を満たしたことになると、該現在の動作ポリシーを実行した後の現在のビデオクリップFn=[f,f,…,f10]を特定されたターゲットビデオクリップとする。
【0080】
図4に示すように、本願のビデオにおいてターゲットビデオクリップを特定する方法の別の実施例の概略的なフロー400である。
【0081】
本実施例の方法は、以下のステップを含む。
【0082】
ステップ401において、ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定する。
【0083】
本実施例のステップ401は、図2に示す実施例のステップ201と同様に実行することができるので、ここで説明を省略する。
【0084】
ステップ402において、予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得し、ターゲットビデオクリップ特定ステップを実行する。
【0085】
本実施形態のターゲットビデオクリップ特定ステップは、さらに以下のサブステップ402a~402cを含むことができる。
【0086】
具体的には、サブステップ402aは、現在のビデオクリップの現在の状態情報を決定し、そのうち、現在の状態情報は現在のビデオクリップの特徴を示す情報を含む。
【0087】
本実施例におけるサブステップ402aは、図2に示す実施例におけるサブステップ202aと同様に実行することができ、ここで説明を省略する。
【0088】
サブステップ402bにおいて、記述情報及び現在の状態情報を予めトレーニングされたポリシー生成モデルに入力して、予め生成された動作ポリシー集合における、現在のビデオクリップに対し実行され各動作ポリシーの確率分布を得る。
【0089】
ここで、ポリシー生成モデルは、例えば、強化学習(reinforcement learning)により得ることができる。強化学習とは、エージェント(Agent)が「試行錯誤」(try and error)の方式で学習し、環境とインタラクトして得たリワードにより行為がガイドされることであり、エージェントが最大のリワードを得ることを目的とする。
【0090】
本実施例において、学習は、最終的にビデオから記述特徴の対応するビデオクリップを正確に特定するための動作ポリシーを取得することを目的とする。したがって、適切にリワードを設定することにより、エージェントは、ビデオから記述特徴にマッチしたターゲットビデオクリップを段階的に特定することができることが理解される。
【0091】
例えば、理解できるように、エージェントにより多くのターゲットビデオクリップ特定ステップが実行されることにより、最終的に精度よくゲットビデオクリップを決定することができる一方、演算量が大幅に増してしまう。これに対し、強化学習の際に、リワードを、特定の評価指標に基づいて決定された確度と正の相関を持たせ、かつ、演算量と負の相関を持たせることにより、最終的に学習済みのポリシーは、確度が高く、かつ、演算量が比較的小さいものとなる。
【0092】
また、予め生成された動作ポリシー集合には、予め設定された動作ポリシーが複数含まれてもよい。例えば、いくつかの選択的な実施例において、動作ポリシー集合は、以下の予め設定された動作ポリシーを含むことができる。即ち、現在のビデオクリップの開始点及び終了点をδだけ同時に前進させる動作ポリシー、現在のビデオクリップの開始点及び終了点をδだけ同時に後退させる動作ポリシー、現在のビデオクリップの開始点をδだけ前進させる動作ポリシー、現在のビデオクリップの開始点をδだけ後退させる動作ポリシー、現在のビデオクリップの終了点をδだけ前進させる動作ポリシー、現在のビデオクリップの終了点をδだけ後退させて停止させる(すなわち、現在のビデオクリップの開始点及び終了点に対して何の調整もしない)動作ポリシー。ここで、δは、所定の割合で、ビデオの総時間長から算出された値であってもよい。例えば、所定の割合は10%とし、ビデオの総時間は1分間とすると、δは、60秒×10%=6秒となる。
【0093】
サブステップ402cにおいて、得られた確率分布に基づき、動作ポリシー集合から現在の動作ポリシーを決定する。
【0094】
強化学習により、現在のビデオクリップに対してそれぞれ動作ポリシー集合における各動作ポリシーを実行して得られた確率分布を得ることができる。該確率分布は、動作ポリシー集合において、各動作ポリシーが現在の最適な動作ポリシーである場合の確率として理解される。すなわち、動作ポリシーは、確率分布において、大きい確率を有するにつれて、最適的な動作となる確率も大きくなる。そのため、いくつかの選択的な実施例において、確率分布において、最も高い確率の対応する動作ポリシーを、現在の動作ポリシーとして決定するようにしてもよい。
【0095】
本実施例のビデオにおいてターゲットビデオクリップを特定する方法は、さらに以下のステップを含む。
【0096】
ステップ403において、予め設定された条件を満たしたことに応答し、現在のビデオクリップに対して現在の動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとする。
【0097】
本ステップ403は、図2に示す実施例におけるステップ203と同様に実行することができるので、ここでは説明を省略する。
【0098】
また、いくつかの選択的な実施例において、図2に示す実施例と同様であり、予め設定された条件に達しない場合、本実施例の方法は、同様に現在のビデオクリップに対して現在の動作ポリシーを実行して得られたビデオクリップを更新済みの現在のビデオクリップとして、ターゲットビデオクリップの決定ステップを再実行するようにしてもよい。
【0099】
いくつかの選択的な実施例において、本実施例のビデオにおいてターゲットビデオクリップを特定する方法は、図5に示すポリシー生成モデル500を採用することができる。
【0100】
具体的には、図5に示すように、ポリシー生成モデルは、記述ネットワーク501及びポリシー生成ネットワーク502を含むことができる。
【0101】
記述ネットワーク501は、複数の全結合層を有する全結合ユニットを含み、全結合ユニットは、予め取得されたターゲットビデオクリップの記述特徴及び現在の状態情報に基づいて現在の状態s(t)を生成するために用いられる。
【0102】
例えば、いくつかの選択的な実施例において、図5に示すように、全結合ユニットは、全結合層F01、F02、およびF05を含むことができる。ここで、全結合層F01は、ターゲットビデオクリップの記述特徴を受信し、受信されたターゲットビデオクリップの記述特徴を統合し、統合された特徴を出力することができる。同様に、全結合層F02は、現在のビデオクリップの特徴を示す情報などの現在の状態情報を受信し、受信された当該現在のビデオクリップの特徴を示す情報を統合して、統合された特徴を出力することができる。全結合層F05は、さらにその受信した全結合層F01及びF02の出力を統合し、統合された特徴、即ち、現在の状態s(t)を出力する。
【0103】
理解できるように、いくつかの選択的な実施例において、より多くの情報を利用して、ビデオの特徴及び現在のビデオクリップの特徴を記述することが望ましい場合、記述ネットワークは、さらにこれらの特徴を受信し、これらの特徴を統合するための全結合層をさらに設定することができる。それに応じて、全結合ユニットにおける全結合層F05もこれらの統合された特徴を受信して、これらの統合された特徴に基づいて現在の状態s(t)を取得する。
【0104】
例えば、これらの代替実施形態のいくつかの適用シナリオでは、現在の状態情報は、現在のビデオクリップの特徴を示す情報に加えて、ビデオ内の現在のビデオクリップの相対位置特徴を示す情報を含む。これらの適用シナリオにおいて、記述ネットワーク(例えば、記述ネットワークにおける全結合ユニット)は、さらに全結合層F03(図示せず)を含むことができる。全結合層F03は、受信された、現在のビデオクリップのビデオ内の相対位置特徴を示すための情報を統合し、図5に示すように全結合層F05に出力することができる。全結合層F05は、さらに受信した全結合層F01、F02及びF03の出力を統合し、統合された特徴、即ち現在の状態s(t)を出力することができる。
【0105】
また、これらの適用シナリオにおいて、実行主体は、ターゲットビデオクリップ特定ステップを実行する前に、ビデオのビデオ特徴を示すビデオ特徴情報を取得してもよい。例えば、実行主体は、予めトレーニングされた三次元畳み込みニューラルネットワークを用いてビデオのビデオ特徴を抽出して、ビデオ特徴情報を得ることができる。ここで、現在のビデオクリップのビデオ特徴を抽出する三次元畳み込みニューラルネットワークを利用してビデオ全体のビデオ特徴を抽出することができる。これらの適用シナリオにおいて、それに応じて、記述ネットワーク(例えば、記述ネットワークにおける全結合ユニット)は、さらに全結合層F04(図に示されない)を含むことができる。この全結合レイヤF04は、受信したビデオのビデオ特徴を示すビデオ特徴情報を統合して図5に示す全結合レイヤF05に出力することができる。全結合層F05は、さらに受信した全結合層F01、F02、F03及びF04の出力を統合し、統合された特徴、即ち現在の状態s(t)を出力することができる。
【0106】
ポリシー生成ネットワーク502は、ゲート付き再回帰ユニット(Gated Recurrent Unit、GRU)502a及び第1の全結合層502bを含むことができる。ゲート付き再回帰ユニット502aは、現在の状態情報s(t)に基づいて隠れ状態を生成するために用いられ、第1の全結合層502bは、隠れ状態に基づいて確率分布π(ai (t),s(t))を生成するために用いられる。ここで、π(ai (t),s(t))は、現在の状態s(t)の条件での各動作ポリシーai (t)の確率分布として理解することができる。ここで、動作ポリシーai (t)は、予め設定された動作ポリシー集合Aにおけるいずれかの動作ポリシーである。理解できるように、いくつかの適用シナリオにおいて、ポリシー生成ネットワーク502は、分類器(図示せず)も含んでもよい。識別器は、例えば、Softmax識別器を使用してもよい。分類器は、第1の全結合層502bから出力された確率分布を正規化することができ、正規化後の確率分布において、動作ポリシー集合における各動作ポリシーの対応する確率の和は1となる。
【0107】
明らかに、ポリシー生成モデルを用いて現在の動作ポリシーを決定する前に、さらにポリシー生成モデルをトレーニングすることを必要とする。
【0108】
ここで、トレーニング済みポリシー生成モデルは、予め設定された損失関数に基づいて得られた合計損失値を用いて初期ポリシー生成モデルをトレーニングして得ることができる。
【0109】
いくつかの選択的な実施例において、合計損失値は、図6に示すフローによって得ることができる。
【0110】
具体的には、まず、トレーニングサンプルビデオと、トレーニングサンプルビデオのターゲットビデオクリップの現在位置情報とに基づいて決定されたトレーニングサンプルビデオの現在ビデオクリップとを、現在ポリシー生成モデルに入力することができる。その後、反復ステップ601を実行する。
【0111】
具体的には、反復ステップ601は、以下のステップをさらに含む。
【0112】
サブステップ601aにおいて、現在のポリシー生成モデルの記述ネットワークに基づき、トレーニングサンプルビデオの現在の状態を決定する。ここで、トレーニングサンプルビデオの現在の状態は、例えば、トレーニングサンプルビデオに事前に注釈されたターゲットビデオクリップの記述特徴、トレーニングサンプルビデオの現在ビデオクリップの現在の状態情報(例えば、現在ビデオクリップの特徴を示す情報、及び現在ビデオクリップのビデオにおける相対位置特徴を示す情報)及びトレーニングサンプルビデオのビデオ特徴情報に基づいて得ることができる。なお、ポリシー生成モデルのトレーニングの際に、ポリシー生成モデルにおけるパラメータが変化するようにする。したがって、ここでの現在のポリシー生成モデルは、初期ポリシー生成モデルであってもよく、或いは、一回又は複数回の合計損失値の逆伝達を経て、初期ポリシー生成モデルにおけるパラメータを調整した後に得られたいずれかのポリシー生成モデルであってもよい。サブステップ601bにおいて、決定されたトレーニングサンプルビデオの現在の状態を現在ポリシー生成モデルのポリシー生成ネットワークに入力して、現在ポリシー生成モデル及びトレーニングサンプルビデオの現在の状態での現在確率分布を得る。
【0113】
サブステップ601cにおいて、決定された現在の確率分布に基づき、予め設定された損失関数を利用し、現在の反復ステップの損失値を決定する。
【0114】
サブステップ601dにおいて、現在の反復ステップの損失値と前の反復ステップの損失値の和を更新済みの現在の反復ステップの損失値とする。
【0115】
次に、ステップ602において、反復ステップの終了条件に達しないことに応答し、現在の現在確率分布に基づき、現在位置を更新し、且つ反復ステップ601を再実行する。
【0116】
ステップ603において、反復ステップの終了条件を満たしたことに応答し、最後の反復ステップを実行して得られた更新済みの現在の反復ステップの損失値を合計損失値とする。
【0117】
このように、反復ステップ601を実行して、現在の反復ステップの損失値及び現在位置を徐々に更新することにより、反復ステップの終了条件が満されるまで、毎回算出された損失値を合計することができる。
【0118】
次に、図7を参照して、合計損失値の決定方法についてさらに説明する。
【0119】
図7では、図5と同様の構成となるポリシー生成モデルを模式的に用いて示す。当業者に理解できるように、現在の状態情報に示された特徴によって、ポリシー生成モデルにおける記述ネットワークの構造が異る(例えば、異なる数の全結合層を有する)ようにし、同様に、記述ネットワークへの入力がトレーニングサンプルビデオのビデオ特徴を示すビデオ特徴情報をさらに含む場合、ポリシー生成モデルにおける記述ネットワークにも該ビデオ特徴情報を統合するための全結合層(例えば、前述のように全結合層F04)設け、よって、最終的に生成された現在の状態(即ち、記述ネットワーク701の出力)においてビデオ特徴情報を表すようにする。
【0120】
図7に示すように、まず、トレーニングサンプルビデオにおいてターゲットビデオクリップの初期位置L(0)を決定し、該初期位置に基づいて決定されたトレーニングサンプルビデオの現在のビデオクリップの特徴情報と、予め決定されたトレーニングサンプルビデオの記述情報とを、記述ネットワーク701に入力して、現在の状態S(1)を取得することができる。
【0121】
続いて、現在の状態S(1)をポリシー生成ネットワーク702に入力して、現在のポリシー生成モデルと、トレーニングサンプルビデオの現在の状態S(1)での現在の確率分布π(ai (1)|s(1)π)とを取得する。ここで、θπは、現在のポリシー生成モデルのモデルパラメータである。
【0122】
続いて、決定された現在の確率分布π(ai (1)|s(1)π)に基づき、予め設定された損失関数を用い、現在の反復ステップの損失値Lossを決定する。ここで、反復ステップを実行する前に、現在の反復ステップの損失値は、初期値Loss=0としてもよい。
【0123】
次に、現在の反復ステップの損失値と前の反復ステップの損失値との和を更新済みの現在の反復ステップの損失値とし、すなわち、更新済みのLossは、更新前のLossとLossとの和となる。ここまで、現在の反復ステップの損失値の更新が完了する。
【0124】
続いて、現在が反復ステップの終了条件を満たしたか否かを判断し、例えば、予めTmax回の反復ステップが実行されたことを、反復ステップの終了条件として設定すると、現在の実行回数がTmaxに達する場合、現在の現在の確率分布π(ai (1)|s(1)π)に基づき、現在の位置をL(1)として更新して、反復ステップを再実行する。
【0125】
このように、現在位置がL(1)に更新されるとともに、現在の状態がs(2)に更新され、最終的に得られた確率分布π(ai (2)|s(2)π)も新たな現在の状態s(2)に基づいて得られることになる。さらに、反復ステップを再度実行することにより、現在の反復ステップの損失値Lossを、更新前のLossとLossとの和に更新することができる。
【0126】
現在の反復ステップの損失値及び現在位置を絶えず更新することにより、損失値を徐々に合計することができ、且つ反復ステップの終了条件を満たしたと、最終的な合計損失値を取得する。
【0127】
以上説明したように、本実施例のポリシー生成モデルは、強化学習によりトレーニングして得ることができる。最終に特定されたターゲットビデオの正確度及び演算量の負担を総合的に考慮するように、いくつかの選択的な実施例において、以下の式(1)を採用して、何れの反復ステップを実行したリワードrtを設定することができる。
【数1】
【0128】
上記式(1)において、φは、予め設定されたペナルティ係数(penalty factor)であり、且つ、0<φ≦1を満たす。したがって、-φ×tは負の数であり、且つ、反復ステップの実行回数tが大きいほど、-φ×tが大きくなる。
【0129】
また、上記式(1)は、tIoU(t)は、第tのステップのIoUとして捉えることができ、tIoU(t)以下の式(2)により求めることができる。
【数2】
そのうち、L(t)=[ls (t),le (t)]は、トレーニングサンプルビデオにおいて、トレーニングサンプルビデオに対して第t回の反復ステップ(すなわち、第tのステップ)を実行した後に特定した現在のビデオクリップの位置する時間区間であり、ls (t)は、第tのステップの後、トレーニングサンプルビデオにおける現在のビデオクリップの開始点であり、le (t)は、第tのステップの後、ビデオにおける現在のビデオクリップの終了点である。G=[gs,ge]は、トレーニングサンプルビデオの内の予め注釈されたターゲットビデオクリップの、該トレーニングサンプルビデオにおける時間区間である。したがって、gsは、該トレーニングサンプルビデオにおける、予めマークされたターゲットビデオクリップの開始点であり、geは、該トレーニングサンプルビデオにおける、予めマークされたターゲットビデオクリップの終了点である。
【0130】
理解できるように、該特定のプロセスは、一連の決定問題(sequential decision making problem)としてモデル化されたものであって、L(t)=Gとすることを目的とする。このため、後のステップのリワードは、その前のステップにフィードバックされるようにする。このとき、合計リワードリRは、以下の式(3)により求めることができる。
【数3】
ここで、γは、予め設定された減衰係数であって、且つ、0≦γ≦1を満たし、Tmaxは、予め設定されたトレーニングサンプルビデオに対して図6の示す反復ステップを実行する最大回数である。
【0131】
上述したように、合計リワードリワードRtを最大化するために、合計損失関数は、予め設定された合計リワードリワードの関数Rtに基づいて決定される第1成分を含むことができる。具体的には、第1の成分は、例えば、以下の式(4)を用いて設定することができる:
【数4】
式(4)において、ai (t)|s(t)πは、図6の示す反復ステップ601を実行した度に、現在のポリシー生成モデル及びトレーニングサンプルビデオの現在の状態で、現在の確率分布を決定する。そして,この現在の確率分布は、動作ポリシーの集合Aにおいて、各動作ポリシーai (t)がサンプリングされる確率の確率分布である。
【0132】
このように、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングする場合、第1の成分によって決定された合計損失値の逆伝達により、図5に示すポリシー生成ネットワークにおいて、ゲート付き再回帰ユニットと、第1の全結合層と、全結合ユニットとのパラメータ(θπ)を調整することができる。具体的には、例えば、確率的勾配降下法(Stochastic gradient descent algorithm)によってL’Aπ)を最小化して、L’Aπ)が最小となる場合に対応するθπを得ることができる。
【0133】
いくつかの選択的な実施例において、本実施例のビデオにおいてターゲットビデオクリップを特定する方法は、さらに図8に示すようなポリシー生成モデル800を採用することができる。
【0134】
図8に示すポリシー生成モデルも、図5に示すポリシー生成モデルと同様に、記述ネットワーク801およびポリシー生成ネットワーク802を含むことができる。また、記述ネットワーク801は、図5の記述ネットワーク501と同様の構成とすることができる。
【0135】
また、図8に示すポリシー生成モデルにおいて、ポリシー生成ネットワーク802は、同様にゲート付き再回帰ユニット802a及び第1の全結合層802bを含むことができる。あるいは、図8に示すポリシー生成モデルは同様に第1の全結合層802bの出力端に接続された分類器(図示せず)を含むことができる。
【0136】
図5に示すポリシー生成モデルと異なるが、図8に示すポリシー生成モデルにおいて、ポリシー生成ネットワーク802は、第2の全結合層802cをさらに含む。
【0137】
第2の全結合層802cは、隠れ状態に基づいて現在の状態情報の対応する予測のリワード値v(S(t)v)を生成するために用いられ、そのうち、θvは、第2の全結合層802cのモデルパラメータである。
【0138】
図8に示すポリシー生成ネットワークの構造に基づき、合計リワードリワードRtを最大化するとともに、予測のリワード値を可能な限り実際の合計リワードリワードRtに近くするために、損失関数は、以下の式(5)を用いて設定された損失関数の第1の成分だけでなく、更に式(6)に示すように、予測のリワード値とリワード関数に基づいて決定された実際リワード値との間の差を特徴付けるための第2の成分を含むことができる。
【数5】
【数6】
【0139】
これに応じて、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みのポリシー生成モデルを得る際に、前記第1の成分に基づいて決定された合計損失値の逆伝達により、ゲート付き再回帰ユニットと、第1の全結合層と前記全結合ユニットとのパラメータ(θπ)、及び第2の全結合層のパラメータ(θv)を調整することができ、さらに、第2の成分に基づいて決定された合計損失値の逆伝達により、ゲート付き再回帰ユニットと、第2の全結合層と全結合ユニットとのパラメータ(θv)を調整することができる。
【0140】
さらに、図8に示すようなポリシー生成モデルを採用するいくつかの適用シナリオにおいて、確率分布に基づいて動作ポリシー集合から決定された動作ポリシーの多様性を増加させるために、損失関数は、さらに以下の式(7)を採用して決定された、第1の全結合層が出力する確率分布π(ai (t)|s(t)π)を特徴付けるためのエントロピーの第3の成分を含むことができる。
【数7】
【0141】
これらの適用シナリオにおいて、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニングされた後のポリシー生成モデルを得る際に、さらに第3の成分によって決定された合計損失値の逆伝達により、ゲート付き再回帰ユニットと、第1の全結合層と、全結合ユニットとのパラメータを調整することができる。
【0142】
理解できるように、実際の応用において、さらに式(5)~式(7)により決定された損失関数の加重和に基づいて、式(8)に示す損失関数を得ることができ、且つ式(8)の損失関数により決定された合計損失値を利用してポリシー生成モデルをトレーニングする。
【数8】
ただし、λ0とλ1は、予め設定された係数である。
【0143】
いくつかの代替実施形態において、本実施例のビデオにおいてターゲットビデオクリップを特定する方法は、さらに図9に示すようなポリシー生成モデル900を採用することができる。
【0144】
図9に示すように、ポリシー生成モデルも、記述ネットワーク901及びポリシー生成ネットワーク902を含む。また、記述ネットワーク901は、図5の記述ネットワーク501及び図8の記述ネットワーク801と同様の構成をとることができる。同様に、ポリシー生成ネットワーク902は、図5のポリシー生成ネットワーク502と同様の構造を有することができ、すなわち、ポリシー生成ネットワーク902は、ゲート制御ループネットワーク902aおよび第1の全結合層902bのみを含むことができる。又、ポリシー生成ネットワーク902は、図8のポリシー生成ネットワーク802と同様の構造を有することができ、すなわち、ポリシー生成ネットワーク902は、ゲート制御ループネットワーク902a、第1の全結合層902b、および第2の全結合層902cを含むことができる。選択的に、図9に示すポリシー生成モデルは、同様に第1の全結合層902bの出力端に接続された分類器(図示せず)を含むことができる。
【0145】
図5図8に示したポリシ生成モデルとは異なるが、図9に示したポリシ生成モデルは、位置回帰ネットワーク903をさらに含む。また、図9に示すように、位置回帰ネットワーク903は、記述ネットワーク901に接続された第3の全結合層903a及び第4の全結合層903bを含むことができる。
【0146】
図9に示すポリシー生成モデルの構造に基づき、図6に示すフローを利用して合計損失値を決定する場合、反復ステップは、さらに以下を含むことができる。
【0147】
トレーニングサンプルビデオの現在の状態s(t)を第3の全結合層903aに入力し、トレーニングサンプルビデオの予測のIoUを得る。及び、トレーニングサンプルビデオの現在の状態s(t)を第4の全結合層に入力し、トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置を取得する。
【0148】
損失関数は、第4の成分と第5の成分とをさらに含む。第4の成分は、第3の全結合層により現在の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUと、前回の反復ステップで出力されたトレーニングサンプルビデオのIoUとの間の差を特徴付けるためのものであり、第5の成分は、第4の全結合層で出力されたトレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置と当該トレーニングサンプルビデオに注釈されたターゲットビデオクリップの実際の位置との間の差を特徴付けるためのものである。
【0149】
例えば、損失関数の第4成分は、以下の式(9)により求めることができる。
【数9】
【0150】
損失関数の第5成分は、以下の式(10)により求めることができる。
【数10】
【0151】
上記式(9)において、Pt tIoU今回の反復ステップにおいて、第3の全結合層903aから出力された予測のIoUである。tIoU(t-1)は、最後の反復ステップで出力されたトレーニングサンプルビデオのIoUである。ここで、tIoU(t-1)は、例えば、上記式(2)を用いて決定することができる。
【0152】
そして、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングし、トレーニング済みポリシー生成モデルを得ることは、さらに以下を含む。
【0153】
全結合ユニットと、第3の全結合層と、第4の全結合層とのパラメータは、損失関数の第4の成分および第5の成分によって決定された合計損失値の逆伝達により調整される。
【0154】
理解できるように、実際の応用において、式(9)~式(10)により決定された損失関数の加重和に基づき、式(11)に示す損失関数を得て、式(8)の損失関数により決定された合計損失値を利用して全結合ユニットと、第3の全結合層と第4の全結合層とのパラメータを調整することができる。
【数11】
ただし、λ2は、予め設定された係数である。
【0155】
さらに、図10を参照すると、上記各図に示す方法の実施例として、本願は、ビデオにおいてターゲットビデオクリップを特定する装置の実施例を提供する。該装置の実施例は、図2に示す方法の実施例に対応しており、該装置は、具体的に様々な電子装置に適用することができる。
【0156】
図10に示すように、本実施形態に係るビデオにおいてターゲットビデオクリップを特定する装置は、決定ユニット1001と、実行ユニット1002と、生成ユニット1003とを有する。
【0157】
決定ユニット1001は、ビデオから現在位置に基づいて現在ビデオクリップを決定するように構成することができる。
【0158】
実行ユニット1002は、予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得して、ターゲットビデオクリップ特定ステップを実行するように構成され、ターゲットビデオクリップ特定ステップは、現在のビデオクリップの現在の状態情報を決定するステップであって、前記現在の状態情報は、現在のビデオクリップの特徴を示す情報を含むステップと、前記記述情報及び前記現在の状態情報に基づき、前記ビデオにおける現在のビデオクリップの位置変化を指示するための現在動作ポリシーを生成するステップと、を含む。
【0159】
生成ユニット1003は、予め設定された条件を満たすことに応答し、前記現在のビデオクリップに対し前記現在動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとするように構成されてもよい。
【0160】
いくつかの代替実施形態において、生成ユニット1003は、予め設定された条件を満たしていないことに応答し、現在のビデオクリップに対し現在動作ポリシーを実行して得られたビデオクリップを更新済み現在のビデオクリップとして、ターゲットビデオクリップ特定ステップを再実行するように、さらに構成されてもよい。
【0161】
いくつかの選択的な実施例において、実行ユニット1002は、記述情報及び現在の状態情報を予めトレーニングされたポリシー生成モデルに入力して、予め生成された動作ポリシー集合における、現在ビデオクリップに対し実行され各動作ポリシーの確率分布を得るステップと、得られた確率分布に基づき、動作ポリシー集合から、現在動作ポリシーを決定するように、さらに構成されてもよい。
【0162】
いくつかの選択的な実施例において、ポリシー生成モデルは、記述ネットワーク及びポリシー生成ネットワークを含み、記述ネットワークは、複数の全結合層を有する全結合ユニットを含み、全結合ユニットは、予め取得されたターゲットビデオクリップの記述特徴及び現在の状態情報に基づいて現在の状態を生成するように構成され、ポリシー生成ネットワークは、ゲート付き再回帰ユニット及び第1の全結合層を含み、ゲート付き再回帰ユニットは、現在の状態に基づいて隠れ状態を生成するように構成され、第1の全結合層は、前記隠れ状態に基づいて前記確率分布を生成するように、構成されてもよい。
【0163】
いくつかの選択的な実施例において、本実施例のビデオにおいてターゲットビデオクリップを特定する装置は、さらに取得ユニット(図示せず)を含み、取得ユニットは、ターゲットビデオクリップ特定ステップの前に、ビデオのビデオ特徴を示すビデオ特徴情報を取得するように構成され、記述ネットワークは、ビデオ特徴情報に基づいて前記現在の状態を生成するように更に構成されてもよい。
【0164】
いくつかの代替実施形態では、現在の状態情報は、前記ビデオにおける前記現在ビデオクリップの相対位置の特徴を示す情報をさらに含んでもよい。
【0165】
いくつかの選択的な実施例において、本実施例のビデオにおいてターゲットビデオクリップを特定する装置は、予め設定された損失関数に基づいて得られた合計損失値を利用して初期ポリシー生成モデルをトレーニングして、トレーニング済みポリシー生成モデルを得るように構成されたトレーニングユニットをさらに備え、合計損失値は、合計損失値決定ステップにより決定され、合計損失値決定ステップは、トレーニングサンプルビデオと、前記トレーニングサンプルビデオのターゲットビデオクリップの現在位置の情報に基づいて決定されたトレーニングサンプルビデオの現在ビデオクリップとを、現在ポリシー生成モデルに入力して、反復ステップを実行することを含み、反復ステップは、現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を決定することと、決定されたトレーニングサンプルビデオの現在の状態を前記現在ポリシー生成モデルにおけるポリシー生成ネットワークに入力して、現在ポリシー生成モデルで且つトレーニングサンプルビデオの現在の状態での、現在の確率分布を得ることと、決定された現在の確率分布に基づき、予め設定された損失関数を利用して、現在の反復ステップの損失値を決定することと、現在の反復ステップの損失値と前の反復ステップの損失値との合計を、更新済み現在の反復ステップの損失値とすることと、を含み、合計損失値決定ステップは、反復ステップの終了条件を満たしていないことに応答して、現在の確率分布に基づき、現在位置を更新し、前記反復ステップを再実行することと、反復ステップの終了条件を満たしたことに応答して、最後回の反復ステップにより得られた更新済み現在の反復ステップの損失値を合計損失値とすることと、をさらに含む。
【0166】
いくつかの選択的な実施例では、損失関数は、予め設定された合計リワード関数により決定された第1の成分を含み、トレーニングユニットは、さらに、第1の成分によって決定された合計損失値の逆伝達に基づいて、前記ゲート付き再回帰ユニットと、第1の全結合層と、全結合ユニットとのパラメータを調整するように構成されてもよい。
【0167】
いくつかの選択的な実施例において、ポリシー生成ネットワークは、さらに第2の全結合層を含み、第2の全結合層は、隠れ状態に基づいて前記現在の状態情報に対応する予測のリワード値を生成するように構成されてもよく、損失関数は、前記予測のリワード値と前記リワード関数により決定された実際のリワード値との差を表す第2成分をさらに含んでもよい。
【0168】
これらの選択的な実施例では、トレーニングユニットは、第1の成分により決定された合計損失値の逆伝達に基づいて、前記第2の全結合層のパラメータを調整し、記第2の成分によって決定された合計損失値の逆伝達により、前記ゲート付き再回帰ユニット、前記第2の全結合層及び前記全結合ユニットのパラメータを調整するように構成されてもよい。
【0169】
いくつかの選択的な実施例では、損失関数は、第1の全結合層から出力された確率分布のエントロピーを表す第3の成分をさらに含んでもよい。トレーニングユニットは、さらに、第3の成分によって決定された合計損失値の逆伝達に基づいて、ゲート付き再回帰ユニットと、第1の全結合層と、全結合ユニットとのパラメータを調整するように構成されてもよい。
【0170】
いくつかの選択的な実施例において、ポリシー生成モデルは、前記ポリシー生成モデルは、位置回帰ネットワークをさらに含み、位置復帰ネットワークは、記述ネットワークに接続された第3の全結合層及び第4の全結合層を含んでもよい。
【0171】
これらの選択的な実施例において、トレーニングユニットは、現在ポリシー生成モデルの記述ネットワークにより、前記トレーニングサンプルビデオの現在の状態を確定した後、さらに、トレーニングサンプルビデオの現在の状態を第3の全結合層に入力して、トレーニングサンプルビデオの予測のIoU(Intersection-over-Union)を得、トレーニングサンプルビデオの現在の状態を第4の全結合層に入力して、トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置を得るように構成されてもよい。ここで、損失関数は、第4の成分及び第5の成分をさらに含み、前記第4の成分は、前記第3の全結合層の、現在の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUと、前回の反復ステップにおいて出力されたトレーニングサンプルビデオの予測のIoUとの間の差を表すものであり、第5の成分は、第4の全結合層により出力されたトレーニングサンプルビデオにおいて、当該トレーニングサンプルビデオにおけるターゲットビデオクリップの予測の位置と、当該トレーニングサンプルビデオにおいてラベリングされたターゲットビデオクリップの実際の位置との間の差を表すものである。トレーニングユニットは、さらに、損失関数の第4の成分及び第5の成分によって決定される合計損失値の逆伝達に基づいて、前記全結合ユニットと、第3の全結合層と、第4の全結合層とのパラメータを調整するように構成されてもよい。
【0172】
次に図11を参照し、それは本願の実施例のビデオにおいてターゲットビデオクリップを特定する方法を実現するために用いられる電子装置のコンピュータシステム1100の構造概略図を示す。なお、図11に示した電子機器は一例であって、本発明の実施の形態の機能、使用範囲に限定されるものではない。
【0173】
図11に示すように、コンピュータシステム1100は、ROM(Read Only Memory)1102に記憶されているプログラム、または記憶部1106からRAM(Random Access Memory)1103にロードされたプログラムに従って各種の適切な動作および処理を実行するプロセッサ(例えば中央処理ユニット)1101を含む。RAM1103には、システム1100の動作に必要な各種プログラムやデータも記憶される。CPU1101、ROM1102、及びRAM1103は、バス1104を介して相互に接続されている。バス1104には、さらに、入出力インタフェース1105が接続されている。
【0174】
入出力インタフェース1105には、ハードディスクなどより構成される記憶部1106、LANカードやモデムなどのネットワークインタフェースカードより構成される通信部1107が接続されている。通信部1107は,インターネットなどのネットワークを介しての通信処理を行う。入出力インタフェース1105にはまた,必要に応じて駆動部1108が接続される。ドライブ1108には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア1109が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部1106にインストールされる。
【0175】
特に、本開示の実施形態によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実装することができる。例えば、本開示の実施形態は、フローチャートで示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体上に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含む。このような実施の形態において、コンピュータプログラムは、通信部1107を介してネットワークからダウンロードしてインストールしたり、リムーバブルメディア1109からインストールすることができる。コンピュータプログラムが中央処理装置(CPU)1101によって実行されると、本願の方法に定義された上記機能を実行する。説明すべきものとして、本願に記載のコンピュータ読み取り可能な媒体はコンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、これらに限定されないが、電気、磁気、光、電磁気、赤外線、または半導体のシステム、デバイス、もしくはデバイス、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例は、1つ以上の導線を有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本出願において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用され得るプログラムを含むか、または格納する任意の有形の媒体とすることができる。本出願において、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを担持するベースバンドまたは搬送波の一部として伝播するデータ信号を含むことができる。そのような伝播データ信号は、電磁信号、光信号、または上述の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、コンピュータ読み取り可能な媒体は、命令実行システム、装置、または装置によって使用するためのプログラムを送信、伝播、または伝送することができる。コンピュータ可読媒体上に含まれるプログラムコードは、無線、電気ケーブル、光ケーブル、 RFなど、または上述の任意の適切な組み合わせを含むが、これらに限定されない任意の適切な媒体を用いて送信されてもよい。
【0176】
本出願の動作を実行するためのコンピュータプログラムコードは、Java (登録商標)、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似のプログラミング言語などの従来のプログラムプログラミング言語を含む1つまたは複数のプログラミング言語またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行されてもよく、部分的にユーザコンピュータ上で実行されてもよく、独立したソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータ上で部分的にリモートコンピュータ上で実行されてもよく、または完全にリモートコンピュータまたはサーバ上で実行されてもよい。リモート・コンピュータに関連する場合、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザ・コンピュータに接続されてもよいし、(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続されてもよい。
【0177】
図1は、本開示の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実施形態のアーキテクチャ、機能、および動作を示すフローチャートおよびブロック図である。これに関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実装するための1つまたは複数の実行可能命令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。また、選択的な実施例として、ブロック内に示された機能は、図面内に示された順序とは異なる順序で発生してもよいことに留意されたい。例えば、2つの連続して表されたブロックは、実際には実質的に並行して実行されてもよく、場合によっては、関連する機能に応じて逆の順序で実行されてもよい。ブロック図および/またはフローチャートにおける各ブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、特定の機能または動作を実行する専用のハードウェアベースのシステムによって実装されてもよく、または専用のハードウェアとコンピュータ命令との組み合わせによって実装されてもよいことにも留意されたい。
【0178】
本願の実施例に記載されたユニットはソフトウェアの方式で実現することができ、ハードウェアの方式で実現することができる。記述ユニットは、プロセッサに設けられてもよく、例えば、「プロセッサは、決定ユニット、実行ユニット及び生成ユニットを含む」と記載されてもよい。ここで、これらのユニットの名称は、該ユニット自体を限定するものではない場合もある。例えば、決定ユニットは、さらに「ビデオから、現在位置に基づいて現在ビデオクリップのユニットを決定する」と記載されてもよい。
【0179】
別の態様として、本願は、さらにコンピュータ読み取り可能な媒体を提供し、該コンピュータ読み取り可能な媒体は、上記実施例に記載の装置に含まれてもよく、又は単独で存在し、該装置に組み込まれなくてもよい。上記コンピュータ読み取り可能な媒体に一つ又は複数のプログラムが記憶されており、上記一つ又は複数のプログラムが該装置に実行されると、該装置に、以下の方法を実行させる。即ち、ビデオにおいて、現在位置に基づいて現在のビデオクリップを決定するステップと、予め生成されたターゲットビデオクリップの記述特徴を示す記述情報を取得して、ターゲットビデオクリップ特定ステップを実行するステップと、を含み、ターゲットビデオクリップ特定ステップは、現在のビデオクリップの現在の状態情報を決定するステップであって、現在の状態情報は、現在のビデオクリップの特徴を示す情報を含むステップと、記述情報及び現在の状態情報に基づき、前記ビデオにおける現在のビデオクリップの位置変化を指示するための現在動作ポリシーを生成するステップと、を含む方法であって、当該方法は、予め設定された条件を満たすことに応答し、現在のビデオクリップに対し、現在動作ポリシーを実行して得られたビデオクリップをターゲットビデオクリップとするステップをさらに含む。
【0180】
以上の説明は、本出願の好適な実施例及び応用される技術原理の説明に過ぎない。当業者に理解できるように、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されるものではなく、同時に上記発明思想を逸脱することなく、上記技術的特徴又はその同等の特徴を任意に組み合わせて形成される他の技術的解決ユニットも含む。例えば上記特徴は本願に開示された類似機能を有する技術的特徴と置換して形成された技術的解決手段も含む。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11