特許7292325 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ペキン　シャオミ　パインコーン　エレクトロニクス　カンパニー，　リミテッドの特許一覧

特許7292325ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-08

(45)【発行日】2023-06-16

(54)【発明の名称】ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20230609BHJP

G06V 10/82 20220101ALI20230609BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

【請求項の数】 12

(21)【出願番号】P 2021074892

(22)【出願日】2021-04-27

(65)【公開番号】P2022037876

(43)【公開日】2022-03-09

【審査請求日】2021-04-27

(31)【優先権主張番号】202010866476.9

(32)【優先日】2020-08-25

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】520274253

【氏名又は名称】ペキンシャオミパインコーンエレクトロニクスカンパニー，リミテッド

(74)【代理人】

【識別番号】100095407

【弁理士】

【氏名又は名称】木村満

(74)【代理人】

【識別番号】100132883

【弁理士】

【氏名又は名称】森川泰司

(74)【代理人】

【識別番号】100148633

【弁理士】

【氏名又は名称】桜田圭

(74)【代理人】

【識別番号】100147924

【弁理士】

【氏名又は名称】美恵英樹

(72)【発明者】

【氏名】胡佳高

(72)【発明者】

【氏名】王飛

(72)【発明者】

【氏名】余鵬飛

(72)【発明者】

【氏名】周代国

【審査官】松浦功

(56)【参考文献】

【文献】中国特許出願公開第１１０９９６１６９（ＣＮ，Ａ）

【文献】中国特許出願公開第１１１２２５２３６（ＣＮ，Ａ）

【文献】YAO, T. et al.，Highlight Detection with Pairwise Deep Ranking for First-Person Video Summarization，2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [online]，IEEE，2016年06月，pp. 982 - 990，[検索日 2022.06.09], インターネット，ＵＲＬ：https://ieeexplore.ieee.org/document/7780481

【文献】HAN, H.-K. et al.，A Deep Learning Model for Extracting Live Streaming Video Highlights using Audience Messages，AICCC 2019: Proceedings of the 2019 2nd Artificial Intelligence and Cloud Computing Conference [online]，ACM，2019年12月，pp. 75 - 81，[検索日 2022.06.09], インターネット，ＵＲＬ：https://dl.acm.org/doi/pdf/10.1145/3375959.3375965

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

ＧｏｏｇｌｅＳｃｈｏｌａｒ

(57)【特許請求の範囲】

【請求項1】

ビデオクリップ抽出方法であって、
ビデオを取得し、前記ビデオでサンプリングしてＮ個のビデオフレーム（Ｎが正整数）を得るステップと、
前記Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るステップと、
予めトレーニングされた採点モデルに基づき、前記Ｎ個のビデオフレームの点数を決定するステップであって、前記Ｎ個のビデオフレームのうちの第ｉフレームに対して、前記第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第ｉフレームの点数を得て、前記ｉがＮ以下の正整数であり、前記Ｋが正整数であり、前記採点モデルは、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングされて得られ、第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップ、非目標プロパティが注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップに基づいて得られるステップと、
前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップと、を含み、
前記マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とするビデオクリップ抽出方法。

【請求項2】

前記マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るステップは、
第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、かつ
前記マルチフレーム統合層に基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合するステップと、
前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得るステップであって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つであるステップと、を含む、
ことを特徴とする請求項１に記載のビデオクリップ抽出方法。

【請求項3】

前記ビデオクリップ抽出方法は、更に、
１つ又は複数の注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップを含むサンプルビデオを取得し、各注釈されたサンプルビデオクリップは、目標ビデオクリップを特徴付けるための目標プロパティまたは非目標ビデオクリップを特徴付けるための非目標プロパティが注釈されることを含む、
ことを特徴とする請求項１又は２に記載のビデオクリップ抽出方法。

【請求項4】

前記ビデオクリップ抽出方法は、更に、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得るステップ、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得るステップ、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出し、前記第１のクリップ及び前記第２のクリップからデータペアを得て、且つ、前記第１のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第２のクリップ及び前記一部のビデオクリップからデータペアを得るステップ、を含む、
ことを特徴とする請求項３に記載のビデオクリップ抽出方法。

【請求項5】

前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップは、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得るステップであって、各々のスライディングウィンドウが１つのビデオクリップに対応するステップと、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とするステップと、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出するステップと、を含む、
ことを特徴とする請求項１に記載のビデオクリップ抽出方法。

【請求項6】

ビデオクリップ抽出装置であって、
ビデオを取得し、前記ビデオでサンプリングしてＮ個のビデオフレーム（Ｎが正整数）を得るための取得ユニットと、
前記Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るための特徴抽出ユニットと、
予めトレーニングされた採点モデルに基づき、前記Ｎ個のビデオフレームの点数を決定するための決定ユニットであって、前記Ｎ個のビデオフレームのうちの第ｉフレームに対して、前記第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第ｉフレームの点数を得て、前記ｉがＮ以下の正整数であり、前記Ｋが正整数である決定ユニットと、
前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するための抽出ユニットと、
マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るために用いられるトレーニングユニットであって、第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップ、非目標プロパティが注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップに基づいて得られるトレーニングユニットと、を含み、
前記マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とするビデオクリップ抽出装置。

【請求項7】

前記トレーニングユニットは、以下の手段を採用して、前記マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得て、即ち、
第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、
前記マルチフレーム統合層に基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合し、
前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である、
ことを特徴とする請求項６に記載のビデオクリップ抽出装置。

【請求項8】

１つ又は複数の注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップを含むサンプルビデオを取得し、各注釈されたサンプルビデオクリップは、目標ビデオクリップを特徴付けるための目標プロパティまたは非目標ビデオクリップを特徴付けるための非目標プロパティが注釈される、
ことを特徴とする請求項６又は７に記載のビデオクリップ抽出装置。

【請求項9】

前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得る手段、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得る手段、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出し、前記第１のクリップ及び前記第２のクリップからデータペアを得て、且つ、前記第１のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第２のクリップ及び前記一部のビデオクリップからデータペアを得る手段である、
ことを特徴とする請求項８に記載のビデオクリップ抽出装置。

【請求項10】

前記抽出ユニットは、以下の手段を採用して、前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出し、即ち、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが１つのビデオクリップに対応し、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出する手段である、
ことを特徴とする請求項６に記載のビデオクリップ抽出装置。

【請求項11】

ビデオクリップ抽出装置であって、
命令を記憶するためのメモリと、
請求項１～５のいずれか一項に記載のビデオクリップ抽出方法を実行するように、前記メモリに記憶されている命令を呼び出すためのプロセッサと、を含む、
ビデオクリップ抽出装置。

【請求項12】

命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサに実行される場合、請求項１～５のいずれか一項に記載のビデオクリップ抽出方法が実行されるコンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、ビデオ処理の技術分野に関し、特に、ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体に関する。

【背景技術】

【0002】

ビデオクリップの抽出は、当該ビデオにおける任意の１つ又は複数の短いビデオクリップを抽出するものであってよい。例えば、ビデオにおける見事なビデオクリップを抽出し、当該ビデオにおいて内容が他のビデオクリップの内容に比べてより見事な１つ又は複数のビデオクリップを抽出することができる。

【0003】

関連技術において、ビデオのビデオクリップ抽出は、ビデオを完全に取得してはじめてビデオの内容に基づいて複数のビデオクリップに分割し、且つ、ビデオクリップごとに採点し、各ビデオクリップの点数に基づき、ビデオクリップ抽出を行う必要がある。しかしながら、当該方法によりビデオクリップを抽出すれば、大量の計算を経て各ビデオクリップの点数を決定する必要があり、抽出にかかる時間が長く、ユーザの使用体験に影響を及ぼす。

【発明の概要】

【発明が解決しようとする課題】

【0004】

関連技術における問題を克服するために、本出願は、ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体を提供する。

【課題を解決するための手段】

【0005】

本出願の実施例の第１の態様によれば、ビデオクリップ抽出方法を提供し、ビデオを取得し、前記ビデオでサンプリングしてＮ個のビデオフレーム（Ｎが正整数）を得るステップと、前記Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るステップと、予めトレーニングされた採点モデルに基づき、前記Ｎ個のビデオフレームの点数を決定するステップであって、前記Ｎ個のビデオフレームのうちの第ｉフレームに対して、前記第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第ｉフレームの点数を得て、前記ｉがＮ以下の正整数であり、前記Ｋが正整数であるステップと、前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップと、を含む。

【0006】

一実施例において、前記採点モデルは、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングされて得られ、前記第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる。

【0007】

別の実施例において、前記マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして前記採点モデルを得るステップは、第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、かつ前記マルチフレーム統合層に基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合するステップと、前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得るステップであって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つであるステップと、を含む。

【0008】

更に別の実施例において、前記第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、１つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得る手段であって、第１のクリップが目標ビデオクリップとなる可能性が、第２のクリップが目標ビデオクリップとなる可能性よりも高い手段である。

【0009】

更に別の実施例において、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得るステップは、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得るステップ、又は、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得るステップ、又は、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第１のクリップ及び前記第２のクリップからデータペアを得て、且つ、前記第１のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第２のクリップ及び前記一部のビデオクリップからデータペアを得るステップ、を含む。

【0010】

更に別の実施例において、前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップは、一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得るステップであって、各々のスライディングウィンドウが１つのビデオクリップに対応するステップと、スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とするステップと、前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出するステップと、を含む。

【0011】

本出願の実施例の第２の態様によれば、ビデオクリップ抽出装置を提供し、ビデオを取得し、前記ビデオでサンプリングしてＮ個のビデオフレーム（Ｎが正整数）を得るための取得ユニットと、前記Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るための特徴抽出ユニットと、予めトレーニングされた採点モデルに基づき、前記Ｎ個のビデオフレームの点数を決定するための決定ユニットであって、前記Ｎ個のビデオフレームのうちの第ｉフレームに対して、前記第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第ｉフレームの点数を得て、前記ｉがＮ以下の正整数であり、前記Ｋが正整数である決定ユニットと、前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するための抽出ユニットと、を含む。

【0012】

一実施例において、前記ビデオクリップ抽出装置は、トレーニングユニットを更に含み、前記トレーニングユニットは、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアトレーニングに基づき、前記採点モデルを得るために用いられ、前記第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる。

【0013】

別の実施例において、前記トレーニングユニットは、以下の手段を採用して、前記マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得て、即ち、第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、前記マルチフレーム統合層に基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合し、前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である。

【0014】

【0015】

更に別の実施例において、前記第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づいて得られ、即ち、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得る手段、又は、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得る手段、又は、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第１のクリップ及び前記第２のクリップからデータペアを得て、且つ、前記第１のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第２のクリップ及び前記一部のビデオクリップからデータペアを得る手段である。

【0016】

更に別の実施例において、前記抽出ユニットは、以下の手段を採用して、前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出し、即ち、一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが１つのビデオクリップに対応し、スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出する手段である。

【0017】

本出願の実施例の第３の態様によれば、ビデオクリップ抽出装置を提供し、命令を記憶するためのメモリと、上記したいずれか一項に記載のビデオクリップ抽出方法を実行するように、前記メモリに記憶されている命令を呼び出すためのプロセッサと、を含む。

【0018】

本出願の実施例の第４の態様によれば、命令が記憶されているコンピュータ読み取り可能な記憶媒体を提供し、前記命令がプロセッサに実行される場合、上記したいずれか一項に記載のビデオクリップ抽出方法が実行される。

【発明の効果】

【0019】

本出願の実施例により提供される技術案は、以下の有益な効果を含むことができる。本出願により提供されるビデオクリップ抽出方法によれば、ビデオをオンラインで取得する過程で、既に取得したビデオフレームに基づき、抜き取り抽出を行うことができ、採点モデルの計算量を削減することに役立ち、ビデオクリップの抽出スピードを加速させることを容易にする。且つ、ビデオフレームの見事さの点数に基づき、ビデオフレームを取得すると同時に、ビデオの各部分の間の見事さを比較することができ、ビデオを完全に取得した後に、ユーザの所望の目標ビデオクリップを迅速に抽出することができ、ユーザの使用体験を高めやすい。

【0020】

以上の一般的な説明及び後述の詳細な説明は、単なる例示的及び解釈的なものであり、本出願を制限するものではないことを理解されたい。

【図面の簡単な説明】

【0021】

ここの図面は、明細書に組み込まれて、本明細書の一部を構成し、本出願に合致する実施例を示し、明細書と共に本出願の原理を解釈するために用いられる。

【図1】例示的な実施例により示されるビデオクリップ抽出方法のフローチャートである。

【図2】例示的な実施例により示される採点モデルのトレーニング方法のフローチャートである。

【図3】例示的な実施例により示される別の採点モデルのトレーニング方法の模式図である。

【図4】例示的な実施例により示されるデータペア決定方法のフローチャートである。

【図5】例示的な実施例により示されるサンプルビデオの注釈模式図である。

【図6】例示的な実施例により示される別のサンプルビデオの注釈模式図である。

【図7】例示的な実施例により示される更に別のサンプルビデオの注釈模式図である。

【図8】例示的な実施例により示されるビデオクリップ抽出装置のブロック図である。

【図9】例示的な実施例により示される別のビデオクリップ抽出装置のブロック図である。

【発明を実施するための形態】

【0022】

ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の説明において、図面に及ぶ場合、別途示していない限り、異なる図面における同一の数字は、同一の又は類似する要素を表す。以下の例示的な実施例で説明される実施形態は、本出願に合致する全ての実施形態を表すわけではない。むしろ、それらは、添付される特許請求の範囲において詳しく説明される、本出願の一部の態様に合致する装置及び方法の例に過ぎない。

【0023】

本出願の実施例により提供されるビデオクリップ抽出方法は、ハイライトビデオクリップを抽出するシーンのような目標ビデオクリップを抽出するシーンに適用される。例えば、携帯電話のフォトアルバムでユーザのためにハイライトビデオクリップを生成し、プレビューとしてユーザに展示するシーンでもよいし、ショートビデオアプリケーションにおいて、ショートビデオのハイライトビデオクリップを取得してｇｉｆ画像を生成し、ビデオポスターとしてユーザに展示するシーンでもよく、更に、ユーザがオンラインで見ているビデオに対して、再生すると同時に、バックグラウンドで各時点の見事さを計算し、ユーザがビデオを見切った後に、直ちに当該ビデオにおけるハイライトビデオクリップをポップアップし、ユーザがハイライトを再度見ることができる。

【0024】

関連技術において、ビデオのビデオクリップ抽出は、ビデオを完全に取得した後にオフライン状態でビデオの内容に基づいて複数のビデオクリップに分割し、更に各ビデオクリップにビデオ特徴抽出を行い、各ビデオクリップの見事さの点数を計算する必要がある。よって、抽出する必要のあるビデオクリップを決定する。当該方法によりビデオクリップを抽出すれば、ビデオを完全に取得した後に抽出操作を行う必要がある。また、ビデオクリップごとにビデオクリップ特徴抽出を行う時、大量の計算を経て決定する必要があり、長い時間がかかり、抽出する必要のあるビデオクリップを迅速に取得することができず、ユーザの使用体験に影響を及ぼす。

【0025】

これを鑑み、本出願の実施例では、ビデオクリップ抽出方法を提供し、当該ビデオクリップ抽出方法で使用されるビデオクリップ抽出モデルは、トレーニング時にフレーム特徴ベクトルに基づいてトレーニングされることができ、採点モデルの計算量を削減することに役立ち、更に採点スピードを高めることに寄与する。また、モデルの計算量が少ないため、携帯電話、タブレット、パソコンなどの端末で配置されることに役立ち、ユーザが随時使用できる。

【0026】

本出願で提供されるビデオクリップ抽出方法は、サンプリングされたビデオフレームの特徴ベクトルに基づき、採点モデルに入力して各ビデオフレームの点数を得て、且つ、各ビデオフレームの点数に基づき、目標ビデオクリップの抽出を行うことができる。ここで、採用される採点モデルは、フレーム特徴ベクトルに基づいてトレーニングされて得られ、採点モデルは、構造がシンプルであり、計算量が少なく、各ビデオフレームの点数を迅速に出力することに役立ち、更に、各ビデオフレームの点数に基づいて目標ビデオクリップを抽出する際に、短時間内で迅速に抽出し、抽出プロセスを短縮することができ、ユーザの使用体験を高めることに役立つ。

【0027】

図１は、例示的な実施例により示されるビデオクリップ抽出方法のフローチャートであり、図１に示すように、ビデオクリップ抽出方法は、以下のステップＳ１１～ステップＳ１４を含む。

【0028】

ステップＳ１１では、ビデオを取得し、ビデオでサンプリングしてＮ個のビデオフレームを得る。

【0029】

異なる時間長のビデオに対して、サンプリングされたビデオフレームの数は、異なってもよい。本出願の実施例において、ビデオフレームのサンプリングは、様々な形態とすることができる。

【0030】

一実施例において、ビデオフレームのサンプリング手段は、時間勾配を予め設定し、等時間サンプリングを行い、続いてビデオの総時間長を考慮することなく、時間間隔に応じてサンプリングを行えばよいことであってもよく、サンプリングの計算量を減少させ、ビデオフレームのサンプリングスピードを加速させることに役立つ。例えば、予め設定された時間勾配に応じて、取得されたビデオに対して２秒ごとに１つのビデオフレームをサンプリングするように、当該ビデオにおける第２秒、第４秒、第６秒、第８秒に対して、このように類推し、当該ビデオが終わるまでに、２秒ごとにビデオフレームを一回サンプリングする。当該ビデオが１０秒である場合、５つのビデオフレームが得られる。一例において、ビデオが完全にロードされていない場合、現在既にロードされたビデオフレームに対してサンプリングすることができ、更に、ビデオをロードする過程で、ビデオよりも何フレームだけ遅く当該ビデオの各時点の点数を計算し始めることができ、ビデオを完全に取得するまでに待つ必要がなく、更に、オンラインの準実時間計算を実現し、目標ビデオクリップの抽出プロセスを短縮することに役立ち、ユーザの使用体験を高めることに寄与する。

【0031】

別の実施例において、ビデオフレームのサンプリング手段は、サンプリングされるビデオフレームの数を予め設定して指定してから、ビデオフレームサンプリングを行うものであってもよい。ビデオフレームの特徴ベクトルを計算する際に、特徴ベクトルの抽出時間を節約することができ、特徴ベクトル抽出モデルにより計算しやすく、目標ビデオクリップの抽出プロセスを加速させることに役立つ。一例において、ビデオを指定されたビデオフレーム数に応じて均一にサンプリングすることができ、各時点の間に対応するビデオ内容を区別することに役立ち、ビデオフレームの点数に基づき、目標ビデオクリップを迅速に抽出しやすくなる。例えば、５つのビデオフレームを取得する必要がある場合、１０秒のビデオに対して、２秒ごとに一回サンプリングすることができる。１５秒のビデオに対して、３秒ごとに一回サンプリングすることができる。

【0032】

ステップＳ１２では、Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得る。

【0033】

本出願の実施例において、得られたＮ個のビデオフレームをそれぞれトレーニング済みのフレーム特徴抽出モデルに入力し、各ビデオフレームに対応する特徴ベクトルを得て、採点モデルが得られた各ビデオフレームの特徴ベクトルに基づいて採点することができ、各ビデオフレームに対応するビデオの各時点での点数を評価しやすくなり、ユーザの所望の目標ビデオクリップを抽出することに役立つ。フレーム特徴モデルは、標準的な畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣＮＮ）であってもよく、効率的なビデオ理解のための時間的シフトモジュール（ＴｅｍｐｏｒａｌＳｈｉｆｔＭｏｄｕｌｅｆｏｒＥｆｆｉｃｉｅｎｔＶｉｄｅｏＵｎｄｅｒｓｔａｎｄｉｎｇ，ＴＳＭ）のようなオンラインビデオ理解モデルであってもよい。トレーニング済みのＣＮＮを利用してフレーム特徴抽出を行う場合、当該ネットワーク分類層の前の層の出力ベクトルを入力されるビデオフレームのフレーム特徴ベクトルとすることができる。トレーニング済みのオンラインＴＳＭを利用してフレーム特徴抽出を行う場合、バックボーン（ｂａｃｋｂｏｎｅ）の最後の層の出力を特徴ベクトルとすることができ、本出願において限定されない。

【0034】

ステップＳ１３では、予めトレーニングされた採点モデルに基づき、Ｎ個のビデオフレームの点数を決定する。

【0035】

本出願の実施例において、トレーニング済みの採点モデルにより、得られたＮ個のビデオフレームのフレーム特徴ベクトルを当該採点モデルに入力し、各ビデオフレームの点数を得る。採点モデルは、各ビデオフレームの画像内容の見事さに基づいて採点することができる。同一のビデオの異なるビデオフレームに対して、採点モデルにより出力された点数が高いほど、その内容の見事さが高い。各点数の間の相対的な高さは、各ビデオフレームの内容の間の相対的な見事さの差異として特徴付けることができる。得られた各ビデオフレームの点数を介して、各ビデオフレームの内容の間の相対的な見事さを直感的に区別することができ、更にユーザの所望の目標ビデオクリップを迅速に抽出することに役立つ。

【0036】

本出願では、各ビデオフレームに対して、トレーニング済みの採点モデルにより得られた点数は、当該ビデオフレームの現在の時点を中心として取得した複数のビデオフレームの統合特徴ベクトルに基づいて得られたものである。Ｎ個のビデオフレームのうちの第ｉフレームの点数を計算する際に、第ｉフレームのビデオでの対応する時点位置に基づき、第ｉフレームの前後の時点でそれぞれ複数のビデオフレームを取得し、Ｋ個のビデオフレームを得て、更に、Ｋ個のビデオフレームの統合特徴ベクトルに基づいて出力した点数を現在の第ｉフレームの点数とする。ここで、ｉはＮ以下の正整数であり、Ｋは正整数である。現在のビデオフレームの点数を計算する際に、その周りのビデオフレームのフレーム特徴ベクトルを組み合わせることで、得られた点数がさらに正確性を有することに役立ち、更に、得られた点数に基づいて目標ビデオクリップ抽出を行う際に、得られた目標ビデオクリップの内容が当該点数に対応する内容に合致するようにし、それによって目標ビデオクリップの誤抽出又は抽出漏れの可能性を回避することに役立つ。例えば、現在のビデオフレームの内容がビデオの対応する時点で普通のビデオクリップに属し、当該時点の前後がいずれもハイライトビデオクリップであり、現在の時点が瞬間的な変わり目に過ぎない場合、現在のビデオフレームの前後に抽出されたビデオフレームに基づき、現在のフレームの点数を共同で計算し、目標ビデオクリップの抽出漏れの可能性を回避することに役立つ。一例において、得られた点数がより正確性を有するように、第ｉフレームの前後の時点で同じ数のビデオフレームを取得し、例えば、第ｉフレームの位置する時点の前に［ｉ－（Ｋ／２）］個のビデオフレームを取得し、第ｉフレームの位置する時点の後に［ｉ＋（Ｋ／２）－１］個のビデオフレームを取得し、且つ、均一サンプリングを行うことができ、得られた点数が現在のビデオフレームの位置するビデオクリップの点数により相応しく、より正確性を有し、異常データを解消しやすい。別の例において、第ｉフレームが当該ビデオの第１のフレームに属する場合、デフォルトで第１のフレームの前の［ｉ－（Ｋ／２）］個のビデオフレームの特徴ベクトルが０であるか、又は第１のフレームの後に取得した［ｉ＋（Ｋ／２）－１］個のビデオフレームの特徴ベクトルと同じであるとすることができ、ビデオフレームを順調に採点することができ、フレームごとに評価しやすくなる。

【0037】

ステップＳ１４では、Ｎ個のビデオフレームの点数に基づき、ビデオから目標ビデオクリップを抽出する。

【0038】

本出願の実施例において、ユーザのニーズに応じて、得られた各ビデオフレームの点数に基づき、ユーザの所望の目標ビデオクリップを抽出する。

【0039】

本出願の実施例において、１つのビデオに、抽出対象である目標ビデオクリップを有するし、非目標ビデオクリップをも有する。目標ビデオクリップは、目標ビデオクリッププロパティを有し、非目標ビデオクリップは、同じく非目標ビデオクリッププロパティを有する。例えば、目標ビデオクリップがハイライトビデオクリップである場合、ビデオに、相対的に最も見事なビデオクリップを有すると同時に、相対的に最も見事でないビデオクリップをも有する。ユーザのニーズが異なるため、所望の目標ビデオクリップが異なる。取得されたビデオに基づいてユーザの所望の目標ビデオクリップを迅速に抽出するように、取得されたビデオに対してサンプリングして、Ｎ個のビデオフレームを得ることができ、Ｎは正整数である。採点モデルにより各ビデオフレームの点数を迅速に得ることができ、且つ、各ビデオフレームの点数に基づいて評価し、抽出する必要のある目標ビデオクリップを決定する。

【0040】

通常、目標ビデオクリップは、ビデオにおける１つ又は複数のビデオクリップとすることができ、且つ、目標ビデオクリッププロパティを有する。例えば、ハイライトビデオクリップは、ビデオにおける１つ又は複数の相対的に短いビデオクリップであり、内容が他のビデオクリップの内容に比べてより見事であり、より人の目を引く。例えば、バスケットボール試合のビデオを例とし、当該ビデオにおけるダンクショット、スマッシュなどのビデオクリップは、当該バスケットボール試合のビデオにおけるハイライトビデオクリップであり、普通のドリブルなどのビデオクリップは、非ハイライトビデオクリップであり、ショットを切り替える時の黒幕、動画などは、最も見事でないビデオクリップである。

【0041】

本出願の実施例において、目標ビデオクリップがハイライトビデオクリップであることを例として説明する。ビデオにおける複数のビデオフレームに対して、点数に基づいてハイライトビデオクリップ抽出を行い、各ビデオフレームの点数を計算する時に、更にその周りの時点のビデオフレームと組み合わせて共同で評価するため、得られた点数が当該ビデオフレームの前後の小さい範囲内にあるビデオクリップの平均見事さを表すことができる。且つ、ビデオフレームの点数に基づいて抽出される目標ビデオクリップの見事さを決定することは、ビデオクリップ全体の点数を計算することに比べて、計算量がより少なく、短時間内で迅速に評価して、適切な目標ビデオクリップを提供することにより役立つ。例えば、ユーザが当該ビデオのうち最も見事なビデオクリップを所望する場合、各ビデオフレームの点数に基づき、点数の最も高いビデオフレームが位置するビデオクリップを目標ビデオクリップとすることができる。一例において、ユーザが複数のハイライトビデオクリップを所望する場合、ビデオフレームを対応する点数に基づいてランキングし、点数の相対的に高い複数のビデオフレームが位置するビデオクリップを目標ビデオクリップとすることができる。

【0042】

上記実施例により、ビデオクリップの代わりに、サンプリングされたビデオフレームに基づき、トレーニング済みの採点モデルにより採点し、採点モデルの計算量を効果的に減少させ、更に採点の計算スピードを加速させ、目標ビデオクリップの抽出プロセスを加速させることができる。ユーザの使用体験を高めることに役立つ。

【0043】

一実施例において、目標ビデオクリップは、一定の長さのスライディングウィンドウが時系列に沿ってビデオをスライドすることで抽出されることができ、スライディングウィンドウが毎回スライドする時に網羅した範囲は、１つのビデオクリップである。即ち、スライディングウィンドウが毎回スライドし、スライディングウィンドウの末尾位置からスライディングウィンドウの開始位置までスライドした場合、１つのビデオクリップが生成される。スライディングウィンドウごとに、当該スライディングウィンドウ内に含まれる各ビデオフレームの点数に基づき、当該スライディングウィンドウの平均点数を得て、平均点数を当該スライディングウィンドウに対応するビデオクリップの点数とする。よって、ユーザのニーズに応じて、複数のクリップの点数に基づき、複数のクリップから１つ又は複数の目標クリップを抽出する。ハイライトビデオクリップの取得を例とし、一定の長さのスライディングウィンドウが時系列に沿ってビデオをスライドすることで、ウィンドウ内における全てのビデオフレームの見事さの点数の平均値を計算し、当該ウィンドウに対応するビデオクリップの見事さの点数とする。点数の最も高いスライディングウィンドウに対応するビデオクリップは、当該ビデオのハイライトクリップである。複数のハイライトクリップを抽出する必要がある場合、各スライディングウィンドウに対応する点数に基づき、点数の相対的に高いビデオクリップを抽出することができる。各ビデオクリップ間の重複度が高くならないように、ビデオクリップを抽出する前、非最大値メカニズムアルゴリズムを利用して重複度の高いスライディングウィンドウに対応するビデオクリップを排除し、抽出されたビデオクリップ間が互いに分散するようにすることができ、ユーザが抽出されたビデオクリップを視聴する時の視聴体験を高めることに寄与する。

【0044】

本出願の実施例における採点モデルは、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づき、予めトレーニングされて得られてよい。

【0045】

図２は、例示的な実施例により示される採点モデルのトレーニング方法のフローチャートであり、図２に示すように、採点モデルのトレーニング方法は、以下のステップＳ２１～ステップＳ２４を含む。

【0046】

ステップＳ２１では、ビデオを取得し、ビデオでサンプリングしてＮ個のビデオフレームを得る。

【0047】

ステップＳ２２では、Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得る。

【0048】

ステップＳ２３では、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するマルチフレーム統合層を決定する。

【0049】

本出願の実施例において、目標ビデオクリップがハイライトビデオクリップであることを例として説明する。採点モデルにより得られたビデオフレームの点数と当該ビデオフレームの位置するビデオクリップの内容の見事さとを対応付けるために、第ｉフレームの特徴ベクトルを取得する際に、第ｉフレームを中心とする（Ｋ－１）個のビデオフレームの特徴ベクトルを同時に取得する必要があり、出力された点数の信頼性を高めることに役立つ。従って、採点モデルをトレーニングする前に、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルに統合できるマルチフレーム統合層を決定する必要があり、マルチフレーム統合層を介して出力された長さのベクトルを採点モデルに入力して採点できるようになる。例えば、１つのビデオフレームは、１つのＮ次元ベクトルに対応し、７個のビデオフレームを同時に取得する場合、得られたのは、７個のＮ次元ベクトルである。従って、採点モデルの正常な作動及び点数の信頼度を保証するために、マルチフレーム統合層を介して、得られた７個のＮ次元ベクトルを統合する必要があり、採点モデルの入力として適切なＭ次元ベクトルを得る。マルチフレーム統合層は、直列結合、プーリング又はベクトル加算などの手段を採用して複数のＮ次元ベクトルを１つの一定の長さのベクトルとして統合することができる。

【0050】

ステップＳ２４では、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、採点モデルを得る。

【0051】

本出願の実施例において、採点モデルは、決定されたマルチフレーム統合層、第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングされて得られたものである。データペアを得る過程で、得られた注釈ビデオクリップをビデオクリップ内容に基づいて注釈し、更に注釈ビデオクリップが第１のクリップであるか第２のクリップであるかを決定する。目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含む。一例において、目標ビデオクリップは、ビデオのうち最も見事なビデオクリップとし、非目標ビデオクリップは、ビデオのうち最も見事でないビデオクリップとすることができる。よって、データペアを得る時、第１のクリップと第２のクリップとの間の差異を明確に区別することができ、採点モデルをトレーニングする際に、採点モデルは、異なるプロパティの間のビデオクリップ特徴を迅速に学習することができる。更に、注釈ビデオクリップに対するプロパティ注釈に基づき、トレーニングデータの正確度を高め、ノイズデータのモデルトレーニングに対する干渉を減少させることができ、更にトレーニングデータのクリーン度を高めることに役立ち、トレーニングモデルの構造をよりシンプルにし、別のネットワークモデルを採用して注釈ビデオクリップの信頼性を計算する必要がない。よって、採点モデルのトレーニング過程が加速して収束することができ、コストを節約することに役立つ。

【0052】

１つの実施シーンでは、採点モデルをトレーニングする際に、第１のクリップからＫ個のビデオフレームをランダムサンプリング又は均一サンプリング（ｕｎｉｆｏｒｍｌｙｓａｍｐｌｉｎｇ）する。更に、図３に示すように、得られたＫ個のビデオフレームに対してフレーム特徴抽出モデルによりフレーム特徴ベクトル抽出を行い、第１のクリップにおける各ビデオフレームに対応するフレーム特徴ベクトルを得る。更に、得られたＫ個のフレーム特徴ベクトルをマルチフレーム統合層により統合し、一定の長さのベクトルを有する第１のクリップ特徴ベクトルを得て、｛Ｐ_１，Ｐ_２，．．．Ｐ_Ｋ｝と記す。第２のクリップからＫ個のビデオフレームをランダムサンプリング又は均一サンプリングする。更に、得られたＫ個のビデオフレームに対してフレーム特徴抽出モデルによりフレーム特徴ベクトル抽出を行い、第２のクリップにおける各ビデオフレームに対応するフレーム特徴ベクトルを得る。更に、得られたＫ個のフレーム特徴ベクトルをマルチフレーム統合層により統合し、一定の長さのベクトルを有する第２のクリップ特徴ベクトルを得て、｛Ｎ_１，Ｎ_２，．．．Ｎ_Ｋ｝と記す。

【0053】

採点モデルは、多層パーセプトロンモデルから得られたものであってよい。多層パーセプトロンモデルをコピーし、パラメータを共有することで、シャムニューラルネットワークが得られる。更に、シャムニューラルネットワークをトレーニングすることで、トレーニング済みの採点モデルが得られる。得られた第１のクリップ特徴ベクトル及び第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力してトレーニングする時、取得された第１のクリップ特徴ベクトルと第２のクリップ特徴ベクトルを同時に入力とすることができ、第１のクリップの点数及び第２のクリップの点数を得て、第１のクリップ及び第２のクリップの点数に基づき、損失値を計算し、バックプロパゲーションアルゴリズムによりシャムニューラルネットワークをトレーニングする。トレーニングする時、各データペアにおける第１のクリップの特徴ベクトル｛Ｐ_１，Ｐ_２，．．．Ｐ_Ｋ｝及び第２のクリップの特徴ベクトル｛Ｎ_１，Ｎ_２，．．．Ｎ_Ｋ｝をシャムニューラルネットワークに入力し、第１のクリップの点数Ｓ（Ｐ）、第２のクリップの点数Ｓ（Ｎ）を得る。且つ、第１のクリップに対応する出力点数は、第２のクリップに対応する出力点数よりも高くすべきである。更に、ランキング損失関数を利用して、採点モデルから出力された点数にバックプロパゲーションを行い、シャムニューラルネットワークにおける各パラメータ及び重み割合を調整し、採点モデルの正確率を高め、トレーニング過程におけるシャムニューラルネットワークの収束スピードを加速させる。ランキング損失は、Ｌ（｛Ｐ_１，Ｐ_２，．．．Ｐ_Ｋ｝，｛Ｎ_１，Ｎ_２，．．．Ｎ_Ｋ｝）＝ｍａｘ（０．１－Ｓ（Ｐ）＋Ｓ（Ｎ））のように記すことができる。

【0054】

以下、本出願の実施例において、実際の応用と組み合わせて、例を挙げて採点モデルのトレーニング過程を説明する。

【0055】

採点モデルをトレーニングする前に、採点モデルのトレーニングに適合するデータペアを予め得ることによって、採点モデルをトレーニングする際に、採点モデルは異なるビデオ内容の間の見事さの差異を区別することができ、採点の正確度を高めやすい。且つ、トレーニングに用いられるデータペアは、サンプルビデオにおける目標プロパティが注釈された注釈クリップに基づいて得られたので、ノイズデータの混入を回避し、トレーニングデータの品質を高めることに役立ち、トレーニングの難易度を低下させ、トレーニングプロセスを加速させることに寄与する。

【0056】

図４は、例示的な実施例により示されるデータペア決定方法のフローチャートであり、図４に示すように、データペア決定方法は、以下のステップＳ３１～ステップＳ３２を含む。

【0057】

ステップＳ３１では、１つ又は複数の注釈ビデオクリップを含むサンプルビデオを取得する。

【0058】

一実施例において、採点モデルをトレーニングする前に、一定の量のサンプルビデオを予め取得し、サンプルビデオセットを得て、十分なトレーニングデータで採点モデルをトレーニングすることができる。

【0059】

ステップＳ３２では、１つ又は複数の注釈ビデオクリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈ビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得る。

【0060】

当該サンプルビデオセットでは、各サンプルビデオはいずれも１つ又は複数の注釈ビデオクリップ及び非注釈ビデオクリップを有する。各サンプルビデオにおける注釈ビデオクリップを内容に基づいて注釈し、各注釈ビデオクリップの目標プロパティを明確にする。注釈された目標プロパティに基づき、各注釈ビデオクリップ及び各非注釈ビデオクリップから第１のクリップと第２のクリップからなるデータペアを得る。ここで、第１のクリップが目標ビデオクリップとなる可能性は、第２のクリップが目標ビデオクリップとなる可能性よりも高い。第１のクリップと第２のクリップの間の差異に基づき、採点モデルが目標ビデオクリップと非目標ビデオクリップと非注釈ビデオクリップの間の特徴の差異を正確に区別することができ、更に採点モデルの正確度を高めることに役立つ。

【0061】

一例において、採点モデルが同一のビデオにおける異なるビデオクリップの間の見事さの差異をよりよく区別できるように、データペアを得る時、第１のクリップと第２のクリップは、同一のサンプルビデオに由来することができ、更に各ビデオクリップの間の相対的な点数の差異を得ることができ、同一のビデオにおける各ビデオクリップの間の見事さを区別することに役立ち、サンプルビデオを十分に利用することに役立つ。例えば、ダンクショットハイライトビデオについて、全てのダンクショットビデオクリップもハイライトビデオクリップに属する。同一のサンプルビデオに由来する第１のクリップと第２のクリップから得られたデータペアを利用してトレーニングして得られた採点モデルによって、各ダンクショットビデオクリップの点数の間の相対的な大きさを得ることができ、相対的により見事なダンクショットビデオクリップを区別することに役立ち、目標ビデオを抽出しやすくなる。

【0062】

以下、本出願の実施例において、目標ビデオクリップがハイライトビデオクリップであることを例として説明する。

【0063】

ここで、注釈サンプルビデオにおける目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップの場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最も見事なビデオクリップを、目標ビデオクリッププロパティを有するビデオクリップとし、即ち、当該ビデオクリップは、同一のサンプルビデオにおける他の時点の内容に比べて、より見事であり、より人の目を引く。更に、当該ビデオクリップの開始・終了時点を注釈し、目標ビデオクリッププロパティを有する注釈ビデオクリップを得る。注釈サンプルビデオにおける非目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップの場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最も見事でないビデオクリップを、非目標ビデオクリッププロパティを有するビデオクリップとし、即ち、当該ビデオクリップは、同一のサンプルビデオにおける他の時点の内容に比べて、より見事でなく、より人の目を引かない。更に、当該ビデオクリップの開始・終了時点を注釈し、非目標ビデオクリッププロパティを有する注釈ビデオクリップを得る。

【0064】

一例において、サンプルビデオは、１つ又は複数の目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップ、及び非注釈ビデオクリップを含むことができる。データペアを得る時、１つ又は複数の注釈ビデオクリップを第１のクリップとし、サンプルビデオに含まれる非注釈ビデオクリップから一部のビデオクリップを抽出して第２のクリップとすることができる。サンプルビデオに１つの注釈ビデオクリップのみが存在し、且つ、非注釈ビデオクリップの時間長が注釈ビデオクリップの時間長に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈ビデオクリップを第１のクリップとし、非注釈ビデオクリップを第２のクリップとすることができる。例えば、図５に示すように、ビデオクリップ２は、目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップであり、ビデオクリップ１及びビデオクリップ３は、非注釈ビデオクリップである。更に、データペアを得る時、ビデオクリップ２が第１のクリップで、ビデオクリップ１が第２のクリップであるデータペア、及びビデオクリップ２が第１のクリップで、ビデオクリップ３が第２のクリップであるデータペアを得ることができる。サンプルビデオに１つの注釈ビデオクリップのみが存在し、非注釈ビデオクリップの時間長が長過ぎる場合、非注釈ビデオクリップを所定の時間長範囲内の複数のサブ非注釈ビデオクリップに分割することができ、更に注釈ビデオクリップを第１のクリップとし、サブ非注釈ビデオクリップを第２のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低下させることに役立ち、且つ、少量の注釈ビデオクリップを注釈するだけで大量のトレーニングデータペアを取得することができる。例えば、サンプルビデオの時間長が６０秒であり、ここで、注釈ビデオクリップが１０秒であり、非注釈ビデオクリップが５０秒である場合、大量のトレーニングデータペアを取得しやすくするために、非注釈ビデオクリップを注釈ビデオクリップの時間長に近い複数のサブ非注釈ビデオクリップに分割することができる。非注釈ビデオクリップを複数の１０秒を超えていないサブ非注釈ビデオクリップに分割すれば、少なくとも５つのサブ非注釈ビデオクリップを得ることができ、例えば、サブ非注釈ビデオクリップ１、サブ非注釈ビデオクリップ２、サブ非注釈ビデオクリップ３、サブ非注釈ビデオクリップ４、サブ非注釈ビデオクリップ５である。更に、点数モデルのトレーニングに用いられる５対のデータペアを得ることができ、即ち、注釈ビデオクリップが第１のクリップで、サブ非注釈ビデオクリップ１が第２のクリップであるデータペア、注釈ビデオクリップが第１のクリップで、サブ非注釈ビデオクリップ２が第２のクリップであるデータペア、注釈ビデオクリップが第１のクリップで、サブ非注釈ビデオクリップ３が第２のクリップであるデータペア、注釈ビデオクリップが第１のクリップで、サブ非注釈ビデオクリップ４が第２のクリップであるデータペア、注釈ビデオクリップが第１のクリップで、サブ非注釈ビデオクリップ５が第２のクリップであるデータペアである。

【0065】

別の例において、サンプルビデオは、１つ又は複数の目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップ、及び非注釈ビデオクリップを含むことができる。データペアを得る時、１つ又は複数の注釈ビデオクリップを第２のクリップとし、サンプルビデオに含まれる非注釈ビデオクリップから一部のビデオクリップを抽出し、第１のクリップとすることができる。サンプルビデオに１つの注釈ビデオクリップのみが存在し、且つ、非注釈ビデオクリップの時間長が注釈ビデオクリップの時間長に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈ビデオクリップを第２のクリップとし、非注釈ビデオクリップを第１のクリップとすることができる。例えば、図６に示すように、ビデオクリップ３は、目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップであり、ビデオクリップ１及びビデオクリップ２は、非注釈ビデオクリップである。更に、データペアを得る時、ビデオクリップ１が第１のクリップで、ビデオクリップ３が第２のクリップであるデータペア、及びビデオクリップ２が第１のクリップで、ビデオクリップ３が第２のクリップであるデータペアを得ることができる。サンプルビデオに１つの注釈ビデオクリップのみが存在し、非注釈ビデオクリップの時間長が長過ぎる場合、非注釈ビデオクリップを所定の時間長範囲内の複数のサブ非注釈ビデオクリップに分割することができ、更に注釈ビデオクリップを第２のクリップとし、サブ非注釈ビデオクリップを第１のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低下させることに役立ち、且つ、少量の注釈ビデオクリップを注釈するだけで大量のトレーニングデータペアを取得することができる。

【0066】

更に別の例において、サンプルビデオは、１つ又は複数の目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップ、１つ又は複数の目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップ、及び非注釈ビデオクリップを含むことができる。データペアを得る時、目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第１のクリップとする場合、非目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第２のクリップとし、又は非注釈ビデオクリップから一部のビデオクリップを抽出して第２のクリップとする。非目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第２のクリップとする場合、目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第１のクリップとし、又は非注釈ビデオクリップから一部のビデオクリップを抽出して第１のクリップとする。例えば、図７に示すように、ビデオクリップ２は、目標ビデオクリップを特徴付けるプロパティの注釈ビデオクリップであり、ビデオクリップ３は、目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップであり、ビデオクリップ１は、非注釈ビデオクリップである。更に、データペアを得る時、ビデオクリップ２が第１のクリップで、ビデオクリップ１が第２のクリップであるデータペアを得て、ビデオクリップ２が第１のクリップで、ビデオクリップ３が第２のクリップであるデータペアを得て、ビデオクリップ１が第１のクリップで、ビデオクリップ３が第２のクリップであるデータペアを得ることができる。

【0067】

注釈付きのトレーニングデータペアを得ることで、ノイズデータの発生を効果的に減少させ、ノイズデータによる干渉を回避することができ、更に、トレーニングデータのクリーン度を高めることに役立ち、採点モデルの構造をシンプルにし、トレーニングデータの信頼性を高めるように他のネットワークモデルを採用したり、他のパラメータを追加したりする必要がなく、トレーニングの難易度が低く、トレーニング過程で採点モデルの収束を加速させることに役立つ。

【0068】

同様な構想に基づき、本出願の実施例は、更にビデオクリップ抽出装置を提供する。

【0069】

本出願の実施例により提供されるビデオクリップ抽出装置は、上記機能を実現するために、各機能を実行するためのハードウェア構造及び／又はソフトウェアモジュールを含むことが理解できる。本出願の実施例に開示された各例のユニット及びアルゴリズムステップと組み合わせて、本出願の実施例は、ハードウェア又はハードウェアとコンピュータソフトウェアを組み合わせた形態で実現することができる。ある機能が果たしてハードウェアの形態で実行されるか、それともコンピュータソフトウェアがハードウェアをドライブするという形態で実行されるかは、技術案の特定の応用及び設計制約条件によるものである。当業者は、各特定の応用に対して異なる方法で説明される機能を実現することができるが、このような実現は本出願の実施例の技術案の範囲を超えていると考えられるべきではない。

【0070】

図８は、例示的な実施例により示されるビデオクリップ抽出装置のブロック図である。図８を参照し、当該ビデオクリップ抽出装置１００は、取得ユニット１０１と、特徴抽出ユニット１０２と、決定ユニット１０３と、抽出ユニット１０４と、を含む。

【0071】

取得ユニット１０１は、ビデオを取得し、ビデオでサンプリングしてＮ個のビデオフレームを得るために用いられ、Ｎが正整数である。

【0072】

特徴抽出ユニット１０２は、Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るために用いられる。

【0073】

決定ユニット１０３は、予めトレーニングされた採点モデルに基づき、Ｎ個のビデオフレームの点数を決定し、Ｎ個のビデオフレームのうちの第ｉフレームに対して、第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、第ｉフレームの点数を得るために用いられ、ｉがＮ以下の正整数であり、Ｋが正整数である。

【0074】

抽出ユニット１０４は、Ｎ個のビデオフレームの点数に基づき、ビデオから目標ビデオクリップを抽出するために用いられる。

【0075】

一実施例において、ビデオクリップ抽出装置は、トレーニングユニットを更に含む。トレーニングユニットは、統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして採点モデルを得るために用いられ、第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる。

【0076】

別の実施例において、トレーニングユニットは、以下の手段を採用して、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアトレーニングに基づき、採点モデルを得て、即ち、第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、マルチフレーム統合層に基づき、第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、マルチフレーム統合層に基づき、第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合し、第１のクリップ特徴ベクトル及び第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、第１のクリップの点数及び第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、採点モデルが、トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である。

【0077】

更に別の実施例において、第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、１つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非サンプルビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得る手段であって、第１のクリップが目標ビデオクリップとなる可能性が、第２のクリップが目標ビデオクリップとなる可能性よりも高い手段である。

【0078】

更に別の実施例において、第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非サンプルビデオクリップに基づいて得られ、即ち、１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、第１のクリップと第２のクリップから１つ又は複数のデータペアを得る手段、又は、１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、１つ又は複数のサンプルビデオクリップを第２のクリップとし、サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、第１のクリップと第２のクリップから１つ又は複数のデータペアを得る手段、又は、１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、第１のクリップと第２のクリップからデータペアを得て、且つ、第１のクリップ及び一部のビデオクリップからデータペアを得て、第２のクリップ及び一部のビデオクリップからデータペアを得る手段である。

【0079】

更に別の実施例において、抽出ユニットは、以下の手段を採用して、Ｎ個のビデオフレームの点数に基づき、ビデオから目標ビデオクリップを抽出し、即ち、一定の長さのスライディングウィンドウが時系列に沿ってビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが１つのビデオクリップに対応し、スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、複数のビデオクリップの点数に基づき、複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出する手段である。

【0080】

上記実施例における装置について、各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例において詳しく説明したため、ここで詳しく説明しない。

【0081】

図９は、例示的な実施例により示される別のビデオクリップ抽出装置のブロック図である。例えば、ビデオクリップ抽出装置２００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲームコンソール、タブレット型デバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってよい。

【0082】

図９を参照し、ビデオクリップ抽出装置２００は、処理コンポーネント２０２、メモリ２０４、電力コンポーネント２０６、マルチメディアコンポーネント２０８、オーディオコンポーネント２１０、入力／出力（Ｉ／Ｏ）インタフェース２１２、センサコンポーネント２１４、及び通信コンポーネント２１６の１つ又は複数のコンポーネントを含むことができる。

【0083】

処理コンポーネント２０２は、通常、ビデオクリップ抽出装置２００の全体的な操作を制御し、例えば、表示、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理コンポーネント２０２は、上記した方法の全部又は一部のステップを完成するように、命令を実行する１つ又は複数のプロセッサ２２０を含むことができる。また、処理コンポーネント２０２は、処理コンポーネント２０２と他のコンポーネントの間のインタラクションのために、１つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント２０２は、マルチメディアコンポーネント２０８と処理コンポーネント２０２の間のインタラクションのために、マルチメディアモジュールを含むことができる。

【0084】

メモリ２０４は、ビデオクリップ抽出装置２００の操作をサポートするために様々なタイプのデータを記憶するように配置されている。これらのデータの例は、ビデオクリップ抽出装置２００で操作するための任意のアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ２０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、リードオンリーメモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのような任意のタイプの揮発性又は非揮発性メモリ装置又はそれらの組み合わせにより実現することができる。

【0085】

電力コンポーネント２０６は、ビデオクリップ抽出装置２００の各種のコンポーネントに電力を提供する。電力コンポーネント２０６は、電源管理システム、１つ又は複数の電源、及びビデオクリップ抽出装置２００のための電力の生成、管理及び分配に関連する他のコンポーネントを含むことができる。

【0086】

マルチメディアコンポーネント２０８は、前記ビデオクリップ抽出装置２００とユーザとの間にあるとともに出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザから入力された信号を受信するように、タッチスクリーンとして実現することができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するように、１つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例において、マルチメディアコンポーネント２０８は、１つのフロントカメラ及び／又はリアカメラを含む。ビデオクリップ抽出装置２００が撮像モード又はビデオモードなどの操作モードにある場合、フロントカメラ及び／又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、特定の光学レンズシステムであってもよく、又は焦点距離及び光学ズーミング能力を有する。

【0087】

オーディオコンポーネント２１０は、オーディオ信号を出力及び／又は入力するように配置されている。例えば、オーディオコンポーネント２１０は、マイクロホン（ＭＩＣ）を含み、ビデオクリップ抽出装置２００が呼び出しモード、記録モード及び音声識別モードなどの操作モードにある場合、マイクロホンは、外部のオーディオ信号を受信するように配置されている。受信したオーディオ信号は、更にメモリ２０４に記憶されるか、又は通信コンポーネント２１６を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント２１０は、オーディオ信号を出力するためのスピーカを更に含む。

【0088】

Ｉ／Ｏインタフェース２１２は、処理コンポーネント２０２とペリフェラルインタフェースモジュールとの間にインタフェースを提供し、上記ペリフェラルインタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってよい。これらのボタンは、ホームページボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。

【0089】

センサコンポーネント２１４は、ビデオクリップ抽出装置２００に各方面の状態の評価を提供するための１つ又は複数のセンサを含む。例えば、センサコンポーネント２１４は、ビデオクリップ抽出装置２００のオン／オフ状態、コンポーネントの相対的な位置決めを検出することができ、例えば前記コンポーネントはビデオクリップ抽出装置２００のディスプレイ及びキーパッドであり、センサコンポーネント２１４は、ビデオクリップ抽出装置２００又はビデオクリップ抽出装置２００のあるコンポーネントの位置変更、ユーザがビデオクリップ抽出装置２００に接触しているか否か、ビデオクリップ抽出装置２００の方位又は加速／減速、及びビデオクリップ抽出装置２００の温度変化を検出することもできる。センサコンポーネント２１４は、何の物理的接触もない場合に近くに物体が存在するか否かを検出するために配置されている近接センサを含むことができる。センサコンポーネント２１４は、ＣＭＯＳ又はＣＣＤ画像センサなどの光センサを更に含んでもよく、結像応用において使用される。いくつかの実施例において、当該センサコンポーネント２１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを更に含んでもよい。

【0090】

通信コンポーネント２１６は、ビデオクリップ抽出装置２００及び他の機器の間で有線又は無線方式の通信を行うように配置されている。ビデオクリップ抽出装置２００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信標準に基づく無線ネットワークにアクセスすることができる。１つの例示的な実施例において、通信コンポーネント２１６は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。１つの例示的な実施例において、前記通信コンポーネント２１６は、近距離通信を促進するように、近距離無線通信（ＮＦＣ）モジュールを更に含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現することができる。

【0091】

例示的な実施例において、ビデオクリップ抽出装置２００は、上記方法を実行するために、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現することができる。

【0092】

例示的な実施例において、更に命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供し、例えば命令を含むメモリ２０４であり、上記方法を完成するように、上記命令はビデオクリップ抽出装置２００のプロセッサ２２０により実行されることができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、テープ、フロッピーディスク及び光データ記憶装置などであってもよい。

【0093】

なお、本出願における「複数」は、２つ又は２つ以上を指し、他の数量詞はそれと類似する。「及び／又は」は、関連対象の関連関係を説明するものであり、３種類の関係が存在可能であることを表し、例えば、Ａ及び／又はＢは、Ａのみが存在するか、Ａ及びＢが同時に存在するか、Ｂのみが存在するという３つの場合を表すことができる。符号「／」は、一般的に前後の関連対象が「又は」の関係であることを表す。単数の形の「１種」、「前記」及び「当該」は、文脈において他の意味を明らかに表記していない限り、複数の形を含むことも意図している。

【0094】

なお、「第１」、「第２」などの用語は、各種の情報を説明するためのものであるが、これらの情報は、これらの用語に限定されるべきではない。これらの用語は、同じタイプの情報を互いに区別するためのものに過ぎず、特定の順番又は重要程度を表すわけではない。実際には、「第１」、「第２」などの表現は、全く交換可能に使用することができる。例えば、本出願の範囲を逸脱しない限り、第１の情報は第２の情報と称されてもよく、同じく、第２の情報も第１の情報と称されてもよい。

【0095】

なお、特に説明しない限り、「接続」は、両者の間に他の構成要素が介在しない直接接続を含むし、両者の間に他の元件が介在する間接接続をも含む。

【0096】

なお、本出願の実施例では、図面において特定の順番で操作を説明したが、示されている特定の順番又はシリアル順番でそれらの操作を実行するように要求しているか、又は希望の結果を得るように示されている全ての操作を実行するように要求していると理解してはいけない。特定の環境では、マルチタスク及びパラレル処理が有利になる場合がある。

【0097】

当業者は、明細書を考慮して、ここで開示された発明を実践した後、本出願の他の実施形態を容易に想到する。本出願は、本出願の全ての変形、用途又は適応的変化を含むことを意図しており、これらの変形、用途又は適応的変化は、本出願の一般的原理に準じるものであり、本出願に開示されていない本技術分野における公知の知識又は慣用の技術手段を含む。明細書及び実施例は、例示的なもののみとして見なされ、本出願の実際の範囲及び精神は、下記の特許請求の範囲により指摘される。

【0098】

なお、本出願は、以上に説明されて図面に示されている正確な構造に制限されず、その範囲を逸脱することなく様々な修正及び変更を行うことができる。本出願の範囲は、添付される特許請求の範囲のみにより制限される。

【0099】

（付記）
（付記１）
ビデオクリップ抽出方法であって、
ビデオを取得し、前記ビデオでサンプリングしてＮ個のビデオフレーム（Ｎが正整数）を得るステップと、
前記Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るステップと、
予めトレーニングされた採点モデルに基づき、前記Ｎ個のビデオフレームの点数を決定するステップであって、前記Ｎ個のビデオフレームのうちの第ｉフレームに対して、前記第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第ｉフレームの点数を得て、前記ｉがＮ以下の正整数であり、前記Ｋが正整数であるステップと、
前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップと、を含む、
ことを特徴とするビデオクリップ抽出方法。

【0100】

（付記２）
前記採点モデルは、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングされて得られ、
前記第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とする付記１に記載のビデオクリップ抽出方法。

【0101】

（付記３）
前記マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るステップは、
第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、かつ
前記マルチフレーム統合層に基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合するステップと、
前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得るステップであって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つであるステップと、を含む、
ことを特徴とする付記２に記載のビデオクリップ抽出方法。

【0102】

（付記４）
前記第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、
１つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得る手段であって、第１のクリップが目標ビデオクリップとなる可能性が、第２のクリップが目標ビデオクリップとなる可能性よりも高い手段である、
ことを特徴とする付記２又は３に記載のビデオクリップ抽出方法。

【0103】

（付記５）
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得るステップは、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得るステップ、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得るステップ、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第１のクリップ及び前記第２のクリップからデータペアを得て、且つ、前記第１のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第２のクリップ及び前記一部のビデオクリップからデータペアを得るステップ、を含む、
ことを特徴とする付記４に記載のビデオクリップ抽出方法。

【0104】

（付記６）
前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップは、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得るステップであって、各々のスライディングウィンドウが１つのビデオクリップに対応するステップと、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とするステップと、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出するステップと、を含む、
ことを特徴とする付記１に記載のビデオクリップ抽出方法。

【0105】

（付記７）
ビデオクリップ抽出装置であって、
ビデオを取得し、前記ビデオでサンプリングしてＮ個のビデオフレーム（Ｎが正整数）を得るための取得ユニットと、
前記Ｎ個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記Ｎ個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るための特徴抽出ユニットと、
予めトレーニングされた採点モデルに基づき、前記Ｎ個のビデオフレームの点数を決定するための決定ユニットであって、前記Ｎ個のビデオフレームのうちの第ｉフレームに対して、前記第ｉフレームを中心とするＫ個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第ｉフレームの点数を得て、前記ｉがＮ以下の正整数であり、前記Ｋが正整数である決定ユニットと、
前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するための抽出ユニットと、を含む、
ことを特徴とするビデオクリップ抽出装置。

【0106】

（付記８）
前記ビデオクリップ抽出装置は、トレーニングユニットを更に含み、
前記トレーニングユニットは、マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るために用いられ、前記第１のクリップと第２のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、Ｋ個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とする付記７に記載のビデオクリップ抽出装置。

【0107】

（付記９）
前記トレーニングユニットは、以下の手段を採用して、前記マルチフレーム統合層、及び第１のクリップと第２のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得て、即ち、
第１のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、第２のクリップからＫ個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを抽出し、且つ、
前記マルチフレーム統合層に基づき、前記第１のクリップからサンプリングされたＫ個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第１のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第２のクリップからサンプリングされたＫ個のビデオフレームを、一定の長さのベクトルを有する第２のクリップ特徴ベクトルとして統合し、
前記第１のクリップ特徴ベクトル及び前記第２のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第１のクリップの点数及び前記第２のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する２つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの１つである手段である、
ことを特徴とする付記８に記載のビデオクリップ抽出装置。

【0108】

（付記１０）
前記第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、
１つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第１のクリップと第２のクリップからなるデータペアを得る手段であって、第１のクリップが目標ビデオクリップとなる可能性が、第２のクリップが目標ビデオクリップとなる可能性よりも高い手段である、
ことを特徴とする付記８又は９に記載のビデオクリップ抽出装置。

【0109】

（付記１１）
前記第１のクリップと第２のクリップからなるデータペアは、以下の手段を採用して、前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づいて得られ、即ち、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第１のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第２のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得る手段、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記１つ又は複数のサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第１のクリップとし、前記第１のクリップ及び前記第２のクリップから１つ又は複数のデータペアを得る手段、又は、
前記１つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第１のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第２のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第１のクリップ及び前記第２のクリップからデータペアを得て、且つ、前記第１のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第２のクリップ及び前記一部のビデオクリップからデータペアを得る手段である、
ことを特徴とする付記１０に記載のビデオクリップ抽出装置。

【0110】

（付記１２）
前記抽出ユニットは、以下の手段を採用して、前記Ｎ個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出し、即ち、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが１つのビデオクリップに対応し、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから１つ又は複数の目標ビデオクリップを抽出する手段である、
ことを特徴とする付記７に記載のビデオクリップ抽出装置。

【0111】

（付記１３）
ビデオクリップ抽出装置であって、
命令を記憶するためのメモリと、
付記１～６のいずれか一つに記載のビデオクリップ抽出方法を実行するように、前記メモリに記憶されている命令を呼び出すためのプロセッサと、を含む、
ビデオクリップ抽出装置。

【0112】

（付記１４）
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサに実行される場合、付記１～６のいずれか一つに記載のビデオクリップ抽出方法が実行されるコンピュータ読み取り可能な記憶媒体。

【図1】