IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッドの特許一覧

特許7292325ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体
<>
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図1
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図2
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図3
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図4
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図5
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図6
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図7
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図8
  • 特許-ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-08
(45)【発行日】2023-06-16
(54)【発明の名称】ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230609BHJP
   G06V 10/82 20220101ALI20230609BHJP
【FI】
G06T7/00 350C
G06V10/82
【請求項の数】 12
(21)【出願番号】P 2021074892
(22)【出願日】2021-04-27
(65)【公開番号】P2022037876
(43)【公開日】2022-03-09
【審査請求日】2021-04-27
(31)【優先権主張番号】202010866476.9
(32)【優先日】2020-08-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520274253
【氏名又は名称】ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【弁理士】
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【弁理士】
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【弁理士】
【氏名又は名称】美恵 英樹
(72)【発明者】
【氏名】胡 佳高
(72)【発明者】
【氏名】王 飛
(72)【発明者】
【氏名】余 鵬飛
(72)【発明者】
【氏名】周 代国
【審査官】松浦 功
(56)【参考文献】
【文献】中国特許出願公開第110996169(CN,A)
【文献】中国特許出願公開第111225236(CN,A)
【文献】YAO, T. et al.,Highlight Detection with Pairwise Deep Ranking for First-Person Video Summarization,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [online],IEEE,2016年06月,pp. 982 - 990,[検索日 2022.06.09], インターネット,URL:https://ieeexplore.ieee.org/document/7780481
【文献】HAN, H.-K. et al.,A Deep Learning Model for Extracting Live Streaming Video Highlights using Audience Messages,AICCC 2019: Proceedings of the 2019 2nd Artificial Intelligence and Cloud Computing Conference [online],ACM,2019年12月,pp. 75 - 81,[検索日 2022.06.09], インターネット,URL:https://dl.acm.org/doi/pdf/10.1145/3375959.3375965
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 -20/90
Google Scholar
(57)【特許請求の範囲】
【請求項1】
ビデオクリップ抽出方法であって、
ビデオを取得し、前記ビデオでサンプリングしてN個のビデオフレーム(Nが正整数)を得るステップと、
前記N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るステップと、
予めトレーニングされた採点モデルに基づき、前記N個のビデオフレームの点数を決定するステップであって、前記N個のビデオフレームのうちの第iフレームに対して、前記第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第iフレームの点数を得て、前記iがN以下の正整数であり、前記Kが正整数であり、前記採点モデルは、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングされて得られ、第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップ、非目標プロパティが注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップに基づいて得られるステップと、
前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップと、を含
前記マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とするビデオクリップ抽出方法。
【請求項2】
前記マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るステップは、
第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、かつ
前記マルチフレーム統合層に基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合するステップと、
前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得るステップであって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つであるステップと、を含む、
ことを特徴とする請求項に記載のビデオクリップ抽出方法。
【請求項3】
前記ビデオクリップ抽出方法は、更に、
1つ又は複数の注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップを含むサンプルビデオを取得し、各注釈されたサンプルビデオクリップは、目標ビデオクリップを特徴付けるための目標プロパティまたは非目標ビデオクリップを特徴付けるための非目標プロパティが注釈されることを含む、
ことを特徴とする請求項又はに記載のビデオクリップ抽出方法。
【請求項4】
前記ビデオクリップ抽出方法は、更に、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得るステップ、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得るステップ、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出し、前記第1のクリップ及び前記第2のクリップからデータペアを得て、且つ、前記第1のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第2のクリップ及び前記一部のビデオクリップからデータペアを得るステップ、を含む、
ことを特徴とする請求項に記載のビデオクリップ抽出方法。
【請求項5】
前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップは、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得るステップであって、各々のスライディングウィンドウが1つのビデオクリップに対応するステップと、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とするステップと、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出するステップと、を含む、
ことを特徴とする請求項1に記載のビデオクリップ抽出方法。
【請求項6】
ビデオクリップ抽出装置であって、
ビデオを取得し、前記ビデオでサンプリングしてN個のビデオフレーム(Nが正整数)を得るための取得ユニットと、
前記N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るための特徴抽出ユニットと、
予めトレーニングされた採点モデルに基づき、前記N個のビデオフレームの点数を決定するための決定ユニットであって、前記N個のビデオフレームのうちの第iフレームに対して、前記第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第iフレームの点数を得て、前記iがN以下の正整数であり、前記Kが正整数である決定ユニットと、
前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するための抽出ユニットと、
マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るために用いられるトレーニングユニットであって、第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップ、非目標プロパティが注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップに基づいて得られるトレーニングユニットと、を含
前記マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とするビデオクリップ抽出装置。
【請求項7】
前記トレーニングユニットは、以下の手段を採用して、前記マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得て、即ち、
第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、
前記マルチフレーム統合層に基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合し、
前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である、
ことを特徴とする請求項に記載のビデオクリップ抽出装置。
【請求項8】
1つ又は複数の注釈されたサンプルビデオクリップおよび非注釈サンプルビデオクリップを含むサンプルビデオを取得し、各注釈されたサンプルビデオクリップは、目標ビデオクリップを特徴付けるための目標プロパティまたは非目標ビデオクリップを特徴付けるための非目標プロパティが注釈される、
ことを特徴とする請求項又はに記載のビデオクリップ抽出装置。
【請求項9】
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得る手段、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得る手段、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非注釈サンプルビデオクリップから一部のビデオクリップを抽出し、前記第1のクリップ及び前記第2のクリップからデータペアを得て、且つ、前記第1のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第2のクリップ及び前記一部のビデオクリップからデータペアを得る手段である、
ことを特徴とする請求項に記載のビデオクリップ抽出装置。
【請求項10】
前記抽出ユニットは、以下の手段を採用して、前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出し、即ち、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが1つのビデオクリップに対応し、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出する手段である、
ことを特徴とする請求項に記載のビデオクリップ抽出装置。
【請求項11】
ビデオクリップ抽出装置であって、
命令を記憶するためのメモリと、
請求項1~のいずれか一項に記載のビデオクリップ抽出方法を実行するように、前記メモリに記憶されている命令を呼び出すためのプロセッサと、を含む、
ビデオクリップ抽出装置。
【請求項12】
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサに実行される場合、請求項1~のいずれか一項に記載のビデオクリップ抽出方法が実行されるコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、ビデオ処理の技術分野に関し、特に、ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体に関する。
【背景技術】
【0002】
ビデオクリップの抽出は、当該ビデオにおける任意の1つ又は複数の短いビデオクリップを抽出するものであってよい。例えば、ビデオにおける見事なビデオクリップを抽出し、当該ビデオにおいて内容が他のビデオクリップの内容に比べてより見事な1つ又は複数のビデオクリップを抽出することができる。
【0003】
関連技術において、ビデオのビデオクリップ抽出は、ビデオを完全に取得してはじめてビデオの内容に基づいて複数のビデオクリップに分割し、且つ、ビデオクリップごとに採点し、各ビデオクリップの点数に基づき、ビデオクリップ抽出を行う必要がある。しかしながら、当該方法によりビデオクリップを抽出すれば、大量の計算を経て各ビデオクリップの点数を決定する必要があり、抽出にかかる時間が長く、ユーザの使用体験に影響を及ぼす。
【発明の概要】
【発明が解決しようとする課題】
【0004】
関連技術における問題を克服するために、本出願は、ビデオクリップ抽出方法、ビデオクリップ抽出装置及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本出願の実施例の第1の態様によれば、ビデオクリップ抽出方法を提供し、ビデオを取得し、前記ビデオでサンプリングしてN個のビデオフレーム(Nが正整数)を得るステップと、前記N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るステップと、予めトレーニングされた採点モデルに基づき、前記N個のビデオフレームの点数を決定するステップであって、前記N個のビデオフレームのうちの第iフレームに対して、前記第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第iフレームの点数を得て、前記iがN以下の正整数であり、前記Kが正整数であるステップと、前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップと、を含む。
【0006】
一実施例において、前記採点モデルは、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングされて得られ、前記第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる。
【0007】
別の実施例において、前記マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして前記採点モデルを得るステップは、第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、かつ前記マルチフレーム統合層に基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合するステップと、前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得るステップであって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つであるステップと、を含む。
【0008】
更に別の実施例において、前記第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、1つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得る手段であって、第1のクリップが目標ビデオクリップとなる可能性が、第2のクリップが目標ビデオクリップとなる可能性よりも高い手段である。
【0009】
更に別の実施例において、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得るステップは、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得るステップ、又は、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得るステップ、又は、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第1のクリップ及び前記第2のクリップからデータペアを得て、且つ、前記第1のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第2のクリップ及び前記一部のビデオクリップからデータペアを得るステップ、を含む。
【0010】
更に別の実施例において、前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップは、一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得るステップであって、各々のスライディングウィンドウが1つのビデオクリップに対応するステップと、スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とするステップと、前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出するステップと、を含む。
【0011】
本出願の実施例の第2の態様によれば、ビデオクリップ抽出装置を提供し、ビデオを取得し、前記ビデオでサンプリングしてN個のビデオフレーム(Nが正整数)を得るための取得ユニットと、前記N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るための特徴抽出ユニットと、予めトレーニングされた採点モデルに基づき、前記N個のビデオフレームの点数を決定するための決定ユニットであって、前記N個のビデオフレームのうちの第iフレームに対して、前記第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第iフレームの点数を得て、前記iがN以下の正整数であり、前記Kが正整数である決定ユニットと、前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するための抽出ユニットと、を含む。
【0012】
一実施例において、前記ビデオクリップ抽出装置は、トレーニングユニットを更に含み、前記トレーニングユニットは、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアトレーニングに基づき、前記採点モデルを得るために用いられ、前記第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる。
【0013】
別の実施例において、前記トレーニングユニットは、以下の手段を採用して、前記マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得て、即ち、第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、前記マルチフレーム統合層に基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合し、前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である。
【0014】
更に別の実施例において、前記第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、1つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得る手段であって、第1のクリップが目標ビデオクリップとなる可能性が、第2のクリップが目標ビデオクリップとなる可能性よりも高い手段である。
【0015】
更に別の実施例において、前記第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づいて得られ、即ち、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得る手段、又は、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得る手段、又は、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第1のクリップ及び前記第2のクリップからデータペアを得て、且つ、前記第1のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第2のクリップ及び前記一部のビデオクリップからデータペアを得る手段である。
【0016】
更に別の実施例において、前記抽出ユニットは、以下の手段を採用して、前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出し、即ち、一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが1つのビデオクリップに対応し、スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出する手段である。
【0017】
本出願の実施例の第3の態様によれば、ビデオクリップ抽出装置を提供し、命令を記憶するためのメモリと、上記したいずれか一項に記載のビデオクリップ抽出方法を実行するように、前記メモリに記憶されている命令を呼び出すためのプロセッサと、を含む。
【0018】
本出願の実施例の第4の態様によれば、命令が記憶されているコンピュータ読み取り可能な記憶媒体を提供し、前記命令がプロセッサに実行される場合、上記したいずれか一項に記載のビデオクリップ抽出方法が実行される。
【発明の効果】
【0019】
本出願の実施例により提供される技術案は、以下の有益な効果を含むことができる。本出願により提供されるビデオクリップ抽出方法によれば、ビデオをオンラインで取得する過程で、既に取得したビデオフレームに基づき、抜き取り抽出を行うことができ、採点モデルの計算量を削減することに役立ち、ビデオクリップの抽出スピードを加速させることを容易にする。且つ、ビデオフレームの見事さの点数に基づき、ビデオフレームを取得すると同時に、ビデオの各部分の間の見事さを比較することができ、ビデオを完全に取得した後に、ユーザの所望の目標ビデオクリップを迅速に抽出することができ、ユーザの使用体験を高めやすい。
【0020】
以上の一般的な説明及び後述の詳細な説明は、単なる例示的及び解釈的なものであり、本出願を制限するものではないことを理解されたい。
【図面の簡単な説明】
【0021】
ここの図面は、明細書に組み込まれて、本明細書の一部を構成し、本出願に合致する実施例を示し、明細書と共に本出願の原理を解釈するために用いられる。
図1】例示的な実施例により示されるビデオクリップ抽出方法のフローチャートである。
図2】例示的な実施例により示される採点モデルのトレーニング方法のフローチャートである。
図3】例示的な実施例により示される別の採点モデルのトレーニング方法の模式図である。
図4】例示的な実施例により示されるデータペア決定方法のフローチャートである。
図5】例示的な実施例により示されるサンプルビデオの注釈模式図である。
図6】例示的な実施例により示される別のサンプルビデオの注釈模式図である。
図7】例示的な実施例により示される更に別のサンプルビデオの注釈模式図である。
図8】例示的な実施例により示されるビデオクリップ抽出装置のブロック図である。
図9】例示的な実施例により示される別のビデオクリップ抽出装置のブロック図である。
【発明を実施するための形態】
【0022】
ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の説明において、図面に及ぶ場合、別途示していない限り、異なる図面における同一の数字は、同一の又は類似する要素を表す。以下の例示的な実施例で説明される実施形態は、本出願に合致する全ての実施形態を表すわけではない。むしろ、それらは、添付される特許請求の範囲において詳しく説明される、本出願の一部の態様に合致する装置及び方法の例に過ぎない。
【0023】
本出願の実施例により提供されるビデオクリップ抽出方法は、ハイライトビデオクリップを抽出するシーンのような目標ビデオクリップを抽出するシーンに適用される。例えば、携帯電話のフォトアルバムでユーザのためにハイライトビデオクリップを生成し、プレビューとしてユーザに展示するシーンでもよいし、ショートビデオアプリケーションにおいて、ショートビデオのハイライトビデオクリップを取得してgif画像を生成し、ビデオポスターとしてユーザに展示するシーンでもよく、更に、ユーザがオンラインで見ているビデオに対して、再生すると同時に、バックグラウンドで各時点の見事さを計算し、ユーザがビデオを見切った後に、直ちに当該ビデオにおけるハイライトビデオクリップをポップアップし、ユーザがハイライトを再度見ることができる。
【0024】
関連技術において、ビデオのビデオクリップ抽出は、ビデオを完全に取得した後にオフライン状態でビデオの内容に基づいて複数のビデオクリップに分割し、更に各ビデオクリップにビデオ特徴抽出を行い、各ビデオクリップの見事さの点数を計算する必要がある。よって、抽出する必要のあるビデオクリップを決定する。当該方法によりビデオクリップを抽出すれば、ビデオを完全に取得した後に抽出操作を行う必要がある。また、ビデオクリップごとにビデオクリップ特徴抽出を行う時、大量の計算を経て決定する必要があり、長い時間がかかり、抽出する必要のあるビデオクリップを迅速に取得することができず、ユーザの使用体験に影響を及ぼす。
【0025】
これを鑑み、本出願の実施例では、ビデオクリップ抽出方法を提供し、当該ビデオクリップ抽出方法で使用されるビデオクリップ抽出モデルは、トレーニング時にフレーム特徴ベクトルに基づいてトレーニングされることができ、採点モデルの計算量を削減することに役立ち、更に採点スピードを高めることに寄与する。また、モデルの計算量が少ないため、携帯電話、タブレット、パソコンなどの端末で配置されることに役立ち、ユーザが随時使用できる。
【0026】
本出願で提供されるビデオクリップ抽出方法は、サンプリングされたビデオフレームの特徴ベクトルに基づき、採点モデルに入力して各ビデオフレームの点数を得て、且つ、各ビデオフレームの点数に基づき、目標ビデオクリップの抽出を行うことができる。ここで、採用される採点モデルは、フレーム特徴ベクトルに基づいてトレーニングされて得られ、採点モデルは、構造がシンプルであり、計算量が少なく、各ビデオフレームの点数を迅速に出力することに役立ち、更に、各ビデオフレームの点数に基づいて目標ビデオクリップを抽出する際に、短時間内で迅速に抽出し、抽出プロセスを短縮することができ、ユーザの使用体験を高めることに役立つ。
【0027】
図1は、例示的な実施例により示されるビデオクリップ抽出方法のフローチャートであり、図1に示すように、ビデオクリップ抽出方法は、以下のステップS11~ステップS14を含む。
【0028】
ステップS11では、ビデオを取得し、ビデオでサンプリングしてN個のビデオフレームを得る。
【0029】
異なる時間長のビデオに対して、サンプリングされたビデオフレームの数は、異なってもよい。本出願の実施例において、ビデオフレームのサンプリングは、様々な形態とすることができる。
【0030】
一実施例において、ビデオフレームのサンプリング手段は、時間勾配を予め設定し、等時間サンプリングを行い、続いてビデオの総時間長を考慮することなく、時間間隔に応じてサンプリングを行えばよいことであってもよく、サンプリングの計算量を減少させ、ビデオフレームのサンプリングスピードを加速させることに役立つ。例えば、予め設定された時間勾配に応じて、取得されたビデオに対して2秒ごとに1つのビデオフレームをサンプリングするように、当該ビデオにおける第2秒、第4秒、第6秒、第8秒に対して、このように類推し、当該ビデオが終わるまでに、2秒ごとにビデオフレームを一回サンプリングする。当該ビデオが10秒である場合、5つのビデオフレームが得られる。一例において、ビデオが完全にロードされていない場合、現在既にロードされたビデオフレームに対してサンプリングすることができ、更に、ビデオをロードする過程で、ビデオよりも何フレームだけ遅く当該ビデオの各時点の点数を計算し始めることができ、ビデオを完全に取得するまでに待つ必要がなく、更に、オンラインの準実時間計算を実現し、目標ビデオクリップの抽出プロセスを短縮することに役立ち、ユーザの使用体験を高めることに寄与する。
【0031】
別の実施例において、ビデオフレームのサンプリング手段は、サンプリングされるビデオフレームの数を予め設定して指定してから、ビデオフレームサンプリングを行うものであってもよい。ビデオフレームの特徴ベクトルを計算する際に、特徴ベクトルの抽出時間を節約することができ、特徴ベクトル抽出モデルにより計算しやすく、目標ビデオクリップの抽出プロセスを加速させることに役立つ。一例において、ビデオを指定されたビデオフレーム数に応じて均一にサンプリングすることができ、各時点の間に対応するビデオ内容を区別することに役立ち、ビデオフレームの点数に基づき、目標ビデオクリップを迅速に抽出しやすくなる。例えば、5つのビデオフレームを取得する必要がある場合、10秒のビデオに対して、2秒ごとに一回サンプリングすることができる。15秒のビデオに対して、3秒ごとに一回サンプリングすることができる。
【0032】
ステップS12では、N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得る。
【0033】
本出願の実施例において、得られたN個のビデオフレームをそれぞれトレーニング済みのフレーム特徴抽出モデルに入力し、各ビデオフレームに対応する特徴ベクトルを得て、採点モデルが得られた各ビデオフレームの特徴ベクトルに基づいて採点することができ、各ビデオフレームに対応するビデオの各時点での点数を評価しやすくなり、ユーザの所望の目標ビデオクリップを抽出することに役立つ。フレーム特徴モデルは、標準的な畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)であってもよく、効率的なビデオ理解のための時間的シフトモジュール(Temporal Shift Module for Efficient Video Understanding,TSM)のようなオンラインビデオ理解モデルであってもよい。トレーニング済みのCNNを利用してフレーム特徴抽出を行う場合、当該ネットワーク分類層の前の層の出力ベクトルを入力されるビデオフレームのフレーム特徴ベクトルとすることができる。トレーニング済みのオンラインTSMを利用してフレーム特徴抽出を行う場合、バックボーン(backbone)の最後の層の出力を特徴ベクトルとすることができ、本出願において限定されない。
【0034】
ステップS13では、予めトレーニングされた採点モデルに基づき、N個のビデオフレームの点数を決定する。
【0035】
本出願の実施例において、トレーニング済みの採点モデルにより、得られたN個のビデオフレームのフレーム特徴ベクトルを当該採点モデルに入力し、各ビデオフレームの点数を得る。採点モデルは、各ビデオフレームの画像内容の見事さに基づいて採点することができる。同一のビデオの異なるビデオフレームに対して、採点モデルにより出力された点数が高いほど、その内容の見事さが高い。各点数の間の相対的な高さは、各ビデオフレームの内容の間の相対的な見事さの差異として特徴付けることができる。得られた各ビデオフレームの点数を介して、各ビデオフレームの内容の間の相対的な見事さを直感的に区別することができ、更にユーザの所望の目標ビデオクリップを迅速に抽出することに役立つ。
【0036】
本出願では、各ビデオフレームに対して、トレーニング済みの採点モデルにより得られた点数は、当該ビデオフレームの現在の時点を中心として取得した複数のビデオフレームの統合特徴ベクトルに基づいて得られたものである。N個のビデオフレームのうちの第iフレームの点数を計算する際に、第iフレームのビデオでの対応する時点位置に基づき、第iフレームの前後の時点でそれぞれ複数のビデオフレームを取得し、K個のビデオフレームを得て、更に、K個のビデオフレームの統合特徴ベクトルに基づいて出力した点数を現在の第iフレームの点数とする。ここで、iはN以下の正整数であり、Kは正整数である。現在のビデオフレームの点数を計算する際に、その周りのビデオフレームのフレーム特徴ベクトルを組み合わせることで、得られた点数がさらに正確性を有することに役立ち、更に、得られた点数に基づいて目標ビデオクリップ抽出を行う際に、得られた目標ビデオクリップの内容が当該点数に対応する内容に合致するようにし、それによって目標ビデオクリップの誤抽出又は抽出漏れの可能性を回避することに役立つ。例えば、現在のビデオフレームの内容がビデオの対応する時点で普通のビデオクリップに属し、当該時点の前後がいずれもハイライトビデオクリップであり、現在の時点が瞬間的な変わり目に過ぎない場合、現在のビデオフレームの前後に抽出されたビデオフレームに基づき、現在のフレームの点数を共同で計算し、目標ビデオクリップの抽出漏れの可能性を回避することに役立つ。一例において、得られた点数がより正確性を有するように、第iフレームの前後の時点で同じ数のビデオフレームを取得し、例えば、第iフレームの位置する時点の前に[i-(K/2)]個のビデオフレームを取得し、第iフレームの位置する時点の後に[i+(K/2)-1]個のビデオフレームを取得し、且つ、均一サンプリングを行うことができ、得られた点数が現在のビデオフレームの位置するビデオクリップの点数により相応しく、より正確性を有し、異常データを解消しやすい。別の例において、第iフレームが当該ビデオの第1のフレームに属する場合、デフォルトで第1のフレームの前の[i-(K/2)]個のビデオフレームの特徴ベクトルが0であるか、又は第1のフレームの後に取得した[i+(K/2)-1]個のビデオフレームの特徴ベクトルと同じであるとすることができ、ビデオフレームを順調に採点することができ、フレームごとに評価しやすくなる。
【0037】
ステップS14では、N個のビデオフレームの点数に基づき、ビデオから目標ビデオクリップを抽出する。
【0038】
本出願の実施例において、ユーザのニーズに応じて、得られた各ビデオフレームの点数に基づき、ユーザの所望の目標ビデオクリップを抽出する。
【0039】
本出願の実施例において、1つのビデオに、抽出対象である目標ビデオクリップを有するし、非目標ビデオクリップをも有する。目標ビデオクリップは、目標ビデオクリッププロパティを有し、非目標ビデオクリップは、同じく非目標ビデオクリッププロパティを有する。例えば、目標ビデオクリップがハイライトビデオクリップである場合、ビデオに、相対的に最も見事なビデオクリップを有すると同時に、相対的に最も見事でないビデオクリップをも有する。ユーザのニーズが異なるため、所望の目標ビデオクリップが異なる。取得されたビデオに基づいてユーザの所望の目標ビデオクリップを迅速に抽出するように、取得されたビデオに対してサンプリングして、N個のビデオフレームを得ることができ、Nは正整数である。採点モデルにより各ビデオフレームの点数を迅速に得ることができ、且つ、各ビデオフレームの点数に基づいて評価し、抽出する必要のある目標ビデオクリップを決定する。
【0040】
通常、目標ビデオクリップは、ビデオにおける1つ又は複数のビデオクリップとすることができ、且つ、目標ビデオクリッププロパティを有する。例えば、ハイライトビデオクリップは、ビデオにおける1つ又は複数の相対的に短いビデオクリップであり、内容が他のビデオクリップの内容に比べてより見事であり、より人の目を引く。例えば、バスケットボール試合のビデオを例とし、当該ビデオにおけるダンクショット、スマッシュなどのビデオクリップは、当該バスケットボール試合のビデオにおけるハイライトビデオクリップであり、普通のドリブルなどのビデオクリップは、非ハイライトビデオクリップであり、ショットを切り替える時の黒幕、動画などは、最も見事でないビデオクリップである。
【0041】
本出願の実施例において、目標ビデオクリップがハイライトビデオクリップであることを例として説明する。ビデオにおける複数のビデオフレームに対して、点数に基づいてハイライトビデオクリップ抽出を行い、各ビデオフレームの点数を計算する時に、更にその周りの時点のビデオフレームと組み合わせて共同で評価するため、得られた点数が当該ビデオフレームの前後の小さい範囲内にあるビデオクリップの平均見事さを表すことができる。且つ、ビデオフレームの点数に基づいて抽出される目標ビデオクリップの見事さを決定することは、ビデオクリップ全体の点数を計算することに比べて、計算量がより少なく、短時間内で迅速に評価して、適切な目標ビデオクリップを提供することにより役立つ。例えば、ユーザが当該ビデオのうち最も見事なビデオクリップを所望する場合、各ビデオフレームの点数に基づき、点数の最も高いビデオフレームが位置するビデオクリップを目標ビデオクリップとすることができる。一例において、ユーザが複数のハイライトビデオクリップを所望する場合、ビデオフレームを対応する点数に基づいてランキングし、点数の相対的に高い複数のビデオフレームが位置するビデオクリップを目標ビデオクリップとすることができる。
【0042】
上記実施例により、ビデオクリップの代わりに、サンプリングされたビデオフレームに基づき、トレーニング済みの採点モデルにより採点し、採点モデルの計算量を効果的に減少させ、更に採点の計算スピードを加速させ、目標ビデオクリップの抽出プロセスを加速させることができる。ユーザの使用体験を高めることに役立つ。
【0043】
一実施例において、目標ビデオクリップは、一定の長さのスライディングウィンドウが時系列に沿ってビデオをスライドすることで抽出されることができ、スライディングウィンドウが毎回スライドする時に網羅した範囲は、1つのビデオクリップである。即ち、スライディングウィンドウが毎回スライドし、スライディングウィンドウの末尾位置からスライディングウィンドウの開始位置までスライドした場合、1つのビデオクリップが生成される。スライディングウィンドウごとに、当該スライディングウィンドウ内に含まれる各ビデオフレームの点数に基づき、当該スライディングウィンドウの平均点数を得て、平均点数を当該スライディングウィンドウに対応するビデオクリップの点数とする。よって、ユーザのニーズに応じて、複数のクリップの点数に基づき、複数のクリップから1つ又は複数の目標クリップを抽出する。ハイライトビデオクリップの取得を例とし、一定の長さのスライディングウィンドウが時系列に沿ってビデオをスライドすることで、ウィンドウ内における全てのビデオフレームの見事さの点数の平均値を計算し、当該ウィンドウに対応するビデオクリップの見事さの点数とする。点数の最も高いスライディングウィンドウに対応するビデオクリップは、当該ビデオのハイライトクリップである。複数のハイライトクリップを抽出する必要がある場合、各スライディングウィンドウに対応する点数に基づき、点数の相対的に高いビデオクリップを抽出することができる。各ビデオクリップ間の重複度が高くならないように、ビデオクリップを抽出する前、非最大値メカニズムアルゴリズムを利用して重複度の高いスライディングウィンドウに対応するビデオクリップを排除し、抽出されたビデオクリップ間が互いに分散するようにすることができ、ユーザが抽出されたビデオクリップを視聴する時の視聴体験を高めることに寄与する。
【0044】
本出願の実施例における採点モデルは、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づき、予めトレーニングされて得られてよい。
【0045】
図2は、例示的な実施例により示される採点モデルのトレーニング方法のフローチャートであり、図2に示すように、採点モデルのトレーニング方法は、以下のステップS21~ステップS24を含む。
【0046】
ステップS21では、ビデオを取得し、ビデオでサンプリングしてN個のビデオフレームを得る。
【0047】
ステップS22では、N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得る。
【0048】
ステップS23では、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するマルチフレーム統合層を決定する。
【0049】
本出願の実施例において、目標ビデオクリップがハイライトビデオクリップであることを例として説明する。採点モデルにより得られたビデオフレームの点数と当該ビデオフレームの位置するビデオクリップの内容の見事さとを対応付けるために、第iフレームの特徴ベクトルを取得する際に、第iフレームを中心とする(K-1)個のビデオフレームの特徴ベクトルを同時に取得する必要があり、出力された点数の信頼性を高めることに役立つ。従って、採点モデルをトレーニングする前に、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルに統合できるマルチフレーム統合層を決定する必要があり、マルチフレーム統合層を介して出力された長さのベクトルを採点モデルに入力して採点できるようになる。例えば、1つのビデオフレームは、1つのN次元ベクトルに対応し、7個のビデオフレームを同時に取得する場合、得られたのは、7個のN次元ベクトルである。従って、採点モデルの正常な作動及び点数の信頼度を保証するために、マルチフレーム統合層を介して、得られた7個のN次元ベクトルを統合する必要があり、採点モデルの入力として適切なM次元ベクトルを得る。マルチフレーム統合層は、直列結合、プーリング又はベクトル加算などの手段を採用して複数のN次元ベクトルを1つの一定の長さのベクトルとして統合することができる。
【0050】
ステップS24では、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、採点モデルを得る。
【0051】
本出願の実施例において、採点モデルは、決定されたマルチフレーム統合層、第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングされて得られたものである。データペアを得る過程で、得られた注釈ビデオクリップをビデオクリップ内容に基づいて注釈し、更に注釈ビデオクリップが第1のクリップであるか第2のクリップであるかを決定する。目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含む。一例において、目標ビデオクリップは、ビデオのうち最も見事なビデオクリップとし、非目標ビデオクリップは、ビデオのうち最も見事でないビデオクリップとすることができる。よって、データペアを得る時、第1のクリップと第2のクリップとの間の差異を明確に区別することができ、採点モデルをトレーニングする際に、採点モデルは、異なるプロパティの間のビデオクリップ特徴を迅速に学習することができる。更に、注釈ビデオクリップに対するプロパティ注釈に基づき、トレーニングデータの正確度を高め、ノイズデータのモデルトレーニングに対する干渉を減少させることができ、更にトレーニングデータのクリーン度を高めることに役立ち、トレーニングモデルの構造をよりシンプルにし、別のネットワークモデルを採用して注釈ビデオクリップの信頼性を計算する必要がない。よって、採点モデルのトレーニング過程が加速して収束することができ、コストを節約することに役立つ。
【0052】
1つの実施シーンでは、採点モデルをトレーニングする際に、第1のクリップからK個のビデオフレームをランダムサンプリング又は均一サンプリング(uniformly sampling)する。更に、図3に示すように、得られたK個のビデオフレームに対してフレーム特徴抽出モデルによりフレーム特徴ベクトル抽出を行い、第1のクリップにおける各ビデオフレームに対応するフレーム特徴ベクトルを得る。更に、得られたK個のフレーム特徴ベクトルをマルチフレーム統合層により統合し、一定の長さのベクトルを有する第1のクリップ特徴ベクトルを得て、{P,P,...P}と記す。第2のクリップからK個のビデオフレームをランダムサンプリング又は均一サンプリングする。更に、得られたK個のビデオフレームに対してフレーム特徴抽出モデルによりフレーム特徴ベクトル抽出を行い、第2のクリップにおける各ビデオフレームに対応するフレーム特徴ベクトルを得る。更に、得られたK個のフレーム特徴ベクトルをマルチフレーム統合層により統合し、一定の長さのベクトルを有する第2のクリップ特徴ベクトルを得て、{N,N,...N}と記す。
【0053】
採点モデルは、多層パーセプトロンモデルから得られたものであってよい。多層パーセプトロンモデルをコピーし、パラメータを共有することで、シャムニューラルネットワークが得られる。更に、シャムニューラルネットワークをトレーニングすることで、トレーニング済みの採点モデルが得られる。得られた第1のクリップ特徴ベクトル及び第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力してトレーニングする時、取得された第1のクリップ特徴ベクトルと第2のクリップ特徴ベクトルを同時に入力とすることができ、第1のクリップの点数及び第2のクリップの点数を得て、第1のクリップ及び第2のクリップの点数に基づき、損失値を計算し、バックプロパゲーションアルゴリズムによりシャムニューラルネットワークをトレーニングする。トレーニングする時、各データペアにおける第1のクリップの特徴ベクトル{P,P,...P}及び第2のクリップの特徴ベクトル{N,N,...N}をシャムニューラルネットワークに入力し、第1のクリップの点数S(P)、第2のクリップの点数S(N)を得る。且つ、第1のクリップに対応する出力点数は、第2のクリップに対応する出力点数よりも高くすべきである。更に、ランキング損失関数を利用して、採点モデルから出力された点数にバックプロパゲーションを行い、シャムニューラルネットワークにおける各パラメータ及び重み割合を調整し、採点モデルの正確率を高め、トレーニング過程におけるシャムニューラルネットワークの収束スピードを加速させる。ランキング損失は、L({P,P,...P},{N,N,...N})=max(0.1-S(P)+S(N))のように記すことができる。
【0054】
以下、本出願の実施例において、実際の応用と組み合わせて、例を挙げて採点モデルのトレーニング過程を説明する。
【0055】
採点モデルをトレーニングする前に、採点モデルのトレーニングに適合するデータペアを予め得ることによって、採点モデルをトレーニングする際に、採点モデルは異なるビデオ内容の間の見事さの差異を区別することができ、採点の正確度を高めやすい。且つ、トレーニングに用いられるデータペアは、サンプルビデオにおける目標プロパティが注釈された注釈クリップに基づいて得られたので、ノイズデータの混入を回避し、トレーニングデータの品質を高めることに役立ち、トレーニングの難易度を低下させ、トレーニングプロセスを加速させることに寄与する。
【0056】
図4は、例示的な実施例により示されるデータペア決定方法のフローチャートであり、図4に示すように、データペア決定方法は、以下のステップS31~ステップS32を含む。
【0057】
ステップS31では、1つ又は複数の注釈ビデオクリップを含むサンプルビデオを取得する。
【0058】
一実施例において、採点モデルをトレーニングする前に、一定の量のサンプルビデオを予め取得し、サンプルビデオセットを得て、十分なトレーニングデータで採点モデルをトレーニングすることができる。
【0059】
ステップS32では、1つ又は複数の注釈ビデオクリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非注釈ビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得る。
【0060】
当該サンプルビデオセットでは、各サンプルビデオはいずれも1つ又は複数の注釈ビデオクリップ及び非注釈ビデオクリップを有する。各サンプルビデオにおける注釈ビデオクリップを内容に基づいて注釈し、各注釈ビデオクリップの目標プロパティを明確にする。注釈された目標プロパティに基づき、各注釈ビデオクリップ及び各非注釈ビデオクリップから第1のクリップと第2のクリップからなるデータペアを得る。ここで、第1のクリップが目標ビデオクリップとなる可能性は、第2のクリップが目標ビデオクリップとなる可能性よりも高い。第1のクリップと第2のクリップの間の差異に基づき、採点モデルが目標ビデオクリップと非目標ビデオクリップと非注釈ビデオクリップの間の特徴の差異を正確に区別することができ、更に採点モデルの正確度を高めることに役立つ。
【0061】
一例において、採点モデルが同一のビデオにおける異なるビデオクリップの間の見事さの差異をよりよく区別できるように、データペアを得る時、第1のクリップと第2のクリップは、同一のサンプルビデオに由来することができ、更に各ビデオクリップの間の相対的な点数の差異を得ることができ、同一のビデオにおける各ビデオクリップの間の見事さを区別することに役立ち、サンプルビデオを十分に利用することに役立つ。例えば、ダンクショットハイライトビデオについて、全てのダンクショットビデオクリップもハイライトビデオクリップに属する。同一のサンプルビデオに由来する第1のクリップと第2のクリップから得られたデータペアを利用してトレーニングして得られた採点モデルによって、各ダンクショットビデオクリップの点数の間の相対的な大きさを得ることができ、相対的により見事なダンクショットビデオクリップを区別することに役立ち、目標ビデオを抽出しやすくなる。
【0062】
以下、本出願の実施例において、目標ビデオクリップがハイライトビデオクリップであることを例として説明する。
【0063】
ここで、注釈サンプルビデオにおける目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップの場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最も見事なビデオクリップを、目標ビデオクリッププロパティを有するビデオクリップとし、即ち、当該ビデオクリップは、同一のサンプルビデオにおける他の時点の内容に比べて、より見事であり、より人の目を引く。更に、当該ビデオクリップの開始・終了時点を注釈し、目標ビデオクリッププロパティを有する注釈ビデオクリップを得る。注釈サンプルビデオにおける非目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップの場合、サンプルビデオの内容に基づき、当該サンプルビデオのうち最も見事でないビデオクリップを、非目標ビデオクリッププロパティを有するビデオクリップとし、即ち、当該ビデオクリップは、同一のサンプルビデオにおける他の時点の内容に比べて、より見事でなく、より人の目を引かない。更に、当該ビデオクリップの開始・終了時点を注釈し、非目標ビデオクリッププロパティを有する注釈ビデオクリップを得る。
【0064】
一例において、サンプルビデオは、1つ又は複数の目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップ、及び非注釈ビデオクリップを含むことができる。データペアを得る時、1つ又は複数の注釈ビデオクリップを第1のクリップとし、サンプルビデオに含まれる非注釈ビデオクリップから一部のビデオクリップを抽出して第2のクリップとすることができる。サンプルビデオに1つの注釈ビデオクリップのみが存在し、且つ、非注釈ビデオクリップの時間長が注釈ビデオクリップの時間長に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈ビデオクリップを第1のクリップとし、非注釈ビデオクリップを第2のクリップとすることができる。例えば、図5に示すように、ビデオクリップ2は、目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップであり、ビデオクリップ1及びビデオクリップ3は、非注釈ビデオクリップである。更に、データペアを得る時、ビデオクリップ2が第1のクリップで、ビデオクリップ1が第2のクリップであるデータペア、及びビデオクリップ2が第1のクリップで、ビデオクリップ3が第2のクリップであるデータペアを得ることができる。サンプルビデオに1つの注釈ビデオクリップのみが存在し、非注釈ビデオクリップの時間長が長過ぎる場合、非注釈ビデオクリップを所定の時間長範囲内の複数のサブ非注釈ビデオクリップに分割することができ、更に注釈ビデオクリップを第1のクリップとし、サブ非注釈ビデオクリップを第2のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低下させることに役立ち、且つ、少量の注釈ビデオクリップを注釈するだけで大量のトレーニングデータペアを取得することができる。例えば、サンプルビデオの時間長が60秒であり、ここで、注釈ビデオクリップが10秒であり、非注釈ビデオクリップが50秒である場合、大量のトレーニングデータペアを取得しやすくするために、非注釈ビデオクリップを注釈ビデオクリップの時間長に近い複数のサブ非注釈ビデオクリップに分割することができる。非注釈ビデオクリップを複数の10秒を超えていないサブ非注釈ビデオクリップに分割すれば、少なくとも5つのサブ非注釈ビデオクリップを得ることができ、例えば、サブ非注釈ビデオクリップ1、サブ非注釈ビデオクリップ2、サブ非注釈ビデオクリップ3、サブ非注釈ビデオクリップ4、サブ非注釈ビデオクリップ5である。更に、点数モデルのトレーニングに用いられる5対のデータペアを得ることができ、即ち、注釈ビデオクリップが第1のクリップで、サブ非注釈ビデオクリップ1が第2のクリップであるデータペア、注釈ビデオクリップが第1のクリップで、サブ非注釈ビデオクリップ2が第2のクリップであるデータペア、注釈ビデオクリップが第1のクリップで、サブ非注釈ビデオクリップ3が第2のクリップであるデータペア、注釈ビデオクリップが第1のクリップで、サブ非注釈ビデオクリップ4が第2のクリップであるデータペア、注釈ビデオクリップが第1のクリップで、サブ非注釈ビデオクリップ5が第2のクリップであるデータペアである。
【0065】
別の例において、サンプルビデオは、1つ又は複数の目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップ、及び非注釈ビデオクリップを含むことができる。データペアを得る時、1つ又は複数の注釈ビデオクリップを第2のクリップとし、サンプルビデオに含まれる非注釈ビデオクリップから一部のビデオクリップを抽出し、第1のクリップとすることができる。サンプルビデオに1つの注釈ビデオクリップのみが存在し、且つ、非注釈ビデオクリップの時間長が注釈ビデオクリップの時間長に近い場合、トレーニングする時に必要なデータペアを得るように、直接、注釈ビデオクリップを第2のクリップとし、非注釈ビデオクリップを第1のクリップとすることができる。例えば、図6に示すように、ビデオクリップ3は、目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップであり、ビデオクリップ1及びビデオクリップ2は、非注釈ビデオクリップである。更に、データペアを得る時、ビデオクリップ1が第1のクリップで、ビデオクリップ3が第2のクリップであるデータペア、及びビデオクリップ2が第1のクリップで、ビデオクリップ3が第2のクリップであるデータペアを得ることができる。サンプルビデオに1つの注釈ビデオクリップのみが存在し、非注釈ビデオクリップの時間長が長過ぎる場合、非注釈ビデオクリップを所定の時間長範囲内の複数のサブ非注釈ビデオクリップに分割することができ、更に注釈ビデオクリップを第2のクリップとし、サブ非注釈ビデオクリップを第1のクリップとする複数のデータペアを得ることができる。よって、注釈の難易度を低下させることに役立ち、且つ、少量の注釈ビデオクリップを注釈するだけで大量のトレーニングデータペアを取得することができる。
【0066】
更に別の例において、サンプルビデオは、1つ又は複数の目標プロパティが目標ビデオクリッププロパティである注釈ビデオクリップ、1つ又は複数の目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップ、及び非注釈ビデオクリップを含むことができる。データペアを得る時、目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第1のクリップとする場合、非目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第2のクリップとし、又は非注釈ビデオクリップから一部のビデオクリップを抽出して第2のクリップとする。非目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第2のクリップとする場合、目標ビデオクリップを特徴付けるプロパティが注釈された注釈ビデオクリップを第1のクリップとし、又は非注釈ビデオクリップから一部のビデオクリップを抽出して第1のクリップとする。例えば、図7に示すように、ビデオクリップ2は、目標ビデオクリップを特徴付けるプロパティの注釈ビデオクリップであり、ビデオクリップ3は、目標プロパティが非目標ビデオクリッププロパティである注釈ビデオクリップであり、ビデオクリップ1は、非注釈ビデオクリップである。更に、データペアを得る時、ビデオクリップ2が第1のクリップで、ビデオクリップ1が第2のクリップであるデータペアを得て、ビデオクリップ2が第1のクリップで、ビデオクリップ3が第2のクリップであるデータペアを得て、ビデオクリップ1が第1のクリップで、ビデオクリップ3が第2のクリップであるデータペアを得ることができる。
【0067】
注釈付きのトレーニングデータペアを得ることで、ノイズデータの発生を効果的に減少させ、ノイズデータによる干渉を回避することができ、更に、トレーニングデータのクリーン度を高めることに役立ち、採点モデルの構造をシンプルにし、トレーニングデータの信頼性を高めるように他のネットワークモデルを採用したり、他のパラメータを追加したりする必要がなく、トレーニングの難易度が低く、トレーニング過程で採点モデルの収束を加速させることに役立つ。
【0068】
同様な構想に基づき、本出願の実施例は、更にビデオクリップ抽出装置を提供する。
【0069】
本出願の実施例により提供されるビデオクリップ抽出装置は、上記機能を実現するために、各機能を実行するためのハードウェア構造及び/又はソフトウェアモジュールを含むことが理解できる。本出願の実施例に開示された各例のユニット及びアルゴリズムステップと組み合わせて、本出願の実施例は、ハードウェア又はハードウェアとコンピュータソフトウェアを組み合わせた形態で実現することができる。ある機能が果たしてハードウェアの形態で実行されるか、それともコンピュータソフトウェアがハードウェアをドライブするという形態で実行されるかは、技術案の特定の応用及び設計制約条件によるものである。当業者は、各特定の応用に対して異なる方法で説明される機能を実現することができるが、このような実現は本出願の実施例の技術案の範囲を超えていると考えられるべきではない。
【0070】
図8は、例示的な実施例により示されるビデオクリップ抽出装置のブロック図である。図8を参照し、当該ビデオクリップ抽出装置100は、取得ユニット101と、特徴抽出ユニット102と、決定ユニット103と、抽出ユニット104と、を含む。
【0071】
取得ユニット101は、ビデオを取得し、ビデオでサンプリングしてN個のビデオフレームを得るために用いられ、Nが正整数である。
【0072】
特徴抽出ユニット102は、N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るために用いられる。
【0073】
決定ユニット103は、予めトレーニングされた採点モデルに基づき、N個のビデオフレームの点数を決定し、N個のビデオフレームのうちの第iフレームに対して、第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、第iフレームの点数を得るために用いられ、iがN以下の正整数であり、Kが正整数である。
【0074】
抽出ユニット104は、N個のビデオフレームの点数に基づき、ビデオから目標ビデオクリップを抽出するために用いられる。
【0075】
一実施例において、ビデオクリップ抽出装置は、トレーニングユニットを更に含む。トレーニングユニットは、統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして採点モデルを得るために用いられ、第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる。
【0076】
別の実施例において、トレーニングユニットは、以下の手段を採用して、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアトレーニングに基づき、採点モデルを得て、即ち、第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、マルチフレーム統合層に基づき、第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、マルチフレーム統合層に基づき、第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合し、第1のクリップ特徴ベクトル及び第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、第1のクリップの点数及び第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、採点モデルが、トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である。
【0077】
更に別の実施例において、第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、1つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得る手段であって、第1のクリップが目標ビデオクリップとなる可能性が、第2のクリップが目標ビデオクリップとなる可能性よりも高い手段である。
【0078】
更に別の実施例において、第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及びサンプルビデオに含まれる非サンプルビデオクリップに基づいて得られ、即ち、1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、第1のクリップと第2のクリップから1つ又は複数のデータペアを得る手段、又は、1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、1つ又は複数のサンプルビデオクリップを第2のクリップとし、サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、第1のクリップと第2のクリップから1つ又は複数のデータペアを得る手段、又は、1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、第1のクリップと第2のクリップからデータペアを得て、且つ、第1のクリップ及び一部のビデオクリップからデータペアを得て、第2のクリップ及び一部のビデオクリップからデータペアを得る手段である。
【0079】
更に別の実施例において、抽出ユニットは、以下の手段を採用して、N個のビデオフレームの点数に基づき、ビデオから目標ビデオクリップを抽出し、即ち、一定の長さのスライディングウィンドウが時系列に沿ってビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが1つのビデオクリップに対応し、スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、複数のビデオクリップの点数に基づき、複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出する手段である。
【0080】
上記実施例における装置について、各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例において詳しく説明したため、ここで詳しく説明しない。
【0081】
図9は、例示的な実施例により示される別のビデオクリップ抽出装置のブロック図である。例えば、ビデオクリップ抽出装置200は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲームコンソール、タブレット型デバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってよい。
【0082】
図9を参照し、ビデオクリップ抽出装置200は、処理コンポーネント202、メモリ204、電力コンポーネント206、マルチメディアコンポーネント208、オーディオコンポーネント210、入力/出力(I/O)インタフェース212、センサコンポーネント214、及び通信コンポーネント216の1つ又は複数のコンポーネントを含むことができる。
【0083】
処理コンポーネント202は、通常、ビデオクリップ抽出装置200の全体的な操作を制御し、例えば、表示、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理コンポーネント202は、上記した方法の全部又は一部のステップを完成するように、命令を実行する1つ又は複数のプロセッサ220を含むことができる。また、処理コンポーネント202は、処理コンポーネント202と他のコンポーネントの間のインタラクションのために、1つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント202は、マルチメディアコンポーネント208と処理コンポーネント202の間のインタラクションのために、マルチメディアモジュールを含むことができる。
【0084】
メモリ204は、ビデオクリップ抽出装置200の操作をサポートするために様々なタイプのデータを記憶するように配置されている。これらのデータの例は、ビデオクリップ抽出装置200で操作するための任意のアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ204は、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、消去可能プログラマブルリードオンリーメモリ(EPROM)、プログラマブルリードオンリーメモリ(PROM)、リードオンリーメモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのような任意のタイプの揮発性又は非揮発性メモリ装置又はそれらの組み合わせにより実現することができる。
【0085】
電力コンポーネント206は、ビデオクリップ抽出装置200の各種のコンポーネントに電力を提供する。電力コンポーネント206は、電源管理システム、1つ又は複数の電源、及びビデオクリップ抽出装置200のための電力の生成、管理及び分配に関連する他のコンポーネントを含むことができる。
【0086】
マルチメディアコンポーネント208は、前記ビデオクリップ抽出装置200とユーザとの間にあるとともに出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザから入力された信号を受信するように、タッチスクリーンとして実現することができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するように、1つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例において、マルチメディアコンポーネント208は、1つのフロントカメラ及び/又はリアカメラを含む。ビデオクリップ抽出装置200が撮像モード又はビデオモードなどの操作モードにある場合、フロントカメラ及び/又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、特定の光学レンズシステムであってもよく、又は焦点距離及び光学ズーミング能力を有する。
【0087】
オーディオコンポーネント210は、オーディオ信号を出力及び/又は入力するように配置されている。例えば、オーディオコンポーネント210は、マイクロホン(MIC)を含み、ビデオクリップ抽出装置200が呼び出しモード、記録モード及び音声識別モードなどの操作モードにある場合、マイクロホンは、外部のオーディオ信号を受信するように配置されている。受信したオーディオ信号は、更にメモリ204に記憶されるか、又は通信コンポーネント216を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント210は、オーディオ信号を出力するためのスピーカを更に含む。
【0088】
I/Oインタフェース212は、処理コンポーネント202とペリフェラルインタフェースモジュールとの間にインタフェースを提供し、上記ペリフェラルインタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってよい。これらのボタンは、ホームページボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。
【0089】
センサコンポーネント214は、ビデオクリップ抽出装置200に各方面の状態の評価を提供するための1つ又は複数のセンサを含む。例えば、センサコンポーネント214は、ビデオクリップ抽出装置200のオン/オフ状態、コンポーネントの相対的な位置決めを検出することができ、例えば前記コンポーネントはビデオクリップ抽出装置200のディスプレイ及びキーパッドであり、センサコンポーネント214は、ビデオクリップ抽出装置200又はビデオクリップ抽出装置200のあるコンポーネントの位置変更、ユーザがビデオクリップ抽出装置200に接触しているか否か、ビデオクリップ抽出装置200の方位又は加速/減速、及びビデオクリップ抽出装置200の温度変化を検出することもできる。センサコンポーネント214は、何の物理的接触もない場合に近くに物体が存在するか否かを検出するために配置されている近接センサを含むことができる。センサコンポーネント214は、CMOS又はCCD画像センサなどの光センサを更に含んでもよく、結像応用において使用される。いくつかの実施例において、当該センサコンポーネント214は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを更に含んでもよい。
【0090】
通信コンポーネント216は、ビデオクリップ抽出装置200及び他の機器の間で有線又は無線方式の通信を行うように配置されている。ビデオクリップ抽出装置200は、WiFi、2G又は3G、又はそれらの組み合わせのような通信標準に基づく無線ネットワークにアクセスすることができる。1つの例示的な実施例において、通信コンポーネント216は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。1つの例示的な実施例において、前記通信コンポーネント216は、近距離通信を促進するように、近距離無線通信(NFC)モジュールを更に含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現することができる。
【0091】
例示的な実施例において、ビデオクリップ抽出装置200は、上記方法を実行するために、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現することができる。
【0092】
例示的な実施例において、更に命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供し、例えば命令を含むメモリ204であり、上記方法を完成するように、上記命令はビデオクリップ抽出装置200のプロセッサ220により実行されることができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
【0093】
なお、本出願における「複数」は、2つ又は2つ以上を指し、他の数量詞はそれと類似する。「及び/又は」は、関連対象の関連関係を説明するものであり、3種類の関係が存在可能であることを表し、例えば、A及び/又はBは、Aのみが存在するか、A及びBが同時に存在するか、Bのみが存在するという3つの場合を表すことができる。符号「/」は、一般的に前後の関連対象が「又は」の関係であることを表す。単数の形の「1種」、「前記」及び「当該」は、文脈において他の意味を明らかに表記していない限り、複数の形を含むことも意図している。
【0094】
なお、「第1」、「第2」などの用語は、各種の情報を説明するためのものであるが、これらの情報は、これらの用語に限定されるべきではない。これらの用語は、同じタイプの情報を互いに区別するためのものに過ぎず、特定の順番又は重要程度を表すわけではない。実際には、「第1」、「第2」などの表現は、全く交換可能に使用することができる。例えば、本出願の範囲を逸脱しない限り、第1の情報は第2の情報と称されてもよく、同じく、第2の情報も第1の情報と称されてもよい。
【0095】
なお、特に説明しない限り、「接続」は、両者の間に他の構成要素が介在しない直接接続を含むし、両者の間に他の元件が介在する間接接続をも含む。
【0096】
なお、本出願の実施例では、図面において特定の順番で操作を説明したが、示されている特定の順番又はシリアル順番でそれらの操作を実行するように要求しているか、又は希望の結果を得るように示されている全ての操作を実行するように要求していると理解してはいけない。特定の環境では、マルチタスク及びパラレル処理が有利になる場合がある。
【0097】
当業者は、明細書を考慮して、ここで開示された発明を実践した後、本出願の他の実施形態を容易に想到する。本出願は、本出願の全ての変形、用途又は適応的変化を含むことを意図しており、これらの変形、用途又は適応的変化は、本出願の一般的原理に準じるものであり、本出願に開示されていない本技術分野における公知の知識又は慣用の技術手段を含む。明細書及び実施例は、例示的なもののみとして見なされ、本出願の実際の範囲及び精神は、下記の特許請求の範囲により指摘される。
【0098】
なお、本出願は、以上に説明されて図面に示されている正確な構造に制限されず、その範囲を逸脱することなく様々な修正及び変更を行うことができる。本出願の範囲は、添付される特許請求の範囲のみにより制限される。
【0099】
(付記)
(付記1)
ビデオクリップ抽出方法であって、
ビデオを取得し、前記ビデオでサンプリングしてN個のビデオフレーム(Nが正整数)を得るステップと、
前記N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るステップと、
予めトレーニングされた採点モデルに基づき、前記N個のビデオフレームの点数を決定するステップであって、前記N個のビデオフレームのうちの第iフレームに対して、前記第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第iフレームの点数を得て、前記iがN以下の正整数であり、前記Kが正整数であるステップと、
前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップと、を含む、
ことを特徴とするビデオクリップ抽出方法。
【0100】
(付記2)
前記採点モデルは、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングされて得られ、
前記第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とする付記1に記載のビデオクリップ抽出方法。
【0101】
(付記3)
前記マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るステップは、
第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、かつ
前記マルチフレーム統合層に基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合するステップと、
前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得るステップであって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つであるステップと、を含む、
ことを特徴とする付記2に記載のビデオクリップ抽出方法。
【0102】
(付記4)
前記第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、
1つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得る手段であって、第1のクリップが目標ビデオクリップとなる可能性が、第2のクリップが目標ビデオクリップとなる可能性よりも高い手段である、
ことを特徴とする付記2又は3に記載のビデオクリップ抽出方法。
【0103】
(付記5)
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得るステップは、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得るステップ、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得るステップ、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第1のクリップ及び前記第2のクリップからデータペアを得て、且つ、前記第1のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第2のクリップ及び前記一部のビデオクリップからデータペアを得るステップ、を含む、
ことを特徴とする付記4に記載のビデオクリップ抽出方法。
【0104】
(付記6)
前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するステップは、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得るステップであって、各々のスライディングウィンドウが1つのビデオクリップに対応するステップと、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とするステップと、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出するステップと、を含む、
ことを特徴とする付記1に記載のビデオクリップ抽出方法。
【0105】
(付記7)
ビデオクリップ抽出装置であって、
ビデオを取得し、前記ビデオでサンプリングしてN個のビデオフレーム(Nが正整数)を得るための取得ユニットと、
前記N個のビデオフレームを予めトレーニングされたフレーム特徴抽出モデルに入力し、前記N個のビデオフレームのうちの各ビデオフレームの特徴ベクトルを得るための特徴抽出ユニットと、
予めトレーニングされた採点モデルに基づき、前記N個のビデオフレームの点数を決定するための決定ユニットであって、前記N個のビデオフレームのうちの第iフレームに対して、前記第iフレームを中心とするK個のビデオフレームの特徴ベクトルを予めトレーニングされた採点モデルに入力し、前記第iフレームの点数を得て、前記iがN以下の正整数であり、前記Kが正整数である決定ユニットと、
前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出するための抽出ユニットと、を含む、
ことを特徴とするビデオクリップ抽出装置。
【0106】
(付記8)
前記ビデオクリップ抽出装置は、トレーニングユニットを更に含み、
前記トレーニングユニットは、マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得るために用いられ、前記第1のクリップと第2のクリップからなるデータペアは、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、前記目標プロパティは、ビデオクリップが目標ビデオクリップ又は非目標ビデオクリップであることを特徴付けるプロパティを含み、前記マルチフレーム統合層は、K個のビデオフレームの特徴ベクトルを一定の長さのベクトルとして統合するために用いられる、
ことを特徴とする付記7に記載のビデオクリップ抽出装置。
【0107】
(付記9)
前記トレーニングユニットは、以下の手段を採用して、前記マルチフレーム統合層、及び第1のクリップと第2のクリップからなるデータペアに基づいてトレーニングして、前記採点モデルを得て、即ち、
第1のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、第2のクリップからK個のビデオフレームをサンプリングし、フレーム特徴抽出モデルに基づき、前記第2のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを抽出し、且つ、
前記マルチフレーム統合層に基づき、前記第1のクリップからサンプリングされたK個のビデオフレームの特徴ベクトルを、一定の長さのベクトルを有する第1のクリップ特徴ベクトルとして統合し、前記マルチフレーム統合層に基づき、前記第2のクリップからサンプリングされたK個のビデオフレームを、一定の長さのベクトルを有する第2のクリップ特徴ベクトルとして統合し、
前記第1のクリップ特徴ベクトル及び前記第2のクリップ特徴ベクトルをシャムニューラルネットワークに入力し、前記第1のクリップの点数及び前記第2のクリップの点数を得て、ランキング損失を利用してバックプロパゲーションを行い、トレーニングしてトレーニング済みのシャムニューラルネットワークを得る手段であって、前記シャムニューラルネットワークが、パラメータを共有する2つの多層パーセプトロンモデルを含み、前記採点モデルが、前記トレーニング済みのシャムニューラルネットワークの多層パーセプトロンモデルの1つである手段である、
ことを特徴とする付記8に記載のビデオクリップ抽出装置。
【0108】
(付記10)
前記第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、目標プロパティが注釈されたサンプルビデオクリップに基づいて得られ、即ち、
1つ又は複数のサンプルビデオクリップを含むサンプルビデオを取得し、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づき、第1のクリップと第2のクリップからなるデータペアを得る手段であって、第1のクリップが目標ビデオクリップとなる可能性が、第2のクリップが目標ビデオクリップとなる可能性よりも高い手段である、
ことを特徴とする付記8又は9に記載のビデオクリップ抽出装置。
【0109】
(付記11)
前記第1のクリップと第2のクリップからなるデータペアは、以下の手段を採用して、前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティ、及び前記サンプルビデオに含まれる非サンプルビデオクリップに基づいて得られ、即ち、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第1のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第2のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得る手段、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、前記1つ又は複数のサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出して第1のクリップとし、前記第1のクリップ及び前記第2のクリップから1つ又は複数のデータペアを得る手段、又は、
前記1つ又は複数のサンプルビデオクリップにて注釈された目標プロパティが、ビデオクリップが目標ビデオクリップであることを特徴付けるプロパティ及びビデオクリップが非目標ビデオクリップであることを特徴付けるプロパティを含む場合、目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第1のクリップとし、非目標ビデオクリップを特徴付けるプロパティが注釈されたサンプルビデオクリップを第2のクリップとし、且つ、前記サンプルビデオに含まれる非サンプルビデオクリップから一部のビデオクリップを抽出し、前記第1のクリップ及び前記第2のクリップからデータペアを得て、且つ、前記第1のクリップ及び前記一部のビデオクリップからデータペアを得て、前記第2のクリップ及び前記一部のビデオクリップからデータペアを得る手段である、
ことを特徴とする付記10に記載のビデオクリップ抽出装置。
【0110】
(付記12)
前記抽出ユニットは、以下の手段を採用して、前記N個のビデオフレームの点数に基づき、前記ビデオから目標ビデオクリップを抽出し、即ち、
一定の長さのスライディングウィンドウが時系列に沿って前記ビデオをスライドすることで、複数のビデオクリップを得て、各々のスライディングウィンドウが1つのビデオクリップに対応し、
スライディングウィンドウごとに、それぞれスライディングウィンドウ内に含まれるビデオフレームの平均点数を決定し、前記ビデオフレームの平均点数をスライディングウィンドウに対応するビデオクリップの点数とし、
前記複数のビデオクリップの点数に基づき、前記複数のビデオクリップから1つ又は複数の目標ビデオクリップを抽出する手段である、
ことを特徴とする付記7に記載のビデオクリップ抽出装置。
【0111】
(付記13)
ビデオクリップ抽出装置であって、
命令を記憶するためのメモリと、
付記1~6のいずれか一つに記載のビデオクリップ抽出方法を実行するように、前記メモリに記憶されている命令を呼び出すためのプロセッサと、を含む、
ビデオクリップ抽出装置。
【0112】
(付記14)
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサに実行される場合、付記1~6のいずれか一つに記載のビデオクリップ抽出方法が実行されるコンピュータ読み取り可能な記憶媒体。
図1
図2
図3
図4
図5
図6
図7
図8
図9