特表2024-544838 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特表2024-544838ビデオクリップの識別方法、装置、機器及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-05

(54)【発明の名称】ビデオクリップの識別方法、装置、機器及び記憶媒体

(51)【国際特許分類】

G06F 16/53 20190101AFI20241128BHJP

G06F 16/73 20190101ALI20241128BHJP

H04N 21/854 20110101ALI20241128BHJP

G06V 10/62 20220101ALN20241128BHJP

【ＦＩ】

G06F16/53

G06F16/73

H04N21/854

G06V10/62

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024523262

(86)(22)【出願日】2022-11-29

(85)【翻訳文提出日】2024-04-17

(86)【国際出願番号】 CN2022135034

(87)【国際公開番号】W WO2023168998

(87)【国際公開日】2023-09-14

(31)【優先権主張番号】202210219364.3

(32)【優先日】2022-03-08

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

【氏名又は名称原語表記】ＴＥＮＣＥＮＴＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯＭＰＡＮＹＬＩＭＩＴＥＤ

【住所又は居所原語表記】３５／Ｆ，ＴｅｎｃｅｎｔＢｕｉｌｄｉｎｇ，ＫｅｊｉｚｈｏｎｇｙｉＲｏａｄ，ＭｉｄｗｅｓｔＤｉｓｔｒｉｃｔｏｆＨｉ－ｔｅｃｈＰａｒｋ，ＮａｎｓｈａｎＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７，ＣＨＩＮＡ

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】郭卉

【テーマコード（参考）】

5B175

5C164

5L096

【Ｆターム（参考）】

5B175DA02

5B175DA04

5B175HB03

5C164MA02S

5C164MC01P

5L096CA04

5L096JA11

(57)【要約】

本願はビデオクリップの識別方法、装置、機器及び記憶媒体を公開し、コンピュータ技術におけるビデオクリップの識別、人工知能及び車載などのシーンに応用可能である。本願実施例が提供する技術案により、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴が取得されるとともに、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対が決定され、ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、第１ビデオフレームは第１ビデオに属し、第２ビデオフレームは少なくとも１つの第２ビデオ（２０１）に属し、複数のビデオフレーム対の出現時間差に基づき、複数のビデオフレーム対のうちの第１ビデオフレームを融合して、第１ビデオのうちの少なくとも１つの候補ビデオクリップが得られ、出現時間差とはビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差（２０２）を指し、目標時間範囲を取得するとともに、前記少なくとも１つの候補ビデオクリップ及び目標時間範囲に基づき、前記第１ビデオにおける少なくとも１つの目標ビデオクリップを決定し、前記目標ビデオクリップは前記第１ビデオの前記目標時間範囲内（２０３）にある。

【特許請求の範囲】

【請求項1】

コンピュータ機器により実行されるビデオクリップの識別方法であって、
第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を取得し、前記第１ビデオのビデオフレーム特徴及び前記少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、前記ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、前記第１ビデオフレームは前記第１ビデオに属し、前記第２ビデオフレームは前記少なくとも１つの第２ビデオに属することと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第１ビデオフレームを融合して、前記第１ビデオのうちの少なくとも１つの候補ビデオクリップを得ることであって、前記出現時間差とはビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差を指すことと、
目標時間範囲を取得し、前記少なくとも１つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第１ビデオにおける少なくとも１つの目標ビデオクリップを決定することであって、前記目標ビデオクリップは前記第１ビデオの前記目標時間範囲内にあることと、を含む、ビデオクリップの識別方法。

【請求項2】

前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第１ビデオフレームを融合して、前記第１ビデオのうちの少なくとも１つの候補ビデオクリップを前記得ることは、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に区分することであって、同一の前記ビデオフレーム群のうちのビデオフレーム対は同一の出現時間差に対応していることと、
前記複数のビデオフレーム群のうちの任意の１つのビデオフレーム群に対して、前記ビデオフレーム群のうちのビデオフレーム対の第１ビデオフレームの前記第１ビデオにおける出現時間に応じて、前記ビデオフレーム群のうちのビデオフレーム対の第１ビデオフレームを１つの前記候補ビデオクリップに融合することと、を含む、請求項１に記載の方法。

【請求項3】

前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に前記区分する前に、前記方法は、更に、
前記複数のビデオフレーム対のうちの任意の１つのビデオフレーム対に対して、前記ビデオフレーム対のうちの第１ビデオフレームの第１出現時間及び第２ビデオフレームの第２出現時間を決定することであって、前記第１出現時間とは第１ビデオフレームが第１ビデオに出現する時間を指し、前記第２出現時間とは第２ビデオフレームが第２ビデオに出現する時間を指すことと、
前記ビデオフレーム対のうちの第１ビデオフレームの第１出現時間から第２ビデオフレーム対の第２出現時間を減じて、前記ビデオフレーム対の出現時間差を得ることと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に前記区分することは、出現時間差が同一のビデオフレーム対を１つの初期ビデオフレーム群に区分し、前記初期ビデオフレーム群のうちのビデオフレーム対の出現時間差を、前記初期ビデオフレーム群に対応する出現時間差とすることを含むことと、
複数の初期ビデオフレーム群に対応する出現時間差に基づき、前記複数の初期ビデオフレーム群を融合して、前記複数のビデオフレーム群を得ることと、を含む、請求項２に記載の方法。

【請求項4】

複数の初期ビデオフレーム群に対応する出現時間差に基づき、前記複数の初期ビデオフレーム群を融合して、前記複数のビデオフレーム群を前記得ることは、
所定のコンフィギュレーション情報を取得することであって、前記コンフィギュレーション情報は目標順序を含むことと、
前記目標順序に応じて前記複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得ることと、
前記複数の候補ビデオフレーム群のうちの任意の２つの隣接する候補ビデオフレーム群に対して、前記２つの隣接する候補ビデオフレーム群間のマッチング時間差がマッチング時間差条件に合致している場合は、前記２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群に融合することであって、前記マッチング時間差とは前記２つの隣接する候補ビデオフレーム群に対応した出現時間差間の数値差を指すことと、を含む、請求項３に記載の方法。

【請求項5】

前記２つの隣接する候補ビデオフレーム群は、第１候補ビデオフレーム群及び第２候補ビデオフレーム群を含み、前記２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群に前記融合することは、
前記第１候補ビデオフレーム群と前記第２候補ビデオフレーム群との間のマッチング時間差がマッチング差の閾値以下である場合は、前記第１候補ビデオフレーム群のうちのビデオフレーム対を前記第２候補ビデオフレーム群に追加することと、
前記第２候補ビデオフレーム群に対応した出現時間差に基づき、目標第２ビデオフレームを参照第２ビデオフレームに置き換えて前記ビデオフレーム群を得ることであって、前記目標第２ビデオフレームは前記第２候補ビデオフレーム群に新たに追加される第２ビデオフレームであり、前記参照第２ビデオフレームは前記第２ビデオフレームにおいて目標第１ビデオフレームとの間の出現時間差が目標差である第２ビデオフレームであり、前記目標差は前記第２候補ビデオフレーム群に対応した出現時間差であり、前記目標第１ビデオフレームは前記目標第２ビデオフレームが属するビデオフレーム対における第１ビデオフレームであることと、を含む、請求項４に記載の方法。

【請求項6】

前記ビデオフレーム群のうちのビデオフレーム対の第１ビデオフレームの前記第１ビデオにおける出現時間に応じて、前記ビデオフレーム群のうちのビデオフレーム対の第１ビデオフレームを１つの前記候補ビデオクリップに前記融合することは、
前記ビデオフレーム群のうちのビデオフレーム対をトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定することであって、前記現在のビデオフレーム対及び前記前回のビデオフレーム対は前記ビデオフレーム群のうちの２つの隣接するビデオフレーム対であることと、
前記現在のビデオフレーム対及び前記前回のビデオフレーム対の第１ビデオフレームの前記第１ビデオにおける出現時間を比較して、第１ビデオフレームの出現時間の数値差を得ることと、
前記第１ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、前記現在のビデオフレーム対及び前記前回のビデオフレーム対を一時フレームリストに追加することと、
前記第１ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、前記一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、融合後に前記一時フレームリストをクリアすることと、
次回トラバースするビデオフレーム対を決定して、前記次回トラバースするビデオフレーム対を新たな現在のビデオフレーム対とし、前記現在のビデオフレーム対及び前記前回のビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間を比較するステップに戻り、最終１つのビデオフレーム対にトラバースするまで引き続き実行することと、
複数の参照ビデオクリップに基づき、前記少なくとも１つの候補ビデオクリップを決定することと、を含む、請求項２に記載の方法。

【請求項7】

前記複数の参照ビデオクリップは第１重畳ビデオクリップを含み、前記第１重畳ビデオクリップとは、前記複数の参照ビデオクリップのうちの第１参照ビデオクリップに属する参照ビデオクリップを指し、前記複数の参照ビデオクリップに基づき、前記少なくとも１つの候補ビデオクリップを決定することは、
前記複数の参照ビデオクリップに前記第１重畳ビデオクリップが含まれている場合は、前記第１重畳ビデオクリップを削除して、前記少なくとも１つの候補ビデオクリップを得ること、を含む、請求項６に記載の方法。

【請求項8】

前記複数の参照ビデオクリップは第２重畳ビデオクリップを含み、前記第２重畳ビデオクリップとは、前記複数の参照ビデオクリップのうちの第２参照ビデオクリップ部分と重畳する参照ビデオクリップを指し、前記複数の参照ビデオクリップに基づき、前記少なくとも１つの候補ビデオクリップを決定することは、
前記複数の参照ビデオクリップに前記第２重畳ビデオクリップが含まれている場合は、前記第２重畳ビデオクリップと前記第２参照クリップとの間の重畳部分を削除して、前記少なくとも１つの候補ビデオクリップを得ること、を含む、請求項６に記載の方法。

【請求項9】

前記複数の参照ビデオクリップに前記第２重畳ビデオクリップが含まれている場合は、前記第２重畳ビデオクリップと前記第２参照クリップとの間の重畳部分を前記削除した後、前記方法は、更に、
第３類参照ビデオクリップの時間長と目標時間長とを比較することであって、前記第３類参照ビデオクリップとは、重畳部分を削除した前記第２重畳ビデオクリップを指すことと、
前記第３類参照ビデオクリップの時間長が前記目標時間長以上である場合は、前記第３類参照ビデオクリップを留保することと、
前記第３類参照ビデオクリップの時間長が前記目標時間長未満である場合は、前記第３類参照ビデオクリップを削除することと、を含む、請求項８に記載の方法。

【請求項10】

前記少なくとも１つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第１ビデオにおける少なくとも１つの目標ビデオクリップを前記決定することは、
前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの目標候補ビデオクリップを決定することであって、前記目標候補ビデオクリップは前記少なくとも１つの候補ビデオクリップにおける出現回数が回数条件に合致していることと、
任意の１つの前記目標候補ビデオクリップに対して、前記目標候補ビデオクリップの前記第１ビデオにおける出現時間が前記目標時間範囲にある場合は、前記目標候補ビデオクリップを前記第１ビデオにおける目標ビデオクリップとして決定することと、を含む、請求項１に記載の方法。

【請求項11】

前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの目標候補ビデオクリップを前記決定することは、
前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを決定することと、
各前記参照候補ビデオクリップの前記少なくとも１つの参照候補ビデオクリップにおける出現回数を決定することと、
出現回数が前記出現回数条件に合致している参照候補ビデオクリップを、目標候補ビデオクリップとして決定することと、を含む、請求項１０に記載の方法。

【請求項12】

前記少なくとも１つの候補ビデオクリップは第３重畳ビデオクリップを含み、前記第３重畳ビデオクリップとは、前記少なくとも１つの候補ビデオクリップのうちの第１候補ビデオクリップに属する候補ビデオクリップを指し、前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを前記決定することは、
前記少なくとも１つの候補ビデオクリップに前記第３重畳ビデオクリップが含まれている場合は、前記第３重畳ビデオクリップを削除して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１１に記載の方法。

【請求項13】

前記少なくとも１つの候補ビデオクリップは第４重畳ビデオクリップを含み、前記第４重畳ビデオクリップとは、前記少なくとも１つの候補ビデオクリップのうちの第２候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを前記決定することは、
前記少なくとも１つの候補ビデオクリップが前記第４重畳ビデオクリップを含み、かつ、前記第４重畳ビデオクリップと前記第２候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合は、前記第４重畳ビデオクリップの出現回数を決定し、重畳度が重畳度条件に合致している各前記第４重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも１つの参照候補ビデオクリップを決定すること、を含む、請求項１１に記載の方法。

【請求項14】

前記少なくとも１つの候補ビデオクリップは第４重畳ビデオクリップを含み、前記第４重畳ビデオクリップとは、前記少なくとも１つの候補ビデオクリップのうちの第２候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを決定することは、
前記少なくとも１つの候補ビデオクリップが前記第４重畳ビデオクリップを含み、かつ、前記第４重畳ビデオクリップと前記第２候補ビデオクリップとの間の重畳度が前記重畳度条件に合致していない場合は、前記第４重畳ビデオクリップを削除して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１１に記載の方法。

【請求項15】

前記少なくとも１つの候補ビデオクリップは第４重畳ビデオクリップを含み、前記第４重畳ビデオクリップとは、前記少なくとも１つの候補ビデオクリップのうちの第２候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを前記決定することは、
前記少なくとも１つの候補ビデオクリップが前記第４重畳ビデオクリップを含み、かつ、前記第４重畳ビデオクリップの時間長が前記第２候補ビデオクリップ未満である場合は、前記第４重畳ビデオクリップを削除して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１１に記載の方法。

【請求項16】

前記重畳度が重畳度条件に合致している各前記第４重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも１つの参照候補ビデオクリップを決定することは、
前記少なくとも１つの候補ビデオクリップのうちの任意の１つの重畳度条件に合致した第４重畳ビデオクリップに対して、前記第４重畳ビデオクリップの出現回数が第１出現回数閾値以上である場合は、前記第４重畳ビデオクリップと第２候補ビデオクリップとを融合して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１３に記載の方法。

【請求項17】

前記重畳度が重畳度条件に合致している各前記第４重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも１つの参照候補ビデオクリップを決定することは、
前記少なくとも１つの候補ビデオクリップのうちの任意の１つの重畳度条件に合致した第４重畳ビデオクリップに対して、前記第４重畳ビデオクリップの出現回数が第１出現回数閾値未満である場合は、前記第４重畳ビデオクリップを削除して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１３に記載の方法。

【請求項18】

識別対象の目標ビデオを取得し、前記識別対象の目標ビデオにおける複数の目標ビデオフレームの特徴抽出を実施して、前記複数の目標ビデオフレームのビデオフレーム特徴を得ることと、
前記複数の目標ビデオフレームのビデオフレーム特徴、前記第１ビデオフレームのビデオフレーム特徴及び前記少なくとも１つの第２ビデオフレームのビデオフレーム特徴に基づき、前記目標ビデオの少なくとも１つの目標ビデオクリップを決定することと、を更に含む、請求項１に記載の方法。

【請求項19】

第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を取得し、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するためのビデオフレーム対決定モジュールであって、前記ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、前記第１ビデオフレームは第１ビデオに属し、前記第２ビデオフレームは前記少なくとも１つの第２ビデオに属する、ビデオフレーム対決定モジュールと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第１ビデオフレームを融合して、前記第１ビデオのうちの少なくとも１つの候補ビデオクリップを得るための融合モジュールであって、前記出現時間差とは前記ビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差を指している、融合モジュールと、
目標時間範囲を取得し、前記少なくとも１つの候補ビデオクリップ及び目標時間範囲に基づき、前記第１ビデオにおける少なくとも１つの目標ビデオクリップを決定するための目標ビデオクリップ決定モジュールであって、前記目標ビデオクリップは前記第１ビデオの前記目標時間範囲内にある、目標ビデオクリップ決定モジュールと、を含む、ビデオクリップの識別装置。

【請求項20】

１つまたは複数のプロセッサ及び１つまたは複数のメモリを含み、前記１つまたは複数のメモリに少なくとも１つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記１つまたは複数のプロセッサによりロード並びに実行されて、請求項１～請求項１８のいずれか１項に記載のビデオクリップの識別方法を実装する、コンピュータ機器。

【請求項21】

少なくとも１つのコンピュータプログラムが記憶されており、前記コンピュータプログラムはプロセッサによりロード並びに実行されて、請求項１～請求項１８のいずれか１項に記載のビデオクリップの識別方法を実装する、コンピュータ読取り可能な記憶媒体。

【請求項22】

コンピュータプログラムを含むコンピュータプログラム製品であって、当該コンピュータプログラムがプロセッサにより実行されると、請求項１～請求項１８のいずれか１項に記載のビデオクリップの識別方法を実装する、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本願は２０２２年３月８日に中国特許局に出願された、出願番号が２０２２１０２１９３６４．３であり、発明の名称が「ビデオクリップの識別方法、装置、機器及び記憶媒体」である中国特許出願の優先権を求めており、そのすべての内容は引用されることにより本願に結合される。

【0002】

本願はコンピュータ技術分野に関するものであり、特にビデオクリップの識別方法、装置、機器及び記憶媒体に関するものである。

【背景技術】

【0003】

コンピュータ技術の発展に伴い、ビデオは急成長の勢いを呈しており、ネットに接続してビデオを鑑賞するユーザは益々増加している。ビデオにはテレビドラマも含まれているが、テレビドラマは、通常、オープニング及びエンディングを有しており、ユーザがテレビドラマを鑑賞しやすくするために、ビデオプラットホームは、テレビドラマにおけるオープニング及びエンディングの位置を決定してオープニング及びエンディングをスキップする機能を提供することができる。

【0004】

関連技術において、テレビドラマのオープニング及びエンディング位置は、みな手動アノテーションによって決定される。つまりテレビドラマを鑑賞した後に、手作業でテレビドラマのオープニング及びエンディングの位置にマーク付けされる。

【0005】

しかし、手動アノテーションは、大量の時間及び人的資源を消費する必要があるため、テレビドラマのオープニング及びエンディング位置を決定する効率は低くなってしまう。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本願の各実施例は、ビデオクリップの識別方法、装置、機器及び記憶媒体及びコンピュータプログラム製品を提供し、その技術案は以下の通りである。

【課題を解決するための手段】

【0007】

ビデオクリップの識別方法であって、前記方法は、
第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を取得するとともに、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、前記ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、前記第１ビデオフレームは前記第１ビデオに属し、前記第２ビデオフレームは前記少なくとも１つの第２ビデオに属することと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第１ビデオフレームを融合して、前記第１ビデオのうちの少なくとも１つの候補ビデオクリップを得ることであって、前記出現時間差とはビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差を指すことと、
目標時間範囲を取得するとともに、前記少なくとも１つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第１ビデオにおける少なくとも１つの目標ビデオクリップを決定することであって、前記目標ビデオクリップは前記第１ビデオの前記目標時間範囲内にあることと、を含む。

【0008】

ビデオクリップの識別装置であって、前記装置は、
第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を取得するとともに、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するためのビデオフレーム対決定モジュールであって、前記ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、前記第１ビデオフレームは第１ビデオに属し、前記第２ビデオフレームは前記少なくとも１つの第２ビデオに属する、ビデオフレーム対決定モジュールと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第１ビデオフレームを融合して、前記第１ビデオのうちの少なくとも１つの候補ビデオクリップを得るための融合モジュールであって、前記出現時間差とはビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差を指す、融合モジュールと、
目標時間範囲を取得するとともに、前記少なくとも１つの候補ビデオクリップ及び目標時間範囲に基づき、前記第１ビデオにおける少なくとも１つの目標ビデオクリップを決定するための目標ビデオクリップ決定モジュールであって、前記目標ビデオクリップは前記第１ビデオの前記目標時間範囲内にある、目標ビデオクリップ決定モジュールと、を含む。

【0009】

コンピュータ機器であって、前記コンピュータ機器は、１つまたは複数のプロセッサ及び１つまたは複数のメモリを含み、前記１つまたは複数のメモリに少なくとも１つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記１つまたは複数のプロセッサによりロード並びに実行されて、前記ビデオクリップの識別方法を実現する。

【0010】

コンピュータ読取り可能な記憶媒体が提供されており、前記コンピュータ読取り可能な記憶媒体に少なくとも１つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記プロセッサによりロード並びに実行されて、前記ビデオクリップの識別方法を実現する。

【0011】

コンピュータプログラムを含むコンピュータプログラム製品が提供されており、当該コンピュータプログラムがプロセッサにより実行されると、上記ビデオクリップの識別方法を実現する。

【図面の簡単な説明】

【0012】

【図1】本願実施例が提供するビデオクリップの識別方法における実施環境の概略図である。

【図2】本願実施例が提供するビデオクリップの識別方法のフロー図である。

【図3】本願実施例が提供するビデオクリップの識別方法のフロー図である。

【図4】本願実施例が提供するビデオフレーム特徴を抽出する方法のフロー図である。

【図5】本願実施例が提供する第１サブクリップ及び第２サブクリップの概略図である。

【図6】本願実施例が提供する異なる重畳方式の第１サブクリップの概略図である。

【図7】本願実施例が提供する候補ビデオクリップを融合する概略図である。

【図8】本願実施例が提供するビデオクリップの識別方法のフロー図である。

【図9】本願実施例が提供するクリップマイニングシステムのフロー図である。

【図10】本願実施例が提供するテレビドラマのオープニング及びエンディングを取得する方法のフロー図である。

【図11】本願実施例が提供するクリップデータベースにおける記憶方式の概略図である。

【図12】本願実施例が提供するテレビドラマのオープニング及びエンディングを取得する方法のフロー図である。

【図13】本願実施例が提供する権利侵害ビデオを識別する方法のフロー図である。

【図14】本願実施例が提供するビデオクリップの識別方法のフロー図である。

【図15】本願実施例が提供するビデオクリップ識別装置の構造概略図である。

【図16】本願実施例が提供する端末の構造概略図である。

【図17】本願実施例が提供するサーバの構造概略図である。

【発明を実施するための形態】

【0013】

本願における用語「第１」、「第２」などの文字は、作用及び機能が基本的に同一である同一項目または類似項目を区分するために用いられ、ここで理解すべきは、「第１」、「第２」、「第ｎ」の間には論理または時系列上の依存関係はなく、数量及び実行順序も限定していない点である。

【0014】

人工知能（ＡｒｔｉｆｉｃａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータまたはデジタルコンピュータ制御を利用して、人類の知能を機械シミュレーション、延伸及び拡張し、環境を感知して、知識を得るとともに、知識を使用して最適な結果を獲得する理論、方法、技術及びアプリケーションシステムである。

【0015】

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）とは、学際的な学問分野であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑性理論など複数の学問分野に関するものである。コンピュータがどのようにして人類の学習行為をシミュレーションまたは実現するのか専門的に研究して、新たな知識または技能を獲得し、既存の知識サブモデルを再度組織して、それ自身の性能を不断に改善させる。

【0016】

ハミング距離（ＨａｍｍｉｎｇＤｉｓｔａｎｃｅ）：２進数特徴間の距離を計量するために用いられ、統計数値が異なる特徴ビットを距離とすることにより実現され、例えば、（１０００）と（００１１）とのハミング距離は３である。

【0017】

なお、本願で言及される情報（ユーザ機器情報、ユーザの個人情報などが含まれるが、それらに限定されない）、データ（分析用のデータ、記憶されるデータ、提示されるデータなどが含まれるが、それらに限定されない）及び信号は、いずれもユーザにより授権されているかまたは各方面を介して十分に授権されており、かつ、関連データの収集、使用及び処理に際しては関連する国家及び地域の関連する法律法規及び基準を遵守しなければならない。

【0018】

図１は本願実施例が提供するビデオクリップの識別方法における実施環境の概略図であり、図１を参照すると、当該実施環境には端末１１０及びサーバ１４０を含むことができる。

【0019】

端末１１０は、無線ネットワークまたは有線ネットワークを介してサーバ１４０に接続される。選択可能として、端末１１０は車載端末、スマートフォン、タブレットＰＣ、ノートパソコン、デスクトップパソコン、スマートスピーカ、スマートウォッチ及びスマートテレビなどであるが、それらに限定されない。端末１１０にはビデオクリップの識別をサポートするアプリケーションプログラムが実装されて運用される。

【0020】

サーバ１４０は、独立した物理サーバであるか、または複数の物理サーバにより構成されるサーバクラスタもしくは分散型システムであるか、または、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウドファンクション、クラウドメモリ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインサービス、セキュリティサービス、コンテンツデリバリネットワーク（ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ、ＣＤＮ）、及びビッグデータ、人工知能プラットホームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバとすることもできる。サーバ１４０は当該端末１１０で運用されるアプリケーションプログラムのためにバックエンドサービスを提供する。

【0021】

本願実施例では端末１１０及びサーバ１４０の数量を制限していない。

【0022】

本願実施例の実施環境の紹介が完了した後、以下においては、上記実施環境を組み合わせて、本願実施例の応用シーンについて紹介するが、下記の説明過程において、端末は上記実施環境における端末１１０であり、サーバも上記実施環境におけるサーバ１４０である。

【0023】

本願実施例が提供するビデオクリップの識別方法は、ビデオのオープニング及びエンディングを識別するシーンに応用可能であり、例えば、テレビドラマのオープニング及びエンディングを識別するシーンに応用されるか、またはドキュメンタリーフィルムのオープニング及びエンディングを識別するシーンに応用されるか、またはショートビデオコレクションのオープニング及びエンディングを識別するシーンなどに応用される。

【0024】

本願実施例が提供するビデオクリップの識別方法を、テレビドラマのオープニング及びエンディングを識別するシーンに応用した場合を例にすると、技術者は端末を介してオープニング及びエンディングを識別する必要があるテレビドラマを選択し、当該テレビドラマには複数のビデオが含まれ、各ビデオはテレビドラマ内の１話である。端末を介して当該テレビドラマを選出した場合、サーバは本願実施例がそれぞれ提供する技術案を採用して、当該テレビドラマ内の複数のビデオに基づき処理を実施して、当該複数のビデオにおけるオープニング及びエンディングを得ることができる。当該複数のビデオを処理する過程において、サーバは、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定し、各ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、第１ビデオフレームは第１ビデオに属し、第２ビデオフレームは当該少なくとも１つの第２ビデオに属し、つまり、各ビデオフレーム対には第１ビデオのうちの１つのビデオフレーム及び第２ビデオのうちの１つのビデオフレームが含まれ、第１ビデオ及び当該少なくとも１つの第２ビデオフレームはいずれも当該複数のビデオに属する。サーバは、当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対のうちの第１ビデオフレームを融合して、当該第１ビデオのうちの少なくとも１つの候補ビデオクリップを得る。出現時間差とは、ビデオフレーム対のうちの２つのビデオフレームのビデオにおける出現時間の間の数値差を指し、即ち、ビデオフレーム対のうちの第１ビデオフレームの第１ビデオにおける出現時間と第２ビデオフレームの第２ビデオにおける出現時間との間の数値差である。サーバは、少なくとも１つの候補ビデオクリップ及び目標時間範囲に基づき、第１ビデオにおける少なくとも１つの目標ビデオクリップを決定し、テレビドラマのオープニング及びエンディングを識別するシーンに応用される場合、当該目標時間領域もオープニング及びエンディングが所在する時間領域であるため、決定される目標ビデオクリップも第１ビデオのオープニングまたはエンディングである。

【0025】

なお、上記では本願実施例が提供するビデオクリップの識別方法を、テレビドラマのオープニング及びエンディングを識別するシーンに応用した場合を例として説明しているが、上記のその他の応用シーンの実施過程も上記説明と同一の発明構想に属しているため、実施過程についてここでは詳述しない。

【0026】

また、本願実施例が提供するビデオクリップの識別方法は、上記テレビドラマのオープニング及びエンディングを識別するシーン、ドキュメンタリーフィルムのオープニング及びエンディングを識別するシーン、及びショートビデオコレクションのオープニング及びエンディングを識別するシーンに応用可能である以外に、その他のタイプのビデオのオープニング及びエンディングを識別するシーンに応用することもでき、本願実施例はそれについて限定していない。

【0027】

本願実施例の実施環境及び応用シーンについての紹介が完了した後、以下においては、本願実施例が提供するビデオクリップの識別方法について説明する。図２を参照すると、本願実施例が提供する技術案はコンピュータ機器により実行され、コンピュータ機器は端末またはサーバとして実行され、本願実施例が提供する技術案も端末またはサーバにより共同で実行することができる。本願の下記実施例においては、実行主体がサーバである例について説明するが、容易に理解可能な通り、下記実施例はサーバを例として説明しているが、本願の各実施例は端末により実行することも可能である。つまり、本願の各実施例が提供する技術案は実際にはコンピュータ機器により実行される。

【0028】

ビデオクリップの識別方法には、以下が含まれる。

【0029】

２０１：サーバが第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を取得するとともに、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、当該ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、当該第１ビデオフレームは当該第１ビデオに属し、当該第２ビデオフレームは当該少なくとも１つの第２ビデオに属している。

【0030】

第１ビデオ及び少なくとも１つの第２ビデオは同一のビデオ集合に属しており、例えば、第１ビデオ及び第２ビデオは同一のテレビドラマの異なる１話である。ビデオフレーム特徴はビデオフレームの埋込特徴であり、例えば、深度ハッシュ特徴である。第１ビデオフレームと第２ビデオフレームとの間の類似度は、第１ビデオフレームのビデオフレーム特徴及び第２ビデオフレームのビデオフレーム特徴により決定する。各ビデオフレーム対には１つの第１ビデオフレーム及び１つの第２ビデオフレームが含まれ、かつ、ビデオフレーム対のうちの第１ビデオフレームと第２ビデオフレームとの間の類似度が類似度条件に合致していると、即ちビデオフレーム対のうちの第１ビデオフレーム及び第２ビデオフレームは、類似度が比較的高い２つのビデオフレームである。

【0031】

２０２：サーバが当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対のうちの第１ビデオフレームを融合して、当該第１ビデオのうちの少なくとも１つの候補ビデオクリップを得ることであって、当該出現時間差とはビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差を指す。

【0032】

ビデオフレーム対のうちの第１ビデオフレームは第２ビデオフレームとの間の類似度が比較的高いビデオフレームであり、候補ビデオクリップは複数のビデオフレーム対のうちの第１ビデオフレームを融合して得られるため、候補ビデオクリップも第１ビデオのうちの少なくとも１つの第２ビデオと重畳内容を有するビデオクリップである。出現時間差は第１ビデオフレーム及び第２ビデオフレームの第１ビデオ及び第２ビデオにおける出現時間の偏差を反映することができる。

【0033】

２０３：サーバが目標時間範囲を取得するとともに、当該少なくとも１つの候補ビデオクリップ及び目標時間範囲に基づき、当該第１ビデオにおける少なくとも１つの目標ビデオクリップを決定することであって、当該目標ビデオクリップは当該第１ビデオの当該目標時間範囲内にある。

【0034】

目標時間範囲とは、ビデオ内の時間範囲を指し、目標時間範囲は技術者が実際の状況に応じて設定するため、本願実施例ではそれを限定しない。

【0035】

本願実施例が提供する技術案により、ビデオフレーム特徴間の類似度に基づき、類似したビデオフレームを含むビデオフレーム対が決定される。ビデオフレーム対のうちの第１ビデオフレームは、出現時間差に基づいて融合され、少なくとも１つの候補ビデオクリップが得られる。最終的に少なくとも１つの候補ビデオクリップから目標時間範囲内の目標ビデオクリップが決定される。目標クリップを決定する過程には、人間の関与は必要なく、コンピュータ機器が直接第１ビデオ及び少なくとも１つの第２ビデオに基づき自動的に実施可能であり、効率的である。

【0036】

上記ステップ２０１～２０３は、本願実施例が提供するビデオクリップの識別方法についての簡単な紹介であり、以下においては、いくつかの例を参照しながら、本願実施例が提供するビデオクリップの識別方法についてより詳細に説明する。図３を参照すると、本願実施例が提供する技術案は、端末またはサーバで実行することができ、端末及びサーバが共同して実施することもでき、本願実施例においては、実行主体がサーバである場合を例として説明するが、その方法には以下が含まれる。

【0037】

３０１：サーバが第１ビデオ及び少なくとも１つの第２ビデオの特徴抽出を実施して、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を得る。

【0038】

１つの実施可能な実施形態において、サーバは第１ビデオ及び少なくとも１つの第２ビデオを特徴抽出モデルに入力し、当該特徴抽出モデルを介して当該第１ビデオ及び当該少なくとも１つの第２ビデオに対して特徴抽出を実施して、当該第１ビデオのビデオフレーム特徴及び当該少なくとも１つの第２ビデオのビデオフレーム特徴を得る。

【0039】

サーバが当該特徴抽出モデルを介して第１ビデオ及び少なくとも１つの第２ビデオに対して特徴抽出を実施する過程は、第１ビデオの第１ビデオフレーム及び第２ビデオの第２ビデオフレームに対して特徴抽出を実施する過程でもあり、この種の場合、当該特徴抽出モデルは１つの画像特徴抽出モデルである。

【0040】

この種の実施形態において、特徴抽出モデルを介して当該第１ビデオ及び当該少なくとも１つの第２ビデオに対して特徴抽出を実施して、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴を得て、第１ビデオ及び少なくとも１つの第２ビデオに対する抽象的表現を実現すると、後続過程における演算効率が向上する。

【0041】

上記実施形態について説明するため、以下においては、３つの例を通して上記実施形態について説明する。

【0042】

例１、サーバが当該第１ビデオ及び当該少なくとも１つの第２ビデオを特徴抽出モデルに入力し、特徴抽出モデルを介して複数の第１ビデオフレーム及び複数の第２ビデオフレームを畳み込み及びプーリングして、当該複数の第１ビデオフレームのビデオフレーム特徴及び複数の第２ビデオフレームのビデオフレーム特徴を得るが、複数の第１ビデオフレームは第１ビデオのビデオフレームであり、複数の第２ビデオフレームは少なくとも１つの第２ビデオのビデオフレームである。

【0043】

以下においては、サーバが第１ビデオに対して特徴抽出を実施する方法について説明する。サーバが当該第１ビデオの複数の第１ビデオフレームを特徴抽出モデルに入力し、当該特徴抽出モデルの畳み込み層を介して、当該複数の第１ビデオフレームに対して畳み込みを実施して、当該複数の第１ビデオフレームの特徴イメージを得る。サーバが当該特徴抽出モデルのプーリング層を介して、当該複数の第１ビデオフレームの特徴イメージに対して最大プーリングまたは平均プーリングのうちの任意の１項目を実施して、当該複数の第１ビデオフレームのビデオフレーム特徴を得る。いくつかの実施例では、サーバはマトリクス形式で第１ビデオフレームを表し、ベクトル形式でビデオフレーム特徴を表し、第１ビデオフレームに対して畳み込みを実施する過程は、畳み込みカーネルを採用して第１ビデオフレーム上で摺動する形式で実現される。

【0044】

いくつかの実施例では、当該特徴抽出モデルは畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）に基づく特徴抽出器、例えば、大規模なオープンソースデータセットを採用してｉｍａｇｅｎｅｔ（イメージネットワーク）上で予め訓練するニューラルネットワークＲｅｓｎｅｔ－１０１（残差ネットワーク１０１）であり、当該ニューラルネットワークＲｅｓｎｅｔ１０１の構造は表１の通りである。当該ニューラルネットワークＲｅｓｎｅｔ－１０１のプーリング（Ｐｏｏｌｉｎｇ）層の出力結果がビデオフレーム特徴であり、１０１はモデルの層数を指し、当該ビデオフレーム特徴は１つの１×２０４８のベクトルである。

【0045】

【表1】

表中、Ｌａｙｅｒｎａｍｅは特徴抽出モデルＲｅｓＮｅｔ－１０１における各階層の名称であり、Ｏｕｔｐｕｔｓｉｚｅは出力される特徴イメージのサイズであり、ｍａｘｐｏｏｌは最大値プーリングを指し、ｓｔｒｉｄｅはストライドを指し、ｂｌｏｃｋｓは階層を指し、１層におそらく複数の畳み込みカーネルが含まれ、Ｃｏｎｖは畳み込み層を指し、Ｐｏｏｌはプーリング層を指し、Ｃｌａｓｓは分類層を指し、ｆｕｌｌｃｏｎｎｅｃｔｉｏｎは完全接続を指し、上記ビデオフレーム特徴を抽出する過程において、Ｃｌａｓｓ層は使用しない。

【0046】

なお、上記は特徴抽出モデルがＲｅｓＮｅｔ－１０１である場合を例にして説明しているが、その他可能な実施形態において、当該特徴抽出モデルはその他の構造とすることもでき、本願実施例においてはそれを限定しない。

【0047】

また、上記特徴抽出過程は畳み込みに基づき実現され、得られるビデオフレーム特徴はビデオフレームの画像テクスチャの特徴を表現するために用いられ、このようなビデオフレーム特徴はビデオフレームの下層特徴とも称される。その他可能な実施形態において、当該特徴抽出モデルは更にビデオフレームの意味特徴を抽出することができ、得られるビデオフレーム特徴はビデオフレームの意味を反映でき、以下においては、サーバが当該特徴抽出モデルを介してビデオフレームの意味特徴を抽出する方法について説明する。

【0048】

例２、サーバが当該第１ビデオ及び当該少なくとも１つの第２ビデオを特徴抽出モデルに入力し、特徴抽出モデルを介して、注意力メカニズムに基づき複数の第１ビデオフレーム及び複数の第２ビデオフレームをコーディングして、当該複数の第１ビデオのビデオフレーム特徴及び複数の第２ビデオフレームのビデオフレーム特徴を得るが、複数の第１ビデオフレームは第１ビデオのビデオフレームであり、複数の第２ビデオフレームは少なくとも１つの第２ビデオのビデオフレームであり、当該特徴抽出モデルを介して取得されるビデオフレーム特徴も対応するビデオフレームの意味特徴である。この種の実施形態において、当該特徴抽出モデルは意味特徴エンコーダ、例えば、Ｔｒａｎｓｆｏｒｍｅｒエンコーダである。

【0049】

以下においては、サーバが複数の第１ビデオに対して特徴抽出を実施する方法について説明する。サーバが当該第１ビデオの複数の第１ビデオフレームを特徴抽出モデルに入力し、当該特徴抽出モデルを介して、当該複数の第１ビデオフレームに対してコード埋込を実施して、複数の埋込ベクトルを得るが、１つの埋込ベクトルは１つの第１ビデオフレームに対応しており、埋込ベクトルは第１ビデオにおける第１ビデオフレームの位置及び第１ビデオフレームの内容を表すために用いられる。サーバは複数の埋込ベクトルを特徴抽出モデルに入力し、特徴抽出モデルの３つの線形変換マトリクスを介して、複数の埋込ベクトルを線形変換して、各第１ビデオフレームに対応したクエリ（Ｑｕｅｒｙ）ベクトル、キー（Ｋｅｙ）ベクトル及びバリュー（Ｖａｌｕｅ）ベクトルを得る。サーバが特徴抽出モデルを介して、複数の第１ビデオフレームに対応してクエリベクトル及びキーベクトルに基づき、複数の第１ビデオフレームの注意力重みを取得する。サーバが特徴抽出モデルを介して、各第１ビデオフレームの注意力重み及び各第１ビデオフレームのバリューベクトルに基づき、各第１ビデオフレームの注意力コーディングベクトルを得るが、注意力コーディングベクトルも第１ビデオフレームのビデオフレーム特徴である。

【0050】

例えば、サーバが特徴抽出モデルを介して、各埋込ベクトルをそれぞれ３つの線形変換マトリクスと乗算して、各第１ビデオフレームにそれぞれ対応するクエリベクトル、キーベクトル及びバリューベクトルを得る。複数の第１ビデオフレーム内の第１の第１ビデオフレームに対して、サーバが特徴抽出モデルを介して、第１の第１ビデオフレームのクエリベクトルと複数の第１ビデオフレームのキーベクトルとに基づき、複数の第１ビデオフレームの第１の第１ビデオフレームとの間における複数の注意力重みを決定する。複数の第１ビデオフレーム内の第１の第１ビデオフレームに対して、サーバが特徴抽出モデルを介して、複数の第１ビデオフレームの第１の第１ビデオフレームに対する注意力重みを、複数の第１ビデオフレームのバリューベクトルと重み付き加算を実施して、第１の第１ビデオフレームの注意力コーディングベクトルを得るが、それも第１の第１ビデオフレームのビデオフレーム特徴である。

【0051】

上記の例１、例２では、それぞれ当該特徴抽出モデルでビデオフレームの下層特徴及び意味特徴を抽出する場合を例にして説明しているが、その他可能な実施形態において、サーバは更に当該特徴抽出モデルを介してビデオフレームの下層特徴及び意味特徴を同時に取得することもでき、以下に例３として説明する。

【0052】

例３、サーバが当該第１ビデオ及び当該少なくとも１つの第２ビデオを特徴抽出モデルに入力し、特徴抽出モデルを介して複数の第１ビデオフレーム及び複数の第２ビデオフレームに対して畳み込み及びプーリングを実施して、当該複数の第１ビデオフレームの下層特徴及び複数の第２ビデオフレームの下層特徴を得るが、複数の第１ビデオフレームは第１ビデオのビデオフレームであり、複数の第２ビデオフレームは少なくとも１つの第２ビデオのビデオフレームである。サーバが当該特徴抽出モデルを介して、注意力メカニズムに基づき複数の第１ビデオフレーム及び複数の第２ビデオフレームをコーディングして、当該複数の第１ビデオフレームの意味特徴及び複数の第２ビデオフレームの意味特徴を得る。サーバが各第１ビデオフレームの下層特徴及び意味特徴を融合して、各第１ビデオフレームのビデオフレーム特徴を得る。サーバが各第２ビデオフレームの下層特徴及び意味特徴を融合して、各第２ビデオフレームのビデオフレーム特徴を得る。

【0053】

例を挙げると、当該特徴抽出モデルには第１サブモデル及び第２サブモデルが含まれ、当該第１サブモデルはビデオフレームの下層特徴を抽出するために用いられ、当該第２サブモデルはビデオフレームの意味特徴を抽出するために用いられる。サーバは当該第１ビデオ及び当該少なくとも１つの第２ビデオを特徴抽出モデルに入力した後、当該第１サブモデルを介して当該複数の第１ビデオフレームの下層特徴及び複数の第２ビデオフレームの下層特徴を取得し、第２サブモデルを介して当該複数の第１ビデオフレームの意味特徴及び複数の第２ビデオフレームの意味特徴を取得する。サーバが各ビデオフレームの下層特徴及び意味特徴を融合する場合は、重み付き加算方式を採用することができ、重み付き加算の重みは技術者が実際の状況に応じて設定し、例えば０．５に設定できるが、本願実施例ではそれを限定しない。サーバが当該第１サブモデル及び当該第２サブモデルを介してビデオフレームの下層特徴及び意味特徴を取得する方法は、それぞれ上記例１及び例２と同様であるため、ここでは詳述しない。

【0054】

なお、上記は特徴抽出モデルによりビデオフレームの下層特徴及び意味特徴を抽出する場合を例として説明しているが、科学技術の発展に伴い、サーバは更にその他構造の特徴抽出モデルを採用してビデオフレーム特徴を抽出することができ、本願実施例ではそれを限定しない。

【0055】

いくつかの実施例では、第１ビデオ及び少なくとも１つの第２ビデオは同一のビデオ集合内に属するビデオであり、第１ビデオは目標ビデオクリップ決定対象のビデオであり、当該少なくとも１つの第２ビデオは当該ビデオ集合における当該第１ビデオ以外のすべてのビデオであるか、または、当該少なくとも１つの第２ビデオは当該ビデオ集合から抽出されたビデオであり、抽出時に当該第１ビデオは遮蔽されている。当該少なくとも１つの第２ビデオが当該ビデオ集合から抽出されるビデオである場合、サーバは当該ビデオ集合内からランダムに目標ビデオ数量の第２ビデオを抽出し、抽出過程において、当該第１ビデオは遮蔽される、つまり抽出された目標ビデオ数量の第２ビデオに当該第１ビデオは含まれず、当該目標ビデオ数量は技術者が実際の状況に応じて設定し、本願実施例ではそれを限定しない。サーバは当該第１ビデオ及び当該少なくとも１つの第２ビデオによりそれぞれ少なくとも１つのビデオ対を構成し、各ビデオ対には当該第１ビデオ及び当該少なくとも１つの第２ビデオのうちの１つの第２ビデオが含まれる。

【0056】

例えば、当該ビデオ集合に４６個のビデオが含まれる場合、各第１ビデオｉに対して、サーバは当該ビデオ集合の余剰のビデオからランダムに１０個の第２ビデオｒを抽出して、当該第１ビデオｉ及び１０個の第２ビデオｒによりそれぞれ１０個のビデオ対を構成し、後続の処理過程において、ビデオ対を単位として実施し、１０がつまり目標ビデオの数量である。

【0057】

また、いくつかの実施例では、サーバは当該第１ビデオ及び当該少なくとも１つの第２ビデオに対して特徴抽出を実施する前に、当該第１ビデオ及び当該少なくとも１つの第２ビデオに対してフレーム抽出を実施して、当該第１ビデオの複数の第１ビデオフレーム及び各第２ビデオの複数の第２ビデオフレームを得る。ビデオに対してフレーム抽出を実施することにより、後続の特徴抽出過程における演算量を低減することができ、特徴抽出の効率を高めることができる。

【0058】

第１ビデオを例にすると、サーバは目標間隔で第１ビデオからフレーム抽出を実施して、当該第１ビデオの複数の第１ビデオフレームを得るが、目標間隔とは、第１ビデオの目標再生時間長、例えば１ｓを指すか、または、当該目標間隔とは、目標数量のフレーム間隔、例えば２５フレームを指す。当該目標間隔が第１ビデオの目標再生時間長を指す場合、サーバは目標再生時間長ごとに当該第１ビデオから１フレームを抽出して第１ビデオフレームとする。第１ビデオが６ｓ、目標再生時間長が１ｓの場合、サーバは当該第１ビデオから６つの第１ビデオフレームを抽出する。当該目標時間間隔が目標数量のフレーム間隔を指す場合、サーバは目標数量のビデオフレームごとに当該第１ビデオから抽出を実施して、複数の第１ビデオフレームを得る。第１ビデオには１００個のビデオフレームが含まれ、目標数量が１０である場合、サーバは当該第１ビデオから１０個の第１ビデオフレームを抽出する。例えば、図４を参照すると、サーバは目標間隔で第１ビデオ４００からフレーム抽出を実施して、当該第１ビデオの複数の第１ビデオフレーム４０１を得る。サーバは当該第１ビデオの複数の第１ビデオフレーム４０１を特徴抽出モデル４０２に入力し、当該特徴抽出モデル４０２を介して当該複数の第１ビデオフレーム４０１のビデオフレーム特徴４０３を出力する。

【0059】

なお、上記ステップ３０１は選択可能なステップであり、サーバが繰り上げて実行することができ、サーバが、本願実施例が提供する技術案を実行する際に実行することもでき、本願実施例ではそれを限定しない。

【0060】

３０２、サーバが第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定し、当該ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、当該第１ビデオフレームは当該第１ビデオに属し、当該第２ビデオフレームは当該少なくとも１つの第２ビデオに属している。

【0061】

１つの可能な実施形態において、サーバが複数の第１ビデオのビデオフレーム特徴と複数の第２ビデオフレームのビデオフレーム特徴との間の類似度を決定する。サーバは類似度が目標条件に合致した第１ビデオフレーム及び第２ビデオフレームを１つのビデオフレーム対として決定し、各ビデオフレーム対には１つの第１ビデオフレーム及び１つの第２ビデオフレームが含まれる。

【0062】

ビデオフレーム特徴間の類似度はユークリッド距離またはコサイン類似度により決定されるが、本願実施例ではそれを限定しない。

【0063】

この種の実施形態において、サーバは第１ビデオフレームと第２ビデオフレームとの間の類似度に基づき複数のビデオフレーム対を決定するが、ビデオフレーム対内のビデオフレームは異なるビデオで類似度が比較的高いビデオフレームであるため、後続においてビデオフレーム対に基づき類似したビデオクリップを速やかに決定して、最終的に目標ビデオクリップを決定することができるため、効率が比較的高い。

【0064】

類似度がユークリッド距離である場合、サーバは複数の第１ビデオフレームのビデオフレーム特徴と複数の第２ビデオフレームのビデオフレーム特徴との間のユークリッド距離を決定する。サーバはユークリッド距離が距離閾値以下である第１ビデオフレーム及び第２ビデオフレームを１つのビデオフレーム対として決定する。距離閾値は技術者が実際の状況に応じて設定し、本願実施例ではそれを限定しない。距離閾値が０．５の場合、任意の１つの第１ビデオフレームのビデオフレーム特徴と任意の１つの第２ビデオフレームのビデオフレーム特徴との間のユークリッド距離が０．５以下であれば、サーバは当該第１ビデオフレーム及び当該第２ビデオフレームを１つのビデオフレーム対として決定する。

【0065】

類似度がコサイン類似度である場合、サーバは複数の第１ビデオフレームのビデオフレーム特徴と複数の第２ビデオフレームのビデオフレーム特徴との間のコサイン類似度を決定する。サーバはコサイン類似度が類似度閾値以上である第１ビデオフレーム及び第２ビデオフレームをビデオフレーム対として決定する。類似度閾値が０．８の場合、任意の１つの第１ビデオフレームのビデオフレーム特徴と任意の１つの第２ビデオフレームのビデオフレーム特徴との間のコサイン類似度が０．８以上であれば、サーバは当該第１ビデオフレーム及び当該第２ビデオフレームを１つのビデオフレーム対として決定する。

【0066】

いくつかの実施例では、サーバが第１ビデオ及び少なくとも１つの第２ビデオにより少なくとも１つのビデオ対を構成する場合、サーバはビデオ対を単位としてビデオ対内の第１ビデオのビデオフレーム特徴と第２ビデオのビデオフレーム特徴との間の類似度を決定して、ビデオ対における複数のビデオフレーム対を決定する。例えば、ビデオ対（ｉ，ｒ）に対して述べると、サーバは第１ビデオｉのビデオフレーム特徴と第２ビデオｒのビデオフレーム特徴との間の類似度を決定する。サーバは類似度が目標条件に合致した第１ビデオフレーム及び第２ビデオフレームを１つのビデオフレーム対として決定する。つまり、第１ビデオｉ内の各第１ビデオフレームｊに対して、第１ビデオフレームｊと第２ビデオｒ内の各第２ビデオフレームのビデオフレーム特徴との間のユークリッド距離を決定する。サーバはユークリッド距離がｔ_０未満の第２ビデオフレームを第１ビデオフレームｊの類似フレームとし、当該第１ビデオフレームｊと当該類似フレームとにより１つのビデオフレーム対を構成する。サーバは取得した第１ビデオフレームｊの類似フレームを第１リストに記憶し、当該第１リストは類似フレームリスト（ｓｉｍ－ｉｄ－ｌｉｓｔ）とも称される。いくつかの実施例では、サーバはフレームの識別子を当該第１リストに記憶し、フレームの識別子はフレームが属するビデオ及びビデオ内におけるフレームの位置を示すために用いられる。例えば、ｊ＝１の第１ビデオフレームに対して、類似フレームリストｓｉｍ－ｉｄ－ｌｉｓｔが［１，２，３］であれば、第２ビデオｒの第１，２，３秒に対応するビデオフレームが類似フレームであることを示しており、ｊ＝１は第１ビデオ内の第１秒に対応するビデオフレームを示している。

【0067】

いくつかの実施例では、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対が決定されるが、それには、ビデオ集合を取得するとともに、前記ビデオ集合内の決定対象目標ビデオクリップのビデオを第１ビデオとすることと、前記ビデオ集合内の、前記第１ビデオとは異なる少なくとも１つのビデオを、少なくとも１つの第２ビデオとすることと、前記第１ビデオ及び前記少なくとも１つの第２ビデオによりそれぞれ少なくとも１つのビデオ対を構成することと、前記ビデオ対には前記第１ビデオ及び前記少なくとも１つの第２ビデオのうちの１つの第２ビデオが含まれることと、同一ビデオ対内の第１ビデオ及び第２ビデオにビデオフレーム特徴の類似度計算を実施して、類似度計算結果を得ることと、前記類似度計算結果に応じて、同一のビデオ対内で類似度が類似度条件に合致している第１ビデオフレーム及び第２ビデオフレームを一対のビデオフレーム対とすることと、前記第１ビデオフレームは前記第１ビデオに属しており、前記第２ビデオフレームは前記少なくとも１つの第２ビデオに属していることと、が含まれる。

【0068】

選択可能として、ステップ３０２の後、決定されたビデオフレーム対の数量が０である場合、サーバは当該第１ビデオ内に目標ビデオクリップは存在していないと決定する。

【0069】

３０３、サーバが複数のビデオフレーム対の出現時間差を決定する。

【0070】

１つの可能な実施形態において、サーバは、当該複数のビデオフレーム対内の第１ビデオフレームの第１ビデオにおける出現時間と当該ビデオフレーム対内の第２ビデオフレームの第２ビデオにおける出現時間とを相互に減算して、当該複数のビデオフレーム対の出現時間差を得る。いくつかの実施例では、サーバは当該複数のビデオフレーム対の出現時間差を第２リストに記憶し、当該第２リストは出現時間差リスト（ｄｉｆｆ－ｔｉｍｅ－ｌｉｓｔ）とも称され、後続の処理過程において、直接当該第２リストから対応する出現時間差を活用することができる。例えば、ｊ＝１の第１ビデオフレームに対して、類似フレームリストｓｉｍ－ｉｄ－ｌｉｓｔが［１，２，３］であれば、対応する出現時間差リストｄｉｆｆ－ｔｉｍｅ－ｌｉｓｔは［０，１，２］である。

【0071】

３０４、サーバが当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対を複数のビデオフレーム群に区分し、同一の当該ビデオフレーム群内のビデオフレーム対は同一の出現時間差に対応しており、当該出現時間差とは、当該ビデオフレーム対内の２つのビデオフレームのビデオにおける出現時間の間の数値差を指す。

【0072】

１つの可能な実施形態において、複数のビデオフレーム対内の任意の１つのビデオフレーム対に対して、サーバはビデオフレーム対における第１ビデオフレームの第１出現時間及び第２ビデオフレームの第２出現時間を決定し、第１出現時間とは、第１ビデオフレームが第１ビデオに出現する時間を指し、第２出現時間とは、第２ビデオフレームが第２ビデオに出現する時間を指し、サーバはビデオフレーム対内の第１ビデオフレームの第１出現時間から第２ビデオフレームの第２出現時間を減じて、ビデオフレーム対の出現時間差を得て、サーバは出現時間差が同一のビデオフレーム対を１つの初期ビデオフレーム群として区分するとともに、初期ビデオフレーム群内のビデオフレーム対の出現時間差を、初期ビデオフレーム群に対応する出現時間差とする。サーバは複数の初期ビデオフレーム群に対応する出現時間差に基づき、当該複数の初期ビデオフレーム群を融合して、当該複数のビデオフレーム群を得る。

【0073】

初期ビデオフレーム群には複数の出現時間差が同一のビデオフレーム対が含まれ、異なる初期ビデオフレーム群は異なる出現時間差に対応しており、初期ビデオフレーム群に対応する出現時間差とは、当該初期ビデオフレーム群におけるビデオフレーム対の出現時間差を指す。

【0074】

１つの可能な実施形態において、複数のビデオフレーム対の出現時間差に基づき、複数のビデオフレーム対を複数のビデオフレーム群に区分する前に、上記方法は、更に、複数のビデオフレーム対のうちの任意の１つのビデオフレーム対に対して、ビデオフレーム対のうちの第１ビデオフレームの第１出現時間からビデオフレーム対のうちの第２ビデオフレームの第２出現時間を減じて、ビデオフレーム対の出現時間差を得ることを含み、第１出現時間とは、第１ビデオフレームが第１ビデオに出現する時間を指し、第２出現時間とは、第２ビデオフレームが第２ビデオに出現する時間を指す。

【0075】

この種の実施形態において、出現時間差が同一のビデオフレーム対のうちのビデオフレームがおそらく完全なビデオクリップを構成し、ビデオフレーム対をビデオフレーム群に統合することにより、後続過程における類似したビデオクリップの決定が簡便になる。

【0076】

例を挙げると、サーバは所定のコンフィギュレーション情報を取得するとともに、コンフィギュレーション情報内の目標順序に応じて当該複数の初期ビデオフレーム群をソートし、複数の候補ビデオフレーム群における任意の２つの隣接する候補ビデオフレーム群に対して、２つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合は、２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群として融合し、マッチング時間差とは、２つの隣接する候補ビデオフレーム群に対応する出現時間差の間の数値差を指す。

【0077】

サーバは所定のコンフィギュレーション情報内の目標順序に応じて複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。当該複数の候補ビデオフレーム群における任意の２つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合、サーバは当該２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群として融合し、当該マッチング時間差とは、当該２つの隣接する候補ビデオフレーム群に対応する出現時間差の間の数値差を指す。

【0078】

上記例示内で言及されている技術過程をより明確に説明するため、以下においては、２つの部分に分けて上記例示について更に説明する。

【0079】

第１部分、サーバは目標順序に応じて当該複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。

【0080】

１つの可能な実施形態において、サーバは対応する出現時間差の小から大への順序に応じて当該複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。この場合、目標順序とは、出現時間差の大から小への順序を指す。いくつかの実施例では、任意の１つの初期ビデオフレーム群において、サーバはビデオフレーム対における第１ビデオフレームの第１ビデオの出現時間の前後に応じてソートする。

【0081】

この種の実施形態において、サーバは大から小への順序に応じて当該複数の初期ビデオフレーム群をソートし、得られた複数の候補ビデオフレーム群において、任意の２つの候補ビデオフレーム群に対応する出現時間差がいずれも比較的近接していると、後続の融合過程が簡便になる。

【0082】

例を挙げると、複数の初期ビデオフレーム群が［３，５］、［１１，１２］、［２，４］、［４，６］、［６，９］、［７，１０］、［１０，１１］である場合、各括弧は１つのビデオフレーム対［ｉ，ｒ］を表しており、括弧内の前の数字は第１ビデオフレームｉの識別子であり、第２の数字は第２ビデオフレームｒの識別子であり、当該識別子はビデオフレームのビデオにおける出現時間である。ビデオフレーム対［３，５］について述べると、出現時間差は５－３＝２であり、ビデオフレーム対［６，９］について述べると、出現時間差は９－６＝３である。サーバは対応する出現時間差の小から大への順序に応じて当該複数の初期ビデオフレーム群をソートし、複数の候補ビデオフレーム群［１０，１１］、［１１，１２］、［２，４］、［３，５］、［４，６］、［６，９］、［７，１０］が得られる。

【0083】

１つの可能な実施形態において、サーバは対応する出現時間差の小から大への順序に応じて当該複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。この場合、目標順序とは、出現時間差の小から大への順序を指す。いくつかの実施例では、任意の１つの初期ビデオフレーム群において、サーバはビデオフレーム対における第１ビデオフレームの第１ビデオの出現時間の前後に応じてソートする。

【0084】

この種の実施形態において、サーバは小から大への順序に応じて当該複数の初期ビデオフレーム群をソートし、得られた複数の候補ビデオフレーム群において、任意の２つの候補ビデオフレーム群に対応する出現時間差がいずれも比較的近接していると、後続の融合過程が簡便になる。

【0085】

いくつかの実施例では、第１リストを採用してビデオフレーム対を記憶し、第２リストを採用して出現差を記憶する場合、サーバは第１リスト及び第２リストに基づき第３リストを生成し、当該第３リストはビデオフレーム対及び出現差を記憶するために用いられ、当該第３リストは複数の初期ビデオフレーム群を記憶することができ、例えば、当該第３リストの形式は第３リスト（ｍａｔｃｈ－ｄｔ－ｌｉｓｔ）：｛ｄ：｛ｃｏｕｎｔ，ｓｔａｒｔ－ｉｄ，ｍａｔｃｈ－ｉｄ－ｌｉｓｔ｝，…｝であり、式中、ｄは出現時間差であり、ｄ：｛ｃｏｕｎｔ，ｓｔａｒｔ－ｉｄ，ｍａｔｃｈ－ｉｄ－ｌｉｓｔ｝は出現時間差がｄである初期ビデオフレーム群を示しており、ｃｏｕｎｔは当該初期ビデオフレーム群におけるビデオフレーム対の数量であり、ｓｔａｒｔ－ｉｄは第１ビデオフレームの最少識別子であり、ｍａｔｃｈ－ｉｄ－ｌｉｓｔはビデオフレーム対である。

【0086】

第２部分、当該複数の候補ビデオフレーム群における任意の２つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合、サーバは当該２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群として融合する。

【0087】

１つの可能な実施形態において、当該２つの隣接する候補ビデオフレーム群には第１候補ビデオフレーム群及び第２候補ビデオフレーム群が含まれ、当該第１候補ビデオフレーム群に対応する出現時間差と当該第２候補ビデオフレーム群に対応する出現時間差との間のマッチング時間差がマッチング差閾値以下である場合、サーバは当該第１候補ビデオフレーム群内のビデオフレーム対を当該第２候補ビデオフレーム群に追加して、当該ビデオフレーム群を得る。

【0088】

当該複数の候補ビデオフレーム群を複数のビデオフレーム群に融合することには、複数の反復過程が含まれており、当該第１候補ビデオフレーム群と当該第２候補ビデオフレーム群とを１つのビデオフレーム群に融合した後、サーバは、更に、新たに融合した当該ビデオフレーム群と次の候補ビデオフレーム群との間のマッチング時間差を決定し、当該マッチング時間差がマッチング時間差条件に合致している場合は当該新たに融合された当該ビデオフレーム群と次の候補ビデオフレーム群とを再度融合することができ、融合過程は当該第１候補ビデオフレーム群と当該第２候補ビデオフレーム群とを融合する過程と同一の発明構想に属しているため、その実現過程については詳述しない。当然、当該マッチング時間差がマッチング時間差条件に合致していない場合、サーバは、更に、当該次の候補ビデオフレーム群とその次の候補ビデオフレーム群との間のマッチング時間差を決定し、マッチング時間差に基づき、更なる処理を実施する。マッチング差閾値は技術者が実際の状況に応じて設定するため、本願実施例ではそれを限定しない。

【0089】

この種の実施形態において、出現時間差に基づき候補ビデオフレーム群を融合するため、候補ビデオフレーム群の数量を低減することができ、後続処理の演算量は減少し、演算効率が向上する。

【0090】

１つの可能な実施形態において、２つの隣接する候補ビデオフレーム群には第１候補ビデオフレーム群及び第２候補ビデオフレーム群が含まれ、２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群に融合することは、第１候補ビデオフレーム群と第２ビデオフレーム群との間のマッチング時間差がマッチング差閾値以下である場合は、第１候補ビデオフレーム群内のビデオフレーム対を第２候補ビデオフレーム群に追加することと、第２候補ビデオフレーム群に対応する出現時間差に基づき、目標ビデオフレームを参照第２ビデオフレームに置き換えてビデオフレーム群を得ることと、を含み、目標第２ビデオフレームは新たに第２候補ビデオフレーム群内に追加された第２ビデオフレームであり、参照第２ビデオフレームは第２ビデオの、目標第１ビデオフレームとの間の出現時間差が目標数値差である第２ビデオフレームであり、目標数値差は第２候補ビデオフレーム群に対応する出現時間差であり、目標第１ビデオフレームは目標第２ビデオフレームが属するビデオフレーム対のうちの第１ビデオフレームである。

【0091】

例を挙げると、サーバは当該第１候補ビデオフレーム群と当該第２候補ビデオフレーム群とのマッチング時間差を決定する。当該マッチング時間差がマッチング差閾値以下である場合、サーバは当該第２候補ビデオフレーム群に対応する出現時間差に基づき、目標第２ビデオフレームを参照第２ビデオフレームに置き換えて当該ビデオフレーム群を得て、当該目標第２ビデオフレームは新たに当該第２候補ビデオフレーム群内に追加された第２ビデオフレームであり、当該参照第２ビデオフレームは当該第２ビデオの、目標第１ビデオフレームとの間の出現時間差が当該第２候補ビデオフレーム群に対応する出現時間差である第２ビデオフレームであり、当該目標第１ビデオフレームは当該目標第２ビデオフレームが属するビデオフレーム対のうちの第１ビデオフレームである。

【0092】

この種の実施形態において、第１候補ビデオフレーム群内のビデオフレーム対を第２候補ビデオフレーム群に追加した後、サーバは、更に、第２候補ビデオフレーム群の出現時間差に応じて新たに第２候補ビデオフレーム群内に追加されたビデオフレームを調整して、調整後のビデオフレーム対の出現時間差を当該第２候補ビデオフレーム群と同一にさせて、ビデオフレーム対の出現時間差とビデオフレーム群の出現差との間の一致性を保持する。

【0093】

より明確に説明するため、以下においては第１候補ビデオフレーム群に対応する出現時間差が３であり、［６，９］、［７，１０］の２つのビデオフレーム対を含み、第２候補ビデオフレーム群に対応する出現時間差が２であり、［２，４］、［３，５］、［４，６］の３つのビデオフレーム対を含み、マッチング差閾値が３である場合を例にして説明する。第１候補ビデオフレーム群と第２候補ビデオフレーム群との間のマッチング時間差が１であるため、サーバは当該マッチング時間差が当該マッチング差閾値未満であると決定し、当該第１候補ビデオフレーム群と当該第２候補ビデオフレーム群とを併合しなければならない。サーバは第１候補ビデオフレーム群内の２つのビデオフレーム対［６，９］及び［７，１０］を第２候補ビデオフレーム群に追加し、当該第２候補ビデオフレーム群は［２，４］、［３，５］、［４，６］、［６，９］、［７，１０］に変化し、第２候補ビデオフレーム群に対応する出現時間差は２であるため、サーバは当該出現時間差２に基づき、第２候補ビデオフレーム群内に追加された２つのビデオフレーム対［６，９］及び［７，１０］内の第２ビデオフレームを調整して、２つの新たなビデオフレーム対［６，８］及び［７，９］を得る。新たに第２候補ビデオフレーム群に追加された第２ビデオフレームを調整した後、当該第２候補ビデオフレーム群は［２，４］、［３，５］、［４，６］、［６，８］、［７，９］に変化し、各ビデオフレーム対の出現時間差はいずれも２である。

【0094】

なお、上記ではサーバが第１候補ビデオフレーム群内のビデオフレームを第２候補ビデオフレーム群内に追加する場合を例にして説明しているが、その他可能な実施形態において、サーバは第２候補ビデオフレーム内のビデオフレーム対を第１候補ビデオフレーム群に追加することもできる。

【0095】

いくつかの実施例では、サーバは第１候補ビデオフレーム群及び第２候補ビデオフレーム群内のビデオフレーム対の数量に基づき、第１候補ビデオフレーム群内のビデオフレーム対を第２候補ビデオフレーム群に追加するのか、それとも第２候補ビデオフレーム群内のビデオフレーム対を第１候補ビデオフレーム群に追加するのかを決定する。例えば、第１候補ビデオフレーム群内のビデオフレーム対の数量が第２候補ビデオフレーム群内のビデオフレーム対の数量よりも多い場合、サーバは当該第２候補ビデオフレーム群内のビデオフレーム対を当該第１候補ビデオフレーム群に追加する。第２候補ビデオフレーム群内のビデオフレーム対の数量が第１候補ビデオフレーム群内のビデオフレーム対の数量よりも多い場合、サーバは当該第１候補ビデオフレーム群内のビデオフレーム対を当該第２候補ビデオフレーム群に追加する。第２候補ビデオフレーム群内のビデオフレーム対の数量が第１候補ビデオフレーム群内のビデオフレーム対の数量と等しい場合、サーバは当該第１候補ビデオフレーム群内のビデオフレーム対を当該第２候補ビデオフレーム群に追加する。または、第２補ビデオフレーム群内のビデオフレーム対の数量が第１候補ビデオフレーム群内のビデオフレーム対の数量と等しい場合、サーバは当該第２候補ビデオフレーム群内のビデオフレーム対を当該第１候補ビデオフレーム群に追加する。

【0096】

この場合、サーバは候補ビデオフレーム群内のビデオフレーム対の数量に応じて、候補ビデオフレーム群を併合する方式を決定し、含まれるビデオフレームの数量が少ない方の候補ビデオフレーム群を、含まれるビデオフレームの数量が多い方のビデオフレーム群に追加するため、演算量は減少し、効率は向上する。

【0097】

３０５、当該複数のビデオフレーム群のうちの任意の１つのビデオフレーム群に対して、サーバが当該ビデオフレーム群内のビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間に応じて、当該ビデオフレーム群内のビデオフレーム対の第１ビデオフレームを１つの候補ビデオクリップに融合する。

【0098】

１つの可能な実施形態において、サーバは当該ビデオフレーム群内の任意の２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間を比較して、２つの隣接するビデオフレーム対の出現時間差を得る。当該２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間の間の数値差が出現時間条件に合致している場合、サーバは当該２つの隣接するビデオフレーム対を一時フレームリストに追加する。当該２つの隣接するビデオフレーム対の第１ビデオフレームの当該第ビデオにおける出現時間の間の数値差が出現時間条件に合致していない場合、サーバは当該一時フレームリスト内のビデオフレームを１つの参照ビデオクリップに融合する。サーバは複数の参照ビデオクリップに基づき、当該少なくとも１つの候補ビデオクリップを決定する。

【0099】

一時フレームリストは出現時間の間の数値差が出現時間条件に合致しているビデオフレーム対を記憶するために用いられる。いくつかの実施例では、出現時間の間の数値差が出現時間条件に合致しているとは、出現時間の間の数値差が出現時間差閾値以下であることを指し、出現時間差閾値は技術者が実際の状況に応じて設定し、例えば８ｓと設定するため、本願実施例ではそれを限定しない。

【0100】

上記実施形態をより明確に説明するため、以下において、４つの部分に分けて上記実施形態について説明する。

【0101】

第１部分、サーバは当該ビデオフレーム群内の任意の２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間を比較する。

【0102】

いくつかの実施例では、サーバが第１ビデオフレームの第１ビデオにける出現時間を第１ビデオフレームの識別子とし、第２ビデオフレームの第２ビデオにおける出現時間を第２ビデオフレームの識別子とし、この場合、サーバは任意の２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間を比較する際、この２つの第１ビデオフレームの識別子を比較するだけでよい。例えば、当該ビデオフレーム群にビデオフレーム対［２，４］、［３，５］、［４，６］、［６，８］、［７，９］が含まれる場合、サーバはビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間を順次比較する。最初の比較過程において、サーバは第１ビデオフレーム対［２，４］の第１ビデオフレーム２と第２ビデオフレーム対［３，５］の第１ビデオフレーム３との第１ビデオにおける出現時間を比較する。

【0103】

第２部分、当該２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間の間の数値差が出現時間条件に合致している場合、サーバは当該２つの隣接するビデオフレーム対を一時フレームリストに追加する。

【0104】

１つの可能な実施形態において、当該２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間の間の数値差が出現時間差閾値以下である場合、サーバは当該２つの隣接するビデオフレーム対を一時フレームリストに追加する。例えば、更に、当該ビデオフレーム群のビデオフレーム対［２，４］、［３，５］、［４，６］、［６，８］、［７，９］を例として、ビデオフレーム対［２，４］及び［３，５］について述べると、出現時間差閾値が３である場合、［２，４］及び［３，５］のうちの第１ビデオフレームの第１ビデオにおける出現時間差は３－２＝１であるため、サーバは当該２つのビデオフレーム対を一時フレームリスト（Ｔｍｐｌｉｓｔ）に追加し、Ｔｍｐｌｉｓｔ＝［［２，４］、［３，５］］となる。

【0105】

サーバがビデオフレーム対を一時フレームリストに追加することを決定することには複数の反復過程が含まれ、任意の１つの反復過程において、サーバは現在のビデオフレーム対の第１ビデオフレーム及び前回のビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間差を比較し、ここで現在のビデオフレーム対とは、現在処理中のビデオフレーム対を指し、前回のビデオフレーム対とは、前回の反復過程において処理したビデオフレーム対を指す。例えば、サーバがビデオフレーム対［２，４］及び［３，５］を一時フレームリストに追加した後、更にビデオフレーム対［３，５］及び［４，６］の第１ビデオフレームの第１ビデオにおける出現時間差と出現時間差閾値との間の関係を決定し、［３，５］及び［４，６］のうちの第１ビデオフレームの第１ビデオにおける出現時間差は４－３＝１であるため、サーバはビデオフレーム対［４，６］を一時フレームリスト（Ｔｍｐｌｉｓｔ）に追加し、Ｔｍｐｌｉｓｔ＝［［２，４］、［３，５］、［４，６］］となる。複数の反復過程により一時フレームリストＴｍｐｌｉｓｔ＝［［２，４］、［３，５］、［４，６］、［６，８］、［７，９］］が得られる。

【0106】

第３部分、当該２つの隣接するビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間の間の数値差が出現時間条件に合致していない場合、サーバは当該一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合する。

【0107】

参照ビデオクリップには第１サブクリップ及び第２サブクリップが含まれ、第１サブクリップはビデオフレーム対のうちの第１ビデオフレームにより構成され、第２サブクリップはビデオフレーム対のうちの第２ビデオフレームにより構成される。

【0108】

１つの可能な実施形態において、当該２つの隣接するビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間の間の数値差が出現時間差閾値よりも大きい場合、サーバは当該一時フレームリスト内の第１ビデオフレームを第１サブクリップに融合し、当該一時フレームリスト内の第２ビデオフレームを第２サブクリップに融合し、当該第１サブクリップ及び当該第２サブクリップが当該参照ビデオクリップを構成する。ビデオフレーム対のうちの第１ビデオフレーム及び第２ビデオフレームは類似度が比較的高いビデオフレームであるため、第１サブクリップ及び第２サブクリップも類似度が比較的高いクリップである。例えば、図５を参照すると、そこには第１サブクリップ５０１及び第２サブクリップ５０２の形式が示されており、第１サブクリップ５０１冒頭の第１のビデオフレームと第２サブクリップ５０２冒頭の第１のビデオフレームとが１つのビデオフレーム対を構成し、第１サブクリップ５０１末尾の第１のビデオフレームと第２サブクリップ５０２末尾の第１のビデオフレームとが別のビデオフレーム対を構成する。いくつかの実施例では、１つの参照ビデオクリップ内の第１サブクリップ及び第２サブクリップはマッチングセクションとも称される。

【0109】

例えば、当該２つの隣接するビデオフレーム対が［９，１１］及び［２，４］である場合、当該２つのビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間の間の数値差は９－２＝７であるため、サーバは一時フレームリスト内の第１ビデオフレームを１つの参照ビデオクリップに融合する。例えば、一時フレームリストＴｍｐｌｉｓｔ＝［［２，４］、［３，５］、［４，６］、［６，８］、［７，９］］である場合、サーバは当該一時フレームリスト内の第１ビデオフレーム［２，］、［３，］、［４，］、［６，］、［７，］を第１サブクリップ（２，７）に融合し、当該一時フレームリスト内の第２ビデオフレーム［，４］、［，５］、［，６］、［，８］、［，９］を第２サブクリップ（４，９）に融合し、当該第１サブクリップ（２，７）及び当該第２サブクリップ（４，９）が当該参照ビデオクリップ（２，７，４，９）を構成し、当該参照ビデオクリップのフォーマットは（ｓｒｃ－ｓｔａｒｔＴｉｍｅ，ｓｒｃ－ｅｎｄＴｉｍｅ，ｒｅｆ－ｓｔａｒｔＴｉｍｅ，ｒｅｆ－ｅｎｄＴｉｍｅ）であり、式中、ｓｒｃ－ｓｔａｒｔＴｉｍｅは、第１サブクリップの冒頭、つまり一時フレームリストにおけるシリアル番号が最小の第１ビデオフレームを指し、ｓｒｃ－ｅｎｄＴｉｍｅは、第１サブクリップの末尾、つまり一時フレームリストにおけるシリアル番号が最大の第１ビデオフレームを指し、ｒｅｆ－ｓｔａｒｔＴｉｍｅは、第２サブクリップの冒頭、つまり一時フレームリストにおけるシリアル番号が最小の第２ビデオフレームを指し、ｒｅｆ－ｅｎｄＴｉｍｅは、第２サブクリップの末尾、つまり一時フレームリストにおけるシリアル番号が最大の第２ビデオフレームを指し、シリアル番号とは、ビデオフレームの識別子を指し、ビデオにおけるビデオフレームの位置を示しており、シリアル番号が小さいほど、ビデオにおけるビデオフレームの位置が前寄りであることを示しており、シリアル番号が小さいほど、ビデオにおけるビデオフレームの位置が後寄りであることを示している。いくつかの実施例では、サーバは参照ビデオクリップをマッチングセクションリストｍａｔｃｈ－ｄｕｒａｔｉｏｎ－ｌｉｓｔ内に記憶する。ビデオフレーム対を決定する際には、第１ビデオ及び第２ビデオのすべてのビデオフレームをトラバースするため、あるビデオフレームが複数のビデオフレームと類似する状況が出現し、ｍａｔｃｈ－ｄｕｒａｔｉｏｎ－ｌｉｓｔ内に存在する２つの参照ビデオクリップに時間の重畳が出現する可能性がある。

【0110】

いくつかの実施例ではは、ビデオフレーム群内のビデオフレームをトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定し、現在のビデオフレーム対及び前回のビデオフレーム対はビデオフレーム群における２つの隣接するビデオフレーム対であり、現在のビデオフレーム対及び前回のビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間を比較して、第１ビデオフレームの出現時間の数値差を得て、第１ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、現在のビデオフレーム対及び前回のビデオフレーム対を一時フレームリストに追加し、第１ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合するとともに、融合後に一時フレームリストをクリアし、次にトラバースするビデオフレーム対を決定し、次にトラバースするビデオフレーム対を新たな現在のビデオフレーム対として、現在のビデオフレーム対及び前回のビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間を比較するステップに戻って、最後にトラバースするビデオフレーム対まで引き続き実行するとともに、一時フレームリスト内にビデオフレーム対を有している場合は、一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、複数の参照ビデオクリップに基づき、少なくとも１つの候補ビデオクリップを決定する。第１ビデオフレームの出現時間の数値差とは、ビデオフレーム群における２つの隣接するビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間の数値差を指す。いくつかの実施例では、当該参照ビデオクリップは、更に、第１サブクリップに対応した出現時間差、第１サブクリップの時間長及び第１サブクリップに含まれるビデオフレームの数量などの情報を携帯することができるため、サーバの活用に便利である。

【0111】

また、上記第３部分で提供される方式以外に、本願実施例では一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合するようにする別の方式を採用した方法も提供されている。

【0112】

１つの可能な実施形態において、現在処理しているビデオフレーム対が当該ビデオフレーム群における最後のビデオフレーム対である場合、サーバはビデオフレーム対を一時フレームリストに追加して、当該一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合する。例えば、当該ビデオフレーム群に［２，４］、［３，５］、［４，６］、［６，８］、［７，９］の５つのビデオフレーム対が含まれ、サーバがビデオフレーム対［７，９］を処理する場合、当該ビデオフレーム対［７，９］は当該ビデオフレーム群における最後のビデオフレーム対であるため、サーバは当該ビデオフレーム対［７，９］を一時フレームリストに追加し、当該一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、融合過程は前記１つの実施形態に対する記述を参照するものとし、ここでは詳述しない。

【0113】

出現時間差が比較的小さいビデオフレームはおそらく１つの相対的に完璧なビデオクリップを構成するため、出現時間差が比較的小さいビデオフレームを融合すると、相対的に完璧な参照ビデオを得ることができ、雑多なビデオフレームにより目標ビデオクリップを決定する場合に比べ、本願実施例は後続において簡便に相対的に完璧な参照ビデオに基づき１つのより完璧な目標ビデオクリップを決定することができる。

【0114】

第４部分、サーバが複数の参照ビデオクリップに基づき、当該少なくとも１つの候補ビデオクリップを決定する。

【0115】

当該複数の参照ビデオクリップには、第１重畳ビデオクリップ及び／または第２重畳ビデオクリップが含まれ、当該第１重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第１参照ビデオクリップに属する参照ビデオクリップを指し、当該第２重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第２参照ビデオクリップと部分的に重畳した参照ビデオクリップを指す。

【0116】

第１重畳ビデオクリップが当該第１参照ビデオクリップに属するということは、第１重畳ビデオクリップの内容が当該第１参照ビデオクリップに完全に包含されているか、または第１参照ビデオクリップが完全に当該第１重畳ビデオクリップを包含していることを指す。

【0117】

上記第４部分の内容をより明確に説明するために、以下において、サーバが複数の参照ビデオクリップから第１重畳ビデオクリップを決定する方法について説明する。

【0118】

１つの可能な実施形態において、サーバは当該複数の参照ビデオクリップ内の第１サブクリップの第１ビデオにおける出現時間に基づき、当該複数の参照ビデオクリップから第１重畳ビデオクリップを決定する。

【0119】

第１サブクリップとはつまり第１ビデオフレームが構成するビデオクリップであり、出現時間には第１サブクリップの第１ビデオにおける開始時間及び終了時間が含まれる。

【0120】

例を挙げると、当該複数の参照ビデオクリップ内の参照ビデオクリップＡ_１及び参照ビデオクリップＢ_１に対して、サーバは当該参照ビデオクリップＡ_１の第１サブクリップの第１ビデオにおける出現時間と当該参照ビデオクリップＢ_１の第１サブクリップの第１ビデオにおける出現時間とを比較し、当該参照ビデオクリップＢ_１の第１サブクリップの第１ビデオにおける出現時間が、当該参照ビデオクリップＡ_１の第１サブクリップの第１ビデオにおける出現時間の部分集合である場合は、当該参照サブクリップＢ_１を第１重畳ビデオクリップであると決定する。例えば、図６を参照すると、当該複数の参照ビデオクリップには参照ビデオクリップＡ_１及び参照ビデオクリップＢ_１が含まれ、サーバは当該参照ビデオクリップＡ_１の第１サブクリップｍ_１の当該第１ビデオにおける出現時間と参照ビデオクリップＢ_１の第１サブクリップｎ_１の当該第１ビデオにおける出現時間とを比較する。当該第１サブクリップｎ_１の開始時間が第１サブクリップｍ_１の後であり、かつ、当該第１サブクリップｎ_１の終了時間が第１サブクリップｍ_１の前である場合、サーバは参照ビデオクリップＢ_１を第１重畳ビデオクリップと決定し、当該参照ビデオクリップＡ_１がつまり上記第１参照ビデオクリップである。

【0121】

サーバが複数の参照ビデオクリップから第１重畳ビデオクリップを決定する方法について説明した後、以下において、サーバが複数の参照ビデオクリップから第２重畳ビデオクリップを決定する方法について説明する。

【0122】

１つの可能な実施形態において、サーバは当該複数の参照ビデオクリップ内の第１サブクリップの第１ビデオにおける出現時間に基づき、当該複数の参照ビデオクリップから第２重畳ビデオクリップを決定する。

【0123】

例を挙げると、当該複数の参照ビデオクリップ内の参照ビデオクリップＡ_２及び参照ビデオクリップＢ_２に対して、サーバは当該参照ビデオクリップＡ_２の第１サブクリップの第１ビデオにおける出現時間と当該参照ビデオクリップＢ_２の第１サブクリップの第１ビデオにおける出現時間とを比較し、当該参照ビデオクリップＢの第１サブクリップの第１ビデオにおける出現時間と当該参照ビデオクリップＡの第１サブクリップの第１ビデオにおける出現時間とに積集合が存在している場合は、参照ビデオクリップＡ及び参照ビデオクリップＢのうちの時間長が短い方の参照ビデオクリップを第２重畳ビデオクリップと決定する。例えば、図６を参照すると、当該複数の参照ビデオクリップには参照ビデオクリップＡ_２及び参照ビデオクリップＢ_２が含まれ、サーバは当該参照ビデオクリップＡ_２の第１サブクリップｍ_２の当該第１ビデオにおける出現時間と参照ビデオクリップＢ_２の第１サブクリップｎ_２の当該第１ビデオにおける出現時間とを比較する。当該第１サブクリップｎ_２の開始時間が第１サブクリップｍ_２の開始時間の後で、終了時間の前であり、かつ、当該第１サブクリップｎ_２の終了時間が第１サブクリップｍ_２の後であるか、または当該第１サブクリップｎ_２の開始時間が第１サブクリップｍ_２の前であり、かつ、当該第１サブクリップｎ_２の終了時間が第１サブクリップｍ_２の終了時間の前で、開始時間の後であり、参照ビデオクリップＢ_２の時間長が参照ビデオクリップＡ_２よりも小さい場合、サーバは当該参照ビデオクリップＢ_２を第２重畳ビデオクリップであると決定し、当該参照ビデオクリップＡ_２がつまり上記第２参照ビデオクリップである。

【0124】

サーバが第１重畳ビデオクリップ及び第２重畳ビデオクリップを決定する方法の紹介が完了した後、以下において、上記第４部分が提供するステップについて説明する。

【0125】

１つの可能な実施形態において、当該複数の参照ビデオクリップに当該第１重畳ビデオクリップが含まれる場合、サーバは当該第１重畳ビデオクリップを削除して、当該少なくとも１つの候補ビデオクリップを得る。

【0126】

この種の実施形態において、サーバは重複した第１重畳ビデオクリップを複数の参照ビデオクリップから削除して、得られる候補ビデオクリップの数量を低減させることができ、演算量は減少し、演算効率は向上する。

【0127】

１つの可能な実施形態において、当該複数の参照ビデオクリップに当該第２重畳ビデオクリップが含まれる場合、サーバは当該第２重畳ビデオクリップの当該第２参照ビデオクリップとの間の重畳部分を削除して、当該少なくとも１つの候補ビデオクリップを得る。

【0128】

この種の実施形態において、サーバは第２重畳ビデオクリップと第２参照クリップとの間の重畳部分を削除して、得られる候補ビデオクリップの長さを低減させることができ、演算量は減少し、演算効率は向上する。

【0129】

上記実施形態を基礎として、選択可能に、サーバは、更に、以下のステップを実行可能である。

【0130】

いくつかの実施例では、当該第２重畳ビデオクリップと当該第２参照クリップとの間の重畳部分を削除した後、サーバは第３類参照ビデオクリップの時間長と目標時間長とを比較し、当該第３類参照ビデオクリップとは、重畳部分を削除した当該第２重畳ビデオクリップを指す。当該第３類参照ビデオクリップの時間長が当該目標時間長以上である場合、サーバは当該第３類参照ビデオクリップを留保する。当該第３類参照ビデオクリップの時間長が当該目標時間長未満である場合、サーバは当該第３類参照ビデオクリップを削除する。

【0131】

目標時間長は技術者が実際状況に応じて設定し、本願実施例ではそれを限定しない。サーバが当該第３類参照ビデオクリップを留保する場合は、つまり当該第３類参照ビデオクリップを元の第２重畳ビデオクリップに替えて採用する。

【0132】

以下において、２つの例を通して上記実施形態について説明する。

【0133】

例１、当該複数の参照ビデオクリップ内の参照ビデオクリップＡ_２及び参照ビデオクリップＢ_２に対して、当該参照ビデオクリップＡ_２の第１サブクリップｍ_２及び当該参照ビデオクリップＢ_２の第１サブクリップｎ_２が部分的重畳を有し、かつ、第１サブクリップｍ_２の開始時間が第１サブクリップｎ_２よりも早い場合、サーバは第１サブクリップｎ_２の開始時間を第１サブクリップｍ_２の終了時間まで移動して、サブクリップｌ_１を得て、当該サブクリップｌ_１は第３類参照ビデオクリップの第１サブクリップである。当該サブクリップｌ_１の時間長が当該目標時間長以下である場合、サーバは当該サブクリップｌ_１を削除し、同時に当該サブクリップｌ_１が属する第３類参照ビデオクリップを削除する。当該サブクリップｌ_１の時間長が当該目標時間長よりも長い場合、サーバは当該サブクリップｌ_１を留保し、同時に当該サブクリップｌ_１が属する第３類参照ビデオクリップを留保する。

【0134】

例２、当該複数の参照ビデオクリップ内の参照ビデオクリップＡ_２及び参照ビデオクリップＢ_２に対して、当該参照ビデオクリップＡ_２の第１サブクリップｍ_２及び当該参照ビデオクリップＢ_２の第１サブクリップｎ_２が部分的重畳を有し、かつ、第１サブクリップｎ_２の開始時間が第１サブクリップｍ_２よりも早い場合、サーバは第１サブクリップｎ_２の終了時間を第１サブクリップｍ_２の開始時間まで移動して、サブクリップｌ_２を得て、当該サブクリップｌ_２は第３類参照ビデオクリップの第１サブクリップである。当該サブクリップｌ_２の時間長が当該目標時間長以下である場合、サーバは当該サブクリップｌ_２を削除し、同時に当該サブクリップｌ_２が属する第３類参照ビデオクリップを削除する。当該サブクリップｌ_２の時間長が当該目標時間長よりも長い場合、サーバは当該サブクリップｌ_２を留保し、同時に当該サブクリップｌ_２が属する第３類参照ビデオクリップを留保する。

【0135】

第３類参照ビデオクリップの時間長が目標時間長よりも短い場合は、当該第３類参照ビデオクリップに含まれるビデオフレームの数量が比較的少なく、おそらく誤って生成された参照ビデオクリップであると認識することができるため、当該参照ビデオクリップを削除することにより、後続における余剰の参照ビデオクリップに基づき生成される目標ビデオクリップの正確性を向上させることができる。

【0136】

３０６、サーバが当該少なくとも１つの候補ビデオクリップに基づき、当該少なくとも１つの目標候補ビデオクリップを決定し、当該目標候補ビデオクリップは当該少なくとも１つの候補ビデオクリップにおける出現回数が回数条件に合致している。

【0137】

１つの可能な実施形態において、サーバは当該少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを決定する。サーバは各参照候補ビデオクリップの当該少なくとも１つの参照候補ビデオクリップにおける出現回数を決定する。サーバは出現回数が当該出現回数条件に合致した参照候補ビデオクリップを目標候補ビデオクリップと決定する。

【0138】

参照候補ビデオクリップの当該少なくとも１つの参照候補ビデオクリップにおける出現回数とは、当該少なくとも１つの参照候補ビデオクリップにおける当該参照候補ビデオクリップの数量を指す。例えば、当該少なくとも１つの参照候補ビデオクリップが１、２、３、１、４、５である場合、参照候補ビデオクリップ１について述べると、出現回数は２である。

【0139】

上記実施形態について説明するため、以下において、３つの部分に分けて上記実施形態について説明する。

【0140】

第１部分、サーバは当該少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを決定する。

【0141】

当該少なくとも１つの候補ビデオクリップには、第３重畳ビデオクリップ及び／または第４重畳ビデオクリップが含まれ、当該第３重畳ビデオクリップとは、当該少なくとも１つの候補ビデオクリップ内の第１候補ビデオクリップに属する候補ビデオクリップを指し、当該第４重畳ビデオクリップとは、当該少なくとも１つの候補ビデオクリップにおける第２候補ビデオクリップと部分的に重畳する候補ビデオクリップを指す。

【0142】

上記第１部分の内容についてより明確に説明するため、以下において、サーバが少なくとも１つの候補ビデオクリップから第３重畳ビデオクリップを決定する方法について説明する。

【0143】

１つの可能な実施形態において、サーバは当該少なくとも１つの候補ビデオクリップ内の第１サブクリップの第１ビデオにおける出現時間に基づき、当該少なくとも１つの候補ビデオクリップから第３重畳ビデオクリップを決定する。

【0144】

候補ビデオクリップには、第１サブクリップ及び第２サブクリップが含まれ、第１サブクリップはビデオフレーム対内の第１ビデオフレームにより構成され、第２サブクリップはビデオフレーム対内の第２ビデオフレームにより構成される。

【0145】

例を挙げると、当該少なくとも１つの候補ビデオクリップが２つの候補ビデオクリップであるとすると、当該少なくとも１つの候補ビデオクリップのうちの候補ビデオクリップＣ_１及び候補ビデオクリップＤ_１に対して、サーバは当該候補ビデオクリップＣ_１の第１サブクリップの第１ビデオにおける出現時間と当該候補ビデオクリップＤ_１の第１サブクリップの第１ビデオにおける出現時間とを比較し、当該候補ビデオクリップＤ_１の第１サブクリップの第１ビデオにおける出現時間が当該候補ビデオクリップＣ_１の第１サブクリップの第１ビデオにおける出現時間の部分集合である場合、当該候補ビデオクリップＤ_１を第３重畳ビデオクリップと決定する。

【0146】

例えば、当該少なくとも１つの候補ビデオクリップが２つの候補ビデオクリップであり、候補ビデオクリップＣ_１及び候補ビデオクリップＤ_１を含む場合、サーバは当該候補ビデオクリップＣ_１の第１サブクリップｏ_１の当該第１ビデオにおける出現時間と当該候補ビデオクリップＤ_１の第１サブクリップｐ_１の当該第１ビデオにおける出現時間とを比較する。当該第１サブクリップｐ_１の開始時間が第１サブクリップｏ_１の後で、かつ、当該第１サブクリップｐ_１の終了時間が第１サブクリップｏ_１の前である場合、サーバは当該候補ビデオクリップＤ_１を第３重畳ビデオクリップと決定し、当該候補ビデオクリップＣ_１がつまり上記第１候補ビデオクリップである。

【0147】

サーバが少なくとも１つの候補ビデオクリップから第３重畳ビデオクリップを決定する方法について説明した後、以下において、サーバが少なくとも１つの候補ビデオクリップから第４重畳ビデオクリップを決定する方法について説明する。

【0148】

１つの可能な実施形態において、サーバは当該少なくとも１つの候補ビデオクリップ内の第１サブクリップの第１ビデオにおける出現時間に基づき、当該少なくとも１つの候補ビデオクリップから第４重畳ビデオクリップを決定する。

【0149】

例を挙げると、当該少なくとも１つの候補ビデオクリップが２つの候補ビデオクリップであるとすると、当該少なくとも１つの候補ビデオクリップのうちの候補ビデオクリップＣ_２及び候補ビデオクリップＤ_２に対して、サーバは当該候補ビデオクリップＣ_２の第１サブクリップの第１ビデオにおける出現時間と当該候補ビデオクリップＤ_２の第１サブクリップの第１ビデオにおける出現時間とを比較し、当該候補ビデオクリップＤ_２の第１サブクリップの第１ビデオにおける出現時間と当該候補ビデオクリップＣ_２の第１サブクリップの第１ビデオにおける出現時間とに積集合が存在している場合、候補ビデオクリップＣ_２及び候補ビデオクリップＤ_２のうちの時間長が短い方の候補ビデオクリップを第４重畳ビデオクリップと決定する。

【0150】

例えば、当該少なくとも１つの候補ビデオクリップが２つの候補ビデオクリップであり、候補ビデオクリップＣ_２及び候補ビデオクリップＤ_２を含む場合、サーバは当該候補ビデオクリップＣ_２の第１サブクリップｏ_２の当該第１ビデオにおける出現時間と当該候補ビデオクリップＤ_２の第１サブクリップｐ_２の当該第１ビデオにおける出現時間とを比較する。当該第１サブクリップｐ_２の開始時間が第１サブクリップｏ_２の開始時間の後で、終了時間の前であり、かつ、当該第１サブクリップｐ_２の終了時間が第１サブクリップｏ_２の後であるか、または当該第１サブクリップｐ_２の開始時間が第１サブクリップｏ_２の前であり、かつ、当該第１サブクリップｐ_２の終了時間が第１サブクリップｏ_２の終了時間の前、開始時間の後であり、候補ビデオクリップＤ_２の時間長が候補ビデオクリップＣ_２よりも短い場合、サーバは当該候補ビデオクリップＤ_２を第４重畳ビデオクリップと決定し、当該候補ビデオクリップＣ_２がつまり上記第２候補ビデオクリップである。

【0151】

サーバが第３重畳ビデオクリップ及び第４重畳ビデオクリップを決定する方法の紹介が完了した後、以下において、上記第１部分が提供するステップについて説明する。

【0152】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップに当該第３重畳ビデオクリップが含まれる場合、サーバは当該第３重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得る。いくつかの実施例ではは、当該第３重畳ビデオクリップを削除する前に、サーバは当該第３重畳ビデオクリップの出現回数を当該第１候補ビデオクリップに積算する。第３重畳ビデオクリップは第１候補ビデオクリップに完全に包含されているため、当該第３重畳ビデオクリップの出現回数を当該第１候補ビデオクリップに積算すると、当該第１候補ビデオクリップの後続処理における重みを高めることができる。

【0153】

この種の実施形態において、サーバが重複する第３重畳ビデオクリップを少なくとも１つの候補ビデオクリップ内から削除すると、得られる参照候補ビデオクリップの数量が低減され、演算量が減少し、演算効率は向上する。

【0154】

以下において、１つの具体的な例により説明する。

【0155】

当該候補ビデオクリップＤ_１の第１サブクリップｏ_１が当該候補ビデオクリップＣ_１の第１サブクリップｐ_１の部分集合であり、かつ、第１サブクリップｏ_１の時間長＞０．５＊第１サブクリップｐ_１である場合、サーバは第１サブクリップｏ_１を削除し、同時に当該候補ビデオクリップＤ_１も削除し、当該候補ビデオクリップＤ_１の出現回数を当該候補ビデオクリップＣ_１に積算する。

【0156】

上記実施形態を基礎として、選択可能に、サーバは第３重畳ビデオクリップの出現回数を当該第１候補ビデオクリップに積算する前に、更に、当該第３重畳ビデオクリップの時間長及び第１候補ビデオクリップの時間長を決定し、当該第３重畳ビデオクリップの時間長及び第１候補ビデオクリップの時間長に基づき、当該第３重畳ビデオクリップの出現回数を当該第１候補ビデオクリップに積算するのか否かを決定することができる。

【0157】

例えば、サーバは当該第３重畳ビデオクリップの時間長及び第１候補ビデオクリップの時間長を決定する。サーバが当該第３重畳ビデオクリップの時間長と第１候補ビデオクリップの時間長との間の第１比較値を決定し、当該第１比較値が比較値閾値以上である場合、サーバは当該第３重畳ビデオクリップの出現回数を当該第１候補ビデオクリップに積算し、当該第１比較値が比較値閾値未満である場合、サーバは当該第３重畳ビデオクリップの出現回数を当該第１候補ビデオクリップに積算せず、比較値閾値は技術者が実際状況に応じて設定し、例えば０．５と設定し、本願実施例ではそれを限定しない。

【0158】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップが当該第４重畳ビデオクリップを含み、かつ、当該第４重畳ビデオクリップと当該第２候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合、サーバは当該第４重畳ビデオクリップの出現回数を決定する。サーバは重畳度が重畳度条件に合致している各第４重畳ビデオクリップの出現回数に基づき、当該少なくとも１つの参照候補ビデオクリップを決定する。

【0159】

重畳度とは、重畳したビデオクリップの時間長と比較されるビデオクリップの時間長との間の比較値を指す。例えば、第４重畳ビデオクリップ及び第２候補ビデオクリップに対して、第２候補ビデオクリップが比較されるビデオクリップであるとすると、第４重畳ビデオクリップと第２候補ビデオクリップとの間の重畳度を決定する場合は、第４重畳ビデオクリップと第２候補ビデオクリップとの間の重畳したビデオクリップの時間長と第２候補ビデオクリップの時間長とを互いに除算すれば得ることができる。重畳度が重畳度条件に合致しているとは、重畳度が重畳度閾値以上であることを指す。

【0160】

以下において、２種の実施形態により、上記実施形態においてサーバが当該第４重畳ビデオクリップの出現回数に基づき、当該少なくともとも１つの参照候補ビデオクリップを決定する方法について説明する。

【0161】

実施形態１、当該第４重畳ビデオクリップの出現回数が第１出現回数閾値以上である場合、サーバは当該第４重畳ビデオクリップと第２候補ビデオクリップとを融合して、当該少なくとも１つの参照候補ビデオクリップを得る。いくつかの実施例では、それぞれ各重畳度が重畳度条件に合致している第４重畳ビデオクリップを相応の第２候補ビデオクリップと融合して、少なくとも１つの参照候補ビデオクリップを得る。いくつかの実施例ではは、当該第４重畳ビデオクリップと第２候補ビデオクリップとを融合する前に、サーバは当該第４重畳ビデオクリップの出現回数を当該第２候補ビデオクリップに積算する。

【0162】

第１出現回数閾値は技術者が実際の状況に応じて設定し、例えば３と設定し、本願実施例ではそれを限定しない。出現回数が第１出現回数閾値以上であると、当該第４重畳ビデオクリップを無視することができないことを示しているため、更に処理して取得する目標ビデオクリップの正確性を向上させる必要がある。

【0163】

以下において、上記実施形態におけるサーバが当該第４重畳ビデオクリップと第２候補ビデオクリップとを融合する方法について説明する。

【0164】

いくつかの実施例では、第４重畳ビデオクリップの時間長が当該第２候補ビデオクリップ未満である場合を例にすると、サーバは当該第４重畳ビデオクリップから当該第２候補ビデオクリップとの間の重複部分を削除し、余剰部分を当該第２候補ビデオクリップ上に追加して、１つの候補ビデオクリップを得る。例えば、図７を参照すると、第４重畳ビデオクリップ７０１の時間長は当該第２候補ビデオクリップ７０２未満であり、第４重畳ビデオクリップ７０４の時間長も当該第２候補ビデオクリップ７０５未満である。当該第４重畳ビデオクリップ７０１の終了時間が当該第２候補ビデオクリップ７０２よりも遅い場合、サーバは当該第４重畳ビデオクリップ７０１と当該第２候補ビデオクリップ７０２とを融合して、１つの候補ビデオクリップ７０３を得る。当該第４重畳ビデオクリップ７０４の開始時間が当該第２候補ビデオクリップ７０５よりも早い場合、サーバは当該第４重畳ビデオクリップ７０４と当該第２候補ビデオクリップ７０５とを融合して、１つの候補ビデオクリップ７０６を得る。

【0165】

第４重畳ビデオクリップと第２候補ビデオクリップとを融合すると、ビデオクリップの数量を低減させることができるため、演算量が減少し、演算効率が向上する。

【0166】

実施形態２、当該第４重畳ビデオクリップの出現回数が当該第１出現回数閾値未満である場合、サーバは当該第４重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得る。サーバは当該第４重畳ビデオクリップの出現回数を当該第２候補ビデオクリップに積算する。

【0167】

出現回数が第１出現回数閾値未満であると、当該第４重畳ビデオクリップを無視できることを示しているため、サーバは当該第４重畳ビデオクリップを削除するだけでよい。

【0168】

一部の第４重畳ビデオクリップを削除することにより、ビデオクリップの数量を低減させることができ、演算量が減少し、演算効率が向上する。

【0169】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップに当該第４重畳ビデオクリップが含まれ、かつ、当該第４重畳ビデオクリップと当該第２候補ビデオクリップとの間の重畳度が当該重畳度条件に合致していない場合、サーバは当該第４重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得る。いくつかの実施例では、当該第４重畳ビデオクリップを削除する前に、サーバは当該第４重畳ビデオクリップの出現回数を当該第２候補ビデオクリップに積算する。

【0170】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップに当該第４重畳ビデオクリップが含まれ、かつ、当該第４重畳ビデオクリップの時間長が当該第２候補ビデオクリップ未満である場合、サーバは当該第４重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得る。いくつかの実施例では、当該第４重畳ビデオクリップを削除する前に、サーバは当該第４重畳ビデオクリップの出現回数を当該第２候補ビデオクリップに積算する。

【0171】

いくつかの実施例では、少なくとも１つの参照候補ビデオクリップはサーバによりマッチングリスト（ｍａｔｃｈ－ｌｉｓｔ）に記憶されて活用される。

【0172】

重畳度が重畳度条件に合致していないか、または時間長が第２候補ビデオクリップの時間長未満である第４重畳ビデオクリップを削除することにより、ビデオクリップの数量を低減させることができ、後続工程の演算量が減少し、演算効率が向上する。

【0173】

第２部分、サーバが参照候補ビデオクリップの当該少なくとも１つの参照候補ビデオクリップにおける出現回数を決定する。

【0174】

上記第１部分の処理過程により、サーバは少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを決定し、決定過程においては関連する出現回数を併合及び削除し、サーバは当該少なくとも１つの参照候補ビデオクリップの出現回数を再度決定する。いくつかの実施例では、サーバは当該少なくとも１つの参照候補ビデオクリップの出現回数を出現回数リスト（ｃｏｕｎｔ－ｌｉｓｔ）に記憶して活用することができる。

【0175】

例えば、第１ビデオにおける目標ビデオクリップを決定する際、サーバは３つの第２ビデオを採用してマイニングするが、簡便に説明するため、当該第１ビデオをｉと命名し、当該３つの第２ビデオをそれぞれｖｉｄ１、ｖｉｄ２及びｖｉｄ３と命名する。上記各ステップを採用した後、サーバは当該第１ビデオｉ及び第２ビデオｖｉｄ１に基づき、２つの候補ビデオクリップ［（２，７，４，９），（１０，１１，１１，１２）］を決定し、当該第１ビデオｉ及び第２ビデオｖｉｄ２に基づき、１つの候補ビデオクリップ［（２，７，４，９）］を決定し、当該第１ビデオｉ及び第２ビデオｖｉｄ３に基づき、１つの候補ビデオクリップ［（２，７，４，１０）］を決定した。サーバはこの４つの候補ビデオクリップの統計を取り、候補ビデオクリップ（２，７，４，９）の出現回数は２回、（２，７，４，１０）の出現回数は１回、（１０，１１，１１，１２）の出現回数は１回であると決定した。上記第１部分の方式によりこの４つの候補ビデオクリップを融合した後に、２つの参照候補ビデオクリップ［（２，７，４，９），（１０，１１，１１，１２）］を得て、かつ、参照候補ビデオクリップ（２，７，４，９）の出現回数は３であり、参照候補ビデオクリップ（１０，１１，１１，１２）の出現回数は１であり、回数リスト（ｃｏｕｎｔ－ｌｉｓｔ）に記憶すると、ｃｏｕｎｔ－ｌｉｓｔ＝［３，１］となる。

【0176】

第３部分、サーバは出現回数が当該出現回数条件に合致している参照候補ビデオクリップを目標参照候補ビデオクリップと決定する。

【0177】

１つの可能な実施形態において、サーバは出現回数が第２出現回数閾値以上の参照候補ビデオクリップを目標候補ビデオクリップと決定する。

【0178】

第２出現回数閾値は当該少なくとも１つの参照候補ビデオクリップの数量と正の相関であり、つまり当該少なくとも１つの参照候補ビデオクリップの数量が多いほど、当該第２出現回数閾値も大きくなり、当該少なくとも１つの参照候補ビデオクリップの数量が少ないほど、当該第２出現回数閾値も小さくなる。いくつかの実施例では、当該第２出現回数閾値は目標比較値と当該少なくとも１つの参照候補ビデオクリップの数量との積であり、当該目標比較値は１未満の正の数である。

【0179】

例えば、得られた２つの参照候補ビデオクリップが［（２，７，４，９），（１０，１１，１１，１２）］であり、かつ、参照候補ビデオクリップ（２，７，４，９）の出現回数が３であり、参照候補ビデオクリップ（１０，１１，１１，１２）の出現回数が１であり、第２出現回数閾値が３である場合、サーバは参照候補ビデオクリップ（１０，１１，１１，１２）を削除し、最終的に参照候補ビデオクリップ（２，７，４，９）、及び出現回数３を留保する。それをマッチングリスト（ｍａｔｃｈ－ｌｉｓｔ）及び回数リスト（ｃｏｕｎｔ－ｌｉｓｔ）に記憶すると、ｍａｔｃｈ－ｌｉｓｔ＝（２，７，４，９）、ｃｏｕｎｔ－ｌｉｓｔ＝［３］となる。

【0180】

３０７、任意の１つの目標候補ビデオクリップに対して、第１ビデオにおける当該目標候補ビデオクリップの出現時間が目標時間範囲内の場合、サーバが当該目標候補ビデオクリップを当該第１ビデオにおける目標ビデオクリップと決定する。

【0181】

当該目標時間範囲は、技術者が実際状況に応じて設定し、例えば、本願実施例が提供する技術案をビデオのオープニング及びエンディングを識別するシーンに応用する場合、当該目標時間範囲はビデオのオープニング及びエンディングが存在する可能性がある時間範囲であり、その場合、目標時間範囲には第１時間範囲及び第２時間範囲が含まれ、第１時間範囲はオープニングが存在する可能性がある範囲であり、第２時間範囲はエンディングが存在する可能性がある範囲である。例えば、ビデオの前１／５の時間をオープニング時間、つまり第１時間範囲に設定し、後１／５の時間をエンディング時間、つまり第２時間範囲にした場合は、１０分間のビデオに対して、オープニングはおそらく前２分間、エンディングは後２分間のみに出現すると設定する。１／５は技術者が実際状況に応じて設定するものであり、異なるタイプのビデオに対して相応に調整することができ、例えば１５分間前後の子供向けアニメーションでは１／５を採用することができ、テレビドラマの４５分間の長さに対しては１／８を採用することができる。

【0182】

なお、上記ステップ３０１～３０７はサーバが第１ビデオの目標ビデオクリップを決定する場合を例にして説明しているが、当該第１ビデオ及び当該少なくとも１つの第２ビデオが同一のビデオ集合に属している場合、サーバは上記ステップ３０１～３０７と同様の方法を採用して当該ビデオ集合におけるその他ビデオの目標ビデオクリップを決定することができ、その他ビデオとは、第１ビデオ以外のビデオを指す。

【0183】

以下において、図８を組み合わせて本願実施例が提供する技術案について説明する。

【0184】

図８を参照すると、本願実施例において、サーバはビデオフレーム特徴の間の類似性に基づきマッチングを実施して、複数のビデオフレーム対を得る。サーバは出現時間差に基づき当該複数のビデオフレーム対を複数の初期ビデオフレーム群に区分する。サーバは出現時間差に基づき当該複数の初期ビデオフレーム群を複数の候補ビデオフレーム群に融合する。サーバは当該複数の候補ビデオフレーム群を複数のビデオフレーム群に融合する。サーバは当該複数のビデオフレーム群に基づき、第１ビデオの目標ビデオクリップを出力する。

【0185】

いくつかの実施例では、上記ステップ３０１～３０７は１つのクリップマイニングシステムにより実現することができ、本願実施例が提供する技術案をビデオのオープニング及びエンディングを識別するシーンに応用する場合、当該クリップマイニングシステムがつまりオープニング及びエンディングマイニングシステムである。図９を参照すると、当該ビデオクリップマイニングシステムには以下の機能、つまり複数のビデオのビデオフレーム特徴を抽出する機能、各ビデオに対して、当該ビデオと当該複数のビデオのうちのその他のビデオとによりビデオ対を構成する機能、複数のビデオ対に基づきマッチングを実施して、複数のビデオフレーム対を得る機能、複数のビデオフレーム対を融合して、複数のビデオフレーム群を得る機能、当該複数のビデオフレーム群に基づき、当該ビデオにおける目標ビデオクリップの位置を決定する機能、当該ビデオにおける当該目標ビデオクリップの位置に基づき、当該目標ビデオクリップを取得する機能が提供されている。本願実施例が提供する技術案をビデオのオープニング及びエンディングを識別するシーンに応用する場合、当該目標ビデオクリップがつまり当該ビデオのオープニングまたはエンディングである。

【0186】

図１０を参照すると、本願実施例が提供する技術案をテレビドラマのオープニング及びエンディングを識別するシーンに応用する場合は、テレビドラマを取得し、当該テレビドラマには複数のビデオが含まれている。当該複数のビデオをクリップマイニングシステムに入力し、当該クリップマイニングシステムを介して当該複数のビデオのオープニング及びエンディングを出力する。いくつかの実施例では、当該クリップマイニングシステムは当該複数のビデオのオープニング及びエンディングのタイムスタンプを出力することができる。

【0187】

３０８、サーバが第１ビデオの目標ビデオクリップをクリップデータベースに記憶する。

【0188】

１つの可能な実施形態において、サーバは当該第１ビデオの目標ビデオクリップに対して特徴抽出を実施して、当該目標ビデオクリップのビデオフレーム特徴を得る。サーバは当該目標ビデオクリップのビデオフレーム特徴を当該クリップデータベースに記憶する。いくつかの実施例では、サーバは当該目標ビデオクリップのビデオフレーム特徴を当該第１ビデオに関連付ける。例えば、サーバは当該目標ビデオクリップのビデオフレーム特徴の識別子を第１ビデオの識別子として設定する。当該第１ビデオがあるビデオ集合に属している場合、サーバが当該第１ビデオの識別子を当該ビデオ集合の識別子として関連付けると、後続のクエリ過程が簡便になる。

【0189】

目標ビデオクリップに対して特徴抽出を実施して当該目標ビデオクリップのビデオフレーム特徴を得ることは、上記ステップ３０１と同一の発明構想に属しており、実現過程は上記ステップ３０１の記述を参照することができるため、ここでは詳述しない。

【0190】

例えば、目標ビデオクリップが（２，７）である場合、サーバは当該第１ビデオから２～７秒に対応する目標ビデオクリップを取得し、当該目標ビデオクリップから複数の参照ビデオフレームを抽出する。サーバは当該複数の参照ビデオフレームに対して特徴抽出を実施して、当該複数の参照ビデオフレームのビデオフレーム特徴を得る。サーバは当該複数の参照ビデオフレームのビデオフレーム特徴をクリップデータベースに記憶する。サーバは当該複数の参照ビデオフレームのビデオフレーム特徴を第１ビデオの識別子Ｖｉｄ１に関連付けて、第１ビデオの識別子Ｖｉｄ１を当該第１ビデオが属するビデオ集合の識別子Ｃｉｄ１に関連付ける。図１１にはクリップデータベースの記憶形式が示されており、図１１を参照すると、データベース１１００において、ｅｍ１～ｅｍＮはビデオフレーム特徴であり、ｖｉｄ１～ｖｉｄＫは異なるビデオの識別子であり、Ｎ及びＫはいずれも正の整数である。

【0191】

サーバは第１ビデオの目標ビデオクリップをクリップデータベースに記憶した後、更に、当該クリップデータベースを利用してビデオクリップを検索することができ、方法は以下の通りである。

【0192】

１つの可能な実施形態において、サーバは識別対象の目標ビデオの複数の目標ビデオフレームに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。サーバは当該複数の目標ビデオフレームのビデオフレーム特徴、当該第１ビデオフレームのビデオフレーム特徴及び当該少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、当該目標ビデオの少なくとも１つの目標ビデオクリップを決定する。

【0193】

サーバが目標ビデオの複数の目標ビデオフレームに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る過程は、上記ステップ３０１と同一の発明構想に属しており、実現過程は上記ステップ３０１の記述を参照することができるため、ここでは詳述しない。サーバが当該複数の目標ビデオフレームのビデオフレーム特徴、当該第１ビデオフレームのビデオフレーム特徴及び当該少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、当該目標ビデオの少なくとも１つの目標ビデオクリップを決定する過程は、上記ステップ３０２～３０７と同一の発明構想に属しており、実現過程は上記ステップ３０２～３０７の記述を参照することができるため、ここでは詳述しない。いくつかの実施例では、当該クリップデータベースにおいてビデオクリップの検索を実施することは、ビデオ検索システムにより実現される。いくつかの実施例では、当該第１ビデオフレームのビデオフレーム特徴及び当該少なくとも１つの第２ビデオのビデオフレーム特徴はクリップデータベースに記憶される。

【0194】

時間領域マッチングアルゴリズムを設計することにより、画像ｅｍｂｅｄｄｉｎｇ特徴に基づく類似ビデオセクションマッチング方法が実現され、長さ変化（マッチング論理内で体現され、同一の出現時間差のもとマッチングフレームを時間領域に併合する際に併合するフレームが必ず前後に連続していることは要求されない）、位置変化（マッチング論理内で体現され、出現時間差が０である場合、位置に変化はなく、出現時間差が０よりも大きい場合は、位置に変化ありとすることができる）の類似ビデオセクションのマッチングがサポートされている。当該方法は時間の消費が少なく、性能が優れている。

【0195】

ビデオ時間領域をマッチングする方法に基づき生成されたオープニング・エンディングマイニング案は、複雑に長さが変化し、位置が変化するなどの複雑なビデオのオープニング・エンディングの識別・位置決めを実現することができ、現有技術案では解決できない困難な状況を解決することができる。

【0196】

時間領域のマッチングに基づくオープニング・エンディング検索案を連合することにより、リアルタイム（１０分間以内）のオープニング・エンディングマイニング案を実現することができ、応用に優れている。

【0197】

上記ビデオクリップの識別方法は、ビデオクリップのオープニング・エンディングを識別するシーンに応用することができ、更に、権利侵害ビデオを識別するシーンに応用することもでき、以下においては、それぞれこの２種の応用シーンについて紹介する。

【0198】

当該ビデオクリップの検索方法をビデオクリップのオープニング・エンディングを検索するシーンに応用する場合は、識別対象の目標ビデオを当該ビデオ検索システムに入力し、当該ビデオ検索システムにより当該目標ビデオに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。当該ビデオ検索システムを介して、当該複数の目標ビデオフレームのビデオフレーム特徴に基づき、クリップデータベース内でマッチングを実施し、当該目標ビデオの目標ビデオクリップを得ると、当該ビデオクリップがつまり当該目標ビデオのオープニングまたはエンディングである。

【0199】

テレビドラマにおける新たに更新されたビデオのオープニング及びエンディングを識別する場合を例にすると、例えば、当該テレビドラマがすでに１０話更新されているとすると、上記ステップ３０１～３０７によりこの１０話のオープニング及びエンディングを取得し、上記ステップ３０８によりこの１０話のオープニング及びエンディングがクリップデータベースに記憶される。当該テレビドラマの第１１話が更新される際に、当該第１１話を当該目標ビデオとして、当該目標ビデオを当該ビデオ検索システムに入力し、当該ビデオ検索システムにより当該目標ビデオに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。当該ビデオ検索システムを介して、当該複数の目標ビデオフレームのビデオフレーム特徴に基づき、クリップデータベース内でマッチングを実施し、当該目標ビデオにおける目標ビデオクリップを得れば、当該目標ビデオクリップがつまり当該目標ビデオのオープニングまたはエンディングである。当該クリップデータベースにおいてビデオフレーム特徴とビデオの識別子及びビデオ集合の識別子とを関連付ける場合は、ビデオ集合の識別子に基づき有限的な範囲内でマッチングを実施して、目標ビデオクリップを決定する効率を高めることができ、当該ビデオ集合がつまり当該テレビドラマである。

【0200】

以下においては、図１２を組み合わせて更に説明する。

【0201】

オープニング・エンディングの識別対象のテレビドラマを決定し、当該テレビドラマにおける複数のビデオを取得する。当該複数のビデオをクリップマイニングシステム１２０１に入力すると、当該クリップマイニングシステム１２０１により当該複数のビデオのオープニング及びエンディングが出力され、当該複数のビデオのオープニング及びエンディングがクリップデータベース１２０２に記憶される。当該テレビドラマが目標ビデオを更新した場合は、当該目標ビデオをビデオ検索システム１２０３に入力し、ビデオ検索システム１２０３により当該目標ビデオを採用して当該クリップデータベース１２０２内で検索を実施して、当該目標ビデオのオープニング及びエンディングを得る。本願実施例が提供する技術案では、同一ビデオ集合におけるビデオに対してオープニング・エンディングをマイニングする際には、ビデオの同一時間領域を検索する方法を採用しており、つまり同一のビデオ集合に対して、検索及び時系列的な位置決めにより同一のビデオクリップを捜し出して、マイニングされたオープニング及びエンディングとする。交差重複排除とは、ビデオ集合内部のビデオから相互検索により重複したビデオクリップを捜し出すことを指す。ビデオを重複排除検索する目的は、第１ビデオに対して、記憶ビデオと同一なビデオクリップを検索することである。

【0202】

なお、１つのビデオはおそらく複数のオープニングまたはエンディングが上記要求を満たしており、それは正常な状況に属しているが、オープニング曲＋本編ハイライト＋同一広告差し込み＋本編というタイプのテレビドラマについて、オープニング曲、広告差し込みは複数のビデオにおいてマッチング可能であるが、ハイライトは各話すべてで異なっていて、マッチングされないため、２つのオープニングが出現することになる。

【0203】

当該ビデオクリップの検索方法を権利侵害ビデオの識別シーンに応用する場合は、識別対象の目標ビデオを当該ビデオ検索システムに入力し、当該ビデオ検索システムにより当該目標ビデオに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。当該目標ビデオがつまり権利侵害識別実施対象のビデオである。当該ビデオ検索システムを介して、当該複数の目標ビデオフレームのビデオフレーム特徴に基づきクリップデータベース内でマッチングを実施し、当該目標ビデオの目標ビデオクリップを得ると、当該目標ビデオクリップがつまり目標ビデオのオープニングまたはエンディングである。当該目標ビデオクリップを当該目標ビデオから削除し、目標ビデオクリップを削除した後の目標ビデオに基づき権利侵害識別を実施し、権利侵害識別の目的は、目標ビデオクリップを削除した後の目標ビデオが指定ビデオの内容と同一であるか否かを決定することである。権利侵害識別は権利侵害識別システムにより実現され、権利侵害識別システムはクエリビデオに対して権利侵害保護ビデオデータベース内で重複排除し、重複が判明した場合は、権利侵害を示している。しかし、本編内容のみを保護する必要があり、通常の映画やテレビドラマのオープニング・エンディングは権利侵害重複排除範囲内にはないため、本願実施例が提供する技術案を採用すると、映画やテレビドラマに対するオープニング・エンディングの識別を実現することが可能である。

【0204】

以下において、図１３を組み合わせて更に説明する。

【0205】

権利侵害識別対象のテレビドラマを決定し、当該テレビドラマにおける複数のビデオを取得し、当該複数のビデオを権利侵害保護ビデオデータベース１３０１に記憶する。当該複数のビデオをクリップマイニングシステム１３０２に入力し、当該クリップマイニングシステム１３０２により当該複数のビデオのオープニング及びエンディングを出力し、当該複数のビデオのオープニング及びエンディングをクリップデータベース１３０３に記憶する。目標ビデオに対して権利侵害識別を実施する必要がある場合は、当該目標ビデオをビデオ検索システム１３０４に入力し、ビデオ検索システム１３０４により当該目標ビデオを採用して当該クリップデータベース１３０３内で検索を実施して、当該目標ビデオのオープニング及びエンディングを得る。当該目標ビデオのオープニング及びエンディングを削除し、権利侵害識別システム１３０５を介して当該目標ビデオの権利侵害結果を出力し、権利侵害結果には権利侵害及び権利非侵害が含まれる。

【0206】

いくつかの実施例では、上記方式に基づき目標ビデオに対してクリップデータベース内でクエリを実施した後、当該目標ビデオの複数の目標ビデオクリップを得た場合、サーバは当該複数の目標ビデオクリップのうち最長の目標ビデオクリップを最終的な目標ビデオクリップと決定し、本願実施例が提供する技術案をビデオのオープニング及びエンディングの識別に応用する場合、当該目標ビデオクリップがつまり当該目標ビデオのオープニング及びエンディングであり、当該過程は図１４に示されている通りである。

【0207】

また、ビデオ検索システム及びクリップマイニングシステムは、対外的インターフェイス、つまり検索データベース格納、マイニングデータベース格納を同時に提供して、同時にユーザが使用する必要があると指定する具体的な機能を開放することができる。また１つの識別インターフェイスのみを提供し、バックエンドがデータベース内にすでに当該ビデオ識別子に対応したテレビドラマのオープニング・エンディングを有しているか否かに応じて、検索またはマイニングを実施するのかを判断し、バックエンドが使用すべき具体的な機能を起動させることもでき、当該具体的な機能には検索及びマイニングが含まれる。

【0208】

上記すべての選択可能な技術案は、任意結合を採用して本願の選択可能な実施例を形成することができるが、ここでは改めて詳述しない。

【0209】

本願実施例が提供する技術案を介して、ビデオフレーム特徴の間の類似度に基づき、類似ビデオフレームを包むビデオフレーム対が決定される。ビデオフレーム対のうちの第１ビデオフレームは、出現時間差に基づいて融合され、少なくとも１つの候補ビデオクリップが得られる。最終的に少なくとも１つの候補ビデオクリップから目標時間範囲内の目標ビデオクリップが決定される。目標クリップを決定する過程は人間の関与は必要なく、コンピュータ機器が直接第１ビデオ及び少なくとも１つの第２ビデオに基づき自動的に実施可能であるため、効率的である。

【0210】

上記ビデオセクションのマッチングアルゴリズム設計により、ビデオフレーム特徴に基づく類似ビデオクリップのマッチング方法が実現され、長さ変化（マッチング論理内で体現され、同一出現時間差のもとビデオフレーム対を併合する際に併合するフレームが前後に連続していることは要求されない）、位置変化（マッチング論理に体現され、出現時間差が０である場合は、位置に変化がなく、出現時間差が０よりも大きい場合は、位置に変化がありとすることができる）の類似ビデオセクションのマッチングをサポートすることができる。当該方法は時間の消費が少なく、性能が優れている。

【0211】

図１５は本願実施例が提供するビデオクリップの識別装置の構造概略図であり、図１５を参照すると、装置には、ビデオフレーム対決定モジュール１５０１、融合モジュール１５０２及び目標ビデオクリップ決定モジュール１５０３が含まれる。

【0212】

ビデオフレーム対決定モジュール１５０１は、第１ビデオのビデオフレーム特徴及び少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するように構成され、当該ビデオフレーム対には類似度が類似度条件に合致した第１ビデオフレーム及び第２ビデオフレームが含まれ、当該第１ビデオフレームは当該第１ビデオに属し、当該第２ビデオフレームは当該少なくとも１つの第２ビデオに属している。

【0213】

融合モジュール１５０２は、当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対のうちの第１ビデオフレームを融合して、当該第１ビデオのうちの少なくとも１つの候補ビデオクリップを得るように構成され、当該出現時間差とは当該ビデオフレーム対における２つのビデオフレームのビデオにおける出現時間の間の数値差を指す。

【0214】

目標ビデオクリップ決定モジュール１５０３は、当該少なくとも１つの候補ビデオクリップ及び目標時間範囲に基づき、当該第１ビデオにおける少なくとも１つの目標ビデオクリップを決定するように構成され、当該目標ビデオクリップは当該第１ビデオの当該目標時間範囲内にある。

【0215】

１つの可能な実施形態において、当該融合モジュール１５０２は、当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対を複数のビデオフレーム群に区分するように構成され、同一の当該ビデオフレーム群内のビデオフレーム対は同一の出現時間差に対応している。当該複数のビデオフレーム群内の任意の１つのビデオフレーム群に対して、当該ビデオフレーム群内のビデオフレーム対の第１ビデオフレームの当該第１ビデオにおける出現時間に応じて、当該ビデオフレーム群内のビデオフレーム対の第１ビデオフレームを１つの当該候補ビデオクリップに融合する。

【0216】

１つの可能な実施形態において、当該融合モジュール１５０２は、複数のビデオフレーム対のうちの任意の１つのビデオフレーム対に対して、ビデオフレーム対のうちの第１ビデオフレームの第１出現時間からビデオフレーム対のうちの第２ビデオフレームの第２出現時間を減じて、ビデオフレーム対の出現時間差を得るように構成され、第１出現時間とは、第１ビデオフレームの第１ビデオにおける出現時間を指し、第２出現時間とは、第２ビデオフレームの第２ビデオにおける出現時間を指し、出現時間差が同一のビデオフレーム対を１つの初期ビデオフレーム群に区分するとともに、初期ビデオフレーム群内のビデオフレーム対の出現時間差を初期ビデオフレーム群に対応する出現時間差とする。複数の初期ビデオフレーム群に対応する出現時間差に基づき、当該複数の初期ビデオフレーム群を融合して、当該複数のビデオフレーム群を得る。

【0217】

１つの可能な実施形態において、当該融合モジュール１５０２は、複数の候補ビデオフレーム群を得るために、目標順序に応じて当該複数の初期ビデオフレーム群をソートするように構成される。当該複数の候補ビデオフレーム群における任意の２つの隣接する候補ビデオフレーム群に対して、２つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合は、当該２つの隣接する候補ビデオフレーム群を１つのビデオフレーム群に融合する。当該マッチング時間差とは、当該２つの隣接する候補ビデオフレーム群に対応する出現時間差の間の数値差を指す。

【0218】

１つの可能な実施形態において、当該２つの隣接する候補ビデオフレーム群には、第１候補ビデオフレーム群及び第２候補ビデオフレーム群が含まれ、当該融合モジュール１５０２は、当該第１候補ビデオフレーム群に対応する出現時間差と当該第２候補ビデオフレーム群に対応する出現時間差との間のマッチング時間差がマッチング差閾値以下である場合は、当該第１候補ビデオフレーム群内のビデオフレーム対を当該第２候補ビデオフレーム群に追加して、当該ビデオフレーム群を得るように構成される。

【0219】

１つの可能な実施形態において、２つの隣接する候補ビデオフレーム群には、第１候補ビデオフレーム群及び第２候補ビデオフレーム群が含まれ、当該融合モジュール１５０２は、第１候補ビデオフレーム群と第２候補ビデオフレーム群との間のマッチング時間差がマッチング差閾値以下である場合は、当該第１候補ビデオフレーム群内のビデオフレーム対を当該第２候補ビデオフレーム群に追加し、当該第２候補ビデオフレーム群に対応する出現時間差に基づき、目標第２ビデオフレームを参照第２ビデオフレームに置き換えて当該ビデオフレーム群を得るように構成される。当該目標第２ビデオフレームは当該第２候補ビデオフレーム群内に新たに追加された第２ビデオフレームであり、当該参照第２ビデオフレームは当該第２ビデオにおける、目標第１ビデオフレームとの間の出現時間差が当該第２候補ビデオフレーム群に対応する出現時間差である第２ビデオフレームであり、当該目標第１ビデオフレームは当該目標第２ビデオフレームが属するビデオフレーム対内の第１ビデオフレームである。

【0220】

１つの可能な実施形態において、当該融合モジュール１５０２は、ビデオフレーム群内のビデオフレーム対をトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定するように構成される。現在のビデオフレーム対及び前回のビデオフレーム対はビデオフレーム群における２つの隣接するビデオフレーム対である。現在のビデオフレーム対及び前回のビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間を比較して、第１ビデオフレームの出現時間の数値差を得る。第１ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、現在のビデオフレーム対及び前回のビデオフレーム対を一時フレームリストに追加し、第１ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合するとともに、融合後に一時フレームリストをクリアし、次にトラバースするビデオフレーム対を決定し、次にトラバースするビデオフレーム対を新たな現在のビデオフレーム対とし、現在のビデオフレーム対及び前回のビデオフレーム対の第１ビデオフレームの第１ビデオにおける出現時間を比較するステップに戻って、最後にトラバースするビデオフレーム対まで引き続き実行し、複数の参照ビデオクリップに基づき、当該少なくとも１つの候補ビデオクリップを決定する。

【0221】

１つの可能な実施形態において、当該複数の参照ビデオクリップには第１重畳ビデオクリップが含まれ、当該第１重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第１参照ビデオクリップに属する参照ビデオクリップを指し、当該融合モジュール１５０２は、当該複数の参照ビデオクリップに当該第１重畳ビデオクリップが含まれている場合に、当該第１重畳ビデオクリップを削除して、当該少なくとも１つの候補ビデオクリップを得るように構成される。

【0222】

１つの可能な実施形態において、当該複数の参照ビデオクリップには第２重畳ビデオクリップが含まれ、当該第２重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第２参照ビデオクリップと部分的に重畳した参照ビデオクリップを指し、当該融合モジュール１５０２は、当該複数の参照ビデオクリップに当該第２重畳ビデオクリップが含まれている場合に、当該第２重畳ビデオクリップと当該第２参照クリップとの間の重畳部分を削除して、当該少なくとも１つの候補ビデオクリップを得るように構成される。

【0223】

１つの可能な実施形態において、当該融合モジュール１５０２は、更に、第３類参照ビデオクリップの時間長と目標時間長とを比較し、当該第３類参照ビデオクリップとは、重畳部分を削除した当該第２重畳ビデオクリップを指し、当該第３類参照ビデオクリップの時間長が当該目標時間長以上である場合は、当該第３類参照ビデオクリップを留保し、当該第３類参照ビデオクリップの時間長が当該目標時間長未満である場合は、当該第３類参照ビデオクリップを削除するように構成される。

【0224】

１つの可能な実施形態において、当該目標ビデオクリップ決定モジュール１５０３は、当該少なくとも１つの候補ビデオクリップに基づき、当該少なくとも１つの目標候補ビデオクリップを決定するように構成され、当該目標候補ビデオクリップの当該少なくとも１つの候補ビデオクリップにおける出現回数は回数条件に合致している。

【0225】

任意の１つの当該目標候補ビデオクリップに対して、第１ビデオにおける当該目標候補ビデオクリップの出現時間が当該目標時間範囲内の場合は、当該目標候補ビデオクリップを当該第１ビデオにおける目標ビデオクリップと決定する。

【0226】

１つの可能な実施形態において、当該目標ビデオクリップ決定モジュール１５０３は、前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを決定し、各参照候補ビデオクリップの当該少なくとも１つの参照候補ビデオクリップにおける出現回数を決定し、出現回数が当該出現回数条件に合致した参照候補ビデオクリップを目標候補ビデオクリップと決定するように構成される。

【0227】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップには第３重畳ビデオクリップが含まれ、当該第３重畳ビデオクリップとは、当該少なくとも１つの候補ビデオクリップ内の第１候補ビデオクリップに属する候補ビデオクリップを指し、当該目標ビデオクリップ決定モジュール１５０３は、当該少なくとも１つの候補ビデオクリップに当該第３重畳ビデオクリップが含まれている場合、当該第３重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得るように構成される。

【0228】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップには第４重畳ビデオクリップが含まれ、当該第４重畳ビデオクリップとは、当該少なくとも１つの候補ビデオクリップ内の第２候補ビデオクリップと部分的に重畳した候補ビデオクリップを指し、目標ビデオクリップ決定モジュール１５０３は、当該少なくとも１つの候補ビデオクリップに当該第４重畳ビデオクリップが含まれ、かつ、当該第４重畳ビデオクリップと当該第２候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合、当該第４重畳ビデオクリップの出現回数を決定し、重畳度が重畳度条件に合致している各第４重畳ビデオクリップの各々に対応した出現回数に基づき、当該少なくとも１つの参照候補ビデオクリップを決定するように構成される。

【0229】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップには第４重畳ビデオクリップが含まれ、当該第４重畳ビデオクリップとは、当該少なくとも１つの候補ビデオクリップ内の第２候補ビデオクリップと部分的に重畳した候補ビデオクリップを指し、目標ビデオクリップ決定モジュール１５０３は、当該少なくとも１つの候補ビデオクリップに当該第４重畳ビデオクリップが含まれ、かつ、当該第４重畳ビデオクリップと当該第２候補ビデオクリップとの間の重畳度が当該重畳度条件に合致していない場合、当該第４重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得るように構成される。

【0230】

１つの可能な実施形態において、当該少なくとも１つの候補ビデオクリップには第４重畳ビデオクリップが含まれ、当該第４重畳ビデオクリップとは、当該少なくとも１つの候補ビデオクリップ内の第２候補ビデオクリップと部分的に重畳した候補ビデオクリップを指し、当該目標ビデオクリップ決定モジュール１５０３は、当該少なくとも１つの候補ビデオクリップに当該第４重畳ビデオクリップが含まれ、かつ、当該第４重畳ビデオクリップの時間長が当該第２候補ビデオクリップ未満である場合、当該第４重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを決定するように構成される。

【0231】

１つの可能な実施形態において、当該目標ビデオクリップ決定モジュール１５０３は、少なくとも１つの候補ビデオクリップのうちの任意の１つの重畳度条件に合致した第４重畳ビデオクリップに対して、当該第４重畳ビデオクリップの出現回数が第１出現回数閾値以上である場合、当該第４重畳ビデオクリップを第２候補ビデオクリップと融合して、当該少なくとも１つの参照候補ビデオクリップを得るように構成される。

【0232】

１つの可能な実施形態において、当該目標ビデオクリップ決定モジュール１５０３は、少なくとも１つの候補ビデオクリップのうちの任意の１つの重畳度条件に合致した第４重畳ビデオクリップに対して、当該第４重畳ビデオクリップの出現回数が第１出現回数閾値未満である場合、当該第４重畳ビデオクリップを削除して、当該少なくとも１つの参照候補ビデオクリップを得るように構成される。

【0233】

１つの可能な実施形態において、当該装置は、更に、
識別対象の目標ビデオの複数の目標ビデオフレームに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得るための特徴抽出モジュールを含み、
当該目標ビデオクリップ決定モジュール１５０３は、更に、当該複数の目標ビデオフレームのビデオフレーム特徴、当該第１ビデオフレームのビデオフレーム特徴及び当該少なくとも１つの第２ビデオのビデオフレーム特徴に基づき、当該目標ビデオの少なくとも１つの目標ビデオクリップを決定するように構成される。

【0234】

なお、上記実施例が提供するビデオクリップの識別装置がビデオクリップを識別する際に、上記各機能モジュールの区分のみにより例を挙げて説明を行っているが、実際の応用においては、必要に応じて上記機能を異なる機能モジュールで達成するように分配することができ、つまりコンピュータ機器の内部構造を異なる機能モジュールに区分して、以上に記載のすべてまたは一部の機能を達成することができる。また、上記実施例が提供するビデオクリップの識別装置はビデオクリップの識別方法の実施例と同一の発明構想に属しているため、その具体的な実施過程の詳細は方法の実施例の通りであり、ここで改めて詳述しない。

【0235】

本願実施例が提供する技術案により、ビデオフレーム特徴の間の類似度に基づき、類似ビデオフレームを含むビデオフレーム対が決定される。ビデオフレーム対内の第１ビデオフレームは、出現時間差に基づいて融合され、少なくとも１つの候補ビデオクリップが得られる。最終的に少なくとも１つの候補ビデオクリップから目標時間範囲内の目標ビデオクリップが決定される。目標クリップを決定する過程は人間の関与は必要なく、コンピュータ機器が直接第１ビデオ及び少なくとも１つの第２ビデオに基づき自動的に実施可能であるため、効率的である。

【0236】

本願実施例では、上記方法を実行するためのコンピュータ機器が提供されており、当該コンピュータ機器は端末またはサーバとして実現することができ、以下において、端末の構造について紹介する。

【0237】

図１６は本願実施例が提供する端末の構造概略図である。

【0238】

通常、端末１６００には、１つまたは複数のプロセッサ１６０１及び１つまたは複数のメモリ１６０２が含まれる。

【0239】

プロセッサ１６０１は、１つまたは複数の処理コア、例えば、４コアプロセッサ、８コアプロセッサなどを含むことができる。プロセッサ１６０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラマブル論理アレイ）のうちの少なくとも１種のハードウェアウェア形式を採用して実現することができる。プロセッサ１６０１はメインプロセッサ及びコプロセッサを含むことができ、メインプロセッサはウェイクアップ状態のデータを処理するためのプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）とも称され、コプロセッサはアイドル状態のデータを処理するための低電力消費プロセッサである。いくつかの実施例では、プロセッサ１６０１は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、画像処理装置）に集積することができ、ＧＰＵはディスプレイに表示すべき内容のレンダリング及び作製に責任を負う。いくつかの実施例では、プロセッサ１６０１は更にＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人口知能）プロセッサを含むことができ、当該ＡＩプロセッサは機械学習に関する計算操作を処理するために用いられる。

【0240】

メモリ１６０２は１つまたは複数のコンピュータ読取り可能な記憶媒体を含むことができ、当該コンピュータ読取り可能な記憶媒体は非一過性である。メモリ１６０２は更に高速ランダムアクセスメモリ、及び非揮発性メモリ、例えば、１つまたは複数の磁気ディスクメモリ機器、フラッシュメモリ機器を含むことができる。いくつかの実施例では、メモリ１６０２における非一過性のコンピュータ読取り可能な記憶媒体は少なくとも１つのコンピュータプログラムを記憶するために用いられ、当該少なくとも１つのコンピュータプログラムは、プロセッサ１６０１により実行されて本願方法の実施例が提供するビデオクリップの識別方法を実現するために用いられる。

【0241】

いくつかの実施例では、端末１６００は、更に選択可能に、周辺機器インターフェイス１６０３及び少なくとも１つの周辺機器を含む。プロセッサ１６０１、メモリ１６０２及び周辺機器インターフェイス１６０３の間はバスまたは信号線により接続することができる。各周辺機器はバス、信号線または回路板を介して周辺機器インターフェイス１６０３に接続することができる。具体的に、周辺機器には、無線周波数回路１６０４、ディスプレイ１６０５、カメラコンポーネント１６０６、音声周波数回路１６０７及び電源１６０８のうちの少なくとも１種が含まれる。

【0242】

周辺機器インターフェイス１６０３は、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）に関する少なくとも１つの周辺機器をプロセッサ１６０１及びメモリ１６０２に接続するために用いることができる。いくつかの実施例では、プロセッサ１６０１、メモリ１６０２及び周辺機器インターフェイス１６０３は同一のチップまたは回路板に集積され、いくつかの他の実施例では、プロセッサ１６０１、メモリ１６０２及び周辺機器インターフェイス１６０３のうちの任意の１つまたは２つは単独のチップまたは回路板で実現することができ、本実施例ではそれを限定しない。

【0243】

無線周波数回路１６０４は、ＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、無線周波数）信号を受信及び送信するために用いられ、電磁信号とも称される。無線周波数回路１６０４は電磁信号を介して通信ネットワーク及びその他の通信機器と通信する。無線周波数回路１６０４は電気信号を電磁信号に変換して送信するか、または、受信した電磁信号を電気信号に変換する。選択可能に、無線周波数回路１６０４は、アンテナシステム、ＲＦ送受信器、１つまたは複数の増幅装置、チューナー、オシレータ、デジタル信号処理装置、エンコード・デコードチップセット、ユーザＩＤモジュールカードなどが含まれる。

【0244】

ディスプレイ１６０５は、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ、ユーザインターフェイス）を表示するために用いられる。当該ＵＩはグラフ、テキスト、パターン、ビデオ及びそれらの任意の組合せを含むことができる。ディスプレイ１６０５がタッチパネルである場合、ディスプレイ１６０５は、更に、ディスプレイ１６０５の表面または表面上方のタッチ信号を収集する能力を有している。当該タッチ信号は制御信号としてプロセッサ１６０１に入力して処理することができる。その際、ディスプレイ１６０５は、更に、仮想ボタン及び／または仮想キーボードを提供するために用いることもでき、ソフトボタン及び／またはソフトキーボードとも称される。

【0245】

カメラコンポーネント１６０６は、画像及びビデオを収集するために用いられ、選択可能に、カメラコンポーネント１６０６は前置カメラ及び後置カメラを含む。通常、前置カメラは端末の前パネルに設置され、後置カメラは端末の背面に設置される。

【0246】

音声周波数回路１６０７は、マイクロフォン及びスピーカを含むことができる。マイクロフォンはユーザ及び環境の音波を収集するとともに、音波を電気信号に変換してプロセッサ１６０１に入力して処理するか、または無線周波数回路１６０４に入力して音声通信を実現するために用いられる。

【0247】

電源１６０８は、端末１６００の各コンポーネントに給電するために用いられる。電源１６０８は交流電源、直流電源、使い捨て電池または充電可能電池とすることができる。

【0248】

いくつかの実施例では、端末１６００は、更に、１つまたは複数のセンサ１６０９を含む。当該１つまたは複数のセンサ１６０９には、加速度センサ１６１０、ジャイロセンサ１６１１、圧力センサ１６１２、光学センサ１６１３及び接近センサ１６１４が含まれるが、それらに限定されない。

【0249】

加速度センサ１６１０は、端末１６００で構築された座標系における３つの座標軸上の加速度の大きさを検出することができる。

【0250】

ジャイロセンサ１６１１は、端末１６００の本体方向及び回転方向の角速度を検出することができ、ジャイロセンサ１６１１は、加速度センサ１６１０と協同してユーザの端末１６００に対する３Ｄ動作を収集することができる。

【0251】

圧力センサ１６１２は、端末１６００の側方縁フレーム及び／またはディスプレイ１６０５の下層に設置することができる。圧力センサ１６１２を端末１６００の側方縁フレームに設置する場合は、ユーザの端末１６００に対する把持信号を検出し、プロセッサ１６０１により圧力センサ１６１２が収集した把持信号に応じて左右手の識別またはクイック操作を行うことができる。圧力センサ１６１２をディスプレイ１６０５の下層に設置する場合は、プロセッサ１６０１によりユーザのディスプレイ１６０５に対する圧力操作に応じて、ＵＩインターフェイス上の操作性制御材に対する制御を実現する。

【0252】

光学センサ１６１３は、環境光強度を収集するために用いられる。１つの実施例において、プロセッサ１６０１は光学センサ１６１３が収集した環境光強度に応じて、ディスプレイ１６０５の表示輝度を制御することができる。

【0253】

接近センサ１６１４は、ユーザと端末１６００の正面との間の距離を収集するために用いられる。

【0254】

当業者であれば理解可能な通り、図１６に示されている構造は端末１６００に対する限定は構成しておらず、図示よりも更に多いまたは更に少ないコンポーネントを含むか、またはある種のコンポーネントを組み合わせるか、または異なるコンポーネントを採用して配置することができる。

【0255】

上記コンピュータ機器は、更に、サーバとして実現することができ、以下において、サーバの構造について紹介する。

【0256】

図１７は本願実施例が提供するサーバの構造概略図である。当該サーバ１７００は配置または性能の違いにより比較的大きな差異が生じるため、１つまたは複数のプロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、ＣＰＵ）１７０１及び１つまたは複数のメモリ１７０２を含むことができ、前記１つまたは複数のメモリ１７０２に少なくとも１つのコンピュータプログラムが記憶されており、前記少なくとも１つのコンピュータプログラムは前記１つまたは複数のプロセッサ１７０１によりロード並びに実行されて上記各方法の実施が提供する方法を実現する。当然、当該サーバ１７００は、更に、有線または無線ネットワークインターフェイス、キーボード及び入力出力インターフェイスなどの部材を有し、簡便に入力・出力することができ、当該サーバ１７００は、更に、その他の機器機能を実現するための部品を含むことができるが、ここでは詳述しない。

【0257】

例示的な実施例において、更に、コンピュータ読取り可能な記憶媒体が提供されており、当該コンピュータ読取り可能な記憶媒体には少なくとも１つのコンピュータプログラムが記憶されており、当該コンピュータプログラムはプロセッサによりロード並びに実行されて上記実施例におけるビデオクリップの識別方法を実現する。例えば、当該コンピュータ読取り可能な記憶媒体は、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、リードオンリー光ディスク（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、磁気テープ、ソフトディスク及び光データ記憶機器などとすることができる。

【0258】

例示的な実施例において、更に、コンピュータプログラムを含むコンピュータプログラム製品が提供されており、当該コンピュータプログラムがプロセッサにより実行されると、上記ビデオクリップの識別方法が実現される。

【0259】

いくつかの実施例では、本願実施例で言及されたコンピュータプログラムは、１つのコンピュータ機器上で実行するか、または、１つの地点に位置する複数のコンピュータ機器上で実行するか、更に、複数の地点に分散し、かつ、通信ネットワークにより互いに接続された複数のコンピュータ機器上で実行するように配置することができ、複数の地点に分散し、かつ、通信ネットワークを介して相互に接続される複数のコンピュータ機器はブロックチェーンシステムを構成することができる。

【0260】

当業者であれば理解可能な通り、上記実施例のすべてまたは一部のステップの実現は、ハードウェアを介して達成することができ、プログラムを介して関連するハードウェアに指令して達成することもでき、当該プログラムはコンピュータ読取り可能な記憶媒体に記憶することができ、上記で言及された記憶媒体はリードオンリーメモリ、磁気ディスクまたは光ディスクなどとすることができる。

【0261】

上記は本願の選択可能な実施例に過ぎず、本願を制限するためのものではなく、およそ本願の精神及び原則内において、施された任意の修正、等価な差し替え、改良などは、いずれも本願の保護範囲内に含まれるものとする。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【手続補正書】

【提出日】2024-04-17

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

前記少なくとも１つの候補ビデオクリップは第４重畳ビデオクリップを含み、前記第４重畳ビデオクリップとは、前記少なくとも１つの候補ビデオクリップのうちの第２候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも１つの候補ビデオクリップに基づき、少なくとも１つの参照候補ビデオクリップを前記決定することは、
前記少なくとも１つの候補ビデオクリップが前記第４重畳ビデオクリップを含み、かつ、前記第４重畳ビデオクリップの時間長が前記第２候補ビデオクリップ未満である場合は、前記第４重畳ビデオクリップを削除して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１１に記載の方法。

【請求項16】

【請求項17】

前記重畳度が重畳度条件に合致している各前記第４重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも１つの参照候補ビデオクリップを決定することは、
前記少なくとも１つの候補ビデオクリップのうちの任意の１つの重畳度条件に合致した第４重畳ビデオクリップに対して、前記第４重畳ビデオクリップの出現回数が第１出現回数閾値未満である場合は、前記第４重畳ビデオクリップを削除して、前記少なくとも１つの参照候補ビデオクリップを得ること、を含む、請求項１３に記載の方法。

【請求項18】

【請求項19】

【請求項20】

【請求項21】

コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項１～請求項１８のいずれか１項に記載のビデオクリップの識別方法を実装する、コンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版