IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2024-544838ビデオクリップの識別方法、装置、機器及び記憶媒体
<>
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図1
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図2
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図3
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図4
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図5
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図6
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図7
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図8
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図9
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図10
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図11
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図12
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図13
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図14
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図15
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図16
  • 特表-ビデオクリップの識別方法、装置、機器及び記憶媒体 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-05
(54)【発明の名称】ビデオクリップの識別方法、装置、機器及び記憶媒体
(51)【国際特許分類】
   G06F 16/53 20190101AFI20241128BHJP
   G06F 16/73 20190101ALI20241128BHJP
   H04N 21/854 20110101ALI20241128BHJP
   G06V 10/62 20220101ALN20241128BHJP
【FI】
G06F16/53
G06F16/73
H04N21/854
G06V10/62
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024523262
(86)(22)【出願日】2022-11-29
(85)【翻訳文提出日】2024-04-17
(86)【国際出願番号】 CN2022135034
(87)【国際公開番号】W WO2023168998
(87)【国際公開日】2023-09-14
(31)【優先権主張番号】202210219364.3
(32)【優先日】2022-03-08
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】郭 卉
【テーマコード(参考)】
5B175
5C164
5L096
【Fターム(参考)】
5B175DA02
5B175DA04
5B175HB03
5C164MA02S
5C164MC01P
5L096CA04
5L096JA11
(57)【要約】
本願はビデオクリップの識別方法、装置、機器及び記憶媒体を公開し、コンピュータ技術におけるビデオクリップの識別、人工知能及び車載などのシーンに応用可能である。本願実施例が提供する技術案により、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴が取得されるとともに、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対が決定され、ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、第1ビデオフレームは第1ビデオに属し、第2ビデオフレームは少なくとも1つの第2ビデオ(201)に属し、複数のビデオフレーム対の出現時間差に基づき、複数のビデオフレーム対のうちの第1ビデオフレームを融合して、第1ビデオのうちの少なくとも1つの候補ビデオクリップが得られ、出現時間差とはビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差(202)を指し、目標時間範囲を取得するとともに、前記少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定し、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内(203)にある。
【特許請求の範囲】
【請求項1】
コンピュータ機器により実行されるビデオクリップの識別方法であって、
第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得し、前記第1ビデオのビデオフレーム特徴及び前記少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、前記ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、前記第1ビデオフレームは前記第1ビデオに属し、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属することと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを得ることであって、前記出現時間差とはビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指すことと、
目標時間範囲を取得し、前記少なくとも1つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定することであって、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内にあることと、を含む、ビデオクリップの識別方法。
【請求項2】
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを前記得ることは、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に区分することであって、同一の前記ビデオフレーム群のうちのビデオフレーム対は同一の出現時間差に対応していることと、
前記複数のビデオフレーム群のうちの任意の1つのビデオフレーム群に対して、前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームの前記第1ビデオにおける出現時間に応じて、前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームを1つの前記候補ビデオクリップに融合することと、を含む、請求項1に記載の方法。
【請求項3】
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に前記区分する前に、前記方法は、更に、
前記複数のビデオフレーム対のうちの任意の1つのビデオフレーム対に対して、前記ビデオフレーム対のうちの第1ビデオフレームの第1出現時間及び第2ビデオフレームの第2出現時間を決定することであって、前記第1出現時間とは第1ビデオフレームが第1ビデオに出現する時間を指し、前記第2出現時間とは第2ビデオフレームが第2ビデオに出現する時間を指すことと、
前記ビデオフレーム対のうちの第1ビデオフレームの第1出現時間から第2ビデオフレーム対の第2出現時間を減じて、前記ビデオフレーム対の出現時間差を得ることと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に前記区分することは、出現時間差が同一のビデオフレーム対を1つの初期ビデオフレーム群に区分し、前記初期ビデオフレーム群のうちのビデオフレーム対の出現時間差を、前記初期ビデオフレーム群に対応する出現時間差とすることを含むことと、
複数の初期ビデオフレーム群に対応する出現時間差に基づき、前記複数の初期ビデオフレーム群を融合して、前記複数のビデオフレーム群を得ることと、を含む、請求項2に記載の方法。
【請求項4】
複数の初期ビデオフレーム群に対応する出現時間差に基づき、前記複数の初期ビデオフレーム群を融合して、前記複数のビデオフレーム群を前記得ることは、
所定のコンフィギュレーション情報を取得することであって、前記コンフィギュレーション情報は目標順序を含むことと、
前記目標順序に応じて前記複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得ることと、
前記複数の候補ビデオフレーム群のうちの任意の2つの隣接する候補ビデオフレーム群に対して、前記2つの隣接する候補ビデオフレーム群間のマッチング時間差がマッチング時間差条件に合致している場合は、前記2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群に融合することであって、前記マッチング時間差とは前記2つの隣接する候補ビデオフレーム群に対応した出現時間差間の数値差を指すことと、を含む、請求項3に記載の方法。
【請求項5】
前記2つの隣接する候補ビデオフレーム群は、第1候補ビデオフレーム群及び第2候補ビデオフレーム群を含み、前記2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群に前記融合することは、
前記第1候補ビデオフレーム群と前記第2候補ビデオフレーム群との間のマッチング時間差がマッチング差の閾値以下である場合は、前記第1候補ビデオフレーム群のうちのビデオフレーム対を前記第2候補ビデオフレーム群に追加することと、
前記第2候補ビデオフレーム群に対応した出現時間差に基づき、目標第2ビデオフレームを参照第2ビデオフレームに置き換えて前記ビデオフレーム群を得ることであって、前記目標第2ビデオフレームは前記第2候補ビデオフレーム群に新たに追加される第2ビデオフレームであり、前記参照第2ビデオフレームは前記第2ビデオフレームにおいて目標第1ビデオフレームとの間の出現時間差が目標差である第2ビデオフレームであり、前記目標差は前記第2候補ビデオフレーム群に対応した出現時間差であり、前記目標第1ビデオフレームは前記目標第2ビデオフレームが属するビデオフレーム対における第1ビデオフレームであることと、を含む、請求項4に記載の方法。
【請求項6】
前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームの前記第1ビデオにおける出現時間に応じて、前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームを1つの前記候補ビデオクリップに前記融合することは、
前記ビデオフレーム群のうちのビデオフレーム対をトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定することであって、前記現在のビデオフレーム対及び前記前回のビデオフレーム対は前記ビデオフレーム群のうちの2つの隣接するビデオフレーム対であることと、
前記現在のビデオフレーム対及び前記前回のビデオフレーム対の第1ビデオフレームの前記第1ビデオにおける出現時間を比較して、第1ビデオフレームの出現時間の数値差を得ることと、
前記第1ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、前記現在のビデオフレーム対及び前記前回のビデオフレーム対を一時フレームリストに追加することと、
前記第1ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、前記一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、融合後に前記一時フレームリストをクリアすることと、
次回トラバースするビデオフレーム対を決定して、前記次回トラバースするビデオフレーム対を新たな現在のビデオフレーム対とし、前記現在のビデオフレーム対及び前記前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を比較するステップに戻り、最終1つのビデオフレーム対にトラバースするまで引き続き実行することと、
複数の参照ビデオクリップに基づき、前記少なくとも1つの候補ビデオクリップを決定することと、を含む、請求項2に記載の方法。
【請求項7】
前記複数の参照ビデオクリップは第1重畳ビデオクリップを含み、前記第1重畳ビデオクリップとは、前記複数の参照ビデオクリップのうちの第1参照ビデオクリップに属する参照ビデオクリップを指し、前記複数の参照ビデオクリップに基づき、前記少なくとも1つの候補ビデオクリップを決定することは、
前記複数の参照ビデオクリップに前記第1重畳ビデオクリップが含まれている場合は、前記第1重畳ビデオクリップを削除して、前記少なくとも1つの候補ビデオクリップを得ること、を含む、請求項6に記載の方法。
【請求項8】
前記複数の参照ビデオクリップは第2重畳ビデオクリップを含み、前記第2重畳ビデオクリップとは、前記複数の参照ビデオクリップのうちの第2参照ビデオクリップ部分と重畳する参照ビデオクリップを指し、前記複数の参照ビデオクリップに基づき、前記少なくとも1つの候補ビデオクリップを決定することは、
前記複数の参照ビデオクリップに前記第2重畳ビデオクリップが含まれている場合は、前記第2重畳ビデオクリップと前記第2参照クリップとの間の重畳部分を削除して、前記少なくとも1つの候補ビデオクリップを得ること、を含む、請求項6に記載の方法。
【請求項9】
前記複数の参照ビデオクリップに前記第2重畳ビデオクリップが含まれている場合は、前記第2重畳ビデオクリップと前記第2参照クリップとの間の重畳部分を前記削除した後、前記方法は、更に、
第3類参照ビデオクリップの時間長と目標時間長とを比較することであって、前記第3類参照ビデオクリップとは、重畳部分を削除した前記第2重畳ビデオクリップを指すことと、
前記第3類参照ビデオクリップの時間長が前記目標時間長以上である場合は、前記第3類参照ビデオクリップを留保することと、
前記第3類参照ビデオクリップの時間長が前記目標時間長未満である場合は、前記第3類参照ビデオクリップを削除することと、を含む、請求項8に記載の方法。
【請求項10】
前記少なくとも1つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの目標候補ビデオクリップを決定することであって、前記目標候補ビデオクリップは前記少なくとも1つの候補ビデオクリップにおける出現回数が回数条件に合致していることと、
任意の1つの前記目標候補ビデオクリップに対して、前記目標候補ビデオクリップの前記第1ビデオにおける出現時間が前記目標時間範囲にある場合は、前記目標候補ビデオクリップを前記第1ビデオにおける目標ビデオクリップとして決定することと、を含む、請求項1に記載の方法。
【請求項11】
前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの目標候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定することと、
各前記参照候補ビデオクリップの前記少なくとも1つの参照候補ビデオクリップにおける出現回数を決定することと、
出現回数が前記出現回数条件に合致している参照候補ビデオクリップを、目標候補ビデオクリップとして決定することと、を含む、請求項10に記載の方法。
【請求項12】
前記少なくとも1つの候補ビデオクリップは第3重畳ビデオクリップを含み、前記第3重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第1候補ビデオクリップに属する候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップに前記第3重畳ビデオクリップが含まれている場合は、前記第3重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項11に記載の方法。
【請求項13】
前記少なくとも1つの候補ビデオクリップは第4重畳ビデオクリップを含み、前記第4重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第2候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップが前記第4重畳ビデオクリップを含み、かつ、前記第4重畳ビデオクリップと前記第2候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合は、前記第4重畳ビデオクリップの出現回数を決定し、重畳度が重畳度条件に合致している各前記第4重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも1つの参照候補ビデオクリップを決定すること、を含む、請求項11に記載の方法。
【請求項14】
前記少なくとも1つの候補ビデオクリップは第4重畳ビデオクリップを含み、前記第4重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第2候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定することは、
前記少なくとも1つの候補ビデオクリップが前記第4重畳ビデオクリップを含み、かつ、前記第4重畳ビデオクリップと前記第2候補ビデオクリップとの間の重畳度が前記重畳度条件に合致していない場合は、前記第4重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項11に記載の方法。
【請求項15】
前記少なくとも1つの候補ビデオクリップは第4重畳ビデオクリップを含み、前記第4重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第2候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップが前記第4重畳ビデオクリップを含み、かつ、前記第4重畳ビデオクリップの時間長が前記第2候補ビデオクリップ未満である場合は、前記第4重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項11に記載の方法。
【請求項16】
前記重畳度が重畳度条件に合致している各前記第4重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも1つの参照候補ビデオクリップを決定することは、
前記少なくとも1つの候補ビデオクリップのうちの任意の1つの重畳度条件に合致した第4重畳ビデオクリップに対して、前記第4重畳ビデオクリップの出現回数が第1出現回数閾値以上である場合は、前記第4重畳ビデオクリップと第2候補ビデオクリップとを融合して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項13に記載の方法。
【請求項17】
前記重畳度が重畳度条件に合致している各前記第4重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも1つの参照候補ビデオクリップを決定することは、
前記少なくとも1つの候補ビデオクリップのうちの任意の1つの重畳度条件に合致した第4重畳ビデオクリップに対して、前記第4重畳ビデオクリップの出現回数が第1出現回数閾値未満である場合は、前記第4重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項13に記載の方法。
【請求項18】
識別対象の目標ビデオを取得し、前記識別対象の目標ビデオにおける複数の目標ビデオフレームの特徴抽出を実施して、前記複数の目標ビデオフレームのビデオフレーム特徴を得ることと、
前記複数の目標ビデオフレームのビデオフレーム特徴、前記第1ビデオフレームのビデオフレーム特徴及び前記少なくとも1つの第2ビデオフレームのビデオフレーム特徴に基づき、前記目標ビデオの少なくとも1つの目標ビデオクリップを決定することと、を更に含む、請求項1に記載の方法。
【請求項19】
第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得し、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するためのビデオフレーム対決定モジュールであって、前記ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、前記第1ビデオフレームは第1ビデオに属し、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属する、ビデオフレーム対決定モジュールと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを得るための融合モジュールであって、前記出現時間差とは前記ビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指している、融合モジュールと、
目標時間範囲を取得し、前記少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定するための目標ビデオクリップ決定モジュールであって、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内にある、目標ビデオクリップ決定モジュールと、を含む、ビデオクリップの識別装置。
【請求項20】
1つまたは複数のプロセッサ及び1つまたは複数のメモリを含み、前記1つまたは複数のメモリに少なくとも1つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記1つまたは複数のプロセッサによりロード並びに実行されて、請求項1~請求項18のいずれか1項に記載のビデオクリップの識別方法を実装する、コンピュータ機器。
【請求項21】
少なくとも1つのコンピュータプログラムが記憶されており、前記コンピュータプログラムはプロセッサによりロード並びに実行されて、請求項1~請求項18のいずれか1項に記載のビデオクリップの識別方法を実装する、コンピュータ読取り可能な記憶媒体。
【請求項22】
コンピュータプログラムを含むコンピュータプログラム製品であって、当該コンピュータプログラムがプロセッサにより実行されると、請求項1~請求項18のいずれか1項に記載のビデオクリップの識別方法を実装する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は2022年3月8日に中国特許局に出願された、出願番号が202210219364.3であり、発明の名称が「ビデオクリップの識別方法、装置、機器及び記憶媒体」である中国特許出願の優先権を求めており、そのすべての内容は引用されることにより本願に結合される。
【0002】
本願はコンピュータ技術分野に関するものであり、特にビデオクリップの識別方法、装置、機器及び記憶媒体に関するものである。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、ビデオは急成長の勢いを呈しており、ネットに接続してビデオを鑑賞するユーザは益々増加している。ビデオにはテレビドラマも含まれているが、テレビドラマは、通常、オープニング及びエンディングを有しており、ユーザがテレビドラマを鑑賞しやすくするために、ビデオプラットホームは、テレビドラマにおけるオープニング及びエンディングの位置を決定してオープニング及びエンディングをスキップする機能を提供することができる。
【0004】
関連技術において、テレビドラマのオープニング及びエンディング位置は、みな手動アノテーションによって決定される。つまりテレビドラマを鑑賞した後に、手作業でテレビドラマのオープニング及びエンディングの位置にマーク付けされる。
【0005】
しかし、手動アノテーションは、大量の時間及び人的資源を消費する必要があるため、テレビドラマのオープニング及びエンディング位置を決定する効率は低くなってしまう。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の各実施例は、ビデオクリップの識別方法、装置、機器及び記憶媒体及びコンピュータプログラム製品を提供し、その技術案は以下の通りである。
【課題を解決するための手段】
【0007】
ビデオクリップの識別方法であって、前記方法は、
第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得するとともに、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、前記ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、前記第1ビデオフレームは前記第1ビデオに属し、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属することと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを得ることであって、前記出現時間差とはビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指すことと、
目標時間範囲を取得するとともに、前記少なくとも1つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定することであって、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内にあることと、を含む。
【0008】
ビデオクリップの識別装置であって、前記装置は、
第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得するとともに、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するためのビデオフレーム対決定モジュールであって、前記ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、前記第1ビデオフレームは第1ビデオに属し、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属する、ビデオフレーム対決定モジュールと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを得るための融合モジュールであって、前記出現時間差とはビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指す、融合モジュールと、
目標時間範囲を取得するとともに、前記少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定するための目標ビデオクリップ決定モジュールであって、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内にある、目標ビデオクリップ決定モジュールと、を含む。
【0009】
コンピュータ機器であって、前記コンピュータ機器は、1つまたは複数のプロセッサ及び1つまたは複数のメモリを含み、前記1つまたは複数のメモリに少なくとも1つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記1つまたは複数のプロセッサによりロード並びに実行されて、前記ビデオクリップの識別方法を実現する。
【0010】
コンピュータ読取り可能な記憶媒体が提供されており、前記コンピュータ読取り可能な記憶媒体に少なくとも1つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記プロセッサによりロード並びに実行されて、前記ビデオクリップの識別方法を実現する。
【0011】
コンピュータプログラムを含むコンピュータプログラム製品が提供されており、当該コンピュータプログラムがプロセッサにより実行されると、上記ビデオクリップの識別方法を実現する。
【図面の簡単な説明】
【0012】
図1】本願実施例が提供するビデオクリップの識別方法における実施環境の概略図である。
図2】本願実施例が提供するビデオクリップの識別方法のフロー図である。
図3】本願実施例が提供するビデオクリップの識別方法のフロー図である。
図4】本願実施例が提供するビデオフレーム特徴を抽出する方法のフロー図である。
図5】本願実施例が提供する第1サブクリップ及び第2サブクリップの概略図である。
図6】本願実施例が提供する異なる重畳方式の第1サブクリップの概略図である。
図7】本願実施例が提供する候補ビデオクリップを融合する概略図である。
図8】本願実施例が提供するビデオクリップの識別方法のフロー図である。
図9】本願実施例が提供するクリップマイニングシステムのフロー図である。
図10】本願実施例が提供するテレビドラマのオープニング及びエンディングを取得する方法のフロー図である。
図11】本願実施例が提供するクリップデータベースにおける記憶方式の概略図である。
図12】本願実施例が提供するテレビドラマのオープニング及びエンディングを取得する方法のフロー図である。
図13】本願実施例が提供する権利侵害ビデオを識別する方法のフロー図である。
図14】本願実施例が提供するビデオクリップの識別方法のフロー図である。
図15】本願実施例が提供するビデオクリップ識別装置の構造概略図である。
図16】本願実施例が提供する端末の構造概略図である。
図17】本願実施例が提供するサーバの構造概略図である。
【発明を実施するための形態】
【0013】
本願における用語「第1」、「第2」などの文字は、作用及び機能が基本的に同一である同一項目または類似項目を区分するために用いられ、ここで理解すべきは、「第1」、「第2」、「第n」の間には論理または時系列上の依存関係はなく、数量及び実行順序も限定していない点である。
【0014】
人工知能(Artifical Intelligence、AI)は、デジタルコンピュータまたはデジタルコンピュータ制御を利用して、人類の知能を機械シミュレーション、延伸及び拡張し、環境を感知して、知識を得るとともに、知識を使用して最適な結果を獲得する理論、方法、技術及びアプリケーションシステムである。
【0015】
機械学習(Machine Learning、ML)とは、学際的な学問分野であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑性理論など複数の学問分野に関するものである。コンピュータがどのようにして人類の学習行為をシミュレーションまたは実現するのか専門的に研究して、新たな知識または技能を獲得し、既存の知識サブモデルを再度組織して、それ自身の性能を不断に改善させる。
【0016】
ハミング距離(Hamming Distance):2進数特徴間の距離を計量するために用いられ、統計数値が異なる特徴ビットを距離とすることにより実現され、例えば、(1000)と(0011)とのハミング距離は3である。
【0017】
なお、本願で言及される情報(ユーザ機器情報、ユーザの個人情報などが含まれるが、それらに限定されない)、データ(分析用のデータ、記憶されるデータ、提示されるデータなどが含まれるが、それらに限定されない)及び信号は、いずれもユーザにより授権されているかまたは各方面を介して十分に授権されており、かつ、関連データの収集、使用及び処理に際しては関連する国家及び地域の関連する法律法規及び基準を遵守しなければならない。
【0018】
図1は本願実施例が提供するビデオクリップの識別方法における実施環境の概略図であり、図1を参照すると、当該実施環境には端末110及びサーバ140を含むことができる。
【0019】
端末110は、無線ネットワークまたは有線ネットワークを介してサーバ140に接続される。選択可能として、端末110は車載端末、スマートフォン、タブレットPC、ノートパソコン、デスクトップパソコン、スマートスピーカ、スマートウォッチ及びスマートテレビなどであるが、それらに限定されない。端末110にはビデオクリップの識別をサポートするアプリケーションプログラムが実装されて運用される。
【0020】
サーバ140は、独立した物理サーバであるか、または複数の物理サーバにより構成されるサーバクラスタもしくは分散型システムであるか、または、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウドファンクション、クラウドメモリ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインサービス、セキュリティサービス、コンテンツデリバリネットワーク(Content Delivery Network、CDN)、及びビッグデータ、人工知能プラットホームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバとすることもできる。サーバ140は当該端末110で運用されるアプリケーションプログラムのためにバックエンドサービスを提供する。
【0021】
本願実施例では端末110及びサーバ140の数量を制限していない。
【0022】
本願実施例の実施環境の紹介が完了した後、以下においては、上記実施環境を組み合わせて、本願実施例の応用シーンについて紹介するが、下記の説明過程において、端末は上記実施環境における端末110であり、サーバも上記実施環境におけるサーバ140である。
【0023】
本願実施例が提供するビデオクリップの識別方法は、ビデオのオープニング及びエンディングを識別するシーンに応用可能であり、例えば、テレビドラマのオープニング及びエンディングを識別するシーンに応用されるか、またはドキュメンタリーフィルムのオープニング及びエンディングを識別するシーンに応用されるか、またはショートビデオコレクションのオープニング及びエンディングを識別するシーンなどに応用される。
【0024】
本願実施例が提供するビデオクリップの識別方法を、テレビドラマのオープニング及びエンディングを識別するシーンに応用した場合を例にすると、技術者は端末を介してオープニング及びエンディングを識別する必要があるテレビドラマを選択し、当該テレビドラマには複数のビデオが含まれ、各ビデオはテレビドラマ内の1話である。端末を介して当該テレビドラマを選出した場合、サーバは本願実施例がそれぞれ提供する技術案を採用して、当該テレビドラマ内の複数のビデオに基づき処理を実施して、当該複数のビデオにおけるオープニング及びエンディングを得ることができる。当該複数のビデオを処理する過程において、サーバは、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定し、各ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、第1ビデオフレームは第1ビデオに属し、第2ビデオフレームは当該少なくとも1つの第2ビデオに属し、つまり、各ビデオフレーム対には第1ビデオのうちの1つのビデオフレーム及び第2ビデオのうちの1つのビデオフレームが含まれ、第1ビデオ及び当該少なくとも1つの第2ビデオフレームはいずれも当該複数のビデオに属する。サーバは、当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対のうちの第1ビデオフレームを融合して、当該第1ビデオのうちの少なくとも1つの候補ビデオクリップを得る。出現時間差とは、ビデオフレーム対のうちの2つのビデオフレームのビデオにおける出現時間の間の数値差を指し、即ち、ビデオフレーム対のうちの第1ビデオフレームの第1ビデオにおける出現時間と第2ビデオフレームの第2ビデオにおける出現時間との間の数値差である。サーバは、少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、第1ビデオにおける少なくとも1つの目標ビデオクリップを決定し、テレビドラマのオープニング及びエンディングを識別するシーンに応用される場合、当該目標時間領域もオープニング及びエンディングが所在する時間領域であるため、決定される目標ビデオクリップも第1ビデオのオープニングまたはエンディングである。
【0025】
なお、上記では本願実施例が提供するビデオクリップの識別方法を、テレビドラマのオープニング及びエンディングを識別するシーンに応用した場合を例として説明しているが、上記のその他の応用シーンの実施過程も上記説明と同一の発明構想に属しているため、実施過程についてここでは詳述しない。
【0026】
また、本願実施例が提供するビデオクリップの識別方法は、上記テレビドラマのオープニング及びエンディングを識別するシーン、ドキュメンタリーフィルムのオープニング及びエンディングを識別するシーン、及びショートビデオコレクションのオープニング及びエンディングを識別するシーンに応用可能である以外に、その他のタイプのビデオのオープニング及びエンディングを識別するシーンに応用することもでき、本願実施例はそれについて限定していない。
【0027】
本願実施例の実施環境及び応用シーンについての紹介が完了した後、以下においては、本願実施例が提供するビデオクリップの識別方法について説明する。図2を参照すると、本願実施例が提供する技術案はコンピュータ機器により実行され、コンピュータ機器は端末またはサーバとして実行され、本願実施例が提供する技術案も端末またはサーバにより共同で実行することができる。本願の下記実施例においては、実行主体がサーバである例について説明するが、容易に理解可能な通り、下記実施例はサーバを例として説明しているが、本願の各実施例は端末により実行することも可能である。つまり、本願の各実施例が提供する技術案は実際にはコンピュータ機器により実行される。
【0028】
ビデオクリップの識別方法には、以下が含まれる。
【0029】
201:サーバが第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得するとともに、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、当該ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、当該第1ビデオフレームは当該第1ビデオに属し、当該第2ビデオフレームは当該少なくとも1つの第2ビデオに属している。
【0030】
第1ビデオ及び少なくとも1つの第2ビデオは同一のビデオ集合に属しており、例えば、第1ビデオ及び第2ビデオは同一のテレビドラマの異なる1話である。ビデオフレーム特徴はビデオフレームの埋込特徴であり、例えば、深度ハッシュ特徴である。第1ビデオフレームと第2ビデオフレームとの間の類似度は、第1ビデオフレームのビデオフレーム特徴及び第2ビデオフレームのビデオフレーム特徴により決定する。各ビデオフレーム対には1つの第1ビデオフレーム及び1つの第2ビデオフレームが含まれ、かつ、ビデオフレーム対のうちの第1ビデオフレームと第2ビデオフレームとの間の類似度が類似度条件に合致していると、即ちビデオフレーム対のうちの第1ビデオフレーム及び第2ビデオフレームは、類似度が比較的高い2つのビデオフレームである。
【0031】
202:サーバが当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対のうちの第1ビデオフレームを融合して、当該第1ビデオのうちの少なくとも1つの候補ビデオクリップを得ることであって、当該出現時間差とはビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指す。
【0032】
ビデオフレーム対のうちの第1ビデオフレームは第2ビデオフレームとの間の類似度が比較的高いビデオフレームであり、候補ビデオクリップは複数のビデオフレーム対のうちの第1ビデオフレームを融合して得られるため、候補ビデオクリップも第1ビデオのうちの少なくとも1つの第2ビデオと重畳内容を有するビデオクリップである。出現時間差は第1ビデオフレーム及び第2ビデオフレームの第1ビデオ及び第2ビデオにおける出現時間の偏差を反映することができる。
【0033】
203:サーバが目標時間範囲を取得するとともに、当該少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、当該第1ビデオにおける少なくとも1つの目標ビデオクリップを決定することであって、当該目標ビデオクリップは当該第1ビデオの当該目標時間範囲内にある。
【0034】
目標時間範囲とは、ビデオ内の時間範囲を指し、目標時間範囲は技術者が実際の状況に応じて設定するため、本願実施例ではそれを限定しない。
【0035】
本願実施例が提供する技術案により、ビデオフレーム特徴間の類似度に基づき、類似したビデオフレームを含むビデオフレーム対が決定される。ビデオフレーム対のうちの第1ビデオフレームは、出現時間差に基づいて融合され、少なくとも1つの候補ビデオクリップが得られる。最終的に少なくとも1つの候補ビデオクリップから目標時間範囲内の目標ビデオクリップが決定される。目標クリップを決定する過程には、人間の関与は必要なく、コンピュータ機器が直接第1ビデオ及び少なくとも1つの第2ビデオに基づき自動的に実施可能であり、効率的である。
【0036】
上記ステップ201~203は、本願実施例が提供するビデオクリップの識別方法についての簡単な紹介であり、以下においては、いくつかの例を参照しながら、本願実施例が提供するビデオクリップの識別方法についてより詳細に説明する。図3を参照すると、本願実施例が提供する技術案は、端末またはサーバで実行することができ、端末及びサーバが共同して実施することもでき、本願実施例においては、実行主体がサーバである場合を例として説明するが、その方法には以下が含まれる。
【0037】
301:サーバが第1ビデオ及び少なくとも1つの第2ビデオの特徴抽出を実施して、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を得る。
【0038】
1つの実施可能な実施形態において、サーバは第1ビデオ及び少なくとも1つの第2ビデオを特徴抽出モデルに入力し、当該特徴抽出モデルを介して当該第1ビデオ及び当該少なくとも1つの第2ビデオに対して特徴抽出を実施して、当該第1ビデオのビデオフレーム特徴及び当該少なくとも1つの第2ビデオのビデオフレーム特徴を得る。
【0039】
サーバが当該特徴抽出モデルを介して第1ビデオ及び少なくとも1つの第2ビデオに対して特徴抽出を実施する過程は、第1ビデオの第1ビデオフレーム及び第2ビデオの第2ビデオフレームに対して特徴抽出を実施する過程でもあり、この種の場合、当該特徴抽出モデルは1つの画像特徴抽出モデルである。
【0040】
この種の実施形態において、特徴抽出モデルを介して当該第1ビデオ及び当該少なくとも1つの第2ビデオに対して特徴抽出を実施して、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を得て、第1ビデオ及び少なくとも1つの第2ビデオに対する抽象的表現を実現すると、後続過程における演算効率が向上する。
【0041】
上記実施形態について説明するため、以下においては、3つの例を通して上記実施形態について説明する。
【0042】
例1、サーバが当該第1ビデオ及び当該少なくとも1つの第2ビデオを特徴抽出モデルに入力し、特徴抽出モデルを介して複数の第1ビデオフレーム及び複数の第2ビデオフレームを畳み込み及びプーリングして、当該複数の第1ビデオフレームのビデオフレーム特徴及び複数の第2ビデオフレームのビデオフレーム特徴を得るが、複数の第1ビデオフレームは第1ビデオのビデオフレームであり、複数の第2ビデオフレームは少なくとも1つの第2ビデオのビデオフレームである。
【0043】
以下においては、サーバが第1ビデオに対して特徴抽出を実施する方法について説明する。サーバが当該第1ビデオの複数の第1ビデオフレームを特徴抽出モデルに入力し、当該特徴抽出モデルの畳み込み層を介して、当該複数の第1ビデオフレームに対して畳み込みを実施して、当該複数の第1ビデオフレームの特徴イメージを得る。サーバが当該特徴抽出モデルのプーリング層を介して、当該複数の第1ビデオフレームの特徴イメージに対して最大プーリングまたは平均プーリングのうちの任意の1項目を実施して、当該複数の第1ビデオフレームのビデオフレーム特徴を得る。いくつかの実施例では、サーバはマトリクス形式で第1ビデオフレームを表し、ベクトル形式でビデオフレーム特徴を表し、第1ビデオフレームに対して畳み込みを実施する過程は、畳み込みカーネルを採用して第1ビデオフレーム上で摺動する形式で実現される。
【0044】
いくつかの実施例では、当該特徴抽出モデルは畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)に基づく特徴抽出器、例えば、大規模なオープンソースデータセットを採用してimagenet(イメージネットワーク)上で予め訓練するニューラルネットワークResnet-101(残差ネットワーク101)であり、当該ニューラルネットワークResnet101の構造は表1の通りである。当該ニューラルネットワークResnet-101のプーリング(Pooling)層の出力結果がビデオフレーム特徴であり、101はモデルの層数を指し、当該ビデオフレーム特徴は1つの1×2048のベクトルである。
【0045】
【表1】

表中、Layer nameは特徴抽出モデルResNet-101における各階層の名称であり、Output sizeは出力される特徴イメージのサイズであり、max poolは最大値プーリングを指し、strideはストライドを指し、blocksは階層を指し、1層におそらく複数の畳み込みカーネルが含まれ、Convは畳み込み層を指し、Poolはプーリング層を指し、Classは分類層を指し、full connectionは完全接続を指し、上記ビデオフレーム特徴を抽出する過程において、Class層は使用しない。
【0046】
なお、上記は特徴抽出モデルがResNet-101である場合を例にして説明しているが、その他可能な実施形態において、当該特徴抽出モデルはその他の構造とすることもでき、本願実施例においてはそれを限定しない。
【0047】
また、上記特徴抽出過程は畳み込みに基づき実現され、得られるビデオフレーム特徴はビデオフレームの画像テクスチャの特徴を表現するために用いられ、このようなビデオフレーム特徴はビデオフレームの下層特徴とも称される。その他可能な実施形態において、当該特徴抽出モデルは更にビデオフレームの意味特徴を抽出することができ、得られるビデオフレーム特徴はビデオフレームの意味を反映でき、以下においては、サーバが当該特徴抽出モデルを介してビデオフレームの意味特徴を抽出する方法について説明する。
【0048】
例2、サーバが当該第1ビデオ及び当該少なくとも1つの第2ビデオを特徴抽出モデルに入力し、特徴抽出モデルを介して、注意力メカニズムに基づき複数の第1ビデオフレーム及び複数の第2ビデオフレームをコーディングして、当該複数の第1ビデオのビデオフレーム特徴及び複数の第2ビデオフレームのビデオフレーム特徴を得るが、複数の第1ビデオフレームは第1ビデオのビデオフレームであり、複数の第2ビデオフレームは少なくとも1つの第2ビデオのビデオフレームであり、当該特徴抽出モデルを介して取得されるビデオフレーム特徴も対応するビデオフレームの意味特徴である。この種の実施形態において、当該特徴抽出モデルは意味特徴エンコーダ、例えば、Transformerエンコーダである。
【0049】
以下においては、サーバが複数の第1ビデオに対して特徴抽出を実施する方法について説明する。サーバが当該第1ビデオの複数の第1ビデオフレームを特徴抽出モデルに入力し、当該特徴抽出モデルを介して、当該複数の第1ビデオフレームに対してコード埋込を実施して、複数の埋込ベクトルを得るが、1つの埋込ベクトルは1つの第1ビデオフレームに対応しており、埋込ベクトルは第1ビデオにおける第1ビデオフレームの位置及び第1ビデオフレームの内容を表すために用いられる。サーバは複数の埋込ベクトルを特徴抽出モデルに入力し、特徴抽出モデルの3つの線形変換マトリクスを介して、複数の埋込ベクトルを線形変換して、各第1ビデオフレームに対応したクエリ(Query)ベクトル、キー(Key)ベクトル及びバリュー(Value)ベクトルを得る。サーバが特徴抽出モデルを介して、複数の第1ビデオフレームに対応してクエリベクトル及びキーベクトルに基づき、複数の第1ビデオフレームの注意力重みを取得する。サーバが特徴抽出モデルを介して、各第1ビデオフレームの注意力重み及び各第1ビデオフレームのバリューベクトルに基づき、各第1ビデオフレームの注意力コーディングベクトルを得るが、注意力コーディングベクトルも第1ビデオフレームのビデオフレーム特徴である。
【0050】
例えば、サーバが特徴抽出モデルを介して、各埋込ベクトルをそれぞれ3つの線形変換マトリクスと乗算して、各第1ビデオフレームにそれぞれ対応するクエリベクトル、キーベクトル及びバリューベクトルを得る。複数の第1ビデオフレーム内の第1の第1ビデオフレームに対して、サーバが特徴抽出モデルを介して、第1の第1ビデオフレームのクエリベクトルと複数の第1ビデオフレームのキーベクトルとに基づき、複数の第1ビデオフレームの第1の第1ビデオフレームとの間における複数の注意力重みを決定する。複数の第1ビデオフレーム内の第1の第1ビデオフレームに対して、サーバが特徴抽出モデルを介して、複数の第1ビデオフレームの第1の第1ビデオフレームに対する注意力重みを、複数の第1ビデオフレームのバリューベクトルと重み付き加算を実施して、第1の第1ビデオフレームの注意力コーディングベクトルを得るが、それも第1の第1ビデオフレームのビデオフレーム特徴である。
【0051】
上記の例1、例2では、それぞれ当該特徴抽出モデルでビデオフレームの下層特徴及び意味特徴を抽出する場合を例にして説明しているが、その他可能な実施形態において、サーバは更に当該特徴抽出モデルを介してビデオフレームの下層特徴及び意味特徴を同時に取得することもでき、以下に例3として説明する。
【0052】
例3、サーバが当該第1ビデオ及び当該少なくとも1つの第2ビデオを特徴抽出モデルに入力し、特徴抽出モデルを介して複数の第1ビデオフレーム及び複数の第2ビデオフレームに対して畳み込み及びプーリングを実施して、当該複数の第1ビデオフレームの下層特徴及び複数の第2ビデオフレームの下層特徴を得るが、複数の第1ビデオフレームは第1ビデオのビデオフレームであり、複数の第2ビデオフレームは少なくとも1つの第2ビデオのビデオフレームである。サーバが当該特徴抽出モデルを介して、注意力メカニズムに基づき複数の第1ビデオフレーム及び複数の第2ビデオフレームをコーディングして、当該複数の第1ビデオフレームの意味特徴及び複数の第2ビデオフレームの意味特徴を得る。サーバが各第1ビデオフレームの下層特徴及び意味特徴を融合して、各第1ビデオフレームのビデオフレーム特徴を得る。サーバが各第2ビデオフレームの下層特徴及び意味特徴を融合して、各第2ビデオフレームのビデオフレーム特徴を得る。
【0053】
例を挙げると、当該特徴抽出モデルには第1サブモデル及び第2サブモデルが含まれ、当該第1サブモデルはビデオフレームの下層特徴を抽出するために用いられ、当該第2サブモデルはビデオフレームの意味特徴を抽出するために用いられる。サーバは当該第1ビデオ及び当該少なくとも1つの第2ビデオを特徴抽出モデルに入力した後、当該第1サブモデルを介して当該複数の第1ビデオフレームの下層特徴及び複数の第2ビデオフレームの下層特徴を取得し、第2サブモデルを介して当該複数の第1ビデオフレームの意味特徴及び複数の第2ビデオフレームの意味特徴を取得する。サーバが各ビデオフレームの下層特徴及び意味特徴を融合する場合は、重み付き加算方式を採用することができ、重み付き加算の重みは技術者が実際の状況に応じて設定し、例えば0.5に設定できるが、本願実施例ではそれを限定しない。サーバが当該第1サブモデル及び当該第2サブモデルを介してビデオフレームの下層特徴及び意味特徴を取得する方法は、それぞれ上記例1及び例2と同様であるため、ここでは詳述しない。
【0054】
なお、上記は特徴抽出モデルによりビデオフレームの下層特徴及び意味特徴を抽出する場合を例として説明しているが、科学技術の発展に伴い、サーバは更にその他構造の特徴抽出モデルを採用してビデオフレーム特徴を抽出することができ、本願実施例ではそれを限定しない。
【0055】
いくつかの実施例では、第1ビデオ及び少なくとも1つの第2ビデオは同一のビデオ集合内に属するビデオであり、第1ビデオは目標ビデオクリップ決定対象のビデオであり、当該少なくとも1つの第2ビデオは当該ビデオ集合における当該第1ビデオ以外のすべてのビデオであるか、または、当該少なくとも1つの第2ビデオは当該ビデオ集合から抽出されたビデオであり、抽出時に当該第1ビデオは遮蔽されている。当該少なくとも1つの第2ビデオが当該ビデオ集合から抽出されるビデオである場合、サーバは当該ビデオ集合内からランダムに目標ビデオ数量の第2ビデオを抽出し、抽出過程において、当該第1ビデオは遮蔽される、つまり抽出された目標ビデオ数量の第2ビデオに当該第1ビデオは含まれず、当該目標ビデオ数量は技術者が実際の状況に応じて設定し、本願実施例ではそれを限定しない。サーバは当該第1ビデオ及び当該少なくとも1つの第2ビデオによりそれぞれ少なくとも1つのビデオ対を構成し、各ビデオ対には当該第1ビデオ及び当該少なくとも1つの第2ビデオのうちの1つの第2ビデオが含まれる。
【0056】
例えば、当該ビデオ集合に46個のビデオが含まれる場合、各第1ビデオiに対して、サーバは当該ビデオ集合の余剰のビデオからランダムに10個の第2ビデオrを抽出して、当該第1ビデオi及び10個の第2ビデオrによりそれぞれ10個のビデオ対を構成し、後続の処理過程において、ビデオ対を単位として実施し、10がつまり目標ビデオの数量である。
【0057】
また、いくつかの実施例では、サーバは当該第1ビデオ及び当該少なくとも1つの第2ビデオに対して特徴抽出を実施する前に、当該第1ビデオ及び当該少なくとも1つの第2ビデオに対してフレーム抽出を実施して、当該第1ビデオの複数の第1ビデオフレーム及び各第2ビデオの複数の第2ビデオフレームを得る。ビデオに対してフレーム抽出を実施することにより、後続の特徴抽出過程における演算量を低減することができ、特徴抽出の効率を高めることができる。
【0058】
第1ビデオを例にすると、サーバは目標間隔で第1ビデオからフレーム抽出を実施して、当該第1ビデオの複数の第1ビデオフレームを得るが、目標間隔とは、第1ビデオの目標再生時間長、例えば1sを指すか、または、当該目標間隔とは、目標数量のフレーム間隔、例えば25フレームを指す。当該目標間隔が第1ビデオの目標再生時間長を指す場合、サーバは目標再生時間長ごとに当該第1ビデオから1フレームを抽出して第1ビデオフレームとする。第1ビデオが6s、目標再生時間長が1sの場合、サーバは当該第1ビデオから6つの第1ビデオフレームを抽出する。当該目標時間間隔が目標数量のフレーム間隔を指す場合、サーバは目標数量のビデオフレームごとに当該第1ビデオから抽出を実施して、複数の第1ビデオフレームを得る。第1ビデオには100個のビデオフレームが含まれ、目標数量が10である場合、サーバは当該第1ビデオから10個の第1ビデオフレームを抽出する。例えば、図4を参照すると、サーバは目標間隔で第1ビデオ400からフレーム抽出を実施して、当該第1ビデオの複数の第1ビデオフレーム401を得る。サーバは当該第1ビデオの複数の第1ビデオフレーム401を特徴抽出モデル402に入力し、当該特徴抽出モデル402を介して当該複数の第1ビデオフレーム401のビデオフレーム特徴403を出力する。
【0059】
なお、上記ステップ301は選択可能なステップであり、サーバが繰り上げて実行することができ、サーバが、本願実施例が提供する技術案を実行する際に実行することもでき、本願実施例ではそれを限定しない。
【0060】
302、サーバが第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定し、当該ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、当該第1ビデオフレームは当該第1ビデオに属し、当該第2ビデオフレームは当該少なくとも1つの第2ビデオに属している。
【0061】
1つの可能な実施形態において、サーバが複数の第1ビデオのビデオフレーム特徴と複数の第2ビデオフレームのビデオフレーム特徴との間の類似度を決定する。サーバは類似度が目標条件に合致した第1ビデオフレーム及び第2ビデオフレームを1つのビデオフレーム対として決定し、各ビデオフレーム対には1つの第1ビデオフレーム及び1つの第2ビデオフレームが含まれる。
【0062】
ビデオフレーム特徴間の類似度はユークリッド距離またはコサイン類似度により決定されるが、本願実施例ではそれを限定しない。
【0063】
この種の実施形態において、サーバは第1ビデオフレームと第2ビデオフレームとの間の類似度に基づき複数のビデオフレーム対を決定するが、ビデオフレーム対内のビデオフレームは異なるビデオで類似度が比較的高いビデオフレームであるため、後続においてビデオフレーム対に基づき類似したビデオクリップを速やかに決定して、最終的に目標ビデオクリップを決定することができるため、効率が比較的高い。
【0064】
類似度がユークリッド距離である場合、サーバは複数の第1ビデオフレームのビデオフレーム特徴と複数の第2ビデオフレームのビデオフレーム特徴との間のユークリッド距離を決定する。サーバはユークリッド距離が距離閾値以下である第1ビデオフレーム及び第2ビデオフレームを1つのビデオフレーム対として決定する。距離閾値は技術者が実際の状況に応じて設定し、本願実施例ではそれを限定しない。距離閾値が0.5の場合、任意の1つの第1ビデオフレームのビデオフレーム特徴と任意の1つの第2ビデオフレームのビデオフレーム特徴との間のユークリッド距離が0.5以下であれば、サーバは当該第1ビデオフレーム及び当該第2ビデオフレームを1つのビデオフレーム対として決定する。
【0065】
類似度がコサイン類似度である場合、サーバは複数の第1ビデオフレームのビデオフレーム特徴と複数の第2ビデオフレームのビデオフレーム特徴との間のコサイン類似度を決定する。サーバはコサイン類似度が類似度閾値以上である第1ビデオフレーム及び第2ビデオフレームをビデオフレーム対として決定する。類似度閾値が0.8の場合、任意の1つの第1ビデオフレームのビデオフレーム特徴と任意の1つの第2ビデオフレームのビデオフレーム特徴との間のコサイン類似度が0.8以上であれば、サーバは当該第1ビデオフレーム及び当該第2ビデオフレームを1つのビデオフレーム対として決定する。
【0066】
いくつかの実施例では、サーバが第1ビデオ及び少なくとも1つの第2ビデオにより少なくとも1つのビデオ対を構成する場合、サーバはビデオ対を単位としてビデオ対内の第1ビデオのビデオフレーム特徴と第2ビデオのビデオフレーム特徴との間の類似度を決定して、ビデオ対における複数のビデオフレーム対を決定する。例えば、ビデオ対(i,r)に対して述べると、サーバは第1ビデオiのビデオフレーム特徴と第2ビデオrのビデオフレーム特徴との間の類似度を決定する。サーバは類似度が目標条件に合致した第1ビデオフレーム及び第2ビデオフレームを1つのビデオフレーム対として決定する。つまり、第1ビデオi内の各第1ビデオフレームjに対して、第1ビデオフレームjと第2ビデオr内の各第2ビデオフレームのビデオフレーム特徴との間のユークリッド距離を決定する。サーバはユークリッド距離がt未満の第2ビデオフレームを第1ビデオフレームjの類似フレームとし、当該第1ビデオフレームjと当該類似フレームとにより1つのビデオフレーム対を構成する。サーバは取得した第1ビデオフレームjの類似フレームを第1リストに記憶し、当該第1リストは類似フレームリスト(sim-id-list)とも称される。いくつかの実施例では、サーバはフレームの識別子を当該第1リストに記憶し、フレームの識別子はフレームが属するビデオ及びビデオ内におけるフレームの位置を示すために用いられる。例えば、j=1の第1ビデオフレームに対して、類似フレームリストsim-id-listが[1,2,3]であれば、第2ビデオrの第1,2,3秒に対応するビデオフレームが類似フレームであることを示しており、j=1は第1ビデオ内の第1秒に対応するビデオフレームを示している。
【0067】
いくつかの実施例では、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対が決定されるが、それには、ビデオ集合を取得するとともに、前記ビデオ集合内の決定対象目標ビデオクリップのビデオを第1ビデオとすることと、前記ビデオ集合内の、前記第1ビデオとは異なる少なくとも1つのビデオを、少なくとも1つの第2ビデオとすることと、前記第1ビデオ及び前記少なくとも1つの第2ビデオによりそれぞれ少なくとも1つのビデオ対を構成することと、前記ビデオ対には前記第1ビデオ及び前記少なくとも1つの第2ビデオのうちの1つの第2ビデオが含まれることと、同一ビデオ対内の第1ビデオ及び第2ビデオにビデオフレーム特徴の類似度計算を実施して、類似度計算結果を得ることと、前記類似度計算結果に応じて、同一のビデオ対内で類似度が類似度条件に合致している第1ビデオフレーム及び第2ビデオフレームを一対のビデオフレーム対とすることと、前記第1ビデオフレームは前記第1ビデオに属しており、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属していることと、が含まれる。
【0068】
選択可能として、ステップ302の後、決定されたビデオフレーム対の数量が0である場合、サーバは当該第1ビデオ内に目標ビデオクリップは存在していないと決定する。
【0069】
303、サーバが複数のビデオフレーム対の出現時間差を決定する。
【0070】
1つの可能な実施形態において、サーバは、当該複数のビデオフレーム対内の第1ビデオフレームの第1ビデオにおける出現時間と当該ビデオフレーム対内の第2ビデオフレームの第2ビデオにおける出現時間とを相互に減算して、当該複数のビデオフレーム対の出現時間差を得る。いくつかの実施例では、サーバは当該複数のビデオフレーム対の出現時間差を第2リストに記憶し、当該第2リストは出現時間差リスト(diff-time-list)とも称され、後続の処理過程において、直接当該第2リストから対応する出現時間差を活用することができる。例えば、j=1の第1ビデオフレームに対して、類似フレームリストsim-id-listが[1,2,3]であれば、対応する出現時間差リストdiff-time-listは[0,1,2]である。
【0071】
304、サーバが当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対を複数のビデオフレーム群に区分し、同一の当該ビデオフレーム群内のビデオフレーム対は同一の出現時間差に対応しており、当該出現時間差とは、当該ビデオフレーム対内の2つのビデオフレームのビデオにおける出現時間の間の数値差を指す。
【0072】
1つの可能な実施形態において、複数のビデオフレーム対内の任意の1つのビデオフレーム対に対して、サーバはビデオフレーム対における第1ビデオフレームの第1出現時間及び第2ビデオフレームの第2出現時間を決定し、第1出現時間とは、第1ビデオフレームが第1ビデオに出現する時間を指し、第2出現時間とは、第2ビデオフレームが第2ビデオに出現する時間を指し、サーバはビデオフレーム対内の第1ビデオフレームの第1出現時間から第2ビデオフレームの第2出現時間を減じて、ビデオフレーム対の出現時間差を得て、サーバは出現時間差が同一のビデオフレーム対を1つの初期ビデオフレーム群として区分するとともに、初期ビデオフレーム群内のビデオフレーム対の出現時間差を、初期ビデオフレーム群に対応する出現時間差とする。サーバは複数の初期ビデオフレーム群に対応する出現時間差に基づき、当該複数の初期ビデオフレーム群を融合して、当該複数のビデオフレーム群を得る。
【0073】
初期ビデオフレーム群には複数の出現時間差が同一のビデオフレーム対が含まれ、異なる初期ビデオフレーム群は異なる出現時間差に対応しており、初期ビデオフレーム群に対応する出現時間差とは、当該初期ビデオフレーム群におけるビデオフレーム対の出現時間差を指す。
【0074】
1つの可能な実施形態において、複数のビデオフレーム対の出現時間差に基づき、複数のビデオフレーム対を複数のビデオフレーム群に区分する前に、上記方法は、更に、複数のビデオフレーム対のうちの任意の1つのビデオフレーム対に対して、ビデオフレーム対のうちの第1ビデオフレームの第1出現時間からビデオフレーム対のうちの第2ビデオフレームの第2出現時間を減じて、ビデオフレーム対の出現時間差を得ることを含み、第1出現時間とは、第1ビデオフレームが第1ビデオに出現する時間を指し、第2出現時間とは、第2ビデオフレームが第2ビデオに出現する時間を指す。
【0075】
この種の実施形態において、出現時間差が同一のビデオフレーム対のうちのビデオフレームがおそらく完全なビデオクリップを構成し、ビデオフレーム対をビデオフレーム群に統合することにより、後続過程における類似したビデオクリップの決定が簡便になる。
【0076】
例を挙げると、サーバは所定のコンフィギュレーション情報を取得するとともに、コンフィギュレーション情報内の目標順序に応じて当該複数の初期ビデオフレーム群をソートし、複数の候補ビデオフレーム群における任意の2つの隣接する候補ビデオフレーム群に対して、2つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合は、2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群として融合し、マッチング時間差とは、2つの隣接する候補ビデオフレーム群に対応する出現時間差の間の数値差を指す。
【0077】
サーバは所定のコンフィギュレーション情報内の目標順序に応じて複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。当該複数の候補ビデオフレーム群における任意の2つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合、サーバは当該2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群として融合し、当該マッチング時間差とは、当該2つの隣接する候補ビデオフレーム群に対応する出現時間差の間の数値差を指す。
【0078】
上記例示内で言及されている技術過程をより明確に説明するため、以下においては、2つの部分に分けて上記例示について更に説明する。
【0079】
第1部分、サーバは目標順序に応じて当該複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。
【0080】
1つの可能な実施形態において、サーバは対応する出現時間差の小から大への順序に応じて当該複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。この場合、目標順序とは、出現時間差の大から小への順序を指す。いくつかの実施例では、任意の1つの初期ビデオフレーム群において、サーバはビデオフレーム対における第1ビデオフレームの第1ビデオの出現時間の前後に応じてソートする。
【0081】
この種の実施形態において、サーバは大から小への順序に応じて当該複数の初期ビデオフレーム群をソートし、得られた複数の候補ビデオフレーム群において、任意の2つの候補ビデオフレーム群に対応する出現時間差がいずれも比較的近接していると、後続の融合過程が簡便になる。
【0082】
例を挙げると、複数の初期ビデオフレーム群が[3,5]、[11,12]、[2,4]、[4,6]、[6,9]、[7,10]、[10,11]である場合、各括弧は1つのビデオフレーム対[i,r]を表しており、括弧内の前の数字は第1ビデオフレームiの識別子であり、第2の数字は第2ビデオフレームrの識別子であり、当該識別子はビデオフレームのビデオにおける出現時間である。ビデオフレーム対[3,5]について述べると、出現時間差は5-3=2であり、ビデオフレーム対[6,9]について述べると、出現時間差は9-6=3である。サーバは対応する出現時間差の小から大への順序に応じて当該複数の初期ビデオフレーム群をソートし、複数の候補ビデオフレーム群[10,11]、[11,12]、[2,4]、[3,5]、[4,6]、[6,9]、[7,10]が得られる。
【0083】
1つの可能な実施形態において、サーバは対応する出現時間差の小から大への順序に応じて当該複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得る。この場合、目標順序とは、出現時間差の小から大への順序を指す。いくつかの実施例では、任意の1つの初期ビデオフレーム群において、サーバはビデオフレーム対における第1ビデオフレームの第1ビデオの出現時間の前後に応じてソートする。
【0084】
この種の実施形態において、サーバは小から大への順序に応じて当該複数の初期ビデオフレーム群をソートし、得られた複数の候補ビデオフレーム群において、任意の2つの候補ビデオフレーム群に対応する出現時間差がいずれも比較的近接していると、後続の融合過程が簡便になる。
【0085】
いくつかの実施例では、第1リストを採用してビデオフレーム対を記憶し、第2リストを採用して出現差を記憶する場合、サーバは第1リスト及び第2リストに基づき第3リストを生成し、当該第3リストはビデオフレーム対及び出現差を記憶するために用いられ、当該第3リストは複数の初期ビデオフレーム群を記憶することができ、例えば、当該第3リストの形式は第3リスト(match-dt-list):{d:{count,start-id,match-id-list},…}であり、式中、dは出現時間差であり、d:{count,start-id,match-id-list}は出現時間差がdである初期ビデオフレーム群を示しており、countは当該初期ビデオフレーム群におけるビデオフレーム対の数量であり、start-idは第1ビデオフレームの最少識別子であり、match-id-listはビデオフレーム対である。
【0086】
第2部分、当該複数の候補ビデオフレーム群における任意の2つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合、サーバは当該2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群として融合する。
【0087】
1つの可能な実施形態において、当該2つの隣接する候補ビデオフレーム群には第1候補ビデオフレーム群及び第2候補ビデオフレーム群が含まれ、当該第1候補ビデオフレーム群に対応する出現時間差と当該第2候補ビデオフレーム群に対応する出現時間差との間のマッチング時間差がマッチング差閾値以下である場合、サーバは当該第1候補ビデオフレーム群内のビデオフレーム対を当該第2候補ビデオフレーム群に追加して、当該ビデオフレーム群を得る。
【0088】
当該複数の候補ビデオフレーム群を複数のビデオフレーム群に融合することには、複数の反復過程が含まれており、当該第1候補ビデオフレーム群と当該第2候補ビデオフレーム群とを1つのビデオフレーム群に融合した後、サーバは、更に、新たに融合した当該ビデオフレーム群と次の候補ビデオフレーム群との間のマッチング時間差を決定し、当該マッチング時間差がマッチング時間差条件に合致している場合は当該新たに融合された当該ビデオフレーム群と次の候補ビデオフレーム群とを再度融合することができ、融合過程は当該第1候補ビデオフレーム群と当該第2候補ビデオフレーム群とを融合する過程と同一の発明構想に属しているため、その実現過程については詳述しない。当然、当該マッチング時間差がマッチング時間差条件に合致していない場合、サーバは、更に、当該次の候補ビデオフレーム群とその次の候補ビデオフレーム群との間のマッチング時間差を決定し、マッチング時間差に基づき、更なる処理を実施する。マッチング差閾値は技術者が実際の状況に応じて設定するため、本願実施例ではそれを限定しない。
【0089】
この種の実施形態において、出現時間差に基づき候補ビデオフレーム群を融合するため、候補ビデオフレーム群の数量を低減することができ、後続処理の演算量は減少し、演算効率が向上する。
【0090】
1つの可能な実施形態において、2つの隣接する候補ビデオフレーム群には第1候補ビデオフレーム群及び第2候補ビデオフレーム群が含まれ、2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群に融合することは、第1候補ビデオフレーム群と第2ビデオフレーム群との間のマッチング時間差がマッチング差閾値以下である場合は、第1候補ビデオフレーム群内のビデオフレーム対を第2候補ビデオフレーム群に追加することと、第2候補ビデオフレーム群に対応する出現時間差に基づき、目標ビデオフレームを参照第2ビデオフレームに置き換えてビデオフレーム群を得ることと、を含み、目標第2ビデオフレームは新たに第2候補ビデオフレーム群内に追加された第2ビデオフレームであり、参照第2ビデオフレームは第2ビデオの、目標第1ビデオフレームとの間の出現時間差が目標数値差である第2ビデオフレームであり、目標数値差は第2候補ビデオフレーム群に対応する出現時間差であり、目標第1ビデオフレームは目標第2ビデオフレームが属するビデオフレーム対のうちの第1ビデオフレームである。
【0091】
例を挙げると、サーバは当該第1候補ビデオフレーム群と当該第2候補ビデオフレーム群とのマッチング時間差を決定する。当該マッチング時間差がマッチング差閾値以下である場合、サーバは当該第2候補ビデオフレーム群に対応する出現時間差に基づき、目標第2ビデオフレームを参照第2ビデオフレームに置き換えて当該ビデオフレーム群を得て、当該目標第2ビデオフレームは新たに当該第2候補ビデオフレーム群内に追加された第2ビデオフレームであり、当該参照第2ビデオフレームは当該第2ビデオの、目標第1ビデオフレームとの間の出現時間差が当該第2候補ビデオフレーム群に対応する出現時間差である第2ビデオフレームであり、当該目標第1ビデオフレームは当該目標第2ビデオフレームが属するビデオフレーム対のうちの第1ビデオフレームである。
【0092】
この種の実施形態において、第1候補ビデオフレーム群内のビデオフレーム対を第2候補ビデオフレーム群に追加した後、サーバは、更に、第2候補ビデオフレーム群の出現時間差に応じて新たに第2候補ビデオフレーム群内に追加されたビデオフレームを調整して、調整後のビデオフレーム対の出現時間差を当該第2候補ビデオフレーム群と同一にさせて、ビデオフレーム対の出現時間差とビデオフレーム群の出現差との間の一致性を保持する。
【0093】
より明確に説明するため、以下においては第1候補ビデオフレーム群に対応する出現時間差が3であり、[6,9]、[7,10]の2つのビデオフレーム対を含み、第2候補ビデオフレーム群に対応する出現時間差が2であり、[2,4]、[3,5]、[4,6]の3つのビデオフレーム対を含み、マッチング差閾値が3である場合を例にして説明する。第1候補ビデオフレーム群と第2候補ビデオフレーム群との間のマッチング時間差が1であるため、サーバは当該マッチング時間差が当該マッチング差閾値未満であると決定し、当該第1候補ビデオフレーム群と当該第2候補ビデオフレーム群とを併合しなければならない。サーバは第1候補ビデオフレーム群内の2つのビデオフレーム対[6,9]及び[7,10]を第2候補ビデオフレーム群に追加し、当該第2候補ビデオフレーム群は[2,4]、[3,5]、[4,6]、[6,9]、[7,10]に変化し、第2候補ビデオフレーム群に対応する出現時間差は2であるため、サーバは当該出現時間差2に基づき、第2候補ビデオフレーム群内に追加された2つのビデオフレーム対[6,9]及び[7,10]内の第2ビデオフレームを調整して、2つの新たなビデオフレーム対[6,8]及び[7,9]を得る。新たに第2候補ビデオフレーム群に追加された第2ビデオフレームを調整した後、当該第2候補ビデオフレーム群は[2,4]、[3,5]、[4,6]、[6,8]、[7,9]に変化し、各ビデオフレーム対の出現時間差はいずれも2である。
【0094】
なお、上記ではサーバが第1候補ビデオフレーム群内のビデオフレームを第2候補ビデオフレーム群内に追加する場合を例にして説明しているが、その他可能な実施形態において、サーバは第2候補ビデオフレーム内のビデオフレーム対を第1候補ビデオフレーム群に追加することもできる。
【0095】
いくつかの実施例では、サーバは第1候補ビデオフレーム群及び第2候補ビデオフレーム群内のビデオフレーム対の数量に基づき、第1候補ビデオフレーム群内のビデオフレーム対を第2候補ビデオフレーム群に追加するのか、それとも第2候補ビデオフレーム群内のビデオフレーム対を第1候補ビデオフレーム群に追加するのかを決定する。例えば、第1候補ビデオフレーム群内のビデオフレーム対の数量が第2候補ビデオフレーム群内のビデオフレーム対の数量よりも多い場合、サーバは当該第2候補ビデオフレーム群内のビデオフレーム対を当該第1候補ビデオフレーム群に追加する。第2候補ビデオフレーム群内のビデオフレーム対の数量が第1候補ビデオフレーム群内のビデオフレーム対の数量よりも多い場合、サーバは当該第1候補ビデオフレーム群内のビデオフレーム対を当該第2候補ビデオフレーム群に追加する。第2候補ビデオフレーム群内のビデオフレーム対の数量が第1候補ビデオフレーム群内のビデオフレーム対の数量と等しい場合、サーバは当該第1候補ビデオフレーム群内のビデオフレーム対を当該第2候補ビデオフレーム群に追加する。または、第2補ビデオフレーム群内のビデオフレーム対の数量が第1候補ビデオフレーム群内のビデオフレーム対の数量と等しい場合、サーバは当該第2候補ビデオフレーム群内のビデオフレーム対を当該第1候補ビデオフレーム群に追加する。
【0096】
この場合、サーバは候補ビデオフレーム群内のビデオフレーム対の数量に応じて、候補ビデオフレーム群を併合する方式を決定し、含まれるビデオフレームの数量が少ない方の候補ビデオフレーム群を、含まれるビデオフレームの数量が多い方のビデオフレーム群に追加するため、演算量は減少し、効率は向上する。
【0097】
305、当該複数のビデオフレーム群のうちの任意の1つのビデオフレーム群に対して、サーバが当該ビデオフレーム群内のビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間に応じて、当該ビデオフレーム群内のビデオフレーム対の第1ビデオフレームを1つの候補ビデオクリップに融合する。
【0098】
1つの可能な実施形態において、サーバは当該ビデオフレーム群内の任意の2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間を比較して、2つの隣接するビデオフレーム対の出現時間差を得る。当該2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間の間の数値差が出現時間条件に合致している場合、サーバは当該2つの隣接するビデオフレーム対を一時フレームリストに追加する。当該2つの隣接するビデオフレーム対の第1ビデオフレームの当該第ビデオにおける出現時間の間の数値差が出現時間条件に合致していない場合、サーバは当該一時フレームリスト内のビデオフレームを1つの参照ビデオクリップに融合する。サーバは複数の参照ビデオクリップに基づき、当該少なくとも1つの候補ビデオクリップを決定する。
【0099】
一時フレームリストは出現時間の間の数値差が出現時間条件に合致しているビデオフレーム対を記憶するために用いられる。いくつかの実施例では、出現時間の間の数値差が出現時間条件に合致しているとは、出現時間の間の数値差が出現時間差閾値以下であることを指し、出現時間差閾値は技術者が実際の状況に応じて設定し、例えば8sと設定するため、本願実施例ではそれを限定しない。
【0100】
上記実施形態をより明確に説明するため、以下において、4つの部分に分けて上記実施形態について説明する。
【0101】
第1部分、サーバは当該ビデオフレーム群内の任意の2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間を比較する。
【0102】
いくつかの実施例では、サーバが第1ビデオフレームの第1ビデオにける出現時間を第1ビデオフレームの識別子とし、第2ビデオフレームの第2ビデオにおける出現時間を第2ビデオフレームの識別子とし、この場合、サーバは任意の2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間を比較する際、この2つの第1ビデオフレームの識別子を比較するだけでよい。例えば、当該ビデオフレーム群にビデオフレーム対[2,4]、[3,5]、[4,6]、[6,8]、[7,9]が含まれる場合、サーバはビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を順次比較する。最初の比較過程において、サーバは第1ビデオフレーム対[2,4]の第1ビデオフレーム2と第2ビデオフレーム対[3,5]の第1ビデオフレーム3との第1ビデオにおける出現時間を比較する。
【0103】
第2部分、当該2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間の間の数値差が出現時間条件に合致している場合、サーバは当該2つの隣接するビデオフレーム対を一時フレームリストに追加する。
【0104】
1つの可能な実施形態において、当該2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間の間の数値差が出現時間差閾値以下である場合、サーバは当該2つの隣接するビデオフレーム対を一時フレームリストに追加する。例えば、更に、当該ビデオフレーム群のビデオフレーム対[2,4]、[3,5]、[4,6]、[6,8]、[7,9]を例として、ビデオフレーム対[2,4]及び[3,5]について述べると、出現時間差閾値が3である場合、[2,4]及び[3,5]のうちの第1ビデオフレームの第1ビデオにおける出現時間差は3-2=1であるため、サーバは当該2つのビデオフレーム対を一時フレームリスト(Tmplist)に追加し、Tmplist=[[2,4]、[3,5]]となる。
【0105】
サーバがビデオフレーム対を一時フレームリストに追加することを決定することには複数の反復過程が含まれ、任意の1つの反復過程において、サーバは現在のビデオフレーム対の第1ビデオフレーム及び前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間差を比較し、ここで現在のビデオフレーム対とは、現在処理中のビデオフレーム対を指し、前回のビデオフレーム対とは、前回の反復過程において処理したビデオフレーム対を指す。例えば、サーバがビデオフレーム対[2,4]及び[3,5]を一時フレームリストに追加した後、更にビデオフレーム対[3,5]及び[4,6]の第1ビデオフレームの第1ビデオにおける出現時間差と出現時間差閾値との間の関係を決定し、[3,5]及び[4,6]のうちの第1ビデオフレームの第1ビデオにおける出現時間差は4-3=1であるため、サーバはビデオフレーム対[4,6]を一時フレームリスト(Tmplist)に追加し、Tmplist=[[2,4]、[3,5]、[4,6]]となる。複数の反復過程により一時フレームリストTmplist=[[2,4]、[3,5]、[4,6]、[6,8]、[7,9]]が得られる。
【0106】
第3部分、当該2つの隣接するビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間の間の数値差が出現時間条件に合致していない場合、サーバは当該一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合する。
【0107】
参照ビデオクリップには第1サブクリップ及び第2サブクリップが含まれ、第1サブクリップはビデオフレーム対のうちの第1ビデオフレームにより構成され、第2サブクリップはビデオフレーム対のうちの第2ビデオフレームにより構成される。
【0108】
1つの可能な実施形態において、当該2つの隣接するビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間の間の数値差が出現時間差閾値よりも大きい場合、サーバは当該一時フレームリスト内の第1ビデオフレームを第1サブクリップに融合し、当該一時フレームリスト内の第2ビデオフレームを第2サブクリップに融合し、当該第1サブクリップ及び当該第2サブクリップが当該参照ビデオクリップを構成する。ビデオフレーム対のうちの第1ビデオフレーム及び第2ビデオフレームは類似度が比較的高いビデオフレームであるため、第1サブクリップ及び第2サブクリップも類似度が比較的高いクリップである。例えば、図5を参照すると、そこには第1サブクリップ501及び第2サブクリップ502の形式が示されており、第1サブクリップ501冒頭の第1のビデオフレームと第2サブクリップ502冒頭の第1のビデオフレームとが1つのビデオフレーム対を構成し、第1サブクリップ501末尾の第1のビデオフレームと第2サブクリップ502末尾の第1のビデオフレームとが別のビデオフレーム対を構成する。いくつかの実施例では、1つの参照ビデオクリップ内の第1サブクリップ及び第2サブクリップはマッチングセクションとも称される。
【0109】
例えば、当該2つの隣接するビデオフレーム対が[9,11]及び[2,4]である場合、当該2つのビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間の間の数値差は9-2=7であるため、サーバは一時フレームリスト内の第1ビデオフレームを1つの参照ビデオクリップに融合する。例えば、一時フレームリストTmplist=[[2,4]、[3,5]、[4,6]、[6,8]、[7,9]]である場合、サーバは当該一時フレームリスト内の第1ビデオフレーム[2, ]、[3, ]、[4, ]、[6, ]、[7, ]を第1サブクリップ(2,7)に融合し、当該一時フレームリスト内の第2ビデオフレーム[,4]、[,5]、[,6]、[,8]、[,9]を第2サブクリップ(4,9)に融合し、当該第1サブクリップ(2,7)及び当該第2サブクリップ(4,9)が当該参照ビデオクリップ(2,7,4,9)を構成し、当該参照ビデオクリップのフォーマットは(src-startTime,src-endTime,ref-startTime,ref-endTime)であり、式中、src-startTimeは、第1サブクリップの冒頭、つまり一時フレームリストにおけるシリアル番号が最小の第1ビデオフレームを指し、src-endTimeは、第1サブクリップの末尾、つまり一時フレームリストにおけるシリアル番号が最大の第1ビデオフレームを指し、ref-startTimeは、第2サブクリップの冒頭、つまり一時フレームリストにおけるシリアル番号が最小の第2ビデオフレームを指し、ref-endTimeは、第2サブクリップの末尾、つまり一時フレームリストにおけるシリアル番号が最大の第2ビデオフレームを指し、シリアル番号とは、ビデオフレームの識別子を指し、ビデオにおけるビデオフレームの位置を示しており、シリアル番号が小さいほど、ビデオにおけるビデオフレームの位置が前寄りであることを示しており、シリアル番号が小さいほど、ビデオにおけるビデオフレームの位置が後寄りであることを示している。いくつかの実施例では、サーバは参照ビデオクリップをマッチングセクションリストmatch-duration-list内に記憶する。ビデオフレーム対を決定する際には、第1ビデオ及び第2ビデオのすべてのビデオフレームをトラバースするため、あるビデオフレームが複数のビデオフレームと類似する状況が出現し、match-duration-list内に存在する2つの参照ビデオクリップに時間の重畳が出現する可能性がある。
【0110】
いくつかの実施例ではは、ビデオフレーム群内のビデオフレームをトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定し、現在のビデオフレーム対及び前回のビデオフレーム対はビデオフレーム群における2つの隣接するビデオフレーム対であり、現在のビデオフレーム対及び前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を比較して、第1ビデオフレームの出現時間の数値差を得て、第1ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、現在のビデオフレーム対及び前回のビデオフレーム対を一時フレームリストに追加し、第1ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合するとともに、融合後に一時フレームリストをクリアし、次にトラバースするビデオフレーム対を決定し、次にトラバースするビデオフレーム対を新たな現在のビデオフレーム対として、現在のビデオフレーム対及び前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を比較するステップに戻って、最後にトラバースするビデオフレーム対まで引き続き実行するとともに、一時フレームリスト内にビデオフレーム対を有している場合は、一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、複数の参照ビデオクリップに基づき、少なくとも1つの候補ビデオクリップを決定する。第1ビデオフレームの出現時間の数値差とは、ビデオフレーム群における2つの隣接するビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間の数値差を指す。いくつかの実施例では、当該参照ビデオクリップは、更に、第1サブクリップに対応した出現時間差、第1サブクリップの時間長及び第1サブクリップに含まれるビデオフレームの数量などの情報を携帯することができるため、サーバの活用に便利である。
【0111】
また、上記第3部分で提供される方式以外に、本願実施例では一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合するようにする別の方式を採用した方法も提供されている。
【0112】
1つの可能な実施形態において、現在処理しているビデオフレーム対が当該ビデオフレーム群における最後のビデオフレーム対である場合、サーバはビデオフレーム対を一時フレームリストに追加して、当該一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合する。例えば、当該ビデオフレーム群に[2,4]、[3,5]、[4,6]、[6,8]、[7,9]の5つのビデオフレーム対が含まれ、サーバがビデオフレーム対[7,9]を処理する場合、当該ビデオフレーム対[7,9]は当該ビデオフレーム群における最後のビデオフレーム対であるため、サーバは当該ビデオフレーム対[7,9]を一時フレームリストに追加し、当該一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、融合過程は前記1つの実施形態に対する記述を参照するものとし、ここでは詳述しない。
【0113】
出現時間差が比較的小さいビデオフレームはおそらく1つの相対的に完璧なビデオクリップを構成するため、出現時間差が比較的小さいビデオフレームを融合すると、相対的に完璧な参照ビデオを得ることができ、雑多なビデオフレームにより目標ビデオクリップを決定する場合に比べ、本願実施例は後続において簡便に相対的に完璧な参照ビデオに基づき1つのより完璧な目標ビデオクリップを決定することができる。
【0114】
第4部分、サーバが複数の参照ビデオクリップに基づき、当該少なくとも1つの候補ビデオクリップを決定する。
【0115】
当該複数の参照ビデオクリップには、第1重畳ビデオクリップ及び/または第2重畳ビデオクリップが含まれ、当該第1重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第1参照ビデオクリップに属する参照ビデオクリップを指し、当該第2重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第2参照ビデオクリップと部分的に重畳した参照ビデオクリップを指す。
【0116】
第1重畳ビデオクリップが当該第1参照ビデオクリップに属するということは、第1重畳ビデオクリップの内容が当該第1参照ビデオクリップに完全に包含されているか、または第1参照ビデオクリップが完全に当該第1重畳ビデオクリップを包含していることを指す。
【0117】
上記第4部分の内容をより明確に説明するために、以下において、サーバが複数の参照ビデオクリップから第1重畳ビデオクリップを決定する方法について説明する。
【0118】
1つの可能な実施形態において、サーバは当該複数の参照ビデオクリップ内の第1サブクリップの第1ビデオにおける出現時間に基づき、当該複数の参照ビデオクリップから第1重畳ビデオクリップを決定する。
【0119】
第1サブクリップとはつまり第1ビデオフレームが構成するビデオクリップであり、出現時間には第1サブクリップの第1ビデオにおける開始時間及び終了時間が含まれる。
【0120】
例を挙げると、当該複数の参照ビデオクリップ内の参照ビデオクリップA及び参照ビデオクリップBに対して、サーバは当該参照ビデオクリップAの第1サブクリップの第1ビデオにおける出現時間と当該参照ビデオクリップBの第1サブクリップの第1ビデオにおける出現時間とを比較し、当該参照ビデオクリップBの第1サブクリップの第1ビデオにおける出現時間が、当該参照ビデオクリップAの第1サブクリップの第1ビデオにおける出現時間の部分集合である場合は、当該参照サブクリップBを第1重畳ビデオクリップであると決定する。例えば、図6を参照すると、当該複数の参照ビデオクリップには参照ビデオクリップA及び参照ビデオクリップBが含まれ、サーバは当該参照ビデオクリップAの第1サブクリップmの当該第1ビデオにおける出現時間と参照ビデオクリップBの第1サブクリップnの当該第1ビデオにおける出現時間とを比較する。当該第1サブクリップnの開始時間が第1サブクリップmの後であり、かつ、当該第1サブクリップnの終了時間が第1サブクリップmの前である場合、サーバは参照ビデオクリップBを第1重畳ビデオクリップと決定し、当該参照ビデオクリップAがつまり上記第1参照ビデオクリップである。
【0121】
サーバが複数の参照ビデオクリップから第1重畳ビデオクリップを決定する方法について説明した後、以下において、サーバが複数の参照ビデオクリップから第2重畳ビデオクリップを決定する方法について説明する。
【0122】
1つの可能な実施形態において、サーバは当該複数の参照ビデオクリップ内の第1サブクリップの第1ビデオにおける出現時間に基づき、当該複数の参照ビデオクリップから第2重畳ビデオクリップを決定する。
【0123】
例を挙げると、当該複数の参照ビデオクリップ内の参照ビデオクリップA及び参照ビデオクリップBに対して、サーバは当該参照ビデオクリップAの第1サブクリップの第1ビデオにおける出現時間と当該参照ビデオクリップBの第1サブクリップの第1ビデオにおける出現時間とを比較し、当該参照ビデオクリップBの第1サブクリップの第1ビデオにおける出現時間と当該参照ビデオクリップAの第1サブクリップの第1ビデオにおける出現時間とに積集合が存在している場合は、参照ビデオクリップA及び参照ビデオクリップBのうちの時間長が短い方の参照ビデオクリップを第2重畳ビデオクリップと決定する。例えば、図6を参照すると、当該複数の参照ビデオクリップには参照ビデオクリップA及び参照ビデオクリップBが含まれ、サーバは当該参照ビデオクリップAの第1サブクリップmの当該第1ビデオにおける出現時間と参照ビデオクリップBの第1サブクリップnの当該第1ビデオにおける出現時間とを比較する。当該第1サブクリップnの開始時間が第1サブクリップmの開始時間の後で、終了時間の前であり、かつ、当該第1サブクリップnの終了時間が第1サブクリップmの後であるか、または当該第1サブクリップnの開始時間が第1サブクリップmの前であり、かつ、当該第1サブクリップnの終了時間が第1サブクリップmの終了時間の前で、開始時間の後であり、参照ビデオクリップBの時間長が参照ビデオクリップAよりも小さい場合、サーバは当該参照ビデオクリップBを第2重畳ビデオクリップであると決定し、当該参照ビデオクリップAがつまり上記第2参照ビデオクリップである。
【0124】
サーバが第1重畳ビデオクリップ及び第2重畳ビデオクリップを決定する方法の紹介が完了した後、以下において、上記第4部分が提供するステップについて説明する。
【0125】
1つの可能な実施形態において、当該複数の参照ビデオクリップに当該第1重畳ビデオクリップが含まれる場合、サーバは当該第1重畳ビデオクリップを削除して、当該少なくとも1つの候補ビデオクリップを得る。
【0126】
この種の実施形態において、サーバは重複した第1重畳ビデオクリップを複数の参照ビデオクリップから削除して、得られる候補ビデオクリップの数量を低減させることができ、演算量は減少し、演算効率は向上する。
【0127】
1つの可能な実施形態において、当該複数の参照ビデオクリップに当該第2重畳ビデオクリップが含まれる場合、サーバは当該第2重畳ビデオクリップの当該第2参照ビデオクリップとの間の重畳部分を削除して、当該少なくとも1つの候補ビデオクリップを得る。
【0128】
この種の実施形態において、サーバは第2重畳ビデオクリップと第2参照クリップとの間の重畳部分を削除して、得られる候補ビデオクリップの長さを低減させることができ、演算量は減少し、演算効率は向上する。
【0129】
上記実施形態を基礎として、選択可能に、サーバは、更に、以下のステップを実行可能である。
【0130】
いくつかの実施例では、当該第2重畳ビデオクリップと当該第2参照クリップとの間の重畳部分を削除した後、サーバは第3類参照ビデオクリップの時間長と目標時間長とを比較し、当該第3類参照ビデオクリップとは、重畳部分を削除した当該第2重畳ビデオクリップを指す。当該第3類参照ビデオクリップの時間長が当該目標時間長以上である場合、サーバは当該第3類参照ビデオクリップを留保する。当該第3類参照ビデオクリップの時間長が当該目標時間長未満である場合、サーバは当該第3類参照ビデオクリップを削除する。
【0131】
目標時間長は技術者が実際状況に応じて設定し、本願実施例ではそれを限定しない。サーバが当該第3類参照ビデオクリップを留保する場合は、つまり当該第3類参照ビデオクリップを元の第2重畳ビデオクリップに替えて採用する。
【0132】
以下において、2つの例を通して上記実施形態について説明する。
【0133】
例1、当該複数の参照ビデオクリップ内の参照ビデオクリップA及び参照ビデオクリップBに対して、当該参照ビデオクリップAの第1サブクリップm及び当該参照ビデオクリップBの第1サブクリップnが部分的重畳を有し、かつ、第1サブクリップmの開始時間が第1サブクリップnよりも早い場合、サーバは第1サブクリップnの開始時間を第1サブクリップmの終了時間まで移動して、サブクリップlを得て、当該サブクリップlは第3類参照ビデオクリップの第1サブクリップである。当該サブクリップlの時間長が当該目標時間長以下である場合、サーバは当該サブクリップlを削除し、同時に当該サブクリップlが属する第3類参照ビデオクリップを削除する。当該サブクリップlの時間長が当該目標時間長よりも長い場合、サーバは当該サブクリップlを留保し、同時に当該サブクリップlが属する第3類参照ビデオクリップを留保する。
【0134】
例2、当該複数の参照ビデオクリップ内の参照ビデオクリップA及び参照ビデオクリップBに対して、当該参照ビデオクリップAの第1サブクリップm及び当該参照ビデオクリップBの第1サブクリップnが部分的重畳を有し、かつ、第1サブクリップnの開始時間が第1サブクリップmよりも早い場合、サーバは第1サブクリップnの終了時間を第1サブクリップmの開始時間まで移動して、サブクリップlを得て、当該サブクリップlは第3類参照ビデオクリップの第1サブクリップである。当該サブクリップlの時間長が当該目標時間長以下である場合、サーバは当該サブクリップlを削除し、同時に当該サブクリップlが属する第3類参照ビデオクリップを削除する。当該サブクリップlの時間長が当該目標時間長よりも長い場合、サーバは当該サブクリップlを留保し、同時に当該サブクリップlが属する第3類参照ビデオクリップを留保する。
【0135】
第3類参照ビデオクリップの時間長が目標時間長よりも短い場合は、当該第3類参照ビデオクリップに含まれるビデオフレームの数量が比較的少なく、おそらく誤って生成された参照ビデオクリップであると認識することができるため、当該参照ビデオクリップを削除することにより、後続における余剰の参照ビデオクリップに基づき生成される目標ビデオクリップの正確性を向上させることができる。
【0136】
306、サーバが当該少なくとも1つの候補ビデオクリップに基づき、当該少なくとも1つの目標候補ビデオクリップを決定し、当該目標候補ビデオクリップは当該少なくとも1つの候補ビデオクリップにおける出現回数が回数条件に合致している。
【0137】
1つの可能な実施形態において、サーバは当該少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定する。サーバは各参照候補ビデオクリップの当該少なくとも1つの参照候補ビデオクリップにおける出現回数を決定する。サーバは出現回数が当該出現回数条件に合致した参照候補ビデオクリップを目標候補ビデオクリップと決定する。
【0138】
参照候補ビデオクリップの当該少なくとも1つの参照候補ビデオクリップにおける出現回数とは、当該少なくとも1つの参照候補ビデオクリップにおける当該参照候補ビデオクリップの数量を指す。例えば、当該少なくとも1つの参照候補ビデオクリップが1、2、3、1、4、5である場合、参照候補ビデオクリップ1について述べると、出現回数は2である。
【0139】
上記実施形態について説明するため、以下において、3つの部分に分けて上記実施形態について説明する。
【0140】
第1部分、サーバは当該少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定する。
【0141】
当該少なくとも1つの候補ビデオクリップには、第3重畳ビデオクリップ及び/または第4重畳ビデオクリップが含まれ、当該第3重畳ビデオクリップとは、当該少なくとも1つの候補ビデオクリップ内の第1候補ビデオクリップに属する候補ビデオクリップを指し、当該第4重畳ビデオクリップとは、当該少なくとも1つの候補ビデオクリップにおける第2候補ビデオクリップと部分的に重畳する候補ビデオクリップを指す。
【0142】
上記第1部分の内容についてより明確に説明するため、以下において、サーバが少なくとも1つの候補ビデオクリップから第3重畳ビデオクリップを決定する方法について説明する。
【0143】
1つの可能な実施形態において、サーバは当該少なくとも1つの候補ビデオクリップ内の第1サブクリップの第1ビデオにおける出現時間に基づき、当該少なくとも1つの候補ビデオクリップから第3重畳ビデオクリップを決定する。
【0144】
候補ビデオクリップには、第1サブクリップ及び第2サブクリップが含まれ、第1サブクリップはビデオフレーム対内の第1ビデオフレームにより構成され、第2サブクリップはビデオフレーム対内の第2ビデオフレームにより構成される。
【0145】
例を挙げると、当該少なくとも1つの候補ビデオクリップが2つの候補ビデオクリップであるとすると、当該少なくとも1つの候補ビデオクリップのうちの候補ビデオクリップC及び候補ビデオクリップDに対して、サーバは当該候補ビデオクリップCの第1サブクリップの第1ビデオにおける出現時間と当該候補ビデオクリップDの第1サブクリップの第1ビデオにおける出現時間とを比較し、当該候補ビデオクリップDの第1サブクリップの第1ビデオにおける出現時間が当該候補ビデオクリップCの第1サブクリップの第1ビデオにおける出現時間の部分集合である場合、当該候補ビデオクリップDを第3重畳ビデオクリップと決定する。
【0146】
例えば、当該少なくとも1つの候補ビデオクリップが2つの候補ビデオクリップであり、候補ビデオクリップC及び候補ビデオクリップDを含む場合、サーバは当該候補ビデオクリップCの第1サブクリップoの当該第1ビデオにおける出現時間と当該候補ビデオクリップDの第1サブクリップpの当該第1ビデオにおける出現時間とを比較する。当該第1サブクリップpの開始時間が第1サブクリップoの後で、かつ、当該第1サブクリップpの終了時間が第1サブクリップoの前である場合、サーバは当該候補ビデオクリップDを第3重畳ビデオクリップと決定し、当該候補ビデオクリップCがつまり上記第1候補ビデオクリップである。
【0147】
サーバが少なくとも1つの候補ビデオクリップから第3重畳ビデオクリップを決定する方法について説明した後、以下において、サーバが少なくとも1つの候補ビデオクリップから第4重畳ビデオクリップを決定する方法について説明する。
【0148】
1つの可能な実施形態において、サーバは当該少なくとも1つの候補ビデオクリップ内の第1サブクリップの第1ビデオにおける出現時間に基づき、当該少なくとも1つの候補ビデオクリップから第4重畳ビデオクリップを決定する。
【0149】
例を挙げると、当該少なくとも1つの候補ビデオクリップが2つの候補ビデオクリップであるとすると、当該少なくとも1つの候補ビデオクリップのうちの候補ビデオクリップC及び候補ビデオクリップDに対して、サーバは当該候補ビデオクリップCの第1サブクリップの第1ビデオにおける出現時間と当該候補ビデオクリップDの第1サブクリップの第1ビデオにおける出現時間とを比較し、当該候補ビデオクリップDの第1サブクリップの第1ビデオにおける出現時間と当該候補ビデオクリップCの第1サブクリップの第1ビデオにおける出現時間とに積集合が存在している場合、候補ビデオクリップC及び候補ビデオクリップDのうちの時間長が短い方の候補ビデオクリップを第4重畳ビデオクリップと決定する。
【0150】
例えば、当該少なくとも1つの候補ビデオクリップが2つの候補ビデオクリップであり、候補ビデオクリップC及び候補ビデオクリップDを含む場合、サーバは当該候補ビデオクリップCの第1サブクリップoの当該第1ビデオにおける出現時間と当該候補ビデオクリップDの第1サブクリップpの当該第1ビデオにおける出現時間とを比較する。当該第1サブクリップpの開始時間が第1サブクリップoの開始時間の後で、終了時間の前であり、かつ、当該第1サブクリップpの終了時間が第1サブクリップoの後であるか、または当該第1サブクリップpの開始時間が第1サブクリップoの前であり、かつ、当該第1サブクリップpの終了時間が第1サブクリップoの終了時間の前、開始時間の後であり、候補ビデオクリップDの時間長が候補ビデオクリップCよりも短い場合、サーバは当該候補ビデオクリップDを第4重畳ビデオクリップと決定し、当該候補ビデオクリップCがつまり上記第2候補ビデオクリップである。
【0151】
サーバが第3重畳ビデオクリップ及び第4重畳ビデオクリップを決定する方法の紹介が完了した後、以下において、上記第1部分が提供するステップについて説明する。
【0152】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップに当該第3重畳ビデオクリップが含まれる場合、サーバは当該第3重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得る。いくつかの実施例ではは、当該第3重畳ビデオクリップを削除する前に、サーバは当該第3重畳ビデオクリップの出現回数を当該第1候補ビデオクリップに積算する。第3重畳ビデオクリップは第1候補ビデオクリップに完全に包含されているため、当該第3重畳ビデオクリップの出現回数を当該第1候補ビデオクリップに積算すると、当該第1候補ビデオクリップの後続処理における重みを高めることができる。
【0153】
この種の実施形態において、サーバが重複する第3重畳ビデオクリップを少なくとも1つの候補ビデオクリップ内から削除すると、得られる参照候補ビデオクリップの数量が低減され、演算量が減少し、演算効率は向上する。
【0154】
以下において、1つの具体的な例により説明する。
【0155】
当該候補ビデオクリップDの第1サブクリップoが当該候補ビデオクリップCの第1サブクリップpの部分集合であり、かつ、第1サブクリップoの時間長>0.5*第1サブクリップpである場合、サーバは第1サブクリップoを削除し、同時に当該候補ビデオクリップDも削除し、当該候補ビデオクリップDの出現回数を当該候補ビデオクリップCに積算する。
【0156】
上記実施形態を基礎として、選択可能に、サーバは第3重畳ビデオクリップの出現回数を当該第1候補ビデオクリップに積算する前に、更に、当該第3重畳ビデオクリップの時間長及び第1候補ビデオクリップの時間長を決定し、当該第3重畳ビデオクリップの時間長及び第1候補ビデオクリップの時間長に基づき、当該第3重畳ビデオクリップの出現回数を当該第1候補ビデオクリップに積算するのか否かを決定することができる。
【0157】
例えば、サーバは当該第3重畳ビデオクリップの時間長及び第1候補ビデオクリップの時間長を決定する。サーバが当該第3重畳ビデオクリップの時間長と第1候補ビデオクリップの時間長との間の第1比較値を決定し、当該第1比較値が比較値閾値以上である場合、サーバは当該第3重畳ビデオクリップの出現回数を当該第1候補ビデオクリップに積算し、当該第1比較値が比較値閾値未満である場合、サーバは当該第3重畳ビデオクリップの出現回数を当該第1候補ビデオクリップに積算せず、比較値閾値は技術者が実際状況に応じて設定し、例えば0.5と設定し、本願実施例ではそれを限定しない。
【0158】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップが当該第4重畳ビデオクリップを含み、かつ、当該第4重畳ビデオクリップと当該第2候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合、サーバは当該第4重畳ビデオクリップの出現回数を決定する。サーバは重畳度が重畳度条件に合致している各第4重畳ビデオクリップの出現回数に基づき、当該少なくとも1つの参照候補ビデオクリップを決定する。
【0159】
重畳度とは、重畳したビデオクリップの時間長と比較されるビデオクリップの時間長との間の比較値を指す。例えば、第4重畳ビデオクリップ及び第2候補ビデオクリップに対して、第2候補ビデオクリップが比較されるビデオクリップであるとすると、第4重畳ビデオクリップと第2候補ビデオクリップとの間の重畳度を決定する場合は、第4重畳ビデオクリップと第2候補ビデオクリップとの間の重畳したビデオクリップの時間長と第2候補ビデオクリップの時間長とを互いに除算すれば得ることができる。重畳度が重畳度条件に合致しているとは、重畳度が重畳度閾値以上であることを指す。
【0160】
以下において、2種の実施形態により、上記実施形態においてサーバが当該第4重畳ビデオクリップの出現回数に基づき、当該少なくともとも1つの参照候補ビデオクリップを決定する方法について説明する。
【0161】
実施形態1、当該第4重畳ビデオクリップの出現回数が第1出現回数閾値以上である場合、サーバは当該第4重畳ビデオクリップと第2候補ビデオクリップとを融合して、当該少なくとも1つの参照候補ビデオクリップを得る。いくつかの実施例では、それぞれ各重畳度が重畳度条件に合致している第4重畳ビデオクリップを相応の第2候補ビデオクリップと融合して、少なくとも1つの参照候補ビデオクリップを得る。いくつかの実施例ではは、当該第4重畳ビデオクリップと第2候補ビデオクリップとを融合する前に、サーバは当該第4重畳ビデオクリップの出現回数を当該第2候補ビデオクリップに積算する。
【0162】
第1出現回数閾値は技術者が実際の状況に応じて設定し、例えば3と設定し、本願実施例ではそれを限定しない。出現回数が第1出現回数閾値以上であると、当該第4重畳ビデオクリップを無視することができないことを示しているため、更に処理して取得する目標ビデオクリップの正確性を向上させる必要がある。
【0163】
以下において、上記実施形態におけるサーバが当該第4重畳ビデオクリップと第2候補ビデオクリップとを融合する方法について説明する。
【0164】
いくつかの実施例では、第4重畳ビデオクリップの時間長が当該第2候補ビデオクリップ未満である場合を例にすると、サーバは当該第4重畳ビデオクリップから当該第2候補ビデオクリップとの間の重複部分を削除し、余剰部分を当該第2候補ビデオクリップ上に追加して、1つの候補ビデオクリップを得る。例えば、図7を参照すると、第4重畳ビデオクリップ701の時間長は当該第2候補ビデオクリップ702未満であり、第4重畳ビデオクリップ704の時間長も当該第2候補ビデオクリップ705未満である。当該第4重畳ビデオクリップ701の終了時間が当該第2候補ビデオクリップ702よりも遅い場合、サーバは当該第4重畳ビデオクリップ701と当該第2候補ビデオクリップ702とを融合して、1つの候補ビデオクリップ703を得る。当該第4重畳ビデオクリップ704の開始時間が当該第2候補ビデオクリップ705よりも早い場合、サーバは当該第4重畳ビデオクリップ704と当該第2候補ビデオクリップ705とを融合して、1つの候補ビデオクリップ706を得る。
【0165】
第4重畳ビデオクリップと第2候補ビデオクリップとを融合すると、ビデオクリップの数量を低減させることができるため、演算量が減少し、演算効率が向上する。
【0166】
実施形態2、当該第4重畳ビデオクリップの出現回数が当該第1出現回数閾値未満である場合、サーバは当該第4重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得る。サーバは当該第4重畳ビデオクリップの出現回数を当該第2候補ビデオクリップに積算する。
【0167】
出現回数が第1出現回数閾値未満であると、当該第4重畳ビデオクリップを無視できることを示しているため、サーバは当該第4重畳ビデオクリップを削除するだけでよい。
【0168】
一部の第4重畳ビデオクリップを削除することにより、ビデオクリップの数量を低減させることができ、演算量が減少し、演算効率が向上する。
【0169】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップに当該第4重畳ビデオクリップが含まれ、かつ、当該第4重畳ビデオクリップと当該第2候補ビデオクリップとの間の重畳度が当該重畳度条件に合致していない場合、サーバは当該第4重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得る。いくつかの実施例では、当該第4重畳ビデオクリップを削除する前に、サーバは当該第4重畳ビデオクリップの出現回数を当該第2候補ビデオクリップに積算する。
【0170】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップに当該第4重畳ビデオクリップが含まれ、かつ、当該第4重畳ビデオクリップの時間長が当該第2候補ビデオクリップ未満である場合、サーバは当該第4重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得る。いくつかの実施例では、当該第4重畳ビデオクリップを削除する前に、サーバは当該第4重畳ビデオクリップの出現回数を当該第2候補ビデオクリップに積算する。
【0171】
いくつかの実施例では、少なくとも1つの参照候補ビデオクリップはサーバによりマッチングリスト(match-list)に記憶されて活用される。
【0172】
重畳度が重畳度条件に合致していないか、または時間長が第2候補ビデオクリップの時間長未満である第4重畳ビデオクリップを削除することにより、ビデオクリップの数量を低減させることができ、後続工程の演算量が減少し、演算効率が向上する。
【0173】
第2部分、サーバが参照候補ビデオクリップの当該少なくとも1つの参照候補ビデオクリップにおける出現回数を決定する。
【0174】
上記第1部分の処理過程により、サーバは少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定し、決定過程においては関連する出現回数を併合及び削除し、サーバは当該少なくとも1つの参照候補ビデオクリップの出現回数を再度決定する。いくつかの実施例では、サーバは当該少なくとも1つの参照候補ビデオクリップの出現回数を出現回数リスト(count-list)に記憶して活用することができる。
【0175】
例えば、第1ビデオにおける目標ビデオクリップを決定する際、サーバは3つの第2ビデオを採用してマイニングするが、簡便に説明するため、当該第1ビデオをiと命名し、当該3つの第2ビデオをそれぞれvid1、vid2及びvid3と命名する。上記各ステップを採用した後、サーバは当該第1ビデオi及び第2ビデオvid1に基づき、2つの候補ビデオクリップ[(2,7,4,9),(10,11,11,12)]を決定し、当該第1ビデオi及び第2ビデオvid2に基づき、1つの候補ビデオクリップ[(2,7,4,9)]を決定し、当該第1ビデオi及び第2ビデオvid3に基づき、1つの候補ビデオクリップ[(2,7,4,10)]を決定した。サーバはこの4つの候補ビデオクリップの統計を取り、候補ビデオクリップ(2,7,4,9)の出現回数は2回、(2,7,4,10)の出現回数は1回、(10,11,11,12)の出現回数は1回であると決定した。上記第1部分の方式によりこの4つの候補ビデオクリップを融合した後に、2つの参照候補ビデオクリップ[(2,7,4,9),(10,11,11,12)]を得て、かつ、参照候補ビデオクリップ(2,7,4,9)の出現回数は3であり、参照候補ビデオクリップ(10,11,11,12)の出現回数は1であり、回数リスト(count-list)に記憶すると、count-list=[3,1]となる。
【0176】
第3部分、サーバは出現回数が当該出現回数条件に合致している参照候補ビデオクリップを目標参照候補ビデオクリップと決定する。
【0177】
1つの可能な実施形態において、サーバは出現回数が第2出現回数閾値以上の参照候補ビデオクリップを目標候補ビデオクリップと決定する。
【0178】
第2出現回数閾値は当該少なくとも1つの参照候補ビデオクリップの数量と正の相関であり、つまり当該少なくとも1つの参照候補ビデオクリップの数量が多いほど、当該第2出現回数閾値も大きくなり、当該少なくとも1つの参照候補ビデオクリップの数量が少ないほど、当該第2出現回数閾値も小さくなる。いくつかの実施例では、当該第2出現回数閾値は目標比較値と当該少なくとも1つの参照候補ビデオクリップの数量との積であり、当該目標比較値は1未満の正の数である。
【0179】
例えば、得られた2つの参照候補ビデオクリップが[(2,7,4,9),(10,11,11,12)]であり、かつ、参照候補ビデオクリップ(2,7,4,9)の出現回数が3であり、参照候補ビデオクリップ(10,11,11,12)の出現回数が1であり、第2出現回数閾値が3である場合、サーバは参照候補ビデオクリップ(10,11,11,12)を削除し、最終的に参照候補ビデオクリップ(2,7,4,9)、及び出現回数3を留保する。それをマッチングリスト(match-list)及び回数リスト(count-list)に記憶すると、match-list=(2,7,4,9)、count-list=[3]となる。
【0180】
307、任意の1つの目標候補ビデオクリップに対して、第1ビデオにおける当該目標候補ビデオクリップの出現時間が目標時間範囲内の場合、サーバが当該目標候補ビデオクリップを当該第1ビデオにおける目標ビデオクリップと決定する。
【0181】
当該目標時間範囲は、技術者が実際状況に応じて設定し、例えば、本願実施例が提供する技術案をビデオのオープニング及びエンディングを識別するシーンに応用する場合、当該目標時間範囲はビデオのオープニング及びエンディングが存在する可能性がある時間範囲であり、その場合、目標時間範囲には第1時間範囲及び第2時間範囲が含まれ、第1時間範囲はオープニングが存在する可能性がある範囲であり、第2時間範囲はエンディングが存在する可能性がある範囲である。例えば、ビデオの前1/5の時間をオープニング時間、つまり第1時間範囲に設定し、後1/5の時間をエンディング時間、つまり第2時間範囲にした場合は、10分間のビデオに対して、オープニングはおそらく前2分間、エンディングは後2分間のみに出現すると設定する。1/5は技術者が実際状況に応じて設定するものであり、異なるタイプのビデオに対して相応に調整することができ、例えば15分間前後の子供向けアニメーションでは1/5を採用することができ、テレビドラマの45分間の長さに対しては1/8を採用することができる。
【0182】
なお、上記ステップ301~307はサーバが第1ビデオの目標ビデオクリップを決定する場合を例にして説明しているが、当該第1ビデオ及び当該少なくとも1つの第2ビデオが同一のビデオ集合に属している場合、サーバは上記ステップ301~307と同様の方法を採用して当該ビデオ集合におけるその他ビデオの目標ビデオクリップを決定することができ、その他ビデオとは、第1ビデオ以外のビデオを指す。
【0183】
以下において、図8を組み合わせて本願実施例が提供する技術案について説明する。
【0184】
図8を参照すると、本願実施例において、サーバはビデオフレーム特徴の間の類似性に基づきマッチングを実施して、複数のビデオフレーム対を得る。サーバは出現時間差に基づき当該複数のビデオフレーム対を複数の初期ビデオフレーム群に区分する。サーバは出現時間差に基づき当該複数の初期ビデオフレーム群を複数の候補ビデオフレーム群に融合する。サーバは当該複数の候補ビデオフレーム群を複数のビデオフレーム群に融合する。サーバは当該複数のビデオフレーム群に基づき、第1ビデオの目標ビデオクリップを出力する。
【0185】
いくつかの実施例では、上記ステップ301~307は1つのクリップマイニングシステムにより実現することができ、本願実施例が提供する技術案をビデオのオープニング及びエンディングを識別するシーンに応用する場合、当該クリップマイニングシステムがつまりオープニング及びエンディングマイニングシステムである。図9を参照すると、当該ビデオクリップマイニングシステムには以下の機能、つまり複数のビデオのビデオフレーム特徴を抽出する機能、各ビデオに対して、当該ビデオと当該複数のビデオのうちのその他のビデオとによりビデオ対を構成する機能、複数のビデオ対に基づきマッチングを実施して、複数のビデオフレーム対を得る機能、複数のビデオフレーム対を融合して、複数のビデオフレーム群を得る機能、当該複数のビデオフレーム群に基づき、当該ビデオにおける目標ビデオクリップの位置を決定する機能、当該ビデオにおける当該目標ビデオクリップの位置に基づき、当該目標ビデオクリップを取得する機能が提供されている。本願実施例が提供する技術案をビデオのオープニング及びエンディングを識別するシーンに応用する場合、当該目標ビデオクリップがつまり当該ビデオのオープニングまたはエンディングである。
【0186】
図10を参照すると、本願実施例が提供する技術案をテレビドラマのオープニング及びエンディングを識別するシーンに応用する場合は、テレビドラマを取得し、当該テレビドラマには複数のビデオが含まれている。当該複数のビデオをクリップマイニングシステムに入力し、当該クリップマイニングシステムを介して当該複数のビデオのオープニング及びエンディングを出力する。いくつかの実施例では、当該クリップマイニングシステムは当該複数のビデオのオープニング及びエンディングのタイムスタンプを出力することができる。
【0187】
308、サーバが第1ビデオの目標ビデオクリップをクリップデータベースに記憶する。
【0188】
1つの可能な実施形態において、サーバは当該第1ビデオの目標ビデオクリップに対して特徴抽出を実施して、当該目標ビデオクリップのビデオフレーム特徴を得る。サーバは当該目標ビデオクリップのビデオフレーム特徴を当該クリップデータベースに記憶する。いくつかの実施例では、サーバは当該目標ビデオクリップのビデオフレーム特徴を当該第1ビデオに関連付ける。例えば、サーバは当該目標ビデオクリップのビデオフレーム特徴の識別子を第1ビデオの識別子として設定する。当該第1ビデオがあるビデオ集合に属している場合、サーバが当該第1ビデオの識別子を当該ビデオ集合の識別子として関連付けると、後続のクエリ過程が簡便になる。
【0189】
目標ビデオクリップに対して特徴抽出を実施して当該目標ビデオクリップのビデオフレーム特徴を得ることは、上記ステップ301と同一の発明構想に属しており、実現過程は上記ステップ301の記述を参照することができるため、ここでは詳述しない。
【0190】
例えば、目標ビデオクリップが(2,7)である場合、サーバは当該第1ビデオから2~7秒に対応する目標ビデオクリップを取得し、当該目標ビデオクリップから複数の参照ビデオフレームを抽出する。サーバは当該複数の参照ビデオフレームに対して特徴抽出を実施して、当該複数の参照ビデオフレームのビデオフレーム特徴を得る。サーバは当該複数の参照ビデオフレームのビデオフレーム特徴をクリップデータベースに記憶する。サーバは当該複数の参照ビデオフレームのビデオフレーム特徴を第1ビデオの識別子Vid1に関連付けて、第1ビデオの識別子Vid1を当該第1ビデオが属するビデオ集合の識別子Cid1に関連付ける。図11にはクリップデータベースの記憶形式が示されており、図11を参照すると、データベース1100において、em1~emNはビデオフレーム特徴であり、vid1~vidKは異なるビデオの識別子であり、N及びKはいずれも正の整数である。
【0191】
サーバは第1ビデオの目標ビデオクリップをクリップデータベースに記憶した後、更に、当該クリップデータベースを利用してビデオクリップを検索することができ、方法は以下の通りである。
【0192】
1つの可能な実施形態において、サーバは識別対象の目標ビデオの複数の目標ビデオフレームに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。サーバは当該複数の目標ビデオフレームのビデオフレーム特徴、当該第1ビデオフレームのビデオフレーム特徴及び当該少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、当該目標ビデオの少なくとも1つの目標ビデオクリップを決定する。
【0193】
サーバが目標ビデオの複数の目標ビデオフレームに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る過程は、上記ステップ301と同一の発明構想に属しており、実現過程は上記ステップ301の記述を参照することができるため、ここでは詳述しない。サーバが当該複数の目標ビデオフレームのビデオフレーム特徴、当該第1ビデオフレームのビデオフレーム特徴及び当該少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、当該目標ビデオの少なくとも1つの目標ビデオクリップを決定する過程は、上記ステップ302~307と同一の発明構想に属しており、実現過程は上記ステップ302~307の記述を参照することができるため、ここでは詳述しない。いくつかの実施例では、当該クリップデータベースにおいてビデオクリップの検索を実施することは、ビデオ検索システムにより実現される。いくつかの実施例では、当該第1ビデオフレームのビデオフレーム特徴及び当該少なくとも1つの第2ビデオのビデオフレーム特徴はクリップデータベースに記憶される。
【0194】
時間領域マッチングアルゴリズムを設計することにより、画像embedding特徴に基づく類似ビデオセクションマッチング方法が実現され、長さ変化(マッチング論理内で体現され、同一の出現時間差のもとマッチングフレームを時間領域に併合する際に併合するフレームが必ず前後に連続していることは要求されない)、位置変化(マッチング論理内で体現され、出現時間差が0である場合、位置に変化はなく、出現時間差が0よりも大きい場合は、位置に変化ありとすることができる)の類似ビデオセクションのマッチングがサポートされている。当該方法は時間の消費が少なく、性能が優れている。
【0195】
ビデオ時間領域をマッチングする方法に基づき生成されたオープニング・エンディングマイニング案は、複雑に長さが変化し、位置が変化するなどの複雑なビデオのオープニング・エンディングの識別・位置決めを実現することができ、現有技術案では解決できない困難な状況を解決することができる。
【0196】
時間領域のマッチングに基づくオープニング・エンディング検索案を連合することにより、リアルタイム(10分間以内)のオープニング・エンディングマイニング案を実現することができ、応用に優れている。
【0197】
上記ビデオクリップの識別方法は、ビデオクリップのオープニング・エンディングを識別するシーンに応用することができ、更に、権利侵害ビデオを識別するシーンに応用することもでき、以下においては、それぞれこの2種の応用シーンについて紹介する。
【0198】
当該ビデオクリップの検索方法をビデオクリップのオープニング・エンディングを検索するシーンに応用する場合は、識別対象の目標ビデオを当該ビデオ検索システムに入力し、当該ビデオ検索システムにより当該目標ビデオに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。当該ビデオ検索システムを介して、当該複数の目標ビデオフレームのビデオフレーム特徴に基づき、クリップデータベース内でマッチングを実施し、当該目標ビデオの目標ビデオクリップを得ると、当該ビデオクリップがつまり当該目標ビデオのオープニングまたはエンディングである。
【0199】
テレビドラマにおける新たに更新されたビデオのオープニング及びエンディングを識別する場合を例にすると、例えば、当該テレビドラマがすでに10話更新されているとすると、上記ステップ301~307によりこの10話のオープニング及びエンディングを取得し、上記ステップ308によりこの10話のオープニング及びエンディングがクリップデータベースに記憶される。当該テレビドラマの第11話が更新される際に、当該第11話を当該目標ビデオとして、当該目標ビデオを当該ビデオ検索システムに入力し、当該ビデオ検索システムにより当該目標ビデオに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。当該ビデオ検索システムを介して、当該複数の目標ビデオフレームのビデオフレーム特徴に基づき、クリップデータベース内でマッチングを実施し、当該目標ビデオにおける目標ビデオクリップを得れば、当該目標ビデオクリップがつまり当該目標ビデオのオープニングまたはエンディングである。当該クリップデータベースにおいてビデオフレーム特徴とビデオの識別子及びビデオ集合の識別子とを関連付ける場合は、ビデオ集合の識別子に基づき有限的な範囲内でマッチングを実施して、目標ビデオクリップを決定する効率を高めることができ、当該ビデオ集合がつまり当該テレビドラマである。
【0200】
以下においては、図12を組み合わせて更に説明する。
【0201】
オープニング・エンディングの識別対象のテレビドラマを決定し、当該テレビドラマにおける複数のビデオを取得する。当該複数のビデオをクリップマイニングシステム1201に入力すると、当該クリップマイニングシステム1201により当該複数のビデオのオープニング及びエンディングが出力され、当該複数のビデオのオープニング及びエンディングがクリップデータベース1202に記憶される。当該テレビドラマが目標ビデオを更新した場合は、当該目標ビデオをビデオ検索システム1203に入力し、ビデオ検索システム1203により当該目標ビデオを採用して当該クリップデータベース1202内で検索を実施して、当該目標ビデオのオープニング及びエンディングを得る。本願実施例が提供する技術案では、同一ビデオ集合におけるビデオに対してオープニング・エンディングをマイニングする際には、ビデオの同一時間領域を検索する方法を採用しており、つまり同一のビデオ集合に対して、検索及び時系列的な位置決めにより同一のビデオクリップを捜し出して、マイニングされたオープニング及びエンディングとする。交差重複排除とは、ビデオ集合内部のビデオから相互検索により重複したビデオクリップを捜し出すことを指す。ビデオを重複排除検索する目的は、第1ビデオに対して、記憶ビデオと同一なビデオクリップを検索することである。
【0202】
なお、1つのビデオはおそらく複数のオープニングまたはエンディングが上記要求を満たしており、それは正常な状況に属しているが、オープニング曲+本編ハイライト+同一広告差し込み+本編というタイプのテレビドラマについて、オープニング曲、広告差し込みは複数のビデオにおいてマッチング可能であるが、ハイライトは各話すべてで異なっていて、マッチングされないため、2つのオープニングが出現することになる。
【0203】
当該ビデオクリップの検索方法を権利侵害ビデオの識別シーンに応用する場合は、識別対象の目標ビデオを当該ビデオ検索システムに入力し、当該ビデオ検索システムにより当該目標ビデオに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得る。当該目標ビデオがつまり権利侵害識別実施対象のビデオである。当該ビデオ検索システムを介して、当該複数の目標ビデオフレームのビデオフレーム特徴に基づきクリップデータベース内でマッチングを実施し、当該目標ビデオの目標ビデオクリップを得ると、当該目標ビデオクリップがつまり目標ビデオのオープニングまたはエンディングである。当該目標ビデオクリップを当該目標ビデオから削除し、目標ビデオクリップを削除した後の目標ビデオに基づき権利侵害識別を実施し、権利侵害識別の目的は、目標ビデオクリップを削除した後の目標ビデオが指定ビデオの内容と同一であるか否かを決定することである。権利侵害識別は権利侵害識別システムにより実現され、権利侵害識別システムはクエリビデオに対して権利侵害保護ビデオデータベース内で重複排除し、重複が判明した場合は、権利侵害を示している。しかし、本編内容のみを保護する必要があり、通常の映画やテレビドラマのオープニング・エンディングは権利侵害重複排除範囲内にはないため、本願実施例が提供する技術案を採用すると、映画やテレビドラマに対するオープニング・エンディングの識別を実現することが可能である。
【0204】
以下において、図13を組み合わせて更に説明する。
【0205】
権利侵害識別対象のテレビドラマを決定し、当該テレビドラマにおける複数のビデオを取得し、当該複数のビデオを権利侵害保護ビデオデータベース1301に記憶する。当該複数のビデオをクリップマイニングシステム1302に入力し、当該クリップマイニングシステム1302により当該複数のビデオのオープニング及びエンディングを出力し、当該複数のビデオのオープニング及びエンディングをクリップデータベース1303に記憶する。目標ビデオに対して権利侵害識別を実施する必要がある場合は、当該目標ビデオをビデオ検索システム1304に入力し、ビデオ検索システム1304により当該目標ビデオを採用して当該クリップデータベース1303内で検索を実施して、当該目標ビデオのオープニング及びエンディングを得る。当該目標ビデオのオープニング及びエンディングを削除し、権利侵害識別システム1305を介して当該目標ビデオの権利侵害結果を出力し、権利侵害結果には権利侵害及び権利非侵害が含まれる。
【0206】
いくつかの実施例では、上記方式に基づき目標ビデオに対してクリップデータベース内でクエリを実施した後、当該目標ビデオの複数の目標ビデオクリップを得た場合、サーバは当該複数の目標ビデオクリップのうち最長の目標ビデオクリップを最終的な目標ビデオクリップと決定し、本願実施例が提供する技術案をビデオのオープニング及びエンディングの識別に応用する場合、当該目標ビデオクリップがつまり当該目標ビデオのオープニング及びエンディングであり、当該過程は図14に示されている通りである。
【0207】
また、ビデオ検索システム及びクリップマイニングシステムは、対外的インターフェイス、つまり検索データベース格納、マイニングデータベース格納を同時に提供して、同時にユーザが使用する必要があると指定する具体的な機能を開放することができる。また1つの識別インターフェイスのみを提供し、バックエンドがデータベース内にすでに当該ビデオ識別子に対応したテレビドラマのオープニング・エンディングを有しているか否かに応じて、検索またはマイニングを実施するのかを判断し、バックエンドが使用すべき具体的な機能を起動させることもでき、当該具体的な機能には検索及びマイニングが含まれる。
【0208】
上記すべての選択可能な技術案は、任意結合を採用して本願の選択可能な実施例を形成することができるが、ここでは改めて詳述しない。
【0209】
本願実施例が提供する技術案を介して、ビデオフレーム特徴の間の類似度に基づき、類似ビデオフレームを包むビデオフレーム対が決定される。ビデオフレーム対のうちの第1ビデオフレームは、出現時間差に基づいて融合され、少なくとも1つの候補ビデオクリップが得られる。最終的に少なくとも1つの候補ビデオクリップから目標時間範囲内の目標ビデオクリップが決定される。目標クリップを決定する過程は人間の関与は必要なく、コンピュータ機器が直接第1ビデオ及び少なくとも1つの第2ビデオに基づき自動的に実施可能であるため、効率的である。
【0210】
上記ビデオセクションのマッチングアルゴリズム設計により、ビデオフレーム特徴に基づく類似ビデオクリップのマッチング方法が実現され、長さ変化(マッチング論理内で体現され、同一出現時間差のもとビデオフレーム対を併合する際に併合するフレームが前後に連続していることは要求されない)、位置変化(マッチング論理に体現され、出現時間差が0である場合は、位置に変化がなく、出現時間差が0よりも大きい場合は、位置に変化がありとすることができる)の類似ビデオセクションのマッチングをサポートすることができる。当該方法は時間の消費が少なく、性能が優れている。
【0211】
図15は本願実施例が提供するビデオクリップの識別装置の構造概略図であり、図15を参照すると、装置には、ビデオフレーム対決定モジュール1501、融合モジュール1502及び目標ビデオクリップ決定モジュール1503が含まれる。
【0212】
ビデオフレーム対決定モジュール1501は、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するように構成され、当該ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、当該第1ビデオフレームは当該第1ビデオに属し、当該第2ビデオフレームは当該少なくとも1つの第2ビデオに属している。
【0213】
融合モジュール1502は、当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対のうちの第1ビデオフレームを融合して、当該第1ビデオのうちの少なくとも1つの候補ビデオクリップを得るように構成され、当該出現時間差とは当該ビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指す。
【0214】
目標ビデオクリップ決定モジュール1503は、当該少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、当該第1ビデオにおける少なくとも1つの目標ビデオクリップを決定するように構成され、当該目標ビデオクリップは当該第1ビデオの当該目標時間範囲内にある。
【0215】
1つの可能な実施形態において、当該融合モジュール1502は、当該複数のビデオフレーム対の出現時間差に基づき、当該複数のビデオフレーム対を複数のビデオフレーム群に区分するように構成され、同一の当該ビデオフレーム群内のビデオフレーム対は同一の出現時間差に対応している。当該複数のビデオフレーム群内の任意の1つのビデオフレーム群に対して、当該ビデオフレーム群内のビデオフレーム対の第1ビデオフレームの当該第1ビデオにおける出現時間に応じて、当該ビデオフレーム群内のビデオフレーム対の第1ビデオフレームを1つの当該候補ビデオクリップに融合する。
【0216】
1つの可能な実施形態において、当該融合モジュール1502は、複数のビデオフレーム対のうちの任意の1つのビデオフレーム対に対して、ビデオフレーム対のうちの第1ビデオフレームの第1出現時間からビデオフレーム対のうちの第2ビデオフレームの第2出現時間を減じて、ビデオフレーム対の出現時間差を得るように構成され、第1出現時間とは、第1ビデオフレームの第1ビデオにおける出現時間を指し、第2出現時間とは、第2ビデオフレームの第2ビデオにおける出現時間を指し、出現時間差が同一のビデオフレーム対を1つの初期ビデオフレーム群に区分するとともに、初期ビデオフレーム群内のビデオフレーム対の出現時間差を初期ビデオフレーム群に対応する出現時間差とする。複数の初期ビデオフレーム群に対応する出現時間差に基づき、当該複数の初期ビデオフレーム群を融合して、当該複数のビデオフレーム群を得る。
【0217】
1つの可能な実施形態において、当該融合モジュール1502は、複数の候補ビデオフレーム群を得るために、目標順序に応じて当該複数の初期ビデオフレーム群をソートするように構成される。当該複数の候補ビデオフレーム群における任意の2つの隣接する候補ビデオフレーム群に対して、2つの隣接する候補ビデオフレーム群の間のマッチング時間差がマッチング時間差条件に合致している場合は、当該2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群に融合する。当該マッチング時間差とは、当該2つの隣接する候補ビデオフレーム群に対応する出現時間差の間の数値差を指す。
【0218】
1つの可能な実施形態において、当該2つの隣接する候補ビデオフレーム群には、第1候補ビデオフレーム群及び第2候補ビデオフレーム群が含まれ、当該融合モジュール1502は、当該第1候補ビデオフレーム群に対応する出現時間差と当該第2候補ビデオフレーム群に対応する出現時間差との間のマッチング時間差がマッチング差閾値以下である場合は、当該第1候補ビデオフレーム群内のビデオフレーム対を当該第2候補ビデオフレーム群に追加して、当該ビデオフレーム群を得るように構成される。
【0219】
1つの可能な実施形態において、2つの隣接する候補ビデオフレーム群には、第1候補ビデオフレーム群及び第2候補ビデオフレーム群が含まれ、当該融合モジュール1502は、第1候補ビデオフレーム群と第2候補ビデオフレーム群との間のマッチング時間差がマッチング差閾値以下である場合は、当該第1候補ビデオフレーム群内のビデオフレーム対を当該第2候補ビデオフレーム群に追加し、当該第2候補ビデオフレーム群に対応する出現時間差に基づき、目標第2ビデオフレームを参照第2ビデオフレームに置き換えて当該ビデオフレーム群を得るように構成される。当該目標第2ビデオフレームは当該第2候補ビデオフレーム群内に新たに追加された第2ビデオフレームであり、当該参照第2ビデオフレームは当該第2ビデオにおける、目標第1ビデオフレームとの間の出現時間差が当該第2候補ビデオフレーム群に対応する出現時間差である第2ビデオフレームであり、当該目標第1ビデオフレームは当該目標第2ビデオフレームが属するビデオフレーム対内の第1ビデオフレームである。
【0220】
1つの可能な実施形態において、当該融合モジュール1502は、ビデオフレーム群内のビデオフレーム対をトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定するように構成される。現在のビデオフレーム対及び前回のビデオフレーム対はビデオフレーム群における2つの隣接するビデオフレーム対である。現在のビデオフレーム対及び前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を比較して、第1ビデオフレームの出現時間の数値差を得る。第1ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、現在のビデオフレーム対及び前回のビデオフレーム対を一時フレームリストに追加し、第1ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合するとともに、融合後に一時フレームリストをクリアし、次にトラバースするビデオフレーム対を決定し、次にトラバースするビデオフレーム対を新たな現在のビデオフレーム対とし、現在のビデオフレーム対及び前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を比較するステップに戻って、最後にトラバースするビデオフレーム対まで引き続き実行し、複数の参照ビデオクリップに基づき、当該少なくとも1つの候補ビデオクリップを決定する。
【0221】
1つの可能な実施形態において、当該複数の参照ビデオクリップには第1重畳ビデオクリップが含まれ、当該第1重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第1参照ビデオクリップに属する参照ビデオクリップを指し、当該融合モジュール1502は、当該複数の参照ビデオクリップに当該第1重畳ビデオクリップが含まれている場合に、当該第1重畳ビデオクリップを削除して、当該少なくとも1つの候補ビデオクリップを得るように構成される。
【0222】
1つの可能な実施形態において、当該複数の参照ビデオクリップには第2重畳ビデオクリップが含まれ、当該第2重畳ビデオクリップとは、当該複数の参照ビデオクリップ内の第2参照ビデオクリップと部分的に重畳した参照ビデオクリップを指し、当該融合モジュール1502は、当該複数の参照ビデオクリップに当該第2重畳ビデオクリップが含まれている場合に、当該第2重畳ビデオクリップと当該第2参照クリップとの間の重畳部分を削除して、当該少なくとも1つの候補ビデオクリップを得るように構成される。
【0223】
1つの可能な実施形態において、当該融合モジュール1502は、更に、第3類参照ビデオクリップの時間長と目標時間長とを比較し、当該第3類参照ビデオクリップとは、重畳部分を削除した当該第2重畳ビデオクリップを指し、当該第3類参照ビデオクリップの時間長が当該目標時間長以上である場合は、当該第3類参照ビデオクリップを留保し、当該第3類参照ビデオクリップの時間長が当該目標時間長未満である場合は、当該第3類参照ビデオクリップを削除するように構成される。
【0224】
1つの可能な実施形態において、当該目標ビデオクリップ決定モジュール1503は、当該少なくとも1つの候補ビデオクリップに基づき、当該少なくとも1つの目標候補ビデオクリップを決定するように構成され、当該目標候補ビデオクリップの当該少なくとも1つの候補ビデオクリップにおける出現回数は回数条件に合致している。
【0225】
任意の1つの当該目標候補ビデオクリップに対して、第1ビデオにおける当該目標候補ビデオクリップの出現時間が当該目標時間範囲内の場合は、当該目標候補ビデオクリップを当該第1ビデオにおける目標ビデオクリップと決定する。
【0226】
1つの可能な実施形態において、当該目標ビデオクリップ決定モジュール1503は、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定し、各参照候補ビデオクリップの当該少なくとも1つの参照候補ビデオクリップにおける出現回数を決定し、出現回数が当該出現回数条件に合致した参照候補ビデオクリップを目標候補ビデオクリップと決定するように構成される。
【0227】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップには第3重畳ビデオクリップが含まれ、当該第3重畳ビデオクリップとは、当該少なくとも1つの候補ビデオクリップ内の第1候補ビデオクリップに属する候補ビデオクリップを指し、当該目標ビデオクリップ決定モジュール1503は、当該少なくとも1つの候補ビデオクリップに当該第3重畳ビデオクリップが含まれている場合、当該第3重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得るように構成される。
【0228】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップには第4重畳ビデオクリップが含まれ、当該第4重畳ビデオクリップとは、当該少なくとも1つの候補ビデオクリップ内の第2候補ビデオクリップと部分的に重畳した候補ビデオクリップを指し、目標ビデオクリップ決定モジュール1503は、当該少なくとも1つの候補ビデオクリップに当該第4重畳ビデオクリップが含まれ、かつ、当該第4重畳ビデオクリップと当該第2候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合、当該第4重畳ビデオクリップの出現回数を決定し、重畳度が重畳度条件に合致している各第4重畳ビデオクリップの各々に対応した出現回数に基づき、当該少なくとも1つの参照候補ビデオクリップを決定するように構成される。
【0229】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップには第4重畳ビデオクリップが含まれ、当該第4重畳ビデオクリップとは、当該少なくとも1つの候補ビデオクリップ内の第2候補ビデオクリップと部分的に重畳した候補ビデオクリップを指し、目標ビデオクリップ決定モジュール1503は、当該少なくとも1つの候補ビデオクリップに当該第4重畳ビデオクリップが含まれ、かつ、当該第4重畳ビデオクリップと当該第2候補ビデオクリップとの間の重畳度が当該重畳度条件に合致していない場合、当該第4重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得るように構成される。
【0230】
1つの可能な実施形態において、当該少なくとも1つの候補ビデオクリップには第4重畳ビデオクリップが含まれ、当該第4重畳ビデオクリップとは、当該少なくとも1つの候補ビデオクリップ内の第2候補ビデオクリップと部分的に重畳した候補ビデオクリップを指し、当該目標ビデオクリップ決定モジュール1503は、当該少なくとも1つの候補ビデオクリップに当該第4重畳ビデオクリップが含まれ、かつ、当該第4重畳ビデオクリップの時間長が当該第2候補ビデオクリップ未満である場合、当該第4重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを決定するように構成される。
【0231】
1つの可能な実施形態において、当該目標ビデオクリップ決定モジュール1503は、少なくとも1つの候補ビデオクリップのうちの任意の1つの重畳度条件に合致した第4重畳ビデオクリップに対して、当該第4重畳ビデオクリップの出現回数が第1出現回数閾値以上である場合、当該第4重畳ビデオクリップを第2候補ビデオクリップと融合して、当該少なくとも1つの参照候補ビデオクリップを得るように構成される。
【0232】
1つの可能な実施形態において、当該目標ビデオクリップ決定モジュール1503は、少なくとも1つの候補ビデオクリップのうちの任意の1つの重畳度条件に合致した第4重畳ビデオクリップに対して、当該第4重畳ビデオクリップの出現回数が第1出現回数閾値未満である場合、当該第4重畳ビデオクリップを削除して、当該少なくとも1つの参照候補ビデオクリップを得るように構成される。
【0233】
1つの可能な実施形態において、当該装置は、更に、
識別対象の目標ビデオの複数の目標ビデオフレームに対して特徴抽出を実施して、当該複数の目標ビデオフレームのビデオフレーム特徴を得るための特徴抽出モジュールを含み、
当該目標ビデオクリップ決定モジュール1503は、更に、当該複数の目標ビデオフレームのビデオフレーム特徴、当該第1ビデオフレームのビデオフレーム特徴及び当該少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、当該目標ビデオの少なくとも1つの目標ビデオクリップを決定するように構成される。
【0234】
なお、上記実施例が提供するビデオクリップの識別装置がビデオクリップを識別する際に、上記各機能モジュールの区分のみにより例を挙げて説明を行っているが、実際の応用においては、必要に応じて上記機能を異なる機能モジュールで達成するように分配することができ、つまりコンピュータ機器の内部構造を異なる機能モジュールに区分して、以上に記載のすべてまたは一部の機能を達成することができる。また、上記実施例が提供するビデオクリップの識別装置はビデオクリップの識別方法の実施例と同一の発明構想に属しているため、その具体的な実施過程の詳細は方法の実施例の通りであり、ここで改めて詳述しない。
【0235】
本願実施例が提供する技術案により、ビデオフレーム特徴の間の類似度に基づき、類似ビデオフレームを含むビデオフレーム対が決定される。ビデオフレーム対内の第1ビデオフレームは、出現時間差に基づいて融合され、少なくとも1つの候補ビデオクリップが得られる。最終的に少なくとも1つの候補ビデオクリップから目標時間範囲内の目標ビデオクリップが決定される。目標クリップを決定する過程は人間の関与は必要なく、コンピュータ機器が直接第1ビデオ及び少なくとも1つの第2ビデオに基づき自動的に実施可能であるため、効率的である。
【0236】
本願実施例では、上記方法を実行するためのコンピュータ機器が提供されており、当該コンピュータ機器は端末またはサーバとして実現することができ、以下において、端末の構造について紹介する。
【0237】
図16は本願実施例が提供する端末の構造概略図である。
【0238】
通常、端末1600には、1つまたは複数のプロセッサ1601及び1つまたは複数のメモリ1602が含まれる。
【0239】
プロセッサ1601は、1つまたは複数の処理コア、例えば、4コアプロセッサ、8コアプロセッサなどを含むことができる。プロセッサ1601は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブル論理アレイ)のうちの少なくとも1種のハードウェアウェア形式を採用して実現することができる。プロセッサ1601はメインプロセッサ及びコプロセッサを含むことができ、メインプロセッサはウェイクアップ状態のデータを処理するためのプロセッサであり、CPU(Central Processing Unit、中央処理装置)とも称され、コプロセッサはアイドル状態のデータを処理するための低電力消費プロセッサである。いくつかの実施例では、プロセッサ1601は、GPU(Graphics Processing Unit、画像処理装置)に集積することができ、GPUはディスプレイに表示すべき内容のレンダリング及び作製に責任を負う。いくつかの実施例では、プロセッサ1601は更にAI(Artificial Intelligence、人口知能)プロセッサを含むことができ、当該AIプロセッサは機械学習に関する計算操作を処理するために用いられる。
【0240】
メモリ1602は1つまたは複数のコンピュータ読取り可能な記憶媒体を含むことができ、当該コンピュータ読取り可能な記憶媒体は非一過性である。メモリ1602は更に高速ランダムアクセスメモリ、及び非揮発性メモリ、例えば、1つまたは複数の磁気ディスクメモリ機器、フラッシュメモリ機器を含むことができる。いくつかの実施例では、メモリ1602における非一過性のコンピュータ読取り可能な記憶媒体は少なくとも1つのコンピュータプログラムを記憶するために用いられ、当該少なくとも1つのコンピュータプログラムは、プロセッサ1601により実行されて本願方法の実施例が提供するビデオクリップの識別方法を実現するために用いられる。
【0241】
いくつかの実施例では、端末1600は、更に選択可能に、周辺機器インターフェイス1603及び少なくとも1つの周辺機器を含む。プロセッサ1601、メモリ1602及び周辺機器インターフェイス1603の間はバスまたは信号線により接続することができる。各周辺機器はバス、信号線または回路板を介して周辺機器インターフェイス1603に接続することができる。具体的に、周辺機器には、無線周波数回路1604、ディスプレイ1605、カメラコンポーネント1606、音声周波数回路1607及び電源1608のうちの少なくとも1種が含まれる。
【0242】
周辺機器インターフェイス1603は、I/O(Input /Output、入力/出力)に関する少なくとも1つの周辺機器をプロセッサ1601及びメモリ1602に接続するために用いることができる。いくつかの実施例では、プロセッサ1601、メモリ1602及び周辺機器インターフェイス1603は同一のチップまたは回路板に集積され、いくつかの他の実施例では、プロセッサ1601、メモリ1602及び周辺機器インターフェイス1603のうちの任意の1つまたは2つは単独のチップまたは回路板で実現することができ、本実施例ではそれを限定しない。
【0243】
無線周波数回路1604は、RF(Radio Frequency、無線周波数)信号を受信及び送信するために用いられ、電磁信号とも称される。無線周波数回路1604は電磁信号を介して通信ネットワーク及びその他の通信機器と通信する。無線周波数回路1604は電気信号を電磁信号に変換して送信するか、または、受信した電磁信号を電気信号に変換する。選択可能に、無線周波数回路1604は、アンテナシステム、RF送受信器、1つまたは複数の増幅装置、チューナー、オシレータ、デジタル信号処理装置、エンコード・デコードチップセット、ユーザIDモジュールカードなどが含まれる。
【0244】
ディスプレイ1605は、UI(User Interface、ユーザインターフェイス)を表示するために用いられる。当該UIはグラフ、テキスト、パターン、ビデオ及びそれらの任意の組合せを含むことができる。ディスプレイ1605がタッチパネルである場合、ディスプレイ1605は、更に、ディスプレイ1605の表面または表面上方のタッチ信号を収集する能力を有している。当該タッチ信号は制御信号としてプロセッサ1601に入力して処理することができる。その際、ディスプレイ1605は、更に、仮想ボタン及び/または仮想キーボードを提供するために用いることもでき、ソフトボタン及び/またはソフトキーボードとも称される。
【0245】
カメラコンポーネント1606は、画像及びビデオを収集するために用いられ、選択可能に、カメラコンポーネント1606は前置カメラ及び後置カメラを含む。通常、前置カメラは端末の前パネルに設置され、後置カメラは端末の背面に設置される。
【0246】
音声周波数回路1607は、マイクロフォン及びスピーカを含むことができる。マイクロフォンはユーザ及び環境の音波を収集するとともに、音波を電気信号に変換してプロセッサ1601に入力して処理するか、または無線周波数回路1604に入力して音声通信を実現するために用いられる。
【0247】
電源1608は、端末1600の各コンポーネントに給電するために用いられる。電源1608は交流電源、直流電源、使い捨て電池または充電可能電池とすることができる。
【0248】
いくつかの実施例では、端末1600は、更に、1つまたは複数のセンサ1609を含む。当該1つまたは複数のセンサ1609には、加速度センサ1610、ジャイロセンサ1611、圧力センサ1612、光学センサ1613及び接近センサ1614が含まれるが、それらに限定されない。
【0249】
加速度センサ1610は、端末1600で構築された座標系における3つの座標軸上の加速度の大きさを検出することができる。
【0250】
ジャイロセンサ1611は、端末1600の本体方向及び回転方向の角速度を検出することができ、ジャイロセンサ1611は、加速度センサ1610と協同してユーザの端末1600に対する3D動作を収集することができる。
【0251】
圧力センサ1612は、端末1600の側方縁フレーム及び/またはディスプレイ1605の下層に設置することができる。圧力センサ1612を端末1600の側方縁フレームに設置する場合は、ユーザの端末1600に対する把持信号を検出し、プロセッサ1601により圧力センサ1612が収集した把持信号に応じて左右手の識別またはクイック操作を行うことができる。圧力センサ1612をディスプレイ1605の下層に設置する場合は、プロセッサ1601によりユーザのディスプレイ1605に対する圧力操作に応じて、UIインターフェイス上の操作性制御材に対する制御を実現する。
【0252】
光学センサ1613は、環境光強度を収集するために用いられる。1つの実施例において、プロセッサ1601は光学センサ1613が収集した環境光強度に応じて、ディスプレイ1605の表示輝度を制御することができる。
【0253】
接近センサ1614は、ユーザと端末1600の正面との間の距離を収集するために用いられる。
【0254】
当業者であれば理解可能な通り、図16に示されている構造は端末1600に対する限定は構成しておらず、図示よりも更に多いまたは更に少ないコンポーネントを含むか、またはある種のコンポーネントを組み合わせるか、または異なるコンポーネントを採用して配置することができる。
【0255】
上記コンピュータ機器は、更に、サーバとして実現することができ、以下において、サーバの構造について紹介する。
【0256】
図17は本願実施例が提供するサーバの構造概略図である。当該サーバ1700は配置または性能の違いにより比較的大きな差異が生じるため、1つまたは複数のプロセッサ(Central Processing Units、CPU)1701及び1つまたは複数のメモリ1702を含むことができ、前記1つまたは複数のメモリ1702に少なくとも1つのコンピュータプログラムが記憶されており、前記少なくとも1つのコンピュータプログラムは前記1つまたは複数のプロセッサ1701によりロード並びに実行されて上記各方法の実施が提供する方法を実現する。当然、当該サーバ1700は、更に、有線または無線ネットワークインターフェイス、キーボード及び入力出力インターフェイスなどの部材を有し、簡便に入力・出力することができ、当該サーバ1700は、更に、その他の機器機能を実現するための部品を含むことができるが、ここでは詳述しない。
【0257】
例示的な実施例において、更に、コンピュータ読取り可能な記憶媒体が提供されており、当該コンピュータ読取り可能な記憶媒体には少なくとも1つのコンピュータプログラムが記憶されており、当該コンピュータプログラムはプロセッサによりロード並びに実行されて上記実施例におけるビデオクリップの識別方法を実現する。例えば、当該コンピュータ読取り可能な記憶媒体は、リードオンリーメモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、リードオンリー光ディスク(Compact Disc Read-Only Memory、CD-ROM)、磁気テープ、ソフトディスク及び光データ記憶機器などとすることができる。
【0258】
例示的な実施例において、更に、コンピュータプログラムを含むコンピュータプログラム製品が提供されており、当該コンピュータプログラムがプロセッサにより実行されると、上記ビデオクリップの識別方法が実現される。
【0259】
いくつかの実施例では、本願実施例で言及されたコンピュータプログラムは、1つのコンピュータ機器上で実行するか、または、1つの地点に位置する複数のコンピュータ機器上で実行するか、更に、複数の地点に分散し、かつ、通信ネットワークにより互いに接続された複数のコンピュータ機器上で実行するように配置することができ、複数の地点に分散し、かつ、通信ネットワークを介して相互に接続される複数のコンピュータ機器はブロックチェーンシステムを構成することができる。
【0260】
当業者であれば理解可能な通り、上記実施例のすべてまたは一部のステップの実現は、ハードウェアを介して達成することができ、プログラムを介して関連するハードウェアに指令して達成することもでき、当該プログラムはコンピュータ読取り可能な記憶媒体に記憶することができ、上記で言及された記憶媒体はリードオンリーメモリ、磁気ディスクまたは光ディスクなどとすることができる。
【0261】
上記は本願の選択可能な実施例に過ぎず、本願を制限するためのものではなく、およそ本願の精神及び原則内において、施された任意の修正、等価な差し替え、改良などは、いずれも本願の保護範囲内に含まれるものとする。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【手続補正書】
【提出日】2024-04-17
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータ機器により実行されるビデオクリップの識別方法であって、
第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得し、前記第1ビデオのビデオフレーム特徴及び前記少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定することであって、前記ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、前記第1ビデオフレームは前記第1ビデオに属し、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属することと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを得ることであって、前記出現時間差とはビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指すことと、
目標時間範囲を取得し、前記少なくとも1つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定することであって、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内にあることと、を含む、ビデオクリップの識別方法。
【請求項2】
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを前記得ることは、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に区分することであって、同一の前記ビデオフレーム群のうちのビデオフレーム対は同一の出現時間差に対応していることと、
前記複数のビデオフレーム群のうちの任意の1つのビデオフレーム群に対して、前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームの前記第1ビデオにおける出現時間に応じて、前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームを1つの前記候補ビデオクリップに融合することと、を含む、請求項1に記載の方法。
【請求項3】
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に前記区分する前に、前記方法は、更に、
前記複数のビデオフレーム対のうちの任意の1つのビデオフレーム対に対して、前記ビデオフレーム対のうちの第1ビデオフレームの第1出現時間及び第2ビデオフレームの第2出現時間を決定することであって、前記第1出現時間とは第1ビデオフレームが第1ビデオに出現する時間を指し、前記第2出現時間とは第2ビデオフレームが第2ビデオに出現する時間を指すことと、
前記ビデオフレーム対のうちの第1ビデオフレームの第1出現時間から第2ビデオフレーム対の第2出現時間を減じて、前記ビデオフレーム対の出現時間差を得ることと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対を複数のビデオフレーム群に前記区分することは、出現時間差が同一のビデオフレーム対を1つの初期ビデオフレーム群に区分し、前記初期ビデオフレーム群のうちのビデオフレーム対の出現時間差を、前記初期ビデオフレーム群に対応する出現時間差とすることを含むことと、
複数の初期ビデオフレーム群に対応する出現時間差に基づき、前記複数の初期ビデオフレーム群を融合して、前記複数のビデオフレーム群を得ることと、を含む、請求項2に記載の方法。
【請求項4】
複数の初期ビデオフレーム群に対応する出現時間差に基づき、前記複数の初期ビデオフレーム群を融合して、前記複数のビデオフレーム群を前記得ることは、
所定のコンフィギュレーション情報を取得することであって、前記コンフィギュレーション情報は目標順序を含むことと、
前記目標順序に応じて前記複数の初期ビデオフレーム群をソートして、複数の候補ビデオフレーム群を得ることと、
前記複数の候補ビデオフレーム群のうちの任意の2つの隣接する候補ビデオフレーム群に対して、前記2つの隣接する候補ビデオフレーム群間のマッチング時間差がマッチング時間差条件に合致している場合は、前記2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群に融合することであって、前記マッチング時間差とは前記2つの隣接する候補ビデオフレーム群に対応した出現時間差間の数値差を指すことと、を含む、請求項3に記載の方法。
【請求項5】
前記2つの隣接する候補ビデオフレーム群は、第1候補ビデオフレーム群及び第2候補ビデオフレーム群を含み、前記2つの隣接する候補ビデオフレーム群を1つのビデオフレーム群に前記融合することは、
前記第1候補ビデオフレーム群と前記第2候補ビデオフレーム群との間のマッチング時間差がマッチング差の閾値以下である場合は、前記第1候補ビデオフレーム群のうちのビデオフレーム対を前記第2候補ビデオフレーム群に追加することと、
前記第2候補ビデオフレーム群に対応した出現時間差に基づき、目標第2ビデオフレームを参照第2ビデオフレームに置き換えて前記ビデオフレーム群を得ることであって、前記目標第2ビデオフレームは前記第2候補ビデオフレーム群に新たに追加される第2ビデオフレームであり、前記参照第2ビデオフレームは前記第2ビデオフレームにおいて目標第1ビデオフレームとの間の出現時間差が目標差である第2ビデオフレームであり、前記目標差は前記第2候補ビデオフレーム群に対応した出現時間差であり、前記目標第1ビデオフレームは前記目標第2ビデオフレームが属するビデオフレーム対における第1ビデオフレームであることと、を含む、請求項4に記載の方法。
【請求項6】
前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームの前記第1ビデオにおける出現時間に応じて、前記ビデオフレーム群のうちのビデオフレーム対の第1ビデオフレームを1つの前記候補ビデオクリップに前記融合することは、
前記ビデオフレーム群のうちのビデオフレーム対をトラバースして、現在トラバースしている現在のビデオフレーム対及び前回トラバースした前回のビデオフレーム対を決定することであって、前記現在のビデオフレーム対及び前記前回のビデオフレーム対は前記ビデオフレーム群のうちの2つの隣接するビデオフレーム対であることと、
前記現在のビデオフレーム対及び前記前回のビデオフレーム対の第1ビデオフレームの前記第1ビデオにおける出現時間を比較して、第1ビデオフレームの出現時間の数値差を得ることと、
前記第1ビデオフレームの出現時間の数値差が出現時間条件に合致している場合は、前記現在のビデオフレーム対及び前記前回のビデオフレーム対を一時フレームリストに追加することと、
前記第1ビデオフレームの出現時間の数値差が出現時間条件に合致していない場合は、前記一時フレームリスト内のビデオフレーム対を参照ビデオクリップに融合し、融合後に前記一時フレームリストをクリアすることと、
次回トラバースするビデオフレーム対を決定して、前記次回トラバースするビデオフレーム対を新たな現在のビデオフレーム対とし、前記現在のビデオフレーム対及び前記前回のビデオフレーム対の第1ビデオフレームの第1ビデオにおける出現時間を比較するステップに戻り、最終1つのビデオフレーム対にトラバースするまで引き続き実行することと、
複数の参照ビデオクリップに基づき、前記少なくとも1つの候補ビデオクリップを決定することと、を含む、請求項2に記載の方法。
【請求項7】
前記複数の参照ビデオクリップは第1重畳ビデオクリップを含み、前記第1重畳ビデオクリップとは、前記複数の参照ビデオクリップのうちの第1参照ビデオクリップに属する参照ビデオクリップを指し、前記複数の参照ビデオクリップに基づき、前記少なくとも1つの候補ビデオクリップを決定することは、
前記複数の参照ビデオクリップに前記第1重畳ビデオクリップが含まれている場合は、前記第1重畳ビデオクリップを削除して、前記少なくとも1つの候補ビデオクリップを得ること、を含む、請求項6に記載の方法。
【請求項8】
前記複数の参照ビデオクリップは第2重畳ビデオクリップを含み、前記第2重畳ビデオクリップとは、前記複数の参照ビデオクリップのうちの第2参照ビデオクリップ部分と重畳する参照ビデオクリップを指し、前記複数の参照ビデオクリップに基づき、前記少なくとも1つの候補ビデオクリップを決定することは、
前記複数の参照ビデオクリップに前記第2重畳ビデオクリップが含まれている場合は、前記第2重畳ビデオクリップと前記第2参照クリップとの間の重畳部分を削除して、前記少なくとも1つの候補ビデオクリップを得ること、を含む、請求項6に記載の方法。
【請求項9】
前記複数の参照ビデオクリップに前記第2重畳ビデオクリップが含まれている場合は、前記第2重畳ビデオクリップと前記第2参照クリップとの間の重畳部分を前記削除した後、前記方法は、更に、
第3類参照ビデオクリップの時間長と目標時間長とを比較することであって、前記第3類参照ビデオクリップとは、重畳部分を削除した前記第2重畳ビデオクリップを指すことと、
前記第3類参照ビデオクリップの時間長が前記目標時間長以上である場合は、前記第3類参照ビデオクリップを留保することと、
前記第3類参照ビデオクリップの時間長が前記目標時間長未満である場合は、前記第3類参照ビデオクリップを削除することと、を含む、請求項8に記載の方法。
【請求項10】
前記少なくとも1つの候補ビデオクリップ及び前記目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの目標候補ビデオクリップを決定することであって、前記目標候補ビデオクリップは前記少なくとも1つの候補ビデオクリップにおける出現回数が回数条件に合致していることと、
任意の1つの前記目標候補ビデオクリップに対して、前記目標候補ビデオクリップの前記第1ビデオにおける出現時間が前記目標時間範囲にある場合は、前記目標候補ビデオクリップを前記第1ビデオにおける目標ビデオクリップとして決定することと、を含む、請求項1に記載の方法。
【請求項11】
前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの目標候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定することと、
各前記参照候補ビデオクリップの前記少なくとも1つの参照候補ビデオクリップにおける出現回数を決定することと、
出現回数が前記出現回数条件に合致している参照候補ビデオクリップを、目標候補ビデオクリップとして決定することと、を含む、請求項10に記載の方法。
【請求項12】
前記少なくとも1つの候補ビデオクリップは第3重畳ビデオクリップを含み、前記第3重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第1候補ビデオクリップに属する候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップに前記第3重畳ビデオクリップが含まれている場合は、前記第3重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項11に記載の方法。
【請求項13】
前記少なくとも1つの候補ビデオクリップは第4重畳ビデオクリップを含み、前記第4重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第2候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップが前記第4重畳ビデオクリップを含み、かつ、前記第4重畳ビデオクリップと前記第2候補ビデオクリップとの間の重畳度が重畳度条件に合致している場合は、前記第4重畳ビデオクリップの出現回数を決定し、重畳度が重畳度条件に合致している各前記第4重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも1つの参照候補ビデオクリップを決定すること、を含む、請求項11に記載の方法。
【請求項14】
前記少なくとも1つの候補ビデオクリップは第4重畳ビデオクリップを含み、前記第4重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第2候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを決定することは、
前記少なくとも1つの候補ビデオクリップが前記第4重畳ビデオクリップを含み、かつ、前記第4重畳ビデオクリップと前記第2候補ビデオクリップとの間の重畳度が前記重畳度条件に合致していない場合は、前記第4重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項11に記載の方法。
【請求項15】
前記少なくとも1つの候補ビデオクリップは第4重畳ビデオクリップを含み、前記第4重畳ビデオクリップとは、前記少なくとも1つの候補ビデオクリップのうちの第2候補ビデオクリップ部分に重畳した候補ビデオクリップを指し、前記少なくとも1つの候補ビデオクリップに基づき、少なくとも1つの参照候補ビデオクリップを前記決定することは、
前記少なくとも1つの候補ビデオクリップが前記第4重畳ビデオクリップを含み、かつ、前記第4重畳ビデオクリップの時間長が前記第2候補ビデオクリップ未満である場合は、前記第4重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項11に記載の方法。
【請求項16】
前記重畳度が重畳度条件に合致している各前記第4重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも1つの参照候補ビデオクリップを決定することは、
前記少なくとも1つの候補ビデオクリップのうちの任意の1つの重畳度条件に合致した第4重畳ビデオクリップに対して、前記第4重畳ビデオクリップの出現回数が第1出現回数閾値以上である場合は、前記第4重畳ビデオクリップと第2候補ビデオクリップとを融合して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項13に記載の方法。
【請求項17】
前記重畳度が重畳度条件に合致している各前記第4重畳ビデオクリップの各々に対応した出現回数に基づき、前記少なくとも1つの参照候補ビデオクリップを決定することは、
前記少なくとも1つの候補ビデオクリップのうちの任意の1つの重畳度条件に合致した第4重畳ビデオクリップに対して、前記第4重畳ビデオクリップの出現回数が第1出現回数閾値未満である場合は、前記第4重畳ビデオクリップを削除して、前記少なくとも1つの参照候補ビデオクリップを得ること、を含む、請求項13に記載の方法。
【請求項18】
識別対象の目標ビデオを取得し、前記識別対象の目標ビデオにおける複数の目標ビデオフレームの特徴抽出を実施して、前記複数の目標ビデオフレームのビデオフレーム特徴を得ることと、
前記複数の目標ビデオフレームのビデオフレーム特徴、前記第1ビデオフレームのビデオフレーム特徴及び前記少なくとも1つの第2ビデオフレームのビデオフレーム特徴に基づき、前記目標ビデオの少なくとも1つの目標ビデオクリップを決定することと、を更に含む、請求項1に記載の方法。
【請求項19】
第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴を取得し、第1ビデオのビデオフレーム特徴及び少なくとも1つの第2ビデオのビデオフレーム特徴に基づき、複数のビデオフレーム対を決定するためのビデオフレーム対決定モジュールであって、前記ビデオフレーム対には類似度が類似度条件に合致した第1ビデオフレーム及び第2ビデオフレームが含まれ、前記第1ビデオフレームは第1ビデオに属し、前記第2ビデオフレームは前記少なくとも1つの第2ビデオに属する、ビデオフレーム対決定モジュールと、
前記複数のビデオフレーム対の出現時間差に基づき、前記複数のビデオフレーム対のうちの第1ビデオフレームを融合して、前記第1ビデオのうちの少なくとも1つの候補ビデオクリップを得るための融合モジュールであって、前記出現時間差とは前記ビデオフレーム対における2つのビデオフレームのビデオにおける出現時間の間の数値差を指している、融合モジュールと、
目標時間範囲を取得し、前記少なくとも1つの候補ビデオクリップ及び目標時間範囲に基づき、前記第1ビデオにおける少なくとも1つの目標ビデオクリップを決定するための目標ビデオクリップ決定モジュールであって、前記目標ビデオクリップは前記第1ビデオの前記目標時間範囲内にある、目標ビデオクリップ決定モジュールと、を含む、ビデオクリップの識別装置。
【請求項20】
1つまたは複数のプロセッサ及び1つまたは複数のメモリを含み、前記1つまたは複数のメモリに少なくとも1つのコンピュータプログラムが記憶されており、前記コンピュータプログラムは前記1つまたは複数のプロセッサによりロード並びに実行されて、請求項1~請求項18のいずれか1項に記載のビデオクリップの識別方法を実装する、コンピュータ機器。
【請求項21】
コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項1~請求項18のいずれか1項に記載のビデオクリップの識別方法を実装する、コンピュータプログラム。
【国際調査報告】