(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】ビデオ識別方法及びその装置、コンピュータ機器並びにコンピュータプログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20241106BHJP
G06F 16/73 20190101ALI20241106BHJP
【FI】
H04N5/91
G06F16/73
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024522040
(86)(22)【出願日】2023-04-18
(85)【翻訳文提出日】2024-04-24
(86)【国際出願番号】 CN2023088943
(87)【国際公開番号】W WO2023246259
(87)【国際公開日】2023-12-28
(31)【優先権主張番号】202210695301.5
(32)【優先日】2022-06-20
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】郭 卉
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA04
5B175HB03
(57)【要約】
コンピュータ機器が実行するビデオ識別方法であって、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得するステップであって、ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれる、ステップ(202)と、目標ビデオと動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別するステップと(204)、目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップ(206)と、目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップ(208)と、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するステップ(210)と、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する、ビデオ識別方法であって、
ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得するステップであって、前記ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれる、ステップと、
前記目標ビデオと前記動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する動画集合局所類似セグメントを識別するステップと、
前記目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップと、
前記目標ビデオと前記プラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップと、
前記動画集合局所類似セグメント及び前記プラットフォームグローバル類似セグメントのそれぞれの前記目標ビデオにおける位置に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオ及び前記プラットフォーム参照ビデオに対する総合類似セグメントを決定するステップと、を含む
ビデオ識別方法。
【請求項2】
前記ビデオ識別方法は、
前記目標ビデオにおける、矯正キーワードを含む矯正セグメントに基づいて、前記動画集合局所類似セグメントに対して矯正更新を行い、更新後の動画集合局所類似セグメントを得るステップをさらに含み、
前記動画集合局所類似セグメント及び前記プラットフォームグローバル類似セグメントのそれぞれの前記目標ビデオにおける位置に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオ及び前記プラットフォーム参照ビデオに対する総合類似セグメントを決定するステップは、
前記更新後の動画集合局所類似セグメント及び前記プラットフォームグローバル類似セグメントのそれぞれの前記目標ビデオにおける位置に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオ及び前記プラットフォーム参照ビデオに対する総合類似セグメントを決定するステップをさらに含む
ことを特徴とする、請求項1に記載のビデオ識別方法。
【請求項3】
前記目標ビデオにおける、矯正キーワードを含む矯正セグメントに基づいて、前記動画集合局所類似セグメントに対して矯正更新を行い、更新後の動画集合局所類似セグメントを得るステップは、
前記目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定するステップと、
前記目標ビデオにおける前記矯正セグメントのタイムスタンプ位置に基づいて、前記目標ビデオにおける前記動画集合局所類似セグメントのタイムスタンプ位置を更新し、更新後のタイムスタンプ位置を得るステップと、
前記更新後のタイムスタンプ位置に基づいて、前記目標ビデオにおける更新後の動画集合局所類似セグメントを決定するステップと、を含む
ことを特徴とする、請求項2に記載のビデオ識別方法。
【請求項4】
前記目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定するステップは、
前記目標ビデオにおけるビデオフレームに対してテキスト識別を行い、テキスト識別結果を得るステップと、
前記テキスト識別結果を矯正キーワードとマッチングして、マッチング結果を取得するステップと、
マッチングが一致するというマッチング結果に関連するビデオフレームに基づいて、前記目標ビデオから前記矯正キーワードを含む矯正セグメントを決定するステップと、を含む
ことを特徴とする、請求項3に記載のビデオ識別方法。
【請求項5】
前記プラットフォーム参照ビデオは、前記目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメントと、前記ビデオプラットフォームから取得したプラットフォーム関連ビデオとを含み、
前記目標ビデオと前記プラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップは、
前記目標ビデオと前記プラットフォーム公用ビデオセグメントとのビデオフレームマッチングを行い、公用ビデオマッチング結果を得るステップと、
前記公用ビデオマッチング結果に基づいて類似セグメントが識別できない場合、前記目標ビデオと前記プラットフォーム関連ビデオとに対してビデオフレームマッチングを行い、関連ビデオマッチング結果を得るステップと、
前記関連ビデオマッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを識別するステップと、を含む
ことを特徴とする、請求項1に記載のビデオ識別方法。
【請求項6】
前記関連ビデオマッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを識別するステップの後、前記ビデオ識別方法は、
前記プラットフォームグローバル類似セグメントの識別統計パラメータを更新し、更新後の識別統計パラメータを得るステップと、
前記更新後の識別統計パラメータがプラットフォーム公用判定条件を満たす場合、前記プラットフォームグローバル類似セグメントをプラットフォーム公用ビデオセグメントとして前記公用ビデオライブラリ内に更新するステップと、をさらに含む
ことを特徴とする、請求項5に記載のビデオ識別方法。
【請求項7】
前記目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップは、
前記目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから、プラットフォーム公用ビデオセグメントを取得するステップを含み、
前記目標ビデオと前記プラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップは、
前記目標ビデオと前記プラットフォーム公用ビデオセグメントとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム公用ビデオセグメントに対するプラットフォームグローバル類似セグメントを識別するステップを含む
ことを特徴とする、請求項1に記載のビデオ識別方法。
【請求項8】
前記目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップは、
前記目標ビデオが属するビデオプラットフォーム、及び前記目標ビデオにおけるビデオフレームに含まれる矯正キーワードを決定するステップと、
前記ビデオプラットフォームにおける、前記矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会するステップと、
参照ビデオスクリーニング条件に従って、前記プラットフォーム関連ビデオからスクリーニングしてプラットフォーム参照ビデオを得るステップと、を含む
ことを特徴とする、請求項1に記載のビデオ識別方法。
【請求項9】
前記ビデオ識別方法は、
前記ビデオプラットフォームに属するプラットフォームビデオにおけるビデオフレームに対してテキスト識別を行い、ビデオキーワードを得るステップと、
前記ビデオキーワードに基づいてキーワードライブラリ内でマッチングを行い、前記ビデオキーワードにマッチし合う目標キーワードを決定するステップと、
前記プラットフォームビデオと前記目標キーワードとの関連関係を確立するステップと、を含み、
前記ビデオプラットフォームにおける、前記矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会するステップは、
前記関連関係に基づいて、前記ビデオプラットフォームにおける、前記矯正キーワードに関連するプラットフォーム関連ビデオを照会するステップを含む
ことを特徴とする、請求項8に記載のビデオ識別方法。
【請求項10】
前記動画集合局所類似セグメント及び前記プラットフォームグローバル類似セグメントのそれぞれの前記目標ビデオにおける位置に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオ及び前記プラットフォーム参照ビデオに対する総合類似セグメントを決定するステップは、
前記目標ビデオにおける前記動画集合局所類似セグメントの第1タイムスタンプ位置、及び前記目標ビデオにおける前記プラットフォームグローバル類似セグメントの第2タイムスタンプ位置を決定するステップと、
前記第1タイムスタンプ位置と前記第2タイムスタンプ位置とをマージし、総合タイムスタンプ位置を得るステップと、
前記総合タイムスタンプ位置に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオ及び前記プラットフォーム参照ビデオに対する総合類似セグメントを決定するステップと、を含む
ことを特徴とする、請求項1に記載のビデオ識別方法。
【請求項11】
前記目標ビデオと前記動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する動画集合局所類似セグメントを識別するステップは、
前記目標ビデオと前記動画集合参照ビデオとをビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するステップであって、前記ビデオフレームペアは、前記目標ビデオに属する識別対象ビデオフレームを含み、さらに、前記動画集合参照ビデオにおける、前記識別対象ビデオフレームと画像マッチングする動画集合参照ビデオフレームを含む、ステップと、
前記ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、前記ビデオフレームペアの時間オフセットを決定するステップと、
時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップと、を含む
ことを特徴とする、請求項1~10のいずれか一項に記載のビデオ識別方法。
【請求項12】
前記時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップは、
各前記ビデオフレームペアの時間オフセットに対して数値マッチングを行い、数値マッチング結果に基づいて時間オフセットが数値的にマッチし合うビデオフレームペアをスクリーニングするステップと、
スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、開始時間及び終了時間を決定するステップと、
前記開始時間及び前記終了時間に基づいて、前記目標ビデオから前記動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップと、を含む
ことを特徴とする、請求項11に記載のビデオ識別方法。
【請求項13】
前記各前記ビデオフレームペアの時間オフセットに対して数値マッチングを行い、数値マッチング結果に基づいて時間オフセットが数値的にマッチし合うビデオフレームペアをスクリーニングするステップは、
各前記ビデオフレームペアの時間オフセットをそれぞれ数値比較し、数値比較結果を取得するステップと、
前記数値比較結果に基づいて、各前記ビデオフレームペアから時間オフセットの数値差が数値差閾値より小さいビデオフレームペアをスクリーニングするステップと、
時間オフセットの数値差が数値差閾値より小さいビデオフレームペアに対してオフセット更新を行い、時間オフセットが数値的にマッチし合うビデオフレームペアを取得するステップと、を含む
ことを特徴とする、請求項12に記載のビデオ識別方法。
【請求項14】
前記動画集合参照ビデオは、少なくとも2つであり、前記時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップは、
時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する中間類似セグメントを決定するステップと、
前記目標ビデオにおける、各前記動画集合参照ビデオに対する中間類似セグメントのうちの重畳関係が存在する各中間類似セグメントに対して、セグメント更新を行い、前記目標ビデオにおける、各前記動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップと、を含む
ことを特徴とする、請求項11に記載のビデオ識別方法。
【請求項15】
前記目標ビデオにおける、各前記動画集合参照ビデオに対する中間類似セグメントのうちの重畳関係が存在する各中間類似セグメントに対して、セグメント更新を行い、前記目標ビデオにおける、各前記動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップは、
前記目標ビデオにおける、各前記動画集合参照ビデオに対する中間類似セグメントに対してセグメント位置比較を行い、セグメント比較結果を得るステップと、
セグメント比較結果として重畳関係が存在する各中間類似セグメントを決定するステップと、
重畳関係が存在する各中間類似セグメントの重畳時間長と統計量に基づいて、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、前記目標ビデオにおける、各前記動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップと、を含む
ことを特徴とする、請求項14に記載のビデオ識別方法。
【請求項16】
前記目標ビデオと前記動画集合参照ビデオとをビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するステップは、
前記目標ビデオから識別対象ビデオフレームを抽出し、前記動画集合参照ビデオから動画集合参照ビデオフレームを抽出するステップと、
前記識別対象ビデオフレームのビデオフレーム特徴、及び前記動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出するステップと、
前記識別対象ビデオフレームのビデオフレーム特徴を、前記動画集合参照ビデオフレームのビデオフレーム特徴と特徴マッチングを行い、特徴マッチングに成功した識別対象ビデオフレームと動画集合参照ビデオフレームに基づいて、ビデオフレームペアを得るステップと、を含む
ことを特徴とする、請求項11に記載のビデオ識別方法。
【請求項17】
前記目標ビデオと前記プラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップは、
前記目標ビデオと前記プラットフォーム参照ビデオとに対してビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するステップであって、前記ビデオフレームペアは、前記目標ビデオに属する識別対象ビデオフレームを含み、さらに、前記プラットフォーム参照ビデオにおける前記識別対象ビデオフレームと画像マッチングするプラットフォーム参照ビデオフレームを含む、ステップと、
前記ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、前記ビデオフレームペアの時間オフセットを決定するステップと、
時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、前記目標ビデオにおける、前記プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを決定するステップと、を含む
ことを特徴とする、請求項1に記載のビデオ識別方法。
【請求項18】
ビデオ識別装置であって、
ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得するように構成される、動画集合ビデオ取得モジュールであって、前記ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれる、動画集合ビデオ取得モジュールと、
前記目標ビデオと前記動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオに対する動画集合局所類似セグメントを識別するように構成される、局所類似セグメント識別モジュールと、
前記目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するように構成される、プラットフォームビデオ取得モジュールと、
前記目標ビデオと前記プラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、前記目標ビデオにおける、前記プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するように構成される、グローバル類似セグメント識別モジュールと、
前記動画集合局所類似セグメント及び前記プラットフォームグローバル類似セグメントのそれぞれの前記目標ビデオにおける位置に基づいて、前記目標ビデオにおける、前記動画集合参照ビデオ及び前記プラットフォーム参照ビデオに対する総合類似セグメントを決定するように構成される、総合類似セグメント決定モジュールと、
を備える
ビデオ識別装置。
【請求項19】
コンピュータ可読命令が格納されるメモリと、前記コンピュータ可読命令が実行されるときに、請求項1~10、17のいずれか一項に記載の方法のステップを実行するプロセッサと、を備える、コンピュータ機器。
【請求項20】
プロセッサに、請求項1~10、17のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願は、2022年06月20日に中国特許局に提出された、出願番号が202210695301.5であり、発明の名称が「ビデオ識別方法及びその装置、コンピュータ機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
【0002】
本願は、コンピュータ技術分野に関し、特に、ビデオ識別方法及びその装置、コンピュータ機器、記憶媒体並びにコンピュータプログラム製品に関する。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、様々なネットワークビデオプラットフォームが登場しており、ネットワーク中の映画ビデオリソース以外に、人々はさらに、ネットワークビデオプラットフォームで、講義連載、知識共有、文芸教室、時評エピソード、娯楽ビデオ等の各種類のビデオを含む様々なビデオを自主的に創作し、視聴者の新しい視聴需要を満たすことができる。様々なネットワークビデオプラットフォームのビデオには、通常オープニング及びエンディング等の類似のビデオセグメントが作成されており、当該ビデオセグメントは、ビデオそのもののコンテンツではなく、ビデオ比較やビデオの編集処理を行うときに、当該ビデオセグメントを識別して除去する必要があるが、現在、ビデオにおけるオープニング及びエンディング等の類似のビデオセグメントに対する識別精度が低い。
【発明の概要】
【0004】
本発明で提供される様々な実施例によれば、ビデオ識別方法及びその装置、コンピュータ機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供する。
【0005】
第1態様において、本発明は、コンピュータ機器が実行するビデオ識別方法を提供し、前記方法は、
ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得するステップであって、ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれる、ステップと、
目標ビデオと動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別するステップと、
目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップと、
目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップと、
動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するステップと、を含む。
【0006】
第2態様において、本発明は、ビデオ識別装置をさらに提供する。前記装置は、
ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得するように構成される、動画集合ビデオ取得モジュールであって、ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれる、動画集合ビデオ取得モジュールと、
目標ビデオと動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別するように構成される、局所類似セグメント識別モジュールと、
目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するように構成される、プラットフォームビデオ取得モジュールと、
目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するように構成される、グローバル類似セグメント識別モジュールと、
動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するように構成される、総合類似セグメント決定モジュールと、を備える。
【0007】
第3態様において、本発明は、コンピュータ機器をさらに提供する。前記コンピュータ機器は、コンピュータ可読命令が記憶されるメモリと、前記コンピュータ可読命令を実行するときに上記のビデオ識別方法を実現するプロセッサと、を備える。
【0008】
第4態様において、本発明は、コンピュータ可読記憶媒体をさらに提供する。前記コンピュータ可読記憶媒体には、コンピュータ可読命令が格納され、前記コンピュータ可読命令がプロセッサによって実行されるときに、上記のビデオ識別方法を実現する。
【0009】
第5態様において、本発明は、コンピュータプログラム製品をさらに提供する。前記コンピュータプログラム製品は、コンピュータ可読命令を含み、当該コンピュータ可読命令がプロセッサによって実行されるときに、上記のビデオ識別方法を実現する。
【0010】
本発明の1つ又は複数の実施例の詳細は、以下の図面及び説明で提出される。本発明の他の特徴、目的及び利点は、明細書、図面及び特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0011】
【
図1】一実施例におけるビデオ識別方法の適用環境図である。
【
図2】一実施例におけるビデオ識別方法のフローチャートである。
【
図3】一実施例におけるプラットフォームグローバル類似セグメントの識別処理のフローチャートである。
【
図4】一実施例におけるユーザコンピレーションビデオを制作するフローチャートである。
【
図5】一実施例におけるビデオ比較のフローチャートである。
【
図6】一実施例におけるプラットフォーム画面のオープニングを紹介するインターフェース概略図である。
【
図7】一実施例におけるビデオ再生本編コンテンツのインターフェース概略図である。
【
図8】一実施例におけるプラットフォーム画面のエンディングを紹介するインターフェース概略図である。
【
図9】一実施例における第1期間のビデオプラットフォーム紹介画面のインターフェース概略図である。
【
図10】一実施例における第2期間のビデオプラットフォーム紹介画面のインターフェース概略図である。
【
図11】一実施例におけるオープニング及びエンディングの識別方法の全体フローチャートである。
【
図12】一実施例におけるオープニング及びエンディングのマイニング方法の概略ブロック図である。
【
図13】一実施例におけるオープニング補正の処理概略図である。
【
図14】一実施例におけるオープニング補正の処理概略図である。
【
図15】一実施例におけるマッチングセグメント情報の概略図である。
【
図16】一実施例における時間帯が包括される概略図である。
【
図17】一実施例における時間帯に重畳部分が存在する場合の終了時間を更新する概略図である。
【
図18】一実施例における時間帯に重畳部分が存在する場合の開始点時間の更新する概略図である。
【
図19】一実施例における時間帯に重畳部分が存在する場合の概略図である。
【
図20】一実施例における推薦されるオープニング及びエンディングのカウントを更新する概略図である。
【
図21】一実施例におけるビデオ識別装置の構成を示すブロック図である。
【
図22】一実施例におけるコンピュータ機器の内部構成図である。
【発明を実施するための形態】
【0012】
以下、添付図面および実施例を参照して、本発明の目的、技術的解決策及び利点をより明確にするために、本発明についてさらに詳細に説明する。また、本明細書で記載された具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するためのものではない。
【0013】
本発明の実施例が提供するビデオ識別方法は、
図1に示すような適用環境に適用されることができる。ここで、端末102は、ネットワークとサーバ104によって通信する。データストレージシステムは、サーバ104が処理する必要があるデータを格納することができる。データストレージシステムは、サーバ104に統合することも、クラウド上に配置することも、他のサーバ上に配置することもできる。サーバ104は、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオに対してビデオフレームマッチングを行い、得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別し、目標ビデオが属するビデオプラットフォームのプラットフォーム参照ビデオを目標ビデオにビデオフレームマッチングを行い、得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別し、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける総合類似セグメントを決定する。端末102が当該目標ビデオを再生するとき、サーバ104は、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントのセグメント情報を端末102に送信し、端末102は、受信したセグメント情報に基づいて、目標ビデオにおける総合類似セグメントの再生をスキップすることができ、総合類似セグメントがオープニング又はエンディングである場合、オープニング又はエンディングの再生をスキップすることができ、端末102のビデオ再生効率を向上させることができる。さらに、本発明で提供されるビデオ識別方法は、ビデオの識別処理を実現するために、端末102又はサーバ104が単独で実行してもよいし、端末102とサーバ104が共同で実行してもよい。ここで、端末102は各種のデスクトップコンピュータ、ノートパソコン、スマートフォン、タブレットPC、モノのインターネット設備、携帯用ウェアラブルデバイスを含むが、これらに限定されない。モノのインターネット設備は、スマート音声インタラクションデバイス、スマートテレビ、スマートエアコン等スマート家電、スマート車載設備、飛行機等である。携帯用ウェアラブルデバイスは、スマートウォッチ、スマートバンド、ヘッドマウントデバイス等である。サーバ104は、独立したサーバ又は複数のサーバで構成されるサーバクラスタ又はクラウドサーバで実装できる。
【0014】
一実施例では、
図2に示すように、ビデオ識別方法を提供し、当該方法は、端末又はサーバ等の電子機器が単独で実行してもよいし、端末とサーバが共同で実行してもよく、本発明の実施例では、当該方法を
図1のサーバに適用する例を挙げて説明する。当該方法は、以下のステップを含む。
【0015】
ステップ202において、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得し、ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれる。
【0016】
ここで、ビデオシリーズ動画集合は、同一シリーズに属する複数のビデオの集合であり、同一シリーズに属することは、実際のニーズに基づいて、異なるシリーズ次元に従って分割することができる。例えば、同一連続ドラマが同一シリーズに属すると見なすことができ、この場合、当該ドラマに含まれる各テレビ映像からなる集合、即ち、当該ドラマのビデオシリーズ動画集合であると見なすことができ、また、同一クリエイターが制作したビデオが同一シリーズに属すると見なすことができ、この場合、当該クリエイターが制作した各ビデオからなる集合をビデオシリーズ動画集合とすることができ、各ビデオの時間は異なってもよい。さらに、同一シリーズは、同じテーマに関するビデオ、同一制作地で制作されたビデオ等であってもよい。ビデオシリーズ動画集合には、複数のビデオが含まれ、複数のビデオは、類似のセグメントを有することができる。例えば、同一クリエイターによって制作されたビデオの場合、各ビデオの先頭にクリエイターを紹介するオープニングが存在することができ、ビデオを要約するエンディング等が存在することもできる。ビデオのオープニングは、一般的にビデオの開始を示すために使用され、ビデオのエンディングは、ビデオの終了を示すために使用される。オープニングとエンディングの形式は様々であり、具体的には、オーディオビデオの素材、テキスト、ロゴ等を含むが、これらに限定されない。
【0017】
目標ビデオは、ビデオシリーズ動画集合内の、識別処理をしようとするビデオであり、即ち、目標ビデオから他のビデオに類似するビデオセグメントを識別しようとする。例えば、オープニングとエンディングを識別し、オープニングとエンディングは、他のビデオに類似するビデオセグメントである。参照ビデオは、目標ビデオ識別のための参照として使用され、即ち、参照ビデオに基づいて、目標ビデオにおける類似ビデオセグメントを識別する。動画集合参照ビデオは、ビデオシリーズ動画集合からサンプリングして抽出した参照ビデオである。動画集合参照ビデオと目標ビデオは同一ビデオシリーズ動画集合に属し、同一ビデオシリーズ動画集合に属する各ビデオ間に類似ビデオセグメントが存在し得、再生中にスキップしたり、ビデオの本編を正確に編集処理したりすることができる。動画集合参照ビデオのビデオ数は、実際のニーズに応じて設定することができる。例えば、動画集合参照ビデオの数を固定数に設定したり、目標ビデオの時間、ビデオシリーズ動画集合に含まれるビデオ数に基づいて設定したりできる。例えば、目標ビデオの時間が長いほど、動画集合参照ビデオの数を増やすように設定し、ビデオシリーズ動画集合に含まれるビデオ数が多いほど、動画集合参照ビデオの数を増やすように設定することができる。さらに、動画集合参照ビデオの数がビデオシリーズ動画集合に含まれるビデオ数の固定比率であるように設定することもできる。例えば、50%に設定することができ、そうすると、ビデオシリーズ動画集合に含まれるビデオ数が20である場合、動画集合参照ビデオの数は10であり得、つまり、ビデオシリーズ動画集合から目標ビデオ以外に10個のビデオを動画集合参照ビデオとして抽出する。
【0018】
具体的に、ビデオ識別イベントをトリガした場合、ビデオ識別処理が必要であることが示される。サーバは、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得し、具体的に、サーバが、ビデオ識別イベントの対象となるビデオシリーズ動画集合を決定し、サーバが、ビデオシリーズ動画集合を照会し、ビデオシリーズ動画集合から目標ビデオを決定し、サーバが、ビデオシリーズ動画集合から動画集合参照ビデオを抽出する。それにより、同一ビデオシリーズ動画集合に属する目標ビデオと動画集合参照ビデオを取得する。さらに、サーバは、目標ビデオを決定した後、目標ビデオによって分割されたビデオシリーズ動画集合を決定し、それにより、当該ビデオシリーズ動画集合から目標ビデオと動画集合参照ビデオを取得する。
【0019】
ステップ204において、目標ビデオと動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別する。
【0020】
ここで、ビデオフレームとは、複数のビデオフレームからなるビデオ内の各画像フレームを指し、即ち、ビデオに複数のビデオフレームが含まれ、各ビデオフレームは1つの画像である。ビデオフレームマッチングとは、異なるビデオに属するビデオフレームに対して画像マッチング処理を行い、異なるビデオに存在する、マッチし合うビデオフレームを決定する。例えば、類似度がマッチし合うビデオフレームが存在するか、画像コンテンツがマッチし合うビデオフレームが存在するか等である。例えば、第1ビデオから抽出された第1ビデオフレームを、第2ビデオから抽出された第2ビデオフレームと画像マッチングを行い、それにより、第1ビデオから第2ビデオのビデオフレームとマッチし合うビデオフレームを決定することができ、例えば、同じ画像コンテンツを含むビデオフレームであってもよく、例えば、オープニングコンテンツ又はエンディングコンテンツの両方を含むビデオフレームである。第1マッチング結果は、目標ビデオと動画集合参照ビデオとをビデオフレームマッチングを行って得られた画像マッチング結果であり、第1マッチング結果は、具体的に、目標ビデオと動画集合参照ビデオにおいて識別して得られたマッチし合うビデオフレームを含み得る。目標ビデオと動画集合参照ビデオとのビデオフレームマッチング処理について、目標ビデオ内のビデオフレームと動画集合参照ビデオ内のビデオフレームに対して類似度マッチングを行い、類似度閾値を満たす類似度に対応するビデオフレームに基づいて、目標ビデオと動画集合参照ビデオとの間でマッチし合うビデオフレームを含む第1マッチング結果を得ることができる。
【0021】
類似セグメントとは、異なるビデオ間で画面が類似のビデオセグメントを指し、動画集合局所類似セグメントとは、目標ビデオ内における、動画集合参照ビデオにおけるセグメントに類似のビデオセグメントを指す。目標ビデオにおける動画集合局所類似セグメントは、参照ビデオにおけるセグメントに類似する場合、当該動画集合局所類似セグメントは、目標ビデオと動画集合参照ビデオの重畳しているビデオコンテンツである可能性があり、例えば、目標ビデオと動画集合参照ビデオが重複利用されているビデオコンテンツであり得、具体的には、オープニング、エンディング、広告、プラットフォーム紹介情報等の重複利用のビデオコンテンツであり得る。
【0022】
具体的に、サーバは、目標ビデオと動画集合参照ビデオを識別し、目標ビデオにおける動画集合参照ビデオと類似するビデオセグメントを識別する。サーバは、目標ビデオと動画集合参照ビデオに対してビデオフレームマッチングを行い、具体的には、目標ビデオと動画集合参照ビデオのそれぞれからビデオフレームをそれぞれ抽出し、抽出されたビデオフレームに対して画像マッチングを行うことができる。例えば、画像類似度マッチングを行い、第1マッチング結果を得る。サーバは、第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別し、具体的には、サーバによって、例えば、目標ビデオフレームにおけるマッチし合うフレームのタイムスタンプ位置等のような、目標ビデオと動画集合参照ビデオのマッチし合うビデオフレームの時間属性に基づいて、動画集合局所類似セグメントを決定する。動画集合局所類似セグメントを得ることは、目標ビデオが属するビデオシリーズ動画集合の動画集合参照ビデオに基づいて、目標ビデオに対して識別して得ることであり、ビデオプラットフォーム全体の各ビデオに基づいて行うことに対して、局所ビデオに基づいて識別して得られる類似セグメントである。
【0023】
例えば、得られた第1マッチング結果において、目標ビデオの1秒目のビデオフレームと動画集合参照ビデオの3秒目のビデオフレームがマッチし合い、目標ビデオの2秒目のビデオフレームと動画集合参照ビデオの4秒目のビデオフレームがマッチし合い、目標ビデオの3秒目のビデオフレームと動画集合参照ビデオの5秒目のビデオフレームがマッチし合い、目標ビデオの4秒目のビデオフレームと動画集合参照ビデオの6秒目のビデオフレームがマッチし合う場合、サーバは、目標ビデオの1秒目ないし4秒目のビデオセグメントを、動画集合参照ビデオに対する動画集合局所類似セグメントであると決定することができ、それにより、動画集合局所類似セグメントを識別して得る。
【0024】
ステップ206において、目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得する。
【0025】
ここで、ビデオプラットフォームとは、ビデオリソースを提供可能なプラットフォームを指し、ユーザは、ビデオプラットフォームでビデオの再生視聴、ダウンロード、お気に入り等の操作を行うことができる。具体的な実装では、ビデオクリエイターは、ビデオ視聴者が視聴できるように、制作したビデオをビデオプラットフォームに配布(配信)する。プラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームからのものであり、即ち、目標ビデオと同じビデオプラットフォームに属するものである。具体的には、目標ビデオが属するビデオプラットフォームから抽出されたビデオを、目標ビデオを識別するための参照ビデオとして使用されることができる。
【0026】
具体的に、サーバは、プラットフォーム参照ビデオを取得し、実現時に、サーバが、目標ビデオが属するビデオプラットフォームを決定し、当該ビデオプラットフォームに属するプラットフォーム参照ビデオを取得する。具体的な適用には、プラットフォーム参照ビデオは、ビデオプラットフォームから直接取得したオリジナルのプラットフォームビデオ、即ち、更なる処理が行われていないプラットフォームビデオであり、プラットフォーム参照ビデオは、オリジナルのプラットフォームビデオに対して編集操作を行ったビデオであり得、例えば、オリジナルのプラットフォームビデオから切り出したビデオセグメントであり得る。
【0027】
ステップ208において、目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別する。
【0028】
ここで、第2マッチング結果は、目標ビデオとプラットフォーム参照ビデオがビデオフレームマッチングを行って得られた画像マッチング結果であり、第2マッチング結果は、具体的には、目標ビデオとプラットフォーム参照ビデオにおいて識別して得られた、マッチし合うビデオフレームを含むことができ、例えば、類似度がマッチし合うビデオフレームが存在するか、画像コンテンツがマッチし合うビデオフレームが存在するか等を含み得る。目標ビデオとプラットフォーム参照ビデオのビデオフレームマッチング処理について、目標ビデオと動画集合参照ビデオとのビデオフレームマッチングと同じ処理方式を採用することができる。プラットフォームグローバル類似セグメントは、目標ビデオにおいて、プラットフォーム参照ビデオ内のセグメントと類似するビデオセグメントを指す。
【0029】
具体的に、サーバは、目標ビデオとプラットフォーム参照ビデオを識別し、目標ビデオにおけるプラットフォーム参照ビデオと類似するビデオセグメントを識別する。サーバは、目標ビデオとプラットフォーム参照ビデオに対してビデオフレームマッチングを行い、具体的には、目標ビデオとプラットフォーム参照ビデオのそれぞれからビデオフレームをそれぞれ抽出し、抽出されたビデオフレームを画像マッチングし、第2マッチング結果を得る。サーバは、第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別する。プラットフォームグローバル類似セグメントを得ることは、目標ビデオが属するビデオプラットフォームにおけるプラットフォーム参照ビデオによって、目標ビデオに対して識別して得ることを指し、ビデオプラットフォーム全体における各ビデオに基づいてグローバルビデオ識別を行って得られた類似セグメントである。
【0030】
ステップ210において、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定する。
【0031】
ここで、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置は、動画集合局所類似セグメントとプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおけるタイムスタンプ位置を指す。例えば、動画集合局所類似セグメントが2秒目ないし6秒目のビデオセグメントである場合、動画集合局所類似セグメントの目標ビデオにおける位置は、2秒目ないし6秒目のタイムスタンプ位置であり得、プラットフォームグローバル類似セグメントが3秒目ないし8秒目のビデオセグメントである場合、プラットフォームグローバル類似セグメントの目標ビデオにおける位置は、3秒目ないし8秒目のタイムスタンプ位置であり得る。総合類似セグメントは、動画集合局所類似セグメントとプラットフォームグローバル類似セグメントに基づいて、総合して得られたビデオ識別結果である。
【0032】
具体的に、サーバは、動画集合局所類似セグメントとプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置を決定し、当該位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定する。例えば、動画集合局所類似セグメントの位置が2秒目ないし6秒目であり、プラットフォームグローバル類似セグメントの位置が3秒目ないし8秒目である場合、サーバは、両者の位置をマージし、2秒目ないし8秒目の位置に対応するビデオセグメントを目標ビデオにおける総合類似セグメントとして決定することができる。さらに、より正確な総合類似セグメントを得るように、ユーザが総合類似セグメントを調整することができる。
【0033】
具体的に適用する場合、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定した後、総合類似セグメントは、目標ビデオ内の重複利用のビデオセグメントであり得、例えば、オープニング、エンディング、広告又はプラットフォーム情報等のビデオコンテンツである可能性があり、目標ビデオを再生するとき、当該総合類似セグメントをスキップして再生することができ、それにより、再生効率を向上させる。さらに、ビデオ比較の適用シーンにおいて、ビデオシリーズ動画集合の各ビデオに重複利用されるオープニング、エンディング又は広告コンテンツが存在し、比較が不要である場合、目標ビデオから総合類似セグメントを切り取ることができ、それにより、目標ビデオにおける他のビデオセグメントに対してビデオ比較を行い、ビデオ比較処理のデータ量を削減し、ビデオ比較の処理効率を向上させることができる。
【0034】
上記のビデオ識別方法では、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオに対してビデオフレームマッチングを行い、得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別し、目標ビデオが属するビデオプラットフォームのプラットフォーム参照ビデオと目標ビデオに対してビデオフレームマッチングを行い、得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別し、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける総合類似セグメントを決定する。動画集合局所類似セグメントは、目標ビデオと同じビデオシリーズ動画集合に属する動画集合参照ビデオに基づいて識別して得られたものであり、プラットフォームグローバル類似セグメントは、目標ビデオと同じビデオプラットフォームに属するプラットフォーム参照ビデオに基づいて識別して得られたものであり、動画集合局所類似セグメントとプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて得られた総合類似セグメントは、ビデオシリーズ動画集合におけるビデオ類似特性及びビデオプラットフォームにおけるビデオ類似特性を考慮し、ビデオ内の類似ビデオセグメントに対する識別の精度を向上させる。
【0035】
一実施例では、ビデオ識別方法は、目標ビデオにおける、矯正キーワードを含む矯正セグメントに基づいて、動画集合局所類似セグメントに対して矯正更新を行い、更新後の動画集合局所類似セグメントを得る。
【0036】
ここで、矯正キーワードは、ビデオ識別の精度を向上させるために、目標ビデオのビデオ識別に対して矯正処理を行うためのキーワードである。矯正キーワードは、具体的には、プラットフォーム紹介情報のキーワード、広告キーワード、ビデオ紹介キーワード等の様々なタイプのキーワードであり得る。例えば、あるビデオAの2秒目ないし4秒目のビデオセグメントの表示コンテンツが「第N話」又は「単なるフィクション」というビデオ紹介キーワードである場合、当該ビデオセグメントは目標ビデオにおける本編ビデオコンテンツではなく、類似セグメントに属すると見なすことができる。さらに例えば、あるビデオBに1秒目ないし2.5秒目のビデオセグメントの表示コンテンツが「XXXビデオプラットフォーム」のプラットフォーム紹介情報である場合、当該ビデオセグメントが目標ビデオにおける本編ビデオコンテンツではなく、ビデオプラットフォームの各ビデオに重複利用される類似セグメントに属すると決定することができる。矯正セグメントは、目標ビデオのうち、ビデオ識別に対して矯正処理が必要なビデオセグメントであり、具体的には、目標ビデオにおける、矯正キーワードを含むビデオセグメントであり得る。例えば、上記のビデオB内の1秒目ないし2.5秒目のビデオセグメントに「XXXビデオプラットフォーム」の矯正キーワードが含まれる場合、ビデオB内の1秒目ないし2.5秒目のビデオセグメントを矯正セグメントとして決定することができる。
【0037】
具体的に、サーバは、目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定し、適用時に、サーバは、目標ビデオにおけるビデオフレームに対してテキスト識別を行い、目標ビデオのビデオフレーム内の、矯正キーワードを含む矯正セグメントを識別することができる。矯正キーワードは、実際のニーズに応じて事前に設定することができ、例えば、プラットフォーム紹介情報のキーワード、広告キーワード又はビデオ紹介キーワード等の様々なタイプのキーワードを含むことができる。サーバは、目標ビデオにおける矯正セグメントに基づいて、動画集合局所類似セグメントに対して矯正更新を行い、具体的には、目標ビデオにおける矯正セグメントの位置などのような、目標ビデオにおける矯正セグメントの分布を利用して、目標ビデオにおける動画集合局所類似セグメントの位置に対して矯正更新を行い、目標ビデオにおける動画集合局所類似セグメントの位置を更新し、更新後の動画集合局所類似セグメントを得る。矯正セグメントが矯正キーワードを含む場合、矯正セグメントも各ビデオに重複利用される類似セグメントに属すると見なし、矯正セグメントもビデオ識別の結果とする必要がある。例えば、あるビデオCの動画集合局所類似セグメントが2秒目ないし5秒目のビデオセグメントであるが、当該ビデオCに矯正キーワードの矯正セグメントの0秒目ないし2秒目が含まれる場合、サーバは、更新後の動画集合局所類似セグメントが0秒目ないし5秒目のビデオセグメントであると決定することができ、それにより、矯正セグメントに基づいて、動画集合局所類似セグメントに対して矯正更新を行い、ビデオ識別の精度を向上させる。
【0038】
さらに、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するステップは、更新後の動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するステップを含む。
【0039】
具体的に、サーバは、更新後の動画集合局所類似セグメントとプラットフォームグローバル類似セグメントに基づいて、総合類似セグメントを決定する。適用時には、サーバは、更新後の動画集合局所類似セグメントとプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置を決定することができ、当該位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定することができる。
【0040】
本実施例では、目標ビデオにおける、矯正キーワードを含む矯正セグメントにより、動画集合局所類似セグメントに対して矯正更新を行い、更新後の動画集合局所類似セグメントとプラットフォームグローバル類似セグメントに基づいて、総合類似セグメントを決定し、矯正キーワードを利用して動画集合局所類似セグメントに対して矯正更新を行うことができ、重複利用の矯正キーワードのビデオセグメントを識別することができ、ビデオ中の類似ビデオセグメントの識別精度を向上させることができる。
【0041】
一実施例では、目標ビデオにおける、矯正キーワードを含む矯正セグメントに基づいて、動画集合局所類似セグメントに対して矯正更新を行い、更新後の動画集合局所類似セグメントを得るステップは、目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定し、目標ビデオにおける矯正セグメントのタイムスタンプ位置に基づいて、目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置に対して更新し、更新後のタイムスタンプ位置を得るステップと、更新後のタイムスタンプ位置に基づいて、目標ビデオにおける更新後の動画集合局所類似セグメントを決定するステップを含む。
【0042】
ここで、タイムスタンプ位置は、ビデオセグメントの属するビデオにおけるタイムスタンプの位置を指し、例えば、あるビデオ時間が2分間である場合、タイムスタンプは、00:00ないし02:00であり、当該ビデオにおけるビデオセグメントが23秒目ないし59秒目のセグメントである場合、ビデオにおける当該ビデオセグメントのタイムスタンプ位置は、00:23ないし00:59である。ビデオ内の異なるビデオセグメントは、異なるタイムスタンプ位置があり、当該タイムスタンプ位置に応じて、ビデオから対応するビデオセグメントを決定することができる。
【0043】
具体的に、サーバは、目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定し、例えば、サーバは、目標ビデオにおけるビデオフレームに対してテキスト識別を行い、それにより、目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定することができる。サーバは、目標ビデオにおける矯正セグメントのタイムスタンプ位置、及び目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置を決定する。サーバは、目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置を更新し、更新後のタイムスタンプ位置を得、更新後のタイムスタンプ位置に基づいて、目標ビデオにおける更新後の動画集合局所類似セグメントを決定する。
【0044】
例えば、サーバは、目標ビデオにおける、矯正キーワードを含む矯正セグメントが30秒目ないし31秒目のビデオセグメントであると決定した場合、サーバは、矯正セグメントのタイムスタンプ位置が00:30ないし00:31であると決定でき、目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置が00:26ないし00:30である場合、サーバは、更新後のタイムスタンプ位置が00:26ないし00:31であることを得、即ち、目標ビデオにおける更新後の動画集合局所類似セグメントが26秒目ないし31秒目のビデオセグメントであることを得る。
【0045】
本実施例では、目標ビデオにおける矯正セグメントのタイムスタンプ位置により、目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置に対して更新し、更新後のタイムスタンプ位置に基づいて、目標ビデオにおける更新後の動画集合局所類似セグメントを決定し、それにより、タイムスタンプ位置に基づいて動画集合局所類似セグメントの正確な矯正更新を行うことができ、動画集合局所類似セグメントの精度を確保することができ、ビデオ内の類似ビデオセグメントの識別の精度を向上させる。
【0046】
一実施例では、目標ビデオにおける、矯正キーワードを含む矯正セグメントを決定するステップは、目標ビデオにおけるビデオフレームに対してテキスト識別を行い、テキスト識別結果を得るステップと、テキスト識別結果を矯正キーワードとマッチングし、マッチング結果を得、及びマッチングが一致するというマッチング結果に関連するビデオフレームに基づいて、目標ビデオから矯正キーワードを含む矯正セグメントを決定する。
【0047】
ここで、矯正キーワードは、実際のニーズに応じて事前に設定することができ、例えば、キーワードライブラリを構築することができ、キーワードライブラリに様々なタイプの矯正キーワードを記憶し、目標ビデオのテキスト識別結果をキーワードライブラリの各タイプの矯正キーワードとマッチングし、目標ビデオに矯正キーワードを含む矯正セグメントが含まれるか否かを決定する。
【0048】
具体的に、サーバは、目標ビデオからビデオフレームを取得し、例えば、等間隔で複数のビデオフレームを抽出することができ、サーバは、取得された各ビデオフレームに対してそれぞれテキスト識別を行い、テキスト識別結果を得る。サーバは、事前に設定された矯正キーワードを取得し、目標ビデオのテキスト識別結果を矯正キーワードとマッチングし、マッチング結果を得る。サーバは、マッチングが一致するというマッチング結果をスクリーニングし、マッチングが一致するというマッチング結果に関連する各ビデオフレームを決定し、当該各目標ビデオから矯正キーワードを含む矯正セグメントを決定する。例えば、目標ビデオの最初の10秒に対して、0.5秒ごとに1つのビデオフレームを抽出して、20個のビデオフレームを得、サーバは、各ビデオフレームに対してそれぞれテキスト識別を行い、各ビデオフレームのテキスト識別結果を矯正キーワードとマッチングし、マッチングが一致するというマッチング結果に関連するビデオフレームが18番目ないし20番目のビデオフレームである場合、サーバは目標ビデオにおける矯正セグメントが18番目のビデオフレームから20番目のビデオフレームまでの間のビデオセグメントであると決定することができ、具体的には、目標ビデオ内の9秒目ないし10秒目のビデオセグメントである。
【0049】
本実施例では、目標ビデオにおけるビデオフレームに対してテキスト識別を行い、テキスト識別結果と矯正キーワードとのマッチングによって得られたマッチング結果に基づいて、それにより、目標ビデオから矯正キーワードを含む矯正セグメントを決定し、テキスト検索方式により目標ビデオにおける矯正セグメントを正確に識別することができ、さらに、矯正セグメントに基づいて、動画集合局所類似セグメントに対して矯正更新を行い、ビデオ識別の精度を向上させる。
【0050】
一実施例では、プラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメント、及びビデオプラットフォームから取得したプラットフォーム関連ビデオを含む。
図3に示すように、プラットフォームグローバル類似セグメントの識別処理であり、即ち、目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップは、以下のステップを含む。
【0051】
ステップ302において、目標ビデオ及びプラットフォーム公用ビデオセグメントに対してビデオフレームマッチングを行い、公用ビデオマッチング結果を得る。
【0052】
ここで、公用ビデオライブラリは、ビデオプラットフォームに関連しており、ビデオプラットフォームにおける各プラットフォーム公用ビデオセグメントを記憶するために使用される。プラットフォーム公用ビデオセグメントは、ビデオプラットフォームにおける各ビデオに公用されるビデオセグメントである。例えば、ビデオプラットフォーム甲の場合、当該ビデオプラットフォーム甲にアップロードされたビデオに対して、ビデオプラットフォーム甲は、当該ビデオの出所を示すために、アップロードされたビデオにビデオプラットフォーム甲を紹介するビデオセグメントを追加する。当該ビデオプラットフォームにおける各ビデオに対して、いずれもビデオプラットフォーム甲を紹介するビデオセグメントを公用し、当該ビデオセグメントは、プラットフォーム公用ビデオセグメントである。プラットフォーム公用ビデオセグメントは、1つまたは複数にすることができ、プラットフォーム公用ビデオセグメントの時間長、コンテンツもビデオプラットフォームによって、実際のニーズに応じて設定されることができる。ビデオプラットフォームにおける各ビデオはいずれもプラットフォーム公用ビデオセグメントを含み、当該プラットフォーム公用ビデオセグメントはビデオの本編コンテンツに属しなく、類似のビデオセグメントに属し、ビデオの本編コンテンツに対して編集し、又はビデオ比較処理を行う時に、識別して削除することができる。
【0053】
プラットフォーム関連ビデオは、目標ビデオが属するビデオプラットフォームから取得されたビデオであり、具体的には、ビデオプラットフォームからサンプリングして得られたビデオである。プラットフォーム関連ビデオの取得方式は、実際のニーズに応じて設定することができ、例えば、ランダムサンプリング方式を採用してビデオプラットフォームから抽出することができる。また、公開時間、テーマコンテンツ、キーワード等のスクリーニング条件を設定して、ビデオプラットフォームの各ビデオからスクリーニングして、プラットフォーム関連ビデオを得ることができる。公用ビデオマッチング結果は、目標ビデオとプラットフォーム公用ビデオセグメントに対して、ビデオフレームマッチングを行って得られたマッチング結果である。
【0054】
具体的に、サーバが取得したプラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメントを含み、例えば、サーバが、目標ビデオが属するビデオプラットフォームを決定し、当該ビデオプラットフォームの公用ビデオライブラリを照会し、公用ビデオライブラリからプラットフォーム公用ビデオセグメントを取得することができる。サーバは、目標ビデオとプラットフォーム公用ビデオセグメントに対してビデオフレームマッチングを行い、公用ビデオマッチング結果を得る。
【0055】
ステップ304において、公用ビデオマッチング結果に基づいて類似セグメントが識別できない場合、目標ビデオ及びプラットフォーム関連ビデオに対してビデオフレームマッチングを行い、関連ビデオマッチング結果を得る。
【0056】
ここで、関連ビデオマッチング結果は、目標ビデオとプラットフォーム関連ビデオに対して、ビデオフレームマッチングを行って得られたマッチング結果である。関連ビデオマッチング結果には、目標ビデオとプラットフォーム関連ビデオから識別して得られたマッチし合うビデオフレームを含むことができる。
【0057】
具体的に、サーバは、公用ビデオマッチング結果に基づいて、目標ビデオにおける類似セグメントを識別し、類似セグメントが識別できない場合、目標ビデオに、プラットフォーム公用ビデオセグメントと公用するビデオセグメントがないことを示し、その場合、サーバは、目標ビデオ及びプラットフォーム関連ビデオに対してビデオフレームマッチングを行い、関連ビデオマッチング結果を得る。
【0058】
ステップ306において、関連ビデオマッチング結果に基づいて、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを識別する。
【0059】
具体的に、サーバは、関連ビデオマッチング結果に基づいて、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを識別する。例えば、サーバは、関連ビデオマッチング結果に基づいて、目標ビデオにおけるマッチングの一致するビデオフレームを決定し、各ビデオフレームのタイムスタンプ位置に基づいて、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを識別する。
【0060】
本実施例では、プラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメント、及びビデオプラットフォームから取得したプラットフォーム関連ビデオを含み、サーバは、先に、プラットフォーム公用ビデオセグメントによって、目標ビデオに対して識別処理を行い、類似セグメントが識別できない場合、プラットフォーム関連ビデオによって、目標ビデオに対して識別処理を行い、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを得る。プラットフォーム公用ビデオセグメントによって識別処理を先に行うことによって、類似セグメント識別の適合性を高め、類似セグメント識別処理のデータ量を減少し、類似セグメント識別の処理効率を向上させることができるが、プラットフォーム公用ビデオセグメントによって、類似セグメントが識別できない場合、プラットフォーム関連ビデオを使用して識別処理を行い、類似セグメント識別の精度を確保することができる。
【0061】
一実施例では、関連ビデオマッチング結果に基づいて、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントが識別された後、ビデオ識別方法は、プラットフォームグローバル類似セグメントの識別統計パラメータを更新し、更新後の識別統計パラメータを得るステップと、更新後の識別統計パラメータがプラットフォーム公用判定条件を満たす場合、プラットフォームグローバル類似セグメントをプラットフォーム公用ビデオセグメントとして、公用ビデオライブラリ内に更新するステップと、をさらに含む。
【0062】
ここで、識別統計パラメータは、プラットフォームグローバル類似セグメントの識別処理に対して統計して得られたパラメータである。識別統計パラメータのパラメータタイプは、実際のニーズに応じて設定することができる。例えば、識別統計パラメータは、プラットフォームグローバル類似セグメントの識別に成功した頻度等を含み得る。識別して得られた各プラットフォームグローバル類似セグメントに対して、プラットフォームグローバル類似セグメントの識別処理を統計して、識別統計パラメータを得ることができる。プラットフォーム公用判定条件は、プラットフォームグローバル類似セグメントがプラットフォーム公用ビデオセグメントとして使用されるか否かを判定するための判定条件である。例えば、識別統計パラメータが所定のパラメータ閾値を超えること、具体的には、頻度が頻度閾値を超えること等である。
【0063】
具体的に、サーバは、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントが識別された後、プラットフォームグローバル類似セグメントの識別統計パラメータを照会することができ、識別統計パラメータは、プラットフォームグローバル類似セグメントの識別に成功した統計結果を反映している。サーバは、プラットフォームグローバル類似セグメントの識別統計パラメータを更新する。例えば、プラットフォームグローバル類似セグメントの識別統計パラメータは、識別に成功した頻度を含み、具体的に5回を含む場合、サーバは、当該頻度に1を加算して、識別統計パラメータの頻度を6回に更新することができる。サーバは、所定のプラットフォーム公用判定条件を照会し、サーバは、更新後の識別統計パラメータとプラットフォーム公用判定条件を比較し、更新後の識別統計パラメータがプラットフォーム公用判定条件を満たす場合、サーバは、プラットフォームグローバル類似セグメントをプラットフォーム公用ビデオセグメントとして使用し、当該プラットフォームグローバル類似セグメントを公用ビデオライブラリ内に更新し、それにより、公用ビデオライブラリへの動的な更新を実現することができる。後続のビデオ識別処理では、サーバは、当該プラットフォームグローバル類似セグメントをプラットフォーム公用ビデオセグメントとして先にビデオ識別処理を行うことができる。
【0064】
本実施例では、プラットフォームグローバル類似セグメントの識別に成功した後、サーバは、プラットフォームグローバル類似セグメントの識別統計パラメータを更新し、更新後の識別統計パラメータがプラットフォーム公用判定条件を満たす場合、サーバは、当該プラットフォームグローバル類似セグメントをプラットフォーム公用ビデオセグメントとして、公用ビデオライブラリ内に更新し、それにより、公用ビデオライブラリへの動的な更新を実現し、公用ビデオライブラリのプラットフォーム公用ビデオセグメントの実効性を確保することができ、ビデオ類似セグメント識別処理の精度と処理効率を向上させることができる。
【0065】
一実施例では、目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから、プラットフォーム公用ビデオセグメントを取得するステップを含む。
【0066】
ここで、公用ビデオライブラリは、ビデオプラットフォームに関連しており、ビデオプラットフォームにおける各プラットフォーム公用ビデオセグメントを記憶するために使用され、プラットフォーム公用ビデオセグメントは、ビデオプラットフォームにおける各ビデオに公用されるビデオセグメントである。具体的に、サーバで取得したプラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメントを含む。例えば、サーバが、目標ビデオが属するビデオプラットフォームを決定し、当該ビデオプラットフォームの公用ビデオライブラリを照会し、公用ビデオライブラリからプラットフォーム公用ビデオセグメントを取得する。具体的に適用する場合、サーバは、公用ビデオライブラリ内のすべてのプラットフォーム公用ビデオセグメントを取得することができ、公用ビデオライブラリからスクリーニングすることもできる。例えば、公開時間、ビデオテーマ等に基づいてスクリーニングし、スクリーニング条件を満たすプラットフォーム公用ビデオセグメントを得る。
【0067】
さらに、目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップは、目標ビデオとプラットフォーム公用ビデオセグメントとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム公用ビデオセグメントに対するプラットフォームグローバル類似セグメントを識別するステップを含む。
【0068】
具体的に、サーバは、目標ビデオとプラットフォーム公用ビデオセグメントに対してビデオフレームマッチングを行い、第2マッチング結果を得、第2マッチング結果は、目標ビデオとプラットフォーム公用ビデオセグメントにおいて識別して得られた、マッチし合うビデオフレームを含み得る。サーバは、第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム公用ビデオセグメントに対するプラットフォームグローバル類似セグメントを識別する。例えば、識別して得られた、マッチし合うビデオフレームのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおけるプラットフォームグローバル類似セグメントを決定することができる。
【0069】
本実施例では、プラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメントを含み、サーバは、プラットフォーム公用ビデオセグメントにより、識別処理を行うことにより、類似セグメント識別の適合性を向上させ、類似セグメント識別処理のデータ量を低減し、類似セグメント識別の処理効率を向上させることができる。
【0070】
一実施例では、目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するステップは、目標ビデオが属するビデオプラットフォーム、及び目標ビデオのビデオフレームに含まれる矯正キーワードを決定するステップと、ビデオプラットフォームにおける、矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会するステップと、参照ビデオスクリーニング条件に従って、プラットフォーム関連ビデオからプラットフォーム参照ビデオをスクリーニングして得るステップと、を含む。
【0071】
ここで、プラットフォーム関連ビデオは、目標ビデオが属するビデオプラットフォームから取得される、矯正キーワード関連関係を有するビデオである。ビデオプラットフォームにおける各ビデオと矯正キーワードとの関連関係は、事前に確立することができる。例えば、ビデオをビデオプラットフォームにアップロードする時に、ビデオのビデオフレームに対してテキスト識別を行い、テキスト識別結果に基づいて当該ビデオに含まれる矯正キーワードを決定し、ビデオと矯正キーワードとの関連関係を確立する。参照ビデオスクリーニング条件は、事前に設定された、プラットフォーム関連ビデオからスクリーニングしてプラットフォーム参照ビデオを得るスクリーニング条件である。例えば、公開時間、ビデオテーマ等の様々なスクリーニング条件であり得る。
【0072】
具体的に、サーバは、目標ビデオが属するビデオプラットフォームを決定し、具体的には、サーバが、目標ビデオのビデオ属性情報を照会し、ビデオ属性情報のビデオ属性情報に基づいて目標ビデオが属するビデオプラットフォームを決定する。サーバは、目標ビデオのビデオフレームに含まれる矯正キーワードを決定し、具体的には、サーバは、目標ビデオのビデオフレームに対してテキスト識別を行い、テキスト識別結果に基づいて、目標ビデオのビデオフレームに含まれる矯正キーワードを決定することができる。サーバは、ビデオプラットフォームから、矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会する。例えば、サーバは、ビデオプラットフォームにおける各ビデオとキーワードとの関連関係に基づいて、矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会して得ることができる。サーバは、公開時間のスクリーニング条件等の、所定の参照ビデオスクリーニング条件を照会し、サーバは、当該参照ビデオスクリーニング条件に基づいて、プラットフォーム関連ビデオをスクリーニングして、プラットフォーム関連ビデオから参照ビデオスクリーニング条件を満たすプラットフォーム参照ビデオを得る。例えば、目標ビデオの公開時間が2022年6月1日である場合、参照ビデオスクリーニング条件は、公開時間が目標ビデオ公開時間の1か月以内であり、サーバは、プラットフォーム関連ビデオから、公開時間が2022年5月1日ないし2022年6月1日であるプラットフォーム参照ビデオをスクリーニングする。
【0073】
本実施例では、プラットフォーム参照ビデオは、ビデオプラットフォームから取得した矯正キーワードと関連関係を有するプラットフォーム関連ビデオを含み、参照ビデオスクリーニング条件によって、スクリーニングされ、それにより、ビデオプラットフォーム内の様々なビデオを利用してグローバルビデオ識別処理を行い、プラットフォーム参照ビデオの数を制御することにより、全体的にプラットフォーム参照ビデオを利用して類似セグメント識別処理を行うデータ量を削減し、類似セグメント識別の精度を確保しつつ、類似セグメント識別の処理効率を向上させることができる。
【0074】
一実施例では、ビデオ識別方法は、ビデオプラットフォームに属するプラットフォームビデオにおけるビデオフレームテキスト識別を行い、ビデオキーワードを得るステップと、ビデオキーワードに基づいてキーワードライブラリ内でマッチングを行い、ビデオキーワードとマッチし合う目標キーワードを決定するステップと、プラットフォームビデオと目標キーワードとの関連関係を確立するステップと、をさらに含む。
【0075】
ここで、プラットフォームビデオは、ビデオプラットフォームに属する各ビデオを指し、ビデオキーワードは、プラットフォームビデオからテキスト識別を行って得られたキーワードである。キーワードライブラリには様々なキーワードが記憶され、目標キーワードは、キーワードライブラリにおけるビデオキーワードとマッチし合うキーワードである。具体的に、サーバは、ビデオプラットフォームに属するプラットフォームビデオに対して、テキスト識別を行い、例えば、プラットフォームビデオにおけるビデオフレームに対して、テキスト識別を行い、プラットフォームビデオのビデオフレームに含まれるビデオキーワードを得ることができる。サーバは、キーワードライブラリを照会し、キーワードライブラリには、様々な矯正キーワードが記憶され、キーワードライブラリは、実際のニーズに応じて事前に設定し、動的に更新してメンテナンスすることができる。サーバは、ビデオキーワードをキーワードライブラリ内でマッチングして、ビデオキーワードとマッチし合う目標キーワードを決定し、プラットフォームビデオと目標キーワードとの関連関係を確立し、それにより、キーワードと関連関係とに基づいて、対応するプラットフォームビデオを照会することができる。
【0076】
さらに、ビデオプラットフォームにおける、矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会するステップは、関連関係に基づいて、ビデオプラットフォームにおける矯正キーワードと関連するプラットフォーム関連ビデオを照会するステップを含む。
【0077】
具体的に、ビデオプラットフォームにおける各プラットフォームビデオに対して、サーバは、その関連関係を決定し、関連関係と矯正キーワードに基づいて、矯正キーワードに関連するプラットフォーム関連ビデオを照会して得る。
【0078】
本実施例では、ビデオプラットフォームにおける各プラットフォームビデオに対して、プラットフォームビデオとキーワードとの関連関係を確立し、関連関係に基づいてビデオプラットフォームにおける矯正キーワードに関連するプラットフォーム関連ビデオを決定し、それにより、プラットフォーム関連ビデオへの照会の精度と処理効率を向上させ、類似セグメント識別の精度と処理効率を向上させることができる。
【0079】
一実施例では、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれの目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するステップは、目標ビデオにおける動画集合局所類似セグメントの第1タイムスタンプ位置、及び目標ビデオにおけるプラットフォームグローバル類似セグメントの第2タイムスタンプ位置を決定するステップと、第1タイムスタンプ位置と第2タイムスタンプ位置をマージして、総合タイムスタンプ位置を得るステップと、総合タイムスタンプ位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するステップと、を含む。
【0080】
ここで、第1タイムスタンプ位置は、目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置を指し、第2タイムスタンプ位置は、目標ビデオにおけるプラットフォームグローバル類似セグメントのタイムスタンプ位置を指す。総合タイムスタンプ位置は、第1タイムスタンプ位置と第2タイムスタンプ位置をマージして得られたタイムスタンプ位置である。総合タイムスタンプ位置に基づいて、目標ビデオから総合類似セグメントを決定することができる。
【0081】
具体的に、サーバは、目標ビデオにおける動画集合局所類似セグメントの第1タイムスタンプ位置、及び目標ビデオにおけるプラットフォームグローバル類似セグメントの第2タイムスタンプ位置を決定し、具体的には、サーバは、動画集合局所類似セグメントとプラットフォームグローバル類似セグメントのそれぞれのセグメント時間に対して、目標ビデオのそれぞれのタイムスタンプ位置を決定する。サーバは、第1タイムスタンプ位置と第2タイムスタンプ位置をマージして、総合タイムスタンプ位置を得る。具体的な実装では、サーバは、第1タイムスタンプ位置と第2タイムスタンプ位置を直接にマージして、総合タイムスタンプ位置を得ることができ、例えば、第1タイムスタンプ位置が00:05ないし0:15であり、第2タイムスタンプ位置が00:02ないし00:06である場合、サーバは、第1タイムスタンプ位置と第2タイムスタンプ位置を直接にマージして、総合タイムスタンプ位置が00:02ないし00:15を得ることができる。さらに、サーバは、さらに、実際のニーズに応じて部分的にマージして、総合タイムスタンプ位置を得ることもできる。例えば、第1タイムスタンプ位置が00:05ないし00:15であり、第2タイムスタンプ位置が00:04ないし00:14である場合、サーバは、第1タイムスタンプ位置と第2タイムスタンプ位置が交差する位置に基づいて、総合タイムスタンプ位置が00:05ないし00:14である範囲を得る。サーバは、得られた総合タイムスタンプ位置に基づいて、目標ビデオから、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定する。例えば、総合タイムスタンプ位置が00:02ないし00:15である場合、サーバは、目標ビデオから2秒目ないし15秒目のビデオセグメントを、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントとして決定することができる。
【0082】
本実施例では、目標ビデオにおける動画集合局所類似セグメントの第1タイムスタンプ位置と、目標ビデオにおけるプラットフォームグローバル類似セグメントの第2タイムスタンプ位置とをマージし、総合タイムスタンプ位置に基づいて目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定し、それにより、タイムスタンプ位置に基づいて動画集合局所類似セグメントとプラットフォームグローバル類似セグメントの総合処理を実現することにより、総合類似セグメントがビデオシリーズ動画集合におけるビデオ類似特性及びビデオプラットフォームにおけるビデオ類似特性を総合するようにし、ビデオにおける類似ビデオセグメントの識別の精度を向上させる。
【0083】
一実施例では、目標ビデオと動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別するステップは、目標ビデオと動画集合参照ビデオに対して、ビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するステップであって、ビデオフレームペアは、目標ビデオに属する識別対象ビデオフレームを含み、さらに、動画集合参照ビデオにおける、識別対象ビデオフレームと画像マッチングした動画集合参照ビデオフレームを含み、ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定するステップと、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップと、を含む。
【0084】
ここで、ビデオフレームペアは、目標ビデオと参照ビデオとのビデオフレームの画像マッチングによって決定された、マッチングに成功したビデオフレームによって構成された画像ペアである。参照ビデオが動画集合参照ビデオである場合、ビデオフレームペアには、目標ビデオに属する識別対象ビデオフレーム、及び動画集合参照ビデオにおける、識別対象ビデオフレームと画像マッチングした動画集合参照ビデオフレームを含み、即ち、ビデオフレームペアにおける識別対象ビデオフレームと動画集合参照ビデオフレームは、画像マッチングの成功によって得られたものであり、ビデオフレームペアにおける識別対象ビデオフレームは目標ビデオからのものであり、動画集合参照ビデオフレームは、動画集合参照ビデオからのものである。
【0085】
時間属性は、対応するビデオフレームの時間情報を示すために使用され、ビデオにおけるビデオフレームの位置を表すことができ、時間属性は、具体的には、ビデオにおける対応するビデオフレームのタイムスタンプであってもよいし、ビデオフレームのフレーム番号等であってもよい。例えば、ビデオフレームの時間属性が2.0秒目である場合、当該ビデオフレームが、所属ビデオの2.0秒目のビデオフレームであることを示すことができ、さらに例えば、ビデオフレームの時間属性が500である場合、当該ビデオフレームが、所属ビデオの500フレーム目のビデオフレームであることを示すことができる。時間属性によって所属ビデオにおけるビデオフレームの位置にタグ付けすることができるため、所属ビデオにおけるビデオフレームの出現時間を決定する。ビデオは、複数のビデオフレームによって時間情報に応じて組み合わせられて得るものであり、ビデオの各ビデオフレームにはいずれも時間情報を含む時間属性が設定される。時間オフセットは、ビデオフレームペアのうち、目標ビデオにおける識別対象ビデオフレームの出現時間と参照ビデオにおける参照ビデオフレームの出現時間との間の時間間隔を表すために使用される。時間オフセットは、識別対象ビデオフレームと参照ビデオフレームのそれぞれの時間属性によって得られる。例えば、ビデオフレームペアでは、識別対象ビデオフレームの時間属性が2秒目であり得、即ち、識別対象ビデオフレームは目標ビデオフレームにおける2秒目のビデオフレームであり、それに対して動画集合参照ビデオフレームの時間属性は3秒目であり得、即ち、動画集合参照ビデオフレームが動画集合参照ビデオにおける3秒目のビデオフレームであり、即ち、目標ビデオにおける2秒目のビデオフレームと動画集合参照ビデオフレームにおける3秒目のビデオフレームがマッチングし、それにより、識別対象ビデオフレームの時間属性と動画集合参照ビデオフレームの時間属性との差に基づいて、当該ビデオフレームペアの時間オフセットが1秒であることを得ることができる。
【0086】
具体的に、サーバは、目標ビデオと動画集合参照ビデオをビデオフレームの画像マッチングを行い、具体的には、目標ビデオにおけるビデオフレームと動画集合参照ビデオフレームにおけるビデオフレームに対して画像マッチングを行うことができる。例えば、画像類似度に基づいてマッチングすることができ、それにより、マッチング結果に基づいてビデオフレームペアを決定する。ビデオフレームペアは、画像マッチングに成功したビデオフレームからなる画像ペアであり、類似度に基づいて画像マッチングを行うことにより決定されたビデオフレームペアでは、ビデオフレームペアにおける識別対象ビデオフレームと動画集合参照ビデオフレームとの画像類似度が高く、即ち、目標ビデオにおける識別対象ビデオフレームと動画集合参照ビデオにおける動画集合参照ビデオフレームが類似しているため、同じビデオコンテンツであり可能性があり、例えば、オープニングに属するビデオフレームである可能性もあり、エンディングに属するビデオフレームであってもよい。得られたビデオフレームペアについて、サーバは、ビデオフレームペアにおける識別対象ビデオフレームの時間属性、及び動画集合参照ビデオフレームの時間属性を決定し、具体的には、識別対象ビデオフレームと動画集合参照ビデオフレームのフレーム情報を照会することにより、対応する時間属性を決定することができる。サーバは、得られた識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定する。例えば、時間属性が計量化された数値である場合、サーバは、識別対象ビデオフレームの時間属性と動画集合参照ビデオフレームの時間属性との数値差に基づいて、ビデオフレームペアの時間オフセットを得ることができる。サーバは、時間オフセットに基づいて各ビデオフレームペアをスクリーニングし、時間オフセットがマッチし合うビデオフレームペアをスクリーニングする。具体的には、サーバが、時間オフセットの数値が同じか、又は数値の差が一定の範囲内であるビデオフレームペアをスクリーニングすることができる。サーバは、スクリーニングして得られたビデオフレームペアに基づいて、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性を決定し、識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを得る。例えば、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性を決定した後、サーバは、各識別対象ビデオフレームの時間属性の数値の大きさに基づいて、開始時間及び終了時間を決定することができ、それにより、開始時間と終了時間に基づいて目標ビデオにおける動画集合局所類似セグメントを決定することができる。
【0087】
具体的な適用には、サーバは、時間オフセットの数値の大きさに応じて、ビデオをグループ化して、異なる時間オフセットに対応するビデオフレームペア集合を得ることができ、ビデオフレームペア集合には、対応する時間オフセットがマッチし合うビデオフレームペアを含む。例えば、得られたビデオフレームペアの時間オフセットが1s、4s及び5sの3つを含む場合、サーバは、時間オフセットが1sであるビデオフレームペアを第1ビデオフレームペア集合として使用し、当該第1ビデオフレームペア集合内のビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける動画集合局所類似セグメントを決定し、サーバは、さらに、時間オフセットが4s及び5sであるビデオフレームペアを第2ビデオフレームペア集合とし、当該第2ビデオフレームペア集合内のビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける動画集合局所類似セグメントを決定することができる。サーバは、各ビデオフレームペア集合内のビデオフレームペアの識別対象ビデオフレームの時間属性によって、それぞれの動画集合局所類似セグメントを決定し、各ビデオフレームペア集合に基づいて動画集合局所類似セグメントを決定してマージすることができる。例えば、サーバは、重畳する動画集合局所類似セグメントを削除したり、部分的に重畳する動画集合局所類似セグメントを更新したりし、それにより、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得ることができる。
【0088】
本実施例では、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオに対して、ビデオフレームの画像マッチングを行い、目標ビデオに属する識別対象ビデオフレーム、及び識別対象ビデオフレームと画像マッチングした動画集合参照ビデオフレームを含むビデオフレームペアを得、ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定し、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオから動画集合参照ビデオに対する動画集合局所類似セグメントを決定する。ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオについて、画像マッチングした識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定し、スクリーニングして得られた、時間オフセットがマッチし合うビデオフレームペアにおける識別対象ビデオフレームの時間属性によって、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを決定し、画像マッチングしたビデオフレームペアに基づいて時間の異なる類似ビデオセグメントを柔軟に決定することができ、様々なビデオにおける類似ビデオセグメントの識別の精度を向上させることができる。
【0089】
一実施例では、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップは、各ビデオフレームペアの時間オフセットに対して、数値マッチングを行い、数値マッチング結果に基づいて、時間オフセットが数値的にマッチし合うビデオフレームペアをスクリーニングするステップと、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、開始時間及び終了時間を決定するステップと、開始時間及び終了時間に基づいて、目標ビデオから動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップと、を含む。
【0090】
ここで、時間オフセットは、ビデオフレームペアにおける、目標ビデオにおける識別対象ビデオフレームの出現時間と、動画集合参照ビデオにおける動画集合参照ビデオフレームの出現時間との時間間隔を表す。時間オフセットの具体的な形式は、計量化された数値であり、例えば、秒単位の数値であり、ビデオフレームペアにおける識別対象ビデオフレーム及び動画集合参照ビデオフレームのそれぞれが属するビデオに出現する時間の時間差が何秒であるかを示す。数値マッチングは、各ビデオフレームペアの時間オフセットの数値の大きさに対してマッチングして、数値マッチング結果を得ることを指す。数値マッチング結果は、各ビデオフレームペアの時間オフセットの間の数値差、即ち、時間オフセットの数値の差を含むことができる。開始時間は、ビデオセグメントのビデオ開始時間を指し、終了時間は、ビデオセグメントのビデオ終了時間を指す。開始時間及び終了時間に基づいて、開始時間をビデオ開始時刻とし、終了時間をビデオ終了時刻とし、それにより、開始時間から終了時間までをビデオのスパン時間とし、それにより、対応するビデオセグメントを決定することができる。
【0091】
具体的に、サーバは、各ビデオフレームペアの時間オフセットを数値マッチングし、具体的には、2つずつのビデオフレームペアの時間オフセットに対して数値マッチングを行って、数値マッチング結果を得ることができる。サーバは、取得された数値マッチング結果に基づいて、時間オフセットが数値的にマッチし合うビデオフレームペアを決定する。例えば、数値マッチング結果は、各ビデオフレームペアの時間オフセット間の数値差を含み、サーバは、各ビデオフレームペアの時間オフセット間の差が所定の閾値より小さい時間オフセットを、数値的にマッチし合う時間オフセットとして決定することができ、それにより、数値的にマッチし合う時間オフセットによってスクリーニングして得られたビデオフレームペアに基づいて、スクリーニングして得られた、時間オフセットが数値的にマッチし合うビデオフレームペアを得た後、サーバは、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性を決定し、具体的には、各識別対象ビデオフレームのフレーム情報を照会することができ、それにより、識別対象ビデオフレームの時間属性を得ることができる。サーバは、識別対象ビデオフレームの時間属性に基づいて、開始時間及び終了時間を決定する。
【0092】
具体的に適用する場合、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性を得た後、サーバは、その中から数値が最も小さい時間属性を決定することができ、当該最も小さい時間属性に基づいて開始時間を決定し、サーバは、その中から数値が最も大きい時間属性を決定することができ、当該最も大きい時間属性に基づいて終了時間を決定する。例えば、適用では、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性の配列が{1,3,4,5,6,7,8,9,10,12,15}である場合、サーバは、1sを開始時間とし、15sを終了時間とすることができる。サーバは、開始時間及び終了時間に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを決定することができ、例えば、サーバが、目標ビデオで、開始時間から終了時間までのビデオセグメントを動画集合局所類似セグメントとして決定することができる。例えば、サーバは、1sを開始時間とし、15sを終了時間とする場合、サーバは、目標ビデオの1秒目ないし15秒目のビデオセグメントを、動画集合参照ビデオに対する動画集合局所類似セグメントとして決定することができる。
【0093】
本実施例では、ビデオフレームペアの時間オフセットに対して数値マッチングを行い、数値マッチング結果に基づいて、時間オフセットが数値的にマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、開始時間及び終了時間を決定し、開始時間及び終了時間に基づいて、目標ビデオにおける動画集合局所類似セグメントを決定し、それにより、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームに基づいて、目標ビデオから動画集合局所類似セグメントを決定するため、フレームレベルの識別対象ビデオフレームに基づいて、類似ビデオセグメントを柔軟に決定することができ、時間の異なる類似ビデオセグメントを含むビデオに適用でき、それにより、ビデオにおける類似ビデオセグメントの識別の精度を向上させる。
【0094】
一実施例では、各ビデオフレームペアの時間オフセットに対して数値マッチングを行い、数値マッチング結果に基づいて、時間オフセットが数値的にマッチし合うビデオフレームペアをスクリーニングするステップは、各ビデオフレームペアの時間オフセットをそれぞれ数値比較して、数値比較結果を取得するステップと、数値比較結果に基づいて、各ビデオフレームペアから時間オフセットの数値差が数値差閾値より小さいビデオフレームペアをスクリーニングするステップと、時間オフセットの数値差が数値差閾値より小さいビデオフレームペアに対してオフセット更新を行い、時間オフセットが数値的にマッチし合うビデオフレームペアを取得するステップと、を含む。
【0095】
ここで、数値比較は、各ビデオフレームペアの時間オフセットに対して数値の大きさの比較を行って、数値比較結果を得ることを指し、数値比較結果は、各ビデオフレームペアの時間オフセット間の数値差を含むことができる。例えば、ビデオフレームペア1の時間オフセットが1sであり、ビデオフレームペア2の時間オフセットが2sである場合、ビデオフレームペア1とビデオフレームペア2との時間オフセットの数値差が1sであり、即ち、ビデオフレームペア1とビデオフレームペア2との時間オフセットを数値比較した数値比較結果は1sである。数値差閾値は、実際のニーズに応じて柔軟に設定し、数値差閾値は、各ビデオフレームペアの時間オフセットとマッチングするために使用され、具体的には、時間オフセットの数値差が数値差閾値より小さいビデオフレームペアを、スクリーニングして取得されたビデオフレームペアとして使用されることができる。オフセット更新は、ビデオフレームペアの時間オフセットをマッチし合わせるために、時間オフセットの数値差が数値差閾値より小さいビデオフレームペアの時間オフセットの更新である。例えば、ビデオフレームペアの時間オフセットを同じ時間オフセットに統一して更新することができる。
【0096】
具体的に、サーバは、各ビデオフレームペアの時間オフセットに対してそれぞれ数値比較を行い、数値比較結果を取得し、数値比較結果には、各ビデオフレームペアの時間オフセット間の数値差が含まれ、それは、サーバによって、各ビデオフレームペアの時間オフセットに対して2つずつ差分を取って得られることができる。サーバは、事前に設定された数値差閾値を決定し、数値比較結果に基づいて、各ビデオフレームペアから時間オフセットの数値差が数値差閾値より小さいビデオフレームペアをスクリーニングする。具体的に、サーバは、数値比較結果の数値差を数値差閾値と比較して、数値差が数値差閾値より小さい時間オフセットに関連するビデオフレームペアを決定し、各ビデオフレームペアから当該ビデオフレームペアをスクリーニングする。サーバは、時間オフセットの数値差が数値差閾値より小さいビデオフレームペアに対してオフセット更新を行い、具体的には、ビデオフレームペアの時間オフセットを同じ数値に統一して更新することができる。例えば、時間オフセットの数値差が数値差閾値より小さいビデオフレームペアにおける時間オフセットの最小値に更新し、それにより、時間オフセットが数値的にマッチし合うビデオフレームペアを得る。例えば、数値差閾値が2sであり、スクリーニングして得られた時間オフセットの数値差が数値差閾値より小さいビデオフレームペアにおいて、時間オフセットが1sと2sの2種類を含む場合、サーバは、時間オフセットが2sであるビデオフレームペアの時間オフセットを更新して、1sに更新し、それにより、時間オフセットが1sである各ビデオフレームペアを得、即ち、時間オフセットが数値的にマッチし合うビデオフレームペアを取得する。
【0097】
本実施例では、各ビデオフレームペアの時間オフセットに基づいて、数値比較を行って数値比較結果を得、ビデオフレームペアから時間オフセットの数値差が数値差閾値より小さいビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアに対してオフセット更新を行って、時間オフセットが数値的にマッチし合うビデオフレームペアを得る。それにより、スクリーニングして動画集合局所類似セグメントを決定するためのビデオフレームペアをスクリーニングして得、スクリーニングによって得られたビデオフレームペアにより、目標ビデオから動画集合参照ビデオに対する動画集合局所類似セグメントを正確に識別することができる。
【0098】
一実施例では、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、開始時間及び終了時間を決定するステップは、スクリーニングして得られたビデオフレームペアからなるビデオフレームペアリストを取得するステップと、ビデオフレームペアリストで、各ビデオフレームペアを時間オフセットの数値に従って、昇順でソートし、時間オフセットが同じであるビデオフレームペアに対して、含まれる識別対象ビデオフレームのタイムスタンプの数値に従って、昇順でソートする、ステップであって、タイムスタンプは、含まれる識別対象ビデオフレームの時間属性によって決定されるものである、ステップと、ビデオフレームペアリストでは、隣接ビデオフレームペアにおける識別対象ビデオフレームの時間属性間の時間属性距離を決定するステップと、時間属性距離が距離閾値を超えない隣接ビデオフレームペアを、同じビデオセグメントに属するビデオフレームペアとして決定するステップと、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間及び終了時間を決定するステップと、を含む。
【0099】
ここで、ビデオフレームペアリストは、スクリーニングして得られたビデオフレームペアによってソートして構成され、ビデオフレームペアリストでは、スクリーニングして得られた各ビデオフレームペアは、時間オフセットの数値の昇順でソートされ、且つ同じ時間オフセットのビデオフレームペアが、含まれる識別対象ビデオフレームのタイムスタンプの数値の昇順でソートされ、タイムスタンプは、含まれる識別対象ビデオフレームの時間属性によって決定されるものであり、タイムスタンプが目標ビデオにおける識別対象ビデオフレームの出現時刻である。ビデオフレームペアリストにおいて、時間オフセットの数値の昇順でソートされ、時間オフセットが同じである場合、ビデオに含まれる識別対象ビデオフレームのタイムスタンプ数値の昇順でソートされる。即ち、ビデオフレームペアリストにおいて、時間オフセットが小さいほど順位が前であり、時間オフセットの同じビデオフレームペアである場合、含まれる識別対象ビデオフレームのタイムスタンプは、小さいほど順位が前である。時間属性距離は、ビデオフレームペアリストにおける隣接するビデオフレームペアを対象として、含まれる識別対象ビデオフレームの時間属性に基づいて決定されるものであり、隣接するビデオフレームペアの時間間隔を表す。距離閾値は、実際のニーズに応じて事前に設定され、同じビデオセグメントに属するか否かを判定するために使用され、具体的には、時間属性距離が距離閾値を超えない隣接ビデオフレームペアを、同じビデオセグメントに属するビデオフレームペアとして決定することができ、それにより、各ビデオフレームペアに対して適合的にビデオセグメントの集約処理を行い、それにより、開始時間及び終了時間を決定することができる。
【0100】
具体的に、サーバは、スクリーニングして得られたビデオフレームペアによってソートして得られたビデオフレームペアリストを取得する。具体的な適用では、サーバは、ビデオフレームペアをスクリーニングして得た後に、スクリーニングして得られたビデオフレームペアを時間オフセットの数値の昇順でソートし、時間オフセットが同じであるビデオフレームペアに対して、サーバは、当該ビデオフレームペアに含まれる識別対象ビデオフレームの時間属性に基づいてタイムスタンプを決定し、識別対象ビデオフレームのタイムスタンプの数値の昇順でソートし、それにより、ビデオフレームペアリストを得ることができる。サーバは、ビデオフレームペアリストにおいて、隣接するビデオフレームペアにおける識別対象ビデオフレームの時間属性を比較し、具体的には、それぞれの時間属性の差を求めて、時間属性距離を得る。サーバは、所定の距離閾値を決定し、時間属性距離を当該距離閾値と比較し、比較結果に基づいてビデオフレームペアリストから、時間属性距離が距離閾値を超えない隣接ビデオフレームペアを決定し、時間属性距離が距離閾値を超えない隣接ビデオフレームペアを同じビデオセグメントに属するビデオフレームペアとして決定し、即ち、隣接するビデオフレームペアにおける識別対象ビデオフレームの時間属性距離が小さい場合、隣接するビデオフレームペアが同一ビデオセグメントに属すると見なされ、それにより、ビデオフレームペアにおける識別対象ビデオフレームに基づいて、ビデオセグメントに集約される。サーバは、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプを決定し、各識別対象ビデオフレームのタイムスタンプに基づいて、開始時間及び終了時間を決定する。例えば、サーバは、数値が最も小さいタイムスタンプに基づいて開始時間を決定し、数値が最も大きいタイムスタンプを終了時間として決定し、決定された開始時間及び終了時間は、同じビデオセグメントに属するビデオフレームペアが共に属するビデオセグメントの開始時間及び終了時間である。
【0101】
本実施例では、スクリーニングして得られたビデオフレームペアで構成されたビデオフレームペアリストに基づいて、隣接ビデオフレームペアにおける識別対象ビデオフレームの時間属性間の時間属性距離に基づいて、同じビデオセグメントに属するビデオフレームペアを決定し、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間及び終了時間を決定することにより、識別対象ビデオフレームのビデオセグメントへの推理とマイニングを実現でき、目標ビデオからセグメントを正確に識別することができる。
【0102】
一実施例では、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間及び終了時間を決定するステップは、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、同じビデオセグメントに属するビデオフレームペアから開始ビデオフレームペアと終了ビデオフレームペアを決定ステップと、開始ビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間を得るステップと、終了ビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、終了時間を得るステップと、を含む。
【0103】
ここで、識別対象ビデオフレームのタイムスタンプは、識別対象ビデオフレームの時間属性によって決定され、識別対象ビデオフレームのタイムスタンプは、目標ビデオにおける識別対象ビデオフレームが出現する時刻を表す。開始ビデオフレームペアと終了ビデオフレームペアは、同じビデオセグメントに属する各ビデオフレームペアに含まれる識別対象ビデオフレームのタイムスタンプの大きさによって決定される。開始ビデオフレームペアに含まれる識別対象ビデオフレームのタイムスタンプは、同じビデオセグメントに属する各ビデオフレームペアに含まれる識別対象ビデオフレームのタイムスタンプ内の、数値が最も小さいタイムスタンプであり得るが、終了ビデオフレームペアに含まれる識別対象ビデオフレームのタイムスタンプは、数値が最も大きいタイムスタンプであり得、それにより、開始ビデオフレームペアに含まれる識別対象ビデオフレームを同一ビデオセグメントに属する開始ビデオフレームペアとして決定し、終了ビデオフレームペアに含まれる識別対象ビデオフレームを、同一ビデオセグメントに属する終了ビデオフレームペアとして決定する。
【0104】
具体的に、サーバは、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプを決定し、各タイムスタンプ的数値の大きさに基づいて、サーバは、同じビデオセグメントに属するビデオフレームペアから開始ビデオフレームペアと終了ビデオフレームペアを決定する。具体的に、サーバは、タイムスタンプが最も小さい識別対象ビデオフレームが属するビデオフレームペアを開始ビデオフレームペアとして決定し、タイムスタンプが最も大きい識別対象ビデオフレームが属するビデオフレームペアを終了ビデオフレームペアとして決定する。サーバは、開始ビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間を得る。例えば、当該タイムスタンプに対応する時刻を開始時間として決定することができる。サーバは、終了ビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、終了時間を得、例えば、当該タイムスタンプに対応する時刻を終了時間として決定することができる。
【0105】
本実施例では、サーバは、同じビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始ビデオフレームペアと終了ビデオフレームペアを決定し、開始ビデオフレームペアと終了ビデオフレームペアのそれぞれに含まれる識別対象ビデオフレームに基づいて、開始時間及び終了時間をそれぞれ決定し、それにより、同じビデオセグメントに属する識別対象ビデオフレームにより、ビデオセグメントへの推理とマイニングを実現し、目標ビデオから類似ビデオセグメントを識別する際の精度を向上させる。
【0106】
一実施例では、ビデオ識別方法は、各動画集合局所類似セグメントのそれぞれの開始時間及び終了時間に基づいて、各動画集合局所類似セグメント間のセグメント重畳関係を決定するステップと、セグメント重畳関係に基づいて、各動画集合局所類似セグメントに対してセグメント更新を行い、目標ビデオにおける動画集合参照ビデオに対する更新後の動画集合局所類似セグメントを得るステップと、をさらに含む。
【0107】
ここで、目標ビデオにおいて識別して得られた、動画集合参照ビデオに対する動画集合局所類似セグメントに複数のセグメントが存在する場合、各動画集合局所類似セグメント間のセグメント重畳関係に基づいて、各動画集合局所類似セグメントを更新し、更新後の動画集合局所類似セグメントを得る。セグメント重畳関係は、動画集合局所類似セグメント間に存在する重畳関係を指す。例えば、動画集合局所類似セグメントAの時間範囲が(2,5)、即ち、目標ビデオの2秒目ないし5秒目であり、動画集合局所類似セグメントBの時間範囲が(3,4)である場合、動画集合局所類似セグメントAは、動画集合局所類似セグメントBを完全にカバーし、この場合、動画集合局所類似セグメントBを削除し、動画集合局所類似セグメントAを保持することができる。動画集合局所類似セグメントCの時間範囲が(2,6)であり、動画集合局所類似セグメントDの時間範囲が(5,8)である場合、動画集合局所類似セグメントCと動画集合局所類似セグメントDは、部分的に重畳し、この場合、動画集合局所類似セグメントCと動画集合局所類似セグメントDを拡張して更新して、更新後の動画集合局所類似セグメントCD(2,8)を得ることができ、動画集合局所類似セグメントEの時間範囲が(4,8)であり、動画集合局所類似セグメントFの時間範囲が(1,5)である場合、動画集合局所類似セグメントEと動画集合局所類似セグメントFとが部分的に重畳し、この場合、動画集合局所類似セグメントEと動画集合局所類似セグメントFとに基づいて、拡張して更新し、更新後の動画集合局所類似セグメントEF(1,8)を得ることができる。さらに、複数の動画集合局所類似セグメント間に重畳が存在しない場合、例えば、(2,5)と(7,10)であるとき、この場合、各動画集合局所類似セグメントに対してマージ処理を行わずに、重畳が存在しない動画集合局所類似セグメントがすべてビデオ識別結果であることを決定することができる。異なるセグメント重畳関係により、異なる更新方式を設定することができ、それにより、動画集合局所類似セグメントへの更新の精度を確保することができる。
【0108】
具体的に、複数セグメントの動画集合局所類似セグメントを得た場合、サーバは、各動画集合局所類似セグメントのそれぞれの開始時間及び終了時間に基づいて、各動画集合局所類似セグメント間のセグメント重畳関係を決定することができ、例えば、包含、部分的に重畳又は重畳しないというセグメント重畳関係がある。サーバは、各動画集合局所類似セグメント間のセグメント重畳関係に基づいて、各動画集合局所類似セグメントに対してセグメント更新を行い、具体的には、各動画集合局所類似セグメントをマージし、削除、保留等の処理を行って、目標ビデオにおける動画集合参照ビデオに対する更新後の動画集合局所類似セグメントを得る。
【0109】
本実施例では、複数セグメントの動画集合局所類似セグメントを識別して得た場合、各動画集合局所類似セグメント間のセグメント重畳関係に基づいてセグメント更新を行い、それにより、より正確な動画集合局所類似セグメントを得、目標ビデオから動画集合局所類似セグメントを識別する際の精度を向上させる。
【0110】
一実施例では、動画集合参照ビデオは、少なくとも2つであり、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを決定するステップは、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する中間類似セグメントを決定するステップと、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントのうちの重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップと、を含む。
【0111】
ここで、動画集合参照ビデオは、少なくとも2つであり、即ち、少なくとも2つ動画集合参照ビデオにより、目標ビデオに対してビデオフレームマッチング処理をそれぞれ行う。中間類似セグメントとは、目標ビデオにおける単一の動画集合参照ビデオに対して識別して得られた類似セグメントを指す。重畳関係とは、異なる動画集合参照ビデオに基づいて識別して得られた中間類似セグメント間に存在する重畳関係を指し、具体的には、識別して得られた各中間類似セグメントの時間端点(開始時間及び終了時間を含む)に基づいて決定される。
【0112】
具体的に、サーバは、2つ以上の動画集合参照ビデオを取得し、目標ビデオと2つ以上の動画集合参照ビデオのそれぞれをビデオ識別の処理を行って、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントを得ることができる。サーバは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントのうちの、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、それにより、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得る。
【0113】
本実施例では、複数の動画集合参照ビデオによって、目標ビデオに対してビデオ識別を行い、識別して得られた各中間類似セグメントに存在する重畳関係に基づいて、各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各前記動画集合参照ビデオに対する動画集合局所類似セグメントを得ることにより、複数の動画集合参照ビデオを参照して識別して得られた動画集合局所類似セグメントの精度をより向上させ、目標ビデオから類似セグメントの精度を向上させる。
【0114】
一実施例では、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントでは、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントに対してセグメント位置比較を行って、セグメント比較結果を得るステップと、セグメント比較結果として重畳関係が存在する各中間類似セグメントを決定ステップと、重畳関係が存在する各中間類似セグメントの重畳時間長と統計量に基づいて、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップと、を含む。
【0115】
ここで、セグメント位置比較は、各動画集合参照ビデオに基づいて識別して得られた中間類似セグメントのそれぞれの目標ビデオにおける位置を比較して、セグメント比較結果を得ることを指す。セグメント比較結果は、各中間類似セグメント間に重畳関係が存在するか否かを含むことができ、重畳関係が存在する場合、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行って、目標ビデオにおける各動画集合参照ビデオに対する動画集合局所類似セグメントを得ることができる。重畳時間長は、重畳関係が存在する各中間類似セグメント間に重畳が存在する重畳セグメントの時間を指す。例えば、第1動画集合参照ビデオによって決定された中間類似セグメントAの時間範囲が(2,8)であり、第2動画集合参照ビデオによって決定された中間類似セグメントBの時間範囲が(5,10)である場合、中間類似セグメントAと中間類似セグメントBとの間に重畳関係が存在し、重畳するセグメントは(5,8)であり、重畳時間長は、5秒目ないし8秒目の間の4秒である。統計量は、目標ビデオにおける、各動画集合参照ビデオ識別に対する中間類似セグメントで同じ中間類似セグメントが識別された回数を含み得る。統計量の数値が大きいほど、対応する中間類似セグメントが識別された回数が多く、そうすると、当該中間類似セグメントが動画集合局所類似セグメントに属する可能性が高いことを示す。
【0116】
具体的に、サーバは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントを決定し、サーバは、各中間類似セグメントに対してセグメント位置比較を行い、サーバは、各中間類似セグメントのぞれぞれの開始時間及び終了時間を決定することができ、各中間類似セグメントの開始時間及び終了時間に基づいてセグメント位置比較を行って、セグメント比較結果を得る。セグメント比較結果として重畳関係が存在しないことを示す場合、重畳関係が存在しない中間類似セグメントに対して処理する必要がなく、それらをいずれも保留して目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントとすることができる。セグメント比較結果として重畳関係が存在することを示す場合、即ち、各中間類似セグメント間にセグメント重畳が存在する場合、サーバは、重畳関係が存在する各中間類似セグメントを決定し、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行う。例えば、各中間類似セグメントを削除、マージ、保留等の様々な更新処理を行って、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得る。サーバは、セグメント比較結果として重畳関係が存在する各中間類似セグメントを決定し、しかも重畳関係が存在する各中間類似セグメントのそれぞれの統計量、及び各中間類似セグメント間の重畳時間長を決定する。サーバは、重畳関係が存在する各中間類似セグメントの重畳時間長と統計量に基づいて、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得る。具体的に、サーバは、重畳時間長の長短によってマージする必要があるかどうかを判定し、統計量の値によって、保留やマージ処理などが必要かどうかを判定することができる。
【0117】
本実施例では、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントに対してセグメント位置比較を行い、セグメント比較結果として重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、具体的に、重畳関係が存在する各中間類似セグメントの重畳時間長と統計量に基づいて、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、それにより、重畳関係が存在する各中間類似セグメントの重畳時間長と統計量に対してセグメント更新を行い、各中間類似セグメント間の特性を考慮することによって、セグメント更新の効果を向上させ、目標ビデオから動画集合局所類似セグメントを識別する際の精度を向上させることができる。
【0118】
一実施例では、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントに対して、セグメント位置比較を行って、セグメント比較結果を得るステップは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントで構成された類似セグメントリストを取得するステップと、類似セグメントリストにおいて、各中間類似セグメントを統計量の降順にソートし、且つ同じ統計量の中間類似セグメントを開始時間の昇順にソートするステップと、類似セグメントリストにおいて、各中間類似セグメントに対してセグメント位置比較を行って、セグメント比較結果を得るステップと、を含む。
【0119】
ここで、類似セグメントリストは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントをソートして構成されたものである。類似セグメントリストにおいて、各中間類似セグメントを統計量の降順にソートし、且つ同じ統計量の中間類似セグメントを開始時間の昇順にソートする。即ち、類似セグメントリストにおいて、各中間類似セグメントを統計量の降順にソートし、対応する統計量が同じである中間類似セグメントに対して開始時間の昇順にソートする。
【0120】
具体的に、サーバは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントで構成された類似セグメントリストを取得し、類似セグメントリストは、サーバによって、事前に各中間類似セグメントに基づいてソートして得ることができる。具体的には、先に、統計量の降順に、各中間類似セグメントをソートし、統計量が同じ中間類似セグメントの場合、サーバは、開始時間の昇順にソートし、それにより、類似セグメントリストを得る。サーバは、当該類似セグメントリストにおいて、各中間類似セグメントに対してセグメント位置比較を行って、セグメント比較結果を得る。具体的に適用する場合、サーバは、類似セグメントリストにおける各中間類似セグメントの並び順に従い、前から後ろへ順にセグメント位置比較を行って、セグメント比較結果を得ることができる。
【0121】
さらに、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、前記目標ビデオにおける、各前記動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップは、重畳関係が存在する各中間類似セグメントのうちの後ろにある中間類似セグメントによって、前にある中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップを含み、ここで、類似セグメントリストでは、前にある中間類似セグメントが、後ろにある中間類似セグメントの前に位置する。
【0122】
ここで、類似セグメントリストでは、前にある中間の類似セグメントが後ろにある中間類似セグメントの前に位置し、即ち、前にある中間類似セグメントに比べて、後ろにある中間類似セグメントが、重畳関係が存在する各中間類似セグメントの中で、類似セグメントリストの後ろに並んでいる中間類似セグメントであり、後ろにある中間類似セグメントに比べて、前にある中間類似セグメントが、類似セグメントリストの前に並んでいる中間類似セグメントである。例えば、類似セグメントリストに中間類似セグメントAと中間類似セグメントBを含み、中間類似セグメントAの統計量が中間類似セグメントBの統計量より高い場合、類似セグメントリストでは、中間類似セグメントAの並び順が中間類似セグメントBの前に位置し、そうすると、後にある中間類似セグメントは、中間類似セグメントBであり、前にある中間類似セグメントは中間類似セグメントAである。
【0123】
具体的に、サーバは、重畳関係が存在する各中間類似セグメントにおける、後ろにある中間類似セグメント、及び前にある中間類似セグメントを決定することができ、サーバは、決定された後にある中間類似セグメントに基づいて、前にある中間類似セグメントに対してセグメント更新を行う。例えば、削除、マージ、保留等様々な更新処理を行って、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得る。
【0124】
本実施例では、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントで構成された類似セグメントリストに基づいて、重畳関係が存在する各中間類似セグメントにおける、後にある中間類似セグメントによって、前にある中間類似セグメントに対してセグメント更新を行い、統計量の高い中間類似セグメントの正確な保留を確保することができ、セグメント更新の効果を向上させ、目標ビデオから動画集合局所類似セグメントを識別する際の精度を向上させる。
【0125】
一実施例では、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントでは、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップは、目標ビデオにおける各動画集合参照ビデオに対する中間類似セグメントにおける、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、更新後の中間類似セグメントを得るステップと、更新後の中間類似セグメントの統計量を決定するステップと、更新後の中間類似セグメントの統計量が統計量閾値を超えた場合、更新後の中間類似セグメントに基づいて、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るステップと、を含む。
【0126】
ここで、統計量は、目標ビデオにおける各動画集合参照ビデオ識別に対する中間類似セグメントにおける、同じ中間類似セグメントが識別される累積回数を含み得る。統計量閾値は、更新後の中間類似セグメントが有効な動画集合局所類似セグメントであるか否かを判定するために使用され、統計量閾値は、実際のニーズに応じて設定することができる。
【0127】
具体的に、サーバは、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントでは、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、更新後の中間類似セグメントを得る。サーバは、更新後の中間類似セグメントの統計量を決定する。具体的に、サーバによって、更新後の中間類似セグメントに対して統計処理を行い、更新後の中間類似セグメントの統計量を得る。サーバは、所定の統計量閾値を決定し、更新後の中間類似セグメントの統計量が統計量閾値を超えた場合、更新後の中間類似セグメントが有効な動画集合局所類似セグメントであると見なすことができ、サーバは、更新後の中間類似セグメントに基づいて、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得る。例えば、サーバは、更新後の中間類似セグメントを、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントとして使用することができる。
【0128】
本実施例では、統計量閾値により、更新後の中間類似セグメントの有効性を判定し、有効性判定後には、更新後の中間類似セグメントに基づいて、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得、識別して得られた動画集合局所類似セグメントの有効性を確保することができる。
【0129】
一実施例では、ビデオ識別方法は、総合類似セグメントが公用ビデオタイプの判定条件を満たす場合、総合類似セグメントに基づいて、目標ビデオにおける、公用ビデオタイプとマッチングする公用ビデオを取得するステップをさらに含む。
【0130】
ここで、公用ビデオタイプは、各ビデオに公用するビデオのタイプを指し、例えば、オープニング、エンディング及び広告等のタイプを含むがこれらに限定されない。公用ビデオタイプは、実際のニーズに応じて設定することができる。公用ビデオタイプの判定条件は、総合類似セグメントのタイプが公用ビデオタイプとマッチングするかどうかを判定するために使用され、具体的には、公用ビデオタイプに関連する公用ビデオ分布領域を総合類似セグメントと比較し、それにより、総合類似セグメントが公用ビデオタイプとマッチングするかどうかを判定し、それにより、総合類似セグメントのタイプを決定する。公用ビデオと公用ビデオタイプとのマッチングは、即ち、公用ビデオのタイプと公用ビデオタイプとマッチングすることである。公用ビデオは、タイプが決定された重複利用のビデオセグメントである。例えば、公用ビデオは、オープニング、エンディング又は広告等のような各ビデオで重複利用可能なビデオコンテンツであり得る。
【0131】
具体的に、サーバは、公用ビデオタイプの判定条件を決定し、総合類似セグメントが当該判定条件を満たす場合、サーバは、当該総合類似セグメントに基づいて目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオを取得する。例えば、公用ビデオタイプの判定条件は、公用ビデオタイプに関連する公用ビデオ分布区間にあることであり、サーバは、総合類似セグメントの時間帯を決定し、総合類似セグメントの時間帯が公用ビデオ分布区間に既に位置しているかどうかを決定する場合、総合類似セグメントの時間帯が公用ビデオ分布区間にある場合、サーバは、当該総合類似セグメントに基づいて公用ビデオタイプとマッチングする公用ビデオを得る。この場合、当該公用ビデオタイプがオープニングのタイプである場合、当該総合類似セグメントに基づいて目標ビデオにおけるオープニングを得ることができ、具体的には、当該総合類似セグメントを当該目標ビデオのオープニングとすることができる。
【0132】
本実施例では、識別して得られた総合類似セグメントが公用ビデオタイプの判定条件を満たす場合、総合類似セグメントに基づいて目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオを得、それにより、目標ビデオから公用ビデオタイプとマッチングする公用ビデオを識別し、目標ビデオから公用ビデオを識別する際の識別精度を向上させる。
【0133】
一実施例では、総合類似セグメントが公用ビデオタイプの判定条件を満たす場合、総合類似セグメントに基づいて、目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオを得るステップは、目標ビデオの公用ビデオタイプが関連する公用ビデオ分布区間を決定するステップと、総合類似セグメントの時間帯が公用ビデオ分布区間にある場合、総合類似セグメントに基づいて、目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオを得るステップとを含む。
【0134】
ここで、公用ビデオ分布区間は、公用ビデオタイプに属する公用ビデオの目標ビデオにおける時間分布区間である。例えば、公用ビデオタイプは、オープニングタイプである場合、関連する時間分布区間は、目標ビデオの最初のN秒であり得、例えば、目標ビデオの前20秒、即ち、時間分布区間が0s-20sである。総合類似セグメントの時間帯は、識別して得られた総合類似セグメントの目標ビデオにおける時間スパンを意味し、具体的には、総合類似セグメントの開始時間及び終了時間に基づいて決定することができ、具体的には、直接に開始時間から終了時間までの時間スパンであり得る。
【0135】
具体的に、サーバは、目標ビデオの公用ビデオタイプに関連する公用ビデオ分布区間を決定し、異なる公用ビデオタイプは、異なる公用ビデオ分布区間を有する。例えば、公用ビデオタイプがオープニングタイプである場合、それに関連する公用ビデオ分布区間は、ビデオの最初のN秒であり得るが、公用ビデオタイプがエンディングタイプである場合、それに関連する公用ビデオ分布区間は、ビデオの末尾のM秒であり得る。サーバは、総合類似セグメントの時間帯を決定し、具体的には、総合類似セグメントの開始時間及び終了時間に基づいて時間帯を決定でき、総合類似セグメントの時間帯が公用ビデオタイプに関連する公用ビデオ分布区間にある場合、総合類似セグメントが公用ビデオタイプに対応する時間スパン範囲内にあることを示す。サーバは、総合類似セグメントに基づいて、目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオを得る。例えば、サーバは、当該総合類似セグメントを、目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオをすることができる。公用ビデオタイプがエンディングタイプである場合、サーバは、当該総合類似セグメントを目標ビデオにおけるエンディングとする。
【0136】
本実施例では、公用ビデオタイプに関連する公用ビデオ分布区間と、総合類似セグメントの時間帯との比較結果に基づいて、総合類似セグメントによって、目標ビデオにおける公用ビデオタイプとマッチングする公用ビデオを決定し、それにより、所定の公用ビデオ分布区間に基づいて、目標ビデオから公用ビデオタイプとマッチングする公用ビデオの精度を確保し、目標ビデオから公用ビデオを識別する際の識別精度を向上させる。
【0137】
一実施例では、ビデオ識別方法は、公用ビデオの開始時間及び終了時間を決定するステップと、ビデオ比較トリガイベントに応答して、開始時間及び終了時間に基づいて、目標ビデオから抽出して非公用ビデオを得るステップと、非公用ビデオを比較対象ビデオとビデオ比較を行うステップと、をさらに含む。
【0138】
ここで、公用ビデオは、タイプが特定されたの重複利用されるビデオセグメントである。例えば、公用ビデオは、オープニング、エンディング又は広告等各ビデオで再利用可能なビデオコンテンツである。公用ビデオの開始時間は、公用ビデオの開始する時刻を指し、公用ビデオの終了時間は、公用ビデオの終了する時刻を指す。ビデオ比較トリガイベントは、ビデオを比較するトリガイベントであり、ビデオを比較することにより、ビデオ同士の類似度を決定することができる。非公用ビデオは、目標ビデオの中における公用ビデオ以外の他のセグメントのビデオであり、非公用ビデオは、重複利用されるビデオセグメントではなく、目標ビデオのビデオ本編コンテンツであると見なされる。比較対象ビデオは、ビデオ比較に必要なビデオであり、非公用ビデオを比較対象ビデオとビデオ比較を行うことにより、非公用ビデオと比較対象ビデオとのビデオ類似度を決定することができる。
【0139】
具体的に、サーバは、公用ビデオの開始時間及び終了時間を決定し、ユーザが端末でトリガしたビデオ比較イベントのようなビデオ比較トリガイベントに応答し、サーバは、公用ビデオの開始時間及び終了時間に基づいて、目標ビデオから非公用ビデオを抽出して取得する。具体的に、サーバによって、公用ビデオの開始時間及び終了時間に基づいて、目標ビデオから公用ビデオを除外し、それにより、目標ビデオの非公用ビデオを抽出して取得する。サーバは、比較対象ビデオを取得し、比較対象ビデオを抽出して得られた非公用ビデオとビデオ比較を行い、それにより、ビデオ比較結果を得る。ビデオ比較結果は、比較対象ビデオと抽出して得られた非公用ビデオとのコンテンツ類似度を反映することができる。
【0140】
本実施例では、公用ビデオの開始時間及び終了時間に基づいて、目標ビデオから、比較対象ビデオとビデオ比較を行うための非公用ビデオを抽出し、それにより、目標ビデオ内の非公用ビデオを正確かつ迅速に位置決定することができ、ビデオ比較の精度と処理効率を向上させる。
【0141】
一実施例では、ビデオ識別方法は、公用ビデオのスキップ時点を決定するステップと、目標ビデオのビデオ再生イベントに応答して、目標ビデオを再生するステップと、目標ビデオの再生がスキップ時点に達した場合、公用ビデオをスキップして再生するステップと、をさらに含む。
【0142】
ここで、スキップ時点は、目標ビデオの再生中に、公用ビデオに到着する時に、スキップする必要のある時点を意味し、即ち、公用ビデオをスキップして再生しない時点を指す。ビデオ再生イベントは、目標ビデオを再生するトリガイベントである。具体的に、サーバは、公用ビデオ内のスキップ時点を決定し、スキップ時点は、公用ビデオにおける開始時間又は終了時間のうちの少なくとも1つであり得る。サーバは、目標ビデオに対するビデオ再生イベントに応答し、具体的には、ユーザによって端末で目標ビデオに対するビデオ再生イベントをトリガし、端末で目標ビデオを再生し、目標ビデオの再生がスキップ時点に達した場合、公用ビデオをスキップして再生する。即ち、公用ビデオを直接スキップして、目標ビデオにおける非公用ビデオを再生する。具体的な適用では、公用ビデオがオープニングである場合、スキップ時点は、公用ビデオの開始時間であり得、即ち、目標ビデオを再生するとき、当該オープニングをスキップして、オープニング後の非公用ビデオを直接に再生する。さらに、公用ビデオがエンディングである場合、スキップ時点は、公用ビデオの終了時間であってもよく、即ち、目標ビデオを再生するとき、当該エンディングをスキップして、直接に再生を終了するか、又は他のビデオを切り替えて再生する。
【0143】
本実施例では、目標ビデオの再生中に、再生が公用ビデオのスキップ時点に達した場合、公用ビデオをスキップして再生し、それにより、ビデオ再生中に重複する公用ビデオをスキップして再生することができ、ビデオ再生の効率を向上させることができる。
【0144】
一実施例では、目標ビデオと動画集合参照ビデオとをビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するステップは、目標ビデオから識別対象ビデオフレームを抽出し、動画集合参照ビデオから動画集合参照ビデオフレームを抽出するステップと、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出するステップと、識別対象ビデオフレームのビデオフレーム特徴を、動画集合参照ビデオフレームのビデオフレーム特徴と特徴マッチングを行い、特徴マッチングに成功した識別対象ビデオフレームと動画集合参照ビデオフレームに基づいて、ビデオフレームペアを得るステップと、をさらに含む。
【0145】
具体的に、目標ビデオと動画集合参照ビデオを取得した後、サーバは、目標ビデオと動画集合参照ビデオに対してビデオフレーム抽出を行い、具体的に、目標ビデオから識別対象ビデオフレームを抽出し、動画集合参照ビデオから動画集合参照ビデオフレームを抽出する。サーバは、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出し、サーバによって、画像処理モデルにより、識別対象ビデオフレームと動画集合参照ビデオフレームに対してそれぞれ特徴抽出を行って、識別対象ビデオフレームと動画集合参照ビデオフレームのそれぞれのビデオフレーム特徴を得ることができる。サーバは、識別対象ビデオフレームのビデオフレーム特徴を、動画集合参照ビデオフレームのビデオフレーム特徴と特徴マッチングし、例えば、特徴距離マッチングを行って、特徴距離閾値より小さい特徴距離に対応する識別対象ビデオフレームと動画集合参照ビデオフレームを、特徴マッチングに成功したと決定することができる。サーバは、特徴マッチングに成功した識別対象ビデオフレームと動画集合参照ビデオフレームに基づいて、ビデオフレームペアを得る。
【0146】
本実施例では、目標ビデオと動画集合参照ビデオからビデオフレームを抽出して特徴マッチングを行い、特徴マッチングに成功した識別対象ビデオフレームと動画集合参照ビデオフレームに基づいて、ビデオフレームペアを得、それにより、画像マッチングによって得られたビデオフレームペアに基づいて、類似ビデオセグメントの識別を行い、類似ビデオセグメント識別の精度を向上させる。
【0147】
一実施例では、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出するステップは、画像処理モデルにより、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出するステップを含む。
【0148】
ここで、画像処理モデルは、事前訓練された人工ニューラルネットワークモデル、例えば、畳み込みニューラルネットワーク、残差ネットワーク等のような様々な形式のネットワークモデルであり得る。具体的に、サーバは、事前訓練を完了した画像処理モデルを使用して、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出する。具体的に適用する場合、画像処理モデルは、事前訓練されたトリプルニューラルネットワークモデルであってもよいし、マルチタスクモデルであってもよい。
【0149】
さらに、画像処理モデルの訓練ステップは、分類ラベルを含む訓練サンプル画像を取得するステップと、訓練対象の画像処理モデルによって訓練サンプル画像に対して特徴抽出及び画像分類を行って、訓練サンプル画像のサンプル画像特徴とサンプル画像カテゴリを得るステップと、サンプル画像特徴、サンプル画像カテゴリ及び分類ラベルに基づいて、モデル損失を決定するステップと、モデル損失に基づいて、訓練対象の画像処理モデルを更新した後に、訓練を継続し、訓練完了時、訓練後の画像処理モデルを取得するステップと、を含む。
【0150】
ここで、訓練サンプル画像は、分類ラベルを含み、訓練サンプル画像は、実際のニーズに応じて訓練データセットを設定することができる。サンプル画像特徴は、訓練対象の画像処理モデルにより、訓練サンプル画像に対して特徴抽出を行って得られた画像特徴であり、サンプル画像カテゴリは、訓練対象の画像処理モデルに基づいて訓練サンプル画像に対して分類処理を行って得られた分類結果である。モデル損失は、訓練対象の画像処理モデルの収束を確保してモデルの訓練を遂行するために、訓練対象の画像処理モデルにおけるモデルパラメータを更新する。具体的に、サーバは、分類ラベルを含む訓練サンプル画像を取得し、訓練対象の画像処理モデルにより、訓練サンプル画像に対して特徴抽出と画像分類を行って、訓練対象の画像処理モデルによって出力されたサンプル画像特徴とサンプル画像カテゴリを得る。サーバは、サンプル画像特徴、サンプル画像カテゴリ及び分類ラベルに基づいて、モデル損失を決定し、具体的には、サンプル画像特徴に基づいてトリプル損失を決定し、サンプル画像カテゴリ及び分類ラベルに基づいて分類損失を決定することができる。具体的には、クロスエントロピー損失であり得、トリプル損失と分類損失に基づいてモデル損失を得ることができる。サーバは、モデル損失に基づいて訓練対象の画像処理モデルに対して更新後の継続訓練を行って、訓練完了時、訓練完了した画像処理モデルを取得し、訓練完了した画像処理モデルは、入力された画像フレームに対して画像特徴抽出を行い、入力された画像フレームに対して画像分類処理を行うこともできる。
【0151】
本実施例では、サンプル画像特徴、前記サンプル画像カテゴリ及び前記分類ラベルによって決定されたモデル損失に基づいて、訓練対象の画像処理モデルを更新訓練し、訓練完了した画像処理モデルにより、識別対象ビデオフレームのビデオフレーム特徴及び動画集合参照ビデオフレームのビデオフレーム特徴を抽出し、画像処理モデルにより、入力ビデオフレームのビデオフレーム特徴を十分に抽出し、ビデオフレームマッチングの精度を向上させることができる。
【0152】
一実施例では、目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するステップは、目標ビデオとプラットフォーム参照ビデオに対してビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するステップであって、ビデオフレームペアには、目標ビデオに属する識別対象ビデオフレームが含まれ、さらに、プラットフォーム参照ビデオにおける識別対象ビデオフレームと画像マッチングしたプラットフォーム参照ビデオフレームを含む、ステップと、ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定するステップと、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを決定するステップと、を含む。
【0153】
具体的に、動画集合局所類似セグメントと同じ識別方式を採用して、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別することができる。サーバは、目標ビデオとプラットフォーム参照ビデオに対してビデオフレームの画像マッチングを行い、得られたビデオフレームペアに対して、サーバは、ビデオフレームペアにおける識別対象ビデオフレームの時間属性、及びプラットフォーム参照ビデオフレームの時間属性を決定する。サーバは、得られた識別対象ビデオフレームの時間属性とプラットフォーム参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定する。サーバは、時間オフセットに基づいて各ビデオフレームペアに対してスクリーニングし、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、サーバは、スクリーニングして得られたビデオフレームペアに基づいて、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性を決定し、識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを得る。
【0154】
本実施例では、目標ビデオとプラットフォーム参照ビデオに対して、画像マッチングされた識別対象ビデオフレームの時間属性とプラットフォーム参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定し、スクリーニングして得られた時間オフセットがマッチし合うビデオフレームペアにおける識別対象ビデオフレームの時間属性によって、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを決定し、画像マッチングしたビデオフレームペアに基づいて、時間長の異なる類似ビデオセグメントを柔軟に決定し、ビデオにおける類似ビデオセグメントを識別する際の精度を向上させる。
【0155】
本発明はさらに、上記のビデオ識別方法を適用する適用シーンを提供する。具体的に、当該ビデオ識別方法は、当該適用シーンに以下のように適用される。
【0156】
ビデオを二次制作する際、比較的純粋なビデオを素材ライブラリとしする必要があり、特にビデオの中の制作に有利な作用を有するプロモーションコンテンツを取り除く必要がある。例えば、ユーザのコンピレーションビデオを生成する必要がある場合、ユーザの過去にアップロードしたビデオをユーザ又はプラットフォームの広告等の無意味のコンテンツを持たない純粋なビデオの部分をスクリーニングして素材とし、その後、ビデオスマート合成の方式を通じて、例えば、各ビデオの中の最も美学(審美)的な評価点数が高い1セグメントのビデオを自動的に抽出し、寄せ集めて、ユーザのコンピレーションを生成する必要があり、このとき、ユーザのアップロードしたショートビデオ又はミニビデオに対して、事前に行うオープニング、エンディング又は非本編コンテンツの洗浄(クリーニング)は非常に重要である。
【0157】
このような個人ユーザが自撮り、制作等の方式で録画した2分間以内の生活、知識、心得、技能、観点を分かち合うビデオユーザ向けのミニビデオの場合、オープニング及びエンディングにユーザlogo、QRコード情報等の個人ユーザ向けプロモーション情報のビデオセグメントのほか、プラットフォームのlogoセグメントも含んでもよく、時間長は1~5sで、映画とドラマに比べて非常に短い。同時に、一部のビデオクリエイターは、オープニング及びエンディング画面をランダムに交換、修正する可能性があり、しかも、時期に応じてプラットフォームが重点的にプロモーションする情報が異なり、プラットフォームのオープニング及びエンディング画面もそれに応じて変わり、それによってユーザのアップロードビデオに各ビデオのオープニング及びエンディングの差異を引き起こす。また、時間が経つと、プラットフォームのオープニング及びエンディングが正常に識別されない可能性があり、それには新しいプロモーション情報が追加されたためである。どのように効果的にユーザが自分で制作した超短時間のオープニング及びエンディングを識別し、同時にプラットフォームのオープニング及びエンディングが一定期間内にしか安定しないミニビデオの非本編のビデオセグメントの洗浄に適応することは、ミニビデオに対して二次制作を行うために緊急に解決すべき問題である。また、ミニビデオのオープニング及びエンディングをマイニングする時に、プラットフォームlogoタイプのオープニング及びエンディングが存在するがどうかを考慮する必要があり、最もダイレクトな照会方式は、目標ビデオとビデオプラットフォームにおけるグローバルビデオを比較する方式であり、即ち、目標ミニビデオとグローバルビデオとの間に重複可能なオープニング及びエンディングがあるかどうかを照会することであり、これは、多くの時間及びリソースを必要とするため、適用には現実的ではない。
【0158】
オープニング及びエンディングは、異なる画面、異なる字幕、異なるlogo及び異なるビデオのテーマのテキスト等の情報であり得、機械を使用して特定のパターンを一律的に識別することが困難であり、従来の方法では一般的に手動でオープニング及びエンディング情報にタグ付けを行っている。しかしながら、手動のタグ付けは毎回大量のタグ付けリソースを必要とするため、処理効率が低下する。従来のオープニング・エンディングのマイニング処理方案は、大抵、ドラマの種類に関する複数のビデオ入力であり、ウィメディア(We Media)自作素材の特殊のオープニング及びエンディングの識別を解決することができず、オープニング及びエンディングの時間が複数のビデオ内ですべて固定であるビデオのオープニング・エンディングのマイニングしかサポートすることができない。実際には、大部分のオープニング及びエンディングの時間は常に厳密にアライメントされていなく、オープニングに異なる動画集合情報、異なるオープニングシーン等が挿入された場合、常にオープニングの時間がアライメントされていることを厳密に保証できない。さらに、従来のオープニング・エンディングのマイニング処理方法は、オープニングセグメントの時間長が等しく、又はエンディングの長さが等しいものの識別しかサポートできないため、時間長が等しくないビデオにおけるオープニング及びエンディングの識別の位置決定が不正確である。フレームレベルのビデオ特徴を使用してオープニング及びエンディングの識別を行うとき、フレームレベルビデオ特徴は、例えばテキストフレームの主要内容、タイトルのようなテキストタイプのフレーム画像が正常にマッチングされることは保証できない。即ち、実際には、テキスト内容が同じであるかどうかに関係なく、すべてのテキストタイプのフレームレベルのビデオ特徴が類似しており、テキストフレームの時間長に何かしらの変化があると、オープニングの位置決定される時間が不正確になり、例えば、あるドラマの配信後にコンテンツが不適切であると警告され、ドラマのある何話目から、オープニングに本ビデオの概要コンテンツのテキストフレームが追加され、それにより、当該話のビデオと過去ビデオフレームとのテキストフレームの時間長が異なる。また、多くのミニビデオは、対応する動画集合が見つからないため、それにより、オープニング・エンディングのマイニングのための有効なビデオがなく、しかも、グローバルビデオで比較する必要があるミニビデオもあり、グローバルビデオの比較は、大量のビデオでマイニングする必要があることを意味するため、毎回のマイニングには時間がかかり、実現が困難である。オープニング・エンディングのライブラリを構築してオープニング・エンディングのマイニングを行う処理方案については、オープニング・エンディングのライブラリ内のものしか照会することができず、オープニング・エンディングのライブラリの更新は、人手によるものであり、大量のビデオに対してオープニング及びエンディングの切り出し処理を行うことが困難であり、人手に依存しすぎると、自動化を実現できず、自動的な反復処理やメンテナンスが不可能である。
【0159】
これを鑑み、グローバルビデオ、及び同一ユーザアカウントの局所ビデオの範囲内でのオープニング及びエンディングのパフォーマンスを分析することにより、ビデオのオープニング及びエンディングの検索識別方法を提出し、当該方法は、グローバル共通オープニング・エンディングライブラリ構築及び照会に基づいて、ビデオ局所範囲及びグローバル範囲のフレームレベルの時シーケンス類似度の検索と組み合わせしたものである。具体的には、共通オープニング・エンディングライブラリの構築、メンテナンスにより、現行のオープニング及びエンディングの検出効果を高め、効率的なグローバル範囲ビデオ比較リストによって、グローバル範囲におけるオープニング及びエンディングをマイニングする必要がある比較ビデオ数を縮小し、それにより、制限された時間内に、新たに増加されるオープニング及びエンディングに対するマイニングの効果を達する。また、ユーザアカウントの局所ビデオのマイニングにより、規則性を有しないユーザのオープニング及びエンディングのセグメントを迅速に識別し、最終的にユーザの局所マイニング結果とグローバル結果をマージし、それにより、ビデオのオープニング・エンディングのマイニングを実現する。ここで、動的グローバルのマイニングとは、リアルタイムで更新されるグローバルビデオに対して、グローバル共通オープニング・エンディングのマイニング方式を採用し、現行のビデオ照会方法に基づいてリアルタイムでマイニングを行う方法である。それに対して、局所識別とは、照会対象ビデオと同じユーザ、又は照会対象ビデオと同じシリーズのビデオから、オープニング・エンディングのマイニングを行う方法である。グローバルと局所との組み合わせにより、オープニング及びエンディングをより全面的に得ることができ、オープニング及びエンディングの識別の精度が向上する。
【0160】
本実施例で提供されるビデオ識別方法は、ビデオの任意のユーザのオープニング・エンディングのセグメント、及びプラットフォームのオープニング・エンディングのセグメントの識別処理をサポートし、テキストOCR(Optical Character Recognition:光学文字識別)識別推薦グローバルマッチングリストに基づいて、共通オープニング・エンディングライブラリのマイニングを行うことにより、全体的なビデオ処理量を低減し、同時に共通オープニング・エンディングのマイニング効果を保証する。さらに、画像シーケンスの類似度検索を使用して2つビデオのクロス検索を実現し、それにより、重複に出現するオープニング及びエンディングを見つける。共通オープニング・エンディングが動的に更新されるライブラリを構築することにより、入力の照会時に、ライブラリを検索することによってオープニング及びエンディングを照会することをサポートするため、応答効率が向上し、様々なタイプのビデオのオープニング及びエンディングの識別処理がサポートされるようになる。従来のオープニング及びエンディングの識別処理方案に比べて、本実施例で提供されるビデオ識別方法は、可変長のオープニング及びエンディングの識別をサポートし、ビデオフレーム類似度シーケンス検索を使用して、時間がアライメントされていなく、又は時間長が可変であるオープニング及びエンディングの識別を実現する。さらに、共通オープニング・エンディングライブラリの検索、及びグローバルビデオを効率的に抽出することによって、オープニング及びエンディングを検索・マイニングし、共通オープニング・エンディングのマイニング能力を向上させ、同時に新しいプラットフォームオープニング・エンディングのマイニングをサポートし、適用中にプラットフォームのプロモーションの動的な更新のために、共通オープニング・エンディングを動的にメンテナンスして識別する必要がある要求を満たし、同時に検索のグローバルビデオ範囲を制御することにより、大量のデータのグローバル検索のためのリソース時間の消耗が高すぎることを回避することができる。さらに、グローバルライブラリ検索をサポートする共通オープニング・エンディング、キーワードライブラリをメンテナンスすることにより、既存のオープニング及びエンディングの除去機能に加え、リアルタイムで新規追加されたオープニング及びエンディングまたはキーワードのマイニング機能もサポートされる。また、検索漏れのオープニング及びエンディングに対して、簡単な人手介入による自動修復能力を提供して、ビデオのオープニング及びエンディングの識別の精度をさらに向上させることができる。
【0161】
本実施例で提供されるビデオ識別方法は、ミニビデオのオープニング及びエンディングの識別に適用することができ、それにより、オープニング及びエンディングを除去してミニビデオの本編を取得し、ビデオの二次制作を行い、又は、ミニビデオをビデオ比較に利用する等のシーンに適用することができる。
図4に示すように、ユーザのコンピレーションビデオの二次制作において、あるユーザのすべてのアップロードしたビデオに対して、オープニング及びエンディングの除去を行い、ビデオ本編を保留し、各ビデオを3sごとに1セグメントのビデオセグメントを切り出して、各ビデオセグメントのすべての画面を美学的に評価してスコアリングし、点数の平均値を取って当該セグメントのビデオの美学点数とし、ユーザのすべてのビデオに対して各ビデオの最高美学点数を取得する。複数のセグメントのビデオをスティッチングし、フィルタ美化を行い、ユーザのコンピレーションビデオに出力する。
図5に示すように、ユーザのビデオ比較適用シーンにおいて、ユーザがアップロードしたあるビデオに対して、オープニング及びエンディングの識別を行った後、本編を保留し、本編を照会して過去ビデオライブラリと類似時間帯マッチングの照会を行い、過去ビデオライブラリにおいてそれとマッチングするビデオが存在する場合、過去ビデオライブラリに当該ビデオが既に存在しているか、又は類似ビデオが存在しているかを示し、それにより、ビデオの迅速な比較処理を実現する。
図6に示すように、あるビデオプラットフォームにおけるビデオAは、再生時に、当該ビデオプラットフォームのプラットフォーム紹介画面のオープニングがあり、具体的には、2秒目の画面であり、
図7に示すように、当該ビデオAのビデオコンテンツを再生しており、具体的には、ビデオAの20秒目の画面(人物を含む)を再生している。
図8に示すように、ビデオAの再生が終了するとき、続けて当該ビオプラットフォームのプラットフォーム紹介画面のエンディングを再生し、具体的には、1分12秒目の画面である。当該ビデオプラットフォームのビデオAに対して編集処理を行うとき、ビデオ本編コンテンツを保留するために、プラットフォーム紹介画面のオープニングとエンディングのセグメントを除去する必要がある。複数のユーザがビデオをアップロードした後に、プラットフォームがビデオの同じ時間帯にプラットフォームlogoセグメントを追加するため、同じ時間帯のグローバルビデオ照会によって、同じlogoセグメントを有するビデオがより迅速に見つかり、それにより、当該マッチングされたセグメントが共通エンディングであると決定する。
図9に示すように、1つのビデオプラットフォームAは、第1期間中、プラットフォーム紹介画面のオープニングとエンディングには、テキストとアイコン901が含まれる。
図10に示すように、一定時間が経つと、第2期間中、当該ビデオプラットフォームのAプラットフォーム紹介画面のオープニングとエンディングには、テキストとアイコン1001に加えて、ダウンロード用のプロモーション情報1002も含まれ、具体的には、アプリケーションプラットフォームのダウンロードリンクを含むことができる。
【0162】
具体的に、本実施例で提供されるビデオ識別方法は、
図11に示すように、照会ビデオは、ビデオ識別をしようとする目標ビデオであり、当該照会ビデオのユーザビデオリストを取得し、ユーザビデオリスト内の各ビデオと当該照会ビデオは、同じユーザアカウントに属し、ユーザビデオリストの取得に成功した場合、ユーザビデオリストにおける各ビデオによりオープニング・エンディングのマイニングを行って、オープニング及びエンディングを得、ユーザビデオリストの取得に失敗した場合、ユーザビデオリストに対してオープニング・エンディングのマイニング処理を行わない。また、照会ビデオを共通オープニング・エンディングと識別処理を行い、オープニング及びエンディングが識別できない場合、ビデオプラットフォームにおけるグローバルビデオリストを取得し、グローバルビデオリストには、照会ビデオが所属するビデオプラットフォームから抽出したビデオが含まれる。照会ビデオをグローバルビデオリストに基づいてオープニング・エンディングのマイニング処理を行って、オープニング及びエンディングを取得する。共通オープニング・エンディングの識別結果と、ユーザビデオリストによるマイニング結果をマージして、オープニング及びエンディングを得てから出力し、又は、グローバルビデオリストのマイニング結果と、ユーザビデオリストのマイニング結果をマージして、オープニング及びエンディングを得てから出力する。さらに、グローバルビデオリストのマイニング結果について、マイニング結果から共通オープニング・エンディングを抽出し、抽出された共通オープニング・エンディングに対応する推薦オープニング・エンディングをカウントして更新し、共通オープニング・エンディング判定条件を満たす場合、T日以降に、抽出された共通オープニング・エンディングを共通オープニング・エンディングライブラリに更新する。
【0163】
さらに、ある照会ビデオについて、まず、アップロードユーザ名の別のビデオに対してマイニングを行い、ここで、マイニングは、ビデオペア同士の類似時間帯の検索と、フレームレベルのOCRキーワード照会の矯正とが含まれる。共通オープニング・エンディングライブラリで検索し、検索結果がない場合、現在の照会ビデオにプラットフォームlogoタイプの新しいオープニング及びエンディングが含まれている可能性があり、このとき、グローバルビデオのマイニングをトリガする必要があることを示す。具体的には、識別して得られたOCRプラットフォームキーワードを使用して、グローバルビデオから同じプラットフォームキーワードを含む最近のビデオを探し出してグローバルビデオリストを構成し、照会ビデオとグローバルリストビデオを使用して類似時間帯の検索を行い、結果があるときに、新しいプラットフォームlogoタイプが現れたことを示し、この場合、検索結果をユーザ名下のビデオ検索結果をマージして出力し、同時に、新しいプラットフォームlogoタイプを共通オープニング・エンディングライブラリに推薦して、結果がないときに、このビデオがグローバル内でマッチングするオープニング及びエンディングがないことを示す。さらに、共通オープニング・エンディングの自動追加を保証するために、毎回マイニングして得られた新しいグローバル共通オープニング・エンディングを、オープニング・エンディングライブラリによって、統計処理を行い、共通オープニング・エンディングライブラリに更新することを推薦するかどうかを決定する。
【0164】
図12に示すように、本実施例で提供されるビデオ識別方法は、グローバルライブラリ照会、局所リストマイニング、グローバルリスト生成、グローバルリストマイニング、新規のオープニング及びエンディングの共通オープニング・エンディングライブラリへの記録、キーワードライブラリのメンテナンスなどの処理を含む。具体的に、グローバルライブラリ照会において、照会ビデオのフレームレベル画像のembedding特徴と共通オープニング・エンディングライブラリのフレームレベル画像のembedding特徴を直接採用することができ、具体的に、照会ビデオと共通オープニング・エンディングライブラリのビデオからフレームレベル画像をそれぞれ抽出し、抽出したフレームレベル画像のフレームレベル特徴を取得し、フレームレベル特徴に基づいて類似時間帯検索を行い、マッチングした時間帯を、検索して得られるオープニング及びエンディングとして、識別結果1を得ることができる。具体的に、照会ビデオとグローバルライブラリ内の複数のオープニング・エンディングとマッチングする時間帯を照会して得、ここで、最長時間帯を最終的な検索結果とする。オープニング、エンディングのマッチング時間帯が見つからない場合、グローバルライブラリ内の共通オープニング・エンディングに基づいて、照会ビデオ内のオープニング及びエンディングを識別できないと決定する。
【0165】
グローバルリストマイニングの場合、局所リストマイニングと同じ処理方法を採用することで、検索用のビデオリストが異なるだけであり、照会ビデオ及びグローバルリストのビデオのそれぞれからフレームレベル画像を取得し、各フレームレベル画像のフレームレベル特徴を抽出して、固定セグメントシーケンス類似検索処理を行い、識別結果2を得ることができる。局所リストマイニングの場合、照会ビデオとユーザビデオリスト内の各ビデオを2対2でビデオペアを構成し、各ビデオペアに対してフレームレベル画像をそれぞれ取得し、フレームレベル画像のフレームレベル特徴を抽出して固定セグメントシーケンス類似検索処理を行い、それにより、ビデオフレーム画像を採用して類似時間帯検索により類似セグメントを生成し、すべてのビデオペア検索を完了して、複数の類似セグメントを得、それらを合併して局所オープニング及びエンディングを得、識別結果4を得る。一方、ビデオペアで取得したフレームレベル画像について、フレームレベルOCRを採用して、キーワードライブラリからプラットフォームキーワードを見つけ、識別結果3を得、識別結果3によって識別結果4を矯正して、識別結果3と識別結果4とを合併して合併結果を得る。
【0166】
具体的に、識別結果3と識別結果4について、識別結果4は、2つのビデオの検索により得られた信頼度の高いオープニング及びエンディング情報であり、識別結果3は、画面に何らかの特殊な語彙が含まれているか否かにより得られる無効なフレームであるか否かの情報であり、そのため、識別結果3の情報で識別結果4を矯正する。ここで、識別結果3の役割は、ビデオにおけるオープニング及びエンディングのキーワードを提供することであり、例えば、エンディングとしては、あるビデオプラットフォームのプロモーション画面であり、ビデオの二次創作にとっては無効な画面であり、したがって、この特殊な語彙によってオープニング及びエンディング近傍の無効な画面を除去する必要がある。具体的に、文字検索の方法を採用して、本編からこのような文字の付いた画面を削除することができる。まず、削除する必要のある文字をキーワードライブラリに保存し、入力したフレーム画像から識別して得られたOCRについて、OCRにライブラリキーワードが存在するか否かを照会し、ライブラリキーワードがヒットした場合、本フレームは無効な画面であると見なされる。すべてのフレームに対して、ヒットしているか否かに基づいてすべての画面が無効か否かを判断することで、テキスト検索結果を利用して、オープニング及びエンディング時間を矯正する。
【0167】
具体的な応用では、オープニング終了時間について、例えば、オープニング[2,18]の終了時間が18sである場合、オープニング終了時間から始まる分類情報を探し、オープニング終了からエンディング開始までの本編画面のうち、50%を超える画面が無効であれば、無効な画面をクリーニングしない。オープニングの終了後の5s以内、即ち、第19~23フレーム目に2フレーム以上の無効な画面が含まれていれば、オープニング終了時間を、最後の1つフレームの無効な画面の時間まで修正し、オープニング終了後、一定時間の連続無効な画面がある場合、オープニング終了時間を最長の連続無効時間に直接修正する。同様に、エンディング開始時間について、開始時間から遡る一定時間を探し、無効な画面が現れた場合、エンディング開始時間からこの無効な画面の次の1秒に修正する。
図13に示すように、オープニング1について、オープニング1の時間を、識別して得られた、プラットフォームキーワードを含む無効な画面の終了時間まで延長する。
図14に示すように、エンディング1について、エンディング1の時間を、識別して得られた、プラットフォームキーワードを含む無効な画面の開始時間まで延長する。
【0168】
グローバルライブラリによる照会、グローバルリストによるマイニング、又は局所リストによるマイニングの処理について、いずれもフレームレベル画像のフレームレベル特徴に基づいて固定セグメントシーケンス類似検索処理を行うことができる。具体的に、グローバルライブラリ内の共通オープニング・エンディング、グローバルリスト内のグローバルビデオ又は局所リスト内のユーザビデオを照会ビデオの参照ビデオとして使用し、照会ビデオとビデオペアを構成する。フレームレベル特徴抽出の処理について、ビデオに対してフレーム抽出してフレームレベル画像を得、各フレームレベル画像のそれぞれのフレームレベル特徴を抽出する。例えば、25FPS(Frame Per Second、毎秒伝送フレーム数)の6秒ビデオに対して、1秒毎に1フレームを抽出し、合計6つの画像を抽出し、次に、フレーム抽出画像に対して、特徴抽出器によって各フレームのビデオフレーム特徴を取得し、それにより、このビデオは6つのビデオフレーム特徴を有する。1秒に3フレームのフレーム抽出方法を採用した場合、最終的なオープニング及びエンディングの識別時間精度は0.33秒であり、時間が短いミニビデオについて、より高い時間精度が必要な場合、1秒に10フレームで、精度が0.1秒のより密なフレーム抽出方法を採用してフレーム抽出処理を行うことができる。ここで、ビデオフレームは、画像特徴抽出器によって抽出することができる。画像特徴抽出器は、オープンソース分類データセットImagenetに基づいて訓練されたResNet-101ニューラルネットワークプール層出力を採用して、各画像を1x2048の画像embeddingベクトルに変換することができる。ここで、Imagenetは大規模な共通物体識別のオープンソースデータセットである。画像特徴抽出器は、異なるネットワーク構造、異なる事前訓練されたモデルの重みに基づいて実現することもできる。
【0169】
ここで、画像embeddingは、画像情報の特徴を記述するために使用され、画像下位層表現、画像セマンティック特徴などを含み、embeddingは、浮動小数点特徴に限らず、2値特徴ベクトルからなる画像表現、即ち、ディープハッシュ特徴でもよい。本実施例におけるembedding特徴は、二値化されたディープハッシュ特徴であってもよい。画像下位層表現は、ディープラーニングの下位層特徴からの画像embeddingであって、全図画像のテクスチャ、特徴配置などのいくつかの表現情報を記述し、画像セマンティック特徴は、セマンティック学習からの画像embeddingであって、画像中の特定の指定セマンティックコンテンツ部位の表現を記述する。例えば、犬のembeddingを記述するために使用される場合、画像中の犬がいる位置の特徴を画像表現とする。
【0170】
ResNet-101の畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)深層表現モジュールの構成を下記表1に示す。
【0171】
【表1】
さらに、フレーム抽出画像について、各画像に対してOCR識別を行うことで、各画像上のテキスト情報を識別することができる。
【0172】
embeddingに基づくシーケンス類似検索処理では、ビデオ時間帯マッチングを行う際に、照会ビデオとリストビデオからなる各ビデオペア(i,r)について、リストビデオは、グローバルライブラリ、グローバルリスト又は局所リスト内のビデオであり、iは、決定待ちのオープニング及びエンディングの照会ビデオを意味し、rは、参照ビデオとして機能するあるリストビデオを意味する。リストビデオが3つあると仮定すると、照会ビデオiに対して、embedding1に基づく3回のシーケンス類似検索のアルゴリズム計算、及び3回のembedding2に基づくシーケンス類似検索のアルゴリズム計算を行う必要がある。
【0173】
具体的に、シーケンス類似度検索について、時間帯マッチングアルゴリズムとも呼ばれ、毎回1ペアのビデオを処理し、各ビデオの入力は、そのembeddingシーケンスである。時間帯マッチングアルゴリズム内の閾値は、サービス、又は処理されるビデオのニーズに応じて動的に調整することができる。時間帯マッチングアルゴリズムのステップは、具体的に、ビデオフレーム特徴embeddingの距離閾値t0=0.3と事前設定し、即ち、2つのembeddingのユークリッド距離が0.3未満であることは、2つのembeddingが類似のフレームからのものであることを表し、距離閾値は、実際の需要に応じて柔軟に設定することができる。ビデオペア内の2つのビデオに対してフレーム抽出を行い、各フレームのembeddingを取得する。ビデオi内の各フレームjについて、それとビデオr内の各フレームembeddingとのユークリッド距離を計算し、t0より小さいフレームをjの類似フレームとし、jの類似フレーム又はマッチングするフレームリストsim-id-listを取得し、同時に、対応する類似フレーム時間偏差diff-time-listを記録する。例えば、j=1のフレームについて、類似フレームリストsim-id-listが[1,2,3]である場合、rビデオの1、2、3秒目と類似していることを示し、時間偏差diff-time-listが[0,1,2]である場合、sim-id-list内の類似フレームとj=1のフレームに表される時間との距離を示す。デフォルトのフレーム抽出は、1秒毎に1フレームが抽出されることであり、そのため、フレームの番号は秒数になる。したがって、iにおけるすべてのフレームの類似フレームリストSL、時間偏差リストTLを取得し得る。
【0174】
すべてのフレームをトラバースして、iビデオとrビデオのマッチングするフレーム数、即ち、rビデオとマッチングするjの数を統計し、マッチングフレーム数が1より少ない場合、iとrビデオは同じビデオセグメントを有しておらず、オープニング及びエンディングをマイニングすることができない。そうでない場合、時間偏差dtを並べ替えてSLリストを得る。具体的に、SL内のすべてのマッチングフレームに対して、diff-time(即ち、dt)に従って昇順で並べ替え、dtが同じである場合、ビデオiの番号に従って昇順で並べ替える。同時に、この順序に従って対応するdiff-time-listを再構成し、即ち、時間差が0であるものが先頭に、時間差が1であるものがその次にする。例えば、新しいSLリストは[10,11]、[11,12]、[2,4]、[3,5]、[4,6]、[6,9]、[7,10]である。
【0175】
dtでデータを再構成してmatch-dt-listを得ることは、具体的に、iのすべてのフレームの類似フレームリストSL内のリストに対して、時間偏差を主キーとして再構成して、dtの昇順のリストを得、時間偏差が0、1、2……である類似フレームmatch-dt-list:{0:{count,start-id,match-id-list},….}を得る。例えば、{2:{3,2,[[2,4],[3,5],[4,6]]},3:{2,6,[[6,9],[7,10]]}}であり、ここで、2は時間差2であることを意味し、例えば、iの第2フレームとビデオvid2の第4フレームが類似する場合、これら2つのフレームの時間差は1となる。countは、この時間偏差における類似フレームの数であり、上記のiの第2フレームとvid2の第4フレームが類似している場合、countに1を加算し、start-idは、この時間差においてiの最小フレームidであり、例えば、iの第1フレームとvid2が類似せず、iの第2フレームとビデオvid2の第4フレームが類似している場合、start-idは2になる。
【0176】
match-dt-list内の前後のdtが3未満(即ち、マッチング偏差が3s以内のマッチングペアを合併)の2つのdtリストを合併し、dtが大きいものをdtが小さいものの中に合併し、同時に、dtが大きい類似フレームに対してマッチング更新し、マッチングフレームリストSLを更新する。例えば、上記の例において、dtが2であるものとdtが3であるものの中に合併して、最終的に、{2:{5,2,[[2,4],[3,5],[4,6],[6,8],[7,9]]}}を得ることができる。ここで、countは、dt=2とdt=3のcountの和であり、start-idは、dt=2とdt=3の類似フレームリストから最小のiビデオフレームを見つけたフレームである。dt=3のリストについて、マッチングしたフレームの番号を書き替えから合併される。例えば、[6,9]を[6,8]に書き換えてdt=2の類似フレームリストの中に合併され、同時に、フレーム番号が書き換えた類似フレームペアは、ステップ5)のSLマッチングフレームリストに同期して更新し、例えば、[10,11]、[11,12]、[2,4]、[3,5]、[4,6]、[6,8]、[7,9]に更新される。上記のように、合併フレームリストが存在すると、dt又はフレームidの順序を乱す恐れがあるため、並べ替える必要がある。具体的に、dtを並べ替える。即ち、新しいSLリストに対してもう一度dtを並べ替えてSLリストを得る処理を行い、dtの昇順(ビデオiのフレームidの昇順)で並べ替えられたマッチングフレームリストを得る。dtでデータを再構成してmatch-dt-listを得、即ち、dtでデータを再構成してmatch-dt-listを得る処理をもう一度実行する。
【0177】
時間帯マッチングリストmatch-duration-listを計算する。具体的に、2つのマッチングセグメントの時間間隔がT2より大きく設定(例えば8s、1秒が1フレームである場合、フレーム番号の差は8である)し、match-dt-list内の各dt(例えばdt=2)について、dtにおけるビデオiの各フレームsrcT(例えば、上記に例示される2、3、4、6、7のうちの2)について、srcTと前回のsrcTとの差がT2より大きい(例えば2と前回のsrcT11との差が9である場合、間隔閾値より大きい)場合、前回の類似フレームペアを1つのマッチングセグメントに合併し、現在のsrcTから新しい類似フレームペアの統計を開始し、類似フレームを一時リストtmplistに保存する。dt=2、srcT=2において、前回の一時フレームリスト内の類似フレームをマッチングセグメントとして保存し、例えば、前回のtmplist=[[10,11],[11,12]]の類似フレームをマッチングセグメントとしてmatch-duration-listに追加、例えば、[10,11,11,12,1,2,2]のようなマッチングセグメント情報を追加し、ここで、各値は、[src-startTime,src-endTime,ref-startTime,ref-endTime,dt,duration,count]であり、即ち、マッチングセグメントに2セグメントのビデオの、ビデオiの開始フレーム、最終フレーム、マッチングビデオの開始フレーム、最終フレーム、マッチングセグメントのdt、マッチングセグメントの時間長、マッチングされた類似フレームの数が保存されている。
図15に示すように、マッチングセグメント情報には、目標ビデオの開始フレーム時間、目標ビデオの最終フレーム時間、マッチングビデオの開始フレーム時間、及びマッチングビデオの最終フレーム時間などの情報が含まれている。今回の類似フレームを一時リストにtmplist=[[2,4]]と保存する。srcTと前回のsrcTとの差異がT2より小さい場合、今回の類似フレームを一時リストtmplistに保存する。例えば、dt2について、srcT=3、4、6、7をいずれも一時リストに保存し、そうすると、tmplist=[[2,4],[3,5],[4,6],[6,8],[7,9]]が得られる。現在、このdtの最後の類似フレーム(例えばsrcT=7)である場合、tmplistの累積類似フレームからマッチングセグメントを構成してmatch-duration-listに追加する。例えば、[2,7,4,9,2,6,5]を追加し、ここで、時間長は7-2+1であり、count=5は類似フレームのカウントであり、そのため、match-duration-list=[[10,11,11,12,1,2,2],[2,7,4,9,2,6,5]]である。上記のmatch-duration-listは、例えば、match-duration-list=[[2,7,4,9,2,6,5],[10,11,11,12,1,2,2]]のように、count類似フレーム数の逆順に並べ替える。
【0178】
match-duration-listに重畳する時間帯がある場合に対して処理を行う。類似フレーム計算は、2つのビデオのすべてのフレームをトラバースして距離計算を行い、ある閾値範囲内で類似しているものに対して操作を行えば、あるフレームが複数のフレームと類似している場合が生じやすく、それにより、match-duration-listにおいて2つのマッチングされる時間帯が時間的に重畳する状況が生じ、このような状況を処理する必要がある。具体的に、最小のマッチングセグメントの時間長をT3と設定し(例えば、5と設定し、最短のマッチング時間長が5sであることを示す)、match-duration-list内の時間帯i(src-startTime、src-endTimeで構成される時間帯を指す)について、match-duration-list内の時間帯j=i+1について、時間帯iに時間帯jが含まれる場合、jを削除する。
図16に示すように、時間帯iの開始時刻が時間帯jの開始時刻より前であり、且つ時間帯iの終了時刻が時間帯jの終了時刻より後ろであり、即ち、時間帯iに時間帯jが含まれ、jを削除する必要がある。iとjに重畳する部分があり、且つiの開始時点が最も早い開始時点である場合、jの開始時点をiの終了時点位置まで後ろに移動させ、jを更新する。この場合、j時間帯の時間長がT3未満である場合、jを削除し、そうでない場合、古いjを新しいjに置き換える。
図17に示すように、時間帯iの開始時刻が時間帯jの開始時刻より前であり、時間帯iの終了時刻が時間帯jの終了時刻より前であり、iとjは重畳しており、時間帯iの終了時刻を時間帯jの終了時刻に更新する必要がある。iとjが重畳しており、且つjの開始時点が最も早い開始時点である場合、jの終了時点をiの開始時点位置まで前に移行させ、jを更新する。この場合、j時間帯の時間長がT3未満の場合、jを削除し、そうでない場合、古いjを新しいjに置き換える。
図18に示すように、時間帯iの開始時刻が時間帯jの開始時刻より後ろであり、且つ時間帯iの終了時刻が時間帯jの終了時刻より後ろであり、iとjが重畳しており、時間帯iの開始時刻を時間帯jの開始時刻に更新する必要がある。最後に、例えば、match-duration-list=[[2,7,4,9,2,6,5],[10,11,11,12,1,2,2]]のようなマッチング時間帯情報を返すか、又はマッチングセグメント[[2,7,4,9],[10,11,11,12]]のみを返す。
【0179】
同じマッチングセグメントを取得する処理では、照会ビデオに対して、ビデオリストとの類似度シーケンスマッチングを行った後、3つのマッチング時間帯を得、この3つの時間帯をアライメントさせて、このembeddingに基づくビデオリストの同じマッチングセグメントを得る。具体的に、ビデオiについて、ビデオvid2、ビデオvid3、ビデオvid4からマイニングする必要があると仮定すると、[I,vid2]、[I,vid3]、[I,vid4]の合計N=3ペアのビデオペアに対して、前述のビデオセグメントマッチング処理をそれぞれ行い、3つのマッチング情報を得る。例えば、第1ペアのビデオマッチングセグメントについては[[2,7,4,9],[10,11,11,12]]を返し、第2ペアのマッチングセグメントについては[[2,7,4,9]]を返し、第3ペアについては[[2,7,4,10]]を返す。マッチングセグメントを統計し、例えば、[2,7,4,9]を2回で、[2,7,4,10]を1回で、[10,11,11,12]を1回で統計する。マッチングセグメントに対してカウントの逆順に並べ替え、カウントが同じである場合、src-startTimeの昇順で並べ替え、match-list=[[2,7,4,9],[2,7,4,10],[10,11,11,12]]、count-list=[2,1,1]を得る。
【0180】
match-list内で重畳しているマッチングセグメントを合併する。具体的に、有効重畳率T4を、例えば0.5に設定し、2つの時間帯の重畳時間長が目標セグメントの時間長に占める時間長がT4以上である場合、2つのカウントを合併して計算する必要があることを意味し、有効マッチングカウントT5を、例えば3に設定し、あるセグメントのマッチングセグメントのカウントがT5より大きい場合、このセグメントは無視できないこと意味する。match-list内の時間帯i(src-startTime、src-endTimeで構成された時間帯を指す)について、match-list内の時間帯j=i+1について、時間帯iに時間帯jが含まれ、且つjセグメントの時間長>0.5*iセグメントの時間長である場合、jを削除し、同時に、iセグメントのカウント=オリジナルiセグメントのカウント+jセグメントのカウントとする。iとjが重畳しており、重畳時間長>0.5*iセグメントの時間長であり、jセグメントのカウントがT5より大きい場合、iとjセグメント時間を最長開始終了時間として合併し、iセグメントのカウント=オリジナルiセグメントのカウント+jセグメントのカウントとする。jセグメントのカウントがT5より小さい場合、jセグメントを削除し、iセグメントのカウント=オリジナルiセグメントのカウント+jセグメントのカウントとする。即ち、この場合、iとjセグメントを合併せず、出現回数が最も多いiセグメントのみを保持し、jセグメントのカウントは新しいiセグメントのカウントに反映される。iとjが重畳しており、重畳時間長<0.5*iセグメントの時間長である場合、jセグメントは破棄される。
図19に示すように、時間帯iの開始時刻が時間帯jの開始時刻より前であり、時間帯iの終了時刻が時間帯jの終了時刻より前である場合、iとjが重畳しており、時間帯iの終了時刻を時間帯jの終了時刻に更新する必要がある。一方、時間帯iの開始時刻が時間帯jの開始時刻より後ろであり、且つ時間帯iの終了時刻が時間帯jの終了時刻より後ろである場合、iとjが重畳しており、時間帯iの開始時刻を時間帯jの開始時刻に更新する必要がある。
【0181】
新しいビデオマッチングセグメントmatch-list([[2,7,4,9],[10,11,11,12]]など)、及びカウントcount-list([3,1]など)を得る。有効重畳出現回数比率閾値T6を設定し、Nペアのビデオペアマイニングにおいて、あるマッチングビデオセグメントは、重畳出現回数x>N*T6であり、この場合、有効な重畳セグメント(T6=0.5など)であることを意味する。match-listについて、有効時間帯を保留し、match-list=[[2,7,4,9]]、及びcount=[3]が得られる。ここでのmatch-listは、フレームレベル特徴と、異なるリストビデオとに対して固定セグメントシーケンス類似検索を行うことによって得られる識別結果である。
【0182】
グローバルリスト生成の場合、得られたOCRキーワードに対して、過去1週間又は2週間のグローバルビデオから、同じOCRキーワードを有するビデオを見つけ、その中から1万個のビデオをサンプリングして、グローバルリストを形成する。全グローバルビデオを直接使用してグローバルリストを生成する場合と比較して、同じプラットフォーム、同じ時期又は最近のビデオを採用するため、比較に必要なビデオが少なくなり、更新の対象が絞られ、新規プラットフォームオープニング及びエンディングをマイニングしやすくなる。キーワードライブラリにOCR語彙とマッチングするものがない場合、最近1週間のグローバルビデオからランダムに1万個のビデオをサンプリングしてグローバルリストとする。グローバルリストを効率的に生成するために、グローバルミニビデオに対して、OCRテキストを事前に抽出し、キーワードライブラリを照会し、それにより、キーワードライブラリの各単語を特定のグローバルミニビデオに関連付けることができる。キーワードライブラリには様々なキーワードが含まれ、ビデオプラットフォーム内のビデオはキーワードライブラリ内のキーワードに関連付けられている。また、グローバルリストと照会ビデオは、同じキーワードを有し、同時に、同じキーワードを有する1万個のビデオを採用し、1万個グローバルランダムサンプルと組み合わせることで、汎化性能を向上させ、キーワードの識別精度を向上させることができる。
図12に示すように、グローバル新規ビデオ、例えば、ビデオプラットフォーム内のユーザが新しくアップロードしたビデオについて、このグローバル新規ビデオからフレームレベル画像を抽出し、このフレームレベル画像に対して文字識別を行い、文字識別結果とキーワードライブラリ内の各キーワードを利用してキーワード照会を行うことで、このグローバル新規ビデオのビデオ情報の集めを実現することができる。例えば、このグローバル新規ビデオと対応するキーワードとの関連関係を確立することができる。ビデオプラットフォーム内の各ビデオに対してビデオ情報の集め処理を行い、グローバルリストを得ることもできる。
【0183】
キーワードライブラリのメンテナンスについて、ビデオプラットフォームが次々と出現するため、新しいビデオプラットフォームが出現する可能性があり、キーワードライブラリを動的に更新及びメンテナンスする必要がり、新しいビデオプラットフォームで出現するオープニング及びエンディングのプラットフォームlogoセグメントのキーワードを直接ライブラリに入れることができ、キーワードライブラリの動的な更新及びメンテナンスを実現する。具体的に、局所リストマイニング際に、照会ビデオのプラットフォームキーワードを得、得られたプラットフォームキーワードをキーワードライブラリに更新することができる。
【0184】
新規オープニング及びエンディングの共通オープニング・エンディングライブラリへの記録について、リストマイニングにおけるアンカーポイント識別結果1又は識別結果2から推薦オープニング及びエンディングを生成し、推薦ライブラリに保存し、このオープニング及びエンディングの出現回数N1及び新規追加回数N2を記録することができる。
図20に示すように、照会ビデオから取得したフレームレベル画像を利用して、単一ビデオ共通シーケンス類似検索を行い、オープニング及びエンディングを得た後、このオープニング及びエンディングの出現回数N1及び新規追加回数N2を更新することができる。毎回の上記のビデオリスト、単一ビデオマイニングにおいて、いずれも推薦ライブラリにオープニング及びエンディングが含まれているか否か照会し、毎回含まれると決定した場合、即ち、毎回上記のビデオリスト、単一ビデオマイニングにおいて得られたオープニング及びエンディングのマイニング結果に、このオープニング及びエンディングが含まれる場合、推薦ライブラリにおけるこのオープニング及びエンディングの出現回数及び新規追加回数、即ち、N1及びN2を更新する。T日後、新規追加回数に基づいて、新規追加回数が多いオープニング及びエンディングを選択して、共通オープニング・エンディングライブラリに保存する。
【0185】
具体的に、グローバルリストマイニングにおいて、信頼度の高いオープニング及びエンディングをマイニングした後、このオープニング及びエンディングは、後続のビデオグローバルライブラリ照会処理に使用され得る。共通オープニング・エンディングライブラリの有効性を確保するために、1つのバッファライブラリ、即ち、推薦オープニング・エンディングライブラリを採用することができ、この推薦オープニング・エンディングライブラリは、グローバルリストマイニングによって生成されたすべてのオープニング及びエンディング、及び有効情報N1、N2を格納するために使用され、ここで、N1は、オープニング及びエンディングが出現した回数であり、N2は、オープニング及びエンディングが出現した新規追加回数である。あるオープニング及びエンディングに対して、ライブラリに入れる時にN1は1として記録され、N2は0として記録される。照会ビデオが入力されるたびに、推薦オープニング・エンディングライブラリにおいて照会を行い、あるオープニング及びエンディングとマッチングするものが発見された場合、このオープニング及びエンディングのN2の記録に1を加算する。一定時間後、時間閾値を7日間と仮定して、N2の記録数に基づいて降順に並び替え、上位の10%且つN2>100であるオープニング及びエンディングを取得し、本周期内に最終的に推薦されるオープニング及びエンディングを取得し、最終的に推薦されるオープニング及びエンディングを共通オープニング・エンディングライブラリに記録する。このオープニング及びエンディングが共通オープニング・エンディングライブラリに記録されたことがある場合、すべての推薦オープニング・エンディングライブラリの記録を更新し、即ち、N1=オリジナルN1+N2、N2=0のように更新する。これにより、次の周期の統計が開始される。また、ライブラリに入れる時にN1、N2以外に、T時間も記録して、このビデオのライブラリに入れる日数を表すこともできる。ライブラリに入れた日数が7日の倍数であるオープニング及びエンディングを毎日統計し、そのN2記録が指定閾値より大きい場合、共通ライブラリに記録し、同時に、満7日の倍数の推薦オープニング・エンディングライブラリの記録を更新し、即ち、N1=オリジナルN1+N2、N2=0のように更新する。これにより、次の周期の統計が開始される。N1、N2、Tに基づく他の閾値判定戦略を採用して、共通オープニング・エンディングライブラリを更新することもできる。また、推薦オープニング・エンディングライブラリからグローバルオープニング・エンディングライブラリへ更新される時間周期は、リアルタイムで調整することができ、毎日のビデオトラフィックの統計に基づいて、トラフィックが特定の閾値に達した場合に更新する。
【0186】
識別結果3と識別結果4から合併結果を生成し、合併結果を識別結果1又は識別結果2と合併する。2つの識別結果はいずれも複数のビデオペアの検索に基づいて得られるため、得られたマッチング時間帯は、強いオープニング及びエンディング情報であり、即ち、時間帯がオープニング及びエンディングに属する信頼度が非常に高い。この場合、2つの識別結果を合併して、ビデオ間で複数回重複して出現するオープニング及びエンディングを得る必要がある。具体的に、合併結果を識別結果1又は識別結果2と合併する際に、合併結果を識別結果1又は識別結果2のオープニング時間のセグメントに対して、この複数のセグメントを合併し、最大時間をオープニング終了時間、例えば、[2,7]、[9,15]、[9,13]とし、合併時間後に[2,15]をオープニング時間帯として出力し、15を終了時間とする。同様に、合併結果を識別結果1又は識別結果2のエンディングの合併について、最小時間をエンディングの開始時間とすることで、総合識別により得られたオープニング及びエンディングを含む総合識別結果を得ることができる。
【0187】
本実施例で提供されるビデオ識別方法は、長さが等しくないオープニング及びエンディングの識別をサポートし、ビデオフレームembedding類似度シーケンス検索を利用することで、時間がアライメントされていなく、又は時間長が等しくないオープニング及びエンディングにおけるオープニング及びエンディング識別を実現する。また、局所的及びグローバルリストembeddingのマイニング、ユーザ次元、プラットフォーム次元のオープニング及びエンディングの識別を組み合わせることで、全体的な判定効果を向上させ、通常のマイニングにおいて、プラットフォーム次元に出現するオープニング及びエンディングが無視されることを回避し、それにより、ミニビデオコンテンツをよりきれいにクリーニングすることができる。また、マイニングされたグローバルオープニング及びエンディングについて、推薦オープニング・エンディングライブラリ、フルネットワーク再現統計、正式なオープニング・エンディングライブラリへの保存などの方法により、オープニング及びエンディングのマイニング及び共通オープニング・エンディングに関するクローズドループ管理を実現する。ミニビデオに対するオープニング及びエンディング識別に加えて、限定的な修正の後、本実施例で提供されるビデオ識別方法は、他の種類のビデオ、例えば、映画ドラマなどの長いビデオのオープニング及びエンディング識別処理にも適用され得、例えば、長いビデオに対してグローバルマイニングのビデオリストを制限する必要があり、これにより、過剰なビデオでの比較が時間消費の増加を引き起こすことを回避する。
【0188】
理解すべきこととして、上述した各実施例に係るフローチャートの各ステップは、矢印に従って順次表示されているが、これらのステップは必ずしも矢印によって示される順序で順次実行されるわけではない。本明細書で明記されていない限り、これらのステップの実行は厳密な順序に限定されず、これらのステップは他の順序で実行されてもよい。さらに、上述した各実施例に係るローチャートの各ステップの少なくとも一部は、複数のステップ又は複数の段階を含み得、これらのステップ又は段階は、必ずしも同時に実行されるとは限らず、異なるタイミングに実行され得、また、これらのステップ又は段階の実行順序も、必ずしも順次に実行される必要はなく、他のステップ、又は又は他のステップにおけるステップ又は段階の少なくとも一部と交互に実行されてもよい。
【0189】
同じ発明思想に基づき、本願の実施例は、上述したビデオ識別方法を実現するためのビデオ識別装置をさらに提供する。この装置によって提供される問題解決の実施形態は、上記の方法に記載された実施形態と同様であるため、以下に提供される1つ又は複数のビデオ識別装置の実施形例における具体的な限定は、上記のビデオ識別方法に関する限定を参照することができ、ここでは繰り返して説明しない。
【0190】
1つの実施例において、
図21に示すように、ビデオ識別装置2100を提供し、前記装置は、動画集合ビデオ取得モジュール2102、局所類似セグメント識別モジュール2104、プラットフォームビデオ取得モジュール2106、グローバル類似セグメント識別モジュール2108及び総合類似セグメント決定モジュール2110を備え、ここで、
動画集合ビデオ取得モジュール2102は、ビデオシリーズ動画集合における目標ビデオと動画集合参照ビデオを取得するように構成され、ビデオシリーズ動画集合には、同一シリーズに属するビデオが含まれ、
局所類似セグメント識別モジュール2104は、目標ビデオと動画集合参照ビデオとのビデオフレームマッチングによって得られた第1マッチング結果に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを識別するように構成され、
プラットフォームビデオ取得モジュール2106は、目標ビデオが属するビデオプラットフォームからのプラットフォーム参照ビデオを取得するように構成され、
グローバル類似セグメント識別モジュール2108は、目標ビデオとプラットフォーム参照ビデオとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを識別するように構成され、
総合類似セグメント決定モジュール2110は、動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれ目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するように構成される。
【0191】
1つの実施例において、前記装置はさらに、目標ビデオにおける矯正キーワードを含む矯正セグメントに基づいて、動画集合局所類似セグメントに対して矯正更新を行い、更新後の動画集合局所類似セグメントを得るように構成される矯正更新モジュールと、総合類似セグメント決定モジュール2110はさらに、更新後の動画集合局所類似セグメント及びプラットフォームグローバル類似セグメントのそれぞれ目標ビデオにおける位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するように構成される。
【0192】
1つの実施例において、矯正更新モジュールは、矯正セグメント決定モジュール、タイムスタンプ更新モジュール及び類似セグメント更新モジュールを備え、ここで、矯正セグメント決定モジュールは、目標ビデオにおける矯正キーワードを含む矯正セグメントを決定するように構成され、タイムスタンプ更新モジュールは、目標ビデオにおける矯正セグメントのタイムスタンプ位置に基づいて、目標ビデオにおける動画集合局所類似セグメントのタイムスタンプ位置を更新し、更新後のタイムスタンプ位置を得るように構成され、類似セグメント更新モジュールは、更新後のタイムスタンプ位置に基づいて、目標ビデオにおける更新後の動画集合局所類似セグメントを決定するように構成される。
【0193】
1つの実施例において、矯正セグメント決定モジュールはさらに、目標ビデオにおけるビデオフレームに対して文字識別を行い、文字識別結果を得、文字識別結果を矯正キーワードとマッチングして、マッチング結果を取得し、マッチングが一致するというマッチング結果に関連するビデオフレームに基づいて、目標ビデオから矯正キーワードを含む矯正セグメントを決定するように構成される。
【0194】
1つの実施例において、プラットフォーム参照ビデオは、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから取得したプラットフォーム公用ビデオセグメントと、ビデオプラットフォームから取得したプラットフォーム関連ビデオとを含み、グローバル類似セグメント識別モジュール2108は、公用ビデオマッチングモジュール、関連ビデオマッチングモジュール及びマッチング結果処理モジュールを備え、ここで、公用ビデオマッチングモジュールは、目標ビデオとプラットフォーム公用ビデオセグメントとのビデオフレームマッチングを行い、公用ビデオマッチング結果を得るように構成され、関連ビデオマッチングモジュールは、公用ビデオマッチング結果に基づいて類似セグメントが識別できない場合、目標ビデオをプラットフォーム関連ビデオとビデオフレームマッチングを行い、関連ビデオマッチング結果を得るように構成され、マッチング結果処理モジュールは、関連ビデオマッチング結果に基づいて、目標ビデオにおける、プラットフォーム関連ビデオに対するプラットフォームグローバル類似セグメントを識別するように構成される。
【0195】
1つの実施例において、前記装置はさらに、プラットフォームグローバル類似セグメントの識別統計パラメータを更新し、更新後の識別統計パラメータを得、更新後の識別統計パラメータがプラットフォーム公用判定条件を満たす場合、プラットフォームグローバル類似セグメントをプラットフォーム公用ビデオセグメントとして公用ビデオライブラリ内に更新するように構成される公用ビデオ更新モジュールを備える。
【0196】
1つの実施例において、プラットフォームビデオ取得モジュール2106はさらに、目標ビデオが属するビデオプラットフォームの公用ビデオライブラリから、プラットフォーム公用ビデオセグメントを取得するように構成され、グローバル類似セグメント識別モジュール2108はさらに、目標ビデオとプラットフォーム公用ビデオセグメントとのビデオフレームマッチングによって得られた第2マッチング結果に基づいて、目標ビデオにおける、プラットフォーム公用ビデオセグメントに対するプラットフォームグローバル類似セグメントを識別するように構成される。
【0197】
1つの実施例において、プラットフォームビデオ取得モジュール2106は、プラットフォーム決定モジュール、関連ビデオ照会モジュール及びビデオスクリーニングモジュールを備え、ここで、プラットフォーム決定モジュールは、目標ビデオが属するビデオプラットフォーム、及び目標ビデオにおけるビデオフレームに含まれる矯正キーワードを決定するように構成され、関連ビデオ照会モジュールは、ビデオプラットフォームにおける矯正キーワードと関連関係を有するプラットフォーム関連ビデオを照会するように構成され、ビデオスクリーニングモジュールは、参照ビデオスクリーニング条件に従って、プラットフォーム関連ビデオからスクリーニングしてプラットフォーム参照ビデオを得るように構成される。
【0198】
1つの実施例において、前記装置はさらに、ビデオプラットフォームに属するプラットフォームビデオにおけるビデオフレームに対して文字識別を行い、ビデオキーワードを得、ビデオキーワードに基づいてキーワードライブラリ内でマッチングを行い、ビデオキーワードにマッチし合う目標キーワードを決定し、プラットフォームビデオと目標キーワードとの関連関係を確立するように構成される関連関係構築モジュールを備え、関連ビデオ照会モジュールはさらに、関連関係に基づいて、ビデオプラットフォームにおける矯正キーワードに関連するプラットフォーム関連ビデオを照会するように構成される。
【0199】
1つの実施例において、総合類似セグメント決定モジュール2110は、タイムスタンプ決定モジュール、タイムスタンプマージモジュール及び総合タイムスタンプ処理モジュールを備え、ここで、タイムスタンプ決定モジュールは、目標ビデオにおける動画集合局所類似セグメントの第1タイムスタンプ位置、及び目標ビデオにおけるプラットフォームグローバル類似セグメントの第2タイムスタンプ位置を決定するように構成され、タイムスタンプマージモジュールは、第1タイムスタンプ位置と第2タイムスタンプ位置とをマージし、総合タイムスタンプ位置を得るように構成され、総合タイムスタンプ処理モジュールは、総合タイムスタンプ位置に基づいて、目標ビデオにおける、動画集合参照ビデオ及びプラットフォーム参照ビデオに対する総合類似セグメントを決定するように構成される。
【0200】
1つの実施例において、局所類似セグメント識別モジュール2104は、動画集合ビデオフレームマッチングモジュール、動画集合オフセット決定モジュール及び動画集合ビデオフレームペア処理モジュールを備え、ここで、動画集合ビデオフレームマッチングモジュールは、目標ビデオと動画集合参照ビデオとをビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するように構成され、ビデオフレームペアは、目標ビデオに属する識別対象ビデオフレームを含み、さらに、動画集合参照ビデオにおける識別対象ビデオフレームと画像マッチングする動画集合参照ビデオフレームを含み、動画集合オフセット決定モジュールは、ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定するように構成され、動画集合ビデオフレームペア処理モジュールは、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する動画集合局所類似セグメントを決定するように構成される。
【0201】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、各ビデオフレームペアの時間オフセットに対して数値マッチングを行い、数値マッチング結果に基づいて時間オフセットが数値的にマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、開始時間及び終了時間を決定し、開始時間及び終了時間に基づいて、目標ビデオから動画集合参照ビデオに対する動画集合局所類似セグメントを決定するように構成される。
【0202】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、スクリーニングして得られたビデオフレームペアからなるビデオフレームペアリストを取得し、ビデオフレームペアリストにおいて、各ビデオフレームペアは、時間オフセットの数値の小から大への順でソートされ、且つ同じ時間オフセットのビデオフレームペアは、含めている識別対象ビデオフレームのタイムスタンプの数値の小から大への順でソートされ、タイムスタンプは、含めている識別対象ビデオフレームの時間属性に基づいて決定され、ビデオフレームペアリストにおいて、隣接するビデオフレームペアにおける識別対象ビデオフレームの時間属性間の時間属性距離を決定し、時間属性距離が距離閾値を超えない隣接ビデオフレームペアを、同一ビデオセグメントに属するビデオフレームペアとして決定し、同一ビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間及び終了時間を決定するように構成される。
【0203】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、同一ビデオセグメントに属するビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、同一ビデオセグメントに属するビデオフレームペアから開始ビデオフレームペア及び終了ビデオフレームペアを決定し、開始ビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、開始時間を得、終了ビデオフレームペアにおける識別対象ビデオフレームのタイムスタンプに基づいて、終了時間を得るように構成される。
【0204】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、各ビデオフレームペアの時間オフセットをそれぞれ数値比較し、数値比較結果を取得し、数値比較結果に基づいて、各ビデオフレームペアから時間オフセットの数値差が数値差閾値より小さいビデオフレームペアをスクリーニングし、時間オフセットの数値差が数値差閾値より小さいビデオフレームペアに対してオフセット更新を行い、時間オフセットが数値的にマッチし合うビデオフレームペアを取得するように構成される。
【0205】
1つの実施例において、動画集合参照ビデオは、少なくとも2つであり、動画集合ビデオフレームペア処理モジュールはさらに、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、動画集合参照ビデオに対する中間類似セグメントを決定し、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントのうちの重畳関係が存在する各中間類似セグメントに対して、セグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るように構成される。
【0206】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントのうちの重畳関係が存在する各中間類似セグメントに対して、セグメント更新を行い、更新後の中間類似セグメントを得、更新後の中間類似セグメントの統計量を決定し、更新後の中間類似セグメントの統計量が統計量閾値を超える場合、更新後の中間類似セグメントに基づいて、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るように構成される。
【0207】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントに対してセグメント位置比較を行い、セグメント比較結果を得、セグメント比較結果として重畳関係が存在する各中間類似セグメントを決定し、重畳関係が存在する各中間類似セグメントの重畳時間長と統計量に基づいて、重畳関係が存在する各中間類似セグメントに対してセグメント更新を行い、目標ビデオにおける、各動画集合参照ビデオに対する動画集合局所類似セグメントを得るように構成される。
【0208】
1つの実施例において、動画集合ビデオフレームペア処理モジュールはさらに、目標ビデオにおける、各動画集合参照ビデオに対する中間類似セグメントからなる類似セグメントリストを取得し、類似セグメントリストにおいて、各中間類似セグメントは、統計量の大から小への順でソートされ、且つ同じ統計量の中間類似セグメントは、開始時間の先から後への順でソートされ、類似セグメントリストにおいて、各中間類似セグメントに対してセグメント位置比較を行い、セグメント比較結果を得るように構成される。
【0209】
1つの実施例において、動画集合ビデオフレームマッチングモジュールはさらに、目標ビデオから識別対象ビデオフレームを抽出し、動画集合参照ビデオから動画集合参照ビデオフレームを抽出し、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出し、識別対象ビデオフレームのビデオフレーム特徴を、動画集合参照ビデオフレームのビデオフレーム特徴と特徴マッチングを行い、特徴マッチングに成功した識別対象ビデオフレームと動画集合参照ビデオフレームに基づいて、ビデオフレームペアを得るように構成される。
【0210】
1つの実施例において、動画集合ビデオフレームマッチングモジュールはさらに、画像処理モデルを用いて、識別対象ビデオフレームのビデオフレーム特徴、及び動画集合参照ビデオフレームのビデオフレーム特徴をそれぞれ抽出するように構成され、ここで、画像処理モデルの訓練ステップは、分類ラベルを含む訓練サンプル画像を取得するステップと、訓練対象となる画像処理モデルによって、訓練サンプル画像に対して特徴抽出及び画像分類を行い、訓練サンプル画像のサンプル画像特徴及びサンプル画像カテゴリを得るステップと、サンプル画像特徴、サンプル画像カテゴリ及び分類ラベルに基づいて、モデル損失を決定するステップと、モデル損失に基づいて、訓練対象となる画像処理モデルを更新した後、訓練を継続し、訓練が完了したとき、訓練済みの画像処理モデルを取得するステップと、を含む。
【0211】
1つの実施例において、グローバル類似セグメント識別モジュール2108は、全局ビデオフレームマッチングモジュール、全局オフセット決定モジュール及び全局ビデオフレームペア処理モジュールを備え、ここで、全局ビデオフレームマッチングモジュールは、目標ビデオとプラットフォーム参照ビデオとに対してビデオフレームの画像マッチングを行い、ビデオフレームペアを取得するように構成され、ビデオフレームペアは、目標ビデオに属する識別対象ビデオフレームを含み、さらに、プラットフォーム参照ビデオにおける識別対象ビデオフレームと画像マッチングするプラットフォーム参照ビデオフレームを含み、全局オフセット決定モジュールは、ビデオフレームペアにおける識別対象ビデオフレームの時間属性及び動画集合参照ビデオフレームの時間属性に基づいて、ビデオフレームペアの時間オフセットを決定するように構成され、全局ビデオフレームペア処理モジュールは、時間オフセットがマッチし合うビデオフレームペアをスクリーニングし、スクリーニングして得られたビデオフレームペアにおける識別対象ビデオフレームの時間属性に基づいて、目標ビデオにおける、プラットフォーム参照ビデオに対するプラットフォームグローバル類似セグメントを決定するように構成される。
【0212】
1つの実施例において、前記装置はさらに、各動画集合局所類似セグメントそれぞれの開始時間及び終了時間に基づいて、各動画集合局所類似セグメント間のセグメント重畳関係を決定し、セグメント重畳関係に基づいて、各動画集合局所類似セグメントに対してセグメント更新を行い、目標ビデオにおける動画集合参照ビデオに対する更新後の動画集合局所類似セグメントを得るように構成される動画集合識別更新モジュールを備える。
【0213】
1つの実施例において、前記装置はさらに、総合類似セグメントが公用ビデオ種類の判定条件を満たす場合、総合類似セグメントに基づいて、目標ビデオにおける公用ビデオ種類とマッチングする公用ビデオを得るように構成される公用ビデオ判定モジュールを備える。
【0214】
1つの実施例において、公用ビデオ判定モジュールはさらに、目標ビデオの公用ビデオ種類に関連する公用ビデオの分布区間を決定し、総合類似セグメントの時間帯が公用ビデオの分布区間にある場合、総合類似セグメントに基づいて、目標ビデオにおける公用ビデオ種類とマッチングする公用ビデオを得るように構成される。
【0215】
1つの実施例において、前記装置はさらに、公用ビデオの開始時間及び終了時間を決定し、ビデオ比較トリガイベントに応答して、開始時間及び終了時間に基づいて、目標ビデオから非公用ビデオを抽出し、非公用ビデオを比較対象ビデオとビデオ比較を行うように構成されるビデオ比較モジュールを備える。
【0216】
1つの実施例において、前記装置はさらに、公用ビデオのスキップ時間ポイントを決定し、目標ビデオに対するビデオ再生イベントに応答して、目標ビデオを再生し、目標ビデオの再生がスキップ時間ポイントに達した場合、公用ビデオをスキップして再生するように構成されるビデオスキップモジュールを備える。
【0217】
上記のビデオ識別装置における各モジュールのすべて又は一部は、ソフトウェア、ハードウェア及びその組み合わせによって実現できる。上記の各モジュールは、プロセッサに、呼び出して以上の各モジュールに対応する動作を実行させるために、ハードウェアの形でコンピュータ機器におけるプロセッサに組み込むか独立してもよいし、ソフトウェアの形でコンピュータ機器におけるメモリに記憶されてもよい。
【0218】
1つの実施例において、コンピュータ機器を提供し、当該コンピュータ機器は、サーバ又は端末であってもよく、その内部構造図は、
図22に示す通りであってもよい。当該コンピュータ機器は、プロセッサ、メモリ、入力/出力インターフェース(I/O:Input/Output)及び通信インターフェースを備える。ここで、プロセッサ、メモリ及び入力/出力インターフェースは、システムバスによって接続され、通信インターフェースは、入力/出力インターフェースによってシステムバスに接続される。ここで、当該コンピュータ機器のプロセッサは、計算機能及び制御機能を提供するように構成される。当該コンピュータ機器のメモリは、不揮発性の記憶媒体及び内部メモリを含む。当該不揮発性の記憶媒体には、オペレーティングシステム、コンピュータ可読命令及びデータベースが記憶されている。当該内部メモリは、不揮発性の記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行のために環境を提供する。当該コンピュータ機器のデータベースは、ビデオ識別データを記憶するように構成される。当該コンピュータ機器の入力/出力インターフェースは、プロセッサに外部機器と情報を交換させるように構成される。当該コンピュータ機器の通信インターフェースは、ネットワークによって外部の端末と接続して通信するように構成される。当該コンピュータ可読命令は、プロセッサによって実行されるとき、前記プロセッサにビデオ識別方法を実現させる。当業者であれば、
図22に示す構造は、本発明の技術案に関する部分的な構造のブロック図に過ぎず、本発明の技術案が適用されているコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図面に示すものよりも多い又は少ない部品を備えてもよく、又はいくつかの部品を組み合わせてもよく、又は異なる部品配置を有してもよい。
【0219】
1つの実施例において、コンピュータ可読命令が格納されるメモリと、コンピュータ可読命令を実行することにより、上記の各方法実施例におけるステップを実現するプロセッサとを備える、コンピュータ機器をさらに提供する。
【0220】
1つの実施例において、プロセッサによって実行されるときに、上記の各方法実施例におけるステップを実行するコンピュータ可読命令が格納される、コンピュータ可読記憶媒体を提供する。
【0221】
1つの実施例において、プロセッサによって実行されるときに、上記の各方法実施例におけるステップを実現するコンピュータ可読命令を含む、コンピュータプログラム製品を提供する。
【0222】
また、本発明に係るユーザ情報(ユーザ機器情報、ユーザ個人情報などを含むが、これらに限定されない)及びデータ(分析に使用されるデータ、記憶されるデータ、表示されるデータなどを含むが、これらに限定されない)は、ユーザによって承認されるか、すべての当事者によって完全に承認される情報及びデータであり、関連データの收集、使用及び処理は、関連する国や地域の関連する法律規制および標準を遵守するべきである。さらに、本発明に係るプラットフォームプロモーション情報について、ユーザは、広告プッシュ情報を拒否したり、都合よく拒否したりすることができる。
【0223】
当業者なら自明であるか、上記の実施例の方法のすべて又は一部のプロセスの実現は、コンピュータ可読命令にって関連するハードウェアを実装することによって完了でき、上述したコンピュータ可読命令は、不揮発性コンピュータ可読取記憶媒体に格納されることができ、当該コンピュータ可読命令が実行されるとき、上記の各方法実施例のプロセスを含むことができる。ここで、本発明による各実施例で使用されるメモリ、データベース又は他の媒体に対する任意の引用は、すべて不揮発性及び揮発性メモリのうちの少なくとも1つを含むことができる。不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、磁気テープ、フロッピーディスク、フラッシュメモリ、光学メモリ、高密度な埋め込み不揮発性メモリ、抵抗変化型メモリ(ReRAM)、磁気抵抗メモリ(MRAM:Magnetoresistive Random Access Memory)、強誘電体メモリ(FRAM:Ferroelectric Random Access Memory)、相変化メモリ(PCM:Phase Change Memory)、グラフェンメモリなどを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM:Random Access Memory)又は外部キャッシュメモリなどを含んでもよい。制限ではなく説明として、RAMは、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)又はダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)などの様々な形であってもよい。本発明による各実施例に係るデータベースは、リレーショナルデータベース及び非リレーショナルデータベースのうちの少なくとも1つを含み得る。非リレーショナルデータベースは、ブロックチェーンに基づく分散型データベースなどを含んでもよいが、これに限定されない。本発明による各実施例に係るプロセッサは、汎用プロセッサ、中央処理装置、グラフィックプロセッサ、デジタル信号プロセッサ、プログラマブルロジックデバイス、量子計算に基づくデータ処理ロジックデバイスなどであってもよいが、これらに限定されない。
【0224】
以上の実施例における各技術特徴は、任意に組み合わせることができ、説明の簡潔のために、上記の実施例における各技術特徴のすべての可能な組み合わせについて説明していないが、これらの技術特徴の組み合わせに矛盾がない限り、すべて本明細書に記載の範囲と見なすべきである。以上に記載の実施例は、本発明のいくつかの実施形態のみを表し、その説明は、具体的で詳細であるが、本発明の特許の範囲に対する制限として理解されるべきではない。当業者にとって、本発明の概念から逸脱することなく、いくつかの変形及び改善を加えることもでき、これらはすべて本発明の保護範囲に含まれると見なされるべきであることに留意されたい。したがって、本発明の保護範囲は、添付の特許請求を基準とするべきである。
【国際調査報告】