IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼市商▲湯▼科技有限公司の特許一覧

特許7150840ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体
<>
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図1
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図2
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図3
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図4
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図5
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図6
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図7
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図8
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図9
  • 特許-ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-30
(45)【発行日】2022-10-11
(54)【発明の名称】ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221003BHJP
【FI】
G06T7/00 300F
G06T7/00 350C
【請求項の数】 17
(21)【出願番号】P 2020524009
(86)(22)【出願日】2019-05-22
(65)【公表番号】
(43)【公表日】2021-02-04
(86)【国際出願番号】 CN2019088020
(87)【国際公開番号】W WO2020077999
(87)【国際公開日】2020-04-23
【審査請求日】2020-04-28
(31)【優先権主張番号】201811224169.X
(32)【優先日】2018-10-19
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519453342
【氏名又は名称】深▲せん▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 201, Building A, No. 1, Qianwan Road, Qianhai Shenzhen-Hongkong Modern Service Industry Cooperation Zone Shenzhen, Guangdong 518000 (CN)
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲馮▼俐▲銅▼
(72)【発明者】
【氏名】肖▲達▼
(72)【発明者】
【氏名】▲曠▼章▲輝▼
(72)【発明者】
【氏名】▲張▼▲偉▼
【審査官】宮島 潤
(56)【参考文献】
【文献】中国特許出願公開第105228033(CN,A)
【文献】中国特許出願公開第108073902(CN,A)
【文献】特表2013-531843(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
特徴抽出ニューラルネットワークによって、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各々の前記場面の画像特徴を取得するステップであって、前記場面系列に複数の場面が含まれる、ステップと、
全ての前記場面の画像特徴を記憶ニューラルネットワークに入力し、それによって前記場面の全局特徴を取得するステップであって、前記場面の全局特徴は、前記場面系列内の場面の間の関連関係を表し、前記特徴抽出ニューラルネットワークと前記記憶ニューラルネットワークは、サンプルビデオストリームに基づいて、前記特徴抽出ニューラルネットワークと前記記憶ニューラルネットワークのパラメータに対して共同トレーニングを行うことによって得られたものであり、前記サンプルビデオストリームが少なくとも2つのサンプル場面を含み、前記サンプル場面毎にアノテーション重みが含まれる、ステップと、
前記場面の画像特徴と前記全局特徴の内積演算した結果を全結合ニューラルネットワークに入力し、それによって前記場面の重みを決定するステップであって、前記場面の重みは、前記場面の重要性及び/又はビデオ要約の限定時間長と正相関する、ステップと、
前記場面の重みに基づいて、前記ビデオ要約の限定時間長において重みの総和が最大になるように、前記被処理ビデオストリームのビデオ要約を取得するステップと
を含むビデオ要約生成方法。
【請求項2】
前記記憶ニューラルネットワークは、第1埋め込み行列と第2埋め込み行列を含み、全ての前記場面の画像特徴を記憶ニューラルネットワークに入力し、それによって前記場面の全局特徴を取得するステップは、
前記全ての場面の画像特徴をそれぞれ前記第1埋め込み行列と前記第2埋め込み行列に写像して、入力記憶と出力記憶を取得するステップであって、前記第1埋め込み行列は、前記入力記憶を取得するためのものであり、前記第2埋め込み行列は、前記出力記憶を取得するためのものである、ステップと、
前記場面の画像特徴に対して転置処理を行って得られた前記場面の特徴ベクトルを、前記入力記憶及び前記出力記憶と演算することにより、前記場面の全局特徴を取得するステップと
を含み、
前記記憶ニューラルネットワークは、第3埋め込み行列をさらに含み、前記場面の画像特徴に対して転置処理を行って得られた前記場面の特徴ベクトルを、前記入力記憶及び前記出力記憶と演算することにより、前記場面の全局特徴を取得する前記ステップは、
前記場面の画像特徴を前記第3埋め込み行列に写像することによって前記場面の画像特徴の転置処理を行って、前記場面の特徴ベクトルを取得するステップと、
前記特徴ベクトルと前記入力記憶に対して内積演算を行って、前記場面の重みベクトルを取得するステップと、
前記重みベクトルと前記出力記憶に対して重み付け重畳演算を行って、全局ベクトルを取得して、前記全局ベクトルを前記全局特徴とするステップと
を含む、請求項に記載の方法。
【請求項3】
前記場面の画像特徴と前記全局特徴の内積演算した結果を全結合ニューラルネットワークに入力し、それによって前記場面の重みを決定する前記ステップは、
前記場面の画像特徴と前記場面の全局特徴に対して内積演算を行って、前記場面の重み特徴を取得するステップと、
前記重み特徴を全結合ニューラルネットワークによって処理し、前記場面の重みを取得するステップと
を含む、請求項1又は2に記載の方法。
【請求項4】
全ての前記場面の画像特徴を記憶ニューラルネットワークに入力し、それによって前記場面の全局特徴を取得する前記ステップは、
記憶ニューラルネットワークにより、前記場面の画像特徴を処理して、前記場面の少なくとも2つの全局特徴を取得するステップを含む、請求項1に記載の方法。
【請求項5】
記憶ニューラルネットワークにより、前記場面の画像特徴を処理して、前記場面の少なくとも2つの全局特徴を取得する前記ステップは、
前記場面の画像特徴を、少なくとも2つの埋め込み行列セットにそれぞれ写像して、少なくとも2つの記憶セットを取得するステップであって、前記埋め込み行列セット毎に、入力記憶と出力記憶とをそれぞれ取得するための2つの埋め込み行列が含まれ、前記記憶セット毎に前記入力記憶と前記出力記憶とが含まれ、前記記憶ニューラルネットワークは、前記少なくとも2つの埋め込み行列セットを含み、前記少なくとも2つの埋め込み行列セットのうちの各埋め込み行列セットは、前記場面の少なくとも2つの全局特徴のうちの各全局特徴を取得するためのものであり、前記場面の少なくとも2つの全局特徴のうちの各全局特徴と一対一対応する、ステップと、
前記場面の画像特徴に対して転置処理を行って得られた前記場面の特徴ベクトルを少なくとも2つの前記記憶セットと演算することにより、前記場面の少なくとも2つの全局特徴を取得するステップと
を含み、
前記記憶ニューラルネットワークは、第3埋め込み行列をさらに含み、前記場面の画像特徴に対して転置処理を行って得られた前記場面の特徴ベクトルを少なくとも2つの前記記憶セットと演算することにより、前記場面の少なくとも2つの全局特徴を取得する前記ステップは、
前記場面の画像特徴を前記第3埋め込み行列に写像することによって前記場面の画像特徴の転置処理を行って、前記場面の特徴ベクトルを取得するステップと、
前記特徴ベクトルと少なくとも2つの前記入力記憶に対して内積演算を行って、前記場面の少なくとも2つの重みベクトルを取得するステップと、
前記重みベクトルと少なくとも2つの前記出力記憶に対して重み付け重畳演算を行って、少なくとも2つの全局ベクトルを取得して、前記少なくとも2つの全局ベクトルを前記少なくとも2つの全局特徴とするステップと
を含む、請求項に記載の方法。
【請求項6】
前記場面の画像特徴と前記全局特徴の内積演算した結果を全結合ニューラルネットワークに入力し、それによって前記場面の重みを決定する前記ステップは、
前記場面の少なくとも2つの全局特徴のうちのいずれか1つの全局特徴を第1全局特徴とし、前記場面の画像特徴と前記第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、
前記第1重み特徴を前記画像特徴とし、前記場面の少なくとも2つの全局特徴のうちの第2全局特徴を前記第1全局特徴とするステップであって、前記第2全局特徴が、前記少なくとも2つの全局特徴のうちの、前記内積演算を行っていない全局特徴である、ステップと、
前記画像特徴と前記第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップとを含む繰り返し処理を、前記場面の少なくとも2つの全局特徴に前記第2全局特徴が含まれなくなるまで実行してから、前記第1重み特徴を前記場面の重み特徴とするステップと、
前記重み特徴を全結合ニューラルネットワークによって処理し、前記場面の重みを取得するステップと
を含む、請求項4又は5に記載の方法。
【請求項7】
特徴抽出ニューラルネットワークによって、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、前記場面の画像特徴を取得する前記ステップの前に、
前記被処理ビデオストリームに対して場面分割を行って前記場面系列を取得するステップを更に含む、請求項1~のいずれか一項に記載の方法。
【請求項8】
前記被処理ビデオストリームに対して場面分割を行って前記場面系列を取得する前記ステップは、
前記被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度が設定値以下になるように、場面分割を行って、前記場面系列を取得するステップを含む、請求項に記載の方法。
【請求項9】
前記被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度が設定値以下になるように、場面分割を行って、前記場面系列を取得する前記ステップは、
少なくとも2つの大きさが異なる分割間隔に基づいて、前記被処理ビデオストリーム内のビデオ画像を分割して、少なくとも2つのビデオ区切りグループを取得するステップであって、前記ビデオ区切りグループ毎に少なくとも2つのビデオ区切りが含まれ、前記分割間隔が1フレーム以上である、ステップと、
前記少なくとも2つのカットフレームの間の類似度が設定値以下であることに応じて、前記分割が正確であると決定するステップであって、前記カットフレームが、前記ビデオ区切り内の第1フレームであるステップと、
前記少なくとも2つのカットフレームの間の類似度が設定値より大きいことに応じて、前記分割が正確ではないと決定するステップと、
前記分割が正確であることに応じて、前記ビデオ区切りを前記場面として決定し、前記場面系列を取得するステップと
を含む、請求項に記載の方法。
【請求項10】
前記分割が正確であることに応じて、前記ビデオ区切りを前記場面として決定し、前記場面系列を取得する前記ステップは、
前記カットフレームが少なくとも2つの前記分割間隔に対応することに応じて、前記少なくとも2つの前記分割間隔のうちの大きさの一番小さい分割間隔で取得されたビデオ区切りを前記場面として、前記場面系列を取得するステップを含む、請求項に記載の方法。
【請求項11】
特徴抽出ニューラルネットワークによって、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各々の前記場面の画像特徴を取得する前記ステップは、
前記場面内の少なくとも1フレームのビデオ画像に対して特徴抽出を行って、少なくとも1つの画像特徴を取得するステップと、
前記取得された少なくとも1つの画像特徴が1つの画像特徴のみを含む場合、当該1つの画像特徴を前記場面の画像特徴とするステップ、又は、前記取得された少なくとも1つの画像特徴が複数の画像特徴のみを含む場合、前記少なくとも1つの画像特徴の中の全ての画像特徴に対する平均特徴を取得して、前記平均特徴を前記場面の画像特徴とするステップと
を含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記場面の重みに基づいて、前記ビデオ要約の限定時間長において重みの総和が最大になるように、前記被処理ビデオストリームのビデオ要約を取得する前記ステップは、
事前に設定された、前記ビデオ要約の限定時間長を取得するステップと、
前記場面の重みと前記ビデオ要約の限定時間長により、前記ビデオ要約の限定時間長において重みの総和が最大になるように、前記被処理ビデオストリームのビデオ要約を取得するステップと
を含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
特徴抽出ニューラルネットワークによって、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各々の前記場面の画像特徴を取得する特徴抽出ユニットであって、前記場面系列に複数の場面が含まれる、特徴抽出ユニットと、
全ての前記場面の画像特徴を記憶ニューラルネットワークに入力し、それによって前記場面の全局特徴を取得する全局特徴ユニットであって、前記場面の全局特徴は、前記場面系列内の場面の間の関連関係を表し、前記特徴抽出ニューラルネットワークと前記記憶ニューラルネットワークは、サンプルビデオストリームに基づいて、前記特徴抽出ニューラルネットワークと前記記憶ニューラルネットワークのパラメータに対して共同トレーニングを行うことによって得られたものであり、前記サンプルビデオストリームが少なくとも2つのサンプル場面を含み、前記サンプル場面毎にアノテーション重みが含まれる、全局特徴ユニットと、
前記場面の画像特徴と前記全局特徴の内積演算した結果を全結合ニューラルネットワークに入力し、それによって前記場面の重みを決定する重み取得ユニットであって、前記場面の重みは、前記場面の重要性及び/又はビデオ要約の限定時間長と正相関する、重み取得ユニットと、
前記場面の重みに基づいて、前記ビデオ要約の限定時間長において重みの総和が最大になるように、前記被処理ビデオストリームのビデオ要約を取得する要約生成ユニットと
を含むビデオ要約生成装置。
【請求項14】
請求項13に記載のビデオ要約生成装置を備えるプロセッサを含む電子機器。
【請求項15】
実行可能コマンドを記憶するメモリと、
前記メモリと通信して前記実行可能コマンドを実行して請求項1~12のいずれか一項に記載のビデオ要約生成方法を遂行するプロセッサと
を含む電子機器。
【請求項16】
コンピュータ可読コマンドを記憶し、前記コンピュータ可読コマンドが実行される時に請求項1~12のいずれか一項に記載のビデオ要約生成方法が実行されるコンピュータ記憶媒体。
【請求項17】
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが請求項1~12のいずれか一項に記載のビデオ要約生成方法を実現するコマンドを実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、出願番号が201811224169.Xで、出願日が2018年10月19日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張する
【0002】
本願は、コンピュータビジョン技術に関するが、それに限定されるものではなく、特に、ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体に関する。
【背景技術】
【0003】
ビデオデータが高速に増加するに伴って、短い時間でこれらのビデオに高速に目を通すために、ビデオ要約は重要な役割を果たしてきている。ビデオ要約は新興のビデオ理解技術である。ビデオ要約は、長いビデオからいくつかの場面を抽出して合成される、ビデオ内容の脈絡又は素晴らしい場面を含む新しい短ビデオである。
【0004】
人工知能技術により、例えば画像分類等の多くのコンピュータビジョン課題に対して優れた解决手段を得ており、ひいては人間よりも優れた面を示しているが、それが明確な目標に対するものに限っている。他のコンピュータビジョンタスクと比べて、ビデオ要約はより抽象的なものであり、もっとビデオ全体に対する理解を求められている。ビデオ要約内の場面の取捨は、この場面そのものの情報に頼るだけでなく、更にビデオ全体に表現される情報に頼る。
【発明の概要】
【課題を解決するための手段】
【0005】
本願の実施例は、ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体を提供する。
【0006】
本願の実施例の一態様によれば、
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各々の前記場面の画像特徴を取得するステップと、
全ての前記場面の画像特徴により、前記場面全局特徴を取得するステップと、
前記場面の画像特徴と前記全局特徴により前記場面の重みを決定するステップと、
前記場面の重みに基づいて前記被処理ビデオストリームのビデオ要約を取得するステップと、を含むビデオ要約生成方法を提供する。
【0007】
本願の実施例の別の態様によれば、
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各々の前記場面の画像特徴を取得するように構成される特徴抽出ユニットと、
全ての前記場面の画像特徴により、前記場面全局特徴を取得するように構成される全局特徴ユニットと、
前記場面の画像特徴と前記全局特徴により前記場面の重みを決定するように構成される重み取得ユニットと、
前記場面の重みに基づいて前記被処理ビデオストリームのビデオ要約を取得するように構成される要約生成ユニットと、を含むビデオ要約生成装置を提供する。
【0008】
本願の実施例の更に別の態様によれば、上記のいずれか一項に記載のビデオ要約生成装置を備えるプロセッサを含む電子機器を提供する。
【0009】
本願の実施例のまた1つの態様によれば、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか一項に記載のビデオ要約生成方法の操作を遂行するためのプロセッサと、を含む電子機器を提供する。
【0010】
本願の実施例の更にまた1つの態様によれば、コンピュータ可読コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に上記のいずれか一項に記載のビデオ要約生成方法の操作が実行されるコンピュータ記憶媒体を提供する。
【0011】
本願の実施例の別の態様によれば、コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか一項に記載のビデオ要約生成方法を実現するためのコマンドを実行するコンピュータプログラム製品を提供する。
【0012】
本願の上記実施例で提供されるビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体によれば、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って各場面の画像特徴を取得する。場面は少なくとも1フレームのビデオ画像が含まれ、全ての場面の画像特徴により場面全局特徴を取得し、場面の画像特徴と全局特徴により場面の重みを決定し、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得し、画像特徴と全局特徴に基づいて各場面の重みを決定して、ビデオ全体の観点でビデオを理解することが実現され、各場面とビデオ全体との関係が利用され、本実施例の場面の重みに基づいて決定されるビデオ要約は、ビデオ内容を全体的に表現可能であり、ビデオ要約がビデオを全体的に表現することができないという問題を減少する。
例えば、本願は以下の項目を提供する。
(項目1)
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各々の前記場面の画像特徴を取得するステップと、
全ての前記場面の画像特徴により、前記場面全局特徴を取得するステップと、
前記場面の画像特徴と前記全局特徴により前記場面の重みを決定するステップと、
前記場面の重みに基づいて前記被処理ビデオストリームのビデオ要約を取得するステップと、を含むビデオ要約生成方法。
(項目2)
全ての前記場面の画像特徴により、前記場面全局特徴を取得する前記ステップは、
記憶ニューラルネットワークにより、全ての前記場面の画像特徴を処理して、前記場面全局特徴を取得するステップを含む項目1に記載の方法。
(項目3)
記憶ニューラルネットワークにより前記全ての場面の画像特徴を処理して、前記場面全局特徴を取得する前記ステップは、
前記全ての場面の画像特徴をそれぞれ第1埋め込み行列と第2埋め込み行列に写像して、入力記憶と出力記憶を取得するステップと、
前記場面の画像特徴、前記入力記憶及び前記出力記憶により、前記場面全局特徴を取得するステップと、を含む項目2に記載の方法。
(項目4)
前記場面の画像特徴、前記入力記憶及び前記出力記憶により、前記場面全局特徴を取得する前記ステップは、
前記場面の画像特徴を第3埋め込み行列に写像して、前記場面の特徴ベクトルを取得するステップと、
前記特徴ベクトルと前記入力記憶に対して内積演算を行って、前記場面の重みベクトルを取得するステップと、
前記重みベクトルと前記出力記憶に対して重み付け重畳演算を行って、前記全局ベクトルを取得して、前記全局ベクトルを前記全局特徴とするステップと、を含む項目3に記載の方法。
(項目5)
前記場面の画像特徴と前記全局特徴により前記場面の重みを決定する前記ステップは、
前記場面の画像特徴と前記場面全局特徴に対して内積演算を行って、重み特徴を取得するステップと、
前記重み特徴を全結合ニューラルネットワークによって処理し、前記場面の重みを取得するステップと、を含む項目1~4のいずれか一項に記載の方法。
(項目6)
記憶ニューラルネットワークにより、前記場面の画像特徴を処理して、前記場面全局特徴を取得する前記ステップは、
記憶ニューラルネットワークにより、前記場面の画像特徴を処理して、前記場面の少なくとも2つの全局特徴を取得するステップを含む項目2~5のいずれか一項に記載の方法。
(項目7)
記憶ニューラルネットワークにより、前記場面の画像特徴を処理して、前記場面の少なくとも2つの全局特徴を取得する前記ステップは、
前記場面の画像特徴を、少なくとも2つの埋め込み行列セットにそれぞれ写像して、少なくとも2つの記憶セットを取得するステップであって、前記埋め込み行列セット毎に2つの埋め込み行列が含まれ、前記記憶セット毎に入力記憶と出力記憶とが含まれるステップと、
少なくとも2つの前記記憶セットと前記場面の画像特徴により、前記場面の少なくとも2つの全局特徴を取得するステップと、を含む項目6に記載の方法。
(項目8)
少なくとも2つの前記記憶セットと前記場面の画像特徴により、前記場面の少なくとも2つの全局特徴を取得する前記ステップは、
前記場面の画像特徴を第3埋め込み行列に写像して、前記場面の特徴ベクトルを取得するステップと、
前記特徴ベクトルと少なくとも2つの前記入力記憶に対して内積演算を行って、前記場面の少なくとも2つの重みベクトルを取得するステップと、
前記重みベクトルと少なくとも2つの前記出力記憶に対して重み付け重畳演算を行って、少なくとも2つの全局ベクトルを取得して、前記少なくとも2つの全局ベクトルを前記少なくとも2つの全局特徴とするステップと、を含む項目7に記載の方法。
(項目9)
前記場面の画像特徴と前記全局特徴により前記場面の重みを決定する前記ステップは、
前記場面の画像特徴と前記場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、
前記第1重み特徴を前記画像特徴とし、前記場面の少なくとも2つの全局特徴のうちの第2全局特徴を第1全局特徴とするステップであって、前記第2全局特徴が、前記少なくとも2つの全局特徴のうちの第1全局特徴以外の全局特徴であるステップと、
前記場面の画像特徴と前記場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、を、
前記場面の少なくとも2つの全局特徴に第2全局特徴が含まれなくなるまで実行してから、前記第1重み特徴を前記場面の重み特徴とするステップと、
前記重み特徴を全結合ニューラルネットワークによって処理し、前記場面の重みを取得するステップと、を含む項目6~8のいずれか一項に記載の方法。
(項目10)
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、前記場面の画像特徴を取得する前記ステップの前に、
前記被処理ビデオストリームに対して場面分割を行って前記場面系列を取得するステップを更に含む項目1~9のいずれか一項に記載の方法。
(項目11)
前記被処理ビデオストリームに対して場面分割を行って前記場面系列を取得する前記ステップは、
前記被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度に基づいて場面分割を行って、前記場面系列を取得するステップを含む項目10に記載の方法。
(項目12)
前記被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度に基づいて場面分割を行って、前記場面系列を取得する前記ステップは、
少なくとも2つのサイズが異なる分割間隔に基づいて、前記ビデオストリーム内のビデオ画像を分割して、少なくとも2つのビデオクリップグループを取得するステップであって、前記ビデオクリップグループ毎に少なくとも2つのビデオクリップが含まれ、前記分割間隔が1フレーム以上であるステップと、
前記各ビデオクリップグループ内の少なくとも2つのカットフレームの間の類似度に基づいて、前記分割が正確であるか否かを決定するステップであって、前記カットフレームが、前記ビデオクリップ内の第1フレームであるステップと、
前記分割が正確であることに応じて、前記ビデオクリップを前記場面として決定し、前記場面系列を取得するステップと、を含む項目11に記載の方法。
(項目13)
前記各ビデオクリップグループ内の少なくとも2つのカットフレームの間の類似度に基づいて、前記分割が正確であるか否かを決定する前記ステップは、
前記少なくとも2つのカットフレームの間の類似度が設定値以下であることに応じて、前記分割が正確であると決定するステップと、
前記少なくとも2つのカットフレームの間の類似度が設定値より大きいことに応じて、前記分割が正確ではないと決定するステップと、を含む項目12に記載の方法。
(項目14)
前記分割が正確であることに応じて、前記ビデオクリップを前記場面として決定し、前記場面系列を取得する前記ステップは、
前記カットフレームが少なくとも2つの前記分割間隔に対応することに応じて、サーズの小さい分割間隔で取得されたビデオクリップを前記場面として、前記場面系列を取得するステップを含む項目12又は13に記載の方法。
(項目15)
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各々の前記場面の画像特徴を取得する前記ステップは、
前記場面内の少なくとも1フレームのビデオ画像に対して特徴抽出を行って、少なくとも1つの画像特徴を取得するステップと、
全ての前記画像特徴の平均特徴を取得して、前記平均特徴を前記場面の画像特徴とするステップと、を含む項目1~14のいずれか一項に記載の方法。
(項目16)
前記場面の重みに基づいて前記被処理ビデオストリームのビデオ要約を取得する前記ステップは、
前記ビデオ要約の限定時間長を取得するステップと、
前記場面の重みと前記ビデオ要約の限定時間長により、前記被処理ビデオストリームのビデオ要約を取得するステップと、を含む項目1~15のいずれか一項に記載の方法。
(項目17)
特徴抽出ニューラルネットワークと記憶ニューラルネットワークにより、実現される方法であって、
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各々の前記場面の画像特徴を取得する前記ステップの前に、
サンプルビデオストリームに基づいて、前記特徴抽出ニューラルネットワークと記憶ニューラルネットワークに対して共同トレーニングを行うステップを更に含み、前記サンプルビデオストリームが少なくとも2つのサンプル場面を含み、前記サンプル場面毎にアノテーション重みが含まれる、項目1~16のいずれか一項に記載の方法。
(項目18)
被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各々の前記場面の画像特徴を取得するように構成される特徴抽出ユニットと、
全ての前記場面の画像特徴により、前記場面全局特徴を取得するように構成される全局特徴ユニットと、
前記場面の画像特徴と前記全局特徴により前記場面の重みを決定するように構成される重み取得ユニットと、
前記場面の重みに基づいて前記被処理ビデオストリームのビデオ要約を取得するように構成される要約生成ユニットと、を含むビデオ要約生成装置。
(項目19)
前記全局特徴ユニットは、記憶ニューラルネットワークにより、全ての前記場面の画像特徴を処理して、前記場面全局特徴を取得するように構成される項目18に記載の装置。
(項目20)
前記全局特徴ユニットは、前記全ての場面の画像特徴をそれぞれ第1埋め込み行列と第2埋め込み行列に写像して入力記憶と出力記憶を取得し、前記場面の画像特徴、前記入力記憶及び前記出力記憶により前記場面全局特徴を取得するように構成される項目19に記載の装置。
(項目21)
前記全局特徴ユニットは、前記場面の画像特徴、前記入力記憶及び前記出力記憶により前記場面全局特徴を取得する時に、前記場面の画像特徴を第3埋め込み行列に写像して前記場面の特徴ベクトルを取得し、前記特徴ベクトルと前記入力記憶に対して内積演算を行って前記場面の重みベクトルを取得し、前記重みベクトルと前記出力記憶に対して重み付け重畳演算を行って前記全局ベクトルを取得して前記全局ベクトルを前記全局特徴とするように構成される項目20に記載の装置。
(項目22)
前記重み取得ユニットは、前記場面の画像特徴と前記場面全局特徴に対して内積演算を行って重み特徴を取得し、前記重み特徴を全結合ニューラルネットワークによって処理し前記場面の重みを取得するように構成される項目18~21のいずれか一項に記載の装置。
(項目23)
前記全局特徴ユニットは、記憶ニューラルネットワークにより、前記場面の画像特徴を処理して、前記場面の少なくとも2つの全局特徴を取得するように構成される項目19~22のいずれか一項に記載の装置。
(項目24)
前記全局特徴ユニットは、前記場面の画像特徴を、少なくとも2つの埋め込み行列セットにそれぞれ写像して、少なくとも2つの記憶セットを取得するステップであって、前記埋め込み行列セット毎に2つの埋め込み行列が含まれ、前記記憶セット毎に入力記憶と出力記憶とが含まれるステップと、少なくとも2つの前記記憶セットと前記場面の画像特徴により、前記場面の少なくとも2つの全局特徴を取得するステップと、を実行するように構成される項目23に記載の装置。
(項目25)
前記全局特徴ユニットは、少なくとも2つの前記記憶セットと前記場面の画像特徴により前記場面の少なくとも2つの全局特徴を取得する時に、前記場面の画像特徴を第3埋め込み行列に写像して前記場面の特徴ベクトルを取得し、前記特徴ベクトルと少なくとも2つの前記入力記憶に対して内積演算を行って前記場面の少なくとも2つの重みベクトルを取得し、前記重みベクトルと少なくとも2つの前記出力記憶に対して重み付け重畳演算を行って少なくとも2つの全局ベクトルを取得して前記少なくとも2つの全局ベクトルを前記少なくとも2つの全局特徴とするように構成される項目24に記載の装置。
(項目26)
前記重み取得ユニットは、前記場面の画像特徴と前記場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、
前記第1重み特徴を前記画像特徴とし、前記場面の少なくとも2つの全局特徴のうちの第2全局特徴を第1全局特徴とするステップであって、前記第2全局特徴が、前記少なくとも2つの全局特徴のうちの第1全局特徴以外の全局特徴であるステップと、
前記場面の画像特徴と前記場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、を、
前記場面の少なくとも2つの全局特徴に第2全局特徴が含まれなくなるまで実行してから、前記第1重み特徴を前記場面の重み特徴とするステップと、
前記重み特徴を全結合ニューラルネットワークによって処理し、前記場面の重みを取得するステップと、を実行するように構成される項目23~25のいずれか一項に記載の装置。
(項目27)
前記被処理ビデオストリームに対して場面分割を行って前記場面系列を取得するように構成される場面分割ユニットを更に含む項目18~26のいずれか一項に記載の装置。
(項目28)
前記場面分割ユニットは、前記被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度に基づいて場面分割を行って、前記場面系列を取得するように構成される項目27に記載の装置。
(項目29)
前記場面分割ユニットは、
少なくとも2つのサイズが異なる分割間隔に基づいて、前記ビデオストリーム内のビデオ画像を分割して、少なくとも2つのビデオクリップグループを取得するステップであって、前記ビデオクリップグループ毎に少なくとも2つのビデオクリップが含まれ、前記分割間隔が1フレーム以上であるステップと、
前記各ビデオクリップグループ内の少なくとも2つのカットフレームの間の類似度に基づいて、前記分割が正確であるか否かを決定するステップであって、前記カットフレームが、前記ビデオクリップ内の第1フレームであるステップと、
前記分割が正確であることに応じて、前記ビデオクリップを前記場面として決定し、前記場面系列を取得するステップと、を実行するように構成される項目28に記載の装置。
(項目30)
前記場面分割ユニットは、前記各ビデオクリップグループ内の少なくとも2つのカットフレームの間の類似度に基づいて前記分割が正確であるか否かを決定する時に、前記少なくとも2つのカットフレームの間の類似度が設定値以下であることに応じて前記分割が正確であると決定し、前記少なくとも2つのカットフレームの間の類似度が設定値より大きいことに応じて前記分割が正確ではないと決定するように構成される項目29に記載の装置。
(項目31)
前記場面分割ユニットは、前記分割が正確であることに応じて前記ビデオクリップを前記場面として決定し、前記場面系列を取得する時に、前記カットフレームが少なくとも2つの前記分割間隔に対応することに応じて、サーズの小さい分割間隔で取得されたビデオクリップを前記場面として、前記場面系列を取得するように構成される項目29又は30に記載の装置。
(項目32)
前記特徴抽出ユニットは、前記場面内の少なくとも1フレームのビデオ画像に対して特徴抽出を行って少なくとも1つの画像特徴を取得し、全ての前記画像特徴の平均特徴を取得して前記平均特徴を前記場面の画像特徴とするように構成される項目18~31のいずれか一項に記載の装置。
(項目33)
前記要約生成ユニットは、前記ビデオ要約の限定時間長を取得し、前記場面の重みと前記ビデオ要約の限定時間長により前記被処理ビデオストリームのビデオ要約を取得するように構成される項目18~32のいずれか一項に記載の装置。
(項目34)
サンプルビデオストリームに基づいて、前記特徴抽出ニューラルネットワークと記憶ニューラルネットワークに対して共同トレーニングを行うように構成される共同トレーニングユニットを更に含み、前記サンプルビデオストリームが少なくとも2つのサンプル場面を含み、前記サンプル場面毎にアノテーション重みが含まれる項目18~33のいずれか一項に記載の装置。
(項目35)
項目18~34のいずれか一項に記載のビデオ要約生成装置を備えるプロセッサを含む電子機器。
(項目36)
実行可能コマンドを記憶するように構成されるメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目1~17のいずれか一項に記載のビデオ要約生成方法の操作を完了するように構成されるプロセッサと、を含む電子機器。
(項目37)
コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に項目1~17のいずれか一項に記載のビデオ要約生成方法の操作が実行されるように構成されるコンピュータ記憶媒体。
(項目38)
コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが項目1~17のいずれか一項に記載のビデオ要約生成方法を実現するように構成されるコマンドを実行するコンピュータプログラム製品。
【0013】
以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。
【図面の簡単な説明】
【0014】
図1】本願の実施例で提供されるビデオ要約生成方法の一実施例のフローを模式的に示す図である。
図2】本願の実施例で提供されるビデオ要約生成方法の別の実施例のフローを模式的に示す図である。
図3】本願の実施例で提供されるビデオ要約生成方法の選択可能な一例の一部のフローを模式的に示す図である。
図4】本願の実施例で提供されるビデオ要約生成方法の別の選択可能な一例の一部のフローを模式的に示す図である。
図5】本願の実施例で提供されるビデオ要約生成方法のまた1つの実施例のフローを模式的に示す図である。
図6】本願の実施例で提供されるビデオ要約生成方法のいくつかの選択可能な例の模式図である。
図7】本願の実施例で提供されるビデオ要約生成方法のまた1つの実施例のフローを模式的に示す図である。
図8】本願の実施例で提供されるビデオ要約生成方法のまた1つの選択可能な例の一部のフローを模式的に示す図である。
図9】本願の実施例で提供されるビデオ要約生成装置の一実施例の構造模式図である。
図10】本願の実施例の端末装置又はサーバを実現するのに適する電子機器の構造模式図である。
【発明を実施するための形態】
【0015】
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
【0016】
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
【0017】
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
【0018】
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
【0019】
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
【0020】
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
【0021】
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
【0022】
図1は本願の実施例で提供されるビデオ要約生成方法の一実施例のフローを模式的に示す図である。該方法は、端末装置、サーバ、携帯装置等のような任意のビデオ要約抽出装置により実行されてもよく、図1に示すように、該実施例の方法は、以下のステップを含む。
【0023】
ステップ110において、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各場面の画像特徴を取得する。
【0024】
前記ビデオ要約は、元のビデオストリームから重要情報中心情報を抽出して生成されるビデオ要約であり、元のビデオストリームと比べてデータストリームがより小さくなると共に、元のビデオストリームの中心内容重要内容を含み、後続の元のビデオストリームの検索等に利用可能である。
【0025】
本実施例では、例えば、前記ビデオストリーム中の特定目標の運動変化を解析することによって、同一な目標のビデオストリームでの運動軌跡を表現するビデオ要約を生成する。ここで例を挙げただけであり、具体的な実施形態が上記の例に限定されないのはもちろんのことである。
【0026】
本実施例では、被処理ビデオストリームは、ビデオ要約を取得される、少なくとも1フレームのビデオ画像を含むビデオストリームである。異なるフレームのビデオ画像で構成された画像集合に過ぎないことを回避するように取得されたビデオ要約に内容意味を持たせるために、本願の実施例は、少なくとも1フレームのビデオ画像を含む場面をビデオ要約の構成単位とする。
【0027】
いくつかの実施例では、本願の実施例における特徴抽出は任意の特徴抽出ニューラルネットワークに基づいて実現されてもよく、特徴抽出ニューラルネットワークに基づいて各場面に対してそれぞれ特徴抽出を行って、少なくとも2つの画像特徴を取得し、本願は具体的な特徴抽出プロセスを限定するものではない。
【0028】
ステップ120において、全ての場面の画像特徴により、場面全局特徴を取得する。
【0029】
いくつかの実施例では、ビデオストリームに対応する全ての画像特徴に対して処理(例えば、写像又は埋め込み等)を行ってビデオストリーム全体に対応する変換特徴系列を取得し、変換特徴系列及び各画像特徴に対して計算して、各場面とビデオストリーム内の他の場面との関連関係を表現可能である、各場面に対応する全局特徴全局注目度)を取得する。
【0030】
ここの全局特徴は、1つの場面の複数のビデオ画像内の同一な画像要素同士の対応関係又は位置関係を表現する画像特徴を含むが、それに限定されない。上記の関連関係が前記対応関係及び/又は位置関係に限定されないことに注意すべきである。
【0031】
ステップ130において、場面の画像特徴と全局特徴により場面の重みを決定する。
【0032】
場面の画像特徴及びその全局特徴によって該場面の重みを決定し、それにより得られた重みは該場面自身に加えて、更に該場面とビデオストリーム全体の他の場面との関連関係に基づくものになって、ビデオ全体の観点で場面の重要性を評価することが実現される。
【0033】
ステップ140において、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得する。
【0034】
本実施例では、場面の重みによって場面系列内の場面の重要性を決定し、しかし、ビデオ要約を決定するには、場面の重要性を基にすることに加えて、ビデオ要約の長さを抑える必要もあり、即ち、場面の重み及び場面の時間長(フレーム数)の両方に基づいてビデオ要約を決定しなければならない。具体的には、前記重みと前記場面の重要性及び/又はビデオ要約の長さ等は正相関する。本実施例では、ナップザックアルゴリズムを用いてビデオ要約を決定してもよいし、他のアルゴリズムを用いて決定してもよく、ここで一つずつ説明しない。
【0035】
上記実施例で提供されるビデオ要約生成方法によれば、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って少なくとも1フレームのビデオ画像を含む各場面の画像特徴を取得し、全ての場面の画像特徴により場面全局特徴を取得し、場面の画像特徴と全局特徴により場面の重みを決定し、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得し、そのようにして画像特徴と全局特徴に基づいて各場面の重みを決定して、ビデオ全体の観点でビデオを理解することが実現され、各場面とビデオストリーム全体との全局的関連関係が利用され、本実施例に基づいて決定されるビデオ要約は、ビデオ内容を全体的に表現可能であり、ビデオ要約が全面的でないという問題を減少する。
【0036】
図2は本願の実施例で提供されるビデオ要約生成方法の別の実施例のフローを模式的に示す図である。図2に示すように、本実施例の方法は、以下のステップを含む。
【0037】
ステップ210において、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各場面の画像特徴を取得する。
【0038】
本願の実施例では、ステップ210は、上記実施例のステップ110と類似しており、このステップを理解するために上記実施例を参照してもよく、ここで再度説明することを省略する。
【0039】
ステップ220において、記憶ニューラルネットワークにより、全ての場面の画像特徴を処理して、場面全局特徴を取得する。
【0040】
いくつかの実施例では、記憶ニューラルネットワークは、少なくとも2つの埋め込み行列を含んでよく、ビデオストリームの全ての場面の画像特徴をそれぞれ少なくとも2つの埋め込み行列に入力することによって、該場面とビデオストリーム内の他の場面との関連関係を表現可能な各場面全局特徴を埋め込み行列の出力で取得し、場面の重みから言えば、重みが大きいほど、該場面と他の場面との関連性が大きく、ビデオ要約に含まれる可能性が高い。
【0041】
ステップ230において、場面の画像特徴と全局特徴により場面の重みを決定する。
【0042】
本願の実施例では、ステップ230は、上記実施例のステップ130と類似しており、このステップを理解するために上記実施例を参照してもよく、ここで再度説明することを省略する。
【0043】
ステップ240において、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得する。
【0044】
本願の実施例では、ステップ240は、上記実施例のステップ140と類似しており、このステップを理解するために上記実施例を参照してもよく、ここで再度説明することを省略する。
【0045】
本願の実施例は、記憶ニューラルネットワークによって、人間がビデオ要約を作る時の仕方をまね、即ち、ビデオ全体の観点でビデオを理解し、記憶ニューラルネットワークを用いてビデオストリーム全体の情報を記憶し、それぞれの場面とビデオの全局的関係に基づいてその重要性を决定して、ビデオ要約とする場面を選択する。
【0046】
図3は本願の実施例で提供されるビデオ要約生成方法の選択可能な一例の一部のフローを模式的に示す図である。図3に示すように、上記実施例中のステップ220には、以下のステップを含む。
【0047】
ステップ310において、全ての場面の画像特徴をそれぞれ第1埋め込み行列と第2埋め込み行列に写像して、入力記憶と出力記憶を取得する。
【0048】
本実施例における入力記憶と出力記憶はそれぞれビデオストリームの全ての場面に対応し、各埋め込み行列は1つの記憶(入力記憶又は出力記憶)に対応し、全ての場面の画像特徴を1つの埋め込み行列に写像することによって、1組の新しい画像特徴、つまり1つの記憶を取得することができる。
【0049】
ステップ320において、場面の画像特徴、入力記憶及び出力記憶により、場面全局特徴を取得する。
【0050】
入力記憶、出力記憶及び該場面の画像特徴に基づいて、該場面全局特徴を取得でき、該全局特徴は該場面とビデオストリーム内の全ての場面との関連を表現し、それによって全局特徴に基づいて取得された場面の重みがビデオストリーム全体と関連し、更により全面的なビデオ要約が取得される。
【0051】
1つ又は複数の実施例では、各場面は少なくとも2つの全局特徴に対応してもよく、少なくとも2つの全局特徴は少なくとも2つの埋め込み行列セットによって取得されてもよく、それぞれの埋め込み行列セットの構造が上記実施例における第1埋め込み行列と第2埋め込み行列と類似し、
場面の画像特徴を、少なくとも2つの埋め込み行列セットにそれぞれ写像して、少なくとも2つの記憶セットを取得し、埋め込み行列セット毎に2つの埋め込み行列が含まれ、記憶セット毎に入力記憶と出力記憶とが含まれ、
少なくとも2つの記憶セットと場面の画像特徴により、場面の少なくとも2つの全局特徴を取得する。
【0052】
本願の実施例では、場面の重みの全局性を高めるために、少なくとも2つの記憶セットによって少なくとも2つの全局特徴を取得し、複数の全局特徴に基づいて場面の重みを取得し、ここで、それぞれの埋め込み行列セットに含まれる埋め込み行列が異なり又は同じであり、埋め込み行列セット同士が異なる時に、得られた全局特徴場面とビデオ全体との関連をより好適に表現可能である。
【0053】
図4は本願の実施例で提供されるビデオ要約生成方法の別の選択可能な一例の一部のフローを模式的に示す図である。図4に示すように、上記実施例中のステップ320には、以下のステップを含む。
【0054】
ステップ402において、場面の画像特徴を第3埋め込み行列に写像して、場面の特徴ベクトルを取得する。
【0055】
いくつかの実施例では、該第3埋め込み行列は画像特徴の転置を実現可能であり、即ち、該場面の画像特徴を転置して場面の特徴ベクトルを取得し、例えば、場面系列内のi番目の場面に対応する画像特徴
【0056】
【化1】
【0057】
を転置して特徴ベクトル
【0058】
【化2】
【0059】
を取得する。
【0060】
ステップ404において、特徴ベクトルと入力記憶に対して内積演算を行って、場面の重みベクトルを取得する。
【0061】
いくつかの実施例では、入力記憶が場面系列に対応し、従って、入力記憶には少なくとも2つのベクトル(数量が場面数量に対応)を含み、特徴ベクトルと入力記憶に対して内積演算を行う時に、ソフトマックス活性化関数によって、特徴ベクトルと入力記憶中の複数のベクトルに対して内積を計算して得られた結果を(0,1)区間内に写像して、複数の確率形式の値を得て、複数の確率形式の値を該場面の重みベクトルとすることができ、例えば、式(1)によって重みベクトルを取得することができる。
【0062】
【化3】
【0063】
ただし、
【0064】
【化4】
【0065】
はi番目の場面の画像特徴、即ち、現在重み計算対象の場面に対応する画像特徴を表し、
【0066】
【化5】
【0067】
は入力記憶を表し、
【0068】
【化6】
【0069】
はi番目の画像特徴と入力記憶との関連性の重みベクトルを表し、ソフトマックス活性化関数は多クラス分類プロセスに用いられて、複数のニューロンの出力を(0,1)区間内に写像するものであり、確率として理解してもよく、ただし、iの値は場面系列の場面数量であり、式(1)によれば、i番目の画像特徴と場面系列との関連性を表現する重みベクトルが取得可能になる。
【0070】
ステップ406において、重みベクトルと出力記憶に対して重み付け重畳演算を行って、全局ベクトルを取得して、全局ベクトル全局特徴とする。
【0071】
いくつかの実施例では、以下の式(2)によって全局ベクトルを取得する。
【0072】
【化7】
【0073】
ただし、
【0074】
【化8】
【0075】
は第2埋め込み行列に基づいて取得された出力記憶を表し、
【0076】
【化9】
【0077】
はi番目の画像特徴と出力記憶に対して計算して取得された全局ベクトルを表す。
【0078】
本実施例は画像特徴と入力記憶によって内積演算を行って、該画像特徴と各場面との関連性を取得し、選択可能に、内積演算を行う前に、画像特徴と入力記憶内のベクトルの内積演算が可能であることを保証するために、該画像特徴に対して転置処理を行ってもよく、この時に取得された重みベクトルは複数の確率値を含み、各確率値は、該場面場面系列内の各場面の関連性を表し、大きいほど、関連性が強く、各確率値と出力記憶内の複数のベクトルに対してそれぞれ内積演算を行って、該場面全局ベクトルを取得して全局特徴とする。
【0079】
一実施例では、各場面が少なくとも2つの全局特徴に対応する時に、少なくとも2つの記憶セットにより場面の少なくとも2つの全局特徴を取得するステップは、
場面の画像特徴を第3埋め込み行列に写像して、場面の特徴ベクトルを取得するステップと、
特徴ベクトルと少なくとも2つの入力記憶に対して内積演算を行って、場面の少なくとも2つの重みベクトルを取得するステップと、
重みベクトルと少なくとも2つの出力記憶に対して重み付け重畳演算を行って、少なくとも2つの全局ベクトルを取得して、少なくとも2つの全局ベクトルを少なくとも2つの全局特徴とするステップと、を含む。
【0080】
ここで、各重みベクトルと全局ベクトルの計算プロセスは上記実施例と類似し、参照しながら理解してもよく、ここで再度説明することを省略する。選択可能に、重みベクトルを取得する公式は上記式(1)を変形させて式(5)を得ることで実現可能である。
【0081】
【化10】
【0082】
ただし、
【0083】
【化11】
【0084】
はi番目の場面の画像特徴、即ち、現在重みを計算される場面に対応する画像特徴を表し、
【0085】
【化12】
【0086】
はi番目の場面の特徴ベクトルを表し、
【0087】
【化13】
【0088】
はk番目の記憶セット内の入力記憶を表し、
【0089】
【化14】
【0090】
はi番目の画像特徴とk番目の記憶セット内の入力記憶との関連性の重みベクトルを表し、ソフトマックス活性化関数は多クラス分類プロセスに用いられて、複数のニューロンの出力を(0,1)区間内に写像するものであり、確率として理解してもよく、ただし、kの値は1~Nであり、式(5)によれば、i番目の画像特徴と場面系列との関連性を表現する少なくとも2つの重みベクトルが取得可能になる。
【0091】
いくつかの実施例では、上記式(2)を変形させて式(6)を得ることによって本実施例における少なくとも2つの全局ベクトルを取得する。
【0092】
【化15】
【0093】
ここで、
【0094】
【化16】
【0095】
はk番目の記憶セット内の出力記憶に基づくことを表し、
【0096】
【化17】
【0097】
はi番目の画像特徴とk番目の記憶セット内の出力記憶に対して計算して取得された全局ベクトルを表し、式(6)に基づけば、該場面の少なくとも2つの全局ベクトルが取得可能になる。
【0098】
図5は本願の実施例で提供されるビデオ要約生成方法のまた1つの実施例のフローを模式的に示す図である。図5に示すように、
ステップ510において、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各場面の画像特徴を取得する。
【0099】
本願の実施例では、ステップ510は、上記実施例のステップ110と類似しており、このステップを理解するために上記実施例を参照してもよく、ここで再度説明することを省略する。
【0100】
ステップ520において、全ての場面の画像特徴により、場面全局特徴を取得する。
【0101】
本願の実施例では、ステップ520は、上記実施例のステップ120と類似しており、このステップを理解するために上記のいずれか1つの実施例を参照してもよく、ここで再度説明することを省略する。
【0102】
ステップ530において、場面の画像特徴と場面全局特徴に対して内積演算を行って、重み特徴を取得する。
【0103】
いくつかの実施例では、場面の画像特徴と場面全局特徴によって内積演算を行って、取得された重み特徴に場面のビデオ全体での重要性を表現させると共に、取得された重み特徴を場面自身の情報にも依存させ、選択可能に、以下の式(3)によって重み特徴を取得可能である。
【0104】
【化18】
【0105】
ここで、
【0106】
【化19】
【0107】
はi番目の場面の重み特徴を表し、
【0108】
【化20】
【0109】
はi番目の場面全局ベクトルを表し、
【0110】
【化21】
【0111】
は点乗積、即ち内積演算を表す。
【0112】
ステップ540において、重み特徴を全結合ニューラルネットワークによって処理し、場面の重みを取得する。
【0113】
重みは場面の重要性を表現するためのものであるので、数値で表現することが要求され、選択可能に、本実施例は全結合ニューラルネットワークによって重み特徴の次元を変換して、1次元ベクトルで表現される場面の重みを取得する。
【0114】
いくつかの実施例では、以下の式(4)に基づいて場面の重みを取得することができる
【0115】
【化22】
【0116】
ただし、
【0117】
【化23】
【0118】
はi番目の場面の重みを表し、
【0119】
【化24】
【0120】
はそれぞれ目標画像特徴の全結合ニューラルネットワークによる重みと偏差量を表す。
【0121】
ステップ550において、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得する。
【0122】
本実施例は、場面の画像特徴と場面全局特徴に基づいて場面の重みを決定し、該場面の情報を表現すると共に、場面とビデオ全体との関連をも基にして、ビデオ局所とビデオ全体の観点でビデオを理解することを実現し、取得されたビデオ要約が人間の習慣に更に合致する。
【0123】
いくつかの実施例では、場面の画像特徴と全局特徴により場面の重みを決定するステップは、
場面の画像特徴と場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、
第1重み特徴を画像特徴とし、場面の少なくとも2つの全局特徴のうちの第2全局特徴を第1全局特徴とするステップであって、2全局特徴が、少なくとも2つの全局特徴のうちの第1全局特徴以外の全局特徴であるステップと、
場面の画像特徴と場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、
場面の少なくとも2つの全局特徴に第2全局特徴が含まれなくなるまで実行してから、第1重み特徴を場面の重み特徴とするステップと、
重み特徴を全結合ニューラルネットワークによって処理し、場面の重みを取得するステップと、を含む。
【0124】
本実施例では、全局特徴が複数あるので、毎回、画像特徴と全局特徴の内積演算結果を次回の演算の画像特徴として、繰り返しを実現し、毎回の演算は上記式(3)を変更て得られた式(7)に基づいて実現可能である。
【0125】
【化25】
【0126】
ただし、
【0127】
【化26】
【0128】
はi番目の画像特徴とk番目の記憶セット内の出力記憶に基づいて計算して得られた全局ベクトルを表し、
【0129】
【化27】
【0130】
は第1重み特徴を表し、
【0131】
【化28】
【0132】
は点乗積を表し、k+1番目の記憶セット内の出力記憶に基づいて全局ベクトルを計算して得るまで繰り返して来た時に、
【0133】
【化29】
【0134】
を用いて
【0135】
【化30】
【0136】
を取り替えてi番目の場面の画像特徴を表し、この時に
【0137】
【化31】
【0138】
に変わり、全ての記憶セットの演算が完了するまで実行してから、出力
【0139】
【化32】
【0140】
場面の重み特徴とし、重み特徴による場面重みの決定は上記実施例と類似し、ここで再度説明することを省略する。
【0141】
図6は本願の実施例で提供されるビデオ要約生成方法のいくつかの選択可能な例の模式図である。図6に示すように、この例では、複数の記憶セットを含み、ここで記憶セットの数量がnであり、ビデオストリームを分割することによって複数の行列を取得し、画像特徴に対して上記式(5)、(6)、(7)、(4)に基づいて計算することによって、i番目の場面の重み
【0142】
【化33】
【0143】
を取得可能であり、具体的な重み取得プロセスについては上記実施例の説明を参照してもよく、ここで再度説明することを省略する。
【0144】
図7は本願の実施例で提供されるビデオ要約生成方法のまた1つの実施例のフローを模式的に示す図である。図7に示すように、該実施例の方法は、以下のステップを含む。
【0145】
ステップ710において、被処理ビデオストリームに対して場面分割を行って場面系列を取得する。
【0146】
いくつかの実施例では、被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度に基づいて場面分割を行って、場面系列を取得する。
【0147】
いくつかの実施例では、2フレームのビデオ画像に対応する特徴間の距離(例えば、ユークリッド距離、コサイン距離等)によって2フレームのビデオ画像の間の類似度を決定することができ、2フレームのビデオ画像の間の類似度が高いほど、2フレームのビデオ画像が同一な場面に属する可能性が大きいことを示し、本実施例はビデオ画像の間の類似度によって、著しく異なっているビデオ画像を異なる場面に分割でき、正確な場面分割が実現される。
【0148】
ステップ720において、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各場面の画像特徴を取得する。
【0149】
本願の実施例では、ステップ720は、上記実施例のステップ110と類似しており、このステップを理解するために上記のいずれか1つの実施例を参照してもよく、ここで再度説明することを省略する。
【0150】
ステップ730において、全ての場面の画像特徴により、場面全局特徴を取得する。
【0151】
本願の実施例では、ステップ730は、上記実施例のステップ120と類似しており、このステップを理解するために上記のいずれか1つの実施例を参照してもよく、ここで再度説明することを省略する。
【0152】
ステップ740において、場面の画像特徴と全局特徴により場面の重みを決定する。
【0153】
本願の実施例では、ステップ740は、上記実施例のステップ130と類似しており、このステップを理解するために上記のいずれか1つの実施例を参照してもよく、ここで再度説明することを省略する。
【0154】
ステップ750において、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得する。
【0155】
本願の実施例では、ステップ750は、上記実施例のステップ140と類似しており、このステップを理解するために上記のいずれか1つの実施例を参照してもよく、ここで再度説明することを省略する。
【0156】
本願の実施例は場面を要約抽出単位とし、まず、ビデオストリームに基づいて少なくとも2つの場面を取得する必要があり、場面分割方法は、ニューラルネットワークによって分割してもよいし、撮影場面が知られており又は人為的に判断する等の方法によって実現してもよく、本願の実施例は場面分割の具体的な手段を限定するものではない。
【0157】
図8は本願の実施例で提供されるビデオ要約生成方法のまた1つの選択可能な例の一部のフローを模式的に示す図である。図8に示すように、上記実施例中のステップ710には、以下のステップを含む。
【0158】
ステップ802において、少なくとも2つの大きさの異なる分割間隔でビデオストリーム内のビデオ画像を分割して、少なくとも2つのビデオ区切りグループを取得する。
【0159】
ここで、各ビデオ区切りグループには少なくとも2つのビデオ区切りを含み、分割間隔が1フレーム以上である。
【0160】
本願の実施例では、例えば、1フレーム、4フレーム、6フレーム、8フレーム等のような複数の大きさの異なる分割間隔でビデオストリームを分割し、1つの分割間隔でビデオストリームを所定の大きさ(例えば、6フレーム)の複数のビデオ区切りに分割する。
【0161】
ステップ804において、各ビデオ区切りグループ内の少なくとも2つのカットフレームの間の類似度に基づいて、分割が正確であるか否かを決定する。
【0162】
ここで、カットフレームがビデオ区切り内の第1フレームであり、選択可能に、少なくとも2つのカットフレームの間の類似度が設定値以下であることに応じて、分割が正確であると決定し、
少なくとも2つのカットフレームの間の類似度が設定値より大きいことに応じて、分割が正確ではないと決定する。
【0163】
いくつかの実施例では、2フレームのビデオ画像同士の関連は特徴同士の類似度に基づいて決定可能であり、類似度が大きいほど、同一な場面に属する可能性が大きい。撮影角度から言えば、シーンの切り替えは、場面のシーンを直接切り替えるか、長い場面によりシーンを徐々に変化させるという2種の場合を含み、本願の実施例は主にシーンの変化を場面分割の根拠とし、即ち、同一の長い場面で撮影したビデオ区切りであっても、あるフレーム画像とこの長い場面の第1フレーム画像との関連性が設定値以下である時に、場面分割が行われる。
【0164】
ステップ806において、分割が正確であることに応じて、ビデオ区切り場面として決定し、場面系列を取得する。
【0165】
本願の実施例では、複数の異なる分割間隔でビデオストリームを分割し、更に連続した2つのビデオ区切りのカットフレームの間の類似度を判断して、該位置の分割が正確であるか否かを決定し、2つの連続したカットフレームの間の類似度が所定の値を超えた時に、該位置の分割が正確ではないことになり、即ち、これらの2つのビデオ区切りが1つの場面に属し、正確な分割によって場面系列を取得可能である。
【0166】
いくつかの実施例では、ステップ806には、
カットフレームが少なくとも2つの分割間隔に対応することに応じて、大きさの小さい分割間隔で取得されたビデオ区切りを前記場面として、場面系列を取得するステップを含む。
【0167】
1つのカット箇所のカットフレームが同時に少なくとも2つの分割間隔で分割した継ぎ目である時に、例えば、8フレームの画像を含むビデオストリームに対してそれぞれ2フレームと4フレームを第1分割間隔と第2分割間隔とし、第1分割間隔で4つのビデオ区切りが取得され、その中で第1フレーム、第3フレーム、第5フレーム及び第7フレームがカットフレームになり、第2分割間隔で2つのビデオ区切りが取得され、その中で第1フレームと第5フレームがカットフレームになり、この時に、第5フレームと第7フレームのカットフレームに対応する分割が正確であると決定したら、即ち、第5フレームが第1分割間隔のカットフレームになると共に、第2分割間隔のカットフレームにもなり、この時に、第1分割間隔でビデオの区切りを実施し、即ち、該ビデオストリーム分割で3つの場面が取得され、第1フレーム~第4フレームが1つの場面に属し、第5フレームと第6フレームが1つの場面に属し、第7フレームと第8フレームが1つの場面に属することになり、第2分割間隔で第5フレーム~第8フレームを1つの場面とするというわけではない。
【0168】
1つ又は複数の実施例では、ステップ110には、
場面内の少なくとも1フレームのビデオ画像に対して特徴抽出を行って、少なくとも1つの画像特徴を取得するステップと、
全ての画像特徴の平均特徴を取得し、平均特徴を場面の画像特徴とするステップと、を含む。
【0169】
いくつかの実施例では、特徴抽出ニューラルネットワークによって場面内の各フレームのビデオ画像に対してそれぞれ特徴抽出を行い、1つの場面に1フレームのビデオ画像しか含まない時に、該画像特徴を画像特徴とし、複数フレームのビデオ画像を含む時に、複数の画像特徴の平均値を算出し、平均特徴を該場面の画像特徴とする。
【0170】
1つ又は複数の実施例では、ステップ140には、以下のステップを含む。
【0171】
(1)ビデオ要約の限定時間長を取得する。
【0172】
ビデオ要約は凝縮ビデオとも呼ばれ、ビデオ内容を簡単に要約したものであり、ビデオの表現する主な内容を比較的短い時間で表現可能であり、ビデオの主な内容を表現することを実現すると共に、ビデオ要約の時間長を限定することが要求され、そうでなければ要約するという機能が実現されなく、ビデオ全体に目を通すことと同様になる。本願の実施例は、限定時間長によってビデオ要約の時間長を制限し、即ち、取得されたビデオ要約の時間長が限定時間長以下であることが要求され、限定時間長の具体的な値は実際に応じて設定可能である。
【0173】
(2)場面の重みとビデオ要約の限定時間長により、被処理ビデオストリームのビデオ要約を取得する。
【0174】
いくつかの実施例では、本願の実施例は、01ナップザックアルゴリズムによってビデオ要約の抽出を実現し、01ナップザックアルゴリズムを本実施例に適用して解決する問題は、場面系列に複数の場面を含み、各場面が対応する長さ(一般的には異なっている長さ)を有し、各場面が対応する重み(一般的には異なっている重み)を有し、限定時間長のビデオ要約を取得するには、ビデオ要約の限定時間長での重みの総和が最大になることをどのように保証するかということである。従って、本願の実施例はナップザックアルゴリズムによって最適な内容のビデオ要約を取得することができる。この時に、取得された重みが最大な少なくとも2つの場面のうちに長さが第2設定フレーム数より大きい場面が存在するという特別な場合に、長さが第2設定フレーム数より大きい場面を削除し、取得されたある場面の重要度を表すスコアが高いが、その長さが第2設定フレーム数(例えば、第1設定フレーム数の半分)より大きい時に、該場面をビデオ要約に加えれば、ビデオ要約中の内容が少なすぎることになるので、該場面をビデオ要約に加えない。
【0175】
1つ又は複数の選択可能な実施例では、本願の実施例の方法は、特徴抽出ニューラルネットワークと記憶ニューラルネットワークにより、実現され、
ステップ110を実行するステップの前に、
サンプルビデオストリームに基づいて、特徴抽出ニューラルネットワークと記憶ニューラルネットワークに対して共同トレーニングを行うステップを更に含み、サンプルビデオストリームが少なくとも2つのサンプル場面を含み、サンプル場面毎にアノテーション重みが含まれる。
【0176】
正確な重みを取得するために、重みを取得する前に特徴抽出ニューラルネットワークと記憶ニューラルネットワークをトレーニングする必要があり、特徴抽出ニューラルネットワークと記憶ニューラルネットワークを別々にトレーニングしても本願の実施例の目的を実現できるが、特徴抽出ニューラルネットワークと記憶ニューラルネットワークを共同トレーニングして得られたパラメータは本願の実施例に更に適合し、より正確な予測重みを提供可能であり、該トレーニングプロセスについては、サンプルビデオストリームがすでに少なくとも2つのサンプル場面に分割されたと仮定され、該分割プロセスはトレーニングされた分割ニューラルネットワーク又は他の手段を基にすることが可能であり、本願の実施例は限定するものではない。
【0177】
いくつかの実施例では、共同トレーニングのプロセスには、
特徴抽出ニューラルネットワークを用いてサンプルビデオストリームに含まれる少なくとも2つのサンプル場面のうちの各サンプル場面に対して特徴抽出を行って、少なくとも2つのサンプル画像特徴を取得するステップと、
記憶ニューラルネットワークを用いてサンプル場面特徴に基づいて各サンプル場面の予測重みを決定するステップと、
予測重みとアノテーション重みに基づいて損失を決定し、損失に基づいて特徴抽出ニューラルネットワークと記憶ニューラルネットワークのパラメータを調整するステップと、を含んでよい。
【0178】
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
【0179】
図9は本願の実施例で提供されるビデオ要約生成装置の一実施例の構造模式図である。該実施例の装置は本願の上記各方法の実施例を実現することに利用可能である。図9に示すように、該実施例の装置は、以下を含む。
【0180】
特徴抽出ユニット91は、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、各場面の画像特徴を取得するように構成される。
【0181】
本実施例では、被処理ビデオストリームは、ビデオ要約を取得される、少なくとも1フレームのビデオ画像を含むビデオストリームである。異なるフレームのビデオ画像で構成された画像集合に過ぎないことを回避するように取得されたビデオ要約に内容意味を持たせるために、本願の実施例は、少なくとも1フレームのビデオ画像を含む場面をビデオ要約の構成単位とする。選択可能に、本願の実施例における特徴抽出は任意の特徴抽出ニューラルネットワークに基づいて実現されてもよく、特徴抽出ニューラルネットワークに基づいて各場面に対してそれぞれ特徴抽出を行って、少なくとも2つの画像特徴を取得し、本願は具体的な特徴抽出プロセスを限定するものではない。
【0182】
全局特徴ユニット92は、全ての場面の画像特徴により、場面全局特徴を取得するように構成される。
【0183】
いくつかの実施例では、ビデオストリームに対応する全ての画像特徴に対して処理(例えば、写像又は埋め込み等)を行ってビデオストリーム全体に対応する変換特徴系列を取得し、変換特徴系列及び各画像特徴に対して計算して、各場面とビデオストリーム内の他の場面との関連関係を表現可能である、各場面に対応する全局特徴全局注目度)を取得する。
【0184】
重み取得ユニット93は、場面の画像特徴と全局特徴により場面の重みを決定するように構成される。
【0185】
場面の画像特徴及びその全局特徴によって該場面の重みを決定し、それにより得られた重みは該場面自身に加えて、更に該場面とビデオストリーム全体の他の場面との関連関係に基づくものになって、ビデオ全体の観点で場面の重要性を評価することが実現される。
【0186】
要約生成ユニット94は、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得するように構成される。
【0187】
いくつかの実施例では、本願の実施例は場面の重みによって各場面の重要性を表現し、場面系列内の重要な場面を決定でき、しかし、ビデオ要約を決定するには、場面の重要性を基にすることに加えて、ビデオ要約の長さを抑える必要もあり、即ち、場面の重み及び時間長(フレーム数)の両方に基づいてビデオ要約を決定しなければならなく、選択可能に、ナップザックアルゴリズムを用いてビデオ要約を取得することができる。
【0188】
上記実施例で提供されるビデオ要約生成装置によれば、画像特徴と全局特徴に基づいて各場面の重みを決定し、ビデオ全体の観点でビデオを理解することが実現され、各場面とビデオストリーム全体との全局的関連関係が利用され、本実施例に基づいて決定されるビデオ要約は、ビデオ内容を全体的に表現可能であり、ビデオ要約が全面的でないという問題を回避する。
【0189】
1つ又は複数の選択可能な実施例では、全局特徴ユニット92は、記憶ニューラルネットワークにより、全ての場面の画像特徴を処理して、場面の全局特徴を取得するように構成される。
【0190】
いくつかの実施例では、記憶ニューラルネットワークは、少なくとも2つの埋め込み行列を含んでよく、ビデオストリームの全ての場面の画像特徴をそれぞれ少なくとも2つの埋め込み行列に入力することによって、該場面とビデオストリーム内の他の場面との関連関係を表現可能な各場面全局特徴を埋め込み行列の出力で取得し、場面の重みから言えば、重みが大きいほど、該場面と他の場面との関連性が大きく、ビデオ要約に含まれる可能性が高い。
【0191】
いくつかの実施例では、全局特徴ユニット92は、全ての場面の画像特徴をそれぞれ第1埋め込み行列と第2埋め込み行列に写像して入力記憶と出力記憶を取得し、場面の画像特徴、入力記憶及び出力記憶により場面全局特徴を取得するように構成される。
【0192】
いくつかの実施例では、全局特徴ユニット92は、場面の画像特徴、入力記憶及び出力記憶により場面全局特徴を取得する時に、場面の画像特徴を第3埋め込み行列に写像して場面の特徴ベクトルを取得し、特徴ベクトルと入力記憶に対して内積演算を行って場面の重みベクトルを取得し、重みベクトルと出力記憶に対して重み付け重畳演算を行って全局ベクトルを取得して全局ベクトル全局特徴とするように構成される。
【0193】
1つ又は複数の選択可能な実施例では、重み取得ユニット93は、場面の画像特徴と場面全局特徴に対して内積演算を行って重み特徴を取得し、重み特徴を全結合ニューラルネットワークによって処理し場面の重みを取得するように構成される。
【0194】
本実施例は、場面の画像特徴と場面全局特徴に基づいて場面の重みを決定し、該場面の情報を表現すると共に、場面とビデオ全体との関連をも基にして、ビデオ局所とビデオ全体の観点でビデオを理解することを実現し、取得されたビデオ要約が人間の習慣に更に合致する。
【0195】
1つ又は複数の選択可能な実施例では、全局特徴ユニット92は、記憶ニューラルネットワークにより、場面の画像特徴を処理して、場面の少なくとも2つの全局特徴を取得するように構成される。
【0196】
本願の実施例では、場面の重みの全局性を高めるために、少なくとも2つの記憶セットによって少なくとも2つの全局特徴を取得し、複数の全局特徴に基づいて場面の重みを取得し、ここで、それぞれの埋め込み行列セットに含まれる埋め込み行列が異なり又は同じであり、埋め込み行列セット同士が異なる時に、得られた全局特徴場面とビデオ全体との関連をより好適に表現可能である。
【0197】
いくつかの実施例では、全局特徴ユニット92は、前記場面の画像特徴を、少なくとも2つの埋め込み行列セットにそれぞれ写像して、少なくとも2つの記憶セットを取得するステップであって、前記埋め込み行列セット毎に2つの埋め込み行列が含まれ、前記記憶セット毎に入力記憶と出力記憶とが含まれるステップと、少なくとも2つの前記記憶セットと前記場面の画像特徴により、前記場面の少なくとも2つの全局特徴を取得するステップと、を実行するように構成される。
【0198】
いくつかの実施例では、全局特徴ユニット92は、少なくとも2つの記憶セットと場面の画像特徴により場面の少なくとも2つの全局特徴を取得する時に、場面の画像特徴を第3埋め込み行列に写像して場面の特徴ベクトルを取得し、特徴ベクトルと少なくとも2つの入力記憶に対して内積演算を行って場面の少なくとも2つの重みベクトルを取得し、重みベクトルと少なくとも2つの出力記憶に対して重み付け重畳演算を行って少なくとも2つの全局ベクトルを取得して少なくとも2つの全局ベクトルを少なくとも2つの全局特徴とするように構成される。
【0199】
いくつかの実施例では、重み取得ユニット93は、場面の画像特徴と場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、第1重み特徴を画像特徴とし、場面の少なくとも2つの全局特徴のうちの第2全局特徴を第1全局特徴とするステップであって、第2全局特徴が、少なくとも2つの全局特徴のうちの第1全局特徴以外の全局特徴であるステップと、場面の画像特徴と場面の少なくとも2つの全局特徴のうちの第1全局特徴に対して内積演算を行って、第1重み特徴を取得するステップと、を場面の少なくとも2つの全局特徴に第2全局特徴が含まれなくなるまで実行してから、第1重み特徴を場面の重み特徴とするステップと、重み特徴を全結合ニューラルネットワークによって処理し、場面の重みを取得するステップとを実行するように構成される。
【0200】
1つ又は複数の選択可能な実施例では、装置は、
被処理ビデオストリームに対して場面分割を行って場面系列を取得するための場面分割ユニットを更に含む。
【0201】
いくつかの実施例では、被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度に基づいて場面分割を行って、場面系列を取得する。
【0202】
いくつかの実施例では、2フレームのビデオ画像に対応する特徴間の距離(例えば、ユークリッド距離、コサイン距離等)によって2フレームのビデオ画像の間の類似度を決定することができ、2フレームのビデオ画像の間の類似度が高いほど、2フレームのビデオ画像が同一な場面に属する可能性が大きいことを示し、本実施例はビデオ画像の間の類似度によって、著しく異なっているビデオ画像を異なる場面に分割でき、正確な場面分割が実現される。
【0203】
いくつかの実施例では、場面分割ユニットは、被処理ビデオストリーム内の少なくとも2フレームのビデオ画像の間の類似度に基づいて場面分割を行って、場面系列を取得するように構成される。
【0204】
いくつかの実施例では、場面分割ユニットは、少なくとも2つの大きさが異なる分割間隔に基づいて、ビデオストリーム内のビデオ画像を分割して、少なくとも2つのビデオ区切りグループを取得するステップであって、ビデオ区切りグループ毎に少なくとも2つのビデオ区切りが含まれ、分割間隔が1フレーム以上であるステップと、各ビデオ区切りグループ内の少なくとも2つのカットフレームの間の類似度に基づいて、分割が正確であるか否かを決定するステップであって、カットフレームが、ビデオ区切り内の第1フレームであるステップと、分割が正確であることに応じて、ビデオ区切り場面として決定し、場面系列を取得するステップと、を実行するように構成される。
【0205】
いくつかの実施例では、場面分割ユニットは、各ビデオ区切りグループ内の少なくとも2つのカットフレームの間の類似度に基づいて分割が正確であるか否かを決定する時に、少なくとも2つのカットフレームの間の類似度が設定値以下であることに応じて、分割が正確であると決定し、少なくとも2つのカットフレームの間の類似度が設定値より大きいことに応じて、分割が正確ではないと決定するように構成される。
【0206】
いくつかの実施例では、場面分割ユニットは、分割が正確であることに応じてビデオ区切り場面として決定し、場面系列を取得する時に、カットフレームが少なくとも2つの分割間隔に対応することに応じて、大きさの小さい分割間隔で取得されたビデオ区切り場面として、場面系列を取得するように構成される。
【0207】
1つ又は複数の選択可能な実施例では、特徴抽出ユニット91は、場面内の少なくとも1フレームのビデオ画像に対して特徴抽出を行って少なくとも1つの画像特徴を取得し、全ての画像特徴の平均特徴を取得して平均特徴を場面の画像特徴とするように構成される。
【0208】
いくつかの実施例では、特徴抽出ニューラルネットワークによって場面内の各フレームのビデオ画像に対してそれぞれ特徴抽出を行い、1つの場面に1フレームのビデオ画像しか含まない時に、該画像特徴を画像特徴とし、複数フレームのビデオ画像を含む時に、複数の画像特徴の平均値を算出し、平均特徴を該場面の画像特徴とする。
【0209】
1つ又は複数の選択可能な実施例では、要約生成ユニットは、ビデオ要約の限定時間長を取得し、場面の重みとビデオ要約の限定時間長により被処理ビデオストリームのビデオ要約を取得するように構成される。
【0210】
ビデオ要約は凝縮ビデオとも呼ばれ、ビデオ内容を簡単に要約したものであり、ビデオの表現する主な内容を比較的短い時間で表現可能であり、ビデオの主な内容を表現することを実現すると共に、ビデオ要約の時間長を限定することが要求され、そうでなければ要約するという機能が実現されなく、ビデオ全体に目を通すことと同様になり、本願の実施例は、限定時間長によってビデオ要約の時間長を制限し、即ち、取得されたビデオ要約の時間長が限定時間長以下であることが要求され、限定時間長の具体的な値は実際に応じて設定可能である。
【0211】
1つ又は複数の実施例では、本願の実施例の装置は、
サンプルビデオストリームに基づいて、前記特徴抽出ニューラルネットワークと記憶ニューラルネットワークに対して共同トレーニングを行うように構成される共同トレーニングユニットを更に含み、前記サンプルビデオストリームが少なくとも2つのサンプル場面を含み、前記サンプル場面毎にアノテーション重みが含まれる。
【0212】
正確な重みを取得するために、重みを取得する前に特徴抽出ニューラルネットワークと記憶ニューラルネットワークをトレーニングする必要があり、特徴抽出ニューラルネットワークと記憶ニューラルネットワークを別々にトレーニングしても本願の実施例の目的を実現できるが、特徴抽出ニューラルネットワークと記憶ニューラルネットワークを共同トレーニングして得られたパラメータは本願の実施例に更に適合し、より正確な予測重みを提供可能であり、該トレーニングプロセスについては、サンプルビデオストリームがすでに少なくとも2つのサンプル場面に分割されたと仮定され、該分割プロセスはトレーニングされた分割ニューラルネットワーク又は他の手段を基にすることが可能であり、本願の実施例は限定するものではない。
【0213】
本願の実施例の別の態様によれば、上記のいずれか一項の実施例で提供されるビデオ要約生成装置を備えるプロセッサを含む電子機器を更に提供する。
【0214】
本願の実施例の更に別の態様によれば、実行可能コマンドを記憶するように構成されるメモリと、
該メモリと通信して前記実行可能コマンドを実行して上記のいずれか一項の実施例で提供されるビデオ要約生成方法の操作を遂行するように構成されるプロセッサと、を含む電子機器を更に提供する。
【0215】
本願の実施例のまた1つの態様によれば、コンピュータ可読コマンドを記憶し、該コマンドが実行される時に上記のいずれか一項の実施例で提供されるビデオ要約生成方法の操作が実行されるように構成されるコンピュータ記憶媒体を更に提供する。
【0216】
本願の実施例の更にまた1つの態様によれば、コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器上で作動する時に、該機器におけるプロセッサが上記のいずれか一項の実施例で提供されるビデオ要約生成方法を実現するためのコマンドを実行するコンピュータプログラム製品を更に提供する。
【0217】
本願の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器1000の構造模式図を示す図10を参照し、図10に示すように、電子機器1000は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)1001、及び/又は1つ又は複数の専用プロセッサであり、専用プロセッサは加速ユニット1013としてよく、画像プロセッサ(GPU)、FPGA、DSP及び他のASICチップのような専用プロセッサ等を含むが、それらに限定されなく、プロセッサは、読み取り専用メモリ(ROM)1002に記憶された実行可能コマンド又は記憶部1008からランダムアクセスメモリ(RAM)1003にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部1012はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはインフィニバンド(Infiniband)ネットワークカードを含んでよいが、それに限定されない。
【0218】
プロセッサは読み取り専用メモリ1002及び/又はランダムアクセスメモリ1003と通信して実行可能コマンドを実行し、通信バス1004を介して通信部1012に接続され、通信部1012を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各場面の画像特徴を取得し、全ての場面の画像特徴により、場面全局特徴を取得し、場面の画像特徴と全局特徴により場面の重みを決定し、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得する。
【0219】
また、RAM1003には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU1001、ROM1002及びRAM1003は、通信バス1004を介して相互に接続される。RAM1003を有する場合に、ROM1002は選択可能なモジュールである。RAM1003に実行可能コマンドを格納して、実行可能コマンドによって中央処理ユニット1001に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インターフェイス1005も通信バス1004に接続される。通信部1012は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
【0220】
キーボード、マウスなどを含む入力部1006と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部1007と、ハードディスクなどを含む記憶部1008と、LANカード、モデムなどのネットワークインターフェイスカードを含む通信部1009とがI/Oインターフェイス1005に接続されている。通信部1009は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ1010も必要に応じてI/Oインターフェイス1005に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体1011は、必要に応じてドライブ1010上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部1008にインストールする。
【0221】
なお、図10に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図10の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えば加速ユニット1013とCPU1001は分離設置するかまたは加速ユニット1013をCPU1001に統合するようにしてよく、通信部は分離設置するか、またはCPU1001や加速ユニット1013に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
【0222】
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、被処理ビデオストリームの場面系列内の場面に対して特徴抽出を行って、少なくとも1フレームのビデオ画像を含む各場面の画像特徴を取得し、全ての場面の画像特徴により、場面全局特徴を取得し、場面の画像特徴と全局特徴により場面の重みを決定し、場面の重みに基づいて被処理ビデオストリームのビデオ要約を取得する。このような実施例では、該コンピュータプログラムは通信部1009によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体1011からインストールされ得る。中央処理ユニット(CPU)1001によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能の操作を実行する。
【0223】
本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
【0224】
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10